CN114282535A - 基于上下文语义精准地域识别方法、系统及电子设备 - Google Patents

基于上下文语义精准地域识别方法、系统及电子设备 Download PDF

Info

Publication number
CN114282535A
CN114282535A CN202110364502.2A CN202110364502A CN114282535A CN 114282535 A CN114282535 A CN 114282535A CN 202110364502 A CN202110364502 A CN 202110364502A CN 114282535 A CN114282535 A CN 114282535A
Authority
CN
China
Prior art keywords
region
article
word
intention
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110364502.2A
Other languages
English (en)
Inventor
韩勇
赵冲
李青龙
骆飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Smart Starlight Information Technology Co ltd
Original Assignee
Beijing Smart Starlight Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Smart Starlight Information Technology Co ltd filed Critical Beijing Smart Starlight Information Technology Co ltd
Priority to CN202110364502.2A priority Critical patent/CN114282535A/zh
Publication of CN114282535A publication Critical patent/CN114282535A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于上下文语义精准地域识别方法、系统及电子设备,该方法包括:通过训练好的词向量对训练集进行训练得到地域意图识别模型;获取待识别文章和待识别文章的地域词;将待识别文章划分为多个文章模块;根据地域词确定地域词句子;根据地域词句子确定地域词句子所对应的文章模块;将地域词句子输入地域意图识别模型得到每一个地域词的地域意图识别结果;对地域意图识别结果进行意图方向判定得到地域意图方向判定值;根据多个文章模块确定每一个地域词在文章模块的权值;根据地域词的地域意图方向判定值和所对应的权值确定待识别文章的精准地域信息;根据地域意图方向判定值和所对应的权值得到准确的地域词权重,提高地域识别精准度。

Description

基于上下文语义精准地域识别方法、系统及电子设备
技术领域
本发明涉及互联网数据处理领域,具体涉及到一种基于上下文语义精准地域识别方法、系统、电子设备及存储介质。
背景技术
随着互联网的普及和移动互联网的崛起,媒体以及自媒体时代的到来,网络内容巨增。当今,互联网和移动互联网的快速发展使网络平台成为人们进行消息获取、交流和知识共享的主流平台。
现有方案通过统计地域词出现的次数,次数越高就表示此篇文章描述内容的地域。此方法在一篇文本中具有多个地域,或者文章有转折的时候,地域识别的精准度较低。
发明内容
有鉴于此,本发明实施例提供了一种基于上下文语义精准地域识别方法、系统、电子设备及存储介质,以解决现有技术中地域识别不准确的问题。
为此,本发明实施例提供了如下技术方案:
根据第一方面,本发明实施例提供了一种基于上下文语义精准地域识别方法,包括:获取训练集;通过预先训练好的词向量对训练集进行词嵌入表示,并通过多层全连接神经网络进行上下文语义学习训练,得到地域意图识别模型,所述地域意图识别模型用于对文章中的地域意图进行识别,地域意图识别模型的识别结果包括无地域意图的概率值、离开地域意图的概率值和前往地域意图的概率值;获取待识别文章和待识别文章中的地域词;将待识别文章按照文章结构进行模块划分,得到多个文章模块;根据待识别文章的地域词确定待识别文章中的地域词句子,所述地域词句子为包含待识别文章的地域词的句子;根据地域词句子确定地域词句子所对应的文章模块;将待识别文章中的地域词句子输入地域意图识别模型,得到待识别文章中每一个地域词的地域意图识别结果;对地域意图识别结果进行意图方向判定,得到每一个地域词在文章模块中的地域意图方向判定值;根据多个文章模块确定待识别文章中每一个地域词在文章模块中的权值;根据每一个地域词在文章模块中的地域意图方向判定值和所对应的权值确定待识别文章的精准地域信息。
可选地,根据每一个地域词在文章模块中的地域意图方向判定值和所对应的权值确定待识别文章的精准地域信息的步骤中,包括:根据每一个地域词在文章模块中的权值得到每一个地域词在待识别文章中的权值;对每一个地域词在待识别文章中的权值和在文章模块中的地域意图方向判定值进行地域权值融合计算,得到每一个地域词在待识别文章中的地域最终权重;将待识别文章中所有地域词的地域最终权重进行权重值排序,将权重值最高的地域词作为待识别文章的精准地域信息。
可选地,每一个地域词在待识别文章中的权值的计算公式如下:
Figure BDA0003006873490000021
其中,twl为地域词wl在待识别文章中的权值;λ1为第一文章模块的权值参数;m1为地域词wl在第一文章模块中出现的次数;λ2为第二文章模块的权值参数;m2为地域词wl在第二文章模块中出现的次数;λn为第n文章模块的权值参数;mn为地域词wl在第n文章模块中出现的次数。
可选地,每一个地域词在待识别文章中的地域最终权重的计算公式如下:
Figure BDA0003006873490000031
其中,scorewl为地域词wl在待识别文章中的地域最终权重;d1为地域词wl在第一文章模块中的地域意图方向判定值;d2为地域词wl在第二文章模块中的地域意图方向判定值;dn为地域词wl在第n文章模块中的地域意图方向判定值。
可选地,多个文章模块包括4个模块,分别为文章标题模块、第一文章正文模块、第二文章正文模块和第三文章正文模块;第一文章正文模块包括从文章正文起始位置至文章正文中第一预设字数的位置,第一预设字数小于0.5倍的文章正文总字数;第二文章正文模块包括从文章正文第一预设字数的位置开始至文章正文中间位置;第三文章正文模块包括从文章正文中间位置开始至文章正文结尾位置。
可选地,文章标题模块的权重大于第二文章正文模块的权重,并且大于第三文章正文模块的权重;
第一文章正文模块的权重大于第二文章正文模块的权重,并且大于第三文章正文模块的权重。
可选地,对地域意图识别结果进行意图方向判定,得到每一个地域词在文章模块中的地域意图方向判定值的步骤中,包括:在地域意图识别结果中找到无地域意图的概率值、离开地域意图的概率值和前往地域意图的概率值中的最大概率值;根据最大概率值在预设地域意图方向类别中进行匹配,得到每一个地域词的地域意图识别结果所对应的地域意图方向类别;根据地域意图方向类别得到每一个地域词在文章模块中的地域意图方向判定值。
根据第二方面,本发明实施例提供了一种基于上下文语义精准地域识别系统,包括:第一获取模块,用于获取训练集;第一处理模块,用于通过预先训练好的词向量对训练集进行词嵌入表示,并通过多层全连接神经网络进行上下文语义学习训练,得到地域意图识别模型,所述地域意图识别模型用于对文章中的地域意图进行识别,地域意图识别模型的识别结果包括无地域意图的概率值、离开地域意图的概率值和前往地域意图的概率值;第二获取模块,用于获取待识别文章和待识别文章中的地域词;第二处理模块,用于将待识别文章按照文章结构进行模块划分,得到多个文章模块;第三处理模块,用于根据待识别文章的地域词确定待识别文章中的地域词句子,所述地域词句子为包含待识别文章的地域词的句子;第四处理模块,用于根据地域词句子确定地域词句子所对应的文章模块;第五处理模块,用于将待识别文章中的地域词句子输入地域意图识别模型,得到待识别文章中每一个地域词的地域意图识别结果;第六处理模块,用于对地域意图识别结果进行意图方向判定,得到每一个地域词在文章模块中的地域意图方向判定值;第七处理模块,用于根据多个文章模块确定待识别文章中每一个地域词在文章模块中的权值;第八处理模块,用于根据每一个地域词在文章模块中的地域意图方向判定值和所对应的权值确定待识别文章的精准地域信息。
可选地,所述第八处理模块包括:第一处理单元,用于根据每一个地域词在文章模块中的权值得到每一个地域词在待识别文章中的权值;第二处理单元,用于对每一个地域词在待识别文章中的权值和在文章模块中的地域意图方向判定值进行地域权值融合计算,得到每一个地域词在待识别文章中的地域最终权重;第三处理单元,用于将待识别文章中所有地域词的地域最终权重进行权重值排序,将权重值最高的地域词作为待识别文章的精准地域信息。
可选地,每一个地域词在待识别文章中的权值的计算公式如下:
Figure BDA0003006873490000051
其中,twl为地域词wl在待识别文章中的权值;λ1为第一文章模块的权值参数;m1为地域词wl在第一文章模块中出现的次数;λ2为第二文章模块的权值参数;m2为地域词wl在第二文章模块中出现的次数;λn为第n文章模块的权值参数;mn为地域词wl在第n文章模块中出现的次数。
可选地,每一个地域词在待识别文章中的地域最终权重的计算公式如下:
Figure BDA0003006873490000052
其中,scorewl为地域词wl在待识别文章中的地域最终权重;d1为地域词wl在第一文章模块中的地域意图方向判定值;d2为地域词wl在第二文章模块中的地域意图方向判定值;dn为地域词wl在第n文章模块中的地域意图方向判定值。
可选地,多个文章模块包括4个模块,分别为文章标题模块、第一文章正文模块、第二文章正文模块和第三文章正文模块;第一文章正文模块包括从文章正文起始位置至文章正文中第一预设字数的位置,第一预设字数小于0.5倍的文章正文总字数;第二文章正文模块包括从文章正文第一预设字数的位置开始至文章正文中间位置;第三文章正文模块包括从文章正文中间位置开始至文章正文结尾位置。
可选地,文章标题模块的权重大于第二文章正文模块的权重,并且大于第三文章正文模块的权重;
第一文章正文模块的权重大于第二文章正文模块的权重,并且大于第三文章正文模块的权重。
可选地,所述第六处理模块包括:第四处理单元,用于在地域意图识别结果中找到无地域意图的概率值、离开地域意图的概率值和前往地域意图的概率值中的最大概率值;第五处理单元,用于根据最大概率值在预设地域意图方向类别中进行匹配,得到每一个地域词的地域意图识别结果所对应的地域意图方向类别;第六处理单元,用于根据地域意图方向类别得到每一个地域词在文章模块中的地域意图方向判定值。
根据第三方面,本发明实施例提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器执行上述第一方面任意一项描述的基于上下文语义精准地域识别方法。
根据第四方面,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使计算机执行上述第一方面任意一项描述的基于上下文语义精准地域识别方法。
本发明实施例技术方案,具有如下优点:
本发明实施例提供了一种基于上下文语义精准地域识别方法、系统、电子设备及存储介质,其中,该方法包括:获取训练集;通过预先训练好的词向量对训练集进行词嵌入表示,并通过多层全连接神经网络进行上下文语义学习训练,得到地域意图识别模型,所述地域意图识别模型用于对文章中的地域意图进行识别,地域意图识别模型的识别结果包括无地域意图的概率值、离开地域意图的概率值和前往地域意图的概率值;获取待识别文章和待识别文章中的地域词;将待识别文章按照文章结构进行模块划分,得到多个文章模块;根据待识别文章的地域词确定待识别文章中的地域词句子,所述地域词句子为包含待识别文章的地域词的句子;根据地域词句子确定地域词句子所对应的文章模块;将待识别文章中的地域词句子输入地域意图识别模型,得到待识别文章中每一个地域词的地域意图识别结果;对地域意图识别结果进行意图方向判定,得到每一个地域词在文章模块中的地域意图方向判定值;根据多个文章模块确定待识别文章中每一个地域词在文章模块中的权值;根据每一个地域词在文章模块中的地域意图方向判定值和所对应的权值确定待识别文章的精准地域信息。上述步骤,通过预先训练好的词向量对训练集进行训练,得到地域意图识别模型;将待识别文章按照文章结果划分为不同的文章模块,将文章模块分别输入到地域意图识别模型中得到地域意图识别结果,并对识别结果进行方向判定,得到地域词在各个文章模块中的地域意图方向判定值;根据各个文章模块确定地域词在各个文章模块中的权值;根据地域词在各个文章模块中的权值和地域意图方向判定值共同确定待识别文章的精准地域信息。通过地域意图识别判断地域的方向性,根据地域词在文章中的分布计算权重,融合方向权重加权来计算地域词的最终权重,得到一个更加准确的地域词权重,提高了地域识别的精准度。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的基于上下文语义精准地域识别方法的一个具体示例的流程图;
图2为本发明实施例的基于上下文语义精准地域识别方法的另一个具体示例的流程图;
图3为本发明实施例的基于上下文语义精准地域识别系统的一个具体示例的框图;
图4为本发明实施例的电子设备的示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种基于上下文语义精准地域识别方法,如图1所示,该方法包括步骤S1-S10。
步骤S1:获取训练集。
作为示例性的实施例,先获取到文本数据,然后,根据预设意图词对文本数据进行匹配,得到文本数据中每一个句子的匹配结果。预设意图词是表征从一个地方到另一个地方的意图的词汇,具体可以是去、飞、离开、前往、到达、抵达等词汇;当然,在其它实施例中,预设意图词还可以是其它表征意图的词汇,本实施例中对此仅作示意性说明,不以此为限。匹配结果包括无地域意图、有前往地域意图和有离开地域意图,文本数据中包括若干个无地域意图的句子,若干个有前往地域意图的句子和若干个有离开地域意图的句子。地域意图标签相应的也包括三种标签,与三种匹配结果一一对应,分别为无意图标签、前往意图标签和离开意图标签。将每一个句子和每一个句子所对应的意图标签相对应,构成(句子,意图标签)的二元组数据集,将二元组数据集作为训练集。
步骤S2:通过预先训练好的词向量对训练集进行词嵌入表示,并通过多层全连接神经网络进行上下文语义学习训练,得到地域意图识别模型,所述地域意图识别模型用于对文章中的地域意图进行识别,地域意图识别模型的识别结果包括无地域意图的概率值、离开地域意图的概率值和前往地域意图的概率值。
作为示例性的实施例,通过word2vector模型,对海量历史文本数据集进行无监督的训练学习。通过jieba分词器对历史数据进行分词,把词当作最小的语义单元。通过对海量文本数据的上下文理解,来学习到每个词的语义特征,并保存模型。通过模型便可得到预先训练好的词向量。
通过预训练的词向量对训练集进行词嵌入表示,并通过多层的全连接神经网络,进行上下文语义学习训练,其训练流程图,如图2所示。
文本词向量化指把文本的每个词与词向量进行映射处理,使数据集中的文本转化成向量的形式输入到模型。假设一篇文本S,有v个词W,每个词的词向量维度为d,则S映射到W,如下:
Figure BDA0003006873490000101
其中,W为S中的每个词,v指是S中的词个数,W的向量维度为d,
Figure BDA0003006873490000102
为向量的拼接。输入的维度为
Figure BDA0003006873490000103
全连接公式如下:
y=tanh(wx+b)
其中,w为训练的参数,x为上述维度的词向量输入,b为偏置。
在此加入了3层全连接层进行堆叠。
分类层利用的是softmax函数,如下:
ty=softmax(wx+b)
ty为类别权值。
经过训练后保存训练的模型,得到地域意图识别模型,地域意图识别模型用于对文章中的地域意图进行识别,地域意图识别模型的识别结果包括无地域意图的概率值、离开地域意图的概率值和前往地域意图的概率值。
具体的,地域意图识别模型的输出的结果是属于所有类别的概率值,例如,(0.1,0.4,0.5)的一个三元组的概率值,0.1的概率预测为类别零,0.4的概率预测为类别一,0.5的概率预测为类别二。其中:类别零代表无地域意图,类别一代表有离开地域意图,类别二代表有前往地域意图。
步骤S3:获取待识别文章和待识别文章中的地域词。
作为示例性的实施例,对待识别文章进行命名实体识别便可得到待识别文章的地域词。
步骤S4:将待识别文章按照文章结构进行模块划分,得到多个文章模块。
作为示例性的实施例,按照文章结构,也就是根据一篇文章的上下文结构,把文章划分为若干部分,每一部分对应一个文章模块。具体的,文章结构包括标题和正文,故将文章划分为文章标题模块和若干个文章正文模块。
本实施例中,多个文章模块包括4个模块,分别为文章标题模块、第一文章正文模块、第二文章正文模块和第三文章正文模块;第一文章正文模块包括从文章正文起始位置至文章正文中第一预设字数的位置,第一预设字数小于0.5倍的文章正文总字数;第二文章正文模块包括从文章第一预设字数的位置开始至文章正文中间位置;第三文章正文模块包括从文章正文中间位置开始至文章正文结尾位置。
第一预设字数是基于经验划分的,具体的可通过对一批文本数据进行统计,统计出其前多少个字能够尽可能的包含文章的核心地域信息,包含文章的核心地域信息的前p个字即可作为第一预设字数。具体的,第一预设字数可以是100;当然,在其它实施例中,第一预设字数还可以是其它数值,本实施例中对第一预设字数仅作示意性说明,不以此为限。
文章正文的第一个字是文章正文的起始位置,也就是文章正文起始位置:文章正文的长度的1/2位置也就是文章正文中间位置;文章正文的最后一个字是文章正文的结尾位置,也即是文章正文结尾位置。
步骤S5:根据待识别文章的地域词确定待识别文章中的地域词句子,所述地域词句子为包含待识别文章的地域词的句子。
作为示例性的实施例,根据待识别文章的地域词在待识别文章中进行查找,得到包含地域词的句子,将待识别文章中这些包含地域词的句子构成地域词句子。
步骤S6:根据地域词句子确定地域词句子所对应的文章模块。
作为示例性的实施例,根据地域词句子便可确定句子在待识别文章中的位置,进而便可确定地域词句子所对应的文章模块。
步骤S7:将待识别文章中的地域词句子输入地域意图识别模型,得到待识别文章中每一个地域词的地域意图识别结果。
作为示例性的实施例,将待识别文章中的地域词句子分别输入到地域意图识别模型中,得到句子中每一个地域词所对应的模型输出结果,也就是每一个地域词的地域意图识别结果,具体的,地域意图识别模型输出每一个地域词的无地域意图的概率值、离开地域意图概率值和前往地域意图的概率值。
步骤S8:对地域意图识别结果进行意图方向判定,得到每一个地域词在文章模块中的地域意图方向判定值。
作为示例性的实施例,根据地域意图识别模型的地域意图识别结果,将概率值最大的作为该地域词的意图方向,从而得到该地域词所对应的地域意图方向判定值。本实施例中,地域意图方向判定值包括三个数值,分别为数值0、1和2;其中,0表示无地域意图方向,对地域词不作方向性处理;1表示有离开地域意图方向,对地域词作方向性减弱处理;2表示有去、前往地域意图方向,对地域词作方向性增强处理。
例如,地域意图识别模型输出的某一个地域词的输出结果为(0.1,0.4,0.5),概率最大值0.5代表前往地域意图的概率,故意图方向为前往地域意图方向,则该地域词的地域意图方向判定值为2。
步骤S9:根据多个文章模块确定待识别文章中每一个地域词在文章模块中的权值。
具体地,地域词wl在第i个文章模块中的权值为:
Figure BDA0003006873490000131
其中,λi为第i个文章模块的权值参数;mi为地域词wl在第i个文章模块中出现的次数。
步骤S10:根据每一个地域词在文章模块中的地域意图方向判定值和所对应的权值确定待识别文章的精准地域信息。
作为示例性的实施例,对每一个地域词权值进行加权求和,即把意图识别得到的地域意图方向判定值对地域词权值进行方向性增强和减弱相关处理,得到一个更好能代表地域词重要性的权值。通过上述地域词最终权重计算公式,计算出所有的地域词权重,按照权重排序,权重最高的即为精准地域。
上述步骤,通过预先训练好的词向量对训练集进行训练,得到地域意图识别模型;将待识别文章按照文章结果划分为不同的文章模块,将文章模块分别输入到地域意图识别模型中得到地域意图识别结果,并对识别结果进行方向判定,得到地域词在各个文章模块中的地域意图方向判定值;根据各个文章模块确定地域词在各个文章模块中的权值;根据地域词在各个文章模块中的权值和地域意图方向判定值共同确定待识别文章的精准地域信息。通过地域意图识别判断地域的方向性,根据地域词在文章中的分布计算权重,融合方向权重加权来计算地域词的最终权重,得到一个更加准确的地域词权重,提高了地域识别的精准度。
作为示例性的实施例,步骤S10根据每一个地域词在文章模块中的地域意图方向判定值和所对应的权值确定待识别文章的精准地域信息的步骤中,包括步骤S1001-S1003。
步骤S1001:根据每一个地域词在文章模块中的权值得到每一个地域词在待识别文章中的权值。
本实施例中,将某一个地域词在各个文章模块中的权值进行相加,得到该地域词在待识别文章中的权值。
地域词wl在待识别文章中的权值的计算公式如下:
Figure BDA0003006873490000151
其中,twl为地域词wl在待识别文章中的权值;λ1为第一文章模块的权值参数;m1为地域词wl在第一文章模块中出现的次数;λ2为第二文章模块的权值参数;m2为地域词wl在第二文章模块中出现的次数;λn为第n文章模块的权值参数;mn为地域词wl在第n文章模块中出现的次数。
根据对批量文章核心语义分布统计,给上述各个文章模块部分分配不同的权值,根据地域词分布在上述不同文章模块部分就对应不同的重要性,从而计算出地域词的权值重要性。λ1n均为0-1之间的数值,具体数值可根据实际需要合理确定即可。
本实施例中,文章模块分为四个模块,则计算出地域词的权值为:
Figure BDA0003006873490000152
本实施例中,文章标题模块的权重大于第二文章正文模块的权重,并且大于第三文章正文模块的权重;第一文章正文模块的权重大于第二文章正文模块的权重,并且大于第三文章正文模块的权重。
具体的,文章标题模块的权重可以是0.9,第一文章正文模块的权重可以是0.9,第二文章正文模块的权重可以是0.5,第三文章正文模块的权重可以是0.5。本实施例对各个权重仅作示意性描述,不以此为限;在其它实施例中,可根据需要合理设置。
将文章标题模块和第一文章正文模块的权重设置的较大,出现在上述两个模块中的地域词较重要;将第二文章正文模块和第三文章正文模块的权重设置的较小,出现在这两个模块中的地域词重要程度较低;地域词出现在整个文章中的情况均考虑到,使得地域词在整个待识别文章的权重较准确。
步骤S1002:对每一个地域词在待识别文章中的权值和在文章模块中的地域意图方向判定值进行地域权值融合计算,得到每一个地域词在待识别文章中的地域最终权重。
作为示例性的实施例,每一个地域词在待识别文章中的地域最终权重的计算公式如下:
Figure BDA0003006873490000161
其中,scorewl为地域词wl在待识别文章中的地域最终权重;d1为地域词wl在第一文章模块中的地域意图方向判定值;d2为地域词wl在第二文章模块中的地域意图方向判定值;dn为地域词wl在第n文章模块中的地域意图方向判定值。
步骤S1003:将待识别文章中所有地域词的地域最终权重进行权重值排序,将权重值最高的地域词作为待识别文章的精准地域信息。
本实施例中,将上述步骤中得到的待识别文章中所有地域词的地域最终权重进行降低排序,地域词的最终权重值越大,则地域词在待识别文章中的重要程度越大,故将最终权重最大的地域词作为待识别文章的精准地域信息。
通过地域词在各个文章模块中的权值相加得到地域词在待识别文章中的权值,然后,根据地域词在各个文章模块中的地域意图方向判定值对地域词的权值进行方向性增强和减弱处理,得到每一个地域词在待识别文章中的地域最终权重,将最高权重值作为待识别文章的精准地域信息,使得地域识别结果更加准确。
作为示例性的实施例,步骤S8对地域意图识别结果进行意图方向判定,得到每一个地域词在文章模块中的地域意图方向判定值的步骤中,包括步骤S81-S83。
步骤S81:在地域意图识别结果中找到无地域意图的概率值、离开地域意图的概率值和前往地域意图的概率值中的最大概率值。
具体地,地域意图识别结果中包括无地域意图的概率值、离开地域意图的概率值和前往地域意图的概率值,将这三个概率值进行大小比较,找到这三个概率中的最大值。
步骤S82:根据最大概率值在预设地域意图方向类别中进行匹配,得到每一个地域词的地域意图识别结果所对应的地域意图方向类别。
具体地,最大概率值表明该地域词的地域意图的最大可能性。预设地域意图方向类别包括三种意图方向类别,包括无地域意图方向类别、离开地域意图方向类别和前往地域意图方向类别,上述三种意图方向类别与地域意图识别模型输出的三种识别结果一一对应,故将地域词中最大概率值在预设地域意图方向类别中进行查找,便可查找到每一个地域词的地域意图识别结果所对应的地域意图方向类别。
步骤S83:根据地域意图方向类别得到每一个地域词在文章模块中的地域意图方向判定值。
具体地,每一个地域意图方向类别均对应一个地域意图方向判定值,根据地域意图方向判定值对地域词作方向性增强和减弱处理。
本实施例中,地域意图方向判定值包括三个数值,分别为数值0、1和2;其中,0表示无地域意图方向,对地域词不作方向性处理;1表示有离开地域意图方向,对地域词作方向性减弱处理;2表示有去、前往地域意图方向,对地域词作方向性增强处理。当然,本实施例中对此仅作示意性说明,不以此为限,在其它实施例中,离开地域意图方向还可以是其它大于2的偶数,前往地域意图方向还可以是大于1的奇数。
通过上述步骤对地域词的方向性做增强和减弱相关处理,得到一个更好能代表地域词重要性的权值,提高地域识别的准确度。
下面以一个具体示例进行详细说明。
本实施例中的精准地域识别方法主要包括三大部分:地域意图识别、地域词重要性权值计算、地域权值融合计算。其中,意图识别包括词向量预训练、意图分类训练、意图预测三部分。
步骤1:地域意图识别
1.预训练词向量
通过word2vector模型,对海量文本文本数据集,进行无监督的训练学习。通过jieba分词器对历史数据进行分词,把词当作最小的语义单元。通过对海量文本数据的上下文理解,来学习到每个词的语义特征,并保存模型。
2.地域意图识别
(1)地域意图训练和预测
通过预设的意图词,比如“去”“飞”“离开”“前往”等包含从一个地方到另一个地方的意图的词,从文本数据集里匹配出带有意图词的句子,和不带意图词的句子,构成(句子,意图标签)的二元组数据集的三分类训练集。通过预训练的词向量对训练集进行词嵌入表示,并通过多层的全连接神经网络,进行上下文语义学习训练,其训练流程图如图2所示。
文本词向量化指把文本的每个词与词向量进行映射处理,使数据集中的文本转化成向量的形式输入到模型。假设一篇文本S,有v个词W,每个词的词向量维度为d,则S映射到W,如下所示:
Figure BDA0003006873490000191
其中,W为S中的每个词,v指是S中的词个数,W的向量维度为d,
Figure BDA0003006873490000192
为向量的拼接。输入的维度为
Figure BDA0003006873490000193
全连接公式如下:
y=tanh(wx+b)
其中,w为训练的参数,x为上述维度的词向量输入,b为偏置。
在此加入了3层全连接层进行堆叠。
分类层利用的是softmax函数,如下:
ty=softmax(wx+b)
ty为类别权值。
保存训练的模型,加载模型对新数据进行意图的预测。
预测跟训练流程一样。
步骤2:地域词重要性权值计算
根据一篇文本的上下文结构,把文章划分为四部分,分别为标题、正文前n个字、正文前n个字至文中、文中至文末。根据批量文章核心语义分布统计,给上述四部分分配不同的权值,根据地域词分布在上述部分就对应不同的重要性,从而计算出地域词的权值重要性。
Figure BDA0003006873490000201
其中,λ1、λ2、λ3、λ4分别对应上述标题、正文前n个字、正文前n个字至文中、文中至文末,为通过海量数据进行统计得出的预设的权值参数。其中λ1、λ2参数值会大于λ3、λ4,代表重要性比重大。wl为地域词,m1到m4为地域词在不同的位置出现的次数,最终计算的twl为该地域词的权重。
步骤3:地域权值融合计算
对上述步骤1、2中的地域词权值进行加权求和,即把意图识别得到的地域意图方向性带入到步骤2中,并对方向性做增强和减弱相关处理,得到一个更好能代表地域词重要性的权值,其中一个地域词最终权重计算公式如下:
Figure BDA0003006873490000202
其中,d1到d4即为地域词在上述t1到t4的4个不同位置的地域意图标签类别,类别有0、1、2,0表示无地域意图,1表示有离开地域意图,2表示有去、前往地域意图。
通过上述地域词最终权重计算公式,计算出所有的地域词权重,按照权重排序,权重最高的即为精准地域。
首先对文章上下文做了意图识别,降低了非文章内容涉及地域的干扰。其次,根据批量文本的文章结构语义重要性分布的统计,得出了一种合理的核心语义分布以及分布的权值。通过上下文的语义理解以及全文核心语义分布,来统计和计算文本内容涉及的精准地域,不需要标注数据和特征工程,以及复杂的语义网络训练,既能达到最优的效果。
本实施例中的方法,通过预训练词向量模型,以及多层全连接神经网络训练学习上下文语义,提取文本语义特征,在结合softmax函数做意图三分类,从而判断语义上的地域意图;根据地域词在文章中的分布不同给于不同的权值,来计算地域词权值;融合地域意图和地域在文章中的分布,来计算地域最终的权值,提高了地域识别的准确度。
在本实施例中还提供了一种基于上下文语义精准地域识别系统,该系统用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例还提供一种基于上下文语义精准地域识别系统,如图3所示,包括:
第一获取模块1,用于获取训练集;
第一处理模块2,用于通过预先训练好的词向量对训练集进行词嵌入表示,并通过多层全连接神经网络进行上下文语义学习训练,得到地域意图识别模型,所述地域意图识别模型用于对文章中的地域意图进行识别,地域意图识别模型的识别结果包括无地域意图的概率值、离开地域意图的概率值和前往地域意图的概率值;
第二获取模块3,用于获取待识别文章和待识别文章中的地域词;
第二处理模块4,用于将待识别文章按照文章结构进行模块划分,得到多个文章模块;
第三处理模块5,用于根据待识别文章的地域词确定待识别文章中的地域词句子,所述地域词句子为包含待识别文章的地域词的句子;
第四处理模块6,用于根据地域词句子确定地域词句子所对应的文章模块;
第五处理模块7,用于将待识别文章中的地域词句子输入地域意图识别模型,得到待识别文章中每一个地域词的地域意图识别结果;
第六处理模块8,用于对地域意图识别结果进行意图方向判定,得到每一个地域词在文章模块中的地域意图方向判定值;
第七处理模块9,用于根据多个文章模块确定待识别文章中每一个地域词在文章模块中的权值;
第八处理模块10,用于根据每一个地域词在文章模块中的地域意图方向判定值和所对应的权值确定待识别文章的精准地域信息。
可选地,所述第八处理模块包括:第一处理单元,用于根据每一个地域词在文章模块中的权值得到每一个地域词在待识别文章中的权值;第二处理单元,用于对每一个地域词在待识别文章中的权值和在文章模块中的地域意图方向判定值进行地域权值融合计算,得到每一个地域词在待识别文章中的地域最终权重;第三处理单元,用于将待识别文章中所有地域词的地域最终权重进行权重值排序,将权重值最高的地域词作为待识别文章的精准地域信息。
可选地,每一个地域词在待识别文章中的权值的计算公式如下:
Figure BDA0003006873490000231
其中,twl为地域词wl在待识别文章中的权值;λ1为第一文章模块的权值参数;m1为地域词wl在第一文章模块中出现的次数;λ2为第二文章模块的权值参数;m2为地域词wl在第二文章模块中出现的次数;λn为第n文章模块的权值参数;mn为地域词wl在第n文章模块中出现的次数。
可选地,每一个地域词在待识别文章中的地域最终权重的计算公式如下:
Figure BDA0003006873490000232
其中,scorewl为地域词wl在待识别文章中的地域最终权重;d1为地域词wl在第一文章模块中的地域意图方向判定值;d2为地域词wl在第二文章模块中的地域意图方向判定值;dn为地域词wl在第n文章模块中的地域意图方向判定值。
可选地,多个文章模块包括4个模块,分别为文章标题模块、第一文章正文模块、第二文章正文模块和第三文章正文模块;第一文章正文模块包括从文章正文起始位置至文章正文中第一预设字数的位置,第一预设字数小于0.5倍的文章正文总字数;第二文章正文模块包括从文章正文第一预设字数的位置开始至文章正文中间位置;第三文章正文模块包括从文章正文中间位置开始至文章正文结尾位置。
可选地,文章标题模块的权重大于第二文章正文模块的权重,并且大于第三文章正文模块的权重;
第一文章正文模块的权重大于第二文章正文模块的权重,并且大于第三文章正文模块的权重。
可选地,所述第六处理模块包括:第四处理单元,用于在地域意图识别结果中找到无地域意图的概率值、离开地域意图的概率值和前往地域意图的概率值中的最大概率值;第五处理单元,用于根据最大概率值在预设地域意图方向类别中进行匹配,得到每一个地域词的地域意图识别结果所对应的地域意图方向类别;第六处理单元,用于根据地域意图方向类别得到每一个地域词在文章模块中的地域意图方向判定值。
本实施例中的基于上下文语义精准地域识别系统是以功能单元的形式来呈现,这里的单元是指ASIC电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
上述各个模块的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本发明实施例还提供了一种电子设备,如图4所示,该电子设备包括一个或多个处理器71以及存储器72,图4中以一个处理器71为例。
该控制器还可以包括:输入装置73和输出装置74。
处理器71、存储器72、输入装置73和输出装置74可以通过总线或者其他方式连接,图4中以通过总线连接为例。
处理器71可以为中央处理器(Central Processing Unit,CPU)。处理器71还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者是任何常规的处理器等。
存储器72作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本申请实施例中的基于上下文语义精准地域识别方法对应的程序指令/模块。处理器71通过运行存储在存储器72中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的基于上下文语义精准地域识别方法。
存储器72可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据服务器操作的处理装置的使用所创建的数据等。此外,存储器72可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器72可选包括相对于处理器71远程设置的存储器,这些远程存储器可以通过网络连接至网络连接装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置73可接收输入的数字或字符信息,以及产生与服务器的处理装置的用户设置以及功能控制有关的键信号输入。输出装置74可包括显示屏等显示设备。
一个或者多个模块存储在存储器72中,当被一个或者多个处理器71执行时,执行如图1-2所示的方法。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指示相关的硬件来完成,被执行的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述基于上下文语义精准地域识别方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种基于上下文语义精准地域识别方法,其特征在于,包括:
获取训练集;
通过预先训练好的词向量对训练集进行词嵌入表示,并通过多层全连接神经网络进行上下文语义学习训练,得到地域意图识别模型,所述地域意图识别模型用于对文章中的地域意图进行识别,地域意图识别模型的识别结果包括无地域意图的概率值、离开地域意图的概率值和前往地域意图的概率值;
获取待识别文章和待识别文章中的地域词;
将待识别文章按照文章结构进行模块划分,得到多个文章模块;
根据待识别文章的地域词确定待识别文章中的地域词句子,所述地域词句子为包含待识别文章的地域词的句子;
根据地域词句子确定地域词句子所对应的文章模块;
将待识别文章中的地域词句子输入地域意图识别模型,得到待识别文章中每一个地域词的地域意图识别结果;
对地域意图识别结果进行意图方向判定,得到每一个地域词在文章模块中的地域意图方向判定值;
根据多个文章模块确定待识别文章中每一个地域词在文章模块中的权值;
根据每一个地域词在文章模块中的地域意图方向判定值和所对应的权值确定待识别文章的精准地域信息。
2.根据权利要求1所述的基于上下文语义精准地域识别方法,其特征在于,根据每一个地域词在文章模块中的地域意图方向判定值和所对应的权值确定待识别文章的精准地域信息的步骤中,包括:
根据每一个地域词在文章模块中的权值得到每一个地域词在待识别文章中的权值;
对每一个地域词在待识别文章中的权值和在文章模块中的地域意图方向判定值进行地域权值融合计算,得到每一个地域词在待识别文章中的地域最终权重;
将待识别文章中所有地域词的地域最终权重进行权重值排序,将权重值最高的地域词作为待识别文章的精准地域信息。
3.根据权利要求2所述的基于上下文语义精准地域识别方法,其特征在于,每一个地域词在待识别文章中的权值的计算公式如下:
Figure FDA0003006873480000021
其中,twl为地域词wl在待识别文章中的权值;λ1为第一文章模块的权值参数;m1为地域词wl在第一文章模块中出现的次数;λ2为第二文章模块的权值参数;m2为地域词wl在第二文章模块中出现的次数;λn为第n文章模块的权值参数;mn为地域词wl在第n文章模块中出现的次数。
4.根据权利要求3所述的基于上下文语义精准地域识别方法,其特征在于,每一个地域词在待识别文章中的地域最终权重的计算公式如下:
Figure FDA0003006873480000022
其中,scorewl为地域词wl在待识别文章中的地域最终权重;d1为地域词wl在第一文章模块中的地域意图方向判定值;d2为地域词wl在第二文章模块中的地域意图方向判定值;dn为地域词wl在第n文章模块中的地域意图方向判定值。
5.根据权利要求4所述的基于上下文语义精准地域识别方法,其特征在于,多个文章模块包括4个模块,分别为文章标题模块、第一文章正文模块、第二文章正文模块和第三文章正文模块;第一文章正文模块包括从文章正文起始位置至文章正文中第一预设字数的位置,第一预设字数小于0.5倍的文章正文总字数;第二文章正文模块包括从文章正文第一预设字数的位置开始至文章正文中间位置;第三文章正文模块包括从文章正文中间位置开始至文章正文结尾位置。
6.根据权利要求5所述的基于上下文语义精准地域识别方法,其特征在于,文章标题模块的权重大于第二文章正文模块的权重,并且大于第三文章正文模块的权重;
第一文章正文模块的权重大于第二文章正文模块的权重,并且大于第三文章正文模块的权重。
7.根据权利要求1-6中任一所述的基于上下文语义精准地域识别方法,其特征在于,对地域意图识别结果进行意图方向判定,得到每一个地域词在文章模块中的地域意图方向判定值的步骤中,包括:
在地域意图识别结果中找到无地域意图的概率值、离开地域意图的概率值和前往地域意图的概率值中的最大概率值;
根据最大概率值在预设地域意图方向类别中进行匹配,得到每一个地域词的地域意图识别结果所对应的地域意图方向类别;
根据地域意图方向类别得到每一个地域词在文章模块中的地域意图方向判定值。
8.一种基于上下文语义精准地域识别系统,其特征在于,包括:
第一获取模块,用于获取训练集;
第一处理模块,用于通过预先训练好的词向量对训练集进行词嵌入表示,并通过多层全连接神经网络进行上下文语义学习训练,得到地域意图识别模型,所述地域意图识别模型用于对文章中的地域意图进行识别,地域意图识别模型的识别结果包括无地域意图的概率值、离开地域意图的概率值和前往地域意图的概率值;
第二获取模块,用于获取待识别文章和待识别文章中的地域词;
第二处理模块,用于将待识别文章按照文章结构进行模块划分,得到多个文章模块;
第三处理模块,用于根据待识别文章的地域词确定待识别文章中的地域词句子,所述地域词句子为包含待识别文章的地域词的句子;
第四处理模块,用于根据地域词句子确定地域词句子所对应的文章模块;
第五处理模块,用于将待识别文章中的地域词句子输入地域意图识别模型,得到待识别文章中每一个地域词的地域意图识别结果;
第六处理模块,用于对地域意图识别结果进行意图方向判定,得到每一个地域词在文章模块中的地域意图方向判定值;
第七处理模块,用于根据多个文章模块确定待识别文章中每一个地域词在文章模块中的权值;
第八处理模块,用于根据每一个地域词在文章模块中的地域意图方向判定值和所对应的权值确定待识别文章的精准地域信息。
9.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-7任意一项所述的基于上下文语义精准地域识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-7任意一项所述的基于上下文语义精准地域识别方法。
CN202110364502.2A 2021-04-05 2021-04-05 基于上下文语义精准地域识别方法、系统及电子设备 Pending CN114282535A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110364502.2A CN114282535A (zh) 2021-04-05 2021-04-05 基于上下文语义精准地域识别方法、系统及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110364502.2A CN114282535A (zh) 2021-04-05 2021-04-05 基于上下文语义精准地域识别方法、系统及电子设备

Publications (1)

Publication Number Publication Date
CN114282535A true CN114282535A (zh) 2022-04-05

Family

ID=80868205

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110364502.2A Pending CN114282535A (zh) 2021-04-05 2021-04-05 基于上下文语义精准地域识别方法、系统及电子设备

Country Status (1)

Country Link
CN (1) CN114282535A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115292620A (zh) * 2022-08-09 2022-11-04 腾讯科技(深圳)有限公司 地域信息识别方法、装置、电子设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115292620A (zh) * 2022-08-09 2022-11-04 腾讯科技(深圳)有限公司 地域信息识别方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN108920622B (zh) 一种意图识别的训练方法、训练装置和识别装置
CN110069709B (zh) 意图识别方法、装置、计算机可读介质及电子设备
CN110555084B (zh) 基于pcnn和多层注意力的远程监督关系分类方法
CN106855853A (zh) 基于深度神经网络的实体关系抽取系统
CN111967264B (zh) 一种命名实体识别方法
CN109684928B (zh) 基于互联网检索的中文文档识别方法
CN114818891B (zh) 小样本多标签文本分类模型训练方法及文本分类方法
CN113177412A (zh) 基于bert的命名实体识别方法、系统、电子设备及存储介质
CN113326702B (zh) 语义识别方法、装置、电子设备及存储介质
CN110134950B (zh) 一种字词结合的文本自动校对方法
CN116304745B (zh) 基于深层次语义信息的文本话题匹配方法及系统
CN111930953A (zh) 一种文本属性特征的识别、分类及结构分析方法及装置
CN114722832A (zh) 一种摘要提取方法、装置、设备以及存储介质
CN114282535A (zh) 基于上下文语义精准地域识别方法、系统及电子设备
CN112183513B (zh) 一种图像中文字的识别方法、装置、电子设备及存储介质
CN113722477B (zh) 基于多任务学习的网民情绪识别方法、系统及电子设备
CN115035890B (zh) 语音识别模型的训练方法、装置、电子设备及存储介质
CN116070642A (zh) 一种基于表情嵌入的文本情感分析方法及相关装置
CN110874408A (zh) 模型训练方法、文本识别方法、装置及计算设备
CN115713082A (zh) 一种命名实体识别方法、装置、设备及存储介质
CN112528021B (zh) 一种模型训练方法、模型训练装置及智能设备
CN115017894A (zh) 一种舆情风险识别方法及装置
CN114090781A (zh) 基于文本数据的容斥事件检测方法和装置
CN115238080A (zh) 实体链接方法及相关设备
CN114036289A (zh) 一种意图识别方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination