CN115983269A - 一种智慧社区数据命名实体识别方法、终端及计算机介质 - Google Patents

一种智慧社区数据命名实体识别方法、终端及计算机介质 Download PDF

Info

Publication number
CN115983269A
CN115983269A CN202210338772.0A CN202210338772A CN115983269A CN 115983269 A CN115983269 A CN 115983269A CN 202210338772 A CN202210338772 A CN 202210338772A CN 115983269 A CN115983269 A CN 115983269A
Authority
CN
China
Prior art keywords
text
data
value
information
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210338772.0A
Other languages
English (en)
Inventor
张旭东
王本安
陈友荣
吕晓雯
王柯
王章权
刘半藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Shuren University
Original Assignee
Zhejiang Shuren University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Shuren University filed Critical Zhejiang Shuren University
Priority to CN202210338772.0A priority Critical patent/CN115983269A/zh
Publication of CN115983269A publication Critical patent/CN115983269A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种智慧社区数据命名实体识别方法、终端及计算机介质,包括:获取智慧社区服务中心海量文本数据;标注数据实体并构建数据集;结合位置信息进行文本数据向量化;构建改进增强表示模型;获取重置门与更新门的门控状态,更新隐藏状态值并输出当前时刻状态,计算文本数据隐藏状态输出值;判断是否完成所有文本数据计算,若是,则获得隐藏特征集合,利用注意力机制权重分配增强局部特征信息;计算特征向量映射到标签的得分;通过softmax归一化产生标签序列集合概率;判断是否完成标签序列集合中每一个元素的计算,若是,则计算损失函数值;判断是否小于预设阈值,如是,则获得最小损失函数对应的最佳得分,并解码得到最佳序列标签。

Description

一种智慧社区数据命名实体识别方法、终端及计算机介质
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种智慧社区数据命名实体识别方法、终端及计算机介质。
背景技术
随着互联网技术的普及与高速发展,产生了海量且类型不统一的数据。然而,面向海量的文本数据,如何有效对获取到的数据进行提取分析成为一个关键问题。因此,自然语言处理技术应运而生,并扮演着越来越重要的作用,越来越受到学术界和产业界的关注。
在早期自然语言处理发展阶段中,主要采用基于规则的方法来实现问答、语义分析等任务,有利于快速实现任务目标,但规范化管理和可扩展能力尚未完善;在中期发展阶段中,基于统计的机器学习(Machine Learning, ML)开始盛行,其主要利用带标注的数据,经过学习来确定机器学习的参数并解码输出,但人工标注会导致效率低下、主观意识较强等问题。
现阶段,深度学习在自然语言处理中大放异彩,其可主要通过深度学习方法进行特征建模学习并训练。其中,命名实体识别算法作为自然语言处理领域中的一项核心算法方法,与事件抽取、问答系统、信息检索等其他自然语言处理基础任务息息相关,能够为特定领域识别出所需要的实体信息。
针对数据命名实体识别,目前面向社区等特定领域的数据命名实体识别算法的研究成果较少,主流命名实体识别算法并没有针对社区等特定领域进行语料库学习;同时,由于长文本信息存在信息遗忘、梯度消失、梯度爆炸和单向信息学习等问题,且目前主流算法并未充分学习上下文的特征信息,无法有效结合数据特点进行分析,因此难以准确且高效地实现特定领域的命名实体识别。
发明内容
为了解决上述技术问题,针对以上问题点,本发明公开了一种智慧社区数据命名实体识别方法、终端及计算机介质,解决现有技术中主流命名实体识别算法并没有针对社区等特定领域进行语料库学习;同时,由于长文本信息存在信息遗忘、梯度消失、梯度爆炸和单向信息学习等问题,且目前主流算法并未充分学习上下文的特征信息,无法有效结合数据特点进行分析,因此难以准确且高效地实现特定领域的命名实体识别的技术问题。
为了达到上述发明目的一种智慧社区数据命名实体识别方法,所述方法包括:
S1.获取智慧社区服务中心海量文本数据;
S2.标注数据实体并构建数据集;
S3.结合位置信息进行文本数据向量化;
S4.构建改进增强表示模型;
S5.获取重置门与更新门的门控状态,更新隐藏状态值并输出当前时刻状态,计算文本数据隐藏状态输出值;
S6.判断是否完成所有文本数据计算,若否,则返回S5;
S7.若是,则获得隐藏特征集合,利用注意力机制权重分配增强局部特征信息;
S8.计算特征向量映射到标签的得分;
S9.通过softmax归一化产生标签序列集合概率;
S10.判断是否完成标签序列集合中每一个元素的计算,若否,则重复步骤S8-S10;
S11.若是,则计算损失函数值;
S12.判断是否小于预设阈值,如是,则获得最小损失函数对应的最佳得分,并解码得到最佳序列标签;
S13.若否,则重复步骤S11-S12。
优选地,所述获取智慧社区服务中心海量文本数据,包括:
通过智慧社区数据服务中心系统获取海量文本数据,获取方式分为线上和线下两种方式;线上获取,采用语音识别软件将获取的语音数据转成所需要的文本数据格式;线下获取,通过提交给社区管理人员的各类纸质数据,转化为文本数据格式。
优选地,所述标注数据实体并构建数据集,包括:采用支持多语言的文本标注工具Doccano,将每条文本中的数据实体进行序列标注,自行构建数据集和标注训练集。
优选地,所述结合位置信息进行文本数据向量化,包括:
数据实体序列标注完成之后,令Q={Q1,Q2,...,Qz,..Qn},
Figure BDA0003574151460000031
其中,Q表示文本所有数据信息,Qz表示第z 条文本信息,
Figure BDA0003574151460000032
表示第z条文本信息下的第i个字,n表示具有n条文本信息,xm表示文本信息Qz中含有m个字;
将文本信息Qz中的每一个字通过词嵌入操作,转化成512维向量
Figure BDA0003574151460000033
Figure BDA0003574151460000034
的位置信息为
Figure BDA0003574151460000035
Figure BDA0003574151460000036
其中,pos表示文本信息中
Figure BDA0003574151460000037
在句子中的具体位置,i表示向量维度,dmodel表示ERNIE模型所接受的512维向量;
将512维的向量
Figure BDA0003574151460000038
Figure BDA0003574151460000039
进行加和运算,获得文本输入向量Tz,作为后续ERNIE模型的输入;
Figure BDA00035741514600000310
其中,
Figure BDA00035741514600000311
表示字xi通过文本向量化后的ERNIE模型的文本输入向量。
优选地,所述构建改进增强表示模型,包括:
将文本输入向量Token={T1,T2,...,Tz,...,Tn}中每个字对应的向量
Figure BDA00035741514600000312
赋值给查询向量Q、键向量K和值向量V;
除以
Figure BDA0003574151460000041
来解决梯度消失的问题,即
Figure BDA0003574151460000042
其中,SelfAttention()表示自注意力函数,softmax()表示归一化指数函数,dk表示键向量的维度;
通过公式(4)计算上下文中每个字对一段文本中所有字的关系,从而判断出文本中不同字之间的相关性与重要程度;结合不同字之间的相关度来修改每个字的权重,从而获得每个字的新表示;
利用多头自注意力机制来学习句子中的特征表示,即令第j次投影自注意力函数计算后的值headj
Figure BDA0003574151460000043
其中,headj表示第j次投影自注意力函数计算后的值,
Figure BDA0003574151460000044
表示经过第j次投影学习到的权重值,则多头自注意力函数Multihead(Q,K,V)为
Multihead(Q,K,V)=Concat(head1,head2,...,headj,...,headh)Wo    (5)
其中,Concat()表示将h个head进行拼接,得到一个新的向量表示,Wo表示拼接时学习到的权重;
通过公式(7)对多头自注意力函数输出的结果进行残差连接;
Figure BDA0003574151460000045
其中,
Figure BDA0003574151460000046
表示文本向量Tz残差连接后的结果;
通过公式(7)对残差连接后的结果进行归一化
Figure BDA0003574151460000047
其中,LayerNorm()表示归一化函数,μ表示为均值,σ表示为标准方差,α与β表示为弥补归一化过程中损失信息的可训练参数,δ表示防止分母中值为0的参数;
将经过残差连接和归一化处理后的文本信息LayerNorm()作为前馈神经网络的输入,即
Figure BDA0003574151460000051
其中,Xz表示经过前馈神经网络后的输出结果,W1表示对归一化后结果进行的第一次投影得到的权重值,b1表示第一次投影后的偏差值,max() 表示求最大值函数,W2表示第二次投影得到的权重值,b2表示第二次投影后的偏差值。最终,对训练集中所有字遍历计算经过前馈神经网络后的输出结果,得到预训练语言模型的输出集合X={X1,X2,...,Xz,...,Xn}。
优选地,所述获取重置门与更新门的门控状态,更新隐藏状态值并输出当前时刻状态,计算文本数据隐藏状态输出值;判断是否完成所有文本数据计算,若否,则返回S5;若是,则获得隐藏特征集合,利用注意力机制权重分配增强局部特征信息,包括:
采用基于注意力机制的改进BiGRU算法方法来实现上述预训练语言模型所输出的长文本向量信息,从而有效提取每条句子中局部的特征。
6.1)获取上一个传输下来的隐藏状态hz-1和当前第z条的文本输入向量 Xz,通过公式(9)和公式(10)获得重置门和更新门的门控状态
rz=ε(Wr[hz-1,Xz])                              (9)
γz=ε(Wγ[hz-1,Xz])                            (10)
其中,Xz表示预训练语言模型输出的第z条信息的文本向量,ε表示sigmoid 函数,rz表示第z条信息重置门的输出值,γz表示第z条信息更新门的输出值,Wr、Wγ分别表示计算重置门、更新门时的权重矩阵,hz-1表示第z-1条信息的隐藏状态值;
6.2)将当前第z条信息的文本输入数据Xz与第z-1条信息隐藏状态值 ht-1,通过公式(11)更新隐藏状态值,从而达到记忆当前时刻状态的效果
h′z=tanh(W[rzhz-1,Xz])         (11)
其中,h′z表示结合第z-1条信息隐藏状态值与当前第z条信息文本输入数据 Xz的隐藏状态值,tanh()表示激活函数;
6.3)通过更新门的输出值γz,通过公式(12)计算最终输出结果,从而到达遗忘和选择记忆的效果;
oz=(1-γz)hz-1zhz      (12)
其中,oz表示第z条信息文本的隐藏状态输出值;
6.4)根据前向GRU输出的隐藏状态值
Figure BDA0003574151460000061
与反向GRU输出的隐藏状态值
Figure BDA0003574151460000062
通过公式(13)计算X中所有文本向量的隐藏特征值hz,若未完成所有文本向量的隐藏特征值的计算,则返回6.1,重新执行如上步骤,否则,获得隐藏特征集合H={h1,h2,...,hz,...,hn}。
Figure BDA0003574151460000063
其中,p1表示第z条信息文本前向GRU所对应的权重,p2表示第z条信息文本反向GRU所对应的权重,bz表示第z条信息文本的偏置,ht表示经过加权求和后的隐藏特征值;
6.5)根据获得的隐藏特征集合H,通过注意力机制来获取文本向量局部的特征信息,从而更好抓取实体的数据。因此进行权重计算与分配,即
szj=vTtanh(m1hz-1+m2Hj)       (14)
其中,szj表示第z条信息文本第j个字隐藏状态输出值的得分,vT、m1、m2表示通过注意力机制可学习到的权重向量。根据所有隐藏状态的得分,通过softmax函数计算得分对应的权重,通过公式(15)计算所有隐藏特征值更新后的特征向量,从而得到新的特征向量表示集合C={c1,c2,...,cz,...,cn},作为标签序列识别的输入;
Figure BDA0003574151460000064
其中,cz表示第z条信息文本经过注意力机制更新后的特征向量。
优选地,所述计算特征向量映射到标签的得分,包括:
令标签序列集合U={y1,y2,...,yz,...,yn},其中yz表示第z条信息文本的标签序列;
根据特征向量集合C,通过公式(16)计算特征向量映射到标签的得分 E(C,U):
Figure BDA0003574151460000071
其中,
Figure BDA0003574151460000072
表示从标签yk转移到标签yk+1的转移概率,
Figure BDA0003574151460000073
表示特征向量集合C中第k个向量被标记为yk的概率。
优选地,所述通过softmax归一化产生标签序列集合概率,包括:
利用Softmax函数指数归一化的思想,产生标签序列集合U的概率,即:
Figure BDA0003574151460000074
其中,P(U|C)表示标签序列集合U的概率,UC表示所有可能的序列标签集合,
Figure BDA0003574151460000076
表示真实的序列标签,exp()表示以自然常数e为底的指数函数。
优选地,在训练过程中,迭代计算所有可能的序列标签集合中的每个元素所对应的得分以及产生标签的概率,若计算完成序列标签集合中每一个元素的计算,所述计算损失函数值;判断是否小于预设阈值,如是,则获得最小损失函数对应的最佳得分,并解码得到最佳序列标签,包括:
通过公式(18)计算损失值;
Figure BDA0003574151460000075
其中,loss表示损失函数值;
当损失函数值大于阈值ε,则更新模型参数,继续训练;
通过迭代计算得到模型的最小化损失函数值,即为模型训练的最终目标;
求解得到模型所对应的得分值E(C,U),在解码阶段采用维特比方法解码出得分最大所对应的最佳序列标签,即为数据命名实体识别模型的标注结果:
Figure BDA0003574151460000081
其中,
Figure BDA0003574151460000082
表示对于第z个信息文本的最佳序列预测标签;
通过遍历计算得到所有最佳序列预测标签集合
Figure BDA0003574151460000083
本发明还提供一种智慧社区数据命名实体识别终端,包括:输入设备、输出设备、存储器、处理器;所述输入设备、所述输出设备、所述存储器和所述处理器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所护处理器被配置调用所述程序指令,执行如前任一所述的智慧社区数据命名实体识别方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存介质在存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器所执行时执行前述任一所述的智慧社区数据命名实体识别方法。
实施本发明实施例,具有如下有益效果:
本发明提供的技术方案针对智能社区数据分析等部分应用中语料库规模较小的问题,引入ERNIE(Enhanced Representation through Knowledge Integration)预训练语言模型,结合自身数据并在大型语料库的模型上进行语义特征学习的预训练,增加自身语料库的文本特征表示。同时ERNIE 利用Transformer模型充分学习上下文的信息来提升模型的抽取能力,从而能够更好的确认地址实体的位置关系,进而解决自身语料库规模较小的问题。考虑传统算法对于长文本信息存在信息遗忘、梯度消失、梯度爆炸和学习单向信息等问题,提出一种基于BiGRU(Bi-Gated Recurrent Unit) 的文本特征提取方法,包括利用隐藏状态完成文本信息的记录与传输,通过更新门与重置门计算隐藏状态的参数值,获取文本对应的隐藏状态的输出信息,从而实现文本特征提取。在文本特征提取后的基础上,利用注意力机制来加强对文本信息中局部特征的学习。同时针对输出的数据特征尚未包含文本的序列信息,对输出的隐藏特征信息进行序列约束,得到输入序列与对应标签序列概率,最后通过维比特解码获得最优标注序列。
本发明不仅结合自身数据并在大型语料库的模型上进行语义特征学习的预训练,增加自身语料库的文本特征表示,而且能对于文本特征进行充分学习并结合注意力机制来增强对局部特征的理解,同时根据输出的数据特征尚未包含文本的序列信息的问题,通过约束序列条件方法进行解决,提高标注序列识别的准确性。
附图说明
为了更清楚地说明本发明所述的一种智慧社区数据命名实体识别方法、终端及计算机介质,附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明实施例提供的一种智慧社区数据命名实体识别方法流程图;
图2为本发明实施例提供的一种智慧社区数据命名实体识别终端结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,图1示出了可用于实施本发明实施例方案的一种智慧社区数据命名实体识别方法,所述方法包括:
一种智慧社区数据命名实体识别方法,所述方法包括:
S1.获取智慧社区服务中心海量文本数据;
S2.标注数据实体并构建数据集;
S3.结合位置信息进行文本数据向量化;
S4.构建改进增强表示模型;
S5.获取重置门与更新门的门控状态,更新隐藏状态值并输出当前时刻状态,计算文本数据隐藏状态输出值;
S6.判断是否完成所有文本数据计算,若否,则返回S5;
S7.若是,则获得隐藏特征集合,利用注意力机制权重分配增强局部特征信息;
S8.计算特征向量映射到标签的得分;
S9.通过softmax归一化产生标签序列集合概率;
S10.判断是否完成标签序列集合中每一个元素的计算,若否,则重复步骤S8-S10;
S11.若是,则计算损失函数值;
S12.判断是否小于预设阈值,如是,则获得最小损失函数对应的最佳得分,并解码得到最佳序列标签;
S13.若否,则重复步骤S11-S12。
优选地,所述获取智慧社区服务中心海量文本数据,包括:
通过智慧社区数据服务中心系统获取海量文本数据,获取方式分为线上和线下两种方式;线上获取,采用语音识别软件将获取的语音数据转成所需要的文本数据格式;线下获取,通过提交给社区管理人员的各类纸质数据,转化为文本数据格式。
所述语音识别软件可以选用科大讯飞等语音识别软件;
优选地,所述标注数据实体并构建数据集,包括:采用支持多语言的文本标注工具Doccano,将每条文本中的数据实体进行序列标注,自行构建数据集和标注训练集。
优选地,所述结合位置信息进行文本数据向量化,包括:
数据实体序列标注完成之后,令Q={Q1,Q2,...,Qz,..Qn},
Figure BDA0003574151460000111
其中,Q表示文本所有数据信息,Qz表示第z 条文本信息,
Figure BDA0003574151460000112
表示第z条文本信息下的第i个字,n表示具有n条文本信息,xm表示文本信息Qz中含有m个字;
针对传统词嵌入算法方法仅考虑文本中字的特征,忽视了每个字的位置信息,造成文本语义不通顺,从而影响识别效果。,因此将文本信息中的每一个字通过词嵌入(TokenEmbedding,TE)操作,转化成512维向量。同时考虑到每个词的具体位置信息可方便后续ERNIE层中的Transformer 了解每个文本信息中的单词顺序关系。
将文本信息Qz中的每一个字通过词嵌入操作,转化成512维向量
Figure BDA0003574151460000113
Figure BDA0003574151460000114
的位置信息为
Figure BDA0003574151460000115
Figure BDA0003574151460000116
其中,pos表示文本信息中
Figure BDA0003574151460000117
在句子中的具体位置,i表示向量维度,dmodel表示ERNIE模型所接受的512维向量;
将512维的向量
Figure BDA0003574151460000121
Figure BDA0003574151460000122
进行加和运算,获得文本输入向量Tz,作为后续ERNIE模型的输入;
Figure BDA0003574151460000123
其中,
Figure BDA0003574151460000124
表示字xi通过文本向量化后的ERNIE模型的文本输入向量。
优选地,文本数据经过向量化以后,引入迁移学习的方法对自身数据语料库的相关特征进行融合,所述构建改进增强表示模型,包括:
将文本输入向量Token={T1,T2,...,Tz,...,Tn}中每个字对应的向量
Figure BDA0003574151460000127
赋值给查询向量Q、键向量K和值向量V;
考虑到数据信息较为复杂且数据量大的特点,在进行模型构建中查询向量Q和键向量K的乘积会导致向量维度较大时值会比较大,从而向量之间的相对差距会比较大,进而softmax后的有些值会更加靠近于1,剩下的值会更加靠近于0,导致计算梯度时会较小,因此需要除以
Figure BDA0003574151460000125
来解决梯度消失的问题,即
Figure BDA0003574151460000126
其中,SelfAttention()表示自注意力函数,softmax()表示归一化指数函数,dk表示键向量的维度;
通过公式(4)计算上下文中每个字对一段文本中所有字的关系,从而判断出文本中不同字之间的相关性与重要程度;结合不同字之间的相关度来修改每个字的权重,从而获得每个字的新表示;
为了提高模型专注于不同位置的能力,扩大向量表示的空间,利用多头自注意力机制来学习句子中的特征表示,即令第j次投影自注意力函数计算后的值headj
Figure BDA0003574151460000131
其中,headj表示第j次投影自注意力函数计算后的值,
Figure BDA0003574151460000132
表示经过第j次投影学习到的权重值,则多头自注意力函数Multihead(Q,K,V)为
Multihead(Q,K,V)=Concat(head1,head2,...,headj,...,headh)Wo    (5)
其中,Concat()表示将h个head进行拼接,得到一个新的向量表示,Wo表示拼接时学习到的权重;
通过公式(7)对多头自注意力函数输出的结果进行残差连接;
Figure BDA0003574151460000133
其中,
Figure BDA0003574151460000134
表示文本向量Tz残差连接后的结果;
通过公式(7)对残差连接后的结果进行归一化,从而减少数据的偏差,最终提高训练和收敛的速度。
Figure BDA0003574151460000135
其中,LayerNorm()表示归一化函数,μ表示为均值,σ表示为标准方差,α与β表示为弥补归一化过程中损失信息的可训练参数,δ表示防止分母中值为0的参数;
将经过残差连接和归一化处理后的文本信息LayerNorm()作为前馈神经网络的输入,即
Figure BDA0003574151460000136
其中,Xz表示经过前馈神经网络后的输出结果,W1表示对归一化后结果进行的第一次投影得到的权重值,b1表示第一次投影后的偏差值,max() 表示求最大值函数,W2表示第二次投影得到的权重值,b2表示第二次投影后的偏差值。最终,对训练集中所有字遍历计算经过前馈神经网络后的输出结果,得到预训练语言模型的输出集合X={X1,X2,...,Xz,...,Xn}。
优选地,所述获取重置门与更新门的门控状态,更新隐藏状态值并输出当前时刻状态,计算文本数据隐藏状态输出值;判断是否完成所有文本数据计算,若否,则返回S5;若是,则获得隐藏特征集合,利用注意力机制权重分配增强局部特征信息,包括:采用基于注意力机制的改进BiGRU 算法方法来实现上述预训练语言模型所输出的长文本向量信息,从而有效提取每条句子中局部的特征。
6.1)获取上一个传输下来的隐藏状态hz-1和当前第z条的文本输入向量 Xz,通过公式(9)和公式(10)获得重置门和更新门的门控状态
rz=ε(Wr[hz-1,Xz])                               (9)
γz=ε(Wγ[hz-1,Xz])                             (10)
其中,Xz表示预训练语言模型输出的第z条信息的文本向量,ε表示sigmoid 函数,rz表示第z条信息重置门的输出值,γz表示第z条信息更新门的输出值,Wr、Wγ分别表示计算重置门、更新门时的权重矩阵,hz-1表示第z-1条信息的隐藏状态值;
6.2)将当前第z条信息的文本输入数据Xz与第z-1条信息隐藏状态值 ht-1,通过公式(11)更新隐藏状态值,从而达到记忆当前时刻状态的效果
h′z=tanh(W[rzhz-1,Xz])      (11)
其中,h′z表示结合第z-1条信息隐藏状态值与当前第z条信息文本输入数据 Xz的隐藏状态值,tanh()表示激活函数;
6.3)通过更新门的输出值γz,通过公式(12)计算最终输出结果,从而到达遗忘和选择记忆的效果;
oz=(1-γz)hz-1zhz      (12)
其中,oz表示第z条信息文本的隐藏状态输出值;
6.4)根据前向GRU输出的隐藏状态值
Figure BDA0003574151460000141
与反向GRU输出的隐藏状态值
Figure BDA0003574151460000142
通过公式(13)计算X中所有文本向量的隐藏特征值hz,若未完成所有文本向量的隐藏特征值的计算,则返回6.1,重新执行如上步骤,否则,获得隐藏特征集合H={h1,h2,...,hz,...,hn}。
Figure BDA0003574151460000151
其中,p1表示第z条信息文本前向GRU所对应的权重,p2表示第z条信息文本反向GRU所对应的权重,bz表示第z条信息文本的偏置,ht表示经过加权求和后的隐藏特征值;
6.5)根据获得的隐藏特征集合H,通过注意力机制来获取文本向量局部的特征信息,从而更好抓取实体的数据。因此进行权重计算与分配,即
szj=vTtanh(m1hz-1+m2hj)       (14)
其中,szj表示第z条信息文本第j个字隐藏状态输出值的得分,vT、m1、m2表示通过注意力机制可学习到的权重向量。根据所有隐藏状态的得分,通过softmax函数计算得分对应的权重,通过公式(15)计算所有隐藏特征值更新后的特征向量,从而得到新的特征向量表示集合C={c1,c2,...,cz,...,cn},作为标签序列识别的输入;
Figure BDA0003574151460000152
其中,cz表示第z条信息文本经过注意力机制更新后的特征向量。
优选地,所述计算特征向量映射到标签的得分,包括:
令标签序列集合U={y1,y2,...,yz,...,yn},其中yz表示第z条信息文本的标签序列;
根据特征向量集合C,通过公式(16)计算特征向量映射到标签的得分 E(C,U):
Figure BDA0003574151460000153
其中,
Figure BDA0003574151460000154
表示从标签yk转移到标签yk+1的转移概率,
Figure BDA0003574151460000155
表示特征向量集合C中第k个向量被标记为yk的概率。
优选地,所述通过softmax归一化产生标签序列集合概率,包括:
利用Softmax函数指数归一化的思想,产生标签序列集合U的概率,即:
Figure BDA0003574151460000161
其中,P(U|C)表示标签序列集合U的概率,UC表示所有可能的序列标签集合,
Figure BDA0003574151460000166
表示真实的序列标签,exp()表示以自然常数e为底的指数函数。
优选地,在训练过程中,迭代计算所有可能的序列标签集合中的每个元素所对应的得分以及产生标签的概率,若计算完成序列标签集合中每一个元素的计算,所述计算损失函数值;判断是否小于预设阈值,如是,则获得最小损失函数对应的最佳得分,并解码得到最佳序列标签,包括:
通过公式(18)计算损失值;
Figure BDA0003574151460000162
其中,loss表示损失函数值;
当损失函数值大于阈值ε,则更新模型参数,继续训练;
通过迭代计算得到模型的最小化损失函数值,即为模型训练的最终目标;
求解得到模型所对应的得分值E(C,U),在解码阶段采用维特比方法解码出得分最大所对应的最佳序列标签,即为数据命名实体识别模型的标注结果:
Figure BDA0003574151460000163
其中,
Figure BDA0003574151460000164
表示对于第z个信息文本的最佳序列预测标签;
通过遍历计算得到所有最佳序列预测标签集合
Figure BDA0003574151460000165
以下结合图2介绍本发明还提供一种智慧社区数据命名实体识别终端,包括:输入设备、输出设备、存储器、处理器;所述输入设备、所述输出设备、所述存储器和所述处理器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所护处理器被配置调用所述程序指令,执行如前任一所述的智慧社区数据命名实体识别方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存介质在存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器所执行时执行前述任一所述的智慧社区数据命名实体识别方法。
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处,相关之处参见方法实施例的部分说明即可。

Claims (10)

1.一种智慧社区数据命名实体识别方法,其特征在于,所述方法包括:
S1.获取智慧社区服务中心海量文本数据;
S2.标注数据实体并构建数据集;
S3.结合位置信息进行文本数据向量化;
S4.构建改进增强表示模型;
S5.获取重置门与更新门的门控状态,更新隐藏状态值并输出当前时刻状态,计算文本数据隐藏状态输出值;
S6.判断是否完成所有文本数据计算,若否,则返回S5;
S7.若是,则获得隐藏特征集合,利用注意力机制权重分配增强局部特征信息;
S8.计算特征向量映射到标签的得分;
S9.通过softmax归一化产生标签序列集合概率;
S10.判断是否完成标签序列集合中每一个元素的计算,若否,则重复步骤S8-S10;
S11.若是,则计算损失函数值;
S12.判断是否小于预设阈值,如是,则获得最小损失函数对应的最佳得分,并解码得到最佳序列标签;
S13.若否,则重复步骤S11-S12。
2.根据权利要求1所述的智慧社区数据命名实体识别方法,其特征在于,所述获取智慧社区服务中心海量文本数据,包括:
通过智慧社区数据服务中心系统获取海量文本数据,获取方式分为线上和线下两种方式;线上获取,采用语音识别软件将获取的语音数据转成所需要的文本数据格式;线下获取,通过提交给社区管理人员的各类纸质数据,转化为文本数据格式。
3.根据权利要求2所述的智慧社区数据命名实体识别方法,其特征在于,所述标注数据实体并构建数据集,包括:采用支持多语言的文本标注工具Doccano,将每条文本中的数据实体进行序列标注,自行构建数据集和标注训练集。
4.根据权利要求3所述的智慧社区数据命名实体识别方法,其特征在于,所述结合位置信息进行文本数据向量化,包括:
数据实体序列标注完成之后,令Q={Q1,Q2,...,Qz,..Qn},
Figure FDA0003574151450000021
其中,Q表示文本所有数据信息,Qz表示第z条文本信息,
Figure FDA0003574151450000022
表示第z条文本信息下的第i个字,n表示具有n条文本信息,xm表示文本信息Qz中含有m个字;
将文本信息Qz中的每一个字通过词嵌入操作,转化成512维向量
Figure FDA0003574151450000023
Figure FDA0003574151450000024
的位置信息为
Figure FDA0003574151450000025
Figure FDA0003574151450000026
其中,pos表示文本信息中
Figure FDA0003574151450000027
在句子中的具体位置,i表示向量维度,dmodel表示ERNIE模型所接受的512维向量;
将512维的向量
Figure FDA0003574151450000028
Figure FDA0003574151450000029
进行加和运算,获得文本输入向量Tz,作为后续ERNIE模型的输入;
Figure FDA00035741514500000210
其中,
Figure FDA00035741514500000211
表示字xi通过文本向量化后的ERNIE模型的文本输入向量。
5.根据权利要求4所述的智慧社区数据命名实体识别方法,其特征在于,所述构建改进增强表示模型,包括:
将文本输入向量Token={T1,T2,…,Tz,…,Tn}中每个字对应的向量
Figure FDA00035741514500000212
赋值给查询向量Q、键向量K和值向量V;
除以
Figure FDA0003574151450000031
来解决梯度消失的问题,即
Figure FDA0003574151450000032
其中,SelfAttention()表示自注意力函数,softmax()表示归一化指数函数,dk表示键向量的维度;
通过公式(4)计算上下文中每个字对一段文本中所有字的关系,从而判断出文本中不同字之间的相关性与重要程度;结合不同字之间的相关度来修改每个字的权重,从而获得每个字的新表示;
利用多头自注意力机制来学习句子中的特征表示,即令第j次投影自注意力函数计算后的值headj
Figure FDA0003574151450000033
其中,headj表示第j次投影自注意力函数计算后的值,
Figure FDA0003574151450000034
表示经过第j次投影学习到的权重值,则多头自注意力函数Multihead(Q,K,V)为
Multihead(Q,K,V)=Concat(head1,head2,...,headj,...,headh)Wo         (5)
其中,Concat()表示将h个head进行拼接,得到一个新的向量表示,Wo表示拼接时学习到的权重;
通过公式(7)对多头自注意力函数输出的结果进行残差连接;
Figure FDA0003574151450000035
其中,
Figure FDA0003574151450000036
表示文本向量Tz残差连接后的结果;
通过公式(7)对残差连接后的结果进行归一化
Figure FDA0003574151450000037
其中,LayerNorm()表示归一化函数,μ表示为均值,σ表示为标准方差,α与β表示为弥补归一化过程中损失信息的可训练参数,δ表示防止分母中值为0的参数;
将经过残差连接和归一化处理后的文本信息LayerNorm()作为前馈神经网络的输入,即
Figure FDA0003574151450000041
其中,Xz表示经过前馈神经网络后的输出结果,W1表示对归一化后结果进行的第一次投影得到的权重值,b1表示第一次投影后的偏差值,max()表示求最大值函数,W2表示第二次投影得到的权重值,b2表示第二次投影后的偏差值。最终,对训练集中所有字遍历计算经过前馈神经网络后的输出结果,得到预训练语言模型的输出集合X={X1,X2,...,Xz,...,Xn}。
6.根据权利要求5所述的智慧社区数据命名实体识别方法,其特征在于,所述获取重置门与更新门的门控状态,更新隐藏状态值并输出当前时刻状态,计算文本数据隐藏状态输出值;判断是否完成所有文本数据计算,若否,则返回S5;若是,则获得隐藏特征集合,利用注意力机制权重分配增强局部特征信息,包括:
采用基于注意力机制的改进BiGRU算法方法来实现上述预训练语言模型所输出的长文本向量信息,从而有效提取每条句子中局部的特征;
6.1)获取上一个传输下来的隐藏状态hz-1和当前第z条的文本输入向量Xz,通过公式(9)和公式(10)获得重置门和更新门的门控状态
rz=ε(Wr[hz-1,Xz])                              (9)
γz=ε(Wγ[hz-1,Xz])                            (10)
其中,Xz表示预训练语言模型输出的第z条信息的文本向量,ε表示sigmoid函数,rz表示第z条信息重置门的输出值,γz表示第z条信息更新门的输出值,Wr、Wγ分别表示计算重置门、更新门时的权重矩阵,hz-1表示第z-1条信息的隐藏状态值;
6.2)将当前第z条信息的文本输入数据Xz与第z-1条信息隐藏状态值ht-1,通过公式(11)更新隐藏状态值,从而达到记忆当前时刻状态的效果
h'z=tanh(W[rzhz-1,Xz])                          (11)
其中,h'z表示结合第z-1条信息隐藏状态值与当前第z条信息文本输入数据Xz的隐藏状态值,tanh()表示激活函数;
6.3)通过更新门的输出值γz,通过公式(12)计算最终输出结果,从而到达遗忘和选择记忆的效果;
oz=(1-γz)hz-1zh'z                         (12)
其中,oz表示第z条信息文本的隐藏状态输出值;
6.4)根据前向GRU输出的隐藏状态值
Figure FDA0003574151450000051
与反向GRU输出的隐藏状态值
Figure FDA0003574151450000052
通过公式(13)计算X中所有文本向量的隐藏特征值hz,若未完成所有文本向量的隐藏特征值的计算,则返回6.1,重新执行如上步骤,否则,获得隐藏特征集合H={h1,h2,...,hz,...,hn}。
Figure FDA0003574151450000053
其中,p1表示第z条信息文本前向GRU所对应的权重,p2表示第z条信息文本反向GRU所对应的权重,bz表示第z条信息文本的偏置,ht表示经过加权求和后的隐藏特征值;
6.5)根据获得的隐藏特征集合H,通过注意力机制来获取文本向量局部的特征信息,从而更好抓取实体的数据。因此进行权重计算与分配,即
szj=vTtanh(m1hz-1+m2hj)                       (14)
其中,szj表示第z条信息文本第j个字隐藏状态输出值的得分,vT、m1、m2表示通过注意力机制可学习到的权重向量。根据所有隐藏状态的得分,通过softmax函数计算得分对应的权重,通过公式(15)计算所有隐藏特征值更新后的特征向量,从而得到新的特征向量表示集合C={c1,c2,....,cz,...,cn},作为标签序列识别的输入;
Figure FDA0003574151450000061
其中,cz表示第z条信息文本经过注意力机制更新后的特征向量。
7.根据权利要求6所述的智慧社区数据命名实体识别方法,其特征在于,所述计算特征向量映射到标签的得分,包括:
令标签序列集合U={y1,y2,...,yz,...,yn},其中yz表示第z条信息文本的标签序列;
根据特征向量集合C,通过公式(16)计算特征向量映射到标签的得分E(C,U);
Figure FDA0003574151450000062
其中,
Figure FDA0003574151450000063
表示从标签yk转移到标签yk+1的转移概率,
Figure FDA0003574151450000064
表示特征向量集合C中第k个向量被标记为yk的概率。
8.根据权利要求7所述的智慧社区数据命名实体识别方法,其特征在于,所述通过softmax归一化产生标签序列集合概率,包括:
利用Softmax函数指数归一化的思想,产生标签序列集合U的概率,即:
Figure FDA0003574151450000065
其中,P(U|C)表示标签序列集合U的概率,UC表示所有可能的序列标签集合,
Figure FDA0003574151450000066
表示真实的序列标签,exp()表示以自然常数e为底的指数函数。
9.根据权利要求8所述的智慧社区数据命名实体识别方法,其特征在于,所述计算损失函数值;判断是否小于预设阈值,如是,则获得最小损失函数对应的最佳得分,并解码得到最佳序列标签,包括:
通过公式(18)计算损失值;
Figure FDA0003574151450000071
其中,loss表示损失函数值;
当损失函数值大于阈值ε,则更新模型参数,继续训练;
通过迭代计算得到模型的最小化损失函数值,即为模型训练的最终目标;
求解得到模型所对应的得分值E(C,U),在解码阶段采用维特比方法解码出得分最大所对应的最佳序列标签,即为数据命名实体识别模型的标注结果:
Figure FDA0003574151450000072
其中,
Figure FDA0003574151450000073
表示对于第z个信息文本的最佳序列预测标签;
通过遍历计算得到所有最佳序列预测标签集合
Figure FDA0003574151450000074
10.一种智慧社区数据命名实体识别终端,其特征在于,包括:输入设备、输出设备、存储器、处理器;所述输入设备、所述输出设备、所述存储器和所述处理器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所护处理器被配置调用所述程序指令,执行如权利要求1-9中任一所述的智慧社区数据命名实体识别方法。
CN202210338772.0A 2022-03-31 2022-03-31 一种智慧社区数据命名实体识别方法、终端及计算机介质 Pending CN115983269A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210338772.0A CN115983269A (zh) 2022-03-31 2022-03-31 一种智慧社区数据命名实体识别方法、终端及计算机介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210338772.0A CN115983269A (zh) 2022-03-31 2022-03-31 一种智慧社区数据命名实体识别方法、终端及计算机介质

Publications (1)

Publication Number Publication Date
CN115983269A true CN115983269A (zh) 2023-04-18

Family

ID=85956863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210338772.0A Pending CN115983269A (zh) 2022-03-31 2022-03-31 一种智慧社区数据命名实体识别方法、终端及计算机介质

Country Status (1)

Country Link
CN (1) CN115983269A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117391456A (zh) * 2023-11-27 2024-01-12 浙江南斗数智科技有限公司 基于人工智能的村社管理方法及服务平台系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117391456A (zh) * 2023-11-27 2024-01-12 浙江南斗数智科技有限公司 基于人工智能的村社管理方法及服务平台系统
CN117391456B (zh) * 2023-11-27 2024-04-05 浙江南斗数智科技有限公司 基于人工智能的村社管理方法及服务平台系统

Similar Documents

Publication Publication Date Title
CN108920622B (zh) 一种意图识别的训练方法、训练装置和识别装置
CN108932342A (zh) 一种语义匹配的方法、模型的学习方法及服务器
CN106502985B (zh) 一种用于生成标题的神经网络建模方法及装置
CN117033608A (zh) 一种基于大语言模型的知识图谱生成式问答方法及系统
CN109857846B (zh) 用户问句与知识点的匹配方法和装置
CN111666427A (zh) 一种实体关系联合抽取方法、装置、设备及介质
WO2023024412A1 (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN113268609A (zh) 基于知识图谱的对话内容推荐方法、装置、设备及介质
WO2022048194A1 (zh) 事件主体识别模型优化方法、装置、设备及可读存储介质
CN109933792A (zh) 基于多层双向lstm和验证模型的观点型问题阅读理解方法
CN110334186A (zh) 数据查询方法、装置、计算机设备及计算机可读存储介质
CN112559706B (zh) 对话生成模型的训练方法、对话方法、设备以及存储介质
CN110969023B (zh) 文本相似度的确定方法及装置
CN112559723A (zh) 一种基于深度学习的faq检索式问答构建方法及系统
CN112989761A (zh) 文本分类方法及装置
CN114564563A (zh) 一种基于关系分解的端到端实体关系联合抽取方法及系统
CN113988071A (zh) 一种基于金融知识图谱的智能对话方法及装置、电子设备
CN115983269A (zh) 一种智慧社区数据命名实体识别方法、终端及计算机介质
CN115481313A (zh) 一种基于文本语义挖掘的新闻推荐方法
CN113761151A (zh) 同义词挖掘、问答方法、装置、计算机设备和存储介质
CN113468311B (zh) 一种基于知识图谱的复杂问句问答方法、装置及存储介质
CN113723111B (zh) 一种小样本意图识别方法、装置、设备及存储介质
CN115600595A (zh) 一种实体关系抽取方法、系统、设备及可读存储介质
CN115600597A (zh) 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质
CN114547313A (zh) 资源类型识别方法以及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination