CN109919175B - 一种结合属性信息的实体多分类方法 - Google Patents

一种结合属性信息的实体多分类方法 Download PDF

Info

Publication number
CN109919175B
CN109919175B CN201910041484.7A CN201910041484A CN109919175B CN 109919175 B CN109919175 B CN 109919175B CN 201910041484 A CN201910041484 A CN 201910041484A CN 109919175 B CN109919175 B CN 109919175B
Authority
CN
China
Prior art keywords
entity
attribute
context
vector
final
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910041484.7A
Other languages
English (en)
Other versions
CN109919175A (zh
Inventor
鲁伟明
陆海蛟
吴飞
庄越挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910041484.7A priority Critical patent/CN109919175B/zh
Publication of CN109919175A publication Critical patent/CN109919175A/zh
Application granted granted Critical
Publication of CN109919175B publication Critical patent/CN109919175B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种结合属性信息的实体多分类方法。实体分类任务的目的是对一个实体结合其上下文信息赋予合适的类别标签。在实体多分类任务中,实体的类别标签仅有一个,通过分类模型预测类别标签概率,将概率最大的标签作为实体的类别。本发明基于传统的实体分类方法,结合知识库实体的属性信息,利用深度学习方法分别对实体、属性以及上下文进行特征表示,其中实体表示包括词汇和字符级别两种特征,上下文特征表示引入了实体感知的注意力机制。此外,通过实体和属性特征的联合训练,避免预测阶段需要引入属性信息。最后,综合利用实体和上下文特征实现实体多分类。本方法通过引入属性信息作为额外特征,提高的实体多分类的效果。

Description

一种结合属性信息的实体多分类方法
技术领域
本发明涉及实体多分类技术,尤其涉及一种结合属性信息的实体多分类方法。
背景技术
实体分类任务的目的是对一个实体结合其上下文信息赋予合适的类别标签。在实体多分类任务中,实体的类别标签仅有一个,通过分类模型预测类别标签概率,将概率最大的标签作为实体的类别。而实体的类别信息能够增强文本中实体的背景信息,有助于许多自然语言处理任务,如问答和阅读理解、知识库构建、实体链接和关系抽取等。
传统的实体多分类方法使用手工特征,依赖于专家知识而有一定局限。此外多数实体多分类方法判断实体的类别时仅考虑上下文信息,却忽视了有些句子信息并不充分。本发明提出了结合属性信息表示实体的深度学习模型,以便充分利用知识库中实体属性信息提供的丰富背景知识。同时考虑测试数据中实体属性信息可能缺失,本发明提出的模型通过联合训练属性和实体表示,从而避免预测阶段需要属性信息。此外,模型中还应用了字符级别信息表示实体的形态学和词形特征,并使用实体感知的注意力机制表示上下文特征。
发明内容
本发明利用实体的文本信息以及知识库中属性列表信息,克服了现有方法忽视知识库信息以及实体上下文信息不充分的缺陷,提高实体多分类的效果,提供一种结合属性信息的实体多分类方法。
本发明解决其技术问题采用的技术方案如下:一种结合属性信息的实体多分类方法,包括以下步骤:
(1)使用循环神经网络表示实体字符级别特征,使用平均编码器表示实体词汇级别初步特征;
(2)使用双向LSTM表示上下文初步特征,并结合上下文初步特征和实体词汇级别初步特征得到实体词汇级别的更新特征和最终特征,然后结合实体字符级别特征和实体词汇级别最终特征得到实体最终特征;
(3)使用实体感知的注意力机制得到上下文最终特征;
(4)使用Max-pooling方式表示实体的属性特征,并联合实体词汇级别的更新特征构建实体-属性的cosine相似度损失函数;
(5)融合步骤(2)得到的实体最终特征和步骤(3)得到的上下文最终特征实现实体多分类,并构建交叉熵损失函数,最后联合步骤(4)得到的实体-属性损失函数进行优化训练。
进一步地,所述步骤(1)包括:
1.1)对语料中所有字符c建立字符表Vc,使用随机初始化表示字符对应的向量,字符向量维度为dc,字符向量的映射函数uc表示为
Figure BDA0001947699670000021
1.2)使用循环神经网络(Recurrent Neural Network,RNN)表示实体字符级别特征。设实体的字符序列表示echar=[c1,c2,…,cm],则字符级别特征为:
hi=f(Wcuc(ci)+Uchi-1)
ec=tanh(hm)
其中:ci、uc(ci)和hi分别表示i时刻的输入字符、字符的向量表示和隐层状态向量,m为实体的字符序列长度,Wc、Uc为RNN的权重矩阵,并将RNN最后一次输出的向量作为最终实体字符级别特征
Figure BDA0001947699670000022
1.3)设语料中所有词汇(包括属性的词汇)组成的词表为Vw,词向量维度为dw,词向量的映射函数u表示为
Figure BDA0001947699670000023
设实体的词序列表示emention=[e1,e2,…,en],则词汇级别初步特征利用平均编码器表示如下:
Figure BDA0001947699670000024
其中:u(ei)表示第i个词汇的向量表示,n为实体的词汇序列长度。实体词汇级别初步特征
Figure BDA0001947699670000025
进一步地,所述步骤(2)包括:
2.1)使用双向LSTM(Long Short-Term Memory,长短时记忆网络)表示上下文初步特征,其中LSTM可以表示为:
it=σ(Wi[ht-1;xt]+bi)
ft=σ(Wf[ht-1;xt]+bf)
ot=σ(Wo[ht-1;xt]+bo)
Figure BDA0001947699670000026
Figure BDA0001947699670000027
ht=ot⊙tanh(ct)
其中:xt表示t时刻输入向量,ht-1,ht分别是上一时刻和当前时刻的隐层状态向量,ct-1,ct分别是上一时刻和当前时刻的cell状态向量,
Figure BDA0001947699670000028
是当前时刻cell的更新状态向量,Wr,br
Figure BDA0001947699670000029
的参数,Wi,bi是输入门it的参数,Wf,bf是遗忘门ft的参数,Wo,bo是输出门ot的参数。σ表示sigmoid函数,⊙表示对应元素之间逐对相乘,[ht-1;xt]表示ht-1和xt进行向量拼接。
2.2)对于长度为C的左上下文contextleft=[lC,lC1,…,l2,l1],应用双向LSTM得到编码序列为
Figure BDA0001947699670000031
其中每个输出由正向和反向序列LSTM隐层状态向量组成
Figure BDA0001947699670000032
2.3)对于长度为C的右上下文contextright=[r1,r2,…,rC],应用双向LSTM得到编码序列为
Figure BDA0001947699670000033
其中每个输出由正向和反向序列LSTM隐层状态向量组成
Figure BDA0001947699670000034
2.4)结合上下文初步特征和实体词汇级别初步特征,实体词汇级别更新特征
Figure BDA0001947699670000035
和最终特征
Figure BDA0001947699670000036
分别表示为:
Figure BDA0001947699670000037
Figure BDA0001947699670000038
其中:
Figure BDA0001947699670000039
Figure BDA00019476996700000310
分别是左右上下文信息经过双向LSTM网络的最后一个输出状态,We、vT均为训练的参数。
2.5)结合实体字符级别特征ec和实体词汇级别最终特征
Figure BDA00019476996700000311
实体最终特征e表示为
Figure BDA00019476996700000312
进一步地,所述步骤(3)中,应用实体感知的注意力机制,将实体信息作为上下文权重计算的输入之一,最终对所有的输出进行加权表示,得到上下文最终特征,具体为:
3.1)经双向LSTM得到左上下文编码序列
Figure BDA00019476996700000313
应用实体感知的注意模型,可表示为:
Figure BDA00019476996700000314
Figure BDA00019476996700000315
Figure BDA00019476996700000316
其中:
Figure BDA00019476996700000317
是左上下文编码序列第i个特征表示,
Figure BDA00019476996700000318
Figure BDA00019476996700000319
是参数矩阵。
3.2)经双向LSTM得到右上下文编码序列
Figure BDA00019476996700000320
应用实体感知的注意力模型可表示为:
Figure BDA00019476996700000321
Figure BDA00019476996700000322
Figure BDA00019476996700000323
其中:
Figure BDA0001947699670000041
是右上下文编码序列第i个特征表示,
Figure BDA0001947699670000042
Figure BDA0001947699670000043
是参数矩阵。
3.3)结合左上下文最终特征cleft和右上下文最终特征cright,上下文最终特征c表示为c=cleft;cright]。
进一步地,所述步骤(4)包括:
4.1)属性分词:实体的属性是知识库中实体属性键值对列表中的键名,因此实体属性列表表示为A(a1,a2,…,ar),其中每个属性通过中文分词后可以得到多个细粒度词汇,则第i个属性的词汇序列可表示为
Figure BDA0001947699670000044
序列长度是ni
4.2)对每个属性使用平均编码器得到属性的向量表示:
Figure BDA0001947699670000045
其中:u(aij)为第i个属性的第j个词汇的向量表示。
4.3)使用max-pooling方式对所有属性的向量表示进行处理,即对所有输入向量同一维度取最大值,得到实体的属性特征a:
a=maxpooling([a1,a2,…,ar])
4.4)联合实体词汇级别更新特征
Figure BDA00019476996700000411
和实体的属性特征a,构建实体-属性的cosine相似度损失函数Ja(θ),表示如下:
Figure BDA0001947699670000046
通过联合训练实体和属性特征表示,可以消除预测阶段需要引入实体的属性信息。
进一步地,所述步骤(5)包括:
5.1)拼接实体最终特征e和上下文最终特征c得到实体多分类模型最终特征x=e;c],通过全连接网络后并应用softmax分类器预测每个类别的概率值,最终得到实体的类别概率分布向量
Figure BDA0001947699670000047
Figure BDA0001947699670000048
其中:Wy是全连接层的参数,用于学习分类特征。
5.2)使用交叉熵作为实体多分类的损失函数Jce(θ):
Figure BDA0001947699670000049
对于有N个类别的多分类问题,t表示真实标签,满足
Figure BDA00019476996700000410
t是一个0-1表示的二元向量,其中正确类别对应的维度值为1,其余维度0;下标i表示维度序号。
5.3)通过实体-属性的cosine相似度损失函数Ja(θ)和交叉熵损失函数Jce(θ),得到联合的损失函数J(θ)为
Figure BDA0001947699670000051
其中:λa是属性信息训练的损失函数权重;
使用梯度下降法对损失函数J(θ)进行优化训练。
本发明所提出的方法与现有的实体多分类方法相比,具有以下优势:
1.使用属性信息增强实体表示,并通过实体和属性特征联合训练避免了预测阶段需要属性信息。
2.摒弃手工特征,仅利用神经网络构建实体多分类模型,并应用实体字符级别特征和实体感知的注意力机制表示上下文特征。
附图说明
图1是本发明提出的结合属性信息的实体多分类模型的示意图;
图2是实体多分类模型中实体编码器的示意图;
图3是实体多分类模型中属性编码器的示意图;
图4是实体编码器和属性编码器中使用的平均编码器示意图;
图5是实体多分类中实体字符序列的RNN编码器示意图。
具体实施方式
如图1中模型框架所示,结合图2至图5,本发明提出的结合属性信息的实体多分类方法,包括以下步骤:
(1)使用循环神经网络表示实体字符级别特征,使用平均编码器表示实体词汇级别初步特征,具体步骤如下:
1.1)对语料中所有字符c建立字符表Vc,使用随机初始化表示字符对应的向量,字符向量维度为dc,字符向量的映射函数uc表示为
Figure BDA0001947699670000052
1.2)使用循环神经网络(Recurrent Neural Network,RNN)表示实体字符级别特征。设实体的字符序列表示echar=[c1,c2,…,cm],则字符级别特征为:
hi=f(Wcuc(ci)+Uchi-1)
ec=tanh(hm)
其中:ci、uc(ci)和hi分别表示i时刻的输入字符、字符的向量表示和隐层状态向量,m为实体的字符序列长度,Wc、Uc为RNN的权重矩阵,并将RNN最后一次输出的向量作为最终实体字符级别特征
Figure BDA0001947699670000053
1.3)设语料中所有词汇(包括属性的词汇)组成的词表为Vw,词向量维度为dw,词向量的映射函数u表示为
Figure BDA0001947699670000054
设实体的词序列表示emention=[e1,e2,…,en],则词汇级别初步特征利用平均编码器表示如下:
Figure BDA0001947699670000061
其中:u(ei)表示第i个词汇的向量表示,n为实体的词汇序列长度。实体词汇级别初步特征
Figure BDA0001947699670000062
(2)使用双向LSTM表示上下文初步特征,并结合上下文初步特征和实体词汇级别初步特征得到实体词汇级别的更新特征和最终特征,然后结合实体字符级别特征和实体词汇级别最终特征得到实体最终特征,具体步骤如下:
2.1)使用双向LSTM表示上下文初步特征,其中LSTM可以表示为:
it=σ(Wi[ht-1;xt]+bi)
ft=σ(Wf[ht-1;xt]+bf)
ot=σ(Wo[ht-1;xt]+bo)
Figure BDA0001947699670000063
Figure BDA0001947699670000064
ht=ot⊙tanh(ct)
其中:xt表示t时刻输入向量,ht-1,ht分别是上一时刻和当前时刻的隐层状态向量,ct-1,ct分别是上一时刻和当前时刻的cell状态向量,
Figure BDA0001947699670000065
是当前时刻cell的更新状态向量,Wr,br
Figure BDA0001947699670000066
的参数,Wi,bi是输入门it的参数,Wf,bf是遗忘门ft的参数,Wo,bo是输出门ot的参数。σ表示sigmoid函数,⊙表示对应元素之间逐对相乘,[ht-1;xt]表示ht-1和xt进行向量拼接。
2.2)对于长度为C的左上下文contextleft=[lC,lC1,…,l2,l1],应用双向LSTM得到编码序列为
Figure BDA0001947699670000067
其中每个输出由正向和反向序列LSTM隐层状态向量组成
Figure BDA0001947699670000068
2.3)对于长度为C的右上下文contextright=[r1,r2,…,rC],应用双向LSTM得到编码序列为
Figure BDA0001947699670000069
其中每个输出由正向和反向序列LSTM隐层状态向量组成
Figure BDA00019476996700000610
2.4)结合上下文初步特征和实体词汇级别初步特征,实体词汇级别更新特征
Figure BDA00019476996700000611
和最终特征
Figure BDA00019476996700000612
分别表示为:
Figure BDA00019476996700000613
Figure BDA00019476996700000614
其中
Figure BDA00019476996700000615
Figure BDA00019476996700000616
分别是左右上下文信息经过双向LSTM网络的最后一个输出状态,We、vT均为训练的参数。
2.5)结合实体字符级别特征ec和实体词汇级别最终特征
Figure BDA00019476996700000617
实体最终特征e表示为:
Figure BDA0001947699670000071
(3)使用实体感知的注意力机制得到上下文最终特征,具体步骤如下:
应用实体感知的注意力机制,将实体信息作为上下文权重计算的输入之一,最终对所有的输出进行加权表示,得到上下文最终特征,具体为:
3.1)经双向LSTM得到左上下文编码序列
Figure BDA0001947699670000072
应用实体感知的注意模型,可表示为:
Figure BDA0001947699670000073
Figure BDA0001947699670000074
Figure BDA0001947699670000075
其中:
Figure BDA0001947699670000076
是左上下文编码序列第i个特征表示,
Figure BDA0001947699670000077
Figure BDA0001947699670000078
是参数矩阵。
3.2)经双向LSTM得到右上下文编码序列
Figure BDA0001947699670000079
应用实体感知的注意力模型可表示为:
Figure BDA00019476996700000710
Figure BDA00019476996700000711
Figure BDA00019476996700000712
其中:
Figure BDA00019476996700000713
是右上下文编码序列第i个特征表示,
Figure BDA00019476996700000714
Figure BDA00019476996700000715
是参数矩阵。
3.3)结合左上下文最终特征cleft和右上下文最终特征cright,上下文最终特征c表示为:
c=cleft;cright]
(4)使用Max-pooling方式表示实体的属性特征,并联合实体词汇级别的更新特征构建实体-属性的cosine相似度损失函数,具体步骤如下:
4.1)属性分词:实体的属性是知识库中实体属性键值对列表中的键名,因此实体属性列表表示为A(a1,a2,…,ar),其中每个属性通过中文分词后可以得到多个细粒度词汇,则第i个属性的词汇序列可表示为
Figure BDA00019476996700000716
序列长度是ni
4.2)对每个属性使用平均编码器得到属性的向量表示:
Figure BDA00019476996700000717
其中:u(aij)为第i个属性的第j个词汇的向量表示。
4.3)使用max-pooling方式对所有属性的向量表示进行处理,即对所有输入向量同一维度取最大值,得到实体的属性特征a:
a=maxpooling([a1,a2,…,ar])
4.4)联合实体词汇级别更新特征
Figure BDA0001947699670000081
和实体的属性特征a,构建实体-属性的cosine相似度损失函数Ja(θ),表示如下:
Figure BDA0001947699670000082
通过联合训练实体和属性特征表示,可以消除预测阶段需要引入实体的属性信息。
(5)融合步骤(2)得到的实体最终特征和步骤(3)得到的上下文最终特征实现实体多分类,并构建交叉熵损失函数,最后联合步骤(4)得到的实体-属性损失函数进行优化训练,具体步骤如下:
5.1)拼接实体最终特征e和上下文最终特征c得到实体多分类模型最终特征x=e;c],通过全连接网络后并应用softmax分类器预测每个类别的概率值,最终得到实体的类别概率分布向量
Figure BDA0001947699670000083
Figure BDA0001947699670000084
其中:Wy是全连接层的参数,用于学习分类特征;
5.2)使用交叉熵作为实体多分类的损失函数Jce(θ):
Figure BDA0001947699670000085
对于有N个类别的多分类问题,t表示真实标签,满足
Figure BDA0001947699670000086
t是一个0-1表示的二元向量,其中正确类别对应的维度值为1,其余维度0;下标i表示维度序号。
5.3)通过实体-属性的cosine相似度损失函数Ja(θ)和交叉熵损失函数Jce(θ),得到联合的损失函数J(θ)为
Figure BDA0001947699670000087
其中:λa是属性信息训练的损失函数权重。
使用梯度下降法对损失函数J(θ)进行优化训练。
实施例
下面结合本技术的方法详细说明该实例实施的具体步骤,如下:
(1)本实例采用的数据集构建自英文维基百科以及Wikidata数据。利用Wikidata获得属性名,经过清洗获得约24万实体及其属性信息列表。此外建立包括25个标签的实体类别体系,通过远程监督的方法将Wikidata中类别信息为实体标注,并选择维基百科中包含实体的文本作为上下文。最后将数据划分为训练集和测试集,其中训练集数据大小是430389,测试集数据大小是37900。
(2)选择Tensorflow框架根据上述步骤构建深度学习分类模型,并使用300维的Glove作为词向量,100维的随机初始向量作为字符向量,Adam方法优化训练步骤5.3)中联合损失函数。
(3)模型的输入包括实体词、实体的字符序列、实体的句子上下文,此外在训练阶段还需要输入实体的属性列表,通过神经网络分别得到实体和上下文特征表示,经过全连接以及softmax分类后将概率值最大的标签作为实体的预测类别。
(4)模型使用宏平均(包括macro precision,recall,F1)以及正确率(accuracy)依存进行效果评估。
(5)相关的对比实验包括:
a.基础模型:本发明提出的模型去除字符级别特征以及属性信息,同时上下文特征表示中未使用实体作为注意力机制的输入;
b.基础模型+字符级别特征:在基础模型上增加实体的字符级别特征,并将实体的词汇级别特征作为实体感知注意力模型的输入;
c.基础模型+属性信息特征:在基础模型之上增加属性信息进行联合训练;
d.完整模型:即本发明提出的模型,包括实体属性信息联合训练以及字符级别特征、实体感知的注意力机制。
(6)实验结果
各个模型的实验结果如下表所示:
Figure BDA0001947699670000091
对比上述模型的实体多分类效果,本发明提出的结合属性特征的模型相比基础模型有较大的提升效果,此外实体的字符级别特征对实体多分类也有促进效果。因此,结合属性信息的实体多分类模型能够有效利用知识库中实体属性信息,进而补充上下文信息,对于实体分类任务有良好的使用价值和应用前景。
上述具体实施方式用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (6)

1.一种结合属性信息的实体多分类方法,其特征在于,包括以下步骤:
(1)使用循环神经网络表示实体字符级别特征,使用平均编码器表示实体词汇级别初步特征;
(2)使用双向LSTM表示上下文初步特征,并结合上下文初步特征和实体词汇级别初步特征得到实体词汇级别的更新特征和最终特征,然后结合实体字符级别特征和实体词汇级别最终特征得到实体最终特征;
(3)使用实体感知的注意力机制得到上下文最终特征;
(4)使用Max-pooling方式表示实体的属性特征,并联合实体词汇级别的更新特征构建实体-属性的cosine相似度损失函数;
(5)融合步骤(2)得到的实体最终特征和步骤(3)得到的上下文最终特征实现实体多分类,并构建交叉熵损失函数,最后联合步骤(4)得到的实体-属性损失函数进行优化训练。
2.根据权利要求1所述的结合属性信息的实体多分类方法,其特征在于,所述步骤(1)包括以下子步骤:
1.1)对语料中所有字符c建立字符表Vc,使用随机初始化表示字符对应的向量,字符向量维度为dc,字符向量的映射函数uc表示为
Figure FDA0002614045590000011
1.2)使用循环神经网络RNN表示实体字符级别特征;设实体的字符序列表示echar=[c1,c2,…,cm],则字符级别特征为:
hi=f(Wcuc(ci)+Uchi-1)
ec=tanh(hm)
其中:ci、uc(ci)和hi分别表示i时刻的输入字符、字符的向量表示和隐层状态向量,m为实体的字符序列长度,Wc、Uc为RNN的权重矩阵,并将RNN最后一次输出的向量作为最终实体字符级别特征
Figure FDA0002614045590000012
1.3)设语料中所有词汇组成的词表为Vw,词向量维度为dw,词向量的映射函数u表示为
Figure FDA0002614045590000013
设实体的词序列表示emention=[e1,e2,…,en],则词汇级别初步特征利用平均编码器表示如下:
Figure FDA0002614045590000014
其中:u(ei)表示第i个词汇的向量表示,n为实体的词汇序列长度;实体词汇级别初步特征
Figure FDA0002614045590000015
3.根据权利要求1所述的结合属性信息的实体多分类方法,其特征在于,所述步骤(2)包括以下子步骤:
2.1)使用双向LSTM表示上下文初步特征,其中LSTM可以表示为:
it=σ(Wi[ht-1;xt]+bi)
ft=σ(Wf[ht-1;xt]+bf)
ot=σ(Wo[ht-1;xt]+bo)
Figure FDA0002614045590000021
Figure FDA0002614045590000022
ht=ot⊙tanh(ct)
其中:xt表示t时刻输入向量,ht-1,ht分别是上一时刻和当前时刻的隐层状态向量,ct-1,ct分别是上一时刻和当前时刻的cell状态向量,
Figure FDA0002614045590000023
是当前时刻cell的更新状态向量,Wr,br
Figure FDA0002614045590000024
的参数,Wi,bi是输入门it的参数,Wf,bf是遗忘门ft的参数,Wo,bo是输出门ot的参数;σ表示sigmoid函数,⊙表示对应元素之间逐对相乘,[ht-1;xt]表示ht-1和xt进行向量拼接;
2.2)对于长度为C的左上下文contextleft=[lC,lC-1,…,l2,l1],应用双向LSTM得到编码序列为
Figure FDA0002614045590000025
其中每个输出由正向和反向序列LSTM隐层状态向量组成
Figure FDA0002614045590000026
2.3)对于长度为C的右上下文contextright=[r1,r2,…,rC],应用双向LSTM得到编码序列为
Figure FDA0002614045590000027
其中每个输出由正向和反向序列LSTM隐层状态向量组成
Figure FDA0002614045590000028
2.4)结合上下文初步特征和实体词汇级别初步特征,实体词汇级别更新特征
Figure FDA00026140455900000217
和最终特征
Figure FDA0002614045590000029
分别表示为:
Figure FDA00026140455900000210
Figure FDA00026140455900000211
其中:
Figure FDA00026140455900000212
Figure FDA00026140455900000213
分别是左右上下文信息经过双向LSTM网络的最后一个输出状态,We、vT均为训练的参数;
2.5)结合实体字符级别特征ec和实体词汇级别最终特征
Figure FDA00026140455900000214
实体最终特征e表示为
Figure FDA00026140455900000215
4.根据权利要求1所述的结合属性信息的实体多分类方法,其特征在于,所述步骤(3)中,应用实体感知的注意力机制,将实体信息作为上下文权重计算的输入之一,最终对所有的输出进行加权表示,得到上下文最终特征,具体为:
3.1)经双向LSTM得到左上下文编码序列
Figure FDA00026140455900000216
应用实体感知的注意模型,可表示为:
Figure FDA0002614045590000031
Figure FDA0002614045590000032
Figure FDA0002614045590000033
其中:
Figure FDA0002614045590000034
是左上下文编码序列第i个特征表示,
Figure FDA0002614045590000035
Figure FDA0002614045590000036
是参数矩阵;
3.2)经双向LSTM得到右上下文编码序列
Figure FDA0002614045590000037
应用实体感知的注意力模型可表示为:
Figure FDA0002614045590000038
Figure FDA0002614045590000039
Figure FDA00026140455900000310
其中:
Figure FDA00026140455900000311
是右上下文编码序列第i个特征表示,
Figure FDA00026140455900000312
Figure FDA00026140455900000313
是参数矩阵;
3.3)结合左上下文最终特征cleft和右上下文最终特征cright,上下文最终特征c表示为c=[cleft;cright]。
5.根据权利要求1所述的结合属性信息的实体多分类方法,其特征在于,所述步骤(4)包括以下子步骤:
4.1)属性分词:实体的属性是知识库中实体属性键值对列表中的键名,因此实体属性列表表示为A=(a1,a2,…,ar),其中每个属性通过中文分词后可以得到多个细粒度词汇,则第i个属性的词汇序列可表示为
Figure FDA00026140455900000314
序列长度是ni
4.2)对每个属性使用平均编码器得到属性的向量表示:
Figure FDA00026140455900000315
其中:u(aij)为第i个属性的第j个词汇的向量表示;
4.3)使用max-pooling方式对所有属性的向量表示进行处理,即对所有输入向量同一维度取最大值,得到实体的属性特征a:
a=maxpooling([a1,a2,…,ar])
4.4)联合实体词汇级别更新特征
Figure FDA00026140455900000316
和实体的属性特征a,构建实体-属性的cosine相似度损失函数Ja(θ),表示如下:
Figure FDA0002614045590000041
通过联合训练实体和属性特征表示,可以消除预测阶段需要引入实体的属性信息。
6.根据权利要求1所述的结合属性信息的实体多分类方法,其特征在于,所述步骤(5)包括以下子步骤:
5.1)拼接实体最终特征e和上下文最终特征c得到实体多分类模型最终特征x=[e;c],通过全连接网络后并应用softmax分类器预测每个类别的概率值,最终得到实体的类别概率分布向量
Figure FDA0002614045590000042
Figure FDA0002614045590000043
其中:Wy是全连接层的参数,用于学习分类特征;
5.2)使用交叉熵作为实体多分类的损失函数Jce(θ):
Figure FDA0002614045590000044
对于有N个类别的多分类问题,t表示真实标签,满足
Figure FDA0002614045590000045
t是一个0-1表示的二元向量,其中正确类别对应的维度值为1,其余维度0;下标i表示维度序号;
5.3)通过实体-属性的cosine相似度损失函数Ja(θ)和交叉熵损失函数Jce(θ),得到联合的损失函数J(θ)为
Figure FDA0002614045590000046
其中:λa是属性信息训练的损失函数权重;
使用梯度下降法对损失函数J(θ)进行优化训练。
CN201910041484.7A 2019-01-16 2019-01-16 一种结合属性信息的实体多分类方法 Active CN109919175B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910041484.7A CN109919175B (zh) 2019-01-16 2019-01-16 一种结合属性信息的实体多分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910041484.7A CN109919175B (zh) 2019-01-16 2019-01-16 一种结合属性信息的实体多分类方法

Publications (2)

Publication Number Publication Date
CN109919175A CN109919175A (zh) 2019-06-21
CN109919175B true CN109919175B (zh) 2020-10-23

Family

ID=66960399

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910041484.7A Active CN109919175B (zh) 2019-01-16 2019-01-16 一种结合属性信息的实体多分类方法

Country Status (1)

Country Link
CN (1) CN109919175B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046172B (zh) * 2019-10-30 2024-04-12 北京奇艺世纪科技有限公司 一种舆情分析方法、装置、设备和存储介质
CN111259673B (zh) * 2020-01-13 2023-05-09 山东财经大学 一种基于反馈序列多任务学习的法律判决预测方法及系统
CN111428046B (zh) * 2020-03-18 2021-06-01 浙江网新恩普软件有限公司 一种基于双向lstm深度神经网络的知识图谱生成方法
CN111782768B (zh) * 2020-06-30 2021-04-27 首都师范大学 基于双曲空间表示和标签文本互动的细粒度实体识别方法
CN113032584B (zh) * 2021-05-27 2021-09-17 北京明略软件系统有限公司 一种实体关联方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1094635B1 (en) * 1999-10-19 2009-08-05 Nortel Networks Limited Apparatus and method for selecting network entities
CN103678316A (zh) * 2012-08-31 2014-03-26 富士通株式会社 实体关系分类装置和实体关系分类方法
CN103824115A (zh) * 2014-02-28 2014-05-28 中国科学院计算技术研究所 面向开放网络知识库的实体间关系推断方法及系统
CN103631948B (zh) * 2013-12-11 2017-01-11 北京京东尚科信息技术有限公司 命名实体的识别方法
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法
CN108090070A (zh) * 2016-11-22 2018-05-29 北京高地信息技术有限公司 一种中文实体属性抽取方法
CN108805290A (zh) * 2018-06-28 2018-11-13 国信优易数据有限公司 一种实体类别的确定方法及装置
CN109145303A (zh) * 2018-09-06 2019-01-04 腾讯科技(深圳)有限公司 命名实体识别方法、装置、介质以及设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110167402A1 (en) * 2010-01-02 2011-07-07 Shahbaz Ahmad Generic Framework for Accelerated Development of Automated Software Solutions
CN104317867B (zh) * 2014-10-17 2018-02-09 上海交通大学 对搜索引擎返回的网页图片进行实体聚类的系统
CN105824801B (zh) * 2015-03-16 2018-06-15 国家计算机网络与信息安全管理中心 一种基于自动机的实体关系快速抽取方法
JP2018010532A (ja) * 2016-07-14 2018-01-18 株式会社レトリバ 情報処理装置、プログラム及び情報処理方法
CN109213868A (zh) * 2018-11-21 2019-01-15 中国科学院自动化研究所 基于卷积注意力机制网络的实体级别情感分类方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1094635B1 (en) * 1999-10-19 2009-08-05 Nortel Networks Limited Apparatus and method for selecting network entities
CN103678316A (zh) * 2012-08-31 2014-03-26 富士通株式会社 实体关系分类装置和实体关系分类方法
CN103631948B (zh) * 2013-12-11 2017-01-11 北京京东尚科信息技术有限公司 命名实体的识别方法
CN103824115A (zh) * 2014-02-28 2014-05-28 中国科学院计算技术研究所 面向开放网络知识库的实体间关系推断方法及系统
CN108090070A (zh) * 2016-11-22 2018-05-29 北京高地信息技术有限公司 一种中文实体属性抽取方法
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法
CN108805290A (zh) * 2018-06-28 2018-11-13 国信优易数据有限公司 一种实体类别的确定方法及装置
CN109145303A (zh) * 2018-09-06 2019-01-04 腾讯科技(深圳)有限公司 命名实体识别方法、装置、介质以及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Template Based Attribute Value Words Acquisition in Entity Attribute Knowledge in Entity Attribute Knowledge;Honglin WU et al.;《2017 International Conference on Computing Intelligence and Information System》;20171231;全文 *
基于多注意力长短时记忆的实体属性情感分析;支淑婷 等;《计算机应用》;20190110;第39卷(第1期);全文 *

Also Published As

Publication number Publication date
CN109919175A (zh) 2019-06-21

Similar Documents

Publication Publication Date Title
CN109919175B (zh) 一种结合属性信息的实体多分类方法
CN109902293B (zh) 一种基于局部与全局互注意力机制的文本分类方法
US11663404B2 (en) Text recognition method, electronic device, and storage medium
CN107358948B (zh) 基于注意力模型的语言输入关联性检测方法
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
CN107145483B (zh) 一种基于嵌入式表示的自适应中文分词方法
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
CN107291795B (zh) 一种结合动态词嵌入和词性标注的文本分类方法
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
CN109934261B (zh) 一种知识驱动参数传播模型及其少样本学习方法
CN108062388A (zh) 人机对话的回复生成方法和装置
CN109472031A (zh) 一种基于双记忆注意力的方面级别情感分类模型及方法
CN110609891A (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN107145484A (zh) 一种基于隐多粒度局部特征的中文分词方法
CN111046668A (zh) 多模态文物数据的命名实体识别方法与装置
CN110765775A (zh) 一种融合语义和标签差异的命名实体识别领域自适应的方法
CN110442721B (zh) 神经网络语言模型、训练方法、装置及存储介质
WO2018023356A1 (en) Machine translation method and apparatus
CN110263325A (zh) 中文分词系统
CN111581970B (zh) 一种网络语境的文本识别方法、装置及存储介质
CN110162789A (zh) 一种基于汉语拼音的词表征方法及装置
CN110276396B (zh) 基于物体显著性和跨模态融合特征的图片描述生成方法
CN111400494A (zh) 一种基于GCN-Attention的情感分析方法
CN116861995A (zh) 多模态预训练模型的训练及多模态数据处理方法和装置
CN112699222B (zh) 基于量子启发式神经网络的文本分类方法及邮件分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant