CN109710923B - 基于跨媒体信息的跨语言实体匹配方法 - Google Patents

基于跨媒体信息的跨语言实体匹配方法 Download PDF

Info

Publication number
CN109710923B
CN109710923B CN201811489628.7A CN201811489628A CN109710923B CN 109710923 B CN109710923 B CN 109710923B CN 201811489628 A CN201811489628 A CN 201811489628A CN 109710923 B CN109710923 B CN 109710923B
Authority
CN
China
Prior art keywords
entity
matching
language
cross
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811489628.7A
Other languages
English (en)
Other versions
CN109710923A (zh
Inventor
鲁伟明
王鹏
吴飞
庄越挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201811489628.7A priority Critical patent/CN109710923B/zh
Publication of CN109710923A publication Critical patent/CN109710923A/zh
Application granted granted Critical
Publication of CN109710923B publication Critical patent/CN109710923B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于跨媒体信息的跨语言实体匹配方法。实体匹配通常针对同语言的多个知识图谱的融合问题,提供一种知识图谱中实体相似度的计算方法。跨语言实体匹配则面向多种语言的知识图谱,来实现不同语言知识图谱中实体的匹配。本发明从实体的多种模态的媒体信息出发,利用深度学习方法提取实体文本、图像多模态的特征,进行跨语言实体匹配。利用深度学习模型对实体的文本信息进行跨语言文本匹配,计算文本匹配相似度;使用深度卷积神经网络提取实体图像信息特征,计算图像匹配相似度;最后,综合利用实体文本、图像方面的特征,进行跨语言实体匹配。本发明较好的利用了文本和图像方面的特征,提高了跨语言实体匹配的准确率。

Description

基于跨媒体信息的跨语言实体匹配方法
技术领域
本发明涉及跨语言实体匹配技术,尤其涉及一种基于跨媒体信息的跨语言实体匹配方法。
背景技术
跨语言实体匹配的目标在于,给定一系列不同来源、不同语言的实体集合,合并其中描述同一概念的实体,将这些实体集合融合成为一个新的知识库。对于不同来源的实体,它们在实体的表达上可能存在冗余,可能存在差异,也可能互相补充,因此实体匹配对于知识的补充完善以及保持知识库的一致性具有重要的意义。
传统的实体匹配一般都是基于实体的文本特征,例如计算两个实体描述的文本重叠度或者编辑距离等等。但是在跨语言实体匹配情景下,在同一语言中可以使用的文本特征,在跨语言实体匹配中却无法使用:例如在两种完全不同语系的语言下面,文本重叠度、编辑距离等特征无法定义;两种语言的词向量一般定义在两个不同的空间中,这也导致普通的词向量特征也无法使用。于是本发明一方面提出使用双语言词表示,使得词向量特征在跨语言的文本语义匹配成为可能,另一方面提出使用不同语言中均相似的图像特征来匹配实体,以此增强跨语言实体匹配的效果。
发明内容
本发明是利用实体的文本、图像等方面的多媒体信息,提高跨语言实体匹配的准确率,提供一种基于跨媒体信息的跨语言实体匹配方法。
本发明解决其技术问题采用的技术方案如下:一种基于跨媒体信息的跨语言实体匹配方法,包括以下步骤:
(1)使用语义对齐语料训练跨语言词汇的词向量表示;
(2)根据步骤(1)得到的词向量表示,利用不同语言实体的摘要、属性、标题这三类文本信息,训练跨语言实体的文本匹配相似度模型;
(3)利用不同语言实体的图像信息,训练跨语言实体的图像匹配相似度模型;
(4)融合实体文本与图像两方面的跨媒体信息,联合训练步骤(2)和步骤(3)的两个模型,进行跨语言实体匹配。
进一步地,所述的步骤(1)包括:
1.1)使用翻译系统获取句子级别语义对齐的跨语言训练语料;
1.2)使用类似于skip-gram模型的训练方法训练双语言词向量表示,其损失函数
Figure GDA0002530163990000011
如下:
Figure GDA0002530163990000021
其中
Figure GDA0002530163990000022
表示单一语言词向量训练的损失函数,Φ(ωez)表示限制两种语言e与z的语义对齐的损失函数,λ为超参;
单一语言词向量训练使用skip-gram模型,训练过程中为了加快速度使用负采样,其损失函数可以表示为:
Figure GDA0002530163990000023
其中σ表示sigmoid激活函数,ωi为语料库中词τi上下文窗口中的词,ωi,k则表示负采样得到的词,负采样个数为K;
然后在使用skip-gram模型训练两种语言的词向量的同时,加上语义对齐的损失函数;由于使用句子级别的语义对齐语料来限制两种语言的词向量到同一语义空间中,最终语义对齐的损失函数为:
Figure GDA0002530163990000024
其中S表示语义对齐的语料,每一条包含语义对齐的两种语言e与z的句子se与sz,其句子长度分别记为m与n,
Figure GDA0002530163990000025
Figure GDA0002530163990000026
是待训练的两种语言的词向量;
模型的训练过程也与skip-gram模型类似,采用负采样(negative sampling)加快收敛,使用随机梯度下降(SGD)训练,最终得到跨语言词汇的词向量表示。
进一步地,所述的步骤(2)包括:
2.1)对实体的摘要、属性和标题文本进行预处理:通过自然语言处理工具对不同语言的摘要、属性和标题文本进行分词、词干化、去停用词处理;
2.2)对于两种语言e和z的每一组候选的实体对(Ee,Ez),根据步骤(1)得到的词向量对预处理后的摘要和属性文本拼接后进行词嵌入(Word Embedding)表示,并进行截断与填充使长度对齐,对齐后的长度为∈,结果记为
Figure GDA0002530163990000027
Figure GDA0002530163990000028
对预处理后的标题文本进行词嵌入(Word Embedding)表示,并进行截断与填充使长度对齐,对齐后的长度为
Figure GDA0002530163990000029
结果记为
Figure GDA00025301639900000210
Figure GDA00025301639900000211
首先对se与sz分别经过Bi-LSTM层,这两个Bi-LSTM层的参数是共享的,得到其后面一个隐层的输出记为
Figure GDA00025301639900000212
Figure GDA00025301639900000213
然后对得到的输出分别进行基于实体标题te和tz的注意力机制,其具体计算步骤为:
Figure GDA0002530163990000031
Figure GDA0002530163990000032
Figure GDA0002530163990000033
最后将得到的中间结果ge与gz分别经过Bi-LSTM层,这两个Bi-LSTM层的参数是共享的,将前向隐层的最后一个节点输出f与后向隐层的最后一个节点输出b拼接起来,得到文本的表示pl
pl=[fl,bl] l∈{e,z}
2.3)得到两种语言文本的语义向量表示pe和pz后,将它们拼接起来,使用多层感知机计算候选的实体对(Ee,Ez)的文本匹配相似度sT,多层感知机的计算步骤如下:
x1=[pe,pz]
Figure GDA0002530163990000034
Figure GDA0002530163990000035
Figure GDA0002530163990000036
其中
Figure GDA0002530163990000037
w1
Figure GDA0002530163990000038
为训练网络参数,
Figure GDA0002530163990000039
为隐层输出,得到衡量候选实体对(Ee,Ez)的文本匹配相似度sT,最后使用如下的损失函数训练模型:
Figure GDA00025301639900000310
其中Ψ表示三元组文本样本集,
Figure GDA00025301639900000311
表示其中的一个三元组,
Figure GDA00025301639900000312
是一组实体匹配正例,
Figure GDA00025301639900000313
为模型预测的正例匹配得分,
Figure GDA00025301639900000314
是一组实体匹配负例,
Figure GDA00025301639900000315
为模型预测的负例匹配得分,||W||2表示所有参数的正则项,λ为超参。
进一步地,所述的步骤(3)包括:
3.1)使用在ImageNet上训练好的VGG19模型来提取实体图像的特征:对于每一张图像,使用其通过VGG19模型的倒数第二层的输出作为其特征表示记为υ,维度大小为4096;每个实体均可以用一组图像描述,于是每个实体图像的表示为
Figure GDA00025301639900000316
3.2)对于两种语言e和z的每一组候选的实体对(Ee,Ez),都有其图像的表示
Figure GDA00025301639900000317
Figure GDA00025301639900000318
Figure GDA00025301639900000319
对不同数量的实体图像进行截断与填充之后,其实体图像数量统一为ζ。
接下来计算两组图像的余弦相似度,得到相似度特征图谱
Figure GDA00025301639900000320
Figure GDA00025301639900000321
然后训练一个多层卷积与池化模型:首先对相似度特征图谱κ经过一层卷积层,卷积核记χ1,卷积核大小为μ11,卷积层的结果记为c1,c1的维度记为ζ11
Figure GDA0002530163990000041
然后经过一层池化层,大小为μ22,池化层的结果记为q2,q2的维度大小记为ζ22
Figure GDA0002530163990000042
接下来再次经过一层卷积层,卷积核记χ3,卷积核大小为μ33,卷积层的结果记为c3,c3的维度大小记为ζ33
Figure GDA0002530163990000043
接下来对c3做横纵向池化:横向池化大小为1*ζ3,得到的结果记为qr,其维度大小记为ζ3
Figure GDA0002530163990000044
纵向池化大小为ζ3*1,得到的结果记为qc,其维度大小记为ζ3
Figure GDA0002530163990000045
将最后的横纵向池化的结果qr与qc拼接起来,得到两实体图像之间的相似度向量q:
q=[qr,qc]
3.3)得到两实体图像之间的相似度向量q以后,使用多层感知机计算候选的实体对(Ee,Ez)图像之间的相似度sI,多层感知机的计算步骤如下:
Figure GDA0002530163990000046
Figure GDA0002530163990000047
Figure GDA0002530163990000048
其中
Figure GDA0002530163990000049
w2
Figure GDA00025301639900000410
为训练网络参数,
Figure GDA00025301639900000411
为隐层的输出,得到衡量候选实体对(Ee,Ez)图像相似度的得分sI,最后使用如下的损失函数训练模型:
Figure GDA00025301639900000412
其中Θ表示三元组图像样本集,
Figure GDA00025301639900000413
表示其中的一个三元组,
Figure GDA00025301639900000414
是一组实体匹配正例,
Figure GDA00025301639900000415
为模型预测的正例的匹配得分,
Figure GDA00025301639900000416
是一组实体匹配负例,
Figure GDA00025301639900000417
为模型预测的负例的匹配得分,||W||2表示所有参数的正则项,λ为超参。
进一步地,所述的步骤(4)包括:
4.1)对于实体对(Ee,Ez),文本与图像融合的第一种方式是:分别计算其匹配相似度sT与sI,然后最终预测匹配相似度为它们的加权平均,即:
s=sT+εsI
其中ε为超参,这样一来模型最终的损失函数为:
Figure GDA0002530163990000051
其中Ξ表示三元组样本集,包括文本样本集Ψ和图像样本集Θ,
Figure GDA0002530163990000052
表示其中的一个三元组样例,
Figure GDA0002530163990000053
是一组实体匹配正例,
Figure GDA0002530163990000054
为模型预测的正例的匹配得分,
Figure GDA0002530163990000055
是一组实体匹配负例,
Figure GDA0002530163990000056
为模型预测的负例的匹配得分,||W||2表示所有参数的正则项,λ为超参。
4.2)对于实体对(Ee,Ez),文本与图像融合的第二种方式是:将文本模型与图像模型在多层感知机之前的向量表示通过加权拼接的方式联系起来,最后通过一个多层感知机得到最终的得分s,两个模型一起联合训练;
pe和pz为两种语言实体文本通过步骤(2)网络得到的语义向量表示,q为两种语言实体图像通过步骤(3)的网络在横纵向池化层之后的输出,那么最后的一层网络结构为:
Figure GDA0002530163990000057
Figure GDA0002530163990000058
Figure GDA0002530163990000059
Figure GDA00025301639900000510
其中
Figure GDA00025301639900000511
w3
Figure GDA00025301639900000512
为训练网络参数,
Figure GDA00025301639900000513
为隐层输出,得到衡量候选实体对(Ee,Ez)摘要文本相似度的得分s,最终训练的损失函数为:
Figure GDA00025301639900000514
其中Ξ表示三元组样本集,包括文本样本集Ψ和图像样本集Θ,
Figure GDA00025301639900000515
表示其中的一个三元组样例,
Figure GDA00025301639900000516
是一组实体匹配正例,
Figure GDA00025301639900000517
为模型预测的正例的匹配得分,
Figure GDA00025301639900000518
是一组实体匹配负例,
Figure GDA00025301639900000519
为模型预测的负例的匹配得分,||W||2表示所有参数的正则项,λ为超参。
本发明所提出的方法与传统实体匹配方法相比,具有以下优势:
1.提出使用双语言词表示来训练两语言的词向量,使得词向量特征在跨语言的文本语义匹配成为可能。
2.使用不同语言中均相似的图像特征来匹配实体,以此增强跨语言实体匹配的效果。
附图说明
图1是VGG19模型的示意图;
图2是跨语言文本匹配模型的示意图;
图3是实体间图像匹配模型的示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
实施例1
如图1-3所示,本实施例提供的基于跨媒体信息的跨语言实体匹配方法,包括以下步骤:
(1)使用语义对齐语料训练跨语言词汇的词向量表示(Bilingual WordRepresentation);具体如下:
1.1)使用翻译系统获取句子级别语义对齐的跨语言训练语料:为了使两种不同语言的词向量落在同一个语义空间中,使得跨语言的语义匹配成为可能,我们需要大量的句子级别的语义对齐的训练语料,而翻译系统则是获取这样语料的最好选择;
1.2)使用类似于skip-gram模型的训练方法训练双语言词向量表示,其损失函数
Figure GDA0002530163990000061
如下:
Figure GDA0002530163990000062
其中
Figure GDA0002530163990000063
表示单一语言词向量训练的损失函数,Φ(ωe,ωz)表示限制两种语言e与z的语义对齐的损失函数,λ为超参;
单一语言词向量训练使用skip-gram模型,训练过程中为了加快速度使用负采样,其损失函数可以表示为:
Figure GDA0002530163990000064
其中σ表示sigmoid激活函数,ωi为语料库中词τi上下文窗口中的词,ωi,k则表示负采样得到的词,负采样个数为K;
然后在使用skip-gram模型训练两种语言的词向量的同时,加上语义对齐的损失函数;由于使用句子级别的语义对齐语料来限制两种语言的词向量到同一语义空间中,最终语义对齐的损失函数为:
Figure GDA0002530163990000065
其中S表示语义对齐的语料,每一条包含语义对齐的两种语言e与z的句子se与sz,其句子长度分别记为m与n,
Figure GDA0002530163990000066
Figure GDA0002530163990000067
是待训练的两种语言的词向量;
模型的训练过程也与skip-gram模型类似,采用负采样(negative sampling)加快收敛,使用随机梯度下降(SGD)训练,最终得到跨语言词汇的词向量表示。
(2)根据步骤(1)得到的词向量表示,利用不同语言实体的摘要、属性、标题这三类文本信息,训练跨语言实体的文本匹配相似度模型;具体如下:
2.1)对实体的摘要、属性和标题文本进行预处理:通过自然语言处理工具对不同语言的摘要、属性和标题文本进行分词、词干化、去停用词处理;
2.2)对于两种语言e和z的每一组候选的实体对(Ee,Ez),根据步骤(1)得到的词向量对预处理后的摘要和属性文本拼接后进行词嵌入(Word Embedding)表示,并进行截断与填充使长度对齐,对齐后的长度为∈,结果记为
Figure GDA0002530163990000071
Figure GDA0002530163990000072
对预处理后的标题文本进行词嵌入(Word Embedding)表示,并进行截断与填充使长度对齐,对齐后的长度为
Figure GDA0002530163990000073
结果记为
Figure GDA0002530163990000074
Figure GDA0002530163990000075
首先对se与sz分别经过Bi-LSTM层,这两个Bi-LSTM层的参数是共享的,得到其后面一个隐层的输出记为
Figure GDA0002530163990000076
Figure GDA0002530163990000077
然后对得到的输出分别进行基于实体标题te和tz的注意力机制,其具体计算步骤为:
Figure GDA0002530163990000078
Figure GDA0002530163990000079
Figure GDA00025301639900000710
最后将得到的中间结果ge与gz分别经过Bi-LSTM层,这两个Bi-LSTM层的参数是共享的,将前向隐层的最后一个节点输出f与后向隐层的最后一个节点输出b拼接起来,得到文本的表示pl
pl=[fl,bl] l∈{e,z}
2.3)得到两种语言文本的语义向量表示pe和pz后,将它们拼接起来,使用多层感知机计算候选的实体对(Ee,Ez)的文本匹配相似度sT,多层感知机的计算步骤如下:
x1=[pe,pz]
Figure GDA00025301639900000711
Figure GDA00025301639900000712
Figure GDA00025301639900000713
其中
Figure GDA00025301639900000714
w1
Figure GDA00025301639900000715
为训练网络参数,
Figure GDA00025301639900000716
为隐层输出,得到衡量候选实体对(Ee,Ez)的文本匹配相似度sT,最后使用如下的损失函数训练模型:
Figure GDA00025301639900000717
其中Ψ表示三元组文本样本集,
Figure GDA00025301639900000718
表示其中的一个三元组,
Figure GDA00025301639900000719
是一组实体匹配正例,
Figure GDA00025301639900000720
为模型预测的正例匹配得分,
Figure GDA00025301639900000721
是一组实体匹配负例,
Figure GDA00025301639900000722
为模型预测的负例匹配得分,||W||2表示所有参数的正则项,λ为超参。
(3)利用不同语言实体的图像信息,训练跨语言实体的图像匹配相似度模型;具体如下:
3.1)对于一个实体,无论在何种语言当中,它的图像都应该是相似的。例如中文百度百科与英文维基百科都会使用一组图像来介绍每一个实体,相同的实体它们的图像都是相似的,于是就可以使用一组图像来描述实体,进行实体之间的匹配。
3.2)为了使用深度卷积神经网络来学习得到图像的特征,又受限于图像规模与标注的问题,使用在ImageNet上训练好的VGG19模型来提取实体图像的特征:对于每一张图像,使用其通过VGG19模型的倒数第二层的输出作为其特征表示记为υ,维度大小为4096;每个实体均可以用一组图像描述,于是每个实体图像的表示为
Figure GDA0002530163990000081
3.3)对于每一个实体,不同语言都会存在一组图像来描述它;于是对于两种语言e和z的每一组候选的实体对(Ee,Ez),都有其图像的表示
Figure GDA0002530163990000082
Figure GDA0002530163990000083
对不同数量的实体图像进行截断与填充之后,其实体图像数量统一为ζ。
接下来计算两组图像的余弦相似度,得到相似度特征图谱
Figure GDA0002530163990000084
Figure GDA0002530163990000085
然后训练一个多层卷积与池化模型:首先对相似度特征图谱κ经过一层卷积层,卷积核记χ1,卷积核大小为μ11,卷积层的结果记为c1,c1的维度记为ζ11
Figure GDA0002530163990000086
然后经过一层池化层,大小为μ22,池化层的结果记为q2,q2的维度大小记为ζ22
Figure GDA0002530163990000087
接下来再次经过一层卷积层,卷积核记χ3,卷积核大小为μ33,卷积层的结果记为c3,c3的维度大小记为ζ33
Figure GDA0002530163990000088
接下来对c3做横纵向池化:横向池化大小为1*ζ3,得到的结果记为qr,其维度大小记为ζ3
Figure GDA0002530163990000089
纵向池化大小为ζ3*1,得到的结果记为qc,其维度大小记为ζ3
Figure GDA00025301639900000810
将最后的横纵向池化的结果qr与qc拼接起来,得到两实体图像之间的相似度向量q:
q=[qr,qc]
3.4)得到两实体图像之间的相似度向量q以后,使用多层感知机计算候选的实体对(Ee,Ez)图像之间的相似度sI,多层感知机的计算步骤如下:
Figure GDA0002530163990000091
Figure GDA0002530163990000092
Figure GDA0002530163990000093
其中
Figure GDA0002530163990000094
w2
Figure GDA0002530163990000095
为训练网络参数,
Figure GDA0002530163990000096
为隐层的输出,得到衡量候选实体对(Ee,Ez)图像相似度的得分sI,最后使用如下的损失函数训练模型:
Figure GDA0002530163990000097
其中Θ表示三元组图像样本集,
Figure GDA0002530163990000098
表示其中的一个三元组,
Figure GDA0002530163990000099
是一组实体匹配正例,
Figure GDA00025301639900000910
为模型预测的正例的匹配得分,
Figure GDA00025301639900000911
是一组实体匹配负例,
Figure GDA00025301639900000912
为模型预测的负例的匹配得分,||W||2表示所有参数的正则项,λ为超参。
(4)融合实体文本与图像两方面的跨媒体信息,联合训练步骤(2)和步骤(3)的两个模型,进行跨语言实体匹配;具体如下:
4.1)对于实体对(Ee,Ez),文本与图像融合的第一种方式是:分别计算其匹配相似度sT与sI,然后最终预测匹配相似度为它们的加权平均,即:
s=sT+εsI
其中ε为超参,这样一来模型最终的损失函数为:
Figure GDA00025301639900000913
其中Ξ表示三元组样本集,包括文本样本集Ψ和图像样本集Θ,
Figure GDA00025301639900000914
表示其中的一个三元组样例,
Figure GDA00025301639900000915
是一组实体匹配正例,
Figure GDA00025301639900000916
为模型预测的正例的匹配得分,
Figure GDA00025301639900000917
是一组实体匹配负例,
Figure GDA00025301639900000918
为模型预测的负例的匹配得分,||W||2表示所有参数的正则项,λ为超参。
4.2)对于实体对(Ee,Ez),文本与图像融合的第二种方式是:将文本模型与图像模型在多层感知机之前的向量表示通过加权拼接的方式联系起来,最后通过一个多层感知机得到最终的得分s,两个模型一起联合训练;
pe和pz为两种语言实体文本通过步骤(2)网络得到的语义向量表示,q为两种语言实体图像通过步骤(3)的网络在横纵向池化层之后的输出,那么最后的一层网络结构为:
Figure GDA00025301639900000919
Figure GDA0002530163990000101
Figure GDA0002530163990000102
Figure GDA0002530163990000103
其中
Figure GDA0002530163990000104
w3
Figure GDA0002530163990000105
为训练网络参数,
Figure GDA0002530163990000106
为隐层输出,得到衡量候选实体对(Ee,Ez)摘要文本相似度的得分s,最终训练的损失函数为:
Figure GDA0002530163990000107
其中Ξ表示三元组样本集,包括文本样本集Ψ和图像样本集Θ,
Figure GDA0002530163990000108
表示其中的一个三元组样例,
Figure GDA0002530163990000109
是一组实体匹配正例,
Figure GDA00025301639900001010
为模型预测的正例的匹配得分,
Figure GDA00025301639900001011
是一组实体匹配负例,
Figure GDA00025301639900001012
为模型预测的负例的匹配得分,||W||2表示所有参数的正则项,λ为超参。
实施例2
(1)本实例采用的数据集来自于中文百度百科与英文维基百科。通过爬取中文百度百科实体页面的摘要与图像构建中文数据集,通过爬取英文维基百科实体页面的摘要与图像构建英文数据集。为了方便实验,使用基于传统的翻译特征筛选了候选集,其中每一个中文实体有100个英文实体作为候选集,其中有一个是正确匹配的英文实体。得到9129组样本,每一组样本均包含一个中文实体与100个英文候选实体。划分数据集,其中7000组样本作为训练集,129组样本作为验证集,2000组样本作为测试集。
(2)使用中文百科页面文本作为语料,使用谷歌翻译翻译得到其英文文本,获得中英文句子语义对齐的语料,中文语料大小约750M,翻译得到的英文语料大小约350M。使用自然语言处理工具进行相关处理后,根据步骤1)中的内容训练词向量,得到中英文的双语言词向量,维度大小为100。
(3)对中文实体摘要与标题进行分词、去停用词等处理,对英文实体摘要与标题进行词干化、去停用词等处理,得到中英文的摘要文本与标题文本。使用预训练好的VGG19模型处理中英文百科实体图像,取倒数第二层的输出作为实体图像特征,得到中英文百科实体图像特征向量。
(4)对训练集中的样本采样生成三元组用于训练,使用Tensorflow搭建模型,进行调参训练。测试集采用Top1准确率与Top10准确率作为衡量标准,分别测试步骤2)单文本特征、步骤3)单图像特征、步骤4.1)文本与图像单独计算得分、步骤4.2)文本与图像联合计算得分效果,以及单独传统手工特征、传统手工特征联合文本图像特征效果,其结果如下表所示:
模型 Top1 Top10
单一文本特征模型 0.2375 0.6745
单一图像特征模型 0.2835 0.5405
文本与图像联合模型,各特征单独计算得分 0.3070 0.7635
文本与图像联合模型,各特征联合计算得分 0.3125 0.7020
单一传统特征模型 0.7545 0.8990
传统特征与文本图像特征联合,单独计算得分 0.8095 0.9535
传统特征与文本图像特征联合,联合计算得分 0.8090 0.9500
对比可以看出,本方法提出的文本与图像特征对于跨语言实体匹配效果明显,虽然比不上传统特征,但是可以与之联合可以明显提高最终实体匹配的效果。
上述具体实施方式用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (5)

1.一种基于跨媒体信息的跨语言实体匹配方法,其特征在于,包括以下步骤:
(1)使用语义对齐语料训练跨语言词汇的词向量表示;
(2)根据步骤(1)得到的词向量表示,利用不同语言实体的摘要、属性、标题这三类文本信息,训练跨语言实体的文本匹配相似度模型;具体步骤如下:
2.1)对实体的摘要、属性和标题文本进行预处理:通过自然语言处理工具对不同语言的摘要、属性和标题文本进行分词、词干化、去停用词处理;
2.2)对于两种语言e和z的每一组候选的实体对(Ee,Ez),根据步骤(1)得到的词向量对预处理后的摘要和属性文本拼接后进行词嵌入(Word Embedding)表示,并进行截断与填充使长度对齐,对齐后的长度为∈,结果记为
Figure FDA0002530163980000011
Figure FDA0002530163980000012
对预处理后的标题文本进行词嵌入(Word Embedding)表示,并进行截断与填充使长度对齐,对齐后的长度为
Figure FDA0002530163980000013
结果记为
Figure FDA0002530163980000014
Figure FDA0002530163980000015
首先对se与sz分别经过Bi-LSTM层,这两个Bi-LSTM层的参数是共享的,得到其后面一个隐层的输出记为
Figure FDA0002530163980000016
Figure FDA0002530163980000017
然后对得到的输出分别进行基于实体标题te和tz的注意力机制,其具体计算步骤为:
Figure FDA0002530163980000018
Figure FDA0002530163980000019
Figure FDA00025301639800000110
最后将得到的中间结果ge与gz分别经过Bi-LSTM层,这两个Bi-LSTM层的参数是共享的,将前向隐层的最后一个节点输出f与后向隐层的最后一个节点输出b拼接起来,得到文本的表示pl
pl=[fl,bl] l∈{e,z}
2.3)得到两种语言文本的语义向量表示pe和pz后,将它们拼接起来,使用多层感知机计算候选的实体对(Ee,Ez)的文本匹配相似度sT,多层感知机的计算步骤如下:
x1=[pe,pz]
Figure FDA00025301639800000111
Figure FDA00025301639800000112
Figure FDA00025301639800000113
其中
Figure FDA00025301639800000114
w1
Figure FDA00025301639800000115
为训练网络参数,
Figure FDA00025301639800000116
为隐层输出,得到衡量候选实体对(Ee,Ez)的文本匹配相似度sT,最后使用如下的损失函数训练模型:
Figure FDA0002530163980000021
其中Ψ表示三元组文本样本集,
Figure FDA0002530163980000022
表示其中的一个三元组,
Figure FDA0002530163980000023
是一组实体匹配正例,
Figure FDA0002530163980000024
为模型预测的正例匹配得分,
Figure FDA0002530163980000025
是一组实体匹配负例,
Figure FDA0002530163980000026
为模型预测的负例匹配得分,||W||2表示所有参数的正则项,λ为超参;
(3)利用不同语言实体的图像信息,训练跨语言实体的图像匹配相似度模型;
(4)融合实体文本与图像两方面的跨媒体信息,联合训练步骤(2)和步骤(3)的两个模型,进行跨语言实体匹配。
2.根据权利要求1所述的基于跨媒体信息的跨语言实体匹配方法,其特征在于,所述的步骤(1)包括:
1.1)使用翻译系统获取句子级别语义对齐的跨语言训练语料;
1.2)训练双语言词向量表示,其损失函数
Figure FDA0002530163980000027
如下:
Figure FDA0002530163980000028
其中
Figure FDA0002530163980000029
表示单一语言词向量训练的损失函数,Φ(ωe,ωz)表示限制两种语言e与z的语义对齐的损失函数,λ为超参;
单一语言词向量训练使用skip-gram模型,训练过程中为了加快速度使用负采样,其损失函数可以表示为:
Figure FDA00025301639800000210
其中σ表示sigmoid激活函数,ωi为语料库中词τi上下文窗口中的词,ωi,k则表示负采样得到的词,负采样个数为K;
然后在使用skip-gram模型训练两种语言的词向量的同时,加上语义对齐的损失函数;由于使用句子级别的语义对齐语料来限制两种语言的词向量到同一语义空间中,最终语义对齐的损失函数为:
Figure FDA00025301639800000211
其中S表示语义对齐的语料,每一条包含语义对齐的两种语言e与z的句子se与sz,其句子长度分别记为m与n,
Figure FDA00025301639800000212
Figure FDA00025301639800000213
是待训练的两种语言的词向量;
模型的训练过程采用负采样加快收敛,使用随机梯度下降训练,最终得到跨语言词汇的词向量表示。
3.根据权利要求1所述的基于跨媒体信息的跨语言实体匹配方法,其特征在于,所述的步骤(3)包括:
3.1)使用在ImageNet上训练好的VGG19模型来提取实体图像的特征:对于每一张图像,使用其通过VGG19模型的倒数第二层的输出作为其特征表示记为υ,维度大小为4096;每个实体均可以用一组图像描述,于是每个实体图像的表示为
Figure FDA0002530163980000031
3.2)对于两种语言e和z的每一组候选的实体对(Ee,Ez),都有其图像的表示
Figure FDA0002530163980000032
Figure FDA0002530163980000033
Figure FDA0002530163980000034
对不同数量的实体图像进行截断与填充之后,其实体图像数量统一为ζ;
接下来计算两组图像的余弦相似度,得到相似度特征图谱
Figure FDA0002530163980000035
Figure FDA0002530163980000036
然后训练一个多层卷积与池化模型:首先对相似度特征图谱κ经过一层卷积层,卷积核记χ1,卷积核大小为μ11,卷积层的结果记为c1,c1的维度记为ζ11
Figure FDA0002530163980000037
然后经过一层池化层,大小为μ22,池化层的结果记为q2,q2的维度大小记为ζ22
Figure FDA0002530163980000038
接下来再次经过一层卷积层,卷积核记χ3,卷积核大小为μ33,卷积层的结果记为c3,c3的维度大小记为ζ33
Figure FDA0002530163980000039
接下来对c3做横纵向池化:横向池化大小为1*ζ3,得到的结果记为qr,其维度大小记为ζ3
Figure FDA00025301639800000310
纵向池化大小为ζ3*1,得到的结果记为qc,其维度大小记为ζ3
Figure FDA00025301639800000311
将最后的横纵向池化的结果qr与qc拼接起来,得到两实体图像之间的相似度向量q:
q=[qr,qc]
3.3)得到两实体图像之间的相似度向量q以后,使用多层感知机计算候选的实体对(Ee,Ez)图像之间的相似度sI,多层感知机的计算步骤如下:
Figure FDA0002530163980000041
Figure FDA0002530163980000042
Figure FDA0002530163980000043
其中
Figure FDA0002530163980000044
w2.
Figure FDA0002530163980000045
为训练网络参数,
Figure FDA0002530163980000046
为隐层的输出,得到衡量候选实体对(Ee,Ez)图像相似度的得分sI,最后使用如下的损失函数训练模型:
Figure FDA0002530163980000047
其中Θ表示三元组图像样本集,
Figure FDA0002530163980000048
表示其中的一个三元组,
Figure FDA0002530163980000049
是一组实体匹配正例,
Figure FDA00025301639800000410
为模型预测的正例的匹配得分,
Figure FDA00025301639800000411
是一组实体匹配负例,
Figure FDA00025301639800000412
为模型预测的负例的匹配得分,||W||2表示所有参数的正则项,λ为超参。
4.根据权利要求1所述的基于跨媒体信息的跨语言实体匹配方法,其特征在于,所述的步骤(4)中,对于实体对(Ee,Ez),文本与图像融合的方式如下:分别计算其匹配相似度sT与sI,然后最终预测匹配相似度为它们的加权平均,即:
s=sT+εsI
其中ε为超参,这样一来模型最终的损失函数为:
Figure FDA00025301639800000413
其中Ξ表示三元组样本集,包括文本样本集Ψ和图像样本集Θ,
Figure FDA00025301639800000414
表示其中的一个三元组样例,
Figure FDA00025301639800000415
是一组实体匹配正例,
Figure FDA00025301639800000416
为模型预测的正例的匹配得分,
Figure FDA00025301639800000417
是一组实体匹配负例,
Figure FDA00025301639800000418
为模型预测的负例的匹配得分,||W||2表示所有参数的正则项,λ为超参。
5.根据权利要求1所述的基于跨媒体信息的跨语言实体匹配方法,其特征在于,所述的步骤(4)中,对于实体对(Ee,Ez),文本与图像融合的方式如下:将文本模型与图像模型在多层感知机之前的向量表示通过加权拼接的方式联系起来,最后通过一个多层感知机得到最终的得分s,两个模型一起联合训练;
pe和pz为两种语言实体文本通过步骤(2)网络得到的语义向量表示,q为两种语言实体图像通过步骤(3)的网络在横纵向池化层之后的输出,那么最后的一层网络结构为:
Figure FDA00025301639800000419
Figure FDA00025301639800000420
Figure FDA00025301639800000421
Figure FDA00025301639800000422
其中
Figure FDA00025301639800000423
w3
Figure FDA00025301639800000424
为训练网络参数,
Figure FDA00025301639800000425
为隐层输出,得到衡量候选实体对(Ee,Ez)摘要文本相似度的得分s,最终训练的损失函数为:
Figure FDA0002530163980000051
其中Ξ表示三元组样本集,包括文本样本集Ψ和图像样本集Θ,
Figure FDA0002530163980000052
表示其中的一个三元组样例,
Figure FDA0002530163980000056
是一组实体匹配正例,
Figure FDA0002530163980000053
为模型预测的正例的匹配得分,
Figure FDA0002530163980000054
是一组实体匹配负例,
Figure FDA0002530163980000055
为模型预测的负例的匹配得分,||W||2表示所有参数的正则项,λ为超参。
CN201811489628.7A 2018-12-06 2018-12-06 基于跨媒体信息的跨语言实体匹配方法 Active CN109710923B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811489628.7A CN109710923B (zh) 2018-12-06 2018-12-06 基于跨媒体信息的跨语言实体匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811489628.7A CN109710923B (zh) 2018-12-06 2018-12-06 基于跨媒体信息的跨语言实体匹配方法

Publications (2)

Publication Number Publication Date
CN109710923A CN109710923A (zh) 2019-05-03
CN109710923B true CN109710923B (zh) 2020-09-01

Family

ID=66254693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811489628.7A Active CN109710923B (zh) 2018-12-06 2018-12-06 基于跨媒体信息的跨语言实体匹配方法

Country Status (1)

Country Link
CN (1) CN109710923B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347807B (zh) * 2019-05-20 2023-08-08 平安科技(深圳)有限公司 问题信息处理方法及装置
CN110442689A (zh) * 2019-06-25 2019-11-12 平安科技(深圳)有限公司 一种问答关系排序方法、装置、计算机设备及存储介质
CN110348014B (zh) * 2019-07-10 2023-03-24 电子科技大学 一种基于深度学习的语义相似度计算方法
CN110516085B (zh) * 2019-07-11 2022-05-17 西安电子科技大学 基于双向注意力的图像文本互检索方法
CN110489551B (zh) * 2019-07-16 2023-05-30 哈尔滨工程大学 一种基于写作习惯的作者识别方法
CN110348024A (zh) * 2019-07-23 2019-10-18 天津汇智星源信息技术有限公司 基于法律知识图谱的智能识别系统
CN110427624B (zh) * 2019-07-30 2023-04-25 北京百度网讯科技有限公司 实体关系抽取方法及装置
CN110705292B (zh) * 2019-08-22 2022-11-29 成都信息工程大学 一种基于知识库和深度学习的实体名称提取方法
CN110765276A (zh) * 2019-10-21 2020-02-07 北京明略软件系统有限公司 知识图谱中的实体对齐方法及装置
CN110928961B (zh) * 2019-11-14 2023-04-28 出门问问(苏州)信息科技有限公司 一种多模态实体链接方法、设备及计算机可读存储介质
CN111180086B (zh) * 2019-12-12 2023-04-25 平安医疗健康管理股份有限公司 数据匹配方法、装置、计算机设备和存储介质
CN111126069B (zh) * 2019-12-30 2022-03-29 华南理工大学 一种基于视觉对象引导的社交媒体短文本命名实体识别方法
CN111563160B (zh) * 2020-04-15 2023-03-31 华南理工大学 基于全局语义的文本自动摘要方法、装置、介质及设备
CN111563192B (zh) * 2020-04-28 2023-05-30 腾讯科技(深圳)有限公司 实体对齐方法、装置、电子设备及存储介质
CN111581990B (zh) * 2020-05-14 2023-11-21 中国银行股份有限公司 跨境交易撮合匹配方法及装置
CN111931505A (zh) * 2020-05-22 2020-11-13 北京理工大学 一种基于子图嵌入的跨语言实体对齐方法
CN111767395B (zh) * 2020-06-30 2023-12-26 平安国际智慧城市科技股份有限公司 基于图片的摘要生成方法与系统
CN111914710B (zh) * 2020-07-24 2024-02-13 合肥工业大学 一种铁路机务段场景描述方法及系统
CN111858961B (zh) * 2020-07-27 2024-02-02 西交利物浦大学 用于知识图谱中节点和链接的多语言知识匹配方法及装置
CN112131404B (zh) * 2020-09-19 2022-09-27 哈尔滨工程大学 一种四险一金领域知识图谱中实体对齐方法
CN113191357B (zh) * 2021-05-18 2023-01-17 中国石油大学(华东) 基于图注意力网络的多层次图像-文本匹配方法
CN113408619B (zh) * 2021-06-21 2024-02-13 江苏苏云信息科技有限公司 语言模型预训练方法、装置
CN114417879B (zh) * 2021-12-29 2022-12-27 北京百度网讯科技有限公司 跨语言文本语义模型的生成方法、装置及电子设备
CN114817682B (zh) * 2022-05-09 2024-04-19 昆明理工大学 基于双重注意力解码网络的跨语言摘要方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550190A (zh) * 2015-06-26 2016-05-04 许昌学院 面向知识图谱的跨媒体检索系统
CN106980664A (zh) * 2017-03-21 2017-07-25 苏州大学 一种双语可比较语料挖掘方法及装置
CN107943784A (zh) * 2017-11-02 2018-04-20 南华大学 基于生成对抗网络的关系抽取方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170357642A1 (en) * 2016-06-14 2017-12-14 Babel Street, Inc. Cross Lingual Search using Multi-Language Ontology for Text Based Communication
CN106570191B (zh) * 2016-11-11 2020-05-26 浙江大学 基于维基百科的中英文跨语言实体匹配方法
CN107861947B (zh) * 2017-11-07 2021-01-05 昆明理工大学 一种基于跨语言资源的柬语命名实体识别的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550190A (zh) * 2015-06-26 2016-05-04 许昌学院 面向知识图谱的跨媒体检索系统
CN106980664A (zh) * 2017-03-21 2017-07-25 苏州大学 一种双语可比较语料挖掘方法及装置
CN107943784A (zh) * 2017-11-02 2018-04-20 南华大学 基于生成对抗网络的关系抽取方法

Also Published As

Publication number Publication date
CN109710923A (zh) 2019-05-03

Similar Documents

Publication Publication Date Title
CN109710923B (zh) 基于跨媒体信息的跨语言实体匹配方法
US11537801B2 (en) Structured text translation
CN109783657B (zh) 基于受限文本空间的多步自注意力跨媒体检索方法及系统
Iyyer et al. Deep unordered composition rivals syntactic methods for text classification
CN109344404B (zh) 情境感知的双重注意力自然语言推理方法
Kann et al. Neural morphological analysis: Encoding-decoding canonical segments
CN110825881A (zh) 一种建立电力知识图谱的方法
CN110717341B (zh) 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
US11822897B2 (en) Systems and methods for structured text translation with tag alignment
WO2021179693A1 (zh) 医疗文本翻译方法、装置及存储介质
Delbrouck et al. Modulating and attending the source image during encoding improves multimodal translation
CN109271636B (zh) 词嵌入模型的训练方法及装置
Monroe Deep learning takes on translation
Goyal et al. Knowledge-driven description synthesis for floor plan interpretation
Bisht et al. Exploring practical deep learning approaches for English-to-Hindi image caption translation using transformers and object detectors
Zheng et al. Weakly-supervised image captioning based on rich contextual information
CN117034961A (zh) 一种基于bert的中法互译质量测评方法
Arefieva et al. TourBERT: A pretrained language model for the tourism industry
Nazarizadeh et al. Using Group Deep Learning and Data Augmentation in Persian Sentiment Analysis
CN112085985B (zh) 一种面向英语考试翻译题目的学生答案自动评分方法
CN114155957A (zh) 文本确定方法、装置、存储介质及电子设备
El Maazouzi et al. A systematic reading in statistical translation: From the statistical machine translation to the neural translation models.
Akhtar et al. Robust Representation Learning for Low Resource Languages
CN112434152B (zh) 基于多通道卷积神经网络的教育类选择题解答方法和装置
Tamvakidis Argumentative sentence classification using transfer learning across languages

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant