CN109710923B

CN109710923B - 基于跨媒体信息的跨语言实体匹配方法

Info

Publication number: CN109710923B
Application number: CN201811489628.7A
Authority: CN
Inventors: 鲁伟明; 王鹏; 吴飞; 庄越挺
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-12-06
Filing date: 2018-12-06
Publication date: 2020-09-01
Anticipated expiration: 2038-12-06
Also published as: CN109710923A

Abstract

本发明公开了一种基于跨媒体信息的跨语言实体匹配方法。实体匹配通常针对同语言的多个知识图谱的融合问题，提供一种知识图谱中实体相似度的计算方法。跨语言实体匹配则面向多种语言的知识图谱，来实现不同语言知识图谱中实体的匹配。本发明从实体的多种模态的媒体信息出发，利用深度学习方法提取实体文本、图像多模态的特征，进行跨语言实体匹配。利用深度学习模型对实体的文本信息进行跨语言文本匹配，计算文本匹配相似度；使用深度卷积神经网络提取实体图像信息特征，计算图像匹配相似度；最后，综合利用实体文本、图像方面的特征，进行跨语言实体匹配。本发明较好的利用了文本和图像方面的特征，提高了跨语言实体匹配的准确率。

Description

基于跨媒体信息的跨语言实体匹配方法

技术领域

本发明涉及跨语言实体匹配技术，尤其涉及一种基于跨媒体信息的跨语言实体匹配方法。

背景技术

跨语言实体匹配的目标在于，给定一系列不同来源、不同语言的实体集合，合并其中描述同一概念的实体，将这些实体集合融合成为一个新的知识库。对于不同来源的实体，它们在实体的表达上可能存在冗余，可能存在差异，也可能互相补充，因此实体匹配对于知识的补充完善以及保持知识库的一致性具有重要的意义。

传统的实体匹配一般都是基于实体的文本特征，例如计算两个实体描述的文本重叠度或者编辑距离等等。但是在跨语言实体匹配情景下，在同一语言中可以使用的文本特征，在跨语言实体匹配中却无法使用：例如在两种完全不同语系的语言下面，文本重叠度、编辑距离等特征无法定义；两种语言的词向量一般定义在两个不同的空间中，这也导致普通的词向量特征也无法使用。于是本发明一方面提出使用双语言词表示，使得词向量特征在跨语言的文本语义匹配成为可能，另一方面提出使用不同语言中均相似的图像特征来匹配实体，以此增强跨语言实体匹配的效果。

发明内容

本发明是利用实体的文本、图像等方面的多媒体信息，提高跨语言实体匹配的准确率，提供一种基于跨媒体信息的跨语言实体匹配方法。

本发明解决其技术问题采用的技术方案如下：一种基于跨媒体信息的跨语言实体匹配方法，包括以下步骤：

(1)使用语义对齐语料训练跨语言词汇的词向量表示；

(2)根据步骤(1)得到的词向量表示，利用不同语言实体的摘要、属性、标题这三类文本信息，训练跨语言实体的文本匹配相似度模型；

(3)利用不同语言实体的图像信息，训练跨语言实体的图像匹配相似度模型；

(4)融合实体文本与图像两方面的跨媒体信息，联合训练步骤(2)和步骤(3)的两个模型，进行跨语言实体匹配。

进一步地，所述的步骤(1)包括：

1.1)使用翻译系统获取句子级别语义对齐的跨语言训练语料；

1.2)使用类似于skip-gram模型的训练方法训练双语言词向量表示，其损失函数

如下：

其中

表示单一语言词向量训练的损失函数，Φ(ω^e,ω^z)表示限制两种语言e与z的语义对齐的损失函数，λ为超参；

单一语言词向量训练使用skip-gram模型，训练过程中为了加快速度使用负采样，其损失函数可以表示为：

其中σ表示sigmoid激活函数，ω_i为语料库中词τ_i上下文窗口中的词，ω_i,k则表示负采样得到的词，负采样个数为K；

然后在使用skip-gram模型训练两种语言的词向量的同时，加上语义对齐的损失函数；由于使用句子级别的语义对齐语料来限制两种语言的词向量到同一语义空间中，最终语义对齐的损失函数为：

其中S表示语义对齐的语料，每一条包含语义对齐的两种语言e与z的句子s^e与s^z，其句子长度分别记为m与n，

与

是待训练的两种语言的词向量；

模型的训练过程也与skip-gram模型类似，采用负采样(negative sampling)加快收敛，使用随机梯度下降(SGD)训练，最终得到跨语言词汇的词向量表示。

进一步地，所述的步骤(2)包括：

2.1)对实体的摘要、属性和标题文本进行预处理：通过自然语言处理工具对不同语言的摘要、属性和标题文本进行分词、词干化、去停用词处理；

2.2)对于两种语言e和z的每一组候选的实体对(E^e,E^z)，根据步骤(1)得到的词向量对预处理后的摘要和属性文本拼接后进行词嵌入(Word Embedding)表示，并进行截断与填充使长度对齐，对齐后的长度为∈，结果记为

与

对预处理后的标题文本进行词嵌入(Word Embedding)表示，并进行截断与填充使长度对齐，对齐后的长度为

结果记为

与

首先对s^e与s^z分别经过Bi-LSTM层，这两个Bi-LSTM层的参数是共享的，得到其后面一个隐层的输出记为

与

然后对得到的输出分别进行基于实体标题t^e和t^z的注意力机制，其具体计算步骤为：

最后将得到的中间结果g^e与g^z分别经过Bi-LSTM层，这两个Bi-LSTM层的参数是共享的，将前向隐层的最后一个节点输出f与后向隐层的最后一个节点输出b拼接起来，得到文本的表示p^l：

p^l＝[f^l，b^l] l∈{e，z}

2.3)得到两种语言文本的语义向量表示p^e和p^z后，将它们拼接起来，使用多层感知机计算候选的实体对(E^e，E^z)的文本匹配相似度s^T，多层感知机的计算步骤如下：

x¹＝[p^e，p^z]

其中

w¹，

为训练网络参数，

为隐层输出，得到衡量候选实体对(E^e，E^z)的文本匹配相似度s^T，最后使用如下的损失函数训练模型：

其中Ψ表示三元组文本样本集，

表示其中的一个三元组，

是一组实体匹配正例，

为模型预测的正例匹配得分，

是一组实体匹配负例，

为模型预测的负例匹配得分，||W||²表示所有参数的正则项，λ为超参。

进一步地，所述的步骤(3)包括：

3.1)使用在ImageNet上训练好的VGG19模型来提取实体图像的特征：对于每一张图像，使用其通过VGG19模型的倒数第二层的输出作为其特征表示记为υ，维度大小为4096；每个实体均可以用一组图像描述，于是每个实体图像的表示为

3.2)对于两种语言e和z的每一组候选的实体对(E^e，E^z)，都有其图像的表示

与

对不同数量的实体图像进行截断与填充之后，其实体图像数量统一为ζ。

接下来计算两组图像的余弦相似度，得到相似度特征图谱

然后训练一个多层卷积与池化模型：首先对相似度特征图谱κ经过一层卷积层，卷积核记χ¹，卷积核大小为μ₁*μ₁，卷积层的结果记为c¹，c¹的维度记为ζ₁*ζ₁：

然后经过一层池化层，大小为μ₂*μ₂，池化层的结果记为q²，q²的维度大小记为ζ₂*ζ₂：

接下来再次经过一层卷积层，卷积核记χ³，卷积核大小为μ₃*μ₃，卷积层的结果记为c³，c³的维度大小记为ζ₃*ζ₃：

接下来对c³做横纵向池化：横向池化大小为1*ζ₃，得到的结果记为q^r，其维度大小记为ζ₃：

纵向池化大小为ζ₃*1，得到的结果记为q^c，其维度大小记为ζ₃：

将最后的横纵向池化的结果q^r与q^c拼接起来，得到两实体图像之间的相似度向量q：

q＝[q^r，q^c]

3.3)得到两实体图像之间的相似度向量q以后，使用多层感知机计算候选的实体对(E^e，E^z)图像之间的相似度s^I，多层感知机的计算步骤如下：

其中

w²，

为训练网络参数，

为隐层的输出，得到衡量候选实体对(E^e，E^z)图像相似度的得分s^I，最后使用如下的损失函数训练模型：

其中Θ表示三元组图像样本集，

表示其中的一个三元组，

是一组实体匹配正例，

为模型预测的正例的匹配得分，

是一组实体匹配负例，

为模型预测的负例的匹配得分，||W||²表示所有参数的正则项，λ为超参。

进一步地，所述的步骤(4)包括：

4.1)对于实体对(E^e，E^z)，文本与图像融合的第一种方式是：分别计算其匹配相似度s^T与s^I，然后最终预测匹配相似度为它们的加权平均，即：

s＝s^T+εs^I

其中ε为超参，这样一来模型最终的损失函数为：

其中Ξ表示三元组样本集，包括文本样本集Ψ和图像样本集Θ，

表示其中的一个三元组样例，

是一组实体匹配正例，

为模型预测的正例的匹配得分，

是一组实体匹配负例，

4.2)对于实体对(E^e，E^z)，文本与图像融合的第二种方式是：将文本模型与图像模型在多层感知机之前的向量表示通过加权拼接的方式联系起来，最后通过一个多层感知机得到最终的得分s，两个模型一起联合训练；

p^e和p^z为两种语言实体文本通过步骤(2)网络得到的语义向量表示，q为两种语言实体图像通过步骤(3)的网络在横纵向池化层之后的输出，那么最后的一层网络结构为：

其中

w³，

为训练网络参数，

为隐层输出，得到衡量候选实体对(E^e，E^z)摘要文本相似度的得分s，最终训练的损失函数为：

表示其中的一个三元组样例，

是一组实体匹配正例，

为模型预测的正例的匹配得分，

是一组实体匹配负例，

本发明所提出的方法与传统实体匹配方法相比，具有以下优势：

1.提出使用双语言词表示来训练两语言的词向量，使得词向量特征在跨语言的文本语义匹配成为可能。

2.使用不同语言中均相似的图像特征来匹配实体，以此增强跨语言实体匹配的效果。

附图说明

图1是VGG19模型的示意图；

图2是跨语言文本匹配模型的示意图；

图3是实体间图像匹配模型的示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细说明。

实施例1

如图1-3所示，本实施例提供的基于跨媒体信息的跨语言实体匹配方法，包括以下步骤：

(1)使用语义对齐语料训练跨语言词汇的词向量表示(Bilingual WordRepresentation)；具体如下：

1.1)使用翻译系统获取句子级别语义对齐的跨语言训练语料：为了使两种不同语言的词向量落在同一个语义空间中，使得跨语言的语义匹配成为可能，我们需要大量的句子级别的语义对齐的训练语料，而翻译系统则是获取这样语料的最好选择；

如下：

其中

表示单一语言词向量训练的损失函数，Φ(ω^e，ω^z)表示限制两种语言e与z的语义对齐的损失函数，λ为超参；

其中σ表示sigmoid激活函数，ω_i为语料库中词τ_i上下文窗口中的词，ω_i，k则表示负采样得到的词，负采样个数为K；

与

是待训练的两种语言的词向量；

(2)根据步骤(1)得到的词向量表示，利用不同语言实体的摘要、属性、标题这三类文本信息，训练跨语言实体的文本匹配相似度模型；具体如下：

2.2)对于两种语言e和z的每一组候选的实体对(E^e，E^z)，根据步骤(1)得到的词向量对预处理后的摘要和属性文本拼接后进行词嵌入(Word Embedding)表示，并进行截断与填充使长度对齐，对齐后的长度为∈，结果记为

与

结果记为

与

与

p^l＝[f^l，b^l] l∈{e，z}

x¹＝[p^e，p^z]

其中

w¹，

为训练网络参数，

其中Ψ表示三元组文本样本集，

表示其中的一个三元组，

是一组实体匹配正例，

为模型预测的正例匹配得分，

是一组实体匹配负例，

(3)利用不同语言实体的图像信息，训练跨语言实体的图像匹配相似度模型；具体如下：

3.1)对于一个实体，无论在何种语言当中，它的图像都应该是相似的。例如中文百度百科与英文维基百科都会使用一组图像来介绍每一个实体，相同的实体它们的图像都是相似的，于是就可以使用一组图像来描述实体，进行实体之间的匹配。

3.2)为了使用深度卷积神经网络来学习得到图像的特征，又受限于图像规模与标注的问题，使用在ImageNet上训练好的VGG19模型来提取实体图像的特征：对于每一张图像，使用其通过VGG19模型的倒数第二层的输出作为其特征表示记为υ，维度大小为4096；每个实体均可以用一组图像描述，于是每个实体图像的表示为

3.3)对于每一个实体，不同语言都会存在一组图像来描述它；于是对于两种语言e和z的每一组候选的实体对(E^e，E^z)，都有其图像的表示

与

接下来计算两组图像的余弦相似度，得到相似度特征图谱

q＝[q^r，q^c]

3.4)得到两实体图像之间的相似度向量q以后，使用多层感知机计算候选的实体对(E^e，E^z)图像之间的相似度s^I，多层感知机的计算步骤如下：

其中

w²，

为训练网络参数，

其中Θ表示三元组图像样本集，

表示其中的一个三元组，

是一组实体匹配正例，

为模型预测的正例的匹配得分，

是一组实体匹配负例，

(4)融合实体文本与图像两方面的跨媒体信息，联合训练步骤(2)和步骤(3)的两个模型，进行跨语言实体匹配；具体如下：

s＝s^T+εs^I

其中ε为超参，这样一来模型最终的损失函数为：

表示其中的一个三元组样例，

是一组实体匹配正例，

为模型预测的正例的匹配得分，

是一组实体匹配负例，

其中

w³，

为训练网络参数，

表示其中的一个三元组样例，

是一组实体匹配正例，

为模型预测的正例的匹配得分，

是一组实体匹配负例，

实施例2

(1)本实例采用的数据集来自于中文百度百科与英文维基百科。通过爬取中文百度百科实体页面的摘要与图像构建中文数据集，通过爬取英文维基百科实体页面的摘要与图像构建英文数据集。为了方便实验，使用基于传统的翻译特征筛选了候选集，其中每一个中文实体有100个英文实体作为候选集，其中有一个是正确匹配的英文实体。得到9129组样本，每一组样本均包含一个中文实体与100个英文候选实体。划分数据集，其中7000组样本作为训练集，129组样本作为验证集，2000组样本作为测试集。

(2)使用中文百科页面文本作为语料，使用谷歌翻译翻译得到其英文文本，获得中英文句子语义对齐的语料，中文语料大小约750M，翻译得到的英文语料大小约350M。使用自然语言处理工具进行相关处理后，根据步骤1)中的内容训练词向量，得到中英文的双语言词向量，维度大小为100。

(3)对中文实体摘要与标题进行分词、去停用词等处理，对英文实体摘要与标题进行词干化、去停用词等处理，得到中英文的摘要文本与标题文本。使用预训练好的VGG19模型处理中英文百科实体图像，取倒数第二层的输出作为实体图像特征，得到中英文百科实体图像特征向量。

(4)对训练集中的样本采样生成三元组用于训练，使用Tensorflow搭建模型，进行调参训练。测试集采用Top1准确率与Top10准确率作为衡量标准，分别测试步骤2)单文本特征、步骤3)单图像特征、步骤4.1)文本与图像单独计算得分、步骤4.2)文本与图像联合计算得分效果，以及单独传统手工特征、传统手工特征联合文本图像特征效果，其结果如下表所示：

模型	Top1	Top10
			单一文本特征模型	0.2375	0.6745
单一图像特征模型	0.2835	0.5405
			文本与图像联合模型，各特征单独计算得分	0.3070	0.7635
文本与图像联合模型，各特征联合计算得分	0.3125	0.7020
			单一传统特征模型	0.7545	0.8990
传统特征与文本图像特征联合，单独计算得分	0.8095	0.9535
			传统特征与文本图像特征联合，联合计算得分	0.8090	0.9500

对比可以看出，本方法提出的文本与图像特征对于跨语言实体匹配效果明显，虽然比不上传统特征，但是可以与之联合可以明显提高最终实体匹配的效果。

上述具体实施方式用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。