CN109710923B - 基于跨媒体信息的跨语言实体匹配方法 - Google Patents
基于跨媒体信息的跨语言实体匹配方法 Download PDFInfo
- Publication number
- CN109710923B CN109710923B CN201811489628.7A CN201811489628A CN109710923B CN 109710923 B CN109710923 B CN 109710923B CN 201811489628 A CN201811489628 A CN 201811489628A CN 109710923 B CN109710923 B CN 109710923B
- Authority
- CN
- China
- Prior art keywords
- entity
- matching
- language
- cross
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于跨媒体信息的跨语言实体匹配方法。实体匹配通常针对同语言的多个知识图谱的融合问题,提供一种知识图谱中实体相似度的计算方法。跨语言实体匹配则面向多种语言的知识图谱,来实现不同语言知识图谱中实体的匹配。本发明从实体的多种模态的媒体信息出发,利用深度学习方法提取实体文本、图像多模态的特征,进行跨语言实体匹配。利用深度学习模型对实体的文本信息进行跨语言文本匹配,计算文本匹配相似度;使用深度卷积神经网络提取实体图像信息特征,计算图像匹配相似度;最后,综合利用实体文本、图像方面的特征,进行跨语言实体匹配。本发明较好的利用了文本和图像方面的特征,提高了跨语言实体匹配的准确率。
Description
技术领域
本发明涉及跨语言实体匹配技术,尤其涉及一种基于跨媒体信息的跨语言实体匹配方法。
背景技术
跨语言实体匹配的目标在于,给定一系列不同来源、不同语言的实体集合,合并其中描述同一概念的实体,将这些实体集合融合成为一个新的知识库。对于不同来源的实体,它们在实体的表达上可能存在冗余,可能存在差异,也可能互相补充,因此实体匹配对于知识的补充完善以及保持知识库的一致性具有重要的意义。
传统的实体匹配一般都是基于实体的文本特征,例如计算两个实体描述的文本重叠度或者编辑距离等等。但是在跨语言实体匹配情景下,在同一语言中可以使用的文本特征,在跨语言实体匹配中却无法使用:例如在两种完全不同语系的语言下面,文本重叠度、编辑距离等特征无法定义;两种语言的词向量一般定义在两个不同的空间中,这也导致普通的词向量特征也无法使用。于是本发明一方面提出使用双语言词表示,使得词向量特征在跨语言的文本语义匹配成为可能,另一方面提出使用不同语言中均相似的图像特征来匹配实体,以此增强跨语言实体匹配的效果。
发明内容
本发明是利用实体的文本、图像等方面的多媒体信息,提高跨语言实体匹配的准确率,提供一种基于跨媒体信息的跨语言实体匹配方法。
本发明解决其技术问题采用的技术方案如下:一种基于跨媒体信息的跨语言实体匹配方法,包括以下步骤:
(1)使用语义对齐语料训练跨语言词汇的词向量表示;
(2)根据步骤(1)得到的词向量表示,利用不同语言实体的摘要、属性、标题这三类文本信息,训练跨语言实体的文本匹配相似度模型;
(3)利用不同语言实体的图像信息,训练跨语言实体的图像匹配相似度模型;
(4)融合实体文本与图像两方面的跨媒体信息,联合训练步骤(2)和步骤(3)的两个模型,进行跨语言实体匹配。
进一步地,所述的步骤(1)包括:
1.1)使用翻译系统获取句子级别语义对齐的跨语言训练语料;
单一语言词向量训练使用skip-gram模型,训练过程中为了加快速度使用负采样,其损失函数可以表示为:
其中σ表示sigmoid激活函数,ωi为语料库中词τi上下文窗口中的词,ωi,k则表示负采样得到的词,负采样个数为K;
然后在使用skip-gram模型训练两种语言的词向量的同时,加上语义对齐的损失函数;由于使用句子级别的语义对齐语料来限制两种语言的词向量到同一语义空间中,最终语义对齐的损失函数为:
模型的训练过程也与skip-gram模型类似,采用负采样(negative sampling)加快收敛,使用随机梯度下降(SGD)训练,最终得到跨语言词汇的词向量表示。
进一步地,所述的步骤(2)包括:
2.1)对实体的摘要、属性和标题文本进行预处理:通过自然语言处理工具对不同语言的摘要、属性和标题文本进行分词、词干化、去停用词处理;
2.2)对于两种语言e和z的每一组候选的实体对(Ee,Ez),根据步骤(1)得到的词向量对预处理后的摘要和属性文本拼接后进行词嵌入(Word Embedding)表示,并进行截断与填充使长度对齐,对齐后的长度为∈,结果记为与对预处理后的标题文本进行词嵌入(Word Embedding)表示,并进行截断与填充使长度对齐,对齐后的长度为结果记为与
然后对得到的输出分别进行基于实体标题te和tz的注意力机制,其具体计算步骤为:
最后将得到的中间结果ge与gz分别经过Bi-LSTM层,这两个Bi-LSTM层的参数是共享的,将前向隐层的最后一个节点输出f与后向隐层的最后一个节点输出b拼接起来,得到文本的表示pl:
pl=[fl,bl] l∈{e,z}
2.3)得到两种语言文本的语义向量表示pe和pz后,将它们拼接起来,使用多层感知机计算候选的实体对(Ee,Ez)的文本匹配相似度sT,多层感知机的计算步骤如下:
x1=[pe,pz]
进一步地,所述的步骤(3)包括:
3.1)使用在ImageNet上训练好的VGG19模型来提取实体图像的特征:对于每一张图像,使用其通过VGG19模型的倒数第二层的输出作为其特征表示记为υ,维度大小为4096;每个实体均可以用一组图像描述,于是每个实体图像的表示为
然后训练一个多层卷积与池化模型:首先对相似度特征图谱κ经过一层卷积层,卷积核记χ1,卷积核大小为μ1*μ1,卷积层的结果记为c1,c1的维度记为ζ1*ζ1:
然后经过一层池化层,大小为μ2*μ2,池化层的结果记为q2,q2的维度大小记为ζ2*ζ2:
接下来再次经过一层卷积层,卷积核记χ3,卷积核大小为μ3*μ3,卷积层的结果记为c3,c3的维度大小记为ζ3*ζ3:
接下来对c3做横纵向池化:横向池化大小为1*ζ3,得到的结果记为qr,其维度大小记为ζ3:
纵向池化大小为ζ3*1,得到的结果记为qc,其维度大小记为ζ3:
将最后的横纵向池化的结果qr与qc拼接起来,得到两实体图像之间的相似度向量q:
q=[qr,qc]
3.3)得到两实体图像之间的相似度向量q以后,使用多层感知机计算候选的实体对(Ee,Ez)图像之间的相似度sI,多层感知机的计算步骤如下:
进一步地,所述的步骤(4)包括:
4.1)对于实体对(Ee,Ez),文本与图像融合的第一种方式是:分别计算其匹配相似度sT与sI,然后最终预测匹配相似度为它们的加权平均,即:
s=sT+εsI
其中ε为超参,这样一来模型最终的损失函数为:
其中Ξ表示三元组样本集,包括文本样本集Ψ和图像样本集Θ,表示其中的一个三元组样例,是一组实体匹配正例,为模型预测的正例的匹配得分,是一组实体匹配负例,为模型预测的负例的匹配得分,||W||2表示所有参数的正则项,λ为超参。
4.2)对于实体对(Ee,Ez),文本与图像融合的第二种方式是:将文本模型与图像模型在多层感知机之前的向量表示通过加权拼接的方式联系起来,最后通过一个多层感知机得到最终的得分s,两个模型一起联合训练;
pe和pz为两种语言实体文本通过步骤(2)网络得到的语义向量表示,q为两种语言实体图像通过步骤(3)的网络在横纵向池化层之后的输出,那么最后的一层网络结构为:
其中Ξ表示三元组样本集,包括文本样本集Ψ和图像样本集Θ,表示其中的一个三元组样例,是一组实体匹配正例,为模型预测的正例的匹配得分,是一组实体匹配负例,为模型预测的负例的匹配得分,||W||2表示所有参数的正则项,λ为超参。
本发明所提出的方法与传统实体匹配方法相比,具有以下优势:
1.提出使用双语言词表示来训练两语言的词向量,使得词向量特征在跨语言的文本语义匹配成为可能。
2.使用不同语言中均相似的图像特征来匹配实体,以此增强跨语言实体匹配的效果。
附图说明
图1是VGG19模型的示意图;
图2是跨语言文本匹配模型的示意图;
图3是实体间图像匹配模型的示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
实施例1
如图1-3所示,本实施例提供的基于跨媒体信息的跨语言实体匹配方法,包括以下步骤:
(1)使用语义对齐语料训练跨语言词汇的词向量表示(Bilingual WordRepresentation);具体如下:
1.1)使用翻译系统获取句子级别语义对齐的跨语言训练语料:为了使两种不同语言的词向量落在同一个语义空间中,使得跨语言的语义匹配成为可能,我们需要大量的句子级别的语义对齐的训练语料,而翻译系统则是获取这样语料的最好选择;
单一语言词向量训练使用skip-gram模型,训练过程中为了加快速度使用负采样,其损失函数可以表示为:
其中σ表示sigmoid激活函数,ωi为语料库中词τi上下文窗口中的词,ωi,k则表示负采样得到的词,负采样个数为K;
然后在使用skip-gram模型训练两种语言的词向量的同时,加上语义对齐的损失函数;由于使用句子级别的语义对齐语料来限制两种语言的词向量到同一语义空间中,最终语义对齐的损失函数为:
模型的训练过程也与skip-gram模型类似,采用负采样(negative sampling)加快收敛,使用随机梯度下降(SGD)训练,最终得到跨语言词汇的词向量表示。
(2)根据步骤(1)得到的词向量表示,利用不同语言实体的摘要、属性、标题这三类文本信息,训练跨语言实体的文本匹配相似度模型;具体如下:
2.1)对实体的摘要、属性和标题文本进行预处理:通过自然语言处理工具对不同语言的摘要、属性和标题文本进行分词、词干化、去停用词处理;
2.2)对于两种语言e和z的每一组候选的实体对(Ee,Ez),根据步骤(1)得到的词向量对预处理后的摘要和属性文本拼接后进行词嵌入(Word Embedding)表示,并进行截断与填充使长度对齐,对齐后的长度为∈,结果记为与对预处理后的标题文本进行词嵌入(Word Embedding)表示,并进行截断与填充使长度对齐,对齐后的长度为结果记为与
然后对得到的输出分别进行基于实体标题te和tz的注意力机制,其具体计算步骤为:
最后将得到的中间结果ge与gz分别经过Bi-LSTM层,这两个Bi-LSTM层的参数是共享的,将前向隐层的最后一个节点输出f与后向隐层的最后一个节点输出b拼接起来,得到文本的表示pl:
pl=[fl,bl] l∈{e,z}
2.3)得到两种语言文本的语义向量表示pe和pz后,将它们拼接起来,使用多层感知机计算候选的实体对(Ee,Ez)的文本匹配相似度sT,多层感知机的计算步骤如下:
x1=[pe,pz]
(3)利用不同语言实体的图像信息,训练跨语言实体的图像匹配相似度模型;具体如下:
3.1)对于一个实体,无论在何种语言当中,它的图像都应该是相似的。例如中文百度百科与英文维基百科都会使用一组图像来介绍每一个实体,相同的实体它们的图像都是相似的,于是就可以使用一组图像来描述实体,进行实体之间的匹配。
3.2)为了使用深度卷积神经网络来学习得到图像的特征,又受限于图像规模与标注的问题,使用在ImageNet上训练好的VGG19模型来提取实体图像的特征:对于每一张图像,使用其通过VGG19模型的倒数第二层的输出作为其特征表示记为υ,维度大小为4096;每个实体均可以用一组图像描述,于是每个实体图像的表示为
然后训练一个多层卷积与池化模型:首先对相似度特征图谱κ经过一层卷积层,卷积核记χ1,卷积核大小为μ1*μ1,卷积层的结果记为c1,c1的维度记为ζ1*ζ1:
然后经过一层池化层,大小为μ2*μ2,池化层的结果记为q2,q2的维度大小记为ζ2*ζ2:
接下来再次经过一层卷积层,卷积核记χ3,卷积核大小为μ3*μ3,卷积层的结果记为c3,c3的维度大小记为ζ3*ζ3:
接下来对c3做横纵向池化:横向池化大小为1*ζ3,得到的结果记为qr,其维度大小记为ζ3:
纵向池化大小为ζ3*1,得到的结果记为qc,其维度大小记为ζ3:
将最后的横纵向池化的结果qr与qc拼接起来,得到两实体图像之间的相似度向量q:
q=[qr,qc]
3.4)得到两实体图像之间的相似度向量q以后,使用多层感知机计算候选的实体对(Ee,Ez)图像之间的相似度sI,多层感知机的计算步骤如下:
(4)融合实体文本与图像两方面的跨媒体信息,联合训练步骤(2)和步骤(3)的两个模型,进行跨语言实体匹配;具体如下:
4.1)对于实体对(Ee,Ez),文本与图像融合的第一种方式是:分别计算其匹配相似度sT与sI,然后最终预测匹配相似度为它们的加权平均,即:
s=sT+εsI
其中ε为超参,这样一来模型最终的损失函数为:
其中Ξ表示三元组样本集,包括文本样本集Ψ和图像样本集Θ,表示其中的一个三元组样例,是一组实体匹配正例,为模型预测的正例的匹配得分,是一组实体匹配负例,为模型预测的负例的匹配得分,||W||2表示所有参数的正则项,λ为超参。
4.2)对于实体对(Ee,Ez),文本与图像融合的第二种方式是:将文本模型与图像模型在多层感知机之前的向量表示通过加权拼接的方式联系起来,最后通过一个多层感知机得到最终的得分s,两个模型一起联合训练;
pe和pz为两种语言实体文本通过步骤(2)网络得到的语义向量表示,q为两种语言实体图像通过步骤(3)的网络在横纵向池化层之后的输出,那么最后的一层网络结构为:
其中Ξ表示三元组样本集,包括文本样本集Ψ和图像样本集Θ,表示其中的一个三元组样例,是一组实体匹配正例,为模型预测的正例的匹配得分,是一组实体匹配负例,为模型预测的负例的匹配得分,||W||2表示所有参数的正则项,λ为超参。
实施例2
(1)本实例采用的数据集来自于中文百度百科与英文维基百科。通过爬取中文百度百科实体页面的摘要与图像构建中文数据集,通过爬取英文维基百科实体页面的摘要与图像构建英文数据集。为了方便实验,使用基于传统的翻译特征筛选了候选集,其中每一个中文实体有100个英文实体作为候选集,其中有一个是正确匹配的英文实体。得到9129组样本,每一组样本均包含一个中文实体与100个英文候选实体。划分数据集,其中7000组样本作为训练集,129组样本作为验证集,2000组样本作为测试集。
(2)使用中文百科页面文本作为语料,使用谷歌翻译翻译得到其英文文本,获得中英文句子语义对齐的语料,中文语料大小约750M,翻译得到的英文语料大小约350M。使用自然语言处理工具进行相关处理后,根据步骤1)中的内容训练词向量,得到中英文的双语言词向量,维度大小为100。
(3)对中文实体摘要与标题进行分词、去停用词等处理,对英文实体摘要与标题进行词干化、去停用词等处理,得到中英文的摘要文本与标题文本。使用预训练好的VGG19模型处理中英文百科实体图像,取倒数第二层的输出作为实体图像特征,得到中英文百科实体图像特征向量。
(4)对训练集中的样本采样生成三元组用于训练,使用Tensorflow搭建模型,进行调参训练。测试集采用Top1准确率与Top10准确率作为衡量标准,分别测试步骤2)单文本特征、步骤3)单图像特征、步骤4.1)文本与图像单独计算得分、步骤4.2)文本与图像联合计算得分效果,以及单独传统手工特征、传统手工特征联合文本图像特征效果,其结果如下表所示:
模型 | Top1 | Top10 |
单一文本特征模型 | 0.2375 | 0.6745 |
单一图像特征模型 | 0.2835 | 0.5405 |
文本与图像联合模型,各特征单独计算得分 | 0.3070 | 0.7635 |
文本与图像联合模型,各特征联合计算得分 | 0.3125 | 0.7020 |
单一传统特征模型 | 0.7545 | 0.8990 |
传统特征与文本图像特征联合,单独计算得分 | 0.8095 | 0.9535 |
传统特征与文本图像特征联合,联合计算得分 | 0.8090 | 0.9500 |
对比可以看出,本方法提出的文本与图像特征对于跨语言实体匹配效果明显,虽然比不上传统特征,但是可以与之联合可以明显提高最终实体匹配的效果。
上述具体实施方式用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
Claims (5)
1.一种基于跨媒体信息的跨语言实体匹配方法,其特征在于,包括以下步骤:
(1)使用语义对齐语料训练跨语言词汇的词向量表示;
(2)根据步骤(1)得到的词向量表示,利用不同语言实体的摘要、属性、标题这三类文本信息,训练跨语言实体的文本匹配相似度模型;具体步骤如下:
2.1)对实体的摘要、属性和标题文本进行预处理:通过自然语言处理工具对不同语言的摘要、属性和标题文本进行分词、词干化、去停用词处理;
2.2)对于两种语言e和z的每一组候选的实体对(Ee,Ez),根据步骤(1)得到的词向量对预处理后的摘要和属性文本拼接后进行词嵌入(Word Embedding)表示,并进行截断与填充使长度对齐,对齐后的长度为∈,结果记为与对预处理后的标题文本进行词嵌入(Word Embedding)表示,并进行截断与填充使长度对齐,对齐后的长度为结果记为与
然后对得到的输出分别进行基于实体标题te和tz的注意力机制,其具体计算步骤为:
最后将得到的中间结果ge与gz分别经过Bi-LSTM层,这两个Bi-LSTM层的参数是共享的,将前向隐层的最后一个节点输出f与后向隐层的最后一个节点输出b拼接起来,得到文本的表示pl:
pl=[fl,bl] l∈{e,z}
2.3)得到两种语言文本的语义向量表示pe和pz后,将它们拼接起来,使用多层感知机计算候选的实体对(Ee,Ez)的文本匹配相似度sT,多层感知机的计算步骤如下:
x1=[pe,pz]
(3)利用不同语言实体的图像信息,训练跨语言实体的图像匹配相似度模型;
(4)融合实体文本与图像两方面的跨媒体信息,联合训练步骤(2)和步骤(3)的两个模型,进行跨语言实体匹配。
2.根据权利要求1所述的基于跨媒体信息的跨语言实体匹配方法,其特征在于,所述的步骤(1)包括:
1.1)使用翻译系统获取句子级别语义对齐的跨语言训练语料;
单一语言词向量训练使用skip-gram模型,训练过程中为了加快速度使用负采样,其损失函数可以表示为:
其中σ表示sigmoid激活函数,ωi为语料库中词τi上下文窗口中的词,ωi,k则表示负采样得到的词,负采样个数为K;
然后在使用skip-gram模型训练两种语言的词向量的同时,加上语义对齐的损失函数;由于使用句子级别的语义对齐语料来限制两种语言的词向量到同一语义空间中,最终语义对齐的损失函数为:
模型的训练过程采用负采样加快收敛,使用随机梯度下降训练,最终得到跨语言词汇的词向量表示。
3.根据权利要求1所述的基于跨媒体信息的跨语言实体匹配方法,其特征在于,所述的步骤(3)包括:
3.1)使用在ImageNet上训练好的VGG19模型来提取实体图像的特征:对于每一张图像,使用其通过VGG19模型的倒数第二层的输出作为其特征表示记为υ,维度大小为4096;每个实体均可以用一组图像描述,于是每个实体图像的表示为
然后训练一个多层卷积与池化模型:首先对相似度特征图谱κ经过一层卷积层,卷积核记χ1,卷积核大小为μ1*μ1,卷积层的结果记为c1,c1的维度记为ζ1*ζ1:
然后经过一层池化层,大小为μ2*μ2,池化层的结果记为q2,q2的维度大小记为ζ2*ζ2:
接下来再次经过一层卷积层,卷积核记χ3,卷积核大小为μ3*μ3,卷积层的结果记为c3,c3的维度大小记为ζ3*ζ3:
接下来对c3做横纵向池化:横向池化大小为1*ζ3,得到的结果记为qr,其维度大小记为ζ3:
纵向池化大小为ζ3*1,得到的结果记为qc,其维度大小记为ζ3:
将最后的横纵向池化的结果qr与qc拼接起来,得到两实体图像之间的相似度向量q:
q=[qr,qc]
3.3)得到两实体图像之间的相似度向量q以后,使用多层感知机计算候选的实体对(Ee,Ez)图像之间的相似度sI,多层感知机的计算步骤如下:
5.根据权利要求1所述的基于跨媒体信息的跨语言实体匹配方法,其特征在于,所述的步骤(4)中,对于实体对(Ee,Ez),文本与图像融合的方式如下:将文本模型与图像模型在多层感知机之前的向量表示通过加权拼接的方式联系起来,最后通过一个多层感知机得到最终的得分s,两个模型一起联合训练;
pe和pz为两种语言实体文本通过步骤(2)网络得到的语义向量表示,q为两种语言实体图像通过步骤(3)的网络在横纵向池化层之后的输出,那么最后的一层网络结构为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811489628.7A CN109710923B (zh) | 2018-12-06 | 2018-12-06 | 基于跨媒体信息的跨语言实体匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811489628.7A CN109710923B (zh) | 2018-12-06 | 2018-12-06 | 基于跨媒体信息的跨语言实体匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109710923A CN109710923A (zh) | 2019-05-03 |
CN109710923B true CN109710923B (zh) | 2020-09-01 |
Family
ID=66254693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811489628.7A Active CN109710923B (zh) | 2018-12-06 | 2018-12-06 | 基于跨媒体信息的跨语言实体匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109710923B (zh) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347807B (zh) * | 2019-05-20 | 2023-08-08 | 平安科技(深圳)有限公司 | 问题信息处理方法及装置 |
CN110442689A (zh) * | 2019-06-25 | 2019-11-12 | 平安科技(深圳)有限公司 | 一种问答关系排序方法、装置、计算机设备及存储介质 |
CN110348014B (zh) * | 2019-07-10 | 2023-03-24 | 电子科技大学 | 一种基于深度学习的语义相似度计算方法 |
CN110516085B (zh) * | 2019-07-11 | 2022-05-17 | 西安电子科技大学 | 基于双向注意力的图像文本互检索方法 |
CN110489551B (zh) * | 2019-07-16 | 2023-05-30 | 哈尔滨工程大学 | 一种基于写作习惯的作者识别方法 |
CN110348024A (zh) * | 2019-07-23 | 2019-10-18 | 天津汇智星源信息技术有限公司 | 基于法律知识图谱的智能识别系统 |
CN110427624B (zh) * | 2019-07-30 | 2023-04-25 | 北京百度网讯科技有限公司 | 实体关系抽取方法及装置 |
CN110705292B (zh) * | 2019-08-22 | 2022-11-29 | 成都信息工程大学 | 一种基于知识库和深度学习的实体名称提取方法 |
CN110765276A (zh) * | 2019-10-21 | 2020-02-07 | 北京明略软件系统有限公司 | 知识图谱中的实体对齐方法及装置 |
CN110928961B (zh) * | 2019-11-14 | 2023-04-28 | 出门问问(苏州)信息科技有限公司 | 一种多模态实体链接方法、设备及计算机可读存储介质 |
CN111180086B (zh) * | 2019-12-12 | 2023-04-25 | 平安医疗健康管理股份有限公司 | 数据匹配方法、装置、计算机设备和存储介质 |
CN111126069B (zh) * | 2019-12-30 | 2022-03-29 | 华南理工大学 | 一种基于视觉对象引导的社交媒体短文本命名实体识别方法 |
CN111563160B (zh) * | 2020-04-15 | 2023-03-31 | 华南理工大学 | 基于全局语义的文本自动摘要方法、装置、介质及设备 |
CN111563192B (zh) * | 2020-04-28 | 2023-05-30 | 腾讯科技(深圳)有限公司 | 实体对齐方法、装置、电子设备及存储介质 |
CN111581990B (zh) * | 2020-05-14 | 2023-11-21 | 中国银行股份有限公司 | 跨境交易撮合匹配方法及装置 |
CN111931505A (zh) * | 2020-05-22 | 2020-11-13 | 北京理工大学 | 一种基于子图嵌入的跨语言实体对齐方法 |
CN111767395B (zh) * | 2020-06-30 | 2023-12-26 | 平安国际智慧城市科技股份有限公司 | 基于图片的摘要生成方法与系统 |
CN111914710B (zh) * | 2020-07-24 | 2024-02-13 | 合肥工业大学 | 一种铁路机务段场景描述方法及系统 |
CN111858961B (zh) * | 2020-07-27 | 2024-02-02 | 西交利物浦大学 | 用于知识图谱中节点和链接的多语言知识匹配方法及装置 |
CN112131404B (zh) * | 2020-09-19 | 2022-09-27 | 哈尔滨工程大学 | 一种四险一金领域知识图谱中实体对齐方法 |
CN113191357B (zh) * | 2021-05-18 | 2023-01-17 | 中国石油大学(华东) | 基于图注意力网络的多层次图像-文本匹配方法 |
CN113408619B (zh) * | 2021-06-21 | 2024-02-13 | 江苏苏云信息科技有限公司 | 语言模型预训练方法、装置 |
CN114417879B (zh) * | 2021-12-29 | 2022-12-27 | 北京百度网讯科技有限公司 | 跨语言文本语义模型的生成方法、装置及电子设备 |
CN114817682B (zh) * | 2022-05-09 | 2024-04-19 | 昆明理工大学 | 基于双重注意力解码网络的跨语言摘要方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550190A (zh) * | 2015-06-26 | 2016-05-04 | 许昌学院 | 面向知识图谱的跨媒体检索系统 |
CN106980664A (zh) * | 2017-03-21 | 2017-07-25 | 苏州大学 | 一种双语可比较语料挖掘方法及装置 |
CN107943784A (zh) * | 2017-11-02 | 2018-04-20 | 南华大学 | 基于生成对抗网络的关系抽取方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170357642A1 (en) * | 2016-06-14 | 2017-12-14 | Babel Street, Inc. | Cross Lingual Search using Multi-Language Ontology for Text Based Communication |
CN106570191B (zh) * | 2016-11-11 | 2020-05-26 | 浙江大学 | 基于维基百科的中英文跨语言实体匹配方法 |
CN107861947B (zh) * | 2017-11-07 | 2021-01-05 | 昆明理工大学 | 一种基于跨语言资源的柬语命名实体识别的方法 |
-
2018
- 2018-12-06 CN CN201811489628.7A patent/CN109710923B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550190A (zh) * | 2015-06-26 | 2016-05-04 | 许昌学院 | 面向知识图谱的跨媒体检索系统 |
CN106980664A (zh) * | 2017-03-21 | 2017-07-25 | 苏州大学 | 一种双语可比较语料挖掘方法及装置 |
CN107943784A (zh) * | 2017-11-02 | 2018-04-20 | 南华大学 | 基于生成对抗网络的关系抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109710923A (zh) | 2019-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109710923B (zh) | 基于跨媒体信息的跨语言实体匹配方法 | |
US11537801B2 (en) | Structured text translation | |
CN109783657B (zh) | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 | |
Iyyer et al. | Deep unordered composition rivals syntactic methods for text classification | |
CN109344404B (zh) | 情境感知的双重注意力自然语言推理方法 | |
Kann et al. | Neural morphological analysis: Encoding-decoding canonical segments | |
CN110825881A (zh) | 一种建立电力知识图谱的方法 | |
CN110717341B (zh) | 一种以泰语为枢轴的老-汉双语语料库构建方法及装置 | |
US11822897B2 (en) | Systems and methods for structured text translation with tag alignment | |
WO2021179693A1 (zh) | 医疗文本翻译方法、装置及存储介质 | |
Delbrouck et al. | Modulating and attending the source image during encoding improves multimodal translation | |
CN109271636B (zh) | 词嵌入模型的训练方法及装置 | |
Monroe | Deep learning takes on translation | |
Goyal et al. | Knowledge-driven description synthesis for floor plan interpretation | |
Bisht et al. | Exploring practical deep learning approaches for English-to-Hindi image caption translation using transformers and object detectors | |
Zheng et al. | Weakly-supervised image captioning based on rich contextual information | |
CN117034961A (zh) | 一种基于bert的中法互译质量测评方法 | |
Arefieva et al. | TourBERT: A pretrained language model for the tourism industry | |
Nazarizadeh et al. | Using Group Deep Learning and Data Augmentation in Persian Sentiment Analysis | |
CN112085985B (zh) | 一种面向英语考试翻译题目的学生答案自动评分方法 | |
CN114155957A (zh) | 文本确定方法、装置、存储介质及电子设备 | |
El Maazouzi et al. | A systematic reading in statistical translation: From the statistical machine translation to the neural translation models. | |
Akhtar et al. | Robust Representation Learning for Low Resource Languages | |
CN112434152B (zh) | 基于多通道卷积神经网络的教育类选择题解答方法和装置 | |
Tamvakidis | Argumentative sentence classification using transfer learning across languages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |