CN110309268B - 一种基于概念图的跨语言信息检索方法 - Google Patents

一种基于概念图的跨语言信息检索方法 Download PDF

Info

Publication number
CN110309268B
CN110309268B CN201910627206.XA CN201910627206A CN110309268B CN 110309268 B CN110309268 B CN 110309268B CN 201910627206 A CN201910627206 A CN 201910627206A CN 110309268 B CN110309268 B CN 110309268B
Authority
CN
China
Prior art keywords
graph
node
embedding
concept
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910627206.XA
Other languages
English (en)
Other versions
CN110309268A (zh
Inventor
刘刚
张森南
刘汪洋
雷吉成
胡昱临
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC Big Data Research Institute Co Ltd
Original Assignee
CETC Big Data Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC Big Data Research Institute Co Ltd filed Critical CETC Big Data Research Institute Co Ltd
Priority to CN201910627206.XA priority Critical patent/CN110309268B/zh
Publication of CN110309268A publication Critical patent/CN110309268A/zh
Application granted granted Critical
Publication of CN110309268B publication Critical patent/CN110309268B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于概念图的跨语言信息检索方法,所述基于概念图的跨语言信息检索方法为跨语言相似度评估框架CG‑CLIR的方法,包括以下步骤:S1,基于Skip‑Gram的概念图边表示;S2,融合边信息的高阶语义嵌入及相似度计算;所述步骤S1包括文本预处理、概念图边语义嵌入;所述步骤S2包括基于LSTM的图级别语义嵌入、基于图嵌入的相似度计算。本发明的方法在文本跨语言信息检索中,跨越了语言障碍,在不经过翻译的情况下,实现了语义检索的效果。

Description

一种基于概念图的跨语言信息检索方法
技术领域
本发明涉及跨语言信息检索,具体涉及一种基于概念图的跨语言信息检索方法。
背景技术
目前,对文本进行向量表示再进行处理成为了文本分析任务的主流,最常见的就是对词进行向量化表示,例如one-hot模型和词嵌入模型,将句子中的n个词表示成n个d维的向量,这样句子就是一个n*d维的矩阵,方便进行处理。还有一种方法是把句子或者文档映射为一个向量,把段落、文本构造为向量矩阵。这种方法处理时,更多的考虑更长的序列信息问题,也能更好的表示全局信息。但是由于句子是变长的,且作为语义的基本表示单元,词在句子中可以有多种不同的组合,这导致了句子向量表示太过稀疏。一般句子向量多用于篇幅更大的文本任务中。
随着Word Embedding 的提出,研究者们在很多研究内容中都利用了Embedding的方法,除了Word2vec还出现了Sentence2Vec、Doc2vec等方法。嵌入方法虽然是一种浅层语义表示方法,但是它本质还是通过上下文信息对嵌入目标进行分布式向量表示,这也和NLP任务中基于统计的思想是相同的。在自然语言中,虽然不同的语言有不同的表示形式,但是同样的概念在同样的语境下,它们的统计分布是相似的。
传统的检索方法往往通过浅层的文本特征信息进行相似度评价,即使利用语义进行相似度对比,也往往仅仅体现在词层面,对于全局语音特征的利用不够充分。在跨语言相似度检索任务中,由于不同语种的语法存在不同,词的翻译也存在消岐的问题,一般不能通过简单的文本特征进行检索。文本的跨语言信息检索更应该对语义信息进行更深的挖掘,例如上下文语义信息。若是在模糊搜索或者是跨语言相似文本推荐的任务中,更应该全局考虑关键词语义与全文语义的联系。
发明内容
本发明针对上述问题,提供了一种基于概念图的跨语言信息检索方法。
本发明采用的技术方案为:一种基于概念图的跨语言信息检索方法,所述基于概念图的跨语言信息检索方法为跨语言相似度评估框架CG-CLIR的方法,包括以下步骤:
S1,基于Skip-Gram的概念图边表示;
S2,融合边信息的高阶语义嵌入及相似度计算;
所述步骤S1包括文本预处理、概念图边语义嵌入;
所述步骤S2包括基于LSTM的图级别语义嵌入、基于图嵌入的相似度计算。
进一步地,所述文本预处理包括:分别将概念图中的双语实体、双语关系嵌入空间
Figure DEST_PATH_IMAGE001
Figure DEST_PATH_IMAGE002
,其中
Figure DEST_PATH_IMAGE003
为嵌入向量维度的大小;将对应中英文概念图分别表示为
Figure DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE005
,其中n为图中的概念个数,m为图中的关系个数;为对图中的边进行嵌入,再图嵌入之前,先将关系也看作实体,把边转化为节点,把带有信息的边转化有向的不带信息的边;首先对图中的概念进行语义表示,再将节点的语义表示作为输入对概念图整体进行语义,获取概念图的全局信息;从而更加全面准确地进行跨语言检索。
更进一步地,所述概念图边语义嵌入:在图嵌入的基础上,首先对概念图中的关系进行分类表示,在构造关系标签的基础上再对图进行整体嵌入;。
更进一步地,所述基于LSTM的图级别语义嵌入包括:
S211,在整个训练样本上从图结构和节点特征中学习节点嵌入;
S212,从Gumbel-Softmax分布近似的随机游走方法连续采样图节点序列;
S213,节点嵌入以及节点序列被修改的RNN模型用作输入以学习图形级别特征以预测图标签;
所述步骤S212和S213形成可区分的监督学习模型,具有相对于分类目标从反向传播学习的随机游走和RNN参数。
更进一步地,所述步骤S211包括:
通过学习嵌入矩阵
Figure DEST_PATH_IMAGE006
,使得每个节点i被映射到通过
Figure DEST_PATH_IMAGE007
计算的d维向量
Figure DEST_PATH_IMAGE009
,并且权重向量
Figure DEST_PATH_IMAGE010
表示每个节点i对应的权重;邻居节点
Figure DEST_PATH_IMAGE011
对应不同的距离,每个节点i的预测模型计算公式如下:
Figure DEST_PATH_IMAGE013
其中,每个计算项
Figure DEST_PATH_IMAGE014
对应于来自与中心节点i距离为s的邻居集的节点嵌入信息的总和;f(·)是可微分的预测函数,
Figure DEST_PATH_IMAGE015
对应于节点类型的预测概率;使用两层神经网络模型作为预测函数:
Figure DEST_PATH_IMAGE016
其中
Figure DEST_PATH_IMAGE017
,损失函数定义为概念图中所有节点上的交叉熵误差之和,计算如下:
Figure DEST_PATH_IMAGE019
应用于图层次的嵌入,主要考虑图中结构信息,对全局信息有更好的表示;用图形卷积网络和GraphSAGE,预训练模型仅使用节点信息的邻居。
更进一步地,所述步骤S212包括:
结合Gumbel-Softmax分布的随机游走方法来生成具有要用分类目标学习的参数的图节点序列的连续样本;
权重矩阵
Figure DEST_PATH_IMAGE020
,其参数为
Figure DEST_PATH_IMAGE021
,定义如下:
Figure DEST_PATH_IMAGE022
即通过为节点之间的值
Figure DEST_PATH_IMAGE023
分配
Figure DEST_PATH_IMAGE024
的距离和距离超过
Figure DEST_PATH_IMAGE025
的节点来对W进行参数化,随机游走转移矩阵
Figure DEST_PATH_IMAGE026
为权重矩阵行上的softmax函数,定义如下:
Figure DEST_PATH_IMAGE028
使用
Figure DEST_PATH_IMAGE029
来分别表示对应于矩阵P和W的第i行的向量;符号
Figure DEST_PATH_IMAGE030
对应于矩阵元素;概念图序列表示为
Figure DEST_PATH_IMAGE031
,由从上式中的转移概率中采样的连续概念图节点组成
Figure DEST_PATH_IMAGE032
表示在该方程中的节点索引;第i个序列中的节点,
Figure DEST_PATH_IMAGE033
形成
Figure DEST_PATH_IMAGE034
的排列;每个节点
Figure DEST_PATH_IMAGE035
中的每一个对应于在所选节点索引处的one-hot向量,如下:
Figure DEST_PATH_IMAGE036
将Gumbel-Softmax分布引入近似样本的分类分布,Gumbel-Max提供如下算法从随机游走概率中抽取样本:
Figure DEST_PATH_IMAGE037
其中
Figure DEST_PATH_IMAGE039
Figure DEST_PATH_IMAGE040
从Gumbel(0,1)分布中抽取的样本,进一步使用softmax函数作为arg max的连续和可微分近似,近似样本计算为:
Figure DEST_PATH_IMAGE042
softmax参数τ控制来自Gumbel-Softmax分布和one-hot表示的样本之间的接近度,当τ接近0时,样本变得与来自相同分布的one-hot样本相同。
更进一步地,所述步骤S213包括:
使用递归神经网络模型适应节点属性和邻域信息以及从随机游走方法采样的节点序列,每个元素
Figure DEST_PATH_IMAGE043
在节点序列中,对应于所有图节点上的softmax,表示为
Figure DEST_PATH_IMAGE044
的输入节点特征和表示为
Figure DEST_PATH_IMAGE045
的邻域特征被计算为对应节点和相邻嵌入的加权和:
Figure DEST_PATH_IMAGE047
其中ei是由第一阶段算法生成的节点的表示,并且
Figure DEST_PATH_IMAGE048
作为节点i的聚合邻域嵌入;给定由
Figure DEST_PATH_IMAGE049
定义的循环单元的状态,将状态更新修改为
Figure DEST_PATH_IMAGE050
以考虑节点和邻域信息;图层级表示形成为所有序列步骤上的隐藏单元的总和,如下所示:
Figure DEST_PATH_IMAGE052
对于LSTM模型,将邻居信息传播到所有LSTM门,允许邻域信息被集成到门状态;
预测模型附加在图级表示上以预测图标签,从而对图进行降维表示,在实验中,使用两层全连接神经网络进行判别训练;通过损失函数的反向传播来学习递归神经网络的所有参数,该函数被定义为预测标签和真实图形标签之间的交叉熵误差。
更进一步地,所述基于图嵌入的相似度计算包括:
经过模型最后全连接层的输出,输出了检索概念图的嵌入向量化表示,在数据库中寻找与该概念图向量相似的向量,选择Cosine系数即余弦距离作为统一的相似度度量标准;
Cosine系数的定义如下:
Figure DEST_PATH_IMAGE054
对全连接层的输出进行非线性处理后,得到概念图的向量表示;评价特征向量相似度的指标采用Manhattan LSTM模型中使用的计算公式:
Figure DEST_PATH_IMAGE056
其中
Figure DEST_PATH_IMAGE057
为上一阶段全连接层中的节点表示,exp为以自然常数e为底的指数函数;
按照对图嵌入的向量进行距离计算,求得距离最近的其他图嵌入,通过与候选集中的概念图向量进行相似度计算,进行排序,最后通过排名选择概念图向量相似度靠前的文本,达到检索的效果。
本发明的优点:
本发明提出了概念图的跨语言信息检索框架CG-CLIR框架,该框架融合了概念图中的上下文节点关系信息与概念图的结构信息,以Skip-gram与CBOW为语义支撑,将基于Gumbel分布的随机游走与LSTM网络结合,用于对双语概念图的语义表征,再通过全连接层抽取高阶语义表示,最后输出概念图的相似度得分,从而完成检索需求。
本发明的方法在文本跨语言信息检索中,跨越了语言障碍,在不
经过翻译的情况下,实现了语义检索的效果。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、
特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明的方法流程图;
图2是本发明的CG-CLIR内容结构图;
图3是本发明的图结构嵌入结构图;
图4是本发明的关系嵌入后分类效果可视化图;
图5是本发明的关系嵌入方法效果对比图;
图6是本发明的CG-CLIR与其他两种CLIR方法比较图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提出了基于概念图的跨语言相似度评估框架(Conceptual Graph basedCross-language InformationRetrieval),以下简记为CG-CLIR);本发明提出了以概念图为相似度评价主体,概念节点和概念关系为评价辅助的文本跨语言信息检索模型CG-CLIR。该模型利用对概念图的整体嵌入,对双语文本进行语义检索。在实现中,首先需要对检索集合中的双语语料进行预处理,经过对文本的概念图构建和嵌入表示,构造一个储存概念图嵌入表示的候选集合。当待检索文本进入检索系统时,通过对检索文本进行相同的预处理,计算出其概念图嵌入表示。再在概念图嵌入向量空间内搜索与该嵌入最为接近的概念图,用其定向的文本作为目标文本。该框架除了依赖于上文构建的文本概念图,同样需要对概念图的准确嵌入。
参考图1和图2,如图1和图2所示,一种基于概念图的跨语言信息检索方法,所述基于概念图的跨语言信息检索方法为跨语言相似度评估框架CG-CLIR的方法,包括以下步骤:
S1,基于Skip-Gram的概念图边表示;
S2,融合边信息的高阶语义嵌入及相似度计算;
所述步骤S1包括文本预处理、概念图边语义嵌入;
所述步骤S2包括基于LSTM的图级别语义嵌入、基于图嵌入的相似度计算。
所述文本预处理包括:分别将概念图中的双语实体、双语关系嵌入空间
Figure DEST_PATH_IMAGE058
Figure 100002_DEST_PATH_IMAGE059
,其中
Figure DEST_PATH_IMAGE060
为嵌入向量维度的大小;将对应中英文概念图分别表示为
Figure DEST_PATH_IMAGE062
Figure DEST_PATH_IMAGE064
,其中n为图中的概念个数,m为图中的关系个数;为对图中的边进行嵌入,再图嵌入之前,先将关系也看作实体,把边转化为节点,把带有信息的边转化有向的不带信息的边;如果只对概念图中的实体和关系进行双语嵌入并进行相似度计算,就只能对关键词的语义进行匹配,并不能体现基于概念图检索的优势;而如果只对概念图进行直接的图层次的向量表示,则忽略了文本自身携带的信息;单从图中的节点和图的结构对概念图进行嵌入计算,都是不够合理的;首先对图中的概念进行语义表示,再将节点的语义表示作为输入对概念图整体进行语义,获取概念图的全局信息;从而更加全面准确地进行跨语言检索。
所述概念图边语义嵌入:在图嵌入的基础上,首先对概念图中的关系进行分类表示,在构造关系标签的基础上再对图进行整体嵌入;
首先初始化概率值p、q,计算一个节点到达它的邻居的转移概率矩阵,将这个转移概率嵌入到图G中形成G';walks用来存储游走路径,这个集合在算法开始时是空值,循环次数r表示每个节点需要作为初始游走节点构造r条路径,对于概念图中每个节点,都要生成一条随机游走walk,对于每个节点u,首先将u添加进路径walk中,此时walk的长度为L,因此需要再添加L-1个节点进路径,把当前节点设置为walk当前最后添加的节点,然后找出u的所有邻居节点;根据转移概率p和q选择遍历方向,采样选中的邻居节点s,然后将邻居s添加入walk中,一直到达到路径长度L为止,一条路径walk构造完成;将构造的walk添加到路径walks中保存;每一个walk作为一个batch,用SGD的方法对walks进行训练;寻找目标函数的最优解;将嵌入空间维度设为200;
其中G为概念图、d为表示向量维度、r为节点生成的路径个数,路径长Lp、q为选择DFS和BFS游走方式的概率。
参考图3,如图3所示,所述基于LSTM的图级别语义嵌入包括:
S211,在整个训练样本上从图结构和节点特征中学习节点嵌入;
S212,从Gumbel-Softmax分布近似的随机游走方法连续采样图节点序列;
S213,节点嵌入以及节点序列被修改的RNN模型用作输入以学习图形级别特征以预测图标签;
所述步骤S212和S213形成可区分的监督学习模型,具有相对于分类目标从反向传播学习的随机游走和RNN参数;
所述基于LSTM的图级别语义嵌入具体为:
在得到节点的上下文语义信息后,通过基于递归神经网络RNN对概念图进行图层面的表示;包括将图形节点嵌入低维向量空间的新闻方案,以及将图的结构信息映射到与GumbelSoftmax分布近似的向量空间;学习单词表示的模型,学习基于的概念图中的节点表示,节点特征以及与节点相关的结构图信息;使用随机游走方法结合Gumbel-Softmax分布进行连续采样从而构造图形节点序列,其中从中学习参数用于节点嵌入;通过修改的RNN模型输入以学习概念图的图层级特征以预测图标签;对RNN模型的体系结构进行修改以适应上节产出的输出,此模型输入来自节点表示以及其邻域信息;节点序列和RNN模型的采样形成一个能细分的监督学习模型,用参数学习预测图形标签从反向传播到分类目标。
所述步骤S211包括:
通过学习嵌入矩阵
Figure DEST_PATH_IMAGE065
,使得每个节点i被映射到通过
Figure DEST_PATH_IMAGE066
计算的d维向量
Figure DEST_PATH_IMAGE068
,并且权重向量
Figure DEST_PATH_IMAGE069
表示每个节点i对应的权重;邻居节点
Figure DEST_PATH_IMAGE070
对应不同的距离,每个节点i的预测模型计算公式如下:
Figure DEST_PATH_IMAGE072
其中,每个计算项
Figure DEST_PATH_IMAGE073
对应于来自与中心节点i距离为s的邻居集的节点嵌入信息的总和;f(·)是可微分的预测函数,
Figure DEST_PATH_IMAGE074
对应于节点类型的预测概率;使用两层神经网络模型作为预测函数:
Figure DEST_PATH_IMAGE075
其中
Figure DEST_PATH_IMAGE076
,损失函数定义为概念图中所有节点上的交叉熵误差之和,计算如下:
Figure DEST_PATH_IMAGE078
应用于图层次的嵌入,主要考虑图中结构信息,对全局信息有更好的表示;用图形卷积网络(GCN)和GraphSAGE,预训练模型仅使用节点信息的邻居。
所述步骤S212包括:
结合Gumbel-Softmax分布的随机游走方法来生成具有要用分类目标学习的参数的图节点序列的连续样本;
权重矩阵
Figure DEST_PATH_IMAGE079
,其参数为
Figure DEST_PATH_IMAGE080
,定义如下:
Figure DEST_PATH_IMAGE081
即通过为节点之间的值
Figure DEST_PATH_IMAGE082
分配
Figure DEST_PATH_IMAGE083
的距离和距离超过
Figure DEST_PATH_IMAGE084
的节点来对W进行参数化,随机游走转移矩阵
Figure DEST_PATH_IMAGE085
为权重矩阵行上的softmax函数,定义如下:
Figure DEST_PATH_IMAGE087
使用
Figure DEST_PATH_IMAGE088
来分别表示对应于矩阵P和W的第i行的向量;符号
Figure DEST_PATH_IMAGE089
对应于矩阵元素;概念图序列表示为
Figure DEST_PATH_IMAGE090
,由从上式中的转移概率中采样的连续概念图节点组成
Figure DEST_PATH_IMAGE091
表示在该方程中的节点索引;第i个序列中的节点,
Figure DEST_PATH_IMAGE092
形成
Figure DEST_PATH_IMAGE093
的排列;每个节点
Figure DEST_PATH_IMAGE094
中的每一个对应于在所选节点索引处的one-hot向量,如下:
Figure DEST_PATH_IMAGE095
将Gumbel-Softmax分布引入近似样本的分类分布,Gumbel-Max提供如下算法从随机游走概率中抽取样本
Figure DEST_PATH_IMAGE096
其中
Figure DEST_PATH_IMAGE097
从Gumbel(0,1)分布中抽取的样本,进一步使用softmax函数作为arg max的连续和可微分近似,近似样本计算为:
Figure DEST_PATH_IMAGE098
softmax参数τ控制来自Gumbel-Softmax分布和one-hot表示的样本之间的接近度,当τ接近0时,样本变得与来自相同分布的one-hot样本相同。
所述步骤S213包括:
使用递归神经网络模型(LSTM)适应节点属性和邻域信息以及从随机游走方法采样的节点序列,每个元素
Figure DEST_PATH_IMAGE099
在节点序列中,对应于所有图节点上的softmax,表示为
Figure DEST_PATH_IMAGE100
的输入节点特征和表示为
Figure DEST_PATH_IMAGE101
的邻域特征被计算为对应节点和相邻嵌入的加权和:
Figure DEST_PATH_IMAGE103
其中ei是由第一阶段算法生成的节点的表示,并且
Figure DEST_PATH_IMAGE104
作为节点i的聚合邻域嵌入;给定由
Figure DEST_PATH_IMAGE105
定义的循环单元的状态,将状态更新修改为
Figure DEST_PATH_IMAGE106
以考虑节点和邻域信息;图层级表示形成为所有序列步骤上的隐藏单元的总和,如下所示:
Figure DEST_PATH_IMAGE108
对于LSTM模型,将邻居信息传播到所有LSTM门,允许邻域信息被集成到门状态;
预测模型附加在图级表示上以预测图标签,从而对图进行降维表示,在实验中,使用两层全连接神经网络进行判别训练;通过损失函数的反向传播来学习递归神经网络的所有参数,该函数被定义为预测标签和真实图形标签之间的交叉熵误差。
所述基于图嵌入的相似度计算包括:
经过模型最后全连接层的输出,输出了检索概念图的嵌入向量化表示,在数据库中寻找与该概念图向量相似的向量,选择Cosine系数即余弦距离作为统一的相似度度量标准;
Cosine系数的定义如下:
Figure DEST_PATH_IMAGE109
对全连接层的输出进行非线性处理后,得到概念图的向量表示;评价特征向量相似度的指标采用Manhattan LSTM模型中使用的计算公式:
Figure DEST_PATH_IMAGE111
其中
Figure DEST_PATH_IMAGE112
为上一阶段全连接层中的节点表示,exp为以自然常数e为底的指数函数;
按照对图嵌入的向量进行距离计算,求得距离最近的其他图嵌入,通过与候选集中的概念图向量进行相似度计算,进行排序,最后通过排名选择概念图向量相似度靠前的文本,达到检索的效果。
实验验证与分析:
图中关系嵌入表示效果分析,关系嵌入是对图中边信息的表示,在一般网络嵌入中,有时也涉及到边上权重的表示。在本发明中,边是带有信息的概念之前关系,因此对关系的嵌入实际是对不同边的分类。关系嵌入后的部分结果如下表所示:
表1 关系嵌入的部分结果
Figure DEST_PATH_IMAGE113
利用可视化工具对关系嵌入进行可视化,在可视化前做一个简单聚类,将相似关系用相同颜色表示,可视化后的部分结果可视化如图4所示;
如图4所示,代表不同语义的关系被分成了不同的类,在图中由不同的颜色表示,边信息的介入带来了更多更准确的上下文信息。
本实验通过对不同语料中的关系分类进行准确率评估,通过对中英文对齐的关系是否被分类到一个类别中进行评价。
如图5所示,关系节点特征表示通过二级正则化输入到二分类逻辑回归分类器中,测试数据被平均分割为10个随机实例。使用macro-f1分数比较图中方法的性能,相对性能增益超过最近的基准方法。micro-f1分数的趋势也相似。关系嵌入的方法在关关系聚类中效果最好,高于简单聚类方法、DeepWalk方法、LINE方法,本发明使用方法能够对关系进行有效的嵌入。
单语语料与双语语料实验分析:
本实验分别通过对中文单语言、英文单语言、中英文伪双语语料和中英文平行语料四种类型的语料进行实验。与基于关键词的检索、基于本体的检索、基于术语的检索方法这三种常用的检索方法对四个语料库进行相应的实验。其中,关键词方法的关键词来源为概念图中的概念和关系;本体检索的本体来源为概念图中的概念;基于术语的检索方法中,通过对概念图中概念和三元组的过滤,抽取符合术语特征的专有名词。通过对检索结果的top1、top5、top10准确率进行对比。
在单语言语料实验中,由于方法是应用于文本检索,因此最佳相关文本时检索文本本身。为了解决这样的问题,在构造检索文本时,通过随机删除的方法对文本进行20%的删除。随后再进行检索。中英文单语言语料实验对比结果如表2到表3所示:
Figure DEST_PATH_IMAGE114
如表所示,在单语言语料中,效果最好的方法为关键词检索方法,其他三种方法效果差距不大,但都不如关键词检索,尤其是在Top1检索结果的准确率上。然而随着对搜索结果个数的增多,其他三种方法的准确率都有所提高。这是合理的情况,因为后三种检索方法是适用于跨语言的,基于语义的检索,所以在单语言仅仅进行关键词匹配的情况下表现略差一些,而在放宽返回检索候选文本条数后,基于语义的检索方法准确率就会很快提高。在单语言语料中的实验表明,虽然在Top1的准确度上,本发明的方法并无优势,但也没有劣势,同时本发明方法主要应用场景为跨语言检测。
因为本发明的技术目标为解决跨语言检索问题,而跨语言检索和单语言检索的技术思路有较大差异,因此实验重点在于跨语言文本语料的检索效果。这里同样对四种方法在双语语料中进行实验,值得注意的是,由于本发明的方法不涉及机器翻译,而其他几种方法的跨语言主要涉及到翻译问题,因此在上一个实验的基础上,对关键词、本体、术语进行翻译后,进行跨语言检索。在双语语料中的实验结果如表4和表5:
Figure DEST_PATH_IMAGE115
由上表可见,在单语言检索中效果最好的关键词检索方法在跨语言中效果非常差,这是由于翻译中出现的语义消失和歧义问题。在基于本体和基于术语的检索方法中,由于本体和术语在翻译中涉及到较少的歧义问题,所以在跨语言任务中效果更好一些。双语语料中,表现最好的是本发明的基于概念图的检索方法,因为本方法不涉及到翻译,直接对双语概念进行映射,所以更适合跨语言任务场景。值得注意的是,在通过机器翻译的伪平行语料下,各种方法的效果都有提升,因为本身伪双语语料是通过翻译得到,因此,在真实双语语料中的实验更具有通用性。
跨语言信息检索实验结果:
本发明通过对样本集中采样的大量文本进行了跨语言检索实验,并求出每次实验的平均查全/查准率,然后和传统CLIR还有基于本体进行全文检索的方法进行对比。不失一般性,我们对多个待查询文本进行试验,并通过公式(1-14)得出融合关系信息的图嵌入的平均效果。
Figure DEST_PATH_IMAGE117
式中
Figure DEST_PATH_IMAGE118
表示平均查全率(average Percision),r表示查准率,
Figure DEST_PATH_IMAGE119
表示实验中不同查询重复的次数,
Figure DEST_PATH_IMAGE120
表示在第i个查询中,当查准率为r时的平均查全率。
平均查准/查全率是对多次查询效果的评估,对实验中的所有候选集和待查询文本的检索效果惊醒评价,能够取得可信的效果。
对不同节点数概念图的嵌入效果进行评价,得出结果如图6所示。
通过图6可以看出,当对查准率要求比较高时,本发明的方法与其他方法效果持平,但随着对查全率要求的提升,特别是查全率接近100%时,本发明的方法取得了69.67%左右的准确率,是几个方法中效果最好的,进而验证了基于概念图的文本跨语言信息检索技术的有效性。
本发明提出了以概念图为相似度评价主体,概念节点和概念关系为评价辅助的文本跨语言信息检索模型CG-CLIR。该模型利用对概念图的整体嵌入,对双语文本进行语义检索。在实现中,首先需要对检索集合中的双语语料进行预处理,经过对文本的概念图构建和嵌入表示,构造一个储存概念图嵌入表示的候选集合。当待检索文本进入检索系统时,通过对检索文本进行相同的预处理,计算出其概念图嵌入表示。再在概念图嵌入向量空间内搜索与该嵌入最为接近的概念图,用其定向的文本作为目标文本。该框架除了依赖于上文构建的文本概念图,同样需要对概念图的准确嵌入。
本发明通过对概念图的嵌入,对概念图进行向量化表示,这样就可以衡量两个文本之间的语义差异。
本发明的方法在文本跨语言信息检索中,跨越了语言障碍,在不经过翻译的情况下,实现了语义检索的效果。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于概念图的跨语言信息检索方法,其特征在于,所述基于概念图的跨语言信息检索方法为跨语言相似度评估框架CG-CLIR的方法,包括以下步骤:
S1,基于Skip-Gram的概念图边表示;
S2,融合边信息的高阶语义嵌入及相似度计算;
所述步骤S1包括文本预处理、概念图边语义嵌入;
所述步骤S2包括基于LSTM的图级别语义嵌入、基于图嵌入的相似度计算;
所述文本预处理包括:分别将概念图中的双语实体、双语关系嵌入空间
Figure 908138DEST_PATH_IMAGE001
Figure 559700DEST_PATH_IMAGE002
,其中
Figure 306814DEST_PATH_IMAGE003
为嵌入向量维度的大小;将对应中英文概念图分别表示为
Figure 436444DEST_PATH_IMAGE004
Figure 985237DEST_PATH_IMAGE005
,其中n为图中的概念个数,m为图中的关系个数;为对图中的边进行嵌入,再图嵌入之前,先将关系也看作实体,把边转化为节点,把带有信息的边转化有向的不带信息的边;首先对图中的概念进行语义表示,再将节点的语义表示作为输入对概念图整体进行语义,获取概念图的全局信息;从而更加全面准确地进行跨语言检索;
所述概念图边语义嵌入:在图嵌入的基础上,首先对概念图中的关系进行分类表示,在构造关系标签的基础上再对图进行整体嵌入。
2.根据权利要求1所述的基于概念图的跨语言信息检索方法,其特征在于,所述基于LSTM的图级别语义嵌入包括:
S211,在整个训练样本上从图结构和节点特征中学习节点嵌入;
S212,从Gumbel-Softmax分布近似的随机游走方法连续采样图节点序列;
S213,节点嵌入以及节点序列被修改的RNN模型用作输入以学习图形级别特征以预测图标签;
所述步骤S212和S213形成可区分的监督学习模型,具有相对于分类目标从反向传播学习的随机游走和RNN参数。
3.根据权利要求2所述的基于概念图的跨语言信息检索方法,其特征在于,所述步骤S211包括:
通过学习嵌入矩阵
Figure 276541DEST_PATH_IMAGE006
,使得每个节点i被映射到通过
Figure 277995DEST_PATH_IMAGE007
计算的d维向量
Figure 211316DEST_PATH_IMAGE008
,并且权重向量
Figure 349036DEST_PATH_IMAGE009
表示每个节点i对应的权重;邻居节点
Figure 76820DEST_PATH_IMAGE010
对应不同的距离,每个节点i的预测模型计算公式如下:
Figure 299991DEST_PATH_IMAGE012
其中,每个计算项
Figure 771424DEST_PATH_IMAGE014
对应于来自与中心节点i距离为s的邻居集的节点嵌入信息的总和;f(·)是可微分的预测函数,
Figure 29230DEST_PATH_IMAGE015
对应于节点类型的预测概率;使用两层神经网络模型作为预测函数:
Figure 429381DEST_PATH_IMAGE017
其中
Figure 405427DEST_PATH_IMAGE019
,损失函数定义为概念图中所有节点上的交叉熵误差之和,计算如下:
Figure 414971DEST_PATH_IMAGE021
应用于图层次的嵌入,主要考虑图中结构信息,对全局信息有更好的表示;用图形卷积网络和GraphSAGE,预训练模型仅使用节点信息的邻居。
4.根据权利要求2所述的基于概念图的跨语言信息检索方法,其特征在于,所述步骤S212包括:
结合Gumbel-Softmax分布的随机游走方法来生成具有要用分类目标学习的参数的图节点序列的连续样本;
权重矩阵
Figure 527284DEST_PATH_IMAGE023
,其参数为
Figure 596871DEST_PATH_IMAGE025
,定义如下:
Figure 794634DEST_PATH_IMAGE027
即通过为节点之间的值
Figure 607869DEST_PATH_IMAGE028
分配
Figure 840268DEST_PATH_IMAGE030
的距离和距离超过
Figure 80756DEST_PATH_IMAGE031
的节点来对W进行参数化,随机游走转移矩阵
Figure 500236DEST_PATH_IMAGE032
为权重矩阵行上的softmax函数,定义如下:
Figure 117162DEST_PATH_IMAGE034
使用
Figure 204067DEST_PATH_IMAGE035
Figure 113992DEST_PATH_IMAGE036
来分别表示对应于矩阵P和W的第i行的向量;符号
Figure 286347DEST_PATH_IMAGE038
对应于矩阵元素;概念图序列表示为
Figure 441385DEST_PATH_IMAGE040
,由从上式中的转移概率中采样的连续概念图节点组成
Figure 382796DEST_PATH_IMAGE041
表示在该方程中的节点索引;第i个序列中的节点,
Figure 230667DEST_PATH_IMAGE042
的排列;每个节点
Figure 624739DEST_PATH_IMAGE043
中的每一个对应于在所选节点索引处的one-hot向量,如下:
Figure 583467DEST_PATH_IMAGE045
将Gumbel-Softmax分布引入近似样本的分类分布,Gumbel-Max提供如下算法从随机游走概率中抽取样本:
Figure 379385DEST_PATH_IMAGE046
其中
Figure 398157DEST_PATH_IMAGE047
从Gumbel(0,1)分布中抽取的样本,进一步使用softmax函数作为arg max的连续和可微分近似,近似样本计算为:
Figure 279525DEST_PATH_IMAGE049
softmax参数τ控制来自Gumbel-Softmax分布和one-hot表示的样本之间的接近度,当τ接近0时,样本变得与来自相同分布的one-hot样本相同。
5.根据权利要求2所述的基于概念图的跨语言信息检索方法,其特征在于,所述步骤S213包括:
使用递归神经网络模型适应节点属性和邻域信息以及从随机游走方法采样的节点序列,每个元素
Figure 41945DEST_PATH_IMAGE050
在节点序列中,对应于所有图节点上的softmax,表示为
Figure 957948DEST_PATH_IMAGE051
的输入节点特征和表示为
Figure 117927DEST_PATH_IMAGE052
的邻域特征被计算为对应节点和相邻嵌入的加权和:
Figure 752171DEST_PATH_IMAGE053
其中ei是由第一阶段算法生成的节点的表示,并且
Figure 787123DEST_PATH_IMAGE054
作为节点i的聚合邻域嵌入;给定由
Figure 557633DEST_PATH_IMAGE055
定义的循环单元的状态,将状态更新修改为
Figure 387049DEST_PATH_IMAGE056
以考虑节点和邻域信息;图层级表示形成为所有序列步骤上的隐藏单元的总和,如下所示:
Figure 508589DEST_PATH_IMAGE057
对于LSTM模型,将邻居信息传播到所有LSTM门,允许邻域信息被集成到门状态;
预测模型附加在图级表示上以预测图标签,从而对图进行降维表示,在实验中,使用两层全连接神经网络进行判别训练;通过损失函数的反向传播来学习递归神经网络的所有参数,该函数被定义为预测标签和真实图形标签之间的交叉熵误差。
6.根据权利要求1所述的基于概念图的跨语言信息检索方法,其特征在于,所述基于图嵌入的相似度计算包括:
经过模型最后全连接层的输出,输出了检索概念图的嵌入向量化表示,在数据库中寻找与该概念图向量相似的向量,选择Cosine系数即余弦距离作为统一的相似度度量标准;
Cosine系数的定义如下:
Figure DEST_PATH_IMAGE059
对全连接层的输出进行非线性处理后,得到概念图的向量表示;评价特征向量相似度的指标采用Manhattan LSTM模型中使用的计算公式:
Figure DEST_PATH_IMAGE061
其中
Figure DEST_PATH_IMAGE063
为上一阶段全连接层中的节点表示,exp为以自然常数e为底的指数函数;
按照对图嵌入的向量进行距离计算,求得距离最近的其他图嵌入,通过与候选集中的概念图向量进行相似度计算,进行排序,最后通过排名选择概念图向量相似度靠前的文本,达到检索的效果。
CN201910627206.XA 2019-07-12 2019-07-12 一种基于概念图的跨语言信息检索方法 Active CN110309268B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910627206.XA CN110309268B (zh) 2019-07-12 2019-07-12 一种基于概念图的跨语言信息检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910627206.XA CN110309268B (zh) 2019-07-12 2019-07-12 一种基于概念图的跨语言信息检索方法

Publications (2)

Publication Number Publication Date
CN110309268A CN110309268A (zh) 2019-10-08
CN110309268B true CN110309268B (zh) 2021-06-29

Family

ID=68079884

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910627206.XA Active CN110309268B (zh) 2019-07-12 2019-07-12 一种基于概念图的跨语言信息检索方法

Country Status (1)

Country Link
CN (1) CN110309268B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826726B (zh) * 2019-11-08 2023-09-08 腾讯科技(深圳)有限公司 目标处理方法、目标处理装置、目标处理设备及介质
CN110991523A (zh) * 2019-11-29 2020-04-10 西安交通大学 一种面向无人驾驶车辆检测算法性能的可解释性评估方法
CN111047014B (zh) * 2019-12-11 2023-06-23 中国航空工业集团公司沈阳飞机设计研究所 一种多智能体空中对抗分布式采样训练方法及设备
CN111458471B (zh) * 2019-12-19 2023-04-07 中国科学院合肥物质科学研究院 一种基于图神经网络的水域检测预警方法
CN111241241B (zh) * 2020-01-08 2024-05-31 平安科技(深圳)有限公司 基于知识图谱的案件检索方法、装置、设备及存储介质
CN111368552B (zh) * 2020-02-26 2023-09-26 北京市公安局 一种面向特定领域的网络用户群组划分方法及装置
CN111667181B (zh) * 2020-06-08 2023-04-28 拉扎斯网络科技(上海)有限公司 任务处理方法、装置、电子设备及计算机可读存储介质
CN111782748B (zh) * 2020-06-28 2024-01-12 北京百度网讯科技有限公司 地图检索方法、信息点poi语义向量的计算方法和装置
CN113157865B (zh) * 2021-04-25 2023-06-23 平安科技(深圳)有限公司 跨语言词向量生成方法、装置、电子设备及存储介质
CN115599899B (zh) * 2022-11-08 2023-04-07 中国空气动力研究与发展中心计算空气动力研究所 基于飞行器知识图谱的智能问答方法、系统、设备及介质
CN115878760B (zh) * 2023-02-10 2023-05-23 北京知呱呱科技服务有限公司 一种基于图匹配的跨语种专利检索方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862045A (zh) * 2017-11-07 2018-03-30 哈尔滨工程大学 一种基于多特征的跨语言剽窃检测方法
CN108701150A (zh) * 2016-02-18 2018-10-23 微软技术许可有限责任公司 使用通用概念图产生文本片断
CN109213995A (zh) * 2018-08-02 2019-01-15 哈尔滨工程大学 一种基于双语词嵌入的跨语言文本相似度评估技术
CN109325112A (zh) * 2018-06-27 2019-02-12 北京大学 一种基于emoji的跨语言情感分析方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271461B (zh) * 2007-03-19 2011-07-13 株式会社东芝 跨语言检索请求的转换及跨语言信息检索方法和系统
JP5656353B2 (ja) * 2007-11-07 2015-01-21 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation マルチリンガル・テキスト・リソースのアクセスを制御するための方法および装置
US9678952B2 (en) * 2013-06-17 2017-06-13 Ilya Ronin Cross-lingual E-commerce
WO2017216642A2 (en) * 2016-06-14 2017-12-21 Babel Street, Inc. Cross lingual search using multi-language ontology for text based communication
CN106372187B (zh) * 2016-08-31 2019-12-17 中译语通科技股份有限公司 一种面向大数据的跨语言检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108701150A (zh) * 2016-02-18 2018-10-23 微软技术许可有限责任公司 使用通用概念图产生文本片断
CN107862045A (zh) * 2017-11-07 2018-03-30 哈尔滨工程大学 一种基于多特征的跨语言剽窃检测方法
CN109325112A (zh) * 2018-06-27 2019-02-12 北京大学 一种基于emoji的跨语言情感分析方法和装置
CN109213995A (zh) * 2018-08-02 2019-01-15 哈尔滨工程大学 一种基于双语词嵌入的跨语言文本相似度评估技术

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"跨语言信息检索技术应用与进展研究";吴丹 等;《情报科学》;20060930;第24卷(第9期);第1435-1440页 *

Also Published As

Publication number Publication date
CN110309268A (zh) 2019-10-08

Similar Documents

Publication Publication Date Title
CN110309268B (zh) 一种基于概念图的跨语言信息检索方法
Gargiulo et al. Deep neural network for hierarchical extreme multi-label text classification
CN109446338B (zh) 基于神经网络的药物疾病关系分类方法
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
Andhale et al. An overview of text summarization techniques
Tang et al. Sentiment embeddings with applications to sentiment analysis
CN111737496A (zh) 一种电力设备故障知识图谱构建方法
CN109783806B (zh) 一种利用语义解析结构的文本匹配方法
CN108509521B (zh) 一种自动生成文本索引的图像检索方法
Toshevska et al. Comparative analysis of word embeddings for capturing word similarities
CN113268569A (zh) 基于语义的关联词查找方法及装置、电子设备、存储介质
CN112036178A (zh) 一种配网实体相关的语义搜索方法
CN111639165A (zh) 基于自然语言处理和深度学习的智能问答优化方法
CN111325018A (zh) 一种基于web检索和新词发现的领域词典构建方法
CN113705238A (zh) 基于bert和方面特征定位模型的方面级情感分析方法及模型
Singh et al. SciDr at SDU-2020: IDEAS--Identifying and Disambiguating Everyday Acronyms for Scientific Domain
CN114064901B (zh) 一种基于知识图谱词义消歧的书评文本分类方法
Lanlan et al. Simulation of English part-of-speech recognition based on machine learning prediction algorithm
CN114841353A (zh) 一种融合句法信息的量子语言模型建模系统及其应用
Karpagam et al. A framework for intelligent question answering system using semantic context-specific document clustering and Wordnet
CN113963748A (zh) 一种蛋白质知识图谱向量化方法
CN111581365B (zh) 一种谓词抽取方法
CN112417170A (zh) 面向不完备知识图谱的关系链接方法
Zhang et al. An approach for named entity disambiguation with knowledge graph
Saeidi et al. Context-enhanced concept disambiguation in wikification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant