CN110309268B

CN110309268B - 一种基于概念图的跨语言信息检索方法

Info

Publication number: CN110309268B
Application number: CN201910627206.XA
Authority: CN
Inventors: 刘刚; 张森南; 刘汪洋; 雷吉成; 胡昱临
Original assignee: CETC Big Data Research Institute Co Ltd
Current assignee: CETC Big Data Research Institute Co Ltd
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2021-06-29
Anticipated expiration: 2039-07-12
Also published as: CN110309268A

Abstract

本发明公开了一种基于概念图的跨语言信息检索方法，所述基于概念图的跨语言信息检索方法为跨语言相似度评估框架CG‑CLIR的方法，包括以下步骤：S1，基于Skip‑Gram的概念图边表示；S2，融合边信息的高阶语义嵌入及相似度计算；所述步骤S1包括文本预处理、概念图边语义嵌入；所述步骤S2包括基于LSTM的图级别语义嵌入、基于图嵌入的相似度计算。本发明的方法在文本跨语言信息检索中，跨越了语言障碍，在不经过翻译的情况下，实现了语义检索的效果。

Description

一种基于概念图的跨语言信息检索方法

技术领域

本发明涉及跨语言信息检索，具体涉及一种基于概念图的跨语言信息检索方法。

背景技术

目前，对文本进行向量表示再进行处理成为了文本分析任务的主流，最常见的就是对词进行向量化表示，例如one-hot模型和词嵌入模型，将句子中的n个词表示成n个d维的向量，这样句子就是一个n*d维的矩阵，方便进行处理。还有一种方法是把句子或者文档映射为一个向量，把段落、文本构造为向量矩阵。这种方法处理时，更多的考虑更长的序列信息问题，也能更好的表示全局信息。但是由于句子是变长的，且作为语义的基本表示单元，词在句子中可以有多种不同的组合，这导致了句子向量表示太过稀疏。一般句子向量多用于篇幅更大的文本任务中。

随着Word Embedding 的提出，研究者们在很多研究内容中都利用了Embedding的方法，除了Word2vec还出现了Sentence2Vec、Doc2vec等方法。嵌入方法虽然是一种浅层语义表示方法，但是它本质还是通过上下文信息对嵌入目标进行分布式向量表示，这也和NLP任务中基于统计的思想是相同的。在自然语言中，虽然不同的语言有不同的表示形式，但是同样的概念在同样的语境下，它们的统计分布是相似的。

传统的检索方法往往通过浅层的文本特征信息进行相似度评价，即使利用语义进行相似度对比，也往往仅仅体现在词层面，对于全局语音特征的利用不够充分。在跨语言相似度检索任务中，由于不同语种的语法存在不同，词的翻译也存在消岐的问题，一般不能通过简单的文本特征进行检索。文本的跨语言信息检索更应该对语义信息进行更深的挖掘，例如上下文语义信息。若是在模糊搜索或者是跨语言相似文本推荐的任务中，更应该全局考虑关键词语义与全文语义的联系。

发明内容

本发明针对上述问题，提供了一种基于概念图的跨语言信息检索方法。

本发明采用的技术方案为：一种基于概念图的跨语言信息检索方法，所述基于概念图的跨语言信息检索方法为跨语言相似度评估框架CG-CLIR的方法，包括以下步骤：

S1，基于Skip-Gram的概念图边表示；

S2，融合边信息的高阶语义嵌入及相似度计算；

所述步骤S1包括文本预处理、概念图边语义嵌入；

所述步骤S2包括基于LSTM的图级别语义嵌入、基于图嵌入的相似度计算。

进一步地，所述文本预处理包括：分别将概念图中的双语实体、双语关系嵌入空间

和

，其中

为嵌入向量维度的大小；将对应中英文概念图分别表示为

和

，其中n为图中的概念个数，m为图中的关系个数；为对图中的边进行嵌入，再图嵌入之前，先将关系也看作实体，把边转化为节点，把带有信息的边转化有向的不带信息的边；首先对图中的概念进行语义表示，再将节点的语义表示作为输入对概念图整体进行语义，获取概念图的全局信息；从而更加全面准确地进行跨语言检索。

更进一步地，所述概念图边语义嵌入：在图嵌入的基础上，首先对概念图中的关系进行分类表示，在构造关系标签的基础上再对图进行整体嵌入；。

更进一步地，所述基于LSTM的图级别语义嵌入包括：

S211，在整个训练样本上从图结构和节点特征中学习节点嵌入；

S212，从Gumbel-Softmax分布近似的随机游走方法连续采样图节点序列；

S213，节点嵌入以及节点序列被修改的RNN模型用作输入以学习图形级别特征以预测图标签；

所述步骤S212和S213形成可区分的监督学习模型，具有相对于分类目标从反向传播学习的随机游走和RNN参数。

更进一步地，所述步骤S211包括：

通过学习嵌入矩阵

，使得每个节点i被映射到通过

计算的d维向量

，并且权重向量

表示每个节点i对应的权重；邻居节点

对应不同的距离，每个节点i的预测模型计算公式如下：

其中，每个计算项

对应于来自与中心节点i距离为s的邻居集的节点嵌入信息的总和；f（·）是可微分的预测函数，

对应于节点类型的预测概率；使用两层神经网络模型作为预测函数：

其中

，损失函数定义为概念图中所有节点上的交叉熵误差之和，计算如下：

应用于图层次的嵌入，主要考虑图中结构信息，对全局信息有更好的表示；用图形卷积网络和GraphSAGE，预训练模型仅使用节点信息的邻居。

更进一步地，所述步骤S212包括：

结合Gumbel-Softmax分布的随机游走方法来生成具有要用分类目标学习的参数的图节点序列的连续样本；

权重矩阵

，其参数为

，定义如下:

即通过为节点之间的值

分配

的距离和距离超过

的节点来对W进行参数化，随机游走转移矩阵

为权重矩阵行上的softmax函数，定义如下:

使用

来分别表示对应于矩阵P和W的第i行的向量；符号

对应于矩阵元素；概念图序列表示为

，由从上式中的转移概率中采样的连续概念图节点组成

表示在该方程中的节点索引；第i个序列中的节点，

形成

的排列；每个节点

中的每一个对应于在所选节点索引处的one-hot向量，如下：

将Gumbel-Softmax分布引入近似样本的分类分布，Gumbel-Max提供如下算法从随机游走概率中抽取样本：

其中

是

从Gumbel（0,1）分布中抽取的样本，进一步使用softmax函数作为arg max的连续和可微分近似，近似样本计算为：

softmax参数τ控制来自Gumbel-Softmax分布和one-hot表示的样本之间的接近度，当τ接近0时，样本变得与来自相同分布的one-hot样本相同。

更进一步地，所述步骤S213包括：

使用递归神经网络模型适应节点属性和邻域信息以及从随机游走方法采样的节点序列，每个元素

在节点序列中，对应于所有图节点上的softmax，表示为

的输入节点特征和表示为

的邻域特征被计算为对应节点和相邻嵌入的加权和:

其中ei是由第一阶段算法生成的节点的表示，并且

作为节点i的聚合邻域嵌入；给定由

定义的循环单元的状态，将状态更新修改为

以考虑节点和邻域信息；图层级表示形成为所有序列步骤上的隐藏单元的总和，如下所示：

对于LSTM模型，将邻居信息传播到所有LSTM门，允许邻域信息被集成到门状态；

预测模型附加在图级表示上以预测图标签，从而对图进行降维表示，在实验中，使用两层全连接神经网络进行判别训练；通过损失函数的反向传播来学习递归神经网络的所有参数，该函数被定义为预测标签和真实图形标签之间的交叉熵误差。

更进一步地，所述基于图嵌入的相似度计算包括：

经过模型最后全连接层的输出，输出了检索概念图的嵌入向量化表示，在数据库中寻找与该概念图向量相似的向量，选择Cosine系数即余弦距离作为统一的相似度度量标准；

Cosine系数的定义如下：

对全连接层的输出进行非线性处理后，得到概念图的向量表示；评价特征向量相似度的指标采用Manhattan LSTM模型中使用的计算公式：

其中

为上一阶段全连接层中的节点表示，exp为以自然常数e为底的指数函数；

按照对图嵌入的向量进行距离计算，求得距离最近的其他图嵌入，通过与候选集中的概念图向量进行相似度计算，进行排序，最后通过排名选择概念图向量相似度靠前的文本，达到检索的效果。

本发明的优点：

本发明提出了概念图的跨语言信息检索框架CG-CLIR框架，该框架融合了概念图中的上下文节点关系信息与概念图的结构信息，以Skip-gram与CBOW为语义支撑，将基于Gumbel分布的随机游走与LSTM网络结合，用于对双语概念图的语义表征，再通过全连接层抽取高阶语义表示，最后输出概念图的相似度得分，从而完成检索需求。

本发明的方法在文本跨语言信息检索中，跨越了语言障碍，在不

经过翻译的情况下，实现了语义检索的效果。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、

特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明的方法流程图；

图2是本发明的CG-CLIR内容结构图；

图3是本发明的图结构嵌入结构图；

图4是本发明的关系嵌入后分类效果可视化图；

图5是本发明的关系嵌入方法效果对比图；

图6是本发明的CG-CLIR与其他两种CLIR方法比较图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提出了基于概念图的跨语言相似度评估框架（Conceptual Graph basedCross-language InformationRetrieval），以下简记为CG-CLIR）；本发明提出了以概念图为相似度评价主体，概念节点和概念关系为评价辅助的文本跨语言信息检索模型CG-CLIR。该模型利用对概念图的整体嵌入，对双语文本进行语义检索。在实现中，首先需要对检索集合中的双语语料进行预处理，经过对文本的概念图构建和嵌入表示，构造一个储存概念图嵌入表示的候选集合。当待检索文本进入检索系统时，通过对检索文本进行相同的预处理，计算出其概念图嵌入表示。再在概念图嵌入向量空间内搜索与该嵌入最为接近的概念图，用其定向的文本作为目标文本。该框架除了依赖于上文构建的文本概念图，同样需要对概念图的准确嵌入。

参考图1和图2，如图1和图2所示，一种基于概念图的跨语言信息检索方法，所述基于概念图的跨语言信息检索方法为跨语言相似度评估框架CG-CLIR的方法，包括以下步骤：

S1，基于Skip-Gram的概念图边表示；

S2，融合边信息的高阶语义嵌入及相似度计算；

所述步骤S1包括文本预处理、概念图边语义嵌入；

所述文本预处理包括：分别将概念图中的双语实体、双语关系嵌入空间

和

，其中

为嵌入向量维度的大小；将对应中英文概念图分别表示为

和

，其中n为图中的概念个数，m为图中的关系个数；为对图中的边进行嵌入，再图嵌入之前，先将关系也看作实体，把边转化为节点，把带有信息的边转化有向的不带信息的边；如果只对概念图中的实体和关系进行双语嵌入并进行相似度计算，就只能对关键词的语义进行匹配，并不能体现基于概念图检索的优势；而如果只对概念图进行直接的图层次的向量表示，则忽略了文本自身携带的信息；单从图中的节点和图的结构对概念图进行嵌入计算，都是不够合理的；首先对图中的概念进行语义表示，再将节点的语义表示作为输入对概念图整体进行语义，获取概念图的全局信息；从而更加全面准确地进行跨语言检索。

所述概念图边语义嵌入：在图嵌入的基础上，首先对概念图中的关系进行分类表示，在构造关系标签的基础上再对图进行整体嵌入；

首先初始化概率值p、q，计算一个节点到达它的邻居的转移概率矩阵，将这个转移概率嵌入到图G中形成G'；walks用来存储游走路径，这个集合在算法开始时是空值，循环次数r表示每个节点需要作为初始游走节点构造r条路径，对于概念图中每个节点，都要生成一条随机游走walk，对于每个节点u，首先将u添加进路径walk中，此时walk的长度为L，因此需要再添加L-1个节点进路径，把当前节点设置为walk当前最后添加的节点，然后找出u的所有邻居节点；根据转移概率p和q选择遍历方向，采样选中的邻居节点s，然后将邻居s添加入walk中，一直到达到路径长度L为止，一条路径walk构造完成；将构造的walk添加到路径walks中保存；每一个walk作为一个batch，用SGD的方法对walks进行训练；寻找目标函数的最优解；将嵌入空间维度设为200；

其中G为概念图、d为表示向量维度、r为节点生成的路径个数，路径长Lp、q为选择DFS和BFS游走方式的概率。

参考图3，如图3所示，所述基于LSTM的图级别语义嵌入包括：

所述步骤S212和S213形成可区分的监督学习模型，具有相对于分类目标从反向传播学习的随机游走和RNN参数；

所述基于LSTM的图级别语义嵌入具体为：

在得到节点的上下文语义信息后，通过基于递归神经网络RNN对概念图进行图层面的表示；包括将图形节点嵌入低维向量空间的新闻方案，以及将图的结构信息映射到与GumbelSoftmax分布近似的向量空间；学习单词表示的模型，学习基于的概念图中的节点表示，节点特征以及与节点相关的结构图信息；使用随机游走方法结合Gumbel-Softmax分布进行连续采样从而构造图形节点序列，其中从中学习参数用于节点嵌入；通过修改的RNN模型输入以学习概念图的图层级特征以预测图标签；对RNN模型的体系结构进行修改以适应上节产出的输出，此模型输入来自节点表示以及其邻域信息；节点序列和RNN模型的采样形成一个能细分的监督学习模型，用参数学习预测图形标签从反向传播到分类目标。

所述步骤S211包括：

通过学习嵌入矩阵

，使得每个节点i被映射到通过

计算的d维向量

，并且权重向量

表示每个节点i对应的权重；邻居节点

对应不同的距离，每个节点i的预测模型计算公式如下：

其中，每个计算项

其中

应用于图层次的嵌入，主要考虑图中结构信息，对全局信息有更好的表示；用图形卷积网络（GCN）和GraphSAGE，预训练模型仅使用节点信息的邻居。

所述步骤S212包括：

权重矩阵

，其参数为

，定义如下:

即通过为节点之间的值

分配

的距离和距离超过

的节点来对W进行参数化，随机游走转移矩阵

为权重矩阵行上的softmax函数，定义如下:

使用

来分别表示对应于矩阵P和W的第i行的向量；符号

对应于矩阵元素；概念图序列表示为

，由从上式中的转移概率中采样的连续概念图节点组成

表示在该方程中的节点索引；第i个序列中的节点，

形成

的排列；每个节点

中的每一个对应于在所选节点索引处的one-hot向量，如下：

将Gumbel-Softmax分布引入近似样本的分类分布，Gumbel-Max提供如下算法从随机游走概率中抽取样本

其中

所述步骤S213包括：

使用递归神经网络模型（LSTM）适应节点属性和邻域信息以及从随机游走方法采样的节点序列，每个元素

在节点序列中，对应于所有图节点上的softmax，表示为

的输入节点特征和表示为

的邻域特征被计算为对应节点和相邻嵌入的加权和:

其中ei是由第一阶段算法生成的节点的表示，并且

作为节点i的聚合邻域嵌入；给定由

定义的循环单元的状态，将状态更新修改为

所述基于图嵌入的相似度计算包括：

Cosine系数的定义如下：

其中

实验验证与分析：

图中关系嵌入表示效果分析，关系嵌入是对图中边信息的表示，在一般网络嵌入中，有时也涉及到边上权重的表示。在本发明中，边是带有信息的概念之前关系，因此对关系的嵌入实际是对不同边的分类。关系嵌入后的部分结果如下表所示：

表1 关系嵌入的部分结果

利用可视化工具对关系嵌入进行可视化，在可视化前做一个简单聚类，将相似关系用相同颜色表示，可视化后的部分结果可视化如图4所示;

如图4所示，代表不同语义的关系被分成了不同的类，在图中由不同的颜色表示，边信息的介入带来了更多更准确的上下文信息。

本实验通过对不同语料中的关系分类进行准确率评估，通过对中英文对齐的关系是否被分类到一个类别中进行评价。

如图5所示，关系节点特征表示通过二级正则化输入到二分类逻辑回归分类器中，测试数据被平均分割为10个随机实例。使用macro-f1分数比较图中方法的性能，相对性能增益超过最近的基准方法。micro-f1分数的趋势也相似。关系嵌入的方法在关关系聚类中效果最好，高于简单聚类方法、DeepWalk方法、LINE方法，本发明使用方法能够对关系进行有效的嵌入。

单语语料与双语语料实验分析：

本实验分别通过对中文单语言、英文单语言、中英文伪双语语料和中英文平行语料四种类型的语料进行实验。与基于关键词的检索、基于本体的检索、基于术语的检索方法这三种常用的检索方法对四个语料库进行相应的实验。其中，关键词方法的关键词来源为概念图中的概念和关系；本体检索的本体来源为概念图中的概念；基于术语的检索方法中，通过对概念图中概念和三元组的过滤，抽取符合术语特征的专有名词。通过对检索结果的top1、top5、top10准确率进行对比。

在单语言语料实验中，由于方法是应用于文本检索，因此最佳相关文本时检索文本本身。为了解决这样的问题，在构造检索文本时，通过随机删除的方法对文本进行20%的删除。随后再进行检索。中英文单语言语料实验对比结果如表2到表3所示：

如表所示，在单语言语料中，效果最好的方法为关键词检索方法，其他三种方法效果差距不大，但都不如关键词检索，尤其是在Top1检索结果的准确率上。然而随着对搜索结果个数的增多，其他三种方法的准确率都有所提高。这是合理的情况，因为后三种检索方法是适用于跨语言的，基于语义的检索，所以在单语言仅仅进行关键词匹配的情况下表现略差一些，而在放宽返回检索候选文本条数后，基于语义的检索方法准确率就会很快提高。在单语言语料中的实验表明，虽然在Top1的准确度上，本发明的方法并无优势，但也没有劣势，同时本发明方法主要应用场景为跨语言检测。

因为本发明的技术目标为解决跨语言检索问题，而跨语言检索和单语言检索的技术思路有较大差异，因此实验重点在于跨语言文本语料的检索效果。这里同样对四种方法在双语语料中进行实验，值得注意的是，由于本发明的方法不涉及机器翻译，而其他几种方法的跨语言主要涉及到翻译问题，因此在上一个实验的基础上，对关键词、本体、术语进行翻译后，进行跨语言检索。在双语语料中的实验结果如表4和表5：

由上表可见，在单语言检索中效果最好的关键词检索方法在跨语言中效果非常差，这是由于翻译中出现的语义消失和歧义问题。在基于本体和基于术语的检索方法中，由于本体和术语在翻译中涉及到较少的歧义问题，所以在跨语言任务中效果更好一些。双语语料中，表现最好的是本发明的基于概念图的检索方法，因为本方法不涉及到翻译，直接对双语概念进行映射，所以更适合跨语言任务场景。值得注意的是，在通过机器翻译的伪平行语料下，各种方法的效果都有提升，因为本身伪双语语料是通过翻译得到，因此，在真实双语语料中的实验更具有通用性。

跨语言信息检索实验结果：

本发明通过对样本集中采样的大量文本进行了跨语言检索实验，并求出每次实验的平均查全/查准率，然后和传统CLIR还有基于本体进行全文检索的方法进行对比。不失一般性，我们对多个待查询文本进行试验，并通过公式（1-14）得出融合关系信息的图嵌入的平均效果。

式中

表示平均查全率（average Percision），r表示查准率，

表示实验中不同查询重复的次数，

表示在第i个查询中，当查准率为r时的平均查全率。

平均查准/查全率是对多次查询效果的评估，对实验中的所有候选集和待查询文本的检索效果惊醒评价，能够取得可信的效果。

对不同节点数概念图的嵌入效果进行评价，得出结果如图6所示。

通过图6可以看出，当对查准率要求比较高时，本发明的方法与其他方法效果持平，但随着对查全率要求的提升，特别是查全率接近100%时，本发明的方法取得了69.67%左右的准确率，是几个方法中效果最好的，进而验证了基于概念图的文本跨语言信息检索技术的有效性。

本发明提出了以概念图为相似度评价主体，概念节点和概念关系为评价辅助的文本跨语言信息检索模型CG-CLIR。该模型利用对概念图的整体嵌入，对双语文本进行语义检索。在实现中，首先需要对检索集合中的双语语料进行预处理，经过对文本的概念图构建和嵌入表示，构造一个储存概念图嵌入表示的候选集合。当待检索文本进入检索系统时，通过对检索文本进行相同的预处理，计算出其概念图嵌入表示。再在概念图嵌入向量空间内搜索与该嵌入最为接近的概念图，用其定向的文本作为目标文本。该框架除了依赖于上文构建的文本概念图，同样需要对概念图的准确嵌入。

本发明通过对概念图的嵌入，对概念图进行向量化表示，这样就可以衡量两个文本之间的语义差异。

本发明的方法在文本跨语言信息检索中，跨越了语言障碍，在不经过翻译的情况下，实现了语义检索的效果。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。