CN112732944A

CN112732944A - 一种文本检索的新方法

Info

Publication number: CN112732944A
Application number: CN202110130895.0A
Authority: CN
Inventors: 卢奕南; 赵延
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2021-01-30
Filing date: 2021-01-30
Publication date: 2021-04-30

Abstract

本发明公开一种文本检索的新方法，其方法包括的步骤为：第一部分、使用知识图谱中构造多关系下的实体表示词典集，从多个角度描述实体语义；第二部分、利用查询和文档集训练深度学习网络得到模型；第三部分、给定一个检索问题和测试文档集中利用训练好的神经网络模型进行检索。本发明的有益效果：本发明引入多关系实体表示能够有效的引入先验知识，对于提高算法对语义的理解能力并且减少数据的使用需求有着重要作用。同时使用深度学习方法，合理的引入注意力机制将是深度学习算法优化的关键。最后，随着信息检索文献和方法的成熟，应用更有效的图谱实体学习方法和更合理的深度学习网络结构，将会实现文本及检索领域的更大突破。

Description

一种文本检索的新方法

技术领域

本发明涉及一种文本检索方法，特别涉及一种文本检索的新方法。

背景技术

目前，在过去的几年中深度学习模型和知识图谱表示推理有了很大的进展，并在各个领域取得了重要突破。深度学习网络因为其端到端的优秀提取特征能力，以及层数的叠加带来的计算收益在很多方面超越了传统的机器学习算法，在深度学习模型上发展的词向量和文本表示模型已经广泛的应用在自然语言的各种分支中。知识图谱能够描述实体的概念和实体之间关系，并构成巨大的网络关系图，其中的概念经过人工审核准确而可靠。通过知识图谱，能够准确的存储有关实体的知识，在问答和检索，实体连接等任务上都有可靠的表现。信息检索的目的是在庞大的文本库中寻找有效的模型及算法，信息检索领域取得的发展离不开机器学习和自然语言处理领域的取得的巨大突破。

发明内容

本发明的目的是利用现有的知识图谱表示方法和深度学习排序学习模型提出新的文本检索模型，以提高准确率而提供的一种文本检索的新方法。

本发明提供的文本检索的新方法，其方法包括如下步骤：

第一部分、使用知识图谱中构造多关系下的实体表示词典集，从多个角度描述实体语义，具体步骤如下：

步骤1、根据任务需要构造一个知识图谱，并由三元组进行表示，即包含主语、谓词和宾语的描述；

步骤2、采用基于网络表示学习中的DeepWalk的方法进行多关系的知识图嵌入，得到各个关系下的实体表示词典集；

第二部分、利用查询和文档集训练深度学习网络得到模型，具体步骤如下：

步骤1、构建训练集数据，同时将各检索问题和文档集进行各关系下的实体表示；

步骤2、网络输入多关系下的每对检索和文档的实体表示，构建相应的多个相似度矩阵；

步骤3、对每个矩阵进行基于高斯核的特征提取，并引入多头自注意力机制，提取各个关系下的特征；

步骤4、构建全连接层，求得各个特征的排序分数，计算出它们的平均值；

步骤5、利用Pairwise方法进行深度学习的训练；

第三部分、给定一个检索问题和测试文档集中利用训练好的神经网络模型进行检索，具体步骤如下：

步骤1、将检索语句和测试文档集进行多个关系的实体表示；

步骤2、对每对检索语句和文档表示构建特征，利用训练得到的神经网络模型得到各个测试检索文档的排序分数；

步骤3、根据排序分数对文档进行排序。

本发明的有益效果：

本发明提供的文本检索的新方法，能够增强单词多层面的语义理解，实现端到端的特征提取与排序打分，取得比主流文本检索方法更好的效果。本发明中利用基于知识图谱训练的多关系实体向量替代传统网络中的词向量作为输入，根据已有的知识图谱库以及文本库中的文献自建适合该任务的知识图谱，通过知识图谱实体方法提取出多种关系的向量字典。并引入改进的多头自注意力机制，将检索问题中实体向量的自注意力分配与实体网络特征提取的结果相结合，以提取检索问题中词汇之间的相互依赖关系。本发明引入多关系实体表示能够有效的引入先验知识，对于提高算法对语义的理解能力并且减少数据的使用需求有着重要作用。同时使用深度学习方法，合理的引入注意力机制将是深度学习算法优化的关键。最后，随着信息检索文献和方法的成熟，应用更有效的图谱实体学习方法和更合理的深度学习网络结构，将会实现文本及检索领域的更大突破。

具体实施方式

本发明提供的文本检索的新方法，其具体方法如下所述：

所需条件：普通PC机，并安装有linux系统，服务器系统环境为Unbantu；数据集使用Explicit Semantic Ranking在学术搜索引擎The Semantic Scholar(S2)中总结并公开的搜索日志数据，主要使用语言为Python3.6和Tensorflow1.8.0；安装有matplotlib,numpy,pandas,这些常用的数据处理工具。

实现步骤如下：

第一部分、使用知识图谱中的实体表示方法，分别对多个关系网络中的实体节点进行图表示训练得到各单关系下的实体表示词典集，具体步骤如下：

步骤1、根据任务需要构造一个知识图谱，图谱三元组来自FreeBase，并由三元组进行表示，即包含主语，谓词和宾语的描述；

步骤2、针对图谱中的主要关系，采用基于网络表示学习中的DeepWalk的方法进行多个单关系的知识图嵌入，得到多个关系的实体表示词典集，网络结构中共计算了三种关系下的实体表示词典集，分别是：作者和实体之间的关系，实体和实体之间的联系，会议与实体之间的关系；这三种关系都会形成各自的简化图谱，借用DeepWalk方法训练出了这三种关系的实体向量，然后建立全文本包含的实体向量字典，字典前部分索引遵循FreeBase实体索引方式，将三种关系的字典统一词序，得到相同顺序的三种不同关系的实体表示方式；

第二部分、构造训练集，通过高斯核和多头自注意力机制进行特征提取，构造全连接层进行Pairwise方法的训练，获得神经网络模型及相关参数，具体步骤如下：

步骤1、构建训练集，对实验文本库中的检索问题和查询文档进行两两匹配的人工打分进行分级，按照检索、正例结果、反例结果这样的三元组进行匹配得到训练样本集，利用多关系实体向量字典集和实体连接进行检索问题和查询文档的实体表示；

步骤2、一个样本中的问题及文档的多关系实体表示作为网络输入，构建多个相似度矩阵M，每一个元素M_ij是问题和文本中实体向量i和j的相似度，一般采用余弦相似度：

步骤3、特征提取，首先使用核技巧来提取相似度矩阵中的区间段特征值φ(M)，第k个高斯核函数计算方式如下：

根据不同查询词提取的特征进行对数累加，

是相似度矩阵中第i个查询词所对应行的特征提取值，是由不同的高斯核映射拼接在一起计算：

然后引入多头自注意力机制，利用问题语句的实体表示，计算多头自注意力模块中注意力权重比值；

步骤4：将得到的多个关系下的特征向量与神经网络全连接层相结合，计算排序分数，计算方式如下：

f(q，d)＝tanh(w^Tφ(M)+b)

其中，w和b是神经网络中需要学习的参数,tanh是激活函数，再计算多关系下的排序分数的均值为s(q，d)；

步骤5：使用Pairwise的训练方法，每个训练样本的损失计算公式如下：

L(q，d⁺，d^-；θ)＝max(0，1-s(q，d⁺)+s(q，d^-))

最终网络会通过梯度下降减少总体损失值来调整个阶段的参数，使其训练结束后损失达到最小，保留最终的网络参数值，其中采用Adam的梯度下降训练方式，参数采用随机高斯分布来做初始化设置，学习速率为0.001；

第三部分、对新的检索问题和测试文档集利用训练好的神经网络模型进行打分排序，得到检索结果，具体步骤如下：

步骤1、将检索语句和测试文档集进行实体连接，并利用实体字典集进行多个关系下的实体向量表示；

步骤2、对得到的每对查询语句和文档表示经过高斯核特征提取和多头注意力机制，由训练得到的全连接层计算多个关系的排序分数，求得平均值得到排序分数；

步骤3、根据排序分数对文档进行排序。