CN110516145B

CN110516145B - 一种基于句向量编码的信息搜索方法

Info

Publication number: CN110516145B
Application number: CN201910621000.6A
Authority: CN
Inventors: 黄震; 王馨怡; 刘锋; 彭宇行; 王聪睿; 徐诗怡
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2020-05-01
Anticipated expiration: 2039-07-10
Also published as: CN110516145A

Abstract

本发明公开了一种基于句向量编码的信息搜索方法，目的是解决搜索信息准确率低的问题。技术方案是先构建由信息搜索数据库、语义搜索排序模块和段落排序模块构成的基于句向量编码的信息搜索系统，语义搜索排序模块由段落编码表示模块和相关性得分计算模块组成。段落编码表示模块利用现有句向量编码方法，将语句转化为固定长度的句向量表示，以语句层级的信息融合为起点，生成段落编码与问题编码；相关性得分计算模块对段落编码与问题编码进行语义相关性得分计算，段落排序模块据此对文本段落排序，获得最相关的文本段落，得到最准确的搜索结果。采用本发明可提高信息搜索的精确度，且复杂性低，易于工程实现。

Description

一种基于句向量编码的信息搜索方法

技术领域

本发明属于开放域条件下的搜索引擎技术领域，尤其涉及一种基于句向量编码的信息搜索方法。

背景技术

当前，搜索引擎技术已成为信息资源获取的重要手段之一。尽管该技术已取得大量优秀成果，在一定程度上满足了信息获取需求，但以关键词为输入并返回大量相关文档的方式存在很多不足，例如返回的冗余信息过多，关键词匹配排序的策略缺乏对语义层面更深层次的理解和处理，搜索效果难以进一步提高。

传统的搜索方法，通过词频-逆文档频度(英语：term frequency–inversedocument frequency，简称TF-IDF)、最佳匹配-25(英语：Best Match 25，简称BM25)等技术进行关键词查询与文档之间的相关性的评估。然而，这些方法忽略了上下文、句子级的语义关系，从而导致搜索的准确率偏低。

因此，近年来学者采用语义匹配技术来解决这类搜索准确率问题(BhaskarMitra,Nick Craswell 2017年在arXiv发表的论文“Neural Models for InformationRetrieval”，即“信息抽取的神经网络模型”)。语义匹配是基于查询和文档的特征表示开展的相关性匹配评估。近年来，深度学习在自然语言处理领域取得了重大突破，其适用效果得到了广泛的认可。作为机器学习的研究分支，深度学习利用其多层的神经网络结构形成了强大的特征自动提取能力，可完成许多传统机器学习算法难以完成的任务。因而，近期有学者提出采用深度学习技术来解决搜索中语义匹配问题。然而，大量研究集中在基于词级别的语义匹配，这类匹配难以应用于文档中长文本(例如篇章/段落级)的整体语义信息匹配。因为长文本情况下，干扰语义信息较多，特别地，以词向量为基础的深度学习模型易于捕获局部特征，难以建模整体语义信息。

由于深度学习模型的数据信息以数值向量形式在神经网络中传递，因此在基于深度学习的文档处理中，词或句子首先应转化为向量表示。良好的向量表征是完成很多自然语言处理(NLP)任务的重要前提，其中针对单词的一种最简单向量表示形式采用热独码表征(one-hot representation)，它最直观也最常用，其做法是将用户所处理的语句或段落中所有单词构建为一个词典(重复单词只记录1次)，记录每个单词首次出现的位置，字典包含的条目个数为语句或段落中所有单词的个数。将每个单词表示成为一个向量，向量长度值为字典包含的条目个数，并给单词首次出现的位置赋值为1，其余赋值为0，即可用值1位置代表单词唯一的标识。例如，针对语句“Iloveworking”，构建词典为{‘I’:0,’love’:1,’working’:2}，单词“love”一词的向量表示为“010”(此句话三个单词，所以是三位，love在第二位，所以第二位为1，其余为0)。

但是这种表示方式存在很多弊端，首先其形式极其稀疏，因而占据存储量很大。假设语句共包含L个单词，则需要开辟一个规模为L*L的矩阵表示语句的L个单词，运算效率低。其次，由于所有向量全部正交，其任意两个词都是孤立存在的，因此热独码无法用来表达语义相近的词汇之间的关系。

为此，分布式向量表征方式(distributed representation)被提出，它采用固定、低维度的向量来对词进行向量表征。分布式表征即为将单词的表示分散到不同维度上表达，这样有效减小了存储空间开销。针对搜索排序问题，绝大多数现有工作是以词嵌入为基础构建的。词嵌入利用分布式词向量之间的距离计算(如欧式距离)衡量词汇之间的相似关系，一般距离比较小的向量在语义或词性上都比较相近，例如word2vec(见Tomas Mikolov，Ilya Sutskever等人2013年发表在NIPS会议上的论文”Distributed Representations ofWords and Phrases and their Compositionality”，即“单词和词组的分布式向量表征及其构建”)、GloVe(见PenningtonJeffrey，SocherRichard和ManningChristopher2014年发表在EMNLP会议1532-1543页的论文“GloVe:Global vectors for word representation”，即“GloVe：单词的全面向量表示”)等均公布了可以应用到多种自然语言处理任务中的词嵌入表示方法。但基于词嵌入的搜索排序模型缺乏高层级(例如语句层级、段落层级)的信息融合，在文本较长的数据集上准确性较差。

此外，近期诸如InferSent(见Connea等人2017年发表在EMNLP会议670-680页的论文“Supervised Learning of Universal Sentence Representations from NaturalLanguage Inference Data”，即“自然语言推断数据集通用句向量表示的监督学习”)等模型致力于构建句嵌入表示，将语句转化为分布式向量表示，捕获整个语句的语义特征。而HtutPhu Mon，BowmanSamuel R和ChoKyunghyun2018年发表在NAACL会议120-127页的论文“Training a Ranking Function for Open-Domain Question Answering.”即“一种开放域问答的排序方法”中尝试基于句嵌入构建排序网络模型，但在如何由句嵌入生成融合段落语义信息时采用简单加和的方式，忽略了不同语句在段落语义表达上的权重差异，导致语义融合和信息集成不够准确，排序准确性较低。

发明内容

本发明要解决的技术问题是：针对词向量难以建模长文本段落导致搜索准确率低的问题，或由句嵌入生成融合段落语义信息时采用简单加和的方式导致信息融合提取不够准确的问题，提出一种基于句向量编码的信息搜索方法，计算问题与候选段落之间的相关性，然后对文本段落进行语义排序，获得最相关的文本段落，得到最准确的搜索结果。

本发明的技术方案是：先构建由信息搜索数据库、语义搜索排序模块和段落排序模块构成的基于句向量编码的信息搜索系统，语义搜索排序模块由段落编码表示模块和相关性得分计算模块组成。段落编码表示模块利用现有句向量编码方法，将语句转化为固定长度的句向量表示，以语句层级的信息融合为起点，生成段落编码与问题编码；相关性得分计算模块对段落编码与问题编码进行语义相关性匹配，计算出文本段落的相关性得分，并据此对文本段落排序，获得最相关的文本段落，得到最准确的搜索结果。

具体技术方案是：

第一步，构建基于句向量编码的信息搜索系统，基于句向量编码的信息搜索系统由信息搜索数据库、语义搜索排序模块和段落排序模块构成。其中，语义搜索排序模块是由段落编码表示模块和相关性得分计算模块组成的卷积神经网络。构建方法是：

1.1搭建信息搜索数据库，其方法为：

1.1.1构建信息搜索数据库结构：

信息搜索数据库是一张问题信息列表。

问题信息列表共包含N个表项，以每个问题(或关键词)的相关信息作为一个表项进行存储。

问题信息列表的每个表项以字典的格式存储，包含4个域，分别为：问题或关键词、候选段落集合、候选段落得分列表以及问题的正确答案。候选段落集合中包含M(M为正整数)个候选段落，问题的正确答案中包含T(T为正整数)个正确答案。

以问题信息列表第i(1≤i≤N)个表项为例，其构成形式为{Q_i，P_i，SS_i，A_i}，Q_i为第i个问题(或关键词)：’xxxx....’(字符串表示问题语句)；P_i为第i个问题的候选段落集合，P_i：用{S₁，S₂...S_m...S_M}表示，S_m为第m个候选段落，1≤m≤M，S_m为包含R(R为正整数)个元素的语句列表，S_m为集合{s₁，s₂...s_r...s_R}，s_r表示p_j的第r个语句，1≤r≤R；候选段落得分列表SS_i为：{Score(Q_i，S₁)，Score(Q_i，S₂)，...，Score(Q_i，S_m)，...，Score(Q_i，S_M)}，Score(Q_i，S_m)为浮点数，表示第m个候选段落S_m与Q_i的相关性得分；A_i为Q_i的答案集合，用{a₁，a₂...a_t...a_T}表示，a_t为Q_i的第t个答案，1≤t≤T，T为正整数)}。(此时是构建数据库结构，N个元素的M、T是相同的)

问题信息列表(令为D)用集合表示为{{Q₁，P₁，SS₁，A₁}，{Q₂，P₂，SS₂，A₂}...{Q_i，P_i，SS_i，A_i}...{Q_N，P_N，SS_N，A_N}}，其中{Q_i，P_i，SS_i，A_i}表示问题信息列表的第i个表项，1≤i≤N，此时{Q_i，P_i，SS_i，A_i}中的Q_i，P_i，SS_i，A_i均为空。

1.1.2选择SQuAD(见P.Rajpurkar，J.Zhang，K.Lopyrev和P.Liang 2016年发表在EMNLP会议2383-2392页的论文“Squad：100,000+questions for machine comprehensionof text”即“SQuAD：阅读理解任务的100，000个问题对”)或Quasar(见B.Dhingra，K.Mazaitis和W.W.Cohen 2017年发表在arXiv：1707.03904的论文“Quasar：Datasets forquestion answering by search and reading”，即“Quasar：通过搜索和阅读构成的问答数据集”)或SearchQA(见M.Dunn，L.Sagun，M.Higgins，V.U.Guney，V.Cirik，和K.Cho 2017年发表在arXiv：1704.05179的论文“SearchQA：Anew q&a dataset augmented withcontext from a search engine”，即“SearchQA：从搜索引擎增加段落的全新问答数据集”)或TriviaQA(见M.Joshi，E.Choi，D.Weld和L.Zettlemoyer 2017年发表在ACL1601-1611页的论文“Triviaqa：A large scale distantly supervised challenge datasetfor reading comprehension”，即“TriviaQA：针对阅读理解任务的一个大规模远距离监督数据集”)这四种数据集中的任意一种作为原始数据集，原始数据集中共有N个数据，N为正整数。

1.1.3预处理原始数据集，将预处理后的原始数据集存放到信息搜索数据库中：

根据候选段落的个数，原始数据集可分为两类，一类为多段落问答数据类型，即原始数据集中的一个问题(假设为Q_i′)提供包含M个原始候选段落的原始候选段落集合

p_j表示Q_i′提供的第j个原始候选段落(1≤j≤M_i)；另一类为单段落问答数据类型，即原始数据集中的一个问题(假设为Q_i′)提供一篇原始候选文章Doc_i，Doc_i包含M个段落。

1.1.3.1若原始数据集为Quasar、SearchQA或TriviaQA，则原始数据集属于多段落问答数据类型，转步骤1.1.3.3；若原始数据集为SQuAD，则原始数据集属于单段落问答数据类型，转步骤1.1.3.2；

1.1.3.2针对原始数据集的问题或关键词，将原始数据集中提供的原始候选文章拆分处理成段落列表，具体步骤为：

1.1.3.2.1初始化变量i＝1，i表示正在处理的原始数据集问题(或关键词)Q_i′的编号；

1.1.3.2.2遍历Q_i′的候选原始候选文章Doc_i，遇到Doc_i中的换行符则进行分段处理，将Doc_i划分为M_i个候选段落，得到Q_i′的原始候选段落集合

M_i为正整数，1≤M_i≤M；

1.1.3.2.3令i＝i+1，如果i≤N，转步骤1.1.3.2.2，否则，说明原始数据集中所有N个数据均已完成原始候选文章的分段处理，得到了N个原始候选段落集合即

转步骤1.1.3.3；

1.1.3.3针对问题或关键词，将

进行分句处理，具体步骤为：

1.1.3.3.1初始化变量i＝1；

1.1.3.3.2初始化分句处理后的Q_i′的候选段落集合P_i为空；初始化变量j＝1；

1.1.3.3.3初始化

中第j个原始候选段落p_j的语句集合S_j为空，

1.1.3.3.3遍历

中第j个原始候选段落p_j，遇到句末标点(“.”或“！”或“？”)，则进行分句处理，将句末标点之前的语句增加到S_j中，共包含R_(i，j)个语句(1≤R_(i，j)≤R)得到第j个原始候选段落p_j的语句列表

(s_r表示p_j的第r个语句，1≤r≤R_(i，j))，将S_j放到分句处理后的Q_i′的候选段落集合P_i中；

1.1.3.3.4令j＝j+1，如果j≤M_i，转步骤1.1.3.3.3，否则，说明Q_i′的原始候选段落集合

已经完成分句处理，得到分句处理后的Q_i′的候选段落集合

令问题信息列表D中的Q_i＝Q_i′，令D中的A_i＝原始数据集中Q′_i对应的答案集合A_i’，令D中的P_i＝原始数据集中Q′_i对应的候选段落集合P_i′，转步骤1.1.3.3.5；

1.1.3.3.5令i＝i+1，如果i≤N，转步骤1.1.3.3.2，否则，说明原始数据集中N个数据均已完成候选段落集合的分句处理，得到了N个候选段落集合，即P′₁，...，P′_i，...，P_N′，且已将D中的问题Q₁，...，Q_i，...，Q_N、候选段落集合P₁，...，P_i，...，P_N、答案集合A₁，...，A_i，...，A_N分别更新为原始数据集中的Q′₁，...，Q′_i，...，Q′_N、P′₁，...，P′_i，...，P′_N、A′₁，...，A′_i，...，A′_N，转1.1.3.4。

1.1.3.4针对问题或关键词，初始化候选段落得分列表，具体步骤为：

1.1.3.4.1初始化变量i＝1：

1.1.3.4.2初始化变量j＝1；

1.1.3.4.3初始化D中的Q_i的第j个原始候选段落p_j的语句列表S_j的得分Score(Q_i，S_j)为最小得分MIN(MIN为一个负数，通常取-1*10³)，即令Score(Q_i，S_j)＝MIN；

1.1.3.4.4令j＝j+1，如果j≤M_i，转步骤1.1.3.4.3；否则，Q_i的得分列表SS_i完成赋值，即获得了

步骤1.1.3.4.5；

1.1.3.4.5令i＝i+1，如果i≤N，转步骤1.1.3.4.2；否则，说明已得到SS₁～SS_N，D的候选段落得分列表初始化完毕，转步骤1.2；

1.2构建语义搜索排序模块，语义搜索排序模块与信息搜索数据库相连，由段落编码表示模块和相关性得分计算模块两个模块组成。方法是：

段落编码表示模块是由句向量编码子模块、段落编码子模块、融合函数子模块连接而成的神经网络模块。

其中，句向量编码子模块与信息搜索数据库、段落编码子模块、相关性得分计算模块相连；段落编码子模块与句向量编码子模块、融合函数子模块相连；融合函数子模块与段落编码子模块、相关性得分计算模块相连。

相关性得分计算模块与句向量编码子模块、融合函数子模块相连。

句向量编码子模块从信息搜索数据库读入D中的数据{Q_i，P_i，SS_i，A_i}，将Q_i转换为句向量编码E_i ^q，将P_i中的语句列表S_j转换为句向量编码

(R_(i，j)表示Q_i的候选段落P_i语句列表S_j元素个数，即P_i语句个数，1≤R_(i，j)≤R；1≤r≤R_(i，j)，表示Q_i的候选段落语句列表S_j中第r个语句s_r的句向量编码)。

是长度为d的一维向量，由d个浮点数构成。E_i ^s是大小为R_(i，j)＊d的二维向量，其构成元素均为浮点数。d为句向量维度，是一个固定的数值(见Connea等人2017年发表在EMNLP会议670-680页的论文“Supervised Learning of Universal SentenceRepresentations from Natural Language Inference Data”，即“自然语言推断数据集通用句向量表示的监督学习”)。句向量编码子模块将E_i ^q和E_i ^s发送给段落编码子模块，同时将E_i ^q发送给相关性得分计算模块；

段落编码子模块从句向量编码子模块接收E_i ^q和E_i ^s，完善补充E_i ^s所包含的信息，使用BiLSTM神经网络(见Graves A，Schmidhuber J等人2005年发表在IJCNN会议602-610页的论文”Framewise phoneme classification with bidirectional LSTM and otherneural network architectures”，即“基于双向LSTM及其他神经网络的帧态因素分类”)将E_i ^s转化为整合了Q_i以及S_j上下文信息的向量编码H_i ^p。将H_i ^p发送给融合函数子模块。其中，H_i ^p是大小为R_(i，j)＊d的二维向量，其构成元素均为浮点数。

融合函数子模块是包含1个池化层的神经网络，将向量编码H_i ^p池化成段落编码E_i ^p，将E_i ^p发送给相关性得分计算模块(E_i ^p是长度为d的一维向量，向量元素为浮点数)。

相关性得分计算模块是一个包含两个全连接层和一个激活函数的分类器神经网络模块。相关性得分计算模块从段落编码表示模块接收E_i ^q和E_i ^p，将Q_i的句向量编码E_i ^q和E_i ^p作为输入，计算两者的相关性，得到S_j对于Q_i的相关性得分Score(Q_i，S_j)，并将Q_i的得分列表SS_i传入段落排序模块；

1.3构建段落排序模块，段落排序模块与信息搜索数据库模块和语义搜索排序模块相连，根据语义搜索排序模块计算的SS_i对Q_i的候选段落P_i排序，返回相关性得分最高的候选段落。

第二步，对语义搜索排序模块进行训练，得到网络权重参数集合：

2.1初始化权重参数，方法是：

2.1.1使用随机函数将参数初始化为随机数。需要初始化的参数包含段落编码表示模块中段落编码子模块采用的BiLSTM的参数(参数定义见Graves A，Schmidhuber J等人2005年发表在IJCNN会议602-610页的论文”Framewise phoneme classification Withbidirectional LSTM and other neural network architectures”，即“基于双向LSTM及其他神经网络的帧态因素分类”)

{W^l0，W^l1，W^l0_r，W^l1_r，b^l0，b^l1，b^l0_r，b^l1_r}以及相关性得分计算模块中全连接层参数{W⁽¹⁾，W⁽²⁾，b⁽¹⁾，b⁽²⁾}；

2.1.2设置训练过程中所需的参数，包括网络模型学习率和批尺寸(batchsize)，一般将网络模型学习率设置为一个正数，将batchsize设置为正整数；实验证明，将网络模型学习率设置为0.001，将batchsize设置为64时，相关性排序准确率最高；

2.2对语义搜索排序模块进行训练，得到语义搜索排序模块权重参数集合。方法是：

2.2.1使用Pytorch深度学习框架(见Adam Paszke等人2017年发表在NIPS会议的论文“Automatic differentiation in PyTorch”，即“PyTorch中的自动微分”)实现语义搜索排序模块。

2.2.2通过最小化边缘排序损失函数(margin ranking loss)(见Bai Bing，Weston Jason，Grangier David等人2010年在InformationRetrieval291-314页发表的论文“Learning to rank with(a lot of)word features”，即“使用单词特征学习排序”)训练语义搜索排序模块。

2.2.3将训练结束后得到的{W^l0，W^l1，W^l0_r，W^l1_r，b^l0，b^l1，b^l0_r，b^l1_r}和{W⁽¹⁾，W⁽²⁾，b⁽¹⁾，b⁽²⁾}作为网络权重参数集合。

第三步，段落编码表示模块对信息搜索数据库中的问题(或关键词)和候选段落编码，相关性得分计算模块计算问题(或关键词)与候选段落的相关性得分，方法如下：

3.1初始化变量i＝1；

3.2段落编码表示模块的句向量编码子模块从信息搜索数据库D读取数据{Q_i，Pi，SS_i，A_i}；

3.3句向量编码子模块采用句向量编码工具(如InferSent等)，将Q_i转换为句向量编码E_i ^q；

3.4初始化变量j＝1；

3.5段落编码子模块采用句向量编码工具(如InferSent等)，将P_i中的候选段落语句列表S_j转换为句向量

(1≤r≤R_(i，j)，

表示S_j中第r个语句的句向量编码)；

3.6段落编码子模块采用拼接的方式将段落句向量E_i ^s中的每项分别与E_i ^q拼接到一起，拼接后得到包含问题信息的句向量编码

是一个大小为R_(i，j)＊2d的二维向量，

表示将E_i ^q与

拼接后形成的向量；采用BiLSTM神经网络将

转换为融合了上下文信息的编码H_i ^p。将H_i ^p发送给融合函数子模块。

3.7融合函数子模块采用池化层将向量编码H_i ^p池化成S_j的段落编码E_i ^p，即从R_(i，j)个d维向量中选择数值最大的1个向量，将R_(i，j)＊d维转化为1＊d维；将E_i ^p发送给相关性得分计算模块；

3.8相关性得分计算模块从句向量编码子模块接收Q_i的句向量编码E_i ^q，从融合函数子模块接收S_j的段落编码E_i ^p，构建匹配矩阵，方法是：

按照E_i ^q、E_i ^p、E_i ^q-E_i ^P(E_i ^q、E_i ^p两个向量对应位置的数值相减)、E_i ^q·E_i ^P(E_i ^q、E_i ^p两个向量对应位置的数值相乘)的顺序拼接得到匹配矩阵MM_i，是一个长度为4d的一维向量，表示为公式(1)

3.9相关性得分计算模块通过全连接层和LeakyRelu激活函数(见Steffen Eger，Paul Youssef和lrynaGurevych 2018年发表在EMNLP会议4415-4424页的论文”Is it Timeto Swish？Comparing Deep Learning Activation Functions Across NLP tasks”，即“是时候快速转变了吗？基于自然语言处理任务的不同深度学习激活函数的性能比较”)计算S_j与Q_i的相关性得分Score(Q_i，S_j)，计算公式如下：

Score(Q_i，S_j)＝W⁽²⁾LeakyReLU(W⁽¹⁾MM_i+b⁽¹⁾)+b⁽²⁾公式(2)

LeakyReLU(W⁽¹⁾M+b⁽¹⁾)是将(W⁽¹⁾MM_i+b⁽¹⁾)作为激活函数的参数进行计算，得到浮点数结果。

3.10j＝j+1，如果j≤M，转步骤3.5，否则，说明Q_i的所有候选段落已经完成相关性打分，得到相关性得分列表

表示Q_i与所有候选段落的相关性得分，转步骤3.11；

3.11i＝i+1，如果i≤N，转步骤3.2，否则，说明信息搜索数据库中所有需要处理的问题(或关键词)均已完成相关性打分，得到整体得分列表SS＝[SS₁，SS₂，...，SS_i，...，SS_N]，，转第四步；

第四步，段落排序模块根据得分列表对候选段落进行排序筛选，方法是：

4.1设定问题(或关键词)返回的最相关段落个数K，K为正整数，通常K的取值为1或3或5；

4.2初始化变量i＝1；

4.3针对Q_i，按照SS_i中的分值，记录SS_i中最高的K个得分对应的序号Index＝[I₁，I₂，...I_k...I_K]，I_k(1≤k≤K)为排名第k个相似性得分的序号；

4.4输出Index对应的段落为得分最高的K个段落，即输出

为第I_k个候选段落；

4.4令i＝i+1，如果i≤N，转步骤4.3，否则，说明数据集中所有问题(或关键词)已经输出最相关的段落信息，结束。

本发明与现有技术相比具有以下技术效果：

(1)步骤3.3和3.5使用了句向量编码工具，将输入的语句转化为固定长度的句向量编码，在句子层级整合了句内语义信息，每一个句向量的维度固定，与语句包含的单词个数无关，便于不同长度的语句之间信息融合，有利于提高搜索准确性；

(2)获取句向量编码后，步骤3.6将代表问题的句向量拼接到段落的每一个句向量后，将问题(或关键词)的信息与候选段落的信息进行了融合，融合方法较为简单，复杂性低；

(3)步骤3.6完成了语句级别的信息融合后，步骤3.7通过池化层选取最大值形成文本段落的段落级代表向量，加深段落中上下文语义信息的融合，进一步提高了准确性。

总之，本发明基于句向量编码的信息搜索方法，分层级多次融合了上下文语义信息，提高了信息相关性打分的准确性，有效提升了信息搜索的精确度，且方法简单，复杂性低，易于工程实现。

附图说明

图1为本发明中信息搜索方法的流程图；

图2为本发明第一步构建的基于句向量编码的信息搜索系统逻辑结构图；

具体实施方式

图1为本发明中信息搜索方法的流程图；如图1所示，本发明包括以下步骤：

第一步，构建如图2所示的基于句向量编码的信息搜索系统，基于句向量编码的信息搜索系统由信息搜索数据库、语义搜索排序模块和段落排序模块构成；语义搜索排序模块是由段落编码表示模块和相关性得分计算模块组成的卷积神经网络；构建方法是：

1.1搭建信息搜索数据库，方法为：

1.1.1构建信息搜索数据库结构：

信息搜索数据库是一张问题信息列表，用D表示；问题信息列表D共包含N个表项，以每个问题或关键词的相关信息作为一个表项进行存储；

问题信息列表D的每个表项以字典的格式存储，包含4个域，分别为：问题或关键词、候选段落集合、候选段落得分列表以及问题的正确答案；候选段落集合中包含M个候选段落，问题的正确答案中包含T个正确答案，M为正整数，T为正整数；

问题信息列表D用集合表示为{{Q₁，P₁，SS₁，A₁}，{Q₂，P₂，SS₂，A₂}...{Q_i，P_i，SS_i，A_i}...{Q_N，P_N，SS_N，A_N}}，其中{Q_i，P_i，SS_i，A_i}表示问题信息列表的第i个表项，1≤i≤N，Q_i为第i个问题或关键词；P_i为第i个问题的候选段落集合，P_i用{S₁，S₂...S_m...S_M}表示，S_m为第m个候选段落，1≤m≤M，S_m为包含R个元素的语句列表，S_m为集合{s₁，s₂...s_r...s_R}，R为正整数，s_r表示p_j的第r个语句，1≤r≤R；候选段落得分列表SS_i为：{Score(Q_i，S₁)，Score(Q_i，S₂)，...，Score(Q_i，S_m)，...，Score(Q_i，S_M)}，Score(Q_i，S_m)为浮点数，表示第m个候选段落S_m与Q_i的相关性得分；A_i为Q_i的答案集合，用{a₁，a₂...a_t...a_T}表示，a_t为Q_i的第t个答案，1≤t≤T，T为正整数；

1.1.2选择Quasar或SQuAD或SearchQA或TriviaQA这四种数据集中的任意一种作为原始数据集，原始数据集中共有N个数据，N为正整数；令Q′_i为原始数据集中第i个问题或关键词，令A_i’为原始数据集中Q′_i对应的答案集合，令P_i′为原始数据集中Q′_i对应的候选段落集合；

1.1.3预处理原始数据集，将预处理后的原始数据集存放到信息搜索数据库D中：

1.1.3.2针对原始数据集的问题或关键词，将原始数据集中提供的原始候选文章拆分处理成段落列表，得到N个原始候选段落集合即

转步骤1.1.3.3；

1.1.3.3针对问题或关键词，将

进行分句处理，具体步骤为：

1.1.3.3.1初始化变量i＝1；

1.1.3.3.3初始化

中第j个原始候选段落p_j的语句集合S_j为空，

1.1.3.3.3遍历

中第j个原始候选段落p_j，遇到句末标点，则进行分句处理，将句末标点之前的语句增加到S_j中，共包含R_(i，j)个语句，得到第j个原始候选段落p_j的语句列表

s_r表示p_j的第r个语句，1≤r≤R_(i，j)，将S_j放到分句处理后的Q_i′的候选段落集合P_i中；

已经完成分句处理，得到分句处理后的Q_i′的候选段落集合

1.1.3.3.5令i＝i+1，如果i≤N，转步骤1.1.3.3.2，否则，说明原始数据集中N个数据均已完成候选段落集合的分句处理，得到了N个候选段落集合，即P′₁，...，P′_i，...，P_N′，且已将D中的问题Q₁，...，Q_i，...，Q_N、候选段落集合P₁，...，P_i，...，P_N、答案集合A₁，...，A_i，...，A_N分别更新为原始数据集中的Q′₁，...，Q′_i，...，Q′_N、P′₁，...，P′_i，...，P′_N、A′₁，...，A′_i，...，A′_N，转1.1.3.4；

1.1.3.4.1初始化变量i＝1；

1.1.3.4.2初始化变量j＝1；

1.1.3.4.3初始化D中的Q_i的第j个原始候选段落p_j的语句列表S_j的得分Score(Q_i，S_j)为最小得分MIN，令MIN为-1*10³；

步骤1.1.3.4.5；

1.2构建语义搜索排序模块，语义搜索排序模块与信息搜索数据库相连，由段落编码表示模块和相关性得分计算模块两个模块组成，方法是：

段落编码表示模块是由句向量编码子模块、段落编码子模块、融合函数子模块连接而成的神经网络模块；

句向量编码子模块与信息搜索数据库、段落编码子模块、相关性得分计算模块相连；段落编码子模块与句向量编码子模块、融合函数子模块相连；融合函数子模块与段落编码子模块、相关性得分计算模块相连；

相关性得分计算模块与句向量编码子模块、融合函数子模块相连；

句向量编码子模块从信息搜索数据库读入D中的数据{Q_i，P_i，SS_i，A_i}，将Q_i转换为句向量编码E_i ^q，将P_i中的候选段落集合S_j转换为句向量编码

R_(i，j)表示Q_i的候选段落P_i语句列表S_j元素个数，即Pi语句个数，1≤R_(i，j)≤R；1≤r≤R_(i，j)，表示Q_i的候选段落语句列表S_j中第r个语句s_r的句向量编码；

是长度为d的一维向量，由d个浮点数构成；E_i ^s是大小为R_(i，j)＊d的二维向量，其构成元素均为浮点数；d为句向量维度，是一个固定的数值；句向量编码子模块将E_i ^q和E_i ^s发送给段落编码子模块，同时将E_i ^q发送给相关性得分计算模块；

段落编码子模块从句向量编码子模块接收E_i ^q和E_i ^s，完善补充E_i ^s所包含的信息，将E_i ^s转化为整合了Q_i以及S_j上下文信息的向量编码H_i ^p，将H_i ^p发送给融合函数子模块；H_i ^p是大小为R_(i，j)＊d的二维向量，其构成元素均为浮点数；

融合函数子模块是包含1个池化层的神经网络，将向量编码H_i ^p池化成段落编码E_i ^p，将E_i ^p发送给相关性得分计算模块，E_i ^p是长度为d的一维向量，向量元素为浮点数；

相关性得分计算模块是一个包含两个全连接层和一个激活函数的分类器神经网络模块；相关性得分计算模块从段落编码表示模块接收E_i ^q和E_i ^p，将Q_i的句向量编码E_i ^q和E_i ^p作为输入，计算两者的相关性，得到S_j对于Q_i的相关性得分Score(Q_i，S_j)，并将Q_i的得分列表SS_i传入段落排序模块；

1.3构建段落排序模块，段落排序模块与信息搜索数据库模块和语义搜索排序模块相连，根据语义搜索排序模块计算的SS_i对Q_i的候选段落P_i排序，返回相关性得分最高的候选段落；

2.1初始化权重参数，方法是：

2.1.1使用随机函数将参数初始化为随机数；需要初始化的参数包含段落编码表示模块中段落编码子模块采用的BiLSTM神经网络的参数

2.1.2将网络模型学习率设置为0.001，将batchsize设置为64；

2.2对语义搜索排序模块进行训练，得到语义搜索排序模块权重参数集合，方法是：

2.2.1使用Pytorch深度学习框架实现语义搜索排序模块；

2.2.2通过最小化边缘排序损失函数即margin ranking loss训练语义搜索排序模块；

2.2.3将训练结束后得到的{W^l0，W^l1，W^l0_r，W^l1_r，b^l0，b^l1，b^l0_r，b^l1_r}和{W⁽¹⁾，W⁽²⁾，b⁽¹⁾，b⁽²⁾}作为网络权重参数集合；

第三步，段落编码表示模块对信息搜索数据库中的问题或关键词和候选段落编码，相关性得分计算模块计算问题或关键词与候选段落的相关性得分，方法如下：

3.1初始化变量i＝1；

3.2段落编码表示模块的句向量编码子模块从信息搜索数据库D读取数据{Q_i，P_i，SS_i，A_i}；

3.3句向量编码子模块采用句向量编码工具，将Q_i转换为句向量编码E_i ^q；

3.4初始化变量j＝1；

3.5段落编码子模块采用句向量编码工具，将P_i中的候选段落语句列表S_j转换为句向量

1≤r≤R_(i，j)，

表示S_j中第r个语句的句向量编码；

3.6段落编码子模块采用拼接的方式将段落句向量E_i ^s中的每项分别与E_i ^q拼接到一起，得到包含问题信息的句向量编码

是一个大小为R_(i，j)＊2d的二维向量，

表示将E_i ^q与

拼接后形成的向量；段落编码子模块将

转换为融合了上下文信息的编码H_i ^p，将H_i ^p发送给融合函数子模块；

3.8相关性得分计算模块从句向量编码子模块接收Q_i的句向量编码E_i ^q，从融合函数子模块接收S_j的段落编码E_i ^p，按照E_i ^q、E_i ^p、E_i ^q-E_i ^P、E_i ^q·E_i ^P的顺序拼接得到匹配矩阵MM_i，MM_i是一个长度为4d的一维向量，MM_i用公式(1)表示为：

3.9相关性得分计算模块通过全连接层和LeakyRelu激活函数计算S_j与Q_i的相关性得分Score(Q_i，S_j)，计算公式如下：

Score(Q_i，S_j)＝W⁽²⁾LeakyReLU(W⁽¹⁾MM_i+b⁽¹⁾)+b⁽²⁾ 公式(2)

LeakyReLU(W⁽¹⁾M+b⁽¹⁾)是将(W⁽¹⁾MM_i+b⁽¹⁾)作为激活函数的参数进行计算，得到浮点数结果；

转步骤3.11；

3.11i＝i+1，如果i≤N，转步骤3.2，否则，说明信息搜索数据库中所有需要处理的问题或关键词均已完成相关性打分，得到整体得分列表SS＝[SS₁，SS₂，...，SS_i，...，SS_N]，转第四步；

4.1设定问题或关键词返回的最相关段落个数K，K为1或3或5；

4.2初始化变量i＝1；

4.3针对Q_i，按照SS_i中的分值，记录SS_i中最高的K个得分对应的序号Index＝[I₁，I₂，...I_k...I_K]，I_k为排名第k个相似性得分的序号，1≤k≤K；

4.4输出Index对应的段落为得分最高的K个段落，即输出

为第I_k个候选段落；

4.4令i＝i+1，如果i≤N，转步骤4.3，否则，数据集中所有问题或关键词已经输出最相关的段落信息，结束。

Claims

1.一种基于句向量编码的信息搜索方法，其特征在于包括以下步骤：

第一步，构建基于句向量编码的信息搜索系统，基于句向量编码的信息搜索系统由信息搜索数据库、语义搜索排序模块和段落排序模块构成；语义搜索排序模块是由段落编码表示模块和相关性得分计算模块组成的卷积神经网络；构建方法是：

1.1搭建信息搜索数据库，方法为：

1.1.1构建信息搜索数据库结构：

问题信息列表D用集合表示为{{Q₁,P₁,SS₁,A₁},{Q₂,P₂,SS₂,A₂}…{Q_i,P_u,SS_i,A_i}...{Q_N,P_N,SS_N,A_N}}，其中{Q_i,P_i,SS_i,A_i}表示问题信息列表的第i个表项，1≤i≤N，Q_i为第i个问题或关键词；P_i为第i个问题的候选段落集合，P_i用{S₁,S₂…S_m…S_M}表示，S_m为第m个候选段落，1≤m≤M，S_m为包含R个元素的语句列表，S_m为集合{s₁,s₂…s_r…s_R}，R为正整数，s_r表示p_j的第r个语句，1≤r≤R；候选段落得分列表SS_i为：{Score(Q_i,S₁),Score(Q_i,S₂)，…，Score(Q_i,S_m)，…，Score(Q_i,S_M)},Score(Q_i,S_m)为浮点数，表示第m个候选段落S_m与Q_i的相关性得分；A_i为Q_i的答案集合，用{a₁,a₂…a_t…a_T}表示，a_t为Q_i的第t个答案，1≤t≤T，T为正整数；

转步骤1.1.3.3；

1.1.3.3针对问题或关键词，将N个原始候选段落集合即

进行分句处理，具体步骤为：

1.1.3.3.1初始化变量i＝1；

1.1.3.3.3初始化

中第j个原始候选段落p_j的语句集合S_j为空，

1.1.3.3.3遍历

中第j个原始候选段落p_j，遇到句末标点，则进行分句处理，将句末标点之前的语句增加到S_j中，共包含R_(i,j)个语句，得到第j个原始候选段落p_j的语句列表

s_r表示p_j的第r个语句,1≤r≤R_(i,j)，将S_j放到分句处理后的Q_i′的候选段落集合P_i中；1≤R_(i,j)≤R；

已经完成分句处理，得到分句处理后的Q_i′的候选段落集合

令问题信息列表D中的Q_i＝Q_i′，令D中的A_i＝原始数据集中Q＇_i对应的答案集合A_i’,令D中的P_i＝原始数据集中Q′_i对应的候选段落集合P_i′，转步骤1.1.3.3.5；

1.1.3.3.5令i＝i+1，如果i≤N，转步骤1.1.3.3.2，否则，说明原始数据集中N个数据均已完成候选段落集合的分句处理，得到了N个候选段落集合，即P′₁,…,P′_i,…,P_N′，且已将D中的问题Q₁,…,Q_i,…,Q_N、候选段落集合P₁,…,P_i,…,P_N、答案集合A₁,…,A_i,…,A_N分别更新为原始数据集中的Q′₁,…,Q′_i,…,Q′_N、P′₁,…,P′_i,…,P′_N、A′₁,…,A′_i,…,A′_N，转1.1.3.4；

1.1.3.4.1初始化变量i＝1；

1.1.3.4.2初始化变量j＝1；

1.1.3.4.3初始化D中的Q_i的第j个原始候选段落p_j的语句列表S_j的得分Score(Q_i,S_j)为最小得分MIN，MIN为一个负数，即令Score(Q_i,S_j)＝MIN；

步骤1.1.3.4.5；

句向量编码子模块从信息搜索数据库读入D中的数据{Q_i,P_i,SS_i,A_i}，将Q_i转换为句向量编码E_i ^q，将P_i中的候选段落集合S_j转换为句向量编码

R_(i,j)表示Q_i的候选段落P_i语句列表S_j元素个数，即P_i语句个数，1≤R_(i,j)≤R；1≤r≤R_(i,j)，表示Q_i的候选段落语句列表S_j中第r个语句s_r的句向量编码；

是长度为d的一维向量，由d个浮点数构成；E_i ^s是大小为R_(i,j)*d的二维向量，其构成元素均为浮点数；d为句向量维度，是一个固定的数值；句向量编码子模块将E_i ^q和E_i ^s发送给段落编码子模块，同时将E_i ^q发送给相关性得分计算模块；

段落编码子模块从句向量编码子模块接收E_i ^q和E_i ^s，完善补充E_i ^s所包含的信息，将E_i ^s转化为整合了Q_i以及S_j上下文信息的向量编码H_i ^p，将H_i ^p发送给融合函数子模块；H_i ^p是大小为R_(i,j)*d的二维向量，其构成元素均为浮点数；

相关性得分计算模块是一个包含两个全连接层和一个激活函数的分类器神经网络模块；相关性得分计算模块从段落编码表示模块接收E_i ^q和E_i ^p，将Q_i的句向量编码E_i ^q和E_i ^p作为输入，计算两者的相关性，得到S_j对于Q_i的相关性得分Score(Q_i,S_j)，并将Q_i的得分列表SS_i传入段落排序模块；

2.1初始化权重参数，方法是：

2.1.1使用随机函数将参数初始化为随机数；需要初始化的参数包含段落编码表示模块中段落编码子模块采用的BiLSTM的参数{W^l0,W^l1,W^l0_r,W^l1_r,b^l0,b^l1,b^l0_r,b^l1_r}以及相关性得分计算模块中全连接层参数{W⁽¹⁾,W⁽²⁾,b⁽¹⁾,b⁽²⁾}；

2.1.2网络模型学习率设置为正数，将批尺寸batchsize设置为正整数；

2.2.1使用Pytorch深度学习框架实现语义搜索排序模块；

2.2.3将训练结束后得到的{W^l0,W^l1,W^l0_r,W^l1_r,b^l0,b^l1,b^l0_r,b^l1_r}和{W⁽¹⁾,W⁽²⁾,b⁽¹⁾,b⁽²⁾}作为网络权重参数集合；

3.1初始化变量i＝1；

3.2段落编码表示模块的句向量编码子模块从信息搜索数据库D读取数据{Q_i,P_i,SS_i,A_i}；

3.4初始化变量j＝1；

表示S_j中第r个语句的句向量编码；

是一个大小为R_(i,j)*2d的二维向量，

表示将E_i ^q与

拼接后形成的向量；段落编码子模块采用BiLSTM神经网络将

3.7融合函数子模块采用池化层将向量编码H_i ^p池化成S_j的段落编码E_i ^p，即从R_(i,j)个d维向量中选择数值最大的1个向量，将R_(i,j)*d维转化为1*d维；将E_i ^p发送给相关性得分计算模块；

3.8相关性得分计算模块从句向量编码子模块接收Q_i的句向量编码E_i ^q，从融合函数子模块接收S_j的段落编码E_i ^q，按照E_i ^q、E_i ^p、E_i ^q-E_i ^P、E_i ^q·E_i ^P的顺序拼接得到匹配矩阵MM_i，MM_i是一个长度为4d的一维向量，MM_i用公式(1)表示为：