CN112347223B

CN112347223B - 文档检索方法、设备及计算机可读存储介质

Info

Publication number: CN112347223B
Application number: CN202011215045.2A
Authority: CN
Inventors: 王伟; 李响; 邓俊毅; 谢超
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-11-03
Filing date: 2020-11-03
Publication date: 2023-09-22
Anticipated expiration: 2040-11-03
Also published as: CN112347223A

Abstract

本发明涉及自然语言处理，提供一种文档检索方法、设备及介质。本发明通过获取被检索文档的多层级跨句语义信息，能够挖掘到被检索文档在单词级、句子级再到文档级层面的内在语义的联系，并提取跨句语义信息，为后续在预训练语言模型中进行匹配提供了更为全面的文档特征；通过对模型采用不同比例掩盖处理方式进行预训练，使得模型能够对文档中的单词采用不同的掩盖处理方式，有利于捕捉更重要的内在联系；通过为模型输入被检索文件的多层级跨句语义信息，并结合模型的不同比例掩盖处理方式进一步挖掘语义内在联系，使得模型所得到的特征相似度更为精确，匹配结果也更加准确。此外，本发明还涉及区块链技术，上述被检索文档可存储于区块链中。

Description

文档检索方法、设备及计算机可读存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种文档检索方法、设备及计算机可读存储介质。

背景技术

信息检索一直是自然语言处理中的重要领域。该领域的基本思路是：分别提取检索内容和被检索内容的文档特征，通过相似性算法来获得最匹配的<检索内容，被检索内容>文档对。而预训练语言模型近年来在文档分类、智能问答、机器阅读、文档摘要等众多自然语言处理领域都取得很好效果，目前主流方法大都以谷歌开源的预训练模型BERT为基础再加以改进，但BERT本身设计存在一些缺陷，例如：训练时对语料中句子随机位置的单词进行掩盖，模型假设各个单词之间互相是独立的，但实际上很多单词之间隐含了丰富的语义特征，BERT的做法丢失了很多内在语义特征，导致后续任务精度的下降；简单地将单词的词嵌入向量，位置向量等向量相加，作为transformer模型的输入向量，对句子乃至整个文档内在的语义关联度考虑不够全面等。现有方法在这两点上基本继承了BERT原来的处理思路，因此依然存在着精确度不高的问题。

发明内容

本发明的主要目的在于提供一种文档检索方法、设备及计算机可读存储介质，旨在解决现有的基于预训练语言模型的检索精确度不高的技术问题。

为实现上述目的，本发明提供一种文档检索方法，所述文档检索方法包括以下步骤：

获取被检索文档经整合后所得的被检索文档矩阵，并基于所述被检索文档矩阵提取所述被检索文档的多层级跨句语义信息，以得到包含所述多层级跨句语义信息的第一输入向量；

获取包含有预设检索文档库中若干检索文档的多层级跨句语义信息的第二输入向量集，并将所述第一输入向量与所述第二输入向量集作为采用不同比例掩盖处理方式训练后的预训练语言模型的输入，得到所述第一输入向量与所述第二输入向量集之间的特征相似度，以基于所述特征相似度确定出与所述被检索文档相匹配的目标检索文档。

可选地，所述基于所述被检索文档矩阵提取所述被检索文档的多层级跨句语义信息，以得到包含所述多层级跨句语义信息的第一输入向量，包括：

获取所述被检索文档矩阵的词向量与位置向量；

基于词频-逆文档频率算法与命名实体识别技术，得到用于获取所述被检索文档矩阵的邻接语义向量的目标备选词集合；

基于长短时记忆网络模型，对所述目标备选词集合中的每一备选词进行编码，以得到所述被检索文档矩阵的邻接语义向量；

将所述词向量、所述位置向量与所述邻接语义向量作为所述第一输入向量，其中，所述第一输入向量存储于区块链中。

可选地，所述基于词频-逆文档频率算法与命名实体识别技术，得到用于获取所述被检索文档矩阵的邻接语义向量的目标备选词集合，包括：

使用词频-逆文档频率算法对所述被检索文档矩阵中的词序列进行加权处理，生成所述被检索文档矩阵对应的词频-逆文档频率属性队列；

对所述被检索文档矩阵的每一词序列进行词性分析，得到所述被检索文档矩阵对应的词性频率属性队列；

使用命名实体识别技术，识别所述被检索文档矩阵中每一语句序列的实体，并结合预设知识图谱三元组，得到所述被检索文档矩阵对应的实体共现频率属性队列；

结合所述词频-逆文档频率属性队列、所述词性频率属性队列与所述实体共现频率属性队列，得到所述目标备选词集合。

可选地，所述结合所述词频-逆文档频率属性队列、所述词性频率属性队列与所述实体共现频率属性队列，得到所述目标备选词集合，包括：

结合所述词频-逆文档频率属性队列、所述词性频率属性队列与所述实体共现频率属性队列，确定所述被检索文档矩阵中的备选词序列，并对所述备选词序列进行排序，得到初始备选词集合；

判断所述初始备选词集合中的备选词数目是否超出预设词量阈值；

若所述备选词数目超出预设词量阈值，则对所述初始备选词集合进行哈希运算，以从所述初始备选词集合中筛选出所述目标备选词集合；

若所述备选词数目未超出预设词量阈值，则将所述初始备选词集合作为所述目标备选词集合。

可选地，所述基于长短时记忆网络模型，对所述目标备选词集合中的每一备选词进行编码，以得到所述被检索文档矩阵的邻接语义向量，包括：

使用长短时记忆网络模型，对所述目标备选词集合中的每一备选词分别按照从前到后与从后往前两个方向进行编码，得到前向邻接语义向量与后向邻接语义向量；

将所述前向邻接语义向量与后向邻接语义向量进行拼接，生成原始邻接语义向量，并使用有监督机器学习方式对所述原始邻接语义向量赋予相应权重，以得到所述被检索文档矩阵的邻接语义向量。

可选地，所述获取被检索文档经整合后所得的被检索文档矩阵之前，还包括：

获取由多个预训练词序列组成的预训练语料，并生成所述预训练语料的语料词频-逆文档频率属性队列与语料词性属性队列；

根据各个所述预训练词序列分别在所述语料词频-逆文档频率属性队列与语料词性属性队列中位置编号的乘积，对各个所述预训练词序列进行排序，得到预训练掩盖队列；

按照预设比例标准，对所述预训练掩盖队列中的各个已排序的预训练词序列进行保留和/或替换的掩盖处理。

可选地，所述获取被检索文档经整合后所得的被检索文档矩阵，包括：

获取被检索文档，使用预设分词工具对组成所述被检索文档的若干句子进行分词处理，以将每一句子转化为由若干词序列组成的句子序列，得到包含若干所述句子序列的句子序列集合；

获取所述句子序列集合中长度最大的句子序列所对应的最大序列长度，并使用预设替代符号对所述句子序列集合中的其他句子序列进行补齐，得到由若干个序列长度均为所述最大序列长度的句子序列所组成的文档矩阵，以作为所述被检索文档矩阵。

可选地，所述将所述第一输入向量与所述第二输入向量集作为采用不同比例掩盖处理方式训练后的预训练语言模型的输入，得到所述第一输入向量与所述第二输入向量集之间的特征相似度，以基于所述特征相似度确定出与所述被检索文档相匹配的目标检索文档包括：

将所述第一输入向量与所述第二输入向量集输入所述预训练语言模型，获取所述第一输入向量与所述第二输入向量集中各个第二输入向量之间的特征相似度；

选取最高特征相似度对应的目标第二输入向量，以将所述目标第二输入向量对应在所述检索文档库中的文档作为与所述被检索文档相匹配的目标检索文档。

此外，为实现上述目的，本发明还提供一种文档检索装置，所述文档检索装置包括：

向量获取模块，用于获取被检索文档经整合后所得的被检索文档矩阵，并基于所述被检索文档矩阵提取所述被检索文档的多层级跨句语义信息，以得到包含所述多层级跨句语义信息的第一输入向量；

文档匹配模块，用于获取包含有预设检索文档库中若干检索文档的多层级跨句语义信息的第二输入向量集，并将所述第一输入向量与所述第二输入向量集作为采用不同比例掩盖处理方式训练后的预训练语言模型的输入，得到所述第一输入向量与所述第二输入向量集之间的特征相似度，以基于所述特征相似度确定出与所述被检索文档相匹配的目标检索文档。

可选地，所述向量获取模块包括：

部分向量获取单元，用于获取所述被检索文档矩阵的词向量与位置向量；

备选词语获取单元，用于基于词频-逆文档频率算法与命名实体识别技术，得到用于获取所述被检索文档矩阵的邻接语义向量的目标备选词集合；

邻接向量获取单元，用于基于长短时记忆网络模型，对所述目标备选词集合中的每一备选词进行编码，以得到所述被检索文档矩阵的邻接语义向量；

第一向量获取单元，用于将所述词向量、所述位置向量与所述邻接语义向量作为所述第一输入向量，其中，所述第一输入向量存储于区块链中。

可选地，所述备选词语获取单元还用于：

可选地，所述邻接向量获取单元还用于：

可选地，所述文档检索装置还包括：

语料队列获取模块，用于获取由多个预训练词序列组成的预训练语料，并生成所述预训练语料的语料词频-逆文档频率属性队列与语料词性属性队列；

掩盖队列获取模块，用于根据各个所述预训练词序列分别在所述语料词频-逆文档频率属性队列与语料词性属性队列中位置编号的乘积，对各个所述预训练词序列进行排序，得到预训练掩盖队列；

序列掩盖处理模块，用于按照预设比例标准，对所述预训练掩盖队列中的各个已排序的预训练词序列进行保留和/或替换的掩盖处理。

可选地，所述向量获取模块包括：

句子集合获取单元，用于获取被检索文档，使用预设分词工具对组成所述被检索文档的若干句子进行分词处理，以将每一句子转化为由若干词序列组成的句子序列，得到包含若干所述句子序列的句子序列集合；

文档矩阵获取单元，用于获取所述句子序列集合中长度最大的句子序列所对应的最大序列长度，并使用预设替代符号对所述句子序列集合中的其他句子序列进行补齐，得到由若干个序列长度均为所述最大序列长度的句子序列所组成的文档矩阵，以作为所述被检索文档矩阵。

可选地，所述文档匹配模块包括：

相似度获取单元，用于将所述第一输入向量与所述第二输入向量集输入所述预训练语言模型，获取所述第一输入向量与所述第二输入向量集中各个第二输入向量之间的特征相似度；

检索匹配单元，用于选取最高特征相似度对应的目标第二输入向量，以将所述目标第二输入向量对应在所述检索文档库中的文档作为与所述被检索文档相匹配的目标检索文档。

此外，为实现上述目的，本发明还提供一种文档检索设备，所述文档检索设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的文档检索程序，其中所述文档检索程序被所述处理器执行时，实现如上述的文档检索方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有文档检索程序，其中所述文档检索程序被处理器执行时，实现如上述的文档检索方法的步骤。

本发明提供一种文档检索方法、设备及计算机可读存储介质，所述文档检索方法通过获取被检索文档的多层级跨句语义信息，较之现有的仅对文档中词语的独立语义提取，能够更加细致地挖掘到被检索文档在单词级、句子级再到文档级层面的内在语义的联系，尤其是跨句语义信息的提取，为后续在预训练语言模型中进行匹配提供了更为丰富、全面的文档特征；通过对预训练语言模型预先采用不同比例掩盖处理方式进行预训练，使得预训练语言模型能够对文档中的单词采用不同的掩盖处理方式，有利于模型捕捉更为重要的内在联系；通过在模型输入时提供被检索文件的多层级跨句语义信息，并结合模型的不同比例掩盖处理方式进一步挖掘语义内在联系，使得模型所得到的特征相似度更为精确，最终为被检索文档匹配出的结果也更加准确，从而解决了现有的基于预训练语言模型的检索精确度不高的技术问题。

附图说明

图1为本发明实施例方案中涉及的文档检索设备的硬件结构示意图；

图2为本发明文档检索方法第一实施例的流程示意图；

图3为本发明文档检索方法一具体实施例中的文档矩阵示意图；

图4为本发明文档检索方法另一实施例中的词向量哈希环示意图；

图5为为本发明文档检索方法又一实施例中的邻接语义向量计算编码顺序示意图；

图6为本发明文档检索装置的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例涉及的文档检索方法主要应用于文档检索设备，该文档检索设备可以是PC、便携计算机、移动终端等具有显示和处理功能的设备。

参照图1，图1为本发明实施例方案中涉及的文档检索设备的硬件结构示意图。本发明实施例中，文档检索设备可以包括处理器1001(例如CPU)，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信；用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)；网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)；存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器，存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的硬件结构并不构成对文档检索设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

继续参照图1，图1中作为一种计算机可读存储介质的存储器1005可以包括操作系统、网络通信模块以及文档检索程序。

在图1中，网络通信模块主要用于连接服务器，与服务器进行数据通信；而处理器1001可以调用存储器1005中存储的文档检索程序，并执行本发明实施例提供的文档检索方法。

基于上述硬件结构，提出本发明文档检索方法的各个实施例。

为解决上述问题，本发明提供一种文档检索方法，即通过获取被检索文档的多层级跨句语义信息，较之现有的仅对文档中词语的独立语义提取，能够更加细致地挖掘到被检索文档在单词级、句子级再到文档级层面的内在语义的联系，尤其是跨句语义信息的提取，为后续在预训练语言模型中进行匹配提供了更为丰富、全面的文档特征；通过对预训练语言模型预先采用不同比例掩盖处理方式进行预训练，使得预训练语言模型能够对文档中的单词采用不同的掩盖处理方式，有利于模型捕捉更为重要的内在联系；通过在模型输入时提供被检索文件的多层级跨句语义信息，并结合模型的不同比例掩盖处理方式进一步挖掘语义内在联系，使得模型所得到的特征相似度更为精确，最终为被检索文档匹配出的结果也更加准确，从而解决了现有的基于预训练语言模型的检索精确度不高的技术问题。

参照图2，图2为本发明文档检索方法第一实施例的流程示意图。

本发明第一实施例提供一种文档检索方法，所述文档检索方法包括以下步骤：

步骤S10，获取被检索文档经整合后所得的被检索文档矩阵，并基于所述被检索文档矩阵提取所述被检索文档的多层级跨句语义信息，以得到包含所述多层级跨句语义信息的第一输入向量；

在本实施例中，本方法应用于终端。第一输入向量为与被检索文档对应的用于输入预训练语言模型的输入向量。文档通常由若干句子构成，而句子又由若干词语组成。多层级跨句语义信息中的多层级包括单词级、句子级与文档级。

终端需要先确定当前的被检索文档，确定方式即可为用户向终端发起指定类的指令，或是终端根据预设程序自动选择等。终端先确定当前检索任务中的被检索文档，然后再对文档进行预处理，例如，去除文档中的停用词、助词、感叹词等。然后再将被检索文档中的每个句子进行整合，使得每一句子的长度一致。句子长度即指的是每一个句子中的单词个数相同。第一输入向量具体可包括词向量、位置向量与邻接语义向量等。

具体地，终端先确定当前的给定文档Di，中文句子先用分词工具进行分词。设Di中第i个句子为xi，句子中词按次序依次标记为xi,1，xi,2，…，每个句子都是一个单独序列。设文档中最长句子单词数量为Lmax，则对其余句子进行补齐，即不足Lmax长度部分的用特殊符号unk代替。考虑到文档中可能存在无意义的短句，可剔除句子长度小于某个阈值Lt(例如句子长度小于4)的句子。形成的文档矩阵如图3所示。

步骤S20，获取包含有预设检索文档库中若干检索文档的多层级跨句语义信息的第二输入向量集，并将所述第一输入向量与所述第二输入向量集作为采用不同比例掩盖处理方式训练后的预训练语言模型的输入，得到所述第一输入向量与所述第二输入向量集之间的特征相似度，以基于所述特征相似度确定出与所述被检索文档相匹配的目标检索文档。

在本实施例中，预设检索文档库为本次检索任务的检索范围对应的文档库。出于检索效率考虑，用户可根据检索需求预先限定检索的主题范围，例如当前需要检索的金融领域的文档，则可选定金融领域标签，以缩小检索文档库的主题范围，有助于提高检索效率。第二输入向量集中可包含若干个第二输入向量，第二输入向量为，与检索文档对应的用于输入预训练语言模型的输入向量。每一第二输入向量可与一篇检索文档一一对应，也可与多篇检索文档对应。第二输入向量也可包括检索文档对应的词向量、位置向量与邻接语义向量，获取方式可参照被检索文档对应的词向量、位置向量与邻接语义向量的获取方式。

终端在步骤S10之前，预训练采用transformer模型中的Encoder模块，具体过程可参照BERT，但区别在于本发明对预训练的语料做如下处理。对句子中单词xij，取其在TF-IDF和词性属性两个队列中位置ID的乘积并排序，形成最终的mask队列。对mask队列中的单词，分别按照不同比例ratio_maskij(各比例相加的总和为1)进行掩盖。每次掩盖时处理方法有：一定比例的保持原来单词不变，一定比例随机替换为文档中任何一个单词，一定比例替换为unk符号。终端将通过预训练语言模型获取到检索文档与被检索文档分别对应的文本特征，然后可通过余弦距离计算、哈密尔顿距离等方式计算两者之间的相似度，并将当前所计算出的最高相似度所对应的检索文档作为最终的检索结果，也即是上述目标检索文档。

在本实施例中，本发明通过获取被检索文档经整合后所得的被检索文档矩阵，并基于所述被检索文档矩阵提取所述被检索文档的多层级跨句语义信息，以得到包含所述多层级跨句语义信息的第一输入向量；获取包含有预设检索文档库中若干检索文档的多层级跨句语义信息的第二输入向量集，并将所述第一输入向量与所述第二输入向量集作为采用不同比例掩盖处理方式训练后的预训练语言模型的输入，得到所述第一输入向量与所述第二输入向量集之间的特征相似度，以基于所述特征相似度确定出与所述被检索文档相匹配的目标检索文档。通过上述方式，本发明通过获取被检索文档的多层级跨句语义信息，较之现有的仅对文档中词语的独立语义提取，能够更加细致地挖掘到被检索文档在单词级、句子级再到文档级层面的内在语义的联系，尤其是跨句语义信息的提取，为后续在预训练语言模型中进行匹配提供了更为丰富、全面的文档特征；通过对预训练语言模型预先采用不同比例掩盖处理方式进行预训练，使得预训练语言模型能够对文档中的单词采用不同的掩盖处理方式，有利于模型捕捉更为重要的内在联系；通过在模型输入时提供被检索文件的多层级跨句语义信息，并结合模型的不同比例掩盖处理方式进一步挖掘语义内在联系，使得模型所得到的特征相似度更为精确，最终为被检索文档匹配出的结果也更加准确，从而解决了现有的基于预训练语言模型的检索精确度不高的技术问题。

进一步地，基于上述图2所示的第一实施例，提出本发明文档检索方法的第二实施例。本实施例中，所述基于所述被检索文档矩阵提取所述被检索文档的多层级跨句语义信息，以得到包含所述多层级跨句语义信息的第一输入向量，包括：

获取所述被检索文档矩阵的词向量与位置向量；

在本实施例中，第一输入向量包括被检索文档矩阵的词向量、位置向量与邻接矩阵向量。词频-逆文档频率算法即TF-IDF(term frequency–inverse document frequency)算法，词向量通常可采用主流word2vec、glove等公开模型获取，位置向量通常可采用transformer里提到的正弦波获取，以上两类向量的获取方式均为本领域的常规技术手段。具体获取过程在此不做赘述。终端使用TF-IDF算法，生成被检索文档矩阵对应的TF-IDF属性队列。终端对被检索文档矩阵的每一词序列进行词性分析，得到被检索文档矩阵对应的词性频率属性队列。终端使用命名实体识别技术，识别被检索文档矩阵中每一语句序列的实体，并结合预设知识图谱三元组，得到被检索文档矩阵对应的实体共现频率属性队列。终端结合TF-IDF属性队列、词性频率属性队列与实体共现频率属性队列，得到目标备选词集合。最后，终端即可将三类向量汇总作为被检索文档对应的第一输入向量。最终每个词的输入向量为词向量、位置向量、邻接语义向量三者相加而成。

需要强调的是，为进一步保证上述第一输入向量的私密和安全性，上述第一输入向量还可以存储于一区块链的节点中。

进一步地，基于词频-逆文档频率算法与命名实体识别技术，得到用于获取所述被检索文档矩阵的邻接语义向量的目标备选词集合，包括：

在本实施例中，由于每个句子中的单词的重要程度是不一样的，终端对句子中每个单词计算邻接语义向量的开销很大，因此设置备选计算词集合，以对单词进行筛选。终端对于备选计算词集合的计算主要过程分为两个阶段。第一阶段主要由以下几个步骤进行：

第一步，对语料采取操作，去除停用词、助词、感叹词；

第二步，统计每个句子Xi中中单词出现频率和逆文档频率，即TF-IDF，按照从低到高排序，形成TF-IDF属性队列，队列中位置ID从1开始计数，下一个位置依次加1。对于TF-IDF值相等的单词，其在队列中的位置ID为同一个ID。

第三步，对句子中每个单词Xij均进行词性分析，统计每种词性所占比例，按照从低到高排序，形成词性频率属性队列，队列中位置ID从1开始计数，下一个位置依次加1。对于词性频率相等的单词，其在队列中的位置ID为同一个ID。

第四步，以知识图谱，实践中可以FreeBase等为参照，通过命名实体识别(NER，Named Entity Recognition)技术识别句子中的实体。统计句子中每个实体与其它实体共同出现在知识图谱三元组中的频率，从低到高排序，形成实体共现频率属性队列，队列中位置ID从1开始计数，下一个位置依次加1。对于共现频率相等的名词，其在实体共现频率属性队列中的位置ID为同一个ID。

第五步，对句子中单词Xij，取其在上述三类属性队列中位置ID的乘积，并排序，得到最后的备选计算词队列，在训练过程中每一轮可设置不同阈值，例如20％，意为取前20％的单词进入备选计算词集合。

进一步地，所述结合所述词频-逆文档频率属性队列、所述词性频率属性队列与所述实体共现频率属性队列，得到所述目标备选词集合，包括：

在本实施例中，在经过以上处理后，计算量仍然可能过大，因此进行备选计算词集合的第二次过滤。终端先通过预设词量范围来判断当前是否需要对备选词集合进行第二次筛选。预设词量阈值可根据实际需求灵活设置，本实施例不做具体限定。定义哈希函数，h(x)＝argmax([xM；-xM])，其中M为矩阵，x为词的词向量,；符号代表向量拼接。终端将初始备选词经过哈希运算后，具有相同散列值的词可以划为一个簇。取该簇中的某个词，或者排名前m位的词，只计算它的邻接语义向量，其他同簇的词都采用这个邻接语义向量。如图4所示，图4以x44的第一个邻接词序列为例，给出了哈希计算后的示例结果。

进一步地，所述基于长短时记忆网络模型，对所述目标备选词集合中的每一备选词进行编码，以得到所述被检索文档矩阵的邻接语义向量，包括：

在本实施例中，终端对句子Xi备选计算词集合中每个词Xi,j的第k个邻接词序列，分别按照从前到后，从后到前两个方向进行编码，如图5所示，以图5中句子X4中词x44的第一个邻接词序列为例，箭头方向为编码顺序。编码可以采用长短时记忆网络(LSTM，LongShort-Term Memory)模型，将编码后形成的向量分别命名为前向邻接语义向量、后向邻接语义向量；再对两个向量进行拼接，形成新的第k个“邻接语义向量”，以符号Eadj(Xi)表示。对每个邻接语义向量赋予权重，原则是k越大其权重越小，最后该词的最终邻接语义向量为k个邻接语义向量的加权和。对于有些不在备选计算词集合中的词，定义其伪邻接语义向量，以0填充。

终端对于权重的具体求法可以用有监督机器学习方法。将所有邻接语义向量组成矩阵Wadj，要求解的权重向量为We，We＝[we1,we2,we3,…]。We最开始随机设置，设置标签向量Y为邻接词序列的序号构成的One-hot向量，例如标签ID为2的标签向量为[0,1,0,...0]，Wadj*WeT＝Y。可用常见的随机梯度下降SGD、自适应梯度下降ADM等求解。最后通过计算Wadj*WeT得到新权重。由于向量中各参数之和可能不为1，再用归一化方法进行处理，使得各邻接语义向量的权重之和为1。

进一步地，通过从单词级、句子级、文档级层面考虑了各单词之间的内在语义联系，尤其是针对跨句语义信息的提取，并为不同层次的信息赋予不同权重，在进行预训练之前提取了更为全面、丰富的特征，使得最后预训练的模型捕捉文档内在语义更为有效；通过从多个维度获得单词在文档中的重要性指标，通过哈希方法减少了向量的计算开销，从而提升来整体的文档检索效率。

进一步地，基于上述图2所示的第一实施例，提出本发明文档检索方法的第三实施例。本实施例中，所述获取被检索文档经整合后所得的被检索文档矩阵之前，还包括：

在本实施例中，终端对语言模型的预训练采用transformer模型中的Encoder模块，具体过程可参照BERT，但区别在于本发明对预训练的语料做如下处理。对句子中单词xij，取其在TF-IDF和词性属性两个队列中位置ID的乘积并排序，形成最终的mask队列(即上述预训练掩盖队列)。对mask队列中的单词，分别按照不同比例(各比例相加的总和为1)进行掩盖。预设比例标准可根据实际需求灵活设置，例如依照先后顺序为单词设置由大到小的比例。每次掩盖时处理方法有：一定比例的保持原来单词不变，一定比例随机替换为文档中任何一个单词，一定比例替换为特定符号，例如unk符号。

进一步地，所述获取被检索文档经整合后所得的被检索文档矩阵，包括：

在本实施例中，终端先确定当前的给定文档Di，中文句子先用分词工具进行分词。设Di中第i个句子为xi，句子中词按次序依次标记为xi,1，xi,2，…，每个句子都是一个单独序列。设文档中最长句子单词数量为Lmax，则对其余句子进行补齐，即不足Lmax长度部分的用特殊符号unk代替。考虑到文档中可能存在无意义的短句，可剔除句子长度小于某个阈值Lt(例如句子长度小于4)的句子。如图3，对每个单词xi,j，每次以一个单词为步长，选择其邻接方向的单词，作为该单词的“第k个邻接词序列”。

举例说明，以图3中单词X44为例，选择其邻接的左，左上、左下、上、下，右上、右、右下八个方位的词作为第1个邻接词序列，如图3中x22所在的一圈词序列。第二次以一个单词的步长向外延伸取16个单词，作为第2个邻接词序列。这一过程持续进行，在向外延伸过程中，若某个方向的单词已超过文档最边缘，此时首先做单词补全，仍以unk填充，构建最后一个的邻接词序列。

进一步地，所述将所述第一输入向量与所述第二输入向量集作为采用不同比例掩盖处理方式训练后的预训练语言模型的输入，得到所述第一输入向量与所述第二输入向量集之间的特征相似度，以基于所述特征相似度确定出与所述被检索文档相匹配的目标检索文档包括：

在本实施例中，终端将检索文档对应的输入向量和被检索文档对应的输入向量输入预训练模型后，得到各自的文本特征。终端再通过余弦距离、哈密尔顿距离等方法来度量两者之间的相似度，按照相似度降序排列，排序最前的即为最上述目标第二输入向量，即可将目标第二输入向量对应在检索文档库中的文档作为目标检索文档。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

进一步地，通过对训练语料的处理上采取了更为细致的方法，从多个维度获得单词在文档中的重要性指标，对不同重要程度的单词采用了不同的掩盖处理方法，有利于模型捕捉更为重要的内在联系。

此外，如图6所示，为实现上述目的，本发明还提供一种文档检索装置，所述文档检索装置包括：

向量获取模块10，用于获取被检索文档经整合后所得的被检索文档矩阵，并基于所述被检索文档矩阵提取所述被检索文档的多层级跨句语义信息，以得到包含所述多层级跨句语义信息的第一输入向量；

文档匹配模块20，用于获取包含有预设检索文档库中若干检索文档的多层级跨句语义信息的第二输入向量集，并将所述第一输入向量与所述第二输入向量集作为采用不同比例掩盖处理方式训练后的预训练语言模型的输入，得到所述第一输入向量与所述第二输入向量集之间的特征相似度，以基于所述特征相似度确定出与所述被检索文档相匹配的目标检索文档。

可选地，所述向量获取模块10包括：

可选地，所述备选词语获取单元还用于：

可选地，所述邻接向量获取单元还用于：

可选地，所述文档检索装置还包括：

可选地，所述向量获取模块10包括：

可选地，所述文档匹配模块20包括：

本发明还提供一种文档检索设备。

所述文档检索设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的文档检索程序，其中所述文档检索程序被所述处理器执行时，实现如上所述的文档检索方法的步骤。

其中，所述文档检索程序被执行时所实现的方法可参照本发明文档检索方法的各个实施例，此处不再赘述。

此外，本发明实施例还提供一种计算机可读存储介质。

本发明计算机可读存储介质上存储有文档检索程序，其中所述文档检索程序被处理器执行时，实现如上述的文档检索方法的步骤。

其中，文档检索程序被执行时所实现的方法可参照本发明文档检索方法的各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种文档检索方法，其特征在于，所述文档检索方法包括以下步骤：

获取包含有预设检索文档库中若干检索文档的多层级跨句语义信息的第二输入向量集，并将所述第一输入向量与所述第二输入向量集作为采用不同比例掩盖处理方式训练后的预训练语言模型的输入，得到所述第一输入向量与所述第二输入向量集之间的特征相似度，以基于所述特征相似度确定出与所述被检索文档相匹配的目标检索文档，所述第一输入向量和所述第二输入向量包括：词向量、位置向量和邻接语义向量；

所述将所述第一输入向量与所述第二输入向量集作为采用不同比例掩盖处理方式训练后的预训练语言模型的输入，得到所述第一输入向量与所述第二输入向量集之间的特征相似度，以基于所述特征相似度确定出与所述被检索文档相匹配的目标检索文档的步骤，包括：

将所述第一输入向量与所述第二输入向量集作为采用不同比例掩盖处理方式训练后的预训练语言模型的输入，获得所述被检索文档和各检索文档对应的文本特征，以通过哈密尔顿距离方式获取所述第一输入向量与所述第二输入向量集之间的特征相似度，以基于所述特征相似度确定出与所述被检索文档相匹配的目标检索文档；

所述获取被检索文档经整合后所得的被检索文档矩阵之前，还包括：

根据先后顺序确定预设比例标准，并按照预设比例标准，对所述预训练掩盖队列中的各个已排序的预训练词序列进行保留和/或替换的掩盖处理，所述掩盖处理包括：按照第一比例对各个已排序的预训练词序列进行保留，按照第二比例对各个已排序的预训练词序列进行随机替换，按照第三比例对各个已排序的预训练词序列进行特定符号替换。

2.如权利要求1所述的文档检索方法，其特征在于，所述基于所述被检索文档矩阵提取所述被检索文档的多层级跨句语义信息，以得到包含所述多层级跨句语义信息的第一输入向量，包括：

获取所述被检索文档矩阵的词向量与位置向量；

3.如权利要求2所述的文档检索方法，其特征在于，所述基于词频-逆文档频率算法与命名实体识别技术，得到用于获取所述被检索文档矩阵的邻接语义向量的目标备选词集合，包括：

4.如权利要求3所述的文档检索方法，其特征在于，所述结合所述词频-逆文档频率属性队列、所述词性频率属性队列与所述实体共现频率属性队列，得到所述目标备选词集合，包括：

5.如权利要求2所述的文档检索方法，其特征在于，所述基于长短时记忆网络模型，对所述目标备选词集合中的每一备选词进行编码，以得到所述被检索文档矩阵的邻接语义向量，包括：

6.如权利要求1所述的文档检索方法，其特征在于，所述获取被检索文档经整合后所得的被检索文档矩阵，包括：

7.如权利要求1-6中任一项所述的文档检索方法，其特征在于，所述将所述第一输入向量与所述第二输入向量集作为采用不同比例掩盖处理方式训练后的预训练语言模型的输入，得到所述第一输入向量与所述第二输入向量集之间的特征相似度，以基于所述特征相似度确定出与所述被检索文档相匹配的目标检索文档包括：

8.一种文档检索设备，其特征在于，所述文档检索设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的文档检索程序，其中所述文档检索程序被所述处理器执行时，实现如权利要求1至7中任一项所述的文档检索方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有文档检索程序，其中所述文档检索程序被处理器执行时，实现如权利要求1至7中任一项所述的文档检索方法的步骤。