CN111930880A

CN111930880A - 一种文本编码检索的方法、装置及介质

Info

Publication number: CN111930880A
Application number: CN202010821095.9A
Authority: CN
Inventors: 吴昊; 游海涛; 王琳; 杨丰佳; 梁兴通
Original assignee: Ylz Information Technology Co ltd
Current assignee: Ylz Information Technology Co ltd
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2020-11-13

Abstract

本发明提供一种文本编码检索的方法、装置及介质，本发明方法包括：将待检索文本进行倒排索引输出第一结果；同时将检索文本进行Bert神经网络句编码模型筛选输出第二结果；将所述第一结果和所述第二结果前后排序组合取前K个以生成TopK最相关的检索结果。利用倒排索引和Bert神经网络句编码模型，解决了文本检索过程中检索不到位，检索结果不准确的问题，使检索的结果更加准确，更像需要得到的结果。

Description

一种文本编码检索的方法、装置及介质

技术领域

本发明涉及自然语言处理领域，特别涉及一种文本编码检索的方法、装置及介质。

背景技术

传统的倒排索引结果进行topk排序时，大部分会基于卡方值,Pretrain word-embedding和普通的TF-IDF词编码进行加或减或平均进行句编码。

卡方值是非参数检验中的一个统计量，主要用于非参数统计分析中。它的作用是检验数据的相关性。如果卡方值的显著性小于0.05，说明两个变量是显著相关的。WordEmbedding的概念，如果将word看作文本的最小单元，可以将Word Embedding理解为一种映射，其过程是：将文本空间中的某个word，通过一定的方法，映射或者说嵌入(embedding)到另一个数值向量空间。TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency)，IDF是逆文本频率指数(Inverse Document Frequency)。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。

这些方法要么包含的文字信息不足，要么不契合当前场景，造成检索不到位，检索结果不准确的问题。

发明内容

为解决现有技术文本检索过程中检索不到位，检索结果不准确的问题，本发明提供的一种文本编码检索的方法、装置及介质，可以解决文本检索过程中检索不到位，检索结果不准确的问题，使检索的结果更加准确，更像需要得到的结果。

第一方面，本申请提供了一种文本编码检索的方法；

S100：将待检索文本进行倒排索引输出第一结果；

S200：同时将检索文本进行Bert神经网络句编码模型筛选输出第二结果；

S300：将所述第一结果和所述第二结果前后排序组合取前K个以生成TopK最相关的检索结果。

进一步地，若Bert神经网络句编码模型筛选出的排序结果和倒排索引有重复时，则删去Bert神经网络句编码模型结果中重复的部分；

若倒排索引候选文档名的排序相同时，则查找其在Bert神经网络句编码模型中的排序结果作为参考。

进一步地，所述倒排索引的步骤如下：

S101：对数据库中的文档名进行Jieba分词，根据所述文档名Jieba分词进行对全数据库文档的搜索得到倒排索引列表和TF-IDF值；

S102：用户进行输入搜索文本时，对搜索文本进行Jieba分词，根据所述搜索文本Jieba分词得到TF-IDF值，根据所述搜索文本分词的TF-IDF值对搜索文本的所有词向量进行加权平均得到搜索文本向量；

S103：根据所述搜索文本Jieba分词，对词汇扩展处理得到候选名称，由所述候选名称根据所述倒排索引列表得到候选文档名，去重汇整后得到N个对应的候选文档名；

S104：所述N个候选文档名根据数据库里已经得到的所述文档名分词的TF-IDF值对文档名所有词向量进行加权平均得到N个候选文档向量；

S105：根据所述搜索文本向量和所述N个候选文档向量依次进行判断余弦相似度，根据余弦相似度由大到小排序得到最终结果。

进一步地，所述S103中的扩展处理包括：设有智能学习模型，所述学习模型可以主动对新词汇进行学习汇总，对不同语义的词汇学习和区分。

进一步地，所述的智能学习模型包括：语法分析树，同义词扩展，同义词库；由各词汇的词向量计算之间的相似度，大于阈值的判定两者为同义词，并存入同义词库里。

进一步地，所述的同义词扩展包括：定制化用户选择词性的词组扩展或不扩展，定制化词性改变扩展或不扩展，使用同义词库扩充文档名Jieba分词的结果，将每个单词以及其同义词皆作为进入倒排索引的备选。

进一步地，所述扩展同义词，将搜索文本下的词的所有同义词和Jieba分词的结果一起输入倒排索引；将搜索文本中的符合用户要求词性的词组挖掘出来，并设置其不作为倒排索引的输入，在搜索文本判断各词组的词性后和它的同义词比对词性，词性相同则拓展其同义词，若不同则舍弃该同义词。

进一步地，所述Bert神经网络句编码模型筛选的步骤如下：

S201：将数据库中所有文档名输入Bert神经网络句编码模型得到文档数目个文档名句向量；

S202：用户输入搜索文本，将其输入Bert神经网络句编码模型得到搜索文本句向量；

S203：根据所述搜索文本句向量和所述文档名句向量依次进行判断余弦相似度，根据余弦相似度由大到小排序得到最终结果。

第二方面，本申请提供了一种文本编码检索的装置，所述装置包括：

倒排索引模块，用于将待检索文本进行倒排索引输出第一结果；

Bert模型模块，用于将检索文本进行Bert模型神经网络句编码筛选输出的第二结果；

组合模块，用于将所述第一结果和所述第二结果前后排序组合取前K个以生成TopK最相关的检索结果。

第三方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机被处理器执行时实现如上述任一项所述的文本编码检索的方法。

与现有技术相比，本发明提供的一种文本编码检索的方法、装置及介质，利用倒排索引和Bert神经网络句编码模型，得到第一结果和第二结果再进行前后排序组合，得到TopK最相关的检索结果，实现了文本的准确检索，解决文本检索过程中检索不到位，检索结果不准确的问题；利用倒排索引，快速准确的检索到所需的内容，利用同义词扩展，检索到更多所需要的内容；有Bert神经网络句编码机制作为倒排索引的辅助，用Bert神经网络预训练的方法进行句编码可以学习到上下文更全面的特征，是与加权平均编码不同角度的编码方式，得以找出更多元的符合条件的搜索结果，当倒排索引结果过少时，能扩充候选结果，有BERT句编码机制，故排序较后的会让人有推荐算法的感觉。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种文本编码检索的方法的实施例的流程示意图；

图2为本发明提供的一种文本编码检索的方法的实施例的流程示意图；

图3为本发明提供的一种文本编码检索的方法的实施例的流程示意图；

图4为本发明提供的一种文本编码检索的装置的实施例的架构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所设计的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例一

本发明提供一种文本编码检索的方法，如图1-3所示；

S100：将待检索文本进行倒排索引输出第一结果；

具体实施时，若Bert神经网络句编码模型筛选出的排序结果和倒排索引有重复时，则删去Bert神经网络句编码模型结果中重复的部分；

具体实施时，所述倒排索引的步骤如下：

具体地，倒排索引列表例子如表1所示；

将库中所有的文档名分词后，统计每个词分别出现在哪些文档中，故当用户搜索一串关键字时，可根据文本中出现的词筛选出数据中的出现该词的备选文档名；

表1

文档编号	文档	单词ID	单词	倒排索引列表
					1	中国古代的精美散文	1	中国	1
2	古代精美散文作者	2	古代	1,2
					3	如何写出精美散文	3	精美	1,2,3
		4	散文	1,2,3
							5	作者	2
		6	如何	3
							7	写出	3
		8	的	1

具体地，TF-IDF值的计算方法如下；

TF-IDF＝词频×逆文档频率

具体地，例如客户搜索“牛肋排”，若top1为自己本身，后面的排序大部分客户更希望先出现的是牛肋骨、牛肋条，而不是羊排、猪排；“紫菜蛋花汤”更重要的词是“紫菜”或“蛋花”而不是“汤”，出现这种情况的主要原因在于，“汤”和“排”两个词在当前场景下为出现频率很高的词，而“牛肋”“紫菜”“蛋花”相对来说频率没有那么高，故客户搜索这些短文本的时候会把中心集中在这些低频词上。TF-IDF中的IDF(逆文档频率)就是专门解决如上这种情况。

TF为短文本的词频，毋庸置疑当短文本中一个词出现次数越多该词越重要，一个比较极端的例子“辣子鸡全鸡佐鸡油鸡小肠”中“鸡”占有举足轻重的分量。

逆文档频率中如果一个词越常见，那么分母就越大，逆文档频率就越小越接近0。当所有文档都不包含关键词的情况下，IDF值无限接近于0，让tf-idf值也为0，导致最终的词向量加权整个变为0，但这并不表示该关键词不重要，在本场景下往往是因为数据库不全使得关键词为生词。

具体地，余弦相似度的计算方法如下；

向量的余弦值物理意义为向量的相似度，余弦值越大，两段文本越相似。

具体地，所述S103中的扩展处理包括：设有智能学习模型，所述学习模型可以主动对新词汇进行学习汇总，对不同语义的词汇学习和区分。

具体地，所述的智能学习模型包括：语法分析树，同义词扩展，同义词库；由各词汇的词向量计算之间的相似度，大于阈值的判定两者为同义词，并存入同义词库里。

智能学习模型的数据可以来源于维基百科、百度百科等大规模语料，具备自主学习能力和定期更新能力，根据不同的情况在不同的周期更新一次词库防止生词的出现和单词有新意思的情况。(可以规定半年时间，如果词汇变化的快也可以是一个月或者更短的时间，也可以时时从各大语料数据库中获取更新数据)

更新后在词库中加入新的词以及对应的100维向量，学习新的词原本意思；将新词汇加入到智能学习模型中，学习新词汇可以是时时进行的。

为了减轻服务器压力，在服务器空闲的时间，各词汇间进行对比寻找是否为同义词，以下为寻找同义词的过程：

对所有词进行词性判断，在相同的词性下，每个词与其他词性相同的所有词进行相似度计算，经多次控制变量实验测得当两词向量相似度大于阈值(阈值可为0.84)情况下，可判定两者为同义词，即可将其两两导入图数据库，使得它们可以都检索到对方，由此得到了同义词库。在相同词性下寻找同义词可以做到词性改变不扩展，同时提高了寻找的效率。

同样为了保留词性改变也能进行寻找同义词，更新后的数据利用将每个词都和除它本身以外的所有词进行相似度计算，经多次控制变量实验(利用每个词和所有词进行控制变量的测试)测得当两词向量相似度大于阈值(阈值可为0.84)情况下，可判定两者为同义词，即可将其两两导入图数据库，使得它们可以都检索到对方，由此得到了词性改变同义词库。

例如原本词库里没有“功夫”一词，刚刚从维基百科里出现，服务器就时时的更新最新的数据，维基百科的首行一般会做个简单的解释，“功夫”一般指身怀武术技能，因为我们学习模型并没有功夫的向量，若要全部重新使用CBOW模型获得更新的word embedding太耗时间，故使用“功夫”后面全部的文字(一般指身怀武术技能)。将其使用BERT句编码得到其本身的向量。由于服务器较忙，选择在空闲时间，对“功夫”与其他的词对比寻找同义词，当两词向量相似度大于阈值(阈值可为0.84)情况下，可判定两者为同义词，如寻找到“武术”则记录在同义词库里。可以是不同词性的词为同义词。

具体地，同义词扩展包括：定制化用户选择词性的词组扩展或不扩展，定制化词性改变扩展或不扩展，使用同义词库扩充文档名Jieba分词的结果，将每个单词以及其同义词(例外情况除外)皆做为进入倒排索引的备选。

例外情况包括：定制化的选择各词性是否扩展(本场景以动词不扩展，词性不同不扩展为例)。使用语法分析树模型，将搜索句输入模型，模型会自动进行分词，判断包含的所有词词性，若出现为动词的单词，该词不进行同义词扩展。判断原词和其对应扩展的同义词，若出现词性不同的情况下，不进行扩展。

具体地，所述扩展同义词，将搜索文本下的词的所有同义词和Jieba分词的结果一起输入倒排索引；将搜索文本中的符合用户要求词性的词组挖掘出来，并设置其不作为倒排索引的输入，在搜索文本判断各词组的词性后和它的同义词比对词性，词性相同则拓展其同义词，若不同则舍弃该同义词。

具体地，当数据库中没有西红柿只有番茄的情况下，西红柿的加权词向量会因此变为0，若扩充了倒排索引的输入，西红柿炒鲜鸡蛋就有了能找到番茄这一词的能力。

该模型为维基百科或人民日报等全域巨量数据训练的知识图谱，故“炒”的同义词会找到“做”，“煎”找到“炸”，“炖”会找到“煮”…对与全域知识来说这是合理的，可对于情境下“炒”和“做”“煎”和“炸”“炖”和“煮”是有本质区别的，且这些词在数据库中都为高频词，若一同输入倒排索引会生成过多无关备选索引。所以引入语法分析树，将搜索文本中的动词挖掘出来，并设置其不作为倒排索引的输入。该方法有效控制了因本特殊场景而造成的动词同义词不准确的问题。

此外有一些词的本身就具有多种意思，其拓展的同义词库更是严重不符合当前语境,例如“牛”的同义词为“厉害”；“us”会拓展“我们”和“美国”。这种情况依然引入语法分析树,在搜索文本判断各词组的词性后和它的同义词比对词性，词性相同则拓展其同义词，若不同则舍弃该同义词。

具体实施时，所述Bert神经网络句编码模型筛选的步骤如下：

本发明提供的一种文本编码检索的方法，利用倒排索引和Bert神经网络句编码模型，得到第一结果和第二结果再进行前后排序组合，得到TopK最相关的检索结果，实现了文本的准确检索，解决文本检索过程中检索不到位，检索结果不准确的问题；利用倒排索引，快速准确的检索到所需的内容，利用同义词扩展，检索到更多所需要的内容；有Bert神经网络句编码机制作为倒排索引的辅助，用Bert神经网络预训练的方法进行句编码可以学习到上下文更全面的特征，是与加权平均编码不同角度的编码方式，得以找出更多元的符合条件的搜索结果，当倒排索引结果过少时，能扩充候选结果，有BERT句编码机制，故排序较后的会让人有推荐算法的感觉。

实施例二

本发明还提供一种文本编码检索的装置，如图4所示，所述装置包括：

实施例三

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，该计算机指令被处理器执行时可实现上述任一项所述的文本编码检索的方法。

具体实施时，计算机可读存储介质为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(FlashMemory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；计算机可读存储介质还可以包括上述种类的存储器的组合。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种文本编码检索的方法，其特征在于：

S100：将待检索文本进行倒排索引输出第一结果；

2.根据权利要求1所述的文本编码检索的方法，其特征在于：

若Bert神经网络句编码模型筛选出的排序结果和倒排索引有重复时，则删去Bert神经网络句编码模型结果中重复的部分；

3.根据权利要求1所述的文本编码检索的方法，其特征在于，所述倒排索引的步骤如下：

4.根据权利要求3所述的文本编码检索的方法，其特征在于：所述S103中的扩展处理包括：设有智能学习模型，所述学习模型可以主动对新词汇进行学习汇总，对不同语义的词汇学习和区分。

5.根据权利要求4所述的文本编码检索的方法，其特征在于：所述的智能学习模型包括：语法分析树，同义词扩展，同义词库；由各词汇的词向量计算之间的相似度，大于阈值的判定两者为同义词，并存入同义词库里。

6.根据权利要求5所述的文本编码检索的方法，其特征在于：所述的同义词扩展包括：定制化用户选择词性的词组扩展或不扩展，定制化词性改变扩展或不扩展，使用同义词库扩充文档名Jieba分词的结果，将每个单词以及其同义词皆作为进入倒排索引的备选。

7.根据权利要求6所述的文本编码检索的方法，其特征在于：所述扩展同义词，将搜索文本下的词的所有同义词和Jieba分词的结果一起输入倒排索引；将搜索文本中的符合用户要求词性的词组挖掘出来，并设置其不作为倒排索引的输入，在搜索文本判断各词组的词性后和它的同义词比对词性，词性相同则拓展其同义词，若不同则舍弃该同义词。

8.根据权利要求1所述的文本编码检索的方法，其特征在于，所述Bert神经网络句编码模型筛选的步骤如下：

9.一种文本编码检索的装置，其特征在于，所述装置包括：

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机指令，所述计算机被处理器执行时实现如权利要求1-8任一项所述的文本编码检索的方法。