CN110990538B

CN110990538B - 基于句级深度学习语言模型的语义模糊搜索的方法

Info

Publication number: CN110990538B
Application number: CN201911328556.2A
Authority: CN
Inventors: 裴正奇; 段必超; 黄梓忱; 朱斌斌; 段朦丽; 于秋鑫
Original assignee: Shenzhen Qianhai Heidun Technology Co ltd
Current assignee: Shenzhen Qianhai Heidun Technology Co ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2022-04-01
Anticipated expiration: 2039-12-20
Also published as: CN110990538A

Abstract

本发明公开了基于句级深度学习语言模型的语义模糊搜索的方法。本发明中，本发明模糊程度高，本发明引入了深度学习语言模型，充分的考虑了语义问题，可以将与目标语句语义相似度高的语句检索出来，并且使用分层计算语义相似度的方式高效的判断语句之间的语义相似度大小；运算速度快，使用了向量化处理代替常规的循环遍历处理文本的方式，确保了每个语义匹配任务单元能够并行处理，极大提高了搜索速度；搜索查全率高，利用蕴含指数，使得系统对语法干扰的鲁棒性更好，有效提升了搜索的查全率；系统灵活，本发明将语义理解、模糊查询、信息精准定位等机制进行融合，然后将整个算法模块进行了接口封装，方便用户调用。

Description

基于句级深度学习语言模型的语义模糊搜索的方法

技术领域

本发明涉及深度学习语言模型与模糊搜索的相关领域，尤其涉及基于句级深度学习语言模型的语义模糊搜索的方法。

背景技术

语言模型应用广泛，早在上世纪70年代统计语言模型在应用上就已经获得了成功，2003年，有学者提出了将词向量(word vector)的概念引用到基于神经网络的语言模型中，但这种模型的参数较多，训练比较复杂；2010年，有学者提出了将循环神经网络(Recurrent Neural Network)应用到语言模型种，从此开启了深度学习在语言模型种的广泛使用，再到后来相继出现了一系列优秀的语言模型，比如：ELMO(Embedding fromLanguage Models)模型、Transformer模型以及BERT(Bidirectional EncoderRepresentations from Transformer)模型等。文本的模糊搜索应用在很多地方，模糊搜索需要使用到文本匹配算法，最初对于文本的匹配主要是使用BF(Brute Force)、RK(Robin-Karp)、KMP(Knuth-Morris-Pratt)、BM(Boyer Moore)等算法进行字符的精准匹配，也就是在文本信息中找到与关键词完全一样的字符串才算匹配成功，这样的方式没有考虑到语义信息，不能完成模糊匹配的任务。对文本进行模糊匹配，即字符串模糊匹配，主要的方法有位向量方法、过滤方法等等，应用位向量方法时，需要大量的空间，对于内存小的微型计算机，比如嵌入式系统，这将会是一个问题。

当前的文本模糊搜索存在以下缺点：

1、当前的文本模糊搜索多数都不能解决文本的语义理解问题，这样使得搜索的查全率较低，因为如果不考虑语义理解问题，很多意思相同但是语言结构不同的文本不能被匹配出来；

2、当前的文本模糊搜索多数效率都比较低，对于在比较长的文本中进行关键词或关键语句搜索时，由于会使用到比较暴力的方式对文本进行处理，导致效率比较低；

3、当前的文本模糊搜索在对文本做语义理解分析时，不能很好的解决在文本中上下文导致关键词或关键语句发生语义偏移的问题，从而会使得搜索的查全率降低，而且在分析语义相似度时，采用的都是比较单一的相似度度量指标，不能精准的计算出语义之间的相似度，即不能高效的衡量语义之间的相关性。

为此，我们提出了基于句级深度学习语言模型的语义模糊搜索的方法。

发明内容

本发明的目的在于提供基于句级深度学习语言模型的语义模糊搜索的方法，以解决上述背景技术中提出的问题。

为了实现上述目的，本发明采用了如下技术方案：

基于句级深度学习语言模型的语义模糊搜索的方法，包括以下步骤：

S1、搭建应用场景，给定长文本S，查询句Q，需要在S中查询与Q最相关的字符串；

S2、搭建语言模型库，训练或直接调用经过预训练的句级深度学习语言模型，并将其运作机制统一调整；

S3、设置自定义终止符接口，由使用者对期望的终止符进行设置，再根据这些终止符对长文本S进行任务分割，得到针对S的亚任务组{S1,S2,S3,…Sk}，并将完成分割的文本单元进行向量化处理，并为之配备常用的GPU加速配置；

S4、调用已整理完毕的语言模型，对经过向量化处理的长文本进行语义特征高维向量的生成，包括对查询句Q进行同样的运算处理，最终得到查询句Q、各个亚任务Si的囊括其自身语义特征的高维向量，并将其运算结果作为储存内容，各亚任务作为索引，储存在语义特征库里，等候进一步处理；

S5、调取查询句Q的语义特征高维向量Qvec，分别调取语义特征库里储存的亚任务的语义特征高维向量Sivec，对Qvec与Sivec做如下运算得到Si与Q的语义相似度Ci：

S6、针对各个亚任务，结合查询句Q的特征，计算各个亚任务Si所对应的蕴含指数Li：

S7、对各亚任务Si的语义相似度Ci与蕴含指数Li进行数值相乘运算，得到关于Si的综合指数Gi，并根据Gi对各亚任务进行排序，选取综合指数最高的一部分亚任务进入细化定位模块；

S8、依次对进入细化定位模块的亚任务进行长度判断，设定最大长度偏差容忍值delta，若某亚任务字符串的长度小于Q的长度加delta，则该亚任务以(Si,Ci)的形式直接进入备选库，否则，需对该亚任务进行分层拆分处理；

S9、分层拆分处理相当于对某字符串逐次划分为与目标字符串长度接近的小字符串，再对此进行相似度计算；

S10、在备选库中，不可出现多个同属于一个亚任务的储存单元；

S11、对备选库中的储存单元(Sx,Cx)根据其Cx进行排序，并输出，得到长文本S中所包含的针对查询文本Q的语义片段；

S12、对S1至S11进行模块封装处理，并配备相应的多线程运算机制，得到专属的接口产品，其输入参数包括:长文本S、查询文本Q、自定义终止符。

优选地，所述S2中的将其运作机制统一调整包括：接收字符串作为输入，进行解码得到此字符串的语义特征作为高维向量输出。

优选地，所述S4中的维度量范围在500-1000之间。

优选地，所述S5中的运算方式还可以采用向量化运算。

优选地，所述Li的运算包括Q与Si作为输入条件，输出为取值范围1-2的数值。

优选地，所述语言模型为谷歌开源bert语言模型。

优选地，所述S12中其输出参数为以如下形式作为构成单元的组合：[ri,Si,Ci]。

优选地，所述ri代表该单元所对应的Ci在所有单元中的数值排名。

与现有技术相比，本发明具有以下有益效果:

1、模糊程度高，本发明引入了深度学习语言模型，充分的考虑了语义问题，可以将与目标语句语义相似度高的语句检索出来，并且使用分层计算语义相似度的方式高效的判断语句之间的语义相似度大小；

2、运算速度快，使用了向量化处理代替常规的循环遍历处理文本的方式，确保了每个语义匹配任务单元能够并行处理，极大提高了搜索速度；

3、搜索查全率高，利用蕴含指数，使得系统对语法干扰的鲁棒性更好，有效提升了搜索的查全率；

4、系统灵活，本发明将语义理解、模糊查询、信息精准定位等机制进行融合，然后将整个算法模块进行了接口封装，方便用户调用。

附图说明

图1为本发明提出的基于句级深度学习语言模型的语义模糊搜索的方法的方法流程示意图；

图2为本发明提出的基于句级深度学习语言模型的语义模糊搜索的方法的方法流程示意图；

图3为本发明提出的基于句级深度学习语言模型的语义模糊搜索的方法的方法流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

参照图1-3，本发明还提出了基于句级深度学习语言模型的语义模糊搜索的方法，包括以下步骤：

S2、搭建语言模型库，训练或直接调用经过预训练的句级深度学习语言模型，例如：ELMo(Embeddings from Language Models)、BERT(Bidirectional EncoderRepresentations from Transformers)等，并将其运作机制统一调整；

S6、针对各个亚任务，结合查询句Q的特征，计算各个亚任务Si所对应的蕴含指数Li：Li＝f(Q,Si)；其具体运算方法有多种，大致思路为：对于与查询句Q的语义相似度基本一致的两个亚任务Si与Sj，意味着Ci和Cj的值相差较小，在句法层面(如句子长度、句子结构)上，若Si与Q差异度比Sj与Q的差异度更大，基于Ci和Cj的值相差较小，则越应该赋予Si更高的蕴含指数，因为其意味着，从句法角度来看，即使Si本身比Sj更具有劣势，Si仍能取得与Sj不相上下的语义相似度，这说明Si内部包含与Q语义相似度很高的字符串的概率会高于Sj。某一特定的具体运算例如下：

S8、依次对进入细化定位模块的亚任务进行长度判断，设定最大长度偏差容忍值delta，若某亚任务字符串的长度小于Q的长度加delta，则该亚任务以(Si,Ci)的形直接进入备选库，否则，需对该式亚任务进行分层拆分处理；

S11、对备选库中的储存单元(Sx,Cx)根据其Cx进行排序，并输出，得到长文本S中所包含的针对查询文本Q的语义片段，在备选库的储存单元中，各个Sx于长文本S中的具体定位信息同样已被储存，在此为方便描述，进行省略；

其中，S9相似度计算包括给定需要进行分层拆分处理的亚任务Si，给定目标字符串(即查询文本)Q，则需将Si分拆为：Si[0:len(Q)+delta]，Si[delta，len(Q)+2*delta]，Si[2*delta:len(Q)+3*delta],…；设分拆后的字符串分别为：Si1,Si2,Si3,…；接下来再将{Si1,Si2,Si3,…}进行向量化处理，并送往语言模型库，得到其对应的语义特征高维向量：Si1_vec,Si2_vec,…；再分别将这些向量与Q所对应的语义特征高维向量进行与S5一致的语义相似度计算，得到各个分拆后的字符串Sij与Q的语义相似度Cij，并将各个(Sij,Cij)作为储存单元进入备选库。

其中，S2中的将其运作机制统一调整包括：接收字符串作为输入，进行解码得到此字符串的语义特征作为高维向量输出。

其中，S4中的维度量范围在500-1000之间。

其中，S5中的运算方式还可以采用向量化运算。

其中，Li的运算包括Q与Si作为输入条件，输出为取值范围1-2的数值。

其中，语言模型为谷歌开源bert语言模型。

其中，S12中其输出参数为以如下形式作为构成单元的组合：[ri,Si,Ci]。

其中，ri代表该单元所对应的Ci在所有单元中的数值排名。

实施例

本发明中，借助句级深度学习语言模型来解决模糊搜索场景的文本语义理解问题，并将其拓展到文本信息查询等场景，使之能够结合语义来进行模糊查询。利用自定义的终止符模式对长文本进行任务划分处理，有助于对长文本的深度学习运算进行向量化处理(Vectorization)，代替常规的循环遍历处理方法，从而保证各个语义匹配任务单位能够并行处理，提高运算速率。有效解决片段字符在模糊搜索场景中被周边字符干扰的问题。若在长文本S中查询目标文本Q，且Q自身并非结构完整的语句；假设S中的两句子Si与Sj均与Q的相似度很高，其中，Sj略高于Si，已知，Sj中包含与Q相似度极高的字符串片段Sg，即Si＝Sa+Sg+Sb，但因为Sa与Sb的存在，导致Sg所在的Si并没有比Sj更有优势。该发明提出一种结合蕴含指数的方法，能够高效避免诸如Sa与Sb这种类型的字符干扰项。同时该发明提出一种能够结合分层计算语义相似度的方式来精准定位长文本S中与Q相关的目标字符串。本发明将语义理解、模糊查询、信息精准定位等机制进行融合，得到一种高效灵活的开放式接口产品。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.基于句级深度学习语言模型的语义模糊搜索的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于句级深度学习语言模型的语义模糊搜索的方法，其特征在于，所述S2中的将其运作机制统一调整包括：接收字符串作为输入，进行解码得到此字符串的语义特征作为高维向量输出。

3.根据权利要求1所述的基于句级深度学习语言模型的语义模糊搜索的方法，其特征在于，所述S4中的维度量范围在500-1000之间。

4.根据权利要求1所述的基于句级深度学习语言模型的语义模糊搜索的方法，其特征在于，所述S5中的运算方式还可以采用向量化运算。

5.根据权利要求1所述的基于句级深度学习语言模型的语义模糊搜索的方法，其特征在于，所述Li的运算包括Q与Si作为输入条件，输出为取值范围1-2的数值。

6.根据权利要求1所述的基于句级深度学习语言模型的语义模糊搜索的方法，其特征在于，所述语言模型为谷歌开源bert语言模型。

7.根据权利要求1所述的基于句级深度学习语言模型的语义模糊搜索的方法，其特征在于，所述S12中其输出参数为以如下形式作为构成单元的组合：[ri,Si,Ci]，所述ri代表该单元所对应的Ci在所有单元中的数值排名。