CN113254586A

CN113254586A - 一种基于深度学习的无监督文本检索方法

Info

Publication number: CN113254586A
Application number: CN202110597764.3A
Authority: CN
Inventors: 杨敏; 贺倩明; 方正
Original assignee: Shenzhen Deli Technology Co ltd; Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Deli Technology Co ltd; Shenzhen Institute of Advanced Technology of CAS
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-08-13
Anticipated expiration: 2041-05-31
Also published as: CN113254586B

Abstract

本发明公开了一种基于深度学习的无监督文本检索方法。该方法包括：对于待查询文本，根据其文本向量与数据库中存储的被匹配文本的文本向量的相似度返回检索结果，其中，被匹配文本的文本向量根据以下步骤生成：对于输入文本，基于注意力机制的预训练模型挖掘词语间的语义联系，将文本序列转换成词向量序列；对于得到的词向量序列，结合领域内词汇的平滑逆频率对词向量进行加权，生成第一文本向量，其中所述领域内词汇的平滑倒频率反映词语在领域文献中的出现次数；获取领域内文本向量的主成分，并从所述第一文本向量中减去对应的主成分，获得第二文本向量，作为文本向量存储。利用本发明能够提升检索的准确性和效率。

Description

一种基于深度学习的无监督文本检索方法

技术领域

本发明涉及互联网技术领域，更具体地，涉及一种基于深度学习的无监督文本检索方法。

背景技术

文献检索是检索对象为文献的一种信息检索技术，是根据学习和工作的需要通过检索来获取文献的过程。随着现代网络技术的发展，文献检索通常通过计算机技术来实现。文献的检索语言包括分类语言（以数字、字母或字母与数字结合作为基本字符，以基本类目作为基本词汇，以类目的从属关系来表达复杂概念的一类检索语言）、主题语言（以自然语言的字符为字符，以名词术语为基本词汇，用一组名词术语作为检索标识的一类检索语言）等。使用规范的文献检索语言可以快速准确地检索出所需的文献资料，但规范的文献检索语言使用门槛较高，普通用户由于不了解分类规则或检索关键字表达不准确等原因不能较好的使用规范的文献检索语言。如何通过分析用户输入的自然语言，直接检索到最需要的文献一直是学术界和工业界关注的问题，相关学者也提出许多方案来尝试解决该问题。

例如，在一项研究成果中，提出了基于词频和逆文本频率指数两个指标的检索方法(TF-IDF)。词频是一个词条在待检索文档中出现的频率。逆文本频率指数是衡量一个词条区分性优劣的指标，若在待检索文中包含一个词条的文档数目越少，则该词条的逆文本频率指数越大，代表其有较好的类别区分能力。该方法通过对检索内容分词后进行词条的匹配来返回检索结果。

在另一项研究成果中，提出了基于词条权重和检索文档长度惩罚的检索方法(BM25)。对于词条权重的处理类似于逆文本频率指数的处理，可以得到一个词条对检索结果的重要性大小。文档长度惩罚是为了解决由于待检索的文档长度过长，包含的信息量较大，从而可以匹配到很多关键词的情况。由于这种文档包含的信息过多，并不是检索结果的最优目标。该方法会计算待检索文档的平均长度，根据文档平均长度来确定某一文档的惩罚因子。文档的长度越长，惩罚因子越大，该文档与检索语句的相似度就会越低，越不容易成为检索结果。

在另一项研究成果中，提出了基于训练领域文本模型生成词向量计算相似度从而进行检索的方法(Word2Vec)。该方法通过将词生成为词向量，把文档的排序问题转换成为了比较文档对

词向量间相关性的问题。该方法通过领域文本训练一个词向量生成模型，通过无监督的CBOW方法、Skip-grams方法来让模型预测上下文的单词关系，使得最终模型学会单词的向量表达，从而产生区分度明显的词向量来得到较好的检索结果。

以上三种方法是传统检索模型、无监督神经网络方法的代表。传统检索模型通过词条的统计特征信息来进行检索，不需要有标注的数据，训练成本较低，但是检索的效果不是很理想。传统的检索模型是通过词语的一些统计特征，如词频和逆文本频率指数，来进行相似度计算，进而进行文献检索。这种方法的主要缺点是忽略了词语间语义的联系，孤立的使用每个词语的特征来进行检索，这严重影响了模型检索性能。无监督神经网络方法首先需要使用领域内的语料进行训练，其次对于模型的架构、超参数等均需要反复调试。这种方法比较复杂，虽然无需标注数据，但检索效果也不是非常理想。

在最近的一项研究成果中，提出了基于平滑倒频率的词向量加权平均匹配检索方法（SIF）。先将检索文本和文献中的语句转换为词向量表示，然后对句子中所有的词向量进行加权平均，得到平均向量，接着对平均句向量减去所有句向量组成矩阵的第一个主成分。该方法是一种无监督的方法，在词向量方法的基础上进一步研究了如何从词向量得到更好的句向量表示。这种方法也衍生出了一些这方面进一步的研究（uSIF），主要改进体现在权重的设定和主成分的获取上。这种无监督的深度学习方法是先将文本转换成为词向量的形式，然后通过一系列的算法根据词向量生成文本向量，最后基于文本向量求出文本对之间的相似度。这种方法的主要缺点是模型生成的词向量的好坏决定了检索性能，较差的词向量生成模型所产出的文本向量在检索任务中的表现往往较差。另外一个缺点是词向量生成文本向量的过程中往往不能兼顾领域词语统计信息和文本向量间的区分度，从而导致文本向量的区分程度不高。此外，在分词过程中，通用的分词器往往会产生错误的分词结果，这也对检索结果产生了一定的影响。

随着现代互联网技术的发展，越来越多的文献资料可从互联网中直接获取，如何做到快速精准的文献检索成为自然语言处理领域研究的一个热点方向。以专利领域中文献检索为例，用户给定一篇专利文本，检索系统要从数据库中找出与该文本最相关的若干篇文献返回给用户，用户即可快速获得所需的相关文献资料，能够节省大量的时间。专利领域中文献的检索问题具有区别于其他领域文献检索的特点，首先，专利领域有较多的专业术语是以短语的形式出现的，这些短语在文献检索时，可能会被分成单独的词语来处理，因此，分词问题可能导致文本理解上的歧义，这也使传统的词细粒度的模型需要解决分词的问题。此外，专利文本领域的标注数据少，而且由于专利涉及范围广、涉及知识深入，人工标注困难大、耗时久、花费高，因此在条件有限的情况下，如何使用无监督算法得到更好的检索效果是一个亟待解决的问题。

发明内容

本发明的目的是克服上述现有技术的缺陷，提供一种基于深度学习的无监督文本检索方法。

本发明的技术方案是提供一种基于深度学习的无监督文本检索方法。该方法对于待查询文本，根据其文本向量与数据库中存储的被匹配文本的文本向量的相似度返回检索结果，其中，被匹配文本的文本向量根据以下步骤生成：

步骤S1：对于输入文本，基于注意力机制的预训练模型挖掘词语间的语义联系，将文本序列转换成词向量序列；

步骤S2：对于得到的词向量序列，结合领域内词汇的平滑逆频率对词向量进行加权，生成第一文本向量，其中所述领域内词汇的平滑倒频率反映词语在领域文献中的出现次数；

步骤S3：获取领域内文本向量的主成分，并从所述第一文本向量中减去对应的主成分，获得第二文本向量，作为文本向量存储。

与现有技术相比，本发明的优点在于，等方法提出了一种无监督的深度检索模型，该模型从词向量、字信息量等角度考虑了文献检索的结果，可以通过字细粒度的信息量学习到例如专利领域的文本分布，同时基于无监督的方法训练模型，从而准确的检索出用户所需的文献。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是根据本发明一个实施例的基于深度学习的无监督文本检索方法的流程图；

图2是根据本发明一个实施例的基于深度学习的无监督文本检索模型示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明提出一种基于深度学习的无监督文本检索方法或文本检索模型。为清楚起见，下文以专利文献检索为例进行说明。但应理解的是，该模型同样适用于其他领域的文献检索。所提供的模型结合领域文献的特点，进行了针对性的优化，并结合了领域内词语信息来决定文献检索的结果，从而准确的检索出用户所需的相关文献。

具体地，结合图1和图2所示，所提供的基于深度学习的无监督文本检索方法包括以下步骤。

步骤S110，使用基于注意力机制的预训练模型将文本序列转换成词向量序列。

首先，对于输入的专利文本D，可以得到文本的字符向量，表示为

，同时，将其转换成适合输入的格式，例如在序列首位添加[CLS]符号，从而得到了输入字符向量序列Q。

接下来，对于输入字符向量，对其进行掩膜操作，掩膜操作即通过输入一个与输入字符向量序列长度相同的二值向量，该二值向量的每一位对应输入字符的每一位，在特征提取器中，代表是否对该字符进行特征提取。例如，根据基于注意力的双向编码器（BERT）中的自注意力（self-attention）结构的特点，输出掩膜M，该掩膜向量对于输入字符向量序列所有的非填充（pad）字符对应的位都为1，如

。

最终，将掩膜M与输入字符向量Q同时输入特征提取器，提取词向量

，表示为：

（1）

其中对于词向量

，其长度与输入的字符向量Q相同。

需说明的是，预训练模型可采用BERT模型、RoBERTa模型或其他类型的语言模型。在词向量生成时使用基于注意力机制的预训练模型，能够对文本的语义信息进行提取，使得词语对与其相关的词语更加敏感，有利于提升文献检索的精确性。

步骤S120，对于获得的词向量序列，通过结合领域内词汇的平滑逆频率对词向量进行加权，生成文本向量，其中领域内词汇的平滑逆频率来自于词语在领域文献中的出现次数。

例如，对于词向量

，通过如下方法将其转换成文本向量

。

首先，计算

，

表示词库中的单词的出现概率大于某一阈值（门槛）的概率，而该阈值指的是随机一个单词在n步内能够出现的概率。

（2）

接着，计算由词向量

转换成文本向量

时对每个词所附加的权重。权重部分即称为光滑逆频率（或光滑倒频率），这种方式，相较于传统方法会对高频的单词施加更光滑、较低的权值。通过计算得到的

相较于其他需要微调的方法更加直接、明确。

（3）

其中，

表示词汇表大小，Z与词表数量有关，表示词表中单词与句向量的期望总距离；

表示某一单词

偶然产生的概率，由人工给定，用来调节Z与

之间的关系，

表示句子S中的单词，

表示单词

的向量，

表示单词

在词汇表V中出现的概率。

在该步骤中，在文本向量生成时结合领域内词汇的平滑倒频率对词向量进行加权，使得生成的文本向量能够带有背景领域的信息。

步骤S130，通过领域主成分去除，得到完整的文本向量表达。

例如，通过构造专利领域的领域文本，使用步骤S110和S120生成领域内文本的文本向量，并将它们结合成为一个矩阵。通过对该矩阵进行奇异值分解求得领域内文本向量的主成分。

具体地，领域主成分去除过程包括：

对语料库中的所有文本，获取他们的文本向量

，并排成文本向量矩阵

。

对得到的文本向量矩阵进行奇异值分解，得到矩阵的前m个主成分。由此，得到完整的文本向量表达

，公式表示如下。其中，对于每个主成分对应的权重，也由奇异向量的值计算得来。

（4）

（5）

其中，

表示第i个主成分的权重，

表示第i个主成分，

表示，前m个主成分，对其中第j个主成分

，平方运算后将得到的m个数值求和，

表示的是

文本向量

上的投影，其中

在此处即表示第i个主成分，模型使用主成分来表征语料库中的常用语篇向量。

由公式（5）可知，最终模型产生的文本向量是由步骤S120产生的文本向量减去领域主成分向量所得。

在此步骤中，在文本向量生成时减去了领域内文本向量的主成分，从而使得向量间的距离更大，在向量空间中的分布更均匀，计算相似度时的结果更准确。这种减去语料库中文本的共性表达的方式，提高句子的语义表达能力。

步骤S140，针对待查询文本，根据与数据库内的被匹配文本的相似度获得检索结果。

上述步骤S110至S130是将一个文本转换成文本向量的过程。具体到检索过程中，当有文本查询需求时，首先将被匹配的专利的文本全部转换为文本向量（即步骤S130的文本向量），并存入到数据库中。接着，当待匹配（即待查询）专利文本进入时，将其转换成文本向量，再与数据库中的专利文本向量计算余弦相似度，得到的值作为排序的依据。相似度值越高，对应被匹配专利的检索排序结果越靠前，进而获得检索结果。

为了进一步验证本发明的有效性和先进性，基于千万量级的线上专利数据库，使用多种无监督算法，利用1000个专利摘要进行了检索，并对检索结果请专利行业从业人士手工标注了数据。结果表明，本发明在归一化折损累计增益（NDCG）和平均互惠等级（MRR）均达到了无监督模型中的最好结果。经过专利行业从业人士的人工审核，本发明得到的检索结果对于专利检索的检索结果可靠，能够准确返回数据库中的相似专利文献，同时对返回结果中的专利文献做出较为可靠的相似性排序，有效解决了专利背景下专业领域无监督文献检索精准率不高的问题。本发明既可帮助专利行业从业人员进行文献调研，资料查询等，也可帮助非专利行业从业人员了解专利相关情况时进行的文献检索，具有广泛的应用场景。

综上所述，相对于现有技术，本发明至少具有以下优势：

1）、针对传统检索模型忽略了词语间语义联系的缺点，本发明采用了基于注意力机制的预训练模型，优化了词向量的生成机制，使其能够注意到文本的语义信息，较好的发掘词语间的语义联系，生成含有语义信息的词向量，有效地提升检索模型的检索效果。

2）、针对有监督的深度学习方法缺乏专业背景知识的缺点，本发明通过结合领域内词汇的平滑倒频率对词向量进行加权，生成文本向量，有利于检索结果的提升。

3）、针对当前深度学习网络需要大规模训练数据获取难的问题，本发明提出了一种无监督深度模型，从模型层面直接避免了当前深度网络训练时获取数据难的问题。

4）、针对无监督的深度学习方法可能生成向量间区分度不大的问题，本发明通过生成领域文本主成分向量，并在检索时减去这一向量的方法，增大生成向量的区分度，提升了检索效果。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、静态随机存取存储器（SRAM）、便携式压缩盘只读存储器（CD-ROM）、数字多功能盘（DVD）、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波（例如，通过光纤电缆的光脉冲）、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构（ISA）指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++、Python等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列（FPGA）或可编程逻辑阵列（PLA），该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。