CN110309267A

CN110309267A - 基于预训练模型的语义检索方法和系统

Info

Publication number: CN110309267A
Application number: CN201910609351.5A
Authority: CN
Inventors: 车万翔; 韩宇; 赵妍妍; 刘挺
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2019-07-08
Filing date: 2019-07-08
Publication date: 2019-10-08
Anticipated expiration: 2039-07-08
Also published as: CN110309267B

Abstract

本发明提供一种基于预训练模型的语义检索方法和系统。该方法包括：采用标注数据对预训练语义表示模型进行训练，获得满足设定优化目标的经训练的预训练语义表示模型；将句子库中的句子输入到所述经训练的预训练语义表示模型，获得该句子库中句子的向量表示；对所述句子库中的句子的向量表示建立语义索引，获得句子库的语义索引；将待查询语句输入到所述经训练的预训练语义表示模型，获得待查询语句的向量表示；将所述待查询语句的向量表示和所述句子库的语义索引进行匹配，获得查询结果。本发明的方法和系统能够提高语义检索的准确率和效率。

Description

基于预训练模型的语义检索方法和系统

技术领域

本发明涉及文本检索技术领域，尤其涉及一种基于预训练模型的语义检索方法和系统。

背景技术

文本检索方法是问答系统中的一个重要的组成部分，这部分的主要任务是给定一个文本查询q，然后在整个句子库中进行检索，返回k个最相似的句子。基于倒排索引的全文检索方法是一种常见的文本检索方法(如Lucene)，这种方法主要解决词汇层面的匹配问题，存在着很大的局限性，它们不能召回那些句子库中与请求句子无词汇重合，但语义表达是一样的句子，例如“孩子体温总是特别高”和“儿童反复发高烧”是相似的句子，它们的文字表达不同，但是语义相似，又如“从哈尔滨到北京的机票”和“从北京到哈尔滨的机票”是不相似的句子，尽管它们含有的词汇都相同，但由于词汇顺序不同，语义就完全不同。而语义检索方法可以解决此类问题。

然而，现有的语义检索方法存在着许多缺陷，例如，无监督的方法word2vec虽然不用使用监督数据，但是检索效果相较于传统的全文检索方法提升并不大；有监督的方法BiLSTM(双向长短时记忆网络)虽然效果很好，但通常需要大量的监督数据才能做到。这些方法并不能有效地结合有监督和无监督数据来提升语义检索的效果。

因此，需要对现有技术进行改进，提供结合有监督数据和无监督数据的语义检索方法。

发明内容

本发明的目的在于克服上述现有技术的缺陷，提供一种基于预训练模型的语义检索方法和系统。

根据本发明的第一方面，提供一种基于预训练模型的语义检索方法。该方法包括：

步骤S1：采用标注数据对预训练语义表示模型进行训练，获得满足设定优化目标的经训练的预训练语义表示模型；

步骤S2：将句子库中的句子输入到所述经训练的预训练语义表示模型，获得该句子库中句子的向量表示；

步骤S3：对所述句子库中的句子的向量表示建立语义索引，获得句子库的语义索引；

步骤S4：将待查询语句输入到所述经训练的预训练语义表示模型，获得待查询语句的向量表示；

步骤S5，将所述待查询语句的向量表示和所述句子库的语义索引进行匹配，获得查询结果。

在一个实施例中，所述预训练语义表示模型是利用无监督数据训练的BERT模型或ERNIE模型。

在一个实施例中，所述标注数据反映两个句子之间是否匹配，采用三元组格式进行标注。

在一个实施例中，步骤S1的训练过程包括：

使用两个对称的预训练语义表示模型来分别编码两个句子，得到第一个句子的上下文词表示集合和第二个句子的上下文词表示集合t是句子中的词编号；

分别将第一个句子和第二个句子的上下文词表示向量相加取平均，获得最终的第一个句子的向量表示C_L和第二个句子的向量表示C_R。

在一个实施例中，步骤S1的训练过程还包括通过全连接层将所述第一个句子的向量表示C_L和所述第二个句子的向量表示C_R进行压缩，表示为：

其中，是压缩后第一句子的向量表示，是压缩后第二个句子的向量表示，W是全连接层的权重，b是全连接层的偏置，M和H是正整数且M小于H。

在一个实施例中，在步骤S1中，所述优化目标是：

loss＝max{0，margin-y·cos(θ)}

其中，margin是间隔阈值，当训练样例为正例时，y＝1，为训练样本是负例时，y＝-1。

在一个实施例中，在步骤S3中，采用近似检索算法ANNOY或HNSW对所述句子库中的句子的向量表示建立语义索引。

根据本发明的第二方面，提供了一种基于预训练模型的语义检索系统。该系统包括：

模型训练模块：用于采用标注数据对预训练语义表示模型进行训练，获得满足设定优化目标的经训练的预训练语义表示模型；

第一向量表示模块：用于将句子库中的句子输入到所述经训练的预训练语义表示模型，获得该句子库中句子的向量表示；

语义索引建立模块：用于对所述句子库中的句子的向量表示建立语义索引，获得句子库的语义索引；

第二向量表示模块：用于将待查询语句输入到所述经训练的预训练语义表示模型，获得待查询语句的向量表示；

查询匹配模块，用于将所述待查询语句的向量表示和所述句子库的语义索引进行匹配，获得查询结果。

与现有技术相比，本发明提出的基于预训练模型的语义检索方法，有效地结合了有监督和无监督数据，大幅提升了模型的语义表示能力和领域迁移能力，在同等监督数据量的情况下，能够取得比现有的各种语义检索方法更好的效果。同时，通过借助在大规模无监督数据上预训练的语言模型，仅使用少量的监督数据就可以达到与传统的使用大量监督数据的有监督方法相媲美的效果，从而显著降低了人工标注数据的成本并提高了开发效率。

附图说明

以下附图仅对本发明作示意性的说明和解释，并不用于限定本发明的范围，其中：

图1是根据本发明一个实施例的基于预训练模型的语义检索方法的流程图；

图2是对称的语义表示模型的示意图。

具体实施方式

为了使本发明的目的、技术方案、设计方法及优点更加清楚明了，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。

在本文示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

根据本发明的一个实施例，提供了一种基于预训练模型的语义检索方法，简言之，该方法包括采用标注数据对预训练语义表示模型进行训练；利用经训练的预训练语义表示模型对句子库中的句子做向量化处理，得到句子的语义表示向量；然后，使用近似检索算法对句子库建立索引；最后，对查询语句进行近似最近邻检索，获得查询结果。具体地，参见图1所示，该方法包括以下步骤：

步骤S110，标注领域相关的句子匹配数据集，获得训练样本集。

为了训练语义表示模型，首先需要标注所研究领域相关的句子匹配数据集，例如，每条数据的格式是一个三元组：(句子1，句子2，标签)，其中标签有匹配或者不匹配两种。以健康咨询领域为例，标注示例如下：(孩子体温总是特别高，儿童反复发高烧，匹配)，(得了阑尾炎该怎么办，得了感冒该怎么办，不匹配)。

通过标注两个句子或更多句子是否匹配，能够获得某一领域的数据标注(即已知标签类别的监督数据)，将已标注数据构建为训练样本集，用于后续训练。下文将主要以三元组形式标注的数据为例进行介绍。

步骤S120，使用训练样本集对预训练语义表示模型进行进一步训练。

预训练语义表示模型可采用BERT(Bidirectional Encoder Representat ionsfrom Transformers)或ERNIE(知识增强语义表示模型，Enhanced Representation fromkNowledge IntEgration)。这些模型利用大量的无监督数据经过训练获得，具有语言推断、语义表示能力等。

为进行语义检索，需要单独地对每个句子进行向量化，针对以三元组格式标注的数据，本发明实施例设计了对称的语义表示模型进行向量化。例如，参见图2所示，使用两个完全相同的BERT分别编码两个句子，两个BERT使用同一套参数，在本文中称为对称网络。在最终的向量化过程中，由于这两个对称的BERT是完全一样的，因此相当于用同一个BERT对句子1和句子2分别向量化生成两个句子向量。而在现有技术中，对于BERT的默认微调模式来说，两个句子是拼接在一起输入的，这无法满足基于语义的近似检索方法的要求，本发明实施例采用对称的语义表示模型进行向量化，为每个句子单独生成向量，能够建立索引并进行近似查询，提高了基于语义检索的准确率。

为便于理解，首先介绍向量化的过程，包括以下步骤：

步骤S121，使用两个对称的预训练语义表示模型(例如BERT、ERN IE)来分别编码两个句子(即样本数据中句子1和句子2)，两侧的网络使用同一套模型参数，最终得到两个句子的上下文词表示集合其中，表示句子1的词的向量表示，表示句子2的词的向量表示，t是句子中的词编号。

步骤S122，进一步地，对于每个句子，可将所有的上下文词表示向量相加取平均的方法来获取最终的句子表示向量C，一般性地表示为：

C＝reducemean{C¹，...，C^t} (1)

其中，C¹至C^t表示某一句子中的词向量。

步骤S123，考虑到预训练语义表示模型的向量维度H通常较大(例如BERT是768)，这会降低后续将要使用检索算法建立索引的速度和进行语句查询速度，优选地，对于预训练语义表示模型，可添加一层全连接网络将句子向量维度压缩至M(M小于H)，压缩后句子表示向量为：

其中，W是全连接层的权重参数，b是全连接层的偏置参数。

利用公式(2)，对三元组中的两个句子使用一组模型参数来处理，最终得到压缩后的句子的向量表示，表示为

利用训练样本集对预训练语义表示模型进行进一步训练的过程是，将已标注的数据输入到预训练语义表示模型，获得句子的上下文词表示向量(参见公式(1)和公式(2))，然后通过余弦相似度来计算两个句子的相似度得分，表示为：

其中，表示压缩后句子的向量表示。

在一个实施例中，对预训练语义表示模型进行训练时，使用最大间隔损失来优化目标函数，表示为：

loss＝max{0，margin-y·cos(θ)} (4)

其中，当训练样例为正例时，y＝1，为训练样例为负例时，y＝-1，margin表示预定义的间隔阈值。优化目标是，对于正例，cosine值尽量大于margin，然而对于负例，cosine值尽量小于margin，从而达到最大间隔损失的优化目标，也就是，希望使得正例和负例之间的预测分值间隔尽量拉大。在本发明实施例中，margin一般取值为0.5会获得较好效果。

在此步骤S120中，通过对预训练语义表示模型利用有监督数据进行进一步训练，能够获得更适用于某一领域的语义表示模型。

步骤S130，使用经训练的预训练语义表示模型对句子库中的句子做向量化处理，获得句子库中句子的语义表示向量。

在进一步训练之后，即可利用训练好的预训练语义表示模型对句子库中的句子做向量化处理，从而获得句子库中句子的语义表示向量。向量化处理的具体过程与上述S121，S122和S123类似，在此不再赘述。

步骤S140，建立句子库的语义索引。

在获得句子库中句子的语义表示向量之后，对句子库中句子表示建立索引。

例如，可采用近似检索算法，如ANNOY(Approximate Nearest Neighbors OhYeah)或HNSW(Hierarchcal Navigable Small World graphs)对句子库中的句子表示建立索引，将这种索引称为语义索引，即建立一个数据结构，能够在较短的时间内找到任何查询点的近似最近点。这种方式，能够兼顾精度和准确率，相对于暴力搜索要快的多。

步骤S150，对于待查询语句，利用经训练的预训练语义表示模型进行向量化并进行语义检索。

在得到句子库的语义索引之后，给定一个文本查询语句q，使用已训练好的模型对此文本进行向量化，然后使用该向量进行语义检索，即从句子库中查找出与查询语句最相似的项目，例如，可采用最近邻检索或近似最近邻检索等。

在一个优先实施例中，使用近似最近邻检索方法，近似最近邻检索利用数据量增大后数据之间会形成簇状聚集分布的特性，通过对数据分析聚类的方法对数据库中的数据进行分类或编码，对于目标数据根据其数据特征预测其所属的数据类别，返回类别中的部分或全部作为检索结果。最近邻检索或近似最近邻检索的具体过程属于现有技术，在此不再赘述。

相应地，本发明实施例还提供一种基于预训练模型的语义检索系统，该系统可以实现上述方法的一个方面或多个方面，例如，该系统包括：模型训练模块，其用于采用标注数据对预训练语义表示模型进行训练，获得满足设定优化目标的经训练的预训练语义表示模型；第一向量表示模块，其用于将句子库中的句子输入到所述经训练的预训练语义表示模型，获得该句子库中句子的向量表示；语义索引建立模块，其用于对所述句子库中的句子的向量表示建立语义索引，获得句子库的语义索引；第二向量表示模块，其用于将待查询语句输入到所述经训练的预训练语义表示模型，获得待查询语句的向量表示；查询匹配模块，其用于将所述待查询语句的向量表示和所述句子库的语义索引进行匹配，获得查询结果。本文所述的句子库可以是问答式的句子库或其他任何类型的句子库。

需要说明的是，虽然上文按照特定顺序描述了各个步骤，但是并不意味着必须按照上述特定顺序来执行各个步骤，实际上，这些步骤中的一些可以并发执行，甚至改变顺序，只要能够实现所需要的功能即可。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种基于预训练模型的语义检索方法，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述预训练语义表示模型是利用无监督数据训练的BERT模型或ERNIE模型。

3.根据权利要求1所述的方法，其特征在于，所述标注数据反映两个句子之间是否匹配，采用三元组格式进行标注。

4.根据权利要求1所述的方法，其特征在于，在步骤S1的训练过程包括：

5.根据权利要求4所述的方法，其特征在于，在步骤S1的训练过程还包括通过全连接层将所述第一个句子的向量表示C_L和所述第二个句子的向量表示C_R进行压缩，表示为：

6.根据权利要求5所述的方法，其特征在于，在步骤S1中，所述优化目标是：

loss＝max{0，margin-y·cos(θ)}

7.根据权利要求1所述的方法，其特征在于，在步骤S3中，采用近似检索算法ANNOY或HNSW对所述句子库中的句子的向量表示建立语义索引。

8.一种基于预训练模型的语义检索系统，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现根据权利要求1至7中任一项所述方法的步骤。

10.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7中任一项所述的方法的步骤。