CN113221530B

CN113221530B - 一种文本相似度匹配方法、装置、计算机设备和储存介质

Info

Publication number: CN113221530B
Application number: CN202110417707.2A
Authority: CN
Inventors: 刘伟; 杨红飞
Original assignee: Hangzhou Firestone Technology Co ltd
Current assignee: Hangzhou Huiyidao Technology Co.,Ltd.
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2024-02-13
Anticipated expiration: 2041-04-19
Also published as: CN113221530A

Abstract

本发明公开了一种基于circle loss的文本相似度匹配方法、装置、计算机设备和储存介质，其涉及计算机信息处理技术领域，所述方法包括：S1样本准备；S2模型训练；S3模型预测；在S2模型训练阶段，首先使用孪生网络结构分批训练上述样本集；然后分别计算锚样本与正样本、负样本之间的距离：利用electra模型计算样本的3)使用circle loss损失函数计算损失值，接着利用electra模型计算每个样本的特征表示，将circle loss损失函数与electra模型相结合，并使其应用到问答系统中，可得到文本相似度匹配速度与精度均较高的问题收集方法。

Description

一种文本相似度匹配方法、装置、计算机设备和储存介质

技术领域

本发明涉及计算机信息处理技术领域，特别涉及一种文本相似度匹配方法、装置、计算机设备和储存介质。

背景技术

近年来，随着人工智能相关学科，特别是计算语言学的发展，各种各样的问答系统应运而生，它允许用户以自然语言的方式提问，通过理解与检索等过程将简短、准确的答案返回给用户。文本匹配是检索过程的最要一环。文本匹配主要由传统的基于词的字面匹配和基于深度学习的向量匹配。

传统的BM25/Jaccard/Cosine Similarity等基于词匹配的模型都具有表示方法简洁、运算方便的特点，解决了词汇层面的匹配问题。但是基于词匹配的模型也有一定的局限，不能解决一词多义、同义词关联以及语序问题。基于深度学习的的文本匹配方法主要分为两类，一类是Representation-based模型，这类方法先分别学习出query和question的句向量表示，然后用两个向量做余弦相似度计算或者连接多层感知机(MLP)得到最后的匹配分，重点是学习query和question对应的句向量表示；另外一类是Interaction-based模型，这类先构建匹配矩阵(Matching Matrix)，然后利用匹配矩阵学习一个匹配函数，最后连接多层感知机输出匹配分。第二类方法在实际应用中会有很大的延时。Representation-based模型最为有代表性的是基于孪生网络(Siamese Network)的文本匹配。但孪生网络在实际应用中对于训练语料中未出现的句子匹配效果较差。为了提高文本匹配的泛化能力，引入了Triplet Loss用以提高了文本匹配的泛化能力。在Triplet Loss中，训练期间有三个输入，分别是锚样本(anchor sample)，正样本(positive sample)和负样本(negtivesample)。锚是参考输入，正样本是锚样本的相似样本，负样本与锚样本不相似。TripletLoss的思想是：最大化锚样本和负样本之间的距离，同时拉近或最小化锚样本和正样本之间的距离。但当正样本或负样本与锚样本具有相同的距离时，或者正样本只是相比负样本稍微接近锚样本时，正样本到锚样本的距离与负样本到锚样本的距离差(margin)为零，也就是损失是零，此时就不会进行校正，尽管它仍然应该把正样本拉的更近，把负样本推得更远。

但在训练过程中存在两对正样本和负样本之间有相同margin(正样本到锚样本的距离与负样本到锚样本的距离差)，但其中一对离anchor更近另一对离点更远，如图6所示，在Triplet Loss训练过程中两对样本会得到相对的梯度，两对样本具有相同的最优性，利用Triplet Loss无法准确且快速的完成文本匹配。

发明内容

为了解决上述技术问题，本发明的目的在于提供一种基于circle loss的文本相似度匹配方法，解决了利用Triplet Loss模型针对两对具有相同margin的样本时无法准确且快速完成文本匹配的问题，实用性较高。

为了实现上述目的，本发明所采用的技术方案为：一种基于circle loss的文本相似度匹配方法，包括如下步骤：

S1样本准备：收集问题集、确定锚样本、正样本与负样本，并对锚样本、正样本与负样本进行排序；

S2模型训练：构建并训练模型；

S3模型预测：测试训练完成的模型；

其中，S2模型训练具体为，使用孪生网络结构分批训练上述样本集；1)分别计算锚样本与正样本、负样本之间的距离；2)使用circle loss损失函数计算损失值；

计算锚样本与正样本的距离和锚样本与负样本的距离，其过程具体为：1)使用无监督模型计算每个样本的特征表示，无监督模型选用为electra模型；2)通过卷积神经网络，对每个样本的特征表示进行学习，获取每个样本的特征向量(200维)；3)利用公式1和公

式2来分别计算锚样本与正样本、负样本之间的距离。

Distance＝1–similarity 公式2

其中：A代表锚样本的语义向量；B代表正样本或负样本的语义向量；Distance代表锚样本与正样本的距离或锚样本与负样本的距离。

优选的，S1样本准备包括：1)收集问题集，使用分类模型分类问题集；2)在分类后的样本集中选择锚样本、正样本和负样本；3)将选择的样本分为三列，第一列为锚样本，第二列为正样本；第三列为负样本；在收集并分类问题集后，使用收集的问题集及外部医疗数据训练BM25模型，使用训练好的BM25模型选择锚样本、正样本与负样本。

优选的，分类模型选择为基于bert的分类模型。

优选的，在S3模型预测过程中，将所有问题集通过上述训练好的模型，获得问题的语义向量，使用faiss模型构建向量索引优选的，在模型预测过程中，将所有问题集通过上述训练好的模型，获得问题的语义向量，使用faiss构建向量索引。

优选的，选择锚样本、正样本和负样本的过程为：1)使用BM25模型选择锚样本：从收集到的问题集中随机选择30％作为样本，使用BM25模型计算样本之间的相似度，过滤掉相似度大于0.6的样本，其余样本作为锚样本；

2)利用BM25模型计算锚样本与剩余问题集的相似度，选择相似度大于0.8的样本为正样本；

3)利用BM25模型计算锚样本与剩余问题集的相似度，选择相似度大于0.6、小于0.8的样本作为困难样本，小于0.5的样本作为容易样本，最后将困难样本和容易样本按照7:3的比例混合，作为负样本。

优选的，困难样本均是相同领域的问题，容易样本中，相同领域与不同领域比例控制在7:3。

优选的，一种基于circle loss的文本相似度匹配装置，包括：预处理模块，对用户输入的文本进行分词，根据预先的同义词库和缩写库分别进行同义词替换和缩写替换，替换后会得到多个句子；

句子语义向量抽取模块，将每个句子通过electra模型得到的每个句子中所有的字向量进行求均值操作，将均值向量作为每句话的句子语义向量，最后对所有句子向量进行平均，获取多句话的平均语义向量；

相似度计算模块，将上述获取的平均语义向量，与所有问题的语义向量进行相似度计算，最后选取相似度靠前的问题，返回给用户。

优选的，一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

优选的，一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

与现有技术相比，本发明的优点在于：(1)利用circle loss模型来计算损失值，并将circle loss模型与electra模型相结合，解决了目前Triplet Loss模型在问答系统的文本相似度匹配中存在的匹配速度和精度低的问题，十分具有应用前景；(2)利用训练好的BM25模型来选择锚样本、正样本与负样本，在样本的选择方式上进行改进，使用此样本训练出来的模型精准度更高；(3)在样本选择完成后，对样本进行排序，实现样本在后期的分批、有序训练；(4)将上述文本相似度匹配方法与计算机设备或计算机可读存储介质相结合，使其应用到问答系统中，处理问题的效率与精度更高，具有较好的市场前景。

附图说明

图1为实施例1的方法流程图；

图2为实施例1中方法的大体框架流程图；

图3为实施例1中S1的具体方法流程图；

图4为实施例1中装置结构简图；

图5为实施例1中计算机设备的结构示意图；

图6为背景技术附图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

实施例1

如图1至图3所示的一种基于circle loss的文本相似度匹配方法，具体包括：

S2模型训练：构建并训练模型；

S3模型预测：测试训练完成的模型。

其中，如图3所示，S1样本准备包括：1)收集问题集，使用分类模型分类问题集，此处的分类模型选择基于bert的分类模型；

2)在分类后的样本集中选择锚样本、正样本和负样本；

3)将选择的样本分为三列，第一列为锚样本，第二列为正样本；第三列为负样本；在收集并分类问题集后，使用收集的问题集及外部医疗数据训练BM25模型，使用训练好的BM25模型选择锚样本、正样本与负样本。

此处以医疗问题为例，首先收集医疗问题集，使用构建的基于bert的疾病分类模型，将问题进行分类，比如“糖尿病怎么治疗，分类为糖尿病”、“肝病怎么治疗，分类为肝病”。

在选择锚样本、正样本和负样本阶段，首先需使用收集的所有问题集及外部医疗数据共7G训练BM25模型，并利用BM25模型来选择锚样本、正样本与负样本。

上述利用BM25模型选择锚样本、正样本与负样本的步骤包括：1)从收集到的问题集中随机选择30％作为样本，使用BM25模型计算样本之间的相似度，过滤掉相似度大于0.6的样本，其余样本作为锚样本，保证选择的锚样本之间的相似度很低；

3)利用BM25模型计算锚样本与剩余问题集的相似度，选择相似度大于0.6、小于0.8的样本作为hard example(困难样本)，小于0.5的样本作为easy example(容易样本)，最后将hardexample(困难样本)和easy example(容易样本)按照7:3的比例混合，作为负样本。

需要注意的是，为了提高模型的鲁棒性，hard example(困难样本)均是从相同领域中选择的问题，在选择easy example(容易样本)时，使得easy example(容易样本)由相同领域与不同领域比例控制在7:3的问题组成。此处的hard example是指与锚样本相近，但又不是正样本的数据。

本实施例对选择锚样本、正样本与负样本的方法进行了改进，使用此方法得到的样本对，更高效训练模型。

S2模型训练具体为使用孪生网络结构分批训练上述样本集，具体结合图1和图2进行理解：

1)分别计算锚样本与正样本之间的距离(Sp)、锚样本与负样本之间的距离(Sn)；

2)使用circle loss损失函数计算损失值；

计算锚样本与正样本的距离和锚样本与负样本的距离，其过程具体为：

1)使用无监督模型计算每个样本的特征表示，无监督模型选用为electra模型；

2)通过CNN网络(卷积神经网络)，对每个样本的特征表示进行学习，获取每个样本的特征向量(200维)；

3)利用公式1和公式2来分别计算锚样本与正样本、负样本之间的距离。

Distance＝1–similarity 公式2

当A表示锚样本的语义向量，B表示正样本的语义向量时，则similarity与Distance计算的数值分别为锚样本与正样本的相似度数值、锚样本与正样本之间的距离(Sp)。

当A表示锚样本的语义向量，B表示负样本的语义向量时，则similarity与Distance计算的数值分别为锚样本与负样本的相似度数值、锚样本与负样本之间的距离(Sn)。

上述步骤完成之后，开始计算损失值。其包含的内容具体为：使用公式3计算circle loss的损失值，Lcircle代表着各样本的损失值。为了避免出现损失值为0的情况，添加了自定义常量margin m和缩放因子γ，另外需要自定义了余量Δn和Δp；文中设置Op＝1+m，On＝-m，Δp＝1-m，Δn＝m来降低超参数，αn和αp是独立的权重因子，允许Sn和Sp以不同的速度学习因此只需要设置γ和m。

公式3circle loss损失函数。

在S3模型预测阶段中，将所有问题通过上述训练好的模型，获得问题的语义向量，使用faiss构建向量索引，当用户输入问题时，将用户的问题使用上述训练好的模型获得其语义向量，然后使用faiss进行相似度计算，获取相似度最高的前K个问题返回用户，此处的K是个自定义的常数。

在实际训练过程中对于两对正样本和负样本之间有相同margin(正样本到锚的距离与负样本到锚的距离差)，但是其中一对离anchor更近另一对离点更远，如图6所示情形。若使用当前应用最多的Triplet Loss进行训练，训练过程中两对样本会得到相对的梯度，无法完成精确且快速的匹配过程。在我们的发明中，当正样本已经很接近anchor(锚样本，可视为参考样本，与正样本距离较近，与负样本距离较远)时，模型会把注意力更多地放在把负样本推开上，当正样本和负样本都离我们很远时，模型会把注意力更多地放在把正样本拉向anchor。为了解决这一问孙奕帆等人提出了Circle Loss。Circle Loss通过对每个相似度评分、Sn、Sp分别给予不同的惩罚强度(Sp为类内相似度评分，Sn为类间相似度评分)，从而使优化更加灵活。并将(Sn—Sp)推广到(αn*Sn—αp*Sp)，其中，αn和αp是独立的权重因子，允许Sn和Sp以不同的速度学习。

Circle loss也给出了一个更明确的收敛点。在Triplet Loss中，上面的两对具有相同的最优性。但在Circle Loss中倾向于不是太接近锚样本(因为这意味着平均负样本更接近锚点)和不是太远离锚样本(因为正样样本会离锚太远)的样本对。为了提高文本匹配的准确度与速度，我们将circle loss结合electra首次应用到文本匹配中，实现了技术的创新。

本发明还公开了一种基于circle loss的文本相似度匹配装置，如图4所示，其包括预处理模块、句子语义向量抽取模块和相似度计算模块。

上述装置预设并构件语义向量索引，具体为：将搜集到的所有问题通过预处理，去除无意义字符后，将所有句子分别通过electra模型得到的句子中所有的字向量进行求均值操作，最终将均值向量作为每句话的句子语义向量。然后使用faiss模块对语义向量构建欧式距离(faiss.indexFlatL2)索引。

其中，预处理模块，对用户输入的文本进行分词，根据预先的同义词库和缩写库分别进行同义词替换和缩写替换，替换后会得到多个句子。

句子语义向量抽取模块，将每个句子通过electra模型得到的每个句子中所有的字向量进行求均值操作，将均值向量作为每句话的句子语义向量。最后对所有句子向量进行平均，获取多句话的平均语义向量。

相似度计算模块，将上述获取的平均语义向量，与所有问题的语义向量经过文中的匹配方法进行相似度计算，最后选取相似度topK，返回给用户。K是一个自定义常数，比如10个、20个等。

本实施例描述的文本相似度匹配装置，通过将circle loss模型与electra模型相结合，提高了文本相似度的匹配精度与匹配效率，在问答系统的问题匹配过程中，通过本发明实施例提供的文本相似度计算方法可实现从答案库中选取出相对准确、完整的答案回复集，提高答案的完整度以及答案与问题之间的相关度。

本发明公开了计算机设备，如图5所示，该计算机设备包括：处理器、存储系统及存储在存储系统上并可在处理器上运行的计算机程序。

其中，处理器的数量可以是一个或多个，本实施例以一个处理器为例展开描述，如图所示，处理器执行所述计算机程序时实现如上述文本相似度计算方法。如图所示，所述计算机设备还可以包括用于输入输出的I/O端，处理器通过高性能计算来实现模型预测。

存储系统作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块。处理器先通过运行存储在存储系统中的软件程序、指令以及模块，后续高速缓存到内存，以执行电子设备的各种功能应用以及数据处理，即实现上述的文本相似度计算方法。

本发明还公开了一种包含计算机可执行的存储介质，上面存储有计算机程序，计算机程序被处理器执行时用于实现一种文本相似度匹配的方法，该方法包括：

样本准备：收集问题集、确定锚样本、正样本与负样本，并对锚样本、正样本与负样本进行排序；

模型训练：构建并训练模型；

模型预测：测试训练完成的模型。

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的文本相似度计算相关操作。

尽管以上详细地描述了本发明的优选实施例，但是应该清楚地理解，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于circle loss的文本相似度匹配方法，其特征在于，包括如下步骤：

S1样本准备：收集问题集，确定锚样本、正样本与负样本，并对锚样本、正样本与负样本进行排序，形成样本集；

S2模型训练：构建并训练模型；

S3模型预测：测试训练完成的模型；

S1样本准备具体步骤如下：

1)收集问题集，使用分类模型分类问题集；2)在分类后的样本集中选择锚样本、正样本和负样本；3)将选择的样本分为三列，第一列为锚样本，第二列为正样本；第三列为负样本；在收集并分类问题集后，使用收集的问题集及外部医疗数据训练BM25模型，使用训练好的BM25模型选择锚样本、正样本与负样本；

选择锚样本、正样本和负样本的过程为：1)使用BM25模型选择锚样本：从收集到的问题集中随机选择30％作为样本，使用BM25模型计算样本之间的相似度，过滤掉相似度大于0.6的样本，其余样本作为锚样本；

3)利用BM25模型计算锚样本与剩余问题集的相似度，选择相似度大于0.6、小于0.8的样本作为困难样本，小于0.5的样本作为容易样本，最后将困难样本和容易样本按照7:3的比例混合，作为负样本；

S2模型训练具体为，使用孪生网络结构分批训练上述样本集：1)分别计算锚样本与正样本、负样本之间的距离；2)使用circle loss损失函数计算损失值；

计算锚样本与正样本的距离和锚样本与负样本的距离，其过程具体为：1)使用无监督模型计算每个样本的特征表示，无监督模型选用为electra模型；2)通过卷积神经网络，对每个样本的特征表示进行学习，获取每个样本的特征向量，200维；3)利用公式1和公式2来分别计算锚样本与正样本、负样本之间的距离；

Distance＝1–similarity 公式2

2.根据权利要求1所述的基于circle loss的文本相似度匹配方法，其特征在于，分类模型选择为基于bert的分类模型。

3.根据权利要求1所述的基于circle loss的文本相似度匹配方法，其特征在于，在S3模型预测过程中，将所有问题集通过上述训练好的模型，获得问题的语义向量，使用faiss模型构建向量索引。

4.根据权利要求1所述的基于circle loss的文本相似度匹配方法，其特征在于，困难样本均是相同领域的问题，容易样本中，相同领域与不同领域比例控制在7:3。

5.一种基于circleloss的文本相似度匹配装置，采用权利要求1至4任一所述文本相似度匹配方法，其特征在于，包括：

预处理模块，对用户输入的文本进行分词，根据预先的同义词库和缩写库分别进行同义词替换和缩写替换，替换后会得到多个句子；

6.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的方法的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。