CN116304728A

CN116304728A - 一种基于句子表征的短文本相似度匹配方法及应用

Info

Publication number: CN116304728A
Application number: CN202211666333.9A
Authority: CN
Inventors: 王晶; 陈煜�
Original assignee: Consistent Zhifu Hangzhou Technology Co ltd
Current assignee: Consistent Zhifu Hangzhou Technology Co ltd
Priority date: 2022-12-23
Filing date: 2022-12-23
Publication date: 2023-06-23

Abstract

本发明涉及一种基于句子表征的短文本相似度匹配方法及应用，构建针对文本匹配与表征学习的模型，以孪生网络为基础，以基于连续批次数据的正负样本增强方法进行损失计算；训练完成的模型用于短文本相似度匹配；方法应用于税务行业的问答系统，为用户问匹配税务行业的标准问。本发明解决对于相同长度样本的置信度计算偏移的缺陷，加强样本本身的语义表达，增加不同句子中的语义差异的关注概率，降低句子长度对于模型判断的干扰；充分利用历史时间步的连续批次样本中已有的的特征向量，优化当前时间步模型的训练目标，在利用更多样本特征数据的同时不增加训练时长；提升模型预测准确度，节省标注人力成本；特别适用于专业领域。

Description

一种基于句子表征的短文本相似度匹配方法及应用

技术领域

本发明涉及电数字数据处理的技术领域，特别涉及一种基于句子表征的短文本相似度匹配方法及应用。

背景技术

随着科学技术的不断发展，各行各业中，智能信息咨询服务的需求日益增长，通过深度学习以及自然语言处理的相关技术来实现智能咨询服务趋于普遍。在此前提下，服务的核心要点在于，智能咨询服务能够准确的推荐出用户咨询问题的答案，而这就对咨询服务中的问答系统性能提出了较高的要求，确切地说，是对用户提出的问题与问答系统中的本地问题的匹配提出了较高的要求。

目前大多数文本相似度匹配算法都是通过对两条文本的拼接序列进行编码操作并输出它们的关联程度来实现，即将两条文本的相似度作为推荐问题先后排序的依据，这种方式虽然在一定程度上解决了传统机器学习模型对语义特征提取不足的问题，但是模型参数量的增加导致模型在提升准确度的同时也大幅增加了预测时间，特别是针对文本相似度计算的任务，对于问答库中待排序的每一个文本都需要与用户的问题文本进行相似度计算，在并发性能要求比较高的场景下并不能满足需求。

孪生网络架构模型的提出很大程度上缓解了上述问题，然而，虽然孪生网络架构在很大程度上解决了预测速度的问题，但是却损失了一定的计算精度，这是因为模型对预测的两条文本分开进行表征计算，再进行相似度比较导致的，这会导致模型失去文本间的交互特征。

发明内容

本发明解决了现有技术中存在的问题，提供了一种基于句子表征的短文本相似度匹配方法及应用，提升用户问题与本地问答库中所存储问题的匹配准确率，提升产品的用户体验，从根本上减少运算量。

本发明所采用的技术方案是，一种基于句子表征的短文本相似度匹配方法，构建针对文本匹配与表征学习的模型，所述模型以孪生网络为基础，以基于连续批次数据的正负样本增强方法进行损失计算；

以训练完成的模型用于短文本相似度匹配。

优选地，所述正负样本增强方法包括正样本数据增强和组合式负样本构造；所述正样本和负样本的训练集为单独且未标注的对应应用领域的文本。

优选地，所述正样本数据增强包括以下步骤：

S1.1对于任一正样本，以此正样本与正样本本身组成训练样本对；

S1.2查找当前正样本中是否存在对应当前应用领域的专业词，若是，则以对应当前应用领域的专业词对训练样本对中的正样本本身进行重复扩充，所述重复扩充的专业词重复于当前专业词前或后，进行S1.4，否则进行下一步；

S1.3在正样本的句子中随机重复选取

个字进行重复扩充；

S1.4得到正样本的训练样本对x_i与

优选地，S1.3中，重复次数为2～6次。

现有技术中的方案使用完全重复的语料作为一对正样本，完全依赖模型本身的dropout机制带来的独立随机性进行正样本构造，而这种构造方案将在极大程度上导致所有正样本的长度相等，从而使得模型对于相同长度的样本计算出的置信度偏大，并最终导致预测效果不佳。

本发明的正样本数据增强区别于现有技术中的正样本构造方案；通过重复文本中的应用领域关键词或是重复随机字的方法，规避随机插入、删除等传统数据增强方案可能导致的语义偏移的缺陷；通过重复随机字词的数据增强方法改变正样本对间的句子长度差，解决模型对于相同长度样本的置信度计算偏移的缺陷，而随机重复当前应用领域的专业词可以加强样本本身的语义表达，让模型能最大程度关注到不同句子中的语义差异。

优选地，所述组合式负样本构造包括批次内的负样本构造和连续批次的负样本构造。

优选地，批次内的负样本构造为，任一批次内的负样本对由每个样本与除了自己本身的其它一个训练样本构成。

优选地，令批次大小为N，学习目标函数为

其中，h_i＝f_θ(x_i,z_i)，

f_θ(·)表示编码器，z_i与/>

为dropout的两种不同的随机掩码，i为当前样本的下标，j为批次内其他样本的下标，τ为温度超参数，τ＞0，一般取0.05，sim()为相似度计算函数；此次使用余弦相似度，满足

优选地，以大小为M的队列对每个批次内在训练过程中所产生的训练样本的特征向量进行记录，如M的大小为2*batch_size；当该队列存储的批次数据大于队列长度时，则最早进入队列的数据出队，收集新的批次内的数据；连续批次的负样本构造为，负样本对由每个样本与除了自己本身的其他待入队列的批次数据和队列中批次数据构成。

本发明中，由于每个批次的数据训练完成后模型的权重都会进行更新，故对每个批次的样本向量化的编码器都是上个时间步训练产生的，这使得当前时间步计算出的特征向量与前序批次计算出的特征向量存在差异；故在模型训练时维护一个大小为M的队列，对每个批次内的特征向量结果进行记录，当该队列存储的编码结果大于队列长度M时，则最早进入队列的数据出队并收集新的编码数据结果，这些队列中的编码数据都与当前将处理的样本构建成负样本，优化模型的训练目标，提升模型获取样本中语义信息的能力，使模型学习到更优质的上下文表征。

优选地，训练目标函数为

其中，M表示存储连续批次数据的队列长度，

表示的是队列中存储的连续批次内的句子向量，以m为索引，h_i＝f_θ(x_i,z_i)，/>

f_θ(·)表示编码器，z_i与/>

一种所述的基于句子表征的短文本相似度匹配方法的应用，应用于税务行业的问答系统，所述税务行业的问答系统以基于句子表征的短文本相似度匹配方法为用户问匹配税务行业的标准问。

本发明涉及一种基于句子表征的短文本相似度匹配方法及应用，构建针对文本匹配与表征学习的模型，模型以孪生网络为基础，以基于连续批次数据的正负样本增强方法进行损失计算；以训练完成的模型用于短文本相似度匹配；方法应用于税务行业的问答系统，所述税务行业的问答系统以基于句子表征的短文本相似度匹配方法为用户问匹配税务行业的标准问。

本发明的有益效果在于：

(1)通过数据增强方案，改变正样本对之间的句子长度差，解决模型对于相同长度样本的置信度计算偏移的缺陷，加强样本本身的语义表达，增加不同句子中的语义差异的关注概率，降低句子长度对于模型判断的干扰；

(2)完成每个批次和连续批次的数据训练，充分利用历史时间步的连续批次样本中已有的的特征向量，优化当前时间步模型的训练目标，在利用更多样本特征数据的同时不增加训练时长；

(3)提升模型预测准确度，弥补现有模型特征提取能力不足的缺陷，同时支持无监督与有监督的训练方法，且在无监督的训练方式下，模型的准确度指标优于现有技术的无监督模型；

(4)无需任何人工标注，符合在项目初步落地的实际需求，节省标注人力成本；

(5)特别适用于专业领域，如税务行业的问答系统的应用。

附图说明

图1为本发明的模型计算过程；

图2为本发明中批次内的负样本构造示意图；

图3为本发明中连续批次的负样本构造示意图。

具体实施方式

下面结合实施例对本发明做进一步的详细描述，但本发明的保护范围并不限于此。

本发明涉及一种基于句子表征的短文本相似度匹配方法，构建针对文本匹配与表征学习的模型，所述模型以孪生网络为基础，以基于连续批次数据的正负样本增强方法进行损失计算；

以训练完成的模型用于短文本相似度匹配。

如图1所示，为本发明所处理的实际场景中的模型计算过程，即对用户文本和问答库文本进行表征计算，再进行相似度比较；为了不损失计算进度，本发明改变训练目标(损失函数)，以利用更多的训练样本以及样本中可利用的特征，即使用同一个模型对同一个句子两次向量化，得到不同的特征向量；

具体来说，正样本的优化目标体现在损失函数的分子项上，负样本的优化目标体现在损失函数的分母项上，训练目标为在向量空间中将相似表达的样本(正样本)的特征向量拉进，同时进一步区分不相似的样本(负样本)的特征向量，负样本的数量越多，则生成的特征向量越好；但考虑到负样本增加的情况下，其特征向量的计算量亦会增加，故将batch内除正样本本身的其他样本都作为负样本之外，还将历史batch中所计算出的特征向量进行存储，在当前时间步的训练目标的计算上提供作用，充分利用了模型训练过程中所产生的数据的同时，还大大减少计算量，有效提升了模型计算句子表征的效果。

以下实施例部分以应用于税务行业的问答系统为例。

所述正负样本增强方法包括正样本数据增强和组合式负样本构造；所述正样本和负样本的训练集为单独且未标注的对应应用领域的文本。

本发明中，在无监督训练情况下，训练集由单独且未标注的税务行业的文本组成，数据来源于咨询税务问题的用户，如表1所示，

表1部分训练语料实例

残保金如何申报？
	个税年度汇算系统提示超过支付限额，怎么办？
......
	开票系统问题在哪里咨询？

表1中为部分举例数据。

所述正样本数据增强包括以下步骤：

S1.3在正样本的句子中随机重复选取

个字进行重复扩充；S1.3中，重复次数为2～6次。

S1.4得到正样本的训练样本对x_i与

本实施例中，用于模型训练的正样本对包括样本及对其本身再处理后的样本，再处理是指以当前应用领域的专业词，如税务专业词对样本本身进行重复扩充，而在没有当前应用领域的专业词时，则在句子中随机重复选取一定数量的字进行重复扩充，重复次数为2～6次；在表1的基础上，构造的正样本对中再处理的样本如表2中第二列所示，

表2部分构造的正样本训练语料实例

表2中的第一列和第二列对应为正样本对；

在没有当前应用领域的专业词时，举例来说，如样本为“一般纳税人文化事业建设税报表如何申报”，假定其无当前应用领域的专业词，则构造的正样本可以为“一般纳税人文化事业建设税报表如何何何何何申报”，两者对应为正样本对。

本实施例中，税务专业词包括但不限于邮政所、扣缴端、扣交端、进口票、地税局、机打票等。

本实施例中，对于正样本的集合

i指正样本集合索引，m为集合大小，χ_i与/>

为正样本对，使用两次独立采样的方式计算出正样本对χ_i与/>

的特征向量，两次独立采样的方式指的是使用相同编码器对正样本进行向量计算，由于BERT的Transformer层中的全连接层与注意力权重的计算时使用了dropout方法，所以只需在编码器中应用不同的dropout掩码z即可得到对应χ_i与/>

的特征向量h_i与/>

h_i＝f_θ(x_i，z_i)

其中，z_i与

为dropout的两种随机掩码；

此将在后续的训练中与负样本一并计算损失函数。

所述组合式负样本构造包括批次内的负样本构造和连续批次的负样本构造。

批次内的负样本构造为，任一批次内的负样本对由每个样本与除了自己本身的其它一个训练样本构成。

令批次大小为N，学习目标函数为

其中，h_i＝f_θ(x_i,z_i)，

f_θ(·)表示编码器，z_i与/>

为dropout的两种不同的随机掩码，i为当前样本的下标，j为批次内其他样本的下标，τ为温度超参数，τ＞0，一般取0.05，sim()为相似度计算函数。

本实施例中，如图2所示，对于每个mini-batch，负样本对是每个样本和除了自身的其它训练样本的组合。

以大小为M的队列对每个批次内在训练过程中所产生的训练样本的特征向量进行记录，当该队列存储的批次数据大于队列长度时，则最早进入队列的数据出队，收集新的批次数据；连续批次的负样本构造为，负样本对由每个样本与除了自己本身的其他待入队列的批次数据和队列中批次数据构成；M大于每个批次的batch size的最大值。

训练目标函数为

其中，M表示存储连续批次数据的队列长度，

f_θ(·)表示编码器，z_i与/>

本实施例中，如图3所示，维护一个大小为M的队列，进行每个批次内编码结果的记录，当该队列存储的编码结果大于队列长度时，则最早进入队列的数据出队，收集新的编码数据结果；对于连续批次来说，负样本对是每个样本与除了自己本身的其他待入队列的批次数据和队列中批次数据。

本发明还涉及一种所述的基于句子表征的短文本相似度匹配方法的应用，应用于税务行业的问答系统，所述税务行业的问答系统以基于句子表征的短文本相似度匹配方法为用户问匹配税务行业的标准问。

本发明中，训练完毕的模型在税务行业的问答系统中应用，通过输入设备输入用户问，税务行业的问答系统输出匹配的标准问及其答案或直接答案。

为了实现上述内容，本发明以计算机可读存储介质和计算机设备实现，介质其上存储有基于句子表征的短文本相似度匹配程序，该程序被处理器执行时实现上述基于句子表征的短文本相似度匹配方法，计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现上述基于句子表征的短文本相似度匹配方法；计算机可读存储介质和计算机设备解决现有技术中无法兼顾预测速度和计算精度的问题，特别适用于税务咨询领域。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于句子表征的短文本相似度匹配方法，其特征在于：构建针对文本匹配与表征学习的模型，所述模型以孪生网络为基础，

以基于连续批次数据的正负样本增强方法进行损失计算；

以训练完成的模型用于短文本相似度匹配。

2.根据权利要求1所述的一种基于句子表征的短文本相似度匹配方法，其特征在于：所述正负样本增强方法包括正样本数据增强和组合式负样本构造；所述正样本和负样本的训练集为单独且未标注的对应应用领域的文本。

3.根据权利要求2所述的一种基于句子表征的短文本相似度匹配方法，其特征在于：所述正样本数据增强包括以下步骤：

S1.3在正样本的句子中随机重复选取

个字进行重复扩充；

S1.4得到正样本的训练样本对x_i与

4.根据权利要求3所述的一种基于句子表征的短文本相似度匹配方法，其特征在于：S1.3中，重复次数为2～6次。

5.根据权利要求2所述的一种基于句子表征的短文本相似度匹配方法，其特征在于：所述组合式负样本构造包括批次内的负样本构造和连续批次的负样本构造。

6.根据权利要求5所述的一种基于句子表征的短文本相似度匹配方法，其特征在于：批次内的负样本构造为，任一批次内的负样本对由每个样本与除了自己本身的其它一个训练样本构成。

7.根据权利要求6所述的一种基于句子表征的短文本相似度匹配方法，其特征在于：令批次大小为N，学习目标函数为

其中，h_i＝f_θ(x_i,z_i)，

f_θ(·)表示编码器，z_i与/>

为dropout的两种不同的随机掩码，i为当前样本的下标，j为批次内其他样本的下标，τ为温度超参数，τ＞0，sim()为相似度计算函数。

8.根据权利要求6所述的一种基于句子表征的短文本相似度匹配方法，其特征在于：以大小为M的队列对每个批次内在训练过程中所产生的训练样本的特征向量进行记录，当该队列存储的批次数据大于队列长度时，则最早进入队列的数据出队，收集新的批次内的数据；连续批次的负样本构造为，负样本对由每个样本与除了自己本身的其他待入队列的批次数据和队列中批次数据构成。

9.根据权利要求8所述的一种基于句子表征的短文本相似度匹配方法，其特征在于：训练目标函数为

其中，M表示存储连续批次数据的队列长度，

f_θ(·)表示编码器，z_i与/>

10.一种权利要求1～9之一所述的基于句子表征的短文本相似度匹配方法的应用，其特征在于：应用于税务行业的问答系统，所述税务行业的问答系统以基于句子表征的短文本相似度匹配方法为用户问匹配税务行业的标准问。