CN112257409A

CN112257409A - 一种相似句子对判断方法、系统及存储介质

Info

Publication number: CN112257409A
Application number: CN202011069334.6A
Authority: CN
Inventors: 刘园; 朱德伟; 孔亚洲; 王玲
Original assignee: Huatai Securities Co ltd
Current assignee: Huatai Securities Co ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-01-22
Anticipated expiration: 2040-09-30
Also published as: CN112257409B

Abstract

本发明公开了一种相似句子对判断方法、系统及存储介质，所述方法包括如下步骤：步骤1：根据实际使用场景并按照意图冲突和问句相似度，将数据集整理成多组句子对；步骤2：使用与Robert网络对接的Encoder将步骤1中的多组句子对转换为对应的语义表征空间，获取符合语义的Embedding结果样本；步骤3：将步骤2处理后的Embedding结果样本输入Robert网络中训练，并将Robert网络的Cross Entropy Loss函数替换为Focal Loss函数，来消除不同类别的相似句子对样本不平衡问题；步骤4：重复步骤3进行训练优化，直至满足收敛条件,从而准确地将Embedding结果样本分类为相似句子对和非相似句子对。本发明能够保证相似句子对判断的准确率。

Description

一种相似句子对判断方法、系统及存储介质

技术领域

本发明涉及一种相似句子对判断方法、系统及存储介质，属于自然语言处理技术领域。

背景技术

目前相似句子对判断的两种常用方法分别是基于Word-level(单词层)判断相似句子对和基于Sentence-level(句子层)判断相似句子对。

基于Word-level判断相似句子对是通过对句子进行分词，分别计算两个被比较句子中所含词汇的相似度，主要涉及两个核心问题：一个是词汇的相似度计算问题，另一个是对多个词的相似度进行加权融合问题，但是存在一定的局限性，主要包括两点，其一是维护工作量大，如果采用对句子进行分词的方法，则判断相似句子对的准确率依赖于分词的准确率和前期同义词维护的全面性；其二是语义表征能力的欠缺。

基于Sentence-level判断相似句子对是采用句子建模方法判断相似句子对，其核心思想是利用向量空间模型，对句子进行向量表征，而向量表征通常有两种方式，其一是基于word-vector(词向量)的组合进行向量表征，其二是基于sentence-vector(句向量)进行向量表征，但是难以解决不同类别的相似句子对样本不平衡的技术问题。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种相似句子对判断方法、系统及存储介质，能够保证相似句子对判断的准确率。

为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种相似句子对判断方法，所述方法包括如下步骤：

步骤1：根据实际使用场景并按照意图冲突和问句相似度，将数据集整理成多组句子对；

步骤2：使用与Robert网络对接的Encoder将步骤1中的多组句子对转换为对应的语义表征空间，获取符合语义的Embedding结果样本；

步骤3：将步骤2处理后的Embedding结果样本输入Robert网络中训练，并将Robert网络的Cross Entropy Loss函数替换为Focal Loss函数，来消除不同类别的相似句子对样本不平衡问题；

步骤4：重复步骤3进行训练优化，直至满足收敛条件,从而准确地将Embedding结果样本分类为相似句子对和非相似句子对。

结合第一方面，进一步的，所述Robert网络基于Bert算法。

结合第一方面，进一步的，Robert网络对学习率的峰值和warm-up更新步数作出调整，将Adam中的β₂＝0.999改为β₂＝0.98，不对序列进行截短，使用全长度序列，使用DGX-1each with 8*32GB NVIDIA V100 GPUs interconnected by Infiniband处理器。

结合第一方面，进一步的，Robert网络使用160G训练语料，使用动态mask方法，使用FULL-SENTENCES without NSP Loss，使用batch size＝16/32/64/128。

结合第一方面，进一步的，所述收敛条件为相似句子对判断的准确率达到一定阈值。

第二方面，本发明提供了一种相似句子对判断系统，所述系统包括：

分类模块：用于根据实际使用场景并按照意图冲突和问句相似度，将数据集整理成多组句子对；

转换模块：用于使用与Robert网络对接的Encoder将多组句子对转换为对应的语义表征空间，获取符合语义的Embedding结果样本；

输入模块：用于将Embedding结果样本输入Robert网络中训练，并将Robert网络的Cross Entropy Loss函数替换为Focal Loss函数，来消除不同类别的相似句子对样本不平衡问题；

优化模块：用于重复所述输入模块的训练而进行优化，直至满足收敛条件，从而准确地将Embedding结果样本分类为相似句子对和非相似句子对。

第三方面，本发明提供了一种相似句子对判断系统，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行前述任一项所述判断方法的步骤。

第四方面，计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一项所述判断方法的步骤。

与现有技术相比，本发明所达到的有益效果：

本发明通过Robert网络的训练和Focal Loss函数对不同类别的相似句子对样本不平衡问题的消除，能够较为迅速地识别出占比较少的一类或多类相似句子对样本，从而准确地将Embedding结果样本分类为相似句子对和非相似句子对，保证相似句子对判断的准确率；

通过添加语义表征空间，提升了智能对话系统的用户体验，有利于智能对话系统的进一步智能化。

附图说明

图1是本发明实施例提供的相似句子对判断方法的原理框图；

图2是本发明实施例提供的相似句子对判断方法的具体应用实施流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明实施例中，构成完整句子的相似句子对样本数量较少，其他相似句子对样本数量较多，这便造成了不同类别的相似句子对样本不平衡，而且给机器学习模型的泛化能力带来一定的影响，因此将Robert网络的Cross Entropy Loss(交叉熵损失)函数替换为用于处理不同类别的相似句子对样本不平衡问题的Focal Loss(焦点损失)函数，从而提高构成完整句子的相似句子对样本的权重。

Focal Loss函数是在交叉熵损失函数基础上进行的修改，首先回顾二分类交叉熵损失：

y'是传统二分类问题的预测结果，其值在0-1之间。

普通交叉熵对于正样本而言，输出概率越大，则损失越小；普通交叉熵对于负样本而言，输出概率越小，则损失越小。此时的交叉熵损失函数在大量简单样本的迭代过程中的优化速度会比较缓慢且可能无法优化至最优。于是Focal Loss函数做出如下优化：

其中γ＞0使得其他相似句子对样本的损失得以减少，使得构成完整句子的相似句子对样本更被关注；添加平衡因子α，用来平衡正负样本本身的比例不均，比如α取0.25，即正样本占比要小于负样本占比，这是因为负样本简单容易区分。

只添加α虽然可以平衡正负样本本身的比例不均，但是无法解决简单与困难样本的问题。而γ调节简单样本权重降低的速率，当γ为0时Focal Loss函数即为交叉熵损失函数，当γ增加时，平衡因子α的影响也在增加。

如图1所示，本发明实施例提供了一种相似句子对判断方法，所述方法包括如下步骤：

步骤1：根据实际使用场景并按照意图冲突和问句相似度，将数据集整理成多组句子对，在本实施例中为3组，每组句子对均由sent1句和sent2句构成，同时设置label标识该组的sent1句和sent2句是否构成相似句子对；

其中，label＝1标识sent1句和sent2句构成相似句子对，label＝0标识sent1句和sent2句不构成相似句子对；

步骤2：使用与Robert网络对接的Encoder(编码器)将步骤1中的多组句子对转换为对应的语义表征空间，获取符合语义的Embedding(嵌入式)结果样本；

步骤3：将步骤2处理后的Embedding结果样本输入Robert网络中训练，从而有效解决在智能对话系统进行语料收集的过程中容易产生的数据噪音问题；并将Robert网络的Cross Entropy Loss函数替换为Focal Loss函数，来消除不同类别的相似句子对样本不平衡问题，所述Robert网络基于Bert算法；所述Robert网络对学习率的峰值和warm-up更新步数作出调整，将Adam中的β₂＝0.999改为β₂＝0.98，不对序列进行截短，使用全长度序列，使用DGX-1each with 8*32GB NVIDIA V100 GPUs interconnected by Infiniband处理器，使用160G训练语料,而原Bert算法使用16G训练语料，使用动态mask方法，而原Bert算法使用经典mask方法，使用FULL-SENTENCES without NSP Loss，使用batch size＝16/32/64/128，使用高层级的byte-level BPE；

步骤4：重复步骤3进行训练优化，直至满足收敛条件,从而准确地将Embedding结果样本分类为相似句子对和非相似句子对，所述收敛条件为相似句子对判断的准确率达到一定阈值。

本发明实施例通过Robert网络的训练和Focal Loss函数对不同类别的相似句子对样本不平衡问题的消除，能够较为迅速地识别出占比较少的一类或多类相似句子对样本，从而准确地将Embedding结果样本分类为相似句子对和非相似句子对，保证相似句子对判断的准确率；

其中，若各组的sent1句和sent2句构成相似句子对，则由label＝1标识；若各组的sent1句和sent2句不构成相似句子对，则由label＝0标识；

本发明实施例由于保证了相似句子对判断的准确率，从而提升了后期相似句子对录入的门槛，即只有在满足一定条件下的相似句子对才可以被录入智能对话系统，避免智能对话系统产生过多脏数据。

如图2所示，本发明实施例提供的相似句子对判断方法的具体应用说明如下：

向智能对话系统后台输入语料，然后智能对话系统对语料进行意图冲突检测，目的是为了确保录入系统的语料是未曾在系统中出现过的新语料；若没有发生冲突，则在系统中增加该新语料；若发生冲突，则运用相似句子对判断方法，判定发生冲突的输入语料和系统内部语料是相似句子对，然后在智能对话系统中保存该相似句子对，从而扩展原有相似句子对。

本发明实施例还提供了一种相似句子对判断系统，所述系统包括：

本发明实施例还提供了一种相似句子对判断系统，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行前述判断方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述判断方法的步骤。

本发明实施例适用于在智能对话系统中人工录入相似句子对的辅助判别场景，在智能对话系统业务的开始阶段，工作人员会面临大量数据录入的工作，而数据录入的质量直接决定了智能对话系统回答问题的准确率，只有准确率较高的回答才能保证智能对话系统在后期应用过程中维持一定的用户粘性，可见数据录入的质量是保证智能对话系统受到用户欢迎的根本，而本发明实施例能够保证相似句子对判断的准确率，提高数据录入的质量，从而提升智能对话系统回答问题的准确率。

本发明实施例不仅可以应用在相似句子对判断上，也可以应用在文本生成领域中，比如通过判断生成的语料和目标语料的相似度大小来避免语义相差过多的语料产生，还可以应用在包括但不限于断句合并的语义判别场景中，以及解决除对话以外的语义解析问题。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品，该指令系统实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种相似句子对判断方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的相似句子对判断方法，其特征在于，所述Robert网络基于Bert算法。

3.根据权利要求2所述的相似句子对判断方法，其特征在于，

Robert网络对学习率的峰值和warm-up更新步数作出调整，将Adam中的β₂＝0.999改为β₂＝0.98，不对序列进行截短，使用全长度序列，使用DGX-1 each with 8*32GB NVIDIAV100 GPUs interconnected by Infiniband处理器。

4.根据权利要求2所述的相似句子对判断方法，其特征在于，Robert网络使用160G训练语料，使用动态mask方法，使用FULL-SENTENCES without NSP Loss，使用batch size＝16/32/64/128。

5.根据权利要求1所述的相似句子对判断方法，其特征在于，所述收敛条件为相似句子对判断的准确率达到一定阈值。

6.一种相似句子对判断系统，其特征在于，所述系统包括：

7.一种相似句子对判断系统，其特征在于，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据权利要求1-5任一项所述方法的步骤。

8.计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-5任一项所述方法的步骤。