CN110825851A

CN110825851A - 基于中值转化模型的句子对关系判别方法

Info

Publication number: CN110825851A
Application number: CN201911081378.8A
Authority: CN
Inventors: 陈元宝; 庄建昌; 肖声明
Original assignee: China Electric Fufu Mdt Infotech Ltd
Current assignee: China Electric Fufu Mdt Infotech Ltd
Priority date: 2019-11-07
Filing date: 2019-11-07
Publication date: 2020-02-21

Abstract

本发明公开基于中值转化模型的句子对关系判别方法，首先将句子分别记为SEN‑A和SEN‑B，所有的SEN‑A构成A句的语料，所有的SEN‑B构成B句的语料。将SEN‑A和SEN‑B通过文本的分布式表示转化为向量形式，然后将A句的向量和B句的向量取平均作为本句子对的向量，就能得到句子对的结构化表示。之后就可以使用机器学习算法对其进行处理，完成下游NLP任务。本发明提出了中值转化模型，借助于文本的分布式模型将句子对转化为结构化数据，从而更有助于下游任务的处理。本发明还依据该模型进行了句子对关系判别实验，实验的效果验证了模型的有效性。

Description

基于中值转化模型的句子对关系判别方法

技术领域

本发明涉及人工智能技术领域，尤其涉及基于中值转化模型的句子对关系判别方法。

背景技术

句子对的表示判别涉及到多个自然语言处理(NLP)领域，比如问题推断，问答系统，对话系统。句子对的表示具有众多应用场景。然而，对句子对的表示目前在业界还较为罕见。实际的应用场景中，面临着如何转化句子对关系任务可能会面临:一、实际各个类的语料分布不平衡的问题；二、句子对的结构化问题。因此，构建一个较好的句子对关系表示模型具有研究价值。对句子对进行表示有助于下游NLP任务的处理。

发明内容

本发明的目的在于提供基于中值转化模型的句子对关系判别方法,利用该方法得到的结果有利于下游的文本任务的处理,提出的中值转化方法能够在不平衡的语料数据上具有良好的性能。

本发明采用的技术方案是：

基于中值转化模型的句子对关系判别方法，其包括以下步骤：

步骤1，搜集所有的句子对SEN-A和SEN-B，所有的SEN-A构成一个A句的语料，所有的SEN-B构成B句的语料，

步骤2，分别将这两个语料中的SEN-A和SEN-B转化为向量形式(embedding化)，这可以通过目前流行的文本的分布式模型，比如word2vec，doc2vec，bert。其中doc2vec和bert都有相应的办法直接得到句子的向量，而word2vec能够得到句子中每个词的向量，然后取句子中所有词向量的平均值作为该句的向量。

步骤3，得到了每一个句子的embedding之后，取embedding-a和embedding-b的平均值，即将一个句子对中A句的embedding和B句的embedding相加，再除以2，所得的结果作为这一个句子对的embedding。

步骤4，将每一个句子对的embedding和其标签匹配，得到了结构化的语料集。

步骤5，通过步骤2，就将句子对的关系判别任务转化为普通文本分类任务了，之后就能够使用机器学习分类算法或者深度学习的分类算法构建分类器，输出测试集的预测结果。

本发明采用以上技术方案，提出了中值转化模型，借助于文本的分布式模型将句子对转化为结构化数据，能够较为合理的提取文本的特征，文本句子间的相似关系，从而更有助于下游任务的处理。本发明简便易行，生成速度快，适应语料分布不平衡的场景，同时能够与各类机器学习(深度学习)方法相结合完成更复杂的任务。本发明还依据该模型进行了句子对关系判别实验，实验的效果验证了模型的有效性。

附图说明

以下结合附图和具体实施方式对本发明做进一步详细说明；

图1为本发明基于中值转化模型的句子对关系判别方法的流程示意图。

具体实施方式

如图1所示，SEN-A和SEN-B分别代表句子对中的A句和B句，embedding-a和embedding-b分别代表句子SEN-A和SEN-B的embedding(词嵌入),符号⊕代表将embedding-a与embedding-b相加。本发明公开了基于中值转化模型的句子对关系判别方法，包括以下步骤：

本发明的方法适用于结构化的文本语料。这是值，所处理的语料中每个样本是成对出现的，并且每个样本对是有标签的。假如不满足上述条件，可通过调整语料结构构建这样的数据。本专利还适用于分布不平衡的语料，其能够克服语料不平衡的负面影响。

具体的，本发明的有益效果说明如下：

本发明使用中值转化模型，在合同语料上执行二分类任务验证其效果，语料的分布情况见表1.

表1语料分布关系

	H省份合同语料	J省份的合同语料	正类样本占比
				训练集	20332个句子对	5000个句子对	6.52％
测试集	-	10309个句子对	1.92％

其中，本发明所需要判断的句子对关系：在同一标签的两个句子是否具有连续的上下文关系。本发明使用了H省份和J省份的一批合同语料，由于业务的保密需求，本发明隐去了具体的省份。

通过表1可以看出：语料数量是足够大的，并且语料正负类样本的分布是极不平衡的。

为了验证中值转化方法的有效性，对中值转化的数据使用了两者分类方法进行分类使用来验证。其中一种是多层感知机分类器，它代表了神经网络系列的分类方法，另一种是支持向量机分类器，它代表了机器学习的分类方法。其效果如表2所示。

表2分类器的效果

	支持向量机	多层感知机
			训练集	97.21％	95.35％
测试集	95.21％	91.93％

其中，表2中的具体的百分比数值是分类器在各个参数下的宏平均精确率。在支持向量机下，惩罚系数为61，核函数为“rbf”，多层感知机下，神经元数量为280，激活函数为“logistic”。

表2中所有的宏平均数值都达到了90％以上，这证明了本发明这种中值转化方法的有效性。

通过这些数据能够得到以下结论。

1)通过这种中值转化的方法，在特定结构文本上进行实验，使用了多层感知机对测试集的分类最高能够达到91.93％的宏平均精确率。使用支持向量机能够达到95.21％的宏平均精确率。这一来说明了这种中值转化方法是有效的，二来说明了这种方法具有良好的鲁棒性。

2)语料数据的训练集多达15000的样本，其中绝大多数是负类样本，正类样本只占约3％，因此这是一个极其不平衡的语料集。由于关注的是正类样本，因此使用宏平均来衡量分类器的性能，在此情况下，宏平均的最高值能达到91.93％说明本发明的分类方法能够克服语料分布不平衡的影响。

本发明采用以上技术方案，提出了中值转化模型，借助于文本的分布式模型将句子对转化为结构化数据，从而更有助于下游任务的处理。本发明还依据该模型进行了句子对关系判别实验，实验的效果验证了模型的有效性。

Claims

1.基于中值转化模型的句子对关系判别方法，其特征在于：其包括以下步骤：

步骤1，搜集所有的句子对SEN-A和SEN-B，所有的SEN-A构成一个A句的语料，所有的SEN-B构成B句的语料；

步骤2，分别将这两个语料中的SEN-A和SEN-B转化为向量形式得到各个句子对的embedding-a和embedding-b；

步骤3，得到了每个句子的embedding-a和embedding-b取平均值作为该句子对的embedding；

步骤4，将每一个句子对的embedding和其标签匹配，得到了结构化的语料集；

步骤5，以结构化的预料集使用现有成熟的机器学习分类算法或者深度学习的分类算法构建分类器，输出测试集的预测结果。

2.根据权利要求1所述的基于中值转化模型的句子对关系判别方法，其特征在于：步骤2中转化向量形式时采用word2vec、doc2vec、bert或其他文本分布式模型。

3.根据权利要求2所述的基于中值转化模型的句子对关系判别方法，其特征在于：doc2vec和bert直接得到句子的向量；word2vec得到句子中每个词的向量，然后取句子中所有词向量的平均值作为该句的向量。

4.根据权利要求1所述的基于中值转化模型的句子对关系判别方法，其特征在于：步骤3中去平均值的具体方法为：将一个句子对中A句的embedding和B句的embedding相加再除以2，所得的结果作为这一个句子对的embedding。