CN110008323B

CN110008323B - 一种半监督学习结合集成学习的问题等价性判别的方法

Info

Publication number: CN110008323B
Application number: CN201910236751.6A
Authority: CN
Inventors: 苏萌; 王然; 苏海波; 崔丙剑; 刘钰; 高体伟
Original assignee: Beijing Percent Technology Group Co ltd
Current assignee: Beijing Percent Technology Group Co ltd
Priority date: 2019-03-27
Filing date: 2019-03-27
Publication date: 2021-04-23
Anticipated expiration: 2039-03-27
Also published as: CN110008323A

Abstract

本发明公开了一种半监督学习结合集成学习的问题等价性判别的方法，包括S1、同义词归一化：1)词向量嵌入；2)词语相似度判断；3)人工判断；S2、语义等价性识别：基于LSTM的对偶网络的计算；基于CNN的对偶网络模型的计算；基于Match Pyramid模型的计算；人工提取特征。本发明通过半监督的方式生成并引入同义词，从而使得整个系统可以根据具体领域进行灵活调整，并通过集合学习四种不同模型对问题的语义等价性进行判断，从而发挥不同模型的优势。

Description

一种半监督学习结合集成学习的问题等价性判别的方法

技术领域

本发明涉及数据挖掘技术领域，具体涉及一种半监督学习结合集成学习的问题等价性判别的方法。

背景技术

智能问答系统以一问一答形式，精确的定位用户所需要的提问知识，并为用户提供个性化的信息服务。随着人工智能技术的发展，智能问答系统在银行、保险、服务、政府等行业也获得了越来越多的应用。

智能问答系统一般可以分为针对特定领域(domain specific)或一般性(generaldomain)两类。对于前者，由于准确的回答必须建立在该领域的专业知识基础上，智能问答系统一般依赖于“问题—回答”知识库。因此，如果能将等价问题通过有效的识别等价问题对等价问题进行归一，则可以大量地节省构建此类问答库所需要的投入，并可以提高对未入库问题的准确匹配。

传统的问题等价性判别方法一般采用基于关键词匹配的方式。这样的方法具有以下两方面的问题。一方面，这种方法难以描绘问题深层语义上的等价/不等价。另一方面，通过人工方式构造同义词词典需要耗费大量的时间和精力，并且难以穷尽同义词可能性。除去传统问题等价性判别方法外，基于深度学习的方法虽然在某种意义上避免了以上的问题，但是这种方法难以纳入业务上的先验知识，因此难以根据特定领域进行调整。

发明内容

针对现有技术的不足，本发明旨在提供一种半监督学习结合集成学习的问题等价性判别的方法，可以有效提高问题等价性判别的准确性和灵活性。

为了实现上述目的，本发明采用如下技术方案：

一种半监督学习结合集成学习的问题等价性判别的方法，包括如下步骤：

S1、同义词归一化：识别出目标问答系统中待进行等价性判别的两个问题中的同义词并将同义词替换为相同的词语；其中，识别同义词具体为：

1)词向量嵌入：采用CROW或者Skip-gram方法进行词向量嵌入及训练，得到两个问题的词语的词向量。

2)词语相似度判断：根据词向量嵌入得到两个问题的词语的词向量后，据此计算词语相似度，当两个词语的相似度超过设定的阈值时，判断为同义词；

3)人工判断：人工判断是否所构造的同义词当中是否有覆盖非同义词及是否有遗漏的同义词；

S2、语义等价性识别：对经过步骤S1处理的两个问题，通过集成学习判断所给定的两个问题在语义上是否等价；具体为：

2.1、基于LSTM的对偶网络的计算：

首先计算了两个问题的词语的词向量，并将每个问题的词向量分别输入到对应的LSTM网络中；然后取用LSTM网络的最终输出作为对应问题的编码结果；最后分别计算两个问题的编码结果之间的余弦距离和欧氏距离；

2.2、基于CNN的对偶网络模型的计算：

首先计算两个问题的词语的词向量，然后对每一个问题构建由卷积层和池化层构成的卷积神经网络，并将其输出作为对应问题的编码结果；在得到编码结果后，计算两个问题的编码结果之间的余弦距离和欧氏距离；

2.3、基于Match Pyramid模型的计算：

首先基于Match Pyramid模型对两个问题中的词语的词向量进行两两组合并计算各个组合的Pearson相关系数；在得到了两个问题中两两组合的词语的Pearson相关系数后，采用卷积神经网络进一步对相似度提取深度特征；最后将经过卷积神经网络提取的特征作为等价性判别的基础；

2.4、人工提取特征：

1)基本统计特征：包括两个问题的长度、两个问题的长度差、两个问题分词后的长度、两个问题分词后的长度差、两个问题共有的词语的数量；

2)基于模糊匹配的特征：包括两个问题词语完全相同的概率、词语子串相同的比率、词语去重后子串相同的比率、词语排序后子串相同的比率、词语去重后完全相同的比率、词语排序后完全相同的比率；

3)基于TF-IDF的特征：包括两个问题各自的TF-IDF值之和、两个问题各自的TF-IDF值的平均值；

4)基于词向量的特征：把两个问题的词语的词向量加和求平均得到每个问题的句向量，然后计算句向量之间的多种距离，包括句向量的余弦距离、曼哈顿距离、杰卡德相似系数、坎贝拉距离、欧氏距离、闵氏距离、Braycurtis distance；

2.5、将步骤2.1中两个LTSM网络输出的编码结果的余弦距离和欧氏距离、步骤2.2中两个卷积神经网络输出的编码结果的余弦距离和欧氏距离、步骤2.3中卷积神经网络提取的特征和步骤2.4中人工提取的特征通过全连接层结合在一起，然后通过梯度后向迭代方法直接进行训练，得到最终的判别结果。

进一步地，步骤S1中，首先使用在通用领域训练的词向量作为基础，然后选择目标问答系统所对应的语料基于Skip-Gram方法进行增量训练，从而使得最终得到的词向量能够适应目标问答系统的领域。

进一步地，步骤2)具体过程为：

2.1)去掉问题中的常用停用词；

2.2)挑选出问题中出现频率最高的词语；

2.3)计算步骤2.2)中挑选出来的词语的词向量和其他词语的词向量的Pearson相关系数，挑选Pearson系数超过预设阈值的词语作为同义词。

本发明的有益效果在于：本发明通过半监督的方式生成并引入同义词，从而使得整个系统可以根据具体领域进行灵活调整，并通过集合学习四种不同模型对问题的语义等价性进行判断，从而发挥不同模型的优势。

附图说明

图1为本发明实施例中方法流程示意图；

图2为经典RNN结构示意图。

具体实施方式

以下将结合附图对本发明作进一步的描述，需要说明的是，本实施例以本技术方案为前提，给出了详细的实施方式和具体的操作过程，但本发明的保护范围并不限于本实施例。

以下先对实施例中可能涉及的专业术语作简单解释：

问题等价性判别：等价问题为意图和语义均相等的问题。问题等价性判别为从给定问题对当中判断两问题是否等价的任务。

Word Embedding：Word embedding是一系列在语言模型和特征提取中所使用的自然语言处理技术。此项技术将字、词或短语转化为一系列向量或实数。Word embedding广泛应用于各项NLP任务，如分词、句法分析、命名实体识别等。

Siamese Network：Siamese Network(对偶神经网络)为一种特殊的神经网络架构。该网络由两部分结构相同的网络构成，一般用来生成两个实体(如图像)之间的差异。

LSTM：LSTM(Long Short-Term Memory，长短期记忆网络)，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。其通过“记忆门”和“忘记门”来控制历史信息的去留，有效解决了传统循环神经网络依梯度消失或梯度爆炸的问题。

CNN：CNN(Convolutional neural network，卷积神经网络)为一种常用的深度学习神经网络，一般由多个卷积层、池化层及全连接层构成。这种网络通过卷积运算可以提取局部的特征，因此广泛应用于图像相关人工智能任务中，如图像识别和图像检测。

MatchPyramid：一种判断两段文本相似性的方法。具体而言，该方法将两段文本中每一字、词或短语计算两两相关系数计算(基于其词向量)，从而获得两段文本的相似性度量。

集成学习(ensemble)：一种统计学或机器学习中预测性建模的方法。这种方法通过组合多个统计学或机器学习的方法获得单一模型所不具备的预测精度。

本实施例提供一种半监督学习结合集成学习的问题等价性判别的方法，如图1所示，包括如下步骤：

S1、同义词归一化：识别出目标问答系统中待进行等价性判别的两个问题中的同义词并将同义词替换为相同的词；其中，识别同义词具体为：

CROW方法根据上下文预测中心的词，而Skip-gram则根据中心的词预测周围的词语。不论是CROW方法还是Skip-gram方法，其出发点均为语义类似的词则其上下文更为接近，故而通过这两种训练方法的得到的词向量可以捕捉词语内在的语义内涵。

在本实施例中，首先使用在通用领域训练的词向量作为基础，然后选择目标问答系统所对应的语料基于Skip-Gram方法进行增量训练，从而使得最终得到的词向量能够适应目标问答系统的领域。

传统NLP方法在使用量化模型通常采用One-Hot编码。这种方法将每个词顺序编号，所以每一个词对应的编码是一个很长的向量。这样的方式具有以下两个问题。

第一，由于汉语中有大量不同的词语，所得到的向量维度很高，这不但使得计算上的效率受到很大影响，同时由于引入高维稀疏的特征，模型的准确率也容易受到影响。

第二，这种方法难以捕捉到词语之间语义的相似度。具体而言，由于不同的词语编码不同，所以任意两词之间均两两垂直。由于这种原因，语义相似的词语难以在这种编码中体现出来。

本实施例中采用词向量嵌入的方式，从宏观上来讲，词向量嵌入将文档中出现的每一个词语映射成为低维的、连续的数值向量，从而避免了“维度诅咒”。在映射的过程中，这种方法将语义上类似的词映射为相近的数值向量，从而较好的捕捉了语义上的等价问题。

2)词语相似度判断：根据词向量嵌入得到两个问题的词语的词向量后，据此计算词语相似度。具体为：

2.1)去掉问题中的常用停用词；

2.2)挑选出问题中出现频率最高的词语；

3)人工判断：人工判断是否所构造的同义词当中是否有覆盖非同义词及是否有遗漏的同义词。

采用步骤2)识别出来的同义词，仍然有可能具有一定的错误或遗漏。因此进一步引入专家知识进行人工判断。但是由于结合步骤1)和2)的处理之后，人工工作相比于纯人工标注已大量减少。

2.1、基于LSTM的对偶网络的计算

对两个问题分别构建一个LSTM网络，然后比对经过LSTM网络编码后的输出结果，并计算其相似度。具体而言，首先计算了两个问题的词语的词向量，并将每个问题的词向量分别输入到对应的LSTM网络中；然后取用LSTM网络的最终输出作为对应问题的编码结果；最后分别计算两个问题的编码结果之间的余弦距离和欧氏距离，作为等价性判别的基础。

需要说明的是，从概念上来讲，LSTM为反馈神经网络(RNN，Recurrent NeuralNetwork)的一种，这类神经网络广泛的应用于序列标注问题，如图2所示。传统的RNN相比于其他统计学模型，尤其是隐马尔可夫过程，在于RNN可以捕捉较长时间的依赖。这点对于文本处理至关重要。然而，由于RNN的这种特点，使得RNN在进行梯度反向传递时容易产生梯度消失或梯度爆炸的问题。

为了解决RNN在反向传递中梯度消失和梯度爆炸的问题，LSTM网络应运而生。具体而言，LSTM通过引入“输入门”、“输出门”、“遗忘门”机制，使得网络可以根据实际数据情况选择性的保留信息，故通过实证的方法限制了向后传递的梯度范围，从而避免了梯度爆炸或梯度消失的问题。

2.2、基于CNN的对偶网络模型的计算

首先计算两个问题的词语的词向量，然后对每一个问题构建由卷积层和池化层构成的卷积神经网络，并将其输出作为对应问题的编码结果。在得到编码结果后，计算两个问题的编码结果之间的余弦距离和欧氏距离，作为等价性判别的基础。

需要说明的是，采用LSTM网络的最终输出作为每个问题的编码结果，并以此计算问题的相似性。这样的做法可以捕捉到问题中的整体语义信息，但是对局部存在的特征可能存在捕捉不足的情况。为了弥补这个问题，在模型二中，采用了卷积神经网络(CNN)作为对偶网络的编码基础。

CNN主要由卷积层和池化层(Pooling)构成。从数学的角度而言，卷积起到的作用是对位置相邻的特征进行加权平均。一般来说，卷积层一般由多个维度相同，但取值不同的卷积核构成。这些不同的卷积核起到的作用是提取不同的目标特征。相比于传统的全连接层，卷积层的特点主要是通过共享权重，减少了需要引入的参数数量，从而克服了维度诅咒的问题。

除去卷积层外，CNN还包括池化层。一般来说，池化层位于卷积层之后，主要目的是进一步降低输出的维度。具体而言，采用了Average Pooling层，该层的功能是对前一层的输入进行局部的平均。

2.3、基于Match Pyramid模型的计算

首先对两个问题当中的词语的词向量进行两两组合并计算各个组合的Pearson相关系数，由此直接捕捉到两个问题中语义近似的词语的关系；在得到了两个问题中两两组合的词语的Pearson相关系数后，采用卷积神经网络进一步对相似度提取深度特征，即使用卷积层加上Average Pooling层；最后将经过卷积神经网络提取的特征作为等价性判别的基础。

需要说明的是，在两个模型中分别将问题输入到两种深层神经网络中，并通过其提取的特征作为判断其相似性的基础。这种方式的优点在于其可以提取较为深层的语义特征。但从另一方面来讲，问题的相似性计算仅仅应用于神经网络的输出，使得这两种方法可能难以捕捉词与词之间的相似关系。为了弥补这个问题，本实施例引入了Match Pyramid方法。

2.4、人工提取特征：

1)基本统计特征：包括两个问题的长度、两个问题的长度差、两个问题分词后的长度、两个问题分词后的长度差、两个问题共有的词语的数量；如表1所示。

表1

特征	说明
		len_q1	问题1的长度
len_q2	问题2的长度
		diff_len	问题1和问题2的长度差
len_word_q1	问题1分词后的长度
		len_word_q2	问题2分词后的长度
diff_word_len	问题1和问题2分词后的长度差
		common_word_num	问题1和问题2共有的词语数量

2)基于模糊匹配的特征：包括词语完全相同的概率、词语子串相同的比率、词语去重后子串相同的比率、词语排序后子串相同的比率、词语去重后完全相同的比率、词语排序后完全相同的比率；如表2所示。

表2

特征	说明
		fuzz_qratio	词语完全相同的比率
fuzz_partial_ratio	词语子串相同的比率
		fuzz_partial_token_set_ratio	词语去重后子串相同的比率
fuzz_partial_token_sort_ratio	词语排序后子串相同的比率
		fuzz_token_set_ratio	词语去重后完全相同的比率
fuzz_token_sort_ratio	词语排序后完全相同的比率

3)基于TF-IDF的特征

TF-IDF值与一个词语在文档中的出现次数成正比，与该词语在整个语料库中的出现次数成反比，可以很好地反映一个词语在整个句子中的重要程度。这一部分主要是基于TF-IDF值的一些相关特征，包括两个问题各自的TF-IDF值之和、两个问题各自的TF-IDF值的平均值；如表3所示。

表3

特征	说明
		tfidf_sum1	问题1的tfidf值之和
tfidf_sum2	问题2的tfidf值之和
		tfidf_mean1	问题1的tfidf值的平均值
tfidf_mean2	问题2的tfidf值的平均值

4)基于词向量的特征

通过大规模语料训练得到的词向量能够较好的表达词语之间的相似度和相关度。在本实施例中，把每个问题的词语的词向量加和求平均得到每个问题的句向量，然后计算句向量之间的多种距离，包括句向量的余弦距离、曼哈顿距离、杰卡德相似系数、坎贝拉距离、欧氏距离、闵氏距离、Braycurtis distance；如表4所示。

表4

特征	说明
		cosine_distance	句向量的余弦距离
cityblock_distance	句向量的曼哈顿距离
		jaccard_distance	句向量的杰卡德相似系数
canberra_distance	句向量的坎贝拉距离
		euclidean_distance	句向量的欧氏距离
minkowski_distance	句向量的闵氏距离
		braycurtis_distance	句向量的Braycurtis distance

深度模型能够从海量数据中自动学习数据潜在的特征，而传统的机器学习中通过人工提取的特征往往更有针对性。

对于本领域的技术人员来说，可以根据以上的技术方案和构思，给出各种相应的改变和变形，而所有的这些改变和变形，都应该包括在本发明权利要求的保护范围之内。

Claims

1.一种半监督学习结合集成学习的问题等价性判别的方法，其特征在于，包括如下步骤：

1)词向量嵌入：采用CROW或者Skip-gram方法进行词向量嵌入及训练，得到两个问题的词语的词向量；

3)人工判断：人工判断所构造的同义词当中是否有覆盖非同义词及是否有遗漏的同义词；

2.1、基于LSTM的对偶网络的计算：

2.2、基于CNN的对偶网络模型的计算：

2.3、基于Match Pyramid模型的计算：

2.4、人工提取特征：

2.根据权利要求1所述的方法，其特征在于，步骤S1中，首先使用在通用领域训练的词向量作为基础，然后选择目标问答系统所对应的语料基于Skip-Gram方法进行增量训练，从而使得最终得到的词向量能够适应目标问答系统的领域。

3.根据权利要求1所述的方法，其特征在于，步骤S1中的2)具体过程为：

2.1)去掉问题中的常用停用词；

2.2)挑选出问题中出现频率最高的词语；