CN110826337A

CN110826337A - 一种短文本语义训练模型获取方法及相似度匹配算法

Info

Publication number: CN110826337A
Application number: CN201910949434.9A
Authority: CN
Inventors: 王慧琴; 李雨楠; 张泽圣
Original assignee: Xian University of Architecture and Technology
Current assignee: Xian University of Architecture and Technology
Priority date: 2019-10-08
Filing date: 2019-10-08
Publication date: 2020-02-21
Anticipated expiration: 2039-10-08
Also published as: CN110826337B

Abstract

本发明公开了一种短文本语义训练模型获取方法及相似度匹配算法，将FastText词向量和改进的词加权TF‑IDF相结合作为正向和反向LSTM神经网络的输入，主要包括以下步骤：首先根据FastText中的N‑gram模型构建训练文本的词典集合模型，然后引入词加权的TF‑IDF模型，将构建的模型作为下一层神经网络的输入，训练语句相似度，用项目合作公司提供的测试数据对该模型进行验证，试验结果表明，本发明满足文本语义相似度匹配。

Description

一种短文本语义训练模型获取方法及相似度匹配算法

技术领域

本发明属于自然语言处理领域，涉及一种短文本语义训练模型获取方法及相似度匹配算法。

背景技术

在全新互联网时代提出的设想和建设中，互联网将理解用户需求并为之提供服务，而智能问答也成为一大研究热点，它结合了多种人工智能技术，提供给用户良好、便捷的操作体验，快速、准确地回答用户的咨询问题。语句相似度计算在自然语言处理的各个领域中都有非常重要且实际的意义，如文本挖掘，机器翻译等，因此它成为智能问答中的核心技术之一。在智能问答系统中，需要将用户所提出的问题与标准FAQ之间进行语义相似度匹配，并且在标准FAQ中匹配出最准确的答案，返回给用户。

目前语句相似度计算的主要方法有：基于字面匹配的方法、基于知识库的语义匹配的方法、基于语义分析的概率主题模型匹配的方法和基于训练样本库的语义相似度匹配方法。这些方法目前所存在的主要问题有：1)仅仅是简单的将文本表示为向量，不具有语义信息，还需要人工设定停用词训练样本库。2)需要许多NLP资源如词性标注、词法数据库，词语列表等，因此许多语言由于资源不足而仍处于发展阶段。3)没有考虑到词与词之间的位置关系，受样本种类限制较大。4)没有利用全局信息进行向量表示。

发明内容

针对现有技术中的缺陷和不足，本发明提供了一种短文本语义训练模型获取方法及相似度匹配算法，解决了现有技术中存在的上述问题。采取对用户输入的问题或者候选问句按照2-gram格式进行组合，根据改进的TF-IDF对于重点词向量进行加权，并且通过正向和反向LSTM模型从正反两个方向对语句进行语义学习，然后通过softmax函数将用户问句与已知文本进行相似度计算并转换为后验概率，从而反馈给用户准确的答案。

为达到上述目的，本发明采取如下的技术方案：

本发明提供一种短文本语义训练模型获取方法，该方法根据FastText获取训练样本库的向量，融合词加权改进型TF-IDF算法，通过正向和反向LSTM神经网络进行训练样本库的特征向量的获取，通过概率函数计算得到训练样本的语义特征向量表示的训练模型；该方法具体包括如下步骤：

步骤a1，对训练样本库进行预处理：将训练样本库按照字粒度分割，以空格作为分隔符；

步骤a2，通过FastText获取训练样本库的向量：将预处理后的训练样本库输入到加入了N-gram特征的FastText中训练；

步骤a3，通过词加权改进型TF-IDF算法得到训练样本库中每句话的词权重，将词权重与步骤二所得到的向量进行融合，得到改进的训练样本的向量；

步骤a4，将步骤3得到的向量化后的训练样本进行句子语义特征提取，连接正向和反向LSTM神经网络，从正向和反向分别提取特征向量；

步骤a5，将提取的正向和反向的特征向量进行聚合；

步骤a6，将聚合的特征向量通过池化层和Dropout层操作获取新的特征向量，其中，Dropout层用于防止由于参数过多或者训练样本少的过拟合情况出现；

步骤a7，将新的特征向量进行全连接，通过概率函数计算得到训练样本的语义特征向量表示的训练模型。

本发明还包括如下技术特征：

具体的，虽然FastText的词向量考虑到了词序的问题，但是没有考虑到词的重要程度，因此需要考虑特征词在整个训练样本库中出现的总频率，而且还得衡量词语在不同类别的分布情况；所以加入词加权改进型TF-IDF算法通过以下公式(1)实现：

其中，s_i表示特征词w_i的词加权，tf_i,j表示特征词w_i在语句d_j出现的频率，idf_i代表词语w_i在语句d_j出现的逆频率，|D|为文本总数，分母为在语句d_j包含t_i的文本数；如果特征词w_i在某些训练样本t_i中为高频词，但在整个训练文本中是低频词，那么w_i对应的s_i可以在问句中被分配为高权重；

将训练样本表示为S：

其中S的第i行表示训练样本中第i个词语所对应的m维向量。

具体的，所述步骤a4中进行句子语义特征提取得到句子语义特征提取层，连接正反两个LSTM神经网络，从正向和反向分别提取特征向量，实现正向和反向获取文本序列，从而增强深层捕获文本语义信息的能力，正向和反向LSTM神经网络的输入一致，输出向量分别为和

Ct作为当前t时刻正向和反向LSTM神经网络的输入，具体公式如下：

其中，

分别表示为正向和反向LSTM神经网络的正向、反向传播；经过正向和反向LSTM层后，通过词嵌入层的文本向量变为以下结构：

具体的，将正向和反向LSTM层的正向传播输出向量与反向传播输出向量进行聚合向量拼接，公式表示如下：

具体的，所述步骤a6中：将聚合层后的数据的特征值通过池化操作获取新的特征，从变长句子中抽取固定长度的维数，以达到过滤噪声和降低特征维度以及数据稀疏性对于输出层的影响；由于问答语句的长度有限，文本中的每一个关键词都会对宏观语义表达有影响，所以本发明采用平均池化操作；平均池化考虑每一个方面的局部信息，即对某一范围内的所有神经元值取平均，以减少信息丢失，同时加入Dropout方法舍弃部分神经元，可以有效的缓解过拟合的发生，公式表示如下：

其中，S_t为池化层后的新向量，B_t为聚合拼接后的向量，T为训练训练样本库中的文本总数。

具体的，所述步骤a7中：将步骤a6得到的新的特征向量的输出作为输入到全连接层，把训练样本的全部特征进行集合，最终用于相似度匹配的特征向量S具体公式如下：

本发明还提供一种短文本语义相似度匹配算法，该方法根据FastText获取测试样本的向量，融合词加权改进型TF-IDF算法，通过正向和反向LSTM神经网络进行测试样本的特征向量的获取，将权利要求1至6任一权利要求所述的基于深度学习的短文本语义训练模型载入测试样本的特征向量，根据用户输入的训练样本的向量S_i与测试样本的向量Q_i中已知的类别向量进行语义向量相似度计算；该方法具体包括如下步骤：

步骤b1，将测试样本进行预处理，以空格为分隔符对样本进行字粒度分割；

步骤b2，通过FastText中的N-gram特征表示得到测试样本的向量，通过词加权改进的TF-IDF算法提取文本的向量表示；

步骤b3，根据步骤b2，将测试样本分别表示为Q：

其中Q的第i行表示测试样本中第i个词语所对应的m维向量；

步骤b4，将步骤b3得到的向量化后的测试样本进行句子语义特征提取，连接正反两个LSTM神经网络，从正向和反向分别提取特征向量；

步骤b5，将提取的正向和反向的特征向量进行聚合；

步骤b6，将聚合的特征向量通过池化层和Dropout层操作获取新的特征向量，并且加入Dropout层防止由于参数过多或者样本少的过拟合情况；

步骤b7，将新的特征向量进行全连接，通过概率函数计算得到测试样本的语义特征向量表示；

步骤b8，将训练模型载入步骤b7得到的测试样本的语义特征向量中；

步骤b9，根据用户输入的测试样本的向量Q_i与训练样本的向量S_i中已知的类别向量进行语义向量相似度计算：

其中distance(S_i,Q_i)为计算S_i,Q_i之间的距离；最后输出层通过softmax函数将实数向量的相似性转换成条件概率分布，得到归一化的概率值，将概率值从大到小进行降序排列，选取(1-k)个候选值。

根据候选值对应的类别与标准FAQ中的类别进行比对，从而抽出候选值对应的答案。

本发明与现有技术相比，有益的技术效果是：

(1)本发明采用FastText训练以字粒度为基本单位的文本向量，由于FastText加入了N-gram的特征，因此它的优点是①将用户随机提出的问题中训练样本没有包含的新词汇可以通过字符级的N-gram表示出它的向量。②它可以让模型学习到局部词语顺序的部分信息。③可以将罕见的词汇生成更好的词向量，从而改善了用户问句文本短，语义特征少的缺点。

(2)本发明将引入改进的TF-IDF，为了改进传统的TF-IDF只考虑到特征词在整个训练文本中出现的总频率，而未考虑特征词在不同类别中的分布，从而丢失特征词的判别的情况。如果特征词在某些训练样本中为高频词，但在整个训练文本中是低频词，那么就可以在问句中可以被分配为高权重。

(3)本发明引入正向和反向LSTM神经网络，由于传统的LSTM模型是以文本正向序列的进行语义信息学习，然而忽略了来自反向序列信息对文本的影响，因此，本发明模型框架的基础是正向和反向LSTM神经网络，是将两个LSTM单向神经网络叠加在一起形成的，在每一个时刻，输入会同时提供给两个相反的LSTM，此方法更有利于从整体上捕捉句子的长依赖关系，文本的深层语义表达并且可以有效地保持较长时间的记忆。

附图说明

图1为本发明实施例计算句子向量的流程图；

图2为本发明实施例模型结构图；

图3为均值池化层示意图。

具体实施方式

本发明公开了一种基于深度学习的短文本语义训练模型获取方法及相似度匹配算法，将FastText词向量和改进的词加权TF-IDF相结合作为正向和反向LSTM(Bidirectional Long Short-Term Memory，长短期记忆网络)的输入，主要包括：输入层、嵌入层、正向和反向LSTM层、聚合层、池化层+Dropout层、全连接层和输出层。主要步骤如下：首先根据FastText中的N-gram模型构建训练文本的词典集合模型，然后引入词加权的TF-IDF模型，将构建的模型作为下一层神经网络的输入，训练语句相似度，用项目合作公司提供的测试数据对该模型进行验证。试验结果表明，本发明满足文本语义相似度匹配。

以下给出本发明的具体实施例，需要说明的是本发明并不局限于以下具体实施例，凡在本申请技术方案基础上做的等同变换均落入本发明的保护范围。下面结合实施例对本发明做进一步详细说明。

实施例1：

本实施例给出一种基于深度学习的短文本语义获取方法及相似度匹配算法，图1为本发明实施例计算句子向量的流程图；图2为本发明实施例基于深度学习的短文本语义获取方法结构图；该方法根据FastText获取训练样本库的向量，融合词加权改进型TF-IDF算法，通过正向和反向LSTM神经网络进行训练样本库的特征向量的获取，通过概率函数计算得到训练样本的语义特征向量表示的训练模型；该方法具体包括如下步骤：

步骤a5，将提取的正向和反向的特征向量进行聚合；

步骤a3中，虽然FastText的词向量考虑到了词序的问题，但是没有考虑到词的重要程度，因此需要考虑特征词在整个训练样本库中出现的总频率，而且还得衡量词语在不同类别的分布情况；所以加入词加权改进型TF-IDF算法通过以下公式(1)实现：

将训练样本表示为S：

其中S的第i行表示训练样本中第i个词语所对应的m维向量。

步骤a4中进行句子语义特征提取得到句子语义特征提取层，连接正反两个LSTM神经网络，从正向和反向分别提取特征向量，实现正向和反向获取文本序列，从而增强深层捕获文本语义信息的能力，正向和反向LSTM神经网络的输入一致，输出向量分别为

和

其中，

步骤a5中，将正向和反向LSTM层的正向传播输出向量与反向传播输出向量进行聚合向量拼接，公式表示如下：

步骤a6中：将聚合层后的数据的特征值通过池化操作获取新的特征，从变长句子中抽取固定长度的维数，以达到过滤噪声和降低特征维度以及数据稀疏性对于输出层的影响；由于问答语句的长度有限，文本中的每一个关键词都会对宏观语义表达有影响，所以本发明采用平均池化操作；平均池化考虑每一个方面的局部信息，即对某一范围内的所有神经元值取平均，以减少信息丢失，同时加入Dropout方法舍弃部分神经元，可以有效的缓解过拟合的发生，公式表示如下：

步骤a7中：将步骤a6得到的新的特征向量的输出作为输入到全连接层，把训练样本的全部特征进行集合，最终用于相似度匹配的特征向量S具体公式如下：

实施例2：

本实施例提供了一种短文本语义相似度匹配算法，该方法根据FastText获取测试样本的向量，融合词加权改进型TF-IDF算法，通过正向和反向LSTM神经网络进行测试样本的特征向量的获取，将实施例1的基于深度学习的短文本语义训练模型载入测试样本的特征向量，根据用户输入的测试样本的向量Q_i与训练样本的向量S_i中已知的类别向量进行语义向量相似度计算；该方法具体包括如下步骤：

步骤b3，根据步骤b2，将测试样本分别表示为Q：

其中Q的第i行表示测试样本中第i个词语所对应的m维向量；

步骤b5，将提取的正向和反向的特征向量进行聚合；

本实施例对在问答系统中文本长度较短，受样本种类限制以及现有的语句相似度匹配方法不能充分捕捉句子的语义结构特征信息这些问题有针对性的来训练神经网络，通过设置向量维数，神经网络学习率以及迭代次数使神经网络更加适用于当前的场景，有利于在不同场景中有针对性的建立文本语义相似度模型。

按照本实施例的方法，与现有的文本相似度计算方法进行比较：

分别采用本实施例的方法，以及现有的TF-IDF-LDA，Word2vec-LSTM，Doc2vec-LSTM的方法，通过输入相同的训练文本进行训练，并使用以下的四组航空数据进行测试，具体结果如下表1：

表1测试结果

通过表1的计算结果可以看出，本发明实施例的准确率最高，并且相似与不相似的区分率也最高，更加符合实际应用情况。

证明例1：

根据证明例1的条件下，通过本实施例的方法，以及现有的TF-IDF-LDA，Word2vec-LSTM，Doc2vec-LSTM的方法，针对项目合作方提供的1万余条真实的航空客服数据进行测试，得到的计算结果如表2所示，评价指标为精确率、召回率、以及F1值，其中μ＝0.75，μ＝0.85，μ＝0.95为本实例设置的阈值：

表2精确率、召回率以及F1值的对比结果

根据表2计算结果，运用本实例的方法从精确率和召回率都优于目前存在的算法，并且通过F1的值，可以看出本实例更加稳定。因此充分说明本实例可以更精确的表示文本的语义信息。

Claims

1.一种短文本语义训练模型获取方法，其特征在于，该方法根据FastText获取训练样本库的向量，融合词加权改进型TF-IDF算法，通过正向和反向LSTM神经网络进行训练样本库的特征向量的获取，通过概率函数计算得到训练样本的语义特征向量表示的训练模型；该方法具体包括如下步骤：

步骤a5，将提取的正向和反向的特征向量进行聚合；

2.如权利要求1所述的短文本语义训练模型获取方法，其特征在于，所述步骤a3中，虽然FastText的词向量考虑到了词序的问题，但是没有考虑到词的重要程度，因此需要考虑特征词在整个训练样本库中出现的总频率，而且还得衡量词语在不同类别的分布情况；所以加入词加权改进型TF-IDF算法通过以下公式(1)实现：

将训练样本表示为S：

其中S的第i行表示训练样本中第i个词语所对应的m维向量。

3.如权利要求1所述的短文本语义训练模型获取方法，其特征在于，所述步骤a4中进行句子语义特征提取得到句子语义特征提取层，连接正反两个LSTM神经网络，从正向和反向分别提取特征向量，实现正向和反向获取文本序列，从而增强深层捕获文本语义信息的能力，正向和反向LSTM神经网络的输入一致，输出向量分别为

和

其中，

4.如权利要求1所述的短文本语义训练模型获取方法，其特征在于，所述步骤a5中，将正向和反向LSTM层的正向传播输出向量与反向传播输出向量进行聚合向量拼接，公式表示如下：

5.如权利要求1所述的短文本语义训练模型获取方法，其特征在于，所述步骤a6中：将聚合层后的数据的特征值通过池化操作获取新的特征，从变长句子中抽取固定长度的维数，以达到过滤噪声和降低特征维度以及数据稀疏性对于输出层的影响；由于问答语句的长度有限，文本中的每一个关键词都会对宏观语义表达有影响，所以本发明采用平均池化操作；平均池化考虑每一个方面的局部信息，即对某一范围内的所有神经元值取平均，以减少信息丢失，同时加入Dropout方法舍弃部分神经元，可以有效的缓解过拟合的发生，公式表示如下：

6.如权利要求1所述的短文本语义训练模型获取方法，其特征在于，所述步骤a7中：将步骤a6得到的新的特征向量的输出作为输入到全连接层，把训练样本的全部特征进行集合，最终用于相似度匹配的特征向量S具体公式如下：

7.一种短文本语义相似度匹配算法，其特征在于，该方法根据FastText获取测试样本的向量，融合词加权改进型TF-IDF算法，通过正向和反向LSTM神经网络进行测试样本的特征向量的获取，将权利要求1至6任一权利要求所述的基于深度学习的短文本语义训练模型载入测试样本的特征向量，根据用户输入的测试样本的向量Q_i与训练样本的向量S_i中已知的类别向量进行语义向量相似度计算；该方法具体包括如下步骤：

步骤b3，根据步骤b2，将测试样本分别表示为Q：

其中Q的第i行表示测试样本中第i个词语所对应的m维向量；

步骤b5，将提取的正向和反向的特征向量进行聚合；

其中dis tan ce(S_i,Q_i)为计算S_i,Q_i之间的距离；最后输出层通过softmax函数将实数向量的相似性转换成条件概率分布，得到归一化的概率值，将概率值从大到小进行降序排列，选取(1-k)个候选值。