CN111325029B

CN111325029B - 一种基于深度学习集成模型的文本相似度计算方法

Info

Publication number: CN111325029B
Application number: CN202010107048.8A
Authority: CN
Inventors: 苏心玥; 陶飞飞; 唐勇军; 杨泰勇; 彭新宇; 李婉婷
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2020-02-21
Filing date: 2020-02-21
Publication date: 2023-08-22
Anticipated expiration: 2040-02-21
Also published as: CN111325029A

Abstract

本发明公开了一种基于深度学习集成模型的文本相似度计算方法，包括如下步骤：采用基于双向Bi‑LSTM神经网络的进行中文分词；去停用词、纠错、同义词替换等；关键词检索；采用Word2Vec训练得到客户问题文本词向量、标准问题文本词向量；特征工程抽取；基于Siamese LSTM模型的短文本相似度计算；基于Siamese CNN模型的长文本相似度计算；基于ESIM模型的文本语义相似度计算；基于Stacking集成LSTM、CNN及ESIM模型相似度计算。本发明基于深度学习集成模型的计算方法，可以保证更高的自适应性和精确度。

Description

一种基于深度学习集成模型的文本相似度计算方法

技术领域

本发明属于自然语言处理技术领域，具体涉及一种基于深度学习集成模型的文本相似度计算方法。

背景技术

客服是企业和客户之间的纽带，承担着直接服务客户的工作，解答业务问题，处理服务纠纷，加深客户对企业的了解，增进客户与企业之间的感情等等。然而，客服工作不仅强度大，而且工作内容也比较枯燥乏味，这一工作特性使得客服人员容易产生负面情绪，进而导致客服人员流动性大、招聘管理难，最终使得客户体验效果不理想。

人工智能特别是深度学习的发展和应用，为基于文本相似度计算技术的智能客服提供了可行的技术方案。智能客服受到了金融服务业的青睐，被应用于证券、基金等各大金融企业。但是，由于语言表达的多样性和灵活性，客户提出的问题一般和知识库的标准问题有一定的差异，这给智能客服解决方案提出了巨大挑战。

深度学习作为机器学习的一种，在文本相似度计算中越来越成为研究的优选方案。但目前在文本相似度计算中，通常采用单一的深度学习模型实现，不能适应长文本、短文本不同语言情境。

发明内容

针对现有技术中单一模型无法满足文本相似度计算的适应性和精度需求，本发明提供一种基于深度学习集成模型的文本相似度计算方法，采用深度学习集成模型能够适应长文本、短文本不同客户服务场景，可以有效提高适应性和精度。

本发明采用如下技术方案：

一种基于深度学习集成模型的文本相似度计算方法，包括如下步骤：

(1)基于双向Bi-LSTM神经网络进行中文分词；

(2)去停用词、纠错、同义词替换；

(3)关键词检索；

(4)采用Word2Vec训练得到客户问题文本词向量、标准问题文本词向量；

(5)特征工程抽取；

(6)基于Siamese LSTM模型的短文本相似度计算；

(7)基于Siamese CNN模型的长文本相似度计算；

(8)基于ESIM模型的文本语义相似度计算；

(9)基于Stacking集成LSTM、CNN及ESIM模型相似度计算。

优选地，所述步骤(1)中基于双向Bi-LSTM神经网络进行中文分词的具体过程为：

步骤1：标注序列；

步骤2：双向LSTM网络预测标签；

步骤3：Viterbi算法求解最优路径。

步骤(1)采取双向编码句子，采取拼接向量用以情感分类。

优选地，所述步骤(5)中特征工程抽取的具体过程为：

步骤1：统计特征抽取；

步骤2：图特征抽取。

优选地，所述步骤(6)中基于Siamese LSTM模型的短文本相似度计算，采用欧式距离公式(1)计算文本词向量相似度：

其中，A、B为n维空间中两个点，A＝(a₁,a₂,...a_n),B＝(b₁,b₂,...,b_n)。

优选地，所述步骤(7)中基于Siamese CNN模型的长文本相似度计算的具体过程为：

步骤1：获取客户问题长文本词向量、标准问题文本词向量；

步骤2：使用CNN的不同大小卷积窗口的filter来抽取句子中各种长度元组的信息；

步骤3：使用欧式距离公式计算文本相似度。

优选地，所述步骤(8)中基于ESIM模型的文本语义相似度计算的具体过程为：

步骤1：获取客户提问问题和标准问题；

步骤2：客户提问问题的文本词序列输入到Siamese LSTM中的第一个LSTM中，标准问题输入到另一个LSTM中；

步骤3：用标准问题的语义表示对齐第一LSTM中的每个词语义表示，累加成新的句子语义存储起来；

步骤4：做句子级别的Attention对齐，使用标准问题的语义表示对存储的客户提问问题的语义表示进行对齐操作；

步骤5：使用MSE公式(2)作为损失函数得到匹配语义表示：

MSE＝exp(-||x1-x2||) (2)

步骤6：完成相似度计算。

优选地，所述步骤(9)中基于Stacking集成LSTM、CNN及ESIM模型相似度计算，具体过程为：

步骤1：获取LSTM、CNN及ESIM模型的输出作为输入；

步骤2：采用两层Stacking模型第一层的基分类器对训练集X_train进行5折交叉验证，再使用训练的模型预测X_test取均值；

步骤3：X_test均值作为第二层Stacking模型的输入，训练第二层的Stacking模型；

步骤4：通过Stacking模型的返回值用以计算文本相似度。

优选地，Stacking模型采用logistic回归作为元模型。

本发明的有益效果在于：

本发明基于深度学习和模型集成技术，提供一种基于深度学习集成模型的文本相似度计算方法，对于智能客服中用户问题文本的长短不同情况，在分词、词向量训练等问题预处理基础上，首先利用Siamese LSTM模型解决短文本相似度计算、利用Siamese CNN模型解决长文本相似度计算、利用ESIM模型解决文本语义相似度计算；其次利用Stacking集成LSTM、CNN及ESIM模型解决不同质网络模型的融合，为智能客服提供了适应性强、更加准确的文本相似度计算方法。

附图说明

图1为本发明的文本相似度计算方法总体流程示意图；

图2为本发明的基于Siamese LSTM模型处理短文本相似度计算流程示意图；

图3为本发明的基于Siamese CNN模型处理长文本输入流程示意图；

图4为本发明的基于ESIM模型的两文本的语义相似度计算流程示意图；

图5为本发明的基于Stacking集成LSTM、CNN及ESIM模型的两层结构流程示意图；

图6为本发明的基于Stacking集成LSTM、CNN及ESIM模型的具体实现方式示意图；

图7为本发明的系统架构示意图。

具体实施方式

下面结合实施例对本发明作进一步详细说明，所给出的实施例是为了说明本发明方法的技术特点和功能特点，而不是限制本发明的范围。

本发明的实施例采用来源于为维基百科以及知乎关于证券金融问题语料库(2500条)作为实验数据，用于语义相似度的深度学习模型的预训练的词文件，用于计算两个语句中疑问词相似度的规则文件等。

部分实验数据

本发明使用TensorFlow机器学习框架建立神经网络模型，通过Word2Vec训练词向量，特征工程采取选取了统计特征、图特征作为机器学习特征模拟，判断短文本输入Siamese LSTM模型，判断长文本输入Siamese CNN模型，并且将模糊问、标准问输入ESIM模型进行语义计算，最后通过Stacking集成的模型完成文本相似度计算。模型参数设置中采用自适应算法加速学习效率，建立dropout随机失活神经网络正则化处理，防止过度拟合。

如图1，基于Stacking集成Siamese LSTM、Siamese CNN、ESIM模型的证券文本相似度计算的流程主要包括：

(1)基于双向Bi-LSTM神经网络，对证券问答库进行中文分词；

算法的主要步骤为：标注序列；双向LSTM网络预测标签；Viterbi算法求解最优路径；

采取双向编码句子，采取拼接向量用以情感分类。对于证券领域的模糊提问，例如提问“我很想知道是不是A股的上市到底可不可以拿来让我去开一个户？”这样的非专业歧义特殊提问，采用双向编码可以捕捉句子的依赖关系分词，具有双向的情感定义判断，分词可以得到关键信息点为“A股”，“上市”，“开户”。从而更好地服务于文本相似度计算。

(2)去停用词、纠错、同义词替换；

(3)检索证券、金融、经济相关关键词；

(5)特征工程抽取；抽取统计特征、图特征作为机器学习特征模拟；

统计特征抽取包括：a.两个语句上的长度差距；b.两个语句的编辑距离；c.两个语句的n-gram相似性的特征；d.两个语句的词的统计特征，包括相同词的个数，不同词的个数，Jaccard相似度；e.根据疑问词相似度规则文件计算两个语句疑问词的相似度；f.检测是否符合证券金融的相关性；

图特征抽取工作为词向量建立连通图，设置客户问为q1,标准问为q2。本算法中的数据增强原则：如果q1，q2相似，且q1,q2在同一个连通图，则连通图的问题都相似。如果q1,q2不相似，且存在连通图cc1包含q1，和cc2包含q2，则cc1和cc2的任意组合均不相似。利用图特征来做数据增强，获取更多的训练数据，从而使得模型的精度和准确度更高。

(6)基于Siamese LSTM模型的短文本相似度计算；

如图2，基于Siamese LSTM模型的短文本相似度计算的具体技术方案：

1)本模型算法是LSTM输入为句子对，分别对应左边和右边；

2)通过final state获取两个句子的向量，然后通过指数函数衡量差异，由于指数函数的指数为一阶范数的负数，所以取值范围为(0,1]；

3)在构建样本的时候，给句子对打分为1～5分，再通过一个非参数化的回归层映射到这个区间，用MSE作为损失函数，梯度优化方法为AdaDelta；

4)为了训练更长的记忆能力，在本模型中设置权重参数初始化为随机的高斯分布参数，然后cell中忘记门的偏置值初始化设置根据训练集设置，在本算法中设置units：50，desen：128，dropout：0.75；

5)通过本模型欧式距离公式(1)计算出文本相似度，输出标准回答。

(7)基于Siamese CNN模型的长文本相似度计算；

如图3，基于Siamese CNN模型的长文本相似度计算的具体技术方案：

1)CNN在实现文本相似度分析一共分为四层，分别是输入层，卷积层，池化层和输出层；

2)文本分析主要是通过判断词语之间的相似度来实现句子的相似度；

3)模型使用了不同大小卷积窗口的filter来抽取句子中各种长度元组的信息，然后再计算相似度；

4)具体步骤包括：获取客户问题长文本词向量、标准问题文本词向量；使用CNN的不同大小卷积窗口的filter来抽取句子中各种长度元组的信息；使用欧式距离公式计算文本相似度；

5)例如句子中的为200维度向量，128词编辑长度，drop设置为0.2,3次的合并处理神经网络层计算得到相似度返回标准问题文本。在给定的数据集中，通过训练相应的词向量维度，合理设置卷积层，池化层的相关参数，采用自适应的优化算法处理。

(8)基于ESIM模型的文本语义相似度计算；

如图4，基于ESIM模型的文本语义相似度计算的具体技术方案：

1)采用ESIM模型用以做两文本的语义相似度计算；

2)引用Attention机制：Attention机制相当于人脑识别的过程，训练的语料为【客户提问文本，标准问题文本，score】，客户提问问题的文本词序列输入到Siamese LSTM中的第一个LSTM中，标准问题输入到另一个LSTM中，然后用标准问题的语义表示对齐第一LSTM中的每个词语义表示，累加成新的句子语义存储起来；

3)做句子级别的Attention对齐，使用标准问题的语义表示对存储的客户提问问题的语义表示进行对齐操作；

4)求加权平均值得到最后的匹配语义表示；

5)输出打分值：exp(-||x1-x2||₁),用MSE作为损失函数训练完成；

6)通过打分值返回相应的客户提问对应的标准文本。

(9)基于Stacking集成LSTM、CNN及ESIM模型相似度计算。

两层Stacking如如图5，具体实现方式如图6，基于Stacking集成LSTM、CNN及ESIM模型相似度计算的具体技术方案：

1)采用Stacking训练模型集成LSTM、CNN及ESIM模型；

2)以训练好的LSTM、CNN及ESIM模型的输出为输入来训练模型；

3)Stacking设置为两层，使用单层logistic回归作为组合模型；

4)采用两层Stacking模型第一层的基分类器对训练集X_train进行5折交叉验证，再使用训练的模型预测X_test取均值；

5)X_test均值作为第二层Stacking模型的输入，训练第二层的Stacking模型；

6)通过Stacking模型的返回值用以计算文本相似度。

本发明对于证券金融话题语料库的数据处理方式为将测试集的原始文本信息编码成单字ID序列和词语ID序列，并且通过word2vec训练出300维的word_embedding(词嵌入)和char_embedding(字符嵌入)。训练数据包含3列，label，q1，q2，其中q1和q2表示要判断的两个问题，label＝1表示是相同的问题，label＝0表示不同的问题。本发明要解决的是判断模糊问、标准问对应的两问题是否符合为相同的问题。通过对测试集模糊问标准问打分(0代表问题无关，1代表问题相关)，与实际0,1分配做对比分析。

本发明利用基于Siamese LSTM进行(欧式距离)相似度计算分析短文本输入，基于Siamese CNN模型进行长文本输入处理，基于ESIM进行文本语义计算。考察文本相似度大于0.6的情况之下，本发明集成模型与其他三个模型对文本相似度计算进行对比分析。

本发明集成模型采用LSTM处理模糊问汉字小于10长度的测试集，采用CNN处理输入语句大于20汉字的语句,语义相似度计算模型采用ESIM引入attention机制做语义相似度计算。采用网络模型具体如表1所示。

表1 LSTM，CNN，ESIM模型

网络模型	网络层数
		ESIM	2
CNN	7
		LSTM	2

本发明集成模型计算召回率为0.9176，准确率为0.8813，F1值为0.8991。集成模型与其他模型对比分析具体如表2所示。

表2 集成模型与LSTM，CNN，ESIM模型对比分析表

如图7，结合附图对实施例进行原型系统分析：

本发明方法装置系统采用django框架结构开发智能客服移动web，总体开发为三层架构：

(1)前端交互层：展现给用户的手机界面；主要提供用户的注册、登录、修改密码页面，首页，知识详情页，智能客服页等，主要进行系统与用户的交互，以给用户提供智能客服服务及收集用户行为与信息。

(2)业务逻辑层：针对具体问题的操作，对数据层的操作，对数据业务逻辑处理；主要包括系统逻辑信息的处理，接受用户的提问，并对用户提问给出相应的回答，以及相应回答的标准问，用户个人问题的推荐，热门问题推送，及热门词汇的展示。

(3)数据存储层：该层所做事务直接操作数据库，为了数据的安全，私密性，只有获得权限的管理员才能对数据库进行操作，包括对数据的增添、删除、修改、更新、查找等。主要包括对用户信息数据库与问题信息数据库的管理与操作。

Claims

1.一种基于深度学习集成模型的文本相似度计算方法，其特征在于，包括如下步骤：

(1)基于双向Bi-LSTM神经网络进行中文分词；

(2)去停用词、纠错、同义词替换；

(3)关键词检索；

(5)特征工程抽取；

(6)基于Siamese LSTM模型的短文本相似度计算；

(7)基于Siamese CNN模型的长文本相似度计算；具体过程为：

步骤71：获取客户问题长文本词向量、标准问题文本词向量；

步骤72：使用CNN的不同大小卷积窗口的filter来抽取句子中各种长度元组的信息；

步骤73：使用欧式距离公式计算文本相似度；

(8)基于ESIM模型的文本语义相似度计算；具体过程为：

步骤81：获取客户提问问题和标准问题；

步骤82：客户提问问题的文本词序列输入到Siamese LSTM中的第一个LSTM中，标准问题输入到另一个LSTM中；

步骤83：用标准问题的语义表示对齐第一LSTM中的每个词语义表示，累加成新的句子语义存储起来；

步骤84：做句子级别的Attention对齐，使用标准问题的语义表示对存储的客户提问问题的语义表示进行对齐操作；

步骤85：使用MSE公式(2)作为损失函数得到匹配语义表示：

MSE＝ exp(-||x1 - x2||) (2)

步骤86：完成相似度计算；

(9)基于Stacking集成LSTM、CNN及ESIM模型相似度计算；具体过程为：

步骤91：获取LSTM、CNN及ESIM模型的输出作为输入；

步骤92：采用两层Stacking模型第一层的基分类器对训练集X_train进行5折交叉验证，再使用训练的模型预测X_test取均值；

步骤93：X_test均值作为第二层Stacking模型的输入，训练第二层的Stacking模型；

步骤94：通过Stacking模型的返回值用以计算文本相似度。

2.根据权利要求1所述的基于深度学习集成模型的文本相似度计算方法，其特征在于，所述步骤(1)中基于双向Bi-LSTM神经网络进行中文分词的具体过程为：

步骤1：标注序列；

步骤2：双向LSTM网络预测标签；

步骤3：Viterbi算法求解最优路径。

3.根据权利要求2所述的基于深度学习集成模型的文本相似度计算方法，其特征在于，采取双向编码句子，采取拼接向量用以情感分类。

4.根据权利要求1所述的基于深度学习集成模型的文本相似度计算方法，其特征在于，所述步骤(5)中特征工程抽取的具体过程为：

步骤1：统计特征抽取；

步骤2：图特征抽取。

5.根据权利要求1所述的基于深度学习集成模型的文本相似度计算方法，其特征在于，所述步骤(6)中基于Siamese LSTM模型的短文本相似度计算，采用欧式距离公式(1)计算文本词向量相似度：

6.如权利要求1所述的基于深度学习集成模型的文本相似度计算方法，其特征在于，Stacking模型采用logistic回归作为元模型。