CN111368058B

CN111368058B - 一种基于迁移学习的问答匹配方法

Info

Publication number: CN111368058B
Application number: CN202010159530.6A
Authority: CN
Inventors: 苏磊; 张顺
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2023-05-02
Anticipated expiration: 2040-03-09
Also published as: CN111368058A

Abstract

本发明涉及一种基于迁移学习的问答匹配方法，属于信息检索技术领域。本发明首先将不同领域的问答数据集进行预处理、采用word2vec模型训练多领域共通常用的问答对的词向量，其次选择深度学习模型双向长短期记忆网络模型作为基础的神经网络，随机初始化BiLSTM模型的参数，利用Word2vec初始化该模型的embedding层的参数，在源域数据集上预训练该答案选择模型，保存该模型的参数，其次选定初始化目标域的数据集，在目标域上模型中，将源域的模型中的参数迁移到目标域模型中，用该数据集训练和微调该模型。BiLSTM模型计算问题和候选答案的向量表示，最后采用余弦相似度计算问题与候选答案的相似度，选出该问题的最佳答案。

Description

一种基于迁移学习的问答匹配方法

技术领域

本发明涉及一种基于迁移学习的问答匹配方法，属于信息检索技术领域。

背景技术

随着互联网的普及，互联网信息的不断增长，网络上充斥着越来越多的冗余信息，因此用户在互联网上搜索所需的信息无疑是在“大海捞针”，近年来随着搜索引擎的版本更新，在很大程度上降低了用户查找信息的难度，但这类搜索引擎依旧存在一定的缺陷与不足。这类的搜索引擎返回用户查询的结果太多，难以快速定位到所需信息；其搜索模式都是基于关键词精准匹配来查找相关信息的方式，难以用少量关键词准确表达用户的查询意图；缺乏对搜索用户查询语句的理解，其按相关度返回网页，检索到的答案仍需要用户的手动筛选，用户如果要得到自己真正所需要的信息，还需要再进一步手工去点击链接，重新定位。

智能问答系统改变传统搜索引擎返回超链接的方式，直接理解用户的自然语言问题和意图，快速、准确地直接给予文本答案，提高了用户查找效率，改善了信息检索的用户体验。但在特定领域的问答匹配任务中，由于数据来源有限、人工标注样本的成本和难度过高，只能获取到少量的标注数据样本，使得在标注数据样本少量的情况下难以获得较高的问答匹配准确率，因此利用迁移学习方法来提高问答匹配准确率具有重要意义。

发明内容

本发明要解决的技术问题是提供一种基于迁移学习的问答匹配方法，主要解决在特定领域的问答匹配任务中，由于数据来源有限、人工标注样本的成本和难度过高，只能获取到少量的标注数据样本，使得在标注数据样本少量的情况下难以获得较高的问答匹配准确率的缺陷，充分利用迁移学习和深度学习相结合，更快、更好地为用户提供更合理、准确的文本答案。

本发明的技术方案是：一种基于迁移学习的问答匹配方法，具体步骤为：

Step1：将源领域数据集中的问题及候选答案集进行预处理，预处理包括但不限于分词和词向量训练，得到问题及候选答案的词向量；

Step2：将Step1中的问题和候选答案的词向量作为输入送入深度学习模型中，在深度学习模型中使用BiLSTM对其进行编码，生成问题特征向量和候选答案特征向量以及保存训练参数；

Step3：将目标域数据集中的问题以及候选答案集进行与Step1相同的预处理操作，得到词向量；然后将目标域数据集词向量作为输入送入深度学习模型中，在目标域采用与Step2相同的模型进行编码，之后将Step2中保存的源域模型参数迁移到目标域的训练模型当中，作为目标域训练模型的初始化参数进行目标域数据集训练；

Step4：生成目标域中问题与候选答案的特征向量，通过余弦相似度计算问题与候选答案的相似度，相似度分数最高的，则作为该问题的最佳答案反馈给用户。

进一步地，将所述Step1和所述Step3中得到的问题及候选答案的词向量分别组成问答对，再将问答对进行分词，去除停用词操作，最后使用表示学习方法对其进行向量化表示。这里主要通过加载word2vec词向量进行训练从而得到问答对的词向量表示。

进一步地，所述Step3将Step2得到的问答对向量作为输入送入深度学习模型中，模型会使用BiLSTM对其进行编码，然后使用源领域中参数迁移到目标域的训练模型中，作为目标域的初始化训练参数进行训练，通过门控的方法选择出与问题相关的候选答案输入，并且得到问题和答案的向量表示，最后通过计算问题和答案的向量表示的余弦相似度，最终选择相似度得分最高的答案作为该问题的最终答案。

本发明的有益效果是：本发明使用深度学习(BiLSTM)与迁移学习(参数迁移)相结合的方法，能够解决特定问答匹配任务中由于标注样本数据不足而难以获得较高的问答匹配准确率的问题，能够为用户获得更准确的文本答案，提高问答匹配任务中检索答案的质量，在一定程度上改善了用户使用体验。

附图说明

图1是本发明迁移学习的问答匹配流程图；

图2是本发明典型深度模型在问答匹配中的一般框架示意图；

图3是本发明步骤流程图；

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1：如图1-3所示，一种基于迁移学习的问答匹配方法，首先将不同领域的问答数据集进行预处理、采用word2vec模型训练多领域共通常用的问答对的词向量，其次选择深度学习模型双向长短期记忆网络(BiLSTM)模型作为基础的神经网络，随机初始化BiLSTM模型的参数，利用Word2vec初始化该模型的embedding层的参数，在源域数据集上预训练该答案选择模型，保存该模型的参数，其次选定初始化目标域的数据集，在目标域上模型中，将源域的模型中的参数迁移到目标域模型中，用该数据集训练和微调该模型。BiLSTM模型计算问题和候选答案的向量表示，最后采用余弦相似度计算问题与候选答案的相似度，选出该问题的最佳答案。

具体步骤为：

进一步地，将所述Step1和所述Step3中得到的问题及候选答案的词向量分别组成问答对，再将问答对进行分词，去除停用词操作，最后使用表示学习方法对其进行向量化表示。这里主要通过加载word2vec词向量进行训练从而得到问答对的词向量表示。所述Step1和所述Step3中问答数据集来源于IT知识问答网站Segment Faults数据集，问答对数据数量约为55000条，豆瓣电影以及从百度问答爬取的问答语料，约为43214条。

进一步地，所述Step3的具体步骤为：

Step3.1：将Step2得到的源领域数据集的问答对向量表示作为InputModole的输入，使用BiLSTM读入问答对向量，得到隐藏状态为：

h_t＝BiLSTM(x_t,h_t-1) (1)

其中，x_t＝L[w_t]，L是embedding matrix，w_t是问答序列时刻t的词语，h_t是t时刻的隐藏状态，h_t＝LSTM(x_t,h_t-1)表示当前的隐藏状态由前一个隐藏状态和当前的输入x_t计算得到，x_t表示输入的问答对的向量表示，其中LSTM的定义为：

z_t＝σ(W^(z)x_t+U^(z)h_t-1+b^(z)) (2)

r_t＝σ(W^(r)x_t+U^(r)h_t-1+b^(r)) (3)

其中，о是点积，即两个向量元素对应相乘，σ表示sigmoid函数，值域为0～1，W^(z)，W^(r)，

U^(z),U^(r),

n均为超参数，z_t为LSTM的遗忘门，r_t是重置门，若r_t近似为0，则上一个隐含状态将被丢弃，r_t提供了丢弃与未来无关的过去隐含状态的机制，也就是说，r_t决定了过去有多少信息被遗忘，

为候选隐含状态，其使用r_t来控制包含过去时刻信息的上一个隐含状态的流入，h_t是隐含状态，利用z_t来对上一个隐含状态h_t-1和候选隐含状态进行更新，z_t可以控制过去的隐含状态在当前时刻的重要性，若z_t一直近似1，则过去的隐含状态将一直通过时间保存并传递至当前时刻，能更好地捕捉时序数据中间隔较大的依赖关系，式(1)是式(2)-(5)的缩写；

使用LSTM读入问题和候选答案，得到最后一个隐藏状态为：

Step3.2：基于迁移学习的问答匹配方法，将需要迁移的源域知识编码为BiLSTM模型中的参数,K₀为源域和目标域的共同参数，K_s和K_T为源域和目标域的特有参数。则源域和目标域的参数可用下列公式表示：

K_s＝K₀+K_S&K_T＝K₀+K_T (8)

Step3.3：结合Dropout的双向LSTM(BiLSTM)模型作为基本模型。对于源域中的数据样本的输入序列T_s,模型在源域上的任务可表示为：

y＝BiLSTM(K_S*T_s) (9)

对于目标中数据样本的输入序列T_t，模型在目标域上的任务可表示为：

y＝BiLSTM(K_T*T_t) (10)

设F_TL(x)为迁移学习的方法，根据(9)和(10)，源域和目标域之间的知识迁移公式可表示为：

结合公式(8)，公式(11)可转换为：

假设不考虑已知条件T_S和T_T，设BiLSTM(K₀)＝μ,对于公式(12)进行简化，最终得到的迁移学习方法可表示为：

迁移学习的方法的最终目的在于将源域模型上训练的参数K_s在目标域上转化为K_T,能够更好的适应目标域上的数据及任务。

Step3.4：采用余弦相似度计算出目标域上问题和候选答案的匹配相似度得分，模型的目标函数定义为：

其中

为目标域数据中的正确答案，

为随机选取的负向答案，m是优化目标函数所设的参数，目标函数是让

和q_T之间的cosine值大于

和q_T之间的cosine值，从而选择出问题的最佳答案。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于迁移学习的问答匹配方法，其特征在于：

Step2：将Stepl中的问题和候选答案的词向量作为输入送入深度学习模型中，在深度学习模型中使用BiLSTM对其进行编码，生成问题特征向量和候选答案特征向量以及保存训练参数；

Step3：将目标域数据集中的问题以及候选答案集进行与Stepl相同的预处理操作，得到词向量；然后将目标域数据集词向量作为输入送入深度学习模型中，在目标域采用与Step2相同的模型进行编码，之后将Step2中保存的源域模型参数迁移到目标域的训练模型当中，作为目标域训练模型的初始化参数进行目标域数据集训练；

Step4：生成目标域中问题与候选答案的特征向量，通过余弦相似度计算问题与候选答案的相似度，相似度分数最高的，则作为该问题的最佳答案反馈给用户；

所述Step3的具体步骤为：

h_t＝BiLSTM(x_t，h_t-1) (1)

其中，x_t＝L[w_t]，L是embedding matrix，w_t是问答序列时刻t的词语，h_t是t时刻的隐藏状态，h_t＝LSTM(x_t，h_t-1)表示当前的隐藏状态由前一个隐藏状态和当前的输入x_t计算得到，x_t表示输入的问答对的向量表示，其中LSTM的定义为：

z_t＝σ(W^(z)x_t+U^(z)h_t-1+b^(z)) (2)

r_t＝σ(W^(r)x_t+U^(r)h_t-1+b^(r)) (3)