CN110032635B

CN110032635B - 一种基于深度特征融合神经网络的问题对匹配方法和装置

Info

Publication number: CN110032635B
Application number: CN201910323729.5A
Authority: CN
Inventors: 鹿文鹏; 张旭; 禹继国
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2019-04-22
Filing date: 2019-04-22
Publication date: 2023-01-20
Anticipated expiration: 2039-04-22
Also published as: CN110032635A

Abstract

本发明公开了一种基于深度特征融合神经网络的问题对匹配方法和装置，属于自然语言处理领域，本发明要解决的技术问题为如何准确地判断用户问题与标准问题的匹配程度，整理出一套完整的问题对匹配模型，技术方案为：①该方法包括如下步骤：S1、构建问题对知识库；S2、构建问题对匹配模型训练数据集；S3、构建问题对匹配模型，步骤如下：S301、构建字符映射转换表；S302、构建输入层；S303、构建字符向量映射层；S304、构建基于深度特征融合的神经网络编码层；S305、构建文本相似度匹配层；S4、训练问题对匹配模型和标准问题选择。②该装置包括问题对知识库构建单元、问题对匹配模型训练数据集生成单元、问题对匹配模型构建单元以及问题对匹配模型训练单元。

Description

一种基于深度特征融合神经网络的问题对匹配方法和装置

技术领域

本发明涉及自然语言处理技术领域，具体地说是一种基于深度特征融合神经网络的问题对匹配方法和装置。

背景技术

随着信息化时代的发展，人们习惯于借助于网络解决各种生活中遇到的问题。比如网上医疗问答社区，患者可在网上向医生咨询自己的病症，医生同样会在网上答复患者的问题。类似的网络问答社区，还有百度知道等，这些问答社区为用户提供了极大的便利。随着在线提问的用户数量的增加，各种各样的新问题被不断提出，但是能够解答问题的专家却相对数量较少，解答问题的速度也难以提高。这给网络问答社区的用户体验造成了较大的不良影响。面对迅速增长的咨询用户所提出的海量问题，如何为咨询用户快速找到答案或及时答复是一个亟待解决的问题。

随着人工智能技术的快速发展，传统行业开始拥抱人工智能，涌现了一大批适用于服务行业的应用；其中智能问答系统发展极为迅速，已广泛应用于各种自助客服(咨询)系统。自动问答系统能够减少消费者与人工客服之间交流的环节，大大减轻了客服的工作量，降低企业运营成本。用户可以直接在线进行问题提问，系统会根据相应问题，自动给出合理答案，避免传统问询需要等待人工客服答复的麻烦，也降低了用户的咨询成本。随着使用人数的激增，自动问答系统的优势更加明显，其快速处理能力和全天候服务能力远远超出人工客服。

显然，对于传统的网络问答社区所面临的困境，自动问答系统是一种有效的解决方案。尽管用户的数量以及用户提出的问题的数量在迅速增长，不同用户提出的问题的形式可能会有所差异，但是他们本质上的语义意图可能会是一致的。即：针对同一问题有不同的表述形式，虽然问题表述形式不同，但是用户表示的是同一问题，即语义上是相同的。也就是说，问答社区中存在着大量的重复问题。对于这些重复的问题，其实并不需要人工专家来进行答复处理。我们只需要将这些重复问题，映射为标准问答知识库中已有的标准问题；将标准问题的答案，答复给用户就能圆满地解决用户的问题。故如何准确地判断用户问题与标准问题的匹配程度，将用户问题映射到标准问题，整理出一套完整的问题对匹配模型成为自动问答系统的一个核心问题。

专利号为CN107798624A的专利文献公开了基于深度学习提出面向软件问答社区的标签推荐方法。该项方法包括：步骤1，预处理；步骤2，词义表示学习；步骤3，短语以及句子语义学习；步骤4，语义融合；在预处理前为训练阶段，所述训练阶段用于构造词典并保存模型的结构与权重；在预处理后为部署阶段，所述部署阶段则是对于新的问题，在转化成索引序列后，加载保存的模型以预测并推荐最有可能的K个标签，K为正整数。但是该技术方案不能准确地判断用户问题与标准问题的匹配程度，将用户问题映射到标准问题，整理出一套完整的问题对匹配模型。

发明内容

本发明的技术任务是提供一种基于深度特征融合神经网络的问题对匹配方法和装置，来解决如何准确地判断用户问题与标准问题的匹配程度，将用户问题映射到标准问题，整理出一套完整的问题对匹配模型的问题。

本发明的技术任务是按以下方式实现的，一种基于深度特征融合神经网络的问题对匹配方法，该方法包括如下步骤：

S1、构建问题对知识库：从互联网问答社区爬取问题对，并对问题对进行预处理，初步构建问题对知识库；

S2、构建问题对匹配模型训练数据集：对于每个问题，在问题对知识库中至少有一个与该问题相匹配的标准问题，将标准问题与该问题构建训练正例；将除标准问题以外的问题与该问题构建训练负例；用户依据收集的问题对知识库的大小设定训练负例的数量，构建训练数据集；

S3、构建问题对匹配模型：利用深度特征融合神经网络构建问题对匹配模型，具体步骤如下：

S301、构建字符映射转换表；

S302、构建输入层：输入层包括两个输入，从问题对知识库中分别获取question1、question2，将其形式化为：(question1,question2)；再根据步骤S301中得到的字符映射转换表将输入数据中的字符转化为数字表示；

S303、构建字符向量映射层；

S304、构建基于深度特征融合的神经网络编码层；

S305、构建文本相似度匹配层；

S4、训练问题对匹配模型和标准问题选择：在步骤S2所得的训练集上对步骤S3构建的问题对匹配模型进行训练。

作为优选，所述步骤S304中构建基于深度特征融合的神经网络编码层的具体步骤如下：

S30401、将步骤303处理后的输入文本进行编码和语义提取；

S30402、使用两个长短期记忆网络LSTM分别对文本进行编码，两者语义特征进行加法操作；

S30403、同时使用两个基于时间序列TimeDistribued的全连接层Dense对两者语义特征进行加法操作，具体公式如下：

其中，i表示相应词向量在句子中的相对位置；p_i表示句子question1中每个字符的相应向量表示；

表示经过其中一个LSTM编码后的question1句子向量；

表示经过另一个LSTM编码后的question1句子向量；

表示使用其中一个基于时间序列TimeDistribued的全连接Dense层编码的句子向量；

表示使用另一个基于时间序列TimeDistribued的全连接Dense层编码的句子向量；

表示两个LSTM编码层的输出结果加法运算的结果；

表示使用两个基于时间序列TimeDistribued的全连接Dense层编码的输出结果加法运算的结果；

S30404、将步骤S30403中的两种语义特征编码结果进行连接，作为该问题的语义特征，公式如下：

其中，

表示

向量连接的结果，即为句子编码的最终向量表示，使用vector_question1、vector_question2来具体表示对于question1、question2的编码结果的最终向量。

更优地，所述步骤S305中构建文本相似度匹配层的具体步骤如下：

S30501、根据步骤S304分别得到question1、question2的最终向量表示vector_question1、vector_question2；

S30502、针对步骤S30501中的两个向量分别按照如下公式计算两个向量之间的差异：

abs＝|vector_question1-vector_question2|；

cos＝cos(vector_question1-vector_question2)；

mul＝vector_question1*vector_question2；

其中，abs表示向量vector_question1、vector_question2逐元素之间求差取绝对值；cos表示向量vector_question1、vector_question2逐元素之间求差的余弦值；mul表示向量vector_question1、vector_question2逐元素之间求积；

S30503、将步骤S30502中的三个结果进行连接，作为问题对的相似度的全面表征，这种相似度表征方法，能够全面捕捉问题对之间的相似度匹配特征，公式如下：

con＝[abs，cos，mul]；

其中，con表示将步骤S30502中的三个结果，即abs、cos和mul，进行连接后得到的相似度表征；

S30504、将步骤S30503中得到的相似度表征向量经过全连接层进行解码，采用sigmoid函数进行相似度计算，得到处于[0,1]之间的相似度表示y_pred，通过相似度的值判别问题对相似程度。

作为优选，所述步骤S1中构建问题对知识库的具体步骤如下：

S101、利用爬虫技术，从互联网问答社区爬取问题对，问答社区均采用Web形式进行展示，利用Scrapy工具获取语义相似的问题集合，构建问题对知识库；

S102、对问题对知识库进行预处理，对句子进行断字处理：将百度知道知识库中的每个问题对，以汉字字符为基本单位，进行断字处理，每个字之间用空格分开，保留文本中所有内容，文本中所有内容包括数字、标点及特殊字符。

作为优选，所述步骤S2中构建问题对匹配模型训练数据集的具体步骤如下：

S201、构建训练正例：将问题与问题语义相同的问题进行组合，构建正例；正例形式化为：(question1,question2,1)；

其中，question1表示问题1，question2表示问题2，1表示正例，即问题1和问题2两者语义相同；

S202、构建训练负例：选中一个问题q₁，再从问题对知识库中随机选择一个与问题q₁不同的问题q₂，将q₁与q₂组合，构建负例；负例形式化为：(question1,question2,0)；

其中，question1指问题q₁，question2指问题q₂，0表示负例，即问题q₁和问题q₂二者语义不同；

S203、构建训练数据集：将步骤S201和步骤S202所得的全部问答的正例样本和负例样本组合在一起，并随机打乱顺序构成最终的训练数据集；其中，正例和负例均包含三个维度，即question1、question2、1或0，前两个维度根据实际包含的词语构建二维的张量表示，第三个维度构建一个数值类型表示相似度；

所述步骤S301中构建字符映射转换表的具体为：根据步骤S102断字处理后的问题对知识库，构建字符表；并将字符表中的每个字符映射为唯一的数字表示，按照字符加入字符表的顺序从1开始依次递增，据此构建字符映射转换表；其中，字符表是指单个字及字符的集合。

所述步骤S303中构建字符向量映射层的具体为：用户指定的字符向量的维度大小为embedding_dim，步骤S301中获取的字符表大小为len(tokenizer.w ord_index)，使用[-1,1]的均匀分布定义(len(tokenizer.word_index)+1)×embedding_dim的二维矩阵并将其作为模型的字符向量映射层的权重矩阵；其中，每一行对应问题对知识库中单个字符的向量表示。

作为优选，所述步骤S4中训练问题对匹配模型和标准问题选择具体步骤如下：

S401、构建损失函数：为了解决在匹配过程中出现的过拟合问题，使模型在优化时将注意力更集中于难以分类的样本，利用单位阶跃函数来修正交叉熵损失函数，公式如下：

得到新的交叉熵损失函数，公式如下：

为了防止分类过于自信，使用修正的均方误差损失函数来进一步改进L_{new(cross_entropy)}，得到：

其中，y_pred为根据步骤S305得到的相似度计算结果；y_true为两个句子相似与否的真实表示，取值为0或1；m表示阈值，m∈(0.5，1)；n为数据集大小，n∈N⁺；on_like即使用数据1对于张量进行填充；

S402、构建优化函数：使用Adam算法作为模型的优化函数，学习率设置为0.002，超参数使用Keras中的默认值即可；其中，超参数是指在开始训练过程之前，需要人工设置值的参数；该参数不能通过训练而自动优化，需要用户根据实际数据集的不同自行人工设置。

S403、问题对选择：将一个新的问题与问题对知识库中的所有候选的与之相匹配的问题组成输入样本；再分别利用步骤S3训练完成的问题对匹配模型，计算问题与候选的与之相匹配的问题之间相似度的数值；最后从所有结果中选取相似度值最高的一组作为新问题最有可能匹配的问题并将该问题推送给用户。

一种基于深度特征融合神经网络的问题对匹配装置，该装置包括，

问题对知识库构建单元，用于利用爬虫技术，从互联网上的问答社区爬取问题对并问题对知识库预处理，问题对知识库预处理即对问题对的句子进行断字处理，构建问题对知识库；

问题对匹配模型训练数据集生成单元，用于根据问题对知识库构建训练正例和训练负例，再利用训练正例和训练负例构建训练数据；

问题对匹配模型构建单元，用于利用深度特征融合神经网络构建问题对匹配模型；

问题对匹配模型训练单元，用于在问题对匹配模型训练数据集生成单元所得的训练集上对问题对匹配模型构建单元构建的问题对匹配模型进行训练并选择出标准问题。

作为优选，所述问题对知识库构建单元包括，

爬虫单元，用于从互联网上抓取问答社区中的内容，将结果保存为问题对的形式；

爬虫数据处理单元，用于将爬虫获取的问题对组合构建正负例，并将问题对的句子进行断字处理，构建问题对知识库；

所述问题对匹配模型训练数据集生成单元包括，

训练正例构建单元，用于将问题对语义相似的进行组合，构建为训练正例；

训练负例构建单元，用于从问题对知识库选中一个问题q₁，再从问题对知识库中随机选择一个与问题q₁语义不同的问题q₂，将q₁与q₂组合构建训练负例；

训练数据集构建单元，用于将训练正例构建单元和训练负例构建单元所得的全部问题对的正例样本、负例样本组合在一起，并随机打乱顺序构成最终的训练数据集；

问题对匹配模型构建单元包括，

字符映射转换表构建单元，用于将问题对知识库中的所有字符构建为字符表，并将字符表中的每个字符映射为唯一的数字表示，按照字符加入字符表的顺序从1开始依次递增，据此构建字符映射转换表；

输入层构建单元，用于从问题对中获取输入数据，分别获取question1、question2，将其形式化为：(question1、question2)；

字符向量映射层构建单元，用于构建并存储字符映射转换表中每个字符的向量表示；

基于深度特征融合的神经网络编码层构建单元，用于利用深度特征融合神经网络针对输入的文本进行编码和语义提取，其中两层长短期记忆网络LSTM，分别对文本进行编码，两者语义特征进行加法操作；同时使用基于时间序列TimeDistribued的全连接Dense层进行加法操作，再将两种语义特征编码结果进行连接，作为该问题的语义特征表示；

相似度匹配构建单元，用于将句子对的编码结果进行相似度匹配，区分问题之间是否匹配；

所述问题对匹配模型训练单元包括，

损失函数构建单元，用于计算问题1和问题2的相似度之间的误差；

优化函数构建单元，用于调整模型中的参数，减小模型训练中问题1与问题2的相似度与真实相似度之间误差；

问题对选择单元，用于处理新的问题时，从问题对知识库中使用训练好的模型选择与新问题相匹配的问题对。

一种存储介质，其中存储有多条指令，所述指令由处理器加载，执行上述的问题对匹配方法的步骤。

一种电子设备，所述电子设备包括：

上述的存储介质；以及

处理器，用于执行所述存储介质中的指令。

本发明的基于深度特征融合神经网络的问题对匹配方法和装置具有以下优点：

(一)、本发明借助于深度学习技术解决如何准确地判断用户问题与标准问题的匹配程度，将用户问题映射到标准问题，整理出一套完整的问题对匹配模型的问题，采用语义编码模型用来进行句子语义提取来解决问题匹配过程中出现的语义缺失问题、采用相似度表征方法来解决捕捉问题对之间的相似度匹配特征以及采用修正的loss函数来解决在训练过程中出现的过拟合现象，本发明所提出的模型在真实的问题匹配数据集上取得了显著效果，在自动问答系统领域有很大的应用前景；

(二)、本发明能够有效地对句子进行建模，捕获句子的深度语义特征；

(三)、本发明能够对语义特征进行深度融合，避免语义缺失问题；

(四)、本发明能够更好的捕捉问题对之间的相似度及特异性；

(五)、本发明提出一种修正的loss函数，解决在训练过程中出现的过拟合现象，定义并实现一套完整的问题对匹配模型。

附图说明

下面结合附图对本发明进一步说明。

附图1为基于深度特征融合神经网络的问题对匹配方法流程框图；

附图2为构建问题对知识库的流程框图；

附图3为构建问题对匹配模型训练数据集的流程框图；

附图4为构建问题对匹配模型的流程框图；

附图5为训练问题对匹配模型和标准问题选择的流程框图；

附图6为构建基于深度特征融合的神经网络编码层的流程框图；

附图7为基于深度特征融合神经网络的问题对匹配的结构框图。

具体实施方式

参照说明书附图和具体实施例对本发明的一种基于深度特征融合神经网络的问题对匹配方法和装置作以下详细地说明。

实施例：

如附图1所示，本发明的基于深度特征融合神经网络的问题对匹配方法,该方法包括如下步骤：

S1、构建问题对知识库：从互联网问答社区爬取问题对，并对问题对进行预处理，初步构建问题对知识库；如附图2所示，构建问题对知识库的具体步骤如下：

S101、利用爬虫技术，从互联网问答社区爬取问题对，问答社区均采用Web形式进行展示，利用Scrapy工具获取语义相似的问题集合，构建问题对知识库；除了自行爬取数据之外，也可以使用公开的问题对数据集作为知识库，比如LCQMC数据集。该数据集出自论文：Xin Liu,Qingcai Chen,Chong Deng,Huajun Zeng,Jing Chen,Dongfang Li,BuzhouTang,LCQMC:A Large-scale Chinese Question Matching Corpus,COLING2018。

举例：百度问答社区中的问题对示例，表示如下：

问题1	这种图片是用什么软件制作的？
		问题2	这种图片制作是用什么软件呢？

S102、对问题对知识库进行预处理，对句子进行断字处理：将百度知道知识库中的每个问题对，以汉字字符为基本单位，进行断字处理，每个字之间用空格分开，保留文本中所有内容，文本中所有内容包括数字、标点及特殊字符等。

举例：对步骤S101中的示例问题1，“这种图片是用什么软件制作的？”进行断字处理，得到“这种图片是用什么软件制作的？”。

S2、构建问题对匹配模型训练数据集：对于每个问题，在问题对知识库中至少有一个与该问题相匹配的标准问题，将标准问题与该问题构建训练正例；将除标准问题以外的问题与该问题构建训练负例；用户依据收集的问题对知识库的大小设定训练负例的数量，构建训练数据集。本实施例中，当使用LCQMC数据集时，训练负例和训练正例数量比例设为1:1；

如附图3所指示，构建问题对匹配模型训练数据集的具体步骤如下：

举例：对步骤S101中的示例数据问题1和问题2，经过步骤S102分词处理后，构建的正例为：

(“这种图片是用什么软件制作的？”，“这种图片制作是用什么软件呢？”,1)。

举例：对比步骤S201中的示例数据，我们抽取原问题，即为q₁，再从问题对知识库中随机选择一个与问题q₁语义不同的问题q₂，将q₁与q₂组合，可构建负例：

(“这种图片是用什么软件制作的？”，“护腰带什么牌子好”，0)。

举例：使用vector_question1、vector_question2分别表示训练数据集的问题1的张量表示、问题2的张量表示。假定每个字符用一个embedding_dim维的向量表示，则vector_question1、vector_question2的张量维度为word_num×embedding_dim，其中word_num指question1、question2中字符的个数。

S3、构建问题对匹配模型：利用深度特征融合神经网络构建问题对匹配模型；如附图4所示，构建问题对匹配模型的具体步骤如下：

S301、构建字符映射转换表，具体为：根据步骤S102断字处理后的问题对知识库，构建字符表；并将字符表中的每个字符映射为唯一的数字表示，按照字符加入字符表的顺序从1开始依次递增，据此构建字符映射转换表；

举例：以步骤S102断字后的内容，“这种图片是用什么软件制作的？”，构建字符表及字符映射转换表如下：

举例说明：以步骤S201和S202中的问题对示例构建一条输入数据，结果如下：

(这种图片是用什么软件制作的？”，“这种图片制作是用什么软件呢？”)

根据词表中的映射将上述的输入数据转换为数值表示，结果如下：

(“1，2，3，4，5，6，7，8，9，10，11，12，13，14”,“1，2，3，4，11，12，5，6，7，8，9，10”)；

S303、构建字符向量映射层，具体为：用户指定的字符向量的维度大小为embedding_dim，步骤S301中获取的字符表大小为len(tokenizer.word_index)，使用[-1,1]的均匀分布定义(len(tokenizer.word_index)+1)×embedding_dim的二维矩阵并将其作为模型的字符向量映射层的权重矩阵；其中，每一行对应问题对知识库中单个字符的向量表示；

举例：在Keras中，示例的代码实现如下：

该层是问题对匹配模型的通用层，存储了全部字符对应的字符向量；对于question1、question2的处理操作均完全相同，故在此不再分别说明。后面步骤S304和S305，对question1、question2的处理也完全相同，故也不再分别说明。

S304、构建基于深度特征融合的神经网络编码层，如附图6所示，具体步骤如下：

S30401、将步骤303处理后的输入文本进行编码和语义提取；

S30403、同时使用两个基于时间序列(TimeDistribued)的全连接层(Dense)对两者语义特征进行加法操作，具体公式如下：

表示经过其中一个LSTM编码后的question1句子向量；

表示经过另一个LSTM编码后的question1句子向量；

表示使用其中一个基于时间序列(TimeDistribued)的全连接(Dense)层编码的句子向量；

表示使用另一个基于时间序列(TimeDistribued)的全连接(Dense)层编码的句子向量；

表示两个LSTM编码层的输出结果加法运算的结果；

其中，

表示

S305、构建文本相似度匹配层，具体步骤如下：

abs＝|vector_question1-vector_question2|；

cos＝cos(vector_question1-vector_question2)；

mul＝vector_question1*vector_question2；

其中，abs表示向量vector_question1、vector_question2逐元素之间求差取绝对值；cos表示向量vector_question1、vector_question2逐元素之间求差的余弦值；mul表示向量vector_question1、vector_question2逐元素之间求积；在keras中上述操作具体代码如下:

abs＝Lambda(lambda x:keras.backend.abs(x[0]-

x[1]))([vector_question1,vector_question2])

cos＝Lambda(lambda x:keras.backend.cos(x[0]-

x[1]))([vector_question1,vector_question2])

mul＝keras.layers.multiply([vector_question1,vector_question2])】；

con＝[abs，cos，mul]；

S30504、将步骤S30503中得到的相似度表征向量经过全连接层进行解码，采用sigmoid函数进行相似度计算，得到处于[0,1]之间的相似度表示ypred，通过相似度的值判别问题对相似程度。

S4、训练问题对匹配模型和标准问题选择：在步骤S2所得的训练集上对步骤S3构建的问题对匹配模型进行训练；如附图5所示，训练问题对匹配模型和标准问题选择具体步骤如下：

得到新的交叉熵损失函数，公式如下：

其中，y_pred为根据步骤S305得到的相似度计算结果；y_true为两个句子相似与否的真实表示，取值为0或1；m表示阈值，m∈(0.5，1)；n为数据集大小，n∈N⁺；ones_like即使用数据1对于张量进行填充；

S402、构建优化函数：使用Adam算法作为模型的优化函数，学习率设置为0.002，超参数使用Keras中的默认值即可；

举例，在Keras中，定义Adam优化函数可用如下代码实现：

optim＝keras.optimizers.Adam(lr＝0.002)

本发明模型在LCQMC数据集上取得了优于当前先进模型的结果，实验数据如下表所示：

表1:LCQMC上的实验结果

本发明模型和现有模型进行了比较，实验结果显示本发明方法有了很大的提升。其中，前三行是现有技术的模型的实验结果【来自：Xin Liu,Qingcai Chen,Chong Deng,Huajun Zeng,Jing Chen,Dongfang Li,Buzhou Tang,LCQMC:A Large-scale ChineseQuestion Matching Corpus,COLING2018.】，最后一行是本发明模型的实验结果，由此可知本发明比现有模型有了较大提升。

实施例2：

如附图7所示，本发明的基于深度特征融合神经网络的问题对匹配装置，该装置包括，

问题对知识库构建单元，用于利用爬虫技术，从互联网上的问答社区爬取问题对并问题对知识库预处理，问题对知识库预处理即对问题对的句子进行断字处理，构建问题对知识库；其中，问题对知识库构建单元包括，

问题对匹配模型训练数据集生成单元，用于根据问题对知识库构建训练正例和训练负例，再利用训练正例和训练负例构建训练数据；其中，问题对匹配模型训练数据集生成单元包括，

问题对匹配模型构建单元，用于利用深度特征融合神经网络构建问题对匹配模型；其中，问题对匹配模型构建单元包括，

问题对匹配模型训练单元，用于在问题对匹配模型训练数据集生成单元所得的训练集上对问题对匹配模型构建单元构建的问题对匹配模型进行训练并选择出标准问题。其中，问题对匹配模型训练单元包括，

实施例3：

基于实施例1的存储介质，其中存储有多条指令，指令由处理器加载，执行实施例1中的问题对匹配方法的步骤。

实施例4：

基于实施例3的电子设备，电子设备包括：实施例3中的存储介质；以及处理器，用于执行实施例3中的存储介质中的指令。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于深度特征融合神经网络的问题对匹配方法，其特征在于，该方法包括如下步骤：

S2、构建问题对匹配模型训练数据集：对于每个问题，在问题对知识库中至少有一个与该问题相匹配的标准问题，将标准问题与该问题构建训练正例；将除标准问题以外的问题与该问题构建训练负例；

S301、构建字符映射转换表；

S303、构建字符向量映射层；

S304、构建基于深度特征融合的神经网络编码层；具体步骤如下：

S30401、将步骤S303处理后的输入文本进行编码和语义提取；

S30403、同时使用两个基于时间序列TimeDistribued的全连接Dense层对两者语义特征进行加法操作，具体公式如下：

表示经过其中一个LSTM编码后的question1句子向量；

表示经过另一个LSTM编码后的question1句子向量；

表示两个LSTM编码层的输出结果加法运算的结果；

其中，

表示

向量连接的结果，即为句子编码的最终向量表示，使用vector_question1、vector_question2来具体表示对于question1、question2的编码结果的最终向量；

S305、构建文本相似度匹配层；具体步骤如下：

abs＝|vector_question1-vector_question2|；

cos＝cos(vector_question1-vector_question2)；

mul＝vector_question1*vector_question2；

S30503、将步骤S30502中的三个结果进行连接，作为问题对的相似度的全面表征，公式如下：

con＝[abs,cos,mul]；

S30504、将步骤S30503中得到的相似度表征向量经过全连接层进行解码，采用sigmoid函数进行相似度计算，得到处于[0,1]之间的相似度表示y_pred，通过相似度的值判别问题对相似程度；

S4、训练问题对匹配模型和标准问题选择：在步骤S2所得的训练集上对步骤S3构建的问题对匹配模型进行训练；具体步骤如下：

得到新的交叉熵损失函数，公式如下：

其中，y_pred为根据步骤S305得到的相似度计算结果；y_true为两个句子相似与否的真实表示，取值为0或1；m表示阈值，m∈(0.5,1)；n为数据集大小，n∈N⁺；ones_like即使用数据1对于张量进行填充；

2.根据权利要求1所述的基于深度特征融合神经网络的问题对匹配方法，其特征在于，所述步骤S1中构建问题对知识库的具体步骤如下：

3.根据权利要求1所述的基于深度特征融合神经网络的问题对匹配方法，其特征在于，步骤S2中构建问题对匹配模型训练数据集的具体步骤如下：

步骤S301中构建字符映射转换表的具体为：根据步骤S102断字处理后的问题对知识库，构建字符表；并将字符表中的每个字符映射为唯一的数字表示，按照字符加入字符表的顺序从1开始依次递增，据此构建字符映射转换表；

步骤S303中构建字符向量映射层的具体为：用户指定的字符向量的维度大小为embedding_dim，步骤S301中获取的字符表大小为len(tokenizer.word_index)，使用[-1,1]的均匀分布定义(len(tokenizer.word_index)+1)×embedding_dim的二维矩阵并将其作为模型的字符向量映射层的权重矩阵；其中，每一行对应问题对知识库中单个字符的向量表示。

4.一种基于深度特征融合神经网络的问题对匹配装置，其特征在于，该装置包括，

问题对匹配模型训练单元，用于在问题对匹配模型训练数据集生成单元所得的训练集上对问题对匹配模型构建单元构建的问题对匹配模型进行训练并选择出标准问题；

其中，问题对匹配模型构建单元包括，

基于深度特征融合的神经网络编码层构建单元，用于利用深度特征融合神经网络针对输入的文本进行编码和语义提取，其中两层长短期记忆网络LSTM，分别对文本进行编码，两者语义特征进行加法操作；同时使用基于时间序列TimeDistribued的全连接Dense层进行加法操作，再将两种语义特征编码结果进行连接，作为该问题的语义特征表示；基于深度特征融合的神经网络编码层构建单元的工作过程具体如下：

S30401、将处理后的输入文本进行编码和语义提取；