CN110321419A

CN110321419A - 一种融合深度表示与交互模型的问答匹配方法

Info

Publication number: CN110321419A
Application number: CN201910587325.7A
Authority: CN
Inventors: 王太浩; 朱锦雷; 张传锋; 申冲
Original assignee: Synthesis Electronic Technology Co Ltd
Current assignee: Synthesis Electronic Technology Co Ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-10-11
Anticipated expiration: 2039-06-28
Also published as: CN110321419B

Abstract

本发明公开一种融合深度表示与交互模型的问答匹配方法，本方法首先对用户输入的口语化问句和知识库中的标准问题组成的文本对进行词向量和字符向量的预训练，然后将融合深度表示与交互模型通过松组合或者紧组合的方式进行融合，使用融合后的模型对用户输入的口语化问句进行问答匹配。本方法可以增强服务的通用性，扩大可识别的口语化范畴，提高答案匹配的准确率，实现广泛的语义识别的精确的语义匹配。

Description

一种融合深度表示与交互模型的问答匹配方法

技术领域

本发明涉及一种融合深度表示与交互模型的问答匹配方法，属于人工智能领域，尤其是人工智能问答系统领域。

背景技术

问答匹配是指针对用户提出的query，在预先录制好的答案库中，筛选出与问题最相近的答案反馈给用户，是检索式问答系统的核心技术。问答匹配的模型一般分为两个阶段：召回和排序。在召回阶段，传统的问答匹配模型如关键字、BOW、TFIDF等等只能对候选答案进行字面上的召回，比如与“土豆”有关的query就无法召回含有“马铃薯”的文本。为了实现语义召回，必须引入基于大规模文本统计训练的深度学习模型。

到目前为止，使用深度学习方法实现文本语义匹配的模型已经有不下20种，这些方法中的每一种都能在某种程度上实现语义的召回和排序，但准确率都非常有限。这些模型主要分为两类：表示型和交互型。

以DSSM、ARC-I、LDR-LTM等为代表的表示型模型的工作主要集中在匹配工作的前期，也就是特征提取的部分。表示型模型一般会对待处理的文本进行多层次、多粒度的语义特征提取。与此对比鲜明的是，其相似度计算的方式异常简单，直接使用余弦公式计算两向量的单位化内积即可，这种方法简洁、可解释性强，但这种方案的低复杂性也带来了大量的误差。

以DeepMatch、ARC-II、MatchPyramid为代表的交互型模型与表示型模型正好相反。其在准确计算特征相似程度的工作上付出了大量精力，而对于文本语义特征的抽取则处理得非常粗糙。由于交互型模型在特征抽取的环节过于薄弱，很容易遗漏重要语义特征。

考虑到传统关键字匹配模型对语义泛化任务的无能为力，以及表示型和交互型深度模型各自所具有的严重缺陷，本发明提出了一种完美融合了深度表示和深度交互模型的问答匹配新方法。该方法能够同时克服表示型模型中的语义冗余和交互型模型中的语义缺失现象，并且保留两者各自具有的优点，提高语义匹配的召回率和准确率，实现较为理想的语义泛化效果。

发明内容

针对现有技术的缺陷，本发明提出一种融合深度表示与交互模型的问答匹配方法，本方法有松组合和紧组合两组融合方法，在不同场景下选用不同配置。本方法可以增强服务的通用性，扩大可识别的口语化范畴，提高答案匹配的准确率，实现广泛的语义识别的精确的语义匹配。

为了解决所述技术问题，本发明采用的技术方案是：一种融合深度表示与交互模型的问答匹配方法，包括以下步骤：S01)、对用户输入的口语化问句和知识库中的标准问题组成的文本对进行词向量和字符向量的预训练，将预训练的模型参数固化到本地，从大规模语料库中获取词汇列表，遍历词汇列表查找对应的嵌入表示，将其表示为numpy矩阵的格式并保存起来；S02)、深度表示与交互模型有两种融合方式，分别是松组合模式和紧组合模式，松组合模式保留两类模型各自的完整性，直接对两种模型的结果进行加权求和计算，作为最终的相似度结果，松组合模型的整体公式为：

紧组合模式增加了两类模型之间的耦合性，将两种模型的前后部分进行了交叉组合，打破了单一模型的完整性，形成了一种全新的架构，其实现策略使用公式4表示为：公式3和4中，T₁和T₂代表需要进行比对的两个文本字符串，都是将字符串文本数值化和向量话的函数，f₁、f₂是用于将两个向量映射为一个[0，1]区间上的实数值的二元函数，α为权重因子，在预训练阶段确定；S03)、根据应用场景的不同，选择不同的融合方式进行问答匹配。

进一步的，T₁代表用户提问的口语化的问题，T₂代表知识库中预先录好的标准问题。

进一步的，松组合模式进行问答匹配的具体过程为：S11)、使用Embedding方法，将用户提问的口语化的问题和知识库中预先录好的标准问题，进行逐词的稠密向量表示，得到用户问题嵌入矩阵和标准问题嵌入矩阵，使用Padding方法使序列的长度保持一致，使两个矩阵的形状固定；S12)、将一对嵌入矩阵复制成两份，分别传给表示型匹配组件和交互型匹配组件，其中表示型匹配组件包括多个1维卷积网络和最大池化层，每个卷积网络有一个卷积核，输入的嵌入矩阵经过多层卷积网络后得到用户问题语义向量和标准问题语义向量；使用余弦距离公式计算用户问题语义向量和标准问题语义向量之间的相似度，然后将这个相似度乘上一个权重因子α，最终得到的数值为公式3的前一部分；S13)、交互性匹配组件对用户问题嵌入矩阵的每一行和标准问题嵌入矩阵的每一行分别做归一化内积，这样就得到一个方形的相似度矩阵，将这个相似度矩阵看成是一张图片，使用分类卷积网络对该相似度矩阵进行抽象化，得到的分类概率作为相似度的预测值，将该预测值与权重1-α相乘，得到的结果就是公式3的后一部分；S14)、将表示型匹配组件的结果与交互性匹配组件的结果相机即为最终预测值。

进一步的，步骤S12中，多个1维卷积网络对嵌入矩阵的处理过程为：使用同尺寸的卷积策略对嵌入矩阵进行非线性变换以保持特征矩阵的尺寸不变，然后设置一个LSTM层，特征矩阵的每一行作为LSTM中每一步的输入向量，取最后一步的输出特征作为对嵌入矩阵的压缩结果，也就是K维的语义特征向量。

进一步的，紧组合模式进行问答匹配的具体过程为：S21)、使用Embedding方法，将用户提问的口语化的问题和知识库中预先录好的标准问题，进行逐词的稠密向量表示，得到用户问题嵌入矩阵和标准问题嵌入矩阵，使用Padding方法使序列的长度保持一致，使两个矩阵的形状固定；S22)、对用户问题嵌入矩阵和标准问题嵌入矩阵使用双向LSTM网络进行非线性变换，嵌入矩阵的每一行即每个词汇的词向量作为BiLSTM输入层的一个时间步，将L个时间步中每一个的输出状态都保存下来，形成一个形状为L*M的富语义特征矩阵，在这个矩阵中，每一个词汇对应的特征向量都包含了句子里其他词汇的语义信息；S23)、用户问题语义特征矩阵的每个词向量和标准问题语义特征矩阵的每个词向量两两做归一化内积，得到形状为L*L的词级交互相似度矩阵，使用CNN网络和max_pooling方法对这个相似度矩阵进行抽象化处理，得到一个2维的向量，这个向量描述了两个语句整体语义上的相似水平，使用softmax对这个向量进行归一化处理，得到的分类概率即为语义相似度的预测值。

进一步的，为了将表示网络和交互网络进行有效结合，步骤S22中使用融合交互学习组件，本组件输入量为由用户输入的预训练词嵌入序列组合而成的2阶张量，使用双向LSTM网络对这个2阶张量进行双向特征复写，复写之后，得到的特征张量不仅包含自身的语义信息，还包含上下文词汇的语义信息。

进一步的，对用户问题嵌入矩阵和标准问题嵌入矩阵使用双向LSTM网络进行非线性变换时，使用RELU激活函数，LSTM层数为三层。

进一步的，步骤S13中，增加字符粒度的相似度矩阵，然后对两个矩阵做叠加再进行抽象化处理。

本发明的有益效果：与单独的表示型和交互型模型以及传统的关键字匹配模型相比，本发明提出的深度融合模型可以克服使用过程中出现的语义漂移、交互比对片面、特征提取粗糙和口语表达无法有效泛化的问题。基于这些核心优势，本发明可以对问答系统进行大幅度的效果提升，实现各式各样口语化表达的有效识别，同时对噪音有很强的抵抗能力，进而在语义层面高质量完成答案的精准匹配任务。

附图说明

图1是深度表示与交互模型的松组合方法的模型架构图；

图2是深度表示与交互模型的紧组合方法的模型架构图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的说明。

问答匹配的核心工作可以用一个公式来概括：

其中，T₁和T₂代表需要进行比对的两个文本字符串，都是将字符串文本数值化和向量话的函数，f是一个二元函数，用于将两个向量映射为一个[0，1]区间上的实数值。

假设我们有一些带标签的训练数据，这些标签的取值范围只有0和1两个数字，这种标签对相似度的标注并不能做到十分精确，因此可以称之为“弱标注”数据。有了这些弱标注数据，就可以构造模型的预测误差：

Error＝∑||Label(T₁，T₂)-Sim(T₁，T₂)||₂ (2),

模型优化的目标就是使这个误差最小化。

在实际的建模过程中，一般会把和设定为相同的函数，本发明也遵循这样的惯例。对于传统的关键字匹配方法来说，f和分别是简单的距离公式和线性函数；对于表示型深度模型来说，是多层神经网络，f是简单的距离公式；对于交互型深度模型来说，是简单的线性函数，f是复杂的神经网络。在本发明中，f和都是复杂的多层多核多组件的神经网络模块。

表示型模型和交互型模型的融合有两种不同的策略：松组合模式和紧组合模式。松组合模式保留两类模型各自的完整性，直接对两种模型的结果进行加权求和计算，作为最终的相似度结果。松组合模型的整体公式如下：

紧组合模式增加了两类模型之间的耦合性，将两种模型的前后部分进行了交叉组合，打破了单一模型的完整性，形成了一种全新的架构。其实现策略可以使用公式(4)来进行表示：

在具体的实施例中，T₁代表用户提问的口语化的问题，T₂代表知识库中预先录好的标准问题。

实施例1

本实施例公开一种松组合模式的融合深度表示与交互模型的问答匹配方法，如图1所示，为使用松组合方式对表示型语义匹配模型和交互型匹配模型进行深度融合的模型架构，根据该模型架构进行问答匹配的具体步骤为：

S01)、首先进行系统的完整部署，包括硬件资源的配备、开发环境的搭建、模型的编码、模型的训练与评估、依赖数据的预录入这些步骤。模型的训练是使用ELMo和BERT等模型进行词向量和字符向量的预训练，将预训练的模型参数固化到本地，从大规模语料库中获取词汇列表，遍历词汇列表查找对应的嵌入表示，将其转化为numpy矩阵的格式并保存起来。在完成这几个步骤之后，开始进行问答匹配。

S02)、问答匹配的过程中，模型接受的输入为语音识别到的用户的口语化问题，为了匹配正确答案，将该问题与系统中预录入的所有问题逐一比对相似程度，选取其中的最相关topN答案进行返回，相似度结果由松组合的融合模型给出；

S03)、对于松组合深度模型来说，问答匹配过程的第一步是使用Embedding方法，将用户提问的口语化的问题和知识库中预先录好的标准问题，进行逐词的稠密向量表示，使用Padding方法使序列的长度保持一致，这样就能得到固定形状的文本对嵌入矩阵，这两个嵌入矩阵就是模型的原始输入特征；

S04)、将一对嵌入矩阵复制成两份，分别传给表示型匹配组件和交互型匹配组件。其中，表示型组件包含多个1维卷积网络和最大池化层，每个卷积网络有一个卷积核，经过多层卷积网络之后，可以得到两个语义向量。

通过多个1维卷积网络降维得到两个语义向量的具体过程为：使用同尺寸的卷积策略对原始的输入特征进行非线性变换以保持特征矩阵的尺寸不变，然后设置一个LSTM层，特征矩阵的每一行作为LSTM中每一步的输入向量，取最后一步的输出特征作为对嵌入矩阵的压缩结果，也就是K维的语义特征向量。

S05)、使用余弦公式计算两个语义向量之间的单位化内积，得到初步的语义相似值，将这个初步的结果乘上一个权重因子α，最终得到的数值即公式3的前一部分。这个权重因子α的确定是在训练阶段确定的，在训练时，使用验证集评估出最合适的α值，将这个超参数固化到整体模型中。

S06)、交互型组件接受两组词向量表示的文本对作为输入，比如文本对“你叫啥”和“你是谁”，将两个文本对使用jieba工具分词之后，查找预训练的词嵌入，得到两个文本对的嵌入矩阵，这个嵌入矩阵本质上是一个列表，列表中的每一个元素为一个词汇的嵌入向量。

S07)、在两个文本的词汇向量之间两两做内积，计算语义相似度，得到相似度矩阵。比如，“你”“叫”“啥”的嵌入向量分别与“你”“是”“谁”的嵌入向量两两计算相似矩阵，得到3*3的词粒度相似度矩阵。按照实际使用的需要，还可以增加字符粒度的相似度矩阵，然后对两个矩阵做叠加。

S08)、使用卷积网络CNN和池化方法对这个相似度矩阵进行非线性变换，改变特征矩阵的形状，使用平均池化方法进行降维，最后使用softmax对语义特征向量进行归一化处理，得到相似度的预测值。

S09)、将交互型组件得到的相似度预测值乘上权重因子1-α，然后将这个结果与表示型组件的部分结果相加，得到的[0，1]范围内的实数值就作为我们对两个文本的语义相似度之间的最终预测值，这就是松组合融合模型的完整数据流。

实施例2

本实施例公开一种紧组合模式的融合深度表示与交互模型的问答匹配方法，如图2所示，为深度表示与交互模型的紧组合的模型架构图，紧组合模型的对外接口参数与松组合模型是一致的，两者都是对预录入知识库中的标准问题遍历进行相似度计算，然后对结果进行排序，为用户推荐语义层面上topN相似的答案。因此，两种模型可以轻易地进行相互替换，无需对接口的外部调用函数进行任何修改。

采用紧组合模式进行问答匹配的具体过程为：

S01)、首先对用户输入的请求文本和知识库中比对的标准问题文本进行分词和Padding操作，以保证序列的长度固定为L。使用word2vec或BERT词向量作为预训练的词嵌入，词嵌入的维度在词向量训练时指定为N，词向量的语义空间就是N维实向量空间。使用tensorflow中的look_up函数将序列中的词汇按照词汇表的索引替换为相应的嵌入向量，这样两个文本分别被转化为两个固定尺寸的嵌入矩阵，矩阵的每一行代表一个词汇的嵌入表示。

S02)、与松组合中的交互型模块不同，这里不直接对两个嵌入矩阵的各行计算相似度，而是首先进行一次嵌入矩阵的保持行数的非线性映射，使其变成包含上下文特征的特征矩阵。

可以使用CNN网络提取n-gram特征实现上下文特征的叠加，但是n-gram特征只能包括短程的依赖关系，对于长程词汇和跳跃词汇的依赖关系，CNN无能为力，因此这里主要使用BiLSTM网络实现矩阵的非线性映射。一方面，LSTM网络能够实现长时间的记忆功能，对于较远距离的词汇依赖特征能够包括在内；另一方面，双向网络映射的组合不仅能使后方词汇通过正向网络包含前方词汇的语义，前方词汇也能通过反向网络包含后方词汇的语义特征。

使用BiLSTM网络实现矩阵的非线性映射(变换)的具体过程为：使用RELU激活函数，LSTM层数在三层左右，嵌入矩阵的每一行，即每个词汇的词向量作为BiLSTM输入层的一个时间步，将L个时间步中每一个的输出状态都保存下来，形成一个形状为L*M的富语义特征矩阵，在这个矩阵中，每一个词汇对应的特征向量都包含了句子里其他词汇的语义信息(因为网络是双向的，句子前部的词汇也可以包含句子后部的语义)。

原始的词向量直接连接而成的嵌入矩阵经过多层BiLSTM网络，得到的L*M维特征矩阵比嵌入矩阵本身有着更加丰富、准确的语义信息。特征矩阵中的每一行可以视为包含了句中上下文特征的词汇向量。

为了将表示网络和交互网络进行有效结合，本步骤提出了融合交互学习组件，本组件输入量为由用户输入的预训练词嵌入序列，组合而成的2阶张量，使用双向LSTM网络对这个2阶张量进行双向特征复写，复写之后，得到的特征张量与原来的特征张量具有相同的长度尺寸，但宽度尺寸有所变动，比如“你叫啥”的3*dim阶张量经过神经网络变换后就成为了3*2dim形状的张量，每一行表示一个词汇的复写向量，这个向量中不仅包含了自身的语义信息，还包含了上下文词汇的语义信息，因此不同的句子中的同一个词汇，可以用不同的语义向量进行区别。与传统的交互模型中直接使用预训练的嵌入向量进行交互相比，本组件将解决“一词多义”的问题。比如“你爱吃苹果吗”中的“苹果”和“苹果手机好用吗”中的“苹果”，传统方法中直接使用固定且唯一的预训练词嵌入，这种不考虑语境的做法会造成严重误差，本发明的方案则完美解决了这个困难。

S03)、将两个特征矩阵的每一行作为对应位置的词汇的词向量，两个文本的词向量之间两两交互，使用余弦公式或欧式距离公式计算向量之间的相似度。结果集成到一个L*L维的矩阵中，称之为相似度矩阵。

S04)、使用CNN网络和pooling方法对相似度矩阵进行多通道和多层次的特征抽取，分别使用最大池化方法和平均池化方法对偶数个feature map进行池化降维，然后将每一个池化模块得到的标量值使用tensorflow中的连接方法连接成一个K维向量，这个向量就是从相似度矩阵抽象出的匹配结果特征，可以称之为“相似度向量”。

S05)、使用MLP的全联接网络将K维的相似度向量映射为2维向量，对这个2维向量使用softmax方法进行概率归一化，得到两文本间相似/不相似的概率，取结果的第0维数值就是相似度的最终预测值。以上就是深度紧组合模型对问答匹配任务实现的具体过程。

本发明的应用场景包括但不限于智能问答系统、对话机器人、智能客服、资料检索、释义识别、推荐系统以及与此相关的NLP领域其他应用。本发明的细则中全面仔细地介绍了有关产品中，基于知识库的问答匹配深度融合模型的网络架构。细则中的架构图及步骤说明，仅仅是用来说明本发明的原理、思想和结构的示例，相关领域的技术人员在参考本发明时，应能想到同本发明具有类似原理和结构的其他修正方案。本发明中所示案例仅为展示本发明的优点，并不用以限制本发明，凡是与本发明原理类似的其他方案，均应包含在本发明的保护范围之内。

Claims

1.一种融合深度表示与交互模型的问答匹配方法，其特征在于：包括以下步骤：S01)、对用户输入的口语化问句和知识库中的标准问题组成的文本对进行词向量和字符向量的预训练，将预训练的模型参数固化到本地，从大规模语料库中获取词汇列表，遍历词汇列表查找对应的嵌入表示，将其表示为numpy矩阵的格式并保存起来；S02)、深度表示与交互模型有两种融合方式，分别是松组合模式和紧组合模式，松组合模式保留两类模型各自的完整性，直接对两种模型的结果进行加权求和计算，作为最终的相似度结果，松组合模型的整体公式为：紧组合模式增加了两类模型之间的耦合性，将两种模型的前后部分进行了交叉组合，打破了单一模型的完整性，形成了一种全新的架构，其实现策略使用公式4表示为：公式3和4中，T₁和T₂代表需要进行比对的两个文本字符串，都是将字符串文本数值化和向量话的函数，f₁、f₂是用于将两个向量映射为一个[0，1]区间上的实数值的二元函数，α为权重因子，在预训练阶段确定；S03)、根据应用场景的不同，选择不同的融合方式进行问答匹配。

2.根据权利要求1所述的融合深度表示与交互模型的问答匹配方法，其特征在于：T₁代表用户提问的口语化的问题，T₂代表知识库中预先录好的标准问题。

3.根据权利要求1所述的融合深度表示与交互模型的问答匹配方法，其特征在于：松组合模式进行问答匹配的具体过程为：S11)、使用Embedding方法，将用户提问的口语化的问题和知识库中预先录好的标准问题，进行逐词的稠密向量表示，得到用户问题嵌入矩阵和标准问题嵌入矩阵，使用Padding方法使序列的长度保持一致，使两个矩阵的形状固定；S12)、将一对嵌入矩阵复制成两份，分别传给表示型匹配组件和交互型匹配组件，其中表示型匹配组件包括多个1维卷积网络和最大池化层，每个卷积网络有一个卷积核，输入的嵌入矩阵经过多层卷积网络后得到用户问题语义向量和标准问题语义向量；使用余弦距离公式计算用户问题语义向量和标准问题语义向量之间的相似度，然后将这个相似度乘上一个权重因子α，最终得到的数值为公式3的前一部分；S13)、交互性匹配组件对用户问题嵌入矩阵的每一行和标准问题嵌入矩阵的每一行分别做归一化内积，这样就得到一个方形的相似度矩阵，将这个相似度矩阵看成是一张图片，使用分类卷积网络对该相似度矩阵进行抽象化，得到的分类概率作为相似度的预测值，将该预测值与权重1-α相乘，得到的结果就是公式3的后一部分；S14)、将表示型匹配组件的结果与交互性匹配组件的结果相机即为最终预测值。

4.根据权利要求3所述的融合深度表示与交互模型的问答匹配方法，其特征在于：步骤S12中，多个1维卷积网络对嵌入矩阵的处理过程为：使用同尺寸的卷积策略对嵌入矩阵进行非线性变换以保持特征矩阵的尺寸不变，然后设置一个LSTM层，特征矩阵的每一行作为LSTM中每一步的输入向量，取最后一步的输出特征作为对嵌入矩阵的压缩结果，也就是K维的语义特征向量。

5.根据权利要求1所述的融合深度表示与交互模型的问答匹配方法，其特征在于：紧组合模式进行问答匹配的具体过程为：S21)、使用Embedding方法，将用户提问的口语化的问题和知识库中预先录好的标准问题，进行逐词的稠密向量表示，得到用户问题嵌入矩阵和标准问题嵌入矩阵，使用Padding方法使序列的长度保持一致，使两个矩阵的形状固定；S22)、对用户问题嵌入矩阵和标准问题嵌入矩阵使用双向LSTM网络进行非线性变换，嵌入矩阵的每一行即每个词汇的词向量作为BiLSTM输入层的一个时间步，将L个时间步中每一个的输出状态都保存下来，形成一个形状为L*M的富语义特征矩阵，在这个矩阵中，每一个词汇对应的特征向量都包含了句子里其他词汇的语义信息；S23)、用户问题语义特征矩阵的每个词向量和标准问题语义特征矩阵的每个词向量两两做归一化内积，得到形状为L*L的词级交互相似度矩阵，使用CNN网络和max_pooling方法对这个相似度矩阵进行抽象化处理，得到一个2维的向量，这个向量描述了两个语句整体语义上的相似水平，使用softmax对这个向量进行归一化处理，得到的分类概率即为语义相似度的预测值。

6.根据权利要求5所述的融合深度表示与交互模型的问答匹配方法，其特征在于：为了将表示网络和交互网络进行有效结合，步骤S22中使用融合交互学习组件，本组件输入量为由用户输入的预训练词嵌入序列组合而成的2阶张量，使用双向LSTM网络对这个2阶张量进行双向特征复写，复写之后，得到包含自身的语义信息和上下文词汇语义信息的特征张量。

7.根据权利要求5所述的融合深度表示与交互模型的问答匹配方法，其特征在于：对用户问题嵌入矩阵和标准问题嵌入矩阵使用双向LSTM网络进行非线性变换时，使用RELU激活函数，LSTM层数为三层。

8.根据权利要求3所述的融合深度表示与交互模型的问答匹配方法，其特征在于：步骤S13中，增加字符粒度的相似度矩阵，然后对两个矩阵做叠加再进行抽象化处理。