CN111831789B

CN111831789B - 一种基于多层语义特征提取结构的问答文本匹配方法

Info

Publication number: CN111831789B
Application number: CN202010554563.0A
Authority: CN
Inventors: 谭华; 徐维超; 陈昌润
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2023-10-24
Anticipated expiration: 2040-06-17
Also published as: CN111831789A

Abstract

本发明公开了一种基于多层语义特征提取结构的问答文本匹配方法，包括：获取问题与回答文本数据集，并构建问题与错误回答对；将问题与回答文本数据集预处理得到初始矩阵；将问题文本与回答文本转换成词向量并分别结合形成问题文本句向量、回答文本句向量；构建多层上下文编码结构并对问题文本句向量、回答文本句向量编码；使用卷积神经网络对每层上下文编码结构的输出进行卷积提取句子特征表示；每一层上下文编码结构的输出经过卷积之后，使用最大池化层提取多层中的语义特征作为句子的最终语义特征表示；计算问题文本的句子特征表示和回答文本的句子特征表示的相似度。本发明解决了传统方法无法对文本数据之间的关联性特征深层提取的技术问题。

Description

一种基于多层语义特征提取结构的问答文本匹配方法

技术领域

本发明涉及自然语言处理技术领域，更具体地，涉及一种基于多层语义特征提取结构的问答文本匹配方法。

背景技术

文本匹配是自然语言处理的核心研究领域，有着悠久的历史。在文本匹配任务中，模型以两个文本序列作为输入，并预测一个类别或一个标量值来表示它们之间的关系。范围广泛的任务，包括自然语言推断，释义识别，答案选择等。很多自然语言处理的任务都可以抽象成文本匹配问题，例如信息检索可以归结成查询项和文档的匹配，问答系统可以归结为问题和候选答案的匹配，对话系统可以归结为对话和回复的匹配。针对不同的任务选取合适的匹配模型，提高匹配的准确率成为自然语言处理任务的重要挑战。衡量不同文本字符串之间的语义相似性的两个重要问题是词汇不匹配和整合上下文信息的难度。互联网的快速发展促进了信息的爆炸性增长，其中深度神经网络是当前文本匹配最常用的方法。语义对齐和两个文本序列的比较是神经文本匹配的关键。许多以前的深度神经网络包含一个单序列间对齐层。为了充分利用这一仅有的对齐过程，模型必须采用丰富的外部句法特征或手工设计的对齐特征作为对齐层的额外输入，采用复杂的对齐机制；或构建大量的后处理层来分析对齐结果。

目前自然语言处理的大多深度学习模型都是采用循环神经网络结构进行整合文本序列的上下文信息。深度学习应用在文本匹配上可以总结为以下四个阶段：1、单语义模型、2、多语义模型、3、匹配矩阵模型、4、深层次的句子间模型，，随着注意力机制等交互机制论文的发表，最新的论文用更精细的结构去挖掘句子内和句子间不同单词之间的联系，得到更好的效果。

现有的自然语言处理的深度学习模型中，对于文本上下文语义信息提取结构，使用多层串联的语义结构对文本信息进行编码，最终取最后一层的输出作为文本特征的输出。但是并没有结合每一层的输出。由于每一层语义提取结构都是作为“黑匣子”，无法实现层与层之间的关联性特征的深层提取。因而对于文本语义特征提取的不够充分以及过于冗余。现有技术中，公开号为CN109726396A的发明专利，该发明提供了一种基于多级特征和深度学习的问答文本语义匹配方法，对问答文本的单词和句法信息进行单词和句法结构分布式表示，并使用循环神经网络提取问答文本的上下文局部特征信息和句法结构特征信息，然后运用注意力机制抽取背景全局特征信息，使问答文本的特征信息更丰富，从而提高问答文本语义匹配的准确性。该发明侧重于问答文本的上下文局部特征信息和句法结构特征信息，没有在特征提取时考虑层与层之间的关联性特征。

发明内容

本发明为克服上述现有技术中无法实现层与层之间的关联性特征的深层提取，导致特征提取不够充分或过分冗余的缺陷，提供一种基于多层语义特征提取结构的问答文本匹配方法。

本发明的首要目的是为解决上述技术问题，本发明的技术方案如下：

一种基于多层语义特征提取结构的问答文本匹配方法，包括以下步骤：

S1：获取问题与回答文本数据集，并构建问题与错误回答对；

S2：将问题与回答文本数据集进行预处理得到初始矩阵；

S3：将问题与回答文本数据集中的问题文本与回答文本转换成词向量，所述词向量用于表示文本词汇的含义，将问题文本的词向量、回答文本的词向量分别结合形成问题文本句向量、回答文本句向量；

S4：构建文本匹配的深度学习模型的多层上下文编码结构，将问题文本句向量、回答文本句向量输入到所述的多层上下文编码结构中进行编码；

S5：使用卷积神经网络对每层上下文编码结构的输出进行卷积提取问题文本与回答文本的句子特征表示；

S6：每一层上下文编码结构的输出经过卷积之后，使用最大池化层提取多层中的语义特征作为句子的最终语义特征表示，所述句子的最终语义特征表示包括：问题文本的句子特征表示和回答文本的句子特征表示；

S7：计算问题文本的句子特征表示和回答文本的句子特征表示的余弦相似度，将问题文本与所有的回答文本匹配完后，选取与问题文本匹配到的余弦相似度最大的回答文本作为答案输出。

本方案中，所述问题与回答文本数据集包括问题及问题对应的正确答案、问题与错误回答，所述问题与错误回答是对每个问题从预设的答案池中随机抽取一条不是问题的答案作为负样本，构成问题与错误回答。

本方案中，问题与回答文本数据集进行预处理包括：

问答数据的清洗，分别对问题与回答数据集中的未登录词、停用词、以及问题文本与回答文本字符数小于预设字符数的数据项进行清洗；

对清洗后的问题与回答文本数据集进行分词操作和词性标注操作。

本方案中，所述将问题与回答文本数据集中的问题文本与回答文本转换成词向量是通过BERT模型的预训练模型的固定参数的词向量神经网络将问题文本与回答文本的词转化对应的词向量并将问题文本与回答文本对应的词向量构建成词向量矩阵，所述词向量矩阵行数为每个问题或回答文本的次数，列数为每个词对应向量所指定的维数。

本方案中，所述深度学习模型的多层上下文编码结构为自注意力机制Transformer单元，共有12层Transformer编码结构，所述12层Transformer编码结构依次串联，每一层结构具有输出，问题文本句向量、回答文本句向量输入至多层上下文编码结构的第一次层，第一层的输出逐层进行传递同时每一层也输出当前层的编码结果矩阵，保存每一层的输出上下文语义信息结果矩阵，用于下一层的输入数据。

本方案中，使用卷积神经网络对每层上下文编码结构的输出进行卷积提取问题文本与回答文本的句子特征表示具体为：

使用不同大小卷积核的卷积神经网络对每一层的上下文语义特征进行卷积操作；

将不同大小卷积核的卷积神经网络卷积提取出的语义特征结果整合到一起；

每一层的语义特征作为一个通道，使用最大池化提取12层中最大的语义特征；

池化层输出的语义特征矩阵是句子最后经过多层语义层提取的语义特征，也就是句子的特征表示；

将问题句子的特征表示与回答句子的特征表示进行匹配获取匹配结果。

本方案中，多层上下文编码结构中进行编码的具体过程为：

将问题文本句向量、回答文本句向量输入到所述的多层上下文编码结构的Transformer中：

H_i＝Transformer_i(E)

其中，E为问题文本与回答文本的句子向量输入，i表示为第i层Transformer编码层，H_i表示第i层Transformer的输出。

本方案中，所述卷积神经网络具有不同的特征映射，S＝{s₁,s₂,..,s_t}，其中，第i个特征映射的宽度为s_i，长度为(d_c+2h_r)。卷积层在其滑动窗口内对连续的s_i向量进行操作

设定是从r_k到/>的连续向量的串联，卷积运算的定义如下：

其中，为元素乘法的总和，f(·)为激活函数，b为偏差；

给定h_c特征映射,过滤核大小s_i的卷积神经网络的输出是的串联，即:

本方案中，所述最大池化层包括：

首先将不同大小窗口的卷积提取出的语义特征结果进行整合到一起，所述多层上下文编码结构共有12层，每一层的语义特征作为一个通道，即有12通道的图像矩阵，然后使用窗口大小为1的最大池化提取12层中最大的语义特征，然后将这语义特征矩阵中的元素串联一起成为句子表征向量，用作下一步的匹配，具体公式如下：

其中，q表示为问题句子的语义特征表示向量，a表示为回答句子的语义特征表示向量。

本方案中，计算问题文本的句子特征表示和回答文本的句子特征表示的相似度，计算公式如下：

其中，q表示为问题句子的语义特征表示向量，a表示为回答句子的语义特征表示向量，||·||是向量长度。

与现有技术相比，本发明技术方案的有益效果是：

本发明通过对文本数据进行预处理得到矩阵数据，利用多层上下文编码结构进行上下文信息融合并提取，利用卷积神经网络对文本的语义以及关联特征的提取更符合个性化需求，将提取的特征输入匹配层进行计算相似度，从而更有利于对文本进行匹配与检索，解决了传统方法无法对文本数据之间的关联性特征深层提取的技术问题。

附图说明

图1为本发明提供的一种基于多层语义特征提取的文本匹配方法的流程示意图。

图2为本发明提供的一种基于多层语义特征提取的文本匹配方法的网络结构框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

实施例1

如图1-图2所示，一种基于多层语义特征提取结构的问答文本匹配方法，包括以下步骤：

需要说明的是，在一个具体的实施例中，可以通过在线评论网络爬虫获取问题与回答文本数据集，获取问题与回答文本数据集具体可以为：编写相应地门类知识爬虫程序，利用该爬虫程序抓取互联网问答平台上的问答数据。也可以根据现有的可获知的途径，获取现有的网络资源、论文库资源、专利库资源等，并将所有的资源数据进行整合构成问题与回答数据集。

本方案中，所述问题与回答文本数据集包括问题及问题对应的正确答案、问题与错误回答，所述问题与错误回答是对每个问题从预设的答案池中随机抽取一条不是问题的答案作为负样本，构成问题与错误回答。所述答案池即问题与回答数据集中所有回答组成的答案池，所述负类样本以使样本集均衡，使文本匹配的深度学习模型性能表现优良。

S2：将问题与回答文本数据集进行预处理得到初始矩阵；

本方案中，问题与回答文本数据集进行预处理包括：

预处理后的数据集划分为两部分：训练集合测试集。其中分词操作基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)，采用了动态规划查找最大概率路径，找出基于词频的最大切分组合。

所述多层上下文编码结构为文本匹配的深度学习模型的第一个结构，在本发明中多层上下文编码结构为自注意力机制Transformer单元，共有12层Transformer编码结构，所述12层Transformer编码结构依次串联，每一层结构具有输出，问题文本句向量、回答文本句向量输入至多层上下文编码结构的第一次层，第一层的输出逐层进行传递同时每一层也输出当前层的编码结果矩阵，保存每一层的输出上下文语义信息结果矩阵，用于下一层的输入数据。

需要说明的是，本实施例中的卷积层的卷积核大小是多种的，可以根据文本句词统计信息设置的，从而提升模型的分类准确度。

步骤S5-S6具体流程为：

S7：计算问题文本的句子特征表示和回答文本的句子特征表示的余弦相似度，，将问题文本与所有的回答文本匹配完后，选取与问题文本匹配到的余弦相似度最大的回答文本作为答案输出。

本方案中，多层上下文编码结构中进行编码的具体过程为：

H_i＝Transformer_i(E)

设定是从r_k到/>的连续向量的串联，卷积运算的定义如下：

其中，为元素乘法的总和，f(·)为激活函数，b为偏差；

本方案中，所述最大池化层包括：

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于多层语义特征提取结构的问答文本匹配方法，其特征在于，包括以下步骤：

S2：将问题与回答文本数据集进行预处理得到初始矩阵；

多层上下文编码结构中进行编码的具体过程为：

H_i＝Transformer_i(E)

其中，E为问题文本与回答文本的句子向量输入，i表示为第i层Transformer编码层，H_i表示第i层Transformer的输出；

所述卷积神经网络具有不同的特征映射，S＝{s₁,s₂,..,s_t}，其中，第i个特征映射的宽度为s_i，长度为(d_c+2h_r)，卷积层在其滑动窗口内对连续的s_i向量进行操作

设定是从r_k到/>的连续向量的串联，卷积运算的定义如下：

其中，为元素乘法的总和，f(·)为激活函数，b为偏差；

2.根据权利要求1所述的一种基于多层语义特征提取结构的问答文本匹配方法，其特征在于，所述问题与回答文本数据集包括问题及问题对应的正确答案、问题与错误回答，所述问题与错误回答是对每个问题从预设的答案池中随机抽取一条不是问题的答案作为负样本，构成问题与错误回答。

3.根据权利要求1所述的一种基于多层语义特征提取结构的问答文本匹配方法，其特征在于，问题与回答文本数据集进行预处理包括：

4.根据权利要求1所述的一种基于多层语义特征提取结构的问答文本匹配方法，其特征在于，所述将问题与回答文本数据集中的问题文本与回答文本转换成词向量是通过BERT模型的预训练模型的固定参数的词向量神经网络将问题文本与回答文本的词转化对应的词向量并将问题文本与回答文本对应的词向量构建成词向量矩阵，所述词向量矩阵行数为每个问题或回答文本的次数，列数为每个词对应向量所指定的维数。

5.根据权利要求1所述的一种基于多层语义特征提取结构的问答文本匹配方法，其特征在于，所述深度学习模型的多层上下文编码结构为自注意力机制Transformer单元，共有12层Transformer编码结构，所述12层Transformer编码结构依次串联，每一层结构具有输出，问题文本句向量、回答文本句向量输入至多层上下文编码结构的第一次层，第一层的输出逐层进行传递同时每一层也输出当前层的编码结果矩阵，保存每一层的输出上下文语义信息结果矩阵，用于下一层的输入数据。

6.根据权利要求1所述的一种基于多层语义特征提取结构的问答文本匹配方法，其特征在于，使用卷积神经网络对每层上下文编码结构的输出进行卷积提取问题文本与回答文本的句子特征表示具体为：

7.根据权利要求1所述的一种基于多层语义特征提取结构的问答文本匹配方法，其特征在于，所述最大池化层包括：

8.根据权利要求1所述的一种基于多层语义特征提取结构的问答文本匹配方法，其特征在于，计算问题文本的句子特征表示和回答文本的句子特征表示的相似度，计算公式如下：