CN116303977A

CN116303977A - 一种基于特征分类的问答方法及系统

Info

Publication number: CN116303977A
Application number: CN202310551556.9A
Authority: CN
Inventors: 孟英谦; 彭龙; 李胜昌; 任智颖; 邵鹏志; 谢志豪; 张世超; 李泽宇; 宋彪; 高圣楠; 魏中锐; 胡明哲; 姜伟; 张子烁; 邬书豪; 葛祥雨
Original assignee: China North Computer Application Technology Research Institute
Current assignee: China North Computer Application Technology Research Institute
Priority date: 2023-05-17
Filing date: 2023-05-17
Publication date: 2023-06-23
Anticipated expiration: 2043-05-17
Also published as: CN116303977B

Abstract

本发明涉及一种基于特征分类的问答方法及系统，属于自然语言处理技术领域；解决现有技术中的问答模型推断速度慢，且答案预测不够准确的问题。本发明的问答方法包括以下步骤：获取待处理问题，得到待处理问题对应的类别；在文本语料库中搜索与待处理问题相同类别且相关度最高的原始文本数据；文本语料库包括多个不同类别的原始文本数据；将待处理问题和对应的相关度最大的原始文本数据分别与对应的类别标签融合得到对应的两个带有类别标签信息的特征向量，将两个特征向量输入预先训练的智能问答模型的答案预测模块，基于待处理问题对应的特征向量，在原始文本对应的特征向量中预测得到待处理问题对应的答案。

Description

一种基于特征分类的问答方法及系统

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种基于特征分类的问答方法及系统。

背景技术

近年来，端到端的问答模型的研究取得了显著的进步，也得到了广泛的应用，目前的问答模型通常会利用两个关键的组成部分：处理序列化输入的循环模型和处理长期交互的注意力组件。

而现有模型的循环性质导致训练和推断都十分缓慢，特别是对于长文本来说，高昂的训练开销不仅导致了很长的实验周期，限制了研究者进行迅速的迭代，还妨碍了模型被用于大型数据集。且缓慢的推断阻碍了机器阅读理解系统在实时应用中的部署。

因此，如何使得问答模型更加迅速地获取并理解大问答对与文本的注意关系，并更加快速且准确地预测出问题对应的答案信息，成为目前急需解决的问题。

发明内容

鉴于上述的分析，本发明旨在提供一种基于特征分类的问答方法及系统；解决现有技术中的问答模型推断速度慢，且答案预测不够准确的问题。

本发明的目的主要是通过以下技术方案实现的：

一方面，本发明提供了一种基于特征分类的问答方法，包括以下步骤：

获取待处理问题，得到所述待处理问题对应的类别；

在文本语料库中搜索与所述待处理问题相同类别且相关度最高的原始文本数据；所述文本语料库包括多个不同类别的原始文本数据；

将所述待处理问题和对应的相关度最大的原始文本数据分别与对应的类别标签融合得到对应的两个带有类别标签信息的特征向量，将两个特征向量输入预先训练的智能问答模型的答案预测模块，基于所述待处理问题对应的特征向量，在原始文本对应的特征向量中预测得到所述待处理问题对应的答案。

进一步的，通过智能问答模型的特征分类模块得到所述待处理问题对应的类别，包括：

所述特征分类模块为基于Bert-LSTM的分类模块；

将获取的所述待处理问题输入所述特征分类模块的Bert层，进行特征提取和向量表示，得到具有文本语义信息的特征向量；

将得到的所述特征向量输入LSTM层，经过时间序列特征提取并进行分类，得到所述待处理问题的类别。

进一步的，所述答案预测模块包括输入嵌入层、嵌入编码层、查询问题注意层、模型编码器层和输出层；

所述输入嵌入层用于对输入的带有类别标签信息的特征向量进行词嵌入和字符嵌入，得到输入嵌入层隐向量；

所述嵌入编码层用于基于所述输入嵌入层隐向量进行特征提取及注意力计算，得到具有全文语义信息的编码表示；

所述查询问题注意层用于基于所述编码表示计算得到问题到原始文本的第一关注度和原始文本到问题的第二关注度；

所述模型编码器层用于基于原始文本的编码表示及所述第一关注度和第二关注度提取得到全局信息的特征

、以及预测答案在原始文本数据中的开始位置特征/>

和结束位置特征/>

；

所述输出层用于基于全局信息的特征

、开始位置特征/>

和结束位置特征/>

预测原始文本数据中每个位置的单词作为答案开始或结束的概率，并输出所述待处理问题对应的答案。

进一步的，所述智能问答模型的训练包括：

基于所述文本语料库中的原始文本数据构建标准问答对，基于所述标准问答对、原始文本和类别标签构建得到训练样本集；所述标准问答对中包括标准问题和标准答案；

基于所述训练样本集中的标准问题、标准答案和原始文本数据以及类别标签，利用损失函数对所述特征分类模块进行迭代训练，得到收敛的所述智能问答模型的特征分类模块；

将所述特征分类模块中Bert层输出的所述标准问题、标准答案及原始文本数据的特征向量分别与对应的类别标签的特征向量进行融合，得到对应的带有类别信息的特征向量；

将带有类别信息的各个特征向量分别输入所述答案预测模块，基于标准问题和标准答案对应的特征向量，在原始文本特征向量中预测答案，经过损失函数迭代更新，得到收敛的所述智能问答模型的答案预测模块。

进一步的，所述查询问题注意层用于基于所述编码表示计算得到问题到原始文本的关注度和原始文本到问题的关注度，包括：

基于所述嵌入编码层输出的所述问题与原始文本的编码表示，计算得到相似矩阵；

对相似性矩阵的每一行求softmax，得到问题到原始文本的关注度矩阵，表示为：

；

对相似性矩阵的每一列求softmax，得到原始文本到问题的关注度矩阵，表示为：

；

其中，

表示原始文本数据中第i个词，/>

表示输入的问题中第j个词,Q和C分别为问题和原始文本的编码矩阵，/>

为可训练的标量函数，实现对两个输入向量之间的相似性进行编码。

进一步的，所述相似矩阵表示为：

；

为可训练参数，q、c分别为标准问题和原始文本的编码表示，/>

表示元素相乘。

进一步的，所述输出层通过下述公式计算得到答案的起始位置和结束位置的概率：

；

；

其中，

和/>

分别是单词作为答案开始和结束的概率；/>

和/>

是可训练的参数，/>

为模型提取的原始文本的全局信息的特征，/>

为模型提取预测答案开始位置的特征，/>

为模型提取预测答案结束位置的特征。

进一步的，所述答案预测模型训练的损失函数的公式为：

；

其中，

和/>

分别表示模型处理第i个样本时预测的答案的起始和结束位置概率，/>

和/>

为第i个样本对应的标准答案在原始文本中的开始位置和结束位置，N表示样本个数。

另一方面，还提供一种基于特征分类的问答系统，包括数据输入模块、特征分类模块、相似文本检索模块和答案预测模块；

所述数据输入模块用于获取用户输入的待处理问题；

所述特征分类模块用于基于预设的类别对所述待处理问题进行特征提取和分类，得到所述问题对应的特征向量和类别；

所述相似文本检索模块用于在预设的文本语料库中进行检索，得到与所述待处理问题相同类别且相似度最大的原始文本，并将所述待处理问题和原始文本分别于对应的类别标签进行融合；

所述答案预测模块用于基于融合了类别信息的待处理问题，在对应的原始文本中进行答案预测，输出待处理问题对应的答案。

、以及预测答案在原始文本数据中的开始位置特征/>

和结束位置特征/>

；

所述输出层用于基于全局信息的特征

、开始位置特征/>

和结束位置特征/>

本技术方案的有益效果：

1、本发明通过设置特征分类层，对输入的问题获取自定义的分类标签信息，通过在问题及原始文本中融入分类信息，能够准确定位问题的类别以及领域信息，基于融入了类别和领域信息特征数据进行预测，显著提高了问答模型答案预测的准确性。

2、本发明去除了编码器中的循环网络，获取到问题与文本的注意关系，大大缩短了模型的训练时间，提升预测速度，快速给出问题的答案。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分的从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件；

图1为本发明实施例的基于特征分类的问答方法流程图；

图2为本发明实施例的智能问答模型示意图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

本实施例中的一种基于特征分类的问答方法，如图1所示，包括以下步骤：

步骤S1：获取待处理问题，得到所述待处理问题对应的类别；

其中，待处理问题指用户输入的需获取答案的问题。

具体的，本实施例通过预先训练的智能问答模型对输入的问题进行答案预测，智能问答模型包括特征分类模块和答案预测模块。其中，特征分类模块为基于Bert-LSTM的模型，用于得到问题所对应的类别；在进行答案预测时，为了提高问答模型对答案预测的效率和准确性，首先利用特征分类模块对问题进行分类，包括：将获取的待处理问题输入特征分类模块的Bert层，进行特征提取和向量表示，得到具有文本语义信息的特征向量；将得到的特征向量输入LSTM层，经过时间序列特征提取并进行分类，得到待处理问题的类别。

步骤S2：在文本语料库中搜索与所述待处理问题相同类别且相关度最高的原始文本数据；所述文本语料库包括多个不同类别的原始文本数据；

具体的，在构建智能问答模型之前需要构建与问答领域相关的语料库，用于模型训练和答案预测。语料库中包括用于答案预测的原始文本数据和用于模型训练的标准问答对。

示例性的，本实施例可应用于军事领域，通过下述方法构建得到文本语料库和标准问答对：

基于互联网爬虫技术，获取问答相关领域新闻网站的新闻数据；

自定义类别数据库，根据获取到的互联网新闻数据和军事业务需求，将新闻数据划分为：军事装备类、军事新闻、政要人物重要言论类，基于预先定义的类别对所述新闻数据进行分类；

解析各类别的新闻数据，得到各类别的新闻标题、新闻文本、新闻图片、新闻视频和新闻链接；基于所述新闻标题和新闻文本得到所述文本语料库；并将相关联的图片、视频信息以超链接的形式保存。

通过对业务梳理及互联网军事数据分析，在每一类数据库下构造问答对语料，将文本语料库中的原始文本（即在军事互联网数据中获取的新闻标题和新闻文本）以句为单位进行拆解，针对军事互联网数据中的原始文本，构造标准问题和标准答案，形成标准问答对，在实际应用中，可以基于获取的互联网军事原始文本数据，人工进行提问并给出该问题的标准答案，形成标准问答对。

其中，原始文本和标准问答对可用于智能问答模型训练，原始文本同时用作构建模型的预设文本语料库，作为答案预测的基础文本。

在实际应用中，通过智能客服终端获取到输入的问题并进行分类后，利用相似度算法（例如余弦相似度或Jacard相似度算法）获取同类别的数据库中相似度最大的原始文本，用于后续的答案预测。

步骤S3：将所述待处理问题和对应的相关度最大的原始文本数据分别与对应的类别标签融合得到对应的两个带有类别标签信息的特征向量，将两个特征向量输入预先训练的智能问答模型的答案预测模块，基于所述待处理问题对应的特征向量，在原始文本对应的特征向量中预测得到所述待处理问题对应的答案。

本实施例，智能问答模型的答案预测模块为基于QANet的预训练模型，如图2所示，包括输入嵌入层、嵌入编码层、查询问题注意层、模型编码器层和输出层；其中，输入嵌入层用于对输入的带有类别标签信息的标准问题和原始文本对应的特征向量进行词嵌入和字符嵌入，得到输入嵌入层隐向量；嵌入编码层用于基于输入嵌入层隐向量进行特征提取及注意力计算，得到具有全文语义信息的编码表示；查询问题注意层用于基于编码表示计算得到问题到原始文本的第一关注度和原始文本到问题的第二关注度；模型编码器层用于基于原始文本的编码表示及第一关注度和第二关注度提取得到全局信息的特征

、以及预测答案在原始文本数据中的开始位置特征/>

和结束位置特征/>

；

输出层用于基于全局信息的特征

、开始位置特征/>

和结束位置特征/>

预测原始文本数据中每个位置的单词作为答案开始或结束的概率，并输出待处理问题对应的答案。

预训练的智能问答模型通过下述步骤训练得到：

基于前述方法得到的标准问答对、原始文本和类别标签构建得到训练样本集；

将带有类别信息的各个特征向量分别输入答案预测模块，基于标准问题和标准答案对应的特征向量，在原始文本特征向量中预测答案，经过损失函数迭代更新，得到收敛的智能问答模型的答案预测模块。

具体的，将训练样本集中的标准问题文本、标准答案文本和原始文本分别输入特征分类模块的Bert层，经过Bert层进行特征提取和向量表示，得到文本各个位置的字向量、文本向量和位置向量，融合各个向量得到具有全文语义信息的特征向量；将Bert层输出的特征向量输出到LSTM层中，通过LSTM层进行词向量映射，并利用全连接层提取文本信息的抽象特征，在全连接层添加Attention注意力机制，为文本重要的信息属性赋予更高的权重信息，最后通过全连接层和softmax分类器对获得的文本的深层语义特征进行分类，输出每个文本对应的预测类别标签的概率，经过迭代训练，得到收敛的特征分类模块。

进一步将特征分类模块中Bert层输出的标准问题、标准答案及原始文本数据的特征向量分别与对应的类别标签的特征向量进行融合，例如将标准问题、标准答案及原始文本数据的特征向量分别与对应的类别标签的特征向量相加，得到对应的带有类别信息的特征向量；

将带有类别信息的分别输入智能问答模型的答案预测模块的输入嵌入层（InputEmbedding Layer），得到输入嵌入层隐向量。将标准问题、标准答案及原始文本数据对应的嵌入层隐向量分别输入嵌入编码层，得到具有全文语义信息的编码表示；具体的，嵌入编码层包括卷积层、自注意层和前馈神经网络层；其卷积层采用深层可分卷积网络，能够实现较好的记忆功能和良好的泛化能力；对于自注意力层，采用多头注意力机制，能够关注到每一个输入的位置，计算所有位置的权重信息；前馈神经网络层能够实现一个完整的从输入到输出的路径。本发明通过将文本语义特征向量与类别标签向量相融合，得到具有类别标签信息的向量表示，此向量带有问题以及答案文本的类别信息以及领域信息，在训练过程中对标签向量进行拟合，能够更好的判断问题的领域以及特征，可以提高问答的准确性。

将嵌入编码层输出的标准问题、标准答案和原始文本对应的具有全文语义信息的编码表示输入查询问题注意层，计算得到问题到原始文本的第一关注度和原始文本到问题的第二关注度，以获取原始文本与标准问题之间的交互信息。编码后的原始文本和标准问题分别表示为c和q，通过线性函数计算原始文本与标准问题之间的相似性，得到相似矩阵S，其中相似矩阵的计算公式为：

；

表示元素相乘。

通过相似矩阵S构建原始文本到标准问题的第一关注度（context-to-query-attention）和标准问题到文本的第二关注度（query-to-context attention），分别用来确定对于标准问题中每一个单词而言，原文中的哪个词与之最匹配，以及对于原始文本中的每一个单词，标准问题中的哪个词与之最接近。

具体的，通过对相似性矩阵S的每一行求softmax，并将标准问题词向量加权求和计算得到问题到原始文本的关注度矩阵A：

；

通过对相似性矩阵S的每一列求softmax，通过下式将原文词向量加权求和计算得到原始文本到问题的关注度矩阵B；

；

其中，

表示文章中的第i个词，/>

表示问题中的第j个词，Q和C分别为问题和原始文本的编码矩阵，/>

为可训练的标量函数。

得到问题到文本及文本到问题的关注度后，利用模型编码器层，从全局的角度来考虑原始文本和问题之间的关系。具体的，将查询问题注意层得到的A和B和原文C的编码结果按照

的形式拼接在一起，其中/>

表示点乘，并送入3个连续的模型编码层（其中/>

、/>

和/>

分别表示A、B和C的编码结果），分别得到结果/>

、/>

和/>

，其中，/>

为模型提取的原始文本的全局信息的特征，/>

为模型提取问题在原始文本中开始位置的特征，/>

为模型提取的问题在原始文本中结束位置的特征。

最后通过输出层，基于标准答案的向量表示，预测原始文本中每个位置作为答案开始或结束的概率；本实施例中的标准答案源于原始文本，其在原始文本中有一个起始位置和终止位置，可用作模型训练中的一个对照（label），在训练过程中通过正确预测起止位置来降低损失，得到最终的答案预测模块。

具体的，基于模型编码层的三个输出结果

、/>

和/>

，经过softmax运算，得到答案起始位置的概率，如下所示：

；

答案结束位置的概率计算，如下所示：

；

其中，

和/>

分别是单词作为答案开始和结束的概率，/>

和/>

是可训练的参数。

最后通过最小损失函数，逐步修正参数，得到最优的结果，损失函数如下式所示：

；

其中，

和/>

和/>

经过迭代训练后，即得到收敛的包括特征分类模块和答案预测模块的智能问答模型。

特殊的，本实施例的问答可通过智能客服终端实现，在实际应用中，可以通过智能客服终端输入待处理问题，智能客服终端系统获取用户输入的问题信息后，通过客服终端中运行的智能问答模型的特征分类层对问题语句进行语义分析，获取到问题的类别信息；然后在预设的文本语料库中相同类别的语料数据集中进行搜索，获取到与问题相同类别且相关度最大的原始文本；将待处理问题和原始文本以及对应的类别标签输入智能问答模型的答案预测模块，预测得到输入的问题对应的答案，最终将答案输出给用户，并且推荐出与之关联的图片、视频信息，提高用户问答体验。

本发明的另一个实施例，还提供一种基于特征分类的问答系统，包括数据输入模块、特征分类模块、相似文本检索模块和答案预测模块；

所述数据输入模块用于获取用户输入的待处理问题；

其中，所述答案预测模块包括输入嵌入层、嵌入编码层、查询问题注意层、模型编码器层和输出层；

、以及预测答案在原始文本数据中的开始位置特征/>

和结束位置特征/>

；

所述输出层用于基于全局信息的特征

、开始位置特征/>

和结束位置特征/>

综上所述，本发明的实施例提供的基于特征分类的问答方法，本发明通过设置特征分类层，对输入的问题获取自定义的分类标签信息，通过在问题及原始文本中融入分类信息，能够准确定位问题的类别以及领域信息，基于融入了类别和领域信息特征数据进行预测，显著提高了问答模型答案预测的准确性。且本发明去除了编码器中的循环网络，获取到问题与文本的注意关系，大大缩短了模型的训练时间，提升预测速度，快速给出问题的答案。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。