CN113704434A

CN113704434A - 知识库问答方法、电子设备及可读存储介质

Info

Publication number: CN113704434A
Application number: CN202111020358.7A
Authority: CN
Inventors: 王炜华; 飞龙; 王广义; 李彬; 高光来
Original assignee: Inner Mongolia University
Current assignee: Inner Mongolia University
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2021-11-26

Abstract

本发明公开了一种知识库问答方法、电子设备及可读存储介质，包括以下步骤：步骤1，面向特定领域构建语料库；步骤2，训练MA‑B模型对待回答问题进行分类；步骤3，抽取领域标识与待回答问题相同的用户问题，计算待回答问题与各用户问题的相似性分数；步骤4，利用相似性分数确定待回答问题的相似问题，将相似问题对应的答案作为候选答案；步骤5，计算各候选答案与待回答问题的相关性分数，基于相关性分数和相似性分数确定最终答案；本发明的计算量少，获得的最终答案与待回答问题契合程度高。

Description

知识库问答方法、电子设备及可读存储介质

技术领域

本发明属于信息处理技术领域，特别是涉及一种知识库问答方法、电子设备及可读存储介质。

背景技术

自动问答主要包括基于传统搜索引擎的问答、基于社区的问答和基于知识库的问答，知识库实现了对客观世界从字符串描述到结构化的语言描述，反映了客观世界的知识映射，因其更加精确的回答，得到了研究者们的广泛关注，也成为了目前问答系统最主要的方式；目前，已经有一些面向英语和汉语的大规模知识库，如Freebase、YAGO、DBpedia、百度知心和搜狗知立方等，知识库的构建取决于实体的识别和关系的抽取，实体识别有基于规则的和基于统计的，基于统计的有最大熵、条件随机场以及神经网络的方法，其中基于神经网络的性能最好，关系抽取主要包括基于模式匹配的和基于统计的，比较有代表性的有：车万翔等人提出的基于特征向量的SVM方法、陈宇等人提出的基于深度信念网络的关系抽取方法、甘丽新等人提出的基于句法语义特征的实体关系抽取方法。

随着深度学习技术的飞速发展，越来越多的研究者开始将目光转向利用深度神经网络进行知识库问答，其将知识库问答看作语义匹配过程，通过向量间计算直接得到用户的答案，为了获得更加完整语义，研究者们将更多的信息融入词向量训练，使词向量的语义表示优化，将知识库中实体间的关系利用向量表示，其中具有代表性的有TransE、TransH、TransR和STransE，然而现有的知识库问答效率和准确度较差，不能满足用户的实际需求。

发明内容

本发明实施例的目的在于提供一种知识库问答方法，在相似问题判别过程中引入领域标识，基于领域标识挑选知识库中的用户问题，再基于相似性分数确定相似问题，使相似性分数的计算量减少，相似问题的范围更加准确，确定的相似问题与待回答问题更加贴合；最后利用BERT模型计算待回答问题与候选答案之间的相关性，使输出的最终答案与待回答问题的契合程度更高，符合用户的实际需求。

本发明实施例的目的在于提供一种电子设备及计算机可读存储介质。

为解决上述技术问题，本发明所采用的技术方案是，知识库问答方法，包括以下步骤：

步骤1，采集领域相关的用户问题及其涉及的领域标识构成语料库，所述语料库还包括所述用户问题的扩展问题和对应的答案；

步骤2，训练MA-B模型，对预处理后的待回答问题q进行分类，获得待回答问题q的领域标识；

步骤3，从语料库中抽取领域标识与待回答问题q相同的用户问题Q，训练BERT模型，分别提取待回答问题q与各用户问题Q的语义特征表示，计算待回答问题q与各用户问题Q的相似性分数；

步骤4，基于相似性分数确定待回答问题q的相似问题，将相似问题对应的答案作为候选答案A；

步骤5，计算各候选答案A与待回答问题q的相关性分数，确定与待回答问题q最接近的相似问题，将其对应的答案作为最终答案输出。

进一步的，所述领域标识包括贪污受贿类、债券债务类、劳动纠纷类、刑事辩护类、合同纠纷类、侵权类、劳动法、行政诉讼类、建设工程类、法律法规类。

进一步的，所述MA-B模型包括依次连接的输入层、BiLSTM层、多头注意力机制和分类层；

所述输入层用于输入待回答问题的字符嵌入和语素嵌入；

所述BiLSTM层用于提取输入序列的上下文信息；

所述多头注意力机制用于对上下文信息进行多self attention计算，并将计算结果拼接获得待回答问题的特征表示；

所述分类层用于对特征表示进行分类获得待回答问题的领域标识。

进一步的，所述预处理包括对待回答问题的文本进行分句，清洗无效数据和HTML标签，设定句子长度范围。

进一步的，所述相似性分数的计算公式如下：

向量A为待回答问题q的语义特征表示，向量B为用户问题Q的语义特征表示，α为向量A与向量B的夹角，cosα为向量A与向量B的相似度，k为向量A的分量个数总数，向量A与向量B的分量个数相同，i为表示分量个数的变量，f_Ai和f_Bi分别为向量A和B的第i个分量。

进一步的，所述步骤5的具体过程如下：将各候选答案A与待回答问题q组成问答对(q,A)，判断各问答对(q,A)的相关性分数，基于相似性分数和相关性分数计算各相似问题的最终分数，将最终得分最高的相似问题作为最接近的相似问题，其对应的答案就是最终答案；

最终分数＝V_sim*t+Relevance(q，A)

其中V_sim为待回答问题q与用户问题Q的相似性分数，t为超参数，Relevance(q，A)为问答对(q,A)的相关性分数。

一种电子设备，包括处理器、存储器和通信总线，其中，处理器、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述的方法步骤。

一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法步骤。

本发明的有益效果是：本发明使用领域标识将相似问题的范围缩小，减少了待回答问题与用户问题相似性分数的计算量，使确定的相似问题与待回答问题更加贴合，基于确定的相似问题获取候选答案，再基于候选答案与待回答问题的相关性分数及相似性分数，确定输出的最终答案，获得的答案与待回答问题的契合程度较高，能满足用户的实际使用需求，且待回答问题答案的给出效率较高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的流程图。

图2是预训练的BERT模型图。

图3是BiLSTM神经网络结构图。

图4是MA-B模型的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明是基于FAQ库(Frequently Asked Question，常用问题和解答)研究的方法，FAQ库通常由标准问答对组成，每个标准问答对关联一些扩展问题，这些扩展问题与标准问题具有相同的语义，如“违反党纪行为主要有哪些？”与“有哪些行为是违反党纪的？”，然而需要回答的问题涉及多个子领域，若直接从FAQ库中获取与其相似的问题及答案，那相似问题的计算量是非常庞大的，答案的给出效率也会相应降低，本发明实施例将领域信息作为语义信息的特征，对知识库中的用户问题进行粗略分类，再通过对比分类结果中用户问题与扩展问题之间的语义相似性，进而将与用户问题最为相似的问题所对应的标准答案返回给用户，实现对待回答问题的自动应答，且减少了相似问题的计算量，使答案给出的效率提高。

如图1所示，知识库问答方法，具体包括以下步骤：

S1，从知识问答社区网站、相关网站获取问答语料，获取用户问题及其涉及的子领域(即领域标识)构成语料库，所述语料库还包括所述用户问题的扩展问题和对应的答案。

所述领域标识主要包括贪污受贿类、债券债务类、劳动纠纷类、刑事辩护类、合同纠纷类、侵权类、劳动法、行政诉讼类、建设工程类和法律法规类等。

S2，训练MA-B模型，对预处理后的待回答问题q进行分类，获得待回答问题q的领域标识。

获取大量用户问题的文本语料，人为添加领域标识，以此为训练数据集训练MA-B模型，若特定领域的数据样本较少，可能无法将模型训练到能正常使用的程度，可以收集其他相关领域的用户问题-领域标识数据对MA-B模型进行预训练，再使用特定领域的样本数据进行微调，以获得能正常、准确分类的MA-B模型，且受益于多任务学习，统一模型仅用原始参数的一半就获得了进一步改进。

所述MA-B模型结构如图4所示，此模型包括依次连接的输入层、BiLSTM层、多头注意力机制和分类层，所述输入层将用户问题的字符嵌入(Character embedding)和语素嵌入(Morpheme embedding)作为输入，BiLSTM层用于有效获取输入序列的上下文信息，多头注意力机制(Multi-head attention)用于多次self attention计算，并将计算结果拼接和线性映射，获得待回答问题的特征表示，分类层使用Softmax函数对多头注意力机制得到的特征表示进行分类，得到最终的分类结果，即待回答问题的领域表示，BiLSTM神经网络结构如图3所示，其中

为正向编码向量，

反向编码向量，i、r、a、n均为用户问题的语素，h_t为隐层的向量，y为分类结果。

S3，从语料库中抽取领域标识与待回答问题q相同的用户问题Q，训练BERT模型，分别提取待回答问题q与各用户问题Q的语义特征表示，计算待回答问题q与各用户问题Q的相似性分数。

训练BERT模型时，获取大量无标注高质量文本语料，对文本语料进行分句，根据构词规则将文本切分为词干和词缀，对文本进行窄的无中断空格符匹配，清洗无效数据和HTML标签，设定句子的长度范围，删除太长或太短的句子，在大量文本语料的基础上运行自监督学习，为单词学习一个好的特征表示。

所述文本语料中包含开放域语料，使训练的BERT模型能在开放域上学习到更多的先验知识，在下游任务中只需少量的数据就能达到很好的效果，BERT模型主要基于双向Transformer编码器实现的，其不同于传统双向模型仅考虑句子左右两侧的上下文信息，还融合了所有层结构中共同依赖的左右侧上下文信息，能更加深入的给出词的上下文表示，泛化能力更强，其结构如图2所示，E_n为第n个词向量，Trm为Transformer，T_n为基于E_nTransformer输出的向量。

待回答问题q与各用户问题Q的相似性分数V_sim，计算公式如下：

S4，基于相似性分数V_sim判断待回答问题q与各用户问题Q是否属于相似问题，将相似问题中相似性分数较高的前十个用户问题Q对应的答案作为候选答案A。

S5，将待回答问题q与各候选答案A组成问答对(q,A)，使用BERT分类器对问答对(q,A)进行分类，通过将双向Transformer应用于输入的问答对，捕获待回答问题与候选答案之间的相关性，分类器输出结果为0～1之间的相关性分数，输出结果为0时表示两者不相关，输出结果为1时表示两者显著相关。

计算各用户问题及其对应的答案与待回答问题的最终分数，将得分最高的用户问题作为最接近的相似问题，将其对应的答案作为待回答问题的答案输出。

最终分数＝V_sim*t+Relevance(q，A)

其中，V_sim为待回答问题q与用户问题Q的相似性分数，t为超参数，Relevance(q，A)为问答对(q,A)的相关性分数。

本发明实施例在实施过程中，考虑到为每个子任务分配不同的BERT模型，可能会导致高昂的成本，所以共享一个BERT编码器同时实现待回答问题语义特征表示提取，和对问答对(q,A)进行相关分类，在共享层的基础上定义特定于子任务的层，在多任务学习框架下训练统一的BERT模型。

本发明实施例在实施时首先使用领域标识确定相似问题的范围，使相似性分数的计算量减少，计算速度较快，有利于待回答问题答案给出效率的提高，同时使用领域标识和相似性分数联合确定相似问题，确定的相似问题更加贴合待回答问题，相似问题的候选答案与待回答问题的相关性较高，在基于相关性分数等确定最终答案，得到的答案更加准确，更符合用户的实际需求。

使用本发明实施例所述方法可以在汉语、蒙古文等多语种方面进行知识库问答，在对模型训练数据集进行预处理时可根据各语种不同的构词规则，对文本语料进行相应的分词、无效数据清洗、HTML标签清洗等操作，以训练适用于不同语种的BERT模型和MA-B模型，以对待回答问题进行智能问答。

本发明还包含一种电子设备，包括存储器和处理器，所述存储器用于存储各种计算机程序指令，所述处理器用于执行所述计算机程序指令完成上述全部或部分步骤；电子设备可以与一个或多个外部设备通信，还可与一个或多个使用户与该电子设备交互的设备通信，和/或与使得该电子设备能与一个或多个其他计算设备进行通信的任何设备通信，电子设备还可以通过网络适配器与一个或多个网络(例如局域网、广域网和/或公共网络)通信。

本发明还包括一种存储有计算机程序的计算机可读介质，该计算机程序可以被处理器执行实现相似问题的确定及最终答案的给出等过程，所述计算机可读介质可以包括但不限于磁存储设备、光盘、数字多功能盘、智能卡及闪存设备，此外本发明所述的可读储存介质能代表用于存储信息的一个或多个设备和/或其他机器可读介质，术语“机器可读介质”包括但不限于能存储、包含和/或承载代码和/或指令和/或数据的无线通道和各种其他介质(和/或存储介质)。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.知识库问答方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的知识库问答方法，其特征在于，所述领域标识包括贪污受贿类、债券债务类、劳动纠纷类、刑事辩护类、合同纠纷类、侵权类、劳动法、行政诉讼类、建设工程类、法律法规类。

3.根据权利要求1所述的知识库问答方法，其特征在于，所述MA-B模型包括依次连接的输入层、BiLSTM层、多头注意力机制和分类层；

所述输入层用于输入待回答问题的字符嵌入和语素嵌入；

所述BiLSTM层用于提取输入序列的上下文信息；

4.根据权利要求1所述的知识库问答方法，其特征在于，所述预处理包括对待回答问题的文本进行分句，清洗无效数据和HTML标签，设定句子长度范围。

5.根据权利要求1所述的知识库问答方法，其特征在于，所述相似性分数的计算公式如下：

6.根据权利要求1所述的知识库问答方法，其特征在于，所述步骤5的具体过程如下：将各候选答案A与待回答问题q组成问答对(q,A)，判断各问答对(q,A)的相关性分数，基于相似性分数和相关性分数计算各相似问题的最终分数，将最终得分最高的相似问题作为最接近的相似问题，其对应的答案就是最终答案；

最终分数＝V_sim*t+Relevance(q，A)

7.一种电子设备，其特征在于，包括处理器、存储器和通信总线，其中，处理器、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-6任一所述的方法步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。