CN112650845B

CN112650845B - 一种基于bert与知识表示学习的问答系统及方法

Info

Publication number: CN112650845B
Application number: CN202011643557.9A
Authority: CN
Inventors: 姜洪超; 金莉; 石岩; 康宗; 罗晓东; 王勇
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2023-01-03
Anticipated expiration: 2040-12-30
Also published as: CN112650845A

Abstract

本发明提供的一种基于BERT与知识表示学习的问答系统及方法，包括以下步骤：步骤1，获取原始数据集，并对原始数据集进行训练，得到训练后的数据集；步骤2，接收问题语句，分别对接收到的问题语句进行实体识别和属性识别，分别得到实体信息和属性信息；步骤3，将步骤2中得到的实体信息与步骤1中的原始数据集进行实体链接，得到标准实体信息；步骤4，将步骤3中得到的标准实体信息、步骤2中得到的属性信息、以及步骤1中得到的训练后的数据集进行推理，得到标准实体信息与属性信息对应的答案，进而得到问题语句的答案；本发明解决了传统的智能问答系统预定义规则有限而无法回答各种类型问句的问题。

Description

一种基于BERT与知识表示学习的问答系统及方法

技术领域

本发明涉及到自然语言处理技术领域，特别是设计到一种基于BERT与知识表示学习的问答系统及方法。

背景技术

问答系统(Question Answering System,QA)是信息检索系统的一种高级形式，它能用准确、简洁的自然语言回答用户用自然语言提出的问题。传统的智能问答系统通过问句解析获取实体与属性信息，然后基于预定义问句规则生成结构化查询语句，进而在数据集中检索答案并返回。但基于规则的答案推理仅能够处理已定义的规则，不能覆盖问句的所有情况。

发明内容

本发明的目的在于提供一种基于BERT与知识表示学习的问答系统及方法，解决了传统的智能问答系统预定义规则有限而无法回答各种类型问句的问题。

为了达到上述目的，本发明采用的技术方案是：

本发明提供的一种基于BERT与知识表示学习的问答方法，包括以下步骤：

步骤1，获取原始数据集，并对原始数据集进行训练，得到训练后的数据集；

步骤2，接收问题语句，对接收到的问题语句分别进行实体识别和属性识别，分别得到实体信息和属性信息；

步骤3，将步骤2中得到的实体信息与步骤1中的原始数据集进行实体链接，得到标准实体信息；

步骤4，将步骤3中得到的标准实体信息、步骤2中得到的属性信息、以及步骤1中得到的训练后的数据集进行推理，得到标准实体信息与属性信息对应的答案，进而得到问题语句的答案。

优选地，步骤1中，对原始数据集进行训练，得到训练后的数据集，具体方法是：

利用基于TransE的知识表示学习方法对原始数据集进行训练。

优选地，利用基于TransE的知识表示学习方法对原始数据集进行训练，具体方法是：

S21，获取原始数据集，该原始数据集中包括有多组三元组；

S22，利用Word2vec预训练词向量对S21中得到的原始数据集中的每组三元组进行初始化，获得每组三元组的初始向量；

S23，利用基于TransE模型训练S22中得到的每组三元组的初始向量，获得每组包含语义信息的三元组向量，进而得到训练后的数据集。

优选地，步骤2中，分别对接收到的问题语句进行实体识别和属性识别，具体方法是：

利用基于BERT+CRF的命名实体识别方法对问题语句进行实体识别，得到实体信息；

利用基于BERT的文本分类方法对S1中的问题语句进行属性识别，得到属性信息。

优选地，利用基于BERT+CRF的命名实体识别方法对问题语句进行实体识别，具体方法是：

将得到的问题语句按字进行分隔，之后输入至BERT预训练模型中进行自编码，获得问句编码向量；

将得到的问句编码向量输入至实体识别模型的CRF层，得到预测标签序列；

根据得到的预测标签序列对所述问题语句进行命名实体识别，得到实体信息。

优选地，利用基于BERT的文本分类方法对S1中的问题语句进行属性识别，具体方法是：

S41、将得到的问题语句输入至BERT预训练模型进行字编码，获得问句编码向量；

S42、利用Softmax多分类器对句编码向量中[CLS]向量进行分类，得到问题语句对应的属性信息。

优选地，步骤3中，将步骤2中得到的实体信息与步骤1中的原始数据集进行实体链接，得到标准实体信息，具体方法是：

利用Word2vec模型，将S步骤2中得到的实体信息与步骤1中的原始数据集中的每组三元组进行词语相似度匹配，将相似度值最高的三元组中的实体作为标准实体，进而得到标准实体信息。

优选地，S4中，将步骤3中得到的标准实体信息、步骤2中得到的属性信息、以及步骤1中得到的训练后的数据集进行推理，得到标准实体信息与属性信息对应的答案，具体方法是：

将得到的标准实体信息与训练后的数据集进行匹配，判断标准实体信息的类别，其中，当标准实体信息为头实体时，进入S62；否则进入S65；

S62，将判别后的标准实体信息与步骤2中得到的属性信息分别转化为训练后的数据集中对应的向量；

S63，根据S62中得到的向量，结合知识推理方法，获得问题语句对应的答案向量；

S64，将得到的答案向量与训练后的数据集中的尾实体向量进行余弦相似度匹配，取相似度最高的尾实体向量对应的尾实体作为最终答案；

S65，将判别后的标注实体信息与S5中得到的属性信息分别转化为训练后的数据集中对应的向量；

S66，根据S62中得到的向量，结合知识推理方法，获得问题语句对应的答案向量；

S67，将得到的答案向量与训练后的数据集中头实体向量进行余弦相似度匹配，取相似度最高的头实体向量对应的头实体作为最终答案。

随着知识表示学习的发展，数据集中数据可以转化为包含语义信息的向量，则答案推理过程可以转换为向量计算，进而获取答案。

一种基于BERT与知识表示学习的问答系统，该系统能够用于所述的一种基于BERT与知识表示学习的问答系统，包括采集模块、识别模块、以及处理模块；其中，

采集模块用于获取原始数据集，并对原始数据集进行训练，得到训练后的数据集；

识别模块用于将接收到的问题语句进行实体识别和属性识别，分别得到实体信息和属性信息；

处理模块用于将实体信息与原始数据集进行实体链接，得到标准实体信息；并将标准实体信息、属性信息、训练后的数据集进行推理处理，得到标准实体信息与属性信息对应的答案，进而得到问题语句的答案。

与现有技术相比，本发明的有益效果是：

本发明提供的一种基于BERT与知识表示学习的问答方法，针对传统问答系统预定义规则有限而无法回答各种类型问句的问题，本发明利用基于TransE的知识推理方法，避免预定义规则，使问答系统可以回答各类问题；针对传统问答系统问句解析模型复杂的问题，本发明利用基于BERT预训练模型解析问句，降低了问句解析模型复杂度；进而本发明解决了传统的智能问答系统预定义规则有限而无法回答各种类型问句的问题。

本发明提供的一种基于BERT与知识表示学习的问答系统，通过利用处理模块的知识推理方法，避免了人工预定义问句类型的步骤，丰富了问答系统可回答问题类型；通过利用识别模块对问题语句的实体信息和属性信息进行识别，降低了问句解析模型复杂度，提高了问句解析效率；本系统解决了传统的智能问答系统预定义规则有限而无法回答各种类型问句的问题。

附图说明

图1为本发明实施例的流程示意图；

图2为本发明实施例的数据集训练图；

图3为本发明实施例的TransE模型图；

图4为本发明实施例的实体识别模型图；

图5为本发明实施例的属性识别模型图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

参照图1，本发明实施例中提供的一种基于BERT与知识表示学习的问答方法，包括以下步骤：

S1，接收用户问题语句；

S2，利用基于TransE的知识表示学习方法训练数据集；

S3，利用基于BERT+CRF的命名实体识别方法对问题语句进行实体识别，得到实体信息；

S4，利用基于Word2vec的词语相似度匹配方法对S3中得到的实体识别结果进行实体链接，得到标准实体信息；

S5，利用基于BERT的文本分类方法对S1中的问题语句进行属性识别，得到属性信息；

S6，利用基于TransE的知识推理方法对S4中得到的标准实体信息和S5中得到的属性信息进行推理，获取得到标准实体与属性信息对应的答案，并将答案返回给用户。

如上述步骤S1所述，要实现问答方法，首先需要接收用户问题语句，利用文字输入方式接收问题语句。

如上述步骤S2所述，为使数据集中实体或属性包含语义信息，需要对数据集进行训练，此处采用的训练方法为基于TransE的知识表示学习方法。此方法的输入为数据集三元组，输出为包含语义信息的三元组向量。以此方法输入三元组：(围城，作者，钱钟书)为例，输出为(l_h，l_r，l_t)，其中l_h，l_r，l_t为“围城”、“作者”、“钱钟书”分别对应的包含语义信息的三元组向量。

如上所述步骤S3所述，实体识别即从问题语句中识别包含的实体信息，此处采用的实体识别方法为BERT+CRF(Bidirectional Encoder Representations fromTransformers+Conditional Random Field)的序列标注模型，实体识别模型的输入是问题语句的字序列，输出是问题语句的实体信息。以实体识别模型输入“围城的作者是谁？”为例，转成问题语句的字序列是为：(围，城，的，作，者，是，谁，？)，实体识别输出为：(O，B，I，O，O，O，O，O，O，O)，其中B表示实体的开始字，I表示实体的中间字或结束字，O表示不是实体的字。模型的输出为问题语句识别出的实体信息“围城”。

如上述步骤S4所述，利用基于Word2vec的词语相似度匹配方法对S3中得到的实体识别结果进行实体链接，具体方法是：

利用Word2vec模型，将S3中得到的实体信息与原始数据集中的每组三元组进行词语相似度匹配，得到标准实体信息。

实体链接的输入为问题语句识别出的实体以及原始数据集中实体集，输出为数据集中某一实体。以问题语句识别出的实体信息为“围城”，数据集中存储的实体集为(围城，呐喊，西游记)为例，将实体信息与实体集分别转换为Word2vec模型对应词向量，“围城”为X₁，(围城，呐喊，西游记)为(Y₁，Y₂，Y₃)。利用Word2vec模型相似度计算方法依次计算实体信息与实体集中每个实体的相似度值，取实体集中相似度值最大的实体为问题语句识别出实体对应数据集中实体。

如上述步骤S5所述，属性识别即识别出问题语句对应属性，此处采用的属性识别为基于BERT的文本分类方法。属性识别的输入为问题语句的子序列，输出为问题语句对应的属性。以属性识别模型输入“围城的作者是谁？”为例，转成问题语句的字序列为：(围，城，的，作，者，是，谁，？)，属性识别模型识别出的问题语句对应属性为：“作者”。

如上述步骤S6所述，利用基于TransE的知识推理方法获取实体与属性对应的答案，并将答案返回给用户。TransE知识推理方法的输入为实体与属性信息，输出为实体与属性对应答案。以TransE知识推理方法输入(实体：围城，属性：作者)为例，输出为“钱钟书”。

在一个具体实例中，如图2所示，所述利用基于TransE的知识表示学习方法训练原始数据集，包括以下步骤：

S21，获取原始数据集，该原始数据集中包括有多组三元组；

S22，利用Word2vec预训练词向量对S21中得到的原始数据集中的每组三元组进行初始化，获得每组三元组的初始向量(l_h，l_r，l_t)；

如上所述，举例说明：

数据集中选取三元组(围城，作者，钱钟书)，利用Word2vec预训练词向量对其进行初始化，获得初始向量(l_h，l_r，l_t)；

利用基于TransE模型训练三元组初始向量，定义损失函数如下：

其中，l_h为头实体向量，l_r为关系向量，l_t为尾实体向量，L₁，L₂为距离，即向量l_h+l_r和l_t的L₁或L₂距离。

为了增强知识表示的区分能力，采用最大间隔方法，利用如下优化目标函数，更新三元组初始向量：

其中，S是合法三元组的集合，S^-为错误三元组的集合，max(x，y)返回x和y中较大的值，γ为合法三元组得分与错误三元组得分之间的间隔距离；

三元组初始向量经过训练更新后，获得包含语义信息的三元组向量(l_h，l_r，l_t)。

在一个具体实例中，如图3所示，所述利用基于BERT+CRF的命名实体识别方法对问题语句进行实体识别步骤，包括：

S31、先将所述问题语句按字进行分隔，输入BERT预训练模型进行字编码，获得问句编码向量；

S32、将问句编码向量输入到实体识别模型的CRF层，得到预测标签序列；

S33、根据预测的标签序列确定所述问题语句中的实体信息。

如上所述，举例说明：

实体识别模型输入：“围城的作者是谁？”；

经过BERT预训练模型得到：[[CLS],X₁，X₂，X₃，X₄，X₅，X₆，X₇，X₈，[SEP]]，其中[CLS]为代表整句的向量，[SEP]为句间的分隔符，X₁～X₈为问句对应字向量；

将[CLS]向量输入CRF层后，实体识别结果输出：(O，B，I，O，O，O，O，O，O，O)，其中B表示实体的开始字，I表示实体的中间或结束字，O表示不是实体的字；

模型的输出为问题语句实体部分“围城”。

在一个具体的实施例中，如图4所示，所述基于BERT的文本分类方法对问句进行属性识别步骤，包括：

S41、先将所述问题语句输入BERT预训练模型进行字编码，获得问句编码向量；

S42、取问句编码向量中[CLS]向量利用Softmax多分类器进行分类，确定问句对应属性信息。

如上所述，举例说明，属性识别模型输入：“围城的作者是谁？”；

将[CLS]向量进行Softmax多分类操作，属性识别模型输出为问题语句属性部分“作者”。

在一个具体的实施例中，如图2所示，所述利用基于TransE的知识推理方法获取实体与属性对应的答案，并将答案返回给用户步骤，包括：

S61，将S4中得到的标准实体信息与训练后的数据集中的每组包含语义信息的三元组向量进行匹配，判断标准实体信息的类别，所述类别为头实体或尾实体；其中，当标准实体信息为头实体时，进入S62；否则进入S65；

S62，将判别后的标准实体信息与S5中得到的属性信息分别转化为训练后的数据集中对应的向量；

S64，将得到的答案向量与训练后的数据集中尾实体向量进行余弦相似度匹配，取相似度最高的尾实体向量对应的尾实体作为最终答案；

如上所述，举例说明：

(1)问题语句为“围城的作者是谁？”，识别出实体为“围城”，属性为“作者”，将实体与数据集中头实体与尾实体进行匹配，确定“围城”为头实体，则问句答案为尾实体；

将实体“围城”与属性“作者”分别转化为数据集中对应向量l_h和l_r；

利用知识推理方法获得答案向量：l_t＝l_h+l_r；

利用余弦相似度计算问句答案向量l_t与数据集中尾实体向量集合相似度值，取相似度值最大的向量对应实体“钱钟书”作为答案返回给用户。

(2)问题语句为“以曹雪芹为作者的书是？”，识别出实体为“曹雪芹”，属性为“作者”，将实体与数据集中头实体与尾实体进行匹配，确定“曹雪芹”为尾实体，则问句答案为头实体；

将实体“曹雪芹”与属性“作者”分别转化为数据集中对应向量l_t和l_r；

利用知识推理方法获得答案向量：l_h＝l_t-l_r；

利用余弦相似度计算问句答案向量l_h与数据集中头实体向量集合相似度值，取相似度值最大的向量对应实体“红楼梦”作为答案返回给用户。

本实施例提供的一种基于BERT与知识表示学习的开放域问答方法，通过利用基于TransE的知识推理方法，避免了人工预定义问句类型的步骤，丰富了问答系统可回答问题类型；通过利用BERT预训练模型，降低了问句解析模型复杂度，提高了问句解析效率。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于BERT与知识表示学习的问答方法，其特征在于，包括以下步骤：

步骤4，将步骤3中得到的标准实体信息、步骤2中得到的属性信息、以及步骤1中得到的训练后的数据集进行推理，得到标准实体信息与属性信息对应的答案，进而得到问题语句的答案；

步骤4中，将步骤3中得到的标准实体信息、步骤2中得到的属性信息、以及步骤1中得到的训练后的数据集进行推理，得到标准实体信息与属性信息对应的答案，具体方法是：

S65，将判别后的标注实体信息与步骤2中得到的属性信息分别转化为训练后的数据集中对应的向量；

2.根据权利要求1所述的一种基于BERT与知识表示学习的问答方法，其特征在于，步骤1中，对原始数据集进行训练，得到训练后的数据集，具体方法是：

利用基于TransE的知识表示学习方法对原始数据集进行训练。

3.根据权利要求2所述的一种基于BERT与知识表示学习的问答方法，其特征在于，利用基于TransE的知识表示学习方法对原始数据集进行训练，具体方法是：

S21，获取原始数据集，该原始数据集中包括有多组三元组；

4.根据权利要求1所述的一种基于BERT与知识表示学习的问答方法，其特征在于，步骤2中，分别对接收到的问题语句进行实体识别和属性识别，具体方法是：

利用基于BERT的文本分类方法对接收到的问题语句进行属性识别，得到属性信息。

5.根据权利要求4所述的一种基于BERT与知识表示学习的问答方法，其特征在于，利用基于BERT+CRF的命名实体识别方法对问题语句进行实体识别，具体方法是：

6.根据权利要求4所述的一种基于BERT与知识表示学习的问答方法，其特征在于，利用基于BERT的文本分类方法对接收到的问题语句进行属性识别，具体方法是：

7.根据权利要求1所述的一种基于BERT与知识表示学习的问答方法，其特征在于，步骤3中，将步骤2中得到的实体信息与步骤1中的原始数据集进行实体链接，得到标准实体信息，具体方法是：

利用Word2vec模型，将步骤2中得到的实体信息与步骤1中的原始数据集中的每组三元组进行词语相似度匹配，将相似度值最高的三元组中的实体作为标准实体，进而得到标准实体信息。

8.一种基于BERT与知识表示学习的问答系统，其特征在于，该系统能够用于实现权利要求1-7中任一项所述的一种基于BERT与知识表示学习的问答系统，包括采集模块、识别模块、以及处理模块；其中，