CN112131370B

CN112131370B - 问答模型构建方法及系统、问答方法及装置、审判系统

Info

Publication number: CN112131370B
Application number: CN202011324245.1A
Authority: CN
Inventors: 李鑫; 王竹; 翁洋; 其他发明人请求不公开姓名
Original assignee: Sichuan University; Chengdu Shuzhilian Technology Co Ltd
Current assignee: Sichuan University; Chengdu Shuzhilian Technology Co Ltd
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2021-03-12
Anticipated expiration: 2040-11-23
Also published as: CN112131370A

Abstract

本发明公开了问答模型构建方法及系统、问答方法及装置、审判系统，问答模型包括推理路径检索模型和阅读理解模型，方法包括：构造检索推理路径标注数据集；基于检索推理路径标注数据集，构建推理路径检索模型用于从预设信息中检索出推理路径；构造推理路径检索模型的损失函数；利用检索推理路径标注数据集训练推理路径检索模型；基于训练后的推理路径检索模型，得到问题对应的多个推理路径；基于推理路径和答案构建阅读理解模型用于从多个推理路径中选择最佳推理路径和获得答案，本发明实现基于多跳阅读理解的智能问答，不仅可以基于预设信息给出问题的答案，而且可以给出获取答案的推理过程。

Description

问答模型构建方法及系统、问答方法及装置、审判系统

技术领域

本发明涉及自然语言处理阅读理解领域，具体地，涉及一种问答模型构建方法及系统、问答方法及装置、审判系统。

背景技术

目前大多数问答系统或问答方法是使用非参数的tf-idf/BM25模型获取候选句子/段落，然后通过一个神经阅读理解模型抽取出其中的答案部分。但是这种模型仅仅局限于单跳的问答，也即问题的答案只需要一个句子/段落即可找到，不能抽取出多跳问题所需的支撑证据。

许多领域的问答都是基于句子的多跳的阅读理解，回答问题需要找到多个支撑句子，然后一步步的跳转到答案所在的句子；其中，支撑句子常常和原始问题只有很少的词汇重叠或者语义关系，因此现有的模型并不适用于这种基于句子的多跳的阅读理解。

发明内容

本发明目的是为了实现基于多跳阅读理解的智能问答，其达到的效果不仅可以基于预设信息给出问题的答案，而且可以给出获取答案的推理过程。

为实现上述目的，本发明提供了问答模型构建方法，所述问答模型包括推理路径检索模型和阅读理解模型，所述方法包括：

步骤1.1：构造检索推理路径标注数据集；

步骤1.2：基于检索推理路径标注数据集，构建推理路径检索模型用于从预设信息中检索出推理路径；

步骤1.3：构造推理路径检索模型的损失函数；

步骤1.4：利用检索推理路径标注数据集训练推理路径检索模型，得到训练后的推理路径检索模型；

步骤1.5：基于训练后的推理路径检索模型得到问题对应的多个推理路径；

步骤1.6：基于推理路径和答案构建阅读理解模型用于从多个推理路径中选择最佳推理路径和获得答案。

本方法中的多跳阅读理解模型即问答模型，包括推理路径检索模型和阅读理解模型，输入原始问题和预设信息部分，输出原始问题的答案以及获取答案的推理路径。整个模型由两大组件构成：基于RNN检索出推理路径（句子）模型（即检索模型）和基于推理路径的阅读理解模型（即阅读理解模型）。通过本方法能够构建出问答模型，而通过该问答模型可以获得问题的答案和推理路径。

优选的，数据集的格式为：问题，预设信息，支持回答问题的一个或多个句子，问题的答案；支持回答问题的一个或多个句子为预设信息中的一个或多个句子；通过上述定义的数据集格式不仅仅是为了标识答案，还要标识出获取答案的推理路径（句子），这样使得模型可以根据标注的数据，学习到答案是如何基于推理路径一步步找到的。

支持回答问题的一个或多个句子中附加终止条件表示推理结束；

在第t步时，t 大于或等于1，推理路径检索模型基于RNN的当前隐状态

从候选句子集

中选择一个句子

作为当前的支撑句子，

为预设信息中排除已选择支撑句子的剩余句子集合；

使用BERT的[CLS]输出独立编码问题和该问题对应的候选句子

，然后计算概率

，

表示

被选择加入支持回答问题的一个或多个句子的概率；

当选择到终止条件，该选择过程终止；

在第t步选择句子

的公式为：

其中，

为问题和候选句子的编码，

为问题，

为候选句子，

表示

为

维向量，

表示第t步时RNN的隐状态向量，

是bias项。

优选的，训练数据的ground-truth推理路径为：

，

为终止条件；针对RNN序列预测任务计算

，使用二分类交叉熵（binary cross-entropy）损失函数最大化所有候选句子的概率值；

在第t步的loss函数为：

其中，

是所有候选句子中非ground-truth的句子。

优选的，本方法使用定向搜索（beam search）方式获取一个问题对应的多个推理路径，设置光束尺寸（beam size），在每一步选择到当前时刻t概率之积最大的beam size个句子，构造出beam size个推理路径。beam search是序列解码的搜索算法，目的是可以获取top N 概率最大的推理路径，因为最佳路径不一定就是概率最大的那条路径，因此可以提供一定的容错机制。

优选的，阅读理解模型为多任务联合学习模型，第一个任务为阅读理解，用于从一个推理路径

中抽取出一个答案区间（answer span），因为答案是句子中的某几个相邻的字，所以用答案的起始和结束位置表示答案；第二个任务为推理路径重排序，用于通过计算包含答案的推理路径的概率来做重排序；对于阅读理解任务，拼接问题和推理路径中的句子输入BERT模型，利用BERT模型的自注意力（self-attention）机制做推理路径中句子的相互交互；对于重排序任务，使用BERT的[CLS]的表征计算选择推理路径

回答问题的概率。

优选的，使用BERT的[CLS]的表征计算选择推理路径

回答问题的概率，具体为：

其中，

为用推理路径来回答问题的概率，

为问题和推理路径的编码，

为问题，

为推理路径，

表示D维的向量，

为权重向量；在推断的时候，基于

选择最佳的推理路径

，同时基于

输出答案片段：

其中，

为得分最高的答案片段，

和

分别表示在

第

和第

个字是答案片段起始和结束的概率。

本发明还提供了一种问答模型构建系统，所述问答模型包括推理路径检索模型和阅读理解模型，所述系统包括：

数据集构造单元，用于构造检索推理路径标注数据集；

推理路径检索模型构建单元，用于基于检索推理路径标注数据集，构建推理路径检索模型用于从预设信息中检索出推理路径；

损失函数构造单元，用于构造推理路径检索模型的损失函数；

推理路径检索模型训练单元，用于利用检索推理路径标注数据集训练推理路径检索模型，得到训练后的推理路径检索模型；

推理路径获取单元，用于基于训练后的推理路径检索模型，得到问题对应的多个推理路径；

阅读理解模型构建单元，用于基于推理路径和答案构建阅读理解模型用于从多个推理路径中选择最佳推理路径和获得答案。

其中，通过上述系统能够构建出问答模型，通过问答模型可以获得问题的答案和推理路径。

本发明还提供了一种问答方法，所述方法包括：

步骤1：构建问答模型；

步骤2：将原始问题和与原始问题相关的信息输入问答模型；

步骤3：问答模型输出原始问题的答案和从与原始问题相关的信息中获取答案的推理路径；

所述步骤1具体包括：

步骤1.1：构造检索推理路径标注数据集；

步骤1.3：构造推理路径检索模型的损失函数；

其中，本发明中的问答方法利用问答模型可以获得问题的答案和推理路径。

本发明还提供了一种审判系统，所述系统包括：

问答模型、输入单元、输出单元和审判单元；

所述问答模型包括推理路径检索模型和阅读理解模型；

推理路径检索模型用于从预设信息中检索出推理路径；

阅读理解模型用于从多个推理路径中选择最佳推理路径和获得答案；

所述输入单元，用于法官输入原始问题和案情事实至所述问答模型；

所述输出单元，用于将问答模型输出的原始问题的答案和从案情事实中获取答案的推理路径推送给法官；

所述审判单元，用于法官基于原始问题的答案和从案情事实中获取答案的推理路径辅助获得审判结果。

其中，本发明中的审判系统利用问答模型可以获得问题的答案和推理路径，利用问题的答案和推理路径便于法官进行审判。

本发明还提供了一种问答装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述问答方法的步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述问答方法的步骤。

本发明提供的一个或多个技术方案，至少具有如下技术效果或优点：

本发明中的方法、系统及装置使用了自然语言处理领域的多跳阅读理解技术来实现基于案情事实的智能问答，首先利用基于BERT的RNN Retrieval模型选择可能的候选推理路径，然后利用基于BERT的多任务联合学习Reader模型给出最佳推理路径和正确答案，本发明在基于案情事实的问答领域取得了可供要素式审判系统使用的结果，不仅给出了问题的相关答案，同时也给出了推理路径，方便法官判断结果的正确性。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本发明的一部分，并不构成对本发明实施例的限定；

图1为问答模型的组成示意图；

图2为问答模型构建方法流程示意图；

图3为问答模型构建系统的组成示意图；

图4为问答方法的流程示意图；

图5为审判系统的组成示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在相互不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述范围内的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

可以理解的是，术语“一”应理解为“至少一”或“一个或多个”，即在一个实施例中，一个元件的数量可以为一个，而在另外的实施例中，该元件的数量可以为多个，术语“一”不能理解为对数量的限制。

实施例一

请参考图1和图2，图1为问答模型的组成示意图，图2为问答模型构建方法流程示意图，本发明实施例一提供了问答模型构建方法，所述问答模型包括推理路径检索模型和阅读理解模型，所述方法包括：

步骤1.1：构造检索推理路径标注数据集；

步骤1.3：构造推理路径检索模型的损失函数；

本发明对具有的应用领域不进行限定。以司法领域为例，基于案情事实的问答中，很多问答都是基于句子的多跳的阅读理解，为了回答问题，需要找到多个支撑句子，然后一步步的跳转到答案所在的句子，其中，支撑句子常常和原始问题只有很少的词汇重叠或者语义关系。

在司法领域中，本发明实施例实现了基于多跳阅读理解的案情事实智能问答，当应用到其他领域的问答过程中，本发明同样能够实现以下效果，不仅可以基于案情事实给出问题的答案，而且可以给出获取答案的推理过程，该发明有助于辅助法官判案，用于要素式审判系统之中等。

本发明基于案情事实的智能问答方法，使用本发明中的多跳阅读理解模型，输入原始问题和案情事实部分，输出原始问题的答案以及获取答案的推理路径。整个问答模型由两大组件构成：基于RNN检索出推理路径（句子）模型和基于推理路径的阅读理解模型。详细步骤如下：

构造检索推理路径标注数据集。数据集的格式为：问题，预设信息，支持回答问题的一个或多个句子，问题的答案；支持回答问题的一个或多个句子为来自预设信息中的句子。以上标注都需要人工完成，一般情况下，答案只在支持回答问题的一个或多个句子中的某一个句子，其它的句子是作为推导出答案的支撑句子，也即多跳所要经过的句子。

使用上述推理路径数据，来构建基于Bert的RNN抽取模型。支持回答问题的一个或多个句子中的句子全部来自预设信息中的句子，同时支持回答问题的一个或多个句子附加一个终止条件（EOE，End of evidence）表示推理结束；假设预设信息为[s₁, s₂, s₃, …s₁₀,EOE]，也即案情事实共有10个句子，支持回答问题的一个或多个句子为[s₂, s₇, s₈, EOE]，也即推理需要三跳才能获取正确答案。在第t步(t >=1)时，抽取模型基于RNN的当前隐状态

从候选句子集

中选择一个句子

作为当前的支撑句子，

为集合预设信息排除之前已经选择的支撑句子。初始化的RNN隐状态

独立于任何句子和问题，是一个参数化的向量。使用BERT的[CLS]输出独立编码问题和其对应的候选句子

，然后计算概率

，表示

被选择作为支持回答问题的一个或多个句子的概率，该RNN选择过程是基于历史选择来做的条件概率，因此可以捕捉推理路径中句子之间的关系。当选择到EOE，该选择过程终止，因此给定一个问题，可以捕捉任意长度的推理路径（句子）。在第t步选择句子

的公式如下：

其中，

为问题和候选句子的编码，

为问题，

为候选句子，

表示

为

维向量，

表示第t步时RNN的隐状态向量，

是bias项。

构造上述抽取模型的损失函数。架设本发明训练数据的ground-truth推理路径为：

，

为终止条件，即EOE。针对该RNN序列预测任务，独立地计算

，使用二分类交叉熵（binary cross-entropy）损失函数最大化所有候选句子的概率值。

在第t步的loss函数如下式所示：

其中，

是所有候选句子中非ground-truth的句子，上述所有模型参数，包括Bert部分，均会进行联合优化。

基于上述训练好的模型，我们使用定向搜索（beam search）方式获取一个问题对应的多个推理路径，设置光束尺寸（beam size），这样在每一步，将选择到当前时刻t概率之积最大的beam size个句子，从而最终构造出beam size个推理路径。

基于推理路径和答案构建阅读理解模型，用于选择最佳推理路径和答案。阅读理解模型是一个多任务联合学习模型，第一个任务为阅读理解，用标准的阅读理解方式从一个推理路径

中抽取出一个答案区间（answer span），因为答案是句子中的某几个相邻的字，所以用答案的起始和结束位置表示答案。第二个任务为推理路径重排序，通过计算包含答案的推理路径的概率来做重排序。对于阅读理解任务，拼接问题文本和推理路径中的句子文本输入BERT模型，充分利用BERT模型的自注意力（self-attention）机制做推理路径中句子的相互交互；对于重排序任务，使用BERT的[CLS]的表征计算选择推理路径

回答问题的概率，如下式所示：

其中，

为权重向量。在推断的时候，基于

选择最佳的推理路径

，同时基于

输出答案片段：

其中，

，

表示在

第

和第

个字是答案片段起始和结束的概率。

本发明使用了自然语言处理领域的多跳阅读理解技术来实现基于案情事实的智能问答，首先使用基于BERT的RNN 抽取模型来选择可能的候选推理路径，然后使用基于BERT的多任务联合学习阅读理解模型来给出最佳推理路径和正确答案，本发明在基于案情事实的问答领域取得了可供要素式审判系统使用的结果，不仅给出了问题的答案，同时也给出了推理路径，方便法官判断结果的正确性。

实施例二

请参考图3，图3为问答模型构建系统的组成示意图，本发明实施例二提供了一种问答模型构建系统，所述问答模型包括推理路径检索模型和阅读理解模型，所述系统包括：

数据集构造单元，用于构造检索推理路径标注数据集；

推理路径检索模型训练单元，用于基于检索推理路径标注数据集训练推理路径检索模型，得到训练后的推理路径检索模型；

推理路径获取单元，用于基于训练后的推理路径检索模型，获取问题对应的多个推理路径；

实施例三

请参考图4，图4为问答方法的流程示意图，本发明实施例三提供了一种问答方法，所述方法包括：

步骤1：构建问答模型；

步骤2：将原始问题和与原始问题相关的信息输入问答模型；

所述步骤1具体包括：

步骤1.1：构造检索推理路径标注数据集；

步骤1.3：构造推理路径检索模型的损失函数；

实施例四

请参考图5，图5为审判系统的组成示意图，本发明实施例四提供了一种审判系统，所述系统包括：

问答模型、输入单元、输出单元和审判单元；

所述问答模型包括推理路径检索模型和阅读理解模型；

推理路径检索模型用于从预设信息中检索出推理路径；

其中，利用本系统进行审判的具体例子为：

Question："宋x0的丈夫被谁驾驶的农机撞死"

Context：[

"经审理查明，",

"2014年9月13日13时12，",

"二被告雇佣的司机张某某驾驶一台绿色雪山牌自走式玉米收割机（无号牌、出厂编号：XF2ZXXXXX）在A县B村原告刘x1地里收玉米时，",

"撞倒在地里干活的原告刘x1的父亲刘x2，",

"致使刘x2当场死亡。",

"经A县公安局物证鉴定，",

"刘x2符合巨大钝性外力作用于胸腹部致双肺及肝脏破裂大出血死亡。",

"张某某因过失致人死亡罪被本院判处有期徒刑四年。",

"另查明，",

"被告刚x6、李x7为上述玉米收割机车主。",

"受害人刘x21943年12月31日出生，",

"原告宋x0系其妻子，",

"原告刘x1、刘x2系其儿子，",

"原告刘x3、刘x4系其女儿。",

"上述事实，",

"有原告提供的（2014）安刑初字第XXXX号刑事判决书、A县公安局讯问笔录、户口本、B村委会证明和双方当事人当庭陈述予以证实。"

]

Supporting_facts: [

"撞倒在地里干活的原告刘x1的父亲刘x2，",

"致使刘x2当场死亡。",

"受害人刘x21943年12月31日出生，",

"原告宋x0系其妻子，"

]

Answer: 张某某

从上述例子可以看出，利用本系统可以从案情事实中获得答案和推理过程，便于法官进行审判。

实施例五

本发明实施例五提供了本发明还提供了一种问答装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述问答方法的步骤。

其中，所述处理器可以是中央处理器（CPU，Central Processing Unit），还可以是其他通用处理器、数字信号处理器（digital signal processor）、专用集成电路（Application Specific Integrated Circuit）、现成可编程门阵列（Fieldprogrammablegate array）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的数据，实现发明中问答装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等。此外，存储器可以包括高速随机存取存储器、还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡，安全数字卡，闪存卡、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

实施例六

本发明实施例六提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述问答方法的步骤。

所述问答装置如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序可存储于一计算机可读存介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码、对象代码形式、可执行文件或某些中间形式等。所述计算机可读取介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存储器、点载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.问答模型构建方法，其特征在于，所述问答模型包括推理路径检索模型和阅读理解模型，所述方法包括：

步骤1.1：构造检索推理路径标注数据集；

步骤1.3：构造推理路径检索模型的损失函数；

步骤1.6：基于推理路径和答案构建阅读理解模型用于从多个推理路径中选择最佳推理路径和获得答案；

阅读理解模型为多任务联合学习模型，第一个任务为阅读理解，用于从一个推理路径E中抽取出一个答案区间；第二个任务为推理路径重排序，用于通过计算包含答案的推理路径的概率来做重排序；对于阅读理解任务，拼接问题和推理路径中的句子输入BERT模型，利用BERT模型的自注意力机制做推理路径中句子的相互交互；对于重排序任务，使用BERT的[CLS]的表征计算选择推理路径E回答问题的概率。

2.根据权利要求1所述的问答模型构建方法，其特征在于，数据集的格式为：问题，预设信息，支持回答问题的一个或多个句子，问题的答案；支持回答问题的一个或多个句子为来自预设信息中的句子，支持回答问题的一个或多个句子中附加终止条件表示推理结束；

在第t步时，t大于或等于1，推理路径检索模型基于RNN的当前隐状态h_t从候选句子集C_t中选择一个句子s_i作为当前的支撑句子，C_t为预设信息中排除已选择支撑句子的剩余句子集合；

使用BERT的[CLS]输出独立编码问题和该问题对应的候选句子的s_i，然后计算概率P(s_i|h_t)，P(s_i|h_t)表示s_i被选择加入支持回答问题的一个或多个句子的概率；

当选择到终止条件，该选择过程终止；

在第t步选择句子s_i的公式为：