CN112131370B - 问答模型构建方法及系统、问答方法及装置、审判系统 - Google Patents

问答模型构建方法及系统、问答方法及装置、审判系统 Download PDF

Info

Publication number
CN112131370B
CN112131370B CN202011324245.1A CN202011324245A CN112131370B CN 112131370 B CN112131370 B CN 112131370B CN 202011324245 A CN202011324245 A CN 202011324245A CN 112131370 B CN112131370 B CN 112131370B
Authority
CN
China
Prior art keywords
model
question
path
reasoning
inference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011324245.1A
Other languages
English (en)
Other versions
CN112131370A (zh
Inventor
李鑫
王竹
翁洋
其他发明人请求不公开姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Chengdu Shuzhilian Technology Co Ltd
Original Assignee
Sichuan University
Chengdu Shuzhilian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University, Chengdu Shuzhilian Technology Co Ltd filed Critical Sichuan University
Priority to CN202011324245.1A priority Critical patent/CN112131370B/zh
Publication of CN112131370A publication Critical patent/CN112131370A/zh
Application granted granted Critical
Publication of CN112131370B publication Critical patent/CN112131370B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了问答模型构建方法及系统、问答方法及装置、审判系统,问答模型包括推理路径检索模型和阅读理解模型,方法包括:构造检索推理路径标注数据集;基于检索推理路径标注数据集,构建推理路径检索模型用于从预设信息中检索出推理路径;构造推理路径检索模型的损失函数;利用检索推理路径标注数据集训练推理路径检索模型;基于训练后的推理路径检索模型,得到问题对应的多个推理路径;基于推理路径和答案构建阅读理解模型用于从多个推理路径中选择最佳推理路径和获得答案,本发明实现基于多跳阅读理解的智能问答,不仅可以基于预设信息给出问题的答案,而且可以给出获取答案的推理过程。

Description

问答模型构建方法及系统、问答方法及装置、审判系统
技术领域
本发明涉及自然语言处理阅读理解领域,具体地,涉及一种问答模型构建方法及系统、问答方法及装置、审判系统。
背景技术
目前大多数问答系统或问答方法是使用非参数的tf-idf/BM25模型获取候选句子/段落,然后通过一个神经阅读理解模型抽取出其中的答案部分。但是这种模型仅仅局限于单跳的问答,也即问题的答案只需要一个句子/段落即可找到,不能抽取出多跳问题所需的支撑证据。
许多领域的问答都是基于句子的多跳的阅读理解,回答问题需要找到多个支撑句子,然后一步步的跳转到答案所在的句子;其中,支撑句子常常和原始问题只有很少的词汇重叠或者语义关系,因此现有的模型并不适用于这种基于句子的多跳的阅读理解。
发明内容
本发明目的是为了实现基于多跳阅读理解的智能问答,其达到的效果不仅可以基于预设信息给出问题的答案,而且可以给出获取答案的推理过程。
为实现上述目的,本发明提供了问答模型构建方法,所述问答模型包括推理路径检索模型和阅读理解模型,所述方法包括:
步骤1.1:构造检索推理路径标注数据集;
步骤1.2:基于检索推理路径标注数据集,构建推理路径检索模型用于从预设信息中检索出推理路径;
步骤1.3:构造推理路径检索模型的损失函数;
步骤1.4:利用检索推理路径标注数据集训练推理路径检索模型,得到训练后的推理路径检索模型;
步骤1.5:基于训练后的推理路径检索模型得到问题对应的多个推理路径;
步骤1.6:基于推理路径和答案构建阅读理解模型用于从多个推理路径中选择最佳推理路径和获得答案。
本方法中的多跳阅读理解模型即问答模型,包括推理路径检索模型和阅读理解模型,输入原始问题和预设信息部分,输出原始问题的答案以及获取答案的推理路径。整个模型由两大组件构成:基于RNN检索出推理路径(句子)模型(即检索模型)和基于推理路径的阅读理解模型(即阅读理解模型)。通过本方法能够构建出问答模型,而通过该问答模型可以获得问题的答案和推理路径。
优选的,数据集的格式为:问题,预设信息,支持回答问题的一个或多个句子,问题的答案;支持回答问题的一个或多个句子为预设信息中的一个或多个句子;通过上述定义的数据集格式不仅仅是为了标识答案,还要标识出获取答案的推理路径(句子),这样使得模型可以根据标注的数据,学习到答案是如何基于推理路径一步步找到的。
支持回答问题的一个或多个句子中附加终止条件表示推理结束;
在第t步时,t 大于或等于1,推理路径检索模型基于RNN的当前隐状态
Figure 912944DEST_PATH_IMAGE001
从候选句子集
Figure 392467DEST_PATH_IMAGE002
中选择一个句子
Figure 704630DEST_PATH_IMAGE003
作为当前的支撑句子,
Figure 269604DEST_PATH_IMAGE004
为预设信息中排除已选择支撑句子的剩余句子集合;
使用BERT的[CLS]输出独立编码问题和该问题对应的候选句子
Figure 574683DEST_PATH_IMAGE005
,然后计算概率
Figure 518500DEST_PATH_IMAGE006
Figure 860619DEST_PATH_IMAGE007
表示
Figure 303102DEST_PATH_IMAGE008
被选择加入支持回答问题的一个或多个句子的概率;
当选择到终止条件,该选择过程终止;
在第t步选择句子
Figure 21659DEST_PATH_IMAGE009
的公式为:
Figure 741354DEST_PATH_IMAGE010
Figure 395320DEST_PATH_IMAGE011
Figure 934886DEST_PATH_IMAGE012
其中,
Figure 581768DEST_PATH_IMAGE013
为问题和候选句子的编码,
Figure 890389DEST_PATH_IMAGE014
为问题,
Figure 43153DEST_PATH_IMAGE015
为候选句子,
Figure 804436DEST_PATH_IMAGE016
表示
Figure 5741DEST_PATH_IMAGE017
Figure 496765DEST_PATH_IMAGE018
维向量,
Figure 882747DEST_PATH_IMAGE019
表示第t步时RNN的隐状态向量,
Figure 272271DEST_PATH_IMAGE020
是bias项。
优选的,训练数据的ground-truth推理路径为:
Figure 870743DEST_PATH_IMAGE021
Figure 13011DEST_PATH_IMAGE022
为终止条件;针对RNN序列预测任务计算
Figure 569895DEST_PATH_IMAGE023
,使用二分类交叉熵(binary cross-entropy)损失函数最大化所有候选句子的概率值;
Figure 446715DEST_PATH_IMAGE024
在第t步的loss函数为:
Figure 114457DEST_PATH_IMAGE025
其中,
Figure 111232DEST_PATH_IMAGE026
是所有候选句子中非ground-truth的句子。
优选的,本方法使用定向搜索(beam search)方式获取一个问题对应的多个推理路径,设置光束尺寸(beam size),在每一步选择到当前时刻t概率之积最大的beam size个句子,构造出beam size个推理路径。beam search是序列解码的搜索算法,目的是可以获取top N 概率最大的推理路径,因为最佳路径不一定就是概率最大的那条路径,因此可以提供一定的容错机制。
优选的,阅读理解模型为多任务联合学习模型,第一个任务为阅读理解,用于从一个推理路径
Figure 104595DEST_PATH_IMAGE027
中抽取出一个答案区间(answer span),因为答案是句子中的某几个相邻的字,所以用答案的起始和结束位置表示答案;第二个任务为推理路径重排序,用于通过计算包含答案的推理路径的概率来做重排序;对于阅读理解任务,拼接问题和推理路径中的句子输入BERT模型,利用BERT模型的自注意力(self-attention)机制做推理路径中句子的相互交互;对于重排序任务,使用BERT的[CLS]的表征计算选择推理路径
Figure 327766DEST_PATH_IMAGE028
回答问题的概率。
优选的,使用BERT的[CLS]的表征计算选择推理路径
Figure 408986DEST_PATH_IMAGE029
回答问题的概率,具体为:
Figure 401213DEST_PATH_IMAGE030
其中,
Figure 424532DEST_PATH_IMAGE031
为用推理路径来回答问题的概率,
Figure 869420DEST_PATH_IMAGE032
为问题和推理路径的编码,
Figure 754331DEST_PATH_IMAGE033
为问题,
Figure 866643DEST_PATH_IMAGE034
为推理路径,
Figure 795285DEST_PATH_IMAGE035
表示D维的向量,
Figure 325537DEST_PATH_IMAGE036
为权重向量;在推断的时候,基于
Figure 873193DEST_PATH_IMAGE037
选择最佳的推理路径
Figure 964646DEST_PATH_IMAGE038
,同时基于
Figure 939555DEST_PATH_IMAGE039
输出答案片段:
Figure 827877DEST_PATH_IMAGE040
Figure 179224DEST_PATH_IMAGE041
其中,
Figure 875915DEST_PATH_IMAGE042
为得分最高的答案片段,
Figure 615201DEST_PATH_IMAGE043
Figure 521977DEST_PATH_IMAGE044
分别表示在
Figure 614698DEST_PATH_IMAGE045
Figure 556109DEST_PATH_IMAGE046
和第
Figure 748187DEST_PATH_IMAGE047
个字是答案片段起始和结束的概率。
本发明还提供了一种问答模型构建系统,所述问答模型包括推理路径检索模型和阅读理解模型,所述系统包括:
数据集构造单元,用于构造检索推理路径标注数据集;
推理路径检索模型构建单元,用于基于检索推理路径标注数据集,构建推理路径检索模型用于从预设信息中检索出推理路径;
损失函数构造单元,用于构造推理路径检索模型的损失函数;
推理路径检索模型训练单元,用于利用检索推理路径标注数据集训练推理路径检索模型,得到训练后的推理路径检索模型;
推理路径获取单元,用于基于训练后的推理路径检索模型,得到问题对应的多个推理路径;
阅读理解模型构建单元,用于基于推理路径和答案构建阅读理解模型用于从多个推理路径中选择最佳推理路径和获得答案。
其中,通过上述系统能够构建出问答模型,通过问答模型可以获得问题的答案和推理路径。
本发明还提供了一种问答方法,所述方法包括:
步骤1:构建问答模型;
步骤2:将原始问题和与原始问题相关的信息输入问答模型;
步骤3:问答模型输出原始问题的答案和从与原始问题相关的信息中获取答案的推理路径;
所述步骤1具体包括:
步骤1.1:构造检索推理路径标注数据集;
步骤1.2:基于检索推理路径标注数据集,构建推理路径检索模型用于从预设信息中检索出推理路径;
步骤1.3:构造推理路径检索模型的损失函数;
步骤1.4:利用检索推理路径标注数据集训练推理路径检索模型,得到训练后的推理路径检索模型;
步骤1.5:基于训练后的推理路径检索模型得到问题对应的多个推理路径;
步骤1.6:基于推理路径和答案构建阅读理解模型用于从多个推理路径中选择最佳推理路径和获得答案。
其中,本发明中的问答方法利用问答模型可以获得问题的答案和推理路径。
本发明还提供了一种审判系统,所述系统包括:
问答模型、输入单元、输出单元和审判单元;
所述问答模型包括推理路径检索模型和阅读理解模型;
推理路径检索模型用于从预设信息中检索出推理路径;
阅读理解模型用于从多个推理路径中选择最佳推理路径和获得答案;
所述输入单元,用于法官输入原始问题和案情事实至所述问答模型;
所述输出单元,用于将问答模型输出的原始问题的答案和从案情事实中获取答案的推理路径推送给法官;
所述审判单元,用于法官基于原始问题的答案和从案情事实中获取答案的推理路径辅助获得审判结果。
其中,本发明中的审判系统利用问答模型可以获得问题的答案和推理路径,利用问题的答案和推理路径便于法官进行审判。
本发明还提供了一种问答装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述问答方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述问答方法的步骤。
本发明提供的一个或多个技术方案,至少具有如下技术效果或优点:
本发明中的方法、系统及装置使用了自然语言处理领域的多跳阅读理解技术来实现基于案情事实的智能问答,首先利用基于BERT的RNN Retrieval模型选择可能的候选推理路径,然后利用基于BERT的多任务联合学习Reader模型给出最佳推理路径和正确答案,本发明在基于案情事实的问答领域取得了可供要素式审判系统使用的结果,不仅给出了问题的相关答案,同时也给出了推理路径,方便法官判断结果的正确性。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本发明的一部分,并不构成对本发明实施例的限定;
图1为问答模型的组成示意图;
图2为问答模型构建方法流程示意图;
图3为问答模型构建系统的组成示意图;
图4为问答方法的流程示意图;
图5为审判系统的组成示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在相互不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述范围内的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
可以理解的是,术语“一”应理解为“至少一”或“一个或多个”,即在一个实施例中,一个元件的数量可以为一个,而在另外的实施例中,该元件的数量可以为多个,术语“一”不能理解为对数量的限制。
实施例一
请参考图1和图2,图1为问答模型的组成示意图,图2为问答模型构建方法流程示意图,本发明实施例一提供了问答模型构建方法,所述问答模型包括推理路径检索模型和阅读理解模型,所述方法包括:
步骤1.1:构造检索推理路径标注数据集;
步骤1.2:基于检索推理路径标注数据集,构建推理路径检索模型用于从预设信息中检索出推理路径;
步骤1.3:构造推理路径检索模型的损失函数;
步骤1.4:利用检索推理路径标注数据集训练推理路径检索模型,得到训练后的推理路径检索模型;
步骤1.5:基于训练后的推理路径检索模型得到问题对应的多个推理路径;
步骤1.6:基于推理路径和答案构建阅读理解模型用于从多个推理路径中选择最佳推理路径和获得答案。
本发明对具有的应用领域不进行限定。以司法领域为例,基于案情事实的问答中,很多问答都是基于句子的多跳的阅读理解,为了回答问题,需要找到多个支撑句子,然后一步步的跳转到答案所在的句子,其中,支撑句子常常和原始问题只有很少的词汇重叠或者语义关系。
在司法领域中,本发明实施例实现了基于多跳阅读理解的案情事实智能问答,当应用到其他领域的问答过程中,本发明同样能够实现以下效果,不仅可以基于案情事实给出问题的答案,而且可以给出获取答案的推理过程,该发明有助于辅助法官判案,用于要素式审判系统之中等。
本发明基于案情事实的智能问答方法,使用本发明中的多跳阅读理解模型,输入原始问题和案情事实部分,输出原始问题的答案以及获取答案的推理路径。整个问答模型由两大组件构成:基于RNN检索出推理路径(句子)模型和基于推理路径的阅读理解模型。详细步骤如下:
构造检索推理路径标注数据集。数据集的格式为:问题,预设信息,支持回答问题的一个或多个句子,问题的答案;支持回答问题的一个或多个句子为来自预设信息中的句子。以上标注都需要人工完成,一般情况下,答案只在支持回答问题的一个或多个句子中的某一个句子,其它的句子是作为推导出答案的支撑句子,也即多跳所要经过的句子。
使用上述推理路径数据,来构建基于Bert的RNN抽取模型。支持回答问题的一个或多个句子中的句子全部来自预设信息中的句子,同时支持回答问题的一个或多个句子附加一个终止条件(EOE,End of evidence)表示推理结束;假设预设信息为[s1, s2, s3, …s10,EOE],也即案情事实共有10个句子,支持回答问题的一个或多个句子为[s2, s7, s8, EOE],也即推理需要三跳才能获取正确答案。在第t步(t >=1)时,抽取模型基于RNN的当前隐状态
Figure 204577DEST_PATH_IMAGE048
从候选句子集
Figure 773092DEST_PATH_IMAGE049
中选择一个句子
Figure 569010DEST_PATH_IMAGE050
作为当前的支撑句子,
Figure 446836DEST_PATH_IMAGE051
为集合预设信息排除之前已经选择的支撑句子。初始化的RNN隐状态
Figure 406833DEST_PATH_IMAGE052
独立于任何句子和问题,是一个参数化的向量。使用BERT的[CLS]输出独立编码问题和其对应的候选句子
Figure 638094DEST_PATH_IMAGE053
,然后计算概率
Figure 413152DEST_PATH_IMAGE054
,表示
Figure 337246DEST_PATH_IMAGE055
被选择作为支持回答问题的一个或多个句子的概率,该RNN选择过程是基于历史选择来做的条件概率,因此可以捕捉推理路径中句子之间的关系。当选择到EOE,该选择过程终止,因此给定一个问题,可以捕捉任意长度的推理路径(句子)。在第t步选择句子
Figure 456643DEST_PATH_IMAGE056
的公式如下:
Figure 819491DEST_PATH_IMAGE057
Figure 199788DEST_PATH_IMAGE058
Figure 622679DEST_PATH_IMAGE059
其中,
Figure 88426DEST_PATH_IMAGE060
为问题和候选句子的编码,
Figure 989386DEST_PATH_IMAGE061
为问题,
Figure 614403DEST_PATH_IMAGE062
为候选句子,
Figure 755665DEST_PATH_IMAGE063
表示
Figure 98922DEST_PATH_IMAGE064
Figure 69152DEST_PATH_IMAGE065
维向量,
Figure 424041DEST_PATH_IMAGE066
表示第t步时RNN的隐状态向量,
Figure 860839DEST_PATH_IMAGE067
是bias项。
构造上述抽取模型的损失函数。架设本发明训练数据的ground-truth推理路径为:
Figure 629074DEST_PATH_IMAGE068
Figure 543941DEST_PATH_IMAGE069
为终止条件,即EOE。针对该RNN序列预测任务,独立地计算
Figure 268183DEST_PATH_IMAGE070
,使用二分类交叉熵(binary cross-entropy)损失函数最大化所有候选句子的概率值。
Figure 875882DEST_PATH_IMAGE071
在第t步的loss函数如下式所示:
Figure 803518DEST_PATH_IMAGE072
其中,
Figure 849971DEST_PATH_IMAGE073
是所有候选句子中非ground-truth的句子,上述所有模型参数,包括Bert部分,均会进行联合优化。
基于上述训练好的模型,我们使用定向搜索(beam search)方式获取一个问题对应的多个推理路径,设置光束尺寸(beam size),这样在每一步,将选择到当前时刻t概率之积最大的beam size个句子,从而最终构造出beam size个推理路径。
基于推理路径和答案构建阅读理解模型,用于选择最佳推理路径和答案。阅读理解模型是一个多任务联合学习模型,第一个任务为阅读理解,用标准的阅读理解方式从一个推理路径
Figure 304086DEST_PATH_IMAGE074
中抽取出一个答案区间(answer span),因为答案是句子中的某几个相邻的字,所以用答案的起始和结束位置表示答案。第二个任务为推理路径重排序,通过计算包含答案的推理路径的概率来做重排序。对于阅读理解任务,拼接问题文本和推理路径中的句子文本输入BERT模型,充分利用BERT模型的自注意力(self-attention)机制做推理路径中句子的相互交互;对于重排序任务,使用BERT的[CLS]的表征计算选择推理路径
Figure 958053DEST_PATH_IMAGE075
回答问题的概率,如下式所示:
Figure 497618DEST_PATH_IMAGE076
其中,
Figure 234848DEST_PATH_IMAGE077
为权重向量。在推断的时候,基于
Figure 543469DEST_PATH_IMAGE078
选择最佳的推理路径
Figure 617605DEST_PATH_IMAGE079
,同时基于
Figure 378887DEST_PATH_IMAGE080
输出答案片段:
Figure 783455DEST_PATH_IMAGE081
Figure 71217DEST_PATH_IMAGE082
其中,
Figure 191620DEST_PATH_IMAGE083
Figure 581144DEST_PATH_IMAGE084
表示在
Figure 773091DEST_PATH_IMAGE085
Figure 666091DEST_PATH_IMAGE086
和第
Figure 550871DEST_PATH_IMAGE087
个字是答案片段起始和结束的概率。
本发明使用了自然语言处理领域的多跳阅读理解技术来实现基于案情事实的智能问答,首先使用基于BERT的RNN 抽取模型来选择可能的候选推理路径,然后使用基于BERT的多任务联合学习阅读理解模型来给出最佳推理路径和正确答案,本发明在基于案情事实的问答领域取得了可供要素式审判系统使用的结果,不仅给出了问题的答案,同时也给出了推理路径,方便法官判断结果的正确性。
实施例二
请参考图3,图3为问答模型构建系统的组成示意图,本发明实施例二提供了一种问答模型构建系统,所述问答模型包括推理路径检索模型和阅读理解模型,所述系统包括:
数据集构造单元,用于构造检索推理路径标注数据集;
推理路径检索模型构建单元,用于基于检索推理路径标注数据集,构建推理路径检索模型用于从预设信息中检索出推理路径;
损失函数构造单元,用于构造推理路径检索模型的损失函数;
推理路径检索模型训练单元,用于基于检索推理路径标注数据集训练推理路径检索模型,得到训练后的推理路径检索模型;
推理路径获取单元,用于基于训练后的推理路径检索模型,获取问题对应的多个推理路径;
阅读理解模型构建单元,用于基于推理路径和答案构建阅读理解模型用于从多个推理路径中选择最佳推理路径和获得答案。
其中,通过上述系统能够构建出问答模型,通过问答模型可以获得问题的答案和推理路径。
实施例三
请参考图4,图4为问答方法的流程示意图,本发明实施例三提供了一种问答方法,所述方法包括:
步骤1:构建问答模型;
步骤2:将原始问题和与原始问题相关的信息输入问答模型;
步骤3:问答模型输出原始问题的答案和从与原始问题相关的信息中获取答案的推理路径;
所述步骤1具体包括:
步骤1.1:构造检索推理路径标注数据集;
步骤1.2:基于检索推理路径标注数据集,构建推理路径检索模型用于从预设信息中检索出推理路径;
步骤1.3:构造推理路径检索模型的损失函数;
步骤1.4:利用检索推理路径标注数据集训练推理路径检索模型,得到训练后的推理路径检索模型;
步骤1.5:基于训练后的推理路径检索模型得到问题对应的多个推理路径;
步骤1.6:基于推理路径和答案构建阅读理解模型用于从多个推理路径中选择最佳推理路径和获得答案。
其中,本发明中的问答方法利用问答模型可以获得问题的答案和推理路径。
实施例四
请参考图5,图5为审判系统的组成示意图,本发明实施例四提供了一种审判系统,所述系统包括:
问答模型、输入单元、输出单元和审判单元;
所述问答模型包括推理路径检索模型和阅读理解模型;
推理路径检索模型用于从预设信息中检索出推理路径;
阅读理解模型用于从多个推理路径中选择最佳推理路径和获得答案;
所述输入单元,用于法官输入原始问题和案情事实至所述问答模型;
所述输出单元,用于将问答模型输出的原始问题的答案和从案情事实中获取答案的推理路径推送给法官;
所述审判单元,用于法官基于原始问题的答案和从案情事实中获取答案的推理路径辅助获得审判结果。
其中,本发明中的审判系统利用问答模型可以获得问题的答案和推理路径,利用问题的答案和推理路径便于法官进行审判。
其中,利用本系统进行审判的具体例子为:
Question:"宋x0的丈夫被谁驾驶的农机撞死"
Context:[
"经审理查明,",
"2014年9月13日13时12,",
"二被告雇佣的司机张某某驾驶一台绿色雪山牌自走式玉米收割机(无号牌、出厂编号:XF2ZXXXXX)在A县B村原告刘x1地里收玉米时,",
"撞倒在地里干活的原告刘x1的父亲刘x2,",
"致使刘x2当场死亡。",
"经A县公安局物证鉴定,",
"刘x2符合巨大钝性外力作用于胸腹部致双肺及肝脏破裂大出血死亡。",
"张某某因过失致人死亡罪被本院判处有期徒刑四年。",
"另查明,",
"被告刚x6、李x7为上述玉米收割机车主。",
"受害人刘x21943年12月31日出生,",
"原告宋x0系其妻子,",
"原告刘x1、刘x2系其儿子,",
"原告刘x3、刘x4系其女儿。",
"上述事实,",
"有原告提供的(2014)安刑初字第XXXX号刑事判决书、A县公安局讯问笔录、户口本、B村委会证明和双方当事人当庭陈述予以证实。"
]
Supporting_facts: [
"二被告雇佣的司机张某某驾驶一台绿色雪山牌自走式玉米收割机(无号牌、出厂编号:XF2ZXXXXX)在A县B村原告刘x1地里收玉米时,",
"撞倒在地里干活的原告刘x1的父亲刘x2,",
"致使刘x2当场死亡。",
"受害人刘x21943年12月31日出生,",
"原告宋x0系其妻子,"
]
Answer: 张某某
从上述例子可以看出,利用本系统可以从案情事实中获得答案和推理过程,便于法官进行审判。
实施例五
本发明实施例五提供了本发明还提供了一种问答装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述问答方法的步骤。
其中,所述处理器可以是中央处理器(CPU,Central Processing Unit),还可以是其他通用处理器、数字信号处理器(digital signal processor)、专用集成电路(Application Specific Integrated Circuit)、现成可编程门阵列(Fieldprogrammablegate array)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的数据,实现发明中问答装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等。此外,存储器可以包括高速随机存取存储器、还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡,安全数字卡,闪存卡、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
实施例六
本发明实施例六提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述问答方法的步骤。
所述问答装置如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序可存储于一计算机可读存介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码、对象代码形式、可执行文件或某些中间形式等。所述计算机可读取介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存储器、点载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.问答模型构建方法,其特征在于,所述问答模型包括推理路径检索模型和阅读理解模型,所述方法包括:
步骤1.1:构造检索推理路径标注数据集;
步骤1.2:基于检索推理路径标注数据集,构建推理路径检索模型用于从预设信息中检索出推理路径;
步骤1.3:构造推理路径检索模型的损失函数;
步骤1.4:利用检索推理路径标注数据集训练推理路径检索模型,得到训练后的推理路径检索模型;
步骤1.5:基于训练后的推理路径检索模型得到问题对应的多个推理路径;
步骤1.6:基于推理路径和答案构建阅读理解模型用于从多个推理路径中选择最佳推理路径和获得答案;
阅读理解模型为多任务联合学习模型,第一个任务为阅读理解,用于从一个推理路径E中抽取出一个答案区间;第二个任务为推理路径重排序,用于通过计算包含答案的推理路径的概率来做重排序;对于阅读理解任务,拼接问题和推理路径中的句子输入BERT模型,利用BERT模型的自注意力机制做推理路径中句子的相互交互;对于重排序任务,使用BERT的[CLS]的表征计算选择推理路径E回答问题的概率。
2.根据权利要求1所述的问答模型构建方法,其特征在于,数据集的格式为:问题,预设信息,支持回答问题的一个或多个句子,问题的答案;支持回答问题的一个或多个句子为来自预设信息中的句子,支持回答问题的一个或多个句子中附加终止条件表示推理结束;
在第t步时,t大于或等于1,推理路径检索模型基于RNN的当前隐状态ht从候选句子集Ct中选择一个句子si作为当前的支撑句子,Ct为预设信息中排除已选择支撑句子的剩余句子集合;
使用BERT的[CLS]输出独立编码问题和该问题对应的候选句子的si,然后计算概率P(si|ht),P(si|ht)表示si被选择加入支持回答问题的一个或多个句子的概率;
当选择到终止条件,该选择过程终止;
在第t步选择句子si的公式为:
Figure FDA0002916161760000011
P(si|ht)=σ(wi·ht+b)
Figure FDA0002916161760000021
其中,σ代表sigmoid函数,wi为问题和候选句子的编码,q为问题,si为候选句子,
Figure FDA0002916161760000022
表示wi为d维向量,ht表示第t步时RNN的隐状态向量,
Figure FDA0002916161760000023
是bias项。
3.根据权利要求2所述的问答模型构建方法,其特征在于,训练数据的ground-truth推理路径为:g=[s1,...,s|g|],s|g|为终止条件;针对RNN序列预测任务计算P(si|ht),使用二分类交叉熵损失函数最大化所有候选句子的概率值;
g在第t步的loss函数为:
Figure FDA0002916161760000024
其中,
Figure FDA0002916161760000025
是所有候选句子中非ground-truth的句子。
4.根据权利要求1所述的问答模型构建方法,其特征在于,本方法使用beam search方式获取一个问题对应的多个推理路径,设置beam size,在每一步选择到当前时刻t概率之积最大的beam size个句子,构造出beam size个推理路径。
5.根据权利要求1所述的问答模型构建方法,其特征在于,使用BERT的[CLS]的表征计算选择推理路径E回答问题的概率,具体为:
Figure FDA0002916161760000026
其中,σ代表sigmoid函数,P(E|q)为用推理路径来回答问题的概率,uE为问题和推理路径的编码,q为问题,E为推理路径,
Figure FDA0002916161760000027
表示D维的向量,
Figure FDA0002916161760000028
为权重向量;在推断的时候,基于P(E|q)选择最佳的推理路径Ebest∈E,同时基于Sread输出答案片段:
Figure FDA0002916161760000029
Figure FDA00029161617600000210
其中,Sread为得分最高的答案片段,Pi start
Figure FDA00029161617600000211
分别表示在Ebest第i-th和第j-th个字是答案片段起始和结束的概率。
6.一种问答模型构建系统,其特征在于,所述问答模型包括推理路径检索模型和阅读理解模型,所述系统包括:
数据集构造单元,用于构造检索推理路径标注数据集;
推理路径检索模型构建单元,用于基于检索推理路径标注数据集,构建推理路径检索模型用于从预设信息中检索出推理路径;
损失函数构造单元,用于构造推理路径检索模型的损失函数;
推理路径检索模型训练单元,用于利用检索推理路径标注数据集训练推理路径检索模型,得到训练后的推理路径检索模型;
推理路径获取单元,用于基于训练后的推理路径检索模型得到问题对应的多个推理路径;
阅读理解模型构建单元,用于基于推理路径和答案构建阅读理解模型用于从多个推理路径中选择最佳推理路径和获得答案;
阅读理解模型为多任务联合学习模型,第一个任务为阅读理解,用于从一个推理路径E中抽取出一个答案区间;第二个任务为推理路径重排序,用于通过计算包含答案的推理路径的概率来做重排序;对于阅读理解任务,拼接问题和推理路径中的句子输入BERT模型,利用BERT模型的自注意力机制做推理路径中句子的相互交互;对于重排序任务,使用BERT的[CLS]的表征计算选择推理路径E回答问题的概率。
7.一种问答方法,其特征在于,所述方法包括:
步骤1:构建问答模型;
步骤2:将原始问题和与原始问题相关的信息输入问答模型;
步骤3:问答模型输出原始问题的答案和从与原始问题相关的信息中获取答案的推理路径;
所述步骤1具体包括:
步骤1.1:构造检索推理路径标注数据集;
步骤1.2:基于检索推理路径标注数据集,构建推理路径检索模型用于从预设信息中检索出推理路径;
步骤1.3:构造推理路径检索模型的损失函数;
步骤1.4:利用检索推理路径标注数据集训练推理路径检索模型,得到训练后的推理路径检索模型;
步骤1.5:基于训练后的推理路径检索模型得到问题对应的多个推理路径;
步骤1.6:基于推理路径和答案构建阅读理解模型用于从多个推理路径中选择最佳推理路径和获得答案;
阅读理解模型为多任务联合学习模型,第一个任务为阅读理解,用于从一个推理路径E中抽取出一个答案区间;第二个任务为推理路径重排序,用于通过计算包含答案的推理路径的概率来做重排序;对于阅读理解任务,拼接问题和推理路径中的句子输入BERT模型,利用BERT模型的自注意力机制做推理路径中句子的相互交互;对于重排序任务,使用BERT的[CLS]的表征计算选择推理路径E回答问题的概率。
8.一种审判系统,其特征在于,所述系统包括:
问答模型、输入单元、输出单元和审判单元;
所述问答模型包括推理路径检索模型和阅读理解模型;
推理路径检索模型用于从预设信息中检索出推理路径;
阅读理解模型用于从多个推理路径中选择最佳推理路径和获得答案;
所述输入单元,用于法官输入原始问题和案情事实至所述问答模型;
所述输出单元,用于将问答模型输出的原始问题的答案和从案情事实中获取答案的推理路径推送给法官;
所述审判单元,用于法官基于原始问题的答案和从案情事实中获取答案的推理路径辅助获得审判结果。
9.一种问答装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求7中所述问答方法的步骤。
CN202011324245.1A 2020-11-23 2020-11-23 问答模型构建方法及系统、问答方法及装置、审判系统 Active CN112131370B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011324245.1A CN112131370B (zh) 2020-11-23 2020-11-23 问答模型构建方法及系统、问答方法及装置、审判系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011324245.1A CN112131370B (zh) 2020-11-23 2020-11-23 问答模型构建方法及系统、问答方法及装置、审判系统

Publications (2)

Publication Number Publication Date
CN112131370A CN112131370A (zh) 2020-12-25
CN112131370B true CN112131370B (zh) 2021-03-12

Family

ID=73852273

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011324245.1A Active CN112131370B (zh) 2020-11-23 2020-11-23 问答模型构建方法及系统、问答方法及装置、审判系统

Country Status (1)

Country Link
CN (1) CN112131370B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113837386B (zh) * 2021-02-09 2022-12-13 宏龙科技(杭州)有限公司 一种基于多跳推理的检索方法及装置
CN113408279B (zh) * 2021-06-23 2022-05-20 平安科技(深圳)有限公司 序列标注模型的训练方法、装置、设备及存储介质
CN113609256B (zh) * 2021-08-05 2022-03-15 郑州银丰电子科技有限公司 基于大数据的智慧法院管理系统和方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684354A (zh) * 2017-10-18 2019-04-26 北京国双科技有限公司 数据查询方法和装置
CN110674279A (zh) * 2019-10-15 2020-01-10 腾讯科技(深圳)有限公司 基于人工智能的问答处理方法、装置、设备及存储介质
CN111259673A (zh) * 2020-01-13 2020-06-09 山东财经大学 一种基于反馈序列多任务学习的法律判决预测方法及系统
US20200226163A1 (en) * 2019-01-15 2020-07-16 International Business Machines Corporation Efficient Resolution of Type-Coercion Queries in a Question Answer System using Disjunctive Sub-Lexical Answer Types
CN111782961A (zh) * 2020-08-05 2020-10-16 中国人民解放军国防科技大学 一种面向机器阅读理解的答案推荐方法
CN111814982A (zh) * 2020-07-15 2020-10-23 四川大学 面向多跳问答的动态推理网络及方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10776581B2 (en) * 2018-02-09 2020-09-15 Salesforce.Com, Inc. Multitask learning as question answering
CN110263141A (zh) * 2019-06-25 2019-09-20 杭州微洱网络科技有限公司 一种基于bert的客服问答系统
CN111274800B (zh) * 2020-01-19 2022-03-18 浙江大学 基于关系图卷积网络的推理型阅读理解方法
CN111339281B (zh) * 2020-03-24 2022-04-12 苏州大学 一种多视角融合的阅读理解选择题的答案选择方法
CN111753054B (zh) * 2020-06-22 2023-02-03 神思电子技术股份有限公司 一种基于图神经网络的机器阅读推断方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684354A (zh) * 2017-10-18 2019-04-26 北京国双科技有限公司 数据查询方法和装置
US20200226163A1 (en) * 2019-01-15 2020-07-16 International Business Machines Corporation Efficient Resolution of Type-Coercion Queries in a Question Answer System using Disjunctive Sub-Lexical Answer Types
CN110674279A (zh) * 2019-10-15 2020-01-10 腾讯科技(深圳)有限公司 基于人工智能的问答处理方法、装置、设备及存储介质
CN111259673A (zh) * 2020-01-13 2020-06-09 山东财经大学 一种基于反馈序列多任务学习的法律判决预测方法及系统
CN111814982A (zh) * 2020-07-15 2020-10-23 四川大学 面向多跳问答的动态推理网络及方法
CN111782961A (zh) * 2020-08-05 2020-10-16 中国人民解放军国防科技大学 一种面向机器阅读理解的答案推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding;Devlin J等;《https://tooob.com/api/objs/read/noteid/28717995/》;20181011;第1-14页 *
基于BERT词向量和Attention-CNN的智能司法研究;杨彬;《中国优秀硕士学位论文全文数据库 社会科学Ⅰ辑(月刊)》;20200315;G120-227 *

Also Published As

Publication number Publication date
CN112131370A (zh) 2020-12-25

Similar Documents

Publication Publication Date Title
CN112131370B (zh) 问答模型构建方法及系统、问答方法及装置、审判系统
Pradeep et al. AI for marketing and product innovation: Powerful new tools for predicting trends, connecting with customers, and closing sales
Graham et al. On the evolution of ecological ideas: paradigms and scientific progress
CN111814982B (zh) 面向多跳问答的动态推理网络系统及方法
Druzdzel Probabilistic reasoning in decision support systems: from computation to common sense
CN112926655B (zh) 一种图像内容理解与视觉问答vqa方法、存储介质和终端
Retzlaff et al. The history of agent-based modeling in the social sciences
Kalita Machine learning: Theory and practice
CN115238169A (zh) 一种慕课可解释推荐方法、终端设备及存储介质
CN117453898B (zh) 基于思维链的跨模态问答的处理方法和装置
EP4030355A1 (en) Neural reasoning path retrieval for multi-hop text comprehension
Haas Improving natural resource management: Ecological and political models
CN112328881A (zh) 文章推荐方法、装置、终端设备及存储介质
Baker Research methods using R: Advanced data analysis in the Behavioural and biological sciences
CN113609355B (zh) 一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质
CN113407704A (zh) 文本匹配方法、装置、设备及计算机可读存储介质
Henderson et al. Enhancing Stealth Assessment in Game-Based Learning Environments with Generative Zero-Shot Learning.
CN115700550A (zh) 标签分类模型训练和对象筛选方法、设备及存储介质
CN113762324A (zh) 虚拟对象检测方法、装置、设备及计算机可读存储介质
Uriagereka et al. A framework for the comparative study of language
CN113989080B (zh) 基于深度知识-项目联合追踪的学习者画像方法及其系统
US11574244B2 (en) States simulator for reinforcement learning models
CN118569447B (zh) 一种融合代码和得分信息的编程知识追踪方法
Wagaman et al. Probability: with applications and R
Gasarch Review of A Map that Reflects the Territory: Essays by the LessWrong Community Author: LessWrong

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 610041, No. 24, south section of first ring road, Chengdu, Sichuan, Wuhou District

Patentee after: SICHUAN University

Patentee after: Chengdu shuzhilian Technology Co., Ltd

Address before: 610041, No. 24, south section of first ring road, Chengdu, Sichuan, Wuhou District

Patentee before: SICHUAN University

Patentee before: Chengdu shuzhilian Technology Co., Ltd