CN115169368B - 基于多文档的机器阅读理解方法及装置 - Google Patents

基于多文档的机器阅读理解方法及装置 Download PDF

Info

Publication number
CN115169368B
CN115169368B CN202211087134.2A CN202211087134A CN115169368B CN 115169368 B CN115169368 B CN 115169368B CN 202211087134 A CN202211087134 A CN 202211087134A CN 115169368 B CN115169368 B CN 115169368B
Authority
CN
China
Prior art keywords
answer
data
document
model
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211087134.2A
Other languages
English (en)
Other versions
CN115169368A (zh
Inventor
侯晋峰
肖立鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wofeng Times Data Technology Co ltd
Original Assignee
Beijing Wofeng Times Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wofeng Times Data Technology Co ltd filed Critical Beijing Wofeng Times Data Technology Co ltd
Priority to CN202211087134.2A priority Critical patent/CN115169368B/zh
Publication of CN115169368A publication Critical patent/CN115169368A/zh
Application granted granted Critical
Publication of CN115169368B publication Critical patent/CN115169368B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于多文档的机器阅读理解方法及装置,涉及自然语言处理技术领域,该方法包括:基于问题数据,从文档库筛选出多个目标文档;将问题数据和所有目标文档输入至阅读理解模型,获得阅读理解模型输出的与问题数据对应的答案数据。本发明提供的基于多文档的机器阅读理解方法及装置,基于问题数据筛选出多个与问题关联的目标文档,以问题数据和目标文档作为阅读理解模型的输入,输出的结果为与问题数据对应的答案数据。实现通过神经网络从多个文档中抽取出相应的非连续的答案片段,以重新组合的方式生成答案,能够解决用户提出的问题需要综合多个文档才能进行回答的问题,大大提高阅读理解的准确度和使用范围。

Description

基于多文档的机器阅读理解方法及装置
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于多文档的机器阅读理解方法及装置。
背景技术
机器阅读理解是一种能够根据用户的问题,直接从文档中抽取片段作为答案的技术。具有阅读理解技术的搜索引擎可以直接以自然语言返回用户提出的问题的正确答案,而不是返回一系列相关的web页面,使对话更加自然。
传统的机器阅读理解技术主要是基于单文档的阅读理解,即默认条件是答案在单个文档中就可以包含,且是连续的片段,即使是一些多文档的阅读理解技术,也仅仅是利用了多文档中的上下文信息进行指代消解或者信息补全,最终的答案信息依旧是多文档中的某个单文档的某个连续片段。对于一些答案是跨文档的多个非连续片段的对话场景,无法获取准确较高的答案。
发明内容
本发明提供一种基于多文档的机器阅读理解方法及装置,用以解决现有技术中跨文档的对话场景准确率较低的缺陷。
本发明提供一种基于多文档的机器阅读理解方法,包括:
基于问题数据,从文档库筛选出多个目标文档;
将所述问题数据和所有所述目标文档输入至阅读理解模型,获得所述阅读理解模型输出的与所述问题数据对应的答案数据;
其中,所述阅读理解模型是基于样本问题数据、样本答案数据、所述样本答案数据对应标注的答案片段,以及答案片段的排序位置训练得到的。
根据本发明提供的一种基于多文档的机器阅读理解方法,所述阅读理解模型包括片段抽取层、片段排序层和答案转换层;
将所述问题数据和所有所述目标文档输入至所述片段抽取层,获取所述片段抽取层输出的答案片段;
将所述问题数据和所述答案片段输入至所述片段排序层进行排序,获取所述片段排序层输出的答案序列;
将所述问题数据和所述答案序列输入至所述答案转换层,获取所述答案转换层输出的所述答案数据。
根据本发明提供的一种基于多文档的机器阅读理解方法,
所述答案转换层包括生成式模型;
所述将所述问题数据和所述答案序列输入至所述答案转换层,获取所述答案转换层输出的所述答案数据,包括:
将所述问题数据和所述答案序列输入至所述生成式模型,获取所述生成式模型输出的上下文语句;
基于所述答案转换层对所述上下文语句进行整合,得到所述答案数据;
其中,所述生成式模型是基于样本问题数据和所述样本答案数据训练得到的,所述生成式模型包括目标词典,所述目标词典包含连接词以及指向所述目标文档存储位置的指针。根据本发明提供的一种基于多文档的机器阅读理解方法,所述片段排序层包括片段排序模型;
所述将所述问题数据和所述答案片段输入至所述片段排序层进行排序,获取所述片段排序层输出的答案序列,包括:
将所述问题数据和所述答案片段输入至所述片段排序模型进行排序,获取所述片段排序模型输出的所述答案序列;
其中,所述片段排序模型是基于样本问题数据、所述样本答案数据,以及所述样本答案数据对应标注的答案片段的排序位置训练得到的。
根据本发明提供的一种基于多文档的机器阅读理解方法,所述片段抽取层包括片段抽取模型;
所述将所述问题数据和所有所述目标文档输入至所述片段抽取层,获取所述片段抽取层输出的答案片段,包括:
将所述问题数据和所述目标文档输入至所述片段抽取模型,获取所述片段抽取模型输出的抽取结果;
基于所述片段抽取层从所述抽取结果中筛选出与所述问题数据关联的所述答案片段;
其中,所述片段抽取模型是是基于样本问题数据、所述样本答案数据,以及所述样本答案数据对应标注的答案片段训练得到的。
根据本发明提供的一种基于多文档的机器阅读理解方法,所述基于问题数据,从文档库筛选出多个目标文档,包括:
基于所述问题数据,获取关键词数据;
基于所述关键词数据,在所述文档库中匹配到所述目标文档。
根据本发明提供的一种基于多文档的机器阅读理解方法,所述基于所述关键词数据,在所述文档库中匹配到所述目标文档,包括:
基于所述关键词数据,在所述文档库中匹配到候选文档;
根据所述候选文档的排序结果,从所述候选文档中筛选出所述目标文档。
本发明还提供一种基于多文档的机器阅读理解装置,包括:
文档检索模块,用于基于问题数据,从文档库筛选出多个目标文档;
阅读理解模块,用于将所述问题数据和所有所述目标文档输入至阅读理解模型,获得所述阅读理解模型输出的与所述问题数据对应的答案数据;
其中,所述阅读理解模型是基于样本问题数据、样本答案数据、所述样本答案数据对应标注的答案片段,以及答案片段的排序位置训练得到的。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于多文档的机器阅读理解方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于多文档的机器阅读理解方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于多文档的机器阅读理解方法。
本发明提供的基于多文档的机器阅读理解方法及装置,基于问题数据筛选出多个与问题关联的目标文档,以问题数据和目标文档作为阅读理解模型的输入,输出的结果为与问题数据对应的答案数据。实现通过神经网络从多个文档中抽取出相应的非连续的答案片段,以重新组合的方式生成答案,能够解决用户提出的问题需要综合多个文档才能进行回答的问题,大大提高阅读理解的准确度和使用范围。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于多文档的机器阅读理解方法的流程示意图;
图2是本发明提供的基于多文档的机器阅读理解装置的结构示意图;
图3是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。
应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
图1是本发明提供的基于多文档的机器阅读理解方法的流程示意图。如图1所示,本发明实施例提供的基于多文档的机器阅读理解方法,包括:步骤101、基于问题数据,从文档库筛选出多个目标文档。
需要说明的是,本发明实施例提供的基于多文档的机器阅读理解方法的执行主体是基于多文档的机器阅读理解装置。
本发明实施例提供的基于多文档的机器阅读理解方法的应用场景为,给定一个问题,对多个文档中结构化解析有效的答案片段,以供后续将多个答案片段进行推理整合,得到该问题对应的答案。
本申请实施例提供的基于多文档的机器阅读理解方法适用于用户通过电子设备对用户所提出的任一问题基于机器阅读理解实现问题解答。
上述电子设备可以以各种形式来实施。例如,本申请实施例中描述的电子设备可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置、智能手环、智能手表等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。下面,假设电子设备是移动终端。然而,本领域技术人员将理解的是,除了特别用于移动目的的元件之外,根据本申请实施例的构造也能够应用于固定类型的终端。
具体地,在步骤101中,基于多文档的机器阅读理解装置在对用户输入的问题数据预处理后,从文档库中筛选出与问题数据相关联的多个目标文档。
其中,问题数据,是指用户向基于多文档的机器阅读理解装置所依托运行的电子设备输入的问题内容,其内容格式包括但不限于文本内容、音频内容等,本发明实施例对此不作具体限定。
可以理解的是,基于多文档的机器阅读理解装置需要从问题数据提取出问题的文本内容后,再进行分词、去除停用词等预处理操作。
步骤102、将所述问题数据和所有所述目标文档输入至阅读理解模型,获得所述阅读理解模型输出的与所述问题数据对应的答案数据。
其中,所述阅读理解模型是基于样本问题数据、样本答案数据、所述样本答案数据对应标注的答案片段,以及答案片段的排序位置训练得到的。
需要说明的是,阅读理解模型可以是一种神经网络模型,神经网络的结构和参数包括但不限于神经网络的输入层,隐含层和输出层的层数,以及每一层的权重参数等。本发明实施例对神经网络的种类和结构不作具体限定。
例如,阅读理解模型可以是一种神经网络模型,由输入层、隐藏层和输出层组成,其中:
输入层在整个网络的最前端部分,直接接收问题数据及其关联的目标文档,并对二者进行数字化编码。
隐藏层可以有一层或多层,通过自身的神经元对输入向量以加权求和的方式来进行运算。
输出层是最后一层,用来对加权求和后得到的向量进行解码,从目标文档中抽取答案片段,经排序组合处理后,输出答案数据。
需要说明的是,样本数据包含与样本数据对应的样本问题数据和样本答案数据,以及分别在样本答案数据中标注的答案片段,以及该答案片段的排序位置。将样本数据按照一定比例,划分为训练集和测试集。
示例性地,训练集和测试集在样本数据中的占比包括但不限于9:1、8:2等,本发明实施例对此不作具体限定。
具体地,在步骤102中,基于多文档的机器阅读理解装置对构建好的阅读理解模型各层间的权值系数初始化,再将训练集中的一组样本问题数据和样本答案数据的标注内容输入到当前权值系数下的神经网络,依次计算输入层、隐藏层和输出层的各节点的输出。输出层最后的输出结果与其实际连接位置状态类型之间的累积误差,根据梯度下降法,修正输入层与隐藏层各节点间的权值系数。依照上述过程,直至遍历训练集中的所有样本,可以得到输入层与隐藏层的权值系数。
基于多文档的机器阅读理解装置根据神经网络输入层与隐藏层的权值系数,还原步骤102中的阅读理解模型,并将测试集中的一组问题数据输入到训练好的阅读理解模型,可以得到该问题数据对应的答案数据。
其中,答案数据,是指用户向基于多文档的机器阅读理解装置所依托运行的电子设备输出的答案文本内容。
可以理解的是,基于多文档的机器阅读理解装置还可以将答案数据转化为其他格式,例如,可以转化成语音内容进行播报,本发明实施例对此不作具体限定。
本发明实施例基于问题数据筛选出多个与问题关联的目标文档,以问题数据和目标文档作为阅读理解模型的输入,输出的结果为与问题数据对应的答案数据。实现通过神经网络从多个文档中抽取出相应的非连续的答案片段,以重新组合的方式生成答案,能够解决用户提出的问题需要综合多个文档才能进行回答的问题,大大提高阅读理解的准确度和使用范围。
在上述任一实施例的基础上,所述阅读理解模型包括片段抽取层、片段排序层和答案转换层。
将所述问题数据和所有所述目标文档输入至所述片段抽取层,获取所述片段抽取层输出的答案片段。
将所述问题数据和所述答案片段输入至所述片段排序层进行排序,获取所述片段排序层输出的答案序列。
将所述问题数据和所述答案序列输入至所述答案转换层,获取所述答案转换层输出的所述答案数据。
具体地,基于多文档的机器阅读理解装置种内置的阅读理解模型由输入层、隐藏层和输出层组成。隐藏层的作用是对问题和相关联的目标文档进行抽取和组合,获取对应问题的答案。
本发明实施例对隐藏层的结构不作具体限定。
优选地,隐藏层至少包含三层,分别是片段抽取层、片段排序层和答案转换层。其中:
片段抽取层的作用是,从每一个目标文档中抽取可能包含与用户提出的问题对应的答案片段。
片段排序层的作用是,根据各个答案片段之间信息的依赖关系以及先后顺序,对片段抽取层得到的多个答案片段进行排序,得到答案序列。
其中,答案序列,是指按照答案构成的上下文依赖顺序存放答案片段的序列集合。
答案转换层的作用是,根据答案序列中排序好的多个答案片段,生成用户问题的答案数据。
其中,答案数据的融合方式不作具体限定。
示例性地,答案数据可以是基于答案序列中的答案片段,直接拼接形成的。
示例性地,答案数据可以是基于答案序列中所指示的答案片段的排布顺序,依次将答案片段经语义转换后再拼接,生成文意通顺的答案数据,且答案数据中与答案片段语义相同的文字部分顺序,与进答案片段在答案序列中出现的顺序一致。
本发明实施例基于片段抽取层对将问题数据及其关联的目标文档进行答案片段的抽取,通过片段排序层对片段抽取层输出的答案片段进行排序后,再经由答案转换层将以一定顺序排列的答案片段,转换成答案数据。实现通过神经网络从多个文档中抽取出相应的非连续的答案片段,以重新组合的方式生成答案,能够解决用户提出的问题需要综合多个文档才能进行回答的问题,大大提高阅读理解的准确度和使用范围。
在上述任一实施例的基础上,所述答案转换层包括生成式模型。
所述将所述问题数据和所述答案序列输入至所述答案转换层,获取所述答案转换层输出的所述答案数据,包括:将所述问题数据和所述答案序列输入至所述生成式模型,获取所述生成式模型输出的上下文语句。
其中,所述生成式模型是基于样本问题数据和所述样本答案数据训练得到的,所述生成式模型包括目标词典,所述目标词典包含连接词以及指向所述目标文档存储位置的指针。需要说明的是,生成式模型主要利用编码器-解码器结构,将答案序列中的数据编码为隐特征,后续被解码器用于生成其他模态的文本内容,以回复用户的问题。其训练过程为:根据样本问题数据和所述样本答案数据,自动学习如何生成对话文本。
其中,生成式模型包括但不限于Seq2Seq模型、Transformer模型等。
优选地,生成式模型进行了深度的改造,采用基于指针的seq2seq的生成式模型,模型中的词典只包含常用的连接词以及指向目标文档存储位置的指针,以保证主要的信息都来源于与答案片段相关联的目标文档。
具体地,基于多文档的机器阅读理解装置将问题数据和所述答案序列输入至生成式模型,将答案序列的每一个答案片段进行编码变成一个向量后,根据上下文信息对每一步进行解码,输出与各答案片段对应的上下文语句。
基于所述答案转换层对所述上下文语句进行整合,得到所述答案数据。
具体地,基于多文档的机器阅读理解装置将解码得到的上下文语句,根据器对应的上下文依赖关系进行拼接,得到文意通顺的答案数据。
本发明实施例基于生成式模型,在与问题数据及其对应的答案序列保留原有语句在文章中的语义,获取所述生成式模型输出的上下文语句,通过理解上下文的基础上,将上下文语句拼接得到答案数据。实现在生成答案的语义转换过程,答案数据来源也主要是基于以答案序列中原始的答案片段,在保证回答的多样性与相关性的同时,有效提升回复质量。
在上述任一实施例的基础上,所述片段排序层包括片段排序模型。
将所述问题数据和所述答案片段输入至所述片段排序层进行排序,获取所述片段排序层输出的答案序列,包括:将所述问题数据和所述答案片段输入至所述片段排序模型进行排序,获取所述片段排序模型输出的所述答案序列。
其中,所述片段排序模型是基于样本问题数据、所述样本答案数据,以及所述样本答案数据对应标注的答案片段的排序位置训练得到的。
需要说明的是,片段排序模型主要根据与问题样本所对应的答案样本中标注的各个答案片段与各答案片段的排序位置的关系进行模型训练,以保证最终得到的答案片段的排序结果,与答案样本中的语句顺序基本一致。
具体地,基于多文档的机器阅读理解装置根据训练好的模型参数,对片段排序模型进行设置后,通过该模型对问题数据和所述答案片段进行排序,可以得到答案序列。
排序结果可以是一个概率值组合或者答案片段组合,本发明实施例对排序结果的形式不作具体限定。
若排序结果是一个概率值组合,则可以通过每一个概率值说明答案片段在某一位置上的概率。
若排序结果是一个答案片段组合,则可以通过模型获取一个中间数值结果,将数值结果符合预先设置的判断条件,则为该数值结果所对应的答案片段放置到的答案片段组合中的相应位置,直至所有答案片段判断结束后,生成答案序列。
本发明实施例基于片段排序模型,在与问题数据及其对应的答案片段重新排序之后,得到答案序列。进而将答案序列输入到生成式模型生成上下文通顺的答案数据。实现在生成答案序列的过程,对多个答案片段进行重新组合生成答案,有效提高模型的准确率和答案的可读性。
在上述任一实施例的基础上,所述片段抽取层包括片段抽取模型。将所述问题数据和所有所述目标文档输入至所述片段抽取层,获取所述片段抽取层输出的答案片段,包括:将所述问题数据和所述目标文档输入至所述片段抽取模型,获取所述片段抽取模型输出的抽取结果。
其中,所述片段抽取模型是是基于样本问题数据、所述样本答案数据,以及所述样本答案数据对应标注的答案片段训练得到的。
需要说明的是,片段抽取模型主要根据与问题样本所对应的答案样本中标注的各个答案片段关系进行模型训练,以保证最终得到的答案片段存在于答案样本中。
具体地,基于多文档的机器阅读理解装置根据训练好的模型参数,对片段抽取模型进行设置后,将问题数据和目标文档同时输入到该模型中,可以得到答案片段相关的抽取结果。
抽取结果可以是一个概率值或者答案片段内容,本发明实施例对抽取结果的形式不作具体限定。
若抽取结果是一个概率值,则可以通过每一个概率值说明答案片段存在于答案中的概率。
若抽取结果是一个答案片段内容,则可以通过模型获取一个中间数值结果,将数值结果符合预先设置的判断条件,则为该数值结果所对应的片段作为答案片段输出。
基于所述片段抽取层从所述抽取结果中筛选出与所述问题数据关联的所述答案片段。
具体地,对于任一目标文档的抽取过程,片段抽取模型对于该文档输出的抽取结果包含多个与问题数据相关的片段,则基于多文档的机器阅读理解装置依据抽取结果,从众多片段中筛选出关联度高的片段作为答案片段进行输出。
示例性地,其具体实施方式如下:
(1)将多篇目标文档作为片段抽取模型的输入。
(2)将用户问题和第一篇目标文档同时输入到片段抽取模型中,模型的输出为第一篇目标文档中跟用户问题相关的多个片段内容以及置信度。对于置信度低于预设阈值的片段进行舍弃,而置信度大于或者等于预设阈值的片段则作为模型的输出,即答案片段。
其中,答案片段的数量可以为0,即表示该文档中不包含任何跟用户问题相关的片段。
(3)对剩下的每一篇目标文档都执行(2)操作,得到多个目标文档对应的答案片段。
本发明实施例基于片段抽取模型,依据文章和问题之间存在相关性,从与问题数据对应的目标文档抽取出答案片段。进而对答案片段进行重新排序组合,生成上下文通顺的答案数据。实现在生成答案片段的过程,综合多个与问题相关的文档进行问题的答复,有效提高模型的准确率和答案的可读性。
在上述任一实施例的基础上,基于问题数据,从文档库筛选出多个目标文档,包括:基于所述问题数据,获取关键词数据。
具体地,在步骤101中,基于多文档的机器阅读理解装置将问题数据转换成对应的文本内容后,进行分析,提取出与问题本身相关的关键词数据。
基于所述关键词数据,在所述文档库中匹配到所述目标文档。
需要说明的是,文档库,用于存放与提问场景对应的文档。文档库中至少存在一个包含与提问场景的答案的文档。
其中,文档库包括但不限于产品文档、政策文档等,本发明实施例对此不作具体限定。
具体地,基于多文档的机器阅读理解装置根据用户问题中包含的关键词数据,在内置的文档库中进行检索,将包含关键词数据的文档作为目标文档输出。
本发明实施例基于问题数据获取关键词数据,通过关键词数据在文档库查询与包含关键词数据的目标文档。进而从多个目标文档抽取出答案片段,进行重新排序组合,生成上下文通顺的答案数据。能够解决用户提出的问题需要综合多个文档才能进行回答的问题,大大提高阅读理解的准确度和使用范围。
在上述任一实施例的基础上,基于所述关键词数据,在所述文档库中匹配到所述目标文档,包括:基于所述关键词数据,在所述文档库中匹配到候选文档。
具体地,基于多文档的机器阅读理解装置根据用户问题中包含的关键词数据,在内置的文档库中进行检索,将包含关键词数据的文档作为候选文档输出。
根据所述候选文档的排序结果,从所述候选文档中筛选出所述目标文档。
具体地,基于多文档的机器阅读理解装置对搜索得到的候选文档和问题之间的相关性进行排序,将计算得到的相关性降序排列,从候选文档中选取相关性最高的N个文档作为目标文档输出。
其中,N为大于或者等于1的正整数。
可以理解的是,相关性的计算和排序算法包括但不限于BM25、lightGBM等算法,本发明实施例对此不作具体限定。
本发明实施例基于关键词数据在文档库查询与包含关键词数据的候选文档,通过文档与问题之间的相关性,从候选文档中筛选出相关性最高的多个目标文档。进而从多个目标文档抽取出答案片段,进行重新排序组合,生成上下文通顺的答案数据。能够解决用户提出的问题需要综合多个文档才能进行回答的问题,大大提高阅读理解的准确度和使用范围。
图2是本发明提供的基于多文档的机器阅读理解装置的结构示意图。在上述任一实施例的基础上,如图2所示,该装置包括:文档检索模块210和阅读理解模块220,其中:
文档检索模块210,用于基于问题数据,从文档库筛选出多个目标文档。
阅读理解模块220,用于将所述问题数据和所有所述目标文档输入至阅读理解模型,获得所述阅读理解模型输出的与所述问题数据对应的答案数据。
其中,所述阅读理解模型是基于样本问题数据、样本答案数据、所述样本答案数据对应标注的答案片段,以及答案片段的排序位置训练得到的。
具体地,文档检索模块210和阅读理解模块220顺次电连接。
文档检索模块210在对用户输入的问题数据预处理后,从文档库中筛选出与问题数据相关联的多个目标文档。
阅读理解模块220对构建好的阅读理解模型各层间的权值系数初始化,再将训练集中的一组样本问题数据和样本答案数据的标注内容输入到当前权值系数下的神经网络,依次计算输入层、隐藏层和输出层的各节点的输出。输出层最后的输出结果与其实际连接位置状态类型之间的累积误差,根据梯度下降法,修正输入层与隐藏层各节点间的权值系数。依照上述过程,直至遍历训练集中的所有样本,可以得到输入层与隐藏层的权值系数。
基于多文档的机器阅读理解装置根据神经网络输入层与隐藏层的权值系数,还原阅读理解模型,并将测试集中的一组问题数据输入到训练好的阅读理解模型,可以得到该问题数据对应的答案数据。
可选地,阅读理解模型包括片段抽取层、片段排序层和答案转换层。
对应地,阅读理解模块220包括片段抽取单元、片段排序单元和答案转换单元,其中:
片段抽取单元,用于将所述问题数据和所有所述目标文档输入至所述片段抽取层,获取所述片段抽取层输出的答案片段。
片段排序单元,用于将所述问题数据和所述答案片段输入至所述片段排序层进行排序,获取所述片段排序层输出的答案序列。
答案转换单元,用于将所述问题数据和所述答案序列输入至所述答案转换层,获取所述答案转换层输出的所述答案数据。
可选地,答案转换层包括生成式模型。
答案转换单元包括上下文语句获取子单元和整合子单元,其中:
上下文语句获取子单元,用于将所述问题数据和所述答案序列输入至所述生成式模型,获取所述生成式模型输出的上下文语句。
整合子单元,用于基于所述答案转换层对所述上下文语句进行整合,得到所述答案数据。
其中,所述生成式模型是基于样本问题数据和所述样本答案数据训练得到的,所述生成式模型包括目标词典,所述目标词典包含连接词以及指向所述目标文档存储位置的指针。可选地,所述片段排序层包括片段排序模型。
片段排序单元,具体用于将所述问题数据和所述答案片段输入至所述片段排序模型进行排序,获取所述片段排序模型输出的所述答案序列。
其中,所述片段排序模型是基于样本问题数据、所述样本答案数据,以及所述样本答案数据对应标注的答案片段的排序位置训练得到的。
可选地,所述片段抽取层包括片段抽取模型。
片段抽取单元包括片段抽取子单元和答案片段筛选子单元,其中:
片段抽取子单元,用于将所述问题数据和所述目标文档输入至所述片段抽取模型,获取所述片段抽取模型输出的抽取结果。
答案片段筛选子单元,用于基于所述片段抽取层从所述抽取结果中筛选出与所述问题数据关联的所述答案片段。
其中,所述片段抽取模型是是基于样本问题数据、所述样本答案数据,以及所述样本答案数据对应标注的答案片段训练得到的。
可选地,文档检索模块210包括关键词抽取单元和文档匹配单元,其中:
关键词抽取单元,用于基于所述问题数据,获取关键词数据。
文档匹配单元,用于基于所述关键词数据,在所述文档库中匹配到所述目标文档。
可选地,文档匹配单元包括文档匹配子单元和文档筛选子单元,其中:
文档匹配子单元,用于基于所述关键词数据,在所述文档库中匹配到候选文档。
文档筛选子单元,用于根据所述候选文档的排序结果,从所述候选文档中筛选出所述目标文档。
本发明实施例提供的多文档的机器阅读理解装置,用于执行本发明上述多文档的机器阅读理解方法,其实施方式与本发明提供的多文档的机器阅读理解方法的实施方式一致,且可以达到相同的有益效果,此处不再赘述。
本发明实施例基于问题数据筛选出多个与问题关联的目标文档,以问题数据和目标文档作为阅读理解模型的输入,输出的结果为与问题数据对应的答案数据。实现通过神经网络从多个文档中抽取出相应的非连续的答案片段,以重新组合的方式生成答案,能够解决用户提出的问题需要综合多个文档才能进行回答的问题,大大提高阅读理解的准确度和使用范围。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行基于多文档的机器阅读理解方法,该方法包括:基于问题数据,从文档库筛选出多个目标文档;将所述问题数据和所有所述目标文档输入至阅读理解模型,获得所述阅读理解模型输出的与所述问题数据对应的答案数据;其中,所述阅读理解模型是基于样本问题数据、样本答案数据、所述样本答案数据对应标注的答案片段,以及答案片段的排序位置训练得到的。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的基于多文档的机器阅读理解方法,该方法包括:基于问题数据,从文档库筛选出多个目标文档;将所述问题数据和所有所述目标文档输入至阅读理解模型,获得所述阅读理解模型输出的与所述问题数据对应的答案数据;其中,所述阅读理解模型是基于样本问题数据、样本答案数据、所述样本答案数据对应标注的答案片段,以及答案片段的排序位置训练得到的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于多文档的机器阅读理解方法,该方法包括:基于问题数据,从文档库筛选出多个目标文档;将所述问题数据和所有所述目标文档输入至阅读理解模型,获得所述阅读理解模型输出的与所述问题数据对应的答案数据;其中,所述阅读理解模型是基于样本问题数据、样本答案数据、所述样本答案数据对应标注的答案片段,以及答案片段的排序位置训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种基于多文档的机器阅读理解方法,其特征在于,包括:
基于问题数据,从文档库筛选出多个目标文档;
将所述问题数据和所有所述目标文档输入至阅读理解模型,获得所述阅读理解模型输出的与所述问题数据对应的答案数据;
其中,所述阅读理解模型是基于样本问题数据、样本答案数据、所述样本答案数据对应标注的答案片段,以及答案片段的排序位置训练得到的;
所述阅读理解模型包括片段抽取层、片段排序层和答案转换层;
将所述问题数据和所有所述目标文档输入至所述片段抽取层,获取所述片段抽取层输出的答案片段;
将所述问题数据和所述答案片段输入至所述片段排序层进行排序,获取所述片段排序层输出的答案序列;
将所述问题数据和所述答案序列输入至所述答案转换层,获取所述答案转换层输出的所述答案数据。
2.根据权利要求1所述的基于多文档的机器阅读理解方法,其特征在于,所述答案转换层包括生成式模型;
所述将所述问题数据和所述答案序列输入至所述答案转换层,获取所述答案转换层输出的所述答案数据,包括:
将所述问题数据和所述答案序列输入至所述生成式模型,获取所述生成式模型输出的上下文语句;
基于所述答案转换层对所述上下文语句进行整合,得到所述答案数据;
其中,所述生成式模型是基于样本问题数据和所述样本答案数据训练得到的,所述生成式模型包括目标词典,所述目标词典包含连接词以及指向所述目标文档存储位置的指针。
3.根据权利要求1所述的基于多文档的机器阅读理解方法,其特征在于,所述片段排序层包括片段排序模型;
所述将所述问题数据和所述答案片段输入至所述片段排序层进行排序,获取所述片段排序层输出的答案序列,包括:
将所述问题数据和所述答案片段输入至所述片段排序模型进行排序,获取所述片段排序模型输出的所述答案序列;
其中,所述片段排序模型是基于样本问题数据、所述样本答案数据,以及所述样本答案数据对应标注的答案片段的排序位置训练得到的。
4.根据权利要求1所述的基于多文档的机器阅读理解方法,其特征在于,所述片段抽取层包括片段抽取模型;
所述将所述问题数据和所有所述目标文档输入至所述片段抽取层,获取所述片段抽取层输出的答案片段,包括:
将所述问题数据和所述目标文档输入至所述片段抽取模型,获取所述片段抽取模型输出的抽取结果;
基于所述片段抽取层从所述抽取结果中筛选出与所述问题数据关联的所述答案片段;
其中,所述片段抽取模型是基于样本问题数据、所述样本答案数据,以及所述样本答案数据对应标注的答案片段训练得到的。
5.根据权利要求1所述的基于多文档的机器阅读理解方法,其特征在于,所述基于问题数据,从文档库筛选出多个目标文档,包括:
基于所述问题数据,获取关键词数据;
基于所述关键词数据,在所述文档库中匹配到所述目标文档。
6.根据权利要求5所述的基于多文档的机器阅读理解方法,其特征在于,所述基于所述关键词数据,在所述文档库中匹配到所述目标文档,包括:
基于所述关键词数据,在所述文档库中匹配到所述候选文档;
根据所述候选文档的排序结果,从所述候选文档中筛选出所述目标文档。
7.一种基于多文档的机器阅读理解装置,其特征在于,包括:
文档检索模块,用于基于问题数据,从文档库筛选出多个目标文档;
阅读理解模块,用于将所述问题数据和所有所述目标文档输入至阅读理解模型,获得所述阅读理解模型输出的与所述问题数据对应的答案数据;
其中,所述阅读理解模型是基于样本问题数据、样本答案数据、所述样本答案数据对应标注的答案片段,以及答案片段的排序位置训练得到的。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述基于多文档的机器阅读理解方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于多文档的机器阅读理解方法。
CN202211087134.2A 2022-09-07 2022-09-07 基于多文档的机器阅读理解方法及装置 Active CN115169368B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211087134.2A CN115169368B (zh) 2022-09-07 2022-09-07 基于多文档的机器阅读理解方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211087134.2A CN115169368B (zh) 2022-09-07 2022-09-07 基于多文档的机器阅读理解方法及装置

Publications (2)

Publication Number Publication Date
CN115169368A CN115169368A (zh) 2022-10-11
CN115169368B true CN115169368B (zh) 2022-11-29

Family

ID=83481074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211087134.2A Active CN115169368B (zh) 2022-09-07 2022-09-07 基于多文档的机器阅读理解方法及装置

Country Status (1)

Country Link
CN (1) CN115169368B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116720008B (zh) * 2023-08-11 2024-01-09 之江实验室 一种机器阅读方法、装置、存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460176A (zh) * 2020-05-11 2020-07-28 南京大学 一种基于哈希学习的多文档机器阅读理解方法
CN114297342A (zh) * 2021-12-09 2022-04-08 重庆大牛认知科技有限公司 基于阅读理解和意图识别模型的法律文书生成方法及系统
WO2022088672A1 (zh) * 2020-10-29 2022-05-05 平安科技(深圳)有限公司 基于bert的机器阅读理解方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460176A (zh) * 2020-05-11 2020-07-28 南京大学 一种基于哈希学习的多文档机器阅读理解方法
WO2022088672A1 (zh) * 2020-10-29 2022-05-05 平安科技(深圳)有限公司 基于bert的机器阅读理解方法、装置、设备及存储介质
CN114297342A (zh) * 2021-12-09 2022-04-08 重庆大牛认知科技有限公司 基于阅读理解和意图识别模型的法律文书生成方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向多片段答案的抽取式阅读理解模型;苏立新等;《计算机学报》;20201231(第05期);全文 *

Also Published As

Publication number Publication date
CN115169368A (zh) 2022-10-11

Similar Documents

Publication Publication Date Title
CN108287858B (zh) 自然语言的语义提取方法及装置
US11386271B2 (en) Mathematical processing method, apparatus and device for text problem, and storage medium
US11106714B2 (en) Summary generating apparatus, summary generating method and computer program
CN110795552B (zh) 一种训练样本生成方法、装置、电子设备及存储介质
JP2023535709A (ja) 言語表現モデルシステム、事前訓練方法、装置、機器及び媒体
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN108228576B (zh) 文本翻译方法及装置
US20170308526A1 (en) Compcuter Implemented machine translation apparatus and machine translation method
CN113239169B (zh) 基于人工智能的回答生成方法、装置、设备及存储介质
CN114580382A (zh) 文本纠错方法以及装置
CN111428025B (zh) 文本摘要方法、装置、电子设备和存储介质
CN111897930A (zh) 一种自动问答方法与系统、智能设备及存储介质
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
CN111767394A (zh) 一种基于人工智能专家系统的摘要提取方法及装置
CN113127679A (zh) 视频搜索方法及装置、索引构建方法及装置
CN115169368B (zh) 基于多文档的机器阅读理解方法及装置
CN112463942A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN116050352A (zh) 文本编码方法和装置、计算机设备及存储介质
CN113255331B (zh) 文本纠错方法、装置及存储介质
CN112035662B (zh) 文本处理方法、装置、计算机设备以及存储介质
CN111626059B (zh) 一种信息处理方法及装置
CN115019137A (zh) 一种多尺度双流注意力视频语言事件预测的方法及装置
CN111401070B (zh) 词义相似度确定方法及装置、电子设备及存储介质
CN112686059A (zh) 文本翻译方法、装置、电子设备和存储介质
KR101543024B1 (ko) 발음 기반의 번역 방법 및 그 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant