CN110543631B - 机器阅读理解的实现方法、装置、存储介质及电子设备 - Google Patents
机器阅读理解的实现方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN110543631B CN110543631B CN201910783241.0A CN201910783241A CN110543631B CN 110543631 B CN110543631 B CN 110543631B CN 201910783241 A CN201910783241 A CN 201910783241A CN 110543631 B CN110543631 B CN 110543631B
- Authority
- CN
- China
- Prior art keywords
- alternative
- text
- answer
- sample
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种机器阅读理解的实现方法、装置、存储介质及电子设备,涉及语义识别技术。具体方案包括:获取问题和针对所述问题的备选答案集,将所述问题的文本与备选答案的文本拼接,得到备选文本;提取备选文本的内部特征,并根据获取的外部属性信息提取备选文本的外部特征,并根据内部特征和外部特征,得到备选文本的备选特征;将备选特征输入预先训练的阅读理解模型中,得到备选答案片段和备选答案片段的初始选择概率;提取备选答案片段的文本特征和语义特征,根据备选答案片段的文本特征、语义特征和初始选择概率进行交互选择,确定目标答案。本申请可以提升机器阅读理解技术的准确度,并且提升机器阅读理解技术应对复杂问题的能力。
Description
技术领域
本申请涉及语义识别技术,特别是涉及一种机器阅读理解的实现方法、装置、存储介质及电子设备。
背景技术
机器阅读理解,也可称为自然语言的语义识别技术,是自然语言处理和人工智能领域的重要前沿课题,对于提升机器智能水平、使机器具有持续的知识获取能力具有重要价值,近年来受到学术界和工业界的广泛关注。机器阅读理解过程可以理解为根据用户提出的问题确定答案的过程,要求确定得到的答案尽可能的准确、标准,至少足以解决提出的问题。
然而现有的机器阅读理解技术中,仅仅考虑了对问题与答案自身文本内容的理解与分析,没有考虑到在现实环境中,问题与答案除了自身的文本内容,还具备由于受到外部环境影响而产生的外部属性信息。因此,仅从问题与答案自身的文本内容出发进行的机器阅读理解,准确度不高,且应对复杂问题的能力较低。
发明内容
有鉴于此,本申请的主要目的在于提供一种机器阅读理解的实现方法,该方法可以提升机器阅读理解技术的准确度,并且提升机器阅读理解技术应对复杂问题的能力。
为了达到上述目的,本申请提出的技术方案为:
第一方面,本申请实施例提供了一种机器阅读理解的实现方法,包括以下步骤:
获取问题和针对所述问题的备选答案集,并将所述问题的文本与每个备选答案的文本分别进行拼接,得到至少一个备选文本;其中,所述备选答案集包含至少一个所述备选答案;
针对每个备选文本,提取该备选文本的内部特征,并根据获取的外部属性信息提取该备选文本的外部特征,并根据所述内部特征和外部特征,得到该备选文本的备选特征;
将每个所述备选特征输入预先训练的阅读理解模型中,得到至少一个备选答案片段和每个备选答案片段各自的初始选择概率;
针对每个所述备选答案片段,提取该备选答案片段的文本特征和语义特征,根据每个所述备选答案片段的所述文本特征、所述语义特征和所述初始选择概率在每个所述备选答案片段之间进行交互选择,确定目标答案。
一种可能的实施方式中,所述外部属性信息包括:所述备选文本中包含的备选答案在所述备选答案集中的位置信息、所述备选文本中包含的备选答案的来源信息、所述问题的问题类型和所述备选答案的标题信息;
所述根据获取的外部属性信息提取该备选文本的外部特征的步骤包括:
将每个所述外部属性信息进行拼接得到拼接后的外部属性信息,并提取所述拼接后的外部属性信息的属性特征,将所述属性特征作为所述外部特征。
一种可能的实施方式中,所述将每个所述外部属性信息进行拼接得到拼接后的外部属性信息的步骤包括:
判断每个所述外部属性信息中是否包含非字符信息,当包含所述非字符信息时,将所述外部属性信息中的所述非字符信息转换为字符信息后,将每个所述外部属性信息进行拼接得到拼接后的外部属性信息。
一种可能的实施方式中,所述提取所述拼接后的外部属性信息的属性特征,将所述属性特征作为所述外部特征的步骤包括:
采用转换器模型从所述拼接后的外部属性信息中提取两个以上属性特征;
将所述两个以上属性特征中的第一个所述属性特征作为所述外部特征。
一种可能的实施方式中,所述提取该备选文本的内部特征的步骤包括:
分别提取该备选文本的文本特征、词语位置特征和文本类型特征;
将所述文本特征、所述词语位置特征和所述文本类型特征进行拼接,得到该备选文本的所述内部特征。
一种可能的实施方式中,所述针对每个所述备选答案片段,提取该备选答案片段的文本特征和语义特征,根据每个所述备选答案片段的所述文本特征、所述语义特征和所述初始选择概率在每个所述备选答案片段之间进行交互选择,确定目标答案的步骤包括:
针对每个备选答案片段,根据该备选答案片段的文本特征和该备选答案片段的初始选择概率,确定文本选择特征;
根据该备选答案片段的语义特征和该备选答案片段的初始选择概率,确定语义选择特征;
对所述文本选择特征和所述语义选择特征进行拼接,得到该备选答案片段的选择特征;
将每个备案答案片段的选择特征输入预先训练的交互选择模型中,分别确定每个备选答案片段的最终选择概率;
将所述最终选择概率最大的所述备选答案片段确定为所述目标答案。
一种可能的实施方式中,还包括所述交互选择模型基于如下步骤进行训练:
获取答案片段样本集;所述答案片段样本集中包含至少一个问题样本,每个问题样本对应至少一个所述备选答案片段样本;
计算所述答案片段样本集中每个备选答案片段样本的ROUGE-L值;
针对所述答案片段样本集中的每个问题,为该问题对应的每个所述备选答案片段中ROUGE-L值最大的备选答案片段标记最佳答案标签;
以标记了最佳答案标签的答案片段样本集为样本,对所述交互选择模型进行训练。
一种可能的实施方式中,所述阅读理解模型基于如下步骤进行训练:
获取问题样本集,所述问题样本集中包含至少一个问题样本、每个问题样本各自的备选答案样本集和每个问题样本的参考答案;所述备选答案样本集中包括至少一个备选答案样本;
基于所述问题样本集生成训练样本集;所述训练样本集中包含至少一个训练样本;
提取所述训练样本集中每个训练样本的备选特征;
将每个所述备选特征输入初始阅读理解模型中,得到至少一个备选答案片段和每个所述备选答案片段各自的初始选择概率;所述备选答案片段为所述训练样本中的子文本;
根据每个备选答案片段和每个备选答案片段对应的参考答案,确定所述初始阅读理解模型的最大似然损失;
根据每个备选答案片段、每个所述备选答案片段各自的初始选择概率和每个备选答案片段对应的参考答案,确定所述初始阅读理解模型的最小风险训练损失;
根据所述初始阅读理解模型的最大似然损失和所述初始阅读理解模型的最小风险训练损失,确定所述初始阅读理解模型的总损失;
根据所述初始阅读理解模型的总损失调整所述初始阅读理解模型的参数,得到所述阅读理解模型。
一种可能的实施方式中,所述根据每个备选答案片段和每个备选答案片段对应的参考答案,确定所述初始阅读理解模型的最大似然损失的步骤包括:
针对每个备选答案片段,根据该备选答案片段在所属训练样本中的起始位置和结束位置;
根据该备选答案片段在所属训练样本中的起始位置,以及该备选答案片段对应的参考答案在该备选答案片段所属训练样本中的起始位置,确定该备选答案片段的起始位置损失;
根据该备选答案片段在所属训练样本中的结束位置,以及该备选答案片段对应的参考答案在该备选答案片段所属训练样本中的结束位置,确定该备选答案片段的结束位置损失;
根据所述起始位置损失、所述结束位置损失、以及该备选答案片段所属的备选答案样本中包含备选答案片段的个数,确定该备选答案片段的最大似然损失;
根据每个备选答案片段的最大似然损失,确定所述初始阅读理解模型的最大似然损失。
一种可能的实施方式中,所述根据每个备选答案片段、每个所述备选答案片段各自的初始选择概率和每个备选答案片段对应的参考答案,确定所述初始阅读理解模型的最小风险训练损失的步骤包括:
针对每个所述备选答案片段,计算该备选答案片段对应的参考答案与该备选答案片段之间的相关度;
根据所述相关度和该备选答案片段的初始选择概率,确定该备选答案片段的最小风险训练损失;
根据每个所述备选答案片段的最小风险训练损失,确定所述初始阅读理解模型的最小风险训练损失。
一种可能的实施方式中,所述基于所述问题样本集生成训练样本集的步骤包括:
针对所述问题样本集中的每个问题样本,获取该问题样本的备选答案样本集中的每个备选答案样本;
针对所述每个备选答案样本,生成该备选答案样本的至少一个第一文本片段,并计算每个所述第一文本片段各自的F1值;所述第一文本片段为该备选答案样本的子文本;
将每个所述F1值大于预设F1值阈值的所述第一文本片段确定为备选文本片段,并将所述问题样本的文本与每个所述备选文本片段分别进行拼接,得到至少一个训练样本;
基于每个所述训练样本生成所述训练样本集。
一种可能的实施方式中,所述备选答案样本包含至少一个段落;
所述获取问题样本集的步骤之后,所述基于所述问题样本集生成训练样本集的步骤之前,所述方法还包括:
针对每个所述备选答案样本,去除该备选答案样本中的重复段落;
针对每个问题样本,将该问题样本分别与该问题样本的备选答案集中每个去重后的备选答案样本进行拼接,得到至少一个中间文本样本;
并针对每个所述中间文本样本,截取该中间文本样本的前预设字符长度的子文本,作为备选文本样本;
所述基于所述问题样本集生成训练样本集的步骤,包括:
根据每个所述备选文本样本,生成所述训练样本集。
一种可能的实施方式中,所述将该问题样本分别与该问题样本的备选答案集中每个去重后的备选答案样本进行拼接,得到至少一个中间文本样本的步骤包括:
针对去重后的该备选答案样本的每个段落,计算该段落与该备选答案样本对应的所述问题样本的最大覆盖度;
计算该段落与该备选答案样本中其他段落之间的交叉验证得分;
根据该段落的所述最大覆盖度和所述交叉验证得分,确定该段落的置信度;
根据所述置信度对该备选答案样本中的每个段落进行排序,并将排序后的每个段落拼接为排序后的备选答案样本;
针对每个问题样本,将该问题样本分别与该问题样本的备选答案集中每个排序后的备选答案样本进行拼接,得到至少一个中间文本样本。
一种可能的实施方式中,所述根据每个所述备选文本样本,生成所述训练样本集的步骤包括:
针对所述备选文本样本,生成该备选文本样本的至少一个第二文本片段,并计算每个所述第二文本片段各自的F1值;所述第二文本片段为该备选文本样本的子文本;
将每个所述F1值大于预设F1值阈值的所述第二文本片段确定为训练样本;
基于每个所述训练样本生成所述训练样本集。
一种可能的实施方式中,所述获取问题和针对所述问题的备选答案集的步骤之后,所述将所述问题的文本与每个备选答案的文本分别进行拼接的步骤之前,所述方法还包括:
对所述问题的文本与所述每个备选答案的文本进行数据清洗,去除所述问题的文本与所述每个备选答案的文本中的噪声字符。
一种可能的实施方式中,所述将所述问题的文本与每个备选答案的文本分别进行拼接,得到至少一个备选文本的步骤包括:
针对每个所述备选答案,去除该备选答案中的重复段落;
将所述问题的文本分别于与去重后的每个所述备选答案的文本进行拼接,得到至少一个中间文本;
针对每个所述中间文本,截取该中间文本的前预设字符长度的子文本,得到所述备选文本。
第二方面,本申请实施例还提供一种机器阅读理解的实现装置,包括:
获取模块,用于获取问题和针对所述问题的备选答案集;
预处理模块,用于将所述问题的文本与每个备选答案的文本分别进行拼接,得到至少一个备选文本;其中,所述备选答案集包含至少一个所述备选答案;
特征提取模块,用于针对每个备选文本,提取该备选文本的内部特征,并根据获取的外部属性信息提取该备选文本的外部特征,并根据所述内部特征和外部特征,得到该备选文本的备选特征;
阅读理解模块,用于将每个所述备选特征输入预先训练的阅读理解模型中,得到至少一个备选答案片段和每个备选答案片段各自的初始选择概率;
答案确定模块,用于针对每个所述备选答案片段,提取该备选答案片段的文本特征和语义特征,根据每个所述备选答案片段的所述文本特征、所述语义特征和所述初始选择概率在每个所述备选答案片段之间进行交互选择,确定目标答案。
第三方面,本申请实施例还提供一种计算机可读存储介质。具体方案为:
一种计算机可读存储介质,存储有计算机指令,所述指令被处理器执行时可实现上述第一方面及第一方面中任一种可能的实施方式的步骤。
第四方面,本申请实施例还提供一种电子设备。具体方案为:
一种电子设备,该电子设备包括上述的计算机可读存储介质,还包括可执行所述计算机可读存储介质的处理器。
综上所述,本申请提出的一种机器阅读理解的实现方法、装置、存储介质及电子设备。本申请首先将问题的文本分别与每个备选答案的文本进行拼接,得到至少一个备选文本,在基于备选文本提取特征时,不仅基于备选文本自身文本内容提取了内部特征,还根据备选文本由于受到外部环境影响而产生的外部属性信息,提取了备选文本的外部特征,结合内部特征和外部特征得到备选文本的备选特征,并基于结合了内部特征和外部特征的备选特征进行机器阅读理解,提高了提升机器阅读理解技术的准确度和应对复杂问题的能力。
进一步的,在将备选特征输入阅读理解模型,得到了至少一个备选答案片段和每个备选答案片段各自的初始选择概率之后,本申请不同于现有技术中常用的方式,直接根据初始选择概率的大小从每个备选答案片段中确定目标答案,而是考虑了每个备选答案片段的语义特征,又对备选答案片段、备选答案片段的语义特征和备选答案片段的初始选择概率进行了进一步的分析和选择,进一步提升了机器阅读理解技术的准确度和应对复杂问题的能力。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一的流程示意图;
图2为本申请实施例二的流程示意图;
图3为根据备选文本确定备选特征的流程示意图;
图4为根据备选答案片段确定选择特征的流程示意图;
图5为本申请实施例三的流程示意图;
图6为本申请实施例四的结构示意图;
图7为本申请实施例六的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例,例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。
机器阅读理解,也可称为自然语言的语义识别技术,是自然语言处理和人工智能领域的重要前沿课题,对于提升机器智能水平、使机器具有持续的知识获取能力具有重要价值,近年来受到学术界和工业界的广泛关注。
机器阅读理解(Machine Reading Comprehension,MRC)是指让机器像人类一样通过阅读自然语言文本,然后经过推理总结,从而能够精准地回答和阅读内容相关的问题。不仅要求机器可以理解文章大意,还要学会对文章内容进行推理总结,简单的说就是能读懂,会思考。
总的来讲,可以将机器阅读理解的方法分为两类:分别为抽取式和生成式。抽取式通过给定问题以及相关的文章进行训练,让机器具备阅读的能力,并对提出的新问题,在相关文章中抽取出相应的答案。另一种是生成式从理论上来说不受知识的局限,对于问题自动生成答案,但是生成式有时产生的答案答非所问,句式不通,不能很好地体现出人类的思维逻辑以及自然表述的特点。因此,目前的机器阅读理解技术多采用抽取式方法实现。
然而现有的机器阅读理解技术中,仅仅考虑了对问题与答案自身文本内容的理解与分析,没有考虑到在现实环境中,问题与答案除了自身的文本内容,还具备由于受到外部环境影响而产生的外部属性信息。因此,仅从问题与答案自身的文本内容出发进行的机器阅读理解,准确度不高,且应对复杂问题的能力较低。
有鉴于此,本申请的核心发明点在于:不仅基于备选文本自身文本内容提取了内部特征,还根据备选文本由于受到外部环境影响而产生的外部属性信息,提取了备选文本的外部特征,并基于结合了内部特征和外部特征的备选特征进行机器阅读理解,提高了提升机器阅读理解技术的准确度和应对复杂问题的能力。
进一步的,本申请不同于现有技术中常用的方式,直接根据初始选择概率的大小从每个备选答案片段中确定目标答案。而是考虑了每个备选答案片段的语义特征,又对备选答案片段、备选答案片段的语义特征和备选答案片段的初始选择概率进行了进一步的分析和选择,进一步提升了机器阅读理解技术的准确度和应对复杂问题的能力。
为使本申请的目的、技术方案和优点更加清楚,下面以具体实施例对本发明的技术方案进行详细说明。下面几个具体实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
实施例一
图1为本申请实施例一提供的一种机器阅读理解的实现方法的流程示意图,如图1所示,该实施例主要包括:
S101:获取问题和针对所述问题的备选答案集,并将所述问题的文本与每个备选答案的文本分别进行拼接,得到至少一个备选文本;其中,所述备选答案集包含至少一个所述备选答案。
这里的问题为包含了问题的文本信息,本申请采用抽取式的方法实现机器阅读理解技术,因此,还需要获取针对问题的备选答案集。备选答案集中包含至少一个针对该问题的备选答案,备选答案是包含了可能解答该问题的文本信息。备选答案通常与该问题相关,包含了可以准确解答该问题的答案,但备选答案也可能与该问题无关,无法解答该问题。
为了方便理解,以网络检索信息为示例解释机器阅读理解过程,在网络检索信息时,首先用户输入想要了解的问题,根据用户输入的问题可以检索出至少一个文章,机器阅读理解方法根据输入的问题从检索出文章中的文本内容中确定可以解决问题的答案。检索出的文章的文本内容可以理解为本申请实施例中的备选答案集,其中,一个文章的文本内容为备选答案集中的一个备选答案。
在本申请实施例中,将问题的文本和每个备选答案的文本分别进行拼接,得到至少一个备选文本,一个备选答案对应一个备选文本,因此,备选文本中包括问题部分和答案部分两部分内容。
S102:针对每个备选文本,提取该备选文本的内部特征,并根据获取的外部属性信息提取该备选文本的外部特征,并根据所述内部特征和外部特征,得到该备选文本的备选特征。
针对备选文本提取特征时,不同于现有技术的提取方法,仅针对备选文本的文本内容提取备选文本的内部特征,而是在提取备选文本的内部特征的基础上,获取备选文本的外部属性信息,并且根据外部属性信息提取备选文本的外部特征。这里,内部特征为根据备选文本的文本内容提取的特征,内部特征主要描述了备选文本自身具有的特征。外部属性信息为备选文本所处的外部环境为备选文本赋予的属性信息,外部特征基于备选文本的外部属性信息提取,描述了备选文本所处环境所具有的特征。综合内部特征和外部特征得到的备选特征,结合了备选文本自身的特征和备选文本出外部环境的特征,巧妙地将外部特征融入到模型中,使得备选文本的特征提取更全面地表达出备选文本的特征信息。
示例性的,以网络检索信息为例,一般来讲,根据问题检索出的文章中,来自百度百科或百度知道的文章更具有参考性;文章的标题与提出的问题一致时,检索到的文章内容通常更具有参考性;对根据不同的问题类型来说,描述类的问题往往对应更长的答案,而是非类问题往往对应更短的答案等等,这些属性信息虽然与文章的文本内容无关,但是都可以作为辅助机器阅读理解的外部属性信息,根据这些外部属性信息提取的外部特征也有助于提升机器阅读理解的准确度和处理复杂问题的能力。
S103:将每个所述备选特征输入预先训练的阅读理解模型中,得到至少一个备选答案片段和每个备选答案片段各自的初始选择概率。
一个备选文本可以提取出至少一个备选特征,一般来讲,备选特征的个数与备选文本中的字符数或词语数有关,一个备选文本提取出的备选特征的个数为该备选文本中的字符个数或词语个数。将每个备选特征均输入预先训练的阅读理解模型中,得到至少一个备选答案片段和每个备选答案片段各自的初始选择概率。这里,备选答案片段为备选文本中的子文本,并且,备选答案片段通常为备选文本中备选答案部分的子文本,通常不是备选文本中问题部分的子文本。一个备选文本不一定得到一个备选答案片段,一个备选文本可以不得到备选答案片段,也可以得到两个以上备选答案片段。因此,得到的备选答案片段的个数与备选文本的个数不相关。
S104:针对每个所述备选答案片段,提取该备选答案片段的文本特征和语义特征,根据每个所述备选答案片段的所述文本特征、所述语义特征和所述初始选择概率在每个所述备选答案片段之间进行交互选择,确定目标答案。
现有技术中,通常在确定了备选答案片段和备选答案片段各自的初始选择概率之后,依据初始选择概率确定目标答案,通常选择初始选择概率最大的备选答案片段作为目标答案。
然而,阅读理解模型更多的是针对每个备选特征进行分析,从中提取出备选文本,并计算得到备选文本的初始选择概率,对每个备选文本的分析较为孤立,难以同时结合多个备选文本确定最能解答问题的目标答案。因此,本申请实施例中在得到备选答案片段和备选答案片段各自的初始选择概率之后,再次提取备选答案片段的文本特征和语义特征,并根据每个备选答案片段的文本特征、语义特征和初始选择概率进行交互选择,更全面的考虑多个答案之间的信息交互,确定目标答案。克服仅考虑单个备选文本确定目标答案时,缺乏与其他备选文本的对比、验证的问题,提升确定的目标答案的准确度,并提升本申请提供的机器阅读理解方法解决复杂问题的能力。
实施例二
如图2所示,本申请实施例二提供了另一种机器阅读理解的实现方法主要包括:
S201:获取问题和针对所述问题的备选答案集;其中,所述备选答案集包含至少一个所述备选答案。
S202:对所述问题的文本与所述每个备选答案的文本进行数据清洗,去除所述问题的文本与所述每个备选答案的文本中的噪声字符。
无论从何来源获取问题和针对所述问题的备选答案集,获取的原始数据中均可能存在大量的噪声数据,对于问题的文本与备选答案的文本来说,这些噪声数据通常表现为噪声字符。并且,噪声字符的数量有可能很大,达到句子或段落的量级。
以网络检索信息为示例,根据用户输入的问题检索得到的文章,例如检索得到的百度知道、百度百科或百度搜索的文章,通常为网页形式、超文本标记语言(Hyper TextMarkup Language,HTML)格式。例如表1中为根据用户输入的问题检索得到的文章的原始数据,其中的字体加粗的部分为噪声字符,这些噪声字符并不携带有效的信息,有些甚至是无具体语义的字符,这些数据如果不进行清洗,将使得答案不够准确,甚至在答案中出现用户难以读懂的非自然语言。
表1根据用户输入的问题检索得到的文章的原始数据
对根据用户输入的问题检索得到的文章的原始数据进行清洗,保留有效的文字信息,删除不携带有效的信息的冗余信息。可以采用任一种常用的方法进行数据清洗,优选的,可以基于统计学的思想对原始数据进行清洗及降噪,从而得到如表2所示的较为干净的问题文本和备选答案文本。
表2根据用户输入的问题检索得到的文章的原始数据
S203:将所述问题的文本与每个备选答案的文本分别进行拼接,得到至少一个备选文本。
在对问题的文本与备选答案的文本分别进行拼接的过程中,可以直接将文本内容拼接起来得到备选文本。
然而,以网络检索信息为示例,检索到的备选答案通常数量很多,长度也很长,备选答案集通常具有较大的数据规模,将大大提高从备选答案集中确定目标答案的难度。因此,可以在进行拼接得到备选文本的过程中,对备选答案集进行数据的预处理操作,降低备选答案集的数据规模,降低确定目标答案的难度,提升准确度。
具体的,可以采用下述两种可能的实施方式对备选答案集进行数据的预处理操作。
A:一种可能的实施方式中,采用下述步骤1至步骤3进行数据预处理和拼接操作:
步骤1、针对每个所述备选答案,去除该备选答案中的重复段落。
备选答案通常是一篇文章,在实际实施环境中,文章的长度可以很长,甚至一篇文章可以包括几万个词。每个备选答案通常包括至少一个段落,这里段落为备选答案中的自然段。一篇文章中难免有重复的段落,统计表明,一篇文章中段落的重复率约为0.59%-3.5%。因此,段落的去重十分关键,首选需要去除每个备选答案中的重复段落。
步骤2、将所述问题的文本分别于与去重后的每个所述备选答案的文本进行拼接,得到至少一个中间文本。
去重之后,将问题的文本分别于去重后每个备选答案的文本进行拼接,得到中间文本。问题文本与一个备选答案文本拼接得到一个中间文本。
步骤3、针对每个所述中间文本,截取该中间文本的前预设字符长度的子文本,得到所述备选文本。
为了进一步减少数据规模,对生成的中间文本进行裁剪,仅保留每个中间文本的前预设字符长度的子文本作为备选文本,截取一个中间文本的前预设字符长度的子文本得到一个备选文本。例如,可以截取拼接后得到的中间文本的前512个字符长度的子文本,作为备选文本。
B:当备选答案的数据规模较大时,作为备选答案的一篇文章具有较多的段落。在降低备选答案的数据规模时面临一个重大问题是,如何从较多的段落中选择至少一个最有价值的段落优先拼接,从而在截取时保留尽可能多的有用信息。因此,在另一种可能的实施方式中,可以采用下述步骤1至步骤7进行数据预处理和拼接操作:
步骤1、针对每个所述备选答案,去除该备选答案中的重复段落。
步骤2、对于去重后的每个备选答案,针对该备选答案的每个段落,计算该段落与所述问题的最大覆盖度。
具体的,例如针对该备选答案中的段落i,可以采用最大词覆盖度算法计算段落与问题的最大覆盖度,将最大覆盖度记为Ci。
步骤3、计算该段落与该备选答案中其他段落之间的交叉验证得分。
对每个备选答案的段落,计算该备选答案中的段落i与该备选答案的其他段落之间的交叉验证得分,将交叉验证得分记为Vi。示例性的,可以采用下述公式(1)计算该备选答案中的段落i与该备选答案的其他段落之间的交叉验证得分:
Vi=∑i,j/iROUGE-L(i,j) (1)
其中,i为交叉验证得分,ROUGE-L(i,j)为使用ROUGE-L函数计算的段落i与段落j之间的相关度,i为该备选答案中的段落i的段落标记,j为该备选答案的其他段落的段落标记。
步骤4、根据该段落的最大覆盖度和交叉验证得分,确定该段落的置信度。
以该备选答案中的段落i为例,根据段落i的最大覆盖度Ci和段落i的交叉验证得分Vi进行加权计算,确定段落i的置信度,段落i的置信度记为Si。示例性的,可以采用下述公式(2)计算段落i的置信度:
Si=Ci+γ·Vi (2)
其中,Ci为段落i的最大覆盖度,i为段落i的交叉验证得分,γ为权值,Si为段落i的置信度。
步骤5、根据所述置信度对该备选答案中的每个段落进行排序,并将排序后的每个段落拼接为排序后的备选答案。
通常来讲,根据置信度由大到小对备选答案中的每个段落进行排序,置信度大的段落拼接在前,置信度小的段落拼接在后,得到排序后的备选答案。
排序前后备选答案的数量相同,备选答案中的段落顺序发生了改变。
步骤6、将问题的文本分别与每个排序后的备选答案进行拼接,得到至少一个中间文本。
步骤7、针对每个中间文本,截取该中间文本的前预设字符长度的子文本,得到所述备选文本。
此时截取中间文本的前预设字符长度的子文本,可以在尽可能保留最有价值的信息的基础上,降低备选文本的数据规模。
本申请实施例将从备选答案的每个段落中筛选有价值的段落的问题,转化为了排序问题。排序的依据是每个段落的价值,也就是每个段落的置信度。计算置信度的依据是假设备选答案中的每个段落都是为了回答所提的问题的,因此备选答案的段落需要与问题具有一定的相关性。并且对备选答案的每个段落之间进行了交叉验证,综合考虑每个段落的整体信息,得到段落的置信度更加准确,更能代表段落的价值,从而为阅读理解模型准备了更高质量的备选文本。
S204:针对每个备选文本,提取该备选文本的内部特征。
为了尽可能全面的提取备选文本的内部特征,本申请实施例分别提取备选文本的文本特征、词语位置特征和文本类型特征。示例性的,可以采用语义嵌入的方式进行内部特征的提取,此时,经过语义嵌入方式得到的文本特征为Token embedding。词语位置特征为Position embedding,表征了备选文本中的每一个词语在备选文本中的具体位置信息。文本类型特征为Segment embedding,表征了备选文本中的每一个词语是来自问题还是来自备选答案。之后,将备选文本的文本特征、词语位置特征和文本类型特征进行拼接,得到备选文本的内部特征。
S205:根据获取的外部属性信息提取该备选文本的外部特征。
外部属性信息为备选文本所处的外部环境为备选文本赋予的属性信息,外部特征基于备选文本的外部属性信息提取,描述了备选文本所处环境所具有的特征。在实际实施场景中,以网络检索信息为示例,在输入问题检索备选答案的过程中,检索得到的备选答案启示已经经过了检索系统的排序过程,因此,备选答案在检索得到的每个备选答案中的位置信息,一定程度上代表了该备选答案与问题的相关性。另外,根据问题检索出的文章中,来自百度百科或百度知道的文章更具有参考性;文章的标题与提出的问题一致时,检索到的文章内容通常更具有参考性;对根据不同的问题类型来说,描述类的问题往往对应更长的答案,而是非类问题往往对应更短的答案等等。
综上,本申请实施例选用的外部信息包括:所述备选文本中包含的备选答案在所述备选答案集中的位置信息、所述备选文本中包含的备选答案的来源信息、所述问题的问题类型和所述备选答案的标题信息。
在网络检索信息的实施场景中,备选文本中包含的备选答案在备选答案集中的位置信息,可以认为是备选文本中包含的备选答案在检索得到的每个备选答案中的位置信息,通俗来将,就是备选文本中包含的备选答案为检索得到的第几个备选答案。备选文本中包含的备选答案的来源信息,表征了备选文本中包含的备选答案是来自百度百科、百度知道之类的特殊问答类网站的文章,还是来自一般网页的文章。问题的问题类型,表征了问题是描述类问题还是是非类问题,也就是该问题的答案是一段描述类的文字,还是YES_NO类型的问题。备选答案的标题信息主要判断备选答案的标题与问题是否具有相关性,一个备选答案的标题与问题的相关性越大,说明该备选答案的内容与问题的提问意图越一致,从该备选答案中确定得到目标答案的可能性越大。为了判断备选答案的标题与问题是否具有相关性,通常将备选答案的标题文本与问题文本拼接,作为备选答案的标题信息。
具体的,可以采用下述步骤I和步骤II提取备选文本的外部特征:
步骤I、将每个所述外部属性信息进行拼接得到拼接后的外部属性信息。
由于非字符信息无法与字符信息直接进行拼接,因此首先判断每个外部属性信息中是否包含非字符信息,当包含非字符信息时,将外部属性信息中的非字符信息转换为字符信息后,将每个外部属性信息进行拼接得到拼接后的外部属性信息。
通常来讲,备选答案的标题信息为字符信息,备选文本中包含的备选答案在备选答案集中的位置信息、备选文本中包含的备选答案的来源信息和问题的问题类型均为非字符信息。因此将备选文本中包含的备选答案在备选答案集中的位置信息、备选文本中包含的备选答案的来源信息和问题的问题类型转化为字符信息后,将四类外部属性信息拼接在一起,得到拼接后的外部属性信息。
步骤II、提取所述拼接后的外部属性信息的属性特征,将所述属性特征作为所述外部特征。
示例性的,在本申请实施例中,采用转换器模型从所述拼接后的外部属性信息中提取两个以上属性特征;将所述两个以上属性特征中的第一个所述属性特征作为所述外部特征。将拼接后的外部属性信息输入一个三层的转换器(Transformer)模型中,使用转换器模型编码外部属性信息的特征表示,可以得到两个以上属性特征,其中,第一属性特征已经可以包含外部属性信息的全部特征,因此,将第一个属性特征作为外部特征。
这里,转换器模型中通常包括自注意力(Self Attention)机制,有利于多个外部属性信息之间的信息交互。并且,本申请实施例仅采用了四类外部属性信息,较少的类型也是转换器模型很容易训练,从而提取更有代表性、更准确的外部特征。
S206:根据所述内部特征和外部特征,得到该备选文本的备选特征。
一个备选文本可以提取出至少一个内部特征,一般来讲,内部特征的个数与备选文本中的字符数或词语数有关,一个备选文本提取出的内部特征的个数为该备选文本中的字符个数或词语个数。基于上述步骤II中的方法,一个备选文本可以提取出一个外部特征,因此,针对每个备选文本,将该备选文本的外部特征分别与该备选文本的每个内部特征进行拼接,拼接后输入BERT(Bidirectional Encoder Representations fromTransformers)编码器,得到该备选文本的备选特征。图3示出了步骤S204至步骤S206的语义嵌入过程,通过图3所示的语义嵌入过程可以将难以表示的外部属性信息融入阅读理解模型中,得到综合了文本内容特征与外部环境特征的备选特征。
S207:将每个所述备选特征输入预先训练的阅读理解模型中,得到至少一个备选答案片段和每个备选答案片段各自的初始选择概率。
阅读理解模型基于每个备选特征遍历备选文本的任一种可能的子备选文本片段,从中确定备选答案片段,这里子备选文本片段为备选文本的任意字符长度的子文本。例如,在对备选答案进行预处理后,将问题与备选答案拼接后,截取预设字符长度的子文本,得到备选文本的情况下,阅读理解模型会遍历数量为预设字符长度的阶乘的子备选文本片段,从中确定备选答案片段。示例性的,当备选文本的预设字符长度为512时,根据备选文本可以确定的子备选文本片段为512!个。为了方便理解,假设备选文本的内容为“备选文本”,字符长度为4个,根据上述备选文本可以确定的子备选文本片段包括:“备”、“选”、“文”、“本”、“备选”、“选文”、“文本”、“备选文”、“选文本”、“备选文本”等等,一共4!=24个。从预设字符长度的阶乘的子备选文本片段中确定至少一个备选答案片段和每个备选答案片段各自的初始选择概率。
S208:针对每个所述备选答案片段,提取该备选答案片段的文本特征和语义特征,根据每个所述备选答案片段的所述文本特征、所述语义特征和所述初始选择概率在每个所述备选答案片段之间进行交互选择,确定目标答案。
由于每个备选文本在经过层层数据处理后仍有数百词,因此阅读理解模型难以同时结合多个备选文本来寻找最佳答案,这导致阅读理解模型在抽取答案时缺乏结合多个备选文本的整体信息。基于这一点,本申请实施例在得到至少一个备选答案片段和每个备选答案片段各自的初始选择概率之后,对多个备选答案抽取的多个备选答案片段进行信息交互,以克服单个备选答案缺乏与其它备选答案对比、验证的问题。
因此,如图4所示,首先针对每个备选答案片段,提取该备选答案片段的文本特征和语义特征,其中,在一种可能的实施方式中,备选答案片段的语义特征根据该备选答案片段的文本特征得到。分别根据该备选答案片段的文本特征和该备选答案片段的初始选择概率,确定文本选择特征;根据该备选答案片段的语义特征和该备选答案片段的初始选择概率,确定语义选择特征。最后将该备选答案片段的文本选择特征和语义选择特征进行拼接,得到该备选答案片段的选择特征。特别的是,本申请实施例根据备选答案片段的文本特征、语义特征、以及备选答案片段的初始选择概率,重构了备选答案片段的选择特征,进一步强化了交互选择模型找到最佳答案的能力。
对原来的问题也提取特征,并将问题的特征与每个备选答案片段的选择特征均拼接在一起,之后一起输入预先训练的交互选择模型中,使得交互选择模型具有综合每个备选答案片段进行选择的能力,从而得到每个备选答案片段的最终选择概率。这里,最终选择概率最大的备选答案片段可以确定为目标答案。
优选的,也可以采用分类模型实现交互选择模型,将选择最佳答案的过程看做分类任务,直接将问题的特征与每个备选答案片段的选择特征均拼接在一起后输入分类模型实现的交互选择模型中,得到目标答案。或者对每个备选答案片段设置索引信息,通过分类模型实现的交互选择模型中,得到目标索引信息,将目标索引信息对应的备选答案片段确定为目标答案。优选的,实现交互选择模型的分类模型可以采用多答案信息交互模型、AS模型或BMAnet模型等算法模型实现。
为了强化交互选择模型选取最佳目标答案的能力,优选的,采用下述步骤i到步骤iv对交互选择模型进行训练:
步骤i、获取答案片段样本集;所述答案片段样本集中包含至少一个问题样本,每个问题样本对应至少一个所述备选答案片段样本。
为了对交互选择模型进行训练,需要至少一个问题样本,每个问题样本对应了能解答该问题样本的至少一个备选答案片段样本。每个问题样本和每个问题样本对应的备选答案片段样本构成了答案片段样本集。
步骤ii、计算所述答案片段样本集中每个备选答案片段样本的ROUGE-L值。
每个备选答案片段样本的ROUGE-L值代表了该备选答案片段样本与该备选答案片段样本解答的问题样本的相关度,该备选答案片段样本的ROUGE-L值越大代表了该备选答案片段样本越能解答对应的问题样本。
步骤iii、针对所述答案片段样本集中的每个问题,为该问题对应的每个所述备选答案片段中ROUGE-L值最大的备选答案片段标记最佳答案标签。
步骤iv、以标记了最佳答案标签的答案片段样本集为样本,对所述交互选择模型进行训练。
为ROUGE-L值最大的备选答案片段标记最佳答案标签,使用标记了最佳答案标签的答案片段样本集为样本,对所述交互选择模型进行训练,从而通过训练增加交互选择模型选取最佳目标答案的能力。
实施例三
为了对本申请实施例提供的任一种机器阅读理解的实现方法中的阅读理解模型进行训练,提升阅读理解模型得到的至少一个备选答案片段和每个备选答案片段各自的初始选择概率的准确率,提升阅读理解模型的效率和计算速度,本申请实施例三提供了一种阅读理解模型的训练方法,如图5所示,包括:
S501:获取问题样本集,所述问题样本集中包含至少一个问题样本、每个问题样本各自的备选答案样本集和每个问题样本的参考答案;所述备选答案样本集中包括至少一个备选答案样本。
在实际实施时,为了提高阅读理解模型的准确度,需要获取数据规模很大的问题样本集,例如,对本申请实施例的机器阅读理解的实现方法的实现效果进行验证时,获取了包含27万个问题样本的问题样本集,并且,每个问题样本对应各自的备选答案样本集,每个备选答案样本集中包括至少一个备选答案样本,在对本申请实施例的机器阅读理解的实现方法的实现效果进行验证时,每个问题样本的备选答案样本集中包含5个备选答案样本。并且,问题样本集还包括每个问题样本的参考答案,这里,问题样本的参考答案可以为人工整理的能够解答问题样本提出的问题的优质标准答案。
S502:对问题样本集进行数据清洗和数据预处理。
在生成训练样本集之前,为了去除数据噪声,降低备选答案集的数据规模,提升阅读理解模型的训练效率,同样需要对问题样本集进行数据清洗和数据预处理。
对问题样本集中的问题样本和备选答案样本进行数据清洗的过程,与步骤S202中对问题的文本和备选答案的文本进行数据清洗的过程相同,此处不再赘述。
对问题样本集中的问题样本和备选答案样本进行数据预处理的过程,与步骤S203中对备选答案集进行数据预处理的过程也类似,具体原理不再赘述,可以包括以下两种可能的实施方式。
a:一种可能的实施方式中,根据下述步骤1至步骤3对问题样本和备选答案样本进行数据预处理。
步骤1、针对每个所述备选答案样本,去除该备选答案样本中的重复段落;
步骤2、针对每个问题样本,将该问题样本分别与该问题样本的备选答案集中每个去重后的备选答案样本进行拼接,得到至少一个中间文本样本;
步骤3、并针对每个所述中间文本样本,截取该中间文本样本的前预设字符长度的子文本,作为备选文本样本。
b:另一种可能的实施方式中,根据下述步骤1至步骤7对问题样本和备选答案样本进行数据预处理。
步骤1、针对每个所述备选答案样本,去除该备选答案样本中的重复段落。
步骤2、针对去重后的该备选答案样本的每个段落,计算该段落与该备选答案样本对应的所述问题样本的最大覆盖度。
步骤3、计算该段落与该备选答案样本中其他段落之间的交叉验证得分。
步骤4、根据该段落的所述最大覆盖度和所述交叉验证得分,确定该段落的置信度。
步骤5、根据所述置信度对该备选答案样本中的每个段落进行排序,并将排序后的每个段落拼接为排序后的备选答案样本。
步骤6、针对每个问题样本,将该问题样本分别与该问题样本的备选答案集中每个排序后的备选答案样本进行拼接,得到至少一个中间文本样本。
步骤7、并针对每个所述中间文本样本,截取该中间文本样本的前预设字符长度的子文本,作为备选文本样本。
S503:基于所述问题样本集生成训练样本集;所述训练样本集中包含至少一个训练样本。
现有技术中,训练样本集的生成通常会对每个问题样本的备选答案样本集中包含的备选答案样本进行精简,利用择优的算法从备选答案样本集中包含的每个备选答案样本中选出最符合标准的一个备选答案样本,与对应的问题样本一起生成训练样本集。或者将备选答案样本集中包含的每个备选答案样本进行拼接,形成一个备选答案样本,与对应的问题样本一起生成训练样本集。现有技术中生成的训练样本集中训练样本的个数通常与问题样本的个数相同,一个问题样本生成一个训练样本。
这样的训练样本生成方式,要么有可能丢失大量的备选答案样本信息,要么有可能造成训练样本的数据量过大,均不利于阅读理解模型的训练。并且,仅采用一个备选答案样本生成训练样本还会出现以下情况:仅选择一个备选答案样本生成训练样本会提高某个备选答案样本的选择概率,另一方面又会降低其他备选答案样本的选择概率,由于备选答案样本的选择过程难免偏颇,这种选择特性会严重降低阅读理解模型的学习效果。因此,本申请实施例中,采用下述步骤基于问题样本集生成训练样本集。
首先针对所述问题样本集中的每个问题样本,获取该问题样本的备选答案样本集中的每个备选答案样本;针对所述每个备选答案样本,生成该备选答案样本的至少一个第一文本片段,并计算每个所述第一文本片段各自的F1值;所述第一文本片段为该备选答案样本的子文本;将每个所述F1值大于预设F1值阈值的所述第一文本片段确定为备选文本片段,并将所述问题样本的文本与每个所述备选文本片段分别进行拼接,得到至少一个训练样本;基于每个所述训练样本生成所述训练样本集。这样,有些备选答案样本可能生成多个训练样本,有些备选答案样本可能无法生成训练样本,训练样本的生成根据F1值确定,而F1值综合了备选答案样本的准确率与召回率,基于F1值生成的训练样本可以更有利于阅读理解模型的训练。这样,本申请实施例生成的训练样本集中包含训练样本的数量,与问题样本的数量有关,而是与符合标准的备选答案样本的数量有关,也就是与F1值大于预设F1值阈值的所述第一文本片段的数量有关,从而合理的扩大了训练样本集的数据规模,更好地在保留有价值的备选答案样本信息的同时,平衡训练样本集的数据规模。对本申请实施例的机器阅读理解的实现方法的实现效果进行验证时,包含27万个问题样本的问题样本集,大概可以生成40-60万个训练样本规模的训练样本集。
在利用步骤S502中的可能的实施方式a或b对问题样本和备选答案样本进行数据预处理的情况下,生成所述训练样本集的过程有所变化,具体为:针对所述备选文本样本,生成该备选文本样本的至少一个第二文本片段,并计算每个所述第二文本片段各自的F1值;所述第二文本片段为该备选文本样本的子文本;将每个所述F1值大于预设F1值阈值的所述第二文本片段确定为训练样本;基于每个所述训练样本生成所述训练样本集。这里的备选文本样本为经过了对问题样本和备选答案样本的数据预处理得到,可以在降低数据规模的同时,提升训练样本中包含关键段落信息的概率。
根据训练样本的生成过程可以了解到,训练样本集中的每个训练样本包括问题样本部分和备选答案样本部分。
S504:提取所述训练样本集中每个训练样本的备选特征。
提取每个训练样本的备选特征的过程可以采用传统的只提取内部特征的过程。也可采用本申请实施例提供的任一种机器阅读理解的实现方法中的特征提取过程,针对每个训练样本,提取该训练样本的内部特征,并根据获取的外部属性信息提取该训练样本的外部特征,并根据所述内部特征和外部特征,得到该训练样本的备选特征。
S505:将每个所述备选特征输入初始阅读理解模型中,得到至少一个备选答案片段和每个所述备选答案片段各自的初始选择概率;所述备选答案片段为所述训练样本中的子文本。
初始阅读理解模型根据备选特征确定备选答案片段的过程与经过训练的阅读理解模型根据备选特征确定备选答案片段的过程相同,可参考步骤S207中的描述。
S506:根据每个备选答案片段和每个备选答案片段对应的参考答案,确定所述初始阅读理解模型的最大似然损失。
本申请实施例首先根据每个备选答案片段和每个备选答案片段对应的参考答案,确定所述初始阅读理解模型的最大似然损失。最大似然损失为备选答案片段在备选答案样本中的起止位置,与参考答案在备选答案样本中的起止位置之间的损失。
具体的,可以采用下述步骤I至步骤V确定初始阅读理解模型的最大似然损失:
步骤I、针对每个备选答案片段,根据该备选答案片段在所属训练样本中的起始位置和结束位置。
备选答案片段在训练样本中的起始位置和结束位置,通常用备选答案片段在训练样本中的字符位置表示,例如,备选答案片段在训练样本中的起始位置和结束位置为[5,10],表示该备选答案片段的起始位置为训练样本中的第5个字符,该备选答案片段的结束位置为训练样本中的第10个字符。另外,备选答案片段是从训练样本的备选答案样本部分确定的,不会从问题样本部分确定,因此,备选答案片段的起止位置也可以用备选答案片段在训练样本的备选答案样本部分的字符位置表示,例如,备选答案片段在训练样本中的起始位置和结束位置为[5,10],表示该备选答案片段的起始位置为训练样本的备选答案样本部分的第5个字符,该备选答案片段的结束位置为训练样本中的备选答案样本部分的第10个字符。
步骤II、根据该备选答案片段在所属训练样本中的起始位置,以及该备选答案片段对应的参考答案在该备选答案片段所属训练样本中的起始位置,确定该备选答案片段的起始位置损失。
与备选答案片段在所属训练样本中的起止位置类似,参考答案在备选答案样本中的起止位置也用参考答案在该备选答案片段所属训练样本中的字符位置表示,例如,参考答案在训练样本中的起始位置和结束位置为[3,10],表示参考答案的起始位置为训练样本中的第3个字符,表示参考答案的结束位置为训练样本中的第10个字符。另外,备选答案片段是从训练样本的备选答案样本部分确定的,不会从问题样本部分确定,因此对应的,参考答案的起止位置也可以用参考答案在训练样本的备选答案样本部分的字符位置表示,例如,备选答案片段在训练样本中的起始位置和结束位置为[3,10],表示参考答案的起始位置为训练样本的备选答案样本部分的第3个字符,表示参考答案的结束位置为训练样本的备选答案样本部分的第10个字符。
步骤III、根据该备选答案片段在所属训练样本中的结束位置,以及该备选答案片段对应的参考答案在该备选答案片段所属训练样本中的结束位置,确定该备选答案片段的结束位置损失。
步骤IV、根据所述起始位置损失、所述结束位置损失、以及该备选答案片段所属的备选答案样本中包含备选答案片段的个数,确定该备选答案片段的最大似然损失。
备选答案片段根据训练样本的子文本确定,因此,一个训练样本中可能包含两个以上的备选答案片段,第l个训练样本中包含的备选答案片段个数用Al表示。
步骤V、根据每个备选答案片段的最大似然损失,确定所述初始阅读理解模型的最大似然损失。
示例性的,可以采用下述公式(3)确定初始阅读理解模型的最大似然损失JMLE:
其中,JMLE为初始阅读理解模型的最大似然损失,备选答案片段为其中e为备选答案片段的起始位置,k为备选答案片段的终止位置,为备选答案片段起始位置损失,为备选答案片段终止位置损失,Am为第m个训练样本中包含的备选答案片段个数,N为训练样本个数。阅读理解模型在训练时通常可以分批迭代进行,当分批迭代进行阅读理解模型训练时,N为批处理参数,也就是一批训练样本中的训练样本个数。
S507:根据每个备选答案片段、每个所述备选答案片段各自的初始选择概率和每个备选答案片段对应的参考答案,确定所述初始阅读理解模型的最小风险训练损失。
现有技术中,通常直接采用最大似然损失作为初始阅读理解训练模型的损失,然而仅使用最大似然损失作为初始阅读理解训练模型的损失时,仅能衡量备选答案片段的起止位置与参考答案的起止位置之间的差值,无法忽略了具体的起止位置信息的价值。例如,当参考答案的起止位置为[3,10]时,两个备选答案片段分别是[5,10]和[10,11],按照最大似然损失的确定方法,起止位置为[10,11]的备选答案片段的最大似然损失较小,而起止位置为[5,10]的备选答案片段的最大似然损失较大。然而起止位置为[5,10]的备选答案片段与参考答案包含公共子文本,起止位置为[10,11]的备选答案片段中与参考答案之间没有公共子文本,起止位置为[10,11]错的更多,应该受到更多的惩罚。
因此,本申请实施例在现有技术的最大似然损失的基础上,加上了最小风险训练损失,通常采用ROUGE-L值衡量备选答案片段与参考答案之间包含的公共子文本的字符数量大小。具体的,可以采用下述步骤i至步骤iii确定初始阅读理解模型的最大似然损失:
步骤i、针对每个所述备选答案片段,计算该备选答案片段对应的参考答案与该备选答案片段之间的相关度。
步骤ii、根据所述相关度和该备选答案片段的初始选择概率,确定该备选答案片段的最小风险训练损失。
步骤iii、根据每个所述备选答案片段的最小风险训练损失,确定所述初始阅读理解模型的最小风险训练损失。
示例性的,可以采用reduce max函数来衡量备选答案片段和参考答案之间的相关度。例如,采用下述公式(4)确定初始阅读理解模型的最小风险训练损失JMRT:
其中,MRT为最小风险训练损失,An作为备选答案片段,An *作为参考答案中与备选答案片段最相近的备选答案片段,通过reduce max函数采样可以得到An *。为计算An与An *之间相关度的函数,θ为备选答案片段的初始选择概率,E()为最小风险训练函数,N为训练样本个数。阅读理解模型在训练时通常可以分批迭代进行,当分批迭代进行阅读理解模型训练时,N为批处理参数,也就是一批训练样本中的训练样本个数。
S508:根据所述初始阅读理解模型的最大似然损失和所述初始阅读理解模型的最小风险训练损失,确定所述初始阅读理解模型的总损失。
本申请实施例联合最大似然损失和最小风险训练损失,确定初始阅读理解模型的总损失。示例性的,可以对最大似然损失和最小风险训练损失进行加权计算,得到初始阅读理解模型的总损失。例如,可以采用下述公式(5)根据最大似然损失和最小风险训练损失,确定初始阅读理解模型的总损失:
J=JMLE+β·JMRT (5)
其中,J为初始阅读理解模型的总损失,JMLE为初始阅读理解模型的最大似然损失,JMRT为初始阅读理解模型的最小风险训练损失,β为权值。
S509:根据所述初始阅读理解模型的总损失调整所述初始阅读理解模型的参数,得到所述阅读理解模型。
本申请对本申请实施例提供的机器阅读理解的实现方法的实现效果进行了验证,具体的,采用了包含27万个问题样本的问题样本集对阅读理解模型进行了训练,采用约3000个问题的开发集和约7000个问题的测试集对机器阅读理解的实现方法进行了测试。
本申请进行测试的实验环境和硬件条件如表3所示:
表3实验环境和硬件条件
在对本申请实施例提供的机器阅读理解的实现方法进行验证,本申请实施例提供的机器阅读理解的实现方法的ROUGE-L值为63.5%,BLEU-4值为59.8%。
基于相同的设计构思,本申请实施例还提供一种机器阅读理解的实现装置、存储介质及电子设备。
实施例四
如图6所示,本申请实施例提供了一种机器阅读理解的实现装置600,包括:
获取模块601,用于获取问题和针对所述问题的备选答案集;
预处理模块602,用于将所述问题的文本与每个备选答案的文本分别进行拼接,得到至少一个备选文本;其中,所述备选答案集包含至少一个所述备选答案;
特征提取模块603,用于针对每个备选文本,提取该备选文本的内部特征,并根据获取的外部属性信息提取该备选文本的外部特征,并根据所述内部特征和外部特征,得到该备选文本的备选特征;
阅读理解模块604,用于将每个所述备选特征输入预先训练的阅读理解模型中,得到至少一个备选答案片段和每个备选答案片段各自的初始选择概率;
答案确定模块605,用于针对每个所述备选答案片段,提取该备选答案片段的文本特征和语义特征,根据每个所述备选答案片段的所述文本特征、所述语义特征和所述初始选择概率在每个所述备选答案片段之间进行交互选择,确定目标答案。
一种可能的实施方式中,所述外部属性信息包括:所述备选文本中包含的备选答案在所述备选答案集中的位置信息、所述备选文本中包含的备选答案的来源信息、所述问题的问题类型和所述备选答案的标题信息;
特征提取模块603,还用于:
将每个所述外部属性信息进行拼接得到拼接后的外部属性信息,并提取所述拼接后的外部属性信息的属性特征,将所述属性特征作为所述外部特征。
一种可能的实施方式中,特征提取模块603,还用于:
判断每个所述外部属性信息中是否包含非字符信息,当包含所述非字符信息时,将所述外部属性信息中的所述非字符信息转换为字符信息后,将每个所述外部属性信息进行拼接得到拼接后的外部属性信息。
一种可能的实施方式中,特征提取模块603,还用于:
采用转换器模型从所述拼接后的外部属性信息中提取两个以上属性特征;
将所述两个以上属性特征中的第一个所述属性特征作为所述外部特征。
一种可能的实施方式中,特征提取模块603,还用于:
分别提取该备选文本的文本特征、词语位置特征和文本类型特征;
将所述文本特征、所述词语位置特征和所述文本类型特征进行拼接,得到该备选文本的所述内部特征。
一种可能的实施方式中,答案确定模块605,还用于:
针对每个备选答案片段,根据该备选答案片段的文本特征和该备选答案片段的初始选择概率,确定文本选择特征;
根据该备选答案片段的语义特征和该备选答案片段的初始选择概率,确定语义选择特征;
对所述文本选择特征和所述语义选择特征进行拼接,得到该备选答案片段的选择特征;
将每个备案答案片段的选择特征输入预先训练的交互选择模型中,分别确定每个备选答案片段的最终选择概率;
将所述最终选择概率最大的所述备选答案片段确定为所述目标答案。
一种可能的实施方式中,机器阅读理解的实现装置600,还包括交互选择模型训练模块606,用于:
获取答案片段样本集;所述答案片段样本集中包含至少一个问题样本,每个问题样本对应至少一个所述备选答案片段样本;
计算所述答案片段样本集中每个备选答案片段样本的ROUGE-L值;
针对所述答案片段样本集中的每个问题,为该问题对应的每个所述备选答案片段中ROUGE-L值最大的备选答案片段标记最佳答案标签;
以标记了最佳答案标签的答案片段样本集为样本,对所述交互选择模型进行训练。
一种可能的实施方式中,机器阅读理解的实现装置600,还包括阅读理解模型训练模块607,用于:
获取问题样本集,所述问题样本集中包含至少一个问题样本、每个问题样本各自的备选答案样本集和每个问题样本的参考答案;所述备选答案样本集中包括至少一个备选答案样本;
基于所述问题样本集生成训练样本集;所述训练样本集中包含至少一个训练样本;
提取所述训练样本集中每个训练样本的备选特征;
将每个所述备选特征输入初始阅读理解模型中,得到至少一个备选答案片段和每个所述备选答案片段各自的初始选择概率;所述备选答案片段为所述训练样本中的子文本;
根据每个备选答案片段和每个备选答案片段对应的参考答案,确定所述初始阅读理解模型的最大似然损失;
根据每个备选答案片段、每个所述备选答案片段各自的初始选择概率和每个备选答案片段对应的参考答案,确定所述初始阅读理解模型的最小风险训练损失;
根据所述初始阅读理解模型的最大似然损失和所述初始阅读理解模型的最小风险训练损失,确定所述初始阅读理解模型的总损失;
根据所述初始阅读理解模型的总损失调整所述初始阅读理解模型的参数,得到所述阅读理解模型。
一种可能的实施方式中,阅读理解模型训练模块607,还用于:
针对每个备选答案片段,根据该备选答案片段在所属训练样本中的起始位置和结束位置;
根据该备选答案片段在所属训练样本中的起始位置,以及该备选答案片段对应的参考答案在该备选答案片段所属训练样本中的起始位置,确定该备选答案片段的起始位置损失;
根据该备选答案片段在所属训练样本中的结束位置,以及该备选答案片段对应的参考答案在该备选答案片段所属训练样本中的结束位置,确定该备选答案片段的结束位置损失;
根据所述起始位置损失、所述结束位置损失、以及该备选答案片段所属的备选答案样本中包含备选答案片段的个数,确定该备选答案片段的最大似然损失;
根据每个备选答案片段的最大似然损失,确定所述初始阅读理解模型的最大似然损失。
一种可能的实施方式中,阅读理解模型训练模块607,还用于:
针对每个所述备选答案片段,计算该备选答案片段对应的参考答案与该备选答案片段之间的相关度;
根据所述相关度和该备选答案片段的初始选择概率,确定该备选答案片段的最小风险训练损失;
根据每个所述备选答案片段的最小风险训练损失,确定所述初始阅读理解模型的最小风险训练损失。
一种可能的实施方式中,阅读理解模型训练模块607,还用于:
针对所述问题样本集中的每个问题样本,获取该问题样本的备选答案样本集中的每个备选答案样本;
针对所述每个备选答案样本,生成该备选答案样本的至少一个第一文本片段,并计算每个所述第一文本片段各自的F1值;所述第一文本片段为该备选答案样本的子文本;
将每个所述F1值大于预设F1值阈值的所述第一文本片段确定为备选文本片段,并将所述问题样本的文本与每个所述备选文本片段分别进行拼接,得到至少一个训练样本;
基于每个所述训练样本生成所述训练样本集。
一种可能的实施方式中,阅读理解模型训练模块607,还用于;
所述获取问题样本集的步骤之后,所述基于所述问题样本集生成训练样本集的步骤之前,所述方法还包括:
针对每个所述备选答案样本,去除该备选答案样本中的重复段落;
针对每个问题样本,将该问题样本分别与该问题样本的备选答案集中每个去重后的备选答案样本进行拼接,得到至少一个中间文本样本;
并针对每个所述中间文本样本,截取该中间文本样本的前预设字符长度的子文本,作为备选文本样本;
所述基于所述问题样本集生成训练样本集的步骤,包括:
根据每个所述备选文本样本,生成所述训练样本集。
一种可能的实施方式中,阅读理解模型训练模块607,还用于:
针对去重后的该备选答案样本的每个段落,计算该段落与该备选答案样本对应的所述问题样本的最大覆盖度;
计算该段落与该备选答案样本中其他段落之间的交叉验证得分;
根据该段落的所述最大覆盖度和所述交叉验证得分,确定该段落的置信度;
根据所述置信度对该备选答案样本中的每个段落进行排序,并将排序后的每个段落拼接为排序后的备选答案样本;
针对每个问题样本,将该问题样本分别与该问题样本的备选答案集中每个排序后的备选答案样本进行拼接,得到至少一个中间文本样本。
一种可能的实施方式中,阅读理解模型训练模块607,还用于:
针对所述备选文本样本,生成该备选文本样本的至少一个第二文本片段,并计算每个所述第二文本片段各自的F1值;所述第二文本片段为该备选文本样本的子文本;
将每个所述F1值大于预设F1值阈值的所述第二文本片段确定为训练样本;
基于每个所述训练样本生成所述训练样本集。
一种可能的实施方式中,机器阅读理解的实现装置600,还包括噪声清洗模块608,用于:
对所述问题的文本与所述每个备选答案的文本进行数据清洗,去除所述问题的文本与所述每个备选答案的文本中的噪声字符。
一种可能的实施方式中,机器阅读理解的实现装置600,还包括预处理模块602,用于:
针对每个所述备选答案,去除该备选答案中的重复段落;
将所述问题的文本分别于与去重后的每个所述备选答案的文本进行拼接,得到至少一个中间文本;
针对每个所述中间文本,截取该中间文本的前预设字符长度的子文本,得到所述备选文本。
实施例五
一种计算机可读介质,所述计算机可读存储介质存储指令,所述指令在由处理器执行时使得所述处理器执行实施例一至实施例三提供的方法的步骤。实际应用中,所述的计算机可读介质可以是上述实施例中描述的设备/装置/系统中所包含的,也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或多个程序被执行时,实现根据参考实施例四提供的装置进行实施例一至实施例三提供的方法的步骤。
根据本申请公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件,或者上述的任意合适的组合,但不用于限制本申请保护的范围。在本申请公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
本申请所述的方法步骤除了可以用数据处理程序来实现,还可以由硬件来实现,例如,可以由逻辑门、开关、专用集成电路(ASIC)、可编程逻辑控制器和嵌微控制器等来实现。因此这种可以实现本申请所述方法的硬件也可以构成本申请。
实施例六
本申请实施例还提供一种电子设备,可以是计算机或服务器,其中可以集成本申请上述装置实施例四的装置。如图7所示,其示出了本申请装置实施例四所涉及的电子设备700。
该电子设备可以包括一个或者一个以上处理核心的处理器701、一个或一个以上计算机可读存储介质702。该电子设备还可以包括电源703、输入输出单元704。本领域技术人员可以理解,图7中并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
其中:
处理器701是该电子设备的控制部分,利用各种接口和线路连接各个部分,通过运行或执行存储在计算机可读存储介质702中的软件程序,执行实施例一至实施例三提供的方法的步骤。
计算机可读存储介质702可用于存储软件程序,即实施例一至实施例三提供的方法中涉及的程序。
处理器701通过运行存储在计算机可读存储介质702的软件程序,从而执行各种功能应用以及数据处理。计算机可读存储介质702可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据电子设备需要使用的数据等。此外,计算机可读存储介质702可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,计算机可读存储介质702还可以包括存储器控制器,以提供处理器701对计算机可读存储介质702的访问。
电子设备还包括给各个部件供电的电源703,优选的,电源703可以通过电源管理系统与处理器701逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源703还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入输出单元704,比如可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入;比如可用于显示由用户输入的信息或提供给用户的信息以及服务器的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。
本申请附图中的流程图和框图,示出了按照本申请公开的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同附图中所标准的顺序发生。例如,两个连接地表示的方框实际上可以基本并行地执行,它们有时也可以按照相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或者流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本申请中。特别地,在不脱离本申请精神和教导的情况下,本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,所有这些组合和/或结合均落入本申请公开的范围。
本申请中应用了具体实施例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思路,并不用于限制本申请。对于本领域的技术人员来说,可以依据本申请的思路、精神和原则,在具体实施方式及应用范围上进行改变,其所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
Claims (17)
1.一种机器阅读理解的实现方法,其特征在于,包括:
获取问题和针对所述问题的备选答案集,并将所述问题的文本与每个备选答案的文本分别进行拼接,得到至少一个备选文本;其中,所述备选答案集包含至少一个所述备选答案;
针对每个备选文本,提取该备选文本的内部特征,并根据获取的外部属性信息提取该备选文本的外部特征,并根据所述内部特征和外部特征,得到该备选文本的备选特征;
将每个所述备选特征输入预先训练的阅读理解模型中,得到至少一个备选答案片段和每个备选答案片段各自的初始选择概率;
针对每个所述备选答案片段,提取该备选答案片段的文本特征和语义特征,根据每个所述备选答案片段的所述文本特征、所述语义特征和所述初始选择概率在每个所述备选答案片段之间进行交互选择,确定目标答案;
其中,所述提取该备选文本的内部特征的步骤包括:
分别提取该备选文本的文本特征、词语位置特征和文本类型特征,所述该备选文本的文本特征采用词嵌入方式得到;
将所述文本特征、所述词语位置特征和所述文本类型特征进行拼接,得到该备选文本的所述内部特征;
所述外部属性信息包括:所述备选文本中包含的备选答案在所述备选答案集中的位置信息、所述备选文本中包含的备选答案的来源信息、所述问题的问题类型和所述备选答案的标题信息;
所述根据获取的外部属性信息提取该备选文本的外部特征的步骤包括:
将每个所述外部属性信息进行拼接得到拼接后的外部属性信息,并提取所述拼接后的外部属性信息的属性特征,将所述属性特征作为所述外部特征。
2.根据权利要求1所述的方法,其特征在于,所述将每个所述外部属性信息进行拼接得到拼接后的外部属性信息的步骤包括:
判断每个所述外部属性信息中是否包含非字符信息,当包含所述非字符信息时,将所述外部属性信息中的所述非字符信息转换为字符信息后,将每个所述外部属性信息进行拼接得到拼接后的外部属性信息。
3.根据权利要求1所述的方法,其特征在于,所述提取所述拼接后的外部属性信息的属性特征,将所述属性特征作为所述外部特征的步骤包括:
采用具有自注意力机制的转换器模型从所述拼接后的外部属性信息中提取两个以上属性特征;
将所述两个以上属性特征中的第一所述属性特征作为所述外部特征。
4.根据权利要求1所述的方法,其特征在于,所述针对每个所述备选答案片段,提取该备选答案片段的文本特征和语义特征,根据每个所述备选答案片段的所述文本特征、所述语义特征和所述初始选择概率在每个所述备选答案片段之间进行交互选择,确定目标答案的步骤包括:
针对每个备选答案片段,根据该备选答案片段的文本特征和该备选答案片段的初始选择概率,确定文本选择特征;
根据该备选答案片段的语义特征和该备选答案片段的初始选择概率,确定语义选择特征;
对所述文本选择特征和所述语义选择特征进行拼接,得到该备选答案片段的选择特征;
提取所述问题的特征,并将所述问题的特征与每个备案答案片段的选择特征进行拼接后,输入预先训练的交互选择模型中,分别确定每个备选答案片段的最终选择概率;
将所述最终选择概率最大的所述备选答案片段确定为所述目标答案。
5.根据权利要求4所述的方法,其特征在于,还包括所述交互选择模型基于如下步骤进行训练:
获取答案片段样本集;所述答案片段样本集中包含至少一个问题样本,每个问题样本对应至少一个备选答案片段样本;
计算所述答案片段样本集中每个备选答案片段样本的ROUGE-L值;
针对所述答案片段样本集中的每个问题,为该问题对应的每个所述备选答案片段中ROUGE-L值最大的备选答案片段标记最佳答案标签;
以标记了最佳答案标签的答案片段样本集为样本,对所述交互选择模型进行训练。
6.根据权利要求1所述的方法,其特征在于,所述阅读理解模型基于如下步骤进行训练:
获取问题样本集,所述问题样本集中包含至少一个问题样本、每个问题样本各自的备选答案样本集和每个问题样本的参考答案;所述备选答案样本集中包括至少一个备选答案样本;
基于所述问题样本集生成训练样本集;所述训练样本集中包含至少一个训练样本;
提取所述训练样本集中每个训练样本的备选特征;
将每个所述备选特征输入初始阅读理解模型中,得到至少一个备选答案片段和每个所述备选答案片段各自的初始选择概率;所述备选答案片段为所述训练样本中的子文本;
根据每个备选答案片段和每个备选答案片段对应的参考答案,确定所述初始阅读理解模型的最大似然损失;
根据每个备选答案片段、每个所述备选答案片段各自的初始选择概率和每个备选答案片段对应的参考答案,确定所述初始阅读理解模型的最小风险训练损失;
根据所述初始阅读理解模型的最大似然损失和所述初始阅读理解模型的最小风险训练损失,确定所述初始阅读理解模型的总损失;
根据所述初始阅读理解模型的总损失调整所述初始阅读理解模型的参数,得到所述阅读理解模型。
7.根据权利要求6所述的方法,其特征在于,所述根据每个备选答案片段和每个备选答案片段对应的参考答案,确定所述初始阅读理解模型的最大似然损失的步骤包括:
针对每个备选答案片段,根据该备选答案片段在所属训练样本中的起始位置和结束位置;
根据该备选答案片段在所属训练样本中的起始位置,以及该备选答案片段对应的参考答案在该备选答案片段所属训练样本中的起始位置,确定该备选答案片段的起始位置损失;
根据该备选答案片段在所属训练样本中的结束位置,以及该备选答案片段对应的参考答案在该备选答案片段所属训练样本中的结束位置,确定该备选答案片段的结束位置损失;
根据所述起始位置损失、所述结束位置损失、以及该备选答案片段所属的备选答案样本中包含备选答案片段的个数,确定该备选答案片段的最大似然损失;
根据每个备选答案片段的最大似然损失,确定所述初始阅读理解模型的最大似然损失。
8.根据权利要求6所述的方法,其特征在于,所述根据每个备选答案片段、每个所述备选答案片段各自的初始选择概率和每个备选答案片段对应的参考答案,确定所述初始阅读理解模型的最小风险训练损失的步骤包括:
针对每个所述备选答案片段,计算该备选答案片段对应的参考答案与该备选答案片段之间的相关度;
根据所述相关度和该备选答案片段的初始选择概率,确定该备选答案片段的最小风险训练损失;
根据每个所述备选答案片段的最小风险训练损失,确定所述初始阅读理解模型的最小风险训练损失。
9.根据权利要求6所述的方法,其特征在于,所述基于所述问题样本集生成训练样本集的步骤包括:
针对所述问题样本集中的每个问题样本,获取该问题样本的备选答案样本集中的每个备选答案样本;
针对所述每个备选答案样本,生成该备选答案样本的至少一个第一文本片段,并计算每个所述第一文本片段各自的F1值;所述第一文本片段为该备选答案样本的子文本;
将每个所述F1值大于预设F1值阈值的所述第一文本片段确定为备选文本片段,并将所述问题样本的文本与每个所述备选文本片段分别进行拼接,得到至少一个训练样本;
基于每个所述训练样本生成所述训练样本集。
10.根据权利要求6所述的方法,其特征在于,所述备选答案样本包含至少一个段落;
所述获取问题样本集的步骤之后,所述基于所述问题样本集生成训练样本集的步骤之前,所述方法还包括:
针对每个所述备选答案样本,去除该备选答案样本中的重复段落;
针对每个问题样本,将该问题样本分别与该问题样本的备选答案集中每个去重后的备选答案样本进行拼接,得到至少一个中间文本样本;
并针对每个所述中间文本样本,截取该中间文本样本的前预设字符长度的子文本,作为备选文本样本;
所述基于所述问题样本集生成训练样本集的步骤,包括:
根据每个所述备选文本样本,生成所述训练样本集。
11.根据权利要求10所述的方法,其特征在于,所述将该问题样本分别与该问题样本的备选答案集中每个去重后的备选答案样本进行拼接,得到至少一个中间文本样本的步骤包括:
针对去重后的该备选答案样本的每个段落,计算该段落与该备选答案样本对应的所述问题样本的最大覆盖度;
计算该段落与该备选答案样本中其他段落之间的交叉验证得分;
根据该段落的所述最大覆盖度和所述交叉验证得分,确定该段落的置信度;
根据所述置信度对该备选答案样本中的每个段落进行排序,并将排序后的每个段落拼接为排序后的备选答案样本;
针对每个问题样本,将该问题样本分别与该问题样本的备选答案集中每个排序后的备选答案样本进行拼接,得到至少一个中间文本样本。
12.根据权利要求10所述的方法,其特征在于,所述根据每个所述备选文本样本,生成所述训练样本集的步骤包括:
针对所述备选文本样本,生成该备选文本样本的至少一个第二文本片段,并计算每个所述第二文本片段各自的F1值;所述第二文本片段为该备选文本样本的子文本;
将每个所述F1值大于预设F1值阈值的所述第二文本片段确定为训练样本;
基于每个所述训练样本生成所述训练样本集。
13.根据权利要求1所述的方法,其特征在于,所述获取问题和针对所述问题的备选答案集的步骤之后,所述将所述问题的文本与每个备选答案的文本分别进行拼接的步骤之前,所述方法还包括:
对所述问题的文本与所述每个备选答案的文本进行数据清洗,去除所述问题的文本与所述每个备选答案的文本中的噪声字符。
14.根据权利要求1所述的方法,其特征在于,所述将所述问题的文本与每个备选答案的文本分别进行拼接,得到至少一个备选文本的步骤包括:
针对每个所述备选答案,去除该备选答案中的重复段落;
将所述问题的文本分别于与去重后的每个所述备选答案的文本进行拼接,得到至少一个中间文本;
针对每个所述中间文本,截取该中间文本的前预设字符长度的子文本,得到所述备选文本。
15.一种机器阅读理解的实现装置,其特征在于,包括:
获取模块,用于获取问题和针对所述问题的备选答案集;
预处理模块,用于将所述问题的文本与每个备选答案的文本分别进行拼接,得到至少一个备选文本;其中,所述备选答案集包含至少一个所述备选答案;
特征提取模块,用于针对每个备选文本,提取该备选文本的内部特征,并根据获取的外部属性信息提取该备选文本的外部特征,并根据所述内部特征和外部特征,得到该备选文本的备选特征;
阅读理解模块,用于将每个所述备选特征输入预先训练的阅读理解模型中,得到至少一个备选答案片段和每个备选答案片段各自的初始选择概率;
答案确定模块,用于针对每个所述备选答案片段,提取该备选答案片段的文本特征和语义特征,根据每个所述备选答案片段的所述文本特征、所述语义特征和所述初始选择概率在每个所述备选答案片段之间进行交互选择,确定目标答案;
其中,所述提取该备选文本的内部特征的步骤包括:
分别提取该备选文本的文本特征、词语位置特征和文本类型特征,所述该备选文本的文本特征采用词嵌入方式得到;
将所述文本特征、所述词语位置特征和所述文本类型特征进行拼接,得到该备选文本的所述内部特征;
所述外部属性信息包括:所述备选文本中包含的备选答案在所述备选答案集中的位置信息、所述备选文本中包含的备选答案的来源信息、所述问题的问题类型和所述备选答案的标题信息;
所述根据获取的外部属性信息提取该备选文本的外部特征的步骤包括:
将每个所述外部属性信息进行拼接得到拼接后的外部属性信息,并提取所述拼接后的外部属性信息的属性特征,将所述属性特征作为所述外部特征。
16.一种计算机可读存储介质,存储有计算机指令,其特征在于,所述指令被处理器执行时可实现权利要求1~14任一项所述的方法的步骤。
17.一种电子设备,其特征在于,还包括处理器,所述处理器用于执行如权利要求1至14中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910783241.0A CN110543631B (zh) | 2019-08-23 | 2019-08-23 | 机器阅读理解的实现方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910783241.0A CN110543631B (zh) | 2019-08-23 | 2019-08-23 | 机器阅读理解的实现方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110543631A CN110543631A (zh) | 2019-12-06 |
CN110543631B true CN110543631B (zh) | 2023-04-28 |
Family
ID=68711912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910783241.0A Active CN110543631B (zh) | 2019-08-23 | 2019-08-23 | 机器阅读理解的实现方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110543631B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046158B (zh) * | 2019-12-13 | 2020-12-15 | 腾讯科技(深圳)有限公司 | 问答匹配方法及模型训练方法、装置、设备、存储介质 |
CN111309887B (zh) * | 2020-02-24 | 2023-04-14 | 支付宝(杭州)信息技术有限公司 | 一种训练文本关键内容提取模型的方法和系统 |
CN111382255B (zh) * | 2020-03-17 | 2023-08-01 | 北京百度网讯科技有限公司 | 用于问答处理的方法、装置、设备和介质 |
CN111401033B (zh) * | 2020-03-19 | 2023-07-25 | 北京百度网讯科技有限公司 | 事件抽取方法、事件抽取装置和电子设备 |
CN111611361B (zh) * | 2020-04-01 | 2022-06-14 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 抽取式机器智能阅读理解问答系统 |
CN111563378A (zh) * | 2020-04-30 | 2020-08-21 | 神思电子技术股份有限公司 | 一种联合学习的多文档阅读理解实现方法 |
CN111832277B (zh) * | 2020-06-04 | 2024-03-26 | 北京百度网讯科技有限公司 | 阅读理解模型的训练方法及阅读理解处理方法 |
CN111858878B (zh) * | 2020-06-18 | 2023-12-22 | 达观数据有限公司 | 从自然语言文本中自动提取答案的方法、系统及存储介质 |
CN111858883A (zh) * | 2020-06-24 | 2020-10-30 | 北京百度网讯科技有限公司 | 三元组样本的生成方法、装置、电子设备及存储介质 |
CN112507090B (zh) * | 2020-11-30 | 2024-05-03 | 北京百度网讯科技有限公司 | 用于输出信息的方法、装置、设备和存储介质 |
CN113282722B (zh) * | 2021-05-07 | 2024-03-29 | 中国科学院深圳先进技术研究院 | 机器阅读理解方法、电子设备及存储介质 |
CN113407685A (zh) * | 2021-05-14 | 2021-09-17 | 北京金山数字娱乐科技有限公司 | 一种样本筛选方法及装置 |
CN116383366B (zh) * | 2023-06-06 | 2023-08-04 | 中航信移动科技有限公司 | 一种应答信息确定方法、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959396A (zh) * | 2018-06-04 | 2018-12-07 | 众安信息技术服务有限公司 | 机器阅读模型训练方法及装置、问答方法及装置 |
CN109685212A (zh) * | 2018-12-14 | 2019-04-26 | 安徽省泰岳祥升软件有限公司 | 一种机器阅读理解模型的分阶段训练方法及装置 |
CN109816111A (zh) * | 2019-01-29 | 2019-05-28 | 北京金山数字娱乐科技有限公司 | 阅读理解模型训练方法以及装置 |
-
2019
- 2019-08-23 CN CN201910783241.0A patent/CN110543631B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959396A (zh) * | 2018-06-04 | 2018-12-07 | 众安信息技术服务有限公司 | 机器阅读模型训练方法及装置、问答方法及装置 |
CN109685212A (zh) * | 2018-12-14 | 2019-04-26 | 安徽省泰岳祥升软件有限公司 | 一种机器阅读理解模型的分阶段训练方法及装置 |
CN109816111A (zh) * | 2019-01-29 | 2019-05-28 | 北京金山数字娱乐科技有限公司 | 阅读理解模型训练方法以及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110543631A (zh) | 2019-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110543631B (zh) | 机器阅读理解的实现方法、装置、存储介质及电子设备 | |
CN109871545B (zh) | 命名实体识别方法及装置 | |
EP3862889A1 (en) | Responding to user queries by context-based intelligent agents | |
CN109726274B (zh) | 问题生成方法、装置及存储介质 | |
CN107644011B (zh) | 用于细粒度医疗实体提取的系统和方法 | |
CN110135457A (zh) | 基于自编码器融合文档信息的事件触发词抽取方法及系统 | |
CN110427463A (zh) | 搜索语句响应方法、装置及服务器和存储介质 | |
KR20160026892A (ko) | 논팩토이드형 질의 응답 시스템 및 방법 | |
CN111221939A (zh) | 评分方法、装置和电子设备 | |
CN109271524B (zh) | 知识库问答系统中的实体链接方法 | |
Bosma | Query-based summarization using rhetorical structure theory | |
CN110096572B (zh) | 一种样本生成方法、装置及计算机可读介质 | |
KR101522522B1 (ko) | 작문 자동 평가를 위한 예제 기반 오류 검출 시스템 및 방법 | |
Mirko et al. | Towards an argument mining pipeline transforming texts to argument graphs | |
CN110245349B (zh) | 一种句法依存分析方法、装置及一种电子设备 | |
EP3726401A1 (en) | Encoding textual information for text analysis | |
CN107943940A (zh) | 数据处理方法、介质、系统和电子设备 | |
KR20140026703A (ko) | 문법의 오류 검출 방법 및 이를 위한 장치 | |
Wadud et al. | Text coherence analysis based on misspelling oblivious word embeddings and deep neural network | |
CN112883182A (zh) | 一种基于机器阅读的问答匹配方法及装置 | |
CN108363700A (zh) | 新闻标题的质量评估方法及装置 | |
Sinha et al. | NLP-based automatic answer evaluation | |
CN112446217B (zh) | 情感分析方法、装置及电子设备 | |
Curtotti et al. | A right to access implies a right to know: An open online platform for research on the readability of law | |
CN112559711A (zh) | 一种同义文本提示方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 201210 building C, No. 888, Huanhu West 2nd Road, Lingang New District, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai Applicant after: Deep thinking of artificial intelligence technology (Shanghai) Co.,Ltd. Address before: 201306 C, 888, west two road, Nanhui new town, Pudong New Area, Shanghai Applicant before: Shanghai Shenxin Intelligent Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |