CN109815341B - 一种文本抽取模型训练方法、文本抽取方法及装置 - Google Patents
一种文本抽取模型训练方法、文本抽取方法及装置 Download PDFInfo
- Publication number
- CN109815341B CN109815341B CN201910059221.9A CN201910059221A CN109815341B CN 109815341 B CN109815341 B CN 109815341B CN 201910059221 A CN201910059221 A CN 201910059221A CN 109815341 B CN109815341 B CN 109815341B
- Authority
- CN
- China
- Prior art keywords
- short
- answer
- answers
- corpus
- core
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种文本抽取模型训练方法、文本抽取方法及装置。其中,该文本抽取模型训练方法将问题语料和答案语料分别拆分成短问题和短答案,并对短答案的核心句进行标注,从而使用短问题和标注的短答案对文本抽取模型进行训练,实现仅使用少量的问答语料,就能够使训练得到的文本抽取模型的准确率得到大幅度的提升。另外,该文本抽取方法将长问题拆分成短问题,使用文本抽取模型抽取每个短问题的短答案,再将短答案拼接成长答案,从而,最终得到的长答案内容完整,与问题相关性高。由此,本申请实施例解决了现有技术中的从文档资料中抽取问答内容准确率低的问题。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种文本抽取模型训练方法、文本抽取方法及装置。
背景技术
在一些行业的文档资料中,通常会蕴藏由大量的问答知识,尤其是例如保险、金融和电商等服务型行业。为了提高行业的服务水平和工作效率,从业人员需要对文档资料进行挖掘和整理,以从这些文档资料中获取常见的问答内容,但是目前依靠人工整理文档资料的方法效率低并且工作量大。
现有技术中,本领域技术人员尝试通过QA-net模型来从文档资料中自动抽取问答内容,其中,QA-net是一个可用于阅读理解的机器学习模型算法。但是,目前使用QA-net从文档资料中抽取到的问答内容存在很大的问题,例如:抽取到的答案与问题不相关,即答案完全错误,或者,仅抽取到了问题对应的部分答案,即答案不完整。在一些使用QA-net对样本文档的抽取测试中,上述两类问题的占比超过50%,完全不具备实际应用的条件。因此,如果想要使用机器学习模型替代人工从文档资料中抽取问答内容,就必须要提高机器学习模型的抽取准确率。
发明内容
本申请实施例提供了一种文本抽取模型训练方法、文本抽取方法及装置,以解决现有技术从文档资料中抽取问答内容准确率低的问题。
第一方面,本申请实施例提供了一种文本抽取模型训练方法,包括:
获取问答语料,所述问答语料包含问题语料和答案语料组成的问答对;
当根据判断规则确定答案语料为长答案时,将答案语料分解成多个短答案,并为每个短答案设置对应的短问题;
抽取短答案的核心句和核心词,并标注核心句,其中,所述核心词用于对文本抽取模型抽取到的短答案进行准确性校验,所述核心词与所述短问题对应;
使用短问题和标注有核心句的短答案训练所述文本抽取模型。
第二方面,本申请实施例提供了一种文本抽取模型训练装置,包括:
获取模块,用于获取问答语料,所述问答语料包含问题语料和答案语料组成的问答对;
分解模块,用于当根据判断规则确定答案语料为长答案时,将答案语料分解成多个短答案,并为每个短答案设置对应的短问题;
抽取模块,用于抽取短答案的核心句和核心词,并标注核心句,其中,所述核心词用于对文本抽取模型抽取到的短答案进行准确性校验,所述核心词与所述短问题对应;
训练模块,用于使用短问题和标注有核心句的短答案训练所述文本抽取模型。
由以上技术方案可知,本申请实施例提供了一种文本抽取模型训练方法及装置,其中,该方法包括:获取问答语料,所述问答语料包含问题语料和答案语料组成的问答对;当根据判断规则确定答案语料为长答案时,将答案语料分解成多个短答案,并为每个短答案设置对应的短问题;抽取短答案的核心句和核心词,并标注核心句,其中,所述核心词用于对文本抽取模型抽取到的短答案进行准确性校验,所述核心词与所述短问题对应;使用短问题和标注有核心句的短答案训练所述文本抽取模型。本申请实施例提供的技术方案,将问题语料和答案语料分别拆分成短问题和短答案,并对短答案的核心句进行标注,从而使用短问题和标注的短答案对文本抽取模型进行训练,实现仅使用少量的问答语料,就能够使训练得到的文本抽取模型的准确率得到大幅度的提升,解决了现有技术从文档资料中抽取问答内容准确率低的问题。
第三方面,本申请实施例提供了一种文本抽取方法,该方法应用于文本抽取模型训练方法训练得到的文本抽取模型,包括:
使用文本抽取模型从未知语料中抽取预设短问题对应的短答案,所述短答案包含核心句;
确定短答案中是否包含预设短问题对应的核心词,如果短答案包含核心词,则将短答案标记为正确答案;
将所有正确答案合并为长问题的长答案,所述长问题与所述短问题的主题对应。
第四方面,本申请实施例提供了一种文本抽取装置,该装置应用于文本抽取模型训练方法训练得到的文本抽取模型,包括:
抽取模块,用于使用文本抽取模型从未知语料中抽取预设短问题对应的短答案,所述短答案包含核心句;
标记模块,用于确定短答案中是否包含预设短问题对应的核心词,如果短答案包含所述核心词,则将短答案标记为正确答案;
合并模块,用于将所有正确答案合并为长问题的长答案,所述长问题与所述短问题的主题对应。
由以上技术方案可知,本申请实施例提供了一种文本抽取方法及装置,其中,该方法包括:使用文本抽取模型从未知语料中抽取预设短问题对应的短答案,所述短答案包含核心句;确定短答案中是否包含预设短问题对应的核心词,如果短答案包含核心词,则将短答案标记为正确答案;将所有正确答案合并为长问题的长答案,所述长问题与所述短问题的主题对应。由此,本申请实施例提供的技术方案,将长问题拆分成短问题,使用文本抽取模型抽取每个短问题的短答案,再将短答案拼接成长答案,从而,最终得到的长答案内容完整,与问题相关性高,解决了现有技术中的从文档资料中抽取问答内容准确率低的问题。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种文本抽取模型训练方法的流程图;
图2是本申请实施例提供的一种文本抽取模型训练方法步骤S120的流程图;
图3是本申请实施例提供的获取短答案的核心句和核心词的流程图;
图4是本申请实施例提供的一种文本抽取方法的流程图;
图5为本申请实施例提供的一种文本抽取方法步骤S410的流程图;
图6为本申请实施例提供的一种文本抽取模型训练装置的结构示意图;
图7为本申请实施例提供的一种文本抽取装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
现有技术中,本领域技术人员尝试通过QA-net模型来从文档资料中自动抽取问答内容,其中,QA-net是一个可用于阅读理解的机器学习模型算法。但是,目前使用QA-net从文档资料中抽取到的问答内容存在很大的问题。
例如:一种比较常见的问题是抽取到的答案与问题不相关,即答案完全错误。
示例地,在一些对QA-net模型的抽取准确性测试中,利用现有的QA-net模型从保险行业的某份医疗保险合同中抽取到以下问题的答案:
问题:冠状动脉搭桥手术的定义是什么?
抽取的答案:因酗酒或药物滥用导致的肝功能衰竭不在保障范围内。
标准答案:为治疗严重的冠心病,实际实施了开胸进行的冠状动脉血管旁路移植的手术。
可见,上述使用QA-net模型抽取到的答案与问题毫不相关,即答案是完全错误的。
又例如,另一种比较常见的问题是仅抽取到了问题的部分答案,即答案不完整。
示例地,在一些对QA-net模型的抽取准确性测试中,利用现有的QA-net模型从保险行业的某份医疗保险合同中抽取到以下问题的答案:
问题:合同的构成是什么?
抽取的答案:本保险合同。
标准答案:本保险合同(以下简称“本合同”)由保险单或其他保险凭证及所附条款、投保单、与本合同有关的其它投保文件、被保险人人名清单、保险合同变更申请书、声明、批注、附贴批单及其他加盖本公司保险合同公章的书面协议构成。除上述文件之外的其他任何书面或口头的协议、承诺均不构成本合同组成部分,对其效力本公司不予认可。
可见,上述抽取的答案中仅包含“本保险合同”,没有抽取到“本保险合同”后面的具体内容,因此,抽取的答案是不完整的。
在一些使用QA-net对样本文档的抽取测试中,上述两类问题的占比超过50%,完全不具备实际应用的条件。因此,如果想要使用机器学习模型替代人工从文档资料中抽取问答内容,就必须要提高机器学习模型的抽取准确率。
本申请实施例提供了一种文本抽取模型训练方法、文本抽取方法及装置,以解决现有技术从文档资料中抽取问答内容准确率低的问题。
下面是本申请的方法实施例。
本申请实施例提供了一种文本抽取模型训练方法。图1是本申请实施例提供的一种文本抽取模型训练方法的流程图。该方法可以应用于服务器、PC(个人电脑)、平板电脑、手机等多种设备中。
如图1所示,该训练方法包括以下步骤:
步骤S110,获取问答语料,所述问答语料包含问题语料和答案语料组成的问答对。
具体地,根据本申请实施例的方法应用的行业或领域,可以整理对应行业或领域的文档资料,从文档资料中获取用作训练QA-net等问答模型的问答语料。问答语料可以由大量的问答对组成,每个问答对中包含一个问题语料和一个答案语料。
步骤S120,当根据判断规则确定答案语料为长答案时,将答案语料分解成多个短答案,并为每个短答案设置对应的短问题。
当问答对中的问题语料概括了一个范围较大的概念时,其对应的答案语料经常会包含多个方面的内容,此时可以将答案语料中每个方面的内容进行拆分,形成多个短答案,并为每个短答案对应设置一个概括范围更小的短问题。
示例地,一个问答对包含:
问题语料:医院的范围定义。
答案语料:指除下述三项所列医院以外的二级及以上公立医院,该种级别是按照中华人民共和国卫生部所颁布的分类标准划分的。本附加合同所提及的医院还包括我方所认可的中国香港、中国澳门、中国台湾地区医院和国外医院,该医院应该是一种合法成立并按照当地法规营运的机构,其主要业务是在居民住院的基础上接收、护理和治疗病人或伤员,并且拥有诊断和内外科设施,同时还有合格医师及护士驻院提供全天24小时治疗和护理服务。本附加合同中所提及的医院不包括:(1)健康水疗或自然治疗诊所,疗养院,或医院中提供护理、康复、恢复治疗的科室或病区;(2)精神病院,主要治疗精神或心理疾病的机构,以及医院中治疗精神病的科室或病区;(3)养老院、戒毒所或戒酒所。
上述示例地答案语料中,具体介绍了公立医院级别的划分依据、除公立医院以外其他医院的范畴,以及不属于医院范围内的机构。由此,上述答案语料至少能够拆成三个短答案并对应三个短问题,例如:
短问题1:医院的分类级别是什么?
短答案1:指除下述三项所列医院以外的二级及以上公立医院,该种级别是按照中华人民共和国卫生部所颁布的分类标准划分的。
短问题2:本附加合同的其他医院包括哪些?
短答案2:本附加合同所提及的医院还包括我方所认可的中国香港、中国澳门、中国台湾地区医院和国外医院,该医院应该是一种合法成立并按照当地法规营运的机构,其主要业务是在居民住院的基础上接收、护理和治疗病人或伤员,并且拥有诊断和内外科设施,同时还有合格医师及护士驻院提供全天24小时治疗和护理服务。
短问题3:医院不包括的范围有哪些?
短答案3:本附加合同中所提及的医院不包括:(1)健康水疗或自然治疗诊所,疗养院,或医院中提供护理、康复、恢复治疗的科室或病区;(2)精神病院,主要治疗精神或心理疾病的机构,以及医院中治疗精神病的科室或病区;(3)养老院、戒毒所或戒酒所。
步骤S130,抽取短答案的核心句和核心词,并标注核心句,其中,所述核心词用于对文本抽取模型抽取到的短答案进行准确性校验,所述核心词与所述短问题对应。
本申请实施例对QA-net模型进行测试后发现:训练语料的答案越短,文本抽取模型训练出来的模型质量越高,文本抽取的准确率越高。因此,为了进一步缩短答案的长度,本申请实施例在步骤S130中,从短答案内抽取核心句,并标注核心句,从而在训练文本抽取模型时,文本抽取模型只学习被标注的核心句的特征,从而提高文本抽取模型的训练质量。
另外,本申请实施例在步骤S130中还从短答案内抽取核心词,该核心词与短问题对应,可以用于对文本抽取模型在测试环境或者生产环境中抽取到的短答案进行准确性校验。
示例地,从上述示例的短答案中提取核心句和关键词的结果可以为:
短问题1:医院的分类级别是什么?
短答案1(核心句):指除下述三项所列医院以外的二级及以上公立医院,该种级别是按照中华人民共和国卫生部所颁布的分类标准划分的。
核心词:公立医院。
短问题2:本附加合同的其他医院包括哪些?
短答案2(核心句):包括我方所认可的中国香港、中国澳门、中国台湾地区医院和国外医院,该医院应该是一种合法成立并按照当地法规营运的机构。
核心词:地区医院、国外医院。
短问题3:医院不包括的范围有哪些?
短答案3(核心句):不包括:(1)健康水疗或自然治疗诊所,疗养院,或医院中提供护理、康复、恢复治疗的科室或病区。
核心词:治疗诊所、疗养院。
步骤S140,使用短问题和标注有核心句的短答案训练所述文本抽取模型。
具体地,将短问题作为文本抽取模型编码层的输入,将标注有核心句的短答案作为文本抽取模型解码层的输入,以训练文本抽取模型,文本抽取模型具体可以使用QA-net模型或其他的神经网络模型。
在本领域技术人员的通常的思维和认知中,提高文本抽取模型的训练质量,通常需要靠增加训练语料的数量和规模的方式实现,从而训练语料的数量甚至达到夸张的几十万条的级别,由此带来的训练语料标注工作的工作量非常巨大,需要耗费大量的人力和时间。但是,即使训练语料已经达到了十几万条的级别,训练出来的文本抽取模型的抽取准确率依然不理想,准确率达到一个瓶颈值后就无法继续提高。而本申请实施例的文本抽取模型训练方法,基于测试发现的训练语料的答案越短,训练出来的模型质量越高,文本抽取的准确率越高的特点,将问题语料和答案语料分别拆分成短问题和短答案,并对短答案的核心句进行标注,从而使用短问题和标注的短答案对文本抽取模型进行训练,实现仅使用少量的问答语料,就能够使训练得到的文本抽取模型的准确率得到大幅度的提升,同时,也节省了大量人力和时间,提高了文本抽取模型的训练速度,使文本抽取模型能够根据生产环境中的语料变化及时地再训练和更新,提高文本抽取模型的适应能力。
由以上技术方案可知,本申请实施例提供了一种文本抽取模型训练方法,包括:获取问答语料,所述问答语料包含问题语料和答案语料组成的问答对;当根据判断规则确定答案语料为长答案时,将答案语料分解成多个短答案,并为每个短答案设置对应的短问题;抽取短答案的核心句和核心词,并标注核心句,其中,所述核心词用于对文本抽取模型抽取到的短答案进行准确性校验,所述核心词与所述短问题对应;使用短问题和标注有核心句的短答案训练所述文本抽取模型。本申请实施例的文本抽取模型训练方法,将问题语料和答案语料分别拆分成短问题和短答案,并对短答案的核心句进行标注,从而使用短问题和标注的短答案对文本抽取模型进行训练,实现仅使用少量的问答语料,就能够使训练得到的文本抽取模型的准确率得到大幅度的提升,解决了现有技术从文档资料中抽取问答内容准确率低的问题。
图2是本申请实施例提供的一种文本抽取模型训练方法步骤S120的流程图。
如图2所示,在一个实施例中,步骤S120可以包括以下步骤:
步骤S210,获取答案语料包含的句号的数量。
步骤S220,如果所述句号的数量大于或者等于2个,则确定所述答案语料为长答案。
步骤S230,当确定所述答案语料为长答案时,将答案语料从句号处分解成多个短答案,每个短答案包含一个句号且以句号结尾。
步骤S240,根据短答案的内容为每个短答案设置短问题,所述短问题与所述问题语料主题对应。
由于根据人们的写作习惯,一个句子通常要求表达一个完整的语义或一个方面的内容,因此,当答案语料中包含多个句子时,说明答案语料中包含了多个方面的内容,可以被拆分成短答案。由此,本申请实施例将句号数量大于或者等于2个的答案语料确定为长答案,并从句号处将长答案分解成多个短答案,每个短答案为原有长答案的一个句子,使一个答案表达长问题涵盖的一个方面的内容,并设置对应的短问题。
图3是本申请实施例提供的获取短答案的核心句和核心词的流程图。
如图3所示,在一个实施例中,获取短答案的核心句和核心词可以包括以下步骤:
步骤S310,从短答案中获取核心句预设的起始词。
具体地,由于问题的答案通常以概括性的陈述方式出现,因此,在短答案中会出现例如:包括、是、不包括、不是、涵盖、指、包含等表达概括性语义的词汇。因此,本申请实施例可以将上述概括性词汇作为核心句的起始词。示例地:上述短答案3中,起始词为“本附加合同中所提及的医院不包括”中的“不包括”。
步骤S320,从所述起始词开始,将短答案中起始词指示的全部内容或者部分内容作为核心句。
本申请实施例为了提高文本抽取模型的质量,力求使用尽可能短的训练语料去训练文本抽取模型,从短答案中提取了核心句之后,就可以仅使用短问题和核心句去训练文本抽取模型,从而使训练的语料更短。具体地可以将短答案中起始词指示的全部内容或者部分内容作为核心句,其中,核心句包含的字数可以小于预设的第一阈值。
例如,将短答案1的全部内容作为核心句,将短答案2的部分内容“包括我方所认可的中国香港、中国澳门、中国台湾地区医院和国外医院,该医院应该是一种合法成立并按照当地法规营运的机构”作为核心句。
另外,如果短答案中包含分号,那么核心句从起始词开始,到起始词之后的第一个分号结束。例如,短答案3的核心句为“不包括:(1)健康水疗或自然治疗诊所,疗养院,或医院中提供护理、康复、恢复治疗的科室或病区”。
步骤S330,从核心句中抽取与短问题的内容关联的至少一个名词内容作为核心词。
其中,核心词与短问题的内容和主题关联。例如:短答案1对应的核心词“公立医院”与短问题1中的“医院的分类级别”相关联;短答案2对应的核心词“地区医院、国外医院”与短问题2中的“其他医院”相关联;短答案3对应的核心词“治疗诊所、疗养院”与短问题3中的“医院不包括的范围”相关联。
由此,本申请实施例获取了短答案的核心句,在训练文本抽取模型时,文本抽取模型只学习被标注的核心句的特征,从而提高文本抽取模型的训练质量。另外,本申请实施例还从短答案内抽取核心词,该核心词与短问题对应,可以用于对文本抽取模型在测试环境或者生产环境中抽取到的短答案进行准确性校验。
本申请实施例还提供了一种文本抽方法,应用于本申请实施例提供的文本抽取模型训练方法训练得到的文本抽取模型。图4是该文本抽取方法的流程图。该方法可以应用于服务器、PC(个人电脑)、平板电脑、手机等多种设备中。
如图4所示,该方法包括以下步骤:
步骤S410,使用文本抽取模型从未知语料中抽取预设短问题对应的短答案,所述短答案包含核心句。
由于,在对文本抽模型进行训练时仅标注了短答案的核心句,因此,将未知语料输入到文本抽取模型中,文本抽取模型能够根据预设的短问题从未知语料中抽取到对应的短答案的核心句,核心句可以时短答案的部分内容或者全部内容。
步骤S420,确定短答案中是否包含预设短问题对应的核心词,如果短答案包含核心词,则将短答案标记为正确答案。
示例地,当短问题是“医院的分类级别是什么”,核心词是“公立医院”时,如果抽取到的短答案是“指除下述三项所列医院以外的二级及以上公立医院,该种级别是按照中华人民共和国卫生部所颁布的分类标准划分的”,那么,由于核心句中包含核心词“公立医院”,则可以标记该短答案为正确答案。
步骤S430,将所有正确答案合并为长问题的长答案,所述长问题与所述短问题的主题对应。
其中,由于短问题由长问题拆分而来,因此几个短问题对应一个长问题,进一步地,将所有短问题的短答案进行拼接合并,就能够得到该长问题的长答案。
由以上技术方案可知,本申请实施例提供了一种文本抽取方法,包括:使用文本抽取模型从未知语料中抽取预设短问题对应的短答案,所述短答案包含核心句;确定短答案中是否包含预设短问题对应的核心词,如果短答案包含核心词,则将短答案标记为正确答案;将所有正确答案合并为长问题的长答案,所述长问题与所述短问题的主题对应。由此,本申请实施例提供的方法,将长问题拆分成短问题,使用文本抽取模型抽取每个短问题的短答案,再将短答案拼接成长答案,从而,最终得到的长答案内容完整,与问题相关性高,解决了现有技术中的从文档资料中抽取问答内容准确率低的问题。
图5为本申请实施例提供的一种文本抽取方法步骤S410的流程图。
如图5所示,在一个实施例中,步骤S410可以包括以下步骤:
步骤S510,获取未知语料的字数。
步骤S520,确定未知语料的字数是否大于预设第二阈值,如果大于第二阈值,将未知语料拆分成多个段落。
训练语料越短,训练出的文本抽取模型的质量越高,同理,在使用文本抽取模型抽取问题的答案时,未知语料的长度越短,越有利于文本抽取模型准确地抽取答案。因此,本申请实施例中设置了未知语料字数的第二阈值,如果未知语料的字数大于第二阈值,则将未知语料进行拆分成多个段落,每个段落的字数都小于第二阈值。拆分方式具体可以包括:分析未知语料是否具有多个自然段,如果具有多个自然段,则将每个自然段作为一个拆分的段落;如果未知语料只有一个自然段,则可以从句号位置将未知语料拆分成多个段落。
步骤S530,使用文本抽取模型分别从每个段落中抽取短答案的核心句。
步骤S540,分析核心句所在的句子是否包含分句,所述分句在句子中通过分号分隔。
步骤S550,如果核心句所在的句子包含分句,则确定每个分句为所述短答案的子答案,所述短答案包括核心句和所述子答案的组合。
通常,完整的短答案对应未知语料中的一个完整句子,而核心句常常仅是句子的一个分句,因此,为了获得完整的短答案,本申请实施例在分析到核心句所在的句子存在分句的情况下,将句子中的分句均作为子答案,由所有子答案组成完成的短答案,以保证短答案的完整性。
下面是本申请的装置实施例,可用于执行本申请的方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
本申请实施例提供了一种文本抽取模型训练装置。图6为本申请实施例提供的一种文本抽取模型训练装置的结构示意图,如图6所示,该装置包括:
获取模块610,用于获取问答语料,所述问答语料包含问题语料和答案语料组成的问答对;
分解模块620,用于当根据判断规则确定答案语料为长答案时,将答案语料分解成多个短答案,并为每个短答案设置对应的短问题;
抽取模块630,用于抽取短答案的核心句和核心词,并标注核心句,其中,所述核心词用于对文本抽取模型抽取到的短答案进行准确性校验,所述核心词与所述短问题对应;
训练模块640,用于使用短问题和标注有核心句的短答案训练所述文本抽取模型。
由以上技术方案可知,本申请实施例提供了一种文本抽取模型训练装置,用于获取问答语料,所述问答语料包含问题语料和答案语料组成的问答对;当根据判断规则确定答案语料为长答案时,将答案语料分解成多个短答案,并为每个短答案设置对应的短问题;抽取短答案的核心句和核心词,并标注核心句,其中,所述核心词用于对文本抽取模型抽取到的短答案进行准确性校验,所述核心词与所述短问题对应;使用短问题和标注有核心句的短答案训练所述文本抽取模型。本申请实施例的文本抽取模型训练装置,将问题语料和答案语料分别拆分成短问题和短答案,并对短答案的核心句进行标注,从而使用短问题和标注的短答案对文本抽取模型进行训练,实现仅使用少量的问答语料,就能够使训练得到的文本抽取模型的准确率得到大幅度的提升,解决了现有技术从文档资料中抽取问答内容准确率低的问题。
本申请实施例还提供了一种文本抽取置。图7为本申请实施例提供的一种文本抽取装置的结构示意图,如图7所示,该装置包括:
抽取模块710,使用文本抽取模型从未知语料中抽取预设短问题对应的短答案,所述短答案包含核心句;
标记模块720,用于确定短答案中是否包含预设短问题对应的核心词,如果短答案包含所述核心词,则将短答案标记为正确答案;
合并模块730,用于将所有正确答案合并为长问题的长答案,所述长问题与所述短问题的主题对应。
由以上技术方案可知,本申请实施例提供了一种文本抽取装置,包括:使用文本抽取模型从未知语料中抽取预设短问题对应的短答案,所述短答案包含核心句;确定短答案中是否包含预设短问题对应的核心词,如果短答案包含核心词,则将短答案标记为正确答案;将所有正确答案合并为长问题的长答案,所述长问题与所述短问题的主题对应。由此,本申请实施例提供的装置,将长问题拆分成短问题,使用文本抽取模型抽取每个短问题的短答案,再将短答案拼接成长答案,从而,最终得到的长答案内容完整,与问题相关性高,解决了现有技术中的从文档资料中抽取问答内容准确率低的问题。
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (7)
1.一种文本抽取模型训练方法,其特征在于,包括:
获取问答语料,所述问答语料包含问题语料和答案语料组成的问答对;
当根据判断规则确定答案语料为长答案时,将答案语料分解成多个短答案,并为每个短答案设置对应的短问题;
从短答案中获取核心句预设的起始词;
从所述起始词开始,将短答案中起始词指示的全部内容或者部分内容作为所述核心句,并标注所述核心句,其中,所述核心句从所述起始词开始,到所述起始词之后的第一个分号结束,所述核心句包含的字数小于预设第一阈值;
从所述核心句中抽取与短问题的内容关联的至少一个名词内容作为核心词,其中,所述核心词用于对文本抽取模型抽取到的短答案进行准确性校验,所述核心词与所述短问题对应;
使用短问题和标注有核心句的短答案训练所述文本抽取模型。
2.根据权利要求1所述的方法,其特征在于,所述当根据判断规则确定答案语料为长答案时,将答案语分解成多个短答案,并为每个短答案设置对应的短问题,包括:
获取答案语料包含的句号的数量;
如果所述句号的数量大于或者等于2个,则确定所述答案语料为长答案;
当确定所述答案语料为长答案时,将答案语料从句号处分解成多个短答案,每个短答案包含一个句号且以句号结尾;
根据短答案的内容为每个短答案设置短问题,所述短问题与所述问题语料主题对应。
3.一种文本抽取方法,其特征在于,应用于权利要求1或2所述的方法训练的文本抽取模型,包括:
使用文本抽取模型从未知语料中抽取预设短问题对应的短答案,所述短答案包含核心句;
确定短答案中是否包含预设短问题对应的核心词,如果短答案包含核心词,则将短答案标记为正确答案;
将所有正确答案合并为长问题的长答案,所述长问题与所述短问题的主题对应。
4.根据权利要求3所述的方法,其特征在于,所述使用文本抽取模型从未知语料中抽取预设短问题对应的短答案,所述短答案包含核心句,包括:
获取未知语料的字数;
确定未知语料的字数是否大于预设第二阈值,如果大于第二阈值,将未知语料拆分成多个段落;
使用文本抽取模型分别从每个段落中抽取短答案的核心句。
5.根据权利要求3或4所述的方法,其特征在于,所述使用文本抽取模型从未知语料中抽取预设短问题对应的短答案,所述短答案包含核心句,还包括:
分析核心句所在的句子是否包含分句,所述分句在句子中通过分号分隔;
如果核心句所在的句子包含分句,则确定每个分句为所述短答案的子答案,所述短答案包括核心句和所述子答案的组合。
6.一种文本抽取模型训练装置,其特征在于,包括:
获取模块,用于获取问答语料,所述问答语料包含问题语料和答案语料组成的问答对;
分解模块,用于当根据判断规则确定答案语料为长答案时,将答案语料分解成多个短答案,并为每个短答案设置对应的短问题;
抽取模块,用于从短答案中获取核心句预设的起始词;以及,从所述起始词开始,将短答案中起始词指示的全部内容或者部分内容作为所述核心句,并标注所述核心句,其中,所述核心句从所述起始词开始,到所述起始词之后的第一个分号结束,所述核心句包含的字数小于预设第一阈值;以及,从所述核心句中抽取与短问题的内容关联的至少一个名词内容作为核心词,其中,所述核心词用于对文本抽取模型抽取到的短答案进行准确性校验,所述核心词与所述短问题对应;
训练模块,用于使用短问题和标注有核心句的短答案训练所述文本抽取模型。
7.一种文本抽取装置,其特征在于,应用于权利要求1或2所述的方法训练的文本抽取模型,包括:
抽取模块,用于使用文本抽取模型从未知语料中抽取预设短问题对应的短答案,所述短答案包含核心句;
标记模块,用于确定短答案中是否包含预设短问题对应的核心词,如果短答案包含所述核心词,则将短答案标记为正确答案;
合并模块,用于将所有正确答案合并为长问题的长答案,所述长问题与所述短问题的主题对应。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910059221.9A CN109815341B (zh) | 2019-01-22 | 2019-01-22 | 一种文本抽取模型训练方法、文本抽取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910059221.9A CN109815341B (zh) | 2019-01-22 | 2019-01-22 | 一种文本抽取模型训练方法、文本抽取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109815341A CN109815341A (zh) | 2019-05-28 |
CN109815341B true CN109815341B (zh) | 2023-10-10 |
Family
ID=66604624
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910059221.9A Active CN109815341B (zh) | 2019-01-22 | 2019-01-22 | 一种文本抽取模型训练方法、文本抽取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109815341B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110647627B (zh) * | 2019-08-06 | 2022-05-27 | 北京百度网讯科技有限公司 | 答案生成方法及装置、计算机设备与可读介质 |
CN110532369B (zh) * | 2019-09-04 | 2022-02-01 | 腾讯科技(深圳)有限公司 | 一种问答对的生成方法、装置及服务器 |
CN110750980B (zh) * | 2019-12-25 | 2020-05-05 | 北京海天瑞声科技股份有限公司 | 短语语料获取方法及短语语料获取装置 |
CN111159359B (zh) * | 2019-12-31 | 2023-04-21 | 达闼机器人股份有限公司 | 文档检索方法、装置及计算机可读存储介质 |
CN113505201A (zh) * | 2021-07-29 | 2021-10-15 | 宁波薄言信息技术有限公司 | 一种基于SegaBert预训练模型的合同抽取方法 |
CN113723058B (zh) * | 2021-11-02 | 2022-03-08 | 深圳市北科瑞讯信息技术有限公司 | 文本摘要与关键词抽取方法、装置、设备及介质 |
CN116451660B (zh) * | 2023-04-11 | 2023-09-19 | 浙江法之道信息技术有限公司 | 一种法律文本专业性审查与智能批注系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095444A (zh) * | 2015-07-24 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 信息获取方法和装置 |
CN107980130A (zh) * | 2017-11-02 | 2018-05-01 | 深圳前海达闼云端智能科技有限公司 | 自动回答方法、装置、存储介质及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110125734A1 (en) * | 2009-11-23 | 2011-05-26 | International Business Machines Corporation | Questions and answers generation |
-
2019
- 2019-01-22 CN CN201910059221.9A patent/CN109815341B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095444A (zh) * | 2015-07-24 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 信息获取方法和装置 |
CN107980130A (zh) * | 2017-11-02 | 2018-05-01 | 深圳前海达闼云端智能科技有限公司 | 自动回答方法、装置、存储介质及电子设备 |
Non-Patent Citations (1)
Title |
---|
中文问答系统中答案抽取的研究;刘宁锋等;《电脑知识与技术》;20110430(第12期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109815341A (zh) | 2019-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109815341B (zh) | 一种文本抽取模型训练方法、文本抽取方法及装置 | |
Meurers et al. | Evidence and interpretation in language learning research: Opportunities for collaboration with computational linguistics | |
Zou | Vocabulary acquisition through cloze exercises, sentence-writing and composition-writing: Extending the evaluation component of the involvement load hypothesis | |
Taylor | “Cloze procedure”: A new tool for measuring readability | |
Guo et al. | Predicting human judgments of essay quality in both integrated and independent second language writing samples: A comparison study | |
Chen et al. | Translation and back‐translation in qualitative nursing research: methodological review | |
Goodwin et al. | A meta-analysis of morphological interventions in English: Effects on literacy outcomes for school-age children | |
Lind et al. | Computational communication science| when the journey is as important as the goal: A roadmap to multilingual dictionary construction | |
Bednarek et al. | Computer-assisted digital text analysis for journalism and communications research: introducing corpus linguistic techniques that do not require programming | |
Bundgaard et al. | Who is the back translator? An integrative literature review of back translator descriptions in cross-cultural adaptation of research instruments | |
Campillos Llanos | A Spanish learner oral corpus for computer-aided error analysis | |
Havas et al. | Morphological learning in a novel language: A cross-language comparison | |
Kovacs et al. | A tutorial on reliability testing in AAC language sample transcription and analysis | |
Ciaccio et al. | Morphological decomposition in Bantu: A masked priming study on Setswana prefixation | |
Dreisbach et al. | Unity in adversity: Multilingual crisis translation and emergency linguistics in the COVID-19 pandemic | |
de Marneffe et al. | Developing linguistic theories using annotated corpora | |
Liu et al. | Combining readability formulas and machine learning for reader-oriented evaluation of online health resources | |
Suryani et al. | Abstract Translation in Scientific Writing by Non-English Major Student using Google Translate | |
Kgolo et al. | The role of morphological structure in the processing of complex forms: evidence from Setswana deverbative nouns | |
Wolfe et al. | Gist Inference Scores predict cloze comprehension “in your own words” for native, not ESL readers | |
Billah et al. | Depression detection from Bangla Facebook status using machine learning approach | |
Roth | Morphemic analysis as imagined by developmental reading textbooks: A content analysis of a textbook corpus | |
Ruohonen | Assessing the readability of policy documents on the digital single market of the European Union | |
Vyatkina | The Kansas Developmental Learner corpus (KANDEL) A developmental corpus of learner German | |
Hassan et al. | An analysis of English concord errors in selected Nigerian Newspapers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |