CN114707491A - 基于自然语言处理的数量提取方法和系统 - Google Patents

基于自然语言处理的数量提取方法和系统 Download PDF

Info

Publication number
CN114707491A
CN114707491A CN202210254037.1A CN202210254037A CN114707491A CN 114707491 A CN114707491 A CN 114707491A CN 202210254037 A CN202210254037 A CN 202210254037A CN 114707491 A CN114707491 A CN 114707491A
Authority
CN
China
Prior art keywords
natural language
training
model
quantity extraction
suffix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210254037.1A
Other languages
English (en)
Inventor
王则远
刘鹏
任丽军
张震
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lingxi Quantum Beijing Medical Technology Co ltd
Original Assignee
Lingxi Quantum Beijing Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lingxi Quantum Beijing Medical Technology Co ltd filed Critical Lingxi Quantum Beijing Medical Technology Co ltd
Priority to CN202210254037.1A priority Critical patent/CN114707491A/zh
Publication of CN114707491A publication Critical patent/CN114707491A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自然语言处理技术领域,提供一种基于自然语言处理的数量提取方法和系统。其中方法包括:获取包括数量的自然语言文本;基于自然语言文本运行数量提取模型,得到数量结果;数量提取模型的输入包括第一前缀语句、第一后缀语句以及自然语言文本,输出包括第二后缀语句。本发明通过将原始模型经过无监督的第一训练得到的中间模型具有更好的自然语言理解能力,中间模型经过有监督的第二训练得到的数量提取模型具有更好的数量提取能力,解决了现有技术中无法针对特定待提取目标和类型进行数量提取的问题,能够更为高效的完成数量提取任务。

Description

基于自然语言处理的数量提取方法和系统
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于自然语言处理的数量提取方法和系统。
背景技术
数据提取(Data Extraction)指根据一定的目的,从原始文献中摘录所需要的信息,以作进一步存储、换算和分析的过程。
数据提取任务中,针对某一特定目标数量的提取是较为常见的需求。传统的数量提取,即针对数字本身进行的数量提取是相对简单和容易实现的,但这种方法得到的数字不具有实际含义,不利于后续的分析和评价。
因此,如何提供一种高效的、能够提取数量含义的数量提取方法成为了亟需解决的技术问题。
发明内容
本发明提供一种基于自然语言处理的数量提取方法和系统,用以解决现有技术中得到的数字不具有实际含义,不利于后续的分析和评价的缺陷,实现高效的、能够提取数量含义的数量提取。
本发明提供一种基于自然语言处理的数量提取方法,包括:
获取包括数量的自然语言文本;
基于所述自然语言文本运行数量提取模型,得到数量结果;
所述数量提取模型的输入包括第一前缀语句、第一后缀语句以及所述自然语言文本,输出包括第二后缀语句;所述第一前缀语句是基于待提取目标设置的字符或字符串;所述第一后缀语句是基于待提取目标类型设置的字符或字符串;所述第二后缀语句包括与所述待提取目标类型一一对应的数量;
所述数量提取模型是将原始模型依次以第一样本执行第一训练、以第二样本和对应于所述第二样本的标签执行第二训练后得到的;所述原始模型为自然语言处理模型;所述第一训练为无监督训练;所述第二训练为有监督训练。
根据本发明提供的一种基于自然语言处理的数量提取方法,所述原始模型是以源序列为输入,以目标序列为输出,包括编码器和解码器的注意力模型;所述源序列和所述目标序列均为自然语言语素序列;
所述编码器能够以所述源序列为输入,基于预设的注意力分配参数得到语义编码;所述解码器能够根据所述语义编码得到目标序列中的自然语言语素;
所述注意力分配参数是针对所述源序列和/或所述目标序列中自然语言语素的计算权重。
根据本发明提供的一种基于自然语言处理的数量提取方法,所述第一训练包括:
以掩码替换所述第一样本中的自然语言语素并输入所述原始模型,预测被所述掩码替换的自然语言语素的训练;
和/或,将所述第一样本中的至少两个自然语言语素输入所述原始模型,预测所述至少两个自然语言语素是否为相邻语素的训练。
根据本发明提供的一种基于自然语言处理的数量提取方法:
所述编码器能够以所述源序列为输入,基于预设的注意力分配参数得到至少两个源序列语义编码;所述至少两个源序列语义编码对应的注意力分配参数不同;
所述解码器能够:
以所述源序列语义编码为输入得到所述目标序列的第1个自然语言语素的语素语义编码;
以所述源序列语义编码,和所述目标序列的第1个自然语言语素至第i-1个自然语言语素的语素语义编码集合为输入,得到所述目标序列的第i个自然语言语素的语素语义编码;i为大于1的整数;
根据所述目标序列的自然语言语素的语素语义编码,得到所述目标序列的自然语言语素。
根据本发明提供的一种基于自然语言处理的数量提取方法,将经过第一训练后的原始模型记为中间模型,所述第二训练包括:
以包括第一前缀语句和第一后缀语句的第二样本作为源序列,输入中间模型得到包括第二后缀语句的目标序列,并基于所述目标序列和第二标签调整所述中间模型参数,从而得到所述数量提取模型的训练;
所述第一后缀语句包括待提取目标类型和数量掩码;所述第二后缀语句是在所述第一后缀语句的基础上,以预测数量替换所述数量掩码得到的;所述第二标签包括数量真值。
根据本发明提供的一种基于自然语言处理的数量提取方法,所述目标序列还包括第二前缀语句;
所述编码器能够以所述源序列和所述自然语言文本为输入,基于预设的注意力分配参数得到至少两个源序列语义编码;所述至少两个源序列语义编码对应的注意力分配参数不同;
所述解码器能够:
以所述源序列语义编码为输入得到所述目标序列中第二前缀语句的语素语义编码;
以所述源序列语义编码为输入得到所述目标序列中第二后缀语句的第1个自然语言语素的语素语义编码;
以所述源序列语义编码,和所述目标序列中第二后缀语句的第1个自然语言语素至第j-1个自然语言语素的语素语义编码集合为输入,得到所述目标序列的第j个自然语言语素的语素语义编码;j为大于1的整数;
根据所述目标序列的自然语言语素的语素语义编码,得到所述目标序列的自然语言语素。
本发明还提供一种基于自然语言处理的数量提取系统,包括:
获取模块,用于获取包括数量的自然语言文本;
数量模块,用于基于所述自然语言文本运行数量提取模型,得到数量结果;
所述数量提取模型的输入包括第一前缀语句、第一后缀语句以及所述自然语言文本,输出包括第二后缀语句;所述第一前缀语句是基于待提取目标设置的字符或字符串;所述第一后缀语句是基于待提取目标类型设置的字符或字符串;所述第二后缀语句包括与所述待提取目标类型一一对应的数量;
所述数量提取模型是将原始模型依次以第一样本执行第一训练、以第二样本和对应于所述第二样本的标签执行第二训练后得到的;所述原始模型为自然语言处理模型;所述第一训练为无监督训练;所述第二训练为有监督训练。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于自然语言处理的数量提取方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于自然语言处理的数量提取方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于自然语言处理的数量提取方法的步骤。
本发明提供的基于自然语言处理的数量提取方法和系统,通过自然语言处理模型,针对自然语言文本进行问答式数量提取,即通过第一前缀语句确定待提取目标、第一后缀语句确定待提取目标类型输入数量提取模型,从而得到包括一一对应的待提取目标类型和数量的第二后缀语句作为数量提取结果,解决了现有技术中无法针对特定待提取目标和类型进行数量提取的问题;此外,原始模型经过无监督的第一训练得到的中间模型具有更好的自然语言理解能力,中间模型经过有监督的第二训练得到的数量提取模型具有更好的数量提取能力,能够更为高效的理解和编码自然语言文本、更为高效的完成数量提取任务。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于自然语言处理的数量提取方法的流程示意图;
图2是本发明实施例提供的数量提取模型框架示意图;
图3是本发明实施例提供的医学文献样本量提取流程示意图;
图4是本发明提供的基于自然语言处理的数量提取系统的结构示意图;
图5是本发明提供的电子设备的结构示意图。
附图标记:
401:获取模块;
402:数量模块;
510:处理器;
520:通信接口;
530:存储器;
540:通信总线。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图3描述本发明的基于自然语言处理的数量提取方法。
如图1所示,本发明实施例提供一种基于自然语言处理的数量提取方法,包括:
步骤102,获取包括数量的自然语言文本;
步骤104,基于所述自然语言文本运行数量提取模型,得到数量结果;
所述数量提取模型的输入包括第一前缀语句、第一后缀语句以及所述自然语言文本,输出包括第二后缀语句;所述第一前缀语句是基于待提取目标设置的字符或字符串;所述第一后缀语句是基于待提取目标类型设置的字符或字符串;所述第二后缀语句包括与所述待提取目标类型一一对应的数量;
所述数量提取模型是将原始模型依次以第一样本执行第一训练、以第二样本和对应于所述第二样本的标签执行第二训练后得到的;所述原始模型为自然语言处理模型;所述第一训练为无监督训练;所述第二训练为有监督训练。
本实施例中,第一前缀语句是针对待提取目标给出的标识语句,第一后缀语句是针对待提取目标细分类型给出的标识语句,二者共同作为数量提取模型的输入,以供所述数量提取模型在所述自然语言文本中进行针对性的数量提取。
在一个优选的实施方式中,所述第一前缀语句和第二前缀语句可以理解为自然语言处理模型中基于问答任务的问句,第二后缀语句可以理解为自然语言处理模型中基于问答任务的答句,即模型输出。
例如对于出售房屋数量的数量提取任务中,第一前缀语句可以为“目前在售的房屋数量”;对应地,第一后缀语句可以为“在售二手房数量:X;”、“某区域在售二手房数量:X;”或者“在售二手房数量:X;在售新房数量:Y;”,其中,X、Y是具有特定标识的字符或字符串(如空格、设定掩码、设定字母等)。在该例中,第二后缀语句可以为“在售二手房数量:10000;”、“某区在售二手房数量:1000”、“在售二手房数量:10000;在售新房数量:11000;”或者“X=10000;Y=11000”。
再如,针对医学文献样本量的提取任务中,第一前缀语句可以为“当前研究的样本量是多少”(或者,代码化为“[CLS]当前研究的样本量是多少[SEP]”),第一后缀语句可以为“X个病例”(或者,代码化为“[SEP]X个病例[SEP]”)。
值得说明的是,所述数量提取模型的输出值,与其输入值、训练样本、标签相关(一些情况下,还与损失函数的设置相关)。因此,虽然所述第一前缀语句、第一后缀语句可以理解为问答任务的问句,但其具体体现形式并不局限于自然语言的疑问句,在一些情况下,也不局限于自然语言形式,例如可以以特定的符号代码作为第一前缀语句、第一后缀语句。
本实施例中,第一训练是针对自然语言处理模型,即原始模型执行的,用于提升模型自然语言编码能力(即模型的自然语言“理解”能力)的无监督训练;将经过第一训练的原始模型记为中间模型,则第二训练是针对所述中间模型执行的,用于提升模型数量提取准确率和召回率的有监督训练。
在一个优选的实施方式中:
所述第一训练包括:
以掩码替换所述第一样本中的自然语言语素并输入所述原始模型,预测被所述掩码替换的自然语言语素的训练;
和/或,将所述第一样本中的至少两个自然语言语素输入所述原始模型,预测所述至少两个自然语言语素是否为相邻语素的训练。
将经过第一训练后的原始模型记为中间模型,所述第二训练包括:
以包括第一前缀语句和第一后缀语句的第二样本作为源序列,输入中间模型得到包括第二后缀语句的目标序列,并基于所述目标序列和第二标签调整所述中间模型参数,从而得到所述数量提取模型的训练;
所述第一后缀语句包括待提取目标类型和数量掩码;所述第二后缀语句是在所述第一后缀语句的基础上,以预测数量替换所述数量掩码得到的;所述第二标签包括数量真值。
本实施例的有益效果在于:
通过自然语言处理模型,针对自然语言文本进行问答式数量提取,即通过第一前缀语句确定待提取目标、第一后缀语句确定待提取目标类型输入数量提取模型,从而得到包括一一对应的待提取目标类型和数量的第二后缀语句作为数量提取结果,解决了现有技术中无法针对特定待提取目标和类型进行数量提取的问题;此外,原始模型经过无监督的第一训练得到的中间模型具有更好的自然语言理解能力,中间模型经过有监督的第二训练得到的数量提取模型具有更好的数量提取能力,能够更为高效的理解和编码自然语言文本、更为高效的完成数量提取任务。
根据上述实施例,在本实施例中:
所述原始模型是以源序列为输入,以目标序列为输出,包括编码器和解码器的注意力模型;所述源序列和所述目标序列均为自然语言语素序列;
所述编码器能够以所述源序列为输入,基于预设的注意力分配参数得到语义编码;所述解码器能够根据所述语义编码得到目标序列中的自然语言语素;
所述注意力分配参数是针对所述源序列和/或所述目标序列中自然语言语素的计算权重。
本实施例中,所述原始模型是全向注意力的分心模型(Bidirectional LM,双向语言模型,其中LM是language model的缩写,即语言模型),即目标序列的每个元素(例如,自然语言语素)输出,均来自于源序列的每个自然语言语素。
本实施例的有益效果在于:
通过全向注意力机制的原始模型执行训练最终得到数量提取模型,能够在作为输入的源序列(即第一前缀语句、第一后缀语句以及自然语言文本)中参考每个自然语言语素进行编码和解码,从而更为整体地理解作为提取源的自然语言文本、作为提取目标限定的第一前缀语句和第一后缀语句,得到更为准确的数量提取结果。
根据上述任一实施例,在本实施例中:
所述编码器能够以所述源序列为输入,基于预设的注意力分配参数得到至少两个源序列语义编码;所述至少两个源序列语义编码对应的注意力分配参数不同;
所述解码器能够:
以所述源序列语义编码为输入得到所述目标序列的第1个自然语言语素的语素语义编码;
以所述源序列语义编码,和所述目标序列的第1个自然语言语素至第i-1个自然语言语素的语素语义编码集合为输入,得到所述目标序列的第i个自然语言语素的语素语义编码;i为大于1的整数;
根据所述目标序列的自然语言语素的语素语义编码,得到所述目标序列的自然语言语素。
本实施例中,所述原始模型是单向注意力机制的上下文模型(Left-to-Right LM,左至右语言模型),即目标序列的每个元素(例如,自然语言语素)输出,均来自于该元素前的所有元素。
本实施例的有益效果在于:
通过单向注意力机制的原始模型执行训练最终得到数量提取模型,能够在前元素进行解码,从而更为高效的得到数量提取结果。
根据上述任一实施例,在本实施例中:
所述目标序列还包括第二前缀语句;
所述编码器能够以所述源序列和所述自然语言文本为输入,基于预设的注意力分配参数得到至少两个源序列语义编码;所述至少两个源序列语义编码对应的注意力分配参数不同;
所述解码器能够:
以所述源序列语义编码为输入得到所述目标序列中第二前缀语句的语素语义编码;
以所述源序列语义编码为输入得到所述目标序列中第二后缀语句的第1个自然语言语素的语素语义编码;
以所述源序列语义编码,和所述目标序列中第二后缀语句的第1个自然语言语素至第j-1个自然语言语素的语素语义编码集合为输入,得到所述目标序列的第j个自然语言语素的语素语义编码;j为大于1的整数;
根据所述目标序列的自然语言语素的语素语义编码,得到所述目标序列的自然语言语素。
如图2所示,本实施例中,所述原始模型是结合了全向注意力机制和单向注意力机制的双句模型;即针对源序列中的第一前缀语句执行全向注意力机制的分心模型,得到第二前缀语句;针对源序列中的第一前缀语句和第一后缀语句执行单向注意力机制的上下文模型,得到第二后缀语句。
本实施例的有益效果在于:
通过结合全向注意力机制和单项注意力机制的原始模型执行训练最终得到数量提取模型,平衡了模型的精确性和效率,能够更为高效精确的得到数量提取结果。
根据上述任一实施例,下面将以医学文献中的样本量提取任务为例,提供一相对完整的实施例。
首先介绍医学文献中样本量提取任务的相关背景。
近年来,循证医学在辅助医疗决策和医学研究的过程中得到了广泛应用。循证医学的核心思想是严谨、准确和明智地应用当前所能获得的最佳研究证据,结合临床医生的个人专业技能和临床经验,考虑患者的价值观和偏好为患者制订治疗方案。其中,尽可能全面的获得最佳证据的方法就是系统评价的方法。系统评价的研究步骤包括文献检索与筛选、数据提取、定量合并等关键环节。
在制作系统评价的过程中,相对其他环节,数据提取是最耗费时间成本和人力精力的步骤。对于单个临床研究来说,首先提取PICOS(研究对象P、干预措施I、对照措施C、结局指标O、研究类型S)、样本量和效应量等关键信息。然后利用提取的数据将同质的研究进行定量合并或将异质的研究进行定性描述。而在临床研究统计中,样本量的大小会对整个系统评价过程产生巨大的影响。如果一项临床研究纳入的样本量不准确,会使结果产生偏倚,增加结论的不确定性。因此,样本量作为重要数据之一,是否能做到精准提取是关键问题。
随着自然语言处理(NLP)的发展,特别是BERT(Bidirectional EncoderRepresentation from Transformers)模型的发布,为NLP的发展提供了新方向。这种模型结构通过自注意力机制,可以更好的理解上下文语义,表征文本信息,在各类文本任务上的准确率不断创出新高。本实施例将医学文献样本量提取与最新NLP技术结合,设计了一种基于Prefix-tuning结构的精准、有效提取样本量的方法。
样本量在临床研究文献中的描述方式较多,某些信息在文中没有直接提及,需要分析文本含义获取。传统的样本量提取需要两位研究者背对背独立进行提取,这种人工提取方式极大的消耗科研人员的时间和精力,无法高效提取数据。基于深度学习的抽取模型是先将原始预料转化为序列标注式语料,然后进行建模,实现较为简单,效果也较为稳定,是目前数据提取中的主要手段。但抽取模型只能提取文内所描述的关键信息,无法应对样本量提取的复杂场景。如文本中只包含干预组和对照组的样本量,抽取模型只能提取其中的干预组和对照组的样本量,却无法获取总样本量。而生成模型可以根据文本信息,生成总样本量。因此本实施例提出了一种基于Prefix-tuning结构抽取生成医学文献中的样本量的方法,从而达到快速、准确、有效提取临床研究样本量的目的。
如图3所示,下面将对本实施例的具体方案进行说明:
本实施例依托公司自建医学文献数据库中的摘要数据,通过人工标记和规则提取相结合的方式进行训练数据集构建,最终样本量抽取结果采用规则提取结合模型推理的方式:
1、规则制定
1)我们通过对不同文献类型数据的分析,发现相同类型的数据往往具有某些对样本量相同的描述形式,因此我们在构建数据集时采用针对不同类型的数据分别进行处理,我们这里对RCT和Meta两种医学文献类型的摘要数据进行了样本量数据集构建;
2)通过对数据的观察统计得到某些关于摘要中的样本量的特征词汇,构建规则字典,用于规则模块的逻辑制定;
2、训练数据集构建
1)规则提取:运用上述规则词典对摘要中样本量写规则代码进行规则标记,选取RCT和Meta类型的数据各10000条纳入训练集;
2)人工标记:随机从文献数据库中提取RCT和Meta类型的文献摘要数据各5000条,且必须为不符合上述规则特征的数据,然后通过采用两个人背对背标记的形式,两个人分别对这一万条数据进行样本量标记,再然后抽取出两个人标记不相同的数据进行二次核对,从而完成人工数据标记后纳入规则提取出来的训练数据中并打散;
3、AI模型算法架构搭建
我们基于生物医学预训练模型PubMedBERT结合UniLM思想设计了兼顾理解和生成能力的任务,来进一步微调得到了生物医学领域的生成模型LX-GenePubmedBERT,具体方案如下:
1)UniLM是一个融合NLU(自然语言理解)和NLG(自然语言生成)能力的Transformer模型,它的核心是通过特殊的Attention Mask(注意力掩码)来赋予模型具有Seq2Seq(序列至序列)的能力,假如输入是“当前研究的样本量是多少”,目标句子是“一千个病例”,那UNILM将这两个句子拼成一个:[CLS]当前研究的样本量是多少[SEP]一千个病例[SEP],也就是“[CLS]当前研究的样本量是多少[SEP]”这几个token是双向的Attention,而“一千个病例[SEP]”是单向的,从而可以预测出“一千个病例[SEP]”,进而模型具有了生成能力;
2)因为UniLM特殊的Attention Mask,所以“[CLS]当前研究的样本量是多少[SEP]”这几个token只在它们之间相互做Attention,而跟“一千个病例[SEP]”完全没关系,这就意味着,尽管后面拼接了“一千个病例[SEP]”,但这不会影响到前几个编码向量。再说明白一点,那就是前几个编码向量等价于只有“[CLS]当前研究的样本量是多少[SEP]”时的编码结果,如果[CLS]的向量代表着句向量,那么它就是“当前研究的样本量是多少”的句向量,而不是加上“一千个病例”后的句向量。由于这个特性,UniLM在输入的时候也随机加入一些[MASK],这样输入部分就可以做MLM(Mask Language Model,掩码语言模型)任务,输出部分就可以做Seq2Seq任务,MLM增强了NLU能力,而Seq2Seq增强了NLG能力;
3)我们基于上述UniLM的原理,运用我们已有的医学文献摘要数据和构建的样本量数据进行有监督训练进而得到了我们的医学领域生成模型LX-GenePubmedBERT;
4)输入模板构建:我们参考Prefx-tuning结构结合我们的医学领域生成模型LX-GenePubmedBERT,进行样本量生成抽取,大致过程如下:模型的输入是一段单独的文本S1S2,S1和S2分别表示源序列和目标序列,构建出输入[SOS]S1[EOS]S2[EOS]。[SOS]为文本的起始位置,[EOS]用于分割文本,同时可作为文本生成结束的标志。LX-GenePubmedBERT的fine-turning过程是通过随机掩盖S2中一定比例的词,让模型学习被掩盖的词,末尾的[EOS]也可以被掩盖,让模型预测,当预测为[EOS],模型自动结束生成任务,生成文本结束。本实施例对S2做了特殊处理,在S2中添加了特定输入模板K(总样本量K1、干预组K2、对照组K3),[SOS]S1[EOS]K1X K2Y K3Z[EOS],fine-turning过程中当X被Mask,X可通过S1、K1和Mask自身编码预测,X即代表总样本量,当Y被Mask,Y可通过S1、K1、X、K2和Mask自身编码预测,Y即代表干预组样本量,当Z被Mask,Z可通过S1、K1、X、K2、Y、K3和Mask自身编码预测,Z即代表对照组样本量。
4、结果评估
本实施例采用F-Measure与Accuracy评估模型效果。
F-Measure公式如下,R表示召回率,P表示精确率:
Figure BDA0003547812500000141
Accuracy公式如下:
Figure BDA0003547812500000142
F-Measure越高,抽取模型性能越好。Accuracy表示提取的样本量的准确率,Accuracy越高,表示提取的样本量越准确。
本实施例的有益效果在于:
1)通过规则和模型相结合,精准抽取中英文医学文献摘要中描述样本量的关键句,其中规则准确率为100%,模型准确率为95.6%
2)训练过程借助自研生物医学领域与训练生成模型LX-GenePubmedBERT,针对医学数据效果更好。
3)使用对输入的控制来生成理想的数据的Prefix-tuning的情境学习方法。
本实施例的目的在于:
AI赋能循证医学,将NLP的前沿技术应用到医学文献中的样本量抽取中,快速、精确、有效提取临床研究的样本量,提升医学研究者的科研效率与创新效率,助力高质量系统评价研究。
下面对本发明提供的基于自然语言处理的数量提取装置进行描述,下文描述的基于自然语言处理的数量提取装置与上文描述的基于自然语言处理的数量提取方法可相互对应参照。
如图4所示,本发明实施例还提供一种基于自然语言处理的数量提取系统,包括:
获取模块401,用于获取包括数量的自然语言文本;
数量模块402,用于基于所述自然语言文本运行数量提取模型,得到数量结果;
所述数量提取模型的输入包括第一前缀语句、第一后缀语句以及所述自然语言文本,输出包括第二后缀语句;所述第一前缀语句是基于待提取目标设置的字符或字符串;所述第一后缀语句是基于待提取目标类型设置的字符或字符串;所述第二后缀语句包括与所述待提取目标类型一一对应的数量;
所述数量提取模型是将原始模型依次以第一样本执行第一训练、以第二样本和对应于所述第二样本的标签执行第二训练后得到的;所述原始模型为自然语言处理模型;所述第一训练为无监督训练;所述第二训练为有监督训练。
本实施例的有益效果在于:
通过自然语言处理模型,针对自然语言文本进行问答式数量提取,即通过第一前缀语句确定待提取目标、第一后缀语句确定待提取目标类型输入数量提取模型,从而得到包括一一对应的待提取目标类型和数量的第二后缀语句作为数量提取结果,解决了现有技术中无法针对特定待提取目标和类型进行数量提取的问题;此外,原始模型经过无监督的第一训练得到的中间模型具有更好的自然语言理解能力,中间模型经过有监督的第二训练得到的数量提取模型具有更好的数量提取能力,能够更为高效的理解和编码自然语言文本、更为高效的完成数量提取任务。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行基于自然语言处理的数量提取方法,该方法包括:获取包括数量的自然语言文本;基于所述自然语言文本运行数量提取模型,得到数量结果;所述数量提取模型的输入包括第一前缀语句、第一后缀语句以及所述自然语言文本,输出包括第二后缀语句;所述第一前缀语句是基于待提取目标设置的字符或字符串;所述第一后缀语句是基于待提取目标类型设置的字符或字符串;所述第二后缀语句包括与所述待提取目标类型一一对应的数量;所述数量提取模型是将原始模型依次以第一样本执行第一训练、以第二样本和对应于所述第二样本的标签执行第二训练后得到的;所述原始模型为自然语言处理模型;所述第一训练为无监督训练;所述第二训练为有监督训练。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的基于自然语言处理的数量提取方法,该方法包括:获取包括数量的自然语言文本;基于所述自然语言文本运行数量提取模型,得到数量结果;所述数量提取模型的输入包括第一前缀语句、第一后缀语句以及所述自然语言文本,输出包括第二后缀语句;所述第一前缀语句是基于待提取目标设置的字符或字符串;所述第一后缀语句是基于待提取目标类型设置的字符或字符串;所述第二后缀语句包括与所述待提取目标类型一一对应的数量;所述数量提取模型是将原始模型依次以第一样本执行第一训练、以第二样本和对应于所述第二样本的标签执行第二训练后得到的;所述原始模型为自然语言处理模型;所述第一训练为无监督训练;所述第二训练为有监督训练。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于自然语言处理的数量提取方法,该方法包括:获取包括数量的自然语言文本;基于所述自然语言文本运行数量提取模型,得到数量结果;所述数量提取模型的输入包括第一前缀语句、第一后缀语句以及所述自然语言文本,输出包括第二后缀语句;所述第一前缀语句是基于待提取目标设置的字符或字符串;所述第一后缀语句是基于待提取目标类型设置的字符或字符串;所述第二后缀语句包括与所述待提取目标类型一一对应的数量;所述数量提取模型是将原始模型依次以第一样本执行第一训练、以第二样本和对应于所述第二样本的标签执行第二训练后得到的;所述原始模型为自然语言处理模型;所述第一训练为无监督训练;所述第二训练为有监督训练。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于自然语言处理的数量提取方法,其特征在于,包括:
获取包括数量的自然语言文本;
基于所述自然语言文本运行数量提取模型,得到数量结果;
所述数量提取模型的输入包括第一前缀语句、第一后缀语句以及所述自然语言文本,输出包括第二后缀语句;所述第一前缀语句是基于待提取目标设置的字符或字符串;所述第一后缀语句是基于待提取目标类型设置的字符或字符串;所述第二后缀语句包括与所述待提取目标类型一一对应的数量;
所述数量提取模型是将原始模型依次以第一样本执行第一训练、以第二样本和对应于所述第二样本的标签执行第二训练后得到的;所述原始模型为自然语言处理模型;所述第一训练为无监督训练;所述第二训练为有监督训练。
2.根据权利要求1所述的基于自然语言处理的数量提取方法,其特征在于,所述原始模型是以源序列为输入,以目标序列为输出,包括编码器和解码器的注意力模型;所述源序列和所述目标序列均为自然语言语素序列;
所述编码器能够以所述源序列为输入,基于预设的注意力分配参数得到语义编码;所述解码器能够根据所述语义编码得到目标序列中的自然语言语素;
所述注意力分配参数是针对所述源序列和/或所述目标序列中自然语言语素的计算权重。
3.根据权利要求2所述的基于自然语言处理的数量提取方法,其特征在于,所述第一训练包括:
以掩码替换所述第一样本中的自然语言语素并输入所述原始模型,预测被所述掩码替换的自然语言语素的训练;
和/或,将所述第一样本中的至少两个自然语言语素输入所述原始模型,预测所述至少两个自然语言语素是否为相邻语素的训练。
4.根据权利要求2所述的基于自然语言处理的数量提取方法,其特征在于:
所述编码器能够以所述源序列为输入,基于预设的注意力分配参数得到至少两个源序列语义编码;所述至少两个源序列语义编码对应的注意力分配参数不同;
所述解码器能够:
以所述源序列语义编码为输入得到所述目标序列的第1个自然语言语素的语素语义编码;
以所述源序列语义编码,和所述目标序列的第1个自然语言语素至第i-1个自然语言语素的语素语义编码集合为输入,得到所述目标序列的第i个自然语言语素的语素语义编码;i为大于1的整数;
根据所述目标序列的自然语言语素的语素语义编码,得到所述目标序列的自然语言语素。
5.根据权利要求3所述的基于自然语言处理的数量提取方法,其特征在于,将经过第一训练后的原始模型记为中间模型,所述第二训练包括:
以包括第一前缀语句和第一后缀语句的第二样本作为源序列,输入中间模型得到包括第二后缀语句的目标序列,并基于所述目标序列和第二标签调整所述中间模型参数,从而得到所述数量提取模型的训练;
所述第一后缀语句包括待提取目标类型和数量掩码;所述第二后缀语句是在所述第一后缀语句的基础上,以预测数量替换所述数量掩码得到的;所述第二标签包括数量真值。
6.根据权利要求5所述的基于自然语言处理的数量提取方法,其特征在于,所述目标序列还包括第二前缀语句;
所述编码器能够以所述源序列和所述自然语言文本为输入,基于预设的注意力分配参数得到至少两个源序列语义编码;所述至少两个源序列语义编码对应的注意力分配参数不同;
所述解码器能够:
以所述源序列语义编码为输入得到所述目标序列中第二前缀语句的语素语义编码;
以所述源序列语义编码为输入得到所述目标序列中第二后缀语句的第1个自然语言语素的语素语义编码;
以所述源序列语义编码,和所述目标序列中第二后缀语句的第1个自然语言语素至第j-1个自然语言语素的语素语义编码集合为输入,得到所述目标序列的第j个自然语言语素的语素语义编码;j为大于1的整数;
根据所述目标序列的自然语言语素的语素语义编码,得到所述目标序列的自然语言语素。
7.一种基于自然语言处理的数量提取系统,其特征在于,包括:
获取模块,用于获取包括数量的自然语言文本;
数量模块,用于基于所述自然语言文本运行数量提取模型,得到数量结果;
所述数量提取模型的输入包括第一前缀语句、第一后缀语句以及所述自然语言文本,输出包括第二后缀语句;所述第一前缀语句是基于待提取目标设置的字符或字符串;所述第一后缀语句是基于待提取目标类型设置的字符或字符串;所述第二后缀语句包括与所述待提取目标类型一一对应的数量;
所述数量提取模型是将原始模型依次以第一样本执行第一训练、以第二样本和对应于所述第二样本的标签执行第二训练后得到的;所述原始模型为自然语言处理模型;所述第一训练为无监督训练;所述第二训练为有监督训练。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述基于自然语言处理的数量提取方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于自然语言处理的数量提取方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于自然语言处理的数量提取方法的步骤。
CN202210254037.1A 2022-03-15 2022-03-15 基于自然语言处理的数量提取方法和系统 Pending CN114707491A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210254037.1A CN114707491A (zh) 2022-03-15 2022-03-15 基于自然语言处理的数量提取方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210254037.1A CN114707491A (zh) 2022-03-15 2022-03-15 基于自然语言处理的数量提取方法和系统

Publications (1)

Publication Number Publication Date
CN114707491A true CN114707491A (zh) 2022-07-05

Family

ID=82168522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210254037.1A Pending CN114707491A (zh) 2022-03-15 2022-03-15 基于自然语言处理的数量提取方法和系统

Country Status (1)

Country Link
CN (1) CN114707491A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115660871A (zh) * 2022-11-08 2023-01-31 上海栈略数据技术有限公司 医学临床过程无监督建模方法、计算机设备、存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115660871A (zh) * 2022-11-08 2023-01-31 上海栈略数据技术有限公司 医学临床过程无监督建模方法、计算机设备、存储介质

Similar Documents

Publication Publication Date Title
US20210034813A1 (en) Neural network model with evidence extraction
Khan et al. A novel natural language processing (NLP)–based machine translation model for English to Pakistan sign language translation
CN108614875B (zh) 基于全局平均池化卷积神经网络的中文情感倾向性分类方法
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
Tanana et al. A comparison of natural language processing methods for automated coding of motivational interviewing
CN110750959A (zh) 文本信息处理的方法、模型训练的方法以及相关装置
Hagiwara Real-world natural language processing: practical applications with deep learning
CN112765345A (zh) 一种融合预训练模型的文本摘要自动生成方法及系统
CN115146488B (zh) 基于大数据的可变业务流程智能建模系统及其方法
CN111611810A (zh) 一种多音字读音消歧装置及方法
CN111401084A (zh) 一种机器翻译的方法、设备以及计算机可读存储介质
CN112988963B (zh) 基于多流程节点的用户意图预测方法、装置、设备及介质
CN110309511B (zh) 基于共享表示的多任务语言分析系统及方法
CN112000809B (zh) 一种文本类别的增量学习方法及装置、可读存储介质
CN112926345B (zh) 基于数据增强训练的多特征融合神经机器翻译检错方法
CN111966812A (zh) 一种基于动态词向量的自动问答方法和存储介质
CN115221846A (zh) 一种数据处理方法及相关设备
CN113268576B (zh) 一种基于深度学习的部门语义信息抽取的方法及装置
CN116628186B (zh) 文本摘要生成方法及系统
WO2020170912A1 (ja) 生成装置、学習装置、生成方法及びプログラム
CN114676233A (zh) 基于骨骼肌知识图谱的医疗自动问答方法
CN116911300A (zh) 语言模型预训练方法、实体识别方法和装置
Thakur et al. Identifying domain elements from textual specifications
CN114707491A (zh) 基于自然语言处理的数量提取方法和系统
CN112668281B (zh) 基于模板的语料自动化扩充方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination