CN117669721B - 信息抽取方法、装置、电子设备及计算机存储介质 - Google Patents

信息抽取方法、装置、电子设备及计算机存储介质 Download PDF

Info

Publication number
CN117669721B
CN117669721B CN202410139850.3A CN202410139850A CN117669721B CN 117669721 B CN117669721 B CN 117669721B CN 202410139850 A CN202410139850 A CN 202410139850A CN 117669721 B CN117669721 B CN 117669721B
Authority
CN
China
Prior art keywords
training
information extraction
entity
text
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410139850.3A
Other languages
English (en)
Other versions
CN117669721A (zh
Inventor
李晶
周艺耕
张民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202410139850.3A priority Critical patent/CN117669721B/zh
Publication of CN117669721A publication Critical patent/CN117669721A/zh
Application granted granted Critical
Publication of CN117669721B publication Critical patent/CN117669721B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本申请适用于计算机领域,提供了信息抽取方法、装置、电子设备及计算机存储介质,包括:获取待抽取文本;将所述待抽取文本输入信息抽取模型,其中,所述信息抽取模型是基于预训练模型进行训练获得的,所述预训练模型是对预训练语料库进行实体知识训练获得的;根据所述信息抽取模型输出的信息抽取结果,获得所述待抽取文本对应的目标信息。本申请通过采用经过实体知识训练的信息提取模型对待抽取文本进行处理,从而提取出表征待提取文本实体知识以及实体关系的内容,提高了信息抽取结果中实体语义关联性。

Description

信息抽取方法、装置、电子设备及计算机存储介质
技术领域
本发明涉及计算机技术领域,特别是指信息抽取方法、装置、电子设备及计算机存储介质。
背景技术
随着人工智能和自然语言处理技术的不断发展,信息抽取模型越来越广泛的应用在文本处理领域中,例如文本摘要、问答系统、机器翻译、内容创作等场景中,从而在人机交互、内容生成、数据分析等自然语言理解过程中发挥重要作用。
现有的信息抽取任务是基于深度学习和神经网络架构实现的生成式大型语言模型实现的。生成式大型语言模型通过在大规模语料库上进行预训练,实现了生成流畅、连贯的文本的目的,在实现信息抽取任务过程中能够完成自然语言的理解以及生成文本边界。
然而,由于大语言模型都是用常规文本生成的标记级屏蔽、以及用常规文本进行去噪借口任务训练的,导致语义关联能力较低,影响信息抽取结果的准确性。
发明内容
为了解决现有技术存在的信息抽取结果中实体语义关联性低的技术问题,本发明实施例提供了一种信息抽取方法及装置。所述技术方案如下:
一方面,提供了一种信息抽取方法,该方法由电子设备实现,该方法包括:
获取待抽取文本;
将所述待抽取文本输入信息抽取模型,其中,所述信息抽取模型是基于预训练模型进行训练获得的,所述预训练模型是对预训练语料库进行实体知识训练获得的;
根据所述信息抽取模型输出的信息抽取结果,获得所述待抽取文本对应的目标信息。
在第一方面的一种可能的实现方式中,所述信息抽取模型的训练过程包括:
获得预训练语料库,其中,所述预训练语料库包含至少一条预训练文本,每条预训练文本包含至少一个实体词语;
根据所述预训练语料库对预训练模型进行实体知识训练,其中,所述预训练模型为包含编码器-解码器的转换器模型;
根据训练目标函数对训练后的预训练模型进行微调,获得信息抽取模型。
在第一方面的一种可能的实现方式中,所述实体知识训练包括实体填充、实体对比以及实体排序。
在第一方面的一种可能的实现方式中,所述实体填充为:
;
其中,表示实体填充函数,x为输入序列,y表示模型通过填充相应的屏蔽实体和代词来构造的输出序列,/>表示索引小于t的向量,t是y的长度,θ是整个模型的参数。
在第一方面的一种可能的实现方式中,所述实体对比为:
;
其中,表示实体对比函数,θen为编码器的所有参数即优化目标,p(k)为hk的正例的索引集合,也可以理解为共指提及的索引集合,即表示由输入文本中同一实体的所有其他共指提及组成,p是p(k)中的元素,k为输入文本中提及的总数,hk是编码器层顶部的第k个提及的表示,hp表示第p个提及的表示,/>是编码器的隐藏层状态,T是编码器层数,H是编码器隐藏层的维度。
在第一方面的一种可能的实现方式中,所述实体排序为:
其中,表示实体排序函数,N为文本S的长度,Si为文本序列(S1,S2,S3,......,SN)。
在第一方面的一种可能的实现方式中,所述训练目标函数为:
其中,为给定标记的语料库,(x,y)为样本,/>表示序列长度。
另一方面,提供了一种信息抽取装置,该装置应用于信息抽取方法,该装置包括:
获取模块,用于获取待抽取文本;
输入模块,用于将所述待抽取文本输入信息抽取模型,其中,所述信息抽取模型是基于预训练模型进行训练获得的,所述预训练模型是对预训练语料库进行实体知识训练获得的;
获得模块,用于根据所述信息抽取模型输出的信息抽取结果,获得所述待抽取文本对应的目标信息。
另一方面,提供一种电子设备,所述电子设备包括:处理器;存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如上述信息抽取方法中的任一项方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述信息抽取方法中的任一项方法。
本发明实施例提供的技术方案带来的有益效果至少包括:通过采用经过实体知识训练的信息提取模型对待抽取文本进行处理,从而提取出表征待提取文本实体知识以及实体关系的内容,提高了信息抽取结果中实体语义关联性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种信息抽取方法流程图一;
图2是本发明实施例提供的一种信息抽取方法流程图二;
图3是本发明实施例提供的一种信息抽取装置框图;
图4是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图,对本发明中的技术方案进行描述。
在本发明实施例中,“示例地”、“例如”等词用于表示作例子、例证或说明。本发明中被描述为“示例”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用示例的一词旨在以具体方式呈现概念。此外,在本发明实施例中,“和/或”所表达的含义可以是两者都有,或者可以是两者任选其一。
本发明实施例中,“图像”,“图片”有时可以混用,应当指出的是,在不强调其区别时,其所要表达的含义是一致的。“的(of)”,“相应的(corresponding,relevant)”和“对应的(corresponding)”有时可以混用,应当指出的是,在不强调其区别时,其所要表达的含义是一致的。
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明实施例提供了一种信息抽取方法,该方法可以由电子设备实现,该电子设备可以是终端或服务器。如图1所示的信息抽取方法流程图一。在本申请实施例中,信息抽取模型的训练过程可以包括如下的步骤:
S101:获得预训练语料库,其中,所述预训练语料库包含至少一条预训练文本,每条预训练文本包含至少一个实体词语。
应理解,在本申请实施例中,通过选取至少包含一个实体词语的文本作为预训练文本,并采用大量的预训练文本构建知识优先的语料集合作为预训练语料库。需要说明的是,本申请实施例中提出的预训练语料库的预训练文本中包含的实体词语可以为任意领域的包含实体知识含义的关键字。示例性的,文本“艾米丽·沃森医生轻快地走过圣玛丽医院的大厅”中,艾米丽·沃森以及圣玛丽医院为实体关键词语。
S102:根据所述预训练语料库对预训练模型进行实体知识训练,其中,所述预训练模型为包含编码器-解码器的转换器模型。
在本申请实施例中,采用(Sequence to Sequence,Seq2Seq)端到端神经网络技术构建信息抽取任务模型。示例性的,采用生成式信息抽取模型(Generative InformationExtraction with Knowledgeable Pretraining,GIEK)作为预训练模型。示例性的,本申请实施例采用的生成式信息抽取技术为包含一个双向编码器和一个自回归解码器的transformer架构,其训练过程包含预训练以及模型微调两个阶段。应理解,通过在预训练阶段,使用三个优化目标,将语言和实体知识注入到编码器-解码器的架构中对预训练语料库进行实体知识训练。
在本申请实施例中,实体知识训练包括实体填充、实体对比以及实体排序。
首先,本申请提出的实体填充用于使模型能够生成信息丰富的实体,而不是随机屏蔽的词语。具体的,通过给定一个输入序列,即采用特殊掩码标记例如中括号屏蔽所有的实体和人称代词,能够明确地使模型能够生成实体信息,实现了模型通过填充相应的屏蔽实体和代词来构造输出序列的目的。示例性的,本申请提供的实体填充如公式(1)所示:
(1)
其中,表示实体填充函数,x为输入序列,y表示模型通过填充相应的屏蔽实体和代词来构造的输出序列,/>表示索引小于t的向量,t是y的长度,θ是整个模型的参数。
其次,本申请提出的实体对比用于通过将指代同一实体的词向量嵌入拉得更近,并同时将来自不同实体的嵌入推开,来处理实体共指。应理解,在整个文档中可以使用相同的短语或不同的别名来提及实体。示例性的,每一个实体或句子都可以表示为一个高维语义空间的向量。语义相似的句子所表示成的向量,其距离也更相近,通常会用余弦相似度等方式度量语义向量之间的距离。对于同一实体的不同提及的表示应该是近似或者相互指涉的,并且同一实体的共指提及表示应该比不同实体的表示更加接近,即相似度更高。应理解,对同一实体的文档提及的实体也是相互指涉的。应理解,同一实体的共指提及的表示应该比来自不同实体的表示更接近。
示例性,通过给定一个经过掩码操作的序列,采用transformer编码器层来编码上下文序列,得到编码器端的隐藏状态/>,其中/>是transformer编码器隐藏层的维度。示例性的,对于/>的一个实体提及,我们将所有的共指提及视作正例,/>的表示应与正例中的所有表示更为相近,其他实体提及则视为负例,应与正例中的表示相似度更低。应理解,对于/>的一个实体提及,我们将其所有的共指提及视为正例,其他提及视为负例。设/>为输入文本中提及的总数,/>是编码器层顶部的第/>个提及的表示。示例性的,本申请提供的实体对比如公式(2)所示:
(2)
其中,表示实体对比函数,θen为编码器的所有参数即优化目标,p(k)为hk的正例的索引集合,也可以理解为共指提及的索引集合,即表示由输入文本中同一实体的所有其他共指提及组成,p是p(k)中的元素,k为输入文本中提及的总数,hk是编码器层顶部的第k个提及的表示,hp表示第p个提及的表示,/>是编码器的隐藏层状态,T是编码器层数,H是编码器隐藏层的维度。
最后,本申请提出的实体对比用于捕捉实体之间的依赖关系。应理解,在模型的微调阶段,每个文本抽取任务都会以回归方式、即使用自然语言提示进行训练。在本申请实施例中,在seq2seq模型引入了一个具有实体排列目标的预文本任务。具体的,例如给定长度为N的文本(S1,S2,S3,......,SN),检测所有实体提及并以随机顺序重排这些提及,从而得到新的输入文本,通过纠正排列的实体来重建整个源文本S(长度为N),以实现明确捕捉实体之间的依赖关系。示例性的,本申请提供的实体排序如公式(3)所示:
(3)
其中,表示实体排序函数,N为文本S的长度,Si为文本序列(S1,S2,S3,......,SN)。
综上,经过实体填充、实体对比以及实体排序之后,通过采用联合目标进行训练。基于公式(1)、公式(2)以及公式(3),具体的,采用如公式(4)进行联合训练,公式(4)如下:
(4)
S103:根据训练目标函数对训练后的预训练模型进行微调,获得信息抽取模型。
在本申请实施例中,应理解,在模型微调阶段,每个任务都以自回归的方式使用自然语言提示进行训练。
在本申请实施例中,采用训练目标函数对训练后的预训练模型进行微调,获得信息抽取模型。具体的,采用Prompt-tunning对生成式任务存在的问题进行微调,使得模型能够更加适应特定领域的语言风格,提升处理特定领域下有任务的性能。应理解,对于输入和输出进行线性化操作。示例性的,对给定标记的语料库,使用提示模板将样本(x,y)表示为一对令牌序列(lx,ly),这些模板能够将任意自然语言任务映射为人类可读的提示形式。在此基础上,在模型词汇表中引入了一组新的标记。具体的,本申请提供的训练目标函数如公式(5)所示:
(5)
其中,为给定标记的语料库,(x,y)为样本,/>表示序列长度。
本实施例提供的信息抽取方法,通过采用GIEK作为预训练模型,并在预训练过程中设定采用预训练语料库对预训练模型进行倾向于语言和实体知识的知识实体训练,通过加入的三种实体知识相关的训练目标,实现了知识与大语言模型进行深度融合与对齐,使得训练后获得的信息抽取模型可以理解知识实体、以及学习到实体与文本的关联语义。
如图2所示的信息抽取方法流程图二。在本申请实施例中,基于图1实施例中实现的信息抽取模型,本申请实施例提供信息抽取具体过程可以包括如下的步骤:
S201:获取待抽取文本。
在本申请实施例中,基于图1实施例获得的训练后的信息抽取模型能够完成多个不同领域文档的信息抽取任务。具体的,待抽取文本可以为带有格式文字文档或者无格式的文本。例如,记录的病人病例信息:患者于2020年4月5日入院,进行了心脏手术,手术历时4小时,于同一天顺利完成。
S202:将所述待抽取文本输入信息抽取模型,其中,所述信息抽取模型是基于预训练模型进行训练获得的,所述预训练模型是对预训练语料库进行实体知识训练获得的。
在本申请实施例中,例如,在医学文本领域,对于医学文本的命名实体识别,在训练模型的过程中引入采用给定模式数据和医学句子,获得的信息抽取模型即能够完成关于临床信息的实体信息的抽取,在知识实体信息抽取过程中完成了对抽取的实体结果的分类。
示例性的,将S201中提出的语句“患者于2020年4月5日入院,进行了心脏手术。手术历时4小时,于同一天顺利完成”输入至信息提取模型中,输出的内容为表示该段信息包含的实体信息、实体关系等内容。具体的,输出的实体为:“患者” 、“心脏手术”、“2020年4月5日" 和 “4小时”;输出的关系为:“患者”和 "心脏手术”;输出的时间信息为“患者入院”—“2020年4月5日”、“手术时间”—“四小时”。
S203:根据信息抽取模型输出的信息抽取结果,获得待抽取文本对应的目标信息。
在本申请实施例中,将信息抽取模型输出的信息抽取结果作为待抽取文本对应的目标信息。目标信息用于表征待抽取文本包含的实体信息和实体关系信息,即能够通过目标信息获取到待抽取文本包含的关键内容。
示例性的,根据本申请提供的信息抽取模型完成信息抽取任务,当输入的内容为“公司的首席执行官约翰将奖项颁给了他最信任的员工爱丽丝”,模型输出的信息抽取结果为“首席执行官”“约翰”、“爱丽丝”、“公司”以及“员工”,其中,实体关系结果为约翰和爱丽丝的关系是“员工”,以及公司和约翰的关系是“首席执行官”;示例性的,根据本申请提供的信息抽取模型完成信息抽取任务,当输入的内容为“简走进房间,每个人都转过头来看着她。这个女人因为她的慈善事业在镇上很有名。”,模型输出的信息抽取结果为“简”、“每个人”、“这个女人”以及“慈善事业”,其中,信息抽取结果中表示指代的实体关系为“这个女人”指代的是“简”,同时“她”指代的是“简”。
本实施例提供的信息抽取方法,通过采用经过实体知识训练的信息提取模型对待抽取文本进行处理,从而提取出表征待提取文本实体知识以及实体关系的内容,提高了信息抽取结果中实体语义关联性,较好的完成涉及实体的信息抽取任务。
图3是根据一示例性实施例示出的一种信息抽取装置框图,该装置用于信息抽取方法。参照图3,该装置包括获取模块301、输入模块302以及获得模块303。如图3所示:
获取模块301,用于获取待抽取文本。
输入模块302,用于将所述待抽取文本输入信息抽取模型,其中,所述信息抽取模型是基于预训练模型进行训练获得的,所述预训练模型是对预训练语料库进行实体知识训练获得的。
获得模块303,用于根据所述信息抽取模型输出的信息抽取结果,获得所述待抽取文本对应的目标信息。
需要说明的是,上述模块/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
图4是本发明实施例提供的一种电子设备的结构示意图,如图4所示,电子设备可以包括上述图3所示的信息抽取装置。可选地,电子设备410可以包括处理器2001。
可选地,电子设备410还可以包括存储器2002和收发器2003。
其中,处理器2001与存储器2002以及收发器2003,如可以通过通信总线连接。
下面结合图4对电子设备410的各个构成部件进行具体的介绍:
其中,处理器2001是电子设备410的控制中心,可以是一个处理器,也可以是多个处理元件的统称。例如,处理器2001是一个或多个中央处理器(central processing unit,CPU),也可以是特定集成电路(application specific integrated circuit,ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路,例如:一个或多个微处理器(digital signal processor,DSP),或,一个或者多个现场可编程门阵列(fieldprogrammable gate array,FPGA)。
可选地,处理器2001可以通过运行或执行存储在存储器2002内的软件程序,以及调用存储在存储器2002内的数据,执行电子设备410的各种功能。
在具体的实现中,作为一种实施例,处理器2001可以包括一个或多个CPU,例如图4中所示出的CPU0和CPU1。
在具体实现中,作为一种实施例,电子设备410也可以包括多个处理器,例如图4中所示的处理器2001和处理器2004。这些处理器中的每一个可以是一个单核处理器(single-CPU),也可以是一个多核处理器(multi-CPU)。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
其中,所述存储器2002用于存储执行本发明方案的软件程序,并由处理器2001来控制执行,具体实现方式可以参考上述方法实施例,此处不再赘述。
可选地,存储器2002可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory,EEPROM)、只读光盘(compactdisc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器2002可以和处理器2001集成在一起,也可以独立存在,并通过电子设备410的接口电路(图4中未示出)与处理器2001耦合,本发明实施例对此不作具体限定。
收发器2003,用于与网络设备通信,或者与终端设备通信。
可选地,收发器2003可以包括接收器和发送器(图4中未单独示出)。其中,接收器用于实现接收功能,发送器用于实现发送功能。
可选地,收发器2003可以和处理器2001集成在一起,也可以独立存在,并通过电子设备410的接口电路(图4中未示出)与处理器2001耦合,本发明实施例对此不作具体限定。
需要说明的是,图4中示出的电子设备410的结构并不构成对该路由器的限定,实际的知识结构识别设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
此外,电子设备410的技术效果可以参考上述方法实施例所述的信息抽取方法的技术效果,此处不再赘述。
应理解,在本发明实施例中的处理器2001可以是中央处理单元(centralprocessing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digitalsignal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
还应理解,本发明实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的随机存取存储器(random accessmemory,RAM)可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
上述实施例,可以全部或部分地通过软件、硬件(如电路)、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系,但也可能表示的是一种“和/或”的关系,具体可参考前后文进行理解。
本发明中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a, b, c, a-b, a-c, b-c, 或a-b-c,其中a,b,c可以是单个,也可以是多个。
应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个设备,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (5)

1.一种信息抽取方法,其特征在于,所述方法包括:
获取待抽取文本;
将所述待抽取文本输入信息抽取模型,其中,所述信息抽取模型是基于预训练模型进行训练获得的,所述预训练模型是对预训练语料库进行实体知识训练获得的;
根据所述信息抽取模型输出的信息抽取结果,获得所述待抽取文本对应的目标信息;
所述信息抽取模型的训练过程包括:
获得预训练语料库,其中,所述预训练语料库包含至少一条预训练文本,每条预训练文本包含至少一个实体词语;
根据所述预训练语料库对预训练模型进行实体知识训练,其中,所述预训练模型为包含编码器-解码器的转换器模型;
根据训练目标函数对训练后的预训练模型进行微调,获得信息抽取模型;
所述实体知识训练包括实体填充、实体对比以及实体排序;
所述实体填充为:
其中,表示实体填充函数,x为输入序列,y表示模型通过填充相应的屏蔽实体和代词来构造的输出序列,/>表示索引小于t的向量,ty的长度,θ是整个模型的参数;
所述实体对比为:
其中,表示实体对比函数,θ en 为编码器的所有参数即优化目标,p(k)为h k 的正例的索引集合,由输入文本中同一实体的所有其他共指提及组成,pp(k)中的元素,K为输入文本中提及的总数,h k 是编码器层顶部的第k个提及的表示,h p 表示第p个提及的表示,/>是编码器的隐藏层状态,T是编码器层数,H是编码器隐藏层的维度;
所述实体排序为:
其中,表示实体排序函数,N为文本S的长度,S i 为文本序列(S 1,S 2,S 3,......,S N );给定长度为N的文本序列(S 1,S 2,S 3,......,S N ),检测所有实体提及并以随机顺序重排这些提及,得到新的输入文本/>
2.根据权利要求1所述的方法,其特征在于,所述训练目标函数为:
其中,为给定标记的语料库,(x,y)为样本,/>表示序列长度。
3.一种信息抽取装置,用于实现如权利要求1至2中任一项所述的方法,其特征在于,所述装置包括:
获取模块,用于获取待抽取文本;
输入模块,用于将所述待抽取文本输入信息抽取模型,其中,所述信息抽取模型是基于预训练模型进行训练获得的,所述预训练模型是对预训练语料库进行实体知识训练获得的;
获得模块,用于根据所述信息抽取模型输出的信息抽取结果,获得所述待抽取文本对应的目标信息。
4.一种电子设备,其特征在于,所述电子设备包括:
处理器;
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如权利要求1至2中任一项所述的信息抽取方法。
5.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1至2任一项所述的信息抽取方法。
CN202410139850.3A 2024-02-01 2024-02-01 信息抽取方法、装置、电子设备及计算机存储介质 Active CN117669721B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410139850.3A CN117669721B (zh) 2024-02-01 2024-02-01 信息抽取方法、装置、电子设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410139850.3A CN117669721B (zh) 2024-02-01 2024-02-01 信息抽取方法、装置、电子设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN117669721A CN117669721A (zh) 2024-03-08
CN117669721B true CN117669721B (zh) 2024-04-19

Family

ID=90073520

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410139850.3A Active CN117669721B (zh) 2024-02-01 2024-02-01 信息抽取方法、装置、电子设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN117669721B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115423098A (zh) * 2022-09-06 2022-12-02 中国人民解放军军事科学院系统工程研究院 一种预训练语言模型实体知识注入方法、系统及装置
CN115994204A (zh) * 2023-02-20 2023-04-21 北京智谱华章科技有限公司 适用于少样本场景的国防科技文本结构化语义分析方法
CN116881389A (zh) * 2023-07-17 2023-10-13 中国电信股份有限公司技术创新中心 一种信息抽取方法、装置及存储介质
CN117371447A (zh) * 2022-06-28 2024-01-09 株式会社理光 命名实体识别模型的训练方法、装置及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117371447A (zh) * 2022-06-28 2024-01-09 株式会社理光 命名实体识别模型的训练方法、装置及存储介质
CN115423098A (zh) * 2022-09-06 2022-12-02 中国人民解放军军事科学院系统工程研究院 一种预训练语言模型实体知识注入方法、系统及装置
CN115994204A (zh) * 2023-02-20 2023-04-21 北京智谱华章科技有限公司 适用于少样本场景的国防科技文本结构化语义分析方法
CN116881389A (zh) * 2023-07-17 2023-10-13 中国电信股份有限公司技术创新中心 一种信息抽取方法、装置及存储介质

Also Published As

Publication number Publication date
CN117669721A (zh) 2024-03-08

Similar Documents

Publication Publication Date Title
Kant et al. Spatially aware multimodal transformers for textvqa
CN111095259B (zh) 使用n-gram机器的自然语言处理
Zhang et al. A context-aware recurrent encoder for neural machine translation
Shaikh et al. Towards improved classification accuracy on highly imbalanced text dataset using deep neural language models
Aubaid et al. A rule-based approach to embedding techniques for text document classification
Li et al. SeCNN: A semantic CNN parser for code comment generation
Wang et al. Augmenting black-box llms with medical textbooks for clinical question answering
Lakretz et al. What limits our capacity to process nested long-range dependencies in sentence comprehension?
La Quatra et al. Bart-it: An efficient sequence-to-sequence model for italian text summarization
Loubser et al. Viability of neural networks for core technologies for resource-scarce languages
CN113657086B (zh) 词语处理方法、装置、设备及存储介质
Duan et al. Multilabel text classification algorithm based on fusion of two-stream transformer
Kim et al. Integrated model for morphological analysis and named entity recognition based on label attention networks in Korean
CN117669721B (zh) 信息抽取方法、装置、电子设备及计算机存储介质
Duan et al. Enhancement of question answering system accuracy via transfer learning and bert
Shi et al. Boosting sparsity-induced autoencoder: A novel sparse feature ensemble learning for image classification
Liu et al. Research on named entity recognition of Traditional Chinese Medicine chest discomfort cases incorporating domain vocabulary features
Pavanelli et al. PUCRJ-PUCPR-UFMG at eHealth-KD Challenge 2021: A Multilingual BERT-based System for Joint Entity Recognition and Relation Extraction.
Huang et al. EMSI-BERT: Asymmetrical Entity-Mask Strategy and Symbol-Insert Structure for Drug–Drug Interaction Extraction Based on BERT
Roca et al. A Study on the Impacts of Slot Types and Training Data on Joint Natural Language Understanding in a Spanish Medication Management Assistant Scenario
Wang et al. End-to-end pre-trained dialogue system for automatic diagnosis
Jung et al. Impact of sentence representation matching in neural machine translation
CN117150002B (zh) 一种基于动态知识引导的摘要生成方法、系统及装置
Sheikhi et al. SmartMinutes—a blockchain-based framework for automated, reliable, and transparent meeting minutes management
Erd Data augmentation for named entity recognition in the German legal domain

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant