CN114153978A - 模型训练方法、信息抽取方法、装置、设备及存储介质 - Google Patents
模型训练方法、信息抽取方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114153978A CN114153978A CN202210115404.XA CN202210115404A CN114153978A CN 114153978 A CN114153978 A CN 114153978A CN 202210115404 A CN202210115404 A CN 202210115404A CN 114153978 A CN114153978 A CN 114153978A
- Authority
- CN
- China
- Prior art keywords
- field
- sentence text
- sentence
- preset
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Abstract
本申请提供了一种模型训练方法、信息抽取方法、装置、设备及存储介质,其中,信息抽取方法,包括:根据训练得到的阅读理解模型对待抽取句子文本进行分类识别和序列标注,得到待抽取句子文本的分类识别结果和序列标注结果,序列标注结果用于指示待抽取句子文本中多个预设字段分别对应的字段值,根据多个预设字段的关联关系,对多个预设字段对应的字段值进行关联,得到结构化数据,结构化数据中包括多个预设字段以及多个预设字段分别对应的字段值。不仅能抽取多个预设字段分别对应的字段值,还可以实现字段值的相互关联,得到结构化数据。
Description
技术领域
本申请涉及人工智能技术领域,具体而言,涉及一种模型训练方法、信息抽取方法、装置、设备及存储介质。
背景技术
随着人工智能技术的发展,采用人工智能技术从海量非结构化的公告中抽取出重要信息已经成为了一种趋势,通常在进行信息抽取之前,需要事先定义好需要抽取的字段名,然后基于该字段名将对应的字段值提取出来,以存入结构化的数据库中。
目前提供的信息抽取方法中,一种是基于规则抽取的方法,预先定义抽取规则,通过编写正则进行字段值的抽取,另一种是基于序列标注的方法,为每个字或词预测一个预先定义的标签,然后基于该标签对标注序列进行解码得到字段值,还有一种是基于机器阅读理解的方法,将字段名和包含对应字段值的片段一起输入深度学习模型,预测字段值在片段中的开始位置和结束位置以得到字段值。
然而,上述方法只能解决多个字段中每个字段只有单个字段值的情况,不能解决多个字段中存在一个或多个字段有多个字段值的情况,即不能解决字段值之间的交互关联的问题。
发明内容
本申请的目的在于,针对上述现有技术中的不足,提供一种模型训练方法、信息抽取方法、装置、设备及存储介质,以抽取多个字段值,还实现了字段值相互关联。
为实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请一实施例提供了一种模型训练方法,包括:
获取针对多个预设字段的样本数据,针对每个预设字段的样本数据包括所述每个预设字段的字段名、所述字段名的字段值以及句子文本,其中,所述多个预设字段为存在关联关系的字段;
对所述句子文本进行分类识别,得到分类识别结果,所述分类识别结果用于指示所述句子文本中是否包括所述每个预设字段对应的字段值;
对所述句子文本中的字段值进行序列标注,得到序列标注结果;
根据所述分类识别结果以及所述序列标注结果进行模型训练,得到阅读理解模型。
可选地,所述获取针对多个预设字段的样本数据,包括:
获取针对所述多个预设字段的第一正样本数据,所述每个预设字段的第一正样本数据包括所述每个预设字段的字段名、所述字段名的字段值以及所述字段值所在的第一正句子文本;
确定样本文件的多个句子文本中所述第一正句子文本之外的句子文本为负句子文本;
生成针对所述多个预设字段的负样本数据,所述每个预设字段的负样本数据包括所述每个预设字段的字段名、所述字段名的预设空值以及负句子文本,针对所述多个预设字段的样本数据包括所述第一正样本数据和所述负样本数据。
可选地,所述获取针对多个预设字段的样本数据,还包括:
调整所述第一正句子文本中的字段值,得到第二正句子文本;
生成针对所述多个预设字段的第二正样本数据,所述每个预设字段的第二样本数据包括所述每个预设字段的字段名、调整后的所述字段名的字段值以及第二正句子文本,所述针对多个预设字段的样本数据还包括:所述第二正样本数据。
可选地,所述调整所述第一正句子文本中的字段值,得到第二正句子文本,包括:
根据其他第一正句子文本中的字段值,调整目标第一正句子文本中的字段值;
确定调整后的目标第一正句子文本为所述第二正句子文本。
可选地,所述确定样本文件的多个句子文本中所述第一正句子文本之外的句子文本为负句子文本,包括:
确定样本文件的多个句子文本中所述第一正句子文本之外的句子文本为候选负句子文本;
计算所述候选负句子文本与所述第一正句子文本的最大公共字串长度;
根据所述最大公共字串长度,对所述候选负句子文本进行过滤,得到所述负句子文本。
可选地,所述根据所述分类识别结果以及所述序列标注结果进行模型训练,得到阅读理解模型,包括:
根据所述分类识别结果和所述句子文本的实际分类识别结果,得到分类预测损失;
根据所述字段名的字段值和所述句子文本,获取所述句子文本的实际序列标注结果;
根据所述序列标注结果和所述实际序列标注结果,得到序列标注损失;
根据所述分类预测损失和所述序列标注损失进行模型训练,得到所述阅读理解模型。
第二方面,本申请另一实施例提供了一种信息抽取方法,包括:
根据第一方面任一项训练得到的阅读理解模型对待抽取句子文本进行处理,得到所述待抽取句子文本中所述多个预设字段分别对应的字段值;
根据所述多个预设字段的关联关系,对所述多个预设字段对应的字段值进行关联,得到结构化数据,所述结构化数据中包括所述多个预设字段以及所述多个预设字段分别对应的字段值。
可选地,所述根据所述多个预设字段的关联关系,对所述多个预设字段对应的字段值进行关联,得到结构化数据,包括:
根据所述多个预设字段的关联关系,生成字段关联关系树,所述字段关联关系树中包括所述多个预设字段构成的父节点和子节点;
将所述父节点对应的字段值和所述子节点对应的字段值进行关联,得到所述结构化数据。
可选地,所述将所述父节点对应的字段值和所述子节点对应的字段值进行关联,得到所述结构化数据,包括:
判断所述父节点对应的字段值的数量与所述子节点对应的字段值的数量是否相等;
若所述父节点对应的字段值的数量与所述子节点对应的字段值的数量相等,则依次将所述父节点对应的字段值和所述子节点对应的字段值进行关联,得到所述结构化数据。
可选地,所述将所述父节点对应的字段值和所述子节点对应的字段值进行关联,得到所述结构化数据,还包括:
若所述父节点对应的字段值的数量与所述子节点对应的字段值的数量不相等,则获取所述父节点对应的字段值与所述子节点对应的字段值在待抽取文件中的字串距离;
根据所述字串距离,将所述父节点对应的字段值和所述子节点对应的字段值进行关联,得到所述结构化数据。
可选地,所述方法还包括:
对针对每个预设字段的样本数据中的句子文本进行分词,得到多个分词;
计算所述多个分词的重要性分值,并根据所述重要性分值,从所述多个分词中确定每个预设字段对应的关键词集合;
根据所述关键词集合,对待抽取文件的候选待抽取句子文本进行筛选;
从筛选后的候选待抽取句子文本中确定所述待抽取句子文本。
可选地,所述从筛选后的候选待抽取句子文本中确定所述待抽取句子文本,包括:
根据所述多个分词的重要性分值,得到所述句子文本的句子向量;
根据所述句子向量,对所述句子文本进行聚类处理,得到聚类句子集合;
计算所述候选待抽取句子文本与所述聚类句子集合中每个类别的句子文本之间的最大公共字串长度;
根据所述最大公共字串长度,从所述候选待抽取句子文本中确定所述待抽取句子文本。
第三方面,本申请另一实施例提供了一种模型训练装置,包括:
获取模块,用于获取针对多个预设字段的样本数据,针对每个预设字段的样本数据包括所述每个预设字段的字段名、所述字段名的字段值以及句子文本,其中,所述多个预设字段为存在关联关系的字段;
识别模块,用于对所述句子文本进行分类识别,得到分类识别结果,所述分类识别结果用于指示所述句子文本中是否包括所述每个预设字段对应的字段值;
标注模块,用于对所述句子文本中的字段值进行序列标注,得到序列标注结果;
训练模块,用于根据所述分类识别结果以及所述序列标注结果进行模型训练,得到阅读理解模型。
第四方面,本申请另一实施例提供了一种信息抽取装置,包括:
处理模块,用于根据第一方面任一项训练得到的阅读理解模型对待抽取句子文本进行处理,得到所述待抽取句子文本中所述多个预设字段分别对应的字段值;
关联模块,用于根据所述多个预设字段的关联关系,对所述多个预设字段对应的字段值进行关联,得到结构化数据,所述结构化数据中包括所述多个预设字段以及所述多个预设字段分别对应的字段值。
第五方面,本申请另一实施例提供了一种模型训练设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的计算机程序,当模型训练设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述计算机程序,以执行上述第一方面任一项所述的模型训练方法。
第六方面,本申请另一实施例提供了一种信息抽取设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的计算机程序,当模型训练设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述计算机程序,以执行上述第二方面任一项所述的信息抽取方法。
第八方面,本申请另一实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行第一方面和第二方面任一项所述的方法。
本申请的有益效果是:
本申请提供的模型训练方法、信息抽取方法、装置、设备及存储介质,其中,信息抽取方法,包括:根据训练得到的阅读理解模型对待抽取句子文本进行分类识别和序列标注,得到待抽取句子文本的分类识别结果和序列标注结果,序列标注结果用于指示待抽取句子文本中多个预设字段分别对应的字段值,根据多个预设字段的关联关系,对多个预设字段对应的字段值进行关联,得到结构化数据,结构化数据中包括多个预设字段以及多个预设字段分别对应的字段值。不仅能抽取多个预设字段分别对应的字段值,还可以实现字段值的相互关联,得到结构化数据。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的模型训练方法的流程示意图一;
图2为本申请实施例提供的模型训练方法的流程示意图二;
图3为本申请实施例提供的模型训练方法的流程示意图三;
图4为本申请实施例提供的模型训练方法的流程示意图四;
图5为本申请实施例提供的模型训练方法的流程示意图五;
图6为本申请实施例提供的阅读理解模型的示意图;
图7为本申请实施例提供的信息抽取方法的流程示意图一;
图8为本申请实施例提供的信息抽取方法的流程示意图二;
图9为本申请实施例提供的字段关联关系树的示意图一;
图10为本申请实施例提供的字段关联关系树的示意图二;
图11为本申请实施例提供的信息抽取方法的流程示意图三;
图12为本申请实施例提供的模型训练装置的结构示意图;
图13为本申请实施例提供的信息抽取装置的结构示意图;
图14为本申请实施例提供的模型训练设备的结构示意图;
图15为本申请实施例提供的信息抽取设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。 应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。 此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
以金融领域为例,由于每天产生的金融公告太多,亟需采用人工智能技术从非结构化的金融公告中抽取出结构化信息。目前提供的信息抽取方法中,一种是基于规则抽取的方法,预先定义抽取规则,通过编写正则进行字段值的抽取,然而该方法需要事先定义好抽取规则,难以覆盖所有情况,导致召回率低。
另一种是基于序列标注的方法,为每个字或词预测一个预先定义的标签,然后基于该标签对标注序列进行解码得到字段值,然而采用序列标注的方法可能会同时抽取出多个相同类型的实体,不能准确地抽取出想要的字段值,此外,对应不同的抽取需求,需要抽取的实体类型各不相同,但难以预先定义好所有的实体类型,因此不同的需求需要重新制定序列标注方法,导致序列标注方法不是一个通用的抽取方案,工作量较大。
还有一种是基于机器阅读理解的方法,将字段名和包含对应字段值的片段一起输入深度学习模型,预测字段值在片段中的开始位置和结束位置以得到字段值,然而机器阅读理解的方法输出概率最大的开始位置和结束位置,输出的是字段值的跨度,但是存在不能够抽取出有多个字段值的情况。以上三种方法只能解决多个字段中每个字段只有单个字段值的情况,不能解决多个字段中存在一个或多个字段有多个字段值的情况,即不能解决字段值之间的交互关联的问题。
基于此,本申请提供了一种模型训练方法和信息抽取方法,在模型训练方法中,进行分类预测和实体识别两个任务的联合训练得到阅读理解模型,在信息抽取方法中,采用训练得到的阅读理解模型对待抽取句子文本进行处理,得到待抽取句子文本中包括多个预设字段对应的字段值,然后根据多个预设字段的关联关系,对多个预设字段对应的字段值进行关联,得到结构化数据,结构化数据中包括多个预设字段以及多个预设字段分别对应的字段值。不仅能抽取多个预设字段分别对应的字段值,还可以实现字段值的相互关联,得到结构化数据。
下面结合几个具体实施例对本申请提供的模型训练方法进行详细说明。
图1为本申请实施例提供的模型训练方法的流程示意图一,本实施例的执行主体可以为模型训练设备,如终端或者服务器。
如图1所示,模型训练方法包括:
S101、获取针对多个预设字段的样本数据。
其中,多个预设字段为存在关联关系的字段,该关联关系可以为依赖关系,以多个预设字段包括离职高管姓名、公司名、辞职日期、离职高管职务、离职原因为例,通过业务分析,辞职日期、离职高管职务、离职原因属于高管的属性,脱离高管则无法表示具体意义,所以依赖于高管姓名,而高管应该是公司的一部分,所以高管姓名依赖于公司名。
针对每个预设字段的样本数据包括每个预设字段的字段名、字段名的字段值以及句子文本,其中,预设字段的字段名即高管姓名、公司名、辞职日期、离职高管职务、离职原因,字段名的字段值为字段名所对应的具体的值,例如高管姓名的字段值为a,表示a为离职高管,公司名的字段值为A,表示A公司,辞职日期的字段值为x年y月z日,表示在x年y月z日离职。
句子文本可以为包括字段名的字段值的句子文本,也可以为不包括字段名的字段值的句子文本,若句子文本包括该字段值,说明该句子文本为正样本,若句子文本不包括该字段值,说明该句子文本为负样本。
S102、对句子文本进行分类识别,得到分类识别结果。
获取针对多个预设字段的样本数据之后,采用分类识别网络对每个预设字段的句子文本进行分类识别,得到分类识别结果,分类识别结果用于指示句子文本中是否包括每个预设字段对应的字段值。
S103、对句子文本中的字段值进行序列标注,得到序列标注结果。
采用序列标注网络对每个预设字段的字段名的字段值进行序列标注,得到序列标注结果,序列标注结果用于指示句子文本中每个字的标签(包括B、I、E、O、S),其中,可以采用BIEOS方法对字段值进行序列标注,在BIEOS标注方案中,B表示句子文本中字段值开始的位置,I表示句子文本中字段值中间的位置一个,E表示句子文本中字段值的结束位置,S表示句子文本中的单个字为字段值,O表示句子文本中不构成字段值的字符。
作为一种示例,句子文本为“对员工abc在任职期间对公司所做的贡献表示感谢”,若预设字段名为离职高管,abc为对应的字段值,则将a标注为B,b标注为I,c标注为E,其他字符标注为O;在另一种示例中,句子文本为“对员工a在任职期间对公司所做的贡献表示感谢”,若预设字段名为离职高管,a为对应的字段值,则将a标注为S,其他字符标注为O;在又一种示例中,句子文本为“对员工ab在任职期间对公司所做的贡献表示感谢”,若预设字段名为离职高管,ab为对应的字段值,则将a标注为B,将b标注为E,其他字符标注为O。
S104、根据分类识别结果以及序列标注结果进行模型训练,得到阅读理解模型。
阅读理解模型包括分类识别网络和序列标注网络,根据模型输出的分类识别结果以及序列标注结果进行模型训练,直至分类识别损失和序列标注结果损失达到最小,则模型训练完成,得到阅读理解模型。
在本实施例的模型训练方法中,通过进行分类预测和实体识别两个任务的联合训练得到阅读理解模型,通过结合分类预测任务,使得阅读理解模型的模型训练效果佳,提高了字段值抽取的准确度,并且将字段名作为阅读理解模型的关键,将句子文本作为阅读理解模型的上下文,能够根据预设多个字段名直接抽取对应的字段值。
下面结合图2对步骤S101,获取针对多个预设字段的样本数据的一种可能的实施方法进行说明。
图2为本申请实施例提供的模型训练方法的流程示意图二,如图2所示,获取针对多个预设字段的样本数据,包括:
S201、获取针对多个预设字段的第一正样本数据。
其中,每个预设字段的第一正样本数据包括每个预设字段的字段名、字段名的字段值以及字段值所在的第一正句子文本,第一正样本数据以三元组表示为<字段名,字段值,第一正句子文本> ,其中,第一正句子文本中包括字段值。
S202、确定样本文件的多个句子文本中第一正句子文本之外的句子文本为负句子文本。
在一些实施例中,第一正句子文本可以是从样本文件中确定的,样本文件可以包括金融公告文件、行政公告文件、新闻资讯文件等,为从样本文件中抽取信息,首先按句子结束符对样本文件进行分句,得到样本文件的多个句子文本,其中,句子结束符可以为句号、分号、问号等,本实施例对句子结束符不做限定,然后从样本文件的多个句子文本中获取针对多个预设字段的第一正样本数据,并确定样本文件的多个句子文本中第一正句子文本之外的句子文本为负句子文本,也即,样本文件的多个句子文本包括第一正句子文件和负句子文本。
S203、生成针对多个预设字段的负样本数据。
其中,每个预设字段的负样本数据包括每个预设字段的字段名、字段名的预设空值以及负句子文本,类似地,负样本数据以三元组表示为<字段名,预设空值,负句子文本>,其中,负句子文本中不包括第一正句子文本中的字段值,预设空值表示负句子文本中的字段值为空。
将第一正样本数据和负样本数据作为针对多个预设字段的样本数据,也即针对多个预设字段的样本数据包括第一正样本数据和负样本数据。
在本实施例的模型训练方法中,基于第一正样本数据和负样本数据进行模型训练,模型训练效果佳。
在一些实施例中,由于第一正句子文本的数量可能未达到训练样本的数量,因此还可以对第一正句子文本进行一定的增强处理得到第二正句子文文本,在图2的基础上,下面结合图3继续对步骤S101,获取针对多个预设字段的样本数据的一种可能的实施方法进行说明。
图3为本申请实施例提供的模型训练方法的流程示意图三,如图3所示,获取针对多个预设字段的样本数据,还包括:
S301、调整第一正句子文本中的字段值,得到第二正句子文本。
S302、生成针对多个预设字段的第二正样本数据。
将第一正句子文本中的字段值可以调整为预设字段值,然后确定调整后的第一正句子文本为第二正句子文本,生成针对多个预设字段的第二正样本数据,其中,每个预设字段的第二样本数据包括每个预设字段的字段名、调整后的字段名的字段值以及第二正句子文本,其中,第一正样本数据以三元组表示为<字段名,字段值,第一正句子文本> ,类似地,第二正句子样本以三元组表示为<字段名,调整后的字段名的字段值,第二句子文本>。
其中,针对多个预设字段的样本数据还包括:第二正样本数据,其中,第一正样本数据和第二正样本数据的数量之和,与负样本数据的数量的比值可以为1:1,以保证模型的准确度。
可选地,步骤S301,调整第一正句子文本中的字段值,得到第二正句子文本,包括:
根据其他第一正句子文本中的字段值,调整目标第一正句子文本中的字段值。
确定调整后的第一正句子文本为第二正句子文本。
其中,第一正句子文本的数量为多个,目标第一正句子文本为第一正句子文本中的任意一个或多个句子文本,其他第一正句子文本为除目标第一正句子文本之外的第一正句子文本,根据其他第一正句子文本中的字段值,调整目标第一正句子文本中的字段值,即将其他第一正句子文本中的字段值作为目标第一正句子文本中的字段值,也即,预设字段值为其他第一正句子文本中的字段值。
在一些实施例中,获取针对多个预设字段的第一正样本数据之后,可以得到每个字段名的所有字段值,即{字段名,字段值集合}字典,字段值集合为所有第一正句子文本中的字段值的集合,针对每个字段名,可以从字段值集合中随机选择字段值对目标第一正句子文本中的字段值进行替换,然后确定调整后的目标第一正句子文本为第二正句子文本。
可选地,S301,调整第一正句子文本中的字段值,得到第二正句子文本,包括:从样本文件中以第一正句子文本为基准,截取预设字串长度得到第二正句子文本,第二正句子文本包括第一正句子文本。
也就是说,第二正句子文本的字串长度大于第一正句子文本的字串长度,且第二正句子文本的字串包括第一正句子文本的字串,可以以第一正句子文本为基准,向第一正句子文本之前和/或之后分别截取一定数量的字串得到第二正句子文本,例如,一定数量为6,第一正句子文本为“对员工abc在任职期间对公司所做的贡献表示感谢”,第二正句子文本可以为“xx月x日,对员工abc在任职期间对公司所做的贡献表示感谢”。
下面结合图4对步骤S202,确定样本文件的多个句子文本中第一正句子文本之外的句子文本为负句子文本的一种可能的实施方法进行说明。
图4为本申请实施例提供的模型训练方法的流程示意图四,如图4所示,确定样本文件的多个句子文本中第一正句子文本之外的句子文本为负句子文本,包括:
S401、确定样本文件的多个句子文本中第一正句子文本之外的句子文本为候选负句子文本。
S402、计算候选负句子文本与第一正句子文本的最大公共字串长度。
S403、根据最大公共字串长度,对候选负句子文本进行过滤,得到负句子文本。
其中,这里的第一正句子文本为针对多个预设字段的第一正句子文本,第一正句子文本的数量为多个,确定样本文件的多个句子文本中第一正句子文本之外的句子文本为候选负句子文本,即样本文件的多个句子文本包括第一正句子文本和候选负句子文本,候选负句子文本的数量为多个,然后计算各候选负句子文本与各第一正句子文本的公共字串长度,公共字串为候选负句子文本和各第一正句子文本均包括的字串,确定公共字串长度中的最大值为最大公共字串长度,也即,每个候选负句子文本对应一个最大公共字串长度。
根据最大公共字串长度,对候选负句子文本进行过滤,得到负句子文本,在一可选的实施中,计算候选负句子文本被选中为负句子文本的概率为,其中,为各候选负句子文本的最大公共字串长度,为所有候选负句子文本的最大公共字串长度之和,为候选负句子文本集合,为各候选负句子文本,然后将概率超过预设概率的候选负句子文本作为负句子文本,将未超过预设概率的候选负句子文本过滤掉,其中,可以采用轮盘法选出从候选负句子文本中选出负句子文本。
在本实施例的模型训练方法中,根据最大公共字串长度,对候选负句子文本进行过滤,得到负句子文本,使得阅读理解模型能够学习与正句子文本更相近的负句子文本的特征,使得阅读理解模型的模型训练效果佳,提高了字段值抽取的准确度。
下面结合图5对步骤S104,根据分类识别结果以及序列标注结果进行模型训练,得到阅读理解模型的一种可能的实施方法进行说明。
图5为本申请实施例提供的模型训练方法的流程示意图五,如图5所示,根据分类识别结果以及序列标注结果进行模型训练,得到阅读理解模型,包括:
S501、根据分类识别结果和句子文本的实际分类识别结果,得到分类预测损失。
其中,阅读理解模型包括分类识别网络和序列标注网络,采用分类识别网络对句子文本进行分类识别得到分类识别结果,实际分类识别结果为句子文本实际的分类识别结果,然后根据分类识别结果和实际分类识别结果,计算分类预测损失,其中,分类预测损失用于指示分类识别结果和实际分类识别结果的损失,可选地,分类预测损失为交叉熵损失。
S502、根据字段名的字段值和句子文本,获取句子文本的实际序列标注结果。
S503、根据序列标注结果和实际序列标注结果,得到序列标注损失。
采用序列标注网络对句子文本中的字段值进行序列标注,得到序列标注结果,序列标注结果用于指示句子文本中每个字的标签,实际序列标注结果用于指示句子文本中每个字的实际标签。根据字段名的字段值和句子文本,可以采用BIEOS方法对句子文本中的字段值进行序列标注,得到句子文本的实际序列标注结果。
然后根据序列标注结果和实际序列标注结果计算序列标注损失,序列标注损失用于指示序列标注结果与实际序列标注结果的损失。
S504、根据分类预测损失和序列标注损失进行模型训练,得到阅读理解模型。
在一些实施例中,根据分类预测损失和序列标注损失计算总损失,然后根据总损失进行模型训练得到阅读理解模型,其中,总损失可以为分类预测损失和序列标注损失的和值。
作为一种示例,图6为本申请实施例提供的阅读理解模型的示意图,如图6所示,阅读理解模型包括分类预测网络和序列标注网络,分类预测网络包括编码层、交互层、全连接层,序列标注网络包括编码层、交互层、条件随机场(conditional random fieldalgorithm,CRF)层。
其中,编码层采用预训练语言模型的编码层,预训练语言模型是在BERT模型的基础上,利用研报、上市公司公告、金融财经类新闻、问询函、企业年报等进行预训练得到的。
交互层为Transformer模型中的编码器,层数为2层,multi-head的数量为12,隐藏层大小为720。
模型训练包括如下几个步骤:
第一步、针对多个预设字段的样本数据以三元组表示为<字段名,字段值,句子文本>,给字段值和句子文本添加CLS标记和SEP标记,构建模型输入为CLS+字段名+SEP+句子文本+SEP,作为模型输入的Token Embedding;CLS+字段名+SEP为第一句,句子文本+SEP为第二句,作为构建模型输入的Segment Embedding。其中,CLS标记为开始标记,SEP标记为区分字段值和句子文本的标记。
第二步、将构建CLS+字段名+SEP,句子文本+SEP送入到编码层进行编码,并将编码层输出的编码数据送入交互层,字段名和句子文本在交互层进行交互和学习,并得到交互层输出的编码数据。
第三步、对交互层输出的编码数据进行池化处理(mean_pooling)后,输入全连接层进行分类预测,得到分类预测结果,分类预测结果用于指示句子文本中是否包括字段名的字段值。
第四步、将交互层输出的编码数据输入到CRF层,得到序列标注结果,序列标注结果用于指示句子文本中每个字的标签,也即,根据序列标注结果对输出的每个字的标签进行解码得到字段值。
另外,根据字段值和句子文本采用序列标注BIEOS方案构建模型训练的目标,即根据字段名的字段值和句子文本,获取句子文本的实际序列标注结果,然后根据实际序列标注结果和该序列标注结果确定序列标注损失(实体识别损失)。
第五步、损失函数为分类预测损失和实体识别损失的和,分类预测损失可以为交叉熵损失,实体识别损失为CRF损失,也即根据两个任务进行模型联合训练。
下面结合几个具体实施例对本申请提供的信息抽取方法进行详细说明。
图7为本申请实施例提供的信息抽取方法的流程示意图一,本实施例的执行主体可以为信息抽取设备,如终端或者服务器。
如图7所示,该方法包括:
S601、根据训练得到的阅读理解模型对待抽取句子文本进行处理,得到待抽取句子文本中多个预设字段分别对应的字段值。
待抽取句子文本可以为金融公告中的句子文本,阅读理解模型为上述方法实施例训练得到的,将待抽取句子文本作为模型输入,根据训练得到的阅读理解模型对待抽取句子文本进行处理,得到待抽取句子文本中多个预设字段分别对应的字段值,其中,多个预设字段为存在关联关系的字段。
在一些实施例中,阅读理解模型包括分类预测网络和序列标注网络,将待抽取句子文本作为模型输入,根据分类预测网络对待抽取句子进行分类预测,得到待抽取句子文本的分类预测结果,若该分类预测结果指示待抽取句子文本中包括每个预测字段对应的字段值,则采用序列标注网络对待抽取句子文本进行序列标注,得到序列标注结果,该序列标注结果用于指示待抽取句子文本中每个字的标签,然后对每个字的标签进行解码即可得到待抽取句子文本中多个预设字段分别对应的字段值。
S602、根据多个预设字段的关联关系,对多个预设字段对应的字段值进行关联,得到结构化数据。
根据多个预设字段的关联关系,对多个预设字段对应的字段值进行关联,得到结构化数据,结构化数据中包括多个预设字段以及多个预设字段分别对应的字段值,其中,多个预设字段的关联关系可以为多个预设字段的依赖关系,作为一种示例,辞职日期、离职高管职务、离职原因依赖于高管姓名,而高管姓名依赖于公司名,这样将被依赖的字段名和对应的字段值排列在第一位,将依赖的字段名和对应的字段值依次排列,得到结构化数据,即{公司名:A,高管姓名:a,辞职原因:工作原因,离职高管职位:董事,辞职日期:x年y月z日},其中,多个预设字段分别为:离职高管姓名、公司名、辞职日期、离职高管职务、离职原因,对应的字段值分别为A、a、工作原因、董事、x年y月z日。
在本实施例的信息抽取方法中,采用阅读理解模型对待抽取句子文本进行处理得到多个预设字段分别对应的字段值,并对字段值进行关联,得到结构化数据。不仅能抽取多个预设字段分别对应的字段值,还可以实现字段值的相互关联,得到结构化数据。
下面结合图8对步骤S602,根据多个预设字段的关联关系,对多个预设字段对应的字段值进行关联,得到结构化数据的一种可能的实施方法进行说明。
图8为本申请实施例提供的信息抽取方法的流程示意图二,如图8所示,根据多个预设字段的关联关系,对多个预设字段对应的字段值进行关联,得到结构化数据,包括:
S701、根据多个预设字段的关联关系,生成字段关联关系树。
预设的字段配置文件用于指示多个预设字段的关联关系,从字段配置文件获取多个预设字段的关联关系,根据多个预设字段的关联关系可以生成字段关联关系树,字段关联关系树中包括多个预设字段构成的父节点和子节点,其中,在字段关联关系树中被依赖的预设字段为父节点,有依赖的预设字段为子节点。
图9为本申请实施例提供的字段关联关系树的示意图一,如图9所示,新添加一个root节点作为字段关联关系树的根节点,root节点指向没有依赖字段的父节点,采用深度优先遍历的方式构建字段关联关系树,即filed_1、filed_2、filed_3,其中,filed_8需要依赖filed_4, filed_4需要依赖filed_1, filed_5需要依赖filed_1, filed_6需要依赖filed_1, filed_9需要依赖filed_7, filed_7需要依赖filed_2,filed_3没有子节点。
S702、将父节点对应的字段值和子节点对应的字段值进行关联,得到结构化数据。
将父节点对应的字段值和子节点对应的字段值进行关联得到结构化数据,结构化数据中包括父节点对应的预设字段以及预设字段分别对应的字段值、子节点对应的预设字段以及预设字段分别对应的字段值。
在一些实施例中,在同一父节点下兄弟节点从左到右依次处理,处理结果和父节点的字段值关联后作为父节点的字段值,然后处理该父节点的下一个兄弟节点,参见图9,结构化数据可以为{ {filed_1:1,{filed_4:2,filed_8:3},filed_5:4,filed_6:5},{filed_2:6,{filed_7:7,filed_9:8}},filed_3:9},其中,多个预设字段分别为:filed_1至filed_9,对应的字段值分别为:1至9。
步骤S701,将父节点对应的字段值和子节点对应的字段值进行关联,得到结构化数据,包括:
判断父节点对应的字段值的数量与子节点对应的字段值的数量是否相等;若父节点对应的字段值的数量与子节点对应的字段值的数量相等,则依次将父节点对应的字段值和子节点对应的字段值进行关联,得到结构化数据。
步骤S701,将父节点对应的字段值和子节点对应的字段值进行关联,得到结构化数据,还包括:
若父节点对应的字段值的数量与子节点对应的字段值的数量不相等,则获取父节点对应的字段值与子节点对应的字段值在待抽取句子文本中的字串距离,根据字串距离,将父节点对应的字段值和子节点对应的字段值进行关联,得到结构化数据。
判断字段关联关系树中每个父节点对应的字段值的数量与子节点对应的字段值的数量是否相等,若相等,则依次将父节点对应的字段值和子节点对应的字段值进行关联,得到结构化数据,若不相等,则获取父节点对应的字段值与子节点对应的字段值在待抽取文件中的字串距离,待抽取文件可以为金融公告文件,字串距离为待抽取文件中父节点对应的字段值与子节点对应的字段值相差的字串的数量。
依据字串距离近的优先关联的原则,将父节点对应的字段值与字串距离最近的子节点对应的字段值优先关联,然后再将父节点对应的字段值与字串距离次之的子节点对应的字段值进行关联,依次类推,以得到结构化数据。
图10为本申请实施例提供的字段关联关系树的示意图二,如图10所示,该字段关联关系树中的多个预设字段分别为高管姓名、公司名、辞职日期、离职高管职务、离职原因,辞职日期、离职高管职务、离职原因依赖于高管姓名,因此辞职日期、离职高管职务、离职原因为高管姓名的子节点,高管姓名为辞职日期、离职高管职务、离职原因的父节点,并且高管姓名依赖于公司名,因此高管姓名为公司名的子节点,公司名为高管姓名的父节点。
若待抽取句子文本中多个预设字段分别对应的字段值为:
公司名:A;
高管姓名:a,b,c,d;
辞职原因:工作原因,工作原因,工作原因,工作原因;
离职高管职位:董事,董事,监事,职工监事;
辞职日期:x年y月z日,x年y月z日,x年y月z日,x年y月z日。
在该示例中,高管姓名与辞职原因、离职高管职位、辞职日期对应的字段值的数量均为4,则依次将父节点对应的字段值和子节点对应的字段值进行关联,公司名与高管姓名的数量不同,获取a,b,c,d分别与A在待抽取文件中的字串距离,若a与A的字串距离最近,然后依次是b,c,d,则优先将a与A关联,然后依次将b与A关联,c与A关联,d与A关联,得到的结构化数据如下:
[{公司名:A,高管姓名:a,辞职原因:工作原因,离职高管职位:董事,辞职日期:x年y月z日},
{公司名:A,高管姓名:b,辞职原因:工作原因,离职高管职位:董事,辞职日期:x年y月z日},
{公司名:A,高管姓名:c,辞职原因:工作原因,离职高管职位:监事,辞职日期:x年y月z日},
{公司名:A,高管姓名:d,辞职原因:工作原因,离职高管职位:职工监事,辞职日期:x年y月z日}]
在本实施例的信息抽取方法中,通过构建字段关联关系树对字段值进行相互关联,直观且易于理解。
图11为本申请实施例提供的信息抽取方法的流程示意图三,如图11所示,该方法还包括:
S801、对针对每个预设字段的样本数据中的句子文本进行分词,得到多个分词。
S802、计算多个分词的重要性分值,并根据重要性分值,从多个分词中确定每个预设字段对应的关键词集合。
针对每个预设字段的样本数据包括每个预设字段的字段名、字段名的字段值以及句子文本,对该句子文本进行分词,得到该句子文本的多个分词,然后计算多个分词的重要性分值,其中,该重要性分值可以为词频-逆文本频率指数(term frequency–inversedocument frequency,TF-IDF)值,采用TF-IDF算法计算句子文本的多个分词的TF-IDF值,并将多个分词的重要性分值,从多个分词中确定每个预设字段对应的关键词集合,其中,可以将重要性分值超过预设分值的分词确定为每个预设字段对应的关键词,进而根据确定出的多个关键词组成关键词集合。
采用TF-IDF算法计算分词的TF-IDF时,首先确定每个分词在每个预设字段的句子文本中出现的次数为TF值,然后确定每个预设字段的句子文本中出现分词的句子文本的数量与每个预设字段的句子文本的数量的比值为 IDF值,将TF值与IDF值的乘积作为分词的TF-IDF值。
需要说明的是,在计算TF-IDF值时,靠近字段值的分词更重要,所以最靠近字段值的分词的权重可以设为3(作为最靠近字段值的分词的TF-IDF值的权重),次靠近字段值的分词的权重可以设为2作为(作为次靠近字段值的分词的TF-IDF值的权重),其他分词的权要可以设为1(作为其他分词的TF-IDF值的权重),其中,最靠近字段值的分词可以为字段值左右各5个分词,次靠近字段值的分词可以为字段值左右各5个分词到左右各8个分词之间的分词。
在一些实施例中,根据TF-IDF值进行从大到小的排序,将排名靠前n位的分词作为每个预设字段的关键词,n的取值可以根据实际情况选取,例如可以为5,进而得到每个预设字段的关键词字典,即{预设字段的字段名,关键词集合}。
S803、根据关键词集合,对待抽取文件的候选待抽取句子文本进行筛选。
S804、从筛选后的候选待抽取句子文本中确定待抽取句子文本。
由于并非对待抽取文件中的每个句子文本进行抽取处理,因此,还可以根据关键词集合,对待抽取文件的候选待抽取句子文本进行筛选,候选待抽取句子文本为根据句子结束符对待抽取文件进行分句得到的句子文本。
在一些实施例中,根据{预设字段的字段名,关键词集合}对候选待抽取句子文本进行筛选,筛选出包括关键词集合中关键词的句子文本,并将包括关键词集合中关键词的句子文本确定为筛选后的候选待抽取句子文本,然后从筛选后的候选待抽取句子文本中确定待抽取句子文本,其中,待抽取句子文本可以为筛选后的候选待抽取句子文本中随机选择的一个或多个句子文本。
可选地,S804,从筛选后的候选待抽取句子文本中确定待抽取句子文本,包括:
根据多个分词的重要性分值,得到句子文本的句子向量;根据句子向量,对句子文本进行聚类处理,得到聚类句子集合;计算候选待抽取句子文本与聚类句子集合中每个类别的句子文本之间的最大公共字串长度;根据最大公共字串长度,从候选待抽取句子文本中确定待抽取句子文本。
其中,针对每个预设字段的样本数据中的句子文本的数量为多个。根据句子文本中多个分词的重要性分值,确定句子文本的句子向量,句子文本的句子向量由句子文本中多个分词的重要性分值组成,也即将每个句子文本转换为向量。
然后采用聚类算法(Kmeans++),根据句子向量对句子文本进行聚类处理,得到聚类句子集合,聚类句子集合中包括每个类别对应的一个句子文本,例如,类别数量为6,对句子文本进行聚类,每个类别对应有多个句子文本,随机从每个类别对应的多个句子文本中选择一个句子文本,组成聚类句子集合,即{预设字段的字段名,聚类句子集合}字典。
然后计算候选待抽取句子文本与聚类句子集合中每个类别的句子文本之间的最大公共字串长度,首先计算各候选待抽取句子文本分别与聚类句子集合中每个类别的句子文本的公共字串长度(即候选待抽取句子文本到距离句子集合中每个类别的句子文本的距离),然后确定公共字串长度中的最大值为最大公共字串长度,其中,候选待抽取句子文本的数量为多个。
其中,各候选待抽取句子文本对应一个最大公共字串长度,对最大公共字串长度进行降序排序,取前m个候选待抽取句子文本作为待抽取句子文本,m的取值可以根据实际情况选取,例如可以为30。
图12为本申请实施例提供的模型训练装置的结构示意图,该装置可以集成在模型训练设备中。如图12所示,该装置包括:
获取模块901,用于获取针对多个预设字段的样本数据,针对每个预设字段的样本数据包括所述每个预设字段的字段名、所述字段名的字段值以及句子文本,其中,所述多个预设字段为存在关联关系的字段;
识别模块902,用于对所述句子文本进行分类识别,得到分类识别结果,所述分类识别结果用于指示所述句子文本中是否包括所述每个预设字段对应的字段值;
标注模块903,用于对所述句子文本中的字段值进行序列标注,得到序列标注结果;
训练模块904,用于根据所述分类识别结果以及所述序列标注结果进行模型训练,得到阅读理解模型。
可选地,获取模块901,具体用于:
获取针对所述多个预设字段的第一正样本数据,所述每个预设字段的第一正样本数据包括所述每个预设字段的字段名、所述字段名的字段值以及所述字段值所在的第一正句子文本;
确定样本文件的多个句子文本中所述第一正句子文本之外的句子文本为负句子文本;
生成针对所述多个预设字段的负样本数据,所述每个预设字段的负样本数据包括所述每个预设字段的字段名、所述字段名的预设空值以及负句子文本,针对所述多个预设字段的样本数据包括所述第一正样本数据和所述负样本数据。
可选地,获取模块901,具体用于:
调整所述第一正句子文本中的字段值,得到第二正句子文本;
生成针对所述多个预设字段的第二正样本数据,所述每个预设字段的第二样本数据包括所述每个预设字段的字段名、调整后的所述字段名的字段值以及第二正句子文本,所述针对多个预设字段的样本数据还包括:所述第二正样本数据。
可选地,获取模块901,具体用于:
根据其他第一正句子文本中的字段值,调整目标第一正句子文本中的字段值;
确定调整后的目标第一正句子文本为所述第二正句子文本。
可选地,获取模块901,具体用于:
确定样本文件的多个句子文本中所述第一正句子文本之外的句子文本为候选负句子文本;
计算所述候选负句子文本与所述第一正句子文本的最大公共字串长度;
根据所述最大公共字串长度,对所述候选负句子文本进行过滤,得到所述负句子文本。
可选地,训练模块904,具体用于:
根据所述分类识别结果和所述句子文本的实际分类识别结果,得到分类预测损失;
根据所述字段名的字段值和所述句子文本,获取所述句子文本的实际序列标注结果;
根据所述序列标注结果和所述实际序列标注结果,得到序列标注损失;
根据所述分类预测损失和所述序列标注损失进行模型训练,得到所述阅读理解模型。
本实施例的模型训练装置,实现过程和实现原理参见上述模型训练方法,在此不再赘述。
图13为本申请实施例提供的信息抽取装置的结构示意图,该装置可以集成在信息抽取装置中。如图13所示,该装置包括:
处理模块1001,用于训练得到的阅读理解模型对待抽取句子文本进行处理,得到所述待抽取句子文本中所述多个预设字段分别对应的字段值;
关联模块1002,用于根据所述多个预设字段的关联关系,对所述多个预设字段对应的字段值进行关联,得到结构化数据,所述结构化数据中包括所述多个预设字段以及所述多个预设字段分别对应的字段值。
可选地,关联模块1002,具体用于:
根据所述多个预设字段的关联关系,生成字段关联关系树,所述字段关联关系树中包括所述多个预设字段构成的父节点和子节点;
将所述父节点对应的字段值和所述子节点对应的字段值进行关联,得到所述结构化数据。
可选地,关联模块1002,具体用于:
判断所述父节点对应的字段值的数量与所述子节点对应的字段值的数量是否相等;
若所述父节点对应的字段值的数量与所述子节点对应的字段值的数量相等,则依次将所述父节点对应的字段值和所述子节点对应的字段值进行关联,得到所述结构化数据。
可选地,关联模块1002,具体用于:
若所述父节点对应的字段值的数量与所述子节点对应的字段值的数量不相等,则获取所述父节点对应的字段值与所述子节点对应的字段值在待抽取文件中的字串距离;
根据所述字串距离,将所述父节点对应的字段值和所述子节点对应的字段值进行关联,得到所述结构化数据。
可选地,处理模块1001,具体用于:
对针对每个预设字段的样本数据中的句子文本进行分词,得到多个分词;
计算所述多个分词的重要性分值,并根据所述重要性分值,从所述多个分词中确定每个预设字段对应的关键词集合;
根据所述关键词集合,对待抽取文件的候选待抽取句子文本进行筛选;
从筛选后的候选待抽取句子文本中确定所述待抽取句子文本。
可选地,处理模块1001,具体用于:
根据所述多个分词的重要性分值,得到所述句子文本的句子向量;
根据所述句子向量,对所述句子文本进行聚类处理,得到聚类句子集合;
计算所述候选待抽取句子文本与所述聚类句子集合中每个类别的句子文本之间的最大公共字串长度;
根据所述最大公共字串长度,从所述候选待抽取句子文本中确定所述待抽取句子文本。
本实施例的信息抽取装置,实现过程和实现原理参见上述信息抽取方法,在此不再赘述。
图14为本申请实施例提供的模型训练设备的结构示意图,该设备包括:处理器1101、存储器1102和总线1103,所述存储器1102存储有所述处理器1101可执行的计算机程序,当模型训练设备运行时,所述处理器1101与所述存储器1102之间通过总线1103通信,所述处理器1101执行所述计算机程序,以执行上述模型训练方法。
图15为本申请实施例提供的信息抽取设备的结构示意图,该设备包括:处理器1201、存储器1202和总线1203,所述存储器1202存储有所述处理器1201可执行的计算机程序,当模型训练设备运行时,所述处理器1201与所述存储器1202之间通过总线1203通信,所述处理器1201执行所述计算机程序,以执行上述信息抽取方法。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。
Claims (17)
1.一种模型训练方法,其特征在于,包括:
获取针对多个预设字段的样本数据,针对每个预设字段的样本数据包括所述每个预设字段的字段名、所述字段名的字段值以及句子文本,其中,所述多个预设字段为存在关联关系的字段;
对所述句子文本进行分类识别,得到分类识别结果,所述分类识别结果用于指示所述句子文本中是否包括所述每个预设字段对应的字段值;
对所述句子文本中的字段值进行序列标注,得到序列标注结果;
根据所述分类识别结果以及所述序列标注结果进行模型训练,得到阅读理解模型。
2.根据权利要求1所述的方法,其特征在于,所述获取针对多个预设字段的样本数据,包括:
获取针对所述多个预设字段的第一正样本数据,所述每个预设字段的第一正样本数据包括所述每个预设字段的字段名、所述字段名的字段值以及所述字段值所在的第一正句子文本;
确定样本文件的多个句子文本中所述第一正句子文本之外的句子文本为负句子文本;
生成针对所述多个预设字段的负样本数据,所述每个预设字段的负样本数据包括所述每个预设字段的字段名、所述字段名的预设空值以及负句子文本,针对所述多个预设字段的样本数据包括所述第一正样本数据和所述负样本数据。
3.根据权利要求2所述的方法,其特征在于,所述获取针对多个预设字段的样本数据,还包括:
调整所述第一正句子文本中的字段值,得到第二正句子文本;
生成针对所述多个预设字段的第二正样本数据,所述每个预设字段的第二样本数据包括所述每个预设字段的字段名、调整后的所述字段名的字段值以及第二正句子文本,所述针对多个预设字段的样本数据还包括:所述第二正样本数据。
4.根据权利要求3所述的方法,其特征在于,所述调整所述第一正句子文本中的字段值,得到第二正句子文本,包括:
根据其他第一正句子文本中的字段值,调整目标第一正句子文本中的字段值;
确定调整后的目标第一正句子文本为所述第二正句子文本。
5.根据权利要求2所述的方法,其特征在于,所述确定样本文件的多个句子文本中所述第一正句子文本之外的句子文本为负句子文本,包括:
确定样本文件的多个句子文本中所述第一正句子文本之外的句子文本为候选负句子文本;
计算所述候选负句子文本与所述第一正句子文本的最大公共字串长度;
根据所述最大公共字串长度,对所述候选负句子文本进行过滤,得到所述负句子文本。
6.根据权利要求1所述的方法,其特征在于,所述根据所述分类识别结果以及所述序列标注结果进行模型训练,得到阅读理解模型,包括:
根据所述分类识别结果和所述句子文本的实际分类识别结果,得到分类预测损失;
根据所述字段名的字段值和所述句子文本,获取所述句子文本的实际序列标注结果;
根据所述序列标注结果和所述实际序列标注结果,得到序列标注损失;
根据所述分类预测损失和所述序列标注损失进行模型训练,得到所述阅读理解模型。
7.一种信息抽取方法,其特征在于,包括:
根据权利要求1至6任一项训练得到的阅读理解模型对待抽取句子文本进行处理,得到所述待抽取句子文本中所述多个预设字段分别对应的字段值;
根据所述多个预设字段的关联关系,对所述多个预设字段对应的字段值进行关联,得到结构化数据,所述结构化数据中包括所述多个预设字段以及所述多个预设字段分别对应的字段值。
8.根据权利要求7所述的方法,其特征在于,所述根据所述多个预设字段的关联关系,对所述多个预设字段对应的字段值进行关联,得到结构化数据,包括:
根据所述多个预设字段的关联关系,生成字段关联关系树,所述字段关联关系树中包括所述多个预设字段构成的父节点和子节点;
将所述父节点对应的字段值和所述子节点对应的字段值进行关联,得到所述结构化数据。
9.根据权利要求8所述的方法,其特征在于,所述将所述父节点对应的字段值和所述子节点对应的字段值进行关联,得到所述结构化数据,包括:
判断所述父节点对应的字段值的数量与所述子节点对应的字段值的数量是否相等;
若所述父节点对应的字段值的数量与所述子节点对应的字段值的数量相等,则依次将所述父节点对应的字段值和所述子节点对应的字段值进行关联,得到所述结构化数据。
10.根据权利要求9所述的方法,其特征在于,所述将所述父节点对应的字段值和所述子节点对应的字段值进行关联,得到所述结构化数据,还包括:
若所述父节点对应的字段值的数量与所述子节点对应的字段值的数量不相等,则获取所述父节点对应的字段值与所述子节点对应的字段值在待抽取文件中的字串距离;
根据所述字串距离,将所述父节点对应的字段值和所述子节点对应的字段值进行关联,得到所述结构化数据。
11.根据权利要求7所述的方法,其特征在于,所述方法还包括:
对针对每个预设字段的样本数据中的句子文本进行分词,得到多个分词;
计算所述多个分词的重要性分值,并根据所述重要性分值,从所述多个分词中确定每个预设字段对应的关键词集合;
根据所述关键词集合,对待抽取文件的候选待抽取句子文本进行筛选;
从筛选后的候选待抽取句子文本中确定所述待抽取句子文本。
12.根据权利要求11所述的方法,其特征在于,所述从筛选后的候选待抽取句子文本中确定所述待抽取句子文本,包括:
根据所述多个分词的重要性分值,得到所述句子文本的句子向量;
根据所述句子向量,对所述句子文本进行聚类处理,得到聚类句子集合;
计算所述候选待抽取句子文本与所述聚类句子集合中每个类别的句子文本之间的最大公共字串长度;
根据所述最大公共字串长度,从所述候选待抽取句子文本中确定所述待抽取句子文本。
13.一种模型训练装置,其特征在于,包括:
获取模块,用于获取针对多个预设字段的样本数据,针对每个预设字段的样本数据包括所述每个预设字段的字段名、所述字段名的字段值以及句子文本,其中,所述多个预设字段为存在关联关系的字段;
识别模块,用于对所述句子文本进行分类识别,得到分类识别结果,所述分类识别结果用于指示所述句子文本中是否包括所述每个预设字段对应的字段值;
标注模块,用于对所述句子文本中的字段值进行序列标注,得到序列标注结果;
训练模块,用于根据所述分类识别结果以及所述序列标注结果进行模型训练,得到阅读理解模型。
14.一种信息抽取装置,其特征在于,包括:
处理模块,用于根据权利要求1至6任一项训练得到的阅读理解模型对待抽取句子文本进行处理,得到所述待抽取句子文本中所述多个预设字段分别对应的字段值;
关联模块,用于根据所述多个预设字段的关联关系,对所述多个预设字段对应的字段值进行关联,得到结构化数据,所述结构化数据中包括所述多个预设字段以及所述多个预设字段分别对应的字段值。
15.一种模型训练设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的计算机程序,当模型训练设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述计算机程序,以执行权利要求1至6任一项所述的模型训练方法。
16.一种信息抽取设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的计算机程序,当模型训练设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述计算机程序,以执行权利要求7至12任一项所述的信息抽取方法。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行权利要求1至12任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210115404.XA CN114153978A (zh) | 2022-02-07 | 2022-02-07 | 模型训练方法、信息抽取方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210115404.XA CN114153978A (zh) | 2022-02-07 | 2022-02-07 | 模型训练方法、信息抽取方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114153978A true CN114153978A (zh) | 2022-03-08 |
Family
ID=80449929
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210115404.XA Pending CN114153978A (zh) | 2022-02-07 | 2022-02-07 | 模型训练方法、信息抽取方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114153978A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115033717A (zh) * | 2022-08-12 | 2022-09-09 | 杭州恒生聚源信息技术有限公司 | 三元组抽取模型训练方法、三元组抽取方法、装置及设备 |
CN115658994A (zh) * | 2022-11-04 | 2023-01-31 | 南京擎盾信息科技有限公司 | 舆情观点报告生成方法、装置、存储介质及电子装置 |
CN117423116A (zh) * | 2023-12-18 | 2024-01-19 | 杭州恒生聚源信息技术有限公司 | 一种文本检测模型的训练方法、文本检测方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070041041A1 (en) * | 2004-12-08 | 2007-02-22 | Werner Engbrocks | Method and computer program product for conversion of an input document data stream with one or more documents into a structured data file, and computer program product as well as method for generation of a rule set for such a method |
CN109766524A (zh) * | 2018-12-28 | 2019-05-17 | 重庆邮电大学 | 一种并购重组类公告信息抽取方法及系统 |
CN113051887A (zh) * | 2019-12-26 | 2021-06-29 | 深圳市北科瑞声科技股份有限公司 | 一种公告信息元素抽取方法、系统及装置 |
-
2022
- 2022-02-07 CN CN202210115404.XA patent/CN114153978A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070041041A1 (en) * | 2004-12-08 | 2007-02-22 | Werner Engbrocks | Method and computer program product for conversion of an input document data stream with one or more documents into a structured data file, and computer program product as well as method for generation of a rule set for such a method |
CN109766524A (zh) * | 2018-12-28 | 2019-05-17 | 重庆邮电大学 | 一种并购重组类公告信息抽取方法及系统 |
CN113051887A (zh) * | 2019-12-26 | 2021-06-29 | 深圳市北科瑞声科技股份有限公司 | 一种公告信息元素抽取方法、系统及装置 |
Non-Patent Citations (2)
Title |
---|
李胜: "《并购重组类公告的信息抽取系统研究与实现》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
黄胜等: "基于文档结构与深度学习的金融公告信息抽取", 《计算机工程与设计》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115033717A (zh) * | 2022-08-12 | 2022-09-09 | 杭州恒生聚源信息技术有限公司 | 三元组抽取模型训练方法、三元组抽取方法、装置及设备 |
CN115033717B (zh) * | 2022-08-12 | 2022-11-08 | 杭州恒生聚源信息技术有限公司 | 三元组抽取模型训练方法、三元组抽取方法、装置及设备 |
CN115658994A (zh) * | 2022-11-04 | 2023-01-31 | 南京擎盾信息科技有限公司 | 舆情观点报告生成方法、装置、存储介质及电子装置 |
CN117423116A (zh) * | 2023-12-18 | 2024-01-19 | 杭州恒生聚源信息技术有限公司 | 一种文本检测模型的训练方法、文本检测方法及装置 |
CN117423116B (zh) * | 2023-12-18 | 2024-03-22 | 杭州恒生聚源信息技术有限公司 | 一种文本检测模型的训练方法、文本检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109189942B (zh) | 一种专利数据知识图谱的构建方法及装置 | |
Neculoiu et al. | Learning text similarity with siamese recurrent networks | |
CN111723215B (zh) | 基于文本挖掘的生物技术信息知识图谱构建装置与方法 | |
CN110968699A (zh) | 一种基于事理推荐的逻辑图谱构建及预警方法和装置 | |
CN113806563B (zh) | 面向多源异构建筑人文史料的建筑师知识图谱构建方法 | |
CN114153978A (zh) | 模型训练方法、信息抽取方法、装置、设备及存储介质 | |
CN112084381A (zh) | 一种事件抽取方法、系统、存储介质以及设备 | |
CN112989841A (zh) | 一种用于突发事件新闻识别与分类的半监督学习方法 | |
CN108319583B (zh) | 从中文语料库提取知识的方法与系统 | |
CN116151132B (zh) | 一种编程学习场景的智能代码补全方法、系统及储存介质 | |
CN110008473B (zh) | 一种基于迭代方法的医疗文本命名实体识别标注方法 | |
CN111191051B (zh) | 一种基于中文分词技术的应急知识图谱的构建方法及系统 | |
CN111709225B (zh) | 一种事件因果关系判别方法、装置和计算机可读存储介质 | |
CN108763192B (zh) | 用于文本处理的实体关系抽取方法及装置 | |
CN111090994A (zh) | 一种面向中文网络论坛文本的事件地点归属省份识别方法 | |
CN111178080B (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN115292450A (zh) | 一种基于信息抽取的数据分类分级领域知识库构建方法 | |
CN115600605A (zh) | 一种中文实体关系联合抽取方法、系统、设备及存储介质 | |
CN117034948B (zh) | 基于多特征自适应融合的段落识别方法、系统及存储介质 | |
CN110188340B (zh) | 一种研报文本实体名词自动识别方法 | |
CN110472243B (zh) | 一种中文拼写检查方法 | |
CN114611489A (zh) | 文本逻辑条件抽取ai模型构建方法、抽取方法及系统 | |
CN114265931A (zh) | 基于大数据文本挖掘的消费者政策感知分析方法及系统 | |
CN113127607A (zh) | 文本数据标注方法、装置、电子设备及可读存储介质 | |
CN113962196A (zh) | 一种简历处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220308 |