CN116108144B

CN116108144B - 信息抽取方法及装置

Info

Publication number: CN116108144B
Application number: CN202310371244.XA
Authority: CN
Inventors: 王炯亮; 娄东方; 刘亚洲; 陈哲; 陈佼
Original assignee: Hundsun Technologies Inc
Current assignee: Hundsun Technologies Inc
Priority date: 2023-04-10
Filing date: 2023-04-10
Publication date: 2023-07-25
Anticipated expiration: 2043-04-10
Also published as: CN116108144A

Abstract

本申请提供信息抽取方法及装置，其中所述信息抽取方法包括：接收待抽取文档，并基于至少一个待抽取字段在所述待抽取文档中，确定待抽取段落；将所述待抽取段落输入信息抽取模型中，获得所述至少一个待抽取字段对应的信息抽取结果；其中，所述信息抽取模型包括不同字段抽取任务对应的信息抽取单元，各个信息抽取单元共享同一编码层，所述信息抽取单元包括实体抽取单元、关系抽取单元、长描述抽取单元中的至少两项；该种方式不仅能够执行针对多种待抽取字段任务的复杂场景，通过包含多个信息抽取单元的信息抽取模型来实现多任务，还能够减少该模型训练时数据标注量以及降低模型管理与部署成本，提高对文档中结构化信息的抽取效率。

Description

信息抽取方法及装置

技术领域

本申请涉及计算机技术领域，特别涉及信息抽取方法。本申请同时涉及信息抽取装置，一种计算设备，以及一种计算机可读存储介质。

背景技术

信息抽取（Information Extraction），是一项从自然语言文本中抽取出特定的字段，重构并转化成结构化信息的技术，这些字段通常包括实体具体值、长描述和关系（由多个具体值构成的元组）。在文档信息抽取场景中，目前大多数是针对不同类型字段构建不同的信息抽取模型，各个信息抽取模型之间任务信息未共享，每个单独的信息抽取模型无法覆盖多种字段类型的信息抽取场景，导致文档信息抽取效果通常较差，也影响了结构化信息的抽取效率。

发明内容

有鉴于此，本申请实施例提供了信息抽取方法。本申请同时涉及信息抽取装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的上述问题。

根据本申请实施例的第一方面，提供了一种信息抽取方法，包括：

接收待抽取文档，并基于至少一个待抽取字段在所述待抽取文档中，确定待抽取段落；

将所述待抽取段落输入信息抽取模型中，获得所述至少一个待抽取字段对应的信息抽取结果；

其中，所述信息抽取模型包括不同字段抽取任务对应的信息抽取单元，各个信息抽取单元共享同一编码层，所述信息抽取单元包括实体抽取单元、关系抽取单元、长描述抽取单元中的至少两项。

根据本申请实施例的第二方面，提供了一种信息抽取装置，包括：

文档接收模块，被配置为接收待抽取文档，并基于至少一个待抽取字段在所述待抽取文档中，确定待抽取段落；

信息抽取模块，被配置为将所述待抽取段落输入信息抽取模型中，获得所述至少一个待抽取字段对应的信息抽取结果；

根据本申请实施例的第三方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述计算机指令时实现所述信息抽取方法的步骤。

根据本申请实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机指令，该计算机指令被处理器执行时实现所述信息抽取方法的步骤。

本申请提供的信息抽取方法，接收待抽取文档，并基于至少一个待抽取字段在所述待抽取文档中，确定待抽取段落；将所述待抽取段落输入信息抽取模型中，获得所述至少一个待抽取字段对应的信息抽取结果；其中，所述信息抽取模型包括不同字段抽取任务对应的信息抽取单元，各个信息抽取单元共享同一编码层，所述信息抽取单元包括实体抽取单元、关系抽取单元、长描述抽取单元中的至少两项。

本申请一实施例，通过至少一个待抽取字段在待抽取文档中，确定待抽取段落，并将该待抽取段落输入至信息抽取模型中，并获得至少一个待抽取字段对应的信息抽取结果，需要说明的是，信息抽取模型中包括不同字段抽取任务对应的信息抽取单元，其中，信息抽取单元包括实体抽取单元、关系抽取单元、长描述抽取单元中的至少两项，同时，各个字段抽取任务共享同一底层编码，这种方式，不仅能够执行针对多种待抽取字段任务的复杂场景，通过包含多个信息抽取单元的信息抽取模型来实现多任务，还能够减少该模型训练时数据标注量以及降低模型管理与部署成本，提高对文档中结构化信息的抽取效率。

附图说明

图1是本申请一实施例提供的一种信息抽取方法的场景示意图；

图2是本申请一实施例提供的一种信息抽取方法的流程图；

图3是本申请一实施例提供的一种信息抽取方法的信息抽取模型的结构示意图；

图4是本申请一实施例提供的一种信息抽取方法的信息抽取模型训练机制示意图；

图5是本申请一实施例提供的一种应用于长文档的信息抽取方法的处理流程图；

图6是本申请一实施例提供的一种应用于长文档的信息抽取方法的训练过程流程图；

图7是本申请一实施例提供的一种信息抽取模型训练方法的流程图；

图8是本申请一实施例提供的一种信息抽取装置的结构示意图；

图9是本申请一实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本申请一个或多个实施例涉及的名词术语进行解释。

信息抽取（Information Extraction）：是一项从自然语言文本中抽取出特定的事实、重构并转化成结构化信息的技术，这些事实通常包括具体值、长描述和关系（由多个具体值构成的元组）。

Bi-LSTM：一种双向长短期记忆神经网络，该模型分为2个独立的LSTM，输入序列分别以正序和逆序输入至2个LSTM神经网络进行特征提取，将2个输出向量（即提取后的特征向量）进行拼接后形成的词向量作为该词的最终特征表达。

CRF(Conditional Random Field)：称作条件随机场，主要用于序列标注问题，如：词性标注、命名实体识别等。其作用是通过构建转移矩阵完成每个字符对应的标签转移关系进行建模。一个序列对应的分数由发射分数(Bi-LSTM提供)和转移分数(CRF提供)组成。

NER(Named Entity Recognition)：又称作专名识别，是自然语言处理中的一项基础任务，应用范围非常广泛。命名实体一般指的是文本中具有特定意义或者指代性强的实体，通常包括人名、地名、组织机构名、日期时间、专有名词等。NER系统就是从非结构化的输入文本中抽取出上述实体，并且可以按照业务需求识别出更多类别的实体。

MRC(Machine Reading Comprehension)：机器阅读理解，MRC的任务是让机器根据给定的内容回答问题，即能够预测答案在上下文中的开始和结束位置。

RE(Relation Extraction)：关系抽取，从文本(非结构化)中抽取实体关系三元组(SPO)，S(subject)代表主体，P(predicate)代表关系，O(object)代表客体。

在长文档信息抽取场景中，具有以下难点：（1）文档篇幅长(上百页)，待抽取字段取值离散分布在文档各个章节；（2）待抽取字段数目多(上百个)、字段类型多(实体、长描述、关系)。主流的方法是分别使用多个模型独立建模，即将实体抽取和长描述抽取均建模成序列标注任务或者生成式任务，将关系抽取建模成分类任务，每个任务按照各自给定的标注数据独立训练模型，最终得到2个模型。

但该方法存在以下问题：（1）数据标注需求高。由于2个模型独立训练，每个任务的底层参数需要重新学习，需要足够多的标注数据，抽取模型效果才会有提升。（2）模型管理难、部署成本高。训练阶段，需要管理多个训练任务，每个任务均需从多个模型里挑选最优模型；推理/部署阶段，需要同时部署多个模型，占用资源是单个模型的2倍。（3）总体抽取效果差。在少样本的训练数据情况下，由于任务之间的信息未共享，独立建模的总体抽取效果通常较差，尤其是实体抽取和长描述抽取任务存在很多可共享的信息，未能有效利用。

基于此，本申请实施例中，首先，将长描述抽取独立建模成阅读理解任务(MRC)，模型根据给定的问题从上下文中找出一个连续的片段作为答案，即长描述抽取值；其次，将序列标注任务（实体抽取）、阅读理解任务（长描述抽取）和多分类任务（关系抽取）三者融合到一个多任务学习框架，三个任务通过共享底层编码框架，提升任务之间信息交互共享，降低标注数据量；最后，在少样本训练数据情况下，针对实体和长描述训练数据分布不平衡，提出一种数据增广方法，即将实体数据转化为MRC输入，提升MRC抽取效果。

综上所述，本说明书实施例提出一种基于多任务学习的长文档信息抽取方法。主要包括：一种基于多任务学习的训练流程，支持实体、长描述、关系等多种字段类型的抽取。还包括提出一种数据增广方法，解决训练数据分布不平衡问题，从而提升各类字段信息抽取的效果。

在本申请中，提供了信息抽取方法，本申请同时涉及信息抽取装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本申请一实施例提供的一种信息抽取方法的场景示意图。

需要说明的是，本实施例提供的一种信息抽取方法，可应用于长文档中的结构化信息的抽取，短篇文档进行信息抽取等场景，本实施例对应用场景不作任何限定；为了便于理解，本申请实施例中以长文档进行信息抽取为例进行说明。

图1中左侧示意待抽取文档，实际应用中，执行主体可接收到待抽取文档，其中，待抽取文档可以理解为文本篇幅较长、待抽取的信息在文档中分散较广的文档，同时所抽取的有效性信息也较多；进一步地，对待抽取文档根据至少一个待抽取字段进行处理，确定待抽取段落，其中，待抽取字段可以理解为从待抽取文档中所需抽取到关键信息的字段类型，包括但不限定于实体字段、关系字段、长描述字段等；在获得待抽取段落之后，可将该待抽取段落输入至信息抽取模型中，以获得至少一个待抽取字段对应的信息抽取结果，进而，便于根据多个信息抽取结果，确定针对待抽取文档的结构化信息。

综上，本实施例中，根据至少一个待抽取字段对待抽取文档进行划分，并将划分后的待抽取段落利用信息抽取模型进行信息抽取，以获得各个待抽取字段对应的信息抽取结果；也即利用一个信息抽取模型执行多类型字段的信息抽取任务，以提高对长文档的信息抽取效率。

图2示出了根据本申请一实施例提供的一种信息抽取方法的流程图，具体包括以下步骤：

步骤202：接收待抽取文档，并基于至少一个待抽取字段在所述待抽取文档中，确定待抽取段落。

其中，待抽取文档可以理解为文本篇幅较长、待抽取的信息在文档中分散较广、所抽取的有效性信息也较多的文档，比如合同文档等；待抽取字段可以理解为所需要抽取的文档信息的字段类型，包括但不限定于实体字段、关系字段等；需要说明的是，本实施例中的至少一个待抽取字段，包括实体字段、关系字段、长描述字段中的至少一项。

实际应用中，执行主体在接收到待抽取文档之后，还可根据至少一个待抽取字段在待抽取文档中，确定待抽取段落，其中，待抽取段落可以理解为包含各个待抽取字段内容的段落，由于待抽取文档篇幅较长，也并非对待抽取文档所有的文本内容进行信息抽取，为了提高信息抽取效率，本实施例中还可对待抽取文档先进行段落定位，即根据至少一个待抽取字段，在待抽取文档中进行待抽取段落的定位；需要说明的是，至少一个待抽取字段可以理解为应用场景下用户需求抽取的字段类型，比如在一段待抽取段落中，应用需抽取实体字段和关系字段，那么，待抽取字段可以对应的包括实体字段和关系字段，本实施例对此不作具体限定。

进一步地，本实施例中还提供了对信息抽取模型的训练过程，该信息抽取模型基于至少两个信息抽取单元对段落编码的预测结果进行训练获得，该段落编码基于编码层对待训练样本编码得到，待训练样本包括待训练段落和至少两类字段标签，具体可参见下述描述；具体的，所述将所述待抽取段落输入信息抽取模型之前，还包括：

获取待训练样本，其中，所述待训练样本包括待训练段落和至少两类字段标签；

将所述待训练段落输入编码层进行编码，获得段落编码；

将所述段落编码分别输入至少两个信息抽取单元，获得至少两个信息预测结果；

基于所述至少两个信息预测结果和所述至少两类字段标签，计算损失值；

基于所述损失值调整所述至少两个信息抽取单元中的模型参数，直至达到训练停止条件，获得信息抽取模型。

实际应用中，获取待训练样本，其中，待训练样本包括待训练段落和至少两类字段标签，字段标签可以理解为对待训练段落中所包含字段类型的信息进行打标的标签，比如一段待训练段落中，可包括10个实体信息、10个关系信息，那么相应地，在该待训练段落中，对这两类字段标签进行打标；进一步地，待训练段落可输入至编码层进行编码，获得段落编码，需要说明的是，在文本编码阶段，多任务学习的过程，可采用共享机制，比如参数硬共享机制，即把多个任务的数据嵌入到同一语义空间中，再为每个任务使用某个任务特定层提取任务特定表示。这样可以更好地实现多个任务信息的交互，提升每个任务的学习效果。

进而，将段落编码分别输入至至少两个信息抽取单元，以获得信息抽取单元输出的信息预测结果，再根据至少两个信息预测结果和至少两类字段标签，计算损失值，需要说明的是，本实施例对损失值的计算阶段，也可采用多任务学习中的联合学习方法，即整个训练过程，是有一个优化器，每个批次训练时，随机挑选每个任务样本，所有任务的参数都会得到更新，本实施例对计算损失值的方式不作任何限定。进一步地，根据损失值可调整至少两个信息抽取单元中的模型参数，直至达到训练停止条件，获得信息抽取模型，其中，训练停止条件可采用迭代次数或者时间阈值来限定，本实施例对此不作过多限定。

需要说明的是，信息抽取模型中的信息抽取单元与字段类型具有一一对应关系，即理解为一类字段类型对应一个信息抽取单元，但也可能会对应多个信息抽取单元，本实施例对此不作限定，为了便于理解，信息抽取模型中的各个信息抽取单元之间可执行不同字段类型的信息抽取的任务。

参见图3，图3示出了本说明书实施例提供的一种信息抽取方法的信息抽取模型的结构示意图。

图3中示例了信息抽取模型中三个抽取单元，包括实体抽取单元、关系抽取单元和长描述抽取单元；实体抽取：主要解决抽取具有特定意义的事物，如：基金管理人（机构名）等。长描述抽取：主要解决抽取由一个或者由多个句子构成的描述，如：存续期限表述等。关系抽取：主要解决由多个具体值构成的关系对分类，如：申购金额-申购费率等。如图3中示例，实体抽取单元中，对待抽取段落中的“2亿份”、“2亿元”进行抽取，先通过编码，再通过Bi-LSTM层和CRF层，获得实体抽取的编码，以获得实体抽取结果，如图3中实体抽取单元对“***不少于2亿份”的实体抽取为例，最后实体抽取结果表示：“***”为实体1（1表示实体的标识），实体值的开头用B表示，实体的中间用I表示，那么实体1“***”可表示为B-1、I-1、I-1；“不少于”为非实体，可用O表示；“2亿份”为实体2，可表示为B-2、I-2、I-2；相应地，“***不少于2亿元”的实体抽取结果示意可参考上述描述的表示过程；关系抽取单元中，先通过编码，提取待抽取段落中的文本向量，再通过全连接层确定文本向量中各个具有关系的实体之间的关系类别，获得关系抽取结果；长描述抽取单元中，通过编码后的问题和上下文，可对长描述的答案的进行抽取，获得长描述抽取结果。需要说明的是，图3中示例的各个抽取单元的结构仅为示例性描述，并不限定于图3中的具体结构。

需要说明的是，在“同个上下文出现多个待抽取字段”和“上下文语义信息较弱”等抽取场景中，实体抽取比长描述抽取更胜任，前者擅长捕捉同一个上下文多个待抽取字段的关联信息、字段边界识别准确、并且只需一次解码即可获取多个字段抽取结果。在“待抽取字段取值较长”的抽取场景中，长描述抽取比实体抽取更胜任，后者CRF解码与上下文长度成正比，解码速度较慢，且易出现边界预测错误。而前者只需要预测值的起始位置和终止位置即可，速度较快。

参见图4，图4示出了本说明书实施例提供的一种信息抽取方法的信息抽取模型训练机制示意图。

图4中以信息抽取模型训练过程中的文本编码阶段采用硬共享机制，在损失计算阶段采用联合学习方法为例，对模型训练进行说明。针对三种字段类型，本实施例中利用多任务学习进行统一建模，包含三个任务，即实体抽取、长描述抽取、关系抽取。

模型训练包括文本编码和损失计算两个子流程。在文本编码阶段，多任务学习采用的是参数硬共享机制，即把多个任务的数据表示嵌入到同一个语义空间中，再为每个任务使用某个任务特定层提取任务特定表示。这样可以更好地实现多个任务信息的交互，提升每个任务的学习效果。在损失计算阶段，多任务学习采用的是联合学习方法，即整个训练过程，只有1个优化器，每个批次训练时，随机挑选每个任务样本，所有任务的参数都会得到更新，如图4中对所有任务特征，分别示意为T1、T2、T3（图4中T1、T2、T3分别对应的矩形框中的一排圆圈示意为一个任务对应的特征），即联合学习方法将不同任务对应的数据打乱，能够相互学习到特征，提升各任务之间的学习效果。模型总损失为多个任务的损失加权和，如下公式1所示：

公式1

其中，分别为NER，MRC，RE的权重参数，代表每个任务的学习难度。

更进一步地，所述将所述段落编码分别输入至少两个信息抽取单元，获得至少两个信息预测结果，包括：

基于所述至少两类字段标签，在所述段落编码中确定各类字段对应的编码内容；

将所述各类字段对应的编码内容，分别输入各类字段对应的信息抽取单元，获得至少两个信息预测结果。

实际应用中，还可基于至少两类字段标签，在待训练段落中，确定各个字段类型的标签对应的编码内容，以便于将待训练段落按照各类字段进行划分为多类型的编码内容，再分别将各个编码内容输入至各类字段对应的信息抽取单元中，执行多类型字段信息抽取的任务，获得至少两个信息预测结果。

本实施例中，通过对不同字段类型对应的编码内容分别输入至对应的信息抽取单元，执行信息抽取任务，能够精准地抽取不同类型字段的信息，提高信息抽取模型的处理效率。

此外，在多任务学习框架的基础上，为了提高训练数据利用效率，本实施例中还提供了对训练数据进行数据增广的方式；具体的，所述将所述各类字段对应的编码内容，分别输入各类字段对应的信息抽取单元，获得至少两个信息预测结果，包括：

确定各类字段标签的标签数量，计算任意两类字段标签的标签数量之间的数量差值；

在所述数量差值满足预设数量阈值的情况下，确定第一类字段标签和第二类字段标签，其中，所述第一类字段标签的标签数量小于所述第二类字段标签的标签数量；

在所述段落编码中确定第一类字段标签对应的第一编码内容、第二类字段标签对应的第二编码内容；

将所述第一编码内容和所述第二编码内容，输入所述第一类字段标签对应的第一字段抽取任务对应的信息抽取单元，并将所述第二编码内容，输入所述第二类字段标签对应的第二字段抽取任务对应的信息抽取单元，获得至少两个信息预测结果。

其中，第一字段标签的标签数量与第二字段标签的标签数量的数量范围可根据训练数据的规模而定，本实施例中对此不作限定；预设数量阈值也不作具体限定，可参考具体的应用场景而定。

第一编码内容可以理解为字段标签的标签数量较少对应的编码内容，第二编码内容，可以理解为字段标签的标签数量相对于第一类字段标签的数量较多的编码内容；

实际应用中，还可根据各类字段标签，确定各类字段标签的标签数量，这里的标签数量可以理解为字段标注记录数；进一步地，计算任意两类字段标签的标签数量之间的数量差值，以判断各类字段标签之间是否存在训练数据不均衡的情况，在确定该数量差值满足预设数量阈值的情况下，确定目前存在训练数据不均衡的状态，进而，确定两类不均衡的字段标签为第一类字段标签和第二类字段标签，其中，第一类字段标签的标签数量小于第二类字段标签的标签数量；更进一步地，在段落编码中确定各类字段标签对应的编码内容，包括第一编码内容和第二编码内容；最后，将第一编码内容和第二编码内容输入至第一类字段标签对应的第一字段抽取任务对应的信息抽取单元，再将第二编码内容，输入所述第二类字段标签对应的第二字段抽取任务对应的信息抽取单元，获得至少两个信息预测结果。

需要说明的是，一种可选的实施方式中，可将第二编码内容进行复制，一份输入第一字段抽取任务对应的信息抽取单元，另一份输入第二字段抽取任务对应的信息抽取单元；通过将某一类训练数据转换为另一类训练数据的输入，解决两类训练数据因分布不均衡，导致模型中各个信息抽取单元的训练效果不同步的问题。

例如，长描述字段的编码内容少于实体字段的编码内容，且长描述抽取任务较为复杂，因此可将实体字段的编码内容转换为长描述字段的编码内，一方面可以解决数据分布不均衡，另一方面还可提升长描述字段信息的抽取效果；比如，长描述抽取模型输入格式为“question（问题）”、“context（上下文）”和“answers（答案）”构成，而实体抽取模型输入格式为“context（上下文）”和“label（标注序列）”组成，下述以实体字段的编码内容转化为长描述字段的编码内容为例进行说明：

实体的训练样例：本基金的人数规模上限为“1人”，并按规定合并计算投资者人数。该样例中，“1人”打标为实体标签，为了将该部分训练输入至长描述字段对应的信息抽取单元中，可将该训练样例进行转换为：

“question”：“最高持有人数是多少”；

“context”：“本基金的人数规模上限为“1人”，并按规定合并计算投资者人数”；

“answers”[{“start”：11，“end”：12，“answer”：“1人”}]。

基于此，可将实体字段编码内容进行转换为长描述字段类型的模型输入，对长描述字段类型的信息抽取单元进行训练，提升长描述抽取效果。

另外，本实施例中还提供了将关系字段转换为实体字段的示例，关系字段抽取模型输入格式为“context（上下文）”、“spo（关系对）”。

比如，关系训练样例：本基金C类份额的销售服务费按前一日基金资产净值的0.5%年费率计提。其对应的模型输入格式为：

“context”：“本基金C类份额的销售服务费按前一日基金资产净值的0.5%年费率计提”；

“spo”：[{“subject”：[5，6，C类]，“object”：[26，30，0.5%]，“predicate”：“份额类别-销售服务费率”}]。

相应地，将上述关系字段的输入格式转换为实体字段的输入格式为：

“context”：[“本”，“基”，“金”，“C”，“类”，“份”，“额”，“的”，“销”，“售”，“服”，“务”，“费”，“按”，“前”，“一”，“日”，“基”，“金”，“资”，“产”，“净”，“值”，“的”，“0”，“.”，“5”，“%”，“年”，“费”，“率”，“计”，“提”]；

“label”[“0”，“0”，“0”，“B-1010-0”，“I-1010-0”，“0”，“0”，“0”，“0”，“0”，“0”，“0”，“0”，“0”，“0”，“0”，“0”，“0”，“0”，“0”，“0”，“0”，“0”，“0”，“B-1010-1”，“I-1010-1”，“I-1010-1”，“I-1010-1”，“0”，“0”，“0”，“0”，“0”]。

基于此，关系字段抽取可调整为先进行实体抽取，再进行关系分类，以提高模型数据训练利用效率。

步骤204：将所述待抽取段落输入信息抽取模型中，获得所述至少一个待抽取字段对应的信息抽取结果；其中，所述信息抽取模型包括不同字段抽取任务对应的信息抽取单元，各个信息抽取单元共享同一编码层，所述信息抽取单元包括实体抽取单元、关系抽取单元、长描述抽取单元中的至少两项。

实际应用中，执行主体在对信息抽取模型进行预先训练后，将待抽取段落输入至信息抽取模型中，可获得至少一个待抽取字段对应的信息抽取结果，需要说明的是，信息抽取模型包括不同字段抽取任务对应的信息抽取单元，如上述实施例中示例的实体抽取单元、关系抽取单元、长描述抽取单元中的至少两项，且各个抽取单元共享同一编码层，实现彼此信息互通，可以快速提升抽取效果。

进一步地，还可根据待抽取字段的字段类型，为待抽取段落选择相应的目标抽取单元，将待抽取段落输入至能够抽取字段信息的信息抽取单元；具体的，所述将所述待抽取段落输入信息抽取模型中，获得所述至少一个待抽取字段对应的信息抽取结果，包括：

确定所述至少一个待抽取字段对应的字段类型；

基于所述字段类型，确定所述待抽取段落对应的目标抽取单元；

将所述待抽取段落输入所述目标抽取单元，获得所述至少一个待抽取字段对应的信息抽取结果。

实际应用中，可确定待抽取字段对应的字段类型包括实体字段类型、关系字段类型，那么即可确定两个目标抽取单元，包括实体抽取单元和关系抽取单元，进而，将待抽取段落分别输入至这两个目标抽取单元中，以获得两个信息抽取结果；需要说明的是，待抽取字段中的字段类型可根据不同的应用场景设定不同的抽取需求，该抽取需求可通过业务人员确定，也可通过服务器自行确定，本实施例对待抽取字段的字段类型不作任何限定。

另外，本实施例中对目标抽取单元的个数也不作任何限定，利用上述实施例对信息抽取模型的训练过程，训练后的信息抽取模型即可支持对多任务信息抽取，完成对不同字段类型的抽取任务。

更进一步地，还可对待抽取段落输入至同一编码层进行文本编码，再输入分别输入至各个目标抽取单元，采用共享同一编码层的方式，可将待抽取段落映射值同一语义空间，也实现了信息共享，提高模型后续的处理效率；具体的，所述将所述待抽取段落输入所述目标抽取单元，获得所述至少一个待抽取字段对应的信息抽取结果，包括：

将所述待抽取段落输入编码层，获得段落编码；

将所述段落编码输入所述目标抽取单元，获得所述至少一个待抽取字段对应的信息抽取结果。

实际应用中，将待抽取段落输入至编码层，将待抽取段落中的文本进行编码，获得段落编码，在将编码段落输入至目标抽取单元，若目标抽取单元为多个，则可将编码段落分别输入至多个目标抽取单元，获得待抽取字段对应的信息抽取结果。

此外，本实施例还提供的按照不同的业务场景，对多个信息抽取结果进行封装整合，封装成一定的格式再输出；具体的，所述获得所述至少一个待抽取字段对应的信息抽取结果之后，还包括：

确定目标封装格式；

基于所述目标封装格式，对所述至少一个待抽取字段对应的信息抽取结果进行处理，生成所述待抽取文档对应的目标信息集。

其中，目标封装格式可以理解为对多个信息抽取结果转化为结构化信息的封装格式。

实际应用中，不同的应用场景，可对应的封装格式，那么，可先根据场景信息确定目标封装格式，再根据目标封装格式，对至少一个待抽取字段对应的信息抽取结果进行封装整合，生成待抽取文档对应的目标信息集，其中，目标信息集中可由多个待抽取字段对应的文档信息组成的结构化信息；本实施例中对于应用场景需求不作任何限定。

综上，本说明书实施例提供的信息抽取方法，通过构建多任务框架，将文档抽取任务扩展为实体、长描述和关系三种类型字段抽取子任务，三个任务共享相同的底层编码，实现多个任务信息的交互，减少三种字段共享信息的重复学习，可覆盖多种字段类型的抽取场景；还提供了一种基于多任务学习的训练流程，基于多任务学习统一建模方法，能够实现标注数据需求量较少；模型管理简单，多任务学习最终产物只有一个模型，部署成本低；抽取效果好，多任务学习将每个任务的底层编码映射到同一语义空间，实现彼此信息互通，联合学习方法可以快速提升抽取效果。另外，针对长描述抽取效果差问题。还提出一种数据增广方法，即将实体数据转化为长描述字段类型输入，来扩充MRC任务数据，从而提升MRC模型学习能力，提升MRC抽取效果。

参见图5，图5示出了本申请一实施例提供的一种应用于长文档的信息抽取方法的处理流程图，具体包括以下步骤：

步骤502：获取待抽取字段。

其中，所述待抽取字段包括字段名称和字段类型。

步骤504：获取待抽取文档。

步骤506：标注上下文。

具体的，根据待抽取字段在待抽取文档中标注上下文，便于后续对上下文进行关键信息抽取。

步骤508：确定实体上下文。

步骤510：执行实体抽取任务。

步骤512：实体抽取结果。

步骤514：判断实体结果之间是否有关联关系，若是，则执行步骤518，若否，则执行步骤516。

步骤516：获得实体抽取结果。

步骤518：获得关系上下文。

具体的，在各个实体之间具有关联关系的情况下，比如头实体和尾实体之间具有关联关系，则可进一步确定关系类别，完成关系抽取任务。

步骤520：执行关系抽取任务。

步骤522：获得关系抽取结果。

步骤524：确定长描述上下文。

步骤526：执行长描述抽取任务。

步骤528：获得长描述系抽取结果。

步骤530：获得所有字段抽取结果。

综上，本实施例中，对于长文档的信息抽取过程，将长文档抽取任务扩展为实体、长描述和关系三种类型字段抽取子任务，以获得对应的抽取结果，进而确定针对长文档中所有字段抽取结果，以提升对长文档关键信息抽取的处理效率。

参见图6，图6示出了本申请一实施例提供的一种应用于长文档的信息抽取方法的训练处理流程图，具体包括以下步骤：

步骤602：标注值所在上下文。

具体的，针对长文档进行段落定位，在长文档中进行标注，包括实体上下文、关系上下文和长描述上下文。

步骤604：多任务执行。

具体的，根据各个上下文可分别执行相应的信息抽取任务，包括实体任务、关系任务和长描述任务；需要说明的，对于关系上下文，还可先通过执行实体任务，确定头实体和尾实体，进而对在对关系类别进行判定。

步骤606：共享编码层。

具体的，各个上下文内容，均可通过同一编码层进行编码，映射至同一语义空间，实现彼此信息互通。

步骤608：多任务应用。

具体的，对于长文档，可通过实体应用层、关系应用层和长描述应用层，完成对长文档中的实体信息、关系信息和长描述信息进行提取。

需要说明的是，上述步骤之间并无必要的顺序关系，本实施例中可通过多任务处理框架，实现了对长文本中各个字段类型的信息进行提取，不仅降低了模型管理与部署成本，还能够提高对各个字段信息提取的效率。

参见图7，图7示出了本申请一实施例提供的一种信息抽取模型训练方法的流程图，具体包括以下步骤：

步骤702：获取待训练样本，其中，所述待训练样本包括待训练段落和至少两类字段标签。

实际应用中，获取待训练样本，其中，待训练样本包括待训练段落和至少两类字段标签，字段标签可以理解为对待训练段落中所包含字段类型的信息进行打标的标签，比如一段待训练段落中，可包括10个实体信息、10个关系信息，那么相应地，在该待训练段落中，对这两类字段标签进行打标。

步骤704：将所述待训练段落输入编码层进行编码，获得段落编码。

进一步地，待训练段落可输入至编码层进行编码，获得段落编码，需要说明的是，在文本编码阶段，多任务学习的过程，可采用共享机制，比如参数硬共享机制，即把多个任务的数据嵌入到同一语义空间中，再为每个任务使用某个任务特定层提取任务特定表示。这样可以更好地实现多个任务信息的交互，提升每个任务的学习效果。

步骤706：将所述段落编码分别输入至少两个信息抽取单元，获得至少两个信息预测结果。

步骤708：基于所述至少两个信息预测结果和所述至少两类字段标签，计算损失值。

实际应用中，将段落编码分别输入至至少两个信息抽取单元，以获得信息抽取单元输出的信息预测结果，再根据至少两个信息预测结果和至少两类字段标签，计算损失值，需要说明的是，本实施例对损失值的计算阶段，也可采用多任务学习中的联合学习方法，即整个训练过程，是有一个优化器，每个批次训练时，随机挑选每个任务样本，所有任务的参数都会得到更新，本实施例对计算损失值的方式不作任何限定。

步骤710：基于所述损失值调整所述至少两个信息抽取单元中的模型参数，直至达到训练停止条件，获得信息抽取模型。

进一步地，根据损失值可调整至少两个信息抽取单元中的模型参数，直至达到训练停止条件，获得信息抽取模型，其中，训练停止条件可采用迭代次数或者时间阈值来限定，本实施例对此不作过多限定。

需要说明的是，本实施例提供的信息抽取模型的具体训练过程可参考上述实施例中的具体描述，在此不做过多赘述。

综上，本实施例提供的信息抽取模型训练方法，通过构建多任务框架，将文档抽取任务扩展为实体、长描述和关系三种类型字段抽取子任务，三个任务共享相同的底层编码，实现多个任务信息的交互，减少三种字段共享信息的重复学习，可覆盖多种字段类型的抽取场景。

与上述方法实施例相对应，本申请还提供了信息抽取装置实施例，图8示出了本申请一实施例提供的一种信息抽取装置的结构示意图。如图8所示，该装置包括：

文档接收模块802，被配置为接收待抽取文档，并基于至少一个待抽取字段在所述待抽取文档中，确定待抽取段落；

信息抽取模块804，被配置为将所述待抽取段落输入信息抽取模型中，获得所述至少一个待抽取字段对应的信息抽取结果；

可选地，所述信息抽取模块804，进一步被配置为：

确定所述至少一个待抽取字段对应的字段类型；

可选地，所述信息抽取模块804，进一步被配置为：

将所述待抽取段落输入编码层，获得段落编码；

可选地，所述待抽取字段包括实体字段、关系字段、长描述字段中的至少一项。

可选地，所述装置，还包括：

信息集生成模块，被配置为确定目标封装格式；

可选地，所述装置，还包括：

模型训练模块，被配置为获取待训练样本，其中，所述待训练样本包括待训练段落和至少两类字段标签；

将所述待训练段落输入编码层进行编码，获得段落编码；

可选地，所述模型训练模块，进一步被配置为：

本说明书实施例提供的信息抽取装置，通过至少一个待抽取字段在待抽取文档中，确定待抽取段落，并将该待抽取段落输入至信息抽取模型中，并获得至少一个待抽取字段对应的信息抽取结果，需要说明的是，信息抽取模型中包括不同字段抽取任务对应的信息抽取单元，同时，各个字段抽取任务共享同一底层编码，这种方式，不仅能够执行针对多种待抽取字段任务的复杂场景，通过包含多个信息抽取单元的信息抽取模型来实现多任务，还能够减少该模型训练时数据标注量以及模型管理与部署成本，提高对文档中结构化信息的抽取效率。

上述为本实施例的一种信息抽取装置的示意性方案。需要说明的是，该信息抽取装置的技术方案与上述的信息抽取方法的技术方案属于同一构思，信息抽取装置的技术方案未详细描述的细节内容，均可以参见上述信息抽取方法的技术方案的描述。

图9示出了根据本申请一实施例提供的一种计算设备900的结构框图。该计算设备900的部件包括但不限于存储器910和处理器920。处理器920与存储器910通过总线930相连接，数据库950用于保存数据。

计算设备900还包括接入设备940，接入设备940使得计算设备900能够经由一个或多个网络960通信。这些网络的示例包括公用交换电话网（PSTN，Public SwitchedTelephone Network）、局域网（LAN，Local Area Network）、广域网（WAN，Wide AreaNetwork）、个域网（PAN，Personal Area Network）或诸如因特网的通信网络的组合。接入设备940可以包括有线或无线的任何类型的网络接口（例如，网络接口卡（NIC，networkinterface controller））中的一个或多个，诸如IEEE802.11无线局域网（WLAN，WirelessLocal Area Network）无线接口、全球微波互联接入（Wi-MAX，WorldwideInteroperability for Microwave Access）接口、以太网接口、通用串行总线（USB，Universal Serial Bus）接口、蜂窝网络接口、蓝牙接口、近场通信（NFC，Near FieldCommunication）接口，等等。

在本申请的一个实施例中，计算设备900的上述部件以及图9中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图9所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备900可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备（例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等）、移动电话（例如，智能手机）、可佩戴的计算设备（例如，智能手表、智能眼镜等）或其他类型的移动设备，或者诸如台式计算机或个人计算机（PC，Personal Computer）的静止计算设备。计算设备900还可以是移动式或静止式的服务器。

其中，处理器920执行所述计算机指令时实现所述的信息抽取方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的信息抽取方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述信息抽取方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该计算机指令被处理器执行时实现如前所述信息抽取方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的信息抽取方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述信息抽取方法的技术方案的描述。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种信息抽取方法，其特征在于，包括：

其中，所述信息抽取模型包括不同字段抽取任务对应的信息抽取单元，各个信息抽取单元共享同一编码层，所述信息抽取单元包括实体抽取单元、关系抽取单元、长描述抽取单元中的至少两项，各信息抽取单元根据待抽取字段的字段类型执行对应的信息抽取任务。

2.根据权利要求1所述的方法，其特征在于，所述将所述待抽取段落输入信息抽取模型中，获得所述至少一个待抽取字段对应的信息抽取结果，包括：

确定所述至少一个待抽取字段对应的字段类型；

3.根据权利要求2所述的方法，其特征在于，所述将所述待抽取段落输入所述目标抽取单元，获得所述至少一个待抽取字段对应的信息抽取结果，包括：

将所述待抽取段落输入编码层，获得段落编码；

4.根据权利要求1所述的方法，其特征在于，所述待抽取字段包括实体字段、关系字段、长描述字段中的至少一项。

5.根据权利要求1所述的方法，其特征在于，所述获得所述至少一个待抽取字段对应的信息抽取结果之后，还包括：

确定目标封装格式；

6.根据权利要求1所述的方法，其特征在于，所述将所述待抽取段落输入信息抽取模型之前，还包括：

将所述待训练段落输入编码层进行编码，获得段落编码；

7.根据权利要求6所述的方法，其特征在于，所述将所述段落编码分别输入至少两个信息抽取单元，获得至少两个信息预测结果，包括：

8.根据权利要求7所述的方法，其特征在于，所述将所述各类字段对应的编码内容，分别输入各类字段对应的信息抽取单元，获得至少两个信息预测结果，包括：

9.一种信息抽取模型训练方法，其特征在于，包括：

将所述待训练段落输入编码层进行编码，获得段落编码；

将所述段落编码分别输入至少两个信息抽取单元，获得至少两个信息预测结果，各信息抽取单元根据待抽取字段的字段类型执行对应的信息抽取任务；

10.一种信息抽取装置，其特征在于，包括：

11.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述计算机指令时实现权利要求1-9任意一项所述方法的步骤。

12.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该计算机指令被处理器执行时实现权利要求1-9任意一项所述方法的步骤。