CN117290510A

CN117290510A - 文档信息抽取方法、模型、电子设备及可读介质

Info

Publication number: CN117290510A
Application number: CN202311585385.8A
Authority: CN
Inventors: 刘寓非; 杨涛; 朱庆亚; 程勖; 吴惠霞
Original assignee: Zhejiang Taimei Medical Technology Co Ltd
Current assignee: Zhejiang Taimei Medical Technology Co Ltd
Priority date: 2023-11-27
Filing date: 2023-11-27
Publication date: 2023-12-26
Anticipated expiration: 2043-11-27
Also published as: CN117290510B

Abstract

本发明公开了一种文档信息抽取方法、模型、电子设备及可读介质，该文档信息抽取方法包括：获取目标文本序列中各个词的表征向量；将各个词的表征向量转换成第一隐层向量、第二隐层向量和第三隐层向量；将第一隐层向量和第三隐层向量转换成第一表征向量，并将第二隐层向量和第三隐层向量转换成第二表征向量；基于第一表征向量计算实体span表征向量；基于第二表征向量计算头尾实体对表征向量；基于实体span表征向量确定目标文本序列中各实体的实体位置和实体类型；基于头尾实体对表征向量确定目标文本序列中的实体关系。本发明提供的文档信息抽取方法和模型，可以实现对文档中的实体和实体关系信息的自动、高效和准确的抽取。

Description

文档信息抽取方法、模型、电子设备及可读介质

技术领域

本发明是关于数据处理技术领域，特别是关于一种文档信息抽取方法、模型、电子设备及可读介质。

背景技术

临床试验协议和合同是医药研究领域中的关键文件，包含了试验设计、实施规范、财务安排等多方面的重要信息。这些文档通常篇幅较长，内容复杂，包含大量的专业术语和详细条款。由于临床试验协议和合同篇幅长，所需的关键信息散落在整个文档的不同部分。这使得从文档中有效地收集和整合关键信息变得非常困难。

现有的信息收集方法主要依赖于人工操作，这不仅限制了处理速度和效率，还增加了错误发生的风险。此外，人工处理大量文档对人员的要求非常高，需要他们具备丰富的专业知识和临床试验文档处理经验，这在人力资源上也带来不小的挑战。

因此，针对上述技术问题，有必要提供一种文档信息抽取方法、模型、电子设备及可读介质。

发明内容

本发明的目的在于提供一种文档信息抽取方法、模型、电子设备及可读介质，其能够对协议/合同文档进行智能化分析、理解，高效准确地自动抽取文档信息。

为实现上述目的，本发明提供的技术方案如下：

第一方面，本发明提供了一种文档信息抽取方法，其包括：

获取文档中的目标文本序列的各个词的表征向量；

通过编码器网络将所述各个词的表征向量转换成用于命名实体识别任务的第一隐层向量、用于关系抽取任务的第二隐层向量和用于共享任务的第三隐层向量；

将所述第一隐层向量和所述第三隐层向量线性拼接转换成用于命名实体识别任务的第一表征向量，并将所述第二隐层向量和所述第三隐层向量线性拼接转换成用于关系抽取任务的第二表征向量；

基于所述第一表征向量计算用于命名实体识别任务的实体span表征向量；

基于所述第二表征向量计算用于关系抽取任务的头尾实体对表征向量；

基于所述实体span表征向量确定所述目标文本序列中各实体的实体位置和实体类型；

基于所述头尾实体对表征向量确定所述目标文本序列中的头实体-关系-尾实体的对应关系。

在一个或多个实施方式中，通过编码器网络将所述各个词的表征向量转换成用于命名实体识别任务的第一隐层向量、用于关系抽取任务的第二隐层向量和用于共享任务的第三隐层向量，包括：

通过三个不同参数的Bi-LSTM网络将所述各个词的表征向量分别转换成用于命名实体识别任务的第一隐层向量、用于关系抽取任务的第二隐层向量和用于共享任务的第三隐层向量。

在一个或多个实施方式中，第一隐层向量、第二隐层向量和第三隐层向量的算法公式为：

；

其中，表示第一隐层向量，/>表示第二隐层向量，/>表示第三隐层向量，x _i表示目标文本序列中第i个词的表征向量，/>、/>、/>表示Bi-LSTM网络的参数。

在一个或多个实施方式中，所述第一表征向量和所述第二表征向量的算法公式为：

；

其中，表示第一表征向量，/>表示第二表征向量，/>表示神经元线性转换，/>为双曲正切函数。

在一个或多个实施方式中，所述实体span表征向量和所述头尾实体对表征向量的算法公式为：

；

其中，表示实体span表征向量，/>表示头尾实体对表征向量，/>和分别表示一个实体span以目标文本序列中第i个词作为起始位置并以目标文本序列中第j个词作为结束位置的表征向量，/>表示以目标文本序列中第i个词作为起始位置的头实体的表征向量，/>表示以目标文本序列中第j个词作为起始位置的尾实体的表征向量，ELU为激活函数。

在一个或多个实施方式中，确定所述目标文本序列中各实体的实体位置和实体类型的算法公式为：

；

其中，表示以目标文本序列中第i个词作为起始位置，并以目标文本序列中第j个词作为结束位置的实体实体类型为k的概率；K为实体类型的集合，sigmoid为激活函数。

在一个或多个实施方式中，确定所述目标文本序列中的头实体-关系-尾实体的对应关系的算法公式为：

；

其中，表示以目标文本序列中第i个词作为起始位置的头实体和以目标文本序列中第j个词作为起始位置的尾实体的关系为l的概率，R为关系类型集合，sigmoid为激活函数。

在一个或多个实施方式中，所述方法还包括：

将文档解析为多个文本块，基于预设的召回策略召回文档中包含目标文本序列的文本块。

在一个或多个实施方式中，所述方法还包括：

构建包含标准化信息的标准项目库；计算从所述目标文本序列中抽取的实体与所述标准项目库中的标准化信息的相似度；以所述标准项目库中的相似度最高的标准化信息，作为所述目标文本序列中抽取的实体的输出结果。

第二方面，本发明提供了一种文档信息抽取模型，其包括：

输入层，用于获取文档中的目标文本序列的各个词的表征向量；

编码层，用于通过编码器网络将所述各个词的表征向量转换成用于命名实体识别任务的第一隐层向量、用于关系抽取任务的第二隐层向量和用于共享任务的第三隐层向量；

融合层，用于将所述第一隐层向量和所述第三隐层向量线性拼接转换成用于命名实体识别任务的第一表征向量，并将所述第二隐层向量和所述第三隐层向量线性拼接转换成用于关系抽取任务的第二表征向量；并基于所述第一表征向量计算用于命名实体识别任务的实体span表征向量；以及基于所述第二表征向量计算用于关系抽取任务的头尾实体对表征向量；

解码层，用于基于所述实体span表征向量确定所述目标文本序列中各实体的实体位置和实体类型；并基于所述头尾实体对表征向量确定所述目标文本序列中的头实体-关系-尾实体的对应关系。

第三方面，本发明提供了一种电子设备，包括存储器、处理器、以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如前所述的文档信息抽取方法。

第四方面，本发明提供了一种计算机可读介质，所述计算机可读介质中承载有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如前所述的文档信息抽取方法。

与现有技术相比，本发明提供的文档信息抽取方法、模型、电子设备及可读介质，可以实现对文档中的实体和实体关系信息的自动、高效和准确的抽取，提高文档信息处理的质量和效率；利用多任务学习的方式，将命名实体识别和关系抽取两个任务进行联合训练，可以实现任务之间的信息共享和互补，提高模型的泛化能力和鲁棒性；利用融合层的方式，将编码层的不同隐层向量进行线性拼接，实现了不同任务所需的特征的提取和转换，提高模型的表达能力和适应性。

附图说明

图1是本发明一实施方式中示例性的实施场景示意图；

图2是本发明一实施方式中档信息抽取方法的流程图；

图3是本发明一实施方式中实体解码表的示意图；

图4是本发明一实施方式中关系解码表的示意图；

图5是本发明一实施方式中文档信息抽取模型的示意图；

图6是本发明一实施方式中电子设备的示意图。

具体实施方式

下面结合附图，对本发明的具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

除非另有其他明确表示，否则在整个说明书和权利要求书中，术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分，而并未排除其他元件或其他组成部分。

为了方便理解本申请的技术方案，下面首先对本发明中可能出现的技术术语进行详细解释。

表征向量（Representation Vector）：是指用来表示数据（如词、句子等）的多维数字向量。在自然语言处理中，表征向量通常用于捕捉文本的语义信息，每个维度代表文本的某种特征或属性。

隐层向量（Hidden Layer Vector）：是神经网络中间层的输出。在处理文本时，隐层向量通常包含了输入数据（如词或字符）的抽象和复合特征，这些特征可用于后续任务（如分类或实体识别）。

实体span（Entity Span）：是指文本中实体所覆盖的区域。例如，在句子“患者接受了阿莫西林治疗”中，“阿莫西林”就是一个实体span，它指的是从这个实体的开始词到结束词的整个片段。

在医药研究领域，临床试验协议和合同的处理是一个信息密集且关键的任务。现有技术主要依赖于人工操作来处理这些文档，这一方法存在效率低下、准确性有限、对专业知识依赖度高等问题。由于文档篇幅长、内容复杂，关键信息的提取和整合成为了一个巨大的挑战。

鉴于上述问题，本发明提出了一种文档信息抽取方法，旨在通过自动化技术解决现有人工处理方法的局限性。本发明的核心思想是运用自然语言处理技术，将复杂文档中的关键信息转化为结构化数据，以便于更有效的分析和利用。

文档信息抽取的任务可以分为两个子任务：命名实体识别和关系抽取。命名实体识别是指从文档中识别出具有特定类型和位置的实体，如临床试验的目标、设计、入选标准、主要终点、统计方法等。关系抽取是指从文档中识别出实体之间的语义关系，如合同条款、费用、责任、保密等。

本发明的技术实现思路是：使用词向量模型或编码器模型，将文档中的每个词转换成一组数字，即词向量，以反映每个词的语义和语法特征。使用编码器网络，将词向量转换成用于命名实体识别和关系抽取的表征向量，同时利用共享任务的隐层向量，增强不同任务之间的信息交互和协同。使用实体span表征向量和头尾实体对表征向量，确定文档中的各实体的实体位置和实体类型，以及各实体之间的关系，构建文档中的目标描述信息的结构化表示。

请参照图1所示，在本发明提供的文档信息抽取方法一示例性的实施场景下，包括终端101和服务器102。其中，终端101与服务器102之间通过通信网络进行数据通信，可选地，通信网络可以是有线网络也可以是无线网络，且该通信网络可以是局域网、城域网以及广域网中的至少一种。

终端101可以是用于获取、上传临床试验合同，并与服务器进行数据通信的电子设备，该电子设备可以是智能手机、平板电脑或个人计算机等等。下面以终端101为研究人员使用的计算机为例进行说明。

研究人员通过终端101上传临床试验合同的文档文件或文本内容，终端101将文档或文本发送至服务器102。服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content DeliveryNetwork，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。

服务器102接收到临床试验合同文档后，首先提取文本信息，包括对文档进行预处理，如格式转换、分词等。服务器102得到临床试验合同文档的文本信息后，将其输入文档信息抽取模型，得到文档信息抽取模型抽取的三元组（包括头实体（如药物名、试验对象）、关系（如治疗方法、费用安排）和尾实体（如费用金额、治疗剂量））。抽取的三元组可被整理成结构化的格式，抽取结果可以发送回终端101，供研究人员审查和使用。

文档信息抽取模型是根据人工标注的临床试验合同文本在服务器102中训练得到的，该模型可以同时处理命名实体识别和关系抽取的任务，利用编码器网络和线性拼接的方式，将文档中的词向量转换成用于命名实体识别和关系抽取的表征向量，同时利用共享任务的隐层向量，增强不同任务之间的信息交互和协同。然后，该模型基于实体span表征向量和头尾实体对表征向量，确定文档中的各实体的实体位置和实体类型，以及各实体之间的关系，构建文档中的目标描述信息的结构化表示。

请参照图2所示，为本发明一实施方式中文档信息抽取方法的流程图。该文档信息抽取方法，具体包括以下步骤：

S201：获取文档中的目标文本序列的各个词的表征向量。

需要说明的是，在进行步骤S201之前，可对文档（如临床试验合同文档）进行预处理，包括去除无用信息（如标点符号、特殊字符）、统一词形（如将单词转换为基本形式）、分词等。

通过步骤S201可获取文档中的目标文本序列的每个词的表征向量（特征向量），即用一组数字来表示每个词的含义和属性。具体可以采用以下方式获取目标文本序列的每个词的表征向量：

采用预训练的词向量模型，如Word2Vec、GloVe、BERT等，根据文档中的每个词在词汇表中的索引或子词的组合，查找或计算出对应的词向量。

采用基于神经网络的编码器模型，如Transformer、LSTM、CNN等，根据文档中的每个词的字符序列或词嵌入，通过一系列的非线性变换，生成出对应的词向量。

采用基于图的编码器模型，如GCN、GAT、GraphSAGE等，根据文档中的每个词的词性、依存关系、共现频率等，构建出词之间的图结构，然后通过图卷积或图注意力等操作，聚合邻居节点的信息，生成出对应的词向量。

在本实施方式中，采用LEBERT（Lexicon Enhanced Bidirectional EncoderRepresentation from Transformers）作为编码表征。该模型通过在BERT底层注入词汇表征的方法，设计了一种Lexicon Adapter的结构，将词语特征与字符特征进行融合，可得到基于目标文本序列的序列向量：

；

其中，x _i为目标文本序列中第i个词的表征向量。

在一个具体的例子中，假设目标文本序列是：“A公司支付静配费80元”，那么通过步骤S201可以将这句话中的每个词，如“A公司”、“支付”、“静配费”、“80元”，都转换成一组数字，如[0.1, -0.2, 0.3, …]，[0.4, 0.5, -0.6, …]，[-0.1, 0.2, -0.3, …]等，这些数字即是词向量，可以反映每个词的语义和语法特征。

一示例性的实施例中，获取文档中目标文本序列的方式可以是：将文档解析为多个文本块，基于预设的召回策略粗召回文档中包含目标文本序列的文本块。

可以理解的是，在处理大量文本数据时，可以先通过粗召回快速而粗略地筛选出含有目标信息的文本块，从而减少后续处理的数据量，提高效率。粗召回策略可以包括正则表达式匹配、关键词命中、文本格式（如加粗或斜体）等。

可以使用文档解析工具，如PDFMiner、BeautifulSoup、PyPDF2等，将文档的格式和结构解析出来，然后根据文档的分页、分节、分行、分段等标志，将文档划分为多个文本块，每个文本块可以是一个标题、一个段落、一个列表、一个表格、一个图片等。

在一个具体的例子中，将临床试验合同文档解析为多个文本块后，以包含“费用”或近似含义的关键词作用粗召回策略，召回文本块，如表1所示。

表1：

S202：通过编码器网络将所述各个词的表征向量转换成用于命名实体识别任务的第一隐层向量、用于关系抽取任务的第二隐层向量和用于共享任务的第三隐层向量。

需要说明的是，编码器网络是一种能够理解和处理文本的复杂算法，可以是一个深度学习模型，如双向长短期记忆网络（Bi-LSTM）或变换器（Transformer）。在步骤S202中，每个词的表征向量可被转换成三种不同类型的隐层向量，分别用于命名实体识别、关系抽取和共享任务。

具体的，可通过三个不同参数的Bi-LSTM网络将所述各个词的表征向量分别转换成用于命名实体识别任务的第一隐层向量、用于关系抽取任务的第二隐层向量和用于共享任务的第三隐层向量。

Bi-LSTM网络是一种能够捕捉文本中的前后文信息的循环神经网络，将每个词的特征向量作为输入，得到每个词的前向和后向的隐层状态，然后将这两个状态拼接起来，形成每个词的双向隐层状态。

使用三个不同参数的Bi-LSTM网络，即分别用于命名实体识别、关系抽取和共享任务的Bi-LSTM网络，将每个词的表征向量输入到这三个Bi-LSTM网络中，得到每个词在不同任务中的双向隐层状态，作为用于命名实体识别任务的第一隐层向量、用于关系抽取任务的第二隐层向量和用于共享任务的第三隐层向量（可同时用于支持命名实体识别和关系抽取任务）。通过生成三种不同类型的隐层向量能够同时处理多种任务，例如同时识别文本中的实体和实体间的关系。

在一个具体的例子中，假设目标文本序列是：“A公司支付静配费80元”，在步骤S202中，目标文本序列的每个词，如“A公司”、“支付”、“静配费”“80元”的表征向量被Bi-LSTM网络转换成隐层向量。“A公司”可能转换成一个用于命名实体识别的向量，标识它为“实体”。“静配费80元”这一短语中的词可能转换成用于关系抽取的向量，揭示“静配费”与“80元”之间的“费用项单价”关系。这些词还会转换成用于共享任务的向量，这有助于同时识别实体和它们之间的关系。

一示例性的实施例中，第一隐层向量、第二隐层向量和第三隐层向量的算法公式分别为：

；

在一个具体的例子中，假设目标文本序列是：“A公司支付静配费80元”，对于“A公司”这个词，其表征向量x _i被到三个参数不同的Bi-LSTM网络中。

在命名实体识别网络（），“A公司”被识别为实体；在关系抽取网络（/>），该词有助于识别“A公司”与“静配费”之间的关系；在共享任务网络（/>），可以反映“A公司”一些通用的语义和语法特征，可用以支持实体识别和关系抽取任务。

通过利用Bi-LSTM网络的序列建模能力，可以从每个词的表征向量中提取出更高层次的双向隐层状态，同时也保留了一部分共享的双向隐层状态，增强不同任务之间的信息交互和协同，提高信息抽取的质量和效果。

S203：将所述第一隐层向量和所述第三隐层向量线性拼接转换成用于命名实体识别任务的第一表征向量，并将所述第二隐层向量和所述第三隐层向量线性拼接转换成用于关系抽取任务的第二表征向量。

需要说明的是，通过步骤S203可以将每个词的两组隐层向量合并成一组新的特征向量，以便后续的信息抽取任务使用。可以利用线性拼接的方式，将每个词的不同任务的隐层向量和共享的隐层向量融合起来，形成一组更丰富的表征向量。这种融合方式使得每个任务都可以利用专门的信息和共享信息，从而提高各自任务的性能。

具体来说，对于命名实体识别任务，将第一隐层向量（命名实体识别专用）和第三隐层向量（共享）进行线性拼接。对于关系抽取任务，将第二隐层向量（关系抽取专用）和第三隐层向量（共享）进行线性拼接。

一示例性的实施例中，第一表征向量和第二表征向量的算法公式分别为：

；

需要说明的是，对于命名实体识别任务和关系抽取任务的向量，首先将各自的专用向量与共享向量进行线性拼接。然后，通过一个线性变换（Linear）层对这些拼接后的向量进行处理。最后，应用双曲正切函数（tanh）作为激活函数，以增加非线性并生成最终的表征向量。

神经元线性转换（Linear）是能够将输入向量映射到输出向量的线性变换，将每个词的两组特征向量拼接起来，形成一个更长的向量，然后通过一个权重矩阵和一个偏置向量，得到一个新的向量。例如，如果某个词的第一隐层向量是[0.1, -0.2, 0.3, …]，第三隐层向量是[-0.1, 0.2, -0.3, …]，那么线性转换后的表征向量为[0.1, -0.2, 0.3,…, -0.1, 0.2, -0.3, …] * W + b，其中W是一个权重矩阵，b是一个偏置向量。

双曲正切函数（tanh）是能够将输入向量的每个元素压缩到-1和1之间的非线性函数，将线性转换后的向量作为输入，得到一个新的向量，这个向量的每个元素都在-1和1之间，可以反映每个词的特征的强度和方向。例如，如果线性转换后的向量是[0.5, -0.4,0.2, …]，那么双曲正切函数后的向量为[tanh(0.5), tanh(-0.4), tanh(0.2), …]，即[0.46, -0.38, 0.20, …]。

在一个具体的例子中，假设目标文本序列是：“A公司支付静配费80元”，通过第一表征向量（）的算法，可以将第1个词“A公司”的用于命名实体识别的特征向量和用于共享任务的特征向量拼接起来，形成一个更长的向量，然后通过神经元线性转换，得到一个新的向量，再通过双曲正切函数，得到该词在命名实体识别任务中的第一表征向量，这个向量可以反映该词是否是一个实体，以及实体的类型，如“A公司”是一个实体，类型是“甲方”。

通过第二表征向量（）的算法，可以将各个词用于关系抽取的特征向量和用于共享任务的特征向量拼接起来，形成一个更长的向量，然后通过神经元线性转换，得到一个新的向量，再通过双曲正切函数，得到该词在关系抽取任务中的第二表征向量，这个向量可以反映该词与其他词之间的语义关系，如“静配费”与“80元”之间的关系是“费用项单价”。

S204：基于所述第一表征向量计算用于命名实体识别任务的实体span表征向量。

需要说明的是，可利用为命名实体识别任务创建的综合表征向量（第一表征向量），来计算实体span的具体特征表示。可通过一定的算法（可能包括额外的神经网络层或数学计算过程），从第一表征向量中提取出与实体识别相关的特征，再将提取的特征转化为实体span的表征向量，这些向量代表文本中特定实体的综合特征。

可以使用指针网络（能够从输入序列中选择输出序列的元素的神经网络），将每个词的特征向量作为输入，得到每个词的开始和结束的概率分布，然后根据这些概率分布，确定每个实体的开始和结束的位置，以及实体的类型，如“静配费”是一个实体，开始于“静”，结束于“费”，类型是“费用项目”。

可以使用序列到序列模型（能够将输入序列转换成输出序列的神经网络），将每个词的特征向量作为输入，得到每个实体的特征向量，然后根据这些特征向量，确定每个实体的开始和结束的位置，以及实体的类型，如“静配费”是一个实体，其特征向量是[0.1, -0.2, 0.3, …]，开始于“静”，结束于“费”，类型是“费用项目”。

一示例性的实施例中，实体span表征向量的算法公式为：

；

其中，表示实体span表征向量，/>和/>分别表示一个实体span以目标文本序列中第i个词作为起始位置并以目标文本序列中第j个词作为结束位置的表征向量，ELU为激活函数。

需要说明的还是，对于文本中的每个实体span（实体的起始词至结束词区间），首先确定其在文本序列中的起始位置i和结束位置j，再使用命名实体识别任务生成的第一表征向量和/>，将起始和结束位置的表征向量进行线性拼接，再通过ELU（指数线性单元）激活函数处理拼接后的向量，生成最终的实体span表征向量/>。

通过结合实体的起始和结束词的表征向量，算法能够生成一个更全面的实体特征表示ELU激活函数引入非线性，有助于捕捉复杂的实体特征，提高实体识别的准确度。以上算法可以适用于识别文本中的复杂实体，如多词组成的医学术语或药物名称。

S205：基于所述第二表征向量计算用于关系抽取任务的头尾实体对表征向量。

需要说明的是，可以使用为关系抽取任务准备的表征向量（第二表征向量），来计算文本中两个实体之间关系的特征表示，以识别文本中实体之间的关系。通过算法，可以从第二表征向量（为关系抽取任务生成的综合向量）中提取出与实体间关系识别相关的特征，并将提取的特征转换为代表实体间关系的头尾实体对表征向量。

一示例性的实施例中，头尾实体对表征向量的算法公式为：

；

其中，表示头尾实体对表征向量，/>表示以目标文本序列中第i个词作为起始位置的头实体的表征向量，/>表示以目标文本序列中第j个词作为起始位置的尾实体的表征向量，ELU为激活函数。

以上算法通过结合头实体和尾实体的表征，提供丰富的信息来识别和描述它们之间的关系。ELU激活函数引入非线性，有助于处理复杂的关系特征，从而提高关系识别的准确度。

S206：基于所述实体span表征向量确定所述目标文本序列中各实体的实体位置和实体类型。

需要说明的是，对于文本中的每个实体span，可使用其对应的表征向量来分析和确定该实体的具体类型（例如，人名、药物、症状等）。同时，基于这些向量，确定实体在文本中的具体起始和结束位置。可通过特定的算法（可能包括机器学习模型如逻辑回归、支持向量机等）对每个实体span的表征向量进行分析，从而做出关于实体类型和位置的决策。

例如，可使用分类器根据实体span表征向量，将其分配到不同类别的模型，将每个实体的特征向量作为输入，得到每个实体的类型，然后根据每个实体的开始和结束位置，确定每个实体在文本中的位置。

一示例性的实施例中，基于实体span表征向量确定目标文本序列中各实体的实体位置和实体类型的算法公式为：

；

需要说明的是，对于每个实体span（由起始词word _i和结束词word _j定义），可使用其表征向量来计算实体属于各种可能类型的概率。可使用sigmoid函数，经Linear神经元线性转换的/>的每个元素压缩到0和1之间，得到一个新的向量，这个向量的每个元素对应一个实体类型的概率。在计算过程中，可以设定概率阈值为0.5，当预测概率大于0.5时，则认为存在该实体。

在一个涉及临床试验合同的例子中，可以按表2所示划分实体类型。

表2：

S207：基于所述头尾实体对表征向量确定所述目标文本序列中的头实体-关系-尾实体的对应关系。

需要说明的是，可以根据每对实体的特征向量，确定每对实体之间的关系，用一个标签来表示两个实体是什么关系。即，哪个实体（头实体）与另一个实体（尾实体）通过何种关系相连。

一示例性的实施例中，基于头尾实体对表征向量确定所述目标文本序列中的头实体-关系-尾实体的对应关系的算法公式为：

；

在一个涉及临床试验合同的例子中，可以按表3所示划分实体关系。

表3：

由于在临床试验合同中，通常涉及到关系重叠（SEO，Single Entity overlap）问题，如表4所示。

表4：

为解决上述重叠问题，可采用table filling 表填充解码方式，可将实体任务与关系任务分为两个独立的表来解码，即实体解码表与关系解码表。下面以“甲方支付静配费80元”为例进行说明：

请参照图3所示，解码表的维度是L×L ，其中L是文本的长度，如推断出该实体，则用‘1’标记，否则用‘0’标记。因为实体的起始位置不可能大于尾部位置，所以仅需要对解码表的上三角矩阵进行解码。由图3看出，通过表中两个‘1’标记可以解码出实体“静配费”和“80”。

请参照图4所示，在关系解码表中的‘1’标记代表以“静”字为起始位置的头实体与以“8”为起始位置的尾实体存在关系。同时，需要满足实体解码表中解码出以“静”字为起始位置的实体与以“8”为起始位置的尾实体。

一示例性的实施例中，档信息抽取方法还包括：构建包含标准化信息的标准项目库；计算从所述目标文本序列中抽取的实体与所述标准项目库中的标准化信息的相似度；以所述标准项目库中的相似度最高的标准化信息，作为所述目标文本序列中抽取的实体的输出结果。

由于不同的协议或合同文档可能使用的语言或表达方式不一致，可通过构建标准项目库，比较文本中提取的实体与标准项目库中的标准化信息，来确定最匹配的标准化实体，以确保文本中提取的实体信息与已知的、标准化的信息相对应，用一个统一的格式来表示每个实体的含义和属性，从而提高数据的一致性。

例如，对于临床试验合同，可通过Sentence BERT模型获取标准项目库中的试验药物名、具体实体，费用项名、访视名等向量后，建立Annoy索引器（python annoy快速近邻向量搜索包），在抽取合同文档的三元组之后，将三元组实体同样通过Sentence BERT模型转为向量后，通过Annoy索引进行相似度计算后取最高相似度的标准化信息，作为最终的输出结果。

综上所述，本发明提供的文档信息抽取方法，可以实现对文档中的实体和实体关系信息的自动、高效和准确的抽取，提高文档信息处理的质量和效率；利用多任务学习的方式，将命名实体识别和关系抽取两个任务进行联合训练，可以实现任务之间的信息共享和互补，提高模型的泛化能力和鲁棒性；利用融合层的方式，将编码层的不同隐层向量进行线性拼接，实现了不同任务所需的特征的提取和转换，提高模型的表达能力和适应性。

请参照图5所示，基于与前述文档信息抽取方法相同的发明构思，本发明一实施方式中提供了一种文档信息抽取模型500，其包括：输入层501、编码层502、融合层503和解码层504。

输入层501用于获取文档中的目标文本序列的各个词的表征向量。

编码层502用于通过编码器网络将所述各个词的表征向量转换成用于命名实体识别任务的第一隐层向量、用于关系抽取任务的第二隐层向量和用于共享任务的第三隐层向量。

融合层503用于将所述第一隐层向量和所述第三隐层向量线性拼接转换成用于命名实体识别任务的第一表征向量，并将所述第二隐层向量和所述第三隐层向量线性拼接转换成用于关系抽取任务的第二表征向量；并基于所述第一表征向量计算用于命名实体识别任务的实体span表征向量；以及基于所述第二表征向量计算用于关系抽取任务的头尾实体对表征向量。

解码层504用于基于所述实体span表征向量确定所述目标文本序列中各实体的实体位置和实体类型；并基于所述头尾实体对表征向量确定所述目标文本序列中的头实体-关系-尾实体的对应关系。

请参照图6所示，本发明实施例还提供了一种电子设备600，该电子设备600包括至少一个处理器601、存储器602（例如非易失性存储器）、内存603和通信接口604，并且至少一个处理器601、存储器602、内存603和通信接口604经由总线605连接在一起。至少一个处理器601用于调用在存储器602中存储或编码的至少一个程序指令，以使得至少一个处理器601执行本说明书的各个实施方式中所描述的文档信息抽取方法的各种操作和功能。

在本说明书的实施例中，电子设备600可以包括但不限于：个人计算机、服务器计算机、工作站、桌面型计算机、膝上型计算机、笔记本计算机、移动电子设备、智能电话、平板计算机、蜂窝电话、个人数字助理（PDA）、手持装置、消息收发设备、可佩戴电子设备、消费电子设备等等。

本发明实施例还提供了一种计算机可读介质，该计算机可读介质上承载有计算机执行指令，所述计算机执行指令被处理器执行时，可用于实现本说明书的各个实施例中描述的文档信息抽取方法的各种操作和功能。

本发明中的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、模型和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims

1.一种文档信息抽取方法，其特征在于，包括：

获取文档中的目标文本序列的各个词的表征向量；

2.如权利要求1所述的文档信息抽取方法，其特征在于，通过编码器网络将所述各个词的表征向量转换成用于命名实体识别任务的第一隐层向量、用于关系抽取任务的第二隐层向量和用于共享任务的第三隐层向量，包括：

3.如权利要求2所述的文档信息抽取方法，其特征在于，第一隐层向量、第二隐层向量和第三隐层向量的算法公式为：

；

4.如权利要求3所述的文档信息抽取方法，其特征在于，所述第一表征向量和所述第二表征向量的算法公式为：

；

5.如权利要求4所述的文档信息抽取方法，其特征在于，所述实体span表征向量和所述头尾实体对表征向量的算法公式为：

；

6.如权利要求5所述的文档信息抽取方法，其特征在于，确定所述目标文本序列中各实体的实体位置和实体类型的算法公式为：

；

7.如权利要求5所述的文档信息抽取方法，其特征在于，确定所述目标文本序列中的头实体-关系-尾实体的对应关系的算法公式为：

；

8.如权利要求1所述的文档信息抽取方法，其特征在于，所述方法还包括：

9.如权利要求1所述的文档信息抽取方法，其特征在于，所述方法还包括：

构建包含标准化信息的标准项目库；

计算从所述目标文本序列中抽取的实体与所述标准项目库中的标准化信息的相似度；

以所述标准项目库中的相似度最高的标准化信息，作为所述目标文本序列中抽取的实体的输出结果。

10.一种文档信息抽取模型，其特征在于，包括：

11.一种电子设备，包括存储器、处理器、以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1~9中任一项所述的文档信息抽取方法。

12.一种计算机可读介质，其特征在于，所述计算机可读介质中承载有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1~9中任一项所述的文档信息抽取方法。