CN117408259B

CN117408259B - 一种信息提取方法、装置、计算机设备和存储介质

Info

Publication number: CN117408259B
Application number: CN202311707418.1A
Authority: CN
Inventors: 姜焰; 宁义双; 宁可; 肖肖
Original assignee: Kingdee Software China Co Ltd
Current assignee: Kingdee Software China Co Ltd
Priority date: 2023-12-13
Filing date: 2023-12-13
Publication date: 2024-04-05
Anticipated expiration: 2043-12-13
Also published as: CN117408259A

Abstract

本申请涉及一种信息提取方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：获取并识别目标文档对应的文本信息和文本位置信息；基于上述信息进行特征提取得到对应的特征向量；根据特征向量识别文本信息的各个字符的位置以识别对应的实体，根据特征向量识别各个字符对应的实体类别以识别字符所属的实体的实体类别；将实体分别进行配对，得到多个目标实体对，基于特征向量识别存在关联关系的目标实体对。基于此，首先，在字符级别上同步地、对应地识别实体和实体类别；再者，基于语义特征信息和位置特征信息，高效地、多维度地识别存在语义和位置关联关系的目标实体对，从而提高信息提取的高效性和准确性。

Description

一种信息提取方法、装置、计算机设备和存储介质

技术领域

本申请涉及文档信息提取技术领域，特别是涉及一种信息提取方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着人工智能领域的发展，出现了文档信息提取技术，基于该技术，实现对文档中的关键信息进行提取。

传统技术中，通常遵循常规的命名实体识别方法，对实体和实体类别进行识别；再者，根据简单的语义相似性，对实体之间的关系进行识别。

基于该传统技术，在文档信息提取的过程中，极大地降低了所识别的实体和实体关系的结果可靠性，从而降低了信息提取的准确性。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高信息提取的高效性和准确性的信息提取方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种信息提取方法，包括：

获取目标文档，并识别所述目标文档对应的文本信息和文本位置信息；

基于所述文本信息和所述文本位置信息进行特征提取得到对应的特征向量；

根据所述特征向量识别所述文本信息的各个字符在语义空间中的位置，根据相匹配的处于起始位置的字符和处于结束位置的字符识别对应的实体，根据所述特征向量识别各个字符所对应的实体类别，根据各个字符所对应的实体类别得到字符所属的实体的实体类别；

将实体类别为第一目标类别和实体类别为第二目标类别的实体分别进行配对，得到多个目标实体对，基于所述特征向量中的语义特征信息和位置特征信息，识别存在关联关系的目标实体对；其中所述语义特征信息用于表征文本所对应的语义关系，所述位置特征信息用于表征文本中的字符的位置距离关系。

在其中一个实施例中，所述根据所述特征向量识别所述文本信息的各个字符在语义空间中的位置，根据匹配的处于起始位置的字符和处于结束位置的字符识别对应的实体，包括：基于解码网络中的两个指针网络，分别识别出多个处于起始位置的字符和多个处于结束位置的字符，将距离最接近的处于起始位置的字符和处于结束位置的字符相匹配，得到对应的实体。

在其中一个实施例中，所述根据所述特征向量识别各个字符所对应的实体类别，根据各个字符所对应的实体类别得到字符所属的实体的实体类别，包括以下其中一种步骤：识别处于起始位置的字符所对应的实体类别，根据所述处于起始位置的字符所对应的实体类别得到所述处于起始位置的字符所属的实体的实体类别；识别同一实体中的各个字符所对应的实体类别，根据所述各个字符所对应的实体类别得到所述各个字符所属的同一实体的实体类别。

在其中一个实施例中，所述基于所述特征向量中的语义特征信息和位置特征信息，识别存在关联关系的目标实体对，包括：获取当前目标实体对分别在处于起始位置的字符对应的特征向量对，所述特征向量对通过双线性网络得到对应的二维向量；基于所述二维向量中的语义特征信息，得到所述当前目标实体对的关联关系识别结果。

在其中一个实施例中，所述基于所述特征向量中的语义特征信息和位置特征信息，识别存在关联关系的目标实体对，包括：获取当前目标实体对的两个实体所在的位置区域框，基于所述位置区域框的顶点得到所述当前目标实体对的至少两个相对位置距离，将所述相对位置距离通过嵌入网络转换为多个特征向量；将所述多个特征向量进行拼接并通过多层感知机得到对应的二维向量，基于所述二维向量中的位置特征信息，得到所述当前目标实体对的关联关系识别结果。

在其中一个实施例中，所述方法还包括：识别所述目标文档对应的图像信息，并将所述图像信息进行特征提取得到对应的图像特征信息；其中所述图像信息包括文本字体信息、文本颜色信息和文本纹理信息的至少一种；基于获取到的特征向量中的语义特征信息、位置特征信息和图像特征信息，识别存在关联关系的目标实体对。

在其中一个实施例中，所述识别存在关联关系的目标实体对之后，还包括：

将多个语义相同的实体映射为一个标准目标实体，将所述标准目标实体和存在关联关系的另一实体组成新的目标实体对。

第二方面，本申请还提供了一种信息提取装置，包括：

获取模块，用于获取目标文档，并识别所述目标文档对应的文本信息和文本位置信息；

提取模块，用于基于所述文本信息和所述文本位置信息进行特征提取得到对应的特征向量；

第一识别模块，用于根据所述特征向量识别所述文本信息的各个字符在语义空间中的位置，根据相匹配的处于起始位置的字符和处于结束位置的字符识别对应的实体，根据所述特征向量识别各个字符所对应的实体类别，根据各个字符所对应的实体类别得到字符所属的实体的实体类别；

第二识别模块，用于将实体类别为第一目标类别和实体类别为第二目标类别的实体分别进行配对，得到多个目标实体对，基于所述特征向量中的语义特征信息和位置特征信息，识别存在关联关系的目标实体对；其中所述语义特征信息用于表征文本所对应的语义关系，所述位置特征信息用于表征文本中的字符的位置距离关系。

第三方面，本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述信息提取方法、装置、计算机设备、存储介质和计算机程序产品，首先，在字符级别上同步地、对应地识别实体和实体类别；再者，在将实体组成目标实体对后，基于语义特征信息和位置特征信息，高效地、多维度地识别存在语义关联关系和位置关联关系的目标实体对，从而提高信息提取的高效性和准确性。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中信息提取方法的流程示意图；

图2为一个实施例中识别目标实体对的语义关联关系的流程示意图；

图3为一个实施例中识别目标实体对的位置关联关系的流程示意图；

图4为另一个实施例中信息提取方法的流程示意图；

图5为一个实施例中信息提取装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种信息提取方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤S102至步骤S108。其中：

步骤S102，获取目标文档，并识别目标文档对应的文本信息和文本位置信息。

其中，目标文档是指包含有文本的图像或扫描图；目标文档可表示为包含有文本、图像等多种模态信息的文档。文本信息是指文档中的文本内容；文本信息可表示为印刷文本内容或手写文本内容。文本位置信息是指文档中文本的位置坐标和排列方式；文本位置信息可表示为文本在文档中的布局信息。

示例性地，获取目标文档后，可基于OCR（Optical Character Recognition，光学字符识别）技术，识别出该目标文档中的文本、图像等内容对应的文本信息、文本位置信息。

步骤S104，基于文本信息和文本位置信息进行特征提取得到对应的特征向量。

其中，特征向量是指在原始数据中所提取出来的数值化特征；特征向量可表示为从文本信息中所提取的文本语义、文本结构等特征，也可表示为从文本位置信息中所提取的文本坐标、位置区域框大小等特征。

示例性地，根据目标文档对应的文本信息和文本位置信息进行数值化的特征提取，得到对应的特征向量，该特征向量能够完整地反映出目标文档中的文本内容和含义、文本的空间分布情况所对应的数值化特征。

可选地，选用编码网络，用于捕获所输入数据的特征信息，例如将已训练的LayoutLMv3-base-chinese模型作为编码网络，将目标文档对应的文本信息、文本位置信息和图像信息输入至该编码网络中，基于该编码网络输出对应的特征向量。

步骤S106，根据特征向量识别文本信息的各个字符在语义空间中的位置，根据相匹配的处于起始位置的字符和处于结束位置的字符识别对应的实体，根据特征向量识别各个字符所对应的实体类别，根据各个字符所对应的实体类别得到字符所属的实体的实体类别。

其中，实体是指在文本中可独立存在并且具有明确定义的实体或概念。语义空间可表示为实体对应的语义结构，字符在语义空间的位置可表示为字符在所属的实体中的语义结构位置；处于起始位置的字符、处于结束位置的字符分别表示为处于实体的开头、结尾的字符。

示例性地，一方面，在字符级别上识别对应的实体，即根据特征向量识别文本信息的各个字符在语义空间中的位置，从而识别出多个处于起始位置的字符和多个处于结束位置的字符，并对该多个字符匹配为对应的起始-结束字符对，根据相匹配的起始-结束字符对识别对应的实体。

另一方面，在识别各个字符在语义空间中的位置的同时，对应地、同步地在字符级别上识别对应的实体类别，即根据特征向量识别各个字符所对应的实体类别，进而根据各个字符所对应的实体类别得到字符所属的实体的实体类别。

步骤S108，将实体类别为第一目标类别和实体类别为第二目标类别的实体分别进行配对，得到多个目标实体对，基于特征向量中的语义特征信息和位置特征信息，识别存在关联关系的目标实体对；其中语义特征信息用于表征文本所对应的语义关系，位置特征信息用于表征文本中的字符的位置距离关系。

其中，实体的实体类别可包括键类别、值类别、标题类别；键类别的实体可表示为标识关键属性或字段的实体，即可表示为键值对中的键；值类别的实体可表示为与键相关联的具体数值或文本信息的实体，即可表示为键值对中的值；标题类别的实体可表示为标识文本中的标题或主题的实体。

其中，语义特征信息用于表征文本所对应的语义关系，表示文本语义含义的关键属性；语义特征信息可表示为能够反映文本的上下文信息所对应的语境含义的信息，也可表示为能够反映文本的语法结构和语法关系的信息，还可表示为反映文本的词义和词性结构的信息。

其中，位置特征信息用于表征文本中的字符的位置距离关系，表示为文本位置的关键属性；位置特征信息可表示为反映文本中的元素在文档、段落、句子中的位置信息，也可表示为反映文本中的元素对应的字符长度信息，还可表示为反映文本中的元素对应的距离长度信息，其中文本中的元素可表示为字符、短语、句子。

其中，存在关联关系的目标实体对可表示为两实体之间存在语义关联关系，也可表示为两实体之间的距离接近以存在位置关联关系。

示例性地，在识别实体的实体类别后，将实体类别为第一目标类别和实体类别为第二目标类别的实体分别逐一地进行配对，得到多个目标实体对，基于特征向量中的语义特征信息和位置特征信息，识别存在语义关联关系和位置关联关系的目标实体对。

可选地，可将实体类别为键类别和值类别的实体分别逐一地进行配对，得到多个键值对，再基于特征向量中的语义特征信息和位置特征信息，识别出存在关联关系的键值对。

上述信息提取方法中，首先，在字符级别上同步地、对应地识别实体和实体类别；再者，在将实体组成目标实体对后，基于语义特征信息和位置特征信息，高效地、多维度地识别存在语义关联关系和位置关联关系的目标实体对，从而提高信息提取的高效性和准确性。

在一个示例性的实施例中，根据特征向量识别文本信息的各个字符在语义空间中的位置，根据匹配的处于起始位置的字符和处于结束位置的字符识别对应的实体，包括步骤S202，其中：

步骤S202，基于解码网络中的两个指针网络，分别识别出多个处于起始位置的字符和多个处于结束位置的字符，将距离最接近的处于起始位置的字符和处于结束位置的字符相匹配，得到对应的实体。

其中，解码网络可与编码网络相配合，编码网络接收原始输入数据并输出特征信息，解码网络接收该特征信息并还原为与原始输入数据相接近的输出数据。指针网络是指通过指针动态地选择输入序列的元素的网络；在指针网络中，根据输入序列，生成输入序列中的各个元素对应的概率分布，从而判断在输入序列中选择处于哪个位置的元素。

示例性地，一个指针网络用于识别处于起始位置的字符，另一个指针网络用于识别处于结束位置的字符，指针网络根据所输入数据中各个字符对应的概率分布，从而动态地、全面地判断出多个处于起始位置的字符和多个处于结束位置的字符；再根据最近匹配原则，即将距离最接近的处于起始位置的字符和处于结束位置的字符相匹配，得到两字符所对应的同一实体。

本实施例中，首先，通过指针网络动态地、全面地扫描每一字符，从而准确地判断出处于起始位置的字符和处于结束位置的字符；再者，将距离最接近的处于起始位置的字符和处于结束位置的字符相匹配，从而高效地对实体进行识别。

在一个示例性的实施例中，根据特征向量识别各个字符所对应的实体类别，根据各个字符所对应的实体类别得到字符所属的实体的实体类别，包括以下步骤S302和步骤S304中的其中一种，其中：

步骤S302，识别处于起始位置的字符所对应的实体类别，根据处于起始位置的字符所对应的实体类别得到处于起始位置的字符所属的实体的实体类别。

步骤S304，识别同一实体中的各个字符所对应的实体类别，根据各个字符所对应的实体类别得到各个字符所属的同一实体的实体类别。

其中，识别字符所对应的实体类别，可表示为根据字符的属性特征，反映出字符所属实体的实体类别；字符的属性特征可表示为字符本身、字符位置、相邻字符信息、字符所在句子的语法结构、字符所在词汇的词法特征等。

示例性地，针对一类实体，可根据处于起始位置的字符对应的属性特征，直接地判断所属实体的实体类别；可选地，可根据处于开始位置的字符和结束位置的字符对应的属性特征，共同判断所属实体的实体类别。

示例性地，针对另一类实体，可根据各个字符所对应的属性特征，综合地、全面地判断所属实体的实体类别；可选地，可将出现识别次数最多的实体类别作为所属实体的实体类别，还可将依照字符排列顺序持续识别出的同一实体类别作为所属实体的实体类别，还可依照不同字符设置不同权重，基于不同权重综合地识别出所属实体的实体类别。

可选地，可根据已训练的三分类任务，对实体的实体类别进行识别，例如，将字符或实体输入至该三分类任务中，根据输出结果确定实体类别：在输出结果为0时，表示为非实体；在输出结果为1时，表示为键类别；在输出结果为2时，表示为值类别；在输出结果为3时，表示为标题类别。

本实施例中，根据特定位置的字符或根据特定数量的字符所对应的实体类别，高效地得到所属的实体的实体类别。

在一个示例性的实施例中，如图2所示，基于特征向量中的语义特征信息和位置特征信息，识别存在关联关系的目标实体对，包括步骤S402至步骤S404，其中：

步骤S402，获取当前目标实体对分别在处于起始位置的字符对应的特征向量对，特征向量对通过双线性网络得到对应的二维向量。

其中，双线性网络是指用于处理两个输入之间的关系的网络；在双线性网络中，根据所输入的两个数据，捕获该两个输入数据之间的关联关系。

其中，通过双线性网络所学习得到的二维向量，反映了当前目标实体对之间的关联关系。

示例性地，获取当前目标实体对分别在处于起始位置的字符对应的特征向量对，将该特征向量对输入至双线性网络中，由该双线性网络针对该特征向量对之间的关联关系进行捕获，得到对应的二维向量。

示例性地，基于爱因斯坦求和公式所实现的网络，可实现与双线性网络相似的功能，其中爱因斯坦求和公式是指一种用于简化线性代数的约定，能够使得数学表达更加紧凑；可以理解地，基于爱因斯坦求和公式所实现的网络，在针对所输入数据的数学表达进行简化的过程中，捕获并分析输入数据之间的关联关系，与前述双线性网络所实现的功能相似。在此基础上，基于爱因斯坦求和公式，可将网络模型的格式转换为ONNX格式，以提高网络模型在各种加速框架的适配性，同时不影响网络模型的精度。

步骤S404，基于二维向量中的语义特征信息，得到当前目标实体对的关联关系识别结果。

示例性地，二维向量的语义特征信息与步骤S104中的特征向量的语义特征信息相对应，根据二维向量中的语义特征信息，判断当前目标实体对是否存在语义关联关系。

可选地，可根据已训练的二分类任务，对目标实体对是否存在语义关联关系进行识别，例如，将目标实体对输入至该二分类任务中，根据输出结果确定实体类别：在输出结果为0时，表示为目标实体对存在语义关联关系；在输出结果为1时，表示为目标实体对不存在语义关联关系。

本实施例中，通过双线性网络对目标实体对的特征信息进行高效的处理，从而根据处理后的特征信息高效地得到目标实体对的语义关联关系识别结果。

再者，基于爱因斯坦求和公式所实现的网络可高效地实现双线性网络对应的功能；此外，通过爱因斯坦求和公式，可将网络模型的格式转换为ONNX格式，使得网络模型适配于各种加速框架，从而提高网络模型的推理速度。

在一个示例性的实施例中，如图3所示，基于特征向量中的语义特征信息和位置特征信息，识别存在关联关系的目标实体对，包括步骤S502至步骤S504，其中：

步骤S502，获取当前目标实体对的两个实体所在的位置区域框，基于位置区域框的顶点得到当前目标实体对的至少两个相对位置距离，将相对位置距离通过嵌入网络转换为多个特征向量。

其中，实体所在的位置区域框是指针对实体的位置所标注出对应的区域；可根据实体中的起始和结束字符位置定义实体的位置区域框，也可根据实体在文档中所占的区域划分对应的位置区域框。

其中，嵌入网络是指将高纬度的输入数据映射到低维度嵌入空间的网络，能够使得相似的数据在低维度嵌入空间中更加接近，有助于对数据的关联性进行进一步的分析。

示例性地，获取当前目标实体对的两个实体所在的位置区域框，基于两个位置区域框在对应位置的顶点得到至少两个相对位置距离，将该相对位置距离输入至嵌入网络中，由嵌入网络将高维度的相对位置距离映射到低维度嵌入空间中，生成多个低维度特征向量。

步骤S504，将多个特征向量进行拼接并通过多层感知机得到对应的二维向量，基于二维向量中的位置特征信息，得到当前目标实体对的关联关系识别结果。

其中，多层感知机是一种基于前馈神经结构的机器学习模型，其包含有多个相连的神经网络层。

其中，通过多层感知机所学习得到的二维向量，反映了目标实体对之间的关联关系。

示例性地，将多个特征向量进行拼接并通过多层感知机得到对应的二维向量，该二维向量的位置特征信息与步骤S104中的特征向量的位置特征信息相对应，根据二维向量中的位置特征信息，判断当前目标实体对是否存在位置关联关系。

可选地，位置区域框为矩形时，基于平面直角坐标系，根据两个矩形分别在左上角顶点的坐标位置，分别得到关于左上角顶点的x轴相对位置距离和y轴相对位置距离，根据两个矩形分别在右下角顶点的坐标位置，分别得到关于右下角顶点的X轴相对位置距离和Y轴相对位置距离，由此得到四个相对位置距离；将该四个相对位置距离通过嵌入网络转为四个特征向量，将该四个特征向量进行拼接并通过多层感知机得到一对二维向量，将该一对二维向量相加，基于相加后的一对二维向量中的位置特征信息，得到当前目标实体对的关联关系识别结果。

本实施例中，通过目标实体对的位置区域框的顶点距离得到目标实体对的相对位置距离，再通过嵌入网络将相对位置距离转换为对应的特征向量，并通过多层感知机对特征向量进行进一步的特征处理后，准确地得到目标实体对的位置关联关系识别结果。

在一个示例性的实施例中，该方法还包括步骤S602和步骤S604，其中：

步骤S602, 识别目标文档对应的图像信息，并将图像信息进行特征提取得到对应的图像特征信息；其中图像信息包括文本字体信息、文本颜色信息和文本纹理信息的至少一种。

其中，文本字体信息是指字体类型，例如宋体、楷体；文本字体信息也可表示为文本字号大小；文本字体信息还可表示为文本状态，例如加粗状态、倾斜状态。文本颜色信息是指文本的色彩；文本颜色信息也可表示为文本所对应文本背景的色彩，或文本和文本背景所对应的对比度、亮度等信息。文本纹理信息是指表征文本表面的细节和结构的信息，例如，文本边缘的纹理样式、文本内部的填充样式。

示例性地，根据目标文档对应的图像信息进行数值化的特征提取，得到对应的图像特征信息，该图像特征信息能够完整地反映出目标文档中的文本字体信息、文本颜色信息或文本纹理信息所对应的数值化特征。

步骤S604，基于获取到的特征向量中的语义特征信息、位置特征信息和图像特征信息，识别存在关联关系的目标实体对。

示例性地，基于特征向量中的语义特征信息、位置特征信息和图像特征信息，在文本语义维度、文本位置维度、文本图像维度上综合地识别存在关联关系的目标实体对；可以理解地，在文本图像维度上，若目标实体对中分别对应的图像特征信息相一致，则可表示为该目标实体对所对应的文本字体信息、文本颜色信息或文本纹理信息是相一致的，则该目标实体对存在关联关系的概率较大。

本实施例中，在将实体组成目标实体对后，可基于文本语义维度、文本位置维度、文本图像维度，综合性地、准确性地确定目标实体对的关联关系。

在一个示例性的实施例中，如图4所示，识别存在关联关系的目标实体对之后，还包括步骤S702，其中：

步骤S702，将多个语义相同的实体映射为一个标准目标实体，将标准目标实体和存在关联关系的另一实体组成新的目标实体对。

其中，标准目标实体是指符合特定标准或规范的实体；标准目标实体可表示为基于标准命名规则进行命名的实体。

示例性地，若存在有多个语义相同的实体，且该多个语义相同的实体与同一实体分别组成存在关联关系的目标实体对，则将该多个语义相同的实体映射为一个基于标准命名规则进行命名的标准目标实体，将该标准目标实体和存在关联关系的另一实体组成新的目标实体对。

可选地，在银行回单的场景下，存在有多个语义相同的实体，例如“付款人户名”、“付款人全称”、“付款人名称”等实体，则需将该多个语义相同的实体映射为一个命名规范的实体。

本实施例中，通过将语义相同的实体映射为同一标准目标实体，从而减少所需传输和存储的数据量，从而节省计算机资源。

在一个示例性的实施例中，基于多模态模型，实现识别实体和实体类别、提取实体关系的功能。

针对待训练的多模态模型，可选用开源的多语言数据集，例如xfund、funsd数据集，同时采集不同语境场景、不同业务场景的数据作为数据集；在自行采集的数据中，采用OCR技术进行识别，

为简化模型训练时的数据处理过程，需将数据转换为统一的格式，例如转换为xfund格式；其中xfund格式的数据包括以下内容：矩形位置区域框分别在左上角和右下角的坐标值、文本内容、实体类型、键值对关系。

将转换为统一格式的数据按照预设比例切分为训练集、验证集、测试集，分别用于对模型的参数进行训练、对模型的超参数进行调优和性能评估、对训练完的模型进行性能评估；例如按照8:1:1的比例，将数据切分为训练集、验证集、测试集。

在该多模态模型中，包含有基于文本信息、文本位置信息和图像信息提取对应特征向量的LayoutLMv3-base-chinese模型，还包括识别处于起始和结束位置的字符的指针网络，还包括针对实体类别进行识别的三分类任务，还包括针对目标实体对的语义关联关系进行识别的双线性网络和二分类任务，还包括针对目标实体对的位置关联关系进行识别的模型；基于此，针对该多模态模型进行训练的过程，可表示为针对该多模态模型中所包含的模型网络、分类任务进行训练。

将训练集输入至该多模态模型中进行训练，根据训练结果调整多模态模型的模型网络和模型参数，最终得到该多模态模型的最优的模型网络和模型参数。

其中在模型训练的过程中，基于损失函数度量模型的输出和真实值之间的差异，需同时考虑在识别实体和实体类别时产生的损失，以及在识别实体对关联关系时产生的损失。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的信息提取方法的信息提取装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个信息提取装置实施例中的具体限定可以参见上文中对于信息提取方法的限定，在此不再赘述。

在一个示例性的实施例中，如图5所示，提供了一种信息提取装置，包括：获取模块802、提取模块804、第一识别模块806和第二识别模块808，其中：

获取模块802，用于获取目标文档，并识别目标文档对应的文本信息和文本位置信息。

提取模块804，用于基于文本信息和文本位置信息进行特征提取得到对应的特征向量。

第一识别模块806，用于根据特征向量识别文本信息的各个字符在语义空间中的位置，根据相匹配的处于起始位置的字符和处于结束位置的字符识别对应的实体，根据特征向量识别各个字符所对应的实体类别，根据各个字符所对应的实体类别得到字符所属的实体的实体类别。

第二识别模块808，用于将实体类别为第一目标类别和实体类别为第二目标类别的实体分别进行配对，得到多个目标实体对，基于特征向量中的语义特征信息和位置特征信息，识别存在关联关系的目标实体对；其中语义特征信息用于表征文本所对应的语义关系，位置特征信息用于表征文本中的字符的位置距离关系。

在一个示例性的实施例中，第一识别模块806还用于基于解码网络中的两个指针网络，分别识别出多个处于起始位置的字符和多个处于结束位置的字符，将距离最接近的处于起始位置的字符和处于结束位置的字符相匹配，得到对应的实体。

在一个示例性的实施例中，第一识别模块806还用于识别处于起始位置的字符所对应的实体类别，根据处于起始位置的字符所对应的实体类别得到处于起始位置的字符所属的实体的实体类别；或用于识别同一实体中的各个字符所对应的实体类别，根据各个字符所对应的实体类别得到各个字符所属的同一实体的实体类别。

在一个示例性的实施例中，第二识别模块808还用于获取当前目标实体对分别在处于起始位置的字符对应的特征向量对，特征向量对通过双线性网络得到对应的二维向量；基于二维向量中的语义特征信息，得到当前目标实体对的关联关系识别结果。

在一个示例性的实施例中，第二识别模块808还用于获取当前目标实体对的两个实体所在的位置区域框，基于位置区域框的顶点得到当前目标实体对的至少两个相对位置距离，将相对位置距离通过嵌入网络转换为多个特征向量；将多个特征向量进行拼接并通过多层感知机得到对应的二维向量，基于二维向量中的位置特征信息，得到当前目标实体对的关联关系识别结果。

在其中一个实施例中，该装置还包括图像信息模块，该图像信息模块用于识别目标文档对应的图像信息，并将图像信息进行特征提取得到对应的图像特征信息；其中图像信息包括文本字体信息、文本颜色信息和文本纹理信息的至少一种；基于获取到的特征向量中的语义特征信息、位置特征信息和图像特征信息，识别存在关联关系的目标实体对。

在一个示例性的实施例中，该装置还包括归一化模块，该归一化模块用于将多个语义相同的实体映射为一个标准目标实体，将标准目标实体和存在关联关系的另一实体组成新的目标实体对。

上述信息提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个示例性的实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储目标文档对应的文本信息和文本位置信息，以及对应的特征向量信息，还用于存储所识别出的实体、实体类别、目标实体对等信息。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种信息提取方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个示例性的实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取目标文档，并识别目标文档对应的文本信息和文本位置信息；

基于文本信息和文本位置信息进行特征提取得到对应的特征向量；

根据特征向量识别文本信息的各个字符在语义空间中的位置，根据相匹配的处于起始位置的字符和处于结束位置的字符识别对应的实体，根据特征向量识别各个字符所对应的实体类别，根据各个字符所对应的实体类别得到字符所属的实体的实体类别；

将实体类别为第一目标类别和实体类别为第二目标类别的实体分别进行配对，得到多个目标实体对，基于特征向量中的语义特征信息和位置特征信息，识别存在关联关系的目标实体对；其中语义特征信息用于表征文本所对应的语义关系，位置特征信息用于表征文本中的字符的位置距离关系。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：基于解码网络中的两个指针网络，分别识别出多个处于起始位置的字符和多个处于结束位置的字符，将距离最接近的处于起始位置的字符和处于结束位置的字符相匹配，得到对应的实体。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：识别处于起始位置的字符所对应的实体类别，根据处于起始位置的字符所对应的实体类别得到处于起始位置的字符所属的实体的实体类别；识别同一实体中的各个字符所对应的实体类别，根据各个字符所对应的实体类别得到各个字符所属的同一实体的实体类别。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取当前目标实体对分别在处于起始位置的字符对应的特征向量对，特征向量对通过双线性网络得到对应的二维向量；基于二维向量中的语义特征信息，得到当前目标实体对的关联关系识别结果。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取当前目标实体对的两个实体所在的位置区域框，基于位置区域框的顶点得到当前目标实体对的至少两个相对位置距离，将相对位置距离通过嵌入网络转换为多个特征向量；将多个特征向量进行拼接并通过多层感知机得到对应的二维向量，基于二维向量中的位置特征信息，得到当前目标实体对的关联关系识别结果。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：识别目标文档对应的图像信息，并将图像信息进行特征提取得到对应的图像特征信息；其中图像信息包括文本字体信息、文本颜色信息和文本纹理信息的至少一种；基于获取到的特征向量中的语义特征信息、位置特征信息和图像特征信息，识别存在关联关系的目标实体对。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将多个语义相同的实体映射为一个标准目标实体，将标准目标实体和存在关联关系的另一实体组成新的目标实体对。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：基于解码网络中的两个指针网络，分别识别出多个处于起始位置的字符和多个处于结束位置的字符，将距离最接近的处于起始位置的字符和处于结束位置的字符相匹配，得到对应的实体。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：识别处于起始位置的字符所对应的实体类别，根据处于起始位置的字符所对应的实体类别得到处于起始位置的字符所属的实体的实体类别；识别同一实体中的各个字符所对应的实体类别，根据各个字符所对应的实体类别得到各个字符所属的同一实体的实体类别。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取当前目标实体对分别在处于起始位置的字符对应的特征向量对，特征向量对通过双线性网络得到对应的二维向量；基于二维向量中的语义特征信息，得到当前目标实体对的关联关系识别结果。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取当前目标实体对的两个实体所在的位置区域框，基于位置区域框的顶点得到当前目标实体对的至少两个相对位置距离，将相对位置距离通过嵌入网络转换为多个特征向量；将多个特征向量进行拼接并通过多层感知机得到对应的二维向量，基于二维向量中的位置特征信息，得到当前目标实体对的关联关系识别结果。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：识别目标文档对应的图像信息，并将图像信息进行特征提取得到对应的图像特征信息；其中图像信息包括文本字体信息、文本颜色信息和文本纹理信息的至少一种；基于获取到的特征向量中的语义特征信息、位置特征信息和图像特征信息，识别存在关联关系的目标实体对。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将多个语义相同的实体映射为一个标准目标实体，将标准目标实体和存在关联关系的另一实体组成新的目标实体对。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要符合相关规定。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种信息提取方法，其特征在于，所述方法包括：

将实体类别为第一目标类别和实体类别为第二目标类别的实体分别进行配对，得到多个目标实体对，基于所述特征向量中的语义特征信息和位置特征信息，识别存在关联关系的目标实体对；其中所述语义特征信息用于表征文本所对应的语义关系，所述位置特征信息用于表征文本中的字符的位置距离关系；所述位置特征信息包括以下信息中的至少一种：反映文本中的元素在文档、段落、句子中的位置的信息，反映文本中的元素对应的字符长度的信息，以及反映文本中的元素对应的距离长度的信息；其中，文本中的元素包括字符、短语、句子。

2.根据权利要求1所述的方法，其特征在于，所述根据所述特征向量识别所述文本信息的各个字符在语义空间中的位置，根据匹配的处于起始位置的字符和处于结束位置的字符识别对应的实体，包括：

基于解码网络中的两个指针网络，分别识别出多个处于起始位置的字符和多个处于结束位置的字符，将距离最接近的处于起始位置的字符和处于结束位置的字符相匹配，得到对应的实体。

3.根据权利要求1所述的方法，其特征在于，所述根据所述特征向量识别各个字符所对应的实体类别，根据各个字符所对应的实体类别得到字符所属的实体的实体类别，包括以下其中一种步骤：

识别处于起始位置的字符所对应的实体类别，根据所述处于起始位置的字符所对应的实体类别得到所述处于起始位置的字符所属的实体的实体类别；

识别同一实体中的各个字符所对应的实体类别，根据所述各个字符所对应的实体类别得到所述各个字符所属的同一实体的实体类别。

4.根据权利要求1所述的方法，其特征在于，所述基于所述特征向量中的语义特征信息和位置特征信息，识别存在关联关系的目标实体对，包括：

获取当前目标实体对分别在处于起始位置的字符对应的特征向量对，所述特征向量对通过双线性网络得到对应的二维向量；

基于所述二维向量中的语义特征信息，得到所述当前目标实体对的关联关系识别结果。

5.根据权利要求1所述的方法，其特征在于，所述基于所述特征向量中的语义特征信息和位置特征信息，识别存在关联关系的目标实体对，包括：

获取当前目标实体对的两个实体所在的位置区域框，基于所述位置区域框的顶点得到所述当前目标实体对的至少两个相对位置距离，将所述相对位置距离通过嵌入网络转换为多个特征向量；

将所述多个特征向量进行拼接并通过多层感知机得到对应的二维向量，基于所述二维向量中的位置特征信息，得到所述当前目标实体对的关联关系识别结果。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

识别所述目标文档对应的图像信息，并将所述图像信息进行特征提取得到对应的图像特征信息；其中所述图像信息包括文本字体信息、文本颜色信息和文本纹理信息的至少一种；

基于获取到的特征向量中的语义特征信息、位置特征信息和图像特征信息，识别存在关联关系的目标实体对。

7.根据权利要求1所述的方法，其特征在于，所述识别存在关联关系的目标实体对之后，还包括：

8.一种信息提取装置，其特征在于，所述装置包括：

第二识别模块，用于将实体类别为第一目标类别和实体类别为第二目标类别的实体分别进行配对，得到多个目标实体对，基于所述特征向量中的语义特征信息和位置特征信息，识别存在关联关系的目标实体对；其中所述语义特征信息用于表征文本所对应的语义关系，所述位置特征信息用于表征文本中的字符的位置距离关系；所述位置特征信息包括以下信息中的至少一种：反映文本中的元素在文档、段落、句子中的位置的信息，反映文本中的元素对应的字符长度的信息，以及反映文本中的元素对应的距离长度的信息；其中，文本中的元素包括字符、短语、句子。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。