CN116311320B

CN116311320B - 文本图像融合层的训练方法、文本图像识别方法及装置

Info

Publication number: CN116311320B
Application number: CN202310571704.3A
Authority: CN
Inventors: 周婉月
Original assignee: CCB Finetech Co Ltd
Current assignee: CCB Finetech Co Ltd
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-08-22
Anticipated expiration: 2043-05-22
Also published as: CN116311320A

Abstract

本申请提供了一种文本图像融合层的训练方法、文本图像识别方法及装置，可以应用于人工智能领域、自然语言处理领域和计算机视觉领域。该训练方法包括：对样本文本图像块进行图像特征提取，得到样本图像特征；对与样本文本图像块对应的样本文本数据进行文本特征提取，得到样本文本特征；根据与样本文本图像块对应的样本布局特征，分别更新样本图像特征和样本文本特征，得到样本第二候选图像特征和样本第二候选文本特征；将样本第二候选图像特征和样本第二候选文本特征输入至初始文本图像融合层，以便基于自注意力机制训练初始文本图像融合层，得到训练后的目标文本图像融合层。根据本申请提供的方案可以提升对文本图像中文本的识别准确率。

Description

文本图像融合层的训练方法、文本图像识别方法及装置

技术领域

本申请涉及人工智能领域、自然语言处理领域和计算机视觉技术领域，尤其涉及一种文本图像融合层的训练方法、文本图像识别方法、装置、设备、存储介质和程序产品。

背景技术

随着科技的快速发展以及业务量的快速增长，越来越多的企业通过文件扫描件文本图像来进行相关业务信息的交互。例如可以将表格、收据、支票、保险单等表单文档进行图像采集，得到相应的文本图像。同时还可以基于相关的文本识别技术来提取文本图像中的重要信息，以供业务数据分析等数据处理工作。

但是相关技术中对于文本图像中的信息抽取的准确程度仍然较低，导致难以将从文本图像中提取的信息直接应用于数据分析等后续信息处理工作中。

发明内容

鉴于上述问题，本申请提供了一种文本图像融合层的训练方法、文本图像识别方法、装置、设备、存储介质和程序产品。

根据本申请的第一个方面，提供了一种文本图像融合层的训练方法，包括：对样本文本图像块进行图像特征提取，得到样本图像特征，其中，上述样本文本图像块为对样本文本图像进行分割后得到的，上述样本文本图像块记录有样本文本数据；

对与上述样本文本图像块对应的样本文本数据进行文本特征提取，得到样本文本特征；

根据与上述样本文本图像块对应的样本布局特征，分别更新上述样本图像特征和上述样本文本特征，得到样本第二候选图像特征和样本第二候选文本特征，其中，上述样本布局特征表征上述样本文本图像块在上述样本文本图像中的布局信息；以及

将上述样本第二候选图像特征和上述样本第二候选文本特征输入至初始文本图像融合层，以便基于自注意力机制训练上述初始文本图像融合层，得到训练后的目标文本图像融合层，其中，上述目标文本融合层适用于确定文本图像中的文本的实体标识，以及上述文本图像中文本之间的关系标识。

根据本申请的实施例，上述布局信息包括位置信息和尺寸信息；

上述训练方法还包括：利用布局特征嵌入层处理上述位置信息和上述尺寸信息，输出与上述样本文本图像块对应的样本布局特征。

根据本申请的实施例，上述样本文本数据由样本字构成，上述样本文本特征包括与上述样本字对应的样本字文本特征；

根据与上述样本文本图像块对应的样本布局特征，分别更新上述样本图像特征和上述样本文本特征包括：

将上述样本图像特征和与上述样本图像特征对应的样本布局特征进行特征融合，得到样本第一候选图像特征；

利用上述样本文本特征中的样本字文本特征分别与上述样本布局特征进行特征融合，得到样本第一候选字文本字特征；以及

基于上述样本第一候选图像特征确定与上述样本文本图像块对应的样本第二候选图像特征，以及基于上述样本第一候选字文本字特征确定与上述样本文本数据对应的样本第二候选文本字特征。

根据本申请的实施例，上述样本文本图像块和与上述样本文本图像块对应的样本文本数据通过索引信息相关联；

其中，基于上述样本第一候选图像特征确定与上述样本文本图像块对应的样本第二候选图像特征，以及基于上述样本第一候选字文本字特征确定与上述样本文本数据对应的样本第二候选文本字特征包括：

将上述样本第一候选图像特征与和上述样本第一候选图像特征对应的索引特征进行特征融合，得到与上述样本文本图像块对应的样本第二候选图像特征，其中，上述索引特征为通过索引特征嵌入层处理上述索引信息后得到的；

将上述样本第一候选字文本字特征分别与上述索引特征进行特征融合，得到样本第二候选字文本特征；以及

基于上述样本第二候选字文本特征，确定上述样本第二候选文本特征。

根据本申请的实施例，上述样本文本图像块和上述样本文本数据均包括n个，上述样本文本图像块与上述样本文本数据一一对应，n为大于1的正整数；

其中，将上述样本第二候选图像特征和上述样本第二候选文本特征输入至初始文本图像融合层，以便基于自注意力机制训练上述初始文本图像融合层包括：

将n个上述样本第二候选图像特征、表征上述样本文本图像的样本全域图像特征和n个上述样本第二候选文本特征进行拼接，得到样本训练特征；以及

将上述样本训练特征输入至上述初始文本图像融合层中，以便基于上述自注意力机制训练上述初始文本图像融合层，得到上述目标文本图像融合层。

根据本申请的实施例，基于上述自注意力机制训练上述初始文本图像融合层包括：

基于块内自注意力机制训练上述初始文本图像融合层，以便上述目标文本图像融合层输出与上述样本文本数据对应的样本目标文本特征；

根据文本长度预测任务训练上述初始文本图像融合层，以便上述目标文本图像融合层处理上述样本文本图像块后，输出上述样本文本图像块表征的文本长度；以及

根据文本图像块相对位置预测任务训练上述初始文本图像融合层，以便上述目标文本图像融合层输出n个上述样本文本图像块中，不同的样本文本图像块之间的相对位置关系。

根据本申请的实施例，上述训练方法还包括：

将上述目标文本图像融合层、实体标注层和关系标注层按照预设顺序连接，构建得到文本图像识别模型。

本申请的第二方面提供了一种文本图像识别方法，包括：

将从文本图像中提取到的文本图像块，以及与上述文本图像块对应的文本数据输入至文本图像识别模型，输出与上述文本图像中的文本对应的实体标识和上述文本图像中的文本之间的关系标识；

其中，上述文本图像识别模型包括文本图像融合层，上述文本图像融合层根据上述的训练方法训练得到。

本申请的第三方面提供了一种文本图像融合层训练装置，包括：

图像特征提取模块，用于对样本文本图像块进行图像特征提取，得到样本图像特征，其中，上述样本文本图像块为对样本文本图像进行分割后得到的，上述样本文本图像块记录有样本文本数据；

文本特征提取模块，用于对与上述样本文本图像块对应的样本文本数据进行文本特征提取，得到样本文本特征；

特征更新模块，用于根据与上述样本文本图像块对应的样本布局特征，分别更新上述样本图像特征和上述样本文本特征，得到样本第二候选图像特征和样本第二候选文本特征，其中，上述样本布局特征表征上述样本文本图像块在上述样本文本图像中的布局信息；以及

训练模块，用于将上述样本第二候选图像特征和上述样本第二候选文本特征输入至初始文本图像融合层，以便基于自注意力机制训练上述初始文本图像融合层，得到训练后的目标文本图像融合层，其中，上述目标文本融合层适用于确定文本图像中的文本的实体标识，以及上述文本图像中文本之间的关系标识。

本申请的第四方面提供了一种文本图像识别装置，包括：文本图像标识模块；

文本图像标识模块，用于将从文本图像中提取到的文本图像块，以及与上述文本图像块对应的文本数据输入至文本图像识别模型，输出与上述文本图像中的文本对应的实体标识和上述文本图像中的文本之间的关系标识；

本申请的第五方面提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当上述一个或多个程序被上述一个或多个处理器执行时，使得一个或多个处理器执行上述方法。

本申请的第六方面还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行上述方法。

本申请的第七方面还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述方法。

根据本申请提供的文本图像融合层的训练方法、文本图像识别方法、装置、设备、存储介质和程序产品，通过利用样本布局特征分别更新表征样本文本图像块的样本图像特征，以及更新表征样本文本图像块中的样本文本数据的样本文本特征，使得更新后得到的样本第二候选文本特征和样本第二候选图像特征融合有样本文本图像块在样本图像中的布局信息，然后利用样本第二候选图像特征和样本第二候选文本特征训练得到的目标文本图像融合层，可以使目标文本图像融合层学习到样本文本图像块的布局信息，至少部分避免相关技术中的文本图像抽取方法中忽略了文本图像的文本布局结构信息，导致对于文本图像中的信息抽取的准确程度较低的技术问题，进而使基于训练后的目标文本图像融合层构建得到的文本图像识别模型可以提升针对文本图像中文本的识别准确率。

附图说明

通过以下参照附图对本申请实施例的描述，本申请的上述内容以及其他目的、特征和优点将更为清楚，在附图中：

图1a为根据本申请实施例的文本图像识别方法、装置的示例性系统架构图；

图1b为根据本申请实施例的文本图像融合层的训练方法的流程图；

图2为根据本申请实施例的文本图像融合层的训练方法的应用场景图；

图3a为根据本申请一实施例的文本图像融合层的训练方法流程图；

图3b为根据本申请另一实施例的文本图像融合层的训练方法流程图；

图3c为根据本申请又一实施例的文本图像融合层的训练方法流程图；

图4为根据本申请另一实施例的文本图像识别模型结构框图；

图5为根据本申请实施例的文本图像识别方法的流程图；

图6为根据本申请实施例的文本图像融合层训练装置的框图；

图7为根据本申请实施例的文本图像识别装置的框图；

图8为根据本申请实施例的适于实现训练方法、文本图像识别方法的电子设备的框图。

具体实施方式

以下，将参照附图来描述本申请的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本申请的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本申请实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本申请的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本申请。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语（包括技术和科学术语）具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释（例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等）。

在本申请的技术方案中，所涉及的数据（如包括但不限于用户个人信息）的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

表单文档在生活中大多以PDF或图片形式在企业办公过程中流转和保存，表单文档可以包括表格、收据、支票、保险单、证件等。这些文本图像块没有统一的编写标准，但包括了大量结构化信息，且具有存储并再次利用的价值。由业务人员手工录入结构化信息的方式不仅需要消耗大量资源、效率低下，并且可能导致漏项错项的问题。因此，需要一种可以从表单文档中自动识别结构化信息，并对结构化信息进行处理的文本图像识别方法。

相关技术中，基于文本识别技术来提取文本图像中的重要信息的准确程度较低，导致难以将结构化信息从表单文档对应的文本图像中准确提取出来，并应用于数据分析等后续信息处理工作中。

为了至少部分地解决相关技术中存在的技术问题，本申请提供了一种文本图像融合层的训练方法、文本图像识别方法、装置、设备、存储介质和程序产品。该文本图像融合层的训练方法包括：对样本文本图像块进行图像特征提取，得到样本图像特征，其中，样本文本图像块为对样本文本图像进行分割后得到的，样本文本图像块记录有样本文本数据；对与样本文本图像块对应的样本文本数据进行文本特征提取，得到样本文本特征；根据与样本文本图像块对应的样本布局特征，分别更新样本图像特征和样本文本特征，得到样本第二候选图像特征和样本第二候选文本特征，其中，样本布局特征表征样本文本图像块在样本文本图像中的布局信息；将样本第二候选图像特征和样本第二候选文本特征输入至初始文本图像融合层，以便基于自注意力机制训练初始文本图像融合层，得到训练后的目标文本图像融合层，其中，目标文本融合层适用于确定文本图像中的文本的实体标识，以及文本图像中文本之间的关系标识。

本申请的实施例还提供了一种文本图像识别方法，包括：将从文本图像中提取到的文本图像块，以及与文本图像块对应的文本数据输入至文本图像识别模型，输出与文本图像中的文本对应的实体标识和文本图像中的文本之间的关系标识；其中，文本图像识别模型包括文本图像融合层，文本图像融合层根据上述的训练方法训练得到。

图1a为根据本申请实施例的文本图像识别方法、装置的示例性系统架构图。需要注意的是，图1a所示仅为可以应用本申请实施例的应用场景的示例，以帮助本领域技术人员理解本申请的技术内容，但并不意味着本申请实施例不可以用于其他设备、系统、环境或场景。

如图1a所示，网络104用以在第一终端设备101、第二终端设备102、第三终端设备103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用第一终端设备101、第二终端设备102、第三终端设备103中的至少一个通过网络104与服务器105交互，以接收或发送消息等。第一终端设备101、第二终端设备102、第三终端设备103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等（仅为示例）。

第一终端设备101、第二终端设备102、第三终端设备103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用第一终端设备101、第二终端设备102、第三终端设备103所浏览的网站提供支持的后台管理服务器（仅为示例）。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果（例如根据用户请求获取或生成的网页、信息、或数据等）反馈给终端设备。

需要说明的是，本申请实施例所提供的文本图像识别方法一般可以由服务器105执行。相应地，本申请实施例所提供的文本图像识别装置一般可以设置于服务器105中。本申请实施例所提供的文本图像识别方法也可以由不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群执行。相应地，本申请实施例所提供的文本图像识别装置也可以设置于不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群中。

应该理解，图1a中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

以下将结合图1b、图2、图3a、图3b和图3c，对本申请实施例提供的文本图像融合层的训练方法和文本图像识别方法进行详细描述。

图1b示为根据本申请实施例的文本图像融合层的训练方法的流程图。

如图1b所示，文本图像融合层的训练方法包括操作S110~S140。

在操作S110，对样本文本图像块进行图像特征提取，得到样本图像特征，其中，样本文本图像块为对样本文本图像进行分割后得到的，样本文本图像块记录有样本文本数据。

根据本申请的实施例，样本文本图像可以是针对报表、广告单、收据支票、保险单等文档进行图像采集后得到的图像，但不限于，还可以是包括图像、文字的样本文档。样本文档中对应包括多个样本文本数据，对样本文档进行图像采集可以得到样本文本图像。

根据本申请的实施例，样本文本图像可以包括表征多个独立内容的样本文本数据的图像，将这些图像进行分割提取，得到多个样本文本图像块，1个样本文本图像块中可以包括表征1个独立内容的样本文本数据的图像。

在操作S120，对与样本文本图像块对应的样本文本数据进行文本特征提取，得到样本文本特征。

根据本申请的实施例，进行文本特征提取的手段可以包括对与文本图像块对应的样本文本数据进行提取，得到样本文本特征。对与文本图像块对应的样本文本数据进行提取可以是利用任意网络模型对与文本图像块对应的样本文本数据进行的提取，得到的样本文本特征可以为对与文本图像块对应的样本文本数据进行整体提取得到的语句样本文本特征，也可以为对与文本图像块对应的样本文本数据进行单个字特征的提取得到的字样本文本特征，本申请的实施例对文本特征提取的手段不做限定，本申请的实施例对样本文本特征的种类不做限定，本领域技术人员可以根据实际需求进行设计。根据本申请的实施例，样本文本特征可以包括表征与文本图像块对应的样本文本数据的多个字特征和/或整体的样本文本块的特征。

在操作S130，根据与样本文本图像块对应的样本布局特征，分别更新样本图像特征和样本文本特征，得到样本第二候选图像特征和样本第二候选文本特征，其中，样本布局特征表征样本文本图像块在样本文本图像中的布局信息。

根据本申请的实施例，样本布局特征可以包括表征样本文本图像块在样本文本图像中的所处的位置信息的特征，以及表征样本文本图像块自身的尺寸信息的特征，根据样本布局特征对样本图像特征和样本文本特征进行更新，得到样本第二候选图像特征和样本第二候选文本特征。

根据本申请的实施例，样本第二候选图像特征包括其对应的样本文本图像块的样本图像特征、其对应的样本文本图像块的样本布局特征，以及其对应的样本文本图像块所包括的样本图像特征和样本文本特征共同的特征。样本第二候选文本特征包括其对应的样本文本数据的样本文本特征、其对应的样本文本图像块的样本布局特征，以及其对应的样本文本图像块所包括的样本图像特征和样本文本特征共同的特征。由于都新增其对应的样本文本图像块所包括的样本图像特征和样本文本特征共同的特征，更新后得到的样本第二候选图像特征和样本第二候选文本特征之间的对应关系得到增强。

在操作S140，将样本第二候选图像特征和样本第二候选文本特征输入至初始文本图像融合层，以便基于自注意力机制训练初始文本图像融合层，得到训练后的目标文本图像融合层，其中，目标文本融合层适用于确定文本图像中的文本的实体标识，以及文本图像中文本之间的关系标识。

根据本申请的实施例，初始文本图像融合层可以包括能够对不同模态特征进行融合的深度学习网络层。通过对对应关系得到增强的样本第二候选图像特征和样本第二候选文本特征进行训练，可以使初始文本图像融合层学习到样本第二候选图像特征和样本第二候选文本特征对应的样本文本图像块的位置信息。

根据本申请的实施例，通过利用样本布局特征分别更新表征样本文本图像块的样本图像特征，以及更新表征样本文本图像块中的样本文本数据的样本文本特征，使得更新后得到的样本第二候选文本特征和样本第二候选图像特征融合有样本文本图像块在样本图像中的布局信息，然后利用样本第二候选图像特征和样本第二候选文本特征训练得到的目标文本图像融合层，可以学习到样本文本图像块的布局信息，从而使基于训练后的目标文本图像融合层构建得到的文本图像识别模型可以提升针对文本图像中文本的识别准确率，至少部分避免相关技术中忽略了文本图像的文本布局结构信息，导致对于文本图像中的信息抽取的准确程度较低的技术问题。

根据本申请的实施例，布局信息可以包括位置信息和尺寸信息。

文本图像融合层的训练方法还可以包括如下操作：

利用布局特征嵌入层处理位置信息和尺寸信息，输出与样本文本图像块对应的样本布局特征。

根据本申请的实施例，位置信息可以表征样本文本图像块。

图2为根据本申请实施例的文本图像融合层的训练方法的应用场景图。

如图2所示，对样本文本图像2010进行分割后，可以得到样本文本图像块2020和样本文本数据2030。

根据本申请的实施例，对样本文本图像2010进行分割后，可以通过识别算法得到样本文本图像块2020和其对应的样本文本数据2030。例如可以使用开源OCR算法对样本文本图像2010进行分割识别，得到样本文本图像块2020的边界框信息及其对应的样本文本数据2030的样本字，但不仅限于此，还可以利用其他识别算法得到样本文本图像块2020的边界框信息及其对应的样本文本数据2030的样本字或其对应的样本文本数据2030的样本字块，本申请的实施例对识别的具体方式以及识别算法得到样本文本图像块2020和其对应的样本文本数据2030的信息不做限定，本领域技术人员可以根据实际需求进行设计。

如图2所示，样本文本图像块2020中可以包括样本子文本图像块2021~2024。样本子文本图像块2021~2024可以各自对应记录有不同内容的样本文本数据。基于样本子文本图像块2021~2024可以得到各自对应的边界框，基于样本子文本图像块2021~2024中各自对应的边界框的位置和边界框的大小，即可以得到样本子文本图像块2021~2024对应的位置信息和尺寸信息。

根据本申请的实施例，可以在布局特征嵌入层2060处理样本文本图像块2020的位置信息和尺寸信息，输出与样本文本图像块2020对应的样本布局特征。

根据本申请的实施例，可以在布局特征嵌入层2070处理样本文本数据2030的位置信息和尺寸信息，输出与样本文本数据2030对应的样本布局特征。

根据本申请的实施例，可以通过公式（1）表示利用布局特征嵌入层2060或布局特征嵌入层2070处理位置信息和尺寸信息，输出与样本文本图像块2020或样本文本数据2030对应的样本布局特征。

（1）

公式（1）中，（x_i0，y_i0）为边界框b_i的第一位置坐标，（x_i1，y_i1）为边界框b_i的第二位置坐标，第一位置坐标和第二位置坐标可以为边界框b_i的对角线两个端点的位置坐标；w_i为边界框b_i的宽度；h_i为边界框b_i的长度；LayoutEmb（）为布局特征嵌入层函数，该布局特征嵌入层可以是基于全连接神经网络构建得到的，可以输出长度为768维的样本布局特征Lⁱ；i为大于0的整数。

如图2所示，对样本文本图像2010进行分割后，可以基于得到的可以得到样本文本图像块2020对应的样本文本数据2030。样本文本数据2030可以包括样本子文本数据2031~2034。2030样本子文本数据2031~2034中记录有不同内容的样本文本数据。

根据本申请的实施例，为了使初始文本图像融合层2110能够充分理解样本文本图像2010中对应的样本文本图像块2020和样本文本数据2030之间的关系，以便有效区分相邻的样本文本图像块2020对应的样本文本数据2030之间的不同。可以从样本文本图像块2020和其对应的样本文本数据2030本身获得更多的先验信息，以获得样本文本图像块2020和其对应的样本文本数据2030对应的索引特征。由于样本文本图像块2020和其对应的样本文本数据2030共有相同的索引特征，可以使得样本文本图像块2020和其对应的样本文本数据2030包括的不同模态可以被显式地对齐。使样本文本图像块2020和其对应的样本文本数据2030的对应关系更明显。

根据本申请的实施例，可以在索引特征嵌入层2080处理样本文本图像块2020的位置信息和尺寸信息，输出与样本文本图像块2020对应的索引特征。

根据本申请的实施例，可以在索引特征嵌入层2090处理样本文本数据2030的位置信息和尺寸信息，输出与样本文本数据2030对应的索引特征。

根据本申请的实施例，样本子文本图像块2021~2024与其对应的2030样本子文本数据2031~2034的索引特征相同，例如，样本子文本图像块2021与样本子文本数据2031对应，则基于样本子文本图像块2021得到的索引特征为K0，基于样本子文本图像块2031得到的索引特征也为K0。可以理解的是，样本子文本图像块2021与样本子文本图像块2031的对应关系仅为示例，由样本子文本图像块2021与样本子文本图像块2031得到索引特征为K0也仅为示例，仅为说明存在对应关系的样本子文本图像块和样本子文本数据的索引特征相同。

根据本申请的实施例，可以通过公式（2）表示获得样本文本图像块2020和其对应的样本文本数据2030的索引特征。

（2）

公式（2）中，Kⁱ为索引特征；SegmentEmb()为索引特征嵌入层函数，可以输出第i个长度为768维的索引特征。

根据本申请的实施例，样本文本数据2030由样本字构成，样本文本特征可以包括与样本字对应的样本字文本特征。

根据本申请的实施例，根据与文本图像块对应的样本布局特征，分别更新样本图像特征和样本文本特征包括：将样本图像特征和与样本图像特征对应的样本布局特征进行特征融合，得到样本第一候选图像特征；利用样本文本特征中的样本字文本特征分别与样本布局特征进行特征融合，得到样本第一候选字文本字特征；基于样本第一候选图像特征确定与样本文本图像块对应的样本第二候选图像特征，以及基于样本第一候选字文本字特征确定与样本文本数据对应的样本第二候选文本字特征。

根据本申请的实施例，样本文本图像块和与文本图像块对应的样本文本数据可以通过索引信息相关联。

其中，基于样本第一候选图像特征确定与样本文本图像块对应的样本第二候选图像特征，以及基于样本第一候选字文本字特征确定与样本文本数据对应的样本第二候选文本字特征包括：将样本第一候选图像特征与和样本第一候选图像特征对应的索引特征进行特征融合，得到与样本文本图像块对应的样本第二候选图像特征，其中，索引特征为通过索引特征嵌入层处理索引信息后得到的；将样本第一候选字文本字特征分别与索引特征进行特征融合，得到样本第二候选字文本特征；基于样本第二候选字文本特征，确定样本第二候选文本特征。

如图2所示，将样本文本图像块2020在图像特征提取网络2040中进行图像特征提取，得到样本图像特征。例如可以使用ResNet（Residual Neural Network，残差网络）和FPN（Feature Pyramid Networks，目标网络）作为图像特征提取网络2040对样本文本图像块2020进行图像特征提取，得到样本图像特征，但不仅限于此，还可以利用其他图像特征提取网络得到样本文本图像块2020对应的样本图像特征，本申请的实施例对图像特征提取的具体方式不做限定，本领域技术人员可以根据实际需求进行设计。

根据本申请的实施例，对样本文本图像块2020包括的样本子文本图像块2021~2024进行图像特征提取，可以得到对应的样本图像特征。对于一些较短的样本子文本图像块，可以通过添加<PAD>标签，将样本图像特征填充到固定长度。

如图2所示，将样本图像特征和与样本图像特征对应的样本布局特征在对应的布局特征嵌入层2060进行特征融合，得到样本第一候选图像特征。将样本第一候选图像特征在对应的索引特征嵌入层2080与索引特征进行特征融合，得到样本第二候选图像特征。

根据本申请的实施例，可以通过公式（3）表示由样本文本图像块2020得到样本第二候选图像特征。

（3）

其中，VisualEmb（）为视觉嵌入网络，该网络同样可以是一个全连接神经网络；I_i为第i个样本文本图像块；ResNetFPN（）为图像特征提取网络函数；ROLAlign（）为感兴趣区域提取函数；b_i为第i个边界框；Lⁱ为第i个样本布局特征；Kⁱ为索引特征；Vⁱ为第i个样本第二候选图像特征。

根据本申请的实施例，样本第二候选图像特征可以为个768维度的图像特征。在得到样本第二候选图像特征过程中，还加入了全局图像特征V0，为样本第二候选图像特征增加了全局视觉图像特征，以便后续初始文本图像融合层2110学习到样本第二候选图像与样本第二候选文本字特征在全局范围内的关系。

如图2所示，将样本文本图像块2020对应的样本文本数据2030在文本特征提取网络2050中进行文本特征提取，得到样本文本特征。样本文本特征可以包括样本字文本特征。例如可以使用开源预训练中文BERT模型（Bidirectional Encoder Representation fromTransformers，语言表征模型）作为文本特征提取网络2050对样本文本数据2030进行文本特征提取，可以根据样本子文本图像块2021~2024从左上到右下的位置顺序，将样本子文本图像块2021~2024对应的2030样本子文本数据2031~2034进行拼接，合并为一个长度为n的序列S，需要注意的是，在序列的开头和末尾需要分别添加占位符<CLS>和<SEP>，但不仅限于此，还可以利用其他文本特征提取网络得到2030样本子文本数据2031~2034对应的所有文本特征，本申请的实施例对文本特征提取的具体方式不做限定，本领域技术人员可以根据实际需求进行设计。

根据本申请的实施例，可以通过公式（4）表示序列S。

（4）

其中，序列S的开头和末尾需要分别添加占位符<CLS>和<SEP>，即t₀={[CLS]}；t_n+1={[SEP]} ；t₀、t₁、…t_n、t_n+1为样本文本特征，为BERT模型直接提取的样本文本字特征。

如图2所示，将样本文本数据2030包括的2030样本子文本数据2031~2034对应的序列S的每一样本文本特征分别在布局特征嵌入层2070中与对应的样本布局特征进行特征融合，得到样本第一候选字文本字特征。将样本第一候选字文本字特征输入索引特征嵌入层2090，对应得到样本第二候选文本字特征。

根据本申请的实施例，可以通过公式（5）表示由样本文本数据2030得到样本第二候选文本字特征。

（5）/>

其中，Tⁱ为样本第二候选文本字特征；BERT（）为BERT模型函数；Si为序列S中的第i个样本文本特征。

根据本申请的实施例，样本文本图像块和样本文本数据均包括n个，样本文本图像块与样本文本数据一一对应，n为大于1的正整数。

根据本申请的实施例，将样本第二候选图像特征和样本第二候选文本特征输入至初始文本图像融合层，以便基于自注意力机制训练初始文本图像融合层包括：将n个样本第二候选图像特征、表征样本文本图像的样本全域图像特征和n个样本第二候选文本特征进行拼接，得到样本训练特征；将样本训练特征输入至初始文本图像融合层中，以便基于自注意力机制训练初始文本图像融合层，得到目标文本图像融合层。

如图2所示，在得到样本第二候选图像特征和其对应的样本第二候选文本字特征后，将样本第二候选图像特征和其对应的样本第二候选文本字特征拼接后，得到样本训练特征。将样本训练特征输入初始文本图像融合层2110。

根据本申请的实施例，可以通过公式（6）表示将样本第二候选图像特征和其对应的样本第二候选文本字特征拼接后，得到样本训练特征：

（6）

其中，Input（i）为第i个样本第二候选图像特征和样本第二候选文本特征对应的样本训练特征，Concat（）为拼接函数。

根据本申请的实施例，基于自注意力机制训练初始文本图像融合层包括：

基于块内自注意力机制训练初始文本图像融合层，以便目标文本图像融合层输出与样本文本数据对应的样本目标文本特征；根据文本长度预测任务训练初始文本图像融合层，以便目标文本图像融合层处理样本文本图像块后，输出样本文本图像块表征的文本长度；根据文本图像块相对位置预测任务训练初始文本图像融合层，以便目标文本图像融合层输出n个样本文本图像块中，不同的样本文本图像块之间的相对位置关系。

根据本申请的实施例，在得到样本训练特征后，直接由初始文本图像融合层2110获得样本文本图像块2020和其对应的样本文本数据2030之间的关系，对于包括大量结构化信息的分析任务来说，仅由初始文本图像融合层2110进行分析是不够的，因此需要基于自注意力机制训练初始文本图像融合层2110，让初始文本图像融合层2110通过自监督学习的方式，从大量样本文本图像块2020和其对应的样本文本数据2030的特征以及其对应的位置布局等特征中收集多模态信息，并促进和增强不同模态信息的之间的融合效果。

根据本申请的实施例，初始文本图像融合层2110例如可以是序列建模模型Transformer网络，通过对Transformer网络进行基于自注意力机制训练，使初始文本图像融合层2110学习到从多角度增强样本第二候选图像特征和样本第二候选文本特征的模态特征的融合。

如图2所示，基于自注意力机制训练初始文本图像融合层2110可包括：基于自注意力机制训练模块2140对初始文本图像融合层2110进行训练。

根据本申请的实施例，自注意力机制训练模块2140用于执行文本块长度预测任务（Sentence Length Predict，SLP）。SLP任务会使初始文本图像融合层2110学习从样本文本图像块2020的样本图像特征向样本文本图像块2020对应的样本文本数据2030的样本文本特征方向进行融合，在样本文本图像块2020的样本图像特征对应的模态的基础上，去获取更细粒度的样本文本特征对应的文本语义信息。

图3a为根据本申请一实施例的文本图像融合层的训练方法流程图。

如图3a所示，将第二候选图像特征3010输入初始文本图像融合层3020，使初始文本图像融合层3020预测第二候选图像特征3010对应的第二候选文本特征3030的长度。其中，初始文本图像融合层3020可以为上述初始文本图像融合层2110。具体地，SLP任务使初始文本图像融合层3020计算第二候选图像特征3010包括的文本字特征数量，并将该文本字特征数量作为对应的样本文本数据2030的长度，并要求初始文本图像融合层3020针对每个第二候选图像特征3010，在初始文本图像融合层3020包括的输出层预测每个样本文本图像块2020对应的第二候选文本特征3030的长度。初始文本图像融合层2110包括的输出层可以由全连接神经网络构成。在经过SLP任务训练的情况下，初始文本图像融合层3020为了能够准确预测长度信息，会主动学习和强化两种获取第二候选图像特征3010对应的视觉模态和获取对应的第二候选文本特征3030的语言模态之间的对齐效果和融合效果。

如图2所示，基于自注意力机制训练初始文本图像融合层可包括：基于自注意力机制训练模块2150对初始文本图像融合层2110进行训练。

根据本申请的实施例，自注意力机制训练模块2150用于执行文本块相对位置预测任务（Segment Relative Position Prediction，SRPP）。SRPP任务致力于促使初始文本图像融合层2110学习从语言模态到视觉模态融合方向的约束。该SRPP任务利用样本文本图像2010的整体布局和结构信息，使初始文本图像融合层2110基于样本文本数据2030的文本特征的输出去预测对应样本文本图像块2020在样本文本图像2010中的相对位置信息。SRPP任务有利于初始文本图像融合层2110学习样本文本图像2010包括的结构复杂的几何拓扑关系。

图3b为根据本申请另一实施例的文本图像融合层的训练方法流程图。

如图3b所示，将第二候选文本特征3040输入初始文本图像融合层3020，第二候选文本特征3040可以包括多个样本子文本数据对应的第二候选文本特征。在初始文本图像融合层3020中，对多个样本子文本数据对应的第二候选文本特征中的任意两个第二候选文本特征分别进行平均池化3050，对分别进行平均池化3050的第二候选文本特征进行拼接3060，在初始文本图像融合层3020的输出层3070得到拼接的两个第二候选文本特征对应的全局文本特征。该全局文本特征可以表征任意两个第二候选文本特征对应的两个第二候选图像特征（图3b中示意性示为第二候选图像特征3080和第二候选图像特征3090）对应的之间的相对位置关系。其中，初始文本图像融合层3020可以为上述初始文本图像融合层2110。

具体地，SRPP任务将第二候选图像特征3080对应的文本块的全局360度的方向区域划分成8个子方向，通过计算任意两个被选中文本块之间的相对角度（第二候选图像特征3090对应的文本块相对于第二候选图像特征3080对应的文本块的角度），将该角度所隶属的实际子方向作为此对第二候选图像特征3090对应的文本块的相对位置预测标签。对同属于一个文本块的所有字符特征输出做平均池化，并以此来作为该文本块的全局文本特征，最后，SRPP被定义为一个分类任务，对两个文本块的特征进行拼接，通过一个简单的多分类输出层来预测其相对位置关系。

如图2基于自注意力机制训练初始文本图像融合层可以包括：基于自注意力机制训练模块2160对初始文本图像融合层进行训练。

根据本申请的实施例，自注意力机制训练模块2160用于执行局部遮掩视觉语言模型任务（Local Masked Visual Language Mode，LMVLM）LMVLM任务使初始文本图像融合层2110从语言模态方面学习样本文本数据2030的文本特征的上下文语义信息，以便初始文本图像融合层2110适应样本文本图像2010包括的结构化数据的文本分布。

根据本申请的实施例，由于样本文本图像2010的中各个样本文本图像块2020内容相对独立，样本文本图像块2020彼此之间的上下文语义依赖关系不强，导致初始文本图像融合层2110对样本文本图像块2020彼此之间的关系的识别准确率较低。为了改善样本文本图像块2020彼此之间的上下文语义依赖关系不强的限制所带来的文本特征损失，可以使用块内约束自注意力机制（Intra-segment Self-Attention，IMSA）方式进行学习，包括IMSA方式的初始文本图像融合层2110会在1个独立的样本文本图像块2020内部进行上下文语义学习，并避免与其他样本文本图像块2020产生语义混淆，保证独立的样本文本图像块2020的上下文的语义连贯性。

图3c为根据本申请又一实施例的文本图像融合层的训练方法流程图。

如图3c所示，将第二候选文本特征3040输入初始文本图像融合层3020，第二候选文本特征3040可以包括多个样本子文本数据对应的第二候选文本特征。在初始文本图像融合层3020中，对多个样本子文本数据对应的第二候选文本特征中的任一第二候选文本特征（图3c中示意性示为第二候选文本特征3120）进行掩码处理，使第二候选图像特征3120包括的样本文本特征被掩盖，经过初始文本图像融合层3020的处理，在初始文本图像融合层3020的输出层3070得到基于预测掩候选文本特征的第二候选文本特征3100和第二候选文本特征3110。其中，初始文本图像融合层3020可以为上述初始文本图像融合层2110。

具体地，在Transformer内部计算多头自注意力的同时，引入一个新的局部自注意力掩码矩阵，该掩码矩阵仅保留选择独立的样本文本图像块2020对应的未被掩码的第二候选文本特征内的注意力交互关系，禁止独立的样本文本图像块2020对应的第二候选文本特征与其他样本文本图像块2020对应的第二候选文本特征进行上下文交互。从上述序列S中选择15%的独立的样本文本图像块2020对应的第二候选文本特征作为遮掩候选文本特征，然后在掩候选文本特征中，使用<MASK>占位符替换其中80%的部分，使用序列S中其它随机的样本文本特征替代其中的10%的部分，剩余10%保持不变。最后，LMVLM任务使初始文本图像融合层2110去重新预测掩候选文本特征的原始内容。

根据本申请的实施例，文本图像融合层的训练方法还可以包括如下操作：

将目标文本图像融合层、实体标注层和关系标注层按照预设顺序连接，可以构建得到文本图像识别模型。

图4为根据本申请另一实施例的文本图像识别模型结构框图。

如图4所示，文本图像识别模型400可以包括：目标文本图像融合层420、实体标注层430和关系标注层440。

根据本申请的实施例，将文本图像410输入至目标文本图像融合层420，可以得到目标文本特征450。将目标文本特征450输入实体标注层430，可以得到目标文本特征450对应的实体标识460。将存在实体标识460的目标文本特征450输入关系标注层440可以得到目标文本特征450对应的关系标识470。

如图4所示，目标文本图像融合层410可以基于上述训练方法得到，在此不再赘述。

根据本申请的实施例，实体标注层420可以同时支持字文本特征级别的实体识别任务和文本块特征级别的实体识别任务。具体地，在该实体标注层420中，可以对文本图像块对应的文本数据内的所有语言模态特征进行平均池化，并将平均池化后的字文本特征级别的输出合并到文本块特征级别的全局文本特征中。

根据本申请的实施例，可以通过公式（7）表示实体标注层320得到全局文本特征的过程。

（7）

其中，为全局文本特征；mean（）为平均池化函数/> ；表示第/>个文本图像块对应的文本数据的语言模态侧的输出；/>为文本图像块对应的文本数据的字文本特征级别的输出；l _i为文本图像块表征的文本长度。

根据本申请的实施例，实体标注层430可以基于第二候选图像特征和样本第二候选文本特征得到实体标识。

根据本申请的实施例，可以通过公式（8）表示跨模态特征。

X_i= Vⁱ * Tⁱ ；（8）

其中，X_i为第i个实体标识。采用双线性池化层计算Hadamard积来融合文本块的第i个样本第二候选文本字特征Tⁱ和第i个样本第二候选图像特征Vⁱ，以此来获得第i个实体标识X_i。

根据本申请的实施例，将第i个实体标识输入全连接输出层，根据第i个实体标识，使用交叉熵损失函数来预测跨第i个实体标识对应的第i个实体标识。

根据本申请的实施例，关系标注层440用于判断两个实体之间是否同属于1个Key-Value关系内，关系标注层440可以实现实体连接。

根据本申请的实施例，基于第i个跨模态特征，通过概率计算，可以得到第i个文本图像块与对应文本数据的关系种类的概率。

根据本申请的实施例，实体标注层430可以得到文本图像中的文本对应的实体标识460。

根据本申请的实施例，可以通过公式（9）表示得到第i个文本图像块与对应文本数据的关系种类的概率。

（9）

其中，表示为第i个文本图像块对应的文本块i可以连接到第j个文本图像块对应的文本块j概率，M为参数矩阵，σ为sigmod函数；X_j为根据公式（8）得到的第j个文本图像块对应的文本块j的跨模态特征矩阵；/>为第i个跨模态特征的转置矩阵。

根据本申请的实施例，关系标注层440可以得到文本图像中的文本之间的关系标识470。

图5为根据本申请实施例的文本图像识别方法的流程图。

如图5所示，该实施例的文本图像识别方法包括操作S510。

在操作S510，将从文本图像中提取到的文本图像块，以及与文本图像块对应的文本数据输入至文本图像识别模型，输出与文本图像中的文本对应的实体标识和文本图像中的文本之间的关系标识。其中，文本图像识别模型包括文本图像融合层，文本图像融合层任一项的训练方法训练得到。

根据本申请的实施例，本实施例中的文本图像、文本图像块与上述实施例中的样本文本图像、样本文本图像块具有相同或相似的特征，本申请的实施例在此不再赘述。

图6为根据本申请实施例的文本图像融合层训练装置的框图。

如图6所示，该实施例的文本图像融合层训练装置600包括：图像特征提取模块610、文本特征提取模块620、特征更新模块630和训练模块640。

图像特征提取模块610，用于对样本文本图像块进行图像特征提取，得到样本图像特征，其中，样本文本图像块为对样本文本图像进行分割后得到的，样本文本图像块记录有样本文本数据。

文本特征提取模块620，用于对与样本文本图像块对应的样本文本数据进行文本特征提取，得到样本文本特征。

特征更新模块630，用于根据与样本文本图像块对应的样本布局特征，分别更新样本图像特征和样本文本特征，得到样本第二候选图像特征和样本第二候选文本特征，其中，样本布局特征表征样本文本图像块在样本文本图像中的布局信息。

训练模块640，用于将样本第二候选图像特征和样本第二候选文本特征输入至初始文本图像融合层，以便基于自注意力机制训练初始文本图像融合层，得到训练后的目标文本图像融合层，其中，目标文本融合层适用于确定文本图像中的文本的实体标识，以及文本图像中文本之间的关系标识。

根据本申请的实施例，文本图像融合层训练装置600还包括：布局特征输出模块。

布局特征输出模块，用于利用布局特征嵌入层处理位置信息和尺寸信息，输出与样本文本图像块对应的样本布局特征。其中，布局信息包括位置信息和尺寸信息。

根据本申请的实施例，特征更新模块630包括：第一特征融合子模块、第二特征融合子模块和更新子模块。

第一特征融合子模块，用于将样本图像特征和与样本图像特征对应的样本布局特征进行特征融合，得到样本第一候选图像特征。

第二特征融合子模块，用于利用样本文本特征中的样本字文本特征分别与样本布局特征进行特征融合，得到样本第一候选字文本字特征。

更新子模块，用于基于样本第一候选图像特征确定与样本文本图像块对应的样本第二候选图像特征，以及基于样本第一候选字文本字特征确定与样本文本数据对应的样本第二候选文本字特征。

其中，样本文本数据由样本字构成，样本文本特征包括与样本字对应的样本字文本特征。

根据本申请的实施例，更新子模块包括：第一特征融合单元、第二特征融合单元和第二候选文本特征确定单元。

第一特征融合单元，用于将样本第一候选图像特征与和样本第一候选图像特征对应的索引特征进行特征融合，得到与样本文本图像块对应的样本第二候选图像特征，其中，索引特征为通过索引特征嵌入层处理索引信息后得到的。

第二特征融合单元，用于将样本第一候选字文本字特征分别与索引特征进行特征融合，得到样本第二候选字文本特征。

第二候选文本特征确定单元，用于基于样本第二候选字文本特征，确定样本第二候选文本特征。

其中，样本文本图像块和与文本图像块对应的样本文本数据通过索引信息相关联。

根据本申请的实施例，训练模块640包括：训练特征确定子模块和训练子模块。

训练特征确定子模块，用于将n个样本第二候选图像特征、表征样本文本图像的样本全域图像特征和n个样本第二候选文本特征进行拼接，得到样本训练特征。

训练子模块，用于将样本训练特征输入至初始文本图像融合层中，以便基于自注意力机制训练初始文本图像融合层，得到目标文本图像融合层。

其中，样本文本图像块和样本文本数据均包括n个，样本文本图像块与样本文本数据一一对应，n为大于1的正整数。

根据本申请的实施例，训练子模块包括：第一训练单元、第二训练单元和第三训练单元。

第一训练单元，用于基于块内自注意力机制训练初始文本图像融合层，以便目标文本图像融合层输出与样本文本数据对应的样本目标文本特征；

第二训练单元，用于根据文本长度预测任务训练初始文本图像融合层，以便目标文本图像融合层处理样本文本图像块后，输出样本文本图像块表征的文本长度；以及

第三训练单元，用于根据文本图像块相对位置预测任务训练初始文本图像融合层，以便目标文本图像融合层输出n个样本文本图像块中，不同的样本文本图像块之间的相对位置关系。

图7为根据本申请实施例的文本图像识别装置的框图。

如图7所示，文本图像识别装置700包括：文本图像标识模块710。

文本图像标识模块710，用于将从文本图像中提取到的文本图像块，以及与文本图像块对应的文本数据输入至文本文本图像标识模块，输出与文本图像中的文本对应的实体标识和文本图像中的文本之间的关系标识；

其中，文本图像标识模块包括文本图像融合层，文本图像融合层根据上述训练方法训练得到。

根据本申请的实施例，图像特征提取模块610、文本特征提取模块620、特征更新模块630和训练模块640中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本申请的实施例，图像特征提取模块610、文本特征提取模块620、特征更新模块630和训练模块640中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列（FPGA）、可编程逻辑阵列（PLA）、片上系统、基板上的系统、封装上的系统、专用集成电路（ASIC），或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，图像特征提取模块610、文本特征提取模块620、特征更新模块630和训练模块640中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

根据本申请的实施例，文本图像标识模块710可以至少被部分地实现为硬件电路，例如现场可编程门阵列（FPGA）、可编程逻辑阵列（PLA）、片上系统、基板上的系统、封装上的系统、专用集成电路（ASIC），或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，文本图像标识模块710可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

如图8所示，根据本申请实施例的电子设备800包括处理器801，其可以根据存储在只读存储器（ROM）802中的程序或者从存储部分808加载到随机访问存储器（RAM）803中的程序而执行各种适当的动作和处理。处理器801例如可以包括通用微处理器（例如CPU）、指令集处理器和/或相关芯片组和/或专用微处理器（例如，专用集成电路（ASIC））等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801可以包括用于执行根据本申请实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 803中，存储有电子设备800操作所需的各种程序和数据。处理器 801、ROM802以及RAM 803通过总线804彼此相连。处理器801通过执行ROM 802和/或RAM 803中的程序来执行根据本申请实施例的方法流程的各种操作。需要注意，程序也可以存储在除ROM802和RAM 803以外的一个或多个存储器中。处理器801也可以通过执行存储在一个或多个存储器中的程序来执行根据本申请实施例的方法流程的各种操作。

根据本申请的实施例，电子设备800还可以包括输入/输出（I/O）接口805，输入/输出（I/O）接口805也连接至总线804。电子设备800还可以包括连接至输入/输出（I/O）接口805的以下部件中的一项或多项：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管（CRT）、液晶显示器（LCD）等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至输入/输出（I/O）接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本申请实施例的方法。

根据本申请的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本申请的实施例，计算机可读存储介质可以包括上文描述的ROM 802和/或RAM 803和/或ROM 802和RAM 803以外的一个或多个存储器。

本申请的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时，该程序代码用于使计算机系统实现本申请实施例所提供的方法。

在该计算机程序被处理器801执行时执行本申请实施例的系统/装置中限定的上述功能。根据本申请的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分809被下载和安装，和/或从可拆卸介质811被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被处理器801执行时，执行本申请实施例的系统中限定的上述功能。根据本申请的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

根据本申请的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java，C++，python，“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（LAN）或广域网（WAN），连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本申请的各个实施例中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本申请中。特别地，在不脱离本申请精神和教导的情况下，本申请的各个实施例中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本申请的范围。

以上对本申请的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本申请的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本申请的范围由所附权利要求及其等同物限定。不脱离本申请的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本申请的范围之内。

Claims

1.一种文本图像融合层的训练方法，包括：

对样本文本图像块进行图像特征提取，得到样本图像特征，其中，所述样本文本图像块为对样本文本图像进行分割后得到的，所述样本文本图像块记录有样本文本数据；

对与所述样本文本图像块对应的样本文本数据进行文本特征提取，得到样本文本特征；

根据与所述样本文本图像块对应的样本布局特征，分别更新所述样本图像特征和所述样本文本特征，得到样本第二候选图像特征和样本第二候选文本特征，其中，所述样本布局特征表征所述样本文本图像块在所述样本文本图像中的布局信息；

将所述样本第二候选图像特征和所述样本第二候选文本特征输入至初始文本图像融合层，以便基于自注意力机制训练所述初始文本图像融合层，得到训练后的目标文本图像融合层，其中，所述目标文本融合层适用于确定文本图像中的文本的实体标识，以及所述文本图像中文本之间的关系标识；

所述训练方法还包括：

将所述目标文本图像融合层、实体标注层和关系标注层按照预设顺序连接，构建得到文本图像识别模型；

其中，所述目标文本图像融合层适用于处理文本图像，得到目标文本特征；

所述实体标注层适用于处理所述目标文本特征，得到所述实体标识；

所述关系标注层适用于处理所述目标文本特征和所述实体标识，得到所述关系标识。

2.根据权利要求1所述的训练方法，其中，所述布局信息包括位置信息和尺寸信息；

所述训练方法还包括：

利用布局特征嵌入层处理所述位置信息和所述尺寸信息，输出与所述样本文本图像块对应的样本布局特征。

3.根据权利要求1所述的训练方法，其中，所述样本文本数据由样本字构成，所述样本文本特征包括与所述样本字对应的样本字文本特征；

根据与所述样本文本图像块对应的样本布局特征，分别更新所述样本图像特征和所述样本文本特征包括：

将所述样本图像特征和与所述样本图像特征对应的样本布局特征进行特征融合，得到样本第一候选图像特征；

利用所述样本文本特征中的样本字文本特征分别与所述样本布局特征进行特征融合，得到样本第一候选字文本字特征；

基于所述样本第一候选图像特征确定与所述样本文本图像块对应的样本第二候选图像特征，以及基于所述样本第一候选字文本字特征确定与所述样本文本数据对应的样本第二候选文本字特征。

4.根据权利要求3所述的训练方法，其中，所述样本文本图像块和与所述样本文本图像块对应的样本文本数据通过索引信息相关联；

其中，基于所述样本第一候选图像特征确定与所述样本文本图像块对应的样本第二候选图像特征，以及基于所述样本第一候选字文本字特征确定与所述样本文本数据对应的样本第二候选文本字特征包括：

将所述样本第一候选图像特征与和所述样本第一候选图像特征对应的索引特征进行特征融合，得到与所述样本文本图像块对应的样本第二候选图像特征，其中，所述索引特征为通过索引特征嵌入层处理所述索引信息后得到的；

将所述样本第一候选字文本字特征分别与所述索引特征进行特征融合，得到样本第二候选字文本特征；

基于所述样本第二候选字文本特征，确定所述样本第二候选文本特征。

5.根据权利要求1所述的训练方法，其中，所述样本文本图像块和所述样本文本数据均包括n个，所述样本文本图像块与所述样本文本数据一一对应，n为大于1的正整数；

其中，将所述样本第二候选图像特征和所述样本第二候选文本特征输入至初始文本图像融合层，以便基于自注意力机制训练所述初始文本图像融合层包括：

将n个所述样本第二候选图像特征、表征所述样本文本图像的样本全域图像特征和n个所述样本第二候选文本特征进行拼接，得到样本训练特征；

将所述样本训练特征输入至所述初始文本图像融合层中，以便基于所述自注意力机制训练所述初始文本图像融合层，得到所述目标文本图像融合层。

6.根据权利要求5所述的训练方法，其中，基于所述自注意力机制训练所述初始文本图像融合层包括：

基于块内自注意力机制训练所述初始文本图像融合层，以便所述目标文本图像融合层输出与所述样本文本数据对应的样本目标文本特征；

根据文本长度预测任务训练所述初始文本图像融合层，以便所述目标文本图像融合层处理所述样本文本图像块后，输出所述样本文本图像块表征的文本长度；

根据文本图像块相对位置预测任务训练所述初始文本图像融合层，以便所述目标文本图像融合层输出n个所述样本文本图像块中，不同的样本文本图像块之间的相对位置关系。

7.一种文本图像识别方法，包括：

将从文本图像中提取到的文本图像块，以及与所述文本图像块对应的文本数据输入至文本图像识别模型，输出与所述文本图像中的文本对应的实体标识和所述文本图像中的文本之间的关系标识；

其中，所述文本图像识别模型包括文本图像融合层，所述文本图像融合层根据权利要求1至6中任一项所述的训练方法训练得到。

8.一种文本图像融合层训练装置，包括：

图像特征提取模块，用于对样本文本图像块进行图像特征提取，得到样本图像特征，其中，所述样本文本图像块为对样本文本图像进行分割后得到的，所述样本文本图像块记录有样本文本数据；

文本特征提取模块，用于对与所述样本文本图像块对应的样本文本数据进行文本特征提取，得到样本文本特征；

特征更新模块，用于根据与所述样本文本图像块对应的样本布局特征，分别更新所述样本图像特征和所述样本文本特征，得到样本第二候选图像特征和样本第二候选文本特征，其中，所述样本布局特征表征所述样本文本图像块在所述样本文本图像中的布局信息；

训练模块，用于将所述样本第二候选图像特征和所述样本第二候选文本特征输入至初始文本图像融合层，以便基于自注意力机制训练所述初始文本图像融合层，得到训练后的目标文本图像融合层，其中，所述目标文本融合层适用于确定文本图像中的文本的实体标识，以及所述文本图像中文本之间的关系标识；

所述训练装置进一步被配置为：

9.一种文本图像识别装置，包括：文本图像标识模块；

文本图像标识模块，用于将从文本图像中提取到的文本图像块，以及与所述文本图像块对应的文本数据输入至文本图像识别模型，输出与所述文本图像中的文本对应的实体标识和所述文本图像中的文本之间的关系标识；

10.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1~7中任一项所述的方法。

11.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行根据权利要求1~7中任一项所述的方法。