CN113537368A

CN113537368A - 样本处理方法、装置、计算机可读介质及电子设备

Info

Publication number: CN113537368A
Application number: CN202110824872.XA
Authority: CN
Inventors: 刘昊岳; 肖杨; 付晓; 刘设伟
Original assignee: Taikang Insurance Group Co Ltd; Taikang Online Property Insurance Co Ltd
Current assignee: Taikang Insurance Group Co Ltd; Taikang Online Property Insurance Co Ltd
Priority date: 2021-07-21
Filing date: 2021-07-21
Publication date: 2021-10-22
Anticipated expiration: 2041-07-21
Also published as: CN113537368B

Abstract

本公开的实施例提供了一种应用于图像区域规划模型训练的样本处理方法、应用于图像区域规划模型训练的样本处理装置、计算机可读介质及电子设备，涉及图像处理技术领域，该方法包括：识别样本图像中各文本框，并根据各文本框确定样本图像对应的图像特征、语义特征以及预设特征并融合，得到样本图像的综合特征；基于样本图像的综合特征和文本框参数确定每两个文本框之间的关系矩阵；根据各文本框的预设标签、样本图像的综合特征和关系矩阵训练图像区域规划模型。可见，实施本申请的技术方案，可以训练得到能划分出图像中需要进行结构化信息提取的有效区域的图像区域规划模型，基于图像区域规划模型可以提升信息提取效率和精度。

Description

样本处理方法、装置、计算机可读介质及电子设备

技术领域

本公开涉及图像处理技术领域，具体而言，涉及一种应用于图像区域规划模型训练的样本处理方法、应用于图像区域规划模型训练的样本处理装置、计算机可读介质及电子设备。

背景技术

对于图像中文字的提取，一般需要人为手动将照片中的文字输入标准化的列表，以通过结构化信息的方式统一对照片中文字进行标准化存储。但是，人工提取信息通常会存在效率较低的问题。为了解决这个问题，一些厂商设计出自动化提取图像文本信息的模型，用于基于一个提取标准进行自动化的图像文本信息提取，但是，图像中文字排版一般较为多样，通过统一的提取标准也容易造成提取精度较低的问题。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开实施例的目的在于提供一种应用于图像区域规划模型训练的样本处理方法、应用于图像区域规划模型训练的样本处理装置、计算机可读介质及电子设备，可以训练得到能划分出图像中需要进行结构化信息提取的有效区域的图像区域规划模型，基于训练出的图像区域规划模型可以提升针对图像的信息提取效率，并提升结构化信息提取精度，降低对于算力的浪费。

可以通过训练图像区域规划模型解决人工输入信息效率较低的问题，实现对于结构化信息的自动提取，提升结构化信息提取效率。

本公开实施例的第一方面提供了一种应用于图像区域规划模型训练的样本处理方法，其中的图像区域规划模型用于规划出图像中包含结构化信息的区域，该方法包括：

识别样本图像中各文本框，并根据各文本框确定样本图像对应的图像特征、语义特征以及预设特征；

将样本图像对应的图像特征、语义特征以及预设特征进行融合，得到样本图像的综合特征；

根据各文本框在样本图像中的位置确定用于表征各文本框之间位置关系的文本框参数，并基于样本图像的综合特征和文本框参数确定每两个文本框之间的关系矩阵；

根据各文本框的预设标签、样本图像的综合特征和每两个文本框之间的关系矩阵训练图像区域规划模型。

根据本公开实施例的第二方面，提供一种应用于图像区域规划模型训练的样本处理装置，其中的图像区域规划模型用于规划出图像中包含结构化信息的区域，该装置包括：

文本框识别单元，用于识别样本图像中各文本框；

特征提取单元，用于根据各文本框确定样本图像对应的图像特征、语义特征以及预设特征；

特征融合单元，用于将样本图像对应的图像特征、语义特征以及预设特征进行融合，得到样本图像的综合特征；

参数确定单元，用于根据各文本框在样本图像中的位置确定用于表征各文本框之间位置关系的文本框参数，并基于样本图像的综合特征和文本框参数确定每两个文本框之间的关系矩阵；

分类器训练单元，用于根据各文本框的预设标签、样本图像的综合特征和每两个文本框之间的关系矩阵训练图像区域规划模型。

在本公开的一种示例性实施例中，上述装置还包括：

区域划分单元，用于在分类器训练单元根据各文本框的预设标签、样本图像的综合特征和每两个文本框之间的关系矩阵训练图像区域规划模型之后，根据训练后的图像区域规划模型对接收到的待处理图像进行区域划分，得到区域规划结果；

信息识别单元，用于根据区域规划结果提取待处理图像中各区域的文本信息；其中，文本信息包括字段和字段内容中至少一种；

结构化信息提取单元，用于根据文本信息生成待处理图像对应的结构化信息。

在本公开的一种示例性实施例中，特征提取单元根据各文本框确定样本图像对应的图像特征，包括：

通过图像区域规划模型中的图像特征提取网络提取各文本框分别对应的子图像特征；

根据子图像特征构建样本图像对应的图像特征。

在本公开的一种示例性实施例中，特征提取单元根据各文本框确定样本图像对应的语义特征，包括：

确定各文本框在样本图像中的位置信息；

将位置信息输入图像区域规划模型中的语义特征提取网络，以使得语义特征提取网络根据位置信息提取各文本框分别对应的子语义特征；

根据子语义特征构建样本图像对应的语义特征。

在本公开的一种示例性实施例中，特征提取单元根据各文本框确定样本图像对应的预设特征，包括：

对各文本框进行包含关系判定，得到每个文本框对应的多个判定结果；

根据每个文本框对应的多个判定结果构建样本图像的预设特征；

其中，包含关系判定包括以下至少一种：判定对应的文本框与特定词语的包含关系、判定对应的文本框与特定字符的包含关系、判定对应的文本框与特定数字的包含关系。

在本公开的一种示例性实施例中，参数确定单元根据各文本框在样本图像中的位置确定用于表征各文本框之间位置关系的文本框参数，包括：

确定各文本框相对于样本图像的中心点位置；

根据各文本框的中心点位置确定各文本框之间的水平距离和垂直距离；

将各文本框之间的水平距离和垂直距离确定为文本框参数。

在本公开的一种示例性实施例中，分类器训练单元根据各文本框的预设标签、样本图像的综合特征和每两个文本框之间的关系矩阵训练图像区域规划模型，包括：

根据各文本框的预设标签、样本图像的综合特征和每两个文本框之间的关系矩阵调整图像区域规划模型的权重参数，直到图像区域规划模型对应的损失函数收敛为止。

根据本公开实施例的第三方面，提供了一种计算机可读介质，其上存储有计算机程序，程序被处理器执行时实现如上述实施例中第一方面的应用于图像区域规划模型训练的样本处理方法。

根据本公开实施例的第四方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现如上述实施例中第一方面的应用于图像区域规划模型训练的样本处理方法。

根据本申请的第五方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的各种可选实现方式中提供的方法。

本公开实施例提供的技术方案可以包括以下有益效果：

在本公开的一些实施例所提供的技术方案，具体包括：识别样本图像中各文本框，并根据各文本框确定样本图像对应的图像特征、语义特征以及预设特征；将样本图像对应的图像特征、语义特征以及预设特征进行融合，得到样本图像的综合特征；根据各文本框在样本图像中的位置确定用于表征各文本框之间位置关系的文本框参数，并基于样本图像的综合特征和文本框参数确定每两个文本框之间的关系矩阵；根据各文本框的预设标签、样本图像的综合特征和每两个文本框之间的关系矩阵训练图像区域规划模型，图像区域规划模型用于规划出图像中包含结构化信息的区域。实施本公开的实施例，一方面，可以训练得到能划分出图像中需要进行结构化信息提取的有效区域的图像区域规划模型，基于图像区域规划模型提升针对图像的信息提取效率，并提升结构化信息提取精度，降低对于算力的浪费。另一方面，可以基于图像特征、语义特征以及预设特征的多维度特征训练图像区域规划模型，提升图像区域规划模型的结构化信息提取精度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出了可以应用本公开实施例的一种应用于图像区域规划模型训练的样本处理方法及应用于图像区域规划模型训练的样本处理装置的示例性系统架构的示意图；

图2示意性示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图；

图3示意性示出了根据本公开的一个实施例的应用于图像区域规划模型训练的样本处理方法的流程图；

图4示意性示出了根据本公开的一个实施例的图像区域规划模型的应用示意图；

图5示意性示出了根据本公开的一个实施例的针对图像的第一结构化信息提取阶段的提取结果示意图；

图6示意性示出了根据本公开的一个实施例的针对图像的第二结构化信息提取阶段的提取结果示意图；

图7示意性示出了根据本公开的一个实施例的针对图像的第三结构化信息提取阶段的提取结果示意图；

图8示意性示出了根据本公开的一个实施例的结构化信息示意图；

图9示意性示出了根据本公开的一个实施例的应用图像区域规划模型的多端交互示意图；

图10示意性示出了根据本公开的一个实施例的应用于图像区域规划模型训练的样本处理方法的流程图；

图11示意性示出了根据本公开的一个实施例中的应用于图像区域规划模型训练的样本处理装置的结构框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图1示出了可以应用本公开实施例的一种应用于图像区域规划模型训练的样本处理方法及应用于图像区域规划模型训练的样本处理装置的示例性应用环境的系统架构的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一个或多个，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。其中，服务器105用于执行：识别样本图像中各文本框，并根据各文本框确定样本图像对应的图像特征、语义特征以及预设特征；将样本图像对应的图像特征、语义特征以及预设特征进行融合，得到样本图像的综合特征；基于样本图像的综合特征和文本框参数确定每两个文本框之间的关系矩阵；根据各文本框的预设标签、样本图像的综合特征和每两个文本框之间的关系矩阵训练图像区域规划模型。

图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

需要说明的是，图2示出的电子设备的计算机系统200仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图2所示，计算机系统200包括中央处理单元(CPU)201，其可以根据存储在只读存储器(ROM)202中的程序或者从储存部分208加载到随机访问存储器(RAM)203中的程序而执行各种适当的动作和处理。在(RAM)203中，还存储有系统操作所需的各种程序和数据。(CPU)201、(ROM)202以及(RAM)203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。

以下部件连接至(I/O)接口205：包括键盘、鼠标等的输入部分206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分207；包括硬盘等的储存部分208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至(I/O)接口205。可拆卸介质211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器210上，以便于从其上读出的计算机程序根据需要被安装入储存部分208。

特别地，根据本公开的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分209从网络上被下载和安装，和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时，执行本申请的方法和装置中限定的各种功能。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现如图3所示的各个步骤等。

本示例实施方式提供了一种应用于图像区域规划模型训练的样本处理方法，其中的图像区域规划模型用于规划出图像中包含结构化信息的区域，参考图3所示，该应用于图像区域规划模型训练的样本处理方法可以包括以下步骤S310至步骤S340，具体地：

步骤S310：识别样本图像中各文本框，并根据各文本框确定样本图像对应的图像特征、语义特征以及预设特征。

步骤S320：将样本图像对应的图像特征、语义特征以及预设特征进行融合，得到样本图像的综合特征。

步骤S330：根据各文本框在样本图像中的位置确定用于表征各文本框之间位置关系的文本框参数，并基于样本图像的综合特征和文本框参数确定每两个文本框之间的关系矩阵。

步骤S340：根据各文本框的预设标签、样本图像的综合特征和每两个文本框之间的关系矩阵训练图像区域规划模型。

实施图3所示的应用于图像区域规划模型训练的样本处理方法，可以训练得到能划分出图像中需要进行结构化信息提取的有效区域的图像区域规划模型，基于图像区域规划模型提升针对图像的信息提取效率，并提升结构化信息提取精度，降低对于算力的浪费。此外，可以基于图像特征、语义特征以及预设特征的多维度特征训练图像区域规划模型，提升图像区域规划模型的结构化信息提取精度。

请参阅图4，图4示意性示出了根据本公开的一个实施例的图像区域规划模型的应用示意图。如图4所示，图像区域规划模型的应用过程中，可以对接收到的医疗清单图像410进行文本框识别，进而提取各文本框分别对应的子图像特征，并根据子图像特征构建样本图像对应的图像特征420。进而，确定各文本框在样本图像中的位置信息，将位置信息输入图像区域规划模型中的语义特征提取网络，以使得语义特征提取网络根据位置信息提取各文本框分别对应的子语义特征，根据子语义特征构建样本图像对应的语义特征430。进而，对各文本框进行包含关系判定，得到每个文本框对应的多个判定结果，根据每个文本框对应的多个判定结果构建样本图像的预设特征440。进而，根据各文本框在样本图像中的位置确定用于表征各文本框之间位置关系的文本框参数，并基于样本图像的综合特征和文本框参数确定每两个文本框之间的关系矩阵450。进而，图像区域规划模型可以基于关系矩阵450对医疗清单图像410进行区域划分，以确定区域规划结果460，并对区域规划结果460进行结构化信息提取，以输出区域规划结果医疗清单图像410对应的结构化信息。

下面，对于本示例实施方式的上述步骤进行更加详细的说明。

在步骤S310中，识别样本图像中各文本框，并根据各文本框确定样本图像对应的图像特征、语义特征以及预设特征。

具体地，样本图像可以为图5～7中任一图像所示的医疗清单图像。样本图像对应的图像特征(Image Embeddings)、语义特征(Text Embeddings)以及预设特征(Hand-craftfeatures)可以通过向量/矩阵进行表示。

其中，识别样本图像中各文本框，包括：基于深度学习的文字检测算法确定样本图像中各文本区域，将限定文本区域的封闭图像作为样本图像中的文本框，其中的文字检测算法可以基于现有的CTPN、EAST、PA-net、DB-net等网络结构进行实现。

基于此，请参阅图5，图5示意性示出了根据本公开的一个实施例的针对图像的第一结构化信息提取阶段的提取结果示意图。图5所示的样本图像是一种医疗清单图像，基于深度学习的文字检测算法对该医疗清单图像进行文本框识别后，可以确定出该医疗清单图像中包含“医疗收费明细(电子)”的文本框501、包含“所属电子票据代码：123456”的文本框502、包含“交款人：xxx”的文本框503、包含“所属电子票据号码”的文本框504、包含“789123”的文本框505、包含“开票日期”的文本框506、包含“2020年01月01日”的文本框507、包含“项目名称”的文本框508、包含“数量/单位”的文本框509、包含“金额(元)”的文本框510、包含“备注”的文本框511、包含“ABC片剂”的文本框512、包含“7.00”的文本框513、包含“剂”的文本框514、包含“5.60”的文本框515、包含“S药丸”的文本框516、包含“42.00”的文本框517、包含“剂”的文本框518、包含“21.17”的文本框519、包含“小计”的文本框520、包含“26.77”的文本框521、包含“合计”的文本框522、包含“26.77”的文本框523、包含“收款单位(章)”的文本框524、包含“XXXXXX”的文本框525、包含“第”的文本框526、包含“1”的文本框527、包含“页”的文本框528、包含“共”的文本框529、包含“1”的文本框530、包含“页”的文本框531。

其中，文本框501～文本框530中包含的文本信息可以作为结构化信息的提取基础。

作为一种可选的实施例，根据各文本框确定样本图像对应的图像特征，包括：通过图像区域规划模型中的图像特征提取网络提取各文本框分别对应的子图像特征；根据子图像特征构建样本图像对应的图像特征。

具体地，通过图像区域规划模型中的图像特征提取网络提取各文本框分别对应的子图像特征，包括：通过图像区域规划模型中的图像特征提取网络对各文本框进行特征提取，得到各文本框分别对应的子图像特征

其中，文本框的数量为n，n为正整数。进而，根据子图像特征构建样本图像对应的图像特征，包括：拼接

以构成嵌入矩阵

将

确定为样本图像对应的图像特征。

可见，实施该可选的实施例，能够通过对于各文本框的图像特征识别，获取到多个子图像特征，根据对多个子图像特征的组合，可以得到样本图像对应的图像特征，相较于提取整个样本图像的图像特征而言，能够降低计算量，提升计算效率。

作为一种可选的实施例，根据各文本框确定样本图像对应的语义特征，包括：确定各文本框在样本图像中的位置信息；将位置信息输入图像区域规划模型中的语义特征提取网络，以使得语义特征提取网络根据位置信息提取各文本框分别对应的子语义特征；根据子语义特征构建样本图像对应的语义特征。

具体地，确定各文本框在样本图像中的位置信息，包括：确定各文本框的中点，确定每个中点在样本图像中的位置信息，作为相对应的文本框在样本图像中的位置信息。基于此，语义特征提取网络根据位置信息提取各文本框分别对应的子语义特征，包括：通过语义特征提取网络根据位置信息提取各文本框包括的文本信息t₁，t₂，……，t_n，将文本信息t₁，t₂，……，t_n输入编码器-解码器结构的神经网络结构(如，transformer)中，以根据神经网络结构提取文本信息t₁，t₂，……，t_n分别对应的子语义特征

其中，语义特征提取网络可以应用文字识别算法(如，CRNN等)进行文本提取，文本框的数量为n，n为正整数。基于此，根据子语义特征构建样本图像对应的语义特征，包括：拼接

以构成嵌入矩阵

将

确定为样本图像对应的语义特征。

请参阅图6，图6示意性示出了根据本公开的一个实施例的针对图像的第二结构化信息提取阶段的提取结果示意图。图6所示的样本图像是一种医疗清单图像，通过对各文本框的文本信息提取，可以确定出医疗清单图像中各文本框的文本信息，并将文本信息显示在相对应的文本框附近，图6所示的文本框具体为：包含“医疗收费明细(电子)”的文本框601、包含“所属电子票据代码：123456”的文本框602、包含“交款人：xxx”的文本框603、包含“所属电子票据号码”的文本框604、包含“789123”的文本框605、包含“开票日期”的文本框606、包含“2020年01月01日”的文本框607、包含“项目名称”的文本框608、包含“数量/单位”的文本框609、包含“金额(元)”的文本框610、包含“备注”的文本框611、包含“ABC片剂”的文本框612、包含“7.00”的文本框613、包含“剂”的文本框614、包含“5.60”的文本框615、包含“S药丸”的文本框616、包含“42.00”的文本框617、包含“剂”的文本框618、包含“21.17”的文本框619、包含“小计”的文本框620、包含“26.77”的文本框621、包含“合计”的文本框622、包含“26.77”的文本框623、包含“收款单位(章)”的文本框624、包含“XXXXXX”的文本框625、包含“第”的文本框626、包含“1”的文本框627、包含“页”的文本框628、包含“共”的文本框629、包含“1”的文本框630、包含“页”的文本框631。

可见，实施该可选的实施例，能够通过对于语义特征的识别丰富对于分类器的训练维度，通过多维度的特征进行分类器训练，可以提升分类器的分类精度。

作为一种可选的实施例，根据各文本框确定样本图像对应的预设特征，包括：对各文本框进行包含关系判定，得到每个文本框对应的多个判定结果；根据每个文本框对应的多个判定结果构建样本图像的预设特征；其中，包含关系判定包括以下至少一种：判定对应的文本框与特定词语的包含关系、判定对应的文本框与特定字符的包含关系、判定对应的文本框与特定数字的包含关系。

具体地，特定词语、特定字符、特定数字的数量均可以为一个或多个，本申请实施例不作限定。其中，对各文本框进行包含关系判定，得到每个文本框对应的多个判定结果，包括：对各文本框进行包含关系判定，得到每个文本框对应的多个判定结果

其中，

分别用于表征不同的判定结果，j＝1，2，……，m，文本框的数量为m，m为正整数；若

为1，则表示该判定结果用于表示文本框中包含特定词语/特定字符/特定数字，若

为0，则表示该判定结果用于表示文本框中不包含特定词语/特定字符/特定数字。基于此，根据每个文本框对应的多个判定结果构建样本图像的预设特征，包括：拼接

以构成嵌入矩阵

将

确定为样本图像对应的预设特征。

可见，实施该可选的实施例，能够提升分类器的训练效率及分类精度。

在步骤S320中，将样本图像对应的图像特征、语义特征以及预设特征进行融合，得到样本图像的综合特征。

具体地，将样本图像对应的图像特征、语义特征以及预设特征进行融合，得到样本图像的综合特征，包括：对样本图像对应的图像特征

语义特征

以及预设特征

进行归一化处理，归一化处理后的图像特征

语义特征

以及预设特征

可以表示在同一向量空间中，进而，将归一化处理后的图像特征、语义特征以及预设特征进行融合，得到样本图像的综合特征。其中，样本图像的综合特征可以通过向量/矩阵进行表示。

其中，将归一化处理后的图像特征、语义特征以及预设特征进行融合，得到样本图像的综合特征，包括：根据表达式

将归一化处理后的图像特征

语义特征

以及预设特征

进行融合，得到样本图像的综合特征

在步骤S330中，根据各文本框在样本图像中的位置确定用于表征各文本框之间位置关系的文本框参数，并基于样本图像的综合特征和文本框参数确定每两个文本框之间的关系矩阵。

作为一种可选的实施例，根据各文本框在样本图像中的位置确定用于表征各文本框之间位置关系的文本框参数，包括：确定各文本框相对于样本图像的中心点位置；根据各文本框的中心点位置确定各文本框之间的水平距离和垂直距离；将各文本框之间的水平距离和垂直距离确定为文本框参数。

具体地，根据各文本框的中心点位置确定各文本框之间的水平距离和垂直距离，包括：根据各文本框的中心点位置确定中心点i与中心点j之间的水平距离x_ij和垂直距离y_ij，其中，中心点j是区别于中心点i的任一文本框的中心点。基于此，基于样本图像的综合特征和文本框参数确定每两个文本框之间的关系矩阵，包括：基于样本图像的综合特征

以及各文本框之间的水平距离x_ij和垂直距离y_ij确定每两个文本框之间的关系矩阵

用于表示第i个中心点对应的文本框的

为图像区域规划模型中待学习的权重参数

可见，实施该可选的实施例，能够通过对于文本框参数的确定，丰富对于分类器的训练维度，从而提升分类器的分类精度。

在步骤S340中，根据各文本框的预设标签、样本图像的综合特征和每两个文本框之间的关系矩阵训练图像区域规划模型。

具体地，各文本框的预设标签可以为用于训练的人工标注的标签，用于作为分类器损失函数的计算依据。

作为一种可选的实施例，根据各文本框的预设标签、样本图像的综合特征和每两个文本框之间的关系矩阵训练图像区域规划模型，包括：根据各文本框的预设标签、样本图像的综合特征和每两个文本框之间的关系矩阵调整图像区域规划模型的权重参数，直到图像区域规划模型对应的损失函数收敛为止。

具体地，图像区域规划模型的权重参数为上述的

其中，根据各文本框的预设标签、样本图像的综合特征和每两个文本框之间的关系矩阵调整图像区域规划模型的权重参数，包括：触发图像区域规划模型根据样本图像的综合特征和每两个文本框之间的关系矩阵预测各文本框的标签，得到预测结果，根据预测结果与各文本框的预设标签计算损失函数，根据损失函数优化权重参数

直到损失函数收敛。其中，损失函数可以为0-1损失函数、绝对值损失函数、log对数损失函数、平方损失函数、指数损失函数、Hinge损失函数、感知损失(perceptron loss)函数或交叉熵损失函数，本申请实施例不作限定。

请参阅图7，图7示意性示出了根据本公开的一个实施例的针对图像的第三结构化信息提取阶段的提取结果示意图。通过各文本框的预设标签、样本图像的综合特征和每两个文本框之间的关系矩阵调整图像区域规划模型的权重参数之后，图像区域规划模型可以用于将图5所示的医疗清单图像进行区域划分，如图7所示，医疗清单图像可以根据文本框的图像特征、语义特征、预设特征被划分为区域701、区域702、区域703、区域704、区域705、区域706、区域707、区域708、区域709、区域710，其中，区域701～区域710分别包含不同类型的文本信息，通过图像区域划分可以提升结构化信息的提取效率。

请参阅图8，图8示意性示出了根据本公开的一个实施例的结构化信息示意图。如图8所示，基于图7所示的区域划分，可以精准提取医疗清单图像中的结构化信息，结构化信息可以包括：电子票据代码：123456；电子票据号码：789123；交款人：xxx；开票日期：2020年01月01日；项目明细：ABC片剂---7.00/剂---5.60，S药丸---42.00/剂---21.17；小计：26.77；合计：26.77；收款单位：XXXXXX；页数：第1页。

可见，实施该可选的实施例，能够依据各文本框的预设标签、样本图像的综合特征和每两个文本框之间的关系矩阵训练图像区域规划模型，从而提升图像区域规划模型的分类精度。

作为一种可选的实施例，根据各文本框的预设标签、样本图像的综合特征和每两个文本框之间的关系矩阵训练图像区域规划模型之后，上述方法还包括：根据训练后的图像区域规划模型对接收到的待处理图像进行区域划分，得到区域规划结果；根据区域规划结果提取待处理图像中各区域的文本信息；其中，文本信息包括字段和字段内容中至少一种；根据文本信息生成待处理图像对应的结构化信息。

具体地，待处理图像也可以为图5～7所示的医疗清单图像，结构化信息可以为图8所示的与医疗清单图像对应的结构化信息。其中，根据区域规划结果提取待处理图像中各区域的文本信息，包括：根据区域规划结果对待处理图像进行OCR(Optical CharacterRecognition，光学字符识别)，以得到各区域的文本信息。

可选的，根据训练后的图像区域规划模型对接收到的待处理图像进行区域划分，得到区域规划结果，包括：根据训练后的图像区域规划模型对接收到的待处理图像进行图像特征、语义特征以及预设特征的提取，进而融合图像特征、语义特征以及预设特征，得到待处理图像的综合特征，根据对待处理图像的文本框识别，确定出待处理图像的文本框参数，从而可以根据待处理图像的综合特征以及待处理图像的文本框参数对待处理图像进行区域划分，得到区域规划结果。其中，区域规划结果可以包括多个图像区域，多个图像区域的总面积可以小于等于待处理图像面积，多个图像区域也可以对应于不同类型的文本信息，每个图像区域可以包含至少一个文本框内的文本信息。

可见，实施该可选的实施例，能够通过训练后的图像区域规划模型对接收到的待处理图像进行精准的信息捕获，从而提升所生成的结构化信息的准确度。

请参阅图9，图9示意性示出了根据本公开的一个实施例的应用图像区域规划模型的多端交互示意图。如图9所示，应用图像区域规划模型的多端交互过程包括：客户端910、理赔核心系统920、理赔处理端930；其中，理赔核心系统920用于接收客户端910上传的医疗清单图像，并调用图像区域规划模型921对医疗清单图像进行结构化信息提取，进而可以将图像区域规划模型921提取得到的结构化信息反馈至理赔处理端930。客户端910和理赔处理端930可以为用户终端，理赔核心系统920可以运行于服务器中，理赔核心系统920包括可视化平台，用于接收上传的医疗清单图像以及显示提取得到的结构化信息。

请参阅图10，图10示意性示出了根据本公开的一个实施例的应用于图像区域规划模型训练的样本处理方法的流程图。如图10所示，该应用于图像区域规划模型训练的样本处理方法可以包括：步骤S1000～步骤S1090。

步骤S1000：识别样本图像中各文本框，通过图像区域规划模型中的图像特征提取网络提取各文本框分别对应的子图像特征，并根据子图像特征构建样本图像对应的图像特征。

步骤S1010：确定各文本框在样本图像中的位置信息，并将位置信息输入图像区域规划模型中的语义特征提取网络，以使得语义特征提取网络根据位置信息提取各文本框分别对应的子语义特征，进而根据子语义特征构建样本图像对应的语义特征。

步骤S1020：对各文本框进行包含关系判定，得到每个文本框对应的多个判定结果，并根据每个文本框对应的多个判定结果构建样本图像的预设特征，其中，包含关系判定包括以下至少一种：判定对应的文本框与特定词语的包含关系、判定对应的文本框与特定字符的包含关系、判定对应的文本框与特定数字的包含关系。

步骤S1030：将样本图像对应的图像特征、语义特征以及预设特征进行融合，得到样本图像的综合特征。

步骤S1040：确定各文本框相对于样本图像的中心点位置，并根据各文本框的中心点位置确定各文本框之间的水平距离和垂直距离，进而将各文本框之间的水平距离和垂直距离确定为文本框参数。

步骤S1050：基于样本图像的综合特征和文本框参数确定每两个文本框之间的关系矩阵。

步骤S1060：根据各文本框的预设标签、样本图像的综合特征和每两个文本框之间的关系矩阵调整图像区域规划模型的权重参数，直到图像区域规划模型对应的损失函数收敛为止。

步骤S1070：根据训练后的图像区域规划模型对接收到的待处理图像进行区域划分，得到区域规划结果。

步骤S1080：根据区域规划结果提取待处理图像中各区域的文本信息；其中，文本信息包括字段和字段内容中至少一种。

步骤S1090：根据文本信息生成待处理图像对应的结构化信息。

需要说明的是，步骤S1000～步骤S1090与图3所示的各步骤及其实施例相对应，针对步骤S1000～步骤S1090的具体实施方式，请参阅图3所示的各步骤及其实施例，此处不再赘述。

可见，实施图10所示的方法，可以训练得到能划分出图像中需要进行结构化信息提取的有效区域的图像区域规划模型，基于图像区域规划模型提升针对图像的信息提取效率，并提升结构化信息提取精度，降低对于算力的浪费。此外，可以基于图像特征、语义特征以及预设特征的多维度特征训练图像区域规划模型，提升图像区域规划模型的结构化信息提取精度。

进一步的，本示例实施方式中，还提供了一种应用于图像区域规划模型训练的样本处理装置，其中的图像区域规划模型用于规划出图像中包含结构化信息的区域，参考图11所示，该应用于图像区域规划模型训练的样本处理装置1100，可以包括：

文本框识别单元1101，用于识别样本图像中各文本框；

特征提取单元1102，用于根据各文本框确定样本图像对应的图像特征、语义特征以及预设特征；

特征融合单元1103，用于将样本图像对应的图像特征、语义特征以及预设特征进行融合，得到样本图像的综合特征；

参数确定单元1104，用于根据各文本框在样本图像中的位置确定用于表征各文本框之间位置关系的文本框参数，并基于样本图像的综合特征和文本框参数确定每两个文本框之间的关系矩阵；

分类器训练单元1105，用于根据各文本框的预设标签、样本图像的综合特征和每两个文本框之间的关系矩阵训练图像区域规划模型。

可见，实施图11所示的装置，可以训练得到能划分出图像中需要进行结构化信息提取的有效区域的图像区域规划模型，基于图像区域规划模型提升针对图像的信息提取效率，并提升结构化信息提取精度，降低对于算力的浪费。此外，可以基于图像特征、语义特征以及预设特征的多维度特征训练图像区域规划模型，提升图像区域规划模型的结构化信息提取精度。

在本公开的一种示例性实施例中，上述装置还包括：

区域划分单元(未图示)，用于在分类器训练单元1105根据各文本框的预设标签、样本图像的综合特征和每两个文本框之间的关系矩阵训练图像区域规划模型之后，根据训练后的图像区域规划模型对接收到的待处理图像进行区域划分，得到区域规划结果；

信息识别单元(未图示)，用于根据区域规划结果提取待处理图像中各区域的文本信息；其中，文本信息包括字段和字段内容中至少一种；

结构化信息提取单元(未图示)，用于根据文本信息生成待处理图像对应的结构化信息。

在本公开的一种示例性实施例中，特征提取单元1102根据各文本框确定样本图像对应的图像特征，包括：

根据子图像特征构建样本图像对应的图像特征。

在本公开的一种示例性实施例中，特征提取单元1102根据各文本框确定样本图像对应的语义特征，包括：

确定各文本框在样本图像中的位置信息；

根据子语义特征构建样本图像对应的语义特征。

在本公开的一种示例性实施例中，特征提取单元1102根据各文本框确定样本图像对应的预设特征，包括：

在本公开的一种示例性实施例中，参数确定单元1104根据各文本框在样本图像中的位置确定用于表征各文本框之间位置关系的文本框参数，包括：

确定各文本框相对于样本图像的中心点位置；

将各文本框之间的水平距离和垂直距离确定为文本框参数。

在本公开的一种示例性实施例中，分类器训练单元1105根据各文本框的预设标签、样本图像的综合特征和每两个文本框之间的关系矩阵训练图像区域规划模型，包括：

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

由于本公开的示例实施例的应用于图像区域规划模型训练的样本处理装置的各个功能模块与上述应用于图像区域规划模型训练的样本处理方法的示例实施例的步骤对应，因此对于本公开装置实施例中未披露的细节，请参照本公开上述的应用于图像区域规划模型训练的样本处理方法的实施例。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种应用于图像区域规划模型训练的样本处理方法，其特征在于，所述图像区域规划模型用于规划出图像中包含结构化信息的区域，所述方法包括：

识别样本图像中各文本框，并根据所述各文本框确定所述样本图像对应的图像特征、语义特征以及预设特征；

将所述样本图像对应的图像特征、语义特征以及预设特征进行融合，得到所述样本图像的综合特征；

根据所述各文本框在所述样本图像中的位置确定用于表征所述各文本框之间位置关系的文本框参数，并基于所述样本图像的综合特征和所述文本框参数确定每两个文本框之间的关系矩阵；

根据所述各文本框的预设标签、所述样本图像的综合特征和每两个文本框之间的关系矩阵训练所述图像区域规划模型。

2.根据权利要求1所述的方法，其特征在于，根据所述各文本框的预设标签、所述样本图像的综合特征和每两个文本框之间的关系矩阵训练所述图像区域规划模型之后，所述方法还包括：

根据训练后的图像区域规划模型对接收到的待处理图像进行区域划分，得到区域规划结果；

根据所述区域规划结果提取所述待处理图像中各区域的文本信息；其中，所述文本信息包括字段和字段内容中至少一种；

根据所述文本信息生成所述待处理图像对应的结构化信息。

3.根据权利要求1所述的方法，其特征在于，根据所述各文本框确定所述样本图像对应的图像特征，包括：

通过所述图像区域规划模型中的图像特征提取网络提取所述各文本框分别对应的子图像特征；

根据所述子图像特征构建所述样本图像对应的图像特征。

4.根据权利要求1所述的方法，其特征在于，根据所述各文本框确定所述样本图像对应的语义特征，包括：

确定所述各文本框在所述样本图像中的位置信息；

将所述位置信息输入所述图像区域规划模型中的语义特征提取网络，以使得所述语义特征提取网络根据所述位置信息提取所述各文本框分别对应的子语义特征；

根据所述子语义特征构建所述样本图像对应的语义特征。

5.根据权利要求1所述的方法，其特征在于，根据所述各文本框确定所述样本图像对应的预设特征，包括：

对所述各文本框进行包含关系判定，得到每个文本框对应的多个判定结果；

根据每个文本框对应的多个判定结果构建所述样本图像的预设特征；

其中，所述包含关系判定包括以下至少一种：判定对应的文本框与特定词语的包含关系、判定对应的文本框与特定字符的包含关系、判定对应的文本框与特定数字的包含关系。

6.根据权利要求1所述的方法，其特征在于，根据所述各文本框在所述样本图像中的位置确定用于表征所述各文本框之间位置关系的文本框参数，包括：

确定所述各文本框相对于所述样本图像的中心点位置；

根据所述各文本框的中心点位置确定所述各文本框之间的水平距离和垂直距离；

将所述各文本框之间的水平距离和垂直距离确定为所述文本框参数。

7.根据权利要求1所述的方法，其特征在于，根据所述各文本框的预设标签、所述样本图像的综合特征和每两个文本框之间的关系矩阵训练所述图像区域规划模型，包括：

根据所述各文本框的预设标签、所述样本图像的综合特征和每两个文本框之间的关系矩阵调整图像区域规划模型的权重参数，直到所述图像区域规划模型对应的损失函数收敛为止。

8.一种应用于图像区域规划模型训练的样本处理装置，其特征在于，所述图像区域规划模型用于规划出图像中包含结构化信息的区域，所述装置包括：

文本框识别单元，用于识别样本图像中各文本框；

特征提取单元，用于根据所述各文本框确定所述样本图像对应的图像特征、语义特征以及预设特征；

特征融合单元，用于将所述样本图像对应的图像特征、语义特征以及预设特征进行融合，得到所述样本图像的综合特征；

参数确定单元，用于根据所述各文本框在所述样本图像中的位置确定用于表征所述各文本框之间位置关系的文本框参数，并基于所述样本图像的综合特征和所述文本框参数确定每两个文本框之间的关系矩阵；

分类器训练单元，用于根据所述各文本框的预设标签、所述样本图像的综合特征和每两个文本框之间的关系矩阵训练所述图像区域规划模型。

9.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1～7中任一项所述的应用于图像区域规划模型训练的样本处理方法。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1～7中任一项所述的应用于图像区域规划模型训练的样本处理方法。