CN113239227B

CN113239227B - 图像数据结构化方法、装置、电子设备及计算机可读介质

Info

Publication number: CN113239227B
Application number: CN202110613188.7A
Authority: CN
Inventors: 王亚领; 付晓; 马文伟; 刘设伟
Original assignee: Taikang Insurance Group Co Ltd; Taikang Online Property Insurance Co Ltd
Current assignee: Taikang Insurance Group Co Ltd; Taikang Online Property Insurance Co Ltd
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2023-11-17
Anticipated expiration: 2041-06-02
Also published as: CN113239227A

Abstract

涉及一种图像数据结构化方法、装置、电子设备及计算机可读介质。该方法包括：对待识别图像识别获得初始文本框、文字信息以及坐标信息；在初始文本框中确定项目名称文本框；根据项目名称文本框的坐标信息在初始文本框中确定项目属性值文本框；根据预设项目属性名称集合对初始文本框的文字信息进行匹配，获得项目属性名文本框；根据项目属性名文本框的坐标信息对项目属性值文本框的坐标信息进行处理，获得与各项目属性名文本框对齐的项目属性值文本框集合；根据项目名称文本框、项目属性名文本框以及与各项目属性名文本框对齐的项目属性值文本框集合进行映射，获得结构化输出结果。本公开的技术方案能够实现对待识别图像的精确的结构化输出结果。

Description

图像数据结构化方法、装置、电子设备及计算机可读介质

技术领域

本公开涉及图像处理技术领域，具体而言，涉及一种图像数据结构化方法、装置、电子设备及计算机可读介质。

背景技术

在保险的理赔环节中，客户会上传多张理赔影像资料，费用清单是理赔作业流程中必不可少的一项资料，该资料上涵盖的文字信息众多，理赔作业人员进行理赔作业时需要将费用清单上的所有关于医疗的项目名称及其对应的属性项进行全量的精准的录入。由于费用清单的版面差异，导致在对这些费用清单进行OCR识别时，最终很难做到数据的标准结构化输出，造成费用清单识别失败。

因此，需要一种新的图像数据结构化方法、装置、电子设备及计算机可读介质。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的相关技术的信息。

发明内容

有鉴于此，本公开实施例提供一种图像数据结构化方法、装置、电子设备及计算机可读介质，能够适应不同版面的清单图像，实现高准确率的数据结构化输出。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一方面，提出一种图像数据结构化方法，该方法包括：获取待识别图像；对所述待识别图像识别获得初始文本框、所述初始文本框的文字信息以及所述初始文本框的坐标信息；对所述初始文本框的文字信息进行处理，以在所述初始文本框中确定项目名称文本框；根据所述项目名称文本框的坐标信息在所述初始文本框中确定项目属性值文本框；根据预设项目属性名称集合对所述初始文本框的文字信息进行匹配，获得项目属性名文本框；根据项目属性名文本框的坐标信息对所述项目属性值文本框的坐标信息进行处理，获得与各项目属性名文本框对齐的项目属性值文本框集合，所述项目属性值文本框集合包括至少一个项目属性值文本框；根据所述项目名称文本框、所述项目属性名文本框以及与各项目属性名文本框对齐的项目属性值文本框集合进行映射，获得所述待识别图像的结构化输出结果。

在本公开的一种示例性实施例中，根据项目属性名文本框的坐标信息对所述项目属性值文本框的坐标信息进行处理，获得与各项目属性名文本框对齐的项目属性值文本框集合包括：步骤a，根据各项目属性值文本框的坐标信息确定各项目属性值文本框的中心点纵坐标；步骤b，针对每一项目属性名文本框，根据所述项目属性值文本框的中心点纵坐标和该项目属性名文本框的中心点纵坐标对所述项目属性值文本框和该项目属性名文本框进行排序；步骤c，将排序结果中的第一位确定为第一文本框，将所述排序结果中的第二位确定为第二文本框；步骤d，根据第一文本框和第二文本框的坐标信息计算文本框重合度；步骤e，在所述文本框重合度大于重合度阈值时，将所述第二文本框确定为与项目属性名文本框对齐的项目属性值文本框，将所述第一文本框从所述排序结果中剔除；步骤f，在所述文本框重合度小于或等于重合度阈值时，将所述第二文本框从所述排序结果中剔除；步骤g，在所述排序结果不为空时，返回执行步骤c，在所述排序结果为空时，将与所述项目属性名文本框对齐的所有项目属性值文本框确定为与所述项目属性名文本框对齐的项目属性值文本框集合。

在本公开的一种示例性实施例中，根据第一文本框和第二文本框的坐标信息计算文本框重合度包括：cover_dis＝min(x₁₁，x₂₁)-max(x₁₀-x₂₀)，其中，x₁₁是第一文本框右上顶点的横坐标，x₂₁是第二文本框右上顶点的横坐标，x₁₀是第一文本框左上顶点的横坐标，x₂₀是第二文本框左上顶点的横坐标，cover_dis是第一文本框和第二文本框的文本框重合度。

在本公开的一种示例性实施例中，所述方法还包括：根据所述第一文本框的坐标信息和所述第二文本框的坐标信息确定目标宽度值：

min_width＝min((x₁₁-x₁₀)，(x₂₁-x₂₀))

其中，min_width为目标宽度值，x₁₁为第一文本框的右上顶点的横坐标，x₁₀为第一文本框的左上顶点的横坐标，x₂₁为第二文本框的右上顶点的横坐标，x₂₀为第二文本框的左上顶点的横坐标；根据所述目标宽度值和阈值系数确定所述重合度阈值。

在本公开的一种示例性实施例中，根据所述项目名称文本框、所述项目属性名文本框以及与各项目属性名文本框对齐的项目属性值文本框集合进行映射，获得所述待识别图像的结构化输出结果包括：在I个项目名称文本框中确定第i个项目名称文本框，I为项目名称文本框的数量，I大于0，i大于0且小于或等于I；在J个项目属性名文本框中确定第j个项目属性名称文本框，J为项目属性名文本框的数量，J大于0，j大于0且小于或等于J；将与第j个项目属性名文本框对齐的项目属性值文本框集合中的第i个项目属性值文本框确定为第i个项目名称文本框与第j个项目属性名称文本框映射的索引对象，以获得所述待识别图像的文本结构化输出结果。

在本公开的一种示例性实施例中，根据所述项目名称文本框的坐标信息在所述初始文本框中确定项目属性值文本框包括：根据所述项目名称文本框的坐标信息确定所述项目名称文本框的纵坐标上界与纵坐标下界；根据所述初始文本框的坐标信息确定各初始文本框的中心点纵坐标；将中心点纵坐标大于所述纵坐标下界且小于所述纵坐标上界的初始文本框确定为所述项目属性值文本框。

在本公开的一种示例性实施例中，对所述初始文本框的文字信息进行处理，以在所述初始文本框中确定项目名称文本框包括：通过分类模型对所述初始文本框的文字信息进行处理，根据分类结果在所述初始文本框中确定项目名称文本框。

根据本公开的一方面，提出一种图像数据结构化装置，该装置包括：图像获取模块，配置为获取待识别图像；

图像识别模块，配置为对所述待识别图像识别获得初始文本框、所述初始文本框的文字信息以及所述初始文本框的坐标信息；项目名称确定模块，配置为对所述初始文本框的文字信息进行处理，以在所述初始文本框中确定项目名称文本框；属性值确定模块，配置为根据所述项目名称文本框的坐标信息在所述初始文本框中确定项目属性值文本框；属性名确定模块，配置为根据预设项目属性名称集合对所述初始文本框的文字信息进行匹配，获得项目属性名文本框；属性对齐模块，配置为根据项目属性名文本框的坐标信息对所述项目属性值文本框的坐标信息进行处理，获得与各项目属性名文本框对齐的项目属性值文本框集合，所述项目属性值文本框集合包括至少一个项目属性值文本框；结构化输出模块，配置为根据所述项目名称文本框、所述项目属性名文本框以及与各项目属性名文本框对齐的项目属性值文本框集合进行映射，获得所述待识别图像的结构化输出结果。

根据本公开的一方面，提出一种电子设备，该电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上文中所述的方法。

根据本公开的一方面，提出一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上文中所述的方法。

根据本公开一些实施例提供的图像数据结构化方法、装置、电子设备及计算机可读介质，对待识别图像识别获得初始文本框、文字信息以及坐标信息后，对初始文本框的文字信息进行处理，以在初始文本框中确定项目名称文本框，根据项目名称文本框的坐标信息在初始文本框中确定项目属性值文本框，根据预设项目属性名称集合对初始文本框的文字信息进行匹配，获得项目属性名文本框。并利用项目属性名文本框的坐标信息确定与各项目属性名文本框对齐的项目属性值文本框集合，能够实现对各项目属性名文本框与项目属性值文本框的准确定位。进而根据所述项目名称文本框、所述项目属性名文本框以及与各项目属性名文本框对齐的项目属性值文本框集合进行映射，实现对待识别图像的精确的结构化输出结果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

通过参照附图详细描述其示例实施例，本公开的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本公开的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种图像数据结构化方法的流程图。

图2是根据另一示例性实施例示出的一种图像数据结构化方法的流程图。

图3是根据一示例性实施例示出的待识别图像的识别结果的示意图。

图4是根据一示例性实施例示出的待识别图像示意图。

图5是根据另一示例性实施例示出的一种图像数据结构化方法的流程图。

图6是根据一示例性实施例示出的一种图像数据结构化装置的框图。

图7示意性示出本公开一个示例性实施例中一种电子设备的方框图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本公开将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应理解，虽然本文中可能使用术语第一、第二、第三等来描述各种组件，但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此，下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用，术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。

本领域技术人员可以理解，附图只是示例实施例的示意图，附图中的模块或流程并不一定是实施本公开所必须的，因此不能用于限制本公开的保护范围。

图1是根据一示例性实施例示出的一种图像数据结构化方法的流程图。本公开实施例提供的图像数据结构化方法可以由任意具备计算处理能力的电子设备执行，例如用户终端和/或服务器，在下面的实施例中，以服务器执行所述方法为例进行举例说明，但本公开并不限定于此。本公开实施例提供的图像数据结构化方法10可以包括步骤S102至S108。

如图1所示，在步骤S102中，获取待识别图像。

本公开实施例中，待识别图像可例如图3所示。

在步骤S104中，对待识别图像识别获得初始文本框、初始文本框的文字信息以及初始文本框的坐标信息。

本公开实施例中，可通过文本检测模型对待识别图像检测获得初始文本框，并利用文字识别模型对各初始文本框进行识别，获得各初始文本框的文字信息。并基于初始文本框在待识别图像中的位置(例如像素位置)确定初始文本框的坐标信息。其中，初始文本框的坐标信息可表示为该初始文本框的4个顶点的坐标信息。

在步骤S106中，对初始文本框的文字信息进行处理，以在初始文本框中确定项目名称文本框。

在示例性实施例中，可通过分类模型对初始文本框的文字信息进行处理，根据分类结果在初始文本框中确定项目名称文本框。其中，可通过分类模型对各初始文本框的文字信息进行处理，获得初始文本框的文字信息表征为项目名称类别的概率值，在该概率值大于预设概率阈值时，认为该初始文本框为项目名称文本框。

在步骤S108中，根据项目名称文本框的坐标信息在初始文本框中确定项目属性值文本框。

在示例性实施例中，可根据项目名称文本框的坐标信息确定项目名称文本框的纵坐标上界与纵坐标下界；根据初始文本框的坐标信息确定各初始文本框的中心点纵坐标；将中心点纵坐标大于纵坐标下界且小于纵坐标上界的初始文本框确定为项目属性值文本框。

其中，可通过下式确定项目名称文本框的纵坐标上界和纵坐标下界：

y_top＝min(y_i0，y_i1，y_i2，x_i3)，i∈pro_box_set (1)

y_bot＝max(y_i0，y_i1，y_i2，x_i3)，i∈pro_box_set (2)

其中，pro_box_set为项目名称文本框的集合，i∈pro_box_set表示第i个初始文本框为项目名称文本框。第i个初始文本框的坐标信息可表示为[x_i0，y_i0，x_i1，y_i1，x_i2，y_i2，x_i3，y_i3]，其中，(x_i0，y_i0)为第i个初始文本框左上顶点的坐标信息，(x_i1，y_i1)为第i个初始文本框右上顶点的坐标信息，(x_i2，y_i2)为第i个初始文本框左下顶点的坐标信息，(x_i3，y_i3)为第i个初始文本框右下顶点的坐标信息。

初始文本框的中心点纵坐标可通过下式确定：

x_{i_center}＝(x_i0+x_i1+x_i2+x_i3)/4，i∈pro_box_set (3)

y_{i_center}＝(y_i0+y_i1+y_i2+y_i3)/4，i∈pro_box_set (4)

其中，其中，x_{i_center}为第i个初始文本框的中心点横坐标，y_{i_center}为第i个初始文本框的中心点纵坐标。

将中心点纵坐标大于纵坐标下界且小于纵坐标上界的初始文本框确定为项目属性值文本框可表示为：

i∈pros_box_setify_top＜y_{i_center}＜y_bot，i∈pro_box_set (5)

其中，pros_box_set为项目属性值文本框的集合。其中，在执行公式(5)时，可将已确认为项目名称文本框的初始文本框从初始文本框的集合中剔除后再执行公式(5)，以获得项目属性值文本框。

在步骤S110中，根据预设项目属性名称集合对初始文本框的文字信息进行匹配，获得项目属性名文本框。

本公开实施例中，预设项目名称属性名称集合character_info_set可表示为character_info_set＝{“单价”,“数量”,“金额”,…}，通过将其与初始文本框的文字信息进行文字匹配，将匹配成功的初始文本框确定为项目属性名文本框。

在步骤S112中，根据项目属性名文本框的坐标信息对项目属性值文本框的坐标信息进行处理，获得与各项目属性名文本框对齐的项目属性值文本框集合，项目属性值文本框集合包括至少一个项目属性值文本框。

本公开实施例中，对于每一项目属性名文本框，根据其坐标信息确定与其对齐的项目属性值文本框，以整合获得与项目属性名文本框对齐的项目属性值文本框集合。

在步骤S114中，根据项目名称文本框、项目属性名文本框以及与各项目属性名文本框对齐的项目属性值文本框集合进行映射，获得待识别图像的结构化输出结果。

本公开实施例中，可按照行索引对项目名称文本框、项目属性名文本框以及与各项目属性名文本框对齐的项目属性值文本框集合进行解析，得到各项目名称文本框下每一项目属性名文本框对应的项目属性值文本框。

根据本公开实施方式提供的图像数据结构化方法，对待识别图像识别获得初始文本框、文字信息以及坐标信息后，对初始文本框的文字信息进行处理，以在初始文本框中确定项目名称文本框，根据项目名称文本框的坐标信息在初始文本框中确定项目属性值文本框，根据预设项目属性名称集合对初始文本框的文字信息进行匹配，获得项目属性名文本框。并利用项目属性名文本框的坐标信息确定与各项目属性名文本框对齐的项目属性值文本框集合，能够实现对各项目属性名文本框与项目属性值文本框的准确定位。进而根据项目名称文本框、项目属性名文本框以及与各项目属性名文本框对齐的项目属性值文本框集合进行映射，实现对待识别图像的精确的结构化输出结果。

在示例性实施例中，在步骤S112中，可在I个项目名称文本框中确定第i个项目名称文本框，I为项目名称文本框的数量，I大于0，i大于0且小于或等于I；在J个项目属性名文本框中确定第j个项目属性名称文本框，J为项目属性名文本框的数量，J大于0，j大于0且小于或等于J；将与第j个项目属性名文本框对齐的项目属性值文本框集合中的第i个项目属性值文本框确定为第i个项目名称文本框与第j个项目属性名称文本框映射的索引对象，以获得待识别图像的文本结构化输出结果。

其中，对于第j个项目属性名文本框对齐的项目属性值文本框集合，可按照其每个项目属性值文本框的中心点的纵坐标进行排序，按照排序结果确定其中的第i个项目属性值文本框。

例如图4所示，项目名称文本框可例如图4中的附图标记410。项目属性名文本框可例如为图4中附图标记420，项目属性值文本框可例如为图4中附图标记430。与各项目属性名文本框对齐的项目属性值文本框集合可例如图4中附图标记435。其中，可按照项目名称文本框的中心点的纵坐标对各项目名称文本框进行排序，并按照该排序的顺序确定第i个项目名称文本框。以图4为例，当i＝3，则第3个项目名称文本框的文字信息为：隐血试验。项目属性名文本框可例如图4中的：“单价”、“数量”、“合计金额(元)”等。可按照项目属性名文本框的中心点的横坐标对各项目属性名文本框进行排序，并按照该排序的顺序确定第j个项目属性名文本框，也可随机排序确定第j个项目属性名文本框，本公开对此并不作特殊限定。假设图4中第j(本例中假设j＝1)个项目属性名文本框为“单价”，则第1(j＝1)个项目属性名文本框对齐的项目属性值文本框中的第3(i＝3)个项目属性值文本框为“7.00”，即项目属性值文本框为“7.00”为项目名称文本框“隐血试验”与项目属性名文本框“单价”映射的索引对象。

应清楚地理解，本公开描述了如何形成和使用特定示例，但本公开的原理不限于这些示例的任何细节。相反，基于本公开公开的内容的教导，这些原理能够应用于许多其它实施例。

如图2所示，本发明实施例中，上述步骤S112可以进一步包括以下步骤。

在步骤a中，根据各项目属性值文本框的坐标信息确定各项目属性值文本框的中心点纵坐标。

本公开实施例中，可按照前述公式(4)确定项目属性值文本框的中心点纵坐标。

在步骤b中，针对每一项目属性名文本框，根据项目属性值文本框的中心点纵坐标和该项目属性名文本框的中心点纵坐标对项目属性值文本框和该项目属性名文本框进行排序。

本公开实施例中，以图4为例，对于项目属性名文本框“单价”，可将该项目属性名文本框“单价”和附图标记420中的所有项目属性值文本框进行排序，排序依据为各文本框的中心点纵坐标。应当注意，图4中项目属性名文本框“单价”及项目属性值文本框的排序结果中，并不包括项目属性名文本框“数量”、“合计金额(元)”。同理，在包括项目属性名文本框“数量”的排序结果中，并不包括属性名文本框“单价”、“合计金额(元)”。其中，项目属性名文本框的中心点纵坐标同样可参照公式(4)计算获得。下面以排序结果为：“单价”、“18.6918.69”、“1”、“18.69”、“35.00”…为例进行说明。

在步骤c中，将排序结果中的第一位确定为第一文本框，将排序结果中的第二位确定为第二文本框。

本公开实施例中，第一位可例如为项目属性名文本框“单价”(即第一文本框)，第二位可例如为项目属性值文本框“18.69”。

在步骤d中，根据第一文本框和第二文本框的坐标信息计算文本框重合度。

示例性实施例中，可按照下式计算文本框重合度。

cover_dis＝min(x₁₁，x₂₁)-max(x₁₀-x₂₀) (6)

其中，x₁₁是第一文本框右上顶点的横坐标，x₂₁是第二文本框右上顶点的横坐标，x₁₀是第一文本框左上顶点的横坐标，x₂₀是第二文本框左上顶点的横坐标，cover_dis是第一文本框和第二文本框的文本框重合度。

第一文本框的坐标信息表示为[x₁₀，y₁₀，x₁₁，y₁₁，x₁₂，y₁₂，x₁₃，y₁₃]，(x₁₀，y₁₀)是第一文本框左上顶点的坐标信息，(x₁₁，y₁₁)是第一文本框右上顶点的坐标信息，(x₁₂，y₁₂)是第一文本框左下顶点的坐标信息，(x₁₃，y₁₃)是第一文本框右下顶点的坐标信息。

第二文本框的坐标信息表示为[x₂₀，y₂₀，x₂₁，y₂₁，x₂₂，y₂₂，x₂₃，y₂₃]，(x₂₀，y₂₀)是第二文本框左上顶点的坐标信息，(x₂₁，y₂₁)是第二文本框右上顶点的坐标信息，(，x₂₂，y₂₂)是第二文本框左下顶点的坐标信息，(x₂₃，y₂₃)是第二文本框右下顶点的坐标信息。

在步骤e中，在文本框重合度大于重合度阈值时，将第二文本框确定为与项目属性名文本框对齐的项目属性值文本框，将第一文本框从排序结果中剔除。

在示例性实施例中，本公开实施例的图像数据结构化方法可通过下式确定重合度阈值：根据第一文本框的坐标信息和第二文本框的坐标信息确定目标宽度值：

min_width＝min((x₁₁-x₁₀)，(x₂₁-x₂₀)) (7)

其中，min_width为目标宽度值，x₁₁为第一文本框的右上顶点的横坐标，x₁₀为第一文本框的左上顶点的横坐标，x₂₁为第二文本框的右上顶点的横坐标，x₂₀为第二文本框的左上顶点的横坐标。

根据目标宽度值和阈值系数确定重合度阈值。

阈值系数可大于0且小于1。在示例性实施例中，阈值系数可例如取值0.1。其中，可根据目标宽度值和阈值系数的乘积确定重合度阈值：0.1*min_width。

将第一文本框从排序结果中剔除后，剔除后的排序结果变为：“18.69”、“1”、“18.69”、“35.00”…。剔除后的排序结果中的第一位则变为项目属性值文本框“18.69”,第二位则变为项目属性值文本框“1”。

在步骤f中，在文本框重合度小于或等于重合度阈值时，将第二文本框从排序结果中剔除。

本公开实施例中，在将第二文本框从排序结果中剔除后，剔除后的排序结果变为：“单价”、“1”、“18.69”、“35.00”…剔除后的排序结果中的第一位则为项目属性名文本框“单价”，第二位则变为项目属性值文本框“1”。

在步骤g中，在排序结果不为空时，返回执行步骤c，在排序结果为空时，将与项目属性名文本框对齐的所有项目属性值文本框确定为与项目属性名文本框对齐的项目属性值文本框集合。

本公开实施例中，当返回执行步骤c时，可顺序执行步骤d、e、f、g，直至排序结果为空时，获得与项目属性名文本框对齐的项目属性值文本框集合。

以文本框重合度大于重合度阈值为例，剔除后的排序结果变为：“18.69”、“1”、“18.69”、“35.00”…。在返回执行步骤c时，第一文本框变为“18.69”，第二文本框变为“1”，假设该次计算文本框重合度小于或等于重合度阈值，则将第二文本框从排序结果中剔除，剔除后的排序结果变为：“18.69”、“18.69”、“35.00”…。在执行步骤g时，由于排序结果不为空，则再次返回步骤c：第一文本框为“18.69”，第二文本框为“18.69”，假设该次计算文本框重合度小于或等于重合度阈值，则将第二文本框从排序结果中剔除，剔除后的排序结果变为：“18.69”、“35.00”…。在执行步骤g时，由于排序结果不为空，则再次返回步骤c：第一文本框为“18.69”，第二文本框为“35.00”，假设该次计算文本框重合度大于重合度阈值，则将“35.00”确定为与项目属性名文本框“单价”对齐的项目属性值文本框，并将“35.00”从排序结果中剔除后再次循环，直至排序结果为空。返回所有确认为与项目属性名文本框“单价”对齐的项目属性值文本框。

在该实施例中，利用文本框的空间坐标信息，对上下两两相邻的文本框判断是否在同一列，采用更新迭代的方式计算属于同一列的所有文本框，提高了算法的鲁棒性与适用性，尤其面对形变较为严重的待识别图像时仍能够保证准确的数据结构化输出。

如图5所示，本公开实施例的图像数据结构化方法可以包括以下步骤。

在步骤S502中，利用文本检测模型对图像中的文本进行检测，获得输出初始文本框的集合box_set，集合中每个文本框内包含8个数据为[x₀,y₀,x₁,y₁,x₂,y₂,x₃,y₃]，分别表示该文本框左上、右上、左下和右下的4个顶点坐标。

在步骤S504中，利用文字识别模型对各初始文本框进行识别，输出初始文本框的文本信息的集合info_set。

在步骤S506中，将info_set输入到项目名称文本分类模型，输出项目名称文本信息的集合pro_info_set，将集合中的每个识别文本为医疗项目名称确定为医疗项目名称对应的项目名称文本框的集合pro_box_set。

在步骤S508中，确定医疗项目名称区域内所有文本框pros_box_set(即项目属性值文本框的集合)。图5中项目名称文本区域上下界级项目名称文本框的纵坐标上界和纵坐标下界，具体可参见公式(1)-(2)。

本步骤可采取与步骤S108类似的步骤，具体可参见公式(1)至(5)，此处不再赘述。

在步骤S510中，预设定项目属性名文本框的集合character_info_set(例如character_info_set＝{“单价”,“数量”,“金额”}),利用文字匹配在info_set确定对应的项目属性名文本框的集合character_box_set，根据图2所示方式计算得到与各项目属性名文本框对齐的项目属性值文本框集合col_box_set。所有项目属性名文本框对齐的项目属性值文本框的集合为character_cols_box_set。

具体如下。

a.根据如下方式计算第一文本框box1和第二box2是否在同一列：

min_width＝min((x₁₁-x₁₀),(x₂₁-x₂₀))

cover_dis＝min(x₁₁,x₂₁)-max(x₁₀,x₂₀) (8)

其中min_width代表两个文本框中较小的框宽度，cover_dis代表两个文本框在纵坐标上重合的距离，若cover_dis值大于0，则代表有重合，若cover_dis值小于0，则代表不重合；

如果满足cover_dis＞0.1*min_width，则box1与box2在同列；

1.对于character_box_set中的某一个文本框character_box，记该列文本框集合col_box_set为空，利用上述a中的方法计算pros_box_set中所有与character_box在同列的文本框集合character_col_box_set。

2.将character_col_box_set中的文本框按照从小到大进行排序；

3.选取排序后的第一个文本框，将其加入到col_box_set，并且将其当做新的character_box，重复上述步骤1和2直到找不到同列的框；

4.遍历character_box_set中的每个文本框，每个文本框按照步骤1、2、3计算得到对应的列文本框集合col_box_set，对应的列文本内容集合为col_info_box,所有的col_box_set的列集合为character_cols_box_set，对应的文本内容集合character_cols_info_set。

在步骤S512中，利用pro_info_set、character_info_set、character_cols_box_set，根据索引位置进行映射，即可得到每一项目属性值文本框的文字信息对应的项目名称及其对应的属性名称。

其中，可根据pro_info_set、character_info_set、character_cols_info_set，三个集合根据如下索引位置进行映射：

项目名称pro_name＝pro_info_i(pro_info_set的第i个元素)。

属性名称character_j＝character_info_j(pro_info_set的第j个元素)。

属性值为：

character_info_ji＝character_cols_info_ji(character_cols_info_set的第j个元素的第i个元素)。其中，character_cols_info_ji可存储为I行J列二维数组格式，第j列存储的为与第j个项目属性名对齐的项目属性值文本框的集合character_col_info_set。其中，对于每一列的项目属性值文本框的集合，可按照文本框的中心点的纵坐标的排序结果按序存储。

其中，pro_name代表项目名称(例如i＝3时，“隐血试验”)，character_j代表第j个属性名(例如j＝1时，“单价”),character_info_ji代表第j个属性名的具体值(例如“7.00”)

按照上述即可得到所有项目名称及其对应的属性名称。

在本发明实施例中，首先利用文本框的文本内容信息进行项目名称以及属性名称的确认，其次利用文本条的空间位置关系，通过计算相邻文本框的纵轴方向的重合度，采用串连的方式，能够增强算法的鲁棒性。

本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时，执行本公开提供的上述方法所限定的上述功能。的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图6是根据一示例性实施例示出的一种图像数据结构化装置的框图。本公开实施例提供的图像数据结构化装置60可以包括：图像获取模块602、图像识别模块604、项目名称确定模块606、属性值确定模块608、属性名确定模块610、属性对齐模块612以及结构化输出模块614。

图像获取模块602可配置为获取待识别图像。

图像识别模块604可配置为对待识别图像识别获得初始文本框、初始文本框的文字信息以及初始文本框的坐标信息。

项目名称确定模块606可配置为对初始文本框的文字信息进行处理，以在初始文本框中确定项目名称文本框。

属性值确定模块608可配置为根据项目名称文本框的坐标信息在初始文本框中确定项目属性值文本框。

属性名确定模块610可配置为根据预设项目属性名称集合对初始文本框的文字信息进行匹配，获得项目属性名文本框。

属性对齐模块612可配置为根据项目属性名文本框的坐标信息对项目属性值文本框的坐标信息进行处理，获得与各项目属性名文本框对齐的项目属性值文本框集合，项目属性值文本框集合包括至少一个项目属性值文本框。

结构化输出模块614可配置为根据项目名称文本框、项目属性名文本框以及与各项目属性名文本框对齐的项目属性值文本框集合进行映射，获得待识别图像的结构化输出结果。

根据本公开实施方式提供的图像数据结构化装置，对待识别图像识别获得初始文本框、文字信息以及坐标信息后，对初始文本框的文字信息进行处理，以在初始文本框中确定项目名称文本框，根据项目名称文本框的坐标信息在初始文本框中确定项目属性值文本框，根据预设项目属性名称集合对初始文本框的文字信息进行匹配，获得项目属性名文本框。并利用项目属性名文本框的坐标信息确定与各项目属性名文本框对齐的项目属性值文本框集合，能够实现对各项目属性名文本框与项目属性值文本框的准确定位。进而根据项目名称文本框、项目属性名文本框以及与各项目属性名文本框对齐的项目属性值文本框集合进行映射，实现对待识别图像的精确的结构化输出结果。

在示例性实施例中，属性对齐模块612可包括：单元a，可配置为根据各项目属性值文本框的坐标信息确定各项目属性值文本框的中心点纵坐标；单元b，可配置为针对每一项目属性名文本框，根据项目属性值文本框的中心点纵坐标和该项目属性名文本框的中心点纵坐标对项目属性值文本框和该项目属性名文本框进行排序；单元c，可配置为将排序结果中的第一位确定为第一文本框，将排序结果中的第二位确定为第二文本框；单元d，可配置为根据第一文本框和第二文本框的坐标信息计算文本框重合度；单元e，可配置为在文本框重合度大于重合度阈值时，将第二文本框确定为与项目属性名文本框对齐的项目属性值文本框，将第一文本框从排序结果中剔除；单元f，可配置为在文本框重合度小于或等于重合度阈值时，将第二文本框从排序结果中剔除；单元g，可配置为在排序结果不为空时，返回执行单元c，在排序结果为空时，将与项目属性名文本框对齐的所有项目属性值文本框确定为与项目属性名文本框对齐的项目属性值文本框集合。

在示例性实施例中，单元d可配置为根据如下方式计算文本框重合度：

cover_dis＝min(x₁₁，x₂₁)-max(x₁₀-x₂₀)

在示例性实施例中，图像数据结构化装置60还可包括：目标宽度值模块，可配置为根据第一文本框的坐标信息和第二文本框的坐标信息确定目标宽度值：

min_width＝min((x₁₁-x₁₀)，(x₂₁-x₂₀))

其中，min_width为目标宽度值，x₁₁为第一文本框的右上顶点的横坐标，x₁₀为第一文本框的左上顶点的横坐标，x₂₁为第二文本框的右上顶点的横坐标，x₂₀为第二文本框的左上顶点的横坐标；重合度阈值确定模块，可配置为根据目标宽度值和阈值系数确定重合度阈值。

在示例性实施例中，结构化输出模块614可包括：项目名称文本框单元，可配置为在I个项目名称文本框中确定第i个项目名称文本框，I为项目名称文本框的数量，I大于0，i大于0且小于或等于I；项目属性名文本框单元，可配置为在J个项目属性名文本框中确定第j个项目属性名称文本框，J为项目属性名文本框的数量，J大于0，j大于0且小于或等于J；索引映射单元，可配置为将与第j个项目属性名文本框对齐的项目属性值文本框集合中的第i个项目属性值文本框确定为第i个项目名称文本框与第j个项目属性名称文本框映射的索引对象，以获得待识别图像的文本结构化输出结果。

在示例性实施例中，属性值确定模块608可包括：界限确定单元，可配置为根据项目名称文本框的坐标信息确定项目名称文本框的纵坐标上界与纵坐标下界；中心点计算单元，可配置为根据初始文本框的坐标信息确定各初始文本框的中心点纵坐标；属性值确定单元，可配置为将中心点纵坐标大于纵坐标下界且小于纵坐标上界的初始文本框确定为项目属性值文本框。

在示例性实施例中，项目名称确定模块606可配置为通过分类模型对初始文本框的文字信息进行处理，根据分类结果在初始文本框中确定项目名称文本框。

下面参照图7来描述根据本发明的这种实施方式的电子设备700。图7显示的电子设备700仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于：上述至少一个处理单元710、上述至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元710执行，使得所述处理单元710执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元710可以执行如图1或图2或图5中所示的步骤。

存储单元720可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)7201和/或高速缓存存储单元7202，还可以进一步包括只读存储单元(ROM)7203。

存储单元720还可以包括具有一组(至少一个)程序模块7205的程序/实用工具7204，这样的程序模块7205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线730可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备700也可以与一个或多个外部设备800(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备700交互的设备通信，和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且，电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器760通过总线730与电子设备700的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备700使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和构思由权利要求指出。

Claims

1.一种图像数据结构化方法，其特征在于，包括：

获取待识别图像；

对所述待识别图像识别获得初始文本框、所述初始文本框的文字信息以及所述初始文本框的坐标信息；

对所述初始文本框的文字信息进行处理，以在所述初始文本框中确定项目名称文本框；

根据所述项目名称文本框的坐标信息在所述初始文本框中确定项目属性值文本框；

根据预设项目属性名称集合对所述初始文本框的文字信息进行匹配，获得项目属性名文本框；

根据项目属性名文本框的坐标信息对所述项目属性值文本框的坐标信息进行处理，获得与各项目属性名文本框对齐的项目属性值文本框集合，所述项目属性值文本框集合包括至少一个项目属性值文本框；

根据所述项目名称文本框、所述项目属性名文本框以及与各项目属性名文本框对齐的项目属性值文本框集合进行映射，获得所述待识别图像的结构化输出结果；

根据项目属性名文本框的坐标信息对所述项目属性值文本框的坐标信息进行处理，获得与各项目属性名文本框对齐的项目属性值文本框集合包括：步骤a，根据各项目属性值文本框的坐标信息确定各项目属性值文本框的中心点纵坐标；步骤b，针对每一项目属性名文本框，根据所述项目属性值文本框的中心点纵坐标和该项目属性名文本框的中心点纵坐标对所述项目属性值文本框和该项目属性名文本框进行排序；步骤c，将排序结果中的第一位确定为第一文本框，将所述排序结果中的第二位确定为第二文本框；步骤d，根据第一文本框和第二文本框的坐标信息计算文本框重合度；步骤e，在所述文本框重合度大于重合度阈值时，将所述第二文本框确定为与项目属性名文本框对齐的项目属性值文本框，将所述第一文本框从所述排序结果中剔除；步骤f，在所述文本框重合度小于或等于重合度阈值时，将所述第二文本框从所述排序结果中剔除；步骤g，在所述排序结果不为空时，返回执行步骤c，在所述排序结果为空时，将与所述项目属性名文本框对齐的所有项目属性值文本框确定为与所述项目属性名文本框对齐的项目属性值文本框集合。

2.如权利要求1所述的方法，其特征在于，根据第一文本框和第二文本框的坐标信息计算文本框重合度包括：

；

其中，是第一文本框右上顶点的横坐标，/>是第二文本框右上顶点的横坐标，是第一文本框左上顶点的横坐标，/>是第二文本框左上顶点的横坐标，是第一文本框和第二文本框的文本框重合度。

3.如权利要求1所述的方法，其特征在于，还包括：

根据所述第一文本框的坐标信息和所述第二文本框的坐标信息确定目标宽度值：

；

其中，为目标宽度值，/>为第一文本框的右上顶点的横坐标，/>为第一文本框的左上顶点的横坐标，/>为第二文本框的右上顶点的横坐标，/>为第二文本框的左上顶点的横坐标；

根据所述目标宽度值和阈值系数确定所述重合度阈值。

4.如权利要求1所述的方法，其特征在于，根据所述项目名称文本框、所述项目属性名文本框以及与各项目属性名文本框对齐的项目属性值文本框集合进行映射，获得所述待识别图像的结构化输出结果包括：

在I个项目名称文本框中确定第i个项目名称文本框，I为项目名称文本框的数量，I大于0，i大于0且小于或等于I；

在J个项目属性名文本框中确定第j个项目属性名称文本框，J为项目属性名文本框的数量，J大于0，j大于0且小于或等于J；

将与第j个项目属性名文本框对齐的项目属性值文本框集合中的第i个项目属性值文本框确定为第i个项目名称文本框与第j个项目属性名称文本框映射的索引对象，以获得所述待识别图像的文本结构化输出结果。

5.如权利要求1所述的方法，其特征在于，根据所述项目名称文本框的坐标信息在所述初始文本框中确定项目属性值文本框包括：

根据所述项目名称文本框的坐标信息确定所述项目名称文本框的纵坐标上界与纵坐标下界；

根据所述初始文本框的坐标信息确定各初始文本框的中心点纵坐标；

将中心点纵坐标大于所述纵坐标下界且小于所述纵坐标上界的初始文本框确定为所述项目属性值文本框。

6.如权利要求1所述的方法，其特征在于，对所述初始文本框的文字信息进行处理，以在所述初始文本框中确定项目名称文本框包括：

通过分类模型对所述初始文本框的文字信息进行处理，根据分类结果在所述初始文本框中确定项目名称文本框。

7.一种图像数据结构化装置，其特征在于，包括：

图像获取模块，配置为获取待识别图像；

图像识别模块，配置为对所述待识别图像识别获得初始文本框、所述初始文本框的文字信息以及所述初始文本框的坐标信息；

项目名称确定模块，配置为对所述初始文本框的文字信息进行处理，以在所述初始文本框中确定项目名称文本框；

属性值确定模块，配置为根据所述项目名称文本框的坐标信息在所述初始文本框中确定项目属性值文本框；

属性名确定模块，配置为根据预设项目属性名称集合对所述初始文本框的文字信息进行匹配，获得项目属性名文本框；

属性对齐模块，配置为根据项目属性名文本框的坐标信息对所述项目属性值文本框的坐标信息进行处理，获得与各项目属性名文本框对齐的项目属性值文本框集合，所述项目属性值文本框集合包括至少一个项目属性值文本框；

结构化输出模块，配置为根据所述项目名称文本框、所述项目属性名文本框以及与各项目属性名文本框对齐的项目属性值文本框集合进行映射，获得所述待识别图像的结构化输出结果；

所述属性对齐模块包括：单元a，配置为根据各项目属性值文本框的坐标信息确定各项目属性值文本框的中心点纵坐标；单元b，配置为针对每一项目属性名文本框，根据项目属性值文本框的中心点纵坐标和该项目属性名文本框的中心点纵坐标对项目属性值文本框和该项目属性名文本框进行排序；单元c，配置为将排序结果中的第一位确定为第一文本框，将排序结果中的第二位确定为第二文本框；单元d，配置为根据第一文本框和第二文本框的坐标信息计算文本框重合度；单元e，配置为在文本框重合度大于重合度阈值时，将第二文本框确定为与项目属性名文本框对齐的项目属性值文本框，将第一文本框从排序结果中剔除；单元f，配置为在文本框重合度小于或等于重合度阈值时，将第二文本框从排序结果中剔除；单元g，配置为在排序结果不为空时，返回执行单元c，在排序结果为空时，将与项目属性名文本框对齐的所有项目属性值文本框确定为与项目属性名文本框对齐的项目属性值文本框集合。

8.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。

9.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。