CN112883735A

CN112883735A - 一种表单图像的结构化处理方法、装置、设备及存储介质

Info

Publication number: CN112883735A
Application number: CN202110185040.8A
Authority: CN
Inventors: 王忠诚; 盛国军; 李士成; 沈圣远; 徐鹏
Original assignee: Haier Digital Technology Qingdao Co Ltd; Haier Digital Technology Shanghai Co Ltd; Haier Caos IoT Ecological Technology Co Ltd; Qingdao Haier Industrial Intelligence Research Institute Co Ltd
Current assignee: Haier Digital Technology Qingdao Co Ltd; Haier Digital Technology Shanghai Co Ltd; Haier Caos IoT Ecological Technology Co Ltd; Qingdao Haier Industrial Intelligence Research Institute Co Ltd
Priority date: 2021-02-10
Filing date: 2021-02-10
Publication date: 2021-06-01
Anticipated expiration: 2041-02-10
Also published as: CN112883735B

Abstract

本发明实施例公开了一种表单图像的结构化处理方法、装置、设备及存储介质。该方法包括：对目标表单图像进行图像识别，得到与目标表单图像对应的文字识别实体集合；根据文字识别实体集合中的各键名识别实体，在目标知识图谱中获取目标知识实体；其中，目标知识实体包括键名知识实体，和/或键值知识实体；目标知识图谱中包括键名知识实体、键值知识实体，以及键名知识实体和键值知识实体间的关联关系；将文字识别实体集合中的各键值识别实体分别与各目标知识实体进行匹配，并根据匹配结果，形成至少一组键值对形式的结构化实体对。该方法可以基于知识图谱实现表单图像的结构化信息提取，可以提高结构化信息提取时的准确性以及效率。

Description

一种表单图像的结构化处理方法、装置、设备及存储介质

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种表单图像的结构化处理方法、装置、设备及存储介质。

背景技术

随着计算机技术的发展，文档以及表单等非结构化信息通常需要转换为结构化信息进行存储。即将非结构化信息进行数字化，以为信息化进行服务，便于结构化信息能够被相关软件读取使用。

现有技术中，在文档、表单等的数字化过程中，通常根据特定的标签形成正则表达式形式的规则，根据形成的规则将文档、表单等进行语义结构对齐；或者，将数字化过程看成分类任务，将信息分为不同的类并进行对应。

但是，现有技术的方案是通过人为数字化处理实现的，过度依赖于人的经验；并且不同人确定生成的规则存在差异，难以实现对文档、表单等的数字化统一；也会存在无法避免的人为失误以及效率低下的问题。

发明内容

本发明实施例提供了一种表单图像的结构化处理方法、装置、设备及存储介质，可以提高结构化信息提取时的准确性以及效率。

第一方面，本发明实施例提供了一种表单图像的结构化处理方法，该方法包括：

对目标表单图像进行图像识别，得到与所述目标表单图像对应的文字识别实体集合，其中，所述目标表单图像中包括至少一组键值对形式的标准文字实体对；

根据所述文字识别实体集合中的各键名识别实体，在目标知识图谱中获取目标知识实体；其中，所述目标知识实体包括键名知识实体，和/或键值知识实体；所述目标知识图谱中包括键名知识实体、键值知识实体，以及键名知识实体和键值知识实体间的关联关系；

将所述文字识别实体集合中的各键值识别实体分别与各所述目标知识实体进行匹配，并根据匹配结果，形成至少一组键值对形式的结构化实体对。

第二方面，本发明实施例还提供了一种表单图像的结构化处理装置，该装置包括：

文字识别实体集合获取模块，用于对目标表单图像进行图像识别，得到与所述目标表单图像对应的文字识别实体集合，其中，所述目标表单图像中包括至少一组键值对形式的标准文字实体对；

目标知识实体获取模块，用于根据所述文字识别实体集合中的各键名识别实体，在目标知识图谱中获取目标知识实体；其中，所述目标知识实体包括键名知识实体，和/或键值知识实体；所述目标知识图谱中包括键名知识实体、键值知识实体，以及键名知识实体和键值知识实体间的关联关系；

结构化实体对形成模块，用于将所述文字识别实体集合中的各键值识别实体分别与各所述目标知识实体进行匹配，并根据匹配结果，形成至少一组键值对形式的结构化实体对。

第三方面，本发明实施例还提供了一种电子设备，该设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任意实施例所述的一种表单图像的结构化处理方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所述的一种表单图像的结构化处理方法。

本发明实施例的技术方案通过对目标表单图像进行图像识别，得到与目标表单图像对应的文字识别实体集合；根据文字识别实体集合中的各键名识别实体，在目标知识图谱中获取目标知识实体；将文字识别实体集合中的各键值识别实体分别与各目标知识实体进行匹配，并根据匹配结果，形成至少一组键值对形式的结构化实体对，解决了表单图像的结构化信息提取问题，实现了提高结构化信息提取时的准确性以及效率的效果。

附图说明

图1是本发明实施例一提供的一种表单图像的结构化处理方法的流程图；

图2a是本发明实施例二提供的一种表单图像的结构化处理方法的流程图；

图2b是本发明实施例二提供的一种目标知识图谱生成的流程图；

图2c是本发明实施例二提供的一种表单图像的结构化处理方法的流程图；

图3是本发明实施例三提供的一种表单图像的结构化处理装置的结构示意图；

图4是本发明实施例四提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一提供的一种表单图像的结构化处理方法的流程图，本实施例可适用于对文档、表单等进行数字化提取结构化信息的情况，该方法可以由表单图像的结构化处理装置来执行，该装置可以通过软件，和/或硬件的方式实现，装置可以集成在电子设备如计算机中，如图1所示，该方法具体包括：

步骤110、对目标表单图像进行图像识别，得到与目标表单图像对应的文字识别实体集合。

其中，目标表单图像中包括至少一组键值对形式的标准文字实体对。目标表单图像可以是文档形式或者表单形式等非结构化数据。例如，目标表单图像可以是发票。键值对形式的标准文字实体对可以是指目标表单图像中文字识别实体是成对出现的，例如，时间与具体的日期值，或者地点与具体的地理位置名称，或者里程与行程距离值等。

图像识别可以是对目标表单图像进行信息提取的方法。例如，图像识别可以是光学字符识别(Optical Character Recognition，OCR)，或者文字识别等。

文字识别实体集合可以是对目标表单图像进行图像识别得到的包含至少一个文字识别实体的集合。文字识别实体可以是图像识别得到的目标表单图像中的基础文字对象。文字识别实体可以是键名识别实体，如时间；或者，文字识别实体可以是键值识别实体，如具体的日期值。

对于目标表单图像的图像识别得到的文字识别实体通常是无序的，即顺序可能不固定或者存在杂序干扰等。文字识别实体也不会具有键值对形式的对应关系。因此，需要对识别得到的文字识别实体进行键值对形式的匹配，生成对应的结构化实体对，实现对目标表单图像的结构化处理。

在本发明实施例的一个可选实施方式中，对目标表单图像进行图像识别，得到与目标表单图像对应的文字识别实体集合的同时，还包括：得到与文字识别实体集合中各文字识别实体分别对应的至少一项文字识别属性信息。

其中，文字识别属性信息可以是与文字相关的信息。例如，文字识别属性信息可以是文字坐标、文字颜色、文字长度、汉字数量、字母数量、数字数量以及标点符号等。在识别文字识别实体时，同步识别文字识别实体对应的文字识别属性信息，可以提高结构化实体对形成的准确性。

步骤120、根据文字识别实体集合中的各键名识别实体，在目标知识图谱中获取目标知识实体。

其中，目标知识实体包括键名知识实体，和/或键值知识实体；目标知识图谱中包括键名知识实体、键值知识实体，以及各知识实体间的关联关系。

目标知识图谱可以是根据知识库中的知识以及知识之间的关联关系形成的。具体的，目标知识图谱可以是根据目标表单图像所属领域的知识以及知识间的关联关系确定的。关联关系即可以包括键名知识实体与键值知识实体之间的关系，如键名知识实体是键值知识实体(即“is a”关系)；也可以包括键名知识实体间的关联关系，如妻子与丈夫是夫妻关系。目标知识实体可以是目标知识图谱中与键名识别实体存在关联关系的实体。确定目标知识实体可以是：确定键名识别实体在目标知识图谱中对应的目标键名知识实体，将目标键名知识实体以及与目标键名知识实体相连的知识实体作为目标知识实体。

其中，键名知识实体可以是键名识别实体的标准形式的实体。例如，键名识别实体可以是“寸间”(比如OCR将“时间”识别错误时)，键名知识实体可以是“时间”。键值知识实体可以是键值识别实体的示例性实体。例如，键值知识实体可以与键值识别实体具有相同或者相似的文字属性信息。在键值知识实体中可以不体现具体的数值。例如，键值知识实体可以是“X年Y月Z日”，其中，X表示4个数字，Y表示2个数字，Z表示2个数字。

在本发明实施例的一个可选实施方式中，根据文字识别实体集合中的各键名识别实体，在目标知识图谱中获取目标知识实体，包括：在目标知识图谱中匹配，与文字识别实体集合中的各键名识别实体对应的目标键名知识实体；根据目标知识图谱中，各知识实体间的置信度，获取与目标键名知识实体匹配的关联知识实体；将目标键名知识实体以及关联知识实体，共同确定为目标知识实体。

其中，在目标知识图谱中匹配，与文字识别实体集合中的各键名识别实体对应的目标键名知识实体，可以是在目标知识图谱的键名知识实体中确定与键名识别实体相同或者相似的目标键名知识实体。例如，可以通过语义识别确定与键名识别实体相似的目标键名知识实体；或者，可以通过文字识别确定与键名识别实体相同的目标键名知识实体。

在确定目标键名知识实体之前，可以对键名识别实体进行实体对齐。实体对齐可以是将键名识别实体确定为对应的标准化的键名知识实体。例如，“寸间”可以实体对齐为“时间”。实体对齐的具体实现可以是基于各实体之间的关联关系以及语义相似度等实现的。通过实体对齐可以避免OCR识别得到的键名识别实体存在错误时，难以确定目标知识实体的问题，可以提高目标知识实体确定的准确性，进而提高表单图像的结构化处理的准确性。

置信度可以是用来指示目标知识图谱中各知识实体间的关系强度。示例性的，目标知识图谱中，存在键名知识实体为“时间”和“地点”的节点。在实际应用中，“时间”出现时“地点”必然出现，“地点”出现时“时间”也必然出现。那么“时间”和“地点”是一种强关联关系，“时间”相对于“地点”的置信度可以是1，“地点”相对于“时间”的置信度也可以是1。

在本实施例中，可以确定目标知识图谱中相对于目标键名知识实体置信度大于预设置信度阈值的知识实体为关联知识实体。关联知识实体可以是键名知识实体和/或键值知识实体。通过确定关联知识实体可以挖掘目标表单图像中与键名识别实体相关的实体，可以避免OCR识别存在遗漏的问题。

在本实施例中，文字识别实体集合中各键名识别实体或者键值识别实体可以提前确定，确定方式可以是多样的。例如，可以根据键名识别实体或者键值识别实体所具有的特点确定；或者，可以根据文字识别实体与知识实体的匹配性确定。

在本发明实施例的一个可选实施方式中，在根据文字识别实体集合中的各键名识别实体，在目标知识图谱中获取目标知识实体之前，还包括：对文字识别实体集合中的各文字识别实体进行命名实体识别；根据与各文字识别实体分别对应的识别结果，将各文字识别实体分别确定为键名识别实体或者键值识别实体。

其中，命名实体识别可以是识别文字识别实体集合中具有特定意义的实体，例如，人名、地名、时间以及地点等。命名实体识别可以是通过深度学习实现的，具体的可以采用LSTM+CRF(长短时记忆+条件随机场)方式进行样本标注以及模型识别。通过命名实体识别可以将文字识别实体集合中的元素区分为键名识别实体或者键值识别实体。

示例性的，键名识别实体可以是“时间”、“地点”、“机构名称”或者“里程”等；键值识别实体可以是“X年X月X日”、“X城市”、“X公司”或者“X千米”等。

通过命名实体识别可以初步确定文字识别实体是键名识别实体或者键值识别实体，可以便于根据知识图谱进行结构化信息提取。

步骤130、将文字识别实体集合中的各键值识别实体分别与各目标知识实体进行匹配，并根据匹配结果，形成至少一组键值对形式的结构化实体对。

其中，键值识别实体与目标知识实体的匹配可以是通过计算两者的相似度实现的。例如，键值识别实体与目标知识实体的相似度高，可以确定目标知识实体在目标知识图谱中存在键值对形式的知识实体，并将该知识实体与键值识别实体确定为键值对形式的结构化实体对。相似度的确定方式可以是多样的，例如，可以是余弦相似度算法、欧几里得距离算法、曼哈顿距离算法或者马哈拉诺比斯距离算法等。

在本发明实施例的一个可选实施方式中，将文字识别实体集合中的各键值识别实体分别与各目标知识实体进行匹配，并根据匹配结果，形成至少一组键值对形式的结构化实体对，包括：将各键值识别实体的整体信息分别与各目标知识实体的标准信息进行匹配，得到匹配结果，形成至少一组键值对形式的结构化实体对。

其中，整体信息包括键值识别实体以及与键值识别实体对应的文字识别属性信息；标准信息包括目标知识实体以及与目标知识实体对应的标准文字属性信息。

示例性的，以余弦相似度算法为例，可以将键值识别实体与对应的全部文字识别属性信息作为整体信息。对整体信息可以进行向量化。例如，可以将键值识别实体中具体的文字如汉字、字母以及数字一一作为向量中的一个元素。如键值识别实体“2008年01月01日”可以将“2008”、“年”、“01”、“月”、“01”、“日”一一作为向量中的元素。同时，可以将键值识别实体中文字识别属性信息一一作为向量中的一个元素。如键值识别实体具有的文字坐标、文字颜色、文字长度、汉字数量、字母数量、数字数量以及标点符号(如时间中的间隔符或者冒号等)可以一一作为向量中的一个元素。

同样的，标准信息也可以进行上述的操作，将标准信息向量化，这里不再赘述。可以通过余弦相似度算法计算整体信息对应的向量与标准信息对应的向量之间的相似度。根据相似度的结果确定键值识别实体与目标知识实体的匹配结果，进而形成键值对形式的结构化实体对。可以提高键值识别实体与目标知识实体的匹配准确度，进而提高结构化实体对生成的准确度。

在上述实施例的基础上，可选的，如果目标知识实体没有全部被匹配为结构化实体对，可以向用户进行提示。此时可能存在OCR漏识别的问题，可以通过提示的方式，便于用户进行核实，快速发现问题，避免表单图像的结构化处理存在结构化信息漏确认的问题。

在本发明实施例的一个可选实施方式中，在根据匹配结果，形成至少一组键值对形式的结构化实体对之后，还包括：根据目标表单图像的布局格式，确定各结构化实体对的排序，并将排序后的各结构化实体对作为目标表单图像的结构化信息。

其中，布局格式可以是目标表单图像中各文字识别实体的排列位置与顺序。确定结构化实体对的排序的实现方式可以是多样的。例如，可以将目标表单图像所属领域对应的表单类型的布局格式确定为目标表单图像的布局格式。例如，可以按照表单中各标准文字实体对布局的从上到下，从左到右的顺序确定对应的结构化实体对的排序。或者，可以根据文字识别实体的文字坐标确定目标表单图像的布局格式。可以按照布局的从上到下，从左到右的顺序确定对应的结构化实体对的排序。

本实施例的技术方案，通过对目标表单图像进行图像识别，得到与目标表单图像对应的文字识别实体集合；根据文字识别实体集合中的各键名识别实体，在目标知识图谱中获取目标知识实体；将文字识别实体集合中的各键值识别实体分别与各目标知识实体进行匹配，并根据匹配结果，形成至少一组键值对形式的结构化实体对，解决了表单图像的结构化信息提取问题，实现了提高结构化信息提取时的准确性以及效率的效果。

实施例二

图2a是本发明实施例二提供的一种表单图像的结构化处理方法的流程图。本实施例是对上述技术方案的进一步细化，本实施例中的技术方案可以与上述一个或者多个实施例中的各个可选方案结合。具体的：

在本发明实施例的一个可选实施方式中，将文字识别实体集合中的各键值识别实体分别与各目标知识实体进行匹配，并根据匹配结果，形成至少一组键值对形式的结构化实体对，包括：在文字识别实体集合中获取当前处理的目标键值识别实体；计算目标键值识别实体与各目标知识实体间的相似度，并获取相似度最高的最终知识实体；如果最终知识实体为键名知识实体，则在目标知识图谱中获取与最终知识实体匹配的目标键值知识实体；在文字识别实体集合中，获取与目标键值知识实体相似度最高的最终键值识别实体，并将最终知识实体与最终键值识别实体组成一个结构化实体对；如果最终知识实体为键值知识实体，则在目标知识图谱中获取与最终知识实体匹配的最终键名知识实体，并将目标键值识别实体与最终键名知识实体组成一个结构化实体对。

如图2a所示，本发明实施例二提供的一种表单图像的结构化处理方法可以细化为：

步骤210、对目标表单图像进行图像识别，得到与目标表单图像对应的文字识别实体集合，以及与文字识别实体集合中各文字识别实体分别对应的至少一项文字识别属性信息。

其中，目标表单图像中包括至少一组键值对形式的标准文字实体对。

步骤220、对文字识别实体集合中的各文字识别实体进行命名实体识别。

步骤230、根据与各文字识别实体分别对应的识别结果，将各文字识别实体分别确定为键名识别实体或者键值识别实体。

步骤240、在目标知识图谱中匹配，与文字识别实体集合中的各键名识别实体对应的目标键名知识实体。

其中，目标知识图谱中包括键名知识实体、键值知识实体，以及各知识实体间的关联关系。

步骤250、根据目标知识图谱中，各知识实体间的置信度，获取与目标键名知识实体匹配的关联知识实体。

步骤260、将目标键名知识实体以及关联知识实体，共同确定为目标知识实体。

其中，目标知识实体包括键名知识实体，和/或键值知识实体。

步骤270、在文字识别实体集合中获取当前处理的目标键值识别实体。

其中，对于键值识别实体的处理可以是逐个处理的，也可以是并行处理的。

步骤280、计算目标键值识别实体与各目标知识实体间的相似度，并获取相似度最高的最终知识实体；如果最终知识实体为键名知识实体，则执行步骤290；如果最终知识实体为键值知识实体，则执行步骤2110。

其中，计算目标键值识别实体与各目标知识实体间的相似度，并获取相似度最高的最终知识实体，包括：计算目标键值识别实体的整体信息与各目标知识实体的标准信息的相似度。

具体相似度的计算过程可以与上述实施例相同或者相似，此处不再赘述。最终知识实体可以是目标知识实体中的实体。在目标知识图谱中知识实体是以键值对形式的存在。最终知识实体可以对应键名知识实体或者键值知识实体，可以在目标知识图谱中明确。

步骤290、在目标知识图谱中获取与最终知识实体匹配的目标键值知识实体。

其中，在目标知识图谱中知识实体是以键值对形式的存在。如果最终知识实体为键名知识实体，说明目标键值识别实体真实应为键名知识实体，其标准化形式可以是最终知识实体。目标键值识别实体真实应为键名知识实体的情况可能是命名实体识别存在误差造成的，通过目标键值识别实体与目标知识实体间相似度的计算以及匹配，可以避免命名实体识别错误造成的键值对匹配错误的问题。

确定目标键值识别实体真实应为键名知识实体时，需要确定匹配的键值知识实体。因此，可以获取与最终知识实体匹配的目标键值知识实体进行进一步判断。目标键值知识实体可以是目标知识图谱中与最终知识实体存在键值关系的全部知识实体；或者，也可以是与最终知识实体存在键值关系的任一知识实体。

步骤2100、在文字识别实体集合中，获取与目标键值知识实体相似度最高的最终键值识别实体，并将最终知识实体与最终键值识别实体组成一个结构化实体对。

其中，最终键值识别实体可以真实的是键值识别实体，可以是最终知识实体具有键值对关系的。因此，可以将最终知识实体与最终键值识别实体组成一个结构化实体对。在确定结构化实体对后，可以返回处理下一目标键值识别实体，直至文字识别实体集合中的键值识别实体处理完毕。之后，可以执行步骤2120。

步骤2110、在目标知识图谱中获取与最终知识实体匹配的最终键名知识实体，并将目标键值识别实体与最终键名知识实体组成一个结构化实体对。

其中，如果最终知识实体为键值知识实体，说明命名实体识别正确，目标键值识别实体真实的为键值知识实体。最终知识实体匹配的最终键名知识实体与目标键值识别实体具有键值对关系，可以确定为结构化实体对。在确定结构化实体对后，可以返回处理下一目标键值识别实体，直至文字识别实体集合中的键值识别实体处理完毕。之后，可以执行步骤2120。

步骤2120、根据目标表单图像的布局格式，确定各结构化实体对的排序，并将排序后的各结构化实体对作为目标表单图像的结构化信息。

在上述实施方式的基础上，可选的，在根据文字识别实体集合中的各键名识别实体，在目标知识图谱中获取目标知识实体之前，还包括：生成目标知识图谱。图2b是本发明实施例二提供的一种目标知识图谱生成的流程图。如图2b所示，生成目标知识图谱可以包括：

步骤310、获取与目标表单图像对应领域的表单样本。

其中，表单样本中具有多个样本表单图像。样本表单图像可以是与目标表单图像相同领域的。例如，目标表单图像为发票，样本表单图像可以是同种类型的发票，可以提高目标知识图谱的针对性，提高结构化实体对确定的准确性。示例性的，目标表单图像与样本表单图像都为出租车发票。又如，目标表单图像为发票，样本表单图像可以是各种类型的发票，可以丰富目标知识图谱，并且可以对目标表单图像进行挖掘，便于获取到OCR识别缺失的实体，提高方法的鲁棒性。

步骤320、提取表单样本中各样本表单图像的样本文字实体和对应的样本文字属性信息，并获取各样本文字实体之间的预设关联关系。

其中，提取样本文字实体和样本文字属性信息的方法就可以与上述实施例相同或者相似，例如可以是OCR识别，此处不再赘述。样本文字实体之间的预设关联关系可以是通过人为标注实现的；或者可以是通过人为标注样本、模型训练后生成的。在模型训练后可以进行复核。

构建目标知识图谱时的构建要素可以描述如下：

实体：基础或者底层的对象，如样本文字实体可以是“时间”。

类：集合、概念、对象类型或者事物的种类，如各个样本文字实体构成的样本文字实体集合，又如样本文字实体属于的类别(比如时间类)。

属性：对象或者类所具有的属性、特征、特性、特点和参数，如样本文字属性信息。示例性的，样本文字属性信息可以包括样本文字坐标、样本文字长度、样本文字颜色、样本文字中汉字个数、样本文字中字母个数、样本文字中数字个数以及样本文字中的标点符号等。

关系：类与实体之间彼此关联所具有的方式。

函数术语：在声明语句当中，可用来代替具体术语的特定关系所构成的复杂结构。

约束(限制)：采取形式化方式所声明的，关于接受某项断言作为输入而必须成立的情况的描述。

规则：用于描述可以依据特定形式的某项断言所能够得出的逻辑推论的，if-then(前因－后果)式语句形式的声明。

公理：采取特定逻辑形式的断言(包括规则在内)所共同构成的就是其本体在相应应用领域当中所描述的整个理论。这种定义有别于产生式语法和形式逻辑当中所说的“公理”。在这些学科当中，公理之中仅仅包括那些被断言为先验知识的声明。就这里的用法而言，“公理”之中还包括依据公理型声明所推导得出的理论。

事件(哲学)：属性或关系的变化。

推理：被广泛用于发现隐含知识。推理功能一般通过可扩展的规则引擎来完成。目标知识图谱上的规则一般涉及两大类。一类是针对属性的，即通过数值计算来获取其属性值。例如：目标知识图谱中包含某人的出生年月，可以通过当前日期减去其出生年月获取其年龄。这类规则对于那些属性值随时间或其他因素发生改变的情况特别有用。另一类是针对关系的，即通过(链式)规则发现实体间的隐含关系。例如，可以定义规定：岳父是妻子的父亲。利用这条规则，当已知A的妻子是B，B的父亲是C时，可以推出A的岳父是C。

实体重要性排序：当用户查询涉及多个实体时，搜索引擎可以选择查询更相关且更重要的实体进行展示。实体的相关性度量需在查询时在线计算，而实体重要性与查询无关可离线计算。和传统的网页链接组成的图相比，目标知识图谱中的节点是各种类型的实体，而图中的边是各种语义关系。由于不同的实体和语义关系的流行程度以及抽取的置信度不同，这些因素将影响实体重要性的最终计算结果。

实体挖掘：在相同查询中共现的实体，或在同一个查询会话中被提到的其他实体称为相关实体。一个常用的做法是将这些查询或会话看作是虚拟文档，将其中出现的实体看作是文档中的词条，使用主题模型(如LDA)发现虚拟文档集中的主题分布。当用户输入查询时，搜索引擎分析查询的主题分布并选出最相关的主题。同时，搜索引擎将给出该主题中与知识卡片所展现的实体最相关的那些实体作为推荐结果。

步骤330、根据样本文字实体以及预设关联关系，确定目标知识图谱中的键名知识实体、键值知识实体，以及键名知识实体和键值知识实体间的关联关系。

在确定目标知识图谱中的键名知识实体、键值知识实体，以及键名知识实体和键值知识实体间的关联关系时，可以按照上述所提及的要素进行。

步骤340、获取目标知识图谱中的目标键名知识实体以及关联键名知识实体。

其中，目标键名知识实体可以是当前处理的键名知识实体。关联键名知识实体可以是与目标键名知识实体相连的键名知识实体。相连可以是直接相连或者间接相连，可以表示关联键名知识实体与目标键名知识实体存在关联关系。

步骤350、确定表单样本中目标键名知识实体以及关联键名知识实体共同出现次数，以及表单样本中的样本表单图像个数，并根据共同出现次数和样本表单图像个数，确定各键名知识实体相对于相连的键名知识实体的置信度。

其中，共同出现次数越大说明目标键名知识实体与关联键名知识实体的关联关系越强。置信度可以是通过多种算法确定的。例如，一种简单的确定方式可以是共同出现次数和样本表单图像个数的比值确定的。

本实施例的技术方案，通过对目标表单图像进行图像识别，得到与目标表单图像对应的文字识别实体集合，以及与文字识别实体集合中各文字识别实体分别对应的至少一项文字识别属性信息；对文字识别实体集合中的各文字识别实体进行命名实体识别；根据与各文字识别实体分别对应的识别结果，将各文字识别实体分别确定为键名识别实体或者键值识别实体；在目标知识图谱中匹配，与文字识别实体集合中的各键名识别实体对应的目标键名知识实体；根据目标知识图谱中，各知识实体间的置信度，获取与目标键名知识实体匹配的关联知识实体；将目标键名知识实体以及关联知识实体，共同确定为目标知识实体；在文字识别实体集合中获取当前处理的目标键值识别实体；计算目标键值识别实体与各目标知识实体间的相似度，并获取相似度最高的最终知识实体；如果最终知识实体为键名知识实体，则在目标知识图谱中获取与最终知识实体匹配的目标键值知识实体；在文字识别实体集合中，获取与目标键值知识实体相似度最高的最终键值识别实体，并将最终知识实体与最终键值识别实体组成一个结构化实体对；如果最终知识实体为键值知识实体，则在目标知识图谱中获取与最终知识实体匹配的最终键名知识实体，并将目标键值识别实体与最终键名知识实体组成一个结构化实体对；根据目标表单图像的布局格式，确定各结构化实体对的排序，并将排序后的各结构化实体对作为目标表单图像的结构化信息，解决了表单图像的结构化信息提取问题，实现了提高结构化信息提取时的准确性、效率以及全面性，可以避免多种环节中的识别错误的效果。

图2c是本发明实施例二提供的一种表单图像的结构化处理方法的流程图，如图2c所示，本发明实施例的表单图像的结构化处理方法的使用过程可以是：

通过OCR识别目标表单图像中的文字识别实体集合以及与各文字识别实体对应的文字识别属性信息，如文字坐标、颜色等。采用LSTM+CRF方式的命名实体识别对文字识别实体集合进行键名识别实体和键值识别实体的区分。将键名识别实体输入至目标知识图谱，并确定与键名识别实体关联的目标知识实体。通过余弦相似度算法计算键值识别实体与目标知识实体的相似度，进行实体匹配，确定结构化实体对。对于结构化实体对可以按照目标表单图像的布局格式进行排序输出，确定最终的目标表单图像的结构化信息。

实施例三

图3是本发明实施例三提供的一种表单图像的结构化处理装置的结构示意图。结合图3，该装置包括：文字识别实体集合获取模块410，目标知识实体获取模块420和结构化实体对形成模块430。其中：

文字识别实体集合获取模块410，用于对目标表单图像进行图像识别，得到与目标表单图像对应的文字识别实体集合，其中，目标表单图像中包括至少一组键值对形式的标准文字实体对；

目标知识实体获取模块420，用于根据文字识别实体集合中的各键名识别实体，在目标知识图谱中获取目标知识实体；其中，目标知识实体包括键名知识实体，和/或键值知识实体；目标知识图谱中包括键名知识实体、键值知识实体，以及键名知识实体和键值知识实体间的关联关系；

结构化实体对形成模块430，用于将文字识别实体集合中的各键值识别实体分别与各目标知识实体进行匹配，并根据匹配结果，形成至少一组键值对形式的结构化实体对。

可选的，该装置，还包括：

命名实体识别模块，用于在根据文字识别实体集合中的各键名识别实体，在目标知识图谱中获取目标知识实体之前，对文字识别实体集合中的各文字识别实体进行命名实体识别；

识别实体确定模块，用于根据与各文字识别实体分别对应的识别结果，将各文字识别实体分别确定为键名识别实体或者键值识别实体。

可选的，目标知识实体获取模块420，包括：

目标键名知识实体匹配单元，用于在目标知识图谱中匹配，与文字识别实体集合中的各键名识别实体对应的目标键名知识实体；

关联知识实体获取单元，用于根据目标知识图谱中，各知识实体间的置信度，获取与目标键名知识实体匹配的关联知识实体；

目标知识实体确定单元，用于将目标键名知识实体以及关联知识实体，共同确定为目标知识实体。

可选的，结构化实体对形成模块430，包括：

目标键值识别实体获取单元，用于在文字识别实体集合中获取当前处理的目标键值识别实体；

最终知识实体获取单元，用于计算目标键值识别实体与各目标知识实体间的相似度，并获取相似度最高的最终知识实体；

第一结构化实体对确定单元，用于如果最终知识实体为键名知识实体，则在目标知识图谱中获取与最终知识实体匹配的目标键值知识实体；在文字识别实体集合中，获取与目标键值知识实体相似度最高的最终键值识别实体，并将最终知识实体与最终键值识别实体组成一个结构化实体对；

第二结构化实体对确定单元，用于如果最终知识实体为键值知识实体，则在目标知识图谱中获取与最终知识实体匹配的最终键名知识实体，并将目标键值识别实体与最终键名知识实体组成一个结构化实体对。

可选的，该装置，还包括：

文字识别属性信息获取模块，用于对目标表单图像进行图像识别，得到与目标表单图像对应的文字识别实体集合的同时，得到与文字识别实体集合中各文字识别实体分别对应的至少一项文字识别属性信息；

结构化实体对形成模块430，包括：

结构化实体对形成单元，用于将各键值识别实体的整体信息分别与各目标知识实体的标准信息进行匹配，得到匹配结果，形成至少一组键值对形式的结构化实体对；

可选的，该装置，还包括：

结构化信息生成模块，用于在根据匹配结果，形成至少一组键值对形式的结构化实体对之后，根据目标表单图像的布局格式，确定各结构化实体对的排序，并将排序后的各结构化实体对作为目标表单图像的结构化信息。

可选的，该装置，还包括：

表单样本获取模块，用于在根据文字识别实体集合中的各键名识别实体，在目标知识图谱中获取目标知识实体之前，获取与目标表单图像对应领域的表单样本；其中，表单样本中具有多个样本表单图像；

预设关联关系获取模块，用于提取表单样本中各样本表单图像的样本文字实体和对应的样本文字属性信息，并获取各样本文字实体之间的预设关联关系；

目标知识图谱中信息确定模块，用于根据样本文字实体以及预设关联关系，确定目标知识图谱中的键名知识实体、键值知识实体，以及键名知识实体和键值知识实体间的关联关系；

键名知识实体获取模块，用于获取目标知识图谱中的目标键名知识实体以及关联键名知识实体；

置信度确定模块，用于确定表单样本中目标键名知识实体以及关联键名知识实体共同出现次数，以及表单样本中的样本表单图像个数，并根据共同出现次数和样本表单图像个数，确定各键名知识实体相对于相连的键名知识实体的置信度。

本发明实施例所提供的表单图像的结构化处理装置可执行本发明任意实施例所提供的表单图像的结构化处理方法，具备执行方法相应的功能模块和有益效果。

实施例四

图4是本发明实施例四提供的一种电子设备的结构示意图，如图4所示，该设备包括：

一个或多个处理器510，图4中以一个处理器510为例；

存储器520；

所述设备还可以包括：输入装置530和输出装置540。

所述设备中的处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接，图4中以通过总线连接为例。

存储器520作为一种非暂态计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的一种表单图像的结构化处理方法对应的程序指令/模块(例如，附图3所示的文字识别实体集合获取模块410，目标知识实体获取模块420和结构化实体对形成模块430)。处理器510通过运行存储在存储器520中的软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述方法实施例的一种表单图像的结构化处理方法，即：

根据所述文字识别实体集合中的各键名识别实体，在目标知识图谱中获取目标知识实体；其中，所述目标知识实体包括键名知识实体，和/或键值知识实体；所述目标知识图谱中包括键名知识实体、键值知识实体，以及各知识实体间的关联关系；

存储器520可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器520可以包括高速随机存取存储器，还可以包括非暂态性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中，存储器520可选包括相对于处理器510远程设置的存储器，这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置530可用于接收输入的数字或字符信息，以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。

实施例五

本发明实施例五提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例提供的一种表单图像的结构化处理方法：

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种表单图像的结构化处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在根据所述文字识别实体集合中的各键名识别实体，在目标知识图谱中获取目标知识实体之前，还包括：

对所述文字识别实体集合中的各文字识别实体进行命名实体识别；

根据与各所述文字识别实体分别对应的识别结果，将各所述文字识别实体分别确定为键名识别实体或者键值识别实体。

3.根据权利要求1所述的方法，其特征在于，根据所述文字识别实体集合中的各键名识别实体，在目标知识图谱中获取目标知识实体，包括：

在所述目标知识图谱中匹配，与所述文字识别实体集合中的各键名识别实体对应的目标键名知识实体；

根据所述目标知识图谱中，各知识实体间的置信度，获取与所述目标键名知识实体匹配的关联知识实体；

将所述目标键名知识实体以及所述关联知识实体，共同确定为所述目标知识实体。

4.根据权利要求1所述的方法，其特征在于，将所述文字识别实体集合中的各键值识别实体分别与各所述目标知识实体进行匹配，并根据匹配结果，形成至少一组键值对形式的结构化实体对，包括：

在所述文字识别实体集合中获取当前处理的目标键值识别实体；

计算所述目标键值识别实体与各所述目标知识实体间的相似度，并获取相似度最高的最终知识实体；

如果所述最终知识实体为键名知识实体，则在所述目标知识图谱中获取与所述最终知识实体匹配的目标键值知识实体；在所述文字识别实体集合中，获取与所述目标键值知识实体相似度最高的最终键值识别实体，并将所述最终知识实体与所述最终键值识别实体组成一个结构化实体对；

如果所述最终知识实体为键值知识实体，则在所述目标知识图谱中获取与所述最终知识实体匹配的最终键名知识实体，并将所述目标键值识别实体与所述最终键名知识实体组成一个结构化实体对。

5.根据权利要求1-4任一项所述的方法，其特征在于，对目标表单图像进行图像识别，得到与所述目标表单图像对应的文字识别实体集合的同时，还包括：

得到与所述文字识别实体集合中各文字识别实体分别对应的至少一项文字识别属性信息；

将所述文字识别实体集合中的各键值识别实体分别与各所述目标知识实体进行匹配，并根据匹配结果，形成至少一组键值对形式的结构化实体对，包括：

将各键值识别实体的整体信息分别与各所述目标知识实体的标准信息进行匹配，得到匹配结果，形成至少一组键值对形式的结构化实体对；

其中，所述整体信息包括键值识别实体以及与键值识别实体对应的文字识别属性信息；所述标准信息包括目标知识实体以及与目标知识实体对应的标准文字属性信息。

6.根据权利要求1所述的方法，其特征在于，在根据匹配结果，形成至少一组键值对形式的结构化实体对之后，还包括：

根据所述目标表单图像的布局格式，确定各所述结构化实体对的排序，并将排序后的各所述结构化实体对作为所述目标表单图像的结构化信息。

7.根据权利要求1所述的方法，其特征在于，在根据所述文字识别实体集合中的各键名识别实体，在目标知识图谱中获取目标知识实体之前，还包括：

获取与所述目标表单图像对应领域的表单样本；其中，所述表单样本中具有多个样本表单图像；

提取所述表单样本中各所述样本表单图像的样本文字实体和对应的样本文字属性信息，并获取各所述样本文字实体之间的预设关联关系；

根据所述样本文字实体以及所述预设关联关系，确定目标知识图谱中的键名知识实体、键值知识实体，以及键名知识实体和键值知识实体间的关联关系；

获取所述目标知识图谱中的目标键名知识实体以及关联键名知识实体；

确定所述表单样本中目标键名知识实体以及关联键名知识实体共同出现次数，以及所述表单样本中的样本表单图像个数，并根据所述共同出现次数和所述样本表单图像个数，确定各键名知识实体相对于相连的键名知识实体的置信度。

8.一种表单图像的结构化处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的方法。