CN110490190B

CN110490190B - 一种结构化图像文字识别方法及系统

Info

Publication number: CN110490190B
Application number: CN201910599960.7A
Authority: CN
Inventors: 郭流芳
Original assignee: Beike Technology Co Ltd
Current assignee: Beike Technology Co Ltd
Priority date: 2019-07-04
Filing date: 2019-07-04
Publication date: 2021-10-26
Anticipated expiration: 2039-07-04
Also published as: CN110490190A

Abstract

本发明实施例提供一种结构化图像文字识别方法及系统。所述方法包括获取待识别图像和图像模板；待识别图像包括待匹配行，待匹配行包括第一文字框，每个第一文字框包括已识别字段，所述图像模板包括校验行，校验行包括校验词；对已识别字段进行分词，得到待匹配词；将待匹配行与校验行进行匹配；若匹配成功，将第一文字框标识为与对应的待匹配行相匹配的标准文字行的行号，本发明实施例通过图像模板中的校验行的相邻关系和校验行中的校验词，对所述待识别图像中的待匹配行进行校验，从而将所有的待匹配行与所述图像模板中的标准文字行进行匹配，从而能够快速、准确得通过行号找到需要的目标行所对应的第一文字框，提高了文字识别的正确率。

Description

一种结构化图像文字识别方法及系统

技术领域

本发明涉及图像数据处理技术领域，尤其涉及一种结构化图像文字识别方法及系统。

背景技术

光学文字识别（Optical Character Recognition，OCR）技术是目前常用的一种人工智能能力，是指电子设备通过检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。如何除错或利用辅助信息提高识别正确率，是OCR最重要的课题。

一般OCR的识别结果是一种按行输出的半结构化输出，大多都是基于简单的绝对坐标定位、关键字模糊匹配等方法进行结构化。现有方案存在目标行定位不准确，容易出现错行，导致原本识别正确的结果，却在结构化的阶段出了差错，降低了识别的正确率。

发明内容

本发明实施例提供一种结构化图像文字识别方法及系统，用以解决现有技术中存在目标行定位不准确，容易出现错行，导致原本识别正确的结果，却在结构化的阶段出了差错，降低了识别的正确率的问题。

第一方面，本发明实施例提供了一种结构化图像文字识别方法，包括：

获取经过预处理的待识别图像和与所述待识别图像对应的图像模板；其中，所述待识别图像包括由上到下依次排列的至少一条待匹配行，每条待匹配行包括至少一个第一文字框，每个第一文字框包括已识别字段，所述图像模板包括按预设顺序排列的多条标准文字行，所有标准文字行中包括多条校验行，每条校验行包括至少一个校验词；

对所有第一文字框的已识别字段进行分词，得到与所述第一文字框对应的待匹配行的待匹配词；

根据预设的匹配条件，将所述待匹配行与所述校验行进行匹配，以得到与所述校验行一一对应的待匹配行；其中，所述匹配条件具体为：所述校验行中的一个校验词与相匹配的待匹配行中的一个待识别词相同，所有校验行的相邻关系与相匹配的待匹配行的相邻关系相同；

若匹配成功，则根据匹配结果，以及所有待匹配行和校验行的排列顺序，将所述待识别图像中的每个第一文字框所在行的行号标识为与对应的待匹配行相匹配的标准文字行的行号。

进一步地，所述方法还包括：

对所述待识别图像进行文字识别，得到所述待识别图像中的所有第一文字框；

将每个第一文字框进行水平延长得到与所述第一文字框一一对应的第二文字框；其中，所述第二文字框的左上顶点坐标和左下顶点坐标位于所述待识别图像的最左侧，所述第二文字框的右上顶点坐标和右下顶点坐标位于所述待识别图像的最右侧；

根据预设的划分条件，将每个第一文字框划分到与其对应的待匹配行；其中，所述划分条件具体为：同一待匹配行中任意两个第一文字框对应的两个第二文字框的相互重合度超过预设的比例阈值。

进一步地，所述方法还包括：

分别计算每个第一文本框的上边和下边相对于水平面的斜率；

根据所有第一文本框的斜率，平均得到平均斜率；

根据所述平均斜率对所有的第一文本框进行摆正操作。

进一步地，所述相互重合度具体为：

在待识别图像上，两个第二文本框的相互重叠的面积与总覆盖的面积的比值。

进一步地，所述方法还包括：

通过对所述图像模板的分析，得到按照预设顺序排列的预设数量的标准文字行，每个标准文字行包括不变字段；

对每个不变字段进行分词得到至少一个不变分词；

通过对保存的样本图像集的识别，得到每个不变分词的识别概率；其中，所述样本图像集为多个待识别图像；

根据所述识别概率的高低从所有的标准文字行中提取出校验行；其中，所述校验行中的检验词为所述校验行中识别概率排名最高的至少一个不变分词。

第二方面，本发明实施例提供了一种结构化图像文字识别系统，包括：

信息获取模块，用于获取经过预处理的待识别图像和与所述待识别图像对应的图像模板；其中，所述待识别图像包括由上到下依次排列的至少一条待匹配行，每条待匹配行包括至少一个第一文字框，每个第一文字框包括已识别字段，所述图像模板包括按预设顺序排列的多条标准文字行，所有标准文字行中包括多条校验行，每条校验行包括至少一个校验词；

字段分词模块，用于对所有第一文字框的已识别字段进行分词，得到与所述第一文字框对应的待匹配行的待匹配词；

文字校验模块，用于根据预设的匹配条件，将所述待匹配行与所述校验行进行匹配，以得到与所述校验行一一对应的待匹配行；其中，所述匹配条件具体为：所述校验行中的一个校验词与相匹配的待匹配行中的一个待识别词相同，所有校验行的相邻关系与相匹配的待匹配行的相邻关系相同；

文字标识模块，用于若匹配成功，则根据匹配结果，以及所有待匹配行和校验行的排列顺序，将所述待识别图像中的每个第一文字框所在行的行号标识为与对应的待匹配行相匹配的标准文字行的行号。

进一步地，所述识别系统还包括：

图像识别模块，用于对所述待识别图像进行文字识别，得到所述待识别图像中的所有第一文字框；

文字框处理模块，用于将每个第一文字框进行水平延长得到与所述第一文字框一一对应的第二文字框；其中，所述第二文字框的左上顶点坐标和左下顶点坐标位于所述待识别图像的最左侧，所述第二文字框的右上顶点坐标和右下顶点坐标位于所述待识别图像的最右侧；

文字框划分模块，用于根据预设的划分条件，将每个第一文字框划分到与其对应的待匹配行；其中，所述划分条件具体为：同一待匹配行中任意两个第一文字框对应的两个第二文字框的相互重合度超过预设的比例阈值。

进一步地，所述识别系统还包括：

斜率计算模块，用于分别计算每个第一文本框的上边和下边相对于水平面的斜率；

斜率平均模块，用于根据所有第一文本框的斜率，平均得到平均斜率；

图像摆正模块，用于根据所述平均斜率对所有的第一文本框进行摆正操作。

第三方面，本发明实施例还提供了一种电子设备，包括：

处理器、存储器、通信接口和通信总线；其中，

所述处理器、存储器、通信接口通过所述通信总线完成相互间的通信；

所述通信接口用于该电子设备的通信设备之间的信息传输；

所述存储器存储有可被所述处理器执行的计算机程序指令，所述处理器调用所述程序指令能够执行如下方法：

第四方面，本发明实施例还提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如下方法：

本发明实施例提供的结构化图像文字识别方法及系统，通过图像模板中的校验行的相邻关系和校验行中的校验词，对所述待识别图像中的待匹配行进行校验，从而将所有的待匹配行与所述图像模板中的标准文字行进行匹配，将每个第一文字框所在行的行号标识为对应的标准文字行的行号，从而能够快速、准确得通过行号找到需要的目标行所对应的第一文字框，提高了文字识别的正确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的结构化图像文字识别方法流程图；

图2为本发明实施例的待识别图像的示意图；

图3为本发明实施例的另一结构化图像文字识别方法流程图；

图4为本发明实施例的结构化图像文字识别系统结构示意图；

图5示例了一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例的结构化图像文字识别方法流程图，图2为本发明实施例的待识别图像的示意图，如图1所示，所述方法包括：

步骤S01、获取经过预处理的待识别图像和与所述待识别图像对应的图像模板；其中，所述待识别图像包括由上到下依次排列的至少一条待匹配行，每条待匹配行包括至少一个第一文字框，每个第一文字框包括已识别字段，所述图像模板包括按预设顺序排列的多条标准文字行，所有标准文字行中包括多条校验行，每条校验行包括至少一个校验词。

识别系统在获取到待识别图像时，会对所述待识别图像进行文字识别等预处理，如图2所示，经过预处理的待识别图像包括每个存在已识别出已识别字段的第一文字框，且每个第一文字框根据其位置的不同，由上到下分别归属于一条待匹配行，如图2所述 A₁、A₂、……、A₁₁、A₁₂ ，每个待匹配行包括至少一个第一文字框。

针对不同的图像类型，所述识别系统的数据库中保存有各个图像类型的图像模板，例如，发票、税票、存单等。根据获取到的待识别图像的图像类型，所述识别系统从数据库中提取出与所述待识别图像相对应的图像模板。所述图像模板包括多条标准文字行，所有的标准文字行按照预设的顺序进行排列。部分标准文字行还包括有校验词，将这些包括有校验词的标准文字行作为校验行，且所有的校验行间根据标准文字行的排序顺序存在固定的相邻关系。

步骤S02、对所有第一文字框的已识别字段进行分词，得到与所述第一文字框对应的待匹配行的待匹配词。

所述识别系统对所有的第一文字框对应的已识别字段进行分词，从中获取到待匹配词。然后，根据每个第一文字框归属的待匹配行，所述识别系统将得到的所有待匹配词分别归属于与所述第一文字框对应的待匹配行。

步骤S03、根据预设的匹配条件，将所述待匹配行与所述校验行进行匹配，以得到与所述校验行一一对应的待匹配行；其中，所述匹配条件具体为：所述校验行中的一个校验词与相匹配的待匹配行中的一个待识别词相同，所有校验行的相邻关系与相匹配的待匹配行的相邻关系相同。

根据预设的匹配条件，所述识别系统将每个待匹配行中的待匹配词与每个校验行中的校验词进行匹配，若任一待匹配词与任一校验词相同，则将所述任一待匹配词所在的待匹配行与所述任一校验词所在的校验行相匹配。从而，找出所有存在相同的待匹配词与校验词的相互匹配的待匹配行和校验行。此时每个校验行可能对应匹配到了多个待匹配行，进一步，根据所有校验行间的相邻关系，与对应的待匹配行间的相邻关系进行比较。若两者的相邻关系相同，则所述识别系统判定本次匹配成功，得到了与所述校验行唯一对应的待匹配行。而若两者的相邻关系错误，则所述识别系统判定本次匹配失败。

例如，若所述待识别图像包括的待匹配行按照顺序排列依次为{A₁、A₂、……、A_n-1、A_n}，通过分词得到每个待匹配行A_i中包括的待匹配词为{a_i1、a_i2、……、a_im-1、a_im}，提取到的图像模板中包括的标准文字行按顺序排列依次为{B₁、B₂、……、B_p-1、B_p}，其中B_s-1、B_s为校验行，s≤p，所述校验行B_s-1、B_s中包括的校验词分别为{b_s-11、b_s-12、b_s-13}、{b_s1、b_s2、b_s3、b_s4}。通过待匹配词与校验词的匹配，得到a_r-12=b_s-11，a_r-13=b_s-13，a_t-13=b_s-13，a_r2=b_s1，则可知，所与校验行B_s-1相匹配的待匹配行为A_r-1、A_t-1，与所述校验行B_s相匹配的待匹配行为A_r。进一步将所述校验行间的相邻关系与匹配得到的待匹配行间的相邻关系进行比较，得到B_s-1、B_s的相邻关系与A_r-1、A_r的相邻关系相同，而与A_t-1、A_r的相邻关系不同。从而，可以判定所述A_r-1、A_r与B_s-1、B_s正确匹配，匹配成功。

步骤S04、若匹配成功，则根据匹配结果，以及所有待匹配行和标准文字行的排列顺序，将所述待识别图像中的每个第一文字框所在行的行号标识为与对应的待匹配行相匹配的标准文字行的行号。

若所述识别系统通过上述校验行的匹配，成功匹配到了与所述校验行一一对应的待匹配行，则可以根据所述校验行在所有的标准文字行中排列的位置，以及与所述校验行相匹配的待匹配行在所有待匹配行中的排列的位置，得到与每个待匹配行相对应的标准文字行。进而，所述识别系统将每个待匹配行中的第一文字框标识为与所述第一文字框所在的待匹配行相对应的标准文字行的行号。

例如，若所有待匹配行{A₁、A₂、……、A₉、A₁₀}，与所有标准文字行 {B₁、B₂、B₃、B₄、B₅、B₆}中，待匹配行A₁、A₂、A₅、A₁₀分别与校验行B₁、B₂、B₄、B₆正确匹配，则根据所有待匹配行与所有标准文字行的排列顺序，可以得到所述A₁与B₁相匹配，所述A₂与B₂相匹配，所述A₃ -A₄与B₃相匹配，所述A₅与B₄相匹配，所述A₆-A₉与B₅相匹配，所述A₁₀与B₆相匹配。从而所述待匹配A₁包含的第一文字框标识为B₁的行号，所述待匹配A₂包含的第一文字框标识为B₂的行号，所述待匹配A₃-A₄所包含的第一文字框标识为B₃的行号，所述待匹配A₅包含的第一文字框标识为B₄的行号，所述待匹配A₆-A₉包含的第一文字框标识为B₅的行号，所述待匹配A₁₀包含的第一文字框标识为B₆的行号。

所述识别系统通过每个第一文字框标识的行号，可以准确得找到在所有的标准文字行中实际需要的目标行所对应的所有第一文字框，从而找到目标行所对应的已识别字段，以方便后续的分析和解读。

本发明实施例通过图像模板中的校验行的相邻关系和校验行中的校验词，对所述待识别图像中的待匹配行进行校验，从而将所有的待匹配行与所述图像模板中的标准文字行进行匹配，将每个第一文字框所在行的行号标识为对应的标准文字行的行号，从而能够快速、准确得通过行号找到需要的目标行所对应的第一文字框，提高了文字识别的正确率。

图3为本发明实施例的另一结构化图像文字识别方法流程图，如图3所示，所述步骤S01前所述方法还包括：

步骤S001、对所述待识别图像进行文字识别，得到所述待识别图像中的所有第一文字框。

由上述实施例可知，所述识别系统在获取到待识别图像后需要对所述待识别图像进行预处理，所述预处理的过程具体如下：

所述识别系统先对所述待识别图像进行文字识别，将识别到可能出现文字的区域用第一文字框表示范围，并得到每个第一文字框识别得到的已识别字段。所述待识别图通过文字识别，将得到至少一个所述第一文字框。

步骤S002、将每个第一文字框进行水平延长得到与所述第一文字框一一对应的第二文字框；其中，所述第二文字框的左上顶点坐标和左下顶点坐标位于所述待识别图像的最左侧，所述第二文字框的右上顶点坐标和右下顶点坐标位于所述待识别图像的最右侧。

所述识别系统根据每个第一文字框四个顶点的坐标：左上顶点、左下顶点、右上顶点、右下顶点，将所述每个第一文字框进行水平延长。具体延长的方式举例如下：使所述左上顶点和左下顶点、右上顶点和右下顶点的坐标分别向两边水平位移到所述待识别图像的最左侧和最右侧，从而根据水平位移后的左上顶点、左下顶点、右上顶点、右下顶点组成第二文字框。

所述待识别图像中每个第一文字框将通过水平延长，得到与所述第一文字框一一对应的第二文字框，且每个第二文字框在水平方向上的长度均与所述待识别图像相同。

步骤S003、根据预设的划分条件，将每个第一文字框划分到与其对应的待匹配行；其中，所述划分条件具体为：同一待匹配行中任意两个第一文字框对应的两个第二文字框的相互重合度超过预设的比例阈值。

所述识别系统需要将所述待识别图划分为多个待匹配行，并将每个第一文字框划分到各自的待匹配行中。为此，所述识别系统将所有的第二文字框根据四个顶点的坐标，在所述待识别图像中由上到下进行排列。并分别计算任意两个第二文字框的相互重合度，再根据预设的比例阈值，例如80%，若所述相互重合度超过了所述比例阈值，则可以判定所述任意两个第二文字框可以归属于同一待匹配行。

进一步地，所述相互重合度具体为：

所述相互重合度的计算方法可以根据实际的需要来进行设定，在本发明实施例中仅以如下方法举例说明：

在计算两个第二文本框的相互重合度的公式如下：

相互重合度=相交面积/并集面积；

所述相交面积为两个第二文本框在待识别图像上相互重叠的面积，而并集面积则是两个第二文本框在待识别图像上占据的总覆盖的面积。

通过对所有任意两个第二文本框的遍历，找到所有可以归属于同一待匹配行的第二文本框，将所有的第二文本框划分到各自归属的待匹配行中。再根据所述第一文本框与第二文本框的一一对应的关系，从而将所有的第一文本框划分到各自归属的待匹配行中。

例如，若所有的第一文本框为{E₁、E₂、……、E₁₀}分别对应的第二文本框为{ F₁、F₂、……、F₁₀}。通过对任意两个第二文本框的相互重合度的计算，得到所述F₂和F₃属于同一待匹配行，所述F₅-F₈属于同一待匹配行。据此，可以将所有第二文本框划分到待匹配行{A₁、A₂、A₃、A₄、A₅、A₆}，相应地，所有第一文本框也将划分到各自的待匹配行中，E₁归属于A₁，E₂-E₃归属于A₂，E₄归属于A₃，E₅-E₈归属于A₄，E₉归属于A₅，E₁₀归属于A₆。

本发明实施例通过将所述待识别图中的第一文本框水平拉伸为第二文本框，再根据所有第二文本框的相互重合度，得到归属于同一待匹配行的第二文本框，从而能够快速、准确得将所有的第一文本框划分到各自的待匹配行中，进而根据待匹配行找到需要的目标行所对应的第一文字框。

基于上述实施例，进一步地，在所述步骤S001后所述方法还包括：

根据所有第一文本框的斜率，平均得到平均斜率；

根据所述平均斜率对所有的第一文本框进行摆正操作。

由于获取到的待识别图可能存在进行采集，例如，拍照或扫描的过程中没有摆正的情况，此时，会导致得到的所有第一文本框存在一定的倾斜。为此，需要先对所有的第一文本框进行摆正操作。

计算所有得到的第一文本框的斜率，具体可通过计算所述第一文本框的中线与水平面的斜率，或者计算所有第一文本框的上边、下边与水平面的斜率。在此，以计算上边、下边与水平面的斜率为例进行举例说明。所述上边的斜率为所述第一文本框的右上顶点与左上顶点的y轴坐标差与x轴坐标差的比值，而所述下边的斜率为所述第一文本框的右下顶点与左下顶点的y轴坐标差与x轴坐标差的比值。若所述待识别图像包括k个第一文本框，则可以得到2k个斜率。

对计算得到的所有斜率作平均，以得到平均斜率。由于，在对所述待识别图像进行文字识别时，所得到的第一文本框并不规则，有可能出现斜率奇高或奇低的情况。为此，在计算平均斜率时，需要先去除掉这些斜率奇高或奇低的值，具体可以通过对所有计算得到的斜率根据大小进行排序，只取中间部分的斜率来进行平均，以得到平均斜率值，例如，从所有的斜率中去除掉值最高以及最低的1/4*2k个斜率，留取中间的斜率来做平均。

根据得到的平均斜率，对所有第一文本框进行摆正操作，或者直接对所述待识别图像进行摆正操作，然后再对摆正后的第一文本框进行水平延长来获取对应的第二文本框。

本发明实施例通过对所有第一文本框的斜率的计算和平均得到平均斜率，再根据平均斜率对所有的第一文本框进行摆正操作，从而能够快速、准确得将所有的第一文本框划分到各自的待匹配行中，进而从所述待匹配行找到与需要的目标行所对应的第一文字框。

基于上述实施例，进一步地，在所述步骤S01前所述方法还包括：

通过对所述图像模板的分析，得到按照预设顺序排列的预设数量的标准文字行，每个标准文字行包括不变字段和/或可变字段；

对每个不变字段进行分词得到至少一个不变分词；

基于上述实施例可知，为了从所有的待匹配行中找到需要的目标行，需要在所述图像模板中确认校验行。

为此，需要先对每个图像类型的图像模板进行分析，将所述图像模板按照预设顺序划分为预设行数的标准文字行，并且根据每个标准文字行中包含的文字的特点，将所有文字分为不变字段和可变字段。其中，所述不变字段，为在任意对应的待匹配图像中不会因为客户的输出或书写而发生变化的字段，例如，默认打印的字段，如图2所示的“纳税人识别号”、“实缴（退）金额”、“妥善保管”等。并不是所有的标准文字行都存在不变字段，而仅是其中的一部分，而这些存在不变字段的标准文字行均可作为校验行。

将每个不变字段进行分词，例如，结巴分词采用搜索模式，得到每个不变字段的至少一个不变分词，如“纳税人识别号”对应的不变分词包括：纳税、纳税人、识别、别号，“实缴（退）金额”对应的不变分词包括：实缴、退、金额，“妥善保管”对应的不变分词包括：妥善、保管。

同时，通过样本图像集中大量的待识别图像进行文字识别，并将识别到的分词与不变分词进行比较，从而得到每个不变分词的识别概率，举例如下表所示：

纳税人识别号	纳税	纳税人	识别	别号
					100	97.87%	96.79%	95.23%
实缴（退）金额	实缴	退	金额
					100%	98.21%	100%
妥善保管	妥善	保管
					93.%	100%

将每个标准文字行中的不变分词按照识别概率由高到低进行排列，根据实际的需要选取识别概率最高的至少一个不变分词作为校验词，而将包含该校验词的标准文字行作为校验行。例如，分别将位于不同校验行的{纳税、实缴、保管}作为校验词来对待识别图像进行校验。

本发明实施例通过对图像模板的分析，将所述图像模板划分为预设行数的标准文字行，并对其中的不变字段进行分词，得到不变分词，再通过大量待识别图像的文字识别得到每个不变分词的识别概率，再根据识别概率从不变分词中选取校验词，从而能够快速、准确得将所有待匹配行与校验行进行匹配，进而从所述待匹配行找到与需要的目标行所对应的第一文字框。

图4为本发明实施例的结构化图像文字识别系统结构示意图，如图4所示，所述识别系统包括：信息获取模块10、字段分词模块11、文字校验模块12和文字标识模块13，其中，

所述信息获取模块10用于获取经过预处理的待识别图像和与所述待识别图像对应的图像模板；其中，所述待识别图像包括由上到下依次排列的至少一条待匹配行，每条待匹配行包括至少一个第一文字框，每个第一文字框包括已识别字段，所述图像模板包括按预设顺序排列的多条标准文字行，所有标准文字行中包括多条校验行，每条校验行包括至少一个校验词；所述字段分词模块11用于对所有第一文字框的已识别字段进行分词，得到与所述第一文字框对应的待匹配行的待匹配词；所述文字校验模块12用于根据预设的匹配条件，将所述待匹配行与所述校验行进行匹配，以得到与所述校验行一一对应的待匹配行；其中，所述匹配条件具体为：所述校验行中的一个校验词与相匹配的待匹配行中的一个待识别词相同，所有校验行的相邻关系与相匹配的待匹配行的相邻关系相同；所述13文字标识模块，用于若匹配成功，则根据匹配结果，以及所有待匹配行和校验行的排列顺序，将所述待识别图像中的每个第一文字框所在行的行号标识为与对应的待匹配行相匹配的标准文字行的行号。具体地：

所述信息获取模块10获取经过预处理的待识别图像，所述待识别图像包括每个存在已识别出已识别字段的第一文字框，且每个第一文字框根据其位置的不同，由上到下分别归属于一条待匹配行，每个待匹配行包括至少一个第一文字框。

针对不同的图像类型，所述信息获取模块10的数据库中保存有各个图像类型的图像模板。根据获取到的待识别图像的图像类型，所述信息获取模块10从数据库中提取出与所述待识别图像相对应的图像模板。所述图像模板包括多条标准文字行，所有的标准文字行按照预设的顺序进行排列。部分标准文字行还包括有校验词，将这些包括有校验词的标准文字行作为校验行，且所有的校验行间根据标准文字行的排序顺序存在固定的相邻关系。所述信息获取模块10将所述待识别图像发送给所述字段分词模块10，将所述图像模板发送给文字校验模块13。

所述字段分词模块11对所有的第一文字框对应的已识别字段进行分词，从中获取到待匹配词。然后，根据每个第一文字框归属的待匹配行，所述字段分词模块11将得到的所有待匹配词分别归属于与所述第一文字框对应的待匹配行，并发送给所述文字校验模块12。

所述文字校验模块12将每个待匹配行中的待匹配词与每个校验行中的校验词进行匹配，若任一待匹配词与任一校验词相同，则将所述任一待匹配词所在的待匹配行与所述任一校验词所在的校验行相匹配。从而，找出所有存在相同的待匹配词与校验词的相互匹配的待匹配行和校验行。此时每个校验行可能对应匹配到了多个待匹配行，进一步，根据所有校验行间的相邻关系，与对应的待匹配行间的相邻关系进行比较。若两者的相邻关系相同，则所述文字校验模块12判定本次匹配成功，得到了与所述校验行唯一对应的待匹配行。而若两者的相邻关系错误，则所述文字校验模块12判定本次匹配失败。所述文字校验模块12将匹配结果发送给文字标识模块13。

若所述文字标识模块13通过上述校验行的匹配，成功匹配到了与所述校验行一一对应的待匹配行，则可以根据所述校验行在所有的标准文字行中排列的位置，以及与所述校验行相匹配的待匹配行在所有待匹配行中的排列的位置，得到与每个待匹配行相对应的标准文字行。进而，所述文字标识系统13将每个待匹配行中的第一文字框标识为与所述第一文字框所在的待匹配行相对应的标准文字行的行号。

所述文字标识系统13通过每个第一文字框标识的行号，可以准确得找到在所有的标准文字行中实际需要的目标行所对应的所有第一文字框，从而找到目标行所对应的已识别字段，以方便后续的分析和解读。

本发明实施例提供的系统用于执行上述方法，其功能具体参考上述方法实施例，其具体方法流程在此处不再赘述。

本发明实施例通过图像模板中的校验行的相邻关系和校验行中的校验词，对所述待识别图像中的待匹配行进行校验，从而将所有的待匹配行与所述图像模板中的标准文字行进行匹配，将每个第一文字框所在行的行号标识为对应的标准文字行的行号，从而能够快速、准确得通过行号找到需要的目标行所对应的第一文字框。

基于上述实施例，进一步地，所述识别系统还包括：

由上述实施例可知，所述在获取到待识别图像后需要对所述待识别图像进行预处理，所述预处理的过程具体如下：

所述图像识别模块先对所述待识别图像进行文字识别，将识别到可能出现文字的区域用第一文字框表示范围，并得到每个第一文字框识别得到的已识别字段。所述图像识别模块通过所述待识别图的文字识别，将得到至少一个所述第一文字框，并发送给文字框处理模块。

所述文字框处理模块根据每个第一文字框四个顶点的坐标：左上顶点、左下顶点、右上顶点、右下顶点，将所述每个第一文字框进行水平延长。具体延长的方式举例如下：使所述左上顶点和左下顶点、右上顶点和右下顶点的坐标分别向两边水平位移到所述待识别图像的最左侧和最右侧，从而根据水平位移后的左上顶点、左下顶点、右上顶点、右下顶点组成第二文字框。

所述待识别图像中每个第一文字框将通过水平延长，得到与所述第一文字框一一对应的第二文字框，且每个第二文字框在水平方向上的长度均与所述待识别图像相同。所述文字框处理模块将得到的所有第二文字框发送给所述文字框划分模块。

所述文字框划分模块需要将所述待识别图划分为多个待匹配行，并将每个第一文字框划分到各自的待匹配行中。为此，所述文字框划分模块将所有的第二文字框根据四个顶点的坐标，在所述待识别图像中由上到下进行排列。并分别计算任意两个第二文字框的相互重合度，再根据预设的比例阈值，例如80%，若所述相互重合度超过了所述比例阈值，则所述文字框划分模块可以判定所述任意两个第二文字框可以归属于同一待匹配行。

进一步地，所述相互重合度具体为：

在计算两个第二文本框的相互重合度的公式如下：

相互重合度=相交面积/并集面积；

所述文字框划分模块通过对所有任意两个第二文本框的遍历，找到所有可以归属于同一待匹配行的第二文本框，将所有的第二文本框划分到各自归属的待匹配行中。再根据所述第一文本框与第二文本框的一一对应的关系，从而将所有的第一文本框划分到各自归属的待匹配行中。

本发明实施例通过将所述待识别图中的第一文本框通过水平拉伸为第二文本框，再根据所有第二文本框的相互重合度，得到归属于同一待匹配行的第二文本框，从而能够快速、准确得将所有的第一文本框划分到各自的待匹配行中，进而根据待匹配行找到需要的目标行所对应的第一文字框。

基于上述实施例，进一步地，所述识别系统还包括：

由于获取到的待识别图可能存在进行采集，例如，拍照或扫描，的过程中没有摆正的情况，此时，会导致所述图像识别模块得到的所有第一文本框存在一定的倾斜。为此，需要先对所有的第一文本框进行摆正操作。

所述斜率计算模块计算所有由图像识别模块得到的第一文本框的斜率，具体可通过计算所述第一文本框的中线与水平面的斜率，或者计算所有第一文本框的上边、下边与水平面的斜率。在此，以计算上边、下边与水平面的斜率为例进行举例说明。所述上边的斜率为所述第一文本框的右上顶点与左上顶点的y轴坐标差与x轴坐标差的比值，而所述下边的斜率为所述第一文本框的右下顶点与左下顶点的y轴坐标差与x轴坐标差的比值。若所述待识别图像包括k个第一文本框，则可以得到2k个斜率的值。

所述斜率平均模块对由斜率计算模块计算得到的所有斜率作平均，以得到平均斜率。由于，在对所述待识别图像进行文字识别时，所得到的第一文本框并不规则，有可能出现斜率奇高或奇低的情况。为此，所述斜率平均模块在计算平均斜率时，需要先去除掉这些斜率奇高或奇低的值，具体可以通过对所有计算得到的斜率根据大小进行排序，只取中间部分的斜率来进行平均，以得到平均斜率值，例如，从所有的斜率中去除掉值最高以及最低的1/4，留取中间的斜率来做平均。所述斜率平均模块将得到平均斜率发送给图像摆正模块。

所述图像摆正模块根据得到的平均斜率，对所有第一文本框进行摆正操作，或者直接对所述待识别图像进行摆正操作，然后再发送给文字框处理模块，由文字框处理模块再对摆正后的第一文本框进行水平延长来获取对应的第二文本框。

本发明实施例提供的装置用于执行上述方法，其功能具体参考上述方法实施例，其具体方法流程在此处不再赘述。

图5示例了一种电子设备的实体结构示意图，如图5所示，该服务器可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行如下方法：获取经过预处理的待识别图像和与所述待识别图像对应的图像模板；其中，所述待识别图像包括由上到下依次排列的至少一条待匹配行，每条待匹配行包括至少一个第一文字框，每个第一文字框包括已识别字段，所述图像模板包括按预设顺序排列的多条标准文字行，所有标准文字行中包括多条校验行，每条校验行包括至少一个校验词；对所有第一文字框的已识别字段进行分词，得到与所述第一文字框对应的待匹配行的待匹配词；根据预设的匹配条件，将所述待匹配行与所述校验行进行匹配，以得到与所述校验行一一对应的待匹配行；其中，所述匹配条件具体为：所述校验行中的一个校验词与相匹配的待匹配行中的一个待识别词相同，所有校验行的相邻关系与相匹配的待匹配行的相邻关系相同；若匹配成功，则根据匹配结果，以及所有待匹配行和校验行的排列顺序，将所述待识别图像中的每个第一文字框所在行的行号标识为与对应的待匹配行相匹配的标准文字行的行号。

进一步地，本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：获取经过预处理的待识别图像和与所述待识别图像对应的图像模板；其中，所述待识别图像包括由上到下依次排列的至少一条待匹配行，每条待匹配行包括至少一个第一文字框，每个第一文字框包括已识别字段，所述图像模板包括按预设顺序排列的多条标准文字行，所有标准文字行中包括多条校验行，每条校验行包括至少一个校验词；对所有第一文字框的已识别字段进行分词，得到与所述第一文字框对应的待匹配行的待匹配词；根据预设的匹配条件，将所述待匹配行与所述校验行进行匹配，以得到与所述校验行一一对应的待匹配行；其中，所述匹配条件具体为：所述校验行中的一个校验词与相匹配的待匹配行中的一个待识别词相同，所有校验行的相邻关系与相匹配的待匹配行的相邻关系相同；若匹配成功，则根据匹配结果，以及所有待匹配行和校验行的排列顺序，将所述待识别图像中的每个第一文字框所在行的行号标识为与对应的待匹配行相匹配的标准文字行的行号。

进一步地，本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：获取经过预处理的待识别图像和与所述待识别图像对应的图像模板；其中，所述待识别图像包括由上到下依次排列的至少一条待匹配行，每条待匹配行包括至少一个第一文字框，每个第一文字框包括已识别字段，所述图像模板包括按预设顺序排列的多条标准文字行，所有标准文字行中包括多条校验行，每条校验行包括至少一个校验词；对所有第一文字框的已识别字段进行分词，得到与所述第一文字框对应的待匹配行的待匹配词；根据预设的匹配条件，将所述待匹配行与所述校验行进行匹配，以得到与所述校验行一一对应的待匹配行；其中，所述匹配条件具体为：所述校验行中的一个校验词与相匹配的待匹配行中的一个待识别词相同，所有校验行的相邻关系与相匹配的待匹配行的相邻关系相同；若匹配成功，则根据匹配结果，以及所有待匹配行和校验行的排列顺序，将所述待识别图像中的每个第一文字框所在行的行号标识为与对应的待匹配行相匹配的标准文字行的行号。

本领域普通技术人员可以理解：此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random AccessMemory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种结构化图像文字识别方法，其特征在于，包括：

2.根据权利要求1所述的结构化图像文字识别方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的结构化图像文字识别方法，其特征在于，所述方法还包括：

根据所有第一文本框的斜率，平均得到平均斜率；

根据所述平均斜率对所有的第一文本框进行摆正操作。

4.根据权利要求2所述的结构化图像文字识别方法，其特征在于，所述相互重合度具体为：

5.根据权利要求1所述的结构化图像文字识别方法，其特征在于，所述方法还包括：

对每个不变字段进行分词得到至少一个不变分词；

6.一种结构化图像文字识别系统，其特征在于，包括：

7.根据权利要求6所述的结构化图像文字识别系统，其特征在于，所述识别系统还包括：

8.根据权利要求7所述的结构化图像文字识别系统，其特征在于，所述识别系统还包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述结构化图像文字识别方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至5任一项所述结构化图像文字识别方法的步骤。