CN113221880A

CN113221880A - 基于基尼不纯度的ocr版面分析方法

Info

Publication number: CN113221880A
Application number: CN202110479171.7A
Authority: CN
Inventors: 刘星辰; 何盼; 陈晓峰; 麻沁甜
Original assignee: Shanghai Bochi Information Technology Co ltd
Current assignee: Shanghai Bochi Information Technology Co ltd
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-08-06
Anticipated expiration: 2041-04-29
Also published as: CN113221880B

Abstract

本发明基于基尼不纯度的OCR版面分析方法，包括：获取图像OCR初始的含位置信息和置信分的识别结果；根据置信分将所有的识别结果分为高置信度和低置信度两类；从图像的左侧开始，按照一定的间隔设置多条竖直分隔线，同样地，从图像上侧开始，按照一定的间隔设置多条水平分隔线；利用竖直分隔线将识别结果分成左右两部分，水平分隔线将识别结果分成上下两部分；对于每一条分隔线，分别计算左右或者上下两个部分的基尼不纯度，然后根据上下/左右的基尼不纯度计算总的基尼不纯度；取所有分隔线中基尼不纯度最小的线作为最终的分隔线；通过最终分隔线的位置和方向判断图像的版面，同时过滤掉高置信度文本较少一侧的文本识别结果；根据过滤后的识别结果进行字段匹配，得到最终的识别结果。

Description

基于基尼不纯度的OCR版面分析方法

【技术领域】

本发明主要涉及图像处理和OCR技术领域，尤其涉及一种基于基尼不纯度(Giniimpurity)的OCR(0ptical Character Recognition)版面分析方法。

【背景技术】

OCR是图像处理中的经典任务之一，在各行业领域均应用广泛。当前OCR识别在深度学习算法的加持下已经可以达到很高的精度，但是深度学习识别算法本身仅仅输出图像中的所有文本识别结果，而无法判断图像文本的排版信息，更不用说将识别的结果和有意义的字段相匹配，使OCR在复杂场景下应用大大受限。

【发明内容】

本发明目的在于克服现有技术不足，提供一种OCR识别结果的版面分析方法，通过寻找图像中最小基尼不纯度的分隔线，判断图像文本的排版方向，从而为后续的文本识别结果过滤和字段匹配提供有效的信息。为实现上述目的，本发明需要保护的技术方案概括为：

基于基尼不纯度的OCR版面分析方法，其特征是，通过找到图像中基尼不纯度最小的分隔线，然后通过分隔线的位置和方向判断图像中文本的排版方向，基于排版方向过滤掉无效的识别结果，得到最终OCR识别文本信息。

以下进一步给出具体实现过程：

基于基尼不纯度的OCR版面分析方法，所述方法如下：

S1：获取图像OCR初始的含位置信息和置信分的识别结果，提供给S2；

S2：根据置信分将所有的识别结果分为高置信度和低置信度两类，提供给S4；

S3：从图像的左侧开始，按照一定的间隔设置多条竖直分隔线，同样地，从图像上侧开始，按照一定的间隔设置多条水平分隔线，提供给S4；

S4：利用竖直分隔线将识别结果分成左右两部分，水平分隔线将识别结果分成上下两部分，提供给S5；

S5：对于每一条分隔线，分别计算左右或者上下两个部分的基尼不纯度，然后根据上下/左右的基尼不纯度计算总的基尼不纯度，提供给S6；

S6：取所有分隔线中基尼不纯度最小的线作为最终的分隔线，提供给S7；

S7：通过最终分隔线的位置和方向判断图像的版面，同时过滤掉高置信度文本相对少那一侧的文本识别结果；提供给S8；

S8：将过滤后的识别结果进行字段匹配，得到最终的识别结果。

作为上述技术方案的改进，S1中：图像的OCR初始结果，由OCR识别模型处理所得，OCR识别模型不限于某一种或某一类模型，但是识别结果需要包含识别文本的位置信息和置信分。OCR识别模型，文本检测和文本识别两部分，举例而非限定，文本检测可采用CTPN和DBNet等深度学习模型，文本识别可采用CRNN等深度学习模型。

作为上述技术方案的改进，S2中：文本识别结果置信度的高低，通过以下方法判定：(1)若所有识别文本的置信分均大于60，则将所有文本视为高置信度文本；(2)若所有识别文本置信度均小于60，则将所有文本视为低置信度文本；(3)若识别结果中兼有置信分大于和小于60的文本，则通过如公式(1)计算分隔高低置信度的阈值C：

C＝(max(c₁，c₂，...，c_n)+min(c₁，c₂，...，c_n))/2 (1)

其中c₁，c₂，...，c_n为所有文本识别结果的置信分。置信分大于C的文本视为高置信度，置信分小于C的文本视为低置信度。

作为上述技术方案的改进，S3中：分隔线的设置包含水平和竖直两个方向，每个方向以一定的间隔设置多条间隔线，举例说明：图像的长度为1000，宽度为800，两个方向的间隔均为10，则水平和竖直方向上分别设置80和100条分隔线。

作为上述技术方案的改进，S4中：分隔线将图像的文本识别结果分成两部分，对于竖直方向的分隔线，将识别结果分成左右两部分，即将文本位置(左上角x坐标)小于分隔线x坐标的文本分到左半部分，大于或等于则分到右半部分；对于水平方向的分隔线，将识别结果分成上下两部分，即将文本位置(左上角y坐标)小于分隔线y坐标的文本分到下半部分，大于或等于则分到上半部分。

作为上述技术方案的改进，S5中：通过如下步骤计算每一条分隔线的基尼不纯度，首先，根据公式(2)分别计算两侧的基尼不纯度：

g＝p_high(1-p_high)+p_low(1-p_low) (2)

其中p_high和p_low分别为高置信度文本和低置信度文本在该侧文本的占比。根据式(2)得到两侧的基尼不纯度值g后，通过公式(3)计算分隔线的总体基尼不纯度：

G＝P₁*g₁+P₂*g₂ (3)

其中p₁和p₂分别打标两侧文本在总文本中的占比，g₁和g₂分别为两侧的基尼不纯度。基尼不纯度(GiNi Inpurity)，用于度量决策树中预测误差率，基尼不纯度Gl值越小，纯度越高，有序程度越高，说明分类效果越好，反之，基尼不纯度Gl值越大，纯度越低，有序程度越低，分类效果越差。作为上述技术方案的改进，S6中：选取基尼不纯度最小的分隔线作为最终的分隔线，水平方向的分隔线和竖直方向的分隔线均参与排序，如果同时存在多个基尼不纯度最小的分隔线，则取坐标最小的分隔线。

作为上述技术方案的改进，S7中：根据分隔线的方向判断图像的文本排版，如果分隔线为水平方向，则文本为上下排版，如果分隔线为竖直方向，则文本为左右排版。在判定排版方向之后，根据分隔线过滤掉高置信度文本相对少的那一侧的所有文本。

作为上述技术方案的改进，S8中：将过滤后的文本识别结果进行字段匹配，是指根据位置信息和文本特征，将识别结果映射到姓名、号码和日期等预设的有意义字段，从而得到最终有意义的识别结果。

本发明的有益效果：

简言之，本发明采用基尼不纯度判断图像文本的排版方向，用于过滤掉无效文本，保障有效字段进行匹配，保证最终有意义的OCR识别结果。

本发明的基于基尼不纯度的OCR版面分析方法，通过获取最小基尼不纯度的分隔线判断图像文本的排版方向，为后续文本过滤和有效字段匹配提供有效信息，从而提升最终OCR识别的准确率。

本发明的特征及优点将通过实施例结合附图进行详细说明。

【附图说明】

图1是本发明具体实施方式提供的基于基尼不纯度的OCR版面分析方法的流程示意图

图2是实施例图像经OCR处理得到原始文本识别结果的样例

图3是实施例OCR识别结果设置水平和竖直分隔线的示例图

图4是实施例分隔线将OCR识别结果分为左侧和右侧的示意图

图5是实施例计算分隔线左侧、右侧和总基尼不纯度的示例图

图6是实施例OCR识别结果最优分隔线的示意图

【具体实施方式】

OCR是图像处理领域常见的一种应用，当前基于深度学习的OCR模型可以实现图像中文本的准确定位和识别，但是在图像文字排版较为复杂的情况下，如何获取文本排版信息以及进一步提取有效的文本信息，仍然是OCR识别中待解决的问题。

本发明提出基于基尼不纯度的OCR版面分析方法，通过找到图像中基尼不纯度最小的分隔线，然后通过分隔线的位置和方向判断图像中文本的排版方向，基于排版方向可以过滤掉无效的识别结果，从而得到最终有效的OCR识别文本信息。

以下结合具体实施方式和附图对本发明技术方案作进一步说明。图1示出本发明提供的基于基尼不纯度的OCR版面分析方法的流程示意图，具体步骤如下：

S1：获取图像OCR初始的含位置信息和置信分的识别结果；

S2：根据置信分将所有的识别结果分为高置信度和低置信度两类；

S3：从图像的左侧开始，按照一定的间隔设置多条竖直分隔线，同样地，从图像上侧开始，按照一定的间隔设置多条水平分隔线；

S4：利用竖直分隔线将识别结果分成左右两部分，水平分隔线将识别结果分成上下两部分；

S5：对于每一条分隔线，分别计算左右或者上下两个部分的基尼不纯度，然后根据上下/左右的基尼不纯度计算总的基尼不纯度；

S6：取所有分隔线中基尼不纯度最小的线作为最终的分隔线；

S7：通过最终分隔线的位置和方向判断图像的版面，同时过滤掉高置信度文本较少的一侧的文本识别结果；

S8：将过滤后的识别结果进行字段匹配，得到最终的识别结果。具体地，S1中，获取图像OCR初始的包含位置和置信分的识别结果。包含文本的图像通过深度学习OCR模型的处理之后，对于每一个位置的文本会输出三个结果：(1)文本位置信息，通常用一个四边形框出文本所在的位置，位置信息由四边形的四个点坐标给出；(2)文本框中文本的识别结果；(3)文本识别结果的置信度，通常给出范围在1～100的置信分，置信分越高表示识别结果的可靠度越高。图2给出了一个从图像得到原始文本识别结果的样例，图的左侧为原始图像，图的右侧为原始的OCR识别结果。在这个OCR示例中，假设最终的识别目的为提取图像中的中文地址信息，为了得到正确的地址信息，需要将右侧的英文地址过滤掉。

S2中，根据置信分将所有的识别结果分为高置信度和低置信度两类。在这个步骤中，需要根据所有识别文本的置信分确定高低置信度的阈值，置信分低于阈值的文本判定为低置信度，反之判定为高置信度。阈值的计算规则如下：作为实施例，假如所有文本置信分均大于等于60或者小于60，则无需设定阈值，直接将所有文本判定为高置信度(＞＝60)或者低置信度(＜60)；如果文本中包含置信分大于等于60的文本和小于60的文本，则取所有文本中置信分的最大值和最小值的均值作为阈值。举例而言，假设4个识别文本的阈值为[45，50，95，85]，则根据上述规则可以计算出阈值h＝(45+95)/2＝70，则文本的高低置信度判定为[低，低，高，高]。在S1中提取中文地址的示例中，通常采用中文OCR识别模型(识别中文和数字)，在得到的识别结果中，中文和数字的识别结果会获得高置信分，英文则会得到低置信分，在图2中，高置信分和低置信分通过深色背景和浅色背景区分开。

S3中，从图像的左侧开始，按照一定的间隔设置多条竖直分隔线，同样地，从图像上侧开始，按照一定的间隔设置多条水平分隔线。具体而言，竖直间隔线之间的间隔不能大于文本框的长度，水平间隔线之间的间隔不能大于文本框的高度。假设识别得到4个文本框，4个文本框的长度和高度为：[(40，10)，(35，8)，(20，9)，(15，12)]，则竖直间隔线之间的间隔不能大于15，水平间隔线之间的间隔不能大于9。图3给出了S1中识别结果样例的分隔线示意图。

S4中，利用竖直分隔线将识别结果分成左右两部分，水平分隔线将识别结果分成上下两部分。分隔线对文本的分隔根据分隔线的位置和文本框的位置确定，对于竖直方向的分隔线，通过对比较文本框左上角x坐标和分隔线x坐标判定左右侧，如果前者大于等于后者，则判定为右侧，否则判定为左侧。对于水平方向的分隔线，则比较文本框左上角y坐标和分隔线y坐标，如果前者大于或等于后者，则判定为上侧，否则判定为下侧。图4给出了S1中识别结果样例中通过竖直分隔线分隔文本框的样例，其中深色背景结果判定为左侧，浅色背景结果判定为右侧。

S5中，对于每一条分隔线，分别计算左右或者上下两个部分的基尼不纯度，然后根据上下/左右的基尼不纯度计算总的基尼不纯度。在判定识别结果在分隔线的左右或者上下后，通过公式(2)分别计算左右/上下两侧的基尼不纯度，然后通过公式(3)计算分隔线总的基尼不纯度。以S4中给出的分隔样例为例，分隔后左侧共有9个文本，其中高置信度文本和低置信度文本分别为4和5，右侧共有8个文本，高置信度文本和低置信度文本分别为3和5，如图5所示。则根据公式(2)计算左侧和右侧的基尼不纯度分别为：gleft＝4/9*4/9+5/9*5/9＝0.50，g_right＝3/8*3/8+5/8*5/8＝0.531，然后根据公式(3)计算总的基尼不纯度为：G＝0.506*9/(9+8)+0.531*8/(9+8)＝0.518。

S6中，取所有分隔线中基尼不纯度最小的线作为最终的分隔线。通过S5步骤可以计算出每一条分隔线的基尼不纯度，将所有分隔线按照基尼不纯度排序，并取出最小的一条或者一组分隔线。假如分隔线不止一条，则比较分隔线的坐标大小，对于竖直方向的分隔线比较x坐标，对于水平方向分隔线比较y坐标，取坐标最小的一条分隔线作为最优分隔线。图6给出了S1识别样例中最优分隔线的示意图。

S7中，通过最终分隔线的位置和方向判断图像的版面，同时过滤掉高置信度文本较少的一侧的文本识别结果。具体而言，若最优分隔线为竖直方向，则图像文本为左右排版，若最优分隔线为水平方向，则图像为上下排版。判定排版方向之后，可以过滤掉高置信度文本较少的那一侧的所有文本。以图6给出的分隔线示意图为例，右侧的高置信度文本较少，因此通过分隔线可以过滤掉右侧的英文地址，保留想要识别的中文地址。

S8中，将过滤后的识别结果进行字段匹配，得到最终的识别结果。在过滤掉无效信息之后，需要根据目标识别字段的特征和位置，从过滤之后的文本中获取最终结果。以图6中的地址为例，地址信息的首部出现“地址”关键词，以此可以判断“地址”之后的文本均为地址信息，从而提取出最终的中文地址文本，至此，实现了最终的识别目标。这部分采用本领域常规技术即可实现。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.基于基尼不纯度的OCR版面分析方法，其特征在于，通过找到图像中基尼不纯度最小的分隔线，然后通过分隔线的位置和方向判断图像中文本的排版方向，基于排版方向过滤掉无效的识别结果，得到最终OCR识别文本信息。

2.如权利要求1所述基于基尼不纯度的OCR版面分析方法，其特征在于，采用如下方法实现：

S7：通过最终分隔线的位置和方向判断图像的版面，同时过滤掉高置信度文本少的那一侧的文本识别结果，提供给S8；

3.根据权利要求2所述基于基尼不纯度的OCR版面分析方法，其特征在于：图像的OCR初始结果，由OCR识别模型处理所得，识别模型不限于某一种或某一类模型，但是识别结果需要包含识别文本的位置信息和置信分。

4.根据权利要求2所述基于基尼不纯度的OCR版面分析方法，其特征在于,文本识别结果置信度的高低，通过以下方法判定：(1)若所有识别文本的置信分均大于60，则将所有文本视为高置信度文本；(2)若所有识别文本置信度均小于60，则将所有文本视为低置信度文本；(3)若识别结果中兼有置信分大于和小于60的文本，则通过如公式(1)计算分隔高低置信度的阈值C，

C＝(max(c₁,c₂,...,c_n)+min(c₁,c₂,...,c_n))/2 (1)

其中c₁,c₂,...,c_n为所有文本识别结果的置信分。置信分大于C的文本视为高置信度，置信分小于C的文本视为低置信度。

5.根据权利要求2所述基于基尼不纯度的OCR版面分析方法，其特征在于：分隔线的设置包含水平和竖直两个方向，每个方向以一定的间隔设置多条间隔线，假如图像的长度为1000，宽度为800，两个方向的间隔均为10，则水平和竖直方向上分别设置80和100条分隔线。

6.根据权利要求2所述基于基尼不纯度的OCR版面分析方法，其特征在于：分隔线将图像的文本识别结果分成两部分，对于竖直方向的分隔线，将识别结果分成左右两部分，即将文本位置(左上角x坐标)小于分隔线x坐标的文本分到左半部分，大于或等于则分到右半部分；对于水平方向的分隔线，将识别结果分成上下两部分，即将文本位置(左上角y坐标)小于分隔线y坐标的文本分到下半部分，大于或等于则分到上半部分。

7.根据权利要求2所述基于基尼不纯度的OCR版面分析方法，其特征在于：通过如下步骤计算每一条分隔线的基尼不纯度，首先，根据公式(2)分别计算两侧的基尼不纯度：

g＝p_high(1-p_high)+p_low(1-p_low) (2)

G＝p₁*g₁+p₂*g₂ (3)

其中p₁和p₂分别打标两侧文本在总文本中的占比，g₁和g₂分别为两侧的基尼不纯度。

8.根据权利要求2所述基于基尼不纯度的OCR版面分析方法，其特征在于：选取基尼不纯度最小的分隔线作为最终的分隔线，水平方向的分隔线和竖直方向的分隔线均参与排序，如果同时存在多个基尼不纯度最小的分隔线，则取坐标最小的分隔线。

9.根据权利要求2所述基于基尼不纯度的OCR版面分析方法，其特征在于：根据分隔线的方向判断图像的文本排版，如果分隔线为水平方向，则文本为上下排版，如果分隔线为竖直方向，则文本为左右排版；在判定排版方向之后，根据分隔线过滤掉高置信度文本比较少一侧的所有文本。

10.根据权利要求2所述基于基尼不纯度的OCR版面分析方法，其特征在于：将过滤后的文本识别结果进行字段匹配，是指根据位置信息和文本特征，比如将识别结果映射到姓名、号码和日期等预设的字段，从而得到最终有意义的识别结果。