CN115482537B

CN115482537B - 基于迭代聚类处理ocr识别结果的文本对齐方法及系统

Info

Publication number: CN115482537B
Application number: CN202211261500.1A
Authority: CN
Inventors: 吴春尧
Original assignee: Beijing Zhongke Wanguo Internet Technology Co ltd
Current assignee: Beijing Zhongke Wanguo Internet Technology Co ltd
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2024-03-12
Anticipated expiration: 2042-10-14
Also published as: CN115482537A

Abstract

本发明公开了一种基于迭代聚类处理OCR识别结果的文本对齐方法及系统，基于OCR识别得到的多个文本框按距离最小进行聚类，通过多轮迭代聚类得到多个组合后的文本块；对存在纵向交叠的文本块进行合并，通过多轮迭代合并文本块直至不再有交叠的文本块，对于不交叠的文本块，根据各文本块的上下位置关系依次连接合并得到最终文本对齐结果。利用了文本扭曲中近距离扭曲产生问题更小，远距离扭曲产生问题更大的特点，优先依次把最容易确定的文本框间行列关系确定，对距离比较远的文本框之间关系的确定使用多个文本框组合后的全局统计关系来进行确定，做到了全局最优解决扭曲问题。相对于以图像处理技术解决矫正畸变，具有计算复杂度低、自适应性好、算法效果高等特点。

Description

基于迭代聚类处理OCR识别结果的文本对齐方法及系统

技术领域

本发明涉及信息处理技术领域，具体涉及一种基于迭代聚类处理OCR识别结果的文本对齐方法及系统。

背景技术

随着智能终端的广泛使用，获得文字图像数据越来越变得容易，在保险、医疗等的应用领域中，存在大量的由拍照产生的印刷体文本数据，如票据、清单、证件等。有别于扫描件，通过手机或pad等智能终端获取的文本图像常常有以下几方面问题：1、透视产生的梯形扭曲；2、页面本身褶皱带来的水平或垂直畸变；3、原始文档因为光线等环境因素带来的图像昏暗引起部分文字模糊，使得OCR识别结果数据缺失。这些影响了OCR最终的识别效果，最明显的问题就是通过OCR文字识别后，文本的行/列很难得到对应，并恢复成原始文件，尤其是对于非连续的文本情况，如表格、发票等半结构化文本，问题更重。

现在解决图片扭曲的方法比较多，大多是从畸变产生的原因入手，以图像处理技术实现。但这些方法适应性比较窄，计算复杂度高，对文本处理效果不够理想。本发明提出的方法是借助OCR识别结果进行畸变恢复，并利用文本自身的原始行列相关信息来完成，从而达到了文字对齐的目标。

发明内容

为此，本发明提供一种基于迭代聚类处理OCR识别结果的文本对齐方法及系统，以解决现有文本对齐方法存在的适应性比较窄，计算复杂度高，对文本处理效果不够理想等的问题。

为了实现上述目的，本发明提供如下技术方案：

根据本发明的第一方面，提出了一种基于迭代聚类处理OCR识别结果的文本对齐方法，所述方法包括：

对待处理图片进行OCR识别，获取多个文本框以及各文本框文本信息；

对得到的多个文本框进行距离计算和聚类，将满足预设距离范围的且距离最小的文本框合并为文本块，对得到的文本块通过多轮迭代聚类将满足预设距离范围的且距离最小的文本块进行合并以及文本对齐，得到多个组合后的文本块；

对得到的多个文本块进行两两比对判断是否存在纵向交叠，对交叠长度最大的两个文本块进行合并以及文本对齐，通过多轮迭代合并文本块直至不再有交叠的文本块，对于不交叠的文本块，根据各文本块的上下位置关系依次连接合并得到最终文本对齐结果。

进一步地，对得到的多个文本框进行距离计算和聚类，将满足预设距离范围的且距离最小的文本框合并为文本块，具体包括：

对每个文本框与其周边的候选文本框集进行聚类距离计算，获取聚类距离最小的接近同行或同列的文本框对并组合成文本块，每个文本块包括至少一个矩形的文本框。

进一步地，对得到的文本块通过多轮迭代聚类将满足预设距离范围的且距离最小的文本块进行合并以及文本对齐，具体包括：

将第一文本块中的所有文本框与第二文本块中的所有文本框分别两两计算两个文本框的距离，将得到的距离值中的最小值作为两个文本块的距离值；

每轮迭代过程中，计算每个文本块与其周边的候选文本块集之间的距离值，并获取距离最小的文本块对进行合并。

两个文本块合并时，获取两个文本块相对应的行作为合并基点，基于所述合并基点将各行依次顺序对齐，将合并得到的新的文本块内的各列按各个文本框中心点的横坐标顺序排序。

进一步地，对得到的多个文本块进行两两比对判断是否存在纵向交叠，具体包括：

根据两个文本块的矩形框顶点的纵坐标范围判断是否存在交集，确定两个文本块是否存在纵向交叠。

进一步地，对交叠长度最大的两个文本块进行合并以及文本对齐，具体包括：

将交集范围最大的第一文本块和第二文本块中位于低位的文本块的第一行作为疏轴点，其中位于低位的文本块是指文本块的矩形框右上角顶点的纵坐标相对小；

若位于低位的文本块为第二文本块，则基于所述疏轴点，根据纵坐标差值的绝对值，获取所述第一文本块中与所述疏轴点所在的行最接近的行，并上下取多行作为与所述疏轴点对应的多个候选锚点，并计算各锚点评分，得分最小的锚点作为合并基点；

基于所述合并基点合并两个文本块，将各行依次顺序对齐。

进一步地，所述锚点评分为，基于当前选择的锚点对两个文本块的各行进行顺序对应，计算两个文本块所有合并行评分的平均值即为锚点得分，所述合并行评分为，两个文本块中相对应的两行合并时，将两行包含的多个文本框按文本框中心点横坐标顺序排序，并计算相互有交叉的相邻的两个文本框的聚类距离的平均值作为合并行评分。

进一步地，聚类距离为两个文本框中心点纵坐标的差值的绝对值以及所述差值的绝对值与行间距的比值的余数。

根据本发明的第二方面，提出了一种基于迭代聚类处理OCR识别结果的文本对齐系统，所述系统包括：

OCR识别模块，用于对待处理图片进行OCR识别，获取多个文本框以及各文本框文本信息；

文本块组合模块，用于对得到的多个文本框进行距离计算和聚类，将满足预设距离范围的且距离最小的文本框合并为文本块，对得到的文本块通过多轮迭代聚类将满足预设距离范围的且距离最小的文本块进行合并以及文本对齐，得到多个组合后的文本块；

文本块合并模块，用于对得到的多个文本块进行两两比对判断是否存在纵向交叠，对交叠长度最大的两个文本块进行合并以及文本对齐，通过多轮迭代合并文本块直至不再有交叠的文本块，对于不交叠的文本块，根据各文本块的上下位置关系依次连接合并得到最终文本对齐结果。

根据本发明的第三方面，提出了一种计算机存储介质，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于被一种基于迭代聚类处理OCR识别结果的文本对齐系统执行如上任一项所述的方法。

本发明具有如下优点：

本发明提出的一种基于迭代聚类处理OCR识别结果的文本对齐方法及系统，用了文本扭曲中近距离扭曲产生问题更小，远距离扭曲产生问题更大的特点，优先依次把最容易确定的文本框间行列关系确定，对距离比较远的文本框之间关系的确定使用多个文本框组合后的全局统计关系来进行确定，做到了全局最优解决扭曲问题。该方法实际操作中，控制了候选文本框的搜索范围，保证最优纠偏效果的同时，获得了较低的计算复杂度。相对于以图像处理技术解决矫正畸变，具有计算复杂度低、自适应性好、算法效果高等特点。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引申获得其他的实施附图。

图1为本发明实施例1提供的一种基于迭代聚类处理OCR识别结果的文本对齐方法的流程示意图；

图2文本行/列无法对应的OCR识别结果示意图；

图3为本发明实施例1提供的一种基于迭代聚类处理OCR识别结果的文本对齐方法的整体实施流程示意图；

图4为本发明实施例1提供的一种基于迭代聚类处理OCR识别结果的文本对齐方法的组合成文本块过程中聚类距离、合并基点示意图；

图5为本发明实施例1提供的一种基于迭代聚类处理OCR识别结果的文本对齐方法的组合成文本块过程示意图；

图6为本发明实施例1提供的一种基于迭代聚类处理OCR识别结果的文本对齐方法的组合成文本块过程中文本块合并以及文本对齐示意图；

图7为本发明实施例1提供的一种基于迭代聚类处理OCR识别结果的文本对齐方法的文本块合并过程示意图；

图8为本发明实施例1提供的一种基于迭代聚类处理OCR识别结果的文本对齐方法的文本块合并过程中文本块纵向交叠示意图；

图9为本发明实施例1提供的一种基于迭代聚类处理OCR识别结果的文本对齐方法的文本块合并过程中疏轴点、锚点示意图；

图10为本发明实施例1提供的一种基于迭代聚类处理OCR识别结果的文本对齐方法的文本块合并过程中合并行评分计算示意图；

图11为本发明实施例1提供的一种基于迭代聚类处理OCR识别结果的文本对齐方法的文本块合并过程中不交叠的文本块上下连接合并示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

一般文本OCR的处理流程如下：图像预处理－文件检测－文本识别－文本结构化。一般来说，OCR的结果产生两部分内容：文本框(矩形框)和文字内容。对于一个正常的无扭曲的文字图片识别结果来说，只使用文本框之间的位置关系，比如：垂直中心点的距离，既可以判断是否在一个行以内；水平中心点的距离既可以判断文本框之间的前后关系。但是对于一个扭曲问题的图片来讲，如图2所示，这样处理显然是会出现很大偏差，原因有以下三点：

1对于水平梯形扭曲的图像，前面的文字框很容易对应到尾部的其他行；

2垂直梯形扭曲的图像，首行的扭曲比例跟尾行的扭曲差距很大；

3.水平梯形与垂直梯形综合影响使得页面上的扭曲区域很难预测

3页面的褶皱，很难找到同一个文字图像内各个区域之间的扭曲程度和扭曲规律。

本实施例提出的一种基于迭代聚类处理OCR识别结果的文本对齐方法，将扭曲问题转化成OCR识别结果文本框之间的对齐问题：

假设原始未受到扭曲的文本是都是以文字信息出现，每行的所有文字在同一水平线，行间距变化从上至下具有一定的规律性。这些假设符合大部分印刷体文本；

其次，根据扭曲的变化规律分析，文本框距离越近，其位置关系越接近原始本文本来的位置状况，被扭曲而影响的因素更小；局部区域越小，其平均页面变形曲率更贴近真实变形曲率，即外界因素对原始位置影响就越小；

最后，多个框的位置综合来确定文本框位置关系的效果要好于单个框之间的效果，也是因为多个框综合可以平衡掉单个框的局部异常。

具体的，如图1所示，本实施例提出的一种基于迭代聚类处理OCR识别结果的文本对齐方法，借助OCR识别结果进行畸变恢复，并利用文本自身的原始行列相关信息来完成，从而达到了文字对齐的目标，具体包括：

S100、对待处理图片进行OCR识别，获取多个文本框以及各文本框文本信息。

文本框：OCR识别结果集是以文本框的形式存在，每个页面有多个文本框，包含四个点的坐标和文字信息。

如图3所示，以票据图片为例，该方法主要的处理过程可以概括为：处理局部文本关系的组合成文本块过程；处理大范围多个文本框位置关系的文本块合并过程；最后输出文本对齐结果。

S200、对得到的多个文本框进行距离计算和聚类，将满足预设距离范围的且距离最小的文本框合并为文本块，对得到的文本块通过多轮迭代聚类将满足预设距离范围的且距离最小的文本块进行合并以及文本对齐，得到多个组合后的文本块。

本实施例中，组合成文本块是采用全局迭代聚类方法，将具体可靠的位置信息按可靠程度优先依次多轮迭代组合，最终形成将文本框组合成多个文本块，直到文本块数量不再减少，迭代截止。

组合成文本块过程流程如下：

1、文本组合过程采用多轮迭代聚类方式，输入数据为OCR识别结果的坐标框。每轮全局扫描全部上一轮获得的本文块集合，进行聚类分组。

2、第一轮扫描，对每个文本框周边的所有文本框进行聚类距离计算，取距离最近的两个文本框组成文本框组，即文本块。未找到合适的文本框进行组合的时候，单独一个文本框构成一个文本块。

3、以后每轮计算前一轮文本块之间的距离关系，将最近距离的文本块进行合并。具体为，将第一文本块中的所有文本框与第二文本块中的所有文本框分别两两计算两个文本框的距离，将得到的距离值中的最小值作为两个文本块的距离值；每轮迭代过程中，计算每个文本块与其周边的候选文本块集之间的距离值，并获取距离最小的文本块对进行合并。

4、通过多轮跌迭代，最终获得整个文本框的位置关系。

本实施例中，如图4所示，文本块：一个或一个以上的文本框组合，包含量相对行列顺序信息；

聚类距离：两个文本框之间的距离，包括，文本框中心点的纵坐标差值绝对值，可见，这个数值越小，越接近同行；这个数值与行间距的比值的余数，余数决定了是否是下一行(或上一行)。根据文档形式的差异，聚类距离有一个范围限制，超过了一定的范围(比如：两行或10个汉字)聚类距离，其判定可靠性变弱。

合并基点：两个文本块合并的相对应的行，即从哪个行进行对应合并。

为了实现组合成文本块的方法，如图5所示，设计以下内容：

包含一个评估器，其作用是获取任意两个文本框的聚类距离；

包含一个选择器，根据评估器结果，从多个候选文本框中，选取最优的一个(聚类距离最小)，获得最优文本对，给组装器用户合成文本块，获得最优文本对对应的行也作为合并基点；

包含一个组装器，将新的一个文本块(或本文框)与另一个文本块(或文本框)合并，并确定对新组成的文本块进行行/列排序，具体为，基于合并基点将各行依次顺序对齐，如图6所示，将合并得到的新的文本块内的各列按各个文本框中心点的横坐标顺序排序；

包含一个迭代器，有两个作用：1、发起迭代轮次和结束迭代；2、获取任意某个文本框作为质心，选取周边范围的文本框即文本框候选集，启动评估器进行两两对比评估，启动选择器进行聚类评优。一个合适的文本框搜索范围可以有效地降低算法的复杂度。

S300、对得到的多个文本块进行两两比对判断是否存在纵向交叠，对交叠长度最大的两个文本块进行合并以及文本对齐，通过多轮迭代合并文本块直至不再有交叠的文本块，对于不交叠的文本块，根据各文本块的上下位置关系依次连接合并得到最终文本对齐结果。

通过组合成文本块的过程的操作，原文内已不再有可用的局部可靠信息，仍然有多个文本块没有合并成一个完整文本，这些文本块之间大多因为距离较远，相互之间没有交叉或贴近的文本框；或者由于OCR的检测/识别缺失，使得原有的文本块之间难于毗邻。文本块的合并过程正是使用文本块之间的大范围综合信息来解决这些文本块之间的合并问题。

文本块合并用于计算文本块直接的交叠关系，包括是否有交叠；有交叠的话确定其交叠关系的合并基点；以及不交叠的上下关联关系。

为了实现文本块合并的方法，如图7所示，设计以下内容：

包含一个文本块评估器，评估两个文本块是否存在纵向交叠，并给出交叉的最优得分；

包含一个交叠控制器：控制文本块之间的比对，本算法采用两两比对，进行合并，直到在没有需要合并的文本块；

包含一个交叠计算器：判断两个文本块是否有交叠，由于所有文本块均为连续有序的文本框组合，很容易确定其组成文本块的矩形体的矩形坐标，使用文本块矩形体的坐标的纵坐标重合长度作为评分，显然，评分越高交叠范围越大，如图8所示；

交叠组合器：计算两个有交叠的文本块之间的各个锚点评分，获得合并基点，具体如下：

首先，确定疏轴点，将有交叠的文本块比较低(右上坐标点纵坐标小)的一个文本块的第一行作为疏轴点；

其次，以疏轴点为核心，找到对应文本块最近的一行(对应行的纵坐标差值绝对值最小)，向上取两行向下取三行，获得5个候选锚点，计算锚点评分，得到最优锚点，获得合并基点；

最后，以合并基点为基础，将两个文本块对应合并成一个，将各行依次顺序对齐。

本实施例中，如图9所示，疏轴点：文本块的第一行。

锚点：与疏轴点对应的交叠文本块对应行。对应行可以有很多种选择，每种选择作为一个候选出现一个锚点。

锚点评分为，锚点与疏轴点对应后，文本块各行之间的对应关系就确定了，基于当前选择的锚点对两个文本块的各行进行顺序对应，计算两个文本块所有合并行评分的平均值即为锚点得分，合并行评分为，两个文本块中相对应的两行合并时，将两行包含的多个文本框按文本框中心点横坐标顺序排序，并计算相互有交叉的相邻的两个文本框的聚类距离的平均值作为合并行评分，如图10所示。

正常情况下，文本框构成的文本块，基本都在同一个区域，中间没有空洞或缺失；然而由于页面扭曲等因素，改变了原来几何关系，使用聚类距离的迭代计算，必然优先识别更接近的距离关系，产生了文本块合并行的“犬牙交互”现象，即互相交叉(这种情况比较少，但是存在的，而最常见的情况是前后相邻，这样，交叉的情况只有一种，就是前面连接后面)。

该方法的整体实施过程也分成两个功能过程，即组合成文本块的过程和文本块合并过程，具体如下：

1、数据准备；所有本文框的中心点坐标为(x，y)，按照1.5倍行间距，获得每个点的评分值：Value＝y+x*1.5/总行宽，进行全排序。用于迭代控制器使用。

2、迭代控制器调用组装器，组装器将所有初始文本框每一个作为一个文本组合集，完成首轮组装器功能。

3、迭代控制器遍历所有文本块，将文本块的某个文本框与其他文本块内的文本框进行对比，对比方法是用选择器，获得最优文本组合。考虑到复杂度，迭代控制器会针对当前文本块的位置判断作为候选文本组合的范围。

4、选择器用于获得两对文本块的聚类距离，将获得的最优结果(最优文本框对)传递给组装器。

5、组装器，有两个功能：其一，初始将所有文本框组成文本块，其二，将两个文本块并成一个文本块。组装器最后将获得某个文本块内的全部文本框的行列顺序。

6、完成一轮遍历后，如果新的文本组合集数量有增加，继续步骤三，进行新一轮迭代，如果没有增加，即完成组合成文本块的过程。进入步骤7。

7、文本块合并过程是一个迭代过程，每轮将对文本块两两对比，获得交叠长度。每轮选取交叠长度最大的文本块对做文本块合并，获得新的文本块。直到不存在有重叠的文本块。

8、将不交叠的文本块按照上下位置关系链接起来，构成一个文本块，如图11所示。

实施例2

与上述实施例1相对应的，本实施例提出了一种基于迭代聚类处理OCR识别结果的文本对齐系统，该系统包括：

本发明实施例提供的一种基于迭代聚类处理OCR识别结果的文本对齐系统中各部件所执行的功能均已在上述实施例1中做了详细介绍，因此这里不做过多赘述。

实施例3

与上述实施例相对应的，本实施例提出了一种计算机存储介质，计算机存储介质中包含一个或多个程序指令，一个或多个程序指令用于被一种基于迭代聚类处理OCR识别结果的文本对齐系统执行如实施例1的方法。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于迭代聚类处理OCR识别结果的文本对齐方法，其特征在于，所述方法包括：

对得到的多个文本块进行两两比对判断是否存在纵向交叠，对交叠长度最大的两个文本块进行合并以及文本对齐，通过多轮迭代合并文本块直至不再有交叠的文本块，对于不交叠的文本块，根据各文本块的上下位置关系依次连接合并得到最终文本对齐结果；

对得到的多个文本框进行距离计算和聚类，将满足预设距离范围的且距离最小的文本框合并为文本块，具体包括：对每个文本框与其周边的候选文本框集进行聚类距离计算，获取聚类距离最小的接近同行或同列的文本框对并组合成文本块，每个文本块包括至少一个矩形的文本框；

对得到的文本块通过多轮迭代聚类将满足预设距离范围的且距离最小的文本块进行合并以及文本对齐，具体包括：将第一文本块中的所有文本框与第二文本块中的所有文本框分别两两计算两个文本框的距离，将得到的距离值中的最小值作为两个文本块的距离值；每轮迭代过程中，计算每个文本块与其周边的候选文本块集之间的距离值，并获取距离最小的文本块对进行合并；

对得到的文本块通过多轮迭代聚类将满足预设距离范围的且距离最小的文本块进行合并以及文本对齐，具体包括：两个文本块合并时，获取两个文本块相对应的行作为合并基点，基于所述合并基点将各行依次顺序对齐，将合并得到的新的文本块内的各列按各个文本框中心点的横坐标顺序排序；

对得到的多个文本块进行两两比对判断是否存在纵向交叠，具体包括：根据两个文本块的矩形框顶点的纵坐标范围判断是否存在交集，确定两个文本块是否存在纵向交叠；

对交叠长度最大的两个文本块进行合并以及文本对齐，具体包括：

基于所述合并基点合并两个文本块，将各行依次顺序对齐；

所述锚点评分为，基于当前选择的锚点对两个文本块的各行进行顺序对应，计算两个文本块所有合并行评分的平均值即为锚点得分，所述合并行评分为，两个文本块中相对应的两行合并时，将两行包含的多个文本框按文本框中心点横坐标顺序排序，并计算相互有交叉的相邻的两个文本框的聚类距离的平均值作为合并行评分；

聚类距离为两个文本框中心点纵坐标的差值的绝对值以及所述差值的绝对值与行间距的比值的余数。

2.一种基于迭代聚类处理OCR识别结果的文本对齐系统，其特征在于，所述系统包括：

文本块合并模块，用于对得到的多个文本块进行两两比对判断是否存在纵向交叠，对交叠长度最大的两个文本块进行合并以及文本对齐，通过多轮迭代合并文本块直至不再有交叠的文本块，对于不交叠的文本块，根据各文本块的上下位置关系依次连接合并得到最终文本对齐结果；

基于所述合并基点合并两个文本块，将各行依次顺序对齐；

3.一种计算机存储介质，其特征在于，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于被一种基于迭代聚类处理OCR识别结果的文本对齐系统执行如权利要求1所述的方法。