CN117237960A

CN117237960A - 一种文本校正方法、计算机可读存储介质

Info

Publication number: CN117237960A
Application number: CN202310995486.6A
Authority: CN
Inventors: 黄淦; 杨洋; 黄涛; 翟爱亭; 郭家元
Original assignee: Shenzhen Huahan Weiye Technology Co ltd
Current assignee: Shenzhen Huahan Weiye Technology Co ltd
Priority date: 2023-08-08
Filing date: 2023-08-08
Publication date: 2023-12-15

Abstract

一种文本校正方法、计算机可读存储介质，通过对文本的旋转角度和倾斜角度进行估计，根据估计的角度对文本图像进行校正，有效减少了因字体打印时旋转和倾斜导致的字符误分割、误识别的情况，提高对文本图像进行字符识别的准确率。在进行旋转角度的估计时，首先根据文本图像得到字符块初步检测图像和背景估计图像，基于图像差分计算得到字符块检测图像，使得检测到的字符块更准确；之后对旋转角度进行由粗到精的估计，使得估计所得的旋转角度的精确度得到提升。在进行倾斜角度估计时，首先进行旋转校正后再进行倾斜角度的估计，从而获得更为准确的倾斜角度估计值。

Description

一种文本校正方法、计算机可读存储介质

技术领域

本申请涉及图像处理技术领域，具体涉及一种文本校正方法、计算机可读存储介质。

背景技术

近些年视觉识别在各个行业应用越来越广，字符识别就是其中一种重要的场景。一般的字符识别方法通常有字符分割与字符识别两个阶段，但是实际应用场景中存在背景图案干扰、字体打印时旋转和倾斜等因素，一般的字符识别方法在面对上述场景时经常存在字符误分割、误识别的情况。因此，有必要对进行字符识别的文本图像进行处理，以提高后续字符识别的准确率。

发明内容

本申请主要解决的技术问题是提高文本图像进行字符识别的准确率。

根据第一方面，一种实施例中提供一种文本校正方法，包括：

获取文本图像；

根据所述文本图像计算得到字符块初步检测图像和背景估计图像，根据所述字符块初步检测图像和所述背景估计图像，基于图像差分计算得到字符块检测图像；

获取所述文本图像的旋转角度初始估计值，基于所述旋转角度初始估计值确定第二角度范围；

根据所述第二角度范围内多个旋转角度值的灰度投影结果形成一目标函数曲线，得到第二目标函数曲线；其中每个旋转角度值的灰度投影过程包括：根据该旋转角度值生成采样点阵列从而对所述字符块检测图像采样获得灰度投影结果；

计算所述第二目标函数曲线的亚像素极大值点对应的角度值，作为旋转角度精确估计值；

根据所述旋转角度精确估计值对所述文本图像进行旋转校正；

将所述文本图像或缩小后的所述文本图像作为倾斜估计图像，提取所述倾斜估计图像中的字符边缘区域和梯度幅角图像；

对所述梯度幅角图像中与所述字符边缘区域对应的区域进行直方图统计以得到梯度幅角直方图，对所述梯度幅角直方图进行平滑处理以得到梯度幅角曲线，计算所述梯度幅角曲线的亚像素极大值点，作为倾斜角度估计值；

根据所述倾斜角度估计值对所述文本图像进行倾斜校正。

一种实施例中，所述根据所述文本图像计算得到字符块初步检测图像和背景估计图像，包括：对所述文本图像进行形态学处理，以根据所述文本图像中的字符生成字符块而得到所述字符块初步检测图像，并获取所述背景估计图像。

一种实施例中，所述对所述文本图像进行形态学处理，以根据所述文本图像中的字符生成字符块而得到所述字符块初步检测图像，并获取所述背景估计图像，包括：

对所述文本图像进行第一形态学处理，以根据所述文本图像中的字符生成字符块，从而得到字符块初步检测图像；

对所述字符块初步检测图像进行缩小得到缩小图像；

对所述缩小图像进行第二形态学处理以得到所述背景估计图像；

所述基于图像差分计算得到字符块检测图像包括：将所述缩小图像减去所述背景估计图像得到所述字符块检测图像。

一种实施例中，所述灰度腐蚀处理的模板宽度为max(3.0,H_c/8.0)，对所述字符块初步检测图像进行缩小时的缩小比例为8.0/H_c，其中H_c为预设的字符像素高度。

一种实施例中，所述第一形态学处理为灰度腐蚀处理；所述对所述缩小图像进行第二形态学处理以得到所述背景估计图像，包括：对所述缩小图像进行中值滤波得到中值滤波图像，对所述中值滤波图像进行灰度闭操作得到灰度闭操作图像，将所述灰度闭操作图像作为所述背景估计图像。

一种实施例中，所述灰度闭操作的模板大小为

max(5.0,0.5×max(3.0,H_c/8.0))×2|1，

其中H_c为预设的字符像素高度，|表示二进制或运算。

一种实施例中，所述获取所述文本图像的旋转角度初始估计值包括：

获取预设的第一角度范围，根据所述第一角度范围内多个旋转角度值的灰度投影结果形成一目标函数曲线，得到第一目标函数曲线；其中每个旋转角度值的灰度投影过程包括：根据该旋转角度值生成采样点阵列从而对所述字符块检测图像采样获得灰度投影结果；

计算所述第一目标函数曲线的亚像素极大值点对应的角度值，作为旋转角度初始估计值。

一种实施例中，所述第一角度范围内的多个旋转角度值按以下方式获取：按第一角度步长在所述第一角度范围内读取角度值作为旋转角度值以得到所述第一角度范围内的多个旋转角度值。

一种实施例中，所述第一角度步长由以下表达式确定：

其中S_min和S_max分别表示所述第一角度范围的角度下限值和角度上限值，round()表示四舍五入运算。

一种实施例中，所述第二角度范围内的多个旋转角度值按以下方式获取：按第二角度步长在所述第二角度范围内读取角度值作为旋转角度值以得到所述第二角度范围内的多个旋转角度值；其中，所述第二角度范围小于所述第一角度范围，所述第二角度步长小于所述第一角度步长。

一种实施例中，所述根据该旋转角度值生成采样点阵列从而对所述字符块检测图像采样获得灰度投影结果包括：

以该旋转角度值对应的方向为投影方向，以与投影方向正交的方向为遍历方向，在投影方向上以第一步长、在遍历方向上以第二步长在所述文本图像上生成采样点从而得到所述采样点阵列；

计算每个采样点的灰度值；

对所述采样点阵列进行投影方向上的灰度投影，获得灰度投影结果。

一种实施例中，采样点的灰度值由以下表达式确定：

其中w₁、w₂、w₃和w₄为采样权重系数，(x,y)表示采样点的坐标，g(x,y)表示采样点的灰度值，和/>分别表示所述文本图像上坐标分别为/>和/>的像素点的灰度值。

一种实施例中，所述根据所述第一角度范围内多个旋转角度值的灰度投影结果形成一目标函数曲线，得到第一目标函数曲线，包括：对于所述第一角度范围内的每个旋转角度值，计算其灰度投影的差分平方和作为其目标函数值，基于所述第一角度范围内所有旋转角度值及其目标函数值形成所述第一目标函数曲线；

所述根据所述第二角度范围内多个旋转角度值的灰度投影结果形成一目标函数曲线，得到第二目标函数曲线，包括：对于所述第二角度范围内的每个旋转角度值，计算其灰度投影的差分平方和作为其目标函数值，基于所述第二角度范围内所有旋转角度值及其目标函数值形成所述第二目标函数曲线。

一种实施例中，所述提取所述倾斜估计图像中的字符边缘区域和梯度幅角图像包括：

对所述倾斜估计图像进行均值滤波得到均值滤波图像；

对所述均值滤波图像使用第一边缘提取滤波器进行处理得到第一梯度图像和第一梯度幅角图像；

采用第一二值化阈值对所述第一梯度图像进行二值化以获取所述倾斜估计图像的第一字符边缘区域，其中所述第一字符边缘区域为所述倾斜估计图像中，与所述第一梯度图像中灰度值大于所述第一二值化阈值的区域对应的区域；

对所述均值滤波图像使用第二边缘提取滤波器进行处理得到第二梯度图像和第二梯度幅角图像；

采用第二二值化阈值对所述第二梯度图像进行二值化以获取所述倾斜估计图像的第二字符边缘区域，其中所述第二字符边缘区域为所述倾斜估计图像中，与所述第二梯度图像中灰度值大于所述第二二值化阈值的区域对应的区域；

求所述倾斜估计图像的第一字符边缘区域和第二字符边缘区域的交集得到所述倾斜估计图像最终的字符边缘区域；

将所述第一梯度幅角图像和所述第二梯度幅角图像中的任一个作为所述倾斜估计图像的梯度幅角图像。

一种实施例中，所述均值滤波的滤波核大小为1×N，其中N为预设的滤波核宽度。

一种实施例中，所述第一二值化阈值为1.4×G₁，所述第二二值化阈值为1.4×G₂，其中G₁表示所述第一梯度图像的标准差，G₂表示所述第二梯度图像的标准差。

根据第二方面，一种实施例中提供一种计算机可读存储介质，所述介质上存储有程序，所述程序能够被处理器执行以实现上述任一实施例的文本校正方法。

依据上述实施例的文本校正方法，对文本的旋转角度和倾斜角度进行估计，根据估计的角度对文本图像进行校正，能够有效减少因字体打印时旋转和倾斜导致的字符误分割、误识别的情况，提高对文本图像进行字符识别的准确率。并且在进行完旋转校正后再进行倾斜角度的估计，有利于获得更为准确的倾斜角度估计值。在进行旋转角度的估计时，首先根据文本图像得到字符块初步检测图像和背景估计图像，基于图像差分计算得到字符块检测图像，使得字符块的检测免于受到背景噪声的干扰从而更加准确；之后对旋转角度进行由粗到精的估计，在精估计的过程中根据旋转角度值生成采样点阵列从而对字符块检测图像采样获得灰度投影结果，根据第二角度范围内多个旋转角度值的灰度投影结果得到第二目标函数曲线，计算第二目标函数曲线的亚像素极大值点对应的角度值作为旋转角度精确估计值，从而在减少计算量的同时，使得估计所得的旋转角度的精确度得到极大提升。在进行倾斜角度的估计时，将文本图像或缩小后的文本图像作为倾斜估计图像，提取倾斜估计图像中的字符边缘区域和梯度幅角图像，对梯度幅角图像中与字符边缘区域对应的区域进行直方图统计得到梯度幅角直方图，根据梯度幅角直方图得到梯度幅角曲线，将梯度幅角曲线的亚像素极大值点作为倾斜角度估计值，也使倾斜角度的精确度大大提高。

附图说明

图1为一种实施例的文本校正方法的流程图；

图2为文本图像旋转的示意图；

图3为文本倾斜的示意图；

图4为一种实施例中对文本图像进行形态学处理获得字符块初步检测图像和背景估计图像的流程图；

图5为一种实施例中获取文本图像的旋转角度初始估计值的流程图；

图6为一种实施例中根据旋转角度值生成采样点阵列从而对字符块检测图像采样获得灰度投影结果的流程图；

图7为生成采样点阵列从而对字符块检测图像采样获得灰度投影结果的示意图；

图8为一种实施例中提取倾斜估计图像中的字符边缘区域和梯度幅角图像的流程图；

图9为一种实施例的文本行字符识别步骤的流程图；

图10为一种实施例中一文本行建立的初始结构图模型；

图11为一种实施例中计算距离阈值T的流程图；

图12为对图10所示的初始结构图模型划分后得到的子图模型；

图13为一种实施例中根据一文本结构信息构建的标准结构图模型；

图14为一种实施例中在子图模型中匹配标准结构图模型的同构图的流程图；

图15为一种实施例中与相连的其中一条边无法在与/>相连的边中找到方向一致的边的情况；

图16为与相连的边和与/>相连的边完全匹配的情形的示意图；

图17为与相连的边和与/>相连的边并不完全匹配的情形的示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本文中为部件所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。而本申请所说“连接”、“联接”，如无特别说明，均包括直接和间接连接(联接)。

请参考图1，本申请一种实施例中的文本校正方法包括步骤100～900，下面具体说明。

步骤100：获取文本图像。可以理解，文本图像上存在由字符组成的文本，这些字符包括但不限于数字、中英文字符和标点符号等。

步骤200：根据文本图像计算得到字符块初步检测图像和背景估计图像，根据字符块初步检测图像和背景估计图像，基于图像差分计算得到字符块检测图像。

本步骤主要是根据文本图像中的字符生成字符块，例如一个“日”字可以生成一个类似于方块■的区域，从而得到字符块检测图像，字符块检测图像能够保留并凸显字符大致的位置。为了能更准确地检测字符块，本申请采用差分方法来获取字符块检测图像，具体地，首先根据文本图像采用一些图像处理方法检测字符块，得到字符块初步检测图像和背景估计图像，然后进行差分运算，例如用字符块初步检测图像减去背景估计图像，得到字符块检测图像，这里的背景是指字符块的背景。

步骤300：获取文本图像的旋转角度初始估计值，基于旋转角度初始估计值确定第二角度范围。

文本图像的旋转角度是指文本图像相对于正常状态旋转的角度。请参考图2，通常正常状态下文本呈水平排列，旋转一定角度后则呈图2右图所示状态，所转过的角度就是文本图像的旋转角度。本申请对文本图像的旋转角度进行估计，在获得文本图像的旋转角度后即可据此进行旋转校正。

文本图像的旋转角度初始估计值可以是根据经验预设的数值，也可以是采用现有的旋转角度估计方法估计得到的旋转角度值。第二角度范围可以是包括旋转角度初始估计值的一个预设大小的角度范围，例如可以是旋转角度初始估计值的预设大小的邻域。由于旋转角度初始估计值已是经过初步估计的结果，为了进一步做更精确的估计，可以将第二角度范围设得较小。

步骤400：根据第二角度范围内多个旋转角度值的灰度投影结果形成一目标函数曲线，得到第二目标函数曲线；其中每个旋转角度值的灰度投影过程包括：根据该旋转角度值生成采样点阵列从而对字符块检测图像采样获得灰度投影结果。

具体地，首先在第二角度范围内任意选取或者按一定规则选取多个旋转角度值，对每个旋转角度值进行灰度投影，根据灰度投影结果计算得到目标函数值，基于所选取的多个旋转角度值的目标函数值形成一目标函数曲线，得到第二目标函数曲线。在灰度投影的过程中，根据旋转角度值生成的采样点阵列对字符块检测图像采样得到采样点的灰度值，利用采样点的灰度值计算灰度投影结果，如此便减小了计算量。

一些实施例中，目标函数值表示灰度投影的正交方向上的灰度差异程度，可以是灰度投影的差分平方和，此时根据第二角度范围内多个旋转角度值的灰度投影结果形成一目标函数曲线，得到第二目标函数曲线，包括：对于第二角度范围内的每个旋转角度值，计算其灰度投影的差分平方和作为其目标函数值，基于第二角度范围内所有旋转角度值及其目标函数值形成第二目标函数曲线。

步骤500：计算第二目标函数曲线的亚像素极大值点对应的角度值，作为旋转角度精确估计值。

一种实施例中，计算第二目标函数曲线的亚像素极大值点对应的角度值具体可以是对第二目标函数曲线进行平滑处理然后进行插值求得第二目标函数曲线的亚像素极大值点，之后获取该亚像素极大值点对应的角度值。其中平滑处理可以采用高斯平滑或者均值平滑等，插值可以采用抛物线插值或者拉格朗日插值法等。

本申请先对旋转角度进行初步的估计得到旋转角度初始估计值，之后根据旋转角度初始估计值确定一个较小的角度范围，进一步做更精确的估计，通过这种由粗到精的估计，提高了旋转角度估计的精确度。

步骤600：根据旋转角度精确估计值对文本图像进行旋转校正。

步骤700：将文本图像或缩小后的文本图像作为倾斜估计图像，提取倾斜估计图像中的字符边缘区域和梯度幅角图像。

将缩小后的文本图像作为倾斜估计图像是为了减少计算量，缩小比例可根据实际需要设置，一个实施例是40/H_c。本领域技术人员可以理解，字符边缘区域和梯度幅角图像可以通过各种边缘提取滤波器进行提取，如Roberts滤波器、Canny滤波器等，在此不再赘述。

步骤800：对梯度幅角图像中与字符边缘区域对应的区域进行直方图统计以得到梯度幅角直方图，对梯度幅角直方图进行平滑处理以得到梯度幅角曲线，计算梯度幅角曲线的亚像素极大值点，作为倾斜角度估计值。

这里的极大值点可以是亚像素极大值点以提高精度，可以通过对平滑处理后的梯度幅角曲线进行插值求得亚像素极大值点。其中平滑处理可以采用高斯平滑或者均值平滑等，插值可以采用抛物线插值或者拉格朗日插值法等。

请参考图3，文本倾斜时呈现出的是类似于斜体字的状态，影响字符的正确识别，本步骤所获得的倾斜角度估计值就是对文本倾斜角度的估计，在获得文本倾斜角度后即可据此进行倾斜校正。

步骤900：根据倾斜角度估计值对文本图像进行倾斜校正。

本申请是在进行完旋转校正后再进行倾斜角度的估计，可以理解，这使得获得的倾斜角度估计值更准确。

一些实施例中，上述步骤200中根据文本图像计算得到字符块初步检测图像和背景估计图像，具体可以是对文本图像进行形态学处理，以根据文本图像中的字符生成字符块而得到字符块初步检测图像，并获取背景估计图像。形态学处理指灰度腐蚀、灰度膨胀、灰度开/闭操作等，这里的形态学处理可以包括其中的一种或多种。请参考图4，一种实施例中对文本图像进行形态学处理，以根据文本图像中的字符生成字符块而得到字符块初步检测图像，并获取背景估计图像的流程包括步骤210～230。

步骤210：对文本图像进行第一形态学处理，以根据文本图像中的字符生成字符块，从而得到字符块初步检测图像。一种实施例中，第一形态学处理为灰度腐蚀处理，灰度腐蚀处理的模板宽度可以为max(3.0,H_c/8.0)，其中H_c为预设的字符像素高度。

步骤220：对字符块初步检测图像进行缩小得到缩小图像。这里通过对字符块初步检测图像进行适当缩小减少计算量，缩小时的缩小比例可以为8.0/H_c。

步骤230：对缩小图像进行第二形态学处理以得到背景估计图像。第二形态学处理的目的是滤除缩小图像中的字符块，留下非字符部分，即背景部分，以便后面进行差分滤除非字符的干扰。

一种实施例中，步骤230包括：对缩小图像进行中值滤波得到中值滤波图像，对中值滤波图像进行灰度闭操作得到灰度闭操作图像，将灰度闭操作图像作为背景估计图像。其中中值滤波模板大小可以为3×3，灰度闭操作的模板大小可以为max(5.0,0.5×max(3.0,H_c/8.0))×2|1，其中|表示二进制或运算，即将左右两边的数值转换为二进制数进行或运算。本实施例通过中值滤波、灰度闭操作等处理有利于去除缩小图像中的噪声，获得更准确的背景估计图像。

在图4所示实施例的基础上，基于图像差分计算得到字符块检测图像具体为将缩小图像减去背景估计图像得到字符块检测图像。

一些实施例中，为了获取更准确的旋转角度初始估计值及减少计算量，步骤300中的旋转角度初始估计值也可以采用类似步骤400～500的方法计算，请参考图5，该实施例中获取旋转角度初始估计值的流程包括步骤310～320，下面具体说明。

步骤310：获取预设的第一角度范围，根据第一角度范围内多个旋转角度值的灰度投影结果形成一目标函数曲线，得到第一目标函数曲线；其中每个旋转角度值的灰度投影过程包括：根据该旋转角度值生成采样点阵列从而对字符块检测图像采样获得灰度投影结果。

具体地，首先在第一角度范围内任意选取或者按一定规则选取多个旋转角度值，对每个旋转角度值进行灰度投影，根据灰度投影结果计算得到目标函数值，基于所选取的多个旋转角度值的目标函数值形成一目标函数曲线，得到第一目标函数曲线。在灰度投影的过程中，根据旋转角度值生成的采样点阵列对字符块检测图像采样得到采样点的灰度值，利用采样点的灰度值计算灰度投影结果。其中第一角度范围可以取得较大。

一些实施例中，目标函数值是灰度投影的差分平方和，此时根据第一角度范围内多个旋转角度值的灰度投影结果形成一目标函数曲线，得到第一目标函数曲线，包括：对于第一角度范围内的每个旋转角度值，计算其灰度投影的差分平方和作为其目标函数值，基于第一角度范围内所有旋转角度值及其目标函数值形成第一目标函数曲线。

一些实施例中，第一角度范围内的多个旋转角度值按以下方式获取：按第一角度步长在第一角度范围内读取角度值作为旋转角度值从而得到第一角度范围内的多个旋转角度值。例如第一角度范围为[0,5]，第一角度步长为1，则读取的多个旋转角度值分别为0、1、2、3、4、5。一种实施例中，第一角度步长由以下表达式确定：

其中S_min和S_max分别表示第一角度范围的角度下限值和角度上限值，round()表示四舍五入运算。

一种实施例中，第二角度范围内的多个旋转角度值也可以按步长选取，即按第二角度步长在第二角度范围内读取角度值作为旋转角度值以得到第二角度范围内的多个旋转角度值。为了实现由粗到精的旋转角度估计，可设置第二角度范围小于第一角度范围，第二角度步长小于第一角度步长。假设旋转角度初始估计值为S_opt，一种实施例中可取第二角度范围为第二角度步长为/>

步骤320：计算第一目标函数曲线的亚像素极大值点对应的角度值，作为旋转角度初始估计值。

一种实施例中，计算第一目标函数曲线的亚像素极大值点对应的角度值具体可以是对第一目标函数曲线进行平滑处理然后进行插值求得第一目标函数曲线的亚像素极大值点，之后获取该亚像素极大值点对应的角度值。其中平滑处理可以采用高斯平滑或者均值平滑等，插值可以采用抛物线插值或者拉格朗日插值法等。

请参考图6，一些实施例中，步骤400和步骤310中根据旋转角度值生成采样点阵列从而对字符块检测图像采样获得灰度投影结果的流程包括步骤10～30，下面具体说明。

步骤10：以该旋转角度值对应的方向为投影方向，以与投影方向正交的方向为遍历方向，在投影方向上以第一步长、在遍历方向上以第二步长在文本图像上生成采样点从而得到采样点阵列。

可以理解，每个旋转角度值对应着一个方向，类似时钟上的时针，当转过90度时是水平方向，转过180度时是竖直方向。一种实施例中，可以以文本图像中心为采样点阵列的中心点来确定采样点。第一步长和第二步长根据实际需要设置，一种实施例中可以设置第一步长为H_c/8.0，第二步长为max(1,H_c/60)。所生成的采样点阵列如图7所示，图中黑色圆点即为采样点。

步骤20：计算每个采样点的灰度值。

采样点的灰度值可以通过采样点附近的像素点的灰度值计算，例如可以是加权平均等。一种实施例中，采样点的灰度值由以下表达式确定：

其中w₁、w₂、w₃和w₄为采样权重系数，使用反距离平方权重系数，也可以使用归一化的双线性系数或高斯权重系数等；(x,y)表示采样点的坐标，g(x,y)表示采样点的灰度值，和/>分别表示文本图像上坐标分别为和/>的像素点的灰度值。

步骤30：对采样点阵列进行投影方向上的灰度投影，获得灰度投影结果。

本领域技术人员可以理解，对采样点阵列进行投影方向上的灰度投影即是计算投影方向上每一行采样点的灰度值的均值，因此灰度投影结果包括投影方向上每一行采样点的灰度值的均值，如图7中灰度投影曲线所示。

本申请一实施例中还提供一种新的提取倾斜估计图像中的字符边缘区域和梯度幅角图像的方法，请参考图8，该实施例中步骤700包括步骤710～770，下面具体说明。

步骤710：对倾斜估计图像进行均值滤波得到均值滤波图像。

为了能准确估计文本的倾斜角度，需要凸显字符上梯度为水平方向的边缘，模糊梯度为竖直方向的边缘，例如对于字符“0”，经过处理后希望其近似于一个括号，因此一种实施例中可以采用长条形的滤波核进行均值滤波，即均值滤波的滤波核大小为1×N，其中N为预设的滤波核宽度，一个实施例是N＝7。

步骤720：对均值滤波图像使用第一边缘提取滤波器进行处理得到第一梯度图像和第一梯度幅角图像。

步骤730：采用第一二值化阈值对第一梯度图像进行二值化以获取倾斜估计图像的第一字符边缘区域，其中第一字符边缘区域为倾斜估计图像中，与第一梯度图像中灰度值大于第一二值化阈值的区域对应的区域。

这里对第一梯度图像进行二值化后获取其中灰度值(表示梯度值大小)大于第一二值化阈值的区域，那么倾斜估计图像中与这一区域对应的区域为第一字符边缘区域。一种实施例中第一二值化阈值为1.4×G₁，其中G₁表示第一梯度图像的标准差，则二值化后获取第一梯度图像中灰度值范围为[1.4×G₁,255]的区域。

步骤740：对均值滤波图像使用第二边缘提取滤波器进行处理得到第二梯度图像和第二梯度幅角图像。

需要说明的是，步骤740和步骤720可以先后执行也可以同时执行。一种实施例中，第一边缘提取滤波器和第二边缘提取滤波器一个为Roberts滤波器，另一个为Canny滤波器。

步骤750：采用第二二值化阈值对第二梯度图像进行二值化以获取倾斜估计图像的第二字符边缘区域，其中第二字符边缘区域为倾斜估计图像中，与第二梯度图像中灰度值大于第二二值化阈值的区域对应的区域。

本步骤请参考步骤730。一种实施例中第二二值化阈值为1.4×G₂，其中G₂表示第二梯度图像的标准差，则二值化后获取第二梯度图像中灰度值范围为[1.4×G₂,255]的区域。

步骤760：求倾斜估计图像的第一字符边缘区域和第二字符边缘区域的交集得到倾斜估计图像最终的字符边缘区域。

步骤770：将第一梯度幅角图像和第二梯度幅角图像中的任一个作为倾斜估计图像的梯度幅角图像。

本实施例采用两种边缘提取滤波器分别提取倾斜估计图像中的字符边缘区域和梯度幅角图像，综合两者的结果得到最终的字符边缘区域和梯度幅角图像，使得提取的字符边缘区域和梯度幅角图像更细化且更准确。

依据上述实施例的文本校正方法，对文本的旋转角度和倾斜角度进行估计，根据估计的角度对文本图像进行校正，有效减少了因字体打印时旋转和倾斜导致的字符误分割、误识别的情况，提高了文本图像中文本存在旋转和倾斜时候字符分割、识别和结构化分析的准确率。

在进行旋转角度的估计时，首先根据文本图像得到字符块初步检测图像和背景估计图像，基于图像差分计算得到字符块检测图像，使得检测到的字符块更准确；并且采用了由粗到精的策略，提高了旋转角度估计的精确度。在估计旋转角度值时，利用了多个旋转角度值的灰度投影结果得到目标函数曲线，计算目标函数曲线的亚像素极大值点对应的角度值作为旋转角度估计值，使得估计所得的旋转角度的精确度得到极大提升。其中进行灰度投影时，根据旋转角度值生成采样点阵列对字符块检测图像采样，根据采样的灰度值获得灰度投影结果，减少了计算量。

在进行倾斜角度的估计时，将文本图像或缩小后的文本图像作为倾斜估计图像，提取倾斜估计图像中的字符边缘区域和梯度幅角图像，对梯度幅角图像中与字符边缘区域对应的区域进行直方图统计得到梯度幅角直方图，根据梯度幅角直方图得到梯度幅角曲线，将梯度幅角曲线的亚像素极大值点作为倾斜角度估计值，也使倾斜角度的精确度大大提高。

本申请一些实施例中，在进行文本校正后，对文本图像进行字符识别，并提出一种文本行字符识别率优化方法，提高字符识别准确率，该实施例中在步骤900之后还包括文本行字符识别步骤，请参考图9，文本行字符识别步骤包括步骤1000～5000，下面具体说明。

步骤1000：对文本图像进行字符分割和字符识别，获得各字符的字符识别数据，字符识别数据至少包括字符识别结果。

字符分割和字符识别可以采用现有技术实现，在此不再赘述。本领域技术人员可以理解，字符分割和字符识别后可以得到字符识别结果，在有的实施例中还可以得到字符分割区域和字符识别分数，因此在一些实施例中字符识别数据也可以包括字符分割区域和字符识别分数，其中字符识别分数表示字符识别结果的置信度。

步骤2000：分别对文本图像的各文本行构建初始结构图模型，其中构建初始结构图模型的步骤包括：顺序遍历当前文本行的所有字符，在遍历过程中以当前字符建立一个节点，节点中记录当前字符的字符识别数据，若在当前字符之前也存在字符，则将所建立的节点与当前字符之前预设个数的字符所在节点建立边，边的方向为当前字符之前的字符所在节点指向所建立的节点。

这里当前文本行指当前正在构建初始结构图模型的文本行，当前字符即当前遍历到的字符。若在当前文本行中，在当前字符之前没有其他字符则无需进行建立边的操作，若存在其他字符则将所建立的节点与当前字符之前预设个数的字符所在节点建立边，这里的预设个数根据实际情况设置。一种实施例中，可以设置若在当前字符之前只有一个字符，则将所建立的节点与此字符所在节点建立边；若在当前字符之前不只一个字符，则将所建立的节点与当前字符的前两个字符所在节点建立边。图10给出了一种实施例中一文本行建立的初始结构图模型。

一些实施例中，边的长度为两个节点的字符之间的距离，当字符识别数据包括字符分割区域时，字符之间的距离为两个字符的字符分割区域的外接矩形的最小距离。

步骤3000：根据分隔字符所在节点将各文本行的初始结构图模型划分为若干子图模型。

分隔字符由用户预先设置，可以包括“/”“\”“\\”“：”等。分隔字符对文本有划分意义，将其作为子图划分的依据之一。此外若边的长度过大则说明此边可能是异常的，因此一种实施例中在根据分隔字符所在节点划分子图模型前，遍历初始结构图模型的所有边，删除长度大于距离阈值T的边，距离阈值T可以根据经验设置或者通过统计等方法获得。请参考图11，本申请一实施例提供一种计算距离阈值T的方法，下面详细说明。

步骤3100：排除文本行中的分隔字符，顺序遍历文本行的所有字符，计算所有的相邻字符之间的距离，得到距离集合其中d_i表示第i个距离值，N表示距离值的总数。

步骤3200：根据距离集合计算字符之间距离的直方图/>其中c表示直方图的总组数，C_j表示第j组的频数。

步骤3300：对直方图进行平滑处理以得到距离曲线，计算距离曲线的亚像素极大值位置p_extrem。其中亚像素极大值可以通过对距离曲线进行插值求得，亚像素极大值位置p_extrem也就是亚像素极大值的横坐标。平滑处理可以采用高斯平滑或者均值平滑等，插值可以采用抛物线插值或者拉格朗日插值法等。

步骤3400：根据距离集合的最小值d_min、标准差d_std和亚像素极大值位置p_extrem计算得到距离阈值T。

可以理解，根据最小值d_min和亚像素极大值位置p_extrem可以获得出现概率最大的距离值，标准差d_std可以衡量数据偏离程度，当数据偏离出现概率最大的距离值达到一定程度时则认为其异常，因此可根据最小值d_min、标准差d_std和亚像素极大值位置p_extrem计算距离阈值T，将长度大于距离阈值T的边视为异常边(也就是偏离程度过大的数据)。

一种实施例中，步骤3200根据距离集合计算字符之间距离的直方图，包括：计算字符之间距离的直方图的量化的最小单位距离/>其中d_max和d_mean分别为距离集合/>的最大值和平均值；然后计算总组数/>并将直方图初始化为0；最后遍历距离集合/>对于每个距离值d_i，计算h_i＝(d_i-d_min)/d_size，将C_hi加1，遍历完成后则得到了最终的直方图。在此实施方式中，距离阈值T由以下公式确定：

T＝d_min+d_size×p_extrem+2×d_std。

一种实施例中，根据分隔字符所在节点将各文本行的初始结构图模型划分为若干子图模型，包括：查找初始结构图模型中分隔字符所在节点，以及与分隔字符所在节点相连的所有节点其中v_i表示与分隔字符所在节点相连的第i个节点，V表示与分隔字符所在节点相连的节点总数；然后删除所有与分隔字符所在节点相连的边，删除/>节点之间最长的边，得到划分后的子图模型。

以图10所示的初始结构图模型为例，划分得到的子图模型如图12所示，为方便说明，将上方的P记为P₁，下方的P记为P₂，左边的2记为2₁，右边的2记为2₂。其中，边P₁-2₁、P₂-2₁和P₂-3的长度大于距离阈值T，因此删除；/是分隔字符，与其相连的节点有2₁、3、0和2₂，因此删除边2₁-/、3-/、/-0和/-2₂，节点2₁、3、0和2₂之间的边有2₁-3、3-0和0-2₂，其中3-0最长，因此也将其删除。最终划分出图12所示的3个子图模型。

步骤4000：接收输入的文本结构信息，根据文本结构信息构建标准结构图模型，文本结构信息包括待匹配文本字符个数n和每个字符的字符类型，标准结构图模型包括n个节点，每个节点只与左右相邻节点存在边，边的方向为左边的节点指向右边的节点，第i个节点记录第i个字符的字符类型，其中n为正整数，字符类型例如可以是数字、大写、小写等，每个字符的字符类型可以是一个集合，集合中包括这个字符允许的各种字符类型。

文本结构信息表示的是结构化文本的信息，利用文本结构信息可以从文本行中匹配出相应的结构化文本。结构化文本指的是某些存在固定格式的文本，比如日期“2023 0605”。标准结构图模型的n个节点对应n个字符，节点的左右顺序可以按照字符在待匹配文本中的顺序排列。在一些实施例中，文本结构信息还包括待匹配文本中每个字符的字符识别分数下限，相应地，标准结构图模型的第i个节点还记录第i个字符的字符识别分数下限。图13给出了一种实施例中根据一文本结构信息构建的标准结构图模型，图中以3个节点为例，但并不代表只能有三个节点。

步骤5000：在子图模型中匹配标准结构图模型的同构图，将该同构图对应的字符作为与文本结构信息匹配的最优字符识别结果。

需要说明的是，对于节点个数小于标准结构图模型节点个数的子图模型，无需进行匹配。在进行图模型的匹配的时候，可以使用VF2等算法。为了提高匹配的准确度，本申请还提供一种新的在子图模型中匹配标准结构图模型的同构图的方法，请参考图14，一实施例中在子图模型中匹配标准结构图模型的同构图的流程包括步骤5100～5700，下面详细说明。

步骤5100：建立一个m×n的矩阵M并将全部元素初始化为1，其中m为子图模型的节点个数，m≥n。

步骤5200：遍历子图模型和标准结构图模型的所有节点，对于子图模型的任一节点和标准结构图模型的任一节点/>判断/>和/>是否满足第一预设条件和/或第二预设条件，若是则执行步骤5300，否则执行步骤5400。

其中第一预设条件指中的字符识别结果不包含于/>中的字符类型，第二预设条件指与/>相连的边的数量小于与/>相连的边的数量或者与/>相连的其中一条边无法在与相连的边中找到方向一致的边，上标i和j分别表示子图模型和标准结构图模型中节点的索引，i∈[0,m-1]，j∈[0,n-1]。对于与/>相连的其中一条边无法在与/>相连的边中找到方向一致的边的情况可参考图15，其中节点B1为/>节点B4为/>与节点B4相连的边中存在一条指向节点B4的边A4-B4，而与节点B1相连的边均是从节点B1指出，因此边A4-B4无法在与节点B1相连的边中找到方向一致的边。

步骤5300：将M[i,j]赋值为-1。

步骤5400：判断与相连的边和与/>相连的边是否完全匹配，若是则执行步骤5500，否则执行步骤5600。/>

步骤5500：获取匹配的节点对和/>令M[k₁,l₁]＝M[k₁,l₁]+1，M[k₂,l₂]＝M[k₂,l₂]+1，其中/>和/>表示与节点/>相连的两个节点，/>和/>表示与节点/>相连的两个节点，/>和/>之间的边与/>和/>之间的边相匹配，/>和/>之间的边与/>和/>之间的边相匹配。这里两条边匹配指两条边的方向一致。

与相连的边和与/>相连的边完全匹配的情形可参考图16，其中节点B1为/>节点B2为/>由于完全匹配，因此存在唯一的匹配的节点对，即{A1,C1}和{A2,C2}，边A1-B1与边A2-B2相匹配，边B1-C1与B2-C2边相匹配。

步骤5600：针对每一种匹配的情形，获取该情形下匹配的节点对和根据/>与/>之间的边的长度/>与/>之间的边的长度/>与/>之间的边的长度/>以及/>与/>之间的边的长度/>计算第一增加值E₁和第二增加值E₂，令M[k_x,l_x]＝M[k_x,l_x]+E₁,M[k_y,l_y]＝M[k_y,l_y]+E₂，其中/>和/>表示与节点/>相连的两个节点，/>和/>表示与节点/>相连的两个节点，/>和/>之间的边与/>和/>之间的边相匹配，/>和/>之间的边与/>和/>之间的边相匹配。

当执行步骤5600时，说明与相连的边和与/>相连的边并不完全匹配，此时存在多种匹配的情形。请参考图17，其中节点B1为/>节点B3为/>此时存在4种匹配的情形，即4种匹配节点对，分别为{A1,C1}和{A3,C3}、{A1,C2}和{A3,C3}、{A2,C1}和{A3,C3}以及{A2,C2}和{A3,C3}，对于这4种匹配的情形都计算第一增加值E₁和第二增加值E₂，进行相应的操作。对于边的长度，以匹配节点对为{A1,C1}和{A3,C3}为例，则/>为边A1-B1的长度，/>为边B1-C1的长度，/>为边A3-B3的长度，/>为边B3-C3的长度。

一种实施例中，第一增加值和第二增加值由以下公式确定：

步骤5700：遍历完成后，根据矩阵M从子图模型选择与标准结构图模型各节点对应的节点，从而获得所述同构图；若未遍历完则继续遍历。

对于子图模型的任一节点和标准结构图模型的任一节点/>矩阵中元素M[i,j]越大则两者匹配的可能性越大，本领域技术人员据此可以从子图模型中选择最有可能匹配的节点作为标准结构图模型中节点的对应节点。将子图模型中与节点/>对应的节点的索引记为i(j)，则该对应节点为/>一种实施例中，根据目标函数获取子图模型中与节点/>对应的节点/>其中j_p和j_q表示索引j的两个可能值。上述目标函数的意义为，对于每个索引j，选择使M[i(j),j]最大的索引i，且不同的索引j选择不同的索引i。最后将节点集合/>构成的图作为所述同构图。

为了进一步提高匹配的准确度，还可以使字符识别数据包括字符识别分数，文本结构信息包括每个字符的字符识别分数下限，在此基础上，步骤5200为：遍历子图模型和标准结构图模型的所有节点。对于子图模型的任一节点和标准结构图模型的任一节点/>判断/>和/>是否满足第一预设条件和/或第二预设条件和/或第三预设条件，若是则执行步骤5300，否则执行步骤5400。其中第一预设条件和第二预设条件请参考上文步骤5200中的说明，第三预设条件则是指/>中的字符识别分数小于/>中的字符识别分数下限。

上述实施例的文本行字符识别步骤，首先对文本图像各文本行构建初始结构图模型，初始结构图模型的节点记录文本行中字符的字符识别数据，再根据分隔字符所在节点将各文本行的初始结构图模型划分为若干子图模型；之后根据输入的文本结构信息构建标准结构图模型，在子图模型中匹配标准结构图模型的同构图，将该同构图对应的字符作为与输入的文本结构信息匹配的最优字符识别结果。用户可以输入某些具有固定结构的文本的文本结构信息，作为在文本图像中查找这类文本的参考；又由于利用了图模型进行建模和同构图匹配，将同构图对应的字符作为与输入的文本结构信息匹配的最优字符识别结果，从而提高了复杂环境中字符或者某些固定结构的文本的识别准确率。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种文本校正方法，其特征在于，包括：

获取文本图像；

根据所述倾斜角度估计值对所述文本图像进行倾斜校正。

2.如权利要求1所述的文本校正方法，其特征在于，所述根据所述文本图像计算得到字符块初步检测图像和背景估计图像，包括：对所述文本图像进行形态学处理，以根据所述文本图像中的字符生成字符块而得到所述字符块初步检测图像，并获取所述背景估计图像。

3.如权利要求2所述的文本校正方法，其特征在于，所述对所述文本图像进行形态学处理，以根据所述文本图像中的字符生成字符块而得到所述字符块初步检测图像，并获取所述背景估计图像，包括：

对所述字符块初步检测图像进行缩小得到缩小图像；

4.如权利要求3所述的文本校正方法，其特征在于，所述灰度腐蚀处理的模板宽度为max(3.0,H_c/8.0)，对所述字符块初步检测图像进行缩小时的缩小比例为8.0/H_c，其中H_c为预设的字符像素高度。

5.如权利要求3所述的文本校正方法，其特征在于，所述第一形态学处理为灰度腐蚀处理；

所述对所述缩小图像进行第二形态学处理以得到所述背景估计图像，包括：对所述缩小图像进行中值滤波得到中值滤波图像，对所述中值滤波图像进行灰度闭操作得到灰度闭操作图像，将所述灰度闭操作图像作为所述背景估计图像。

6.如权利要求5所述的文本校正方法，其特征在于，所述灰度闭操作的模板大小为max(5.0,0.5×max(3.0,H_c/8.0))×2|1，其中H_c为预设的字符像素高度，|表示二进制或运算。

7.如权利要求1所述的文本校正方法，其特征在于，所述获取所述文本图像的旋转角度初始估计值包括：

8.如权利要求7所述的文本校正方法，其特征在于，所述第一角度范围内的多个旋转角度值按以下方式获取：按第一角度步长在所述第一角度范围内读取角度值作为旋转角度值以得到所述第一角度范围内的多个旋转角度值。

9.如权利要求8所述的文本校正方法，其特征在于，所述第一角度步长由以下表达式确定：

10.如权利要求9所述的文本校正方法，其特征在于，所述第二角度范围内的多个旋转角度值按以下方式获取：按第二角度步长在所述第二角度范围内读取角度值作为旋转角度值以得到所述第二角度范围内的多个旋转角度值；其中，所述第二角度范围小于所述第一角度范围，所述第二角度步长小于所述第一角度步长。

11.如权利要求1或7所述的文本校正方法，其特征在于，所述根据该旋转角度值生成采样点阵列从而对所述字符块检测图像采样获得灰度投影结果包括：

计算每个采样点的灰度值；

12.如权利要求8所述的文本校正方法，其特征在于，采样点的灰度值由以下表达式确定：

13.如权利要求7所述的文本校正方法，其特征在于，所述根据所述第一角度范围内多个旋转角度值的灰度投影结果形成一目标函数曲线，得到第一目标函数曲线，包括：对于所述第一角度范围内的每个旋转角度值，计算其灰度投影的差分平方和作为其目标函数值，基于所述第一角度范围内所有旋转角度值及其目标函数值形成所述第一目标函数曲线；

14.如权利要求1所述的文本校正方法，其特征在于，所述提取所述倾斜估计图像中的字符边缘区域和梯度幅角图像包括：

对所述倾斜估计图像进行均值滤波得到均值滤波图像；

15.如权利要求14所述的文本校正方法，其特征在于，所述均值滤波的滤波核大小为1×N，其中N为预设的滤波核宽度。

16.如权利要求14所述的文本校正方法，其特征在于，所述第一二值化阈值为1.4×G₁，所述第二二值化阈值为1.4×G₂，其中G₁表示所述第一梯度图像的标准差，G₂表示所述第二梯度图像的标准差。

17.一种计算机可读存储介质，其特征在于，所述介质上存储有程序，所述程序能够被处理器执行以实现如权利要求1至16中任一项所述的文本校正方法。