CN114943973A - 一种文本校正方法、装置、计算机设备及存储介质 - Google Patents

一种文本校正方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN114943973A
CN114943973A CN202110182043.6A CN202110182043A CN114943973A CN 114943973 A CN114943973 A CN 114943973A CN 202110182043 A CN202110182043 A CN 202110182043A CN 114943973 A CN114943973 A CN 114943973A
Authority
CN
China
Prior art keywords
image
text
corrected
determining
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110182043.6A
Other languages
English (en)
Inventor
李德健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Original Assignee
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shiyuan Electronics Thecnology Co Ltd filed Critical Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority to CN202110182043.6A priority Critical patent/CN114943973A/zh
Publication of CN114943973A publication Critical patent/CN114943973A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种文本校正方法、装置、计算机设备及存储介质。该方法包括:获取待校正文本行图像以及文本行轮廓图像,文本行轮廓图像为待校正文本行图像对应的二值化图像;确定至少一个分割数量值,并按照各分割数量值分别对文本行轮廓图像进行分割,确定文本行轮廓图像在各分割操作后对应的控制点集合;根据各控制点集合分别对待校正文本图像透视变换,获得相对应的各校正文本图像。该方法可以解决现有技术中由于在待识别图像中抠出的文本行图像中的文本行是弯曲的从而导致识别算法无法对字符进行有效识别的问题,实现对抠出的弯曲文本行图像进行有效校正,以保证校正后图像输入识别算法后得到准确的字符识别结果。

Description

一种文本校正方法、装置、计算机设备及存储介质
技术领域
本发明实施例涉及图像处理技术领域,尤其涉及一种文本校正方法、装置、计算机设备及存储介质。
背景技术
近年来,光学字符识别(optical character recognition,即OCR)技术应用到各行各业,如身份证识别,发票识别等。一般的OCR系统通常包含两个模块,文本检测和文本识别,其中,文本检测是核心模块之一,其主要目的是从输入图片中获取每个文本行的图片。
目前文本检测的主流方法是用深度学习算法获取文本行图片,把待检测图片送入卷积神经网络,接着预测文字区域的分数,得到每个像素点属于文字的分数,对分数图进行二值化,得到文字的掩膜,取文字掩膜的轮廓作为文字轮廓,根据外接矩形抠出文字区域小图。
但是,上述方法在待检测图片中文字为弯曲的情况下,所抠出文字区域小图中文字是弯曲的,将这种检测结果直接输入给识别算法很容易导致误识别。
发明内容
有鉴于此,本发明实施例提供了一种文本校正方法、装置、计算机设备及存储介质,以解决现有技术中由于在待识别图像中抠出的文本行图像中的文本行是弯曲的从而导致识别算法无法对字符进行有效识别的问题。
第一方面,本发明实施例提供了一种文本校正方法,包括:
获取待校正文本行图像以及文本行轮廓图像,所述文本行轮廓图像为所述待校正文本行图像对应的二值化图像;
确定至少一个分割数量值,并按照各所述分割数量值分别对所述文本行轮廓图像进行分割,确定所述文本行轮廓图像在各分割操作后对应的控制点集合;
根据各所述控制点集合分别对所述待校正文本图像透视变换,获得相对应的各校正文本图像。
第二方面,本发明实施例还提供了一种文本校正装置,包括:
获取模块,用于获取待校正文本行图像以及文本行轮廓图像,所述文本行轮廓图像为所述待校正文本行图像对应的二值化图像;
确定模块,用于确定至少一个分割数量值,并按照各所述分割数量值分别对所述文本行轮廓图像进行分割,确定所述文本行轮廓图像在各分割操作后对应的控制点集合;
校正模块,用于根据各所述控制点集合分别对所述待校正文本图像透视变换,获得相对应的各校正文本图像。
第三方面,本发明实施例还提供了一种计算机设备,所述计算机设备
包括:一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面提供的文本校正方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面提供的文本校正方法。
上述提供的一种文本校正方法、装置、计算机设备及存储介质,该方法包括:获取待校正文本行图像以及文本行轮廓图像,文本行轮廓图像为待校正文本行图像对应的二值化图像;确定至少一个分割数量值,并按照各分割数量值分别对文本行轮廓图像进行分割,确定文本行轮廓图像在各分割操作后对应的控制点集合;根据各控制点集合分别对待校正文本图像透视变换,获得相对应的各校正文本图像。在该文本校正方法中,按照各分割数量值分别对文本行轮廓图进行分割得到控制点集合,再根据控制点集合分别对待校正文本图像进行透视变换得到各校正文本图像,相较于相关技术,本实施例中得到的校正文本图像为非弯曲文本图像,基于各校正文本图像进行字符识别可以得到更加准确的字符识别效果,从而,提高了图片文字识别的准确率。
附图说明
图1为本发明实施例一所提供的一种文本校正方法的流程示意图;
图2为本发明实施例二所提供的一种文本校正方法的流程示意图;
图3为本发明实施例二所提供的一种文本校正方法的示例流程示意图;
图4为本发明实施例二所提供的一种文本校正方法中确定控制点集合的流程示意图;
图5为本发明实施例二所提供的一种文本校正方法中确定校正文本图像的流程示意图;
图6为本发明实施例二所提供的一种文本校正方法中获取文字识别结果的流程示意图;
图7为本发明实施例二所提供的一种文本校正方法的获取待校正文本行图像的流程示例图;
图8为本发明实施例三提供的一种文本校正装置的结构示意图;
图9为本发明实施例四提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一所提供的一种文本校正方法的流程示意图,该方法可适用于对文本图片中弯曲的文本行进行校正的情况,该方法可以由文本校正装置来执行,其中该文本校正装置可由软件和/或硬件实现,该文本校正装置可以集成在计算机设备上。
如图1所示,本发明实施例一提供的一种文本校正方法,包括如下步骤:
步骤101:获取待校正文本行图像以及文本行轮廓图像。
文本行轮廓图像为待校正文本行图像中对应的二值化图像。
本实施例中的待校正文本行图像中的文本行为弯曲的文本行,待校正文本行图像可以从原始图像中获取,原始图像可以为任意的一种包括文本行的图像,文本行可以为由文字或符号组成的一行字符。
本实施例中的文本行轮廓图像为校正文本行图像对应的二值化图像,文本行轮廓图像还可以理解为根据最小外接矩形在原始图像的二值化图像上裁剪出的二值化图像,其中,最小外接矩形可以为原始图像中文本行对应的最小外接矩形。
具体的,获取待校正文本行图像的方式可以为:将原始图像输入预设的神经网络模型可以得到原始图像的文本分数图;将文本分数图进行二值化处理可以得到文本行的掩膜,通过掩膜可以计算得到原始图像中文本行的轮廓;根据文本行的轮廓的坐标可以得到文本行的最小外接矩形;根据最小外接矩形可以从原始图像中对应裁剪出文本行图像,该文本行图像即为待校正文本行图像。其中,文本分数图中可以包括原始图像中每个像素点为文本行的概率分数。
步骤102、确定至少一个分割数量值,并按照各分割数量值分别对文本行轮廓图像进行分割,确定文本行轮廓图像在各分割操作后对应的控制点集合。
其中,一个分割数量值可以理解为在文本行轮廓图像上确定的分割线的个数,根据一个分割数量值对文本行轮廓图像进行分割后可以将文本行轮廓图像分割成分割数量值加1个子图像区域。在本步骤中,确定一个分割数量值后可以进一步根据分割数量值对文本行轮廓图像进行分割以便于后续得到对应的控制点集合。
在本实施例中,从待校正文本行图像中获取文本行轮廓图像后可以在文本行轮廓图像中确定至少一个分割数量值,该分割数量值可以根据文本行轮廓的轮廓角度确定。在确定一个分割数量值后,其余分割数量值可以在该分割数量值的基础上得到,示例性的,首先根据文本行轮廓的轮廓角度确定一个分割数量值后可以将该分割数量值加1得到第二个分割数量值,将该分割数量值减1得到第三个分割数量值。其中,得到的分割数量值的个数此处不做具体限制,可以根据实际情况进行选择。
示例性的,按照各分割数量值分别对文本行轮廓图像进行分割可以为:首先按照第一个分割数量值对文本行轮廓图像进行分割,然后按照第二个分割数量值对文本行轮廓图像进行分割,最后再按照第三个分割数量值对文本行轮廓图像进行分割。
具体的,根据各分割数量值中的一个分割数量值对文本行轮廓图像进行分割的方式可以为:在文本行轮廓图像的长边框上进行分割得到该分割数量值个分割线,可以将文本行轮廓图像分割成分割数量值+1段。
在本实施例中,控制点集合可以为文本行轮廓图像上各控制点组成的集合,控制点集合可以在对文本行轮廓图像进行分割操作后得到。可以理解的是各控制点集合可以包括每次分割操作后对应的控制点集合,示例性的,各控制点集合可以包括文本行轮廓图像在第一次分割后对应的控制点集合、文本行轮廓图像在第二次分割后对应的控制点集合以及文本行轮廓图像在第三次分割后对应的控制点集合。
具体的,确定文本行轮廓图像在第一次分割操作后对应的控制点集合可以包括:在文本行轮廓图像上确定出分割线与文本行轮廓的交点,确定每个分割线上的两个交点之间的高度,将所有高度的平均值作为文本行的高度,根据每个分割线上的交点以及文本行的高度确定控制点集合。
步骤103、根据各控制点集合分别对待校正文本图像透视变换,获得相对应的各校正文本图像。
在本实施例中,透视变换可以理解为将一个图片上的文本行中的字符根据映射关系映射到另一张空白图像上。校正文本图像可以为待校正图像进行校正后得到的图像,校正文本图像中的文本行相比于待校正图像中的文本行的弯曲程度而言,校正文本图像中的文本行的弯曲程度较小或无弯曲。
在本步骤中,根据分割数量值的个数可以获得相应个数个控制点集合,根据每个控制点集合可以通过透视变换得到对应个数个校正文本图像,可以理解的是通过分割数量值的个数可以确定校正文本图像的个数。
进一步的,对根据一个控制点集合实现透视变换得到一个校正文本图像进行说明。具体的,根据控制点集合中各控制点的数量信息及分布特点在待校正文本行图像上找到对应点,并增设一个与待校正文本行图像大小相同的空白图像,根据对应点的数量信息以及分布特点在空白图像上均匀设置控制点;最后根据待校正文本行图像上的对应点和空白图像上的控制点可以将待校正文本行图像上的文字精准的通过透视变换映射到空白图像上进而得到校正文本图像。
在本实施例中,通过透视变换可以将待校正文本行图像上的文字映射到空白图像上得到校正文本图像的原理在于:待校正文本行图像上的对应点中任意相邻的可以组成矩形框的四个对应点可以确定一个文字,将该文字映射到根据该四个对应点在空白图像上对应的四个控制点所组成的矩形框内,进而实现了将待校正文本行图像上的文字映射到空白图像上得到校正文本图像,上述操作可以适用于待校正文本行图像中的每个字符。由于控制点在空白图像上的分布相较于对应点在待校正文本行图像上的分布更加均匀,因此,将待校正文本行图像映射到空白图像后得到的文字弯曲程度可以得到很大改善。从而上述文本校正方法可以有效规避由于待校正文本行图像中文本行弯曲对文字识别的干扰。
可选的,在步骤103之后,本实施例提供的一种文本校正方法还可以包括如下步骤:将各校正文本图像输入文本识别模型得到各校正文本图像的文本行中字符的识别结果,根据识别结果可以确定该文本行在各校正文本图像中的平均识别率,将最大平均识别率对应的校正文本图像作为最终分割结果。
上述过程还可以理解为通过上述方式可以在各校正文本图像中确定出分割效果最好的一张校正文本图像,该校正文本图像输入文本识别模型后得到的字符识别准确率较高。由此可知,按照该校正文本图片对应的方法可以对待校正文本图像进行有效校正,校正后的文本图像中的文本行的弯曲程度可以得到很大改善,因此,将上述校正后的文本图像输入文本识别模型后,文本识别模型可以准确的识别出该校正后的文本图片中的文本行。
本实施例一提供的技术方案,首先获取待校正文本行图像以及文本行轮廓图像;然后确定至少一个分割数量值,并按照各所述分割数量值分别对所述文本行轮廓图像进行分割,确定所述文本行轮廓图像在各分割操作后对应的控制点集合;最后根据各所述控制点集合分别对所述待校正文本图像透视变换,获得相对应的各校正文本图像。在该文本校正方法中,按照各分割数量值分别对文本行轮廓图进行分割得到控制点集合,再根据控制点集合分别对待校正文本图像进行透视变换得到各校正文本图像,相较于相关技术,本实施例中得到的校正文本图像为非弯曲文本图像,基于各校正文本图像进行字符识别可以得到更加准确的字符识别效果,从而,提高了图片文字识别的准确率。
实施例二
图2为本发明实施例二所提供的一种文本校正方法的流程示意图,本实施例二在上述各实施例的基础上进行优化。
如图2所示,本发明实施例二提供的一种文本校正方法,包括如下步骤:
步骤201、获取待校正文本行图像以及文本行轮廓图像。
其中,文本行轮廓图像为待校正文本行图像对应的二值化图像。
在本实施例中,图3为本发明实施例二所提供的一种文本校正方法的示例流程示意图,为更好理解本实施例所提供方法的执行,进一步给出了图3来以效果呈现的形式进行实现过程的描述,具体的,图3中包括的步骤a到步骤j详细的记录了进行文本校正的过程。其中,步骤a为文本行轮廓图像,步骤a中白色区域部分为文本行轮廓。
步骤202、确定至少一个分割数量值,针对每个分割数量值,沿文本行轮廓图像的长边框垂直进行分割,获得分割数量值个与文本行轮廓相交形成的分割线段,并确定各分割线段的线段长度。
在本实施例中,确定至少一个分割数量值可以根据文本行轮廓图像中的文本行轮廓点的坐标计算出文本行轮廓的轮廓角度,进一步根据轮廓角度的大小确定分割数量值。其中,轮廓点坐标可以为每个轮廓点对应的坐标值。
可选的,确定至少一个分割数量值可以包括:根据文本行轮廓图像中文本行轮廓的轮廓点坐标信息,通过最小二乘法确定文本行轮廓的轮廓角度;查找预设的数据关联表,确定轮廓角度对应基准数值;将基准数值、基准数值加1、以及基准数值减1分别记为分割数量值。
需要说明的是通过最小二乘法计算轮廓角度为现有技术此处不做赘述。
其中,文本行轮廓可以为文本行轮廓图像中的文本行的外围轮廓,若一个文本行是倾斜的,则该文本行轮廓具有一定的倾斜角度。预设的数据关联表可以为预先设置的关联表,该数据关联表中可以记录轮廓角度与基准数值的关系,即一个轮廓角度对应一个基准数值;基准数值可以为第一次进行图片校正得到第一张校正图片时所用的分割数量值。
具体的,确定轮廓角度后可以通过查找预先设置的数据关联表,在表中根据轮廓角度确定对应的基准数值,之后可以根据基准数值确定各分割数量值。其中,根据基准数值确定各分割数量值的方式可以为将基准数值作为一个分割数量值,在基准数值的基础上将基准数值加1作为一个分割数量值,将基准数值减1作为一个分割数量值。示例性的,若基准数值为N,则可以将N-1、N、N+1作为三个分割数量值。
进一步的,按照各所述分割数量值分别对所述文本行轮廓图像进行分割可以包括:针对每个分割数量值,沿所述文本行轮廓图像的长边框垂直进行分割,获得所述分割数量值个与所述文本行轮廓相交形成的分割线段,并确定各所述分割线段的线段长度。
其中,沿着文本行轮廓图像上的上下两个长边框垂直分割可以得到分割数量值个线段,将各线段与文本行轮廓相交的部分作为分割线段。需要说明的是,该步骤是针对每个分割数量值对文本行轮廓图像进行分割,即分割后可以得到多张分割后的文本行轮廓图像。
针对一个分割数量值N而言进行举例说明:可参考图3中的步骤b到步骤d,如步骤b所示,在文本行轮廓图上均匀取N个分段位置;然后如步骤c所示,在文本行轮廓图上遍历N个分段位置水平方向的像素点,找到分段线与文本行轮廓的交点,两个交点之间的线段即为分割线段;之后如步骤d所示,取每个分段线上两个交点之间的距离作为分割线段的线段长度可以得到N个线段长度。
步骤203、根据各分割线段的端点坐标信息及相应的线段长度,确定文本行轮廓图像在分割操作后对应的控制点集合。
在本实施例中,各分割线段的端点坐标信息可以包括三次分割后得到的所有分割线段的端点坐标信息。
图4为本发明实施例二所提供的一种文本校正方法中确定控制点集合的流程示意图。此处以根据第一次分割后得到的分割线段的端点坐标信息以及相应的线段长度,确定文本行轮廓图像在第一次分割操作后对应的控制点集合进行说明,如图4所示,步骤203可以包括如下步骤:
步骤2031、确定各线段长度的平均值作为文字高度,并根据各分割线段的端点坐标信息,确定各分割线段的中点。
在本步骤中,获得每个线段长度后可以计算线段长度的平均值,将该平均值作为该文本行中文字的高度。根据每个分割线段中上下两个端点的坐标信息可以进一步计算出每个分割线段的中点。
其中,以计算一个分割线段的中点为例进行说明,计算该分割线段的上端点坐标中的横坐标与下端点坐标中的横坐标的平均值作为该分割线段中点的横坐标,计算该分割线段的上端点坐标中的纵坐标与下端点坐标中的纵坐标的平均值作为该分割线段中点的纵坐标,根据中点的横纵坐标可以确定中点的位置信息。按照上述过程可以计算出每个分割线段的中点。
示例性的,如图3中的步骤e所示,通过公式可以计算各线段长度的平均值作为文字高度。
步骤2032、顺序连线各中点并分别对首个及末个中点所对应连线线段进行延伸直至与文本行轮廓相交,形成第一数量个中点连线段。
其中,第一数量为分割数量值加1,示例性的,若当前分割数量为N,则第一数量为N+1。
在本步骤中,将每个中点依次顺序相连可以得到一条横向的线段,将该横向线段上的第一个中点向左方向延伸直至与文本行轮廓相交,将该横向线段上的最后一个中点向右方向延伸直至与文本行轮廓相交,至此,可以在所形成的横向的线段上确定出多个中点连线段。
示例性的,如图3中的步骤f所示,取分段线上两个交点的中点,把中点相连并向左右方向延伸与文本行轮廓相交得到文本行两端的交点,将两个交点和所有中点作为端点,每两个端点之间的线段即为中点连线段。
步骤2033、以各中点连线段的起始端点为目标点,分别确定过各目标点且与相应目标点所在中点连线段垂直的各垂直线。
在本步骤中,将各中点线段的最左边的起始端点作为目标点,过目标点做与该目标点所在的中点连线段垂直的垂直线,可以得到分割数量值加2个垂直线。
示例性的,如图3中的步骤g所示,在各端点上做垂直线,图中10个竖直方向的线即为垂直线。
步骤2034、针对每条垂直线,确定与垂直线所包含目标点的距离值为文字高度一半的坐标点对。
在本步骤中,在每条垂直线上,在垂直线上以目标点为中心,在目标点的上下两端取两个坐标点构成坐标点对,可以得到多个坐标点对。其中,一个坐标点对中包括的两个坐标点距离目标点的距离都为文字高度的一半。
示例性的,如图3中的步骤h所示,在每个垂直线上取一个坐标点对,坐标点对中的每个坐标距离目标点的距离为h/2。
步骤2035、将各坐标点对分别记为控制点对,形成文本行轮廓图像在分割操作后对应的控制点集合。
在本步骤中,将按照上述步骤得到的坐标点对记为控制点对,将文本行轮廓图像上的所有控制点对组成该次分割操作后对应的控制点集合。
示例性的,若对文本行轮廓图像根据不同分割数量值进行三次分割操作则可以得到三个控制点集合,每次分割操作都可以得到多个控制点对。
步骤204、针对每个控制点集合,将控制点集合中包括的各控制点对依次关联到待校正文本图像上。
在本步骤中,需要分别将三次分割操作后得到的三个控制点集合中包括的各控制点对依次关联到待校正文本图像上。以一个控制点集合为例进行说明,根据该控制点集合中包括的所有控制点的坐标将所有控制点关联到待校正文本图像上。
示例性的,如图3中的步骤i中左边的图像即为待校正文本图像,该图像上的所有点即为控制点集合关联到待校正文本图像上得到的点。
步骤205、生成一个与待校正文本图像高度相同的空白图像,并在空白图像的两条长边框上分别均匀增设第二数量的参照点,并将具备同一横坐标的两个参照点确定为一个参照点对。
所述第二数量与所述控制点集合中所包含的控制点的数量相同。
在本实施例中,针对通过步骤204得到的三个具有不同控制点集合的待校正文本图像都要执行本步骤。
在本步骤中,针对具有一个控制点集合的待校正文本图像进行说明,首先生成一个与待校正文本图像相同尺寸的空白图像,然后可以在空白图像的两条长边框上均匀的选取与控制点集合中的控制点的个数相同的参照点,如图3中的步骤i中右边的图像所示。
其中,可以将具有相同横坐标的两个参照点确定为一个参照点对,如图3中步骤i所示可以得到10个参照点对。
步骤206、根据各控制点对以及参照点对,确定控制点集合相对应的校正文本图像。
类似的,本步骤中得到的校正文本图像可以包括根据三次不同分割数量值的分割操作后分别进行三次透视变换得到的三个校正文本图像。
图5为本发明实施例二所提供的一种文本校正方法中确定校正文本图像的流程示意图。下面以得到一个校正文本图像为例进行说明。如图5所示,步骤206可以包括如下步骤:
步骤2061、依次顺序采用控制点集合中相邻两控制点对构成源透视变换点组。
本步骤中,在文本行轮廓图像中按照顺序依次获取两个相邻的控制点对构成源透视变换点组,如图3中步骤i中左边图像中包括了9个源透视变换点组。
步骤2062、针对每个源透视变换点组,采用空白图像上相同顺序下的相邻两参照点对构成对应的目标透视变换点组,并确定源透视变换点组在待校正图像上对应的源文字。
在本步骤中,根据每个源透视变换点组对应在空白图像上将相邻参照点对构成多个目标透视变换点组。如图3的步骤i中右边图像中包括了9个目标透视变换点组。
其中,确定所述源透视变换点组在待校正文本图像上对应的源文字可以理解为一个源透视变换点组可以组成一个矩形框,该矩形框中可以对应文字,如图3的步骤i所示,步骤i中左边图像中最左侧的相邻两个控制点对即一个源透视变换点组组成的矩形中对应的文字是“我”。
按照上述方式可以将待校正文本图像中文本行的所有文字通过源透视变换点组对应起来。
步骤2063、通过对源透视变换点组及目标透视变换点组进行的透视变换,将源文字映射到所述空白图像上。
在本步骤中,将每个源透视变换点组对应的待校正文本图像中文本行中的源文字映射到空白图像上每个目标透视变换点组所构成的矩形框中。
步骤2064、将包含待校正图像内各源文字的空白图像确定为控制点集合相对应的校正文本图像。
在本步骤中,校正文本图片可以为在空白图像上映射出源文字后得到的图像。需要说明的是,每个控制点集合可以对应一个校正文本图像。如图3的步骤j所示,步骤j为根据一个控制点集合得到的一张校正文本图像。
步骤207、从各校正文本图像中筛选目标文本图像,并获得目标文本图像对应的文字识别结果。
在本实施例中,按照上述步骤执行后额可以得到三张校正文本图像,进一步的,需要在三张校正文本图像中确定出文字识别结果最为准确的一张校正图像作为目标文本图像。
图6为本发明实施例二所提供的一种文本校正方法中获取文字识别结果的流程示意图。如图6所示,步骤207可以包括如下步骤:
步骤2071、针对每个校正文本图像,将校正文本图像输入至预设的文本识别模型,获得校正文本图像中包含的文字及相应的预测概率。
在本步骤中,预设的文本识别模型可以为预先设置的任意一种具有文字识别功能的模型,例如,文本识别模型可以为全卷积神经网络(Fully Convolutional Network,FCN)以及识别网络CRNN等。
将三张文本校正图像输入到预设的文本识别模型中,可以输出每个校正文本图像中包括的所有文字和每个字符的预测概率。
步骤2072、统计所包含文字的文字个数,并根据各文字的预测概率及文字个数,确定校正文本图像的预测概率平均值。
在本步骤中,分别统计三张校正文本图像中包括的文字个数,并计算三张校正文本图像对应的文字预测概率。其中,文字可以包括字符。
示例性的,以计算一张校正文本图像对应的文字预测概率为例进行说明,若该校正文本图像的文本行中包括4个文字,每个文字的预测概率分别为0.3、0.7、0.9和0.5,则可以计算(0.3+0.7+0.8+0.6)/4=0.6,将0.6作为该文本校正图像的预测概率平均。
步骤2073、将最大预测概率平均值对应的校正文本图像作为目标文本图像,并将目标文本图像包含的文字作为文字识别结果。
在本步骤中,根据三张校正图像对应的预测概率平均值可以确定出最大预测概率平均值,则最大预测概率平均值对应的校正文本图像即为目标文本图像。
以下以一个具体的例子说明上述步骤201至步骤207。如图3所示,其主要包括如下步骤:
步骤a、根据待校正文本行图像中文本行的最小外接矩形从二值化图像上裁剪出文本行轮廓图像。
步骤b、根据文本行轮廓图像中各轮廓点的坐标用最小二乘法计算出文本行轮廓的轮廓角度;在文本行轮廓图像中均匀取N个分段位置。
步骤c、在文本行轮廓图像上遍历分段位置水平方向的像素点,找到分段线即分割线段与文本行轮廓的交点。
步骤d、取每个分段线上两个交点的距离,得到N个距离即线段长度。
步骤e、取N个距离的平均值作为文字的高度h。
步骤f、取每个分段线上两个交点的中点即分割线段的中点,把中点相连得到文本行的中心骨架即顺序连线各所述中点并分别对首个及末个中点所对应连线线段;将中心骨架向左右两边延长,得到中心骨架与文本行轮廓图像左右边界的交点,这两个交点作为文本行两端的交点,将得到的中点和两个交点作为中心骨架上的端点,各端点之间的连线即中点连线段构成端点连线。
步骤g、在中心骨架的各端点上作垂线即以各所述中点连线段的起始端点为目标点,分别确定过各所述目标点且与相应目标点所在中点连线段垂直的各垂直线。
步骤h、在每个垂线上取两个控制点即坐标点对,该两个控制点分别在端点上下方距离端点距离为h/2。
步骤i、在待校正文本行图像上确定出对应的控制点即将控制点集合中包括的各控制点对依次关联到待校正文本行图像上,生成一种与待校正文本行图像相同大小的空白图像,并在空白图像上均匀取点,点数与控制点相同,作为控制点的对应点即均匀增设第二数量的参照点。
步骤j、每四个相邻的控制点为一组透视变换的控制点即源透视变换点组,进行N+1次透视变换,将待校正文本行图像映射到空白图像上,得到校正后的图像。
步骤k、将N设置为N-1重新执行步骤3到步骤11可以得到一张新的校正文本图像;将将N设置为N+1重新执行步骤3到步骤11可以得到另一张新的校正文本图像,即一共可以得到三张校正文本图像;将三张校正文本图像输入文字识别模型可以得到三个识别结果。
最后,计算每张校正文本图像中所有字符的预测概率平均值,将最大预测概率平均值对应的校正文本图像作为最终的分割结果。
进一步的,文本校正方法还可以包括以下内容:将原始图像作为输入数据输入至预设的神经网络模型,获得原始图像的文本分数图;通过对文本分数图的二值化处理及抠图处理,确定原始图像中的待校正文本行图像以及待校正文本行图像的文本行轮廓图像。
其中,预设的神经网络模型可以为卷积神经网络,卷积神经网络可以包括全卷积网络和U-net等网络;文本分数图可以包括原始图像中每个像素点掉膘文本行的概率分数,文本分数图可以与原始图像的大小完全相同;原始图像可以为未经过任何处理的包括文本行的图像。
以下以一个具体的例子说明上述确定待校正文本行图像的过程。图7为本发明实施例二所提供的一种文本校正方法的获取待校正文本行图像的流程示例图,如图7所示,得到待校正文本行图像的过程可以包括如下步骤:
步骤1、把原始图像输入卷积神经网络得到文本分数图。
步骤2、对文本分数图做二值化处理,根据应用场景设置一个阈值,将原始图像中分数值大于阈值的像素点确定为文本,将分数小于阈值的像素点确定为背景,可以得到与原始图像大小相同的二值化图像。
步骤3、从二值化图像中获取文本行,将文本行的上,下,左,右,左上,左下,右上和右下相邻的点连成一片区域得到文本行的连通域,将连通域边缘的坐标提取处理可以得到文本行轮廓坐标。
步骤4、根据文本行轮廓坐标确定出文本行的最小外接矩形。
步骤5、根据最小外接矩形的坐标可以从原始图像上裁剪出待校正文本行图像。
步骤6、根据最小外接矩形的坐标在二值化图像上裁剪出文本行轮廓图像。
本发明实施例二提供的一种文本校正方法,在实施例一提供的方案的基础上做进一步的细化,并在获得相对应的各校正文本图像之后进一步得到文字识别结果。该方法中对待校正文本行图像进行分割并确定控制点集合可以准确的确定待校正图像中文本行中的文字,并根据源透视变换点组以及目标透视变换点组对待校正文本行图像中的文字进行透视变换将其映射到空白图像上,得到的校正文本图像中文本行的弯曲程度得到很大改善,将校正文本图像输入文本识别模型可以得到更准确的文字识别率,极大的提高了文字识别的准确率。
实施例三
图8为本发明实施例三提供的一种文本校正装置的结构示意图,该装置可适用于对文本图片中弯曲的文本行进行校正的情况,其中该文本校正装置可由软件和/或硬件实现,并一般集成在计算机设备上。
如图8所示,该装置包括如下模块:获取模块81、确定模块82以及校正模块83。
获取模块81,用于获取待校正文本行图像以及文本行轮廓图像。
可选的,获取模块81具体用于将原始图像作为输入数据输入至预设的神经网络模型,获得原始图像的文本分数图;通过对文本分数图的二值化处理及抠图处理,确定原始图像中的待校正文本行图像以及待校正文本行图像的文本行轮廓图像。
确定模块82,用于确定至少一个分割数量值,并按照各分割数量值分别对文本行轮廓图像进行分割,确定文本行轮廓图像在各分割操作后对应的控制点集合。
可选的,确定模块82包括第一确定模块,用于确定至少一个分割数量值。第一确定模块具体用于根据文本行轮廓图像中文本行轮廓的轮廓点坐标信息,通过最小二乘法确定文本行轮廓的轮廓角度;查找预设的数据关联表,确定所述轮廓角度对应基准数值;将基准数值、基准数值加1、以及基准数值减1分别记为分割数量值。
可选的,确定模块82包括第一确定单元,用于确定文本行轮廓图像在各分割操作后对应的控制点集合。
第一确定单元具体用于:针对每个分割数量值,沿文本行轮廓图像的长边框垂直进行分割,获得分割数量值个与文本行轮廓相交形成的分割线段,并确定各分割线段的线段长度;根据各分割线段的端点坐标信息及相应的线段长度,确定文本行轮廓图像在分割操作后对应的控制点集合。
进一步的,第一确定单元还包括第一子单元,用于根据各分割线段的端点坐标信息及相应的线段长度,确定文本行轮廓图像在分割操作后对应的控制点集合。
第一子单元具体用于:确定各线段长度的平均值作为文字高度,并根据各分割线段的端点坐标信息,确定各分割线段的中点;顺序连线各中点并分别对首个及末个中点所对应连线线段进行延伸直至与文本行轮廓相交,形成第一数量个中点连线段,第一数量为所述分割数量值加1;以各中点连线段的起始端点为目标点,分别确定过各目标点且与相应目标点所在中点连线段垂直的各垂直线;针对每条垂直线,确定与垂直线所包含目标点的距离值为文字高度一半的坐标点对;将各坐标点对分别记为控制点对,形成文本行轮廓图像在分割操作后对应的控制点集合。
校正模块83,用于根据各控制点集合分别对待校正文本图像透视变换,获得相对应的各校正文本图像。
可选的,校正模块83具体用于:针对每个控制点集合,将控制点集合中包括的各控制点对依次关联到待校正文本图像上;生成一个与待校正文本图像高度相同的空白图像,并在空白图像的两条长边框上分别均匀增设第二数量的参照点,并将具备同一横坐标的两个参照点确定为一个参照点对,第二数量与控制点集合中所包含的控制点的数量相同;根据各控制点对以及参照点对,确定控制点集合相对应的校正文本图像。
可选的,校正模块83包括校正单元,用于根据各控制点对以及参照点对,确定控制点集合相对应的校正文本图像。
校正单元具体用于:依次顺序采用控制点集合中相邻两控制点对构成源透视变换点组;针对每个源透视变换点组,采用空白图像上相同顺序下的相邻两参照点对构成对应的目标透视变换点组,并确定源透视变换点组在待校正图像上对应的源文字;通过对源透视变换点组及目标透视变换点组进行的透视变换,将源文字映射到所述空白图像上;将包含待校正图像内各源文字的空白图像确定为控制点集合相对应的校正文本图像。
可选的,文本校正装置还包括筛选模块,用于从各校正文本图像中筛选目标文本图像,并获得目标文本图像对应的文字识别结果。
具体的,筛选模块具体用于:针对每个校正文本图像,将校正文本图像输入至预设的文本识别模型,获得校正文本图像中包含的文字及相应的预测概率;统计所包含文字的文字个数,并根据各文字的预测概率及文字个数,确定校正文本图像的预测概率平均值;将最大预测概率平均值对应的校正文本图像作为目标文本图像,并将目标文本图像包含的文字作为文字识别结果。
上述文本校正装置可执行本发明任意实施例所提供的文本校正方法,具备执行方法相应的功能模块和有益效果。
实施例四
图9为本发明实施例四提供的一种计算机设备的结构示意图。如图9所示,本发明实施例四提供的计算机设备包括:一个或多个处理器91和存储器92;该计算机设备中的处理器91的数量可以是一个或多个,图9中以一个处理器91为例;该计算机设备的处理器91和存储器92可以通过总线或其他方式连接,图9中以通过总线连接为例。
存储器92作为一种计算机可读存储介质,可用于存储一个或多个程序,所述程序可以是软件程序、计算机可执行程序以及模块,如本发明实施例中所提供文本校正方法对应的程序指令以及模块(例如,文本校正装置中的模块,包括:获取模块81、确定模块82以及校正模块83)。处理器91通过运行存储在存储装置92中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述方法实施例中的文本校正方法。
存储器92可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器92可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器92可进一步包括相对于处理器91远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
并且,当上述计算机设备所包括一个或者多个程序被所述一个或者多个处理器91执行时,程序进行如下操作:
获取待校正文本行图像以及文本行轮廓图像,所述文本行轮廓图像为所述待校正文本行图像对应的二值化图像;
确定至少一个分割数量值,并按照各所述分割数量值分别对所述文本行轮廓图像进行分割,确定所述文本行轮廓图像在各分割操作后对应的控制点集合;
根据各所述控制点集合分别对所述待校正文本图像透视变换,获得相对应的各校正文本图像。
实施例五
本发明实施例五提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时用于执行文本校正方法,该方法包括:
获取待校正文本行图像以及文本行轮廓图像,所述文本行轮廓图像为所述待校正文本行图像对应的二值化图像;
确定至少一个分割数量值,并按照各所述分割数量值分别对所述文本行轮廓图像进行分割,确定所述文本行轮廓图像在各分割操作后对应的控制点集合;
根据各所述控制点集合分别对所述待校正文本图像透视变换,获得相对应的各校正文本图像。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的文本校正方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述文本校正装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (12)

1.一种文本校正方法,其特征在于,包括:
获取待校正文本行图像以及文本行轮廓图像,所述文本行轮廓图像为所述待校正文本行图像对应的二值化图像;
确定至少一个分割数量值,并按照各所述分割数量值分别对所述文本行轮廓图像进行分割,确定所述文本行轮廓图像在各分割操作后对应的控制点集合;
根据各所述控制点集合分别对所述待校正文本图像透视变换,获得相对应的各校正文本图像。
2.根据权利要求1所述的方法,其特征在于,所述确定至少一个分割数量值,包括:
根据所述文本行轮廓图像中文本行轮廓的轮廓点坐标信息,通过最小二乘法确定所述文本行轮廓的轮廓角度;
查找预设的数据关联表,确定所述轮廓角度对应基准数值;
将所述基准数值、基准数值加1、以及基准数值减1分别记为分割数量值。
3.根据权利要求2所述的方法,其特征在于,所述按照各所述分割数量值分别对所述文本行轮廓图像进行分割,确定所述文本行轮廓图像在各分割操作后对应的控制点集合,包括;
针对每个分割数量值,沿所述文本行轮廓图像的长边框垂直进行分割,获得所述分割数量值个与所述文本行轮廓相交形成的分割线段,并确定各所述分割线段的线段长度;
根据各所述分割线段的端点坐标信息及相应的线段长度,确定所述文本行轮廓图像在分割操作后对应的控制点集合。
4.根据权利要求3所述的方法,其特征在于,根据各所述分割线段的端点坐标信息及相应的线段长度,确定所述文本行轮廓图像在分割操作后对应的控制点集合,包括:
确定各所述线段长度的平均值作为文字高度,并根据各所述分割线段的端点坐标信息,确定各所述分割线段的中点;
顺序连线各所述中点并分别对首个及末个中点所对应连线线段进行延伸直至与所述文本行轮廓相交,形成第一数量个中点连线段,所述第一数量为所述分割数量值加1;
以各所述中点连线段的起始端点为目标点,分别确定过各所述目标点且与相应目标点所在中点连线段垂直的各垂直线;
针对每条垂直线,确定与所述垂直线所包含目标点的距离值为所述文字高度一半的坐标点对;
将各所述坐标点对分别记为控制点对,形成所述文本行轮廓图像在分割操作后对应的控制点集合。
5.根据权利要求1所述的方法,其特征在于,所述根据各所述控制点集合分别对所述待校正文本图像透视变换,获得相对应的各校正文本图像,包括:
针对每个控制点集合,将所述控制点集合中包括的各控制点对依次关联到所述待校正文本图像上;
生成一个与所述待校正文本图像高度相同的空白图像,并在所述空白图像的两条长边框上分别均匀增设第二数量的参照点,并将具备同一横坐标的两个参照点确定为一个参照点对,所述第二数量与所述控制点集合中所包含的控制点的数量相同;
根据各所述控制点对以及参照点对,确定所述控制点集合相对应的校正文本图像。
6.根据权利要求5所述的方法,其特征在于,根据各所述控制点对以及参照点对,确定所述控制点集合相对应的校正文本图像,包括:
依次顺序采用所述控制点集合中相邻两控制点对构成源透视变换点组;
针对每个源透视变换点组,采用所述空白图像上相同顺序下的相邻两参照点对构成对应的目标透视变换点组,并确定所述源透视变换点组在所述待校正图像上对应的源文字;
通过对所述源透视变换点组及目标透视变换点组进行的透视变换,将所述源文字映射到所述空白图像上;
将包含所述待校正图像内各源文字的空白图像确定为所述控制点集合相对应的校正文本图像。
7.根据权利要求1所述的方法,其特征在于,所述根据各所述控制点集合分别对所述待校正文本图像透视变换,获得相对应的各校正文本图像之后,还包括:
从各所述校正文本图像中筛选目标文本图像,并获得所述目标文本图像对应的文字识别结果。
8.根据权利要求7所述的方法,其特征在于,所述从各所述校正文本图像中筛选目标文本图像,并获得所述目标文本图像对应的文字识别结果,包括:
针对每个校正文本图像,将所述校正文本图像输入至预设的文本识别模型,获得所述校正文本图像中包含的文字及相应的预测概率;
统计所包含文字的文字个数,并根据各所述文字的预测概率及所述文字个数,确定所述校正文本图像的预测概率平均值;
将最大预测概率平均值对应的校正文本图像作为目标文本图像,并将所述目标文本图像包含的文字作为文字识别结果。
9.根据权利要求1-8任一项所述的方法,其特征在于,还包括:
将原始图像作为输入数据输入至预设的神经网络模型,获得所述原始图像的文本分数图;
通过对所述文本分数图的二值化处理及抠图处理,确定所述原始图像中的待校正文本行图像以及待校正文本行图像的文本行轮廓图像。
10.一种文本校正装置,其特征在于,包括:
获取模块,用于获取待校正文本行图像以及文本行轮廓图像,所述文本行轮廓图像为所述待校正文本行图像对应的二值化图像;
确定模块,用于确定至少一个分割数量值,并按照各所述分割数量值分别对所述文本行轮廓图像进行分割,确定所述文本行轮廓图像在各分割操作后对应的控制点集合;
校正模块,用于根据各所述控制点集合分别对所述待校正文本图像透视变换,获得相对应的各校正文本图像。
11.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至9中任一项所述的文本校正方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至9中任一项所述的文本校正方法。
CN202110182043.6A 2021-02-09 2021-02-09 一种文本校正方法、装置、计算机设备及存储介质 Pending CN114943973A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110182043.6A CN114943973A (zh) 2021-02-09 2021-02-09 一种文本校正方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110182043.6A CN114943973A (zh) 2021-02-09 2021-02-09 一种文本校正方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN114943973A true CN114943973A (zh) 2022-08-26

Family

ID=82905998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110182043.6A Pending CN114943973A (zh) 2021-02-09 2021-02-09 一种文本校正方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN114943973A (zh)

Similar Documents

Publication Publication Date Title
US10896349B2 (en) Text detection method and apparatus, and storage medium
CN109389121B (zh) 一种基于深度学习的铭牌识别方法及系统
CN110032998B (zh) 自然场景图片的文字检测方法、系统、装置和存储介质
CN110502985B (zh) 表格识别方法、装置及表格识别设备
CN110232713B (zh) 一种图像目标定位修正方法及相关设备
CN111259878A (zh) 一种检测文本的方法和设备
JP7026165B2 (ja) テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体
CN108334879B (zh) 一种区域提取方法、系统及终端设备
CN112990183B (zh) 离线手写汉字同名笔画提取方法、系统、装置
CN110443242B (zh) 读数框检测方法、目标识别模型训练方法及相关装置
CN108734161B (zh) 冠字号区域的识别方法、装置、设备及存储介质
CN110619333A (zh) 一种文本行分割方法、文本行分割装置及电子设备
CN112560862A (zh) 文本识别方法、装置及电子设备
CN112001406A (zh) 一种文本区域检测方法及装置
CN111652144A (zh) 基于目标区域融合的题目分割方法、装置、设备和介质
CN110135407B (zh) 样本标注方法及计算机存储介质
CN111652140A (zh) 基于深度学习的题目精准分割方法、装置、设备和介质
CN115546809A (zh) 基于单元格约束的表格结构识别方法及其应用
CN109508716B (zh) 一种图像文字的定位方法及装置
CN110688995B (zh) 地图查询的处理方法,计算机可读存储介质和移动终端
CN113269153B (zh) 一种表格识别方法以及装置
CN110895849A (zh) 冠字号切割定位方法、装置、计算机设备及存储介质
CN113378847B (zh) 字符分割方法、系统、计算机设备和存储介质
CN109635798A (zh) 一种信息提取方法及装置
CN115471849A (zh) 一种手写汉字图像评估方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination