CN112733837B - 文本图像的校正方法、设备及计算机可读存储介质 - Google Patents
文本图像的校正方法、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112733837B CN112733837B CN201911030274.4A CN201911030274A CN112733837B CN 112733837 B CN112733837 B CN 112733837B CN 201911030274 A CN201911030274 A CN 201911030274A CN 112733837 B CN112733837 B CN 112733837B
- Authority
- CN
- China
- Prior art keywords
- text
- block
- text block
- blocks
- target image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1475—Inclination or skew detection or correction of characters or of image to be recognised
- G06V30/1478—Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/28—Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Input (AREA)
Abstract
本申请实施例提供一种文本图像的校正方法、设备及计算机可读存储介质,该文本图像的校正方法包括:对目标图像进行检测,并确定至少两个文本块;在至少两个文本块中确定互为邻近文本块的至少一对文本块,并将至少一对文本块中每一对文本块进行合并确定出至少一个文本行;对至少一个文本行进行校正。因为利用互为邻近文本块的双向匹配关系确定了文本行,在对文本行进行扭曲校正时更加准确。
Description
技术领域
本申请实施例涉及图像处理领域,尤其涉及一种文本图像的校正方法、设备及计算机可读存储介质。
背景技术
随着科技的发展,识别图像中的文本内容在生活工作中的应用日益广泛,例如,在线教学的应用场景中,学生上传手写的作业图片或者考卷,计算机自动批改时,就需要对图像中的文本内容进行识别;又如,对证书/证件进行自动验证的场景中,也需要对证书/证件的图像中的文本内容进行识别。在对图像中的文本内容进行识别的过程中,由于图像可能是拍摄的照片、或者手写的文本,如果拍摄的文本对象没有正对镜头,有可能导致图像中的文本是歪斜的,如果拍摄的文本对象弯曲,比如书页靠近装订侧的部分容易弯曲,有可能导致图像中的文本是扭曲的,因为图像中的文本歪斜或者扭曲,导致对图像中的文本进行识别的准确度较低。
发明内容
有鉴于此,本发明实施例所解决的技术问题之一在于提供一种文本图像的校正方法、设备及计算机可读存储介质,用以克服上述问题。
第一方面,本申请实施例提供了一种文本图像的校正方法,其包括:
对目标图像进行检测,并确定至少两个文本块;在至少两个文本块中确定互为邻近文本块的至少一对文本块,并将至少一对文本块中每一对文本块进行合并确定出至少一个文本行;对至少一个文本行进行校正。
可选地,在本申请的一个实施例中,该方法还包括:
在第一文本块中心点及第二文本块中心点的连线与第一文本块横底边的夹角小于或等于预设夹角时,将第二文本块确定为第一文本块的候选文本块;
在第一文本块的候选文本块中确定第一文本块的邻近文本块。
可选地,在本申请的一个实施例中,在第一文本块的候选文本块中确定第一文本块的邻近文本块,包括:
在第一文本块的候选文本块中,将与第一文本块横向距离最近的文本块确定为第一文本块的邻近文本块。
可选地,在本申请的一个实施例中,在至少两个文本块中确定互为邻近文本块的至少一对文本块,包括:
在第二文本块是第一文本块左侧的邻近文本块,且第一文本块是第二文本块右侧的邻近文本块时,确定第一文本块和第二文本块互为邻近文本块;
和/或,在第二文本块是第一文本块右侧的邻近文本块,且第一文本块是第二文本块左侧的邻近文本块时,确定第一文本块和第二文本块互为邻近文本块。
可选地,在本申请的一个实施例中,对至少一个文本行进行校正,包括:
根据变形矩阵计算目标文本行中每一个像素点校正后的坐标。
可选地,在本申请的一个实施例中,该方法还包括:
在目标文本行中确定至少一个控制点的坐标集合;
根据目标文本行至少一个控制点的坐标集合得到变形矩阵。
可选地,在本申请的一个实施例中,根据目标文本行至少一个控制点的坐标集合得到变形矩阵,包括:
根据至少一个控制点变形前的坐标以及至少一个控制点变形后的坐标计算变形矩阵。
可选地,在本申请的一个实施例中,该方法还包括:
计算至少两个文本块的倾斜角度的平均值,将倾斜角度平均值作为文本区域的倾斜角度;
根据目标图像中文本区域的倾斜角度对目标图像的文本区域旋转校正。
可选地,在本申请的一个实施例中,计算至少两个文本块的倾斜角度的平均值,包括:
确定至少两个文本块中每个文本块的最小外接矩形,根据每个文本块的最小外接矩形的底边计算每个文本块的倾斜角度;
根据每个文本块的倾斜角度计算至少两个文本块的倾斜角度的平均值。
可选地,在本申请的一个实施例中,对目标图像进行检测,并确定至少两个文本块,包括:
确定目标图像中的文本区域;对文本区域进行检测,并确定至少两个文本块。
可选地,在本申请的一个实施例中,确定目标图像中的文本区域,包括:
对目标图像进行二值化处理,得到目标图像的二值化图像;根据目标图像的二值化图像确定目标图像的文本区域。
可选地,在本申请的一个实施例中,确定目标图像中的文本区域,包括:
将目标图像输入文本检测神经网络,得到目标图像的能量图,对能量图进行二值化处理,得到能量图的二值化图像;对目标图像进行二值化处理,得到目标图像的二值化图像;利用能量图的二值化图像对目标图像的二值化图像进行掩膜处理,确定目标图像中的文本区域。
第二方面,本申请实施例提供了一种电子设备,该设备包括:至少一个处理器;存储器,用于存储至少一个程序;
当至少一个程序被至少一个处理器执行时,使得至少一个处理器实现本申请任一实施例中所描述的方法。
第三方面,本申请实施例提供了一种计算机可读存储介质,该存储介质存储有计算机程序。
本申请实施例中,对目标图像进行检测,并确定至少两个文本块;在至少两个文本块中确定互为邻近文本块的至少一对文本块,并将至少一对文本块中每一对文本块进行合并确定出至少一个文本行;对至少一个文本行进行校正。因为利用互为邻近文本块的双向匹配关系确定了文本行,在对文本行进行扭曲校正时更加准确。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本申请实施例的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比值绘制的。附图中:
图1为本申请实施例提供的一种文本图像校正的流程图;
图2为本申请实施例提供的一种文本区域检测神经网络的结构图;
图3为本申请实施例提供的一种文本区域中文本块检测的效果图;
图4为本申请实施例提供的一种形态学膨胀的效果图;
图5为本申请实施例提供的一种合并后的文本行的效果图;
图6为本申请实施例提供的一种文本行扭曲校正的效果图;
图7为本申请实施例提供的一种电子设备的结构图。
具体实施方式
下面结合本发明实施例附图进一步说明本发明实施例具体实现。
实施例一
本申请实施例一提供一种文本图像的校正方法,如图1所示,图1为本申请实施例提供的一种图像文本校正方法的流程图。该图像本文校正方法包括以下步骤:
101、对目标图像进行检测,并确定至少两个文本块。
目标图像是任意一个图像,此处目标图像只是用于表示单数,并不具有任何限定。例如一张考试卷的扫描图,拍摄的照片,签名文件等图像。
可选地,在本申请的一个实施例中,可以利用神经网络对目标图像进行检测,直接确定至少两个文本块;在本申请的另一个实施例中,对目标图像进行检测,并确定至少两个文本块,包括:确定目标图像中的文本区域;对文本区域进行检测,并确定至少两个文本块。
可选地,在确定文本区域之前,还可以对目标图像进行预处理,预处理可以包括:根据预设的尺寸调整目标图像的尺寸大小。对尺寸过大的图像进行缩小,对尺寸过小的可以进行放大。
例如,预设的尺寸可以包括,预设的宽度Nw和预设的高度Nh;当目标图像的宽度w大于Nw且同时目标图像的高度h大于Nh时,对目标图像的高度和宽度进行同比例缩放,缩放比例为ZR=min(NW/w,NH/h),min(NW/w,NH/h)表示在目标图像的宽度和预设的宽度之比与目标图像的高度和预设的高度之比之间取最小值,而使尺寸过大的目标图像的尺寸大小符合检测的标准尺寸,这样既省去了人工定制目标图像版面的步骤,同时也保证了检测信息的完整性和准确性。
此处,列举两种实现方式说明如何确定目标图像中的文本区域,当然,此处只是示例性说明,并不代表本公开局限于此。
在第一种可选地实现方式中,确定目标图像中的文本区域,包括:
对目标图像进行二值化处理,得到目标图像的二值化图像;根据目标图像的二值化图像确定目标图像的文本区域。
对目标图像进行二值化处理后,目标图像中每个像素的像素只有两个,例如,每个像素的像素值可以是0或者255,使得目标图像中文本区域的轮廓更加清晰、明确,便于确认目标图像的文本区域。
在第二种可选地实现方式中,确定目标图像中的文本区域,包括:将目标图像输入文本区域检测神经网络,得到目标图像的能量图,对能量图进行二值化处理,得到能量图的二值化图像;对目标图像进行二值化处理,得到目标图像的二值化图像;利用能量图的二值化图像对目标图像的二值化图像进行掩膜处理,确定目标图像中的文本区域。
此处,举例说明如何将目标图像输入文本区域检测神经网络进行检测,例如,利用TextSnake文本检测神经网络检测目标图像,TextSnake文本检测神经网络结构如图2所示,stage1表示第一阶段,stage2表示第二阶段……,f1表示第一阶段卷积后的输出值,f2表示第二阶段卷积后的输出值……,h1=f5,h1表示第一次合并函数运算后的输出值,h2表示第二次合并函数运算后的输出值……,conv表示卷积运算,“32,/2”表示卷积核个数为32,卷积运算时滑动步长为2,deconv表示反卷积运算,“deconv,×2”表示两次反卷积运算,“conv1×1,32”表示卷积运算,卷积核大小为1×1的矩阵,卷积核个数为32个。
利用TextSnake文本检测神经网络对目标图像进行检测后,得到目标图像的能量图,可以根据该能量图确定目标图像的文本区域。可选地,在一个实施例中,确定目标图像中的文本区域,包括:将所述目标图像输入文本检测神经网络,得到所述目标图像的能量图,对所述能量图进行二值化处理,得到所述能量图的二值化图像;对所述目标图像进行二值化处理,得到所述目标图像的二值化图像;利用所述能量图的二值化图像对所述目标图像的二值化图像进行掩膜处理,确定所述目标图像中的文本区域。对该能量图进行二值化处理,即将该能量图上的像素点的灰度值设置为0或255,将整个图像呈现出明显的黑白效果,利用这种方法确定目标图像的文本区域,能够更好的去除目标图像中的图形近似文字的图案对检测目标文本结果的影响,使确定的文本区域更加准确。
对于在文本区域中确定至少两个文本块,可以通过检测文本区域中的连通域确定文本区域中的至少两个文本块。通过图像处理算法检测基于神经网络检测的文本区域中的连通域。在本申请中,连通域指的是文本块所在的封闭区域,连通域可以等同于文本块。
此处列举一个例子说明如何通过检测文本区域的连通域确定文本区域中的至少两个文本块,如图3所示,图3中示出了目标图像的文本区域,虚线框表示连通域,一个连通域可以表示一个文本块,虚线框也可以表示文本块的最小外接矩形,文本块的最小外接矩形指的是将该文本块包围起来的最小矩形。
可选地,步骤101之前还可以对文本区域进行旋转校正,根据确定的至少两个文本块的倾斜角度的平均值旋转校目标图像的文本区域。
可选地,在本申请的一个实施例中,该方法还包括:计算至少两个文本块的倾斜角度的平均值,将倾斜角度平均值作为文本区域的倾斜角度;根据目标图像中文本区域的倾斜角度对目标图像的文本区域旋转校正。
文本块的倾斜角度可以用该文本块最小外接矩形的底边与目标图像的底边的夹角来表示。进一步的,计算至少两个文本块的倾斜角度的平均值,包括:确定至少两个文本块中每个文本块的最小外接矩形,根据每个文本块的最小外接矩形的底边计算每个文本块的倾斜角度;根据每个文本块的倾斜角度计算至少两个文本块的倾斜角度的平均值。
此处,列举一个具体的应用场景说明如何进行旋转校正,例如:在目标图像中,对至少两个文本块进行形态学膨胀;形态学膨胀是指将文本块背景中的像素点合并到该文本块中,使文本块的边界向外部扩张,如图4所示;图4表示出了膨胀前后的像素点变化效果。形态学膨胀之后,文本块的轮廓更加清晰,从目标图像中确定至少两个文本块;确定至少两文本块的最小外接矩形;根据至少两个文本块的最小外接矩形的底边的倾斜角度(最小外接矩形的底边与目标图像底边的夹角);计算至少两个文本块的倾斜角度的平均值;根据倾斜角度的平均值对文本区域进行旋转校正,具体的,利用公式1计算文本区域中旋转校正后的像素点的坐标,公式如下:
其中(x0,y0)是校正前的像素点坐标,(x,y)表示校正后的像素点坐标,θ表示倾斜角度的平均值。
102、在至少两个文本块中确定互为邻近文本块的至少一对文本块,并将至少一对文本块中每一对文本块进行合并确定出至少一个文本行。
在目标图像中,可以至少一对互为邻近的文本块对,可以确定一对文本块,然后将这一对文本块进行合并,再确定下一对文本块;也可以将目标图像中的所有互为邻近的文本块对全部确定完后,再将每一对文本块进行合并。本申请对此不做限制。
需要说明的是,以第一文本块和第二文本块为例,第一文本块是第二文本块的邻近文本块,并且第二文本块是第一文本块的邻近文本块,则将第一文本块和第二文本块确定为互为邻近文本块的一对文本块。在本申请中,互为邻近文本块的匹配过程即为双向匹配,此处,列举一个具体示例说明如何确定邻近文本块。
可选地,在本申请的一个示例中,该方法还包括:在第一文本块中心点及第二文本块中心点的连线与第一文本块最小外接矩形的横底边的夹角小于或等于预设夹角时,将第二文本块确定为第一文本块的候选文本块;在第一文本块的候选文本块中确定第一文本块的邻近文本块。
可选地,在本申请的一个实施例中,在第一文本块的候选文本块中确定第一文本块的邻近文本块,包括:
在第一文本块的候选文本块中,将与第一文本块横向距离最近的文本块确定为第一文本块的邻近文本块。
可选地,在本申请的一个实施例中,在至少两个文本块中确定互为邻近文本块的至少一对文本块,包括:
在第二文本块是第一文本块左侧的邻近文本块,且第一文本块是第二文本块右侧的邻近文本块时,确定第一文本块和第二文本块互为邻近文本块;
和/或,在第二文本块是第一文本块右侧的邻近文本块,且第一文本块是第二文本块左侧的邻近文本块时,确定第一文本块和第二文本块互为邻近文本块。具体的,此处列举一个具体的应用场景进行说明:
在确定的至少两个文本块中,当第一文本块中心点及第二文本块中心点的连线与第一文本块横底边的夹角小于或等于预设夹角时,将第二文本块确定为第一文本块的候选文本块;
在第一文本块的候选文本块中,将与第一文本块横向左侧位置距离最近的文本块确定为第一文本块的左侧最邻近文本块;
在第一文本块的候选文本块中,将与第一文本块横向右侧位置距离最近的文本块确定为第一文本块的右侧最邻近文本块;
若第一文本块的左侧没有文本块的中心点和第一文本块中心点连线和第一文本块横底边的夹角小于或等于预设夹角的文本块,则确定第一文本块的左侧为空;
若第一文本块的右侧没有文本块中心点和第一文本块中心点连线和第一文本块横底边的夹角小于或等于预设夹角的文本块,则确定第一文本块的右侧为空;
按照从左到右的横向位置关系,将确定的最邻近文本块进行匹配;
遍历在文本区域中检测到的所有文本块,确定所有文本块的左侧最邻近文本块和右侧最邻近文本块。
按照横向位置合并匹配的文本块,根据合并的文本块的外接矩形构建文本行矩形框根据构建的文本行矩形框确定文本区域的文本行。
如图5所示,图5为本申请实施例提供的一种文本行示意图;图5表示根据图3中确定的文本块,检测各个文本块的最邻近文本块,将互为邻近文本块的两个文本块进行合并,确定合并的文本块所在的文本行。
103、对至少一个文本行进行校正。
可选地,在本申请的一个实施例中,对至少一个文本行进行校正可以包括:对至少一个文本行进行扭曲校正。
具体的,在一个可选的实现方式中,对至少一个文本行进行校正,包括:确定目标文本行至少一个控制点的坐标集合,并根据目标文本行至少一个控制点的坐标集合得到变形矩阵;根据变形矩阵计算目标文本行中每一个像素点校正后的坐标。
可选地,在本申请的一个实施例中,根据目标文本行至少一个控制点的坐标集合得到变形矩阵,包括:根据至少一个控制点变形前的坐标以及至少一个控制点变形后的坐标计算变形矩阵。如图6所示,图6为本申请实施例提供的一种扭曲校正的效果图。
此处,列举一个具体的应用场景进行说明:检测至少一个文本行的高度h和宽度w;对至少一个文本行进行形态学膨胀;对形态学膨胀后的文本行进行二值化处理,得到文本行的二值化图像;确定至少一个文本行中每个文本行的轮廓,以文本行的左上角顶点为坐标原点,计算文本行轮廓的中心点坐标集合S,设文本行宽度所在方向为x方向,以文本行高度所在方向为y方向,此时集合S中的每个象素点坐标如公式2所示,
其中,yi1代表横坐标为xi的这一列点的上轮廓点的纵坐标,yi2代表横坐标为xi的这一列点的下轮廓点的纵坐标。
通过最小二乘法曲线拟合对文本行轮廓中心点坐标S进行三次曲线拟合,解算得到文本行的脊线;
根据轮廓中心点数据集合及最小二乘法拟合曲线得到变形矩阵M。
利用变形矩阵M,计算文本行中像素点v扭曲校正后的坐标f(v),此处以像素v为例,v是文本行中任意一个像素,不代表任何限定,计算方法如公式3所示:
f(v)=(x-p′)M+q′ (公式3)
公式3中,x是文本行中扭曲校正前像素点v的坐标,p'和q'是分别是扭曲校正前后各个控制顶点坐标的加权平均位置,如公式6和7,p'为扭曲校正前的预设的各个控制顶点的坐标的加权平均值,q'为扭曲校正后的预设的各个控制顶点的坐标加权平均值,p′和q′成对存在。矫正之后的点位置坐标计算方式如位置3;
其中,(x-p')计算文本行的每个像素点到加权平均位置的距离;用文本行上的像素点的坐标x减去p',乘以扭曲变形矩阵M,然后加上q′,即为扭曲校正后的像素点v的坐标。
可选地,变形矩阵M可以按照公式4和公式5计算得到:
P′i=pi-p′,Q′i=qi-q′ (公式5)
其中,P′i=pi-p′,即向量相减,pi横坐标减去p'横坐标,pi纵坐标减去p'纵坐标,得到P'i,P'i是一个1×2的矩阵;
Q′i=qi-q′,即向量相减,qi横坐标减去q'横坐标,qi纵坐标减去q'纵坐标,得到Q′i,Q′i是一个1×2的矩阵。
在文本行中选择n个控制点,分别为p1,p2,p3,……pi,对于原图上的像素点v,wi作为权重去加权平均这些控制点的位置,如公式6所示,
对于扭曲校正后的控制点q′,wi作为权重去加权平均这些点的位置,如公式7所示,
公式5中,P是扭曲校正前的各个控制顶点的坐标构成的矩阵,Q是扭曲校正后的各个控制顶点的坐标构成的矩阵,wi是文本行的像素点到控制顶点pi的距离倒数,x为像素点v的坐标,如公式8所示:
本申请实施例中,对目标图像进行检测,并确定至少两个文本块;在至少两个文本块中确定互为邻近文本块的至少一对文本块,并将至少一对文本块中每一对文本块进行合并确定出至少一个文本行;对至少一个文本行进行校正。因为利用互为邻近文本块的双向匹配关系确定了文本行,在对文本行进行扭曲校正时更加准确。
实施例二、
本申请实施例提供了一种电子设备,本申请实施例提供了一种电子设备,如图7所示,图7为本申请实施例提供的一种电子设备的结构图,该电子设备70包括:至少一个处理器701;存储器702,存储器存储有至少一个程序712,至少一个处理器701和存储器702电连接,当至少一个程序被至少一个处理器701执行时,使得至少一个处理器701实现如实施例一中所描述的方法。
可选地,在本申请的一个实施例中,该电子设备70还包括:总线703和通信接口704,至少一个处理器701、存储器702和通信接口704通过总线703相互连接并通信。
实施例三、
基于上述实施例一描述的文本图像的校正方法,本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序,该计算机程序被处理器执行时实现如实施例一中所描述的方法。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有数据交互功能的电子设备。
至此,已经对本主题的特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作可以按照不同的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序,以实现期望的结果。在某些实施方式中,多任务处理和并行处理可以是有利的。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本申请的实施例可提供为方法、装置、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定事务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行事务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (11)
1.一种文本图像的校正方法,其特征在于,包括:
对目标图像进行检测,并确定至少两个文本块;
在所述至少两个文本块中确定互为邻近文本块的至少一对文本块,并将所述至少一对文本块中每一对文本块进行合并确定出至少一个文本行;
对所述至少一个文本行进行校正,其包括:
在目标文本行中确定至少一个控制点的坐标集合;
根据所述至少一个控制点变形前的坐标以及所述至少一个控制点变形后的坐标计算变形矩阵;
根据所述变形矩阵、所述目标文本行中每一个像素点校正前的坐标到所述至少一个控制点变形前的坐标的加权平均位置的距离、所述至少一个控制点变形后的坐标的加权平均位置,计算所述目标文本行中每一个像素点校正后的坐标。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在第一文本块中心点及第二文本块中心点的连线与所述第一文本块横底边的夹角小于或等于预设夹角时,将所述第二文本块确定为所述第一文本块的候选文本块;
在所述第一文本块的候选文本块中确定所述第一文本块的邻近文本块。
3.根据权利要求2所述的方法,其特征在于,在所述第一文本块的候选文本块中确定所述第一文本块的邻近文本块,包括:
在所述第一文本块的候选文本块中,将与所述第一文本块横向距离最近的文本块确定为所述第一文本块的邻近文本块。
4.根据权利要求2所述的方法,其特征在于,在所述至少两个文本块中确定互为邻近文本块的至少一对文本块,包括:
在所述第二文本块是所述第一文本块左侧的邻近文本块,且所述第一文本块是所述第二文本块右侧的邻近文本块时,确定所述第一文本块和所述第二文本块互为邻近文本块;
和/或,在所述第二文本块是第一文本块右侧的邻近文本块,且所述第一文本块是所述第二文本块左侧的邻近文本块时,确定所述第一文本块和所述第二文本块互为邻近文本块。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
计算所述至少两个文本块的倾斜角度的平均值,将所述倾斜角度平均值作为文本区域的倾斜角度;
根据所述目标图像中文本区域的倾斜角度对所述目标图像的文本区域旋转校正。
6.根据权利要求5所述的方法,其特征在于,计算所述至少两个文本块的倾斜角度的平均值,包括:
确定所述至少两个文本块中每个文本块的最小外接矩形,根据每个文本块的最小外接矩形的底边计算每个文本块的倾斜角度;
根据每个文本块的倾斜角度计算所述至少两个文本块的倾斜角度的平均值。
7.根据权利要求1-6任一项所述的方法,其特征在于,对目标图像进行检测,并确定至少两个文本块,包括:
确定所述目标图像中的文本区域;
对所述文本区域进行检测,并确定所述至少两个文本块。
8.根据权利要求7所述的方法,其特征在于,确定所述目标图像中的文本区域,包括:
对所述目标图像进行二值化处理,得到所述目标图像的二值化图像;
根据所述目标图像的二值化图像确定所述目标图像的文本区域。
9.根据权利要求7所述的方法,其特征在于,确定所述目标图像中的文本区域,包括:
将所述目标图像输入文本检测神经网络,得到所述目标图像的能量图,对所述能量图进行二值化处理,得到所述能量图的二值化图像;
对所述目标图像进行二值化处理,得到所述目标图像的二值化图像;
利用所述能量图的二值化图像对所述目标图像的二值化图像进行掩膜处理,确定所述目标图像中的文本区域。
10.一种电子设备,其特征在于,包括;
至少一个处理器;
存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现权利要求1-9任一项所述的方法。
11.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-9的任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911030274.4A CN112733837B (zh) | 2019-10-28 | 2019-10-28 | 文本图像的校正方法、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911030274.4A CN112733837B (zh) | 2019-10-28 | 2019-10-28 | 文本图像的校正方法、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112733837A CN112733837A (zh) | 2021-04-30 |
CN112733837B true CN112733837B (zh) | 2022-08-02 |
Family
ID=75589179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911030274.4A Active CN112733837B (zh) | 2019-10-28 | 2019-10-28 | 文本图像的校正方法、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112733837B (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103413271B (zh) * | 2013-07-18 | 2016-03-02 | 西安交通大学 | 基于局部信息的文档图像校正方法 |
CN104809483B (zh) * | 2014-01-26 | 2019-04-05 | 科大讯飞股份有限公司 | 实现任意方向书写文本行切分的方法及系统 |
US9576348B2 (en) * | 2014-11-14 | 2017-02-21 | Adobe Systems Incorporated | Facilitating text identification and editing in images |
CN106991649A (zh) * | 2016-01-20 | 2017-07-28 | 富士通株式会社 | 对摄像装置所捕获的文档图像进行校正的方法和装置 |
CN109697414B (zh) * | 2018-12-13 | 2021-06-18 | 北京金山数字娱乐科技有限公司 | 一种文本定位方法及装置 |
CN109657629B (zh) * | 2018-12-24 | 2021-12-07 | 科大讯飞股份有限公司 | 一种文本行提取方法及装置 |
-
2019
- 2019-10-28 CN CN201911030274.4A patent/CN112733837B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112733837A (zh) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112348815B (zh) | 图像处理方法、图像处理装置以及非瞬时性存储介质 | |
CN110135424B (zh) | 倾斜文本检测模型训练方法和票证图像文本检测方法 | |
US9552642B2 (en) | Apparatus and method for tracking object using feature descriptor, and apparatus and method for removing garbage feature | |
US8509536B2 (en) | Character recognition device and method and computer-readable medium controlling the same | |
US8538077B2 (en) | Detecting an interest point in an image using edges | |
US10140691B2 (en) | Correcting perspective distortion in double-page spread images | |
US20100033603A1 (en) | Method for extracting raw data from an image resulting from a camera shot | |
CN110427946B (zh) | 一种文档图像二值化方法、装置和计算设备 | |
CN110163786B (zh) | 一种去除水印的方法、装置及设备 | |
WO2022134771A1 (zh) | 表格处理方法、装置、电子设备及存储介质 | |
CN110428414B (zh) | 一种识别图像中票据数量的方法及装置 | |
CN107545223B (zh) | 图像识别方法及电子设备 | |
CN110853488B (zh) | 一种poi标签显示方法、装置和设备 | |
CN105427333A (zh) | 视频序列图像的实时配准方法、系统及拍摄终端 | |
CN110070491A (zh) | 银行卡图片矫正方法、装置、设备及存储介质 | |
CN108960012B (zh) | 特征点检测方法、装置及电子设备 | |
CN111104941B (zh) | 图像方向纠正方法、装置及电子设备 | |
CN110827301B (zh) | 用于处理图像的方法和装置 | |
CN110458954B (zh) | 一种等高线生成方法、装置及设备 | |
CN114742722A (zh) | 文档矫正方法、装置、电子设备及存储介质 | |
CN115082935A (zh) | 用于对文档图像进行矫正的方法、设备及存储介质 | |
CN115937003A (zh) | 图像处理方法、装置、终端设备和可读存储介质 | |
CN112700391B (zh) | 一种图像处理方法、电子设备及计算机可读存储介质 | |
CN112733837B (zh) | 文本图像的校正方法、设备及计算机可读存储介质 | |
CN112507938A (zh) | 一种文本图元的几何特征计算方法及识别方法、装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |