CN105184294B - 一种基于像素追踪的倾斜文字判断识别方法 - Google Patents

一种基于像素追踪的倾斜文字判断识别方法 Download PDF

Info

Publication number
CN105184294B
CN105184294B CN201510609646.4A CN201510609646A CN105184294B CN 105184294 B CN105184294 B CN 105184294B CN 201510609646 A CN201510609646 A CN 201510609646A CN 105184294 B CN105184294 B CN 105184294B
Authority
CN
China
Prior art keywords
text
pixel
image
point
stroke
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510609646.4A
Other languages
English (en)
Other versions
CN105184294A (zh
Inventor
陈炳章
何宏靖
刘世林
吴雨浓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Business Big Data Technology Co Ltd
Original Assignee
Chengdu Business Big Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Business Big Data Technology Co Ltd filed Critical Chengdu Business Big Data Technology Co Ltd
Priority to CN201510609646.4A priority Critical patent/CN105184294B/zh
Publication of CN105184294A publication Critical patent/CN105184294A/zh
Application granted granted Critical
Publication of CN105184294B publication Critical patent/CN105184294B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/243Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/333Preprocessing; Feature extraction
    • G06V30/347Sampling; Contour coding; Stroke extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/30Writer recognition; Reading and verifying signatures
    • G06V40/33Writer recognition; Reading and verifying signatures based only on signature image, e.g. static signature recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图像识别领域,特别涉及一种基于像素追踪的倾斜文字判断识别方法;在图像文字识别中,通过选择一个行向量,把该行向量与文字笔画相交的左右两侧交点的坐标点提取出来;以左右两侧的交点为起点分别向左下和右下两个方向追踪对应笔画的边缘点,并将追踪结果分别存于Vector1,Vector2中;通过对比两个类元素数量的大小确定文字的倾斜方向,并将较大类中最小的倾斜角度作为文字的倾斜角度。通过本发明方法实现倾斜角度判断的计算量小,判断结果准确度高,实时性好。此外本发明在判断出文字倾斜方向和角度的基础上,通过仿射变换将图像中倾斜的文字矫正,解决了文字切分难题,在图像文字识别领域有广阔的应用前景。

Description

一种基于像素追踪的倾斜文字判断识别方法
技术领域
本发明涉及图像识别领域,特别涉及一种基于像素追踪的倾斜文字判断识别方法。
背景技术
随着社会的发展和科技的进度,种类繁多的视听设备丰富了人们的日常生活;具有拍照、摄像功能的电子设备随处可见,并随着智能手机的普及逐渐渗透到每个人的日常生活中,大量的视听设备产生了数量巨大的图像、影像,并伴随着网络的发展和社交平台的分享而快速传播;大量的图像传播的同时,人们对于图像识别和图像搜索技术的需求也在快速增长,可以说图像识别和图像搜索将成为搜索技术的发展方向。
在众多的图像识别技术中,对图像文字的识别技术显得尤为重要,这是因为图像文字往往比单纯图像包含更加重要的可利用信息,而且图像文字识别技术所应用的领域也很重要,比如说:银行签名的识别,交通管理网络中对于车牌号的追踪和识别,网络安全中对于验证码的识别;这些应用都关系到重要的经济活动或者社会管理活动。
目前图像文字识别中的难点在于:常见的待识别图像文字中往往包含各种噪声的干扰,比如说背景噪声、线条噪声、污染物噪声等;而且图像中的文字往往还具有一些扭曲特征,比如说旋转、倾斜等,目前在去除噪声干扰方面已经取得了良好的效果;但是对于倾斜等扭曲特征的判断和矫正仍然困难重重;而且现有技术中在进行图像中文字的识别时,首先需要将图像中的字符串切分开,形成包含单个文字的小图片,然后使用一定的方法对切分后的文字进行识别。而进行文字切分最常用的方法为投影法,即是将图像文字二值化处理后,通过垂直投影找到两个文字之间的分界线,根据分界线将文字切分开来。这样的切分方式在文字有倾斜的情况下,会变得比较复杂;因为文字倾斜的时候,相邻文字间经过垂直投影后的像素点可能会有重叠,这样就无法找到两个文字之间正常的界限;进而不能有效的对文字进行切分。
将倾斜的文字矫正,对于图像识别的意义重大;想要矫正倾斜文字,首先需要识别出文字倾斜方向和角度。目前有采用Hough变换的方法来得到倾斜的角度,进而对文字进行矫正,但是该方法的计算量特别大,很难满足识别的实时性的需求。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供一种基于像素追踪的倾斜文字判断识别方法。本方法在图像中选取一行向量,通过将该行向量与文字每个笔画上的左右两侧的交点作为起始点,分别向左右两个方向追踪笔画的边缘点。如果笔画向左(或向右)倾斜,那么向右(或向左)寻找的像素数量就非常有限,若追踪到的像素点数量达到设置的阈值,则认为此次追踪有效;计算每次追踪的起点到终点的倾斜角度,通过分别统计向左和向右有效追踪类元素的个数,确定文字的倾斜方向。在此基础上,将对应类中最小的角度确定为文字的倾斜角度。通过本发明方法来判断文字倾斜角度的计算量较小,科学准确,实现过程简单,便于使用,具有较好的实时性。
为了实现上述发明目的,本发明提供了以下技术方案:
一种图像识别中倾斜文字判断方法,包含以下实现步骤:
(1-1)在图像中选择一行向量,确定该行向量与图像中文字每个笔画相交的最左侧像素点坐标值和最右侧像素点坐标值。
(1-2)以所述行向量与每个笔画相交的最左侧像素点为起点,向左下方追踪对应笔画的边缘点,并将判断结果存于Vector1中;具体的判断过程如下:
以所述行向量与每个相交笔画的最左侧像素点为起点;优先判断与其相邻的左下方像素点是否为0;如果为0,则以上一像素点为基础继续判断与其相邻的左下方像素点是否为0;
否则,以上一像素点为基础判断其正下方的像素点是否为0;依次循环,直到某点相邻的左下方和正下方像素点均不为0,结束判断;并将该点作为此次判断的终点。
下面以其中一个最左侧像素点(第一左侧交点A)坐标(XA,YA)为例说明判断过程:
(1-2-1)以第一左侧交点A点为起点,首先判断A点的相邻左下方像素点A1的灰度值是否为0(灰度值为0表示该像素点颜色为黑色);如果为0,则以A1点为新的起点,继续判断该点A1相邻的左下方像素点A11的灰度值是否为0;
否则,以第一左侧交点A为基础判断该点(A)的正下方像素点A2的灰度值是否为0,如果为0,则以A2为基础判断其左下方像素点(A21)的坐标值是否为0;依次循环;
(1-2-2)直到判断出某点的左下方像素点和正下方像素点的灰度值均不为0,结束判断,并以该点为本次判断的终点(第一左侧终点AEND),假设坐标值为
(1-2-3)判断A,AEND两点之间的距离h是否达到预设的阈值Q;如果达到阈值,则认为该终点为有效终点AEND有效;
(1-2-4)计算A),(AEND两点之间的正切值:并将该值存于类Vector1中。
(1-3)以所述行向量与每个笔画相交的最右侧像素点为起点,向右下方追踪对应笔画的边缘点,并将判断结果存于Vector2中;具体的判断过程如下:
以所述行向量与每个相交笔画的最右侧像素点为起点;优先判断与其相邻的右下方像素点是否为0;如果为0,则以上一像素点为基础判断与其相邻的右下方像素点是否为0;
否则,以上一像素点为基础判断与其相邻的正下方像素点是否为0;依次循环,直到某点相邻的右下方和正下方像素点均不为0,结束判断;并将该点作为此次判断的终点。
下面以其中一个最右侧交点(第一右侧交点B)坐标(XB,YB)为起点为例说明判断过程:
(1-3-1)首先判断与B点相邻的右下方像素点B1的灰度值是否为0;如果为0,判断该点(B1)相邻的右下方像素点B11的灰度值是否为0;
否则,以B点为基础,判断与其相邻的正下方像素点B2的灰度值是否为0;如果为0,则以B2为基础判断与其相邻的右下方像素点B21的坐标值是否为0;依次循环;
(1-3-2)直到判断出某点的右下方像素点和正下方像素点的灰度值均不为0,结束判断,并以该点为终点(第一右侧终点BEND),假设坐标值为
(1-3-3)判断B,BEND两点之间的距离h是否达到预设的阈值Q;如果达到阈值,则认为该终点为有效终点BEND有效;
(1-3-4)计算B,BEND两点之间的正切值:并将该值存于类Vector2中。
(1-4)比较Vector1与Vector2的元素个数;如果Vector1>Vector2,则判定文字向右倾斜;如果Vector1<Vector2,则判定文字向左倾斜。
(1-5)将选择所述Vector1与Vector2中元素较多的类,作为倾斜角度判断的依据;选择其中正切值最小的对应角度值θ作为文字的倾斜角度。
在判断出文字的倾斜方向和倾斜角度的基础上,本发明提供一种图像识别中倾斜文字的矫正方法,在倾斜角度θ的基础上,通过仿射变换来实现倾斜文字的矫正。具体的过程包含以下实现步骤:
(2-1)在源图像上选择3组坐标值,根据倾斜角度,计算出矫正后的目标图像上的对应坐标值。
作为一种优选,若文字向左倾斜θ,则源图像上的三组点坐标为:(0,0),(image.cols-1,0),(image.cols-1,image.rows-1),对应(第一行,第一列)、(第一行,最后一列)、(最后一行,最后一列)坐标;目标图像上的三组坐标为:((image.rows-1)*tanθ/2,0),(image.cols-1,0),(image.cols-1-(image.rows-1)*tanθ/2,image.rows-1)。
或者,若文字向右倾斜,则源图像上的三组点坐标为:(0,0),(image.cols-1,0),(0,image.rows-1);目标图像上对应的三组坐标为:(0,0),((image.cols-1-((image.rows-1)*tanθ/2),0),((image.rows-1)*tanθ/2,image.rows-1),其中image.rows-1是图像最后一行的行坐标值,image.cols-1是图像最后一列的列坐标值。
(2-2)根据目标图像和源图像的坐标对应关系,计算出对应的仿射变换矩阵M。
(2-3)利用计算出来的仿射变换矩阵M将源图像的对应像素点映射到目标图像上,实现对倾斜文字图像的矫正。
作为一种优选,所述步骤(2-2)中仿射变换矩阵M的计算采用getAffineTransform函数。
作为一种优选,所述步骤(2-3)中的矫正映射采用warpAffine函数来实现。
与现有技术相比,本发明的有益效果:本发明提供一种基于像素追踪的倾斜文字判断识别方法,通过在图像文字选择一个行向量,找出所述行向量与文字每个笔画相交的最左侧像素点和最右侧像素点,以上述像素点为基础,分别向左下方和右下方追踪对应笔画的边缘点,判断方式简单可行,可靠性高;当追踪距离大于设定的阈值时,判断该次追踪有效,通过设置阈值来消除笔画局部复杂性对倾斜角度判断结果的影响,提高判断的准确性。通过比较向左右两侧有效追踪的数量,判断出文字的倾斜方向;此过程根据统计原理,科学可信,计算量小,实现过程简单。在判断出倾斜方向的基础上,选择对应类中起点到终点的最小倾斜角度作为图像文字的倾斜角度,这样的倾斜角度判断方式,排除了笔画本身复杂性对倾斜角度判断结果的干扰。对倾斜角度的判断准确,计算量小,实时性好。
此外本发明在判断出文字倾斜方向和倾斜角度的基础上通过仿射变换算法将倾斜文字矫正,矫正后的图像文字在进行识别时便于切分,可提高图像文字的识别准确率,在图像文字识别领域有广阔的应用前景。
附图说明:
图1为本基于像素追踪的倾斜文字判断识别方法的流程示意图。
图2为本基于像素追踪的倾斜文字判断识别方法中所述步骤(1-2)流程示意图。
图3为所述步骤(1-2)中向左下方追踪的像素点位置示意图。
图4为本基于像素追踪的倾斜文字判断识别方法中所述步骤(1-3)流程示意图。
图5为所述步骤(1-3)中向右下方追踪的像素点位置示意图。
图6为实施例1起始像素点选择简化示意图。
图7为图6局部简化放大示意图。
图8为图7中以最左侧交点为基础向左下搜索像素点示意图。
图9为图8中起点到终点的倾斜角度示意图。
图10为实施例1以左侧交点为起点向左下方追踪笔画边缘的像素点判断结果示意图。
图11为图10的简化示意图。
图12为图9的倾斜角度示意图。
图13为实施例1为实施例1以右侧交点为起点向右下方追踪笔画边缘的像素点判断结果示意图。
图14为图13的倾斜结果示意图。
图15为通过本发明方法进行倾斜矫正前后图像文字对比示意图。
需要说明的是,本发明所有附图均为示意性的,不代表实际的尺寸和比例。为了更加清楚的说明像素点追踪的过程,附图中将图像文字轮廓化,不代表真实二值化颜色。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
本发明提供一种基于像素追踪的倾斜文字判断识别方法。在图像中选取一行向量,通过将该行向量与文字每个笔画上的左右两侧的交点作为起始点,分别向左右两个方向追踪笔画的边缘点。如果笔画向左(或向右)倾斜,那么向右(或向左)寻找的像素数量就非常有限,若追踪到的像素点数量达到设置的阈值,则认为此次追踪有效;计算每次追踪的起点到终点的倾斜角度,通过分别统计向左和向右有效追踪类元素的个数,确定文字的倾斜方向。在此基础上,将对应类中最小的角度确定为文字的倾斜角度。通过本发明方法来判断文字倾斜角度的计算量较小,科学准确,实现过程简单,便于使用,具有较好的实时性。
为了实现上述发明目的,本发明提供了以下技术方案:
一种基于像素追踪的倾斜文字判断识别方法,包含如图1所示的以下实现步骤:
(1-1)在图像中选择一行向量,确定该行向量与图像中文字每个笔画相交的最左侧像素点坐标值和最右侧像素点坐标值。本方法以笔画边缘的倾斜角度的统计规律来确定文字的倾斜方向和倾斜角度,因此将判断的起点设置成行向量与笔画交点的最左侧或者最右侧像素点的方式方便在接下来的步骤中追踪笔画边缘像素点。此外,所述行向量的选择高度根据图像文字的具体情况而定,一般来说选择在图像文字的中间位置比较好,如果行向量的位置设置的偏低可能造成在行向量以下的笔画偏短,偏少,这样在进行笔画追踪时,就不能追踪到可用的有效笔画,造成判断失败;另外如果行向量的设置位置太高可能引起在行向量以下的笔画偏长,偏多,这样需要追踪的路径偏长,计算量大,复杂度增加,影响判断的效率。
(1-2)以所述行向量与每个笔画相交的最左侧像素点为起点,向左下方追踪对应笔画的边缘点,进而判断文字向右倾斜的可能性;具体的判断过程如图2所示:
以行向量与每个相交笔画的最左侧像素点为起点;优先判断与其相邻的左下方像素点是否为0;
如果为0,则以上一像素点为基础继续判断与其相邻的左下方像素点是否为0;
否则,以上一像素点为基础判断其正下方的像素点是否为0;
依次循环,直到某点相邻的左下方和正下方像素点均不为0,结束判断;并将该点作为此次判断的终点。
以第一左侧交点A,坐标值为(XA,YA)为例说明判断过程(像素点的位置关系如图3所示):
(1-2-1)以A点为起点,优先判断与A点的相邻左下方像素点A1(坐标值为(XA-1,YA+1))的灰度值是否为0(在二值化处理的图片中灰度值分布在0-255之间,其中灰度值为0表示该像素点颜色为黑色,而灰度为255表示该像素点颜色为白色);
如果为0,则以A1点为新的起点,判断与该点(A1)相邻的左下方像素点A11(坐标值为(XA-2,YA+2))的灰度值是否为0;
否则,则以上一像素点A为基础,判断与其相邻的正下方像素点A2(坐标值为(XA,YA+1))的灰度值是否为0,如果为0,则以该点(A2)为基础判断与其相邻的左下方像素点A21(坐标值为(XA-1,YA+2))的灰度值是否为0;依次循环;
(1-2-2)直到判断出某点相邻的左下方像素点和正下方像素点的灰度值均不为0,结束判断,并以该点为本次判断的终点(第一左侧终点AEND假设坐标值为);
(1-2-3)判断A,AEND两点之间的距离是否达到预设的阈值Q;如果h≥Q,则认为该终点为有效终点;
(1-2-4)计算A到AEND之间的正切值并将该值存于类Vector1中。
(1-3)以每个笔画的所述最右侧像素点为起点,向右下方追踪对应笔画的边缘点,进而判断该笔画向右侧倾斜的可能性;具体的判断过程如图4所示:
以行向量与每个相交笔画的最右侧像素点为起点;优先判断与其相邻的右下方像素点是否为0;
如果为0,则以上一像素点为基础判断与其相邻的右下方像素点是否为0;
否则,以上一像素点为基础判断其正下方的像素点是否为0;依次循环,直到某点相邻的右下方和正下方像素点均不为0,结束判断;并将该点作为此次判断的终点。
下面以其中一个最右侧交点(第一右侧交点B,坐标(XB,YB))为起点说明判断过程(像素点的位置关系如图5所示):
(1-3-1)首先判断与B点相邻的右下方像素点B1(坐标值为(XB+1,YB+1))的灰度值是否为0;
如果为0,判断B1相邻的右下方像素点B11(坐标值为(XB+2,YB+2))的灰度值是否为0;
否则,判断与B点相邻的正下方像素点B2(坐标值为(XB,YB+1))的灰度值是否为0,如果为0,则以B2为基础判断与其右下方像素点B21(坐标值为(XB+1,YB+2))的坐标值是否为0;依次循环;
(1-3-2)直到判断出某点相邻的右下方像素点和正下方像素点的灰度值均不为0,结束判断,并以该点为终点(第一右侧终点BEND,假设坐标值为);
(1-3-3)判断B、BEND两点之间的距离如果h≥Q,则认为该终点为有效终点。
设置判断阈值的原因在于,行向量选择的位置不同与图像中文字笔画相交的高度也有区别,在这样的情况下所切分出来的笔画可能仅仅为笔画中的一小部分,而由于文字笔画构造的复杂性切分出局部笔画的构造可能更加复杂,所对应的倾斜方向并不具有文字倾斜方向的代表性,因此必须去除太短追踪路径才能消除局部笔画对倾斜角度判断结果的影响。(1-3-4)计算BBEND两点之间的正切值并将该值存于类Vector2中。
(1-4)比较Vector1与Vector2的元素个数;如果Vector1>Vector2,则判定文字向右倾斜;如果Vector1<Vector2,则判定文字向左倾斜。
(1-5)将选择所述Vector1与Vector2中元素较多的类,作为倾斜角度判断的依据;选择其中正切值最小的对应角度值θ作为文字的倾斜角度。实际的应用中由于文字笔画构造的复杂性,在文字本身没有倾斜的情况下,文字笔画也有倾斜的可能性:比如说“文”中的“ノ”和“乀”分别向右和向左倾斜,因此对单个笔画的倾斜角度进行考察,并不足以说明文字准确的倾斜方向;但是大多数文字中都包含竖直笔画;在这种情况下,本身向某个方向倾斜的笔画在文字整体倾斜时的倾斜角度一般都大于竖直笔画的倾斜角度。因此在倾斜方向判断的基础上,将对应类中的最小倾斜角度确定为文字的倾斜角度的方式能够排除文字笔画本身复杂性的干扰,得到最合理,准确的结果。
进一步的,所述步骤(1-2)和步骤(1-3)的顺序可以调换,本发明方法通过分别向左右两个方向最终笔画的边缘点,并且通过比较有效Vector1与Vector2中元素的多少来判断文字的倾斜方向,因此笔画判断方向的先后顺序不影响最终的判断结果。
进一步的,在判断出文字的倾斜方向和倾斜角度的基础上,本发明提供一种图像识别中倾斜文字的矫正方法,在倾斜角度θ的基础上,通过仿射变换来实现倾斜文字的矫正。一般的图片旋转、倾斜、扭曲等特征都可以通过仿射变换的方法来实现,尤其是在使用机器处理图像中,使用仿射变换的方法对图像的处理效率极高,具体的过程包含以下实现步骤:
(2-1)在源图像上选择3组坐标值,根据倾斜角度θ,计算出矫正后的位置坐标值。
作为一种优选,若文字向左倾斜θ,则源图像上的三组点坐标为:(0,0),(image.cols-1,0),(image.cols-1,image.rows-1),对应(第一行,第一列)、(第一行,最后一列)、(最后一行,最后一列)坐标;目标图像上的三组坐标为:((image.rows-1)*tanθ/2,0),(image.cols-1,0),(image.cols-1-(image.rows-1)*tanθ/2,image.rows-1)。
或者,若文字向右倾斜,则源图像上的三组点坐标为:(0,0),(image.cols-1,0),(0,image.rows-1);目标图像上对应的三组坐标为:(0,0),((image.cols-1-((image.rows-1)*tanθ/2),0),((image.rows-1)*tanθ/2,image.rows-1),其中image.rows-1是图像最后一行的行坐标值,image.cols-1是图像最后一列的列坐标值。本处选择位于源图像上的边角上的坐标值作为计算的基础,这样的坐标选择的计算量最小,简单可行。在实施倾斜矫正的时候把图像的偏移距离d=(image.rows-1)tanθ,分为两等分后平均分配到第一行和最后一行点上面,这样的处理方式,可避免在进行倾斜矫正时,因单个坐标移动时带来图像位置的整体移动。
(2-2)根据目标图像和源图像的坐标对应关系,计算出对应的仿射变换矩阵M。
(2-3)利用计算出来的仿射变换矩阵M将源图像中的对应像素点映射到目标图像中。实现倾斜文字的矫正。
作为一种优选,所述步骤(2-2)中仿射变换矩阵M的计算采用getAffineTransform函数。
作为一种优选,所述步骤(2-3)中的矫正映射采用warpAffine函数来实现。
实施例1
本实施例以汉字“大中”为例说明图像文字倾斜的判定过程:如图6所示,选择一个行向量与图像文字文字每个笔画相交的最左侧和最右侧交点分别为:第一左侧交点A、第一右侧交点B、第二左侧交点C、第二右侧交点D、第三左侧交点E、第三右侧交点F、第四左侧交点G以及第四右侧交点H;如图7、图8所示。
首先以局部图像说明,以最左侧交点为起点优先向左下方追钟笔画边缘的过程:以第一左侧交点A为起点按照具体实施方式所述的过程最终到第一左侧终点AEDN;假设设定的阈值Q为10个像素点,此时A到AEDN距离h>Q,此次追踪结果有效;如图9所示,第一左侧交点A到第一左侧终点AEDN的倾斜角度为θA,将θA存于Vector1中;事实上由于第一左侧交点A对应的笔画,本身就向右倾斜,θA偏大,所以该角度并不能代表文字的真实倾斜角度。
因此如图10以及11所示,分别以第二左侧交点C、第三左侧交点E以及第四左侧交点G为起点向左下方追踪对应笔画的边缘,终点分别为第二左侧终点CEND、第三左侧终点EEND以及第四左侧终点GEND;其中C到CEND的距离以及G到CEND的距离均小于阈值Q,去除对应倾斜角θC和θG对判断结果的影响,只有E到EEND的距离大于阈值Q,将第三左侧交点E到第三左侧终点EEND的倾斜角度θE,将θE存于Vector1中;
实施例1中以最左侧交点为起点追踪对应右侧终点的的倾斜角度判断结果的简化示意图如图10所示,其中θA、θE为有效角度;
分别以第一右侧交点B、第二右侧交点D、第三右侧交点F、第四右侧交点H为起点向右下方判断对应笔画的边缘点,判断结果如图13、图14所示。可以看出向右下方追踪时,有效终点只有第一右侧交点B所对应的第一右侧终点BEND,将B到BEND所对应的倾斜角度θB存储于Vector2中。
比较Vector1和Vector2的元素个数,Vector1>Vector2;判断文字向右倾斜,倾斜角度为Vector1中最小的角度θE。
通过上述过程可以看出本方法以较小的计算量,准确的判断出了图像文字的倾斜方向和倾斜文字,实现过程简单,实时性好。本实施例其他判断过程及原理与具体实施方式相同,在此不再赘述。
此外,本发明在判断出倾斜角度和倾斜方向的基础上,采用仿射变换将倾斜的文字校正过后,矫正前后的图像文字示意如图15所示,可以看出通过本发明方法实现的倾斜矫正,效果良好,可提高图像文字的识别准确率。

Claims (9)

1.一种基于像素追踪的倾斜文字判断识别方法,其特征在于,包含以下实现步骤:
(1-1)在图像中选择一行向量,确定该行向量与图像中文字笔画相交的最左侧坐标值和最右侧坐标值;
(1-2)以所述行向量与每个笔画相交的最左侧坐标为起点,向左下方追踪对应笔画的边缘点,并将判断结果存于Vector1中;
笔画边缘点追踪包含以下实现过程:
以行向量与每个相交笔画的最左侧像素点为起点,优先判断与其相邻的左下方像素点是否为0;
如果为0,则以上一像素点为基础,判断与其相邻的左下方像素点是否为0;
否则,以上一像素点为基础判断与其相邻的正下方像素点是否为0;
依次循环,直到某点相邻的左下方像素点和正下方像素点均不为0,结束判断,并将该点作为此次判断的终点;
(1-3)以所述行向量与每个笔画相交的最右侧坐标为起点,向右下方追踪对应笔画的边缘点,并将判断结果存于Vector2中;
笔画边缘点追踪包含以下实现过程:
以行向量与每个相交笔画的最右侧像素点为起点,优先判断与其相邻的右下方像素点是否为0;
如果为0,则以上一像素点为基础判断与其相邻的右下方像素点是否为0;
否则,以上一像素点为基础判断与其相邻的正下方的像素点是否为0;
依次循环,直到某点相邻的右下方像素点和正下方像素点均不为0,结束判断,并将该点作为此次判断的终点;
所述步骤(1-2)和(1-3)中计算每次追踪起点到终点的距离h,如果h≥Q,则判定该次笔画追踪有效,其中Q为判断阈值;
(1-4)比较Vector1与Vector2的元素个数的多少;如果Vector1>Vector2,则判定文字向右倾斜;如果Vector1<Vector2,则判定文字向左倾斜。
2.如权利要求1所述的基于像素追踪的倾斜文字判断识别方法,其特征在于,还包含步骤:
(1-5)将在所述Vector1与所述Vector2相比元素较多的类中,选择其中最小的倾斜角度作为图像文字的倾斜角度。
3.如权利要求2所述的基于像素追踪的倾斜文字判断识别方法,其特征在于,所述步骤(1-2)与所述步骤(1-3)的顺序可以调换。
4.一种图像识别中倾斜文字的矫正方法,其特征在于,在权利要求1至3之一的基础上,用仿射变换的方法将倾斜文字矫正。
5.如权利要求4所述的一种图像识别中倾斜文字的矫正方法,其特征在于,包含以下实现步骤:
(2-1)在源图像上选择3组坐标值,根据方向和倾斜角度计算出矫正后对应的坐标值;
(2-2)根据目标图像和源图像对应的坐标关系,计算出对应的仿射变换矩阵M;
(2-3)利用所述仿射变换矩阵M将源图像映射到目标图像上,实现倾斜文字矫正。
6.如权利要求5所述的一种图像识别中倾斜文字的矫正方法,其特征在于,所述步骤(2-2)采用getAffineTransform函数来计算仿射变换矩阵M。
7.如权利要求6所述的一种图像识别中倾斜文字的矫正方法,其特征在于,所述步骤(2-3)中采用warpAffine函数来实现倾斜文字的矫正计算。
8.如权利要求6至7之一所述的一种图像识别中倾斜文字的矫正方法,其特征在于,若文字向左倾斜θ,所述步骤(2-1)中源图像中所选取的3组坐标值为:(0,0),(image.cols-1,0),(0,image.rows-1),目标图像上的对应坐标值为:(0,0),(image.cols-1-((image.rows-1)*tanθ/2),0),((image.rows-1)*tanθ/2,image.rows-1)。
9.如权利要求6至7之一所述的一种图像识别中倾斜文字的矫正方法,其特征在于,若文字向右倾斜θ,所述步骤(2-1)中源图像中所选取的3组坐标值为:(0,0),(image.cols-1,0),(image.cols-1,image.rows-1);目标图像上的三组坐标为:((image.rows-1)*tanθ/2,0),(image.cols-1,0),(image.cols-1-(image.rows-1)*tanθ/2,image.rows-1)。
CN201510609646.4A 2015-09-22 2015-09-22 一种基于像素追踪的倾斜文字判断识别方法 Active CN105184294B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510609646.4A CN105184294B (zh) 2015-09-22 2015-09-22 一种基于像素追踪的倾斜文字判断识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510609646.4A CN105184294B (zh) 2015-09-22 2015-09-22 一种基于像素追踪的倾斜文字判断识别方法

Publications (2)

Publication Number Publication Date
CN105184294A CN105184294A (zh) 2015-12-23
CN105184294B true CN105184294B (zh) 2018-12-04

Family

ID=54906360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510609646.4A Active CN105184294B (zh) 2015-09-22 2015-09-22 一种基于像素追踪的倾斜文字判断识别方法

Country Status (1)

Country Link
CN (1) CN105184294B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108269267B (zh) * 2017-07-28 2019-10-08 平安科技(深圳)有限公司 倾斜图像的倾斜值获取方法及装置、终端、存储介质
CN111079737B (zh) * 2019-07-02 2023-09-26 广东小天才科技有限公司 一种文字倾斜矫正方法及电子设备
CN111079760B (zh) * 2019-08-02 2023-11-28 广东小天才科技有限公司 一种文字识别方法及电子设备
CN113033543B (zh) * 2021-04-27 2024-04-05 中国平安人寿保险股份有限公司 曲形文本识别方法、装置、设备及介质
CN113946885A (zh) * 2021-10-22 2022-01-18 上海百琪迈科技(集团)有限公司 一种基于全局相交轮廓线分析的布料穿透矫正方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101064008A (zh) * 2006-04-29 2007-10-31 北大方正集团有限公司 一种印刷体斜体字符的识别方法
CN101149801A (zh) * 2007-10-23 2008-03-26 北京大学 一种复杂结构文档图像倾斜快速检测方法
CN101770575A (zh) * 2008-12-31 2010-07-07 汉王科技股份有限公司 名片图像倾斜角度的测量方法和装置
CN103400130A (zh) * 2013-07-22 2013-11-20 哈尔滨工业大学 基于能量最小化框架的文档图像倾斜度检测与纠正方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6873732B2 (en) * 2001-07-09 2005-03-29 Xerox Corporation Method and apparatus for resolving perspective distortion in a document image and for calculating line sums in images

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101064008A (zh) * 2006-04-29 2007-10-31 北大方正集团有限公司 一种印刷体斜体字符的识别方法
CN101149801A (zh) * 2007-10-23 2008-03-26 北京大学 一种复杂结构文档图像倾斜快速检测方法
CN101770575A (zh) * 2008-12-31 2010-07-07 汉王科技股份有限公司 名片图像倾斜角度的测量方法和装置
CN103400130A (zh) * 2013-07-22 2013-11-20 哈尔滨工业大学 基于能量最小化框架的文档图像倾斜度检测与纠正方法

Also Published As

Publication number Publication date
CN105184294A (zh) 2015-12-23

Similar Documents

Publication Publication Date Title
CN105184294B (zh) 一种基于像素追踪的倾斜文字判断识别方法
CN105590112B (zh) 一种图像识别中倾斜文字判断方法
CN102799850B (zh) 一种条形码识别方法和装置
JP5522408B2 (ja) パターン認識装置
Samra et al. Localization of license plate number using dynamic image processing techniques and genetic algorithms
Phan et al. A gradient vector flow-based method for video character segmentation
CN104809481A (zh) 一种基于自适应色彩聚类的自然场景文本检测的方法
CN110619333B (zh) 一种文本行分割方法、文本行分割装置及电子设备
CN112418216A (zh) 一种复杂自然场景图像中的文字检测方法
US20190073551A1 (en) License plate detection method and device
CN113033543B (zh) 曲形文本识别方法、装置、设备及介质
CN111898538A (zh) 证件鉴伪方法、装置、电子设备及存储介质
CN107766854A (zh) 一种基于模板匹配实现快速页码识别的方法
CN114240981A (zh) 标记识别方法及装置
CN112101108B (zh) 一种基于图形极点位置特征的左右转交通标志识别方法
CN108268641A (zh) 发票信息识别方法及发票信息识别装置、设备和存储介质
CN113111880A (zh) 证件图像校正方法、装置、电子设备及存储介质
CN112686265A (zh) 一种基于层级轮廓提取的象形文字分割方法
CN112926564A (zh) 图片分析方法、系统、计算机设备和计算机可读存储介质
CN112419207A (zh) 一种图像矫正方法及装置、系统
CN110427909B (zh) 一种移动端驾驶证检测方法、系统及电子设备和存储介质
CN112949649B (zh) 一种文本图像的识别方法、装置及计算设备
CN113435219B (zh) 防伪检测方法、装置、电子设备及存储介质
CN111126266A (zh) 文本处理方法、文本处理系统、设备及介质
CN114463770A (zh) 一种用于普遍试卷题目的智能切题方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 610041 Tianfu Avenue Middle Section, Chengdu High-tech Zone, Sichuan Province, 199, Building 1, Unit 21, Building 1-6

Patentee after: CHENGDU BUSINESS BIG DATA TECHNOLOGY Co.,Ltd.

Address before: 610041 Building 1005, Sidon International Plaza B, 666 Tianfu Avenue Middle Section, Chengdu High-tech Zone, Sichuan Province

Patentee before: CHENGDU BUSINESS BIG DATA TECHNOLOGY Co.,Ltd.

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Inclination character judgment and identification method based on pixel tracking

Effective date of registration: 20200608

Granted publication date: 20181204

Pledgee: The Agricultural Bank of Chengdu branch of Limited by Share Ltd. Chinese Sichuan

Pledgor: CHENGDU BUSINESS BIG DATA TECHNOLOGY Co.,Ltd.

Registration number: Y2020980002850

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20200701

Granted publication date: 20181204

Pledgee: The Agricultural Bank of Chengdu branch of Limited by Share Ltd. Chinese Sichuan

Pledgor: CHENGDU BUSINESS BIG DATA TECHNOLOGY Co.,Ltd.

Registration number: Y2020980002850

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Inclination character judgment and identification method based on pixel tracking

Effective date of registration: 20200722

Granted publication date: 20181204

Pledgee: The Agricultural Bank of Chengdu branch of Limited by Share Ltd. Chinese Sichuan

Pledgor: CHENGDU BUSINESS BIG DATA TECHNOLOGY Co.,Ltd.

Registration number: Y2020980004255

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20210812

Granted publication date: 20181204

Pledgee: The Agricultural Bank of Chengdu branch of Limited by Share Ltd. Chinese Sichuan

Pledgor: CHENGDU BUSINESS BIG DATA TECHNOLOGY Co.,Ltd.

Registration number: Y2020980004255

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: An oblique character recognition method based on pixel tracking

Effective date of registration: 20210818

Granted publication date: 20181204

Pledgee: The Agricultural Bank of Chengdu branch of Limited by Share Ltd. Chinese Sichuan

Pledgor: CHENGDU BUSINESS BIG DATA TECHNOLOGY Co.,Ltd.

Registration number: Y2021980007811

PP01 Preservation of patent right
PP01 Preservation of patent right

Effective date of registration: 20240428

Granted publication date: 20181204