CN116343215A - 一种文档图像的倾斜校正方法和系统 - Google Patents

一种文档图像的倾斜校正方法和系统 Download PDF

Info

Publication number
CN116343215A
CN116343215A CN202310149151.2A CN202310149151A CN116343215A CN 116343215 A CN116343215 A CN 116343215A CN 202310149151 A CN202310149151 A CN 202310149151A CN 116343215 A CN116343215 A CN 116343215A
Authority
CN
China
Prior art keywords
blocks
text
image
character
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310149151.2A
Other languages
English (en)
Inventor
季白杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Biwan Information Technology Co ltd
Original Assignee
Hangzhou Biwan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Biwan Information Technology Co ltd filed Critical Hangzhou Biwan Information Technology Co ltd
Priority to CN202310149151.2A priority Critical patent/CN116343215A/zh
Publication of CN116343215A publication Critical patent/CN116343215A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/186Extraction of features or characteristics of the image by deriving mathematical or geometrical properties from the whole image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19013Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • G06V30/1902Shifting or otherwise transforming the patterns to accommodate for positional errors
    • G06V30/19027Matching of contours
    • G06V30/19033Matching of contours by mapping curve parameters onto an accumulator array, e.g. generalised Hough Transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)

Abstract

一种文档图像的倾斜校正方法,针对文档与图像混合的图像,将图像进行二值化处理,得到二值图像,对二值图像中的每个黑像素点进行连通块检测、连通块筛选,进而得到文字块,文字块根据一些特征信息拼接成文字行,文字行根据一些特征信息拼接成文字段,对文字块的中心点进行双精度Hough变换,得到偏转方向与偏转角度,最后进行相应的旋转,得到矫正后的图片。本发明还包括一种文档图像的倾斜校正系统。本发明在文档中有大幅的插图时,仍然能保持文档图像的倾斜校正的效果,且计算量小,能够适用各种文档图像自动倾斜校正。

Description

一种文档图像的倾斜校正方法和系统
技术领域
本发明涉及计算机图像识别技术领域,尤其涉及一种文档图像倾斜校正方法和系统。
背景技术
文档图像的自动倾斜校正对于图像文字识别,文档数字化存档等都具有重要意义。投影法、Hought变换法对一般的文档图像自动倾斜校正有很好的效果,但对于存在大幅插图的文档图像,由于失去了全局的文本行特征,却不适用。本文致力于设计能够适用各种文档图像自动倾斜校正的方法。
投影法和Hough变换方法经常用来做文档图像的倾斜校正,但又都有局限性,对文字为主的文档有很好的效果,但是对文档中有大幅的插图时则效果不好。因为这种文档图像的投影失去了一行文字一行间距这个投影法最依赖的特征。对所有的文档像素做Hough变换也会由于大幅插图的干扰而误判倾斜角度。
发明内容
本发明要克服现有技术存在的上述问题,提供了一种文档图像的倾斜校正方法和系统。
本发明通过先在文档图像中采用线连接图查找文字块,进而根据文字块的大小和邻近特征组成文字行、段落,将文字块的中心点进行Hough变换计算倾斜角度,旋转相应的角度得到校正的文档图像。为了加快处理速度,本文采用在低分辨率图像计算粗略倾斜角度,在高分辨率图像计算精确倾斜角度的双精度分层Hough变换法。
为了实现上述技术目的,本发明采用如下技术方案:
一种文档图像的倾斜校正方法,包括如下步骤:
步骤S1,获取文字与图像混合的图像,并进行二值化处理,得到二值图像;
步骤S2,对步骤S1得到的二值图像进行连通块查找,对每个黑像素进行连通块检测;
步骤S3,对步骤S2得到的大量连通块进行过滤,利用连通块最小外接矩阵的大小与宽高比进行过滤,去除表格线、标点符号等噪声快,剩下的连通块默认为文字块;
步骤S4,将步骤S3中得到的文字块进行文本行拼接,利用连通块与最小外接矩阵的一些特征信息,如同一行的文字块具有相同的高度、同一行文字块的最小外接矩阵有相同的间距以及同一行文字块的中心点在参数空间(ρ,θ)中具有相同的θ;
步骤S5,将步骤S4中的文字行拼接成段落,利用文字行的一些特征信息,如文字行与文字行之间的间距相同;
步骤S6,对步骤S3过滤后的有效文字块取其中心点,对每行文字来说,这些中心点应位于一条直线上,这个直线的角度就是文档图像的倾斜角度。通过双精度Hough变换来检测直线的角度;
步骤S7,根据步骤S6中计算出来的直线角度,以相应的方向旋转对应的角度,集合完成倾斜校正。
综上所述,本发明针对文档与图像混合的图像,将图像进行二值化处理,得到二值图像,对二值图像中的每个黑像素点进行连通块检测、连通块筛选,进而得到文字块,文字块根据一些特征信息拼接成文字行,文字行根据一些特征信息拼接成文字段,对文字块的中心点进行双精度Hough变换,得到偏转方向与偏转角度,最后进行相应的旋转,得到矫正后的图片。
进一步的,步骤S3具体包括:
步骤S31,根据步骤S2中形成的每个连通块,计算每个连通块的最小外接矩阵;
步骤S32,计算不同最小外接矩阵的面积大小与宽高比,去掉最大的连通块与最小的连通块,计算剩余连通块的平均面积大小与宽高比;
步骤S33,遍历所有的连通块,将每个连通块的面积大小、宽高比与步骤S32计算出来的值进行比较,大幅超出或大幅低于计算结果值的连通块将被过滤掉,该步骤主要目的是过滤掉标点符号、表格线、纸面异物等噪声连通块的影响;
进一步的,步骤S4具体包括:
步骤S41,针对筛选后的连通块,即默认为文字块,计算文字块最小外接矩阵的高度与间距;
步骤S42,根据同一行文字块的特征规律,利用同一行文字块的最小外接矩阵具有相同的高度、文字块最小外接矩阵之间的间距接近以及同一行文字块的中心点在参数空间中所对应的正弦曲线交于一点(ρ,θ),将步骤S3过滤后的文字块中拼接成一个个的文字行块;
在图像空间中建立笛卡尔坐标系,以最小外接矩阵的对角线交叉点作为中心点,假设两个相邻中心点的坐标为(xi,yi),(xj,yj),将两点映射到参数空间后得到两条正弦曲线ρ=xicosθ+yisinθ与ρ=xjcosθ+yjsinθ,若两条正弦曲线交于一点(ρ,θ),则这两个文字块处于同一文字行中。
遍历所有文字块的中心点,按照参数空间中正弦曲线相交于一点,从而筛选出处于同一行的文字行块。
进一步的,步骤S5具体包括:
步骤S51,根据段落内文本行的特征规律,利用同一个段落内的文本行之间的间距接近,将步骤S4形成文本行块拼接成段落块;
进一步的,步骤S6具体包括:
步骤S61,对原始文档图像做抽样处理降低图像的分辨率,在低分辨率的文档图像上查找文字块,并取中心点,以1度为步长计算文档图像大致的倾斜角度θ;
步骤S62,在步骤S61后,能得到文档图像的大致倾斜范围后,在原始文档图像上查找文字块,取中心点,在θ加减1度的范围内以0.1度为步长计算文档图像准确的倾斜角度,按照步骤(1)~(3)进行。
实施本发明的文档图像的倾斜校正方法的系统,包括:
图像预处理模块,用于对文档与图像混合的图片进行预处理,利用二值化技术将彩色图像转化为黑白图像;以黑像素代表文字和图表区域,以白像素代表空白区域;
连通块检测与过滤模块,对二值化处理后的每个黑像素点进行连通块检测,并利用每个连通块的最小外接矩阵的面积以及宽高比,设定一个误差范围,若超过误差范围的连通块则被过滤掉,剩余的连通块默认为文本块;
拼接模块,利用点与线的对偶性,将文字块的中心点在图像坐标系中的(x,y)转换成极坐标系中的(ρ,θ),若文字块中心点坐标转换后的极坐标的θ相同,则认为该文字块与先前的文字块处于同一文字行或者与之平行,再结合文字块之间的间距,最终拼接成各个文字行,并利用文字行之间的间距拼接成文字段;
偏转角度计算模块,利用同一行文字快递的中心点处于同一条直线上的原理,采用双精度Hough变换,先以1;作为量计步长,找出偏转角度θ,然后在(θ-1;,θ+1;)范围内,以0.1;作为量计步长,进一步找到更精确的偏转角度;
矫正模块,利用偏转角度计算模块中所计算出来的角度进行相应的偏转,从而实现倾斜校正的目的。
本发明的工作原理是:
1、采用自适应文本块的Hough变换算法,不是用所有的文档图像中的像素去进行Hough变换,而是先在文档图像中找到文字行,再利用文字块的中心点进行Hough变换来检测文档的倾斜角度,极大地减少了计算量。
利用连通块技术得到字连通块后,一串高度接近距离相邻的字连通块构成了文本行。投影法和普通Hough变换法是在全局范围内寻找文本行特征,当文档中有大幅插图的时候,文本行的全局特征被改变了,因此这两者方法在这种情况下都不能得到理想的结果。而通过连通块技术得到若干文本行,则即可用于全局特征,也可用于局部特征,在文档中有大幅插图的情况下,仍然能够得到若干个文本行,这些文本行的中心点构成一条直线,利用Hough变换对这些中心点做直线检测,就能够得到文档图像的倾斜角度。
2、采用双精度分层结构,将拍照的原始高分辨率文档图像通过抽样技术得到低分辨率的文档图像,在低分辨率文档图像上确定文档大致的倾斜方向,在高分辨率文档图像上确定精确的倾斜方向,进一步减少了计算量。
由于1度的角度误差对人眼的视觉效果来说仍然不够准确,为了将文档图像转正,需要将角度检测的精度设置在0.1度,假设文档图像的最大倾斜角度为-30度到30度,这样对每个中心点就做600次Hough变换,计算量非常大。而通过在低分辨率文档图像上按1度的误差计算出大概的角度,然后在1度范围内,在高清晰度文档图像上以0.1度的精度找到准确的方向,就大大降低了计算量。
3、为了加强对文本行检测的鲁棒性,将文本行的文本块的中心点拟合成一条直线,同一条中心点连线映射到参数空间ρ-θ中将为一个重叠多次的点,设定投影点的个数阈值为α,计算同一个θ时候的投影点个数,记为count(θ),若count(θ)<α,则被舍去,认为是噪声点;进一步,观察到当θ相同时,不同文本行的中心线所对应的ρ呈等差数列,考虑到段落之间的间距与文本行之间的间距不同,故设定间距阈值β,若ρ呈等差数列或者不成等差数列但误差在β以内,则均认为该条中心线为文本行中文本块的中心点所拟合成的中心线。
本发明的优点是:在文档中有大幅的插图时,仍然能保持文档图像的倾斜校正的效果,且计算量小,能够适用各种文档图像自动倾斜校正。
附图说明
图1是本实施例一提供的一种文档图像的倾斜校正方法的流程图;
具体实施方式
下面对本发明的实施例做详细说明,本实施例以本发明的技术方案为依据开展,给出了详细的实施方式和具体的操作过程,对本发明的技术方案作进一步解释说明。
实施例一
本实施例提供了一种针对文本、图像混合的图像进行快速校正的方法,如图1所示,具体步骤包括以下步骤:
步骤S1,获取文字与图像混合的图像,并进行二值化处理,得到二值图像。
其中,先对拍照生成文档图像做二值化处理,把彩色图像转化为黑白图像。以黑像素代表文字和图表区域,以白像素代表空白区域;
步骤S2,对步骤S1得到的二值图像进行连通块查找,对每个黑像素进行连通块检测。
步骤S3,对步骤S2得到的大量连通块进行过滤,利用连通块最小外接矩阵的大小与宽高比进行过滤,去除表格线、标点符号等噪声快,剩下的连通块默认为文字块。
步骤S31,根据步骤S2中形成的每个连通块,计算每个连通块的最小外接矩阵,用集合minMatrix={m1,m2,m3,...mn}代表步骤2找到的连通块,n代表连通块的数量;
步骤S32,计量不同最小外接矩阵的面积大小与宽高比,以及去掉最大的连通块与最小的连通块,计算剩余连通块的平均面积大小与宽高比。每个连通块最小外接矩阵的面积计算公式为:
Si=mihi*miwi
其中,Si代表minMatrix中mi连通块的最小外接矩阵的面积,mihi代表第i个连通块的高度,miwi代表第i个连通块的宽度,用集合S={s1,s2,s3,...sn}来代表各个连通块的面积。
遍历集合S,获得连通块面积最大的值为smax,最小的值为smin,则连通块的平均面积Savg为:
Figure BDA0004090169950000061
计算minMatrix集合中的平均宽高比R,假设minMatrix集合中最长的的高为hmax,最短的高为hmin;最长的宽为wmax,最短的宽为wmin,则宽高比的计算公式为:
Figure BDA0004090169950000062
假设集合R={R1,R2,R3,...,Rn}
步骤S33,遍历所有的连通块,将每个连通块的面积大小、宽高比与步骤S32计算出来的值进行比较,假设εs与εR分别为面积的误差范围与宽高比的误差范围,若集合S中的Si与Savg误差在εs内,并且同时满足集合R中的Ri与Ravg误差在εR中,则保留该连通块,若不符合,则过滤掉该连通块,该步骤主要目的是过滤掉标点符号、表格线、纸面异物等噪声连通块,以减少噪声块对实验结果的影响;
步骤S4,将步骤S3中得到的文字块进行文本行拼接,利用连通块与最小外接矩阵的一些特征信息,如同一行的文字块具有相同的高度、同一行文字块的最小外接矩阵有相同的间距等。
步骤S41,针对筛选后的连通块,即默认为文字块,获取步骤3中过滤后的宽高集合,集合W={...,wi,...wj,...}代表过滤后连通块的宽,h={...,hi,...hj,...}代表过滤后连通块的宽;
步骤S42,根据同一行文字块的特征规律,利用同一行文字块的最小外接矩阵具有相同的高度、文字块最小外接矩阵之间的间距接近以及同一行文字块的中心点在参数空间中所对应的正弦曲线交于一点(ρ,θ),将步骤S3过滤后的文字块中拼接成一个个的文字行块;
在图像空间中建立笛卡尔坐标系,以最小外接矩阵的对角线交叉点作为中心点,假设两个相邻中心点的坐标为(xi,yi),(xj,yj),将两点映射到参数空间后得到两条正弦曲线ρ=xicosθ+yisinθ与ρ=xjcosθ+yjsinθ,若两条正弦曲线交于一点(ρ,θ),则这两个文字块处于同一文字行中。
遍历所有文字块的中心点,按照参数空间中正弦曲线相交于一点,从而筛选出处于同一行的文字行块。
步骤S5,将步骤S4中的文字行拼接成段落,利用文字行的一些特征信息,如文字行与文字行之间的间距相同。
根据段落内文本行的特征规律,利用同一个段落内的文本行之间的间距接近,将步骤S4形成文本行块拼接成段落块;
步骤S6,对步骤S3过滤后的有效文字块取其中心点,对每行文字来说,这些中心点应位于一条直线上,这个直线的角度就是文档图像的倾斜角度。通过双精度Hough变换来检测直线的角度。
步骤S61,对于文字行中文字块中心点拟合成的直线,利用点与线的对偶性,将图像空间中的点(x,y)转换为参数空间中(ρ,θ),将图像中的直线检测转化为(ρ,θ)的局部最大值搜索问题。设定一个累加矩阵An×m,对于文字行中文字块中心点拟合成的直线直线上的点(x,y)与参数空间中的参考点(ρji)相互映射,且(ρji)与An×m中的元素相对应。
对原始文档图像做抽样处理降低图像的分辨率,在低分辨率的文档图像上查找文字块,对于文字行中文字块中心点拟合成的直线进行检测,检测范围取[-θmaxmax],以1°为量化步长,确定最倾向倾角的范围为[θ*-1°,θ*+1°],具体步骤如下:
(1)校验累加矩阵中局部极大值的合法性。根据实际要求设定门限值,取H=lA(ρji),l<1,当A(ρji)<H时,对矩阵An×m中的元素做变换:A(ρji)=0,这样,可以排除图像中较短文本行造成的干扰。
(2)消除伪极值。Hough变换存在伪极值的情况,可采用投票表决法消除伪极值的影响。对经合法性校验后的累加矩阵An×m进行列累加,
Figure BDA0004090169950000081
得到行向量A'(θ)=(A(θ1),A(θ2),...,A(θn))。
(3)求倾角。求行向量A'(θ)中最大的元素A'(θ*)对应的角度θ*即为文档的偏转角度。
步骤S62,在步骤S61后,可以得到文档图像的大致倾斜范围后,在原始文档图像上查找文字块,取中心点,在[θ*-1°,θ*+1°]范围内以0.1度为步长计算文档图像准确的倾斜角度,具体步骤参考步骤S61中的步骤(1)~(3)。
步骤S7,根据步骤S6中计算出来的直线角度,以相应的方向旋转对应的角度,集合完成倾斜校正。
实施例二
本实施例提供了一种实现实施例一所述的文档图像的倾斜校正方法的系统,包括:
图像预处理模块,用于对文档与图像混合的图片进行预处理,利用二值化技术将彩色图像转化为黑白图像。以黑像素代表文字和图表区域,以白像素代表空白区域。
连通块检测与过滤模块,对二值化处理后的每个黑像素点进行连通块检测,并利用每个连通块的最小外接矩阵的面积以及宽高比,设定一个误差范围,若超过误差范围的连通块则被过滤掉,剩余的连通块默认为文本块。
拼接模块,利用点与线的对偶性,将文字块的中心点在图像坐标系中的(x,y)转换成极坐标系中的(ρ,θ),若文字块中心点坐标转换后的极坐标的θ相同,则认为该文字块与先前的文字块处于同一文字行或者与之平行,再结合文字块之间的间距,最终拼接成各个文字行,并利用文字行之间的间距拼接成文字段。
偏转角度计算模块,利用同一行文字快递的中心点处于同一条直线上的原理,采用双精度Hough变换,先以1°作为量计步长,找出偏转角度θ,然后在(θ-1°,θ+1°)范围内,以0.1°作为量计步长,进一步找到更精确的偏转角度。
矫正模块,利用偏转角度计算模块中所计算出来的角度进行相应的偏转,从而实现倾斜校正的目的。
与现有技术相比,本实施例的有益效果为:
1、采用自适应文本块的Hough变换算法,不是用所有的文档图像中的像素去进行Hough变换,而是先在文档图像中找到文字行,再利用文字块的中心点进行Hough变换来检测文档的倾斜角度。
利用连通块技术得到字连通块后,一串高度接近距离相邻的字连通块构成了文本行。投影法和普通Hough变换法是在全局范围内寻找文本行特征,当文档中有大幅插图的时候,文本行的全局特征被改变了,因此这两者方法在这种情况下都不能得到理想的结果。而通过连通块技术得到若干文本行,则即可用于全局特征,也可用于局部特征,在文档中有大幅插图的情况下,仍然能够得到若干个文本行,这些文本行的中心点构成一条直线,利用Hough变换对这些中心点做直线检测,就能够得到文档图像的倾斜角度。
2、采用双精度分层结构,将拍照的原始高分辨率文档图像通过抽样技术得到低分辨率的文档图像,在低分辨率文档图像上确定文档大致的倾斜方向,在高分辨率文档图像上确定精确的倾斜方向。
由于1度的角度误差对人眼的视觉效果来说仍然不够准确,为了将文档图像转正,需要将角度检测的精度设置在0.1度,假设文档图像的最大倾斜角度为-30度到30度,这样对每个中心点就做600次Hough变换,计算量非常大。而通过在低分辨率文档图像上按1度的误差计算出大概的角度,然后在1度范围内,在高清晰度文档图像上以0.1度的精度找到准确的方向,就大大降低了计算量。
3、为了加强对文本行检测的鲁棒性,将文本行的文本块的中心点拟合成一条直线,同一条中心点连线映射到参数空间ρ-θ中将为一个重叠多次的点,设定投影点的个数阈值为α,计算同一个θ时候的投影点个数,记为count(θ),若count(θ)<α,则被舍去,认为是噪声点;进一步,观察到当θ相同时,不同文本行的中心线所对应的ρ呈等差数列,考虑到段落之间的间距与文本行之间的间距不同,故设定间距阈值β,若ρ呈等差数列或者不成等差数列但误差在β以内,则均认为该条中心线为文本行中文本块的中心点所拟合成的中心线。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (9)

1.一种文档图像的倾斜校正方法,包括如下步骤:
步骤S1,获取文字与图像混合的图像,并进行二值化处理,得到二值图像;
步骤S2,对步骤S1得到的二值图像进行连通块查找,对每个黑像素进行连通块检测;
步骤S3,对步骤S2得到的大量连通块进行过滤,利用连通块最小外接矩阵的大小与宽高比进行过滤,去除表格线、标点符号等噪声快,剩下的连通块默认为文字块;
步骤S4,将步骤S3中得到的文字块进行文本行拼接,利用连通块与最小外接矩阵的一些特征信息,如同一行的文字块具有相同的高度、同一行文字块的最小外接矩阵有相同的间距以及同一行文字块的中心点在参数空间(ρ,θ)中具有相同的θ;
步骤S5,将步骤S4中的文字行拼接成段落,利用文字行的一些特征信息,如文字行与文字行之间的间距相同;
步骤S6,对步骤S3过滤后的有效文字块取其中心点,对每行文字来说,这些中心点应位于一条直线上,这个直线的角度就是文档图像的倾斜角度。通过双精度Hough变换来检测直线的角度;
步骤S7,根据步骤S6中计算出来的直线角度,以相应的方向旋转对应的角度,集合完成倾斜校正。
2.如权利要求1所述的一种文档图像的倾斜校正方法,其特征在于:步骤S1具体包括:先对拍照生成文档图像做二值化处理,把彩色图像转化为黑白图像。以黑像素代表文字和图表区域,以白像素代表空白区域。
3.如权利要求1所述的一种文档图像的倾斜校正方法,其特征在于:步骤S3具体包括:
步骤S31,根据步骤S2中形成的每个连通块,计算每个连通块的最小外接矩阵;
步骤S32,计算不同最小外接矩阵的面积大小与宽高比,去掉最大的连通块与最小的连通块,计算剩余连通块的平均面积大小与宽高比;
步骤S33,遍历所有的连通块,将每个连通块的面积大小、宽高比与步骤S32计算出来的值进行比较,大幅超出或大幅低于计算结果值的连通块将被过滤掉。
4.如权利要求3所述的一种文档图像的倾斜校正方法,其特征在于:步骤S31中,用集合minMatrix={m1,m2,m3,...mn}代表步骤2找到的连通块,n代表连通块的数量;
步骤S32中,每个连通块最小外接矩阵的面积计算公式为:
Si=mihi * miwi (1)
其中,Si代表minMatrix中mi连通块的最小外接矩阵的面积,mihi代表第i个连通块的高度,miwi代表第i个连通块的宽度,用集合S={s1,s2,s3,...sn}来代表各个连通块的面积;
遍历集合S,获得连通块面积最大的值为smax,最小的值为smin,则连通块的平均面积Savg为:
Figure FDA0004090169940000031
计算minMatrix集合中的平均宽高比R,假设minMatrix集合中最长的的高为hmax,最短的高为hmin;最长的宽为wmax,最短的宽为wmin,则宽高比的计算公式为:
Figure FDA0004090169940000032
假设集合R={R1,R2,R3,...,Rn};
步骤S33中,假设εs与εR分别为面积的误差范围与宽高比的误差范围,若集合S中的Si与Savg误差在εs内,并且同时满足集合R中的Ri与Ravg误差在εR中,则保留该连通块,若不符合,则过滤掉该连通块。
5.如权利要求1所述的一种文档图像的倾斜校正方法,其特征在于:步骤S4具体包括:
步骤S41,针对筛选后的连通块,即默认为文字块,计算文字块最小外接矩阵的高度与间距;
步骤S42,根据同一行文字块的特征规律,利用同一行文字块的最小外接矩阵具有相同的高度、文字块最小外接矩阵之间的间距接近以及同一行文字块的中心点在参数空间中所对应的正弦曲线交于一点(ρ,θ),将步骤S3过滤后的文字块中拼接成一个个的文字行块;
在图像空间中建立笛卡尔坐标系,以最小外接矩阵的对角线交叉点作为中心点,假设两个相邻中心点的坐标为(xi,yi),(xj,yj),将两点映射到参数空间后得到两条正弦曲线ρ=xicosθ+yisinθ与ρ=xjcosθ+yjsinθ,若两条正弦曲线交于一点(ρ,θ),则这两个文字块处于同一文字行中;
遍历所有文字块的中心点,按照参数空间中正弦曲线相交于一点,从而筛选出处于同一行的文字行块。
6.如权利要求1所述的一种文档图像的倾斜校正方法,其特征在于:步骤S5具体包括:根据段落内文本行的特征规律,利用同一个段落内的文本行之间的间距接近,将步骤S4形成文本行块拼接成段落块。
7.如权利要求1所述的一种文档图像的倾斜校正方法,其特征在于:步骤S6具体包括:
步骤S61,对原始文档图像做抽样处理降低图像的分辨率,在低分辨率的文档图像上查找文字块,并取中心点,以1度为步长计算文档图像大致的倾斜角度θ;
步骤S62,在步骤S61后,能得到文档图像的大致倾斜范围后,在原始文档图像上查找文字块,取中心点,在θ加减1度的范围内以0.1度为步长计算文档图像准确的倾斜角度。
8.如权利要求7所述的一种文档图像的倾斜校正方法,其特征在于:步骤S61具体包括:对于文字行中文字块中心点拟合成的直线,利用点与线的对偶性,将图像空间中的点(x,y)转换为参数空间中(ρ,θ),将图像中的直线检测转化为(ρ,θ)的局部最大值搜索问题。设定一个累加矩阵An×m,对于文字行中文字块中心点拟合成的直线直线上的点(x,y)与参数空间中的参考点(ρji)相互映射,且(ρji)与An×m中的元素相对应;
对原始文档图像做抽样处理降低图像的分辨率,在低分辨率的文档图像上查找文字块,对于文字行中文字块中心点拟合成的直线进行检测,检测范围取[-θmaxmax],以1°为量化步长,确定最倾向倾角的范围为[θ*-1°,θ* +1°],具体步骤如下:
(1)校验累加矩阵中局部极大值的合法性;根据实际要求设定门限值,取H=lA(ρji),l<1,当A(ρji)<H时,对矩阵An×m中的元素做变换:A(ρji)=0,这样,可以排除图像中较短文本行造成的干扰;
(2)消除伪极值;Hough变换存在伪极值的情况,可采用投票表决法消除伪极值的影响。对经合法性校验后的累加矩阵An×m进行列累加,
Figure FDA0004090169940000051
得到行向量A'(θ)=(A(θ1),A(θ2),...,A(θn));
(3)求倾角。求行向量A'(θ)中最大的元素A'(θ*)对应的角度θ*即为文档的偏转角度;
步骤S62所述的[θ*-1°,θ* +1°]范围内以0.1度为步长计算文档图像准确的倾斜角度,按照步骤(1)~(3)进行。
9.实施权利要求1所述的文档图像的倾斜校正方法的系统,包括:
图像预处理模块,用于对文档与图像混合的图片进行预处理,利用二值化技术将彩色图像转化为黑白图像;以黑像素代表文字和图表区域,以白像素代表空白区域;
连通块检测与过滤模块,对二值化处理后的每个黑像素点进行连通块检测,并利用每个连通块的最小外接矩阵的面积以及宽高比,设定一个误差范围,若超过误差范围的连通块则被过滤掉,剩余的连通块默认为文本块;
拼接模块,利用点与线的对偶性,将文字块的中心点在图像坐标系中的(x,y)转换成极坐标系中的(ρ,θ),若文字块中心点坐标转换后的极坐标的θ相同,则认为该文字块与先前的文字块处于同一文字行或者与之平行,再结合文字块之间的间距,最终拼接成各个文字行,并利用文字行之间的间距拼接成文字段;
偏转角度计算模块,利用同一行文字快递的中心点处于同一条直线上的原理,采用双精度Hough变换,先以1作为量计步长,找出偏转角度θ,然后在(θ-1,θ+1)范围内,以0.1作为量计步长,进一步找到更精确的偏转角度;
矫正模块,利用偏转角度计算模块中所计算出来的角度进行相应的偏转,从而实现倾斜校正的目的。
CN202310149151.2A 2023-02-22 2023-02-22 一种文档图像的倾斜校正方法和系统 Pending CN116343215A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310149151.2A CN116343215A (zh) 2023-02-22 2023-02-22 一种文档图像的倾斜校正方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310149151.2A CN116343215A (zh) 2023-02-22 2023-02-22 一种文档图像的倾斜校正方法和系统

Publications (1)

Publication Number Publication Date
CN116343215A true CN116343215A (zh) 2023-06-27

Family

ID=86881394

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310149151.2A Pending CN116343215A (zh) 2023-02-22 2023-02-22 一种文档图像的倾斜校正方法和系统

Country Status (1)

Country Link
CN (1) CN116343215A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117237957A (zh) * 2023-11-16 2023-12-15 新视焰医疗科技(杭州)有限公司 用于检测文件方向并对倾斜或畸形文件矫正的方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117237957A (zh) * 2023-11-16 2023-12-15 新视焰医疗科技(杭州)有限公司 用于检测文件方向并对倾斜或畸形文件矫正的方法及系统

Similar Documents

Publication Publication Date Title
US5054098A (en) Method of detecting the skew angle of a printed business form
CN111223133B (zh) 一种异源图像的配准方法
CN107609451A (zh) 一种基于二维码的高精度视觉定位方法及系统
CN106960208A (zh) 一种仪表液晶数字自动切分和识别的方法及系统
CN101303768A (zh) 圆形标志点在摄像机透视投影变换时圆心偏差的修正方法
CN113177959B (zh) 一种快速运动过程中qr码实时提取方法
CN111353961B (zh) 一种文档曲面校正方法及装置
CN104008359A (zh) 一种用于qr码识别的精确网格采样方法
CN110634137A (zh) 一种基于视觉感知的桥梁变形的监测方法、装置及设备
CN116343215A (zh) 一种文档图像的倾斜校正方法和系统
CN114037992A (zh) 仪表示数识别方法、装置、电子设备及存储介质
CN115619656A (zh) 数字化档案纠偏矫正方法及系统
CN114399677A (zh) 一种基于文本区域读取的指针仪表识别方法
CN114549400A (zh) 一种图像识别方法及装置
CN112101351A (zh) 一种基于投影的文本行旋转校正方法及装置
CN113793309B (zh) 一种基于形态学特征的亚像素级椭圆检测方法
CN114511865A (zh) 一种结构化信息的生成方法、装置和计算机可读存储介质
WO2024130762A1 (zh) 基于单相机的模板标记检测方法及模板位置矫正方法
CN115018735B (zh) 基于霍夫变换校正二维码图像的裂缝宽度识别方法及系统
CN114742749B (zh) 基于图像处理的pvc薄膜质量检测方法
CN115512343A (zh) 一种圆形指针式仪表校正和读数识别方法
CN112215240B (zh) 一种提高2d复杂边缘检测精度的优化方法
CN115311281A (zh) 一种晶片圆心校正方法
JP3303246B2 (ja) 画像処理装置
CN111462195B (zh) 基于主线约束的非规则角度方向代价聚合路径确定方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination