CN115619845A - 一种自适应扫描文档图像倾斜角检测方法 - Google Patents

一种自适应扫描文档图像倾斜角检测方法 Download PDF

Info

Publication number
CN115619845A
CN115619845A CN202211189816.4A CN202211189816A CN115619845A CN 115619845 A CN115619845 A CN 115619845A CN 202211189816 A CN202211189816 A CN 202211189816A CN 115619845 A CN115619845 A CN 115619845A
Authority
CN
China
Prior art keywords
document image
image
line segment
scanned document
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211189816.4A
Other languages
English (en)
Inventor
杨词慧
鲍吴智达
曾梦洁
邹伟军
肖浪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhiyu Information Technology Co ltd
Nanchang Hangkong University
Original Assignee
Shanghai Zhiyu Information Technology Co ltd
Nanchang Hangkong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhiyu Information Technology Co ltd, Nanchang Hangkong University filed Critical Shanghai Zhiyu Information Technology Co ltd
Priority to CN202211189816.4A priority Critical patent/CN115619845A/zh
Publication of CN115619845A publication Critical patent/CN115619845A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20004Adaptive image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20048Transform domain processing
    • G06T2207/20056Discrete and fast Fourier transform, [DFT, FFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Geometry (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种自适应扫描文档图像倾斜角检测方法,其特征在于,该方法包括以下步骤:设定文档图像类型为文本文档图像、表格文档图像和复杂内容图像;对扫描文档图像进行预处理;确定扫描文档图像的文档图像类型;如果文档图像类型为文本文档图像,则采用书写方向检测法和骨架直线检测算法确定扫描文档图像的倾斜角度;如果文档图像类型为表格文档图像,则采用直线检测算法确定扫描文档图像的倾斜角度;如果文档图像类型为复杂内容图像,则采用形态学聚类法和傅里叶变换法确定扫描文档图像的倾斜角度。本发明的优点在于:此方法能依据不同类型的扫描文档图像选用合适的方法估算倾斜角度,同时计算速度较快并有良好的鲁棒性。

Description

一种自适应扫描文档图像倾斜角检测方法
技术领域
本发明涉及文档图像纠偏技术领域,具体涉及一种自适应扫描文档图像倾斜角检测方法。
背景技术
扫描文档图像常存在一定角度的倾斜,这种倾斜会对后期图像处理产生一定程度的影响。因此,需要对扫描文档图像进行倾斜角度检测与校正。
目前常用的扫描文档图像倾斜角检测方法主要有:霍夫变换法、投影法、傅里叶变换法。霍夫变换法抗干扰能力强,但运算复杂度较高、效率偏低。投影法利用投影图的峰值来计算扫描文档图像的倾斜角度,然而该方法只适用于文本图像的倾斜角度检测。傅里叶变换法也可用于倾斜角的检测,而单用傅里叶变换法的计算量和消耗时间都非常大。
如名称为“一种扫描文档图像的快速纠偏方法”(公开号为“CN101930594A”) 的专利文献,使用霍夫变换检测图像边缘的直线段,进而使用检测到的直线段的方向计算倾斜角度。然而在扫描文档图像边界不明显时,检测的倾斜角度较差。又如名称为“一种扫描文档图像纠偏方法”(公开号为“CN106097254A”)的专利文献,通过霍夫变换获得四条边缘直线,再通过计算两条水平边缘直线与两条垂直边缘直线的夹角,得到最终的倾斜角度。现有扫描文档图像倾斜校正技术方法适用范围不广泛,倾角检测的精度不高,因此在精度和适用范围方面,还需进一步改进。
发明内容
针对现有技术中存在的缺陷,本发明提出一种自适应扫描文档图像倾斜角检测方法,该方法能对不同类型的扫描文档图像做自适应倾斜角度检测。
本发明采用的技术方案如下:一种自适应扫描文档图像倾斜角检测方法,其特征是,该方法包括以下步骤:
(1)设定扫描文档图像的文档图像类型为文本文档图像、表格文档图像和复杂内容图像;
(2)对扫描文档图像I进行预处理;具体为:对扫描文档图像I进行灰度转换,得到灰度图像Ig;采用图像二值化算法对灰度图像Ig进行图像二值化,得到第一二值图像Ib1;采用图像膨胀算法对第一二值图像Ib1进行图像膨胀,得到第二二值图像Ib2
(3)判定扫描文档图像I的文档图像类型;根据第二二值图像Ib2对扫描文档图像I进行文档图像类型判断,判定扫描文档图像I的文档图像类型;
(4)如果扫描文档图像I的文档图像类型为文本文档图像,则采用书写方向检测法和骨架直线检测算法确定扫描文档图像I的倾斜角度;
(5)如果扫描文档图像I的文档图像类型为表格文档图像,则采用直线检测算法确定扫描文档图像I的倾斜角度;
(6)如果扫描文档图像I的文档图像类型为复杂内容图像,则采用形态学聚类法和傅里叶变换法确定扫描文档图像I的倾斜角度。
进一步的,步骤(3)中判定扫描文档图像I的文档图像类型,具体采用了以下方法:
(3.1)对第二二值图像Ib2进行轮廓检测,得到轮廓集合C;
(3.2)设置宽高比最小阈值smin、宽高比最大阈值smax和面积最小阈值amin,设置垂直轮廓数nvc和水平轮廓数nhc的初始值为0;
(3.3)遍历轮廓集合C中的每一个轮廓ci,计算ci最小外接矩形的宽度wi与高度hi,其中i=1,2,…,m,m为轮廓集合C中的轮廓总数;根据宽度wi与高度hi,按下式计算宽高比si和面积ai
Figure RE-GDA0003924173340000021
(3.4)若面积ai小于面积最小阈值amin,则将轮廓ci从轮廓集合C中移除;否则,若宽高比si小于宽高比最小阈值smin,则垂直轮廓数nvc增加1,若宽高比 si大于宽高比最大阈值smax,则水平轮廓数nhc增加1;
(3.5)设定轮廓数量比例最小阈值rmin和轮廓数量比例最大阈值rmax;按下式计算水平垂直轮廓数量比例r:
r=nhc/nvc (2)
若r在[rmin,rmax]范围内,则将扫描文档图像I的文档图像类型标记为文本文档图像,文档图像类型判断结束,否则,继续后续步骤判断文档图像的类型;
(3.6)对第一二值图像Ib1进行边缘检测,得到边缘特征图像Ie
(3.7)对边缘特征图像Ie进行直线检测,得到第一线段集合L;
(3.8)设置线段总数最小阈值nmin和直线斜率总体方差阈值σmax
(3.9)对于第一线段集合L中的每一条线段li,其中i=1,2,…,p,p为第一线段集合L内的线段总数,采用以下公式计算斜率ki
Figure RE-GDA0003924173340000031
其中,xi1和yi1分别为线段li的起始点横坐标与纵坐标,xi2和yi2为线段li的结束点横坐标与纵坐标;
(3.10)通过下列公式计算第一线段集合L中所有线段斜率的总体方差σ:
Figure RE-GDA0003924173340000032
其中,
Figure RE-GDA0003924173340000033
为平均斜率,计算公式为:
Figure RE-GDA0003924173340000034
(3.11)若线段总数p大于线段总数最小阈值nmin,且所有线段斜率的总体方差σ小于直线斜率总体方差阈值σmax,则将扫描文档图像I的文档图像类型标记为表格文档图像;否则,将扫描文档图像I的文档图像类型标记为复杂内容图像。
进一步的,步骤(4)具体采用以下方法对扫描文档图像I的文档图像类型为文本文档图像进行倾斜角检测:
(4.1)对第一二值图像Ib1进行直线检测,得到第二线段集合BL;
(4.2)设置直线斜率阈值kthr,设置垂直方向线段数Nv和水平方向线段数Nh的初始值为0;
(4.3)通过公式(3)计算第二线段集合BL中每一条线段bli的斜率bki,其中 i=1,2,…,q,q为第二线段集合BL内线段总数;若斜率bki大于等于直线斜率阈值 kthr,则垂直方向线段数Nv增加1,否则,水平方向线段数Nh增加1;
(4.4)若垂直方向线段数Nv大于水平方向线段数Nh,则标记扫描文档图像I 的文字方向为垂直方向;否则,标记扫描文档图像I的文字方向为水平方向;
(4.5)设定一个大小为M×N的矩形结构元S,若标记扫描文档图像I的文字方向为水平方向,则设置M的数值大于N;若标记扫描文档图像I的文字方向为垂直方向,则设置M的数值小于N;
(4.6)根据结构元S对第一二值图像Ib1进行图像膨胀,得到膨胀后的第三二值图像Ib3
(4.7)对第三二值图像Ib3进行骨架提取,得到骨架提取图像Ts
(4.8)对骨架提取图像Ts进行直线检测,得到第三线段集合TL;
(4.9)通过公式(3)计算第三线段集合TL中每一条线段tli的斜率tki,再通过反正切公式中得到该线段tli所对应的倾斜角度
Figure RE-GDA0003924173340000047
其中i=1,2,…,m,m为第三线段集合TL内线段总数;具体反正切公式如下:
Figure RE-GDA0003924173340000041
(4.10)根据第三线段集合TL中每一条线段tli的倾斜角度
Figure RE-GDA0003924173340000048
采用下式计算扫描文档图像I的最终倾斜角度α:
Figure RE-GDA0003924173340000042
上述步骤(5)具体采用以下方法对扫描文档图像I的文档图像类型为表格文档图像进行倾斜角检测:
(5.1)对第一二值图像Ib1进行直线检测,得到第四线段集合NL;
(5.2)通过公式(3)计算第四线段集合NL中每一条线段nli的斜率nki,再通过公式(6)计算该线段nli所对应的倾斜角度
Figure RE-GDA0003924173340000043
其中i=1,2,…,g,g为第四线段集合 NL内线段总数;
(5.3)利用角度转换公式将第四线段集合NL中每一条线段nli所对应的倾斜角度
Figure RE-GDA0003924173340000044
转换至[θminmax]范围内;具体角度转换公式如下:
Figure RE-GDA0003924173340000045
(5.4)根据第四线段集合NL中每一条线段nli的倾斜角度
Figure RE-GDA0003924173340000046
利用公式(7)计算扫描文档图像I的最终倾斜角度α。
上述步骤(6)具体采用以下方法对扫描文档图像I的文档图像类型为复杂内容图像进行倾斜角检测:
(6.1)对第二二值图像Ib2进行轮廓检测,得到轮廓集合C*
(6.2)设置轮廓面积最大阈值γ;
(6.3)遍历轮廓集合C*中每一个轮廓ci *,计算ci *最小外接矩形的宽度wi *与高度hi *,其中i=1,2,…,z,z为轮廓集合C*中的轮廓总数;根据wi *与高度hi *,利用公式(1)计算面积ai *
(6.4)若面积ai *大于轮廓面积最大阈值γ,则将轮廓ci *从轮廓集合C*中移除;否则,保留轮廓ci *
(6.5)将轮廓集合C*绘制到一张空白图像中,得到纯轮廓图像Ic
(6.6)对纯轮廓图像Ic进行傅里叶变换,得到对应的频谱图f;
(6.7)对频谱图f进行频谱中心化,使得低频分量居于图像中心点;具体频谱中心化计算公式如下:
Figure RE-GDA0003924173340000051
其中x和y为频谱图f(x,y)的坐标,x*和y*为中心化后的频谱图F(x*,y*)的坐标,W和H为频谱图的宽高;
(6.8)对中心化后的频谱图f*进行图像二值化,得到二值频谱图Fb *
(6.9)对二值频谱图Fb *进行直线检测,得到第五线段集合FL;
(6.10)通过公式(3)计算第五线段集合FL中每一条线段fli的斜率fki,再通过公式(6)计算该线段fli所对应的倾斜角度θi f;其中i=1,2,…,d,d为第五线段集合 FL内线段总数;
(6.11)将第五线段集合FL中倾斜角度θi f=0°和θi f=90°的线段去除,得到有效线段集合FL*
(6.12)根据有效线段集合FL*中每一条线段fli的倾斜角度θi f,利用公式(7) 计算扫描文档图像I的最终倾斜角度α。
上述步骤(2)中的图像二值化算法,是将像素值的范围为[0,255]的图像,转换为像素值只有0和255的图像。参见Chen X,Wang K,Wang Q.An adaptive binarizationmethod for camera based document image[M]//Software Engineering and KnowledgeEngineering:Theory and Practice.Springer,Berlin,Heidelberg,2012: 677-684。
上述步骤(2)中使用的图像膨胀算法是一种比较常用的图像形态学方法,参见Kleefeld A,Vorderwülbecke S,Burgeth B.Anomalous diffusion,dilation,anderosion in image processing[J].International journal of computer mathematics,2018, 95(6-7):1375-1393。
上述步骤(5)中采用的直线检测算法是一种用于检测图像中的直线的方法,参见Zhang L,Huang X.A straight line detection method based on edge following andline segments integration[C]//2015 6th IEEE International Conference onSoftware Engineering and Service Science(ICSESS).IEEE,2015:297-300。
上述步骤(3.1)中采用的轮廓检测算法是一种比较常用的目标检测方法,参见Lokmanwar S D,Bhalchandra A S.Contour detection based on Gaussian filter[C]//2019 3rd International Conference on Electronics,Communication and AerospaceTechnology(ICECA).IEEE,2019:722-725。
上述步骤(3.6)中边缘检测算法是用于提取图像边缘特征的方法,该算法能发现图像中关于形状和反射或透视比的信息,参见Ziou D,Tabbone S.Edge detectiontechniques-an overview[J].Pattern Recognition and Image Analysis C/C ofRaspoznavaniye Obrazov I Analiz Izobrazhenii,1998,8:537-559。
上述步骤(4.7)中采用的骨架提取算法是用于提取目标在图像上的中心像素轮廓的方法,参见Saeed K,
Figure RE-GDA0003924173340000061
M,Rybnik M,et al.K3M:A universal algorithm forimage skeletonization and a review of thinning techniques[J].2010。
上述步骤(6.6)中采用的傅里叶变换是一种常用的图像转换频域空间方法,参见Fabrizio J.A precise skew estimation algorithm for document images using KNNclustering and Fourier transform[C]//2014IEEE International Conference onImage Processing(ICIP).IEEE,2014:2585-2588。
与现有技术相比,本发明的优点在于:该方法能快速计算出各种类型的文档图像倾斜角度,倾斜角估计的精度与可靠性较高,同时适用于不同书写方向及图文混排的情况。
附图说明
下面结合附图和具体实施方式对本发明作进一步的详细说明。
图1是本发明实施例的方法流程图;
图2是文档图像类型为文本文档图像的扫描文档图;
图3是文档图像类型为表格文档图像的扫描文档图;
图4是文档图像类型为复杂内容图像的扫描文档图;
图5是图1经过图像二值化和膨胀处理后的结果图;
图6是图5经过骨架提取结果图;
图7是图4经过图像二值化和轮廓检测后的结果图;
图8是轮廓筛选后的图;
图9是傅里叶变换后的频谱图;
图10是图像二值化后的频谱图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明的具体实施方式作进一步详细说明。需要注意的是,此处根据本发明一种自适应扫描文档图像倾斜角检测方法的具体实施例仅作为举例,并不用于限定本发明。
如图1方法流程图所示,本发明一种自适应扫描文档图像倾斜角检测方法,其特征是,该方法包括以下步骤:
(1)设定扫描文档图像的文档图像类型为文本文档图像、表格文档图像和复杂内容图像。图2、图3和图4分别是文档图像类型为文本文档图像、表格文档图像和复杂内容图像的扫描文档图像;
(2)对扫描文档图像I进行预处理。对扫描文档图像I进行灰度转换,得到灰度图像Ig。采用Otsu算法对灰度图像Ig进行图像二值化,得到第一二值图像Ib1。采用图像膨胀算法对第一二值图像Ib1进行图像膨胀,得到第二二值图像Ib2
(3)判定扫描文档图像I的文档图像类型。根据第二二值图像Ib2对扫描文档图像I进行文档图像类型判断,判定扫描文档图像I的文档图像类型;
(4)如果扫描文档图像I的文档图像类型为文本文档图像,则采用书写方向检测法和骨架直线检测算法确定扫描文档图像I的倾斜角度;
(5)如果扫描文档图像I的文档图像类型为表格文档图像,则采用直线检测算法确定扫描文档图像I的倾斜角度;
(6)如果扫描文档图像I的文档图像类型为复杂内容图像,则采用形态学聚类法和傅里叶变换法确定扫描文档图像I的倾斜角度。
上述步骤(3)中判定扫描文档图像I的文档图像类型,具体采用了以下方法:
(3.1)对第二二值图像Ib2进行轮廓检测,得到轮廓集合C;
(3.2)设置宽高比最小阈值smin=0.5,宽高比最大阈值smax=2,面积最小阈值 amin=100px,设置垂直轮廓数nvc和水平轮廓数nhc的初始值为0;
(3.3)遍历轮廓集合C中的每一个轮廓ci,计算ci最小外接矩形的宽度wi与高度hi,其中i=1,2,…,m,m为轮廓集合C中的轮廓总数;根据宽度wi与高度hi,按下式计算宽高比si和面积ai
Figure RE-GDA0003924173340000082
(3.4)若面积ai小于面积最小阈值amin,则将轮廓ci从轮廓集合C中移除;否则,若宽高比si小于宽高比最小阈值smin,则垂直轮廓数nvc增加1,若宽高比 si大于宽高比最大阈值smax,则水平轮廓数nhc增加1;
(3.5)设定轮廓数量比例最小阈值rmin=1/3和轮廓数量比例最大阈值rmax=3;按下式计算水平垂直轮廓数量比例r:
r=nhc/nvc (2)
若r在[rmin,rmax]范围内,则将扫描文档图像I的文档图像类型标记为文本文档图像,文档图像类型判断结束;否则,继续后续步骤判断文档图像的类型;
(3.6)采用Canny算法对第一二值图像Ib1进行边缘特征提取操作,得到边缘特征图像Ie
(3.7)采用霍夫直线检测算法对边缘特征图像Ie进行直线检测,得到第一线段集合L;
(3.8)设置线段总数最大阈值nmax=6和直线斜率总体方差阈值σmax=10;
(3.9)对于第一线段集合L中的每一条线段li,其中i=1,2,…,p,p为第一线段集合L内的线段总数,采用以下公式计算斜率ki
Figure RE-GDA0003924173340000081
其中,(xi1,yi1)和(xi2,yi2)为线段li的两个端点的坐标值;
(3.10)采用以下公式计算第一线段集合L中所有线段斜率的总体方差σ:
Figure RE-GDA0003924173340000091
其中,
Figure RE-GDA0003924173340000092
为平均斜率,计算公式为:
Figure RE-GDA0003924173340000093
(3.11)若线段总数p大于线段总数最大阈值nmax,且所有线段斜率的总体方差σ小于直线斜率总体方差阈值σmax,则将扫描文档图像I的文档图像类型标记为表格文档图像;否则,将扫描文档图像I的文档图像类型标记为复杂内容图像。
上述步骤(4)具体采用以下方法对类型为文本文档图像的扫描文档图像I进行倾斜角检测:
(4.1)采用霍夫直线检测算法对第一二值图像Ib1进行直线检测,得到第二线段集合BL;
(4.2)设置直线斜率阈值kthr=1,设置垂直方向线段数Nv和水平方向线段数 Nh的初始值为0;
(4.3)通过公式(3)计算第二线段集合BL中每一条线段bli的斜率bki,其中 i=1,2,…,q,q为第二线段集合BL内线段总数;若斜率bki大于等于直线斜率阈值 kthr,则垂直方向线段数Nv增加1,否则,水平方向线段数Nh增加1;
(4.4)若垂直方向线段数Nv大于水平方向线段数Nh,,则标记扫描文档图像 I的文字方向为垂直方向;否则,标记扫描文档图像I的文字方向为水平方向。
(4.5)设定一个大小为M×N的矩形结构元S,若标记扫描文档图像I的文字方向为水平方向,则设置M=7,N=3;若标记扫描文档图像I的文字方向为垂直方向,则设置M=3,N=7;
(4.6)根据结构元S对第一二值图像Ib1进行膨胀处理,得到膨胀后的第三二值图像Ib3,如图5所示,该图是图1经过图像二值化和膨胀处理后的结果图;
(4.7)采用Zhang快速并行细化算法对第三二值图像Ib3进行骨架提取,得到骨架提取图像Ts,如图6所示;
(4.8)采用霍夫直线检测算法对骨架提取图像Ts进行直线检测,得到第三线段集合TL;
(4.9)通过公式(3)计算第三线段集合TL中每一条线段tli的斜率tki,再带入反正切公式中得到该线段tli所对应的倾斜角度
Figure RE-GDA0003924173340000101
其中i=1,2,…,m,m为第三线段集合TL内线段总数。具体反正切公式如下:
Figure RE-GDA0003924173340000102
(4.10)根据第三线段集合TL中每一条线段tli的倾斜角度
Figure RE-GDA0003924173340000103
采用下式计算扫描文档图像I的最终倾斜角度α:
Figure RE-GDA0003924173340000104
上述步骤(5)具体采用以下方法对类型为表格文档图像的扫描文档图像I进行倾斜角检测:
(5.1)采用霍夫直线检测算法对第一二值图像Ib1进行直线检测,得到第四线段集合NL;
(5.2)通过公式(3)计算第四线段集合NL中每一条线段nli的斜率nki,再通过公式(6)计算该线段nli所对应的倾斜角度
Figure RE-GDA0003924173340000105
其中i=1,2,…,g,g为第四线段集合 NL内线段总数;
(5.3)利用角度转换公式将第四线段集合NL中每一条线段nli所对应的倾斜角度
Figure RE-GDA0003924173340000106
转换至[θminmax]范围内,其中θmin=0°,θmax=90°。具体角度转换公式如下:
Figure RE-GDA0003924173340000107
(5.4)根据第四线段集合NL中每一条线段nli的倾斜角度
Figure RE-GDA0003924173340000108
利用公式(7)计算扫描文档图像I的最终倾斜角度α。
上述步骤(6)具体采用以下方法对类型为复杂内容图像的扫描文档图像I进行倾斜角检测:
(6.1)对第二二值图像Ib2进行轮廓检测,得到轮廓集合C*,如图7所示,该图是图4经过图像二值化和轮廓检测后的结果图;
(6.2)设置轮廓面积最大阈值γ=100;
(6.3)遍历轮廓集合C*中每一个轮廓ci *,计算ci *最小外接矩形的宽度wi *与高度hi *,其中i=1,2,…,z,z为轮廓集合C*中的轮廓总数;根据wi *与高度hi *,利用公式(1)计算面积ai *
(6.4)若面积ai *大于轮廓面积最大阈值γ,则将轮廓ci *从轮廓集合C*中移除;否则,保留轮廓ci *
(6.5)将轮廓集合C*绘制到一张空白图像中,得到经轮廓筛选后的图像Ic,如图8所示;
(6.6)对纯轮廓图像Ic进行傅里叶变换,得到对应的频谱图f,如图9所示;
(6.7)对频谱图f进行频谱中心化,使得低频分量居于图像中心点。具体频谱中心化转换公式如下:
Figure RE-GDA0003924173340000111
其中x和y为频谱图f(x,y)的坐标,x*和y*为中心化后的频谱图F(x*,y*)的坐标,W和H为频谱图的宽高;
(6.8)利用Otsu算法对中心化后的频谱图F进行图像二值化,得到二值频谱图Fb *,如图10所示;
(6.9)采用霍夫直线检测算法对二值频谱图Fb *进行直线检测,得到第五线段集合FL;
(6.10)通过公式(3)计算第五线段集合FL中每一条线段fli的斜率fki,再通过公式(6)计算该线段fli所对应的倾斜角度θi f。其中i=1,2,…,d,d为第五线段集合 FL内线段总数;
(6.11)将第五线段集合FL中倾斜角度θi f=0°和θi f=90°的线段去除,得到有效线段集合FL*
(6.12)根据有效线段集合FL*中每一条线段tli的倾斜角度θi f,利用公式(7) 计算扫描文档图像I的最终倾斜角度α。
本发明针对的是多种类型的扫描文档图像倾斜角检测,其核心在于结合多种倾斜角度检测方法对不同类型的扫描文档图像进行倾斜角度检测。本发明的优点在于充分利用扫描文档图像中独有的特性和位置关系,能准确的识别出扫描文档图像的所属类型,并给予最佳的倾斜角检测方案,进而提升了图像倾斜角度的准确率。
以上所述为本发明的较佳实例,但本发明不应该局限于该实例和附图所公开的内容。所以凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。

Claims (5)

1.一种自适应扫描文档图像倾斜角检测方法,其特征是,该方法包括以下步骤:
(1)设定扫描文档图像的文档图像类型为文本文档图像、表格文档图像和复杂内容图像;
(2)对扫描文档图像I进行预处理;具体为:对扫描文档图像I进行灰度转换,得到灰度图像Ig;采用图像二值化算法对灰度图像Ig进行图像二值化,得到第一二值图像Ib1;采用图像膨胀算法对第一二值图像Ib1进行图像膨胀,得到第二二值图像Ib2
(3)判定扫描文档图像I的文档图像类型;根据第二二值图像Ib2对扫描文档图像I进行文档图像类型判断,判定扫描文档图像I的文档图像类型;
(4)如果扫描文档图像I的文档图像类型为文本文档图像,则采用书写方向检测法和骨架直线检测算法确定扫描文档图像I的倾斜角度;
(5)如果扫描文档图像I的文档图像类型为表格文档图像,则采用直线检测算法确定扫描文档图像I的倾斜角度;
(6)如果扫描文档图像I的文档图像类型为复杂内容图像,则采用形态学聚类法和傅里叶变换法确定扫描文档图像I的倾斜角度。
2.根据权利要求1所述的一种自适应扫描文档图像倾斜角检测方法,其特征是,步骤(3)中判定扫描文档图像I的文档图像类型,具体采用了以下方法:
(3.1)对第二二值图像Ib2进行轮廓检测,得到轮廓集合C;
(3.2)设置宽高比最小阈值smin、宽高比最大阈值smax和面积最小阈值amin,设置垂直轮廓数nvc和水平轮廓数nhc的初始值为0;
(3.3)遍历轮廓集合C中的每一个轮廓ci,计算ci最小外接矩形的宽度wi与高度hi,其中i=1,2,…,m,m为轮廓集合C中的轮廓总数;根据宽度wi与高度hi,按下式计算宽高比si和面积ai
Figure FDA0003868887200000011
(3.4)若面积ai小于面积最小阈值amin,则将轮廓ci从轮廓集合C中移除;否则,若宽高比si小于宽高比最小阈值smin,则垂直轮廓数nvc增加1,若宽高比si大于宽高比最大阈值smax,则水平轮廓数nhc增加1;
(3.5)设定轮廓数量比例最小阈值rmin和轮廓数量比例最大阈值rmax;按下式计算水平垂直轮廓数量比例r:
r=nhc/nvc (2)
若r在[rmin,rmax]范围内,则将扫描文档图像I的文档图像类型标记为文本文档图像,文档图像类型判断结束,否则,继续后续步骤判断文档图像的类型;
(3.6)对第一二值图像Ib1进行边缘检测,得到边缘特征图像Ie
(3.7)对边缘特征图像Ie进行直线检测,得到第一线段集合L;
(3.8)设置线段总数最小阈值nmin和直线斜率总体方差阈值σmax
(3.9)对于第一线段集合L中的每一条线段li,其中i=1,2,…,p,p为第一线段集合L内的线段总数,采用以下公式计算斜率ki
Figure FDA0003868887200000021
其中,xi1和yi1分别为线段li的起始点横坐标与纵坐标,xi2和yi2为线段li的结束点横坐标与纵坐标;
(3.10)通过下列公式计算第一线段集合L中所有线段斜率的总体方差σ:
Figure FDA0003868887200000022
其中,
Figure FDA0003868887200000023
为平均斜率,计算公式为:
Figure FDA0003868887200000024
(3.11)若线段总数p大于线段总数最小阈值nmin,且所有线段斜率的总体方差σ小于直线斜率总体方差阈值σmax,则将扫描文档图像I的文档图像类型标记为表格文档图像;否则,将扫描文档图像I的文档图像类型标记为复杂内容图像。
3.根据权利要求1所述的一种自适应扫描文档图像倾斜角检测方法,其特征是,步骤(4)具体采用以下方法对扫描文档图像I的文档图像类型为文本文档图像进行倾斜角检测:
(4.1)对第一二值图像Ib1进行直线检测,得到第二线段集合BL;
(4.2)设置直线斜率阈值kthr,设置垂直方向线段数Nv和水平方向线段数Nh的初始值为0;
(4.3)通过公式(3)计算第二线段集合BL中每一条线段bli的斜率bki,其中i=1,2,…,q,q为第二线段集合BL内线段总数;若斜率bki大于等于直线斜率阈值kthr,则垂直方向线段数Nv增加1,否则,水平方向线段数Nh增加1;
(4.4)若垂直方向线段数Nv大于水平方向线段数Nh,则标记扫描文档图像I的文字方向为垂直方向;否则,标记扫描文档图像I的文字方向为水平方向;
(4.5)设定一个大小为M×N的矩形结构元S,若标记扫描文档图像I的文字方向为水平方向,则设置M的数值大于N;若标记扫描文档图像I的文字方向为垂直方向,则设置M的数值小于N;
(4.6)根据结构元S对第一二值图像Ib1进行图像膨胀,得到膨胀后的第三二值图像Ib3
(4.7)对第三二值图像Ib3进行骨架提取,得到骨架提取图像Ts
(4.8)对骨架提取图像Ts进行直线检测,得到第三线段集合TL;
(4.9)通过公式(3)计算第三线段集合TL中每一条线段tli的斜率tki,再通过反正切公式中得到该线段tli所对应的倾斜角度
Figure FDA0003868887200000031
其中i=1,2,…,u,u为第三线段集合TL内线段总数;具体反正切公式如下:
Figure FDA0003868887200000032
(4.10)根据第三线段集合TL中每一条线段tli的倾斜角度
Figure FDA0003868887200000033
采用下式计算扫描文档图像I的最终倾斜角度α:
Figure FDA0003868887200000034
4.根据权利要求1所述的一种自适应扫描文档图像倾斜角检测方法,其特征是,步骤(5)具体采用以下方法对扫描文档图像I的文档图像类型为表格文档图像进行倾斜角检测:
(5.1)对第一二值图像Ib1进行直线检测,得到第四线段集合NL;
(5.2)通过公式(3)计算第四线段集合NL中每一条线段nli的斜率nki,再通过公式(6)计算该线段nli所对应的倾斜角度
Figure FDA0003868887200000041
其中i=1,2,…,g,g为第四线段集合NL内线段总数;
(5.3)利用角度转换公式将第四线段集合NL中每一条线段nli所对应的倾斜角度
Figure FDA0003868887200000042
转换至[θminmax]范围内;具体角度转换公式如下:
Figure FDA0003868887200000043
(5.4)根据第四线段集合NL中每一条线段nli的倾斜角度
Figure FDA0003868887200000044
利用公式(7)计算扫描文档图像I的最终倾斜角度α。
5.根据权利要求1所述的一种自适应扫描文档图像倾斜角检测方法,其特征是,步骤(6)具体采用以下方法对扫描文档图像I的文档图像类型为复杂内容图像进行倾斜角检测:
(6.1)对第二二值图像Ib2进行轮廓检测,得到轮廓集合C*
(6.2)设置轮廓面积最大阈值γ;
(6.3)遍历轮廓集合C*中每一个轮廓ci *,计算ci *最小外接矩形的宽度wi *与高度hi *,其中i=1,2,…,z,z为轮廓集合C*中的轮廓总数;根据wi *与高度hi *,利用公式(1)计算面积ai *
(6.4)若面积ai *大于轮廓面积最大阈值γ,则将轮廓ci *从轮廓集合C*中移除;否则,保留轮廓ci *
(6.5)将轮廓集合C*绘制到一张空白图像中,得到纯轮廓图像Ic
(6.6)对纯轮廓图像Ic进行傅里叶变换,得到对应的频谱图f;
(6.7)对频谱图f进行频谱中心化,使得低频分量居于图像中心点;具体频谱中心化计算公式如下:
Figure FDA0003868887200000045
其中x和y为频谱图f(x,y)的坐标,x*和y*为中心化后的频谱图F(x*,y*)的坐标,W和H为频谱图的宽高;
(6.8)对中心化后的频谱图f*进行图像二值化,得到二值频谱图Fb *
(6.9)对二值频谱图Fb *进行直线检测,得到第五线段集合FL;
(6.10)通过公式(3)计算第五线段集合FL中每一条线段fli的斜率fki,再通过公式(6)计算该线段fli所对应的倾斜角度
Figure FDA0003868887200000051
其中i=1,2,…,d,d为第五线段集合FL内线段总数;
(6.11)将第五线段集合FL中倾斜角度
Figure FDA0003868887200000052
Figure FDA0003868887200000053
的线段去除,得到有效线段集合FL*
(6.12)根据有效线段集合FL*中每一条线段fli的倾斜角度
Figure FDA0003868887200000054
利用公式(7)计算扫描文档图像I的最终倾斜角度α。
CN202211189816.4A 2022-09-28 2022-09-28 一种自适应扫描文档图像倾斜角检测方法 Pending CN115619845A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211189816.4A CN115619845A (zh) 2022-09-28 2022-09-28 一种自适应扫描文档图像倾斜角检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211189816.4A CN115619845A (zh) 2022-09-28 2022-09-28 一种自适应扫描文档图像倾斜角检测方法

Publications (1)

Publication Number Publication Date
CN115619845A true CN115619845A (zh) 2023-01-17

Family

ID=84860428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211189816.4A Pending CN115619845A (zh) 2022-09-28 2022-09-28 一种自适应扫描文档图像倾斜角检测方法

Country Status (1)

Country Link
CN (1) CN115619845A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115880699A (zh) * 2023-03-03 2023-03-31 济南市莱芜区综合检验检测中心 一种食品包装袋检测方法及系统
CN117237957A (zh) * 2023-11-16 2023-12-15 新视焰医疗科技(杭州)有限公司 用于检测文件方向并对倾斜或畸形文件矫正的方法及系统
CN117877038A (zh) * 2024-03-12 2024-04-12 金现代信息产业股份有限公司 基于文字检测的文档图像纠偏方法、系统、设备及介质
CN117877038B (zh) * 2024-03-12 2024-06-04 金现代信息产业股份有限公司 基于文字检测的文档图像纠偏方法、系统、设备及介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115880699A (zh) * 2023-03-03 2023-03-31 济南市莱芜区综合检验检测中心 一种食品包装袋检测方法及系统
CN117237957A (zh) * 2023-11-16 2023-12-15 新视焰医疗科技(杭州)有限公司 用于检测文件方向并对倾斜或畸形文件矫正的方法及系统
CN117877038A (zh) * 2024-03-12 2024-04-12 金现代信息产业股份有限公司 基于文字检测的文档图像纠偏方法、系统、设备及介质
CN117877038B (zh) * 2024-03-12 2024-06-04 金现代信息产业股份有限公司 基于文字检测的文档图像纠偏方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
CN115619845A (zh) 一种自适应扫描文档图像倾斜角检测方法
CN108389179B (zh) 一种基于机器视觉的罐盖表面缺陷检测方法
CN108921865B (zh) 一种抗干扰的亚像素直线拟合方法
CN108345881B (zh) 一种基于计算机视觉的文档质量检测方法
CN112183038A (zh) 一种表格识别套打方法、计算机设备及计算机可读存储介质
CN114693610A (zh) 一种基于机器视觉的焊缝表面缺陷检测方法、设备及介质
WO2018072333A1 (zh) 一种元件错件检测方法和装置
CN112734729B (zh) 适用于夜间补光条件的水尺水位线图像检测方法、装置及存储介质
CN113077437B (zh) 工件质量检测方法及其系统
CN114627080B (zh) 基于计算机视觉的车辆冲压配件缺陷检测方法
CN108022232A (zh) 一种飞行器表面铆钉检测方法
CN115294099A (zh) 一种钢板轧制过程发纹缺陷的检测方法及系统
CN106340010A (zh) 一种基于二阶轮廓差分的角点检测方法
CN115601757A (zh) 一种基于分段投影的扫描文档图像倾斜校正方法
CN108256518B (zh) 文字区域检测方法及装置
CN111445511B (zh) 一种图像中圆的检测方法
CN116740054A (zh) 一种基于图像处理的舌象齿痕检测方法
CN107463939B (zh) 一种图像关键直线检测方法
CN106530273B (zh) 高精度fpc直线线路检测与缺陷定位方法
CN108492306A (zh) 一种基于图像轮廓的x型角点提取方法
Jipeng et al. Skew correction for Chinese character using Hough transform
CN112419225B (zh) 一种基于引脚分割的sop型芯片检测方法及系统
CN114387329A (zh) 基于高分遥感影像的建筑物轮廓递进式规则化方法
CN111178210B (zh) 一种十字标记的图像识别及对准方法
CN112418210B (zh) 一种杆塔巡检信息智能分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication