CN108335266B - 一种文档图像畸变的矫正方法 - Google Patents
一种文档图像畸变的矫正方法 Download PDFInfo
- Publication number
- CN108335266B CN108335266B CN201710241896.6A CN201710241896A CN108335266B CN 108335266 B CN108335266 B CN 108335266B CN 201710241896 A CN201710241896 A CN 201710241896A CN 108335266 B CN108335266 B CN 108335266B
- Authority
- CN
- China
- Prior art keywords
- page
- edge
- image
- outline
- height
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000012937 correction Methods 0.000 claims abstract description 20
- 238000001914 filtration Methods 0.000 claims abstract description 12
- 238000005070 sampling Methods 0.000 claims abstract description 11
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000005530 etching Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 239000013589 supplement Substances 0.000 claims description 2
- 230000001502 supplementing effect Effects 0.000 claims 2
- 238000005260 corrosion Methods 0.000 claims 1
- 230000007797 corrosion Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 5
- 238000003702 image correction Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 7
- 230000003628 erosive effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/80—Geometric correction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/247—Aligning, centring, orientation detection or correction of the image by affine transforms, e.g. correction due to perspective effects; Quadrilaterals, e.g. trapezoids
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Image Processing (AREA)
Abstract
本发明属于图像处理领域,具体属于对纸质文档(图书,期刊等)的数字化处理中,文档图像畸变的矫正方法。本发明提出了一种纸质文档图像矫正方法。该方法至少包括:对图像进行降采样;对降采样后图像中页面边缘的提取和过滤;基于页面边缘拟合和插值获得页面轮廓;基于轮廓对原图页面进行拉伸和矫正。本发明解决了基于单个二维图像且不依赖于文本行的曲面文档图像畸变矫正的问题。
Description
技术领域:
本发明涉及数字图像处理领域,具体是对纸质文档(图书,期刊等)的数字化处理过程中,文档图像畸变的矫正方法。
背景技术:
随着相机的拍摄分辨率不断提升,我们用这些设备对书籍的页面进行拍摄能够取得一个接近扫描分辨率的图像,来进行非接触式扫描。但相机所拍摄的图像中的文档页面几何扭曲的问题,无法通过改变摄像设备的拍摄角度来消除。几何扭曲畸形的存在,将严重影响光学文字识别(OCR),文档页面分割,图像识别等后续信息分析的效果。
为了解决这个扭曲畸形问题,人们提出了多种解决方法,这些方法可以分为基于文本行的矫正方法,通过明暗恢复形状(Shape-From-Shading)的方法,基于页面轮廓的矫正方法,基于多个视点拍摄的多个图像矫正方法,基于主动发射激光束的矫正方法。
基于文本行的矫正方法,分为无模型的方法和有模型的方法。其中,无模型的方法能够对各种扭曲进行矫正,但其矫正精度较差,且可靠性相对低。有模型的方法中,一类方法使用通用柱面模型(General Cylinder Surface,GCS),另一类方法使用可展曲面(developable surface)模型。使用通用柱面模型的方法,只能对柱面扭曲进行矫正,可靠性很高。使用可展曲面模型进行校正,可以对多种扭曲进行矫正,但由于图像中提供的文本行数量有限,限制了其信息来源,导致可靠性或精度较低。
通过明暗恢复形状(Shape-From-Shading)是一种通过背景亮度来计算出深度(页面高度)的方法。在已知光源下,如果书籍的背景亮度能够被提取出来,那么深度就能被确定,从而能够对各种页面扭曲进行矫正。不过由于书籍内容各异,页面的背景亮度提取并不容易,所以这个方法的限制较多。
通过基于轮廓的方法是单页面图像中最不依赖于内容或光照度的方法,处理也较为简单,但不能对不包含轮廓的压面进行矫正。由于文档的排版和内容不固定,准确识别文档页面的轮廓一直是一个具有挑战性的问题。
基于多个视点拍摄的多个图像的矫正方法,能够对各种图像扭曲进行矫正。多图像能够构成多目视觉,从而计算出高度信息来进行矫正。但高度信息的运算需要大量特征点匹配,特征点不足或错误都将给矫正结果带来明显不利影响。由于拍摄设备不可避免产生像素噪声,特征点匹配的困难给这类方法带来了很大的限制,且需要大量运算。
基于主动发射激光束的方法,最少使用双激光束在页面上的反光,来获得两个平行截面的高度信息。这种方法能够对页面进行非常精确的矫正,且运行速度快,不受页面内容影响,但需要有特定设备来发射准确位置的激光束。
综上所述,现有的文本图像畸变矫正方法,仍然有很多不足之处,因此需要一种在更普遍的环境和条件下对高分辨率文本图像畸变进行快速有效矫正的方法。
发明内容:
本发明的主要目的是提供了一种在较为普遍的环境和条件下对高分辨率文本图像畸变进行快速有效矫正的方法。
这种矫正方法包括的步骤包括:
步骤S1:对图像进行降采样;
步骤S2:对降采样后图像中页面边缘的提取和过滤;
步骤S3:基于页面边缘拟合和插值获得页面轮廓;
步骤S4:基于轮廓对原图页面进行拉伸和矫正。
本发明可在多种环境下较为可靠且快速地识别出文档轮廓,并基于轮廓进行文档图像的几何畸形矫正。本方法仅依赖于独立的单张由相机拍摄的文档图像,无需辅助设备或采集多个图像,也无需文档页面上有任何文字行。
附图说明:
图1是本发明的总体流程图。
图2a至图2b是图像腐蚀步骤的效果图。
图3a至图3b是边缘过滤之后的效果图。
图4是上下边缘插值之后的效果图。
图5是左右边缘插值之后的效果图。
图6是矫正过程的示意图。
图7a至图7b是相机真实拍摄图像的文档图像几何畸变矫正效果图。
具体实施方式:
下面结合附图来对本发明的一种具体实施例进行说明。显然,该实施例不是全部的实施例,权利要求在不同限定条件下的结合会产生不同的具体实施例。
图1是本发明的总体流程图,如图1所示,该发明至少包含如下步骤:
步骤S1:对图像进行降采样。一般情况下,文档图像中,页面边缘是一条平滑曲线,页面轮廓以内的区域也占有图像面积的一大部分。由于在相机拍摄到的图像中不可避免地存在噪音,因此在边缘检测之前首先要进行降噪。降低像素噪声最方便的方法,就是用通过平均滤波降采样,降低图像分辨率。一般情况下,页面边缘是一条平滑曲线,降低图像分辨率之后不会明显影响轮廓识别的精度。在该实施例中,宽高比为4∶3的图像被降采样至320*240的尺寸。
步骤S2:对降采样后图像中页面边缘的提取和过滤;在大多数情况下,页面相比于背景亮度更高。为了避免把书籍阴影识别为边缘,该实施例假设从轮廓外到轮廓内的边缘是“从暗到亮”的,从而通过有方向的边缘算子,对“从暗到亮”的边缘进行提取。完成提取后的图像是一个二值图像。
在该步骤中,边缘的过滤首先进行垂直于该边缘所在轮廓方向的图形腐蚀。在像素意义上,对于竖直方向的有宽度直线段,只保留水平方向最左侧或最右侧的像素点作为边缘的有效像素;对于水平方向的有宽度直线段,只保留最上端或最下端的像素点作为边缘的有效像素。
图2a至图2b是图像腐蚀步骤的效果图。
完成图形腐蚀之后,通过“类生长”方法对腐蚀后的边缘进行补充和过滤。对水平方向的边缘的像素点,若“生长”过程从左侧开始,依次判断其右邻域,右上邻域,右下邻域是否为边缘的有效像素。若是,则以该像素重复该过程。若不是,则依次假设其右邻域,右上邻域,右下邻域是边缘的有效像素,然后再对被假设点的右邻域,右上邻域,右下邻域进行判断,若发现边缘的有效像素,则假设有效,基于这个假设重复该过程来完成边缘补充,否则假设无效,过程停止。停止该过程后,对该过程执行的循环次数进行记录,记作曲线段的长度。在该实施例中,对于降采样至320*240尺寸的图片,保留大于80个像素长度的曲线段。
图3a至图3b是边缘过滤之后的效果图。
步骤S3:基于页面边缘拟合和插值获得页面轮廓。在该步骤中,基于页面边缘拟合分为上下边缘拟合和左右边缘拟合。在该实施例中,上下边缘通过三次埃尔米特样条插值方法,对筛选完成后的最高一条的上边缘和最低一条下边缘,取出其像素意义水平直线段上的中心点作为数据点进行插值。插值的目的尺寸和未经过降采样的原图相同。左右边缘通过直线拟合方法进行拟合,拟合的结果是的Ax+By+C=0的直线标准形。由于降采样后的图片和源图比例相同,且直线拟合后的结果用浮点数表示,因此拟合结果可适应各种图像分辨率。通过这样的拟合和插值方法,保证了插值后的精度是亚像素的,避免了量化误差导致的锯齿扭曲。文档图像中,被摄页面的四个角点就是插值后边缘的交点。四个交点和四条边缘构成了文档图像中图书页面的轮廓。
图4是上下边缘插值之后的效果图。
图5是左右边缘插值之后的效果图。
步骤S4:基于轮廓对原图页面进行拉伸和矫正。在本实施例中,该步骤首先进行拉伸:通过双线性插值把文档图像轮廓内的区域拉伸到轮廓的外接矩形区域中。
将图像拉伸到外接矩形区域中,能够对任意折痕或弯曲轴为竖直的图像进行部分矫正,使文档图像中所有水平部分恢复水平。
一般情况下,相机很容易在拍摄文档图像时做到较小的相对铅垂的倾斜角度。在较小的倾斜角度下,由三角函数的等价无穷小原理可知,所拍摄的图像的倾斜失真也较小且线性。为了减少运算量,对该失真不进行矫正,对结果的影响不明显。
然后进行长度矫正。长度矫正之前,首先通过轮廓的上下部分计算页面的截面高度。计算公式如下:
该公式中,D(x)是在水平位置x的页面高度,h是高度系数,lmin是被摄文档页面的最小宽度,l(x)是在水平位置x的文档页面的宽度。
影响文本长度的因素有两个:1、页面倾斜导致的长度比例不等。2、页面高度不同导致页面到相机所在平面的实际距离不同。通过截面高度,可通过下述两个公式完成针对这两个畸形的矫正。
S2(x)=(Dmin-D(x))·h2
在这两个公式中,S1(x)是在水平位置x针对页面倾斜的矫正的插值比例。Δ是一个极小值,当x的单位是像素时,Δ=1。D(x)是水平位置x的页面高度。
S2(x)是在水平位置x针对页面高度差的插值比例。Dmin是文档页面的最大高度(即是页面到相机所在水平面的最小距离),D(x)是水平位置x的页面高度,h2是一个高度常数。
图6是矫正过程的示意图
附图7b是完成该实施例之后的图片。从附图7b中可以看到,矫正后的图片能够对原图像的几何畸变进行矫正,矫正后图片的内容同扫描图片非常相似。这证明了该技术的有效性。
Claims (6)
1.一种对文档图像进行矫正的方法,其特征在于该方法至少包括:
对图像进行降采样;
对降采样后图像中页面边缘的提取和过滤;
基于页面边缘拟合和插值获得页面轮廓;
基于轮廓对原图中的页面进行拉伸和矫正,其方法为:
通过双线性插值把文档图像轮廓内的区域拉伸到轮廓的外接矩形区域中;
通过轮廓上下部分的波动和高度比例系数,使用以下公式计算出页面的高度:
该公式中,D(x)是在水平位置x的页面高度,h是高度系数,lmin是被摄文档页面的最小宽度,l(x)是在水平位置x的文档页面的宽度;
基于页面高度的变化和相对距离导致的缩小,使用下述两个公式对图像进行水平方向的插值拉伸:
S2(x)=(Dmin-D(x))·h2
在这两个公式中,S1(x)是在水平位置x针对页面倾斜的矫正的插值比例,Δ是一个极小值,当x的单位是像素时,Δ=1, S2(x)是在水平位置x针对页面高度差的插值比例,Dmin是文档页面的最大高度,D(x)是水平位置x的页面高度,h2是一个高度常数。
2.根据权利要求1所述的方法,其中,对图像进行降采样的特征是基于像素平均的降采样。
3.根据权利要求1所述的方法,其中对降采样后图像中页面边缘的提取和过滤,包含:
通过有方向的边缘提取算子从完成降采样之后的图片中获得初步边缘;
对边缘进行垂直于该边缘所在轮廓方向的图形腐蚀;
通过“类生长”方法对腐蚀后的边缘进行补充和过滤。
4.根据权利要求3所述的方法,其中,对边缘进行垂直于该边缘所在轮廓方向的图形腐蚀,其特征是在像素意义上,对于竖直方向的有宽度直线段,只保留水平方向最左侧或最右侧的像素点作为边缘的有效像素;对于水平方向的有宽度直线段,只保留最上端或最下端的像素点作为边缘的有效像素。
5.根据权利要求3所述的方法,其中,通过“类生长”方法对腐蚀后的边缘进行补充和过滤包括:
对水平方向的边缘的像素点,若“生长”过程从左侧开始,依次判断其右邻域,右上邻域,右下邻域是否为边缘的有效像素,若是,则以该像素重复该过程,若不是,则依次假设其右邻域,右上邻域,右下邻域是边缘的有效像素,然后再对被假设点的右邻域,右上邻域,右下邻域进行判断,若发现边缘的有效像素,则假设有效,基于这个假设重复该过程来完成边缘补充,否则假设无效,过程停止,停止该过程后,对该过程执行的循环次数进行记录,记作曲线段的长度,然后,通过人为设定的阈值,排除低于阈值的曲线段来完成长度过滤。
6.根据权利要求1所述的方法,其中,基于页面边缘拟合和插值获得页面轮廓,包含:
通过直线拟合方法对页面左侧的边缘和右侧的筛选后边缘进行拟合;
通过曲线拟合方法对页面上侧和下侧的筛选后边缘进行拟合;
拟合后的直线和曲线,及其交点构成文档页面的轮廓;
通过插值改变该轮廓的尺寸,使该轮廓的尺寸符合源文档图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710241896.6A CN108335266B (zh) | 2017-04-14 | 2017-04-14 | 一种文档图像畸变的矫正方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710241896.6A CN108335266B (zh) | 2017-04-14 | 2017-04-14 | 一种文档图像畸变的矫正方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108335266A CN108335266A (zh) | 2018-07-27 |
CN108335266B true CN108335266B (zh) | 2022-08-05 |
Family
ID=62921878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710241896.6A Expired - Fee Related CN108335266B (zh) | 2017-04-14 | 2017-04-14 | 一种文档图像畸变的矫正方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108335266B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109801227B (zh) * | 2018-12-18 | 2023-04-07 | 镇江教泽信息技术有限公司 | 基于字体图像的书籍插图纠正方法 |
CN110532973B (zh) * | 2019-09-03 | 2022-02-01 | 海南阿凡题科技有限公司 | 基于特殊锚点的双页文本图像识别及定位分割方法 |
CN111260586B (zh) | 2020-01-20 | 2023-07-04 | 北京百度网讯科技有限公司 | 扭曲文档图像的矫正方法和装置 |
CN112801088B (zh) * | 2020-12-31 | 2024-05-31 | 科大讯飞股份有限公司 | 一种扭曲文本行图像矫正的方法和相关装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3880544B2 (ja) * | 2003-05-21 | 2007-02-14 | シャープ株式会社 | 画像補正方法、画像補正用治具、及び、画像形成装置 |
US8270044B2 (en) * | 2006-10-26 | 2012-09-18 | Samsung Electronics Co., Ltd. | Scanning apparatus having image correction function |
JP5153593B2 (ja) * | 2008-12-02 | 2013-02-27 | 株式会社Pfu | 画像処理装置および画像処理方法 |
CN101458770B (zh) * | 2008-12-24 | 2011-07-06 | 北京文通科技有限公司 | 一种文字识别的方法和系统 |
CN101697228A (zh) * | 2009-10-15 | 2010-04-21 | 东莞市步步高教育电子产品有限公司 | 一种文本图像处理方法 |
US8457403B2 (en) * | 2011-05-19 | 2013-06-04 | Seiko Epson Corporation | Method of detecting and correcting digital images of books in the book spine area |
US9495735B2 (en) * | 2011-05-31 | 2016-11-15 | Steelcase Inc. | Document unbending systems and methods |
CN102254171A (zh) * | 2011-07-13 | 2011-11-23 | 北京大学 | 一种基于文本边界的中文文档图像畸变校正方法 |
CN103179315A (zh) * | 2011-12-20 | 2013-06-26 | 长沙鹏阳信息技术有限公司 | 连续视频图像处理的纸质文档扫描仪及扫描方法 |
-
2017
- 2017-04-14 CN CN201710241896.6A patent/CN108335266B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN108335266A (zh) | 2018-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8457403B2 (en) | Method of detecting and correcting digital images of books in the book spine area | |
Bieniecki et al. | Image preprocessing for improving ocr accuracy | |
EP2536122B1 (en) | Image processing method, image processing device and scanner | |
CN108335266B (zh) | 一种文档图像畸变的矫正方法 | |
US7330604B2 (en) | Model-based dewarping method and apparatus | |
US7301564B2 (en) | Systems and methods for processing a digital captured image | |
RU2631765C1 (ru) | Способ и система исправления перспективных искажений в изображениях, занимающих двухстраничный разворот | |
US9477898B2 (en) | Straightening out distorted perspective on images | |
US20080226171A1 (en) | Correcting device and method for perspective transformed document images | |
CN106934806B (zh) | 一种基于结构清晰度的无参考图失焦模糊区域分割方法 | |
CN111353961B (zh) | 一种文档曲面校正方法及装置 | |
WO2019187967A1 (ja) | 画像処理装置および画像処理方法 | |
US8306335B2 (en) | Method of analyzing digital document images | |
JP4859061B2 (ja) | 画像の補正方法、補正プログラムおよび画像歪み補正装置 | |
CN110502948A (zh) | 折叠二维码图像的还原方法、还原装置与扫码设备 | |
CN115063279B (zh) | 一种文本水印图像的预处理方法和装置 | |
WO2019107141A1 (ja) | 画像処理装置および画像処理方法 | |
CN113537216B (zh) | 一种点阵字体文本行倾斜校正方法及装置 | |
CN115527215A (zh) | 包含文本的图像处理方法、系统及存储介质 | |
CN113920525A (zh) | 文本矫正方法、装置、设备及存储介质 | |
KR20060033973A (ko) | 어파인 변환을 이용한 문서 영상의 기하학적 왜곡 보정장치 및 방법 | |
CN107194389B (zh) | 基于形态学与网格构造的二值图像校正方法 | |
CN110163212A (zh) | 一种碑帖图像中的文字切割方法 | |
Banerjee et al. | Rectification of Camera Captured Document Images using Component Analysis | |
JP2008287338A (ja) | 画像処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
DD01 | Delivery of document by public notice |
Addressee: Chen Siyuan Document name: Notice of registration |
|
DD01 | Delivery of document by public notice | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
DD01 | Delivery of document by public notice |
Addressee: Chen Siyuan Document name: Notice of Termination of Patent Rights |
|
DD01 | Delivery of document by public notice | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220805 |
|
CF01 | Termination of patent right due to non-payment of annual fee |