CN108335266B

CN108335266B - 一种文档图像畸变的矫正方法

Info

Publication number: CN108335266B
Application number: CN201710241896.6A
Authority: CN
Inventors: 陈思远
Original assignee: Individual
Current assignee: Individual
Priority date: 2017-04-14
Filing date: 2017-04-14
Publication date: 2022-08-05
Anticipated expiration: 2037-04-14
Also published as: CN108335266A

Abstract

本发明属于图像处理领域，具体属于对纸质文档(图书，期刊等)的数字化处理中，文档图像畸变的矫正方法。本发明提出了一种纸质文档图像矫正方法。该方法至少包括：对图像进行降采样；对降采样后图像中页面边缘的提取和过滤；基于页面边缘拟合和插值获得页面轮廓；基于轮廓对原图页面进行拉伸和矫正。本发明解决了基于单个二维图像且不依赖于文本行的曲面文档图像畸变矫正的问题。

Description

一种文档图像畸变的矫正方法

技术领域：

本发明涉及数字图像处理领域，具体是对纸质文档(图书，期刊等)的数字化处理过程中，文档图像畸变的矫正方法。

背景技术：

随着相机的拍摄分辨率不断提升，我们用这些设备对书籍的页面进行拍摄能够取得一个接近扫描分辨率的图像，来进行非接触式扫描。但相机所拍摄的图像中的文档页面几何扭曲的问题，无法通过改变摄像设备的拍摄角度来消除。几何扭曲畸形的存在，将严重影响光学文字识别(OCR)，文档页面分割，图像识别等后续信息分析的效果。

为了解决这个扭曲畸形问题，人们提出了多种解决方法，这些方法可以分为基于文本行的矫正方法，通过明暗恢复形状(Shape-From-Shading)的方法，基于页面轮廓的矫正方法，基于多个视点拍摄的多个图像矫正方法，基于主动发射激光束的矫正方法。

基于文本行的矫正方法，分为无模型的方法和有模型的方法。其中，无模型的方法能够对各种扭曲进行矫正，但其矫正精度较差，且可靠性相对低。有模型的方法中，一类方法使用通用柱面模型(General Cylinder Surface，GCS)，另一类方法使用可展曲面(developable surface)模型。使用通用柱面模型的方法，只能对柱面扭曲进行矫正，可靠性很高。使用可展曲面模型进行校正，可以对多种扭曲进行矫正，但由于图像中提供的文本行数量有限，限制了其信息来源，导致可靠性或精度较低。

通过明暗恢复形状(Shape-From-Shading)是一种通过背景亮度来计算出深度(页面高度)的方法。在已知光源下，如果书籍的背景亮度能够被提取出来，那么深度就能被确定，从而能够对各种页面扭曲进行矫正。不过由于书籍内容各异，页面的背景亮度提取并不容易，所以这个方法的限制较多。

通过基于轮廓的方法是单页面图像中最不依赖于内容或光照度的方法，处理也较为简单，但不能对不包含轮廓的压面进行矫正。由于文档的排版和内容不固定，准确识别文档页面的轮廓一直是一个具有挑战性的问题。

基于多个视点拍摄的多个图像的矫正方法，能够对各种图像扭曲进行矫正。多图像能够构成多目视觉，从而计算出高度信息来进行矫正。但高度信息的运算需要大量特征点匹配，特征点不足或错误都将给矫正结果带来明显不利影响。由于拍摄设备不可避免产生像素噪声，特征点匹配的困难给这类方法带来了很大的限制，且需要大量运算。

基于主动发射激光束的方法，最少使用双激光束在页面上的反光，来获得两个平行截面的高度信息。这种方法能够对页面进行非常精确的矫正，且运行速度快，不受页面内容影响，但需要有特定设备来发射准确位置的激光束。

综上所述，现有的文本图像畸变矫正方法，仍然有很多不足之处，因此需要一种在更普遍的环境和条件下对高分辨率文本图像畸变进行快速有效矫正的方法。

发明内容：

本发明的主要目的是提供了一种在较为普遍的环境和条件下对高分辨率文本图像畸变进行快速有效矫正的方法。

这种矫正方法包括的步骤包括：

步骤S1：对图像进行降采样；

步骤S2：对降采样后图像中页面边缘的提取和过滤；

步骤S3：基于页面边缘拟合和插值获得页面轮廓；

步骤S4：基于轮廓对原图页面进行拉伸和矫正。

本发明可在多种环境下较为可靠且快速地识别出文档轮廓，并基于轮廓进行文档图像的几何畸形矫正。本方法仅依赖于独立的单张由相机拍摄的文档图像，无需辅助设备或采集多个图像，也无需文档页面上有任何文字行。

附图说明：

图1是本发明的总体流程图。

图2a至图2b是图像腐蚀步骤的效果图。

图3a至图3b是边缘过滤之后的效果图。

图4是上下边缘插值之后的效果图。

图5是左右边缘插值之后的效果图。

图6是矫正过程的示意图。

图7a至图7b是相机真实拍摄图像的文档图像几何畸变矫正效果图。

具体实施方式：

下面结合附图来对本发明的一种具体实施例进行说明。显然，该实施例不是全部的实施例，权利要求在不同限定条件下的结合会产生不同的具体实施例。

图1是本发明的总体流程图，如图1所示，该发明至少包含如下步骤：

步骤S1：对图像进行降采样。一般情况下，文档图像中，页面边缘是一条平滑曲线，页面轮廓以内的区域也占有图像面积的一大部分。由于在相机拍摄到的图像中不可避免地存在噪音，因此在边缘检测之前首先要进行降噪。降低像素噪声最方便的方法，就是用通过平均滤波降采样，降低图像分辨率。一般情况下，页面边缘是一条平滑曲线，降低图像分辨率之后不会明显影响轮廓识别的精度。在该实施例中，宽高比为4∶3的图像被降采样至320*240的尺寸。

步骤S2：对降采样后图像中页面边缘的提取和过滤；在大多数情况下，页面相比于背景亮度更高。为了避免把书籍阴影识别为边缘，该实施例假设从轮廓外到轮廓内的边缘是“从暗到亮”的，从而通过有方向的边缘算子，对“从暗到亮”的边缘进行提取。完成提取后的图像是一个二值图像。

在该步骤中，边缘的过滤首先进行垂直于该边缘所在轮廓方向的图形腐蚀。在像素意义上，对于竖直方向的有宽度直线段，只保留水平方向最左侧或最右侧的像素点作为边缘的有效像素；对于水平方向的有宽度直线段，只保留最上端或最下端的像素点作为边缘的有效像素。

图2a至图2b是图像腐蚀步骤的效果图。

完成图形腐蚀之后，通过“类生长”方法对腐蚀后的边缘进行补充和过滤。对水平方向的边缘的像素点，若“生长”过程从左侧开始，依次判断其右邻域，右上邻域，右下邻域是否为边缘的有效像素。若是，则以该像素重复该过程。若不是，则依次假设其右邻域，右上邻域，右下邻域是边缘的有效像素，然后再对被假设点的右邻域，右上邻域，右下邻域进行判断，若发现边缘的有效像素，则假设有效，基于这个假设重复该过程来完成边缘补充，否则假设无效，过程停止。停止该过程后，对该过程执行的循环次数进行记录，记作曲线段的长度。在该实施例中，对于降采样至320*240尺寸的图片，保留大于80个像素长度的曲线段。

图3a至图3b是边缘过滤之后的效果图。

步骤S3：基于页面边缘拟合和插值获得页面轮廓。在该步骤中，基于页面边缘拟合分为上下边缘拟合和左右边缘拟合。在该实施例中，上下边缘通过三次埃尔米特样条插值方法，对筛选完成后的最高一条的上边缘和最低一条下边缘，取出其像素意义水平直线段上的中心点作为数据点进行插值。插值的目的尺寸和未经过降采样的原图相同。左右边缘通过直线拟合方法进行拟合，拟合的结果是的Ax+By+C＝0的直线标准形。由于降采样后的图片和源图比例相同，且直线拟合后的结果用浮点数表示，因此拟合结果可适应各种图像分辨率。通过这样的拟合和插值方法，保证了插值后的精度是亚像素的，避免了量化误差导致的锯齿扭曲。文档图像中，被摄页面的四个角点就是插值后边缘的交点。四个交点和四条边缘构成了文档图像中图书页面的轮廓。

图4是上下边缘插值之后的效果图。

图5是左右边缘插值之后的效果图。

步骤S4：基于轮廓对原图页面进行拉伸和矫正。在本实施例中，该步骤首先进行拉伸：通过双线性插值把文档图像轮廓内的区域拉伸到轮廓的外接矩形区域中。

将图像拉伸到外接矩形区域中，能够对任意折痕或弯曲轴为竖直的图像进行部分矫正，使文档图像中所有水平部分恢复水平。

一般情况下，相机很容易在拍摄文档图像时做到较小的相对铅垂的倾斜角度。在较小的倾斜角度下，由三角函数的等价无穷小原理可知，所拍摄的图像的倾斜失真也较小且线性。为了减少运算量，对该失真不进行矫正，对结果的影响不明显。

然后进行长度矫正。长度矫正之前，首先通过轮廓的上下部分计算页面的截面高度。计算公式如下：

该公式中，D(x)是在水平位置x的页面高度，h是高度系数，l_min是被摄文档页面的最小宽度，l(x)是在水平位置x的文档页面的宽度。

影响文本长度的因素有两个：1、页面倾斜导致的长度比例不等。2、页面高度不同导致页面到相机所在平面的实际距离不同。通过截面高度，可通过下述两个公式完成针对这两个畸形的矫正。

S₂(x)＝(D_min-D(x))·h₂

在这两个公式中，S₁(x)是在水平位置x针对页面倾斜的矫正的插值比例。Δ是一个极小值，当x的单位是像素时，Δ＝1。D(x)是水平位置x的页面高度。

S₂(x)是在水平位置x针对页面高度差的插值比例。D_min是文档页面的最大高度(即是页面到相机所在水平面的最小距离)，D(x)是水平位置x的页面高度，h₂是一个高度常数。

图6是矫正过程的示意图

附图7b是完成该实施例之后的图片。从附图7b中可以看到，矫正后的图片能够对原图像的几何畸变进行矫正，矫正后图片的内容同扫描图片非常相似。这证明了该技术的有效性。

Claims

1.一种对文档图像进行矫正的方法，其特征在于该方法至少包括：

对图像进行降采样；

对降采样后图像中页面边缘的提取和过滤；

基于页面边缘拟合和插值获得页面轮廓；

基于轮廓对原图中的页面进行拉伸和矫正，其方法为：

通过双线性插值把文档图像轮廓内的区域拉伸到轮廓的外接矩形区域中；

通过轮廓上下部分的波动和高度比例系数，使用以下公式计算出页面的高度：

该公式中，D(x)是在水平位置x的页面高度，h是高度系数，l_min是被摄文档页面的最小宽度，l(x)是在水平位置x的文档页面的宽度；

基于页面高度的变化和相对距离导致的缩小，使用下述两个公式对图像进行水平方向的插值拉伸：

S₂(x)＝(D_min-D(x))·h₂

在这两个公式中，S₁(x)是在水平位置x针对页面倾斜的矫正的插值比例，Δ是一个极小值，当x的单位是像素时，Δ＝1， S₂(x)是在水平位置x针对页面高度差的插值比例，D_min是文档页面的最大高度，D(x)是水平位置x的页面高度，h₂是一个高度常数。

2.根据权利要求1所述的方法，其中，对图像进行降采样的特征是基于像素平均的降采样。

3.根据权利要求1所述的方法，其中对降采样后图像中页面边缘的提取和过滤，包含：

通过有方向的边缘提取算子从完成降采样之后的图片中获得初步边缘；

对边缘进行垂直于该边缘所在轮廓方向的图形腐蚀；

通过“类生长”方法对腐蚀后的边缘进行补充和过滤。

4.根据权利要求3所述的方法，其中，对边缘进行垂直于该边缘所在轮廓方向的图形腐蚀，其特征是在像素意义上，对于竖直方向的有宽度直线段，只保留水平方向最左侧或最右侧的像素点作为边缘的有效像素；对于水平方向的有宽度直线段，只保留最上端或最下端的像素点作为边缘的有效像素。

5.根据权利要求3所述的方法，其中，通过“类生长”方法对腐蚀后的边缘进行补充和过滤包括：

对水平方向的边缘的像素点，若“生长”过程从左侧开始，依次判断其右邻域，右上邻域，右下邻域是否为边缘的有效像素，若是，则以该像素重复该过程，若不是，则依次假设其右邻域，右上邻域，右下邻域是边缘的有效像素，然后再对被假设点的右邻域，右上邻域，右下邻域进行判断，若发现边缘的有效像素，则假设有效，基于这个假设重复该过程来完成边缘补充，否则假设无效，过程停止，停止该过程后，对该过程执行的循环次数进行记录，记作曲线段的长度，然后，通过人为设定的阈值，排除低于阈值的曲线段来完成长度过滤。

6.根据权利要求1所述的方法，其中，基于页面边缘拟合和插值获得页面轮廓，包含：

通过直线拟合方法对页面左侧的边缘和右侧的筛选后边缘进行拟合；

通过曲线拟合方法对页面上侧和下侧的筛选后边缘进行拟合；

拟合后的直线和曲线，及其交点构成文档页面的轮廓；

通过插值改变该轮廓的尺寸，使该轮廓的尺寸符合源文档图像。