CN110059691A

CN110059691A - 基于移动终端的多视角扭曲文档图像几何校正方法

Info

Publication number: CN110059691A
Application number: CN201910247509.9A
Authority: CN
Inventors: 肖学中; 束彩炜; 韩贝贝
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2019-07-26
Anticipated expiration: 2039-03-29
Also published as: CN110059691B

Abstract

一种基于移动终端的多视角文档图像几何校正方法，包括：拍摄展开弯曲文档的左、右视角扭曲文档图像；对拍摄得到的左、右视角扭曲文档图像进行压缩；对压缩后的左、右视角扭曲文档图像进行特征点匹配，得到特征点匹配对集合；基于相机的标定内参数，求解拍摄左、右视角扭曲文档图像时的旋转矩阵和平移向量；基于求解得到的拍摄左、右视角扭曲文档图像时相机的旋转矩阵和平移向量，计算展开弯曲文档页面的三维坐标点；采用计算得到的三维坐标点，对展开弯曲文档页面构建可展曲面模型；基于构建的可展曲面模型，将三维坐标点校正到二维平面，并填充空白区域，得到最终平坦的平面图像。上述的方案，可以提高扭曲文档图像OCR识别的准确率。

Description

基于移动终端的多视角扭曲文档图像几何校正方法

技术领域

本发明属于计算机视觉技术领域，特别是涉及一种基于移动终端的多视角扭曲文档图像几何校正方法。

背景技术

为了满足对于信息的巨大需求量并减轻人们进行信息收集时的劳动量，信息数字化技术应运而生。其中，光学字符识别(Optical Character Recognition， OCR)技术可以实现文档内容的快速录入，很大程度上降低了人们的手工劳动，因而得到广泛应用。

对于一些折叠、扭曲、厚文本文档，在拍摄对应的文档图像之后需要对得到的文档图像进行几何校正。

但是，目前的文档图像几何校正算法存在OCR识别准确率低的问题。

发明内容

本发明解决的技术问题是如何提高扭曲文档图像OCR识别的准确率。

为了达到上述目的，本发明提供一种基于移动终端的多视角文档图像几何校正方法，所述方法包括：

拍摄展开弯曲文档的左、右视角扭曲文档图像；

对拍摄得到的左、右视角扭曲文档图像进行压缩；

对压缩后的左、右视角扭曲文档图像进行特征点匹配，得到特征点匹配对集合；

基于相机的标定内参数，求解拍摄所述左、右视角扭曲文档图像时的旋转矩阵和平移向量；

基于求解得到的拍摄所述左、右视角扭曲文档图像时相机的旋转矩阵和平移向量，计算所述展开弯曲文档页面的三维坐标点；

采用计算得到的三维坐标点，对所述展开弯曲文档页面构建可展曲面模型；

基于构建的可展曲面模型，将所述三维坐标点校正到二维平面，并填充空白区域，得到最终平坦的平面图像。

可选地，所述对压缩后的左、右视角扭曲文档图像进行特征点匹配，得到特征点匹配对集合，包括：

采用特征匹配算法对对压缩后的左、右视角扭曲文档图像进行特征点匹配，得到初始匹配点集合；

计算初始匹配点集合中每对匹配特征点对应的一对匹配描述子向量的夹角余弦值；

将计算得到的余弦值大于预设的阈值的特征点对保留，得到所述特征点匹配对集合。

可选地，在得到所述特征点匹配对集合之前，所述方法还包括：

对所述特征点匹配对集合进行提纯，剔除所述特征点匹配对集合中的局外匹配对。

可选地，所述特征匹配算法为ORB特征匹配算法。

可选地，所述对拍摄得到的左、右视角扭曲文档图像进行压缩，包括：

采用安卓操作系统中的位图处理函数将拍摄得到的左、右视角扭曲文档图像原图压缩到预设尺寸。

可选地，所述基于相机的标定内参数，求解拍摄所述左、右视角扭曲文档图像时的旋转矩阵和平移向量，包括：

求解拍摄左、右视角扭曲文档图像时的基础矩阵；

基于求解得到的拍摄左、右视角扭曲文档图像时的基础矩阵和相机的标定内参数，计算得到对应的本征矩阵；

采用所述本征矩阵，计算得到拍摄左、右视角扭曲文档图像时的相机旋转矩阵与平移向量。

可选地，所述基于求解得到的拍摄所述左、右视角扭曲文档图像时相机的旋转矩阵和平移向量，计算所述展开弯曲文档页面的三维坐标点，包括：

利用求得的旋转矩阵、平移向量和匹配点对建立方程组，求解文档页面特征点的三维坐标。

可选地，所述采用计算得到的三维坐标点，对所述展开弯曲文档页面构建可展曲面模型，包括：

将三维坐标点投影到垂直桌面与文档装订线的平面，得到离散的二维坐标点集合；

所得到的二维坐标点集合进行曲线拟合，分别得到装订线左右两侧的文档扭曲曲线；

交换拟合得到的装订线左右两侧的文档扭曲曲线的曲面的导线与母线，得到拟合后的文档扭曲曲面；

将拟合得到的文档扭曲曲面沿着文档装订线移动得到文档的三维可展曲面模型。

与现有技术相比，本发明的有益效果为：

上述的方案，通过对拍摄得到的左、右视角扭曲文档图像进行压缩并进行特征点匹配，得到特征点匹配对集合，再基于相机的标定内参数，求解拍摄所述左、右视角扭曲文档图像时的旋转矩阵和平移向量，并基于求解得到的拍摄所述左、右视角扭曲文档图像时相机的旋转矩阵和平移向量，计算所述展开弯曲文档页面的三维坐标点，采用计算得到的三维坐标点，对所述展开弯曲文档页面构建可展曲面模型，最后基于构建的可展曲面模型，将所述三维坐标点校正到二维平面，并填充空白区域，得到最终平坦的平面图像，由于采用将三维特征点校正到二维平面，再将原图像中像素插值到空白区域，实现将弯曲文档图像校正为平坦的文档图像，可以提高扭曲文档图像校正的准确率，提升光学字符识别识别的准确率。

进一步地，通过采用特征匹配算法对对压缩后的左、右视角扭曲文档图像进行特征点匹配，得到初始匹配点集合，并计算初始匹配点集合中每对匹配特征点对应的一对匹配描述子向量的夹角余弦值来剔除错误匹配，可以有效地提升文档图像特征点匹配的准确率。

进一步地，在通过计算初始匹配点集合中每对匹配特征点对应的一对匹配描述子向量的夹角余弦值来剔除错误匹配之后，再使用RANSAC算法对初始匹配点集合中的匹配特征点进行提纯，剔除局外特征点，可以进一步提升文档图像特征点匹配的准确率。

进一步地，通过将三维坐标点投影到垂直桌面与文档装订线的平面，得到离散的二维坐标点集合，并将所得到的二维坐标点集合进行曲线拟合，分别得到装订线左右两侧的文档扭曲曲线，接着，交换拟合得到的装订线左右两侧的文档扭曲曲线的曲面的导线与母线，得到拟合后的文档扭曲曲面，再将拟合得到的文档扭曲曲面沿着文档装订线移动得到文档的三维可展曲面模型，这种通过先拟合文档弯曲程度曲线再得到文档可展曲面的重建方式，重建出文档页面的可展曲面模型，可以有效减少曲面重建的计算量，节约计算资源。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中的移动终端的多视角文档图像几何校正方法的流程示意图；

图2是本发明实施例中的将三维坐标点映射到二维平面的示意图；

图3是本发明实施例中的将扭曲文档图像中的像素填充到空白区域时基于斜率对像素点进行选择的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。本发明实施例中有关方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

如背景技术所述，现有技术中的文档图像几何校正算法主要分为二维(2D) 校正和三维(3D)校正两类。其中，一类常用的方法是对文档曲面进行建模，最流行的算法是将页面建模为圆柱曲面模型，利用相机成像模型，建立模型与图像像素点的对应关系，来重建模型，但是存在着OCR识别错误率高的问题。

本发明的技术方案通过将所述三维坐标点校正到二维平面，并填充空白区域，得到最终平坦的平面图像，由于采用将三维特征点校正到二维平面，再将原图像中像素插值到空白区域，实现将弯曲文档图像校正为平坦的文档图像，可以提高扭曲文档图像校正的准确率，提升光学字符识别识别的准确率。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例的一种基于移动终端的多视角文档图像几何校正方法的流程示意图。参见图1，一种基于移动终端的多视角文档图像几何校正方法，具体可以包括如下的步骤：

步骤S101：拍摄展开弯曲文档的左、右视角扭曲文档图像。

在具体实施中，展开弯曲文档的左、右视角扭曲文档图像，也即采用移动终端的相机从左侧和右侧拍摄的文档图像。

步骤S102：对拍摄得到的左、右视角扭曲文档图像进行压缩。

在具体实施中，可以使用安卓(Android)操作系统中位图处理函数BitMapFactory对原始图像进行压缩，将拍摄原图压缩到预设大小，如1191×1588，以减少后续处理的时间消耗，提高处理效率。

步骤S103：对压缩后的左、右视角扭曲文档图像进行特征点匹配，得到特征点匹配对集合。

在本发明一实施例中，在对压缩后的左、右视角扭曲文档图像进行特征点匹配时，首先采用基于快速和旋转二进制稳定特征(Oriented fast and Rotated Brief，ORB)特征匹配算法对对压缩后的左、右视角扭曲文档图像进行特征点匹配，得到初始匹配点集合。

接着，再计算初始匹配点集合中每对匹配特征点对应的一对匹配描述子向量的夹角余弦值，并使用该夹角的余弦值作为匹配特征点的相似度值，即：

其中，sim(x,y)表示匹配特征点对的描述子向量x、y的相似度数值， cos(x,y)表示匹配特征点对的描述子向量x、y的夹角余弦值。

通过上述的公式(1)可知，当一对匹配特征点的描述子向量的夹角为0° 时，它们的夹角余弦值为1。当上述的公式(1)的结果越接近1，则表明两个向量就越相似，反之，则表明两个向量的相似度越低。

当计算得到匹配特征点对的描述子向量的夹角余弦值时，再通过将得到的夹角余弦值与预设的阈值，如0.9，进行比较，可以将夹角余弦值小于预设的阈值的特征点剔除，将夹角余弦值大于或等于预设的阈值的特征点保留，得到对应的匹配特征点集合。

在本发明另一实施例中，为了进一步提高特征点匹配的准确度，可以接着使用随机抽样一致性(Random Sample Consensus，RANSAC)算法对应的匹配特征点集合执行进一步的提纯操作，以剔除局外匹配对，得到准确率较高的特征点匹配对集合。

在具体实施中，两幅图像中的特征点匹配对满足对应关系：

步骤S104：基于相机的标定内参数，求解拍摄所述左、右视角扭曲文档图像时的旋转矩阵和平移向量。

在本发明一实施例中，所述相机的标定内参数可以采用张正友相机标定法进行标定的得到。具体地，首先可以制作3cm×3cm的棋盘格，并拍摄20幅不同视角的棋盘格照片，使用MATLAB标定工具标定得到相机的内参数矩阵 K。其中，相机的内参数矩阵K包含相机的焦距，主点坐标的信息。

接着，利用八点法求解拍摄左右视角文档图像时的基础矩阵F。其中，基础矩阵包含了两幅图像拍摄时的空间几何关系。对于所有步骤S13中得到的特征点匹配对(p₁,p₂)，基础矩阵F满足：

最后，使用四组同名特征点匹配对，联立线性方程组便可以求解出基础矩阵F。

当得到相机的内参数矩阵K和基础矩阵F时，再基于得到相机的内参数矩阵K和基础矩阵F，求解得到本征矩阵E，即采用如下的公式计算得到本征矩阵E：

本征矩阵E的公式表示为：

E＝t×R (5)

对求得的本征矩阵E使用奇异值分解：

E＝UDV^T (6)

其中，U表示缩放矩阵，D表示旋转矩阵，V表示特征矩阵。

通过上述的公式便可以得到拍摄文档图像时的相机旋转矩阵R与平移向量t。

步骤S105：基于求解得到的拍摄所述左、右视角扭曲文档图像时相机的旋转矩阵和平移向量，计算所述展开弯曲文档页面的三维坐标点。

在本发明一实施例中，基于求解得到的拍摄所述左、右视角扭曲文档图像时相机的旋转矩阵和平移向量，计算所述展开弯曲文档页面的三维坐标点时，即利用求得的旋转矩阵、平移向量和匹配点对建立方程组，求解文档页面特征点的三维坐标。

具体地，P＝K[R|t]为真实世界中一个三维点投影到图像平面的投影矩阵，左右视角不同图像拥有不同的投影矩阵P₁,P₂，将左相机的坐标系看作世界坐标系，那么求解得到的两个相机间的旋转矩阵R和平移参数t就是右相机相对世界坐标系的旋转矩阵和平移参数。因此，得到左右视角的投影矩阵P₁,P₂可以分别表示为：

P₁＝K[I|0] (7)

P₂＝K[R|t] (8)

其中，I是单位三阶矩阵。

对于一对特征点匹配对(x,x′)，为该特征点匹配对对应的三维点的齐次坐标。那么，它们之间的投影关系为：

表示为齐次方程的形式即为：

其中，[P₁₁,P₁₂,P₁₃]^T是投影矩阵的齐次形式，s是系数矩阵，(u_i,v_i)是特征点 x的坐标，当x有同名点x′的坐标为(u′_i,v′_i)，则有方程：

联立方程则有：

对于每一对特征点匹配对，通过上述的公式(11)可以得到四个方程，再使用最小二乘法求解方程组可以得到矩阵A，并对A进行奇异值分解：

A＝UDV^T(14)

求得的矩阵V的最后一列就是所求的三维坐标点。

步骤S106：采用计算得到的三维坐标点，对所述展开弯曲文档页面构建可展曲面模型。

在具体实施中，计算得到的三维点中不仅包含文档页面的三维点，也包含背景点。在本发明一实施例中，使用k-means算法剔除计算得到的三维点中背景点云，可以保证重建结果的准确率。

鉴于可展曲面模型几乎涵盖了所有的翘曲文档，对文档页面建立可展曲面模型。如图2所示，将三维坐标点映射到xy平面，得到离散的二维坐标点集合。将文档表面三维点的y轴坐标表示为x坐标的函数，即有世界坐标可以表示为x轴坐标和z轴坐标的函数形式：

S(x,y,z)＝[x h(x) z]^T (15)

当z坐标固定时，h(x)就成了垂直与xy平面上的一条曲线。

通常情况下认为曲线拟合的结果是光滑的，但是考虑到书本类文档中间的装订线，可以对装订线左右两侧分别处理，即有：

重建曲面，即为寻找最佳的曲线h(x)使得下式的结果达到最小，也即：

其中，S(h)表示根据弧线得到的曲面模型函数，d₁(·,·)表示任意一个三维点到曲面的距离，d₂(·,·)表示从z轴方向观察时任意一点到曲线的距离。

使用最小二乘多项式曲线拟合法分别拟合得到装订线左右两侧的文档扭曲曲线。

在微分几何中，直线沿着导线平移得到直纹面，可展曲面是一种特殊的直纹面。其中，展开的书籍或者弯曲的文档便是一种可展曲面。拟合得到装订线左右两侧的文档扭曲曲线即可看作是此可展曲面的导线，而书籍的装订线或者文档的边界线可以看作是母线。交换曲面导线与母线的角色，将拟合得到的曲面沿着文档装订线移动得到文档的三维可展曲面模型。

步骤S107：基于构建的可展曲面模型，将所述三维坐标点校正到二维平面，并填充空白区域，得到最终平坦的平面图像。

在具体实施中，文档校正实质为将曲面摊平的过程。在变换过程中，依据像素点距离装订线的像素距离保持不变，可以对文档图像进行校正。换言之，对于每一个文档表面三维坐标点p(x,y,z)，在曲线h(x)上有弧长：

将该三维坐标转换为平面坐标，保持点p到起始位置长度不变，便可以得到所有三维点在平面上的对应点，从而将所述三维坐标点校正到二维平面。

在具体实施中，当将所述三维坐标点校正到二维平面时，得到的是不完整的二维文档图像，只包含已有三维坐标的像素。因而，需要将扭曲文档图像中的像素填充到空白区域。其中，左、右视角图像的选择依据拍摄时的视角而定，选择视角偏差较小的图像中的像素点插入到空白区域。如图3所示，计算已有三维坐标处的切线斜率，若斜率为正，选择左视角图像中的邻近像素点进行填充，若斜率为负，选择右视角图像中的邻近像素点进行填充。填充完毕，得到平坦的、无扭曲的、OCR识别率高的文档图像。

本发明实施例中的基于移动终端的多视角文档图像几何校正方法，可以应用于诸如安卓智能手机等移动终端中作为文档校正的处理平台，与传统的计算机处理相比，具有便携性高、设备成本低、处理快捷等优势，在学习工作中都具备很强的实用性。

采用本发明实施例中的上述方案，通过对拍摄得到的左、右视角扭曲文档图像进行压缩并进行特征点匹配，得到特征点匹配对集合，再基于相机的标定内参数，求解拍摄所述左、右视角扭曲文档图像时的旋转矩阵和平移向量，并基于求解得到的拍摄所述左、右视角扭曲文档图像时相机的旋转矩阵和平移向量，计算所述展开弯曲文档页面的三维坐标点，采用计算得到的三维坐标点，对所述展开弯曲文档页面构建可展曲面模型，最后基于构建的可展曲面模型，将所述三维坐标点校正到二维平面，并填充空白区域，得到最终平坦的平面图像，由于采用将三维特征点校正到二维平面，再将原图像中像素插值到空白区域，实现将弯曲文档图像校正为平坦的文档图像，可以提高扭曲文档图像校正的准确率，提升光学字符识别识别的准确率。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，本发明要求保护范围由所附的权利要求书、说明书及其等效物界定。

Claims

1.一种基于移动终端的多视角文档图像几何校正方法，其特征在于，包括：拍摄展开弯曲文档的左、右视角扭曲文档图像；

对拍摄得到的左、右视角扭曲文档图像进行压缩；

采用计算得到的三维坐标点，对所述展开弯曲文档页面构建可展曲面模型；基于构建的可展曲面模型，将所述三维坐标点校正到二维平面，并填充空白区域，得到最终平坦的平面图像。

2.根据权利要求1所述的基于移动终端的多视角文档图像几何校正方法，其特征在于，所述对压缩后的左、右视角扭曲文档图像进行特征点匹配，得到特征点匹配对集合，包括：

3.根据权利要求2所述的基于移动终端的多视角文档图像几何校正方法，其特征在于，在得到所述特征点匹配对集合之前，还包括：

4.根据权利要求2所述的基于移动终端的多视角文档图像几何校正方法，其特征在于，所述特征匹配算法为ORB特征匹配算法。

5.根据权利要求2所述的基于移动终端的多视角文档图像几何校正方法，其特征在于，所述对拍摄得到的左、右视角扭曲文档图像进行压缩，包括：

6.根据权利要求1所述的基于移动终端的多视角文档图像几何校正方法，其特征在于，所述基于相机的标定内参数，求解拍摄所述左、右视角扭曲文档图像时的旋转矩阵和平移向量，包括：

求解拍摄左、右视角扭曲文档图像时的基础矩阵；

7.根据权利要求1所述的基于移动终端的多视角文档图像几何校正方法，其特征在于，所述基于求解得到的拍摄所述左、右视角扭曲文档图像时相机的旋转矩阵和平移向量，计算所述展开弯曲文档页面的三维坐标点，包括：

8.根据权利要求2所述的基于移动终端的多视角文档图像几何校正方法，其特征在于，所述采用计算得到的三维坐标点，对所述展开弯曲文档页面构建可展曲面模型，包括：