CN110059691A - 基于移动终端的多视角扭曲文档图像几何校正方法 - Google Patents

基于移动终端的多视角扭曲文档图像几何校正方法 Download PDF

Info

Publication number
CN110059691A
CN110059691A CN201910247509.9A CN201910247509A CN110059691A CN 110059691 A CN110059691 A CN 110059691A CN 201910247509 A CN201910247509 A CN 201910247509A CN 110059691 A CN110059691 A CN 110059691A
Authority
CN
China
Prior art keywords
file
picture
visual angle
right visual
shooting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910247509.9A
Other languages
English (en)
Other versions
CN110059691B (zh
Inventor
肖学中
束彩炜
韩贝贝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201910247509.9A priority Critical patent/CN110059691B/zh
Publication of CN110059691A publication Critical patent/CN110059691A/zh
Application granted granted Critical
Publication of CN110059691B publication Critical patent/CN110059691B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/247Aligning, centring, orientation detection or correction of the image by affine transforms, e.g. correction due to perspective effects; Quadrilaterals, e.g. trapezoids

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)
  • Image Processing (AREA)

Abstract

一种基于移动终端的多视角文档图像几何校正方法,包括:拍摄展开弯曲文档的左、右视角扭曲文档图像;对拍摄得到的左、右视角扭曲文档图像进行压缩;对压缩后的左、右视角扭曲文档图像进行特征点匹配,得到特征点匹配对集合;基于相机的标定内参数,求解拍摄左、右视角扭曲文档图像时的旋转矩阵和平移向量;基于求解得到的拍摄左、右视角扭曲文档图像时相机的旋转矩阵和平移向量,计算展开弯曲文档页面的三维坐标点;采用计算得到的三维坐标点,对展开弯曲文档页面构建可展曲面模型;基于构建的可展曲面模型,将三维坐标点校正到二维平面,并填充空白区域,得到最终平坦的平面图像。上述的方案,可以提高扭曲文档图像OCR识别的准确率。

Description

基于移动终端的多视角扭曲文档图像几何校正方法
技术领域
本发明属于计算机视觉技术领域,特别是涉及一种基于移动终端的多视 角扭曲文档图像几何校正方法。
背景技术
为了满足对于信息的巨大需求量并减轻人们进行信息收集时的劳动量, 信息数字化技术应运而生。其中,光学字符识别(Optical Character Recognition, OCR)技术可以实现文档内容的快速录入,很大程度上降低了人们的手工劳 动,因而得到广泛应用。
对于一些折叠、扭曲、厚文本文档,在拍摄对应的文档图像之后需要对 得到的文档图像进行几何校正。
但是,目前的文档图像几何校正算法存在OCR识别准确率低的问题。
发明内容
本发明解决的技术问题是如何提高扭曲文档图像OCR识别的准确率。
为了达到上述目的,本发明提供一种基于移动终端的多视角文档图像几 何校正方法,所述方法包括:
拍摄展开弯曲文档的左、右视角扭曲文档图像;
对拍摄得到的左、右视角扭曲文档图像进行压缩;
对压缩后的左、右视角扭曲文档图像进行特征点匹配,得到特征点匹配 对集合;
基于相机的标定内参数,求解拍摄所述左、右视角扭曲文档图像时的旋 转矩阵和平移向量;
基于求解得到的拍摄所述左、右视角扭曲文档图像时相机的旋转矩阵和 平移向量,计算所述展开弯曲文档页面的三维坐标点;
采用计算得到的三维坐标点,对所述展开弯曲文档页面构建可展曲面模 型;
基于构建的可展曲面模型,将所述三维坐标点校正到二维平面,并填充 空白区域,得到最终平坦的平面图像。
可选地,所述对压缩后的左、右视角扭曲文档图像进行特征点匹配,得 到特征点匹配对集合,包括:
采用特征匹配算法对对压缩后的左、右视角扭曲文档图像进行特征点匹 配,得到初始匹配点集合;
计算初始匹配点集合中每对匹配特征点对应的一对匹配描述子向量的夹 角余弦值;
将计算得到的余弦值大于预设的阈值的特征点对保留,得到所述特征点 匹配对集合。
可选地,在得到所述特征点匹配对集合之前,所述方法还包括:
对所述特征点匹配对集合进行提纯,剔除所述特征点匹配对集合中的局 外匹配对。
可选地,所述特征匹配算法为ORB特征匹配算法。
可选地,所述对拍摄得到的左、右视角扭曲文档图像进行压缩,包括:
采用安卓操作系统中的位图处理函数将拍摄得到的左、右视角扭曲文档 图像原图压缩到预设尺寸。
可选地,所述基于相机的标定内参数,求解拍摄所述左、右视角扭曲文 档图像时的旋转矩阵和平移向量,包括:
求解拍摄左、右视角扭曲文档图像时的基础矩阵;
基于求解得到的拍摄左、右视角扭曲文档图像时的基础矩阵和相机的标 定内参数,计算得到对应的本征矩阵;
采用所述本征矩阵,计算得到拍摄左、右视角扭曲文档图像时的相机旋 转矩阵与平移向量。
可选地,所述基于求解得到的拍摄所述左、右视角扭曲文档图像时相机 的旋转矩阵和平移向量,计算所述展开弯曲文档页面的三维坐标点,包括:
利用求得的旋转矩阵、平移向量和匹配点对建立方程组,求解文档页面 特征点的三维坐标。
可选地,所述采用计算得到的三维坐标点,对所述展开弯曲文档页面构 建可展曲面模型,包括:
将三维坐标点投影到垂直桌面与文档装订线的平面,得到离散的二维坐 标点集合;
所得到的二维坐标点集合进行曲线拟合,分别得到装订线左右两侧的文 档扭曲曲线;
交换拟合得到的装订线左右两侧的文档扭曲曲线的曲面的导线与母线, 得到拟合后的文档扭曲曲面;
将拟合得到的文档扭曲曲面沿着文档装订线移动得到文档的三维可展曲 面模型。
与现有技术相比,本发明的有益效果为:
上述的方案,通过对拍摄得到的左、右视角扭曲文档图像进行压缩并进 行特征点匹配,得到特征点匹配对集合,再基于相机的标定内参数,求解拍 摄所述左、右视角扭曲文档图像时的旋转矩阵和平移向量,并基于求解得到 的拍摄所述左、右视角扭曲文档图像时相机的旋转矩阵和平移向量,计算所 述展开弯曲文档页面的三维坐标点,采用计算得到的三维坐标点,对所述展 开弯曲文档页面构建可展曲面模型,最后基于构建的可展曲面模型,将所述 三维坐标点校正到二维平面,并填充空白区域,得到最终平坦的平面图像, 由于采用将三维特征点校正到二维平面,再将原图像中像素插值到空白区域, 实现将弯曲文档图像校正为平坦的文档图像,可以提高扭曲文档图像校正的 准确率,提升光学字符识别识别的准确率。
进一步地,通过采用特征匹配算法对对压缩后的左、右视角扭曲文档图 像进行特征点匹配,得到初始匹配点集合,并计算初始匹配点集合中每对匹 配特征点对应的一对匹配描述子向量的夹角余弦值来剔除错误匹配,可以有 效地提升文档图像特征点匹配的准确率。
进一步地,在通过计算初始匹配点集合中每对匹配特征点对应的一对匹 配描述子向量的夹角余弦值来剔除错误匹配之后,再使用RANSAC算法对初 始匹配点集合中的匹配特征点进行提纯,剔除局外特征点,可以进一步提升 文档图像特征点匹配的准确率。
进一步地,通过将三维坐标点投影到垂直桌面与文档装订线的平面,得 到离散的二维坐标点集合,并将所得到的二维坐标点集合进行曲线拟合,分 别得到装订线左右两侧的文档扭曲曲线,接着,交换拟合得到的装订线左右 两侧的文档扭曲曲线的曲面的导线与母线,得到拟合后的文档扭曲曲面,再 将拟合得到的文档扭曲曲面沿着文档装订线移动得到文档的三维可展曲面模 型,这种通过先拟合文档弯曲程度曲线再得到文档可展曲面的重建方式,重 建出文档页面的可展曲面模型,可以有效减少曲面重建的计算量,节约计算资源。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中 所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性 的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中的移动终端的多视角文档图像几何校正方法的流 程示意图;
图2是本发明实施例中的将三维坐标点映射到二维平面的示意图;
图3是本发明实施例中的将扭曲文档图像中的像素填充到空白区域时基 于斜率对像素点进行选择的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而 不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。 本发明实施例中有关方向性指示(诸如上、下、左、右、前、后等)仅用于解释 在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如 果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
如背景技术所述,现有技术中的文档图像几何校正算法主要分为二维(2D) 校正和三维(3D)校正两类。其中,一类常用的方法是对文档曲面进行建模, 最流行的算法是将页面建模为圆柱曲面模型,利用相机成像模型,建立模型 与图像像素点的对应关系,来重建模型,但是存在着OCR识别错误率高的问 题。
本发明的技术方案通过将所述三维坐标点校正到二维平面,并填充空白 区域,得到最终平坦的平面图像,由于采用将三维特征点校正到二维平面, 再将原图像中像素插值到空白区域,实现将弯曲文档图像校正为平坦的文档 图像,可以提高扭曲文档图像校正的准确率,提升光学字符识别识别的准确 率。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合 附图对本发明的具体实施例做详细的说明。
图1是本发明实施例的一种基于移动终端的多视角文档图像几何校正方 法的流程示意图。参见图1,一种基于移动终端的多视角文档图像几何校正方 法,具体可以包括如下的步骤:
步骤S101:拍摄展开弯曲文档的左、右视角扭曲文档图像。
在具体实施中,展开弯曲文档的左、右视角扭曲文档图像,也即采用移 动终端的相机从左侧和右侧拍摄的文档图像。
步骤S102:对拍摄得到的左、右视角扭曲文档图像进行压缩。
在具体实施中,可以使用安卓(Android)操作系统中位图处理函数BitMapFactory对原始图像进行压缩,将拍摄原图压缩到预设大小,如1191×1588, 以减少后续处理的时间消耗,提高处理效率。
步骤S103:对压缩后的左、右视角扭曲文档图像进行特征点匹配,得到 特征点匹配对集合。
在本发明一实施例中,在对压缩后的左、右视角扭曲文档图像进行特征 点匹配时,首先采用基于快速和旋转二进制稳定特征(Oriented fast and Rotated Brief,ORB)特征匹配算法对对压缩后的左、右视角扭曲文档图像进行特征 点匹配,得到初始匹配点集合。
接着,再计算初始匹配点集合中每对匹配特征点对应的一对匹配描述子 向量的夹角余弦值,并使用该夹角的余弦值作为匹配特征点的相似度值,即:
其中,sim(x,y)表示匹配特征点对的描述子向量x、y的相似度数值, cos(x,y)表示匹配特征点对的描述子向量x、y的夹角余弦值。
通过上述的公式(1)可知,当一对匹配特征点的描述子向量的夹角为0° 时,它们的夹角余弦值为1。当上述的公式(1)的结果越接近1,则表明两 个向量就越相似,反之,则表明两个向量的相似度越低。
当计算得到匹配特征点对的描述子向量的夹角余弦值时,再通过将得到 的夹角余弦值与预设的阈值,如0.9,进行比较,可以将夹角余弦值小于预设 的阈值的特征点剔除,将夹角余弦值大于或等于预设的阈值的特征点保留, 得到对应的匹配特征点集合。
在本发明另一实施例中,为了进一步提高特征点匹配的准确度,可以接 着使用随机抽样一致性(Random Sample Consensus,RANSAC)算法对应的 匹配特征点集合执行进一步的提纯操作,以剔除局外匹配对,得到准确率较 高的特征点匹配对集合。
在具体实施中,两幅图像中的特征点匹配对满足对应关系:
步骤S104:基于相机的标定内参数,求解拍摄所述左、右视角扭曲文档 图像时的旋转矩阵和平移向量。
在本发明一实施例中,所述相机的标定内参数可以采用张正友相机标定 法进行标定的得到。具体地,首先可以制作3cm×3cm的棋盘格,并拍摄20幅 不同视角的棋盘格照片,使用MATLAB标定工具标定得到相机的内参数矩阵 K。其中,相机的内参数矩阵K包含相机的焦距,主点坐标的信息。
接着,利用八点法求解拍摄左右视角文档图像时的基础矩阵F。其中,基 础矩阵包含了两幅图像拍摄时的空间几何关系。对于所有步骤S13中得到的 特征点匹配对(p1,p2),基础矩阵F满足:
最后,使用四组同名特征点匹配对,联立线性方程组便可以求解出基础 矩阵F。
当得到相机的内参数矩阵K和基础矩阵F时,再基于得到相机的内参数 矩阵K和基础矩阵F,求解得到本征矩阵E,即采用如下的公式计算得到本征 矩阵E:
本征矩阵E的公式表示为:
E=t×R (5)
对求得的本征矩阵E使用奇异值分解:
E=UDVT (6)
其中,U表示缩放矩阵,D表示旋转矩阵,V表示特征矩阵。
通过上述的公式便可以得到拍摄文档图像时的相机旋转矩阵R与平移向 量t。
步骤S105:基于求解得到的拍摄所述左、右视角扭曲文档图像时相机的 旋转矩阵和平移向量,计算所述展开弯曲文档页面的三维坐标点。
在本发明一实施例中,基于求解得到的拍摄所述左、右视角扭曲文档图 像时相机的旋转矩阵和平移向量,计算所述展开弯曲文档页面的三维坐标点 时,即利用求得的旋转矩阵、平移向量和匹配点对建立方程组,求解文档页 面特征点的三维坐标。
具体地,P=K[R|t]为真实世界中一个三维点投影到图像平面的投影矩阵, 左右视角不同图像拥有不同的投影矩阵P1,P2,将左相机的坐标系看作世界坐 标系,那么求解得到的两个相机间的旋转矩阵R和平移参数t就是右相机相 对世界坐标系的旋转矩阵和平移参数。因此,得到左右视角的投影矩阵P1,P2可 以分别表示为:
P1=K[I|0] (7)
P2=K[R|t] (8)
其中,I是单位三阶矩阵。
对于一对特征点匹配对(x,x′),为该特征点匹配对对应的三维点的齐次 坐标。那么,它们之间的投影关系为:
表示为齐次方程的形式即为:
其中,[P11,P12,P13]T是投影矩阵的齐次形式,s是系数矩阵,(ui,vi)是特征点 x的坐标,当x有同名点x′的坐标为(u′i,v′i),则有方程:
联立方程则有:
对于每一对特征点匹配对,通过上述的公式(11)可以得到四个方程, 再使用最小二乘法求解方程组可以得到矩阵A,并对A进行奇异值分解:
A=UDVT(14)
求得的矩阵V的最后一列就是所求的三维坐标点。
步骤S106:采用计算得到的三维坐标点,对所述展开弯曲文档页面构建 可展曲面模型。
在具体实施中,计算得到的三维点中不仅包含文档页面的三维点,也包 含背景点。在本发明一实施例中,使用k-means算法剔除计算得到的三维点中 背景点云,可以保证重建结果的准确率。
鉴于可展曲面模型几乎涵盖了所有的翘曲文档,对文档页面建立可展曲 面模型。如图2所示,将三维坐标点映射到xy平面,得到离散的二维坐标点 集合。将文档表面三维点的y轴坐标表示为x坐标的函数,即有世界坐标可 以表示为x轴坐标和z轴坐标的函数形式:
S(x,y,z)=[x h(x) z]T (15)
当z坐标固定时,h(x)就成了垂直与xy平面上的一条曲线。
通常情况下认为曲线拟合的结果是光滑的,但是考虑到书本类文档中间 的装订线,可以对装订线左右两侧分别处理,即有:
重建曲面,即为寻找最佳的曲线h(x)使得下式的结果达到最小,也即:
其中,S(h)表示根据弧线得到的曲面模型函数,d1(·,·)表示任意一个三维 点到曲面的距离,d2(·,·)表示从z轴方向观察时任意一点到曲线的距离。
使用最小二乘多项式曲线拟合法分别拟合得到装订线左右两侧的文档扭 曲曲线。
在微分几何中,直线沿着导线平移得到直纹面,可展曲面是一种特殊的 直纹面。其中,展开的书籍或者弯曲的文档便是一种可展曲面。拟合得到装 订线左右两侧的文档扭曲曲线即可看作是此可展曲面的导线,而书籍的装订 线或者文档的边界线可以看作是母线。交换曲面导线与母线的角色,将拟合 得到的曲面沿着文档装订线移动得到文档的三维可展曲面模型。
步骤S107:基于构建的可展曲面模型,将所述三维坐标点校正到二维平 面,并填充空白区域,得到最终平坦的平面图像。
在具体实施中,文档校正实质为将曲面摊平的过程。在变换过程中,依 据像素点距离装订线的像素距离保持不变,可以对文档图像进行校正。换言 之,对于每一个文档表面三维坐标点p(x,y,z),在曲线h(x)上有弧长:
将该三维坐标转换为平面坐标,保持点p到起始位置长度不变,便可以 得到所有三维点在平面上的对应点,从而将所述三维坐标点校正到二维平面。
在具体实施中,当将所述三维坐标点校正到二维平面时,得到的是不完 整的二维文档图像,只包含已有三维坐标的像素。因而,需要将扭曲文档图 像中的像素填充到空白区域。其中,左、右视角图像的选择依据拍摄时的视 角而定,选择视角偏差较小的图像中的像素点插入到空白区域。如图3所示, 计算已有三维坐标处的切线斜率,若斜率为正,选择左视角图像中的邻近像 素点进行填充,若斜率为负,选择右视角图像中的邻近像素点进行填充。填 充完毕,得到平坦的、无扭曲的、OCR识别率高的文档图像。
本发明实施例中的基于移动终端的多视角文档图像几何校正方法,可以 应用于诸如安卓智能手机等移动终端中作为文档校正的处理平台,与传统的 计算机处理相比,具有便携性高、设备成本低、处理快捷等优势,在学习工 作中都具备很强的实用性。
采用本发明实施例中的上述方案,通过对拍摄得到的左、右视角扭曲文 档图像进行压缩并进行特征点匹配,得到特征点匹配对集合,再基于相机的 标定内参数,求解拍摄所述左、右视角扭曲文档图像时的旋转矩阵和平移向 量,并基于求解得到的拍摄所述左、右视角扭曲文档图像时相机的旋转矩阵 和平移向量,计算所述展开弯曲文档页面的三维坐标点,采用计算得到的三 维坐标点,对所述展开弯曲文档页面构建可展曲面模型,最后基于构建的可 展曲面模型,将所述三维坐标点校正到二维平面,并填充空白区域,得到最终平坦的平面图像,由于采用将三维特征点校正到二维平面,再将原图像中 像素插值到空白区域,实现将弯曲文档图像校正为平坦的文档图像,可以提 高扭曲文档图像校正的准确率,提升光学字符识别识别的准确率。
进一步地,通过采用特征匹配算法对对压缩后的左、右视角扭曲文档图 像进行特征点匹配,得到初始匹配点集合,并计算初始匹配点集合中每对匹 配特征点对应的一对匹配描述子向量的夹角余弦值来剔除错误匹配,可以有 效地提升文档图像特征点匹配的准确率。
进一步地,在通过计算初始匹配点集合中每对匹配特征点对应的一对匹 配描述子向量的夹角余弦值来剔除错误匹配之后,再使用RANSAC算法对初 始匹配点集合中的匹配特征点进行提纯,剔除局外特征点,可以进一步提升 文档图像特征点匹配的准确率。
进一步地,通过将三维坐标点投影到垂直桌面与文档装订线的平面,得 到离散的二维坐标点集合,并将所得到的二维坐标点集合进行曲线拟合,分 别得到装订线左右两侧的文档扭曲曲线,接着,交换拟合得到的装订线左右 两侧的文档扭曲曲线的曲面的导线与母线,得到拟合后的文档扭曲曲面,再 将拟合得到的文档扭曲曲面沿着文档装订线移动得到文档的三维可展曲面模 型,这种通过先拟合文档弯曲程度曲线再得到文档可展曲面的重建方式,重 建出文档页面的可展曲面模型,可以有效减少曲面重建的计算量,节约计算资源。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行 业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明 书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下, 本发明还会有各种变化和改进,本发明要求保护范围由所附的权利要求书、 说明书及其等效物界定。

Claims (8)

1.一种基于移动终端的多视角文档图像几何校正方法,其特征在于,包括:拍摄展开弯曲文档的左、右视角扭曲文档图像;
对拍摄得到的左、右视角扭曲文档图像进行压缩;
对压缩后的左、右视角扭曲文档图像进行特征点匹配,得到特征点匹配对集合;
基于相机的标定内参数,求解拍摄所述左、右视角扭曲文档图像时的旋转矩阵和平移向量;
基于求解得到的拍摄所述左、右视角扭曲文档图像时相机的旋转矩阵和平移向量,计算所述展开弯曲文档页面的三维坐标点;
采用计算得到的三维坐标点,对所述展开弯曲文档页面构建可展曲面模型;基于构建的可展曲面模型,将所述三维坐标点校正到二维平面,并填充空白区域,得到最终平坦的平面图像。
2.根据权利要求1所述的基于移动终端的多视角文档图像几何校正方法,其特征在于,所述对压缩后的左、右视角扭曲文档图像进行特征点匹配,得到特征点匹配对集合,包括:
采用特征匹配算法对对压缩后的左、右视角扭曲文档图像进行特征点匹配,得到初始匹配点集合;
计算初始匹配点集合中每对匹配特征点对应的一对匹配描述子向量的夹角余弦值;
将计算得到的余弦值大于预设的阈值的特征点对保留,得到所述特征点匹配对集合。
3.根据权利要求2所述的基于移动终端的多视角文档图像几何校正方法,其特征在于,在得到所述特征点匹配对集合之前,还包括:
对所述特征点匹配对集合进行提纯,剔除所述特征点匹配对集合中的局外匹配对。
4.根据权利要求2所述的基于移动终端的多视角文档图像几何校正方法,其特征在于,所述特征匹配算法为ORB特征匹配算法。
5.根据权利要求2所述的基于移动终端的多视角文档图像几何校正方法,其特征在于,所述对拍摄得到的左、右视角扭曲文档图像进行压缩,包括:
采用安卓操作系统中的位图处理函数将拍摄得到的左、右视角扭曲文档图像原图压缩到预设尺寸。
6.根据权利要求1所述的基于移动终端的多视角文档图像几何校正方法,其特征在于,所述基于相机的标定内参数,求解拍摄所述左、右视角扭曲文档图像时的旋转矩阵和平移向量,包括:
求解拍摄左、右视角扭曲文档图像时的基础矩阵;
基于求解得到的拍摄左、右视角扭曲文档图像时的基础矩阵和相机的标定内参数,计算得到对应的本征矩阵;
采用所述本征矩阵,计算得到拍摄左、右视角扭曲文档图像时的相机旋转矩阵与平移向量。
7.根据权利要求1所述的基于移动终端的多视角文档图像几何校正方法,其特征在于,所述基于求解得到的拍摄所述左、右视角扭曲文档图像时相机的旋转矩阵和平移向量,计算所述展开弯曲文档页面的三维坐标点,包括:
利用求得的旋转矩阵、平移向量和匹配点对建立方程组,求解文档页面特征点的三维坐标。
8.根据权利要求2所述的基于移动终端的多视角文档图像几何校正方法,其特征在于,所述采用计算得到的三维坐标点,对所述展开弯曲文档页面构建可展曲面模型,包括:
将三维坐标点投影到垂直桌面与文档装订线的平面,得到离散的二维坐标点集合;
所得到的二维坐标点集合进行曲线拟合,分别得到装订线左右两侧的文档扭曲曲线;
交换拟合得到的装订线左右两侧的文档扭曲曲线的曲面的导线与母线,得到拟合后的文档扭曲曲面;
将拟合得到的文档扭曲曲面沿着文档装订线移动得到文档的三维可展曲面模型。
CN201910247509.9A 2019-03-29 2019-03-29 基于移动终端的多视角扭曲文档图像几何校正方法 Active CN110059691B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910247509.9A CN110059691B (zh) 2019-03-29 2019-03-29 基于移动终端的多视角扭曲文档图像几何校正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910247509.9A CN110059691B (zh) 2019-03-29 2019-03-29 基于移动终端的多视角扭曲文档图像几何校正方法

Publications (2)

Publication Number Publication Date
CN110059691A true CN110059691A (zh) 2019-07-26
CN110059691B CN110059691B (zh) 2022-10-14

Family

ID=67317870

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910247509.9A Active CN110059691B (zh) 2019-03-29 2019-03-29 基于移动终端的多视角扭曲文档图像几何校正方法

Country Status (1)

Country Link
CN (1) CN110059691B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889378A (zh) * 2019-11-28 2020-03-17 湖南率为控制科技有限公司 一种多视图融合交通标志检测识别方法及其系统
CN112084363A (zh) * 2020-08-31 2020-12-15 广东小天才科技有限公司 一种适用于图搜的图像处理方法、电子设备及存储介质
CN113723289A (zh) * 2021-08-30 2021-11-30 平安科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
CN113792730A (zh) * 2021-08-17 2021-12-14 北京百度网讯科技有限公司 文档图像的矫正方法、装置、电子设备和存储介质
WO2022193310A1 (en) * 2021-03-19 2022-09-22 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Electric device, method of controlling electric device, and computer readable storage medium
CN116883461A (zh) * 2023-05-18 2023-10-13 珠海移科智能科技有限公司 一种用于获取清晰文档图像的方法及其终端装置
CN117237957A (zh) * 2023-11-16 2023-12-15 新视焰医疗科技(杭州)有限公司 用于检测文件方向并对倾斜或畸形文件矫正的方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102592124A (zh) * 2011-01-13 2012-07-18 汉王科技股份有限公司 文本图像的几何校正方法、装置和双目立体视觉系统
CN107680159A (zh) * 2017-10-16 2018-02-09 西北工业大学 一种基于投影矩阵的空间非合作目标三维重建方法
JP2019016843A (ja) * 2017-07-04 2019-01-31 キヤノン株式会社 原稿読取装置、原稿読取装置の制御方法、及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102592124A (zh) * 2011-01-13 2012-07-18 汉王科技股份有限公司 文本图像的几何校正方法、装置和双目立体视觉系统
JP2019016843A (ja) * 2017-07-04 2019-01-31 キヤノン株式会社 原稿読取装置、原稿読取装置の制御方法、及びプログラム
CN107680159A (zh) * 2017-10-16 2018-02-09 西北工业大学 一种基于投影矩阵的空间非合作目标三维重建方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889378A (zh) * 2019-11-28 2020-03-17 湖南率为控制科技有限公司 一种多视图融合交通标志检测识别方法及其系统
CN112084363A (zh) * 2020-08-31 2020-12-15 广东小天才科技有限公司 一种适用于图搜的图像处理方法、电子设备及存储介质
WO2022193310A1 (en) * 2021-03-19 2022-09-22 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Electric device, method of controlling electric device, and computer readable storage medium
CN113792730A (zh) * 2021-08-17 2021-12-14 北京百度网讯科技有限公司 文档图像的矫正方法、装置、电子设备和存储介质
CN113723289A (zh) * 2021-08-30 2021-11-30 平安科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
CN113723289B (zh) * 2021-08-30 2024-03-08 平安科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
CN116883461A (zh) * 2023-05-18 2023-10-13 珠海移科智能科技有限公司 一种用于获取清晰文档图像的方法及其终端装置
CN116883461B (zh) * 2023-05-18 2024-03-01 珠海移科智能科技有限公司 一种用于获取清晰文档图像的方法及其终端装置
CN117237957A (zh) * 2023-11-16 2023-12-15 新视焰医疗科技(杭州)有限公司 用于检测文件方向并对倾斜或畸形文件矫正的方法及系统

Also Published As

Publication number Publication date
CN110059691B (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
CN110059691A (zh) 基于移动终端的多视角扭曲文档图像几何校正方法
CN106780619B (zh) 一种基于Kinect深度相机的人体尺寸测量方法
CN101697233B (zh) 一种基于结构光的三维物体表面重建方法
CN103761721B (zh) 一种适用于空间绳系机器人的立体视觉快速图像拼接方法
CN107424196B (zh) 一种基于弱标定多目相机的立体匹配方法、装置及系统
CN104596502A (zh) 一种基于cad模型与单目视觉的物体位姿测量方法
CN103605965A (zh) 一种多姿态人脸识别方法和装置
CN111160232B (zh) 正面人脸重建方法、装置及系统
CN104215199B (zh) 一种假发头壳制作方法及系统
CN103839258A (zh) 一种二值化激光散斑图像的深度感知方法
CN113256718B (zh) 定位方法和装置、设备及存储介质
CN105469386B (zh) 一种确定立体相机高度与俯仰角的方法及装置
CN103106661A (zh) 空间二条相交直线线性求解抛物折反射摄像机内参数
CN108965853A (zh) 一种集成成像三维显示方法、装置、设备及存储介质
CA3233222A1 (en) Method, apparatus and device for photogrammetry, and storage medium
CN112101073A (zh) 脸部图像处理方法、装置、设备及计算机存储介质
CN112197708B (zh) 测量方法及装置、电子设备及存储介质
Gårding et al. Direct estimation of local surface shape in a fixating binocular vision system
CN112712030A (zh) 三维姿态信息还原方法及装置
KR101673144B1 (ko) 부분 선형화 기반의 3차원 영상 정합 방법
CN110222583A (zh) 一种基于面部识别的面部生成技术
CN110120078B (zh) 基于直径与共轭直径性质的摄像机标定方法和系统
CN109308706B (zh) 一种通过图像处理得到三维曲面面积的方法
CN110307788B (zh) 多深度相机人体参数测量方法及装置
CN111210476B (zh) 一种同时定位与建图的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant