CN106991649A - 对摄像装置所捕获的文档图像进行校正的方法和装置 - Google Patents

对摄像装置所捕获的文档图像进行校正的方法和装置 Download PDF

Info

Publication number
CN106991649A
CN106991649A CN201610037593.8A CN201610037593A CN106991649A CN 106991649 A CN106991649 A CN 106991649A CN 201610037593 A CN201610037593 A CN 201610037593A CN 106991649 A CN106991649 A CN 106991649A
Authority
CN
China
Prior art keywords
file
picture
summits
camera device
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610037593.8A
Other languages
English (en)
Inventor
刘威
范伟
孙俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201610037593.8A priority Critical patent/CN106991649A/zh
Priority to JP2017006597A priority patent/JP2017130929A/ja
Priority to US15/410,040 priority patent/US10187546B2/en
Publication of CN106991649A publication Critical patent/CN106991649A/zh
Pending legal-status Critical Current

Links

Classifications

    • G06T5/80
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/243Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/387Composing, repositioning or otherwise geometrically modifying originals
    • H04N1/3872Repositioning or masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/387Composing, repositioning or otherwise geometrically modifying originals
    • H04N1/3877Image rotation
    • H04N1/3878Skew detection or correction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/387Composing, repositioning or otherwise geometrically modifying originals
    • H04N1/393Enlarging or reducing
    • H04N1/3935Enlarging or reducing with modification of image resolution, i.e. determining the values of picture elements at new relative positions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image

Abstract

本发明涉及一种对摄像装置所捕获的文档图像进行校正的方法和装置。该方法包括:确定文档图像的四个顶点的世界坐标;基于四个顶点的世界坐标与四个顶点在射影空间的射影坐标的对应关系以及摄像装置的内参矩阵和摄像装置的外参矩阵的特性来计算文档图像的原始的宽高比;基于四个顶点的世界坐标和宽高比来确定射影变换矩阵;以及基于所确定的射影变换矩阵和文档图像来获得校正的文档图像。根据本发明,可以仅通过一幅捕获的图像来校正透视变换,并按照原始宽高比恢复原始图像。

Description

对摄像装置所捕获的文档图像进行校正的方法和装置
技术领域
本发明涉及图像处理领域,更具体地涉及一种用于对摄像装置所捕获的文档图像进行校正的方法和装置。
背景技术
近来,摄像装置已经成为非常普遍的装置。手机、个人电脑和平板电脑都集成有摄像装置。人们经常通过他们的摄像装置捕获大量的纸质文档来帮助他们记录信息。由于拍摄角度等原因,拍摄到的文档会发生透视变换,这样文档图像中的信息不容易由人类读取,并且更难以由计算机读取。出于这样的原因,文档图像的透视校正已经受到更多的关注。
目前存在一些可以将捕获的文档校正成矩形的方法。然而,这些方法无法基于一幅捕获的文档图像来恢复原始文档图像的高宽比。
期望提供一种能够方便地对摄像装置所捕获的文档图像进行校正的方法和装置。
发明内容
在下文中给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明的一个主要目的在于,提供了一种对摄像装置所捕获的文档图像进行校正的方法,包括:确定文档图像的四个顶点的世界坐标;基于四个顶点的世界坐标与四个顶点在射影空间的射影坐标的对应关系以及摄像装置的内参矩阵和摄像装置的外参矩阵的特性来计算文档图像的原始的宽高比;基于四个顶点的世界坐标和宽高比来确定射影变换矩阵;以及基于所确定的射影变换矩阵和文档图像来获得校正的文档图像。
根据本发明的一个方面,提供一种对摄像装置所捕获的文档图像进行校正的装置,包括:顶点坐标确定单元,被配置为确定文档图像的四个顶点的世界坐标;宽高比计算单元,被配置为基于四个顶点的世界坐标与四个顶点在射影空间的射影坐标的对应关系、摄像装置的内参矩阵和摄像装置的外参矩阵的特性来计算文档图像的原始的宽高比;射影变换矩阵确定单元,被配置为基于四个顶点的世界坐标和宽高比来确定射影变换矩阵;以及校正单元,被配置为基于所确定的射影变换矩阵和文档图像来获得校正的文档图像。
另外,本发明的实施例还提供了用于实现上述方法的计算机程序。
此外,本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品,其上记录有用于实现上述方法的计算机程序代码。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。
图1A示出了摄像装置拍摄的一张文档图像;
图1B示出了校正后的文档图像;
图2示出了根据本发明的一个实施例的用于对摄像装置所捕获的文档图像进行校正的方法200的示例性过程的流程图;
图3是示出图2中的步骤S202的一种示例性过程的流程图;
图4A示出了摄像装置拍摄的文档图像的四个顶点的坐标;
图4B示出了原始文档图像的四个顶点的坐标;
图5是示出根据本发明的一个实施例的用于对摄像装置所捕获的文档图像进行校正的装置500的示例性配置的框图;
图6是示出图5中的顶点坐标确定单元502的一种示例性配置的框图;
图7是示出可以用于实施本发明的用于对摄像装置所捕获的文档图像进行校正的方法和装置的计算设备的示例性结构图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的设备结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
本发明提出了一种可以仅通过一幅捕获的图像来校正透视变换并按照原始宽高比恢复原始图像的方法。
在本发明的方法中,输入为一张拍摄的矩形的文档(矩形文档在同一平面内)的图像,如图1A所示,是用摄像装置拍摄的一张文档图像。可以得到的输出为:文档图像的原始高宽比;以及校正后的图像。通过本发明的方法对图1A中的文档图像进行校正,可以得到图1B所示的图像。
下面结合附图详细说明根据本发明的实施例的对摄像装置所捕获的文档图像进行校正的方法和装置。下文中的描述按如下顺序进行:
1.用于对摄像装置所捕获的文档图像进行校正的方法
2.用于对摄像装置所捕获的文档图像进行校正的装置
3.用以实施本申请的方法和装置的计算设备
[1.用于对摄像装置所捕获的文档图像进行校正的方法]
图2示出了根据本发明的一个实施例的用于对摄像装置所捕获的文档图像进行校正的方法200的示例性过程的流程图。
首先,在步骤S202中,确定摄像装置所捕获的文档图像的四个顶点在图像中的位置(即世界坐标)。
图3是示出图2中的步骤S202(即,确定摄像装置所捕获的文档图像的四个顶点在图像中的位置)的一种示例性过程的流程图。
如图3所示,在步骤S2022中,首先检测文档图像的边缘。例如,可以通过RGB梯度方法来进行检测。接着,在步骤S2024中,对检测到的边缘进行二值化。最后,在步骤S2026中,基于二值化的边缘来确定四个顶点的世界坐标。
在本发明的方法中,也可以将文档图像的四个顶点的世界坐标作为已知参数预先输入。
接着,在步骤S204中,基于四个顶点的世界坐标与四个顶点在射影空间的射影坐标的对应关系以及摄像装置的内参矩阵和摄像装置的外参矩阵的特性来计算文档图像的原始的宽高比。
具体地,图4A示出了用摄像装置拍摄的一幅文档图像,其四个顶点分别为m1、m2、m3、m4。四个顶点mi(i=1,2,3,4)的坐标可以通过以上关于步骤S202所述的图像处理方法来确定。假设mi中任意三点不共线。
图4B示出的原始文档为矩形,设其高宽比为r,则可令其四个顶点xi(i=1,2,3,4)的坐标分别为[0,0,1]T、[1,0,1]T、[1,r,1]T和[0,r,1]T,高宽比r被定义为x1x4:x1x2
假设从平面x1x2x3x4到平面m1m2m3m4的射影变换矩阵为H,则xi与mi满足以下(1)式的关系:
其中,H为3*3矩阵,xi和mi(i=1,2,3,4)是3*1向量,而si(i=1,2,3)为实数系数。
通过(1)式,可以得到:
当原始文档的高宽比r不为0时,矩阵[x1,x2,x3]可逆,则
再将(2)式代回(1)式,可以得到:
由于
所以
令H=[h1 h2 h3],则由(2)式可以得到:
从而可以得到h1和h2与宽高比r和世界坐标mi的关系为:
在(4)式中,因为mi已知,si可以通过mi计算,因而在h1和h2中仅含未知数r。
另一方面,从摄像装置参数的角度来说,射影变换H满足H=A·R,其中,A为摄像装置的内参矩阵,R为摄像装置的旋转矩阵(也称为外参矩阵)。
如果用ri表示旋转矩阵R的第i列,则有
H=A·R=A·[r1 r2 r3 t] (5)
根据外参数的性质和|r1|=|r2|,可以得到下面的公式(6)和公式(7)。
当内参矩阵A已知时,根据公式(4)和公式(7)可求得文档高宽比r。
摄像装置的内参矩阵A为
其中fx,fy为摄像装置以像素为单位的横、纵坐标轴上的焦距,(x0,y0)为主点的坐标。依据EXIF(可交换图像文件)信息,摄像装置的焦距为f,分辨率为w*h,传感器尺寸为a*b时,则内参矩阵A为:
再令h1=(h11,h21,h31)T,h2=1/r(h12,h22,h32)T,根据公式(7)可以得到:
这样,就计算出了原始宽高比r。
接着,在步骤S206中,基于四个顶点的世界坐标和宽高比来确定射影变换矩阵。
最后,在步骤S208中,基于所确定的射影变换矩阵和所捕获的文档图像可以获得校正的文档图像。
根据本发明的方法在应用于用手机摄像头拍摄图像时具有以下特殊情况。
某些手机具有正方形模式。例如正常图像的分辨率为3264*2448,而正方形模式下拍摄的图片分辨率为2448*2448,即,对原始图像进行了裁剪。根据本发明的方法在应用于以正方形模式拍摄的图像时,输入裁剪前的图片的分辨率即可,即w=3264,h=2448。
此外,对于以变焦(zooming)模式拍摄的图像,可以从EXIF中读出手机的数字变焦,变焦后的焦距f为原始焦距foriginal乘以数字变焦(digital zooming)。
在本发明的方法中,基于摄像装置的地理空间和算术特性,可以恢复原始文档的宽高比。并且本发明的方法仅需要捕获一幅图像即可实现对文档图像的校正,这对于用户来说非常方便。
[2.用于对摄像装置所捕获的文档图像进行校正的装置]
图5是示出根据本发明的一个实施例的用于对摄像装置所捕获的文档图像进行校正的装置500的示例性配置的框图。
如图5所示,用于对摄像装置所捕获的文档图像进行校正的装置500包括顶点坐标确定单元502、宽高比计算单元504、射影变换矩阵确定单元506和校正单元508。
其中,顶点坐标确定单元502被配置为确定所述文档图像的四个顶点的世界坐标。
宽高比计算单元504被配置为基于所述四个顶点的世界坐标与所述四个顶点在射影空间的射影坐标的对应关系、所述摄像装置的内参矩阵和所述摄像装置的外参矩阵的特性来计算所述文档图像的原始的宽高比。
射影变换矩阵确定单元506被配置为基于所述四个顶点的世界坐标和所述宽高比来确定射影变换矩阵。
校正单元508被配置为基于所确定的所述射影变换矩阵和所述文档图像来获得校正的文档图像。
图6是示出图5中的顶点坐标确定单元502的一种示例性配置的框图。顶点坐标确定单元502包括:边缘检测子单元5022、二值化子单元5024和坐标确定子单元5026。
其中,边缘检测子单元5022被配置为检测所述文档图像的边缘。
二值化子单元5024被配置为对检测到的所述边缘进行二值化。
坐标确定子单元5026被配置为基于二值化的边缘来确定所述四个顶点的世界坐标。
其中,射影变换矩阵H满足:
其中,H是3*3矩阵,mi和xi是3*1向量,mi是所述四个顶点的世界坐标,xi是所述四个顶点在射影空间下的射影坐标,si是取决于mi的实数系数。
其中,令所述射影变换矩阵H=[h1 h2 h3],则h1和h2与所述宽高比r和所述世界坐标mi的关系为:
其中,所述摄像装置的内参矩阵A为:
其中,f是摄像装置的焦距,w和h是分辨率,a和b是传感器尺寸。
其中,所述摄像装置的外参矩阵的特性为:如果将所述外参矩阵表示为R=[r1 r2r3 t],则r1 T·r2=0且|r1|=|r2|。
其中,基于所述摄像装置的内参矩阵A和所述摄像装置的外参矩阵的特性得到h1和h2与所述内参矩阵A的关系为:
其中,基于h1和h2与所述宽高比r和所述世界坐标mi的关系以及h1和h2与所述内参矩阵A的关系来确定所述宽高比r。
其中,基于所述四个顶点的世界坐标和所述宽高比来确定所述射影变换矩阵H为:
关于用于对摄像装置所捕获的文档图像进行校正的装置500的各个部分的操作和功能的细节可以参照结合图1-4描述的本发明的用于对摄像装置所捕获的文档图像进行校正的方法的实施例,这里不再详细描述。
在此需要说明的是,图5-6所示的装置及其组成单元的结构仅仅是示例性的,本领域技术人员可以根据需要对图5-6所示的结构框图进行修改。
本发明提出一种用于对摄像装置所捕获的文档图像进行校正的方法和装置。和传统方法相比,本方法具有如下优势:
1、基于摄像装置的地理空间和算术特性,可以恢复原始文档的宽高比,这是现有方法例如Office lens无法实现的;
2、仅需要捕获一幅图像即可实现对文档图像的校正,这对于用户来说非常方便。
[3.用以实施本申请的方法和装置的计算设备]
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。
在通过软件和/或固件实现本发明的实施例的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图7所示的通用计算机700安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图7中,中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM 703中,也根据需要存储当CPU 701执行各种处理等等时所需的数据。CPU 701、ROM 702和RAM 703经由总线704彼此链路。输入/输出接口705也链路到总线704。
下述部件链路到输入/输出接口705:输入部分706(包括键盘、鼠标等等)、输出部分707(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分708(包括硬盘等)、通信部分709(包括网络接口卡比如LAN卡、调制解调器等)。通信部分709经由网络比如因特网执行通信处理。根据需要,驱动器710也可链路到输入/输出接口705。可拆卸介质711比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器710上,使得从中读出的计算机程序根据需要被安装到存储部分708中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质711安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 702、存储部分708中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等。
本领域的普通技术人员应理解,在此所例举的是示例性的,本发明并不局限于此。
在本说明书中,“第一”、“第二”以及“第N个”等表述是为了将所描述的特征在文字上区分开,以清楚地描述本发明。因此,不应将其视为具有任何限定性的含义。
作为一个示例,上述方法的各个步骤以及上述设备的各个组成模块和/或单元可以实施为软件、固件、硬件或其组合,并作为相应设备中的一部分。上述装置中各个组成模块、单元通过软件、固件、硬件或其组合的方式进行配置时可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。
作为一个示例,在通过软件或固件实现的情况下,可以从存储介质或网络向具有专用硬件结构的计算机(例如图7所示的通用计算机700)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其他实施方式中使用,与其他实施方式中的特征相组合,或替代其他实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其他特征、要素、步骤或组件的存在或附加。
此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
本发明及其优点,但是应当理解在不超出由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且,本发明的范围不仅限于说明书所描述的过程、设备、手段、方法和步骤的具体实施例。本领域内的普通技术人员从本发明的公开内容将容易理解,根据本发明可以使用执行与在此的相应实施例基本相同的功能或者获得与其基本相同的结果的、现有和将来要被开发的过程、设备、手段、方法或者步骤。因此,所附的权利要求旨在在它们的范围内包括这样的过程、设备、手段、方法或者步骤。
基于以上的说明,可知公开至少公开了以下技术方案:
1、一种对摄像装置所捕获的文档图像进行校正的方法,包括:
确定所述文档图像的四个顶点的世界坐标;
基于所述四个顶点的世界坐标与所述四个顶点在射影空间的射影坐标的对应关系以及所述摄像装置的内参矩阵和所述摄像装置的外参矩阵的特性来计算所述文档图像的原始的宽高比;
基于所述四个顶点的世界坐标和所述宽高比来确定射影变换矩阵;以及
基于所确定的所述射影变换矩阵和所述文档图像来获得校正的文档图像。
2、根据权利要求1所述的方法,其中,确定所述文档图像的四个顶点包括:
检测所述文档图像的文档边缘;
对检测到的所述边缘的灰度图进行二值化;以及
基于二值化的所述边缘的灰度图来确定所述四个顶点的世界坐标。
3、根据权利要求1所述的方法,其中,所述射影变换矩阵H满足:
其中,H是3*3矩阵,mi和xi是3*1向量,mi是所述四个顶点的世界坐标,xi是所述四个顶点在射影空间下的射影坐标,si是取决于mi的实数系数。
4、根据权利要求3所述的方法,其中,令所述射影变换矩阵H=[h1 h2h3],则h1和h2与所述宽高比r和所述世界坐标mi的关系为:
5、根据权利要求4所述的方法,其中,所述摄像装置的内参矩阵A为:
其中,f是摄像装置的焦距,w和h是分辨率,a和b是传感器尺寸。
6、根据权利要求5所述的方法,其中,所述摄像装置的外参矩阵的特性为:如果将所述外参矩阵表示为R=[r1 r2 r3 t],则r1 T·r2=0且|r1|=|r2|。
7、根据权利要求6所述的方法,其中,基于所述摄像装置的内参矩阵A和所述摄像装置的外参矩阵的特性得到h1和h2与所述内参矩阵A的关系为:
8.根据权利要求7所述的方法,其中,基于h1和h2与所述宽高比r和所述世界坐标mi的关系以及h1和h2与所述内参矩阵A的关系来确定所述宽高比r。
9、根据权利要求8所述的方法,其中,基于所述四个顶点的世界坐标和所述宽高比来确定所述射影变换矩阵H为:
10、一种对摄像装置所捕获的文档图像进行校正的装置,包括:
顶点坐标确定单元,被配置为确定所述文档图像的四个顶点的世界坐标;
宽高比计算单元,被配置为基于所述四个顶点的世界坐标与所述四个顶点在射影空间的射影坐标的对应关系、所述摄像装置的内参矩阵和所述摄像装置的外参矩阵的特性来计算所述文档图像的原始的宽高比;
射影变换矩阵确定单元,被配置为基于所述四个顶点的世界坐标和所述宽高比来确定射影变换矩阵;以及
校正单元,被配置为基于所确定的所述射影变换矩阵和所述文档图像来获得校正的文档图像。
11、根据权利要求10所述的装置,其中,所述顶点坐标确定单元包括:
边缘检测子单元,被配置为检测所述文档图像的文档边缘;
二值化子单元,被配置为对检测到的所述边缘的灰度图进行二值化;以及
坐标确定子单元,被配置为基于二值化的所述边缘的灰度图来确定所述四个顶点的世界坐标。
12、根据权利要求10所述的装置,其中,所述射影变换矩阵H满足:
其中,H是3*3矩阵,mi和xi是3*1向量,mi是所述四个顶点的世界坐标,xi是所述四个顶点在射影空间下的射影坐标,si是取决于mi的实数系数。
13、根据权利要求12所述的装置,其中,令所述射影变换矩阵H=[h1 h2 h3],则h1和h2与所述宽高比r和所述世界坐标mi的关系为:
14、根据权利要求13所述的装置,其中,所述摄像装置的内参矩阵A为:
其中,f是摄像装置的焦距,w和h是分辨率,a和b是传感器尺寸。
15、根据权利要求14所述的装置,其中,所述摄像装置的外参矩阵的特性为:如果将所述外参矩阵表示为R=[r1 r2 r3 t],则r1 T·r2=0且|r1|=|r2|。
16、根据权利要求15所述的装置,其中,基于所述摄像装置的内参矩阵A和所述摄像装置的外参矩阵的特性得到h1和h2与所述内参矩阵A的关系为:
17.根据权利要求16所述的装置,其中,基于h1和h2与所述宽高比r和所述世界坐标mi的关系以及h1和h2与所述内参矩阵A的关系来确定所述宽高比r。
18、根据权利要求17所述的装置,其中,基于所述四个顶点的世界坐标和所述宽高比来确定所述射影变换矩阵H为:

Claims (10)

1.一种对摄像装置所捕获的文档图像进行校正的方法,包括:
确定所述文档图像的四个顶点的世界坐标;
基于所述四个顶点的世界坐标与所述四个顶点在射影空间的射影坐标的对应关系以及所述摄像装置的内参矩阵和所述摄像装置的外参矩阵的特性来计算所述文档图像的原始的宽高比;
基于所述四个顶点的世界坐标和所述宽高比来确定射影变换矩阵;以及
基于所确定的所述射影变换矩阵和所述文档图像来获得校正的文档图像。
2.根据权利要求1所述的方法,其中,确定所述文档图像的四个顶点包括:
检测所述文档图像的文档边缘;
对检测到的所述边缘的灰度图进行二值化;以及
基于二值化的所述边缘的灰度图来确定所述四个顶点的世界坐标。
3.根据权利要求1所述的方法,其中,所述射影变换矩阵H满足:
其中,H是3*3矩阵,mi和xi是3*1向量,mi是所述四个顶点的世界坐标,xi是所述四个顶点在射影空间下的射影坐标,si是取决于mi的实数系数。
4.根据权利要求3所述的方法,其中,令所述射影变换矩阵H=[h1 h2 h3],则h1和h2与所述宽高比r和所述世界坐标mi的关系为:
h 1 = s 2 m 2 - s 1 m 1 h 2 = 1 / r ( s 3 m 3 - s 2 m 2 ) .
5.根据权利要求4所述的方法,其中,所述摄像装置的内参矩阵A为:
其中,f是摄像装置的焦距,w和h是分辨率,a和b是传感器尺寸。
6.根据权利要求5所述的方法,其中,所述摄像装置的外参矩阵的特性为:如果将所述外参矩阵表示为R=[r1 r2 r3 t],则r1 T·r2=0且|r1|=|r2|。
7.根据权利要求6所述的方法,其中,基于所述摄像装置的内参矩阵A和所述摄像装置的外参矩阵的特性得到h1和h2与所述内参矩阵A的关系为:
h 1 T A - T A - 1 h 1 = h 2 T A - T A - 1 h 2 .
8.根据权利要求7所述的方法,其中,基于h1和h2与所述宽高比r和所述世界坐标mi的关系以及h1和h2与所述内参矩阵A的关系来确定所述宽高比r。
9.根据权利要求8所述的方法,其中,基于所述四个顶点的世界坐标和所述宽高比来确定所述射影变换矩阵H为:
H = s 1 m 1 s 2 m 2 s 3 m 3 - 1 0 1 1 - 1 / r 0 0 1 / r 0 .
10.一种对摄像装置所捕获的文档图像进行校正的装置,包括:
顶点坐标确定单元,被配置为确定所述文档图像的四个顶点的世界坐标;
宽高比计算单元,被配置为基于所述四个顶点的世界坐标与所述四个顶点在射影空间的射影坐标的对应关系、所述摄像装置的内参矩阵和所述摄像装置的外参矩阵的特性来计算所述文档图像的原始的宽高比;
射影变换矩阵确定单元,被配置为基于所述四个顶点的世界坐标和所述宽高比来确定射影变换矩阵;以及
校正单元,被配置为基于所确定的所述射影变换矩阵和所述文档图像来获得校正的文档图像。
CN201610037593.8A 2016-01-20 2016-01-20 对摄像装置所捕获的文档图像进行校正的方法和装置 Pending CN106991649A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201610037593.8A CN106991649A (zh) 2016-01-20 2016-01-20 对摄像装置所捕获的文档图像进行校正的方法和装置
JP2017006597A JP2017130929A (ja) 2016-01-20 2017-01-18 撮像装置により取得された文書画像の補正方法及び補正装置
US15/410,040 US10187546B2 (en) 2016-01-20 2017-01-19 Method and device for correcting document image captured by image pick-up device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610037593.8A CN106991649A (zh) 2016-01-20 2016-01-20 对摄像装置所捕获的文档图像进行校正的方法和装置

Publications (1)

Publication Number Publication Date
CN106991649A true CN106991649A (zh) 2017-07-28

Family

ID=59313960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610037593.8A Pending CN106991649A (zh) 2016-01-20 2016-01-20 对摄像装置所捕获的文档图像进行校正的方法和装置

Country Status (3)

Country Link
US (1) US10187546B2 (zh)
JP (1) JP2017130929A (zh)
CN (1) CN106991649A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754381A (zh) * 2019-01-03 2019-05-14 广东小天才科技有限公司 一种图像处理方法及系统
CN110310243A (zh) * 2019-06-28 2019-10-08 广东工业大学 一种无人机摄影测量的图像校正方法、系统和存储介质
CN110505398A (zh) * 2019-07-16 2019-11-26 北京三快在线科技有限公司 一种图像处理方法、装置、电子设备及存储介质
CN112529097A (zh) * 2020-12-23 2021-03-19 北京百度网讯科技有限公司 样本图像生成方法、装置以及电子设备
CN112733599A (zh) * 2020-12-04 2021-04-30 小米科技(武汉)有限公司 文档图像处理方法、装置、存储介质及终端设备
TWI731484B (zh) * 2019-11-26 2021-06-21 台灣基督長老教會馬偕醫療財團法人馬偕紀念醫院 經由藥物泡型包裝影像建立藥物資料庫及管理藥物之方法及系統
CN113420581A (zh) * 2020-10-19 2021-09-21 杨宏伟 书面文档图像的校正方法、装置、电子设备及可读介质
CN115760620A (zh) * 2022-11-18 2023-03-07 荣耀终端有限公司 一种文档矫正方法、装置及电子设备

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991649A (zh) * 2016-01-20 2017-07-28 富士通株式会社 对摄像装置所捕获的文档图像进行校正的方法和装置
CN108647638B (zh) 2018-05-09 2021-10-12 东软睿驰汽车技术(上海)有限公司 一种车辆位置检测方法及装置
CN111652937B (zh) * 2019-03-04 2023-11-03 广州汽车集团股份有限公司 车载相机标定方法和装置
CN110287913A (zh) * 2019-06-28 2019-09-27 京东数字科技控股有限公司 图像矫正提示方法和装置、用户终端和存储介质
CN110390339B (zh) * 2019-07-16 2021-11-19 北京市计算中心有限公司 一种图像校正方法、装置及存储介质
CN112733837B (zh) * 2019-10-28 2022-08-02 北京易真学思教育科技有限公司 文本图像的校正方法、设备及计算机可读存储介质
DE102020126407A1 (de) * 2020-10-08 2022-04-14 Leica Camera Aktiengesellschaft Bildaufnahmegerät
KR102495545B1 (ko) * 2021-06-16 2023-02-06 (주)브이브이알 빔 프로젝터 영상 보정 및 터치 영역 인식 방법, 그리고 이를 수행하는 장치

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5491759A (en) * 1992-11-25 1996-02-13 Eastman Kodak Company Document edge detection apparatus
CN1937698A (zh) * 2006-10-19 2007-03-28 上海交通大学 图像畸变自动校正的图像处理方法
CN101170627A (zh) * 2006-10-26 2008-04-30 三星电子株式会社 具有图像校正功能的扫描设备
CN101267493A (zh) * 2007-03-16 2008-09-17 富士通株式会社 透视变形文档图像的校正装置和校正方法
CN102254171A (zh) * 2011-07-13 2011-11-23 北京大学 一种基于文本边界的中文文档图像畸变校正方法
CN102496018A (zh) * 2011-12-08 2012-06-13 方正国际软件有限公司 一种文档倾斜检测方法及系统
CN102592124A (zh) * 2011-01-13 2012-07-18 汉王科技股份有限公司 文本图像的几何校正方法、装置和双目立体视觉系统
CN103426149A (zh) * 2013-07-24 2013-12-04 玉振明 大视角图像畸变的校正处理方法
US20130343609A1 (en) * 2012-06-22 2013-12-26 Polyvision Corporation Document unbending and recoloring systems and methods
US20140368891A1 (en) * 2013-06-12 2014-12-18 Kodak Alaris Inc. Method for detecting a document boundary
CN104954624A (zh) * 2014-03-26 2015-09-30 富士施乐株式会社 校正控制装置、图像读取设备、以及校正控制方法
CN105118040A (zh) * 2015-09-18 2015-12-02 中国科学院自动化研究所 基于结构激光线的文档图像畸变矫正方法
JP2016162442A (ja) * 2015-03-03 2016-09-05 富士ゼロックス株式会社 テキスト抽出方法、システム及びプログラム
CN106097254A (zh) * 2016-06-07 2016-11-09 天津大学 一种扫描文档图像纠偏方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645119B2 (en) * 2007-03-26 2014-02-04 Google Inc. Minimum error rate training with a large number of features for machine learning
ES2342995B1 (es) * 2008-02-20 2011-09-30 Universidad De Vigo Procedimiento de verificacion de integridad de documentos.
US9514357B2 (en) * 2012-01-12 2016-12-06 Kofax, Inc. Systems and methods for mobile image capture and processing
TWI489320B (zh) * 2013-10-25 2015-06-21 Utechzone Co Ltd 電子文件標記方法及裝置
US9456123B2 (en) * 2014-12-18 2016-09-27 Xerox Corporation Method and system to configure mobile electronic device settings using remote data store analytics
US9524445B2 (en) * 2015-02-27 2016-12-20 Sharp Laboratories Of America, Inc. Methods and systems for suppressing non-document-boundary contours in an image
CN106991649A (zh) * 2016-01-20 2017-07-28 富士通株式会社 对摄像装置所捕获的文档图像进行校正的方法和装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5491759A (en) * 1992-11-25 1996-02-13 Eastman Kodak Company Document edge detection apparatus
CN1937698A (zh) * 2006-10-19 2007-03-28 上海交通大学 图像畸变自动校正的图像处理方法
CN101170627A (zh) * 2006-10-26 2008-04-30 三星电子株式会社 具有图像校正功能的扫描设备
CN101267493A (zh) * 2007-03-16 2008-09-17 富士通株式会社 透视变形文档图像的校正装置和校正方法
CN102592124A (zh) * 2011-01-13 2012-07-18 汉王科技股份有限公司 文本图像的几何校正方法、装置和双目立体视觉系统
CN102254171A (zh) * 2011-07-13 2011-11-23 北京大学 一种基于文本边界的中文文档图像畸变校正方法
CN102496018A (zh) * 2011-12-08 2012-06-13 方正国际软件有限公司 一种文档倾斜检测方法及系统
US20130343609A1 (en) * 2012-06-22 2013-12-26 Polyvision Corporation Document unbending and recoloring systems and methods
US20140368891A1 (en) * 2013-06-12 2014-12-18 Kodak Alaris Inc. Method for detecting a document boundary
CN103426149A (zh) * 2013-07-24 2013-12-04 玉振明 大视角图像畸变的校正处理方法
CN104954624A (zh) * 2014-03-26 2015-09-30 富士施乐株式会社 校正控制装置、图像读取设备、以及校正控制方法
JP2016162442A (ja) * 2015-03-03 2016-09-05 富士ゼロックス株式会社 テキスト抽出方法、システム及びプログラム
CN105118040A (zh) * 2015-09-18 2015-12-02 中国科学院自动化研究所 基于结构激光线的文档图像畸变矫正方法
CN106097254A (zh) * 2016-06-07 2016-11-09 天津大学 一种扫描文档图像纠偏方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TRUNG QUY PHAN等: "Recognizing text with perspective distortion in natural scenes", 《2013 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION》 *
张顺利 等: "基于投影的文档图像倾斜校正方法", 《计算机工程与应用》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754381A (zh) * 2019-01-03 2019-05-14 广东小天才科技有限公司 一种图像处理方法及系统
CN110310243A (zh) * 2019-06-28 2019-10-08 广东工业大学 一种无人机摄影测量的图像校正方法、系统和存储介质
CN110505398A (zh) * 2019-07-16 2019-11-26 北京三快在线科技有限公司 一种图像处理方法、装置、电子设备及存储介质
TWI731484B (zh) * 2019-11-26 2021-06-21 台灣基督長老教會馬偕醫療財團法人馬偕紀念醫院 經由藥物泡型包裝影像建立藥物資料庫及管理藥物之方法及系統
CN113420581A (zh) * 2020-10-19 2021-09-21 杨宏伟 书面文档图像的校正方法、装置、电子设备及可读介质
CN112733599A (zh) * 2020-12-04 2021-04-30 小米科技(武汉)有限公司 文档图像处理方法、装置、存储介质及终端设备
CN112529097A (zh) * 2020-12-23 2021-03-19 北京百度网讯科技有限公司 样本图像生成方法、装置以及电子设备
CN112529097B (zh) * 2020-12-23 2024-03-26 北京百度网讯科技有限公司 样本图像生成方法、装置以及电子设备
CN115760620A (zh) * 2022-11-18 2023-03-07 荣耀终端有限公司 一种文档矫正方法、装置及电子设备
CN115760620B (zh) * 2022-11-18 2023-10-20 荣耀终端有限公司 一种文档矫正方法、装置及电子设备

Also Published As

Publication number Publication date
US20170208207A1 (en) 2017-07-20
JP2017130929A (ja) 2017-07-27
US10187546B2 (en) 2019-01-22

Similar Documents

Publication Publication Date Title
CN106991649A (zh) 对摄像装置所捕获的文档图像进行校正的方法和装置
US11244432B2 (en) Image filtering based on image gradients
US10909703B2 (en) Image processing method, electronic device and computer-readable storage medium
EP3968280A1 (en) Target tracking method and apparatus, storage medium and electronic device
TWI658730B (zh) 圖像焦距檢測方法及其裝置
US9064318B2 (en) Image matting and alpha value techniques
US8619098B2 (en) Methods and apparatuses for generating co-salient thumbnails for digital images
CN108389224B (zh) 图像处理方法及装置、电子设备和存储介质
US20130083966A1 (en) Match, Expand, and Filter Technique for Multi-View Stereopsis
WO2016144578A1 (en) Methods and systems for generating enhanced images using multi-frame processing
JP2005100407A (ja) 複数のソース画像からパノラマ画像を作成するシステム及び方法
US20080298706A1 (en) Focal length estimation for panoramic stitching
CN104065854A (zh) 一种图像处理方法及一种电子设备
CN106504196B (zh) 一种基于空间球面的全景视频拼接方法及设备
JP2006127241A (ja) 超解像処理の高速化方法
US9342873B1 (en) Tile-based optical flow
EP4322109A1 (en) Green screen matting method and apparatus, and electronic device
US20020164082A1 (en) Image processing apparatus
JP7124957B2 (ja) 画像処理システム、推定装置、処理方法及びプログラム
WO2022247394A1 (zh) 图像拼接方法及装置、存储介质及电子设备
CN115578260A (zh) 针对图像超分辨率的方向解耦的注意力方法和系统
CN104732580B (zh) 图像处理装置、图像处理方法和程序
CN114241446A (zh) 一种路牌角点的标记方法、装置、设备及存储介质
CN108810319A (zh) 图像处理装置和图像处理方法
McCrackin et al. Strategic image denoising using a support vector machine with seam energy and saliency features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
AD01 Patent right deemed abandoned

Effective date of abandoning: 20210409