CN107845068A - 图像视角变换装置以及方法 - Google Patents

图像视角变换装置以及方法 Download PDF

Info

Publication number
CN107845068A
CN107845068A CN201610829031.7A CN201610829031A CN107845068A CN 107845068 A CN107845068 A CN 107845068A CN 201610829031 A CN201610829031 A CN 201610829031A CN 107845068 A CN107845068 A CN 107845068A
Authority
CN
China
Prior art keywords
line
text line
picture
file
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610829031.7A
Other languages
English (en)
Other versions
CN107845068B (zh
Inventor
刘威
范伟
孙俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201610829031.7A priority Critical patent/CN107845068B/zh
Priority to US15/697,823 priority patent/US20180082456A1/en
Priority to JP2017174597A priority patent/JP6904182B2/ja
Publication of CN107845068A publication Critical patent/CN107845068A/zh
Application granted granted Critical
Publication of CN107845068B publication Critical patent/CN107845068B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • G06T3/10
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/60Rotation of a whole image or part thereof
    • G06T3/608Skewing or deskewing, e.g. by two-pass or three-pass rotation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Abstract

本发明实施例提供一种图像视角变换装置以及方法。所述图像视角变换方法包括:基于文档图像的灰度图抽取多条直线并按照水平方向和垂直方向分类;基于所述文档图像的二值图抽取多条文本行线并按照水平方向和垂直方向分类;从抽取和分类后的直线以及文本行线中选择出两条垂直线和两条水平线;基于选择出的两条垂直线和两条水平线所形成的方框计算变换矩阵;以及使用该变换矩阵对文档图像进行变换以获得视角变换后的图像。由此,即使拍摄到的文档图像不完整,也能准确地获得透视变换矩阵,从而能够更好地进行图像视角变换。

Description

图像视角变换装置以及方法
技术领域
本发明实施例涉及图形图像处理技术领域,尤其涉及一种图像视角变换装置以及方法。
背景技术
日常生活中,人们经常会使用电子设备(例如手机)拍摄文档图像。由于拍摄角度等原因,拍摄到的文档经常会发生透视变换。目前已经出现一些视角变换方法,利用文档边界等获得透视变换矩阵(H矩阵),然后基于H矩阵对文档图像进行变换以获得视角变换后的图像。
但是,有时候拍摄的文档并不完全,即只拍摄到文档的一部分。
图1是使用手机拍摄的原始文档的一示例图,如图1所示,右边一栏的部分内容没有被拍摄到。目前的视角变换方法不能准确地获得透视变换矩阵(H矩阵),导致不能更好地进行图像视角变换。
应该注意,上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本发明的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
发明内容
本发明实施例提供了一种图像视角变换装置以及方法,即使拍摄到的文档图像不完整,也能准确地获得透视变换矩阵,从而能够更好地进行图像视角变换。
根据本发明实施例的第一个方面,提供一种图像视角变换装置,包括:
直线抽取单元,其基于文档图像的灰度图抽取多条直线;
直线分类单元,其将所述多条直线按照水平方向和垂直方向分类;
文本行线抽取单元,其基于所述文档图像的二值图抽取多条文本行线;
文本行线分类单元,其将所述多条文本行线按照水平方向和垂直方向分类;
线选择单元,其从抽取和分类后的所述直线以及所述文本行线中选择出两条垂直线和两条水平线;
矩阵计算单元,其基于选择出的所述两条垂直线和所述两条水平线所形成的方框计算变换矩阵;以及
图像变换单元,其使用所述变换矩阵对所述文档图像进行变换以获得视角变换后的图像。
根据本发明实施例的第二个方面,提供一种图像视角变换方法,包括:
基于文档图像的灰度图抽取多条直线;
将所述多条直线按照水平方向和垂直方向分类;
基于所述文档图像的二值图抽取多条文本行线;
将所述多条文本行线按照水平方向和垂直方向分类;
从抽取和分类后的所述直线以及所述文本行线中选择出两条垂直线和两条水平线;
基于选择的所述两条垂直线和所述两条水平线所形成的方框计算变换矩阵;以及
使用所述变换矩阵对所述文档图像进行变换以获得视角变换后的图像。
根据本发明实施例的第三个方面,提供一种电子设备,包括如上所述的图像视角变换装置。
本发明实施例的有益效果在于:基于文档图像的灰度图抽取多条直线,以及基于文档图像的二值图抽取多条文本行线;从抽取和分类后的直线以及文本行线中选择出两条垂直线和两条水平线;以及基于选择出的两条垂直线和两条水平线所形成的方框计算变换矩阵。由此,即使拍摄到的文档图像不完整,也能准确地获得透视变换矩阵,从而能够更好地进行图像视角变换。
参照后文的说明和附图,详细公开了本发明实施例的特定实施方式,指明了本发明实施例的原理可以被采用的方式。应该理解,本发明的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内,本发明的实施方式包括许多改变、修改和等同。
针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在,但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。
附图说明
所包括的附图用来提供对本发明实施例的进一步的理解,其构成了说明书的一部分,用于例示本发明的实施方式,并与文字描述一起来阐释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是使用手机拍摄的原始文档的示例图;
图2是本发明实施例1的图像视角变换方法的示意图;
图3是本发明实施例1的抽取直线的示意图;
图4是本发明实施例1的检测出的直线的示意图;
图5是本发明实施例1的抽取文本行线的示意图;
图6是本发明实施例1的检测出的文本行线的示意图;
图7是本发明实施例1的文档图像包括多个区域的示意图;
图8是本发明实施例1的源方框的示意图;
图9是本发明实施例1的计算变换矩阵的示意图;
图10是本发明实施例1的目标方框的示意图;
图11是本发明实施例1的进行视角变换的示意图;
图12是本发明实施例1的视角变换后的文档图像的示例图;
图13是本发明实施例2的图像视角变换装置的示意图;
图14是本发明实施例2的直线抽取单元的示意图;
图15是本发明实施例2的文本行线抽取单元的示意图;
图16是本发明实施例2的矩阵计算单元的示意图;
图17是本发明实施例2的图像变换单元的示意图;
图18是本发明实施例3的电子设备的示意图。
具体实施方式
参照附图,通过下面的说明书,本发明实施例的前述以及其它特征将变得明显。在说明书和附图中,具体公开了本发明的特定实施方式,其表明了其中可以采用本发明实施例的原则的部分实施方式,应了解的是,本发明不限于所描述的实施方式,相反,本发明实施例包括落入所附权利要求的范围内的全部修改、变型以及等同物。
实施例1
本发明实施例提供一种图像视角变换方法。图2是本发明实施例的图像视角变换方法的示意图,如图2所示,所述图像视角变换方法包括:
步骤201,基于文档图像的灰度图抽取多条直线;
步骤202,将所述多条直线按照水平方向和垂直方向分类;
步骤203,基于所述文档图像的二值图抽取多条文本行线;
步骤204,将所述多条文本行线按照水平方向和垂直方向分类;
步骤205,从抽取并分类后的直线以及文本行线中选择两条垂直线和两条水平线;
步骤206,基于选择出的两条垂直线和两条水平线所形成的方框计算变换矩阵;
步骤207,使用该变换矩阵对该文档图像进行变换以获得视角变换后的图像。
在本实施例中,步骤201和步骤202抽取多条直线并进行分类,由此可以获得文档图像中包含的表格线、分割线、图像边缘轮廓直线等等。步骤203和步骤204抽取多条文本行线并进行分类,由此可以获得水平文本行线以及由各行首字符(或者例如末字符)组成的垂直文本行线。
值得注意的是,直线和文本行线的抽取可以是独立进行的,例如可以是并行的,也可以是顺序进行的(可以先抽取直线再抽取文本行线,也可以先抽取文本行线在抽取直线),还可以是交叉进行的;本发明不限于此。
在本实施例中,可以从抽取出的直线以及文本行线的集合中选择两条垂直线和两条水平线,然后基于选择的两条垂直线和两条水平线所形成的方框计算变换矩阵。由此,即使拍摄到的文档图像不完整,也能准确地获得透视变换矩阵。
以下对于各步骤进行详细说明。
图3是本发明实施例的抽取直线的示意图,如图3所示,在步骤201中基于所述文档图像的灰度图抽取多条直线,可以包括:
步骤301,将文档图像进行变换而获得灰度图;
步骤302,检测所述灰度图中的直线;以及
步骤303,过滤掉检测到的直线中长度小于预设阈值的直线。
具体地,可以首先将原文档图像灰度化,然后采用各种线检测方法(例如线分割检测方法、霍夫线检测方法等)检测出候选直线;可以利用各种条件(例如线长度需要大于某个阈值等)过滤掉一些候选直线。
在步骤202中,可以将抽取和过滤后的直线分为水平和垂直两种保存。可以利用各种条件(例如直线的倾斜角度需要小于某个阈值、直线与文本行的角度需要小于某个阈值等)进行分类,过滤掉一些候选直线。
图4是本发明实施例的检测出的直线的示意图,如图4所示,可以检测出文档图像中的垂直方向上的直线(例如表格线401等),水平方向上的直线(例如分割线402和图像边缘轮廓直线403等)。
值得注意的是,以上仅示意性说明了如何抽取文档图像的直线,但本发明不限于此,例如还可以采用现有技术中抽取直线的任意可用方法;此外对于候选直线的过滤条件,本发明也不限于此,可以根据实际情况确定具体的过滤条件。
图5是本发明实施例的抽取文本行线的示意图,如图5所示,在步骤203中基于文档图像的二值图抽取多条文本行线,可以包括:
步骤501,将文档图像进行变换而获得二值图;
步骤502,将所述二值图中字符对应的区域进行扩展;
步骤503,检测所述二值图的连通域(CC,Connected Component);以及
步骤504,基于连通域拟合出水平方向的文本行线。
其中,关于如何进行二值变换以及如何在二值图中进行连通域标记,可以采用现有的任意相关方法,本发明不限于此。基于连通域的方法,可以拟合出多条水平方向的文本行线。
如图5所示,基于文档图像的二值图抽取多条文本行线,还可以包括:
步骤505,对于任意两条水平方向的文本行线,获取连接所述两条水平方向的文本行线中对应字符(例如首字符或末字符)的连线;
步骤506,计算每一条所述连线穿过其他水平方向的文本行线中所述对应字符(例如首字符或末字符)的个数;
步骤506,将穿过其他水平方向的文本行线中所述对应字符(例如首字符或末字符)的个数最多的连线确定为垂直方向的文本行线。
在本实施例中,可以对首字符和/或末字符(还可以包括其他字符)分别应用上述步骤505-507,从而可以获得多条垂直方向的文本行线。
图6是本发明实施例的检测出的文本行线的示意图,如图6所示,基于连通域的方法,可以拟合出多条水平方向的文本行线,以下以图6中的水平文本行线601、602和603进行说明。
例如,在拟合出包括水平文本行线601、602和603的多条水平文本行线之后,对于水平文本行线601和602,可以获取连接水平文本行线601和602首字符的连线(以下称为L1),计算该L1穿过其他水平文本行线首字符的个数(例如为20个)。对于水平文本行线601和603,可以获取连接水平文本行线601和603首字符的连线(以下称为L2),计算该L2穿过其他水平文本行线首字符的个数(例如为18个)。对于水平文本行线602和603,可以获取连接水平文本行线602和603首字符的连线(以下称为L3),计算该L3穿过其他水平文本行线首字符的个数(例如为12个)。……,在确定个数20是最多的情况下,可以将L1确定为垂直方向的文本行线。
由此,可以获得多条水平方向上和垂直方向上的直线,以及多条水平方向上和垂直方向上的文本行线,形成直线和文本行线的集合。
以上以整个文档图像为例进行了说明。在本实施例中,文档图像可以被划分为一个或多个区域(例如使用连通域进行聚类处理);可以基于多个区域进行分组,然后按组分别抽取直线和/或文本行线,由此可以进一步提高抽取的准确度。
即,基于文档图像的二值图抽取多条文本行线,还可以包括:分别得到每个区域的水平方向的顶端文本行线和底端文本行线,以及每个区域的垂直方向的左端文本行线和右端文本行线。
然后,可以选择文档图像中面积最大的两个区域(以两个为例,但本发明不限于此);将面积最大的两个区域中水平方向的顶端文本行线和底端文本行线以及垂直方向的左端文本行线和右端文本行线作为待使用的文本行线。
图7是本发明实施例的文档图像包括多个区域的示意图,如图7所示,可以将文档图像划分为区域S1、S2等,然后可以分别对这些区域进行直线和/或文本行线的抽取。
在步骤205中,从抽取并分类后的直线以及文本行线中选择两条垂直线和两条水平线,可以包括:按照使得两条垂直线和两条水平线形成的方框的面积最大为原则,选择两条垂直线和两条水平线。
在本实施例中,可以选取最可靠的两条水平线和两条垂直线组成矩形,矩形越大越好,水平方向线可以尽量与文本行线平行,垂直方向线可以选取置信度最高的。由此可以进一步提高变换矩阵的准确度。
图8是本发明实施例的源方框的示意图,如图8所示,可以选择两条水平线801和802,选择两条垂直线803和804,由此确定这些直线所形成的源方框(例如为矩形)。
图9是本发明实施例的计算变换矩阵的示意图,如图9所示,在步骤206中基于选择出的两条垂直线和两条水平线所形成的方框计算变换矩阵,可以包括:
步骤901,基于两条垂直线和两条水平线所形成的源方框,获得该源方框四个顶点的坐标;
步骤902,基于该源方框四个顶点的坐标,按照均值或者长宽比计算目标方框四个顶点的坐标;以及
步骤903,根据该源方框四个顶点的坐标以及该目标方框四个顶点的坐标确定所述变换矩阵。
例如,图8所示的方框中,其四个顶点分别为(x1,y1)(x2,y2)(x3,y3)(x4,y4),可以按照均值来计算目标方框四个顶点的坐标,即:
x1’=(x1+x4)/2
y1’=(y1+y2)/2
x2’=(x2+x3)/2
y2’=y1’
x3’=x2’
y3’=(y3+y4)/2
x4’=x1’
y4’=y3’
图10是本发明实施例的目标方框的示意图,如图10所示,根据计算出的目标方框的四个顶点(x1’,y1’)(x2’,y2’)(x3’,y3’)(x4’,y4’),可以确定该目标方框。进而,可以根据源方框和目标方框计算出H矩阵,关于H矩阵的具体内容,可以参考相关技术。
值得注意的是,以上仅以均值为例示意性示出了如何计算目标方框的四个顶点的坐标,但本发明不限于此,例如还可以使用预先获得的长宽比计算目标方框的四个顶点的坐标。关于如何获得长宽比,可以参考相关技术。
在步骤207中,可以使用该变换矩阵(H矩阵)对文档图像进行变换以获得视角变换后的图像。例如,对于源图像的每个像素,使用该H矩阵确定该像素在目标图像中的坐标位置;以及使用源图像中该像素的像素值来填充所述目标图像中的该坐标位置。
图11是本发明实施例的进行视角变换的示意图,如图11所示,使用变换矩阵对文档图像进行变换以获得视角变换后的图像,还可以包括:
步骤1101,计算所述变换矩阵(H矩阵)的逆矩阵(H’矩阵);
步骤1102,对于目标图像的每个像素,使用所述逆矩阵确定该像素在作为源图像的所述文档图像中的坐标位置;以及
步骤1103,使用所述坐标位置对应的像素值填充所述目标图像中的所述像素。
由此,对于目标图像的每个像素,均可以找到对应的像素值,可以避免漏掉某个或某些像素的情况,使得变换后的文档图像的显示质量更高。
图12是本发明实施例的视角变换后的文档图像的示例图,如图12所示,图8所示的文档图像被准确地进行了视角变换。本发明对于光学字符识别(OCR,Optical CharacterRecognition)有很好的提升作用,相比Office lens等能够校正局部文档图像,不需要文档边缘在拍摄范围内。即使进行了放大拍摄的文档,也可以使用本发明的方法进行视角变换。
值得注意的是,以上附图仅示意性地对本发明实施例进行了说明,但本发明不限于此。例如可以适当地调整各个步骤之间的执行顺序,此外还可以增加其他的一些步骤或者减少其中的某些步骤。本领域的技术人员可以根据上述内容进行适当地变型,而不仅限于上述附图的记载。
由上述实施例可知,基于文档图像的灰度图抽取多条直线,以及基于文档图像的二值图抽取多条文本行线;从抽取和分类后的直线以及文本行线中选择出两条垂直线和两条水平线;以及基于选择出的两条垂直线和两条水平线所形成的方框计算变换矩阵。由此,即使拍摄到的文档图像不完整,也能准确地获得透视变换矩阵,从而能够更好地进行图像视角变换。
实施例2
本发明实施例提供一种图像视角变换装置,与实施例1相同的内容不再赘述。
图13是本发明实施例的图像视角变换装置的示意图,如图13所示,图像视角变换装置1300包括:
直线抽取单元1301,其基于文档图像的灰度图抽取多条直线;
直线分类单元1302,其将所述多条直线按照水平方向和垂直方向分类;
文本行线抽取单元1303,其基于所述文档图像的二值图抽取多条文本行线;
文本行线分类单元1304,其将所述多条文本行线按照水平方向和垂直方向分类;
线选择单元1305,其从抽取和分类后的所述直线以及所述文本行线中选择出两条垂直线和两条水平线;
矩阵计算单元1306,其基于选择出的所述两条垂直线和所述两条水平线所形成的方框计算变换矩阵;以及
图像变换单元1307,其使用所述变换矩阵对所述文档图像进行变换以获得视角变换后的图像。
在本实施例中,从抽取出的直线以及文本行线的集合中选择两条垂直线和两条水平线,然后基于选择的两条垂直线和两条水平线所形成的方框计算变换矩阵。由此,即使拍摄到的文档图像不完整,也能准确地获得透视变换矩阵。
图14是本发明实施例的直线抽取单元1301的示意图,如图14所示,直线抽取单元1301可以包括:
灰度变换单元1401,其将所述文档图像进行变换而获得灰度图;
直线检测单元1402,其检测所述灰度图中的直线;
直线过滤单元1403,其过滤掉检测到的所述直线中长度小于预设阈值的直线。
图15是本发明实施例的文本行线抽取单元1303的示意图,如图15所示,文本行线抽取单元1303可以包括:
二值变换单元1501,其将所述文档图像进行变换而获得二值图;
区域扩展单元1502,其将所述二值图中字符对应的区域进行扩展;
连通域检测单元1503,其检测所述二值图的连通域;以及
文本行线拟合单元1504,其基于所述连通域拟合出水平方向的文本行线。
如图15所示,文本行线抽取单元1303还可以包括:
连线获取单元1505,其对于任意两条水平方向的文本行线,获取连接所述两条水平方向的文本行线的对应字符的连线;
字符数计算单元1506,其计算每一条所述连线穿过其他水平方向的文本行线的对应字符的个数;
文本行线确定单元1507,其将穿过其他水平方向的文本行线的对应字符的个数最多的连线确定为垂直方向的文本行线。
在一个实施方式中,所述文档图像可以被划分为一个或多个区域;
文本行线抽取单元1303还可以用于:分别得到每个区域的水平方向的顶端文本行线和底端文本行线,以及每个区域的垂直方向的左端文本行线和右端文本行线。
此外,文本行线抽取单元1303还可以用于:选择所述文档图像的面积最大的两个区域;以及将所述面积最大的两个区域的水平方向的顶端文本行线和底端文本行线以及垂直方向的左端文本行线和右端文本行线作为待使用的文本行线。
在一个实施方式中,线选择单元1305具体可以用于:按照使得所述两条垂直线和两条水平线形成的方框的面积最大为原则,选择所述两条垂直线和所述两条水平线。
图16是本发明实施例的矩阵计算单元1306的示意图,如图16所示,矩阵计算单元1306可以包括:
源坐标获得单元1601,其基于所述两条垂直线和两条水平线形成的源方框,获得所述源方框四个顶点的坐标;
目标坐标计算单元1602,其基于所述源方框四个顶点的坐标,按照均值或者长宽比计算目标方框四个顶点的坐标;
矩阵确定单元1603,其根据所述源方框四个顶点的坐标以及所述目标方框四个顶点的坐标确定所述变换矩阵。
图17是本发明实施例的图像变换单元1307的示意图,如图17所示,图像变换单元1307可以包括:
逆矩阵计算单元1701,其计算所述变换矩阵(H矩阵)的逆矩阵(H’矩阵);
位置确定单元1702,其对于目标图像的每个像素,使用所述逆矩阵确定该像素在作为源图像的所述文档图像中的坐标位置;
像素填充单元1703,其使用所述坐标位置对应的像素值填充所述目标图像中的所述像素。
由上述实施例可知,基于文档图像的灰度图抽取多条直线,以及基于文档图像的二值图抽取多条文本行线;从抽取和分类后的直线以及文本行线中选择出两条垂直线和两条水平线;以及基于选择出的两条垂直线和两条水平线所形成的方框计算变换矩阵。由此,即使拍摄到的文档图像不完整,也能准确地获得透视变换矩阵,从而能够更好地进行图像视角变换。
实施例3
本发明实施例还提供一种电子设备,该电子设备包括如实施例2所述的图像视角变换装置1200。
图18是本发明实施例的电子设备的示意图,示例性示出了电子设备的构成。如图18所示,电子设备1800可以包括:中央处理器(CPU)100和存储器110;存储器110耦合到中央处理器100。其中该存储器110可存储各种数据;此外还存储信息处理的程序,并且在中央处理器100的控制下执行该程序。
在一个实施方式中,图像视角变换装置1300的功能可以被集成到中央处理器100中。其中,中央处理器100可以被配置为实现如实施例1所述的图像视角变换方法。
例如,中央处理器100可以被配置进行如下控制:基于文档图像的灰度图抽取多条直线;将所述多条直线按照水平方向和垂直方向分类;基于所述文档图像的二值图抽取多条文本行线;将所述多条文本行线按照水平方向和垂直方向分类;从抽取并分类后的所述直线以及所述文本行线中选择两条垂直线和两条水平线;基于选择的所述两条垂直线和所述两条水平线所形成的方框计算变换矩阵;以及使用所述变换矩阵对所述文档图像进行变换以获得视角变换后的图像。
在另一个实施方式中,图像视角变换装置1300可以与中央处理器100分开配置,例如可以将图像视角变换装置1300配置为与中央处理器100连接的芯片,通过中央处理器100的控制来实现图像视角变换装置1300的功能。
此外,如图18所示,电子设备1800还可以包括:输入输出单元120等;其中,上述部件的功能与现有技术类似,此处不再赘述。值得注意的是,电子设备1800也并不是必须要包括图18中所示的所有部件;此外,电子设备1800还可以包括图18中没有示出的部件,可以参考现有技术。
本发明实施例还提供一种计算机可读程序,其中当在电子设备中执行所述程序时,所述程序使得接收机执行如实施例1所述的图像视角变换方法。
本发明实施例还提供一种存储有计算机可读程序的存储介质,其中所述计算机可读程序使得电子设备执行如实施例1所述的图像视角变换方法。
本发明以上的装置和方法可以由硬件实现,也可以由硬件结合软件实现。本发明涉及这样的计算机可读程序,当该程序被逻辑部件所执行时,能够使该逻辑部件实现上文所述的装置或构成部件,或使该逻辑部件实现上文所述的各种方法或步骤。本发明还涉及用于存储以上程序的存储介质,如硬盘、磁盘、光盘、DVD、flash存储器等。
以上结合具体的实施方式对本发明进行了描述,但本领域技术人员应该清楚,这些描述都是示例性的,并不是对本发明保护范围的限制。本领域技术人员可以根据本发明原理对本发明做出各种变型和修改,这些变型和修改也在本发明的范围内。
关于包括以上实施例的实施方式,还公开下述的附记:
(附记1)一种图像视角变换方法,其特征在于,所述图像视角变换方法包括:
基于文档图像的灰度图抽取多条直线;
将所述多条直线按照水平方向和垂直方向分类;
基于所述文档图像的二值图抽取多条文本行线;
将所述多条文本行线按照水平方向和垂直方向分类;
从抽取并分类后的所述直线以及所述文本行线中选择两条垂直线和两条水平线;
基于选择的所述两条垂直线和所述两条水平线所形成的方框计算变换矩阵;以及
使用所述变换矩阵对所述文档图像进行变换以获得视角变换后的图像。
(附记2)根据附记1,其中,基于所述文档图像的灰度图抽取多条直线,包括:
将所述文档图像进行变换而获得灰度图;
检测所述灰度图中的直线;
过滤掉检测到的所述直线中长度小于预设阈值的直线。
(附记3)根据附记1,其中,基于所述文档图像的二值图抽取多条文本行线,包括:
将所述文档图像进行变换而获得二值图;
将所述二值图中字符对应的区域进行扩展;
检测所述二值图的连通域;以及
基于所述连通域拟合出水平方向的文本行线。
(附记4)根据附记3,其中,基于所述文档图像的二值图抽取多条文本行线,还包括:
对于任意两条水平方向的文本行线,获取连接所述两条水平方向的文本行线中对应字符的连线;
计算每一条所述连线穿过其他水平方向的文本行线中所述对应字符的个数;
将穿过其他水平方向的文本行线中所述对应字符的个数最多的连线确定为垂直方向的文本行线。
(附记5)根据附记1,其中,所述文档图像被划分为一个或多个区域;
基于所述文档图像的二值图抽取多条文本行线包括:分别得到每个区域的水平方向的顶端文本行线和底端文本行线,以及每个区域的垂直方向的左端文本行线和右端文本行线。
(附记6)根据附记5,其中,基于所述文档图像的二值图抽取多条文本行线还包括:选择所述文档图像中面积最大的两个区域;将所述面积最大的两个区域中水平方向的顶端文本行线和底端文本行线以及垂直方向的左端文本行线和右端文本行线作为待使用的文本行线。
(附记7)根据附记1,其中,从抽取并分类后的所述直线以及所述文本行线中选择两条垂直线和两条水平线,包括:
按照使得所述两条垂直线和所述两条水平线形成的方框的面积最大为原则,选择所述两条垂直线和所述两条水平线。
(附记8)根据附记1,其中,基于选择出的所述两条垂直线和两条水平线所形成的方框计算变换矩阵,包括:
基于所述两条垂直线和所述两条水平线所形成的源方框,获得所述源方框四个顶点的坐标;
基于所述源方框四个顶点的坐标,按照均值或者长宽比计算目标方框四个顶点的坐标;
根据所述源方框四个顶点的坐标以及所述目标方框四个顶点的坐标确定所述变换矩阵。
(附记9)根据附记1,其中,使用所述变换矩阵对所述文档图像进行变换以获得视角变换后的图像,包括:
计算所述变换矩阵(H矩阵)的逆矩阵(H’矩阵);
对于目标图像的每个像素,使用所述逆矩阵确定该像素在作为源图像的所述文档图像中的坐标位置;以及
使用所述坐标位置对应的像素值填充所述目标图像中的所述像素。
(附记10)一种图像视角变换装置,其特征在于,所述图像视角变换装置包括:
直线抽取单元,其基于文档图像的灰度图抽取多条直线;
直线分类单元,其将所述多条直线按照水平方向和垂直方向分类;
文本行线抽取单元,其基于所述文档图像的二值图抽取多条文本行线;
文本行线分类单元,其将所述多条文本行线按照水平方向和垂直方向分类;
线选择单元,其从抽取和分类后的所述直线以及所述文本行线中选择出两条垂直线和两条水平线;
矩阵计算单元,其基于选择出的所述两条垂直线和所述两条水平线所形成的方框计算变换矩阵;以及
图像变换单元,其使用所述变换矩阵对所述文档图像进行变换以获得视角变换后的图像。
(附记11)根据附记10,其中,所述直线抽取单元包括:
灰度变换单元,其将所述文档图像进行变换而获得灰度图;
直线检测单元,其检测所述灰度图中的直线;
直线过滤单元,其过滤掉检测到的所述直线中长度小于预设阈值的直线。
(附记12)根据附记10,其中,所述文本行线抽取单元包括:
二值变换单元,其将所述文档图像进行变换而获得二值图;
区域扩展单元,其将所述二值图中字符对应的区域进行扩展;
连通域检测单元,其检测所述二值图的连通域;以及
文本行线拟合单元,其基于所述连通域拟合出水平方向的文本行线。
(附记13)根据附记12,其中,所述文本行线抽取单元还包括:
连线获取单元,其对于任意两条水平方向的文本行线,获取连接所述两条水平方向的文本行线的对应字符的连线;
字符数计算单元,其计算每一条所述连线穿过其他水平方向的文本行线的对应字符的个数;
文本行线确定单元,其将穿过其他水平方向的文本行线的对应字符的个数最多的连线确定为垂直方向的文本行线。
(附记14)根据附记10,其中,所述文档图像被划分为一个或多个区域;
所述文本行线抽取单元还用于:分别得到每个区域的水平方向的顶端文本行线和底端文本行线,以及每个区域的垂直方向的左端文本行线和右端文本行线。
(附记15)根据附记14,其中,所述文本行线抽取单元还用于:选择所述文档图像的面积最大的两个区域;以及将所述面积最大的两个区域的水平方向的顶端文本行线和底端文本行线以及垂直方向的左端文本行线和右端文本行线作为待使用的文本行线。
(附记16)根据附记10,其中,所述线选择单元用于:按照使得所述两条垂直线和两条水平线形成的方框的面积最大为原则,选择所述两条垂直线和所述两条水平线。
(附记17)根据附记10,其中,所述矩阵计算单元包括:
源坐标获得单元,其基于所述两条垂直线和两条水平线形成的源方框,获得所述源方框四个顶点的坐标;
目标坐标计算单元,其基于所述源方框四个顶点的坐标,按照均值或者长宽比计算目标方框四个顶点的坐标;
矩阵确定单元,其根据所述源方框四个顶点的坐标以及所述目标方框四个顶点的坐标确定所述变换矩阵。
(附记18)根据附记10,其中,所述图像变换单元包括:
逆矩阵计算单元,其计算所述变换矩阵(H矩阵)的逆矩阵(H’矩阵);
位置确定单元,其对于目标图像的每个像素,使用所述逆矩阵确定该像素在作为源图像的所述文档图像中的坐标位置;
像素填充单元,其使用所述坐标位置对应的像素值填充所述目标图像中的所述像素。
(附记19)一种电子设备,其配置有如附记10所述的图像视角变换装置。

Claims (10)

1.一种图像视角变换装置,其特征在于,所述图像视角变换装置包括:
直线抽取单元,其基于文档图像的灰度图抽取多条直线;
直线分类单元,其将所述多条直线按照水平方向和垂直方向分类;
文本行线抽取单元,其基于所述文档图像的二值图抽取多条文本行线;
文本行线分类单元,其将所述多条文本行线按照水平方向和垂直方向分类;
线选择单元,其从抽取和分类后的所述直线以及所述文本行线中选择出两条垂直线和两条水平线;
矩阵计算单元,其基于选择出的所述两条垂直线和所述两条水平线所形成的方框计算变换矩阵;以及
图像变换单元,其使用所述变换矩阵对所述文档图像进行变换以获得视角变换后的图像。
2.根据权利要求1所述的图像视角变换装置,其中,所述直线抽取单元包括:
灰度变换单元,其将所述文档图像进行变换而获得灰度图;
直线检测单元,其检测所述灰度图中的直线;
直线过滤单元,其过滤掉检测到的所述直线中长度小于预设阈值的直线。
3.根据权利要求1所述的图像视角变换装置,其中,所述文本行线抽取单元包括:
二值变换单元,其将所述文档图像进行变换而获得二值图;
区域扩展单元,其将所述二值图中字符对应的区域进行扩展;
连通域检测单元,其检测所述二值图的连通域;以及
文本行线拟合单元,其基于所述连通域拟合出水平方向的文本行线。
4.根据权利要求3所述的图像视角变换装置,其中,所述文本行线抽取单元还包括:
连线获取单元,其对于任意两条水平方向的文本行线,获取连接所述两条水平方向的文本行线的对应字符的连线;
字符数计算单元,其计算每一条所述连线穿过其他水平方向的文本行线的对应字符的个数;
文本行线确定单元,其将穿过其他水平方向的文本行线的对应字符的个数最多的连线确定为垂直方向的文本行线。
5.根据权利要求1所述的图像视角变换装置,其中,所述文档图像被划分为一个或多个区域;
所述文本行线抽取单元还用于:分别得到每个区域的水平方向的顶端文本行线和底端文本行线,以及每个区域的垂直方向的左端文本行线和右端文本行线。
6.根据权利要求5所述的图像视角变换装置,其中,所述文本行线抽取单元还用于:选择所述文档图像的面积最大的两个区域;以及将所述面积最大的两个区域的水平方向的顶端文本行线和底端文本行线以及垂直方向的左端文本行线和右端文本行线作为待使用的文本行线。
7.根据权利要求1所述的图像视角变换装置,其中,所述线选择单元用于:按照使得所述两条垂直线和两条水平线形成的方框的面积最大为原则,选择所述两条垂直线和所述两条水平线。
8.根据权利要求1所述的图像视角变换装置,其中,所述矩阵计算单元包括:
源坐标获得单元,其基于所述两条垂直线和两条水平线形成的源方框,获得所述源方框四个顶点的坐标;
目标坐标计算单元,其基于所述源方框四个顶点的坐标,按照均值或者长宽比计算目标方框四个顶点的坐标;
矩阵确定单元,其根据所述源方框四个顶点的坐标以及所述目标方框四个顶点的坐标确定所述变换矩阵。
9.根据权利要求1所述的图像视角变换装置,其中,所述图像变换单元包括:
逆矩阵计算单元,其计算所述变换矩阵的逆矩阵;
位置确定单元,其对于目标图像的每个像素,使用所述逆矩阵确定该像素在作为源图像的所述文档图像中的坐标位置;以及
像素填充单元,其使用所述坐标位置对应的像素值填充所述目标图像中的所述像素。
10.一种图像视角变换方法,其特征在于,所述图像视角变换方法包括:
基于文档图像的灰度图抽取多条直线;
将所述多条直线按照水平方向和垂直方向分类;
基于所述文档图像的二值图抽取多条文本行线;
将所述多条文本行线按照水平方向和垂直方向分类;
从抽取和分类后的所述直线以及所述文本行线中选择出两条垂直线和两条水平线;
基于选择的所述两条垂直线和所述两条水平线所形成的方框计算变换矩阵;以及
使用所述变换矩阵对所述文档图像进行变换以获得视角变换后的图像。
CN201610829031.7A 2016-09-18 2016-09-18 图像视角变换装置以及方法 Active CN107845068B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201610829031.7A CN107845068B (zh) 2016-09-18 2016-09-18 图像视角变换装置以及方法
US15/697,823 US20180082456A1 (en) 2016-09-18 2017-09-07 Image viewpoint transformation apparatus and method
JP2017174597A JP6904182B2 (ja) 2016-09-18 2017-09-12 画像視点変換装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610829031.7A CN107845068B (zh) 2016-09-18 2016-09-18 图像视角变换装置以及方法

Publications (2)

Publication Number Publication Date
CN107845068A true CN107845068A (zh) 2018-03-27
CN107845068B CN107845068B (zh) 2021-05-11

Family

ID=61620468

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610829031.7A Active CN107845068B (zh) 2016-09-18 2016-09-18 图像视角变换装置以及方法

Country Status (3)

Country Link
US (1) US20180082456A1 (zh)
JP (1) JP6904182B2 (zh)
CN (1) CN107845068B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829437A (zh) * 2019-02-01 2019-05-31 北京旷视科技有限公司 图像处理方法、文本识别方法、装置和电子系统
CN111405258A (zh) * 2020-04-30 2020-07-10 平安科技(深圳)有限公司 投影方法、装置、设备及计算机可读存储介质
CN113298709A (zh) * 2021-04-06 2021-08-24 广东省科学院智能制造研究所 一种基于几何变换原理的图像视角变换方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109444163B (zh) * 2018-08-24 2023-07-14 辽宁省交通规划设计院有限责任公司 获取透视畸变逆变换矩阵的系统
CN109941885A (zh) * 2019-03-07 2019-06-28 无锡顶视科技有限公司 一种基于伸缩臂的集装箱箱号抓拍和识别装置及其方法
US11557108B2 (en) * 2019-04-10 2023-01-17 Rakuten Group, Inc. Polygon detection device, polygon detection method, and polygon detection program
CN112733855B (zh) * 2020-12-30 2024-04-09 科大讯飞股份有限公司 表格结构化方法、表格恢复设备及具有存储功能的装置
CN113077478A (zh) * 2021-03-23 2021-07-06 苏州华兴源创科技股份有限公司 显示面板的对位方法、补偿方法、系统及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101267493A (zh) * 2007-03-16 2008-09-17 富士通株式会社 透视变形文档图像的校正装置和校正方法
US20100158411A1 (en) * 2008-12-18 2010-06-24 Xerox Corporation Method and system for utilizing transformation matrices to process rasterized image data
CN103955960A (zh) * 2014-03-21 2014-07-30 南京大学 一种基于单幅输入图像的图像视点变换方法
CN104504387A (zh) * 2014-12-16 2015-04-08 杭州华为数字技术有限公司 文本图像的校正方法和装置
CN105844275A (zh) * 2016-03-25 2016-08-10 北京云江科技有限公司 文本图像中文本行的定位方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101267493A (zh) * 2007-03-16 2008-09-17 富士通株式会社 透视变形文档图像的校正装置和校正方法
US20100158411A1 (en) * 2008-12-18 2010-06-24 Xerox Corporation Method and system for utilizing transformation matrices to process rasterized image data
CN103955960A (zh) * 2014-03-21 2014-07-30 南京大学 一种基于单幅输入图像的图像视点变换方法
CN104504387A (zh) * 2014-12-16 2015-04-08 杭州华为数字技术有限公司 文本图像的校正方法和装置
CN105844275A (zh) * 2016-03-25 2016-08-10 北京云江科技有限公司 文本图像中文本行的定位方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SHIJIAN LU 等: "Document image rectification using fuzzy sets and morphological operators", 《2004 INTERNATIONAL CONFERENCE ON IMAGE PROCESSING》 *
蒋智文: "视觉文档图像的矫正方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
马韶超 等: "一种集成的小型文档图像透视变形校正方法", 《模式识别与人工智能》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829437A (zh) * 2019-02-01 2019-05-31 北京旷视科技有限公司 图像处理方法、文本识别方法、装置和电子系统
CN109829437B (zh) * 2019-02-01 2022-03-25 北京旷视科技有限公司 图像处理方法、文本识别方法、装置和电子系统
CN111405258A (zh) * 2020-04-30 2020-07-10 平安科技(深圳)有限公司 投影方法、装置、设备及计算机可读存储介质
CN111405258B (zh) * 2020-04-30 2023-06-20 平安科技(深圳)有限公司 投影方法、装置、设备及计算机可读存储介质
CN113298709A (zh) * 2021-04-06 2021-08-24 广东省科学院智能制造研究所 一种基于几何变换原理的图像视角变换方法

Also Published As

Publication number Publication date
US20180082456A1 (en) 2018-03-22
JP2018045691A (ja) 2018-03-22
JP6904182B2 (ja) 2021-07-14
CN107845068B (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
CN107845068A (zh) 图像视角变换装置以及方法
KR101617681B1 (ko) 히스토그램들을 갖는 다중 층 연결 요소들을 사용하는 텍스트 검출
US9053361B2 (en) Identifying regions of text to merge in a natural image or video frame
US9171204B2 (en) Method of perspective correction for devanagari text
US9990561B2 (en) Identifying consumer products in images
US20130101170A1 (en) Method of image processing and device therefore
US8811751B1 (en) Method and system for correcting projective distortions with elimination steps on multiple levels
WO2019061658A1 (zh) 眼镜定位方法、装置及存储介质
US20150055857A1 (en) Text detection in natural images
US8897600B1 (en) Method and system for determining vanishing point candidates for projective correction
US20140003723A1 (en) Text Detection Devices and Text Detection Methods
WO2014092978A1 (en) Text image quality based feedback for ocr
US9916513B2 (en) Method for processing image and computer-readable non-transitory recording medium storing program
KR20110057536A (ko) 문자인식장치 및 그 제어방법
US10785452B2 (en) Identifying consumer products in images
US11017260B2 (en) Text region positioning method and device, and computer readable storage medium
US8913836B1 (en) Method and system for correcting projective distortions using eigenpoints
US9858481B2 (en) Identifying consumer products in images
KR101742115B1 (ko) 건물 인식을 위한 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법
JP6542230B2 (ja) 投影ひずみを補正するための方法及びシステム
US10049309B2 (en) Character recognition device, character recognition method and program
Giri Text information extraction and analysis from images using digital image processing techniques
Anthimopoulos et al. Multiresolution text detection in video frames
CN109685074B (zh) 一种基于Scharr算子的银行卡卡号行定位方法
JP2018010359A (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant