CN112560867B - 文本图像的矫正方法及装置、设备和介质 - Google Patents

文本图像的矫正方法及装置、设备和介质 Download PDF

Info

Publication number
CN112560867B
CN112560867B CN202011451692.3A CN202011451692A CN112560867B CN 112560867 B CN112560867 B CN 112560867B CN 202011451692 A CN202011451692 A CN 202011451692A CN 112560867 B CN112560867 B CN 112560867B
Authority
CN
China
Prior art keywords
image
camera
identified
determining
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011451692.3A
Other languages
English (en)
Other versions
CN112560867A (zh
Inventor
高敬乾
王欢
周骥
冯歆鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NextVPU Shanghai Co Ltd
Original Assignee
NextVPU Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NextVPU Shanghai Co Ltd filed Critical NextVPU Shanghai Co Ltd
Priority to CN202011451692.3A priority Critical patent/CN112560867B/zh
Publication of CN112560867A publication Critical patent/CN112560867A/zh
Priority to PCT/CN2021/135748 priority patent/WO2022121842A1/zh
Application granted granted Critical
Publication of CN112560867B publication Critical patent/CN112560867B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/247Aligning, centring, orientation detection or correction of the image by affine transforms, e.g. correction due to perspective effects; Quadrilaterals, e.g. trapezoids

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供一种文本图像的矫正方法,包括:获取双目相机倾斜拍摄得到的包括待识别对象的初始图像,双目相机包括第一相机和第二相机,第一相机和第二相机两者的光轴与待识别对象的放置面不垂直,初始图像包括第一相机倾斜拍摄得到的包括待识别对象的第一初始图像和第二相机倾斜拍摄得到的包括待识别对象的第二初始图像;确定待识别对象绕待识别对象上的一设定点旋转至与第一相机的光轴垂直所对应的旋转矩阵;基于第一初始图像和第二初始图像,确定包括待识别对象的3D图像;利用旋转矩阵,获取3D图像绕设定点旋转至与第一相机的光轴垂直所得到的旋转矫正图像;以及对旋转矫正图像进行展平矫正,得到最终矫正图像。

Description

文本图像的矫正方法及装置、设备和介质
技术领域
本申请涉及人工智能技术领域,特别涉及一种文本图像的矫正方法及装置、设备和介质。
背景技术
相关技术中在对诸如书籍或杂志之类的读物进行文字识别之前,可以对图像进行弯曲矫正,以克服因读物弯曲而影响文字识别的准确性的问题。但是,受到矫正算法本身的限制,对弯曲读物的文字识别效果仍有待提高。
在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
发明内容
根据本公开的一方面,提供一种文本图像的矫正方法,包括:获取双目相机倾斜拍摄得到的包括待识别对象的初始图像,双目相机包括第一相机和第二相机,第一相机和第二相机两者的光轴与待识别对象的放置面不垂直,初始图像包括第一相机倾斜拍摄得到的包括待识别对象的第一初始图像和第二相机倾斜拍摄得到的包括待识别对象的第二初始图像;确定待识别对象绕待识别对象上的一设定点旋转至与第一相机的光轴垂直所对应的旋转矩阵;基于第一初始图像和第二初始图像,确定包括待识别对象的3D图像;利用旋转矩阵,获取3D图像绕设定点旋转至与第一相机的光轴垂直所得到的旋转矫正图像;以及对旋转矫正图像进行展平矫正,得到最终矫正图像。
根据本公开的另一方面,提供一种电子电路,包括被配置为执行上述的矫正方法的步骤的电路。
根据本公开的另一方面,提供一种文本图像的矫正装置,包括:双目相机,被配置为倾斜拍摄包括待识别对象的初始图像,双目相机包括第一相机和第二相机,第一相机和第二相机两者的光轴与待识别对象的放置面不垂直,初始图像包括待识别对象的第一初始图像和包括待识别对象的第二初始图像,第一相机被配置为倾斜拍摄第一初始图像,第二相机被配置为倾斜拍摄第二初始图像;以及上述的电子电路。
根据本公开的另一方面,提供一种电子设备,包括:处理器;以及存储程序的存储器,程序包括指令,指令在由处理器执行时使处理器执行上述的矫正方法。
根据本公开的另一方面,提供一种存储程序的非暂态计算机可读存储介质,程序包括指令,指令在由电子设备的处理器执行时,致使电子设备执行上述的矫正方法。
附图说明
附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
图1是示出根据本公开示例性实施例的文本图像的矫正方法的流程图;
图2是示出根据本公开示例性实施例的文本图像的矫正装置的工作示意图;
图3是示出根据本公开示例性实施例的第一初始图像中的第一像素带和3D准线的示意图;
图4是示出根据本公开示例性实施例的对极几何原理示意图;
图5是示出根据本公开示例性实施例的双目视觉的原理示意图;
图6是示出根据本公开示例性实施例的3D准线、双目相机和待识别对象的位置几何关系示意图;
图7是示出根据本公开示例性实施例的确定的多条曲面直母线的示意图;
图8是示出根据本公开示例性实施例的确定的待识别对象的多个第一曲面采样点的示意图;
图9是示出根据本公开示例性实施例的最终矫正图像的示意图;
图10是示出能够应用于示例性实施例的示例性计算设备的结构框图。
具体实施方式
在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
诸如书籍或杂志之类的读物通常会有一定的排版,例如内容会分成不同的段落(例如包括上下的分段和左右的分栏等)。阅读这些读物时,人们通过视觉捕获视野中的图像,通过大脑来对图像中的文字进行段落划分。然而,如果是由机器来“阅读”这些读物,则不仅需要对图像中的文字进行文字识别,还要对这些文字进行段落划分,从而能够以正确的段落次序“阅读”读物中的文字。例如在将纸质书转换成电子书的应用中,或者在将图像中的文字转换成声音信号并输出该声音信号的应用中,可能会用到这种段落划分。在本公开中,“段落划分”是指将图像中的文字划分为成不同段落。上下的段落划分也可称为分段,而左右的段落划分也可称为分栏。
在本公开中,文本行是指相邻文字间距小于阈值间距的文字的序列,即连续的一行文字。相邻文字间距指的是相邻文字的对应位置的坐标之间的距离,例如相邻文字左上角坐标之间、右下角坐标之间或质心坐标之间的距离等。如果相邻文字间距不大于所述阈值间距,则可认为所述相邻文字连续,从而将其划分到同一文本行中。如果相邻文字间距大于所述阈值间距,则可认为所述相邻文字不连续(例如可能分别属于不同的段落或分别属于左右两栏),从而将其划分到不同的文本行中。所述阈值间距可以根据文字大小来设置,例如:字体大小大于四号(如三号、二号)的相邻文字设置的阈值间距大于字体大小为四号以下(如小四、五号)的相邻文字设置的阈值间距。
相关技术中,在对诸如书籍或杂志之类的读物进行文字识别之前,可以对图像进行弯曲矫正,以克服因读物弯曲而影响文字识别的准确性的问题。对图像进行弯曲矫正的具体过程可以为:采用矫正算法对弯曲曲面进行展平并插值,来解决图像弯曲问题。这种方法对垂直拍摄场景具有比较好的展平效果。但是,受到矫正算法本身的限制,在倾斜拍摄场景下,由于倾斜透视的原因,无法展平弯曲曲面,甚至得到更加扭曲的处理结果。
为了解决上述技术问题,本公开提供一种针对倾斜拍摄场景的文本图像的矫正方法。所述矫正方法通过确定待识别对象旋转至与双目相机中的第一相机的光轴垂直所对应的旋转矩阵以及待识别对象的3D图像。利用所确定的旋转矩阵和待识别对象的3D图像,能够得到待识别对象旋转至与第一相机的光轴垂直所对应的3D旋转矫正图像。对3D旋转矫正图像进行展平矫正,可以得到最终矫正图像。由于3D旋转矫正图像不存在倾斜透视问题,3D旋转矫正图像中的文本行是一条直线,因此,对3D旋转矫正图像进行展平矫正能够达到良好的展平效果,进而能够保证对待识别对象进行文字识别的准确性。
在本公开中,待识别对象可以是指图片或读物的待识别文字的当前页面等。
以下将结合附图对根据本公开实施例的文本图像的矫正方法进行进一步描述。
图1是示出根据本公开示例性实施例的文本图像的矫正方法的流程图。如图1所示,矫正方法可以包括:步骤S101、获取双目相机倾斜拍摄得到的包括待识别对象的初始图像,双目相机包括第一相机和第二相机,第一相机和第二相机两者的光轴与待识别对象的放置面不垂直,初始图像包括第一相机倾斜拍摄得到的包括待识别对象的第一初始图像和第二相机倾斜拍摄得到的包括待识别对象的第二初始图像;步骤S102、确定待识别对象绕待识别对象上的一设定点旋转至与第一相机的光轴垂直所对应的旋转矩阵;步骤S103、基于第一初始图像和第二初始图像,确定包括待识别对象的3D图像;步骤S104、利用旋转矩阵,获取3D图像绕设定点旋转至与第一相机的光轴垂直所得到的旋转矫正图像;步骤S105、对旋转矫正图像进行展平矫正,得到最终矫正图像。由此,由于3D旋转矫正图像不存在倾斜透视问题,3D旋转矫正图像中的文本行是一条直线,因此,对3D旋转矫正图像进行展平矫正能够达到良好的展平效果,进而能够保证对待识别对象进行文字识别的准确性。
根据一些实施例,双目相机可以是独立装置(例如双目照相机、双目视频摄像机、双目摄像头等),也可以包括在各类电子设备(例如移动电话、计算机、个人数字助理、阅读辅助设备、平板电脑、可穿戴设备等)中。
根据一些实施例,双目相机可以设置于用户的可穿戴设备或眼镜等设备上,从而第一初始图像和第二初始图像可以是由该双目相机拍摄的、用户手中所握持的读物的图像。因而,待识别对象可包含文字(包括各种国家的文字、数字、字符、标点符号等)、图片等内容。待识别对象例如可以为:护照、驾照、书籍、杂志等读物的待识别文字的当前页面,包括文本区域。文本区域对应于文字所在的区域。在这种情况下,待识别对象的放置面即为读物的放置面。
根据一些实施例,双目相机中的第一相机和第二相机的光轴可以为平行设置。
第一相机和第二相机拍摄所得到的第一初始图像和第二初始图像可以均包括完整的待识别对象,以能够对整个待识别对象进行展平,便于后续处理,例如进行文字识别。
根据一些实施例,双目相机拍摄得到第一初始图像和第二初始图像也可以是经过了一些预处理的图像,所述预处理例如可以但不限于包括以下处理中的至少其中之一:畸变矫正、双目矫正、灰度处理和模糊去除。
图像畸变可以包括径向畸变和切向畸变,其中,径向畸变的产生原因是光线在远离摄像头中心的地方比靠近中心的地方更加弯曲。切向畸变的产生是由于摄像头制造上的缺陷使得摄像头本身与图像平面不平行而产生的。根据一些实施例,可以对第一初始图像和第二初始图像进行畸变矫正,从而能够消除因摄像镜头因素造成的失真。
对第一初始图像和第二初始图像分别进行的畸变矫正可以为,对第一初始图像和第二初始图像中的每一个像素进行畸变矫正。
根据一些实施例,畸变矫正公式可以为:
其中,为已经完成畸变矫正的像素坐标,/>为未完成畸变矫正的像素坐标, (cx,cy)为图像的中心坐标,α为径向畸变与切向畸变的平衡因子,k1、k2、k3、p1和p2为相机的畸变参数。
可以理解,本公开中的双目相机的第一相机和第二相机的相关畸变参数可以不同,降低对设备精度的需求,并且通过分别对第一相机和第二相机的相关畸变参数的矫正,能够消除第一相机和第二相机因摄像镜头原因造成的失真。
根据一些实施例,可以对第一初始图像和第二初始图像进行双目矫正。由此,可以使三维空间中的同一点被投射到第一初始图像和第二初始图像中位置对应的同一水平扫描线上,便于实现后续第一初始图像和第二初始图像中对应像素点的匹配。
在一个示例性实施例中,可以先对第一初始图像和第二初始图像分别进行畸变矫正,再对畸变矫正后的第一初始图像和第二初始图像进行双目矫正,从而能够进一步提高曲面矫正的效果。
根据一些实施例,从待识别对象的一侧边到相对的另一侧边,待识别对象的弯曲形状可以大致相同。可以理解的是,本公开的技术方案也适用于从待识别对象的一侧边到相对的另一侧边,待识别对象的弯曲形状不相同的场景。
根据一些实施例,如图2所示,在从待识别对象的一侧边到相对的另一侧边,待识别对象的弯曲形状大致相同的情况下,双目相机所包括的第一相机101和第二相机102可以设置在待识别对象100的所述一侧边所在的一侧,由此便于确定能够表征待识别对象弯曲形状的3D准线,具体的原理将在以下内容中描述。需要说明的是,图2中示意的待识别对象100为平面,仅是为了便于示意,实际上待识别对象100为曲面。
本公开通过设置双目相机,可以基于双目视觉来确定包括待识别对象的3D图像,并且在双目相机倾斜角度未知的情况下,也可以基于双目视觉来确定待识别对象绕待识别对象上的一设定点旋转至与第一相机的光轴垂直所对应的旋转矩阵。
以下首先对双目视觉的原理进行说明。
如图3所示,双目视觉的原理可以为:第一相机的第一光心Ol和第二相机的第二光心Or在x轴上的间隔距离为T。图3中长为Ll和Lr的两条线段分别表示第一相机的像平面和第二相机的像平面,第一光心Ol和第二光心Or到相应的像平面的最短距离分别为焦距fl和fr。第一相机拍摄得到包括待识别对象的第一初始图像,第二相机拍摄得到包括待识别对象的第二初始图像,对于三维空间中的一点P,其在第一相机上的成像点(可以对应一个像素)为PL,在第二相机上的成像点(可以对应一个像素)为PR。PL和PR与各自像平面的左边缘的距离分别为xl和xr。可以定义点P在第一相机和第二相机中的成像视差为xl-xr或者是xr-xl。在双目相机标定和匹配后,双目相机的内参fl、fr,结构参数T以及xl、xr都能够获得之后,可以得到:
在fl=fr=f的情况下,
根据上述公式可以计算得到点P与第一光心Ol和第二光心O r所确定的直线之间的距离垂直Zc(即深度)。
根据一些实施例,在摄像机的倾斜角度(摄像机的光轴和与待识别对象的放置面垂直的垂线之间的夹角)未知的情况下,步骤S102中,确定旋转矩阵可包括:基于第一初始图像和第二初始图像,以及双目相机的内参,确定待识别对象的至少两条3D准线;基于至少两条3D准线和设定点,确定旋转矩阵。由此,在第一相机的倾斜角度未知的情况下,能够基于3D准线确定旋转矩阵,无需确定整个第一初始图像的深度,有效减小了计算量。
以下内容中将描述如何基于第一初始图像和第二初始图像,以及双目相机的内参,确定待识别对象的至少两条3D准线。
根据一些实施例,确定至少两条3D准线可以包括:确定第一初始图像中的至少两条第一像素带;确定第二初始图像中与至少两条第一像素带各自位置对应的至少两条第二像素带;基于位置对应的第一像素带和第二像素带,以及双目相机的内参,确定位置对应的第一像素带和第二像素带相应的深度信息;以及基于位置对应的第一像素带和第二像素带以及相应的深度信息,确定3D准线。由此,可以通过位置对应的第一像素带和第二像素带确定3D准线,避免了对第一初始图像和第二初始图像进行全图范围的像素点匹配,减少了计算量。
以下将对如何确定位置对应的第一像素带和第二像素带进行说明。
根据一些实施例,可以针对第一像素带中的每一个像素点,确定其在第二初始图像中的匹配像素点。可以确定第二初始图像中分别与第一像素带中的所有像素点匹配的多个像素点所确定的像素带即为与第一像素带位置对应的第二像素带。
根据一些实施例,可以基于对极几何原理,提升第一初始图像与第二初始图像中对应像素带的匹配效率。
如图4所示,对极几何原理可以理解为:第一相机的第一光心为Ol和第二相机的第二光心为Or,对于三维空间中的点M,其在第一初始图像和第二初始图像中对应的投影像素点必然处于点M、第一光心Ol和第二光心Or所确定的对极平面MOlOr上。如图4所示,点M在第一初始图像上的成像点为Ml,在第二初始图像上的成像点为Mr,对极平面MOlOr与第一初始图像相交于第一初始图像中经过点Ml的第一极线Ll,对极平面MOlOr与第二初始图像相交于第二初始图像中经过点Mr的第二极线Lr。在点M未知的情况下,已知第一初始图像上的像素点Ml,可以基于对极几何原理确定像素点Ml在第二初始图像上的对应的像素点Mr在第二初始图像的第二极线Lr上,并基于像素点Ml和基础矩阵F,确定第二极线Lr。具体的计算公式为:
Lr=FMl
其中,F表示基础矩阵,基础矩阵F可以根据第一相机的内参、第二相机的内参和第一相机与第二相机之间的外参确定。
通过对极几何原理,建立了第一初始图像和第二初始图像中针对于三维空间中同一点的对应成像点之间的约束关系。由此,通过将第一初始图像和第二初始图像中对应像素点的匹配过程由二维图像空间的搜索简化为在对应极线范围内的一维搜索,从而能够提升匹配的效率和准确性。
根据一些实施例,在第一像素带的长度延伸方向与第一相机的光心和第二相机的光心两者的连线在像平面所在平面上的正投影平行的情况下,确定位置与第一像素带对应的第二像素带的方法具体可以为:根据第一像素带的一条长边上的一个像素点可以确定第二初始图像中的极线,可以确定第二初始图像中的该极线与第一像素带的该条边位置对应。类似地,可以确定第二初始图像中与第一像素带的另一条长边位置对应的另一极线,从而能够基于这两条极线确定第二初始图像中与第一像素带位置对应的第二像素带。
根据一些实施例,上述基于对极几何原理的像素点匹配可以通过OpenCV、Matlab或其他软件产品实现,在此不作限定。
根据一些实施例,确定第二初始图像中与至少两条第一像素带各自位置对应的至少两条第二像素带并不局限于上述一种方式,例如也可以利用神经网络实现。可以通过神经网络确定第一像素带中的所有像素点在第二初始图像中的位置对应的匹配像素点,由所有匹配像素点所确定的像素带即为与第一像素带位置对应的第二像素带。
在一个示例性实施例中,利用神经网络的对应像素点匹配方法可以理解为,将第一初始图像中的已知的第一像素点的特征和第二初始图像中可能与第一像素点匹配的第二像素点的特征输入神经网络。其中,可能与第一像素点匹配的第二像素点可以在第二初始图像中的一限定范围内确定,也可以在第二初始图像中的整个范围内确定。神经网络响应于输入第一像素点的特征和第二像素点的特征,可以输出用于确定第一像素点和该第二像素点的匹配程度的输出结果。通过比较每一个可能与第一像素点匹配的第二像素点与第一像素点的匹配程度,可以确定在第二初始图像中与第一像素点匹配的对应像素点。
根据一些实施例,可以通过确定第二初始图像中与第一像素带的一条边(例如一条长边)上的多个第一像素点分别匹配的多个第二像素点,基于多个第二像素点可以拟合得到第二初始图像中与该条边位置对应的一条线。类似地,可以确定第二初始图像中与第一像素带的另一条边(例如另一条长边)位置对应的另一线,从而能够基于这两条线确定第二初始图像中与第一像素带位置对应的第二像素带。
根据一些实施例,利用神经网络的对应点匹配方法可以通过训练得到的双目匹配神经网络实现,其中,所述双目匹配神经网络可以包括以下网络中的至少一种:CNN(Convolutional Neural Networks,卷积神经网络)、DNN(Deep Neural Network,深度神经网络)或RNN(Recurrent Neural Network,循环神经网络)等。所述双目匹配网络可以包括所述CNN、DNN和RNN等网络中的一种网络,也可以包括所述CNN、DNN和RNN等网络中的至少两种网络。
可以理解,利用神经网络确定第二像素带的方法并不局限于上述方法,在此不作限定。
可以理解,确定第二初始图像中与至少两条第一像素带各自位置对应的至少两条第二像素带的方法并不限于上述两种方法,也可以采用其他方法,在此不作限定。
根据一些实施例,在第一初始图像中确定的至少两条像素带可以互相平行,由此可以减少计算量。根据另一些实施例,在第一初始图像中确定的至少两条像素带也可以互相不平行,在此不作限定。
在确定了位置对应的第一像素带和第二像素带之后,根据一些实施例,可以根据双目视觉原理确定位置对应的第一像素带和第二像素带相应的深度信息。具体的双目视觉的原理已经在上文进行了说明,在此不再赘述。
在确定了位置对应的第一像素带和第二像素带相应的深度信息后,可以进一步地确定待识别对象的两条3D准线。
根据一些实施例,所确定的至少两条3D准线可以互相平行。根据另一些实施例,所确定的至少两条3D准线中的两条或多条可以不平行。
在图5示意的示例性实施例中,可以确定第一初始图像中的两条第一像素带,即第一像素带301和另一第一像素带302。基于在第一初始图像中确定的两条第一像素带,在第二初始图像中确定与该两条第一像素带各自位置对应的两条第二像素带。基于位置对应的第一像素带和第二像素带,以及双目相机的内参,可以确定位置对应的第一像素带和第二像素带相应的深度信息。基于位置对应的第一像素带和第二像素带以及相应的深度信息,可以在第一像素带301和第一像素带302中分别确定3D准线1020和3D准线1030。由此,能够基于两条第一像素带和对应的两条第二像素带快速确定两条3D准线。
需要说明的是,图5中所示的3D准线1020和3D准线1030包含深度信息,图5中3D准线1020和3D准线1030为直线仅是为了便于示意,实际上3D准线1020和3D准线1030为曲线。图5中示意的两条3D准线1020和1030互相平行。需要说明的是,这两条3D准线也可以不平行。可以理解,也可以确定第一初始图像中的三条或三条以上第一像素带,以及第二初始图像中与该三条或三条以上第一像素带各自位置对应的三条或三条以上第二像素带,从而能够确定三条或三条以上3D准线,在此不作限定。
根据一些实施例,3D准线可以为基于位置对应的第一像素带的中轴线及其深度信息和第二像素带的中轴线及其深度信息而确定。由此,能够简单快速地确定3D准线。具体地,确定3D准线的方法可以为:确定位置对应的第一像素带和第二像素带中像素点的坐标值。分别采样位于第一像素带的中轴线的位置对应的多个采样点和第二像素带的中轴线的位置对应的多个采样点,利用上述双目视觉原理计算上述多个采样点的深度值,以获得每个采样点的三维坐标。将对多个采样点的三维坐标进行拟合后得到的结果确定为3D准线。
根据一些实施例,第一像素带的宽度和第二像素带的宽度均可以小于第一初始图像宽度的一半。由此,能够实现至少两条第一像素带不交叠,进而能够保证在不同的第一像素带中确定的3D准线互不交叉。另外,还能够使确定的至少两条3D准线能够表征待识别对象的弯曲形状,进而能够提高后续的弯曲矫正效果。
根据一些实施例,至少两条第一像素带可以在第一初始图像的中轴线的两侧均有分布。由此,通过在第一初始图像中的中轴线两侧的区域内分别确定3D准线,使确定的至少两条3D准线能够表征待识别对象的位于中轴线两侧区域的弯曲形状,进而能够提高后续的弯曲矫正效果。
根据一些实施例,可以在第一初始图像中的每一个第一像素带中各确定一条3D准线。根据另一些实施例,也可以在第一初始图像中的每一个第一像素带中各确定两条及以上3D准线。
根据一些实施例,至少两条3D准线可沿所述待识别对象的弯曲方向延伸。由此,基于3D准线能够表征待识别对象的弯曲形状,能够提高后续的弯曲矫正效果。
根据一些实施例,至少两条3D准线可以为大致与第一像素带的长边平行。
需要说明的是,本公开对确定的至少两条3D准线的数量、分布、形状、相互关系均不作限定,只要所确定的3D准线能够表征待识别对象的弯曲形状即可,均能够实现本公开的技术方案,在此不作限定。
可以理解的,也可以基于整个第一初始图像和整个第二初始图像确定第一初始图像中像素点在第二初始图像中位置对应的像素点;基于第一初始图像和第二初始图像中位置对应的像素点,以及双目相机的内参,确定位置对应的像素点的深度信息;以及基于位置对应的像素点以及相应的深度信息,确定至少两条3D准线。在这种情形下,可以基于对极几何原理、神经网络等方法中的一种确定在第一初始图像和第二初始图像中位置对应的像素点,具体的实现方法可以参见上面内容,在此不再赘述。可以基于双目视觉原理确定第一初始图像和第二初始图像中位置对应的像素点的深度信息,具体的实现方法可以参见上面内容,在此不再赘述。
可以理解的,也可以首先计算整个待识别对象的深度信息,再基于整个第一初始图像和第二初始图像确定一条包含深度信息的线作为3D准线。
在确定至少两条3D准线之后,在双目相机倾斜角度未知的情况下,可以基于至少两条3D准线,确定待识别对象绕待识别对象上的一设定点旋转至与第一相机的光轴垂直所对应的旋转矩阵。
根据一些实施例,根据至少两条3D准线以及设定点,确定旋转矩阵包括:计算至少两条3D准线中的每一条的平均深度;以及基于至少两条3D准线的平均深度和设定点,确定旋转矩阵。由此,能够简化计算。
根据一些实施例,设定点可以为与第一相机的光轴平行的直线和待识别对象的交点,并且第一相机和第二相机的光心的连线的中点位于与第一相机的光轴平行的所述直线(为便于描述,将该直线定义为中垂线)上,从而能够简化确定旋转矩阵的计算。
可以理解,设定点也可以为待识别对象上的其他特定点,在此不作限定。
参见图6所示,以与第一相机的光轴平行的中垂线和待识别对象的交点Q作为设定点,第一相机和第二相机的光心的连线的中点位于与第一相机的光轴平行的所述中垂线上,基于至少两条3D准线以及设定点,确定旋转矩阵具体的原理可以为:
图6中仅示出两条准线:第一准线1020和第二准线1030,由几何关系可得:
基于上述方程组可解得:
其中,h1为第一准线1020的平均深度,h2为第二准线1030的平均深度。d1为第一准线1020的深度方向与中点直线之间的距离,d2为第二准线1030的深度方向与中点直线之间的距离。d1和d2可以基于所确定的3D准线与双目相机之间的位置关系确定。h0为设定点的深度,旋转矩阵R为:
通过上述方法,可以在第一相机的倾斜角度α未知的情况下,计算得到待识别对象绕待识别对象上的一设定点旋转至与第一相机的光轴垂直所对应的旋转矩阵。
可以理解的是,如果第一相机的倾斜角度α已知,则可以直接计算得到旋转矩阵R。在这种情况下,可以根据双目视觉原理计算交点Q在相机坐标系中的深度,具体的方法已在上面内容中描述。
在确定旋转矩阵之后,可以执行步骤S103、基于第一初始图像和第二初始图像,确定包括待识别对象的3D图像。需要说明的是,本公开不限定步骤S102和步骤S103的执行顺序,步骤S102和步骤S103也可以同步执行。
根据一些实施例,步骤S103可以包括:基于至少两条3D准线,确定多条曲面直母线;以及至少基于多条曲面直母线和至少两条3D准线,确定多个第一曲面采样点以及每一第一曲面采样点的三维坐标,其中,3D图像由所述多个第一曲面采样点来表示。由此,能够基于曲面直母线和至少两条3D准线来确定待识别对象的3D图像的多个第一曲面采样点,并通过多个第一曲面采样点来表示待识别对象的3D图像,从而能够简化3D图像的确定步骤,减少计算量。在图7所示的示例中,示意了确定的多条曲面直母线201。在图8所示的示例中,示意了确定的多个第一曲面采样点202。
需要说明的是,图7和图8中所示的3D准线1020和3D准线1030包含深度信息,3D准线1020和3D准线1030为直线仅是为了便于示意,实际上3D准线1020和3D准线1030为曲线。
根据相关技术,曲面可由曲面直母线移动扫过的轨迹重建,直母线存在于曲面上,并且是直线。因此,上述步骤S103通过多个第一曲面采样点可以拟合得到待识别对象的3D图像。
步骤S103中可以直接利用步骤S102中确定的3D准线,以减少计算量。可以理解的是,在先执行步骤S103时,步骤S102也可以直接利用步骤S103中确定的3D准线。
可以理解的是,本公开中也可以通过其它方法来确定待识别对象的3D图像,并不局限于上述一种方式。
在确定待识别对象的3D图像和待识别对象绕待识别对象上的一设定点旋转至与第一相机的光轴垂直所对应的旋转矩阵之后,可以执行步骤S104、利用所述旋转矩阵,获取3D图像绕设定点旋转至与第一相机的光轴垂直所得到的旋转矫正图像。
根据一些实施例,步骤S104可以包括:基于多个第一曲面采样点中的每一第一曲面采样点的深度、设定点的深度,利用旋转矩阵确定多个第一曲面采样点各自相对设定点旋转后所得到的多个第二曲面采样点。在这种情况下,旋转矫正图像可以由多个第二曲面采样点来表示。通过多个第二曲面采样点可以拟合得到待识别对象的3D旋转矫正图像。
设定点的深度可以采用上面内容中描述的方法来获取。第一曲面采样点为基于曲面直母线和3D准线而确定,其深度也可以基于曲面直母线和3D准线来获得。
上述技术方案中,通过确定待识别对象的多条曲面直母线,并基于所确定的多条曲面直母线和至少两条所述3D准线来确定待识别对象的3D图像,进而能够基于旋转矩阵和3D图像来确定待识别对象旋转至与第一相机的光轴垂直所得到的3D旋转矫正图像,以克服倾斜拍摄场景下存在的倾斜透视问题。
根据一些实施例,至少两条3D准线可以包括第一3D准线和第二3D准线。下面将以第一3D准线和第二3D准线为例,来具体描述如何基于两条3D准线来确定曲面的曲面直母线。可以理解的是,至少两条3D准线中的任意两条均可以采用下面的方法来确定相应的曲面直母线。
根据一些实施例,确定多条曲面直母线可以包括:对第一3D准线进行采样,得到n个第一离散点;对第二3D准线进行采样,得到N个第二离散点,其中,n和N为正整数,并且N>n;针对n个第一离散点中的每一个,根据预设规则从N个第二采样点中确定其中一个第二离散点为该第一离散点的最优对应离散点,其中,第一3D准线的通过该第一离散点的法向量和第二3D准线的通过该最优对应离散点的法向量一致;以及基于n个第一离散点以及相应的最优对应离散点,确定所述多条曲面直母线。
根据一些实施例,针对n个第一离散点中的每一个,根据预设规则从N个第二采样点中确定其中一个第二离散点为该第一离散点的最优对应离散点可以包括:确定第二3D准线的与该一离散点对应的最优对应范围,最优对应范围包括N个第二离散点中的至少一个第二离散点;计算该第一离散点与相应最优对应范围中的每一个第二离散点之间的代价函数;基于代价函数,从相应的最优对应范围中确定其中一个第二离散点为该第一离散点对应的最优对应离散点。由此,通过使用自适应搜索范围,搜索的是第二3D准线上的最优对应离散点(即第二3D准线离散点的下标索引),而不是弧长离散值,不需要设置搜索梯度范围,提高了运算速度。
在示例中,第一离散点和第二离散点两者可以但不局限于为以弧长为参数的离散点,从而第一3D准线和第二3D准线两者可以表示为以弧长为参数的3D离散点集合。一个弧长参数值可以对应3D准线上唯一一个3D坐标。
根据一些实施例,可以基于第一3D准线的像素坐标,确定第一3D准线的弧长参数公式C0(t),具体的转换方法为现有技术,在此不再详述。同样地,可以基于第二3D准线的像素坐标,确定第二3D准线的弧长参数公式C1(s)。
根据一些实施例,可以先将第一3D准线C0(t)和第二3D准线C1(s)离散化为相同数量(记为N)的离散点。再将C0(t)降采样K倍,记录其采样位置索引为Ui(约N/K个元素)。然后寻找最优离散下标(即C1(s)离散化后的位置索引)的对应关系,表示如下:j=f(Ui)。
根据一些实施例,确定C1(s)中的与C0(t)所对应的最优对应离散点,其所利用的所述代价函数可以为:
上述公式中形式为(a,b,c)的表达式表示三个矢量的混合积,即(a,b,c)=a╳b·c;表示第一条3D准线离散化并降采样K倍后的第Ui个弧长参数值,/>表示第二条3D准线C1(s)离散化后第f(Ui)个弧长参数值。/>表示第一条准线离散化后并降采样K倍后第Ui个曲线坐标,/>表示第二条准线离散化后第f(Ui)个曲线3D坐标。
根据一些实施例,可以首先计算候选中心点下标j=f(Ui-1)+Ui-Ui-1,则搜索的下标范围(即最优对应范围)可以为:[f(Ui-1)+1,f(Ui-1)+2(Ui-Ui-1)]。由此,可以通过设置搜索步长,在保证范围的同时,减少搜索路径数目,而性能基本保持不变。
需要说明的是,确定曲面直母线的方式并不局限于所述一种,例如,也可以分别计算第一3D准线的n个第一离散点集合各自对应的切面法向量和切向量,以及第二3D准线的N个第二离散点集合各自对应的切面法向量和切向量,可以利用同一直母线上法向量的一致性原则确定曲面直母线方程。换言之,两条3D准线之间的法向量相等的两个离散点是候选最优对应点,这两个离散点间的连线是候选直母线。所以,可通过离散点间的法向量的相似程度以及离散点变化快慢来计算曲面直母线。
根据一些实施例,步骤S105、对所述旋转矫正图像进行展平矫正,得到最终矫正图像可以包括:将旋转矫正图像正投影至第一相机的像平面上,得到映射图像;以及对映射图像进行插值,得到最终矫正图像。由于3D旋转矫正图像不存在倾斜透视问题,文本行是一条直线,因此,通过对3D旋转矫正图像进行正投影和调整间距,能够达到展平弯曲曲面的目的,进而能够保证对待识别对象进行文字识别的准确性。在图9所示的示例中,示意了所得到的最终矫正图像,从图中可以看出最终矫正图像中的文本行位于一条直线上。图9中右下角的黑白条纹图形为边界值插值结果,不具有实际意义。
根据一些实施例,对映射图像进行插值,得到最终矫正图像可以包括:针对映射图像,计算沿预设方向相邻的两个像素之间的3D距离;以及基于3D距离,沿预设方向对映射图像进行插值,得到最终矫正图像。由于经过旋转和正投影后,一致性弯曲的曲面只在Xc0cZc平面内有隆起或者凹陷。因此,可以沿Xc坐标轴进行插值,调整像素之间的距离,由此来进行展平矫正,具有容易实现、计算量小等优点。
在示例性实施例中,可以获取中间一条与Xc坐标轴平行的直线的3D坐标,计算相邻像素点的3D距离作为两个像素的新间距。可以利用新间距进行2D格点插值,得到插值图像(即,最终矫正图像)。在示例性实施例中,2D格点可以采用线性插值来完成:(1-a)*P1+a*P2。其中,P1和P2表示相邻的两个2D离散的坐标以及像素值,a是要插入的像素点(整数格点)和P1的距离,占P1和P2间距离的比例。可以理解的是,也可以采用其它插值方法来进行图像插值,例如,最近邻插值、双平方插值、双立方插值等,在此不作限定。
本公开的技术方案具有以下优点:
本公开可以用于解决倾斜拍摄下的一致性弯曲书页问题。该一致性弯曲在书本等文本载体的拍摄中是典型场景。而现有的展平算法在倾斜透视拍摄中无法有效展平。本公开在倾斜透视拍摄能够有效展平的原因是:在摊开的书本每个字的正上方向下看,文本行是一条直线,故通过将待识别对象旋转至与第一相机的光轴垂直,并正投影至第一相机的像平面,然后调整像素之间的间距,可达到展平的目的;
现有展平算法在确定曲面直母线时,需要设置弧长对应函数的斜率区间。但在倾斜视角下,最短路径上弧长对应函数的斜率范围非常大,为保证涵盖该斜率范围,计算量非常大。而本公开将弧长对应关系转化为下标对应关系,根据当前状态自适应设置搜索范围,计算量小。
本公开不需要对曲面进行展平,而且因为倾斜透视的问题,现有的曲面展平算法不能实现曲面展平。而本公开采用待识别对象的多个曲面采样绕设定点旋转至与第一相机的光轴垂直,然后投影到像平面的方法,计算量小,并且能够解决倾斜透视问题。
根据本公开的另一方面,提供一种电子电路,包括:被配置为执行根据如上所述的文本图像的矫正方法的步骤的电路。
根据本公开的另一方面,提供一种文本图像的矫正装置,包括:双目相机,被配置为倾斜拍摄包括待识别对象的初始图像,双目相机包括第一相机和第二相机,第一相机和第二相机两者的光轴与待识别对象的放置面不垂直,初始图像包括待识别对象的第一初始图像和包括待识别对象的第二初始图像,第一相机被配置为倾斜拍摄第一初始图像,第二相机被配置为倾斜拍摄第二初始图像;以及如上的电子电路。
根据一些实施例,如图2所示,所述矫正装置还可以包括:支架200和平板300。其中,待识别对象100放置在平板300上,双目相机的第一相机101和第二相机102均固定装配在支架200上。
在示例性实施例中,从待识别对象的一侧边到相对的另一侧边,待识别对象的弯曲形状可以大致相同。双目相机可以设置在待识别对象的其中一侧边所在的一侧,从而第一初始图像和第二初始图像确定的至少两条3D准线能够表征待识别对象的弯曲形状。
根据本公开的另一方面,提供一种电子设备,包括:处理器;以及存储程序的存储器,程序包括指令,指令在由处理器执行时使处理器执行根据上述的矫正方法。
根据本公开的另一方面,提供一种存储程序的非暂态计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行上述的矫正方法。
图10是示出根据本公开的示例性实施例的电子设备的示例的框图。要注意的是,图10所示出的结构仅是一个示例,根据具体的实现方式,本公开的电子设备可以仅包括图10所示出的组成部分中的一种或多个。
电子设备2000例如可以是通用计算机(例如膝上型计算机、平板计算机等等各种计算机)、移动电话、个人数字助理。根据一些实施例,电子设备2000可以是视障辅助设备。
电子设备2000可被配置为拍摄图像,对所拍摄的图像进行处理,并且响应于所述处理所获得的数据而提供声音提示。例如,电子设备2000可被配置为拍摄图像,对该图像进行文字检测和/或识别以获得文字数据,将文字数据转换成声音数据,并且输出声音数据供用户聆听。
根据一些实施方式,所述电子设备2000可以被配置为包括眼镜架或者被配置为能够可拆卸地安装到眼镜架(例如眼镜架的镜框、连接两个镜框的连接件、镜腿或任何其他部分)上,从而能够拍摄到近似包括用户的视野的图像。
根据一些实施方式,所述电子设备2000也可被安装到其它可穿戴设备上,或者与其它可穿戴设备集成为一体。所述可穿戴设备例如可以是:头戴式设备(例如头盔或帽子等)、可佩戴在耳朵上的设备等。根据一些实施例,所述电子设备可被实施为可附接到可穿戴设备上的配件,例如可被实施为可附接到头盔或帽子上的配件等。
根据一些实施方式,所述电子设备2000也可具有其他形式。例如,电子设备2000可以是移动电话、通用计算设备(例如膝上型计算机、平板计算机等)、个人数字助理,等等。电子设备2000也可以具有底座,从而能够被安放在桌面上。
根据一些实施方式,所述电子设备2000作为视障辅助设备可以用于辅助阅读,在这种情况下,所述电子设备2000有时也被称为“电子阅读器”或“阅读辅助设备”。借助于电子设备2000,无法自主阅读的用户(例如视力障碍人士、存在阅读障碍的人士等)可以采用类似阅读姿势的姿势即可实现对常规读物(例如书本、杂志等)的“阅读”。在“阅读”过程中,所述电子设备2000可以拍摄图像,获取包括待识别对象的初始图像。所述电子设备2000还可以对所述初始图像进行弯曲矫正,得到最终矫正图像,然后对所述最终矫正图像中的文本区域的文字进行版面分析、文字检测和文字识别(例如利用光学文字识别OCR方法),以获得文字数据,克服文本弯曲对识别待识别对象中的文字的影响,提高文字识别效率和准确性。然后可以将文字数据转换成声音数据,并且通过扬声器或耳机等声音输出设备输出所述声音数据供用户聆听。
电子设备2000可以包括第一相机101和第二相机102,用于获取图像。第一相机101和第二相机102可以包括但不限于摄像头或照相机等,被配置为获取包括待识别对象的初始图像。电子设备2000还可以包括电子电路2100,所述电子电路2100包括被配置为执行如前所述的方法的步骤(例如图1和图3的流程图中所示的方法步骤)的电路。电子设备2100还可以包括文字识别电路2005,所述文字识别电路2005被配置为对所述初始图像中待识别对象的文字区域的文字进行文字检测和/或识别(例如OCR处理),从而获得文字数据。所述文字识别电路2005例如可以通过专用芯片实现。电子设备2000还可以包括声音转换电路2006,所述声音转换电路2006被配置为将所述文字数据转换成声音数据。所述声音转换电路2006例如可以通过专用芯片实现。电子设备2000还可以包括声音输出电路2007,所述声音输出电路2007被配置为输出所述声音数据。所述声音输出电路2007可以包括但不限于耳机、扬声器、或振动器等,及其相应驱动电路。
根据一些实施方式,所述电子设备2000还可以包括图像处理电路2008,所述图像处理电路2008可以包括被配置为对图像进行各种图像处理的电路。图像处理电路2008例如可以包括但不限于以下中的一个或多个:被配置为对图像进行降噪的电路、被配置为对图像进行去模糊化的电路、被配置为对图像进行几何矫正的电路、被配置为对图像进行特征提取的电路、被配置为对图像中的对象进行对象检测和/或识别的电路、被配置为对图像中包含的文字进行文字检测的电路、被配置为从图像中提取文本行的电路、被配置为从图像中提取文字坐标的电路、被配置为从图像中提取对象框的电路、被配置为从图像中提取文本框的电路、被配置为基于图像进行版面分析(例如段落划分)的电路,等等。
根据一些实施方式,电子电路2100还可以包括文字处理电路2009,所述文字处理电路2009可以被配置为基于所提取的与文字有关的信息(例如文字数据、文本框、段落坐标、文本行坐标、文字坐标等)进行各种处理,从而获得诸如段落排序、文字语义分析、版面分析结果等处理结果。
上述的各种电路(例如文字识别电路2005、声音转换电路2006、声音输出电路2007、图像处理电路2008、文字处理电路2009、电子电路2100中的一个或多个可以使用定制硬件,和/或可以用硬件、软件、固件、中间件、微代码,硬件描述语言或其任何组合来实现。例如,上述的各种电路中的一个或多个可以通过使用根据本公开的逻辑和算法,用汇编语言或硬件编程语言(诸如VERILOG,VHDL,C++)对硬件(例如,包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)进行编程来实现。
根据一些实施方式,电子设备2000还可以包括通信电路2010,所述通信电路2010可以是使得能够与外部设备和/或与网络通信的任何类型的设备或系统,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信设备和/或芯片组,例如蓝牙设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
根据一些实施方式,电子设备2000还可以包括输入设备2011,所述输入设备2011可以是能向电子设备2000输入信息的任何类型的设备,并且可以包括但不限于各种传感器、鼠标、键盘、触摸屏、按钮、控制杆、麦克风和/或遥控器等等。
根据一些实施方式,电子设备2000还可以包括输出设备2012,所述输出设备2012可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、视觉输出终端、振动器和/或打印机等。尽管电子设备2000根据一些实施例用于视障辅助设备,基于视觉的输出设备可以方便用户的家人或维修工作人员等从电子设备2000获得输出信息。
根据一些实施方式,电子设备2000还可以包括处理器2001。所述处理器2001可以是任何类型的处理器,并且可以包括但不限于一个或多个通用处理器和/或一个或多个专用处理器(例如特殊处理芯片)。处理器2001例如可以是但不限于中央处理单元CPU或微处理器MPU等等。电子设备2000还可以包括工作存储器2002,所述工作存储器2002可以存储对处理器2001的工作有用的程序(包括指令)和/或数据(例如图像、文字、声音,以及其他中间数据等)的工作存储器,并且可以包括但不限于随机存取存储器和/或只读存储器设备。电子设备2000还可以包括存储设备2003,所述存储设备2003可以包括任何非暂时性存储设备,非暂时性存储设备可以是非暂时性的并且可以实现数据存储的任何存储设备,并且可以包括但不限于磁盘驱动器、光学存储设备、固态存储器、软盘、柔性盘、硬盘、磁带或任何其他磁介质,光盘或任何其他光学介质、ROM(只读存储器)、RAM(随机存取存储器)、高速缓冲存储器和/或任何其他存储器芯片或盒、和/或计算机可从其读取数据、指令和/或代码的任何其他介质。工作存储器2002和存储设备2003可以被集合地称为“存储器”,并且在有些情况下可以相互兼用。
根据一些实施方式,处理器2001可以对第一相机101和第二相机102、文字识别电路2005、声音转换电路2006、声音输出电路2007、图像处理电路2008、文字处理电路2009、通信电路2010、电子电路2100以及电子设备2000包括的其他各种装置和电路中的至少一个进行控制和调度。根据一些实施方式,图10中所述的各个组成部分中的至少一些可通过总线2013而相互连接和/或通信。
软件要素(程序)可以位于所述工作存储器2002中,包括但不限于操作系统2002a、一个或多个应用程序2002b、驱动程序和/或其他数据和代码。
根据一些实施方式,用于进行前述的控制和调度的指令可以被包括在操作系统2002a或者一个或多个应用程序2002b中。
根据一些实施方式,执行本公开所述的方法步骤(例如图1的流程图中所示的方法步骤)的指令可以被包括在一个或多个应用程序2002b中,并且上述电子设备2000的各个模块可以通过由处理器2001读取和执行一个或多个应用程序2002b的指令来实现。换言之,电子设备2000可以包括处理器2001以及存储程序的存储器(例如工作存储器2002和/或存储设备2003),所述程序包括指令,所述指令在由所述处理器2001执行时使所述处理器2001执行如本公开各种实施例所述的方法。
根据一些实施方式,文字识别电路2005、声音转换电路2006、图像处理电路2008、文字处理电路2009、电子电路2100中的至少一个所执行的操作中的一部分或者全部可以由处理器2001读取和执行一个或多个应用程序2002的指令来实现。
软件要素(程序)的指令的可执行代码或源代码可以存储在非暂时性计算机可读存储介质(例如所述存储设备2003)中,并且在执行时可以被存入工作存储器2001中(可能被编译和/或安装)。因此,本公开提供存储程序的计算机可读存储介质,所述程序包括指令,所述指令在由电子设备(例如视障辅助设备)的处理器执行时,致使所述电子设备执行如本公开各种实施例所述的方法。根据另一种实施方式,软件要素(程序)的指令的可执行代码或源代码也可以从远程位置下载。
还应该理解,可以根据具体要求而进行各种变型。例如,也可以使用定制硬件,和/或可以用硬件、软件、固件、中间件、微代码,硬件描述语言或其任何组合来实现各个电路、单元、模块或者元件。例如,所公开的方法和设备所包含的电路、单元、模块或者元件中的一些或全部可以通过使用根据本公开的逻辑和算法,用汇编语言或硬件编程语言(诸如VERILOG,VHDL,C++)对硬件(例如,包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)进行编程来实现。
根据一些实施方式,电子设备2000中的处理器2001可以分布在网络上。例如,可以使用一个处理器执行一些处理,而同时可以由远离该一个处理器的另一个处理器执行其他处理。电子设备2000的其他模块也可以类似地分布。这样,电子设备2000可以被解释为在多个位置执行处理的分布式计算系统。
虽然已经参照附图描述了本公开的实施例或示例,但应理解,上述的方法、系统和设备仅仅是示例性的实施例或示例,本发明的范围并不由这些实施例或示例限制,而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外,可以通过不同于本公开中描述的次序来执行各步骤。进一步地,可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进,在此描述的很多要素可以由本公开之后出现的等同要素进行替换。
下面描述本公开的一些示例性方面。
方面1.一种文本图像的矫正方法,包括:
获取双目相机倾斜拍摄得到的包括待识别对象的初始图像,所述双目相机包括第一相机和第二相机,所述第一相机和第二相机两者的光轴与所述待识别对象的放置面不垂直,所述初始图像包括所述第一相机倾斜拍摄得到的包括待识别对象的第一初始图像和所述第二相机倾斜拍摄得到的包括待识别对象的第二初始图像;
确定所述待识别对象绕所述待识别对象上的一设定点旋转至与所述第一相机的光轴垂直所对应的旋转矩阵;
基于所述第一初始图像和第二初始图像,确定包括所述待识别对象的3D图像;
利用所述旋转矩阵,获取所述3D图像绕所述设定点旋转至与所述第一相机的光轴垂直所得到的旋转矫正图像;以及
对所述旋转矫正图像进行展平矫正,得到最终矫正图像。
方面2.如方面1所述的矫正方法,其中,确定所述旋转矩阵包括:
基于所述第一初始图像和所述第二初始图像,以及所述双目相机的内参,确定所述待识别对象的至少两条3D准线;
基于所述至少两条3D准线和所述设定点,确定所述旋转矩阵。
方面3.如方面2所述的矫正方法,其中,确定至少两条3D准线包括:
确定所述第一初始图像中的至少两条第一像素带;
确定所述第二初始图像中与所述至少两条第一像素带各自位置对应的至少两条第二像素带;
基于位置对应的所述第一像素带和所述第二像素带,以及所述双目相机的内参,确定位置对应的所述第一像素带和所述第二像素带相应的深度信息;以及
基于位置对应的所述第一像素带和所述第二像素带以及相应的深度信息,确定所述3D准线。
方面4.如方面3所述的矫正方法,其中,所述3D准线为基于位置对应的第一像素带的中轴线及其深度信息和第二像素带的中轴线及其深度信息而确定。
方面5.如方面3所述的矫正方法,其中,所述第一像素带的宽度和所述第二像素带的宽度均小于所述第一初始图像宽度的一半。
方面6.如方面5所述的矫正方法,其中,所述至少两条第一像素带在所述第一初始图像的中轴线的两侧均有分布。
方面7.如方面2所述的矫正方法,其中,基于所述至少两条3D准线以及所述设定点,确定所述旋转矩阵包括:
计算所述至少两条3D准线中的每一条的平均深度;以及
基于所述至少两条3D准线的平均深度和所述设定点,确定所述旋转矩阵。
方面8.如方面7所述的矫正方法,其中,所述设定点为与所述第一相机的光轴平行的直线和所述待识别对象的交点,并且所述第一相机和第二相机的光心的连线的中点位于与所述第一相机的光轴平行的所述直线上。
方面9.如方面2-6中任一项所述的矫正方法,其中,确定包括所述待识别对象的3D图像包括:
基于所述至少两条3D准线,确定多条曲面直母线;以及
至少基于所述多条曲面直母线和所述至少两条3D准线,确定多个第一曲面采样点以及每一第一曲面采样点的三维坐标,
其中,所述3D图像由所述多个第一曲面采样点来表示。
方面10.如方面9所述的矫正方法,其中,获取所述旋转矫正图像包括:
基于所述多个第一曲面采样点中的每一第一曲面采样点的深度、所述设定点的深度,利用所述旋转矩阵确定所述多个第一曲面采样点各自相对所述设定点旋转后所得到的多个第二曲面采样点,
其中,所述旋转矫正图像由所述多个第二曲面采样点来表示。
方面11.如方面9所述的矫正方法,其中,所述至少两条3D准线包括第一3D准线和第二3D准线,
其中,确定多条曲面直母线包括:
对第一3D准线进行采样,得到n个第一离散点;
对第二3D准线进行采样,得到N个第二离散点,其中,n和N为正整数,并且N>n;
针对n个第一离散点中的每一个,根据预设规则从N个第二离散点中确定其中一个第二离散点为该第一离散点的最优对应离散点,其中,第一3D准线的通过该第一离散点的法向量和第二3D准线的通过该最优对应离散点的法向量一致;以及
基于n个第一离散点以及相应的最优对应离散点,确定所述多条曲面直母线。
方面12.如方面11所述的矫正方法,其中,根据预设规则从N个第二离散点中确定其中一个第二离散点为该第一离散点的最优对应离散点包括:
确定所述第二3D准线的与该第一离散点对应的最优对应范围,所述最优对应范围包括所述N个第二离散点中的至少一个第二离散点;
计算该第一离散点与相应最优对应范围中的每一个第二离散点之间的代价函数;
基于代价函数,从相应的最优对应范围中确定其中一个第二离散点为该第一离散点对应的最优对应离散点。
方面13.如方面1所述的矫正方法,其中,对所述旋转矫正图像进行展平矫正,得到最终矫正图像包括:
将所述旋转矫正图像正投影至所述第一相机的像平面上,得到映射图像;以及
对所述映射图像进行插值,得到最终矫正图像。
方面14.如方面13所述的矫正方法,其中,对所述映射图像进行插值,得到最终矫正图像包括:
针对所述映射图像,计算沿预设方向相邻的两个像素之间的3D距离;以及
基于所述3D距离,沿所述预设方向对所述映射图像进行插值,得到所述最终矫正图像。
方面15.如方面2所述的矫正方法,其中,从所述待识别对象的一侧边到相对的另一侧边,所述待识别对象的弯曲形状大致相同。
方面16.如方面15所述的矫正方法,其中,所述双目相机设置在所述待识别对象的所述一侧边所在的一侧。
方面17.如方面2所述的矫正方法,其中,所述至少两条3D准线沿所述待识别对象的弯曲方向延伸。
方面18.如方面1所述的矫正方法,其中,所述待识别对象包括文本区域。
方面19.如方面1所述的矫正方法,其中,所述第一相机和所述第二相机的光轴为平行设置。
方面20.一种电子电路,包括:
被配置为执行根据方面1-19中任一项所述的矫正方法的步骤的电路。
方面21.一种文本图像的矫正装置,包括:
双目相机,被配置为倾斜拍摄包括待识别对象的初始图像,所述双目相机包括第一相机和第二相机,所述第一相机和第二相机两者的光轴与所述待识别对象的放置面不垂直,所述初始图像包括待识别对象的第一初始图像和包括待识别对象的第二初始图像,所述第一相机被配置为倾斜拍摄所述第一初始图像,所述第二相机被配置为倾斜拍摄所述第二初始图像;以及
如方面20所述的电子电路。
方面22.如方面21所述的矫正装置,还包括:
平板,被配置为放置所述待识别对象;
固定装配在所述平板上的支架,
其中,所述双目相机固定装配在所述支架上。
方面23.一种电子设备,包括:
处理器;以及
存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据方面1-19中任一项所述的矫正方法。
方面24.一种存储程序的非暂态计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行根据方面1-19中任一项所述的矫正方法。

Claims (24)

1.一种文本图像的矫正方法,包括:
获取双目相机倾斜拍摄得到的包括待识别对象的初始图像,所述双目相机包括第一相机和第二相机,所述第一相机和第二相机两者的光轴与所述待识别对象的放置面不垂直,所述初始图像包括所述第一相机倾斜拍摄得到的包括待识别对象的第一初始图像和所述第二相机倾斜拍摄得到的包括待识别对象的第二初始图像;
确定所述待识别对象绕所述待识别对象上的一设定点旋转至与所述第一相机的光轴垂直所对应的旋转矩阵;
基于所述第一初始图像和第二初始图像,确定包括所述待识别对象的3D图像;
利用所述旋转矩阵,获取所述3D图像绕所述设定点旋转至与所述第一相机的光轴垂直所得到的旋转矫正图像;以及
对所述旋转矫正图像进行展平矫正,得到最终矫正图像。
2.如权利要求1所述的矫正方法,其中,确定所述旋转矩阵包括:
基于所述第一初始图像和所述第二初始图像,以及所述双目相机的内参,确定所述待识别对象的至少两条3D准线;
基于所述至少两条3D准线和所述设定点,确定所述旋转矩阵。
3.如权利要求2所述的矫正方法,其中,确定至少两条3D准线包括:
确定所述第一初始图像中的至少两条第一像素带;
确定所述第二初始图像中与所述至少两条第一像素带各自位置对应的至少两条第二像素带;
基于位置对应的所述第一像素带和所述第二像素带,以及所述双目相机的内参,确定位置对应的所述第一像素带和所述第二像素带相应的深度信息;以及
基于位置对应的所述第一像素带和所述第二像素带以及相应的深度信息,确定所述3D准线。
4.如权利要求3所述的矫正方法,其中,所述3D准线为基于位置对应的第一像素带的中轴线及其深度信息和第二像素带的中轴线及其深度信息而确定。
5.如权利要求3所述的矫正方法,其中,所述第一像素带的宽度和所述第二像素带的宽度均小于所述第一初始图像宽度的一半。
6.如权利要求5所述的矫正方法,其中,所述至少两条第一像素带在所述第一初始图像的中轴线的两侧均有分布。
7.如权利要求2所述的矫正方法,其中,基于所述至少两条3D准线以及所述设定点,确定所述旋转矩阵包括:
计算所述至少两条3D准线中的每一条的平均深度;以及
基于所述至少两条3D准线的平均深度和所述设定点,确定所述旋转矩阵。
8.如权利要求7所述的矫正方法,其中,所述设定点为与所述第一相机的光轴平行的直线和所述待识别对象的交点,并且所述第一相机和第二相机的光心的连线的中点位于与所述第一相机的光轴平行的所述直线上。
9.如权利要求2-6中任一项所述的矫正方法,其中,确定包括所述待识别对象的3D图像包括:
基于所述至少两条3D准线,确定多条曲面直母线;以及
至少基于所述多条曲面直母线和所述至少两条3D准线,确定多个第一曲面采样点以及每一第一曲面采样点的三维坐标,
其中,所述3D图像由所述多个第一曲面采样点来表示。
10.如权利要求9所述的矫正方法,其中,获取所述旋转矫正图像包括:
基于所述多个第一曲面采样点中的每一第一曲面采样点的深度、所述设定点的深度,利用所述旋转矩阵确定所述多个第一曲面采样点各自相对所述设定点旋转后所得到的多个第二曲面采样点,
其中,所述旋转矫正图像由所述多个第二曲面采样点来表示。
11.如权利要求9所述的矫正方法,其中,所述至少两条3D准线包括第一3D准线和第二3D准线,
其中,确定多条曲面直母线包括:
对第一3D准线进行采样,得到n个第一离散点;
对第二3D准线进行采样,得到N个第二离散点,其中,n和N为正整数,并且N>n;
针对n个第一离散点中的每一个,根据预设规则从N个第二离散点中确定其中一个第二离散点为该第一离散点的最优对应离散点,其中,第一3D准线的通过该第一离散点的法向量和第二3D准线的通过该最优对应离散点的法向量一致;以及
基于n个第一离散点以及相应的最优对应离散点,确定所述多条曲面直母线。
12.如权利要求11所述的矫正方法,其中,根据预设规则从N个第二离散点中确定其中一个第二离散点为该第一离散点的最优对应离散点包括:
确定所述第二3D准线的与该第一离散点对应的最优对应范围,所述最优对应范围包括所述N个第二离散点中的至少一个第二离散点;
计算该第一离散点与相应最优对应范围中的每一个第二离散点之间的代价函数;
基于代价函数,从相应的最优对应范围中确定其中一个第二离散点为该第一离散点对应的最优对应离散点。
13.如权利要求1所述的矫正方法,其中,对所述旋转矫正图像进行展平矫正,得到最终矫正图像包括:
将所述旋转矫正图像正投影至所述第一相机的像平面上,得到映射图像;以及
对所述映射图像进行插值,得到最终矫正图像。
14.如权利要求13所述的矫正方法,其中,对所述映射图像进行插值,得到最终矫正图像包括:
针对所述映射图像,计算沿预设方向相邻的两个像素之间的3D距离;以及
基于所述3D距离,沿所述预设方向对所述映射图像进行插值,得到所述最终矫正图像。
15.如权利要求2所述的矫正方法,其中,从所述待识别对象的一侧边到相对的另一侧边,所述待识别对象的弯曲形状大致相同。
16.如权利要求15所述的矫正方法,其中,所述双目相机设置在所述待识别对象的所述一侧边所在的一侧。
17.如权利要求2所述的矫正方法,其中,所述至少两条3D准线沿所述待识别对象的弯曲方向延伸。
18.如权利要求1所述的矫正方法,其中,所述待识别对象包括文本区域。
19.如权利要求1所述的矫正方法,其中,所述第一相机和所述第二相机的光轴为平行设置。
20.一种电子电路,包括:
被配置为执行根据权利要求1-19中任一项所述的矫正方法的步骤的电路。
21.一种文本图像的矫正装置,包括:
双目相机,被配置为倾斜拍摄包括待识别对象的初始图像,所述双目相机包括第一相机和第二相机,所述第一相机和第二相机两者的光轴与所述待识别对象的放置面不垂直,所述初始图像包括待识别对象的第一初始图像和包括待识别对象的第二初始图像,所述第一相机被配置为倾斜拍摄所述第一初始图像,所述第二相机被配置为倾斜拍摄所述第二初始图像;以及
如权利要求20所述的电子电路。
22.如权利要求21所述的矫正装置,还包括:
平板,被配置为放置所述待识别对象;以及
支架,其中,所述双目相机固定装配在所述支架上。
23.一种电子设备,包括:
处理器;以及
存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-19中任一项所述的矫正方法。
24.一种存储程序的非暂态计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行根据权利要求1-19中任一项所述的矫正方法。
CN202011451692.3A 2020-12-09 2020-12-09 文本图像的矫正方法及装置、设备和介质 Active CN112560867B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011451692.3A CN112560867B (zh) 2020-12-09 2020-12-09 文本图像的矫正方法及装置、设备和介质
PCT/CN2021/135748 WO2022121842A1 (zh) 2020-12-09 2021-12-06 文本图像的矫正方法及装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011451692.3A CN112560867B (zh) 2020-12-09 2020-12-09 文本图像的矫正方法及装置、设备和介质

Publications (2)

Publication Number Publication Date
CN112560867A CN112560867A (zh) 2021-03-26
CN112560867B true CN112560867B (zh) 2023-11-21

Family

ID=75061707

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011451692.3A Active CN112560867B (zh) 2020-12-09 2020-12-09 文本图像的矫正方法及装置、设备和介质

Country Status (2)

Country Link
CN (1) CN112560867B (zh)
WO (1) WO2022121842A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560867B (zh) * 2020-12-09 2023-11-21 上海肇观电子科技有限公司 文本图像的矫正方法及装置、设备和介质
CN115760620B (zh) * 2022-11-18 2023-10-20 荣耀终端有限公司 一种文档矫正方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102592124A (zh) * 2011-01-13 2012-07-18 汉王科技股份有限公司 文本图像的几何校正方法、装置和双目立体视觉系统
CN102801894A (zh) * 2012-07-18 2012-11-28 天津大学 一种变形书页展平方法
CN107560543A (zh) * 2017-09-04 2018-01-09 华南理工大学 一种基于双目立体视觉的摄像机光轴偏移校正装置与方法
CN111340737A (zh) * 2020-03-23 2020-06-26 北京迈格威科技有限公司 图像矫正方法、装置和电子系统
CN111353961A (zh) * 2020-03-12 2020-06-30 上海合合信息科技发展有限公司 一种文档曲面校正方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9398289B2 (en) * 2010-02-09 2016-07-19 Samsung Electronics Co., Ltd. Method and apparatus for converting an overlay area into a 3D image
CN112560867B (zh) * 2020-12-09 2023-11-21 上海肇观电子科技有限公司 文本图像的矫正方法及装置、设备和介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102592124A (zh) * 2011-01-13 2012-07-18 汉王科技股份有限公司 文本图像的几何校正方法、装置和双目立体视觉系统
CN102801894A (zh) * 2012-07-18 2012-11-28 天津大学 一种变形书页展平方法
CN107560543A (zh) * 2017-09-04 2018-01-09 华南理工大学 一种基于双目立体视觉的摄像机光轴偏移校正装置与方法
CN111353961A (zh) * 2020-03-12 2020-06-30 上海合合信息科技发展有限公司 一种文档曲面校正方法及装置
CN111340737A (zh) * 2020-03-23 2020-06-26 北京迈格威科技有限公司 图像矫正方法、装置和电子系统

Also Published As

Publication number Publication date
CN112560867A (zh) 2021-03-26
WO2022121842A1 (zh) 2022-06-16

Similar Documents

Publication Publication Date Title
EP3614340B1 (en) Methods and devices for acquiring 3d face, and computer readable storage media
CN112470497B (zh) 经由光学捕获的个性化hrtfs
US10289924B2 (en) System and method for scanned document correction
CN112560867B (zh) 文本图像的矫正方法及装置、设备和介质
EP3382510A1 (en) Visibility improvement method based on eye tracking, machine-readable storage medium and electronic device
US20150178903A1 (en) Image correction apparatus for correcting distortion of an image
CN106920279A (zh) 三维地图构建方法和装置
EP3940589A1 (en) Layout analysis method, electronic device and computer program product
CN104715447A (zh) 图像合成方法和装置
CN112055869A (zh) 对面部的透视畸变校正
US10621428B1 (en) Layout analysis on image
CN112541506B (zh) 文本图像的矫正方法及装置、设备和介质
JP6311372B2 (ja) 画像処理装置および画像処理方法
CN111145153B (zh) 图像处理方法、电路、视障辅助设备、电子设备及介质
JP2010267257A (ja) 画像処理装置、画像処理方法及び画像処理プログラム
JP7110899B2 (ja) 画像処理装置、画像処理方法、及び画像処理プログラム
US11367296B2 (en) Layout analysis
CN113674139A (zh) 人脸图像的处理方法、装置、电子设备及存储介质
JP6161874B2 (ja) 撮像装置、長さ計測方法及びプログラム
CN112861735A (zh) 文本图像的识别方法及装置、设备和介质
CN112070674B (zh) 一种图像合成方法及装置
CN112070672B (zh) 一种图像合成方法及装置
CN115641635B (zh) 确定虹膜图像采集模块对焦参数的方法及虹膜对焦设备
JP2019105992A (ja) 画像処理装置、画像処理プログラム及び画像処理方法
CN113643305B (zh) 一种基于深度网络上下文提升的人像检测与分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant