CN112541506B - 文本图像的矫正方法及装置、设备和介质 - Google Patents

文本图像的矫正方法及装置、设备和介质 Download PDF

Info

Publication number
CN112541506B
CN112541506B CN202011449361.6A CN202011449361A CN112541506B CN 112541506 B CN112541506 B CN 112541506B CN 202011449361 A CN202011449361 A CN 202011449361A CN 112541506 B CN112541506 B CN 112541506B
Authority
CN
China
Prior art keywords
laser
image
camera
identified
lasers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011449361.6A
Other languages
English (en)
Other versions
CN112541506A (zh
Inventor
高敬乾
王欢
周骥
冯歆鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NextVPU Shanghai Co Ltd
Original Assignee
NextVPU Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NextVPU Shanghai Co Ltd filed Critical NextVPU Shanghai Co Ltd
Priority to CN202011449361.6A priority Critical patent/CN112541506B/zh
Publication of CN112541506A publication Critical patent/CN112541506A/zh
Priority to PCT/CN2021/135750 priority patent/WO2022121843A1/zh
Application granted granted Critical
Publication of CN112541506B publication Critical patent/CN112541506B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/143Sensing or illuminating at different wavelengths
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/247Aligning, centring, orientation detection or correction of the image by affine transforms, e.g. correction due to perspective effects; Quadrilaterals, e.g. trapezoids

Abstract

本公开提供一种文本图像的矫正方法,包括:开启至少两个激光器,发出的激光投射在待识别对象上,以在待识别对象上形成至少两条激光线;获取摄像机在至少两个激光器开启时倾斜拍摄的包括待识别对象的初始图像,所述初始图像包括至少两条激光线,所述摄像机的光轴与所述待识别对象的放置面不垂直;确定待识别对象绕待识别对象上的一设定点旋转至与摄像机的光轴垂直所对应的旋转矩阵;至少基于至少两条激光线,确定初始图像相应的3D图像;利用旋转矩阵,获取3D图像绕设定点旋转至与摄像机的光轴垂直所得到的旋转矫正图像;以及对旋转矫正图像进行展平矫正,得到最终矫正图像。

Description

文本图像的矫正方法及装置、设备和介质
技术领域
本申请涉及人工智能技术领域,特别涉及一种文本图像的矫正方法及装置、设备和介质。
背景技术
相关技术中在对诸如书籍或杂志之类的读物进行文字识别之前,可以对图像进行弯曲矫正,以克服因读物弯曲而影响文字识别的准确性的问题。但是,受到矫正算法本身的限制,对弯曲读物的文字识别效果仍有待提高。
在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
发明内容
根据本公开的一方面,提供一种文本图像的矫正方法,包括:开启至少两个激光器,发出的激光投射在待识别对象上,以在所述待识别对象上形成至少两条激光线;获取摄像机在所述至少两个激光器开启时倾斜拍摄的包括所述待识别对象的初始图像,所述初始图像包括所述至少两条激光线,所述摄像机的光轴与所述待识别对象的放置面不垂直;确定所述待识别对象绕所述待识别对象上的一设定点旋转至与所述摄像机的光轴垂直所对应的旋转矩阵;至少基于所述至少两条激光线,确定所述初始图像相应的3D图像;利用所述旋转矩阵,获取所述3D图像绕所述设定点旋转至与所述摄像机的光轴垂直所得到的旋转矫正图像;以及对所述旋转矫正图像进行展平矫正,得到最终矫正图像。
根据本公开的另一方面,提供一种电子电路,包括被配置为执行上述的矫正方法的步骤的电路。
根据本公开的另一方面,提供一种文本图像的矫正装置,包括:至少两个激光器,被配置为发出的激光发出的激光投射在待识别对象上,以在所述待识别对象上形成至少两条激光线;摄像机,被配置为在所述至少两个激光器开启时倾斜拍摄包括所述待识别对象的初始图像,所述初始图像包括所述至少两条激光线,所述摄像机的光轴与所述待识别对象的放置面不垂直;以及如上所述的电子电路。
根据本公开的另一方面,提供一种电子设备,包括:处理器;以及存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行上述的矫正方法。
根据本公开的另一方面,提供一种存储程序的非暂态计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行上述的深矫正方法。
附图说明
附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
图1是示出根据本公开示例性实施例的文本图像的矫正方法的流程图;
图2是示出根据示例性实施例的文本图像的矫正装置的工作示意图;
图3是示出根据本公开示例性实施例的文本图像的矫正方法的流程图;
图4是示出与相机相关联的相机成像模型的示意图;
图5是示出根据本公开示例性实施例的激光线、摄像机和待识别对象的位置几何关系示意图;
图6是示出根据本公开示例性实施例的确定的多条曲面直母线的示意图;
图7是示出根据本公开示例性实施例的确定的待识别对象的多个第一曲面采样点的示意图;
图8是示出根据本公开示例性实施例的最终矫正图像的示意图;
图9是示出能够应用于示例性实施例的示例性计算设备的结构框图。
具体实施方式
在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
诸如书籍或杂志之类的读物通常会有一定的排版,例如内容会分成不同的段落(例如包括上下的分段和左右的分栏等)。阅读这些读物时,人们通过视觉捕获视野中的图像,通过大脑来对图像中的文字进行段落划分。然而,如果是由机器来“阅读”这些读物,则不仅需要对图像中的文字进行文字识别,还要对这些文字进行段落划分,从而能够以正确的段落次序“阅读”读物中的文字。例如在将纸质书转换成电子书的应用中,或者在将图像中的文字转换成声音信号并输出该声音信号的应用中,可能会用到这种段落划分。在本公开中,“段落划分”是指将图像中的文字划分为成不同段落。上下的段落划分也可称为分段,而左右的段落划分也可称为分栏。
在本公开中,文本行是指相邻文字间距小于阈值间距的文字的序列,即连续的一行文字。相邻文字间距指的是相邻文字的对应位置的坐标之间的距离,例如相邻文字左上角坐标之间、右下角坐标之间或质心坐标之间的距离等。如果相邻文字间距不大于所述阈值间距,则可认为所述相邻文字连续,从而将其划分到同一文本行中。如果相邻文字间距大于所述阈值间距,则可认为所述相邻文字不连续(例如可能分别属于不同的段落或分别属于左右两栏),从而将其划分到不同的文本行中。所述阈值间距可以根据文字大小来设置,例如:字体大小大于四号(如三号、二号)的相邻文字设置的阈值间距大于字体大小为四号以下(如小四、五号)的相邻文字设置的阈值间距。
相关技术中,在对诸如书籍或杂志之类的读物进行文字识别之前,可以对图像进行弯曲矫正,以克服因读物弯曲而影响文字识别的准确性的问题。对图像进行弯曲矫正的具体过程可以为:采用矫正算法对弯曲曲面进行展平并插值,来解决图像弯曲问题。这种方法对垂直拍摄场景具有比较好的展平效果。但是,受到矫正算法本身的限制,在倾斜拍摄场景下,由于倾斜透视的原因,无法展平弯曲曲面,甚至得到更加扭曲的处理结果。
为了解决上述技术问题,本公开提供一种针对倾斜拍摄场景的文本图像的矫正方法。所述矫正方法通过在待识别对象上投射至少两条激光线,并确定待识别对象旋转至与摄像机的光轴垂直所对应的旋转矩阵以及待识别对象的3D图像。利用所确定的所述旋转矩阵和待识别对象的3D图像,能够得到待识别对象旋转至与摄像机的光轴垂直所对应的3D旋转矫正图像。由此,所得到的3D旋转矫正图像不存在倾斜透视问题,从而能够克服倾斜透视会影响弯曲曲面的矫正问题。然后,可以对3D旋转矫正图像进行展平矫正,得到最终矫正图像。由于3D旋转矫正图像不存在倾斜透视问题,3D旋转矫正图像中的文本行是一条直线,因此,能够对3D旋转矫正图像进行矫正达到展平的目的,进而能够保证对待识别对象进行文字识别的准确性。
在本公开中,待识别对象可以是指图片或读物的待识别文字的当前页面等。
以下将结合附图对根据本公开实施例的文本图像的矫正方法进行进一步描述。
图1是示出根据本公开示例性实施例的文本图像的矫正方法的流程图。如图1所示,所述矫正方法可以包括:步骤S101、开启至少两个激光器,发出的激光投射在待识别对象上,以在所述待识别对象上形成至少两条激光线;步骤S102、获取摄像机在所述至少两个激光器开启时倾斜拍摄的包括所述待识别对象的初始图像,所述初始图像包括所述至少两条激光线,所述摄像机的光轴与所述待识别对象的放置面不垂直;步骤S103、确定所述待识别对象绕所述待识别对象上的一设定点旋转至与所述摄像机的光轴垂直所对应的旋转矩阵;步骤S104、至少基于所述至少两条激光线,确定所述初始图像相应的3D图像;步骤S105、利用所述旋转矩阵,获取所述3D图像绕所述设定点旋转至与所述摄像机的光轴垂直所得到的旋转矫正图像;步骤S106、对所述旋转矫正图像进行展平矫正,得到最终矫正图像。
所述至少两个激光器可以采用一字线激光器,从而每一激光器发出的激光投射在待识别对象上均可以形成一条激光线。在这种情况下,可以仅设置两个激光器即可在待识别对象上投射形成两条激光线,能够实现本公开的技术方案,还能够简化设备的结构。当然,也可以设置三个或三个以上的一字线激光器,则发出的激光投射在待识别对象上可以形成三条或三条以上激光线。
需要说明的是,所述至少两个激光器不局限于采用一字线激光器,只要所述至少两个激光器发出的激光能够组成至少两条一字线激光,从而投射在待识别对象上能够形成至少两条激光线即可。
根据一些实施例,在所述至少两个激光器采用一字线激光器的情况下,每一个所述激光器的激光出射面可以与所述摄像机的光轴平行。由此,在摄像机的相机坐标系中,在与摄像机的光轴垂直的其中一个坐标轴(x轴或y轴,具体由摄像机和激光器的位置关系而定)上每一条激光线所包括的所有像素的坐标相同,从而能够简化算法。
可以理解的是,在此并不限定所述至少两个激光器中的每一个所述激光器的激光出射面必须与所述摄像机的光轴平行,只要所述至少两个激光器和摄像机的位置关系已知,并且所述至少两个激光器发出的激光投射在待识别对象上形成的至少两条激光线能够表征待识别对象的弯曲形状,所述摄像机能够拍摄的初始图像中至少两条激光线也能够表征待识别对象的弯曲形状即可,均能够实现本公开的技术方案。
在示例性实施例中,如图2所示,所述至少两个激光器可以包括第一激光器102和第二激光器103,并且所述第一激光器102和第二激光器103可以均采用一字线激光器。由此,所述第一激光器102发出的激光投射在待识别对象100上形成第一激光线1020,第二激光器103发出的激光投射在待识别对象100上形成第二激光线1030。第一激光器102和第二激光器103两者的激光出射面可以均与摄像机101的光轴平行。在这种情况下,在摄像机101的相机坐标系中,在与摄像机101的光轴垂直的其中一个坐标轴上,第一激光线1020所包括的所有像素在该坐标轴方向上的坐标值相同,并且第二激光线1030所包括的所有像素在该坐标轴方向上的坐标值相同。例如,在摄像机101的相机坐标系中,在与摄像机101的光轴垂直的Yc坐标轴上,第一激光线1020所包括的所有像素的Yc坐标相同,并且第二激光线1030所包括的所有像素的Yc坐标相同,结合图2和图4所示。
根据一些实施例,第一激光器102和第二激光器103可以位于摄像机101的光轴(对应图2中的虚线)的相对两侧,从而第一激光器102和第二激光器103在待识别对象上投射的相应的激光线能够表征待识别对象的不同区域的弯曲形状,提高后续的弯曲矫正效果。在这种情况下,在与摄像机101的光轴垂直的方向上,第一激光器102和第二激光器103与摄像机101之间的距离可以相同,也可以不同。
可以理解的是,所述第一激光器和第二激光器也可以位于所述摄像机的光轴的同一侧。
需要说明的是,图2中示意的待识别对象100为平面,第一激光线1020和第二激光线1030为直线,仅是为了便于示意,实际上待识别对象100为曲面,第一激光线1020和第二激光线1030为曲线。
根据一些实施例,摄像机可以是独立装置(例如照相机、视频摄像机、摄像头等),也可以包括在各类电子设备(例如移动电话、计算机、个人数字助理、阅读辅助设备、平板电脑、阅读辅助设备、可穿戴设备等)中。
根据一些实施例,摄像机可以设置于用户的可穿戴设备或眼镜等设备上,从而所述初始图像可以是由该摄像机拍摄的、用户手中所握持读物的待识别对象的图像。所述待识别对象可包含文字(包括各种国家的文字、数字、字符、标点符号等)、图片等内容。所述待识别对象例如可以为:护照、驾照、书籍、杂志等读物的待识别文字的当前页面,包括文本区域。所述文本区域对应于文字所在的区域。在这种情况下,所述待识别对象的放置面即为读物的放置面。
根据一些实施例,所述初始图像也可以是经过了一些预处理的图像,所述预处理例如可以包括但不限于灰度处理、模糊去除等等。
根据一些实施例,从所述待识别对象的一侧边到相对的另一侧边,所述待识别对象的弯曲形状可以大致相同。可以理解的是,本公开的技术方案也适用于从所述待识别对象的一侧边到相对的另一侧边,所述待识别对象的弯曲形状不相同的场景。
根据一些实施例,所述至少两个激光器可以设置在所述待识别对象的所述一侧边所在的一侧。由此,所述至少两个激光器投射在待识别对象上形成的至少两条激光准线能够表征待识别对象的弯曲形状。
在一个示例性实施例中,摄像机可以设置在所述待识别对象的所述一侧边所在的一侧,即所述摄像机和所述至少两个激光器可以位于待识别对象的同一侧。可以理解的是,摄像机例如也可以设置在所述待识别对象的所述另一侧边所在的一侧,即所述摄像机和所述至少两个激光器可以位于待识别对象的相对两侧。由此,摄像机拍摄得到的初始图像中至少两条激光线能够表征待识别对象的弯曲形状。
根据一些实施例,如图3所示,在步骤S102之后,所述矫正方法还可以包括:步骤S201、获取摄像机在所述至少两个激光器关闭时倾斜拍摄的包括所述待识别对象的比对图像;以及步骤S202、基于所述初始图像和所述比对图像,获取所述至少两条激光线在所述初始图像中的位置信息。由此,在保证待识别对象不动,并且环境光线基本不变的情况下,通过激光开启和关闭,能够分别拍摄具有激光线的初始图像和不具有激光线的比对图像。从而能够基于所述初始图像和所述比对图像,获取所述至少两条激光线在所述初始图像中的位置信息。
所述位置信息例如可以为所述至少两条激光线在所述初始图像中的像素坐标。
在示例性实施例中,步骤S202可以包括:对所述初始图像和所述比对图像进行模糊处理,得到初始模糊图像和比对模糊图像;计算所述初始模糊图像和比对模糊图像之间的差值,得到差值图像;提取差值图像的红色通道图像,得到红色通道差值图像;以及基于红色通道差值图像,获取所述至少两条激光线在所述初始图像中的位置信息。从而能够快速获取所述至少两条激光线在所述初始图像中的位置信息。
需要说明的是,并不局限于通过上述一种方式来获取所述至少两条激光线在所述初始图像中的位置信息。例如,也可以利用图像特征提取算法(例如,SIFT算法、SURF算法)提取所述初始图像中的所述至少两条激光线,从而获取所述至少两条激光线在所述初始图像中的位置信息。
以下内容中将描述如何至少基于初始图像中的至少两条激光线来确定待识别对象旋转至与摄像机的光轴垂直所对应的旋转矩阵,以及待识别对象的3D图像。
根据一些实施例,在摄像机的倾斜角度(摄像机的光轴和与待识别对象的放置面垂直的垂线之间的夹角)未知的情况下,步骤S103可以至少基于所述至少两条激光线,确定所述旋转矩阵。
根据一些实施例,至少基于所述至少两条激光线,确定所述旋转矩阵可以包括:基于所述初始图像、所述摄像机的内参、以及所述激光器和所述摄像机的位置关系,确定所述至少两条激光线中的每一条相应的3D激光准线;以及基于至少两条所述3D激光准线和所述设定点,确定所述旋转矩阵。由此,能够仅基于待识别对象上的至少两条3D激光准线来确定待识别旋转至与摄像机的光轴垂直所对应的旋转矩阵,大大简化了计算过程,降低了计算量。
在示例性示例中,可以采用上述步骤S201和步骤S202来获取至少两条激光线在所述初始图像中的位置信息。然后,可以基于所述初始图像中的至少两条激光线、所述摄像机的内参、以及所述激光器和所述摄像机的位置关系,确定所述至少两条激光线中的每一条相应的3D激光准线。
根据一些实施例,确定所述至少两条激光线中的每一条相应的3D激光准线可以包括:利用摄像机成像的三角相似原理计算所述至少两条激光线中的每一条的深度信息。
以下将结合示例性实施例来具体描述确定激光线相应的3D激光准线的原理。
图4是示出与摄像机相关联的相机成像模型1000的示意图。如图4所示,三维世界中的物体(图中示出为点P)经过相机成像模型1000变成二维图像(图中示出为像素点P(x,y))。相机成像模型1000可以涉及四个坐标系:世界坐标系、相机坐标系、图像物理坐标系和图像像素坐标系。本公开中可以只涉及相机坐标系、图像物理坐标系和图像像素坐标系。
世界坐标系是表示物体在真实世界中的坐标的参考系,单位是长度单位(例如,毫米)。相机坐标系是以光心为原点的参考系,它具有分别平行于图像的x方向和y方向的Xc轴和Yc轴,以及与光轴平行的Zc轴,其中Xc、Yc和Zc互相垂直,单位是长度单位。图像物理坐标系(也称为图像坐标系)是以光轴与图像平面的交点为原点的参考系,它具有如图所示的x和y方向,单位是长度单位。图像像素坐标系(也称为像素坐标系)是以图像的顶点为原点的参考系,它具有分别平行于x和y方向的u和v方向,单位是像素。典型地,世界坐标系可以通过相机的外参转换到相机坐标系,而相机坐标系可以通过相机的内参(其通常包括焦距对角矩阵和像素转换矩阵)转换到图像像素坐标系。
在获取至少两条激光线在初始图像中的像素坐标之后,可以利用摄像机的内参计算至少两条激光线在相机坐标系中的深度信息(即坐标Zc)。
以所述至少两个激光器采用一字线激光器,每一个所述激光器的激光出射面与所述摄像机的光轴平行为例,参见图4所示,利用三角相似原理可以得到:
此时已知摄像机的内参f、u0、v0,激光线上一采样点的像素坐标u、v,以及该采样点在相机坐标系中的坐标Yc(绝对值为激光器和摄像机在Yc坐标轴的延伸方向上的距离)。从而利用上述公式可以计算得到该采样点在相机坐标系中的Zc与Xc,得到该采样点在相机坐标系中的三维坐标(Xc,Yc,Zc)。其中,f为摄像机的焦距,u0和v0为摄像机的光轴和像平面的交点在像素坐标系中的二维坐标。
每一条激光线所包括的所有像素的坐标Yc相同,根据激光器和摄像机之间的位置关系很容易得到坐标Yc。
利用上述方法能够计算得到所述至少两条激光线上的多个采样点在相机坐标系中的三维坐标,通过拟合可以得到所述至少两条激光线各自相应的3D激光准线。3D激光准线可为激光线在相机坐标系中的三维表示。
步骤S103中在利用上述方法得到至少两条激光线中的每一条相应的3D激光准线之后,可以基于至少两条所述3D激光准线,确定待识别对象绕所述待识别对象上的一设定点旋转至与所述摄像机的光轴垂直所对应的旋转矩阵。
可以理解的是,以上仅是以所述至少两个激光器采用一字线激光器,每一个所述激光器的激光出射面与所述摄像机的光轴平行为例,来描述如何确定激光线相应的3D激光准线,并不是一种限定。只要摄像机和所述至少两个激光器的位置已知,均可以结合摄像机的内参以及激光线在初始图像中的像素坐标来确定激光线相应的3D激光准线,不同的是每一激光线所包括的所有像素的Yc坐标不是全部相同,具体的方法与上述相同,在此不再赘述。
需要说明的是,计算激光线的三维坐标的方式不局限于上述一种方式。也可以采用其它方式来确定所述至少两条激光线各自相应的3D激光准线。例如,也可以将初始图像输入训练完成的神经网络模型,以获取所述神经网络模型输出的初始图像中的至少两条激光线的深度信息,从而确定所述至少两条激光线的三维坐标,进而确定各自相应的3D激光准线。
步骤S103中,在确定所述至少两条激光线各自相应的3D激光准线之后,可以基于至少两条所述3D激光准线,确定待识别对象绕待识别对象上的一设定点旋转至与摄像机的光轴垂直所对应的旋转矩阵。
参见图5所示,所述设定点例如可以但不限于为所述摄像机的光轴与所述待识别对象的交点Q。
根据一些实施例,在所述设定点为所述摄像机的光轴与所述待识别对象的交点Q的情况下,步骤S103中,基于至少两条所述3D激光准线以及所述设定点,确定所述旋转矩阵可以包括:计算至少两条所述3D激光准线中的每一条的平均深度;以及基于至少两条所述3D激光准线的平均深度和所述设定点,确定所述旋转矩阵。
参见图5所示,以所述设定点为所述摄像机的光轴与所述待识别对象的交点,并且所述至少两个激光器采用一字线激光器,每一个所述激光器的激光出射面与所述摄像机的光轴平行为例,基于至少两条所述3D激光准线以及所述设定点,确定所述旋转矩阵具体的原理可以为:
图5中仅示出两条激光线:第一激光线1020和第二激光线1030,由几何关系可得:
基于上述方程组可解得:
其中,h1为第一激光线1020的平均深度,h2为第二激光线1030的平均深度。d1为第一激光线1020相应的激光出射面与摄像机的光轴之间的距离。d2为第一激光线1020相应的激光出射面与摄像机的光轴之间的距离。d1和d2可以基于激光器和摄像机之间的位置关系获得。h0为所述设定点(光轴与待识别对象的交点P)的深度,旋转矩阵R为:
通过上述方法,可以在摄像机的倾斜角度α未知的情况下,计算得到待识别对象绕所述待识别对象上的一设定点旋转至与摄像机的光轴垂直所对应的旋转矩阵。
可以理解的是,如果摄像机的倾斜角度α已知,则可以直接计算得到旋转矩阵R。在这种情况下,可以根据交点Q在初始图像中的像素坐标来计算交点Q在相机坐标系中的深度,具体的方法已在上面内容中描述。
在确定所述旋转矩阵之后,可以执行步骤S104、至少基于所述至少两条激光线,确定初始图像相应的3D图像。需要说明的是,本公开不限定步骤S103和步骤S104的执行顺序,步骤S103和步骤S104也可以同步执行。
根据一些实施例,步骤S104可以包括:基于所述初始图像、所述摄像机的内参、以及所述激光器和所述摄像机的位置关系,确定所述至少两条激光线中的每一条相应的3D激光准线;基于至少两条所述3D激光准线,确定多条曲面直母线;以及基于所述多条曲面直母线和至少两条所述3D激光准线,确定多个第一曲面采样点以及每一第一曲面采样点的三维坐标。在这种情况下,所述3D图像可以由所述多个第一曲面采样点来表示。由此,能够基于曲面直母线和至少两条激光准线来确定待识别对象的3D图像的多个第一曲面采样点,并通过多个第一曲面采样点来表示待识别对象的3D图像,从而能够简化3D图像的确定步骤,减少计算量。在图6所示的示例中,示意了确定的多条曲面直母线201。在图7所示的示例中,示意了确定的多个第一曲面采样点202。
根据相关技术,曲面可由曲面直母线移动扫过的轨迹重建,直母线存在于曲面上,并且是直线。因此,上述步骤S104通过所述多个第一曲面采样点可以拟合得到待识别对象的3D图像。
步骤S104中可以直接利用步骤S103中确定的3D激光准线,以减少计算量。可以理解的是,在先执行步骤S104时,步骤S103也可以直接利用步骤S104中确定的3D激光准线。
可以理解的是,本公开中也可以通过其它方法来确定待识别对象的3D图像,并不局限于上述一种方式。
在确定待识别对象的3D图像和待识别对象绕所述待识别对象上的一设定点旋转至与所述摄像机的光轴垂直所对应的旋转矩阵之后,可以执行步骤S105、利用所述旋转矩阵,获取所述3D图像绕所述设定点旋转至与所述摄像机的光轴垂直所得到的旋转矫正图像。
根据一些实施例,步骤S105可以包括:基于所述多个第一曲面采样点中的每一第一曲面采样点的深度、所述设定点的深度,利用所述旋转矩阵确定所述多个第一曲面采样点各自相对所述设定点旋转后所得到的多个第二曲面采样点。在这种情况下,所述旋转矫正图像可以由所述多个第二曲面采样点来表示。可以通过所述多个第二曲面采样点可以拟合得到待识别对象的3D旋转矫正图像。
所述设定点的深度可以采用上面内容中描述的方法来获取。第一曲面采样点为基于曲面直母线和3D激光准线而确定,其深度也可以基于曲面直母线和3D激光准线来获得。
上述技术方案中,通过确定待识别对象的多条曲面直母线,并基于所确定的多条曲面直母线和至少两条所述3D激光准线来确定待识别对象的3D图像,进而能够基于旋转矩阵和3D图像来确定待识别对象旋转至与摄像机的光轴垂直所得到的3D旋转矫正图像,以克服倾斜拍摄场景下存在的倾斜透视问题。
根据一些实施例,所述至少两条3D激光准线可以包括第一3D激光准线和第二3D激光准线。下面将以第一3D激光准线和第二3D激光准线为例,来具体描述如何基于两条3D激光准线来确定曲面的曲面直母线。可以理解的是,所述至少两条3D激光准线中的任意两条均可以采用下面的方法来确定相应的曲面直母线。
根据一些实施例,确定多条曲面直母线可以包括:对第一3D激光准线进行采样,得到n个第一离散点;对第二3D激光准线进行采样,得到N个第二离散点,其中,n和N为正整数,并且N>n;针对n个第一离散点中的每一个,根据预设规则从N个第二采样点中确定其中一个第二离散点为该第一离散点的最优对应离散点,其中,第一3D激光准线的通过该第一离散点的法向量和第二3D激光准线的通过该最优对应离散点的法向量一致;以及基于n个第一离散点以及相应的最优对应离散点,确定所述多条曲面直母线。
根据一些实施例,针对所述n个第一离散点中的每一个,根据预设规则从N个第二采样点中确定其中一个第二离散点为该第一离散点的最优对应离散点可以包括:确定所述第二3D激光准线的与该一离散点对应的最优对应范围,所述最优对应范围包括所述N个第二离散点中的至少一个第二离散点;计算该第一离散点与相应最优对应范围中的每一个第二离散点之间的代价函数;基于代价函数,从相应的最优对应范围中确定其中一个第二离散点为该第一离散点对应的最优对应离散点。由此,通过使用自适应搜索范围,搜索的是第二3D激光准线上的最优对应离散点(即第二3D激光准线离散点的下标索引),而不是弧长离散值,不需要设置搜索梯度范围,提高了运算速度。
在示例中,第一离散点和第二离散点两者可以但不局限于为以弧长为参数的离散点,从而第一3D激光准线和第二3D激光准线两者可以表示为以弧长为参数的3D离散点集合。一个弧长参数值可以对应3D激光准线上唯一一个3D坐标。
根据一些实施例,可以基于第一3D激光准线的像素坐标,确定第一3D激光准线的弧长参数公式C0(t),具体的转换方法为现有技术,在此不再详述。同样地,可以基于第二3D激光准线的像素坐标,确定第二3D激光准线的弧长参数公式C1(s)。
根据一些实施例,可以先将第一3D激光准线C0(t)和第二3D激光准线C1(s)离散化为相同数量(记为N)的离散点。再将C0(t)降采样K倍,记录其采样位置索引为Ui(约N/K个元素)。然后寻找最优离散下标(即C1(s)离散化后的位置索引)的对应关系,表示如下:j=f(Ui)。
根据一些实施例,确定C1(s)中的与C0(t)所对应的最优对应离散点,其所利用的所述代价函数可以为:
上述公式中形式为(a,b,c)的表达式表示三个矢量的混合积,即(a,b,c)=a╳b·c;表示第一条3D激光准线离散化并降采样K倍后的第Ui个弧长参数值,/>表示第二条3D激光准线C1(s)离散化后第f(Ui)个弧长参数值。/>表示第一条准线离散化后并降采样K倍后第Ui个曲线坐标,/>表示第二条准线离散化后第f(Ui)个曲线3D坐标。
根据一些实施例,可以首先计算候选中心点下标j=f(Ui-1)+Ui-Ui-1,则搜索的下标范围(即最优对应范围)可以为:[f(Ui-1)+1,f(Ui-1)+2(Ui-Ui-1)]。由此,可以通过设置搜索步长,在保证范围的同时,减少搜索路径数目,而性能基本保持不变。
需要说明的是,确定曲面直母线的方式并不局限于所述一种,例如,也可以分别计算第一3D激光准线的n个第一离散点集合各自对应的切面法向量和切向量,以及第二3D激光准线的N个第二离散点集合各自对应的切面法向量和切向量,可以利用同一直母线上法向量的一致性原则确定曲面直母线方程。换言之,两条3D激光准线之间的法向量相等的两个离散点是候选最优对应点,这两个离散点间的连线是候选直母线。所以,可通过离散点间的法向量的相似程度以及离散点变化快慢来计算曲面直母线。
根据一些实施例,步骤S106、对所述旋转矫正图像进行展平矫正,得到最终矫正图像可以包括:将所述旋转矫正图像正投影至所述摄像机的像平面上,得到映射图像;以及对所述映射图像进行插值,得到最终矫正图像。由于3D旋转矫正图像不存在倾斜透视问题,文本行是一条直线,因此,通过对3D旋转矫正图像进行正投影和调整间距,能够达到展平弯曲曲面的目的,进而能够保证对待识别对象进行文字识别的准确性。在图8所示的示例中,示意了3D所得到的最终矫正图像,从图中可以看出最终矫正图像中的文本行位于一条直线上。图8中左上角的黑白条纹图形为边界值插值结果,不具有实际意义。
根据一些实施例,对所述映射图像进行插值,得到最终矫正图像可以包括:针对所述映射图像,计算沿预设方向相邻的两个像素之间的3D距离;以及基于所述3D距离,沿所述预设方向对所述映射图像进行插值,得到所述最终矫正图像。由于经过旋转和正投影后,一致性弯曲的曲面只在Xc0cZc平面内有隆起或者凹陷。因此,可以沿Xc坐标轴进行插值,调整像素之间的距离,由此来进行展平矫正,具有容易实现、计算量小等优点。
在示例性实施例中,可以获取中间一条与Xc坐标轴平行的直线的3D坐标,计算相邻像素点的3D距离作为两个像素的新间距。可以利用新间距进行2D格点插值,得到插值图像(即,最终矫正图像)。在示例性实施例中,2D格点可以采用线性插值来完成:(1-a)*P1+a*P2。其中,P1和P2表示相邻的两个2D离散的坐标以及像素值,a是要插入的像素点(整数格点)和P1的距离,占P1和P2间距离的比例。可以理解的是,也可以采用其它插值方法来进行图像插值,例如,最近邻插值、双平方插值、双立方插值等,在此不作限定。
本公开的技术方案具有以下优点:
本公开可以用于解决倾斜拍摄下的一致性弯曲书页问题。该一致性弯曲在书本等文本载体的拍摄中是典型场景。而现有的展平算法在倾斜透视拍摄中无法有效展平。本公开在倾斜透视拍摄能够有效展平的原因是:在摊开的书本每个字的正上方向下看,文本行是一条直线,故通过将待识别对象旋转至与摄像机的光轴垂直,并正投影至摄像机的像平面,然后调整像素之间的间距,可达到展平的目的;
现有展平算法在确定曲面直母线时,需要设置弧长对应函数的斜率区间。但在倾斜视角下,最短路径上弧长对应函数的斜率范围非常大,为保证涵盖该斜率范围,计算量非常大。而本公开将弧长对应关系转化为下标对应关系,根据当前状态自适应设置搜索范围,计算量小;
本公开不需要对曲面进行展平,而且因为倾斜透视的问题,现有的曲面展平算法不能实现曲面展平。而本公开采用待识别对象的多个曲面采样绕设定点旋转至与摄像机的光轴垂直,然后投影到像平面的方法,计算量小,并且能够解决倾斜透视问题。
根据本公开的另一方面,提供一种电子电路,包括:被配置为执行根据如上所述的文本图像的矫正方法的步骤的电路。
根据本公开的另一方面,提供一种文本图像的矫正装置,包括:至少两个激光器,被配置为发出的激光发出的激光倾斜投射在待识别对象上,以在所述待识别对象上形成至少两条激光线;摄像机,被配置为在所述至少两个激光器开启时倾斜拍摄包括所述待识别对象的初始图像,所述初始图像包括所述至少两条激光线,所述摄像机的光轴与所述待识别对象的放置面不垂直;以及如上所述的电子电路。
根据一些实施例,所述至少两条激光器可以采用一字线激光器,所述至少两条激光器中的每一个所述激光器的激光出射面可以与所述摄像机的光轴平行。由此,在摄像机的相机坐标系中,在与摄像机的光轴垂直的其中一个坐标轴(x轴或y轴,具体由摄像机和激光器的位置关系而定)上每一条激光线所包括的所有像素的坐标相同,从而能够简化算法。可以理解的是,在此并不限定所述至少两个激光器中的每一个所述激光器的激光出射方向必须与所述摄像机的光轴平行,只要所述至少两个激光器和摄像机的位置关系已知,并且所述至少两个激光器发出的激光投射在待识别对象上形成的至少两条激光线能够表征待识别对象的弯曲形状,所述摄像机能够拍摄的初始图像中至少两条激光线也能够表征待识别对象的弯曲形状即可,均能够实现本公开的技术方案。
根据一些实施例,如图2所示,所述矫正装置还可以包括:支架200。其中,摄像机101和所述至少两个激光器(例如图中示出的第一激光器102和第二激光器103)均固定装配在支架200上,并且位于待识别对象100的同一侧,以简化矫正装置的结构。可以理解的是,摄像机例如也可以设置在所述待识别对象的与所述至少两个激光器所在侧相对的另一侧,即所述摄像机和所述至少两个激光器位于待识别对象的相对两侧。在这种情况下,可以设置两个支架,分别用于固定摄像机和至少两个激光器。将理解的是,只要摄像机和至少两个激光器相对位置关系已知,均能够实现本公开的技术方案。
在示例性实施例中,从所述待识别对象的一侧边到相对的另一侧边,所述待识别对象的弯曲形状可以大致相同。摄像机和至少两个激光器可以设置在待识别对象的所述一侧边所在的一侧,从而所述至少两个激光器投射在待识别对象上形成的至少两条激光线能够表征待识别对象的弯曲形状。
根据一些实施例,所述至少两个激光器可以包括第一激光器102和第二激光器103,所述第一激光器和第二激光器可以位于所述摄像机的光轴的相对两侧,从而第一激光器102和第二激光器103在待识别对象上投射的相应的激光线能够表征待识别对象的不同区域的弯曲形状,提高后续的弯曲矫正效果。
根据一些实施例,第一激光器102和第二激光器103可以采用一字线激光器,在与所述摄像机的光轴垂直的方向上,第一激光器102和第二激光器203与所述摄像机之间的距离可以相同,也可以不同。
根据本公开的另一方面,提供一种电子设备,包括:处理器;以及存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行上述的矫正方法。
根据本公开的另一方面,提供一种存储程序的非暂态计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行上述的矫正方法。
图9是示出根据本公开的示例性实施例的电子设备的示例的框图。要注意的是,图9所示出的结构仅是一个示例,根据具体的实现方式,本公开的电子设备可以仅包括图9所示出的组成部分中的一种或多个。
电子设备2000例如可以是通用计算机(例如膝上型计算机、平板计算机等等各种计算机)、移动电话、个人数字助理。根据一些实施例,电子设备2000可以是视障辅助设备。
电子设备2000可被配置为拍摄图像,对所拍摄的图像进行处理,并且响应于所述处理所获得的数据而提供声音提示。例如,电子设备2000可被配置为拍摄图像,对该图像进行文字检测和/或识别以获得文字数据,将文字数据转换成声音数据,并且输出声音数据供用户聆听。
根据一些实施方式,所述电子设备2000可以被配置为包括眼镜架或者被配置为能够可拆卸地安装到眼镜架(例如眼镜架的镜框、连接两个镜框的连接件、镜腿或任何其他部分)上,从而能够拍摄到近似包括用户的视野的图像。
根据一些实施方式,所述电子设备2000也可被安装到其它可穿戴设备上,或者与其它可穿戴设备集成为一体。所述可穿戴设备例如可以是:头戴式设备(例如头盔或帽子等)、可佩戴在耳朵上的设备等。根据一些实施例,所述电子设备可被实施为可附接到可穿戴设备上的配件,例如可被实施为可附接到头盔或帽子上的配件等。
根据一些实施方式,所述电子设备2000也可具有其他形式。例如,电子设备2000可以是移动电话、通用计算设备(例如膝上型计算机、平板计算机等)、个人数字助理,等等。电子设备2000也可以具有底座,从而能够被安放在桌面上。
根据一些实施方式,所述电子设备2000作为视障辅助设备可以用于辅助阅读,在这种情况下,所述电子设备2000有时也被称为“电子阅读器”或“阅读辅助设备”。借助于电子设备2000,无法自主阅读的用户(例如视力障碍人士、存在阅读障碍的人士等)可以采用类似阅读姿势的姿势即可实现对常规读物(例如书本、杂志等)的“阅读”。在“阅读”过程中,所述电子设备2000可以拍摄图像,获取包括待识别对象的初始图像。所述电子设备2000还可以对所述初始图像进行弯曲矫正,得到最终矫正图像,然后对所述最终矫正图像中的文本区域的文字进行版面分析、文字检测和文字识别(例如利用光学文字识别OCR方法),以获得文字数据,克服文本弯曲对识别待识别对象中的文字的影响,提高文字识别效率和准确性。然后可以将文字数据转换成声音数据,并且通过扬声器或耳机等声音输出设备输出所述声音数据供用户聆听。
电子设备2000可以包括摄像机2004,用于获取图像。摄像机2004可以包括但不限于摄像头或照相机等,被配置为获取包括待识别对象的初始图像。电子设备2000还可以包括电子电路2100,所述电子电路2100包括被配置为执行如前所述的方法的步骤(例如图1和图3的流程图中所示的方法步骤)的电路。电子设备2100还可以包括文字识别电路2005,所述文字识别电路2005被配置为对所述初始图像中待识别对象的文字区域的文字进行文字检测和/或识别(例如OCR处理),从而获得文字数据。所述文字识别电路2005例如可以通过专用芯片实现。电子设备2000还可以包括声音转换电路2006,所述声音转换电路2006被配置为将所述文字数据转换成声音数据。所述声音转换电路2006例如可以通过专用芯片实现。电子设备2000还可以包括声音输出电路2007,所述声音输出电路2007被配置为输出所述声音数据。所述声音输出电路2007可以包括但不限于耳机、扬声器、或振动器等,及其相应驱动电路。
根据一些实施方式,所述电子设备2000还可以包括图像处理电路2008,所述图像处理电路2008可以包括被配置为对图像进行各种图像处理的电路。图像处理电路2008例如可以包括但不限于以下中的一个或多个:被配置为对图像进行降噪的电路、被配置为对图像进行去模糊化的电路、被配置为对图像进行几何矫正的电路、被配置为对图像进行特征提取的电路、被配置为对图像中的对象进行对象检测和/或识别的电路、被配置为对图像中包含的文字进行文字检测的电路、被配置为从图像中提取文本行的电路、被配置为从图像中提取文字坐标的电路、被配置为从图像中提取对象框的电路、被配置为从图像中提取文本框的电路、被配置为基于图像进行版面分析(例如段落划分)的电路,等等。
根据一些实施方式,电子电路2100还可以包括文字处理电路2009,所述文字处理电路2009可以被配置为基于所提取的与文字有关的信息(例如文字数据、文本框、段落坐标、文本行坐标、文字坐标等)进行各种处理,从而获得诸如段落排序、文字语义分析、版面分析结果等处理结果。
上述的各种电路(例如文字识别电路2005、声音转换电路2006、声音输出电路2007、图像处理电路2008、文字处理电路2009、电子电路2100中的一个或多个可以使用定制硬件,和/或可以用硬件、软件、固件、中间件、微代码,硬件描述语言或其任何组合来实现。例如,上述的各种电路中的一个或多个可以通过使用根据本公开的逻辑和算法,用汇编语言或硬件编程语言(诸如VERILOG,VHDL,C++)对硬件(例如,包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)进行编程来实现。
根据一些实施方式,电子设备2000还可以包括通信电路2010,所述通信电路2010可以是使得能够与外部设备和/或与网络通信的任何类型的设备或系统,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信设备和/或芯片组,例如蓝牙设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
根据一些实施方式,电子设备2000还可以包括输入设备2011,所述输入设备2011可以是能向电子设备2000输入信息的任何类型的设备,并且可以包括但不限于各种传感器、鼠标、键盘、触摸屏、按钮、控制杆、麦克风和/或遥控器等等。
根据一些实施方式,电子设备2000还可以包括输出设备2012,所述输出设备2012可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、视觉输出终端、振动器和/或打印机等。尽管电子设备2000根据一些实施例用于视障辅助设备,基于视觉的输出设备可以方便用户的家人或维修工作人员等从电子设备2000获得输出信息。
根据一些实施方式,电子设备2000还可以包括处理器2001。所述处理器2001可以是任何类型的处理器,并且可以包括但不限于一个或多个通用处理器和/或一个或多个专用处理器(例如特殊处理芯片)。处理器2001例如可以是但不限于中央处理单元CPU或微处理器MPU等等。电子设备2000还可以包括工作存储器2002,所述工作存储器2002可以存储对处理器2001的工作有用的程序(包括指令)和/或数据(例如图像、文字、声音,以及其他中间数据等)的工作存储器,并且可以包括但不限于随机存取存储器和/或只读存储器设备。电子设备2000还可以包括存储设备2003,所述存储设备2003可以包括任何非暂时性存储设备,非暂时性存储设备可以是非暂时性的并且可以实现数据存储的任何存储设备,并且可以包括但不限于磁盘驱动器、光学存储设备、固态存储器、软盘、柔性盘、硬盘、磁带或任何其他磁介质,光盘或任何其他光学介质、ROM(只读存储器)、RAM(随机存取存储器)、高速缓冲存储器和/或任何其他存储器芯片或盒、和/或计算机可从其读取数据、指令和/或代码的任何其他介质。工作存储器2002和存储设备2003可以被集合地称为“存储器”,并且在有些情况下可以相互兼用。
根据一些实施方式,处理器2001可以对摄像机101、文字识别电路2005、声音转换电路2006、声音输出电路2007、图像处理电路2008、文字处理电路2009、通信电路2010、电子电路2100以及电子设备2000包括的其他各种装置和电路中的至少一个进行控制和调度。根据一些实施方式,图9中所述的各个组成部分中的至少一些可通过总线2013而相互连接和/或通信。
软件要素(程序)可以位于所述工作存储器2002中,包括但不限于操作系统2002a、一个或多个应用程序2002b、驱动程序和/或其他数据和代码。
根据一些实施方式,用于进行前述的控制和调度的指令可以被包括在操作系统2002a或者一个或多个应用程序2002b中。
根据一些实施方式,执行本公开所述的方法步骤(例如图1和图3的流程图中所示的方法步骤)的指令可以被包括在一个或多个应用程序2002b中,并且上述电子设备2000的各个模块可以通过由处理器2001读取和执行一个或多个应用程序2002b的指令来实现。换言之,电子设备2000可以包括处理器2001以及存储程序的存储器(例如工作存储器2002和/或存储设备2003),所述程序包括指令,所述指令在由所述处理器2001执行时使所述处理器2001执行如本公开各种实施例所述的方法。
根据一些实施方式,文字识别电路2005、声音转换电路2006、图像处理电路2008、文字处理电路2009、电子电路2100中的至少一个所执行的操作中的一部分或者全部可以由处理器2001读取和执行一个或多个应用程序2002的指令来实现。
软件要素(程序)的指令的可执行代码或源代码可以存储在非暂时性计算机可读存储介质(例如所述存储设备2003)中,并且在执行时可以被存入工作存储器2001中(可能被编译和/或安装)。因此,本公开提供存储程序的计算机可读存储介质,所述程序包括指令,所述指令在由电子设备(例如视障辅助设备)的处理器执行时,致使所述电子设备执行如本公开各种实施例所述的方法。根据另一种实施方式,软件要素(程序)的指令的可执行代码或源代码也可以从远程位置下载。
还应该理解,可以根据具体要求而进行各种变型。例如,也可以使用定制硬件,和/或可以用硬件、软件、固件、中间件、微代码,硬件描述语言或其任何组合来实现各个电路、单元、模块或者元件。例如,所公开的方法和设备所包含的电路、单元、模块或者元件中的一些或全部可以通过使用根据本公开的逻辑和算法,用汇编语言或硬件编程语言(诸如VERILOG,VHDL,C++)对硬件(例如,包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)进行编程来实现。
根据一些实施方式,电子设备2000中的处理器2001可以分布在网络上。例如,可以使用一个处理器执行一些处理,而同时可以由远离该一个处理器的另一个处理器执行其他处理。电子设备2000的其他模块也可以类似地分布。这样,电子设备2000可以被解释为在多个位置执行处理的分布式计算系统。
虽然已经参照附图描述了本公开的实施例或示例,但应理解,上述的方法、系统和设备仅仅是示例性的实施例或示例,本发明的范围并不由这些实施例或示例限制,而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外,可以通过不同于本公开中描述的次序来执行各步骤。进一步地,可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进,在此描述的很多要素可以由本公开之后出现的等同要素进行替换。
下面描述本公开的一些示例性方面。
方面1.一种文本图像的矫正方法,包括:
开启至少两个激光器,发出的激光投射在待识别对象上,以在所述待识别对象上形成至少两条激光线;
获取摄像机在所述至少两个激光器开启时倾斜拍摄的包括所述待识别对象的初始图像,所述初始图像包括所述至少两条激光线,所述摄像机的光轴与所述待识别对象的放置面不垂直;
确定所述待识别对象绕所述待识别对象上的一设定点旋转至与所述摄像机的光轴垂直所对应的旋转矩阵;
至少基于所述至少两条激光线,确定所述初始图像相应的3D图像;
利用所述旋转矩阵,获取所述3D图像绕所述设定点旋转至与所述摄像机的光轴垂直所得到的旋转矫正图像;以及
对所述旋转矫正图像进行展平矫正,得到最终矫正图像。
方面2.如方面1所述的矫正方法,其中,所述至少两个激光器采用一字线激光器,所述至少两个激光器中的每一个所述激光器的激光出射面与所述摄像机的光轴平行。
方面3.如方面2所述的矫正方法,其中,所述至少两个激光器包括第一激光器和第二激光器,所述第一激光器和第二激光器位于所述摄像机的光轴的相对两侧。
方面4.如方面1-3中任一项所述的矫正方法,其中,至少基于所述至少两条激光线,确定所述旋转矩阵。
方面5.如方面4所述的矫正方法,其中,至少基于所述至少两条激光线,确定所述旋转矩阵包括:
基于所述初始图像、所述摄像机的内参、以及所述激光器和所述摄像机的位置关系,确定所述至少两条激光线中的每一条相应的3D激光准线;以及
基于至少两条所述3D激光准线和所述设定点,确定所述旋转矩阵。
方面6.如方面5所述的矫正方法,其中,基于至少两条所述3D激光准线以及所述设定点,确定所述旋转矩阵包括:
计算至少两条所述3D激光准线中的每一条的平均深度;以及
基于至少两条所述3D激光准线的平均深度和所述设定点,确定所述旋转矩阵。
方面7.如方面6所述的矫正方法,其中,所述设定点为所述摄像机的光轴与所述待识别对象的交点。
方面8.如方面5所述的矫正方法,其中,确定所述至少两条激光线中的每一条相应的3D激光准线包括:
利用摄像机成像的三角相似原理计算所述至少两条激光线中的每一条的深度信息。
方面9.如方面1-3中任一项所述的矫正方法,其中,至少基于所述至少两条激光线,确定所述初始图像相应的3D图像包括:
基于所述初始图像、所述摄像机的内参、以及所述激光器和所述摄像机的位置关系,确定所述至少两条激光线中的每一条相应的3D激光准线;
基于至少两条所述3D激光准线,确定多条曲面直母线;以及
至少基于所述多条曲面直母线和至少两条所述3D激光准线,确定多个第一曲面采样点以及每一第一曲面采样点的三维坐标,
其中,所述3D图像由所述多个第一曲面采样点来表示。
方面10.如方面9所述的矫正方法,其中,获取所述旋转矫正图像包括:
基于所述多个第一曲面采样点中的每一第一曲面采样点的深度、所述设定点的深度,利用所述旋转矩阵确定所述多个第一曲面采样点各自相对所述设定点旋转后所得到的多个第二曲面采样点,
其中,所述旋转矫正图像由所述多个第二曲面采样点来表示。
方面11.如方面9所述的矫正方法,其中,所述至少两条3D激光准线包括第一3D激光准线和第二3D激光准线,
其中,确定多条曲面直母线包括:
对第一3D激光准线进行采样,得到n个第一离散点;
对第二3D激光准线进行采样,得到N个第二离散点,其中,n和N为正整数,并且N>n;
针对n个第一离散点中的每一个,根据预设规则从N个第二离散点中确定其中一个第二离散点为该第一离散点的最优对应离散点,其中,第一3D激光准线的通过该第一离散点的法向量和第二3D激光准线的通过该最优对应离散点的法向量一致;以及
基于n个第一离散点以及相应的最优对应离散点,确定所述多条曲面直母线。
方面12.如方面11所述的矫正方法,其中,根据预设规则从N个第二离散点中确定其中一个第二离散点为该第一离散点的最优对应离散点包括:
确定所述第二3D激光准线的与该第一离散点对应的最优对应范围,所述最优对应范围包括所述N个第二离散点中的至少一个第二离散点;
计算该第一离散点与相应最优对应范围中的每一个第二离散点之间的代价函数;
基于代价函数,从相应的最优对应范围中确定其中一个第二离散点为该第一离散点对应的最优对应离散点。
方面13.如方面1-3中任一项所述的矫正方法,其中,对所述旋转矫正图像进行展平矫正,得到最终矫正图像包括:
将所述旋转矫正图像正投影至所述摄像机的像平面上,得到映射图像;以及
对所述映射图像进行插值,得到最终矫正图像。
方面14.如方面13所述的矫正方法,其中,对所述映射图像进行插值,得到最终矫正图像包括:
针对所述映射图像,计算沿预设方向相邻的两个像素之间的3D距离;以及
基于所述3D距离,沿所述预设方向对所述映射图像进行插值,得到所述最终矫正图像。
方面15.如方面1-3中任一项所述的矫正方法,其中,从所述待识别对象的一侧边到相对的另一侧边,所述待识别对象的弯曲形状大致相同。
方面16.如方面15所述的矫正方法,其中,所述至少两个激光器设置在所述待识别对象的所述一侧边所在的一侧。
方面17.如方面1-3中任一项所述的矫正方法,还包括:
获取摄像机在所述至少两个激光器关闭时拍摄的包括所述待识别对象的比对图像;以及
基于所述初始图像和所述比对图像,获取所述至少两条激光线在所述初始图像中的位置信息。
方面18.如方面17所述的矫正方法,其中,获取所述至少两条激光线在所述初始图像中的位置信息包括:
对所述初始图像和所述比对图像进行模糊处理,得到初始模糊图像和比对模糊图像;
计算所述初始模糊图像和比对模糊图像之间的差值,得到差值图像;
提取所述差值图像的红色通道图像,得到红色通道差值图像;以及
基于所述红色通道差值图像,获取所述至少两条激光线在所述初始图像中的位置信息。
方面19.如方面1所述的矫正方法,其中,所述待识别对象包括文本区域。
方面20.一种电子电路,包括:
被配置为执行根据方面1-19中任一项所述的矫正方法的步骤的电路。
方面21.一种文本图像的矫正装置,包括:
至少两个激光器,被配置为发出的激光发出的激光投射在待识别对象上,以在所述待识别对象上形成至少两条激光线;
摄像机,被配置为在所述至少两个激光器开启时倾斜拍摄包括所述待识别对象的初始图像,所述初始图像包括所述至少两条激光线,所述摄像机的光轴与所述待识别对象的放置面不垂直;以及
如方面20所述的电子电路。
方面22.如方面21所述的矫正装置,其中,所述至少两个激光器采用一字线激光器,所述至少两个激光器中的每一个所述激光器的激光出射面与所述摄像机的光轴平行。
方面23.如方面21所述的矫正装置,还包括:
支架,
其中,所述摄像机和所述至少两个激光器均固定装配在所述支架上并且位于待识别对象的同一侧。
方面24.如方面23所述的矫正装置,其中,所述至少两个激光器包括第一激光器和第二激光器,所述第一激光器和第二激光器位于所述摄像机的光轴的相对两侧。
方面25.一种电子设备,包括:
处理器;以及
存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据方面1-19中任一项所述的矫正方法。
方面26.一种存储程序的非暂态计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行根据方面1-19中任一项所述的矫正方法。

Claims (26)

1.一种文本图像的矫正方法,包括:
开启至少两个激光器,发出的激光投射在待识别对象上,以在所述待识别对象上形成至少两条激光线;
获取摄像机在所述至少两个激光器开启时倾斜拍摄的包括所述待识别对象的初始图像,所述初始图像包括所述至少两条激光线,所述摄像机的光轴与所述待识别对象的放置面不垂直;
确定所述待识别对象绕所述待识别对象上的一设定点旋转至与所述摄像机的光轴垂直所对应的旋转矩阵;
至少基于所述至少两条激光线,确定所述初始图像相应的3D图像;
利用所述旋转矩阵,获取所述3D图像绕所述设定点旋转至与所述摄像机的光轴垂直所得到的旋转矫正图像;以及
对所述旋转矫正图像进行展平矫正,得到最终矫正图像。
2.如权利要求1所述的矫正方法,其中,所述至少两个激光器采用一字线激光器,所述至少两个激光器中的每一个所述激光器的激光出射面与所述摄像机的光轴平行。
3.如权利要求2所述的矫正方法,其中,所述至少两个激光器包括第一激光器和第二激光器,所述第一激光器和第二激光器位于所述摄像机的光轴的相对两侧。
4.如权利要求1-3中任一项所述的矫正方法,其中,至少基于所述至少两条激光线,确定所述旋转矩阵。
5.如权利要求4所述的矫正方法,其中,至少基于所述至少两条激光线,确定所述旋转矩阵包括:
基于所述初始图像、所述摄像机的内参、以及所述激光器和所述摄像机的位置关系,确定所述至少两条激光线中的每一条相应的3D激光准线;以及
基于至少两条所述3D激光准线和所述设定点,确定所述旋转矩阵。
6.如权利要求5所述的矫正方法,其中,基于至少两条所述3D激光准线以及所述设定点,确定所述旋转矩阵包括:
计算至少两条所述3D激光准线中的每一条的平均深度;以及
基于至少两条所述3D激光准线的平均深度和所述设定点,确定所述旋转矩阵。
7.如权利要求6所述的矫正方法,其中,所述设定点为所述摄像机的光轴与所述待识别对象的交点。
8.如权利要求5所述的矫正方法,其中,确定所述至少两条激光线中的每一条相应的3D激光准线包括:
利用摄像机成像的三角相似原理计算所述至少两条激光线中的每一条的深度信息。
9.如权利要求1-3中任一项所述的矫正方法,其中,至少基于所述至少两条激光线,确定所述初始图像相应的3D图像包括:
基于所述初始图像、所述摄像机的内参、以及所述激光器和所述摄像机的位置关系,确定所述至少两条激光线中的每一条相应的3D激光准线;
基于至少两条所述3D激光准线,确定多条曲面直母线;以及
至少基于所述多条曲面直母线和至少两条所述3D激光准线,确定多个第一曲面采样点以及每一第一曲面采样点的三维坐标,
其中,所述3D图像由所述多个第一曲面采样点来表示。
10.如权利要求9所述的矫正方法,其中,获取所述旋转矫正图像包括:
基于所述多个第一曲面采样点中的每一第一曲面采样点的深度、所述设定点的深度,利用所述旋转矩阵确定所述多个第一曲面采样点各自相对所述设定点旋转后所得到的多个第二曲面采样点,
其中,所述旋转矫正图像由所述多个第二曲面采样点来表示。
11.如权利要求9所述的矫正方法,其中,所述至少两条3D激光准线包括第一3D激光准线和第二3D激光准线,
其中,确定多条曲面直母线包括:
对第一3D激光准线进行采样,得到n个第一离散点;
对第二3D激光准线进行采样,得到N个第二离散点,其中,n和N为正整数,并且N>n;
针对n个第一离散点中的每一个,根据预设规则从N个第二离散点中确定其中一个第二离散点为该第一离散点的最优对应离散点,其中,第一3D激光准线的通过该第一离散点的法向量和第二3D激光准线的通过该最优对应离散点的法向量一致;以及
基于n个第一离散点以及相应的最优对应离散点,确定所述多条曲面直母线。
12.如权利要求11所述的矫正方法,其中,根据预设规则从N个第二离散点中确定其中一个第二离散点为该第一离散点的最优对应离散点包括:
确定所述第二3D激光准线的与该第一离散点对应的最优对应范围,所述最优对应范围包括所述N个第二离散点中的至少一个第二离散点;
计算该第一离散点与相应最优对应范围中的每一个第二离散点之间的代价函数;
基于代价函数,从相应的最优对应范围中确定其中一个第二离散点为该第一离散点对应的最优对应离散点。
13.如权利要求1-3中任一项所述的矫正方法,其中,对所述旋转矫正图像进行展平矫正,得到最终矫正图像包括:
将所述旋转矫正图像正投影至所述摄像机的像平面上,得到映射图像;以及
对所述映射图像进行插值,得到最终矫正图像。
14.如权利要求13所述的矫正方法,其中,对所述映射图像进行插值,得到最终矫正图像包括:
针对所述映射图像,计算沿预设方向相邻的两个像素之间的3D距离;以及
基于所述3D距离,沿所述预设方向对所述映射图像进行插值,得到所述最终矫正图像。
15.如权利要求1-3中任一项所述的矫正方法,其中,从所述待识别对象的一侧边到相对的另一侧边,所述待识别对象的弯曲形状大致相同。
16.如权利要求15所述的矫正方法,其中,所述至少两个激光器设置在所述待识别对象的所述一侧边所在的一侧。
17.如权利要求1-3中任一项所述的矫正方法,还包括:
获取摄像机在所述至少两个激光器关闭时拍摄的包括所述待识别对象的比对图像;以及
基于所述初始图像和所述比对图像,获取所述至少两条激光线在所述初始图像中的位置信息。
18.如权利要求17所述的矫正方法,其中,获取所述至少两条激光线在所述初始图像中的位置信息包括:
对所述初始图像和所述比对图像进行模糊处理,得到初始模糊图像和比对模糊图像;
计算所述初始模糊图像和比对模糊图像之间的差值,得到差值图像;
提取所述差值图像的红色通道图像,得到红色通道差值图像;以及
基于所述红色通道差值图像,获取所述至少两条激光线在所述初始图像中的位置信息。
19.如权利要求1所述的矫正方法,其中,所述待识别对象包括文本区域。
20.一种电子电路,包括:
被配置为执行根据权利要求1-19中任一项所述的矫正方法的步骤的电路。
21.一种文本图像的矫正装置,包括:
至少两个激光器,被配置为发出的激光发出的激光投射在待识别对象上,以在所述待识别对象上形成至少两条激光线;
摄像机,被配置为在所述至少两个激光器开启时倾斜拍摄包括所述待识别对象的初始图像,所述初始图像包括所述至少两条激光线,所述摄像机的光轴与所述待识别对象的放置面不垂直;以及
如权利要求20所述的电子电路。
22.如权利要求21所述的矫正装置,其中,所述至少两个激光器采用一字线激光器,所述至少两个激光器中的每一个所述激光器的激光出射面与所述摄像机的光轴平行。
23.如权利要求21所述的矫正装置,还包括:
支架,
其中,所述摄像机和所述至少两个激光器均固定装配在所述支架上并且位于待识别对象的同一侧。
24.如权利要求23所述的矫正装置,其中,所述至少两个激光器包括第一激光器和第二激光器,所述第一激光器和第二激光器位于所述摄像机的光轴的相对两侧。
25.一种电子设备,包括:
处理器;以及
存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-19中任一项所述的矫正方法。
26.一种存储程序的非暂态计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行根据权利要求1-19中任一项所述的矫正方法。
CN202011449361.6A 2020-12-09 2020-12-09 文本图像的矫正方法及装置、设备和介质 Active CN112541506B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011449361.6A CN112541506B (zh) 2020-12-09 2020-12-09 文本图像的矫正方法及装置、设备和介质
PCT/CN2021/135750 WO2022121843A1 (zh) 2020-12-09 2021-12-06 文本图像的矫正方法及装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011449361.6A CN112541506B (zh) 2020-12-09 2020-12-09 文本图像的矫正方法及装置、设备和介质

Publications (2)

Publication Number Publication Date
CN112541506A CN112541506A (zh) 2021-03-23
CN112541506B true CN112541506B (zh) 2023-11-28

Family

ID=75020073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011449361.6A Active CN112541506B (zh) 2020-12-09 2020-12-09 文本图像的矫正方法及装置、设备和介质

Country Status (2)

Country Link
CN (1) CN112541506B (zh)
WO (1) WO2022121843A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541506B (zh) * 2020-12-09 2023-11-28 上海肇观电子科技有限公司 文本图像的矫正方法及装置、设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105118040A (zh) * 2015-09-18 2015-12-02 中国科学院自动化研究所 基于结构激光线的文档图像畸变矫正方法
CN106778739A (zh) * 2016-12-02 2017-05-31 中国人民解放军国防科学技术大学 一种曲面化变形文本页面图像矫正方法
CN109444163A (zh) * 2018-08-24 2019-03-08 辽宁省交通规划设计院有限责任公司 获取透视畸变逆变换矩阵的系统及其获取方法
CN109993160A (zh) * 2019-02-18 2019-07-09 北京联合大学 一种图像矫正及文本与位置识别方法及系统
CN111210468A (zh) * 2018-11-22 2020-05-29 中移(杭州)信息技术有限公司 一种图像深度信息获取方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10972624B2 (en) * 2016-05-31 2021-04-06 Dalian Czur Tech Co., Ltd. Smart internet high-definition scanner with laser correction
CN112541506B (zh) * 2020-12-09 2023-11-28 上海肇观电子科技有限公司 文本图像的矫正方法及装置、设备和介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105118040A (zh) * 2015-09-18 2015-12-02 中国科学院自动化研究所 基于结构激光线的文档图像畸变矫正方法
CN106778739A (zh) * 2016-12-02 2017-05-31 中国人民解放军国防科学技术大学 一种曲面化变形文本页面图像矫正方法
CN109444163A (zh) * 2018-08-24 2019-03-08 辽宁省交通规划设计院有限责任公司 获取透视畸变逆变换矩阵的系统及其获取方法
CN111210468A (zh) * 2018-11-22 2020-05-29 中移(杭州)信息技术有限公司 一种图像深度信息获取方法及装置
CN109993160A (zh) * 2019-02-18 2019-07-09 北京联合大学 一种图像矫正及文本与位置识别方法及系统

Also Published As

Publication number Publication date
WO2022121843A1 (zh) 2022-06-16
CN112541506A (zh) 2021-03-23

Similar Documents

Publication Publication Date Title
EP3940589A1 (en) Layout analysis method, electronic device and computer program product
US20090245655A1 (en) Detection of Face Area and Organ Area in Image
US20150178903A1 (en) Image correction apparatus for correcting distortion of an image
US11132800B2 (en) Real time perspective correction on faces
CN111126394A (zh) 文字识别方法、阅读辅助设备、电路和介质
EP3791356B1 (en) Perspective distortion correction on faces
CN105989326B (zh) 人眼三维位置信息的确定方法和装置
WO2022121842A1 (zh) 文本图像的矫正方法及装置、设备和介质
US20090028390A1 (en) Image Processing for Estimating Subject Distance
US20090285457A1 (en) Detection of Organ Area Corresponding to Facial Organ Image in Image
US10621428B1 (en) Layout analysis on image
CN112541506B (zh) 文本图像的矫正方法及装置、设备和介质
JP4957607B2 (ja) 画像における顔領域の検出
JP5256974B2 (ja) 画像処理装置、画像処理方法、及びプログラム
CN111145153B (zh) 图像处理方法、电路、视障辅助设备、电子设备及介质
US11367296B2 (en) Layout analysis
JP6749519B1 (ja) 多角形検出装置、多角形検出方法、及び多角形検出プログラム
JP7110899B2 (ja) 画像処理装置、画像処理方法、及び画像処理プログラム
CN113139537A (zh) 图像处理方法、电子电路、视障辅助设备和介质
JP2011175347A (ja) 情報処理装置および情報処理方法
CN112861735A (zh) 文本图像的识别方法及装置、设备和介质
JP2022077221A (ja) 画像処理装置、画像処理システム、画像処理方法、およびプログラム
JP2022137198A (ja) 画像処理装置、画像処理方法、及び画像処理プログラム
JP4957608B2 (ja) 画像における顔領域の検出
JP2009237620A (ja) 画像における顔領域および器官領域の検出

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant