CN112861735A - 文本图像的识别方法及装置、设备和介质 - Google Patents

文本图像的识别方法及装置、设备和介质 Download PDF

Info

Publication number
CN112861735A
CN112861735A CN202110185484.1A CN202110185484A CN112861735A CN 112861735 A CN112861735 A CN 112861735A CN 202110185484 A CN202110185484 A CN 202110185484A CN 112861735 A CN112861735 A CN 112861735A
Authority
CN
China
Prior art keywords
image
recognized
camera
initial
laser
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110185484.1A
Other languages
English (en)
Inventor
张鹏
蔡海蛟
冯歆鹏
周骥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NextVPU Shanghai Co Ltd
Original Assignee
NextVPU Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NextVPU Shanghai Co Ltd filed Critical NextVPU Shanghai Co Ltd
Priority to CN202110185484.1A priority Critical patent/CN112861735A/zh
Publication of CN112861735A publication Critical patent/CN112861735A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)

Abstract

本公开提供一种文本图像的识别方法,包括:获取摄像机分别对焦至待识别对象的多个预设位置执行拍摄所得到的多个初始图像,所述多个初始图像中每一个初始图像包括所述待识别对象的至少一部分,并且基于所述多个初始图像能够得到完整的待识别对象,所述待识别对象包括文本区域;基于所述多个初始图像,对所述待识别对象进行文字识别。

Description

文本图像的识别方法及装置、设备和介质
技术领域
本申请涉及人工智能技术领域,特别涉及一种文本图像的识别方法及装置、设备和介质。
背景技术
相关技术中可以获取诸如书籍或杂志之类的读物的图像,利用文字识别技术(例如,光学字符识别OCR技术)对图像中的文字进行识别。因此,拍摄得到的文本图像质量直接影响文字识别的准确性。
在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
发明内容
根据本公开的一方面,提供一种文本图像的识别方法,包括:获取摄像机分别对焦至待识别对象的多个摄取位置执行拍摄所得到的多个初始图像,所述多个初始图像中每一个初始图像包括所述待识别对象的至少一部分,并且基于所述多个初始图像能够得到完整的待识别对象,所述待识别对象包括文本区域;基于所述多个初始图像,对所述待识别对象进行文字识别。
根据本公开的另一方面,提供一种电子电路,包括被配置为执行上述的识别方法的步骤的电路。
根据本公开的另一方面,提供一种文本图像的识别装置,包括:摄像机,被配置为分别对焦至待识别对象的多个预设位置执行拍摄,得到多个初始图像;如上所述的电子电路。
根据本公开的另一方面,提供一种电子设备,包括:处理器;以及存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行上述的识别方法。
根据本公开的另一方面,提供一种存储程序的非暂态计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行上述的识别方法。
附图说明
附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
图1是示出根据本公开示例性实施例的文本图像的识别方法的流程图;
图2是示出根据示例性实施例的基于多个初始图像对待识别对象进行文字识别的方法流程图;
图3是示出根据示例性实施例的待识别对象的示意图;
图4是示出根据本公开示例性实施例的文本图像的识别方法的流程图;
图5是示出根据示例性实施例的基于多个初始图像对待识别对象进行文字识别的方法流程图;
图6是示出根据示例性实施例的对初始图像进行倾斜矫正的方法流程图;
图7是示出与相机相关联的相机成像模型的示意图;
图8是示出根据示例性实施例的文本图像的识别装置的工作示意图;
图9是示出根据本公开示例性实施例的激光线、摄像机和待识别对象的位置几何关系示意图;
图10是示出能够应用于示例性实施例的示例性计算设备的结构框图。
具体实施方式
在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
诸如书籍或杂志之类的读物通常会有一定的排版,例如内容会分成不同的段落(例如包括上下的分段和左右的分栏等)。阅读这些读物时,人们通过视觉捕获视野中的图像,通过大脑来对图像中的文字进行段落划分。然而,如果是由机器来“阅读”这些读物,则不仅需要对图像中的文字进行文字识别,还要对这些文字进行段落划分,从而能够以正确的段落次序“阅读”读物中的文字。例如在将纸质书转换成电子书的应用中,或者在将图像中的文字转换成声音信号并输出该声音信号的应用中,可能会用到这种段落划分。在本公开中,“段落划分”是指将图像中的文字划分为成不同段落。上下的段落划分也可称为分段,而左右的段落划分也可称为分栏。
在本公开中,文本行是指相邻文字间距小于阈值间距的文字的序列,即连续的一行文字。相邻文字间距指的是相邻文字的对应位置的坐标之间的距离,例如相邻文字左上角坐标之间、右下角坐标之间或质心坐标之间的距离等。如果相邻文字间距不大于所述阈值间距,则可认为所述相邻文字连续,从而将其划分到同一文本行中。如果相邻文字间距大于所述阈值间距,则可认为所述相邻文字不连续(例如可能分别属于不同的段落或分别属于左右两栏),从而将其划分到不同的文本行中。所述阈值间距可以根据文字大小来设置,例如:字体大小大于四号(如三号、二号)的相邻文字设置的阈值间距大于字体大小为四号以下(如小四、五号)的相邻文字设置的阈值间距。
相关技术中,可以获取诸如书籍或杂志之类的读物的图像,利用文字识别技术(例如,光学字符识别OCR技术)对图像中的文字进行识别。因此,拍摄的文本图像质量直接影响文字识别的准确率。由于摄像机的景深范围有限,拍摄得到的图像中,在焦点前后范围内的图像区域为清晰图像,超出一定范围的图像区域会出现不同程度的模糊现象。基于模糊图像进行文字识别,势必会导致文本识别结果的准确性降低。
为了解决上述技术问题,本公开提供一种文本图像的识别方法,该方法通过获取摄像机分别对焦至待识别对象的多个摄取位置执行拍摄所得到的多个初始图像,并且每一初始图像均包括待识别对象的至少一部分,使得基于多个初始图像能够得到待识别对象的完整清晰图像。从而基于所述多个初始图像对所述待识别对象进行文字识别,能够提高文字识别结果的准确性。
以下将结合附图对根据本公开实施例的文本图像的识别方法进行进一步描述。
图1是示出根据本公开示例性实施例的文本图像的识别方法的流程图。如图1所示,所述识别方法可以包括:步骤S101、获取摄像机分别对焦至待识别对象的多个摄取位置执行拍摄所得到的多个初始图像,所述多个初始图像中每一个初始图像包括所述待识别对象的至少一部分,并且基于所述多个初始图像能够得到完整的待识别对象,所述待识别对象包括文本区域;步骤S102、基于所述多个初始图像,对所述待识别对象进行文字识别。
所述初始图像可以是通过摄像机获取的电子图像数据。摄像机对焦至每一预设位置可以执行一次拍摄,得到一个初始图像。所述摄像机可以是独立装置(例如照相机、视频摄像机、摄像头等),也可以包括在各类电子设备(例如移动电话、计算机、个人数字助理、阅读辅助设备、平板电脑、阅读辅助设备、可穿戴设备等)中。
根据一些实施例,所述初始图像也可以是经过了一些预处理的图像,所述预处理例如可以包括但不限于灰度处理、模糊去除等等。
根据一些实施例,摄像机可以设置于用户的可穿戴设备或眼镜等设备上,从而所述初始图像可以是由该摄像机拍摄的、用户手中所握持的待识别对象的图像。所述待识别对象可包含文字(包括各种国家的文字、数字、字符、标点符号等)、图片等内容。所述待识别对象例如可以为:身份证、名片、护照、驾照、读物、平板电脑或移动电话等。所述文本区域对应于文字所在的区域。
根据一些实施例,多个初始图像中每一初始图像可以均包括完整的待识别对象,从而基于多个初始图像进行文字能够进一步保证文字识别不漏不重复。可以理解的是,多个初始图像中每一个初始图像也可以仅包括所述待识别对象的一部分,或者多个初始图像中的一部分可以均包括完整的待识别对象,而剩余部分可以仅包括所述待识别对象的一部分。
根据一些实施例,多个初始图像可以为所述摄像机倾斜拍摄所得到,即所述摄像机的光轴与所述待识别对象的放置面不垂直,从而便于对焦至待识别对象的多个摄取位置执行拍摄,得到包括待识别对象的多个初始图像。进一步地,倾斜拍摄便于拍摄包括完整待识别对象的初始图像,进而能够保证基于多个初始图像对待识别对象进行文字识别时,不会出现遗漏文本行或对同一文本行重复识别的问题。可以理解的是,所述摄像机的光轴也可以与所述待识别对象的放置面垂直,只要保证摄像机对焦至多个预设位置均能够获得包括完整待识别对象的多个初始图像即可。
根据一些实施例,在摄像机的光轴与待识别对象的放置面不垂直的情况下,摄像机的位置可以固定(可以包括摄像机的光轴与待识别对象的放置面之间的夹角固定),可以通过调整摄像机的像距以使得摄像机分别对焦至待识别对象的多个预设位置。由此,仅通过自动调整像距来调整对焦位置,从而能够拍摄得到待识别对象的不同位置的清晰文字图像,简化设备结构,便于实现。
可以理解的是,摄像机的光轴也可以与待识别对象的放置面垂直,在这种情况下,可以通过移动摄像机来使得摄像机分别对焦至待识别对象的多个预设位置,以拍摄待识别对象的不同位置的清晰文字图像。
以下将结合几个示例性实施例来具体描述如何基于所述多个初始图像,对待识别对象进行文字识别。
在一个示例性实施例中,多个摄取位置可以为多个预设位置。在这种情况下,如图2所示,步骤S102可以包括:步骤S201、在获取所述每一个初始图像之后,对所述初始图像进行版面分析;步骤S202、基于相应的所述预设位置和版面分析结果,提取所述初始图像中预设的多个文本行;步骤S203、对所述多个文本行进行文字识别。由此,针对每一初始图像,基于相应的预设位置,即拍摄该初始图像的对焦位置,能够确定该初始图像的清晰图像区域,并提取该清晰图像区域中预设的多个文本行,文本行从而能够提高文字识别结果的准确性。同时,通过预先设置待提取的多个行(例如,位于对焦位置附近的若干行),能够保证基于多个初始图像对待识别对象进行文字识别时,不会出现遗漏文本行和重复识别同一文本行的问题。另外,在获取每一初始图像之后即对该初始图像进行文字识别,能够提高文字识别的实时性,提高用户体验。其中,对焦至相应的预设位置执行拍摄所得到的初始图像可以包括完整的待识别对象,也可以仅包括待识别对象的一部分。
根据一些实施例,在每一初始图像均包括完整的待识别对象的情况下,可以通过以下步骤确定所述初始图像中预设的多个文本行:基于其中一个所述初始图像的版面分析结果,确定所述待识别对象所包括的文本行的总数量;基于所述多个预设位置的位置以及文本行的总数量,确定所述初始图像中预设的多个文本行。由于每一初始图像均包括完整的待识别对象,通过确定每一初始图像中预设的多个文本行,从而能够保证文字识别结果不漏不重复。
示例性的,如图3所示,通过依次对焦至待识别对象300的下方区域301、中间区域302和上方区域303执行拍摄,可以获得三个初始图像,并且三个初始图像可以均包括完整的待识别对象。其中,下方区域301和上方区域303位于中间区域302的相对两侧。示例性的,可以但不限于依次对焦至待识别对象300的下方区域301的中心位置P1、中间区域302的中心位置P2和上方区域303的中心位置P3执行拍摄,得到三个初始图像。需要说明的是,在此并不限定对焦位置必须为下方区域301、中间区域302和上方区域303的中心位置,也不限定对焦至下方区域301、中间区域302和上方区域303的顺序。
以依次对焦至待识别对象300的下方区域301、中间区域302和上方区域303执行拍摄,获得三个初始图像为例。在获取第一个初始图像之后,通过对该初始图像的版面分析,可以确定待识别对象所包括的文本行3001的数量N,然后可以提取最下方的N/3行的文本行3001,并对最下方的N/3行的文本行3001进行识别。同样地,在获取第二个初始图像之后,可以对该初始图像进行版面分析,并提取中间的N/3行的文本行3001,对中间的N/3行的文本行3001进行识别;在获取第三个初始图像之后,可以对该初始图像进行版面分析,并提取最上方的N/3行的文本行3001,对最上方的N/3行的文本行进行识别。对于不能被3整除的文本行数量N,可以设定预设规则,将被3整除后剩余的一行或两行文本行划分至下方区域301、中间区域302和上方区域303中的至少其中一个区域内。
可以理解的是,上述仅是以摄像机分别对焦至待识别对象的下方区域中的预设位置、中间区域中的预设位置和上方区域中的预设位置执行拍摄,得到三个初始图像为例,来具体描述如何基于具有不同清晰图像区域的多个初始图像,对所述待识别对象进行文字识别,并不限定预设位置的分布方式只能为上述一种,也不限定初始图像的数量只能为三个。例如,对于包括左右分栏文本的待识别对象,也可以确定分别位于上、下、左、右四个区域内的四个预设位置,摄像机可以分别对焦至待识别对象的多个预设位置执行拍摄,得到四个初始图像。
根据一些实施例,所述识别方法还可以包括:在对所述每一个初始图像中预设的多个文本行进行文字识别之后,语音播报文字识别结果,从而能够实时播报文字识别的结果,提高用户体验,尤其适用于视障、视弱、文盲或半文盲用户的使用。
上述示例性实施例,对每一初始图像均进行版面分析,能够保证文字识别结果的准确性,并保证不漏不重复。
在另一个示例性实施例中,如图4所示,所述识别方法还可以包括:步骤S401、获取摄像机对焦至所述待识别对象的中心位置执行拍摄所得到的版面图像;步骤S402、对所述版面图像进行版面分析。其中,基于所述版面图像的版面分析结果,对所述待识别对象进行文字识别。由此,在文字识别过程中可以仅进行一次版面分析,简化计算量,并且基于对焦至中心位置的版面图像,能够保证版面分析结果的准确性。
根据一些实施例,如图4所示,进一步地所述识别方法还可以包括:步骤S403、在获取所述多个初始图像之前,对所述待识别对象进行划分,得到多个子区域;以及步骤S404、确定所述多个子区域的所述多个摄取位置。由此,通过预先将待识别对象划分为多个子区域,并确定多个子区域的多个摄取位置,从而能够得到多个子区域的清晰图像(具体可以为拍摄得到的每一初始图像所对应的对焦位置所在的子区域为清晰图像),提高文字识别结果的准确性。另外,通过将待识别对象预先划分为多个子区域,能够保证文字识别结果不漏不重复。其中,对焦至相应子区域的摄取位置执行拍摄所得到的初始图像可以包括完整的待识别对象,也可以仅包括待识别对象的一部分。
在预先将待识别对象划分为多个子区域的情况下,根据一些实施例,步骤S102、基于所述多个初始图像,对所述待识别对象进行文字识别可以包括:步骤S406针对所述每一个初始图像,从所述版面图像的版面分析结果中获取所述初始图像相应的子区域的文字坐标信息;以及步骤S407、基于所获取的相应子区域的文字坐标信息,对所述多个初始图像相应的多个子区域进行文字识别。由此,能够仅进行一次版面分析,即可实现对多个初始图像的多个子区域进行文字识别,简化计算量。其中,图4中的步骤S405与图1中的步骤S101相对应。
对于包括单栏文本的待识别对象,所述多个子区域可以沿与文本行的延伸方向垂直的列方向分布,从而便于实现划分得到的多个子区域能够拼接得到完整的待识别对象。同样地,对于包括多栏文本(例如,左右两栏文本)的待识别对象,所述多个子区域可以包括多列子区域,每一列子区域可以沿与文本行的延伸方向垂直的列方向分布。
示例性的,如图3所示,将待识别对象划分为下方区域301、中间区域302和上方区域303,其中,下方区域301和上方区域303位于中间区域302的相对两侧。通过依次对焦至待识别对象的下方区域301中的预设位置(例如中心位置P1)、中间区域302的预设位置(例如中心位置P2)和上方区域303的预设位置(例如中心位置P3)执行拍摄,可以获得三个初始图像。根据一些实施例,三个初始图像可以均包括完整的待识别对象,在这种情况下,可以将第二个初始图像确定为版面图像,对版面图像进行版面分析。进一步地可以从版面图像的版面分析结果中获取第一个初始图像中下方区域301的文字坐标信息,并基于所获取的文字坐标信息对下方区域301进行文字识别。同样地,可以从版面图像的版面分析结果中获取第二个初始图像(即版面图像)中中间区域302的文字坐标信息,并基于所获取的文字坐标信息对中间区域302进行文字识别;可以从版面图像的版面分析结果中获取第三个初始图像中上方区域303的文字坐标信息,并基于所获取的文字坐标信息对上方区域303进行文字识别。也可以依次对焦至待识别对象的中间区域302的预设位置(例如中心位置P2)、下方区域301中的预设位置(例如中心位置P1)和上方区域303的预设位置(例如中心位置P3)执行拍摄,进一步地可以将第一个初始图像确定为版面图像,从而能够实时对拍摄得到的每一个初始图像进行文字识别。
可以理解的是,上述仅是以将待识别对象预先划分为三个子区域为例来具体描述如何基于具有不同清晰图像区域的多个初始图像,对所述待识别对象进行文字识别,并不限定待识别对象的划分子区域的方式和数量仅为上述一种。
根据一些实施例,所述识别方法还可以包括:在对所述每一个初始图像所包括的子区域进行文字识别之后,语音播报文字识别结果,从而能够实时播报文字识别的结果,提高用户体验,尤其适用于视障、视弱、文盲或半文盲用户的使用。
上述示例性实施例,预先将待识别划分为多个子区域,并确定分别位于多个子区域内的多个预设位置。通过控制摄像机分别对焦至多个预设位置执行拍摄,能够获取多个初始图像,并且每一初始图像中包括相应的对焦位置(即预设位置)的子区域为清晰图像,从而通过对每一初始图像的子区域进行文字识别,能够保证文字识别结果的准确性,并保证不漏不重复。
上述两个示例性实施例对每一初始图像中的清晰文本区域进行文字识别,能够提高文字识别的准确性。
在另一个示例性实施例中,如图5所示,在每一个初始图像均包括完整的待识别对象的情况下,所述多个摄取位置可以为多个预设位置,则步骤S102、基于所述多个初始图像,对所述待识别对象进行文字识别可以包括:步骤S501、在获取所述每一个初始图像之后,基于相应的预设位置,对所述初始图像进行剪切,得到子图像;以及步骤S502、对所述多个初始图像分别相应的多个子图像进行拼接,得到待识别图像,所述待识别图像包括完整的所述待识别对象;以及步骤S503、对所述待识别图像进行文字识别。由此,通过对多个初始图像进行剪切,能够得到包括相应预设位置的清晰子图像,并且对多个清晰子图像进行拼接,能够得到包括完整的待识别对象的清晰图像,从而能够提高文字识别的准确性。
根据一些实施例,可以对待识别图像进行版面分析,基于整个待识别图像的版面分析结果对待识别图像进行文字识别。也可以对每一初始图像进行版面分析,基于多个初始图像的版面分析结果分别对待识别图像所包括的多个子图像进行文字识别。
根据一些实施例,可以基于多个预设的摄取位置,确定每一初始图像的子图像,使得剪切得到的多个子图像之间匹配良好,可以直接进行拼接,以得到包括完整的待识别对象的待识别图像。例如,如图3所示,以摄取位置的数量为三个为例,三个摄取位置可以分别位于待识别对象的下方区域301、中间区域302和上方区域303。在这种情况下,可以获取摄像机对焦至位于下方区域301的预设位置执行拍摄得到的第一个初始图像,并对第一个初始图像进行剪切,得到待识别对象的下方区域301的子图像。同样地,可以得到待识别对象的中间区域302的子图像和上方区域303的子图像。通过对三个子图像进行拼接能够得到包括完整的待识别对象的待识别图像。
可以理解的是,上述仅是以摄像机分别对焦至待识别对象的三个预设位置执行拍摄,得到三个初始图像为例,来具体描述如何对具有不同清晰图像区域的多个初始图像进行剪切和拼接,得到包括完整的待识别对象的待识别图像,并不限定预设位置的分布方式只能为上述一种,也不限定初始图像的数量只能为三个。例如,对于包括左右分栏文本的待识别对象,也可以确定四个预设位置,并且四个预设位置可以分别位于上、下、左、右四个区域内,摄像机可以分别对焦至待识别对象的四个预设位置执行拍摄,得到四个初始图像。
在另一个示例性实施例中,在每一个初始图像仅包括待识别对象的一部分的情况下,所述多个摄取位置可以为多个预设位置,每一初始图像包括相应的子区域,则步骤S102、基于所述多个初始图像,对所述待识别对象进行文字识别可以包括:对包括相邻两个子区域的两个初始图像进行特征匹配,得到所述两个初始图像的至少一组匹配特征点对;基于所述至少一组匹配特征点对,对所述两个初始图像进行拼接,以得到包括完整待识别对象的待识别图像;以及对所述待识别图像进行文字识别。由此,通过对相邻两个初始图像进行特征匹配,以得到至少一组匹配特征点对,并基于至少一组匹配特征点对进行拼接,实现拼接位置矫正,使得这两个初始图像拼接良好,以得到包括完整的待识别对象的清晰图像,从而能够提高文字识别的准确性。
以上内容结合示例性实施例具体描述了本公开中如何基于不同对焦位置拍摄得到的多个初始图像,对待识别对象进行文字识别,以克服基于一次对焦得到的图像进行文字识别,由于超出焦点一定范围的图像模糊而导致文字识别结果准确性低的问题,提高文字识别的准确性。
根据一些实施例,所述多个初始图像可以为所述摄像机倾斜拍摄所得到,换言之,摄像机的光轴与待识别对象的放置面可以不垂直,从而能够通过调整摄像机的像距来调整摄像机对焦至待识别对象的不同预设位置,便于实现得到包括完整的待识别对象的多个初始图像,能够保证文字识别不漏不重复。示例性的,摄像机可以固定在待识别对象的一侧,并且摄像机的光轴与待识别对象的放置面之间的夹角也可以固定不变。
根据一些实施例,摄像机可以位于待识别对象的与文本行平行的一侧边所在的一侧,从而能够基于每一初始图像确定清晰的多行文本行,便于基于多个初始图像得到待识别对象的所有文本行的清晰图像,提高文字识别的准确性。
在多个初始图像为所述摄像机倾斜拍摄所得到的情况下,由于倾斜透视的原因,会导致初始图像存在畸变。
基于此,根据一些实施例,所述识别方法还可以包括:对所述多个初始图像进行倾斜矫正,得到多个最终矫正图像。在这种情况下,可以基于所述多个最终矫正图像,对待识别对象进行文字识别。由此,通过倾斜矫正能够克服倾斜透视导致的图像畸变问题,提高文字识别的准确性。
根据一些实施例,如图6所示,对所述初始图像进行倾斜矫正可以包括:步骤S601、确定所述初始图像相应的3D图像;步骤S602、确定所述待识别对象绕所述待识别对象上的一设定点旋转至与摄像机的光轴垂直所对应的旋转矩阵;步骤S603、利用所述旋转矩阵,获取所述3D图像绕所述设定点旋转至与所述摄像机的光轴垂直所得到的旋转矫正图像;步骤S604、将所述旋转矫正图像投射至像平面,得到映射图像;以及步骤S605、对所述映射图像进行插值处理,得到最终矫正图像。由此,利用旋转矩阵所得到的旋转矫正图像不存在倾斜透视问题,文本行位于一条直线上,因此,将旋转矫正图像投射至像平面并进行插值处理能够达到倾斜矫正的目的,进而能够保证文字识别的准确性。
根据一些实施例,步骤S601可以包括确定所述初始图像的多个采样点;以及利用摄像机成像的三角相似原理计算所述多个采样点的深度信息。其中,所述3D图像可以由所述多个采样点来表示。
以下将结合示例性实施例来具体描述确定采样点的深度信息的原理。
图7是示出与摄像机相关联的相机成像模型1000的示意图。如图7所示,三维世界中的物体(图中示出为点P)经过相机成像模型1000变成二维图像(图中示出为像素点P(x,y))。相机成像模型1000可以涉及四个坐标系:世界坐标系、相机坐标系、图像物理坐标系和图像像素坐标系。本公开中可以只涉及相机坐标系、图像物理坐标系和图像像素坐标系。
世界坐标系是表示物体在真实世界中的坐标的参考系,单位是长度单位(例如,毫米)。相机坐标系是以光心为原点的参考系,它具有分别平行于图像的x方向和y方向的Xc轴和Yc轴,以及与光轴平行的Zc轴,其中Xc、Yc和Zc互相垂直,单位是长度单位。图像物理坐标系(也称为图像坐标系)是以光轴与图像平面的交点为原点的参考系,它具有如图所示的x和y方向,单位是长度单位。图像像素坐标系(也称为像素坐标系)是以图像的顶点为原点的参考系,它具有分别平行于x和y方向的u和v方向,单位是像素。典型地,世界坐标系可以通过相机的外参转换到相机坐标系,而相机坐标系可以通过相机的内参(其通常包括焦距对角矩阵和像素转换矩阵)转换到图像像素坐标系。
多个采样点的像素坐标已知,可以利用摄像机的内参计算多个采样点在相机坐标系中的深度信息(即坐标Zc)。
参见图7所示,利用三角相似原理可以得到:
Figure BDA0002942884700000111
Figure BDA0002942884700000112
此时已知摄像机的内参f、u0、v0,采样点的像素坐标u、v,以及该采样点在相机坐标系中的坐标Yc(绝对值为激光器和摄像机在Yc坐标轴的延伸方向上的距离)。从而利用上述公式可以计算得到该采样点在相机坐标系中的Zc与Xc,得到该采样点在相机坐标系中的三维坐标(Xc,Yc,Zc)。其中,f为摄像机的焦距,u0和v0为摄像机的光轴和像平面的交点在像素坐标系中的二维坐标。
利用上述方法能够计算得到多个采样点的深度信息,通过拟合可以得到初始图像相应的3D图像。3D图像可为待识别对象在相机坐标系中的三维表示。
可以理解的是,并不局限于采用上述一种方法来确定初始图像相应的3D图像,例如,也可以利用双目视觉原理来确定初始图像相应的3D图像,并且所述初始图像可以为双目相机中的其中一个拍摄所得到的图像。
根据一些实施例,在摄像机的倾斜角度(摄像机的光轴和与待识别对象的放置面垂直的垂线之间的夹角)未知的情况下,步骤S602、确定所述旋转矩阵可以包括:开启至少两个激光器,发出的激光投射在待识别对象上,以在所述待识别对象上形成至少两条激光线,所述初始图像包括所述至少两条激光线;至少基于所述至少两条激光线,确定所述旋转矩阵。由于仅需基于初始图像中的两条激光线来确定旋转矩阵,从而能够简化计算。
所述至少两个激光器可以采用一字线激光器,从而每一激光器发出的激光投射在待识别对象上均可以形成一条激光线。在这种情况下,可以仅设置两个激光器即可在待识别对象上投射形成两条激光线,能够实现本公开的技术方案,还能够简化设备的结构。当然,也可以设置三个或三个以上的一字线激光器,则发出的激光投射在待识别对象上可以形成三条或三条以上激光线。
需要说明的是,所述至少两个激光器不局限于采用一字线激光器,只要所述至少两个激光器发出的激光能够组成至少两条一字线激光,从而投射在待识别对象上能够形成至少两条激光线即可。
根据一些实施例,在所述至少两个激光器采用一字线激光器的情况下,每一个所述激光器的激光出射面可以与所述摄像机的光轴平行。由此,在摄像机的相机坐标系中,在与摄像机的光轴垂直的其中一个坐标轴(x轴或y轴,具体由摄像机和激光器的位置关系而定)上每一条激光线所包括的所有像素的坐标相同,从而能够简化算法。
可以理解的是,在此并不限定所述至少两个激光器中的每一个所述激光器的激光出射面必须与所述摄像机的光轴平行,只要所述至少两个激光器和摄像机的位置关系已知,均能够实现本公开的技术方案。
在示例性实施例中,如图8所示,所述至少两个激光器可以包括第一激光器102和第二激光器103,并且所述第一激光器102和第二激光器103可以均采用一字线激光器。由此,所述第一激光器102发出的激光投射在待识别对象300上形成第一激光线1020,第二激光器103发出的激光投射在待识别对象300上形成第二激光线1030。第一激光器102和第二激光器103两者的激光出射面可以均与摄像机101的光轴平行。在这种情况下,在摄像机101的相机坐标系中,在与摄像机101的光轴垂直的其中一个坐标轴上,第一激光线1020所包括的所有像素在该坐标轴方向上的坐标值相同,并且第二激光线1030所包括的所有像素在该坐标轴方向上的坐标值相同。例如,在摄像机101的相机坐标系中,在与摄像机101的光轴垂直的Yc坐标轴上,第一激光线1020所包括的所有像素的Yc坐标相同,并且第二激光线1030所包括的所有像素的Yc坐标相同,结合图7和图8所示。
根据一些实施例,第一激光器102和第二激光器103可以位于摄像机101的光轴(对应图8中的虚线)的相对两侧,从而第一激光器102和第二激光器103在待识别对象上投射的相应的激光线能够表征待识别对象的不同区域的畸变形状,提高后续的矫正效果。在这种情况下,在与摄像机101的光轴垂直的方向上,第一激光器102和第二激光器103与摄像机101之间的距离可以相同,也可以不同。
可以理解的是,所述第一激光器和第二激光器也可以位于所述摄像机的光轴的同一侧。
根据一些实施例,摄像机和至少两个激光器可以均设置在所述待识别对象的与文本行平行的一侧边所在的一侧,即所述摄像机和所述至少两个激光器可以位于待识别对象的同一侧。由此,能够实现对文本行畸变进行矫正,具有更好的矫正效果。可以理解的是,摄像机和所述至少两个激光器也可以分别设置在待识别对象的与文本行平行的相对两侧边所在的两侧,即所述摄像机和所述至少两个激光器可以位于待识别对象的相对两侧。
根据一些实施例,确定所述旋转矩阵还可以包括:获取摄像机在所述至少两个激光器关闭时倾斜拍摄的包括所述待识别对象的比对图像;以及基于所述初始图像和所述比对图像,获取所述至少两条激光线在所述初始图像中的位置信息。由此,在保证待识别对象不动,并且环境光线基本不变的情况下,通过激光开启和关闭,能够分别拍摄具有激光线的初始图像和不具有激光线的比对图像。从而能够基于所述初始图像和所述比对图像,获取所述至少两条激光线在所述初始图像中的位置信息。
所述位置信息例如可以为所述至少两条激光线在所述初始图像中的像素坐标。
在示例性实施例中,基于所述初始图像和所述比对图像,获取所述至少两条激光线在所述初始图像中的位置信息可以包括:对所述初始图像和所述比对图像进行模糊处理,得到初始模糊图像和比对模糊图像;计算所述初始模糊图像和比对模糊图像之间的差值,得到差值图像;提取差值图像的红色通道图像,得到红色通道差值图像;以及基于红色通道差值图像,获取所述至少两条激光线在所述初始图像中的位置信息。从而能够快速获取所述至少两条激光线在所述初始图像中的位置信息。
需要说明的是,并不局限于通过上述一种方式来获取所述至少两条激光线在所述初始图像中的位置信息(例如,像素坐标)。例如,也可以利用图像特征提取算法(例如,SIFT算法、SURF算法)提取所述初始图像中的所述至少两条激光线,从而获取所述至少两条激光线在所述初始图像中的位置信息。
根据一些实施例,至少基于所述至少两条激光线,确定所述旋转矩阵可以包括:基于所述初始图像、所述摄像机的内参、以及所述激光器和所述摄像机的位置关系,确定所述至少两条激光线中的每一条相应的3D激光准线;以及基于至少两条所述3D激光准线和所述设定点,确定所述旋转矩阵。由此,能够仅基于待识别对象上的至少两条3D激光准线来确定待识别旋转至与摄像机的光轴垂直所对应的旋转矩阵,大大简化了计算过程,降低了计算量。
根据一些实施例,确定所述至少两条激光线中的每一条相应的3D激光准线可以包括:利用摄像机成像的三角相似原理计算所述至少两条激光线中的每一条的深度信息。
示例性的,可以采集激光线上的多个采样点,以所述至少两个激光器采用一字线激光器,每一个所述激光器的激光出射面与所述摄像机的光轴平行为例,每一条激光线所包括的所有像素在相机坐标系中的坐标Yc相同,根据激光器和摄像机之间的位置关系很容易得到多个采样点的坐标Yc。利用摄像机成像的三角相似原理可以计算得到每一采样点在相机坐标系中的三维坐标(Xc,Yc,Zc),具体的计算方法与上述确定初始图像相应的3D图像相同,在此不再详述。
利用上述方法能够计算得到所述至少两条激光线上的多个采样点在相机坐标系中的三维坐标,通过拟合可以得到所述至少两条激光线各自相应的3D激光准线。3D激光准线可为激光线在相机坐标系中的三维表示。
可以理解的是,以上仅是以所述至少两个激光器采用一字线激光器,每一个所述激光器的激光出射面与所述摄像机的光轴平行为例,来描述如何确定激光线相应的3D激光准线,并不是一种限定。只要摄像机和所述至少两个激光器的位置已知,均可以结合摄像机的内参以及激光线在初始图像中的像素坐标来确定激光线相应的3D激光准线,不同的是每一激光线所包括的所有像素的Yc坐标不是全部相同,具体的方法与上述相同,在此不再赘述。
需要说明的是,计算激光线的三维坐标的方式不局限于上述一种方式。也可以采用其它方式来确定所述至少两条激光线各自相应的3D激光准线。例如,也可以将初始图像输入训练完成的神经网络模型,以获取所述神经网络模型输出的初始图像中的至少两条激光线的深度信息,从而确定所述至少两条激光线的三维坐标,进而确定各自相应的3D激光准线。
在利用上述方法得到至少两条激光线中的每一条相应的3D激光准线之后,可以基于至少两条所述3D激光准线,确定待识别对象绕所述待识别对象上的一设定点旋转至与所述摄像机的光轴垂直所对应的旋转矩阵。
参见图9所示,所述设定点例如可以但不限于为所述摄像机的光轴与所述待识别对象的交点Q。
根据一些实施例,在所述设定点为所述摄像机的光轴与所述待识别对象的交点Q的情况下,基于至少两条所述3D激光准线以及所述设定点,确定所述旋转矩阵可以包括:计算至少两条所述3D激光准线中的每一条的平均深度;以及基于至少两条所述3D激光准线的平均深度和所述设定点,确定所述旋转矩阵。
参见图9所示,以所述设定点为所述摄像机的光轴与所述待识别对象的交点,并且所述至少两个激光器采用一字线激光器,每一个所述激光器的激光出射面与所述摄像机的光轴平行为例,基于至少两条所述3D激光准线以及所述设定点,确定所述旋转矩阵具体的原理可以为:
图9中仅示出两条激光线:第一激光线1020和第二激光线1030,由几何关系可得:
Figure BDA0002942884700000151
基于上述方程组可解得:
Figure BDA0002942884700000152
其中,h1为第一激光线1020的平均深度,h2为第二激光线1030的平均深度。d1为第一激光线1020相应的激光出射面与摄像机的光轴之间的距离。d2为第一激光线1020相应的激光出射面与摄像机的光轴之间的距离。d1和d2可以基于激光器和摄像机之间的位置关系获得。h0为所述设定点(光轴与待识别对象的交点P)的深度,旋转矩阵R为:
Figure BDA0002942884700000153
通过上述方法,可以在摄像机的倾斜角度α未知的情况下,计算得到待识别对象绕所述待识别对象上的一设定点旋转至与摄像机的光轴垂直所对应的旋转矩阵。
可以理解的是,如果摄像机的倾斜角度α已知,则可以直接计算得到旋转矩阵R。在这种情况下,可以根据交点Q在初始图像中的像素坐标来计算交点Q在相机坐标系中的深度,具体的方法已在上面内容中描述。
在确定初始图像相应的3D图像和待识别对象绕所述待识别对象上的一设定点旋转至与摄像机的光轴垂直所对应的旋转矩阵之后,可以利用所述旋转矩阵,获取所述3D图像绕所述设定点旋转至与所述摄像机的光轴垂直所得到的旋转矫正图像。然后,可以将所述旋转矫正图像投射至像平面,得到映射图像;以及对所述映射图像进行插值处理,得到最终矫正图像。由于3D旋转矫正图像不存在倾斜透视问题,文本行是一条直线,因此,通过对3D旋转矫正图像进行正投影和调整间距,能够达到倾斜矫正的目的,进而能够保证对待识别对象进行文字识别的准确性。
根据一些实施例,对所述映射图像进行插值,得到最终矫正图像可以包括:针对所述映射图像,计算沿预设方向相邻的两个像素之间的3D距离;以及基于所述3D距离,沿所述预设方向对所述映射图像进行插值,得到所述最终矫正图像。所述预设方向例如可以为文本行的延伸方向,由此,通过插值处理能够克服倾斜透视导致不同文本行的字符间距不同的问题,进而解决字符间距较小而影响文字识别准确性的问题。
在示例性实施例中,可以获取中间一条与Xc坐标轴平行的直线的3D坐标,计算相邻像素点的3D距离作为两个像素的新间距。可以利用新间距进行2D格点插值,得到插值图像(即,最终矫正图像)。在示例性实施例中,2D格点可以采用线性插值来完成:(1-a)*P’+a*P”。其中,P’和P”表示相邻的两个2D离散的坐标以及像素值,a是要插入的像素点(整数格点)和P’的距离,占P’和P”间距离的比例。可以理解的是,也可以采用其它插值方法来进行图像插值,例如,最近邻插值、双平方插值、双立方插值等,在此不作限定。
可以理解的是,也可以仅对对焦位置与摄像机之间的距离大于预设值的初始图像进行倾斜校正,因为距离越远倾斜透视的问题越严重,经过倾斜矫正能够解决初始图像中的清晰图像区域因倾斜透视而导致字符间距较小,进而影响文字识别准确性的问题。
基于所述多个最终矫正图像对待识别对象进行文字识别,其具体原理与基于多个初始图像对待识别对象进行文字识别相同,具体可以参见上述三个示例性实施例,在此不再详述。
根据本公开的另一方面,提供一种电子电路,包括:被配置为执行根据如上所述的文本图像的矫正方法的步骤的电路。
根据本公开的另一方面,提供一种文本图像的识别装置,包括:摄像机,被配置为分别对焦至待识别对象的多个预设位置执行拍摄,得到的多个初始图像;如上所述的电子电路。
所述摄像机的光轴与所述待识别对象的放置面可以不垂直,即所述摄像机倾斜拍摄得到所述多个初始图像,从而能够通过调整摄像机的像距的方式来调整对焦位置。在这种情况下,摄像机的位置可以固定不变,并且摄像机的光轴与待识别对象的放置面之间的夹角也可以固定不变,结构简单,便于实现。根据一些实施例,摄像机可以设置在待识别对象的与文本行的延伸方向平行的一侧边所在的一侧。
根据写一些施例,所述识别装置还可以包括至少两个激光器,被配置为发出的激光发出的激光投射在待识别对象上,以在所述待识别对象上形成至少两条激光线,其中,所述初始图像包括所述至少两条激光线。由此,能够基于至少两条激光线确定待识别对象绕所述待识别对象上的一设定点旋转至与摄像机的光轴垂直所对应的旋转矩阵,以用于对初始图像进行倾斜矫正。
根据一些实施例,所述至少两条激光器可以采用一字线激光器,所述至少两条激光器中的每一个所述激光器的激光出射面可以与所述摄像机的光轴平行。由此,在摄像机的相机坐标系中,在与摄像机的光轴垂直的其中一个坐标轴(x轴或y轴,具体由摄像机和激光器的位置关系而定)上每一条激光线所包括的所有像素的坐标相同,从而能够简化算法。可以理解的是,在此并不限定所述至少两个激光器中的每一个所述激光器的激光出射方向必须与所述摄像机的光轴平行,只要所述至少两个激光器和摄像机的位置关系已知,均能够实现本公开的技术方案。
根据一些实施例,如图8所示,所述识别装置还可以包括:支架200。其中,摄像机101和所述至少两个激光器(例如图中示出的第一激光器102和第二激光器103)均固定装配在支架200上,并且位于待识别对象300的同一侧,以简化矫正装置的结构。可以理解的是,摄像机例如也可以设置在所述待识别对象的与所述至少两个激光器所在侧相对的另一侧,即所述摄像机和所述至少两个激光器位于待识别对象的相对两侧。在这种情况下,可以设置两个支架,分别用于固定摄像机和至少两个激光器。将理解的是,只要摄像机和至少两个激光器相对位置关系已知,均能够实现本公开的技术方案。
根据一些实施例,所述至少两个激光器可以包括第一激光器102和第二激光器103,所述第一激光器和第二激光器可以位于所述摄像机的光轴的相对两侧,也可以位于摄像机的光轴的同一侧。
根据一些实施例,第一激光器102和第二激光器103可以采用一字线激光器,在与所述摄像机的光轴垂直的方向上,第一激光器102和第二激光器203与所述摄像机之间的距离可以相同,也可以不同。
根据本公开的另一方面,提供一种电子设备,包括:处理器;以及存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行上述的识别方法。
根据本公开的另一方面,提供一种存储程序的非暂态计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行上述的识别方法。
图10是示出根据本公开的示例性实施例的电子设备的示例的框图。要注意的是,图10所示出的结构仅是一个示例,根据具体的实现方式,本公开的电子设备可以仅包括图10所示出的组成部分中的一种或多个。
电子设备2000例如可以是通用计算机(例如膝上型计算机、平板计算机等等各种计算机)、移动电话、个人数字助理。根据一些实施例,电子设备2000可以是视障辅助设备。
电子设备2000可被配置为拍摄图像,对所拍摄的图像进行处理,并且响应于所述处理所获得的数据而提供声音提示。例如,电子设备2000可被配置为拍摄图像,对该图像进行文字检测和/或识别以获得文字数据,将文字数据转换成声音数据,并且输出声音数据供用户聆听。
根据一些实施方式,所述电子设备2000可以被配置为包括眼镜架或者被配置为能够可拆卸地安装到眼镜架(例如眼镜架的镜框、连接两个镜框的连接件、镜腿或任何其他部分)上,从而能够拍摄到近似包括用户的视野的图像。
根据一些实施方式,所述电子设备2000也可被安装到其它可穿戴设备上,或者与其它可穿戴设备集成为一体。所述可穿戴设备例如可以是:头戴式设备(例如头盔或帽子等)、可佩戴在耳朵上的设备等。根据一些实施例,所述电子设备可被实施为可附接到可穿戴设备上的配件,例如可被实施为可附接到头盔或帽子上的配件等。
根据一些实施方式,所述电子设备2000也可具有其他形式。例如,电子设备2000可以是移动电话、通用计算设备(例如膝上型计算机、平板计算机等)、个人数字助理,等等。电子设备2000也可以具有底座,从而能够被安放在桌面上。
根据一些实施方式,所述电子设备2000作为视障辅助设备可以用于辅助阅读,在这种情况下,所述电子设备2000有时也被称为“电子阅读器”或“阅读辅助设备”。借助于电子设备2000,无法自主阅读的用户(例如视力障碍人士、存在阅读障碍的人士等)可以采用类似阅读姿势的姿势即可实现对常规读物(例如书本、杂志等)的“阅读”。在“阅读”过程中,所述电子设备2000可以分别对焦至待识别对象的多个预设位置执行拍摄图像,获取包括完整待识别对象的多个初始图像。所述电子设备2000还可以对所述多个初始图像进行版面分析、文字检测和文字识别(例如利用光学文字识别OCR方法),以获得文字数据,克服一次对焦拍摄得到的图像因受到景深范围限制而存在模糊图像区域,进而影响文字识别准确性的问题。然后可以将文字数据转换成声音数据,并且通过扬声器或耳机等声音输出设备输出所述声音数据供用户聆听。
电子设备2000可以包括摄像机2004,用于获取图像。摄像机2004可以包括但不限于摄像头或照相机等,被配置为获取包括待识别对象的初始图像。电子设备2000还可以包括电子电路2100,所述电子电路2100包括被配置为执行如前所述的方法的步骤(例如图1和图3、图4-图6的流程图中所示的方法步骤)的电路。电子设备2100还可以包括文字识别电路2005,所述文字识别电路2005被配置为对所述初始图像中待识别对象的文字区域的文字进行文字检测和/或识别(例如OCR处理),从而获得文字数据。所述文字识别电路2005例如可以通过专用芯片实现。电子设备2000还可以包括声音转换电路2006,所述声音转换电路2006被配置为将所述文字数据转换成声音数据。所述声音转换电路2006例如可以通过专用芯片实现。电子设备2000还可以包括声音输出电路2007,所述声音输出电路2007被配置为输出所述声音数据。所述声音输出电路2007可以包括但不限于耳机、扬声器、或振动器等,及其相应驱动电路。
根据一些实施方式,所述电子设备2000还可以包括图像处理电路2008,所述图像处理电路2008可以包括被配置为对图像进行各种图像处理的电路。图像处理电路2008例如可以包括但不限于以下中的一个或多个:被配置为对图像进行降噪的电路、被配置为对图像进行去模糊化的电路、被配置为对图像进行几何矫正的电路、被配置为对图像进行特征提取的电路、被配置为对图像中的对象进行对象检测和/或识别的电路、被配置为对图像中包含的文字进行文字检测的电路、被配置为从图像中提取文本行的电路、被配置为从图像中提取文字坐标的电路、被配置为从图像中提取对象框的电路、被配置为从图像中提取文本框的电路、被配置为基于图像进行版面分析(例如段落划分)的电路,等等。
根据一些实施方式,电子电路2100还可以包括文字处理电路2009,所述文字处理电路2009可以被配置为基于所提取的与文字有关的信息(例如文字数据、文本框、段落坐标、文本行坐标、文字坐标等)进行各种处理,从而获得诸如段落排序、文字语义分析、版面分析结果等处理结果。
上述的各种电路(例如文字识别电路2005、声音转换电路2006、声音输出电路2007、图像处理电路2008、文字处理电路2009、电子电路2100中的一个或多个可以使用定制硬件,和/或可以用硬件、软件、固件、中间件、微代码,硬件描述语言或其任何组合来实现。例如,上述的各种电路中的一个或多个可以通过使用根据本公开的逻辑和算法,用汇编语言或硬件编程语言(诸如VERILOG,VHDL,C++)对硬件(例如,包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)进行编程来实现。
根据一些实施方式,电子设备2000还可以包括通信电路2010,所述通信电路2010可以是使得能够与外部设备和/或与网络通信的任何类型的设备或系统,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信设备和/或芯片组,例如蓝牙设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
根据一些实施方式,电子设备2000还可以包括输入设备2011,所述输入设备2011可以是能向电子设备2000输入信息的任何类型的设备,并且可以包括但不限于各种传感器、鼠标、键盘、触摸屏、按钮、控制杆、麦克风和/或遥控器等等。
根据一些实施方式,电子设备2000还可以包括输出设备2012,所述输出设备2012可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、视觉输出终端、振动器和/或打印机等。尽管电子设备2000根据一些实施例用于视障辅助设备,基于视觉的输出设备可以方便用户的家人或维修工作人员等从电子设备2000获得输出信息。
根据一些实施方式,电子设备2000还可以包括处理器2001。所述处理器2001可以是任何类型的处理器,并且可以包括但不限于一个或多个通用处理器和/或一个或多个专用处理器(例如特殊处理芯片)。处理器2001例如可以是但不限于中央处理单元CPU或微处理器MPU等等。电子设备2000还可以包括工作存储器2002,所述工作存储器2002可以存储对处理器2001的工作有用的程序(包括指令)和/或数据(例如图像、文字、声音,以及其他中间数据等)的工作存储器,并且可以包括但不限于随机存取存储器和/或只读存储器设备。电子设备2000还可以包括存储设备2003,所述存储设备2003可以包括任何非暂时性存储设备,非暂时性存储设备可以是非暂时性的并且可以实现数据存储的任何存储设备,并且可以包括但不限于磁盘驱动器、光学存储设备、固态存储器、软盘、柔性盘、硬盘、磁带或任何其他磁介质,光盘或任何其他光学介质、ROM(只读存储器)、RAM(随机存取存储器)、高速缓冲存储器和/或任何其他存储器芯片或盒、和/或计算机可从其读取数据、指令和/或代码的任何其他介质。工作存储器2002和存储设备2003可以被集合地称为“存储器”,并且在有些情况下可以相互兼用。
根据一些实施方式,处理器2001可以对摄像机101、文字识别电路2005、声音转换电路2006、声音输出电路2007、图像处理电路2008、文字处理电路2009、通信电路2010、电子电路2100以及电子设备2000包括的其他各种装置和电路中的至少一个进行控制和调度。根据一些实施方式,图9中所述的各个组成部分中的至少一些可通过总线2013而相互连接和/或通信。
软件要素(程序)可以位于所述工作存储器2002中,包括但不限于操作系统2002a、一个或多个应用程序2002b、驱动程序和/或其他数据和代码。
根据一些实施方式,用于进行前述的控制和调度的指令可以被包括在操作系统2002a或者一个或多个应用程序2002b中。
根据一些实施方式,执行本公开所述的方法步骤(例如图1和图3的流程图中所示的方法步骤)的指令可以被包括在一个或多个应用程序2002b中,并且上述电子设备2000的各个模块可以通过由处理器2001读取和执行一个或多个应用程序2002b的指令来实现。换言之,电子设备2000可以包括处理器2001以及存储程序的存储器(例如工作存储器2002和/或存储设备2003),所述程序包括指令,所述指令在由所述处理器2001执行时使所述处理器2001执行如本公开各种实施例所述的方法。
根据一些实施方式,文字识别电路2005、声音转换电路2006、图像处理电路2008、文字处理电路2009、电子电路2100中的至少一个所执行的操作中的一部分或者全部可以由处理器2001读取和执行一个或多个应用程序2002的指令来实现。
软件要素(程序)的指令的可执行代码或源代码可以存储在非暂时性计算机可读存储介质(例如所述存储设备2003)中,并且在执行时可以被存入工作存储器2001中(可能被编译和/或安装)。因此,本公开提供存储程序的计算机可读存储介质,所述程序包括指令,所述指令在由电子设备(例如视障辅助设备)的处理器执行时,致使所述电子设备执行如本公开各种实施例所述的方法。根据另一种实施方式,软件要素(程序)的指令的可执行代码或源代码也可以从远程位置下载。
还应该理解,可以根据具体要求而进行各种变型。例如,也可以使用定制硬件,和/或可以用硬件、软件、固件、中间件、微代码,硬件描述语言或其任何组合来实现各个电路、单元、模块或者元件。例如,所公开的方法和设备所包含的电路、单元、模块或者元件中的一些或全部可以通过使用根据本公开的逻辑和算法,用汇编语言或硬件编程语言(诸如VERILOG,VHDL,C++)对硬件(例如,包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)进行编程来实现。
根据一些实施方式,电子设备2000中的处理器2001可以分布在网络上。例如,可以使用一个处理器执行一些处理,而同时可以由远离该一个处理器的另一个处理器执行其他处理。电子设备2000的其他模块也可以类似地分布。这样,电子设备2000可以被解释为在多个位置执行处理的分布式计算系统。
虽然已经参照附图描述了本公开的实施例或示例,但应理解,上述的方法、系统和设备仅仅是示例性的实施例或示例,本发明的范围并不由这些实施例或示例限制,而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外,可以通过不同于本公开中描述的次序来执行各步骤。进一步地,可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进,在此描述的很多要素可以由本公开之后出现的等同要素进行替换。
下面描述本公开的一些示例性方面。
方面1.一种文本图像的识别方法,包括:
获取摄像机分别对焦至待识别对象的多个摄取位置执行拍摄所得到的多个初始图像,所述多个初始图像中每一个初始图像包括所述待识别对象的至少一部分,并且基于所述多个初始图像能够得到完整的待识别对象,所述待识别对象包括文本区域;
基于所述多个初始图像,对所述待识别对象进行文字识别。
方面2.如方面1所述的识别方法,其中,所述多个初始图像中每一个初始图像包括完整的所述待识别对象。
方面3.如方面1所述的识别方法,其中,所述多个摄取位置为多个预设位置,基于所述多个初始图像,对所述待识别对象进行文字识别包括:
在获取所述每一个初始图像之后,对所述初始图像进行版面分析;
基于相应的所述预设位置和版面分析结果,提取所述初始图像中预设的多个文本行;以及
对所述预设的多个文本行进行文字识别。
方面4.如方面3所述的识别方法,还包括:
在对所述每一个初始图像中预设的多个文本行进行文字识别之后,语音播报文字识别结果。
方面5.如方面1所述的识别方法,还包括:
获取摄像机对焦至所述待识别对象的中心位置执行拍摄所得到的版面图像;
对所述版面图像进行版面分析,
其中,基于所述版面图像的版面分析结果,对所述待识别对象进行文字识别。
方面6.如方面5所述的识别方法,还包括:
在获取所述多个初始图像之前,对所述待识别对象进行划分,得到多个子区域;以及
确定所述多个子区域的所述多个摄取位置。
方面7.如方面6所述的识别方法,其中,基于所述多个初始图像,对所述待识别对象进行文字识别包括:
针对所述每一个初始图像,从所述版面图像的所述版面分析结果中获取所述初始图像相应的子区域的文字坐标信息;以及
基于所获取的相应子区域的文字坐标信息,对所述多个初始图像相应的多个子区域进行文字识别。
方面8.如方面7所述的识别方法,还包括:
在对所述每一个初始图像所包括的子区域进行文字识别之后,语音播报文字识别结果。
方面9.如方面2所述的识别方法,其中,所述多个摄取位置为多个预设位置,
其中,基于所述多个初始图像,对所述待识别对象进行文字识别包括:
在获取所述每一个初始图像之后,基于相应的预设位置,对所述初始图像进行剪切,得到子图像;
对所述多个初始图像分别相应的多个子图像进行拼接,得到待识别图像,所述待识别图像包括完整的所述待识别对象;以及
对所述待识别图像进行文字识别。
方面10.如方面1所述的识别方法,其中,所述多个初始图像中每一个初始图像仅包括所述待识别对象的一部分。
方面11.如方面10所述的识别方法,其中,所述待识别对象包括多个子区域,所述多个摄取位置为所述多个子区域的多个预设位置,每一初始图像包括相应的子区域,
其中,基于所述多个初始图像,对所述待识别对象进行文字识别包括:
对包括相邻两个子区域的两个初始图像进行特征匹配,得到所述两个初始图像的至少一组匹配特征点对;
基于所述至少一组匹配特征点对,对所述两个初始图像进行拼接,以得到包括完整待识别对象的待识别图像;以及
对所述待识别图像进行文字识别。
方面12.如方面1所述的识别方法,其中,所述多个初始图像中的一部分初始图像包括完整的所述待识别对象,所述多个初始图像中的另一部分初始图像仅包括所述待识别对象的一部分。
方面13.如方面1所述的识别方法,其中,所述多个初始图像为所述摄像机倾斜拍摄所得到,所述摄像机的光轴与所述待识别对象的放置面不垂直。
方面14.如方面13所述的识别方法,还包括:
对所述多个初始图像进行倾斜矫正,得到多个最终矫正图像,
其中,基于所述多个最终矫正图像,对待识别对象进行文字识别。
方面15.如方面14所述的识别方法,其中,对所述初始图像进行倾斜矫正包括:
确定所述初始图像相应的3D图像;
确定所述待识别对象绕所述待识别对象上的一设定点旋转至与摄像机的光轴垂直所对应的旋转矩阵;
利用所述旋转矩阵,获取所述3D图像绕所述设定点旋转至与所述摄像机的光轴垂直所得到的旋转矫正图像;
将所述旋转矫正图像投射至像平面,得到映射图像;以及
对所述映射图像进行插值处理,得到最终矫正图像。
方面16.如方面15所述的识别方法,其中,确定所述初始图像相应的3D图像包括:
确定所述初始图像的多个采样点;以及
利用摄像机成像的三角相似原理计算所述多个采样点的深度信息,
其中,所述3D图像由所述多个采样点来表示。
方面17.如方面15所述的识别方法,其中,确定所述旋转矩阵包括:
开启至少两个激光器,发出的激光投射在待识别对象上,以在所述待识别对象上形成至少两条激光线,所述初始图像包括所述至少两条激光线;以及
至少基于所述至少两条激光线,确定所述旋转矩阵。
方面18.如方面17所述的识别方法,其中,至少基于所述至少两条激光线,确定所述旋转矩阵包括:
基于所述初始图像、所述摄像机的内参、以及所述激光器和所述摄像机的位置关系,确定所述至少两条激光线中的每一条相应的3D激光准线;以及
基于至少两条所述3D激光准线和所述设定点,确定所述旋转矩阵。
方面19.如方面18所述的识别方法,其中,基于至少两条所述3D激光准线以及所述设定点,确定所述旋转矩阵包括:
计算至少两条所述3D激光准线中的每一条的平均深度;以及
基于至少两条所述3D激光准线的平均深度和所述设定点,确定所述旋转矩阵。
方面20.如方面15所述的识别方法,其中,所述设定点为所述摄像机的光轴与所述待识别对象的交点。
方面21.如方面18所述的识别方法,其中,确定所述至少两条激光线中的每一条相应的3D激光准线包括:
利用摄像机成像的三角相似原理计算所述至少两条激光线中的每一条的深度信息。
方面22.如方面13所述的识别方法,其中,所述摄像机设置在所述待识别对象的与文本行平行的一侧边所在的一侧。
方面23.如方面13所述的识别方法,其中,所述摄像机的位置固定,通过调整所述摄像机的像距以使得所述摄像机分别对焦至待识别对象的多个预设位置。
方面24.一种电子电路,包括:
被配置为执行根据方面1-23中任一项所述的识别方法的步骤的电路。
方面25.一种文本图像的识别装置,包括:
摄像机,被配置为分别对焦至待识别对象的多个预设位置执行拍摄,得到多个初始图像;
如方面24所述的电子电路。
方面26.如方面25所述的识别装置,其中,所述摄像机的光轴与所述待识别对象的放置面不垂直。
方面27.如方面26所述的识别装置,还包括:
至少两个激光器,被配置为发出的激光发出的激光投射在待识别对象上,以在所述待识别对象上形成至少两条激光线,其中,所述初始图像包括所述至少两条激光线。
方面28.如方面27所述的识别装置,其中,所述至少两个激光器采用一字线激光器,所述至少两个激光器中的每一个所述激光器的激光出射面与所述摄像机的光轴平行。
方面29.如方面27所述的矫正装置,其中,所述至少两个激光器包括第一激光器和第二激光器,所述第一激光器和第二激光器位于所述摄像机的光轴的相对两侧。
方面30.如方面25所述的识别装置,其中,所述摄像机设置在待识别对象的与文本行平行的一侧边所在的一侧。
方面31.一种电子设备,包括:
处理器;以及
存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据方面1-23中任一项所述的识别方法。
方面32.一种存储程序的非暂态计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行根据方面1-23中任一项所述的识别方法。

Claims (10)

1.一种文本图像的识别方法,包括:
获取摄像机分别对焦至待识别对象的多个摄取位置执行拍摄所得到的多个初始图像,所述多个初始图像中每一个初始图像包括所述待识别对象的至少一部分,并且基于所述多个初始图像能够得到完整的待识别对象,所述待识别对象包括文本区域;
基于所述多个初始图像,对所述待识别对象进行文字识别。
2.如权利要求1所述的识别方法,其中,所述多个初始图像中每一个初始图像包括完整的所述待识别对象。
3.如权利要求1所述的识别方法,其中,所述多个摄取位置为多个预设位置,基于所述多个初始图像,对所述待识别对象进行文字识别包括:
在获取所述每一个初始图像之后,对所述初始图像进行版面分析;
基于相应的所述预设位置和版面分析结果,提取所述初始图像中预设的多个文本行;以及
对所述预设的多个文本行进行文字识别。
4.如权利要求1所述的识别方法,还包括:
获取摄像机对焦至所述待识别对象的中心位置执行拍摄所得到的版面图像;
对所述版面图像进行版面分析,
其中,基于所述版面图像的版面分析结果,对所述待识别对象进行文字识别。
5.如权利要求2所述的识别方法,其中,所述多个摄取位置为多个预设位置,
其中,基于所述多个初始图像,对所述待识别对象进行文字识别包括:
在获取所述每一个初始图像之后,基于相应的预设位置,对所述初始图像进行剪切,得到子图像;
对所述多个初始图像分别相应的多个子图像进行拼接,得到待识别图像,所述待识别图像包括完整的所述待识别对象;以及
对所述待识别图像进行文字识别。
6.如权利要求1所述的识别方法,其中,所述多个初始图像中每一个初始图像仅包括所述待识别对象的一部分。
7.一种电子电路,包括:
被配置为执行根据权利要求1-6中任一项所述的识别方法的步骤的电路。
8.一种文本图像的识别装置,包括:
摄像机,被配置为分别对焦至待识别对象的多个预设位置执行拍摄,得到多个初始图像;
如权利要求7所述的电子电路。
9.一种电子设备,包括:
处理器;以及
存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-6中任一项所述的识别方法。
10.一种存储程序的非暂态计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行根据权利要求1-6中任一项所述的识别方法。
CN202110185484.1A 2021-02-10 2021-02-10 文本图像的识别方法及装置、设备和介质 Pending CN112861735A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110185484.1A CN112861735A (zh) 2021-02-10 2021-02-10 文本图像的识别方法及装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110185484.1A CN112861735A (zh) 2021-02-10 2021-02-10 文本图像的识别方法及装置、设备和介质

Publications (1)

Publication Number Publication Date
CN112861735A true CN112861735A (zh) 2021-05-28

Family

ID=75988496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110185484.1A Pending CN112861735A (zh) 2021-02-10 2021-02-10 文本图像的识别方法及装置、设备和介质

Country Status (1)

Country Link
CN (1) CN112861735A (zh)

Similar Documents

Publication Publication Date Title
US10872420B2 (en) Electronic device and method for automatic human segmentation in image
CN111163261B (zh) 目标检测方法、电路、视障辅助设备、电子设备和介质
EP3940589A1 (en) Layout analysis method, electronic device and computer program product
JP4824411B2 (ja) 顔抽出装置、半導体集積回路
CN111126394A (zh) 文字识别方法、阅读辅助设备、电路和介质
US20090245655A1 (en) Detection of Face Area and Organ Area in Image
WO2022121842A1 (zh) 文本图像的矫正方法及装置、设备和介质
US20160065862A1 (en) Image Enhancement Based on Combining Images from a Single Camera
JPWO2008012905A1 (ja) 認証装置および認証用画像表示方法
US10621428B1 (en) Layout analysis on image
JP2022550191A (ja) 画像処理方法、画像処理装置、及びそれを応用する電子機器
US10838056B1 (en) Detection of target
CN111145153B (zh) 图像处理方法、电路、视障辅助设备、电子设备及介质
US20160350622A1 (en) Augmented reality and object recognition device
JP2022021537A (ja) 生体認証装置および生体認証方法
WO2018196854A1 (zh) 一种拍照方法、拍照装置及移动终端
WO2022121843A1 (zh) 文本图像的矫正方法及装置、设备和介质
JP2009237616A (ja) 画像における顔領域の検出
CN113139537A (zh) 图像处理方法、电子电路、视障辅助设备和介质
JP4898655B2 (ja) 撮像装置及び画像合成プログラム
US11367296B2 (en) Layout analysis
CN112861735A (zh) 文本图像的识别方法及装置、设备和介质
CN110969161B (zh) 图像处理方法、电路、视障辅助设备、电子设备和介质
JP6161874B2 (ja) 撮像装置、長さ計測方法及びプログラム
JP2016139975A (ja) 画像取得装置、画像取得方法及び画像取得のためのプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination