CN112800972A - 文字识别方法及装置、存储介质 - Google Patents

文字识别方法及装置、存储介质 Download PDF

Info

Publication number
CN112800972A
CN112800972A CN202110127630.5A CN202110127630A CN112800972A CN 112800972 A CN112800972 A CN 112800972A CN 202110127630 A CN202110127630 A CN 202110127630A CN 112800972 A CN112800972 A CN 112800972A
Authority
CN
China
Prior art keywords
character
text
image
language
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110127630.5A
Other languages
English (en)
Inventor
蔡晓聪
侯军
伊帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN202110127630.5A priority Critical patent/CN112800972A/zh
Publication of CN112800972A publication Critical patent/CN112800972A/zh
Priority to PCT/CN2021/103787 priority patent/WO2022160598A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

本公开提供了一种文字识别方法及装置、存储介质,其中,所述方法包括:获取包括待识别文字和其他文字的文字图像;基于所述文字图像对应的特征序列,得到所述文字图像中每个字符的类别判断结果,所述类别判断结果用于表征字符类别;基于所述类别判断结果,确定对所述待识别文字进行文字识别的目标文字识别结果。

Description

文字识别方法及装置、存储介质
技术领域
本公开涉及计算机视觉领域,尤其涉及一种文字识别方法及装置、存储介质。
背景技术
在不同应用场景中进行文字识别,已经成为计算机视觉以及智能视频分析的一大研究方向。
但是进行文字识别时,如果采集的文字图像中不止包括待识别文字,还包括了其他文字,那么识别的准确率很可能会下降。
发明内容
本公开提供了一种文字识别方法及装置、存储介质。
根据本公开实施例的第一方面,提供一种文字识别方法,所述方法包括:获取包括待识别文字和其他文字的文字图像;基于所述文字图像对应的特征序列,得到所述文字图像中每个字符的类别判断结果,所述类别判断结果用于表征字符类别;基于所述类别判断结果,确定对所述待识别文字进行文字识别的目标文字识别结果。
在一些可选实施例中,所述方法还包括:确定所述文字图像中所述待识别文字和/或所述其他文字所在的候选区域;将所述候选区域划分为多个子区域;基于所述多个子区域中至少部分子区域对应的特征信息,确定所述文字图像对应的特征序列。
在一些可选实施例中,所述基于所述文字图像对应的特征序列,得到所述文字图像中每个字符的类别判断结果,包括:基于所述文字图像对应的特征序列,确定所述文字图像包括的每个字符所属的至少一个备选字符类别和每个备选字符类别的识别率;将所述每个字符所属的所述至少一个备选字符类别中最大识别率对应的备选字符类别,作为所述类别判断结果。
在一些可选实施例中,所述基于所述类别判断结果,确定对所述待识别文字进行文字识别的目标文字识别结果,包括:根据字符类别和字符结构之间的对应关系,确定所述每个字符所属的最大识别率的备选字符类别对应的字符结构;根据所述每个字符所属的最大识别率的备选字符类别,确定所述每个字符属于所述待识别文字对应的目标字符或属于所述其他文字对应的无关字符;将所述目标字符对应的所述字符结构,作为对所述待识别文字进行文字识别的所述目标文字识别结果。
在一些可选实施例中,所述根据所述每个字符所属的最大识别率的备选字符类别,确定所述每个字符属于所述待识别文字对应的目标字符或属于所述其他文字对应的无关字符,包括:响应于确定所属的最大识别率的备选字符类别是多个第一字符类别或多个第二字符类别中的一个,确定对应的字符属于所述目标字符;响应于确定所属的最大识别率的备选字符类别是第三字符类别,确定对应的字符属于所述无关字符。
在一些可选实施例中,所述多个第一字符类别包括:与第一文字语言包括的多个字符分别对应的字符类别;其中,所述第一文字语言是所述待识别文字对应的文字语言;所述多个第二字符类别包括:与多个阿拉伯数字分别对应的字符类别;所述第三字符类别包括:与多种第二文字语言包括的多个字符对应的相同的字符类别;其中,所述第二文字语言是不同于所述第一文字语言的文字语言。
在一些可选实施例中,所述确定所述文字图像对应的特征序列,包括:将所述文字图像作为用于对字符进行字符类别判断的目标神经网络的输入,获得所述目标神经网络输出的所述文字图像对应的特征序列。
在一些可选实施例中,所述方法还包括:获取同时包括第一文字语言对应的文字和至少一种第二文字语言对应的文字的样本文字图像;其中,所述第一文字语言是所述待识别文字对应的文字语言,所述第二文字语言是不同于所述第一文字语言的文字语言;将所述样本文字图像作为预设神经网络的输入,以所述样本文字图像中的字符类别标签为监督,对所述预设神经网络进行训练,得到用于对字符进行字符类别判断的目标神经网络。
在一些可选实施例中,所述获取同时包括第一文字语言对应的文字和至少一种第二文字语言对应的文字的样本文字图像,包括:获取包括所述第一文字语言对应的文字的第一备选文字图像;获取所述至少一种第二文字语言对应的备选文字语料;基于所述备选文字语料和所述第一备选文字图像,生成所述样本文字图像。
在一些可选实施例中,所述获取同时包括第一文字语言和至少一种第二文字语言的样本文字图像,包括:获取包括所述第一文字语言对应的文字的第一备选文字图像和包括所述至少一种第二文字语言对应的文字的第二备选文字图像;基于所述第一备选文字图像和所述第二备选文字图像,生成所述样本文字图像。
在一些可选实施例中,所述样本文字图像中的字符类别标签包括以下至少一个:与所述第一文字语言包括的多个字符分别对应的多个第一字符类别标签中的至少一个;与多个阿拉伯数字分别对应的多个第二字符类别标签中的至少一个;与多个第二文字语言包括的多个字符对应的相同的第三字符类别标签。
在一些可选实施例中,所述待识别文字包括第一文字语言对应的文字,所述第一文字语言是电子签证对应的文字语言;所述文字图像包括申请所述电子签证时需要的目标资料的文字图像;所述基于所述文字图像对应的特征序列,得到所述文字图像中每个字符的类别判断结果,包括:基于所述目标资料的文字图像对应的特征序列,确定所述目标资料的文字图像中每个字符属于所述第一文字语言对应的目标字符,或属于其他文字对应的无关字符;所述确定对所述待识别文字进行文字识别的目标文字识别结果,包括:确定对所述目标资料的文字图像中所述目标字符进行文字识别的目标文字识别结果;所述方法还包括:基于所述目标文字识别结果,签发所述电子签证。
根据本公开实施例的第二方面,提供一种文字识别装置,包括:图像获取模块,用于获取包括待识别文字和其他文字的文字图像;字符类别确定模块,用于基于所述文字图像对应的特征序列,得到所述文字图像中每个字符的类别判断结果,所述类别判断结果用于表征字符类别;文字识别模块,用于基于所述类别判断结果,确定对所述待识别文字进行文字识别的目标文字识别结果。
在一些可选实施例中,所述装置还包括:区域确定模块,用于确定所述文字图像中所述待识别文字和/或所述其他文字所在的候选区域;划分模块,用于将所述候选区域划分为多个子区域;特征序列确定模块,用于基于所述多个子区域中至少部分子区域对应的特征信息,确定所述文字图像对应的特征序列。
在一些可选实施例中,所述字符类别确定模块包括:第一确定子模块,用于基于所述文字图像对应的特征序列,确定所述文字图像包括的每个字符所属的至少一个备选字符类别和每个备选字符类别的识别率;第二确定子模块,用于将所述每个字符所属的所述至少一个备选字符类别中最大识别率对应的备选字符类别,作为所述类别判断结果。
在一些可选实施例中,所述文字识别模块包括:第三确定子模块,用于根据字符类别和字符结构之间的对应关系,确定所述每个字符所属的最大识别率的备选字符类别对应的字符结构;第四确定子模块,用于根据所述每个字符所属的最大识别率的备选字符类别,确定所述每个字符属于所述待识别文字对应的目标字符或属于所述其他文字对应的无关字符;第五确定子模块,用于将所述目标字符对应的所述字符结构,作为对所述待识别文字进行文字识别的所述目标文字识别结果。
在一些可选实施例中,所述第五确定子模块包括:第一确定单元,用于响应于确定所属的最大识别率的备选字符类别是多个第一字符类别或多个第二字符类别中的一个,确定对应的字符属于所述目标字符;第二确定单元,用于响应于确定所属的最大识别率的备选字符类别是第三字符类别,确定对应的字符属于所述无关字符。
在一些可选实施例中,所述多个第一字符类别包括:与第一文字语言包括的多个字符分别对应的字符类别;其中,所述第一文字语言是所述待识别文字对应的文字语言;所述多个第二字符类别包括:与多个阿拉伯数字分别对应的字符类别;所述第三字符类别包括:与多种第二文字语言包括的多个字符对应的相同的字符类别;其中,所述第二文字语言是不同于所述第一文字语言的文字语言。
在一些可选实施例中,所述特征序列确定模块包括:第六确定子模块,用于将所述文字图像作为用于对字符进行字符类别判断的目标神经网络的输入,获得所述目标神经网络输出的所述文字图像对应的特征序列。
在一些可选实施例中,所述装置还包括:样本文字图像获取模块,用于获取同时包括第一文字语言对应的文字和至少一种第二文字语言对应的文字的样本文字图像;其中,所述第一文字语言是所述待识别文字对应的文字语言,所述第二文字语言是不同于所述第一文字语言的文字语言;训练模块,用于将所述样本文字图像作为预设神经网络的输入,以所述样本文字图像中的字符类别标签为监督,对所述预设神经网络进行训练,得到用于对字符进行字符类别判断的目标神经网络。
在一些可选实施例中,所述样本文字图像获取模块包括:第一获取子模块,用于获取包括所述第一文字语言对应的文字的第一备选文字图像;第二获取子模块,用于获取所述至少一种第二文字语言对应的备选文字语料;第一生成子模块,用于基于所述备选文字语料和所述第一备选文字图像,生成所述样本文字图像。
在一些可选实施例中,所述样本文字图像获取模块包括:第三获取子模块,用于获取包括所述第一文字语言对应的文字的第一备选文字图像和包括所述至少一种第二文字语言对应的文字的第二备选文字图像;第二生成子模块,用于基于所述第一备选文字图像和所述第二备选文字图像,生成所述样本文字图像。
在一些可选实施例中,所述样本文字图像中的字符类别标签包括以下至少一个:与所述第一文字语言包括的多个字符分别对应的多个第一字符类别标签中的至少一个;与多个阿拉伯数字分别对应的多个第二字符类别标签中的至少一个;与多个第二文字语言包括的多个字符对应的相同的第三字符类别标签。
在一些可选实施例中,所述待识别文字包括第一文字语言对应的文字,所述第一文字语言是电子签证对应的文字语言;所述文字图像包括申请所述电子签证时需要的目标资料的文字图像;所述字符类别确定模块包括:第七确定子模块,用于基于所述目标资料的文字图像对应的特征序列,确定所述目标资料的文字图像中每个字符属于所述第一文字语言对应的目标字符,或属于其他文字对应的无关字符;所述文字识别模块包括:第八确定子模块,用于确定对所述目标资料的文字图像中所述目标字符进行文字识别的目标文字识别结果;所述装置还包括:执行模块,用于基于所述目标文字识别结果,签发所述电子签证。
根据本公开实施例的第三方面,提供一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述第一方面任一所述的文字识别方法。
根据本公开实施例的第四方面,提供一种文字识别装置,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为调用所述存储器中存储的可执行指令,实现第一方面任一项所述的文字识别方法。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开实施例中,针对同时包括待识别文字和其他文字的文字图像,可以对文字图像中的每个字符进行字符类别判断,从而基于类别判断结果,在包括多种语言的文字图像中确定出待识别文字对应的字符,以及其他文字对应的无关字符,过滤掉无关字符,对待识别文字对应的字符进行文字识别,得到目标文字识别结果。本公开对待识别文字和其他文字进行字符类别判断,以便在对待识别文字进行文字识别之前,过滤掉其他文字对应的无关字符,从而降低将其他文字误判为待识别文字的概率,在混合了多种文字语言的文字图像中,提高了对其中待识别文字进行文字识别的准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是本公开根据一示例性实施例示出的一种文字识别方法流程图;
图2是本公开根据一示例性实施例示出的另一种文字识别方法流程图;
图3A是本公开根据一示例性实施例示出的一种对候选区域进行划分的场景示意图;
图3B是本公开根据一示例性实施例示出的另一种对候选区域进行划分的场景示意图;
图3C是本公开根据一示例性实施例示出的另一种对候选区域进行划分的场景示意图;
图4是本公开根据一示例性实施例示出的另一种文字识别方法流程图;
图5是本公开根据一示例性实施例示出的另一种文字识别方法流程图;
图6是本公开根据一示例性实施例示出的另一种文字识别方法流程图;
图7是本公开根据一示例性实施例示出的另一种文字识别方法流程图;
图8是本公开根据一示例性实施例示出的另一种文字识别方法流程图;
图9A是本公开根据一示例性实施例示出的一种文字识别过程对应的架构示意图;
图9B是本公开根据一示例性实施例示出的一种确定特征序列的示意图;
图10是本公开根据一示例性实施例示出的一种文字识别装置框图;
图11是本公开根据一示例性实施例示出的一种文字识别装置的一结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开运行的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所运行的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中运行的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所运行的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
目前,如果文字图像中同时包括待识别文字和其他文字,可以采用忽略其他文字的方式进行文字识别,即在文字识别模型训练过程中,样本文字图像中只包括待识别文字对应的文字标签。但是这样得到的文字识别模型在推断过程中,容易将其他文字误判为待识别文字,准确率无法保证。
为了解决上述问题,本公开实施例提供了一种文字识别方案,针对同时包括待识别文字和其他文字的文字图像,可以对文字图像中每个字符进行字符类别判断,从而基于类别判断结果,得到对其中的待识别文字进行文字识别的目标文字识别结果。
例如图1所示,图1是根据一示例性实施例示出的一种文字识别方法,包括以下步骤:
在步骤101中,获取包括待识别文字和其他文字的文字图像。
在本公开实施例中,可以通过部署在不同应用场景中的摄像头,获取包括待识别文字的文字图像。该不同应用场景包括但不限于招牌文字识别场景、车牌识别场景、票据识别场景等。相应地,获取到的文字图像中可以包括但不限于用待识别文字对应的第一文字语言书写的招牌、车牌、票据等。另外,在本公开实施例中,获取到的文字图像中还同时包括用其他文字对应的第二文字语言书写的文字内容,第二文字语言包括但不限于不同于第一文字语言的文字语言。
在本公开实施例中,用第二文字语言书写的文字内容可以与用第一文字语言书写的文字内容相同、至少部分相同或者不同。
例如,第一文字语言为泰文,第二文字语言为英文,获取到的文字图像中包括了用泰文书写的招牌,同时还包括了用英文书写的相同的招牌内容。再例如,第一文字语言为泰文,第二文字语言为中文,获取到的文字图像中包括了用泰文书写的票据内容,同时还包括了用中文书写的该票据中的部分内容。再例如,第一文字语言为英文,第二文字语言为中文,获取到的文字图像中包括了用泰文书写的文字内容,同时还包括了用中文书写的完全不同的文字内容。
在步骤102中,基于所述文字图像对应的特征序列,得到对所述文字图像中每个字符的类别判断结果。
在本公开实施例中,文字图像对应的特征序列的数目可以为一个或多个,每个特征序列可以由该文字图像中待识别文字和/或其他文字所在的候选区域包括的至少部分特征信息构成。
其中,候选区域是在文字图像中确定出的待识别文字和/或其他文字可能所在的区域。候选区域可以再次被划分为多个子区域,候选区域包括的至少部分特征信息可以是由至少部分子区域对应的特征信息构成,至少部分子区域对应的特征信息是指至少部分子区域对应的全部特征信息。例如,多个子区域包括子区域1、子区域2和子区域3,候选区域包括的至少部分特征信息可以由子区域1和子区域2的全部特征信息构成。
在本公开实施例中,进一步地,可以根据该文字图像对应的特征序列,确定对文字图像中的每个字符的类别判断结果。其中,该类别判断结果可以用于表征字符类别。
在本公开实施例中,可以预先针对第一文字语言包括的每个字符,确定对应的第一字符类别,以及针对每个阿拉伯数字确定对应的第二字符类别,同时,还可以针对多种第二文字语言包括所有字符确定相同的一个第三字符类别。其中,第一文字语言可以是待识别文字对应的文字语言,第一文字语言包括的每个字符可以指第一文字语言包括每一个字母元素,以及每一个标点符号元素,所述第二文字语言是不同于所述第一文字语言的文字语言。
例如,第一文字语言为英文,那么英文所包括的26个字母(区分大小写)、以及英文标点符号,每个字母和每个标点符号可以对应一个第一字符类别。阿拉伯数字0至9分别对应一个第二字符类别。第二文字语言就是除了英文之外的任一种文字语言,假设可以包括中文、泰文、阿拉伯文、韩文等等,所有第二文字语言包括的所有字符都对应同一个第三字符类别。
在步骤103中,基于所述类别判断结果,确定对所述待识别文字进行文字识别的目标文字识别结果。
在本公开实施例中,基于上述的类别判断结果,就可以确定其中属于待识别文字对应的目标字符,以及属于其他文字的无关字符,过滤掉其中的无关字符,最终只得到属于待识别文字对应的目标字符的字符结构,即得到对所述待识别文字进行文字识别的目标文字识别结果。
上述实施例中,针对同时包括待识别文字和其他文字的文字图像,可以对文字图像中的每个字符进行字符类别判断,从而基于类别判断结果,在包括多种语言的文字图像中确定出待识别文字对应的字符,以及其他文字对应的无关字符,过滤掉无关字符,对待识别文字对应的字符进行文字识别,得到目标文字识别结果。本公开对待识别文字和其他文字进行字符类别判断,以便在对待识别文字进行文字识别之前,过滤掉其他文字对应的无关字符,从而降低将其他文字误判为待识别文字的概率,在混合了多种文字语言的文字图像中,提高了对其中待识别文字进行文字识别的准确率。
在一些可选实施例中,例如图2所示,上述方法还可以包括步骤104至步骤106:
在步骤104中,确定所述文字图像中所述待识别文字和/或所述其他文字所在的候选区域。
其中,候选区域是在文字图像中确定出的待识别文字和/或所述其他文字可能所在的区域。
在一个示例中,可以采用区域预测网络(Region Proposal Network,RPN)来确定文字图像中所述待识别文字和/或所述其他文字可能所在的候选区域。
在步骤105中,将所述候选区域划分为多个子区域。
在本公开实施例中,在确定了待识别文字和/或所述其他文字所在的候选区域后,可以将该候选区域划分为多个子区域,每个子区域的尺寸可以相同或不同。
在一个示例中,可以对候选区域按照预设数目进行平均划分,从而得到尺寸相同的多个子区域,例如图3A所示,将候选区域划分为3个尺寸相同的子区域。
在另一个示例中,可以对候选区域按照预设的相同尺寸进行划分,从而得到N个尺寸相同的子区域,或者可以得到(N-1)个尺寸相同的子区域和一个尺寸与其他子区域不同的子区域,例如图3B所示。得到的子区域1至子区域3尺寸相同,子区域4的尺寸与其他三个子区域尺寸均不同。
在另一个示例中,可以对候选区域按照预设的多个不同尺寸顺序进行划分,例如图3C所示,可以得到3个尺寸互不相同的子区域。
在步骤106中,基于所述多个子区域中至少部分子区域对应的特征信息,确定所述文字图像对应的特征序列。
在本公开实施例中,基于文字图像对应的特征图,可以确定候选区域所包括的每个子区域对应的特征信息。基于其中至少部分子区域对应的特征信息,即根据多个子区域中部分或全部子区域对应的全部特征信息,得到文字图像对应的特征序列。
在一个示例中,每个子区域对应的全部特征信息,可以对应一个特征序列,或者多个子区域对应的全部特征信息,可以对应一个特征序列,或者每个子区域对应的全部特征信息对应多个特征序列。本公开对此不作限定。
在另一个示例中,可以按照文字书写顺序,例如从左到右的顺序,先确定每个子区域出现在该文字图像中的顺序。进一步地,根据至少部分子区域对应的特征信息确定特征序列后,按照相应子区域在文字图像中出现的顺序,对特征序列进行前后排序,例如出现在文字图像的最左侧的子区域对应的特征序列排在最前边,出现在文字图像的最右侧的子区域对应的特征序列排在最后边,多个特征序列排序组合后得到该文字图像对应的特征序列。
例如,按照从左到右的顺序,候选区域被划分为子区域1、子区域2和子区域3,至少部分区域包括子区域2和子区域3,其中子区域2对应特征序列2和3、子区域3对应特征序列4,那么排序后得到的文字图像对应的特征序列为特征序列2、特征序列3和特征序列4。在另一个示例中,可以对至少部分子区域对应的特征信息进行池化和/或采样等处理后,得到对应的特征序列。通过池化和/或采样,可以选取每个子区域中特征明显的部分对应的特征信息,来确定特征序列,在确保得到的特征序列的准确性的同时,可以提高确定文字图像对应的特征序列的效率,进而提高对待识别文字进行文字识别的效率。
在本公开实施例中,可以在确定了文字图像对应的特征序列后,再执行步骤102,基于所述文字图像对应的特征序列,确定对所述文字图像中每个字符进行字符类别判断的类别判断结果。
上述实施例中,可以将文字图像中待识别文字和/或所述其他文字所在的候选区域划分为多个子区域,基于所述多个子区域的全部或部分子区域对应的特征信息,来确定所述文字图像对应的特征序列。以便后续基于文字图像对应的特征序列,确定对所述文字图像中每个字符进行字符类别判断的类别判断结果,实现简便,可用性高。
在一些可选实施例中,例如图4所示,步骤102可以包括步骤102-1和步骤102-2:
在步骤102-1中,基于所述文字图像对应的特征序列,确定所述文字图像包括的每个字符所属的至少一个备选字符类别和每个备选字符类别的识别率。
在一个示例中,可以将文字图像对应的特征序列作为分类器的输入,获得该分类器输出的分类预测结果,分类预测结果包括但不限于所述文字图像包括的每个字符所属的至少一个备选字符类别,以及每个备选字符类别对应的识别率,即每个字符属于该备选字符类别的可能性概率值。
例如,文字图像中包括2个字符,第一个字符对应2个备选字符类别,第二字符对应3个备选字符类别。其中,第一个字符属于备选字符类别1的可能性概率值为a,即备选字符类别1对应的识别率为a,属于备选字符类别2的可能性概率值为b,即备选字符类别2对应的识别率为b。第二个字符属于备选字符类别3、备选字符类别4和备选字符类别5的可能性概率值分别为c、d、e,即备选字符类别3、备选字符类别4和备选字符类别5的识别率分别为c、d、e。
在步骤102-2中,将所述每个字符所属的所述至少一个备选字符类别中最大识别率对应的备选字符类别,作为所述类别判断结果。
在本公开实施例中,为了便于后续确定目标文字识别结果,可以将每个字符所属的至少一个备选字符类别中最大识别率对应的备选字符类别,作为所述类别判断结果。
例如,文字图像中包括的某个字符对应2个备选字符类别。其中,该字符属于备选字符类别1的识别率为a,属于备选字符类别2的识别率为b,a大于b,那么备选字符类别1可以作为该字符对应的类别判断结果。
上述实施例中,可以基于文字图像对应的特征序列,确定文字图像包括的每个字符可能所属的备选字符类别和每个备选字符类别的识别率,从而将备选字符类别中最大识别率对应的备选字符类别,作为对该字符进行字符类别判断的类别判断结果,后续可以基于该类别判断结果,确定属于待识别文字的目标字符和属于其他文字的无关字符,以便过滤掉无关字符,提高了在混合多种文字语言的文字图像中,针对待识别文字进行文字识别的准确率。
在一些可选实施例中,例如图5所示,步骤103可以包括步骤103-1和步骤103-3:
在步骤103-1中,根据字符类别和字符结构之间的对应关系,确定所述每个字符所属的最大识别率的备选字符类别对应的字符结构。
在本公开实施例中,预先设置了不同的字符类别和对应的字符结构,例如,字符类别1对应的字符结构为‘a’,字符类别2对应的字符结构为‘b’,等等。可以基于之前确定的类别判断结果和上述对应关系,确定每个字符所属的最大识别率的备选字符类别对应的字符结构。
在本公开实施例中,第一文字语言包括的每个字符对应不同的第一字符类别,每个第一字符类别分别对应不同的字符结构。不同的阿拉伯数字对应不同的第二字符类别,这些第二字符类别也分别对应不同的字符结构,例如字符结构‘0’、‘1’等。而针对多种第二文字语言包括的所有字符可以对应同一个第三字符类别,这个第三字符类别可以对应相同的一个个字符结构,例如,多种第二文字语言包括中文、阿拉伯文、泰文等,第二文字语言包括的所有的字符可以都对应一个第三字符类别,假设为字符类别70,这个字符类别70可以对应同一个字符结构,例如都对应中文的字符结构‘啊’。
当然,上述第一文字语言是待识别文字对应的文字语言,除了第一文字语言之外的其他文字语言均可以作为第二文字语言。
在本公开实施例中,根据上述对应关系,就可以确定每个字符所属的最大识别率的备选字符类别对应的字符结构。
例如,文字图像包括4个字符,每个字符分别所属的最大识别率的备选字符类别依次为1、2、3、70,根据上述对应关系,可以确定对应的字符结构依次为a、b、c、啊。
在步骤103-2中,根据所述每个字符所属的最大识别率的备选字符类别,确定所述每个字符属于所述待识别文字对应的目标字符或属于所述其他文字对应的无关字符。
在本公开实施例中,如果确定某个字符所属的最大识别率的备选字符类别是多个第一字符类别或多个第二字符类别中的一个,那么可以确定该字符属于所述待识别文字对应的目标字符。其中,多个第一字符类别包括:与第一文字语言包括的多个字符分别对应的字符类别,所述第一文字语言是所述待识别文字对应的文字语言,多个第二字符类别包括:与多个阿拉伯数字分别对应的字符类别。
如果确定某个字符所属的最大识别率的备选字符类别是第三字符类别,那么可以确定该字符属于所述其他文字对应的无关字符。
例如,第一文字语言为英文,多个第一字符类别包括字符类别1至59,阿拉伯数字对应的多个第二字符类别包括字符类别60至69,第三字符类别包括字符类别70,文字图像中包括4个字符,每个字符分别所属的最大识别率的备选字符类别依次为1、2、3、70,那么可以确定前3个字符属于目标字符,最后一个字符属于无关字符。
在步骤103-3中,将所述目标字符对应的所述字符结构,作为对所述待识别文字进行文字识别的所述目标文字识别结果。
之前已经确定了文字图像包括4个字符对应的字符结构依次为a、b、c、啊,其中最后一个字符属于无关字符,可以过滤掉无关字符对应的字符结构,只留下目标字符对应的所述字符结构,从而得到目标文字识别结果,例如得到的目标文字识别结果为‘a b c’。
在一个示例中,可以调用预设程序,过滤掉无关字符对应的字符结构,从而得到目标字符对应的所述字符结构。其中,预设程序可以是预先编写的用于过滤指定字符结构的程序。例如,指定字符结构为‘啊’,该预设程序可以过滤字符结构‘啊’,从而得到待识别文字对应的目标字符的字符结构。
上述实施例中,可以基于类别判断结果,确定文字图像中每个字符属于所述待识别文字对应的目标字符,还是属于所述其他文字对应的无关字符,从而可以过滤掉无关字符对应的字符结构,只保留待识别文字对应的目标字符的字符结构,得到对所述待识别文字进行文字识别的目标文字识别结果,提高了对混合多种文字语言的文字图像中的待识别文字进行文字识别的准确率。
在一些可选实施例中,针对上述步骤102,可以将文字图像直接作为目标神经网络的输入,获得目标神经网络输出的所述文字图像对应的特征序列。其中,所述目标神经网络是用于对字符进行字符类别判断的神经网络。
在本公开实施例中,目标神经网络是基于预设神经网络训练得到的,可以从文字图像中确定对应的特征序列。其中,预设神经网络包括但不限于计算机视觉组(VisualGeometry Group,VGG)网络,谷歌网络(GoogLeNet)残差网络(Resnet)等。
上述实施例中,可以将文字图像作为对字符进行字符类别判断的目标神经网络的输入,从而得到该目标神经网络输出的文字图像对应的特征序列,后续基于文字图像对应的特征序列来确定文字图像包括的每个字符对应的字符类别,进而可以对文字图像中的待识别文字进行文字识别,提高了对待识别文字进行文字识别的准确率。
在一些可选实施例中,例如图6所示(图6仅为示例性说明,实际应用中可以不限定下列步骤100-1至100-2的执行顺序必须要在步骤101之前执行),上述方法还可以包括:
在步骤100-1中,获取同时包括第一文字语言对应的文字和第二文字语言对应的文字的样本文字图像。
在本公开实施例中,可以直接从样本图像数据库中获得上述样本文字图像。
在步骤100-2中,将所述样本文字图像作为预设神经网络的输入,以所述样本文字图像中的字符类别标签为监督,对所述预设神经网络进行训练,得到用于对字符进行字符类别判断的目标神经网络。
在本公开实施例中,样本文字图像中的字符类别标签包括以下至少一个:所述第一文字语言包括的多个字符分别对应的多个第一字符类别标签中的至少一个;多个阿拉伯数字分别对应的多个第二字符类别标签中的至少一个;多个第二文字语言包括的多个字符对应的相同的第三字符类别标签。
在本公开实施例中,可以采用联接主义时间分类(Connectionist TemporalClassification,CTC)监督训练方式,对预设神经网络进行训练,从而得到目标神经网络。其中,CTC监督训练方式是指让神经网络直接对输入序列进行学习,而无需事先标注好训练数据中输入序列和输出结果的映射关系。
在本公开实施例中,预设神经网络输出样本文字图像中所包括的字符类别,根据预设神经网络的输出结果和样本文字图像中的字符类别标签的差异,确定损失函数,采用网络参数梯度反传的方式,对预设神经网络进行迭代训练,以便得到目标神经网络。
上述实施例中,可以获取同时包括第一文字语言对应的文字和至少一种第二文字语言对应的文字的样本文字图像,样本文字图像中包括多种字符类别标签,通过对预设神经网络的训练,,得到用于对字符进行字符类别判断的目标神经网络,提高了目标神经网络的精度和鲁棒性。
在一些可选实施例中,考虑到样本文字图像数目可能较少,为了确保目标神经网络的精度和鲁棒性,可以采用以下方式中的任一种或多种的组合来得到样本文字图像。
第一种方式,基于包括所述第一文字语言对应的文字的第一备选文字图像,以及所述第二文字语言对应的备选文字语料,生成样本文字图像。
例如图7所示,步骤100-1可以包括以下步骤201至步骤203:
在步骤201中,获取包括所述第一文字语言对应的文字的第一备选文字图像。
在本公开实施例中,可以获取只包括第一文字语言对应的文字的第一备选文字图像。其中,第一文字语言是待识别文字对应的文字语言,例如待识别文字为英文,那么第一文字语言就是英文,如果待识别文字为泰文,那么第一文字语言就是泰文。
在步骤202中,获取所述至少一种第二文字语言对应的备选文字语料。
备选文字语料是至少一种第二文字语言对应的样本语料,所述第二文字语言是不同于第一文字语言的文字语言,例如第一文字语言是泰文,那么除了泰文之外的中文、阿拉伯文、韩文等都可以作为第二文字语言。
备选文字语料中包括但不限于多个字符、由字符构成的多个字符串,另外,备选文字语料中也可以包括多个字(每个字可以由至少一个字符或至少一个字符串组成)、多个词(每个词可以由至少一个字和/或至少一个字符构成)和多个语句(每个语句可以由至少一个字和/或词构成)。
其中,备选文字语料中的字、词和/或语句可以有语义或没有语义,本公开对此不作限定。有语义表示具备语言意义,例如陈述了一件事、描述了一个东西等,没有语义表示不具备语言意义,例如多个字符组合在一起构成商标(logo)或车牌时,多个字符的组合并不具备任何语言意义。
在步骤203中,基于所述备选文字语料和所述第一备选文字图像,生成所述样本文字图像。
在本公开实施例中,可以分别得到第一备选文字图像所包括的前景内容和背景内容,将备选文字语料与第一备选文字图像所包括的前景内容进行组合,得到样本文字图像的前景内容,将第一备选文字图像所包括的背景内容作为样本文字图像的背景内容,从而生成样本文字图像。
其中,前景内容包括用第一文字语言书写的文字,前景内容与备选文字语料的组合包括但不限于在确保前景内容与备选文字语料的文字内容不重叠的情况下,让两部分的文字内容处于不同的相对位置。相对位置包括但不限于,其中一个位于另一个的上方、下方、左侧、右侧等位置。
第二种方式,分别获取包括所述第一文字语言对应的文字的第一备选文字图像和包括所述第二文字语言对应的文字的第二备选文字图像,从而生成样本文字图像。
例如图8所示,步骤100-1可以包括以下步骤301至步骤302:
在步骤301中,获取包括所述第一文字语言对应的文字的第一备选文字图像和包括所述至少一种第二文字语言对应的文字的第二备选文字图像。
在步骤302中,基于所述第一备选文字图像和所述第二备选文字图像,生成所述样本文字图像。
在本公开实施例中,可以分别得到第一备选文字图像包括的前景内容和第二备选文字图像包括的前景内容,将两个前景内容进行组合后得到样本文字图像对应的前景内容。其中,前景内容包括用第一文字语言或第二文字语言书写的文字,两个前景内容的组合包括但不限于在确保两部分的文字内容不重叠的情况下,让两部分文字内容处于不同的相对位置。
可以将第一备选文字图像包括的背景内容、或第二备选文字图像包括的背景内容作为样本文字图像对应的背景内容,或者还可以将预设背景图作为样本文字图像对应的背景内容。
在本公开实施例中,背景图可以包括但不限于预先设置好的不同的纯色背景图、存在不同背景内容的背景图,背景内容可以为实物、景色等。
在一种实现方式中,可以基于背景图的数量采用对应的方式获取背景图,比如,如果预先设置的背景图的数目较多,可以通过随机采样的方式得到预先设置的背景图中的至少一个。具体可以依据背景图数量对应的数量级,或是依据背景图数量所属的数量区间,或是依据背景图数量与数量阈值之间的大小关系来确定背景图的数目较多或是较少等。其中,数量级、数量区间的划分,以及数量阈值的设置,可以基于获得第一备选文字图像或第二备选文字图像时的经验值得到,在此不予限定。
如果预先设置的背景图的数目较少,可以去已有的背景图数据库中随机选取一部分背景图,或者如果没有背景图数据库,可以基于已有背景图的不同区域进行随机组合,得到多个背景图,从而确保最终得到的样本文字图像的多样性。
在本公开实施例中,确定了样本文字图像的前景内容和背景内容后,可以生成样本文字图像。
上述实施例中,可以获取同时包括第一文字语言对应的文字和至少一种第二文字语言对应的文字的样本文字图像,解决了样本文字图像获取困难的问题,从而可以在后续提高目标神经网络精度和鲁棒性。
在一些可选实施例中,以第一文字语言为泰文,第二文字语言为英文,应用场景为停车场为例。在采集了包括泰文、阿拉伯数字和英文的车牌内容的文字图像后,需要对其中的泰文和阿拉伯数字进行文字识别。其中,泰文和阿拉伯数字对应的车牌内容就属于待识别文字,英文对应的车牌内容属于其他文字。
在本公开实施例中,可以将采集到的车牌文字图像作为目标神经网络的输入,得到目标神经网络输出的与该文字图像对应的特征序列,进而将特征序列作为分类器的输入,以通过分类器确定该文字图像包括的每个字符属于的至少一个备选字符类别和每个备选字符类别对应的识别率。
基于分类器输出的上述结果,将每个字符至少一个备选字符类别中最大识别率对应的备选字符类别,作为对所述文字图像中每个字符进行字符类别判断的类别判断结果。进一步地,根据字符类别和字符结构之间的对应关系,确定所述每个字符所属的最大识别率对应的备选字符类别对应的字符结构,根据每个字符所属的最大识别率的备选字符类别,确定出属于泰文或阿拉伯数字的目标字符,以及属于英文的无关字符后,从上述的字符结构中,过滤掉无关字符对应的字符结构,得到泰文和阿拉伯数字对应的字符结构,最终得到对该文字图像中的泰文和阿拉伯数字进行文字识别的目标文字识别结果。
针对进出停车场的车辆所包括的泰文、阿拉伯数字和英文的车牌,实现对其中的泰文和阿拉伯数字进行文字识别的目的,且不容易出现误判,提高了识别准确率。
在实现过程中,首先,可以通过部署在停车场出入口的摄像头,采集包括进出停车场出入口的车辆的泰文、阿拉伯数字和英文的车牌的文字图像。需要说明的是,文字图像的获取方式,可以包括但不限于对摄像头采集的视频流进行选帧。比如,可以对视频流进行周期性或是非周期性选帧操作,以得到一帧或是多帧对同一车辆包括泰文、阿拉伯数字和英文的车牌进行拍摄得到的文字图像。选帧过程中,可以考虑拍摄角度、成像清晰度、成像亮度等会影响到文字图像质量和/或识别准确率的一种或是多种因素,从而得到输入目标神经网络的文字图像。其中,输入目标神经网络的同一包括泰文、阿拉伯数字和英文的车牌的文字图像,可以包括一张或多张,在此不予限定。在包括一张的情况下,可以将这一张的识别结果作为最终的识别结果,而在包括多张的情况下,可以综合考虑每张的识别结果,或是综合考虑其中部分文字图像的识别结果,以得到最终的识别结果,又或者可以从多张文字图像中筛选出一张,以基于这一张文字图像得到最终的识别结果,具体实现方式,在此不予限定,可以包括但不限于上述例举的情况。
例如图9A所示,在本公开提供的应用场景中,该文字图像同时包括泰文、阿拉伯数字和英文的车牌的文字图像,目标神经网络首先确定泰文、阿拉伯数字和/或英文字符所在的候选区域,例如图9B所示,假设得到2个候选区域,以针对候选区域1划分为8个子区域为例(本公开以8个为例进行示例性说明,实际应用中得到的特征序列的数目可以小于8个或大于8个),每个子区域可以对应得到一个特征序列,例如图9B所示。同样地,针对候选区域2也可以得到至少一个特征序列(图9B中未示出),将两个候选子区域划分得到的所有子区域分别对应的特征序列的组合,作为该文字图像对应的特征序列。
在得到目标神经网络输出的对应文字图像的特征序列后,可以通过分类器得到该文字图像包括的每个字符对应的至少一个备选字符类别和每个备选字符类别对应的识别率。在本公开实施例中,可以将最大识别率的备选字符类别作为类别判断结果。
进一步地,根据类别判断结果可以确定其中属于泰文和阿拉伯数字的目标字符,以及属于英文的无关字符,将目标字符对应的字符结构作为目标文字识别结果,对应了进出停车场的车辆的包括泰文、阿拉伯数字和英文的车牌,针对其中的泰文和阿拉伯数字进行文字识别的目标识别结果。
在本公开实施例中,可以对预设神经网络进行训练后,得到上述目标神经网络。
在对目标神经网络进行训练的过程中,可以通过已有的包括泰文文字的第一备选文字图像,以及英文语料,得到样本文字图像。
或者可以单独获取只包括泰文文字的第一备选文字图像,以及只包括英文文字的第二备选文字图像,基于第一备选文字图像和第二备选文字图像,生成样本文字图像。
以样本文字图像作为预设神经网络的输入,样本文字图像中的多种字符标签作为监督通过CTC监督训练方式,得到所需要的目标神经网络。其中,样本文字图像中的字符类别标签包括以下至少一个:所述第一文字语言包括的多个字符分别对应的多个第一字符类别标签中的至少一个,即泰文字符分别对应的多个第一字符类别标签中的至少一个;多个阿拉伯数字分别对应的多个第二字符类别标签中的至少一个;多个第二文字语言包括的多个字符对应的相同的第三字符类别标签,即英文字符对应的同一个第三字符标签。
上述实施例中,可以得到大量的样本训练数据,满足对预设神经网络的训练精度的需求,提高了目标神经网络的鲁棒性,且通用性高,可以快速部署到任意设备上实现文字识别的目的。
在一些可选实施例中,本公开提供的文字识别方案可以用于招牌文字识别、票据识别、上述的车牌识别等场景中。在本公开实施例中,该文字识别方案还可以用于签发电子签证。
电子签证的签发过程中,需要申请电子签证的用户上传申请所述电子签证所需要的目标资料,该目标资料包括但不限于以下至少一项:包括往返航班信息和酒店信息中至少一项的电子表格、往返航班的票据信息、酒店开具的预定成功信息、护照、收入证明、体检信息、其他申请电子签证所需要的信息。用户在上传了上述目标资料后,需要人工核对其中的信息内容,从而签发电子签证。
在本公开实施例中,用户可以上传目标资料的文字图像,电子签证系统可以按照本公开提供的文字识别方案,先确定每个目标资料的文字图像对应的特征序列,进一步地,基于该特征序列,确定目标资料的文字图像中每个字符属于第一文字语言对应的目标字符,或是属于除了所述第一文字语言之外的其他文字对应的无关字符。过滤掉目标资料的文字图像中的无关字符,对目标资料的文字图像中待识别文字进行文字识别,从而得到目标文字识别结果。其中,待识别文字包括第一文字语言对应的文字,所述第一文字语言是电子签证对应的文字语言。
例如,电子签证会采用英文签发,电子签证系统可以在用户上传的目标资料的文字图像中,确定每个字符属于英文字符,或属于其他文字对应的无关字符,过滤掉无关字符后,针对目标资料的文字图像中的英文字符进行文字识别,得到目标文字识别结果。
进一步地,电子签证系统可以基于目标文字识别结果,签发电子签证。例如,电子签证系统基于目标文字识别结果,验证该用户符合签发电子签证的条件,自动为该用户签发电子签证。
上述实施例中,可以在申请电子签证时需要的目标资料的文字图像中,过滤掉其他文字对应的无关字符,对目标资料的文字图像中电子签证对应的文字进行文字识别,提高了电子签证签发的准确性、时效性,可用性高。
与前述方法实施例相对应,本公开还提供了装置的实施例。
如图10所示,图10是本公开根据一示例性实施例示出的一种文字识别装置框图,装置包括:图像获取模块410,用于获取包括待识别文字和其他文字的文字图像;字符类别确定模块420,用于基于所述文字图像对应的特征序列,得到所述文字图像中每个字符的类别判断结果,所述类别判断结果用于表征字符类别;文字识别模块430,用于基于所述类别判断结果,确定对所述待识别文字进行文字识别的目标文字识别结果。
在一些可选实施例中,所述装置还包括:区域确定模块,用于确定所述文字图像中所述待识别文字和/或所述其他文字所在的候选区域;划分模块,用于将所述候选区域划分为多个子区域;特征序列确定模块,用于基于所述多个子区域中至少部分子区域对应的特征信息,确定所述文字图像对应的特征序列。
在一些可选实施例中,所述字符类别确定模块包括:第一确定子模块,用于基于所述文字图像对应的特征序列,确定所述文字图像包括的每个字符所属的至少一个备选字符类别和每个备选字符类别的识别率;第二确定子模块,用于将所述每个字符所属的所述至少一个备选字符类别中最大识别率对应的备选字符类别,作为所述类别判断结果。
在一些可选实施例中,所述文字识别模块包括:第三确定子模块,用于根据字符类别和字符结构之间的对应关系,确定所述每个字符所属的最大识别率的备选字符类别对应的字符结构;第四确定子模块,用于根据所述每个字符所属的最大识别率的备选字符类别,确定所述每个字符属于所述待识别文字对应的目标字符或属于所述其他文字对应的无关字符;第五确定子模块,用于将所述目标字符对应的所述字符结构,作为对所述待识别文字进行文字识别的所述目标文字识别结果。
在一些可选实施例中,所述第五确定子模块包括:第一确定单元,用于响应于确定所属的最大识别率的备选字符类别是多个第一字符类别或多个第二字符类别中的一个,确定对应的字符属于所述目标字符;第二确定单元,用于响应于确定所属的最大识别率的备选字符类别是第三字符类别,确定对应的字符属于所述无关字符。
在一些可选实施例中,所述多个第一字符类别包括:与第一文字语言包括的多个字符分别对应的字符类别;其中,所述第一文字语言是所述待识别文字对应的文字语言;所述多个第二字符类别包括:与多个阿拉伯数字分别对应的字符类别;所述第三字符类别包括:与多种第二文字语言包括的多个字符对应的相同的字符类别;其中,所述第二文字语言是不同于所述第一文字语言的文字语言。
在一些可选实施例中,所述特征序列确定模块包括:第六确定子模块,用于将所述文字图像作为用于对字符进行字符类别判断的目标神经网络的输入,获得所述目标神经网络输出的所述文字图像对应的特征序列。
在一些可选实施例中,所述装置还包括:样本文字图像获取模块,用于获取同时包括第一文字语言对应的文字和至少一种第二文字语言对应的文字的样本文字图像;其中,所述第一文字语言是所述待识别文字对应的文字语言,所述第二文字语言是不同于所述第一文字语言的文字语言;训练模块,用于将所述样本文字图像作为预设神经网络的输入,以所述样本文字图像中的字符类别标签为监督,对所述预设神经网络进行训练,得到用于对字符进行字符类别判断的目标神经网络。
在一些可选实施例中,所述样本文字图像获取模块包括:第一获取子模块,用于获取包括所述第一文字语言对应的文字的第一备选文字图像;第二获取子模块,用于获取所述至少一种第二文字语言对应的备选文字语料;第一生成子模块,用于基于所述备选文字语料和所述第一备选文字图像,生成所述样本文字图像。
在一些可选实施例中,所述样本文字图像获取模块包括:第三获取子模块,用于获取包括所述第一文字语言对应的文字的第一备选文字图像和包括所述至少一种第二文字语言对应的文字的第二备选文字图像;第二生成子模块,用于基于所述第一备选文字图像和所述第二备选文字图像,生成所述样本文字图像。
在一些可选实施例中,所述样本文字图像中的字符类别标签包括以下至少一个:与所述第一文字语言包括的多个字符分别对应的多个第一字符类别标签中的至少一个;与多个阿拉伯数字分别对应的多个第二字符类别标签中的至少一个;与多个第二文字语言包括的多个字符对应的相同的第三字符类别标签。
在一些可选实施例中,所述待识别文字包括第一文字语言对应的文字,所述第一文字语言是电子签证对应的文字语言;所述文字图像包括申请所述电子签证时需要的目标资料的文字图像;所述字符类别确定模块包括:第七确定子模块,用于基于所述目标资料的文字图像对应的特征序列,确定所述目标资料的文字图像中每个字符属于所述第一文字语言对应的目标字符,或属于其他文字对应的无关字符;所述文字识别模块包括:第八确定子模块,用于确定对所述目标资料的文字图像中所述目标字符进行文字识别的目标文字识别结果;所述装置还包括:执行模块,用于基于所述目标文字识别结果,签发所述电子签证。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本公开实施例还提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序用于执行上述任一所述的文字识别方法。
在一些可选实施例中,本公开实施例提供了一种计算机程序产品,包括计算机可读代码,当计算机可读代码在设备上运行时,设备中的处理器执行用于实现如上任一实施例提供的文字识别方法的指令。
在一些可选实施例中,本公开实施例还提供了另一种计算机程序产品,用于存储计算机可读指令,指令被执行时使得计算机执行上述任一实施例提供的文字识别方法。
该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
本公开实施例还提供了一种文字识别装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为调用所述存储器中存储的可执行指令,实现上述任一项所述的文字识别方法。
图11为本公开实施例提供的一种文字识别装置的硬件结构示意图。该文字识别装置510包括处理器511,还可以包括输入装置512、输出装置513和存储器514。该输入装置512、输出装置513、存储器514和处理器511之间通过总线相互连接。
存储器包括但不限于是随机存储记忆体(random access memory,RAM)、只读存储器(read-only memory,ROM)、可擦除可编程只读存储器(erasable programmable readonly memory,EPROM)、或便携式只读存储器(compact disc read-only memory,CD-ROM),该存储器用于相关指令及数据。
输入装置用于输入数据和/或信号,以及输出装置用于输出数据和/或信号。输出装置和输入装置可以是独立的器件,也可以是一个整体的器件。
处理器可以包括是一个或多个处理器,例如包括一个或多个中央处理器(centralprocessing unit,CPU),在处理器是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。
存储器用于存储网络设备的程序代码和数据。
处理器用于调用该存储器中的程序代码和数据,执行上述方法实施例中的步骤。具体可参见方法实施例中的描述,在此不再赘述。
可以理解的是,图11仅仅示出了一种文字识别装置的简化设计。在实际应用中,文字识别装置还可以分别包含必要的其他元件,包含但不限于任意数量的输入/输出装置、处理器、控制器、存储器等,而所有可以实现本公开实施例的文字识别装置都在本公开的保护范围之内。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或者惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
以上所述仅为本公开的较佳实施例而已,并不用以限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开保护的范围之内。

Claims (15)

1.一种文字识别方法,其特征在于,包括:
获取包括待识别文字和其他文字的文字图像;
基于所述文字图像对应的特征序列,得到所述文字图像中每个字符的类别判断结果,所述类别判断结果用于表征字符类别;
基于所述类别判断结果,确定对所述待识别文字进行文字识别的目标文字识别结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述文字图像中所述待识别文字和/或所述其他文字所在的候选区域;
将所述候选区域划分为多个子区域;
基于所述多个子区域中至少部分子区域对应的特征信息,确定所述文字图像对应的特征序列。
3.根据权利要求1或2所述的方法,其特征在于,所述基于所述文字图像对应的特征序列,得到所述文字图像中每个字符的类别判断结果,包括:
基于所述文字图像对应的特征序列,确定所述文字图像包括的每个字符所属的至少一个备选字符类别和每个备选字符类别的识别率;
将所述每个字符所属的所述至少一个备选字符类别中最大识别率对应的备选字符类别,作为所述类别判断结果。
4.根据权利要求3所述的方法,其特征在于,所述基于所述类别判断结果,确定对所述待识别文字进行文字识别的目标文字识别结果,包括:
根据字符类别和字符结构之间的对应关系,确定所述每个字符所属的最大识别率的备选字符类别对应的字符结构;
根据所述每个字符所属的最大识别率的备选字符类别,确定所述每个字符属于所述待识别文字对应的目标字符或属于所述其他文字对应的无关字符;
将所述目标字符对应的所述字符结构,作为对所述待识别文字进行文字识别的所述目标文字识别结果。
5.根据权利要求4所述的方法,其特征在于,所述根据所述每个字符所属的最大识别率的备选字符类别,确定所述每个字符属于所述待识别文字对应的目标字符或属于所述其他文字对应的无关字符,包括:
响应于确定所属的最大识别率的备选字符类别是多个第一字符类别或多个第二字符类别中的一个,确定对应的字符属于所述目标字符;
响应于确定所属的最大识别率的备选字符类别是第三字符类别,确定对应的字符属于所述无关字符。
6.根据权利要求5所述的方法,其特征在于,所述多个第一字符类别包括:与第一文字语言包括的多个字符分别对应的字符类别;其中,所述第一文字语言是所述待识别文字对应的文字语言;
所述多个第二字符类别包括:与多个阿拉伯数字分别对应的字符类别;
所述第三字符类别包括:与多种第二文字语言包括的多个字符对应的相同的字符类别;其中,所述第二文字语言是不同于所述第一文字语言的文字语言。
7.根据权利要求2-6任一项所述的方法,其特征在于,所述确定所述文字图像对应的特征序列,包括:
将所述文字图像作为用于对字符进行字符类别判断的目标神经网络的输入,获得所述目标神经网络输出的所述文字图像对应的特征序列。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述方法还包括:
获取同时包括第一文字语言对应的文字和至少一种第二文字语言对应的文字的样本文字图像;其中,所述第一文字语言是所述待识别文字对应的文字语言,所述第二文字语言是不同于所述第一文字语言的文字语言;
将所述样本文字图像作为预设神经网络的输入,以所述样本文字图像中的字符类别标签为监督,对所述预设神经网络进行训练,得到用于对字符进行字符类别判断的目标神经网络。
9.根据权利要求8所述的方法,其特征在于,所述获取同时包括第一文字语言对应的文字和至少一种第二文字语言对应的文字的样本文字图像,包括:
获取包括所述第一文字语言对应的文字的第一备选文字图像;
获取所述至少一种第二文字语言对应的备选文字语料;
基于所述备选文字语料和所述第一备选文字图像,生成所述样本文字图像。
10.根据权利要求8所述的方法,其特征在于,所述获取同时包括第一文字语言和至少一种第二文字语言的样本文字图像,包括:
获取包括所述第一文字语言对应的文字的第一备选文字图像和包括所述至少一种第二文字语言对应的文字的第二备选文字图像;
基于所述第一备选文字图像和所述第二备选文字图像,生成所述样本文字图像。
11.根据权利要求8-10任一项所述的方法,其特征在于,所述样本文字图像中的字符类别标签包括以下至少一个:
与所述第一文字语言包括的多个字符分别对应的多个第一字符类别标签中的至少一个;
与多个阿拉伯数字分别对应的多个第二字符类别标签中的至少一个;
与多个第二文字语言包括的多个字符对应的相同的第三字符类别标签。
12.根据权利要求1-11任一项所述的方法,其特征在于,所述待识别文字包括第一文字语言对应的文字,所述第一文字语言是电子签证对应的文字语言;所述文字图像包括申请所述电子签证时需要的目标资料的文字图像;
所述基于所述文字图像对应的特征序列,得到所述文字图像中每个字符的类别判断结果,包括:
基于所述目标资料的文字图像对应的特征序列,确定所述目标资料的文字图像中每个字符属于所述第一文字语言对应的目标字符,或属于其他文字对应的无关字符;
所述确定对所述待识别文字进行文字识别的目标文字识别结果,包括:
确定对所述目标资料的文字图像中所述目标字符进行文字识别的目标文字识别结果;
所述方法还包括:
基于所述目标文字识别结果,签发所述电子签证。
13.一种文字识别装置,其特征在于,包括:
图像获取模块,用于获取包括待识别文字和其他文字的文字图像;
字符类别确定模块,用于基于所述文字图像对应的特征序列,得到所述文字图像中每个字符的类别判断结果,所述类别判断结果用于表征字符类别;
文字识别模块,用于基于所述类别判断结果,确定对所述待识别文字进行文字识别的目标文字识别结果。
14.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-12任一所述的文字识别方法。
15.一种文字识别装置,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为调用所述存储器中存储的可执行指令,实现权利要求1-12中任一项所述的文字识别方法。
CN202110127630.5A 2021-01-29 2021-01-29 文字识别方法及装置、存储介质 Pending CN112800972A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110127630.5A CN112800972A (zh) 2021-01-29 2021-01-29 文字识别方法及装置、存储介质
PCT/CN2021/103787 WO2022160598A1 (zh) 2021-01-29 2021-06-30 文字识别方法及装置、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110127630.5A CN112800972A (zh) 2021-01-29 2021-01-29 文字识别方法及装置、存储介质

Publications (1)

Publication Number Publication Date
CN112800972A true CN112800972A (zh) 2021-05-14

Family

ID=75812940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110127630.5A Pending CN112800972A (zh) 2021-01-29 2021-01-29 文字识别方法及装置、存储介质

Country Status (2)

Country Link
CN (1) CN112800972A (zh)
WO (1) WO2022160598A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022160598A1 (zh) * 2021-01-29 2022-08-04 北京市商汤科技开发有限公司 文字识别方法及装置、存储介质
WO2023273516A1 (zh) * 2021-06-28 2023-01-05 上海商汤智能科技有限公司 字符识别及神经网络训练方法和装置、神经网络、存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214386A (zh) * 2018-09-14 2019-01-15 北京京东金融科技控股有限公司 用于生成图像识别模型的方法和装置
CN109492643A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 基于ocr的证件识别方法、装置、计算机设备及存储介质
CN110569830A (zh) * 2019-08-01 2019-12-13 平安科技(深圳)有限公司 多语言文本识别方法、装置、计算机设备及存储介质
CN111563495A (zh) * 2020-05-09 2020-08-21 北京奇艺世纪科技有限公司 一种图像中字符的识别方法、装置及电子设备
CN111582282A (zh) * 2020-05-13 2020-08-25 科大讯飞股份有限公司 一种文本识别方法、装置、设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4172584B2 (ja) * 2004-04-19 2008-10-29 インターナショナル・ビジネス・マシーンズ・コーポレーション 文字認識結果出力装置、文字認識装置、その方法及びプログラム
CN111178363B (zh) * 2019-12-18 2024-02-20 北京旷视科技有限公司 文字识别方法、装置、电子设备以及可读存储介质
CN112200188B (zh) * 2020-10-16 2023-09-12 北京市商汤科技开发有限公司 文字识别方法及装置、存储介质
CN112800972A (zh) * 2021-01-29 2021-05-14 北京市商汤科技开发有限公司 文字识别方法及装置、存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214386A (zh) * 2018-09-14 2019-01-15 北京京东金融科技控股有限公司 用于生成图像识别模型的方法和装置
CN109492643A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 基于ocr的证件识别方法、装置、计算机设备及存储介质
CN110569830A (zh) * 2019-08-01 2019-12-13 平安科技(深圳)有限公司 多语言文本识别方法、装置、计算机设备及存储介质
CN111563495A (zh) * 2020-05-09 2020-08-21 北京奇艺世纪科技有限公司 一种图像中字符的识别方法、装置及电子设备
CN111582282A (zh) * 2020-05-13 2020-08-25 科大讯飞股份有限公司 一种文本识别方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022160598A1 (zh) * 2021-01-29 2022-08-04 北京市商汤科技开发有限公司 文字识别方法及装置、存储介质
WO2023273516A1 (zh) * 2021-06-28 2023-01-05 上海商汤智能科技有限公司 字符识别及神经网络训练方法和装置、神经网络、存储介质及电子设备

Also Published As

Publication number Publication date
WO2022160598A1 (zh) 2022-08-04

Similar Documents

Publication Publication Date Title
Luo et al. Traffic sign recognition using a multi-task convolutional neural network
CN111414906B (zh) 纸质票据图片的数据合成与文本识别方法
US20200082167A1 (en) System and method for trash-detection and management
CN111738251B (zh) 一种融合语言模型的光学字符识别方法、装置和电子设备
CN106650740B (zh) 一种车牌识别方法及终端
CN110705233B (zh) 基于文字识别技术的笔记生成方法、装置和计算机设备
US20190019055A1 (en) Word segmentation system, method and device
CN105787466B (zh) 一种车辆类型的精细识别方法及系统
CN112257613B (zh) 体检报告信息结构化提取方法、装置及计算机设备
CN109255356A (zh) 一种文字识别方法、装置及计算机可读存储介质
CN111783505A (zh) 伪造人脸的识别方法、装置和计算机可读存储介质
CN102867418A (zh) 一种判断车牌识别准确性的方法和装置
CN112800972A (zh) 文字识别方法及装置、存储介质
CN108681735A (zh) 基于卷积神经网络深度学习模型的光学字符识别方法
Shirbhate et al. Sign language recognition using machine learning algorithm
CN111046971A (zh) 图像识别方法、装置、设备及计算机可读存储介质
CN109189965A (zh) 图像文字检索方法及系统
CN103544504A (zh) 一种基于多尺度图匹配核的场景字符识别方法
CN112766255A (zh) 一种光学文字识别方法、装置、设备及存储介质
CN112364883A (zh) 一种基于单阶段目标检测和deeptext识别网络的美式车牌识别方法
CN110825874A (zh) 一种中文文本分类方法和装置及计算机可读存储介质
CN113903041A (zh) 文本识别方法、装置、车辆及存储介质
CN112686263A (zh) 文字识别方法、装置、电子设备及存储介质
CN112200188A (zh) 文字识别方法及装置、存储介质
CN111783881A (zh) 基于预训练模型的场景适配学习方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40044558

Country of ref document: HK

RJ01 Rejection of invention patent application after publication

Application publication date: 20210514