CN112200188B

CN112200188B - 文字识别方法及装置、存储介质

Info

Publication number: CN112200188B
Application number: CN202011111198.2A
Authority: CN
Inventors: 蔡晓聪; 侯军; 伊帅
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2023-09-12
Anticipated expiration: 2040-10-16
Also published as: CN112200188A

Abstract

本公开提供了一种文字识别方法及装置、存储介质，其中，所述方法包括：获取包括待识别文字的文字图像，所述待识别文字的识别难度超过预设识别难度；确定所述文字图像对应的特征序列；基于所述文字图像对应的特征序列，确定对所述待识别文字进行文字识别的文字识别结果。

Description

文字识别方法及装置、存储介质

技术领域

本公开涉及计算机视觉领域，尤其涉及一种文字识别方法及装置、存储介质。

背景技术

在不同应用场景中进行文字识别，已经成为计算机视觉以及智能视频分析的一大研究方向。目前，围绕除了中文之外的其他文字进行的文字识别研究，更多的还是围绕于拉丁文和/或英文来进行的。

发明内容

本公开提供了一种文字识别方法及装置、存储介质。

根据本公开实施例的第一方面，提供一种文字识别方法，所述方法包括：获取包括待识别文字的文字图像，所述待识别文字的识别难度超过预设识别难度；确定所述文字图像对应的特征序列；基于所述文字图像对应的特征序列，确定对所述待识别文字进行文字识别的文字识别结果。

在一些可选实施例中，所述确定所述文字图像对应的特征序列，包括：确定所述文字图像中所述待识别文字所在的候选区域；将所述候选区域划分为多个子区域；基于所述多个子区域中至少部分子区域对应的特征信息，确定所述文字图像对应的特征序列。

在一些可选实施例中，所述基于所述文字图像对应的特征序列，确定对所述待识别文字进行文字识别的文字识别结果，包括：基于所述文字图像对应的特征序列，确定与所述文字图像包括的每个字符对应的至少一个备选字符和每个备选字符对应的识别率；将与所述每个字符对应的所述至少一个备选字符和所述每个备选字符对应的识别率作为所述文字识别结果，或将与所述每个字符对应的所述识别率最大的备选字符作为所述文字识别结果。

在一些可选实施例中，所述确定所述文字图像对应的特征序列，包括：将所述文字图像作为用于对所述待识别文字进行文字识别的目标神经网络的输入，获得所述目标神经网络输出的所述文字图像对应的特征序列。

在一些可选实施例中，所述方法还包括：确定所述待识别文字对应的待处理样本语料；基于所述待处理样本语料，生成所述待识别文字对应的样本文字图像；将所述待识别文字对应的样本文字图像作为预设神经网络的输入，以所述待处理样本语料为监督，对所述预设神经网络进行训练，得到用于对所述待识别文字进行文字识别的目标神经网络。

在一些可选实施例中，所述确定所述待识别文字对应的待处理样本语料，包括：获取第一备选语料；其中，所述第一备选语料是第一文字语言对应的样本语料，所述第一文字语言是所述待识别文字对应的文字语言；基于所述第一备选语料包括的字符、词和语句中的一类对应的多个元素进行组合，或是基于所述第一备选预料包括的字符、词和语句中的多类分别对应的一个或多个元素进行组合，得到第二备选语料；基于所述第一备选语料和所述第二备选语料中的至少一项，得到所述待处理样本语料。

在一些可选实施例中，所述确定所述待识别文字对应的待处理样本语料，包括：获取第三备选语料；其中，所述第三备选语料是不同于所述第一文字语言的第二文字语言对应的样本语料；基于所述第三备选语料，得到所述待处理样本语料。

在一些可选实施例中，所述基于所述第三备选语料，得到所述待处理样本语料，包括：对所述第三备选语料进行文字语言转换，得到所述待处理样本语料。

在一些可选实施例中，所述基于所述待处理样本语料，生成所述待识别文字对应的样本文字图像，包括：基于至少一种字体对所述待处理样本语料进行字体转换，得到处理后样本语料；基于所述处理后样本语料和背景图，生成所述待识别文字对应的样本文字图像。

在一些可选实施例中，所述待识别文字属于以下至少一项所对应的文字：所述待识别文字的文字形态对应的复杂度超过预设复杂度；所述待识别文字对应的已有样本文字数据量少于预设数据量。

在一些可选实施例中，所述待识别文字对应的第一文字语言与第二文字语言不同，所述第二文字语言属于以下至少一项：英文文字语言、拉丁文字语言。

根据本公开实施例的第二方面，提供一种文字识别装置，包括：获取模块，用于获取包括待识别文字的文字图像，所述待识别文字的识别难度超过预设识别难度；第一确定模块，用于确定所述文字图像对应的特征序列；文字识别模块，用于基于所述文字图像对应的特征序列，确定对所述待识别文字进行文字识别的文字识别结果。

在一些可选实施例中，所述第一确定模块包括：第一确定子模块，用于确定所述文字图像中所述待识别文字所在的候选区域；区域划分子模块，用于将所述候选区域划分为多个子区域；第二确定子模块，用于基于所述多个子区域中至少部分子区域对应的特征信息，确定所述文字图像对应的特征序列。

在一些可选实施例中，所述文字识别模块包括：第三确定子模块，用于基于所述文字图像对应的特征序列，确定与所述文字图像包括的每个字符对应的至少一个备选字符和每个备选字符对应的识别率；第四确定子模块，用于将与所述每个字符对应的所述至少一个备选字符和所述每个备选字符对应的识别率作为所述文字识别结果，或将与所述每个字符对应的所述识别率最大的备选字符作为所述文字识别结果。

在一些可选实施例中，所述第一确定模块包括：第五确定子模块，用于将所述文字图像作为用于对所述待识别文字进行文字识别的目标神经网络的输入，获得所述目标神经网络输出的所述文字图像对应的特征序列。

在一些可选实施例中，所述装置还包括：第二确定模块确定所述待识别文字对应的待处理样本语料；生成模块，用于基于所述待处理样本语料，生成所述待识别文字对应的样本文字图像；训练模块，用于将所述待识别文字对应的样本文字图像作为预设神经网络的输入，以所述待处理样本语料为监督，对所述预设神经网络进行训练，得到用于对所述待识别文字进行文字识别的目标神经网络。

在一些可选实施例中，所述第二确定模块包括：第一获取子模块，用于获取第一备选语料；其中，所述第一备选语料是第一文字语言对应的样本语料，所述第一文字语言是所述待识别文字对应的文字语言；第六确定子模块，用于基于所述第一备选语料包括的字符、词和语句中的一类对应的多个元素进行组合，或是基于所述第一备选预料包括的字符、词和语句中的多类分别对应的一个或多个元素进行组合，得到第二备选语料；第七确定子模块，用于基于所述第一备选语料和所述第二备选语料中的至少一项，得到所述待处理样本语料。

在一些可选实施例中，所述第二确定模块包括：第二获取子模块，用于获取第三备选语料；其中，所述第三备选语料是不同于所述第一文字语言的第二文字语言对应的样本语料；第八确定子模块，用于基于所述第三备选语料，得到所述待处理样本语料。

在一些可选实施例中，所述八确定子模块包括：对所述第三备选语料进行文字语言转换，得到所述待处理样本语料。

在一些可选实施例中，所述生成模块包括：文字语言转换子模块，用于基于至少一种字体对所述待处理样本语料进行字体转换，得到处理后样本语料；生成子模块，用于基于所述处理后样本语料和背景图，生成所述待识别文字对应的样本文字图像。

根据本公开实施例的第三方面，提供一种文字识别装置，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器中存储的可执行指令，实现上述第一方面任一项所述的文字识别方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述第一方面任一项所述的文字识别方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开实施例中，可以针对包括待识别文字的文字图像，确定该文字图像对应的特征序列，从而基于该文字图像对应的特征序列，得到对所述待识别文字进行文字识别的文字识别结果。其中，待识别文字的识别难度超过预设识别难度。本公开可以对识别难度较大的文字进行文字识别。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是本公开根据一示例性实施例示出的一种文字识别方法流程图；

图2是本公开根据一示例性实施例示出的另一种文字识别方法流程图；

图3A是本公开根据一示例性实施例示出的一种对候选区域进行划分的场景示意图；

图3B是本公开根据一示例性实施例示出的另一种对候选区域进行划分的场景示意图；

图3C是本公开根据一示例性实施例示出的另一种对候选区域进行划分的场景示意图；

图4是本公开根据一示例性实施例示出的另一种文字识别方法流程图；

图5是本公开根据一示例性实施例示出的另一种文字识别方法流程图；

图6是本公开根据一示例性实施例示出的另一种文字识别方法流程图；

图7A是本公开根据一示例性实施例示出的一种文字识别过程对应的架构示意图；

图7B是本公开根据一示例性实施例示出的一种确定特征序列的示意图；

图8是本公开根据一示例性实施例示出的一种文字识别装置框图；

图9是本公开根据一示例性实施例示出的一种文字识别装置的一结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开运行的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所运行的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中运行的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所运行的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

目前，针对识别难度较高的文字，例如除了拉丁文、英文之外的文字所进行的文字识别，仍面临较多问题。其中，训练数据的获取困难是面临的问题之一。已有的一些开源的训练数据或互联网上存在的一些训练数据主要是基于拉丁文或英文的。基于训练数据的获取困难，也会进一步导致训练得到的用于进行文字识别的神经网络的精度较差。

为了解决上述问题，本公开实施例提供了一种文字识别方案，尤其可以对识别难度较高的文字进行文字识别。

例如图1所示，图1是根据一示例性实施例示出的一种文字识别方法，包括以下步骤：

在步骤101中，获取包括待识别文字的文字图像。

在本公开实施例中，可以通过部署在不同应用场景中的摄像头，获取包括待识别文字的文字图像。该不同应用场景包括但不限于招牌文字识别场景、车牌识别场景、票据识别场景等，相应地，获取到的文字图像中可以包括但不限于用待识别文字对应的第一文字语言书写的招牌、车牌、票据等。

其中，待识别文字是识别难度超过该预设识别难度的文字，包括但不限于待识别文字的文字形态对应的复杂度超过预设复杂度，和/或待识别文字对应的已有样本文字数据量少于预设数据量。即待识别文字通常指的是文字形态复杂、识别难度高、和/或储备的样本文字数据量不充足的文字。

其中，复杂度指的可以是文字结构的复杂度，预设复杂度可以预先基于经验值进行设置，具体可以采用相应规则衡量文字的复杂度是否超过预设复杂度，比如，通过判定文字的笔画数量，和/或文字经拆分后子部分的数量及各子部分包含的线条曲折程度等多个维度来衡量文字的复杂度。在一种实现方式中，预设数据量可以基于神经网络训练过程中为达到一定精度所需的数据量，预先设定。当然，在预设数据量设定过程中，还可以考虑承载神经网络的设备的处理能力等。

在步骤102中，确定所述文字图像对应的特征序列。

在本公开实施例中，文字图像对应的特征序列的数目可以为一个或多个，每个特征序列可以由该文字图像中待识别文字所在的候选区域包括的至少部分特征信息构成。

其中，候选区域是在文字图像中确定出的待识别文字可能所在的区域。候选区域可以再次被划分为多个子区域，候选区域包括的至少部分特征信息可以是由至少部分子区域对应的特征信息构成，至少部分子区域对应的特征信息是指至少部分子区域对应的全部特征信息。例如，多个子区域包括子区域1、子区域2和子区域3，候选区域包括的至少部分特征信息可以由子区域1和子区域2的全部特征信息构成。

在步骤103中，基于所述文字图像对应的特征序列，确定对所述待识别文字进行文字识别的文字识别结果。

在本公开实施例中，可以根据该文字图像对应的特征序列，确定文字图像包括的每个字符对应的至少一个备选字符和每个备选字符对应的识别率，其中，每个字符可以指待识别文字中对应的一个字母元素，针对每个字符可以确定对应的至少一个备选字符，以及每个备选字符对应的识别率，识别率可以是该字符属于每个备选字符的可能性概率值。

例如，针对某个字符，确定其对应的备选字符包括备选字符1、备选字符2和备选字符3，识别率分别为a、b和c。说明该字符属于备选字符1的可能性概率值为a，该字符属于备选字符2的可能性概率值为b，该字符属于备选字符3的可能性概率值为c。

进一步地，最终的文字识别结果可以根据每个字符对应的至少一个备选字符和每个备选字符对应的识别率来确定。上述实施例中，可以针对包括待识别文字的文字图像，确定该文字图像对应的特征序列，从而基于该文字图像对应的特征序列，得到对所述待识别文字进行文字识别的文字识别结果。其中，待识别文字的识别难度超过预设识别难度。本公开可以对识别难度较大的文字进行文字识别。由此可见，采用本公开提供的技术方案，不仅可以对包括常规文字的文字图像进行有效识别，还可以针对包括诸如泰文等形态复杂、识别难度较高、储备数据不充足的文字的文字图像，进行有效识别，并得到相应的文字识别结果。

在一些可选实施例中，例如图2所示，步骤102可以包括步骤102-1至步骤102-3：

在步骤102-1中，确定所述文字图像中所述待识别文字所在的候选区域。

其中，候选区域是在文字图像中确定出的待识别文字可能所在的区域。在一个示例中，可以采用区域预测网络(Region Proposal Network，RPN)来确定文字图像中所述待识别文字可能所在的候选区域。

在步骤102-2中，将所述候选区域划分为多个子区域。

在本公开实施例中，在确定了待识别文字所在的候选区域后，可以将该候选区域划分为多个子区域，每个子区域的尺寸可以相同或不同。

在一个示例中，可以对候选区域按照预设数目进行平均划分，从而得到尺寸相同的多个子区域，例如图3A所示，将候选区域划分为3个尺寸相同的子区域。

在另一个示例中，可以对候选区域按照预设的相同尺寸进行划分，从而得到N个尺寸相同的子区域，或者可以得到(N-1)个尺寸相同的子区域和一个尺寸与其他子区域不同的子区域，例如图3B所示。得到的子区域1至子区域3尺寸相同，子区域4的尺寸与其他三个子区域尺寸均不同。

在另一个示例中，可以对候选区域按照预设的多个不同尺寸顺序进行划分，例如图3C所示，可以得到3个尺寸互不相同的子区域。

在步骤102-3中，基于所述多个子区域中至少部分子区域对应的特征信息，确定所述文字图像对应的特征序列。

在本公开实施例中，基于文字图像对应的特征图，可以确定候选区域所包括的每个子区域对应的特征信息。基于其中至少部分子区域对应的特征信息，即根据多个子区域中部分或全部子区域对应的全部特征信息，得到文字图像对应的特征序列。

在一个示例中，每个子区域对应的全部特征信息，可以对应一个特征序列，或者多个子区域对应的全部特征信息，可以对应一个特征序列，或者每个子区域对应的全部特征信息对应多个特征序列。本公开对此不作限定。

在另一个示例中，可以按照文字书写顺序，例如从左到右的顺序，先确定每个子区域出现在该文字图像中的顺序。进一步地，根据至少部分子区域对应的特征信息确定特征序列后，按照相应子区域在文字图像中出现的顺序，对特征序列进行前后排序，例如出现在文字图像的最左侧的子区域对应的特征序列排在最前边，出现在文字图像的最右侧的子区域对应的特征序列排在最后边，多个特征序列排序组合后得到该文字图像对应的特征序列。

例如，按照从左到右的顺序，候选区域被划分为子区域1、子区域2和子区域3，至少部分区域包括子区域2和子区域3，其中子区域2对应特征序列2和3、子区域3对应特征序列4，那么排序后得到的文字图像对应的特征序列为特征序列2、特征序列3和特征序列4。在另一个示例中，可以对至少部分子区域对应的特征信息进行池化和/或采样等处理后，得到对应的特征序列。通过池化和/或采样，可以选取每个子区域中特征明显的部分对应的特征信息，来确定特征序列，在确保得到的特征序列的准确性的同时，可以提高确定文字图像对应的特征序列的效率，进而提高对待识别文字进行文字识别的效率。

上述实施例中，可以将文字图像中待识别文字所在的候选区域划分为多个子区域，基于所述多个子区域的全部或部分子区域对应的特征信息，来确定所述文字图像对应的特征序列。以便后续基于文字图像对应的特征序列确定对所述文字图像进行文字识别，实现简便，可用性高。

在一些可选实施例中，例如图4所示，步骤103可以包括步骤103-1和步骤103-2：

在步骤103-1中，基于所述文字图像对应的特征序列，确定与所述文字图像包括的每个字符对应的至少一个备选字符和每个备选字符对应的识别率。

在一个示例中，可以将文字图像对应的特征序列作为分类器的输入，获得该分类器输出的分类预测结果，分类预测结果包括但不限于与所述文字图像包括的每个字符对应的至少一个备选字符，以及每个备选字符对应的识别率，即当前字符属于该备选字符的可能性概率值。

例如，文字图像中包括2个字符，第一个字符对应2个备选字符，第二字符对应3个备选字符。其中，第一个字符属于备选字符1的可能性概率值为a，即备选字符1对应的识别率为a，属于备选字符2的可能性概率值为b，即备选字符2对应的识别率为b。第二个字符属于备选字符3、备选字符4和备选字符5的可能性概率值分别为c、d、e，即备选字符3、备选字符4和备选字符5的识别率分别为c、d、e。

在步骤103-2中，将与所述每个字符对应的所述至少一个备选字符和所述每个备选字符对应的识别率作为所述文字识别结果，或将与所述每个字符对应的所述识别率最大的备选字符作为所述文字识别结果。

在本公开实施例中，可以将上述分类预测结果直接作为文字识别结果，即将与所述每个字符对应的所述至少一个备选字符和所述每个备选字符对应的识别率作为所述文字识别结果。

或者可以将分类预测结果中每个字符对应的识别率最大的备选字符，作为文字识别结果。例如待识别文字包括2个字符，第一个字符对应备选字符1和备选字符2，第二个字符对应3个备选字符，分别包括备选字符3、备选字符4和备选字符5。其中，备选字符1和备选字符2中，备选字符1对应的识别率最大，备选字符3、备选字符4和备选字符5中备选字符3对应的识别率最大，可以将备选字符1和备选字符3作为文字识别结果。

在一个示例中，采用上述何种方式输出文字识别结果可以根据分类器实际得到的预测结果来确定。例如，针对某个字符得到的多个备选字符各自对应的识别率都较大，且彼此的差值较小，可以将这些备选字符以及对应的识别率均作为与该字符对应的文字识别结果进行输出。

再例如，针对某个字符得到的多个备选字符各自对应的识别率中，最大识别率与次大的识别率的差值较大，可以将最大识别率对应的备选字符作为该字符对应的文字识别结果进行输出。

以上仅为示例性说明，实际应用中任意确定文字识别结果的方案均属于本公开的保护范围。

上述实施例中，可以基于文字图像对应的特征序列，确定文字识别结果。实现了对待识别文字进行文字识别的目的。

在一些可选实施例中，针对上述步骤102，可以将文字图像直接作为对所述待识别文字进行文字识别的目标神经网络的输入，获得目标神经网络输出的所述文字图像对应的特征序列。

在本公开实施例中，目标神经网络是基于预设神经网络训练得到的，可以从文字图像中确定对应的特征序列。其中，预设神经网络包括但不限于计算机视觉组(VisualGeometry Group，VGG)网络，谷歌网络(GoogLeNet)残差网络(Resnet)等。

上述实施例中，可以将文字图像作为对所述待识别文字进行文字识别的目标神经网络的输入，从而得到该目标神经网络输出的文字图像对应的特征序列，后续基于文字图像对应的特征序列来确定文字识别结果，从而可以快速对待识别文字，尤其是识别难度较大的待识别文字进行文字识别，可用性高。

在一些可选实施例中，例如图5所示(图5仅为示例性说明，实际应用中可以不限定下列步骤100-1至100-3的执行顺序必须要在步骤101之前执行)，上述方法还可以包括：

在步骤100-1中，确定所述待识别文字对应的待处理样本语料。

在本公开实施例中，待处理样本语料是对应第一文字语言，并用于对预设神经网络进行监督训练的语料，其中，第一文字语言是指待识别文字对应的文字语言。例如待识别文字对应的文字语言是泰文，待处理样本语料就是基于泰文的语料。

待处理样本语料中包括但不限于多个字符、由字符构成的多个字符串，另外，待处理样本语料中也可以包括多个字(每个字可以由至少一个字符或至少一个字符串组成)、多个词(每个词可以由至少一个字和/或至少一个字符构成)和多个语句(每个语句可以由至少一个字和/或词构成)。

其中，待处理样本语料中的字、词和/或语句可以有语义或没有语义，本公开对此不作限定。有语义表示具备语言意义，例如陈述了一件事、描述了一个东西等，没有语义表示不具备语言意义，例如多个字符组合在一起构成商标(logo)或车牌时，多个字符的组合并不具备任何语言意义。

在步骤100-2中，基于所述待处理样本语料，生成所述待识别文字对应的样本文字图像。

在本公开实施例中，可以根据待处理样本语料和背景图，生成该待识别文字对应的样本文字图像。

在步骤100-3中，将所述样本文字图像作为预设神经网络的输入，以所述待处理样本语料为监督，对所述预设神经网络进行训练，得到用于对所述待识别文字进行文字识别的目标神经网络。

在本公开实施例中，可以采用联接主义时间分类(Connectionist TemporalClassification，CTC)监督训练方式，对预设神经网络进行训练，从而得到目标神经网络。其中，CTC监督训练方式是指让神经网络直接对输入序列进行学习，而无需事先标注好训练数据中输入序列和输出结果的映射关系。

上述实施例中，可以先确定待识别文字对应的待处理样本语料，从而解决样本语料获取困难的问题，进一步地，可以基于待处理样本语料生成样本文字图像，进而以待处理样本语料作为标签，样本文字图像为输入，对预设神经网络进行训练，得到用于对所述待识别文字进行文字识别的目标神经网络，提高了目标神经网络的精度和鲁棒性。

在一些可选实施例中，考虑到待识别文字对应第一文字语言，目前第一文字语言对应的样本语料较少，为了确保目标神经网络的精度和鲁棒性，可以采用以下方式中的任一种或多种的组合来确定待处理样本语料。

第一种方式，基于所述第一文字语言对应的第一备选语料，得到所述待处理样本语料。

在本公开实施例中，第一备选语料是第一文字语言对应的样本语料，所述第一文字语言是所述待识别文字对应的文字语言。考虑到第一备选语料的数目可能较少，可以对第一备选语料包括的字符、词和语句中的一类对应的多个元素进行组合，包括但不限于对字符与字符、词与词、语句与语句进行的随机组合，得到第二备选语料。其中，以字符这个类为例，第一备选语料中包括2个甚至更多字符，那么可以选择对至少两个字符进行随机组合。其他的一类中对应的多个元素进行组合的方式相同，在此不再赘述。

或者可以基于所述第一备选预料包括的字符、词和语句中的多类分别对应的一个或多个元素进行组合，例如对字符与词、字符与语句、词与语句、字符与词与语句的随机组合，将组合得到的字符、词、语句作为第二备选语料。其中，以字符与词这两个类为例，可以选择至少一个字符与至少一个词进行随机组合，来得到第二备选语料。其他的多类中对应的一个或多个元素进行组合的方式相同，在此不再赘述。

第一备选语料和第二备选语句中的至少一项，可以作为所需要的待处理样本语料。

第二种方式，基于第二文字语言对应的第三备选语料，得到待处理样本语料。

在本公开实施例中，第三备选语料是不同于所述第一文字语言的第二文字语言对应的样本语料。第二文字语言可以采用但不限于拉丁文、英文等文字语言。第一文字语言可以是识别难度较高的文字语言和/或目前样本语料较少的文字语言，而相应地，第二文字语言可以是识别难度低和/或目前样本语料较多的文字语言，例如第一文字语言为泰语，第二文字语言为英语。

在本公开实施例中，由于第二文字语言对应的第三备选语料是较为充分的，因此，可以基于较充分的第三备选语料，得到待处理样本语料。

在一些可选实施例中，可以通过具备文字翻译功能的应用程序对第三备选语料进行语言转换，从而得到待处理样本语料。例如，第二文字语言为英文，第一文字语言为泰文，可以通过具备文字翻译功能的应用程序，将第三备选语料即对应第二文字语言的英文语料，翻译为对应泰文的待处理样本语料。

在一个示例中，通过某个设备(包括但不限于计算机设备)获取到该第三备选语料后，可以调用该设备上的处理器与具备文字翻译功能的应用程序之间的预设接口，从而对第三备选语料进行语言转换，得到语言转换后的待处理样本语料。

其中，预设接口可以采用但不限于应用程序接口(Application ProgrammingInterface，API)。

在另一个示例中，具备文字翻译功能的应用程序可以提供一个语言转换的交互界面，该交互界面包括对应原始文字语言的第一文本框和对应翻译后的文字语言的第二文本框，将第三备选语料作为该交互页面的第一文本框的输入，获取该应用程序在第二文本框的输出，并将第二文本框的输出内容作为待处理样本语料。

上述实施例中，可以采用上述方式中的任意一种或几种的组合，得到待处理样本语料，解决了待识别文字对应的样本语料获取困难的问题，从而可以在后续提高目标神经网络精度和鲁棒性。

在一些可选实施例中，例如图6所示，针对上述步骤100-2可以包括步骤201至步骤202：

在步骤201中，基于至少一种字体对所述待处理样本语料进行字体转换，得到处理后样本语料。

在本公开实施例中，至少一种字体可以是预设的与第一文字语言对应的字体。通过对待处理样本语料进行字体转换，可以得到与不同字体对应的处理后样本语料，以便后续可以更好的识别不同字体的待识别文字。

在步骤202中，基于所述处理后样本语料和背景图，生成所述待识别文字对应的样本文字图像。

在本公开实施例中，背景图可以包括但不限于预先设置好的不同的纯色背景图、存在不同背景内容的背景图，背景内容可以为实物、景色等。

在一种实现方式中，可以基于背景图的数量采用对应的方式获取背景图，比如，如果预先设置的背景图的数目较多，可以通过随机采样的方式得到预先设置的背景图中的至少一个。具体可以依据背景图数量对应的数量级，或是依据背景图数量所属的数量区间，或是依据背景图数量与数量阈值之间的大小关系来确定背景图的数目较多或是较少等。其中，数量级、数量区间的划分，以及数量阈值的设置，可以基于获得其他文字语言对应的语料时的经验值得到，在此不予限定。其中，其他文字语言可以包括但不限于本公开所指的第二文字语言。

如果预先设置的背景图的数目较少，可以去已有的背景图数据库中随机选取一部分背景图，或者如果没有背景图数据库，可以基于已有背景图的不同区域进行随机组合，得到多个背景图，从而确保最终得到的样本文字图像的多样性。

在本公开实施例中，可以将上述的处理后样本语料的文字内容作为前景，预先设置的背景图中的至少一个作为背景，得到待识别文字对应的样本文字图像。

上述实施例中，可以针对生成的样本文字图像，后续对预设神经网络进行训练，得到目标神经网络，由于样本文字图像对应不同字体和不同的背景，最终训练得到的目标神经网络在对包括待识别文字的文字图像进行文字识别时，可以更好的区分属于文字的部分和属于背景的部分，对属于文字的部分可以结合不同字体更准确的得到相应的特征序列，使得目标神经网络的通用性、精度和鲁棒性更好。

在一些可选实施例中，针对上述步骤100-3，在采用CTC的监督方式对预设神经网络进行训练的过程中，可以将样本文字图像作为预设神经网络的输入，得到预设神经网络输出的样本文字图像对应的特征序列后，可以通过分类器进行分类预测，得到样本文字图像包括的每个字符对应的至少一个备选字符和每个备选字符对应的识别率。

进一步地，可以将分类器输出的上述分类预测结果与作为标签的待处理样本语料作为目标损失函数的输入，来计算目标损失函数，从而通过梯度反转、参数更新等调整预设神经网络的网络参数，得到目标神经网络。

上述实施例中，可以基于大量的待处理样本语料，通过生成的样本文字图像以及作为标签的待处理样本语料，对预设神经网络进行监督训练，得到对所述待识别文字进行文字识别的目标神经网络，提高了目标神经网络的精度和鲁棒性。

在一些可选实施例中，以第一文字语言为泰文，应用场景为停车场为例。在采集了包括泰文车牌的文字图像后，可以将包括泰文车牌的文字图像作为目标神经网络的输入，得到目标神经网络输出的与该文字图像对应的特征序列，进而将特征序列作为分类器的输入，以通过分类器确定该文字图像包括的多个泰文字符，以及每个泰文字符对应的至少一个备选字符和每个备选字符对应的识别率。从而基于分类器输出的上述结果来确定泰文文字识别结果，比如，将最大可能性概率值对应的泰文字符作为每个字符的识别结果，最终得到对该文字图像的泰文文字识别结果，从而针对进出停车场的车辆的泰文车牌实现文字识别的目的。

在实现过程中，首先，可以通过部署在停车场出入口的摄像头，采集包括进出停车场出入口的车辆的泰文车牌的文字图像。需要说明的是，文字图像的获取方式，可以包括但不限于对摄像头采集的视频流进行选帧。比如，可以对视频流进行周期性或是非周期性选帧操作，以得到一帧或是多帧对同一车辆的泰文车牌进行拍摄得到的文字图像。选帧过程中，可以考虑拍摄角度、成像清晰度、成像亮度等会影响到文字图像质量和/或识别准确率的一种或是多种因素，从而得到输入目标神经网络的文字图像。其中，输入目标神经网络的同一泰文车牌的文字图像，可以包括一张或多张，在此不予限定。在包括一张的情况下，可以将这一张的识别结果作为最终的识别结果，而在包括多张的情况下，可以综合考虑每张的识别结果，或是综合考虑其中部分文字图像的识别结果，以得到最终的识别结果，又或者可以从多张文字图像中筛选出一张，以基于这一张文字图像得到最终的识别结果，具体实现方式，在此不予限定，可以包括但不限于上述例举的情况。

例如图7A所示，在本公开提供的应用场景中，该文字图像包括泰文车牌的文字图像，目标神经网络首先确定泰文车牌所在的候选区域，例如图7B所示，假设得到2个候选区域，以针对候选区域1划分为8个子区域为例(本公开以8个为例进行示例性说明，实际应用中得到的特征序列的数目可以小于8个或大于8个)，每个子区域可以对应得到一个特征序列，例如图7B所示。同样地，针对候选区域2也可以得到至少一个特征序列(图7B中未示出)，将两个候选子区域划分得到的所有子区域分别对应的特征序列的组合，作为该文字图像对应的特征序列。

在得到目标神经网络输出的对应文字图像的特征序列后，可以通过分类器得到该文字图像包括的每个字符对应的至少一个备选字符和每个备选字符对应的识别率，即每个泰文文字对应的至少一个备选泰文字符和每个备选泰文字符对应的识别率，同样例如图7A所示。在本公开实施例中，可以将识别率最大的泰文字符作为该泰文字符的识别结果，最终得到每个泰文字符对应的识别率最大的备选泰文字符组成的字符串，该字符串作为文字识别结果，对应了进出停车场的车辆的泰文车牌所对应的泰文字符串。

在本公开实施例中，可以对预设神经网络进行训练后，得到上述目标神经网络。

在对目标神经网络进行训练的过程中，可以通过已有的泰文语料库作为第一备选语料，通过对其中的字符、词和语句中的一类对应的多个元素进行组合，或是基于所述第一备选预料包括的字符、词和语句中的多类分别对应的一个或多个元素进行组合，得到第二备选语料，从而可以将第一备选语料和/或第二备选语料作为待处理样本语料。或者，还可以获取第三备选语料，假设为英文语料，通过对第三备选语料进行文字转换，得到待处理样本语料。

将得到的大量的待处理样本语料进行字体转换，得到对应至少一种泰文字体的处理后样本语料，将对应至少一种泰文字体的处理后样本语料的文字内容作为前景，背景图中的至少一个作为背景，生成样本文字图像。

以待处理样本语料为标签，将样本文字图像输入预设神经网络，通过CTC监督训练方式，得到所需要的目标神经网络。

上述实施例中，可以得到基于第一文字语言的大量的样本训练数据，满足对预设神经网络的训练精度的需求，提高了目标神经网络的鲁棒性，且通用性高，可以快速部署到任意设备上实现文字识别的目的。

与前述方法实施例相对应，本公开还提供了装置的实施例。

如图8所示，图8是本公开根据一示例性实施例示出的一种文字识别装置框图，装置包括：获取模块310，用于获取包括待识别文字的文字图像，所述待识别文字的识别难度超过预设识别难度；第一确定模块320，用于确定所述文字图像对应的特征序列；文字识别模块330，用于基于所述文字图像对应的特征序列，确定对所述待识别文字进行文字识别的文字识别结果。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本公开实施例还提供了一种计算机可读存储介质，存储介质存储有计算机程序，计算机程序用于执行上述任一所述的文字识别方法。

在一些可选实施例中，本公开实施例提供了一种计算机程序产品，包括计算机可读代码，当计算机可读代码在设备上运行时，设备中的处理器执行用于实现如上任一实施例提供的文字识别方法的指令。

在一些可选实施例中，本公开实施例还提供了另一种计算机程序产品，用于存储计算机可读指令，指令被执行时使得计算机执行上述任一实施例提供的文字识别方法。

该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

本公开实施例还提供了一种文字识别装置，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为调用所述存储器中存储的可执行指令，实现上述任一项所述的文字识别方法。

图9为本公开实施例提供的一种文字识别装置的硬件结构示意图。该文字识别装置410包括处理器411，还可以包括输入装置412、输出装置413和存储器414。该输入装置412、输出装置413、存储器414和处理器411之间通过总线相互连接。

存储器包括但不限于是随机存储记忆体(random access memory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasable programmable readonly memory，EPROM)、或便携式只读存储器(compact disc read-only memory，CD-ROM)，该存储器用于相关指令及数据。

输入装置用于输入数据和/或信号，以及输出装置用于输出数据和/或信号。输出装置和输入装置可以是独立的器件，也可以是一个整体的器件。

处理器可以包括是一个或多个处理器，例如包括一个或多个中央处理器(centralprocessing unit，CPU)，在处理器是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。

存储器用于存储网络设备的程序代码和数据。

处理器用于调用该存储器中的程序代码和数据，执行上述方法实施例中的步骤。具体可参见方法实施例中的描述，在此不再赘述。

可以理解的是，图9仅仅示出了一种文字识别装置的简化设计。在实际应用中，文字识别装置还可以分别包含必要的其他元件，包含但不限于任意数量的输入/输出装置、处理器、控制器、存储器等，而所有可以实现本公开实施例的文字识别装置都在本公开的保护范围之内。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或者惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

以上所述仅为本公开的较佳实施例而已，并不用以限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开保护的范围之内。

Claims

1.一种文字识别方法，其特征在于，包括：

获取包括待识别文字的文字图像，所述待识别文字的识别难度超过预设识别难度；其中，所述待识别文字属于以下至少一项所对应的文字：所述待识别文字的文字形态对应的复杂度超过预设复杂度；所述待识别文字对应的已有样本文字数据量少于预设数据量；

确定所述文字图像对应的特征序列；

基于所述文字图像对应的特征序列，确定对所述待识别文字进行文字识别的文字识别结果；

其中，所述确定所述文字图像对应的特征序列，包括：

确定所述文字图像中所述待识别文字所在的候选区域；

将所述候选区域划分为多个子区域；

基于所述多个子区域中至少部分子区域对应的特征信息，确定所述文字图像对应的特征序列；其中，所述文字图像对应的特征序列符合文字书写顺序；

其中，所述方法还包括：

确定所述待识别文字对应的待处理样本语料；

所述确定所述待识别文字对应的待处理样本语料，包括：

获取第三备选语料；其中，所述第三备选语料是不同于第一文字语言的第二文字语言对应的样本语料；

基于所述第三备选语料，得到所述待处理样本语料；

其中，所述待识别文字对应的所述第一文字语言与第二文字语言不同，所述第二文字语言属于以下至少一项：英文文字语言、拉丁文字语言。

2.根据权利要求1所述的方法，其特征在于，所述基于所述文字图像对应的特征序列，确定对所述待识别文字进行文字识别的文字识别结果，包括：

基于所述文字图像对应的特征序列，确定与所述文字图像包括的每个字符对应的至少一个备选字符和每个备选字符对应的识别率；

将与所述每个字符对应的所述至少一个备选字符和所述每个备选字符对应的识别率作为所述文字识别结果，或将与所述每个字符对应的所述识别率最大的备选字符作为所述文字识别结果。

3.根据权利要求1或2所述的方法，其特征在于，所述确定所述文字图像对应的特征序列，包括：

将所述文字图像作为用于对所述待识别文字进行文字识别的目标神经网络的输入，获得所述目标神经网络输出的所述文字图像对应的特征序列。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述待处理样本语料，生成所述待识别文字对应的样本文字图像；

将所述待识别文字对应的样本文字图像作为预设神经网络的输入，以所述待处理样本语料为监督，对所述预设神经网络进行训练，得到用于对所述待识别文字进行文字识别的目标神经网络。

5.根据权利要求4所述的方法，其特征在于，所述确定所述待识别文字对应的待处理样本语料，包括：

获取第一备选语料；其中，所述第一备选语料是第一文字语言对应的样本语料，所述第一文字语言是所述待识别文字对应的文字语言；

基于所述第一备选语料包括的字符、词和语句中的一类对应的多个元素进行组合，或是基于所述第一备选语料包括的字符、词和语句中的多类分别对应的一个或多个元素进行组合，得到第二备选语料；

基于所述第一备选语料和所述第二备选语料中的至少一项，得到所述待处理样本语料。

6.根据权利要求1所述的方法，其特征在于，所述基于所述第三备选语料，得到所述待处理样本语料，包括：

对所述第三备选语料进行文字语言转换，得到所述待处理样本语料。

7.根据权利要求4-6任一项所述的方法，其特征在于，所述基于所述待处理样本语料，生成所述待识别文字对应的样本文字图像，包括：

基于至少一种字体对所述待处理样本语料进行字体转换，得到处理后样本语料；

基于所述处理后样本语料和背景图，生成所述待识别文字对应的样本文字图像。

8.一种文字识别装置，其特征在于，包括：

获取模块，用于获取包括待识别文字的文字图像，所述待识别文字的识别难度超过预设识别难度；其中，所述待识别文字属于以下至少一项所对应的文字：所述待识别文字的文字形态对应的复杂度超过预设复杂度；所述待识别文字对应的已有样本文字数据量少于预设数据量；

第一确定模块，用于确定所述文字图像对应的特征序列；

文字识别模块，用于基于所述文字图像对应的特征序列，确定对所述待识别文字进行文字识别的文字识别结果；

其中，所述第一确定模块包括：

第一确定子模块，用于确定所述文字图像中所述待识别文字所在的候选区域；

区域划分子模块，用于将所述候选区域划分为多个子区域；

第二确定子模块，用于基于所述多个子区域中至少部分子区域对应的特征信息，确定所述文字图像对应的特征序列；其中，所述文字图像对应的特征序列符合文字书写顺序；

所述装置还包括：第二确定模块确定所述待识别文字对应的待处理样本语料；

所述第二确定模块包括：

第二获取子模块，用于获取第三备选语料；其中，所述第三备选语料是不同于第一文字语言的第二文字语言对应的样本语料；

第八确定子模块，用于基于所述第三备选语料，得到所述待处理样本语料；

9.一种文字识别装置，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器中存储的可执行指令，实现权利要求1-7中任一项所述的文字识别方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-7任一项所述的文字识别方法。