CN108288078A

CN108288078A - 一种图像中字符识别方法、装置和介质

Info

Publication number: CN108288078A
Application number: CN201711285566.3A
Authority: CN
Inventors: 麻文华; 江修才; 刘海龙; 刘博�
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-12-07
Filing date: 2017-12-07
Publication date: 2018-07-17
Anticipated expiration: 2037-12-07
Also published as: CN108288078B

Abstract

本发明公开了一种图像中字符识别方法、装置和介质，降低图像中字符识别的复杂度，提高字符识别效率。所述图像中字符识别方法，包括：确定输入图像中包含的文本串区域图像；利用特征提取模型提取所述文本串区域图像的特征得到多个特征图像，所述特征提取模型为利用卷积神经网络算法对预先生成的训练图像样本进行训练得到的；基于所述多个特征图像组成的特征图像序列，利用识别概率模型确定所述特征图像序列中每一特征图像对应于预先定义的每一字符的概率值，所述识别概率模型为利用循环神经网络算法对训练图像样本进行训练得到；根据识别概率模型输出的每一特征图像对应于预先定义的每一字符概率值，确定所述特征图像序列对应的字符序列。

Description

一种图像中字符识别方法、装置和介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种图像中字符识别方法、装置和介质。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

图像中的文本信息作为其内容描述的一种形式，包含了十分丰富且重要的表达信息。采用文本这种高级语义形式，在对图像内容理解和索引方面，具有十分重要的价值。另外，对图像中的文字进行识别，将其转换为文本文字，从而减轻了用户输入对应文字信息的负担，方便用户存储、编辑对应的文字信息。因此，如何识别图像中包含的文字成为当下研究的热点问题之一。

发明内容

本发明实施例提供一种通用的图像中字符识别方法、装置和介质，用以识别图像中包含的字符。

第一方面，提供一种图像中字符识别方法，包括：

确定输入图像中包含的文本串区域图像；

利用特征提取模型提取所述文本串区域图像的特征得到多个特征图像，所述特征提取模型为利用卷积神经网络算法对预先生成的训练图像样本进行训练得到的；

基于所述多个特征图像组成的特征图像序列，利用识别概率模型确定所述特征图像序列中每一特征图像对应于预先定义的每一字符的概率值，所述识别概率模型为利用循环神经网络算法对所述训练图像样本进行训练得到；

根据所述识别概率模型输出的每一特征图像对应于预先定义的每一字符概率值，确定所述特征图像序列对应的字符序列。

可选地，针对不同长度的字符串分别进行训练得到对应的特征提取模型和识别概率模型；以及

在利用预先训练得到的特征提取模型提取所述文本串区域图像的特征得到多个特征图像之前，还包括：

确定所述文本串区域图像的宽高比；

根据确定出的宽高比确定所述文本串区域图像对应的特征提取模型和识别概率模型。

可选地，在特征提取模型和识别概率模型训练结束后，还包括：

针对每一训练图像样本，确定利用所述特征提取模型和识别概率模型对该训练样本进行处理后得到的概率矩阵中所包含的每一概率向量对应的特征图像，所述特征图像为针对该训练样本，利用所述特征提取模型进行处理得到；

针对该训练图像样本包含的每一特征图像，根据该特征图像对应的概率向量中最大概率值对该特征图像进行标注得到标注图像样本；

利用所述标注图像样本对所述特征提取模型继续进行训练，直至利用所述特征提取模型对所述标注图像样本处理得到的每一特征图像对应的概率值达到预设阈值。

可选地，针对每一训练图像样本，按照以下公式确定所述概率矩阵中所包含的每一概率向量对应的特征图像：

recWidth_i＝recWidth_i-1*SW_i+KW_i，其中：

i为预先定义的网络结构的层标识；

recWidth_i为第i层对应的概率矩阵中所包含的每一概率向量对应的特征图像；

recWidth_i-1为第(i-1)层对应的概率矩阵中所包含的每一概率向量对应的特征图像；

SW_i为第i层对应的卷积前进步长；

KW_i为第i层对应的卷积核的宽度。

可选地，按照以下流程生成所述训练图像样本：

从给定的图像中随机截取预设大小的图像；

按照预设概率随机从字符集中选择若干个字符组成字符串；

将得到的字符串按照随机选择的字体和排列形状渲染到截取的图像中并添加噪声干扰后得到所述训练图像样本。

第二方面，提供一种图像中字符识别装置，包括：

第一确定单元，用于确定输入图像中包含的文本串区域图像；

特征提取单元，用于利用特征提取模型提取所述文本串区域图像的特征得到多个特征图像，所述特征提取模型为利用卷积神经网络算法对预先生成的训练图像样本进行训练得到的；

概率识别单元，用于基于所述多个特征图像组成的特征图像序列，利用识别概率模型确定所述特征图像序列中每一特征图像对应于预先定义的每一字符的概率值，所述识别概率模型为利用循环神经网络算法对所述训练图像样本进行训练得到；

第二确定单元，用于根据所述识别概率模型输出的每一特征图像对应于预先定义的每一字符概率值，确定所述特征图像序列对应的字符序列。

可选地，针对不同长度的字符串分别进行训练得到对应的特征提取模型和识别概率模型；

所述装置，还包括：

第三确定单元，用于在所述特征提取单元利用预先训练得到的特征提取模型提取所述文本串区域图像的特征得到多个特征图像之前，确定所述文本串区域图像的宽高比；根据确定出的宽高比确定所述文本串区域图像对应的特征提取模型和识别概率模型。

可选地，所述图像中字符识别装置，还包括：

第四确定单元，用于在特征提取模型和识别概率模型训练结束后，针对每一训练图像样本，确定利用所述特征提取模型和识别概率模型对该训练样本进行处理后得到的概率矩阵中所包含的每一概率向量对应的特征图像，所述特征图像为针对该训练样本，利用所述特征提取模型进行处理得到；

标注单元，用于针对该训练图像样本包含的每一特征图像，根据该特征图像对应的概率向量中最大概率值对该特征图像进行标注得到标注图像样本；

训练单元，用于利用所述标注图像样本对所述特征提取模型继续进行训练，直至利用所述特征提取模型对所述标注图像样本处理得到的每一特征图像对应的概率值达到预设阈值。

可选地，所述第四确定单元，具体用于针对每一训练图像样本，按照以下公式确定所述概率矩阵中所包含的每一概率向量对应的特征图像：

recWidth_i＝recWidth_i-1*SW_i+KW_i，其中：

i为预先定义的网络结构的层标识；

SW_i为第i层对应的卷积前进步长；

KW_i为第i层对应的卷积核的宽度。

可选地，所述图像中字符识别装置，还包括：

图像截取单元，用于从给定的图像中随机截取预设大小的图像；

选择单元，用于按照预设概率随机从字符集中选择若干个字符组成字符串；

渲染单元，用于将得到的字符串按照随机选择的字体和排列形状渲染到截取的图像中并添加噪声干扰后得到所述训练图像样本。

第三方面，提供一种计算装置，包括至少一个处理单元、以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述程序被所述处理单元执行时，使得所述处理单元执行上述任一方法所述的步骤。

第四方面，提供一种计算机可读介质，其存储有可由计算装置执行的计算机程序，当所述程序在计算装置上运行时，使得所述计算装置执行上述任一方法所述的步骤。

本发明实施例提供的图像中字符识别方法、装置和介质，利用卷积神经网络算法和循环神经网络算法分别训练特征提取模型和识别概率模型，由输入字符串图像直接到输出字符串序列，实现了对图像中包含的字符的识别，而且上述过程中不需要经过单字切分的步骤，降低了图像中字符识别的复杂度，提高了图像中字符识别的效率，而且本发明实施例提供的方法适用于任意场景下的字符识别，提高了字符识别的通用性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例的应用场景示意图；

图2为根据本发明实施例方式的生成训练图像样本的流程示意图；

图3为根据本发明实施例方式的识别图像中包含字符的方法流程示意图；

图4为根据本发明实施例方式的字符识别结果示意图；

图5为根据本发明实施例方式的识别图像中包含字符的装置结构示意图；

图6为根据本发明实施例方式的计算装置的结构示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种图像中字符识别方法、装置和介质。

在本文中，需要理解的是，所涉及的术语中：

端到端识别：End-to-End Recognition，指区别于传统识别方法的，一种由输入字符串图像直接到输出字符串内容的识别方法，中间不需要经过单字切分的步骤。

序列学习：Sequence Learning，指针对时序数据的建模的一种学习方法。输入和输入都是序列，且输入和输出的长度不必相等。通过序列学习，得到输入输出序列之间的对应关系。常见的序列学习问题包括语音识别、机器翻译、OCR(Optical CharacterRecognition，光学字符识别)等。

卷积神经网络：(Convolutional Neural Network,CNN)是一种针对二维输入识别问题的神经网络，由一个或多个卷积层和池化层(pooling layer)组成。其特点是权值共享，减少了参数数量，且对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。

循环神经网络：(Recurrent Neural Networks，RNNs)是一种引入了定向循环的神经网络，即一个序列当前的输出与前面的输出也有关。该网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。。

连续时序分类：(Connectionist Temporal Classification,CTC)是一种与神经网络输出相关的评分函数，用于训练RNN，以解决变长序列识别问题。CTC通过引入空白类和前向-后向算法来更新神经网络权重。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

本发明实施例提供的图像中字符识别方法，可以提供一种识别图像或者视频中文本串的能力，包括检测图像中是否包含文本串并确定其区域，识别文本串的内容并返回给调用方。其中，调用方可以为安装于用户设备中的应用客户端。当然，本发明实施例也可以提供为独立的图像中字符识别服务功能的客户端。

本发明实施例提供的图像中字符识别方法可以应用于以下应用场景：

一、在摄像头跟踪拍摄的同时，定位拍摄视频中出现的文字并识别，如扫一扫翻译，或者扫银行卡识别等。

二、在已经拍摄好的静态图像中定位文字并识别。如互联网图片中的文字识别，用户资料的自动化审核等，例如，定位识别身份证照片上的字符。

如图1所示，其为本发明实施例提供的图像中字符识别方法嵌入客户端中的应用场景示意图。用户10通过用户设备11中安装的客户端访问服务器12，其中，客户端可以为安装于移动终端，如手机，平板电脑等中的客户端。，例如，即时通信客户端，电子支付客户端，新闻浏览客户端等等。

用户设备11与服务器12之间通过网络进行通信连接，该网络可以为局域网、广域网等。用户设备11可以为便携设备(例如：手机、平板、笔记本电脑等)，也可以为个人电脑(PC，Personal Computer)，服务器12可以为任何能够提供互联网服务的设备。

具体实施时，首先需要利用训练图像样本对用于识别图像中字符的模型进行训练。本发明实施例中，为了提高图像中字符识别的准确性，可以自定义生成训练图像样本。如图2所示，其为本发明实施例中，生成训练图像样本的流程示意图，包括以下步骤：

S21、从给定的图像中随机截取预设大小的图像。

具体实施时，可以结合特定的应用场景，从与应用场景相关的图像中随机截取预设大小的图像作为背景图像。

由于通用字符串(即由汉字、标点符号、英文字母、数字等混合而成的字符串)没有显式的单词单元，因此，在训练过程中不宜将输入图像(训练样本图像)归一化到同一尺寸识别，因此，具体实施时可以根据实用场景需求，采用不同的识别模型，不同的识别模型分别覆盖不同宽高比的范围。例如，可以根据将待识别的字符串的长度划分为长字符串串和短字符串，其中，长字符串串针对宽高比在[3,15]之间的字符串，短字符串串针对宽高比在[0.5,4]之间的字符串。不同模型的覆盖范围可以有一定的交叉，从而对于边界情况有较好的处理。因此，本发明实施例中，可以针对不同长度的字符串截取大小不同的背景图像。例如，针对长字符串可以在给定的图像中随机截取32*232大小的图像作为长字符串背景图像，针对短字符串，可以在给定的图像中随机截取32*64大小的图像作为背景图像。

应当理解，具体实施时，背景图像的大小可以根据实际需要灵活设置，本发明实施例对此并不进行限定。

S22、按照预设概率随机从字符集中选择若干个字符组成字符串。

本步骤中，按照一定概率随机选择常用汉字、英文字母、数字、常用标点的随机组合或根据应用场景语料的有意义组合作为样本字符串，考虑英文字母相隔较近不易切分的情况，组成的字符串中还需包含空格。

S23、将得到的字符串按照随机选择的字体和排列形状渲染到截取的图像中并添加噪声干扰后得到所述训练图像样本。

本步骤中，将步骤S22得到的字符串通过随机选择的字体、排列形状渲染到步骤S21截取的背景图像上，同时，为了与实际应用更加贴近，可以对得到的图像添加噪声干扰，例如，叠加不同程度的形变、模糊、高光等干扰，这样，可以合成海量的训练图像样本。

利用生成的训练图像样本进行训练得到图像中字符识别模型。本发明实施例中利用卷积神经网络(CNN)算法和循环神经网络(RNN)算法对训练图像样本进行训练得到图像中字符识别模型。图像中字符识别模型包含特征提取模型和识别概率模型两部分，具体实施时，基于生成的训练图像样本利用CNN算法训练特征提取模型，基于特征提取模型输出的结构结果利用RNN算法训练识别概率模型。

基于此，本发明实施例中，针对长字符串训练图像样本和短字符串训练图像样本，分别设计相应的网络模型，并进行参数初始化。初始化参数包括各卷积层的内核参数、各卷积层的初始偏置矩阵、各最大池化层的参数、各线性层的参数、各批归一化层的参数。需要说明的是，长字符串模型和短字符串模型中包含的RNN单元个数不同。长字符串通常包含更多的RNN单元，而短字符串则只包含较少的RNN单元，从而实现对不同长度字符串的自适应。如表1所示，为本发明实施例中预先定义的网络结构示意。

表1

其中，Fm(featuremap)表示特征图像，k(kernel)表示卷积核，s(stride)表示卷积前进步长，p(padding)表示边缘扩展大小。基于定义好的网络结构和训练图像样本利用CNN算法训练特征提取模型，经过特征提取模型的处理，输入图像将被划分为多个特征图像，基于特征提取模型的输出结果，利用RNN算法训练识别概率模型。具体的训练流程与现有技术的训练流程类似，这里不再赘述。

需要说明的是，初始用于训练的训练图像样本为无标注样本，为了提高特征提取模型的特征提取准确性，本发明实施例中，在利用初始训练图像样本进行训练得到特征提取模型和识别概率模型之后，即在训练过程中，特征提取模型和识别概率模型稳定后，可以根据识别概率模型的输出概率，对初始训练图像样本进行标注得到标注图像样本，并基于标注图像样本，利用CNN算法再次对特征提取模型进行训练。特征提取模型输出的每一特征图像组成特征向量，将特征向量转换为概率向量，判断每一特征图像为该特征图像对应的标注结果的概率值是否达到预设阈值，如果否，则调整特征提取向量的参数进行下一轮训练，直至每一特征图像为该特征图像对应的标注结果的概率向量达到预设阈值。

基于此，具体实施时，在特征提取模型和识别概率模型训练结束后，还可以包括以下步骤：

步骤一、针对每一训练图像样本，确定利用所述特征提取模型和识别概率模型对该训练样本进行处理后得到的概率矩阵中所包含的每一概率向量对应的特征图像，所述特征图像为针对该训练样本，利用所述特征提取模型进行处理得到。

具体实施时，针对给定的训练图像样本，利用训练得到的特征提取模型进行处理后，将根据提取的特征被划分为L个特征图像。

将得到的L个特征图像输入识别概率模型进行处理后，在softmax层(表1中)输出一个6840*L的概率矩阵。其中，L对于长字符串和短字符串模型，可以分别设置为60和16。该矩阵的每一列表示一个多元概率向量，该概率向量各个维度值的和为1，表示每一特征图像对应于每一字符的概率值。该矩阵按列拆分，可以转化为一个长度为L的概率序列，其中每一项都是一个6840维的概率向量，分别对应一二级汉字6763个，字母项a-z共26个，数字项0-9共10个，常用标点包括空格和空白项共41个类别。

在将L个特征图像输入识别概率模型进行处理后，每一特征图像对应的概率向量会产生一个尖峰(即最大概率值)，尖峰对应该列所属的字符类别，即该特征图像对应的字符。由于卷积网络是严格保序的，因此，可以由此确定每一概率向量(即每一列)对应的特征图像。具体地，可以按照下公式确定所述概率矩阵中所包含的每一概率向量对应的特征图像：

recWidth_i＝recWidth_i-1*SW_i+KW_i，其中：

i为预先定义的网络结构的层标识；

SW_i为第i层对应的卷积前进步长；

KW_i为第i层对应的卷积核的宽度。

步骤二、针对该训练图像样本包含的每一特征图像，根据该特征图像对应的概率向量中最大概率值对该特征图像进行标注得到标注图像样本。

在确定出每一概率向量对应的特征图像之后，根据概率向量中最大概率值对应的字符可以对该特征图像进行标注，标注了每一训练图像样本包含的所有特征图像后可以得到标注后的训练图像样本。

步骤三、利用所述标注图像样本对所述特征提取模型继续进行训练，直至利用所述特征提取模型对所述标注图像样本处理得到的每一特征图像对应的概率值达到预设阈值。

本步骤中，基于标注后的训练图像样本，利用CNN算法对特征提取模型进行进一步训练，直至每一特征图像对应的概率值与该特征图像对应的标注结果之间的差值达到预设阈值。

具体实施时，在基于标注图像样本利用CNN算法对特征提取模型进行进一步训练时，卷积部分(即特征提取模型)的网络结构不变，仍然延续表1中所定义的网络结构，初始参数更新为特征提取模型和识别概率模型训练结束后确定出的参数，基于标注图像样本利用CNN算法继续对特征提取模型进行训练，直至特征提取模型的性能没有明显上升为止。这样，训练得到的特征提取模型的输出结果将更加精确。

基于上述训练得到的特征提取模型和概率识别模型，本发明实施例中，可以按照图3所示的流程识别图像中包含的字符：

S31、确定输入图像中包含的文本串区域图像。

本步骤中，如果输入图像为静态图像，则可以利用文本定位方法确定输入图像中包含的文本串区域图像，例如，可以利用最小外接矩形框或者四边形区域确定输入图像中包含的文本串区域图像。

具体实施时，如果输入图像为实时采集的视频图像序列，则首先需要进行有效帧选取，以视频输入为扫一扫功能提供的视频图像序列为例，用户选择应用客户端提供的扫一扫控件，则触发用户设备开启摄像头开始不断采集图像，统计输入的每一帧视频图像中水平、垂直方向的边缘密度，针对每一帧视频图像，根据统计结果判断该帧视频图像是否满足预设的阈值，选择边缘密度满足预设阈值的视频图像作为输入图像。进一步地，还确定其中的可能存在文本串的区域图像作为输入图像，对于扫一扫翻译应用来说，可以为其中的包含单词的区域图像；对于银行卡识别的应用场景，可以为银行卡的窗口区域。

S32、利用特征提取模型提取所述文本串区域图像的特征得到多个特征图像。

其中，所述特征提取模型为利用卷积神经网络算法对预先生成的训练图像样本进行训练得到的，本步骤中，利用上述训练得到的特征提取模型对文本串区域图像进行特征提取，根据提取的特征可以将文本串区域图像划分为若干部分，每一部分对应于一个特征图像，由此可以得到一个特征图像序列。

S33、基于所述多个特征图像组成的特征图像序列，利用识别概率模型确定所述特征图像序列中每一特征图像对应于预先定义的每一字符的概率值。

其中，所述识别概率模型为利用循环神经网络算法对所述训练图像样本进行训练得到。本步骤中，利用上述训练得到的识别概率模型确定特征图像序列中每一特征图像对应于预先定义的每一字符的概率值。

S34、根据所述识别概率模型输出的每一特征图像对应于预先定义的每一字符概率值，确定所述特征图像序列对应的字符序列。

步骤S34中，可以按照以下任一方方式获得特征图像序列对应的字符序列：

第一种方式、分别输出所述特征图像序列中每一特征图像对应的概率值最大的字符组成所述特征图像序列对应的字符序列。

第二种方式、引入语言模型，分析前后几个字共同出现的概率，例如分析前后两三个字共同出现的概率，根据分析结果输出组成所述特征图像序列对应的字符序列。

具体实施时，还可以根据步骤S33输出的结果采用其他方式获得所述特征图像序列对应的字符序列，这里不再一一列举。

如图4所示，其为利用本发明实施例进行图像中字符识别的识别结果示意图。

较佳地，具体实施时，如果针对不同长度的字符串分别进行训练得到对应的特征提取模型和识别概率模型，则在执行步骤S32之前，还可以包括以下步骤：确定所述文本串区域图像的宽高比；根据确定出的宽高比确定所述文本串区域图像对应的特征提取模型和识别概率模型。

需要说明的是，具体实施时，如果根据文本串区域图像的宽高比确定其属于预先定义的长字符串或者短字符串，则选择对应的特征提取模型和识别概率模型进行处理即可。如果根据文本串区域的宽高比确定其超出长字符串范围，则可以将字符串切分后在选择相应的字符串模型进行处理，例如，可以根据文本串区域图像水平方向投影直方图的波谷，以及连通域标记的方法，寻找一些可靠切点，将字符串切换为若干子串后进行处理。如果根据文本串区域的宽高比确定其超出短字符串范围，则说明可能是噪声，可以不进行处理。

具体实施时，在得到识别结果后，同样可以利用识别结果对文本串区域图像进行标注，即标注特征提取模型处理后得到的每一特征图像对应的字符，并计算识别结果的置信度，将置信度不高的提交给人工审核校验后，可以作为标注的训练图像样本用于特征提取模型的训练。

具体实施时，针对视频图像识别的应用场景，还可以结合多帧视频图像的识别结果进行校验，进一步提高识别结果的准确性。

本发明实施例提供的图像中字符识别方法，利用卷积神经网络算法和循环神经网络算法分别训练特征提取模型和识别概率模型，由输入字符串图像直接到输出字符串序列，中间不需要经过单字切分的步骤，降低了图像中字符识别的复杂度，提高了图像中字符识别的效率，而且本发明实施例提供的方法适用于任意场景下的字符识别，提高了字符识别的通用性。

基于同一发明构思，本发明实施例中还提供了一种图像中字符识别装置，由于上述装置解决问题的原理与图像中字符识别方法相似，因此上述装置的实施可以参见方法的实施，重复之处不再赘述。

如图5所示，其为本发明实施例提供的图像中字符识别装置的结构示意图，可以包括：

第一确定单元51，用于确定输入图像中包含的文本串区域图像；

特征提取单元52，用于利用特征提取模型提取所述文本串区域图像的特征得到多个特征图像，所述特征提取模型为利用卷积神经网络算法对预先生成的训练图像样本进行训练得到的；

概率识别单元53，用于基于所述多个特征图像组成的特征图像序列，利用识别概率模型确定所述特征图像序列中每一特征图像对应于预先定义的每一字符的概率值，所述识别概率模型为利用循环神经网络算法对所述训练图像样本进行训练得到；

第二确定单元54，用于根据所述识别概率模型输出的每一特征图像对应于预先定义的每一字符概率值，确定所述特征图像序列对应的字符序列。

所述装置，还包括：

可选地，所述图像中字符识别装置，还包括：

recWidth_i＝recWidth_i-1*SW_i+KW_i，其中：

i为预先定义的网络结构的层标识；

SW_i为第i层对应的卷积前进步长；

KW_i为第i层对应的卷积核的宽度。

可选地，所述图像中字符识别装置，还包括：

为了描述的方便，以上各部分按照功能划分为各模块(或单元)分别描述。当然，在实施本发明时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。

在介绍了本发明示例性实施方式的图像中字符识别方法和装置之后，接下来，介绍根据本发明的另一示例性实施方式的计算装置。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明的计算装置可以至少包括至少一个处理单元、以及至少一个存储单元。其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行本说明书上述描述的根据本发明各种示例性实施方式的图像中字符识别方法中的步骤。例如，所述处理单元可以执行如图3中所示的步骤S31、确定输入图像中包含的文本串区域图像，和步骤S32、利用特征提取模型提取所述文本串区域图像的特征得到多个特征图像，以及步骤S33、基于所述多个特征图像组成的特征图像序列，利用识别概率模型确定所述特征图像序列中每一特征图像对应于预先定义的每一字符的概率值；以及S34、根据所述识别概率模型输出的每一特征图像对应于预先定义的每一字符概率值，确定所述特征图像序列对应的字符序列。

下面参照图6来描述根据本发明的这种实施方式的计算装置60。图6显示的计算装置60仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，计算装置60以通用计算设备的形式表现。计算装置60的组件可以包括但不限于：上述至少一个处理单元61、上述至少一个存储单元62、连接不同系统组件(包括存储单元62和处理单元61)的总线63。

总线63表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储单元62可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)621和/或高速缓存存储器622，还可以进一步包括只读存储器(ROM)623。

存储单元62还可以包括具有一组(至少一个)程序模块624的程序/实用工具625，这样的程序模块624包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算装置60也可以与一个或多个外部设备64(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与计算装置60交互的设备通信，和/或与使得该计算装置60能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口65进行。并且，计算装置60还可以通过网络适配器66与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器66通过总线63与用于计算装置60的其它模块通信。应当理解，尽管图中未示出，可以结合计算装置60使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在一些可能的实施方式中，本发明提供的图像中字符识别方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本发明各种示例性实施方式的图像中字符识别方法中的步骤，例如，所述计算机设备可以执行如图3中所示的步骤S31、确定输入图像中包含的文本串区域图像，和步骤S32、利用特征提取模型提取所述文本串区域图像的特征得到多个特征图像，以及步骤S33、基于所述多个特征图像组成的特征图像序列，利用识别概率模型确定所述特征图像序列中每一特征图像对应于预先定义的每一字符的概率值；以及S34、根据所述识别概率模型输出的每一特征图像对应于预先定义的每一字符概率值，确定所述特征图像序列对应的字符序列。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本发明的实施方式的用于图像中字符识别的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算设备上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种图像中字符识别方法，其特征在于，包括：

确定输入图像中包含的文本串区域图像；

2.如权利要求1所述的方法，其特征在于，针对不同长度的字符串分别进行训练得到对应的特征提取模型和识别概率模型；以及

确定所述文本串区域图像的宽高比；

3.如权利要求1所述的方法，其特征在于，在特征提取模型和识别概率模型训练结束后，还包括：

4.如权利要求3所述的方法，其特征在于，针对每一训练图像样本，按照以下公式确定所述概率矩阵中所包含的每一概率向量对应的特征图像：

recWidth_i＝recWidth_i-1*SW_i+KW_i，其中：

i为预先定义的网络结构的层标识；

SW_i为第i层对应的卷积前进步长；

KW_i为第i层对应的卷积核的宽度。

5.如权利要求1～4任一权利要求所述的方法，其特征在于，按照以下流程生成所述训练图像样本：

从给定的图像中随机截取预设大小的图像；

按照预设概率随机从字符集中选择若干个字符组成字符串；

6.一种图像中字符识别装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，针对不同长度的字符串分别进行训练得到对应的特征提取模型和识别概率模型；

所述装置，还包括：

8.如权利要求6所述的装置，其特征在于，还包括：

9.如权利要求8所述的装置，其特征在于，

所述第四确定单元，具体用于针对每一训练图像样本，按照以下公式确定所述概率矩阵中所包含的每一概率向量对应的特征图像：

recWidth_i＝recWidth_i-1*SW_i+KW_i，其中：

i为预先定义的网络结构的层标识；

SW_i为第i层对应的卷积前进步长；

KW_i为第i层对应的卷积核的宽度。

10.如权利要求6～9任一权利要求所述的装置，其特征在于，还包括：

11.一种计算装置，其特征在于，包括至少一个处理单元、以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述程序被所述处理单元执行时，使得所述处理单元执行权利要求1～5任一权利要求所述方法的步骤。

12.一种计算机可读介质，其特征在于，其存储有可由计算装置执行的计算机程序，当所述程序在计算装置上运行时，使得所述计算装置执行权利要求1～5任一所述方法的步骤。