CN108121984A

CN108121984A - 一种字符识别方法及装置

Info

Publication number: CN108121984A
Application number: CN201611082212.4A
Authority: CN
Inventors: 郑钢
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2016-11-30
Filing date: 2016-11-30
Publication date: 2018-06-05
Anticipated expiration: 2036-11-30
Also published as: EP3550473A4; WO2018099194A1; CN108121984B; US20200311460A1; EP3550473A1; US11003941B2

Abstract

本发明实施例提供了一种字符识别方法及装置，所述方法包括：获取待分析的包括字符的目标图像；将所述目标图像输入预先训练的深度神经网络中，确定所述目标图像的字符区域对应的特征图；通过所述深度神经网络对所述各字符区域对应的特征图进行字符识别，得到所述目标图像中包括的字符；其中，所述深度神经网络是根据各样本图像、各样本图像的字符区域标定结果、以及各样本图像中包括的字符训练得到的。本发明实施例能够提高字符识别的准确性。

Description

一种字符识别方法及装置

技术领域

本发明涉及图像处理技术领域，特别是涉及一种字符识别方法及装置。

背景技术

随着图像处理技术的发展，从图像中能够获取到越来越多的信息。如，通过对监控图像进行识别，能够获取到图像中包括的车辆的车牌号，建筑物标识等；或者，通过对快递单进行识别，能够得到快递单号等。

现有的字符识别方法，主要为根据人工设计的特征，从图像中检测包含字符的字符区域；然后对字符区域进行分割，得到各字符块；最后对各字符块进行分类器识别，从而得到图像中包含的字符。

但是，上述方法中，检测图像中的字符区域，以及对字符区域进行分割时，是根据人工设计的特征进行检测的。实际应用中，由于不同的场景，不同的拍摄条件等，会导致图像质量差别较大。而人工设计的特征，不能很好地适应各种质量的图像，从而导致字符区域检测和字符区域分割结果准确性较低，进一步导致字符识别结果精确性较低。

发明内容

本发明实施例的目的在于提供一种字符识别方法及装置，以提高字符识别的准确性。具体技术方案如下：

第一方面，本发明实施例提供了一种字符识别方法，所述方法包括：

获取待分析的包括字符的目标图像；

将所述目标图像输入预先训练的深度神经网络中，确定所述目标图像的字符区域对应的特征图；

通过所述深度神经网络对所述各字符区域对应的特征图进行字符识别，得到所述目标图像中包括的字符；

其中，所述深度神经网络是根据各样本图像、各样本图像的字符区域标定结果、以及各样本图像中包括的字符训练得到的。

可选地，所述确定所述目标图像的字符区域对应的特征图的步骤包括：

根据预设的划分规则，确定所述目标图像中包括的各候选区域；

对所述各候选区域进行特征提取，得到各候选区域对应的特征图；

根据各候选区域对应的特征图，识别包含字符的特征图，并将所识别出的特征图确定为所述目标图像的字符区域对应的特征图。

可选地，所述确定所述目标图像中包括的各候选区域之后，所述方法还包括：

对各候选区域的位置和/或形状进行调整。

对所述目标图像进行特征提取，得到所述目标图像对应的特征图；

对所述目标图像对应的特征图进行像素级分析，识别包含字符的区域，并将所识别出的区域对应的特征图确定为所述目标图像中的字符区域对应的特征图。

可选地，所述深度神经网络至少包括：卷积神经网络、循环神经网络、分类器、以及序列解码器；所述通过所述深度神经网络对所述各字符区域对应的特征图进行字符识别，得到所述目标图像中包括的字符的步骤包括：

通过所述卷积神经网络对所述各字符区域进行字符级特征提取；

通过所述循环神经网络对所述各字符区域进行上下文特征提取；

通过所述分类器和序列解码器对所提取的特征图进行分类识别，得到所述目标图像中包括的字符。

可选地，所述深度神经网络的训练过程包括：

获取样本图像、各样本图像的字符区域标定结果、以及各样本图像中包括的字符；

将各样本图像、各样本图像的字符区域标定结果、以及各样本图像中包括的字符作为训练样本，训练得到所述深度神经网络。

第二方面，本发明实施例提供了一种字符识别装置，所述装置包括：

第一获取模块，用于获取待分析的包括字符的目标图像；

确定模块，用于将所述目标图像输入预先训练的深度神经网络中，确定所述目标图像的字符区域对应的特征图；

识别模块，用于通过所述深度神经网络对所述各字符区域对应的特征图进行字符识别，得到所述目标图像中包括的字符；

可选地，所述确定模块，包括：

确定子模块，用于根据预设的划分规则，确定所述目标图像中包括的各候选区域；

第一提取子模块，用于对所述各候选区域进行特征提取，得到各候选区域对应的特征图；

第一识别子模块，用于根据各候选区域对应的特征图，识别包含字符的特征图，并将所识别出的特征图确定为所述目标图像的字符区域对应的特征图。

可选地，所述装置还包括：

调整模块，用于对各候选区域的位置和/或形状进行调整。

可选地，所述确定模块，包括：

第二提取子模块，用于对所述目标图像进行特征提取，得到所述目标图像对应的特征图；

第二识别子模块，用于对所述目标图像对应的特征图进行像素级分析，识别包含字符的区域，并将所识别出的区域对应的特征图确定为所述目标图像中的字符区域对应的特征图。

可选地，所述深度神经网络至少包括：卷积神经网络、循环神经网络、分类器、以及序列解码器；所述识别模块，包括：

第三提取子模块，用于通过所述卷积神经网络对所述各字符区域进行字符级特征提取；

第四提取子模块，用于通过所述循环神经网络对所述各字符区域进行上下文特征提取；

第三识别子模块，用于通过所述分类器和序列解码器对所提取的特征图进行分类识别，得到所述目标图像中包括的字符。

可选地，所述装置还包括：

第二获取模块，用于获取样本图像、各样本图像的字符区域标定结果、以及各样本图像中包括的字符；

训练模块，用于将各样本图像、各样本图像的字符区域标定结果、以及各样本图像中包括的字符作为训练样本，训练得到所述深度神经网络。

本发明实施例提供了一种字符识别方法及装置，所述方法包括：获取待分析的包括字符的目标图像；将所述目标图像输入预先训练的深度神经网络中，确定所述目标图像的字符区域对应的特征图；通过所述深度神经网络对所述各字符区域对应的特征图进行字符识别，得到所述目标图像中包括的字符；其中，所述深度神经网络是根据各样本图像、各样本图像的字符区域标定结果、以及各样本图像中包括的字符训练得到的。

本发明实施例中，可以预先根据各样本图像、各样本图像的字符区域标定结果、以及各样本图像中包括的字符训练得到深度神经网络，在进行字符识别时，获取到包含字符的目标图像后，将目标图像输入深度神经网络中，可以准确地确定目标图像的字符区域对应的特征图，进而可以通过深度神经网络对各字符区域对应的特征图进行字符识别，从而准确地得到目标图像中包括的字符。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种字符识别方法的流程图；

图2为本发明实施例的一种包括字符的目标图像示意图；

图3(a)为本发明实施例的一种字符区域示意图；

图3(b)为对图3(a)所示的字符区域进行调整后的结果示意图；

图4为本发明实施例提供的一种字符识别方法的另一流程图；

图5为本发明实施例提供的一种字符识别装置的结构示意图；

图6为本发明实施例提供的一种字符识别装置的另一结构示意图。

具体实施方式

为了提高字符识别的准确性，本发明实施例提供了一种字符识别方法及装置。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了提高字符识别的准确性，本发明实施例提供了一种字符识别方法过程，如图1所示，该过程可以包括以下步骤：

S101，获取待分析的包括字符的目标图像。

本发明实施例提供的方法可以应用于电子设备。具体地，该电子设备可以为台式计算机、便携式计算机、智能移动终端等。

在本发明实施例中，电子设备可以对包括字符的图像进行识别，得到其中包括的字符。例如，电子设备可以对道路上的图像采集设备采集的图像进行识别，得到其中包括的车牌号；或者，也可以对用户拍摄的图像进行字符识别，得到其中包括的字符信息。

当电子设备对图像采集设备采集的图像进行字符识别时，可以在图像采集设备与电子设备之间建立有线或无线连接，从而图像采集设备可以将其采集的图像发送给电子设备。例如，可以通过WIFI(Wireless Fidelity，无线保真)、NFC(Near FieldCommunication，近距离无线通讯技术)、蓝牙等无线连接方式在图像采集设备与电子设备之间建立连接，本发明实施例对此不进行限定。当电子设备对用户拍摄的图像进行字符识别时，用户可以将其拍摄的图像输入电子设备中。

因此，在本发明实施例中，电子设备可以接收图像采集设备发送的目标图像，或者用户输入的目标图像，以识别目标图像中包括的字符。请参考图2，其示出了电子设备获取的一种包括字符的目标图像示意图。

需要说明的是，在本发明实施例中，电子设备还可以通过其他方式获取目标图像，本发明实施例对此不做限定。

S102，将所述目标图像输入预先训练的深度神经网络中，确定所述目标图像的字符区域对应的特征图。

在本发明实施例中，为了提高字符识别的准确性，电子设备可以预先根据一定数量的样本图像，如100张、500张、1000张等，各样本图像的字符区域标定结果、以及各样本图像中包括的字符训练得到深度神经网络。使用训练后的深度神经网络，当输入包括字符的目标图像时，该深度神经网络可以确定目标图像的字符区域对应的特征图，并且根据该特征图，得到目标图像中包括的字符。

在本发明实施例中，获取到包括字符的目标图像后，电子设备可以将该目标图像输入预先训练的深度神经网络中，进而对目标图像的各区域进行检测，识别出包含字符的字符区域，并且，可以确定各字符区域对应的特征图。

例如，当电子设备获取到的目标图像如图2所示时，通过深度神经网络，可以确定目标图像中的字符区域为区域210。并且，可以通过深度神经网络进行特征提取，得到字符区域对应的特征图。

S103，通过所述深度神经网络对所述各字符区域对应的特征图进行字符识别，得到所述目标图像中包括的字符。

本发明实施例中，确定目标图像的字符区域对应的特征图后，电子设备可以进一步地根据深度神经网络，对各字符区域对应的特征图进行字符识别，得到目标图像中包括的字符。如，通过深度神经网络，可以对各字符区域分别进行识别，识别出各字符区域包括的各字符，进而得到目标图像中包括的字符。

例如，针对如图2所示的目标图像，电子设备识别出其中包括的字符可以为：冀FC508。

作为本发明实施例的一种实施方式，电子设备确定目标图像的字符区域对应的特征图时，可以首先根据预设的划分规则，如，各候选区域的大小、形状等，确定目标图像中包括的各候选区域。例如，可以从目标图像中确定大小均为20像素*30像素的长方形候选区域。其中，各候选区域可以均不重叠，也可以重叠，本发明实施例对此不做限定。

然后，电子设备可以对各候选区域进行特征提取，得到各候选区域对应的特征图；最后对各候选区域对应的特征图进行识别，识别出包含字符的特征图，并将所识别出的特征图确定为目标图像的字符区域对应的特征图。

作为本发明实施例的一种实施方式，有些情况下，目标图像中的字符格式可能存在多样性，字符区域也可能不是规则的长方形、正方形等，而是其他的一些图形，如平行四边形等。因此，将目标图像划分为多个规则图形后，检测到的字符区域可能不是特别准确。

例如，如图3(a)所示，当实际的字符为斜体，预设规则为将目标图像划分为长方形候选区域时，得到的字符区域可以为如图3(a)所示的区域。从图3(a)可以看出，得到的字符区域并不能很准确地包含全部的字符内容。

在本发明实施例中，在确定目标图像中包括的各候选区域之后，可以对各候选区域的位置和/或形状进行调整。例如，可以对各候选区域进行旋转、平移等操作。

具体地，在对深度神经网络进行训练时，可以根据样本图像中包括的不规则形状的字符区域，训练得到对字符区域进行调整的向量。在进行字符识别时，即可根据训练得到的向量，对各候选区域的位置和/或形状进行调整。

例如，针对如图3(a)所示的字符区域，对其进行调整后，可以得到如图3(b)所示的字符区域。从图3(b)可以看出，调整后的字符区域能够很准确地包含全部的字符内容。

作为本发明实施例的一种实施方式，电子设备确定目标图像的字符区域对应的特征图时，还可以首先对目标图像进行特征提取，得到目标图像对应的特征图，然后对目标图像对应的特征图进行像素级分析，识别包含字符的区域，并将所识别出的区域对应的特征图确定为目标图像中的字符区域对应的特征图。

例如，当得到目标图像对应的特征图后，电子设备可以针对该特征图，按照设定的分析顺序，如从左到右、从上到下的顺序，依次对每个像素进行分析，识别包含字符的像素，分析完成后，确定包含字符的像素组成的区域，最后，将该区域对应的特征图确定为目标图像中的字符区域对应的特征图。

作为本发明实施例的一种实施方式，本实施例中的深度神经网络至少可以包括：卷积神经网络、循环神经网络、分类器、以及序列解码器等。

卷积神经网络(Convolutional Neural Network，CNN)是一种前馈的人工神经网络，其神经元可以响应有限覆盖范围内周围单元，并通过权值共享和特征汇聚，有效提取图像的结构信息。

循环神经网络(Recurrent Neural Network，RNN)是一种拥有循环结构的人工神经网络，通过隐层特征在序列方向的传递，可以使当前序列点的特征计算得到上下文的信息的支援。通过权值共享和特征汇聚，适用于复杂的序列问题(如时间、空间等)的深度学习建模。

电子设备通过深度神经网络对各字符区域对应的特征图进行字符识别，得到目标图像中包括的字符时，可以首先通过卷积神经网络对各字符区域进行字符级特征提取；然后通过循环神经网络对各字符区域进行上下文特征提取；最后可以通过分类器和序列解码器对所提取的特征图进行分类识别，得到目标图像中包括的字符。

在本发明实施例中，电子设备可以预先训练得到用于进行字符识别的深度神经网络。具体地，如图4所示，本发明实施例提供的字符识别方法，还可以包括以下步骤：

S201，获取样本图像、各样本图像的字符区域标定结果、以及各样本图像中包括的字符。

本发明实施例中，电子设备在训练深度神经网络时，可以首先获取样本图像。例如，电子设备可以获取尽可能多的样本图像，如100张、500张、1000张等，各样本图像中均可以包括字符。并且，为了在进行字符识别时，适应不同质量的图像、适应图像中不同格式的字符，各样本图像中包括的字符的格式可以多样化，如，样本图像中可以包括字体、大小、字形等均不同的字符。

在本发明实施例中，用户可以对各样本图像，进行字符区域的标定，并将标定结果输入电子设备中。并且，还可以将各样本图像中包括的字符输入电子设备中。因此，电子设备可以获取到各样本图像，各样本图像的字符区域标定结果、以及各样本图像中包括的字符。

S202，将各样本图像、各样本图像的字符区域标定结果、以及各样本图像中包括的字符作为训练样本，训练得到所述深度神经网络。

获取到各样本图像、各样本图像的字符区域标定结果、以及各样本图像中包括的字符后，电子设备可以将各样本图像、各样本图像的字符区域标定结果、以及各样本图像中包括的字符作为训练样本，训练得到深度神经网络。

需要说明的是，在本发明实施例中，深度神经网络的训练过程可以采用现有的任一种方法，例如，电子设备可以采用反向传播算法训练得到深度神经网络。其中，网络参数梯度的计算可以采用随机梯度下降法。或者，还可以采用其它方法，训练得到深度神经网络，本发明实施例对此过程不进行赘述。

相应于上面的方法实施例，本发明实施例还提供了相应的装置实施例。

图5为本发明实施例提供的一种字符识别装置，所述装置包括：

第一获取模块510，用于获取待分析的包括字符的目标图像；

确定模块520，用于将所述目标图像输入预先训练的深度神经网络中，确定所述目标图像的字符区域对应的特征图；

识别模块530，用于通过所述深度神经网络对所述各字符区域对应的特征图进行字符识别，得到所述目标图像中包括的字符；

作为本发明实施例的一种实施方式，所述确定模块520，包括：

确定子模块(图中未示出)，用于根据预设的划分规则，确定所述目标图像中包括的各候选区域；

第一提取子模块(图中未示出)，用于对所述各候选区域进行特征提取，得到各候选区域对应的特征图；

第一识别子模块(图中未示出)，用于根据各候选区域对应的特征图，识别包含字符的特征图，并将所识别出的特征图确定为所述目标图像的字符区域对应的特征图。

作为本发明实施例的一种实施方式，所述装置还包括：

调整模块(图中未示出)，用于对各候选区域的位置和/或形状进行调整。

第二提取子模块(图中未示出)，用于对所述目标图像进行特征提取，得到所述目标图像对应的特征图；

第二识别子模块(图中未示出)，用于对所述目标图像对应的特征图进行像素级分析，识别包含字符的区域，并将所识别出的区域对应的特征图确定为所述目标图像中的字符区域对应的特征图。

作为本发明实施例的一种实施方式，所述深度神经网络至少包括：卷积神经网络、循环神经网络、分类器、以及序列解码器；所述识别模块530，包括：

第三提取子模块(图中未示出)，用于通过所述卷积神经网络对所述各字符区域进行字符级特征提取；

第四提取子模块(图中未示出)，用于通过所述循环神经网络对所述各字符区域进行上下文特征提取；

第三识别子模块(图中未示出)，用于通过所述分类器和序列解码器对所提取的特征图进行分类识别，得到所述目标图像中包括的字符。

作为本发明实施例的一种实施方式，如图6所示，所述装置还包括：

第二获取模块540，用于获取样本图像、各样本图像的字符区域标定结果、以及各样本图像中包括的字符；

训练模块550，用于将各样本图像、各样本图像的字符区域标定结果、以及各样本图像中包括的字符作为训练样本，训练得到所述深度神经网络。

对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种字符识别方法，其特征在于，所述方法包括：

获取待分析的包括字符的目标图像；

2.根据权利要求1所述的方法，其特征在于，所述确定所述目标图像的字符区域对应的特征图的步骤包括：

3.根据权利要求2所述的方法，其特征在于，所述确定所述目标图像中包括的各候选区域之后，所述方法还包括：

对各候选区域的位置和/或形状进行调整。

4.根据权利要求1所述的方法，其特征在于，所述确定所述目标图像的字符区域对应的特征图的步骤包括：

5.根据权利要求1所述的方法，其特征在于，所述深度神经网络至少包括：卷积神经网络、循环神经网络、分类器、以及序列解码器；所述通过所述深度神经网络对所述各字符区域对应的特征图进行字符识别，得到所述目标图像中包括的字符的步骤包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述深度神经网络的训练过程包括：

7.一种字符识别装置，其特征在于，所述装置包括：

第一获取模块，用于获取待分析的包括字符的目标图像；

8.根据权利要求7所述的装置，其特征在于，所述确定模块，包括：

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

调整模块，用于对各候选区域的位置和/或形状进行调整。

10.根据权利要求7所述的装置，其特征在于，所述确定模块，包括：

11.根据权利要求7所述的装置，其特征在于，所述深度神经网络至少包括：卷积神经网络、循环神经网络、分类器、以及序列解码器；所述识别模块，包括：

12.根据权利要求7-11任一项所述的装置，其特征在于，所述装置还包括：