CN112613348A

CN112613348A - 一种字符识别方法及电子设备

Info

Publication number: CN112613348A
Application number: CN202011399487.7A
Authority: CN
Inventors: 韩雪超; 李晶; 周璐
Original assignee: Zhejiang Huaray Technology Co Ltd
Current assignee: Zhejiang Huaray Technology Co Ltd
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2021-04-06
Anticipated expiration: 2040-12-01
Also published as: CN112613348B

Abstract

本发明是关于一种字符识别方法及电子设备，涉及图像处理领域，本发明包括：确定包含字符的第一图像中字符区域的占比；若第一图像中的字符区域的占比小于预设值，则根据预设的占比范围与滑动窗口的属性的对应关系，确定字符区域的占比所属的占比范围对应的滑动窗口的属性；滑动窗口的属性包括滑动窗口的尺寸以及移动步长；采用确定的滑动窗口的属性，从第一图像中截取多个第二图像，根据多个第二图像，进行字符识别。由于本发明实施例可以在图像中字符区域的面积比较小时，采用字符区域的占比所属的占比范围对应的滑动窗口的属性，从第一图像中截取的多个第二图像，根据字符的面积比较大的多个第二图像进行字符识别，提高了字符识别的准确率。

Description

一种字符识别方法及电子设备

技术领域

本发明涉及图像处理领域，尤其涉及一种字符识别方法及电子设备。

背景技术

随着科技的进步，越来越多的领域由原来的人工监控，调整为智能监控，特别是在交通抓拍、或者集装箱运输监控等领域。在监控时通过识别对象的字符确认对象的身份，从而得到监控的目的。

现有技术中采用以下方式在进行字符识别，具体来说，首先将图像的尺寸压缩到固定尺寸，将图像中字符区域的多个字符进行分割，得到单个字符，然后进行单个字符的识别。

然而，图像拍摄时，拍摄地点距离字符区域比较远，导致图像中的字符区域占比比较小，图像中的字体会比较小，再进行压缩后，图像中的字符区域会更小，导致字符之间的间隙比较模糊，从而在对字符区域进行分割时，分割不清楚。或者识别时可能会由于字符区域的占比太小，根本不会识别到该区域为字符区域，即识别不到字符，导致识别错误率高。

发明内容

本发明提供一种字符识别方法及识别设备，在进行字符识别之前，若确定包含字符的第一图像中字符区域的占比比较小，则采用确定的滑动窗口的属性，从第一图像中截取多个相比于第一图像小的尺寸的第二图像，在进行压缩后，压缩量变小，从而使得识别时字符个体比较大且字符之间的间距比较清晰，能够提高了识别的准确率。

第一方面，本发明实施例提供的一种字符识别方法，包括：

确定包含字符的第一图像中字符区域的占比；

若所述第一图像中的字符区域的占比小于预设值，则根据预设的占比范围与滑动窗口的属性的对应关系，确定所述字符区域的占比所属的占比范围对应的滑动窗口的属性；所述滑动窗口的属性包括滑动窗口的尺寸以及移动步长；

采用确定的滑动窗口的属性，从所述第一图像中截取多个第二图像，根据所述多个第二图像，进行字符识别。

上述方法，首先确定包含字符的第一图像中字符区域的占比，在占比小于预设值，即第一图像中的字符区域比较小时，根据预设的占比范围与滑动窗口的属性的对应关系，确定字符区域的占比所属的占比范围对应的滑动窗口的属性，然后采用确定出来的滑动窗口的属性，从第一图像中截取多个相比于第一图像中尺寸小的第二图像，进行字符识别，与采用第一图像直接压缩相比，压缩量减小，从而使得字符个体比较大，且字符之间的间距比较清晰，比较容易识别到，从而可以提高了字符识别的准确率。

在一种可能的实现方式中，根据所述多个第二图像，进行字符识别，包括：

从多个第二图像中识别出包含字符的第二图像并标出识别到的第二图像中的字符区域，确定包含字符的第二图像中字符的版式类型；

根据字符的版式类型，对包含字符的第二图像中的字符区域的字符进行字符识别。

上述方法，通过识别图像的字符区域以及字符的版式类型，这样使得在字符识别时能够通过版式类型对字符进行识别，这样针对不同版式进行识别的方式，提高字符识别的准确率。

在一种可能的实现方式中，从多个第二图像中识别出包含字符的第二图像并标出识别到的第二图像中的字符区域，确定包含字符的第二图像中字符的版式类型，包括：

通过区域识别网络，从多个第二图像中识别出包含字符的第二图像并标出识别到的第二图像中的字符区域；

将预设的版式类型与包含字符的第二图像中字符的版式进行对比，确定对比度最高的预设的版式类型作为第二图像中字符的版式类型。

上述方法，能够在通过区域识别网络中识别出包含字符的第二图像以及第二图像中的字符区域，并从预设的版式类型找到对比度最高的版式类型作为第二图像中字符的版式类型，在进行字符识别时可以针对不同版式进行识别的方式，提高字符识别的准确率。

在一种可能的实现方式中，从多个第二图像中识别出包含字符的第二图像，并确定包含字符的第二图像中的字符区域和字符的版式类型，包括：

通过版式分类神经网络，从多个第二图像中识别出包含字符的第二图像并标出识别到的第二图像中的字符区域，确定包含字符的第二图像中字符的版式类型；

其中，版式分类神经网络的训练过程，包括：

将样本图像作为输入，将所述样本图像中的字符区域和字符的版式类型作为输出，对基础神经网络进行多轮训练，得到所述版式分类神经网络；

在每轮训练过程中，将所述样本图像输入到基础神经网络中输出的结果输入到第一损失函数中计算第一损失值，同时，将所述样本图像输入到基础神经网络中输出的结果输入到第二损失函数中计算第二损失值，根据第一损失值和第二损失值，调整基础网络中的参数；

第一损失函数为SmoothL1损失函数，第二损失函数为GIOU损失函数。

上述方法，能够通过版式分类神经网络进行识别，并且在训练时引入SmoothL1损失函数和GIOU损失函数这两个损失函数进行训练，提高了训练的精度。

在一种可能的实现方式中，标出识别到的第二图像中的字符区域之后，根据字符的版式类型，对包含字符的第二图像包含字符中的字符区域进行字符识别之前，所述方法还包括：

若提取出的字符区域的数量包括多个，且多个字符区域在第一图像中有重叠区域，则对多个字符区域进行融合。

上述方法，由于采用多个第二图像进行字符区域识别时，截取第二图像时，可能存在同一字符区域划分成多个第二图像，所以，为了提高识别出来得字符区域的完整性，在提取出的字符区域的数量包括多个，且多个字符区域在第一图像中有重叠区域，对多个字符区域进行融合。

在一种可能的实现方式中，标出识别到的第二图像中的字符区域之后，根据字符的版式类型，对包含字符的第二图像中的字符区域的字符进行字符识别之前，所述方法还包括：

采用预设的背景图对长宽比未在预设范围内的所述字符区域的背景进行填充，并将填充后的字符区域的尺寸调整到预设尺寸。

上述方法，在进行字符识别之前，会调整字符区域的尺寸，为了避免调整字符区域的尺寸时字符区域中的字符失真，本发明将采用预设的背景图对长宽比未在预设范围内的字符区域的背景进行填充，这样在调整填充后的字符区域的尺寸时，避免字符区域中的字符失真，降低了字符识别的难度，同时避免了在字符识别过程中出现尺寸大小不一的情况导致识别精度低的问题。

在一种可能的实现方式中，根据字符的版式类型，对包含字符的第二图像包含字符中的字符区域进行字符识别，包括：

按照字符的版式类型，对字符区域进行分割，得到多个包含单个字符的区域；

对多个包含单个字符的区域分别进行字符识别。

上述方法，在识别时，根据字符的版式类型对字符区域分割，从而能够得到单个字符的区域，这样对单个字符的区域进行字符识别，避免了将多个字符一起识别时字符界限不清晰而导致的识别准确率比较低的问题。

在一种可能的实现方式中，对多个包含单个字符的区域分别进行字符识别，包括：

对多个包含单个字符的区域进行特征提取，得到多个特征图；

通过注意力模型，将多个特征图进行融合，得到综合特征图；

根据所述综合特征图进行字符识别。

上述方法，在进行字符识别时，首先对字符区域进行特征提取多个特征图，然后通过注意力模型，将多个特征图进行融合，得到综合特征图，并根据综合特征图进行字符识别，这样不仅简化了字符识别的过程，还因为采用注意力模型使得分类特征更加丰富，提高了字符识别的准确率。

通过目标检测网络，根据字符的版式类型，对包含字符的第二图像包含字符中的字符区域进行字符识别；

其中，目标检测网络的训练过程，包括：

将样本图像以及样本图像中字符的版式类型作为输入，将所述样本图像中的字符作为输出，对基础神经网络进行多轮训练，得到所述目标检测网络。

上述方法，能够通过目标检测网络对包含字符的第二图像进行字符识别，提高了识别的准确率。

在一种可能的实现方式中，所述确定包含字符的第一图像中字符区域的占比，包括：

若摄像设备拍摄出的图像的分辨率不小于预设分辨率，则根据摄像设备的安装位置与所述摄像设备拍摄的字符区域的占比的对应关系，确定所述摄像设备的当前安装位置对应的第一图像中字符区域的占比；所述第一图像为所述摄像设备拍摄的。

上述方法，在图像分辨率比较高的情况下，由于摄像设备的安装位置与拍摄区域的大小相关，进一步的与字符区域的占比有关，所以，能够预先设定摄像设备的安装位置与所述摄像设备拍摄的字符区域的占比的对应关系，从而得到第一图像中字符区域的占比，这样无需实际测量第一图像中字符区域的位置就可以得到其占比，简化了处理方法。

在一种可能的实现方式中，所述方法还包括：

若摄像设备拍摄出的图像的分辨率小于预设分辨率，则将所述第一图像的尺寸调整到预设尺寸，以及对调整尺寸后的第一图像进行字符识别。

上述方法，能够在摄像设备拍摄出的图像的分辨率比较小时，考虑到第一图像中字符区域的分辨率也会比较小，比较难识别，从而可以将第一图像中的尺寸调整到预设识别尺寸后，直接对第一图像进行字符识别，提高了字符识别的准确率。

第二方面，本发明实施例提供的一种电子设备，包括：存储器和处理器：

所述存储器用于存储电子设备运行时所使用的程序代码；

所述处理器用于执行所述程序代码，以实现如第一方面任一项所述的字符识别方法。

第三方面，本申请还提供一种计算机存储介质，其上存储有计算机程序，该程序被处理单元执行时实现第一方面所述字符识别方法的步骤。

另外，第二方面至第三方面中任一种实现方式所带来的技术效果可参见第一方面中不同实现方式所带来的技术效果，此处不再赘述。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理，并不构成对本发明的不当限定。

图1是本发明实施例提供的一种字符识别方法的流程的示意图；

图2是本发明实施例提供的一种第一图像、第二图像、与字符区域的关系的示意图；

图3是本发明实施例提供的一种车牌识别方法的工作流程的示意图；

图4是本发明实施例提供的一种车牌识别中抓拍的第一图像和从第一图像中截取的第二图像的关系的示意图；

图5是本发明实施例提供的一种车厢字符识别方法的工作流程的示意图；

图6是本发明实施例提供的一种根据多个第二图像进行字符识别的工作过程的示意图；

图7是本发明实施例提供的一种字符识别过程中当多个第二图像中的字符区域在第一图像中有重叠时的示意图；

图8是本发明实施例提供的一种对长宽比未在预设范围内的字符区域进行背景填充的示意图；

图9是本发明实施例提供的一种卷积神经网络的注意力机制的工作过程示意图；

图10是本发明实施例提供的一种卷积神经网络的注意力机制种的通道注意模块的工作过程示意图；

图11是本发明实施例提供的一种卷积神经网络的注意力机制种的空间注意模块的工作过程示意图；

图12是本发明实施例提供的一种字符识别方法的完整工作流程的示意图；

图13是本发明实施例提供的一种电子设备的结构框图；

图14是本发明实施例提供的另一种采集设备的结构框图。

具体实施方式

为了使本领域普通人员更好地理解本发明的技术方案，下面将结合附图，对本发明实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

本发明实施例描述的应用场景是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域普通技术人员可知，随着新应用场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。

目前，在采集到图像后，对图像进行字符识别。在图像中的字符区域的占比比较小时，容易导致识别不到，造成字符信息丢失，识别率比较低。

本发明实施例提供的一种字符识别方法及电子设备，在进行字符识别之前，确定出包含字符的图像中字符区域的占比比较小，通过改变待识别图像的尺寸，从而改变待识别图像中的字符的个体和字符之间的清晰度，从而提高字符识别的识别率。

以下结合附图对本发明的技术进行详细阐述。

结合图1所示，示出了本发明实施例提供的一种字符识别方法，包括：

S100：确定包含字符的第一图像中字符区域的占比。

其中，包含字符的第一图像中字符区域的占比为第一图像中字符区域的面积与第一图像的面积之间的比值，或者，第一图像中字符区域的长度与第一图像的长度之间的比值。

S101：若第一图像中的字符区域的占比小于预设值，则根据预设的占比范围与滑动窗口的属性的对应关系，确定字符区域的占比所属的占比范围对应的滑动窗口的属性。滑动窗口的属性包括滑动窗口的尺寸以及移动步长。

S102：采用确定的滑动窗口的属性，从第一图像中截取多个第二图像，根据多个第二图像，进行字符识别。

其中，从第一图像中截取多个第二图像之后，根据多个第二图像，进行字符识别之前，该方法还包括将多个第二图像调整到固定尺寸。该固定尺寸的大小可以由进行字符识别时的神经网络而定的。

结合图2所示，C1表示第一图像，C2为第一图像中的字符区域，C3表示按照滑动窗口的尺寸以及移动步长进行截取动作时，截取到其中一个第二图像，该第二图像为包含字符区域的图像。可以看出，第一图像C1的面积小于第二图像C3的面积，所以在字符区域C2的面积不变的情况下，第二图像C3中字符区域C2的占比，相比于第一图像C1中字符区域C2的占比变大，在进行字符识别之前，将尺寸调整为固定尺寸时，相比于直接采用第一图像进行压缩相比，第二图像中字符的个体变大、且字符之间的间距比较清晰，这样对字符进行识别时，比较容易识别到，从而提高了字符识别的准确率。

其中，图像中的字符区域的大小可能不同，即会有不同的占比，若要想在截取的第二图像中字符区域的占比相似，则可以通过确定不同的占比范围与滑动窗口之间的对应关系，将占比范围小的，滑动窗口的属性中的滑动窗口的尺寸配置比较小，移动步长比较小；当占比范围大的，滑动窗口的属性中的滑动窗口的尺寸配置比较大，移动步长比较大。在确定对应关系后，根据当前确定的占比所属的占比范围，在确定的对应关系中，查找对应的滑动窗口的属性。根据查找到的滑动窗口的属性，从第一图像中截取多个第二图像，根据多个第二图像，进行字符识别时字符的变化不大，这样可以避免由于字符大小变化比较大时，即特征变化比较大，从而不能够准确识别到对应的特征的问题，所以本发明不仅能够将字符区域的占比改变，还可以以适合大小的第二图像进行字符识别，提高了字符识别的准确率。

以拍摄的车牌的图像为例，一般在进行车牌拍摄时，会在路边架起的栏杆上设置摄像头，拍摄时，由于摄像头距离地面的高度比较高，所以可能会导致拍摄出来的车牌的占比比较小。

基于上述情况，结合图3所示，提供了一种车牌识别方法，包括：

S300：确定抓拍的车辆的图像中车牌的占比；

S301：若抓拍的车辆的图像中的车牌的占比小于预设值，则根据预设的占比范围与滑动窗口的属性的对应关系，确定车牌的占比所属的占比范围对应的滑动窗口的属性；

S302：采用确定的滑动窗口的属性，从抓拍的车辆的图像中截取多个小图像，根据多个小图像，进行车牌识别。

如图4所示，示出了一个抓拍车辆的示意图。C4为抓拍的车辆的图像，C5为从抓拍的车辆的图像中截取的小图像。抓拍的车辆的图像C4的面积小于从抓拍的车辆的图像中截取的小图像C5的面积，所以在车牌区域的面积不变的情况下，从抓拍的车辆的图像中截取的小图像C5中车牌区域的占比相对比较大，然后对从抓拍的车辆的图像中截取的小图像C5进行车牌识别，从而能够提高车牌识别的正确率。

以拍摄集装箱的图像为例，由于集装箱的数量比较多，所以，一般会为了节省摄像头数量，在拍摄时，会在一张照片中拍摄多个集装箱，同时，集装箱上的文字相对于箱体本身来说，占比比较小，所以，当同一张图片出现多个集装箱时，集装箱上的字体占比比较小，从而会导致识别集装箱上的字体难度比较大。

基于上述情况，结合图5所示，提供了一种车厢识别方法，包括：

S500：确定包含车厢的图像中字符区域的占比；

S501：若包含车厢的图像中的字符区域的占比小于预设值，则根据预设的占比范围与滑动窗口的属性的对应关系，确定车牌的占比所属的占比范围对应的滑动窗口的属性；

S502：采用确定的滑动窗口的属性，从包含车厢的图像中截取多个小图像，根据多个小图像，进行车厢上的字符识别。

若拍摄集装箱的图像中包含2个以及以上的数量的字符区域时，确定图像中的每一个字符区域的占比，针对每一个字符区域，根据预设的占比范围与滑动窗口的属性的对应关系，确定字符区域的占比所属的占比范围对应的滑动窗口的属性，若确定出来的滑动窗口的属性不同，采用属性中滑动窗口的尺寸最小的滑动窗口，从图像中截取多个小图像，针对每一个字符区域中的字符进行识别。

其中，由于第一图像中字符区域的占比与第一图像对应的实际拍摄区域和实际字符区域的占比相同，则确定第一图像对应的实际拍摄区域和实际字符区域的占比作为包含字符的第一图像中字符区域的占比。

其中，第一图像对应的实际拍摄区域和实际字符区域的占比，求取的方式1，第一图像对应的实际拍摄区域的面积和实际字符区域的面积的占比。

第一图像对应的实际拍摄区域的面积和实际字符区域的面积可以根据人工实际测量得到。

求取的方式2，第一图像对应的实际拍摄区域的长度和实际字符区域对应的长度的占比。

即，实际字符区域对应的长度为第一图像对应的实际拍摄区域的长度的一部分，确定这一部分占总长度的比例。

第一图像对应的实际拍摄区域的长度和实际字符区域的长度可以根据人工实际测量得到。

考虑到大分辨率的图像中字符区域也比较清晰，所以，可以通过占比的方式截取第二图像，进行字符识别，小分辨率的图像中字符区域也比较模糊，那么如果还通过截取第二图像的方式进行字符识别的话，第二图像的分辨率更小，那么字符识别时的要素比较少，从而降低了识别的准确率。针对此，本发明实施例提供了一种确定包含字符的第一图像中字符区域的占比的方法，包括：若摄像设备拍摄出的图像的分辨率不小于预设分辨率，则根据摄像设备的安装位置与摄像设备拍摄的字符区域的占比的对应关系，确定摄像设备的当前安装位置对应的第一图像中字符区域的占比；第一图像为所述摄像设备拍摄的。若摄像设备拍摄出的图像的分辨率小于预设分辨率，则将第一图像的尺寸调整到预设尺寸，以及对调整尺寸后的第一图像进行字符识别。

其中，摄像设备的安装位置与摄像设备拍摄的字符区域的占比的对应关系可以预先设置的，用户可以在不同的安装位置处的摄像设备拍摄图像，然后辨认拍摄图像的字符区域的占比，按照不同安装位置对应的最小占比确定摄像设备的安装位置与摄像设备拍摄的字符区域的占比的对应关系。

其中当采用实现S600的方式1进行识别字符区域时，预设尺寸为区域识别网络要求的尺寸，若采用实现S600的方式2进行识别字符区域时，预设尺寸为版式分类神经网络要求的尺寸。

结合图6所示，进行字符识别的方式包括：

S600：从多个第二图像中识别出包含字符的第二图像并标出识别到的第二图像中的字符区域，确定包含字符的第二图像中字符的版式类型。

S601：根据字符的版式类型，对包含字符的第二图像中的字符区域的字符进行字符识别。

本发明实施例进一步提供以下两种方式实现S600。

方式1：通过区域识别网络，从多个第二图像中识别出包含字符的第二图像并标出识别到的第二图像中的字符区域；将预设的版式类型与包含字符的第二图像中字符的版式进行对比，确定对比度最高的预设的版式类型作为第二图像中字符的版式类型。

区域识别网络的训练过程为：将从样本集中随机选择的样本图像作为输入，将样本图像中的字符区域作为输出，对基础神经网络进行多次训练，得到区域识别网络。其中，每轮次训练时，将样本图像输入到基础神经网络中输出的结果输入到损失函数中计算损失值，根据损失值，调整基础网络中的参数。

其中预设的版式类型包括单行、多行、单列、多列、多行多列等等。

在预设的版式类型与包含字符的第二图像中字符的版式进行对比时，首先根据字符与字符之间的间隙，画出包含字符的第二图像中字符的版式，然后将预设的版式类型与画出的版式进行对比，确定对比度最高的预设的版式类型作为第二图像中字符的版式类型。

方式2：通过版式分类神经网络，从多个第二图像中识别出包含字符的第二图像并标出识别到的第二图像中的字符区域，确定包含字符的第二图像中字符的版式类型；

其中，版式分类神经网络的训练过程，包括：

其中，版式神经网络为以不同版式类型作为分类目标的神经网络。通过该版式分类神经网络能够区分不同版式类型的字符区域。

特别是针对车厢上的字符识别时，由于车厢上的字符可能存在单行、多行、单列、多列等情况，所以，采用版式分类神经网络不仅能够识别车厢上的字符区域还可以识别字符的版式类型。

具体来说，由于本发明通过版式分类神经网络能够区分不同版式类型的字符区域，同时能够输出字符区域的版式类型，例如，单行、2行、单列、3列等等。这样在进行字符识别时，如果对字符区域进行分割时，能够根据识别出来的版式类型，对字符区域进行分割，例如，识别出该版式类型为2行3列，则分割时，分割出2行，3列的字符，即得到6个字符。

将多个第二图像输入到版式分类神经网络进行字符区域识别，确定包含字符的第二图像中的字符区域的工作过程为：

将多个第二图像逐一输入到版式分类神经网络进行字符区域识别，识别出包含字符的第二图像，并标出包识别到的第二图像中的字符区域和字符的版式类型。

为了提高处理效率，将多个第二图像输入到多个版式分类神经网络进行字符识别，确定包含字符的第二图像中的字符区域和字符的版式类型。

其中，多个第二图像输入到多个版式分类神经网络进行字符识别时，需要同时建立多条线程，多个线程同时启动，从而能够提高处理效率。

需要说明的是，同时启动的线程的个数可以小于等于第二图像的数量，即，当第二图像的数量为N个，建立的线程的个数可以少于N个，也可以与N个相同。

在少于N个时，调用建立的线程的个数的版式分类神经网络，对建立的线程的个数的第二图像进行并行字符区域识别，即识别每一个第二图像是否包括字符区域，若包括字符区域将其位置输出和字符的版式类型输出。

在采用滑动窗口进行截取图像时，可以采用移动步长小于滑动窗口的尺寸的方式进行截取，例如滑动窗口的尺寸为5000*2048，移动步长例如2500，由于从第一图像上截取的多个第二图像均具有重叠区域，会使得针对同一字符区域来说，识别出的字符区域的数量包括多个，且分别来自不同的第二图像，同时，多个字符区域在第一图像中的位置信息有重叠。为了避免字符丢失，本发明实施例提供了一种方式，包括：

若提取出的字符区域的数量包括多个，且多个字符区域在第一图像中有重叠，则对多个字符区域进行融合。

例如，结合图7所示，在其中一个第二图像P1中，识别出字符区域为P11，在另一个第二图像P2中，识别出字符区域P22，字符区域P11在第一图像中的区域，字符区域P22在第一图像中的区域，具有重叠部分，采用虚线框标出，则将字符区域P11和字符区域P22进行融合，融合后的字符区域进行字符识别处理。

对于训练过程具体来说，将随机从样本集中选择样本图像输入到基础神经网络中，得到输出结果，将输出结果输入到第一损失函数中计算第一损失值，将输出的结果输入到第二损失函数中计算第二损失值，根据第一损失值和第二损失值，调整基础网络中的参数。依次类推，对基础网络进行训练，直到输出结果与标准结果相比，相差的程度比较小，达到预期，训练完成。

这样通过在训练过程中引入两个损失函数，调整基础网络中的参数，提高了训练出来的版式分类神经网络的鲁棒性。

其中，对于样本集的获取方式为：通过用户采集大量的包含不同版式的字符区域的图像作为样本集，还可以通过采集的样本集进行变换，得到的新的图像作为样本集。即对样本集进行扩充。

可以通过以下部分或全部的方式扩充样本集：

方式1：采用滑窗的方式将采集的一张图像划分为多个小图像，将每一个小图像作为新的样本图像。

方式2：对样本集中的样本图像采用数据增强的方式，得到多个新的样本图像。

例如通过裁剪(crop)的方式，从图像中裁剪出多张包含字符区域的图像，这些图像中字符区域的位置不同，例如，可以裁剪出新的图像中字符区域在左上角，新的图像中字符区域在右上角等等。

通过增加边框(border)的方式，为样本图像添加新的背景图，生成新的样本图像。

通过灰度变换的方式，将样本图像中的像素点的颜色变化不同的灰度值，得到新的图像，作为样本图像。

通过mixup线性差值的方式、fmix的方式以及通过cutmix的方式，从样本集中随机选择图像进行混合，得到新的图像，作为样本图像，以达到样本图像扩充的目的。

方式3：根据场景特征的生成规则，得到不同版式的字符，将生成的不同版式的字符区域的图像作为样本。

当场景为对车厢的字符进行识别时，由于车厢字符区域中包括多行的字符区域、单行字符区域、多列的字符区域、单列的字符区域，所以，根据车厢特征的生成规则，从不同的字体类型提取字符，生成车厢字符，然后根据其字体的大小确定字符区域的大小，并将该字符区域添加车厢的背景图，得到包含字符区域的图像的样本集。

例如，第一个字符到第四个字符由英文字母组成，第五个字符到第十个字符由数字组成，第十一个字符由数字组成。根据上述规则，生成新的车厢上的箱号，将该箱号的字体的大小，确定字符区域的大小，生成图像作为训练的样本图像。

当场景为对车牌的字符进行识别时，在生成字符区域时，根据车牌中的字体类型确定车牌的字符，根据字体的大小，确定车牌的字符区域，将包含该字符区域的图像作为样本集。

例如，车牌号码的首个字符为省份的简称，车牌号码第二个字符为英文大写字母，第三个字符为点，第四个字符～第八个字符为数字以及英文大写字母的混合。根据这些规则，生成新的车牌的号码，将该车牌的号码作为样本图像。

本发明实施例进一步提供以下方式实现S601。

按照字符的版式类型，对字符区域进行分割，得到多个包含单个字符的区域；对多个包含单个字符的区域分别进行字符识别。

对多个包含单个字符的区域分别进行字符识别的具体方式为：对多个包含单个字符的区域进行特征提取，得到多个特征图。

进一步的，为了提高计算精度，在目标检测网络中添加注意力机制，从而能够提高字符识别的准确率。具体来说：

对多个包含单个字符的区域进行特征提取，得到多个特征图；通过注意力模型，将多个特征图进行融合，得到综合特征图；根据综合特征图进行字符识别。

具体来说可以通过目标检测网络，对字符区域进行特征提取得到多个特征图，然后通过注意力模型，将多个特征图进行融合，得到综合特征图；再通过目标检测网络根据综合特征图进行字符识别。其中目标检测网络可以为以卷积神经网络为基础网络训练得到的。

采用目标检测网络，从字符区域中提取多尺度的特征，每一个尺度形成一个特征图。然后通过注意力模型，将每个特征图中的特征赋予权重，得到每个赋予权重的特征图，然后将每个特征图对应相同位置的特征相加，得到综合特征图，并根据综合特征图进行字符识别。

其中，注意力模型为对提取的特征图赋予权重的模型。

结合图9所示，示出了注意力模型的工作原理图。注意力模型可以称为Convolutional Block Attention Module，用于卷积神经网络的注意力机制。首先，通过卷积神经网络，对输入的图像进行特征提取，得到特征图，即图中的Input Feature，然后特征图通过通道注意模块(Channel Attention Module)得到通道的权重(命名为ChannelAttention Mc)，将通道的权重赋予在Input Feature上，然后将赋予通道的权重的特征图(命名为Channel-refined Feature F)通过空间注意模块(Spatial Attention Module)得到空间的权重(命名为Spatial Attention Ms)，将空间的权重赋予在赋予通道的权重的特征图中，输出赋予空间的权重和通道权重的加权后的特征图。

其中，结合图10所示，通道注意模块的工作过程为：Input Feature通过最大池化(MaxPool)以及平均池化(AvgPool)，即对Input Feature进行特征降维后，通过MLP，即多层感知机，全连接层，Shared MLP为共享多层感知机，即将最大池化(MaxPool)以及平均池化(AvgPool)后的两个不同降维方式得到的特征图进行全连接处理，得到通道的权重(Channel Attention Mc)。

结合图11所示，空间注意模块的工作过程为：赋予通道的权重的特征图(Channel-refined Feature F)通过最大池化(MaxPool)以及平均池化(AvgPool)，即对特征降维后，通过卷积层(conv layer)的卷积处理，得到空间的权重(Spatial Attention Module)。

其中，对于版式不同的字符区域来说，其长宽比的变化比较大，例如，单行、单列的字符区域，长宽对比比较大。而在输入到第二神经网络之前，均需要对图像的尺寸进行调整，而且输出图像的尺寸的长宽比相同。所以，在调整时，可能会因为长宽比变化大，导致调整时图像失真，造成字符识别错误。例如，长宽比为10:1时，在调整图像尺寸，例如，将其调整尺寸时，很可能将宽度拉长，造成字符变得细长。所以，为了避免上述情况，本发明对字符区域进行字符识别之前，还可以采用预设的背景图对长宽比未在预设范围内的字符区域的背景进行填充，并将填充后的字符区域的尺寸调整到预设尺寸。

其中，填充后的效果可以为长宽比为1。预设范围为1左右的范围，例如，0.8到1.2之间。

结合图8所示，字符区域B1的长宽比为5:1，然后采用背景图，在宽的方向增加4分现有的宽的区域，例如，将背景图b～b4添加到B1中，组合得到填充后的字符区域，使得填充后的字符区域的长宽比为1，然后将填充后的字符区域的尺寸调整到预设尺寸。

对于上述提到的第二个神经网络中，训练过程为：将从样本集中随机选择的样本图像和样本图像中字符的版式类型作为输入，将样本图像中的字符作为输出，对基础神经网络进行多次训练，得到第二神经网络。

具体来说，将随机从样本集中选择包含字符区域的图像和图像中字符的版式类型输入到基础神经网络中，得到输出结果，将输出结果输入到损失函数中计算损失值，根据损失值调整基础网络中的参数。依次类推，直到输出结果与标准结果相比，相差的程度比较小，训练完成。

其中，对于样本集的获取方式与上述版式分类神经网络的样本集获取方式相似，为：通过用户采集大量的包含字符的图像作为样本集，还可以对图像进行处理后，得到的新的图像作为样本图像。

方式1，基于上述版式分类神经网络的样本集中的样本集，将字符区域抠出来，作为字符识别的神经网络的样本图像。

方式2，将抠出来的字符区域通过边界外扩的方式，得到新的图像，作为样本图像。

方式3，将抠出来的字符区域进行小角度旋转的方式，得到新的图像，作为样本图像。例如，旋转5度，旋转10度。

方式4：将抠出来的字符区域进行灰度变换。即将抠出来的字符区域中的像素点的灰度值进行改变，得到不同灰度值的新的图像，作为样本图像。

方式5：根据场景特征的生成规则，得到不同版式的字符，将生成的不同版式的字符的图像作为样本。进一步的，将采集的图像中字符区域的背景截取下来，将生成的字符添加到采集的图像中字符区域的背景中，得到的新的图像作为样本。

当场景为对车厢的字符进行识别时，根据车厢特征的生成规则，从不同的字体类型和字体大小中提取字符，生成车厢字符，将该字符的图像作为样本。

当场景为对车牌的字符进行识别时，根据车牌特征的生成规则，从不同的字体类型和字体大小中提取出字符，生成车牌，将车牌的图像作为样本。

基于上述的介绍，结合图12所示，示出了一种字符识别的完整流程，包括：

S1200：确定包含字符的第一图像中字符区域的占比；

S1201：若第一图像中的字符区域的占比小于预设值，则根据预设的占比范围与滑动窗口的属性的对应关系，确定字符区域的占比所属的占比范围对应的滑动窗口的属性。

S1202：采用确定的滑动窗口的属性，从第一图像中截取多个第二图像。

S1203：通过版式分类神经网络，从多个第二图像中识别出包含字符的第二图像并标出识别到的第二图像中的字符区域，确定包含字符的第二图像中字符的版式类型。

S1204：判断字符区域的长宽比是否在预设范围内，若在，则执行S1206，若不在，则先执行S1205再执行S1206。

S1205：采用预设的背景图对长宽比未在预设范围内的字符区域的背景进行填充。

S1206：将字符区域的尺寸调整到预设尺寸。

S1207：通过目标检测网络，根据字符的版式类型，对包含字符的第二图像中的字符区域的字符进行字符识别。

本发明实施例提供了一种电子设备1300，结合图13所示，包括：存储器1310和处理器1320：

所述存储器1310用于存储终端设备运行时所使用的程序代码；

所述处理器1320用于执行所述程序代码，以实现如下过程：

确定包含字符的第一图像中字符区域的占比；

可选的，所述处理器1320，具体用于：

从多个第二图像中识别出包含字符的第二图像，并确定包含字符的第二图像中的字符区域和字符的版式类型；

根据字符的版式类型，对包含字符的第二图像包含字符中的字符区域进行字符识别。

可选的，所述处理器1320，具体用于：通过版式分类神经网络，从多个第二图像中识别出包含字符的第二图像并标出识别到的第二图像中的字符区域，确定包含字符的第二图像中字符的版式类型；

其中，版式分类神经网络的训练过程，包括：

可选的，所述处理器1320，还用于：

可选的，所述处理器1320，具体用于：

对多个包含单个字符的区域分别进行字符识别。

可选的，所述处理器1320，具体用于：

根据所述综合特征图进行字符识别。

可选的，所述处理器1320，具体用于：通过目标检测网络，根据字符的版式类型，对包含字符的第二图像包含字符中的字符区域进行字符识别；

其中，目标检测网络的训练过程，包括：

可选的，所述处理器1320，还用于：

可选的，所述处理器1320，具体用于：若摄像设备拍摄出的图像的分辨率不小于预设分辨率，则根据摄像设备的安装位置与所述摄像设备拍摄的字符区域的占比的对应关系，确定所述摄像设备的当前安装位置对应的第一图像中字符区域的占比；所述第一图像为所述摄像设备拍摄的。

可选的，所述处理器1320，还用于：

若摄像设备拍摄出的图像的分辨率小于预设分辨率，则将所述第一图像的尺寸调整到预设识别尺寸，以及对调整尺寸后的第一图像进行字符识别。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器，上述指令可由处理器1320执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

其中，该采集设备还可以为具有通信功能的电子设备，所以，该采集设备除了上述介绍的处理器以及存储器外，结合图14所示，还包括：摄像单元1410、射频(RadioFrequency，RF)电路1420、无线保真(Wireless Fidelity，Wi-Fi)模块1430、通信接口1440、输入单元1450、显示单元1460、电源1470、处理器1480、存储器1490等部件。本领域技术人员可以理解，图14中示出的电子设备的结构并不构成对电子设备的限定，本申请实施例提供的电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图14对所述电子设备1300的各个构成部件进行具体的介绍：

所述摄像单元1410，用于实现所述电子设备1300的拍照功能。还可以实现电子设备1300的扫描功能，对扫描对象(二维码/条形码)进行扫描，得到条形码的图像信息。

所述电子设备1300中可以通过所述RF电路1420、Wi-Fi模块1430、通信接口1440的通信模块，接收其他设备发送的图像。

所述RF电路1420可用于通信过程中，数据的接收和发送。特别地，所述RF电路1420在接收到基站的下行数据后，发送给所述处理器1480处理；另外，将待发送的上行数据发送给基站。通常，所述RF电路1420包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier，LNA)、双工器等。

此外，RF电路1420还可以通过无线通信与网络和其他电子设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System ofMobile communication，GSM)、通用分组无线服务(General Packet Radio Service，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband CodeDivision Multiple Access，WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

Wi-Fi技术属于短距离无线传输技术，所述电子设备1300通过Wi-Fi模块1430可以连接接入点(Access Point，AP)，从而实现数据网络的访问。所述Wi-Fi模块1430可用于通信过程中，数据的接收和发送。

所述电子设备1300可以通过所述通信接口1440与其他电子设备实现物理连接。可选的，所述通信接口1440与所述其他电子设备的通信接口通过电缆连接，实现所述电子设备1300和其他电子设备之间的数据传输。

由于在本申请实施例中，所述电子设备1300能够实现通信业务，向其他联系人发送信息，因此所述电子设备1300需要具有数据传输功能，即所述电子设备1300内部需要包含通信模块。虽然图14示出了所述RF电路1420、所述Wi-Fi模块1430、和所述通信接口1440等通信模块，但是可以理解的是，所述电子设备1300中存在上述部件中的至少一个或者其他用于实现通信的通信模块(如蓝牙模块)，以进行数据传输。

例如，当所述电子设备1300为手机时，所述电子设备1300可以包含所述RF电路1420，还可以包含所述Wi-Fi模块1430；当所述电子设备1300为计算机时，所述电子设备1300可以包含所述通信接口1440，还可以包含所述Wi-Fi模块1430；当所述电子设备1300为平板电脑时，所述电子设备1300可以包含所述Wi-Fi模块。

所述输入单元1450可用于接收用户输入的数字或字符信息，以及产生与所述电子设备1300的用户设置以及功能控制有关的键信号输入。例如，用户可以通过输入单元1450输入图像中字符区域的占比。

可选的，输入单元1450可包括触控面板1451以及其他输入终端1452。

其中，所述触控面板1451，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在所述触控面板1451上或在所述触控面板1451附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，所述触控面板1451可以包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给所述处理器1430，并能接收所述处理器1430发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现所述触控面板1451。

可选的，所述其他输入终端1452可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

所述显示单元1460可用于显示由用户输入的信息或提供给用户的信息以及所述电子设备1300的各种菜单。所述显示单元1460即为所述电子设备1300的显示系统，用于呈现界面，实现人机交互。例如，显示单元1460可以显示通过字符识别出来的字符。

所述显示单元1460可以包括显示面板1461。可选的，所述显示面板1461可以采用液晶显示屏(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-EmittingDiode，OLED)等形式来配置。

进一步的，所述触控面板1451可覆盖所述显示面板1461，当所述触控面板1451检测到在其上或附近的触摸操作后，传送给所述处理器1480以确定触摸事件的类型，随后所述处理器1480根据触摸事件的类型在所述显示面板1461上提供相应的视觉输出。

虽然在图14中，所述触控面板1451与所述显示面板1461是作为两个独立的部件来实现所述电子设备1300的输入和输入功能，但是在某些实施例中，可以将所述触控面板1451与所述显示面板1461集成而实现所述电子设备1300的输入和输出功能。

所述存储器1490可用于存储软件程序以及模块。所述处理器1480通过运行存储在所述存储器1490的软件程序以及模块，从而执行所述电子设备1300的各种功能应用以及数据处理，其中，存储器1490包括图13中的存储器1310的功能。

可选的，所述存储器1490可以主要包括存储程序区和存储数据区。其中，存储程序区可存储操作系统、各种应用程序(比如通信应用)以及人脸识别模块等；存储数据区可存储根据所述电子设备的使用所创建的数据(比如各种图片、视频文件等多媒体文件，以及人脸信息模板)等。

此外，所述存储器1490可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述处理器1480是所述电子设备1300的控制中心，利用各种接口和线路连接各个部件，通过运行或执行存储在所述存储器1490内的软件程序和/或模块，以及调用存储在所述存储器1490内的数据，执行所述电子设备1300的各种功能和处理数据，从而实现基于所述电子设备的多种业务。其中，处理器1480包括图13中的处理器1320的功能。

可选的，所述处理器1480可包括一个或多个处理单元。可选的，所述处理器1480可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到所述处理器1470中。

所述电子设备1300还包括用于给各个部件供电的电源1470(比如电池)。可选的，所述电源1470可以通过电源管理系统与所述处理器1480逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗等功能。

本发明实施例还提供一种计算机程序产品，当所述计算机程序产品在电子设备上运行时，使得所述电子设备执行实现本发明实施例上述任意一项字符识别方法。

本领域技术人员在考虑说明书及实践这里发明的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种字符识别方法，其特征在于，包括：

确定包含字符的第一图像中字符区域的占比；

2.根据权利要求1所述的字符识别方法，其特征在于，根据所述多个第二图像，进行字符识别，包括：

3.根据权利要求2所述的字符识别方法，其特征在于，从多个第二图像中识别出包含字符的第二图像并标出识别到的第二图像中的字符区域，确定包含字符的第二图像中字符的版式类型，包括：

4.根据权利要求2所述的字符识别方法，其特征在于，从多个第二图像中识别出包含字符的第二图像，并确定包含字符的第二图像中的字符区域和字符的版式类型，包括：

其中，版式分类神经网络的训练过程，包括：

5.根据权利要求2所述的字符识别方法，其特征在于，标出识别到的第二图像中的字符区域之后，根据字符的版式类型，对包含字符的第二图像中的字符区域的字符进行字符识别之前，所述方法还包括：

6.根据权利要求2所述的字符识别方法，其特征在于，标出识别到的第二图像中的字符区域之后，根据字符的版式类型，对包含字符的第二图像包含字符中的字符区域进行字符识别之前，所述方法还包括：

7.根据权利要求2～6任一项所述的字符识别方法，其特征在于，根据字符的版式类型，对包含字符的第二图像包含字符中的字符区域进行字符识别，包括：

对多个包含单个字符的区域分别进行字符识别。

8.根据权利要求7所述的字符识别方法，其特征在于，对多个包含单个字符的区域分别进行字符识别，包括：

根据所述综合特征图进行字符识别。

9.根据权利要求2～6任一项所述的字符识别方法，其特征在于，根据字符的版式类型，对包含字符的第二图像包含字符中的字符区域进行字符识别，包括：

其中，目标检测网络的训练过程，包括：

10.根据权利要求1所述的字符识别方法，其特征在于，所述确定包含字符的第一图像中字符区域的占比，包括：

11.根据权利要求10所述的字符识别方法，其特征在于，所述方法还包括：

12.一种电子设备，其特征在于，包括：存储器和处理器：

所述存储器用于存储电子设备运行时所使用的程序代码；

所述处理器用于执行所述程序代码，以实现如权利要求1至权利要求11中任一项所述的字符识别方法。

13.一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至权利要求11中任一项所述的字符识别方法。