CN110443159A

CN110443159A - 数字识别方法、装置、电子设备及存储介质

Info

Publication number: CN110443159A
Application number: CN201910648926.4A
Authority: CN
Inventors: 徐启南
Original assignee: New H3C Big Data Technologies Co Ltd
Current assignee: New H3C Big Data Technologies Co Ltd
Priority date: 2019-07-17
Filing date: 2019-07-17
Publication date: 2019-11-12

Abstract

本公开提供一种数字识别方法、装置、电子设备及存储介质，涉及数字识别技术领域。该方法通过获取待检测图像，并采用预设的单目多目标检测SSD模型，确定待检测图像的目标检测区域，其中，目标检测区域包括多个待识别数字，从而根据预设的字符识别模型识别目标检测区域中的多个待识别数字时，通过预设的字符识别模型中的特征提取层，提取目标检测区域的特征信息，再将所得到的特征信息通过全连接层进行拼接，得到拼接后的特征信息，从而通过每个并行分类器即可识别目标检测区域中的每一位数字，最终识别待检测图像中的多位数字，可以有效提高多数字图像中数字识别的精度。

Description

数字识别方法、装置、电子设备及存储介质

技术领域

本公开涉及数字识别技术领域，特别涉及一种数字识别方法、装置、电子设备及存储介质。

背景技术

随着多数字图像越来越多，数字识别前景也将非常广阔，将数字识别应用于汽车车牌、身份证、商品条码标识等项目，可以促进交通管理、银行系统、商品流通、邮政管理、银行系统等多个领域的发展。

现有的对多数字图像中数字识别的方法，可以基于统计的目标检测方法进行识别，识别过程主要是基于滑动窗口机制选定图像的某一区域为候选区域，然后采用人工提取的方式从候选区域提取一类或多类特征，并使用同一个训练集训练不同的分类器、支持向量机(Support Vector Machine，SVM)等分类算法对对应的候选区域进行分类，判断是否属于待检测的目标；对所有包含目标的候选区域进行合并、作图，绘制出检测目标轮廓框，进而对目标轮廓内的数字进行识别。

但现有的数字识别方法由于图像的特征属性多依靠人工设计，检测对象也相对比较局限，主要以人脸、车牌为主，因此，直接将上述目标检测方法直接应用于多数字图像的数字识别中，存在检测效果不佳，识别精度不高的问题。

发明内容

本公开的目的在于，针对上述现有技术中的不足，提供一种数字识别方法、装置、电子设备及存储介质，以解决现有多数字图像中数字识别精度低的技术问题。

为实现上述目的，本公开实施例采用的技术方案如下：

第一方面，本公开实施例提供了一种数字识别方法，该方法包括：

获取待检测图像，其中，待检测图像包括多个待识别数字；采用预设的单目多目标检测SSD模型，确定待检测图像的目标检测区域，其中，目标检测区域包括多个待识别数字；根据预设的字符识别模型识别目标检测区域中的多个待识别数字，其中，预设的字符识别模型包括特征提取层、全连接层以及与多个待识别数字分别对应的并行分类器。

第二方面，本公开实施例提供了一种数字识别装置，该装置包括：第一获取模块、确定模块及识别模块。

第一获取模块，用于获取待检测图像，其中，待检测图像包括多个待识别数字；确定模块，用于采用预设的单目多目标检测SSD模型，确定待检测图像的目标检测区域，其中，目标检测区域包括多个待识别数字；识别模块，用于根据预设的字符识别模型识别目标检测区域中的多个待识别数字，其中，预设的字符识别模型包括特征提取层、全连接层以及与多个待识别数字分别对应的并行分类器。

第三方面，本公开实施例提供了一种电子设备，包括：处理器、存储介质和总线，存储介质存储有处理器可执行的机器可读指令，当电子设备运行时，处理器与存储介质之间通过总线通信，处理器执行机器可读指令，以执行上述第一方面所述的数字识别方法的步骤。

第四方面，本公开实施例提供了一种存储介质，存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述第一方面所述的数字识别方法的步骤。

本公开的有益效果是：

本公开实施例提供的一种数字识别方法、装置、电子设备及存储介质，该方法通过获取待检测图像，并采用预设的单目多目标检测SSD模型，确定待检测图像的目标检测区域，其中，目标检测区域包括多个待识别数字，从而根据预设的字符识别模型识别目标检测区域中的多个待识别数字时，通过预设的字符识别模型中的特征提取层，提取目标检测区域的特征信息，再将所得到的特征信息通过全连接层进行拼接，得到拼接后的特征信息，从而通过每个并行分类器即可识别目标检测区域中的每一位数字，最终识别待检测图像中的多位数字，可以有效提高多数字图像中数字识别的精度。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本公开实施例提供的一种数字识别方法的流程示意图；

图2为本公开实施例提供的另一种数字识别方法的流程示意图；

图3为本公开实施例提供的一种SSD网络结构的示意图；

图4为本公开实施例提供的又一种数字识别方法的流程示意图；

图5为本公开实施例提供的另一种数字识别方法的流程示意图；

图6为本公开实施例提供的一种数字水表图像的示意图；

图7为本公开实施例提供的又一种数字识别方法的流程示意图；

图8为本公开实施例提供的一种深度学习网络结构的示意图；

图9为本公开实施例提供的又一种数字识别方法的流程示意图；

图10为本公开实施例提供的一种数字识别装置的结构示意图；

图11为本公开实施例提供的另一种数字识别装置的结构示意图；

图12为本公开实施例提供的又一种数字识别装置的结构示意图；

图13为本公开实施例提供的一种电子设备结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

图1为本公开实施例提供的一种数字识别方法的流程示意图。该方法的执行主体可以是运行数字识别方法的终端、服务器等设备，本公开在此不作限制。如图1所示，该方法包括：

S101、获取待检测图像。

其中，待检测图像包括多个待识别数字，即待检测图像可以为多数字图像，即包括多个数字的图像，比如汽车车牌图像、身份证图像、商品条码图像、银行卡图像、数字电表、数字水表类等包括多个数字的图像，当然本公开并不对待检测图像中的数字位数进行限定，可以是6位、8位、18位等，本公开并不对此进行限定。

S102、采用预设的单目多目标检测SSD模型，确定待检测图像的目标检测区域。

其中，目标检测区域包括多个待识别数字。

待检测图像的目标检测区域指的是待检测图像中包括多个待识别数字的图像区域，不同类型的待检测图像的目标检测区域可能不同。比如，对于身份证图像，当检测身份证号，其目标检测区域指的是包括身份证号的图像区域；对于数字水表图像，当检测水表值，其目标检测区域指的是包括水表值的图像区域。本公开采用预设的单目多目标检测(Single ShotmultiboxDetector，SSD)模型即可确定待检测图像的目标检测区域。

S103、根据预设的字符识别模型识别目标检测区域中的多个待识别数字，其中，预设的字符识别模型包括特征提取层、全连接层以及与多个待识别数字分别对应的并行分类器。

由于对于不同类别的待检测图像，其目标检测区域中的待识别数字个数可能不同。比如，待检测图像为身份证图像时，其目标检测区域为身份证号区域，当检测身份证号，由于身份证号为18位，则对应的待识别数字个数为18；而待检测图像为数字水表图像时，当检测水表值，比如水表值由5位数字组成，则对应的待识别数字个数为5，本公开在此并不对目标检测区域中的待识别数字个数进行限定。

预设的字符识别模型用于识别目标检测区域中的待识别数字，包括特征提取层、全连接层以及与多个待识别数字分别对应的并行分类器，其中，并行分类器的个数与待识别数字个数保持一致，即待识别数字个数为N，则对应的预设的字符识别模型中的并行分类器的个数为N。本公开中以待识别数字个数为N进行说明，待检测图像的目标检测区域通过特征提取层提取特征信息，再经全连接层进行特征信息的拼接后，最后通过每个并行分类器即可识别目标检测区域中的每一位数字，N个并行分类器最终即可识别待检测图像中的N位数字。

比如，待检测图像为数字水表图像时，水表值由5位数字组成，需要识别数字水表图像中的水表值时，则对应的待识别数字个数为5，预设的字符识别模型相应地包括5个并行分类器，每一分类器对应识别一位数字，比如，第一分类器识别水表值中的第一位数字，第二分类器识别水表值中的第二位数字，第三分类器识别水表值中的第三位数字，依次类推，可以分别识别得到水表值中的5位数字。

综上所述，本公开所提供的数字识别方法，该方法通过获取待检测图像，并采用预设的单目多目标检测SSD模型，确定待检测图像的目标检测区域，其中，目标检测区域包括多个待识别数字，从而根据预设的字符识别模型识别目标检测区域中的多个待识别数字时，通过预设的字符识别模型中的特征提取层，提取目标检测区域的特征信息，再将所得到的特征信息通过全连接层进行拼接，得到拼接后的特征信息，从而通过每个并行分类器即可识别目标检测区域中的每一位数字，最终识别待检测图像中的多位数字，可以有效提高多数字图像中数字识别的精度。

图2为本公开实施例提供的另一种数字识别方法的流程示意图。图3为本公开实施例提供的一种SSD网络结构的示意图。可选地，如图2所示，采用预设的SSD模型，确定待检测图像的目标检测区域，包括：

S201、采用预设的SSD模型中不同尺寸的区域框，在待检测图像中确定多个待定区域。

其中，预设的SSD模型包括多个卷积层，每一卷积层用于获取待检测图像中不同区域的特征信息，不同尺寸的区域框用于预设的SSD模型中每一卷积层中获取相应尺寸的待定区域，此外，每一卷积层中设定相应数量的区域框，根据每一卷积层中区域框的数量、尺寸，即可在待检测图像中确定待定区域的数量以及每个待定区域的尺寸、位置等。

本公开中以预设的SSD模型基于牛津大学计算机视觉组合构建的16层卷积神经网络VGG16作为基础模型进行说明，如图3所示，预设的SSD模型中，将全连接层全部替换为卷积层，并移除dropout层，增加4层的卷积层，并分别从卷积层conv4-3、conv7、conv8-2、conv9-2、conv10-2、conv11-2的特征图提取特征，每层特征图设置的区域框的数目如下表所示：

表1区域框数量

特征图	conv4-3	conv7	conv8-2	conv9-2	conv10-2	conv11-2
							区域框数量	4	6	6	6	4	4

其中，以conv4-3特征图为例进行说明，表示在conv4-3特征图中采用4个不同尺寸的区域框确定得到该特征图中的待定区域。其他层特征图确定待定区域的过程与此类似，本公开在此不再赘述，进而通过获取每层特征图的待定区域，即可确定待检测图像中的多个待定区域。

对于输入为300*300*3(RGB三位通道)的待检测图像，根据每层特征图设定的区域框数量，即可获得每层特征图中的待定区域，具体获取过程如下：

经conv4-3卷积层得到的待定区域的数量为38*38*4＝5776个待定区域，则根据该计算过程，卷积层conv7、conv8-2、conv9-2、conv10-2及conv11-2得到的待定区域的数量分别为：19*19*6＝2166、10*10*6＝600、5*5*6＝150、3*3*4＝36、1*1*4＝4，则将上述每个卷积层得到的待定区域的数量进行求和，得到：5776+2166+600+150+36+4＝8732个待定区域。

S202、根据预设的SSD模型中的预设算法，在多个待定区域中确定目标区域。

其中，预设的SSD模型中的预设算法用于对所得到的多个待定区域进行筛选，筛选出目标检测区域，使得所得到的目标检测区域包括待检测图像中的目标数字。

可选地，如图3所示，该预设算法可以是非极大值抑制(Non-MaximumSuppression，NMS)，通过NMS可以筛掉冗余的待定区域，保留包括待检测图像中的所有目标数字的图像。其中，采用NMS进行筛选时，可以基于重叠区域面积比例(Intersection overUnion，IoU)值进行筛选，IoU值指的是两个区域重叠面积部分除以两个区域的集合面积部分得到的值，本公开中以IoU值取0.45进行说明，使得可以保留更多的待定区域，避免筛除掉包括待检测图像中的目标数字的待定区域。

比如，本公开中以待检测图像中包括6个待定区域，IoU值取0.45，其中6个待定区域属于目标检测区域的概率从小到大依次为P1、P2、P3、P4、P5及P6，所对应的待定区域依次用A、B、C、D、E及F标识，具体筛选过程为：

步骤一、筛选时，从属于目标检测区域的最大概率P6所对应的待定区域F开始计算，分别判断待定区域A～E与F的IoU值是否大于预设的0.45；假设待定区域A、D与F的IoU值大于0.45，去掉待定区域A、D，保留待定区域F。

步骤二、从剩下的待定区域B、C、E中，选择属于目标检测区域的最大概率所对应的待定区域E，判断待定区域B、C与E的IoU值是否大于预设的0.45；假设待定区域B、C与E的IoU值大于0.45，去掉待定区域B、C，保留待定区域E。

步骤三、按照上述的过程进行重复筛选，找到所有保留的待定区域，并在该待定区域中再依据上述的过程，得到最后保留的一个待定区域，则该待定区域即可作为目标检测区域。

当然，也可以采用预设的SSD模型中的其他预设算法，在多个待定区域中确定目标检测区域，使得所确定的目标检测区域可以包括待检测图像中的目标数字，本公开在此便不再赘述。

S203、根据预设规则，在待检测图像中扩大目标区域的范围，将扩大后的目标区域作为目标检测区域。

预设规则用于在待检测图像中扩大目标检测区域的范围，使得扩大后的目标检测区域可以把待检测图像中的目标数字尽可能的都包含进来，避免目标数字被漏掉，当然，还应考虑把待检测图像中的非目标数字尽可能的筛除掉。该预设规则可以根据目标检测区域的尺寸进行设置，比如，通过获取目标检测区域中长和宽中的最大值，并将该值扩大预设倍数替换原来的值，获取扩大后的目标检测区域。

例如，确定的待检测图像中的目标检测区域为A*B，位置信息为M1，其中，宽度为A、高度为B，A>B，则可以将目标检测区域的宽度值和高度值分别进行扩大，扩大为A1＝1.2*A、B1＝1.2*B，则扩大后的目标检测区域为A1*B1，对应的扩大后的位置信息为M2，根据扩大后的目标检测区域的位置信息、宽度及高度，即可获取扩大后的目标检测区域。

或者，根据目标检测区域的实际情况，可以只将目标检测区域的高度值进行扩大，然后将扩大后的目标检测区域进行一定的移位操作，使得可以把待检测图像中的目标数字尽可能的都包含进来，而又不会将目标检测区域下方的非目标数字选中。比如，可以只将目标检测区域的高度值进行扩大，扩大为B2＝1.5*B，则扩大后的目标检测区域为A*B2，对应的扩大后的位置信息为M3，基于扩大后的位置信息M3，进一步地将目标检测区域向上平移1/4*B的位置，使得不会将目标检测区域下方的非目标数字选中，从而根据扩大后的目标检测区域的位置信息、宽度及高度，即可获取扩大后的目标检测区域。

需要说明的是，根据不同的待检测图像，可以对预设规则的进行相应的调整，以使可以把待检测图像中的目标数字尽可能的都包含进来，非目标数字尽可能的筛除掉，当然，该预设规则也可以是向各个方向扩大一定像素点等，本公开在此不再赘述。

在获取扩大后的目标检测区域中的数字后，可以根据待识别数字个数N、以及预设的字符识别模型识别目标检测区域中的N位数字，使得可以待检测图像中的所有目标数字。

图4为本公开实施例提供的又一种数字识别方法的流程示意图。可选地，如图4所示，根据预设的字符识别模型识别目标检测区域中的多个待识别数字，包括：

S301、采用特征提取层提取目标检测区域的特征信息。

特征提取层用于提取目标检测区域的特征信息，需要说明的是，该特征提取层的层数可以是多层，类型可以是卷积网络也可以是其他，本公开并不对该特征提取层的层数和类型进行限定，特征提取层的数量如何设置，以预设的字符识别模型建立时的具体情况为准。目标检测区域的特征信息，可以包括目标检测区域的像素信息、尺寸信息、位置信息等。其中，通过多层特征提取层识别目标检测区域图像，对应地，可以获取到目标检测区域图像的多层特征图，每层特征图对应可以反映目标检测区域图像的局部特征信息。

S302、采用全连接层对特征信息进行拼接，获取拼接后的全连接矩阵。

由于采用多层特征提取层提取目标检测区域的特征信息时，所获取的每层特征图只是目标检测区域图像的局部特征，因此，需要采用全连接层，对多个特征图中的特征信息进行拼接，并拼接成对应的全连接矩阵，以使可以反映完整的目标检测区域图像。

S303、采用与多个待识别数字分别对应的并行分类器对拼接后的全连接矩阵进行识别处理，分别输出对应的识别结果。

其中，根据拼接后的全连接矩阵、以及与N个待识别数字对应的N个并行分类器，分别识别N个待识别数字时，可以获取每一分类器对应识别每位数字的概率；并确定每一分类器识别概率最大的数字作为对应位上的数字；从而可以依次识别目标检测区域中的N位数字。

图5为本公开实施例提供的另一种数字识别方法的流程示意图。图6为本公开实施例提供的一种数字水表图像的示意图。可选地，如图5所示，上述S201步骤还包括：

S401、获取第一训练样本集，第一训练样本集包括：多个第一样本图像，每个第一样本图像包括已标注的第一检测区域以及按照预设规则对第一检测区域进行扩大后的第二检测区域，已标注的第二检测区域包括第一样本图像中的多个目标数字。

其中，第一训练样本用于训练预设的SSD模型，与第一训练样本对应的第一样本图像可以是汽车车牌图像、身份证图像、商品条码图像、银行卡图像、数字电表、数字水表类等包括多个数字的图像，本公开并不对此进行限定，根据对预设的SSD模型的需求，可以选取对应的第一样本图像进行训练。需要说明的是，训练的SSD模型与要识别的图像类型匹配，例如待检测图像是水表，那么第一样本图像就是水表的图像。

第一训练样本可以基于预设的训练图像集获取，比如，可以随机选取80％的预设的训练图像集作为第一训练样本，比如，预设的训练图像集为1000张图像时，则第一训练样本的数量为800张。当然，根据实际的训练情况，可自行选取相应数量的预设的训练图像集，本公开并不对此数量进行限定。

进一步地，每个第一样本图像包括已标识的检测区域，已标注的检测区域包括第一样本图像中的目标数字，其中，目标数字指的是目标检测区域的待识别数字。

如图6所示，以识别数字水表图像中的水表值为例进行说明，数字水表图像包括由5位数字组成的水表值区域、多个转盘组成的转盘区域以及水表标识区域等，但其中，只有由5位数字组成的水表值区域才可以标注为检测区域，对应地，水表值区域中的5位数字则是目标数字，其他类别第一样本图像的检测区域的标注则与此类似，本公开在此不再赘述。

可选地，每个第一样本图像检测区域的标注可采用预设的标注工具进行标注，使得可以标注出第一样本图像中的目标数字用于SSD模型训练。该预设的标注工具可以是LabelImg图像标定工具，采用LabelImg工具可以对第一样本图像中的检测区域进行标注，通过标注，每个第一样本图像会生成一个可扩展标记语言(Extensible Markup Language，XML)文件，XML文件里面标注检测区域的位置信息、通道数等，可以得到当前第一样本图像的高度值，宽度值以及通道数，以及检测区域对角线上两个点的坐标等使得可以根据检测区域对角线上两个点的坐标，确定对应的矩形检测区域用于训练获取预设的SSD模型。

比如，第一样本图像为数字水表图像时，则每个数字水表图像包括已标注的水表值区域，其他类型的第一样本图像，已标注的检测区域与此类似，本公开在此不再赘述。

S402、采用第一训练样本集，训练获取满足第一预设要求的预设的SSD模型。

基于上述的第一训练样本，可以用于训练获取对应的预设SSD模型。即第一训练样本为数字水表图像时，则对应可以训练获取数字水表图像的SSD模型，第一训练样本为身份证图像时，则对应可以训练获取身份证图像的SSD模型，本公开在此不再赘述。

可选地，采用第一样本图像对SSD模型进行训练时，可以将第一样本图像转换成Tensorflow的标准格式tfrecord文件，使得可以将第一样本图像的图像数据和标签统一存储在二进制文件，能更好的利用内存，并提升训练速度。

此外，需要说明的是，随机选取80％的预设的图像集作为第一训练样本时，对应地，也可以选择20％的预设的图像集作为第一测试样本，用于对所获取的预设的SSD模型的性能进行测试，当然，根据测试的结果和实际的应用场景，也可以对该预设的SSD模型的相关参数进行调节，便于进一步优化。

采用上述步骤即可获取到预设的SSD模型，通过该SSD模型即可确定待检测图像的目标检测区域，即若获取得到的是数字水表图像的SSD模型，则可通过该SSD模型确定待检测水表图像的目标检测区域；若获取得到的是身份证图像的SSD模型，则可通过该SSD模型确定待检测身份证图像的目标检测区域，具体确定方式可依据上述所述，本公开在此不再赘述。

图7为本公开实施例提供的又一种数字识别方法的流程示意图。图8为本公开实施例提供的一种深度学习网络结构的示意图。可选地，多个目标数字为N位数字，如图7所示，该方法还包括：

S501、获取第二训练样本集，第二训练样本集包括：多个第二样本图像，每个第二样本图像为第一样本图像中的第二检测区域的图像，且每一第二样本图像中包括N位已标注的数字。

第二样本图像为第一样本图像中检测区域的图像，且检测区域图像中的数字均已标注，用于训练预设的字符识别模型。比如，第一样本图像为数字水表图像时，则第二样本图像对应的是数字水表图像中水表值区域的图像，且该水表值区域的图像中的每位水表数字均已标注。

当然，第二训练样本可以基于预设的第一样本图像集获取，比如，可以随机选取80％的预设的第一样本图像集作为第二训练样本，比如，预设的第一样本图像集为1000张图像时，则第二训练样本的数量为800张。当然，根据实际的训练情况，可自行设置预设的第一样本图像集的数量，本公开并不对此数量进行限定。

S502、提取每个第二样本图像的特征信息。

根据获取的第二样本图像，即可提取第二样本图像中各像素点的特征信息，具体提取方式可以通过卷积网络去提取，也可以采用其他方式获取，本公开并不对此进行限定。当然，本公开也并不限定卷积网络的层数，根据不同的应用情况，可自行设置。

本公开以9层卷积网络为例，对第二样本图像采用预设的卷积核和步长，提取第二样本图像的特征信息。如图8所示，采用第一预设的卷积核和步长，经conv1层处理后，输出为256*256*48的特征图；对该特征图，采用第二预设的卷积核和步长，经conv2pool层处理后，输出为256*256*64的特征图；依据上述的步骤，经conv3pool层、conv4层、conv5pool层、conv6pool层、conv7pool层、conv8pool层及conv9层这9层卷积网络去提取每层特征图中的特征信息，分别依次输出128*128*64、64*64*192、64*64*192、32*32*192、16*16*192、8*8*192、及4*4*192大小的特征图。

S503、采用全连接层，对特征信息进行拼接，获取拼接后的全连接矩阵。

根据第二训练样本中提取的特征信息，采用全连接层，可以对该特征信息进行拼接，获取拼接后的全连接矩阵，拼接后的全连接矩阵包括上述特征图中的所有特征信息。

其中，由于上述9层卷积网络分别提取的是第二样本图像的局部特征，因此，需要采用全连接层，对所提取的特征信息进行拼接，以使拼接后的全连接矩阵可以反映完整的第二样本图像。如图8所示，依次采用Fc103072和Fc113072全连接层对上述9层卷积网络提取到的特征信息进行拼接，进而获取拼接后的全连接矩阵。

S504、采用拼接后的全连接矩阵分别输入N个并行分类器，训练预设的字符识别模型。

根据拼接后的全连接矩阵，将该全连接矩阵分别输入N个并行分类器，每一分类器中可以通过预设的参数识别目标检测区域中的对应位上的数字。此外，也可对N个并行分类器进行训练，在训练过程中根据训练结果调整N个并行分类器的参数、权重等设置，可以通过获取N个并行分类器识别每位数字的概率，确定所要识别的数字值，使得通过训练N个并行分类器可以提高N个并行分类器识别目标数字的准确率。

本申请在此以N个并行分类器中的第一分类器为例进行说明，即第一分类器可以通过参数，权重等设置，提取全连接矩阵中与第一位数字相关的信息，并识别获取第一位数字，具体地，可以获取第一位数字可能的每个数字对应的概率值等参数，以进一步确定第一位数字，比如，第一分类器识别某一第一样本图像A1的第一位数字为0-9的概率分别为：0.5，0.51，0.6，0.62，0.7，0.74，0.76，0.81，0.92，0.98，即可确定第一样本图像A1中第一位数字的值为9，进一步通过与该第一样本图像A1中所标注的第一位数字进行对比，即可确定是否要调整该第一分类器的参数、权重等，具体地，若第一样本图像A1中所标注的第一位数字为9，则不需要调整该第一分类器的参数、权重等；若不为9，而为其他数值，则需要调整该第一分类器的参数、权重等，进一步对该第一分类器进行训练，以便获取到数字识别正确率较高的第一分类器，其他分类器的训练过程可参见上述所述，本公开在此便不再赘述。

比如：N为3时，目标数字为3位数字，则对应的包括第一分类器、第二分类器及第三分类器，将3位目标数字所对应的全连接矩阵分别输入第一分类器、第二分类器及第三分类器。根据各分类器的参数，权重等设置，第一分类器可以提取全连接矩阵中与第一位数字相关的信息，获取第一位数字可能的每个数字对应的概率值等参数，以进一步确定第一位数字的值；第二分类器可以提取全连接矩阵中与第二位数字相关的信息，获取第二位数字可能的每个数字对应的概率值等参数，以进一步确定第二位数字的值，采用第三分类器确定第三位数字的值的方式与上述相同，本公开在此便不再赘述。

可选地，分类器可以为softmax分类器、SVM分类器等，本公开并不对分类器的类别进行限定，根据实际的使用情况，也可以为其他类型的函数。当然，S504步骤可循环迭代S502步骤、S503步骤，若不满足预设的训练要求时，根据实际的训练情况可迭代训练，本公开在此不作限制。

S505、判断预设的字符识别模型是否满足预设的要求。

S506、若满足，输出预设的字符识别模型。

此外，需要说明的是，本公开在此并不限定上述步骤S502、S503及S504的执行次数，根据实际的训练结果，若该上述任意执行过程的训练结果不满足预设的要求或收敛条件时，可通过调整相应的参数再次执行上述S502、S503及S504的步骤，训练直至预设的字符识别模型满足预设的要求即可，本公开在此便不再赘述。

如图8所示，以5个并行的softmax分类器为例进行说明，对于经Fc113072全连接层拼接后的全连接矩阵采用5个并行的softmax分类器进行处理，可以分别得到第二样本图像中的每位数字。可选地，在获取第二样本图像中的每位数字可以根据每位数字的概率进行判断，从而确定每一分类器识别概率最大的数字作为对应位上的数字。

比如，第二样本图像包括5位数字时，采用5个并行的softmax分类器对拼接后的全连接矩阵进行处理，获取到第一位数字为1的概率最大、第二位数字为2的概率最大、第三位数字为3的概率最大、第四位数字为4的概率最大、第五位数字为5的概率最大，则可以得到该第二样本中的五位数字为12345。

在获取到N个并行分类器后，则进一步地可以获取由卷积网络层、全连接网络层、以及N个并行分类器组成的预设的字符识别模型，所获取的预设的字符识别模型可以用于识别目标检测区域中的数字。

图9为本公开实施例提供的又一种数字识别方法的流程示意图。可选地，如图9所示，上述获取待检测图像，包括：

S601、获取原始图像。

待检测图像可以通过对原始图像进行处理获得，原始图像的获取可以通过图像导入的方式获取，也可以直接通过相机拍摄得到，本公开对此并不限定。

S602、对原始图像进行去噪，获取去噪后的图像。

由于获取的原始图像可能会有模糊、抖动等噪声，因此，有必要对原始图像进行去噪，获取去噪后的图像，使得基于去噪后的图像进行检测时，可以进一步提高图像中数字识别的精度。

可选地，可以使用高斯滤波来消除原始图像中的噪声，高斯滤波通过对整幅原始图像进行加权平均，每一个像素点的值，都由其本身和邻域内的其他像素值经过加权平均后得到，具体操作是：用一个预设模板窗口扫描原始图像中的每一个像素，用模板确定的邻域内像素的加权平均灰度值去替代模板中心原始图像的像素点的值。

S603、对去噪后的图像进行方向矫正，获取待检测图像，待检测图像的方向满足预设要求。

由于原始图像还可能存在图像偏转问题，这将不利于原始图像中目标检测区域的确定，因此，有必要对去噪后的图像进行矫正，矫正使得获取到的待检测图像的方向满足预设要求。其中，该预设要求可以是原始图像需摆正，使得基于摆正后的待检测图像获取目标检测区域时，可以提高获取目标检测区域精度。

可选地，可以基于透视变换的原理，将原始图像投影到一个新的平面，然后获取原始图像的Canny边缘，计算并找到原始图像的四个角点，根据四个角点来做透视变换，将原始图像进行摆正，就可得到矫正后的待检测图像，当然，也可采用其他矫正方式对去噪后的图像进行矫正，本公开对该矫正方式并不进行限定。

图10为本公开实施例提供的一种数字识别装置的结构示意图。对于该装置，其基本原理及产生的技术效果与前述对应的方法实施例相同，为简要描述，本实施例中未提及部分，可参考方法实施例中的相应内容。如图10所示，该装置包括：第一获取模块110、确定模块120及识别模块130；第一获取模块110，用于获取待检测图像，其中，待检测图像包括多个待识别数字；确定模块120，用于采用预设的单目多目标检测SSD模型，确定待检测图像的目标检测区域，其中，目标检测区域包括多个待识别数字；识别模块130，用于根据预设的字符识别模型识别目标检测区域中的多个待识别数字，其中，预设的字符识别模型包括特征提取层、全连接层以及与所述多个待识别数字分别对应的并行分类器。

可选地，确定模块120，具体用于采用预设的SSD模型中不同尺寸的区域框，在待检测图像中确定多个待定区域；根据预设的SSD模型中的预设算法，在多个待定区域中确定目标区域；根据预设规则，在待检测图像中扩大目标区域的范围，将扩大后的目标区域作为目标检测区域。

可选地，识别模块130，具体用于采用特征提取层提取目标检测区域的特征信息；采用全连接层对特征信息进行拼接，获取拼接后的全连接矩阵；采用与多个待识别数字分别对应的并行分类器对拼接后的全连接矩阵进行识别处理，分别输出对应的识别结果。

图11为本公开实施例提供的另一种数字识别装置的结构示意图。可选地，如图11所示，该装置还包括：第一训练模块140和第二获取模块150；第一训练模块140，用于获取第一训练样本集，第一训练样本集包括：多个第一样本图像，每个第一样本图像包括已标注的第一检测区域以及按照预设规则对第一检测区域进行扩大后的第二检测区域，已标注的第二检测区域包括第一样本图像中的多个目标数字；第二获取模块150，用于采用第一训练样本集，训练获取满足第一预设要求的预设的SSD模型。

图12为本公开实施例提供的又一种数字识别装置的结构示意图。可选地，如图12所示，多个目标数字为N位数字，该装置还包括：第二训练模块160、提取模块170、拼接模块180及第三获取模块190。

第二训练模块160，用于获取第二训练样本集，第二训练样本集包括：多个第二样本图像，每个第二样本图像为第一样本图像中的第二检测区域的图像，且每一第二样本图像中包括N位已标注的数字；提取模块170，用于提取每个第二样本图像的特征信息；拼接模块180，用于采用全连接层，对特征信息进行拼接，获取拼接后的全连接矩阵；第三获取模块190，用于采用拼接后的全连接矩阵分别输入N个并行分类器，训练预设的字符识别模型。

可选地，上述第一获取模块110，具体用于获取原始图像；对原始图像进行去噪，获取去噪后的图像；对去噪后的图像进行方向矫正，获取待检测图像，待检测图像的方向满足预设要求。

上述装置用于执行前述实施例提供的方法，其实现原理和技术效果类似，在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(Digital Signal Processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(CentralProcessing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

图13为本公开实施例提供的一种电子设备结构示意图。如图13所示，该电子设备可以包括：处理器510、存储介质520和总线530，存储介质520存储有处理器510可执行的机器可读指令，当电子设备运行时，处理器510与存储介质520之间通过总线530通信，处理器510执行机器可读指令，以执行上述数字识别方法的步骤。具体实现方式和技术效果类似，这里不再赘述。

可选地，本公开还提供一种存储介质，存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述数字识别方法的步骤。具体实现方式和技术效果类似，这里不再赘述。

在本公开所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本公开各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种数字识别方法，其特征在于，所述方法包括：

获取待检测图像，其中，所述待检测图像包括多个待识别数字；

采用预设的单目多目标检测SSD模型，确定所述待检测图像的目标检测区域，其中，所述目标检测区域包括所述多个待识别数字；

根据预设的字符识别模型识别所述目标检测区域中的所述多个待识别数字，其中，所述预设的字符识别模型包括特征提取层、全连接层以及与所述多个待识别数字分别对应的并行分类器。

2.根据权利要求1所述的方法，其特征在于，所述采用预设的单目多目标检测SSD模型，确定所述待检测图像的目标检测区域，包括：

采用所述预设的SSD模型中不同尺寸的区域框，在所述待检测图像中确定多个待定区域；

根据所述预设的SSD模型中的预设算法，在多个所述待定区域中确定目标区域；

根据预设规则，在所述待检测图像中扩大所述目标区域的范围，将扩大后的所述目标区域作为所述目标检测区域。

3.根据权利要求1或2所述的方法，其特征在于，所述根据预设的字符识别模型识别所述目标检测区域中的所述多个待识别数字，包括：

采用所述特征提取层提取所述目标检测区域的特征信息；

采用所述全连接层对所述特征信息进行拼接，获取拼接后的全连接矩阵；

采用与所述多个待识别数字分别对应的并行分类器对所述拼接后的全连接矩阵进行识别处理，分别输出对应的识别结果。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取第一训练样本集，所述第一训练样本集包括：多个第一样本图像，每个所述第一样本图像包括已标注的第一检测区域以及按照所述预设规则对所述第一检测区域进行扩大后的第二检测区域，所述已标注的第二检测区域包括所述第一样本图像中的多个目标数字；

采用所述第一训练样本集，训练获取满足第一预设要求的所述预设的SSD模型。

5.根据权利要求4所述的方法，其特征在于，所述多个目标数字为N位数字，所述方法还包括：

获取第二训练样本集，所述第二训练样本集包括：多个第二样本图像，每个所述第二样本图像为所述第一样本图像中的第二检测区域的图像，且每一所述第二样本图像中包括N位已标注的数字；

提取每个所述第二样本图像的特征信息；

采用所述全连接层，对所述特征信息进行拼接，获取拼接后的全连接矩阵；

采用所述拼接后的全连接矩阵分别输入N个所述并行分类器，训练所述预设的字符识别模型。

6.一种数字识别装置，其特征在于，所述装置包括：第一获取模块、确定模块及识别模块；

所述第一获取模块，用于获取待检测图像，其中，所述待检测图像包括多个待识别数字；

所述确定模块，用于采用预设的单目多目标检测SSD模型，确定所述待检测图像的目标检测区域，其中，所述目标检测区域包括所述多个待识别数字；

所述识别模块，用于根据预设的字符识别模型识别所述目标检测区域中的所述多个待识别数字，其中，所述预设的字符识别模型包括特征提取层、全连接层以及与所述多个待识别数字分别对应的并行分类器。

7.根据权利要求6所述的装置，其特征在于，所述确定模块，具体用于采用所述预设的SSD模型中不同尺寸的区域框，在所述待检测图像中确定多个待定区域；根据所述预设的SSD模型中的预设算法，在多个所述待定区域中确定目标区域；根据预设规则，在所述待检测图像中扩大所述目标区域的范围，将扩大后的所述目标区域作为所述目标检测区域。

8.根据权利要求6或7所述的装置，其特征在于，所述识别模块，具体用于采用所述特征提取层提取所述目标检测区域的特征信息；采用所述全连接层对所述特征信息进行拼接，获取拼接后的全连接矩阵；采用与所述多个待识别数字分别对应的并行分类器对所述拼接后的全连接矩阵进行识别处理，分别输出对应的识别结果。

9.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至5任一所述的数字识别方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至5任一所述的数字识别方法的步骤。