CN110533119A

CN110533119A - 标识识别方法及其模型的训练方法、装置及电子系统

Info

Publication number: CN110533119A
Application number: CN201910836667.8A
Authority: CN
Inventors: 张沁仪; 邵帅
Original assignee: Beijing Maigewei Technology Co Ltd
Current assignee: Beijing Maigewei Technology Co Ltd
Priority date: 2019-09-04
Filing date: 2019-09-04
Publication date: 2019-12-03
Anticipated expiration: 2039-09-04
Also published as: CN110533119B

Abstract

本发明提供了一种标识识别方法及其模型的训练方法、装置及电子系统，在获取包含有标识的待识别图片后，通过预设的特征提取网络，提取该待识别图片的多层级初始特征图，并对多层级初始特征图中的指定层级的初始特征图进行特征融合处理，从而得到融合特征图；再提取融合特征图的全局特征；最终根据融合特征图和全局特征，识别待识别图片中的标识。本发明考虑了待识别图片的深层、浅层等多层次的特征，并加入图片的全局信息进行标识识别，从而提高了标识识别的准确度。

Description

标识识别方法及其模型的训练方法、装置及电子系统

技术领域

本发明涉及人工智能技术领域，尤其是涉及一种标识识别方法及其模型的训练方法、装置及电子系统。

背景技术

相关技术中，对车牌等标识的识别过程中可以首先对标识的各个字符进行分割，然后分别进行字符识别，从而实现整个标识的识别；或者采用端到端的标识识别方式，即将包括待识别标识的图像输入到训练好的标识识别模型中，由标识识别模型输出标识的识别结果。上述两种标识识别方式在实现过程中，大多采用特征提取网络最终输出的特征识别车牌等标识，由于使用的特征有限，导致标识识别的准确度较低。

发明内容

有鉴于此，本发明的目的在于提供一种标识识别方法及其模型的训练方法、装置及电子系统，以全面地提取待识别标识的多层次特征，进而提高标识识别的准确度。

第一方面，本发明实施例提供了一种标识识别方法，包括：获取包含有标识的待识别图片；通过预设的特征提取网络，提取待识别图片的多层级初始特征图；对多层级初始特征图中的指定层级的初始特征图进行特征融合处理，得到融合特征图；提取融合特征图的全局特征；根据融合特征图和全局特征，识别待识别图片中的标识。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，上述特征提取网络包括多层卷积层；通过预设的特征提取网络，提取待识别图片的多层级初始特征图的步骤，包括：将待识别图片输入至多层卷积层中，通过每层卷积层提取待识别图片的相应层级的初始特征图，得到待识别图片的多层级初始特征图。

结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第二种可能的实施方式，其中，上述指定层级的初始特征图包括：多层卷积层中，从最后一级的卷积层开始的连续指定数量的卷积层输出的初始特征图；最后一级的卷积层用于：输出待识别图片的最高层级的初始特征图。

结合第一方面或第一方面的第二种可能的实施方式，本发明实施例提供了第一方面的第三种可能的实施方式，其中，对多层级初始特征图中的指定层级的初始特征图进行特征融合处理，得到融合特征图的步骤，包括：对多层级初始特征图中的指定层级的初始特征图，进行级联融合处理，得到中间结果；对中间结果进行卷积计算，得到融合特征图。

结合第一方面，本发明实施例提供了第一方面的第四种可能的实施方式，其中，上述全局特征包括融合特征图中，每个通道下的子特征图的平均值。

结合第一方面的第四种可能的实施方式，本发明实施例提供了第一方面的第五种可能的实施方式，其中，上述提取融合特征图的全局特征的步骤，包括：采用预设的平均池化层提取融合特征图中，每个通道下的子特征图的平均值。

结合第一方面，本发明实施例提供了第一方面的第六种可能的实施方式，其中，根据融合特征图和全局特征，识别待识别图片中的标识的步骤包括：针对每个通道，生成当前通道的虚拟特征图；其中，虚拟特征图中的特征值为：融合特征图中，当前通道下的子特征图的平均值；虚拟特征图的尺度与当前通道下的子特征图的尺度相同；将融合特征图中，当前通道的子特征图与当前通道的虚拟特征图中，相应位置上的特征值相加，得到当前通道的最终特征图；根据每个通道的最终特征图，识别待识别图片中的标识。

结合第一方面的第六种可能的实施方式，本发明实施例提供了第一方面的第七种可能的实施方式，其中，根据每个通道的最终特征图，识别待识别图片中的标识的步骤，包括：将每个通道的最终特征图输入至预设的全连接层，得到输出结果；针对每个字符，将输出结果中，与当前字符相关联的数值输入至预设的softmax函数中，输出当前字符对应的概率向量；其中，概率向量包括：当前字符为指定字符的概率；将概率向量中，最大概率对应的指定字符确定为当前字符。

第二方面，本发明实施例还提供一种标识识别模型的训练方法，包括：基于预设的训练集合确定当前训练图片；其中，当前训练图片上标注有标准标识字符；将当前训练图片输入至预设的特征提取网络，输出当前训练图片的多层级初始特征图；对多层级初始特征图中的指定层级的初始特征图进行特征融合处理，得到融合特征图；提取融合特征图的全局特征，根据融合特征图和全局特征，识别待识别图片中的标识，得到识别结果；根据标准标识字符和预设的损失函数，计算识别结果的损失值；继续执行基于预设的训练集合确定当前训练图片的步骤，直至损失值收敛，得到标识识别模型。

第三方面，本发明实施例还提供一种标识识别装置，包括：图片获取模块，用于获取包含有标识的待识别图片；第一特征提取模块，用于通过预设的特征提取网络，提取待识别图片的多层级初始特征图；第一特征融合模块，用于对多层级初始特征图中的指定层级的初始特征图进行特征融合处理，得到融合特征图；第一全局特征提取模块，用于提取融合特征图的全局特征；标识识别模块，用于根据融合特征图和全局特征，识别待识别图片中的标识。

第四方面，本发明实施例还提供一种标识识别模型的训练装置，包括：训练图片确定模块，用于基于预设的训练集合确定当前训练图片；其中，当前训练图片上标注有标准标识字符；第二特征提取模块，用于将当前训练图片输入至预设的特征提取网络，输出当前训练图片的多层级初始特征图；第二特征融合模块，用于对多层级初始特征图中的指定层级的初始特征图进行特征融合处理，得到融合特征图；第二全局特征提取模块，用于提取融合特征图的全局特征，根据融合特征图和全局特征，识别待识别图片中的标识，得到识别结果；损失值计算模块，用于根据标准标识字符和预设的损失函数，计算识别结果的损失值；继续执行基于预设的训练集合确定当前训练图片的步骤，直至损失值收敛，得到标识识别模型。

第五方面，本发明实施例还提供一种电子系统，该电子系统包括：图像采集设备、处理设备和存储装置；图像采集设备，用于获取预览视频帧或图像数据；存储装置上存储有计算机程序，计算机程序在被处理设备运行时执行上述标识识别方法或上述标识识别模型的训练方法。

第六方面，本发明实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理设备运行时执行上述标识识别方法或上述标识识别模型的训练方法。

本发明实施例带来了以下有益效果：

本发明实施例提供了一种标识识别方法及其模型的训练方法、装置及电子系统，在获取包含有标识的待识别图片后，通过预设的特征提取网络，提取该待识别图片的多层级初始特征图，并对多层级初始特征图中的指定层级的初始特征图进行特征融合处理，从而得到融合特征图；再提取融合特征图的全局特征；最终根据融合特征图和全局特征，识别待识别图片中的标识。该标识识别方式中，考虑了待识别图片的深层、浅层等多层次的特征，并加入图片的全局信息进行标识识别，从而提高了标识识别的准确度。

本发明的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本发明的上述技术即可得知。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施方式，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种电子系统的结构示意图；

图2为本发明实施例提供的一种标识识别方法的流程图；

图3为本发明实施例提供的另一种标识识别方法的流程图；

图4为本发明实施例提供的另一种标识识别方法的流程图；

图5为本发明实施例提供的另一种标识识别方法的信号流向图；

图6为本发明实施例提供的一种标识识别模型的训练方法的示意图；

图7为本发明实施例提供的一种标识识别装置的结构示意图；

图8为本发明实施例提供的标识识别模型的训练装置的结构示意图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着科技的发展，标识识别技术在生产生活中得到了广泛的应用。例如，车牌识别(Vehicle License Plate Recognition，VLPR)技术是智能交通系统的一个重要组成部分；该技术综合应用计算机视觉、数字图像处理以及模式识别等技术。

标识识别技术在实现过程中，可以首先对标识(待识别的对象)的各个字符进行分割，然后分别进行字符识别，从而实现整个标识的识别；或者采用端到端的标识识别方式，即将包括待识别标识的图像输入到训练好的标识识别模型中，由标识识别模型输出标识的识别结果。

上述两种标识识别方式在实现过程中，通常采用卷积神经网络(convolutionalneural network，CNN)提取最后一层深层特征，然后根据该特征进行分类及识别。然而对于端到端的标识识别方法来说，当同一图片中，待识别的对象不止一个时，如车牌中包括多个字符，且各个字符处于不同的位置时，上述单一的深层特征无法满足标识识别对位置分辨精度的要求。此外，当待识别的图像不够清晰规整，而是具有倾斜、模糊等特点时，上述深层特征无法考量待识别标识的这些全局性信息，导致标识识别的准确度较低。

基于上述技术问题，本发明实施例提供了一种标识识别方法及其模型的训练方法、装置和电子系统，该技术可以应用于服务器、计算机、相机、手机、平板电脑、车辆中控设备等多种设备中，该技术可采用相应的软件和硬件实现，以下对本发明实施例进行详细介绍。

实施例一：

首先，参照图1来描述用于实现本发明实施例的标识识别方法及其模型的训练方法、装置及电子系统的示例电子系统100。

如图1所示的一种电子系统的结构示意图，电子系统100包括一个或多个处理设备102、一个或多个存储装置104、输入装置106、输出装置108以及一个或多个图像采集设备110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子系统100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子系统也可以具有其他组件和结构。

所述处理设备102可以是网关，也可以为智能终端，或者是包含中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备，可以对所述电子系统100中的其它组件的数据进行处理，还可以控制所述电子系统100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理设备102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理设备实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集设备110可以采集预览视频帧或图片数据，并且将采集到的预览视频帧或图片数据存储在所述存储装置104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的标识识别方法及其模型的训练方法、装置及电子系统的示例电子系统中的各器件可以集成设置，也可以分散设置，诸如将处理设备102、存储装置104、输入装置106和输出装置108集成设置于一体，而将图像采集设备110设置于可以采集到目标图像的指定位置。当上述电子系统中的各器件集成设置时，该电子系统可以被实现为诸如相机、智能手机、平板电脑、计算机、车载终端等智能终端。

实施例二

本实施例提供了一种标识识别方法，该方法由上述电子系统中的处理设备执行；该处理设备可以是具有数据处理能力的任何设备或芯片。该处理设备可以独立对接收到的信息进行处理，也可以与服务器相连，共同对信息进行分析处理，并将处理结果上传至云端。

上述标识可以为车牌、广告牌、路标、交通标志等；如图2所示，该标识识别方法包括如下步骤：

步骤S200，获取包含有标识的待识别图片。

上述待识别图片可以为车载设备或者监控装置采集的视频帧，也可以为其他设备采集的图片。

步骤S202，通过预设的特征提取网络，提取待识别图片的多层级初始特征图。

上述特征提取网络可以为不同形式的神经网络，如全卷积网络，还可以包含池化层、全连接层等；将待识别图片输入至特征提取网络后，可以得到多层级的初始特征图；层级数量与特征提取网络中的卷积层数量相关，具体可根据需求设置。

具体而言，通过一个卷积层对待识别图片进行特征提取后，生成的初始特征图可以称为第一层级的初始特征图，该特征图包含了待识别图片中浅层的特征；通过两个卷积层对待识别图片进行特征提取后，生成的初始特征图可以称为第二层级的初始特征图，该特征图包含了待识别图片中稍为深层的特征；依此类推，通过多个卷积层对待识别图片进行特征提取，得到的初始特征图中包含了待识别图片中较为深层的特征；通常，待识别图片的浅层特征与深层特征包含的信息不同；如在对包含待识别车牌的图片进行识别时，深层特征的感受野比较大，包含较多的车牌字符的语义信息，而浅层特征包含了更多的车牌字符的位置信息，位置精度较高。

步骤S204，对多层级初始特征图中的指定层级的初始特征图进行特征融合处理，得到融合特征图。

上述指定层级通常为多个层级；由于不同层级的初始特征图中包含了待识别图片的不同层次的特征，可以指定某几个层级的初始特征图作为特征融合的基础；对于指定层级的选择可以通过实验确定。例如，当通过特征融合网络得到第一层级、第二层级、第三层级及第四层级的初始特征图时，可以选择将第二层级、第三层及第四层级的初始特征图进行特征融合；其中，第二层级的初始特征图包含的特征为浅层特征，第三层级的初始特征图包含的特征为较深层的特征，而第四层级的初始特征为深层特征。

在实际实现时，如果多个初始特征图的尺度不同，在进行融合之前，可以将较小尺度的初始特征图进行插值运算，以扩展较小尺度的初始特征图，使之与较大尺度的初始特征图相匹配。在融合过程中，不同初始特征图间，相同位置的特征点可以进行相乘、相加或基于其他算法的运算，从而得到最终的融合特征图。

步骤S206，提取融合特征图的全局特征。

上述全局特征表征整个待识别图片的特征，如在拍摄过程中产生的倾斜、模糊或形变等；通常与每个特征点均有一定的关系，其提取过程与预先对全局特征的定义相对应；例如，预先设定各个特征点的特征值的平均值为全局特征时，则提取全局特征的过程为将各个特征点的特征值相加，然后求取平均值，从而得到全区特征。

步骤S208，根据融合特征图和全局特征，识别待识别图片中的标识。

在得到融合特征图和全局特征后，可以先将两个特征融合在一起，得到包含待识别图片的深层特征、浅层特征及全局特征的最终的特征图；再将最终的特征图输入到预先训练好的输出网络中，从而得到待识别图片中的标识。上述输出网络通常包括全连接层及softmax函数等结构。

当待识别的标识不止一个字符时，可以将最终的特征图中的各个字符的特征分离开，分别输入上述输出网络中，得到识别结果。

本发明实施例提供了一种标识识别方法，在获取包含有标识的待识别图片后，通过预设的特征提取网络，提取该待识别图片的多层级初始特征图，并对多层级初始特征图中的指定层级的初始特征图进行特征融合处理，从而得到融合特征图；再提取融合特征图的全局特征；最终根据融合特征图和全局特征，识别待识别图片中的标识。该标识识别方式中，考虑了待识别图片的深层、浅层等多层次的特征，并加入图片的全局信息进行标识识别，从而提高了标识识别的准确度。

实施例三：

本发明实施例还提供了另一种标识识别方法，该方法在上述实施例方法的基础上实现；该方法重点描述当特征提取网络包括多层卷积层时，通过预设的特征提取网络，提取待识别图片的多层级初始特征图的具体实现过程，以及对多层级初始特征图中的指定层级的初始特征图进行特征融合处理，得到融合特征图的具体实现过程，如图3所示，该方法包括如下步骤：

步骤S300，获取包含有标识的待识别图片。

步骤S302，将待识别图片输入至多层卷积层中，通过每层卷积层提取待识别图片的相应层级的初始特征图，得到待识别图片的多层级初始特征图。

具体地，可以将待识别图片首先输入至第一层卷积层中，得到第一层级的初始特征图；再将第一层级的初始特征图输入至第二层卷积层中，得到第二层级的初始特征图；以此类推，即将前一卷积层输出的初始特征图作为当前卷积层的输入，由当前卷积层对其进行卷积运算，输出当前层的初始特征图；从而得到各个层级的初始特征图。

步骤S304，对多层级初始特征图中的指定层级的初始特征图，进行级联融合处理，得到中间结果。

通常，上述指定层级的初始特征图可以包括从最后一级的卷积层开始的连续指定数量的卷积层输出的初始特征图；最后一级的卷积层用于输出待识别图片的最高层级的初始特征图。具体而言，当特征提取网络包括四层卷积层时，可以将第二层卷积层、第三层卷积层及第四层卷积层分别输出的三个初始特征图进行级联融合处理，得到中间结果。

上述级联融合也称为concat融合；在级联融合处理中，直接将特征进行连接；例如，两个输入特征x和y的维数若为p和q，输出特征z的维数为p+q；因此，上述中间结果有混叠效应。

步骤S306，对中间结果进行卷积计算，得到融合特征图。

由于上述中间结果的通道数很大，如果直接将其进行后续处理，会导致运算速度较慢，因此通过卷积层对该中间结果进行卷积计算，以消除混叠效应并使通道数压缩。

步骤S308，提取融合特征图的全局特征。

步骤S310，根据融合特征图和全局特征，识别待识别图片中的标识。

本发明实施例提供的标识识别方法，通过多层卷积层的每层卷积层提取待识别图片的相应层级的初始特征图，得到待识别图片的多层级初始特征图，并对指定层级的初始特征图进行级联融合处理及卷积计算，得到融合特征图；最终根据融合特征图和全局特征，识别待识别图片中的标识；该方式全面地获取了待识别标识的多层次特征及待识别图片的全局特征，并基于这些特征进行标识识别，提高了标识识别的准确度。

实施例四：

本发明实施例还提供了另一种标识识别方法，该方法在上述实施例方法的基础上实现；该方法重点描述根据融合特征图和全局特征，识别待识别图片中的标识的具体实现过程，如图4所示，该方法包括如下步骤：

步骤S400，获取包含有标识的待识别图片。

步骤S402，通过预设的特征提取网络，提取待识别图片的多层级初始特征图。

步骤S404，对多层级初始特征图中的指定层级的初始特征图进行特征融合处理，得到融合特征图。

步骤S406，采用预设的平均池化层提取融合特征图中，每个通道下的子特征图的平均值。

上述融合特征图中，每个通道下的子特征图的平均值可以反映整个待识别图片的特点，如图片模糊等；因此可以作为全局特征。上述待识别图片通常为彩色图片，在处理时，会产生R(red)、G(green)、B(blue)三个通道的子特征图。采用预设的平均池化层对于每个通道的子特征图进行全局平均池化处理(global average pooling)，即计算每一张子特征图的所有像素点的均值，输出一个数据值，即为该子特征图的平均值。

步骤S408，针对每个通道，生成当前通道的虚拟特征图；其中，虚拟特征图中的特征值为：融合特征图中，当前通道下的子特征图的平均值；虚拟特征图的尺度与当前通道下的子特征图的尺度相同。

上述生成虚拟特征图的过程也被称为广播；在得到当前通道下的子特征图的平均值后，可以建立一个虚拟特征图；该虚拟特征图中的每个像素点的像素值均为子特征图的平均值；该虚拟特征图的尺度与当前通道下的子特征图的尺度相同，例如当前通道下的子特征图的尺度为224×224个像素时，该虚拟特征图的尺度也为224×224个像素。

在将融合特征图作为一个整体来看时，融合特征图的尺度可以通过(C,H,W)来表示，其中C为通道数，H和W分别为子特征图的行像素数及列像素数；采用预设的平均池化层提取的融合特征图的全局特征为长度为C的向量，将它进行广播，即将全局特征进行复制，将长度为C的向量扩充为与融合特征图对应的尺度大小为(C,H,W)的虚拟特征图。

步骤S410，将融合特征图中，当前通道的子特征图与当前通道的虚拟特征图中，相应位置上的特征值相加，得到当前通道的最终特征图。

由于当前通道的子特征图与虚拟特征图的尺度相同，则子特征图的每一个像素点均在虚拟特征图上有对应的像素点；上述相应位置可以理解为当子特征图与虚拟特征图重叠时，分属于两张图的像素重叠位置互为两个像素的相应位置。上述最终特征图既包括融合特征，也包括全局特征，接下来可以根据每个通道的最终特征图，识别待识别图片中的标识。

步骤S412，将每个通道的最终特征图输入至预设的全连接层，得到输出结果。

上述全连接层主要从上述最终特征图中提取不同类型的信息；通常，全连接层包含有多个神经元，且该全连接层预设有权重矩阵；该权重矩阵中包含该全连接层各个神经元对应的权重向量；对于每个神经元，该神经元与特征图中的每个特征向量连接，该神经元将特征图中的每个特征向量，与权重向量中对应的权重值相乘，即可得到该神经元对应的预测值；由于全连接层中包含多个神经元，多个神经元对应的预测值组成上述输出结果；当待识别标识为多位字符时，该输出结果通常为大小为类别数×字符位数的一维向量；上述类别数为预设的字符种类数；例如，待识别标识为电话号码时，其字符可能为0-9，则对应的类别数为10。

步骤S414，针对每个字符，将输出结果中，与当前字符相关联的数值输入至预设的softmax函数中，输出当前字符对应的概率向量；其中，概率向量包括：当前字符为指定字符的概率。

上述softmax函数主要用于有限项离散概率分布的梯度对数归一化，将与当前字符相关联的数值输入至预设的softmax函数中，可以输出当前字符为预设的字符的概率值；如预设的字符分别为0-9，则可以输出当前字符分别为0-9的概率值，这10个概率值组成上述概率向量。

当上述输出结果为类别数×字符位数的一维向量时，针对于每个字符进行处理的行为，相当于将该一维向量转换尺寸(reshape)为(字符位数，类别数)的二维向量，然后对二维向量中的各个列向量分别处理，得到由各个字符为预设字符的概率值组成的二维概率向量。

步骤S416，将概率向量中，最大概率对应的指定字符确定为当前字符。

具体而言，针对于每个字符，将其概率向量中最大概率对应的指定字符确定为当前字符；当待识别标识包括多个字符时，依次确认各个字符，最后实现对待识别标识的识别。

本发明实施例提供的标识识别方法，在通过预设的特征提取网络，提取待识别图片的多层级初始特征图，并通过对多层级初始特征图的融合处理，得到融合特征图后，采用预设的平均池化层提取融合特征图中，每个通道下的子特征图的平均值，作为全局特征；并将根据全局特征与融合特征图得到最终的最终特征图，最终基于全连接层及softmax函数实现待识别标识的识别；该方式全面地提取了待识别图片的特征，采用了较为简洁的输出网络实现了待识别标识的识别，提高了标识识别的准确度，并提升了标识识别的效率。

实施例五：

本发明实施例还提供了另一种标识识别方法，该方法在上述实施例方法的基础上实现。相关技术中，标识识别方式在实现过程中，大多采用特征提取网络最终输出的特征识别车牌等标识，由于使用的特征有限，导致标识识别的准确度较低。此外，在提取到特征后，通常采用双向长短期记忆网络(Bidirectional Long Short-Term Memory，BLSTM)和基于神经网络的时序类分类损失(Connectionist temporal classification loss，CTC loss)进行标识中的字符的识别，但是这种方法网络结构复杂，训练和测试都比较慢。

在该方法中，采用分类网络进行车牌等标识的识别；该分类网络由负责提取特征的骨干网络和负责分类的业务层组成。

在特征提取过程中，该方法通过骨干网络中提取浅层特征及深层特征，并进行浅层特征和深层特征的融合，将融合后的特征送入业务层。相关技术中通常采用骨干网络的最后一层特征送入业务层，可以满足特征分辨力强、鲁棒性强的需求；但由于待识别标识中可能包括多个字符，各个字符处于不同的位置，需要特征具有较高的位置分辨精度；而深层特征包含比较多的语义信息，感受野比较大，位置精度不足，不能很好地分辨出各个字符的信息。而本发明实施例提供的方法除了提取深层特征外，还提取了浅层特征，并将二者进行了融合，在进行标识识别的过程中，提供了精度较高的位置信息，从而提高了标识识别的准确度。

此外，也可以在融合后的特征中加入全局信息。待识别标识所在的图片通常整体具有统一的风格，比如倾斜、模糊等，通过全局信息将该风格作为特征输入至业务层，有利于标识识别；具体地，可以对融合后的特征进行全局平均池化操作，得到全局特征，将这个全局特征再与原来的特征融合，得到最终的融合特征；基于最终的融合特征进行标识识别，则准确度更高。

在分类过程中，基于常用的分类网络业务层，针对于待识别标识包含的字符个数对业务层的结构进行了改进。常用的分类网络的业务层通常为全连接层，全连接层的神经元个数为节点数，比如分类为C种时，则全连接层节点个数为C，神经元的个数也为C。

然而，当待识别标识包含多个字符时，例如对于车牌来说，车牌的位数有b位，每一位都要进行分类，因此不能按照一般分类网络的逻辑进行分类。假如每一位都有C种可能的字符，则将融合后的特征送入全连接层后，通过全连接层输出b×C大小的向量，然后再将该一维向量转换尺寸为(b,C)的二维向量；然后通过softmax函数对每个(1,C)尺寸的向量做激活处理，从而得到最后的分类结果。这样业务层的模型结构非常的简单明了，易训练；通常在模型训练过程中，可以采用交叉熵损失函数进行训练。

采用该方法的进行标识识别的信号流向图如图5所示，首先将包括待识别标识的待识别图片输入至该方法所使用的标识识别网络中，采用第一卷积层对输入图片进行卷积处理得到第一特征图；通过第二卷积层对第一特征图进行处理，得到第二特征图；通过第三卷积层对第二特征图进行卷积处理，得到第三特征图；通过第四卷积层对第三特征图进行卷积处理，得到第四特征图；然后取后三个阶段结果，即第一特征图、第二特征图及第三特征图，将它们进行级联融合及卷积处理，得到中间结果；由于级联融合后特征有混叠效应，导致通道数很大，直接输到后面的全连接层会很影响速度。因此采用第五卷积层对级联融合后的中间结果进行了处理，得到融合特征图，消除混叠效应并使通道数压缩。

通过池化层对融合特征图进行全局平均池化操作得到全局特征后，将全局特征进行广播处理，具体而言，如(C,H,W)大小的融合特征图的全局特征为长度为C的向量，复制每个通道的值扩充尺寸，生成大小为(C,H,W)的基于全局特征的全局特征图，再将全局特征图与原(C,H,W)大小的融合特征图相加，即得到加入全局信息的特征图，可称为全局融合特征图；然后将这个全局融合特征图输入至后面的业务层。

通过预设的全连接层对全局融合特征图的特征进行全连接操作，得到大小为类别数×字符位数的一维向量，对该一维向量进行转换尺寸(reshape)处理，得到大小为(字符位数，类别数)的二维向量，对二维向量中每一位字符的相关数据进行softmax激活，得到每一位字符的类别概率分布；将每一位字符的概率最大的类别作为识别出的字符，从而得到待识别标识。

本发明实施例提供的一种标识识别方法，优化了识别特征提取方法，加入特征融合和全局特征，使得整体识别效果更好，同时也优化识别网络整体算法和结构，使简单快速易训练。

实施例六：

本发明实施例还提供了一种标识识别模型的训练方法，该方法由上述电子系统中的处理设备执行；该处理设备可以是具有数据处理能力的任何设备或芯片。该处理设备可以独立对接收到的信息进行处理，也可以与服务器相连，共同对信息进行分析处理，并将处理结果上传至云端。

上述标识可以为车牌、广告牌、路标、交通标志等；如图6所示，该标识识别方法包括如下步骤：

步骤S600，基于预设的训练集合确定当前训练图片；其中，当前训练图片上标注有标准标识字符。

该训练集合中可以包含有多个包含标识的图片，其中，图片中的标识属于待识别标识类别；如待识别标识类别为车牌时，训练集合中的每张图片中都应包括车牌的图像，该图像可以为不同的车牌。该图像可以为车载设备或者监控装置采集的视频帧，也可以为其他设备采集的图片。每张图片中，标识的各个字符应已经确定，即上述标准标识字符。理论上，在对模型训练过程中采用的图片越多，模型的训练效果越好。

步骤S602，将当前训练图片输入至预设的特征提取网络，输出当前训练图片的多层级初始特征图。

步骤S604，对多层级初始特征图中的指定层级的初始特征图进行特征融合处理，得到融合特征图。

步骤S606，提取融合特征图的全局特征，根据融合特征图和全局特征，识别当前训练图片中的标识，得到识别结果。

步骤S608，根据标准标识字符和预设的损失函数，计算识别结果的损失值；继续执行基于预设的训练集合确定当前训练图片的步骤，直至损失值收敛，得到标识识别模型。

如上文所述，当前训练图片上标注有标准标识字符，损失函数可以比较当识别结果与标准标识字符的之间的区别。通常区别越大，上述损失值越大。基于该损失值可以调整标识识别过程中各个网络结构的参数，以达到训练的目的。当损失值收敛时，训练结束，得到标识识别模型。

本发明实施例提供了一种标识识别模型的训练方法，基于预设的训练集合确定当前训练图片后，将当前训练图片输入至预设的特征提取网络，输出当前训练图片的多层级初始特征图，并对多层级初始特征图中的指定层级的初始特征图进行特征融合处理，得到融合特征图；然后提取融合特征图的全局特征，根据融合特征图和全局特征，识别当前训练图片中的标识，得到识别结果；根据标准标识字符和预设的损失函数，计算识别结果的损失值；在损失值收敛之前，继续执行基于预设的训练集合确定当前训练图片的步骤，直至损失值收敛，得到标识识别模型。该方式中，训练得到的模型可以根据待识别图片的深层、浅层等多层次的特征及图片的全局信息进行标识识别，从而提高了标识识别的准确度。

实施例七：

对应于上述标识识别方法实施例，本发明实施例提供了一种标识识别装置，如图7所示，该装置包括：

图片获取模块700，用于获取包含有标识的待识别图片；

第一特征提取模块702，用于通过预设的特征提取网络，提取待识别图片的多层级初始特征图；

第一特征融合模块704，用于对多层级初始特征图中的指定层级的初始特征图进行特征融合处理，得到融合特征图；

第一全局特征提取模块706，用于提取融合特征图的全局特征；

标识识别模块708，用于根据融合特征图和全局特征，识别待识别图片中的标识。

上述标识识别装置，在获取包含有标识的待识别图片后，通过预设的特征提取网络，提取该待识别图片的多层级初始特征图，并对多层级初始特征图中的指定层级的初始特征图进行特征融合处理，从而得到融合特征图；再提取融合特征图的全局特征；最终根据融合特征图和全局特征，识别待识别图片中的标识。该方式中，考虑了待识别图片的深层、浅层等多层次的特征，并加入图片的全局信息进行标识识别，从而提高了标识识别的准确度。

当上述特征提取网络包括多层卷积层时，上述第一特征提取模块还用于：将所述待识别图片输入至所述多层卷积层中，通过每层所述卷积层提取所述待识别图片的相应层级的初始特征图，得到所述待识别图片的多层级初始特征图。

进一步地，上述指定层级的初始特征图包括：所述多层卷积层中，从最后一级的卷积层开始的连续指定数量的卷积层输出的初始特征图；最后一级的卷积层用于：输出所述待识别图片的最高层级的初始特征图。

进一步地，上述第一特征融合模块还用于：对所述多层级初始特征图中的指定层级的初始特征图，进行级联融合处理，得到中间结果；对所述中间结果进行卷积计算，得到融合特征图。

当上述全局特征包括所述融合特征图中，每个通道下的子特征图的平均值时，上述第一全局特征提取模块还用于：采用预设的平均池化层提取所述融合特征图中，每个通道下的子特征图的平均值。

具体地，上述标识识别模块还用于：针对每个通道，生成当前通道的虚拟特征图；其中，所述虚拟特征图中的特征值为：所述融合特征图中，所述当前通道下的子特征图的平均值；所述虚拟特征图的尺度与所述当前通道下的子特征图的尺度相同；将所述融合特征图中，当前通道的子特征图与所述当前通道的虚拟特征图中，相应位置上的特征值相加，得到所述当前通道的最终特征图；根据每个通道的最终特征图，识别所述待识别图片中的标识。

进一步地，上述标识识别模块还用于：将所述每个通道的最终特征图输入至预设的全连接层，得到输出结果；针对每个字符，将所述输出结果中，与当前字符相关联的数值输入至预设的softmax函数中，输出所述当前字符对应的概率向量；其中，所述概率向量包括：所述当前字符为指定字符的概率；将所述概率向量中，最大概率对应的指定字符确定为所述当前字符。

本发明实施例提供的标识识别装置，与上述实施例提供的标识识别方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

实施例八：

对应于上述标识识别模型的训练方法实施例，本发明实施例提供了一种标识识别模型的训练装置，如图8所示，该装置包括：

训练图片确定模块800，用于基于预设的训练集合确定当前训练图片；其中，当前训练图片上标注有标准标识字符；

第二特征提取模块802，用于将当前训练图片输入至预设的特征提取网络，输出当前训练图片的多层级初始特征图；

第二特征融合模块804，用于对多层级初始特征图中的指定层级的初始特征图进行特征融合处理，得到融合特征图；

第二全局特征提取模块806，用于提取融合特征图的全局特征，根据融合特征图和全局特征，识别当前训练图片中的标识，得到识别结果；

损失值计算模块808，用于根据标准标识字符和预设的损失函数，计算识别结果的损失值；继续执行基于预设的训练集合确定当前训练图片的步骤，直至损失值收敛，得到标识识别模型。

本发明实施例提供的标识识别模型的训练装置，与上述实施例提供的标识识别模型的训练方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

实施例九：

本发明实施例提供了一种电子系统，该电子系统包括：图像采集设备、处理设备和存储装置；图像采集设备，用于获取预览视频帧或图像数据；存储装置上存储有计算机程序，计算机程序在被处理设备运行时执行如上述标识识别方法或标识识别模型的训练方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的电子系统的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

进一步，本实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理设备运行时执行如上述标识识别方法或标识识别模型的训练方法的步骤。

本发明实施例所提供的一种标识识别方法及其模型的训练方法、装置和电子系统的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种标识识别方法，其特征在于，包括：

获取包含有标识的待识别图片；

通过预设的特征提取网络，提取所述待识别图片的多层级初始特征图；

对所述多层级初始特征图中的指定层级的初始特征图进行特征融合处理，得到融合特征图；

提取所述融合特征图的全局特征；

根据所述融合特征图和所述全局特征，识别所述待识别图片中的标识。

2.根据权利要求1所述的方法，其特征在于，所述特征提取网络包括多层卷积层；

所述通过预设的特征提取网络，提取所述待识别图片的多层级初始特征图的步骤，包括：将所述待识别图片输入至所述多层卷积层中，通过每层所述卷积层提取所述待识别图片的相应层级的初始特征图，得到所述待识别图片的多层级初始特征图。

3.根据权利要求2所述的方法，其特征在于，所述指定层级的初始特征图包括：所述多层卷积层中，从最后一级的卷积层开始的连续指定数量的卷积层输出的初始特征图；所述最后一级的卷积层用于：输出所述待识别图片的最高层级的初始特征图。

4.根据权利要求1或3所述的方法，其特征在于，对所述多层级初始特征图中的指定层级的初始特征图进行特征融合处理，得到融合特征图的步骤，包括：

对所述多层级初始特征图中的指定层级的初始特征图，进行级联融合处理，得到中间结果；

对所述中间结果进行卷积计算，得到融合特征图。

5.根据权利要求1所述的方法，其特征在于，所述全局特征包括所述融合特征图中，每个通道下的子特征图的平均值。

6.根据权利要求5所述的方法，其特征在于，所述提取所述融合特征图的全局特征的步骤，包括：采用预设的平均池化层提取所述融合特征图中，每个通道下的子特征图的平均值。

7.根据权利要求5所述的方法，其特征在于，根据所述融合特征图和所述全局特征，识别所述待识别图片中的标识的步骤包括：

针对每个通道，生成当前通道的虚拟特征图；其中，所述虚拟特征图中的特征值为：所述融合特征图中，所述当前通道下的子特征图的平均值；所述虚拟特征图的尺度与所述当前通道下的子特征图的尺度相同；

将所述融合特征图中，当前通道的子特征图与所述当前通道的虚拟特征图中，相应位置上的特征值相加，得到所述当前通道的最终特征图；

根据每个通道的最终特征图，识别所述待识别图片中的标识。

8.根据权利要求7所述的方法，其特征在于，根据每个通道的最终特征图，识别所述待识别图片中的标识的步骤，包括：

将所述每个通道的最终特征图输入至预设的全连接层，得到输出结果；

针对每个字符，将所述输出结果中，与当前字符相关联的数值输入至预设的softmax函数中，输出所述当前字符对应的概率向量；其中，所述概率向量包括：所述当前字符为指定字符的概率；

将所述概率向量中，最大概率对应的指定字符确定为所述当前字符。

9.一种标识识别模型的训练方法，其特征在于，包括：

基于预设的训练集合确定当前训练图片；其中，所述当前训练图片上标注有标准标识字符；

将所述当前训练图片输入至预设的特征提取网络，输出所述当前训练图片的多层级初始特征图；

提取所述融合特征图的全局特征，根据所述融合特征图和所述全局特征，识别所述当前训练图片中的标识，得到识别结果；

根据所述标准标识字符和预设的损失函数，计算所述识别结果的损失值；

继续执行基于预设的训练集合确定当前训练图片的步骤，直至所述损失值收敛，得到标识识别模型。

10.一种标识识别装置，其特征在于，包括：

图片获取模块，用于获取包含有标识的待识别图片；

第一特征提取模块，用于通过预设的特征提取网络，提取所述待识别图片的多层级初始特征图；

第一特征融合模块，用于对所述多层级初始特征图中的指定层级的初始特征图进行特征融合处理，得到融合特征图；

第一全局特征提取模块，用于提取所述融合特征图的全局特征；

标识识别模块，用于根据所述融合特征图和所述全局特征，识别所述待识别图片中的标识。

11.一种标识识别模型的训练装置，其特征在于，包括：

训练图片确定模块，用于基于预设的训练集合确定当前训练图片；其中，所述当前训练图片上标注有标准标识字符；

第二特征提取模块，用于将所述当前训练图片输入至预设的特征提取网络，输出所述当前训练图片的多层级初始特征图；

第二特征融合模块，用于对所述多层级初始特征图中的指定层级的初始特征图进行特征融合处理，得到融合特征图；

第二全局特征提取模块，用于提取所述融合特征图的全局特征，根据所述融合特征图和所述全局特征，识别所述当前训练图片中的标识，得到识别结果；

损失值计算模块，用于根据所述标准标识字符和预设的损失函数，计算所述识别结果的损失值；继续执行基于预设的训练集合确定当前训练图片的步骤，直至所述损失值收敛，得到标识识别模型。

12.一种电子系统，其特征在于，所述电子系统包括：图像采集设备、处理设备和存储装置；

所述图像采集设备，用于获取预览视频帧或图像数据；

所述存储装置上存储有计算机程序，所述计算机程序在被所述处理设备运行时执行如权利要求1至8任一项所述的标识识别方法或权利要求9所述的标识识别模型的训练方法。

13.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理设备运行时执行如权利要求1至8任一项所述的标识识别方法或权利要求9所述的标识识别模型的训练方法的步骤。