CN110555439A

CN110555439A - 标识识别方法及其模型的训练方法、装置和电子系统

Info

Publication number: CN110555439A
Application number: CN201910834857.6A
Authority: CN
Inventors: 张沁仪; 邵帅
Original assignee: Beijing Maigewei Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Priority date: 2019-09-04
Filing date: 2019-09-04
Publication date: 2019-12-10

Abstract

本发明提供了一种标识识别方法及其模型的训练方法、装置和电子系统；其中，该标识识别方法包括：获取包含有标识的待识别图片；通过预设的特征提取网络，提取待识别图片的特征序列；将特征序列输入至预设的分类网络中，输出每个区域中包含的字符的分类结果；根据字符的分类结果，确定待识别图片中的标识。该方法分类网络中的卷积核包括预设大小的空洞卷积核；由于该空洞卷积核的感受野较大，从而可以包含较多的上下文信息，可以使用更少的卷积核识别较多的上下文信息，相对于BLSTM网络，采用空洞卷积核的方式可以在保证识别准确率的同时，大幅提高识别速度，从而增加了标识识别方式的实用性。

Description

标识识别方法及其模型的训练方法、装置和电子系统

技术领域

本发明涉及字符识别技术领域，尤其是涉及一种标识识别方法及其模型的训练方法、装置和电子系统。

背景技术

相关技术中，大多采用BLSTM(Bidirectional Long Short-Term Memory，双向长短期记忆网络)网络和CTC(Connectionist Temporal Classification，联结主义时间分类)loss(loss function，损失函数)的方式识别车牌等标识上的字符；其中的BLSTM网络需要考虑数据的前后关联性，其网络结构较为复杂，导致识别速度较慢，影响了上述标识识别方式的实用性。

发明内容

本发明的目的在于提供一种标识识别方法及其模型的训练方法、装置和电子系统，在保证标识识别准确率的同时，提高标识识别速度，从而增加标识识别方式的实用性。

第一方面，本发明实施例提供一种标识识别方法，包括：获取包含有标识的待识别图片；通过预设的特征提取网络，提取待识别图片的特征序列；其中，特征序列中包括待识别图片中多个区域对应的特征图；将特征序列输入至预设的分类网络中，输出每个区域中包含的字符的分类结果；分类网络中的卷积核包括预设大小的空洞卷积核；根据字符的分类结果，确定待识别图片中的标识。

在本发明较佳的实施例中，上述标识中的字符为单行字符；区域的高度与待识别图片的高度相同。

在本发明较佳的实施例中，上述分类网络包括至少一层卷积层；至少一层卷积层的卷积核为空洞卷积核；空洞卷积核的高度与特征图的高度相同。

在本发明较佳的实施例中，上述将特征序列输入至预设的分类网络中，输出每个区域中包含的字符的分类结果的步骤，包括：通过空洞卷积核对特征序列进行第一卷积计算，得到计算后的特征序列；计算后的特征序列的高度为一；根据计算后的特征序列，确定每个区域中包含的字符的分类结果。

在本发明较佳的实施例中，上述分类网络包括多层卷积层；根据计算后的特征序列，确定每个区域中包含的字符的分类结果的步骤，包括：通过预设大小的卷积核，对计算后的特征序列进行预设次数的第二卷积计算，得到概率分布序列；概率分布序列中包括每个区域中包含的字符为指定字符的概率；针对每个区域，将当前区域中，最大概率对应的指定字符确定为当前区域包含的字符。

在本发明较佳的实施例中，上述根据字符的分类结果，确定待识别图片中的标识的步骤，包括：按照每个区域在待识别图片中的位置顺序，排列每个区域包含的字符，得到初始识别结果；根据初始识别结果确定待识别图片中的标识。

在本发明较佳的实施例中，上述根据初始识别结果确定待识别图片中的标识的步骤，包括：判断所述初始识别结果中，每两个相邻空格字符之间的字符中，是否包含连续的多个相同字符；如果是，保留所述多个相同字符中的一个字符，得到中间识别结果；从所述中间识别结果中，剔除所述空格字符，得到最终识别结果；将所述最终识别结果确定为所述待识别图片中的标识。

第二方面，本发明实施例还提供一种标识识别模型的训练方法，包括：基于预设的训练集合确定当前训练图片；其中，当前训练图片上标注有标准标识字符；将当前训练图片输入至特征提取网络，输出当前训练图片的特征序列；其中，特征序列中包括当前训练图片中多个区域对应的特征图；将特征序列输入至分类网络中，输出每个区域中包含的字符的分类结果；分类网络中的卷积核包括预设大小的空洞卷积核；根据标准标识字符和预设的损失函数，计算分类结果的损失值；继续执行基于预设的训练集合确定当前训练图片的步骤，直至损失值收敛，得到标识识别模型。

第三方面，本发明实施例还提供一种标识识别装置，包括：图片获取模块，用于获取包含有标识的待识别图片；特征序列提取模块，用于通过预设的特征提取网络，提取待识别图片的特征序列；其中，特征序列中包括待识别图片中多个区域对应的特征图；结果输出模块，用于将特征序列输入至预设的分类网络中，输出每个区域中包含的字符的分类结果；分类网络中的卷积核包括预设大小的空洞卷积核；标识确定模块，用于根据字符的分类结果，确定待识别图片中的标识。

第四方面，本发明实施例还提供一种标识识别模型的训练装置，包括：训练图片确定模块，用于基于预设的训练集合确定当前训练图片；其中，当前训练图片上标注有标准标识字符；特征序列输出模块，用于将当前训练图片输入至特征提取网络，输出当前训练图片的特征序列；其中，特征序列中包括当前训练图片中多个区域对应的特征图；训练结果输出模块，用于将特征序列输入至分类网络中，输出每个区域中包含的字符的分类结果；分类网络中的卷积核包括预设大小的空洞卷积核；损失值计算模块，用于根据标准标识字符和预设的损失函数，计算分类结果的损失值；执行模块，用于继续执行基于预设的训练集合确定当前训练图片的步骤，直至损失值收敛，得到标识识别模型。

第五方面，本发明实施例还提供一种电子系统，电子系统包括：图像采集设备、处理设备和存储装置；图像采集设备，用于获取预览视频帧或图像数据；存储装置上存储有计算机程序，计算机程序在被处理设备运行时执行如上述标识识别方法或上述标识识别模型的训练方法。

第六方面，本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理设备运行时执行如上述标识识别方法或上述标识识别模型的训练方法的步骤。

本发明实施例带来了以下有益效果：

本发明实施例提供了一种标识识别方法及其模型的训练方法、装置和电子系统；通过预设的特征提取网络，提取包含有标识的待识别图片的特征序列，将特征序列输入至包括预设大小的空洞卷积核的分类网络中，由分类网络输出字符的分类结果，根据字符的分类结果确定待识别图片中的标识。该方式中，分类网络中的卷积核包括预设大小的空洞卷积核；由于该空洞卷积核的感受野较大，从而可以包含较多的上下文信息，可以使用更少的卷积核识别较多的上下文信息，相对于BLSTM网络，采用空洞卷积核的方式可以在保证识别准确率的同时，大幅提高识别速度，从而增加了标识识别方式的实用性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种电子系统的结构示意图；

图2为本发明实施例提供的一种标识识别方法的流程图；

图3为本发明实施例提供的另一种标识识别方法的流程图；

图4为本发明实施例提供的一种提取特征序列的示意图；

图5为本发明实施例提供的一种确定待识别图片中的标识的示意图；

图6为本发明实施例提供的一种标识识别方法的流程示意图；

图7为本发明实施例提供的一种标识识别模型的训练方法的流程图；

图8为本发明实施例提供的一种标识识别装置的结构示意图；

图9为本发明实施例提供的一种标识识别模型的训练装置的结构示意图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

考虑到现有的标识识别方式采用的BLSTM网络结构较为复杂，导致识别速度较慢，影响了标识识别方式的实用性的问题，本发明实施例提供了一种标识识别方法及其模型的训练方法、装置和电子系统，该技术可以应用于服务器、计算机、相机、手机、平板电脑、车辆中控设备等多种设备中，该技术可采用相应的软件和硬件实现，以下对本发明实施例进行详细介绍。

实施例一：

首先，参照图1来描述用于实现本发明实施例的标识识别方法及其模型的训练方法、装置和电子系统的示例电子系统100。

如图1所示的一种电子系统的结构示意图，电子系统100包括一个或多个处理设备102、一个或多个存储装置104、输入装置106、输出装置108以及一个或多个图像采集设备110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子系统100的组件和结构只是示例性的，而非限制性的，根据需要，电子系统也可以具有其他组件和结构。

处理设备102可以是网关，也可以为智能终端，或者是包含中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备，可以对电子系统100中的其它组件的数据进行处理，还可以控制电子系统100中的其它组件以执行期望的功能。

存储装置104可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理设备102可以运行程序指令，以实现下文的本发明实施例中(由处理设备实现)的客户端功能以及/或者其它期望的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据，例如应用程序使用和/或产生的各种数据等。

输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

图像采集设备110可以采集预览视频帧或图片数据(如待识别图片或训练图片)，并且将采集到的预览视频帧或图像数据存储在存储装置104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的标识识别方法及其模型的训练方法、装置和电子系统的示例电子系统中的各器件可以集成设置，也可以分散设置，诸如将处理设备102、存储装置104、输入装置106和输出装置108集成设置于一体，而将图像采集设备110设置于可以采集到图片的指定位置。当上述电子系统中的各器件集成设置时，该电子系统可以被实现为诸如相机、智能手机、平板电脑、计算机、车载终端等智能终端。

实施例二：

本实施例提供了一种标识识别方法，该方法由上述电子系统中的处理设备执行；该处理设备可以是具有数据处理能力的任何设备或芯片。该处理设备可以独立对接收到的信息进行处理，也可以与服务器相连，共同对信息进行分析处理，并将处理结果上传至云端。如图2所示，该标识识别方法包括如下步骤：

步骤S202，获取包含有标识的待识别图片。

上述标识可以为车牌、广告牌、路标、交通标志等；标识通常是指待识别图片中需要被识别的部分，一般由数字、字母、汉字等符号组成。待识别图片可以是预先下载或者保存的图片，也可以由照相机、摄像机等图像采集设备直接采集。

步骤S204，通过预设的特征提取网络，提取待识别图片的特征序列；其中，该特征序列中包括待识别图片中多个区域对应的特征图。

上述特征提取网络可以通过CNN(Convolutional Neural Networks，卷积神经网络)、RNN(Recurrent Neural Network，循环神经网络)和DNN(Deep Neural Network，深度神经网络)等网络实现。该特征提取网络需要预先训练，然后将上述待识别图片输入至该特征提取网络中，该特征提取网络即可输出该待识别图片的特征序列。

在实际实现时，上述特征提取网络通过卷积核计算待识别图片中多个区域对应的特征图，多个区域对应的特征图按照预设顺序排列，即可组成上述特征序列；该过程也可以理解为，使用一个预设大小的滑动窗口，将该滑动窗口在待识别图片上进行滑动，在滑动的过程中，计算该滑动窗口内的区域的特征图。另外需要说明的是，多个区域之间可以不重叠，也可以重叠。

步骤S206，将上述特征序列输入至预设的分类网络中，输出每个区域中包含的字符的分类结果；该分类网络中的卷积核包括预设大小的空洞卷积核。

该分类网络也可以通过CNN、RNN和DNN等神经网络实现。该分类网络需要预先训练，然后将上述特征序列输入至该分类网络中，该分类网络基于特征序列进一步提取特征，从而识别出上述每个区域包含哪些字符。在分类网络的识别过程中，通常将输入的特征序列的各个区域中的特征值加权后成为输出的分类结果，加权过程的权值大小通过一个函数确定，这个函数就是卷积核。

上述分类网络中的卷积核包含有预设大小的空洞卷积核。空洞卷积是对普通卷积进行扩张的一种卷积，通过扩张率参数表示扩张的大小。空洞卷积与普通卷积的相同点在于，卷积核的大小是一样的，在神经网络中参数数量不变；空洞卷积与普通卷积的区别在于，空洞卷积具有更大的感受野，该感受野可以理解为卷积核在图像上看到的大小。采用空洞卷积可以花较少的时间识别更多的信息，增加识别的速度。

另外，上述分类网络可以包含多层卷积层，多层卷积层的作用在于将特征序列进行多次卷积，获得更加精确的分类结果。多层卷积层中的空洞卷积核数量不固定，可以每一层都采用空洞卷积核，也可以部分采用空洞卷积核，还可以只有一层空洞卷积核。

步骤S208，根据字符的分类结果，确定待识别图片中的标识。

该分类结果通常包括通过上述多个区域中每个区域可能包括的字符；考虑到区域的划分可能有重叠，也可能特别密集，因而每个区域可能包括的字符之间，可能存在字符重叠、空格等；因而，对字符的分类结果进行进一步处理，如去重、去除空格等，即可得到待识别图片中的标识。

本发明实施例提供的一种标识识别方法，通过预设的特征提取网络，提取包含有标识的待识别图片的特征序列，将特征序列输入至包括预设大小的空洞卷积核的分类网络中，由分类网络输出字符的分类结果，根据字符的分类结果确定待识别图片中的标识。该方式中，分类网络中的卷积核包括预设大小的空洞卷积核；由于该空洞卷积核的感受野较大，从而可以包含较多的上下文信息，可以使用更少的卷积核识别较多的上下文信息，相对于BLSTM网络，采用空洞卷积核的方式可以在保证识别准确率的同时，大幅提高识别速度，从而增加了标识识别方式的实用性。

实施例三：

本实施例提供了另一种标识识别方法，该方法在上述实施例的基础上实现；本实施例重点描述将特征序列输入至预设的分类网络中，输出每个区域中包含的字符的分类结果的具体过程。如图3所示，本实施例中的标识识别方法包括如下步骤：

步骤S302，获取包含有标识的待识别图片。

上文已经提到，标识一般为数字、字母、汉字等符号标识。本实施例中，以标识中的字符为单行字符为单行字符为例，即该标识由一行字符组合而成，该一行字符可以包含一个或多个字符。例如，待识别图片可以是标识为“津MD6579”的车牌，也可以是标识为“前方单行道”的交通标志。

步骤S304，通过预设的特征提取网络，提取待识别图片的特征序列；其中，该特征序列中包括待识别图片中多个区域对应的特征图。

本实施例中，由于标识由单行字符组成，因而上述待识别图片中的多个区域中，设置每个区域的高度与该待识别图片的高度相同。也就是说，上述实施例中的滑动窗口的高度与待识别图片的高度相同。上述提取得到的特征序列的尺度可以表示为(c，h，w)；其中，w为上述多个区域的区域数量；每个区域对应一个c*h大小的特征图。

在实际实现时，如果上述待识别图片的尺度为(3，H，W)，其中，3为通道数，即RGB(Red Green Blue，红绿蓝)三通道；H为待识别图片的高度，W为待识别图片的宽度。如果上述特征提取网络中卷积层的总步长(stride)为4，则该待识别图片对应的特征序列尺度为(C，H/4，W/4)；其中，C为特征序列的通道数，每个通道对应的特征图尺度为H/4*W/4。

举例说明特征序列提取的具体过程，参见图4所示的一种提取特征序列的示意图，待识别图片中包含的标识为车牌，该标识中包含的字符为“津MD6579”；图4中待识别图片中的虚线矩形框为滑动窗口，该滑动窗口的高度与待识别图片相同，因而滑动窗口沿着待识别图片水平滑动。在滑动过程中，每个滑动窗口内的区域计算得到一张特征图，该特征图即图4上方中的立方体，每个立方体代表一个区域的特征图；每个区域均可能包含字符津、M、D、6、5、7、9中的一个或多个字符，或者一个字符的一部分，甚至有的区域不包含任何字符。每个区域包含字符的情况，通常取决于滑动窗口的大小。

步骤S306，通过空洞卷积核对特征序列进行第一卷积计算，得到计算后的特征序列；计算后的特征序列的高度为一。

由上述实施例可知，分类网络用于对特征序列进行卷积计算，本实施例中，该分类网络包括至少一层卷积层；该至少一层卷积层的卷积核为空洞卷积核；空洞卷积核的高度与特征图的高度相同。也就是说，如果分类网络仅包含一层卷积层，则该卷积层的卷积核为空洞卷积核，该空洞卷积核的高度与特征序列(C，H/4，W/4)的高度相同，即为H/4；该空洞卷积核的宽度可以任意调节。经过第一卷积计算后，得到计算后的特征序列，由于空洞卷积核的高度与特征序列的高度相同，因而计算后的特征序列的高度为一，即计算后的特征序列的尺度为(C，1，W/4)。

步骤S308，根据计算后的特征序列，确定每个区域中包含的字符的分类结果。

计算后的特征序列中包含有待识别图片中各个区域可能包括的字符的信息。因而，基于计算后的特征序列，对计算后的特征序列进行进一步的特征提取、卷积计算等处理，可以得到待识别图片中各个区域包含的字符。

在实际实现时，为了使特征序列具有更好的识别能力，在通过洞卷积核对特征序列进行第一卷积计算之后，还可以进行多次卷积，此时，分类网络除了具有空洞卷积核对应的卷积层外，还包含其他卷积层，在通过洞卷积核对特征序列进行第一卷积计算之后，还可以执行下述步骤01和步骤02：

步骤01，通过预设大小的卷积核，对计算后的特征序列进行预设次数的第二卷积计算，得到概率分布序列；该概率分布序列中包括每个区域中包含的字符为指定字符的概率；

由于上述步骤S306中，计算后的特征序列的高度为一，因而这里的预设大小的卷积核的高度通常也为一，宽度可以进行调节；通常，宽度越宽，卷积核感受到的前后文信息越多。例如，该卷积核的大小可以为(1，7)；这里的1是指卷积核的高度为1，即与计算后的特征序列的高度相同；这里的7是指卷积核的宽度为7。

通过上述卷积核，可以对计算后的特征序列进行一次卷积计算，也可以进行多次卷积计算；当进行多次卷积计算时，针对上一次卷积计算输出的结果再次进行卷积计算，预设次数的第二卷积计算结束后，即可得到上述概率分布序列。

该概率分布序列包括每个区域中包含的字符为指定字符的概率。例如：概率分布序列采用向量的形式表示，尺度为(class，1，W/4)。其中，class表示标识可能包含的所有符号的类别数；以标识为车牌为例，车牌可能包含各类数字、字母、汉字等，class即各类数字、字母、汉字的总种类数。上述概率分布序列是个class*W/4大小的二维特征图；由上述实施例可知，W/4为待识别图片中区域的数量，因此，该概率分布序列中包括每个区域中，包含上述各类符号的概率。例如：概率分布序列为(3，1，5)，说明标识可能包含的所有符号的类别数为3，待识别图片中区域的数量为5，该概率分布序列中包含了每个区域中，包含上述3类符合的概率。

上述第二卷积计算的操作相当于在特征序列上进行滑动窗口操作，窗口在竖直方向的感受野覆盖整个图片的高度。通过调整卷积核宽度(上面例子中设为7)，可以调整加入前后文信息的程度。加入前后文信息能够有效提升识别的能力，例如，感知整体图片的倾斜和清晰程度，识别D时如果前后文存在O，那么存在前后文信息时网络能够将其进行对比从而更有效地识别。整个操作得到的是W/4长度的特征序列中每一个区域的分类概率，从而实现了对特征序列的解码过程。

步骤02，针对每个区域，将当前区域中，最大概率对应的指定字符确定为当前区域包含的字符。

根据概率分布序列的向量以及向量对应的值，可以知道每个区域中包含的字符为指定字符的概率，将概率最大的指定字符作为当前区域包含的字符。例如，以概率分布序列为(3，1，5)为例，参见表1所示的一种概率分布序列表：

表1

	区域1	区域2	区域3	区域4	区域5
						符号1	0.7	0.4	0.1	0.3	0.2
符号2	0.2	0.5	0.1	0.6	0.2
						符号3	0.1	0.1	0.8	0.1	0.6

如表1所示，表1说明了(3，1，5)的概率分布序列中每一个区域对应不同符号的概率，即一共五个区域(区域1-5)对应3个符号(符号1-3)的概率。例如，区域1是符号1的概率为0.7，区域1是符号2的概率为0.2，区域1是符号3的概率为0.1，此时，区域1中包含符号1的概率最大，则可以确定该区域1中包含符号1，其他区域以此类推。

步骤S310，根据字符的分类结果，确定待识别图片中的标识。

通过步骤S308可以确定所有区域包含的字符，但是上文提到过，区域是可能重叠的，这样会导致所有区域包含的字符可能重复，也可能有的区域不包含任何字符，这就需要进行进一步的筛选操作；对于区域中的空白部分，也需要剔除。基于此，上述确定所有区域包含的字符可以通过以下步骤11和12执行：

步骤11，按照每个区域在待识别图片中的位置顺序，排列每个区域包含的字符，得到初始识别结果；

由上述实施例可知，待识别图片的多个区域由特征区域网络中的卷积核划分得到，按照卷积核的移动方向，其划分的多个区域也有产生的位置顺序；例如，卷积核从左向右移动时，其划分的区域也是从左到右排列，卷积核从上向下移动时，其划分的区域也是从上到下排列。当然，区域之间可能存在重叠。

举例来说，以待识别图片包含10个区域为例，区域1-10可以以从左到右的位置顺序排列成待识别图片，区域1包括字符津，区域2包括字符M，区域3包括空格，区域4包括空格，区域5包括字符D，区域6包括字符6，区域7包括字符5，区域8包括字符5，区域9包括字符7，区域10包括字符9。根据区域1-10和位置顺序，可以获得从左到右的初始识别结果为“津、M、空格、空格、D、6、5、5、7、9”。初始识别结果中包括空格和相互重复的字符。

步骤12，根据初始识别结果确定待识别图片中的标识。

上述初始识别结果为排序后的字符的集合，但是上述初始识别结果包括的字符依然可能存在重复字符和空格字符的问题，例如：初始识别结果可能是“津MDDD655579”或者“津M D6 579”；“津MDDD655579”中明显存在需要合并的重复字符，而“津MXXD6XXX579”(X表示空格)中存在需要剔除的多余空格字符。这时候就需要将重复的字符合并，将空格剔除，合并重复字符、剔除空格字符后的初始识别结果，就是待识别图片中的标识，可以通过步骤121-步骤123合并重复字符和剔除空格字符：

步骤121，判断上述初始识别结果中，每两个相邻空格字符之间的字符中，是否包含连续的多个相同字符；

步骤122，如果是，保留上述多个相同字符中的一个字符，得到中间识别结果；

需要说明的是，通常只有在初始识别结果中的两个空格字符之间的重复字符，才会进行合并，也就是说，如果重复字符不在两个空格字符之间，则不会合并。例如，如果待识别图片中应该包括的字符为“津MD7777”，如果初始识别结果为“津MDX7X7X7X7(X表示空格)”，每两个空格之间只有1个字符“7”，则四个“7”不会进行合并。此外，因为待识别图片中的不同字符之间一定存在一个空隙，则该空隙一定能被识别为空格字符，所以通常不存在误识别的情况。

对于重复字符合并，只需要对连续的多个相同的字符保留一个即可。参见图5所示的一种确定待识别图片中的标识的示意图，上方的“津MD6579”为待识别图片中应该包括的字符，下方为初始识别结果“津XMXXDDX6X5X777X9(X表示空格)”，首先将初始识别结果中每两个空格之间的多个相同字符保留一个，即“DD”保留一个D，“777”保留一个7。

步骤123，从上述中间识别结果中，剔除空格字符，得到最终识别结果；

对于空格字符，则需要剔除，如图5所示，需要对初始识别结果中的所有空格字符进行剔除。在完成重复字符和剔除空格字符之后得到的识别结果就是最终识别结果。也就是将图5下方的初始识别结果“津XMXXDDX6X5X777X9(X表示空格)”进行重复字符和剔除空格之后，得到“津MD6579”，“津MD6579”就是最终识别结果。

步骤124，将最终识别结果确定为待识别图片中的标识。

如图5所示，将最终识别结果“津MD6579”确定为待识别图片中的标识，可以看出最终识别结果与待识别图片中的标识一致，说明本发明实施例介绍的标识识别方法可以有效地进行标识识别。

为了进一步理解，上述标识识别方法的整体流程可以参见图6所示的一种标识识别方法的流程示意图。输入的待识别图片经过CNN特征提取网络提取特征序列，经过基于空洞卷积的全卷积进行多次卷积计算，得到概率分布序列，根据概率分布序列确定待识别图片中的标识，最后得到“津MD6579”的识别结果。另外，上述标识识别方法中特征提取网络和分类网络中各层的参数设置可以参见表2所示：

表2

如表2所示，encoder是指解码器，也就是特征序列提取对应的模块，相当于上述特征提取网络；CNN是由特征序列转换为概率分布序列对应模块，相当于上述分类网路；每个网络中包含有多层卷积层；卷积层的属性中，kernel表示卷积核的大小，stride表示步长，output_channel表示输出的频道数。

上述方式中，分类网络包括至少一层卷积层，通过卷积层进行卷积计算，通过空洞卷积核对特征序列进行第一卷积计算，之后通过预设大小的卷积核进行预设次数的第二卷积计算，得到概率分布序列，将最大概率对应的指定字符确定为当前区域包含的字符，并且对识别结果进行重复字符合并和空格剔除，以得到最终识别结果。多次进行卷积计算可以有效提升识别的能力，增加表示识别的精准度。

实施例四：

对应于上述标识识别方法，本实施例还提供一种标识识别模型的训练方法，如图7所示，该方法包括如下步骤：

步骤S702，基于预设的训练集合确定当前训练图片；其中，该当前训练图片上标注有标准标识字符。

训练标识识别模型需要预先设置训练集合，训练集合包括：多个当前训练图片和每个当前训练图片对应的标准标识字符。当前训练图片用来输入至标识识别模型，标识识别模型输出的分类结果与标准标识字符进行比对，以调整标识识别模型的参数。

步骤S704，将当前训练图片输入至特征提取网络，输出当前训练图片的特征序列；其中，上述特征序列中包括该当前训练图片中多个区域对应的特征图。

当前训练图片输入至特征提取网络后，特征提取网络输出当前训练图片的特征序列，其中，特征提取网络可以是CNN、RNN或DNN。特征序列对应的区域将当前训练图片进行分割，但是需要说明的是，上述区域可以重叠，也可以不重叠。

步骤S706，将特征序列输入至分类网络中，输出每个区域中包含的字符的分类结果；该分类网络中的卷积核包括预设大小的空洞卷积核。

分类网络将输入的特征序列进行字符分类，输出该神经网络中所有区域包括的字符的分类结果。空洞卷积具有更大的感受野，可以花较少的时间识别更多的信息，增加识别的速度。

步骤S708，根据标准标识字符和预设的损失函数，计算分类结果的损失值。

损失函数是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。损失函数用来表现预测与实际数据的差距程度，也就是分析分类结果和标准标识字符的差距，该差距用损失值表示。其中，损失函数可以是均方误差损失函数、合页损失函数、交叉熵损失函数、CTC loss函数等。

步骤S710，继续执行基于预设的训练集合确定当前训练图片的步骤，直至损失值收敛，得到标识识别模型。

如果步骤S708计算出的损失值不收敛，则选择下一个当前训练图片进行模型的训练，即执行基于预设的训练集合确定当前训练图片的步骤；如果损失值收敛，则停止执行基于预设的训练集合确定当前训练图片的步骤，将该模型输出，作为标识识别模型。损失值收敛，是指对于不同的训练图片，输出的损失值为固定值，或者十分接近某一固定值；例如，对于10个训练图片，损失值均为10，或者在9.8-10.2之间，这两种情况均可以认为损失值已经收敛。

除了损失值收敛之外，还可以将损失值满足预设的损失阈值作为标识识别模型的结束训练条件。这里需要说明的是，损失阈值一般为一个范围，例如，损失阈值可以是0.1-0.5，或者小于30％等。只要损失值在损失阈值的范围内，即可以说明损失值满足预设的损失阈值。

本发明实施例提供的一种标识识别模型的训练方法，采用包括当前训练图片和标准标识字符的训练集合进行标识识别模型的训练，通过特征提取网络提取当前训练图片的特征序列，由分类网络输出上述特征序列对应的分类结果，通过标准标识字符和预设的损失函数计算分类结果的损失值，如果该损失值不收敛则继续训练过程，如果该损失值收敛则停止训练，输出标识识别模型。该方式中，分类网络中的卷积核包括预设大小的空洞卷积核；由于该空洞卷积核的感受野较大，从而可以包含较多的上下文信息，可以使用更少的卷积核识别较多的上下文信息，相对于BLSTM网络，采用空洞卷积核的方式可以在保证识别准确率的同时，大幅提高识别速度，从而增加了标识识别方式的实用性。

进一步地，说明下损失函数包括CTC loss函数的情况，CTC loss函数与传统的损失函数相比，传统的神经网络的训练准则是针对每帧数据，即每帧数据的训练误差最小，而CTC的训练准则是基于序列，这样虽然CTC的求解比较复杂，但是相比于传统方法需要对齐文本，CTC允许神经网络在任意一个时间段进行损失值计算，只要序列顺序正确即可，无需严格对齐文本。也就是说，CTC loss函数的计算方法，无需从头开始计算，可以从任一部分进行计算。

根据标准标识字符和预设的CTC loss函数，计算分类结果的损失值的方法，可以通过以下算式计算损失值：

CTC loss函数可以为：L(S)＝-ln∏_(x,z)∈Sp(z|x)＝-∑_(x,z)∈Slnp(z|x)；

其中，S代表训练集合，L为损失值，p(z|x)代表给定输入的标准标识字符x，输出分类结果z的概率。损失函数可以解释为：给定当前训练图片后输出标准标识字符的概率的乘积，再取负对数就是损失函数了。

上述方式中，说明了根据标准标识字符和预设的CTC loss函数，计算分类结果的损失值的方法，通过CTC loss函数计算损失值无需严格对齐文本，只要序列顺序正确即可，可以减少损失值计算的复杂程度，节约损失值计算的时间。

需要说明的是，上述各方法实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

实施例五：

对应于上述方法实施例，参见图8所示的一种标识识别装置的结构示意图，该装置包括：

图片获取模块81，用于获取包含有标识的待识别图片；

特征序列提取模块82，用于通过预设的特征提取网络，提取待识别图片的特征序列；其中，特征序列中包括待识别图片中多个区域对应的特征图；

结果输出模块83，用于将特征序列输入至预设的分类网络中，输出每个区域中包含的字符的分类结果；分类网络中的卷积核包括预设大小的空洞卷积核；

标识确定模块84，用于根据字符的分类结果，确定待识别图片中的标识。

进一步地，上述标识中的字符为单行字符；上述区域的高度与待识别图片的高度相同。

进一步地，上述分类网络包括至少一层卷积层；至少一层卷积层的卷积核为空洞卷积核；空洞卷积核的高度与特征图的高度相同。

进一步地，上述结果输出模块用于：通过空洞卷积核对特征序列进行第一卷积计算，得到计算后的特征序列；计算后的特征序列的高度为一；根据计算后的特征序列，确定每个区域中包含的字符的分类结果。

进一步地，上述分类网络包括多层卷积层；上述结果输出模块用于：通过预设大小的卷积核，对计算后的特征序列进行预设次数的第二卷积计算，得到概率分布序列；概率分布序列中包括每个区域中包含的字符为指定字符的概率；针对每个区域，将当前区域中，最大概率对应的指定字符确定为当前区域包含的字符。

进一步地，上述标识确定模块用于：按照每个区域在待识别图片中的位置顺序，排列每个区域包含的字符，得到初始识别结果；根据初始识别结果确定待识别图片中的标识。

进一步地，上述标识确定模块用于：判断所述初始识别结果中，每两个相邻空格字符之间的字符中，是否包含连续的多个相同字符；如果是，保留所述多个相同字符中的一个字符，得到中间识别结果；从所述中间识别结果中，剔除所述空格字符，得到最终识别结果；将所述最终识别结果确定为所述待识别图片中的标识。

本发明实施例提供的一种标识识别装置，通过预设的特征提取网络，提取包含有标识的待识别图片的特征序列，将特征序列输入至包括预设大小的空洞卷积核的分类网络中，由分类网络输出字符的分类结果，根据字符的分类结果确定待识别图片中的标识。该方式中，分类网络中的卷积核包括预设大小的空洞卷积核；由于该空洞卷积核的感受野较大，从而可以包含较多的上下文信息，可以使用更少的卷积核识别较多的上下文信息，相对于BLSTM网络，采用空洞卷积核的方式可以在保证识别准确率的同时，大幅提高识别速度，从而增加了标识识别方式的实用性。

参见图9所示的一种标识识别模型的训练装置的结构示意图，该装置包括：

训练图片确定模块91，用于基于预设的训练集合确定当前训练图片；其中，当前训练图片上标注有标准标识字符；

特征序列输出模块92，用于将当前训练图片输入至特征提取网络，输出当前训练图片的特征序列；其中，特征序列中包括当前训练图片中多个区域对应的特征图；

训练结果输出模块93，用于将特征序列输入至分类网络中，输出每个区域中包含的字符的分类结果；分类网络中的卷积核包括预设大小的空洞卷积核；

损失值计算模块94，用于根据标准标识字符和预设的损失函数，计算分类结果的损失值；

执行模块95，用于继续执行基于预设的训练集合确定当前训练图片的步骤，直至损失值收敛，得到标识识别模型。

进一步地，上述损失函数包括CTC loss函数。

本发明实施例提供的一种标识识别模型的训练装置，采用包括当前训练图片和标准标识字符的训练集合进行标识识别模型的训练，通过特征提取网络提取当前训练图片的特征序列，由分类网络输出上述特征序列对应的分类结果，通过标准标识字符和预设的损失函数计算分类结果的损失值，如果该损失值不收敛则继续训练过程，如果该损失值收敛则停止训练，输出标识识别模型。该方式中，分类网络中的卷积核包括预设大小的空洞卷积核；由于该空洞卷积核的感受野较大，从而可以包含较多的上下文信息，可以使用更少的卷积核识别较多的上下文信息，相对于BLSTM网络，采用空洞卷积核的方式可以在保证识别准确率的同时，大幅提高识别速度，从而增加了标识识别方式的实用性。

实施例六：

本发明实施例提供了一种电子系统，该电子系统包括：图像采集设备、处理设备和存储装置；图像采集设备，用于获取预览视频帧或图像数据；存储装置上存储有计算机程序，计算机程序在被处理设备运行时执行如上述标识识别方法，或者上述标识识别方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的电子系统的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理设备运行时执行如上述标识识别方法，或者上标识识别方法的步骤。

本发明实施例所提供的标识识别方法及其模型的训练方法、装置和电子系统的计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行前面方法实施例中的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和/或装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种标识识别方法，其特征在于，包括：

获取包含有标识的待识别图片；

通过预设的特征提取网络，提取所述待识别图片的特征序列；其中，所述特征序列中包括所述待识别图片中多个区域对应的特征图；

将所述特征序列输入至预设的分类网络中，输出每个所述区域中包含的字符的分类结果；所述分类网络中的卷积核包括预设大小的空洞卷积核；

根据所述字符的分类结果，确定所述待识别图片中的标识。

2.根据权利要求1所述的方法，其特征在于，所述标识中的字符为单行字符；所述区域的高度与所述待识别图片的高度相同。

3.根据权利要求1所述的方法，其特征在于，所述分类网络包括至少一层卷积层；所述至少一层卷积层的卷积核为所述空洞卷积核；所述空洞卷积核的高度与所述特征图的高度相同。

4.根据权利要求3所述的方法，其特征在于，将所述特征序列输入至预设的分类网络中，输出每个所述区域中包含的字符的分类结果的步骤，包括：

通过所述空洞卷积核对所述特征序列进行第一卷积计算，得到计算后的特征序列；所述计算后的特征序列的高度为一；

根据计算后的特征序列，确定每个所述区域中包含的字符的分类结果。

5.根据权利要求4所述的方法，其特征在于，所述分类网络包括多层卷积层；

根据计算后的特征序列，确定每个所述区域中包含的字符的分类结果的步骤，包括：

通过预设大小的卷积核，对所述计算后的特征序列进行预设次数的第二卷积计算，得到概率分布序列；所述概率分布序列中包括每个所述区域中包含的字符为指定字符的概率；

针对每个所述区域，将当前区域中，最大概率对应的指定字符确定为所述当前区域包含的字符。

6.根据权利要求1所述的方法，其特征在于，根据所述字符的分类结果，确定所述待识别图片中的标识的步骤，包括：

按照每个所述区域在所述待识别图片中的位置顺序，排列每个所述区域包含的字符，得到初始识别结果；

根据所述初始识别结果确定所述待识别图片中的标识。

7.根据权利要求6所述的方法，其特征在于，根据所述初始识别结果确定所述待识别图片中的标识的步骤，包括：

判断所述初始识别结果中，每两个相邻空格字符之间的字符中，是否包含连续的多个相同字符；

如果是，保留所述多个相同字符中的一个字符，得到中间识别结果；

从所述中间识别结果中，剔除所述空格字符，得到最终识别结果；

将所述最终识别结果确定为所述待识别图片中的标识。

8.一种标识识别模型的训练方法，其特征在于，包括：

基于预设的训练集合确定当前训练图片；其中，所述当前训练图片上标注有标准标识字符；

将所述当前训练图片输入至特征提取网络，输出所述当前训练图片的特征序列；其中，所述特征序列中包括所述当前训练图片中多个区域对应的特征图；

将所述特征序列输入至分类网络中，输出每个所述区域中包含的字符的分类结果；所述分类网络中的卷积核包括预设大小的空洞卷积核；

根据所述标准标识字符和预设的损失函数，计算所述分类结果的损失值；

继续执行基于预设的训练集合确定当前训练图片的步骤，直至所述损失值收敛，得到标识识别模型。

9.一种标识识别装置，其特征在于，包括：

图片获取模块，用于获取包含有标识的待识别图片；

特征序列提取模块，用于通过预设的特征提取网络，提取所述待识别图片的特征序列；其中，所述特征序列中包括所述待识别图片中多个区域对应的特征图；

结果输出模块，用于将所述特征序列输入至预设的分类网络中，输出每个所述区域中包含的字符的分类结果；所述分类网络中的卷积核包括预设大小的空洞卷积核；

标识确定模块，用于根据所述字符的分类结果，确定所述待识别图片中的标识。

10.一种标识识别模型的训练装置，其特征在于，包括：

训练图片确定模块，用于基于预设的训练集合确定当前训练图片；其中，所述当前训练图片上标注有标准标识字符；

特征序列输出模块，用于将所述当前训练图片输入至特征提取网络，输出所述当前训练图片的特征序列；其中，所述特征序列中包括所述当前训练图片中多个区域对应的特征图；

训练结果输出模块，用于将所述特征序列输入至分类网络中，输出每个所述区域中包含的字符的分类结果；所述分类网络中的卷积核包括预设大小的空洞卷积核；

损失值计算模块，用于根据所述标准标识字符和预设的损失函数，计算所述分类结果的损失值；

执行模块，用于继续执行基于预设的训练集合确定当前训练图片的步骤，直至所述损失值收敛，得到标识识别模型。

11.一种电子系统，其特征在于，所述电子系统包括：图像采集设备、处理设备和存储装置；

所述图像采集设备，用于获取预览视频帧或图像数据；

所述存储装置上存储有计算机程序，所述计算机程序在被所述处理设备运行时执行如权利要求1至7任一项所述的标识识别方法或权利要求8所述的标识识别模型的训练方法。

12.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理设备运行时执行如权利要求1至7任一项所述的标识识别方法或权利要求8所述的标识识别模型的训练方法的步骤。