CN116597437A

CN116597437A - 融合双层注意力网络的端到端老挝车牌照识别方法及装置

Info

Publication number: CN116597437A
Application number: CN202310880842.XA
Authority: CN
Inventors: 毛存礼; 黄彬煌; 余正涛; 王琳钦; 陈蕊; 黄于欣
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2023-07-18
Filing date: 2023-07-18
Publication date: 2023-08-15
Anticipated expiration: 2043-07-18
Also published as: CN116597437B

Abstract

本发明涉及融合双层注意力网络的端到端老挝车牌照识别方法及装置，属于自然语言处理领域。本发明方法包括老挝车牌照图像数据构建及预处理、融合双层注意力网络的端到端老挝车牌照识别模型构建、融合双层注意力网络的端到端老挝车牌照模型训练、融合双层注意力网络的端到端老挝车牌照识别模型四部分构成。根据这四个部分功能模块化制成融合双层注意力网络的端到端老挝车牌照识别装置，对输入的老挝车牌照图像进行信息识别，本发明提高了老挝车牌照图像识别的正确率，有效地解决了老挝车牌照上行省份字符排列紧密、难以分割和下行辅音字符相似度高、难以识别的问题。

Description

融合双层注意力网络的端到端老挝车牌照识别方法及装置

技术领域

本发明涉及融合双层注意力网络的端到端老挝车牌照识别方法及装置，属于自然语言处理技术领域。

背景技术

由于老挝国家流行双行车牌照且当下对双行车牌照识别研究较少，在老挝国内以及与我国相邻的边境口岸中，仍存在较多人工录入车辆进出相关信息的现象。因此，研究老挝双行车牌照识别技术具有重要意义。

传统的车牌照识别方法主要由字符分割和字符分类两个阶段构成，由于级联式网络无法避免误差传递问题，且分割阶段容易受环境因素影响产生较大误差，因此车牌照识别精度很大程度上取决于分割结果的精准程度。随着基于序列到序列文字识别技术的发展，相关研究人员尝试将单行车牌照识别任务作为序列标注任务送入端到端模型识别，避免了级联式网络的误差传递问题，提升了车牌照识别精度。而对双行车牌照识别任务来说，主要是通过拆分方法将其转化成普通的单行车牌照识别任务。但此方式引入了拆分车牌照阶段的误差，且上下行文本内容范式不同，难以用统一的网络架构识别，容易导致识别精度较低。

老挝车牌照属于双行车牌照，由上行省份全称、下行辅音字符及阿拉伯数字组成。如图1(a)所示，车牌照上行显示省份名称“”，下行由两个辅音字符“/>”和四个阿拉伯数字“6933”构成。老挝文字属于横板元音附标文字，如图1(a)中的省份名称“/>”中的第一个字符“/>”由辅音字符“/>”、上元音字符“/>”以及音调字符“/>”组成。上元音字符、音调字符与辅音字符分离，属于字符区域的边缘特征，识别过程中容易受到图像背景噪声干扰。此外，上行省份字符排列比较紧凑，容易产生字符粘连问题，导致采用分割方法难以精准分割字符以及采用序列标注方法字符特征提取效果不佳等问题。如图1(b)中的省份名称“”中字符子串“/>”在图像中难以做字符分割。下行部分与中英文单行车牌照较为相似，有着固定的排列规则且字符间距较大，但辅音字符中存在多组易混淆相似对，对车牌照的识别精度影响较大。如图1(b)的下行辅音字符“/>”、“/>”以及图1(c)的辅音字符“/>”、“/>”在图像中的特征分布十分接近，可用于区分的特征较少。

发明内容

本发明提出了一种融合双层注意力网络的端到端老挝车牌照识别方法及装置。用于解决老挝车牌照上行省份字符排列紧密、难以分割和下行辅音字符相似度高、难以识别的问题；通过构建通道及空间注意力网络分别提取到车牌照中的省份特征和字符特征，实现端到端模型训练，避免了拆分车牌照阶段的误差；将上行表示省份信息的图像特征作为一个整体，采用分类的方法获取省份信息；针对下行存在多组相似字符对的问题，通过注意力网络加强字符特征表示，并采用序列标注的方法进行识别，缓解相似字符对识别错误问题。

本发明的技术方案是：第一方面，本发明提供一种融合双层注意力网络的端到端老挝车牌照识别方法，所述方法包括：

步骤1、对老挝车牌数据集进行预处理，并划分评估集、训练集与测试集；

步骤2、构建融合双层注意力网络的端到端老挝车牌照识别模型；

步骤3、使用训练集训练构建好的老挝车牌照识别模型，以端到端的方式联合训练，通过模块间参数的共享学习，计算网络训练之间的损失值，来优化学习参数与模型权重；

步骤4、将训练好的老挝车牌照识别模型进行保存，并部署于服务器上，实现对老挝车牌照图像中的信息识别。

进一步地，所述步骤1中，预处理包括：

将采集到的老挝车牌照通过车牌区域检测工具获取老挝车辆的车牌区域；

并经过图像矫正技术及缩放技术，将图像的像素高度缩放到32，像素宽分布于59-65区域间内。

进一步地，所述步骤2包括构建依次连接的基于改进的视觉几何群网络的特征提取模块、基于通道及空间注意力的特征增强模块、老挝车牌省份信息分类模块以及老挝车牌字符信息识别模块；具体步骤如下：

步骤2.1、构建基于改进的视觉几何群网络的特征提取模块，基于改进的视觉几何群网络的特征提取模块的网络架构为在视觉几何群网络中去除了全连接层，并在各组卷积层后加入ReLU激活函数；用于提取车牌照图像的全局特征图；

步骤2.2、构建基于通道及空间注意力的特征增强模块，用于生成通道和空间混合域的注意力向量，对全局特征图进行重构，获取老挝车牌照中省份特征图和字符特征图；

步骤2.3、构建老挝车牌省份信息分类模块，采用省份特征整体分类的方式获取省份信息；

步骤2.4、构建老挝车牌字符信息识别模块，采用序列标注的方法来识别车牌照下行字符。

进一步地，所述步骤2.2包括：

步骤2.2.1、采用基于特征空间的全局平均池化和全局最大池化的方式来压缩特征图的空间维度，将由此方式得到的平均池化特征图和最大池化特征图分别表示成和；

步骤2.2.2、然后通过一个两层的全连接神经网络处理池化后的车牌图像通道特征，并采用共享参数的方式将平均池化特征图和最大池化特征图联系在一起，获取更加完整的车牌图像通道特征表示；

步骤2.2.3、最后将通过全连接层的两个通道特征图相加，经过Sigmoid函数得到最终的通道注意力图，其中，为了减少参数开销，共享网络的隐藏激活大小设置为，为缩减率，通道注意力图计算如下：

其中，F为车牌照图像的全局特征图，、为网络参数、C通道数，为激活函数， AvgPool表示平均池化，MaxPool表示最大池化；

步骤2.2.4、通过空间注意力获取上行省份信息和下行字符信息的位置信息，将省份特征和字符特征分别赋予不同的权重，从而得到用于后续老挝车牌省份信息分类模块和老挝车牌字符信息识别模块输入的省份特征图和字符特征图:

将经由通道注意力输出的特征图作为空间注意力的输入，将此特征图在通道方向上采用全局平均池化和全局最大池化方法压缩成平均池化特征图和最大池化特征图，并将两张特征图在通道方向上做concat操作；再通过的卷积核融合两个通道的特征信息，最后通过Sigmoid函数得到最后的空间注意力图，H、W分别为全局特征图的高和宽，具体公式如下：

;

其中，f^7×7代表用大小的卷积核对特征图做卷积操作;

步骤2.2.5、将图像通道与空间注意力混合后混合域的注意力向量即空间注意力图与全局特征图对位相乘，得到注意力网络的输出结果，即老挝车牌照中的省份特征图和字符特征图，公式如下：

。

进一步地，所述步骤2.3的具体步骤如下：

步骤2.3.1、将获取的省份特征图进行展平处理，得到新的省份特征图；

步骤2.3.2、将展平后的新的省份特征图送入两层全连接网络中，输出一个表征各省份分类概率的18维向量。

进一步地，所述步骤2.4包括：

通过BiLSTM网络对字符特征图进行编码，联合字符特征图中的上下像素信息，进一步加强字符特征表示；

基于注意力机制的解码器利用时刻BiLSTM编码向量的加权和实现第个序列的字符识别；

具体步骤如下：

步骤2.4.1、老挝车牌照字符特征图中的特征序列通过BiLSTM网络编码成具有上下文语义信息的向量，公式如下：

步骤2.4.2、利用该向量和BiLSTM上一时刻隐层输出生成注意力权重分布，具体公式如下：

在注意力分布计算公式中，属于网络参数；

步骤2.4.3、利用注意力权重分布对每个BiLSTM编码之后的向量进行加权求和，得到加权和，公式如下：

步骤2.4.4、将送入基于Softmax的分类器得到时刻解码器的字符预测，公式如下：

。

进一步地，所述步骤3的具体步骤为：

步骤3.1、将大小为N的老挝车牌照图像输入样本作为数据集，给定 N个老挝车牌照图像输入样本和图像对应老挝车牌照预测标签，将老挝车牌照图像内容识别为序列的概率定义为，其中，，D为老挝语词典，利用该数据集训练基于改进的视觉几何群网络的特征提取模块、基于通道及空间注意力的特征增强模块、老挝车牌省份信息分类模块以及老挝车牌字符信息识别模块；

步骤3.2、通过端到端的方式进行联合训练，考虑两个方面的监督信号老挝车牌省份信息分类模块的损失与老挝车牌字符信息识别模块的损失，总损失函数为这两种损失的线性组合。

进一步地，所述步骤3.2的具体步骤为：

步骤3.2.1、在老挝车牌省份信息分类模块中，将经过两层全连接网络后所得到的表征老挝18个省份的省份分类概率的18维向量与车牌照对应的省份标签信息做一个交叉熵损失，得到老挝车牌省份信息分类模块的损失，具体公式如下：

其中，表示省份标签信息，取0或1，的展平后的新的省份特征图；

步骤3.2.2、老挝车牌字符信息识别模块识别部分采取交叉熵损失作为目标优化函数，在老挝车牌字符信息识别模块中，将基于Softmax的分类器得到时刻解码器的字符预测与标签信息做交叉熵损失计算，得到老挝车牌字符信息识别模块的损失如下：

其中，表示为输入的老挝车牌照图像，表示为当前老挝车牌字符信息识别模块的模型参数，表示为车牌照图像的第个特征序列对应的真实标签；

步骤3.2.3、根据老挝车牌省份信息分类模块的损失与老挝车牌字符信息识别模块的损失计算融合双层注意力网络的端到端老挝车牌照识别方法的总损失：

为平衡老挝车牌省份信息分类模块和老挝车牌字符信息识别模块两个损失项的控制参数；

通过计算最终的最小损失值，进而将训练网络中获取的参数和权重反馈给神经网络模型，得到最终的模型。

进一步地，所述步骤4的具体步骤为：

步骤4.1、首先将训练好的老挝车牌照识别模型的模型输入图像的高定义为32，宽的最大值定义为，对于输入宽度小于的图像进行白色像素填充，模型批量处理的大小为所输入图像的数量，以此实现模型对输入图像的并行计算，提高识别速度；

步骤4.2、将模型保存为“.pth”文件，通过Flask框架将模型加载于内存中，避免请求结果带来频繁的模型加载过程，提高识别模型的运行速率；

步骤4.3、利用Flask框架将模型部署为一个API接口，进而实现Web端口多并发请求的功能；

步骤4.4、在Web端通调用部署到服务器端的老挝车牌照识别模型，来测试输入的老挝车牌照图像，进而得到老挝车牌照图像的识别结果并将其展示到前端界面。

第二方面，本发明还提供一种融合双层注意力网络的端到端老挝车牌照识别装置，该装置包括用于执行上述第一方面的方法的模块。

本发明的有益效果是：

1、本发明针对老挝车牌照特殊的双行结构识别任务，构建了一个老挝车牌数据集，并提出了一个端到端的老挝车牌照识别网络，相比于分割再分类的两阶段级联式方法，该网络能够有效避免分割图像和字符的阶段误差，缓解了双行车牌照结构识别难题；

2、针对老挝车牌照上行省份字符粘连及下行存在多组相似字符对导致识别精度低的问题，本发明通过构建通道及空间注意力网络获取到车牌照中的上行省份信息和下行字符信息，并分别做省份分类及字符序列识别，提高车牌识别准确率；

3、为验证方法的有效性，在老挝车牌照数据集上进行了实验，在同样训练条件下，所提模型相比基线模型准确率提升了0.8%，准确率达到了92.7%，为其他流行双行车牌照的柬埔寨、泰国等东南亚国家的车牌照识别提供一个可行思路。

附图说明

图1为本发明中老挝车牌照图像示例；其中(a)为老挝车牌照图像，(b)为省份字符粘连图像，(c)为字符相似对图像；

图2为本发明中融合双层注意力网络的端到端老挝车牌照识别装置网络架构图；

图3为本发明中的方法流程框图；

具体实施方式

下面结合附图，对本发明的实施例进行描述。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例的执行主体可以为各种类型的终端，终端例如可以是计算机、智能手机、平板电脑、可穿戴设备、个人数字助理（英文：Personal DigitalAssistant，缩写：PDA）、移动互联网设备（英文：Mobile Internet Device，缩写：MID）等可进行文本处理的终端，本发明对此不作任何限制。

如图3所示，是本发明融合双层注意力网络的端到端老挝车牌照识别方法的流程框图，包括：

需要说明的是，本发明所研究的老挝车牌照属于双行车牌照，由上行省份全称、下行辅音字符及阿拉伯数字组成。老挝车牌照上行部分显示老挝的省份全称，老挝文字属于横版元音附标文字，一个老挝文字由主体辅音、元音字符和音调字符构成，但上元音字符、音调字符与辅音字符分离，属于字符区域的边缘特征，识别过程中容易受到图像背景噪声干扰；此外，上行省份字符排列比较紧凑，容易产生字符粘连问题，导致采用分割方法难以精准分割字符以及采用序列标注方法字符特征提取效果不佳等问题。老挝车牌照下行部分由两个老挝辅音字符和四个阿拉伯数字构成，由于老挝辅音字符存在多组相似字符对，对车牌照的识别精度影响较大。

本实施例针对老挝国家流行双行车牌照且当下对双行车牌照识别研究较少，缺乏老挝车牌数据集。因此，本发明通过收集国界关口、老挝高速公路的进出口车辆图像及老挝境内的车辆图像，通过标注及校验的方式构建了一个老挝车牌数据集，总共包含10万多张图像，并随机分别挑选2000张图像用于作为评估数据集和测试数据集，为融合双层注意力网络的端到端老挝车牌照识别方法提供数据支撑；并对其进行如下预处理：

在一些可行的实施方式中，将采集到的老挝车牌照通过车牌区域检测工具获取老挝车辆的车牌区域；

并经过图像矫正技术及缩放技术，将图像的像素高度缩放到32，像素宽分布于59-65区域间内；根据实验分析模型，当图像像素输入为32*62取得最优效果，本发明将模型输入设为32*62。

在一些可行的实施方式中，所述步骤2包括构建依次连接的基于改进的视觉几何群网络的特征提取模块、基于通道及空间注意力的特征增强模块、老挝车牌省份信息分类模块以及老挝车牌字符信息识别模块；具体步骤如下：

步骤2.1、构建基于改进的视觉几何群网络的特征提取模块，为了将深度卷积神经网络提取到的特征图使用于车牌照图像识别中，本发明的基于改进的视觉几何群网络VGG-16的特征提取模块的网络架构为在视觉几何群网络中去除了全连接层，并在各组卷积层后加入ReLU激活函数，增加车牌照特征提取网络的非线性，提高拟合老挝字符的复杂特征，同时防止车牌照特征提取网络出现梯度消失问题，减少过拟合现象；用于提取车牌照图像的全局特征图；

步骤2.3、构建老挝车牌省份信息分类模块，针对车牌照上行省份字符分布紧凑容易出现字符粘连问题以及部分省份字符包含元音字符、音调字符出现字符断裂的问题，采用省份特征整体分类的方式获取省份信息；

步骤2.4、构建老挝车牌字符信息识别模块，老挝车牌照下行的老挝字符只由辅音字符构成，而老挝的辅音字符存在多组相似字符对，采用序列标注的方法来识别车牌照下行字符。

将构建好的基于改进的视觉几何群网络的特征提取模块、基于通道及空间注意力的特征增强模块、老挝车牌省份信息分类模块以及老挝车牌字符信息识别模块的四个模块通过数据流联合起来，进而构建了融合双层注意力网络的端到端老挝车牌照识别方法网络框架，实现模块间的参数学习。

在一些可行的实施方式中，所述步骤2.2包括：

步骤2.2.1、为了更高效的计算通道注意力特征，采用基于特征空间的全局平均池化和全局最大池化的方式来压缩特征图的空间维度，将由此方式得到的平均池化特征图和最大池化特征图分别表示成和；

步骤2.2.4、为了能够区分省份信息和字符信息，本发明在通道注意力之后，再引入空间注意力机制。通过空间注意力获取上行省份信息和下行字符信息的位置信息，将省份特征和字符特征分别赋予不同的权重，从而得到用于后续老挝车牌省份信息分类模块和老挝车牌字符信息识别模块输入的省份特征图和字符特征图:

;

其中，f^7×7代表用大小的卷积核对特征图做卷积操作;

。

在一些可行的实施方式中，所述步骤2.3的具体步骤如下：

在一些可行的实施方式中，所述步骤2.4包括：

具体步骤如下：

在注意力分布计算公式中，属于网络参数；

。

在一些可行的实施方式中，所述步骤3的具体步骤为：

需要说明的是，老挝车牌照属于双行车牌照，由上行省份全称、下行辅音字符及阿拉伯数字组成。由于上行省份信息中上元音字符、音调字符与辅音字符分离，属于字符区域的边缘特征，识别过程中容易受到图像背景噪声干扰，且上行省份字符排列比较紧凑，容易产生字符粘连问题，导致采用分割方法难以精准分割字符以及采用序列标注方法字符特征提取效果不佳。下行字符信息有着固定的排列规则且字符间距较大，但存在多组易混淆相似对，对车牌照的识别精度影响较大。因此，根据老挝车牌照上下两行的布局风格迥异，采用老挝车牌省份信息分类模块和老挝车牌字符信息识别模块分别获取老挝车牌的不同信息，提供老挝车牌识别的准确率。

在一些可行的实施方式中，所述步骤3.2的具体步骤为：

步骤3.2.2、老挝车牌照图像字符识别的本质是对特征序列进行多分类，为保证网络训练时识别网络预测分布接近真实标签分布，老挝车牌字符信息识别模块识别部分采取交叉熵损失作为目标优化函数，在老挝车牌字符信息识别模块中，将基于Softmax的分类器得到时刻解码器的字符预测与标签信息做交叉熵损失计算，得到老挝车牌字符信息识别模块的损失如下：

在一些可行的实施方式中，所述步骤4的具体步骤为：

下面为本发明装置实施例，本发明装置实施例用于执行本发明方法第一实施例实现的方法，为了便于说明，仅示出了本发明实施例相关的部分，具体未揭示的部分，请参照本发明第一实施例。

本发明实施例提供一种融合双层注意力网络的端到端老挝车牌照识别装置，该装置包括：

预处理模块：用于对老挝车牌数据集进行预处理，并划分评估集、训练集与测试集；

构建模块：用于构建融合双层注意力网络的端到端老挝车牌照识别模型；

训练模块：用于使用训练集训练构建好的老挝车牌照识别模型，以端到端的方式联合训练，通过模块间参数的共享学习，计算网络训练之间的损失值，来优化学习参数与模型权重；

识别模块：用于将训练好的老挝车牌照识别模型进行保存，并部署于服务器上，实现对老挝车牌照图像中的信息识别。

在一种可行的实施方式中，所述预处理模块，具体用于将采集到的老挝车牌照通过车牌区域检测工具获取老挝车辆的车牌区域；

在一种可行的实施方式中，所述构建模块，具体用于构建包括依次连接的基于改进的视觉几何群网络的特征提取模块、基于通道及空间注意力的特征增强模块、老挝车牌省份信息分类模块以及老挝车牌字符信息识别模块；

用于构建基于改进的视觉几何群网络的特征提取模块，基于改进的视觉几何群网络的特征提取模块的网络架构为在视觉几何群网络中去除了全连接层，并在各组卷积层后加入ReLU激活函数；用于提取车牌照图像的全局特征图；

用于构建基于通道及空间注意力的特征增强模块，生成通道和空间混合域的注意力向量，对全局特征图进行重构，获取老挝车牌照中省份特征图和字符特征图；

用于构建老挝车牌省份信息分类模块，采用省份特征整体分类的方式获取省份信息；

用于构建老挝车牌字符信息识别模块，采用序列标注的方法来识别车牌照下行字符。

为了说明本发明的效果，本发明进行了如下实验，选择的缅甸语图像数据集如下所示。

训练数据集：该数据集中包含了10万张真实场景下的老挝车牌图像；

测试数据集：该数据集中包含了2000张真实场景下的老挝车牌图像；

评估数据集：该数据集中包含了2000张真实场景下的老挝车牌图像；

本发明的神经网络架构是基于Pytorch框架开发设计实现，实验服务器的配置为Intel(R) Xeon(R) Gold 6132 CPU @ 2.60GHz，NVIDIA Corporation GP100GL GPU。

实验采用老挝车牌照识别精确率（Recognition Accuracy, RA）作为评价指标，如公式所示：

其中，分别老挝车牌照图像识别的精确率、完全正确识别老挝车牌照信息的个数、老挝车牌照的总数。

为验证融合双层注意力的端到端老挝车牌照识别网络方法的有效性，本发明在老挝车牌照图像数据集上进行实验分析。为保证公平性，我们为所有的对比实验设置统一的实验条件，所选优化器为Adam，初始学习率为1，训练时采用CosineAnnealing策略，基于余弦函数实现学习率动态变换，以保证网络的目标函数接近最优解时具备更小的学习率；模型训练的批处理大小设置为120，训练步长设为300000，训练epoch为10，实验结果选择评测中最高的准确率。

Projection+Template-matching：将投影法和模板匹配法应用于老挝双行车牌照识别任务中。为了更好预测省份信息，将省份字符串作为一个整体，通过图像预处理和多次像素投影将车牌照图像分割成七个部分。再通过构建的模板库对七个车牌照子图分别做模板匹配，获取识别结果。

Projection+CRNN：通过投影法将老挝车牌照的双行拆分成两个单行，再分别送入识别模型中识别信息。

CNN+BiLSTM+CTC：Shi等人通过标准的CNN特征提取网络获取车牌图像特征，再利用BiLSTM网络对图像特征进行时序编码并获取上下文信息，最后通过CTC预测出每列特征的字符信息得到输出结果。

CNN+BiLSTM+Attention：Beak等人相比Shi等人提出的网络，解码部分采用注意力解码器对特征部分进行解码。

ViTSTR: Atienza R在Beak等人工作的基础上引入了由ViT模型的编码器构成的场景文字识别通用架构。

FCL+CRNN：通过VGG网络提取网络特征，并分别通过FCL网络完成省份分类，BiLSTM编码和Attention解码网络识别字符信息。

实验一：主要实验结果

表主要实验结果

如表1所示，本发明方法在老挝车牌照数据集上准确率达到92.7%，达到最高水平。相比基于先分割再分类的级联式网络方法提升了1.2个百分点，采用模板匹配法无法很好的识别老挝相似字符，因此识别准确率较低，说明本发明融合注意力的端到端方法得益于消除分割阶段的误差，提高了车牌照整体识别精度。相比Beak等人的方法提升了0.8个百分点，说明本发明采用分割的思想分别处理车牌照的两行信息是有效的。老挝车牌照上下行字体大小及间距不同，采用不同的网络更好的拟合车牌照的特点，有效的提升识别精度。通过通道及空间注意力机制，一方面可以有效地提取省份特征，采用省份特征整体分类的方式，避免出现省份信息中个别字符识别错误的问题。另一方面加强了字符特征的表示，缓解相似字符对识别准确率底的问题。与使用LSTM的模型相比，本发明采用BiLSTM网络能够更好的获取序列上下文信息，丰富字符特征表示。与使用CTC解码器的图像识别模型相比，本发明采用注意力解码的方式在针对老挝车牌照双行结构问题中展现出巨大的优势。由于老挝车牌照整体呈现双行排列的结构，在经由特征提取网络阶段后转化成多通道的抽象特征矩阵，上下行的信息特征混淆一起。但CTC解码方式是按序列顺序解码，无法很好的学习到双行的特征序列。而本发明采用基于Attention机制的感受野解码方式在此任务中便有着较大的优势。

实验二：消融实验

为验证通道及空间注意力网络对区分老挝车牌照上下行信息的有效性，本发明分别对老挝车牌省份信息分类模块和老挝车牌字符信息识别模块的通道及空间注意力部分进行消融实验，实验结果如表2所示。(“”表示未应用，“/>”表示应用了)

表分类模块注意力和识别模块注意力融合对车牌照识别的影响

从实验结果可以看出，仅在老挝车牌省份信息分类模块加入通道及空间注意力网络，识别准确率提高了0.2个百分点，表明在老挝车牌省份信息分类模块加入注意力网络有助于网络对省份特征的提取，实现对省份信息更好的分类；仅在老挝车牌字符信息识别模块加入通道及空间注意力网络，识别准确率提高了0.3个百分点，表明注意力网络对字符特征的加强帮助较大，能够有效的提取到老挝相似字符的不同特征，提高字符识别准确率。而同时在两个模块中加入通道及空间注意力网络，模型整体的准确率提升了0.6个百分点，说明文本所提的注意力网络确实能够有效的区分上行省份特征和下行字符特征，并加强了特征表示，提高了老挝双行车牌照识别精度。

实验三：讨论分类与识别占比对模型识别效果的影响

为了验证老挝车牌照识别任务中省份分类与字符识别联合训练的有效性，本发明将Beak等人提出的CNN+BiLSTM+Attention网络与两个应用了分割思想的端到端网络进行对比。并探讨平衡老挝车牌省份信息分类模块和老挝车牌字符信息识别模块两个损失项的控制参数对模型准确度的影响。参数越小时，表明识别模块损失占比越大，反之，则表示省份模块损失占比越大。

表平衡老挝车牌省份信息分类模块和老挝车牌字符信息识别模块损失参数α对模型准确度的影响

实验结果如表3所示。由于基于Attention解码的网络没有运用省份分类与字符识别联合训练的思想，因此取值对该模型没有影响，模型的准确率均是91.9%。运用省份分类与字符识别联合训练方法的最高准确率均高于纯用字符识别方法模型的准确率，表明应用分割的思想确实有助于提高模型整体的准确度。另外，增加通道及空间注意力机制的网络在取任意值时，模型的准确率均高于未加注意力机制的模型，进一步表明通道及空间注意力对模型的特征提取及加强的有效性。从模型的模块角度来看，当时，FCL+CRNN模型达到最高识别精度92.1%；当时，本发明所提模型识别效果达到最好，表明了字符识别模块对整体识别结果的影响略大于省份分类部分。当时，模型的准确率达到最大值92.7%，此时模型的识别效果最佳。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.融合双层注意力网络的端到端老挝车牌照识别方法，其特征在于，包括：

2.根据权利要求1所述的融合双层注意力网络的端到端老挝车牌照识别方法，其特征在于：所述步骤1中，预处理包括：

3.根据权利要求1所述的融合双层注意力网络的端到端老挝车牌照识别方法，其特征在于：所述步骤2包括构建依次连接的基于改进的视觉几何群网络的特征提取模块、基于通道及空间注意力的特征增强模块、老挝车牌省份信息分类模块以及老挝车牌字符信息识别模块；具体步骤如下：

4.根据权利要求3所述的融合双层注意力网络的端到端老挝车牌照识别方法，其特征在于：所述步骤2.2包括：

步骤2.2.1、采用基于特征空间的全局平均池化和全局最大池化的方式来压缩特征图的空间维度，将由此方式得到的平均池化特征图和最大池化特征图分别表示成和/>；

步骤2.2.3、最后将通过全连接层的两个通道特征图相加，经过Sigmoid函数得到最终的通道注意力图，其中，为了减少参数开销，共享网络的隐藏激活大小设置为/>，/>为缩减率，通道注意力图计算如下：

;

其中，F为车牌照图像的全局特征图，、/>为网络参数、C通道数，/>为激活函数，AvgPool表示平均池化，MaxPool表示最大池化；

将经由通道注意力输出的特征图作为空间注意力的输入，将此特征图在通道方向上采用全局平均池化和全局最大池化方法压缩成平均池化特征图和最大池化特征图/>，并将两张特征图在通道方向上做concat操作；再通过/>的卷积核融合两个通道的特征信息，最后通过Sigmoid函数得到最后的空间注意力图/>，H、W分别为全局特征图的高和宽，具体公式如下：

;

其中，f^7×7代表用大小的卷积核对特征图做卷积操作;

。

5.根据权利要求3所述的融合双层注意力网络的端到端老挝车牌照识别方法，其特征在于：所述步骤2.3的具体步骤如下：

步骤2.3.1、将获取的省份特征图进行展平处理，得到新的省份特征图/>；

6.根据权利要求3所述的融合双层注意力网络的端到端老挝车牌照识别方法，其特征在于：所述步骤2.4包括：

通过BiLSTM网络对字符特征图进行编码，联合字符特征图/>中的上下像素信息，进一步加强字符特征表示；

基于注意力机制的解码器利用时刻BiLSTM编码向量/>的加权和/>实现第/>个序列的字符识别；

具体步骤如下：

步骤2.4.1、老挝车牌照字符特征图中的特征序列/>通过BiLSTM网络编码成具有上下文语义信息的向量/>，公式如下：

;

步骤2.4.2、利用该向量和BiLSTM上一时刻隐层输出生成注意力权重分布/>，具体公式如下：

;

在注意力分布计算公式中，属于网络参数；

;

步骤2.4.4、将送入基于Softmax的分类器得到/>时刻解码器的字符预测，公式如下：

。

7.根据权利要求1所述的融合双层注意力网络的端到端老挝车牌照识别方法，其特征在于：所述步骤3的具体步骤为：

步骤3.1、将大小为N的老挝车牌照图像输入样本作为数据集，给定N个老挝车牌照图像输入样本/>和图像对应老挝车牌照预测标签/>，将老挝车牌照图像内容识别为序列/>的概率定义为/>，其中/>，/>，D为老挝语词典，利用该数据集训练基于改进的视觉几何群网络的特征提取模块、基于通道及空间注意力的特征增强模块、老挝车牌省份信息分类模块以及老挝车牌字符信息识别模块；

步骤3.2、通过端到端的方式进行联合训练，考虑两个方面的监督信号老挝车牌省份信息分类模块的损失与老挝车牌字符信息识别模块的损失/>，总损失函数为这两种损失的线性组合。

8.根据权利要求7所述的融合双层注意力网络的端到端老挝车牌照识别方法，其特征在于：所述步骤3.2的具体步骤为：

;

其中，表示省份标签信息，取0或1，/>的展平后的新的省份特征图；

步骤3.2.2、老挝车牌字符信息识别模块识别部分采取交叉熵损失作为目标优化函数，在老挝车牌字符信息识别模块中，将基于Softmax的分类器得到时刻解码器的字符预测/>与标签信息做交叉熵损失计算，得到老挝车牌字符信息识别模块的损失/>如下：

;

其中，表示为输入的老挝车牌照图像，/>表示为当前老挝车牌字符信息识别模块的模型参数，/>表示为车牌照图像的第/>个特征序列对应的真实标签；

步骤3.2.3、根据老挝车牌省份信息分类模块的损失与老挝车牌字符信息识别模块的损失/>计算融合双层注意力网络的端到端老挝车牌照识别方法的总损失/>：;

9.根据权利要求1所述的融合双层注意力网络的端到端老挝车牌照识别方法，其特征在于：所述步骤4的具体步骤为：

步骤4.1、首先将训练好的老挝车牌照识别模型的模型输入图像的高定义为32，宽的最大值定义为，对于输入宽度小于/>的图像进行白色像素填充，模型批量处理的大小为所输入图像的数量，以此实现模型对输入图像的并行计算，提高识别速度；

10.融合双层注意力网络的端到端老挝车牌照识别装置，其特征在于，包括用于执行如权利要求1-9任一权利要求所述的方法的模块。