CN117710755B

CN117710755B - 一种基于深度学习的车辆属性识别系统及方法

Info

Publication number: CN117710755B
Application number: CN202410154697.1A
Authority: CN
Inventors: 田文科; 张经纬; 钱钧; 戚厚洋
Original assignee: Jiangsu Future Network Group Co ltd
Current assignee: Jiangsu Future Network Group Co ltd
Priority date: 2024-02-04
Filing date: 2024-02-04
Publication date: 2024-05-03
Anticipated expiration: 2044-02-04
Also published as: CN117710755A

Abstract

本申请实施例提供一种基于深度学习的车辆属性识别系统，其特征在于，包括：图像预处理模块，特征提取模块，特征融合模块和预测模块，所述预测模块包括N个Head分支；每个所述Head分支中均包括横向并行的车辆检测分支和车辆属性分类检测分支；其中，所述车辆检测分支中包括多头注意力模块和注意力聚合模块。本申请中的车辆检测分支和车辆属性分类检测分支共用同一组融合特征，整个预测过程只需要进行一次特征提取，从而大大减少了系统的计算量。同时由于在车辆属性分类检测分支中引入多头注意力模块和注意力聚合模块配合使得多头注意力模块能够聚焦于车辆全身多个不同位置的细节信息，从而有效提高系统识别的准确度。

Description

一种基于深度学习的车辆属性识别系统及方法

技术领域

本申请涉及车辆属性识别技术领域，特别涉及一种基于深度学习的车辆属性识别系统及方法。

背景技术

目前，传统的车辆属性识别方法大多是采用检测堆叠分类的方法。具体的流程一般为：优先采用目标检测网络检出车辆目标，再将车辆目标小图送进分类网络对车辆颜色、车型、车系等属性进行分类。由此可见，在现有的车辆属性识别方法中一般采用两个或两个以上深度学习模型，在实际的部署中，采用多个深度学习模型的方式会大大的增加系统的计算量，并且会消耗更多的显存、内存等硬件成本。同时，现有的车辆属性分类网络对车辆局部细节特征提取能力不强，通常只能区分出车型、车辆颜色等偏全局的特征，当车型车辆颜色相同仅是车辆局部细节存在差异时如车灯轮廓等，普通分类网络无法有效的聚焦于局部细节，最终导致识别结果准确度下降。

发明内容

本申请为了解决现有技术中车辆属性识别系统的计算量较大同时识别准确度低的技术问题；提出一种基于深度学习的车辆属性识别系统及方法，以有效降低车辆属性分类识别系统的计算量同时提高其识别的准确度。

本申请为了达到上述目的，采用如下技术方案：

一种基于深度学习的车辆属性识别系统，包括：

图像预处理模块，用于获取图像并对图像进行预处理；

特征提取模块，所述特征提取模块基于YOLO-V5骨干网络用于对预处理后的图像提取M个不同尺度的特征并进行下采样；

特征融合模块，所述特征融合模块基于特征融合网络用于对提取的M个不同尺度的特征进行融合，获得3个不同尺度的融合特征；其中，M>3;

预测模块，所述预测模块包括3个Head分支，所述3个Head分支用于一一对应的对3个不同尺度的融合特征进行预测；

其中，每个所述Head分支中均包括横向并行的车辆检测分支和车辆属性分类检测分支；所述车辆检测分支用于对输入的融合特征进行计算并输出车辆检测框结果；所述车辆属性分类检测分支用于对输入的融合特征进行计算并输出车辆属性分类检测结果。

进一步的，所述车辆属性分类检测分支中包括：

多头注意力模块，所述多头注意力模块包括若干个横向并行的注意力分支；若干个横向并行的所述注意力分支用于对融合特征进行计算并获得对应的注意力图；

注意力聚合模块，用于对各注意力分支获得的注意力图进行归一化处理并对归一化处理后的注意力图进行训练以引导不同注意力分支关注车辆不同区域从而增加各注意力分支获得的注意力图之间的差异性，最后将各个注意力分支获得的注意力图进行融合后检测车辆属性分类结果。

进一步的，所述注意力分支包括空间注意力单元和通道注意力单元；其中，所述空间注意力单元包括四个卷积层和一个激活函数，所述通道注意力单元包括两个线性层和两个激活函数。

进一步的，所述注意力聚合模块采用log softmax函数对各注意力分支获得的注意力图进行归一化处理，所述log softmax函数如下：，

其中，K表示注意力分支数量；，/>表示K头注意力模块输出的注意力图；L表示注意力图维度。

进一步的，所述注意力聚合模块采用分区损失函数对归一化处理后的注意力图进行训练以增加各个注意力分支获得的注意力图之间的差异性；所述分区损失函数为：，

其中，N表示训练时一个批量的第N张图；L表示注意力图维度；K表示注意力分支数量；表示第/>张图K个注意力分支产生的注意力图之间的方差。

进一步的，所述车辆检测框结果的输出为：x*y*w*h*置信度*3；其中（x,y）表示检测框的中心点坐标，（w,h）表示检测框的宽高，3表示每个特征网格会预测3个候选框。

进一步的，所述车辆属性分类检测结果的输出为：类别数*3；其中，3表示每个特征网格会预测3个候选框。

一种基于深度学习的车辆属性识别方法，包括：

获取图像并对图像进行预处理；

基于YOLO-V5骨干网络对预处理后的图像提取M个不同尺度的特征并进行下采样；

基于特征融合网络对提取的M个不同尺度的特征进行融合，获得3个不同尺度的融合特征；其中，M>3;

将3个不同尺度的融合特征分别一一对应的输入3个Head分支中进行预测；

其中，每个Head分支中均包括横向并行的车辆检测分支和车辆属性分类检测分支；将融合特征输入车辆检测分支进行计算后得到车辆检测框结果；将融合特征输入车辆属性分类检测分支进行计算并输出车辆属性分类检测结果。

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述方法所述的步骤。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成上述方法所述的步骤。

本申请的有益效果是：

本申请首先采用YOLO-V5骨干网络对车辆特征进行提取，然后将提取到的特征经过特征融合网络进行多尺度的特征融合后采用多个Head分支对不同尺度的融合特征进行预测，其中每个所述Head分支中均包括横向并行的用于车辆检测框预测的车辆检测分支和用于车辆属性分类检测预测的车辆属性分类检测分支，在使用时车辆检测分支和车辆属性分类检测分支共用同一组融合特征，整个预测过程只需要进行一次特征提取，从而大大减少了系统的计算量。

本申请通过在车辆属性分类检测分支中引入多头注意力模块使得网络在运行过程中更加关注车辆局部细节信息从而实现更精准的车辆属性分类。同时，还在车辆属性分类检测分支中引入注意力聚合模块配合多头注意力模块使得多头注意力模块能够聚焦于车辆全身多个不同位置的细节信息，避免多个分支的注意力集中于单个局部区域发生重叠的情况，从而进一步的提高了识别的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的车辆属性识别系统的网络结构图；

图2为本申请实施例提供的车辆属性分类检测分支的网络结构图；

图3为本申请实施例提供的注意力模块结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本申请的保护范围。

本申请根据社区监控场景下的车辆跟踪需求，提出的一种基于深度学习的车辆属性识别系统及识别方法。首先，为了使车辆检测同时具有高效性与高准确率，以YOLO-V5骨干网络为基础对视频监控画面中的车辆特征进行提取，然后将提取到的特征经过特征融合网络进行多尺度的特征融合。融合后获得融合特征按照不同尺度分别进行车辆检测和车辆属性分类检测，其中，所述车辆检测分支和车辆属性分类检测分支为并行的分支，共用前述YOLO-V5骨干网络+特征融合网络处理后的融合特征，这相比于现有技术中采用检测+分类两个模型叠加推理的方式来说，本申请只需要进行一次特征提取和特征融合，从而大大减少了系统的计算量。同时，本申请还在车辆属性分类检测分支分支中引入了多头注意力模块和注意力聚合模块，其中，多头注意力模块使得网络在运行过程中更加关注车辆局部细节信息从而实现更精准的车辆属性分类。而注意力聚合模块则能够与注意力聚合模块配合使得多头注意力模块能够聚焦于车辆全身多个不同位置的细节信息，避免多个分支的注意力集中于单个局部区域发生重叠的情况，从而进一步的提高了系统识别的准确度。下面以具体的实施例进行说明。

本申请实施例提供一种基于深度学习的车辆属性识别系统，包括：图像预处理模块、特征提取模块、特征融合模块和预测模块；

其中，所述图像预处理模块用于获取视频或照片中的车辆图像并对车辆图像进行预处理，将其变成640*640大小后输入特征提取模块；

所述特征提取模块基于YOLO-V5骨干网络用于对预处理后的图像进行逐级特征提取和下采样，如图1中的BackBone部分所示，在一些实施例中，所述YOLO-V5骨干网络共进行5次下采样，分别生成320*320、160*160、80*80、40*40、20*20共5个尺度的特征图。在所述YOLO-V5骨干网络中，CBS特征提取模块和CSP特征提取模块均由卷积层（Convolution）+批量归一化层（BatchNormalization）+激活函数堆叠组成。

所述特征融合模块基于特征融合网络用于对提取的5个不同尺度的特征进行融合，如图1中Neck部分所示，特征融合网络从YOLO-V5骨干网络提取的5个不同尺度的特征中选取80*80、40*40、20*20三个尺度的特征进行融合从而获得上述对应三个尺度的融合特征，并将获得的融合特征输入预测模块进行预测。需要注意的是，在实际的应用过程中，特征融合模块选取的特征尺度并不局限于上述的三个，本领域的技术人员可以根据实际的需要在提取的若干个不同尺度特征中选取多个不同尺度的特征进行融合。

所述预测模块包括三个Head分支，所述Head分支的数量与上述融合特征的尺度数量一致，以便于每个Head分支能够一一对应的对不同尺度的融合特征进行预测；再由图1可知，每个所述Head分支中均包括横向并行的车辆检测分支和车辆属性分类检测分支；所述车辆检测分支用于对输入的融合特征进行计算并输出车辆检测框结果；所述车辆检测框结果的输出为x*y*w*h*置信度*3，其中（x,y）表示检测框的中心点坐标，（w,h）表示检测框的宽高，3表示每个特征网格会预测3个候选框。上述三个Head分支中车辆检测框结果的输出分别为20*20*（5*3）、40*40*（5*3）、80*80*（5*3）。所述车辆属性分类检测分支用于对输入的融合特征进行计算并输出车辆属性分类检测结果。所述车辆属性分类检测结果的输出为：类别数*3；其中，3表示每个特征网格会预测3个候选框。上述三个Head分支中车辆属性分类检测结果的输出分别为20*20*（Class Num*3）、40*40*（Class Num*3）、80*80*（ClassNum*3）。上述车辆属性识别系统在使用时每个Head分支中的车辆检测分支和车辆属性分类检测分支均共用同一组融合特征，即整个预测过程只需要进行一次特征提取和特征融合，从而大大减少了系统的计算量。

在一些实施例中，为了提高车辆属性分类检测的准确度，在所述车辆属性分类检测分支中引入多头注意力模块。如图2所示，所述多头注意力模块包括四个横向并行的注意力分支；四个横向并行的所述注意力分支用于对输入的融合特征进行计算并获得对应的注意力图。其中，每个所述注意力分支均包括空间注意力单元和通道注意力单元；如图3所示，所述空间注意力单元包括四个卷积层和一个激活函数，四个卷积层分别构建有1×1、1×3、3×1和3×3卷积核来捕获多个尺度上的局部特征，得到一个维度与特征图空间维度所匹配的参数矩阵，该矩阵与特征图直接相乘，如特征图维度为CxHxW，空间注意力单元就会得到一个HxW维度的参数矩阵，矩阵中每个参数就是对应位置点与其他位置的关系强度，即网络对这个位置特征的关注程度。所述通道注意力单元连接到空间注意力单元的末端，其包括两个线性层和两个激活函数。其中，两个线性层用以编码通道信息，通道注意力单元会生成一个与特征图通道数匹配的张量，该张量与特征图在通道维度相乘，表示网络对每个通道特征的关注程度。

在一些实施例中，为了使得多头注意力模块能够聚焦于车辆全身多个不同位置的细节信息，避免多个分支的注意力集中于单个局部区域发生重叠的情况，在所述车辆属性分类检测分支中还引入了注意力聚合模块与上述的多头注意力模块进行配合,所述注意力聚合模块主要通过分区损失函数来实现，在使用时首先将各注意力分支获得的注意力图通过log softmax函数进行归一化处理以将各注意力分支获取的注意力图缩放到统一的尺度，再通过分区损失函数对归一化处理后的注意力图进行训练以引导不同注意力分支关注车辆不同区域从而增加各注意力分支获得的注意力图之间的差异性。

其中，所述注意力聚合模块中所采用的所述log softmax函数如下：，

其中，K表示注意力分支数量，在一些实施例中，所述K=4；，/>表示K头注意力模块输出的注意力图；L表示注意力图维度，在一些实施例中，所述L=256。

所述注意力聚合模块中所采用的所述分区损失函数为：，

其中，N表示训练时一个批量的第N张图；L表示注意力图维度，在一些实施例中，所述L=256；K表示注意力分支数量，在一些实施例中，所述K=4；表示第/>张图K个注意力分支产生的注意力图之间的方差。

最后将训练后的各个注意力分支获得的注意力图再进行融合即可用于检测车辆属性分类结果，由于引入了多头注意力模块和注意力聚合模块，能够大大的提高所述车辆属性分类检测分支的检测结果准确度。同时，由于引入了注意力聚合模块，所以每个Head分支进行预测时的损失函数为，即最终每个Head分支的损失函数均包括检测分支检测损失/>、分类分支损失/>、和分区损失函数/>三部分。

一种如上所述的基于深度学习的车辆属性识别系统的方法，包括如下步骤：

从车辆视频画面中获取图像并对图像进行预处理，以将其变成640*640大小；

基于YOLO-V5骨干网络对预处理后的图像进行逐级特征提取和下采样，如图1中的BackBone部分所示，在一些实施例中，所述YOLO-V5骨干网络共进行5次下采样，分别生成320*320、160*160、80*80、40*40、20*20共5个尺度的特征图。在所述YOLO-V5骨干网络中，CBS特征提取模块和CSP特征提取模块均由卷积层（Convolution）+批量归一化层（BatchNormalization）+激活函数堆叠组成。

基于特征融合网络对提取的5个不同尺度的特征进行融合，如图1中Neck部分所示，特征融合网络从YOLO-V5骨干网络提取的5个不同尺度的特征中选取80*80、40*40、20*20三个尺度的特征进行融合从而获得上述对应三个尺度的融合特征。

其中，每个所述Head分支中均包括横向并行的车辆检测分支和车辆属性分类检测分支；将所述融合特征输入车辆检测分支进行计算后得到车辆检测框结果；所述车辆检测框结果的输出为x*y*w*h*置信度*3，其中（x,y）表示检测框的中心点坐标，（w,h）表示检测框的宽高,3表示每个特征网格会预测3个候选框。上述三个Head分支中车辆检测框结果的输出分别为20*20*（5*3）、40*40*（5*3）、80*80*（5*3）。将融合特征输入车辆属性分类检测分支进行计算并输出车辆属性分类检测结果。所述车辆属性分类检测结果的输出为：类别数*3；其中，3表示每个特征网格会预测3个候选框。上述三个Head分支中车辆属性分类检测结果的输出分别为20*20*（Class Num*3）、40*40*（Class Num*3）、80*80*（Class Num*3）。上述车辆属性识别系统在使用时每个Head分支中的车辆检测分支和车辆属性分类检测分支均共用同一组融合特征，即整个预测过程只需要进行一次特征提取和特征融合，从而大大减少了系统的计算量。

本申请的另一实施例公开一种电子设备，包括存储器和处理器，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述存储器和所述处理器之间互相通信连接，例如通过总线或者其他方式连接，所述计算机指令被处理器运行时，完成上述一种基于深度学习的车辆属性识别系统的方法所述的步骤。

其中，处理器优选但不限于是中央处理器(Central Processing Unit，CPU)。例如，处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路 (Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的基于深度学习的车辆属性识别系统的方法对应的程序指令/模块，处理器通过运行存储在存储器的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的一种基于深度学习的车辆属性识别系统的方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器所创建的数据等。此外，存储器优选但不限于高速随机存取存储器，例如，还可以是非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器还可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的程序，可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-StateDrive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

以上对本申请实施例所提供的一种基于深度学习的车辆属性识别系统及方法进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于深度学习的车辆属性识别系统，其特征在于，包括：

图像预处理模块，用于获取图像并对图像进行预处理；

其中，每个所述Head分支中均包括横向并行的车辆检测分支和车辆属性分类检测分支；所述车辆检测分支用于对输入的融合特征进行计算并输出车辆检测框结果；所述车辆属性分类检测分支用于对输入的融合特征进行计算并输出车辆属性分类检测结果；

所述车辆属性分类检测分支中包括：

多头注意力模块，所述多头注意力模块包括若干个横向并行的注意力分支；若干个横向并行的所述注意力分支用于对融合特征进行计算并获得对应的注意力图；所述注意力分支还包括空间注意力单元和通道注意力单元；其中，所述空间注意力单元包括四个卷积层和一个激活函数，所述通道注意力单元包括两个线性层和两个激活函数；

注意力聚合模块，用于对各注意力分支获得的注意力图进行归一化处理并对归一化处理后的注意力图进行训练以引导不同注意力分支关注车辆不同区域从而增加各注意力分支获得的注意力图之间的差异性，最后将各个注意力分支获得的注意力图进行融合后检测车辆属性分类结果；所述注意力聚合模块采用log softmax函数对各注意力分支获得的注意力图进行归一化处理，再采用分区损失函数对归一化处理后的注意力图进行训练以增加各个注意力分支获得的注意力图之间的差异性。

2.如权利要求1所述的基于深度学习的车辆属性识别系统，其特征在于，

所述注意力聚合模块采用log softmax函数对各注意力分支获得的注意力图进行归一化处理，所述log softmax函数如下：，

3.如权利要求1所述的基于深度学习的车辆属性识别系统，其特征在于，

所述分区损失函数为：，

4.如权利要求1所述的基于深度学习的车辆属性识别系统，其特征在于，

所述车辆检测框结果的输出为：x*y*w*h*置信度*3；其中（x,y）表示检测框的中心点坐标，（w,h）表示检测框的宽高，3表示每个特征网格会预测3个候选框。

5.如权利要求1所述的基于深度学习的车辆属性识别系统，其特征在于，

所述车辆属性分类检测结果的输出为：类别数*3；其中，3表示每个特征网格会预测3个候选框。

6.一种基于深度学习的车辆属性识别方法，其特征在于，包括：

获取图像并对图像进行预处理；

其中，每个Head分支中均包括横向并行的车辆检测分支和车辆属性分类检测分支；将融合特征输入车辆检测分支进行计算后得到车辆检测框结果；将融合特征输入车辆属性分类检测分支进行计算并输出车辆属性分类检测结果；

所述车辆属性分类检测分支中包括：

7.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述权利要求6方法所述的步骤。

8.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成上述权利要求6方法所述的步骤。