CN113888754A

CN113888754A - 一种基于雷达视觉融合的车辆多属性识别方法

Info

Publication number: CN113888754A
Application number: CN202110959048.5A
Authority: CN
Inventors: 李嘉锋; 郜征; 卓力; 徐晗; 李耀鹏
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2022-01-04
Anticipated expiration: 2041-08-20
Also published as: CN113888754B

Abstract

一种基于雷达视觉融合的车辆多属性识别方法属于计算机视觉领域和智能交通领域。首先，根据数据集中雷达检测到的车辆信息(车辆与视觉摄像机之间的距离)提取车辆感兴趣区域，将其构建成单通道二值图像与当前的RGB图像融合成3通道图像后，将该融合图像送入车辆多属性识别一体化网络进行网络训练。训练完毕后，利用雷达和视觉相机提取隧道中运动车辆信息(车辆坐标、距离)生成3通道图像后，送入车辆多属性识别网络模型进行检测识别，输出车辆具体位置、型号和颜色。

Description

一种基于雷达视觉融合的车辆多属性识别方法

技术领域

本发明提出一种基于毫米波雷达信息和视觉信息融合的车辆多属性识别方法，该方法可以准确且快速的检测出隧道中车辆的位置、型号、颜色信息，具有较高的准确性和鲁棒性。本发明属于计算机视觉领域和智能交通领域，具体涉及深度学习、图像处理等技术。

背景技术

高速公路隧道作为高速公路的关键路段，隧道内车辆稳定、安全的行驶关系到整个高速路网安全、通畅的运行。高速公路隧道具有空间狭小、内部结构复杂、空间相对封闭、视野不清楚、明暗适应问题、车通行量大且行驶速度快等诸多特点。由于以上特点，导致隧道内发生的事故多且事故后较难处理。

纯粹地依靠人力或者监控器对隧道内车辆进行监控、统计数量已经无法满足当前日益复杂的交通路网带来的巨大压力，并且其实时性与效率难以得到保障。利用高新技术建立智能化的车辆多属性识别系统将是未来高速公路隧道监控乃至整个智能交通领域的重中之重。在隧道内部署可靠性高的车辆多属性识别系统，一方面可以及时获知隧道内车辆通行情况、车流量数据，便于监控中心提前发布预警、快速疏导车辆，处理交通拥堵等问题；另一方面可以迅速的获取隧道内发生异常事件的车辆信息，便于交通部门快速组织救援进行处置，减少异常事件的影响和破坏。此外，部署该系统还可以极大地减少值班人员的劳动量和财力的消耗。

随着近些年，计算机视觉、图像处理技术、传感器技术等领域迅速的崛起，融合了上述诸多先进技术的车辆多属性识别系统应运而生。

毫米波雷达传感器具有测量精度高、测量距离远以及能够鲁棒的应对各种恶劣的天气环境的优点，但其本身易受到杂波影响且在隧道密闭环境中会出现部分区域检测不到的现象，并不适合单独在隧道中使用。但是，视觉技术正好可以弥补这点不足。因此构建毫米波雷达信息与视频信息融合的车辆检测识别框架能够同时利用视频信息的丰富性和雷达的高精度和稳定性，可以应对各种复杂的实际场景。

发明内容

本发明的目的在于提供一种在隧道场景下基于雷达信息和视觉信息融合的车辆多属性识别方法，通过雷达信息和视觉信息融合，仅采用单一深度卷积网络模型，即可精准、迅速地实现车辆的位置检测和多属性识别。

整体流程：首先，根据数据集中雷达检测到的车辆信息(车辆与视觉摄像机之间的距离)提取车辆感兴趣区域，将其构建成单通道二值图像与当前的RGB图像融合成3通道图像后，将该融合图像送入车辆多属性识别一体化网络进行网络训练。训练完毕后，利用雷达和视觉相机提取隧道中运动车辆信息(车辆坐标、距离)生成3通道图像后，送入车辆多属性识别网络模型进行检测识别，输出车辆具体位置、型号和颜色。

所述的整体流程，具体步骤如下：

步骤1：多属性标签集重新编码组合

将隧道车辆图像标签集中车型和车色属性标签重新进行二进制编码然后与车辆坐标，距离信息进行组合，得到二进制编码的车辆多属性组合标签集，用于车辆多属性识别网络的训练。

步骤2：雷达信息和视觉信息融合

步骤2.1：离线部分。利用构建好的隧道车辆数据集，获取到RGB 图像中车辆的坐标、距离(车辆与视觉摄像机之间的距离)。通过算法拟合数据集中的上述信息，得到车辆感兴趣区域矩形框的边长与距离之间的关系式。

利用得到的矩形框信息关系式计算出车辆感兴趣区域的矩形框尺寸，将矩形框处理成单通道二值图像区域后，与当前RGB图像融合成3通道图像。

步骤2.2：在线部分。在线部分利用离线部分产生的矩形框信息，然后根据雷达产生的距离信息构建单通道二值图像，随后与当前帧图像融合成3通道图像。

步骤3：网络结构设计及训练

步骤3.1：车辆多属性识别网络结构设计

针对隧道内车辆行驶速度高、流量大的特点设计了该网络结构，包括：特征快速提取部分、特征精细化处理部分、注意力-多尺度特征融合输出部分，用以提升网络的定位和多属性分类精度，提高网络运行速度，并使用步骤2中构建的融合后的图像训练该网络，得到车辆多属性识别网络模型。

步骤3.2：车辆多属性识别网络的训练

将车辆定位、车型、车色三个任务放在同一网络下进行学习，这些属性之间包含丰富的关联信息，可同时提升三个任务的性能，相比于单任务学习需要对多个网络进行训练，可以减少训练数据量和整体模型的参数规模，使得网络更加精准、迅速识别车辆属性，同时具有更好的泛化性。

步骤4：检测、识别车辆多属性信息

识别阶段，首先由雷达获取运动车辆的信息(车辆坐标，距离) 送入雷达信息与视觉信息融合在线部分，提取雷达信息映射在当前帧图像中车辆感兴趣区域，将其二值化处理后与当前帧图像融合成3通道图像，最后送入车辆多属性识别网络模型识别车辆的多种属性。

的特点：

目前，鲜有将毫米波雷达信息与车辆多属性识别结合在一起的算法，多数方法只依赖于视觉算法进行车辆的目标检测，通过不同的属性识别网络进行识别分析，这种方法不仅费时、还会消耗大量的硬件资源。从隧道实际场景出发，设计实现了一种基于雷达视觉融合的车辆多属性识别方法，可同时利用雷达信息和视觉信息完成针对隧道环境下的车辆检测和车辆多属性识别一体化，具有较高的精确性和鲁棒性；其次，采用端到端的思想，简化了车辆多属性识别系统的架构，加快了算法的检测识别速度，可满足实际应用中实时性的需要。

附图说明

图1基于毫米波雷达信息和视觉信息融合的车辆多属性识别方法流程图；

图2车辆多属性识别网络结构图；

图3快速提取模块结构图；

图4ResNeXt模块结构图；

图5特征精细化部分中双流交叉连接模块结构图；

图6注意力-多尺度特征融合输出部分结构图；

图7scSE注意力机制模块结构图；

具体实施方式

以下结合附图和具体实施方式对做进一步说明。

一种基于雷达视觉融合的车辆多属性识别方法，整体流程图如附图1所示。首先，根据数据集中雷达和视觉相机采集的车辆信息提取车辆感兴趣区域，生成单通道二值图像，然后利用雷视融合离线部分将该单通道二值图像与当前RGB图像融合成3通道图像，最后将该融合后的图像送入车辆多属性识别一体化网络进行网络训练。训练完毕后，获取隧道视频中1帧画面的雷达信息(车辆形心坐标、车辆距离)和视觉图像，然后根据雷视融合离线部分产生的矩形框信息，提取车辆感兴趣区域矩形框信息生成单通道二值图像，最后利用雷视融合在线部分将该二值图像与当前帧图像融合成3通道图像后，送入车辆多属性识别网络模型进行检测识别。

步骤1：多属性标签集重新编码组合

首先将数据集中的车辆多属性信息(车辆坐标、车辆距离、车色、车型)中车型、车色进行编码、组合后，使得图片中车辆的车型、车色信息融合为一个标签组合向量。车型、车色信息类别按照固定的位置排列，如表1所示。

表1车型、车色属性标签组合顺序

根据原有车辆属性的标注结果，如果该图像中的车辆的车型、车色对应着某一类别，则将相应位置的值设为1，同类别其他位置的值设为0。

例如，一张隧道车辆RGB图像中一辆车的属性标注为：车型为 Car，车色为Red，则按照上述规则进行编码、组合处理后，得到一个19维的二进制标签向量:[1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]。其中前5维只能有一个值为1，其余4维均为0。以此类推，在后面的14维数据中，只能有1个值为1，其余值为0。

中车辆坐标及距离信息的编码排列位置顺序如表2所示。

表2车辆坐标及距离信息的编码位置顺序

Xmin	视觉图像中车辆矩形框横坐标最小值
		Ymin	视觉图像中车辆矩形框纵坐标最小值
Xmax	视觉图像中车辆矩形框横坐标最大值
		Ymax	视觉图像中车辆矩形框纵坐标最大值
D	视觉图像中车辆与相机之间的距离(雷达提供)

如此可得，每个标注好的车辆感兴趣区域分别对应着一个二进制车型、车色标签组合向量、一个车辆坐标信息以及距离信息。

例如： [12,33,156,123,50,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]为一辆车的完整标注顺序，坐标为(12,33,156,123)，距离为50，类别为car，颜色为white。这些重新编排的样本信息组成了新的标签集，该标签集采用标准的VOC数据标注格式标注，用于后续车辆多属性识别网络的训练。

步骤2：雷达信息与视觉信息融合

步骤2.1：离线部分。首先，使用算法拟合数据集中雷达和视觉相机联合标注的车辆信息，找到车辆标注框宽w、高h与距离d之间的关系。

经过算法拟合后，得到宽w、高h和距离d的关系如下：

B_W(d)＝233×1.1×d^-0.5 (1)

B_H(d)＝233×1.1×d^-0.91 (2)

然后利用公式(1)和(2)生成车辆感兴趣区域，然后根据区域矩形框的信息生成(车辆感兴趣区域中处理成白色，其余外部背景部分处理成黑色)单通道二值图像，然后将单通道二值图像与当前RGB 图像融合成3通道图像。

步骤2.2：在线部分。在线部分仅利用离线部分产生的矩形框信息(w，h，d之间的关系)，提取雷达映射在当前帧图像中的车辆感兴趣区域信息，然后将该区域二值化处理生成单通道图像，最后与当前帧RGB图像融合成3通道图像。

步骤3：网络结构设计及训练

步骤3.1：车辆多属性识别网络结构设计

针对隧道场景下真实车辆状况进行分析设计了一种车辆多属性识别网络，对该网络进行训练可得到车辆多属性识别网络模型。设计的网络输入为608×608×3的图像。网络总共包括3个部分：特征快速提取部分、特征精细化部分、注意力-多尺度特征融合输出部分，网络结构部分如附图2所示。输出为一组向量，包含车辆坐标，置信度，车辆型号，车辆类别。该网络结构相关细节描述如下：

在下面网络模块部分中分别使用了BN层、Mish激活函数、Linear 激活函数、LeakyReLU激活函数、Concat特征拼接方法，用以提高车辆多属性识别网络的检测识别性能。在网络模块中，CBM模块代表：Conv+BN+Leaky ReLU；CBL模块代表：Conv+BN+Leaky ReLU。

(1)特征快速提取部分。该部分结构包括1个7x7x64的CBM模块和2个快速提取(Rapid Extractor)模块，快速提取模块如附图3 所示。CBM模块包含1个卷积层，1个BN层，1个Mish激活函数。快速提取模块包含2个ResNeXt Block模块和4个CBM模块和1个 BN+Leaky ReLU模块。设计该模块的目的在于提取丰富特征的同时不增加过多的计算量。

首先采用3x3卷积减低特征尺寸，然后采用两个1x1卷积将通道数缩减一半，其中一个1x1卷积计算后送入ResNeXt block进行计算，该做法用以减少计算瓶颈，随后与另一个进行特征通道上的拼接，构成大型的跳层连接模块用以增加CNN的学习能力，最后送入BN +Leaky ReLU模块+CBM模块归一化特征分布，提高特征通道数。其中，ResNeXt Block是ResNeXt的网络模块，如附图4所示。ResNeXt 为ResNet的改进，其借鉴了Inception的“分割-变换-聚合”的策略，但ResNeXt block采用同一拓扑分支，减少了参数量的同时引入“基数” (cardinality)，基数的增加可提高模型效果，比单纯地加深或加宽网络更为有效。

特征快速提取模块1中，输入的特征图尺寸为304x304x64，输出的特征图尺寸尺寸为152x152x128，其中C(通道数)为64。特征快速提取模块2中，输入的特征图尺寸为152x152x128，输出的特征图尺寸为38x38x256，其中C(通道数)为128。

(2)特征精细化部分。该部分由2个用于特征精细化的双流交叉模块、2个CBM模块组成。为了提取更加精细的特征同时提高特征的利用率，在特征细化部分采用双流交叉连接模块如附图5所示。该模块由1个

(c为通道数)的CBL模块(Conv+BN+Leaky ReLU)和1个

的CBM模块和双分支卷积组成，每个分支由4个 ResNeXt Block组成，最后将2个分支得到的特征图进行Concat操作送入1x1x2C的CBM模块。

在双流交叉连接模块1中，输入的特征图尺寸为38x38x256，输出的特征图尺寸为38x38x512，其中C(通道数)为256。在双流交叉连接模块2中，输入的特征图尺寸为19x19x512，输出的特征图尺寸为19x19x1024，C(通道数)为512。

(3)注意力-多尺度特征融合输出部分。该部分模块包括19×19、 38×38、72×72尺度的特征图、与上述3个尺度特征图相连接的scSE 注意力机制模块、3个结果模块。注意力机制-多尺度特征融合输出部分如附图6所示。

在隧道真实场景中，小型目标占据大多数，在网络高倍的步长下，小型目标图像块经过卷积运算后，不足几个像素，如此少量的特征难以支撑车辆的多属性识别。浅层特征相对于深层特征包含更多小目标信息。为了提高特征的信息表征能力，通过添加额外的短连接将浅层特征融入深层特征，增加小目标的有效特征数量，提高特征维度，同时为了进一步提纯特征，增加了scSE注意力模块，该模块不改变输入特征图的尺寸，输入特征图的尺寸与输出特征图尺寸相同，scSE 模块如附图7所示。经过scSE模块处理后，再利用FPN+PAN结构进行2次多尺度特征融合，增强特征的表征能力。最后，将不同尺度的特征分别送入3个结果模块。经过结果单元的计算后，输出车辆的多种属性信息。结果模块由3个3x3的CBM模块、2个1x1的CBM 模块、1个1×1卷积层构成。

结果模块中最后一个1×1卷积层的输出通道包含的信息为最终预测结果，输出通道数计算方式如下：

(4+1+classes)*3 (3)

其中，4表示车辆的矩形框坐标、1表示置信度、classes表示车辆的多属性类别，3表示每个尺度特征图预测3个结果。

整体来看车辆多属性识别网络的输出形式，通过网络得到3种不同尺度的预测结果，每个尺度的预测结果都对应72个通道，其中包含预测的车辆属性信息。每个尺度预测3个结果，共有 19*19*3+38*38*3+76*76*3个预测结果，每个预测结果对应24维通道，分别是4维的坐标预测结果、1维置信度预测结果、19维的车型、车色预测结果。

(4)损失函数。中损失函数由坐标回归损失+置信度损失+车辆多属性损失构成，如公式(4)所示。

L＝L_coordinates+L_confidence+L_{multi-attribute} (4)

其中坐标回归(x,y,w,h)损失使用CIOU损失函数计算，置信度和车辆多属性使用交叉熵损失函数。相关描述如下：

1)坐标损失函数。使用CIOU损失函数作为坐标损失函数，该函数考虑三个重要因素：重叠面积(IoU)、中心距离、长宽比。如公式(5)所示。

其中，重叠面积对应公式中IoU项。中心距离对应R项，R项中 b,b^gt(gt代表groundtruth)分别表示预测框(网络输出)和真实框的中心点，ρ²(*)表示欧拉距离，c表示预测框和真实框的最小外界矩形的对角线距离。长宽比对应公式中的αv项，v表示两框的长宽差距，用来衡量长宽比一致性，w^gt、h^gt为人工标注的车辆真实框的宽和长， w、h为网络输出的车辆预测框的宽和长。α项是调节系数，用于控制 v项的惩罚力度，K*K表示网格的个数即结果单元输出的结果特征图的尺寸：19x19、38x38、76x76，每个网格生成B(结果单元输出通道数：72)个anchor，每个anchor经过网络会得到相应的bounding box，最终形成K*K*B个bounding box，

为示性函数表示IOU大于阈值(0.5)的bounding box预测框的置信度才会计入误差。

2)置信度损失和车辆多属性损失。置信度损失采用交叉熵损失函数，分为两个部分，

有车辆目标，

无车辆目标(

为示性函数，表示IOU低于阈值(0.5)的bounding box预测框的置信度才会计入误差)，其中为了减少无车辆目标部分贡献权重，在无车辆目标部分增加了λ_noobj(λ_noobj取值为0.4)，如公式(6)所示。

其中，C_i为预测值；

为真实值。

由于车辆多属性标签内在的互斥性，所以对车型、车色分别设计了损失函数。采用sigmoid激活函数分别对网络输出的6维至10维、 11维至24维进行激活，然后送入针对车型、车色的交叉熵损失函数，如公式(7)和(8)所示。L_type和L_color分别代表车型和车色属性的损失：

其中c2表示车型种数，c3表示车色种数，

为真实概率，p_i为预测概率。

训练时车辆多属性损失L_{multi-attribute}由上述两部分损失相加而得，如公式(9)所示：

L_{multi-attribute}＝L_type+L_color (9)

步骤3.2：车辆多属性识别网络的训练

采用自建的隧道内雷达与相机联合采集、标定的车辆属性数据集，并将标签集按照步骤1所述方法进行重新整理。为了稳定网络的训练，加快网络收敛，采用多项训练策略。相关描述如下：

(1)数据增强。采用随机旋转0-15度，随机翻转，随机裁剪方法对输入图片进行数据增强处理；采用Dropblock正则化方法在网络中的每一个特征图上随机地删减一部分局部区域，增强网络的鲁棒性。

(2)anchor box的尺寸生成。使用K-means算法在整个训练集上对所有已标注的车辆进行9类中心聚类，得到聚类中心为:

{[10,13,16,30,31,23],[30,61,63,45,59,120],[116,90,156,198,373,326 ]}。

(3)学习率预热以及不定间隔调整组合方法。训练采用batch 为64，在前1000次迭代中，对学习率进行预热，让学习率从0.001 达到设定值0.004。在迭代次数达到10000次的时候，学习率降为0.001，在15000次时，学习率降为0.0001。在25000次时，学习率降为0.00001。在50000次时，学习率降为0.000001。

(4)Adam优化方法。动量因子momentum＝0.949，权重衰减因子decay＝0.0005。

在网络训练的每次迭代中，将经过雷视融合处理过的图片送入车辆多属性识别网络得到网络预测结果，然后通过步骤3.1中的损失函数，计算网络预测结果与该图片标注信息之间的损失值，随后回传损失值，更新网络参数，直至损失值稳定在0.5-0.6，停止训练，得到车辆多属性识别网络模型。

步骤4：检测、识别车辆多属性信息

在识别隧道中车辆多属性过程中，首先通过雷达检测到运动车辆的车辆距离和位置坐标，然后送入雷达信息与视觉信息在线融合部分，利用离线部分产生矩形框信息，如公式(1)和(2)所示，选取车辆感兴趣区域，然后根据感兴趣区域的位置信息生成一张单通道二值图像，随后与当前帧图像融合成一张3通道的融合图像，最后送入训练好的车辆多属性识别网络模型，得到车辆多属性信息。

Claims

1.一种基于雷达视觉融合的车辆多属性识别方法，其特征在于包括以下步骤：

步骤1：多属性标签集重新编码组合

将隧道车辆图像标签集中车型和车色属性标签重新进行二进制编码然后与车辆坐标，距离信息进行组合，得到二进制编码的车辆多属性组合标签集，用于车辆多属性识别网络的训练；

步骤2：雷达信息和视觉信息融合

步骤2.1：离线部分；利用构建好的隧道车辆数据集，获取到RGB图像中车辆的坐标、车辆与视觉摄像机之间的距离；通过算法拟合数据集中的上述信息，得到车辆感兴趣区域矩形框的边长与距离之间的关系式；

利用得到的矩形框信息关系式计算出车辆感兴趣区域的矩形框尺寸，将矩形框处理成单通道二值图像区域后，与当前RGB图像融合成3通道图像；

步骤2.2：在线部分；在线部分利用离线部分产生的矩形框信息，然后根据雷达产生的距离信息构建单通道二值图像，随后与当前帧图像融合成3通道图像；

步骤3：网络结构设计及训练

步骤3.1：车辆多属性识别网络结构设计

网络结构，包括：特征快速提取部分、特征精细化处理部分、注意力-多尺度特征融合输出部分，用以提升网络的定位和多属性分类精度，提高网络运行速度，并使用步骤2中构建的融合后的图像训练该网络，得到车辆多属性识别网络模型；

步骤3.2：车辆多属性识别网络的训练

将车辆定位、车型、车色三个任务放在同一网络下进行学习；

步骤4：检测、识别车辆多属性信息

识别阶段，首先由雷达获取运动车辆的信息包括车辆坐标和距离送入雷达信息与视觉信息融合在线部分，提取雷达信息映射在当前帧图像中车辆感兴趣区域，将其二值化处理后与当前帧图像融合成3通道图像，最后送入车辆多属性识别网络模型识别车辆的多种属性。

2.根据权利要求1所述的方法，其特征在于包括以下步骤：

步骤1：多属性标签集重新编码组合

首先将数据集中的车辆多属性信息包括车辆坐标、车辆距离、车色、车型进行编码、组合后，这些重新编排的样本信息组成了新的标签集，该标签集采用标准的VOC数据标注格式标注，用于后续车辆多属性识别网络的训练；

步骤2：雷达信息与视觉信息融合

步骤2.1：离线部分；首先，使用算法拟合数据集中雷达和视觉相机联合标注的车辆信息，找到车辆标注框宽w、高h与距离d之间的关系；

经过算法拟合后，得到宽w、高h和距离d的关系如下：

B_W(d)＝233×1.1×d^-0.5 (1)

B_H(d)＝233×1.1×d^-0.91 (2)

然后利用公式(1)和(2)生成车辆感兴趣区域，然后根据区域矩形框的信息生成单通道二值图像，然后将单通道二值图像与当前RGB图像融合成3通道图像；

步骤2.2：在线部分；在线部分仅利用离线部分产生的矩形框信息，提取雷达映射在当前帧图像中的车辆感兴趣区域信息，然后将该区域二值化处理生成单通道图像，最后与当前帧RGB图像融合成3通道图像；

步骤3：网络结构设计及训练

步骤3.1：车辆多属性识别网络结构设计

网络总共包括3个部分：特征快速提取部分、特征精细化部分、注意力-多尺度特征融合输出部分，网络结构输出为一组向量，包含车辆坐标，置信度，车辆型号，车辆类别；该网络结构相关细节描述如下：

在下面网络模块部分中分别使用了BN层、Mish激活函数、Linear激活函数、Leaky ReLU激活函数、Concat特征拼接方法，用以提高车辆多属性识别网络的检测识别性能；在网络模块中，CBM模块代表：Conv+BN+Leaky ReLU；CBL模块代表：Conv+BN+Leaky ReLU；

(1)特征快速提取部分；该部分结构包括1个7x7x64的CBM模块和2个快速提取(RapidExtractor)模块，快速提取模块如附图3所示；CBM模块包含1个卷积层，1个BN层，1个Mish激活函数；快速提取模块包含2个ResNeXt Block模块和4个CBM模块和1个BN+Leaky ReLU模块；

首先采用3x3卷积减低特征尺寸，然后采用两个1x1卷积将通道数缩减一半，其中一个1x1卷积计算后送入ResNeXt block进行计算，该做法用以减少计算瓶颈，随后与另一个进行特征通道上的拼接，构成大型的跳层连接模块用以增加CNN的学习能力，最后送入BN+Leaky ReLU模块+CBM模块归一化特征分布；

特征快速提取模块1中，输入的特征图尺寸为304x304x64，输出的特征图尺寸尺寸为152x152x128，其中通道数为64；特征快速提取模块2中，输入的特征图尺寸为152x152x128，输出的特征图尺寸为38x38x256，其中通道数为128；

(2)特征精细化部分；该部分由2个用于特征精细化的双流交叉模块、2个CBM模块组成；该模块由1个

的CBL模块(Conv+BN+Leaky ReLU)和1个

的CBM模块和双分支卷积组成，c为通道数每个分支由4个ResNeXt Block组成，最后将2个分支得到的特征图进行Concat操作送入1x1x2C的CBM模块；

在双流交叉连接模块1中，输入的特征图尺寸为38x38x256，输出的特征图尺寸为38x38x512，其中通道数为256；在双流交叉连接模块2中，输入的特征图尺寸为19x19x512，输出的特征图尺寸为19x19x1024，通道数为512；

(3)注意力-多尺度特征融合输出部分；该部分模块包括19×19、38×38、72×72尺度的特征图、与上述3个尺度特征图相连接的scSE注意力机制模块、3个结果模块；

增加了scSE注意力模块，经过scSE模块处理后，再利用FPN+PAN结构进行2次多尺度特征融合，，将不同尺度的特征分别送入3个结果模块；经过结果单元的计算后，输出车辆的多种属性信息，结果模块由3个3x3的CBM模块、2个1x1的CBM模块、1个1×1卷积层构成；

(4+1+classes)*3 (3)

其中，4表示车辆的矩形框坐标、1表示置信度、classes表示车辆的多属性类别，3表示每个尺度特征图预测3个结果；

整体来看车辆多属性识别网络的输出形式，通过网络得到3种不同尺度的预测结果，每个尺度的预测结果都对应72个通道，其中包含预测的车辆属性信息；每个尺度预测3个结果，共有19*19*3+38*38*3+76*76*3个预测结果，每个预测结果对应24维通道，分别是4维的坐标预测结果、1维置信度预测结果、19维的车型、车色预测结果；

(4)损失函数；

损失函数由坐标回归损失+置信度损失+车辆多属性损失构成，如公式(4)所示；

L＝L_coordinates+L_confidence+L_{multi-attribute} (4)

其中坐标回归(x,y,w,h)损失使用CIOU损失函数计算，置信度和车辆多属性使用交叉熵损失函数；相关描述如下：

1)坐标损失函数；使用CIOU损失函数作为坐标损失函数，该函数考虑三个重要因素：重叠面积(IoU)、中心距离、长宽比；如公式(5)所示；

其中，重叠面积对应公式中IoU项；中心距离对应R项，R项中b，b^gt(gt代表groundtruth)分别表示预测框(网络输出)和真实框的中心点，ρ²(*)表示欧拉距离，c表示预测框和真实框的最小外界矩形的对角线距离；长宽比对应公式中的αv项，v表示两框的长宽差距，用来衡量长宽比一致性，w^gt、h^gt为人工标注的车辆真实框的宽和长，w、h为网络输出的车辆预测框的宽和长；α项是调节系数，用于控制v项的惩罚力度，K*K表示网格的个数即结果单元输出的结果特征图的尺寸：19x19、38x38、76x76，每个网格生成B(结果单元输出通道数：72)个anchor，每个anchor经过网络会得到相应的bounding box，最终形成K*K*B个bounding box，