CN113888754A - 一种基于雷达视觉融合的车辆多属性识别方法 - Google Patents
一种基于雷达视觉融合的车辆多属性识别方法 Download PDFInfo
- Publication number
- CN113888754A CN113888754A CN202110959048.5A CN202110959048A CN113888754A CN 113888754 A CN113888754 A CN 113888754A CN 202110959048 A CN202110959048 A CN 202110959048A CN 113888754 A CN113888754 A CN 113888754A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- attribute
- network
- information
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000004927 fusion Effects 0.000 title claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000001514 detection method Methods 0.000 claims abstract description 9
- 239000003086 colorant Substances 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 35
- 230000000007 visual effect Effects 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 16
- 230000004913 activation Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000013461 design Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 9
- 230000001965 increasing effect Effects 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 2
- 230000003213 activating effect Effects 0.000 claims description 2
- 238000005520 cutting process Methods 0.000 claims description 2
- 238000009826 distribution Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims description 2
- 238000007499 fusion processing Methods 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 230000003247 decreasing effect Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000007670 refining Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/017—Detecting movement of traffic to be counted or controlled identifying vehicles
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
一种基于雷达视觉融合的车辆多属性识别方法属于计算机视觉领域和智能交通领域。首先,根据数据集中雷达检测到的车辆信息(车辆与视觉摄像机之间的距离)提取车辆感兴趣区域,将其构建成单通道二值图像与当前的RGB图像融合成3通道图像后,将该融合图像送入车辆多属性识别一体化网络进行网络训练。训练完毕后,利用雷达和视觉相机提取隧道中运动车辆信息(车辆坐标、距离)生成3通道图像后,送入车辆多属性识别网络模型进行检测识别,输出车辆具体位置、型号和颜色。
Description
技术领域
本发明提出一种基于毫米波雷达信息和视觉信息融合的车辆多 属性识别方法,该方法可以准确且快速的检测出隧道中车辆的位置、 型号、颜色信息,具有较高的准确性和鲁棒性。本发明属于计算机视 觉领域和智能交通领域,具体涉及深度学习、图像处理等技术。
背景技术
高速公路隧道作为高速公路的关键路段,隧道内车辆稳定、安全 的行驶关系到整个高速路网安全、通畅的运行。高速公路隧道具有空 间狭小、内部结构复杂、空间相对封闭、视野不清楚、明暗适应问题、 车通行量大且行驶速度快等诸多特点。由于以上特点,导致隧道内发 生的事故多且事故后较难处理。
纯粹地依靠人力或者监控器对隧道内车辆进行监控、统计数量已 经无法满足当前日益复杂的交通路网带来的巨大压力,并且其实时性 与效率难以得到保障。利用高新技术建立智能化的车辆多属性识别系 统将是未来高速公路隧道监控乃至整个智能交通领域的重中之重。在 隧道内部署可靠性高的车辆多属性识别系统,一方面可以及时获知隧 道内车辆通行情况、车流量数据,便于监控中心提前发布预警、快速 疏导车辆,处理交通拥堵等问题;另一方面可以迅速的获取隧道内发 生异常事件的车辆信息,便于交通部门快速组织救援进行处置,减少 异常事件的影响和破坏。此外,部署该系统还可以极大地减少值班人 员的劳动量和财力的消耗。
随着近些年,计算机视觉、图像处理技术、传感器技术等领域迅 速的崛起,融合了上述诸多先进技术的车辆多属性识别系统应运而生。
毫米波雷达传感器具有测量精度高、测量距离远以及能够鲁棒的 应对各种恶劣的天气环境的优点,但其本身易受到杂波影响且在隧道 密闭环境中会出现部分区域检测不到的现象,并不适合单独在隧道中 使用。但是,视觉技术正好可以弥补这点不足。因此构建毫米波雷达 信息与视频信息融合的车辆检测识别框架能够同时利用视频信息的 丰富性和雷达的高精度和稳定性,可以应对各种复杂的实际场景。
发明内容
本发明的目的在于提供一种在隧道场景下基于雷达信息和视觉 信息融合的车辆多属性识别方法,通过雷达信息和视觉信息融合,仅 采用单一深度卷积网络模型,即可精准、迅速地实现车辆的位置检测 和多属性识别。
整体流程:首先,根据数据集中雷达检测到的车辆信息(车辆与 视觉摄像机之间的距离)提取车辆感兴趣区域,将其构建成单通道二 值图像与当前的RGB图像融合成3通道图像后,将该融合图像送入 车辆多属性识别一体化网络进行网络训练。训练完毕后,利用雷达和 视觉相机提取隧道中运动车辆信息(车辆坐标、距离)生成3通道图 像后,送入车辆多属性识别网络模型进行检测识别,输出车辆具体位 置、型号和颜色。
所述的整体流程,具体步骤如下:
步骤1:多属性标签集重新编码组合
将隧道车辆图像标签集中车型和车色属性标签重新进行二进制 编码然后与车辆坐标,距离信息进行组合,得到二进制编码的车辆多 属性组合标签集,用于车辆多属性识别网络的训练。
步骤2:雷达信息和视觉信息融合
步骤2.1:离线部分。利用构建好的隧道车辆数据集,获取到RGB 图像中车辆的坐标、距离(车辆与视觉摄像机之间的距离)。通过算 法拟合数据集中的上述信息,得到车辆感兴趣区域矩形框的边长与距 离之间的关系式。
利用得到的矩形框信息关系式计算出车辆感兴趣区域的矩形框 尺寸,将矩形框处理成单通道二值图像区域后,与当前RGB图像融 合成3通道图像。
步骤2.2:在线部分。在线部分利用离线部分产生的矩形框信息, 然后根据雷达产生的距离信息构建单通道二值图像,随后与当前帧图 像融合成3通道图像。
步骤3:网络结构设计及训练
步骤3.1:车辆多属性识别网络结构设计
针对隧道内车辆行驶速度高、流量大的特点设计了该网络结构, 包括:特征快速提取部分、特征精细化处理部分、注意力-多尺度特 征融合输出部分,用以提升网络的定位和多属性分类精度,提高网络 运行速度,并使用步骤2中构建的融合后的图像训练该网络,得到车 辆多属性识别网络模型。
步骤3.2:车辆多属性识别网络的训练
将车辆定位、车型、车色三个任务放在同一网络下进行学习,这 些属性之间包含丰富的关联信息,可同时提升三个任务的性能,相比 于单任务学习需要对多个网络进行训练,可以减少训练数据量和整体 模型的参数规模,使得网络更加精准、迅速识别车辆属性,同时具有 更好的泛化性。
步骤4:检测、识别车辆多属性信息
识别阶段,首先由雷达获取运动车辆的信息(车辆坐标,距离) 送入雷达信息与视觉信息融合在线部分,提取雷达信息映射在当前帧 图像中车辆感兴趣区域,将其二值化处理后与当前帧图像融合成3通 道图像,最后送入车辆多属性识别网络模型识别车辆的多种属性。
的特点:
目前,鲜有将毫米波雷达信息与车辆多属性识别结合在一起的算 法,多数方法只依赖于视觉算法进行车辆的目标检测,通过不同的属 性识别网络进行识别分析,这种方法不仅费时、还会消耗大量的硬件 资源。从隧道实际场景出发,设计实现了一种基于雷达视觉融合的车 辆多属性识别方法,可同时利用雷达信息和视觉信息完成针对隧道环 境下的车辆检测和车辆多属性识别一体化,具有较高的精确性和鲁棒 性;其次,采用端到端的思想,简化了车辆多属性识别系统的架构, 加快了算法的检测识别速度,可满足实际应用中实时性的需要。
附图说明
图1基于毫米波雷达信息和视觉信息融合的车辆多属性识别方 法流程图;
图2车辆多属性识别网络结构图;
图3快速提取模块结构图;
图4ResNeXt模块结构图;
图5特征精细化部分中双流交叉连接模块结构图;
图6注意力-多尺度特征融合输出部分结构图;
图7scSE注意力机制模块结构图;
具体实施方式
以下结合附图和具体实施方式对做进一步说明。
一种基于雷达视觉融合的车辆多属性识别方法,整体流程图如附 图1所示。首先,根据数据集中雷达和视觉相机采集的车辆信息提取 车辆感兴趣区域,生成单通道二值图像,然后利用雷视融合离线部分 将该单通道二值图像与当前RGB图像融合成3通道图像,最后将该 融合后的图像送入车辆多属性识别一体化网络进行网络训练。训练完 毕后,获取隧道视频中1帧画面的雷达信息(车辆形心坐标、车辆距 离)和视觉图像,然后根据雷视融合离线部分产生的矩形框信息,提 取车辆感兴趣区域矩形框信息生成单通道二值图像,最后利用雷视融 合在线部分将该二值图像与当前帧图像融合成3通道图像后,送入车 辆多属性识别网络模型进行检测识别。
步骤1:多属性标签集重新编码组合
首先将数据集中的车辆多属性信息(车辆坐标、车辆距离、车色、 车型)中车型、车色进行编码、组合后,使得图片中车辆的车型、车 色信息融合为一个标签组合向量。车型、车色信息类别按照固定的位 置排列,如表1所示。
表1车型、车色属性标签组合顺序
根据原有车辆属性的标注结果,如果该图像中的车辆的车型、车 色对应着某一类别,则将相应位置的值设为1,同类别其他位置的值 设为0。
例如,一张隧道车辆RGB图像中一辆车的属性标注为:车型为 Car,车色为Red,则按照上述规则进行编码、组合处理后,得到一 个19维的二进制标签向 量:[1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]。其中前5维只能有一 个值为1,其余4维均为0。以此类推,在后面的14维数据中,只能 有1个值为1,其余值为0。
中车辆坐标及距离信息的编码排列位置顺序如表2所示。
表2车辆坐标及距离信息的编码位置顺序
Xmin | 视觉图像中车辆矩形框横坐标最小值 |
Ymin | 视觉图像中车辆矩形框纵坐标最小值 |
Xmax | 视觉图像中车辆矩形框横坐标最大值 |
Ymax | 视觉图像中车辆矩形框纵坐标最大值 |
D | 视觉图像中车辆与相机之间的距离(雷达提供) |
如此可得,每个标注好的车辆感兴趣区域分别对应着一个二进制 车型、车色标签组合向量、一个车辆坐标信息以及距离信息。
例如: [12,33,156,123,50,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]为一辆 车的完整标注顺序,坐标为(12,33,156,123),距离为50,类别为car, 颜色为white。这些重新编排的样本信息组成了新的标签集,该标签 集采用标准的VOC数据标注格式标注,用于后续车辆多属性识别网 络的训练。
步骤2:雷达信息与视觉信息融合
步骤2.1:离线部分。首先,使用算法拟合数据集中雷达和视觉 相机联合标注的车辆信息,找到车辆标注框宽w、高h与距离d之间 的关系。
经过算法拟合后,得到宽w、高h和距离d的关系如下:
BW(d)=233×1.1×d-0.5 (1)
BH(d)=233×1.1×d-0.91 (2)
然后利用公式(1)和(2)生成车辆感兴趣区域,然后根据区域 矩形框的信息生成(车辆感兴趣区域中处理成白色,其余外部背景部 分处理成黑色)单通道二值图像,然后将单通道二值图像与当前RGB 图像融合成3通道图像。
步骤2.2:在线部分。在线部分仅利用离线部分产生的矩形框信 息(w,h,d之间的关系),提取雷达映射在当前帧图像中的车辆感 兴趣区域信息,然后将该区域二值化处理生成单通道图像,最后与当 前帧RGB图像融合成3通道图像。
步骤3:网络结构设计及训练
步骤3.1:车辆多属性识别网络结构设计
针对隧道场景下真实车辆状况进行分析设计了一种车辆多属性 识别网络,对该网络进行训练可得到车辆多属性识别网络模型。设计 的网络输入为608×608×3的图像。网络总共包括3个部分:特征快速 提取部分、特征精细化部分、注意力-多尺度特征融合输出部分,网 络结构部分如附图2所示。输出为一组向量,包含车辆坐标,置信度, 车辆型号,车辆类别。该网络结构相关细节描述如下:
在下面网络模块部分中分别使用了BN层、Mish激活函数、Linear 激活函数、LeakyReLU激活函数、Concat特征拼接方法,用以提高 车辆多属性识别网络的检测识别性能。在网络模块中,CBM模块代 表:Conv+BN+Leaky ReLU;CBL模块代表:Conv+BN+Leaky ReLU。
(1)特征快速提取部分。该部分结构包括1个7x7x64的CBM模 块和2个快速提取(Rapid Extractor)模块,快速提取模块如附图3 所示。CBM模块包含1个卷积层,1个BN层,1个Mish激活函数。 快速提取模块包含2个ResNeXt Block模块和4个CBM模块和1个 BN+Leaky ReLU模块。设计该模块的目的在于提取丰富特征的同时 不增加过多的计算量。
首先采用3x3卷积减低特征尺寸,然后采用两个1x1卷积将通道 数缩减一半,其中一个1x1卷积计算后送入ResNeXt block进行计算, 该做法用以减少计算瓶颈,随后与另一个进行特征通道上的拼接,构 成大型的跳层连接模块用以增加CNN的学习能力,最后送入BN +Leaky ReLU模块+CBM模块归一化特征分布,提高特征通道数。其 中,ResNeXt Block是ResNeXt的网络模块,如附图4所示。ResNeXt 为ResNet的改进,其借鉴了Inception的“分割-变换-聚合”的策略, 但ResNeXt block采用同一拓扑分支,减少了参数量的同时引入“基数” (cardinality),基数的增加可提高模型效果,比单纯地加深或加宽网 络更为有效。
特征快速提取模块1中,输入的特征图尺寸为304x304x64,输 出的特征图尺寸尺寸为152x152x128,其中C(通道数)为64。特征 快速提取模块2中,输入的特征图尺寸为152x152x128,输出的特征 图尺寸为38x38x256,其中C(通道数)为128。
(2)特征精细化部分。该部分由2个用于特征精细化的双流交叉 模块、2个CBM模块组成。为了提取更加精细的特征同时提高特征 的利用率,在特征细化部分采用双流交叉连接模块如附图5所示。该 模块由1个(c为通道数)的CBL模块(Conv+BN+Leaky ReLU)和1个的CBM模块和双分支卷积组成,每个分支由4个 ResNeXt Block组成,最后将2个分支得到的特征图进行Concat操作 送入1x1x2C的CBM模块。
在双流交叉连接模块1中,输入的特征图尺寸为38x38x256,输 出的特征图尺寸为38x38x512,其中C(通道数)为256。在双流交 叉连接模块2中,输入的特征图尺寸为19x19x512,输出的特征图尺 寸为19x19x1024,C(通道数)为512。
(3)注意力-多尺度特征融合输出部分。该部分模块包括19×19、 38×38、72×72尺度的特征图、与上述3个尺度特征图相连接的scSE 注意力机制模块、3个结果模块。注意力机制-多尺度特征融合输出部 分如附图6所示。
在隧道真实场景中,小型目标占据大多数,在网络高倍的步长下, 小型目标图像块经过卷积运算后,不足几个像素,如此少量的特征难 以支撑车辆的多属性识别。浅层特征相对于深层特征包含更多小目标 信息。为了提高特征的信息表征能力,通过添加额外的短连接将浅层 特征融入深层特征,增加小目标的有效特征数量,提高特征维度,同 时为了进一步提纯特征,增加了scSE注意力模块,该模块不改变输 入特征图的尺寸,输入特征图的尺寸与输出特征图尺寸相同,scSE 模块如附图7所示。经过scSE模块处理后,再利用FPN+PAN结构 进行2次多尺度特征融合,增强特征的表征能力。最后,将不同尺度 的特征分别送入3个结果模块。经过结果单元的计算后,输出车辆的 多种属性信息。结果模块由3个3x3的CBM模块、2个1x1的CBM 模块、1个1×1卷积层构成。
结果模块中最后一个1×1卷积层的输出通道包含的信息为最终 预测结果,输出通道数计算方式如下:
(4+1+classes)*3 (3)
其中,4表示车辆的矩形框坐标、1表示置信度、classes表示车 辆的多属性类别,3表示每个尺度特征图预测3个结果。
整体来看车辆多属性识别网络的输出形式,通过网络得到3种不 同尺度的预测结果,每个尺度的预测结果都对应72个通道,其中包 含预测的车辆属性信息。每个尺度预测3个结果,共有 19*19*3+38*38*3+76*76*3个预测结果,每个预测结果对应24维通 道,分别是4维的坐标预测结果、1维置信度预测结果、19维的车型、 车色预测结果。
(4)损失函数。中损失函数由坐标回归损失+置信度损失+车辆多 属性损失构成,如公式(4)所示。
L=Lcoordinates+Lconfidence+Lmulti-attribute (4)
其中坐标回归(x,y,w,h)损失使用CIOU损失函数计算,置信度 和车辆多属性使用交叉熵损失函数。相关描述如下:
1)坐标损失函数。使用CIOU损失函数作为坐标损失函数,该 函数考虑三个重要因素:重叠面积(IoU)、中心距离、长宽比。如公 式(5)所示。
其中,重叠面积对应公式中IoU项。中心距离对应R项,R项中 b,bgt(gt代表groundtruth)分别表示预测框(网络输出)和真实框 的中心点,ρ2(*)表示欧拉距离,c表示预测框和真实框的最小外界矩 形的对角线距离。长宽比对应公式中的αv项,v表示两框的长宽差距, 用来衡量长宽比一致性,wgt、hgt为人工标注的车辆真实框的宽和长, w、h为网络输出的车辆预测框的宽和长。α项是调节系数,用于控制 v项的惩罚力度,K*K表示网格的个数即结果单元输出的结果特征图 的尺寸:19x19、38x38、76x76,每个网格生成B(结果单元输出通 道数:72)个anchor,每个anchor经过网络会得到相应的bounding box, 最终形成K*K*B个bounding box,为示性函数表示IOU大于阈 值(0.5)的bounding box预测框的置信度才会计入误差。
2)置信度损失和车辆多属性损失。置信度损失采用交叉熵损失 函数,分为两个部分,有车辆目标,无车辆目标(为 示性函数,表示IOU低于阈值(0.5)的bounding box预测框的置信 度才会计入误差),其中为了减少无车辆目标部分贡献权重,在无车 辆目标部分增加了λnoobj(λnoobj取值为0.4),如公式(6)所示。
由于车辆多属性标签内在的互斥性,所以对车型、车色分别设计 了损失函数。采用sigmoid激活函数分别对网络输出的6维至10维、 11维至24维进行激活,然后送入针对车型、车色的交叉熵损失函数, 如公式(7)和(8)所示。Ltype和Lcolor分别代表车型和车色属性的损失:
训练时车辆多属性损失Lmulti-attribute由上述两部分损失相加而 得,如公式(9)所示:
Lmulti-attribute=Ltype+Lcolor (9)
步骤3.2:车辆多属性识别网络的训练
采用自建的隧道内雷达与相机联合采集、标定的车辆属性数据集, 并将标签集按照步骤1所述方法进行重新整理。为了稳定网络的训练, 加快网络收敛,采用多项训练策略。相关描述如下:
(1)数据增强。采用随机旋转0-15度,随机翻转,随机裁剪方 法对输入图片进行数据增强处理;采用Dropblock正则化方法在网络 中的每一个特征图上随机地删减一部分局部区域,增强网络的鲁棒性。
(2)anchor box的尺寸生成。使用K-means算法在整个训练集 上对所有已标注的车辆进行9类中心聚类,得到聚类中心为:
{[10,13,16,30,31,23],[30,61,63,45,59,120],[116,90,156,198,373,326 ]}。
(3)学习率预热以及不定间隔调整组合方法。训练采用batch 为64,在前1000次迭代中,对学习率进行预热,让学习率从0.001 达到设定值0.004。在迭代次数达到10000次的时候,学习率降为0.001, 在15000次时,学习率降为0.0001。在25000次时,学习率降为0.00001。 在50000次时,学习率降为0.000001。
(4)Adam优化方法。动量因子momentum=0.949,权重衰减因 子decay=0.0005。
在网络训练的每次迭代中,将经过雷视融合处理过的图片送入车 辆多属性识别网络得到网络预测结果,然后通过步骤3.1中的损失函 数,计算网络预测结果与该图片标注信息之间的损失值,随后回传损 失值,更新网络参数,直至损失值稳定在0.5-0.6,停止训练,得到车 辆多属性识别网络模型。
步骤4:检测、识别车辆多属性信息
在识别隧道中车辆多属性过程中,首先通过雷达检测到运动车辆 的车辆距离和位置坐标,然后送入雷达信息与视觉信息在线融合部分, 利用离线部分产生矩形框信息,如公式(1)和(2)所示,选取车辆 感兴趣区域,然后根据感兴趣区域的位置信息生成一张单通道二值图 像,随后与当前帧图像融合成一张3通道的融合图像,最后送入训练 好的车辆多属性识别网络模型,得到车辆多属性信息。
Claims (2)
1.一种基于雷达视觉融合的车辆多属性识别方法,其特征在于包括以下步骤:
步骤1:多属性标签集重新编码组合
将隧道车辆图像标签集中车型和车色属性标签重新进行二进制编码然后与车辆坐标,距离信息进行组合,得到二进制编码的车辆多属性组合标签集,用于车辆多属性识别网络的训练;
步骤2:雷达信息和视觉信息融合
步骤2.1:离线部分;利用构建好的隧道车辆数据集,获取到RGB图像中车辆的坐标、车辆与视觉摄像机之间的距离;通过算法拟合数据集中的上述信息,得到车辆感兴趣区域矩形框的边长与距离之间的关系式;
利用得到的矩形框信息关系式计算出车辆感兴趣区域的矩形框尺寸,将矩形框处理成单通道二值图像区域后,与当前RGB图像融合成3通道图像;
步骤2.2:在线部分;在线部分利用离线部分产生的矩形框信息,然后根据雷达产生的距离信息构建单通道二值图像,随后与当前帧图像融合成3通道图像;
步骤3:网络结构设计及训练
步骤3.1:车辆多属性识别网络结构设计
网络结构,包括:特征快速提取部分、特征精细化处理部分、注意力-多尺度特征融合输出部分,用以提升网络的定位和多属性分类精度,提高网络运行速度,并使用步骤2中构建的融合后的图像训练该网络,得到车辆多属性识别网络模型;
步骤3.2:车辆多属性识别网络的训练
将车辆定位、车型、车色三个任务放在同一网络下进行学习;
步骤4:检测、识别车辆多属性信息
识别阶段,首先由雷达获取运动车辆的信息包括车辆坐标和距离送入雷达信息与视觉信息融合在线部分,提取雷达信息映射在当前帧图像中车辆感兴趣区域,将其二值化处理后与当前帧图像融合成3通道图像,最后送入车辆多属性识别网络模型识别车辆的多种属性。
2.根据权利要求1所述的方法,其特征在于包括以下步骤:
步骤1:多属性标签集重新编码组合
首先将数据集中的车辆多属性信息包括车辆坐标、车辆距离、车色、车型进行编码、组合后,这些重新编排的样本信息组成了新的标签集,该标签集采用标准的VOC数据标注格式标注,用于后续车辆多属性识别网络的训练;
步骤2:雷达信息与视觉信息融合
步骤2.1:离线部分;首先,使用算法拟合数据集中雷达和视觉相机联合标注的车辆信息,找到车辆标注框宽w、高h与距离d之间的关系;
经过算法拟合后,得到宽w、高h和距离d的关系如下:
BW(d)=233×1.1×d-0.5 (1)
BH(d)=233×1.1×d-0.91 (2)
然后利用公式(1)和(2)生成车辆感兴趣区域,然后根据区域矩形框的信息生成单通道二值图像,然后将单通道二值图像与当前RGB图像融合成3通道图像;
步骤2.2:在线部分;在线部分仅利用离线部分产生的矩形框信息,提取雷达映射在当前帧图像中的车辆感兴趣区域信息,然后将该区域二值化处理生成单通道图像,最后与当前帧RGB图像融合成3通道图像;
步骤3:网络结构设计及训练
步骤3.1:车辆多属性识别网络结构设计
网络总共包括3个部分:特征快速提取部分、特征精细化部分、注意力-多尺度特征融合输出部分,网络结构输出为一组向量,包含车辆坐标,置信度,车辆型号,车辆类别;该网络结构相关细节描述如下:
在下面网络模块部分中分别使用了BN层、Mish激活函数、Linear激活函数、Leaky ReLU激活函数、Concat特征拼接方法,用以提高车辆多属性识别网络的检测识别性能;在网络模块中,CBM模块代表:Conv+BN+Leaky ReLU;CBL模块代表:Conv+BN+Leaky ReLU;
(1)特征快速提取部分;该部分结构包括1个7x7x64的CBM模块和2个快速提取(RapidExtractor)模块,快速提取模块如附图3所示;CBM模块包含1个卷积层,1个BN层,1个Mish激活函数;快速提取模块包含2个ResNeXt Block模块和4个CBM模块和1个BN+Leaky ReLU模块;
首先采用3x3卷积减低特征尺寸,然后采用两个1x1卷积将通道数缩减一半,其中一个1x1卷积计算后送入ResNeXt block进行计算,该做法用以减少计算瓶颈,随后与另一个进行特征通道上的拼接,构成大型的跳层连接模块用以增加CNN的学习能力,最后送入BN+Leaky ReLU模块+CBM模块归一化特征分布;
特征快速提取模块1中,输入的特征图尺寸为304x304x64,输出的特征图尺寸尺寸为152x152x128,其中通道数为64;特征快速提取模块2中,输入的特征图尺寸为152x152x128,输出的特征图尺寸为38x38x256,其中通道数为128;
(2)特征精细化部分;该部分由2个用于特征精细化的双流交叉模块、2个CBM模块组成;该模块由1个的CBL模块(Conv+BN+Leaky ReLU)和1个的CBM模块和双分支卷积组成,c为通道数每个分支由4个ResNeXt Block组成,最后将2个分支得到的特征图进行Concat操作送入1x1x2C的CBM模块;
在双流交叉连接模块1中,输入的特征图尺寸为38x38x256,输出的特征图尺寸为38x38x512,其中通道数为256;在双流交叉连接模块2中,输入的特征图尺寸为19x19x512,输出的特征图尺寸为19x19x1024,通道数为512;
(3)注意力-多尺度特征融合输出部分;该部分模块包括19×19、38×38、72×72尺度的特征图、与上述3个尺度特征图相连接的scSE注意力机制模块、3个结果模块;
增加了scSE注意力模块,经过scSE模块处理后,再利用FPN+PAN结构进行2次多尺度特征融合,,将不同尺度的特征分别送入3个结果模块;经过结果单元的计算后,输出车辆的多种属性信息,结果模块由3个3x3的CBM模块、2个1x1的CBM模块、1个1×1卷积层构成;
结果模块中最后一个1×1卷积层的输出通道包含的信息为最终预测结果,输出通道数计算方式如下:
(4+1+classes)*3 (3)
其中,4表示车辆的矩形框坐标、1表示置信度、classes表示车辆的多属性类别,3表示每个尺度特征图预测3个结果;
整体来看车辆多属性识别网络的输出形式,通过网络得到3种不同尺度的预测结果,每个尺度的预测结果都对应72个通道,其中包含预测的车辆属性信息;每个尺度预测3个结果,共有19*19*3+38*38*3+76*76*3个预测结果,每个预测结果对应24维通道,分别是4维的坐标预测结果、1维置信度预测结果、19维的车型、车色预测结果;
(4)损失函数;
损失函数由坐标回归损失+置信度损失+车辆多属性损失构成,如公式(4)所示;
L=Lcoordinates+Lconfidence+Lmulti-attribute (4)
其中坐标回归(x,y,w,h)损失使用CIOU损失函数计算,置信度和车辆多属性使用交叉熵损失函数;相关描述如下:
1)坐标损失函数;使用CIOU损失函数作为坐标损失函数,该函数考虑三个重要因素:重叠面积(IoU)、中心距离、长宽比;如公式(5)所示;
其中,重叠面积对应公式中IoU项;中心距离对应R项,R项中b,bgt(gt代表groundtruth)分别表示预测框(网络输出)和真实框的中心点,ρ2(*)表示欧拉距离,c表示预测框和真实框的最小外界矩形的对角线距离;长宽比对应公式中的αv项,v表示两框的长宽差距,用来衡量长宽比一致性,wgt、hgt为人工标注的车辆真实框的宽和长,w、h为网络输出的车辆预测框的宽和长;α项是调节系数,用于控制v项的惩罚力度,K*K表示网格的个数即结果单元输出的结果特征图的尺寸:19x19、38x38、76x76,每个网格生成B(结果单元输出通道数:72)个anchor,每个anchor经过网络会得到相应的bounding box,最终形成K*K*B个bounding box,为示性函数表示IOU大于阈值0.5的bounding box预测框的置信度才会计入误差;
2)置信度损失和车辆多属性损失;置信度损失采用交叉熵损失函数,分为两个部分,有车辆目标,无车辆目标;为示性函数,表示IOU低于阈值(0.5)的bounding box预测框的置信度才会计入误差;其中为了减少无车辆目标部分贡献权重,在无车辆目标部分增加了λnoobj(λnoobj取值为0.4),如公式(6)所示;
由于车辆多属性标签内在的互斥性,所以对车型、车色分别设计了损失函数;采用sigmoid激活函数分别对网络输出的6维至10维、11维至24维进行激活,然后送入针对车型、车色的交叉熵损失函数,如公式(7)和(8)所示;Ltype和Lcolor分别代表车型和车色属性的损失:
训练时车辆多属性损失Lmulti-attribute由上述两部分损失相加而得,如公式(9)所示:
Lmulti-attribute=Ltype+Lcolor (9)
步骤3.2:车辆多属性识别网络的训练
相关描述如下:
(1)数据增强;采用随机旋转0-15度,随机翻转,随机裁剪方法对输入图片进行数据增强处理;采用Dropblock正则化方法在网络中的每一个特征图上随机地删减一部分局部区域;
(2)anchor box的尺寸生成;使用K-means算法在整个训练集上对所有已标注的车辆进行9类中心聚类,得到聚类中心;
(3)学习率预热以及不定间隔调整组合方法;训练采用batch为64,在前1000次迭代中,对学习率进行预热,让学习率从0.001达到设定值0.004;在迭代次数达到10000次的时候,学习率降为0.001,在15000次时,学习率降为0.0001;在25000次时,学习率降为0.00001;在50000次时,学习率降为0.000001;
(4)Adam优化方法;动量因子momentum=0.949,权重衰减因子decay=0.0005;
在网络训练的每次迭代中,将经过雷视融合处理过的图片送入车辆多属性识别网络得到网络预测结果,然后通过步骤3.1中的损失函数,计算网络预测结果与该图片标注信息之间的损失值,随后回传损失值,更新网络参数,直至损失值稳定在0.5-0.6,停止训练,得到车辆多属性识别网络模型;
步骤4:检测、识别车辆多属性信息
在识别隧道中车辆多属性过程中,首先通过雷达检测到运动车辆的车辆距离和位置坐标,然后送入雷达信息与视觉信息在线融合部分,利用离线部分产生矩形框信息,如公式(1)和(2)所示,选取车辆感兴趣区域,然后根据感兴趣区域的位置信息生成一张单通道二值图像,随后与当前帧图像融合成一张3通道的融合图像,最后送入训练好的车辆多属性识别网络模型,得到车辆多属性信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110959048.5A CN113888754B (zh) | 2021-08-20 | 2021-08-20 | 一种基于雷达视觉融合的车辆多属性识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110959048.5A CN113888754B (zh) | 2021-08-20 | 2021-08-20 | 一种基于雷达视觉融合的车辆多属性识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113888754A true CN113888754A (zh) | 2022-01-04 |
CN113888754B CN113888754B (zh) | 2024-04-26 |
Family
ID=79010812
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110959048.5A Active CN113888754B (zh) | 2021-08-20 | 2021-08-20 | 一种基于雷达视觉融合的车辆多属性识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113888754B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114155495A (zh) * | 2022-02-10 | 2022-03-08 | 西南交通大学 | 跨海桥梁中车辆运行的安全监控方法、装置、设备及介质 |
CN114898319A (zh) * | 2022-05-25 | 2022-08-12 | 山东大学 | 基于多传感器决策级信息融合的车型识别方法及系统 |
CN116052110A (zh) * | 2023-03-28 | 2023-05-02 | 四川公路桥梁建设集团有限公司 | 一种路面标线缺损智能定位方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109886147A (zh) * | 2019-01-29 | 2019-06-14 | 电子科技大学 | 一种基于单网络多任务学习的车辆多属性检测方法 |
CN111695448A (zh) * | 2020-05-27 | 2020-09-22 | 东南大学 | 一种基于视觉传感器的路侧车辆识别方法 |
CN111914664A (zh) * | 2020-07-06 | 2020-11-10 | 同济大学 | 基于重识别的车辆多目标检测和轨迹跟踪方法 |
WO2021139069A1 (zh) * | 2020-01-09 | 2021-07-15 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
CN113205026A (zh) * | 2021-04-26 | 2021-08-03 | 武汉大学 | 一种基于Faster RCNN深度学习网络改进的车型识别方法 |
-
2021
- 2021-08-20 CN CN202110959048.5A patent/CN113888754B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109886147A (zh) * | 2019-01-29 | 2019-06-14 | 电子科技大学 | 一种基于单网络多任务学习的车辆多属性检测方法 |
WO2021139069A1 (zh) * | 2020-01-09 | 2021-07-15 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
CN111695448A (zh) * | 2020-05-27 | 2020-09-22 | 东南大学 | 一种基于视觉传感器的路侧车辆识别方法 |
CN111914664A (zh) * | 2020-07-06 | 2020-11-10 | 同济大学 | 基于重识别的车辆多目标检测和轨迹跟踪方法 |
CN113205026A (zh) * | 2021-04-26 | 2021-08-03 | 武汉大学 | 一种基于Faster RCNN深度学习网络改进的车型识别方法 |
Non-Patent Citations (1)
Title |
---|
阮航;孙涵;: "基于Faster R-CNN的车辆多属性识别", 计算机技术与发展, no. 10, 28 May 2018 (2018-05-28) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114155495A (zh) * | 2022-02-10 | 2022-03-08 | 西南交通大学 | 跨海桥梁中车辆运行的安全监控方法、装置、设备及介质 |
CN114898319A (zh) * | 2022-05-25 | 2022-08-12 | 山东大学 | 基于多传感器决策级信息融合的车型识别方法及系统 |
CN114898319B (zh) * | 2022-05-25 | 2024-04-02 | 山东大学 | 基于多传感器决策级信息融合的车型识别方法及系统 |
CN116052110A (zh) * | 2023-03-28 | 2023-05-02 | 四川公路桥梁建设集团有限公司 | 一种路面标线缺损智能定位方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113888754B (zh) | 2024-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112380952B (zh) | 基于人工智能的电力设备红外图像实时检测及识别方法 | |
Li et al. | Traffic light recognition for complex scene with fusion detections | |
CN111080645B (zh) | 基于生成式对抗网络的遥感图像半监督语义分割方法 | |
Wang et al. | RENet: Rectangular convolution pyramid and edge enhancement network for salient object detection of pavement cracks | |
CN113888754B (zh) | 一种基于雷达视觉融合的车辆多属性识别方法 | |
CN111652097B (zh) | 一种图像毫米波雷达融合目标检测方法 | |
Li et al. | Semi-supervised semantic segmentation using adversarial learning for pavement crack detection | |
CN112101175A (zh) | 基于局部图像的高速公路车辆检测及多属性特征提取方法 | |
CN113436169B (zh) | 一种基于半监督语义分割的工业设备表面裂纹检测方法及系统 | |
Yao et al. | Inspection of exterior substance on high-speed train bottom based on improved deep learning method | |
CN111814623A (zh) | 一种基于深度神经网络的车辆车道偏离视觉检测方法 | |
CN110263706A (zh) | 一种雾霾天气车载视频动态目标检测和识别的方法 | |
CN109753949B (zh) | 一种基于深度学习的多视窗交通标志检测方法 | |
CN111553201A (zh) | 一种基于YOLOv3优化算法的交通灯检测方法 | |
CN115205264A (zh) | 一种基于改进YOLOv4的高分辨率遥感船舶检测方法 | |
CN110532961A (zh) | 一种基于多尺度注意机制网络模型的语义交通信号灯检测方法 | |
CN111259796A (zh) | 一种基于图像几何特征的车道线检测方法 | |
Wu et al. | UAV imagery based potential safety hazard evaluation for high-speed railroad using Real-time instance segmentation | |
CN112949510A (zh) | 基于Faster R-CNN热红外影像人物探测方法 | |
Tao et al. | Smoky vehicle detection based on range filtering on three orthogonal planes and motion orientation histogram | |
Yang et al. | PDNet: Improved YOLOv5 nondeformable disease detection network for asphalt pavement | |
CN113657305B (zh) | 一种基于视频的黑烟车辆及林格曼黑度等级智能检测方法 | |
CN113361528B (zh) | 一种多尺度目标检测方法及系统 | |
Mei et al. | A conditional wasserstein generative adversarial network for pixel-level crack detection using video extracted images | |
CN113762144A (zh) | 一种基于深度学习的黑烟车检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |