CN117331071A - 一种基于毫米波雷达与视觉多模态融合的目标检测方法 - Google Patents
一种基于毫米波雷达与视觉多模态融合的目标检测方法 Download PDFInfo
- Publication number
- CN117331071A CN117331071A CN202311297542.5A CN202311297542A CN117331071A CN 117331071 A CN117331071 A CN 117331071A CN 202311297542 A CN202311297542 A CN 202311297542A CN 117331071 A CN117331071 A CN 117331071A
- Authority
- CN
- China
- Prior art keywords
- target
- features
- millimeter wave
- detection
- wave radar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 100
- 230000004927 fusion Effects 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000012805 post-processing Methods 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000004590 computer program Methods 0.000 description 4
- 238000003491 array Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S13/00—Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
- G01S13/86—Combinations of radar systems with non-radar systems, e.g. sonar, direction finder
- G01S13/867—Combination of radar systems with cameras
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S13/00—Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
- G01S13/66—Radar-tracking systems; Analogous systems
- G01S13/72—Radar-tracking systems; Analogous systems for two-dimensional tracking, e.g. combination of angle and range tracking, track-while-scan radar
- G01S13/723—Radar-tracking systems; Analogous systems for two-dimensional tracking, e.g. combination of angle and range tracking, track-while-scan radar by using numerical data
- G01S13/726—Multiple target tracking
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S13/00—Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
- G01S13/88—Radar or analogous systems specially adapted for specific applications
- G01S13/881—Radar or analogous systems specially adapted for specific applications for robotics
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S13/00—Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
- G01S13/88—Radar or analogous systems specially adapted for specific applications
- G01S13/93—Radar or analogous systems specially adapted for specific applications for anti-collision purposes
- G01S13/931—Radar or analogous systems specially adapted for specific applications for anti-collision purposes of land vehicles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
- G06V10/422—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/54—Extraction of image or video features relating to texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computer Networks & Wireless Communication (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Electromagnetism (AREA)
- Robotics (AREA)
- Automation & Control Theory (AREA)
- Radar Systems Or Details Thereof (AREA)
Abstract
本发明公开了一种基于毫米波雷达与视觉多模态融合的目标检测方法,涉及目标检测技术领域,包括使用高分辨率的毫米波雷达和摄像头进行数据采集;对采集的毫米波雷达数据和图像数据进行预处理操作;对预处理后的数据进行特征提取;将雷达特征和图像特征进行融合;对融合后的数据进行目标检测,并去除重复的检测框。使用多目标跟踪算法,对检测到的目标进行跟踪;对检测和跟踪的结果进行后处理,将检测和跟踪的结果实时显示在用户界面上。本发明所述方法通过结合毫米波雷达和计算机视觉的数据,可以从多个角度和维度对目标进行检测,大大提高了检测的准确性,多模态融合技术可以互补各种传感器的局限性,确保在各种条件下都能够正常工作。
Description
技术领域
本发明涉及目标检测技术领域,特别是一种基于毫米波雷达与视觉多模态融合的目标检测方法。
背景技术
在现代交通、机器人导航和自动驾驶等领域,障碍物检测和识别是至关重要的。传统的障碍物检测方法主要依赖单一的传感器,如摄像头、激光雷达或毫米波雷达。然而,每种传感器都有其局限性。例如,摄像头在低光或逆光条件下可能无法正常工作,而雷达在某些复杂场景中可能会受到干扰。
为了提高障碍物检测的准确性和鲁棒性,研究者开始探索多模态融合技术,即结合多种传感器的数据进行检测。其中,毫米波雷达和计算机视觉的融合受到了广泛关注。毫米波雷达可以提供目标的距离、速度和角度信息,而计算机视觉可以提供目标的形状、颜色和纹理信息。通过融合这两种信息,可以实现更准确和稳定的障碍物检测。
发明内容
鉴于上述和/或现有的基于毫米波雷达与视觉多模态融合的目标检测方法中存在的问题,提出了本发明。
因此,本发明所要解决的问题在于如何提供一种基于毫米波雷达与视觉多模态融合的目标检测方法。
为解决上述技术问题,本发明提供如下技术方案:一种基于毫米波雷达与视觉多模态融合的目标检测方法,其包括,使用高分辨率的毫米波雷达和摄像头进行数据采集;对采集的毫米波雷达数据和图像数据进行预处理操作;对预处理后的数据进行特征提取;基于多模态融合技术,将雷达特征和图像特征进行融合;使用深度学习的目标检测模型,对融合后的数据进行目标检测,并去除重复的检测框。使用多目标跟踪算法,对检测到的目标进行跟踪。对检测和跟踪的结果进行后处理,将检测和跟踪的结果实时显示在用户界面上,提供直观的反馈。
作为本发明所述基于毫米波雷达与视觉多模态融合的目标检测方法的一种优选方案,其中:对预处理后的数据进行特征提取包括如下步骤,
从毫米波雷达数据提取速度特征、距离特征和角度特征,得到雷达特征Fr,通过如下公式进行,
Fr=(d1,θ1,v1)、(d2,θ2,v2)……(dn,θn,vn)
式中,v是目标的速度,Δf是多普勒频移,f0是雷达的工作频率,C是光速,θ是目标的方位角,是相位差,d是雷达到物体之间的距离,n是雷达探测到的点的总数;
使用卷积神经网络提取图像数据的颜色特征、纹理特征和形状特征,得到图像特征Fi。
作为本发明所述基于毫米波雷达与视觉多模态融合的目标检测方法的一种优选方案,其中:基于多模态融合技术,将雷达特征和图像特征进行融合包括如下步骤,
对于图像特征Fi,使用线性变换得到查询矩阵Q,键矩阵K和值矩阵V,公式如下,
Q=Wq×Fi
K=Wq×Fi
V=WV×Fi
式中,Wq、Wq和WV均为权重矩阵;
计算查询矩阵Q和键矩阵K的点积,得到注意力得分矩阵A,公式如下,
式中,T代表转置操作,hk是键向量的维度;
通过注意力得分矩阵A对值矩阵V进行加权求和,并与雷达特征Fr进行融合,得到融合特征Fm,公式如下,
Fw=A×V
Fm=Fw+Fr。
作为本发明所述基于毫米波雷达与视觉多模态融合的目标检测方法的一种优选方案,其中:使用深度学习的目标检测模型,对融合后的数据进行目标检测,并去除重复的检测框包括如下步骤,
根据融合后的特征维度调整YOLOv4的输入层;
使用融合后的特征和对应的标签准备训练数据,将训练数据分为训练集和验证集;
使用YOLOv4的损失函数,包括坐标损失、类别损失和置信度损失,公式如下,
式中,L是损失,λcoord是坐标损失的权重,S是图像的分割大小,B是每个单元格的边界框数量,是一个指示器函数,表示对象是否出现在单元格中,xi和yi是预测的坐标,/>和/>是真实的坐标;
使用Adam优化器进行模型训练,使用早停策略防止过拟合,每个epoch后在验证集上评估模型,若模型的性能在连续的几个epoch中没有提高,则停止训练;
加载在训练数据上训练好的YOLOv4模型,将融合后的特征输入到模型中,得到目标的边界框、类别和置信度。
作为本发明所述基于毫米波雷达与视觉多模态融合的目标检测方法的一种优选方案,其中:使用多目标跟踪算法,对检测到的目标进行跟踪包括如下步骤,
初始化一个空的跟踪器列表,用于存储当前帧中的所有跟踪器;
对于当前帧中的每个检测结果和跟踪器,计算它们的边界框之间的IOU;
基于IOU矩阵,使用匈牙利算法为当前帧中的每个检测结果分配一个跟踪器;
对于与检测结果关联的每个跟踪器,使用卡尔曼滤波器更新其状态,公式如下,
Xk=Xk-1+Pk(zk-Hxk-1)
式中,Xk是当前时刻的状态估计,Xk-1是上一时刻的状态估计,Pk是卡尔曼增益,zk是当前时刻的观测值,H是观测矩阵。
作为本发明所述基于毫米波雷达与视觉多模态融合的目标检测方法的一种优选方案,其中:若某个跟踪器在连续N帧中都没有与任何检测结果关联,那么将其从跟踪器列表中删除;若某个检测结果在当前帧中没有与任何跟踪器关联,那么为其创建一个新的跟踪器并添加到跟踪器列表中。
作为本发明所述基于毫米波雷达与视觉多模态融合的目标检测方法的一种优选方案,其中:对检测和跟踪的结果进行后处理,将检测和跟踪的结果实时显示在用户界面上,提供直观的反馈包括如下步骤,
根据预先设定的置信度阈值,筛选出置信度高于该阈值的检测结果,
Rf={ri|ri.confidence>0}
式中,Rf是筛选后的检测结果集合,ri是单个检测结果,θ是置信度阈值,ri.confidence是检测结果ri的置信度值;
使用NMS算法去除重叠的检测框,确保每个物体只有一个检测框,其中,若两个检测框的IOU大于预设的阈值,则保留置信度较高的检测框并删除另一个,公式如下,
式中,Ao表示两个边界框重叠的面积,Au表示两个边界框合并后的总面积,等于两个边界框的面积之和减去它们的重叠面积
在原始图像上绘制每个检测结果的边界框,在每个边界框旁边标注目标的类别、置信度和唯一ID,使用跟踪器的历史信息,在图像上绘制目标的移动轨迹;
在用户界面上实时显示带有检测和跟踪结果的图像。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述方法的步骤。
本发明有益效果为:通过结合毫米波雷达和计算机视觉的数据,可以从多个角度和维度对目标进行检测,大大提高了检测的准确性,多模态融合技术可以互补各种传感器的局限性,确保在各种条件下都能够正常工作,通过优化算法和硬件加速,可以实现实时的障碍物检测,满足自动驾驶和机器人导航的实时性要求。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。其中:
图1为实施例1中基于毫米波雷达与视觉多模态融合的目标检测方法的场景图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
实施例1
参照图1,为本发明第一个实施例,该实施例提供了一种基于毫米波雷达与视觉多模态融合的目标检测方法,基于毫米波雷达与视觉多模态融合的目标检测方法包括:
S1、使用高分辨率的毫米波雷达和摄像头进行数据采集。
S2、对采集的毫米波雷达数据和图像数据进行预处理操作。
S3、对预处理后的数据进行特征提取,其包括如下步骤:
S31、从毫米波雷达数据提取速度特征、距离特征和角度特征,得到雷达特征Fr,通过如下公式进行,
Fr=(d1,θ1,v1)、(d2,θ2,v2)……(dn,θn,vn)
式中,v是目标的速度,Δf是多普勒频移,f0是雷达的工作频率,C是光速,θ是目标的方位角,是相位差,d是雷达到物体之间的距离,n是雷达探测到的点的总数;
S32、使用卷积神经网络提取图像数据的颜色特征、纹理特征和形状特征,得到图像特征Fi。
S4、基于多模态融合技术,将雷达特征和图像特征进行融合,其包括如下步骤:
基于多模态融合技术,将雷达特征和图像特征进行融合包括如下步骤,
对于图像特征Fi,使用线性变换得到查询矩阵Q,键矩阵K和值矩阵V,公式如下,
Q=Wq×Fi
K=Wq×Fi
V=WV×Fi
式中,Wq、Wq和WV均为权重矩阵;
计算查询矩阵Q和键矩阵K的点积,得到注意力得分矩阵A,公式如下,
式中,T代表转置操作,hk是键向量的维度;
通过注意力得分矩阵A对值矩阵V进行加权求和,并与雷达特征Fr进行融合,得到融合特征Fm,公式如下,
Fw=A×V
Fm=Fw+Fr。
S5、使用深度学习的目标检测模型,对融合后的数据进行目标检测,并去除重复的检测框,其包括如下步骤:
S51、根据融合后的特征维度调整YOLOv4的输入层;
S52、使用融合后的特征和对应的标签准备训练数据,将训练数据分为训练集和验证集;
S53、使用YOLOv4的损失函数,包括坐标损失、类别损失和置信度损失,公式如下,
式中,L是损失,λcoord是坐标损失的权重,S是图像的分割大小,B是每个单元格的边界框数量,是一个指示器函数,表示对象是否出现在单元格中,xi和yi是预测的坐标,/>和/>是真实的坐标。
S54、使用Adam优化器进行模型训练,使用早停策略防止过拟合,每个epoch后在验证集上评估模型,若模型的性能在连续的几个epoch中没有提高,则停止训练;
S55、加载在训练数据上训练好的YOLOv4模型,将融合后的特征输入到模型中,得到目标的边界框、类别和置信度。
S6、使用多目标跟踪算法,对检测到的目标进行跟踪,其包括如下步骤:
S61、初始化一个空的跟踪器列表,用于存储当前帧中的所有跟踪器;
S62、对于当前帧中的每个检测结果和跟踪器,计算它们的边界框之间的IOU;
S63、基于IOU矩阵,使用匈牙利算法为当前帧中的每个检测结果分配一个跟踪器;
S64、对于与检测结果关联的每个跟踪器,使用卡尔曼滤波器更新其状态,公式如下,
Xk=Xk-1+Pk(zk-Hxk-1)
式中,Xk是当前时刻的状态估计,Xk-1是上一时刻的状态估计,Pk是卡尔曼增益,zk是当前时刻的观测值,H是观测矩阵;
S65、若某个跟踪器在连续N帧中都没有与任何检测结果关联,那么将其从跟踪器列表中删除;若某个检测结果在当前帧中没有与任何跟踪器关联,那么为其创建一个新的跟踪器并添加到跟踪器列表中。
S7、对检测和跟踪的结果进行后处理,将检测和跟踪的结果实时显示在用户界面上,提供直观的反馈,其包括如下步骤:
S71、根据预先设定的置信度阈值,筛选出置信度高于该阈值的检测结果,
Rf={ri|ri.confidence>0}
式中,Rf是筛选后的检测结果集合,ri是单个检测结果,θ是置信度阈值,ri.confidence是检测结果ri的置信度值;
S72、使用NMS算法去除重叠的检测框,确保每个物体只有一个检测框,其中,若两个检测框的IOU大于预设的阈值,则保留置信度较高的检测框并删除另一个,公式如下,
式中,Ao表示两个边界框重叠的面积,Au表示两个边界框合并后的总面积,等于两个边界框的面积之和减去它们的重叠面积;
S73、在原始图像上绘制每个检测结果的边界框,在每个边界框旁边标注目标的类别、置信度和唯一ID,使用跟踪器的历史信息,在图像上绘制目标的移动轨迹;
S74、在用户界面上实时显示带有检测和跟踪结果的图像。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
实施例2
为本发明的第二个实施例,为了验证本发明的有益效果,通过实验进行科学论证,实验数据如表1所述。
表1
表1中,我方技术方案的检测准确率达到了95%,比现有技术方案高出10个百分点,说明我方技术方案在目标检测上更为准确,能够更快速地响应和处理数据,且在区分目标和背景上更为准确。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (7)
1.一种基于毫米波雷达与视觉多模态融合的目标检测方法,其特征在于:包括,
使用高分辨率的毫米波雷达和摄像头进行数据采集;
对采集的毫米波雷达数据和图像数据进行预处理操作;
对预处理后的数据进行特征提取;
基于多模态融合技术,将雷达特征和图像特征进行融合;
使用深度学习的目标检测模型,对融合后的数据进行目标检测,并去除重复的检测框;
使用多目标跟踪算法,对检测到的目标进行跟踪;
对检测和跟踪的结果进行后处理,将检测和跟踪的结果实时显示在用户界面上,提供直观的反馈。
2.如权利要求1所述的基于毫米波雷达与视觉多模态融合的目标检测方法,其特征在于:对预处理后的数据进行特征提取包括如下步骤,
从毫米波雷达数据提取速度特征、距离特征和角度特征,得到雷达特征Fr,通过如下公式进行,
Fr=(d1,θ1,v1)、(d2,θ2,v2)……(dn,θn,vn)
式中,v是目标的速度,Δf是多普勒频移,f0是雷达的工作频率,C是光速,θ是目标的方位角,是相位差,d是雷达到物体之间的距离,n是雷达探测到的点的总数;
使用卷积神经网络提取图像数据的颜色特征、纹理特征和形状特征,得到图像特征Fi。
3.如权利要求2所述的基于毫米波雷达与视觉多模态融合的目标检测方法,其特征在于:基于多模态融合技术,将雷达特征和图像特征进行融合包括如下步骤,
对于图像特征Fi,使用线性变换得到查询矩阵Q,键矩阵K和值矩阵V,公式如下,
Q=Wq×Fi
K=Wq×Fi
V=WV×Fi
式中,Wq、Wq和WV均为权重矩阵;
计算查询矩阵Q和键矩阵K的点积,得到注意力得分矩阵A,公式如下,
式中,T代表转置操作,hk是键向量的维度;
通过注意力得分矩阵A对值矩阵V进行加权求和,并与雷达特征Fr进行融合,得到融合特征Fm,公式如下,
Fw=A×V
Fm=Fw+Fr。
4.如权利要求3所述的基于毫米波雷达与视觉多模态融合的目标检测方法,其特征在于:使用深度学习的目标检测模型,对融合后的数据进行目标检测,并去除重复的检测框包括如下步骤,
根据融合后的特征维度调整YOLOv4的输入层;
使用融合后的特征和对应的标签准备训练数据,将训练数据分为训练集和验证集;
使用YOLOv4的损失函数,包括坐标损失、类别损失和置信度损失,公式如下,
式中,L是损失,λcoord是坐标损失的权重,S是图像的分割大小,B是每个单元格的边界框数量,是一个指示器函数,表示对象是否出现在单元格中,xi和yi是预测的坐标,/>和/>是真实的坐标;
使用Adam优化器进行模型训练,使用早停策略防止过拟合,每个epoch后在验证集上评估模型,若模型的性能在连续的几个epoch中没有提高,则停止训练;
加载在训练数据上训练好的YOLOv4模型,将融合后的特征输入到模型中,得到目标的边界框、类别和置信度。
5.如权利要求4所述的基于毫米波雷达与视觉多模态融合的目标检测方法,其特征在于:使用多目标跟踪算法,对检测到的目标进行跟踪包括如下步骤,
初始化一个空的跟踪器列表,用于存储当前帧中的所有跟踪器;
对于当前帧中的每个检测结果和跟踪器,计算它们的边界框之间的IOU;
基于IOU矩阵,使用匈牙利算法为当前帧中的每个检测结果分配一个跟踪器;
对于与检测结果关联的每个跟踪器,使用卡尔曼滤波器更新其状态,公式如下,
Xk=Xk-1+Pk(zk-Hxk-1)
式中,Xk是当前时刻的状态估计,Xk-1是上一时刻的状态估计,Pk是卡尔曼增益,zk是当前时刻的观测值,H是观测矩阵。
6.如权利要求5所述的基于毫米波雷达与视觉多模态融合的目标检测方法,其特征在于:若某个跟踪器在连续N帧中都没有与任何检测结果关联,那么将其从跟踪器列表中删除;若某个检测结果在当前帧中没有与任何跟踪器关联,那么为其创建一个新的跟踪器并添加到跟踪器列表中。
7.如权利要求6所述的基于毫米波雷达与视觉多模态融合的目标检测方法,其特征在于:对检测和跟踪的结果进行后处理,将检测和跟踪的结果实时显示在用户界面上,提供直观的反馈包括如下步骤,
根据预先设定的置信度阈值,筛选出置信度高于该阈值的检测结果,
Rf={ri|ri.confidence>0}
式中,Rf是筛选后的检测结果集合,rj是单个检测结果,θ是置信度阈值,ri.confidence是检测结果ri的置信度值;
使用NMS算法去除重叠的检测框,确保每个物体只有一个检测框,其中,若两个检测框的IOU大于预设的阈值,则保留置信度较高的检测框并删除另一个,公式如下,
式中,Ao表示两个边界框重叠的面积,Au表示两个边界框合并后的总面积,等于两个边界框的面积之和减去它们的重叠面积;
在原始图像上绘制每个检测结果的边界框,在每个边界框旁边标注目标的类别、置信度和唯一ID,使用跟踪器的历史信息,在图像上绘制目标的移动轨迹;
在用户界面上实时显示带有检测和跟踪结果的图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311297542.5A CN117331071A (zh) | 2023-10-08 | 2023-10-08 | 一种基于毫米波雷达与视觉多模态融合的目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311297542.5A CN117331071A (zh) | 2023-10-08 | 2023-10-08 | 一种基于毫米波雷达与视觉多模态融合的目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117331071A true CN117331071A (zh) | 2024-01-02 |
Family
ID=89282540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311297542.5A Pending CN117331071A (zh) | 2023-10-08 | 2023-10-08 | 一种基于毫米波雷达与视觉多模态融合的目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117331071A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117970318A (zh) * | 2024-04-02 | 2024-05-03 | 所托(杭州)汽车智能设备有限公司 | 目标融合方法、电子设备及存储介质 |
-
2023
- 2023-10-08 CN CN202311297542.5A patent/CN117331071A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117970318A (zh) * | 2024-04-02 | 2024-05-03 | 所托(杭州)汽车智能设备有限公司 | 目标融合方法、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nabati et al. | Rrpn: Radar region proposal network for object detection in autonomous vehicles | |
US11643076B2 (en) | Forward collision control method and apparatus, electronic device, program, and medium | |
CN109800689B (zh) | 一种基于时空特征融合学习的目标跟踪方法 | |
CN111666921B (zh) | 车辆控制方法、装置、计算机设备和计算机可读存储介质 | |
EP3633615A1 (en) | Deep learning network and average drift-based automatic vessel tracking method and system | |
JP2022514975A (ja) | マルチセンサデータ融合方法、及び装置 | |
CN110348332B (zh) | 一种交通视频场景下机非人多目标实时轨迹提取方法 | |
CN111047626A (zh) | 目标跟踪方法、装置、电子设备及存储介质 | |
CN112560580B (zh) | 障碍物识别方法、装置、系统、存储介质和电子设备 | |
CN110568861B (zh) | 一种人机运动障碍物监测方法、可读存储介质和无人机 | |
Zhang et al. | Monocular visual traffic surveillance: A review | |
CN117331071A (zh) | 一种基于毫米波雷达与视觉多模态融合的目标检测方法 | |
CN111781608A (zh) | 一种基于fmcw激光雷达的运动目标检测方法及系统 | |
CN114998276B (zh) | 一种基于三维点云的机器人动态障碍物实时检测方法 | |
CN113743385A (zh) | 一种无人船水面目标检测方法、装置及无人船 | |
CN111027586A (zh) | 一种基于新型响应图融合的目标跟踪方法 | |
CN110992424A (zh) | 基于双目视觉的定位方法和系统 | |
CN111832343B (zh) | 跟踪方法和装置、存储介质 | |
Qing et al. | A novel particle filter implementation for a multiple-vehicle detection and tracking system using tail light segmentation | |
CN115272392A (zh) | 目标跟踪方法、装置、设备及存储介质 | |
CN114815851A (zh) | 机器人跟随方法、装置、电子设备以及存储介质 | |
CN114926859A (zh) | 一种结合头部跟踪的密集场景下行人多目标跟踪方法 | |
CN113092807B (zh) | 基于多目标跟踪算法的城市高架道路车辆测速方法 | |
CN115083199B (zh) | 一种车位信息确定方法及其相关设备 | |
Jiang et al. | Obstacle detection and tracking for intelligent agricultural machinery |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |