CN117949942B

CN117949942B - 基于雷达数据和视频数据融合的目标跟踪方法及系统

Info

Publication number: CN117949942B
Application number: CN202410346071.0A
Authority: CN
Inventors: 沙硕; 张琳; 刘嘉靖; 戴金洲; 韩超; 邬洋; 吕庆斌; 沈上圯; 刘元晟; 王雪; 陈孟达; 周碧晨; 许�鹏
Original assignee: BEIJING INSTITUTE OF METROLOGY
Current assignee: BEIJING INSTITUTE OF METROLOGY
Priority date: 2024-03-26
Filing date: 2024-03-26
Publication date: 2024-06-07
Anticipated expiration: 2044-03-26
Also published as: CN117949942A

Abstract

本发明公开了一种基于雷达数据和视频数据融合的目标跟踪方法及系统，涉及目标跟踪技术领域，包括对雷达数据和视频数据进行预处理；基于预处理后的雷达数据和视频数据分别进行目标检测，并将雷达目标检测结果和视觉目标检测结果进行匹配关联；针对每个匹配目标，构建融合雷达特征和视觉特征的多模态目标表示；基于序列模型和当前时刻的观测数据，利用上一时刻的多模态目标表示预测当前时刻目标的状态；持续更新目标的多模态表示，并利用在线学习策略优化序列模型。本发明通过融合雷达与视频数据，利用雷达数据的高精度运动信息与视频数据的丰富视觉特征，极大提升了目标跟踪的精确度与稳定性。

Description

基于雷达数据和视频数据融合的目标跟踪方法及系统

技术领域

本发明涉及目标跟踪技术领域，特别是基于雷达数据和视频数据融合的目标跟踪方法及系统。

背景技术

目前的目标跟踪技术面临的主要挑战在于单一模态方法（视频或雷达）无法充分应对环境的多变性和目标行为的复杂性。视频跟踪技术能够详尽捕捉目标的视觉特征，但在光线不足、视线遮挡或快速目标移动等场景中性能不佳。另一方面，雷达跟踪技术在测量距离方面表现优异，尤其在能见度较差的情况下，但由于它通常提供较低的空间分辨率，并缺乏对目标详细视觉特征的捕捉，其在目标识别和追踪中的表现却往往受限。

迄今为止，尽管已有尝试通过技术改进来增强目标跟踪的性能，但往往没有充分利用多模态数据融合的潜力。特别在处理有多个目标存在的复杂场景时，如何有效结合不同模态的数据来提高跟踪的准确度、减少误识别和目标丢失，依旧是亟待解决的核心问题。此外，当面对动态变化的环境下，如何确保跟踪系统能够灵活适应新出现的目标，并保持对已追踪目标的长期稳定性，也是现有技术的不足之处。

发明内容

鉴于现有的单一模态方法无法充分应对环境的多变性和目标行为的复杂，提出了本发明。

因此，本发明所要解决的问题在于如何通过融合雷达和视频数据，采用创新性的多模态数据处理和特征提取方法，以及改进的目标检测和跟踪算法设计，极大提升了跟踪的准确性和鲁棒性。

为解决上述技术问题，本发明提供如下技术方案：

第一方面，本发明实施例提供了一种基于雷达数据和视频数据融合的目标跟踪方法，其包括对雷达数据和视频数据进行预处理；基于预处理后的雷达数据和视频数据分别进行目标检测，并将雷达目标检测结果和视觉目标检测结果进行匹配关联；针对每个匹配目标，构建融合雷达特征和视觉特征的多模态目标表示；基于序列模型和当前时刻的观测数据，利用上一时刻的多模态目标表示预测当前时刻目标的状态；持续更新目标的多模态表示，并利用在线学习策略优化序列模型。

作为本发明所述基于雷达数据和视频数据融合的目标跟踪方法的一种优选方案，其中：将雷达目标检测结果和视觉目标检测结果进行匹配关联包括以下步骤：利用双分支卷积神经网络对视频帧图像进行目标检测，一个分支预测目标边界框，另一个分支预测目标语义类别；将雷达点云投影至视频图像平面，以得到雷达点云的图像视角表；在投影后的雷达点云图像中，利用基于密度的聚类方法识别潜在目标簇；针对每个视觉检测目标，在其边界框内遍历投影的雷达点云，提取雷达目标簇；针对每个雷达目标簇，在其投影区域内遍历视觉检测边界框，提取视觉特征；构建匈牙利代价矩阵，代价为视觉-雷达特征距离的加权和，利用匈牙利算法寻找全局最优的视觉-雷达目标匹配；对于成功匹配的目标对，将视觉检测结果和雷达检测结果进行关联，融合两模态信息；对于无法成功匹配的目标，利用卡尔曼滤波或LSTM单模态序列模型进行跟踪。

作为本发明所述基于雷达数据和视频数据融合的目标跟踪方法的一种优选方案，其中：利用双分支卷积神经网络对视频帧图像进行目标检测包括以下步骤：训练系列单阶段检测器模型，用于快速生成候选目标边界框，输入为视频图像帧；利用单阶段检测器在输入的视频图像上生成一组初始候选目标框及其置信度分数；根据置信度分数对候选框进行阈值过滤，保留置信度高于阈值/>的候选框，作为/>网络的输入；利用Faster R-CNN目标检测框架，将候选框子集输入至/>网络；对/>网络输出的候选框进行第二阶段精细边界框回归和目标分类，并在第二阶段分类输出上，设置分类置信度阈值以过滤掉低于阈值的检测框；对第二阶段的输出结果，根据置信度分数进行非极大值抑制/>，去除冗余重叠检测框；在/>后的检测框集合中，保留类别为目标类的检测框，将其作为最终视觉目标检测结果输出；对于保留的视觉目标检测框，结合其边界框坐标、尺寸、类别置信度，构建统一格式的视觉目标检测结果输出。

作为本发明所述基于雷达数据和视频数据融合的目标跟踪方法的一种优选方案，其中：利用基于密度的聚类方法识别潜在目标簇包括以下步骤：获取雷达点云的图像视角表示；对投影后的点云进行体素化，将三维空间划分为规则的三维体素网格；遍历每个非空体素，计算其邻域内点数n，以获得该体素的局部点密度；计算每个体素与其邻域内任意更高密度体素的最小距离d；基于密度/>和距离d，构建/>算法所需的两个参数包括密度阈值/>和邻域半径/>；利用/>算法、密度阈值/>和邻域半径/>对体素进行聚类，得到一组潜在目标簇；将聚类结果反投影回三维空间以获得三维目标簇点云，并对每个目标簇点云，计算其几何特征包括空间尺寸和体积，过滤掉尺寸过小的簇；将过滤后的三维目标簇投影回图像平面，以得到二维目标簇区域。

作为本发明所述基于雷达数据和视频数据融合的目标跟踪方法的一种优选方案，其中：提取雷达目标簇包括以下步骤：针对每个视觉检测目标框，在其边界框内遍历投影所得的二维目标簇区域；对于每个落在视觉框内的目标簇区域，提取基础雷达特征；根据目标跟踪场景的复杂程度、环境语义信息和应用需求，对簇内点的运动状态、物理反射属性及其他辅助信息进行分析，以提取高级雷达特征；若目标跟踪场景为户外静态场景，目标无明显运动，则提取簇点的反射强度统计量和几何拓扑特征作为高级雷达特征；若目标跟踪场景为高速公路或城市道路，目标运动状态相对有序且规律，则提取簇内点的多普勒速度统计量、簇内点速度分布熵和簇点的反射强度统计量作为高级雷达特征；若场景为人群密集区域，目标运动状态较为混乱无序，则提取簇内点的微动分布比例、簇内运动点的速度梯度分布和簇点高度统计量作为高级雷达特征；若场景为室内，目标运动状态次要且目标属性更为重要，则提取簇内点的彩色分布统计量、簇内点曲率统计量和簇点法向量分布熵作为高级雷达特征；将基础雷达特征和高级雷达特征进行拼接，形成目标跟踪场景的雷达目标簇。

作为本发明所述基于雷达数据和视频数据融合的目标跟踪方法的一种优选方案，其中：利用匈牙利算法寻找全局最优的视觉-雷达目标匹配包括以下步骤：对提取的雷达目标簇的特征向量和视觉检测边界框的特征向量/>进行归一化处理；遍历每对视觉-雷达目标，计算/>和/>的加权特征距离作为相似度度量；初始化一个/>行/>列的匈牙利代价矩阵，其中/>表示视觉目标检测框数量，/>表示雷达目标簇数量；遍历每一个视觉目标检测框i和雷达目标簇j的所有组合/>，并计算第i个视觉目标和第j个雷达目标的特征距离；根据目标检测场景的复杂程度、目标的运动状态，确定一个调整因子/>；根据特征距离/>和调整因子/>计算代价，并填入代价矩阵/>的第i行第j列元素；利用匈牙利算法求解所构建的代价矩阵/>，得到全局最优的一对一视觉-雷达目标匹配结果/>；在训练数据集上，通过交叉验证法确定匹配阈值/>；遍历最优匹配结果/>中的每一对视觉-雷达目标对/>，若其代价/>小于阈值/>，则接受该目标/>对的匹配结果，否则标记该目标对/>为无法成功匹配；输出遍历后所有被接受的视觉-雷达目标对的匹配结果。

作为本发明所述基于雷达数据和视频数据融合的目标跟踪方法的一种优选方案，其中：构建融合雷达特征和视觉特征的多模态目标表示包括以下步骤：对于每个匹配成功的视觉-雷达目标对，提取其视觉目标检测框内的RGB图像块和对应投影的雷达点云；将RGB图像块输入预训练的卷积神经网络，并在特定层获取视觉特征张量；对雷达点云进行径向边缘滤波和排序，获得有序的点集；将有序点集输入点云特征编码网络，提取雷达特征向量；将视觉特征张量和雷达特征向量进行拼接，并输入至多模态融合模块；在多模态融合模块中，采用注意力机制动态调节两模态特征的重要性权重，得到加权融合后的多模态特征；将加权融合后的多模态特征输入至全连接层，获得该目标的多模态表示向量；将多模态表示向量和目标的运动学特征进行拼接，形成增强的多模态目标表示。

第二方面，本发明实施例提供了基于雷达数据和视频数据融合的目标跟踪系统，其包括预处理模块，用于对雷达数据和视频数据进行预处理；匹配关联模块，用于基于预处理后的雷达数据和视频数据分别进行目标检测，并将雷达目标检测结果和视觉目标检测结果进行匹配关联；融合模块，用于针对每个匹配目标，构建融合雷达特征和视觉特征的多模态目标表示；预测模块，用于基于序列模型和当前时刻的观测数据，利用上一时刻的多模态目标表示预测当前时刻目标的状态；更新模块，用于持续更新目标的多模态表示，并利用在线学习策略优化序列模型。

第三方面，本发明实施例提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其中：所述计算机程序指令被处理器执行时实现如本发明第一方面所述的基于雷达数据和视频数据融合的目标跟踪方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其中：所述计算机程序指令被处理器执行时实现如本发明第一方面所述的基于雷达数据和视频数据融合的目标跟踪方法的步骤。

本发明有益效果为：本发明通过融合雷达与视频数据，利用雷达数据的高精度运动信息与视频数据的丰富视觉特征，极大提升了目标跟踪的精确度与稳定性；采用的多模态数据预处理、目标检测、特征匹配与融合技术，有效地结合了雷达与视频的优势，创新性地构建了融合雷达特征和视觉特征的目标表示；通过先进的序列预测模型，本方案能够在动态环境中实现连续且准确的目标状态预测，保证了系统的高实时性和跟踪效率；通过在线学习策略，本方案允许序列模型在跟踪过程中实时更新和优化，显著提升了对新场景或目标变化的适应能力。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为基于雷达数据和视频数据融合的目标跟踪方法的框架流程图。

图2为基于雷达数据和视频数据融合的目标跟踪方法的计算机设备图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于此描述的其他方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

实施例1

参照图1~图2，为本发明第一个实施例，该实施例提供了基于雷达数据和视频数据融合的目标跟踪方法，包括，

S1：对雷达数据和视频数据进行预处理。

具体的，针对雷达数据，首先对原始点云数据进行背景滤波，去除静止物体和地面等无关点云；然后进行运动补偿，消除由于雷达自身运动导致的点云畸变；接着进行距离门滤波，保留有效检测距离内的点云；之后对剩余点云进行目标聚类，将相邻点云聚合为候选目标簇；最后对候选目标簇进行特征提取，以计算每个目标簇的距离、速度、角度等运动学特征。

进一步的，针对视频数据，首先对原始图像帧进行图像去噪（如小波变换或双边滤波等）；然后进行直方图均衡化，以提高图像的对比度和清晰度；之后对图像进行几何校正（如畸变校正、视角校正等）；最后对校正后的图像进行标准化处理，将像素值归一化至区间。

需要说明的是，进行运动补偿的具体公式如下：

其中，表示雷达自身的速度，/>表示点云测量与当前补偿计算间的时间差，/>表示径向旋转矩阵，/>表示原始点云位置，/>表示雷达自身的运动位移，/>表示运动补偿后的点云位置。

S2：基于预处理后的雷达数据和视频数据分别进行目标检测，并将雷达目标检测结果和视觉目标检测结果进行匹配关联。

具体的，包括以下步骤：

S2.1：利用双分支卷积神经网络对视频帧图像进行目标检测，一个分支预测目标边界框，另一个分支预测目标语义类别。

具体的，训练系列单阶段检测器模型，用于快速生成候选目标边界框，输入为视频图像帧；利用单阶段检测器在输入的视频图像上生成一组初始候选目标框及其置信度分数；根据置信度分数对候选框进行阈值过滤，保留置信度高于阈值/>的候选框，作为网络（Region Proposal Network）的输入；利用Faster R-CNN目标检测框架，将候选框子集输入至/>网络；对/>网络输出的候选框进行第二阶段精细边界框回归和目标分类，并在第二阶段分类输出上，设置分类置信度阈值以过滤掉低于阈值的检测框；对第二阶段的输出结果，根据置信度分数进行非极大值抑制（NMS），去除冗余重叠检测框；在NMS后的检测框集合中，保留类别为目标类的检测框，将其作为最终视觉目标检测结果输出；对于保留的视觉目标检测框，结合其边界框坐标、尺寸、类别置信度等，构建统一格式的视觉目标检测结果输出。

需要说明的是，采用双分支卷积神经网络和单阶段检测结合Faster R-CNN框架，显著提高了目标检测的速度和精度。快速生成候选目标边界框并通过精细化的边界框回归和分类保证了高质量的检测结果，同时非极大值抑制减少了冗余检测，并为后续多模态数据融合提供了坚实基础。这些改进使得方案在自动驾驶等领域具有实际应用的潜力，既快速又准确地提供了可靠的目标检测性能。

S2.2：将雷达点云投影至视频图像平面，以得到雷达点云的图像视角表示。

S2.3：在投影后的雷达点云图像中，利用基于密度的聚类方法识别潜在目标簇。

优选的，获取雷达点云的图像视角表示；对投影后的点云进行体素化，将三维空间划分为规则的三维体素网格；遍历每个非空体素，计算其邻域内点数n，以获得该体素的局部点密度；计算每个体素与其邻域内任意更高密度体素的最小距离d；基于密度/>和距离d，构建/>算法所需的两个参数包括密度阈值/>（低于该值则视为噪声点）和邻域半径/>（确定体素邻域范围）；利用/>算法、密度阈值/>和邻域半径/>对体素进行聚类，得到一组潜在目标簇；将聚类结果反投影回三维空间以获得三维目标簇点云，并对每个目标簇点云，计算其几何特征包括空间尺寸和体积，过滤掉尺寸过小的簇；将过滤后的三维目标簇投影回图像平面，以得到二维目标簇区域。

S2.4：针对每个视觉目标检测框，在其边界框内遍历投影的雷达点云，提取雷达目标簇。

具体的，针对每个视觉检测目标框，在其边界框内遍历S2.3投影的二维目标簇区域；对于每个落在视觉框内的目标簇区域，提取基础雷达特征包括簇内点数量、簇内点密度、簇的几何尺寸、簇的体积、簇的表面积、簇内点的径向距离统计量（均值和标准差）；根据目标跟踪场景的复杂程度、环境语义信息和应用需求，对簇内点的运动状态、物理反射属性及其他辅助信息进行分析，以提取高级雷达特征；若目标跟踪场景为户外静态场景，目标无明显运动，则提取簇点的反射强度统计量和几何拓扑特征作为高级雷达特征；若目标跟踪场景为高速公路或城市道路，目标运动状态相对有序且规律，则提取簇内点的多普勒速度统计量（估计目标整体运动速度）、簇内点速度分布熵（判断是刚性目标还是非刚性目标）和簇点的反射强度统计量（区分金属车身与非金属目标）作为高级雷达特征；若场景为人群密集区域，目标运动状态较为混乱无序，则提取簇内点的微动分布比例（识别静止与运动目标）、簇内运动点的速度梯度分布（分析目标内部形变特征）和簇点高度统计量（结合语义信息区分行人与车辆）作为高级雷达特征；若场景为室内，目标运动状态次要且目标属性更为重要，则提取簇内点的彩色分布统计量（结合材质识别不同物体）、簇内点曲率统计量（分析目标物体的表面光滑程度）和簇点法向量分布熵（判断目标物体的规则成型程度）作为高级雷达特征；将基础雷达特征和高级雷达特征进行拼接，形成目标跟踪场景的雷达目标簇。

S2.5：针对每个雷达目标簇，在其投影区域内遍历视觉检测边界框，提取视觉特征。

进一步的，获取S2.4中形成的每个雷达目标簇及其投影区域；遍历所有视觉检测边界框，提取落在每个簇投影区域内的边界框；对于每个落入区域的视觉边界框，提取视觉特征包括边界框坐标、边界框尺寸（长宽高）、目标类别置信度分数、RGB颜色直方图。

S2.6：构建匈牙利代价矩阵，代价为视觉-雷达特征距离的加权和，利用匈牙利算法寻找全局最优的视觉-雷达目标匹配。

优选的，对S2.4提取的雷达目标簇的特征向量和视觉检测边界框的特征向量进行归一化；遍历每对视觉-雷达目标，计算/>和/>的加权特征距离作为相似度度量；初始化一个/>行/>列的匈牙利代价矩阵，其中/>表示S2.1输出的视觉目标检测框数量，/>表示雷达目标簇数量；遍历每一个视觉目标检测框i和雷达目标簇j的所有组合/>，并计算第i个视觉目标和第j个雷达目标的特征距离/>；根据目标检测场景的复杂程度、目标的运动状态等上下文语义信息，确定一个调整因子/>；根据特征距离/>和调整因子/>计算代价，并填入代价矩阵/>的第i行第j列元素/>；利用匈牙利算法求解所构建的代价矩阵/>，得到全局最优的一对一视觉-雷达目标匹配结果/>；在训练数据集上，通过交叉验证法确定匹配阈值/>；遍历最优匹配结果/>中的每一对视觉-雷达目标对/>，若其代价/>小于阈值/>，则接受该目标对/>的匹配结果，否则标记该目标对/>为无法成功匹配；输出遍历后所有被接受的视觉-雷达目标对的匹配结果。

S2.7：对于成功匹配的目标对，将视觉检测结果和雷达检测结果进行关联，融合两模态信息。

具体的，对于成功匹配的视觉-雷达目标对，获取视觉目标检测结果和其匹配的雷达目标簇；基于视觉边界框，从图像中提取目标区域，并利用深度学习模型对该区域进行再次识别和分割，得到精细的目标语义mask和提升后的类别分数；将雷达目标簇投影到图像平面，根据视觉mask提取簇内属于目标的有效点云，并利用有效点云计算目标的3D位置和姿态；分析有效点云的运动特征，并结合目标类别先验和点云反射强度对目标的材质类型进行初步分类；将融合后的3D位置、姿态、运动状态、材质类型与视觉语义mask和类别置信度结合，构建统一格式的目标检测结果进行输出。

S2.8：对于无法成功匹配的目标，利用卡尔曼滤波或LSTM等单模态序列模型进行跟踪。

具体的，对于无法匹配的视觉-雷达目标对，判断是无匹配的视觉目标检测框还是无匹配的雷达目标簇；对于无匹配的视觉目标检测框，初始化卡尔曼滤波器或LSTM模型，以视觉目标检测框的中心位置和尺寸作为观测输入，卡尔曼滤波器或LSTM模型根据当前观测值和历史状态，预测下一时刻目标的运动状态（包括位置和尺寸），并在预测的区域内进行视觉目标检测，将新的检测结果与模型预测进行关联匹配；对于无匹配的雷达目标簇，初始化卡尔曼滤波器或LSTM模型，以雷达簇的3D质心、尺寸、运动特征作为观测输入，卡尔曼滤波器或LSTM模型根据当前观测值和历史状态，预测下一时刻目标的运动状态，并在预测的区域内搜索新的雷达簇，将检测到的簇与模型预测进行关联匹配；对于关联匹配后的单模态目标，更新对应的卡尔曼滤波器或LSTM模型的状态，为下一时刻的预测做准备；若在规定的连续若干时刻内，单模态模型未检测到与预测匹配的目标观测值，则认为该路径的目标已消失，终止对该目标的单模态跟踪；在每一时刻，将单模态跟踪的结果与多模态融合匹配结果进行融合，以构建该时刻的全局目标状态集合；基于全局目标状态集合，对目标ID进行再分配，直至匹配成功。

S3：针对每个匹配目标，构建融合雷达特征和视觉特征的多模态目标表示。

优选的，对于每个在S2.7中匹配成功的视觉-雷达目标对，提取其视觉目标检测框内的RGB图像块和对应投影的雷达点云；将RGB图像块输入预训练的卷积神经网络（如VGG、ResNet等），并在特定层获取视觉特征张量；对雷达点云进行径向边缘滤波和排序，获得有序的点集；将有序点集输入点云特征编码网络，提取雷达特征向量；将视觉特征张量和雷达特征向量进行拼接，并输入至多模态融合模块；在多模态融合模块中，采用注意力机制动态调节两模态特征的重要性权重，得到加权融合后的多模态特征；将加权融合后的多模态特征输入至全连接层，获得该目标的多模态表示向量；将多模态表示向量和目标的运动学特征（从S1获得）进行拼接，形成增强的多模态目标表示。

S4：基于序列模型和当前时刻的观测数据，利用上一时刻的多模态目标表示预测当前时刻目标的状态。

具体的，获取上一时刻该目标的多模态表示向量，作为序列模型的输入；构建基于LSTM或GRU的递归神经网络作为序列模型；将t-1时刻目标的多模态表示输入序列模型，获得其隐状态向量；将当前t时刻的雷达观测数据和视觉观测数据融合为多模态观测向量；将t时刻的多模态观测向量与序列模型的隐状态向量进行拼接或融合，并将融合后的向量输入至前馈神经网络，预测目标在t时刻的位置（坐标）、尺度（长宽高）等状态；利用标准平滑L1损失函数对位置和尺度进行回归，对序列模型和前馈网络进行联合训练；在预测时，持续更新序列模型状态，并基于t-1时刻状态和t时刻观测，以预测t时刻目标状态。

S5：持续更新目标的多模态表示，并利用在线学习策略优化序列模型。

进一步的，本实施例还提供基于雷达数据和视频数据融合的目标跟踪系统，包括预处理模块，用于对雷达数据和视频数据进行预处理；匹配关联模块，用于基于预处理后的雷达数据和视频数据分别进行目标检测，并将雷达目标检测结果和视觉目标检测结果进行匹配关联；融合模块，用于针对每个匹配目标，构建融合雷达特征和视觉特征的多模态目标表示；预测模块，用于基于序列模型和当前时刻的观测数据，利用上一时刻的多模态目标表示预测当前时刻目标的状态；更新模块，用于持续更新目标的多模态表示，并利用在线学习策略优化序列模型。

本实施例还提供一种计算机设备，适用于基于雷达数据和视频数据融合的目标跟踪方法的情况，包括存储器和处理器；存储器用于存储计算机可执行指令，处理器用于执行计算机可执行指令，实现如上述实施例提出的基于雷达数据和视频数据融合的目标跟踪方法。

该计算机设备可以是终端，该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC（近场通信）或其他技术实现。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本实施例还提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例提出的实现基于雷达数据和视频数据融合的目标跟踪方法。

综上，本发明通过融合雷达与视频数据，利用雷达数据的高精度运动信息与视频数据的丰富视觉特征，极大提升了目标跟踪的精确度与稳定性；采用的多模态数据预处理、目标检测、特征匹配与融合技术，有效地结合了雷达与视频的优势，创新性地构建了融合雷达特征和视觉特征的目标表示；通过先进的序列预测模型，本方案能够在动态环境中实现连续且准确的目标状态预测，保证了系统的高实时性和跟踪效率；通过在线学习策略，本方案允许序列模型在跟踪过程中实时更新和优化，显著提升了对新场景或目标变化的适应能力。

实施例2

参照图1~图2，为本发明第二个实施例，该实施例提供了基于雷达数据和视频数据融合的目标跟踪方法，为了验证本发明的有益效果，通过经济效益计算和仿真实验进行科学论证。

具体的，利用Carla自动驾驶模拟器构建4公里城市道路环境，场景包含150辆车辆、300行人、80骑行者等动态目标，以及建筑物、路灯、交通标志等静止障碍物。为获取多模态感知数据，在仿真车辆上安装了一个前向64线固态雷达和一个前向视场角90度的RGB相机，对应采集雷达点云数据和视频图像序列。

进一步的，对收集的原始雷达点云和视频图像进行预处理。针对雷达点云，首先应用背景滤波去除静止物体和地面点云，然后进行运动补偿以消除由于车辆运动导致的畸变，接着采用距离门滤波只保留50米范围内的点云，再基于DBSCAN算法对剩余点云进行聚类；设置DBSCAN的邻域半径为0.5米，最小样本点数为10，得到一系列候选目标簇。对每个簇提取几何尺寸、点数、密度和平均反射强度等基本特征。针对视频图像，首先去噪使用双边滤波，然后直方图均衡化增强对比度，再进行畸变校正，最后将图像归一化到[0,1]区间。

进一步的，基于预处理的雷达和视频数据进行多模态目标检测和匹配，视觉目标检测采用YOLOv5模型，且置信度阈值设为0.5；雷达聚类采用DBSCAN，设置邻域半径1米、最小点数20；构建匈牙利代价矩阵时，视觉-雷达特征距离加权系数分别为（0.6,0.4），代价阈值0.6；对于成功匹配的目标对，构建融合雷达和视觉特征的多模态表示，其中采用VGG16作为视觉特征提取网络，使用PointNet++作为点云特征编码网络，注意力融合权重分别为（0.6,0.4）；对于无法成功匹配的目标，利用卡尔曼滤波器进行单模态跟踪。

进一步的，基于序列模型预测目标状态，使用双层GRU构建序列模型，状态包括3D位置、尺度（长宽高）和2D速度，回归损失函数为平滑L1损失，且每10个时间步对序列模型进行一次在线优化，学习率为0.001。

更进一步的，本发明目标跟踪方法与传统目标跟踪方法的对比指标如表1所示。

表1本发明目标跟踪方法与传统单模态目标跟踪方法的对比指标

优选的，表1展示了本发明多模态目标跟踪方法与传统单模态视觉跟踪以及单模态雷达跟踪方法在各项性能指标上的对比，从平均精确度、多目标跟踪精度和多目标跟踪精确度来看，本发明相比单模态跟踪显示出明显的提升；在多目标跟踪精确度上，本发明也以0.85的得分领先于单模态方法，展示出更好的区分个体目标的能力；在ID交换次数上，本发明实现了较低的ID交换次数，说明其在目标身份维持上更为稳健；在漏检率和虚警率方面，本发明分别只有12.3%和16.5%，明显优于单模态方法，这意味着减少了目标丢失和误检的情况；而目标持续时长的指标显示，本发明能平均跟踪一个目标长达9.2个周期，表明了其长时间跟踪稳定性的优势。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于雷达数据和视频数据融合的目标跟踪方法，其特征在于：包括，

对雷达数据和视频数据进行预处理；

基于预处理后的雷达数据和视频数据分别进行目标检测，并将雷达目标检测结果和视觉目标检测结果进行匹配关联；

针对每个匹配目标，构建融合雷达特征和视觉特征的多模态目标表示；

基于序列模型和当前时刻的观测数据，利用上一时刻的多模态目标表示预测当前时刻目标的状态；

持续更新目标的多模态表示，并利用在线学习策略优化序列模型；

所述将雷达目标检测结果和视觉目标检测结果进行匹配关联包括以下步骤：

利用双分支卷积神经网络对视频帧图像进行目标检测，一个分支预测目标边界框，另一个分支预测目标语义类别；

将雷达点云投影至视频图像平面，以得到雷达点云的图像视角表；

在投影后的雷达点云图像中，利用基于密度的聚类方法识别潜在目标簇；

针对每个视觉检测目标，在其边界框内遍历投影的雷达点云，提取雷达目标簇；

针对每个雷达目标簇，在其投影区域内遍历视觉检测边界框，提取视觉特征；

构建匈牙利代价矩阵，代价为视觉-雷达特征距离的加权和，利用匈牙利算法寻找全局最优的视觉-雷达目标匹配；

对于成功匹配的目标对，将视觉检测结果和雷达检测结果进行关联，融合两模态信息；

对于无法成功匹配的目标，利用卡尔曼滤波或LSTM单模态序列模型进行跟踪；

所述利用匈牙利算法寻找全局最优的视觉-雷达目标匹配包括以下步骤：

对提取的雷达目标簇的特征向量和视觉检测边界框的特征向量/>进行归一化处理；

遍历每对视觉-雷达目标，计算和/>的加权特征距离作为相似度度量；

初始化一个行/>列的匈牙利代价矩阵，其中/>表示视觉目标检测框数量，/>表示雷达目标簇数量；

遍历每一个视觉目标检测框i和雷达目标簇j的所有组合，并计算第i个视觉目标和第j个雷达目标的特征距离/>；

根据目标检测场景的复杂程度、目标的运动状态，确定一个调整因子；

根据特征距离和调整因子/>计算代价，并填入代价矩阵/>的第i行第j列元素/>；

利用匈牙利算法求解所构建的代价矩阵，得到全局最优的一对一视觉-雷达目标匹配结果/>；

在训练数据集上，通过交叉验证法确定匹配阈值；

遍历最优匹配结果中的每一对视觉-雷达目标对/>，若其代价/>小于阈值/>，则接受该目标对/>的匹配结果，否则标记该目标对/>为无法成功匹配；

输出遍历后所有被接受的视觉-雷达目标对的匹配结果。

2.如权利要求1所述的基于雷达数据和视频数据融合的目标跟踪方法，其特征在于：所述利用双分支卷积神经网络对视频帧图像进行目标检测包括以下步骤：

训练系列单阶段检测器模型，用于快速生成候选目标边界框，输入为视频图像帧；

利用单阶段检测器在输入的视频图像上生成一组初始候选目标框及其置信度分数；

根据置信度分数对候选框进行阈值过滤，保留置信度高于阈值的候选框，作为/>网络的输入；

利用Faster R-CNN目标检测框架，将候选框子集输入至网络；

对网络输出的候选框进行第二阶段精细边界框回归和目标分类，并在第二阶段分类输出上，设置分类置信度阈值以过滤掉低于阈值的检测框；

对第二阶段的输出结果，根据置信度分数进行非极大值抑制，去除冗余重叠检测框；

在后的检测框集合中，保留类别为目标类的检测框，将其作为最终视觉目标检测结果输出；

对于保留的视觉目标检测框，结合其边界框坐标、尺寸、类别置信度，构建统一格式的视觉目标检测结果输出。

3.如权利要求2所述的基于雷达数据和视频数据融合的目标跟踪方法，其特征在于：所述利用基于密度的聚类方法识别潜在目标簇包括以下步骤：

获取雷达点云的图像视角表示；

对投影后的点云进行体素化，将三维空间划分为规则的三维体素网格；

遍历每个非空体素，计算其邻域内点数n，以获得该体素的局部点密度；计算每个体素与其邻域内任意更高密度体素的最小距离d；

基于密度和距离d，构建/>算法所需的两个参数包括密度阈值/>和邻域半径；

利用算法、密度阈值/>和邻域半径/>对体素进行聚类，得到一组潜在目标簇；

将聚类结果反投影回三维空间以获得三维目标簇点云，并对每个目标簇点云，计算其几何特征包括空间尺寸和体积，过滤掉尺寸过小的簇；

将过滤后的三维目标簇投影回图像平面，以得到二维目标簇区域。

4.如权利要求3所述的基于雷达数据和视频数据融合的目标跟踪方法，其特征在于：所述提取雷达目标簇包括以下步骤：

针对每个视觉检测目标框，在其边界框内遍历投影所得的二维目标簇区域；

对于每个落在视觉框内的目标簇区域，提取基础雷达特征；

根据目标跟踪场景的复杂程度、环境语义信息和应用需求，对簇内点的运动状态、物理反射属性及其他辅助信息进行分析，以提取高级雷达特征；

若目标跟踪场景为户外静态场景，目标无明显运动，则提取簇点的反射强度统计量和几何拓扑特征作为高级雷达特征；

若目标跟踪场景为高速公路或城市道路，目标运动状态相对有序且规律，则提取簇内点的多普勒速度统计量、簇内点速度分布熵和簇点的反射强度统计量作为高级雷达特征；

若场景为人群密集区域，目标运动状态较为混乱无序，则提取簇内点的微动分布比例、簇内运动点的速度梯度分布和簇点高度统计量作为高级雷达特征；

若场景为室内，目标运动状态次要且目标属性主要，则提取簇内点的彩色分布统计量、簇内点曲率统计量和簇点法向量分布熵作为高级雷达特征；

将基础雷达特征和高级雷达特征进行拼接，形成目标跟踪场景的雷达目标簇。

5.如权利要求4所述的基于雷达数据和视频数据融合的目标跟踪方法，其特征在于：所述构建融合雷达特征和视觉特征的多模态目标表示包括以下步骤：

对于每个匹配成功的视觉-雷达目标对，提取其视觉目标检测框内的RGB图像块和对应投影的雷达点云；

将RGB图像块输入预训练的卷积神经网络，并在特定层获取视觉特征张量；

对雷达点云进行径向边缘滤波和排序，获得有序的点集；

将有序点集输入点云特征编码网络，提取雷达特征向量；

将视觉特征张量和雷达特征向量进行拼接，并输入至多模态融合模块；

在多模态融合模块中，采用注意力机制动态调节两模态特征的重要性权重，得到加权融合后的多模态特征；

将加权融合后的多模态特征输入至全连接层，获得该目标的多模态表示向量；

将多模态表示向量和目标的运动学特征进行拼接，形成增强的多模态目标表示。

6.基于雷达数据和视频数据融合的目标跟踪系统，基于权利要求1~5任一所述的基于雷达数据和视频数据融合的目标跟踪方法，其特征在于：还包括，

预处理模块，用于对雷达数据和视频数据进行预处理；

匹配关联模块，用于基于预处理后的雷达数据和视频数据分别进行目标检测，并将雷达目标检测结果和视觉目标检测结果进行匹配关联；

融合模块，用于针对每个匹配目标，构建融合雷达特征和视觉特征的多模态目标表示；

预测模块，用于基于序列模型和当前时刻的观测数据，利用上一时刻的多模态目标表示预测当前时刻目标的状态；

更新模块，用于持续更新目标的多模态表示，并利用在线学习策略优化序列模型。