CN118068318A

CN118068318A - 基于毫米波雷达和环境传感器的多模态感知方法及系统

Info

Publication number: CN118068318A
Application number: CN202410463850.9A
Authority: CN
Inventors: 杨绍分
Original assignee: Dexin Intelligent Technology Changzhou Co ltd
Current assignee: Dexin Intelligent Technology Changzhou Co ltd
Priority date: 2024-04-17
Filing date: 2024-04-17
Publication date: 2024-05-24
Anticipated expiration: 2044-04-17

Abstract

本发明提供一种基于毫米波雷达和环境传感器的多模态感知方法及系统，涉及多模态感知技术领域，包括利用卡尔曼滤波算法对人体运动目标区域进行目标跟踪，获得目标运动状态；将深度相机采集的深度图像与所述毫米波雷达采集的回波信号进行时间同步和空间配准，并从时间同步和空间配准后的深度图像中提取出与所述人体运动目标区域对应的人体点云数据；利用实时人体姿态估计算法基于所述人体点云数据和目标运动状态进行骨架估计，采用时空图卷积网络对所述人体的三维骨架序列进行分类以识别目标行为。本发明能够解决现有方法中难以挖掘多模态信息的问题，通过融合不同模态的信息,准确重构人体姿态,并具有较强的环境适应性。

Description

基于毫米波雷达和环境传感器的多模态感知方法及系统

技术领域

本发明涉及多模态感知技术，尤其涉及一种基于毫米波雷达和环境传感器的多模态感知方法及系统。

背景技术

随着人工智能和自主系统的快速发展,对环境感知的需求日益增长。准确、实时地感知周围环境对于机器人、自动驾驶汽车和智能监控等应用至关重要。传统的感知方法主要依赖于单一传感器,如可见光相机、激光雷达等。但是,这些传感器往往受到环境条件的限制,如光照变化、天气影响等,难以适应复杂多变的实际场景。

为了克服单一传感器的局限性,研究人员开始探索多传感器融合的方法。通过综合利用不同类型传感器的互补特性,可以显著提高感知系统的稳定性和鲁棒性。其中,毫米波雷达以其全天候、穿透性强、抗干扰等优点,受到了广泛关注。毫米波雷达可以在恶劣天气条件下准确检测目标的位置、速度和姿态,为环境感知提供可靠的信息。

然而,仅仅依靠毫米波雷达还不足以完成复杂的感知任务。毫米波雷达的空间分辨率相对较低,难以获取目标的细节特征。此外,毫米波雷达容易受到多径效应的影响,在复杂环境中容易出现虚警和漏警。因此,有必要将毫米波雷达与其他类型的传感器相结合,实现多模态感知。

发明内容

本发明实施例提供一种基于毫米波雷达和环境传感器的多模态感知方法及系统，至少能够解决现有技术中部分问题。

本发明实施例的第一方面，

提供一种基于毫米波雷达和环境传感器的多模态感知方法，包括：

通过毫米波雷达采集环境中的回波信号，基于所述回波信号生成距离-多普勒图，并从所述距离-多普勒图中确定人体运动目标区域，利用卡尔曼滤波算法对所述人体运动目标区域进行目标跟踪，获得目标运动状态，所述距离-多普勒图表示信号在距离-多普勒域上的能量分布；

将深度相机采集的深度图像与所述毫米波雷达采集的回波信号进行时间同步和空间配准，并从时间同步和空间配准后的深度图像中提取出与所述人体运动目标区域对应的人体点云数据；

利用实时人体姿态估计算法基于所述人体点云数据和目标运动状态进行骨架估计，确定人体的三维骨架序列，采用时空图卷积网络对所述人体的三维骨架序列进行分类以识别目标行为，所述人体的三维骨架序列表示人体在时间上和空间上的运动变化。

在一种可选的实施方式中，

通过毫米波雷达采集环境中的回波信号，其公式如下：

；

其中，s(t)表示t时刻的回波信号，N表示环境中的目标人体的数量，A_i表示第i个目标人体的反射系数，R_i(t)表示第i个目标人体至毫米波雷达的距离，c表示电磁波传播速度；f_c表示毫米波雷达的发射频率；

基于所述回波信号生成距离-多普勒图，并从所述距离-多普勒图中确定人体运动目标区域，包括：

对所述回波信号进行预处理，并对预处理后的回波信号进行快速傅里叶变换后得到距离-多普勒图，其公式如下：

；

其中，S(m,n)表示第m个距离单元和第n个多普勒单元对应的频谱幅度，M和N分别表示距离和多普勒维度上的快速傅里叶变换的点数，K为采样点数，k为采样点数的标识；

以距离-多普勒图中的每一个像素点分别作为目标像素点，利用恒虚警率算法自适应确定目标像素点对应的检测阈值，以距离-多普勒图中像素值大于对应的检测阈值的目标像素点作为人体运动目标区域内的像素点，基于人体运动目标区域内的像素点确定二值化的目标掩模图表示所述人体运动目标区域。

在一种可选的实施方式中，

以距离-多普勒图中的每一个像素点分别作为目标像素点，利用恒虚警率算法自适应确定目标像素点对应的检测阈值，包括：

将目标散射模型与距离-多普勒图进行匹配，确定潜在的人体运动目标区域，所述目标散射模型的公式如下：

；

其中，f_sa(x_sa)表示目标散射模型，sa为散射中心的标识，SA表示散射中心的数量，W_sa表示第sa个散射中心的权重，N(x_sa|μ_sa,Σ_sa)表示第sa个散射中心的高斯分布，μ_sa表示均值，Σ_sa表示协方差矩阵；

以距离-多普勒图中的每一个像素点分别作为目标像素点，计算目标像素点属于人体运动目标区域的后验概率，根据后验概率确定对应目标像素点的检测阈值，其中，计算后验概率的公式如下：

；

其中，P(y=1|f(x))表示目标像素点属于人体运动目标区域的后验概率，MS为像素点的特征数量，ms为像素点的特征的标识，P(f_ms|f_ms-1,y=1)表示给定前一特征和目标类别时当前特征的条件概率，σ(·)为激活函数，KS为先验特征的数量，ks为先验特征的标识，w_ks为第ks个先验特征的权重，Φ_ks(x)为第ks个先验特征在像素点x处的取值，NS为训练集中的像素数量，ns为训练集中像素的标识，δ(·)为狄拉克函数，f(x)为目标像素点的特征向量，f(x_ns)为训练集中第ns个像素点的特征向量。

在一种可选的实施方式中，

将深度相机采集的深度图像与所述毫米波雷达采集的回波信号进行时间同步和空间配准，包括：

基于基准时间为深度相机采集的深度图像与所述毫米波雷达采集的回波信号分别分配用于记录采集时刻的时间戳，基于所述时间戳计算深度相机采集的深度图像与所述毫米波雷达采集的回波信号之间的时间差，基于所述时间差对深度相机采集的深度图像进行时间补偿以进行时间同步，所述基准时间为系统时间或全球定位系统GPS时间；

在深度相机和毫米波雷达的共同视野中设置预定尺寸的标定板，通过检测所述标定板的特征点，分别确定深度相机与所述标定板之间、以及毫米波雷达与所述标定板之间的对应关系，基于所述标定关系确定深度相机和毫米波雷达之间的相对位置和姿态变换矩阵以进行空间配准，其中，所述姿态变换矩阵通过基于最小化重投影误差的目标函数进行求解后得到，最小化重投影误差的目标函数为：

；

其中，T表示4x4大小的齐次变换矩阵，MB和NA分别表示毫米波雷达和深度相机检测到的标定板的特征点数量，mb和na分别表示毫米波雷达和深度相机检测到的标定板的特征点的标识，P_r ^mb和P_c ^na分别表示毫米波雷达和深度相机检测到的标定板的特征点集合。

在一种可选的实施方式中，

人体运动目标区域包括基于从距离-多普勒图中确定的第一人体运动目标区域和从深度采集的深度图像中确定的第二人体运动目标区域，利用卡尔曼滤波算法对所述人体运动目标区域进行目标跟踪，获得目标运动状态，包括：

初始化卡尔曼滤波器的状态向量和协方差矩阵，状态向量基于人体运动目标的初始位置和速度确定；

基于卡尔曼滤波器，根据上一时刻的状态估计和状态转移方程，预测当前时刻的状态估计和协方差矩阵；

针对毫米波雷达计算卡尔曼增益，基于第一人体运动目标区域和预测的当前时刻的状态估计更新状态估计和协方差矩阵，得到中间状态估计和中间协方差矩阵，其公式如下：

；

其中，K_r表示针对毫米波雷达计算的卡尔曼增益，P_k∣k−1表示预测的协方差矩阵，H_r表示毫米波雷达的观测矩阵，R_r表示毫米波雷达的观测噪声协方差矩阵；

；

其中，表示中间状态估计，x_k∣k−1表示预测的状态估计，z_r表示第一人体运动目标区域；

；

其中，表示中间协方差矩阵，I为预设参数；

针对深度相机计算卡尔曼增益，基于第二人体运动目标区域和中间状态估计更新中间状态估计和中间协方差矩阵，得到更新后的状态估计和更新后的协方差矩阵，其公式如下：

；

其中，K_c表示针对深度相机计算的卡尔曼增益，H_c表示深度相机的观测矩阵，R_c表示深度相机的观测噪声协方差矩阵；

；

其中，x_k∣k表示更新后的状态估计，z_c表示第二人体运动目标区域；

；

其中，P_k∣k表示更新后的协方差矩阵；

迭代执行基于卡尔曼滤波器，根据上一时刻的状态估计和状态转移方程，预测当前时刻的状态估计和协方差矩阵以及之后的步骤，以确定目标运动状态。

在一种可选的实施方式中，

利用实时人体姿态估计算法基于所述人体点云数据和目标运动状态进行骨架估计，确定人体的三维骨架序列包括：

利用卷积神经网络对人体点云数据进行关键点检测，其中利用卷积神经网络中最后一个卷积层之后的第一分支确定关键点热图，并利用卷积神经网络中最后一个卷积层之后的第二分支确定每对相邻关键点之间的部分亲和向量场，所述第一分支包括3个卷积层，所述第二分支包括5个卷积层，所述关键点热图中的每个像素表示对应位置为关键点的置信度，所述部分亲和向量场中的每个向量表示两个关键点之间的连接方向和强度；

根据所述关键点热图和所述部分亲和向量场，通过匈牙利算法对姿态图模型优化问题进行求解，得到表示单帧深度图像中人体骨架的目标姿态图，所述目标姿态图为无向图,所述目标姿态图的节点表示关键点,所述目标姿态图的边表示关键点之间的连接；

针对相邻帧的目标姿态图，基于目标运动状态对其中关键点的空间位置和运动速度分别建立对应关系以实现关键点跟踪，并得到人体的三维骨架序列。

在一种可选的实施方式中，

根据所述关键点热图和所述部分亲和向量场，通过匈牙利算法对姿态图模型优化问题进行求解，得到表示单帧深度图像中人体骨架的目标姿态图，包括：

根据所述关键点热图,提取出对应置信度最高的预设数量的关键点作为候选节点，对于每对相邻的候选节点,计算该对相邻的候选节点在部分亲和向量场上的积分值,作为该对相邻的候选节点之间存在连接的置信度；

基于每对相邻的候选节点之间存在连接的置信度，通过匈牙利算法对姿态图模型优化问题进行求解，得到表示单帧深度图像中人体骨架的目标姿态图。

本发明实施例的第二方面，

提供一种基于毫米波雷达和环境传感器的多模态感知系统，包括：

第一单元，用于通过毫米波雷达采集环境中的回波信号，基于所述回波信号生成距离-多普勒图，并从所述距离-多普勒图中确定人体运动目标区域，利用卡尔曼滤波算法对所述人体运动目标区域进行目标跟踪，获得目标运动状态，所述距离-多普勒图表示信号在距离-多普勒域上的能量分布；

第二单元，用于将深度相机采集的深度图像与所述毫米波雷达采集的回波信号进行时间同步和空间配准，并从时间同步和空间配准后的深度图像中提取出与所述人体运动目标区域对应的人体点云数据；

第三单元，用于利用实时人体姿态估计算法基于所述人体点云数据和目标运动状态进行骨架估计，确定人体的三维骨架序列，采用时空图卷积网络对所述人体的三维骨架序列进行分类以识别目标行为，所述人体的三维骨架序列表示人体在时间上和空间上的运动变化。

本发明实施例的第三方面，

提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器存储的指令，以执行前述所述的方法。

本发明实施例的第四方面，

提供一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现前述所述的方法。

通过引入目标散射模型和贝叶斯网络,可以更准确地刻画目标的散射特性和特征之间的依赖关系,从而提高目标检测的精度。贝叶斯网络考虑了特征之间的马尔可夫性,能够有效地建模特征的条件概率分布,减少了特征之间的冗余和噪声,使得后验概率估计更加稳定和可靠。通过自适应调整虚警率阈值和引入先验概率模型,可以有效降低错误警报的发生。先验概率模型利用了目标的运动轨迹、形状特征等高层语义信息,能够从全局的角度约束后验概率估计,排除虚警干扰。同时,自适应阈值可以根据环境噪声和杂波的变化情况,动态调整检测门限,从而抑制虚警的产生。通过综合考虑目标散射特性、特征依赖关系、先验知识等多种因素,本发明的后验概率计算方法具有更强的鲁棒性,能够适应复杂多变的环境条件。

附图说明

图1为本发明实施例基于毫米波雷达和环境传感器的多模态感知方法的流程示意图；

图2为本发明实施例基于毫米波雷达和环境传感器的多模态感知系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1为本发明实施例基于毫米波雷达和环境传感器的多模态感知方法的流程示意图，如图1所示，所述方法包括：

S101. 通过毫米波雷达采集环境中的回波信号，基于所述回波信号生成距离-多普勒图，并从所述距离-多普勒图中确定人体运动目标区域，利用卡尔曼滤波算法对所述人体运动目标区域进行目标跟踪，获得目标运动状态，所述距离-多普勒图表示信号在距离-多普勒域上的能量分布；

示例性地，

毫米波雷达通过发射和接收高频电磁波,可以获取目标的距离、速度等信息,是一种适用于人体运动检测与跟踪的传感器。

在一种可选的实施方式中，

通过毫米波雷达采集环境中的回波信号，其公式如下：

；

示例性地，可以通过毫米波雷达回波信息，为了便于后续处理,需要对回波信号进行预处理,包括背景噪声抑制、信号归一化等。常用的噪声抑制方法有均值滤波、中值滤波等,可以有效去除高斯噪声和脉冲干扰。信号归一化可以将信号幅度统一到[0,1]区间,提高信号的动态范围。

对预处理后的回波信号进行快速傅里叶变换(FFT),可以得到信号在距离-多普勒域上的能量分布,即距离-多普勒图(Range-Doppler Map)。在距离-多普勒图中,静止目标会呈现为距离轴上的能量峰值,而运动目标则会在多普勒轴上展现出速度相关的频移。人体运动通常具有较大的速度和反射截面积,因此在距离-多普勒图中会产生明显的能量峰值。

为了从距离-多普勒图中检测出人体运动区域,需要设定合适的检测阈值。可以采用恒虚警率(Constant False Alarm Rate, CFAR)算法,自适应地确定检测阈值,以平衡检测率和虚警率。

具体而言,对于距离-多普勒图中的每一个像素点,CFAR算法考察其周围一定范围内的背景像素,估计局部噪声的功率谱密度。然后,根据预设的虚警率,确定当前像素的检测阈值。如果像素值超过该阈值,则判定为目标;否则,判定为背景。通过对整个距离-多普勒图进行逐像素的CFAR检测,可以得到一个二值化的目标掩模图,表示人体运动区域的位置。

除了背景噪声外,目标自身的散射特性也会影响检测结果的准确性。传统CFAR算法将目标简化为点目标,未充分考虑目标的散射特征,可能导致检测精度的下降。为此,提出在CFAR检测中引入目标散射模型,提高检测的精度。

在一种可选的实施方式中，

；

示例性地，人体运动目标通常具有复杂的电磁散射特性,可以用多个散射中心的叠加来建模。本申请提供一种基于高斯混合模型(Gaussian Mixture Model, GMM)的人体散射模型，如上述目标散射模型的公式所示。

在CFAR检测中,将目标散射模型与距离-多普勒图进行匹配,计算目标存在的似然概率。具体而言,对于距离-多普勒图中的每一个像素x,计算其属于目标的后验概率；将目标散射模型引入CFAR检测,可以更精确地刻画人体运动目标的散射特性,减少错误警报,提高检测精度。同时,通过自适应调整虚警率阈值,可以进一步提升检测算法的鲁棒性。

其中，计算目标的后验概率包括：在计算目标的后验概率时,可以引入更复杂的概率模型和先验信息,以提高估计的准确性。下面给出一种基于贝叶斯网络的后验概率计算方法:设距离-多普勒图中的像素x的特征向量为f(x)=[f_1,f_2,...,f_M]^T,包含了像素的强度、纹理、上下文等多种特征。目标的类别标签y∈{0,1},其中0表示背景,1表示目标。

为了计算条件概率P(f(x)|y=1),引入贝叶斯网络对特征之间的依赖关系进行建模。假设特征向量中的元素满足马尔可夫性,即每个特征只与其相邻特征相关, 先验特征可以包括目标轨迹的平滑度、目标形状与模板的匹配度等。权重可以通过逻辑回归、支持向量机等分类器进行学习。最后,对于边缘概率,可以用训练数据中所有像素的特征向量的经验分布来近似。

此外，贝叶斯网络可以自适应地学习和调整条件概率分布,适应目标特性的变化。先验概率模型可以融合多种先验知识,提高估计的可靠性。自适应阈值可以根据噪声水平的变化,动态调节检测门限,保证算法的稳定性。通过采用了计算高效的贝叶斯网络推断算法和先验概率模型,可以实现实时在线的后验概率计算。贝叶斯网络通过因子分解和动态规划等技术,将复杂的联合概率分布转化为一系列局部条件概率的计算,大大降低了计算复杂度。先验概率模型采用了简单的线性加权形式,可以通过查表和并行计算等方式快速求解。因此,本发明能够满足实时性要求,适用于工程实践。

在一种可选的实施方式中，

；

其中，表示中间协方差矩阵，I为预设参数；

；

其中，P_k∣k表示更新后的协方差矩阵；

示例性地，在检测到人体运动目标后,需要对目标进行跟踪,以获得其运动轨迹。本申请通过两个步骤确定目标的运动轨迹：预测和更新。在预测步骤,根据上一时刻的状态估计和状态转移方程,预测当前时刻的状态先验估计。在更新步骤,利用当前时刻的观测值(即目标在距离-多普勒图中的位置),对状态先验估计进行校正,得到后验估计。通过不断迭代预测和更新过程,可以得到目标状态的最优估计,即目标的运动轨迹。

可选地，可以根据人体运动目标的初始位置和速度,确定卡尔曼滤波器的状态向量；根据状态向量的维度和测量噪声的统计特性,初始化卡尔曼滤波器的协方差矩阵；基于卡尔曼滤波器进行状态预测可以包括根据上一时刻的状态估计和状态转移矩阵,预测当前时刻的状态估计；根据上一时刻的协方差矩阵和状态转移矩阵,预测当前时刻的协方差矩阵；

针对毫米波雷达进行测量更新可以包括从距离-多普勒图中确定第一人体运动目标区域,提取目标的位置和速度测量值；计算卡尔曼增益；基于第一人体运动目标区域的测量值和预测的状态估计,更新状态估计；更新协方差矩阵。

针对深度相机进行测量更新可以包括从深度图像中确定第二人体运动目标区域,提取目标的位置测量值；计算卡尔曼增益；基于第二人体运动目标区域的测量值和中间状态估计,更新状态估计；在每个时刻,输出目标的状态估计作为目标运动状态的跟踪结果,包括目标的位置和速度信息。

本发明提出的多传感器融合目标跟踪方法,通过卡尔曼滤波器递归地估计目标状态,同时融合了毫米波雷达和深度相机的测量信息,可以实现稳定、准确的目标跟踪。毫米波雷达提供了目标的位置和速度信息,深度相机提供了目标的精确位置信息,两种传感器的优势互补,提高了跟踪性能。同时,卡尔曼滤波器通过预测和更新步骤,实现了测量信息的平滑和融合,抑制了噪声和干扰,提高了跟踪结果的鲁棒性。

S102. 将深度相机采集的深度图像与所述毫米波雷达采集的回波信号进行时间同步和空间配准，并从时间同步和空间配准后的深度图像中提取出与所述人体运动目标区域对应的人体点云数据；

在一种可选的实施方式中，

；

示例性地，在人体运动目标检测和跟踪过程中,单一传感器往往难以满足精度和可靠性的要求。为了综合利用毫米波雷达和深度相机的优势,需要将它们的检测结果进行融合。然而,由于两种传感器在时间和空间上存在差异,直接融合会导致误差和失真。因此,本申请提出一种毫米波雷达与深度相机的时空对齐方法,通过时间同步和空间配准,实现异源传感器数据的精确融合。

其中，时间同步可以包括：

毫米波雷达和深度相机的数据获取通常具有不同的时间频率和延迟,导致它们之间存在时间偏移。为了消除这种偏移,需要对两种传感器进行时间同步。

首先,选择一个共同的时间基准,如系统时钟或GPS时间。然后,在数据采集过程中,为每个传感器的数据帧分配一个时间戳,记录其获取的时刻。通过比较时间戳,可以计算出两种传感器数据帧之间的时间差。

通过时间同步,毫米波雷达和深度相机的数据帧可以在时间上实现精确对齐,为后续的空间配准奠定基础。

其中，空间配准可以包括：

由于毫米波雷达和深度相机在空间位置和朝向上存在差异,它们获取的数据在坐标系上不一致,无法直接融合。因此,需要通过空间配准,将两种传感器的数据转换到同一坐标系下。空间配准可以利用双目视觉标定的原理实现。首先,在两个传感器的共同视野中放置一个已知尺寸的标定板,如棋盘格图案。通过检测标定板的特征点,可以建立每个传感器与标定板之间的对应关系。

在完成时间同步和空间配准后,毫米波雷达和深度相机的数据就可以进行融合了。数据融合的目的是综合利用两种传感器的信息,获得更加准确和可靠的目标检测和跟踪结果。

本实施例中，通过时间同步和空间配准,深度相机和毫米波雷达采集的数据可以在时间和空间上实现精确对齐。时间同步消除了两种传感器数据之间的时间偏差,确保它们在同一时刻描述目标的状态。空间配准建立了两种传感器坐标系之间的转换关系,使得它们采集的数据可以映射到同一坐标系下进行融合。数据对齐是实现多传感器融合的基础,可以提高融合结果的准确性和可靠性。深度相机和毫米波雷达具有互补的优势。深度相机可以提供高分辨率的空间信息,但容易受到光照和遮挡的影响。毫米波雷达可以提供稳定的距离和速度信息,但空间分辨率较低。通过时间同步和空间配准,两种传感器的信息可以在时空上实现匹配,相互补充和验证,从而提高目标检测和跟踪的稳定性。融合后的结果能够兼顾空间细节和动态特性,在复杂环境下表现出更强的鲁棒性。

时间同步和空间配准为多传感器数据的融合提供了统一的时空基准,简化了数据处理的流程。在对齐后的数据上,可以直接应用现有的融合算法,如卡尔曼滤波、贝叶斯推断等,无需额外的时空转换和插值操作。这降低了数据处理的复杂度,提高了计算效率,有利于实时性要求较高的应用场景。深度相机和毫米波雷达的感知范围和维度有所不同。深度相机提供了详细的空间信息,但测距范围较近。毫米波雷达能够测量更远距离的目标,但难以获取目标的细节特征。通过时间同步和空间配准,两种传感器的感知结果可以无缝拼接,扩展了感知的范围和维度。这使得系统能够全面地感知和理解环境,捕捉不同尺度和特征的目标,提高感知的完备性。

S103. 利用实时人体姿态估计算法基于所述人体点云数据和目标运动状态进行骨架估计，确定人体的三维骨架序列，采用时空图卷积网络对所述人体的三维骨架序列进行分类以识别目标行为，所述人体的三维骨架序列表示人体在时间上和空间上的运动变化。

在一种可选的实施方式中，

示例性地，在完成毫米波雷达和深度相机的数据对齐后,需要从深度图中提取出与雷达目标对应的人体点云,并进行骨架估计,以获得描述人体运动的三维骨架序列。本申请采用了一种基于深度图的实时人体姿态估计算法OpenPose来实现这一目的。下面将详细介绍该算法的原理和实现步骤：

OpenPose算法的第一步是利用卷积神经网络检测出人体的关键点,如头部、肩部、手肘等。具体地,该算法使用了一个基于VGG-19的卷积神经网络作为骨干网络,并在其最后一个卷积层后面并行地连接了两个分支:

关键点置信度图分支:该分支由3个卷积层组成,用于预测每个关键点的热图(heatmap)。热图是一个与输入图像大小相同的二维矩阵,其中每个像素表示该位置为关键点的置信度。通过对热图应用非极大值抑制(Non-Maximum Suppression, NMS)算法,可以获得每个关键点的精确位置。

关键点亲和向量场分支:该分支由5个卷积层组成,用于预测每对相邻关键点之间的部分亲和向量场(Part Affinity Fields, PAFs)。PAFs是一组二维向量场,其中每个向量表示两个关键点之间的连接方向和强度。通过分析PAFs,可以推断出关键点之间的连接关系。

在训练阶段,关键点热图和PAFs都需要相应的标注数据作为监督信号。OpenPose使用COCO和MPII等大规模人体姿态数据集进行训练,通过最小化预测值与真实标注之间的L2损失函数来优化网络参数。

姿态图模型优化可以包括：

得到关键点热图和PAFs后,OpenPose算法需要通过优化一个姿态图模型,来估计出各关键点之间的连接关系,得到完整的人体骨架。姿态图是一个无向图,其中节点表示人体关键点,边表示关键点之间的连接。

具体地,该算法首先根据关键点热图,提取出置信度最高的n个关键点作为候选节点。然后,对于每对候选节点,计算它们在PAFs上的积分值,作为它们之间存在连接的置信度。接着,通过求解一个二分图匹配问题,找到一组置信度最高的边,构成人体骨架。

可以理解的是，约束条件确保了每个关键点只与一个候选节点连接,每个候选节点最多被一个关键点连接,并且连接关系满足骨架拓扑结构。

上述优化问题可以通过匈牙利算法求解,得到全局最优解。OpenPose算法采用了一种贪心策略,即按照置信度从高到低的顺序逐个添加连接,直到所有关键点都被连接或无法再添加连接为止。这种贪心策略虽然不能保证全局最优,但可以大大降低计算开销,实现实时性能。

通过优化姿态图模型,OpenPose算法可以估计出单帧深度图中的人体骨架。为了得到描述人体运动的三维骨架序列,需要在时间维度上连接一系列骨架。具体地,对于每一帧深度图,首先将其与毫米波雷达点云对齐,然后提取出与雷达目标对应的人体点云。接着,将点云投影到深度图上,并根据上述步骤估计出人体骨架。最后,将一系列骨架按照时间顺序连接起来,得到三维骨架序列。在连接骨架时,需要解决不同帧之间的关键点对应问题。OpenPose算法假设相邻帧之间的人体运动较小,因此可以通过关键点的空间位置和运动速度来建立对应关系。

通过关键点跟踪,可以得到连贯的三维骨架序列,表示人体在时间和空间上的运动变化。这种骨架序列可以用于后续的行为识别、异常检测等任务。

总之,本申请采用OpenPose算法,通过关键点检测、姿态图模型优化和骨架序列生成三个步骤,实现了从深度图中提取人体骨架的目标。该算法利用卷积神经网络学习人体姿态的先验知识,并通过优化一个图模型来估计关键点之间的拓扑结构,具有较高的精度和实时性。在毫米波雷达和深度相机的数据融合中,OpenPose算法可以提供丰富的人体运动信息,为场景理解和人机交互提供重要的特征支持。

图2为本发明实施例基于毫米波雷达和环境传感器的多模态感知系统的结构示意图，如图2所示，所述系统包括：

本发明实施例的第三方面，

提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

本发明实施例的第四方面，

本发明可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本发明的各个方面的计算机可读程序指令。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于毫米波雷达和环境传感器的多模态感知方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，通过毫米波雷达采集环境中的回波信号，其公式如下：

；

3.根据权利要求2所述的方法，其特征在于，以距离-多普勒图中的每一个像素点分别作为目标像素点，利用恒虚警率算法自适应确定目标像素点对应的检测阈值，包括：

；

4.根据权利要求1所述的方法，其特征在于，将深度相机采集的深度图像与所述毫米波雷达采集的回波信号进行时间同步和空间配准，包括：

；

5.根据权利要求1所述的方法，其特征在于，人体运动目标区域包括基于从距离-多普勒图中确定的第一人体运动目标区域和从深度采集的深度图像中确定的第二人体运动目标区域，利用卡尔曼滤波算法对所述人体运动目标区域进行目标跟踪，获得目标运动状态，包括：

；

其中，表示中间协方差矩阵，I为预设参数；

；

其中，P_k∣k表示更新后的协方差矩阵；

6.根据权利要求1所述的方法，其特征在于，利用实时人体姿态估计算法基于所述人体点云数据和目标运动状态进行骨架估计，确定人体的三维骨架序列包括：

7.根据权利要求6所述的方法，其特征在于，根据所述关键点热图和所述部分亲和向量场，通过匈牙利算法对姿态图模型优化问题进行求解，得到表示单帧深度图像中人体骨架的目标姿态图，包括：

8.一种基于毫米波雷达和环境传感器的多模态感知系统，用于实现前述权利要求1-7中任一项所述的方法，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器存储的指令，以执行权利要求1至7中任意一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至7中任意一项所述的方法。