CN117649597B

CN117649597B - 一种基于事件相机的水下三维手部姿态估计方法和系统

Info

Publication number: CN117649597B
Application number: CN202410114303.XA
Authority: CN
Inventors: 姜宇; 王跃航; 赵明浩; 魏枫林; 王凯; 张永霁; 焦丹
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2024-01-29
Filing date: 2024-01-29
Publication date: 2024-05-14
Anticipated expiration: 2044-01-29
Also published as: CN117649597A

Abstract

一种基于事件相机的水下三维手部姿态估计方法和系统，涉及水下机器视觉的技术领域。解决在静态的手势重建方法在水下环境中具有局限性的问题。所述方法包括：利用事件相机采集水下潜水员手势视频，将手势视频转换成事件序列，构建数据集；对所述事件序列进行体素化，并通过体素网格方式进行数据表示；利用高斯滤波器处理体素网格形式的事件序列进行滤波处理，获取清洗后的事件序列；构建视频观测模型，获取估计值；使用卡尔曼滤波器对估计值进行处理并生成蒙皮参数；根据蒙皮参数生成蒙皮的可视化结果，完成水下三维手部姿态估计。应用于水下动态手部姿态估计领域。

Description

一种基于事件相机的水下三维手部姿态估计方法和系统

技术领域

本发明涉及水下机器视觉的技术领域，尤其涉及一种基于事件的水下手势的姿态估计方法。

背景技术

3D手部姿态估计技术在虚拟现实、增强现实、手势识别等领域具有广泛应用，它可以为人机交互提供更自然和直观的方式。随着深度学习和计算机视觉技术的不断发展，3D手部姿态估计的准确度和鲁棒性也得到了显著提高。然而，现有的大多数方法虽然在一定程度上对噪声事件具有鲁棒性，但在输入数据中却不能容忍由场景中其他移动物体或摄像机运动产生的事件。

为了提高手部姿态估计的准确性和鲁棒性，许多研究者开始转向深度学习技术，如卷积神经网络（CNN）和循环神经网络（RNN）。这些网络可以从图像或视频中自动学习到手部关键点的位置，从而实现3D手部姿态的估计。具体来说，现有方法通常采用卷积神经网络提取图像特征，并通过回归或分类网络输出手部的三维坐标。此外，还有一些方法采用了传统的计算机视觉技术，如基于特征点的方法。这些方法需要设计用于检测手部关键点的特征，并利用几何计算来估计手部姿态。

然而，上述方法均适用于静态场景。在水下环境中，视觉信息可能会受到水中生物或摄像机运动等因素的影响，这些背景事件可能会对目标事件产生干扰。因此，仅假设场景背景是静态的手势重建方法在水下环境中具有局限性。

发明内容

本发明针对在水下环境中视觉信息会受到水中生物或摄像机运动等因素的影响，静态的手势重建方法在水下环境中具有局限性的问题，提出了一种基于事件相机的水下三维手部姿态估计方法，所述方法包括：

S1：利用事件相机采集水下潜水员手势视频，将所述手势视频转换成事件序列，根据所述事件序列构建数据集；

S2：根据voxel grid对所述事件序列进行体素化，将所述体素化后的事件序列通过体素网格方式进行数据表示；

S3：利用高斯滤波器处理体素网格形式的事件序列进行滤波处理，获取清洗后的事件序列；

S4：根据清洗后的事件序列构建基于Transformer的视频观测模型，根据基于Transformer的视频观测模型获取估计值；

S5：使用卡尔曼滤波器对估计值进行处理并生成蒙皮参数；

S6：根据蒙皮参数生成蒙皮的可视化结果，完成水下三维手部姿态估计。

进一步的，还提出一种优选方式，所述步骤S1包括：

根据所述手势视频转换成事件序列，按照事件序列微秒级的时间戳进行划分；

针对每个微秒级的时间戳，生成一个事件窗口，所述每个事件窗口代表一个时间间隔内的事件序列；

采集每个事件窗口的事件数据，所述事件数据包括触发时间戳、像素位置信息以及光强变化的方向；

将每个事件窗口的事件数据作为一个样本，构建数据集。

进一步的，还提出一种优选方式，所述步骤S2包括：

根据所述事件序列的异步稀疏性，对每个事件窗口采用体素网格方式进行事件表征，计算公式为：

,

其中，为经过体素网格表征后的事件窗口，（/>）为第/>个事件的坐标分别代表、/>为第/>个事件的时间戳，/>为第/>个事件的极性，/>为正则化的时间戳，/>为当前事件窗口的最大时间戳，/>为当前事件窗口的最小时间戳，/>为正则化时间戳范围的起点。

进一步的，还提出一种优选方式，所述步骤S3包括：

根据事件序列所需的平滑程度和体素网格的特性来确定高斯核的大小和标准差；

使用高斯核对体素网格形式的事件序列进行卷积，获取清洗后的事件序列。

进一步的，还提出一种优选方式，所述步骤S4中基于Transformer的视频观测模型包括：

Transformer模块、视频视觉变化器模块、多头通道自注意力模块和序列选择模块；

所述Transformer模块由多个Attention和FeedForward组成；

所述每个Attention层接收输入清洗后的事件序列并计算注意力权重，通过残差连接和层归一化将注意力输出与输入相加；

所述FeedForward层对注意力输出进行非线性变换；

所述视频视觉变化器模块通过一个卷积层将输入图像划分为多个图像块，并对每个图像块进行线性变换得到特征表示，位置编码被加到特征表示中；

空间编码使用Transformer模块进行处理；

通过平均池化将特征表示进行池化，然后通过全连接层进行分类；

所述多头通道自注意力模块包括一个卷积层和一个深度卷积层，用于计算查询、键和值；

通过归一化和softmax函数计算注意力权重；通过线性变换得到输出加权和，获取多头注意力的输出；

所述序列选择模块通过遍历输入的注意力图，将当前图与前一个图相乘得到最终的注意力图；对于最终的注意力图通过池化操作选择具有最高注意力权重的部分进行输出。

进一步的，还提出一种优选方式，所述步骤S5包括：

将估计值映射到观测空间；比较观测值和估计值之间的差异，计算观测残差；

利用卡尔曼滤波器对估计值进行处理，获取对应的状态向量S，根据状态向量对预测误差矩阵的更新，

其中，是参数/>的速度，i=1，2，...，12；

根据当前时刻的观测值和状态向量，利用卡尔曼滤波器对状态和协方差矩进行更新，所述协方差矩阵为：

其中，为给定的噪声方差，Wi为[/> ]的过程噪声协方差矩阵；

根据卡尔曼滤波器的状态更新的结果，获取当前时刻的蒙皮参数，同时更新预测误差矩阵和协方差矩阵。

进一步的，还提出一种优选方式，所述步骤S6包括：

将所述蒙皮参数从体素形式转到转换为视频帧形式，将转换后的视频帧和对应的蒙皮参数估计值进行编码，生成蒙皮的可视化结果，完成水下三维手部姿态估计。

基于同一发明构思，本发明还提出一种基于事件相机的水下三维手部姿态估计系统，所述系统包括：

视频转换单元，用于利用事件相机采集水下潜水员手势视频，将所述手势视频转换成事件序列，根据所述事件序列构建数据集；

体素化单元，用于根据voxel grid对所述事件序列进行体素化，将所述体素化后的事件序列通过体素网格方式进行数据表示；

清洗单元，用于利用高斯滤波器处理体素网格形式的事件序列进行滤波处理，获取清洗后的事件序列；

估计值获取单元，用于根据清洗后的事件序列构建基于Transformer的视频观测模型，根据基于Transformer的视频观测模型获取估计值；

蒙皮参数获取单元，用于使用卡尔曼滤波器对估计值进行处理并生成蒙皮参数；

可视化单元，用于根据蒙皮参数生成蒙皮的可视化结果，完成水下三维手部姿态估计。

基于同一发明构思，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质用于储存计算机程序，所述计算机程序执行上述任一项所述的一种基于事件相机的水下三维手部姿态估计方法。

基于同一发明构思，本发明还提出一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时，所述处理器执行根据上述中任一项中所述的一种基于事件相机的水下三维手部姿态估计方法。

本发明的有益之处在于：

本发明解决了在水下环境中视觉信息会受到水中生物或摄像机运动等因素的影响，静态的手势重建方法在水下环境中具有局限性的问题。

传统的静态手势重建方法在水下环境中可能受到水中生物、摄像机运动等因素的干扰，导致准确性下降。本发明所提供的一种基于事件相机的水下三维手部姿态估计方法，通过使用事件相机、体素化、滤波处理等技术，提高了在水下环境中的适应性，更好地应对复杂的水下场景。采用事件相机可以捕捉到场景中的事件变化，相较于传统的连续帧采集，大大降低了数据量。这有助于在处理水下手势视频时减少计算负担，提高了算法的效率。通过对事件序列进行体素化和高斯滤波处理，能够更好地表示和清理数据。这有助于提高对手部动作的准确性，减少由于噪声和不确定性引起的误差。引入基于Transformer的视频观测模型，使得模型能够更好地捕捉手部动作的时序信息。Transformer在序列建模任务中表现出色，有助于提高对手部姿态的准确性。卡尔曼滤波器的引入进一步增强了估计值的稳定性和精度。它有助于平滑估计值，处理不确定性，并提供更一致的姿态估计结果。

本发明所提供的一种基于事件相机的水下三维手部姿态估计方法中，事件相机是基于场景中事件的变化，而不是连续帧的采集。使得模型更敏感于动态变化，适应性更好。体素化和滤波处理将事件序列转化为更易处理的形式，并通过滤波降低噪声，提高数据质量。基于Transformer的视频观测模型利用Transformer网络对时序信息进行建模，更好地捕捉手部动作的关键特征。卡尔曼滤波器递归地估计事件序列状态，通过融合测量值和先验信息，提供平滑的状态估计。通过引入事件相机、高效的数据表示方法、深度学习模型和滤波器等技术，旨在实现对水下潜水员手部姿态的更为精准的估计，为水下操作和研究提供可靠的手部动作信息。该方法在水下三维手部姿态估计领域取得了显著的进步，克服了传统方法的局限性，提高了算法的鲁棒性和性能。

本发明应用于水下动态手部姿态估计领域。

附图说明

图1为实施方式一所述的一种基于事件相机的水下三维手部姿态估计方法流程图；

图2为实施方式六所述的手部参数生成示意图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。

实施方式一、参见图1说明本实施方式。本实施方式所述的一种基于事件相机的水下三维手部姿态估计方法，所述方法包括：

S5：使用卡尔曼滤波器对估计值进行处理并生成蒙皮参数；

传统的静态手势重建方法在水下环境中可能受到水中生物、摄像机运动等因素的干扰，导致准确性下降。本实施方式所述的方法通过使用事件相机、体素化、滤波处理等技术，提高了在水下环境中的适应性，更好地应对复杂的水下场景。采用事件相机可以捕捉到场景中的事件变化，相较于传统的连续帧采集，大大降低了数据量。这有助于在处理水下手势视频时减少计算负担，提高了算法的效率。通过对事件序列进行体素化和高斯滤波处理，能够更好地表示和清理数据。这有助于提高对手部动作的准确性，减少由于噪声和不确定性引起的误差。引入基于Transformer的视频观测模型，使得模型能够更好地捕捉手部动作的时序信息。Transformer在序列建模任务中表现出色，有助于提高对手部姿态的准确性。卡尔曼滤波器的引入进一步增强了估计值的稳定性和精度。它有助于平滑估计值，处理不确定性，并提供更一致的姿态估计结果。

本实施方式中事件相机是基于场景中事件的变化，而不是连续帧的采集。这样的工作原理使得系统更敏感于动态变化，适应性更好。体素化和滤波处理将事件序列转化为更易处理的形式，并通过滤波降低噪声，提高数据质量。基于Transformer的视频观测模型利用Transformer网络对时序信息进行建模，更好地捕捉手部动作的关键特征。卡尔曼滤波器递归地估计事件序列状态，通过融合测量值和先验信息，提供平滑的状态估计。通过引入事件相机、高效的数据表示方法、深度学习模型和滤波器等技术，旨在实现对水下潜水员手部姿态的更为精准的估计，为水下操作和研究提供可靠的手部动作信息。该方法在水下三维手部姿态估计领域取得了显著的进步，克服了传统方法的局限性，提高了算法的鲁棒性和性能。

实施方式二、本实施方式是对实施方式一所述的一种基于事件相机的水下三维手部姿态估计方法的进一步限定，所述步骤S1包括：

将每个事件窗口的事件数据作为一个样本，构建数据集。

本实施方式中将手势视频按照微秒级的时间戳进行划分，使得数据集能够更细致地捕捉到手势的微小变化。这有助于提高姿态估计的时序分辨率，使系统更灵敏地响应手部动作。针对每个微秒级的时间戳生成一个事件窗口，代表一个时间间隔内的事件序列。这种方式有助于捕捉手部动作的局部特征，同时减少整体计算负担，提高了计算的效率。采集每个事件窗口的事件数据，包括触发时间戳、像素位置信息以及光强变化的方向。这些信息提供了关于手部动作的多维度特征，有助于更全面地描述手势，提高姿态估计的准确性。将每个事件窗口的事件数据作为一个样本，构建数据集。这种样本构建方式更贴近实际场景中手部动作的变化，有助于训练模型更好地适应水下环境中的各种手势。

本实施方式中利用事件相机产生的事件序列，并根据微秒级时间戳将手势视频划分为微小的时间片段。这样可以确保对手势变化的细微部分进行捕捉。针对每个微秒级的时间戳，生成一个事件窗口。这个事件窗口是一个时间间隔内的事件序列的抽象表示，有助于降低数据的维度，提高计算效率。采集每个事件窗口的事件数据，包括触发时间戳、像素位置信息以及光强变化的方向。这些数据是事件相机所捕捉到的关键信息，用于后续的手部姿态估计。将每个事件窗口的事件数据作为一个样本，构建数据集。这种方式保留了事件序列的时序信息，为模型提供了更具代表性的训练样本。通过合理的时间戳划分和事件窗口生成，提供高质量的训练数据集，有助于训练出更准确、鲁棒的水下三维手部姿态估计模型。通过采集丰富的事件数据，包括时间戳、像素位置信息和光强变化方向，旨在捕捉水下潜水员手部动作的多维度信息，为模型提供充足的特征用于姿态估计。

实施方式三、本实施方式是对实施方式二所述的一种基于事件相机的水下三维手部姿态估计方法的进一步限定，所述步骤S2包括：

,

本实施方式中考虑到事件序列的异步稀疏性，采用体素网格方式进行事件表征有助于更有效地处理不规则的事件分布。异步稀疏性意味着事件在时间上不是均匀分布的，体素网格方式能够适应这种异步性，提高了算法的适用性。通过对每个事件窗口进行体素网格表征，将事件序列中的离散事件转换为连续的体素表示。这有助于将离散的事件信息转化为连续的特征空间，更好地适应深度学习等模型的输入要求。引入正则化的时间戳，考虑了当前事件窗口的时间戳范围，并将时间戳的变化范围限制在一个标准化的尺度上。这样的正则化有助于减少时间戳的尺度变化对模型的影响，提高模型的鲁棒性。

本实施方式所述的事件相机产生的事件序列是异步稀疏的，即事件在时间上不均匀分布。体素网格方式通过对每个事件窗口进行表征，能够更好地处理这种异步性，使得模型能够更灵活地适应不同时间点的事件密度变化。体素网格是一种将连续空间划分为离散体素的方法。通过对每个事件窗口的事件序列进行体素网格表征，将事件的坐标、时间戳等信息映射到离散的体素空间中，形成一个连续的、可用于深度学习模型的表示。引入正则化的时间戳，将事件窗口内的时间戳范围进行正则化处理。这一步的目的在于限制时间戳的尺度，使得不同事件窗口之间的时间戳变化更为一致，有助于模型更好地学习手部姿态的动态特征。本实施方式的目的在于通过对异步稀疏性的考虑和体素网格方式的应用，提高对水下三维手部姿态的表征能力。同时，通过时间戳的正则化，增强模型对时间尺度变化的鲁棒性，使得模型更适用于不同水下环境下的手部动作估计。通过体素网格表征，将事件窗口内的事件序列映射到连续的空间中，有助于提高深度学习模型的性能，使得模型能够更好地捕捉水下手部姿态的空间特征。

实施方式四、本实施方式是对实施方式一所述的一种基于事件相机的水下三维手部姿态估计方法的进一步限定，所述步骤S3包括：

本实施方式所述的高斯滤波器能够有效地对体素网格形式的事件序列进行滤波处理，减少由于传感器噪声、水下环境干扰等原因引起的噪声，从而提高姿态估计的准确性。通过调整高斯核的大小和标准差，可以根据事件序列所需的平滑程度和体素网格的特性来灵活控制滤波效果。这有助于平滑处理后的事件序列，使其更适合用于后续的三维手部姿态估计。高斯滤波器的卷积操作有助于去除体素网格形式的事件序列中的不必要的波动和快速变化，保留更加平滑的运动趋势，从而更好地反映手部姿态的真实变化。

本实施方式中所述的高斯滤波器是一种常用的线性滤波器，通过对信号进行加权平均来实现滤波。在本方法中，高斯滤波器的作用是通过卷积操作对体素网格形式的事件序列进行平滑处理，以达到去除噪声和波动的效果。根据事件序列所需的平滑程度和体素网格的特性，需要确定合适的高斯核大小和标准差。较大的核将产生更强烈的平滑效果，而较小的核则更灵敏于细微的变化。通过调整这些参数，可以适应不同的应用场景和手部姿态估计的要求。本实施方式目的在于提高水下三维手部姿态估计方法的鲁棒性和准确性。通过使用高斯滤波器处理体素网格形式的事件序列，可以有效地去除噪声、平滑序列，使得最终的事件序列更符合真实的手部姿态变化，为后续的姿态估计提供更可靠的输入数据。同时，通过根据实际需要调整高斯核的大小和标准差，可以在平滑序列的同时保留重要的运动信息，使得姿态估计既具有平滑性又能够准确地反映手部动作的细节。

实施方式五、本实施方式是对实施方式一所述的一种基于事件相机的水下三维手部姿态估计方法的进一步限定，所述步骤S4中基于Transformer的视频观测模型包括：

所述Transformer模块由多个Attention和FeedForward组成；

所述FeedForward层对注意力输出进行非线性变换；

空间编码使用Transformer模块进行处理；通过平均池化将特征表示进行池化，然后通过全连接层进行分类；

通过归一化和softmax函数计算注意力权重；

通过线性变换得到输出加权和，获取多头注意力的输出；

本实施方式通过Transformer模块、视频视觉变化器模块、多头通道自注意力模块和序列选择模块的组合，实现了多层次的特征提取，能够从清洗后的事件序列中捕捉不同抽象层次的信息，有助于更全面、准确地描述水下三维手部姿态。Transformer模块中的每个Attention层通过非线性变换和残差连接的方式，有助于学习非线性关系和保留原始信息。这提高了模型对复杂手部姿态变化的建模能力。视频视觉变化器模块引入了空间编码和位置编码，有助于处理图像的空间结构信息，使得模型能够更好地理解手部姿态在图像中的位置和空间关系。多头通道自注意力模块能够在不同通道上分别计算注意力，从而更好地捕捉不同通道之间的关联，提高了模型对复杂手部姿态的感知能力。通过遍历注意力图并进行序列选择，该模块能够进一步提取关键信息，聚焦于具有最高注意力权重的部分，从而提高对关键手部姿态的准确度。

本实施方式的目的在于构建基于Transformer的视频观测模型，以更好地从清洗后的事件序列中提取手部姿态的特征。通过引入多层次特征提取、非线性变换、位置编码等机制，增强了模型对水下环境中复杂手部姿态的建模能力。同时，多头通道自注意力模块和序列选择模块的设计有助于提高模型对关键信息的关注度，从而提高估计值的准确性。整体而言，本步骤旨在提高水下三维手部姿态估计的精度和鲁棒性。

实施方式六、参见图2说明本实施方式。本实施方式是对实施方式一所述的一种基于事件相机的水下三维手部姿态估计方法的进一步限定，所述步骤S5包括：

其中，是参数/>的速度，i=1，2...，12；

其中，为给定的噪声方差，Wi为[/> ]的过程噪声协方差矩阵；

本实施方式使用卡尔曼滤波器对估计值进行处理，能够实现对水下三维手部姿态的实时估计，同时通过状态向量的更新，提高了系统的稳定性，减小了噪声对估计结果的影响。通过比较观测值和估计值之间的差异，计算观测残差，并利用卡尔曼滤波器对估计值进行处理，能够进行有效的误差校正，提高了水下三维手部姿态估计的准确性。考虑到参数的速度，通过状态向量中的速度信息，可以更好地捕捉手部姿态变化的动态性，使得估计更具有时空一致性。卡尔曼滤波器通过考虑噪声方差和过程噪声协方差矩阵，能够有效地处理测量中的噪声，提高系统对噪声的鲁棒性。

本实施方式通过卡尔曼滤波器对水下三维手部姿态的估计值进行处理，以提高估计的准确性和稳定性。通过实时地更新状态向量和协方差矩阵，系统能够更好地适应动态环境和噪声干扰，从而得到更可靠的蒙皮参数。通过考虑参数速度和噪声方差，该方法在处理姿态估计过程中更全面地考虑了动态性和测量误差，使得估计结果更加精确和鲁棒。

实施方式七、本实施方式是对实施方式一所述的一种基于事件相机的水下三维手部姿态估计方法的进一步限定，所述步骤S6包括：

本实施方式中通过将蒙皮参数从体素形式转换为视频帧形式，可以生成直观、可视化的水下三维手部姿态估计结果。将转换后的视频帧和蒙皮参数估计值进行编码，可以将水下三维手部姿态的信息以图像或视频的形式传递。生成可视化结果可以提供实时的反馈，帮助实时监测水下环境中手部的姿态变化。这对于一些需要即时响应的应用场景，如操控水下设备或进行水下操作，具有重要意义。

本实施方式中将蒙皮参数从体素形式（体积像素）转换为视频帧形式，涉及到对蒙皮模型的空间信息进行变换和投影，使其适应视频帧的表示形式。将转换后的视频帧和对应的蒙皮参数估计值进行编码，通常包括图像或视频的压缩编码，以便有效地存储和传输。编码过程可能采用标准的图像/视频编码算法，如JPEG、H.264等。编码后的信息用于生成蒙皮的可视化结果。

实施方式八、本实施方式所述的一种基于事件相机的水下三维手部姿态估计系统，所述系统包括：

实施方式九、一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于储存计算机程序，所述计算机程序执行实施方式一至实施方式七任一项所述的一种基于事件相机的水下三维手部姿态估计方法。

实施方式十、本实施方式所述的一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时，所述处理器执行根据实施方式一至实施方式七中任一项中所述的一种基于事件相机的水下三维手部姿态估计方法。

实施方式十一、本实施方式是为实施方式一所述的一种基于事件相机的水下三维手部姿态估计方法提供一具体实施例，同时也用于解释实施方式二至实施方式七，具体的：

步骤1、利用事件相机采集水下正常光照下潜水员手势视频，转换成事件序列并构建数据集；

其中，事件相机可以是不同的采集设备，如：DAVIS 346 Color等。事件相机可以通过测量场景中每个像素的在对数空间的亮度变化输出异步信号流。目标场景为潜水员手势。目标事件数据可以是事件相机采集的数据，包括：由亮度变化异步触发的正/负事件流、触发时间戳、位置信息等。

本实施方式所述的事件相机是一种特殊的摄像机，例如DAVIS 346 Color，它能够以异步方式输出像素的亮度变化信号。这种相机可以测量场景中每个像素的光强变化，并产生异步事件流。使用事件相机在水下潜水员手势场景中进行视频采集。相机记录光强变化的异步事件，这些事件可以是正事件（亮度增加）和负事件（亮度减小）。将采集到的视频转换为事件序列，这涉及将视频帧转换为离散的事件，其中每个事件包含有关亮度变化的信息。利用转换后的事件序列构建数据集，该数据集将用于训练和评估后续步骤中的模型。数据集包括正/负事件流，每个事件的触发时间戳，像素位置信息等。这些信息将成为模型学习的基础。

在实际应用中，基于事件相机对目标场景进行采集，可以是浑浊水域，或背景事件动态的，尽量可以模拟现实情况下各种水下作业状况，对采集的视频进行事件序列转化操作，得到本次实例的基准数据集。

步骤2、针对目标事件序列的异步稀疏性，对每一水下手势的事件流序列，利用voxel grid将其体素化，通过规则的3D网格表示。

将事件映射到体素网格上时，实际上是将事件的时空变化编码成三维结构。这个过程将动态的事件转换为离散的体素表示，每个体素代表着空间中的一个小区域，并嵌入了特定时间段内的动态特征。通过这种映射，可以以一种离散化和结构化的方式捕捉到事件在空间和时间上的变化，从而提供了更详细的空间信息和更细致的时间序列数据。这种多通道的事件表示方式为后续的处理和分析提供了更丰富、更全面的数据，有助于对动态事件进行更精确和全面的理解和识别。

步骤3、使用高斯滤波器对体素网格形式的事件数据应用滤波器以过滤掉事件噪声，使数据更加平滑，同时保留重要信息。这个过程分为两个阶段：第一阶段根据所需的平滑程度和体素网格的特性定义高斯核，第二阶段使用高斯核对体素网格进行卷积。

高斯滤波器是将图像中的每个像素值与周围像素值的加权平均进行计算，权重由高斯函数确定。高斯函数是一种符合高斯分布（正态分布）的函数，具有中心对称性和尖峰在中心的特点。它的一维形式可以表示为：

其中，x是距离中心的偏移量，σ即为高斯函数的标准差，决定了函数的形状。标准差越大，高斯函数的曲线越平缓。

具体的，根据所需的平滑程度和体素网格的特性，确定适当的高斯核大小和标准差。高斯核的大小影响滤波的范围，而标准差则影响平滑程度。较大的核和标准差将导致更广泛的平滑效果。

根据确定的大小和标准差构建高斯核。高斯核是一个二维或三维的矩阵，其中的值由高斯分布函数确定。

将构建好的高斯核应用于体素网格形式的事件序列。这可以通过卷积操作实现，其中高斯核在整个体素网格上滑动，并与相应的事件序列进行加权平均。

卷积操作将产生一个新的体素网格形式的事件序列，其中每个体素的值由高斯滤波器在该位置的卷积结果决定。这个清洗后的事件序列是原始序列的平滑版本。

步骤4、利用基于Transformer的视频视觉变化器模型，引入多头通道自注意力，通过对通道维度进行计算，减少计算复杂度和序列选择模块，在后三层attention block中加入序列选择机制，从而提高模型对手部运动的专注。

首先是Transformer模块，它由多个Attention和FeedForward组成。每个Attention层接收输入x并计算注意力权重，然后通过残差连接和层归一化将注意力输出与输入相加。FeedForward层对注意力输出进行非线性变换。整个Transformer模块的输出经过层归一化后返回视频视觉变化器模块。

接下来是视频视觉变化器模块，它是基于Transformer的视觉模型。它首先通过一个卷积层将输入图像划分为多个图像块，并对每个图像块进行线性变换得到特征表示。然后，位置编码被加到特征表示中。空间编码使用Transformer模块进行处理，以捕捉不同位置之间的关系。时间编码使用类似的方式进行处理。最后，通过平均池化或者仅选择CLStoken的方式将特征表示进行池化，然后通过全连接层进行分类。

在多头通道自注意力模块中，通过对通道维度进行计算，减少计算复杂度。该模块包括一个卷积层和一个深度卷积层，用于计算查询、键和值。然后，通过归一化和softmax函数计算注意力权重。最后，通过线性变换得到输出。具体的，使用卷积操作对输入数据进行查询（Q）、键（K）和值（V）的计算。这些卷积层用于学习局部特征。使用深度卷积操作对每个通道进行独立的卷积。这有助于在通道维度上共享权重，减少计算复杂度。计算查询和键之间的点积，然后通过 softmax 函数将其转换为注意力权重。这给出了每个位置对应的注意力分数。通过将注意力分数与值相乘，得到每个位置的加权和，这就是注意力权重矩阵。对注意力权重进行归一化，以确保它们的总和为1。使用注意力权重对值进行加权和，得到多头注意力的输出。通过线性变换将多头注意力的加权和映射到最终的输出空间。

在序列选择模块中，实现了一个序列选择机制，用于抛弃人体其他部分的事件，使模型专注于手部的运动。该模块通过遍历输入的注意力图，将当前图与前一个图相乘得到最终的注意力图。然后，通过池化操作选择具有最高注意力权重的部分。具体的，对于每个时间步，该模块遍历输入的注意力图序列。将当前时间步的注意力图与前一个时间步的注意力图相乘。这可以通过逐元素乘法（element-wise multiplication）来实现。通过对所有相乘的结果进行累积或其他操作，得到最终的注意力图。这样做的目的是强调在连续时间步上具有较高关联性的部分，同时减弱那些关联性较低的部分。对于最终的注意力图，进行池化操作，以选择具有最高注意力权重的部分。池化操作的结果即为最终的输出。这个输出是一个具有最高注意力的子序列或部分序列，其权重在整个序列中最大。

步骤5、使用观测模型将估计值映射到观测空间，计算观测残差，并使用观测矩阵和测量噪声协方差矩阵来更新状态向量和协方差矩阵，对网络输出进行估计并生成蒙皮参数。

具体的，状态方程描述了蒙皮参数的动态变化规律，观测方程描述了体素网格视频的观测值与蒙皮参数之间的关系。利用卡尔曼滤波器对当前时刻的状态进行预测，以及预测误差矩阵的更新。根据当前时刻的观测值，结合状态预测结果，利用卡尔曼滤波器对状态进行更新，以及协方差矩阵的更新。根据卡尔曼滤波器的输出结果，得到当前时刻的蒙皮参数，以及预测误差矩阵和协方差矩阵的更新。

步骤6、将估计得到的蒙皮参数从体素形式转到转换为视频帧形式，将转换后的视频帧和对应的蒙皮参数估计值进行编码，生成蒙皮的可视化结果。

具体的，假设体素网格和视频帧都以左上角为原点，水平向右为x轴正方向，竖直向下为y轴正方向建立坐标系，则体素中心的坐标可以通过像素坐标和体素大小计算得到。对于每个像素点，根据其对应的体素位置、蒙皮参数和法向量等信息，计算出该像素点的颜色值。将每个像素的颜色值保存起来，得到一幅编码后的图像。重复以上步骤，直到处理完所有帧，得到一个蒙皮可视化的视频。

本实施方式的技术方案，通过将事件序列映射为体素序列，通过高斯滤波器减少噪声，利用视频视觉变化器模型引入序列选择机制，并通过本申请的方法，以端到端的方式实现了水下动态场景的手势重建，为水下的手势检测、识别、追踪等任务提供清晰鲁棒的视觉表达。

尽管已描述了本公开的优选实施方式，但本领域内的技术人员一旦得知了基本创造性概

念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施方式以及落入本公开范围的所有变更和修改。显然，本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样，倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内，则本公开也意图包含这些改动和变型在内。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备（系统）和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用于说明本公开的技术方案而非对其保护范围的限制，尽管参照上述实施例对本公开进行了详细的说明，所属领域的普通技术人员应当理解：本领域技术人员阅读本公开后依然可对发明的具体实施方式进行种种变更、修改或者等同替换，但这些变更、修改或者等同替换，均在公开待批的权利要求保护范围之内。

Claims

1.一种基于事件相机的水下三维手部姿态估计方法，其特征在于，所述方法包括：

S5：使用卡尔曼滤波器对估计值进行处理并生成蒙皮参数；

S6：根据蒙皮参数生成蒙皮的可视化结果，完成水下三维手部姿态估计；

所述步骤S4中基于Transformer的视频观测模型包括：

所述Transformer模块由多个Attention和FeedForward组成；

所述FeedForward层对注意力输出进行非线性变换；

空间编码使用Transformer模块进行处理；

所述序列选择模块通过遍历输入的注意力图，将当前图与前一个图相乘得到最终的注意力图；

对于最终的注意力图通过池化操作选择具有最高注意力权重的部分进行输出。

2.根据权利要求1所述的一种基于事件相机的水下三维手部姿态估计方法，其特征在于，所述步骤S1包括：

将每个事件窗口的事件数据作为一个样本，构建数据集。

3.根据权利要求2所述的一种基于事件相机的水下三维手部姿态估计方法，其特征在于，所述步骤S2包括：

,

4.根据权利要求1所述的一种基于事件相机的水下三维手部姿态估计方法，其特征在于，所述步骤S3包括：

5.根据权利要求1所述的一种基于事件相机的水下三维手部姿态估计方法，其特征在于，所述步骤S5包括：

其中，是参数/>的速度，i=1，2，...，12；

其中，为给定的噪声方差，Wi为[/> ]的过程噪声协方差矩阵；

6. 根据权利要求1所述的一种基于事件相机的水下三维手部姿态估计方法，其特征在于，所述步骤S6包括：

7.一种基于事件相机的水下三维手部姿态估计系统，其特征在于，所述系统包括：

可视化单元，用于根据蒙皮参数生成蒙皮的可视化结果，完成水下三维手部姿态估计；

所述基于Transformer的视频观测模型包括：

所述Transformer模块由多个Attention和FeedForward组成；

所述FeedForward层对注意力输出进行非线性变换；

空间编码使用Transformer模块进行处理；

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于储存计算机程序，所述计算机程序执行权利要求1-6任一项所述的一种基于事件相机的水下三维手部姿态估计方法。

9.一种计算机设备，其特征在于：包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时，所述处理器执行根据权利要求1-6中任一项中所述的一种基于事件相机的水下三维手部姿态估计方法。