CN117576784A - 一种融合事件和rgb数据潜水员手势识别方法及其系统 - Google Patents

一种融合事件和rgb数据潜水员手势识别方法及其系统 Download PDF

Info

Publication number
CN117576784A
CN117576784A CN202410049996.9A CN202410049996A CN117576784A CN 117576784 A CN117576784 A CN 117576784A CN 202410049996 A CN202410049996 A CN 202410049996A CN 117576784 A CN117576784 A CN 117576784A
Authority
CN
China
Prior art keywords
event
rgb
diver
data
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410049996.9A
Other languages
English (en)
Other versions
CN117576784B (zh
Inventor
姜宇
宋建军
赵明浩
王跃航
齐红
张永霁
王勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202410049996.9A priority Critical patent/CN117576784B/zh
Publication of CN117576784A publication Critical patent/CN117576784A/zh
Application granted granted Critical
Publication of CN117576784B publication Critical patent/CN117576784B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

一种融合事件和RGB数据潜水员手势识别方法及其系统,涉及水下计算机视觉的技术领域。解决现有潜水员手势识别方法单独依赖视觉信息会存在局限性,如准确性低和鲁棒性差的问题。采用事件相机采集多样化的潜水员手势视频,转化成事件序列和RGB帧,并构建基准数据集;将事件序列数据映射到三维网格,采用多维特征表示;采用滑动窗口处理所述RGB帧,针对每个窗口内进行局部处理获得RGB特征;采用MLP编码事件和RGB特征,得到多模态融合的信息表达;采用预训练的ResNet3D18和EGRU单元构成手势识别模型对融合后的特征进行训练,最终输出潜水员手势的准确类别。本发明适用于潜水员工作时的信息交互和信息传递。

Description

一种融合事件和RGB数据潜水员手势识别方法及其系统
技术领域
本发明涉及水下计算机视觉的技术领域。
背景技术
动作识别作为计算机视觉领域的重要研究方向之一,旨在实现对人类动作的智能识别和理解。在许多应用领域,如智能监控、健康跟踪和人机交互等方面,动作识别都具有广泛的应用前景。传统动作识别方法通常使用手工设计 的特征提取器,如形状、颜色、边缘等特征。这些特征提取技术结合机器学习算法,如支持向量机(SVM)或隐马尔可夫模型(HMM),用于动作分类和识别。
在水下环境中,视觉信息可能受到光线条件、水质和水流等因素的影响而变得模糊或不清晰。因此,单独依赖视觉信息进行潜水员手势识别存在局限性。为了提高识别的准确性和鲁棒性,将事件信息与RGB数据进行融合成为一种新兴的解决方案。
发明内容
本发明提供一种融合事件和RGB数据潜水员手势识别方法,解决现有潜水员手势识别方法单独依赖视觉信息会存在局限性,如准确性低和鲁棒性差的问题,本发明提供一种融合事件和RGB数据潜水员手势识别方法,为潜水任务、水下通讯和智能潜水装备等方面提供支持。
为实现上述目的,本发明提供了如下方案:
本发明提供一种融合事件和RGB数据潜水员手势识别方法,所述方法为:
S1、采用事件相机采集多样化的潜水员手势视频,将所述潜水员手势视频转化成事件序列和RGB帧,并根据所述事件序列和RGB帧构建基准数据集;
S2、将事件序列数据映射到三维网格,每个体素通道编码特定事件信息,将事件数据采用多维特征表示;
S3、采用滑动窗口处理所述RGB帧,针对每个窗口内进行局部处理获得RGB特征;
S4、采用MLP编码多维特征表示的事件数据和RGB特征,获得多模态融合的特征;
S5、采用预训练的ResNet3D18和EGRU单元构建手势识别模型;
S6、采用所述手势识别模型对所述多模态融合的特征进行训练,获得潜水员手势的准确类别。
进一步,还有一种优选实施例,上述步骤S1具体为:
S11、根据潜水员手势的事件序列,按其微秒级的时间戳进行划分,针对每一手势场景,得到多个事件窗口;
S12、根据潜水员手势的RGB帧,按其微秒级的时间戳与步骤S11获得的多个事件窗口进行对齐,获得对齐后的结果;
S13、根据所述多个事件窗口和对齐后的结果,构建基准数据集。
进一步,还有一种优选实施例,上述步骤S13中的基准数据集包括基准训练集和基准测试集。
进一步,还有一种优选实施例,上述步骤S2具体为:
S21、将三维空间划分为小立方体体素组成三维网格;
S22、将事件序列数据的四元组数据输入到所述三维网格中,使得每个事件,在其对应的空间位置上将相应的体素设置为特定的值或编码,获得多维特征表示的事件数据。
进一步,还有一种优选实施例,上述步骤S3具体为:
S31、选用固定大小的窗口在RGB图像上滑动,并以固定步长逐行或逐列地移动以覆盖整个图像,在每个窗口中,所述RGB帧被分割成局部区域;
S32、对所述局部区域进行处理,获得RGB特征。
进一步,还有一种优选实施例,上述步骤S4具体为:
S41、将多维特征表示的事件数据和RGB特征进行预处理;
S42、将预处理后的事件数据输入到MLP的一个分支中;
S43、将预处理后的RGB特征输入到MLP的另一个分支中;
S44、将所述MLP的一个分支的输出层和MLP的另一个分支的输出层进行融合,获得多模态融合的特征。
进一步,还有一种优选实施例,上述步骤S6具体为:
S61、采用手势识别模型中的ResNet3D18模型对所述多模态融合的特征进行特征提取,获得提取后的特征;
S62、采用手势识别模型中的EGRU单元处理所述提取后的特征;
S63、通过对处理后的特征进行训练,建立潜水员手势与其对应类别之间的联系网络;
S64、根据所述联系网络对潜水员手势进行分类识别。
本发明所述的一种融合事件和RGB数据潜水员手势识别方法可以全部采用计算机软件实现,因此,对应的,本发明还提供一种融合事件和RGB数据潜水员手势识别系统,所述潜水员手势识别系统包括:
用于采用事件相机采集多样化的潜水员手势视频,将所述潜水员手势视频转化成事件序列和RGB帧,并根据所述事件序列和RGB帧构建基准数据集的存储装置;
用于将事件序列数据映射到三维网格,每个体素通道编码特定事件信息,将事件数据采用多维特征表示的存储装置;
用于采用滑动窗口处理所述RGB帧,针对每个窗口内进行局部处理获得RGB特征的存储装置;
用于采用MLP编码多维特征表示的事件数据和RGB特征,获得多模态融合的特征的存储装置;
用于采用预训练的ResNet3D18和EGRU单元构建手势识别模型的存储装置;
用于采用所述手势识别模型对所述多模态融合的特征进行训练,获得潜水员手势的准确类别的存储装置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述任意一项所述的一种融合事件和RGB数据潜水员手势识别方法。
本发明还提供一种计算机设备,该设备包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行上述任意一项所述的一种融合事件和RGB数据潜水员手势识别方法。
本发明的有益效果为:
1、本发明提供一种融合事件和RGB数据潜水员手势识别方法,通过同时采用事件数据和RGB特征数据,获得了丰富的多维信息,有助于更全面、更准确地捕捉潜水员手势的特征。这种综合的数据融合不仅增加了数据的丰富性,还提供了更广泛、更全面的视角,使我们能够更好地理解和分析潜水员的行为。
2、本发明提供一种融合事件和RGB数据潜水员手势识别方法,采用多层感知器MLP对事件数据和RGB特征进行编码和融合,该过程是一个复杂的多模态特征提取和融合过程,旨在将来自不同数据源:事件数据和RGB特征的信息结合在一起,形成一个综合的、更具表达力的多模态表示。
3、本发明提供一种融合事件和RGB数据潜水员手势识别方法,通过预训练的ResNet3D18和EGRU单元对融合后的多模态特征进行训练,我们能够从潜水员手势视频序列中更好地捕获潜水员手势的动作信息,并最终实现准确的手势分类。这个过程结合了序列建模和注意力机制,有助于模型更好地理解和表征视频数据中的动作特征。
本发明适用于事件和RGB两种数据模态的融合方法以及潜水员工作时的信息交互和信息传递。
附图说明
图1是实施方式一所述的一种融合事件和RGB数据潜水员手势识别方法的流程示意图;
图2是实施方式四所述的体素网络处理事件的流程示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其他实施例中也可以实现本申请。在其它情况下,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
下面结合附图和实施例对本发明的具体实施方式作进一步详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进,这些都属于本发明的保护范围。
实施方式一. 参见图1说明本实施方式,本实施方式提供一种融合事件和RGB数据潜水员手势识别方法,所述潜水员手势识别方法为:
S1、采用事件相机采集多样化的潜水员手势视频,将所述潜水员手势视频转化成事件序列和RGB帧,并根据所述事件序列和RGB帧构建基准数据集;
S2、将事件序列数据映射到三维网格,每个体素通道编码特定事件信息,将事件数据采用多维特征表示;
S3、采用滑动窗口处理所述RGB帧,针对每个窗口内进行局部处理获得RGB特征;
S4、采用MLP编码多维特征表示的事件数据和RGB特征,获得多模态融合的特征;
S5、采用预训练的ResNet3D18和EGRU单元构建手势识别模型;
S6、采用所述手势识别模型对所述多模态融合的特征进行训练,获得潜水员手势的准确类别。
本实施方式在实际应用时,采用事件相机采集多样化的潜水员手势视频,转化成事件序列和RGB帧,并构建了基准数据集,其中,采用事件相机收集的数据集的可以是不同的环境的,例如:浑浊水域的、光线较暗的等。视频的种类要多样化,尽可能模拟现实情况下各种水下作业状况。采集110种手势指令,每个动作指令控制在十秒以内,每种动作不限个数。
将所述事件序列数据映射到三维网格,每个体素通道编码特定事件信息,将事件数据采用多维特征表示,即,形成多通道的事件表征,多通道表示意味着为每种类型的特征创建一个独立的通道。例如,不同类型的事件可以映射到不同的体素通道,每个通道可以表示该类型事件的存在、频率等信息。每个体素通道代表了特定空间位置上的特定信息。这样,多通道体素网格可以为每个体素位置提供多个信息层,从而捕获到空间和时间维度上的多种事件特征。
采用滑动窗口处理所述RGB帧,针对每个窗口内进行局部处理获得RGB特征,以便更全面地理解和表示整个RGB帧。有助于捕捉图像中不同区域的局部特征,用于后续的分析和处理。
采用MLP编码多维特征表示的事件数据和RGB特征,获得多模态融合的特征,该过程是一个复杂的多模态特征提取和融合过程,旨在将来自不同数据源:事件数据和RGB图像的信息结合在一起,形成一个综合的、更具表达力的多模态表示。
采用预训练的ResNet3D18和EGRU单元构建手势识别模型;采用所述手势识别模型对所述多模态融合的特征进行训练,获得潜水员手势的准确类别,使得能够从潜水员手势视频序列中更好地捕获潜水员手势的动作信息,并最终实现准确的手势分类。这个过程结合了序列建模和注意力机制,有助于模型更好地理解和表征视频数据中的动作特征。
本实施方式提供一种融合事件和RGB数据潜水员手势识别方法,通过同时采用事件数据和RGB特征数据,获得了丰富的多维信息,有助于更全面、更准确地捕捉潜水员手势的特征。这种综合的数据融合不仅增加了数据的丰富性,还提供了更广泛、更全面的视角,使我们能够更好地理解和分析潜水员的行为。
本实施方式提供一种融合事件和RGB数据潜水员手势识别方法,通过事件和RGB特征作为输入,对潜水员手势做到准确识别,适用于潜水员工作时的信息交互和信息传递。
实施方式二. 本实施方式是对实施方式一所述的一种融合事件和RGB数据潜水员手势识别方法中的步骤S1作举例说明,所述步骤S1具体为:
S11、根据潜水员手势的事件序列,按其微秒级的时间戳进行划分,针对每一手势场景,得到多个事件窗口;
S12、根据潜水员手势的RGB帧,按其微秒级的时间戳与步骤S11获得的多个事件窗口进行对齐,获得对齐后的结果;
S13、根据所述多个事件窗口和对齐后的结果,构建基准数据集。
本实施方式在实际应用时,采用事件相机采集多样化的潜水员手势视频,并将所述潜水员手势视频转化成事件序列和RGB帧;其中,根据潜水员手势的事件序列,按其微秒级的时间戳进行划分,针对每一手势场景,得到多个事件窗口;根据潜水员手势的RGB帧,按其微秒级的时间戳与上述获得的多个事件窗口进行对齐,获得对齐后的结果;根据所述多个事件窗口和对齐后的结果,构建基准数据集。
实施方式三. 本实施方式是对实施方式二所述的一种融合事件和RGB数据潜水员手势识别方法中的步骤S13中的基准数据集作举例说明;
所述基准数据集包括基准训练集和基准测试集。
本实施方式在实际应用时,按照4:1将基准数据集划分为训练集与测试集。
实施方式四. 参见图2说明本实施方式,本实施方式是对实施方式一所述的一种融合事件和RGB数据潜水员手势识别方法中的步骤S2作举例说明,所述步骤S2具体为:
S21、将三维空间划分为小立方体体素组成三维网格;
S22、将事件序列数据的四元组数据输入到所述三维网格中,使得每个事件,在其对应的空间位置上将相应的体素设置为特定的值或编码,获得多维特征表示的事件数据。
本实施方式在实际应用时,如图2所示,事件序列数据经过三维网格处理后,会形成多通道的事件表征。具体为:将三维空间划分为小立方体单元(体素)。这些体素组成了一个三维的网格结构,每个体素代表空间中的一个小区域。事件序列数据通常描述了时间、位置和动作等信息,将事件序列数据的四元组数据:;其中,/>、/>、/>和/>分别代表第/>个事件的坐标、时间戳和极性,/>代表当前事件窗口中第/>个事件单元所在位置的亮度增加,并达到了预设增量阈值;/>代表相反的过程。输入到三维网格中,使得对于每个事件,在其对应的空间位置上将相应的体素设置为特定的值或编码,这可以是事件数量、事件类型或其他信息。获得多维特征表示的事件数据,即,形成多通道的事件表征,多通道表示意味着为每种类型的特征创建一个独立的通道。例如,不同类型的事件可以映射到不同的体素通道,每个通道可以表示该类型事件的存在、频率等信息。每个体素通道代表了特定空间位置上的特定信息。这样,多通道体素网格可以为每个体素位置提供多个信息层,从而捕获到空间和时间维度上的多种事件特征。
实施方式五. 本实施方式是对实施方式一所述的一种融合事件和RGB数据潜水员手势识别方法中的步骤S3作举例说明,所述步骤S3具体为:
S31、选用固定大小的窗口在RGB图像上滑动,并以固定步长逐行或逐列地移动以覆盖整个图像,在每个窗口中,所述RGB帧被分割成局部区域;
S32、对所述局部区域进行处理,获得RGB特征。
本实施方式在实际应用时,滑动窗口处理RGB帧时,是一种以固定尺寸滑动窗口的方式,对每个RGB帧进行局部区域的扫描和处理。这过程中,选择固定大小的窗口,本实施方式选择的窗口大小是10,该窗口在RGB图像上滑动,并以固定步长逐行或逐列地移动以覆盖整个图像。在每个窗口中,RGB帧被分割成局部区域。这些局部区域通常包含特定的信息,例如图像的纹理、形状或者其他视觉特征。最终从每个窗口内获取有用的信息,以便更全面地理解和表示整个RGB帧。有助于捕捉图像中不同区域的局部特征,用于后续的分析和处理。
实施方式六. 本实施方式是对实施方式一所述的一种融合事件和RGB数据潜水员手势识别方法中的步骤S4作举例说明,所述步骤S4具体为:
S41、将多维特征表示的事件数据和RGB特征进行预处理;
S42、将预处理后的事件数据输入到MLP的一个分支中;
S43、将预处理后的RGB特征输入到MLP的另一个分支中;
S44、将所述MLP的一个分支的输出层和MLP的另一个分支的输出层进行融合,获得多模态融合的特征。
本实施方式在实际应用时,将所述多维特征表示的事件数据和RGB特征进行预处理,其中,预处理包括归一化、去噪或其他预处理步骤,以确保数据的一致性和可靠性。接着,将预处理后的这两种特征分别输入到MLP模型的不同分支中,即,将预处理后的事件数据输入到MLP的一个分支中,MLP的一个分支包括多个全连接层。这些层用于学习和提取事件数据中的时空相关特征。MLP通过这些层逐渐抽象和学习事件数据的高级特征表征,将其转换为高维表示。将预处理后的RGB特征输入到MLP的另一个分支中,通过MLP的另一个分支,RGB特征也经过多个全连接层,以捕获图像特征的高级表示。这两个分支的输出层将在某个层级上融合,即,将所述MLP的一个分支的输出层和MLP的另一个分支的输出层进行融合,这种融合可以是简单的连接或者更复杂的融合策略,例如逐元素相乘、串联操作或其他方式的组合,获得多模态融合的特征。多模态融合的特征包含了事件数据和RGB特征的信息融合。这种多模态融合的信息表达将更全面地描述输入数据,为后续的任务,如分类或识别提供了更具表现力的特征表示。
本实施方式提供一种融合事件和RGB数据潜水员手势识别方法,采用多层感知器MLP对事件数据和RGB特征进行编码和融合,该过程是一个复杂的多模态特征提取和融合过程,旨在将来自不同数据源:事件数据和RGB图像的信息结合在一起,形成一个综合的、更具表达力的多模态表示。
实施方式七. 本实施方式是对实施方式一所述的一种融合事件和RGB数据潜水员手势识别方法中的步骤S6作举例说明,所述步骤S6具体为:
S61、采用手势识别模型中的ResNet3D18模型对所述多模态融合的特征进行特征提取,获得提取后的特征;
S62、采用手势识别模型中的EGRU单元处理所述提取后的特征;
S63、通过对处理后的特征进行训练,建立潜水员手势与其对应类别之间的联系网络;
S64、根据所述联系网络对潜水员手势进行分类识别。
本实施方式在实际应用时,采用预训练的ResNet3D18和EGRU单元构建手势识别模型;其中,预训练的ResNet3D18模型主要用于特征提取,这个模型基于3D卷积神经网络结构,在处理数据时能够有效地提取关键的时空特征,有助于识别视频中的动作、手势或者其他特定的视觉特征。在训练过程中,ResNet3D18模型通过学习视频序列的特征表示,为后续EGRU单元提供有用的、高层次的视觉特征表示。
EGRU单元是门控循环单元的扩展版本,能够有效地处理序列数据,并在其中引入了注意力机制。它具有对序列数据进行建模的能力,并且能够学习数据中的长期依赖关系和重要特征。EGRU模型通过循环神经网络(RNN)结构来处理序列数据,并通过门控机制来控制信息的流动。此外,EGRU结合了注意力机制,能够自适应地关注重要的特征和时间步。
在应用时,采用手势识别模型中的ResNet3D18模型对所述多模态融合的特征进行特征提取,获得提取后的特征。采用手势识别模型中的EGRU单元处理所述提取后的特征。通过对处理后的特征进行训练,建立潜水员手势与其对应类别之间的联系网络;即,在训练过程中,EGRU单元模型接收预训练ResNet3D18的特征序列作为输入,并学习如何从这些序列中提取有用的动作信息。训练过程中,EGRU单元模型通过调整其参数来最小化损失函数,以提高对潜水员手势的分类准确性。能够从潜水员手势视频序列中更好地捕获潜水员手势的动作信息,并最终实现准确的手势分类。
本实施方式提供一种融合事件和RGB数据潜水员手势识别方法,通过预训练的ResNet3D18和EGRU单元对融合后的多模态特征进行训练,能够从潜水员手势视频序列中更好地捕获潜水员手势的动作信息,并最终实现准确的手势分类。这个过程结合了序列建模和注意力机制,有助于模型更好地理解和表征视频数据中的动作特征。
具体应用时,本实施方式使用了SGD梯度更新方法。将batch size设置为8,共训练100 epoches,在使用训练方法中,使用了交叉熵损失方法。
实施方式八. 本实施方式提供一种融合事件和RGB数据潜水员手势识别系统,所述潜水员手势识别系统为:
用于采用事件相机采集多样化的潜水员手势视频,将所述潜水员手势视频转化成事件序列和RGB帧,并根据所述事件序列和RGB帧构建基准数据集的存储装置;
用于将事件序列数据映射到三维网格,每个体素通道编码特定事件信息,将事件数据采用多维特征表示的存储装置;
用于采用滑动窗口处理所述RGB帧,针对每个窗口内进行局部处理获得RGB特征的存储装置;
用于采用MLP编码多维特征表示的事件数据和RGB特征,获得多模态融合的特征的存储装置;
用于采用预训练的ResNet3D18和EGRU单元构建手势识别模型的存储装置;
用于采用所述手势识别模型对所述多模态融合的特征进行训练,获得潜水员手势的准确类别的存储装置。
实施方式九. 本实施方式提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行实施方式一至实施方式七任意一项所述的一种融合事件和RGB数据潜水员手势识别方法。
所述识别方法为:
S1、采用事件相机采集多样化的潜水员手势视频,将所述潜水员手势视频转化成事件序列和RGB帧,并根据所述事件序列和RGB帧构建基准数据集;
S2、将事件序列数据映射到三维网格,每个体素通道编码特定事件信息,将事件数据采用多维特征表示;
S3、采用滑动窗口处理所述RGB帧,针对每个窗口内进行局部处理获得RGB特征;
S4、采用MLP编码多维特征表示的事件数据和RGB特征,获得多模态融合的特征;
S5、采用预训练的ResNet3D18和EGRU单元构建手势识别模型;
S6、采用所述手势识别模型对所述多模态融合的特征进行训练,获得潜水员手势的准确类别。
实施方式十. 本实施方式提供一种计算机设备,该设备包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行实施方式一至实施方式七任意一项所述的一种融合事件和RGB数据潜水员手势识别方法。
所述识别方法为:
S1、采用事件相机采集多样化的潜水员手势视频,将所述潜水员手势视频转化成事件序列和RGB帧,并根据所述事件序列和RGB帧构建基准数据集;
S2、将事件序列数据映射到三维网格,每个体素通道编码特定事件信息,将事件数据采用多维特征表示;
S3、采用滑动窗口处理所述RGB帧,针对每个窗口内进行局部处理获得RGB特征;
S4、采用MLP编码多维特征表示的事件数据和RGB特征,获得多模态融合的特征;
S5、采用预训练的ResNet3D18和EGRU单元构建手势识别模型;
S6、采用所述手势识别模型对所述多模态融合的特征进行训练,获得潜水员手势的准确类别。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或 者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或 N 个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或N个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM 或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
以上所述仅为本发明的实施例而已,并不限制于本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (10)

1.一种融合事件和RGB数据潜水员手势识别方法,其特征在于,所述方法为:
S1、采用事件相机采集多样化的潜水员手势视频,将所述潜水员手势视频转化成事件序列和RGB帧,并根据所述事件序列和RGB帧构建基准数据集;
S2、将事件序列数据映射到三维网格,每个体素通道编码特定事件信息,将事件数据采用多维特征表示;
S3、采用滑动窗口处理所述RGB帧,针对每个窗口内进行局部处理获得RGB特征;
S4、采用MLP编码多维特征表示的事件数据和RGB特征,获得多模态融合的特征;
S5、采用预训练的ResNet3D18和EGRU单元构建手势识别模型;
S6、采用所述手势识别模型对所述多模态融合的特征进行训练,获得潜水员手势的准确类别。
2.根据权利要求1所述的一种融合事件和RGB数据潜水员手势识别方法,其特征在于,所述步骤S1具体为:
S11、根据潜水员手势的事件序列,按其微秒级的时间戳进行划分,针对每一手势场景,得到多个事件窗口;
S12、根据潜水员手势的RGB帧,按其微秒级的时间戳与步骤S11获得的多个事件窗口进行对齐,获得对齐后的结果;
S13、根据所述多个事件窗口和对齐后的结果,构建基准数据集。
3.根据权利要求2所述的一种融合事件和RGB数据潜水员手势识别方法,其特征在于,所述步骤S13中的基准数据集包括基准训练集和基准测试集。
4.根据权利要求1所述的一种融合事件和RGB数据潜水员手势识别方法,其特征在于,所述步骤S2具体为:
S21、将三维空间划分为小立方体体素组成三维网格;
S22、将事件序列数据的四元组数据输入到所述三维网格中,使得每个事件,在其对应的空间位置上将相应的体素设置为特定的值或编码,获得多维特征表示的事件数据。
5.根据权利要求1所述的一种融合事件和RGB数据潜水员手势识别方法,其特征在于,所述步骤S3具体为:
S31、选用固定大小的窗口在RGB图像上滑动,并以固定步长逐行或逐列地移动以覆盖整个图像,在每个窗口中,所述RGB帧被分割成局部区域;
S32、对所述局部区域进行处理,获得RGB特征。
6.根据权利要求1所述的一种融合事件和RGB数据潜水员手势识别方法,其特征在于,所述步骤S4具体为:
S41、将多维特征表示的事件数据和RGB特征进行预处理;
S42、将预处理后的事件数据输入到MLP的一个分支中;
S43、将预处理后的RGB特征输入到MLP的另一个分支中;
S44、将所述MLP的一个分支的输出层和MLP的另一个分支的输出层进行融合,获得多模态融合的特征。
7.根据权利要求1所述的一种融合事件和RGB数据潜水员手势识别方法,其特征在于,所述步骤S6具体为:
S61、采用手势识别模型中的ResNet3D18模型对所述多模态融合的特征进行特征提取,获得提取后的特征;
S62、采用手势识别模型中的EGRU单元处理所述提取后的特征;
S63、通过对处理后的特征进行训练,建立潜水员手势与其对应类别之间的联系网络;
S64、根据所述联系网络对潜水员手势进行分类识别。
8.一种融合事件和RGB数据潜水员手势识别系统,其特征在于,所述系统为:
用于采用事件相机采集多样化的潜水员手势视频,将所述潜水员手势视频转化成事件序列和RGB帧,并根据所述事件序列和RGB帧构建基准数据集的存储装置;
用于将事件序列数据映射到三维网格,每个体素通道编码特定事件信息,将事件数据采用多维特征表示的存储装置;
用于采用滑动窗口处理所述RGB帧,针对每个窗口内进行局部处理获得RGB特征的存储装置;
用于采用MLP编码多维特征表示的事件数据和RGB特征,获得多模态融合的特征的存储装置;
用于采用预训练的ResNet3D18和EGRU单元构建手势识别模型的存储装置;
用于采用所述手势识别模型对所述多模态融合的特征进行训练,获得潜水员手势的准确类别的存储装置。
9.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行权利要求1-7任意一项所述的一种融合事件和RGB数据潜水员手势识别方法。
10.一种计算机设备,其特征在于,该设备包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行权利要求1-7任意一项所述的一种融合事件和RGB数据潜水员手势识别方法。
CN202410049996.9A 2024-01-15 2024-01-15 一种融合事件和rgb数据潜水员手势识别方法及其系统 Active CN117576784B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410049996.9A CN117576784B (zh) 2024-01-15 2024-01-15 一种融合事件和rgb数据潜水员手势识别方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410049996.9A CN117576784B (zh) 2024-01-15 2024-01-15 一种融合事件和rgb数据潜水员手势识别方法及其系统

Publications (2)

Publication Number Publication Date
CN117576784A true CN117576784A (zh) 2024-02-20
CN117576784B CN117576784B (zh) 2024-03-26

Family

ID=89884702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410049996.9A Active CN117576784B (zh) 2024-01-15 2024-01-15 一种融合事件和rgb数据潜水员手势识别方法及其系统

Country Status (1)

Country Link
CN (1) CN117576784B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259804A (zh) * 2020-01-16 2020-06-09 合肥工业大学 一种基于图卷积的多模态融合手语识别系统及方法
CN111401174A (zh) * 2020-03-07 2020-07-10 北京工业大学 一种基于多模态信息融合的排球群体行为识别方法
CN111860430A (zh) * 2020-07-30 2020-10-30 浙江大华技术股份有限公司 打架行为的识别方法和装置、存储介质及电子装置
CN114882590A (zh) * 2022-05-06 2022-08-09 中国科学技术大学 一种基于事件相机的多粒度时空特征感知的唇读方法
CN115205974A (zh) * 2022-07-15 2022-10-18 中国人民解放军国防科技大学 手势识别方法及相关设备
CN115661941A (zh) * 2022-12-09 2023-01-31 荣耀终端有限公司 手势识别方法和电子设备
CN115761472A (zh) * 2023-01-09 2023-03-07 吉林大学 一种基于融合事件和rgb数据的水下暗光场景重建方法
CN115761892A (zh) * 2022-11-24 2023-03-07 科大讯飞股份有限公司 基于流式图像的手势识别模型训练方法、装置及电子设备
CN116309781A (zh) * 2023-05-18 2023-06-23 吉林大学 一种基于跨模态融合的水下视觉目标测距方法及装置
CN116310983A (zh) * 2023-03-10 2023-06-23 中国工商银行股份有限公司 多模态情感识别方法及装置
CN116561649A (zh) * 2023-07-10 2023-08-08 吉林大学 基于多源传感器数据的潜水员运动状态识别方法和系统
CN116721460A (zh) * 2023-05-05 2023-09-08 北京百度网讯科技有限公司 手势识别方法、装置、电子设备以及存储介质
CN116935203A (zh) * 2023-09-18 2023-10-24 吉林大学 一种基于声光融合的潜水员智能监控方法和系统
CN117392582A (zh) * 2023-10-16 2024-01-12 杭州电子科技大学 一种多模态视频分类方法及其系统

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259804A (zh) * 2020-01-16 2020-06-09 合肥工业大学 一种基于图卷积的多模态融合手语识别系统及方法
CN111401174A (zh) * 2020-03-07 2020-07-10 北京工业大学 一种基于多模态信息融合的排球群体行为识别方法
CN111860430A (zh) * 2020-07-30 2020-10-30 浙江大华技术股份有限公司 打架行为的识别方法和装置、存储介质及电子装置
CN114882590A (zh) * 2022-05-06 2022-08-09 中国科学技术大学 一种基于事件相机的多粒度时空特征感知的唇读方法
CN115205974A (zh) * 2022-07-15 2022-10-18 中国人民解放军国防科技大学 手势识别方法及相关设备
CN115761892A (zh) * 2022-11-24 2023-03-07 科大讯飞股份有限公司 基于流式图像的手势识别模型训练方法、装置及电子设备
CN115661941A (zh) * 2022-12-09 2023-01-31 荣耀终端有限公司 手势识别方法和电子设备
CN115761472A (zh) * 2023-01-09 2023-03-07 吉林大学 一种基于融合事件和rgb数据的水下暗光场景重建方法
CN116310983A (zh) * 2023-03-10 2023-06-23 中国工商银行股份有限公司 多模态情感识别方法及装置
CN116721460A (zh) * 2023-05-05 2023-09-08 北京百度网讯科技有限公司 手势识别方法、装置、电子设备以及存储介质
CN116309781A (zh) * 2023-05-18 2023-06-23 吉林大学 一种基于跨模态融合的水下视觉目标测距方法及装置
CN116561649A (zh) * 2023-07-10 2023-08-08 吉林大学 基于多源传感器数据的潜水员运动状态识别方法和系统
CN116935203A (zh) * 2023-09-18 2023-10-24 吉林大学 一种基于声光融合的潜水员智能监控方法和系统
CN117392582A (zh) * 2023-10-16 2024-01-12 杭州电子科技大学 一种多模态视频分类方法及其系统

Also Published As

Publication number Publication date
CN117576784B (zh) 2024-03-26

Similar Documents

Publication Publication Date Title
Zhang et al. Unsupervised discovery of object landmarks as structural representations
Bloesch et al. Codeslam—learning a compact, optimisable representation for dense visual slam
US10089556B1 (en) Self-attention deep neural network for action recognition in surveillance videos
WO2020108362A1 (zh) 人体姿态检测方法、装置、设备及存储介质
WO2021093468A1 (zh) 视频分类方法、模型训练方法、装置、设备及存储介质
CN107909061B (zh) 一种基于不完备特征的头部姿态跟踪装置及方法
Wu et al. Robust visual tracking by integrating multiple cues based on co-inference learning
Agarwal et al. Tracking articulated motion using a mixture of autoregressive models
CN115761472B (zh) 一种基于融合事件和rgb数据的水下暗光场景重建方法
CN109657533A (zh) 行人重识别方法及相关产品
KR102441171B1 (ko) 다시점 얼굴 영상 기반 사용자 모니터링 장치 및 방법
CN108171133B (zh) 一种基于特征协方差矩阵的动态手势识别方法
Chen et al. End-to-end learning of object motion estimation from retinal events for event-based object tracking
CN109934108B (zh) 一种多目标多种类的车辆检测和测距系统及实现方法
CN111783620A (zh) 表情识别方法、装置、设备及存储介质
Chetverikov et al. Dynamic texture as foreground and background
CN113435432B (zh) 视频异常检测模型训练方法、视频异常检测方法和装置
CN109993770A (zh) 一种自适应时空学习与状态识别的目标跟踪方法
Shah et al. Efficient portable camera based text to speech converter for blind person
CN113419623A (zh) 一种非标定眼动交互方法和装置
Liu et al. Fast classification and action recognition with event-based imaging
Nicodemou et al. Learning to infer the depth map of a hand from its color image
CN111783613B (zh) 异常检测方法、模型的训练方法、装置、设备及存储介质
CN109493370A (zh) 一种基于空间偏移学习的目标跟踪方法
CN117576784B (zh) 一种融合事件和rgb数据潜水员手势识别方法及其系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant