CN111666845B - 基于关键帧采样的小样本深度学习多模态手语识别方法 - Google Patents

基于关键帧采样的小样本深度学习多模态手语识别方法 Download PDF

Info

Publication number
CN111666845B
CN111666845B CN202010458536.3A CN202010458536A CN111666845B CN 111666845 B CN111666845 B CN 111666845B CN 202010458536 A CN202010458536 A CN 202010458536A CN 111666845 B CN111666845 B CN 111666845B
Authority
CN
China
Prior art keywords
data
sampling
video
sign language
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010458536.3A
Other languages
English (en)
Other versions
CN111666845A (zh
Inventor
王剑羽
陈建新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202010458536.3A priority Critical patent/CN111666845B/zh
Publication of CN111666845A publication Critical patent/CN111666845A/zh
Application granted granted Critical
Publication of CN111666845B publication Critical patent/CN111666845B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

基于关键帧采样的小样本深度学习多模态手语识别方法,该方法实现步骤是:多模态数据输入,选择RGB彩色视频数据,深度数据以及光流数据作为多模态数据源;手部分割,基于多个彩色空间RGB,YCrCb和HSV的肤色检测提取出人脸和手,再根据深度数据和人体骨骼坐标剔除人脸像素的影响;提出并采用一种新的基于手部骨骼数据和光流的关键帧采样方法;数据增强;基于均匀采样数据的数据的残差神经网络R(2+1)D训练;提出并利用跨模态模型数据对关键帧采样的数据R(2+1)D微调网络训练;多模态融合。本发明成功在小样本中国手语数据库DEVISIGN‑D上首次使用深度学习的方法,并且针对该手语词库进行较为准确的识别,其精确度超过了以往的传统方法,取得了目前最优的效果。

Description

基于关键帧采样的小样本深度学习多模态手语识别方法
技术领域
本发明属于人机交互识别技术领域,具体涉及基于关键帧采样的小样本深度学习多模态手语识别方法。
背景技术
目前,听力能力的损失严重影响了听力障碍者的生活质量。听力障碍者很难与普通人交流,因为普通人很少掌握手语知识。希望手语自动识别能够弥合交流的鸿沟。
现有技术通过部署数据手套、彩色手套或深度相机来捕获高维数据,然后提取相关的手工艺特征,如关节轨迹、面部表情和手形特征,以便后续的识别过程。近年来,人们已经证明,由于深度特征可以同时聚焦于空间和时间维度,因此借助深度神经网络提取的特征比起一般的手工特征更具有表述能力。
然而,手语识别存在一些限制。由于词汇量大,大规模的正式手语数据集不能作为常规手势数据集使用,如Chalearn-LAP-IsoGD数据库和Sheffield-Kinect手势数据集。因此,在以往的中文手语识别设计工作中,由于样本量小,很少有人考虑采用深度学习的方法,因此许多研究者未能捕捉到时间信息。
发明内容
本发明所要解决的技术问题是克服现有技术的不足,提供基于关键帧采样的小样本深度学习多模态手语识别方法,实现在小样本大词汇的孤立词手语识别数据集上进行深度学习,进一步提高最后识别精度。
本发明提供基于关键帧采样的小样本深度学习多模态手语识别方法,包括如下步骤,
步骤S1、采集手语人员的人体骨骼信息,RGB数据以及相应的深度数据,利用光流算法将RGB彩色视频转换为流光视频,并选定RGB彩色视频、Depth深度视频和光流视频作为多模态输入;
步骤S2、对RGB彩色视频的每一帧图像进行肤色检测保留手部以及脸部,再基于三维骨骼坐标和深度信息剔除脸部像素的影响,获取手部分割的掩膜,并在Depth深度视频上利用该掩膜分割出对应帧的手部;
步骤S3、对每个模态的视频进行关键帧采样以及均匀采样来归一化视频帧数,作为后续深度神经网络的输入;
步骤S4、对已有小样本数据进行数据增强;
步骤S5、用均匀采样的视频来从头开始训练网络模型;
步骤S6、将通过关键帧采样获取的同种模态的数据进行融合,再利用均匀采样的网络模型对融合的数据微调训练;
步骤S7、将三个模态数据源训练的结果进行特征融合和分数融合,选出最优方案。
作为本发明的进一步技术方案,步骤S1中,采集数据时,手语人员与采集摄像头之间保持相对静止,只露出脸部和手部皮肤,只进行手语运动;完整的手语运动包括手部的抬起,手语词运动的关键部分及手部的放下。
进一步的,步骤S1中,光流算法采用Brox光流算法。
进一步的,步骤S2中,肤色检测采用多个颜色空间RGB、YCrCb、HSV的常阈值掩膜加权平均,然后用Otsu最大类间方差法阈值分割获取肤色掩膜;再通过头部骨骼坐标定位到头部周围区域,利用周围的深度信息进行阈值分割,获取一个粗略的剔除头部相关像素的掩膜。
进一步的,步骤S3中,根据手部运动的剧烈程度提出两种关键帧采样策略,具体如下,
一是基于相邻帧手部骨骼坐标变化的关键帧采样策略,通过相邻帧手部骨骼坐标之差表征相邻帧运动变化剧烈程度,将视频分为若干片段,计算每个片段的相邻帧运动变化剧烈程度之和,加权确定每个片段应该采样的帧数,再在相应片段通过均匀采样采集一定的帧数。最后,检验最后视频帧数是否正好达到采样帧数的要求,若是则表示该项算法完成;反之,若视频帧数大于所要求的采样帧数,则去掉末尾几帧,若小于所要求帧数,则在所采样视频片头按顺序添加原视频开头几帧;
二是基于光流的关键帧采样策略,通过光流表征相邻帧运动变化剧烈程度,将视频分为若干片段,计算每个片段的相邻帧运动变化剧烈程度之和,加权确定每个片段应该采样的帧数,再在相应片段通过均匀采样采集一定的帧数。最后,检验最后视频帧数是否正好达到采样帧数的要求,若是则表示该项算法完成;反之,若视频帧数大于所要求的采样帧数,则去掉末尾几帧,若小于所要求帧数,则在所采样视频片头按顺序添加原视频开头几帧。
进一步的,步骤S3中,关键帧采样选择的基准采样帧数一般小于等于数据集最少帧数的视频的帧数。
进一步的,步骤S4中,数据增强包括图像翻转,随即裁剪以及时间抖动。
进一步的,步骤S5中,网络模型采用R(2+1)D结构,R(2+1)D结构是基于常用的R3D,改进为
Figure BDA0002508648060000031
R(2+1)D将Ni个3D卷积核,核大小为Ni-1×t×d×d,t表示滤波器的时序维度并且d表示滤波器的空间维度),分成Mi个2D空间卷积核,核大小为Ni-1×1×d×d,和Ni个时序卷积核,核大小为Mi×t×1×1,其中,Ni为i-th残差块的滤波器的数量,Mi为转化后的2D空间卷积核的数量。
本发明基于跨采样微调,可以在小样本手语数据集上训练深度神经网络,与现有方法相比,有效提高了手语动作识别的精确度。该方法提出的基于相邻帧手部骨骼坐标变化的关键帧采样策略以及基于光流的关键帧采样策略均能很好地观察并分析手语识别的运动特性,为孤立词手语识别提出了新的思路。
附图说明
图1为本发明的方法流程图;
图2为本发明对每一类验证精度的结果分析示意图。
具体实施方式
请参阅图1,本实施例提供一种基于关键帧采样的小样本深度学习多模态手语识别方法,可以在小样本的条件下,在孤立词手语识别数据集上成功训练神经网络,最后在DEVISIGN数据集上取得了现有最优的效果,且便于工程实现。
具体包括如下步骤,
步骤S1、通过深度摄像头,如Kinect,采集手语人员的人体骨骼信息,RGB数据以及相应的深度数据,利用光流算法将RGB彩色视频转换为流光视频,并选定RGB彩色视频、Depth深度视频和光流视频作为多模态输入;
步骤S2、对RGB彩色视频的每一帧图像进行肤色检测保留手部以及脸部,再基于三维骨骼坐标和深度信息剔除脸部像素的影响,获取手部分割的掩膜,并在Depth深度视频上利用该掩膜分割出对应帧的手部;
步骤S3、对每个模态的视频进行关键帧采样以及均匀采样来归一化视频帧数,作为后续深度神经网络的输入;
步骤S4、对已有小样本数据进行数据增强;
步骤S5、用均匀采样的视频来从头开始训练网络模型;
步骤S6、将通过关键帧采样获取的同种模态的数据进行融合,再利用均匀采样的网络模型对融合的数据微调训练;
步骤S7、将三个模态数据源训练的结果进行特征融合和分数融合,选出最优方案。
步骤S1中,采集数据时,手语人员与采集摄像头之间保持相对静止,只露出脸部和手部皮肤,只进行手语运动;完整的手语运动包括手部的抬起,手语词运动的关键部分及手部的放下。
步骤S1中,光流算法采用Brox光流算法。
步骤S2中,肤色检测采用多个颜色空间RGB、YCrCb、HSV的常阈值掩膜加权平均得到初步的肤色掩膜,然后用Otsu最大类间方差法阈值分割得到相应的掩膜,并将其和之前的肤色掩膜做平均,得到最后的肤色掩膜;再通过头部骨骼坐标定位到头部周围区域,利用周围的深度信息进行阈值分割,获取一个粗略的剔除头部相关像素的掩膜。
将深度掩膜和肤色掩膜做逻辑或操作,得到了最终的掩膜,并将其应用在RGB图像上,又因为深度图像与RGB图像是对齐的,将其掩膜对应地应用在深度图像上,得到了预处理后的深度数据和RGB视频数据。
步骤S3中,对每一个模态的视频数据进行均匀采样,归一化至一定帧数,得到各个模态的均匀采样数据U根据手部运动的剧烈程度提出两种关键帧采样策略,再针对每一个模态的视频数据进行基于光流的关键帧采样,归一化到同样的帧数,得到归一化的各个模态的采样数据OF,基于光流的关键帧采样策略如下:
通过相邻帧手部骨骼坐标之差表征相邻帧运动变化剧烈程度,将视频分为若干片段,计算每个片段的相邻帧运动变化剧烈程度之和,加权确定每个片段应该采样的帧数,再在相应片段通过均匀采样采集一定的帧数。最后,检验最后视频帧数是否正好达到采样帧数的要求,若是则表示该项算法完成;反之,若视频帧数大于所要求的采样帧数,则去掉末尾几帧,若小于所要求帧数,则在所采样视频片头按顺序添加原视频开头几帧;
再针对每一个模态的视频数据进行基于相邻帧手部骨骼坐标变化的关键帧采样,归一化到同样的帧数,得到归一化的各个模态的采样数据S,基于相邻帧手部骨骼坐标变化的关键帧采样策略如下:
通过光流表征相邻帧运动变化剧烈程度,将视频分为若干片段,计算每个片段的相邻帧运动变化剧烈程度之和,加权确定每个片段应该采样的帧数,再在相应片段通过均匀采样采集一定的帧数。最后,检验最后视频帧数是否正好达到采样帧数的要求,若是则表示该项算法完成;反之,若视频帧数大于所要求的采样帧数,则去掉末尾几帧,若小于所要求帧数,则在所采样视频片头按顺序添加原视频开头几帧。
步骤S3中,关键帧采样选择的基准采样帧数一般小于等于数据集最少帧数的视频的帧数。
步骤S4中,数据增强包括图像翻转,随即裁剪以及时间抖动。
步骤S5中,网络模型采用R(2+1)D结构,R(2+1)D结构是基于常用的R3D,改进为
Figure BDA0002508648060000061
R(2+1)D将Ni个3D卷积核,核大小为Ni-1×t×d×d,t表示滤波器的时序维度并且d表示滤波器的空间维度),分成Mi个2D空间卷积核,核大小为Ni-1×1×d×d,和Ni个时序卷积核,核大小为Mi×t×1×1,其中,Ni为i-th残差块的滤波器的数量,Mi为转化后的2D空间卷积核的数量。
将三个模态数据训练的模型进行多模态融合,通过比较测试不同的多模态融合方法,选择效果最好的作为最后的融合策略,融合方式包括:
Maximum score fusion(最大值分数融合):针对各个模态的softmax层输出进行最大值融合,得到最后的分数向量。
Average score fusion(平均值分数融合):针对各个模态的softmax层输出进行平均值融合,得到最后的分数向量。
Concatenation+线性支持向量机(特征向量拼接):提取各个模态的softmax层前一层全连接层的输出,得到属于各个模态的1024维度的特征向量,按顺序将它们拼接成一个3072维度的特征向量,并将其输入一个C=1的线形支持向量机,得到最后的识别精度结果。
本实施例的效果可以通过以下计算机仿真进一步说明:
一、实验条件
硬件平台为:Intel Core i5-6200 CPU@2.30GHZ×8,16GB RAM、NVIDIA TeslaM40 GPU
软件要求:Tensorflow,Keras,python,OpenCV
实验数据:本实验采用DEVISIGN-D多模态孤立词手语数据库,包括500个日常中国手语词,每个手语词只有12个样本,由8个志愿者参与录制,四个志愿者在不同时间不同亮度下穿着不同颜色的衣服进行录制了两次手语词,另外四个人针对每个手语词仅录制了一次。
二、实验内容
输入视频被采样成32帧,并且每一帧都被调整为128×171。然后,每个视频片段被随机裁剪至112×112。使用Adam优化器在两个GPU上并行训练模型参数,初始学习率被设置为0.0001并且训练过程在12个epoch(时期)之后就停止了。Weight decay(权重衰减)被设置成0.00005.除此以外,在每一个卷积层后面都加上Batch Normalization(批归一化)层进行进一步优化。同时,使用pyflow来生成所需要的光流视频。
针对关键帧采样策略,对单个手语词进行分析,如图2所示-手语词“弱者”研究发现,相邻帧手部骨骼坐标点之差和光流变化趋势大体符合同一趋势,在开始,高潮,结尾三个阶段中,高潮阶段明显包含更多的关键帧信息,证明关键帧采样策略的有效性。
进行几种多模态识别的分类精度比较,选择特征拼接的方法的话,本发明的结果可以达到61.51%,该效果超过该数据集上以往设计的手工特征的最优效果。
同时,针对数据集分类情况进行验证分析,双手手语词分类结果可以达到71.3%,而单手手语词识别精度可能只有47.8%。深入数据集观察,发现52.8%的单手手语词识别精度为0,这些视频主要是包括字母词”A”~”Z”以及数字词”0”~”9”,这些词汇的关键动作可能只有几帧,属于静态手语词,不太适合时空特征提取。
以上显示和描述了本发明的基本原理、主要特征和优点。本领域的技术人员应该了解,本发明不受上述具体实施例的限制,上述具体实施例和说明书中的描述只是为了进一步说明本发明的原理,在不脱离本发明精神范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由权利要求书及其等效物界定。

Claims (7)

1.基于关键帧采样的小样本深度学习多模态手语识别方法,其特征在于,包括如下步骤,
步骤S1、采集手语人员的人体骨骼信息,RGB数据以及相应的深度数据,利用光流算法将RGB彩色视频转换为光流视频,并选定RGB彩色视频、Depth深度视频和光流视频作为多模态输入;
步骤S2、对RGB彩色视频的每一帧图像进行肤色检测保留手部以及脸部,再基于三维骨骼坐标和深度信息剔除脸部像素的影响,获取手部分割的掩膜,并在Depth深度视频上利用该掩膜分割出对应帧的手部;
步骤S3、对每个模态的视频进行关键帧采样以及均匀采样来归一化视频帧数,作为后续深度神经网络的输入;
步骤S4、对已有小样本数据进行数据增强;
步骤S5、用均匀采样的视频来从头开始训练网络模型;
步骤S6、将通过关键帧采样获取的同种模态的数据进行融合,再利用均匀采样的网络模型对融合的数据微调训练;
步骤S7、将三个模态数据源训练的结果进行特征融合和分数融合,选出最优方案;
步骤S5中,网络模型采用R(2+1)D结构,R(2+1)D结构是基于常用的R3D,改进为
Figure FDA0003726391000000011
R(2+1)D将Ni个3D卷积核,核大小为Ni-1×t×d×d,t表示滤波器的时序维度并且d表示滤波器的空间维度,分成Mi个2D空间卷积核,核大小为Ni-1×1×d×d,和Ni个时序卷积核,核大小为Mi×t×1×1,其中,Ni为i-th残差块的滤波器的数量,Mi为转化后的2D空间卷积核的数量;
所述步骤S7中,选出最优方案具体为,
将三个模态数据训练的模型进行多模态融合,通过比较测试不同的多模态融合方法,选择效果最好的作为最后的融合策略,融合方式包括:
Maximum score fusion,即最大值分数融合:针对各个模态的softmax层输出进行最大值融合,得到最后的分数向量;
Average score fusion,即平均值分数融合:针对各个模态的softmax层输出进行平均值融合,得到最后的分数向量;
Concatenation+线性支持向量机,即特征向量拼接:提取各个模态的softmax层前一层全连接层的输出,得到属于各个模态的1024维度的特征向量,按顺序将它们拼接成一个3072维度的特征向量,并将其输入一个C=1的线形支持向量机,得到最后的识别精度结果。
2.根据权利要求1所述的基于关键帧采样的小样本深度学习多模态手语识别方法,其特征在于,所述步骤S1中,采集数据时,手语人员与采集摄像头之间保持相对静止,只露出脸部和手部皮肤,只进行手语运动;完整的手语运动包括手部的抬起,手语词运动的关键部分及手部的放下。
3.根据权利要求1所述的基于关键帧采样的小样本深度学习多模态手语识别方法,其特征在于,所述步骤S1中,光流算法采用Brox光流算法。
4.根据权利要求1所述的基于关键帧采样的小样本深度学习多模态手语识别方法,其特征在于,所述步骤S2中,肤色检测采用多个颜色空间RGB、YCrCb、HSV的常阈值掩膜加权平均,然后用Otsu最大类间方差法阈值分割获取肤色掩膜;再通过头部骨骼坐标定位到头部周围区域,利用周围的深度信息进行阈值分割,获取一个粗略的剔除头部相关像素的掩膜。
5.根据权利要求1所述的基于关键帧采样的小样本深度学习多模态手语识别方法,其特征在于,所述步骤S3中,根据手部运动的剧烈程度提出两种关键帧采样策略,具体如下,
一是基于相邻帧手部骨骼坐标变化的关键帧采样策略,通过相邻帧手部骨骼坐标之差表征相邻帧运动变化剧烈程度,将视频分为若干片段,计算每个片段的相邻帧运动变化剧烈程度之和,加权确定每个片段应该采样的帧数,再在相应片段通过均匀采样采集一定的帧数; 最后,检验最后视频帧数是否正好达到采样帧数的要求,若是则表示该项算法完成;反之,若视频帧数大于所要求的采样帧数,则去掉末尾几帧,若小于所要求帧数,则在所采样视频片头按顺序添加原视频开头几帧;
二是基于光流的关键帧采样策略,通过光流表征相邻帧运动变化剧烈程度,将视频分为若干片段,计算每个片段的相邻帧运动变化剧烈程度之和,加权确定每个片段应该采样的帧数,再在相应片段通过均匀采样采集一定的帧数; 最后,检验最后视频帧数是否正好达到采样帧数的要求,若是则表示该项算法完成;反之,若视频帧数大于所要求的采样帧数,则去掉末尾几帧,若小于所要求帧数,则在所采样视频片头按顺序添加原视频开头几帧。
6.根据权利要求1所述的基于关键帧采样的小样本深度学习多模态手语识别方法,其特征在于,所述步骤S3中,关键帧采样选择的基准采样帧数一般小于等于数据集最少帧数的视频的帧数。
7.根据权利要求1所述的基于关键帧采样的小样本深度学习多模态手语识别方法,其特征在于,所述步骤S4中,数据增强包括图像翻转,随即裁剪以及时间抖动。
CN202010458536.3A 2020-05-26 2020-05-26 基于关键帧采样的小样本深度学习多模态手语识别方法 Active CN111666845B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010458536.3A CN111666845B (zh) 2020-05-26 2020-05-26 基于关键帧采样的小样本深度学习多模态手语识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010458536.3A CN111666845B (zh) 2020-05-26 2020-05-26 基于关键帧采样的小样本深度学习多模态手语识别方法

Publications (2)

Publication Number Publication Date
CN111666845A CN111666845A (zh) 2020-09-15
CN111666845B true CN111666845B (zh) 2022-09-06

Family

ID=72384565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010458536.3A Active CN111666845B (zh) 2020-05-26 2020-05-26 基于关键帧采样的小样本深度学习多模态手语识别方法

Country Status (1)

Country Link
CN (1) CN111666845B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239716B (zh) * 2021-02-09 2024-08-23 北京工业大学 一种基于机器视觉的聋哑人手语识别语音输出方法
CN113297955B (zh) * 2021-05-21 2022-03-18 中国矿业大学 一种基于多模态分层级信息融合的手语词识别方法
CN113887365A (zh) * 2021-09-26 2022-01-04 山东大学 一种基于多模态数据融合的特殊人员情感识别方法及系统
CN117437392B (zh) * 2023-12-15 2024-03-26 杭州锐健医疗科技有限公司 交叉韧带止点标记及其模型训练的方法和关节镜系统
CN117710870B (zh) * 2024-02-05 2024-04-30 武汉博特智能科技有限公司 基于大数据技术的互联网内容监测方法、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108699A (zh) * 2017-12-25 2018-06-01 重庆邮电大学 融合深度神经网络模型和二进制哈希的人体动作识别方法
CN110399850B (zh) * 2019-07-30 2021-10-15 西安工业大学 一种基于深度神经网络的连续手语识别方法

Also Published As

Publication number Publication date
CN111666845A (zh) 2020-09-15

Similar Documents

Publication Publication Date Title
CN111666845B (zh) 基于关键帧采样的小样本深度学习多模态手语识别方法
CN106960202B (zh) 一种基于可见光与红外图像融合的笑脸识别方法
JP4743823B2 (ja) 画像処理装置、撮像装置、画像処理方法
Youssif et al. Arabic sign language (arsl) recognition system using hmm
CN108537743A (zh) 一种基于生成对抗网络的面部图像增强方法
CN108830237B (zh) 一种人脸表情的识别方法
CN111523462A (zh) 基于自注意增强cnn的视频序列表情识别系统及方法
CN113869229B (zh) 基于先验注意力机制引导的深度学习表情识别方法
CN104598888B (zh) 一种人脸性别的识别方法
CN112084927B (zh) 一种融合多种视觉信息的唇语识别方法
CN113920568B (zh) 基于视频图像的人脸和人体姿态情绪识别方法
Zhao et al. Applying contrast-limited adaptive histogram equalization and integral projection for facial feature enhancement and detection
Hebbale et al. Real time COVID-19 facemask detection using deep learning
CN109325408A (zh) 一种手势判断方法及存储介质
Guarin et al. The effect of improving facial alignment accuracy on the video-based detection of neurological diseases
CN109165551B (zh) 一种自适应加权融合显著性结构张量和lbp特征的表情识别方法
CN110826534A (zh) 一种基于局部主成分分析的人脸关键点检测方法及系统
CN117636436A (zh) 基于注意力机制的多人实时面部表情识别方法和系统
CN113076916A (zh) 基于几何特征加权融合的动态人脸表情识别方法及系统
CN112488165A (zh) 一种基于深度学习模型的红外行人识别方法及系统
CN111523461A (zh) 基于增强cnn和跨层lstm的表情识别系统与方法
CN108197593B (zh) 基于三点定位方法的多尺寸人脸表情识别方法及装置
CN110135362A (zh) 一种基于红外摄像头下的人脸快速识别方法
CN112418085B (zh) 一种部分遮挡工况下的面部表情识别方法
CN115116117A (zh) 一种基于多模态融合网络的学习投入度数据的获取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant