CN111259804A - 一种基于图卷积的多模态融合手语识别系统及方法 - Google Patents

一种基于图卷积的多模态融合手语识别系统及方法 Download PDF

Info

Publication number
CN111259804A
CN111259804A CN202010049714.7A CN202010049714A CN111259804A CN 111259804 A CN111259804 A CN 111259804A CN 202010049714 A CN202010049714 A CN 202010049714A CN 111259804 A CN111259804 A CN 111259804A
Authority
CN
China
Prior art keywords
modal
sequence
feature
features
sign language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010049714.7A
Other languages
English (en)
Other versions
CN111259804B (zh
Inventor
郭丹
唐申庚
刘祥龙
洪日昌
汪萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202010049714.7A priority Critical patent/CN111259804B/zh
Publication of CN111259804A publication Critical patent/CN111259804A/zh
Application granted granted Critical
Publication of CN111259804B publication Critical patent/CN111259804B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于图卷积的多模态融合手语识别系统及方法,该系统包括:特征提取模块,特征融合模块,序列学习模块和对齐翻译模块;该方法包括:1使用卷积神经网络和图神经网络分别对手语视频数据库提取视频帧的颜色、深度和骨架特征;2组合多模态特征,并通过多模态序列融合网络融合特征;3构建双向循环神经网络对融合后的一连串片段级别特征进行序列学习;4、过联结主义时序分类模型对齐特征序列,并翻译出完整的手语句子。本发明能实现对连续手语句子的翻译,并提高连续手语翻译的准确性。

Description

一种基于图卷积的多模态融合手语识别系统及方法
技术领域
本发明属于多媒体信息处理领域,涉及到计算机视觉、自然语言处理、深度学习等技术,具体地说是一种基于图卷积的多模态融合手语识别系统及方法。
背景技术
健全人可以使用口头语言便捷交流,而失聪者或失声者则需要通过手语传达自己的想法。由于大部分健全人缺少手语教育的基础,推广手语用于正常社会沟通存在障碍。科技向善,手语识别技术在一定程度上为失聪失声人群融入社会提供了便利。
早期的手语识别研究关注于离散性手语识别,其本质上是一种特殊的视频分类问题。随着视频理解技术的发展,连续性手语翻译吸引越来越多的关注。
由于视频数据复杂繁多,现有的手语识别存在很多弊端,尤其是在多模态数据的表征和融合方面。现有手语识别方法在使用多种模态源的数据时,常常忽略了不同模态之间的互补关联,而对其进行暴力融合,融合特征的鲁棒性较差;另一方面,在特征学习过程中对视频数据流中的时间和空间特性发掘较少,没有充分利用手语特征的时间变化特性,从而导致了手语翻译的结果连贯性差、精确度较低。
发明内容
本发明针对现有技术中存在的不足之处,提供一种基于图卷积的多模态融合手语识别系统及方法,以期能实现对连续手语句子的翻译,并提高手语识别的准确性。
本发明为解决技术问题采用如下的方法方案:
本发明一种基于图卷积的多模态融合手语识别系统的特点包括:特征提取模块,特征融合模块,序列学习模块和对齐翻译模块;
所述特征提取模块,是从手语视频数据库中提取视频帧的颜色特征、深度特征和骨架特征,并对提取到的所有特征进行维度对齐,得到多模态特征;
所述特征融合模块,是采用深度学习的方法搭建并训练基于3D卷积神经网络和图卷积网络的多模态序列特征融合模型,并使用所述多模态特征融合模型对所述多模态特征进行融合,得到片段融合特征;
所述序列学习模块,是采用深度学习的方法搭建并训练基于循环神经网络的序列到序列的转换模型,用于对多个片段融合特征所构成的序列进行转换,得到一连串解码的单词序列;
所述对齐翻译模块,是使用联结主义时序分类方法对所述单词序列进行解码翻译,最终输出完整的手语句子。
本发明所述的多模态融合手语识别系统的特点也在于,所述特征提取模块使用ResNet-18网络提取颜色特征和深度特征;并以人体关节的自然连接为边、以关节点为节点建立空间图结构,从而使用空间图神经网络对所述空间图结构进行学习,并得到所述骨架特征;
将所述颜色特征、深度特征和骨架特征处理成相同的尺寸,从而得到多模态特征,所述多模态特征包括空间、时间和模态三个维度。
所述特征融合模块包括以下步骤:
步骤a:采用深度学习方法搭建两个并行的3D卷积神经网络分别对多模态特征的空间维度和时间维度进行卷积操作,得到两路特征并相加后输出组合特征;
步骤b:在相邻帧和间隔帧之间分别建立时序边,并在所述时间维度中同一时刻下的不同模态帧之间建立模态边,以所述时间维度中不同时刻下的不同模态帧的特征为图结构的节点、以时序边和模态边为图结构的边,从而构建多模态序列的图卷积网络;
步骤c:将所述组合特征输入所述多模态序列的图卷积网络中进行训练并融合,从而得到更新后的组合特征;
步骤d:以所述更新后的组合特征作为所述多模态特征后,返回步骤a-步骤c,得到再次更新后的组合特征作为片段融合特征。
所述对齐翻译模块是先将所述单词序列中连续重复出现的单词合并在一起,再移除所有表示过渡动作的单词,从而得到处理后的单词序列并作为最终翻译输出的手语句子。
本发明一种基于图卷积的多模态融合手语识别方法的特点是按如下步骤进行:
步骤1、使用ResNet-18网络从手语视频数据库中提取视频帧的颜色特征和深度特征;以人体关节的自然连接为边、以关节点为节点建立空间图结构,从而使用空间图神经网络对所述空间图结构进行学习,并得到所述骨架特征;
步骤2、将所述颜色特征、深度特征和骨架特征处理成相同的尺寸,从而得到多模态特征,所述多模态特征包括空间、时间和模态三个维度;
步骤3、采用深度学习方法搭建两个并行的3D卷积神经网络分别对多模态特征的空间维度和时间维度进行卷积操作,得到两路特征并相加后输出组合特征;
步骤4、在相邻帧和间隔帧之间分别建立时序边,并在所述时间维度中同一时刻下的不同模态帧之间建立模态边,以所述时间维度中不同时刻下的不同模态帧的特征为图结构的节点、以时序边和模态边为图结构的边,从而构建多模态序列的图卷积网络;
步骤5、将所述组合特征输入所述多模态序列的图卷积网络中进行训练并融合,从而得到更新后的组合特征;
步骤6、以所述更新后的组合特征作为所述多模态特征后,返回步骤3-步骤5,得到再次更新后的组合特征作为片段融合特征;
步骤7、采用深度学习的方法搭建并训练基于循环神经网络的序列到序列的转换模型,用于对多个片段融合特征所构成的序列进行转换,得到一连串解码的单词序列;
步骤8、使用联结主义时序分类方法对所述单词序列中连续重复出现的单词合并在一起,再移除所有表示过渡动作的单词,从而得到处理后的单词序列并作为最终翻译输出的手语句子。
与现有技术相比,本发明的有益效果体现在:
1、本发明利用多种深度学习技术,提出了基于图卷积的多模态融合手语识别系统,该系统由特征提取模块、特征融合模块、序列学习模块和对齐翻译模块组成,可以充分适用于翻译包含多种模态数据的连续手语视频,并提高了手语识别的准确性。
2、本发明提出的特征提取模块中,使用ResNet-18网络和空间图神经网络分别提取颜色特征、深度特征和骨架特征,得到的多模态特征具有更强的表征能力。
3、本发明提出的对齐翻译模块中,使用联结主义时序分类方法将解码的单词序列翻译并输出手语句子,增强了连续手语翻译的连贯性和准确度。
4、本发明提出一种基于图卷积的多模态融合手语识别方法,该方法中的并行的3D卷积神经网络和多模态序列的图卷积网络可以进行空间时序信息学习和多模态特征融合,从而充分发掘多模态序列中的时序关联和模态互补性,提高了融合特征的鲁棒性。
附图说明
图1为本发明实施例中多模态融合手语识别系统的结构示意图;
图2为本发明实施例中多模态融合手语识别系统的特征融合模块的结构框图;
图3为本发明实施例中多模态融合手语识别方法的操作流程图。
具体实施方式
下面将结合附图,对本发明的具体实施技术方案进行详细说明。
本实施例中,一种基于图卷积的多模态融合手语识别系统,如图1所示,包括:特征提取模块,特征融合模块,序列学习模块和对齐翻译模块。
其中,特征提取模块,是从手语视频数据库中提取视频帧的颜色特征uc、深度特征ud和骨架特征us,并对提取到的所有特征进行维度对齐,得到多模态特征f;
在本实施例中,手语视频数据库包含100个常见句子的手语视频数据,由50个人对每个句子对应的手语进行演示,共有5000个视频。
具体实施中,是使用ResNet-18网络提取颜色特征和深度特征;并以人体关节的自然连接为边、以关节点为节点建立空间图结构,从而使用空间图神经网络对空间图结构进行学习,并得到骨架特征;
将颜色特征、深度特征和骨架特征处理成相同的尺寸,从而得到多模态特征f,多模态特征包括空间、时间和模态三个维度。在本实施例中,处理后的颜色特征、深度特征和骨架特征的尺寸均为N×512,其中N表示视频的总帧数。每个多模态特征的维度大小为M×T×S,其中模态维度的值M为3,时间维度的值T为8,空间维度的值S为512。
特征融合模块的结构框图如图2所示,是采用深度学习的方法搭建并训练基于3D卷积神经网络和图卷积网络的多模态序列特征融合模型,并使用多模态特征融合模型对多模态特征f进行融合,得到片段融合特征
Figure BDA0002370703410000041
具体来说,包括以下步骤:
步骤a:采用深度学习方法搭建两个并行的3D卷积神经网络分别对多模态特征的空间维度和时间维度进行卷积操作,得到两路特征并相加后输出组合特征;
步骤b:在相邻帧和间隔帧之间分别建立时序边ET,并在时间维度中同一时刻下的不同模态帧之间建立模态边EM,以时间维度中不同时刻下的不同模态帧的特征为图结构的节点V、以时序边和模态边为图结构的边E,从而构建多模态序列的图卷积网络G;
步骤c:将组合特征输入多模态序列的图卷积网络中进行训练并融合,从而得到更新后的组合特征fg
步骤d:以更新后的组合特征fg作为多模态特征后,返回步骤a-步骤c,得到再次更新后的组合特征
Figure BDA0002370703410000042
作为片段融合特征。
序列学习模块,是采用深度学习的方法搭建并训练基于循环神经网络的序列到序列的转换模型,用于对多个片段融合特征所构成的序列进行转换,得到一连串解码的单词序列W;
对齐翻译模块,是使用联结主义时序分类方法对单词序列进行解码翻译,最终输出完整的手语句子。具体的说,是先将单词序列W中连续重复出现的单词合并在一起,再移除所有表示过渡动作的单词,从而得到处理后的单词序列并作为最终翻译输出的手语句子
Figure BDA0002370703410000043
本实施例中,一种基于图卷积的多模态融合手语识别方法是先使用ResNet-18网络和空间图卷积网络分别对手语视频数据库提取视频帧的颜色特征、深度特征和骨架特征;接下来,组合三种特征得到,并将多模态特征输入3D卷积神经网络和多模态序列的图卷积网络进行融合并得到组合特征;然后,构建双向循环神经网络对融合后的片段融合特征进行序列学习;最后,通过联结主义时序分类模型对齐的片段融合特征序列,并翻译出手语句子。如图3所示,具体的说,包括如下步骤:
步骤1、获取多模态手语视频数据库,并将数据库中的视频数据划分为训练数据集和测试数据集两部分。划分的训练数据集包含4000个视频,测试数据集包含1000个视频。每条数据同时包含颜色视频videoc、深度视频videod、全部时刻的骨架点坐标videok和对应的手语句子。
将颜色视频和深度视频分别切割成帧序列,使用ResNet-18网络从手语视频数据库的颜色帧序列和深度帧序列中提取视频帧的颜色特征
Figure BDA0002370703410000051
和深度特征
Figure BDA0002370703410000052
其中
Figure BDA0002370703410000053
Figure BDA0002370703410000054
分别代表第n帧的颜色特征和深度特征;以人体关节的自然连接为边、以关节点为节点建立空间图结构,从而使用空间图神经网络对空间图结构进行学习,并得到骨架特征
Figure BDA0002370703410000055
其中
Figure BDA0002370703410000056
代表第n帧的骨架特征;
步骤2、将颜色特征、深度特征和骨架特征处理成相同的尺寸,从而得到多模态特征f,多模态特征包括空间、时间和模态三个维度;
在本实施例中,拼接颜色特征、深度特征和骨架特征得到多模态特征
Figure BDA0002370703410000057
其中fk表示第k个片段的多模态特征。
步骤3、采用深度学习方法搭建两个并行的3D卷积神经网络,即空间卷积网络SCN(·)和时序卷积网络TCN(·),分别对多模态特征的空间维度和时间维度进行卷积操作,得到空间组合特征fs=SCN(fk)和时序组合特征ft=TCN(fk),并相加后输出组合特征;
步骤4、在相邻帧和间隔帧之间分别建立时序边ET,并在时间维度中同一时刻下的不同模态帧之间建立模态边EM,以时间维度中不同时刻下的不同模态帧的特征为图结构的节点V、以时序边和模态边为图结构的边E,从而构建多模态序列的图卷积网络G;
步骤5、将组合特征输入多模态序列的图卷积网络中,并根据式(1)进行训练并融合,从而得到更新后的组合特征fg
Figure BDA0002370703410000058
式(1)中,GCN(·)表示图卷积网络的计算过程,
Figure BDA0002370703410000061
表示点加运算,
Figure BDA0002370703410000062
表示更新后的组合特征fg的维度大小;
步骤6、以更新后的组合特征fg作为多模态特征后,返回步骤3-步骤5,从而根据式(2)计算得到再次更新后的组合特征
Figure BDA0002370703410000063
作为片段融合特征:
Figure BDA0002370703410000064
步骤7、采用深度学习的方法搭建并训练基于循环神经网络的序列到序列的转换模型,用于对多个片段融合特征所构成的序列进行转换,得到一连串解码的单词序列;
在本实施例中,使用双向GRU循环神经网络作为转换模型,先根据式(3)计算得到特征序列h:
Figure BDA0002370703410000065
式(3)中,BGRU(·)表示双向GRU循环神经网络,
Figure BDA0002370703410000066
表示
Figure BDA0002370703410000067
中第k个片段融合特征,hk表示转换后的第k个片段融合特征。
使用全连接层网络FC(·)进行特征映射,并根据式(4)计算概率得分矩阵P:
Figure BDA0002370703410000068
式(3)中,pk表示第k个片段融合特征对应的概率向量,根据pk中最大值的位置得到其解码单词wk,解码的单词序列可以表示为
Figure BDA0002370703410000069
步骤8、使用联结主义时序分类方法对单词序列W中连续重复出现的单词合并在一起,再移除所有表示过渡动作的单词,从而得到处理后的单词序列并作为最终翻译输出的手语句子
Figure BDA00023707034100000610
综上所述,本发明提出的一种基于图卷积的多模态融合手语识别系统及方法,解决了连续手语翻译过程中多源数据互补性融合的问题,同时多次序列学习使得手语视频特征中的时序关联学习得更充分;采用的对齐翻译模块避开了连续手语建模中时序动作分割的难题;该手语识别系统及方法有效提升了连续手语翻译的性能。

Claims (5)

1.一种基于图卷积的多模态融合手语识别系统,其特征包括:特征提取模块,特征融合模块,序列学习模块和对齐翻译模块;
所述特征提取模块,是从手语视频数据库中提取视频帧的颜色特征、深度特征和骨架特征,并对提取到的所有特征进行维度对齐,得到多模态特征;
所述特征融合模块,是采用深度学习的方法搭建并训练基于3D卷积神经网络和图卷积网络的多模态序列特征融合模型,并使用所述多模态特征融合模型对所述多模态特征进行融合,得到片段融合特征;
所述序列学习模块,是采用深度学习的方法搭建并训练基于循环神经网络的序列到序列的转换模型,用于对多个片段融合特征所构成的序列进行转换,得到一连串解码的单词序列;
所述对齐翻译模块,是使用联结主义时序分类方法对所述单词序列进行解码翻译,最终输出完整的手语句子。
2.根据权利要求1所述的多模态融合手语识别系统,其特征在于,所述特征提取模块使用ResNet-18网络提取颜色特征和深度特征;并以人体关节的自然连接为边、以关节点为节点建立空间图结构,从而使用空间图神经网络对所述空间图结构进行学习,并得到所述骨架特征;
将所述颜色特征、深度特征和骨架特征处理成相同的尺寸,从而得到多模态特征,所述多模态特征包括空间、时间和模态三个维度。
3.根据权利要求1所述的多模态融合手语识别系统,其特征在于,所述特征融合模块包括以下步骤:
步骤a:采用深度学习方法搭建两个并行的3D卷积神经网络分别对多模态特征的空间维度和时间维度进行卷积操作,得到两路特征并相加后输出组合特征;
步骤b:在相邻帧和间隔帧之间分别建立时序边,并在所述时间维度中同一时刻下的不同模态帧之间建立模态边,以所述时间维度中不同时刻下的不同模态帧的特征为图结构的节点、以时序边和模态边为图结构的边,从而构建多模态序列的图卷积网络;
步骤c:将所述组合特征输入所述多模态序列的图卷积网络中进行训练并融合,从而得到更新后的组合特征;
步骤d:以所述更新后的组合特征作为所述多模态特征后,返回步骤a-步骤c,得到再次更新后的组合特征作为片段融合特征。
4.根据权利要求1所述的多模态融合手语识别系统,其特征在于,所述对齐翻译模块是先将所述单词序列中连续重复出现的单词合并在一起,再移除所有表示过渡动作的单词,从而得到处理后的单词序列并作为最终翻译输出的手语句子。
5.一种基于图卷积的多模态融合手语识别方法,其特征是按如下步骤进行:
步骤1、使用ResNet-18网络从手语视频数据库中提取视频帧的颜色特征和深度特征;以人体关节的自然连接为边、以关节点为节点建立空间图结构,从而使用空间图神经网络对所述空间图结构进行学习,并得到所述骨架特征;
步骤2、将所述颜色特征、深度特征和骨架特征处理成相同的尺寸,从而得到多模态特征,所述多模态特征包括空间、时间和模态三个维度;
步骤3、采用深度学习方法搭建两个并行的3D卷积神经网络分别对多模态特征的空间维度和时间维度进行卷积操作,得到两路特征并相加后输出组合特征;
步骤4、在相邻帧和间隔帧之间分别建立时序边,并在所述时间维度中同一时刻下的不同模态帧之间建立模态边,以所述时间维度中不同时刻下的不同模态帧的特征为图结构的节点、以时序边和模态边为图结构的边,从而构建多模态序列的图卷积网络;
步骤5、将所述组合特征输入所述多模态序列的图卷积网络中进行训练并融合,从而得到更新后的组合特征;
步骤6、以所述更新后的组合特征作为所述多模态特征后,返回步骤3-步骤5,得到再次更新后的组合特征作为片段融合特征;
步骤7、采用深度学习的方法搭建并训练基于循环神经网络的序列到序列的转换模型,用于对多个片段融合特征所构成的序列进行转换,得到一连串解码的单词序列;
步骤8、使用联结主义时序分类方法对所述单词序列中连续重复出现的单词合并在一起,再移除所有表示过渡动作的单词,从而得到处理后的单词序列并作为最终翻译输出的手语句子。
CN202010049714.7A 2020-01-16 2020-01-16 一种基于图卷积的多模态融合手语识别系统及方法 Active CN111259804B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010049714.7A CN111259804B (zh) 2020-01-16 2020-01-16 一种基于图卷积的多模态融合手语识别系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010049714.7A CN111259804B (zh) 2020-01-16 2020-01-16 一种基于图卷积的多模态融合手语识别系统及方法

Publications (2)

Publication Number Publication Date
CN111259804A true CN111259804A (zh) 2020-06-09
CN111259804B CN111259804B (zh) 2023-03-14

Family

ID=70948883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010049714.7A Active CN111259804B (zh) 2020-01-16 2020-01-16 一种基于图卷积的多模态融合手语识别系统及方法

Country Status (1)

Country Link
CN (1) CN111259804B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723779A (zh) * 2020-07-20 2020-09-29 浙江大学 一种基于深度学习的中文手语识别系统
CN111858943A (zh) * 2020-07-30 2020-10-30 杭州网易云音乐科技有限公司 音乐情感识别方法及装置、存储介质和电子设备
CN112287690A (zh) * 2020-10-29 2021-01-29 中国科学技术大学 基于条件句子生成和跨模态重排的手语翻译方法
CN112396018A (zh) * 2020-11-27 2021-02-23 广东工业大学 一种结合多模态特征分析与神经网络的羽毛球运动员犯规动作识别方法
CN112434718A (zh) * 2020-09-02 2021-03-02 武汉大学 基于深度图的新冠肺炎多模态特征提取融合方法及系统
CN113033430A (zh) * 2021-03-30 2021-06-25 中山大学 基于双线性的多模态信息处理的人工智能方法、系统及介质
CN113094547A (zh) * 2021-04-06 2021-07-09 大连理工大学 日语在线视频语料中特定动作视频片断检索方法
CN113705402A (zh) * 2021-08-18 2021-11-26 中国科学院自动化研究所 视频行为预测方法、系统、电子设备及存储介质
CN114036607A (zh) * 2021-11-03 2022-02-11 清华大学 多模态输入深度神经网络、框架结构梁柱设计方法及装置
CN117576784A (zh) * 2024-01-15 2024-02-20 吉林大学 一种融合事件和rgb数据潜水员手势识别方法及其系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0934863A (ja) * 1995-07-14 1997-02-07 Hitachi Ltd ニューラルネットワークによる情報統合処理方法
CN109190578A (zh) * 2018-09-13 2019-01-11 合肥工业大学 基于时域卷积网络与循环神经网络融合的手语视频翻译方法
CN109409231A (zh) * 2018-09-27 2019-03-01 合肥工业大学 基于自适应隐马尔可夫的多特征融合手语识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0934863A (ja) * 1995-07-14 1997-02-07 Hitachi Ltd ニューラルネットワークによる情報統合処理方法
CN109190578A (zh) * 2018-09-13 2019-01-11 合肥工业大学 基于时域卷积网络与循环神经网络融合的手语视频翻译方法
CN109409231A (zh) * 2018-09-27 2019-03-01 合肥工业大学 基于自适应隐马尔可夫的多特征融合手语识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
肖焕侯等: "基于C3D和视觉元素的视频描述", 《华南理工大学学报(自然科学版)》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723779A (zh) * 2020-07-20 2020-09-29 浙江大学 一种基于深度学习的中文手语识别系统
CN111723779B (zh) * 2020-07-20 2023-05-02 浙江大学 一种基于深度学习的中文手语识别系统
CN111858943A (zh) * 2020-07-30 2020-10-30 杭州网易云音乐科技有限公司 音乐情感识别方法及装置、存储介质和电子设备
CN112434718A (zh) * 2020-09-02 2021-03-02 武汉大学 基于深度图的新冠肺炎多模态特征提取融合方法及系统
CN112434718B (zh) * 2020-09-02 2023-04-18 武汉大学 基于深度图的新冠肺炎多模态特征提取融合方法及系统
CN112287690A (zh) * 2020-10-29 2021-01-29 中国科学技术大学 基于条件句子生成和跨模态重排的手语翻译方法
CN112396018A (zh) * 2020-11-27 2021-02-23 广东工业大学 一种结合多模态特征分析与神经网络的羽毛球运动员犯规动作识别方法
CN112396018B (zh) * 2020-11-27 2023-06-06 广东工业大学 一种结合多模态特征分析与神经网络的羽毛球运动员犯规动作识别方法
CN113033430A (zh) * 2021-03-30 2021-06-25 中山大学 基于双线性的多模态信息处理的人工智能方法、系统及介质
CN113033430B (zh) * 2021-03-30 2023-10-03 中山大学 基于双线性的多模态信息处理的人工智能方法、系统及介质
CN113094547A (zh) * 2021-04-06 2021-07-09 大连理工大学 日语在线视频语料中特定动作视频片断检索方法
CN113094547B (zh) * 2021-04-06 2022-01-18 大连理工大学 日语在线视频语料中特定动作视频片断检索方法
CN113705402A (zh) * 2021-08-18 2021-11-26 中国科学院自动化研究所 视频行为预测方法、系统、电子设备及存储介质
CN114036607B (zh) * 2021-11-03 2022-07-01 清华大学 多模态输入深度神经网络、框架结构梁柱设计方法及装置
CN114036607A (zh) * 2021-11-03 2022-02-11 清华大学 多模态输入深度神经网络、框架结构梁柱设计方法及装置
CN117576784A (zh) * 2024-01-15 2024-02-20 吉林大学 一种融合事件和rgb数据潜水员手势识别方法及其系统
CN117576784B (zh) * 2024-01-15 2024-03-26 吉林大学 一种融合事件和rgb数据潜水员手势识别方法及其系统

Also Published As

Publication number Publication date
CN111259804B (zh) 2023-03-14

Similar Documents

Publication Publication Date Title
CN111259804B (zh) 一种基于图卷积的多模态融合手语识别系统及方法
Yu et al. Rethinking diversified and discriminative proposal generation for visual grounding
US11783615B2 (en) Systems and methods for language driven gesture understanding
CN110443129A (zh) 基于深度学习的中文唇语识别方法
CN107704456B (zh) 识别控制方法以及识别控制装置
CN112734881B (zh) 基于显著性场景图分析的文本合成图像方法及系统
CN107239801A (zh) 视频属性表示学习方法及视频文字描述自动生成方法
CN111368142B (zh) 一种基于生成对抗网络的视频密集事件描述方法
CN111967272B (zh) 基于语义对齐的视觉对话生成系统
CN110210416B (zh) 基于动态伪标签解码的手语识别系统优化方法及装置
CN116628490A (zh) 图文音多模态预训练模型方法、装置、电子设备和介质
CN115719510A (zh) 基于多模态融合及隐式交互关系学习的群组行为识别方法
CN111428481A (zh) 一种基于深度学习的实体关系抽取方法
CN111709289A (zh) 一种用于提高人体解析效果的多任务深度学习模型
CN111723779A (zh) 一种基于深度学习的中文手语识别系统
Azuh et al. Towards Bilingual Lexicon Discovery From Visually Grounded Speech Audio.
Zhang et al. Deep RGB-D saliency detection without depth
CN109766918A (zh) 基于多层次上下文信息融合的显著性物体检测方法
CN118038139A (zh) 一种基于大模型微调的多模态小样本图像分类方法
Toshevska et al. Exploration into deep learning text generation architectures for dense image captioning
CN110852270B (zh) 基于深度学习的混合语法人体解析方法及装置
Watanabe et al. Generative adversarial network including referring image segmentation for text-guided image manipulation
CN113837212A (zh) 一种基于多模态双向导向注意力的视觉问答方法
CN111339782B (zh) 一种基于多层次语义解析的手语翻译系统及方法
CN114821802A (zh) 基于多线索相互蒸馏和自蒸馏的连续手语识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant