CN111259804A - 一种基于图卷积的多模态融合手语识别系统及方法 - Google Patents
一种基于图卷积的多模态融合手语识别系统及方法 Download PDFInfo
- Publication number
- CN111259804A CN111259804A CN202010049714.7A CN202010049714A CN111259804A CN 111259804 A CN111259804 A CN 111259804A CN 202010049714 A CN202010049714 A CN 202010049714A CN 111259804 A CN111259804 A CN 111259804A
- Authority
- CN
- China
- Prior art keywords
- modal
- sequence
- feature
- features
- sign language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Psychiatry (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于图卷积的多模态融合手语识别系统及方法,该系统包括:特征提取模块,特征融合模块,序列学习模块和对齐翻译模块;该方法包括:1使用卷积神经网络和图神经网络分别对手语视频数据库提取视频帧的颜色、深度和骨架特征;2组合多模态特征,并通过多模态序列融合网络融合特征;3构建双向循环神经网络对融合后的一连串片段级别特征进行序列学习;4、过联结主义时序分类模型对齐特征序列,并翻译出完整的手语句子。本发明能实现对连续手语句子的翻译,并提高连续手语翻译的准确性。
Description
技术领域
本发明属于多媒体信息处理领域,涉及到计算机视觉、自然语言处理、深度学习等技术,具体地说是一种基于图卷积的多模态融合手语识别系统及方法。
背景技术
健全人可以使用口头语言便捷交流,而失聪者或失声者则需要通过手语传达自己的想法。由于大部分健全人缺少手语教育的基础,推广手语用于正常社会沟通存在障碍。科技向善,手语识别技术在一定程度上为失聪失声人群融入社会提供了便利。
早期的手语识别研究关注于离散性手语识别,其本质上是一种特殊的视频分类问题。随着视频理解技术的发展,连续性手语翻译吸引越来越多的关注。
由于视频数据复杂繁多,现有的手语识别存在很多弊端,尤其是在多模态数据的表征和融合方面。现有手语识别方法在使用多种模态源的数据时,常常忽略了不同模态之间的互补关联,而对其进行暴力融合,融合特征的鲁棒性较差;另一方面,在特征学习过程中对视频数据流中的时间和空间特性发掘较少,没有充分利用手语特征的时间变化特性,从而导致了手语翻译的结果连贯性差、精确度较低。
发明内容
本发明针对现有技术中存在的不足之处,提供一种基于图卷积的多模态融合手语识别系统及方法,以期能实现对连续手语句子的翻译,并提高手语识别的准确性。
本发明为解决技术问题采用如下的方法方案:
本发明一种基于图卷积的多模态融合手语识别系统的特点包括:特征提取模块,特征融合模块,序列学习模块和对齐翻译模块;
所述特征提取模块,是从手语视频数据库中提取视频帧的颜色特征、深度特征和骨架特征,并对提取到的所有特征进行维度对齐,得到多模态特征;
所述特征融合模块,是采用深度学习的方法搭建并训练基于3D卷积神经网络和图卷积网络的多模态序列特征融合模型,并使用所述多模态特征融合模型对所述多模态特征进行融合,得到片段融合特征;
所述序列学习模块,是采用深度学习的方法搭建并训练基于循环神经网络的序列到序列的转换模型,用于对多个片段融合特征所构成的序列进行转换,得到一连串解码的单词序列;
所述对齐翻译模块,是使用联结主义时序分类方法对所述单词序列进行解码翻译,最终输出完整的手语句子。
本发明所述的多模态融合手语识别系统的特点也在于,所述特征提取模块使用ResNet-18网络提取颜色特征和深度特征;并以人体关节的自然连接为边、以关节点为节点建立空间图结构,从而使用空间图神经网络对所述空间图结构进行学习,并得到所述骨架特征;
将所述颜色特征、深度特征和骨架特征处理成相同的尺寸,从而得到多模态特征,所述多模态特征包括空间、时间和模态三个维度。
所述特征融合模块包括以下步骤:
步骤a:采用深度学习方法搭建两个并行的3D卷积神经网络分别对多模态特征的空间维度和时间维度进行卷积操作,得到两路特征并相加后输出组合特征;
步骤b:在相邻帧和间隔帧之间分别建立时序边,并在所述时间维度中同一时刻下的不同模态帧之间建立模态边,以所述时间维度中不同时刻下的不同模态帧的特征为图结构的节点、以时序边和模态边为图结构的边,从而构建多模态序列的图卷积网络;
步骤c:将所述组合特征输入所述多模态序列的图卷积网络中进行训练并融合,从而得到更新后的组合特征;
步骤d:以所述更新后的组合特征作为所述多模态特征后,返回步骤a-步骤c,得到再次更新后的组合特征作为片段融合特征。
所述对齐翻译模块是先将所述单词序列中连续重复出现的单词合并在一起,再移除所有表示过渡动作的单词,从而得到处理后的单词序列并作为最终翻译输出的手语句子。
本发明一种基于图卷积的多模态融合手语识别方法的特点是按如下步骤进行:
步骤1、使用ResNet-18网络从手语视频数据库中提取视频帧的颜色特征和深度特征;以人体关节的自然连接为边、以关节点为节点建立空间图结构,从而使用空间图神经网络对所述空间图结构进行学习,并得到所述骨架特征;
步骤2、将所述颜色特征、深度特征和骨架特征处理成相同的尺寸,从而得到多模态特征,所述多模态特征包括空间、时间和模态三个维度;
步骤3、采用深度学习方法搭建两个并行的3D卷积神经网络分别对多模态特征的空间维度和时间维度进行卷积操作,得到两路特征并相加后输出组合特征;
步骤4、在相邻帧和间隔帧之间分别建立时序边,并在所述时间维度中同一时刻下的不同模态帧之间建立模态边,以所述时间维度中不同时刻下的不同模态帧的特征为图结构的节点、以时序边和模态边为图结构的边,从而构建多模态序列的图卷积网络;
步骤5、将所述组合特征输入所述多模态序列的图卷积网络中进行训练并融合,从而得到更新后的组合特征;
步骤6、以所述更新后的组合特征作为所述多模态特征后,返回步骤3-步骤5,得到再次更新后的组合特征作为片段融合特征;
步骤7、采用深度学习的方法搭建并训练基于循环神经网络的序列到序列的转换模型,用于对多个片段融合特征所构成的序列进行转换,得到一连串解码的单词序列;
步骤8、使用联结主义时序分类方法对所述单词序列中连续重复出现的单词合并在一起,再移除所有表示过渡动作的单词,从而得到处理后的单词序列并作为最终翻译输出的手语句子。
与现有技术相比,本发明的有益效果体现在:
1、本发明利用多种深度学习技术,提出了基于图卷积的多模态融合手语识别系统,该系统由特征提取模块、特征融合模块、序列学习模块和对齐翻译模块组成,可以充分适用于翻译包含多种模态数据的连续手语视频,并提高了手语识别的准确性。
2、本发明提出的特征提取模块中,使用ResNet-18网络和空间图神经网络分别提取颜色特征、深度特征和骨架特征,得到的多模态特征具有更强的表征能力。
3、本发明提出的对齐翻译模块中,使用联结主义时序分类方法将解码的单词序列翻译并输出手语句子,增强了连续手语翻译的连贯性和准确度。
4、本发明提出一种基于图卷积的多模态融合手语识别方法,该方法中的并行的3D卷积神经网络和多模态序列的图卷积网络可以进行空间时序信息学习和多模态特征融合,从而充分发掘多模态序列中的时序关联和模态互补性,提高了融合特征的鲁棒性。
附图说明
图1为本发明实施例中多模态融合手语识别系统的结构示意图;
图2为本发明实施例中多模态融合手语识别系统的特征融合模块的结构框图;
图3为本发明实施例中多模态融合手语识别方法的操作流程图。
具体实施方式
下面将结合附图,对本发明的具体实施技术方案进行详细说明。
本实施例中,一种基于图卷积的多模态融合手语识别系统,如图1所示,包括:特征提取模块,特征融合模块,序列学习模块和对齐翻译模块。
其中,特征提取模块,是从手语视频数据库中提取视频帧的颜色特征uc、深度特征ud和骨架特征us,并对提取到的所有特征进行维度对齐,得到多模态特征f;
在本实施例中,手语视频数据库包含100个常见句子的手语视频数据,由50个人对每个句子对应的手语进行演示,共有5000个视频。
具体实施中,是使用ResNet-18网络提取颜色特征和深度特征;并以人体关节的自然连接为边、以关节点为节点建立空间图结构,从而使用空间图神经网络对空间图结构进行学习,并得到骨架特征;
将颜色特征、深度特征和骨架特征处理成相同的尺寸,从而得到多模态特征f,多模态特征包括空间、时间和模态三个维度。在本实施例中,处理后的颜色特征、深度特征和骨架特征的尺寸均为N×512,其中N表示视频的总帧数。每个多模态特征的维度大小为M×T×S,其中模态维度的值M为3,时间维度的值T为8,空间维度的值S为512。
特征融合模块的结构框图如图2所示,是采用深度学习的方法搭建并训练基于3D卷积神经网络和图卷积网络的多模态序列特征融合模型,并使用多模态特征融合模型对多模态特征f进行融合,得到片段融合特征具体来说,包括以下步骤:
步骤a:采用深度学习方法搭建两个并行的3D卷积神经网络分别对多模态特征的空间维度和时间维度进行卷积操作,得到两路特征并相加后输出组合特征;
步骤b:在相邻帧和间隔帧之间分别建立时序边ET,并在时间维度中同一时刻下的不同模态帧之间建立模态边EM,以时间维度中不同时刻下的不同模态帧的特征为图结构的节点V、以时序边和模态边为图结构的边E,从而构建多模态序列的图卷积网络G;
步骤c:将组合特征输入多模态序列的图卷积网络中进行训练并融合,从而得到更新后的组合特征fg;
序列学习模块,是采用深度学习的方法搭建并训练基于循环神经网络的序列到序列的转换模型,用于对多个片段融合特征所构成的序列进行转换,得到一连串解码的单词序列W;
对齐翻译模块,是使用联结主义时序分类方法对单词序列进行解码翻译,最终输出完整的手语句子。具体的说,是先将单词序列W中连续重复出现的单词合并在一起,再移除所有表示过渡动作的单词,从而得到处理后的单词序列并作为最终翻译输出的手语句子
本实施例中,一种基于图卷积的多模态融合手语识别方法是先使用ResNet-18网络和空间图卷积网络分别对手语视频数据库提取视频帧的颜色特征、深度特征和骨架特征;接下来,组合三种特征得到,并将多模态特征输入3D卷积神经网络和多模态序列的图卷积网络进行融合并得到组合特征;然后,构建双向循环神经网络对融合后的片段融合特征进行序列学习;最后,通过联结主义时序分类模型对齐的片段融合特征序列,并翻译出手语句子。如图3所示,具体的说,包括如下步骤:
步骤1、获取多模态手语视频数据库,并将数据库中的视频数据划分为训练数据集和测试数据集两部分。划分的训练数据集包含4000个视频,测试数据集包含1000个视频。每条数据同时包含颜色视频videoc、深度视频videod、全部时刻的骨架点坐标videok和对应的手语句子。
将颜色视频和深度视频分别切割成帧序列,使用ResNet-18网络从手语视频数据库的颜色帧序列和深度帧序列中提取视频帧的颜色特征和深度特征其中和分别代表第n帧的颜色特征和深度特征;以人体关节的自然连接为边、以关节点为节点建立空间图结构,从而使用空间图神经网络对空间图结构进行学习,并得到骨架特征其中代表第n帧的骨架特征;
步骤2、将颜色特征、深度特征和骨架特征处理成相同的尺寸,从而得到多模态特征f,多模态特征包括空间、时间和模态三个维度;
步骤3、采用深度学习方法搭建两个并行的3D卷积神经网络,即空间卷积网络SCN(·)和时序卷积网络TCN(·),分别对多模态特征的空间维度和时间维度进行卷积操作,得到空间组合特征fs=SCN(fk)和时序组合特征ft=TCN(fk),并相加后输出组合特征;
步骤4、在相邻帧和间隔帧之间分别建立时序边ET,并在时间维度中同一时刻下的不同模态帧之间建立模态边EM,以时间维度中不同时刻下的不同模态帧的特征为图结构的节点V、以时序边和模态边为图结构的边E,从而构建多模态序列的图卷积网络G;
步骤5、将组合特征输入多模态序列的图卷积网络中,并根据式(1)进行训练并融合,从而得到更新后的组合特征fg:
步骤7、采用深度学习的方法搭建并训练基于循环神经网络的序列到序列的转换模型,用于对多个片段融合特征所构成的序列进行转换,得到一连串解码的单词序列;
在本实施例中,使用双向GRU循环神经网络作为转换模型,先根据式(3)计算得到特征序列h:
使用全连接层网络FC(·)进行特征映射,并根据式(4)计算概率得分矩阵P:
综上所述,本发明提出的一种基于图卷积的多模态融合手语识别系统及方法,解决了连续手语翻译过程中多源数据互补性融合的问题,同时多次序列学习使得手语视频特征中的时序关联学习得更充分;采用的对齐翻译模块避开了连续手语建模中时序动作分割的难题;该手语识别系统及方法有效提升了连续手语翻译的性能。
Claims (5)
1.一种基于图卷积的多模态融合手语识别系统,其特征包括:特征提取模块,特征融合模块,序列学习模块和对齐翻译模块;
所述特征提取模块,是从手语视频数据库中提取视频帧的颜色特征、深度特征和骨架特征,并对提取到的所有特征进行维度对齐,得到多模态特征;
所述特征融合模块,是采用深度学习的方法搭建并训练基于3D卷积神经网络和图卷积网络的多模态序列特征融合模型,并使用所述多模态特征融合模型对所述多模态特征进行融合,得到片段融合特征;
所述序列学习模块,是采用深度学习的方法搭建并训练基于循环神经网络的序列到序列的转换模型,用于对多个片段融合特征所构成的序列进行转换,得到一连串解码的单词序列;
所述对齐翻译模块,是使用联结主义时序分类方法对所述单词序列进行解码翻译,最终输出完整的手语句子。
2.根据权利要求1所述的多模态融合手语识别系统,其特征在于,所述特征提取模块使用ResNet-18网络提取颜色特征和深度特征;并以人体关节的自然连接为边、以关节点为节点建立空间图结构,从而使用空间图神经网络对所述空间图结构进行学习,并得到所述骨架特征;
将所述颜色特征、深度特征和骨架特征处理成相同的尺寸,从而得到多模态特征,所述多模态特征包括空间、时间和模态三个维度。
3.根据权利要求1所述的多模态融合手语识别系统,其特征在于,所述特征融合模块包括以下步骤:
步骤a:采用深度学习方法搭建两个并行的3D卷积神经网络分别对多模态特征的空间维度和时间维度进行卷积操作,得到两路特征并相加后输出组合特征;
步骤b:在相邻帧和间隔帧之间分别建立时序边,并在所述时间维度中同一时刻下的不同模态帧之间建立模态边,以所述时间维度中不同时刻下的不同模态帧的特征为图结构的节点、以时序边和模态边为图结构的边,从而构建多模态序列的图卷积网络;
步骤c:将所述组合特征输入所述多模态序列的图卷积网络中进行训练并融合,从而得到更新后的组合特征;
步骤d:以所述更新后的组合特征作为所述多模态特征后,返回步骤a-步骤c,得到再次更新后的组合特征作为片段融合特征。
4.根据权利要求1所述的多模态融合手语识别系统,其特征在于,所述对齐翻译模块是先将所述单词序列中连续重复出现的单词合并在一起,再移除所有表示过渡动作的单词,从而得到处理后的单词序列并作为最终翻译输出的手语句子。
5.一种基于图卷积的多模态融合手语识别方法,其特征是按如下步骤进行:
步骤1、使用ResNet-18网络从手语视频数据库中提取视频帧的颜色特征和深度特征;以人体关节的自然连接为边、以关节点为节点建立空间图结构,从而使用空间图神经网络对所述空间图结构进行学习,并得到所述骨架特征;
步骤2、将所述颜色特征、深度特征和骨架特征处理成相同的尺寸,从而得到多模态特征,所述多模态特征包括空间、时间和模态三个维度;
步骤3、采用深度学习方法搭建两个并行的3D卷积神经网络分别对多模态特征的空间维度和时间维度进行卷积操作,得到两路特征并相加后输出组合特征;
步骤4、在相邻帧和间隔帧之间分别建立时序边,并在所述时间维度中同一时刻下的不同模态帧之间建立模态边,以所述时间维度中不同时刻下的不同模态帧的特征为图结构的节点、以时序边和模态边为图结构的边,从而构建多模态序列的图卷积网络;
步骤5、将所述组合特征输入所述多模态序列的图卷积网络中进行训练并融合,从而得到更新后的组合特征;
步骤6、以所述更新后的组合特征作为所述多模态特征后,返回步骤3-步骤5,得到再次更新后的组合特征作为片段融合特征;
步骤7、采用深度学习的方法搭建并训练基于循环神经网络的序列到序列的转换模型,用于对多个片段融合特征所构成的序列进行转换,得到一连串解码的单词序列;
步骤8、使用联结主义时序分类方法对所述单词序列中连续重复出现的单词合并在一起,再移除所有表示过渡动作的单词,从而得到处理后的单词序列并作为最终翻译输出的手语句子。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010049714.7A CN111259804B (zh) | 2020-01-16 | 2020-01-16 | 一种基于图卷积的多模态融合手语识别系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010049714.7A CN111259804B (zh) | 2020-01-16 | 2020-01-16 | 一种基于图卷积的多模态融合手语识别系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111259804A true CN111259804A (zh) | 2020-06-09 |
CN111259804B CN111259804B (zh) | 2023-03-14 |
Family
ID=70948883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010049714.7A Active CN111259804B (zh) | 2020-01-16 | 2020-01-16 | 一种基于图卷积的多模态融合手语识别系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111259804B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111723779A (zh) * | 2020-07-20 | 2020-09-29 | 浙江大学 | 一种基于深度学习的中文手语识别系统 |
CN111858943A (zh) * | 2020-07-30 | 2020-10-30 | 杭州网易云音乐科技有限公司 | 音乐情感识别方法及装置、存储介质和电子设备 |
CN112287690A (zh) * | 2020-10-29 | 2021-01-29 | 中国科学技术大学 | 基于条件句子生成和跨模态重排的手语翻译方法 |
CN112396018A (zh) * | 2020-11-27 | 2021-02-23 | 广东工业大学 | 一种结合多模态特征分析与神经网络的羽毛球运动员犯规动作识别方法 |
CN112434718A (zh) * | 2020-09-02 | 2021-03-02 | 武汉大学 | 基于深度图的新冠肺炎多模态特征提取融合方法及系统 |
CN113033430A (zh) * | 2021-03-30 | 2021-06-25 | 中山大学 | 基于双线性的多模态信息处理的人工智能方法、系统及介质 |
CN113094547A (zh) * | 2021-04-06 | 2021-07-09 | 大连理工大学 | 日语在线视频语料中特定动作视频片断检索方法 |
CN113705402A (zh) * | 2021-08-18 | 2021-11-26 | 中国科学院自动化研究所 | 视频行为预测方法、系统、电子设备及存储介质 |
CN114036607A (zh) * | 2021-11-03 | 2022-02-11 | 清华大学 | 多模态输入深度神经网络、框架结构梁柱设计方法及装置 |
CN117576784A (zh) * | 2024-01-15 | 2024-02-20 | 吉林大学 | 一种融合事件和rgb数据潜水员手势识别方法及其系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0934863A (ja) * | 1995-07-14 | 1997-02-07 | Hitachi Ltd | ニューラルネットワークによる情報統合処理方法 |
CN109190578A (zh) * | 2018-09-13 | 2019-01-11 | 合肥工业大学 | 基于时域卷积网络与循环神经网络融合的手语视频翻译方法 |
CN109409231A (zh) * | 2018-09-27 | 2019-03-01 | 合肥工业大学 | 基于自适应隐马尔可夫的多特征融合手语识别方法 |
-
2020
- 2020-01-16 CN CN202010049714.7A patent/CN111259804B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0934863A (ja) * | 1995-07-14 | 1997-02-07 | Hitachi Ltd | ニューラルネットワークによる情報統合処理方法 |
CN109190578A (zh) * | 2018-09-13 | 2019-01-11 | 合肥工业大学 | 基于时域卷积网络与循环神经网络融合的手语视频翻译方法 |
CN109409231A (zh) * | 2018-09-27 | 2019-03-01 | 合肥工业大学 | 基于自适应隐马尔可夫的多特征融合手语识别方法 |
Non-Patent Citations (1)
Title |
---|
肖焕侯等: "基于C3D和视觉元素的视频描述", 《华南理工大学学报(自然科学版)》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111723779A (zh) * | 2020-07-20 | 2020-09-29 | 浙江大学 | 一种基于深度学习的中文手语识别系统 |
CN111723779B (zh) * | 2020-07-20 | 2023-05-02 | 浙江大学 | 一种基于深度学习的中文手语识别系统 |
CN111858943A (zh) * | 2020-07-30 | 2020-10-30 | 杭州网易云音乐科技有限公司 | 音乐情感识别方法及装置、存储介质和电子设备 |
CN112434718A (zh) * | 2020-09-02 | 2021-03-02 | 武汉大学 | 基于深度图的新冠肺炎多模态特征提取融合方法及系统 |
CN112434718B (zh) * | 2020-09-02 | 2023-04-18 | 武汉大学 | 基于深度图的新冠肺炎多模态特征提取融合方法及系统 |
CN112287690A (zh) * | 2020-10-29 | 2021-01-29 | 中国科学技术大学 | 基于条件句子生成和跨模态重排的手语翻译方法 |
CN112396018A (zh) * | 2020-11-27 | 2021-02-23 | 广东工业大学 | 一种结合多模态特征分析与神经网络的羽毛球运动员犯规动作识别方法 |
CN112396018B (zh) * | 2020-11-27 | 2023-06-06 | 广东工业大学 | 一种结合多模态特征分析与神经网络的羽毛球运动员犯规动作识别方法 |
CN113033430A (zh) * | 2021-03-30 | 2021-06-25 | 中山大学 | 基于双线性的多模态信息处理的人工智能方法、系统及介质 |
CN113033430B (zh) * | 2021-03-30 | 2023-10-03 | 中山大学 | 基于双线性的多模态信息处理的人工智能方法、系统及介质 |
CN113094547A (zh) * | 2021-04-06 | 2021-07-09 | 大连理工大学 | 日语在线视频语料中特定动作视频片断检索方法 |
CN113094547B (zh) * | 2021-04-06 | 2022-01-18 | 大连理工大学 | 日语在线视频语料中特定动作视频片断检索方法 |
CN113705402A (zh) * | 2021-08-18 | 2021-11-26 | 中国科学院自动化研究所 | 视频行为预测方法、系统、电子设备及存储介质 |
CN114036607B (zh) * | 2021-11-03 | 2022-07-01 | 清华大学 | 多模态输入深度神经网络、框架结构梁柱设计方法及装置 |
CN114036607A (zh) * | 2021-11-03 | 2022-02-11 | 清华大学 | 多模态输入深度神经网络、框架结构梁柱设计方法及装置 |
CN117576784A (zh) * | 2024-01-15 | 2024-02-20 | 吉林大学 | 一种融合事件和rgb数据潜水员手势识别方法及其系统 |
CN117576784B (zh) * | 2024-01-15 | 2024-03-26 | 吉林大学 | 一种融合事件和rgb数据潜水员手势识别方法及其系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111259804B (zh) | 2023-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111259804B (zh) | 一种基于图卷积的多模态融合手语识别系统及方法 | |
Yu et al. | Rethinking diversified and discriminative proposal generation for visual grounding | |
US11783615B2 (en) | Systems and methods for language driven gesture understanding | |
CN110443129A (zh) | 基于深度学习的中文唇语识别方法 | |
CN107704456B (zh) | 识别控制方法以及识别控制装置 | |
CN112734881B (zh) | 基于显著性场景图分析的文本合成图像方法及系统 | |
CN107239801A (zh) | 视频属性表示学习方法及视频文字描述自动生成方法 | |
CN111368142B (zh) | 一种基于生成对抗网络的视频密集事件描述方法 | |
CN111967272B (zh) | 基于语义对齐的视觉对话生成系统 | |
CN110210416B (zh) | 基于动态伪标签解码的手语识别系统优化方法及装置 | |
CN116628490A (zh) | 图文音多模态预训练模型方法、装置、电子设备和介质 | |
CN115719510A (zh) | 基于多模态融合及隐式交互关系学习的群组行为识别方法 | |
CN111428481A (zh) | 一种基于深度学习的实体关系抽取方法 | |
CN111709289A (zh) | 一种用于提高人体解析效果的多任务深度学习模型 | |
CN111723779A (zh) | 一种基于深度学习的中文手语识别系统 | |
Azuh et al. | Towards Bilingual Lexicon Discovery From Visually Grounded Speech Audio. | |
Zhang et al. | Deep RGB-D saliency detection without depth | |
CN109766918A (zh) | 基于多层次上下文信息融合的显著性物体检测方法 | |
CN118038139A (zh) | 一种基于大模型微调的多模态小样本图像分类方法 | |
Toshevska et al. | Exploration into deep learning text generation architectures for dense image captioning | |
CN110852270B (zh) | 基于深度学习的混合语法人体解析方法及装置 | |
Watanabe et al. | Generative adversarial network including referring image segmentation for text-guided image manipulation | |
CN113837212A (zh) | 一种基于多模态双向导向注意力的视觉问答方法 | |
CN111339782B (zh) | 一种基于多层次语义解析的手语翻译系统及方法 | |
CN114821802A (zh) | 基于多线索相互蒸馏和自蒸馏的连续手语识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |