CN111339782A - 一种基于多层次语义解析的手语翻译系统及方法 - Google Patents

一种基于多层次语义解析的手语翻译系统及方法 Download PDF

Info

Publication number
CN111339782A
CN111339782A CN202010103960.6A CN202010103960A CN111339782A CN 111339782 A CN111339782 A CN 111339782A CN 202010103960 A CN202010103960 A CN 202010103960A CN 111339782 A CN111339782 A CN 111339782A
Authority
CN
China
Prior art keywords
action
visual
sign language
sequence
video frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010103960.6A
Other languages
English (en)
Other versions
CN111339782B (zh
Inventor
郭丹
唐申庚
刘祥龙
汪萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202010103960.6A priority Critical patent/CN111339782B/zh
Publication of CN111339782A publication Critical patent/CN111339782A/zh
Application granted granted Critical
Publication of CN111339782B publication Critical patent/CN111339782B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多层次语义解析的手语翻译系统及方法,该方法包括:1、使用卷积神经网络提取手语视频数据的视频帧特征;2、串联相邻的视频帧特征,并构建全连接网络学习串联后的视频帧特征,得到连续的视素单元;3、串联相邻的视素单元,并使用池化方法对串联后的视素单元进行降维压缩,得到视觉子动作特征;4、将视觉子动作特征聚类成多个动作块,并分别对每个动作块进行采样,输出一连串的动作块特征;5、构建循环神经网络,将连续的动作块特征转换成单词序列;6、使用联结主义时序分类模型将单词序列翻译成手语句子。本发明能从长时手语视频中翻译出自然语句,并提高连续手语翻译的准确性和连贯性。

Description

一种基于多层次语义解析的手语翻译系统及方法
技术领域
本发明属于多媒体信息处理领域,涉及到计算机视觉、自然语言处理、机器学习等技术,具体地说是一种基于多层次语义解析的手语翻译系统及方法。
背景技术
手语是聋哑人与外界沟通的一种重要方式,基于视觉的手语识别与翻译为健全人和失聪失声人群的交流和互动提供了便利。早期的手语识别任务主要关注于离散手语单词的识别,而现实生活中的手语基本都以句子的形式出现,因此这类技术很难用于手语应用的实际情况。
随着计算存储设备和数字化设备的使用以及多媒体技术的发展,手语视频数据体量不断增大,数据形式也越来越复杂。如何高效学习和理解这些视频数据成为了手语翻译任务中一个亟待解决的问题。现有手语翻译方式包括直接对视频的每一帧进行分析,以获取描述语句,但是这种方式会产生大量的冗余信息,而且效率比较低。现有技术中,也有通过采用3D卷积神经网络的方式来理解手语视频,但是这种方式往往会不可避免的造成局部信息的丢失,从而导致了长时连续手语翻译的结果准确度较低。
发明内容
本发明针对现有技术中存在的不足之处,提供一种基于多层次语义解析的手语翻译系统及方法,以期能实现对基于视觉的连续手语句子的翻译,并提高手语翻译的准确性。
本发明为解决技术问题采用如下的方法方案:
本发明一种基于多层次语义解析的手语翻译系统的特点包括:特征提取模块,精细层语义解析模块,粗略层语义对齐模块;
所述特征提取模块,是采用深度学习的方法搭建并训练基于2D卷积神经网络的特征提取模型,并使用所述特征提取模型从数据库的长时手语视频中提取视频帧特征;
所述精细层语义解析模块,是对所述视频帧特征中的多个特征进行串联和学习,得到多个视素单元,并对所视素单元进行串联和池化操作,获得多个等长的视觉子动作;再通过聚类操作,将所述视觉子动作转换成一连串的动作块,并从所述动作块中采样出相同维度尺寸的动作块特征;
所述粗略层语义对齐模块,是采用深度学习的方法搭建并训练基于循环神经网络的序列转换模型,用于对所述动作块特征所构成的序列进行转换,得到一连串解码的单词序列,并使用联结主义时序分类模型对所述单词序列进行翻译,从而输出完整的手语自然语句。
本发明一种基于多层次语义解析的手语翻译方法的特点是按如下步骤进行:
步骤1、提取视频帧特征:
采用深度学习的方法搭建并训练基于2D卷积神经网络的特征提取模型,并使用所述特征提取模型从数据库的长时手语视频中提取视频帧特征
Figure BDA0002387856650000021
其中,T表示所述长时手语视频的总帧数,ft代表第t帧的视频帧特征;
步骤2、学习视素单元:
利用式(1)得到第n个的视素单元gn,从而得到视素单元集合
Figure BDA0002387856650000022
N表示视素单元的数量:
Figure BDA0002387856650000023
式(1)中,f2n-1表示第2n-1帧的视频帧特征,f2n表示第2n帧的视频帧特征,
Figure BDA0002387856650000024
表示串联操作,FC(·)表示使用全连接网络进行计算;若视频帧特征总数T为奇数,则第T帧的视频帧特征;
步骤3、获取视觉子动作:
利用式(2)得到视觉子动作集合
Figure BDA0002387856650000025
S表示视觉子动作的数量,hs代表第s个的视觉子动作:
H=MaxPool([[g1,…,gn,…,gN]]) (2)
式(2)中,[[…]]表示串联操作,MaxPool(·)表示最大化池化;
步骤4、聚合动作块特征:
步骤4.1:在[0,1]范围内随机设定一个相关系数阈值λ;
步骤4.2:初始化s=1;
步骤4.3:根据式(3)计算所述视觉子动作集合H中的第s个视觉子动作hs与其相邻视觉子动作hs+1的相关系数Qs
Figure BDA0002387856650000026
式(3)中,hi s表示第s个视觉子动作hs所表示的向量中第i个位置的值,hi s+1表示第s+1个视觉子动作hs+1所表示的向量中第i个位置的值,I为视觉子动作所表示的向量的总长度;
步骤4.4:若Qs≤λ,则将对应的相邻视觉子动作hs和hs+1划分为一类后,执行步骤4.5;否则,直接执行步骤4.5;
步骤4.5:将s+1赋值给s后,判断s>S是否成立,若成立,则表示获得所述视觉子动作集合H中的所有相邻的视觉子动作之间的相关系数和分类结果;否则,返回步骤4.3执行;
步骤4.6:将连续多个被划分为一类的视觉子动作作为一个动作块,进而得到动作块序列
Figure BDA0002387856650000031
其中,M表示动作块的数量,km表示第m个动作块;
步骤4.7:对第m个动作块km进行固定维度的采样并得到采样后的动作块特征k′m,从而得到动作块特征序列
Figure BDA0002387856650000032
步骤5、转换单词序列:
步骤5.1:采用深度学习的方法构建基于循环神经网络的序列转换模型RNN,将动作块特征序列K′输入序列转换模型RNN,从而根据式(4)得到转换后的动作块特征序列K″:
Figure BDA0002387856650000033
式(4)中,RNN(·)表示序列转换模型,k″m表示转换后的第m个动作块特征;
步骤5.2:将转换后的动作块特征序列K″输入全连接网络FC(·),从而根据式(3)计算概率得分矩阵P:
Figure BDA0002387856650000034
式(5)中,pm表示转换后的第m个动作块特征k″m对应的概率向量,根据概率向量pm中最大值的位置得到第m个解码单词wm,从而解码出单词序列
Figure BDA0002387856650000035
步骤6、翻译手语句子:
将所述单词序列W中连续重复出现的单词进行合并,再删除所有表示过渡动作的单词,从而得到处理后的单词序列并作为最终翻译输出的手语自然语句。
与现有技术相比,本发明的有益效果体现在:
1、本发明利用多种深度学习技术,提出了一种基于多层次语义解析的手语翻译系统,该系统由特征提取模块、精细层语义解析模块和粗略层语义对齐模块组成,可以充分适用于长时连续手语视频的理解与翻译,并提高了手语识别的准确性。
2、本发明提出的精细层语义解析模块中,使用卷积神经网络、池化、聚类等多种方法对提取到的视频特征逐步求精、不断化简,得到的动作块特征对手语动作具有更强的表征能力,并且易于组合得到整个视频的语义表达。
3、本发明提出的粗略层语义对齐模块中,使用循环神经网络学习动作块之间的语义相关性,并采用联结主义时序分类方法翻译经过循环神经网络解码的单词序列,输出的手语自然语句具有更好连贯性和更高的准确度。
4、本发明提出一种基于多层次语义解析的手语翻译方法,该方法中从不同层次分析组合手语视频语义的方式可以学习到不同粒度的视觉信息,先理解分析再组合对齐翻译的方式充分发掘了视频数据的空间时序关联和上下文语义连贯性,提高了连续手语翻译的整体效果。
附图说明
图1为本发明实施例中多层次语义解析手语翻译系统的模块框图;
图2为本发明实施例中多层次语义解析手语翻译系统的精细层语义解析模块的结构图;
图3为本发明实施例中多层次语义解析手语翻译系统的粗略层语义对齐模块的结构图;
图4为本发明实施例中多层次语义解析手语翻译方法的操作流程图。
具体实施方式
下面将结合附图,对本发明的具体实施技术方案进行详细说明。
本实施例中,一种基于多层次语义解析的手语翻译系统,如图1所示,包括:特征提取模块,精细层语义解析模块,粗略层语义对齐模块;
其中,特征提取模块,是采用深度学习的方法搭建并训练基于2D卷积神经网络的特征提取模型,并使用特征提取模型从数据库的长时手语视频中提取视频帧特征;
在本实施例中,手语视频数据库包含100个常见句子的手语视频数据,由50个人对每个句子对应的手语进行演示,共有5000个视频。
具体实施中,是将手语视频按照30帧每秒的帧率切割成连续视频帧,使用VGG网络分别提取视频帧中的每一帧提取二维的图像卷积特征,作为视频帧特征
Figure BDA0002387856650000041
其中T表示视频的总帧数,ft代表第t帧的视频帧特征。
精细层语义解析模块的结构图如图2所示,是对视频帧特征中的多个特征进行串联和学习,得到多个视素单元,并对所视素单元进行串联和池化操作,获得多个等长的视觉子动作;再通过聚类操作,将视觉子动作转换成一连串的动作块,并从动作块中采样出相同维度尺寸的动作块特征;
粗略层语义对齐模块的结构图如图3所示,是采用深度学习的方法搭建并训练基于循环神经网络的序列转换模型RNN,用于对动作块特征所构成的序列进行转换,从而根据式(1)的映射关系得到一连串解码的单词序列W;再使用联结主义时序分类模型对单词序列W进行翻译,具体的说,是先将单词序列中连续重复出现的单词进行合并,再删除所有表示过渡动作的单词,从而得到处理后的单词序列并作为最终翻译输出的手语自然语句;
Figure BDA0002387856650000051
本实施例中,一种基于多层次语义解析的手语翻译方法,首先使用卷积神经网络提取手语视频数据的视频帧特征;接着串联相邻的视频帧特征,并构建全连接网络学习串联后的视频帧特征,得到连续的视素单元;然后串联相邻的视素单元,并使用池化方法对串联后的视素单元进行降维压缩,得到视觉子动作特征;接下来将视觉子动作特征聚类成多个动作块,并分别对每个动作块进行采样,输出一连串的动作块特征;再构建循环神经网络,将连续的动作块特征转换成单词序列;最后使用联结主义时序分类模型将单词序列翻译成手语句子。如图4所示,具体的说,包括如下步骤:
步骤1、提取视频帧特征:
获取连续手语视频数据库,并将数据库中的视频数据划分为训练数据集和测试数据集两部分。划分的训练数据集包含4000个视频,测试数据集包含1000个视频。每条数据同时RGB视频数据和对应的手语自然语句。
将手语视频按照30帧每秒的帧率切割成连续视频帧序列,采用深度学习的方法搭建并训练基于2D卷积神经网络的特征提取模型,并使用特征提取模型对切割后的连续视频帧序列提取视频帧特征
Figure BDA0002387856650000052
其中T表示长时手语视频的总帧数,ft代表第t帧的视频帧特征;
步骤2、学习视素单元:
将视频帧特征F中所有相邻特征两两作为一组,并根据式(2)进行串联和学习,得到多个视素单元
Figure BDA0002387856650000053
其中N表示视素单元的数量,gn代表第n个的视素单元:
Figure BDA0002387856650000054
式(1)中,
Figure BDA0002387856650000055
表示串联操作,FC(·)表示使用全连接网络进行计算。若视频帧特征总数为奇数,则舍弃F中最后一个的特征;
步骤3、获取视觉子动作:
将视素单元G中的所有单元依次进行堆叠,并使用最大化方法对堆叠后的视素单元进行池化,得到多个视觉子动作
Figure BDA0002387856650000056
其中S表示视觉子动作的数量,hs代表第s个的视觉子动作,计算过程如式(3)所示:
Figure BDA0002387856650000057
式(2)中,[[…]]表示串联操作,MaxPool(·)表示最大化池化;
步骤4、聚合动作块特征:
步骤4.1:在[0,1]范围内随机设定一个相关系数阈值λ;
步骤4.2:初始化s=1;
步骤4.3:根据式(4)计算视觉子动集合作H中的第s个视觉子动作hs与其相邻视觉子动作hs+1的相关系数Qs
Figure BDA0002387856650000061
式(3)中,D(a,b)表示计算向量a和向量b的相关系数,hi s表示第s个视觉子动作hs所表示的向量中第i个位置的值,hi s+1表示第s+1个视觉子动作hs+1所表示的向量中第i个位置的值,I为视觉子动作所表示的向量的总长度;
步骤4.4:比较相关系数Qs和相关系数阈值λ的大小,若相关系数小于等于预设系数阈值时,则将对应的相邻视觉子动作hs和hs+1划分为一类后,执行步骤4.5;否则,直接执行步骤4.5;
步骤4.5:将s+1赋值给s后,判断s>S是否成立,若成立,则表示获得视觉子动作H中的所有相邻的子动作之间的相关系数和分类结果;否则,返回步骤4.3执行;
步骤4.6:将连续多个被划分为一类的视觉子动作作为一个动作块,进而得到动作块序列
Figure BDA0002387856650000062
其中,M表示动作块的数量,km表示第m个动作块;
步骤4.,7:从第m个动作块km进行固定维度的采样并得到采样后的动作块特征k′m,从而得到动作块特征序列
Figure BDA0002387856650000063
步骤5、转换单词序列:
步骤5.1:采用深度学习的方法构建基于循环神经网络的序列转换模型RNN,将动作块特征序列K′输入序列转换模型RNN,从而计算得到转换后的动作块特征序列K″;
在本实施例中,使用LSTM循环神经网络作为序列转换模型,先根据式(5)计算得到转换更新后的动作块特征序列K″:
Figure BDA0002387856650000064
式(5)中,LSTM(·)表示LSTM循环神经网络,k″m表示转换更新后的第m个动作块特征。
步骤5.2:将转换后的动作块特征序列K″输入全连接网络FC(·),并根据式(6)计算概率得分矩阵P:
Figure BDA0002387856650000071
式(6)中,pm表示转换后的第m个动作块特征
Figure BDA0002387856650000072
对应的概率向量,根据概率向量pm中最大值的位置得到其解码单词wm,从而解码出整个单词序列
Figure BDA0002387856650000073
步骤6、翻译手语句子:
先将单词序列W中连续重复出现的单词进行合并,再删除所有表示过渡动作的单词,从而得到处理后的单词序列并作为最终翻译输出的手语自然语句。
综上所述,本发明提出的一种基于多层次语义解析的手语翻译系统及方法,解决了连续手语翻译过程中视频数据语义理解的问题,通过多层次的精细语义解析使得手语视频的空间时序表示更加准确;采用的粗略层语义对齐模块避开了连续手语建模中时序动作分割的难题;该连续手语翻译系统及方法有效提升了长时手语视频翻译的性能。

Claims (2)

1.一种基于多层次语义解析的手语翻译系统,其特征包括:特征提取模块,精细层语义解析模块,粗略层语义对齐模块;
所述特征提取模块,是采用深度学习的方法搭建并训练基于2D卷积神经网络的特征提取模型,并使用所述特征提取模型从数据库的长时手语视频中提取视频帧特征;
所述精细层语义解析模块,是对所述视频帧特征中的多个特征进行串联和学习,得到多个视素单元,并对所视素单元进行串联和池化操作,获得多个等长的视觉子动作;再通过聚类操作,将所述视觉子动作转换成一连串的动作块,并从所述动作块中采样出相同维度尺寸的动作块特征;
所述粗略层语义对齐模块,是采用深度学习的方法搭建并训练基于循环神经网络的序列转换模型,用于对所述动作块特征所构成的序列进行转换,得到一连串解码的单词序列,并使用联结主义时序分类模型对所述单词序列进行翻译,从而输出完整的手语自然语句。
2.一种基于多层次语义解析的手语翻译方法,其特征是按如下步骤进行:
步骤1、提取视频帧特征:
采用深度学习的方法搭建并训练基于2D卷积神经网络的特征提取模型,并使用所述特征提取模型从数据库的长时手语视频中提取视频帧特征
Figure FDA0002387856640000011
其中,T表示所述长时手语视频的总帧数,ft代表第t帧的视频帧特征;
步骤2、学习视素单元:
利用式(1)得到第n个的视素单元gn,从而得到视素单元集合
Figure FDA0002387856640000012
N表示视素单元的数量:
Figure FDA0002387856640000013
式(1)中,f2n-1表示第2n-1帧的视频帧特征,f2n表示第2n帧的视频帧特征,
Figure FDA0002387856640000014
表示串联操作,FC(·)表示使用全连接网络进行计算;若视频帧特征总数T为奇数,则第T帧的视频帧特征;
步骤3、获取视觉子动作:
利用式(2)得到视觉子动作集合
Figure FDA0002387856640000015
S表示视觉子动作的数量,hs代表第s个的视觉子动作:
Figure FDA0002387856640000016
式(2)中,
Figure FDA0002387856640000017
表示串联操作,MaxPool(·)表示最大化池化;
步骤4、聚合动作块特征:
步骤4.1:在[0,1]范围内随机设定一个相关系数阈值λ;
步骤4.2:初始化s=1;
步骤4.3:根据式(3)计算所述视觉子动作集合H中的第s个视觉子动作hs与其相邻视觉子动作hs+1的相关系数Qs
Figure FDA0002387856640000021
式(3)中,hi s表示第s个视觉子动作hs所表示的向量中第i个位置的值,hi s+1表示第s+1个视觉子动作hs+1所表示的向量中第i个位置的值,I为视觉子动作所表示的向量的总长度;
步骤4.4:若Qs≤λ,则将对应的相邻视觉子动作hs和hs+1划分为一类后,执行步骤4.5;否则,直接执行步骤4.5;
步骤4.5:将s+1赋值给s后,判断s>S是否成立,若成立,则表示获得所述视觉子动作集合H中的所有相邻的视觉子动作之间的相关系数和分类结果;否则,返回步骤4.3执行;
步骤4.6:将连续多个被划分为一类的视觉子动作作为一个动作块,进而得到动作块序列
Figure FDA0002387856640000022
其中,M表示动作块的数量,km表示第m个动作块;
步骤4.7:对第m个动作块km进行固定维度的采样并得到采样后的动作块特征k′m,从而得到动作块特征序列
Figure FDA0002387856640000023
步骤5、转换单词序列:
步骤5.1:采用深度学习的方法构建基于循环神经网络的序列转换模型RNN,将动作块特征序列K′输入序列转换模型RNN,从而根据式(4)得到转换后的动作块特征序列K″:
Figure FDA0002387856640000024
式(4)中,RNN(·)表示序列转换模型,k″m表示转换后的第m个动作块特征;
步骤5.2:将转换后的动作块特征序列K″输入全连接网络FC(·),从而根据式(3)计算概率得分矩阵P:
Figure FDA0002387856640000025
式(5)中,pm表示转换后的第m个动作块特征k″m对应的概率向量,根据概率向量pm中最大值的位置得到第m个解码单词wm,从而解码出单词序列
Figure FDA0002387856640000026
步骤6、翻译手语句子:
将所述单词序列W中连续重复出现的单词进行合并,再删除所有表示过渡动作的单词,从而得到处理后的单词序列并作为最终翻译输出的手语自然语句。
CN202010103960.6A 2020-02-20 2020-02-20 一种基于多层次语义解析的手语翻译系统及方法 Active CN111339782B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010103960.6A CN111339782B (zh) 2020-02-20 2020-02-20 一种基于多层次语义解析的手语翻译系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010103960.6A CN111339782B (zh) 2020-02-20 2020-02-20 一种基于多层次语义解析的手语翻译系统及方法

Publications (2)

Publication Number Publication Date
CN111339782A true CN111339782A (zh) 2020-06-26
CN111339782B CN111339782B (zh) 2023-03-28

Family

ID=71183461

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010103960.6A Active CN111339782B (zh) 2020-02-20 2020-02-20 一种基于多层次语义解析的手语翻译系统及方法

Country Status (1)

Country Link
CN (1) CN111339782B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171198A (zh) * 2018-01-11 2018-06-15 合肥工业大学 基于非对称多层lstm的连续手语视频自动翻译方法
CN109190578A (zh) * 2018-09-13 2019-01-11 合肥工业大学 基于时域卷积网络与循环神经网络融合的手语视频翻译方法
WO2019114695A1 (zh) * 2017-12-15 2019-06-20 腾讯科技(深圳)有限公司 基于翻译模型的训练方法、翻译方法、计算机设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019114695A1 (zh) * 2017-12-15 2019-06-20 腾讯科技(深圳)有限公司 基于翻译模型的训练方法、翻译方法、计算机设备及存储介质
CN108171198A (zh) * 2018-01-11 2018-06-15 合肥工业大学 基于非对称多层lstm的连续手语视频自动翻译方法
CN109190578A (zh) * 2018-09-13 2019-01-11 合肥工业大学 基于时域卷积网络与循环神经网络融合的手语视频翻译方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
肖焕侯等: "基于C3D和视觉元素的视频描述", 《华南理工大学学报(自然科学版)》 *

Also Published As

Publication number Publication date
CN111339782B (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN110134946B (zh) 一种针对复杂数据的机器阅读理解方法
CN111831789B (zh) 一种基于多层语义特征提取结构的问答文本匹配方法
CN111259804B (zh) 一种基于图卷积的多模态融合手语识别系统及方法
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN113515951B (zh) 基于知识增强注意力网络和组级语义的故事描述生成方法
CN112990296A (zh) 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统
CN113204633B (zh) 一种语义匹配蒸馏方法及装置
CN113076465A (zh) 一种基于深度哈希的通用跨模态检索模型
CN113283336A (zh) 一种文本识别方法与系统
CN111858984A (zh) 一种基于注意力机制哈希检索的图像匹配方法
CN114694255B (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN114154016A (zh) 基于目标空间语义对齐的视频描述方法
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN112990196B (zh) 基于超参数搜索和二阶段训练的场景文字识别方法及系统
CN111582287B (zh) 一种基于充足视觉信息与文本信息的图像描述方法
CN110852066B (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN111339782B (zh) 一种基于多层次语义解析的手语翻译系统及方法
CN114239575B (zh) 语句分析模型的构建方法、语句分析方法、装置、介质和计算设备
CN113609355B (zh) 一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质
CN115019137A (zh) 一种多尺度双流注意力视频语言事件预测的方法及装置
CN114565625A (zh) 一种基于全局特征的矿物图像分割方法及装置
CN114722798A (zh) 一种基于卷积神经网络和注意力机制的反讽识别模型
CN113569867A (zh) 一种图像处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant