CN111259860B - 基于数据自驱动的多阶特征动态融合手语翻译方法 - Google Patents

基于数据自驱动的多阶特征动态融合手语翻译方法 Download PDF

Info

Publication number
CN111259860B
CN111259860B CN202010096391.7A CN202010096391A CN111259860B CN 111259860 B CN111259860 B CN 111259860B CN 202010096391 A CN202010096391 A CN 202010096391A CN 111259860 B CN111259860 B CN 111259860B
Authority
CN
China
Prior art keywords
visual
feature
action
characteristic
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010096391.7A
Other languages
English (en)
Other versions
CN111259860A (zh
Inventor
郭丹
宋培培
刘祥龙
汪萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202010096391.7A priority Critical patent/CN111259860B/zh
Publication of CN111259860A publication Critical patent/CN111259860A/zh
Application granted granted Critical
Publication of CN111259860B publication Critical patent/CN111259860B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于数据自驱动的多阶特征动态融合手语翻译方法,包括:首先提取输入手语视频的多种视觉与动作特征,根据特征之间的多元相关性构建特征池,并根据模型在各特征下的识别概率选择最优特征;再使用数据自驱动的注意力机制进行特征优化,得到视觉与动作注意力特征;接着进行第一阶动态特征融合得到融合特征,以挖掘视觉特征与动作特征之间的互补信息;然后进行第二阶动态特征融合,根据任务状态动态计算不同特征下隐状态的得分融合权重,最后通过得分融合得到手语翻译句子。本发明能够实现对手语视频的连续句子翻译,并提高手语识别的准确性。

Description

基于数据自驱动的多阶特征动态融合手语翻译方法
技术领域
本发明属于多媒体信息处理领域,涉及到计算机视觉、自然语言处理、深度学习等技术,具体地说是一种基于数据自驱动的多阶特征动态融合手语翻译方法。
背景技术
早期的手语识别研究关注于离散性手语识别,其本质上是一种特殊的视频分类问题。随着视频理解技术的发展,连续性手语翻译吸引越来越多的关注。
由于视频数据复杂繁多,现有的手语翻译方法存在很多弊端,尤其是在多特征融合方面。经典的融合方法分为前端融合和后端融合。前端融合是在特征层面上进行的,而后端融合是在决策层上进行的。前端融合常采用直接的特征拼接,或加权转化,甚至映射到高维空间的融合,再输入模型计算;对于后端融合,直接将多个特征直接输入模型获得多个得分,再通过计算相似性匹配分布,或者是多分类器权重计算,基于图结构学习等方式,最终获得权重相加后的总得分。前者注重互补信息的原始保留;后者侧重各特征在决策得分层面上,对互补信息上的启发性。各有优点,也都存在一些缺点,如固定的学习参数并不灵活;传统方法在融合优化上花费了过多的时间进行复杂计算;更重要的是,无效特征可能主导融合并降低准确性。一旦将所有特征都考虑在内,融合过程将是不可逆的。不好的特征带来的负面影响无法消除,从而导致了手语翻译的结果连贯性差、精确度较低。
发明内容
本发明针对现有技术中存在的不足之处,提供一种基于数据自驱动的多阶特征动态融合手语翻译方法,以期能够实现对手语视频的连续句子翻译,并提高手语识别的准确性。
本发明为解决技术问题采用如下技术方案:
本发明一种基于数据自驱动的多阶特征动态融合手语翻译方法的特点是按如下步骤进行:
步骤1、构建特征池与特征择优:
步骤1.1、从手语视频数据库任取一手语视频Q,并提取所述手语视频Q的X种视觉特征与Y种动作特征,得到视觉特征集合Fv与动作特征集合Fm
步骤1.2、定义变量x,并初始化x=2;定义第x个视觉拼接特征集合为
Figure GDA0003319586430000011
并有F1 v=Fv
步骤1.3、从所述视觉特征集合Fv中任取x种不同的视觉特征并按序拼接为一种新的视觉特征,从而得到由
Figure GDA0003319586430000021
种视觉特征组成的第x个视觉拼接特征集合
Figure GDA0003319586430000022
步骤1.4、将x+1赋值给x,并返回步骤1.3顺序执行,直到x=X为止,从而得到X个视觉拼接特征集合F1 v,...,
Figure GDA0003319586430000023
步骤1.5、定义变量y,并初始化y=2;定义第y个动作拼接特征集合为
Figure GDA0003319586430000024
并有F1 m=Fm
步骤1.6、从所述动作特征集合Fm中任取y种不同的动作特征并按序拼接为一种新的动作特征,从而得到由
Figure GDA0003319586430000025
种动作特征组成的第y个动作拼接特征集合
Figure GDA0003319586430000026
步骤1.7、将y+1赋值给y,并返回步骤1.6顺序执行,直到y=Y为止,从而得到Y个动作拼接特征集合F1 m,...,
Figure GDA0003319586430000027
步骤1.8、将所述X个视觉拼接特征集合F1 v,...,
Figure GDA0003319586430000028
中所有视觉特征构成视觉特征池,视觉特征池中视觉特征的总数记为X';将所述Y个动作拼接特征集合F1 m,...,
Figure GDA0003319586430000029
中所有动作特征构成动作特征池,动作特征池中动作特征的总数记为Y';
步骤1.9、从所述视觉特征池中随机选择一个视觉特征并作为最优视觉特征序列
Figure GDA00033195864300000210
从动作特征池中随机选择一个动作特征并作为最优动作特征序列
Figure GDA00033195864300000211
其中,vi表示所述最优视觉特征序列中第i个视觉特征,1≤i≤Kv,mj表示所述最优动作特征序列中第j个动作特征,1≤j≤Km,Kv与Km分别为所述最优视觉特征序列和最优动作特征序列的总长度;
步骤2、特征优化:
步骤2.1、定义当前时刻为t,并初始化t=1;
步骤2.2、利用式(1)实施数据自驱动的注意力操作,得到t时刻的视觉注意力特征Vt和动作注意力特征Mt
Figure GDA00033195864300000212
式(1)中,
Figure GDA00033195864300000213
为t时刻所述最优视觉特征序列中第i个视觉特征vi对应的注意力权值,并有:
Figure GDA0003319586430000031
ht-1为多阶特征动态融合手语翻译模型在t-1时刻的隐状态,当t=1时,ht-1=0,MLP(·)表示多层感知机操作;
Figure GDA0003319586430000032
为t时刻所述最优动作特征序列中第j个视觉特征mj对应的注意力权值,并有
Figure GDA0003319586430000033
步骤3、第一阶特征动态融合:
根据式(2)将所述t时刻的视觉注意力特征Vt和动作注意力特征Mt结合起来,得到t时刻的融合特征Ct
Figure GDA0003319586430000034
式(2)中,
Figure GDA0003319586430000035
为向量同维度的相加操作;μtt分别为所述t时刻的视觉注意力特征Vt和动作注意力特征Mt的数据自驱动融合权重,并有:[μtt]=softmax(ht-1[Vt;Mt]T),其中[;]表示按行拼接操作,[·]T表示矩阵转置操作;
步骤4、第二阶特征动态融合:
步骤4.1、将所述t时刻视觉注意力特征Vt、动作注意力特征Mt和融合特征Ct分别输入三个相互独立的长短期记忆人工神经网络LSTM中,得到三个对应的隐状态,并构成待融合隐状态合集
Figure GDA0003319586430000036
利用式(3)得到所述待融合隐状态合集中Ht每个隐状态对应的得分融合权重
Figure GDA0003319586430000037
Figure GDA0003319586430000038
Figure GDA0003319586430000039
Figure GDA00033195864300000310
式(3)中,softmax(·)代表路径选择概率,正切函数σ(·)代表路径相关性融合权重;W1,W2是两个需要学习的参数矩阵,b1,b2是两个需要学习的偏置参数;
步骤4.2、利用式(4)得到t时刻的多阶特征动态融合手语翻译模型的隐状态ht
Figure GDA00033195864300000311
步骤4.3、利用式(5)得到t时刻多阶特征动态融合手语翻译模型的识别概率pt
pt=softmax(Weht)(5)
式(5)中,We为需要学习的映射矩阵;
步骤4.4、将t+1赋值给t,并返回步骤2.2顺序执行,直到t=T为止,T为生成的手语翻译句子的总长度,从而得到识别概率序列{p1,p2,...,pT};
步骤4.5、计算识别概率序列{p1,p2,...,pT}中每个识别概率的方差e1,e2,...,eT,从而得到识别概率序列平均方差
Figure GDA0003319586430000041
步骤5、在所述动作特征池中的所有Y'个动作特征中随机选择一个动作特征,并在所选择的动作特征下,计算视觉特征池中的所有X'个视觉特征的多阶特征动态融合手语翻译模型的识别概率序列平均方差,再将平均方差最大的识别概率序列对应的视觉特征作为最优视觉特征序列,并赋值给
Figure GDA0003319586430000042
同理,在所述视觉特征池中的所有X'个动作特征中随机选择一个视觉特征,并在所选择的视觉特征下,计算动作特征池中的所Y'个动作特征的多阶特征动态融合手语翻译模型的识别概率序列平均方差,再将平均方差最大的识别概率序列对应的动作特征作为最优动作特征序列,并赋值给
Figure GDA0003319586430000043
步骤6、将最优视觉特征序列
Figure GDA0003319586430000044
与最优动作特征序列
Figure GDA0003319586430000045
带入步骤2.1-步骤4.4中顺序执行,从而得到最终的识别概率序列{p1′,p′2,...,p′T};
步骤7、根据式(6)得到t时刻生成的手语翻译单词yt,从而得到所述手语视频Q的手语翻译句子{y1,y2,...,yT}:
yt=argmax(pt′)(6)
式(6)中,argmax(·)表示求取识别概率中最大值对应的位置索引。
与已有技术相比,本发明的有益效果体现在:
1、本发明利用手语视频的不同视觉特征或动作特征之间的多元相关性,扩充了手语视频特征种类,并根据手语翻译模型在不同特征下的识别概率进行特征选择,挑选出性能最佳的手语视频特征,从而提高了手语翻译模型的可靠性。
2、本发明采用数据自驱动的注意力机制处理手语视频的视觉特征与动作特征,推断每个视觉特征和动作特征与前一时刻任务状态的相关性,从而增强了特征的表征能力。
3、本发明利用手语视频的视觉特征与动作特征对视频内容的不同表现方式,以自学习的方式挖掘视觉特征与动作特征之间的互补信息,提高了手语翻译模型对手语视频的理解能力。
4、本发明采用的数据自驱动特征动态融合方法,能够根据任务状态自适应地选择不同的融合模式,学习多种特征之间的相关性约束,促进了所有以视觉特征为中心、以动作特征为中心或以融合特征为中心的实体识别,从而提升了手语识别的准确性。
附图说明
图1为本发明的结构示意图;
图2为本发明的第一阶特征动态融合操作流程图;
图3为本发明的第二阶特征动态融合操作流程图。
具体实施方式
本实施例中,如图1所示,一种基于数据自驱动的多阶特征动态融合手语翻译方法包括:首先提取输入手语视频的多种视觉与动作特征,根据特征之间的多元相关性构建特征池,并根据模型在各特征下的识别概率选择最优特征;再使用数据自驱动的注意力机制进行特征优化,得到视觉与动作注意力特征;接着进行第一阶动态特征融合得到融合特征,以挖掘视觉特征与动作特征之间的互补信息;然后进行第二阶动态特征融合,根据任务状态动态计算不同特征下隐状态的得分融合权重,最后通过得分融合得到手语翻译句子;具体的说,是按如下步骤进行:
步骤1、构建特征池与特征择优:
步骤1.1、从手语视频数据库任取一手语视频Q,并提取手语视频Q的X种视觉特征与Y种动作特征,得到视觉特征集合Fv与动作特征集合Fm;卷积神经网络常用来提取视频帧的视觉特征,例如VGG网络、ResNet网络等;视频的动作特征包括光流特征、C3D特征、CDC特征等;
步骤1.2、定义变量x,并初始化x=2;定义第x个视觉拼接特征集合为
Figure GDA0003319586430000051
并有F1 v=Fv
步骤1.3、从视觉特征集合Fv中任取x种不同的视觉特征并按序拼接为一种新的视觉特征,从而得到由
Figure GDA0003319586430000052
种视觉特征组成的第x个视觉拼接特征集合
Figure GDA0003319586430000053
步骤1.4、将x+1赋值给x,并返回步骤1.3顺序执行,直到x=X为止,从而得到X个视觉拼接特征集合F1 v,...,
Figure GDA0003319586430000054
步骤1.5、定义变量y,并初始化y=2;定义第y个动作拼接特征集合为
Figure GDA0003319586430000055
并有F1 m=Fm
步骤1.6、从动作特征集合Fm中任取y种不同的动作特征并按序拼接为一种新的动作特征,从而得到由
Figure GDA0003319586430000061
种动作特征组成的第y个动作拼接特征集合
Figure GDA0003319586430000062
步骤1.7、将y+1赋值给y,并返回步骤1.6顺序执行,直到y=Y为止,从而得到Y个动作拼接特征集合F1 m,...,
Figure GDA0003319586430000063
步骤1.8、将X个视觉拼接特征集合F1 v,...,
Figure GDA0003319586430000064
中所有视觉特征构成视觉特征池,视觉特征池中视觉特征的总数记为X';将Y个动作拼接特征集合F1 m,...,
Figure GDA0003319586430000065
中所有动作特征构成动作特征池,动作特征池中动作特征的总数记为Y';
步骤1.9、从视觉特征池中随机选择一个视觉特征并作为最优视觉特征序列
Figure GDA0003319586430000066
从动作特征池中随机选择一个动作特征并作为最优动作特征序列
Figure GDA0003319586430000067
其中,vi表示最优视觉特征序列中第i个视觉特征,1≤i≤Kv,mj表示最优动作特征序列中第j个动作特征,1≤j≤Km,Kv与Km分别为最优视觉特征序列和最优动作特征序列的总长度;本实施例中,手语视频Q被划分为等长的视频片段,Kv=Km等于视频片段的个数;
Figure GDA0003319586430000068
步骤2、特征优化:
步骤2.1、定义当前时刻为t,并初始化t=1;
步骤2.2、利用式(1)实施数据自驱动的注意力操作,得到t时刻的视觉注意力特征Vt和动作注意力特征Mt
Figure GDA0003319586430000069
式(1)中,
Figure GDA00033195864300000610
为t时刻最优视觉特征序列中第i个视觉特征vi对应的注意力权值,并有:
Figure GDA00033195864300000611
ht-1为多阶特征动态融合手语翻译模型在t-1时刻的隐状态,当t=1时,ht-1=0,MLP(·)表示多层感知机操作;
Figure GDA00033195864300000612
为t时刻最优动作特征序列中第j个视觉特征mj对应的注意力权值,并有
Figure GDA00033195864300000613
步骤3、第一阶特征动态融合:
本实施例中,如图2所示,根据式(2)将t时刻的视觉注意力特征Vt和动作注意力特征Mt结合起来,得到t时刻的融合特征Ct
Figure GDA0003319586430000071
式(2)中,
Figure GDA0003319586430000072
为向量同维度的相加操作;μtt分别为t时刻的视觉注意力特征Vt和动作注意力特征Mt的数据自驱动融合权重,并有:[μtt]=softmax(ht-1[Vt;Mt]T),其中[;]表示按行拼接操作,[·]T表示矩阵转置操作;
步骤4、第二阶特征动态融合:
步骤4.1、本实施例中,如图3所示,将t时刻视觉注意力特征Vt、动作注意力特征Mt和融合特征Ct分别输入三个相互独立的长短期记忆人工神经网络LSTM中,得到三个对应的隐状态,并构成待融合隐状态合集Ht=[ht V;ht M;ht C];
利用式(3)得到待融合隐状态合集中Ht每个隐状态对应的得分融合权重
Figure GDA0003319586430000073
Figure GDA0003319586430000074
Figure GDA0003319586430000075
式(3)中,softmax(·)代表路径选择概率,正切函数σ(·)代表路径相关性融合权重;W1,W2是两个需要学习的参数矩阵,b1,b2是两个需要学习的偏置参数;
步骤4.2、利用式(4)得到t时刻的多阶特征动态融合手语翻译模型的隐状态ht
Figure GDA0003319586430000076
步骤4.3、利用式(5)得到t时刻多阶特征动态融合手语翻译模型的识别概率pt
pt=softmax(Weht)(5)
式(5)中,We为需要学习的映射矩阵;在本实施例中,利用手语翻译数据库中的所有单词构建单词表,并将单词表中所有单词按照出现次数从高到低进行编号,从而构建单词索引表;本实施例中,单词索引表中共有279个单词,
Figure GDA0003319586430000077
步骤4.4、将t+1赋值给t,并返回步骤2.2顺序执行,直到t=T为止,T为生成的手语翻译句子的总长度,本实施例中,T=Kv=Km;从而得到识别概率序列{p1,p2,...,pT};
步骤4.5、计算识别概率序列{p1,p2,...,pT}中每个识别概率的方差e1,e2,...,eT,从而得到识别概率序列平均方差
Figure GDA0003319586430000081
步骤5、在动作特征池中的所有Y'个动作特征中随机选择一个动作特征,并在所选择的动作特征下,计算视觉特征池中的所有X'个视觉特征的多阶特征动态融合手语翻译模型的识别概率序列平均方差,再将平均方差最大的识别概率序列对应的视觉特征作为最优视觉特征序列,并赋值给
Figure GDA0003319586430000082
本实施例中,采用ResNet网络提取手语视频的视觉特征为最优视觉特征;
同理,在视觉特征池中的所有X'个动作特征中随机选择一个视觉特征,并在所选择的视觉特征下,计算动作特征池中的所Y'个动作特征的多阶特征动态融合手语翻译模型的识别概率序列平均方差,再将平均方差最大的识别概率序列对应的动作特征作为最优动作特征序列,并赋值给
Figure GDA0003319586430000083
本实施例中,采用C3D网络提取手语视频的动作特征为最优动作特征;
步骤6、将最优视觉特征序列
Figure GDA0003319586430000084
与最优动作特征序列
Figure GDA0003319586430000085
带入步骤2.1-步骤4.4中顺序执行,从而得到最终的识别概率序列{p1′,p′2,...,p′T};
步骤7、根据式(6)得到t时刻生成的手语翻译单词yt,从而得到手语视频Q的手语翻译句子{y1,y2,...,yT}:
yt=argmax(pt′)(6)
式(6)中,argmax(·)表示求取识别概率中最大值对应的位置索引;本实施例中,利用构建的单词索引表将得到的手语翻译句子{y1,y2,...,yT}转化为自然语言句子。

Claims (1)

1.一种基于数据自驱动的多阶特征动态融合手语翻译方法,其特征是按如下步骤进行:
步骤1、构建特征池与特征择优:
步骤1.1、从手语视频数据库任取一手语视频Q,并提取所述手语视频Q的X种视觉特征与Y种动作特征,得到视觉特征集合Fv与动作特征集合Fm
步骤1.2、定义变量x,并初始化x=2;定义第x个视觉拼接特征集合为
Figure FDA0003319586420000011
并有F1 v=Fv
步骤1.3、从所述视觉特征集合Fv中任取x种不同的视觉特征并按序拼接为一种新的视觉特征,从而得到由
Figure FDA0003319586420000012
种视觉特征组成的第x个视觉拼接特征集合
Figure FDA0003319586420000013
步骤1.4、将x+1赋值给x,并返回步骤1.3顺序执行,直到x=X为止,从而得到X个视觉拼接特征集合
Figure FDA0003319586420000014
步骤1.5、定义变量y,并初始化y=2;定义第y个动作拼接特征集合为
Figure FDA0003319586420000015
并有F1 m=Fm
步骤1.6、从所述动作特征集合Fm中任取y种不同的动作特征并按序拼接为一种新的动作特征,从而得到由
Figure FDA0003319586420000016
种动作特征组成的第y个动作拼接特征集合
Figure FDA0003319586420000017
步骤1.7、将y+1赋值给y,并返回步骤1.6顺序执行,直到y=Y为止,从而得到Y个动作拼接特征集合
Figure FDA0003319586420000018
步骤1.8、将所述X个视觉拼接特征集合
Figure FDA0003319586420000019
中所有视觉特征构成视觉特征池,视觉特征池中视觉特征的总数记为X';将所述Y个动作拼接特征集合
Figure FDA00033195864200000110
中所有动作特征构成动作特征池,动作特征池中动作特征的总数记为Y';
步骤1.9、从所述视觉特征池中随机选择一个视觉特征并作为最优视觉特征序列
Figure FDA00033195864200000111
从动作特征池中随机选择一个动作特征并作为最优动作特征序列
Figure FDA00033195864200000112
其中,vi表示所述最优视觉特征序列中第i个视觉特征,1≤i≤Kv,mj表示所述最优动作特征序列中第j个动作特征,1≤j≤Km,Kv与Km分别为所述最优视觉特征序列和最优动作特征序列的总长度;
步骤2、特征优化:
步骤2.1、定义当前时刻为t,并初始化t=1;
步骤2.2、利用式(1)实施数据自驱动的注意力操作,得到t时刻的视觉注意力特征Vt和动作注意力特征Mt
Figure FDA0003319586420000021
式(1)中,
Figure FDA0003319586420000022
为t时刻所述最优视觉特征序列中第i个视觉特征vi对应的注意力权值,并有:
Figure FDA0003319586420000023
ht-1为多阶特征动态融合手语翻译模型在t-1时刻的隐状态,当t=1时,ht-1=0,MLP(·)表示多层感知机操作;
Figure FDA0003319586420000024
为t时刻所述最优动作特征序列中第j个视觉特征mj对应的注意力权值,并有
Figure FDA0003319586420000025
步骤3、第一阶特征动态融合:
根据式(2)将所述t时刻的视觉注意力特征Vt和动作注意力特征Mt结合起来,得到t时刻的融合特征Ct
Figure FDA0003319586420000026
式(2)中,
Figure FDA0003319586420000027
为向量同维度的相加操作;μtt分别为所述t时刻的视觉注意力特征Vt和动作注意力特征Mt的数据自驱动融合权重,并有:[μtt]=softmax(ht-1[Vt;Mt]T),其中[;]表示按行拼接操作,[·]T表示矩阵转置操作;
步骤4、第二阶特征动态融合:
步骤4.1、将所述t时刻视觉注意力特征Vt、动作注意力特征Mt和融合特征Ct分别输入三个相互独立的长短期记忆人工神经网络LSTM中,得到三个对应的隐状态,并构成待融合隐状态合集
Figure FDA0003319586420000028
利用式(3)得到所述待融合隐状态合集中Ht每个隐状态对应的得分融合权重
Figure FDA0003319586420000029
Figure FDA00033195864200000210
Figure FDA00033195864200000211
式(3)中,softmax(·)代表路径选择概率,正切函数σ(·)代表路径相关性融合权重;W1,W2是两个需要学习的参数矩阵,b1,b2是两个需要学习的偏置参数;
步骤4.2、利用式(4)得到t时刻的多阶特征动态融合手语翻译模型的隐状态ht
Figure FDA0003319586420000031
步骤4.3、利用式(5)得到t时刻多阶特征动态融合手语翻译模型的识别概率pt
pt=softmax(Weht) (5)
式(5)中,We为需要学习的映射矩阵;
步骤4.4、将t+1赋值给t,并返回步骤2.2顺序执行,直到t=T为止,T为生成的手语翻译句子的总长度,从而得到识别概率序列{p1,p2,...,pT};
步骤4.5、计算识别概率序列{p1,p2,...,pT}中每个识别概率的方差e1,e2,...,eT,从而得到识别概率序列平均方差
Figure FDA0003319586420000032
步骤5、在所述动作特征池中的所有Y'个动作特征中随机选择一个动作特征,并在所选择的动作特征下,计算视觉特征池中的所有X'个视觉特征的多阶特征动态融合手语翻译模型的识别概率序列平均方差,再将平均方差最大的识别概率序列对应的视觉特征作为最优视觉特征序列,并赋值给
Figure FDA0003319586420000033
同理,在所述视觉特征池中的所有X'个动作特征中随机选择一个视觉特征,并在所选择的视觉特征下,计算动作特征池中的所Y'个动作特征的多阶特征动态融合手语翻译模型的识别概率序列平均方差,再将平均方差最大的识别概率序列对应的动作特征作为最优动作特征序列,并赋值给
Figure FDA0003319586420000034
步骤6、将最优视觉特征序列
Figure FDA0003319586420000035
与最优动作特征序列
Figure FDA0003319586420000036
带入步骤2.1-步骤4.4中顺序执行,从而得到最终的识别概率序列{p′1,p′2,...,p′T};
步骤7、根据式(6)得到t时刻生成的手语翻译单词yt,从而得到所述手语视频Q的手语翻译句子{y1,y2,...,yT}:
yt=argmax(p′t) (6)
式(6)中,argmax(·)表示求取识别概率中最大值对应的位置索引。
CN202010096391.7A 2020-02-17 2020-02-17 基于数据自驱动的多阶特征动态融合手语翻译方法 Active CN111259860B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010096391.7A CN111259860B (zh) 2020-02-17 2020-02-17 基于数据自驱动的多阶特征动态融合手语翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010096391.7A CN111259860B (zh) 2020-02-17 2020-02-17 基于数据自驱动的多阶特征动态融合手语翻译方法

Publications (2)

Publication Number Publication Date
CN111259860A CN111259860A (zh) 2020-06-09
CN111259860B true CN111259860B (zh) 2022-03-15

Family

ID=70949339

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010096391.7A Active CN111259860B (zh) 2020-02-17 2020-02-17 基于数据自驱动的多阶特征动态融合手语翻译方法

Country Status (1)

Country Link
CN (1) CN111259860B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792607B (zh) * 2021-08-19 2024-01-05 辽宁科技大学 基于Transformer的神经网络手语分类识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409231A (zh) * 2018-09-27 2019-03-01 合肥工业大学 基于自适应隐马尔可夫的多特征融合手语识别方法
CN110472548A (zh) * 2019-08-08 2019-11-19 中国科学技术大学 一种基于语法分类器的视频连续手语识别方法及系统
CN110728203A (zh) * 2019-09-23 2020-01-24 清华大学 基于深度学习的手语翻译视频生成方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9672418B2 (en) * 2015-02-06 2017-06-06 King Fahd University Of Petroleum And Minerals Arabic sign language recognition using multi-sensor data fusion
US10489639B2 (en) * 2018-02-12 2019-11-26 Avodah Labs, Inc. Automated sign language translation and communication using multiple input and output modalities
CN109190578B (zh) * 2018-09-13 2019-10-18 合肥工业大学 基于时域卷积网络与循环神经网络融合的手语视频翻译方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409231A (zh) * 2018-09-27 2019-03-01 合肥工业大学 基于自适应隐马尔可夫的多特征融合手语识别方法
CN110472548A (zh) * 2019-08-08 2019-11-19 中国科学技术大学 一种基于语法分类器的视频连续手语识别方法及系统
CN110728203A (zh) * 2019-09-23 2020-01-24 清华大学 基于深度学习的手语翻译视频生成方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Chinese sign language recognition based on gray-level co-occurrence matrix and other multi-features fusion;Yulong Li等;《2009 4th IEEE Conference on Industrial Electronics and Applications》;20090630;第1569-1572页 *
PARALLEL TEMPORAL ENCODER FOR SIGN LANGUAGE TRANSLATION;Peipei Song等;《2019 IEEE International Conference on Image Processing (ICIP)》;20190826;第1915-1919页 *
基于Kinect 3D节点的连续HMM手语识别;沈娟等;《合肥工业大学学报(自然科学版)》;20170531;第40卷(第5期);第638-642页 *
多目标优化的静态手语识别算法研究;赵一丹等;《计算机技术与发展》;20190228;第29卷(第2期);第54-59页 *

Also Published As

Publication number Publication date
CN111259860A (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
Han et al. A survey on metaheuristic optimization for random single-hidden layer feedforward neural network
CN108829677B (zh) 一种基于多模态注意力的图像标题自动生成方法
CN106649561B (zh) 面向税务咨询业务的智能问答系统
CN112528676B (zh) 文档级别的事件论元抽取方法
CN110046656B (zh) 基于深度学习的多模态场景识别方法
CN112699247B (zh) 一种基于多类交叉熵对比补全编码的知识表示学习方法
CN111414461B (zh) 一种融合知识库与用户建模的智能问答方法及系统
CN112347268A (zh) 一种文本增强的知识图谱联合表示学习方法及装置
Li et al. Improving convolutional neural network for text classification by recursive data pruning
CN111324765A (zh) 基于深度级联跨模态相关性的细粒度草图图像检索方法
CN112015868A (zh) 基于知识图谱补全的问答方法
CN112527993B (zh) 一种跨媒体层次化深度视频问答推理框架
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN111597341B (zh) 一种文档级关系抽取方法、装置、设备及存储介质
CN113076465A (zh) 一种基于深度哈希的通用跨模态检索模型
WO2022218139A1 (zh) 融合注意力机制的个性化搜索方法和搜索系统
CN115424177A (zh) 一种基于增量学习的孪生网络目标跟踪的方法
CN114357221B (zh) 一种基于图像分类的自监督主动学习方法
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
CN111563378A (zh) 一种联合学习的多文档阅读理解实现方法
CN110704665A (zh) 一种基于视觉注意力机制的图像特征表达方法及系统
CN111259860B (zh) 基于数据自驱动的多阶特征动态融合手语翻译方法
CN111582287B (zh) 一种基于充足视觉信息与文本信息的图像描述方法
CN114943216B (zh) 基于图注意力网络的案件微博属性级观点挖掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant