CN111259860B

CN111259860B - 基于数据自驱动的多阶特征动态融合手语翻译方法

Info

Publication number: CN111259860B
Application number: CN202010096391.7A
Authority: CN
Inventors: 郭丹; 宋培培; 刘祥龙; 汪萌
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2020-02-17
Filing date: 2020-02-17
Publication date: 2022-03-15
Anticipated expiration: 2040-02-17
Also published as: CN111259860A

Abstract

本发明公开了一种基于数据自驱动的多阶特征动态融合手语翻译方法，包括：首先提取输入手语视频的多种视觉与动作特征，根据特征之间的多元相关性构建特征池，并根据模型在各特征下的识别概率选择最优特征；再使用数据自驱动的注意力机制进行特征优化，得到视觉与动作注意力特征；接着进行第一阶动态特征融合得到融合特征，以挖掘视觉特征与动作特征之间的互补信息；然后进行第二阶动态特征融合，根据任务状态动态计算不同特征下隐状态的得分融合权重，最后通过得分融合得到手语翻译句子。本发明能够实现对手语视频的连续句子翻译，并提高手语识别的准确性。

Description

基于数据自驱动的多阶特征动态融合手语翻译方法

技术领域

本发明属于多媒体信息处理领域，涉及到计算机视觉、自然语言处理、深度学习等技术，具体地说是一种基于数据自驱动的多阶特征动态融合手语翻译方法。

背景技术

早期的手语识别研究关注于离散性手语识别，其本质上是一种特殊的视频分类问题。随着视频理解技术的发展，连续性手语翻译吸引越来越多的关注。

由于视频数据复杂繁多，现有的手语翻译方法存在很多弊端，尤其是在多特征融合方面。经典的融合方法分为前端融合和后端融合。前端融合是在特征层面上进行的，而后端融合是在决策层上进行的。前端融合常采用直接的特征拼接，或加权转化，甚至映射到高维空间的融合，再输入模型计算；对于后端融合，直接将多个特征直接输入模型获得多个得分，再通过计算相似性匹配分布，或者是多分类器权重计算，基于图结构学习等方式，最终获得权重相加后的总得分。前者注重互补信息的原始保留；后者侧重各特征在决策得分层面上，对互补信息上的启发性。各有优点，也都存在一些缺点，如固定的学习参数并不灵活；传统方法在融合优化上花费了过多的时间进行复杂计算；更重要的是，无效特征可能主导融合并降低准确性。一旦将所有特征都考虑在内，融合过程将是不可逆的。不好的特征带来的负面影响无法消除，从而导致了手语翻译的结果连贯性差、精确度较低。

发明内容

本发明针对现有技术中存在的不足之处，提供一种基于数据自驱动的多阶特征动态融合手语翻译方法，以期能够实现对手语视频的连续句子翻译，并提高手语识别的准确性。

本发明为解决技术问题采用如下技术方案：

本发明一种基于数据自驱动的多阶特征动态融合手语翻译方法的特点是按如下步骤进行：

步骤1、构建特征池与特征择优：

步骤1.1、从手语视频数据库任取一手语视频Q，并提取所述手语视频Q的X种视觉特征与Y种动作特征，得到视觉特征集合F^v与动作特征集合F^m；

步骤1.2、定义变量x，并初始化x＝2；定义第x个视觉拼接特征集合为

并有F₁ ^v＝F^v；

步骤1.3、从所述视觉特征集合F^v中任取x种不同的视觉特征并按序拼接为一种新的视觉特征，从而得到由

种视觉特征组成的第x个视觉拼接特征集合

步骤1.4、将x+1赋值给x，并返回步骤1.3顺序执行，直到x＝X为止，从而得到X个视觉拼接特征集合F₁ ^v,...,

步骤1.5、定义变量y，并初始化y＝2；定义第y个动作拼接特征集合为

并有F₁ ^m＝F^m；

步骤1.6、从所述动作特征集合F^m中任取y种不同的动作特征并按序拼接为一种新的动作特征，从而得到由

种动作特征组成的第y个动作拼接特征集合

步骤1.7、将y+1赋值给y，并返回步骤1.6顺序执行，直到y＝Y为止，从而得到Y个动作拼接特征集合F₁ ^m,...,

步骤1.8、将所述X个视觉拼接特征集合F₁ ^v,...,

中所有视觉特征构成视觉特征池，视觉特征池中视觉特征的总数记为X'；将所述Y个动作拼接特征集合F₁ ^m,...,

中所有动作特征构成动作特征池，动作特征池中动作特征的总数记为Y'；

步骤1.9、从所述视觉特征池中随机选择一个视觉特征并作为最优视觉特征序列

从动作特征池中随机选择一个动作特征并作为最优动作特征序列

其中，v_i表示所述最优视觉特征序列中第i个视觉特征，1≤i≤K_v，m_j表示所述最优动作特征序列中第j个动作特征，1≤j≤K_m，K_v与K_m分别为所述最优视觉特征序列和最优动作特征序列的总长度；

步骤2、特征优化：

步骤2.1、定义当前时刻为t，并初始化t＝1；

步骤2.2、利用式(1)实施数据自驱动的注意力操作，得到t时刻的视觉注意力特征V_t和动作注意力特征M_t；

式(1)中，

为t时刻所述最优视觉特征序列中第i个视觉特征v_i对应的注意力权值，并有：

h_t-1为多阶特征动态融合手语翻译模型在t-1时刻的隐状态，当t＝1时，h_t-1＝0，MLP(·)表示多层感知机操作；

为t时刻所述最优动作特征序列中第j个视觉特征m_j对应的注意力权值，并有

步骤3、第一阶特征动态融合：

根据式(2)将所述t时刻的视觉注意力特征V_t和动作注意力特征M_t结合起来，得到t时刻的融合特征C_t；

式(2)中，

为向量同维度的相加操作；μ_t,η_t分别为所述t时刻的视觉注意力特征V_t和动作注意力特征M_t的数据自驱动融合权重，并有：[μ_t,η_t]＝softmax(h_t-1[V_t；M_t]^T)，其中[；]表示按行拼接操作，[·]^T表示矩阵转置操作；

步骤4、第二阶特征动态融合：

步骤4.1、将所述t时刻视觉注意力特征V_t、动作注意力特征M_t和融合特征C_t分别输入三个相互独立的长短期记忆人工神经网络LSTM中，得到三个对应的隐状态，并构成待融合隐状态合集

利用式(3)得到所述待融合隐状态合集中H_t每个隐状态对应的得分融合权重

和

式(3)中，softmax(·)代表路径选择概率，正切函数σ(·)代表路径相关性融合权重；W₁,W₂是两个需要学习的参数矩阵，b₁,b₂是两个需要学习的偏置参数；

步骤4.2、利用式(4)得到t时刻的多阶特征动态融合手语翻译模型的隐状态h_t；

步骤4.3、利用式(5)得到t时刻多阶特征动态融合手语翻译模型的识别概率p_t；

p_t＝softmax(W_eh_t)(5)

式(5)中，W_e为需要学习的映射矩阵；

步骤4.4、将t+1赋值给t，并返回步骤2.2顺序执行，直到t＝T为止，T为生成的手语翻译句子的总长度，从而得到识别概率序列{p₁,p₂,...,p_T}；

步骤4.5、计算识别概率序列{p₁,p₂,...,p_T}中每个识别概率的方差e₁,e₂,...,e_T，从而得到识别概率序列平均方差

步骤5、在所述动作特征池中的所有Y'个动作特征中随机选择一个动作特征，并在所选择的动作特征下，计算视觉特征池中的所有X'个视觉特征的多阶特征动态融合手语翻译模型的识别概率序列平均方差，再将平均方差最大的识别概率序列对应的视觉特征作为最优视觉特征序列，并赋值给

同理，在所述视觉特征池中的所有X'个动作特征中随机选择一个视觉特征，并在所选择的视觉特征下，计算动作特征池中的所Y'个动作特征的多阶特征动态融合手语翻译模型的识别概率序列平均方差，再将平均方差最大的识别概率序列对应的动作特征作为最优动作特征序列，并赋值给

步骤6、将最优视觉特征序列

与最优动作特征序列

带入步骤2.1-步骤4.4中顺序执行，从而得到最终的识别概率序列{p₁′,p′₂,...,p′_T}；

步骤7、根据式(6)得到t时刻生成的手语翻译单词y_t，从而得到所述手语视频Q的手语翻译句子{y₁,y₂,...,y_T}：

y_t＝argmax(p_t′)(6)

式(6)中，argmax(·)表示求取识别概率中最大值对应的位置索引。

与已有技术相比，本发明的有益效果体现在：

1、本发明利用手语视频的不同视觉特征或动作特征之间的多元相关性，扩充了手语视频特征种类，并根据手语翻译模型在不同特征下的识别概率进行特征选择，挑选出性能最佳的手语视频特征，从而提高了手语翻译模型的可靠性。

2、本发明采用数据自驱动的注意力机制处理手语视频的视觉特征与动作特征，推断每个视觉特征和动作特征与前一时刻任务状态的相关性，从而增强了特征的表征能力。

3、本发明利用手语视频的视觉特征与动作特征对视频内容的不同表现方式，以自学习的方式挖掘视觉特征与动作特征之间的互补信息，提高了手语翻译模型对手语视频的理解能力。

4、本发明采用的数据自驱动特征动态融合方法，能够根据任务状态自适应地选择不同的融合模式，学习多种特征之间的相关性约束，促进了所有以视觉特征为中心、以动作特征为中心或以融合特征为中心的实体识别，从而提升了手语识别的准确性。

附图说明

图1为本发明的结构示意图；

图2为本发明的第一阶特征动态融合操作流程图；

图3为本发明的第二阶特征动态融合操作流程图。

具体实施方式

本实施例中，如图1所示，一种基于数据自驱动的多阶特征动态融合手语翻译方法包括：首先提取输入手语视频的多种视觉与动作特征，根据特征之间的多元相关性构建特征池，并根据模型在各特征下的识别概率选择最优特征；再使用数据自驱动的注意力机制进行特征优化，得到视觉与动作注意力特征；接着进行第一阶动态特征融合得到融合特征，以挖掘视觉特征与动作特征之间的互补信息；然后进行第二阶动态特征融合，根据任务状态动态计算不同特征下隐状态的得分融合权重，最后通过得分融合得到手语翻译句子；具体的说，是按如下步骤进行：

步骤1、构建特征池与特征择优：

步骤1.1、从手语视频数据库任取一手语视频Q，并提取手语视频Q的X种视觉特征与Y种动作特征，得到视觉特征集合F^v与动作特征集合F^m；卷积神经网络常用来提取视频帧的视觉特征，例如VGG网络、ResNet网络等；视频的动作特征包括光流特征、C3D特征、CDC特征等；

并有F₁ ^v＝F^v；

步骤1.3、从视觉特征集合F^v中任取x种不同的视觉特征并按序拼接为一种新的视觉特征，从而得到由

种视觉特征组成的第x个视觉拼接特征集合

并有F₁ ^m＝F^m；

步骤1.6、从动作特征集合F^m中任取y种不同的动作特征并按序拼接为一种新的动作特征，从而得到由

种动作特征组成的第y个动作拼接特征集合

步骤1.8、将X个视觉拼接特征集合F₁ ^v,...,

中所有视觉特征构成视觉特征池，视觉特征池中视觉特征的总数记为X'；将Y个动作拼接特征集合F₁ ^m,...,

步骤1.9、从视觉特征池中随机选择一个视觉特征并作为最优视觉特征序列

其中，v_i表示最优视觉特征序列中第i个视觉特征，1≤i≤K_v，m_j表示最优动作特征序列中第j个动作特征，1≤j≤K_m，K_v与K_m分别为最优视觉特征序列和最优动作特征序列的总长度；本实施例中，手语视频Q被划分为等长的视频片段，K_v＝K_m等于视频片段的个数；

步骤2、特征优化：

步骤2.1、定义当前时刻为t，并初始化t＝1；

式(1)中，

为t时刻最优视觉特征序列中第i个视觉特征v_i对应的注意力权值，并有：

为t时刻最优动作特征序列中第j个视觉特征m_j对应的注意力权值，并有

步骤3、第一阶特征动态融合：

本实施例中，如图2所示，根据式(2)将t时刻的视觉注意力特征V_t和动作注意力特征M_t结合起来，得到t时刻的融合特征C_t；

式(2)中，

为向量同维度的相加操作；μ_t,η_t分别为t时刻的视觉注意力特征V_t和动作注意力特征M_t的数据自驱动融合权重，并有：[μ_t,η_t]＝softmax(h_t-1[V_t；M_t]^T)，其中[；]表示按行拼接操作，[·]^T表示矩阵转置操作；

步骤4、第二阶特征动态融合：

步骤4.1、本实施例中，如图3所示，将t时刻视觉注意力特征V_t、动作注意力特征M_t和融合特征C_t分别输入三个相互独立的长短期记忆人工神经网络LSTM中，得到三个对应的隐状态，并构成待融合隐状态合集H_t＝[h_t ^V；h_t ^M；h_t ^C]；

利用式(3)得到待融合隐状态合集中H_t每个隐状态对应的得分融合权重

和

p_t＝softmax(W_eh_t)(5)

式(5)中，W_e为需要学习的映射矩阵；在本实施例中，利用手语翻译数据库中的所有单词构建单词表，并将单词表中所有单词按照出现次数从高到低进行编号，从而构建单词索引表；本实施例中，单词索引表中共有279个单词，

步骤4.4、将t+1赋值给t，并返回步骤2.2顺序执行，直到t＝T为止，T为生成的手语翻译句子的总长度，本实施例中，T＝K_v＝K_m；从而得到识别概率序列{p₁,p₂,...,p_T}；

步骤5、在动作特征池中的所有Y'个动作特征中随机选择一个动作特征，并在所选择的动作特征下，计算视觉特征池中的所有X'个视觉特征的多阶特征动态融合手语翻译模型的识别概率序列平均方差，再将平均方差最大的识别概率序列对应的视觉特征作为最优视觉特征序列，并赋值给

本实施例中，采用ResNet网络提取手语视频的视觉特征为最优视觉特征；

同理，在视觉特征池中的所有X'个动作特征中随机选择一个视觉特征，并在所选择的视觉特征下，计算动作特征池中的所Y'个动作特征的多阶特征动态融合手语翻译模型的识别概率序列平均方差，再将平均方差最大的识别概率序列对应的动作特征作为最优动作特征序列，并赋值给

本实施例中，采用C3D网络提取手语视频的动作特征为最优动作特征；

步骤6、将最优视觉特征序列

与最优动作特征序列

步骤7、根据式(6)得到t时刻生成的手语翻译单词y_t，从而得到手语视频Q的手语翻译句子{y₁,y₂,...,y_T}：

y_t＝argmax(p_t′)(6)

式(6)中，argmax(·)表示求取识别概率中最大值对应的位置索引；本实施例中，利用构建的单词索引表将得到的手语翻译句子{y₁,y₂,...,y_T}转化为自然语言句子。

Claims

1.一种基于数据自驱动的多阶特征动态融合手语翻译方法，其特征是按如下步骤进行：

步骤1、构建特征池与特征择优：

并有F₁ ^v＝F^v；

种视觉特征组成的第x个视觉拼接特征集合

步骤1.4、将x+1赋值给x，并返回步骤1.3顺序执行，直到x＝X为止，从而得到X个视觉拼接特征集合

并有F₁ ^m＝F^m；

种动作特征组成的第y个动作拼接特征集合

步骤1.7、将y+1赋值给y，并返回步骤1.6顺序执行，直到y＝Y为止，从而得到Y个动作拼接特征集合

步骤1.8、将所述X个视觉拼接特征集合

中所有视觉特征构成视觉特征池，视觉特征池中视觉特征的总数记为X'；将所述Y个动作拼接特征集合

步骤2、特征优化：

步骤2.1、定义当前时刻为t，并初始化t＝1；

式(1)中，

步骤3、第一阶特征动态融合：

式(2)中，

步骤4、第二阶特征动态融合：

和

p_t＝softmax(W_eh_t) (5)

式(5)中，W_e为需要学习的映射矩阵；

步骤6、将最优视觉特征序列

与最优动作特征序列

带入步骤2.1-步骤4.4中顺序执行，从而得到最终的识别概率序列{p′₁,p′₂,...,p′_T}；

y_t＝argmax(p′_t) (6)