CN113312959B

CN113312959B - 一种基于dtw距离的手语视频关键帧采样方法

Info

Publication number: CN113312959B
Application number: CN202110324935.5A
Authority: CN
Inventors: 叶中付; 潘威
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2022-09-02
Anticipated expiration: 2041-03-26
Also published as: CN113312959A

Abstract

本发明公开一种基于DTW距离的手语视频关键帧采样方法，包括如下步骤：步骤1、获取原始手语帧序列；步骤2、从原始手语帧序列中采样得到初始关键帧序列；步骤3、以DTW距离度量相似度，通过贪心算法从初始关键帧序列中计算得出与原始手语帧序列相似度满足预设相似度的中间关键帧序列；步骤4、迭代进行步骤3的处理，得不丢失初始关键帧序列特性并与原始手语帧序列具有最高相似度的关键帧序列，作为最终关键帧序列。该方法不仅保留了传统关键帧序列的特性，还弥补了传统关键帧序列只着眼于消除相邻帧之间的冗余信息这个缺点，充分考虑了关键帧序列和原始手语帧序列间的相似度，能更好地捕捉手语演示的节奏感，具有更好的手语视频描述效果。

Description

一种基于DTW距离的手语视频关键帧采样方法

技术领域

本发明涉及视频信号处理领域，尤其涉及一种基于DTW距离的手语视频关键帧采样方法。

背景技术

手语是聋哑人向外界传达信息的重要方式，是聋哑人和正常人之间交流的重要媒介。将手语的内容翻译成正常人所使用的语言具有很大的社会应用价值。因此，近年来，手语识别逐渐成为一项重要的研究课题。结合视频信息的直观性和易采集性，根据图像信息对手语进行识别和翻译也就成为手语识别领域研究的重点。

手语视频主要由按照一定帧率采样所得连续帧构成。为了使肉眼感受到连续的效果，采样率一般设置得很高，因此单个手语视频的帧数往往很大，这样会对设备的数据存储量提出较高的要求，同时相邻帧之间会存在大量冗余的信息。因此，从整个手语视频中提取出关键帧作为整个视频的描述子，使得在不影响手语识别准确率的前提下，可以最大程度地减少数据量，就成为了手语视频信号预处理领域一个重要的研究课题。

目前的关键帧识别方法，普遍将着眼点限制在度量不同帧之间的差异性，单纯地以减少相邻帧之间的冗余信息量为原则进行算法的设计，虽取得了一定的效果，但是在一定程度上忽视了所得关键帧序列与原始视频的相似度这个考量因素，因此存在采样得到的关键帧序列与原始视频的相似度差的问题。

发明内容

基于现有技术所存在的问题，本发明的目的是提供一种基于DTW距离的手语视频关键帧采样方法，能解决现有关键帧采样方法，所存在的由于忽视所得关键帧序列和原始视频的相似度这个因素而影响采样性能的问题。

本发明的目的是通过以下技术方案实现的：

本发明实施方式提供一种基于DTW距离的手语视频关键帧采样方法，包括如下步骤：

步骤1、获取原始手语视频的原始手语帧序列；

步骤2、从所述原始手语帧序列中通过关键帧采样得到初始关键帧序列；

步骤3、通过贪心算法从所述初始关键帧序列中计算得到具有与原始手语帧序列更高相似度的关键帧序列，所述初始关键帧序列与原始手语帧序列之间的相似度以DTW距离度量；

步骤4、迭代进行所述步骤3的处理，获得不丢失所述初始关键帧序列特性并与原始手语帧序列具有最高相似度的关键帧序列，作为原始手语视频的最终关键帧序列。

由上述本发明提供的技术方案可以看出，本发明实施例提供的基于DTW距离的手语视频关键帧采样方法，其有益效果为：

以传统的关键帧采样方法所获取的关键帧序列为基础，通过DTW距离衡量关键帧序列和原始手语视频帧序列之间的相似度，采用贪心和迭代算法，获取了在不丢失最初关键帧序列的特性的基础上与原始手语视频帧序列具有最高相似度的序列。所得最终关键帧序列不仅解决了传统的关键帧采样方法需要考虑的问题，同时也考虑到了所得关键帧序列和原始视频相似度这个因素，因此能更好地捕捉整个手语演示的节奏，获取更好的描述效果。

附图说明

图1为本发明实施例提供的基于DTW距离的手语视频关键帧采样方法流程图。

具体实施方式

下面结合本发明的具体内容，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

本发明实施例提供一种基于DTW距离的手语视频关键帧采样方法，包括如下步骤：

步骤1、获取原始手语视频的原始手语帧序列；

步骤3、通过贪心算法从所述初始关键帧序列中计算得到具有与原始手语帧序列更高相似度的关键帧序列，所述初始关键帧序列与原始手语帧序列之间的相似度以DTW距离度量，DTW距离越小，则该初始关键帧序列与原始手语帧序列的相似度越高；其中，更高相似度的关键帧序列是指与原始手语帧序列具有更短DTW距离的关键帧序列；

上述方法中，所述步骤2采用传统的关键帧采样方法从原始手语帧序列中采样得到初始关键帧序列。

上述方法的步骤2中，通过以下方式从所述原始手语帧序列中进行关键帧采样得到初始关键帧序列，包括：

用X＝(x₁,x₂,…,x_T)表示原始手语帧序列，将X的第一帧作为参考帧，在第一帧后的n个帧中搜索得到第一个关键帧；

计算n个帧中每个帧x_i(1≤i≤n)与参考帧的像素间欧式距离D_i(1≤i≤n)，将得到的各像素间欧式距离D_i进行升序排列得到与参考帧相似度逐渐下降的序列

通过阈值分割将所述序列

分割为前k帧和后n-k帧两类帧，其中，前k帧为与参考帧相似的相似帧，后n-k帧为与参考帧不相似的不相似帧；

根据两类帧得出准则函数为：

其中，m₁和m₂是序列

的前k项与后n-k项的平均数；σ₁和σ₂是序列

的前k项与后n-k项的标准差；

对k(1≤k≤n)的所有可能值进行遍历，计算所述准则函数θ(k)的值并根据最佳分类原则进行分类，得出使相似帧与不相似帧两类帧的类间均方误差最大且类内均方误差最小的分类结果，根据该分类结果得到前k帧的最优解k^*满足：θ(k^*)≥θ(k)(1≤k≤n)；

从n-k^*个帧中找到最先出现的帧作为第一个关键帧，将该帧视为下一个参考帧再按照相同的步骤寻找下一个关键帧，直到最后剩余的帧数小于n为止，将遍历和迭代过程中所得到的帧按时间顺序相连得到的帧序列，即为初始关键帧序列。

上述方法的步骤2中，对每个原始手语帧序列进行关键帧采样的过程中，通过逐步调整n的值，使从每个原始手语帧序列得到的关键帧序列的长度为固定值N。

上述方法中，通过以下方式计算所得关键帧序列与原始手语帧序列之间的相似度，包括：

从原始手语帧序列X＝(x₁,x₂,…,x_T)得到的初始关键帧序列为Y＝(y₁,y₂,…,y_N)，序列X和Y为不等长序列，其中

构造尺度为T×N的矩阵M，该矩阵M中的每个元素为：M_ij＝||x_i-y_j||₂(1≤i≤T,1≤j≤N)；其中，||x_i-y_j||₂表示两帧之间的像素欧式距离，该像素欧式距离的大小与两帧之间的相似度的高低呈反相关，即该像素欧式距离越大表明两帧之间的相似度越低；

在所述矩阵M中从始元素点(1,1)开始匹配序列X和Y，每到一个元素点对设定的累加距离γ(i,j)进行累加，到达终点(T,N)后，得出的所述累加距离γ(T,N)即为表示序列X和Y之间相似度的DTW距离，所述累加距离γ(i,j)为当前元素点M_ij与所有能到达该元素点的相邻元素点的累加距离的最小值之和：γ(i,j)＝M_ij+min(γ(i,j-1),γ(i-1,j),γ(i-1,j-1))。

上述方法步骤3中，以初始关键帧序列作为初始值，用下述贪心算法进行优化计算得出与原始手语帧序列具有更高相似度的关键帧序列，包括：

设置s₀＝1,s_N+1＝T,j*＝s₁,γ_min＝γ(X,Y)；

对于1≤i≤N：

对s_i≤j≤s_i+1进行遍历搜索，将y_i分别用x_j代替，得到新序列Y^*，计算新序列Y^*与X之间的累加距离γ(X,Y^*)，如果累加距离γ(X,Y^*)≤γ_min，则进行如下的替换操作：

j^*＝j，γ_min＝γ(X,Y^*)；

对s_i≤j≤s_i+1搜索遍历结束后，更新s_i＝j*，y_i＝x_j*；

将按上述处理得到的新序列Y^*作为新的关键帧序列。

上述方法中，迭代进行所述步骤3的处理的流程如下：

初始化设置：Y₁＝Y^*,n＝1,M＝1,F₁＝F(Y₁)＝(1-λ)*γ(X,Y₁)+λ*γ(Y,Y₁)；

对n进行C轮的迭代计算，即1≤n≤C：

计算Y_n+1＝A(Y_n)，F_n+1＝F(Y_n+1)＝(1-λ)*γ(X,Y_n+1)+λ*γ(Y,Y_n+1)；

如果F_n+1<F_M则：M＝n+1；

在上述处理中，如果提前收敛到恒定解，即满足当n达到某个指定值时，F_n+1＝F_n对之后的所有n值都成立，则提前退出循环，否则就通过C控制循环的次数；

上述迭代处理中，F(Y₁)＝(1-λ)*γ(X,Y₁)+λ*γ(Y,Y₁)为新偏移函数，用于确定新生成的关键帧序列Y₁与原始手语帧序列X和初始关键帧序列Y的相似度，该新偏移函数中，Y₁是某个新生成的关键帧序列；γ(X,Y₁)和γ(Y,Y₁)是序列Y₁与序列X和Y之间的DTW距离；λ是权重因子，用来表示γ(X,Y₁)与γ(Y,Y₁)两者在该偏移函数中所占有的比重；

上述迭代处理中，将所述步骤3中对初始关键帧序列Y进行贪心算法优化的整个流程定义为A，Y^*＝A(Y)；

上述迭代处理的计算结果为：

得到的最终关键帧序列为Y_M。

得出的最终关键帧序列Y_M是在上述迭代优化过程中得到的所有关键帧序列中，在提高与X的相似度的同时，最多地保留传统关键帧算法所得到的序列Y特性的关键帧序列。因此，该关键帧序列被认为最好地兼顾了手语演示的时间节奏以及不同帧的重要性。

下面对本发明实施例具体作进一步地详细描述。

本发明实施例提供一种基于DTW距离的手语视频关键帧采样方法，该算法在传统的关键帧采样方法基础上，结合了关键帧序列和原始序列之间的相似度这个考量因素进行优化，包括以下步骤：

步骤1、获取原始手语视频的帧序列，该帧序列按照RGB格式存储；

步骤2、根据传统的关键帧采样方法，从原始手语视频中采样得到初始关键帧序列；

步骤3、通过DTW距离度量初始关键帧序列与原始手语帧序列之间的相似度，采用贪心算法得到具有与原始手语帧序列更高相似度的关键帧序列，DTW距离越小，则该初始关键帧序列与原始手语帧序列的相似度越高；

步骤4、以步骤3中的贪心算法为基础，采用迭代算法获得在不丢失最初关键帧序列特性的基础上与原始手语视频帧序列具有最高相似度的序列，将其作为最终关键帧序列；

在整个算法流程中，所得到的最终关键帧序列相比于初始关键帧序列具有与原始手语视频的帧序列更高的相似度，同时最大程度上保留原始手语关键帧序列的特性，这样能更好地捕捉手语演示的节奏，进而获得更好的手语视频描述效果。

上述方法各步骤的具体处理方式如下：

(1)获取原始手语视频的帧序列X＝(x₁,x₂,…,x_T)，该原始手语帧序列按RGB格式存储；

(2)对于原始手语帧序列X＝(x₁,x₂,…,x_T)，将第一帧作为参考帧，在其后的n个帧中搜索第一个关键帧；首先，计算每个帧x_i(1≤i≤n)与参考帧的像素间欧式距离D_i(1≤i≤n)，距离越大表明相似度越低；对于序列(D₁,D₂,…,D_n)进行升序排列，得到与参考帧相似度逐渐下降的序列

对该序列进行阈值分割得到与参考帧相似和与参考帧不相似的两类帧，取前k帧作为相似帧，后面n-k帧作为不相似帧，得出准则函数为：

其中，m₁和m₂是数组

前k项和后n-k项的平均数；σ₁和σ₂是数组

前k项和后n-k项的标准差；对k的所有可能值进行遍历计算准则函数的值，根据最佳分类原则，分类的结果应该使得两类帧的类间均方误差最大且类内均方误差最小，根据该准则，得到k的最优解k^*应满足：θ(k^*)≥θ(k)(1≤k≤n)；

这样，从第二类n-k^*个帧中找到最先出现的帧作为第一个关键帧，将该帧视为下一个参考帧再按照相同的步骤寻找下一个关键帧，直到最后剩余的帧数小于n为止；

将搜索遍历过程中所得到的帧按时间顺序相连便得到了初始关键帧序列。

(3)根据步骤2中的采样方法，通过对每个样本逐步调整n的值使得每个样本所获取的关键帧数为固定值N，设步骤2从原始手语帧序列X＝(x₁,x₂,…,x_T)中所得到的初始关键帧序列为Y＝(y₁,y₂,…,y_N)，其中：

由于帧序列X和Y的长度不相等，所以采用DTW距离来度量这两个帧序列之间的相似度，首先构造尺度为T×N的矩阵M，该矩阵M中的每个元素为：M_ij＝||x_i-y_j||₂(1≤i≤T,1≤j≤N)；其中，||x_i-y_j||₂表示两个帧之间的像素欧式距离，距离越大表明相似度越低。

先定义一个累加距离γ，从矩阵M中的(1,1)点开始匹配这两个序列X和Y，每到一个点，都会对γ进行累加，到达终点(T,N)后，这个累加距离就是DTW距离，也就是帧序列X和Y的相似度，累加距离γ(i,j)为当前格点元素M_ij与能到达该点的所有相邻元素的最小累加距离之和：γ(i,j)＝M_ij+min(γ(i,j-1),γ(i-1,j),γ(i-1,j-1))；

在基于通过DTW距离衡量序列相似度的前提下，关键帧序列的最优解Y^*应当满足与原始手语帧序列X的DTW距离γ(X,Y^*)≤γ(X,Y)。其中Y是从X中抽取的任意长度为N的帧序列，但是采用枚举法进行遍历搜索的时间复杂度将会以组合数的形式增长，因此，考虑将步骤2的采样结果作为参考，采用贪心算法，将步骤2所得关键帧序列Y作为初始最优解进行优化。本发明算法思路如下：

设置s₀＝1,s_N+1＝T,j*＝s₁,γ_min＝γ(X,Y)；

对于1≤i≤N：

对于s_i≤j≤s_i+1进行遍历搜索，将y_i分别用x_j代替，得到新的序列Y^*，计算新的帧序列和X之间的距离γ(X,Y^*)，如果γ(X,Y^*)≤γ_min，则进行如下的替换操作：

j^*＝j，γ_min＝γ(X,Y^*)；

对于s_i≤j≤s_i+1搜索遍历结束以后，更新s_i＝j*，

对1≤i≤N按照相同的流程进行遍历以后，可以得到一个新的帧序列Y^*。结合DTW距离的定义，可以看出Y^*相对于Y具有与原始手语帧序列X更高的相似度，这说明Y^*可以更好的捕捉手语演示视频的节奏；而且由于Y^*的获取是以Y作为初始值进行优化得到，因此Y^*也保持了传统的关键帧提取算法的充分消除相邻帧之间的冗余信息的特征。因此，直观来看，Y^*相比Y获得更好的手语视频描述效果。

(4)步骤3中的贪心算法已经对传统的关键帧采样方法进行了优化，但是该算法同样具有进一步优化的空间。

步骤4的优化策略基于以下两方面的事实：

41)步骤3的算法可以迭代多次，即对于新的帧序列Y^*，可以接着使用该优化算法得到与原始手语帧序列X相似度更高的更新的帧序列Y^～；

42)虽然更新的帧序列Y^～与原始手语帧序列X的相似度不断提高，但是不可避免地还是相对于原始的初始关键帧序列Y有一定的偏离，这就增加了该更新的帧序列Y^～丢失初始关键帧序列特性的风险。因此，综合考虑以上两点，可以得到一种新的优化方法，在尽可能多地提高与原始手语帧序列X的相似度的同时，尽可能减少与初始关键帧序列Y之间的偏移。为此，对于任意新生成的关键帧序列Y^～,需要综合考虑Y^～与X和Y之间的DTW距离γ(X,Y^～)和γ(Y,Y^～)。为此，设计新的偏移函数：F(Y^～)＝(1-λ)*γ(X,Y^～)+λ*γ(Y,Y^～)；

其中，λ是权重因子，用来表述γ(X,Y^～)和γ(Y,Y^～)两者在偏移函数中所占有的比重，将步骤3中对初始关键帧序列Y进行贪心算法优化的整个流程定义为A，这样在步骤3中，则有：Y^*＝A(Y)；

根据以上的定义，得到如下的迭代算法流程：

对n进行C轮的迭代优化，则对于1≤n≤C：

计算Y_n+1＝A(Y_n)，F_n+1＝F(Y_n+1)＝(1-λ)*γ(X,Y_n+1)+λ*γ(Y,Y_n+1)；

如果F_n+1<F_M则：M＝n+1；

在上述迭代算法中，如果提前收敛到恒定解，即满足当n达到某个指定值时，F_n+1＝F_n对之后的所有n值都成立，就提前退出循环，否则就通过C控制循环的次数；

上述迭代算法中，F(Y₁)＝(1-λ)*γ(X,Y₁)+λ*γ(Y,Y₁)即是前述的新的偏移函数，Y₁即相当于某一新生成的关键帧序列Y^～；

根据流程图以及上述各个变量的定义，可以得到：

即最终的关键帧序列为Y_M，Y_M在整个迭代优化过程得到的所有关键帧序列中，能在提高与原始手语帧序列X的相似度的同时，尽可能多地保留传统关键帧算法所得到的初始关键帧序列Y特性的关键帧序列。因此，该迭代算法计算得到的该关键帧序列Y_M最好地兼顾了手语演示的时间节奏以及不同帧的重要性。

本发明的采样方法不仅保留了传统关键帧序列的特性，还弥补了传统关键帧序列只着眼于消除相邻帧之间的冗余信息这个缺点，充分考虑了关键帧序列与原始手语帧序列之间的相似度，能更好地捕捉手语演示的节奏感，具有更好的手语视频描述效果。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于DTW距离的手语视频关键帧采样方法，其特征在于，包括如下步骤：

步骤1、获取原始手语视频的原始手语帧序列；

步骤3、以所述初始关键帧序列作为初始值，通过贪心算法从所述初始关键帧序列中计算得出与原始手语帧序列具有更高相似度的关键帧序列，所述初始关键帧序列与原始手语帧序列之间的相似度以DTW距离度量，DTW距离越小，则该初始关键帧序列与原始手语帧序列的相似度越高；

所述步骤3中，通过以下方式计算所得关键帧序列与原始手语帧序列之间的相似度，包括：

构造尺度为T×N的矩阵M，该矩阵M中的每个元素为：M_ij＝||x_i-y_j||₂(1≤i≤T,1≤j≤N)；其中，||x_i-y_j||₂表示两帧之间的像素欧式距离，该像素欧式距离的大小与两帧之间的相似度的高低呈反相关；

在所述矩阵M中从始元素点(1,1)开始匹配序列X和Y，每到一个元素点对设定的累加距离γ(i,j)进行累加，到达终点(T,N)后，得出的累加距离γ(T,N)即为表示序列X和Y之间相似度的DTW距离，所述累加距离γ(i,j)为当前元素点M_ij与所有能到达该元素点的相邻元素点的累加距离的最小值之和：γ(i,j)＝M_ij+min(γ(i,j-1),γ(i-1,j),γ(i-1,j-1))；

以初始关键帧序列作为初始值，用下述贪心算法进行优化计算得出与原始手语帧序列具有更高相似度的关键帧序列，包括：

设置s₀＝1,s_N+1＝T,j*＝s₁,γ_min＝γ(X,Y)；

对于1≤i≤N：