CN113312959B - 一种基于dtw距离的手语视频关键帧采样方法 - Google Patents

一种基于dtw距离的手语视频关键帧采样方法 Download PDF

Info

Publication number
CN113312959B
CN113312959B CN202110324935.5A CN202110324935A CN113312959B CN 113312959 B CN113312959 B CN 113312959B CN 202110324935 A CN202110324935 A CN 202110324935A CN 113312959 B CN113312959 B CN 113312959B
Authority
CN
China
Prior art keywords
sequence
frame sequence
key frame
sign language
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110324935.5A
Other languages
English (en)
Other versions
CN113312959A (zh
Inventor
叶中付
潘威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202110324935.5A priority Critical patent/CN113312959B/zh
Publication of CN113312959A publication Critical patent/CN113312959A/zh
Application granted granted Critical
Publication of CN113312959B publication Critical patent/CN113312959B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Studio Circuits (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于DTW距离的手语视频关键帧采样方法,包括如下步骤:步骤1、获取原始手语帧序列;步骤2、从原始手语帧序列中采样得到初始关键帧序列;步骤3、以DTW距离度量相似度,通过贪心算法从初始关键帧序列中计算得出与原始手语帧序列相似度满足预设相似度的中间关键帧序列;步骤4、迭代进行步骤3的处理,得不丢失初始关键帧序列特性并与原始手语帧序列具有最高相似度的关键帧序列,作为最终关键帧序列。该方法不仅保留了传统关键帧序列的特性,还弥补了传统关键帧序列只着眼于消除相邻帧之间的冗余信息这个缺点,充分考虑了关键帧序列和原始手语帧序列间的相似度,能更好地捕捉手语演示的节奏感,具有更好的手语视频描述效果。

Description

一种基于DTW距离的手语视频关键帧采样方法
技术领域
本发明涉及视频信号处理领域,尤其涉及一种基于DTW距离的手语视频关键帧采样方法。
背景技术
手语是聋哑人向外界传达信息的重要方式,是聋哑人和正常人之间交流的重要媒介。将手语的内容翻译成正常人所使用的语言具有很大的社会应用价值。因此,近年来,手语识别逐渐成为一项重要的研究课题。结合视频信息的直观性和易采集性,根据图像信息对手语进行识别和翻译也就成为手语识别领域研究的重点。
手语视频主要由按照一定帧率采样所得连续帧构成。为了使肉眼感受到连续的效果,采样率一般设置得很高,因此单个手语视频的帧数往往很大,这样会对设备的数据存储量提出较高的要求,同时相邻帧之间会存在大量冗余的信息。因此,从整个手语视频中提取出关键帧作为整个视频的描述子,使得在不影响手语识别准确率的前提下,可以最大程度地减少数据量,就成为了手语视频信号预处理领域一个重要的研究课题。
目前的关键帧识别方法,普遍将着眼点限制在度量不同帧之间的差异性,单纯地以减少相邻帧之间的冗余信息量为原则进行算法的设计,虽取得了一定的效果,但是在一定程度上忽视了所得关键帧序列与原始视频的相似度这个考量因素,因此存在采样得到的关键帧序列与原始视频的相似度差的问题。
发明内容
基于现有技术所存在的问题,本发明的目的是提供一种基于DTW距离的手语视频关键帧采样方法,能解决现有关键帧采样方法,所存在的由于忽视所得关键帧序列和原始视频的相似度这个因素而影响采样性能的问题。
本发明的目的是通过以下技术方案实现的:
本发明实施方式提供一种基于DTW距离的手语视频关键帧采样方法,包括如下步骤:
步骤1、获取原始手语视频的原始手语帧序列;
步骤2、从所述原始手语帧序列中通过关键帧采样得到初始关键帧序列;
步骤3、通过贪心算法从所述初始关键帧序列中计算得到具有与原始手语帧序列更高相似度的关键帧序列,所述初始关键帧序列与原始手语帧序列之间的相似度以DTW距离度量;
步骤4、迭代进行所述步骤3的处理,获得不丢失所述初始关键帧序列特性并与原始手语帧序列具有最高相似度的关键帧序列,作为原始手语视频的最终关键帧序列。
由上述本发明提供的技术方案可以看出,本发明实施例提供的基于DTW距离的手语视频关键帧采样方法,其有益效果为:
以传统的关键帧采样方法所获取的关键帧序列为基础,通过DTW距离衡量关键帧序列和原始手语视频帧序列之间的相似度,采用贪心和迭代算法,获取了在不丢失最初关键帧序列的特性的基础上与原始手语视频帧序列具有最高相似度的序列。所得最终关键帧序列不仅解决了传统的关键帧采样方法需要考虑的问题,同时也考虑到了所得关键帧序列和原始视频相似度这个因素,因此能更好地捕捉整个手语演示的节奏,获取更好的描述效果。
附图说明
图1为本发明实施例提供的基于DTW距离的手语视频关键帧采样方法流程图。
具体实施方式
下面结合本发明的具体内容,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
本发明实施例提供一种基于DTW距离的手语视频关键帧采样方法,包括如下步骤:
步骤1、获取原始手语视频的原始手语帧序列;
步骤2、从所述原始手语帧序列中通过关键帧采样得到初始关键帧序列;
步骤3、通过贪心算法从所述初始关键帧序列中计算得到具有与原始手语帧序列更高相似度的关键帧序列,所述初始关键帧序列与原始手语帧序列之间的相似度以DTW距离度量,DTW距离越小,则该初始关键帧序列与原始手语帧序列的相似度越高;其中,更高相似度的关键帧序列是指与原始手语帧序列具有更短DTW距离的关键帧序列;
步骤4、迭代进行所述步骤3的处理,获得不丢失所述初始关键帧序列特性并与原始手语帧序列具有最高相似度的关键帧序列,作为原始手语视频的最终关键帧序列。
上述方法中,所述步骤2采用传统的关键帧采样方法从原始手语帧序列中采样得到初始关键帧序列。
上述方法的步骤2中,通过以下方式从所述原始手语帧序列中进行关键帧采样得到初始关键帧序列,包括:
用X=(x1,x2,…,xT)表示原始手语帧序列,将X的第一帧作为参考帧,在第一帧后的n个帧中搜索得到第一个关键帧;
计算n个帧中每个帧xi(1≤i≤n)与参考帧的像素间欧式距离Di(1≤i≤n),将得到的各像素间欧式距离Di进行升序排列得到与参考帧相似度逐渐下降的序列
Figure GDA0003683880550000031
通过阈值分割将所述序列
Figure GDA0003683880550000032
分割为前k帧和后n-k帧两类帧,其中,前k帧为与参考帧相似的相似帧,后n-k帧为与参考帧不相似的不相似帧;
根据两类帧得出准则函数为:
Figure GDA0003683880550000033
其中,m1和m2是序列
Figure GDA0003683880550000034
的前k项与后n-k项的平均数;σ1和σ2是序列
Figure GDA0003683880550000035
的前k项与后n-k项的标准差;
对k(1≤k≤n)的所有可能值进行遍历,计算所述准则函数θ(k)的值并根据最佳分类原则进行分类,得出使相似帧与不相似帧两类帧的类间均方误差最大且类内均方误差最小的分类结果,根据该分类结果得到前k帧的最优解k*满足:θ(k*)≥θ(k)(1≤k≤n);
从n-k*个帧中找到最先出现的帧作为第一个关键帧,将该帧视为下一个参考帧再按照相同的步骤寻找下一个关键帧,直到最后剩余的帧数小于n为止,将遍历和迭代过程中所得到的帧按时间顺序相连得到的帧序列,即为初始关键帧序列。
上述方法的步骤2中,对每个原始手语帧序列进行关键帧采样的过程中,通过逐步调整n的值,使从每个原始手语帧序列得到的关键帧序列的长度为固定值N。
上述方法中,通过以下方式计算所得关键帧序列与原始手语帧序列之间的相似度,包括:
从原始手语帧序列X=(x1,x2,…,xT)得到的初始关键帧序列为Y=(y1,y2,…,yN),序列X和Y为不等长序列,其中
Figure GDA0003683880550000036
构造尺度为T×N的矩阵M,该矩阵M中的每个元素为:Mij=||xi-yj||2(1≤i≤T,1≤j≤N);其中,||xi-yj||2表示两帧之间的像素欧式距离,该像素欧式距离的大小与两帧之间的相似度的高低呈反相关,即该像素欧式距离越大表明两帧之间的相似度越低;
在所述矩阵M中从始元素点(1,1)开始匹配序列X和Y,每到一个元素点对设定的累加距离γ(i,j)进行累加,到达终点(T,N)后,得出的所述累加距离γ(T,N)即为表示序列X和Y之间相似度的DTW距离,所述累加距离γ(i,j)为当前元素点Mij与所有能到达该元素点的相邻元素点的累加距离的最小值之和:γ(i,j)=Mij+min(γ(i,j-1),γ(i-1,j),γ(i-1,j-1))。
上述方法步骤3中,以初始关键帧序列作为初始值,用下述贪心算法进行优化计算得出与原始手语帧序列具有更高相似度的关键帧序列,包括:
设置s0=1,sN+1=T,j*=s1min=γ(X,Y);
对于1≤i≤N:
对si≤j≤si+1进行遍历搜索,将yi分别用xj代替,得到新序列Y*,计算新序列Y*与X之间的累加距离γ(X,Y*),如果累加距离γ(X,Y*)≤γmin,则进行如下的替换操作:
j*=j,γmin=γ(X,Y*);
对si≤j≤si+1搜索遍历结束后,更新si=j*,yi=xj*;
将按上述处理得到的新序列Y*作为新的关键帧序列。
上述方法中,迭代进行所述步骤3的处理的流程如下:
初始化设置:Y1=Y*,n=1,M=1,F1=F(Y1)=(1-λ)*γ(X,Y1)+λ*γ(Y,Y1);
对n进行C轮的迭代计算,即1≤n≤C:
计算Yn+1=A(Yn),Fn+1=F(Yn+1)=(1-λ)*γ(X,Yn+1)+λ*γ(Y,Yn+1);
如果Fn+1<FM则:M=n+1;
在上述处理中,如果提前收敛到恒定解,即满足当n达到某个指定值时,Fn+1=Fn对之后的所有n值都成立,则提前退出循环,否则就通过C控制循环的次数;
上述迭代处理中,F(Y1)=(1-λ)*γ(X,Y1)+λ*γ(Y,Y1)为新偏移函数,用于确定新生成的关键帧序列Y1与原始手语帧序列X和初始关键帧序列Y的相似度,该新偏移函数中,Y1是某个新生成的关键帧序列;γ(X,Y1)和γ(Y,Y1)是序列Y1与序列X和Y之间的DTW距离;λ是权重因子,用来表示γ(X,Y1)与γ(Y,Y1)两者在该偏移函数中所占有的比重;
上述迭代处理中,将所述步骤3中对初始关键帧序列Y进行贪心算法优化的整个流程定义为A,Y*=A(Y);
上述迭代处理的计算结果为:
Figure GDA0003683880550000041
得到的最终关键帧序列为YM
得出的最终关键帧序列YM是在上述迭代优化过程中得到的所有关键帧序列中,在提高与X的相似度的同时,最多地保留传统关键帧算法所得到的序列Y特性的关键帧序列。因此,该关键帧序列被认为最好地兼顾了手语演示的时间节奏以及不同帧的重要性。
下面对本发明实施例具体作进一步地详细描述。
本发明实施例提供一种基于DTW距离的手语视频关键帧采样方法,该算法在传统的关键帧采样方法基础上,结合了关键帧序列和原始序列之间的相似度这个考量因素进行优化,包括以下步骤:
步骤1、获取原始手语视频的帧序列,该帧序列按照RGB格式存储;
步骤2、根据传统的关键帧采样方法,从原始手语视频中采样得到初始关键帧序列;
步骤3、通过DTW距离度量初始关键帧序列与原始手语帧序列之间的相似度,采用贪心算法得到具有与原始手语帧序列更高相似度的关键帧序列,DTW距离越小,则该初始关键帧序列与原始手语帧序列的相似度越高;
步骤4、以步骤3中的贪心算法为基础,采用迭代算法获得在不丢失最初关键帧序列特性的基础上与原始手语视频帧序列具有最高相似度的序列,将其作为最终关键帧序列;
在整个算法流程中,所得到的最终关键帧序列相比于初始关键帧序列具有与原始手语视频的帧序列更高的相似度,同时最大程度上保留原始手语关键帧序列的特性,这样能更好地捕捉手语演示的节奏,进而获得更好的手语视频描述效果。
上述方法各步骤的具体处理方式如下:
(1)获取原始手语视频的帧序列X=(x1,x2,…,xT),该原始手语帧序列按RGB格式存储;
(2)对于原始手语帧序列X=(x1,x2,…,xT),将第一帧作为参考帧,在其后的n个帧中搜索第一个关键帧;首先,计算每个帧xi(1≤i≤n)与参考帧的像素间欧式距离Di(1≤i≤n),距离越大表明相似度越低;对于序列(D1,D2,…,Dn)进行升序排列,得到与参考帧相似度逐渐下降的序列
Figure GDA0003683880550000051
对该序列进行阈值分割得到与参考帧相似和与参考帧不相似的两类帧,取前k帧作为相似帧,后面n-k帧作为不相似帧,得出准则函数为:
Figure GDA0003683880550000052
其中,m1和m2是数组
Figure GDA0003683880550000053
前k项和后n-k项的平均数;σ1和σ2是数组
Figure GDA0003683880550000054
前k项和后n-k项的标准差;对k的所有可能值进行遍历计算准则函数的值,根据最佳分类原则,分类的结果应该使得两类帧的类间均方误差最大且类内均方误差最小,根据该准则,得到k的最优解k*应满足:θ(k*)≥θ(k)(1≤k≤n);
这样,从第二类n-k*个帧中找到最先出现的帧作为第一个关键帧,将该帧视为下一个参考帧再按照相同的步骤寻找下一个关键帧,直到最后剩余的帧数小于n为止;
将搜索遍历过程中所得到的帧按时间顺序相连便得到了初始关键帧序列。
(3)根据步骤2中的采样方法,通过对每个样本逐步调整n的值使得每个样本所获取的关键帧数为固定值N,设步骤2从原始手语帧序列X=(x1,x2,…,xT)中所得到的初始关键帧序列为Y=(y1,y2,…,yN),其中:
Figure GDA0003683880550000061
由于帧序列X和Y的长度不相等,所以采用DTW距离来度量这两个帧序列之间的相似度,首先构造尺度为T×N的矩阵M,该矩阵M中的每个元素为:Mij=||xi-yj||2(1≤i≤T,1≤j≤N);其中,||xi-yj||2表示两个帧之间的像素欧式距离,距离越大表明相似度越低。
先定义一个累加距离γ,从矩阵M中的(1,1)点开始匹配这两个序列X和Y,每到一个点,都会对γ进行累加,到达终点(T,N)后,这个累加距离就是DTW距离,也就是帧序列X和Y的相似度,累加距离γ(i,j)为当前格点元素Mij与能到达该点的所有相邻元素的最小累加距离之和:γ(i,j)=Mij+min(γ(i,j-1),γ(i-1,j),γ(i-1,j-1));
在基于通过DTW距离衡量序列相似度的前提下,关键帧序列的最优解Y*应当满足与原始手语帧序列X的DTW距离γ(X,Y*)≤γ(X,Y)。其中Y是从X中抽取的任意长度为N的帧序列,但是采用枚举法进行遍历搜索的时间复杂度将会以组合数的形式增长,因此,考虑将步骤2的采样结果作为参考,采用贪心算法,将步骤2所得关键帧序列Y作为初始最优解进行优化。本发明算法思路如下:
设置s0=1,sN+1=T,j*=s1min=γ(X,Y);
对于1≤i≤N:
对于si≤j≤si+1进行遍历搜索,将yi分别用xj代替,得到新的序列Y*,计算新的帧序列和X之间的距离γ(X,Y*),如果γ(X,Y*)≤γmin,则进行如下的替换操作:
j*=j,γmin=γ(X,Y*);
对于si≤j≤si+1搜索遍历结束以后,更新si=j*,
Figure GDA0003683880550000062
对1≤i≤N按照相同的流程进行遍历以后,可以得到一个新的帧序列Y*。结合DTW距离的定义,可以看出Y*相对于Y具有与原始手语帧序列X更高的相似度,这说明Y*可以更好的捕捉手语演示视频的节奏;而且由于Y*的获取是以Y作为初始值进行优化得到,因此Y*也保持了传统的关键帧提取算法的充分消除相邻帧之间的冗余信息的特征。因此,直观来看,Y*相比Y获得更好的手语视频描述效果。
(4)步骤3中的贪心算法已经对传统的关键帧采样方法进行了优化,但是该算法同样具有进一步优化的空间。
步骤4的优化策略基于以下两方面的事实:
41)步骤3的算法可以迭代多次,即对于新的帧序列Y*,可以接着使用该优化算法得到与原始手语帧序列X相似度更高的更新的帧序列Y
42)虽然更新的帧序列Y与原始手语帧序列X的相似度不断提高,但是不可避免地还是相对于原始的初始关键帧序列Y有一定的偏离,这就增加了该更新的帧序列Y丢失初始关键帧序列特性的风险。因此,综合考虑以上两点,可以得到一种新的优化方法,在尽可能多地提高与原始手语帧序列X的相似度的同时,尽可能减少与初始关键帧序列Y之间的偏移。为此,对于任意新生成的关键帧序列Y,需要综合考虑Y与X和Y之间的DTW距离γ(X,Y)和γ(Y,Y)。为此,设计新的偏移函数:F(Y)=(1-λ)*γ(X,Y)+λ*γ(Y,Y);
其中,λ是权重因子,用来表述γ(X,Y)和γ(Y,Y)两者在偏移函数中所占有的比重,将步骤3中对初始关键帧序列Y进行贪心算法优化的整个流程定义为A,这样在步骤3中,则有:Y*=A(Y);
根据以上的定义,得到如下的迭代算法流程:
初始化设置:Y1=Y*,n=1,M=1,F1=F(Y1)=(1-λ)*γ(X,Y1)+λ*γ(Y,Y1);
对n进行C轮的迭代优化,则对于1≤n≤C:
计算Yn+1=A(Yn),Fn+1=F(Yn+1)=(1-λ)*γ(X,Yn+1)+λ*γ(Y,Yn+1);
如果Fn+1<FM则:M=n+1;
在上述迭代算法中,如果提前收敛到恒定解,即满足当n达到某个指定值时,Fn+1=Fn对之后的所有n值都成立,就提前退出循环,否则就通过C控制循环的次数;
上述迭代算法中,F(Y1)=(1-λ)*γ(X,Y1)+λ*γ(Y,Y1)即是前述的新的偏移函数,Y1即相当于某一新生成的关键帧序列Y
根据流程图以及上述各个变量的定义,可以得到:
Figure GDA0003683880550000071
即最终的关键帧序列为YM,YM在整个迭代优化过程得到的所有关键帧序列中,能在提高与原始手语帧序列X的相似度的同时,尽可能多地保留传统关键帧算法所得到的初始关键帧序列Y特性的关键帧序列。因此,该迭代算法计算得到的该关键帧序列YM最好地兼顾了手语演示的时间节奏以及不同帧的重要性。
本发明的采样方法不仅保留了传统关键帧序列的特性,还弥补了传统关键帧序列只着眼于消除相邻帧之间的冗余信息这个缺点,充分考虑了关键帧序列与原始手语帧序列之间的相似度,能更好地捕捉手语演示的节奏感,具有更好的手语视频描述效果。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (4)

1.一种基于DTW距离的手语视频关键帧采样方法,其特征在于,包括如下步骤:
步骤1、获取原始手语视频的原始手语帧序列;
步骤2、从所述原始手语帧序列中通过关键帧采样得到初始关键帧序列;
步骤3、以所述初始关键帧序列作为初始值,通过贪心算法从所述初始关键帧序列中计算得出与原始手语帧序列具有更高相似度的关键帧序列,所述初始关键帧序列与原始手语帧序列之间的相似度以DTW距离度量,DTW距离越小,则该初始关键帧序列与原始手语帧序列的相似度越高;
所述步骤3中,通过以下方式计算所得关键帧序列与原始手语帧序列之间的相似度,包括:
从原始手语帧序列X=(x1,x2,…,xT)得到的初始关键帧序列为Y=(y1,y2,…,yN),序列X和Y为不等长序列,其中
Figure FDA0003683880540000011
构造尺度为T×N的矩阵M,该矩阵M中的每个元素为:Mij=||xi-yj||2(1≤i≤T,1≤j≤N);其中,||xi-yj||2表示两帧之间的像素欧式距离,该像素欧式距离的大小与两帧之间的相似度的高低呈反相关;
在所述矩阵M中从始元素点(1,1)开始匹配序列X和Y,每到一个元素点对设定的累加距离γ(i,j)进行累加,到达终点(T,N)后,得出的累加距离γ(T,N)即为表示序列X和Y之间相似度的DTW距离,所述累加距离γ(i,j)为当前元素点Mij与所有能到达该元素点的相邻元素点的累加距离的最小值之和:γ(i,j)=Mij+min(γ(i,j-1),γ(i-1,j),γ(i-1,j-1));
以初始关键帧序列作为初始值,用下述贪心算法进行优化计算得出与原始手语帧序列具有更高相似度的关键帧序列,包括:
设置s0=1,sN+1=T,j*=s1min=γ(X,Y);
对于1≤i≤N:
对si≤j≤si+1进行遍历搜索,将yi分别用xj代替,得到新序列Y*,计算新序列Y*与X之间的累加距离γ(X,Y*),如果累加距离γ(X,Y*)≤γmin,则进行如下的替换操作:
j*=j,γmin=γ(X,Y*);
对si≤j≤si+1搜索遍历结束后,更新si=j*,
Figure FDA0003683880540000012
将按上述处理得到的新序列Y*作为新的关键帧序列;
步骤4、迭代进行所述步骤3的处理,获得不丢失所述初始关键帧序列特性并与原始手语帧序列具有最高相似度的关键帧序列,作为原始手语视频的最终关键帧序列;
所述步骤4中,迭代进行所述步骤3的处理的流程如下:
初始化设置:Y1=Y*,n=1,M=1,F1=F(Y1)=(1-λ)*γ(X,Y1)+λ*γ(Y,Y1);
对n进行C轮的迭代计算,即1≤n≤C:
计算Yn+1=A(Yn),Fn+1=F(Yn+1)=(1-λ)*γ(X,Yn+1)+λ*γ(Y,Yn+1);
如果Fn+1<FM则:M=n+1;
在上述处理中,如果提前收敛到恒定解,即满足当n达到某个指定值时,Fn+1=Fn对之后的所有n值都成立,则提前退出循环,否则就通过C控制循环的次数;
上述迭代处理中,F(Y1)=(1-λ)*γ(X,Y1)+λ*γ(Y,Y1)为新偏移函数,用于确定新生成的关键帧序列Y1与原始手语帧序列X和初始关键帧序列Y的相似度,该新偏移函数中,Y1是某个新生成的关键帧序列;γ(X,Y1)和γ(Y,Y1)是序列Y1与序列X和Y之间的DTW距离;λ是权重因子,用来表示γ(X,Y1)与γ(Y,Y1)两者在该偏移函数中所占有的比重;
上述迭代处理中,将所述步骤3中对初始关键帧序列Y进行贪心算法优化的整个流程定义为A,Y*=A(Y);
上述迭代处理的计算结果为:
Figure FDA0003683880540000021
得到的最终关键帧序列为YM
2.根据权利要求1所述的基于DTW距离的手语视频关键帧采样方法,其特征在于,所述步骤2采用传统的关键帧采样方法从原始手语帧序列中采样得到初始关键帧序列。
3.根据权利要求1或2所述的基于DTW距离的手语视频关键帧采样方法,其特征在于,所述步骤2中,通过以下方式从所述原始手语帧序列中进行关键帧采样得到初始关键帧序列,包括:
用X=(x1,x2,…,xT)表示原始手语帧序列,将X中第一帧作为参考帧,在第一帧后的n个帧中搜索得到第一个关键帧;
计算n个帧中每个帧xi(1≤i≤n)与参考帧的像素间欧式距离Di(1≤i≤n),将得到的各像素间欧式距离Di进行升序排列得到与参考帧相似度逐渐下降的序列
Figure FDA0003683880540000022
通过阈值分割将所述序列
Figure FDA0003683880540000023
分割为前k帧和后n-k帧两类帧,其中,前k帧为与参考帧相似的相似帧,后n-k帧为与参考帧不相似的不相似帧;
根据两类帧得出准则函数为:
Figure FDA0003683880540000024
其中,m1和m2是序列
Figure FDA0003683880540000025
的前k项与后n-k项的平均数;σ1和σ2是序列
Figure FDA0003683880540000031
的前k项与后n-k项的标准差;
对k(1≤k≤n)的所有可能值进行遍历,计算所述准则函数θ(k)的值并根据最佳分类原则进行分类,得出使相似帧与不相似帧两类帧的类间均方误差最大且类内均方误差最小的分类结果,根据该分类结果得到k的最优解k*满足:θ(k*)≥θ(k)(1≤k≤n);
从n-k*个帧中找到最先出现的帧作为第一个关键帧,将该帧视为下一个参考帧再按照相同的步骤寻找下一个关键帧,直到最后剩余的帧数小于n为止,将遍历和迭代过程中所得到的帧按时间顺序相连得到的帧序列,即为初始关键帧序列。
4.根据权利要求3所述的基于DTW距离的手语视频关键帧采样方法,其特征在于,对每个原始手语帧序列进行关键帧采样的过程中,逐步调整n的值,使从每个原始手语帧序列得到的关键帧序列的长度为固定值N。
CN202110324935.5A 2021-03-26 2021-03-26 一种基于dtw距离的手语视频关键帧采样方法 Active CN113312959B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110324935.5A CN113312959B (zh) 2021-03-26 2021-03-26 一种基于dtw距离的手语视频关键帧采样方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110324935.5A CN113312959B (zh) 2021-03-26 2021-03-26 一种基于dtw距离的手语视频关键帧采样方法

Publications (2)

Publication Number Publication Date
CN113312959A CN113312959A (zh) 2021-08-27
CN113312959B true CN113312959B (zh) 2022-09-02

Family

ID=77372128

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110324935.5A Active CN113312959B (zh) 2021-03-26 2021-03-26 一种基于dtw距离的手语视频关键帧采样方法

Country Status (1)

Country Link
CN (1) CN113312959B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844779A (zh) * 2017-11-21 2018-03-27 重庆邮电大学 一种视频关键帧提取方法
CN110147843A (zh) * 2019-05-22 2019-08-20 哈尔滨工程大学 基于度量学习的语音时序数据相似性度量方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070030396A1 (en) * 2005-08-05 2007-02-08 Hui Zhou Method and apparatus for generating a panorama from a sequence of video frames

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844779A (zh) * 2017-11-21 2018-03-27 重庆邮电大学 一种视频关键帧提取方法
CN110147843A (zh) * 2019-05-22 2019-08-20 哈尔滨工程大学 基于度量学习的语音时序数据相似性度量方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Attention-Based Sign Language Recognition Network Utilizing Keyframe Sampling and Skeletal Features;WEI PAN等;《IEEE Access》;20200927;第8卷;第215592-215602页 *
融合注意力机制和连接时序分类的多模态手语识别;王 军等;《信号处理》;20200930;第36卷(第9期);第1429-1439页 *

Also Published As

Publication number Publication date
CN113312959A (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
WO2020107717A1 (zh) 视觉显著性区域检测方法及装置
JP5554984B2 (ja) パターン認識方法およびパターン認識装置
CN110088805B (zh) 用于检测和分割多个前景对象的方法
CN111160407B (zh) 一种深度学习目标检测方法及系统
CN109086777B (zh) 一种基于全局像素特征的显著图精细化方法
CN106157330B (zh) 一种基于目标联合外观模型的视觉跟踪方法
WO2018082308A1 (zh) 一种图像处理方法及终端
CN111797707B (zh) 一种基于聚类的镜头关键帧提取方法
CN111144376A (zh) 视频目标检测特征提取方法
CN110991321B (zh) 一种基于标签更正与加权特征融合的视频行人再识别方法
WO2021143865A1 (zh) 定位方法及装置、电子设备、计算机可读存储介质
CN111583279A (zh) 一种基于pcba的超像素图像分割方法
CN112581355A (zh) 图像处理方法、装置、电子设备和计算机可读介质
CN112329784A (zh) 一种基于时空感知及多峰响应的相关滤波跟踪方法
WO2023123923A1 (zh) 人体重识别方法、人体重识别装置、计算机设备及介质
CN111241987B (zh) 基于代价敏感的三支决策的多目标模型视觉追踪方法
Yang et al. A Face Detection Method Based on Skin Color Model and Improved AdaBoost Algorithm.
CN110188625B (zh) 一种基于多特征融合的视频精细结构化方法
CN115376159A (zh) 一种基于多模态信息的跨外观行人重识别方法
CN113378620B (zh) 监控视频噪声环境下跨摄像头行人重识别方法
CN110827327B (zh) 一种基于融合的长期目标跟踪方法
CN108647605B (zh) 一种结合全局颜色与局部结构特征的人眼凝视点提取方法
CN107784664B (zh) 一种基于k稀疏的快速鲁棒目标跟踪方法
Cao et al. Grayscale Image Colorization Using an Adaptive Weighted Average Method.
CN113312959B (zh) 一种基于dtw距离的手语视频关键帧采样方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant