CN102222237A - 手语视频的相似度评估模型的建立方法 - Google Patents

手语视频的相似度评估模型的建立方法 Download PDF

Info

Publication number
CN102222237A
CN102222237A CN2011102001607A CN201110200160A CN102222237A CN 102222237 A CN102222237 A CN 102222237A CN 2011102001607 A CN2011102001607 A CN 2011102001607A CN 201110200160 A CN201110200160 A CN 201110200160A CN 102222237 A CN102222237 A CN 102222237A
Authority
CN
China
Prior art keywords
video
similarity
assessment
carry out
carrying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011102001607A
Other languages
English (en)
Other versions
CN102222237B (zh
Inventor
尹宝才
王茹
王立春
孔德慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN 201110200160 priority Critical patent/CN102222237B/zh
Publication of CN102222237A publication Critical patent/CN102222237A/zh
Application granted granted Critical
Publication of CN102222237B publication Critical patent/CN102222237B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

公开了一种融合视觉特征和语义特征的手语视频的相似度评估模型的建立方法,包括以下步骤:(1)确定主观评估值;(2)进行特征提取:对每个视频逐帧进行标注并存储成.xml格式的文件,基于贪心算法提取出左右胳膊的样例库;(3)进行视觉相似度评估;(4)进行轮廓相似度评估;(5)进行运动轨迹相似度评估;(6)进行模型融合:视觉、轮廓和运动轨迹相似度评估作为解释变量,主观评估值作为响应变量,将解释变量与响应变量进行多元线性回归分析,然后融合成多元线性评估模型。

Description

手语视频的相似度评估模型的建立方法
技术领域
本发明属于图像处理的技术领域,具体地涉及一种手语视频的相似度评估模型的建立方法。
背景技术
手语合成是近年来比较活跃的一个研究方向。从合成效果的真实感和可接受程度上看,基于真人视频剪辑拼接的手语合成方法比基于三维模型的方法具有明显的优势。并且基于真人视频拼接的手语,可提高合成手语的可接受性,将其应用于计算机等交互界面中,为听障人群提供更为形象生动的视觉语言表达界面。
视频相似度研究主要包括两方面,一是相似性度量,二是快速检索方法。视频检索方面的研究已经取得了一定的成果,如意大利巴勒莫大学开发的基于内容的视频查询系统JACOB。它主要强调视频数据流中时序的分割、基于时序的语义的提取,对于视频的特征提取,除了颜色信息、纹理信息、形状信息等图像特征外,还可以利用运动信息。在特征提取和相似性度量方面,已经有一些具有参考意义的研究结果,如清华大学的高跃等人提出了基于片段的视频拼接方法,通过次采样帧和层次累计聚类提取视频特征,用比例化最大权二分匹配实现相似性度量;普林斯顿大学的董伟等人提出了随机化视频特征提取算法,将特征投影到基于位置敏感哈希(LSH)的直方图上,并采用基于核的相似性度量方法。这些研究研究虽然在特征提取和相似性度量中获得了一定的成功,但其所采用的计算过程一般较复杂,而且特征数量的增多也带来了相似性度量的困难并且缺乏对特征的进一步筛选和特征计算的简化。针对这些问题,曹政等人提出了一种快速相似视频检索方法,从视觉相似性出发,根据视频的时空分布特征统计计算压缩视频签名,通过视频签名的距离度量视频相似性,该方法对大规模数据库亦快速有效,但也存在一个问题,就是该方法只解决了视频的视觉相似性,不包含语义信息,而视觉相似的视频可能包含不同的语义,反之语义相似的视频内容也可能完全不同。手语运动主要侧重语义的理解,因此,除了视觉信息,还需要重点考虑手语运动的语义信息。
手语是人体运动形式的一个子集,因此对人的运动分析的方法同样适用于手语运动分析,手语视频相似度评估和检索的依据是逻辑相似性,即是否属于同一类型的运动序列。Kovar等人利用多步搜索策略实现了这一目的,他们定义了一种基于DTW的索引结构motion web作为度量运动间数值相似性的标准,然后以已检索出的数字相似的运动作为中间媒介,继续搜索与它们数值相似的运动,该方法的问题是算法复杂度较高。在SIGGRAPH2005中,Muller等提出了有效的基于内容的运动检索方法,用来搜索逻辑相似的运动序列,通过引入语义丰富的几何特征,将运动库中的运动数据按照特征分割为小段,对这些分割段建立索引,可以使相似性搜索在分割段的层次进行,而不是在帧的层次进行,有效地降低了运算复杂度,但该方法的检索依赖于对输入文本的分析,因而对交互过程中的用户输入要求比较高,不能实现通过解析输入视频进而检索相似视频的目的。
发明内容
本发明的技术解决问题是:克服现有技术的不足,提供一种融合视觉特征和语义特征的手语视频的相似度评估模型的建立方法。
本发明的技术解决方案是:这种手语视频的相似度评估模型的建立方法,包括以下步骤:
(1)确定主观评估值:对随机抽取N个人的每个视频对进行整体相似度评估,并给出N个主观评分,然后对N个主观评分取平均值作为主观评估值,N为正整数;
(2)进行特征提取:对每个视频逐帧进行标注,包括肩、肘、腕三个关节位置的标注,并存储成.xml格式的文件,特征提取包括对用于轨迹评估的关节位置的提取和对用于轮廓评估的胳膊形态的提取,然后基于贪心算法提取出左右胳膊的样例库;
(3)进行视觉相似度评估:基于视频时空分布特征计算得到压缩视频签名,并通过计算视频签名距离进行视觉相似性度量;
(4)进行轮廓相似度评估:基于步骤(2)的样例库,将视频的每帧图像与样例库中的样例进行比较,提取出给定视频的胳膊形态序列,通过比较的匹配程度进行轮廓相似度的评估;
(5)进行运动轨迹相似度评估:基于步骤(2)的腕关节位置的标注,生成运动轨迹,并确定轨迹的距离,该距离即DTW(Dynamic Time Warping,动态时间规整)失真度,然后将其转换到[0,1]区间作为其运动轨迹的相似度评估;
(6)进行模型融合:视觉相似度评估、轮廓相似度评估和运动轨迹相似度评估作为解释变量,步骤(1)的主观评估值作为响应变量,将解释变量与响应变量进行多元线性回归分析,然后融合成多元线性评估模型。
由于本方法分别对视觉相似度和语义(包括轮廓和运动轨迹)相似度进行评估,然后将它们进行模型融合,所以是一种融合视觉特征和语义特征的手语视频的相似度评估模型的建立方法。
附图说明
图1是本方法的软件应用环境方框示意图;
图2示出了本方法的流程图;
图3是本方法的软件应用的数据传输路径图。
具体实施方式
这种手语视频的相似度评估模型的建立方法,包括以下步骤:
(1)确定主观评估值:对随机抽取N个人的每个视频对进行整体相似度评估,并给出N个主观评分,然后对N个主观评分取平均值作为主观评估值,N为正整数;
(2)进行特征提取:对每个视频逐帧进行标注,包括肩、肘、腕三个关节位置的标注,并存储成.xml格式的文件,特征提取包括对用于轨迹评估的关节位置的提取和对用于轮廓评估的胳膊形态的提取,然后基于贪心算法提取出左右胳膊的样例库;
(3)进行视觉相似度评估:基于视频时空分布特征计算得到压缩视频签名,并通过计算视频签名距离进行视觉相似性度量;
(4)进行轮廓相似度评估:基于步骤(2)的样例库,将视频的每帧图像与样例库中的样例进行比较,提取出给定视频的胳膊形态序列,通过比较的匹配程度进行轮廓相似度的评估;
(5)进行运动轨迹相似度评估:基于步骤(2)的腕关节位置的标注,生成运动轨迹,并确定轨迹的距离,该距离即DTW(Dynamic Time Warping,动态时间规整)失真度,然后将其转换到[0,1]区间作为其运动轨迹的相似度评估;
(6)进行模型融合:视觉相似度评估、轮廓相似度评估和运动轨迹相似度评估作为解释变量,步骤(1)的主观评估值作为响应变量,将解释变量与响应变量进行多元线性回归分析,然后融合成多元线性评估模型。
优选地,所述步骤(2)包括以下分步骤:
(2.1)设定一个初始样例,并将其加入样例库;
(2.2)对采集的手语视频的每帧图像的肩、肘、腕三个关节的位置作为特征点与样例库中的样例进行比较;
(2.3)如果待比较的胳膊形态与样例库中所有样例的三个特征点的位置总差值超过阈值,则该胳膊为一个新样例,将其加入样例库中,执行步骤(2.2);否则执行步骤(2.4);
(2.4)结束。
优选地,所述步骤(3)包括以下分步骤:
(3.1)根据以下公式得到视频对应的YCbCr直方图:
s=2m1+m2+3m3
m 1 = Σ i = 1 N i Y i ; m 2 = Σ i = 1 N Cb i ; m 3 = Σ i = 1 N Cr i
其中Yi、Cbi,Cri是归一化直方图区间频数,i为对应区间,频数按从大到小降序排列,N取64,m1,m2,m3是加权值;由于人们对红色相对敏感,Cr分量赋值可以最大;
(3.2)根据视频帧的时空分布特性,视频签名形成了代表该视频特征的埋单序列,表示为vm和vd,计算公式如下:
v m = Σ i = 1 L s i / L ; v d = ( Σ i = 1 L ( s i - v m ) 2 / L ) 1 2
其中si是每帧图像的编码,L是视频的帧数;
(3.3)通过以下公式进行两视频片段的视觉相似度评估:
D = 1 - | v m 1 - v m 2 | + | v d 1 - v d 2 | max ( v m 1 , v m 2 ) + max ( v d 1 , v d 2 ) .
优选地,所述步骤(6)中的多元线性回归模型为:
y=1.415x1+0.145x2+0.319x3-0.972
其中y是响应变量,xi(i=1、2、3)是解释变量,x1,x2,x3分别对应视觉,轮廓和运动轨迹三种特征的评估结果。
优选地,在所述步骤(6)之后还包括:对多元线性回归模型的有效性进行验证。另取N对同词义的视频,分别让相同的N个人对其进行整体效果的相似度评估,并进行打分得到主观评估值;然后综合视觉、轮廓和运动轨迹特进行评估,代入多元线性回归模型得到客观的评估值,比较得到,两种评估值的误差范围在可接受的残差范围内,因此证明该多元线性回归模型是有效的。
本方法的优点为:
(1)针对手语运动的特殊性,根据其运动特征,建立了胳膊的样例库,不仅可用于手语视频的相似性评估,也可用于手语运动视频合成、检索等方面。
(2)面对中国手语这一特定的运动形式,提出了视频相似度评估方案,学习并研究了手语视频中的语义相似度问题,改进了传统方法中只针对视觉进行评估的局限。该方法的应用领域具有可扩展性,在视频分析、语义理解等各领域都有相应的研究价值。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。

Claims (5)

1.手语视频的相似度评估模型的建立方法,其特征在于,该方法包括以下步骤:
(1)确定主观评估值:对随机抽取N个人的每个视频对进行整体相似度评估,并给出N个主观评分,然后对N个主观评分取平均值作为主观评估值,N为正整数;
(2)进行特征提取:对每个视频逐帧进行标注,包括肩、肘、腕三个关节位置的标注,并存储成.xml格式的文件,特征提取包括对用于轨迹评估的关节位置的提取和对用于轮廓评估的胳膊形态的提取,然后基于贪心算法提取出左右胳膊的样例库;
(3)进行视觉相似度评估:基于视频时空分布特征计算得到压缩视频签名,并通过计算视频签名距离进行视觉相似性度量;
(4)进行轮廓相似度评估:基于步骤(2)的样例库,将视频的每帧图像与样例库中的样例进行比较,提取出给定视频的胳膊形态序列,通过比较的匹配程度进行轮廓相似度的评估;
(5)进行运动轨迹相似度评估:基于步骤(2)的腕关节位置的标注,生成运动轨迹,并确定轨迹的距离,该距离即动态时间规整DTW失真度,然后将其转换到[0,1]区间作为其运动轨迹的相似度评估;
(6)进行模型融合:视觉相似度评估、轮廓相似度评估和运动轨迹相似度评估作为解释变量,步骤(1)的主观评估值作为响应变量,将解释变量与响应变量进行多元线性回归分析,然后融合成多元线性评估模型。
2.根据权利要求1所述的建立方法,其特征在于,所述步骤(2)包括以下分步骤:
(2.1)设定一个初始样例,并将其加入样例库;
(2.2)对采集的手语视频的每帧图像的肩、肘、腕三个关节的位置作为特征点与样例库中的样例进行比较;
(2.3)如果待比较的胳膊形态与样例库中所有样例的三个特征点的位置总差值超过阈值,则该胳膊为一个新样例,将其加入样例库中,执行步骤(2.2);否则执行步骤(2.4);
(2.4)结束。
3.根据权利要求2所述的建立方法,其特征在于,所述步骤(3)包括以下分步骤:
(3.1)根据以下公式得到视频对应的YCbCr直方图:
s=2m1+m2+3m3
m 1 = Σ i = 1 N i Y i ; m 2 = Σ i = 1 N Cb i ; m 3 = Σ i = 1 N Cr i
其中Yi、Cbi,Cri是归一化直方图区间频数,i为对应区间,频数按从大到小降序排列,N取64,m1,m2,m3是加权值;
(3.2)根据视频帧的时空分布特性,视频签名形成了代表该视频特征的埋单序列,表示为vm和vd,计算公式如下:
v m = Σ i = 1 L s i / L ; v d = ( Σ i = 1 L ( s i - v m ) 2 / L ) 1 2
其中si是每帧图像的编码,L是视频的帧数;
(3.3)通过以下公式进行两视频片段的视觉相似度评估:
D = 1 - | v m 1 - v m 2 | + | v d 1 - v d 2 | max ( v m 1 , v m 2 ) + max ( v d 1 , v d 2 ) .
4.根据权利要求3所述的建立方法,其特征在于,所述步骤(6)中的多元线性回归模型为:
y=1.415x1+0.145x2+0.319x3-0.972
其中y是响应变量,xi(i=1、2、3)是解释变量,x1,x2,x3分别对应视觉,轮廓和运动轨迹三种特征的评估结果。
5.根据权利要求1所述的建立方法,其特征在于,在所述步骤(6)之后还包括:对多元线性回归模型的有效性进行验证。
CN 201110200160 2011-07-14 2011-07-14 手语视频的相似度评估模型的建立方法 Expired - Fee Related CN102222237B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110200160 CN102222237B (zh) 2011-07-14 2011-07-14 手语视频的相似度评估模型的建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110200160 CN102222237B (zh) 2011-07-14 2011-07-14 手语视频的相似度评估模型的建立方法

Publications (2)

Publication Number Publication Date
CN102222237A true CN102222237A (zh) 2011-10-19
CN102222237B CN102222237B (zh) 2013-04-17

Family

ID=44778784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110200160 Expired - Fee Related CN102222237B (zh) 2011-07-14 2011-07-14 手语视频的相似度评估模型的建立方法

Country Status (1)

Country Link
CN (1) CN102222237B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354252A (zh) * 2016-08-18 2017-01-25 电子科技大学 一种基于stdw的连续字符手势轨迹识别方法
CN107169117A (zh) * 2017-05-25 2017-09-15 西安工业大学 一种基于自动编码器和dtw的手绘图人体运动检索方法
CN107967480A (zh) * 2016-10-19 2018-04-27 北京联合大学 一种基于标签语义的显著对象提取方法
CN112804558A (zh) * 2021-04-14 2021-05-14 腾讯科技(深圳)有限公司 视频拆分方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6944315B1 (en) * 2000-10-31 2005-09-13 Intel Corporation Method and apparatus for performing scale-invariant gesture recognition
CN101201822A (zh) * 2006-12-11 2008-06-18 南京理工大学 基于内容的视频镜头检索方法
CN101477538A (zh) * 2008-12-30 2009-07-08 清华大学 一种三维对象检索的方法和装置
CN102004795A (zh) * 2010-12-08 2011-04-06 中国科学院自动化研究所 一种手语检索的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6944315B1 (en) * 2000-10-31 2005-09-13 Intel Corporation Method and apparatus for performing scale-invariant gesture recognition
CN101201822A (zh) * 2006-12-11 2008-06-18 南京理工大学 基于内容的视频镜头检索方法
CN101477538A (zh) * 2008-12-30 2009-07-08 清华大学 一种三维对象检索的方法和装置
CN102004795A (zh) * 2010-12-08 2011-04-06 中国科学院自动化研究所 一种手语检索的方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354252A (zh) * 2016-08-18 2017-01-25 电子科技大学 一种基于stdw的连续字符手势轨迹识别方法
CN106354252B (zh) * 2016-08-18 2019-01-25 电子科技大学 一种基于stdw的连续字符手势轨迹识别方法
CN107967480A (zh) * 2016-10-19 2018-04-27 北京联合大学 一种基于标签语义的显著对象提取方法
CN107967480B (zh) * 2016-10-19 2020-06-30 北京联合大学 一种基于标签语义的显著对象提取方法
CN107169117A (zh) * 2017-05-25 2017-09-15 西安工业大学 一种基于自动编码器和dtw的手绘图人体运动检索方法
CN112804558A (zh) * 2021-04-14 2021-05-14 腾讯科技(深圳)有限公司 视频拆分方法、装置及设备
CN112804558B (zh) * 2021-04-14 2021-06-25 腾讯科技(深圳)有限公司 视频拆分方法、装置及设备

Also Published As

Publication number Publication date
CN102222237B (zh) 2013-04-17

Similar Documents

Publication Publication Date Title
CN109657631B (zh) 人体姿态识别方法及装置
CN107330396B (zh) 一种基于多属性和多策略融合学习的行人再识别方法
CN108171184B (zh) 基于Siamese网络的用于行人重识别的方法
CN107679522B (zh) 基于多流lstm的动作识别方法
TWI623842B (zh) Image search and method and device for acquiring image text information
CN107577990A (zh) 一种基于gpu加速检索的大规模人脸识别方法
CN105912985A (zh) 基于能量函数的人体骨架关节点的行为动作表示方法
CN104573706A (zh) 一种物体图像识别方法及其系统
CN103632290B (zh) 一种基于推荐概率融合的混合推荐方法
CN105989268A (zh) 一种人机识别的安全访问方法和系统
CN110232379A (zh) 一种车辆姿态检测方法及系统
CN105069072A (zh) 基于情感分析的混合用户评分信息推荐方法及其推荐装置
CN102222237B (zh) 手语视频的相似度评估模型的建立方法
CN105760472A (zh) 视频检索方法及系统
CN115577114A (zh) 一种基于时序知识图谱的事件检测方法和装置
WO2023138154A1 (zh) 对象识别方法、网络训练方法、装置、设备、介质及程序
CN109637128A (zh) 一种基于Markov的灰色Verhulst短时交通流预测方法及系统
CN113239159B (zh) 基于关系推理网络的视频和文本的跨模态检索方法
CN104616005A (zh) 一种领域自适应的人脸表情分析方法
CN110751076A (zh) 车辆检测方法
CN113157678A (zh) 一种多源异构数据关联方法
Liao et al. Ai golf: Golf swing analysis tool for self-training
CN111914912A (zh) 一种基于孪生条件对抗网络的跨域多视目标识别方法
CN107644203A (zh) 一种形状自适应分类的特征点检测方法
CN103177264B (zh) 基于视觉词典全局拓扑表达的图像分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130417