CN102222237B - 手语视频的相似度评估模型的建立方法 - Google Patents
手语视频的相似度评估模型的建立方法 Download PDFInfo
- Publication number
- CN102222237B CN102222237B CN 201110200160 CN201110200160A CN102222237B CN 102222237 B CN102222237 B CN 102222237B CN 201110200160 CN201110200160 CN 201110200160 CN 201110200160 A CN201110200160 A CN 201110200160A CN 102222237 B CN102222237 B CN 102222237B
- Authority
- CN
- China
- Prior art keywords
- video
- similarity
- assessment
- carry out
- carrying
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 238000011156 evaluation Methods 0.000 claims abstract description 15
- 230000000007 visual effect Effects 0.000 claims abstract description 13
- 230000004044 response Effects 0.000 claims abstract description 10
- 238000012417 linear regression Methods 0.000 claims abstract description 9
- 238000004458 analytical method Methods 0.000 claims abstract description 8
- 210000000707 wrist Anatomy 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 7
- 238000009826 distribution Methods 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 238000013210 evaluation model Methods 0.000 abstract 1
- 230000004927 fusion Effects 0.000 abstract 1
- 238000005259 measurement Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 229910000833 kovar Inorganic materials 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010189 synthetic method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
公开了一种融合视觉特征和语义特征的手语视频的相似度评估模型的建立方法,包括以下步骤:(1)确定主观评估值;(2)进行特征提取:对每个视频逐帧进行标注并存储成.xml格式的文件,基于贪心算法提取出左右胳膊的样例库;(3)进行视觉相似度评估;(4)进行轮廓相似度评估;(5)进行运动轨迹相似度评估;(6)进行模型融合:视觉、轮廓和运动轨迹相似度评估作为解释变量,主观评估值作为响应变量,将解释变量与响应变量进行多元线性回归分析,然后融合成多元线性评估模型。
Description
技术领域
本发明属于图像处理的技术领域,具体地涉及一种手语视频的相似度评估模型的建立方法。
背景技术
手语合成是近年来比较活跃的一个研究方向。从合成效果的真实感和可接受程度上看,基于真人视频剪辑拼接的手语合成方法比基于三维模型的方法具有明显的优势。并且基于真人视频拼接的手语,可提高合成手语的可接受性,将其应用于计算机等交互界面中,为听障人群提供更为形象生动的视觉语言表达界面。
视频相似度研究主要包括两方面,一是相似性度量,二是快速检索方法。视频检索方面的研究已经取得了一定的成果,如意大利巴勒莫大学开发的基于内容的视频查询系统JACOB。它主要强调视频数据流中时序的分割、基于时序的语义的提取,对于视频的特征提取,除了颜色信息、纹理信息、形状信息等图像特征外,还可以利用运动信息。在特征提取和相似性度量方面,已经有一些具有参考意义的研究结果,如清华大学的高跃等人提出了基于片段的视频拼接方法,通过次采样帧和层次累计聚类提取视频特征,用比例化最大权二分匹配实现相似性度量;普林斯顿大学的董伟等人提出了随机化视频特征提取算法,将特征投影到基于位置敏感哈希(LSH)的直方图上,并采用基于核的相似性度量方法。这些研究研究虽然在特征提取和相似性度量中获得了一定的成功,但其所采用的计算过程一般较复杂,而且特征数量的增多也带来了相似性度量的困难并且缺乏对特征的进一步筛选和特征计算的简化。针对这些问题,曹政等人提出了一种快速相似视频检索方法,从视觉相似性出发,根据视频的时空分布特征统计计算压缩视频签名,通过视频签名的距离度量视频相似性,该方法对大规模数据库亦快速有效,但也存在一个问题,就是该方法只解决了视频的视觉相似性,不包含语义信息,而视觉相似的视频可能包含不同的语义,反之语义相似的视频内容也可能完全不同。手语运动主要侧重语义的理解,因此,除了视觉信息,还需要重点考虑手语运动的语义信息。
手语是人体运动形式的一个子集,因此对人的运动分析的方法同样适用于手语运动分析,手语视频相似度评估和检索的依据是逻辑相似性,即是否属于同一类型的运动序列。Kovar等人利用多步搜索策略实现了这一目的,他们定义了一种基于DTW的索引结构motion web作为度量运动间数值相似性的标准,然后以已检索出的数字相似的运动作为中间媒介,继续搜索与它们数值相似的运动,该方法的问题是算法复杂度较高。在SIGGRAPH2005中,Muller等提出了有效的基于内容的运动检索方法,用来搜索逻辑相似的运动序列,通过引入语义丰富的几何特征,将运动库中的运动数据按照特征分割为小段,对这些分割段建立索引,可以使相似性搜索在分割段的层次进行,而不是在帧的层次进行,有效地降低了运算复杂度,但该方法的检索依赖于对输入文本的分析,因而对交互过程中的用户输入要求比较高,不能实现通过解析输入视频进而检索相似视频的目的。
发明内容
本发明的技术解决问题是:克服现有技术的不足,提供一种融合视觉特征和语义特征的手语视频的相似度评估模型的建立方法。
本发明的技术解决方案是:这种手语视频的相似度评估模型的建立方法,包括以下步骤:
(1)确定主观评估值:对随机抽取N个人的每个视频对进行整体相似度评估,并给出N个主观评分,然后对N个主观评分取平均值作为主观评估值,N为正整数;
(2)进行特征提取:对每个视频逐帧进行标注,包括肩、肘、腕三个关节位置的标注,并存储成.xml格式的文件,特征提取包括对用于轨迹评估的关节位置的提取和对用于轮廓评估的胳膊形态的提取,然后基于贪心算法提取出左右胳膊的样例库;
(3)进行视觉相似度评估:基于视频时空分布特征计算得到压缩视频签名,并通过计算视频签名距离进行视觉相似性度量;
(4)进行轮廓相似度评估:基于步骤(2)的样例库,将视频的每帧图像与样例库中的样例进行比较,提取出给定视频的胳膊形态序列,通过比较的匹配程度进行轮廓相似度的评估;
(5)进行运动轨迹相似度评估:基于步骤(2)的腕关节位置的标注,生成运动轨迹,并确定轨迹的距离,该距离即DTW(Dynamic TimeWarping,动态时间规整)失真度,然后将其转换到[0,1]区间作为其运动轨迹的相似度评估;
(6)进行模型融合:视觉相似度评估、轮廓相似度评估和运动轨迹相似度评估作为解释变量,步骤(1)的主观评估值作为响应变量,将解释变量与响应变量进行多元线性回归分析,然后融合成多元线性评估模型。
由于本方法分别对视觉相似度和语义(包括轮廓和运动轨迹)相似度进行评估,然后将它们进行模型融合,所以是一种融合视觉特征和语义特征的手语视频的相似度评估模型的建立方法。
附图说明
图1是本方法的软件应用环境方框示意图;
图2示出了本方法的流程图;
图3是本方法的软件应用的数据传输路径图。
具体实施方式
这种手语视频的相似度评估模型的建立方法,包括以下步骤:
(1)确定主观评估值:对随机抽取N个人的每个视频对进行整体相似度评估,并给出N个主观评分,然后对N个主观评分取平均值作为主观评估值,N为正整数;
(2)进行特征提取:对每个视频逐帧进行标注,包括肩、肘、腕三个关节位置的标注,并存储成.xml格式的文件,特征提取包括对用于轨迹评估的关节位置的提取和对用于轮廓评估的胳膊形态的提取,然后基于贪心算法提取出左右胳膊的样例库;
(3)进行视觉相似度评估:基于视频时空分布特征计算得到压缩视频签名,并通过计算视频签名距离进行视觉相似性度量;
(4)进行轮廓相似度评估:基于步骤(2)的样例库,将视频的每帧图像与样例库中的样例进行比较,提取出给定视频的胳膊形态序列,通过比较的匹配程度进行轮廓相似度的评估;
(5)进行运动轨迹相似度评估:基于步骤(2)的腕关节位置的标注,生成运动轨迹,并确定轨迹的距离,该距离即DTW(Dynamic TimeWarping,动态时间规整)失真度,然后将其转换到[0,1]区间作为其运动轨迹的相似度评估;
(6)进行模型融合:视觉相似度评估、轮廓相似度评估和运动轨迹相似度评估作为解释变量,步骤(1)的主观评估值作为响应变量,将解释变量与响应变量进行多元线性回归分析,然后融合成多元线性评估模型。
优选地,所述步骤(2)包括以下分步骤:
(2.1)设定一个初始样例,并将其加入样例库;
(2.2)对采集的手语视频的每帧图像的肩、肘、腕三个关节的位置作为特征点与样例库中的样例进行比较;
(2.3)如果待比较的胳膊形态与样例库中所有样例的三个特征点的位置总差值超过阈值,则该胳膊为一个新样例,将其加入样例库中,执行步骤(2.2);否则执行步骤(2.4);
(2.4)结束。
优选地,所述步骤(3)包括以下分步骤:
(3.1)根据以下公式得到视频对应的YCbCr直方图:
s=2m1+m2+3m3
其中Yi、Cbi,Cri是归一化直方图区间频数,i为对应区间,频数按从大到小降序排列,N取64,m1,m2,m3是加权值;由于人们对红色相对敏感,Cr分量赋值可以最大;
(3.2)根据视频帧的时空分布特性,视频签名形成了代表该视频特征的埋单序列,表示为vm和vd,计算公式如下:
其中si是每帧图像的编码,L是视频的帧数;
(3.3)通过以下公式进行两视频片段的视觉相似度评估:
优选地,所述步骤(6)中的多元线性回归模型为:
y=1.415x1+0.145x2+0.319x3-0.972
其中y是响应变量,xi(i=1、2、3)是解释变量,x1,x2,x3分别对应视觉,轮廓和运动轨迹三种特征的评估结果。
优选地,在所述步骤(6)之后还包括:对多元线性回归模型的有效性进行验证。另取N对同词义的视频,分别让相同的N个人对其进行整体效果的相似度评估,并进行打分得到主观评估值;然后综合视觉、轮廓和运动轨迹特进行评估,代入多元线性回归模型得到客观的评估值,比较得到,两种评估值的误差范围在可接受的残差范围内,因此证明该多元线性回归模型是有效的。
本方法的优点为:
(1)针对手语运动的特殊性,根据其运动特征,建立了胳膊的样例库,不仅可用于手语视频的相似性评估,也可用于手语运动视频合成、检索等方面。
(2)面对中国手语这一特定的运动形式,提出了视频相似度评估方案,学习并研究了手语视频中的语义相似度问题,改进了传统方法中只针对视觉进行评估的局限。该方法的应用领域具有可扩展性,在视频分析、语义理解等各领域都有相应的研究价值。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。
Claims (3)
1.手语视频的相似度评估模型的建立方法,其特征在于,该方法包括以下步骤:
(1)确定主观评估值:对随机抽取N个人的每个视频对进行整体相似度评估,并给出N个主观评分,然后对N个主观评分取平均值作为主观评估值,N为正整数;
(2)进行特征提取:对每个视频逐帧进行标注,包括肩、肘、腕三个关节位置的标注,并存储成.xml格式的文件,特征提取包括对用于轨迹评估的关节位置的提取和对用于轮廓评估的胳膊形态的提取,然后基于贪心算法提取出左右胳膊的样例库;
(3)进行视觉相似度评估:基于视频时空分布特征计算得到压缩视频签名,并通过计算视频签名距离进行视觉相似性度量;所述步骤(3)包括以下分步骤:
(3.1)根据以下公式得到视频对应的YCbCr直方图:
s=2m1+m2+3m3
其中Yi、Cbi,Cri是归一化直方图区间频数,i为对应区间,频数按从大到小降序排列,N取64,m1,m2,m3是加权值;
(3.2)根据视频帧的时空分布特性,视频签名形成了代表该视频特征的埋单序列,表示为vm和vd,计算公式如下:
其中si是每帧图像的编码,L是视频的帧数;
(3.3)通过以下公式进行两视频片段的视觉相似度评估:
(4)进行轮廓相似度评估:基于步骤(2)的样例库,将视频的每帧图像与样例库中的样例进行比较,提取出给定视频的胳膊形态序列,通过比较的匹配程度进行轮廓相似度的评估;
(5)进行运动轨迹相似度评估:基于步骤(2)的腕关节位置的标注,生成运动轨迹,并确定轨迹的距离,该距离即动态时间规整DTW失真度,然后将其转换到[0,1]区间作为其运动轨迹的相似度评估;
(6)进行模型融合:视觉相似度评估、轮廓相似度评估和运动轨迹相似度评估作为解释变量,步骤(1)的主观评估值作为响应变量,将解释变量与响应变量进行多元线性回归分析,然后融合成多元线性评估模型;所述步骤(6)中的多元线性评估模型为:
y=1.415x1+0.145x2+0.319x3-0.972
其中y是响应变量,xi(i=1、2、3)是解释变量,x1,x2,x3分别对应视觉,轮廓和运动轨迹三种特征的评估结果。
2.根据权利要求1所述的建立方法,其特征在于,所述步骤(2)包括以下分步骤:
(2.1)设定一个初始样例,并将其加入样例库;
(2.2)对采集的手语视频的每帧图像的肩、肘、腕三个关节的位置作为特征点与样例库中的样例进行比较;
(2.3)如果待比较的胳膊形态与样例库中所有样例的三个特征点的位置总差值超过阈值,则该胳膊为一个新样例,将其加入样例库中,执行步骤(2.2);否则执行步骤(2.4);
(2.4)结束。
3.根据权利要求1所述的建立方法,其特征在于,在所述步骤(6)之后还包括:对多元线性回归模型的有效性进行验证。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110200160 CN102222237B (zh) | 2011-07-14 | 2011-07-14 | 手语视频的相似度评估模型的建立方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110200160 CN102222237B (zh) | 2011-07-14 | 2011-07-14 | 手语视频的相似度评估模型的建立方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102222237A CN102222237A (zh) | 2011-10-19 |
CN102222237B true CN102222237B (zh) | 2013-04-17 |
Family
ID=44778784
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110200160 Expired - Fee Related CN102222237B (zh) | 2011-07-14 | 2011-07-14 | 手语视频的相似度评估模型的建立方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102222237B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106354252B (zh) * | 2016-08-18 | 2019-01-25 | 电子科技大学 | 一种基于stdw的连续字符手势轨迹识别方法 |
CN107967480B (zh) * | 2016-10-19 | 2020-06-30 | 北京联合大学 | 一种基于标签语义的显著对象提取方法 |
CN107169117B (zh) * | 2017-05-25 | 2020-11-10 | 西安工业大学 | 一种基于自动编码器和dtw的手绘图人体运动检索方法 |
CN112804558B (zh) * | 2021-04-14 | 2021-06-25 | 腾讯科技(深圳)有限公司 | 视频拆分方法、装置及设备 |
CN115034621A (zh) * | 2022-06-14 | 2022-09-09 | 杭州卓健信息科技股份有限公司 | 一种多维数据融合的临床诊疗智能教学管理系统及方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6944315B1 (en) * | 2000-10-31 | 2005-09-13 | Intel Corporation | Method and apparatus for performing scale-invariant gesture recognition |
CN101201822B (zh) * | 2006-12-11 | 2010-06-23 | 南京理工大学 | 基于内容的视频镜头检索方法 |
CN101477538B (zh) * | 2008-12-30 | 2010-11-10 | 清华大学 | 一种三维对象检索的方法和装置 |
CN102004795B (zh) * | 2010-12-08 | 2012-11-21 | 中国科学院自动化研究所 | 一种手语检索的方法 |
-
2011
- 2011-07-14 CN CN 201110200160 patent/CN102222237B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN102222237A (zh) | 2011-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657631B (zh) | 人体姿态识别方法及装置 | |
CN107330396B (zh) | 一种基于多属性和多策略融合学习的行人再识别方法 | |
US10152644B2 (en) | Progressive vehicle searching method and device | |
CN111126202A (zh) | 基于空洞特征金字塔网络的光学遥感图像目标检测方法 | |
Cao et al. | Rapid detection of blind roads and crosswalks by using a lightweight semantic segmentation network | |
CN105005593B (zh) | 多用户共用设备的场景识别方法和装置 | |
CN102222237B (zh) | 手语视频的相似度评估模型的建立方法 | |
CN105912985A (zh) | 基于能量函数的人体骨架关节点的行为动作表示方法 | |
CN110232379A (zh) | 一种车辆姿态检测方法及系统 | |
CN103605986A (zh) | 一种基于局部特征的人体动作识别方法 | |
CN105654054B (zh) | 基于半监督近邻传播学习和多视觉词典模型的智能视频分析方法 | |
CN104317838A (zh) | 一种基于耦合鉴别性字典的跨媒体哈希索引方法 | |
CN105760472A (zh) | 视频检索方法及系统 | |
CN113239159B (zh) | 基于关系推理网络的视频和文本的跨模态检索方法 | |
CN104978561A (zh) | 融合梯度和光流特征的视频动作行为识别方法 | |
CN113157678A (zh) | 一种多源异构数据关联方法 | |
WO2023138154A1 (zh) | 对象识别方法、网络训练方法、装置、设备、介质及程序 | |
CN100534132C (zh) | 基于判别光流张量和hmm的视频语义单元检测方法 | |
CN104616005A (zh) | 一种领域自适应的人脸表情分析方法 | |
CN112365586A (zh) | 3d人脸建模与立体判断方法及嵌入式平台的双目3d人脸建模与立体判断方法 | |
CN111914912A (zh) | 一种基于孪生条件对抗网络的跨域多视目标识别方法 | |
CN107644203A (zh) | 一种形状自适应分类的特征点检测方法 | |
CN102004795B (zh) | 一种手语检索的方法 | |
CN115830643B (zh) | 一种姿势引导对齐的轻量行人重识别方法 | |
Wang et al. | Temperature forecast based on SVM optimized by PSO algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130417 |
|
CF01 | Termination of patent right due to non-payment of annual fee |