CN102222237B

CN102222237B - 手语视频的相似度评估模型的建立方法

Info

Publication number: CN102222237B
Application number: CN 201110200160
Authority: CN
Inventors: 尹宝才; 王茹; 王立春; 孔德慧
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2011-07-14
Filing date: 2011-07-14
Publication date: 2013-04-17
Anticipated expiration: 2031-07-14
Also published as: CN102222237A

Abstract

公开了一种融合视觉特征和语义特征的手语视频的相似度评估模型的建立方法，包括以下步骤：(1)确定主观评估值；(2)进行特征提取：对每个视频逐帧进行标注并存储成.xml格式的文件，基于贪心算法提取出左右胳膊的样例库；(3)进行视觉相似度评估；(4)进行轮廓相似度评估；(5)进行运动轨迹相似度评估；(6)进行模型融合：视觉、轮廓和运动轨迹相似度评估作为解释变量，主观评估值作为响应变量，将解释变量与响应变量进行多元线性回归分析，然后融合成多元线性评估模型。

Description

手语视频的相似度评估模型的建立方法

技术领域

本发明属于图像处理的技术领域，具体地涉及一种手语视频的相似度评估模型的建立方法。

背景技术

手语合成是近年来比较活跃的一个研究方向。从合成效果的真实感和可接受程度上看，基于真人视频剪辑拼接的手语合成方法比基于三维模型的方法具有明显的优势。并且基于真人视频拼接的手语，可提高合成手语的可接受性，将其应用于计算机等交互界面中，为听障人群提供更为形象生动的视觉语言表达界面。

视频相似度研究主要包括两方面，一是相似性度量，二是快速检索方法。视频检索方面的研究已经取得了一定的成果，如意大利巴勒莫大学开发的基于内容的视频查询系统JACOB。它主要强调视频数据流中时序的分割、基于时序的语义的提取，对于视频的特征提取，除了颜色信息、纹理信息、形状信息等图像特征外，还可以利用运动信息。在特征提取和相似性度量方面，已经有一些具有参考意义的研究结果，如清华大学的高跃等人提出了基于片段的视频拼接方法，通过次采样帧和层次累计聚类提取视频特征，用比例化最大权二分匹配实现相似性度量；普林斯顿大学的董伟等人提出了随机化视频特征提取算法，将特征投影到基于位置敏感哈希(LSH)的直方图上，并采用基于核的相似性度量方法。这些研究研究虽然在特征提取和相似性度量中获得了一定的成功，但其所采用的计算过程一般较复杂，而且特征数量的增多也带来了相似性度量的困难并且缺乏对特征的进一步筛选和特征计算的简化。针对这些问题，曹政等人提出了一种快速相似视频检索方法，从视觉相似性出发，根据视频的时空分布特征统计计算压缩视频签名，通过视频签名的距离度量视频相似性，该方法对大规模数据库亦快速有效，但也存在一个问题，就是该方法只解决了视频的视觉相似性，不包含语义信息，而视觉相似的视频可能包含不同的语义，反之语义相似的视频内容也可能完全不同。手语运动主要侧重语义的理解，因此，除了视觉信息，还需要重点考虑手语运动的语义信息。

手语是人体运动形式的一个子集，因此对人的运动分析的方法同样适用于手语运动分析，手语视频相似度评估和检索的依据是逻辑相似性，即是否属于同一类型的运动序列。Kovar等人利用多步搜索策略实现了这一目的，他们定义了一种基于DTW的索引结构motion web作为度量运动间数值相似性的标准，然后以已检索出的数字相似的运动作为中间媒介，继续搜索与它们数值相似的运动，该方法的问题是算法复杂度较高。在SIGGRAPH2005中，Muller等提出了有效的基于内容的运动检索方法，用来搜索逻辑相似的运动序列，通过引入语义丰富的几何特征，将运动库中的运动数据按照特征分割为小段，对这些分割段建立索引，可以使相似性搜索在分割段的层次进行，而不是在帧的层次进行，有效地降低了运算复杂度，但该方法的检索依赖于对输入文本的分析，因而对交互过程中的用户输入要求比较高，不能实现通过解析输入视频进而检索相似视频的目的。

发明内容

本发明的技术解决问题是：克服现有技术的不足，提供一种融合视觉特征和语义特征的手语视频的相似度评估模型的建立方法。

本发明的技术解决方案是：这种手语视频的相似度评估模型的建立方法，包括以下步骤：

(1)确定主观评估值：对随机抽取N个人的每个视频对进行整体相似度评估，并给出N个主观评分，然后对N个主观评分取平均值作为主观评估值，N为正整数；

(2)进行特征提取：对每个视频逐帧进行标注，包括肩、肘、腕三个关节位置的标注，并存储成.xml格式的文件，特征提取包括对用于轨迹评估的关节位置的提取和对用于轮廓评估的胳膊形态的提取，然后基于贪心算法提取出左右胳膊的样例库；

(3)进行视觉相似度评估：基于视频时空分布特征计算得到压缩视频签名，并通过计算视频签名距离进行视觉相似性度量；

(4)进行轮廓相似度评估：基于步骤(2)的样例库，将视频的每帧图像与样例库中的样例进行比较，提取出给定视频的胳膊形态序列，通过比较的匹配程度进行轮廓相似度的评估；

(5)进行运动轨迹相似度评估：基于步骤(2)的腕关节位置的标注，生成运动轨迹，并确定轨迹的距离，该距离即DTW(Dynamic TimeWarping，动态时间规整)失真度，然后将其转换到[0，1]区间作为其运动轨迹的相似度评估；

(6)进行模型融合：视觉相似度评估、轮廓相似度评估和运动轨迹相似度评估作为解释变量，步骤(1)的主观评估值作为响应变量，将解释变量与响应变量进行多元线性回归分析，然后融合成多元线性评估模型。

由于本方法分别对视觉相似度和语义(包括轮廓和运动轨迹)相似度进行评估，然后将它们进行模型融合，所以是一种融合视觉特征和语义特征的手语视频的相似度评估模型的建立方法。

附图说明

图1是本方法的软件应用环境方框示意图；

图2示出了本方法的流程图；

图3是本方法的软件应用的数据传输路径图。

具体实施方式

这种手语视频的相似度评估模型的建立方法，包括以下步骤：

优选地，所述步骤(2)包括以下分步骤：

(2.1)设定一个初始样例，并将其加入样例库；

(2.2)对采集的手语视频的每帧图像的肩、肘、腕三个关节的位置作为特征点与样例库中的样例进行比较；

(2.3)如果待比较的胳膊形态与样例库中所有样例的三个特征点的位置总差值超过阈值，则该胳膊为一个新样例，将其加入样例库中，执行步骤(2.2)；否则执行步骤(2.4)；

(2.4)结束。

优选地，所述步骤(3)包括以下分步骤：

(3.1)根据以下公式得到视频对应的YC_bC_r直方图：

s＝2m₁+m₂+3m₃

m_{1} = Σ_{i = 1}^{N} i Y_{i};

m_{2} = Σ_{i = 1}^{N} {Cb}_{i};

m_{3} = Σ_{i = 1}^{N} {Cr}_{i}

其中Y_i、Cb_i，Cr_i是归一化直方图区间频数，i为对应区间，频数按从大到小降序排列，N取64，m₁，m₂，m₃是加权值；由于人们对红色相对敏感，Cr分量赋值可以最大；

(3.2)根据视频帧的时空分布特性，视频签名形成了代表该视频特征的埋单序列，表示为v_m和v_d，计算公式如下：

v_{m} = Σ_{i = 1}^{L} s_{i} / L;

v_{d} = {(Σ_{i = 1}^{L} {(s_{i} - v_{m})}^{2} / L)}^{\frac{1}{2}}

其中s_i是每帧图像的编码，L是视频的帧数；

(3.3)通过以下公式进行两视频片段的视觉相似度评估：

D = 1 - \frac{| v_{m 1} - v_{m 2} | + | v_{d 1} - v_{d 2} |}{\max (v_{m 1}, v_{m 2}) + \max (v_{d 1}, v_{d 2})} .

优选地，所述步骤(6)中的多元线性回归模型为：

y＝1.415x₁+0.145x₂+0.319x₃-0.972

其中y是响应变量，x_i(i＝1、2、3)是解释变量，x₁，x₂，x₃分别对应视觉，轮廓和运动轨迹三种特征的评估结果。

优选地，在所述步骤(6)之后还包括：对多元线性回归模型的有效性进行验证。另取N对同词义的视频，分别让相同的N个人对其进行整体效果的相似度评估，并进行打分得到主观评估值；然后综合视觉、轮廓和运动轨迹特进行评估，代入多元线性回归模型得到客观的评估值，比较得到，两种评估值的误差范围在可接受的残差范围内，因此证明该多元线性回归模型是有效的。

本方法的优点为：

(1)针对手语运动的特殊性，根据其运动特征，建立了胳膊的样例库，不仅可用于手语视频的相似性评估，也可用于手语运动视频合成、检索等方面。

(2)面对中国手语这一特定的运动形式，提出了视频相似度评估方案，学习并研究了手语视频中的语义相似度问题，改进了传统方法中只针对视觉进行评估的局限。该方法的应用领域具有可扩展性，在视频分析、语义理解等各领域都有相应的研究价值。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.手语视频的相似度评估模型的建立方法，其特征在于，该方法包括以下步骤：

(3)进行视觉相似度评估：基于视频时空分布特征计算得到压缩视频签名，并通过计算视频签名距离进行视觉相似性度量；所述步骤(3)包括以下分步骤：

(3.1)根据以下公式得到视频对应的YC_bC_r直方图：

s＝2m₁+m₂+3m₃

m_{1} = Σ_{i = 1}^{N} i Y_{i};

m_{2} = Σ_{i = 1}^{N} C b_{i};

m_{3} = Σ_{i = 1}^{N} {Cr}_{i}

其中Y_i、Cb_i，Cr_i是归一化直方图区间频数，i为对应区间，频数按从大到小降序排列，N取64，m₁，m₂，m₃是加权值；

v_{m} = Σ_{i = 1}^{L} s_{i} / L;

v_{d} = {(Σ_{i = 1}^{L} {(s_{i} - v_{m})}^{2} / L)}^{1 / 2}

其中s_i是每帧图像的编码，L是视频的帧数；

(3.3)通过以下公式进行两视频片段的视觉相似度评估：

D = 1 - \frac{| v_{m 1} - v_{m 2} | + | v_{d 1} - v_{d 2} |}{\max (v_{m 1}, v_{m 2}) + \max (v_{d 1}, v_{d 2})};

(5)进行运动轨迹相似度评估：基于步骤(2)的腕关节位置的标注，生成运动轨迹，并确定轨迹的距离，该距离即动态时间规整DTW失真度，然后将其转换到[0，1]区间作为其运动轨迹的相似度评估；

(6)进行模型融合：视觉相似度评估、轮廓相似度评估和运动轨迹相似度评估作为解释变量，步骤(1)的主观评估值作为响应变量，将解释变量与响应变量进行多元线性回归分析，然后融合成多元线性评估模型；所述步骤(6)中的多元线性评估模型为：

y＝1.415x₁+0.145x₂+0.319x₃-0.972

2.根据权利要求1所述的建立方法，其特征在于，所述步骤(2)包括以下分步骤：

(2.1)设定一个初始样例，并将其加入样例库；

(2.4)结束。

3.根据权利要求1所述的建立方法，其特征在于，在所述步骤(6)之后还包括：对多元线性回归模型的有效性进行验证。