CN102004795A

CN102004795A - 一种手语检索的方法

Info

Publication number: CN102004795A
Application number: CN 201010592907
Authority: CN
Inventors: 张师林; 李和平; 张树武
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2010-12-08
Filing date: 2010-12-08
Publication date: 2011-04-06
Anticipated expiration: 2030-12-08
Also published as: CN102004795B

Abstract

本发明涉及一种手语检索的方法，包括步骤S1：对手语进行视频解码并提取图像底层纹理特征、颜色特征和轮廓特征，根据手语运动特征生成手语特征库，用手语追踪双手方法得到手语特征为双手运动的坐标特征、双手运动的速度特征和双手的形状特征，进而构成时间序列特征，并以手语特征的字符串存储下来；步骤S2：对于用户输入的视频用坐标、速度和形状特征表示，得到用户输入视频的字符串；步骤S3：利用字符串编辑距离算法对用户输入视频的字符串和手语特征的字符串进行距离度量，得到输入视频和手语特征库中视频的相似度量。本发明解决了手语中快速且鲁棒的双手定位的问题，双手特征表示的问题和快速有效的手语相似度度量问题。

Description

一种手语检索的方法

技术领域

本发明涉及数字媒体和人机交互领域，它要求用户输入手语视频，然后在手语视频库中检索相似的视频片断。

背景技术

近几年来，中国很多电视台比如北京新闻等，都提供了手语播报的功能，以帮助聋哑残疾人士观看新闻内容。基于内容的视频检索和管理是目前数字媒体领域比较热门的研究方向。但是，对于手语视频这种比较特殊的视频形式，如何有效地根据内容管理这些视频是一个亟待解决的问题。在这种情况下，将大量的手语视频的存储和查找从全人工的方式中解脱出来更是大势所趋。要做到这一点，就必须分析手语的内容并且加以分析和特征生成，以方便管理。手语的3D特征的获取在不借助于数据手套的情况下几乎是不可能的，而分析手语新闻，主持人也是不带数据手套的。现有的手语处理技术借助数据手套，限制了用户使用的灵活性。那么，通过手部运动追踪，提取坐标速度和形状以建立分段的手语新闻特征并检索是一种可行的并且方便快捷的方法。

发明内容

为了解决现有技术手语处理只能借助于数据手套，并且速度较慢的技术缺陷，本发明的目的在于提出一种对大量的手语视频进行建立特征库和有效管理的手语检索的方法。

为了达成所述目的，本发明提供一种手语检索方法，所述方法的技术方案包括如下步骤：

步骤S1：对手语进行视频解码并提取图像底层纹理特征、颜色特征和轮廓特征，根据手语运动特征生成手语特征库，用手语追踪双手方法得到手语特征为双手运动的坐标特征、双手运动的速度特征和双手的形状特征，进而构成时间序列特征，并以手语特征的字符串存储下来；

步骤S2：对于用户输入的视频用坐标、速度和形状特征表示，得到用户输入视频的字符串；

步骤S3：利用字符串编辑距离算法对检索时用户输入手语视频的字符串和手语特征的字符串进行距离度量，得到输入视频和手语特征库中视频的相似度量。

其中，所述双手追踪和定位的步骤如下：

步骤S11：获取输入计算机的手语新闻视频帧或摄像头视频，对于手语新闻或者摄像头视频进行检测，如果检测视频帧中有人脸，则进行步骤S12的操作；如果检测视频帧中没有人脸，则对此视频帧不做处理返回计算机输入端；

步骤S12：根据视频帧中的人脸坐标，得到人脸下方距离人脸中心一倍人脸直径的胸部位置作为极坐标的中心，建立极坐标系，以刻画后续双手位置；

步骤S13：将视频帧转化为亮度色度颜色空间(YUV)，并且映射到色度二维空间，利用肤色的良好的聚类性质分割肤色，肤色分割的公式为：

0.261 π \leq \tan^{- 1} (\frac{U}{V}) \leq 0.3111 π

43 \leq \sqrt{U^{2} + V^{2}} \leq 78

0.25 π \leq \tan^{- 1} (\frac{U}{V}) \leq 0.3161 π

0 \leq \sqrt{U^{2} + V^{2}} \leq 70

式中U和V是在亮度色度颜色空间(YUV)中被正交调制了的色度信息，作用是描述影像色彩及饱和度；

步骤S14：把所有满足肤色的区域作为候选双手运动区域，并且把候选双手运动区域二值化，得到的二值化灰度图，此时，人脸、脖子、手臂以及接近肤色的衣服的区域都被分割出来了；

步骤S15：对步骤S14获得的候选双手运动区域进行定位，获取双手位置；接下来，对于步骤S14得到的二值化灰度图在相邻两帧间计算光流；对光流算法中的检测区域大小的阈值和速度阈值自动调整，用以获取多个光流块；

步骤S16：多个光流块对应了视频中的包含了肤色的运动区域，由于衣服、人脸和臂部运动不明显，所以光流块集中的地方是人手所在的位置；使用聚类算法把光流块聚类成两类，如果两类距离小于指定阈值，认为双手重合，则两类合并成一类，作为左手和右手的坐标；如果两类大于指定阈值，则两类按照坐标关系分别对应了左手和右手的坐标位置。

其中，所述双手运动的的坐标特征是双手位置的极坐标表示；把极坐标值(ρ，θ)，在空间中离散化为多个字符，从而一帧的左右手坐标用两个字符表示，一段视频则对应了两个字符串。

其中，所述双手运动的速度特征记录了手语运动序列的轨迹，轨迹的运动方向同样离散化为多个字符。

其中，所述手语特征中的形状特征是利用手部轮廓的一阶矩和二阶矩得到左右手椭圆拟合后的椭圆长短轴和倾斜角度，同样将形状信息表示为字符，进而表示为字符串以表达时间序列特征。

其中，所述时间序列特征是左手和右手分别对应了坐标字符串、速度字符串和形状字符串，总共六个特征字符串表达了一段手语新闻的特征；手语新闻分段的规则是，如果一段手语包含了一个词或一个短语则切分为一段；由于这样可能导致一个手语词被切分到两段中去，所以，这里允许两个相邻视频段有5个字符的重合；手语特征存储为扩展标记语言文件并存放入数据库。

其中，用户检索时，对于用户通过摄像头输入的手语，得到视频分析之后的坐标、速度和形状特征，使用六个字符串以表征这段用户手语视频特征。

其中，所述距离度量表示如下：

D(i，j)＝λ₁D_position(i，j)+λ₂D_velocity(i，j)+(1-λ₁-λ₂)D_figure(i，j)

D(i，j)表示距离度量，i表示输入视频的第i帧特征，j表示数据库中视频的第j帧特征；其中D_position(i，j)表达两个手语位置之间的坐标距离，D_velocity(i，j)表达了速度相似度，D_figure(i，j)表达了形状相似度；λ₁，λ₂表达了坐标特征、速度特征和形状特征的权重比例。

其中，所述坐标，速度和形状用字符串表示，所以坐标，速度和形状的距离度量σ(X_1...i，Y_i...j)是基于编辑距离的算法表示为：

σ(X_1...i，Y_i...j)＝min{σ(X_1...i-1，Y_1...j)+τ(X_i→λ)，

σ(X_1...i-1，Y_1...j-1)+τ(X_i→Y_i)，

σ(X_1...i，Y_1...j-1)+τ(λ→Y_j)}，

式中，X_1...i，Y_i...j表示两个字符串；τ(X_i→λ)表示删除一个字符的代价，τ(X_i→Y_i)表示替换一个字符的代价，τ(λ→Y_j)表示插入一个字符的代价σ表示编辑距离度量、τ表示字符串的操作代价、λ表示空字符、min表示求最小值；字符之间的代价函数是根据极坐标位置的关系，重新定义字符之间插入删除和替换的代价，从而此处的编辑距离算法代价计算是跟坐标位置的远近，速度方向的差异，形状的差异而计算出来的代价。

本发明的有益效果：利用电视台实际录制的新闻节目作为评估数据，该方法能够做到快速、准确的找出与输入视频相似的手语视频，并且能有效地克服人工管理上的一些主观性和操作失误，从而促进对于手语新闻视频资源的有效管理以更好的服务于聋哑残疾人。本发明是通过人脸检测、肤色分割、光流计算和聚类分析以有效和鲁棒的追踪人手；通过手的坐标、速度和形状来刻画手的动态特征；使用字符串的编辑距离算法来计算输入视频和手语视频库中的视频片断的相似度。本发明解决了手语中快速且鲁棒的双手定位的问题，双手特征表示的问题和快速有效的手语相似度度量问题。

附图说明

图1a和图1b是本发明的手语视频特征提取和检索流程图。

图2是本发明的北京手语新闻播报以及人脸检测。

图3是本发明的手语表达中的极坐标系的建立。

图4是本发明的手语双手追踪的实现。

图5是本发明的坐标位置和相应字符的对应关系。

图6是本发明的用户录制的手语视频处理过程。

具体实施方式

下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。应指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

本发明提出了一种手语新闻中双手追踪、特征提取以及快速检索的方法，如图1a所示，该方法对手语新闻中的主持人双手进行追踪，获取双手的运动序列，速度和形状变化序列等内容，并以XML的形式存放起来以和其他系统数据交换。系统接受输入手语视频并且根据本发明定义的相似度量返回最相似的匹配结果。

1.人脸检测预处理

本发明提出对于每帧视频首先检测是否包含主持人人脸或者输入视频的用户人脸，如果不包含人脸就继续处理下一帧以加快处理过程。如图2所示，是以北京电视台手语新闻节目为例的主持人人脸检测过程。

2.极坐标系建立

如图3所示，本发明以人脸下方一倍人脸直径的距离位置，大体位于主持人胸部位置，作为极坐标系的中心。由于，手的运动基本上是在以此中心为圆心，以2.5倍人脸直径距离为半径的圆内运动的，从而构建这个极坐标系可以刻画手的坐标位置，并且该坐标可以归一化，极角在0到2∏间，极半径在0到1之间。图中，ρ表示极半径，θ表示极角度，v表示速度，α表示速度的方向。

3.双手追踪的实现

本发明提出一种双手的快速有效追踪的方法。双手的追踪和定位的过程如图1b所示。首先，对包含主持人的视频帧进行肤色分割。肤色分割的方法采用亮度色度颜色空间(YUV)中肤色的良好的聚类性质。肤色分割后得到二值化的灰度图。然后对前后两帧进行光流计算，由于灰度图中仅包含了肤色候选区域，所以此时的光流计算仅仅在这些肤色区域上进行，速度较快。光流块表达了图像中那些部位是肤色，并且还在快速运动，这个性质恰好对应了双手所应具有的特征。如图4所示，红色的圆点表示的是光流块，也就是包含肤色并且还在运动的小块区域。左手和右手范围内具有大量的光流块，这符合实际情况。对于这些光流块用K-Means聚类得到左手和右手的中心坐标，如图4黑点所示，可见，该方法准确找到了左手和右手的中心坐标。

4.特征字符串的生成

为了表达手的信息，本发明提取了双手的坐标，速度和形状特征。

对于坐标特征，当双手处理不同位置的时候，每个位置对应了一个唯一的字符，如图5所示。对于速度的方向，也是处于0到2∏间，同样离散化为字符。对于形状特征，如图4所示，本发明对于左手和右手的轮廓作了椭圆拟合，得到了长轴和短轴的比值和倾斜角。对于形状特征，本算法同样离散为一个字符，这样一段视频就对应了6个字符串，如下所示，BeginSenc元素表示开始时间点，：EndSenc表示结束时间点。LeftHandFeature，LeftHandVelocity，LeftHandFigure分别别是左手的坐标速度和形状特征；RightHandFeature，RightHandVelocity，RightHandFigure则分别表示了右手对应的特征。

<LeftHandFeature>WOQV4VUPQVPLPQU</LeftHandFeature>

<LeftHandVelocity>fpOakOkOJapJaEf</LeftHandVelocity>

<LeftHandFigure>nqAaqapqGGEvGGa</LeftHandFigure>

<RightHandFeature>WffV4VUPQVPfPfU</RightHandFeature>

<RightHandVelocity>kaaakOkOJapaEak</RightHandVelocity>

<RightHandFigure>naaaqapqGGEaGaa</RightHandFigure>

</Result>

5.手语相似度距离度量

为了计算输入手语视频片断和数据库中视频片断的相似性，本发明定义了一种距离度量，如下所示：

D(v_input，v_db)＝λ_leftD_left(i，j)+λ_rightD_right(i，j)

其中，v_input，v_db分别表示输入视频和数据库中的视频，D(v_input，v_db)表示的是输入手语新闻片段和数据库中手语新闻片段的相似度。D_left(i，j)表示左手的距离度量，D_right(i，j)表示右手的距离度量。λ_left表示左手的权重，一般为0.4，λ_right为右手的权重，一般为0.6，因为一般来说，右手在整个手语过程中起到更重要的表达作用。I表示输入视频的第i帧特征，j表示数据库中视频的第j帧特征。

其中D_left，right(i，j)定义如下：

D_left，right(i，j)＝λ₁D_position(i，j)+λ₂D_velocity(i，j)+(1-λ₁-λ₂)D_figure(i，j)

其中D_position(i，j)表达了坐标相似度，D_velocity(i，j)表达了速度相似度，D_figure(i，j)表达了形状相似度。λ₁，λ₂表达了三个特征的权重比例。进一步D_position(i，j)，D_velocity(i，j)，和D_figure(i，j)的距离则利用的经典的编辑字符串距离算法，这里用σ表示位置、速度和形状的距离度量。如下所示：

σ(X_1...i，Y_i...j)＝min{σ(X_1...i-1，Y_1...j)+τ(X_i→λ)，

σ(X_1...i-1，Y_1...j-1)+τ(X_i→Y_i)，

σ(X_1...i，Y_1...j-1)+τ(λ→Y_j)}

其中，X1...i，Yi...j表示两个字符串，σ(X1...i，Yi...j)表示两个字符串的编辑距离。τ(Xi→λ)表示删除一个字符的代价，τ(Xi→Yi)表示替换一个字符的代价，τ(λ→Yj)表示插入一个字符的代价。本算法定义代价函数跟两个字符所代表的方向成正比，比例为2，跟半径正比，比例为1。比如(0.5，∏/6)，(0.5，∏/3)的距离为2，因为方向差异∏/6。(0.6，∏/6)，(0.4，∏/6)的距离为1，因为半径差异0.2。半径差异的阶为0.2，方向差异的阶为∏/6。

图6是本发明用户录制的手语视频处理过程，在该图中双手运动的位置和形状已经标出。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的权利要求书的保护范围之内。

Claims

1.一种手语检索的方法，其特征在于，所述方法的步骤如下：

2.根据权利要求1所述的手语检索的方法，其特征在于，所述双手追踪和定位的步骤如下：

0.261 π \leq \tan^{- 1} (\frac{U}{V}) \leq 0.3111 π

43 \leq \sqrt{U^{2} + V^{2}} \leq 78

0.25 π \leq \tan^{- 1} (\frac{U}{V}) \leq 0.3161 π

0 \leq \sqrt{U^{2} + V^{2}} \leq 70

3.根据权利要求1所述的手语检索的方法，其特征在于，所述双手运动的的坐标特征是双手位置的极坐标表示；把极坐标值(ρ，θ)，在空间中离散化为多个字符，从而一帧的左右手坐标用两个字符表示，一段视频则对应了两个字符串。

4.根据权利要求1所述的手语检索的方法，其特征在于，所述双手运动的速度特征记录了手语运动序列的轨迹，轨迹的运动方向同样离散化为多个字符。

5.根据权利要求1所述的手语检索的方法，其特征在于，所述手语特征中的形状特征是利用手部轮廓的一阶矩和二阶矩得到左右手椭圆拟合后的椭圆长短轴和倾斜角度，同样将形状信息表示为字符，进而表示为字符串以表达时间序列特征。

6.根据权利要求1所述的手语检索的方法，其特征在于，所述时间序列特征是左手和右手分别对应了坐标字符串、速度字符串和形状字符串，总共六个特征字符串表达了一段手语新闻的特征；手语新闻分段的规则是，如果一段手语包含了一个词或一个短语则切分为一段；由于这样可能导致一个手语词被切分到两段中去，所以，这里允许两个相邻视频段有5个字符的重合；手语特征存储为扩展标记语言文件并存放入数据库。

7.根据权利要求1所述的手语检索的方法，其特征在于，用户检索时，对于用户通过摄像头输入的手语，得到视频分析之后的坐标、速度和形状特征，使用六个字符串以表征这段用户手语视频特征。

8.根据权利要求1所述的手语检索的方法，其特征在于，所述距离度量表示如下：

9.根据权利要求8所述的手语检索的方法，其特征在于，所述坐标，速度和形状用字符串表示，所以坐标，速度和形状的距离度量σ(X_1...i，Y_i...j)是基于编辑距离的算法表示为：

σ(X_1...i，Y_i...j)＝min{σ(X_1...i-1，Y_1...j)+τ(X_i→λ)，

σ(X_1...i-1，Y_1...j-1)+τ(X_i→Y_i)，

σ(X_1...i，Y_1...j-1)+τ(λ→Y_j))，

其中，X_1...i，Y_i...j表示两个字符串；τ(X_i→λ)表示删除一个字符的代价，τ(X_i→Y_i)表示替换一个字符的代价，τ(λ→Y_j)表示插入一个字符的代价σ表示编辑距离度量、τ表示字符串的操作代价、λ表示空字符、min表示求最小值；字符之间的代价函数是根据极坐标位置的关系，重新定义字符之间插入删除和替换的代价，从而此处的编辑距离算法代价计算是跟坐标位置的远近，速度方向的差异，形状的差异而计算出来的代价。