CN104091318B

CN104091318B - 一种中国手语视频过渡帧的合成方法

Info

Publication number: CN104091318B
Application number: CN201410267089.8A
Authority: CN
Inventors: 王立春; 朱婷婷; 孔德慧
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2014-06-16
Filing date: 2014-06-16
Publication date: 2017-06-13
Anticipated expiration: 2034-06-16
Also published as: CN104091318A

Abstract

本发明公开了一种中国手语视频过渡帧的合成方法，其大大减少了合成的过渡帧图像所产生的阴影和重叠、真实性高、边界的拼接效果自然。其包括步骤：(1)对校准视频帧中手的特征点进行标记，由这些特征点的二维坐标计算其三维坐标，并依据这些特征点的三维坐标对一个一般化的三维手模型进行比例调整；(2)采用基于模板图的手部纹理生成算法，对步骤(1)的图像的纹理进行优化；(3)将步骤(2)生成的手势图像与胳膊、躯干图像进行融合，生成视频过渡帧。

Description

一种中国手语视频过渡帧的合成方法

技术领域

本发明属于计算机图像处理的技术领域，具体地涉及一种中国手语视频过渡帧的合成方法。

背景技术

在中国有大量听障人群，手语是他们进行交流的语言。手语运用空间运动表达语义，是一种视觉空间语言。基于计算机合成的中国手语视频，具有较强的真实感和较好的可接受程度，其视觉语言表达界面更为形象生动，能够更好的服务听障人群，使他们能够与健听人一起感受高速发展的文明，具有极其广泛的社会意义。基于计算机合成手语视频时，若干手语词视频片段按照文本语法规则重新组合成新的手语视频，而时间轴上相邻的手语词视频片段在运动轨迹、手势等方面存在视觉差异，因此需要插入过渡视频帧以增强真实感。过渡视频帧的获得有两个途径，检索预先设定的视频帧数据库或者通过拼接图像块进行合成，前者要求采集任意两个可能邻接的手语词视频间的过渡数据，对数据采集和存储要求过高，因此合成过渡视频帧是实现基于视频手语合成的重要基础工作。

近几年，合成手语视频过渡帧成为了一个研究重点。吴宗宪等人于2005年提出了一种使用NURBS样条函数描述手部运动轨迹的方法，并且基于光流算法生成视频片段之间的过渡帧图像。王茹等人提出了一种基于多维语义模型的中国手语视频合成方法。该方法将多维语义描述的方法用在中国手语视频的合成中，利用人体的各个部件图像，合成视频过渡帧。此类方法通过合成视频过渡帧，使合成的手语视频过渡更加平滑，但是也存在一些不足。吴宗宪等人方法中的过渡手势形态选取和角度变化不够精确平滑，合成的过渡帧图像容易产生阴影和重叠现象；王茹等人的方法虽然很好的解决了手势形态变化不够平滑的问题，但是手势投影图像真实性不高，各个部件图像边界的拼接效果不够自然。

发明内容

本发明的技术解决问题是：克服现有技术的不足，提供一种中国手语视频过渡帧的合成方法，其大大减少了合成的过渡帧图像所产生的阴影和重叠、真实性高、边界的拼接效果自然。

本发明的技术解决方案是：这种中国手语视频过渡帧的合成方法，包括以下步骤：

(1)对校准视频帧中手的特征点进行标记，由这些特征点的二维坐标计算其三维坐标，并依据这些特征点的三维坐标对一个一般化的三维手模型进行比例调整；

(2)采用基于模板图的手部纹理生成算法，对步骤(1)的图像的纹理进行优化；

(3)将步骤(2)生成的手势图像与胳膊、躯干图像进行融合，生成视频过渡帧。

本发明基于单目视频的三维手模型重构方法和基于图像融合的手语视频过渡帧生成方法，从手势投影图像和部件图像拼接两个方面合成真实感较好的中国手语视频过渡帧，大大减少了合成的过渡帧图像所产生的阴影和重叠、真实性高、边界的拼接效果自然。

附图说明

图1是根据本发明的手特征点及其编号。

图2a和2b分别是根据本发明的手纹理模板图及纹理区域划分。

图3a和3b分别是根据本发明的手模型投影图像纹理区域与纹理模板图纹理区域的对应关系示意图。

具体实施方式

这种中国手语视频过渡帧的合成方法，包括以下步骤：

优选地，步骤(1)包括以下分步骤：

(1.1)手部图像2D特征点标注；

(1.2)特征点三维坐标计算；

(1.3)特征点约束的一般化手模型形变；

(1.4)手势投影。

优选地，步骤(1.2)中采用基于高斯分布的非刚性物体重构方法首先对输入的手特征点的图像坐标矩阵W采用秩3因式分解的方法分解为旋转矩阵R和平均刚性形状以及平移矩阵T；然后根据初始估计的旋转矩阵R，平移矩阵T，平均刚性形状采用最小二乘法最小化投影错误的方法得到初始的变形形状V和权重Z；接着计算出初始的高斯方差σ²；然后进入循环迭代更新参数的过程，更新的参数包括权重Z、平均刚性形状变形形状V、有信息缺失的图像坐标矩阵W^*、旋转矩阵R、平移矩阵T；最后根据各个参数计算得出手特征点的三维信息S。

优选地，步骤(1.3)中采用拉普拉斯表面编辑的方法对已有的手模型进行形变计算。

优选地，步骤(1.4)中手模型经过OpenGL底层图形库渲染得到对应的手势投影图像，并且根据OpenGL中的模拟变换方法获得三维手模型的特征点在投影图像上的二维坐标和投影深度。

优选地，步骤(2)包括以下分步骤：

(2.1)初始化，确定手势投影图像中指定区域中区块的最近邻：根据手纹理模板图的纹理区域划分和手模型特征点在投影图像上的二维坐标，将手势投影图像划分为手背、手心、食指指根、食指指中、食指指尖等59个投影区域，分别与纹理模板图中的相应纹理区域对应，进行编号并建立索引；通过计算对应纹理区域四个顶点之间的仿射变换关系，利用仿射变换获得投影区域内的每个像素区块的最近邻区块；

(2.2)增殖阶段，对余下的区域进行自适应的区块匹配：进行奇数次迭代时，对图像进行从左上方向右下方的扫描处理，进行偶数次迭代时，对图像进行从右下方向左上方的扫描处理，此时偏移量为公式(9)

f(x，y)＝arg min{D(f(x，y))，D(f(x+1，y))，D(f(x，y+1))} (9)

f(x，y)表示目标图像中坐标为(x,y)的区块与其在源图像中的最近邻区块的坐标偏移量；D(v)表示源图像中区块(x，y)与目标图像中区块((x，y)+v)使用RGB的颜色值计算的欧式距离。

经过若干次迭代之后，手模型投影图像中的所有图像区块都在模板图像中找到了最近邻，对每一个图像像素都使用它的最近邻进行像素替换，实现手模型投影图像的纹理优化。

优选地，步骤(3)采用公式(8)进行融合：

其中，Q＝N(q)是一个w×w大小的图像区块并且q在这个区块的左上角，P＝f(N(p))是一个w×w大小的图像区块,f代表对包含原像素p的区块P做几何和光照的转化，图像采用CIE L*a*b*颜色模型(Lab)，所有的区块都有3个通道(L,a,b)，λ为权值参数，D表示颜色距离的平方和，T表示目标图像即融合图像，S表示源图像即待拼接视频中的原始视频帧。

以下对本发明进行更详细的说明。

合成手语视频的整体效果直接取决于过渡帧的效果，因此在视频合成时，提升过渡帧的视觉效果是关键问题。本发明采用融合部件图像的方法合成手语视频过渡帧，借助三维手模型的二维投影图像生成视频拼接点间过渡帧中的手势部分。针对投影手势的比例结构问题，首先对校准视频帧中手的特征点进行标记，由这些特征点的二维坐标计算其三维坐标，并依据这些特征点的三维坐标对一个一般化的三维手模型进行比例调整；针对投影手势的纹理问题，采用基于模板图的手部纹理生成算法，对手势投影图像的纹理进行优化；最后将生成的手势图像与胳膊、躯干图像进行融合，生成视频过渡帧。

1.手部图像2D特征点标注

①特征点定义

根据可数据驱动的三维手模型的结构特点，采用一种将手形轮廓和手指关节相结合的手特征点标注策略(如图1)。依据组成手模型的16个Segment，共选取68个特征点，所对应手的位置及编号如图1所示。

②校准视频定义

采用一段包含五指张开的标准手势(即中国手语基本手型中的“五-伸”手势)的校准视频。在为了构建手语词视频库进行手语视频采集时，预先录制一段动作变化较缓慢的校准视频，校准视频与手语视频采集的设备、环境、光照以及演示手语的手语老师均相同。

③逐帧标注特征点

对校准视频中的300帧图像逐帧按特征点编号顺序标注手特征点。先对每个视频帧中可观察的手特征点进行标注，对于隐藏的特征点标记为缺省，获得所有视频帧的所有特征点的图像坐标或者缺省标记。采用步骤2中描述的基于高斯分布的手模型表面重构算法，估计出缺省的特征点的图像坐标。最后对部分估计得到的特征点图像坐标进行修正。

2.特征点三维坐标计算

采用Torresani等人提出的基于高斯分布的非刚性物体表面重构方法。假设物体在每个瞬间的形状满足高斯分布，基于这种假设能够对每个视频帧的物体的3D形状进行估计，也能够较好的恢复缺失的二维信息。

对非刚性物体建模的常用方法是假设物体形状是在刚性平均形状中加入变形因子：

其中z_kf是一个标量，表示每一帧中每个形状对物体形状变形的贡献；和V_k被称为形状基；采用Tomasi等人提出的刚性物体表面重构方法得到。假设物体的形状S_f是从一个概率分布p(Sf|θ)中提取出来的，参数θ已知，参数z_f服从零均值单位方差的高斯分布z_f～N(0；I)。那么非刚性物体表面重构问题就近似为估计R_f，T_f，V，σ²的最大概率，即最大化概率

算法流程：首先对输入的手特征点的图像坐标矩阵W采用秩3因式分解的方法分解为旋转矩阵R和平均刚性形状以及平移矩阵T。然后根据初始估计的旋转矩阵R，平移矩阵T，平均刚性形状采用最小二乘法最小化投影错误的方法得到初始的变形形状V和权重Z。接着计算出初始的高斯方差σ²。接下来进入循环迭代更新参数的过程，更新的参数包括权重Z、平均刚性形状变形形状V、有信息缺失的图像坐标矩阵W^*、旋转矩阵R、平移矩阵T。最后根据各个参数计算得出手特征点的三维信息S。

3.特征点约束的一般化手模型形变

采用拉普拉斯表面编辑的方法对已有的手模型进行形变计算。以下以食指指尖部分为例，详细描述如何进行模型调整。食指指尖一共选取了5个特征点，对应于食指指尖模型的顶点v₆,v₄₃,v₃₁,v₅₄,v₂₃。令S_f表示计算得到的68个特征点的三维坐标，其中与食指指尖相关的5个特征点的三维信息标记为S_{index_ext}，食指指尖的原始三维模型由64个点和124个三角面片组成，这64个点的三维坐标表示为V_{index_ext}，三角面片的拓扑结构表示为F_{index_ext}，V_{index_ext}中与特征点相关的对应的5个点提取出来表示为V_{indext_f}。已知V_{index_ext}和F_{index_ext}，可以计算出拉普拉斯矩阵L_{i_e}，并且求出指尖模型中所有顶点的偏微分坐标δ_{index_ext}。

指尖模型中的所有顶点的变形后坐标矩阵

其中ω为预先设定的系数。

通过以上方法能够得出食指指尖的新三维模型，对于食指的中间部分和食指指根部分，以及手的其他部分(比如手掌、大拇指等)都采用这样的方法进行比例的调整。在比例调整过程中，每个模型中点的拓扑关系不变。

4.手势投影

使用3D中国手语动作数据驱动优化后的三维手模型，手模型经过OpenGL底层图形库渲染得到对应的手势投影图像，并且根据OpenGL中的模拟变换方法获得三维手模型的特征点在投影图像上的二维坐标。

5.手部纹理生成

提出一种基于纹理模板图的手部纹理生成方法。该方法在基于区块匹配的图像融合算法的基础上进行改进，针对视频过渡中各种手势的手模型投影图像，采用手纹理模板图进行手部纹理的生成。

从采集的原始手语视频中选取了五种角度的手图像组合成手纹理模板图(如图2a所示)。模板图包含手背、手心、手指以及指甲等手的纹理细节。在手部纹理生成过程中，对这些手纹理分块进行变形重组，组成不同手势的手纹理。参照步骤1中手特征点定义，将手纹理划分为23个纹理区域(如图2b)。除指尖部分外，每个纹理区域的4个顶点都对应于图2中标注的手特征点。以“纹理区域1”为例，顺时针对应手特征点37、特征点53、特征点39、特征点40。

为了保留纹理原有的形态，在对图像进行处理时不是对每个像素进行单独处理而是对以每个像素为中心的w×w大小的图像区块进行处理，核心思想是计算图像区块之间的对应关系,即Barnes等人提出的广义区块匹配。假设两幅图像A和B，a和b分别为它们的某图像区块，定义一个函数f表示最近邻域，则f(a)→b表示图像A中的区块a在图像B中的最近邻为区块b。以区块的左上角像素的坐标表示该区块，区块a在图像A中的坐标x_a,y_a,，区块b在图像B中的坐标u_b，v_b，则f(x_a,y_a)＝[(u_b-x_a),(v_b-y_a)]实际计算区块之间的偏移量。这种偏移量即表示一种映射关系。

通过计算出手模型投影图像各个图像区块与纹理模板图像中区块的最近邻关系，再使用纹理模板中的最近邻区块替换手模型投影图像中的区块，达到优化手模型投影图像纹理的效果。

此方法主要分为初始化阶段和propagation阶段。初始化阶段确定手模型投影图像中一些区域中区块的最近邻，propagation阶段对余下的区域进行自适应的区块匹配。

初始化阶段

为了有效的寻找图像区块之间的最佳对应关系，需要为一些特定区域的区块预先指定最近邻。例如手模型投影图像中掌心的纹理区域应该对应于纹理模板图中掌心的区域。纹理模板图中掌心的纹理区域可以预先划定范围，但是不同手势的掌心区域在投影图像中的位置各不相同。根据步骤4可以确定手模型的某一个部分在投影图像上的坐标。通过手模型特征点在投影图像上的二维坐标，结合图3的纹理模板的纹理区域划分，将手模型的投影图像划分为图3a所示的形式，图3中仅示意了部分区域。对手模型投影图像的纹理区域和模板图中的纹理区域分别进行编号，并建立索引，见表1。表中仅以右手为例，左手的编号顺序有所不同。

表1手模型投影图像纹理区域与纹理模板图纹理区域(部分)对应关系表

a)投影图像纹理区域(部分)顶点表

b)模板纹理区域(部分)顶点表

c)模板纹理区域(部分)顶点坐标

以区域M1为例介绍一下如何计算图a与图b中的纹理对应关系：

定义由区域M1的4个顶点组成的矩阵

由区域1的4个顶点组成的矩阵

它们之间的变换关系其中为齐次形式。假设区域M1内某区块s(x，y)，则它的最近邻区块

在实际的算法处理中，逐行逐列的扫描投影图像，先对其中每一个像素属于哪个投影图像纹理区域进行判断，再按照所属纹理区域与模板图中纹理区域的对应关系计算此像素在模板图中的最近邻域。

手模型是立体结构，所有由特征点连接的特征区域在投影图像中不可能同时可见，投影图像中的某一点P可能同时在若干个特征区域的投影范围内，这时采用两个方法相结合对其进行判断。

第一个方法是对所有特征区域逐个判断在投影图像中是否可见。由OpenGL的模拟变换方法可以得到手模型特征点在投影图像上的图像坐标x,y和投影深度坐标z。对每一个特征区域计算平面法向，根据法向判断该特征区域在投影图像中可见，如果不可见则直接标记为被遮挡。

第二个方法是计算某一点P的投影深度。如果某一点P同时属于F1、F2、F3三个特征区域的投影范围M1M2M3，那么分别计算点P在这三个投影范围内时的投影深度d₁、d₂、d₃，确定点P所属的投影范围M_i←d_i＝arg min{d₁,d₂,d₃}。其中，根据手模型特征点在投影图像上的图像坐标和投影深度坐标，可以计算出投影区域中某一点P(x,y)的投影深度坐标。

propagation阶段

在初始化阶段中，可以为大部分的投影图像区域指定最近邻，但是并不能覆盖所有的手模型投影区域。对于没有指定最近邻的区域，采用即Barnes等人提出的广义区块匹配算法中的propagation方法计算最佳对应关系。

假设手模型投影图像为图像A，纹理模板图像为图像B，前面定义了偏移量f(x，y)表示A中区块(x，y)在B中的当前最近邻。假设区块(x-1，y)和区块(x，y-1)已经确定了最近邻即偏移量f(x-1，y)和f(x，y-1)，区块(x，y)的最近邻可以从点(x-1，y)和点(x，y-1)传递过来。定义D(v)表示A中区块(x，y)与B中区块((x，y)+v)的欧式距离(使用RGB的颜色值计算)，偏移量：

f(x，y)＝arg min{D(f(x，y))，D(f(x-1，y))，D(f(x，y-1))} (10)

初始化阶段之后，对propagation阶段进行迭代。进行奇数次迭代时，对图像进行从左上方向右下方的扫描处理。进行偶数次迭代时，对图像进行从右下方向左上方的扫描处理，此时偏移量：

f(x，y)＝arg min{D(f(x，y))，D(f(x+1，y))，D(f(x，y+1))} (9)

经过若干次迭代之后，手模型投影图像中的所有图像区块都在模板图像中找到了最近邻，对每一个图像像素都使用它的最近邻进行像素替换，最终实现手模型投影图像的纹理优化。

6.部件图像融合

将多个部件图像进行融合时，如果仅采用简单的叠加像素值的方法，部件图像边缘可能会出现缝隙或者过渡不均匀的情况。针对这种现象采用Darabi等人提出的基于区块和梯度的图像融合方法。使用这种方法对部件图像进行融合之前，必须确定各个部件图像的哪些部分需要进行修复即圈定一个mask区域。建立胳膊形态图像库时，对每个胳膊图像进行了文本标记，记录了肩关节，肘关节和腕关节在原手语视频帧中的位置，通过提取肩关节、腕关节位置信息对待处理图像进行定位，标注为一个适当大小的区域。

部件图像的融合结果作为目标图像，其中的mask区域表示需要处理的目标区域T，待拼接视频片段的图像帧作为源图像S。基于区块的最优化问题用公式(7)来表示：

其中，Q＝N(q)是一个w×w大小的图像区块并且q在这个区块的左上角；P＝f(N(p))是一个w×w大小的图像区块,f代表对包含原像素p的区块P做几何和光照的转化。图像采用CIE L*a*b*颜色模型(Lab)，所有的区块都有3个通道(L,a,b)。D表示距离的平方和。

加入区块的梯度信息，公式(7)改进为公式(8)：

仍然采用CIE L*a*b*颜色模型(Lab)，加入梯度信息后所有的区块都有5个通道()。转换函数f包含平移、旋转、缩放等。

我们对上述模型进行了实验验证，并取得了明显的效果。在实验中，校准视频数据和手语视频数据均使用佳能5D数码相机采集，采样分辨率为1920*1080，采样帧率为25帧/秒，采集环境为室内，采集光照为日光灯和两组540W柔光灯。将手语视频数据按照中国手语词库切分成手语词视频片段并进行视频帧语义信息标注，根据语义信息进行胳膊和手的运动估计，进而选取合适的胳膊姿态并驱动三维手模型获得正确的手势。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.一种中国手语视频过渡帧的合成方法，其特征在于：包括以下步骤：

(3)将步骤(2)生成的手势图像与胳膊、躯干图像进行融合，生成视频过渡帧；

步骤(1)包括以下分步骤：

(1.1)手部图像2D特征点标注；

(1.2)特征点三维坐标计算；

(1.3)特征点约束的一般化手模型形变；

(1.4)手势投影；

步骤(2)包括以下分步骤：

(2.1)初始化，确定手势投影图像中指定区域中区块的最近邻：根据手纹理模板图的纹理区域划分和手模型特征点在投影图像上的二维坐标，将手势投影图像划分为59个投影区域，该59个投影区域至少包括手背、手心、食指指根、食指指中、食指指尖，分别与纹理模板图中的相应纹理区域对应，进行编号并建立索引；通过计算对应纹理区域四个顶点之间的仿射变换关系，利用仿射变换获得投影区域内的每个像素区块的最近邻区块；

(2.2)增殖阶段，对余下的区域进行自适应的区块匹配：进行奇数次迭代时，对图像进行从左上方向右下方的扫描处理，某区块左方和上方区块的最佳偏移量作为该区块的最佳偏移量的候选值；进行偶数次迭代时，对图像进行从右下方向左上方的扫描处理，某区块右方和下方区块的最佳偏移量作为该区块的最佳偏移量的候选值，此时偏移量为公式(9)

f(x,y)＝arg min{D(f(x,y)),D(f(x+1,y)),D(f(x,y+1))} (9)

f(x,y)表示目标图像中坐标为(x,y)的区块与其在源图像中的最近邻区块的坐标偏移量；D(v)表示源图像中区块(x,y)与目标图像中区块((x,y)+v)的使用RGB的颜色值计算的欧式距离；

2.根据权利要求1所述的中国手语视频过渡帧的合成方法，其特征在于：步骤(1.2)中采用基于高斯分布的非刚性物体重构方法首先对输入的手特征点的图像坐标矩阵W采用秩3因式分解的方法分解为旋转矩阵R和平均刚性形状以及平移矩阵T；然后根据初始估计的旋转矩阵R，平移矩阵T，平均刚性形状采用最小二乘法最小化投影错误的方法得到初始的变形形状V和权重Z；接着计算出初始的高斯方差σ²；然后进入循环迭代更新参数的过程，更新的参数包括权重Z、平均刚性形状变形形状V、有信息缺失的图像坐标矩阵W^*、旋转矩阵R、平移矩阵T；最后根据各个参数计算得出手特征点的三维信息S。

3.根据权利要求2所述的中国手语视频过渡帧的合成方法，其特征在于：步骤(1.3)中采用拉普拉斯表面编辑的方法对已有的手模型进行形变计算。

4.根据权利要求3所述的中国手语视频过渡帧的合成方法，其特征在于：步骤(1.4)中手模型经过OpenGL底层图形库渲染得到对应的手势投影图像，并且根据OpenGL中的模拟变换方法获得三维手模型的特征点在投影图像上的二维坐标和投影深度。

5.根据权利要求2所述的中国手语视频过渡帧的合成方法，其特征在于：步骤(3)采用公式(8)进行融合：

E (T, S) = Σ_{q &Subset; T} \min_{p &Subset; S} (D (q, p) + λ D (&dtri; Q, &dtri; P)) - - - (8)

其中，Q＝N(q)是一个w×w大小的图像区块并且目标像素q在这个区块的左上角，P＝f(N(p))是一个w×w大小的图像区块,f代表对包含原像素p的区块P做几何和光照的转化，图像采用CIE L*a*b*颜色模型(Lab)，所有的区块都有3个通道(L,a,b)，λ为权值参数，D表示颜色距离的平方和，T表示目标图像即融合图像，S表示源图像即待拼接视频中的原始视频帧。