CN104331164B

CN104331164B - 一种基于手势识别的相似度阈值分析的手势运动平滑处理方法

Info

Publication number: CN104331164B
Application number: CN201410708575.9A
Authority: CN
Inventors: 韩慧健; 张锐; 贾可亮; 刘峥; 梁秀霞; 其他发明人请求不公开姓名
Original assignee: Individual
Current assignee: Individual
Priority date: 2014-11-27
Filing date: 2014-11-27
Publication date: 2017-10-27
Anticipated expiration: 2034-11-27
Also published as: CN104331164A

Abstract

一种基于手势识别的相似度阈值分析的手势运动平滑处理方法，包括利用视频或图像采集装置获取手势图像，进行预处理，将人物图像按照轮廓、颜色、纹理分割为轮廓图像、颜色图像和纹理图像；将经过处理的轮廓图像、颜色图像和纹理图像进行再合成，建立手势图像数据库；基于手势图像数据库中的手势图像，通过高阶四元数插值的关键帧插值进行平滑连接合成连贯的手势动作，建立与手势图像匹配的手势运动基元模型。基于手势识别的相似度阈值分析的手势运动平滑处理方法基于真人图像建立，画面生动真实，并且虚拟人模型灵活多变，能够直观、生动的表现，消除了运动跨度过大导致运动过渡的难题并有效地实现了运动细节的增强与保持，进行插值平滑以协调过渡前后的运动序列。

Description

一种基于手势识别的相似度阈值分析的手势运动平滑处理方法

技术领域

本发明涉及手势动画研究领域，更具体地说涉及到手势动画合成中基于手势识别的手势运动基元过渡帧定位方法。

背景技术

语言伴随性手势合成是以自然语言理解为基础，使用手势作为虚拟人语言信息表达的辅助输出方式。已有手势合成研究主要集中在以自然文本汉语词与手语词映射为基础的手语动画合成，并未考虑语言伴随手势，使得虚拟人类似于机器人一样机械运动，无法满足人机交互的智能性和交互性要求，在交互性和真实感方面还有待提升。在人机交互过程中，通过语言伴随性手势合成研究能够为人机交互中手势和语音协同表达提供解决方案，提高手势动画的真实感，实现虚拟人生动、形象、直观的视觉运动效果。

手势识别主要是通过分析手势具有的各种特征实现对手势的判断，这些特征主要包括颜色特征、纹理特征、形状特征、轮廓特征及动态手势具有的运动特征等。目前，手势识别系统主要分为基于数据手套的识别系统和基于视觉的识别系统。基于数据手套的识别系统主要通过传感器获取人手运动的信号，这种方式更有利于获取手势运动信息；然而,这些设备价格非常昂贵而且在使用这些设备的同时往往给用户带来诸多不便。但是，基于视觉的识别系统由于不需要价格昂贵的硬件设备，因此越来越适合人机交互技术。早期的基于视觉的手势识别系统往往需要对手势进行标记然后再进行图像处理；然而，目前基于视觉的手势识别系统主要是利用手势特征如手势颜色、手势形状、手势轮廓或其他深度信息进行识别。基于视觉的手势识别系统可以识别输入视频中的不同手势，并且用这些手势作为计算机的人工输入命令，并且可以建立包括有完整人物及其手势的图库、并且这种手势识别系统由于设备简单，因而使用方便有效。基于视觉的手势识别系统为人机交互提供了一种直观的交流方式。

语言伴随性手势作为一种动作语言，是手和手臂运动的统一，需要计算机动画来实现具体动作。人体的外形主要由皮肤和所附着骨骼肌肉运动决定的，因此，在描述手势动作之前必须先建立一个静态几何模型，通过激活具有大量关节的复杂模型，根据决定运动的几个主关节的最终角度可以确定手臂运动，从而创建精确灵活的基本手势动作单元——手势运动基元。根据伴随语言学和统计学分析，基于语言连贯表达的手势运动基元连接能够实现的手势和有声语言的协同表达，提高运动合成效果和真实感。然而，目前虚拟人并非基于真人图像建立，不够生动真实，并且虚拟人模型固定，无法根据环境和需要进行变换。

此外，手势和语言是时序并行输出的，手势运动要素会随着语言的连贯表达而时刻变化。当人们进行口语交流时形成连续不断的语流，同样手势姿态连续表达会生成相应的手势动作，语言和手势之间存在相互的层级关系。作为生成手势动画的基础，如何实现基本的手势动作在语言中的定位成为语言伴随学和虚拟现实技术的研究难点。随着计算机技术的进一步发展，数字媒体技术的出现为手势与语言映射提供了解决方案——音视频数据分析。通过对音视频数据进行分析，将其中的语言和手势进行转写，并标记对应位置，将能够有效地实现手势与语言的协同表达。

然而，现有的方法存在诸多不足源于所处理的主要是非结构化运动模型之间的过渡，运动过渡关键帧只能实现时序性，单纯靠关键帧数值相似度计算进行运动平滑容易造成运动细节丢失。大多数运动过渡都会在运动过程中产生一个微小的不连贯，但是如果一个运动序列仅是从一个运动姿态直接跳转到另一个运动姿态，将会产生运动跳跃现象影响动画合成的可理解性和真实感，主要以手臂运动为主的虚拟人手势动作之间平滑过渡则要更复杂些，因为两个手势动作之间运动幅度较大，前一个手势动作的最后一个手势姿态(最后一帧)与下一个手势动作的第1个手势姿态(第1帧)之间一般不存在运动相关性，并且它们之间的差别可以是任意的，如果不做平滑处理，必然导致手势动作的跳跃现象。

本发明利用具有结构化和实例化的手势运动模型不但消除了运动跨度过大导致运动过渡难以实现问题，还有效地实现了运动细节的增强与保持，还提出了关键帧相似度阈值分析的高阶四元数插值方法对待合成的整个关键帧序列(而不是仅对过渡帧)进行插值平滑以协调过渡前后的运动序列。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于真人图像建立，画面生动真实，并且虚拟人模型灵活多变，能够直观、生动的方式表现手势动作，而且消除了运动跨度过大导致运动过渡的难题并有效地实现了运动细节的增强与保持的基于手势识别的手势运动基元过渡帧定位方法，并且云数据库单元的使用，使得数据备份份数更多，更有保障，利用了云计算端大的存储容量，优越的运算能力和更广的数据网络，功能更加强大，结合远程客户端，可以对数据进行自定义编辑后更新，操作和查询更加方便，可控性更强，更加灵活多变，适应性更强。

本发明提供了一种基于手势识别的相似度阈值分析的手势运动平滑处理方法，依次包括以下步骤：

(1)利用视频或图像采集装置获取一个或多个分辨率为N×M的手势图像，对一个或多个手势图像进行预处理，将一个或多个手势图像中的人物图像提取出来，删除除了人物图像部分之外的背景图像；

(2)对提取后的人物图像进行去噪处理，消除传输和采集过程中的噪声干扰，之后将去噪后的人物图像按照轮廓、颜色、纹理分割为轮廓图像、颜色图像和纹理图像；

(3)对轮廓图像进行修正，进行平滑处理；

(4)将颜色图像按照RGB图像的R、G、B三个分量通道进行分解，分别将三个分量通道中的每一个像素与其邻近的8个像素构成3×3的像素块，按照如下公式分别得到处理后的每一个像素分别对应的R、G、B三个分量的值：

P_ij(R)、P_ij(G)、P_ij(B)分别为经过处理后的R、G、B三个分量通道中的像素值，P_ij为R、G、B三个分量通道中对应第i行、第j列的像素值，其中i＝1,2,…,N,j＝1,2,…,M；

(5)将经过处理后的R、G、B三个分量通道中的像素值进行分配，合成经过处理后的颜色图像；

(6)对纹理图像进行修正，进行平滑处理；

(7)将经过处理的轮廓图像、颜色图像和纹理图像进行再合成，建立手势图像数据库；

(8)基于手势图像数据库中的手势图像，按照身体的生理结构以及各个关节运动时的约束关系，以关键帧的方式建立手势动作的基本单位，并且描述所述基本单位的时序变化信息；

(9)通过高阶四元数插值的关键帧插值进行平滑连接合成连贯的手势动作，建立与手势图像匹配的手势运动基元模型；

(10)将手势运动基元模型和图像数据库中的手势图像对应合成，建立虚拟人数据库；

(11)将虚拟人数据库中的数据上传至云数据库单元，所述云数据库单元将接收到的数据存储后作为备份数据，供远程客户端下载；远程客户端下载云数据库单元中存储的数据，进行自定义编辑，将自定义编辑后的数据回传至虚拟人数据库，对虚拟人数据库中的数据进行更新。

附图说明

图1语义手势匹配流程示意图

图2手势运动基元中各运动阶段中各关节运动特征图

具体实施方式

下面详细说明本发明的具体实施，有必要在此指出的是，以下实施只是用于本发明的进一步说明，不能理解为对本发明保护范围的限制，该领域技术熟练人员根据上述本发明内容对本发明做出的一些非本质的改进和调整，仍然属于本发明的保护范围。

图1中自然语言与手势码匹配需要借助于自然语言与手势协同映射关系，通过对音视频数据进行分析，将其中的语言和手势进行转写，并标记对应位置，能够有效地实现手势与语言的协同表达，通过MacSHAPA对视频转录获取手势与自然语言的映射匹配，并通过具有语言连贯表达特性的运动基元进行拼接合成连续手势动画。

在交流中的伴随语言产生的手势有些是相对固定的，而大多数的手势都具有较大的随机性特点，但是相对而言，由于人的生理结构等约束和限制，人的手势又是相对固定的，因此，研究中将实现语言与手势之间的非线性匹配，即相同的交流话题中可能有不同的手势出现，或者是同一手势运动的幅度不同。

由于所关注的焦点是人与虚拟人“语言”交流过程中语言伴随的手势动画合成，因此在转写话语过程中仅限于交流过程中虚拟人一方所说的“言语”，只包括虚拟人在人机对话过程中进行“语言”交流时有意义且含有主谓的言语单位或言语片段，不包括输入的交互语言、其他情感和停顿等信息，针对智能咨询员(虚拟人)在对一款软件进行介绍时的言语信息和手势转写如表1。

表1自然语言与手势运动基元映射

采用转写规则，其中“/”表示一个言语节，“[]”表示手势协同表达的话语，“G11,G12,G13”表示不同的手势运动基元编码，“(())”表示所做手势的语义描述。其中第二个语句中涉及到两个手势运动基元的连接，如果是基于同一话题的整个交流中，这样的手势连续表达现象比较明显。

本发明根据手势识别和手势运动特点，以及运动任务目标原理，提出了一种本发明提供了一种基于手势识别的相似度阈值分析的手势运动平滑处理方法，依次包括以下步骤：

(3)对轮廓图像进行修正，进行平滑处理；

(6)对纹理图像进行修正，进行平滑处理；

所述步骤(8)中以关键帧的方式建立手势动作的基本单位，并且描述所述基本单位的时序变化信息步骤中,还包括为手势运动基元模型中的关键帧添加flag标记位，将手势运动基元按具有时间次序关键帧标注“start”，“prepare”，“achieve_goal”，“release_goal”，“end”,并且将每个手势运动基元分解为四个运动时段：准备阶段、伸出阶段、后伸出阶段、恢复阶段。

所述通过高阶四元数插值的关键帧插值进行平滑连接合成连贯的手势动作，建立与手势图像匹配的手势运动基元模型，具体包括如下步骤：

基于高阶四元数插值的手势运动平滑：假设q_i(l)和q_j(l)分别表示运动序列S中相邻关键帧G_i和关键帧G_j处上肢第l个关节旋转角所表示的四元数组的关键姿态，其中1≤l≤6，H表示要插补的关键帧数量，通过衡量相邻关键帧距离来获得，则插补第k帧时可通过以下方式获得,其中1≤k≤H：

其中，q_k(l)表示合成运动中新插第k帧中第l关节姿态，θ是其所旋转的角度大小，并且cosθ＝q_i(l)·q_j(l),插值系数a(k)与需要在q_i(l)和q_j(l)之间进行插补的帧数H相关，取值范围为[0,1]；

利用插补的关键帧数量N和插值系数权值α(k)对运动序列进行插值平滑，通过衡量关键帧相似度Sim来计算插补的关键帧数量H和关键帧插值系数a(k)，达到动作均匀平滑过渡。

对手势关键帧G_i与G_j相似度Sim(G_i,G_j)计算如下：Sim(G_i,G_j)＝Dist(p_i,p_j)+vDist(v_i,v_j)，其中Dist(p_i,p_j)表示各个关节角度加权距离，Dist(v_i,v_j)表示各关节旋转加速度的加权距离，参数v表示不同关节位置对速度差异的影响权重。

此外，还包括步骤(12)：在手势与语言协同表达的手势动画合成过程中，根据转写规则在手势运动基元全集上存在一个运动基元覆盖路径，在以上运动基元覆盖路径下实现基于运动基元连接的手势动画合成。

优选地，通过MacSHAPA获取手势与自然语言的映射匹配。

步骤(8)中所述基于手势图像数据库中的手势图像，按照身体的生理结构以及各个关节运动时的约束关系，以关键帧的方式建立手势动作的基本单位，并且描述所述基本单位的时序变化信息，具体包括如下步骤：

对两个待合成手势运动基元Φ_i和Φ_j，假设长度分别为m和n；

a.提取手势运动基元Φ_i运动恢复时段的关键帧序列F1，假设长度为len1；

b.提取手势运动基元Φ_j运动准备时段关键帧序列F2，假设长度为len2；

c.对运动关键帧序列F1，从起始关键帧位置1，开始移动到末尾关键帧位置len1，对每一个位置k，依次循环计算关键帧序列F2中第len2-i个关键帧与运动关键帧序列F1中第k关键帧的相似度Sim，如果存在相似度小于阈值ε，则终止循环，否则直至循环结束，定位到过渡帧。

所述插值系数a(k)满足：

A.当Sim≤K1时，相邻关键帧之间的动作变化幅度足够小，不需要进行插值处理；

B.当K1<Sim≤K2时，通过一个线性递减的运动混合函数来决定相邻关键帧之间插值系数：

a(k)＝0.5cos(βπ)+0.5

C.当K2<Sim≤K3时，多项式函数表示运动插值系数：

其中，相似度阈值满足K1<K2<K3。

本发明所述基于手势识别的手势运动基元过渡帧定位方法的插值手势动画合成可形式表示为：

令I为手势运动库中运动基元全集，假设在手势与语言协同表达的手势动画合成过程中，根据转写规则在I子集U上存在一个运动基元覆盖路径：

S＝{Φ₁,Φ₂,…,Φ_M} (1)

其中S中的运动基元Φ_j的次序是固定的。

要想在以上运动基元覆盖路径下实现基于运动基元连接的手势动画合成，任意相邻运动基元的Φ_m和Φ_m+1需要且必须满足以下条件：

Sim(Φ_m(G_i),Φ_m+1(G_j))＜ε (2)

其中，ε表示关键帧相似度阈值。即运动基元Φ_m和Φ_m+1在满足该阈值约束的情况下可以通过关键帧插值进行平滑连接合成连贯的手势动作。

关键帧相似度计算，由于虚拟人手臂运动位置和运动速度在手势合成前后是紧密相关的，在计算过渡帧相似时充分考虑手臂关节位置与运动速度的影响，对手势关键帧G_i与G_j相似度(距离差异)Sim(G_i,G_j)计算如下：

Sim(G_i,G_j)＝Dist(p_i,p_j)+vDist(v_i,v_j) (3)

其中Dist(p_i,p_j)表示各个关节角度加权距离，Dist(v_i,v_j)表示各关节旋转加速度的加权距离，参数v表示不同关节位置对速度差异的影响权重。

通过对手势运动基元运动时段划分进行统计分析发现：在手势运动基元的整个运动过程中都包含有手臂(前臂和小臂)运动，并且手掌关节(主要指手指关节)运动仅在伸出阶段和后伸出阶段出现，而在运动准备阶段和运动恢复阶段不包含手指运动，附图2描述了手势运动基元中各运动阶段中各关节运动特征。

在进行基于运动基元插值的手势动画合成过程中主要考虑上肢的肩关节、肘关节和腕关节等的旋转角变化幅度对手势动作平滑度影响。由于肩关节和肘关节的旋转幅度大小直接反映在肘关节和腕关节的空间坐标位置的变化幅度。故可利用前后两个关键帧中肘关节和腕关节的欧氏距离的加权和衡量两帧之间关节角度距离：

其中，分别表示左右手臂关节距离差异，(x_lk,y_lk,z_lk)，l∈{i,j}，k∈{0,1}分别表示肘关节和腕关节的三个空间坐标。α，β表示两关节的权重系数满足以下条件(根据实验验证0.6＜α＜0.8时运动效果较好)：

手势图像釆集是也本发明方法的关键,一般通过视频或图像釆集设备对手势图形进行采集,从而提取手势视频流或手势图像。手势图像预处理是手势分割与手势分析的前提与基础。一般手势图像预处理主要是为了消除图像在传输和釆集过程中所产生的的干扰进行消除,从而为后续工作打好基础。

计算机的色彩显示基本原理与彩色的电视机显示色彩基本原理一样，都是通过R、G、B相加混色原理，通过发射不同强度的三种电子束，使屏幕内覆盖的蓝、红、绿的憐光材料通过发光而产生色彩。该色彩表示法称为RGB颜色空间表示。在多媒体的计算机技术里，RGB色彩空间表示是最常用的颜色空间。RGB颜色空间是基于自然界中三种基色光的加法混合原理，将Red、Green、Blue三种基色按照从黑色(灰度值为0)到白色(灰度值为255)的亮度值在三个颜色通道中分配，从而确定色彩，由于RGB颜色空间中的三个分量R、G、B有255个等级，通过RGB三个分量的组合可以产生256*256*256种颜色，因此，RGB颜色空间是广泛应用于数字图像处理与存储的颜色空间之一。在RGB色彩空间中，任意色光F都可以用R、G、B三种分量相加混合而成，其中，当R、G、B三基色分量最弱(为0)时，混合为黑色光,当R、G、B三基色分量最强(为255)时，混合为白色光。RGB颜色空间三个轴分别对应R、G、B三分量，原点对应R、G、B值为0的点即黑色，与原点对应的顶点为纯白色。过原点的对角线对应从黑色到白色的灰度值变化。而立方体内(包含立方体表面)的点都是256*256*256种颜色中的一种,用从原点到该点的矢量表示。本发明通过特殊的图像处理方式，使得经过处理后的手势图像，颜色失真更小，颜色更加真实，具体通过将颜色图像按照RGB图像的R、G、B三个分量通道进行分解，分别将三个分量通道中的每一个像素与其邻近的8个像素构成3×3的像素块，按照如下公式分别得到处理后的每一个像素分别对应的R、G、B三个分量的值：

过渡关键帧快速定位算法，对运动基元进行标注处理并且手势动作基元都满足起始运动位置约束，能够减少大量的运动基元间比较操作，但是运动基元间过渡关键帧的定位仍然需要计算关键帧之间相似度，选择满足阈值约束的关键帧作为过渡帧。为了在保证运动合成质量的同时，提高计算效率，本发明提出了基于逆向关键帧序列的过渡关键帧快速定位算法。对两个待合成手势运动基元Φ_i和Φ_j，假设长度分别为m和n，过渡关键帧快速定位算法如下(多个手势运动基元合成可按照同样的方法依次进行处理)：

(1)提取手势运动基元Φ_i运动恢复时段的关键帧序列F1，假设长度为len1；

(2)提取手势运动基元Φ_j运动准备时段关键帧序列F2，假设长度为len2；

(3)对运动关键帧序列F1，从起始关键帧位置1(关键帧标号)开始移动到末尾关键帧位置len1。对每一个位置k，依次循环计算关键帧序列F2中第len2-i个关键帧与运动关键帧序列F1中第k关键帧的相似度Sim，如果存在相似度满足阈值ε(公式2)则终止循环，否则直至循环结束，定位到过渡帧。

基于高阶四元数插值的手势运动平滑：假如需要对两个不同手势动作根据上一节过渡关键帧定位算法去除冗余的运动关键帧，得到运动合成关键帧序列S。假设q_i(l)和q_j(l)分别表示运动序列S中相邻关键帧G_i和关键帧G_j处上肢第l(1≤l≤6)个关节旋转角所表示的四元数组的关键姿态，N表示要插补的关键帧数量可通过衡量相邻关键帧距离来获得，则插补第k(1≤k≤N)帧时可通过以下方式获得：

其中，q_k(l)表示合成运动中新插第k帧中第l关节姿态，θ是其所旋转的角度大小，并且cosθ＝q_i(l)·q_j(l),插值系数a(k)与需要在q_i(l)和q_j(l)之间进行插补的帧数N相关，取值范围为[0,1]。

利用插补的关键帧数量N和插值系数权值α(k)对运动序列进行插值平滑。为了保证运动过渡帧之间C1连续性，我们通过衡量关键帧相似度Sim来计算插补的关键帧数量N和关键帧插值系数a(k)，从而达到动作均匀平滑过渡。本文分别设置满足以下条件的三个层次关键帧相似度阈值：K1<K2<K3，通过实时调整阈值范围可以实时控制虚拟人动画的交互性。

1.插值帧数的确定

在两个关键帧之间插入的中间帧数量会影响到虚拟人动作的节奏和速度。“节奏”指各关键帧之间的时间间隔的比例关系，“速度”是指动作完成所用的时间。动画绘制过程中，绘制任何一帧都需要计算出该帧中虚拟人的全部关节在相应自由度上的转角，因此绘制每一帧的时间复杂度是相同的。在任何一台特定的计算机上运行时，绘制一帧的时间就成为一个常数，因此两个关键帧之间插入的中间帧数量与两个关键姿态之间的过渡时长成正比关系。

传统关键帧插值方法使用运动数据关键帧之间时间间隔的方式来获取关键帧运动时间比例关系，忽略了运动姿态距离和运动过渡之间的关系。本文通过在运动基元关键帧中记录关键帧姿态距离，建立角色姿态移动距离与过渡关键姿态之间的一种线性比例关系。使用关键帧距离矩阵E测量原型过渡和新生成的运动过渡开始和结束姿态之间的姿态旋转距离，根据运动姿态距离阈值TK实时调整运动帧的插值采样密度。

2.插值系数的确定

当Sim≤K1时，相邻关键帧之间的动作变化幅度足够小，不需要进行插值处理；

当K1<Sim≤K2时，通过一个线性递减的运动混合函数来决定相邻关键帧之间插值系数：

α(k)＝0.5cos(βπ)+0.5

当K2<Sim≤K3时，多项式函数表示运动插值系数：

在考虑运动运动角色空间变化情况下，人体在空间场景位置由根关节在场景中的世界坐标确定，根关节的空间位置插值方法有许多，一般采用线性插值方法。根关节由空间中某位置T(x₀,y₀,z₀)线性变换到空间中的另一位置T(x_k,y_k,z_k)，插值点空间位置计算公式为：

T(x_i,y_i,z_i)＝t(i)T(x₀,y₀,z₀)+(1-t(i))T(x_k,y_k,z_k)

其中0＜t(i)＜1，t(i)控制变化速度。由于主要针对手势动画进行，一般人体空间相对位移不变，为了实现更好的运动过渡效果，对运动基元的根关节进行平移，实现两运动姿态根关节方位对齐，即：

T'(x)＝T(x₀,y₀,z₀)+(T(x₀,y₀,z₀)-T(x_k,y_k,z_k))

T(x_i,y_i,z_i)＝T(x₀,y₀,z₀)

尽管为了说明的目的，已描述了本发明的示例性实施方式，但是本领域的技术人员将理解，不脱离所附权利要求中公开的发明的范围和精神的情况下，可以在形式和细节上进行各种修改、添加和替换等的改变，而所有这些改变都应属于本发明所附权利要求的保护范围，并且本发明要求保护的产品各个部门和方法中的各个步骤，可以以任意组合的形式组合在一起。因此，对本发明中所公开的实施方式的描述并非为了限制本发明的范围，而是用于描述本发明。相应地，本发明的范围不受以上实施方式的限制，而是由权利要求或其等同物进行限定。

Claims

1.一种基于手势识别的相似度阈值分析的手势运动平滑处理方法，其特征在于，依次包括以下步骤：

(3)对轮廓图像进行修正，进行平滑处理；

(6)对纹理图像进行修正，进行平滑处理；

2.如权利要求1所述的方法，其特征在于：所述步骤(8)中以关键帧的方式建立手势动作的基本单位，并且描述所述基本单位的时序变化信息步骤中,还包括为手势运动基元模型中的关键帧添加flag标记位，将手势运动基元按具有时间次序关键帧标注“start”，“prepare”，“achieve_goal”，“release_goal”，“end”,并且将每个手势运动基元分解为四个运动时段：准备阶段、伸出阶段、后伸出阶段、恢复阶段。

3.如权利要求1所述的方法，其特征在于：所述通过高阶四元数插值的关键帧插值进行平滑连接合成连贯的手势动作，建立与手势图像匹配的手势运动基元模型，具体包括如下步骤：

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>q</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>S</mi> <mi>l</mi> <mi>e</mi> <mi>r</mi> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>q</mi> <mi>i</mi> </msub> <mo>(</mo> <mi>l</mi> <mo>)</mo> <mo>,</mo> <msub> <mi>q</mi> <mi>j</mi> </msub> <mo>(</mo> <mi>l</mi> <mo>)</mo> <mo>,</mo> <mi>a</mi> <mo>(</mo> <mi>k</mi> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>q</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>a</mi> <mo>(</mo> <mi>k</mi> <mo>)</mo> <mo>)</mo> </mrow> <mi>&theta;</mi> <mo>+</mo> <msub> <mi>q</mi> <mi>j</mi> </msub> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> <mi>sin</mi> <mrow> <mo>(</mo> <mi>a</mi> <mo>(</mo> <mi>k</mi> <mo>)</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>sin</mi> <mi>&theta;</mi> </mrow> </mfrac> </mrow> </mtd> </mtr> </mtable> </mfenced>

4.如权利要求1或3所述的方法，其特征在于：对手势关键帧G_i与G_j相似度Sim(G_i,G_j)计算如下：Sim(G_i,G_j)＝Dist(p_i,p_j)+vDist(v_i,v_j)，其中Dist(p_i,p_j)表示各个关节角度加权距离，Dist(v_i,v_j)表示各关节旋转加速度的加权距离，参数v表示不同关节位置对速度差异的影响权重。

5.如权利要求1所述的方法，其特征在于：还包括步骤(12)：在手势与语言协同表达的手势动画合成过程中，根据转写规则在手势运动基元全集上存在一个运动基元覆盖路径，在以上运动基元覆盖路径下实现基于运动基元连接的手势动画合成。

6.如权利要求5所述的方法，其特征在于：通过MacSHAPA获取手势与自然语言的映射匹配。

7.如权利要求1所述的方法，其特征在于：步骤(8)中所述基于手势图像数据库中的手势图像，按照身体的生理结构以及各个关节运动时的约束关系，以关键帧的方式建立手势动作的基本单位，并且描述所述基本单位的时序变化信息，具体包括如下步骤：

对两个待合成手势运动基元Φ_i和Φ_j，假设长度分别为m和n；

8.如权利要求3所述的方法，其特征在于：所述插值系数a(k)满足：

B.当K1<Sim≤K2时，通过一个线性递减的运动混合函数来决定相邻关键帧之间插值系数：a(k)＝0.5cos(βπ)+0.5

C.当K2<Sim≤K3时，多项式函数表示运动插值系数：

其中，相似度阈值满足K1<K2<K3。