CN104484034A - 一种基于手势识别的手势运动基元过渡帧定位方法 - Google Patents

一种基于手势识别的手势运动基元过渡帧定位方法 Download PDF

Info

Publication number
CN104484034A
CN104484034A CN201410711947.3A CN201410711947A CN104484034A CN 104484034 A CN104484034 A CN 104484034A CN 201410711947 A CN201410711947 A CN 201410711947A CN 104484034 A CN104484034 A CN 104484034A
Authority
CN
China
Prior art keywords
gesture
image
motion
gesture motion
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410711947.3A
Other languages
English (en)
Other versions
CN104484034B (zh
Inventor
韩慧健
张锐
贾可亮
刘峥
梁秀霞
其他发明人请求不公开姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201410711947.3A priority Critical patent/CN104484034B/zh
Publication of CN104484034A publication Critical patent/CN104484034A/zh
Application granted granted Critical
Publication of CN104484034B publication Critical patent/CN104484034B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

一种基于手势识别的手势运动基元过渡帧定位方法,包括利用视频或图像采集装置获取手势图像,进行预处理,将人物图像按照轮廓、颜色、纹理分割为轮廓图像、颜色图像和纹理图像;将经过处理的轮廓图像、颜色图像和纹理图像进行再合成,建立手势图像数据库;基于手势图像数据库中的手势图像,定位到过渡帧,通过关键帧插值进行平滑连接合成连贯的手势动作,建立与手势图像匹配的手势运动基元模型。基于手势识别的手势运动基元过渡帧定位方法基于真人图像建立,画面生动真实,并且虚拟人模型灵活多变,能够直观、生动的表现,消除了运动跨度过大导致运动过渡的难题并有效地实现了运动细节的增强与保持。

Description

一种基于手势识别的手势运动基元过渡帧定位方法
技术领域
本发明涉及手势动画研究领域,更具体地说涉及到手势动画合成中基于手势识别的手势运动基元过渡帧定位方法。
背景技术
语言伴随性手势合成是以自然语言理解为基础,使用手势作为虚拟人语言信息表达的辅助输出方式。已有手势合成研究主要集中在以自然文本汉语词与手语词映射为基础的手语动画合成,并未考虑语言伴随手势,使得虚拟人类似于机器人一样机械运动,无法满足人机交互的智能性和交互性要求,在交互性和真实感方面还有待提升。在人机交互过程中,通过语言伴随性手势合成研究能够为人机交互中手势和语音协同表达提供解决方案,提高手势动画的真实感,实现虚拟人生动、形象、直观的视觉运动效果。
手势识别主要是通过分析手势具有的各种特征实现对手势的判断,这些特征主要包括颜色特征、文理特征、形状特征、轮廓特征及动态手势具有的运动特征等。目前,手势识别系统主要分为基于数据手套的识别系统和基于视觉的识别系统。基于数据手套的识别系统主要通过传感器获取人手运动的信号,这种方式更有利于获取手势运动信息;然而,这些设备价格非常昂贵而且在使用这些设备的同时往往给用户带来诸多不便。但是,基于视觉的识别系统由于不需要价格昂贵的硬件设备,因此越来越适合人机交互技术。早期的基于视觉的手势识别系统往往需要对手势进行标记然后再进行像处理;然而,目前基于视觉的手势识别系统主要是利用手势特征如手势颜色、手势形状、手势轮廓或其他深度信息进行识别。基于视觉的手势识别系统可以识别输入视频中的不同手势,并且用这些手势作为计算机的人工输入命令,并且可以建立包括有完整人物及其手势的库、并且这种手势识别系统由于设备简单,因而使用方便有效。基于视觉的手势识别系统为人机交互提供了一种直观的交流方式。
语言伴随性手势作为一种动作语言,是手和手臂运动的统一,需要计算机动 画来实现具体动作。人体的外形主要有皮肤和所附着骨骼肌肉运动决定的,因此,在描述手势动作之前必须先建立一个静态几何模型,通过激活具有大量关节的复杂模型,根据决定运动的几个主关节的最终角度可以确定手臂运动,从而创建精确灵活的基本手势动作单元——手势运动基元。根据伴随语言学和统计学分析,基于语言连贯表达的手势运动基元连接能够实现手势和有声语言的协同表达,提高运动合成效果和真实感。然而,目前虚拟人并非基于真人像建立,不够生动真实,并且虚拟人模型固定,无法根据环境和需要进行变换。
此外,手势和语言是时序并行输出的,手势运动要素会随着语言的连贯表达而时刻变化。当人们进行口语交流时形成连续不断的语流,同样手势姿态连续表达会生成相应的手势动作,语言和手势之间存在相互的层级关系。作为生成手势动画的基础,如何实现基本的手势动作在语言中的定位成为语言伴随学和虚拟现实技术的研究难点。随着计算机技术的进一步发展,数字媒体技术的出现为手势与语言映射提供了解决方案——音视频数据分析。通过对音视频数据进行分析,将其中的语言和手势进行转写,并标记对应位置,将能够有效地实现手势与语言的协同表达。
然而,现有的方法存在诸多不足源于所处理的主要是非结构化运动模型之间的过渡,运动过渡关键帧只能实现时序性,单纯靠关键帧数值相似度计算进行运动平滑容易造成运动细节丢失。本发明利用具有结构化和实例化的手势运动模型不但消除了运动跨度过大导致运动过渡难以实现问题,还有效地实现了运动细节的增强与保持。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于真人像建立,画面生动真实,并且虚拟人模型灵活多变,能够直观、生动的方式表现手势动作,而且消除了运动跨度过大导致运动过渡的难题并有效地实现了运动细节的增强与保持的基于手势识别的手势运动基元过渡帧定位方法,并且云数据库单元的使用,使得数据备份份数更多,更有保障,利用了云计算端大的存储容量,优越的运算能力和更广的数据网络,功能更加强大,结合远程客户端,可以对数据进行自定义编辑后更新,操作和查询更加方便,可控性更强,更加灵活多变,适应性 更强。
本发明提供了一种基于手势识别的手势运动基元过渡帧定位方法,依次包括以下步骤:
(1)利用视频或像采集装置获取一个或多个分辨率为N×M的手势像,对一个或多个手势像进行预处理,将一个或多个手势像中的人物像提取出来,删除除了人物像部分之外的背景像;
(2)对提取后的人物像进行去噪处理,消除传输和采集过程中的噪声干扰,之后将去噪后的人物像按照轮廓、颜色、纹理分割为轮廓像、颜色像和纹理像;
(3)对轮廓像进行修正,进行平滑处理;
(4)将颜色像按照RGB像的R、G、B三个分量通道进行分解,分别将三个分量通道中的每一个像素与其邻近的8个像素构成3×3的像素块,按照如下公式分别得到处理后的每一个像素分别对应的R、G、B三个分量的值:
P ij ( R ) = ( ( P ( i - 1 ) ( j - 1 ) + P ( i - 1 ) j + P ( i - 1 ) ( j + 1 ) 3 + P ( i - 1 ) ( j - 1 ) + P i ( j - 1 ) + P ( i + 1 ) ( j - 1 ) 3 + P ( i + 1 ) ( j - 1 ) + P ( i + 1 ) j + P ( i + 1 ) ( j + 1 ) 3 + P ( i - 1 ) ( j + 1 ) + P i ( j + 1 ) + P ( i + 1 ) ( j + 1 ) 3 ) 4 + P ij ) / 2
P ij ( G ) = ( ( P ( i - 1 ) ( j - 1 ) + P ( i - 1 ) j + P ( i - 1 ) ( j + 1 ) 3 + P ( i - 1 ) ( j - 1 ) + P i ( j - 1 ) + P ( i + 1 ) ( j - 1 ) 3 + P ( i + 1 ) ( j - 1 ) + P ( i + 1 ) j + P ( i + 1 ) ( j + 1 ) 3 + P ( i - 1 ) ( j + 1 ) + P i ( j + 1 ) + P ( i + 1 ) ( j + 1 ) 3 ) 4 + P ij ) / 2
P ij ( B ) = ( ( P ( i - 1 ) ( j - 1 ) + P ( i - 1 ) j + P ( i - 1 ) ( j + 1 ) 3 + P ( i - 1 ) ( j - 1 ) + P i ( j - 1 ) + P ( i + 1 ) ( j - 1 ) 3 + P ( i + 1 ) ( j - 1 ) + P ( i + 1 ) j + P ( i + 1 ) ( j + 1 ) 3 + P ( i - 1 ) ( j + 1 ) + P i ( j + 1 ) + P ( i + 1 ) ( j + 1 ) 3 ) 4 + P ij ) / 2
Pij(R)、Pij(G)、Pij(B)分别为经过处理后的R、G、B三个分量通道中的像素值,Pij为R、G、B三个分量通道中对应第i行、第j列的像素值,其中i=1,2,…,N,j=1,2,…,M;
(5)将经过处理后的R、G、B三个分量通道中的像素值进行分配,合成经过处理后的颜色像;
(6)对纹理像进行修正,进行平滑处理;
(7)将经过处理的轮廓像、颜色像和纹理像进行再合成,建立手势像数据库;
(8)基于手势像数据库中的手势像,按照身体的生理结构以及各个关节运动时的约束关系,以关键帧的方式建立手势动作的基本单位,并且描述所述基本单位的时序变化信息,具体包括如下步骤:
对两个待合成手势运动基元Φi和Φj,假设长度分别为m和n;
a.提取手势运动基元Φi运动恢复时段的关键帧序列F1,假设长度为len1;
b.提取手势运动基元Φj运动准备时段关键帧序列F2,假设长度为len2;
c.对运动关键帧序列F1,从起始关键帧位置1,开始移动到末尾关键帧位置len1,对每一个位置k,依次循环计算关键帧序列F2中第len2-i个关键帧与运动关键帧序列F1中第k关键帧的相似度Sim,如果存在相似度小于阈值ε,则终止循环,否则直至循环结束,定位到过渡帧;
(9)通过关键帧插值进行平滑连接合成连贯的手势动作,建立与手势像匹配的手势运动基元模型;
(10)将手势运动基元模型和像数据库中的手势像对应合成,建立虚拟人数据库;
(11)将虚拟人数据库中的数据上传至云数据库单元,所述云数据库单元将接收到的数据存储后作为备份数据,供远程客户端下载;远程客户端下载云数据库单元中存储的数据,进行自定义编辑,将自定义编辑后的数据回传至虚拟人数据库,对虚拟人数据库中的数据进行更新。
附图说明
图1语义手势匹配流程示意
图2手势运动基元中各运动阶段中各关节运动特征
具体实施方式
下面详细说明本发明的具体实施,有必要在此指出的是,以下实施只是用于本发明的进一步说明,不能理解为对本发明保护范围的限制,该领域技术熟练人员根据上述本发明内容对本发明做出的一些非本质的改进和调整,仍然属于本发明的保护范围。
图1中自然语言与手势码匹配需要借助于自然语言与手势协同映射关系,通过对音视频数据进行分析,将其中的语言和手势进行转写,并标记对应位置,能够有效地实现手势与语言的协同表达,通过MacSHAPA对视频转录获取手势与 自然语言的映射匹配,并通过具有语言连贯表达特性的运动基元进行拼接合成连续手势动画。
在交流中伴随语言产生的手势有些是相对固定的,而大多数的手势都具有较大的随机性特点,但是相对而言,由于人的生理结构等约束和限制,人的手势又是相对固定的,因此,研究中将实现语言与手势之间的非线性匹配,即相同的交流话题中可能有不同的手势出现,或者是同一手势运动的幅度不同。
由于所关注的焦点是人与虚拟人“语言”交流过程中语言伴随的手势动画合成,因此在转写话语过程中仅限于交流过程中虚拟人一方所说的“言语”,只包括虚拟人在人机对话过程中进行“语言”交流时有意义且含有主谓的言语单位或言语片段,不包括输入的交互语言、其他情感和停顿等信息,针对智能咨询员(虚拟人)在对一款软件进行介绍时的言语信息和手势转写如表1
表1自然语言与手势运动基元映射
采用转写规则,其中“/”表示一个言语节,“[]”表示手势协同表达的话语,“G11,G12,G13”表示不同的手势运动基元编码,“(())”表示所做手势的语义描述。其中第二个语句中涉及到两个手势运动基元的连接,如果是基于同一话题的整个交流中,这样的手势连续表达现象比较明显。
本发明根据手势识别和手势运动特点,以及运动任务目标原理,提出了一种基于手势识别的手势运动基元过渡帧定位方法,依次包括以下步骤:
(1)利用视频或像采集装置获取一个或多个分辨率为N×M的手势像,对一个或多个手势像进行预处理,将一个或多个手势像中的人物像提取出来,删除除了人物像部分之外的背景像;
(2)对提取后的人物像进行去噪处理,消除传输和采集过程中的噪声干扰,之后将去噪后的人物像按照轮廓、颜色、纹理分割为轮廓像、颜色像和纹理像;
(3)对轮廓像进行修正,进行平滑处理;
(4)将颜色像按照RGB像的R、G、B三个分量通道进行分解,分别将三个分量通道中的每一个像素与其邻近的8个像素构成3×3的像素块,按照如下公式分别得到处理后的每一个像素分别对应的R、G、B三个分量的值:
P ij ( R ) = ( ( P ( i - 1 ) ( j - 1 ) + P ( i - 1 ) j + P ( i - 1 ) ( j + 1 ) 3 + P ( i - 1 ) ( j - 1 ) + P i ( j - 1 ) + P ( i + 1 ) ( j - 1 ) 3 + P ( i + 1 ) ( j - 1 ) + P ( i + 1 ) j + P ( i + 1 ) ( j + 1 ) 3 + P ( i - 1 ) ( j + 1 ) + P i ( j + 1 ) + P ( i + 1 ) ( j + 1 ) 3 ) 4 + P ij ) / 2
P ij ( G ) = ( ( P ( i - 1 ) ( j - 1 ) + P ( i - 1 ) j + P ( i - 1 ) ( j + 1 ) 3 + P ( i - 1 ) ( j - 1 ) + P i ( j - 1 ) + P ( i + 1 ) ( j - 1 ) 3 + P ( i + 1 ) ( j - 1 ) + P ( i + 1 ) j + P ( i + 1 ) ( j + 1 ) 3 + P ( i - 1 ) ( j + 1 ) + P i ( j + 1 ) + P ( i + 1 ) ( j + 1 ) 3 ) 4 + P ij ) / 2
P ij ( R ) = ( ( P ( i - 1 ) ( j - 1 ) + P ( i - 1 ) j + P ( i - 1 ) ( j + 1 ) 3 + P ( i - 1 ) ( j - 1 ) + P i ( j - 1 ) + P ( i + 1 ) ( j - 1 ) 3 + P ( i + 1 ) ( j - 1 ) + P ( i + 1 ) j + P ( i + 1 ) ( j + 1 ) 3 + P ( i - 1 ) ( j + 1 ) + P i ( j + 1 ) + P ( i + 1 ) ( j + 1 ) 3 ) 4 + P ij ) / 2
Pij(R)、Pij(G)、Pij(B)分别为经过处理后的R、G、B三个分量通道中的像素值,Pij为R、G、B三个分量通道中对应第i行、第j列的像素值,其中i=1,2,…,N,j=1,2,…,M;
(5)将经过处理后的R、G、B三个分量通道中的像素值进行分配,合成经过处理后的颜色像;
(6)对纹理像进行修正,进行平滑处理;
(7)将经过处理的轮廓像、颜色像和纹理像进行再合成,建立手势像数据库;
(8)基于手势像数据库中的手势像,按照身体的生理结构以及各个关节运动时的约束关系,以关键帧的方式建立手势动作的基本单位,并且描述所述基本单位的时序变化信息,具体包括如下步骤:
对两个待合成手势运动基元Φi和Φj,假设长度分别为m和n;
a.提取手势运动基元Φi运动恢复时段的关键帧序列F1,假设长度为len1;
b.提取手势运动基元Φj运动准备时段关键帧序列F2,假设长度为len2;
c.对运动关键帧序列F1,从起始关键帧位置1,开始移动到末尾关键帧位置len1,对每一个位置k,依次循环计算关键帧序列F2中第len2-i个关键帧与运动关键帧序列F1中第k关键帧的相似度Sim,如果存在相似度小于阈值ε,则终止循环,否则直至循环结束,定位到过渡帧;
(9)通过关键帧插值进行平滑连接合成连贯的手势动作,建立与手势像匹配的手势运动基元模型;
(10)将手势运动基元模型和像数据库中的手势像对应合成,建立虚拟人数据库;
(11)将虚拟人数据库中的数据上传至云数据库单元,所述云数据库单元将接收到的数据存储后作为备份数据,供远程客户端下载;远程客户端下载云数据库单元中存储的数据,进行自定义编辑,将自定义编辑后的数据回传至虚拟人数据库,对虚拟人数据库中的数据进行更新。
所述步骤(8)中以关键帧的方式建立手势动作的基本单位,并且描述所述基本单位的时序变化信息步骤中,还包括为手势运动基元模型中的关键帧添加flag标记位,将手势运动基元按具有时间次序关键帧标注“start”,“prepare”,“achieve_goal”,“release_goal”,“end”,并且将每个手势运动基元分解为四个运动时段:准备阶段、伸出阶段、后伸出阶段、恢复阶段。
所述约束关系采用四元数表示关节旋转。
对手势关键帧Gi与Gj相似度Sim(Gi,Gj)计算如下:Sim(Gi,Gj)=Dist(pi,pj)+vDist(vi,vj),其中Dist(pi,pj)表示各个关节角度加权距离,Dist(vi,vj)表示各关节旋转加速度的加权距离,参数v表示不同关节位置对速度差异的影响权重。
此外,还包括步骤(12):在手势与语言协同表达的手势动画合成过程中,根据转写规则在手势运动基元全集上存在一个运动基元覆盖路径,在以上运动基元覆盖路径下实现基于运动基元连接的手势动画合成。
优选地,通过MacSHAPA获取手势与自然语言的映射匹配。
本发明所述基于手势识别的手势运动基元过渡帧定位方法的插值手势动画合成可形式表示为:
令I为手势运动库中运动基元全集,假设在手势与语言协同表达的手势动画合成过程中,根据转写规则在I子集上存在一个运动基元覆盖路径:
S={Φ12,…,ΦM}        (1) 
其中M≥1,S中的运动基元Φj的次序是固定的。
要想在以上运动基元覆盖路径下实现基于运动基元连接的手势动画合成,任意相邻运动基元的Φm和Φm+1需要且必须满足以下条件:
Sim(Φm(Gi),Φm+1(Gj))<ε          (2) 
其中,ε表示关键帧相似度阈值。即运动基元Φm和Φm+1在满足该阈值约束的情况下可以通过关键帧插值进行平滑连接合成连贯的手势动作。
关键帧相似度计算,由于虚拟人手臂运动位置和运动速度在手势合成前后是紧密相关的,在计算过渡帧相似时充分考虑手臂关节位置与运动速度的影响,对手势关键帧Gi与Gj相似度(距离差异)Sim(Gi,Gj)计算如下:
Sim(Gi,Gj)=Dist(pi,pj)+vDist(vi,vj)    (3) 
其中Dist(pi,pj)表示各个关节角度加权距离,Dist(vi,vj)表示各关节旋转加速度的加权距离,参数v表示不同关节位置对速度差异的影响权重。
通过对手势运动基元运动时段划分进行统计分析发现:在手势运动基元的整个运动过程中都包含有手臂(前臂和小臂)运动,并且手掌关节(主要指手指关节)运动仅在伸出阶段和后伸出阶段出现,而在运动准备阶段和运动恢复阶段不包含手指运动,附图2描述了手势运动基元中各运动阶段中各关节运动特征。
在进行基于运动基元插值的手势动画合成过程中主要考虑上肢的肩关节、肘关节和腕关节等的旋转角变化幅度对手势动作平滑度影响。由于肩关节和肘关节 的旋转幅度大小直接反映在肘关节和腕关节的空间坐标位置的变化幅度。故可利用前后两个关键帧中肘关节和腕关节的欧氏距离的加权和衡量两帧之间关节角度距离:
Dist ( p ik , p jk ) = max ( D ijk left , D ijk right )
D ijk left = &alpha; ( x i 0 left - x j 0 left ) 2 + ( y i 0 left - y j 0 left ) 2 + ( z i 0 left - z j 0 left ) 2 + &beta; ( x i 1 left - x j 1 left ) 2 + ( y il left - y j 1 left ) 2 + ( z i 1 left - z j 1 left ) 2
D ijk right = &alpha; ( x i 0 right - x j 0 right ) 2 + ( y i 0 right - y j 0 right ) 2 + ( z i 0 right - z j 0 right ) 2 + &beta; ( x i 1 right - x j 1 right ) 2 + ( y il right - y j 1 right ) 2 + ( z i 1 right - z j 1 right ) 2 - - - ( 4 )
其中,分别表示左右手臂关节距离差异,(xlk,ylk,zlk),l∈{i,j},k∈{0,1}分别表示肘关节和腕关节的三个空间坐标。α,β表示两关节的权重系数满足以下条件(根据实验验证0.6<α<0.8时运动效果较好):
α+β=1
α>β            (5) 
手势像釆集是也本发明方法的关键,一般通过视频或像釆集设备对手势形进行采集,从而提取手势视频流或手势像。手势像预处理是手势分割与手势分析的前提与基础。一般手势像预处理主要是为了消除像在传输和釆集过程中所产生的干扰,从而为后续工作打好基础。
计算机的色彩显示基本原理与彩色的电视机显示色彩基本原理一样,都是通过R、G、B相加混色原理,通过发射不同强度的三种电子束,使屏幕内覆盖的蓝、红、绿的憐光材料通过发光而产生色彩。该色彩表示法称为RGB颜色空间表示。在多媒体的计算机技术里,RGB色彩空间表示是最常用的颜色空间。RGB颜色空间是基于自然界中三种基色光的加法混合原理,将Red、Green、Blue三种基色按照从黑色(灰度值为0)到白色(灰度值为255)的亮度值在三个颜色通道中分配,从而确定色彩,由于RGB颜色空间中的三个分量R、G、B有255个等级,通过RGB三个分量的组合可以产生256*256*256种颜色,因此,RGB颜色空间是广泛应用于数字图像处理与存储的颜色空间之一。在RGB色彩空间中,任意色光F都可以用R、G、B三种分量相加混合而成,其中,当R、G、B三基色分量最弱(为0)时,混合为黑色光,当R、G、B三基色分量最强(为255)时,混合为白色光。RGB颜色空间中三个轴分别对应R、G、B三分量,原点对应R、G、B值为0的点即黑色,与原点对应的顶点为纯白色。过原点的对角线对应从黑色到白色的灰度值变化。而立方体内(包含立方体表面)的点都是256*256*256种颜色中的一种,用从原点到该点的矢量表示。本发明通过特殊的图像处理方式,使得经过处理后的手势图像,颜色失真更小,颜色更加真实,具体通过将颜色图像按照RGB图像的R、G、B三个分量通道进行分解,分别将三个分量通道中的每一个像素与其邻近的8个像素构成3×3的像素块,按照如下公式分别得到处理后的每一个像素分别对应的R、G、B三个分量的值:
P ij ( R ) = ( ( P ( i - 1 ) ( j - 1 ) + P ( i - 1 ) j + P ( i - 1 ) ( j + 1 ) 3 + P ( i - 1 ) ( j - 1 ) + P i ( j - 1 ) + P ( i + 1 ) ( j - 1 ) 3 + P ( i + 1 ) ( j - 1 ) + P ( i + 1 ) j + P ( i + 1 ) ( j + 1 ) 3 + P ( i - 1 ) ( j + 1 ) + P i ( j + 1 ) + P ( i + 1 ) ( j + 1 ) 3 ) 4 + P ij ) / 2
P ij ( G ) = ( ( P ( i - 1 ) ( j - 1 ) + P ( i - 1 ) j + P ( i - 1 ) ( j + 1 ) 3 + P ( i - 1 ) ( j - 1 ) + P i ( j - 1 ) + P ( i + 1 ) ( j - 1 ) 3 + P ( i + 1 ) ( j - 1 ) + P ( i + 1 ) j + P ( i + 1 ) ( j + 1 ) 3 + P ( i - 1 ) ( j + 1 ) + P i ( j + 1 ) + P ( i + 1 ) ( j + 1 ) 3 ) 4 + P ij ) / 2
P ij ( B ) = ( ( P ( i - 1 ) ( j - 1 ) + P ( i - 1 ) j + P ( i - 1 ) ( j + 1 ) 3 + P ( i - 1 ) ( j - 1 ) + P i ( j - 1 ) + P ( i + 1 ) ( j - 1 ) 3 + P ( i + 1 ) ( j - 1 ) + P ( i + 1 ) j + P ( i + 1 ) ( j + 1 ) 3 + P ( i - 1 ) ( j + 1 ) + P i ( j + 1 ) + P ( i + 1 ) ( j + 1 ) 3 ) 4 + P ij ) / 2
Pij(R)、Pij(G)、Pij(B)分别为经过处理后的R、G、B三个分量通道中的像素值,Pij为R、G、B三个分量通道中对应第i行、第j列的像素值,其中i=1,2,…,N,j=1,2,…,M;
过渡关键帧快速定位算法,对运动基元进行标注处理并且手势动作基元都满足起始运动位置约束,能够减少大量的运动基元间比较操作,但是运动基元间过渡关键帧的定位仍然需要计算关键帧之间相似度,选择满足阈值约束的关键帧作为过渡帧。为了在保证运动合成质量的同时,提高计算效率,本发明提出了基于逆向关键帧序列的过渡关键帧快速定位算法。对两个待合成手势运动基元Φi和Φj,假设长度分别为m和n,过渡关键帧快速定位算法如下(多个手势运动基元合成可按照同样的方法依次进行处理):
(1)提取手势运动基元Φi运动恢复时段的关键帧序列F1,假设长度为len1;
(2)提取手势运动基元Φj运动准备时段关键帧序列F2,假设长度为len2;
(3)对运动关键帧序列F1,从起始关键帧位置1(关键帧标号)开始移动到末尾关键帧位置len1。对每一个位置k,依次循环计算关键帧序列F2中第len2-i个关键帧与运动关键帧序列F1中第k关键帧的相似度Sim,如果存在相似度满足阈值ε(公式2)则终止循环,否则直至循环结束,定位到过渡帧。
尽管为了说明的目的,已描述了本发明的示例性实施方式,但是本领域的技术人员将理解,不脱离所附权利要求中公开的发明的范围和精神的情况下,可以在形式和细节上进行各种修改、添加和替换等的改变,而所有这些改变都应属于本发明所附权利要求的保护范围,并且本发明要求保护的产品各个部门和方法中的各个步骤,可以以任意组合的形式组合在一起。因此,对本发明中所公开的实施方式的描述并非为了限制本发明的范围,而是用于描述本发明。相应地,本发明的范围不受以上实施方式的限制,而是由权利要求或其等同物进行限定。

Claims (6)

1.一种基于手势识别的手势运动基元过渡帧定位方法,其特征在于,依次包括以下步骤:
(1)利用视频或图像采集装置获取一个或多个分辨率为N×M的手势图像,对一个或多个手势图像进行预处理,将一个或多个手势图像中的人物图像提取出来,删除除了人物图像部分之外的背景图像;
(2)对提取后的人物图像进行去噪处理,消除传输和采集过程中的噪声干扰,之后将去噪后的人物图像按照轮廓、颜色、纹理分割为轮廓图像、颜色图像和纹理图像;
(3)对轮廓图像进行修正,进行平滑处理;
(4)将颜色图像按照RGB图像的R、G、B三个分量通道进行分解,分别将三个分量通道中的每一个像素与其邻近的8个像素构成3×3的像素块,按照如下公式分别得到处理后的每一个像素分别对应的R、G、B三个分量的值:
P ij ( R ) = ( ( P ( i - 1 ) ( j - 1 ) + P ( i - 1 ) j + P ( i - 1 ) ( j + 1 ) 3 + P ( i - 1 ) ( j - 1 ) + P i ( j - 1 ) + P ( i + 1 ) ( j - 1 ) 3 + P ( i + 1 ) ( j - 1 ) + P ( i + 1 ) j + P ( i + 1 ) ( j + 1 ) 3 + P ( i - 1 ) ( j + 1 ) + P i ( j + 1 ) + P ( i + 1 ) ( j + 1 ) 3 ) 4 + R ij ) / 2
P ij ( G ) = ( ( P ( i - 1 ) ( j - 1 ) + P ( i - 1 ) j + P ( i - 1 ) ( j + 1 ) 3 + P ( i - 1 ) ( j - 1 ) + P i ( j - 1 ) + P ( i + 1 ) ( j - 1 ) 3 + P ( i + 1 ) ( j - 1 ) + P ( i + 1 ) j + P ( i + 1 ) ( j + 1 ) 3 + P ( i - 1 ) ( j + 1 ) + P i ( j + 1 ) + P ( i + 1 ) ( j + 1 ) 3 ) 4 + R ij ) / 2
P ij ( B ) = ( ( P ( i - 1 ) ( j - 1 ) + P ( i - 1 ) j + P ( i - 1 ) ( j + 1 ) 3 + P ( i - 1 ) ( j - 1 ) + P i ( j - 1 ) + P ( i + 1 ) ( j - 1 ) 3 + P ( i + 1 ) ( j - 1 ) + P ( i + 1 ) j + P ( i + 1 ) ( j + 1 ) 3 + P ( i - 1 ) ( j + 1 ) + P i ( j + 1 ) + P ( i + 1 ) ( j + 1 ) 3 ) 4 + R ij ) / 2
Pij(R)、Pij(G)、Pij(B)分别为经过处理后的R、G、B三个分量通道中的像素值,Pij为R、G、B三个分量通道中对应第i行、第j列的像素值,其中i=1,2,…,N,j=1,2,…,M;
(5)将经过处理后的R、G、B三个分量通道中的像素值进行分配,合成经过处理后的颜色图像;
(6)对纹理图像进行修正,进行平滑处理;
(7)将经过处理的轮廓图像、颜色图像和纹理图像进行再合成,建立手势图像数据库;
(8)基于手势图像数据库中的手势图像,按照身体的生理结构以及各个关节运动时的约束关系,以关键帧的方式建立手势动作的基本单位,并且描述所述基本单位的时序变化信息,具体包括如下步骤:
对两个待合成手势运动基元Φi和Φj,假设长度分别为m和n;
a.提取手势运动基元Φi运动恢复时段的关键帧序列F1,假设长度为len1;
b.提取手势运动基元Φj运动准备时段关键帧序列F2,假设长度为len2;
c.对运动关键帧序列F1,从起始关键帧位置1,开始移动到末尾关键帧位置len1,对每一个位置k,依次循环计算关键帧序列F2中第len2-i个关键帧与运动关键帧序列F1中第k关键帧的相似度Sim,如果存在相似度小于阈值ε,则终止循环,否则直至循环结束,定位到过渡帧;
(9)通过关键帧插值进行平滑连接合成连贯的手势动作,建立与手势图像匹配的手势运动基元模型;
(10)将手势运动基元模型和图像数据库中的手势图像对应合成,建立虚拟人数据库;
(11)将虚拟人数据库中的数据上传至云数据库单元,所述云数据库单元将接收到的数据存储后作为备份数据,供远程客户端下载;远程客户端下载云数据库单元中存储的数据,进行自定义编辑,将自定义编辑后的数据回传至虚拟人数据库,对虚拟人数据库中的数据进行更新。
2.如权利要求1所述的基于手势识别的手势运动基元过渡帧定位方法,其特征在于:所述步骤(8)中以关键帧的方式建立手势动作的基本单位,并且描述所述基本单位的时序变化信息步骤中,还包括为手势运动基元模型中的关键帧添加flag标记位,将手势运动基元按具有时间次序关键帧标注“start”,“prepare”,“achieve_goal”,“release_goal”,“end”,并且将每个手势运动基元分解为四个运动时段:准备阶段、伸出阶段、后伸出阶段、恢复阶段。
3.如权利要求1所述的基于手势识别的手势运动基元过渡帧定位方法,其特征在于:所述约束关系采用四元数表示关节旋转。
4.如权利要求1所述的基于手势识别的手势运动基元过渡帧定位方法,其特征在于:对手势关键帧Gi与Gj相似度Sim(Gi,Gj)计算如下:Sim(Gi,Gj)=Dist(pi,pj)+vDist(vi,vj),其中Dist(pi,pj)表示各个关节角度加权距离,Dist(vi,vj)表示各关节旋转加速度的加权距离,参数v表示不同关节位置对速度差异的影响权重。
5.如权利要求1所述的基于手势识别的手势运动基元过渡帧定位方法,其特征在于:还包括步骤(12):在手势与语言协同表达的手势动画合成过程中,根据转写规则在手势运动基元全集上存在一个运动基元覆盖路径,在以上运动基元覆盖路径下实现基于运动基元连接的手势动画合成。
6.如权利要求5所述的基于手势识别的手势运动基元过渡帧定位方法,其特征在于:通过MacSHAPA获取手势与自然语言的映射匹配。
CN201410711947.3A 2014-11-27 2014-11-27 一种基于手势识别的手势运动基元过渡帧定位方法 Active CN104484034B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410711947.3A CN104484034B (zh) 2014-11-27 2014-11-27 一种基于手势识别的手势运动基元过渡帧定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410711947.3A CN104484034B (zh) 2014-11-27 2014-11-27 一种基于手势识别的手势运动基元过渡帧定位方法

Publications (2)

Publication Number Publication Date
CN104484034A true CN104484034A (zh) 2015-04-01
CN104484034B CN104484034B (zh) 2017-07-28

Family

ID=52758587

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410711947.3A Active CN104484034B (zh) 2014-11-27 2014-11-27 一种基于手势识别的手势运动基元过渡帧定位方法

Country Status (1)

Country Link
CN (1) CN104484034B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858395A (zh) * 2019-01-11 2019-06-07 北京联合大学 一种基于Gloss的手语视频相似度计算方法
CN109902588A (zh) * 2019-01-29 2019-06-18 北京奇艺世纪科技有限公司 一种手势识别方法、装置及计算机可读存储介质
CN112560962A (zh) * 2020-12-17 2021-03-26 咪咕文化科技有限公司 骨骼动画的姿态匹配方法、装置、电子设备及存储介质
WO2021174898A1 (zh) * 2020-03-04 2021-09-10 腾讯科技(深圳)有限公司 合成虚拟对象的动作序列的方法及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727766A (zh) * 2009-12-04 2010-06-09 哈尔滨工业大学深圳研究生院 基于虚拟人的手语新闻播报方法
CN101958007A (zh) * 2010-09-20 2011-01-26 南京大学 一种采用草绘的三维动画姿态建模方法
CN103136780A (zh) * 2013-03-18 2013-06-05 北京工业大学 基于关键帧的手语语流音变动画合成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727766A (zh) * 2009-12-04 2010-06-09 哈尔滨工业大学深圳研究生院 基于虚拟人的手语新闻播报方法
CN101958007A (zh) * 2010-09-20 2011-01-26 南京大学 一种采用草绘的三维动画姿态建模方法
CN103136780A (zh) * 2013-03-18 2013-06-05 北京工业大学 基于关键帧的手语语流音变动画合成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
付延强: "基于运动基元关键帧插值的语言伴随性手势动画合成研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858395A (zh) * 2019-01-11 2019-06-07 北京联合大学 一种基于Gloss的手语视频相似度计算方法
CN109902588A (zh) * 2019-01-29 2019-06-18 北京奇艺世纪科技有限公司 一种手势识别方法、装置及计算机可读存储介质
WO2021174898A1 (zh) * 2020-03-04 2021-09-10 腾讯科技(深圳)有限公司 合成虚拟对象的动作序列的方法及设备
CN112560962A (zh) * 2020-12-17 2021-03-26 咪咕文化科技有限公司 骨骼动画的姿态匹配方法、装置、电子设备及存储介质
CN112560962B (zh) * 2020-12-17 2024-03-22 咪咕文化科技有限公司 骨骼动画的姿态匹配方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN104484034B (zh) 2017-07-28

Similar Documents

Publication Publication Date Title
CN104331164A (zh) 一种基于手势识别的相似度阈值分析的手势运动平滑处理方法
CN104376309B (zh) 一种基于手势识别的手势运动基元模型结构化方法
CN103116857B (zh) 一种基于体感控制的虚拟样板房漫游系统
CN108288072A (zh) 一种基于生成对抗网络的面部表情合成方法
CN110163054A (zh) 一种人脸三维图像生成方法和装置
CN110599573B (zh) 一种基于单目相机的人脸实时交互动画的实现方法
CN108509026B (zh) 基于增强交互方式的远程维修支持系统及方法
CN108776773A (zh) 一种基于深度图像的三维手势识别方法及交互系统
KR100782974B1 (ko) 모션 캡춰 데이터 기반 3차원 애니메이션 구현 방법
CN111294665B (zh) 视频的生成方法、装置、电子设备及可读存储介质
CN108363973A (zh) 一种无约束的3d表情迁移方法
CN105045496A (zh) 一种基于关节点变换的手势交互方法
CN104484034A (zh) 一种基于手势识别的手势运动基元过渡帧定位方法
Bhattacharjee et al. A survey on sketch based content creation: from the desktop to virtual and augmented reality
Wang et al. Wuju opera cultural creative products and research on visual image under VR technology
Gajjar et al. Hand gesture real time paint tool-box: Machine learning approach
Cai et al. Application Characteristics and Innovation of Digital Technology in Visual Communication Design
CN115379278B (zh) 基于扩展现实(xr)技术沉浸式微课的录制方法及系统
CN116977506A (zh) 模型动作重定向的方法、装置、电子设备及存储介质
CN113838158B (zh) 一种图像和视频的重构方法、装置、终端设备及存储介质
Bouzid et al. Synthesizing facial expressions for signing avatars using MPEG4 feature points
Chang et al. A Decision Tree based Real-time Hand Gesture Recognition Method using Kinect
Gong et al. Dynamic facial expression synthesis driven by deformable semantic parts
Jadhav et al. Image Editing Using Generative Adversarial Network
Gai et al. Digital Art Creation and Visual Communication Design Driven by Internet of Things Algorithm

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant