CN101419499A

CN101419499A - 基于摄像头和话筒的多媒体人机交互方法

Info

Publication number: CN101419499A
Application number: CNA2008102345720A
Authority: CN
Inventors: 陈阳; 吴乐南
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2008-11-14
Filing date: 2008-11-14
Publication date: 2009-04-29
Anticipated expiration: 2028-11-14
Also published as: CN101419499B

Abstract

本发明方法利用摄像头拍摄到的用户头部活动影像进行处理，提取出头部运动矢量，根据该运动矢量对电脑显示形象进行控制，使其与用户头部同步动作；同时，通过话筒检测用户语音信号，用检测到的语音控制电脑显示形象的嘴部动作，达到更加逼真的效果。本发明成本低廉、使用方便、应用广泛，成本仅为动作捕捉系统的万分之一；应用本发明方法，基本不需要用户动手操作，就可自动实现电脑显示形象与用户的同步动作显示，可以将用户的双手和注意力解放出来；本发明可应用于即时通讯、远程教育、多媒体教学、“电子哈哈镜”、三维图形操控、卡通播音员/主持人、互动电子宠物、互动跳舞机器人、手机动漫秀、卡通广告片、摄像头/话筒套装捆绑软件等多种场合。

Description

基于摄像头和话筒的多媒体人机交互方法

技术领域

本发明属于人机交互技术领域，为一种基于摄像头和话筒的人机交互方法，利用摄像头和话筒获取用户控制信息，控制电脑显示形象做出相应动作。

背景技术

人机交互技术(Human-Computer Interaction Techniques)是指通过计算机输入、输出设备，以有效的方式实现人与计算机对话的技术，多媒体人机交互是基于视线跟踪、语音识别、手势输入、感觉反馈等新的交互技术。随着科技发展，理想的人机交互提出以人的日常技能就可进行，不需要特别的训练的观点，并向此方向发展。

如在QQ2006即时通讯软件中，新增了3D动漫秀功能，聊天者可以选择自己的动漫形象，通过鼠标操控，使其活动。该技术的人机交互是通过键盘、鼠标等传统方式进行的，卡通形象不能随聊天者的动作而同步运动，操控上需要用户逐一在菜单中点选相应的选项，也比较繁琐。

在目前的3D动画创作中，已经采用了动作捕捉系统(Motion Capture System)，可以实时地捕捉人体的运动，对3D建模形象的动作进行控制，其工作时需要在真人的身体上固定数十至数百个红外线标记物，还要用多部红外线摄像机从不同的角度进行拍摄，这样一套系统的售价至少80余万元，无法推广到大众应用。

发明内容

本发明要解决的技术问题是：目前用户对电脑显示形象的动作控制繁琐，达到同步动作显示的成本高；针对人机交互的发展方向，提出一种方便快捷、应用广泛、成本低廉的多媒体人机交互方法。

本发明的技术方案是：基于摄像头和话筒的多媒体人机交互方法，以摄像头和话筒为信号输入端，控制电脑显示形象的动作：摄像头对用户头部进行拍摄，得到头部视频帧序列，通过运动矢量估计对用户头部视频的帧序列进行处理，提取出头部运动矢量，对电脑显示形象的头部动作进行控制；话筒对用户的语音进行录制，得到语音信号，通过语音包络估计对语音信号进行处理，提取出语音信号的包络，对电脑显示形象的嘴部动作进行控制，最后通过动画合成将电脑显示形象的头部和嘴部的动作进行合成，生成与用户同步动作的形象。

本发明通过运动矢量估计提取头部运动矢量，对电脑显示形象的头部动作进行控制的步骤为：

A.将摄像头获取的彩色图像利用亮度公式Y＝0.299R+0.587G+0.114B转换为灰度图像，设摄像头获取的视频序列格式为A×B像素，按m×m像素的宏块分割每帧图像，则每帧图像有(A/m)×(B/m)个宏块，对第k帧图像中的一个宏块，在第k+1帧图像的(m+2dx_max)×(m+2dy_max)范围内搜索与之最匹配的宏块，dx_max和dy_max为预先设置的宏块在水平和垂直方向上的最大位移量，匹配好坏的衡量可以采用绝对差均值最小准则、均方误差最小准则或归一化互相关函数最大准则；

B.将第k帧图像中第i行j列的宏块记为M_k(i，j)，1≤i≤B/m，1≤j≤A/m，设第k+1帧图像中与M_k(i，j)最匹配的宏块相对于M_k(i，j)在水平和垂直方向上的位移量分别为dx_k(i，j)和dy_k(i，j)，则从第k帧图像到第k+1帧图像的头部运动矢量为(dx_k，dy_k)：

{dx}_{k} = \frac{m^{2}}{AB} Σ_{i = 1}^{B / m} Σ_{j = 1}^{A / m} {dx}_{k} (i, j),

{dy}_{k} = \frac{m^{2}}{AB} Σ_{i = 1}^{B / m} Σ_{j = 1}^{A / m} {dy}_{k} (i, j);

C.对电脑显示形象的头部动作指令进行判断：设定头部运动判断阈值δ，由当前帧相对于前一帧的头部运动矢量确定用户不动、向左、向右、低头、抬头5个头部动作指令：

①|dx_k|<δ且|dy_k|<δ，判定用户头部动作指令为不动；

②|dx_k|≥δ且|dx_k|≥|dy_k|，判定用户头部动作指令为向左或向右；

③|dx_k|≥δ且|dx_k|<|dy_k|，或|dx_k|<δ且|dy_k|≥δ，判定用户头部动作指令为低头或抬头；

D.根据动作指令对电脑显示形象的头部动作进行控制：头部状态包括标准、向左、向右、低头和抬头状态，初始为标准状态，根据收到的动作指令控制头部状态的变化；在某状态下，若收到不动指令，则保持该状态；在除标准状态的其它状态下，若收到同名指令，亦保持该状态，若收到相反指令，则回到标准状态；在其他情况下，将头部状态转向与收到指令同名状态，实现电脑显示形象的头部与用户头部同步运动。

通过语音包络估计提取语音信号，对电脑显示形象的嘴部动作进行控制过程为：将话筒录制得到的语音信号s(t)经半波整流，得非负信号s⁺(t)，再经低通滤波或滑动平均，得到语音包络信号(t)；对电脑显示形象的嘴部设定闭嘴、张小嘴、张大嘴3种状态，设摄像头拍摄第k帧图像的时刻为t_k，θ₀、θ₁为嘴部状态判断阈值，且θ₀<θ₁，若

\tilde{s} (t_{k}) < θ_{0},

则为闭嘴状态；若

θ_{0} \leq \tilde{s} (t_{k}) < θ_{1},

则为张小嘴状态；若

\tilde{s} (t_{k}) &GreaterEqual; θ_{1},

则为张大嘴状态。

电脑显示形象的头部和嘴部的动作合成为：在电脑显示形象头部的标准、向左、向右、低头、抬头5个状态的图像中，指定嘴部中心点坐标，称为锚点；还指定通过锚点的一条直线，称为基线，基线与电脑显示形象的双眼连线平行，设基线与水平线夹角为λ，则在标准、低头、抬头3个状态下，λ＝0°；在向右状态下，λ＝a°；在向左状态下，λ＝-a°；将电脑显示形象嘴部图像叠加到头部，若头部状态为向左、向右，则将嘴部图像随基线旋转λ角度，若头部状态为低头、抬头，则将嘴部纵向压缩至原来的r倍，0<r<1，以模拟低头、抬头时嘴部视图的变化，通过添加过渡帧，使电脑显示形象的头部和嘴部动作更加平滑。

本发明控制电脑显示形象的动作还包括以下处理：

a.在运动矢量估计中，在摄像头图像中预先圈定大致的头部或人物区域，只对该区域中的宏块计算位移量，以减少计算量；

b.增加头部以外的身体部分的运动矢量的判断，并控制电脑显示形象做出相应动作；

c.电脑显示形象头部动作指令包括不动、抬头、右抬头、向右、右低头、低头、左低头、向左、左抬头9种，对抬头、右抬头、向右、右低头、低头、左低头、向左、左抬头8种指令的判断为：将运动矢量所属的区域按每隔45°进行对应划分，根据运动矢量落在哪一区域判断相应的动作指令，还可根据运动矢量的模大小控制电脑显示形象动作幅度的大小；

d.电脑显示形象按照一定的频率眨眼，或与嘴部动作相结合，当说话时按照一定频率眨眼，或结合人脸识别中的眼睛定位技术，确定人眼位置，捕捉眨眼动作；如确定了双眼位置，还可利用透视关系，通过图像中双眼距离的变化结合头部运动矢量判断头部的转动，若运动矢量向左/右时伴随双眼距离变小，则可判断用户头部向左/右转动，控制电脑显示形象相应转头；

e.电脑显示形象在一般情况下保持微笑，设定若干表情按钮，当用户需要时，按下按钮，使电脑显示形象做出相应表情；

f.设定电脑显示形象按照预先设置的程序做不受用户控制的运动，产生不受用户控制的运动和受用户控制的运动穿插进行的效果；

g.可用手臂代替头部运动，对电脑显示形象的头部状态进行控制。

本发明方法利用摄像头拍摄到的用户头部活动影像进行处理，提取出头部运动矢量，根据该运动矢量对电脑显示形象进行控制，使其与用户头部同步动作；同时，通过话筒检测用户语音信号，用检测到的语音控制电脑显示形象的嘴部动作，达到更加逼真的效果。本发明成本低廉、使用方便、应用广泛，目前很多笔记本电脑都自带摄像头，摄像头和话筒也逐渐成为家用电脑的标准配置，摄像头的售价为数十至数百元，话筒的售价为数十元，成本仅为动作捕捉系统的万分之一；应用本发明方法，基本不需要用户动手操作，就可自动实现电脑显示形象与用户的同步动作显示，可以将用户的双手和注意力解放出来，用户在可同时在电脑上做其他事情，大大提高了效率；本发明可应用于即时通讯、远程教育、多媒体教学、“电子哈哈镜”、三维图形操控、卡通播音员/主持人、互动电子宠物、互动跳舞机器人、手机动漫秀、卡通广告片、摄像头/话筒套装捆绑软件等多种场合。

附图说明

图1为将320×240像素的帧划分为20×15个宏块的示意图。

图2为本发明的运动矢量估计中，宏块匹配运动估计的示意图。

图3为本发明由运动矢量产生动作指令的流程图。

图4为本发明的电脑显示形象头部状态转移图。

图5为本发明的语音信号包络估计示意图，(a)为原信号s(t)，(b)为半波整流信号s⁺(t)，(c)为包络信号

图6为本发明的实施例卡通拟人形象嘴部状态示意图，(a)为闭嘴状态，(b)为张小嘴状态，(c)为张大嘴状态。

图7为本发明实施例的卡通拟人形象头部的锚点和基线示意图，(a)为标准，(b)为向左，(c)为向右，(d)为低头，(e)为抬头。

图8为本发明的优化方案中设定的头部区域宏块(a)与人物区域宏块(b)。

图9为本发明的优化方案中检测举手的矩形区域(a)与卡通形象举手状态(b)。

图10为本发明根据运动矢量确定不动、抬头、左抬头、向左、左低头、低头、右低头、向右、右抬头9种动作指令的划分示意图。

图11为本发明根据运动矢量确定不动、抬头、左抬头、向左、左低头、低头、右低头、向右、右抬头9种动作指令及动作幅度的划分示意图。

具体实施方式

下面说明本发明方法的具体实施方式。

设电脑显示形象为一卡通拟人形象，以罗技QuickCam Messenger摄像头为例，拍摄得到的视频序列格式有3种：①640×480，10帧/秒；②320×240，15帧/秒；③160×120，15帧/秒。

首先将由摄像头获取的彩色图像利用亮度公式

Y＝0.299R+0.587G+0.114B

转换为灰度图像，将每帧图像分割为m×m像素的宏块。以320×240序列为例，可取m＝16，则每帧图像有20×15个宏块，如图1所示。对第k帧图像中的一个宏块，在第k+1帧图像的(m+2dx_max)×(m+2dy_max)范围内搜索与之最匹配的块，dx_max和dy_max为预先设置的宏块在水平和垂直方向上的最大位移量，如图2所示，匹配好坏的衡量可以采用绝对差均值(Mean Absolute Difference，MAD)最小准则、均方误差(Mean SquaredError，MSE)最小准则或归一化互相关函数最大准则。

将第k帧图像中第i行j列的宏块记为M_k(i，j)，其中1≤i≤15，1≤j≤20。设第k+1帧图像中与M_k(i，j)最匹配的块相对于M_k(i，j)在水平和垂直方向上的位移量分别为dx_k(i，j)和dy_k(i，j)，则从第k帧图像到第k+1帧图像的运动矢量为(dx_k，dy_k)，其中

{dx}_{k} = \frac{1}{300} Σ_{i = 1}^{15} Σ_{j = 1}^{20} {dx}_{k} (i, j),

{dy}_{k} = \frac{1}{300} Σ_{i = 1}^{15} Σ_{j = 1}^{20} {dy}_{k} (i, j)

在一般的头肩部摄像头图像中，用户的头部占主要部分，因此运动矢量的模的大小和方向主要由用户头部运动决定。其中dx_k以向图像右侧为正，dy_k以向图像下方为正，该规定与图1中i、j的计数方向一致。这里假设用户头部占了画面的主要部分，所有宏块的平均运动矢量由用户的运动决定，由于画面的主要部分为用户头部，并预先设置了宏块在水平和垂直方向上的最大位移量，即使期间突然有其它运动物体经过摄像头画面，也不会对运动矢量估计造成太大影响。

在简单情况下，设卡通拟人形象有标准、向左、向右、低头、抬头5个状态。在摄像头画面与用户为非镜像关系下，由运动矢量产生5个基本动作指令给卡通拟人形象的过程如图3所示，考虑噪声影响，设定用户的头部运动判断阈值δ，

①|dx_k|<δ且|dy_k|<δ，判定用户头部动作指令为不动；

③|dx_k|≥δ且|dx_k|<|dy_k|，或|dx_k|<δ且|dy_k|≥δ，判定用户头部动作指令为低头或抬头。

卡通拟人形象在5个基本动作指令下的状态转移如图4所示。根据动作指令对电脑显示形象的头部状态进行控制：初始为标准状态，根据收到的动作指令控制头部状态的变化，在某状态下，若收到不动指令，则保持该状态，例如向左状态下收到向左指令，则保持向左状态；在除标准状态的其它状态下，若收到同名指令，亦保持该状态，若收到相反指令，则回到标准状态，例如抬头状态下收到低头指令，则回到标准状态；在其他情况下，将头部状态转向与收到指令同名状态，例如向左状态下收到抬头指令，则转向抬头状态，这样就可以实现卡通拟人形象与用户头部同步运动。通过添加过渡帧，例如Flash动画就可自动添加过渡帧，可以使卡通拟人形象的动作更加平滑。

语音信号的估计和相应对卡通拟人形象的控制为：将话筒录制得到的语音信号s(t)经半波整流，可得非负信号s⁺(t)，再经低通滤波或滑动平均，即可得到语音包络信号

如图5所示。卡通拟人形象的嘴部状态有闭嘴、张小嘴、张大嘴3种状态，如图6所示。设摄像头拍摄第k帧图像的时刻为t_k，θ₀、θ₁为嘴部状态判断阈值，且θ₀<θ₁，若

\tilde{s} (t_{k}) < θ_{0},

则为闭嘴状态；若

θ_{0} \leq \tilde{s} (t_{k}) < θ_{1},

则为张小嘴状态；若

\tilde{s} (t_{k}) &GreaterEqual; θ_{1},

则为张大嘴状态。通过添加过渡帧，可以使嘴部动作更加平滑。

通过动画合成控制卡通拟人形象的头部和嘴部一起动作时，在标准、向左、向右、低头、抬头5个状态的图像中，指定嘴部中心点坐标，称为锚点；指定通过锚点的一条直线，称为基线，如图7所示，其中锚点用“☆”标出。基线与卡通拟人形象双眼连线平行，设基线与水平线夹角为λ，则在标准、低头、抬头3个状态下，λ＝0°；在向右状态下，λ＝a°；在向左状态下，λ＝-a°。将卡通拟人形象的嘴部图像叠加到头部，使嘴部中心点对准锚点，若头部状态为向左、向右，则将嘴部图像随基线旋转λ角度，若头部状态为低头、抬头，则将嘴部纵向压缩至原来的r倍，0<r<1，以模拟低头、抬头时嘴部视图变化。

在前述方法的基础上，本发明方法对电脑显示形象的控制还可增加以下处理用于优化：

a.在运动矢量估计中，为了减少计算量，可以在摄像头图像中预先圈定大致的头部或人物区域，如图8所示。只对该区域中的宏块计算位移量；

b.增加头部以外的身体部分的运动矢量的判断，并控制电脑显示形象做出相应动作，可以定义用户感兴趣的区域运动矢量，例如，在摄像头图像大致对应于人肩部的位置划定左右2个矩形区域，若在其中检测到向上的运动矢量，则让显示的形象举手，如图9所示。用户坐在摄像头前，但卡通形象不一定为坐姿，可以让其站着演讲，通过检测举手运动矢量，可以让卡通形象的动作更丰富；

c.电脑显示形象头部动作指令包括不动、抬头、右抬头、向右、右低头、低头、左低头、向左、左抬头9种，对抬头、右抬头、向右、右低头、低头、左低头、向左、左抬头8种指令的判断为：将运动矢量所属的区域按每隔45°进行对应划分，根据运动矢量落在哪一区域判断相应的动作指令，还可根据运动矢量的模大小控制电脑显示形象动作幅度的大小，在摄像头画面与用户为非镜像关系情况下的区域划分如图10和图11所示，这样可使显示形象的动作更细腻；

d.眼部的处理。电脑显示形象按照一定的频率眨眼，或与嘴部动作相结合，当说话时按照一定频率眨眼，或结合人脸识别中的眼睛定位技术，确定人眼位置，捕捉眨眼动作；进一步地，如确定了双眼位置，还可利用透视关系，通过图像中双眼距离的变化结合头部运动矢量判断头部的转动，若运动矢量向左/右时伴随双眼距离变小，则可判断用户头部向左/右转动，控制电脑显示形象相应转头，使卡通形象的动作更加丰富；

e.表情的处理。目前表情识别技术尚不成熟，本发明让电脑显示形象在一般情况下保持微笑，并设定若干其它表情按钮，如大笑、大怒、大哭，当用户需要时，按下按钮，可使卡通形象做出相应表情；

f.为了避免电脑显示形象动作单调，可让电脑显示形象按照预先设定的程序做不受操控的运动，例如小幅度的类随机运动，从而产生不受操控运动和受操控运动穿插进行的效果；

g.本发明也可用手臂代替头部进行运动并控制电脑显示形象，这样也可以用手在空中移动来控制电脑显示形象的运动，丰富用户的控制方式。

以Windows操作系统为例，本发明从摄像头获取视频信号、从话筒获取音频信号、运动矢量估计、语音包络估计都可用Visual C++编程实现。2维卡通形象可用Flash实现，通过Flash的外部程序接口，接收头部动作指令和确定嘴部动作状态。电脑显示形象，如三维卡通形象可用3DS MAX实现。

运动矢量估计已有成熟的ASIC芯片实现，因此本发明可方便地移植到玩具等实体卡通形象上。

本发明有如下多种应用：

1)即时通讯，例如QQ聊天。用户可先将自己的卡通形象传给对方，在聊天过程中，只需传输由摄像头得到的头部运动指令以及由话筒得到的嘴部动作指令给对方，就可控制卡通形象与自己同步运动。这种方式与直接视频聊天相比，对网络带宽的要求大大降低，可避免运动图像停滞；还可以更换不同的卡通形象，增加趣味性；

2)远程教学。在不同地方的教师和学生，通过网络进行教学活动。在学生的电脑屏幕上，有与教师同步运动的教师模拟形象。在教师的电脑屏幕上，有与学生同步运动的学生模拟形象，若有多个学生，则相应有多个学生模拟形象。若某学生想发言，可直接对话筒说话，教师会发现其模拟形象嘴部运动，若教师想听其发言，则可切换到收听其声音。类似的应用还有婴幼儿或其他需要照顾的人的远程看护，远在异国他乡的婴幼儿父母可以通过MSN、QQ或雅虎通等即时通讯工具看到自己孩子的视频图像，如果发现孩子哭闹，可以远程控制孩子可以看见的屏幕形象或实体卡通玩具做动作或说话，吸引孩子的注意力，让其安静下来；

3)多媒体教学。如在一间很大的教室上课，坐在教室后排的学生看不清教师的面部，可以将与教师同步运动的卡通形象投影在大屏幕上，可提高教学效果。还可以根据教师的要求为其设计个性化的卡通形象，该应用方案对于幼儿教育也特别适合；

4)“电子哈哈镜”。设定一卡通形象以镜像形式与用户同步运动，可以达到哈哈镜的效果。这种“电子哈哈镜”可以将人变成各种卡通、动物形象，还可以换不同的衣服，比普通哈哈镜更有趣；

5)三维图形操控。在一些著名电脑和电子产品制造商的网站上，常常有其最新产品的三维实体模型展示，观看者可通过鼠标操作，转动三维模型，观看产品的不同部位，这项技术对在线购物网站也很有用。采用本发明，就可以不用鼠标操作。当用户头部向左/右时，说明用户希望看产品左/右侧，就让三维模型向能看到更多左/右侧的方向转动；当用户头部抬/低头时，说明用户希望看产品的上/下部，就让三维模型向能看到更多上/下部的方向转动。通过用户头向左/右和抬/低头的组合，可以让三维图形旋转到任意部分正对用户，即等同于从空间任意视角观看三维图形，这种三维图形操控方式比用鼠标操作更加方便、自然；

6)卡通播音员/主持人。在如天气预报等电视节目中，已经有卡通播音员/主持人形象配上真人播音员的声音的形式，但是卡通形象的运动和嘴部动作与真人不一致。采用本发明，可以使卡通播音员真正与真人播音员同步，效果更真实、自然。在儿童电视节目中，也有主持人操纵木偶，和木偶一起演双簧的节目样式。采用本发明，可以让木偶的影像与主持人同步，就不需要用手操控木偶，从而丰富了节目制作手段；

7)互动计算机屏幕宠物。在Windows XP、Office、瑞星杀毒等软件中都有卡通宠物形象的屏幕助手，这种屏幕宠物可以缓解人们的工作压力，不过，它们只按照自己的程序运作，有时用户想安静工作，而宠物却活蹦乱跳，就会形成干扰，往往导致用户将宠物程序关闭。采用本发明，当运动矢量的模较小时，说明用户在专心工作，让屏幕宠物保持安静或打盹；当运动矢量的模较大时，说明用户在活动，例如工作告一段落，伸了个懒腰，这时可让屏幕宠物玩杂耍，问候“主人辛苦了”等。还可以连接监控摄像头，当运动矢量的模较大时，说明有外人入侵，可让屏幕宠物报警。该技术还可以移植到各种实体宠物玩具上，在宠物玩具上安装摄像头和话筒，采用本发明，就可以实现与玩具使用者的互动：例如检测到运动矢量的模较大时，让宠物玩具摇头摆尾；检测到声音包络较大时，让宠物玩具发出回应的叫声；

8)互动跳舞机器人。将本发明应用于计算机屏幕上的卡通健身操或舞蹈教练，可根据运动矢量的模大小调整舞蹈节奏的快慢，当运动矢量模较大时，说明用户跟得上舞蹈节奏，可以保持较快节奏；当运动矢量模较小时，说明用户跳累了，可以放慢节奏；

9)手机动漫秀。很多手机都配有用于拍照的摄像头，如果再配备一个对着用户的摄像头或者将摄像头设计成可以转向对着用户，就可在手机上打可视电话。应用本发明，就可将可视电话变成动漫秀，让对方看到与自己头部同步运动说话的卡通形象；

10)卡通广告片。可以利用卡通形象进行产品宣传介绍，录制卡通短片。利用本发明，可以使卡通形象与真人同步，加速卡通短片的制作进程，利用卡通形象做广告比请明星做广告可节省大量开销；

11)摄像头/话筒套装捆绑软件。罗技等厂商有摄像头/话筒套装产品，若将本发明在其配套光盘上提供，可增加趣味性，促进销售，本发明也可以作为配备有摄像头的笔记本或台式电脑产品的配套软件。

Claims

1、基于摄像头和话筒的多媒体人机交互方法，其特征是以摄像头和话筒为信号输入端，控制电脑显示形象的动作：摄像头对用户头部进行拍摄，得到头部视频帧序列，通过运动矢量估计对用户头部视频的帧序列进行处理，提取出头部运动矢量，对电脑显示形象的头部动作进行控制；话筒对用户的语音进行录制，得到语音信号，通过语音包络估计对语音信号进行处理，提取出语音信号的包络，对电脑显示形象的嘴部动作进行控制，最后通过动画合成将电脑显示形象的头部和嘴部的动作进行合成，生成与用户同步动作的形象。

2、根据权利要求1所述的基于摄像头和话筒的多媒体人机交互方法，其特征是通过运动矢量估计提取头部运动矢量，对电脑显示形象的头部动作进行控制的步骤为：

{dx}_{k} = \frac{m^{2}}{AB} Σ_{i = 1}^{B / m} Σ_{j = 1}^{A / m} {dx}_{k} (i, j),

{dy}_{k} = \frac{m^{2}}{AB} Σ_{i = 1}^{B / m} Σ_{j = 1}^{A / m} {dy}_{k} (i, j);

①|dx_k|<δ且|dy_k|<δ，判定用户头部动作指令为不动；

3、根据权利要求1或2所述的基于摄像头和话筒的多媒体人机交互方法，其特征是通过语音包络估计提取语音信号，对电脑显示形象的嘴部动作进行控制的过程为：将话筒录制得到的语音信号s(t)经半波整流，得非负信号s⁺(t)，再经低通滤波或滑动平均，得到语音包络信号

对电脑显示形象的嘴部设定闭嘴、张小嘴、张大嘴3种状态，设摄像头拍摄第k帧图像的时刻为t_k，θ₀、θ₁为嘴部状态判断阈值，且θ₀<θ₁，若

则为闭嘴状态；若

则为张小嘴状态；若

则为张大嘴状态。

4、根据权利要求1或2所述的基于摄像头和话筒的多媒体人机交互方法，其特征是电脑显示形象的头部和嘴部的运动合成为：在电脑显示形象头部的标准、向左、向右、低头、抬头5个状态的图像中，指定嘴部中心点坐标，称为锚点，还指定通过锚点的一条直线，称为基线，且基线与电脑显示形象的双眼连线平行；设基线与水平线夹角为λ，则在标准、低头、抬头3个状态下，λ＝0°；在向右状态下，λ＝a°；在向左状态下，λ＝-a°；将电脑显示形象嘴部图像叠加到头部，若头部状态为向左、向右，则将嘴部图像随基线旋转λ角度，若头部状态为低头、抬头，则将嘴部纵向压缩至原来的r倍，0<r<1，以模拟低头、抬头时嘴部视图的变化，通过添加过渡帧，使电脑显示形象的头部和嘴部动作更加平滑。

5、根据权利要求3所述的基于摄像头和话筒的多媒体人机交互方法，其特征是电脑显示形象的头部和嘴部的动作合成为：在电脑显示形象头部的标准、向左、向右、低头、抬头5个状态的图像中，指定嘴部中心点坐标，称为锚点；还指定通过锚点的一条直线，称为基线，基线与电脑显示形象的双眼连线平行，设基线与水平线夹角为λ，则在标准、低头、抬头3个状态下，λ＝0°；在向右状态下，λ＝a°；在向左状态下，λ＝-a°；将电脑显示形象嘴部图像叠加到头部，若头部状态为向左、向右，则将嘴部图像随基线旋转λ角度，若头部状态为低头、抬头，则将嘴部纵向压缩至原来的r倍，0<r<1，以模拟低头、抬头时嘴部视图的变化，通过添加过渡帧，使电脑显示形象的头部和嘴部动作更加平滑。

6、根据权利要求1或2所述的基于摄像头和话筒的多媒体人机交互方法，其特征是控制电脑显示形象的动作还包括以下处理：

7、根据权利要求3所述的基于摄像头和话筒的多媒体人机交互方法，其特征是控制电脑显示形象的动作还包括以下处理：

8、根据权利要求4所述的基于摄像头和话筒的多媒体人机交互方法，其特征是控制电脑显示形象的动作还包括以下处理：

9、根据权利要求5所述的基于摄像头和话筒的多媒体人机交互方法，其特征是控制电脑显示形象的动作还包括以下处理：