CN1188948A

CN1188948A - 用于对脸部运动编码的方法和装置

Info

Publication number: CN1188948A
Application number: CN97122078A
Authority: CN
Inventors: 李敏燮
Original assignee: Daewoo Electronics Co Ltd
Current assignee: WiniaDaewoo Co Ltd
Priority date: 1996-12-27
Filing date: 1997-12-22
Publication date: 1998-07-29

Abstract

提供了一种方法,用于在基于一个三维(3D)模型的编码系统中根据一声音和一个二维(2D)图象信号业对一个新的脸部的脸部运动编码。根据人的一般脸的一基本3D模型从新脸的初始数据生成一个自适应3D模型;并通过2D图形信号和自适应3D模型之间的旋转相关性来产生该2D图象信号的一个基本模式。将来自2D图象信号的新脸的一个或多个特征区与该基本模式进行对比,以便检测多个变形参数。根据该声音信号对此变形参数作修正。

Description

用于对脸部运动编码的方法和装置

本发明涉及一种用于对运动目标编码的方法和装置，更具体地，涉及一种能够通过利用一个三维脸部模型对一脸部运动进行编码和解码的方法和装置。

在诸如可视电话、电视会议和高分辨率电视系统的数字电视系统中，由于在每一视频帧信号中的一视频行信号包括一系列被称作象素值的数字数据，因而需要大量的数字数据来定义该视频帧信号。然而，由于传统传送信道的可用频率带宽有限，为了从其传送大量的数字数据，需要通过利用各种数据压缩技术来压缩或减少该数据量，尤其对于诸如用于通过其传送人形的可视电话和电视会议系统和低比特率视频信号编码器。

在一视频编码系统中，待传送图象通常包括连接变化的象素。然而在一个三维基于模型的编码系统中，从该图象中抽出一个特殊运动参数并将其传送到接收端。在接收端，为了重建该图象，例如脸部图象，收到的该运动参数与诸如事先传送至此接收端的人的基本脸部形状和头部的一般的三维模型的数据相结合。

在可视电话和电视会议系统中，视频图象主要包括头和肩部图象，即人的上部身体。而且，观众可能最感兴趣的目标将是人的脸部，并且观众将注意运动的部分，即包括运动中的他/她的嘴唇、下巴、头之类的人的嘴部区域，尤其是当该人正在一视频画面中谈话，而并不注意背景画面或其它细节。因此，如果只需传送脸部形状的一般信息，则数字数据量可被大量地减少。

因此，本发明的一个目的是提供一种具有减少了传送数据量的能够通过利用一个三维脸部模型来对一个脸部运动编码和解码的方法和装置。

根据本发明，提供了一种方法用于基于一个三维(3D)模型的编码系统中根据一声音和一个二维(2D)图象信号来对一个新的脸部的脸部运动编码，其中要么基于逐帧、要么基于逐场来提供新脸部的声音和2D图象信号，该方法包括下列步骤：

(a)根据一个基本3D模型从新脸部的原始数据中产生一个自适应3D模型，其中该原始数据代表新脸部的一个或多个2D脸部图象，而该基本3D模型代表人的一般脸的3D模型；

(b)根据该自适应3D模型产生该2D图象信号的一基本模式，其中该基本模式代表通过该2D图象信号和该自适应3D模型之间的旋转相关性(rotational correlationship)而获得的一个2D画面；

(c)从该2D图象信号中抽出新脸部的一个或多个特征区，其中该特征区代表一个或多个在其中发生许多变形的区域；

(d)将该特征区和该基本模式作比较以检测多个变形参数，其中该变形参数代表该比较结果；

(e)根据声音信号修改该变形参数以产生经修改的变形参数；及

(f)对该原始数据和该修改的变形参数编码。

本发明的以上和其它目的可通过对下面根据附图给出的优选实施例的描述中变得显而易见，其中：

图1说明根据本发明的用于对一脸部运动编码的装置100的方框图；

图2提供了根据本发明的用于对一脸部运动解码的装置200的方框图；

图3A说明了根据本发明的多个眼睛和眼眉变形参数；

图3B显示了根据本发明的多个嘴变形参数；

图3C提供1了根据本发明的3个颏变形参数；及

图3D表示根据本发明的3个头变形参数。

在本发明的一个实施例中，假设感兴趣的输入图象是一人的脸部，且待编码的脸部图象的预定特征部分是头、嘴、颏、眼眉和眼睛。

参考图1，示出了根据本发明的该实施例的用于对脸部运动编码的装置100的一方框图，其中脸部运动根据下面进一步说明的方法被分类。

为了方便起见，人体被分为包括腰的上体和腰以下的下体。且，上体再被分为头、躯干、胳膊等。而头又被分成眼、鼻、嘴和耳等。如果眼、鼻、嘴和耳被认为是基本模式，则能够根据此基本模式组织起人体的一个分层次系统，且能够抽出代表此基本模式的变形的变形参数。以下，对于头部将解释该变形参数和其数据结构。

头部的基本模式可被分成两类。第一类对应于发生许多基本模式的变形的区域，而第二类对应于很少发生基本模式的变形的区域。前者对应于眼、眼眉、嘴、颏、颊和额头区域，而后者对应于头发、鼻、耳等区域。用于抽出变形参数的基本模式对应于主动运动区。因而，所选的变形参数将包括下面将要详细描述的眼、眼眉、嘴、颏及头的参数。额头的皱纹及颊分别跟随眼眉和颏运动而被动运动。

1)眼眉：如图3A所示，眼眉被分成左眼眉和右眼眉，且左和右眼眉变形参数分别包括：内侧眼眉上-下运动参数(EB1，EB2)、眼眉左-右运动参数(EB3，EB4)和外侧眼眉上-下运动参数(EB5，EB6)。

2)眼：也如图3A所示，左和右眼变形参数分别包括眼脸上-下运动参数(EL1，EL2)、瞳孔上-下运动参数(E1，E2)和瞳孔左-右运动参数(E3，E4)。

3)嘴：如图3B所示，嘴的运动依靠嘴唇的运动。嘴变形参数包括：唇的两端点的左-右运动参数(L1，L2)、唇中央区的最上和最下点的上下运动参数(L3，L4)、唇中央区的最上和最下点的前向一后向运动参数(L5，L6)、以及唇的端点的上下运动参数(L7，L8)。

4)颏：如图3C所示，颏变形参数包括：上下运动参数(C1)、左-右运动参数(C2)和前-后运动参数(C3)。

5)头：如图3D所示，定义一个三维坐标框架使脸平面(平行于脸的虚拟平面)与X轴垂直，Z轴穿过头顶的中心，而Y轴垂直于X轴和Z轴，该坐标系的原点位于第一颈椎或在其附近。换句话说，X、Y和Z轴分别平行于图3B所示的参数L5、L1和L3的运动方向。头变形参数包括3个转动参数，即一个表示绕Z轴左-右旋转的左右摇头(yawing)参数(H1)、一个表示绕Y轴上下旋转的俯仰参数(H2)以及一个表示左-右倾斜(即绕X轴旋转)的转动参数(H3)。

在基本模式上，这些参数在它们各自的基本位置处具有0值。

变形参数被存储并按下面给出的数据格式被传送，其中每个基本模式的变形参数都用独立的项表示。名称代码位数开始码 head 3头定向位 head_orientation_bit 1

头定向项 head_orientation_items 3

头_定向_项[0] H1 8

头_定向_顶[1] H2 7

头_定向_项[2] H3 5眼眉变形位 eyebrow_bit 1左-右眼眉项 eyebrows 2

左眼眉项 lefteyebrow_items 3

左眼眉_项[0] EB1 3

左眼眉_项[1] EB3 3

左眼眉_项[2] EB5 3

右眼眉项 righteyegrow_items 3

右眼眉_项[0] EB2 3

右眼眉_项[1] EB4 3

右眼眉_项[2] EB6 3眼变形位 eye_bit 1

E1 3

E2 3

E3 3

E4 3

EL1 3

EL2 3嘴变形位 mouth_bit 1

变形选择位 speech_bit 1

L1 3

L2 3

L3 3

L4 3

L5 3

L6 3

L7 3

L8 3

sound 8

pace 4

accent 3颏变形位 chin_bit 1

C1 4

C2 3

C3 3脸结构位 face_texture_bit 1

face_data VLB

以下将对每一项给出一个解释。

1、开始码(head)：代表头数据开始的一个3位码，被设为例如“001”。如果开始码不是“001”则所跟随的不是头数据。

2、头定向位(head-orientation_bit)：表示头是否旋转的一个1位码。其值为1表示头被转了且后面将有头定向参数。其值为0说明头设有被转动。

1)头定向项(head_orientation_items)：表示头向哪一个方向转动的一个3位码。该码的各自的3位表示存在它们相应的定向项。一位1表示头被转向其相应的方向。例如，其值“110”表示发生了左右摇头(即头的左-右转动)和俯仰(即头的上下转动)。

a)头_定向_项[0]：一个8位头左右摇参数(H1)，表示从-90度到90度的181个步长中的一个整数值。

b)头_定向_项[1]：一个7位的头俯仰参数(H2)，表示从-60度至60度的121个步长中的一个整数值。

c)头_定位向_项[2]：一个5位头转动参数(H3)，表示从-15度至15度的31个步长中的一个整数值。

3、眼眉变形位(eyebrow_bit)：说明眼眉是否运动的一个1位码。其值是1说明眼眉运动，其值是0说明眼眉不运动。

1)左-右眼眉项(eyebrows)：表示哪一个眼眉运动的一个2位码。

a)00：两个都不运动。

b)01：左眼眉运动。

c)10：右眼眉运动。

d)11：两个眼眉都运动。

2)左眼眉项(1efteyebrow-items)：表示左眼眉向哪一个方向运动的一个3位码。此码的3位表示存在下面三个运动参数。

a)左眼眉_项[0]：在码左眼眉_项中其值为1说明内侧左眼眉上下运动。一个3位的内侧左眼眉上下运动参数(EB1)是从-1.0至1.0的7个步长中被给出的。

步长	1	2	3	4	5	6	7
步长	1	2	3	4	5	6	7	加权	-1.0	-0.6	-0.3	0.0	0.3	0.6	1.0

其中几乎总是没有运动的第4步长，以及两个极端步长第1、第7步长将被定在预定的绝对的3个3维坐标上，而其余步长的位置是通过使用预定的加权因子(例如上表中显示的)来计算的。第2、第3、第5和第6步长的坐标可被计算为：

对第2和第3步长：

x(j)＝|w(j)|*x(step 1)+(1.0-|w(j)|)*x(step 4)

y(j)＝|w(j)|*y(step 1)+(1.0-|w(j)|)*y(step 4)

z(j)＝|w(j)|*z(step 1)+(1.0-|w(j)|)*z(step 4)

对第5和第6步长：

x(j)＝w(j)*x(step 7)+(1.0-w(j))*x(step 4)

y(j)＝w(j)*y(step 7)+(1.0-w(j))*y(step 4)

z(j)＝w(j)+z(step 7)+(1.0-w(j))*z(step 4)其中X(j)、Y(j)和Z(j)表示第j步长的X、Y和Z的坐标；W(j)是第j步长的一个预定加权因子；而X(步长i)、Y(步长i)和Z(步长i)是在第i步长中的X、Y和Z的坐标。

b)左眼眉_项[1]：其值为1表示左眼眉在左或右的方向上运动。一个3位的左眼眉左-右运动参数(EB3)在从-1.0至1.0的7个步长中被给出。并且以与在EB1中相似的方式确定步长的位置。

c)左眼眉_项[2]：其值1表示外侧左眼眉上下移动。3位的外侧左眼眉上下运动参数(EB5)有从-1.0到1.0的7个步长。用于(EB1)的权值应用于(EB5)，并且步长的位置以与EB1中相似的方式确定。

3)右眼眉项(righteyebrow-items)：表示右眼眉向哪一个方向移动的一个码。右眼眉变形参数(EB2、EB4、EB6)的功能与左眼眉变形参数(EB1、EB3、EB5)的功能相同。

4、眼变形位(eye-bit)：表示眼睛是否运动的一个1位码。其值为1表示眼睛运动，其值为0表示眼睛不运动。

1)瞳孔上下运动参数(E1，E2)：(E1)和(E2)分别表示左眼和右眼的上下运动。(E1)和(E2)各自有7个步长。其中几乎总是没有运动的第4步长，以及两个极端步长第1、第7步长将被定在预定的绝对的3个坐标上，而其余步长的位置如在EB1的情形中来计算。

2)瞳孔左-右运动参数(E3，E4)：(E3)和(E4)分别表示左眼和右眼的左-右运动。(E3)和(E4)各自有7个步长，步长的位置如在E1和E2的情形来计算。

3)外侧眼睑上下运动参数(EL1，EL2)：(EL1)和(EL2)分别表示左眼睑和右眼睑的上下运动。(EL1)和(EL2)各自有7个步长，且诸步长的位置如在E1和E2的情形来计算。

5、嘴变形位(mouth-bit)：表示嘴形是否变化的一个1位码。其值是1表示嘴形变化，其值是0表示嘴形不变化。

1)变形选择位(speech-bit)：一个表示为嘴选择了哪一个变形参数的码。唇形被分成两种情形，即一种情况是当人在讲话时，另一种情形是当人表达表情时。一般地，由于唇形非常依赖于当人讲话时发出的声音，因而唇形能够通过利用所发声音的特征、声音的速度和重音来建构。然而当人表达他/她的感情时，唇形并不具有任何特征。因此，应通过利用全部嘴变形参数来构建唇形，此些参数即：唇的两端点的左-右运动参数(L1，L2)、唇的中央区的最上和最下点的上下运动参数(L3，L4)、唇的中央区的最上和最下点的前后运动参数(L5，L6)，以及唇的端点的上下运动参数(L7，L8)，如图3B所示。其值为1表示该人正在讲话，以下所跟随的将是声音、速度和重音码。如果该码是0值，则L1至L8码将随后而至。L1至L8运动参数分别是3位且具有7个步长。根据对运动参数EB1所描述的方法来计算诸步长的位置。所产生声音的特征、声音的速度和重音分别在第8、4和3位表示。

6、颏变换位(Chin-bit)：表示颏是否运动的一个1位码。其值为1表示颏运动，其值为0表示颏不运动。

1)颏上下运动参数(C1)：一个4位颏上下运动参数(C1)表示自相应于闭着的嘴的位置颏所作的位移量，且有16个步长，第0步长代表闭着的嘴，第15步长代表张开的最大的嘴。16个步长的颏位置以与EB1类似的方法计算。

2)颏左-右运动参数(C2)：一个3位颏左-右运动参数(C2)，表示颏的左-右运动，且从中央处的基本位置向左方向有3个步长、向右方向有3个步长。步长的位置如在EB1的情形来计算。

3)颏前-后运动参数(C3)：一个3位颏前后运动参数(C3)，代表颏的前后运动，且从中央区的基本位置向前有3个步长、向后有3个步长。步长的位置如EB1情形来计算。

7、脸结构位(face-texture-bit)：当一张新脸参与通信时，此码被设为1。

1)脸数据(face-data)：它表示新脸的被压缩的基本脸图象数据且其长度是变化的。

回过头参考图1，初始数据被应用于自适应3维(3D)模型块10和编码器12，其中该初始数据表示刚出现在屏幕上的一个或多个2维(2D)无表情且无声的脸图象，即新脸的一个或多个静止画面。编码器12通过传统编码原理对2D脸图象的初始数据编码以提供给格式化器36作为脸数据的编码的脸图象。

同时，将存储在基本3D模型块14中的基本3D模型提供给自适应3D模型块，其中该基本3D模型代表人的一般脸的3D模型。该自适应3D模型块10通过根据一基本3D模型修改该2D初始数据而产生类似于该新脸的自适应3D模型，并将该自适应3D模型提供给头参数块16和基本模式生成块18。

同时，新脸的图象信号从例如一摄象机(未示出)被提供给头参数块16和特征提取块20；且新脸的声音信号从例如一话筒(未示出)被连续地输入至声音分析器30，其中新脸的图象信号和声音信号的连续输入要么基于逐帧、要么基于逐场。

首先，通过对新脸的自适应3D模型施行传统的仿射变形原理，头参数块16从新脸的图象信号中检测头左右摇动、俯仰和转动参数H1至H3。将头左右摇动、俯仰和转动参数H1至H3提供给基本模式生成块18和格式化器36。基本模式生成块18生成新脸的一基本模式，其中该基本模式代表通过将左右摇动、俯仰和转动参数的自适应3D模型旋转并将旋转后的自适应3D模型投影至一屏幕上而获得的新脸的2D自适应图象；并将基本模式中的左和右眼眉、左和右眼、嘴和颏进行索引以生成基本眼眉、眼、嘴和颏模式。该基本模式生成块18将经索引的眼眉、眼、嘴和颏分别提供给眼眉提取块22、眼提取块24、嘴1提取块26和颏1提取块28。

同时，通过利用传统边缘检测器(诸如sobel算子)，特征提取块20从新脸的图象信号中提取预定特征区的边缘，其中该特征区包括新脸的左和右眼眉、左和右眼、嘴和颏，并将该特征区的轮廓信息，例如左和右眼眉、左和右眼、嘴和颌分别提供给眼眉提取块22、眼提取块24、嘴1提取块26和颏提取块28，其中该轮廓信息代表每一特征区的形状和位置。

眼眉提取块22根据从基本模式生成块18馈入的基本眼眉图形检测左和右眼眉的运动。如果左和右眼眉运动，则左和右眼眉变形参数E1到E6分别用3位算出。一个3位左眼眉一项信号(说明将对哪一个左眼眉变形参数E1、E3和E5进行编码，和一个3位右眼眉-项信号说明将对哪一个右眼眉变形参数E2、E4和E6进行编码)被生成。根据左眼眉_项和右眼眉_项信号生成说明哪一个眼眉运动的一个2位眼眉信号。眼眉数据被连续地以上面给出的数据形式提供给格式化器36，其中如果有的话，眼眉数据包括眼眉信号、左眼眉_项信号、左眼眉变形参数EB1、EB3和EB5、右眼眉_项信号，以及右眼眉变形参数EB2、EB4和EB6。

眼提取块24根据从基本模式生成块18馈入的基本眼眼模式检测左和右眼的运动，并分别根据左和右眼的运动产生瞳孔上下运动参数E1和E2、瞳孔左右运动参数E3和E4、以及外侧眼睑上-下运动参数EL1和EL2。眼提取块24给格式化器36提供眼睛数据，该数据包括，如果有的话，瞳孔上下运动参数E1和E2，瞳孔左-右运动参数E3和E4以及外侧眼睑上下运动参数EL1和EL2。

嘴1提取块26根据从基本模式生成块18馈入的基本嘴模式检测新脸的表情下的嘴的运动，并生成嘴变形参数L1至L8。嘴变形参数L1至L8被提供给格式器36。

颏1提取块28根据从基本模式生成块18馈入的基本颏模式检测出新脸的表情下的颏的运动，并生成颏变形参数C1至C3。该颏变形参数C1至C3被提供给格式化器36。

同时，声音分析器30将该声音信号和一预定阈值比较以确定新脸是在讲话还是在表达他/她的感情。说明该新脸是否在为了交流而讲话的一个速度-位信号被提供给格式化器36。如果该新脸是在讲话，则从该声音信号中提取发出的声音、速度和重音以将此些提供给嘴2提取块32和颏提取块34。

嘴2提取块分别根据发出的声音、速度和重音产生一个8位声音参数、一个4位速度参数和一个3位重音参数，以确定嘴形，并将此声音参数、速度参数和重音参数提供给格式化器36。如果需要，可以在颏2提取块34中产生3个颏变形参数C1至C3以将此些提供给格式化器36。

—新脸无论何时出现在屏幕上，格式化器36都将产生一个1位脸_结构_位，其中该脸_结构_位表示新脸的脸_数据随后跟随。格式化器36也生成3位起始码信号、1位头_定向_位信号、1位眼眉_位信号、1位眼_位信号、1位嘴_位信号和1位颏_位信号，其中根据眼眉信号生成的2位眼眉_信号说明在左右眼眉中是否存在运动；根据参数E1至E4、EL1和EL2产生的1位眼_位信号说明左和右眼是否存在运动；根据嘴变形参数L1至L8或声音、速度和重音参数产生的嘴_位信号说明嘴是否存在运动；而根据颏变形参数C1至C3产生的1位颏_位信号说明颏是否存在运动。格式化器36根据上面给出的数据格式将所有的信号、参数和脸_数据复合起来，并将多路复合的结果提供给缓冲器38用于存储，在该缓冲器中被存储的数据被提供给发送器(未示出)用于发送。

参考图2，示出根据本发明的用于对脸部动作解码的装置200的方框图，其中被发送来的数据被暂时存储在缓冲器50且被提供给初始数据解码器52和参数解码器54。

初始数据解码器52将被发送来的数据中的脸_数据解码，并将新脸的2D初始数据提供给自适应3D模型生成块57内的自适应3D模型块58。

自适应3D模块58通过根据从自适应3D模型生成块57内的基本3D模型块60馈入的基本3D模型修正2D初始数据而产生与新脸类似的自适应3D模型，其中基本3D模型与编码装置100的基本3D模型相同。该自适应3D模型被提供给模式生成块62。

同时，参数解码器54将除脸_数据之外的所有传送来的数据解码以产生所有变形参数，该变形参数包括头变形参数H1至H3；左和右眼眉变形参数EB1至EB6；左和右眼变形参数E1至E4、EL1和EL2；嘴变形参数L1至L8或者声音、速度和重音参数；以及颏变形参数C1至C3。头变形参数经线路L62被提供给模式生成块62；左和右眼眉变形参数EB1至EB6被提供给眼眉重建块64；左和右眼变形参数E1至E4、EL1和EL2被提供给眼重建块66；嘴变形参数L1至L8或声音、速度和重音参数被提供给嘴重建块68；而颏变形参数C1至C3被提供给颏重建块70。眼眉重建块64、眼重建块66、嘴重建块68和颏重建块70组成了重建块63。

首先，模式生成块62向图象重建块56提供新脸的基本模式，其中该基本模式代表通过将头变形参数(即左右摇头、俯仰和转动参数H1至H3)的自适应3D模型旋转、并然后将旋转过的自适应3D模型投影到一屏幕上而获得的新脸的2D自适应图象；并对基本模式中的左和右眼眉、左和右眼、嘴和颏进行索引。模式生成块62分别将索引过的眼眉、眼、嘴和颏提供给眼眉重建块64、眼重建块66、嘴重建块68和颏重建块70。

眼眉重建块64根据左和右眼眉变形参数EB1至EB6从经索引的眼眉重建左和右眼眉，以将重建的左和右眼眉提供给图象重建块56。眼重建块66根据左和右眼变形参数E1至E4、EL1和EL2从经索引的眼重建左和右眼，以将重建的左和右眼提供给图象重建块56。嘴重建块68根据嘴变形参数L1至L8或声音、速度和重音参数从经索引的嘴重建嘴以将重建的嘴提供给图象重建块56。颏重建块70根据颏变形参数C1至C3从经索引的颏重建颏并将重建的颏提供给图象重建块56。

图象重建块56要么以逐帧为基础、要么以逐场为基础通过用从重建块63来的眼眉、眼、嘴和颏代替从模式生成块62馈入的基本模式中的它们而重建新脸的新图象。

虽然对本发明的描述参考了具体实施例，对本专业技术人员显而易见的是在不背离如所附权利要求中定义的本发明的精神和范围的前提下可作各种变化和修改。

Claims

1、一种方法，用于基于一个三维(3D)模型的编码系统中，根据一声音和一个二维(2D)图象信号来对一个新的脸部的脸部运动编码，其中要么基于逐帧、要么基于逐场来提供新脸部的声音和2D图象信号，该方法包括下列步骤：

(b)根据该自适应3D模型产生该2D图象信号的一基本模式，其中该基本模式代表通过该2D图象信号和该自适应3D模型之间的旋转相关性(rotational correlalionship)而获得的一个2D画面；

(d)将该特征区和该基本模式比较以检测多个变形参数，其中该变形参数代表该比较结果；

(f)对该原始数据和该修改的变形参数编码。

2、根据权利要求1的方法，其中步骤(b)包括以下步骤：

(b1)根据自适应3D模型确定2D图象信号的头参数，其中该头参数代表该自适应3D模型的投影图象与该2D图象信号类似时的旋转条件；及

(b2)用对应于头参数的投影图象代替基本模式。

3、根据权利要求2的方法，其中该投影图象由一仿射变形原理来确定。

4、根据权利要求1的方法，其中步骤(d)包括下列步骤：

(d1)用基本模式匹配特征区以计算每一特征区的每一运动量；及

(d2)将所述每一运动量存储在一个相应的变形参数中。

5、根据权利要求4的方法，其中该特征区包括左和右眼眉、左和右眼、嘴和颏；而变形参数包括眼眉变形参数、眼变形参数、嘴变形参数和颏变形参数。

6、根据权利要求5的方法，其中该特征区由一个sobel算子确定。

7、根据权利要求1的方法，其中步骤(e)包括下列步骤：

(e1)从声音信号获得所发出的声音、速度和重音；

(e2)将所发出的声音、速度和重音分别与预定的阈值对比，以生成一个声音_位信号，其中该声音_位信号说明新脸是在讲话还是表达感情；及

(e3)如果该新脸被确定为在讲话，则根据发出的声音、速度和重音来调整嘴变形参数，以产生经修正的嘴变形参数。

8、根据权利要求7的方法，其中如果该新脸被确定为在讲话，则步骤(e3)还具有步骤：根据所发出的声音、速度和重音来调整颏变形参数以产生修正的颏变形参数。

9、根据权利要求8的方法，其中经修正的变形参数包括头、眼眉、眼、嘴和颏变形参数。

10、一种装置，用于在基于一个三维(3D)模型的编码系统中根据一声音和一个二维(2D)图象信号来对一个新的脸部的脸部运动编码，其中要么基于逐帧、要么基于逐场来提供新脸部的声音和2D图象信号，该方法包括下列步骤：

自适应3D模型生成器，用于根据一个基本3D模型从新脸部的原始数据中产生一个自适应3D模型，其中该原始数据代表新脸部的一个或多个2D脸部图象，而该基本3D模型代表人的一般脸的3D模型；

基本模式生成器，用于根据该自适应3D模型产生该2D图象信号的一基本模式，其中该基本模式代表通过该2D图象信号和该自适应3D模型之间的旋转相关性(rotational correlationship)而获得的一个2D画面；

特征提取器，用于从该2D图象信号中抽出新脸部的一个或多个特征区，其中该特征区代表一个或多个在其中发生许多变形的区域；

参数生成器，用于将该特征区和该基本模式比较以检测多个变形参数，其中该变形参数代表该比较结果；

声音分析器，用于根据该声音信号生成一个声音_位信号，其中该声_位信号说明新脸是谈话还是表达感情；

参数调整器，相应于声音_位信号，该调整器用于根据声音信号调整变形参数以产生修正的变形参数；及

格式化器，用于对初始数据和变形参数或修正的变形参数进行编码。

11、根据权利要求10的装置，其中基本模式生成器包括：

用于根据自适应3D模型确定2D图象信号的头参数的装置，其中该头参数代表该自适应3D模型的投影图象与该2D图象信号类似时的旋转条件；及

用于以对应于头参数的投影图象代替基本模式的装置。

12、根据权利要求11的装置，其中该投影图象由一仿射变形原理来确定。

13、根据权利要求10的装置，其中参数生成器包括：

用于以基本模式匹配特征区以计算每一特征区的每一运动量的装置；及

用于将所述每一运动量存储在一个相应的变形参数中的装置。

14、根据权利要求13的装置，其中该特征区包括左和右眼眉、左和右眼、嘴和颏；而变形参数包括眼眉变形参数、眼变形参数、嘴变形参数和颏变形参数。

15、根据权利要求14的装置，其中该特征区由一个sobel算子确定。

16、根据权利要求14的装置，其中声音分析器包括：

用于从声音信号获得所发出的声音、速度和重音的装置；

用于将所发出的声音、速度和重音分别与预定的阈值对比，以生成一个声音_位信号的装置。

17、根据权利要求16的装置，其中相应于该声音_位信号，根据该声音信号对嘴和颏变形参数进行调整以分别生成修正的嘴和颏变形参数。

18、根据权利要求17的装置，其中经修正的变形参数包括头、眼眉、眼、嘴和颏变形参数。