CN1653490A

CN1653490A - 图像处理方法与系统

Info

Publication number: CN1653490A
Application number: CNA038112876A
Authority: CN
Inventors: 丹尼尔·巴兰; 查尔斯·南丁格尔
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 2002-05-24
Filing date: 2003-05-08
Publication date: 2005-08-10
Also published as: EP1365359A1; CN101447093A; EP1508126A2; KR100826443B1; AU2003227910A1; US20050162432A1; WO2003100728A2; US7184049B2; JP4354907B2; JP2005527053A; KR20050033550A; CA2484491A1; WO2003100728A8; WO2003100728A3

Abstract

本发明提供了一种图像处理的方法和系统，其中，在概念上通过投影把图像纹理化到3维形状的表面上，随后相对移动该形状和/或图像位置，优选地绕所述形状的一个或多个轴旋转，并将纹理化表面投影回图像位置，以产生处理后的第二图像。处理后图像中显示的画面因处理而改变了宽高比。本发明在模拟讲话期间头部的微小运动时，特别是在处理视位图像以在顺序显示时模拟这种微小运动时特别有用。

Description

图像处理方法与系统

技术领域

本发明涉及一种图像处理方法与系统，涉及一种使计算机执行该方法的计算机程序，以及存储所述计算机程序的计算机可读存储介质。

背景技术

已知可以利用发送者的动画图片或至少显示为发送者创建的化身的头部来增强合成或记录话音消息的传送，但这两种情况下都是只有嘴唇的运动与再现的话音同步。在使用发送者的图像的情况下，通过显示所谓的“视位(viseme)”来产生嘴唇运动的印象，“视位”是带有嘴唇的(例如消息发送者的)人脸图像，该嘴唇形状是分别表示与一个或多个音位(phoneme)相关联的多个可识别的嘴唇形状中的一个。当然，音位是众所周知的，是语言中使用的单个离散音。估计英语中有大约44个音位，但可能只有20个左右的视位。因而，可能会在再现几个音位时显示相同的视位。

在操作中，话音再现装置(如话音合成器)输出与一系列音位对应的声波，同时显示装置向使用者显示与任何特定时间再现的特定音位相关联的适当视位。因而，使用者产生了这样的错觉：图像中发送者嘴唇的运动是与再现的音位同步的。应注意，此处视位是发送者的两维图像。

如上所述，本领域公知的可选方法是生成整个身体的化身(avatar)或至少发送者头部的三维视觉模型，随后对其进行定型并纹理化，从而看起来像发送者。随后可以控制头部模型的嘴唇以与再现的话音同步地运动，从而模型的嘴唇为在特定时间再现的特定音位呈现合适的形状。然而，这种系统涉及复杂的头部建模(该建模使用由困难的图像处理或侵入式测量而形成的虚拟线框)，并需要进行处理使静止图像精确地与给定模型相匹配。因而，例如在由Avatar-Me Ltd.(一家英国的有限公司)提供的专用化身创建工作室(no.03560745)中，如果不对待建模的人进行侵入式测量或扫描仍然很难再现头部模型。另外，一旦获得了3D模型，获得模型向用户讲话的错觉所需要的计算量也很大，目前不适于在移动设备(例如移动电话、个人数字助理等)上实现。

前述第一种方法是与再现话音同步地显示一系列两维视位，不会遇到前述第二种方法的计算强度问题，但会遇到显示给观察者的图像非常机械的问题，这些图像可能显得干瘪、呆板且没有活气。这是因为观察者看到的仅仅是嘴唇的运动，以此来创建与再现的当前话音相对应的视位形状。然而，这种运动并不对应于人说话时的自然运动。据观察，在说话时，大多数人的头部也有细微的运动(参见“Autonomous secondarygaze behaViour，M Gillies，N Dodgeson & D Ballin，Proceedingsof the AISB2002 symposium on Animating Expressive Characters forSocial Interactions，ISBN 1902956256’)，但是这种头部运动很难人工再现。虽然可以改进前述的第二种方法(也就是3D化身模型)以使模型根据所观察到的人的行为稍稍移动，但如所讨论的，这种运动当然会带来同样的计算强度问题。为避免该问题，如果能够改进前述第一种方法(也就是二维视位法)来再现所观察的运动，那么这将是有利的。

发明内容

本发明提供一种图像处理方法和系统来解决上述问题，该方法和系统能够处理二维视位图像以产生处理后图像，这些处理后图像在依次显示时再现所观察到的说话时头部的微小运动。可以通过在概念上将待处理的图像纹理化到3D形状(优选地，是在3D虚拟空间中提供的虚拟形状)的表面上，并随后稍稍移动该形状，以模拟所观察的人头部的运动，从而实现该图像处理。每当形状被稍稍移动，则将该图像从形状的表面投影回原始图像位置，这产生了第二个处理后图像，即宽高比略有改变的头像。当利用该方法依次处理了一系列视位图像，并依次向用户显示所得的处理后图像时，结果就是模拟了观察到的头部在讲话期间的随机运动。

然而，应该注意，虽然本发明是考虑到前面介绍的模拟微小头部运动的问题而开发的，并针对这种情况进行说明，但获得了这个结果的图像处理方法和系统不仅仅限于这种应用，而可以在更广的范围中得到应用，如电视特技行业、计算机建模与映射应用，或需要处理两维图像的任何其它领域。

因而，出于以上的考虑，根据本发明的第一方面，提供了一种图像处理方法，包括以下步骤：

a)将第一图像从其图像位置和朝向投影到三维形状的至少一个表面上，从而纹理化所述至少一个表面；

b)相对移动所述形状和/或所述图像位置两者或其中之一；和

c)将所述形状的纹理化表面投影到所述图像位置上，以在该位置处并在与所述第一图像相同的朝向上获得第二图像。

本发明的优点是其图像处理操作可以有效地模拟图像中显示的物体的三维方位变化。另一优点是因为输入和输出都是二维图像，因而降低了采用该方法的算法的计算强度。

优选地，所述第一图像构成第一图像序列的一部分，该方法进一步包括针对所述序列中的各个第一图像重复步骤(a)，(b)，(c)，以获得相应的第二图像序列。因此，本发明可以依次应用于一系列图像以对″动画″序列采用相同的处理。

为具体地解决现有技术中的问题，优选地，第一和第二图像序列分别形成说话的头部的动画序列。

优选地，移动步骤进一步包括随机移动所述形状和/或图像位置。这产生了这样的优点：当图像是人的头像时，可以更精确地再现本发明的优选实施例所要再现的被观察的人体运动。

优选地，所述的运动包括绕所述三维形状的一个或多个轴旋转该三维形状。这提供了这样的优点：当图像是人的头像时，形状的运动模拟了双肩上的头部可能的运动。

在第二方面，本发明还提供了一种图像处理系统，包含：

图像接收装置，用于接收待处理的第一图像；

图像处理装置；以及

图像输出装置，用于输出处理后的第二图像，

其特征在于，所述图像处理装置还包含：

形状建模装置，用于对三维形状进行建模；并用于：

b)相对移动所述形状和/或所述图像位置两者或其中之一；和

第二方面具有与前面对第一方面的描述相同的附加特征和优点。

根据第三方面，还提供了一种计算机程序，当在计算机上执行该程序时，其使计算机执行本发明第一方面的方法。

根据本发明的第四方面，还提供了一种计算机可读存储介质，用于存储根据第三方面的计算机程序。优选地，该计算机可读存储介质可以是任何磁、光、磁光、固态、或本领域公知的其他存储介质，如硬盘、便携式磁盘、CD-ROM、DVD、RAM、ROM、可编程ROM、磁带等。应注意，上面列出的计算机可读存储介质不是穷尽的，可使用任何已知的计算机可读存储介质。

在所附权利要求中可以发现本发明另外的特征和优点。

附图说明

通过下面对仅作为示例的实施例的描述，可以更清楚地理解本发明另外的特征和优点，其中用相同的标号指示相同的部分，在附图中：

图1是根据本发明的装置的系统方框图；

图2是图1的图像处理器的系统方框图；

图3的流程图示出了由图1的系统执行的步骤；

图4的流程图示出了由图2的图像处理器执行的步骤；

图5以线框模型的形式示出了可在本发明的实施例中使用的各种几何形状；

图6的立体图示出了本发明实施例的操作原理；

图7的立体图也示出了本发明的基本操作原理；

图8的立体图用于本发明操作的数学分析；

图9是本发明的第一图像的正视图；

图10是图8的结构的平面图；

图11是图8的结构的平面图，但示出了圆柱体的运动；

图12是图8的结构的平面图，也示出了圆柱体的运动；

图13也是图8的结构的平面图，并示出圆柱体移动了特定角度；以及

图14是根据本发明一个实施例的移动电话的立体图。

具体实施方式

现在参照图7对代表本发明第一实施例的基本操作原理进行描述。随后将描述更详细和实用的实施例。

参照图6和图7，本发明的第一实施例提供了一种图像处理方法和系统，用于处理第一图像62，以提供处理后的第二图像72。在图6和图7中概念化地示出了本发明执行的图像处理，并在下面进行描述。

在图6中，待处理的第一图像(即图像62)相对于三维形状(本例中为圆柱体60)处于特定的位置和朝向。圆柱体60是虚拟空间中的三维虚拟形状，并且该图像在虚拟空间中处于特定的位置和朝向。在本实施例中，相对于圆柱体60布置图像，使得图像的平面平行于圆柱体的轴。还可看到，图像的朝向是这样的：所示图像的上下轴也与圆柱体60的轴平行。圆柱体60具有弯曲的外表面64.

在操作中，作为处理的第一步，通过将图像62从图像位置投影到表面64上而将图像62“纹理化”在圆柱体的表面64上。在执行投影时，将看到，图像朝向被维持，但在被投影到外表面64上时，图像宽高比因圆柱体表面的弯曲特性而稍稍改变。″纹理化″表示根据图像在圆柱体上的投影，把各个象素的亮度和色度值应用到圆柱体60的表面64上，从而看起来好像是通过投影而把图像62“画”在了表面64上。通过图像62的投影对表面64进行纹理化有效地将各象素亮度和色度值绑定到表面64上，以致于图像看起来是粘在上面的，注意到这一点是很重要的。因此，在投影和纹理化之后，表面64上有了图像62的投影作为固定的纹理，从而即使圆柱体60以任何方式移动，在表面64上作为纹理的图像也会随之移动。

在通过图像62的投影对表面64进行纹理化，使投影固定在表面64上之后，图像处理方法的下一个步骤是稍稍移动圆柱体60，在此是如图7所示，其绕轴旋转到第二位置60’。因为图像62在表面64上的投影是纹理化在其上从而绑定到上面的，所以如图7所示，表面64上的纹理化图像也随着圆柱体旋转到第二位置64’。圆柱体60到第二位置60’的运动可以是获得期望效果必需的任何运动。在本实施例中，期望效果是尝试处理图像以使其中包含的头像产生一定程度的随机运动，因而，运动优选地是绕圆柱体的轴旋转，旋转角度在任一方向小于10度，并且优选地不超过1度。可以顺时针方向或逆时针方向绕轴旋转。

在本发明的实施例中，优选地为各待处理图像随机选择形状(在本例中即为圆柱体60)的运动。也就是，对于各个待处理图像对形状施加随机运动。如上所述，在形状是圆柱体，而且图像是头像时，优选地形状的运动是绕其轴旋转，旋转角度在任一方向不超过10度，优选地不超过1度，在这些限制的范围内随机选择旋转量和方向。

每当形状移动时，本发明实施例的图像处理方法的最后步骤是将绑定在纹理化表面64′上的象素亮度和色度值从该表面投影回第一图像62的相对空间中的位置上。在形状移动的情况下，需要从该表面投影回第一图像的原始位置，以通过产生图像的宽高比变化而获得运动效果。如果仅仅在大致垂直于纹理化表面的方向上对其进行投影，那么所得图像将与第一图像62相同。然而，通过从纹理化表面64′的位置投影回到原始图像位置而且朝向相同，可以获得由投影到第一图像位置上的象素亮度和色度值形成的处理后第二图像72，其与第一图像62的位置和朝向相同，但因圆柱体60的运动，其内容被稍稍处理以体现方位变化。

为处理一系列图像，随后分别对各图像进行与上述过程相同的处理。施加到形状(本例中为圆柱体60)的运动优选地是随机选择的，并在形状为圆柱体的情况下，优选地绕主轴旋转不超过1度。在形状被各图像纹理化时，该形状的此种运动可以模拟说话时头部的自然运动。

可选地，形状的运动可以与将与所得到的处理后图像72同时再现的话音的能量相关联，而不是进行随机的运动。例如，在话音中的能量很大时(也就是话音很响)，形状的运动可以高于话音的能量相对较小时的情况。这将产生再现的话音音量较大时图像中的头部移动得更大的效果。

可以提供用于控制运动的其它方法。虽然能量是一种方法，但另一方法是通过波形分析控制形状运动，从而根据话音中包含的频率确定运动。作为示例，对话音波形进行傅立叶分析，以确定其频率，并根据所确定的频率控制形状运动。因此，可以控制形状的运动，使得在话音的低频部分中能量较高时形状的移动比高频部分能量高时的情况更大，或相反。

在另一可选实施例中，对运动的控制不仅仅依赖于同时再现的话音，而是形状在话音再现之前或之后运动。在本示例中，如果某人在喊叫并且声音很高很快(即，愤怒)，那么形状可以最大程度(比方说从-8度到+8度)地从一侧到另一侧快速地移动，一旦大声和快速的话音结束，则形状的从一侧到另一侧的运动逐渐减小，并回到其中间状态。因而即使话音已经停止，形状也将以逐渐变小的方式继续运动。

关于形状，在前面描述的实施例中使用圆柱体60，但不是必须使用圆柱体，图5示出了可以在本发明中使用的各种形状。更具体地，图5a示出了可以用作该形状的球体。在这种情况下，球体可以在任何方向旋转，并不限于绕其极轴。也可以依次绕任何轴进行多次旋转以获得更复杂的运动。

图5b示出了圆柱体，如前所述，优选地对其施加的运动是绕其长轴的旋转。但其它的旋转也是可以的。

图5c示出了椭圆体。可以施加到图5c的椭圆体上的运动类似于可以施加到图5a所示的球体上的运动。也就是说，不但可以绕极轴旋转，而且可以绕任何其它轴旋转。类似地，图5d示出了卵形。图5d的形状更贴切的代表了人的头部，因此使用它可以产生良好的效果。可以施加到图5d所示形状上的运动与可以施加到球体或椭圆体上的运动相同，也就是绕其任何轴的旋转，但优选地是绕其极轴旋转。

图5e示出了本文称为“双圆柱体”的形状，也就是一个圆柱体，其上下表面是与第一圆柱体的方向相正交的第二圆柱体的一部分。可以对这种形状施加任何运动，特别是绕其任一轴的任何旋转。

另外，要注意不是必须对纹理化形状进行移动，关键的是形状相对于纹理化表面将投影到的图像位置(也就是获得处理后的第二图像的图像位置)的相对运动。因而，在另一实施例中，形状可以保持在相同的位置，而纹理化表面投影的图像位置绕形状移动。在进一步的实施例中，图像位置和形状都可以移动，各自的运动不同从而相互之间产生相对运动。在上述的任何情况下，是形状和图像位置的相对运动产生了宽高比改变的效果，因此相对运动是重要的。

在图像位置运动的情况下，可以施加到图像上的运动可以从上述针对形状描述的那些运动中推出，例如绕形状(注意，不是图像)的一个轴或更多轴的旋转。

上面描述了本发明的第一实施例，其示出了本发明的基本操作原理，现在描述更详细的优选的实施例，其是本发明在移动电话中的实施例，使得能够活灵活现地再现正在说出待传送的文本消息的发送者的图像。

图14示出了根据本发明的第二实施例的移动电话。更具体地，提供了移动电话100，其自身带有显示屏102和键盘104以允许用户输入数据。还带有音频再现装置108，即音频变换器。当移动电话100接收到文本消息时，在显示屏102上显示文本消息的发送者的图像106。该图像是所选择的一系列的视位，以与音频再现装置108再现的用于朗读所接收的文本消息的音位相应。根据本发明的第二实施例，图像106被处理从而使图像活灵活现地展现所观察到的人说话时的运动。下面描述为获得该效果而对图像106进行的处理。

图1示出了位于移动电话100内的实现图像处理所需的部件的系统方框图。更具体地，在移动电话100内提供了文本消息接收装置10，其用于例如根据短消息系统(SMS)协议接收文本消息，并将所接收的文本消息的文本传送给文本缓存12，在该处进行存储。存储在缓存12中的消息的文本被解析器14读取，解析器14用于解析该文本以确定将文本转换为话音输出所需的特定音位以及再现它们的顺序。因此解析器14将来自文本缓存12的文本作为输入，对该文本进行声学解析，并将与该文本相对应的一系列音位输出到控制装置16。解析器解析文本以产生音位序列所执行的具体步骤是本领域所公知的，具体地涉及现有技术的文本-语音系统，如BT Laureate系统。传送到控制装置16的音位的表示方式可以是任何标准的音位表示方式，如SAMPA等。

移动电话100中还提供了存储介质20，其提供用于音位存储部210的存储区，其中以例如.WAV文件存储的波形形式存储有音位的声学表示。存储介质20进一步提供了视位存储部208，其存储一系列适于在显示器102上显示的视位。如前所述，视位是带有与一个或多个音位相关联的特定嘴唇形状的人脸图像。

存储介质20中还提供了形状存储部206，其存储与任一几伺形状(如图5所示的球体、圆柱体、椭圆体、卵形体或双圆柱体)相对应的形状数据。代表任一特定形状的数据优选地采用三维虚拟空间中的坐标的形式，即一起构成该形状的大量多角形的顶点的坐标。形状表面进一步由形状数据定义，形状数据进一步包括顶点连接信息，这些顶点连接信息指定了怎样连接这些顶点以形成多角形。在形状存储部206中，为各个可能的形状存储有一组顶点坐标信息以及顶点连接信息。

存储介质20中还存储了操作系统程序202以及动画程序204。操作系统程序202为控制装置16提供了必要的功能和协议，使控制装置16能够控制各种其它系统元件并与之通信；动画程序204具体地控制控制装置的操作以控制各种其它部件执行本发明。优选地，在移动电话100中提供的存储介质20是固态存储介质、FLASH多媒体卡等。

移动电话100中还提供了图像处理器18，其由控制装置16根据包含在动画程序204中的指令进行控制，并进一步用于访问视位存储部208以从中获得视位图像，以及访问形状存储部206以从中获得代表3D几何形状的数据。图像处理器18能够读取3D形状数据，以构建该形状的模型。图像处理器18用于将处理后的图像输出到显示装置102，以在其上进行显示。

移动电话100中还提供了音频再现装置108，其用于从音位存储部210接收音位波形，并以接收的顺序再现该音位波形，以再现其所代表的话音。

音位存储部210、视位存储部208、以及图像处理器18都受控制装置16的控制，从而保持它们之间的同步。更具体地，控制装置16控制音位存储部210以依次将音位输出到音频再现装置108，以将所接收的文本消息再现为话音。类似地，控制装置16控制视位存储部208以使视位存储部208向图像处理器18输出正确的视位图像，这些视位图像与将从音位存储部210输出的待再现的特定音位相对应。图像处理器18处理从视位存储部接收到的图像并将处理后的图像输出到显示装置102。通过控制装置集中控制音位存储部、视位存储部和图像处理器18，可以维持从图像处理器18输出并在显示装置102上显示的处理后的视位与音频存储器210输出的由音频再现装置108再现的音位波形之间的同步，从而在相应音位波形被音频再现装置108再现的同时，在显示装置102上显示恰当的处理后的视位。

图2示出了由图像处理器18执行的系统功能。更具体地，在图像处理器18中提供了控制器8，其接收来自控制装置16的控制信号。从控制器8向纹理化装置2、形状建模装置4和投影装置6提供如图2中的虚线示出的控制线。纹理化装置2在其输入端接收代表从视位存储部208输出的图像的信号。形状建模装置4在其输入端接收代表来自形状存储部206的三维形状的数据。形状建模装置4能够解释所接收的代表数据，以构建这些数据所代表的形状的虚拟模型，如圆柱体、球体、椭圆体、卵形体等。

图像处理器18中进一步提供了投影装置6，其接收来自形状建模装置的信息，并将形状的纹理化表面虚拟地投影到图像位置上，以获得处理后的第二图像。从而投影装置6输出来自处理器18的处理后图像。

已经描述了根据本发明的移动电话的原理性内部结构，现在参照图3和图4描述各部件的操作。更具体地，图3代表了整个系统的操作流程图，图4是由根据本发明的图像处理器18执行的具体步骤的流程图。

参照图3和图4，在步骤3.2，文本消息接收装置10接收文本消息。随后，在步骤3.4，把文本消息存储在文本缓存12中，并随后在步骤3.6，解析器14从文本缓存12中读取所需的文本消息。在步骤3.8，解析器14解析消息的文本，以获得其音位表示。如前所述，解析文本以获得音位表示是本领域公知的。

由解析器获得的音位表示被传送到控制装置16，在步骤3.10，控制装置16控制音位存储部以按照从解析器接收的顺序读取第一音位的声波。基本上同时，在步骤3.12，控制装置控制视位存储部以从视位存储部208输出与音位存储部210当前输出的音位对应的视位。从音位存储部210输出的音位被传送到视频再现装置108，同时从视位存储部208输出的视位被传送到图像处理器18。

在步骤3.14，图像处理器18根据本发明处理所接收的视位，通过应用本发明的图像处理方法，使图像“动”起来。这使视位产生了这样的效果：视位中表现的头部似乎在轻轻移动。

在图像处理器18对输入图像进行处理之后，在步骤3.16，处理后的视位被输出到显示装置102，然后显示给用户。基本上同时，在步骤3.18，音频再现装置108播放从音位存储部210接收到的当前音位的声波。

每当显示了当前的处理后视位，并且播放了当前音位，则在步骤3.20进行评估，以确定是否已经播放了由解析器14确定的序列中的所有音位。如果经评估确认所有的音位都已播放，那么过程结束。相反，如果确定还有音位需要播放，则播放相关的音位，随后在步骤3.22中，控制装置16移动到序列中的下一音位，处理返回步骤3.10。随后在循环中重复处理步骤：步骤3.10、步骤3.12、步骤3.14、步骤3.16、步骤3.18、步骤3.20、步骤3.22，直到所有从解析器14输出到控制装置16的音位都被播放，并且相关的视位被处理并显示给用户。

已经描述了系统的的总体操作，现在参照图4对执行步骤3.14时由图像处理器18执行的具体步骤进行描述。

在步骤4.2，图像处理器18在控制装置16的控制下接收从视位存储部208输出的视位。随后，在步骤4.4，图像处理器18访问形状存储部206并检索代表接收图像所要施加到的3D形状的数据。在图像处理器18中提供的形状建模装置4接收来自形状存储部的数据，并使用该数据将该形状建模成虚拟空间中的三维几何形状。接下来，在步骤4.6，纹理化装置利用所接收图像的投影来纹理化形状的表面。如前所述，纹理化表示把投影到形状表面上的图像象素的亮度和色度值有效地绑定在该表面上，从而好像表面被“画”上了该图像投影。

在图像纹理化之后，在步骤4.8，形状建模装置4执行形状的运动，并在相对于图像位置移动了的位置处对该纹理化形状进行建模。如前面对第一实施例的描述，运动可以是绕形状的任一轴旋转，并在优选的实施例中，形状为圆柱体，并且运动为绕其主轴在两个方向旋转不超过10度，优选地不超过1度。优选地为各次处理随机选择施加到纹理化形状上的精确运动，结果对各处理后图像施加了不同的形状运动。

在别的实施例中，如前面所讨论的，可以根据将与处理后视位一起再现的音位中的话音能量来控制形状的运动。

另外，在其它可选实施例中，如前所述，图像位置相对于形状移动，或形状和图像位置都相对运动。与前面描述的实施例一样，重要的是形状和处理后图像的图像位置之间的相对运动，而不是各自的绝对运动。

在步骤4.8之后，也就是在移动后的位置对纹理化形状进行建模之后，在步骤4.10，投影装置6从形状建模装置4获得移动后的纹理化形状的信息，并将形状的纹理化表面投影到原始接收图像在虚拟空间中的位置。在步骤4.12，位于原始接收图像的位置处的由该投影获得的图像(包括投影的象素亮度和色度值)随后被投影装置作为图像处理器18的输出而输出到显示装置102。如前所述，显示装置102随后向用户显示处理后图像。

依前所述，由此应当理解本发明提供了一种图像处理方法和系统，其使得可以通过将图像施加到三维形状上，随后在形状和图像位置之间产生相对运动，并且将所施加的图像投影到所述图像位置上以获得第二图像，来对图像进行处理以产生特定的“宽高比改变”效果。其中，在图像为视位的情况下，形状与图像位置的相对运动获得所得图像内宽高比改变的效果，这模拟了所观察到的真实的人在讲话时头部的微小运动。因而，现有视位的呆板、死气沉沉的性质被改变，整体的效果更加生动。

应注意，尽管本发明的优选实施例使用人的头像，但本发明不限于处理人的头像，可以使用动物的头像、虚幻的头像等。具体地，“虚幻的头像”表示虚幻生物(例如BBC电视台所播出的Teletubbies^TM)的头像或科幻电影(如Star Wars(星球大战)等)中的人物的头像。此外，应进一步理解，虽然本发明具体为处理(人的、动物的、虚幻的等)脸部的图像而开发，但其应用不限于处理脸部图像，可以处理与本发明先前所述的头像一样需要改变宽高比的任何图像。

在前述的实施例中，在原理的基础上并利用以下事实描述了本发明：图像被投影到一个形状上，随后形状旋转，随后从形状投影回原始图像位置。尽管在本发明的优选实施例中保持了所述的原理，并具体使用了本领域公知的专用三维虚拟现实编程语言，但应该理解，可以通过单纯的数学算法获得相同的图像处理效果。也就是说，将纹理化到形状上的图像可以被简单地认为是在已知坐标系中的离散坐标位置的点的集合，并且形状不是由优选实施例中的多角形代表，而是由已知坐标系中的适当的公式代表。随后使用该几何形状的公式，并使用该形状公式对图像坐标进行适当的转换，从而通过数学方法获得处理后图像。由于其实际上只是实施了针对优选实施例所描述的本发明的原理，因而这种实施方式很显然被所附的权利要求涵盖。为明确这一点，下面对根据本发明的图像处理方法进行数学分析，用数学术语表示上述的纹理化、投影、相对运动和第二投影步骤。现在参照图8到图13描述本发明的数学分析。

图8示出了三维虚拟空间的立体图，在该空间中存在着本发明的图像和形状对象。具体的，图8示出了待处理的图像的位置和朝向以及在虚拟空间中的虚拟形状模型。

图9示出了从正前方(即垂直于图像平面)的观察点看到的待处理图像。相反的，图10示出了从圆柱体的轴向上获得的视图。在这种情况下，视图沿着图像平面，因而从该观察点看不到图像(由于其是两维的)。图11、12和13示出了类似的视图。

在形状为圆柱体的情况下，仅需对圆柱体表面上的任一点的圆周进行计算，例如，在AB的水平面上。所得公式在圆柱体垂直方向上下的整个路径上相同，因为在该方向上的横截面不变。

首先，计算纹理化在圆柱体上的头部的亮度，也就是Lc。唯一的要求是在圆柱体正对它时投影的亮度必须与原始静态图像的亮度Ls相同。

参照图11，令θ为图像中的相关点的对角。θ是“固定”在圆柱体上的。

由于x＝rsinθ

Lc(θ)＝Ls(x)＝Ls(rsinθ)

Lc(θ)＝Ls(x)＝Ls(rsinθ) 公式1

随后，参照图12，计算当圆柱体旋转角度α时在屏幕上显示的亮度(LD)。

此处，令L_CR为旋转后的圆柱体(在α处)的亮度，那么

L_D(x)＝L_CR(rsinα)(参见图12)；而

L_CR(α)＝L_CR(θ+φ)(参见图13)

其中α＝θ+φ，因为这是旋转角φ加上位移角θ，也就是

L_CR(θ+φ)＝L_C(θ)

因而位移角为θ

旋转角为φ

现在，由公式1：Lc(θ)＝Ls(rsinθ)

而rsinα＝x

因此：θ+φ＝arcsin(x/r)

θ＝arcsin(x/r)-φ

Lc(θ)＝Ls{rsin(arcsin(x/r)-φ)}

&DoubleRightArrow; Lc (θ) = Ls {x \cos φ - \sqrt{r^{2} - x^{2}} \sin φ}

从前面可以看出，本发明可以在对优选实施例描述的原理的基础上或仅在上面所示的数学基础上实施，这两者并不互相排斥。在两种情况下，可获得同样改变了宽高比的处理后图像。

另外，本发明不限于由电子的或其它处理装置实施，因为可以通过本发明的实际物理实现来实施本发明并获得相同的效果。因而，在其它实施例中，提供了一种图像投影机，用于通过在形状的表面上投影而显示图像。该图像投影机可以是幻灯机或数字光学投影机等。还提供了一种例如由塑料或聚苯乙烯制成的三维形状，优选地为浅色，并相对于图像投影机布置，以在其表面接收图像的投影。进一步提供了一种摄像机，该摄像机可以是数字的、视频的或基于胶卷的，其用于聚焦在形状表面上的图像投影上，并用于拍摄该图像。该摄像机优选地靠近投影机，但并不位于完全相同的位置，从而摄像机的光轴与投影机的光轴形成小的角度(优选地不超过10度，更优选地不超过1度)。摄像机的这种定位模拟了图像位置相对于形状的运动，无需投影机、形状或摄像机有实际的运动。

这种结构的操作是很简单的，并类似于前述的实施例。也就是说，投影机用于将一个图像(优选地为视位等)投影到形状的表面上，从而有效地“纹理化”该表面。摄像机聚焦在该形状的表面上，拍摄投影图像的图像，利用摄像机的光轴与投影机的光轴之间的角度产生本发明提供的“宽高比变化”效果。随后，输出摄像机拍摄的图像作为处理后图像。

对于待处理的一连串图像，改变摄像机和/或投影机的相对位置，从而对于各连续图像观察到看起来是随机的宽高比变化。

除非上下文明确说明，否则整个说明书和权利要求书中的“包含”、“包括”等都是含有性的而没有排他或穷尽的含义。也就是说，含义为“包括，但不限于”。

Claims

1.一种图像处理方法，包括以下步骤：

a)将第一图像按照其朝向从其图像位置投影到三维形状的至少一个表面上，从而纹理化所述至少一个表面；

b)相对移动所述形状和/或所述图像位置两者或其中之一；和

c)将所述形状的纹理化表面投影到所述图像位置上，以在所述图像位置处获得与所述第一图像相同朝向的第二图像。

2.根据权利要求1所述的方法，其中所述第一图像构成了第一图像序列中的一部分，所述方法进一步包括针对所述序列中的每个第一图像重复步骤(a)，(b)，(c)以获得对应的第二图像序列。

3.根据权利要求2所述的方法，其中，所述第一图像序列和第二图像序列分别形成说话的脸的动画序列。

4.根据权利要求2或3所述的方法，进一步包括向使用者显示所述第二图像序列，并与所述显示同步地再现记录或合成的声音，所述声音可以是话音。

5.根据权利要求4所述的方法，其中所述移动步骤进一步包括根据再现声音中的能量移动所述形状和/或图像位置。

6.根据权利要求1到4中的任意一项所述的方法，其中所述移动步骤进一步包括随机地移动所述形状和/或图像位置。

7.根据前述权利要求中的任意一项所述的方法，其中所述移动步骤进一步包括绕所述三维形状的一个或多个轴旋转所述三维形状。

8.根据权利要求7所述的方法，其中所述旋转在绕所述三维形状的一个或多个轴的两个方向上不超过10度，优选地绕所述轴旋转不超过1度。

9.根据前述权利要求中的任意一项所述的方法，其中所述形状是包括球体、圆柱体、椭圆体、卵形体或双圆柱体的组中的任意一种。

10.根据前述权利要求中的任意一项所述的方法，其中所述第一图像包括位于虚拟空间中的第一位置处的多个象素，所述形状是代表由处理器构建的位于所述虚拟空间中的形状的3D虚拟模型的数据。

11.一种计算机程序，当由计算机系统执行时，使计算机系统执行前述权利要求中的任意一项所述的方法。

12.一种计算机可读存储介质，用于存储根据权利要求11所述的计算机程序。

13.一种图像处理系统，包括：

图像接收装置，用于接收待处理的第一图像；

图像处理装置；以及

图像输出装置，用于输出处理后的第二图像，其特征在于，所述图像处理装置进一步包括：

形状建模装置，用于构建三维形状的模型；进一步用于：

b)相对移动所述形状和/或所述图像位置两者或其中之一；和

14.根据权利要求13所述的系统，其中所述第一图像构成了第一图像序列中的一部分，所述系统进一步被配置为在所述图像接收装置处接收所述序列中的各个第一图像，所述图像处理装置针对所述序列中的每个第一图像重复步骤(a)，(b)，(c)以获得对应的第二图像序列。

15.根据权利要求14所述的系统，其中所述第一图像序列和第二图像序列分别形成说话的脸的动画序列。

16.根据权利要求14或15所述的系统，进一步包括显示装置和声音再现装置，所述显示装置用于向使用者显示所述第二图像序列，所述声音再现装置用于与所述显示同步地再现记录或合成的声音，所述声音可以是话音。

17.根据权利要求16所述的系统，其中所述图像处理装置进一步被配置为根据再现声音中的能量移动所述形状和/或图像位置。

18.根据权利要求13至16中的任意一项所述的系统，其中所述图像处理装置进一步被配置为随机移动所述形状和/或图像位置。

19.根据权利要求13至18中的任意一项所述的系统，其中所述图像处理装置进一步被配置为绕所述三维形状的一个或多个轴旋转所述三维形状。

20.根据权利要求19所述的系统，其中所述旋转在绕一个或多个所述轴的两个方向上不超过10度，优选地在绕所述轴的两个方向上旋转不超过1度。

21.根据权利要求13至20中的任意一项所述的系统，其中所述形状是包括球体、圆柱体、椭圆体、卵形体或双圆柱体的组中的任意一种。

22.根据权利要求13至21中的任意一项所述的系统，其中所述第一图像包括位于虚拟空间中的第一位置处的多个象素，所述形状是代表由所述形状建模装置构建的位于所述虚拟空间中的形状的3D虚拟模型的数据。