CN1849823B

CN1849823B - 视频通信方法及系统

Info

Publication number: CN1849823B
Application number: CN2004800259237A
Authority: CN
Inventors: 大卫·约翰·查廷; 杰里米·迈克尔·索恩; 大卫·杰弗里·莫里森
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 2003-09-09
Filing date: 2004-08-27
Publication date: 2010-08-11
Anticipated expiration: 2024-08-27
Also published as: GB0321083D0; WO2005025219A2; US20070064112A1; US7982762B2; CN1849823A; WO2005025219A3; EP1665791A2; CA2538385A1

Abstract

本发明提供了一种方法和系统，其中，使用远程视频图像直接覆盖第一视频图像以产生组合视频图像，随后将该组合视频图像显示给用户和/或适当地进行存储。优选地，在执行覆盖操作之前，对第一和/或远程图像中的至少一个进行图像处理操作，该图像处理操作使得在用户观看该组合视频图像时，该用户能够独立地区分包含在处理时要进行覆盖的图像中的场景。执行该覆盖操作以使得包含在各个视频图像中的场景基本上彼此上下对齐。虽然通过如上所述来覆盖各个第一和远程视频图像，获得了单个图像，其中各个第一和远程图像的各个场景仍可独立区分，但是其仍具有适于在有限大小的屏幕上显示而图像不会彼此遮蔽的合适大小。

Description

视频通信方法及系统

技术领域

本发明涉及用于视频通信的方法和系统，更具体地，涉及其中用户可以同时看到本地和远程图像的视频通信。

背景技术

视频通信的概念在本领域中早已熟知，并且随着能够发送和接收视频流的UMTS移动手机的出现而正在成为主流。在英国投入公众使用的这种业务的示例是Hutchison 3G UK Ltd.提供的“Three^TM”业务。另外，其他视频会议业务在本领域中也是众所周知的，例如使用在配备有摄像机和网络连接的通用计算机系统上运行的软件应用程序(例如，MicrosoftNetmeeting)或者使用专用的视频会议硬件，通过互联网提供的那些业务。

视频通信系统的共同点是不仅向视频会议或视频电话的一个或多个远程参与者，而且向一个或多个本地参与者提供视频图像。这种可视反馈使得本地参与者能够看到远程方如何看到他们并且能够看到视频会议系统如何展示他们。另外，该可视反馈还使得用户能够将他们自己设置在摄像机的视野内，并保证他们的面部被很好地照明并且可见。

如图1和2所示，用于视频通信的可视反馈系统的多个示例在本领域中是公知的。更具体地，图1示出了可视反馈的一般结构，其中显示屏1被分为远程显示部分2和本地显示部分3。远程显示部分2显示(通常经由某种形式的网络)从远程用户接收到的输入视频信号，而本地显示部分3显示由本地终端的图像采集装置(例如，摄像机等)采集的本地用户的视频图像。本领域公知的这种结构的示例为Hutchison 3G UK Ltd在“Three”业务中使用的结构，以及Microsoft公司在NetMeeting软件应用程序中使用的结构。

本领域还已知多种另选形式的可视反馈，其并不将显示屏2分为多个部分，而是将本地图像和远程图像组合为组合图像，以使得在公共背景上并排显示一个或多个远程用户和一个或多个本地用户。这种系统的一个示例为由Media Lab Europe开发的“Reflexion”系统，并在http://www.medialabeurope.org/~stefan/hc/projects/reflexion/中进行了说明。图2中示出了该Reflexion系统的多个屏幕快照。

Reflexion站包括摄像机和与计算机相连的视频显示器。每一个参与者(可以有多个参与者)都使用独立的Reflexion站。使用分割算法，该计算机从参与者的背景中提取出他的图像，并将该图像的镜像图像经由网络发送给其他站。该计算机还从其他站接收所提取的参与者图像，并将它们全部组合为单个视频场景。该效果是“数字镜像”的一种，其中参与者看到其自身的映像，以及其他位于远程的参与者的映像。

该系统自动地监测听觉提示，并以增强交互的方式使用它们来构成场景。例如，当前原型跟踪哪个参与者正在发言，以判断谁是“关注的中心”。活跃的参与者表现为不透明并且处于前景中，以强调它们的视觉存在，而其他不活跃的参与者表现为稍微淡入在背景中，而保持对其状态的获知，而不引起不适当的关注。该系统在参与者们继续进行交互时平滑地转换他们的层次和外观。每一个参与者都精确地看到相同的布局，因此增强了存在于“共享空间”的感觉。

可视反馈图像是如“Three”和NetMeeting系统的情况那样显示在显示器的独立部分中，还是如Reflexion系统的情况那样显示为集成合成图像，共同的要求在于屏幕足够大，以同时显示两个图像而不会有明显的交叠。在屏幕不是足够大以完全显示两个图像的情况下，显示器的可视反馈部分可以部分地遮蔽(occlude)显示器的远程显示部分，这与“Three”系统是相同的。在屏幕通常足够大以显示两个图像的情况下，通常并排显示图像，或者一个图像在另一个图像的顶部，而不存在用户图像的明显交叠，这与NetMeeting和Reflexion系统的情况相同。这可能表现出另外的缺点，即，该结构需要用户的注意力，因为目光凝视和/或头部取向要有意从可视反馈图像移动到远程图像，或者从远程图像移动到可视反馈图像，尤其在两个图像之间有一定距离的情况下。

发明内容

本发明提供了一种方法和系统，其提供了对于远程视频的可视反馈信号的显示的另选结构，其对于用于小显示屏尤其有用(但不排他)，该小显示屏没有足够的空间来并排地或者在不遮蔽这些图像中的一个的至少部分的情况下，或者在图像不会小到丢失细节的情况下显示本地和远程信号。具体地，本发明提供了一种方法和系统，其中远程视频图像直接覆盖本地视频图像，以生成组合视频图像，然后将其显示给用户，和/或适当地进行存储。优选地，在执行覆盖操作之前，对本地和/或远程图像中的至少一个进行图像处理操作，该图像处理操作使得在用户观看时，包含在要在处理时覆盖的图像内的场景在该组合视频图像内对于用户可单独区分。另外，该图像处理操作可以进一步被设置为使得在处理之后所得到的本地或远程图像中的一个与另一个相比吸引较少的用户注意力。优选地但不排他地，本地图像应该比远程图像吸引更少的注意力。执行覆盖操作以使得包含在各个视频图像中的场景基本上彼此上下对齐。通过如上所述对各个本地和远程图像进行覆盖，获得了单个组合图像，其中各个本地和远程图像的各自场景仍然可以单独区分，但是其仍然具有用于在有限尺寸的屏幕上进行显示的适当尺寸，而不会遮蔽一个或另一个图像。

鉴于上述内容，根据本发明的第一方面，提供了一种视频通信系统，其包括：

a)视频成像装置，被设置用来生成表示第一场景的第一视频图像；

b)通信装置，被设置用来优选地经由网络来发送与所述第一视频图像相关的信息，并接收与表示第二场景的第二视频图像相关的信息；以及

c)视频显示装置，被设置用来向用户显示视频图像；

所述系统的特征在于，还包括：

d)图像生成装置，被设置用来通过对各个第一和第二视频图像的各个第一和第二场景进行组合，以使得它们看上去以基本上对齐的方式覆盖，来生成用于显示的覆盖视频图像。

这种结构提供了上述的许多优点。

在优选实施例中，该系统还包括：

图像处理装置，被设置用来根据一个或更多个相应的图像处理操作来处理所述第一视频图像和/或所述第二视频图像，并用来将第一和第二视频图像的经处理版本输出给图像生成装置，作为对其的输入；

其中，所述图像处理操作可用来处理所述视频图像，以使得可以在由图像生成装置生成的覆盖图像中独立地区分第一和第二视频图像各自的场景。

“可独立地区分”表示所应用的处理操作使得两个相应场景的主要特征对于在所得到的覆盖图像中对于用户可分别区分。

图像生成装置可以位于用户终端自身内，或者在另选实施例中，可以位于与各个终端进行通信的侧音服务器内。在这种另选实施例中，每一个用户终端都将其本地图像发送给侧音服务器，在侧音服务器中，分别对图像进行组合以生成覆盖图像，然后将覆盖图像向前发送给其他用户终端以进行显示。这种结构具有以下优点：在侧音服务器处执行用于生成覆盖图像的处理，因此降低了用户终端的复杂度以及能量需求，因为每一个用户终端都不需要执行生成覆盖图像所需的图像处理操作。

根据第二方面，本发明还提供了一种视频通信方法，包括以下步骤：

a)生成表示第一场景的第一视频图像；

b)优选地经由网络来发送与所述第一视频图像相关的信息，并接收与表示第二场景的第二视频图像相关的信息；以及

c)向用户显示视频图像；

所述方法的特征在于，还包括：

d)通过对各个第一和第二视频图像的各个第一和第二场景进行组合，以使得它们看上去以基本上对齐的方式覆盖，来生成用于显示的覆盖视频图像。

另外，根据第三方面，本发明还提供了一种计算机程序或程序组，其被设置为当在计算机系统上执行时，该程序或程序组使得计算机系统执行第二方面的方法。此外，根据另一方面，还提供了一种计算机可读存储介质，其存储有根据第三方面的计算机程序或程序组。该计算机可读存储介质可以是本领域公知的任意适当的数据存储设备或介质，例如(作为非限定性示例)，磁盘、DVD、固态存储器、光盘、磁光盘等中的任意一种。

附图说明

通过对仅以示例的方式给出的本发明的实施例的以下说明并参照附图，本发明的其他特征和优点将变得明了，在附图中，相同的标号表示相同的部分，并且其中：

图1给出了现有技术的视频通信设备的风格表示；

图2(a)和(b)是现有技术的视频通信系统的屏幕快照；

图3是表示提供可视侧音所需的一般组件的系统框图；

图4是根据本发明实施例的设备所使用的系统组件的系统框图；

图5是本发明第一实施例的风格表示；

图6是本发明第二实施例的风格表示；

图7是表示在本发明的第一和第二组件中使用的处理步骤的框图；

图8是本发明第三实施例的风格表示；

图9是本发明第四实施例的风格表示；

图10是表示由本发明第三和第四实施例执行的处理步骤的框图；

图11是本发明第五实施例的风格表示；

图12是本发明第六实施例的风格表示；

图13是本发明第七实施例的风格表示；

图14是表示由本发明第五、第六、或第七实施例中的任意一个执行的处理步骤的框图；

图15是表示可以由本发明的实施例使用的多种图像处理操作之一的框图；

图16是表示可以由本发明的实施例使用的多种图像处理操作中的另一种的处理图；

图17是可以由本发明的实施例使用的另一种图像处理操作的处理图；

图18(a)、(b)和(c)表示可用来对经处理的图像进行组合以生成结果覆盖图像的第一方法；

图19(a)、(b)和(c)表示可用来对经处理的图像进行组合以生成结果覆盖图像的第二方法；

图20(a)、(b)和(c)表示可用来对图像进行组合以生成结果覆盖图像的第三方法；以及

图21是本发明第八实施例的风格表示。

具体实施方式

以下将对本发明的多个实施例进行说明。应该将这些实施例视为非限定性示例，并且对于预期的读者，从这些实施例的说明中可以很明显看出，通过采用所述实施例的各种要素(尤其是所采用的图像处理操作)并按照不同的组合对其进行组合以产生本发明的功能，还可以提供其他的实施例，其他实施例中的每一个也都被预期落入本发明的范围内。

在说明书的介绍部分中，我们将显示给用户的该用户的本地图像称为可视反馈信号。然而，在这里将要给出的具体说明中，我们将该可视反馈信号称为“可视侧音”信号，这是与在电话系统中使用了多年的听觉侧音信号相类似的术语。因此，在以下的说明中，术语“可视侧音信号”和“可视反馈信号”是同义的并且可互换。

在对各个实施例进行具体说明之前，将说明各个实施例的某些共有要素，各个实施例都可以使用这些共有要素。更具体地，下面将对各个实施例所需的设备要素进行说明，然后对各个实施例都可以使用的多种图像处理操作进行说明。应当指出，存在可以由任意具体实施例使用的多种另选的图像处理操作，因此首先将分别对这些图像处理操作的每一个进行说明，然后在各个实施例的各个相应说明中，将指出具体由该实施例使用的图像处理操作。

鉴于上述内容，首先参照图3和4，图3表示两个视频通信系统的基本要素，这两个视频通信系统被设置为通过网络彼此通信，并且可以提供可视侧音信号。更具体地，图的左手侧示出了由参与者1使用的第一视频通信设备的那些要素。该视频通信设备包括：显示装置，例如LCD屏等，其被设置用来显示参与者1的可视侧音图像以及远程参与者2的视频图像；摄像机18，其被设置用来采集参与者1的本地图像；视频编码器32，其被设置用来接收来自摄像机18的输入，并对由此接收的图像信息进行数字编码；以及视频解码器34，其被设置用来接收来自网络50的数据，对图像数据进行解码，以及将其传送至显示器1，以显示给用户参与者1。视频编码器32将由摄像机18采集的经编码的本地图像传送给网络50，以通过其进行传输，还将该经编码的本地视频数据传送给解码器34，在解码器34中，对其进行解码，然后传送给显示器1，以作为可视侧音进行显示。

经由网络50将由编码器32传送到网络50的本地视频数据传输给由用户参与者2使用的第二视频通信设备。在第二视频通信设备处设置有解码器232，其被设置用来从网络50接收视频图像数据，对该视频图像数据进行解码，以及将解码后的图像传送给显示器21，以显示给用户参与者2。与第一通信设备相同，第二视频通信设备也包括摄像机218，该摄像机218被设置用来采集用户参与者2的本地图像，并将这些本地图像传送给视频编码器234以进行编码，然后将其传送到网络50上，以传送给由参与者1使用的第一视频通信设备。另外，视频编码器234还将参与者2的经编码的本地图像传送给解码器232以进行解码，然后在显示器21上作为参与者2的图像的可视侧音信号进行显示。

因此，如由图3所示的结构提供的，视频通信设备可以采集其自身用户的本地图像，并将这些图像发送给远程设备，并从同一远程设备接收远程图像。然后将从远程设备接收的远程图像和本地图像在同一显示器上显示给该用户。此处应该注意，这种一般的体系结构是前面提及的现有技术的可视侧音系统以及本发明实施例的特征。然而，本发明的实施例与现有技术的区别在于，还提供了其他系统元素，用于以特定的方式对图像进行处理，这将通过以下说明而变得清楚。

现在转到图4，其更详细地示出了由本发明的实施例提供的视频通信设备所需的特定系统元素。更具体地，根据这些实施例的视频通信设备10包括显示屏1，例如LCD屏幕等，其被设置用来向用户显示合成侧音图像和远程图像。另外，还提供了：摄像机18，其被设置用来采集本地用户的本地图像；以及麦克风14，其被设置用来采集该设备10附近的任何本地声音。还提供了发声器或扬声器16，其被设置用来从视频通信设备向用户输出声音。为了对由摄像机18采集的本地图像进行接收和编码，提供了视频编码器32，其被设置用来接收摄像机18的输出，将该数据数字编码为图像数据，以及将经编码的图像数据传送给中央控制单元46。类似地，为了对由麦克风14生成的任何模拟音频信号进行编码，提供了音频编码器42，其被设置用来对模拟输入信号进行数字编码，并将数字音频信号提供给控制器46作为对其的输入。为了再现数字音频和视频信号，控制器46被设置用来将视频图像数据传送给视频解码器34和音频解码器44，该视频解码器34对视频图像数据进行解码，并向显示器1提供视频图像，该音频解码器44从控制器46接收经编码的数字音频数据，对该数字音频数据进行解码，以生成模拟音频信号，该模拟音频信号随后被用作对扬声器或发声器16的输入。应该理解，摄像机18、麦克风14、显示器1、扬声器或发声器16、视频编码器32、音频编码器42、视频解码器34以及音频解码器44中的每一个都是传统组件，其在本领域中是已知的，并且在现有移动通信设备(例如，由Nokia制造的移动摄像电话等)中已经采用。

此外，在设备10中还提供了包括处理器单元的控制器单元46，该处理器单元能够使用软件程序，从而根据任意相关程序来处理图像和音频数据，以及对视频通信设备的操作进行总体控制，以发送和接收视频和音频信号，并从用户接收视频和音频信息和向用户输出视频和音频信息。为了本实施例的目的，可以认为中央控制单元46包括：控制器单元462，其对该设备的总体操作进行控制；图像生成器单元464，其生成用于输出给视频解码器34并随后显示在显示器1上的图像数据；以及图像处理器单元464，其根据多个可用的图像处理操作中的一个来处理输入图像数据。

为了使中央控制单元46能够进行操作，提供了数据存储单元48，其中存储有可以由中央控制单元46使用的多种软件控制程序，以及待从该设备输出或者已经由该设备采集到的任何图像数据或音频数据。更具体地，如以下所述，在这些实施例的情况下，数据存储单元48存储有：图像覆盖程序482，图像生成器单元464使用该图像覆盖程序来生成用于显示的图像；控制程序484，控制器单元462使用该控制程序来控制视频通信设备的总体操作；远程图像处理操作程序481，图像处理器单元468使用该远程图像处理操作程序来处理从任意远程视频通信设备(本设备经由网络与其进行通信)接收的远程图像；以及侧音图像处理操作程序488，图像处理器468还使用该侧音图像处理操作程序来处理由摄像机18采集的本地图像，以使得它们能够被用作侧音图像。此外，在数据存储单元48中还设置有区域486，用于存储：图像数据，该数据可以是原始输入(以及远程)图像；以及由图像处理器468生成的经处理的图像；或者由图像生成器464生成的生成图像。还应该理解，数据存储单元48还存储有其他软件程序和数据，以使得视频通信设备能够执行其标准功能，例如，通过网络进行通信。

为了使得能够通过网络进行通信，该视频通信设备还配备有调制解调器41和收发器43，调制解调器41从中央控制单元46接收要通过网络发送的音频和视频数据，并对该数据进行调制，然后将调制数据传送给收发器43以进行实际发送。类似地，收发器43从该网络接收信号，然后将这些信号传送给调制解调器41以进行解调，所得到的恢复数据随后被传送给中央控制单元46。应该理解，在本发明的情况下，调制解调器41和收发器43完全是传统的，其被设置用来使得该设备能够通过网络与其他设备进行通信。此外，应该理解，该网络可以是任意传统网络，例如以太网、或者诸如各种IEEE 802.11标准中所述的无线LAN网络、或者诸如UMTS网络的移动电话网络。另外，在其他实施例中，该设备不必这样通过网络进行通信，而是可以使用直接通信(例如，通过红外或光学手段)，或者使用Bluetooth^TM技术进行无线通信。无论设备之间的通信模式如何，都应该理解，收发器和调制解调器被设置用来使这种通信便利。

在此将要说明的本发明的各个实施例中都使用了上述视频通信设备，各个实施例之间的区别在于，图像处理器468根据远程图像处理操作程序4810和侧音图像处理操作程序488进行的操作，以及图像生成器464在图像覆盖程序482的控制下进行的后续操作。另外，如上所述，视频通信设备的总体操作是根据包含在控制程序484中的指令在控制器462的控制下进行的。

已对一般的设备体系结构进行了说明，下面将说明四种特殊的图像处理操作。根据实施例，要进行说明的图像处理操作将由图像处理器468在远程图像处理操作程序4810或者侧音图像处理操作程序488的控制下进行。

下面将参照图15来说明第一图像处理操作。此处，使用用户的面部的输入图像150作为输入。然后，在步骤15.2执行的第一操作用于提高表观图像不透明度。这与提高图像的亮度并降低图像的对比度，或者执行伽马(gamma)调节非常相似，因此可以替换地使用这些方法的每一种。然而，在当前所述的特殊图像处理操作中，如下来计算所获得的提高了不透明度的图像的像素值。

对于原始摄像机图像中的每一个像素p(x，y)，通过以下方程在可视侧音图像中计算等效像素p_i′(x，y)的强度：

p_{i}^{'} (x, y) = \frac{1}{9} Σ_{dx = - 1}^{1} Σ_{dy = - 1}^{1} p_{i} (x + dx, y + dy) \cdot \frac{α}{2^{n} - 1} + β

方程1

其中，α和β对所得到的图像的表观不透明度特性进行调节。α和β通常相等；在所给的示例中，它们的值为150。n是表示强度级别的比特数，其中该强度级别是从0到由2ⁿ-1给出的最大值的范围内的级别。通常n为8，从而给出0到255的范围。

当提高了图像不透明度时，则接下来在步骤15.4，如下通过采用卷积核K对该图像进行平滑处理：

K = [\begin{matrix} 1 / 9 & 1 / 9 & 1 / 9 \\ 1 / 9 & 1 / 9 & 1 / 9 \\ 1 / 9 & 1 / 9 & 1 / 9 \end{matrix}]

方程2

这两个图像处理操作(即，提高图像不透明度，以及通过平滑操作来去除图像中的高频)的效果在于使图像接近于白色并且模糊(out offocus)，以使该图像不易引起视觉注意。应该注意，卷积核(K)表示对图像进行平滑操作的简单方法；本领域中还存在可以在此进行替换的许多其他的平滑操作。

根据实施例，由图15所示的图像处理操作提供的处理可以用来处理本地图像以生成侧音图像，或者生成用于发送的图像，或者可以用于在显示之前对所接收的远程图像进行处理。即，根据实施例，远程图像处理操作程序4810或者侧音图像处理操作程序488可以对图像处理器468进行控制，使其执行图15的图像处理操作，这将在稍后的描述中变得明了。

图16示出了可以由图像处理器468执行的第二图像处理操作。此处，使用用户的面部的原始摄像机图像160作为对该处理操作的输入，步骤16.2的操作中的第一步骤是提取每一个像素的强度以形成强度图像162。在输入图像为分量视频格式(其中每一个像素都具有亮度值和色度值)的情况下，可以简单地通过提取每一个像素的亮度像素值来容易地形成强度图像。在输入图像为另选格式(例如，RGB等)的情况下，需要附加的处理来提取每一个像素的强度，但是这种处理是本领域公知的。

在获得强度图像162之后，使用该强度图像作为输入来执行两个处理线程。在第一处理线程中，在步骤16.6开始，对强度图像162的像素值应用阈值t₁，以给出第一阈值化图像168。随后将该阈值化图像168存储在数据存储单元48的图像数据区域486中，以备后用。

第二处理线程采用该强度图像162作为其输入，在步骤16.4对该图像应用Laplacian(拉普拉斯算子)边缘检测器，以生成边缘图164。Laplacian边缘检测器算法在本领域是公知的，因此这里不作进一步说明。然后在步骤16.8，使用阈值t₂对所得到的边缘图164进行阈值化操作以及反相操作(inversion operation)。这给出了经阈值化处理且反相的边缘图图像166，其也被存储在图像数据区域486中。

因此，在该阶段，对经阈值化处理且反相的边缘图图像166以及阈值化强度图像168进行存储，而在步骤16.10，图像处理器468通过对阈值化强度图像168和经阈值化处理且反相的边缘图166的每一个各自的对应像素位置执行逻辑AND，以产生在输出图像中的对应位置使用的第三像素值，来生成该输出图像。此处，逻辑AND运算假设白色像素为TRUE而黑色像素为FALSE。由于应用于图像168和166中的每一个的阈值化处理的效果是将每一个像素的灰度级深度减小为1位，所以所得到的生成图像170也是每像素图像1位，但包括主要特征的阴影以及特征边缘。

应该注意，如上所述的图16的图像处理操作本身可以通过PearsonDE和Robinson JA“Visual Communication at Very Low Data Rates”proceedings of IEEE，Vol 4，(April 1985)，pp 975-812而获知。通过该技术生成的图像的优点在于，通过使用空间和时间压缩，可以通过非常低的带宽连接发送这种图像，因此这种图像可以非常适用于当前的移动电话网络(例如UMTS和GPRS网络)。另外，这种图像还包含有使得可以进行识别的主要面部特征以及要区分的表情，同时具有高对比度，因此易于识别和引起注意。

与根据图15所述的第一图像处理操作相同，图16中所述的第二图像处理操作也可以根据实施例，应用于本地图像以生成侧音图像或者要发送的图像，或者应用于所接收的远程图像。根据稍后给出的实施例的具体说明，图16的图像处理操作的其他应用将变得明了。

下面将参照图17来说明第三图像处理操作。图17的该图像处理操作共享了前面参照图16所述的某些公共组件，并且其中公共的步骤和组件共享公共的标号。因此，首先在步骤16.2对输入图像160进行像素强度提取操作，以生成强度图像162。然后将强度图像162用作对两个处理线程的输入，第一个线程与图16的相同，在步骤16.4使用Laplacian边缘提取操作来生成边缘图164。随后在步骤17.2对该边缘图进行简单反相，以生成反相边缘图图像172。然后可以将该反相边缘图图像172存储在图像数据存储器486中以备后用。

第二处理线程开始于步骤17.4，其中例如使用伽马校正等对强度图像162进行加亮操作，以产生加亮强度图像176。也将该加亮强度图像176存储在图像数据存储器486中。

在生成该反相边缘图图像172以及加亮强度图像176之后，步骤17.6的图像处理操作的下一步骤是比较这两个图像的各个像素，并选择具有最小强度值的像素作为要生成的输出图像中的对应的各个像素位置中的像素值。由此生成对加亮强度图像176和反相边缘图像172进行了有效组合的输出图像174。这种图像不具有通过图16的Pearson和Robinson方法产生的图像的带宽效率，因为灰度级深度没有减小至1位，但是获得了质量更高更生动的图像。与上述图像处理操作相同，根据采用图17的操作的实施例，图17的操作可以用于处理本地图像以用作侧音图像，处理本地图像以用于前向传输，或者可以用来处理所接收的远程图像。

最后，参照图20(b)对可以使用的第四图像处理操作进行说明。该图像处理操作以图16的Pearson和Robinson方法为基础，但是对其添加了附加的步骤。更具体地，参照图16，已通过Pearson和Robinson方法获得了输出图像170，在所述的第四图像处理方法中，随后对所得到的图像进行模糊操作，然后对强度级进行改变。这些操作生成了如图20(b)所示的结果图像。与上述相同，可以使用这种处理操作来生成本地可视侧音图像，以对要通过网络前向发送的本地图像进行处理，或者对通过网络接收到的远程图像进行处理，但是在大多数实施例中其可能仅用于这些目的中的第一个，因为其不产生特别清晰的图像，因此可能不适合用来处理远程图像，该远程图像通常是位于本地视频通信设备处的用户最有兴趣看到的。

另外，还应该注意，作为第四图像处理操作的变型，可以使用图17的图像处理操作来代替Pearson和Robinson方法，并且对图17的输出应用模糊和强度级改变操作。

已对由要进行说明的各个实施例使用的视频通信设备的基本体系结构以及图像处理操作进行了描述，下面将参照图5至14对多个具体实施例进行描述。

图5中示出了本发明的第一实施例。这里，根据第一实施例的本地视频通信设备10被设置用来经由网络50与第二远程视频通信设备20进行通信，该第二远程视频通信设备20例如根据现有技术进行操作。各个视频通信设备10和20都配备有：摄像机，用于采集用户的本地图像；显示器1和21；以及音频输入和输出，例如麦克风和扬声器。为了在以下说明中便于参照，在每个视频通信设备下面都示出了由各个设备采集的用户的本地图像。

在第一实施例中，视频通信设备10使用摄像机来采集用户的本地图像，并且还通过网络50从远程视频通信设备20接收远程图像。在本实施例的情况下，远程视频通信设备20不对其发送到视频通信设备10的图像应用任何特别的处理，从而在视频通信设备10处通过网络50接收到的远程图像基本上与在视频通信设备20处采集的本地图像相同，并在视频通信设备10处作为可视反馈进行显示，当然，该图像受到的任何影响都被认为是传输的结果。因此，如以下参照图7和4所述的，远程视频通信设备20根据现有技术进行操作，而本地视频通信设备1O根据本发明的实施例进行操作。

更具体地，图7示出了由本地视频通信设备10执行的处理，具体地，是由如图4所示的其系统组件执行的处理。由本地视频通信设备10执行的总体处理包含多个处理线程，下面对其进行说明。

作为第一处理线程，在任意特定的时刻，在步骤7.2，视频通信设备10的摄像机18采集用户的本地视频图像，并由视频编码器32对其进行编码并将其传送给中央控制单元46。随后在步骤7.4，中央控制单元46将本地视频图像数据存储在数据存储单元48的图像数据部分486中。另外，中央控制单元46还将本地图像数据传送给调制解调器41以进行调制，随后控制收发器将调制图像数据经由网络发送给远程视频通信设备20。在步骤7.6执行经由网络将本地图像数据发送给远程视频通信设备20的操作。除了发送本地图像数据以外，在步骤7.8，控制器462还根据控制程序484使图像处理器468对本地视频图像数据应用侧音图像处理操作程序488。在该第一实施例中，侧音图像处理操作程序488使图像处理器468根据以上参照图15所述的图像处理操作对所输入的本地图像数据进行处理，以生成与原始视频图像相比提高了不透明度的平滑图像。将该经平滑处理且提高了不透明度的图像存储在数据存储器48的图像数据区域486中。

第二处理线程开始于步骤7.14，其基本上与上述线程同时执行。这里，在步骤14，本地视频通信设备10经由网络接收远程视频图像数据。更具体地，收发器接收图像数据，该图像数据被传送给调制解调器41，其中在步骤7.16，对远程视频图像数据进行解调和重构，并将其传送给中央控制单元46。中央控制单元46随后将该远程视频图像数据存储在数据存储器48的图像数据区域486中，然后，接下来对图像处理器单元468进行控制，使其运行远程图像处理操作程序4810，以对所接收的远程视频图像进行处理。这是在步骤7.18执行的，并且在该第一实施例中，远程图像处理操作程序4810使图像处理器单元468根据以上参照图16所述的图像处理操作来处理所接收的远程视频图像。然后将所得到的经处理的远程图像存储在数据存储器48的图像数据区域486中。

在执行了上述操作后，下一步骤是控制器单元462使图像生成器单元464根据图像覆盖程序482进行操作。更具体地，在步骤7.10，图像覆盖程序482进行操作，以对在步骤7.8生成的所生成的侧音图像和在步骤7.18生成的经处理的远程图像进行覆盖，以使得各个用户的面部的特征基本上对齐，以生成所生成的覆盖图像。在图19(a)、(b)和(c)中更详细地示出了该过程，并且如下执行该过程。对于侧音图像和经处理的远程图像中的每一个各自的对应像素，对来自侧音图像和经处理的远程图像的相应像素值进行比较，并选择具有最小强度值的像素，用作所生成的覆盖图像中的对应的各个像素。这产生了以下效果：在经处理的远程图像中存在白色像素的情况下，使用侧音图像中的对应像素来对其进行替换，而经处理的远程图像中的黑色像素则保持不变。这导致经处理的远程视图看上去好像以基本上与侧音图像对齐的方式覆盖在侧音图像的上面，如图19(c)所示。随后将由图像生成器464如此生成的图像传送给视频解码器34，该视频解码器34生成用于在步骤7.12显示在显示器1上的视频图像。

对每一个本地视频图像帧和每一个所接收的远程视频图像帧重复上述处理，从而对每一个本地图像帧进行处理以生成可视侧音，并利用如上所述的经适时处理的暂时同步的(temporally simultaneous)远程图像帧进行覆盖。然后将所得到的视频图像帧显示给用户。在对各个本地视频图像帧和所接收的远程图像帧依次重复该过程时，其结果为下述的视频序列，该视频序列在各个被覆盖用户的相应图像位于另一用户的相应图像的上面的情况下，基本上实时地显示两个用户。然而，应用于各个图像的处理使得能够独立地感知到两个用户的图像，而不是一个图像淹没另一个图像，或者妨碍其被看到。具体地，对于该第一实施例，由图16的图像处理操作产生的远程视图的高对比度使得其第一眼可以更明显地看到，这从图5所示的静态图像中可以明显看出，但是在观看视频序列时，本地用户的可视侧音图像也非常明显。尽管在此处所示的技术的静态图像中不明显，但是当实施该技术并且使用上述处理和设备来生成视频序列时，该效果要明显得多。两个单个的用户的感知与通过抬头显示器(HUD)观看的体验相似但不相同，该抬头显示器是在现有技术的飞行器和汽车系统中已知的，其中用户好像几乎可以“注视”这些图像中的一个或另一个，而无需使他的眼睛从一个位置移到另一个位置。

图6示出了与第一实施例紧密相关的本发明的第二实施例。这里，第二实施例的操作基本上与已经参照第一实施例进行了说明的操作相同，其区别在于，对应用于本地和远程图像的处理操作进行了交换。更具体地，在第一实施例中，远程图像处理操作程序4810控制图像处理器468以执行图16的图像处理图像操作，而在第二实施例中，远程图像处理操作程序4810使图像处理器468根据如上所述的图15的图像处理操作来处理该远程图像。相反地，在第二实施例中，侧音图像处理操作程序488使图像处理器468根据图16来处理本地图像，以生成侧音图像。因此，在第二实施例中，与第一实施例相比，与第一实施例中的本地图像相同地对第二实施例中的所接收的远程图像进行处理，而与第一实施例中的远程图像相同地对第二实施例中的本地图像进行处理。在第二实施例中，图像生成器464根据图像覆盖程序482的操作基本上与根据第一实施例所述的相同(考虑到图像处理操作的交换一将由远程图像的对应像素来替换侧音图像的白色像素)，并且在图18(a)、(b)和(c)中示出了该操作。

下面将参照图8和10来说明本发明的第三实施例。在第三实施例中，远程视频设备20的结构在以下方面与如上参照第一和第二实施例所述的相同：其基本上根据现有技术的原理进行操作，由此将可视侧音作为相对于远程图像的独立图像显示给用户。然而，对于本地视频通信设备10，其操作如图10所示。通过比较图10和图7可以看出，第三实施例的操作与第一实施例的类似，其区别在于，没有对所接收的远程视频图像应用任何处理，并且对本地图像应用不同的处理以生成侧音图像。更具体地，在第三实施例中，步骤10.2、10.4、10.6、10.14和10.16分别与如上在第一和第二实施例中所述的步骤7.2、步骤7.4、步骤7.6、步骤7.14和步骤7.16相同。然而，在步骤10.8，侧音图像处理操作程序488对图像处理468进行控制，使其对本地图像应用图16的图像处理操作，来生成高对比度、低带宽的侧音图像。

在步骤10.8之后的步骤10.10，随后通过根据图像覆盖程序482进行操作的图像生成器464将所生成的低带宽侧音图像覆盖在所接收的远程图像上。用于覆盖图像的图像生成操作在以下方面与如上参照第一和第二实施例所述的相同：通过所接收的远程图像中的对应的各个像素来有效地替换侧音图像的每一个白色像素。

在步骤10.10之后，在显示屏1上将所生成的覆盖合成图像显示给用户，如图所示。

在用于提供另一实施例的第三实施例的变型中，在步骤10.8没有应用图16的图像处理操作，而是侧音图像处理操作程序488可以对图像处理器468进行控制，使其执行如上所述的图17的图像处理操作，以产生侧音图像。这不会产生这种低带宽侧音图像，而是产生了与低带宽版本相比质量得到提高的高对比度侧音图像。在第三实施例的该变型中，除了将图17的图像处理操作替换为该处理以外，其余的处理步骤都与以上参照第三实施例所述的相同。

下面将参照图9来说明本发明的第四实施例。本发明第四实施例的操作在以下方面与如上参照第三实施例所述的非常类似：不对所接收的远程图像进行处理，而是直接将其用作对图像生成器464的输入，以进行图像覆盖操作。然而，第四实施例与第三实施例的区别在于图像处理器468在步骤10.8对本地图像应用的用于生成侧音图像的处理。更具体地，在第四实施例中，侧音图像处理操作程序488在步骤10.8对图像处理器468控制，以根据以上参照图20(b)所述的图像处理操作来处理本地图像，以生成侧音图像。然后将由此生成的侧音图像输入给图像生成器单元464，该图像生成器单元464在步骤10.10根据图像覆盖程序482进行操作，以对侧音图像和所接收的远程图像进行覆盖，从而生成用于显示的图像。这里，图像覆盖程序482对图像生成器图像464进行控制，使其将所接收的远程图像与所生成的侧音图像中的对应像素的各自强度值相加，以创建用于显示的所生成图像。也就是说，对于来自侧音图像和远程图像的待相加的每个对应的像素对，将灰度级侧音像素的强度值与远程图像的各个彩色像素值相加。因此，在侧音像素的强度为i，并且远程图像像素具有RGB值r、g和b的情况下，所得到的像素将具有RGB值r+i、g+i和b+i。图20中示出了这种过程，其中将如图20(a)所示的所接收的远程图像与如图20(b)所示的所生成的侧音图像相加，以产生如图20(c)所示的所得到的生成图像。然后如以上参照前面实施例所述，将该所得到的生成图像传送给视频解码器34，以在显示器1上进行显示。

在用于提供另一实施例的第四实施例的变型中，不是将侧音像素的强度值与远程像素值相加来生成更亮的图像，而是可以从远程像素值中减去侧音像素的强度值，来产生所得到的覆盖输出图像。由于侧音图像的非特征区域的强度值为0，所以这产生了以下效果：在输出图像中，仅使远程图像的存在侧音图像的特征的区域变暗。

在上述实施例中，在执行本发明方面，本地视频通信设备根据这些实施例进行操作，而远程视频通信设备是现有技术的标准视频通信设备。然而，在以下将要说明的其他实施例中，本地视频通信设备10和远程视频通信设备20可以分别执行本发明，从而都可以认为是本发明的实施例。因此，以下将对第五、第六和第七实施例进行说明，它们表现出了该特征。

图11中示出了本发明的第五实施例，图14中示出了由各个视频通信设备10和20执行的操作处理。应该注意，本地视频通信设备10和远程视频通信设备20分别根据图14所示的处理(以下将说明)进行操作。

首先考虑本地视频通信设备10。参照图14，在步骤14.2，设置在视频通信设备10上的摄像机采集用户的本地视频图像，随后在步骤14.4，将该本地视频图像存储在数据存储单元48的图像数据区域486中。然后对所存储的本地视频图像数据执行多个处理线程，步骤14.10的第一处理线程使图像处理器单元468根据侧音图像处理操作程序488进行操作，以对本地视频图像应用图16的图像处理操作，从而产生用于显示的侧音图像。还将由此产生的侧音图像存储在图像数据区域486中以备后用。

除了从本地视频图像产生侧音图像以外，在步骤14.6，控制器单元462在控制程序484的控制下对图像处理器单元468进行控制，使其根据远程图像处理操作程序4810进一步进行操作，从而对本地图像应用图15的图像处理操作，以产生本地图像的经处理的版本，于是该本地图像的经处理的版本适于在远程视频通信设备20的屏幕上显示。因此，在该实施例中，对图像处理器单元468进行控制，使其使用本地视频图像作为输入来运行侧音图像处理操作488和远程图像处理操作4810，以产生用于本地显示的图像的侧音版本，以及用于远程显示的本地图像的经处理的远程版本。

在产生了用于远程显示的本地图像的经处理的版本之后，在步骤14.8，视频通信设备通过网络50将经处理的本地数据发送给远程视频通信设备20，该经处理的本地数据已由远程图像处理操作程序4810进行了处理。

在继续对本地视频通信设备10的操作进行说明之前，我们将考虑远程视频通信设备20的操作。就此而言，远程视频通信设备20在以下方面与本地视频通信设备10相同地进行操作：其采集其用户自身的各个本地视频图像，并对该本地视频图像进行处理，以产生该图像的侧音版本和该图像的适于在本地视频通信设备10上远程显示的版本。然后通过网络50将该本地图像的该二次处理的版本发送给本地视频通信设备10，由此进行使用。

返回来考虑本地视频通信设备10的操作，在步骤14.16，本地视频通信设备10通过网络50从远程视频通信设备20接收远程视频图像数据，并在步骤14.18对该图像数据进行解调，并将其存储在存储器48的图像数据区域486中。对于这一点应该注意，因为远程视频通信设备20已经对由本地视频通信设备10接收的远程视频图像数据进行了处理，所以无需为了使所接收的图像适于输入到图像生成器单元464以产生用于显示的覆盖图像而执行任何进一步的处理。因此，在执行了步骤14.10和步骤14.18，并将本地图像的侧音版本和所接收的远程图像存储在存储器48的图像数据区域486中之后，执行的下一步骤是步骤14.12，其中控制器单元462对图像生成器单元464进行控制，使其根据图像覆盖程序482进行操作，以对侧音图像和所接收的远程图像进行覆盖，从而产生用于显示的覆盖图像。第五实施例中的覆盖程序的操作与如上参照第一和第二实施例所述的相同。当产生了覆盖图像时，将该覆盖图像数据输入给视频解码器34，以在步骤14.14在显示屏1上进行后续显示。因此，本地视频通信设备10将包含侧音图像和远程视频图像的覆盖图像显示给用户。

对于远程视频通信设备20，其操作在以下方面与本地视频通信设备相同：由于本地视频通信设备已对其自身的本地图像进行了处理，来提供经处理的版本以在远程视频通信设备20上进行远程显示，所以在远程视频通信设备20在步骤14.16接收到该视频图像数据，并在步骤14.18将其存储在存储器中以后，无需对所接收的远程图像进行进一步的处理。因此，远程视频通信设备20可以直接进行到步骤14.12，在步骤14.12，其图像生成器单元464根据其自身的图像覆盖程序482进行操作，以在步骤14.12使用所接收的远程图像来覆盖其自身的侧音图像，在步骤14.14将由此生成的覆盖图像显示给用户。

下面参照图12来说明第六实施例。第六实施例基本上与上述第五实施例相同地进行操作，其区别在于，图像处理器468在侧音图像处理操作程序488和远程图像处理操作程序4810的控制下执行的图像处理操作不同。更具体地，在第六实施例中，侧音图像处理操作程序488使图像处理单元468在步骤14.10应用图15的图像处理操作，以产生侧音图像，而远程图像处理操作程序4810使图像处理单元468在步骤14.6应用图16的图像处理操作，来对本地图像进行处理，以产生用于远程显示的经处理版本。因此，就此而言，侧音图像处理操作程序488和远程图像处理操作程序4810中包含的各个图像处理操作相对于第五实施例进行了交换。然而，除了该不同以外，第六实施例的操作与如上参照第五实施例所述的相同。

在刚刚进行了说明的第五和第六实施例中，本地视频通信设备10和远程视频通信设备20的操作相同，具体地，对于下述操作相同：对它们各自的本地图像应用图像处理操作，以产生它们各自的侧音图像和用于远程显示的该本地图像的经处理版本。然而，本地视频通信设备10和远程视频通信设备20不必对它们各自的本地图像应用相同的图像处理操作，因此在本发明的第七实施例中，本地视频通信设备10应用了与远程视频通信设备20不同的一组图像处理操作。下面将参照图13来说明第七实施例。

在图13中，首先考虑远程视频通信设备20的操作。这里，该操作在以下方面与如上参照第六实施例所述的相同：在步骤14.10，远程视频通信设备20应用图15的图像处理操作，以生成侧音图像，然后将该侧音图像与所接收的远程视频图像进行组合，而不对所接收的远程视频图像进行进一步的处理，从而在步骤14.12产生覆盖图像。与第六实施例类似，远程视频通信设备20还根据图16的图像处理操作来处理本地图像，以在通过网络50将其发送到本地视频通信设备10，产生本地图像的经处理版本，以由本地视频通信设备10进行远程显示。

现在返回到本地视频通信设备10的操作，但是，这里如参照第五和第六实施例所述，本地视频通信设备10在步骤14.16接收远程视频图像数据，并在步骤14.18对其进行存储。然而，对于其本地图像数据，如上所述，在步骤14.4进行采集并存储，但是当在步骤14.10产生侧音图像时，对其应用不同的图像处理操作，该图像处理操作用于在远程视频通信设备20中产生侧音图像。然而，在步骤14.6执行相同的图像处理操作，以产生本地图像的经处理版本，以进行远程显示。

更具体地，在步骤14.10，控制器单元462对图像处理器单元468进行控制，使其运行侧音图像处理操作程序488，这使得图像处理器468应用图16的图像处理操作，以生成侧音图像，但是随后执行对所产生的图像应用刷色操作的附加步骤，以将该图像中的黑色像素的颜色从黑色变为蓝色。

刷色操作的目的是使得侧音图像像素在被组合到覆盖图像中时能够与远程图像的那些像素相区别。应该注意，可以选择任意颜色，只要其可以与远程图像中的像素的颜色相区别即可。

然后在步骤14.12，按照与前面相同的方式，将由此生成的侧音图像与所接收的远程图像进行组合，以生成覆盖图像。然后在步骤14.14将该覆盖图像显示给用户，如图所示。

因此，在第七实施例中，在本地和远程视频通信设备中的每一个中使用不同的图像处理操作来生成各自的侧音图像。应该理解，本地或远程视频通信设备可以使用所述图像处理操作中的任意一种来产生其各自的侧音图像，但是优选地，产生与所接收的远程视频图像不同的观看图像的图像处理操作是优选的。因此，例如，在已经根据图15对所接收的远程视频图像进行了处理的情况下，优选地使用图16的图像处理操作来准备侧音图像，适当地进行或不进行刷色。相反地，如果已经根据图16对远程图像进行了处理，则可以通过图15的图像处理操作来产生侧音图像，或者相反地使用后续的刷色来改变像素颜色，通过图16的图像处理操作来产生侧音图像。

在上述所有实施例中，其中使用的图像处理操作中的至少一个是图16的图像处理操作，以产生低带宽、高对比度图像。然而，为了产生其他实施例，可以使用上述图17的图像处理操作来替换图16的图像处理操作，图17的图像处理操作也产生高对比度图像，但是由于图像质量较好，所以其带宽特性没有这么低。另外，在图16的图像处理操作使用刷色操作作为后续步骤的情况下，也可以将该后续的刷色操作适当地应用于图17的图像处理操作的输出。

在本发明的实施例中，优选地但并非必要地对侧音图像进行处理，以使得与远程图像相比其在视觉上吸引更少的注意力，这是因为，认为与侧音图像相比，用户会很自然地对辨别远程图像更感兴趣。在上述第一、第三、第四、第六和第七实施例中的每一个中，该优选目的是通过对用于生成侧音图像的图像处理操作的选择来实现的。然而，在第二和第五实施例中，分别选择图像处理操作来生成远程和侧音图像意味着：与远程图像相比，侧音图像在视觉上可能更有吸引力。为了克服这个问题，在用于提供其他相应实施例的第二和第五实施例的变型中，可以通过改变在图15的图像处理操作的方程1中使用的α和β的值来降低远程图像的不透明度，或者可以通过增大侧音图像中的黑色像素的强度值以使线条在色彩上更灰，来降低侧音图像中的线条的对比度。在这些其他实施例中，可以执行这些附加操作中的一个或两者。

在上述的各个实施例中，已进行了图像处理操作并被用作对图像生成器单元464的输入以形成覆盖图像的图像是由内置摄像机18采集的用户的视频图像。然而，在本发明的其他实施例中不必如此，例如，我们可以构想一种使用用户的虚拟表示(例如，化身等)的视频通信设备。在这些实施例中，不需要视频摄像机18和视频解码器32来采集用户的本地图像，而是提供虚拟现实单元，该虚拟现实单元根据虚拟现实计算机程序来运行，并被设置用来产生用户的虚拟现实风格的化身图像。在这些实施例中，随后可以使用这些虚拟现实化身图像来代替本地图像(如上述实施例中由摄像机采集的)，并在像素域中对其进行处理。通过这种替换，即，使用由虚拟现实单元生成的化身视频图像来替换以上由视频摄像机18采集的本地视频图像，使用虚拟现实单元的这些实施例的操作与上述实施例中的任何一个的操作相同。

在另选的化身相关实施例中，虚拟现实单元将化身图像呈现为刚好适合用作侧音图像的格式；例如，可以将化身模型呈现为线条画或者线条和阴影画(例如，Pearson和Robinson图像，或者由图17的相关方法产生的图像)，然后按照与以上实施例所述相同的方式，使用远程图像来覆盖该化身图像。

下面将参照图21来说明本发明的第八实施例。

在上述实施例中，用于产生侧音图像和覆盖组合图像的处理是分别在各个用户终端手机10和20中执行的。然而，在另一实施例中并非如此，而是可以在侧音服务器210中执行用于产生侧音图像和覆盖图像的处理，本地和远程用户终端10和20中的每一个通过网络与该侧音服务器210进行通信。这种结构的优点在于，本地和远程用户终端10和20中的每一个在设计上可以比以上实施例更简单，因为它们不需要那些产生侧音图像以及生成覆盖组合图像所必需的组件。因此，参照图4，在第八实施例中，用户终端10和20没有图像生成器464、图像处理器468中的每一个以及存储在数据存储单元48中的软件(该软件为图像覆盖程序482、远程图像处理操作程序4810，以及侧音图像处理操作程序488)。当然，每一个用户终端仍然具有数据存储单元48，其中存储有控制程序484以及图像数据486，以使得用户终端能够执行其标准操作功能等。

在从用户终端去除了以上组件的情况下，将这些组件设置在侧音服务器210(参见图21)中。更具体地，参照图21，可以看出，侧音服务器21O包含第一侧音生成器212和第二侧音生成器214。第一侧音生成器212和第二侧音生成器214中的每一个都接收来自本地用户终端10的本地图像以及来自远程用户终端20的本地图像作为输入，这些本地图像分别通过各自的网络连接从本地和远程用户终端10和20发送至侧音服务器210。第一侧音生成器212随后相应地对所接收的输入图像进行处理，并对经处理的图像进行组合，以产生覆盖图像，该覆盖图像随后通过网络从侧音服务器210输出回本地用户终端10。类似地，第二侧音生成器214相应地对各个所接收的输入图像进行处理，并对经处理的图像进行组合，以产生覆盖图像，该覆盖图像随后通过网络从侧音服务器210输出至远程用户终端20。本地和远程用户终端10和20中的每一个随后在它们各自的显示器上将从侧音服务器210接收的图像显示给它们各自的用户。

对于由第一和第二侧音生成器212和214执行的操作，从以上说明中应该理解，每一个侧音生成器都执行与由上述实施例中的图像生成器464和图像处理器468执行的相同的图像处理和生成操作。也就是说，第一和第二侧音生成器212和214中的每一个都可以根据如上所述的图15、16或17的图像处理操作中的任意一个来分别处理它们各自所接收的图像，以产生侧音图像，并且随后可以对由此处理的图像进行组合，以产生组合覆盖图像，来根据如上参照图18、19或20所述的图像生成技术中的任意一种进行输出。因此，就此而言，在侧音服务器210中，可以由第一和第二侧音生成器212和214以与上述实施例相类似的方式执行以上实施例的所有功能(对于可以执行的各种图像处理操作以及用于产生最终输出图像的各种图像组合操作)。在图21所示的具体实施例中，第一侧音生成器212用于根据图15的图像处理操作对从本地用户终端10接收的本地图像进行处理，并根据图16的图像处理操作对从远程用户终端20接收的本地图像进行处理。然后，根据如上所述的图19的图像组合操作对由此处理的图像进行组合，并将由此得到的组合覆盖图像输出到网络，以发送给本地用户终端10并由此进行显示。

考虑第二侧音生成器214，其用于根据如上所述的图16的图像处理操作对从本地用户终端10接收的本地图像进行处理，还根据图15的图像操作对从远程用户终端20接收的本地图像进行处理。然后，以与第一侧音生成器212相同的方式对由此处理的图像进行组合，以产生用于输出的覆盖图像。然后，通过网络将由此生成的覆盖图像发送给远程用户终端20，以由此进行显示。

因此，在第八实施例中，用于产生覆盖图像的处理是在侧音服务器210中执行的，由此使得用户终端10和20能够在设计上更加简单，并在本地执行更少的处理。尽管在图21的具体实施例中，我们已经示出了第一侧音生成器212和第二侧音生成器214对从本地和远程用户终端接收的各个图像执行相同的图像处理操作的情况，但是在基于第八实施例的其他实施例中不必如此，可以执行所述的可用图像处理操作以外的不同图像处理操作。就此而言，在第八实施例的变型中也可以获得如上所述在第一至第七实施例中的每一个使用的图像处理操作的多种组合中的每一个。在上述实施中，本地视图呈现“褪色”的程度可以是恒定的。通过参数α和β(可以设为彼此相等)来调节自身视图的不透明特性。

另选实施可以根据本地视频的“质量”来调节这些参数，以使得如果该视频的质量较差，则用户会因为自身视图变得更加引人注意(不透明度降低)而意识到这种情况。随着用户调节环境并改善该视频，自身视图会变得更加不透明。可以采用多种量度(measure)将视频判定为质量较差，例如：照明的对比度(太亮或太暗)，或者缺少面部图像。可以通过采用场景中的像素亮度的标准偏离来传统地测量对比度。对视图中的“皮肤着色”像素的数量进行计数可以表示缺少面部；另选地，更加复杂的方法也是公知的。图22中示出了这对系统的体系结构的影响，并且需要结合本专利申请中的图3来察看。

图22所示的视频通信系统的部分(与图3的编码器32相对应)包括例如“测量视频质量”级(stage)形式的测量装置，该测量装置用于确定由摄像机采集的图像的质量(即，第一视频图像的质量)的至少一个特性的量度。该测量装置优选地与“生成侧音”级或其他图像生成装置相连，以使得例如自身视图(即，与第一视频图像相对应的侧音或覆盖图像)不透明或透明的程度取决于所测得的质量。因此，这些特征提供了一种动态调节侧音图像的可视性的方法。

另外，在本发明的又一实施例中，可以在将侧音图像与远程图像进行组合以产生用于输出的覆盖图像之前，对侧音图像应用附加的处理步骤，使得侧音图像可以沿其垂直轴翻转，从而该图像表现为用户的镜像图像场景，由此向用户提供该侧音是他们自己的镜像图像的印象。然而，可以不对远程图像进行这样的处理，以使得仍然可以在远程图像场景中阅读文本等。

此外，尽管在上述实施例中，我们在两方视频通信的情况下对本发明进行了说明，但是应该理解，本发明并不限于此，而是可以应用于具有三方或更多方的多方视频通信。例如，在存在三方或更多方的情况下，可以采用类似于第七实施例的实施例，并且根据图16或17的处理对各个图像进行处理，然后对各个图像的非白色的像素应用不同的刷色。然后可以按照上述的方式对由此经刷色的图像进行覆盖。通过对各个参与者使用不同的颜色，用户可以在输出覆盖图像中辨别出各个参与者的图像。

鉴于以上说明，可以看出，所述实施例提供了一种视频通信系统及其相关的操作方法，其中可以对本地用户的视频图像表示进行处理，并使用远程用户的经过对应处理的视频图像表示进行覆盖，从而产生包含两个用户的图像的覆盖图像。将该覆盖图像设置为使得用户面部的表示图像基本上对齐，结果使所得到的覆盖图像的大小通常不会大于任一原始输入图像。对于在覆盖操作之前对图像执行的处理，应该选择适当的图像处理操作，以使得所得到的经处理的图像适于使本地和远程图像中的每一个都能够在所生成的覆盖图像中可辨认。因此，例如，所选择的图像处理操作中的一个可以是用于生成高对比度黑白或灰度级图像的操作，在该图像上可以覆盖其他用户的全色图像。然而，另选地，也可以使用另一合适的图像处理操作，例如增大图像的表观不透明度，或者加亮图像并使其更易于在其上覆盖其他图像。还可以适当地应用平滑操作。另外，优选地，选择应用于侧音图像的处理，以使得在作为输出覆盖图像显示给用户时，使侧音图像在视觉上比远程图像吸引较少的注意力。

本发明提供了以下主要优点：可以在配备有屏幕(该屏幕没有大到足够显示两个图像，而不会出现一个图像排斥另一个图像的情况)的视频通信设备中提供侧音图像。尽管我们对主要针对本发明在移动视频通信设备中的应用的实施例进行了说明，但是应该理解这不是唯一的情况，本发明可以应用于任意视频通信设备，例如计算机、个人数字助理、固定线路视频电话等。

除非上下文明确要求，否则，贯穿说明书和权利要求书，词语“包括(comprise)”、“包括(comprising)”等应被理解为包含性，而与排他或穷尽的含义相反；也就是说，其含义为“包括而不限于”。

Claims

1.一种视频通信系统，其包括：

a)视频成像装置，其被设置用来产生表示第一面部的第一视频图像；

b)通信装置，其被设置用来经由网络来发送与所述第一视频图像相关的信息，以及接收与表示第二面部的第二视频图像相关的信息；以及

c)视频显示装置，其被设置用来向用户显示视频图像；

所述系统的特征在于，还包括：

d)图像生成装置，其被设置用来通过对第一视频图像的第一面部和第二视频图像的第二面部进行组合，使得所述面部的图像以基本上对齐的方式进行覆盖，来生成覆盖视频图像，以进行显示。

2.根据权利要求1所述的视频通信系统，还包括：

图像处理装置，其被设置用来根据一个或更多个相应的图像处理操作来处理所述第一视频图像和/或所述第二视频图像，并用来将所述第一和/或第二视频图像的经处理版本输出给所述图像生成装置，作为对其的输入；

其中，所述图像处理操作可用来处理所述视频图像，以使得可以在由所述图像生成装置生成的所述覆盖图像中独立地区分所述第一和第二视频图像各自的面部。

3.根据权利要求2所述的视频通信系统，其中，所述图像处理操作之一包括图像对比度增强操作。

4.根据权利要求3所述的视频通信系统，其中，所述图像对比度增强操作包括：检测输入图像中的边缘以产生边缘图，对该边缘图进行阈值化操作以及反相操作；对该输入图像应用阈值操作，以产生阈值化图像；以及对阈值化图像和经阈值化处理且反相的边缘图的每一个各自的对应像素位置执行逻辑AND，以产生经处理的图像。

5.根据权利要求2至4中的任意一项所述的视频通信系统，其中，所述图像处理操作之一包括用于使经处理的图像的不透明度提高的处理。

6.根据权利要求2至4中的任意一项所述的视频通信系统，其中，所述图像处理装置不对所述第二视频图像进行处理，并且所述图像生成装置进行操作，以将各个经处理的第一视频图像覆盖到所接收的第二视频图像上。

7.根据权利要求2至4中的任意一项所述的视频通信系统，其中，所述图像处理装置还可以用来对所述第一视频图像进行两次处理，以产生该第一图像的两个经处理的版本；其中，各个图像的第一经处理版本被输入到所述图像生成装置，作为对其的输入，而各个图像的第二经处理版本被输入到所述通信装置，由此进行发送。

8.根据权利要求7所述的视频通信系统，其中，对所述第一视频图像应用不同的图像处理操作，以分别产生所述第一经处理版本和所述第二经处理版本。

9.根据权利要求1所述的视频通信系统，其中，所述视频成像装置包括虚拟现实处理装置，该虚拟现实处理装置被设置用来产生用户的化身的视频图像，以用作所述第一视频图像。

10.一种视频通信方法，包括以下步骤：

a)产生表示第一面部的第一视频图像；

b)经由网络来发送与所述第一视频图像相关的信息，以及接收与表示第二面部的第二视频图像相关的信息；以及

c)向用户显示视频图像；

所述方法的特征在于，还包括：

d)通过对第一视频图像的第一面部和第二视频图像的第二面部进行组合，以使得所述面部的图像以基本上对齐的方式进行覆盖，来生成覆盖视频图像，以进行显示。

11.根据权利要求10所述的视频通信方法，还包括：

根据一个或更多个相应的图像处理操作来处理所述第一视频图像和/或所述第二视频图像，并将所述第一和/或第二视频图像的经处理版本用于所述生成步骤，作为对其的输入；

其中，所述图像处理操作可用来处理所述视频图像，以使得可以在通过所述生成步骤生成的覆盖图像中独立地区分所述第一和第二视频图像各自的面部。

12.根据权利要求11所述的视频通信方法，其中，所述图像处理操作之一包括图像对比度增强操作。

13.根据权利要求12所述的视频通信方法，其中，所述图像对比度增强操作包括：检测输入图像中的边缘以产生边缘图，对该边缘图进行阈值化操作以及反相操作；对该输入图像应用阈值操作，以产生阈值化图像；以及对阈值化图像和经阈值化处理且反相的边缘图的每一个各自的对应像素位置执行逻辑AND，以产生经处理的图像。

14.根据权利要求11所述的视频通信方法，其中，所述图像处理操作之一包括用于使经处理的图像的不透明度提高的处理。

15.根据权利要求11至14中的任意一项所述的视频通信方法，其中，所述图像处理操作不对所述第二视频图像进行处理，并且所述生成步骤进行操作，以将各个经处理的第一视频图像覆盖到所接收的第二视频图像上。

16.根据权利要求11至14中的任意一项所述的视频通信方法，其中，所述图像处理操作还包括：对所述第一视频图像进行两次处理，以产生该第一图像的两个经处理版本；其中，各个图像的第一经处理版本由所述生成步骤使用，作为对其的输入，而各个图像的第二经处理版本被通过网络发送给第二终端。

17.根据权利要求16所述的视频通信方法，其中，对所述第一视频图像应用不同的图像处理操作，以分别产生所述第一经处理版本和所述第二经处理版本。

18.根据权利要求17所述的视频通信方法，其中，所述产生步骤还包括虚拟现实处理步骤，该虚拟现实处理步骤用于生成用户的化身的视频图像，以用作所述第一视频图像。

19.根据权利要求2所述的视频通信系统，该系统还包括质量测量装置，该质量测量装置用于确定表示所述第一视频图像的图像质量的至少一个特征的量度，所述图像生成装置对所测量的质量的指示进行响应，以使所述第一面部的覆盖图像的至少一个可视特征取决于所述第一视频图像的图像质量。

20.根据权利要求19所述的视频通信系统，其中，与所述第一面部相关的覆盖图像的不透明程度取决于所述第一视频图像的图像质量。

21.根据权利要求10所述的视频通信方法，还包括以下步骤：对所述第一视频图像的质量进行评估，其中根据所述第一视频图像的评估质量来选择所生成的覆盖视频图像中的第一面部的可视特征。

22.根据权利要求21所述的视频通信方法，其中，所述可视特征是所述覆盖图像中的第一面部的透明程度或可视程度。