CN1411277A

CN1411277A - 视频通信系统

Info

Publication number: CN1411277A
Application number: CN02143373A
Authority: CN
Inventors: 李振秀; 李志银
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2001-09-26
Filing date: 2002-09-26
Publication date: 2003-04-16
Anticipated expiration: 2022-09-26
Also published as: EP1298933A3; KR20030026528A; CN100370829C; KR100516638B1; US20070009028A1; EP1298933A2; US20030058939A1; US8798168B2

Abstract

公布了一种视频通信系统，该系统通过将背景景物自动改变成为不同的背景景物，而能够很容易地获得用户所希望的背景景物。该系统包括：背景景物分离装置，用于在发送/接收包括至少一幅图像的数据的过程中，分离图像中要传输的对象和对象之外的背景景物；背景图像数据库，用于提供要取代背景景物而传输的背景图像；背景图像合成装置，用于将分离的对象和从所述背景图像数据库中选择的新背景图像进行合成；图像传输装置，用于传输通过合成分离的对象和新背景图像而形成的合成图像。

Description

视频通信系统

技术领域

本发明涉及基于背景和对象分离的视频通信系统，其能够将背景和对象进行分离，并且能够动态地对所分离的背景和对象进行合成，从而能够根据用户或者通信环境的要求用于视频通信。

背景技术

远程通信和运动图像压缩技术的发展使得多媒体环境下的视频通信成为可能，在此环境下，不仅可以发送和接收话音，还可以发送和接收通信者的图像。视频通信的发展使得使用PC摄像机、视频电话/图像电话、移动通信终端等的视频通信成为可能。

在这些视频通信环境中，可能会有这种情况，即根据环境不同，例如，出于保护隐私的目的，用户不愿向对方透露其当前的位置。在此情况下，应当允许仅进行没有视频通信的话音通信，或者将背景景物改变成为不同的景物以进行通信。

然而，在进行视频通信时，在实时环境下，在速度和准确性方面，很难自动改变背景景物。因此，传统上，在一些图像电话上，使用了在通信初始阶段向对方发送任意的静止图像作为用户设定的特定图像，然后仅实现话音通信的技术。

然而，由于此技术向对方传送任意的静止图像以代替不在屏幕上出现的视频通信人员，对方仅能听到此人的声音。这意味着损失了视频通信的关键功能，即以双方可视的方式实现通信。另外，对方在没有看见实际面容而看着静止图像的情况下进行通信时，可能会觉得不快。

因此，在进行视频通信时，需要一种技术，其能够实时地将通信人员和背景景物分离，并且使用不同的景物改变或者变化背景景物。这样的话，在进行视频通信时，当通信人员出现，但是背景景物改变成为另外的景物时，上述当实际面容由静止图像代替的问题仍然没有解决。

然而，对于将背景景物自动改变为不同的景物而言，其前提是一种实时地将目标区域从通信图像中自动分离的技术。下面，将会描述分离对象，尤其是人体区域和背景景物的传统技术。

在作为与分离对象和背景图像相关技术的运动图像标准中，MPEG-4允许基于对象的图像压缩编码。然而，由于MPEG-4本身是一种对预先分离的对象进行编码的技术，因此，对于基于对象的图像压缩编码而言，其前提是对象分离技术。但是，对于当前技术而言，在需要实时压缩和传送视频信号的环境(视频通信/视频对话)中，很难实现足够快的将所要求的对象和除对象之外的背景进行分离，然后以压缩模式进行对象和背景的编码。

因此，采用MPEG-4作为标准的视频通信系统不能实现对象单元的编码，而是以普通图像压缩的形式对对象进行压缩和传输。这称作MPEG-4简单级。

另一方面，也提出了一种在非实时环境下分离对象和背景景物的技术。例如，有一种基于颜色组从图像中分离子区域的技术。尽管此技术能够相对好地从图像中分离子区域，但是由于所分离的区域仅是基于颜色的区域，而不是一种有意义的目标区域，并且分离速度非常慢，从而，很难在诸如视频通信的实时环境下用作需要分离对象和背景景物的技术。

另一方面，考虑到视频通信系统中的图像具有对象是人的特征，还提出了一种从图像中分离面部的技术。例如，有一种技术，通过使用将信息转换成为小波频域而形成的面部样板而提取面部区域。此技术在从最小尺寸到最大尺寸调整其样板的同时扫描和匹配所有的图像区域。

但是，由于进行匹配的样板数目非常之大，此方法需要非常长的处理时间。

另外，作为面部区域分离技术，有一种通过使用面部区域具有人类皮肤颜色的范围的特征而提取面部区域的技术。一般来讲，人类的皮肤颜色位于颜色空间的特定范围内。因此，此技术通过仅使用和人类皮肤颜色状况符合的像素来提取面部区域。

但是，一般来讲，由于人类皮肤颜色的范围太宽，图像中除面部区域之外的区域也可能会被提取为面部区域，这使得很难对面部区域进行精确分离。

由于上述从静止图像中提取面部区域的技术没有使用运动图像的特征，提出了一种通过在运动图像中跟踪面部区域而提取面部区域的技术。具体的说，此技术用于跟踪面部区域，其通过运动信息以较少的处理进行提取。

然而，由于此技术仅跟踪面部所处的大致区域，使得很难精确地分离面部区域和背景景物。即，尽管此技术能够在运动图像中跟踪对象(人的面部)，对于精确地将面部区域和背景景物进行分离来讲，还是有局限性的。

发明内容

因此，本发明致力于解决上述背景技术中的问题，本发明的一个目的是提供一种视频通信系统，其能够在视频通信中自动对对象和背景景物进行分离，并且将分离的背景景物改变成为不同景物。

本发明的另外一个目的是提供一种视频通信系统，其通过分别构建面部区域提取装置和普通区域提取装置，并且在视频通信系统中进行组合，使得在视频通信中背景景物能够自动改变为不同的景物，从而实现更为精确的背景景物分离。

本发明的另外一个目的是提供一种视频通信系统，其通过构建用于分离背景景物的背景景物分离装置和用于合成不同背景景物的背景景物合成装置，并且将背景景物分离装置和背景景物合成装置放置在终端中，以在能够进行视频通信的视频通信系统中实现视频通信，其中能够将背景景物自动改变为不同的景物，从而在终端处实现背景景物的分离和合成。

本发明的另外一个目的是提供一种视频通信系统，其通过构建用于分离背景景物的背景景物分离装置和用于合成不同背景景物的背景景物合成装置，并且将背景景物分离装置放置在视频通信终端中，将背景景物合成装置放置在服务器中，以在能够进行视频通信的视频通信系统中提供服务，其中能够将背景景物自动改变为不同的景物，从而实现更为有效的背景景物分离和合成。

本发明的另外一个目的是提供一种视频通信系统，其能够将服务器提供的背景景物合成到旨在广告宣传或者其它用途的任意背景景物中。

本发明的另外一个目的是提供一种视频通信系统，用于对对象和背景景物进行分离，并且将分离的背景景物合成为不同的背景景物以代替所分离的背景景物，其能够应用于包含图像的通信系统，例如视频邮件，以及包含话音的视频通信。

本发明的另外一个目的是提供一种视频通信系统，用于对对象和背景景物进行分离，并且将分离的背景景物合成为不同的背景景物以代替所分离的背景景物，当该视频通信系统应用于包含图像的通信系统，例如视频邮件，以及包含话音的视频通信时，如果用户想要发送不同的背景景物，通过分离对象(面部区域)、记录所分离的对象和背景景物之间的边界信息、以及利用边界信息仅合成背景景物而无需以后重复执行背景景物的分离，从而可以在简单地改变和编辑背景景物之后传送视频邮件。

为了实现上述目的，根据本发明的一个方面，提供了一种视频通信系统，该系统包括：背景景物分离装置，用于在发送/接收包括至少一幅图像的数据的过程中，分离图像中要传输的对象和除对象之外的背景景物；背景图像数据库，用于提供要取代背景景物而传输的背景图像；背景图像合成装置，用于将分离的对象和从所述背景图像数据库中选择的新背景图像进行合成；图像传输装置，用于传输由分离的对象和新背景图像合成的合成图像。

根据本发明的另外一个方面，提供了一种视频通信系统，该系统包括：背景景物分离装置，用于在发送/接收包括至少一幅图像的数据的过程中，分离要传输的对象和除图像中对象之外的背景景物；边界区域描述装置，用于描述所分离对象和背景景物之间的边界区域；背景图像数据库，用于提供要取代所分离的背景景物而传输的背景图像；背景图像合成装置，用于使用边界区域描述信息合成所分离的对象和来自所述背景图像数据库的新背景图像；以及图像传输装置，用于传输由所分离的对象和新背景图像合成的合成图像。

根据本发明的另外一个方面，提供了一种视频通信控制方法，该方法包括：在要传输的图像中分离对象和背景景物；选择要取代所分离的背景景物而传输的背景景物；合成所分离的对象和所选择的新背景；传输由分离的对象和新背景图像所合成的合成图像。

附图说明

下面结合附图的详细描述中，可以对本发明的上述和其它的目的、特征和其它优点更加明了，附图中：

图1显示的是在根据本发明的视频通信系统中用于视频通信的图像分离和合成的概念图；

图2显示的是在根据本发明的视频通信系统中用于视频邮件的图像分离和合成的概念图；

图3显示的是在根据本发明的视频通信系统中，背景景物分离装置和背景景物合成装置位于终端内的系统配置图；

图4显示的是在根据本发明的视频通信系统中，在终端内实现背景景物分离，在服务器中实现背景景物合成的系统配置图；

图5显示的是在根据本发明的视频通信系统中，在终端内实现背景景物分离和合成，在服务器中提供背景景物搜索引擎的系统配置图；

图6显示的是在根据本发明的视频通信系统中，在终端内实现背景景物分离，在服务器中提供背景景物合成和背景景物搜索引擎的系统配置图；

图7是一个流程图，说明了根据本发明的视频通信系统的操作；

图8显示的是应用于根据本发明的视频通信系统的面部区域提取过程；

图9到图14显示的是应用于根据本发明的视频通信系统的面部区域提取过程中，皮肤区域像素图像的网格划分和网格分组的图像实例；

图15显示的是应用于根据本发明的视频通信系统的面部区域提取过程中的相同颜色/纹理区域分离过程；

图16显示的是在图15的相同颜色/纹理区域分离过程中，所生成的分离区域图像的实例；

图17是一个流程图，显示了根据图4的实施例的视频通信过程；

图18显示的是在根据本发明的视频通信系统中，在终端内实现背景景物分离和合成以进行视频邮件的系统配置；

图19显示的是在根据本发明的视频通信系统中，在终端内实现背景景物分离，在服务器中实现背景景物合成以进行视频邮件的系统配置；

图20显示的是在根据本发明的视频通信系统中，在服务器中实现背景景物分离和合成以进行视频邮件的系统配置；

图21显示的是作为本发明的一个应用，在终端实现背景景物分离和合成的系统配置，用于提供背景景物的服务器为用户提供了费用；

图22显示的是作为本发明的另外一个应用，在服务器实现背景景物分离和合成的系统配置，用于提供背景景物的服务器为用户提供了费用。

优选实施例详细说明

以下参照附图对本发明进行描述，附图中相同的标号指示相同的元件。

下面，将通过不同的实施例对本发明进行详细的说明。

在本发明的视频通信系统中，用于自动改变背景景物的技术具有两个应用：一个是和对方进行包含话音的实时视频通信；另一个是不仅进行图像而且进行诸如文本的其它信息的传输。

作为前者的实例，有一个视频通信领域，其中在进行视频通信时，将背景景物改变成为广告背景景物或者用户所希望的不同背景景物。作为后者的实例，有一个视频邮件领域，其中在将背景景物改变成为用户所希望的不同背景景物并且进行包括消息添加等等的视频邮件编辑之后传送视频邮件。这两种情况都作为本发明的视频通信系统。

图1显示的是在视频通信中背景景物变化的概念图。

参考附图1，在从包含背景景物1a和目标区域1b的原始图像中仅分离出目标区域1b之后，把所分离的目标区域与新的背景景物2进行合成，并且传输具有目标区域1b和新背景景物2a的合成图像。

图2显示的是视频邮件中背景景物变化的概念图。

参考图2，在从包含背景景物1a和目标区域1b的原始图像中分离出目标区域1b之后，把所分离的目标区域与新的背景景物2进行合成，插入字符3，并且发送具有目标区域1b、新背景景物2a和字符3的合成图像。

此处，使用指定的字符显示方法插入字符3，包括插入位置、字符的字体和字号、固定字符或移动字符等等。

另一方面，对于视频邮件的情况，没有必要实时进行所需的改变背景景物的过程。然而，对于视频通信的情况，由于为了提供上述的服务，需要实时地对背景景物进行分离和合成，所以必需提供一种有效的背景景物分离和合成方法。

从现在开始，首先，将详细描述能够提供对背景景物和对象进行实时分离和变化的通信服务的视频无线通信系统，然后，将详细描述基于对背景景物和对象的分离和合成的视频邮件和其它应用服务。

根据用于从图像中分离背景和对象的装置和对所分离对象和新背景景物进行合成的装置的位置不同，本发明的视频通信系统可以表现为不同的实施例。

图3显示的是一个实施例的配置图，其中在根据本发明的视频通信系统中，背景景物分离装置和背景景物合成装置位于终端内。

参考图3，视频通信大致包括用于实现视频通信的终端4和用于提供服务的服务器5。

终端4包括背景分离单元6，用于在图像中分离背景景物和对象；和背景景物合成单元7，用于将所分离的对象和新背景景物进行合成。背景分离单元6包括面部区域提取单元8，用于从图像中提取面部区域；普通区域分离单元9，用于分离除面部区域之外的普通区域；区域合成单元10，用于使用所提取的面部区域对确定为人体区域的区域进行合成；以及区域跟踪单元11，用于使用所提取的面部区域信息在下一个连续帧中对相关区域进行跟踪。

另外，终端4还包括图像编码器12，用于对传输图像信号进行编码以进行通信；图像解码器13，用于对接收图像信号进行解码以进行通信；缓存器14，用于处理通信信号；以及通信设备15，用于根据通信协议对图像信号进行发送和接收。

服务器5包括缓存器16，用于处理要用于通信的图像信号和背景景物；背景景物数据库17，用于存储要提供给背景景物的图像信息；通信设备18，用于根据预定的通信协议发送和接收图像信号，以将存储在背景景物数据库中的图像信息提供给终端。

在图3中，终端4可以是安装有PC摄像机的PC，可视电话等等。用于提供背景图像的背景景物数据库17可以放置在服务器5或者终端4中。

如果把数据库17放置在服务器5中，则当把背景景物改变为用户所希望的不同背景景物时，从服务器5接收所希望的不同背景景物。如果把数据库17放置在终端4，则使用终端4中的背景图像。

对于图3中的视频通信系统，所有的背景景物改变均在终端4处实现，并且对具有改变了的背景景物的图像进行编码和传输，以下会对其进行详细描述。

面部区域提取单元8从要传输的原始图像中提取面部区域。以下参考图8对提取面部区域的方法进行详细描述。普通区域分离单元9通过颜色/纹理信息识别并分离具有相似颜色和纹理的区域作为一个单独的区域，并且将面部区域分离成为普通区域的一部分。

区域合成单元10对分离出的区域中参照从面部区域提取单元8中所提取的面部区域的位置而确定为人体区域的区域进行合成。例如，由于脖子、身体、手臂、腿通常位于面部的下面，所以当识别出面部区域时，能够由已知的面部区域提取出确定为人体的区域。对于此类的提取，也附加使用运动信息。

当如上对起始的背景景物区域和确定为人体的区域进行分离时，能够利用一种更为简单的方法，通过使用所分离的人体区域是连续移动的假设，从下一帧连续的图像中提取出人体区域。区域跟踪单元11负责此功能。

具体的说，无需使用运动信息在下一帧中重新对背景景物进行分离，仅通过简单的改变和扩展前面所提取的人体区域，就可以分离出背景景物。例如，当运动信息是朝向特定的方向时，通过在运动信息所指示的方向上检查前一帧中具有和人体区域相同颜色信息的像素，并移动和扩展该区域，就可以实现相对简单的背景景物分离。此方法也反映了人体区域的大小取决于摄像机和要摄像的人之间的距离。如上所述，背景景物分离单元6能够对背景景物和对象(人体)进行分离。

背景景物合成单元7对除人体区域之外的区域进行合成，即，用户所希望的或者由服务器指定的背景景物。具体的说，服务器5通过缓存器16和通信设备18向用户发送存储在背景景物数据库17中、并且由用户选择或者服务器指定的背景图像，通过选择所希望的背景图像或者对由服务器指定的背景图像进行合成，用户能够获得具有不同背景景物的合成图像。另一方面，如果在终端4中预先存储了和背景景物相关的数据库17，则用户能够无需进行背景图像的发送处理，就可以方便和直接地选择背景图像。

由图像编码器12将使用背景景物合成的图像编码成为预定的格式，通过缓存器14和通信设备15发送到对方的终端。当终端4从对方接收到图像时，由解码器13对所接收的图像进行解码，并且显示在屏幕上，从而实现视频通信。

图4显示的是在根据本发明的视频通信系统中，在终端实现背景景物分离，在服务器实现背景景物合成的系统配置。

参考图4，把背景景物分离单元6放置在终端4，把背景景物合成单元22放置在服务器5。背景分离单元6包括面部区域提取单元8，普通区域分离单元9，区域合成单元10和面部跟踪单元20。面部跟踪单元20实现和图3中的区域跟踪单元相同的功能。

另外，终端4包括区域边界描述单元19，用于描述所分离的背景景物与人体区域之间的边界信息；图像编码器12；图像解码器13；缓存器14；以及通信设备15。

服务器5包括缓存器16，背景景物数据库17，通信设备18，区域边界分析单元21，用于对区域边界描述单元19所提供的所分离背景景物与人体区域之间的边界信息进行分析，背景景物合成单元22，用于使用边界分析信息对背景景物进行合成，以及图像编码器23和图像解码器24，用于发送和接收使用新背景景物合成的图像。

在图4的视频通信系统中，终端4仅实现背景景物分离，并且发送所分离的背景景物，和由区域边界描述单元19所描述的分离背景景物的边界区域。服务器5接收所分离的背景景物，对存储在数据库17中的背景图像进行合成，然后将合成的背景图像重新发送到终端4。以下对此操作进行更加详细的描述。

如上参考图3所述，背景景物分离单元6对背景景物区域和人体区域进行分离。此时，区域边界描述单元19仅对所分离的人体区域和背景景物区域之间的边界信息进行描述，通过图像编码器12、缓存器14和通信设备15，将区域边界信息和人体区域的图像信息一起发送到服务器5。

在服务器5，通过通信设备18和图像解码器24接收区域边界信息和人体区域的图像信息，区域边界分析单元21通过对所接收的区域边界信息进行分析，识别出人体区域和背景景物之间的边界，而背景景物合成单元22对由用户指定、存储在数据库中的背景图像，或者由服务器指定的背景图像进行选择，并且使用人体区域的图像信息对背景图像进行合成。由图像编码器23对使用新背景景物(或者图像)合成的图像信号进行编码，然后通过通信设备18进行传输。

对于表达图4中所分离区域之间边界的方法的实例，提出了下面两种方法。

第一种方法是在对除人体区域之外的背景区域内填充诸如“NULL”的像素值，使之和有意义的像素值有所区别之后，将其发送到服务器，服务器使用新背景景物的像素，对有意义的像素值之外的其它区域进行填充。由于能够仅通过位操作符对背景景物进行合成，此方法允许进行快速的背景景物合成，同时由于能够通过像素单元对边界进行表达，也允许进行详细的边界描述。

第二种方法建立在可以使用多边形对所分离的区域进行描述的假设下，其中所分离的区域由对应于多边形顶点的一系列点进行描述。和第一种方法相比，第二种方法具有这样的优点，即用于描述边界区域的数据变得很小。然而，由于第二种方法将边界区域描述为多边形，而不是像素单元，很难描述边界的详细情况。另外，由于很难使用简单的位操作符对背景景物进行合成，第二种方法需要很长的合成时间。

如上所述图4中的视频通信系统尤其适用于要作为背景景物的图像的信息数量巨大的情况。换言之，图3的视频通信系统需要花费大量的时间将服务器上的相关背景图像传送到终端，以在终端实现背景景物合成，图4中的视频通信系统由于服务器能够直接对背景景物进行合成，而无需将其传送到终端，所以对于要作为背景景物的图像的信息数量巨大的情况尤其有效。

图5显示的是安装有基于内容的背景景物搜索装置的视频通信系统的配置。

参考图5，详细的讲，其显示出终端包括背景景物分离单元和背景景物合成单元。换言之，终端4包括背景景物分离单元6，背景景物合成单元7，图像编码器12，图像解码器13，缓存器14和通信设备15，而背景景物分离单元6包括面部区域提取单元8，普通区域分离单元9，区域合成单元10和面部跟踪单元20。

服务器5包括缓存器16，背景图像数据库17，通信设备18，背景景物搜索引擎25，和背景景物搜索界面26。

当用户要使用所希望的不同背景景物进行通信或者发送视频邮件的时候，背景景物搜索引擎25允许用户通过基于内容的搜索对背景景物进行搜索和使用。换言之，用户能够通过背景景物搜索界面26，通过使用基于内容的背景景物搜索引擎25在背景图像数据库17中搜索他所希望的背景景物。

由于下面的原因，这一点是很有用的。即，当要编辑的背景景物是图像或者运动图像时，用户能够通过使用颜色、纹理属性等，通过搜索相似的图像或者运动运动图像而指定他所希望的背景景物。

图6显示的是具有基于内容的背景图像搜索装置的视频通信系统的配置，即，安装有背景景物搜索引擎25和背景景物搜索界面26。尤其是，终端4包括背景景物分离单元6和区域边界描述单元19，而服务器5包括背景景物合成单元22和边界区域分析单元21。

图6中所示的视频通信系统的操作和图3和5中的一样。

图7显示的是在本发明的视频通信系统中，自动改变背景景物的视频通信的流程图，其包括下面的步骤：图像输入，划分背景景物，改变背景景物，图像压缩和传输。

在图像输入步骤S1，当开始进行视频通信时，将要传输的图像作为系统的输入进行输入。在背景景物分离步骤S2-S5中，根据下面的步骤进行所输入图像的背景景物分离。

首先，在面部区域提取步骤S2，通过使用颜色信息等对确定为面部的区域位置进行提取。下一步，在相同颜色/纹理区域分离步骤S3，对具有相似颜色和纹理的区域进行划分。下一步，在区域合并步骤S4，通过使用具有相同运动的区域的信息和面部区域的位置，对确定为人体区域的区域进行合并(即合成)。下一步，在区域边界细化步骤S5，对所合并区域中的边界部分进行平滑以提高图像质量。

在背景景物改变步骤S6，将除所划分的人体区域之外的其他区域改变为新的所希望的背景景物。下一步，在图像压缩步骤S7，进行压缩编码以传输具有新改变的背景景物的图像。最后，在图像传输步骤S8，传输压缩图像信号。

在如上所述的系列步骤中，可以将面部区域提取步骤S2和相同颜色/纹理区域划分步骤S3在顺序上进行颠倒。

图8显示的是图7中面部区域提取步骤S2的实施例。

参考图8，在提取面部区域(S1)之前提取皮肤颜色区域。即，在确定输入图像中各个像素的颜色是否对应于皮肤颜色区域之后，仅把对应于皮肤颜色的像素确定为面部区域候选像素。假设使用YCrCb颜色空间中的三个值表达给定像素的颜色，如果三个值Y、Cr、Cb满足预定的值，则确定给定的像素是皮肤颜色区域。在图9和图10中显示了仅表示皮肤颜色区域的实例。图10显示的是通过仅从图9的原始图像中提取对应于面部的皮肤颜色而形成的图像。此处，使用YCrCb颜色空间对颜色进行表达的原因是通过解码MPEG文件获得的颜色信息是YCrCb。

在图8中，在下一步，进行皮肤区域像素图像的网格划分(S2)。在将仅具有皮肤颜色像素的图像划分为M×M个单元后，仅将具有高于预定阈值的皮肤颜色像素百分比的单元设定为“1”，此皮肤颜色像素百分比表示一个单元中皮肤颜色像素占据了多少，即(一个单元中的皮肤颜色像素数目)/(一个单元中像素的总数)，而将其他的单元设定为“0”。在图11中显示的是由图10中这样进行网格划分所形成的图像实例。

在图8中，在下一步，对连接在一起的网格进行分组(S3)。即，如果设定为“1”的网格彼此相邻，则确定网格位于同一区域，并且分在一组。

此处，根据8方向或者4方向，确定网格是否彼此相邻。4方向的意思如图12所示，当网格在上、下、左和右方向相邻，则确定他们彼此相邻。8方向的意思除了图12中的方向之外，还要考虑如图13所示的对角线方向。在此实施例中使用8方向。

把这样进行分组的网格认为是一个区域。在图14中显示的是图11中网格区域分组的实例。如图14所示，可以看出，把所生成的连接在一起的网格划分为7个组。

在图8中，在下一步，检测候选面部区域(S4)。即，当把图14中的网格分组后的候选面部区域当作一个区域后，仅留下通过使用区域的长宽比率等而确定为面部区域的候选者。确定候选者的一个实施例是：如果面部候选区域中宽度像素和长度像素数目的比值在预定范围之内，则把候选区域确定为面部区域。

在图8中，在下一步，进行面部区域的确认(S5)。通过使用预先准备的面部区域样板，确定所提取的候选面部区域是面部区域。面部区域样板是通过预先组合大量面部区域图像而形成的面部区域特征，将其和实际的候选区域进行比较，然后如果面部区域样板和实际候选区域之间的相似程度大于预定阈值，则确认是面部区域。

图15解释了图7中用于划分相同颜色/纹理区域的基于颜色的普通区域划分方法。

参考图15，首先，进行颜色空间划分(S1)。尤其是，通过实验，将YCrCb颜色空间划分为N个子空间。这用于将任意的像素颜色映射到这N种颜色之一(颜色量化)。然后，输入图像(S2)，然后进行平滑处理以去除包含在输入图像中的噪声，从而对相邻的m个像素的值进行平均(S3)。下一步，将经过平滑的图像量化为颜色空间划分步骤中形成的N种颜色(S4)，然后，当具有量化颜色值的像素彼此相邻时，进行区域生成步骤以把像素看作是同一区域(S5)。

将在区域生成步骤S5中所生成的非常小面积的区域看作噪声，使用可扩展的方式对具有和其他临近区域相似颜色的区域进行合并(S6)。图16显示的是这样生成的划分区域图像的实例。

图17显示的是根据图4的实施例的视频通信过程的流程图。

在图像输入步骤S1，当开始进行视频通信时，将要传输的图像作为系统输入而进行输入。在背景景物划分步骤S2-S5，根据下面的步骤实现所输入图像的背景景物划分。

首先，在面部区域提取步骤S2，对使用颜色信息等确定为面部的区域位置进行提取。下一步，在相同颜色/纹理区域划分步骤S3，对具有相似颜色和纹理的区域进行划分。下一步，在区域合并步骤S4，通过使用具有相同运动的区域的信息和面部区域的位置，对确认为人体区域的区域进行合并(即合成)。下一步，在区域边界细化步骤S5，对合并区域的边界部分进行平滑，以防止由于边界部分的粗糙而导致图像质量的品质降低。

在下面的背景景物边界区域描述步骤S6，对于人体区域和背景景物区域之间的边界信息进行描述。下一步，在图像压缩步骤S7，进行压缩编码以传输通信图像，例如，人体图像和所划分区域的边界信息。在图像传输步骤S8，对压缩的图像信号进行传输。

在图像接收步骤S9，对人体区域和区域边界信息进行接收和解码。在边界区域分析步骤S10，对所接收的边界区域信息进行分析。在背景景物合成步骤S11，通过使用所分析的划分区域边界信息，使用新的背景景物和人体图像进行合成。在压缩步骤S12，对使用新的背景景物进行合成的图像进行编码，并且将具有新的背景景物的压缩图像传送到接收侧(S13)。

到现在为止，已经对使用背景景物分离和合成的背景景物改变视频通信系统进行了描述。下面，将对视频邮件传输系统进行描述，以作为上述技术应用的实例。

在视频邮件传输系统中，用户将消息记录在图像中，然后通过电子邮件传输图像。在这个视频邮件中，用户能够使用预定的背景景物对消息图像进行编辑。本发明的背景景物分离和自动改变技术使得可以进行视频邮件的编辑。当然，由于视频邮件不需要像视频通信环境中那样实时改变背景景物，在接收到图像之后，有足够的时间对背景景物进行分离和合成。

因此，当把本发明应用于视频邮件传输系统中时，可以在终端同时提供背景景物分离装置和背景景物合成装置，或者在终端提供背景景物分离装置，而在服务器提供背景景物合成装置，或者在服务器同时提供背景景物分离装置和背景景物合成装置。

另外，在视频邮件中，用户能够对图像进行编辑，以在图像中包含用户设定的字符串。此时，用户能够设定字符的字体或者字号，或者能够选择图像上显示字符的位置，或者显示字符的模式。可以使字符显示模式包含在固定位置进行字符显示的效果，或者进行字符移动的效果。此字符串合成装置可以安装在终端中，也可以安装在服务器上。

图18显示的是在终端中包含了背景景物分离装置，背景景物合成装置，和字符合成装置与界面的情况。

参考图18，终端4还包括用于准备视频邮件的字符合成单元27，用于输入字符的字符输入界面28。通过使用字符输入界面28，用户对要进行传输的信息进行准备和输入，并且选择信息的显示位置，显示格式等等。字符合成单元27对用户输入的字符进行合成。合成的字符和由背景景物合成单元7所合成的具有新的背景景物的用户图像一起转换成为视频邮件的格式，并且进行传输。尽管图18中还有没有进行描述的单元，但是它们具有和视频通信系统中的单元相同的标号。因此，为了节减篇幅，省略了对背景景物和对象的分离与合成、背景景物搜索和发送/接收操作的描述。

图19显示的是终端包含背景景物分离装置和区域边界描述装置，且服务器包含背景景物合成装置、区域边界分析装置、字符合成单元和字符输入界面的情况。

除了在图19中服务器5包含用于准备视频邮件的字符合成单元27和用于输入字符的字符输入界面28之外，图19的结构和图18的结构一样。

图20显示的是服务器包含背景景物分离装置、背景景物合成装置、字符合成单元和字符输入界面的情况。

参考图20，除了服务器5包括背景景物分离装置、背景景物合成装置、字符合成装置和字符输入界面之外，图20的结构和图18和19的结构一样。

图21显示的可以应用本发明的视频通信系统的实例。

参考图21，可以看出，服务提供商在进行视频通信时，可选地指定了背景景物，而用户具有费用折扣等的优惠。视频通信广义上包括视频邮件系统。

尤其是，当终端29a和29b通过服务器30实现视频通信时，服务提供商30a可选地设定了背景景物，为用户提供了费用折扣等的优惠作为背景景物指定的费用。标号31指的是网关。终端29a和29b分别包括图像输入单元32a和32b，背景景物分离和合成单元33a和33b，缓存器34a和34b等等。

图22显示的是可以应用本发明的视频通信系统的另外一个实例。

参考图22，可以看出，服务提供商在进行视频通信时，可选地指定了背景景物，而用户具有费用折扣等的优惠。视频通信广义上包括视频邮件系统。

和图21不同，在图22中，终端29a和29b仅包括这些单元，例如，图像输入单元32a和32b，分别用于图像信号的发送和接收，而服务器30包括背景景物分离和合成单元35和背景景物数据库36。与背景景物改变有关的操作和上述的视频通信系统相同。因此，为了节减篇幅，省略了对本操作的详细描述。

对于图21和22的视频通信系统的情况，由服务提供商可选地选择的背景图像可以是广告。当使用广告作为背景图像时，给出广告效果的静止图像或者运动图像可以作为背景图像，或者使用插入给出广告效果的对象图像或者字符，仅对原始背景图像的部分区域进行编辑。

本发明能够利用用户所希望的和实时自动改变的背景景物进行视频通信。视频通信可以包括电视电话和视频邮件传输。

另外，由于可以选择进行视频通信或者视频邮件传输时自动改变的背景景物作为服务器指定的背景图像，根据服务提供商和用户之间的协约，用户能够通过采用由服务提供商设定的背景的费用而节省通信费用。

根据本发明的视频通信系统和控制方法，用户能够自由地设定所希望的背景景物与其他人进行对话。因此，可以更加可靠的保护个人的隐私。

尽管已经说明性地对本发明的优选实施例仅了描述，但是对于本领域的技术人员而言，在不偏离所附权利要求的范围和宗旨的前提下，可以有各种修改、改进和替换。

Claims

1.一种视频通信系统，包括：

背景景物分离装置，用于在发送/接收包括至少一幅图像的数据的过程中分离图像中要传输的对象和除对象之外的背景景物；

背景图像数据库，用于提供要取代所述背景景物而传输的背景图像；

背景图像合成装置，用于合成所分离的对象和从所述背景图像数据库中选择的新背景图像；以及

图像传输装置，用于传输由分离的对象和新背景图像合成的合成图像。

2.根据权利要求1所述的视频通信系统，还包括字符输入和合成装置，用于通过把字符插入到使用新背景图像合成的合成图像中而实现视频邮件传输。

3.根据权利要求1所述的视频通信系统，其特征在于，所述背景景物分离装置包含在用于视频通信的终端中，而所述的背景景物合成装置包含在用于视频通信服务的服务器中。

4.根据权利要求1所述的视频通信系统，还包括搜索装置，用于基于内容搜索存储在所述背景图像数据库中的背景图像。

5.根据权利要求1所述的视频通信系统，其特征在于，所述的背景景物分离装置包括：

对象提取装置，用于从图像中提取要传输的对象；

普通区域分离装置，用于基于颜色或者纹理划分相同颜色或纹理的区域；

区域合成装置，用于使用由所述对象提取装置所提取的信息合成要确定为目标区域的区域；

区域跟踪装置，用于对提取的对象进行跟踪，以在下一帧中提取目标区域。

6.根据权利要求5所述的视频通信系统，其特征在于，所述的对象提取装置从图像中提取人的面部区域，而所述的区域合成装置利用所提取的人面部区域的位置合成要确定为人体区域的区域。

7.一种视频通信系统，包括：

边界区域描述装置，用于描述所分离对象和背景景物之间的边界区域；

背景图像数据库，用于提供要取代所述分离背景景物而传输的背景图像；

背景图像合成装置，用于利用边界区域描述信息合成所分离的对象和来自所述背景图像数据库的新背景图像；以及

8.根据权利要求7所述的视频通信系统，其特征在于，在用于视频通信的终端或者用于视频通信服务的服务器中包含一个字符输入和合成装置，用于通过把字符插入到使用新背景图像合成的合成图像中而实现视频邮件传输。

9.根据权利要求7所述的视频通信系统，其特征在于，所述的背景景物分离装置包含在用于视频通信的终端中，而所述的背景景物合成装置包含在用于视频通信服务的服务器中。

10.根据权利要求7所述的视频通信系统，还包括搜索装置，用于基于内容而搜索存储在所述背景图像数据库中的背景图像。

11.根据权利要求7所述的视频通信系统，其特征在于，所述的背景景物分离装置包括：

对象提取装置，用于从图像中提取要传输的对象；

区域合成装置，用于使用由所述对象提取装置所提取的信息，合成要确定为目标区域的区域；以及

区域跟踪装置，用于对提取的对象进行跟踪，以在下一次提取目标区域。

12.根据权利要求11所述的视频通信系统，其特征在于，所述的对象提取装置从图像中提取人的面部区域，而所述的区域合成装置通过使用所提取的人面部区域的位置，合成要确定为人体区域的区域。

13.根据权利要求7所述的视频通信系统，其特征在于，所述的边界区域描述装置保留对应于目标区域的像素的原始信息，并为对应于背景景物的像素赋以‘NULL’值。

14.根据权利要求7所述的视频通信系统，其特征在于，所述的边界区域描述装置将目标区域的轮廓描述为多边形，而将边界信息描述为对应于多边形顶点的连续像素值。

15.一种视频通信控制方法，包括如下步骤：

在要传输的图像中分离出对象和背景景物；

选择要取代所分离的背景景物而传输的背景景物；

合成所分离的对象和选择的新背景；以及

传输由分离的对象和新背景图像所合成的合成图像。

16.根据权利要求15所述的视频通信控制方法，其特征在于，分离对象和背景景物后，描述边界信息，并且使用边界信息对新的背景景物和对象进行合成。

17.根据权利要求15所述的视频通信控制方法，还包括在传输使用新背景图像合成的对象图像时，通过插入字符而输入和合成字符信息以实现视频邮件传输。

18.根据权利要求15所述的视频通信控制方法，其特征在于，对象和背景景物的分离包括检测人的面部区域和将人体区域和除人体区域之外的背景景物区域进行分离。

19.根据权利要求18所述的视频通信控制方法，其特征在于，分离人体区域和背景景物区域的步骤包括如下步骤：

提取面部区域的位置；

基于颜色或纹理，划分相同颜色或纹理的区域；

通过使用运动信息和面部位置信息，合成要确定为人体区域的区域；以及

跟踪所提取的面部区域位置，以在下次提取人体区域。

20.根据权利要求19所述的视频通信控制方法，其特征在于，提取面部区域位置的步骤包括如下步骤：

从输入的图像中提取对应于皮肤颜色区域的像素；

对仅由对应于皮肤颜色区域的像素形成的图像进行网格划分；

将相连的网格归组为一个区域；

设定网格组中的候选面部区域；以及

确认所设定候选面部区域中的面部区域。

21.根据权利要求20所述的视频通信控制方法，其特征在于，设定候选面部区域的步骤包括如下步骤：

设定包含属于一组的网格的最小四边形作为一个区域；

确定所设定四边形的宽长比率是否在预定的范围之内；以及

如果确定宽长比率在预定的范围之内，则设定候选面部区域。

22.根据权利要求20所述的视频通信控制方法，其特征在于，确定候选面部区域的步骤包括如下步骤：

通过使用预先收集的面部区域图像构建面部样板；

将构建的面部样板与候选面部区域进行比较；以及

作为比较结果，如果确定所构建的面部样板与候选面部区域之间的相似性大于一个预定阈值，则确认该候选面部区域为面部区域。

23.根据权利要求19所述的视频通信控制方法，其特征在于，基于颜色或纹理划分相同颜色或纹理区域的步骤包括：

将颜色空间划分为N个子区域；

对输入的图像进行平滑处理；

通过将平滑处理图像的像素值映射到所划分的N种颜色之一而进行量化；

将具有同一量化颜色值的相邻像素归组为一个区域；以及

如果所分组的区域小于一个预定值，则以可扩展的方式对具有和其它邻近区域的颜色相似的颜色的区域进行合并。