CN104871528A

CN104871528A - 在视频会议系统中使用化身

Info

Publication number: CN104871528A
Application number: CN201380050279.8A
Authority: CN
Inventors: 刘心诚
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2012-08-01
Filing date: 2013-06-25
Publication date: 2015-08-26
Anticipated expiration: 2033-06-25
Also published as: US20160037130A1; US9723265B2; US20160337616A1; EP2880858A1; KR102444825B1; US9432626B2; EP2880858A4; EP2880858B1; KR20150040322A; US9191619B2; US10225519B2; US20170332046A1; WO2014022022A1; CN104871528B; KR20200087284A; US20140036027A1

Abstract

描述了用于使用化身进行视频会议的系统和方法。用户的存在可以通过分析数码相机捕捉的视频进行检测。化身可以被提供至远程设备以表示所检测到的用户。

Description

在视频会议系统中使用化身

相关申请的交叉引用

本申请要求于2012年8月1日提交的题为“Using An Avatar In AVideoconferencing System”的美国临时申请号61/678,535的权益，其公开内容通过引用全文合并于此。

技术领域

本公开总体上涉及在视频会议系统中使用化身。本公开更具体地涉及在视频流中检测用户的存在并且将该用户表示为化身。

背景技术

视频会议一般地涉及将视频流与音频流相结合以允许用户彼此看到并听到。例如，视频会议可以在日本东京的用户与伊利诺伊州的罗克福德的用户之间发起。每个用户可以操作视频会议设备，其包括相机、麦克风、显示器和扬声器。在一个设备处经由相机捕捉的视频可以被传送至另一设备并且在该设备的显示器上进行呈现。类似地，在一个设备处经由麦克风捕捉的音频可以被传送至另一设备并且经由该设备的扬声器进行播放。这样的系统允许一个位置的用户就像远程用户位于相同房间中那样与远程用户进行对话。

发明内容

这里描述了用于在视频会议系统中使用化身的系统和方法的实施方式。一种实施方式是一种用于发起视频会议的方法。该方法包括在处理电路接收由数码相机捕捉的视频数据。该方法还包括由该处理电路对该视频数据进行分析以检测用户的存在。该方法进一步包括经由网络接口向远程设备提供显示数据，该显示数据被配置为使得该远程设备在显示器上显示化身并且响应于检测到用户的存在而被提供。该方法还包括通过向该远程设备提供该视频数据来发起视频会议。

另一种实施方式是一种用于发起视频会议的系统。该系统包括处理电路，其可操作以接收由数码相机捕捉的视频数据并且对该视频数据进行分析以检测用户的存在。该处理电路还可操作以经由网络接口向远程设备提供显示数据，该显示数据被配置为使得该远程设备在显示器上显示化身并且响应于检测到用户的存在而被提供。该处理电路进一步可操作以通过向该远程设备提供该视频数据来发起视频会议。

进一步的实施方式是一种用于在第一和第二人之间发起通信会话的系统。该系统包括第一处理电路，其被配置为从对环境进行监视的视频相机接收视频信号并且检测该第一人在该环境中的存在。该第一处理电路还被配置为传送该第一人在该环境中的存在的指示。该系统进一步包括第二处理电路，其被配置为接收该第一人的存在的指示并且向显示设备提供包括表示该第一人的化身的显示数据。该第二处理电路还被配置为接收来自该第二人的用于发起与该第一人的通信会话的请求并且在该第一和第二人之间发起通信会话。

附图说明

一个或多个实施方式的细节在附图和以下描述中给出。本公开的其它特征、方面和优势将由于该描述和附图以及权利要求而是显而易见的。

图1是示例计算机系统的图示；

图2是用于在视频会议系统中使用化身的过程的说明性流程图；

图3是根据各种实施方式的所发起的视频会议的图示；

图4是被配置为发起视频会议的处理电路的示意性框图；

图5是示出背景图形和化身的视频会议系统中的电子显示的示例图示；和

图6是示出多个窗口的视频会议系统中的电子显示的示例图示。

具体实施方式

根据本公开的一些方面，可以在视频会议系统中使用化身来表示用户。该系统可以检测用户在视频中的存在并且响应于该检测向远程设备提供化身。例如，如果在视频流中检测到用户的存在(例如，用户走入起居室)，则用户可以在一个或多个其它远程设备上被表示为化身。因此，用户的存在可以在发起视频会议之前被传递给其它用户。如果远程用户请求视频会议，并且该化身所表示的用户接受，则可以通过在两个设备之间共享视频和/或音频数据而发起视频会议(例如，用户的化身被用户在远程设备上的视频流所替代)。

参考图1，示出了根据各种实施方式的计算机系统100的图示。系统100通常被配置为允许两个或更多用户发起视频会议。例如，用户102可以利用系统100与用户104进行视频会议。系统100可以包括任意数量的电子设备以使得用户102、104能够进行视频会议。如所示出的，用户102可以操作视频会议设备106并且用户104可以操作相对应的视频会议设备108。设备106、108可以经由网络120进行通信并且被配置为在互相之间传送视频和/或音频。在一些实施方式中，系统100可以包括对设备106、108之间的视频会议进行协调的视频会议服务器122。

网络120可以为在设备106、108和服务器122之间中继信息的任意形式的计算机网络。例如，网络120可以包括互联网和/或其它类型的数据网络，诸如局域网(LAN)、广域网(WAN)、蜂窝网络、卫星网络或者其它类型的数据网络。网络120也可以包括任意数量的计算设备(例如，计算机、服务器、路由器、网络交换机等)，它们被配置为在网络120内接收和/或传送数据。网络120可以进一步包括任意数量的硬线和/或无线连接。例如，设备106可以与收发器无线通信(例如，经由WiFi、蜂窝、雷达等)，所述收发器硬线连接(例如，经由光纤线缆、CAT5线缆等)至网络120中的其它设备。

视频会议设备106、108可以是任意数量的被配置为经由网络120进行通信的不同用户电子设备(例如，膝上计算机、台式计算机、平板计算机、智能电话、智能电视机、用于电视机的机顶盒、视频游戏控制台等)。在各种实施方式中，设备106、108分别包括相机110、112。相机110、112可以被集成到设备106、108之中或者可以是与设备106、108进行通信(例如，经由有线或无线连接)的独立相机。例如，相机110可以是集成到膝上计算机中的相机或者可以是经由通用串行总线(USB)线缆连接至智能电视机的独立相机。在视频会议期间，相机110、112捕捉其各自周边的视频数据。例如，相机110可以捕捉用户102的起居室的视频。如果用户102存在于起居室中并且处于相机110的视界内，则视频数据也可以包括用户102的图像。在视频会议期间捕捉的视频数据然后可以经由网络120被通信至其相应设备(例如，用户102的视频可以在视频会议期间被通信至设备108)。

视频会议设备106、108还可以分别包括显示器116、118。在视频会议期间，相机110捕捉的视频数据可以由显示器118进行显示。类似地，相机112捕捉的视频数据可以由显示器116进行显示。例如，如果用户102位于相机110的前方，则用户102可以在视频会议期间出现在显示器118上。在视频会议包括音频的实施方式中，设备106、108中的一个或其二者可以包括麦克风和扬声器(未示出)。与设备106、108之间的视频传输类似，来自设备中的一个的麦克风的音频数据可以被通信至另一个设备。该音频然后可以由接收设备经由扬声器进行播放。例如，用户102可以在视频会议期间说出“Hi,Bob”，这将被设备108向用户104进行重复。

服务器122可以对设备106、108以及系统100中的任意其它视频会议设备之间的视频会议进行协调。例如，服务器122可以向设备106、108提供有关视频会议的相对应设备的可用性的可用性数据。在一些实施方式中，用户102、104可以在服务器122上具有用户简档。用户简档例如可以包括有关用户的信息(例如，用户姓名、位置等)。在一些情况下，用户简档还可以包括该用户与之具有社交联系的其他用户的列表(例如，好友、亲戚、同事等)。这样的列表可以被服务器122用来向设备106、108提供可用性数据。例如，如果用户104经由服务器122与用户102进行社交联系，则服务器122可以向设备108提供有关用户102是否能够进行视频会议的可用性数据。如果用户102有空，则用户104可以操作设备18以请求与用户102进行视频会议。在这样的情况下，如果用户102接受了该请求，服务器122就可以将该请求转发至设备106并且发起视频会议(例如，通过在设备106、108之间中继视频和/或音频数据)。

在一种实施方式中，用户102、104可以操作设备106、108以指示其能够参与视频会议。例如，用户012可以登录到其在服务器122上的用户简档中并且将其简档状态变为“有空”。如果用户104也同时登录到其用户简档中，则用户104可以请求与用户102进行视频会议。然而，这种发起视频会议的方式通常要求提前计划(例如，用户102、104可以提前商定在某个时间进行登录)。此外，即使其状态指示其它，用户也可能并非有空。例如，假设用户102将其简档状态变为“有空”并且随后离开房间小憩。在这样的情况下，用户104在最终放弃之前可能会多次尝试发起与用户102进行视频会议。

在其它实施方式中，服务器122可以被配置为从设备106、108接收视频数据并且在视频会议被发起之前检测用户102、104的存在。例如，相机110可以捕捉用户102的起居室的视频并且向服务器122发送视频数据。作为响应，服务器122可以使用图像和/或面部识别来检测用户102在视频中的存在。在一些实施方式中，用户102可以向服务器122注册其图像作为其用户简档的一部分。服务器122然后可以将所注册的图像与视频数据进行比较以确定用户102是否存在。在一些情况下，服务器122还可以被配置为检测没有用户简档的用户的存在。例如，假设用户102的好友进入房间并且在服务器122上没有用户简档。在这样的情况下，服务器122仍然可以检测到在所接收的视频中有人存在。服务器122可以向其它相对应的视频会议设备提供已经检测到人的指示。例如，用户102存在于相机110前方的指示可以由服务器122发送给设备108。

服务器122提供的一种可能的存在指示可以为化身的形式。如这里所使用的，化身是指用来表示在视频流中检测到的人的图像。在一些情况下，化身可以是用户的实际图像。例如，用户102可以将其自己的照片上传至其在服务器122上的用户简档。当服务器122检测到其存在时，该照片可以被服务器122提供至设备108以向用户104通知用户102有空进行视频会议。在其它情况下，化身可以是任意其它类型的图像(例如，用户102可以被表示为动物、卡通角色等)。在所表示的用户被服务器122识别的情况下，用户的姓名或屏幕名可以结合该化身被提供。在一些实施方式中，服务器122也可以提供背景图形以表示用户的周边。化身可以作为静态图像出现或者可以关于所表示的周边而跨越背景移动。例如，如果其相对应的用户走过房间，则化身可以出现为跨越背景图形走动。

在一个示例中，假设用户102、104还没有发起视频会议，但是他们各自的设备106、108被保持活跃。服务器122可以在设备108上将用户102的起居室表示为森林画面。如果用户102进入起居室，则服务器122可以检测到用户102的存在并且更新该森林画面以显示麋鹿—用户102的化身。因此，用户102的存在可以被传递给用户104而不实际地示出用户102或者其实际的周边。

在一些实施方式中，服务器122可以被配置为对所接收到的视频和/或音频流内的免提命令进行解释。免提命令例如可以是语音命令(例如，用户所讲出的某个单词或短语)和/或视觉命令(例如，特定手势或身体移动)。例如，用户104可以向用户102的化身挥手以发起视频会议。在另一个示例中，用户104可以通过讲出短语“Hi,Bob,want tochat？”而请求与用户102进行视频会议。服务器122可以对免提命令进行解释以执行与视频会议相关联的任意类型的功能。在非限制示例中，服务器122可以解释免提命令以请求视频会议、接受视频会议、改变音频的音量(例如，使得音量增大、减小或静音)、输入仅音频或视频模式(例如，仅来自设备106的音频被提供给设备108，仅来自设备108的视频提供给设备106，等等)、结束视频会议、执行简档相关动作(例如，改变化身)或者循环通过表示来自不同视频会议设备的场景的背景图形。

关于服务器122所描述的一些或全部功能都可以被集成到设备106、108之中。例如，设备106自身可以被配置为解释来自用户102的免提命令。在另一个示例中，用户的化身和/或背景可以由设备106、108中的一个存储并提供给其它设备。在一些实施方式中，甚至可以不使用服务器122来进行视频会议。例如，设备106可以在没有对视频会议进行协调的服务器122的情况下通过网络120直接与设备108进行通信。

现在参考图2，示出了根据一种实施方式的用于在视频会议系统中使用化身的过程200的说明性流程图。过程200可以由与视频会议相关联的任意电子设备来实施。例如，过程200可以由终端用户视频会议设备或者对终端用户设备之间的视频会议进行协调的视频会议服务器来执行。在各种实施方式中，过程200可以被实施为使得电子设备的一个或多个处理器执行过程200的机器指令。例如，视频会议服务器可以执行存储在存储器中的软件以执行过程200。

过程200包括接收视频数据(框202)。该视频数据可以是由用于终端用户的视频会议设备的一个或多个相机生成的视频流或其它形式的视频。在一些情况下，该视频数据可以直接从一个或多个相机接收。例如，终端用户的视频会议设备可以接收该视频数据。在其它情况下，可以经由网络接收该视频数据。例如，视频会议服务器可以经由网络从终端用户的视频会议设备接收该视频数据。在又另一个示例中，视频数据可以被另一个终端用户设备接收(例如，来自第一终端用户设备的视频数据可以被通信至另一个终端用户设备)。

过程200包括检测用户在该视频数据中的存在(框204)。在各种实施方式中，接收视频数据的设备可以使用图像和/或面部识别来检测用户的存在。接收设备可以对该视频数据进行分析以确定是否有人存在于该视频中和/或有多少人存在。例如，接收设备可以检测视频内的运动或者检测视频中类似人的形状。在一些实施方式中，接收设备可以使用面部识别来确定在视频中特定用户的存在。例如，假设用户向设备注册其肖像(例如，通过上传用户的图像，通过利用相机捕捉用户的肖像，等等)。在这样的情况下，该设备可以使用所注册的肖像来专门识别该用户。在另外的实施方式中，也可以识别非人的实体。例如，用户宠物的存在可以被检测并且以类似于人类用户的方式进行处理。

过程200包括确定用于表示所检测到的用户的化身(框206)。具有用户简档的用户可以指定一个或多个化身的集合来向视频会议系统的其他用户表示该用户。例如，用户可以将狼的图像指定为该用户的化身。如果用户已经经由图像和/或面部识别而被唯一识别，则该用户可以由其化身向视频会议系统的其它用户进行表示。在一种实施方式中，用户可以指定仅向某些用户呈现特定化身。例如，用户可以选择针对其好友被表示为蛇化身，但是针对其未婚妻则被表示为兔子化身。在其它实施方式中，可以代表所检测到的用户选择化身。例如，化身可以被随机选择或者基于已经在使用的化身进行选择(例如，如果第一个用户当前被表示为狼，则进入房间的第二个用户也可以被表示为狼)。以这种方式，被检测到但是未被识别的用户(例如，用户没有用户简档、用户的脸部被遮挡等)仍然可以向其他用户被表示为化身。

过程200包括向电子显示器提供化身(框208)。在一些实施方式中，表示所检测到的用户的化身可以被提供至视频会议设备以便进行显示。例如，在第一视频会议设备处用户的出现可以在第二视频会议设备的显示器上被表示为化身。在一些情况下，视频中用户周边的场景也可以被表示为背景图形。例如，用户的麋鹿化身可以被呈现为林地画面的一部分。该化身可以在背景图形内是静态的或者可以绕场景进行移动(例如，与在相机前方移动的用户成比例、随机地，等等)。在一些实施方式中，化身可以响应于来自其相对应用户的免提命令而作出反应。例如，被表示为鸟化身的用户可以拍动其翅膀而使得该鸟化身在背景图形内飞行。

现在参考图3，示出了根据一种实施方式的所发起的视频会议的图示300。如所示出的，第一视频会议设备或系统可以经由网络与第二视频会议设备或系统进行通信。视频会议服务器可以对两个终端用户系统之间的视频会议的发起进行协调和代理。

在所示出的示例中，第一终端用户系统可以显示第一背景图形(框302)。例如，可以在显示器上示出场地画面，允许第一终端用户系统改进其周边的气氛(例如，通过显示在审美上令人愉悦的图像替代聊天应用)。在一些实施方式中，图形可以对应于第二终端用户系统捕捉到的场景。例如，场地画面可以表示第二用户的卧室。在另一个示例中，场地画面可以表示来自第三视频会议系统的场景。

用户可以与第二系统位于相同房间之中(框306)。例如，用户可以坐在第二系统的相机前方的椅子上。第二系统可以在第二终端用户系统上显示第二背景图形，其表示第一用户系统所捕捉到的场景(框308)。例如，第二系统可以显示码头的画面以表示第一用户的起居室。第二背景图形可以响应于来自第二用户的请求而显示(例如，第二用户希望查看第一用户是否有空)，可以旋转的基础上进行显示(例如，可以定期循环表示用户好友的位置的背景)，或者随机进行显示。

在一些实施方式中，相应终端用户设备显示的背景可以由视频会议服务器来提供。例如，该服务器可以分析来自设备中的一个的视频数据并且将所捕捉的场景的图形表示提供至相对应的设备。如所示出的，第一用户可以进入处于第一系统前方的房间(框304)。服务器然后可以检测在所接收的视频中第一用户的存在(框310)。在第一用户具有用户简档的情况下，服务器还可以识别该用户并且更新该用户的社交联系的显示。例如，假设第一和第二用户具有社交联系(例如，第二用户处于第一用户的联系人列表上，这两个用户属于相同的社交网络群，等等)。在这样的情况下，该服务器可以向一个或多个其他视频会议设备提供第一用户的存在的指示以向其他用户通知第一用户有空进行视频会议。

服务器可以将所检测到的第一用户表示为化身并且使得第二系统的显示器示出该化身(框312)。例如，服务器可以将第一用户表示为鸟化身。在这样的情况下，在第二设备处显示的码头场景可以被服务器更新以示出鸟落在码头上。因此，第二用户可以接收到第一用户存在于第一视频会议设备前方的通知，不实际显示第一用户。

第二用户可以通过向第一用户发送请求来发起视频会议(框314)。在一些实施方式中，该请求可以响应于免提命令来发送。例如，第二用户可以向该鸟化身挥手和/或讲出第一用户的名字。该请求也可以响应于第二用户对键盘、触摸屏显示器、指示设备或类似用户接口可操作来发送。响应于接收到该请求，第一系统可以向第一用户通知视频会议正在被请求。例如，第一系统可以显示出图标、生成声音或者向第一用户提供某个其他形式的通知。

第一用户可以选择接受到来的对视频会议的请求(框316)。该接受可以以类似于请求命令的方式作出(例如，经由免提命令或者通过操作用户接口)。例如，第一用户可以通过向第一系统回以挥手来接受对视频会议的请求。

如果第一用户接受了该请求，则可以发起视频会议(框318)。在视频会议期间，服务器可以使得一个终端用户系统捕捉的视频和/或音频数据被中继到其它终端用户系统。例如，在第二系统上所显示的图形可以被第一系统捕捉的流视频所替代。类似地，第二系统捕捉的流视频可以在视频会议期间被提供至第一系统的显示器。

参考图4，示出了根据一种实施方式的处理电路400的详细框图。处理电路400可以是对视频会议进行协调的视频会议服务器(例如，图1的服务器122或另一个服务器)或另一个电子设备的组件。处理电路400包括处理器402和存储器404。处理器402可以是或者包括一个或多个微处理器、专用集成电路(ASIC)、包含一个或多个处理组件的电路、分布式处理组件的群组、用于支持微处理器的电路或者被配置为处理数据的其它硬件。处理器402还被配置为执行存储在存储器404中的计算机代码以完成并促成这里所描述的活动。存储器404可以是能够存储与这里所描述的活动相关的数据或计算机代码的任意的易失性或非易失性计算机可读介质。例如，存储器404被示为包括存在检测器414、命令解释器416、画面生成器418和会议协调器420，它们可以使用被配置为由处理器402执行的计算机代码(例如，可执行代码、对象代码、源代码、脚本代码、机器代码等)来实施。当由处理器402执行时，处理电路400被配置为完成这里所描述的活动。虽然在存储器404中所描绘的各种数据和软件被示为单个处理电路400的一部分，但是任意数量的处理电路可以存储并执行该数据和软件的部分。例如，命令解释器416可以由终端用户设备中的处理电路或作为视频会议服务器的一部分的处理电路400来执行。

处理电路400还包括用于支持计算机代码的存在检测器414、命令解释器416、画面生成器418和会议协调器420的执行的硬件电路。例如，处理电路400包括用于经由网络(即，网络接口)向其它设备提供视频和/或音频数据的硬件接口(例如，输出408)。处理电路400还可以包括例如用于从终端用户的视频会议设备接收用户简档数据410、流视频和/或音频数据以及一个或多个联系人列表412的输入406。在各种实施方式中，输入406可以是与输出408相同的硬件接口的一部分或者可以是分立接口。

用户简档数据410可以经由输入406从一个或多个用户电子设备接收并且存储在存储器404中。用户简档数据410例如可以被处理电路400用来跨越多个用户电子设备识别特定用户。例如，用户简档数据410可以包括具有视频会议设备的特定用户的账户数据。在一些实施方式中，用户简档数据410可以包括来自特定用户的一个或多个图像和/或音频文件。例如，用户可以将该用户的图像上传至处理电路400以用于在将来识别该用户。在另一个示例中，讲出某些词或短语的用户的音频记录也可以被存储为用户简档数据410的一部分。

用户简档数据410可以包括与用户简档相关联的一个或多个化身。在各种实施方式中，化身可以被用来在视频流未在视频会议设备之间共享的时间期间表示用户。与用户简档相关联的一个或多个化身可以由用户上传或者可以从用户简档数据410中的现有化身集合中进行选择。例如，用户可以上传定制图像以表示该用户。类似地，用户简档数据410可以包括一个或多个背景图形以表示用户的视频会议设备的相机所捕捉的场景。

还可以经由输入406从一个或多个终端用户设备接收联系人列表412并且将其存储在存储器404中。通常，联系人列表将用户简档与一个或多个其它用户简档相关。在一些实施方式中，用户简档可以具有多个联系人列表。例如，用户可以为其好友创建第一列表，为其同事创建第二列表，并且为其家人创建第三列表。在一些情况下，联系人列表可以对应于社交网络群组的成员。在一些实施方式中，用户的化身和/或背景图形可以由用户针对联系人进行分配。换句话说，用户可以指定特定化身和/或背景被用来针对特定联系人或联系人列表表示该用户。

根据各种实施方式，存储器404可以包括存在检测器414。存在检测器414被配置为分析视频数据以检测在视频中一个或多个用户的存在。存在检测器414可以经由输入406从视频会议设备接收视频数据。例如，视频会议设备的用户可以在相机前方走动。该相机捕捉的视频数据然后可以被处理电路400接收并且由存在检测器414进行分析。在一些实施方式中，存在检测器414可以通过检测视频内的移动来检测用户的存在。例如，视频可以是用户穿过房间走动并且存在检测器414可以确定人的形状正在视频内移动。

在一些实施方式中，存在检测器414可以对被确定在视频内存在的用户进行识别。存在检测器414可以使用面部识别和/或图像识别来识别特定用户。例如，存在检测器414可以将用户简档数据410中上传的图像与所接收到的视频进行比较。如果存在检测器414确定找到了匹配，则存在检测器414可以将该视频与所识别的用户相关联。因此，用户简档数据410内的信息可以与所检测的用户(用户的真实姓名、用户的屏幕名等)相关联。在一种实施方式中，存在检测器414可以分析终端用户设备捕捉的音频数据来检测用户的存在。例如，与用户简档相关联的语音数据可以与所接收到的音频数据进行匹配来识别用户。如果存在检测器414采用语音分析，则其可能除了分析视频数据之外或者替代分析视频数据来这样做。例如，用户可能准备参加万圣节聚会并且可能戴着面具。由于用户的脸部被遮挡，所以存在检测器414可能无法经由面部识别来识别出用户。然而，存在检测器414可以将所接收的音频中的用户语音与用户简档数据410中存储的音频数据进行匹配来识别该用户。在一些情况下，存在检测器414可以被配置为检测诸如用户的宠物之类的非人类实体的存在。

存储器404可以包括命令解释器416，其被配置为对经由输入406接收的命令进行解释。示例的命令包括但并不限于请求发起视频会议，接受这样的请求，添加、修改或删除用户简档数据410和/或联系人列表412的命令，终止视频会议的命令，以及改变针对另一个设备的音频和/或视频呈现的命令。在一些实施方式中，命令解释器416可以对从触摸屏显示器、键盘、鼠标或其它形式的指示设备接收的命令进行解释。在另外的实施方式中，命令解释器416可以被配置为对所接收的视频和/或音频内的命令进行解释。例如，命令解释器416可以分析视频会议设备的相机所捕捉的视频以检测用户的手势或运动。这样的手势或运动可以被命令解释器416解释为请求执行某个动作。类似地，所接收的音频流内的语音命令可以由命令解释器416进行检测。

存储器404可以包括画面生成器418。通常，画面生成器418被配置为生成要被提供至视频会议设备的显示数据。对于用户简档数据410中的用户简档，画面生成器418可以向用户的一个或多个联系人提供相关联的背景图形。该背景图形可以由画面生成器418提供给另一个视频会议设备。在一些情况下，该背景图形可以基于第一设备的相机是否活跃(例如，基于是否经由输入406从第一设备接收到视频数据)而被提供给第二视频会议设备。在其它情况下，背景图形无论其相对应的视频会议设备是否活跃都可以被提供。

画面生成器418可以从存在检测器414接收有关一个或多个用户的存在和/或一个或多个用户的身份的指示。在这样的情况下，画面生成器418可以将所检测到的用户表示为化身。如果用户已经被识别，则其化身可以由画面生成器418从用户简档数据410取得。画面生成器418还可以取得用户的屏幕名、真实姓名或者其它类型的标识符，并且将其作为所生成的画面的一部分进行提供。例如，用户的姓名可以随化身出现在画面上。如果用户被检测到但是未被识别出，则画面生成器418仍然可以将该用户表示为化身，但是还提供该用户无法被识别的标签。在一些实施方式中，画面生成器418可以被配置为分析所接收到的视频数据并且将用户的运动与用户相对应的化身相匹配。例如，如果用户在相机前方在房间走动，则画面生成器418可以使得用户的化身在背景画面上走动。

在一些实施方式中，画面生成器418可以将来自多个视频会议设备的场景聚合为单个画面。例如，画面生成器418生成的画面可以包括两个背景以表示来自两个不同视频会议设备的场景。在一些情况下，在单个画面上显示的背景的数量和选择可以由画面生成器418经由从命令解释器416所接收的命令来确定。例如，用户可以指定他希望在相同画面上对其好友Beth和Becca保持追踪。在其它情况下，画面生成器418可以随机选择要显示哪些背景。在一些实施方式中，画面生成器418可以定期地循环通过用户的联系人列表或用户联系人的子集。例如，画面生成器418可以提供第一联系人的背景并且在五分钟后提供第二联系人的背景。

在各种实施方式中，存储器404可以包括会议协调器420。通常，会议协调器420被配置为在两个或更多终端用户视频会议设备之间发起视频会议。例如，会议协调器420可以从命令解释器416接收发起视频会议的请求并且从画面生成器418接收有关哪些视频会议设备要包括在该视频会议中的指示。会议协调器420可以向任意视频会议设备提供请求，视频会议设备然后对其他一个或多个用户警告该请求。如果命令解释器416确定一个或多个所请求的视频会议设备已经接受了该请求，则会议协调器420可以通过在进行请求和接受的设备之间中继视频和/或音频流来发起视频会议(例如，通过用视频流替代画面生成器418所生成的画面)。类似地，会议协调器420可以从命令解释器416接收终止视频会议的命令。在这样的情况下，会议协调器420可以停止中继视频和/或音频流并且允许画面生成器向视频会议设备提供包括化身的显示数据。

图5是根据一种实施方式的图1中示出背景图形500和化身502的电子显示118的示例图示。如所示出的，背景图形500可以由视频会议服务器122提供至视频会议设备108以表示相机110的视野。例如，背景图形500可以包括比萨斜塔的描述。背景图形500可以由视频会议服务器122随机选择或者部分基于用户102的用户简档进行选择。如果用户102存在于相机110前方，则视频会议服务器122还可以随背景图形500一起提供化身502以表示所检测到的用户102的存在。例如，假设用户102已经在视频会议服务器122上的用户简档中指定了其名字为“Bob”并且该用户简档包括有关Bob的肖像的数据(例如，经由所上传的图像等)。视频会议服务器122可以识别用户102并且在显示器118上将化身502标记为表示Bob。在一些实施方式中，化身502可以在显示器118上模仿用户102的移动。例如，化身502可以在用户102在房间走动的情况下在显示器118上移动。在另一个示例中，化身502可以在用户102执行某个运动或手势的情况下执行某个动作(例如，朝月亮嚎叫)。

文本消息可以由视频会议服务器122结合背景和/或化身进行中继。例如，用户102可以操作视频会议设备106的键盘以向用户104询问Chan是否会参加聚会(例如，通过键入消息504)。消息504然后可以被视频会议服务器122作为在显示器118上所示出的画面的一部分来提供。

在一些实施方式中，在显示背景图形500的同时，可以在视频会议设备106、108之间发送音频流。例如，用户104在视频会议开始之前仅能够听到用户102。视频会议也可以是单向的(例如，用户102能够看到用户104，但是用户104在显示器118上被表示为化身)。

图6是示出多个窗口的电子显示118的另一个示例图示。在一些实施方式中，视频会议服务器122可以在同一画面内描绘来自多个视频会议设备的场景。例如，视频会议服务器122可以向视频会议设备108提供包括背景图形500、600和602的画面。背景图形500可以表示视频会议设备106，并且背景图形600和602则可以表示连接至视频会议服务器122的另外的视频会议设备。因此，用户104能够同时查看多个用户的可用性。

如所示出的，没有化身结合背景图形500进行显示，这指示用户102无法参加视频会议(例如，用户102不在相机110前方、相机110被关闭，等等)。类似地，化身604可以结合背景图形600示出以表明用户“Alan”能够进行视频会议。在一些实施方式中，用户的化身可以在另一个用户的背景上提供。例如，如果Alan存在于相机110前方，则化身604可以结合背景图形500提供。未被视频会议服务器122识别的用户也可以被表示。例如，化身606可以结合背景图形602被提供以表明未知用户处于相对应的相机前方。

该说明书中所描述的主题和操作的实施方式能够以数字电子电路来实施，或者以体现于有形介质上的计算机软件、固件或硬件来实施，它们包括该说明书中所公开的结构及其结构等同物，或者以它们中一个或多个的组合来实施。该说明书中所描述的主题的实施方式能够被实施为一个或多个计算机程序，即计算机程序指令的一个或多个模块，它们在一个或多个计算机存储介质上进行编码以便由数据处理装置来执行或者控制其操作。替选地或除此之外，该程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，其被生成以对信息进行编码以便传输至适当接收器装置而由数据处理装置执行。计算机存储介质可以是计算机可读存储设备、计算机可读存储衬底、随机或串行访问存储器阵列或设备，或者它们中一个或多个的组合，或者包括于它们之中。此外，虽然计算机存储介质不是传播信号，但是计算机存储介质可以是在人工生成的传播信号中编码的计算机程序指令的源或目的地。计算机存储介质可以是一个或多个单独组件或介质(例如，多个CD、碟片或其它存储设备)或者包括于其中。因此，计算机存储介质可以是有形且非瞬态的。

该说明书中所描述的操作可以被实施为由数据处理装置对存储在一个或多个计算机额可读存储介质上或者从其它源接收的数据所执行的操作。

术语“客户端”或“服务器”包括用于处理数据的所有类型的装置、设备和机器，作为示例包括可编程处理器、计算机、片上系统、或者上述中的多个或组合。该装置可以包括例如现场可编程门阵列(FPGA)或专用集成电路(ASIC)的专用逻辑电路。除了硬件之外，该装置还可以包括为所讨论的计算机程序创建执行环境的代码，例如构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行时间环境、虚拟机或者它们中的一个或多个的组合的代码。该装置和执行环境能够实现各种不同的计算模型基础架构，诸如web服务、分布式计算和网格计算基础架构。

计算机程序(也被称作程序、软件、软件应用、脚本或代码)能够以任意形式的编程语言进行编写，包括编译或解释语言、声明或过程语言，并且其能够以任意形式进行部署，包括作为独立程序或者作为适于在计算环境中使用的模块、组件、子程序、对象或其它单元。计算机程序可以对应于文件系统中的文件但并非需要如此。程序可以存储在保存其它程序或数据的文件的一部分之中(例如，标记语言文档中存储的一个或多个脚本)、存储在专用于所讨论程序的单个文件中、或者存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。计算机程序能够被部署为在一台计算机上执行或者在位于一个地点或跨多个地点分布并且通过通信网络互连的多台计算机上执行。

该说明书中所描述的过程和逻辑流程能够由一个或多个可编程处理器执行，所述一个或多个可编程处理器执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能。该过程和逻辑流程也能够由例如现场可编程门阵列(FPGA)或专用集成电路(ASIC)的专用逻辑电路执行，并且该装置也可以被实施为上述专用逻辑电路。

作为示例，适于执行计算机程序的处理器包括通用和专用微处理器，以及任意类型的数字计算机的任意一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或者其二者接收指令和数据。计算机的必要部件是用于依据指令执行操作的处理器以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括一个或多个大容量存储设备以便存储数据或者与之操作地耦合以从其接收数据或向其传输数据或者此二者，上述大容量存储设备例如磁盘、磁性光盘或光盘。然而，计算机不需要具有这样的设备。此外，计算机能够嵌入在另一个设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或者便携式存储设备(例如，通用串行接口(USB)闪存)，这仅是举出几个示例。适于存储计算机程序指令和数据的设备包括所有形式的非易失性存储器、介质和存储器设备，例如包括半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动盘；磁性光盘；以及CD-ROM和DVD-ROM盘。处理器和存储器可以被补充以专用逻辑电路或者合并于其中。

为了提供与用户的交互，本说明书中所描述的主题的实施方式能够在具有用于向用户显示信息的显示设备以及用户能够通过其向计算机提供输入的键盘和指示设备的计算机上实施，该显示设备例如CRT(阴极射线管)、LCD(液晶显示器)、OLED(有机发光二极管)、TFT(薄膜晶体管)、等离子、其他柔性构造、或其他监视器，该指示设备例如鼠标或轨迹球等。也能够使用其它类型的设备来提供与用户的交互；例如，提供给用户的反馈可以为任意形式的感知反馈，例如视觉反馈、听觉反馈或触觉反馈；并且来自用户的输入能够以任意形式被接收，包括声音、语音或触觉输入。此外，计算机能够通过向用户所使用的设备发送文档并且从其接收文档而与用户进行交互；例如，通过响应于从web浏览器接收的请求而向用户的客户端设备上的web浏览器发送网页。

本说明书中所描述的主题的实施例能够在计算系统中实施，该计算系统包括例如作为数据服务器的后端组件，或者包括例如应用服务器的中间件组件，或者包括例如客户端计算机的前端组件，或者一个或多个这样的后端、中间件或前端组件的任意组合，所述客户端计算机具有用户能够通过其与本说明书中所描述的主题的实施方式进行交互的图形用户界面或web浏览器。该系统的组件能够通过例如通信网络的任意形式或介质的数字数据通信进行互连。通信网络的示例包括局域网(LAN)和广域网(WAN)、互联网络(例如，互联网)以及端对端网络(例如，自组端对端网络)。

虽然该说明书包含了许多具体实施方式的细节，但是这些不应当被理解为是对任何发明或者可以请求保护的范围的限制，而是作为特定于特定发明的特定实施例的特征的描述。该说明书中以单独实施方式为背景所描述的某些特征也能够组合在单个实施例中实施。相反，以单个实施方式为背景所描述的各个特征也能够在多个实施方式中单独实施或者以任意适当的子组合实施。此外，虽然特征在上文中可以被描述为以某种组合发生作用并且甚至最初如此要求保护，但是来自所请求保护的组合的一个或多个特征在一些情况下能够脱离该组合并且所请求保护的组合可以针对子组合或子组合的变体。

类似地，虽然操作在图中以特定顺序进行描绘，但是这不应当被理解为为了实现所期望的结果而要求这样的操作以所示出的特定顺序或以连续顺序来执行，或者执行所有所图示的操作。在某些情况下，多任务和并行处理可能是有利的。此外，以上所说明的实施方式中的各个系统模块和组件的划分不应当被理解为在所有实施方式中要求这样的划分，并且应当理解的是，所描述的程序组件和系统一般能够共同集成在有形介质上实现的单个软件产品中或者被封装为多个软件产品。

因此，已经对该主题的特定实施例进行了描述。其它实施方式处于所附权利要求的范围之内。在一些情况下，权利要求中所记载的动作可以以不同顺序执行并且仍然实现所期望的结果。此外，附图中所描绘的过程并非必然要求所示的特定顺序或连续顺序来实现所期望的结果。在某些实施方式中，多任务和并行处理可能是有利的。

Claims

1.一种用于发起视频会议的方法，包括：

在处理电路处接收由数码相机捕捉的视频数据；

由所述处理电路对所述视频数据进行分析以检测用户的存在；

经由网络接口向远程设备提供显示数据，所述显示数据被配置为使得所述远程设备在显示器上显示化身，所述显示数据响应于检测到所述用户的存在而被提供；以及

通过向所述远程设备提供所述视频数据来发起所述视频会议。

2.根据权利要求1所述的方法，进一步包括：

分析所述视频数据以识别所述用户；以及

部分地基于所述用户的身份来选择所述化身。

3.根据权利要求2所述的方法，进一步包括：

由所述处理电路分析所述视频数据以确定第二用户的存在；

由所述处理电路分析所述视频数据以识别所述第二用户；

部分地基于所述第二用户的身份来选择第二化身；以及

其中所述显示数据进一步被配置为使得所述远程设备在所述显示器上显示所述第二化身。

4.根据权利要求1所述的方法，进一步包括部分地基于所述用户不可识别的确定来选择所述化身。

5.根据权利要求1所述的方法，进一步包括：

由所述处理电路分析所述视频数据以检测所述用户的手势；

由所述处理电路将所述手势与请求所述视频会议的命令相关联；以及

经由所述网络接口将所述请求提供至所述远程设备。

6.根据权利要求5所述的方法，进一步包括：

在所述处理电路处从所述远程设备接收第二视频数据；以及

分析所述第二视频数据以检测第二用户的手势，其中所述视频会议基于所述第二用户的所述手势是否与接受所述视频会议相关联而被发起。

7.根据权利要求1所述的方法，其中所述显示数据在所述视频会议发起之前被提供。

8.根据权利要求3所述的方法，其中所述第一用户和所述第二用户不是同在一处。

9.一种用于发起视频会议的系统，包括处理电路，所述处理电路可操作以：

接收由数码相机捕捉的视频数据；

对所述视频数据进行分析以检测用户的存在；

10.根据权利要求9所述的系统，其中所述处理电路进一步可操作以：

分析所述视频数据以识别所述用户；以及

部分地基于所述用户的身份来选择所述化身。

11.根据权利要求10所述的系统，其中所述处理电路进一步可操作以：

分析所述视频数据以确定第二用户的存在；

分析所述视频数据以识别所述第二用户；以及

部分地基于所述第二用户的身份来选择第二化身，其中所述显示数据进一步被配置为使得所述远程设备在所述显示器上显示所述第二化身。

12.根据权利要求9所述的系统，其中所述处理电路进一步可操作以：

分析所述视频数据以检测所述用户的存在；以及

部分地基于所述用户不可识别的确定来选择所述化身。

13.根据权利要求9所述的系统，其中所述处理电路进一步可操作以：

分析所述视频数据以检测所述用户的手势；

将所述手势与请求所述视频会议的命令相关联；以及

经由所述网络接口将所述请求提供至所述远程设备。

14.根据权利要求13所述的系统，其中所述处理电路进一步可操作以：

从所述远程设备接收第二视频数据；以及

15.根据权利要求9所述的系统，其中所述显示数据在所述视频会议发起之前被提供。

16.根据权利要求9所述的系统，其中所述处理电路进一步可操作以：

从麦克风接收音频数据；以及

分析所述音频数据以检测来自所述用户的语音命令，其中所述视频会议基于所述语音命令是否与接受所述视频会议相关联而被发起。

17.一种用于在第一和第二人之间发起通信会话的系统，包括：

第一处理电路，被配置为：

从对环境进行监视的视频相机接收视频信号；

检测所述第一人在所述环境中的存在；

传送所述第一人在所述环境中的存在的指示；和

第二处理电路，被配置为：

接收所述第一人的存在的指示；

向显示设备提供包括表示所述第一人的化身的显示数据；

接收来自所述第二人的用于发起与所述第一人的通信会话的请求；以及

所述通信会话是在所述第一和第二人之间发起的。

18.根据权利要求17所述的系统，其中来自所述第二人的请求经由与所述第二处理电路通信的相机所捕捉的手势而被接收。

19.根据权利要求17所述的系统，其中来自所述第二人的请求经由与所述第二处理电路通信的麦克风所捕捉的语音命令而被接收。

20.根据权利要求17所述的系统，其中所述显示数据在所述通信会话发起之前被提供。