CN111599012A

CN111599012A - 混合视觉通信

Info

Publication number: CN111599012A
Application number: CN202010249086.7A
Authority: CN
Inventors: S.卡伦
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2013-08-09
Filing date: 2014-08-07
Publication date: 2020-08-28
Anticipated expiration: 2034-08-07
Also published as: CN111599012B; DE102014110349A1

Abstract

一种用于在第一设备与第二设备之间的视觉通信的方法，包括：使用来自相机系统的数据以创建第一设备用户的三维网格模型，其中所述三维网格模型被制作为可用于存储在第二设备上供随后显示在第二设备上；在第一设备与第二设备之间的视觉通信对话期间，从传感器阵列接收传感器数据，该传感器数据包括捕获改变的第一设备用户的面部表情和运动的图像数据；使用图像数据确定三维网格模型更新；发送三维网格模型更新到第二设备供第二设备更新第一设备用户的三维网格模型的显示；以及从第二设备接收用于显示在第一设备上的二维视频流或者对第二设备用户的三维网格模型的更新中的至少一个。

Description

混合视觉通信

本申请是申请日为2014年8月7日、申请号为201410385592.3、发明名称为“混合视觉通信”的发明专利申请的分案申请。

相关申请的交叉引用

本申请要求被转让给本申请的受让人的、于2013年8月9日提交的临时专利申请No.61/864,446的权益，并且通过引用合并于此。

技术领域

本申请涉及混合视觉通信。

背景技术

现有视频通信系统和服务，诸如Skype^TM和Google Hangout^TM，在运行玩家应用的设备之间发送二维视频信息流。这样的视频通信系统典型地在设备之间发送与音频流配对的压缩的连续图像的视频流。供单个用户使用的大多数视频通信系统需要在包括相机和显示器的计算机上运行的玩家应用。计算机设备的例子可以包括具有安装在屏幕上方的相机的台式机或者膝上型计算机，或者具有嵌入位于上方的前盖的相机的移动电话。

虽然向用户有利地提供视频能力，但是现有视频通信系统具有若干缺点。例如，现有视频通信系统典型地需要高带宽并且是固有地高延迟，因为整个图像序列需要在发送信号到另一设备之前被生成和压缩。另外，对于低延迟和高质量应用来说，现有视频通信系统需要通信设备通过Wi--Fi、3G或者4G移动通信技术进行发送。

不论在台式机、膝上计算机还是移动电话上，视频通信装置中的另一个问题是，因为用户的注视方向是在设备的显示器上，其一般低于相机安装的地方，所以用户看起来好像在俯视它们经由视频正在通信的人。这一相机/显示器几何结构不一致使用户不能在眼睛看着彼此的同时进行会话。相关问题是，发送包括人的二维图像序列的视频还丢失关于他们的脸的三维深度信息。

还存在一些系统，它们可以发送用户的替身(alter ego)或者角色——通常称为化身(avatar)的图形表示，但是化身一般无法在通信期间传达用户的实际外表、面部表情和肢体运动。

因此，存在对于能够在降低带宽的同时显示用户实际外表、面部表情和实时运动的电视通信系统的需要。

发明内容

示范性实施例提供用于在第一设备与第二设备之间的视觉通信的方法和系统。示范性实施例的方面包括：使用来自相机系统的数据创建第一设备用户的三维网格模型，其中所述三维网格模型被制作为可用于存储在第二设备上以供随后显示在第二设备上；在第一设备与第二设备之间的视觉通信对话期间，从传感器阵列接收传感器数据，该传感器数据包括捕获改变第一设备用户的面部表情和运动的图像数据；使用图像数据确定三维网格模型更新；发送三维网格模型更新到第二设备以用于第二设备更新第一设备用户的三维网格模型的显示；以及从第二设备接收二维视频流或者对第二设备用户的三维网格模型的更新中的至少一个以显示在第一设备上。

根据此处公开的方法和系统，考虑在带宽受限的环境中流畅的通信，发送三维网格模型更新需要比发送图像序列小很多的带宽。另外，在第一设备上，在解释对于三维网格模型的改变和发送更新比捕获新的图像和压缩图像为图像序列方面存在低延迟。在第二设备上，与必须等待整个图像编码/压缩/发送/解压缩循环相反，三维网格模型或者混和形状的单个节点能够被一次更新。并且即使第二设备不支持三维视频通信，第二设备仍能够在通过传统的二维视频发送通信到第一设备的同时显示第一设备用户的三维网格模型。

更具体地，示范性实施例提供一种用于在第一设备与第二设备之间的视觉通信的方法，包括：使用来自相机系统的数据以创建第一设备用户的三维网格模型，其中所述三维网格模型被制作为可用于存储在第二设备上供随后显示在第二设备上；在第一设备与第二设备之间的视觉通信对话期间，从传感器阵列接收传感器数据，该传感器数据包括捕获改变的第一设备用户的面部表情和运动的图像数据；使用图像数据确定三维网格模型更新；发送三维网格模型更新到第二设备供第二设备更新第一设备用户的三维网格模型的显示，其中表示三维网格模型更新为以下其中之一：a)对于从检测到的第一设备用户的位置变化计算的三维网格模型的相对顶点位置的改变，和b)所选择的混和形状系数或者一个或多个所选择的混和形状的其它列举；以及从第二设备接收用于显示在第一设备上的二维视频流或者对第二设备用户的三维网格模型的更新中的至少一个

附图说明

本发明的总体发明构思的一些和/或其它特征和效用将从以下结合附图的详细说明中变得更加明显以及更加容易理解，附图中：

图1是示出混合视觉通信系统的示范性实施例的框图；

图2是示出提供在两个或多个设备之间的混合视觉通信的过程的框图；

图3是示出由三维模型元件创建用户的脸和头的3D网格模型的表示的框图；

图4是示出一系列所存储的表示面部表情的混和形状的图；和

图5是示出在第一设备与第二设备之间的三维和二维视觉模式的不同组合期间由混合视频通信装置执行的过程的图。

具体实施方式

现在将详细参考本发明总体发明构思的实施例，本发明总体发明构思的例子在附图中说明，其中贯穿全文同样的参考标记指代同样的元素。为了参考附图解释本发明总体发明构思，描述实施例如下。

本发明和实现其的方法的优点和特征可以通过参考以下实施例和附图的详细说明更加容易地理解。然而，本发明总体发明构思可以以许多不同的形式实现，并且应当不被释为限制于这里阐明的实施例。而是，提供这些实施例以使得本公开将是彻底的和完全的，并且将向本领域技术人员充分传达本发明总体发明构思的概念，并且本发明总体发明构思仅仅由所附权利要求定义。在附图中，层和区域的厚度为了清楚而可能夸大。

在描述本发明的上下文中(特别是后附权利要求的上下文中)使用术语“一”、“一个”和“所述”及类似的指代将被解释为既包括单数形式也包括复数形式，除非这里另有陈述或者清楚地由上下文表明不是如此。术语”包括“、“具有”、“包含”和“含有”将被解释为开放式术语(即，意味着“包括但不限于”)，除非另作说明。

术语“元件”或者“模块”，如这里所使用的那样，意指但是不局限于执行某些任务的诸如现场可编程门阵列(FPGA)或者专用集成电路(ASIC)之类的的软件或者硬件部件。元件或者模块可以有利地被配置为存在于可寻址存储介质中并且被配置为在一个或多个处理器上运行。因而，举例来说，元件或者模块可以包括诸如软件组件、面向对象的软件组件、分类组件和任务组件、过程、功能、属性、程序、子程序、程序代码节、驱动器、固件、微码、电路、数据、数据库、数据结构、表格、阵列和变量之类的组件。为所述组件和元件或者模块而提供的功能可以合并成更少的组件和元件或者模块，或者还被分成附加组件和元件或者模块。

除非以别的方式定义，否则这里使用的所有技术术语和科学术语具有与本发明所属的领域的技术人员通常所理解的相同的意义。应当注意，任意或者所有示例的使用，或者这里提供的示范性术语，仅仅意在更好地阐明本发明，而不对本发明的范围施加限制，除非另作说明。而且，除非定义不是如此，否则在通常使用的词典中定义的所有术语可以不被过度地解释。

示范性实施例提供一种在另一个设备上实时显示其中一个设备的用户的实际外表、面部表情和用户的运动的两个设备之间的、同时降低频宽的混合视觉通信方法和系统。另一方面，用户的外表、面部表情和运动可以通过传感器数据流而加强。

用户外表和带宽减小可以通过创建和使用被下载并存储在第二设备上供视觉通信对话期间使用的、用户的三维线框网格模型(以下简称三维网格模型)，而非发送二维视频流或者全三维网格模型来实现。在两个设备之间的视觉通信对话期间，从第一设备上的多个传感器收集传感器数据。传感器数据包括随着用户运动和改变面部表情而捕获用户的面部表情和运动的图像数据。在一个实施例中，传感器数据还可以包括与视觉通信对话的场景有关的其它传感器数据。其它传感器数据的例子可以包括用户的活动数据(例如，加速计数据、诸如脉搏率等等之类的生物测量数据)和环境条件(例如，温度、湿度和环境声音等级)。传感器数据可以被下采样和聚合以提供传感器数据更新。图像数据和，选择性地，传感器数据，可以用于确定三维网格模型更新以用于在第二设备上更新第一设备用户的3D网格模型的显示和/或更新3D网格模型显示在其中的设置。在一个实施例中，三维模型可以在第二设备上渲染以使得用户的脸看起来像直接看着第二设备的用户。

根据示范性实施例的另一方面，第二设备可以取决于第二设备的能力，将传统的二维视频流或者第二设备用户的三维模型更新二者之一及其他传感器数据发送给第一设备。

在第二设备发送第二设备用户的三维网格模型的又一实施例中，第一设备用户的眼睛可以被跟踪并且对于第二设备用户的三维网格模型进行相应变化以提供对于三维网格模型不同的透视图。因此，该实施例使设备的用户在视频呼叫期间通过运动视差效应能彼此面对面观看，即使在带宽受限的网络环境内也是如此。

图1是示出混合视觉通信系统的示范性实施例的框图。系统10可以包括第一设备10a和第二设备10b，它们经由网络12通信。第一设备10a和第二设备10b两者都可以包括相应存储器14和14’、至少一个处理器16和16’、输入输出设备(I/O)18和18’以及显示器22和22’。

存储器14和14’、处理器16和16’以及I/O 18和18’可以经由系统总线(未显示)耦接在一起。存储器14和14’可以包含包括不同存储器类型的一个或多个存储器，包括例如RAM、ROM、高速缓存、虚拟内存和闪速存储器。处理器16和16’可以包括具有一个或多个核的单个处理器或者具有一个或多个核的多个处理器。I/O 18和18’是输入信息和输出信息的元件的集合。包括I/O 18和18’的示范性元件包括用于经由网络12通信的扩音器、扬声器和无线网络接口控制器(或者类似的元件)。处理器可以运行管理硬件资源和执行基本任务的操作系统(OS)。OS的例子可以包括Symbian^TM、黑莓OS^TM、iOS^TM、Windows^TM和Android^TM。在一个实施例中，显示器22和22’可以与第一设备10a集成，而在另一实施例中，显示器22和22’可以在第一设备10a的外部。在一个实施例中，第一设备10a和第二设备10b可以包含任意类型的无线通信设备形成元素，包括笔记本或者膝上型计算机、平板计算机、移动手机、电视、机顶盒、可穿戴计算机和游戏机。

第一设备10a和第二设备10b经由其通信的网络12可以包含任意类型的无线网络，包括WLAN(无线局域网)、WiMAX(全球微波互联接入)(例如，3G/4G)、WAN(广域网)或者蜂窝网络。

根据示范性实施例，第一设备10a和第二设备10b可以使用混合视觉通信通信，因此还包括相应的混合视觉通信装置24和24’以及传感器阵列25和25’。在一个实施例中，传感器阵列25和25’可以包括任意数目的传感器(1--n)。传感器的示范性类型可以包括但是不局限于：诸如三维相机系统26或者二维相机系统28之类的图像传感器；诸如加速计、陀螺仪、磁力仪等等之类的运动传感器(未显示)；诸如心率传感器、皮肤电传感器、瞳孔扩张传感器、EKG传感器等等之类的生物测量传感器(未显示)；和诸如温度计和测高计、光传感器、湿度传感器、扩音器等等之类的环境条件传感器(未显示)。

根据示范性实施例，第一设备10a支持与第二设备10b的实时视觉通信。第一设备10a的用户(即，第一设备用户)的三维网格模型被创建，然后被下载并存储在第二设备10c上用于在视觉通信对话期间在第二设备10b上重放。网格或者线框模型是在三维计算机图形学中使用的物理对象(例如，用户)的视觉表示，在三维计算机图形学中物理对象的边缘被指定，在该边缘处在两个数学上连续平滑的表面相遇，或者在该边缘处对象的组成顶点使用直线或者曲线连接。在第二设备10b上存储三维网格模型消除了对于在各个视觉通信对话期间从第一设备10a发送二维视频流或者完全三维网格模型到第二设备10b的需要。在一个实施例中，混合视觉通信装置24和24’可以包括用于存储用户(例如，在第一设备用户的联系人列表上所包括的那些)的三维网格模型的各个三维模型数据库27和27'。在一个实施例中，三维网格模型可以表示用户的脸和头，而在另一实施例中，三维网格模型也可以表示用户的躯干或者甚至整个身体。

在视觉通信对话期间，混合视觉通信装置24可以收集来自传感器阵列25的传感器数据，包括来自捕获第一设备用户的面部表情和运动的三维相机系统26的图像数据和背景图像，及与视觉通信对话的场景有关的其他传感器数据。然后，图像数据和其它传感器数据可以用于确定对存储在第二设备10b上存储的三维网格模型进行的三维网格模型更新25。在一个实施例中，传感器数据被首先下采样并且聚合以生成传感器数据的子集。根据示范性实施例，传感器数据的子集包括对于传感器数据的选择性改变，这里称为传感器数据更新31。在一个实施例中，至少图像数据和，选择性地，传感器数据更新用于确定三维网格模型更新25。在一个实施例中，这在第一设备10a上执行并且仅三维网格模型更新25被发送给第二设备10b。在另一实施例中，图像数据用于确定三维网格模型更新25，并且三维网格模型更新25和传感器数据更新31两者被发送给第二设备10b。然后，第二设备10b可以利用传感器数据更新31加强三维网格模型更新。

第二设备10b可以使用混合视觉通信装置24’接收并且重放从设备10a接收的三维模型更新25。可替换地，第二设备10b可以使用传感器数据更新31以加强三维网格模型的显示，如下所述。然而，在示出的实施例中，第二设备10b仅仅支持二维视频通信并且通过标准二维相机系统28和二维传感器29发送二维视频流35。在替换实施例中，第二设备10b还可以包括三维相机系统以支持与设备10a的三维视觉通信。

在一个实施例中，三维网格模型可以通过利用三维相机系统26对第一设备用户照相来创建。所得到的图像数据可以由三维模型元件34使用以创建数字的三维网格模型。在一个实施例中，三维相机系统26可以包含结构化光源30和三维(深度)传感器32。通过使对象上的结构化光源28(例如，条纹图案)发光，三维传感器32可以收集关于对象的形状以及对象的外貌(即，颜色)(可选地)的数据。在另一实施例中，三维相机系统26可以包含与传统的二维传感器组合的三维传感器。在另一实施例中，三维相机系统26可以包含飞行时(ToF)相机，其基于已知的光速解出距离，并且针对图像的每个点测量相机与对象之间的光信号的飞行时间。在又一个实施例中，在没有需要的有源光的情况下三维相机系统26可以包含立体摄像机。

在一个实施例中，混合视觉通信装置24和24’与三维模型元件34和34’可以实现为软件应用/组件。在另一实施例中，所述组件能够实现为硬件和软件的组合。虽然混合视觉通信装置24和24’与三维模型元件34和34’被显示为单个元件，但是每个的功能可以组合成更少或者更多数量的模块/元件。例如，在一个实施例中，混合视觉通信装置24可以本地存储于第一设备10a上，而三维模型元件34可以存储于外部服务器上。在服务器实施例中，用户的图像数据可以被发送到服务器以创建3D网格模型。然后，其它设备，诸如第二设备10b，可以接入服务器以下载第一设备用户的三维网格模型供存储在三维模型数据库27’中。

图2是示出用于提供在两个或多个设备10a和10b之间的混合视觉通信的过程的框图。在一个实施例中，所述过程可以通过使用来自相机系统的数据以创建第一设备用户的三维网格模型开始，其中三维网格模型被制作为可用于存储在第二设备上供随后显示在第二设备上(块200)。

如众所周知的那样，数字三维网格或者线框指的是包括在三维计算机图形学和实体建模中定义对象的形状的顶点或结点、边和面的集合的多边形网格。在一个实施例中，块200可以响应于从三维相机系统26接收到数据由三维模型元件34执行。

根据示范性实施例，其中第一设备包括具有三维相机系统26的移动手机，结构化光源30和三维传感器32可以一起使用以收集第一设备用户的深度图。在一个实施例中，三维网格模型可以创建用户的脸和头，而在另一实施例中，三维网格模型还可以包括用户的躯干或者其部分。用户可以被提示将移动手机移动到用户周围不同的位置，例如，至少，混合视觉通信元件24可以提示用户将设备在用户的头周围运动以及进行不同的表达以捕获用户的头的各种角度和用户的脸的表情。

图3是示出由三维模型元件34创建的用户的脸和头的三维网格模型300的示范性表示的图。在一个实施例中，第一设备用户的三维网格模型300可以存储在三维模型数据库27’中的不确定位置(neutral position)上。

三维模型元件34也可以存储不同的面部表情(以及可选地，不同的身体位置)作为表示面部表情的混和形状，以及可选地存储身体位置作为具有混和形状系数的线性组合。

在一个实施例中，用户的脸的颜色图像和/或一个或多个纹理图还可以与三维网格模型关联。然后，三维模型元件34可以使用结果数据以便通过使图像与用户的脸和头的深度图相配(fit)来创建灵活的至少人脸和头的多边网格表示。

图4是示出一系列所存储的表示面部表情的混和形状的图。在一个实施例中，混和形状400可以存储在情绪状态数据库29’中作为预定数目(例如，48)的关键姿态(keypose)。在一个实施例中，混和形状480存储在情绪状态数据库29和29’中。

再次参考图1，当通过混合视觉通信元件24和24’发起视觉通信对话时，混合视觉通信元件24可以查询混合视觉通信元件24’以确定第一设备用户的三维网格模型是否存储在第二设备10b上。如果不是，则三维网格模型(和任意关联的纹理图)可以被发送到第二设备10b并且存储在三维模型数据库27’中以供将来通信对话期间使用。

在三维模型创建元件34位于远离第一设备10a的实施例中，三维模型创建元件34可以在服务器或者其它远程计算机上创建三维网格模型，然后可以经由网络12发送三维网格模型到第一设备10a和/或第二设备10b，或者第二设备10b可以在与第一设备10a的初始对话之前某时或期间从服务器下载三维网格模型。

在第一设备10a和第二设备10b都支持三维视觉通信的实施例中，混合视觉通信装置24和24’可以在第一设备10a与第二设备10b之间的初始呼叫期间交换相应用户的三维网格模型。

再次参考图2，在第一设备10a与第二设备10b之间的视觉通信对话期间，混合视觉通信装置24可以从传感器阵列收集传感器数据，其中传感器数据可以包括捕获变化的第一设备用户的面部表情和运动的图像数据(块202)。在一个实施例中，图像数据可以包含由三维相机系统26和结构化光源30周期性地捕获的第一设备用户的深度图。

混合视觉通信装置24使用图像数据确定相应三维网格模型更新(块204)。也就是说，响应于从图像数据检测第一设备用户的面部表情变化和位置变化的相机系统26，混合视觉通信装置24可以确定三维网格模型的相应更新。

在一个实施例中，三维网格模型更新25可以被表示为由检测到的第一设备用户的位置变化计算的三维网格模型的相对顶点位置的变化。

然而，因为计算相对顶点位置变化会是计算上昂贵的，所以示范性实施例可以使用混和形状400来表示三维面部表情(例如，快乐的、悲伤的、右眼闭着的等等)或者甚至三维身体姿态(例如，右胳膊向上)。因此，在另一实施例中，三维网格模型更新25可以在之后被表示为选择的混和形状系数或者一个或多个选择的混和形状的其它列举(enumeration)。

在视觉通信对话期间，混合视觉通信装置24可以接收由三维相机系统26周期性地捕获的第一设备用户的深度图。然后，混合视觉通信装置24可以使用深度图以从情绪状态数据库29中检索一个或多个所存储的混和形状400。然后，在最小误差阈值内匹配的(多个)混合形状的系数可以被用作三维模型更新25。

三维网格模型更新可以被发送到第二设备供第二设备更新第一设备用户的三维网格模型的显示(块206)。在一个实施例中，在第二设备上更新三维网格模型的显示可以包括更新三维网格模型本身、更新三维网格模型覆盖其中的背景、或者其组合。应当注意到，在一个实施例中，从第一设备发送到第二设备的不是视频，而是数据。在第二设备上，接收到的数据通过将数据逐帧制作为动画而被转化为视频以供显示。

在一个实施例中，所述图像数据可以包括第一设备用户的背景的至少一部分的图像。根据示范性实施例的一个方面，背景的一个或多个图像可以从第一设备10a发送到第二设备10b以使得存储在第二设备10b上的三维网格模型可以在视觉通信对话期间当显示在第二设备10b上的时候被叠加到背景上。在一个实施例中，背景的图像可以在视觉通信对话的一开始就被发送到第二设备10b。然后，所述背景能够被存储为三维网格模型叠加于其上的纹理或者图像。在另一实施例中，在传输带宽不是问题的环境中背景的视频可以以流的形式发送到第二设备10b。

在一个实施例中，为了更进一步降低频宽，第一设备10a可以随着第一设备用户的位置的变化被检测到而向第二设备10b发送对于背景的部分的选择性更新。例如，随着第一设备用户转头，先前模糊的背景部分将显现。然后，混合视觉通信装置24可以发送这些新显现的背景部分到第二设备10b作为对供显示的背景的更新。

一旦第二设备10b接收到三维模型更新25，混合视觉通信装置24’就使用三维模型更新25进行动画制作、渲染或者修改在第二设备上显示的三维网格模型的重放，以实时表达感知到的情绪状态和/或用户的身体位置。如果三维模型更新25包含对顶点的变化，则混合视觉通信装置24’使用三维模型更新25更新三维网格模型的顶点。如果三维模型更新25包含混和形状系数，则混合视觉通信装置24’使用混和形状系数以从情绪状态数据库29’选择混和形状或者关键姿态，然后插入到原始三维网格模型的自然表情与选择的关键姿态、或者先前的关键姿态与所选择的关键姿态之间。在一个实施例中，用于用户的三维网格模型的一个例子是使用三维网格模型作为用于识别或者认证用户的可靠签名。

在视觉通信对话期间，第一设备可以从第二设备接收二维视频流或者对第二设备的第二用户的三维网格模型的更新中的至少一个以供显示在第一设备的显示器上(块208)。

根据一个实施例，混合视觉通信装置24和24’可以能够也取决于设备的能力将图像的标准二维流35流化，从而使用2D/3D视频通信。这将使不具有必需的三维相机系统的用户能够与具有更高级系统的用户通信。

当设备装备有三维相机系统26时，第一设备可以支持三维视频通信和二维视频通信两者。同样，第二设备可以支持三维视频通信和二维视频通信两者。根据示范性实施例的一个方面，混合视觉通信装置24和24’可以使用户能够选择性地在三维视觉模式与二维视觉模式之间依照要求来回切换。

根据示范性实施例的再一方面，用户的三维网格模型的重放可以使用传感器数据更新31的流来加强以供关于三维网格模型的附加图形元素的显示。这样的加强可以在第一设备10a或者第二设备10b上执行，如下所述。

参照图2，除了从传感器阵列接收图像数据之外(块202)，混合视觉通信装置24还可以接收与视觉通信对话的场景有关的其它传感器数据，包括第一设备用户的活动数据以及环境条件(块210)。

在一个实施例中，第一设备用户的活动数据可以从包括可以用来确定第一设备和/或第一设备用户的运动的加速计、陀螺仪、磁力仪的一个或多个的活动传感器以及包括任意一个可以用于确定第一设备用户的生物测量数据和感知的情绪状态的心率传感器、皮肤电传感器、瞳孔扩张传感器、EKG传感器的生物测量传感器处收集。环境条件数据可以从包括温度计、测高计、光传感器、湿度传感器、扩音器等等的一个或多个的环境条件传感器处收集。

另一个传感器数据可以被下采样和聚合以提供传感器数据更新(块212)。包括传感器阵列25的传感器中的每一个可以以各种速率捕获不同类型的传感器数据。例如，加速计可以以100赫兹-200赫兹捕获加速计数据，而温度计可以以1赫兹或者更低来采样温度数据。

根据示范性实施例的一个方面，对于以高频率捕获/采样的传感器数据来说，混合视觉通信装置24或者分离的数据管理器可以下采样传感器数据到低速率。对于一些类型的传感器数据来说，混合视觉通信装置24可以将传感器数据平均以更进一步降低数据采样的数目。

然后，混合视觉通信装置24可以将下采样的传感器数据从各个传感器聚合到较低数目的总采样供通过网络任意发送。因而，假定在特定时间周期期间接收到总共M个数据采样，下采样和聚合可以降低总数到N个传感器数据更新以提供M×N数据变换，其中N远远小于M。例如，以100Hz频率收集的心率数据能够被变换为指示感知的情绪的单个变量，感知的情绪例如，人是否变得高兴/生气/紧张。

如果传感器数据更新31将被发送到第二设备10b，那么N个(而非M个)传感器数据更新31就在之后被编码为分组，并且根据定义的通信协议被发送到第二设备10b。包含传感器数据更新31的分组可以与以不同频率发送的三维模型更新25交织。在第二设备上，混合视觉通信装置24’可以根据通信协议对数据采样分组解码。

基于可以在第一和第二设备之间交换的设备配置和/或可用带宽，确定是在第一设备10a还是在第二设备10b上执行三维模型加强(块214)。

响应于确定三维模型加强将在第二设备10b上执行，传感器数据更新31在三维网格模型更新的发送期间与三维网格模型更新交织(块216)。在该实施例中，传感器数据更新可以被发送给具有三维模型更新25的第二设备(和/或远程服务器)作为流化的元数据的附加维度以加强第二设备10b上的三维网格模型的重放。

响应于确定三维模型加强将在第一设备10a上执行，三维网络模型更新通过传感器数据更新加强以供关于三维网格模型的附加图形元素的显示(块218)。

在该实施例中，传感器数据更新31可以在第一设备10a上使用作为到情绪状态数据库29的附加输入以在三维模型更新25被发给第二设备10b之前加强感知的用户的情绪状态。例如，如果传感器数据更新31指示环境温度相对较热，并且生物测量传感器指示用户脉搏较快，那么可以推断第一设备用户很可能正在出汗。因此，该信息可以用来在在第二设备10b上重放期间在三维网格模型上显示汗滴。因此，情绪状态数据库29和/或29’还可以包括与混和形状关联的传感器值的矩阵以基于传感器数据更新31的当前值指示用户的不同状态(例如，热/出汗的、冷的、紧张的、烦乱的、快乐的、悲伤的等等)。另举一例，来自环境传感器的数据可以指示在第一设备用户的位置处正在下雨。然后，该信息可以用来在第二设备上的三维网格模型重放期间显示云和雨滴。

图5是示出在第一设备10a与第二设备10b之间的三维视觉模式和二维视觉模式的不同组合期间由混合视频通信装置24执行的过程的图。在呼叫初始时，混合视觉通信装置24基于当前选择或者视觉视频模式设置在三维视觉模式中发送三维模型更新25(并且，选择性地，传感器数据更新31)或者在二维视觉模式中发送二维视频流27到第二设备(块500)。

在一个实施例中，视觉模式的当前选择可以由用户手动地选择或者由混合视觉通信装置24自动地选择。例如，混合视觉通信装置24可以确定第一设备10a包括三维相机系统并且然后可以使用户能够选择三维视觉模式或者二维视觉模式(例如，经由GUI或者菜单)。如果混合视觉通信装置24发现设备仅仅包括二维相机系统，则混合视觉通信装置24可以默认为二维视觉模式。

根据又一实施例，混合视觉通信装置24可以基于可用带宽向用户自动地建议二维视觉模式或者三维视觉模式，和/或基于在视觉通信对话期间对带宽的变化动态地改变显示方式。

如果当前选择或者默认视觉模式设置是三维视觉模式，则混合视觉通信装置24还可以在第二设备上轮询它的对应方以确定三维网格模型是否在另一个设备上存在，或者第二设备可以执行查找以基于呼叫者的ID看看三维网格模型是否存在，并且如果不存在的话，则请求从第一设备发送三维网格模型。如果第二设备指示在第二设备上存在三维网格模型，则混合视频通信装置24不必发送三维网格模型以节省带宽。

混合视觉通信装置24还确定第二设备10b的当前视觉模式(块502)。这可以通过第二设备向第一设备通知第二设备的当前显示方式来完成。在该交换期间，混合视觉通信装置24和24’也可以交换模式能力，例如，所述设备是否支持三维显示方式和二维显示方式，或者仅仅支持二维显示方式。在又一实施例中，混合视觉通信装置24和24’还可以交换设备配置信息，其可以存储为元数据，诸如图像传感器、光源、带宽信息等等。

响应于确定第二设备仅仅支持二维视频通信或者处于二维视觉模式，混合视觉通信装置24在第一设备的显示器上显示从第二设备接收的二维视频流(块504)。

响应于确定第二设备支持三维视频通信且处于三维视觉模式，混合视觉通信装置24在第一设备的显示器上显示第二用户的三维网格模型，其可以已经先前存储在第一设备上(块506)。

在一个实施例中，块406可以包括两个子步骤。第一子步骤可以包括响应于从第二设备接收三维网格模型更新来更新第二用户的三维网格模型的显示(块506A)。在第一设备10a上，混合视觉通信装置24可以渲染三维网格模型以使得第二设备用户的脸看起来是直接看着第一设备用户。一旦混合视觉通信装置24接收到位置更新，混合视觉通信装置24就可以使用三维网格模型更新以修改可以本地地存储在第一设备10a上的第二用户的三维网格模型的表情和方向。在呼叫期间，每个用户的部分的彩色图像可以以相应的三维网格模型的多边形内的颜色纹理粒度在它们将发送到的设备上被选择性地更新。优先地，可以更加经常地更新较重要或活跃的区域。

根据又一实施例，第二子步骤可以包括跟踪第一用户的脸相对于第一设备的运动，以及重新定向第二用户的三维网格模型的显示以在第一设备的显示器上提供三维网格模型的不同的透视图(块506B)。

这被称作运动视差效应，并且是在真实的面对面交互中发生的。视差是在沿两个不同的视线看到的物体的视位置(apparent position)的差，并且可以由那两条线之间的倾角测量。这可以通过混合视觉通信装置24使用三维传感器32(诸如运动视差三维传感器或者立体传感器)跟踪第一用户的眼睛的位置，并且响应于第一设备用户的眼睛位置改变调整第二设备用户的三维网格模型的透视图来实现。在另一实施例中，可以使用注视跟踪器而不是三维传感器，或者除了三维传感器之外还可以使用注视跟踪器。

响应于第一设备上从三维视觉模式切换为二维视觉模式，混合视觉通信装置24可以将三维网格模型更新的流逐渐地与二维视频流混合并且发送到第二设备，直到仅仅二维视频流被发送(块508)。

示范性实施例提供超越传统的仅仅二维-二维视频通信系统的优点。例如，考虑在带宽受限的环境中流畅的通信，发送网格模型中的节点或者顶点的位置更新或者混合形状系数需要比发送图像序列带宽小的数量级。另外，在解释面部表情和用户的运动的改变以及发送三维网格模型更新上比捕获新的图像以及将它们压缩为图像序列的延迟要低。与必须等待整个图像编码/压缩/发送/解压缩循环相反，单个网格节点能够每次更新。

相对于表示来说，三维网格模型可以被渲染以直接看着观察者，与向下看相反。如果用户在视频呼叫期间移动他们的头，则用户的三维网格模型可以重新定向在另一个设备上以向观看者呈现新的信息，就像在真实生活中一样。此外，可能地，在安全解决方案中，三维网格模型能够用作用户的唯一签名。捕获并且选择性地更新用户的脸的颜色图像的能力可以妨碍使用用户的伪造模型以规避安全性的尝试。

已经公开了用于混合视觉通信系统的方法和系统。已经依照所示的实施例描述了本发明，并且能够有对实施例的变化，并且任意变化将在本发明的精神和范围内。例如，示范性实施例能够使用硬件、软件、包含程序指令的计算机可读介质或者其组合。根据本发明写的软件要么以诸如存储器、硬盘之类的计算机可读介质的形式存储，要么是CD/DVD-ROM，并且将由处理器运行。因此，可以由本领域普通技术人员进行许多修改而不脱离所附权利要求的精神和范围。

Claims

1.一种用于在第一设备与第二设备之间的视觉通信的方法，包括：

使用来自相机系统的数据以创建第一设备用户的三维网格模型，其中所述三维网格模型被制作为可用于存储在第二设备上供随后显示在第二设备上；

在第一设备与第二设备之间的视觉通信对话期间，从传感器阵列接收传感器数据，该传感器数据包括捕获改变的第一设备用户的面部表情和运动的图像数据；

使用图像数据确定三维网格模型更新；

发送三维网格模型更新到第二设备供第二设备更新第一设备用户的三维网格模型的显示，其中表示三维网格模型更新为以下其中之一：a)对于从检测到的第一设备用户的位置变化计算的三维网格模型的相对顶点位置的改变，和b)所选择的混和形状系数或者一个或多个所选择的混和形状的其它列举；以及

从第二设备接收用于显示在第一设备上的二维视频流或者对第二设备用户的三维网格模型的更新中的至少一个。

2.如权利要求1所述的方法，其中，从传感器阵列接收传感器数据还包括：接收与所述视觉通信对话的场景有关的其它传感器数据，包括第一设备用户的活动数据以及环境条件。

3.如权利要求2所述的方法，还包括：下采样并且聚合另一个传感器数据以提供传感器数据更新。

4.如权利要求3所述的方法，其中在一时段期间接收到总共M个数据采样，并且其中，下采样和聚合降低M个数据采样为N个传感器数据更新以提供M×N数据变换，其中N远远小于M。

5.如权利要求3所述的方法，还包括：在发送三维网格模型更新到第二设备期间将传感器数据更新与三维网格模型更新交织。

6.如权利要求3所述的方法，还包括：利用传感器数据更新加强三维网格模型更新，用于在发送三维网格模型更新到第二设备之前显示关于三维网格模型的附加图形元素。

7.一种用于在第一设备与第二设备之间的视觉通信的方法，包括：

使用图像数据确定三维网格模型更新；

发送三维网格模型更新到第二设备供第二设备更新第一设备用户的三维网格模型的显示，其中所述图像数据可以包括第一设备用户的背景的至少部分的图像，其中，所述背景被发送到第二设备以使得三维网格模型在视觉通信对话期间显示在第二设备上时被叠加在背景上，以及

8.如权利要求1所述的方法，还包括：在三维视觉模式期间发送三维网格模型更新以及在二维视觉模式期间发送二维视频的流到第二设备。

9.如权利要求8所述的方法，还包括：使第一用户能够选择性地在三维视觉模式与二维视觉模式之间来回切换。

10.如权利要求8所述的方法，还包括：基于可用带宽向用户自动地建议二维视觉模式或者三维视觉模式、以及基于在视觉通信对话期间对带宽的变化来动态地改变视觉模式中的至少一个。

11.如权利要求1所述的方法，还包括：

响应于确定第二设备仅仅支持二维视频通信或者处于二维视觉模式，在第一设备的显示器上显示从第二设备接收到的二维视频流。

12.如权利要求1所述的方法，还包括：

响应于确定第二设备支持三维视觉通信或者处于三维视觉模式：

在第一设备上显示第二设备用户的三维网格模型；

响应于从第二设备接收三维网格模型更新来更新第二设备用户的三维网格模型的显示；以及

跟踪第一设备用户的脸相对于第一设备的运动，以及重新定向第二设备用户的三维网格模型的显示以在第一设备的显示器上提供三维网格模型的不同的透视图。

13.如权利要求12所述的方法，其中，在第一设备上显示第二设备用户的三维网格模型还包括：在第一设备上渲染三维网格模型以使得第二设备用户的脸看起来直接看着第一设备用户。

14.如权利要求13所述的方法，还包括：在第一设备上从第二设备接收第二设备用户的脸的彩色图像并且在三维网格模型的多边形内选择性地以彩色纹理的粒度更新所述彩色图像。

15.一种用于在第一设备与第二设备之间的视觉通信的方法，包括：

使用图像数据确定三维网格模型更新；

发送三维网格模型更新到第二设备供第二设备更新第一设备用户的三维网格模型的显示，其中响应于在第一设备上从三维视觉模式到二维视觉模式的切换，将三维网格模型更新的流与二维视频流逐渐地混和并且发送到第二设备直到仅仅发送二维视频流；以及

16.一种用于在第一设备与第二设备之间的视觉通信的方法，包括：

使用来自包括一起收集第一用户的深度图的结构化光源和三维传感器的三维相机系统的数据以创建第一设备用户的三维网格模型，其中通过提示第一设备用户在第一设备用户的头周围移动第一设备，以及为第一设备用户制造不同的表情，以及捕获第一设备用户的头的不同角度和第一设备用户的脸的表情来创建所述三维网格模型，其中所述三维网格模型被制作为可用于存储在第二设备上供随后显示在第二设备上；

使用图像数据确定三维网格模型更新；

发送三维网格模型更新到第二设备供第二设备更新第一设备用户的三维网格模型的显示，以及

17.如权利要求1所述的方法，还包括：使用所述三维网格模型作为识别第一设备用户的签名。

18.一种设备，包括：

存储器；

处理器，耦接到所述存储器，所述处理器被配置为：

使用来自相机系统的数据以创建所述设备用户的三维网格模型，其中所述三维网格模型被制作为可用于存储在第二设备上供随后显示在第二设备上；

在所述设备与第二设备之间的视觉通信对话期间，从传感器阵列接收传感器数据，该传感器数据包括捕获改变的所述设备用户的面部表情和运动的图像数据；

使用图像数据确定三维网格模型更新；

发送三维网格模型更新到第二设备供第二设备更新所述设备用户的三维网格模型的显示，其中表示三维网格模型更新为以下其中之一：a)对于从检测到的第一设备用户的位置变化计算的三维网格模型的相对顶点位置的改变，和b)所选择的混和形状系数或者一个或多个所选择的混和形状的其它列举；以及

从第二设备接收用于显示在所述设备上的二维视频流或者对第二设备用户的三维网格模型的更新的至少一个。

19.如权利要求18所述的设备，其中，所述处理器还接收与所述视觉通信对话的场景有关的其它传感器数据，包括设备用户的活动数据以及环境条件。

20.如权利要求19所述的设备，其中，所述处理器下采样并且聚合其它传感器数据以提供传感器数据更新。

21.如权利要求20所述的设备，其中在一时段期间接收到总共M个数据采样，并且其中，处理器下采样并且聚合以减少M个数据采样为N个传感器数据更新以提供M×N数据变换，其中N远远小于M。

22.如权利要求20所述的设备，其中，所述处理器在发送三维网格模型更新到第二设备期间将传感器数据更新与三维网格模型更新交织。

23.如权利要求20所述的方法，其中，所述处理器利用传感器数据更新加强三维网格模型更新，用于在发送三维网格模型更新到第二设备之前显示关于三维网格模型的附加图形元素。

24.一种设备，包括：

存储器；

处理器，耦接到所述存储器，所述处理器被配置为：

使用图像数据确定三维网格模型更新；

发送三维网格模型更新到第二设备供第二设备更新所述设备用户的三维网格模型的显示，其中所述图像数据可以包括所述设备用户的背景的至少部分的图像，其中，所述背景被发送到第二设备以使得三维网格模型在视觉通信对话期间显示在第二设备上时被叠加在背景上；以及

25.一种存储在包含用于提供第一设备与第二设备之间的视觉通信对话的程序指令的非暂时性计算机可读存储介质上的可执行软件产品，所述程序指令用于：

使用图像数据确定三维网格模型更新；