CN103384306A

CN103384306A - 用于视频中眼睛对准的系统和方法

Info

Publication number: CN103384306A
Application number: CN2013101536492A
Authority: CN
Inventors: 西蒙·卢西
Original assignee: Commonwealth Scientific and Industrial Research Organization CSIRO
Current assignee: Commonwealth Scientific and Industrial Research Organization CSIRO
Priority date: 2012-05-04
Filing date: 2013-04-27
Publication date: 2013-11-06
Anticipated expiration: 2033-04-27
Also published as: US20150220773A1; TWI543624B; KR101598069B1; WO2013163699A1; KR20150030681A; JP2013235562A; US9424463B2; EP2661077A1; KR20130124188A; TW201401880A; CN103384306B; US20130293669A1

Abstract

一种用于图像处理的系统能够产生改进的视频会议体验。该系统包括：摄像机；与所述摄像机相邻的显示屏；耦合到所述摄像机和所述显示屏的处理器；以及耦合到所述处理器的存储器。所述处理器可执行的指令能够：从所述摄像机接收源图像；并且基于所述源图像来产生合成图像。所述合成图像与位于所述显示屏处的虚拟摄像机的视图相对应。

Description

用于视频中眼睛对准的系统和方法

技术领域

本发明涉及图像处理。更具体地，但非限制性地，本发明涉及视频中的眼睛对准。

背景技术

非语言交际线索在交流中扮演了重要的角色。眼睛对于交流而言特别重要并且将向他人提供注意力所集中的地方的指示。在一些文化中，不用眼睛看主要人物是表示尊敬，而在西方文化中，如果不进行直接的眼睛接触，则这个人可能被认为没有礼貌。

然而，在现有技术的视频会议系统上，非语言线索经常失真，从而导致误解或错误交流。

在最简单的形式中，视频会议系统包括一对摄像机和一对显示屏。每对摄像机和显示屏都指向用户之一。摄像机或者放置在显示屏旁边或者放置在显示屏之上，以便不阻挡屏幕，并且具有视频会议设施的现代便携式电脑通常包括永久设置在显示屏之上的集成摄像机。

这种系统的缺点是：当用户朝显示屏上其它用户的图像观看同时从第二位置记录时，眼睛线索会失真。因此，用户似乎没有进行直接的目光接触。或者，没有实际这样做时，用户可能看起来正在进行目光接触。

已经开发了减少该问题的专用硬件系统，如图1的视频会议系统100所显示的。系统100包括显示屏105和摄像机110。分束器115位于用户120与摄像机110之间，并且配置反射来自显示屏105的图像，同时允许来自用户120的光由摄像机接收。

诸如系统100之类的这些系统的缺点是这些系统成本高、脆弱并且笨重，则因此不能够集成到薄的便携式电脑显示屏中，并且当用户120的注意力在显示屏105的非中央部分时，这些系统不能很好地起作用。

其它类似形式的视频会议系统包括半透明屏幕，其中，摄像机位于半透明屏幕后面，并且具有类似的缺点。

发明内容

本发明的一些实施例的目的是：与上述现有技术相比，向消费者提供改进和优点，和/或克服且减轻现有技术中的一个或多个上述缺点，和/或提供有用的商业选择。

根据一个方面，本发明在于一种用于图像处理的系统，包括：

摄像机；

显示屏，其与所述摄像机相邻；

处理器，其耦合到所述摄像机和所述显示屏；以及

存储器，其耦合到所述处理器，所述存储器包括可由所述处理器可执行以进行以下操作的指令：

从所述摄像机接收源图像；并且

基于所述源图像来产生合成图像，所述合成图像与位于所述显示屏处的虚拟摄像机的视图相对应。

优选地，所述摄像机和所述显示屏被集成为单个结构。或者，所述摄像机和所述显示屏可以独立移动，并且所述存储器进一步包括用于对所述显示屏相对于所述摄像机的位置进行估计的指令。

优选地，产生合成图像进一步包括：

在所述源图像中检测脸部；并且

根据所述虚拟摄像机的位置来对所述脸部进行变换。

优选地，对所述脸部进行变换包括：对所述脸部应用主动外观模型(AAM)，并且修改所述AAM的参数。

优选地，产生合成图像还包括：

产生所述脸部的3D模型；并且

根据所述摄像机与所述虚拟摄像机之间的位移来旋转所述3D模型。

优选地，虚拟摄像机位置是相对于所述显示屏居中固定。或者，所述虚拟摄像机的位置是基于呈现在所述显示屏上的内容来确定的。

优选地，图像包括视频序列的图像。所述视频序列可以是二维视频序列或三维视频序列。

优选地，所述存储器进一步包括用于进行以下操作的指令：

从所述摄像机接收第二源图像；并且

基于所述源图像和所述第二源图像来产生第二合成图像，所述第二合成图像与所述虚拟摄像机的视图相对应。

根据某些实施例，产生所述合成图像包括：修改与所述源图像相关的元数据。优选地，所述元数据包括摄像机参数。

根据第二方面，本发明在于一种用于视频会议的计算机实现方法，包括：

在数据接口上从摄像机接收源图像；并且

由处理器基于所述源图像来产生合成图像，所述合成图像与位于显示屏处的虚拟摄像机的视图相对应，其中，所述显示屏与所述摄像机相邻。

根据某些实施例，所述方法还包括通过所述处理器，对所述显示屏相对于所述摄像机的位置进行估计。

优选地，产生合成图像还包括：

在所述源图像中检测脸部；并且

根据所述虚拟摄像机的位置来对所述脸部进行变换。

优选地，对所述脸部进行变换包括：将所述脸部应用主动外观模型(AAM)，并且修改所述AAM的参数。

或者，对所述脸部进行变换包括：将面部表情从所述脸部传递到头像图像。

优选地，产生所述合成图像还包括：

产生所述脸部的3D模型；并且

根据某些实施例，所述虚拟摄像机的位置是由所述处理器基于呈现在所述显示屏上的内容来确定的。或者，所述虚拟摄像机的位置是预先确定的。

优选地，图像包括视频序列的图像。所述视频图像可以为二维视频序列或三维视频序列。

优选地，所述方法还包括：

在数据接口上，从第一远程装置接收第一远程图像；

在所述显示屏上，显示所述第一远程图像；并且

在所述数据接口上，将所述合成图像发送到所述第一远程装置。

优选地，所述方法还包括：

在所述数据接口上，从第二远程装置接收第二远程图像；以及

在所述显示屏上，显示与所述第一远程图像相邻的所述第二远程图像。

优选地，所述方法还包括：

在所述数据接口上，将所述合成图像发送到所述第二远程装置。或者，所述方法还包括：

所述处理器基于所述源图像来产生第二合成图像，所述第二合成图像与位于所述显示屏处的第二虚拟摄像机的视图相对应；并且

在所述数据接口上，将所述第二合成图像发送到所述第二远程装置。

优选地，所述方法还包括：

从所述摄像机接收另一源图像；并且

基于所述源图像和所述另一源图像来产生另一合成图像，所述另一合成图像与所述虚拟摄像机的视图相对应。

附图说明

为了帮助理解本发明并且能够使本领域技术人员使用本发明，在下文中，参照附图并通过示例来描述本发明的优选实施例，其中：

图1示出了现有技术的视频会议系统；

图2示出了根据本发明实施例的用于视频处理的系统；

图3示出了图2系统的方框图；

图4还示出了图2的系统；

图5示出了根据本发明替代实施例的用于视频处理的系统；

图6示出了根据本发明实施例的视频会议系统；

图7示出了根据本发明实施例的视频处理方法；以及

图8示出了根据本发明实施例的计算装置。

本领域技术人员将会理解到，与附图中示出的部件设计的细微偏差不将减损本发明公开实施例的正常功能。

具体实施方式

本发明的实施例包括眼睛对准系统和方法。本发明的元素在附图中简明概要地示出，从而仅示出对于理解本发明实施例而言所需要的那些具体细节，使得根据说明书对本领域技术人员显而易见的过多细节不会使本申请混乱。

在本专利说明书中，诸如第一和第二、左和右、前和后、顶部和底部等形容词仅用于将一个元素或方法步骤与另一个元素或方法步骤进行区分，而不必要求由形容词描述的具体相对的位置或顺序。诸如“包含”或“包括”等词汇不用于限定唯一的一组元素或方法步骤。而是，这些词汇仅限定包括在本发明具体实施例中的最小一组元素或方法步骤。

对本说明书中任何现有技术的引用不是并且不应该当作现有技术形成一部分公知常识的确认或任何形式的暗示。

根据一个方面，本发明涉及一种用于图像处理的系统，包括：摄像机；与摄像机相邻的显示屏；耦合到摄像机和显示屏的处理器；以及耦合到处理器的存储器，该存储器包括可由处理器执行以进行以下操作的指令，如：从摄像机接收源图像；并且基于源图像来产生合成图像，该合成图像于位于显示屏处的虚拟摄像机的视图相对应。

本发明某些实施例的优点包括：改进的视频会议体验、改进的视频或基于图像的通信，以及较为简单且不太昂贵的视频采集或会议系统。此外，本发明可以应用于现有视频会议系统。

图2示出了根据本发明实施例的用于视频处理的系统200，并且图3示出了系统200的方框图。

系统200包括摄像机205和显示屏210。显示屏210显示图像，并且摄像机205采集视频。系统200可以例如用于视频会议，其中，第一用户是通过使用摄像机205来记录的，而第二用户是使用显示屏210来显示的。系统200或者可以用于发稿台型(news-desk style)记录，其中，用户读取在显示屏210上显示的手稿，同时使用摄像机205记录。

系统200还包括耦合到摄像机205和显示屏210的处理器305。处理器305还耦合到存储器310，该存储器310包括用于处理由摄像机205所记录得视频的指令代码315。

指令代码315包括用于从摄像机205接收源图像的指令，和用于基于源图像来产生合成图像的指令。源图像与合成图像形成视频序列。

如图4所示，摄像机205位于显示屏210之上。当用户直接朝显示屏210观看时(如光路410所示)，由于摄像机205与显示屏210之间的位置差，由摄像机205采集的源图像(由光路415所示的)给出用户俯视的外观。

合成图像于位于显示屏210处的虚拟摄像机相对应。虚拟摄像机位置可以居于显示屏210的中央，或在显示屏210的特定部分处，诸如应用窗口位置或其它感兴趣的区域。

图5示出了系统500，其中，虚拟摄像机位置的相对于显示屏不居于中央。系统500包括视频会议窗口505和呈现共享窗口510。系统500允许数字显示与该发言人的视频一起被看到。

在该情况下，摄像机205和虚拟摄像机在垂直和水平两个方向偏移，如虚拟摄像机偏移515所示的。

根据某些实施例，摄像机205与显示屏210之间的偏移，以及虚拟摄像机与摄像机205之间的偏移是已知的。这可以是针对特制装置或笔记本电脑的情形，其中，摄像机和显示屏被制成单个外壳或框架中。

虚拟摄像机位置则可以根据这个关系来预先确定。

根据可替代的实施例(未示出)，摄像机205与显示屏210之间的偏移是可变的。这例如是在个人计算机(PC)设置中的情况下，其中，摄像机205包括网络摄像机，网络摄像机经由软电缆连接到PC。在该情况下，指令代码315可以包括用于对显示屏相对于摄像机的位置进行估计的指令。或者，指令代码315可以包括用于从用户或另一个资源接收摄像机位置的指令。

随后，根据摄像机205的虚拟摄像机偏移来产生合成图像。使用摄像机205和虚拟摄像机的位置以及诸如封闭式处理算法(occlusion handling algorithms)等相关算法，合成图像可以根据现有技术的视图合成方法(例如，几何视图合成)来产生。

或者，视图合成可以特定于人脸。在这种情况下，在模型施加于其上的源图像中检测脸部。随后，根据摄像机205的虚拟摄像机偏移对脸部进行变换。

脸部的3D模型可以根据摄像机205的虚拟摄像机偏移来产生并且旋转。模型可以是主动外观模型(AAM)，其中，AAM的参数是根据摄像机205的虚拟摄像机偏移来进行修改的。随后，图像数据被渲染到经变换的AAM上。

根据替代的实施例，视图合成可以是基于头像的(avatar based)。用户的面部表情可以被传递给头像图像，头像图像已经根据摄像机205的虚拟摄像机偏移进行旋转。

头像可以是与用户的脸部图像的头像，或者是任何其它类型的头像。用户和/或头像的模型可以根据在PCT/AU2012/000295中所讨论的用户图像来产生。

根据某些实施例，仅在用户与摄像机205小于预定距离时，应用变换。当用户离摄像机205较远时，摄像机205与虚拟摄像机之间的角度减小。

如之前所讨论的，最简单形式的方法应用于单个图像。然而，根据某些实施例，方法可以同时应用于若干幅图像，这在下文进一步讨论。

图像可以包含视频序列，视频序列可以是二维或三维视频序列。在三维视频的情况下，对单个时间的全部图像(即，视图)同时进行处理。因此，变换可以选择为使图像朝虚拟摄像机移动并且保持三维尺寸数据。在多视图三维视频的情况下，有可能选择比中央视图更紧密地对应显示屏210的当前视图。

在三维视频的情况下，产生合成图像可以包括修改源图像的摄像机参数。

在二维视频的情况下，先前的图像可以与源图像共同用于产生合成图像。先前的图像可以提供与合成图像的封闭区域相关的数据，或可以用于改进合成图像的质量。

图6示出了根据本发明实施例的视频会议系统600。

视频会议系统600包括耦合到第一计算装置615a的第一摄像机605a和第一显示屏610a，第一计算装置615a、第一摄像机605a和第一显示屏610a共同在第一位置处形成视频会议系统第一部分。视频会议系统600还包括耦合到第二计算装置615b的第二摄像机605b和第二显示屏610b，第二计算装置615b、第二摄像机605b和第二显示屏610b共同在第二位置处形成视频会议系统600第二部分。

第一计算装置和第二计算装置经由诸如因特网等通信网络620进行耦合。

第一摄像机和第二摄像机605a、605b采集一系列图像，并且分别由第一计算装置和第二计算装置615a、615b根据第一摄像机605a与第一显示屏610a之间的距离、以及第二摄像机605a与第二显示屏610b之间的距离进行变换。随后，经变换的图像由计算装置615a、615b传送，以在显示屏610b、610a上显示。如本领域技术人员容易理解的，可以在传送之前对图像进行压缩。

通过对由两部摄像机605a、605b所采集的图像进行变换，对于不同位置的用户而言，有可能通过它们各自的显示屏610a、610b用眼睛看到对方，尽管摄像机605a、605b远离显示屏610a、610b。

根据某些实施例(未示出)，视频会议系统600还包括多方视频会议，多方视频会议至少包括第三位置处的第三计算装置。每个显示屏610a、610b显示彼此相邻的视频会议系统600的其他用户的图像。

第一计算装置605a可以将经变换的图像传送到第二计算装置605b和第三计算装置。或者，第一计算装置可以将经变换的图像发送到第二计算装置605b，并且产生第二组经变换的图像以及将第二组经变换的图像发送到第三计算装置。随后，第二组合成图像可以与位于显示屏处的第二虚拟摄像机视图相对应。

就这一点而言，本发明允许在若干个参与方之间进行视频会议，每个参与方接收专门为他或她配置的视频。

图7示出了根据本发明实施例的视频处理的方法。

在705，在数据接口上从摄像机接收源图像。源图像可以包含视频序列的图像。

在710，对显示屏相对于摄像机的位置进行估计。本领域技术人员很容易理解的，该步骤是可选的，这是因为由于显示屏和摄像机可以永久地安装在单个装置或框架中，其中，摄像机和显示屏相对位置是已知的。在显示屏上确定虚拟摄像机位置。

在715，在源图像中检测脸部。

在720，根据虚拟摄像机位置对脸部进行变换。这可以包括将三维模型应用于脸部并且旋转三维模型。

在725，根据源图像以及摄像机和虚拟摄像机之间的位移来产生合成图像。

本领域技术人员很容易理解的，步骤715和720是可选的。可以使用几何视图合成来对整个源图像进行变换，其中，脸部是以与图像其它部分相同的方式来进行变换的。

图8示意性地示出了根据本发明实施例的计算装置800。图2的系统200和图6的计算装置615a、615b可以与计算装置800相同或相似。类似地，图7的方法700可以通过使用计算装置800来实现。

计算装置800包括中央处理器802、系统存储器804和系统总线806，系统总线806对各种系统组件进行耦合，包括到将系统存储器804耦合到中央处理器802。系统总线806可以是若干类型总线结构中的任一类型，包括存储器总线或存储器控制器、外围总线和使用各种总线架构中任一种的局部总线。系统存储器804的结构对本领域技术人员是公知的，并且可以包括存储在只读存储器(ROM)中的基本输入/输出系统(BIOS)和存储在随机存取存储器(RAM)中的诸如操作系统、应用程序和程序数据等一个或多个程序模块。

计算装置800还可以包括各种接口单元和装置，以用于读出和写入数据。举例而言，数据可以包括上文所讨论的摄像机与显示屏之间的位移。

具体地，计算装置800包括硬盘接口808和可移动存储器接口810，硬盘接口808和可移动存储器接口810分别将硬盘驱动器812和可移动存储器驱动器814耦合到系统总线806。可移动存储器驱动器814的示例包括磁盘驱动器和光盘驱动器。驱动器及其相关联的计算机可读媒介(诸如数字通用光盘(DVD)816等)提供计算机可读指令、数据结构、程序模块和用于计算机系统800的其它数据的非易失性存储。出于说明的目的，仅示出单个硬盘驱动器812和单个可移动存储器驱动器814，并且根据这一理解，计算装置800可以包括若干相似的驱动器。此外，计算装置800可以包括用于与其它类型的计算机可读媒介接口连接的驱动器。

计算装置800可以包括用于将装置连接到系统总线806的额外接口。图8示出了通用串行总线(USB)接口818，USB接口818可以用于将装置耦合到系统总线806。例如，IEEE1394接口820可以用于将额外的装置耦合到计算装置800。额外装置的示例包括用于接收诸如图1的训练图像等图像或视频的摄像机。

通过使用去往一个或多个远程计算机或诸如服务器、路由器、网络个人计算机、对等装置或其它公共网络节点、无线电话或无线个人数字助理等其它装置的逻辑连接，计算装置800可以运行在网络环境中。计算装置800包括将系统总线806耦合到局域网(LAN)824的网络接口822。网络环境在办公室自动化系统、企业范围计算机网络和家庭计算机系统中很普遍。

诸如因特网等的广域网(WAN)也可以通过计算装置(例如，经由连接到串行端口接口826的调制解调器单元或经由LAN824)访问。

视频会议可以通过使用LAN824、WAN或它们的组合来执行。

应该理解的是，示出且描述的网络连接是示例性的并且可以使用在计算机之间建立通信链接的其它方式。假定存在诸如TCP/IP、帧中继、以太网、FTP、HTTP等各种公知协议中的任何一种，则计算装置可以运行在客户端-服务器结构中以允许用户从例如基于网络的服务器检索数据。

计算装置的操作可以通过各种不同的程序模块来进行控制。程序模块的示例为执行具体任务或执行具体抽象数据类型的例程(routine)、程序、对象、组件和数据结构。本发明还可以通过其它计算机系统配置(包括便携式装置、多处理器系统、基于微处理器或可编程的消费电子产品、网络PC、迷你计算机、大型计算机、个人数字助理，等等)来实践。而且，本发明还可以分布式计算环境中实践，其中，任务是由通过通信网络链接的远程处理装置来执行的。在分布式计算环境中，程序模块可以位于本地存储器存储装置和远程存储器存储装置中。

总之，本发明一些实施例的优点包括改进的视频会议体验、改进的基于通信的视频或图像以及更简单且不太昂贵的视频采集或会议系统。此外，本发明可以应用到现有视频会议系统。

本发明的各种实施例的以上说明出于说明的目的而向本领域中技术人员提供的。不旨在将本发明局限或限制为一个公开的实施例。如上所述，对本领域技术人员而言，本发明的很多替代和变型对是显而易见的。因此，虽然已经具体讨论了一些替代实施例，但是其它实施例将是显而易见的或者由本领域技术人员相对容易开发的。因此，该专利说明书旨在包括在本文中已讨论的本发明的全部替代、改型和变型，以及落在上述发明的精神和范围内的其它实施例。

Claims

1.一种用于图像处理的系统，包括：

摄像机；

显示屏，其与所述摄像机相邻；

处理器，其耦合到所述摄像机和所述显示屏；以及

存储器，其耦合到所述处理器，所述存储器包括可由所述处理器执行以进行以下操作的指令：

从所述摄像机接收源图像；以及

2.根据权利要求1所述的系统，其中，所述摄像机和所述显示屏被集成为单个结构。

3.根据权利要求1所述的系统，其中，所述摄像机和所述显示屏是可独立移动的，并且所述存储器进一步包括用于对所述显示屏相对于所述摄像机的位置进行估计的指令。

4.根据权利要求1至3中任一项所述的系统，其中，产生合成图像进一步包括：

检测所述源图像中的脸部；并且

根据所述虚拟摄像机的位置来对所述脸部进行变换。

5.根据权利要求4所述的系统，其中，对所述脸部进行变换包括：对所述脸部应用主动外观模型(AAM)，以及修改所述AAM的参数。

6.根据权利要求4或5所述的系统，其中，产生合成图像进一步包括：

产生所述脸部的3D模型；以及

7.根据权利要求1至6中任一项所述的系统，其中，所述虚拟摄像机的位置是相对于所述显示屏居中固定。

8.根据权利要求1至6中任一项所述的系统，其中，所述虚拟摄像机的位置是基于呈现在所述显示屏上的内容来确定的。

9.根据权利要求1至8中任一项所述的系统，其中，图像包括视频序列的图像。

10.根据权利要求9所述的系统，其中，所述视频序列是二维视频序列或三维视频序列之一。

11.根据权利要求1至10中任一项所述的系统，其中，所述存储器进一步包括用于进行以下操作的指令：

从所述摄像机接收第二源图像；以及

12.根据权利要求1至11中任一项所述的系统，其中，产生所述合成图像包括：修改与所述源图像相关的元数据。

13.根据权利要求12所述的系统，其中，所述元数据包括摄像机参数。

14.一种用于视频会议的计算机实现方法，包括：

在数据接口上从摄像机接收源图像；以及

15.根据权利要求14所述的方法，进一步包括：对所述显示屏相对于所述摄像机的位置进行估计。

16.根据权利要求14或15所述的方法，其中，产生合成图像进一步包括：

检测所述源图像中的脸部；以及

根据所述虚拟摄像机的位置来对所述脸部进行变换。

17.根据权利要求16所述的方法，其中，对所述脸部进行变换包括：对所述脸部应用主动外观模型(AAM)，以及修改所述AAM的参数。

18.根据权利要求16或17所述的方法，其中，产生所述合成图像进一步包括：

产生所述脸部的3D模型；以及

19.根据权利要求16所述的方法，其中，对所述脸部进行变换包括：将面部表情从所述脸部传递到头像图像。

20.根据权利要求14至19中任一项所述的方法，其中，所述虚拟摄像机的位置是由所述处理器基于呈现在所述显示屏上的内容来确定的。

21.根据权利要求14至19中任一项所述的方法，其中，所述虚拟摄像机的位置是预先确定的。

22.根据权利要求14至21中任一项所述的方法，进一步包括：

在数据接口上，从第一远程装置接收第一远程图像；

在所述显示屏上，显示所述第一远程图像；以及

23.根据权利要求22所述的方法，其中，所述方法进一步包括：

24.根据权利要求23所述的方法，进一步包括：

在所述数据接口上，将所述合成图像发送到所述第二远程装置。

25.根据权利要求23所述的方法，进一步包括：

所述处理器基于所述源图像来产生第二合成图像，所述第二合成图像与位于所述显示屏处的第二虚拟摄像机的视图相对应；以及

26.根据权利要求14至25中任一项所述的方法，进一步包括：

从所述摄像机接收另一源图像；以及