CN108141526A

CN108141526A - 通信系统和方法

Info

Publication number: CN108141526A
Application number: CN201680038879.6A
Authority: CN
Inventors: D·索佩尔萨; C·G·奈特; J·P·赖利; G·艾伦
Original assignee: 2mee Co Ltd
Current assignee: 2mee Co Ltd
Priority date: 2015-10-30
Filing date: 2016-10-31
Publication date: 2018-06-08
Also published as: EP3284249A2; GB201618359D0; WO2017072534A2; WO2017072534A3; US20190222806A1; GB2544885A

Abstract

一种消息发送系统，其包括多个设备，其中，至少第一发送用户设备被布置成在使用中将图像传输到至少第二接收用户设备，所述图像包括从背景提取的发送者的头部的至少一部分的电子捕获图像。图1示出显示器(110)上由接受者接收的各个图像100。上文所描述的方法和装置允许介于文本消息交换与视频呼叫之间的某些操作。消息发送者使用设备(通常是智能电话)中的前置摄像机或后置摄像机来捕获其讲话的短视频，且应用程序软件在传输待出现在接受者的屏幕(110)上的视频剪辑之前从任意背景剪裁出发送者的头部100。剪裁出的头部可以方便地作为消息传送屏幕的一部分出现在接受者的桌面上。替代地，也具有该应用程序的接受者可以打开其电话的后向摄像机，以使得该头部看起来浮现在其环境(112)中，如同它表演短节目一样。颠倒该过程以作出回应。

Description

通信系统和方法

本发明涉及通信系统和通信方法，并且特别地，然而非排他地，涉及消息传送系统和消息传送方法。

目前，存在除了常规电话通信之外还允许使用电子装备(比如计算机和智能电话)在人与人之间进行消息传送的各种系统。一种这样的系统是短消息传送服务(SMS)，其更广泛地被称为“短信(texting)”，其中用户可以根据标准化协议通过移动电信网络交换短文本消息。消息必须由发送者键入设备中，且由接受者阅读。近来，将语音直接转换为文本以用于发送SMS消息已经成为可能。

其他广泛使用的通信系统涉及在发送者和接受者之间通过互联网发送文本或图像。这样的系统可以被用来发送视频记录，以及甚至实时的或大体上实时的运动图像(moving image,动态图像，移动图像，活动图像)。然而，因为大的文件大小，所以此类型的通信使用大量带宽，否则运动图像在用户看来是缓慢并且脱节的。

增强现实(Augmented reality)是被用于描述尤其是其中使用计算机生成的输入来加强对真实世界环境的查看的体验的术语。增强现实正越来越变得可用于各种类型的硬件(包括手持设备，比如蜂窝电话)上。

小型、专用可下载程序——被非正式地称为应用程序(app)——的可用性加强了手持设备(比如蜂窝电话)作为摄像机(camera,摄像头)的使用。这些中的许多包括可以与通过摄像机的“实时取景(live view)”相结合的计算机生成的视觉效果，以为用户提供一定程度的增强现实，用于改进图像或娱乐。然而，由于在大多数手持设备中可用的处理能力有限，以及缺乏设置有内置框架的功能性代码库，将视频片段(video footage)纳入摄像机的实时取景中已经证明是困难的。

我们的公开的英国专利申请GB 2 508 070描述了用于在手持设备上生成有效的增强现实体验的技术的示例。

先有系统的另一个缺点是，接受者只能够在他的显示器上的视频面板中查看图像，无论图像是实时的还是为记录的形式。比如通过使用增强现实改变视频图像的外观的余地很小。

本发明的实施方案旨在提供一种通信系统，其中至少部分地克服现有技术的上述缺点中的至少一些。

在现在将参考的所附独立权利要求中限定本发明。此外，可以在随附的从属权利要求中找到优选特征。

根据本发明的一个方面，提供一种消息传送系统，其包括多个设备，其中，至少第一发送用户设备被布置成在使用中将图像传输到至少第二接收用户设备，所述图像包括从背景提取的发送者的头部的至少一部分的电子捕获图像。

图像可以经由通信网络发送，该通信网络可以包括基于处理器的服务器。

优选地，系统被布置成在使用中从背景提取头部的至少一部分的图像，且更优选地提取面部的至少一部分的图像。面部的图像优选地包括头部或面部上的任何头发。

图像优选地包括运动视频图像(moving video image,动态视频图像，移动视频图像，活动视频图像)。在优选的布置中，图像被与音频内容一起传输。优选地，图像被与含有来自发送者的消息的音频文件一起传输。音频文件优选地被布置成当通过接收设备重放运动图像时与该图像同步。替代地，音频内容和视频内容可以被整合。

发送用户设备可以包括以下设备中的任何一个或多个，但不限于以下设备：智能电话、平板计算机、手表、计算机、电视机。

接收用户设备可以包括以下设备中的任何一个或多个，但不限于以下设备：智能电话、平板计算机、手表、计算机、电视机。

消息传送系统可以被布置成在使用中从第一发送者向第一接收者发送第一运动图像以及从第二发送者向第二接收者发送第二运动图像。第一发送者可以包括第二接收者。第二发送者可以包括第一接收者。

消息传送系统可以被布置成用于在复数个用户之间交换视频内容和/或音频内容。内容可以被大体上同步地、并发地、同时期地、同时地和/或实时地交换。

替代地，内容可以被大体上异步地、非同时地、非同时期地和/或非实时地交换。

大体上实时的交换可以允许在多个用户之间进行视频讨论。

在两个或更多个用户交换内容的情况下，系统可以被布置成在相同的屏幕上显示这些用户的图像。这可以被用于群组消息发送的群组聊天。

在优选的布置中，系统规定当前正在讲话的用户的图像和/或已经从其接收到最新近内容的用户的图像本身被指示。指示可以包括对用户的图像的增强亮度、或对用户的图像的放大或其他方式的修改。

在优选的布置中，系统允许用户通过如下方式选择要与其通信的另一个用户：触摸在设备的显示器上呈现的被选择的用户的图像。

系统可以包括将音频(语音)转换为文本和/或将文本转换为音频(语音)的转换器。

系统可以被布置成以图像的形式显示一个或多个联系人。

系统可以包括登录过程和/或登出过程，包括面部识别单元，该面部识别单元被布置成根据先前存储的面部图像数据确定系统的授权用户的身份，所述先前存储的面部图像数据可以包括生物特征数据。

系统可以被布置成在使用中提供增强现实图像，所述系统包括：摄像机，用于使用记录设备记录包括主题和第一背景的基本图像；图像处理器，用于从基本图像提取主题图像；以及显示设备，用于将提取的主题图像与第二背景组合，其中该主题图像包括头部的至少一部分。

优选地，提取的主题图像被布置成在使用中与由显示设备的摄像机成像的第二背景组合。

在一个实施方案中，记录设备和显示设备是共同设备的部分，该共同设备可以是手持设备。替代地或附加地，记录设备和显示设备可以是分开的并且可以被远程地定位。记录设备和显示设备可以各自是分开的设备的一部分，所述分开的设备中的一个或两个可以是手持设备。

在优选的布置中，第一背景和第二背景在时间上和/或空间上是分开的。第一背景可以包括与主题图像同时期的图像，而第二背景可以包括不与主题图像同时期的图像。

处理器可以被布置成在使用中相对于记录设备本地地，并且优选地在所述设备内，从基本图像提取主题。替代地，处理器可以被布置成在使用中相对于记录设备远程地从基本图像提取主题图像。

处理器可以被布置成在使用中相对于基本图像的记录而言实时地从基本图像提取主题图像。替代地，处理器可以被布置成在使用中在记录基本图像之后执行提取。

主题图像可以包括先前已经存储的主题图像。

主题图像可以包括从运动视频取得的静止图像序列。

替代地或附加地，主题图像可以包括连续的运动视频图像。

为了查看图像，环境(context,上下文)识别单元可以被布置成在使用中识别主题图像的环境。这可以通过将视野中的至少一个对象与来自多个对象的存储数据比较来实现。图像检索单元可以被布置成根据由环境识别单元确定的环境信息从多个存储的图像选择图像。定位单元可以被布置成在使用中将主题图像定位在背景中。这可以根据由环境识别单元确定的环境信息来实现。

通过定位单元对主题图像的定位可以包括在显示器中设定主题图像的大小，且可以包括将主题图像锚定在显示器中，优选地相对于由环境识别单元确定的环境信息将主题图像锚定在显示器中。

环境识别单元和/或检索单元和/或定位单元可以包括被布置成在使用中通过一个或多个电子处理设备执行的过程。

本发明还提供一种在多个设备之间进行消息传送的方法，其中，至少第一发送用户被布置成在使用中将图像传输到至少第二接收用户，所述图像包括从背景提取的发送者的头部的至少一部分的电子捕获图像。

图像可以经由通信网络发送，该通信网络包括基于处理器的服务器。

优选地，方法包括从背景提取头部的至少一部分的图像，且更优选地提取面部的至少一部分的图像。面部的图像优选地包括头部上的任何头发。

图像优选地包括运动视频图像。在优选的布置中，方法包括将图像与音频内容一起传输。优选地，方法包括将图像与含有来自发送者的消息的音频文件一起传输。音频文件优选地被布置成当通过接收设备重放运动图像时与该图像同步。替代地，音频内容和视频内容可以被整合。

方法优选地包括使用以下设备中的任何一个或多个——但不限于使用以下设备——发送消息：智能电话、平板计算机、手表、计算机、电视机。

方法优选地包括使用以下设备中的任何一个或多个——但不限于使用以下设备——接收消息：智能电话、平板计算机、手表、计算机、电视机。

在优选的布置中，方法包括从第一发送者向第一接收者发送第一运动图像以及从第二发送者向第二接收者发送第二运动图像。第一发送者可以包括发送接收者。第二发送者可以包括第一接收者。

消息传送方法可以包括在复数个用户之间交换视频内容和/或音频内容。内容可以被大体上同步地、并发地、同时期地、同时地和/或实时地交换。

大体上实时的交换可以允许在多个用户之间进行视频讨论。

在两个或更多个用户交换内容的情况下，方法可以包括在相同的屏幕上显示这些用户的图像。这可以被用于群组消息发送的群组聊天。

在优选的布置中，方法包括指示当前正在讲话的用户的图像和/或已经从其接收到最新近内容的用户的图像。指示可以包括对用户的图像的增强亮度、或对用户的图像的放大或其他方式的修改。

方法可以包括通过以下方式选择要与其通信的另一个用户：触摸在设备的显示器上呈现的被选择的用户的图像。

方法可以包括将音频(语音)转换为文本和/或将文本转换为音频(语音)。

方法可以包括以图像的形式显示一个或多个联系人。显示的联系人的图像可以包括记录的运动图像。在优选的布置中，显示的联系人的图像可以包括运动视频图像的剪辑，该剪辑可以被布置成循环播放，且可以被布置成在所述剪辑结束处颠倒所述运动视频图像。

方法可以包括:使用包括面部识别的登陆过程和/或登出过程通过参考先前存储的图像来确定系统的授权用户的身份。

方法可以包括通过以下所述提供增强现实图像：使用记录设备记录包括头部的至少一部分和第一背景的基本图像；从基本图像提取包括头部的至少一部分的主题图像；以及将提取的主题图像提供给显示设备用于与第二背景组合。

第二背景可以包括以下背景中的任一，但不限于以下背景：桌面背景，例如设备的显示屏幕；由应用程序提供的背景；或由摄像机捕获的背景。背景可以由待在其上查看主题图像的设备的摄像机捕获。

优选地，提取的主题图像被提供给显示设备，用于与由显示设备的摄像机成像的第二背景组合。

在一个实施方案中，记录设备和显示设备是共同设备的部分，该共同设备可以是手持设备。替代地或附加地，记录设备和显示设备可以是分开的并且可以被远程地定位。记录设备和显示设备可以各自是分开的设备的一部分，所述设备可以是手持设备，且所述设备可以包括但不限于移动电话和平板计算机。

记录设备和显示设备可以包括不同类型的设备。

在优选的布置中，从基本图像提取主题的步骤相对于记录设备本地地执行，并且优选地在所述设备内执行。替代地，从基本图像提取主题图像的步骤可以相对于记录设备远程地执行。

从基本图像提取主题图像的步骤可以相对于基本图像的记录而言实时地执行，或者可以在记录基本图像之后执行。

优选地，方法包括将提取的主题图像从一个设备发送到另一个设备。该图像优选地是运动图像，且更优选地是动态的真实世界图像。

提取的主题图像可以包括用户的——比如图像的发送者的——头部和/或面部。该图像更优选地是运动图像，并且可以包括音频文件、可以被附于音频文件或可以与音频文件相关联，该音频文件比如是该运动图像的声音记录或属于该运动图像的声音记录。

图像可以包括一个或多个图形要素，例如增强现实图像组成部分。该增强现实图像组成部分可以被锚定到提取的主题图像以便看起来像是提取的主题图像的真实要素或原始要素。

在优选的布置中，方法包括将提取的主题图像——优选地为运动图像——通过网络发送到接受者用于在接受者设备中查看。可选地，声音记录可以与提取的主题图像一起发送。替代地或附加地，方法可以包括将提取的主题图像直接发送到接受者设备。

在优选的布置中，该方法包括：记录包括主题和第一背景的基本图像；从背景提取主题作为主题图像；将主题图像发送到远程设备；以及在该远程设备处将主题图像与第二背景组合。

方法可以包括通过使用以下过程中的一个或多个从基本图像提取主题：主题特征检测、主题颜色建模以及主题形状检测。

根据本发明的另一个方面，提供一种用于自动地确定具有头发的面部或头部在电子捕获图像中的周界的电子装置，该装置包括面部检测单元和周界检测单元，其中，在使用中面部检测单元被布置成检测面部，且周界检测单元被布置成基于识别的面部特征的位置确定额头以及然后基于颜色变化识别额头上指示头发的边缘区域。

周界检测单元可以被布置成基于超出边缘区域的像素颜色指派头发颜色(C)。优选地，周界检测单元被布置成在使用中确定面部周围的面积(A)并且搜索面积(A)内具有在颜色(C)的预定阈值范围内的颜色值的区域(R)。

优选地，该装置被布置成将所述的区域(R)大体上合并在一起以在图像中显示为头发。

优选地，该装置被布置成在使用中通过对运动视频图像的多个帧的值求平均值来更新(C)的颜色值。

本发明还包括一种自动地确定具有头发的面部在电子捕获图像中的周界的方法，该方法包括：检测面部；基于识别的面部特征的位置确定额头；以及基于颜色变化识别额头上指示头发的边缘区域。

该方法可以包括基于超出边缘区域的像素颜色指派头发颜色(C)。优选地，该方法包括确定面部周围的面积(A)以及搜索面积(A)内具有在颜色(C)的预定阈值内的颜色值的区域(R)。

该方法可以包括将所述的区域(R)合并在一起以在图像中显示为头发。

优选地，该方法包括通过对运动视频图像的多个帧的值求平均值来更新(C)的颜色值。

根据本发明的另一个方面，提供一种用于确定用户对在包括摄像机的设备上递送给用户的媒体内容的反应的装置，该装置被布置成在使用中播放内容并且监测用户的面部的图像，其中处理器被布置成通过分析图像来确定用户对该内容的反应。

图像优选地是运动图像。处理器可以被布置成将该图像与一个或多个存储的参考图像进行比较。

在优选的布置中，该装置被布置成确定用户对内容是否具有积极反应。该装置可以被布置成确定用户对内容是否具有消极反应。该装置可以被布置成确定用户对内容的反应是否既不积极也不消极。

摄像机可以被布置成隐蔽地捕获用户的图像。

替代地或附加地，摄像机可以被布置成公开地捕获用户的图像。

在优选的布置中，图像包括用户的面部的图像，该面部的图像可以是从背景提取的。

装置可以被布置成监测来自用户的其他反应标记，所述其他反应标记包括以下中的一个或多个(但不限于)：温度变化、心率/脉搏、出汗水平变化、血压变化以及瞳孔扩大。

通过监测用户的面部的图像和/或捕获其他反应标记中的一个或多个，可以确定用户对内容的感兴趣程度或兴奋程度。该感兴趣程度可以被确定为在一个水平指标或范围内，且不必是二进制值。

本发明还提供一种确定用户对在包括摄像机的设备上递送给用户的媒体内容的反应的方法，该方法包括：在设备上播放内容；启用设备的摄像机以捕获用户的面部的图像；以及分析该图像以确定用户对该内容的反应。

该内容可以包括音频内容和/或视频内容，并且可以是实时的或预先记录的。该内容可以包括增强现实内容。

根据本发明的又一个方面，提供一种用于与在包括显示器的设备上递送给用户的内容进行用户交互的装置，其中该装置被布置成在使用中在显示器上播放第一部分内容并且捕获来自用户的指令和/或反应，其中处理器被布置成基于来自用户的指令和/或反应选择并且在显示器上播放至少一后续部分内容。

另外的内容可以是从另外的内容的库选择的。

在优选的布置中，至少该第一部分内容包括面部的运动图像，该图像优选地是从背景提取的。

本发明还包括一种与递送给用户的媒体内容进行交互的方法，该方法包括：在用户的设备的显示器上提供至少第一部分内容；捕获响应于该内容来自用户的音频和/或视觉指令和/或反应；以及基于捕获的指令从另外的内容项的库选择另外的内容用于显示给用户。

在优选的布置中，至少该第一部分内容包括面部的运动图像，该运动图像优选地是从背景提取的。

根据本发明的另一个方面，提供一种对视频图像进行编码的方法，该方法包括：记录包括主题部分和背景部分的视频图像；检测主题部分并且从背景部分提取主题部分；生成与主题部分的轮廓对应的掩码；以及将第一阿尔法值赋予轮廓内的区域并且将第二阿尔法值赋予轮廓外的区域，该方法还包括使视频图像的帧成对，其中该对中的一个包括以模糊的背景为衬托的主题，且该对中的另一个包括掩码。

本发明还包括一种视频编码设备，该视频编码设备被布置成在使用中：记录包括主题部分和背景部分的视频图像；检测主题部分并且从背景部分提取主题部分；生成与主题部分的轮廓对应的掩码；以及将第一阿尔法值赋予轮廓内的区域并且将第二阿尔法值赋予轮廓外的区域，其中该设备还被布置成在使用中使视频图像的帧成对，其中该对中的一个包括以模糊的背景为衬托的主题，且该对中的另一个包括掩码。

优选地，第一阿尔法值显著大于第二阿尔法值，以使得在轮廓外的掩码的区域表现为深色背景，更优选地为黑色背景。

本发明还提供一种程序，该程序用于导致设备执行根据本文的任何陈述的方法。

该程序可以被包含在应用程序内。该应用程序还可以含有数据，比如主题图像数据和/或背景图像数据。

本发明还提供一种计算机程序产品，该计算机程序产品在其上存储、携带或通过其传输用于导致设备执行根据本文的任何陈述的方法的程序。

本发明可以包括本文所描述的特征或限制的任何组合，互相排斥的特征的这种组合除外。

现在将参考图解附图仅通过示例的方式来描述本发明的优选实施方案，在附图中：

图1示出根据本发明的一个实施方案的在屏幕上显示的头部的提取图像的示例；

图2示意性地示出记录消息的方法；

图3示意性地示出根据本发明的一个实施方案的发送消息的过程；

图4示意性地示出用于从包括主题和背景的基本图像提取主题图像的过程的一部分；

图5示出在其上实现根据本发明的一个实施方案的消息传送系统的手持设备的屏幕；

图6示出在其中播放接收的消息的另一个屏幕；

图7描绘了群组视频呼叫中的屏幕；

图8示出联系人屏幕；

图9示出两个用户之间的对话中的两个屏幕；

图10示出用户在呼叫结束时与屏幕交互；

图11示出可以与本发明的实施方案一起使用的多种类型的设备；

图12示意性地示出用于检测用户对显示的内容的反应的系统；

图13示出用于与显示的内容交互的系统；

图14至图17示意性地示出根据本发明的一个实施方案的图像处理方法中的步骤；

下文所描述的本发明的实施方案涉及聊天系统或消息传送平台，其中移动电话是被选择的设备。用户能够发送其自己的短视频剪辑，该短视频剪辑递送可听形式的和/或文本形式的消息。仅头部是以图像的形式发送的，该头部通过如下文所描述的方法从背景提取。

转到图1，该图示出显示器110上由接受者接收的各种图像100。上文所描述的方法和装置允许介于文本消息交换与视频呼叫之间的某些操作。消息发送者使用设备(通常是智能电话)中的前置摄像机或后置摄像机来捕获其讲话的短视频，且应用程序软件在传输待出现在接受者的屏幕110上的视频剪辑之前从任意背景剪裁出发送者的头部100。剪裁出的头部可以方便地作为消息传送屏幕的一部分出现在接受者的桌面上。替代地，也具有该应用程序的接受者可以打开其电话的后向摄像机，以使得该头部看上去浮现在其环境112中，如同它表演短节目一样。颠倒该过程以作出回应。

图2示意性地示出该过程。在A处，发送人使用应用程序来记录其自己的头部的运动图像——即视频——该头部通过应用程序与背景分开。在优选的布置中，可以大体上实时地自动丢弃背景。然而，作为替代的或附加的特征，进行记录的人可以改为手动地移除背景。然后图像被发送给B处的接受者，该接受者在其桌面上或在智能电话/平板计算机的摄像机视野中(如果其如此选择的话)看到头部对其讲话。

根据该实施方案的这样的消息不同于文本消息，因为：

-它使用起来比敲击出字符键更快速，

-它传达情绪，因为可以看到面部表情且可以听到语音的语调，而不仅仅是屏幕上的字词，

-它能够既有趣又个性化，

-如果发送者授予许可，用户可以拍摄/存储头部的照片。

该消息不同于视频呼叫，因为：

-它使用较少量的移动用户数据额度。

-它递送谨慎、独特的消息“声音片段(sound-bite)”。

-它具有添加增强现实图像的选项，该增强现实图像被锁定到头部，比如在114处示出的那些，在示出的示例中包括角、帽子和星形物。

-它可以被容易地保持以供将来参考。

-不传输背景信息，仅传输头部。

因此，创建者的位置可以保密。

通过如本文所描述的本发明的实施方案，发送者可以将图像——包括运动图像或视频图像——发送到接收者，以在通过接收者的设备的显示器查看时，以由接收者的设备的摄像机成像的接收者的背景为衬托，该图像作为虚拟图像出现在接收者的环境中。可以相对于查看的背景锁定或锚定该图像，以便看起来像现实。

图像可以包括由发送者创建的并且作为主题从发送者的背景提取的图像，待以接收者的背景为衬托来查看。此外，可以通过方便的消息传送网络将图像从用户发送到用户。

应注意的是，利用上文所描述的方法，发送者能够发送他自己的图像而不向接受者透露他的背景/行踪。

可以在没有背景的情况下——而不仅仅是如下所述：使背景不可见(例如，阿尔法值为零)但仍然将背景保留为图像的一部分——发送前景图像或主题图像。

这具有许多重要的安全益处。首先，仅面部可以图像的形式传输，确保不发送不适当的内容。其次，发送者的面部必须出现，以使得发送者不可能冒充他人。

应注意的是，本发明的实施方案采用识别发送者的图像的面部(以及头发)并且将其从背景中移除的技术。这与其中是背景被识别并且被移除的一些现有方法不同。

此外，以上示例是让接受者通过接受者的设备的摄像机视野来查看接收的图像，但情况不是必须如此。例如，作为替代方案，接受者可以查看浮现在他的桌面上或浮现在他的设备上的应用程序皮肤之上的图像。这对于用户来说可能是更方便的，取决于查看时他的位置。

因为待发送的图像仅包括发送者的头部，这表示相对少量的数据，且因此本发明的实施方案可以提供系统化的方法来发送视频图像，而无需通常的记录视频剪辑、保存、编辑然后将其发送到接受者的步骤。

图3示出消息发送过程中的步骤序列(从左到右)，其中可以将上文所提及的选项的组合带入用户体验。根据一种已知的呈现方式，手持设备200用于在通信方X与通信方Y之间以对话泡泡(speech bubble，对话框)的形式传达消息。然而，通信方X还选择将她自己的面部的运动图像210发送给通信方Y，传递消息。

在此示例中，对话提出音乐艺术家的表演的主题。通信方X和通信方Y中的一个可以选择向对方发送该艺术家的头部的图像220，然后该图像出现在桌面上。运动图像还可以讲出短的介绍性消息。这可通过由通信方在其各自的设备上运行的消息传送应用程序来获得。如果利用手指230敲击头部220，则表演者的更全的图像240出现在在桌面上看到的图形特征的上面，以递送歌曲或其他表演。

如果手指230再次敲击该全的图像240，则它打开设备的摄像机(未示出)，以使得表演者的完整图像250与用户的环境的背景图像260结合，按比例并且锚定到背景图像内的一个位置，以使得如果摄像机向左/向右移动或向内/向外移动，该完整图像相对于背景都保持静止，以给出现实的错觉。

因此，使用上文所描述的本发明的多个方面和/或实施方案，用户可以在所选择的运动图像的剪裁部分(比如头部)、更全的图像和完整的增强现实体验之间切换。此外，该便利可以在消息发送系统中、在两个或更多个通信方之间采用。

上文所描述的技术可以用在其中不必需要网络的其他平台比如直接消息传送平台或对等消息传送平台中。该技术还可以用于商业，比如用在商业会议中，以及用于纯粹的社交互动。

上文所描述的实施方案也可以用作视频语音邮件系统的一部分。

此外，尽管在上文所描述的示例中用户使用手持设备比如移动电话和/或平板计算机通信，但是对于消息传送系统中的发送者和接收者二者或两个/所有通信方而言，所使用的设备不必是相同类型的。所使用的设备的类型可以是具有显示器——或可以连接到显示器——的各种类型中的任何一种。游戏控制台或其他游戏设备是可以与本发明的一个或多个方面一起使用的装置的示例。

从包括不想要的背景的图像提取主题的过程有时被称为“分割(segmentation)”。下面的描述关于用于当主题属于已知类别的对象时执行分割的技术。

方法4：面部分割

当源视频包括从已知对象类别获取的对象时，则可以采用对象特定的用于分割的方法。在下面的示例中将分割人类面部，其中，视频是用前向摄像机捕获的说话片段(即，“视频自拍照(selfie)”)。对于针对其可以建立类别特定的特征检测器的任何对象类别都可以采用该同样的方法。

面部特定的流水线(pipeline)包括多个过程步骤。这些步骤之间的关系总体上在图35的流程图中在300处示出。为了提高该过程的计算效率，这些步骤中的一些步骤不必被应用于输入视频序列IS的每个帧F(而是，它们被应用于每第n帧)。每个步骤的详细描述如下：

在过程310中，执行面部特征检测。可以使用经训练以定位面部特征的特征检测器来定位面部以及其内在特征的大致位置。类哈尔(Haar-like)特征是在对象识别中使用的数字图像特征。例如，一连串类哈尔特征可以被用来计算面部周围的边界框。然后，在面部区域内可以使用相同的策略来定位特征，诸如眼中心、鼻尖和嘴中心。

在过程320中，执行皮肤颜色建模。使用参数模型来表示被分析的面部的可能的皮肤颜色的范围。每第n帧更新参数，以考虑由于姿势变化和照明变化而改变的外观。在最简单的实现中，参数可以仅仅是在相对于面部特征固定的位置处获得的颜色值以及阈值参数。观察到的在所采样颜色的阈值距离内的颜色被认为是类皮肤的。

更复杂的方法是按皮肤像素的样本拟合统计模型。例如，使用面部特征位置，选择可能在面部内的一组像素。在移除异常值之后，通过计算样本的平均值和方差来拟合正态分布。然后可以评估任何颜色位于皮肤颜色分布中的概率。

为了减小由光效导致的颜色变动的影响，可以在诸如HSV或LCrCb的颜色空间中构建模型。使用H信道或Cr信道和Cb信道，模型捕获皮肤的底色(underlying colour，基础颜色)而非其亮度。在过程330中，确定形状特征。皮肤颜色模型提供逐像素分类。单独采用的话，这些逐像素分类提供可能包括背景区域或面部中的遗漏区域的噪声分割。有许多可以与皮肤颜色分类结合使用的形状特征。在最简单的实现中，面部模板(比如椭圆形)是根据面部特征位置来变换的，并且仅模板内的像素被考虑。稍微更复杂的方法使用到特征的距离作为面部似然性的度量，其中较大距离不太可能是面部的一部分(并且因此需要对颜色分类的更高置信度)。

更复杂的方法还考虑图像内的边缘特征。例如，可以按图像内的特征位置和边缘特征拟合主动形状模型(Active Shape Model)。替代地，可以为图像计算超像素。超像素边界自然地与图像中的边缘对齐。因此，通过对每个超像素而非每个像素执行分类，我们将边缘信息纳入到分类中。此外，由于皮肤颜色和形状分类器可以在超像素内聚合，因此我们提高了鲁棒性。

在过程340中，进行分割。最后，计算输出分割掩码OM。这用对置信度编码的阿尔法掩码或二进制面部/背景标注来标注每个像素，所述置信度为该像素属于面部的置信度。该标注将皮肤颜色分类的结果和形状特征相结合。在使用超像素的实现中，标注是每超像素进行的。这通过对超像素内的每像素标注求和并且测试总和是否高于阈值来进行。

在记录阶段期间或之后，可以采用美容/皮肤加强过程和/或过滤技术来改动面部的图像，例如以掩盖瑕疵。计算机生成的影像也可以作为过滤器或掩膜被添加/覆盖。

图5示出在新消息到达时用户将看到的屏幕。描绘了几个“头部”400，表示新近的消息，所述消息按照到达的顺序排列，其中最新近的消息420在最上。用户能够以旋转木马的方式滚动浏览图像——且因此滚动浏览消息。消息中的每个的音频文件被存储。该音频文件可以与视频内容整合，或可以被分开存储。可选地，在430处，该消息或每个消息或其一部分在发送者的图像下方以文本示出。当接收到消息时，通过应用程序进行音频到语音的转换。在屏幕的底部处显示较小的、与最新近的消息的发送者对应的静态联系人图像440。

图6示出用户正在查看消息时的屏幕。发送者的头部420以运动视频图像的形式与同步音频文件一起出现。发送者的标准联系人图像显示在屏幕的底部处。

图5和图6中示出的实施方案涉及不被实时地查看的异步消息或非同时期消息。

然而，本发明的实施方案准许与面部的运动视频图像的、带有同步音频内容和/或文本的实时的或大体上实时的对话。

图7示出其中有五人参与的群组视频对话，其中四人被表示在用户的屏幕上，用户是第五参与者。五个面部500在手持设备200的显示器各处间隔开，使该设备的屏幕区最大化。可以容纳更多或更少的参与者。为了使用户参与更容易，系统识别哪个参与者当前正在讲话并且指示这一点。在所示出的示例中，这是通过放大当前正在讲话的参与者的图像510进行的。

比如这种情况的“实时呼叫”可以通过电话网络——例如GMS、3G、4G——或经由作为通道的特定服务器或使用P2P(人对人)网络或WebRTC协议来实现，以确保分割的头部和面部消息也是以一对一或一对多视频呼叫的方式可以被全球递送的实时呼叫。

图8示出联系人屏幕520，在该联系人屏幕上，用户的联系人被示出为提取的面部400。为了出于发送消息或请求实时对话的目的而选择联系人，用户可以简单地触摸个体联系人图像。可选地，某些联系人图像可以被布置成被显示为运动视频图像。例如在向应用程序注册时由联系人记录的视频剪辑可以循环播放。剪辑可以被布置成在其结束时颠倒，以便以无缝循环的形式播放。有来自其的未打开消息的联系人可以被布置成用运动视频图像表示。

图9示出在实时对话期间向一对手持设备200的用户显现的该对手持设备。在仅一对一对话的情况下，大体上整个屏幕区域可以被参与者的面部400的图像占据。

当消息已经被读取时，或在实时对话的情况下当对话已经结束时，如图10中在530处示出的，用户可以通过双击面部来简单地关闭消息。

图11示出消息发送系统可以被用于其上的设备中的一些。发送者的设备被表示在S处，且消息可以被存储于其中的云被示出为C。图11中描绘的接受者设备的非穷尽列表包括：智能手表540、智能电话200、台式计算设备(比如Windows PC或Mac)560、智能电视570、车辆580和虚拟现实/沉浸设备590。面部消息可以被发送到或者被发送自任何启用的智能电话或如所示出的其他设备，即，发送者设备S不是必须是如该示例中所示出的智能电话，而是可以是其他类型的设备中的任一。可以进行实时对话，或每当接受者希望查看消息时，都可以播放该消息。

可选地，用户可以选择使用用于登陆应用程序和/或从应用程序登出的面部识别过程来安全地访问应用程序。该应用程序可以在同一设备上准许复数个用户帐户。

该系统的一个重要方面是面部图像应是逼真的。这就要求从背景准确地并且大体上实时地提取面部。然而，选择边界的过程常常不是简单易做的，尤其是因为头发的颜色和背景的可变性。

现在将描述一个用于确定图像的与用户的头发对应的部分的过程。优选地在通过记录设备记录期间由应用程序大体上实时地执行此过程。

首先，使用面部识别算法确定面部的位置，然后找到额头的位置。扫描额头以及额头之外，该系统然后寻找颜色变化作为边缘。在那个颜色变化边缘区域，假定新发现的颜色是头发颜色(C)。针对预定形状，比如在面部周围的椭圆区域，该系统然后搜索颜色与指派的“头发”颜色接近的像素。然后合并距彼此距离短的对应颜色区域，用头发颜色(C)填充这些区域之间的空间。此区域然后被显示为“头发”。头发颜色被更新并与先前的值一起平均用于后续的视频帧。

该系统必须核查假定的“头发”是否是背景的现实部分。

为了查明是否有可能使用上面的过程检测到的头发实际上是背景，该系统使用头发相对于头部的平均属性。如果发现的头发区域的图案与平均面部上的预期区域不一致，则头发区域不应被显示或可以使其褪色。

根据现有技术的用于面部检测的过程即iOS，存在面部寻找特征(CIDetector)。它不仅报告面部在图像中的位置，而且报告眼和嘴在图像中的位置(featuresInImage：)。面部寻找检测器不以全视频速率处理帧，因此视频的仅一些帧可以被处理。

然而，根据本发明的实施方案，利用经过训练以提取面部特征的面部跟踪器补充iOS CIDetector报告的面部特征。此跟踪器就是以全视频速率运行，否则至少视频速率被减慢到面部跟踪器可以其处理视频帧以给出对面部位置的估计的速率。作为那个估计的一部分，该跟踪器生成三个点，所述三个点是该跟踪器估计为头部的顶部的点。这些点是针对估计的面部角度和下巴点的位置生成的。这些点不是必须特别精确，但是给出了对面部可能结束的位置的指示。

为了估计头部头发(不是面部头发)可能在视频帧中位于何处，根据三个额头点和由CIDetector生成的两个眼点来估计额头的位置。这意味着，额头估计只能够以CIDetector可以处理视频帧的较慢速率进行。此区域向上延伸(在此示例中是该区域的现有高度的五倍)。对于此区域的中心，以竖直向上移动的线对图像像素的颜色进行采样。在检测到来自额头皮肤(先前被采样以允许面部的皮肤颜色分割)的强烈的颜色变化的情况下，选择此像素或下一个像素——如果该颜色变化更大的话——作为头发颜色。以相同的方式扫描另外两根线。一根处于45度的角度，另一根处于-45度的角度，以便获得三个单独的颜色样本。

将颜色样本在多个视频帧上平均，以使得出现单个或几个错误的可能性不会导致对头发颜色的估计错误太大。当以全速率处理视频帧时，使用当前的平均头发估计。对头发颜色的估计可能由于以下多个原因而不经常被更新：可能未发现好的边缘、CIDetector可能慢、CIDetector可能不能够报告任何特征。

在原始视频帧以及跟在此帧之后的任何其他视频帧中，头发颜色然后被用来寻找接近三种头发颜色中的一种的像素。这些像素通过扩张操作和侵蚀操作被进一步处理以扩展和合并头发颜色区域，然后收缩回到原始边界。这填充了其颜色与所采样颜色不匹配的头发区域。该搜索区域被限制为比假设的面部区域大的椭圆。

这样限定的区域被用作模板以限定视频帧中是头发的区域。如果需要，此区域可以被进一步处理以软化边缘。

在此实施方案中，使用一种简单的方法来检测头发区域是否应被分类为背景。从带有提取的面部面积的头发区域搜索椭圆生成“晕圈(halo)”区域。将这个晕圈区域内被分类为头发的面积与整个晕圈区域的面积进行比较。由于并不预期在整个晕圈面积中面部都会具有头发，因此被分类为头发的面积与总面积的比率被用来给出对被检测为头发的内容实际上是头发而不是背景的可能性的指示。所使用的比率将是判断问题，且在此示例中，平滑步骤起作用以允许头发区域和面部区域根据面积比率混合。目前，如果头发区域小于晕圈区域的50％，则该头发区域被认为是准确的，如果头发区域大于晕圈区域的62.5％，则该头发区域不是头发。介于这两个值之间的值导致与距这些边缘值的距离成比例的面部区域和头发区域的混合，以使得没有添加或不添加头发的突然不连续。

图12示意性地示出用于确定用户对显示的内容的反应的系统。设备1010——其在此情况下是平板计算机——从服务器1020接收用于显示的内容。该设备显示该内容并且同时启动捕获用户1030的面部的图像——优选地为运动图像——的前向摄像机1012。用户的情绪可以由处理器1040确定，该处理器可以被定位在设备1010内，或可以被远程地定位。另外，该处理器可以从附加的智能设备1050接收其他情绪标记，该数据可以包括以下中的任一：心率、温度、血压、出汗或这些参数的任何变化。此信息被用来确定用户的情绪，且因此被用来推断用户对从服务器发送并且在设备1010上显示的内容的反应。

然后报告被发送到数据分析中心1060，该数据分析中心可以使用数据来通知关于内容的商业决定，例如用于内容提供者。

设备1010可以根据本文所描述的技术中的任何技术来提取用户1030的面部的图像。处理器1040可以通过参考该用户的标准的、预先记录的图像或通过使用算法和/或参考数据来分析该图像并且确定该用户的情绪。

前向摄像机1012可以在用户知情并同意的情况下被启动，或可以被隐蔽地启动。

如果该设备，例如根据本文所描述的实施方案中的任何一个，正在显示增强现实内容，则前向摄像机和后向摄像机可以同时工作。

该处理器可以被布置成根据用户的面部表情和/或根据其他情绪标记确定用户对内容的反应是否是以下中的任何一种：积极反应、消极反应或实际上既不积极也不消极。

实际上，通过监测用户的面部的图像和/或捕获一个或多个其他反应标记，用户对内容的感兴趣程度或兴奋程度可以被确定在一个水平指标或范围内。这不必是二进制值。

图13示意性地示出另一个实施方案，其中用户2000通过对设备2010讲话与在设备2010上播放的内容进行交互。在此实施方案中，初始内容的一部分，优选地以面部的运动图像的形式，被显示在设备2010的屏幕2012上。该图像可以按照上文所描述的示例中的任何一个。该设备正在“倾听”用户的询问或指令的提示被提供给用户2000。然后，用户例如通过按下屏幕上的按钮2014来指示她将要讲话。用户2000然后自然地对设备2010讲话，且她的讲话被该设备的拾音器拾取。该设备存储该用户的音频文件，且该文件经由网络N比如互联网被安全地输送到语音到文本(STT)处理单元2020。该文件被分析，并且指令数据集被创建且被返回到设备2010。指令或询问和数据集可以被存储以供分析以及改进将来的服务。

该数据集被设备2010显示和/或解释以确定用于用户的附加/另外的内容。如在2030处指示的，用户对内容的反应还可以使用上文所描述的系统来确定。

这一与用户交互的方法允许内容提供者递送比先前的系统已经提供的更个人化的通信体验。

在上文的描述中，术语“虚拟图像”意指在用户查看正在通过设备的摄像机捕获的一个或多个真实的或当前的图像时显示在该设备的显示器上的先前捕获的或单独获取的图像——其优选地是运动图像。虚拟图像本身是来自不同的现实的真实图像，该真实图像被有效地从那个其他现实裁剪出且被移植到另一个现实——即查看者在他的设备的显示器中看到的现实中。

当人类在现实世界中面对面交互时，大脑能够调整焦深，以使得背景信息被自动忽视，允许我们专注于另一个人的面部。然而，当我们使用在屏幕上显示的二维图像进行通信时，不想要的背景信息与面部图像一起被接收，且被给予与其相同的权重，这可能会分散注意力。在前面给出的示例中，在讲出消息的人的记录中使面部与背景分开。当重放该记录时，有必要在显示设备中区分面部和背景。然而，该记录必须适合于在多种具有不同能力的设备上重放。

转到图14至图17，下面描述了对视频图像编码使得能够在具有不同能力的多种类型的设备上重放该视频图像的方法。

这些远程设备之间的传输可以是直接的，或者可以经由能够存储视频图像并且也可以具有处理视频的可能性的服务器。

虽然可以以不同的呈现风格生成多种视频，但是更有效率的是生成可以在具有不同能力的多个设备中使用的单一格式。这可以降低对通信和存储的总体要求。此外，此方法还简化了生成过程，其中单个视频可以在或许未预期的环境中使用。

在本申请中，上文给出的感兴趣的对象的示例是可能正在讲出消息的面部。优选的呈现风格是具有透明背景的视频输出(图15)。这允许将主题孤立地显示在另一个图像的上面——诸如例如图1、图5或图7中示出的图像的上面，或显示在现场摄像机馈送上。

在另一个更简单的设备比如所谓的“智能手表”上显示视频可能需要相同的应用。此设备一般不允许在其他要素的上面显示透明的运动图像，但是可以显示“正常”视频。在此环境中，可以使用第二优选显示风格。这可以是在原本存在透明度之处的黑色背景。这与黑色的智能手表背景保持一致(图17)。

在相同的视频要在一不同的、能力较差的设备上例如在电视屏幕的顶部拐角中播放的情况下，不同的风格是优选的，没有严苛的黑色(或其他颜色)背景。在此情况下，可以播放具有模糊背景的视频版本，如图16中示出的，该视频版本仍然使感兴趣的对象(面部)高亮。

在此示例中，软件OpenGL被用来处理图像。面部检测器和其他处理首先生成使面部高亮的图像。优选的显示风格是背景被移除，但是由于这可能是不可能的或可能不是远程设备的用户期望的，因此添加模糊形式的背景。这不影响优选风格，因为额外的数据处于阿尔法掩码将“删除”这些像素的区域中。

OpenGL允许具有4个“颜色”平面的纹理：红色、绿色、蓝色和阿尔法。阿尔法使显示衰减，并且可以被用来将其他背景与图像合并。大多数电影格式不编码阿尔法通道，且在普通的智能移动电话中先天不支持阿尔法通道电影格式。更重要的是，不支持对有阿尔法能力的格式的硬件辅助解码/编码。

针对电影的每个帧使用编码到RGB图像的一面的额外“图像”是通常使用的将阿尔法通道附加到仅RGB格式电影的方法。这一新的图像是由OpenGL“着色器(shader)”程序生成的，其中阿尔法数据位于RGB数据的一面，创建新的RGB图像，该新的RGB图像可以被发送给电影编码器，就像任何其他RGB图像会被处理的一样。

这样的图像的一个示例被示出在图14中。这样的图像的流被用来生成电影。阿尔法通道图像的大小不必与RGB图像的大小相同。可以使用更少的像素，或可以将它们有区别地编码，例如分开编码RGB通道，只要解码过程——其优选地再次使用OpenGL着色器——能够重新生成阿尔法平面。

重放“阿尔法编码的”电影除了需要对简单的RGB视频的通常解码之外一般还需要某种额外处理。在使用有能力的设备进行重放的情况下，电影将被正常解码，但是然后生成的图像中的每个都被传递通过OpenGL着色器，以对于每个颜色像素根据具有阿尔法值的数据生成新的纹理。这些阿尔法值将掩盖模糊的背景，且使像素颜色中的一些衰减。在此示例中，衰减通常是在纯色的边缘处，且起到“羽化”的作用，以使得不存在严苛的轮廓。

多风格的视频格式也允许接收设备给予用户不同显示风格的选项。可以使用不同的着色器来简单地显示主题和模糊的背景，仅移除视频图像的阿尔法掩码部分。替代地，黑色背景或其他颜色背景可以是优选的，且再次该格式允许对于此使用不同的着色器。

设备能力可能变化，且设备可能具有处理视频但不显示透明图像的能力。这样的设备具有按照所需的风格处理视频图像的选项。

如果设备在其处理视频的能力方面被限制，它可以改为请求存储视频的服务器来执行处理。在此情况下，远程设备将提出对优选风格的视频的请求。

本发明的实施方案可以提供执行图形处理单元的任务所必需的架构，从而允许具有摄像机的在其他方面“笨”的终端记录视频并且将其上传以供作为后处理操作发生的面部/头发检测。

虽然在前述说明书中致力于将注意力吸引到被认为特别重要的本发明的那些特征，但是应理解，申请人关于本文所提到的和/或在附图中示出的任何可专利的特征或特征组合要求保护，无论是否对其进行了特别强调。

Claims

1.一种消息传送系统，其包括多个设备，其中，至少第一发送用户设备被布置成在使用中将图像传输到至少第二接收用户设备，所述图像包括从背景提取的发送者的头部的至少一部分的电子捕获图像。

2.根据权利要求1所述的系统，其中，所述图像被布置为经由通信网络发送，所述通信网络包括基于处理器的服务器。

3.根据权利要求1或2所述的系统，其中，所述系统被布置成在使用中从背景提取头部的至少一部分的图像，且更优选地提取面部的至少一部分的图像。

4.根据权利要求1至3中任一项所述的系统，其中，所述系统被布置成在使用中从第一发送者向第一接收者发送第一运动图像并且从第二发送者向第二接收者发送第二运动图像。

5.根据权利要求1至4中任一项所述的系统，其中，所述系统被布置成在使用中提供增强现实图像，所述系统包括：摄像机，用于使用记录设备记录包括主题和第一背景的基本图像；图像处理器，用于从所述基本图像提取主题图像；以及显示设备，用于将提取的主题图像与第二背景组合，其中所述主题图像包括头部的至少一部分。

6.根据权利要求5所述的系统，其中，所述提取的主题图像被布置成在使用中与由所述显示设备的摄像机成像的所述第二背景组合。

7.根据权利要求5或6所述的系统，其中，所述处理器被布置成在使用中相对于所述记录设备本地地、在所述设备内从所述基本图像提取所述主题。

8.根据权利要求5或6所述的系统，其中，所述处理器被布置成在使用中相对于所述记录设备远程地从所述基本图像提取所述主题图像。

9.根据权利要求5至8中任一项所述的系统，其中，所述处理器被布置成在使用中相对于所述基本图像的记录而言实时地从所述基本图像提取所述主题图像。10。

10.根据权利要求5至8中任一项所述的系统，其中，所述处理器被布置成在使用中在记录所述基本图像之后从所述基本图像提取所述主题图像。

11.一种在多个设备之间进行消息传送的方法，其中，至少第一发送用户被布置成在使用中将图像传输到至少第二接收用户，所述图像包括从背景提取的发送者的头部的至少一部分的电子捕获图像。

12.根据权利要求11所述的方法，其中，所述方法包括从背景提取头部的至少一部分的图像，所述头部的至少一部分包括面部的至少一部分。

13.根据权利要求11或12所述的方法，其中，所述图像包括运动视频图像。

14.根据权利要求11至13中任一项所述的方法，其中，所述方法包括从第一发送者向第一接收者发送第一运动图像以及从第二发送者向第二接收者发送第二运动图像。

15.根据权利要求11至14中任一项所述的方法，其中，所述方法包括通过以下所述提供增强现实图像：使用记录设备记录包括头部的至少一部分和第一背景的基本图像，从所述基本图像提取包括所述头部的所述至少一部分的主题图像，以及将提取的主题图像提供给显示设备用于与第二背景组合。

16.根据权利要求15所述的方法，其中，所述第二背景包括以下背景中的任一，但不限于以下背景：桌面背景，例如设备的显示屏幕；由应用程序提供的背景；或由摄像机捕获的背景。

17.根据权利要求15或16所述的方法，其中，所述背景由待在其上查看所述主题图像的设备的摄像机捕获。

18.根据权利要求15至17中任一项所述的方法，其中，所述提取的主题图像被提供给所述显示设备，用于与由所述显示设备的摄像机成像的第二背景组合。

19.根据权利要求15至18中任一项所述的方法，其中，从所述基本图像提取所述主题的步骤在所述设备内本地地执行。

20.根据权利要求15至18中任一项所述的方法，其中，从所述基本图像提取所述主题图像的步骤相对于所述记录设备远程地执行。

21.根据权利要求15至20中任一项所述的方法，其中，从所述基本图像提取所述主题图像的步骤相对于所述基本图像的记录而言实时地执行。

22.根据权利要求15至20中任一项所述的方法，其中，从所述基本图像提取所述主题图像的步骤在记录所述基本图像之后执行。

23.根据权利要求15至22中任一项所述的方法，其中，所述方法包括：记录包括主题和第一背景的基本图像；从所述背景提取主题作为主题图像；将所述主题图像发送到远程设备；以及在所述远程设备处将所述主题图像与第二背景组合。

24.根据权利要求23所述的方法，其中，所述方法包括通过使用以下过程中的一个或多个从基本图像提取主题：主题特征检测、主题颜色建模和主题形状检测。

25.一种用于自动地确定具有头发的面部或头部在电子捕获图像中的周界的装置，所述装置包括面部检测单元和周界检测单元，其中，在使用中，所述面部检测单元被布置成检测面部，且所述周界检测单元被布置成基于识别的面部特征的位置确定额头以及然后基于颜色变化识别所述额头上指示头发的边缘区域。

26.根据权利要求25所述的装置，其中，所述周界检测单元被布置成基于超出所述边缘区域的像素颜色指派头发颜色(C)。

27.根据权利要求26所述的装置，其中，所述周界检测单元被布置成在使用中确定所述面部周围的面积(A)以及搜索所述面积(A)内具有在所述颜色(C)的预定阈值范围内的颜色值的区域(R)。

28.一种自动地确定具有头发的面部在电子捕获图像中的周界的方法，所述方法包括：检测面部；基于识别的面部特征的位置确定额头；以及基于颜色变化识别所述额头上指示头发的边缘区域。

29.根据权利要求28所述的方法，其中，所述方法包括基于超出所述边缘区域的像素颜色指派头发颜色(C)。

30.根据权利要求29所述的方法，其中，所述方法包括：确定所述面部周围的面积(A)，以及搜索所述面积(A)内具有在所述颜色(C)的预定阈值内的颜色值的区域(R)。

31.一种用于确定用户对在包括摄像机的设备上递送给用户的媒体内容的反应的装置，所述装置被布置成在使用中播放所述内容以及监测所述用户的面部的图像，其中处理器被布置成通过分析所述图像来确定所述用户对所述内容的反应。

32.根据权利要求31所述的装置，其中，所述图像是运动图像。

33.根据权利要求31或32所述的装置，其中，所述处理器被布置成将所述图像与一个或多个存储的参考图像进行比较。

34.根据权利要求31至33中任一项所述的装置，其中，所述装置被布置成确定所述用户对所述内容是否具有积极反应、对所述内容是否具有消极反应和/或对所述内容的反应是否既不积极也不消极。

35.根据权利要求31至34中任一项所述的装置，其中，所述图像包括从背景提取的所述用户的面部的图像。

36.根据权利要求31至35中任一项所述的装置，其中，所述装置被布置成监测来自所述用户的其他反应标记，所述其他反应标记包括以下中的一个或多个(但不限于)：温度变化、心率/脉搏、出汗水平变化、血压变化和瞳孔扩大。

37.一种确定用户对在包括摄像机的设备上递送给用户的媒体内容的反应的方法，所述方法包括：在所述设备上播放所述内容；启用所述设备的摄像机以捕获所述用户的面部的图像；以及分析所述图像以确定所述用户对所述内容的反应。

38.一种用于与在包括显示器的设备上递送给所述用户的内容进行用户交互的装置，其中，所述装置被布置成在使用中在所述显示器上播放第一部分内容以及捕获来自所述用户的指令和/或反应，其中处理器被布置成基于来自所述用户的指令和/或反应选择并且在所述显示器上播放至少一后续部分内容。

39.一种与递送给用户的媒体内容进行交互的方法，所述方法包括：在用户设备的显示器上提供至少第一部分内容；捕获响应于所述内容来自用户的音频和/或视觉指令和/或反应；以及基于捕获的指令从另外的内容项的库选择另外的内容用于显示给所述用户。

40.一种对视频图像进行编码的方法，所述方法包括：记录包括主题部分和背景部分的视频图像；检测所述主题部分并且从所述背景部分提取所述主题部分；生成与所述主题部分的轮廓对应的掩码；以及将第一阿尔法值赋予所述轮廓内的区域并且将第二阿尔法值赋予所述轮廓外的区域，所述方法还包括使所述视频图像的帧成对，其中该对中的一个包括以模糊的背景为衬托的主题，该对中的另一个包括所述掩码。

41.一种视频编码设备，其被布置成在使用中：记录包括主题部分和背景部分的视频图像；检测所述主题部分并从所述背景部分提取所述主题部分；生成与所述主题部分的轮廓对应的掩码；以及将第一阿尔法值赋予所述轮廓内的区域并且将第二阿尔法值赋予所述轮廓外的区域，其中所述设备还被布置成在使用中使所述视频图像的帧成对，其中该对中的一个包括以模糊的背景为衬托的主题，该对中的另一个包括所述掩码。

42.根据权利要求40所述的方法，或根据权利要求41所述的设备，其中所述第一阿尔法值显著大于所述第二阿尔法值，以使得在所述轮廓外的所述掩码的区域表现为深色背景，更优选地为黑色背景。

43.一种程序，用于导致设备执行根据上述方法权利要求中任一项所述的方法。

44.一种计算机程序产品，所述计算机程序产品在其上存储、携带或通过其传输用于导致设备执行根据上述方法权利要求中任一项所述的方法的程序。