CN104335591A

CN104335591A - 用于基于上下文的媒体的自适应递送的系统

Info

Publication number: CN104335591A
Application number: CN201380027860.8A
Authority: CN
Inventors: G.A.凯因; M.D.科亚克利; R.K.蒙吉亚; C.E.卡舒布; A-M.曼索尔
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2012-06-30
Filing date: 2013-06-27
Publication date: 2015-02-04
Also published as: US20140006550A1; WO2014004865A1; JP2015517709A; EP2868108A4; EP2868108A1

Abstract

一种用于基于环境及其内的一个或多个用户的上下文特性来将媒体自适应递送到环境中的一个或多个用户的系统和方法。该系统包括媒体递送系统，其被配置成接收并处理由定位在环境内的一个或多个传感器所捕获的数据，并且基于所捕获的数据来确定环境的上下文特性。上下文特性可以包括但不限于一个或多个用户的身份、用户之间的通信的主题事项、一个或多个用户的物理运动（包括手势）、以及环境内的对象。

Description

用于基于上下文的媒体的自适应递送的系统

技术领域

本公开涉及媒体的递送，并且更特别地，涉及用于基于环境及其内的一个或多个用户的上下文特性来将媒体自适应递送到环境中的一个或多个用户的系统和方法。

背景技术

某些环境可以允许一个或多个人之间的交互。例如，一些空间可以促进该空间（在下文中称作“对话空间”）中的人之间的交互（例如通信）。对话空间通常可以包括例如人的家的起居室、等候室、酒店和/或办公建筑物的大厅等，其中一个或多个人可以彼此聚集和交互。对话空间可以包括各种形式的媒体（例如杂志、书本、音乐、电视等），其可以向一个或多个人提供娱乐并且还可以培养人之间的交互。

随着数字形式的媒体的持续增长，对话空间可以包含可用于人的较少的物理媒体。如果在主动对话期间人希望引用具有与对话相关的内容的媒体（例如示出具有与对话内容相关的主题事项的新文章），那么人可能必须手动地加入媒体设备（例如膝上型计算机、智能电话、平板计算机等）以便获得此类媒体及相关内容。这对于参加到对话中的所有人而言可能是令人挫败的和/或烦恼的事情，并且可能中断对话流。

附图说明

所要求保护的主题事项的特征和优点将从与其相一致的实施例的以下详细描述变得显而易见，该描述应当参照附图进行考虑，其中：

图1是图示了与本公开的各个实施例相一致的用于基于上下文特性来将媒体自适应递送到环境中的一个或多个用户的系统的一个实施例的框图；

图2是更详细地图示了图1的系统的一部分的框图；

图3是更详细地图示了图1的系统的另一部分的框图；

图4是图示了与本公开的各个实施例相一致的系统的一个实施例的具有在其内并彼此交互的多个用户的环境的描绘；

图5是图示了根据本公开的至少一个实施例的用于媒体的自适应递送的一个实施例的流程图。

尽管以下具体实施方式将参照说明性的实施例继续进行，但是其许多替换形式、修改和变形将对于本领域技术人员是显而易见的。

具体实施方式

以概述的方式，本公开大体上针对用于基于环境及其内的一个或多个用户的上下文特性来将媒体自适应递送到环境中的一个或多个用户的系统和方法。该系统包括媒体递送系统，其被配置成接收并处理由定位在环境内的一个或多个传感器所捕获的数据并且基于所捕获的数据来确定环境的上下文特性。上下文特性可以包括但不限于一个或多个用户的身份、一个或多个用户的物理运动（包括手势）、环境内的对象、以及用户之间的通信的主题事项。

媒体递送系统还被配置成至少部分地基于环境的上下文特性而标识来自媒体源的媒体以供呈现在环境内的一个或多个媒体设备上。所标识的媒体包括与环境的上下文特性相关的内容。媒体递送系统还可以被配置成允许一个或多个用户与呈现在一个或多个媒体设备上的所标识的媒体进行交互。

与本公开相一致的系统提供了基于环境的上下文特性（包括用户之间的对话的所识别内容）将相关媒体递送到环境中的一个或多个用户的自动且直观的装置。该系统可以被配置成连续地监视环境的上下文特性以便实时地或者近实时地将具有相关内容的媒体自适应地递送到环境中的用户。因此，该系统可以促进增强的交互并且培养用户之间的进一步通信。

转到图1，大体上图示了与本公开相一致的系统10的一个实施例。系统10包括媒体递送系统12、至少一个传感器14、媒体源16以及至少一个媒体设备18。如本文中更详细地讨论的，媒体递送系统12被配置成接收来自至少一个传感器14的所捕获的数据，并且基于所捕获的数据来标识在其内具有一个或多个用户的环境的至少一个上下文特性。术语“环境”可以指代其中一个或多个人（例如用户）可以彼此聚集和交互的空间，诸如例如家的普通房间（例如起居室、家庭活动室、厨房等）、等候室、酒店和办公建筑物的大厅等。上下文特性可以包括但不限于一个或多个用户的身份、一个或多个用户的物理运动（包括手势）、环境内的对象、以及用户之间的通信的主题事项。

媒体递送系统12还被配置成与媒体源16通信并且针对与至少一个上下文特性相关的内容而在所述媒体源16上搜索媒体。当标识与至少一个上下文特性相关的媒体内容时，媒体递送系统12还被配置成将相关媒体内容发送到至少一个媒体设备18以供呈现给环境内的一个或多个用户。媒体递送系统12还可以被配置成允许一个或多个用户与呈现在媒体设备18上的相关媒体内容进行交互。

现在转到图2，更详细地图示了图1的系统10的一部分。如之前所描述的，媒体递送系统12被配置成接收来自至少一个传感器14的所捕获的数据。如所示出的，系统10可以包括被配置成捕获与环境及其内的用户的各种特性（诸如视觉特性和/或听觉特性）相关的数据的各种传感器。例如在所图示的实施例中，系统10包括被配置成捕获环境及其内的一个或多个用户的图像的至少一个摄像机20和被配置成捕获环境的声音数据（包括一个或多个用户的语音数据）的至少一个麦克风22。如本文更详细地描述的，麦克风22还可以被配置成从环境捕获周围噪声。

媒体递送系统12还可以包括识别模块24、26、28、34、36和38，其中识别模块中的每个被配置成接收由传感器中的至少一个所捕获的数据并且基于所捕获的数据建立与环境及其内的用户相关联的上下文特性，这在本文更详细地进行描述。

在所图示的实施例中，媒体递送系统12包括用户识别模块24、运动识别模块34、对象识别模块36和言语识别模块38。用户识别模块24被配置成接收由至少一个摄像机20所捕获的一个或多个数字图像和由至少一个麦克风22所捕获的来自环境内的一个或多个用户的语音数据。用户识别模块24还被配置成分析图像和语音数据并且基于图像和语音数据分析来标识一个或多个用户。

如所示出的，用户识别模块24包括面部识别模块26和语音识别模块28。面部识别模块26被配置成接收由至少一个摄像机20所捕获的一个或多个数字图像。如本文所描述的，摄像机20包括用于捕获代表包括一个或多个人的环境的数字图像的任何设备（已知的或者随后发现的），并且可以具有用于环境中的一个或多个人的面部分析的足够分辨率。

例如，摄像机20可以包括照相机（即，被配置成捕获静物照片的摄像机）或者视频摄像机（即，被配置成采用多个帧捕获多个移动图像的摄像机）。摄像机20可以被配置成采用可见光谱或者利用其他部分电磁波谱（例如但不限于，红外波谱、紫外波谱等）捕获图像。应指出，摄像机20可以并入到媒体递送系统12或者媒体设备18内，或者可以是被配置成经由任何已知的无线或有线通信与媒体递送系统12和/或媒体设备18通信的单独设备。摄像机20可以包括例如web（网络）摄像机（如可以与个人计算机和/或TV监视器相关联的）、手持式设备摄像机（例如，蜂窝电话摄像机、智能电话摄像机（例如，与iPhone®、Trio®、Blackberry®等相关联的摄像机）、膝上型计算机摄像机、平板计算机（例如但不限于，iPad®、Galaxy Tab®等）、电子书阅读器（例如但不限于，Kindle®、Nook®等）等。

在一个实施例中，系统10可以包括环境内的定位于期望的位置中的单个摄像机20，诸如例如接近媒体设备18并且被配置成捕获在靠近媒体设备18附近内的环境及环境内的用户的图像。在其他实施例中，系统可以包括定位在环境中的不同位置中的多个摄像机20，其中每个摄像机20被配置成捕获相关联的位置（包括相关联的位置内的所有用户）的图像。

当接收到来自摄像机20的（一个或多个）图像时，面部识别模块26可以被配置成标识（一个或多个）图像内的面部和/或面部区域并且确定在（一个或多个）图像中所捕获的用户的一个或多个特性。如本领域普通技术人员通常所理解的，面部识别模块26可以被配置成使用任何已知的内部生物计量建模和/或分析方法来利用（一个或多个）图像标识面部和/或面部区域。例如，面部识别模块26可以包括定制的、专属的、已知的和/或后开发的面部识别和面部特性码（或者指令集）、硬件和/或固件，其通常是被良好定义并且可操作以接收标准格式的图像并至少在某种程度上标识图像中的面部和一个或多个面部特性。附加地，面部识别模块26可以被配置成通过从用户的面部的图像提取界标或者特征来标识用户的面部和/或面部特性。例如，面部识别模块26可以分析眼睛、鼻子、脸颊和下巴的相对位置、大小和/或形状，以例如形成面部模式。

当标识环境内的一个或多个用户的面部特性和/或模式时，面部识别模块26可以被配置成将所标识的面部模式与用户数据库30的用户模型32（1）-32（n）进行比较以建立（一个或多个）图像中的（一个或多个）用户的潜在匹配。特别地，每个用户模型32（1）-32（n）包括相关联的用户的标识数据。例如，在面部识别模块26的情况下，每个用户模型32包括相关联的用户的所标识的面部特性和/或模式。

面部识别模块26可以使用用户的所标识的面部模式来针对具有匹配面部模式的图像而搜索用户模型32（1）-32（n）。特别地，面部识别模块26可以被配置成将所标识的面部模式与存储在用户模型32（1）-32（n）中的图像进行比较。该比较可以基于被应用于一组突出的面部特征的模板匹配技术。此类已知面部识别系统可以基于但不限于几何技术（其着眼于区别特征）和/或光度学技术（这是一种令人满意的方案，其将图像提取成值并将值与模板进行比较以消除变化）。在未找到匹配的情况下，面部识别模块26可以被配置成创建包括（一个或多个）图像的所标识的面部模式的新用户模型32，以使得在监视环境的将来情节上，用户可以被标识。

语音识别模块28被配置成接收由至少一个麦克风22所捕获的来自环境内的一个或多个用户的语音数据。麦克风22包括用于捕获一个或多个人的语音数据的任何设备（已知的或者随后发现的），并且可以具有用于一个或多个人的语音分析的足够数字分辨率。应指出，麦克风可以并入到媒体递送系统12或者媒体设备18内，或者可以是被配置成经由任何已知的有线或无线通信与媒体递送系统12或者媒体设备18通信的单独设备。

在一个实施例中，系统10可以包括被配置成捕获包括环境中的所有用户的语音数据的单个麦克风22。在其他实施例中，系统10可以包括定位在整个环境内的多个麦克风，其中一些麦克风可以在一个或多个相关联的媒体设备18附近并且可以被配置成捕获接近于相关联的媒体设备18的一个或多个用户的语音数据。例如，系统10可以包括多个媒体设备18，其中每个媒体设备18可以具有定位在其附近的麦克风22，以使得每个麦克风22可以捕获紧密接近于相关联的媒体设备18的一个或多个用户的语音数据。

当接收到来自麦克风22的语音数据时，语音识别模块28可以被配置成标识一个或多个用户的语音。如本领域普通技术人员通常所理解的，语音识别模块28可以被配置成使用任何已知的语音分析方法来利用语音数据标识特定的语音模式。例如，语音识别模块28可以包括定制的、专属的、已知的和/或后开发的语音识别和特性码（或者指令集）、硬件和/或固件，其通常被良好定义并且可操作以接收语音数据并标识语音和一个或多个语音特性。应指出，麦克风22可以提供允许语音识别模块28从周围噪声标识并提取语音输入的改进装置。例如，麦克风22可以包括麦克风阵列。如本领域技术人员通常所理解的其他已知噪声隔离技术可以被包括在与本公开相一致的系统10中。

当标识一个或多个用户的语音模式之后，语音识别模块28可以被配置成将所标识的语音模式与用户数据库30的用户模型32（1）-32（n）进行比较以建立（一个或多个）用户的潜在匹配，这要么是单独地进行要么是与面部识别模块26的分析相组合地进行。特别地，每个用户模型32（1）-32（n）包括相关联的用户的标识数据。例如，在语音识别模块28的情况下，每个用户模型32包括相关联的用户的所标识的语音特性和/或模式。

语音识别模块28可以使用用户的所标识的语音模式来针对具有匹配的语音特性和/或模式的语音数据而搜索用户模型32（1）-32（n）。特别地，语音识别模块28可以被配置成将所标识的语音模式与存储在用户模型32（1）-32（n）中的语音数据进行比较。在未找到匹配的情况下，语音识别模块28可以被配置成创建包括语音数据的所标识的语音模式的新用户模型32，以使得在监视环境的将来情节上，用户可以被标识。

除确定环境中的一个或多个用户的身份之外，媒体递送系统12还包括运动识别模块30，其被配置成接收并分析由至少一个摄像机20所捕获的一个或多个数字图像并且基于图像分析来确定一个或多个用户的一个或多个手势。如本领域普通技术人员通常所理解的，运动识别模块30可以被配置成使用任何已知的内部生物计量建模和/或分析方法来利用（一个或多个）图像标识手部和/或手部区域。例如，运动识别模块30可以包括定制的、专属的、已知的和/或后开发的手部识别和手部特性码（或者指令集）、硬件和/或固件，其通常被良好定义并且可操作以接收标准格式的图像并且至少在某种程度上标识图像中的手部和一个或多个手部特性。

例如，运动识别模块34可以被配置成通过一系列图像（例如，以24帧每秒的视频帧）来检测和标识例如用户的手部特性。例如，运动识别模块34可以包括定制的、专属的、已知的和/或后开发的手部追踪码（或者指令集），其通常被良好定义并且可操作以接收一系列图像（例如但不限于，RGB彩色图像）并且至少在某种程度上追踪一系列图像中的手部。运动识别模块34还可以包括定制的、专属的、已知的和/或后开发的手部形状码（或者指令集），其通常被良好定义并且可操作以标识手部的一个或多个形状特征并且标识图像中的手部手势。如本领域技术人员所理解的，媒体递送系统12可以由一个或多个用户经由手部手势进行控制。

此外，运动识别模块34可以单独地或者与语音识别模块28相组合地被配置成提供与环境内的任何用户和/或对象的检测到的运动相关的数据以供控制系统10的功率状态。更具体地，系统10可以被配置成提供从主动状态（例如，基于上下文特性连续地监视和标识环境及其内的用户的上下文特性并且呈现媒体内容）和非主动（例如低功率）状态（例如，在不存在用户的时候监视环境并且停用媒体内容的呈现）转移的装置。例如，环境中的由运动识别模块34所检测的运动量和由语音识别模块28所检测的噪声量可以被用于将系统10在主动和非主动功率状态之间转移的确定中。应指出，运动识别模块38和语音识别模块28可以被配置成在非主动的功率状态中操作。

媒体递送系统12还包括对象识别模块36，其被配置成接收并分析由至少一个摄像机20所捕获的一个或多个数字图像并且确定图像内的一个或多个对象。更具体地，对象识别模块36可以包括定制的、专属的、已知的和/或后开发的对象检测和标识码（或者指令集），其通常被良好定义并且可操作以检测图像内的一个或多个对象并基于对象的形状特征来标识对象。如本文更详细地描述的，媒体递送系统12可以被配置成标识具有与由对象识别模块36所标识的一个或多个对象相关的内容的媒体以供呈现给环境内的用户。例如，用户可以被呈现以具有与所标识的对象对应的信息的相关媒体内容，诸如例如显示用于所标识的对象的广告、显示类似的对象、显示在其内扩充所标识的对象的视频（例如，持有玩具（例如Elmo）和显示器的用户呈现与玩具相关的背景信息（芝麻街街区）的图像）。

媒体递送系统12还包括言语识别模块38，其被配置成接收由至少一个麦克风22所捕获的来自一个或多个用户的语音数据。当接收到来自麦克风22的语音数据时，言语识别模块38可以被配置成使用任何已知的言语分析方法来标识语音数据的特定主题事项。例如，言语识别模块38可以包括定制的、专属的、已知的和/或后开发的言语识别和特性码（或者指令集）、硬件和/或固件，其通常被良好定义并且可操作以接收语音数据并将言语转变成文本数据。言语识别模块38可以被配置成接收与用户之间的对话相关的语音数据，其中言语识别模块38可以被配置成标识指示对话的主题事项的一个或多个关键词。附加地，言语识别模块38可以被配置成标识来自一个或多个用户的一个或多个口头命令以控制媒体递送系统12，这如本领域技术人员通常所理解的那样。

附加地，言语识别模块38可以被配置成检测并提取来自由麦克风22所捕获的语音数据的周围噪声。言语识别模块38可以包括定制的、专属的、已知的和/或后开发的噪声识别和特性码（或者指令集）、硬件和/或固件，其通常被良好定义并且可操作以解译语音数据的周围噪声并标识周围噪声的主题事项，诸如例如标识所呈现的音频和/或视频内容的主题事项（例如，音乐、电影、电视等）。例如，言语识别模块38可以被配置成标识在环境中播放的音乐（例如标识对于歌曲的歌词）、在环境中播放的电影（例如标识电影的台词）、电视节目、电视广播等。

继而，媒体递送系统12可以被配置成标识具有与周围噪声的所标识的主题事项相关的内容的媒体以供呈现给环境内的用户。例如，用户可以被呈现以当前在背景中播放的歌曲的歌词、或者当前在所观看的足球赛中踢球的运动员的统计资料等。

媒体递送系统12还包括上下文管理模块40，其被配置成接收来自每个识别模块（24、34、36和38）的数据。更具体地，识别模块可以向上下文管理模块40提供环境及其内的用户的上下文特性。例如，用户识别模块24可以提供与一个或多个用户的身份相关的数据并且运动识别模块34可以提供与一个或多个用户的所检测到的手势相关的数据。附加地，对象识别模块36可以提供与环境内的所识别的对象相关的数据，并且言语识别模块38可以提供与环境中的用户之间的一个或多个对话的主题事项相关的数据。

在系统10包括定位在相关联的媒体设备18内或其附近的多个摄像机20和麦克风22及相关联的识别模块（24、34、36、38）的情况下，上下文管理模块40可以被配置成确定其中上下文特性相关的相关联的媒体设备18。

如图3中所示，上下文管理模块40可以包括主题确定模块42和搜索模块44。一般而言，主题确定模块42可以被配置成分析来自识别模块（24、34、36、38）的上下文特性并且基于上下文特性来确定环境内的一个或多个用户的活动的整体主题（话题）。例如，活动可以包括单个用户在环境内的和/或与环境交互的活动（例如但不限于，玩玩具）。活动还可以包括环境内的多个用户活动，包括彼此交互（例如对话）。例如，主题确定模块42可以被配置成对从至少一个识别模块（24、34、36、38）接收的数据进行分析并且基于数据的分析确定主题。当分析与上下文特性相关的数据时，上下文管理模块40可以被配置成将数据存储在上下文数据库46中。上下文数据库46可以包括对应于每个上下文特性（例如，用户身份、对象、手势、言语的主题事项等）的一个或多个简档。

当通过主题确定模块42建立整体主题时，上下文管理模块40可以被配置成与媒体源16通信并且搜索具有与整体主题相关的内容的媒体。如所示出的，上下文管理模块40可以经由网络48与媒体源16通信。然而应指出，媒体源16可以是本地的，并且照此上下文管理模块40和媒体源16可以经由任何已知的有线或无线通信协议彼此通信。

网络48可以是承载数据的任何网络。可以用作网络48的合适网络的非限制性示例包括因特网、专用网络、虚拟专用网络（VPN）、公共开关电话网络（PSTN）、集成服务数字网络（ISDN）、数字订户链路网络（DSL）、无线数据网络（例如蜂窝电话网络）、能够承载数据的其他网络、以及其组合。在一些实施例中，网络48选自因特网、至少一个无线网络、至少一个蜂窝电话网络、以及其组合。在并非限制的情况下，网络48优选为因特网。

媒体源16可以是具有被配置成经由媒体设备18呈现给环境的一个或多个用户的内容的媒体的任何源。在所图示的实施例中，源包括但不限于公共和私人网站、社交联网网站、音频和/或视频网站、天气中心、新闻和其他媒体出口、其组合等。

还应指出，媒体源16可以包括本地媒体源，包括但不限于可选种类的消费者电子设备，包括但不限于个人计算机（PC）、平板、笔记本、智能电话、磁带录影机（VCR）、光盘/数字视频盘设备（CD/DVD设备）、接收线缆TV信号的线缆解码器、接收卫星天线信号的卫星解码器、和/或被配置成存储和提供各种类型的可选编程的媒体服务器。例如，媒体源16可以包括环境内的一个或多个用户所持有的本地设备。

在所图示实施例中，搜索模块44可以被配置成针对具有至少与环境内的一个或多个用户的活动的整体主题相关的内容的媒体而搜索媒体源16。在一些实施例中，搜索模块44可以被配置成针对具有与存储在上下文数据库46内的每个上下文特性相关的内容的媒体而搜索媒体源16。如通常所理解的，搜索模块44可以包括定制的、专属的、已知的和/或后开发的搜索和识别码（或者指令集）、硬件和/或固件，其通常被良好定义并且可操作以生成与整体主题相关的搜索查询并且搜索媒体源16并标识来自媒体源16的对应于搜索查询和整体主题的媒体内容。例如，搜索模块44可以包括搜索引擎。如可以了解的，搜索模块44可以包括其他已知的搜索组件。

当标识具有与对整体主题有贡献的一个或多个上下文特性相关的内容的媒体时，上下文管理模块40被配置成接收（例如下载、流送等）相关媒体内容。上下文管理模块40还可以被配置成将具有索引的上下文数据库46的一个或多个简档条目附加到相关媒体内容。更具体地，上下文管理模块40被配置成聚合由识别模块（24、34、36、38）中的每个所识别的上下文特性和来自媒体源16的相关媒体内容。

上下文管理模块40还被配置成将与来自媒体源16的相关媒体内容相关的数据发送到上下文输出模块50以供呈现在媒体设备18上。上下文输出模块50可以被配置成提供处理（如果必需的话）和相关媒体内容到媒体设备18的传输，以使得媒体设备18可以将相关媒体内容呈现给用户。例如，上下文输出模块50可以被配置成执行各种形式的数据处理，包括但不限于数据转换、数据压缩、数据渲染和数据变换。如通常所理解的，上下文输出模块50可以包括被配置成执行音频和/或视频处理（例如，压缩、转换、渲染和变换等）的任何已知软件和/或硬件。

上下文输出模块50可以被配置成经由任何已知的无线传输协议与媒体设备18无线地通信（例如发送和接收信号）。例如，上下文输出模块50可以包括WiFi使能的硬件，其许可根据自2012年6月起的IEEE 802.11标准的最新发布版本之一的无线通信。也可以使用其他无线网络协议标准，其要么作为所标识的协议的替换形式要么作为所标识的协议的附加。其他网络标准可以包括蓝牙、红外传输协议、或者具有其他规格的无线传输协议（例如但不限于，广域网（WAN）、局域网（LAN）等）。

当接收到来自上下文输出模块50的相关媒体内容时，媒体设备18可以被配置成将相关媒体内容呈现给环境中的一个或多个用户。相关媒体内容可以包括可呈现在媒体设备18上的任何类型的数字媒体，诸如例如图像、视频内容（例如，电影、电视节目）、音频内容（例如音乐）、电子书内容、软件应用、游戏应用等。媒体内容可以例如经由显示器52和/扬声器（未示出）视觉地和/或听觉地在媒体设备18上呈现给查看者。媒体设备18可以包括任何类型的显示器52，包括但不限于电视、电子公告板、数字标牌、个人计算机（例如台式计算机、膝上型计算机、上网本、平板等）、电子书、移动电话（例如智能电话等）、音乐播放器等。

现在转到图4，一般性地图示了包括与本公开的各个实施例相一致的系统10的环境的描述。如所示出的，环境通常包括具有用户100（1）-100（4）的第一房间（房间A）和具有用户100（5）的第二房间（房间B）。在所图示实施例中，媒体递送系统12a可以定位在房间A内并且被配置成与至少一个媒体设备18（1）-18（3）通信（例如发送和接收信号）。

如之前所描述的，传感器（未示出）可以定位在整个环境内的一个或多个期望位置中。在一个实施例中，例如，传感器可以被包括在相应的媒体设备18（1）-18（3）内。照此，媒体设备18（3）的传感器（例如摄像机和麦克风）可以被配置成捕获用户100（1）和100（2）的图像和语音数据，这是因为媒体设备18（3）紧密接近于用户100（1）和100（2）。类似地，媒体18（2）的传感器由于紧密接近而可以被配置成捕获与用户100（3）和100（4）相关的数据。因为设备18（1）位于具有用户100（5）的房间B中，所以设备18（1）的传感器可以被配置成捕获与房间B和用户100（5）相关的数据。

因而，媒体递送系统12a可以被配置成标识与来自每个媒体设备18（1）-18（3）的传感器的所捕获的数据相关联的上下文特性。例如，媒体递送系统12a可以被配置成标识与用户100（1）和100（2）相关的上下文特性，并且特别地，确定它们彼此交互（例如对话）的整体主题（话题）。同样，媒体递送系统12a可以被配置成标识与其他用户100（3）-100（5）和整体主题相关的上下文特性。媒体递送系统12a还可以搜索具有与整体主题相关的内容的媒体以供显示在相关联的设备18（1）-18（3）上。

例如，用户100（1）和100（2）可以在讨论关于特定名人的最新八卦。照此，媒体递送系统12a可以被配置成至少基于对话的言语识别来标识对话的话题（例如，名人八卦）。继而，媒体递送系统12a可以搜索媒体源并且标识具有与名人八卦相关的内容的媒体并将相关媒体内容发送给设备18（3）以供显示。相关媒体内容可以包括例如与名人或者名人的最新照片相关的来自在线八卦杂志的数字内容。

同样，用户100（3）和100（4）可以在讨论最近的游轮度假。媒体递送系统12a可以被配置成标识对话的话题（例如游轮和/或目的地）并且搜索并标识具有与游轮和/或目的地相关的内容的媒体并将相关媒体内容发送给设备18（2）。尽管在另一房间（房间B）中并且显然并未参与到与其他用户的讨论中，但是用户100（5）仍然可以被呈现以与房间B和用户100（5）的一个或多个上下文特性相关的媒体内容。例如，用户100（5）可能在洗盘子并且上下文特性可以对应于该动作。照此，媒体递送系统12a可以被配置成标识具有与洗盘子相关的内容的媒体（例如针对盘子清洁剂的广告）并且可以将此类媒体内容发送给设备18（1）以供呈现给用户100（5）。

现在转到图5，图示了与本公开相一致的用于媒体的自适应递送的方法500的一个实施例的流程图。方法500包括监视环境（操作510）和捕获与环境及环境内的一个或多个用户相关的数据（520）。数据可以由多个传感器中的一个进行捕获。数据可以由被配置成检测环境及其内的一个或多个用户的各种特性的多种传感器来捕获。传感器可以包括至少一个摄像机和至少一个麦克风。

环境及其内的用户的一个或多个上下文特性可以从所捕获的数据被标识（操作530）。特别地，识别模块可以接收由相关联的传感器所捕获的数据，其中每个识别模块可以分析所捕获的数据以确定以下上下文特性中的一个或多个：一个或多个用户的身份；一个或多个用户的物理运动，诸如手势；环境中的一个或多个对象的身份；以及一个或多个用户之间的对话的主题事项。

方法300还包括标识具有与上下文特性相关的内容的媒体（操作540）。例如，诸如web内容的媒体（例如新故事、照片、音乐等）可以被标识为具有相关于一个或多个上下文特性的内容。相关媒体内容被呈现给环境内的用户（操作550）。

尽管图5图示了根据各个实施例的方法操作，但是应理解，在任一个实施例中，并不是所有的这些操作都是必需的。实际上，本文全面地考虑，在本公开的其他实施例中，图5中所描绘的操作可以以未在任何附图中具体示出的方式相组合，而其仍然与本公开完全相一致。因而，针对未在一个附图中准确示出的特征和/或操作的权利要求被视为在本公开的范围和内容内。

附加地，用于实施例的操作已经参照以上附图及所附示例被进一步地描述。一些附图可以包括逻辑流。尽管本文所呈现的此类附图可以包括特定的逻辑流，但是可以了解，逻辑流仅仅提供如何实现本文所述一般功能的示例。此外，给定的逻辑流未必必须要以所呈现的次序来执行，除非另有明确指示。另外，给定的逻辑流可以通过由硬件元件、处理器执行的软件元件或其任何组合来实现。实施例并不限于该上下文。

本文已经描述了各种特征、方面和实施例。如本领域技术人员将理解的，所述特征、方面和实施例容许彼此组合以及变形和修改。因此，本公开应当被视为包含此类组合、变形和修改。因而，本发明的幅度和范围应当不受以上所述任何示例性实施例的限制，而是应当仅依照以下权利要求及其等同形式来限定。

如本文中任何实施例所使用的，术语“模块”可以指代被配置成执行上述操作中的任一个的软件、固件和/或电路。软件可以体现为软件封装、代码、指令、指令集和/或记录在非临时计算机可读存储介质上的数据。固件可以体现为代码、指令或指令集和/或存储器设备中的硬编码（例如非易失性）的数据。如本文中的任何实施例所使用的，“电路”可以例如单个地或组合地包括硬线式电路、诸如包括一个或多个单独的指令处理核的计算机处理器之类的可编程电路、静态机器电路、和/或存储由可编程电路执行的指令的固件。模块可以共同地或者单独地体现为形成较大系统的一部分的电路，例如集成电路（IC）、片上系统（SoC）、台式计算机、膝上型计算机、平板计算机、服务器、智能电话等。

本文所述的任何操作可以在包括一个或多个的系统中实现，所述存储介质具有单独地或者组合地存储在其上的指令，所述指令在由一个或多个处理器执行时执行所述方法。本文，处理器可以包括例如服务器CPU、移动设备CPU、和/或其他可编程电路。同样，意图是，本文所述操作可以跨诸如多于一个不同物理位置处的处理结构之类的多个物理设备进行分布。存储介质可以包括任何类型的有形介质，例如包括硬盘、软盘、光盘、压缩盘只读存储器（CD-ROM）、可重写压缩盘（CD-RW）和磁性光盘的任何类型盘、半导体设备（诸如只读存储器（ROM）、随机存取存储器（RAM）（诸如动态和静态RAM）、可擦除可编程只读存储器（EPROM）、电可擦除可编程只读存储器（EEPROM））、闪存、固态盘（SSD）、磁或光卡、或者适于存储电子指令的任何类型的介质。其他实施例可以被实现为由可编程控制设备执行的软件模块。存储介质可以是非临时的。

已经在本文中采用的术语和表述被用作描述性的且非限制性的，并且在使用此类术语和表述中不意图排除所示出和描述的特征（或其部分）的任何等同形式，并且应认识到，在权利要求的范围内的各种修改是可能的。因而，权利要求意图涵盖所有此类等同形式。本文已经描述了各种特征、方面和实施例。如本领域技术人员将理解的，所述特征、方面和实施例容许彼此组合以及变形和修改。本公开因此应当被视为包含此类组合、变形和修改。

如本文所描述的，各个实施例可以使用硬件元件、软件元件或其任何组合来实现。硬件元件的示例可以包括处理器、微处理器、电路、电路元件（例如晶体管、电阻器、电容器、电感器等）、集成电路、专用集成电路（ASIC）、可编程逻辑设备（PLD）、数字信号处理器（DSP）、现场可编程门阵列（FPGA）、逻辑门、寄存器、半导体设备、芯片、微芯片、芯片集等。

在整个说明书中对“一个实施例”或“实施例”的引用意味着结合该实施例描述的特定特征、结构或特性被包括在至少一个实施例中。因而，短语“在一个实施例中”或“在实施例中”在整个说明书的不同位置中的出现未必都是指代相同的实施例。此外，所述特定特征、结构或特性可以以任何合适的方式在一个或多个实施例中相组合。

根据一个方面，提供有一种用于媒体的自适应递送以供呈现给环境中的一个或多个用户的系统。该系统包括至少一个传感器，其被配置成捕获与环境及环境内的一个或多个用户相关的数据。该系统还包括至少一个识别模块，其被配置成从至少一个传感器接收所捕获的数据并且基于所述数据标识环境和一个或多个用户的一个或多个特性。该系统还包括媒体递送系统，其被配置成从至少一个识别模块接收所标识的一个或多个特性并且基于所标识的一个或多个特性来访问并标识由媒体源所提供的媒体。所标识的媒体具有与所标识的一个或多个特性相关的内容。该系统还包括至少一个媒体设备，其被配置成从媒体递送系统接收相关媒体内容并且将相关媒体内容呈现给环境内的一个或多个用户。

另一示例性系统包括上述组件，并且所述至少一个传感器从包括摄像机和麦克风的组中选择。摄像机被配置成捕获环境及其内的一个或多个用户的一个或多个图像，并且麦克风被配置成捕获环境的声音，包括其内的一个或多个用户的语音数据。

另一示例性系统包括上述组件，并且所述至少一个识别模块被配置成基于所述一个或多个图像和声音来标识环境及其内的一个或多个用户的一个或多个特性。

另一示例性系统包括上述组件，并且所述一个或多个特性从包括如下内容的组中选择：一个或多个用户的身份、一个或多个用户之间的通信的主题事项、一个或多个用户的物理运动、以及在环境内标识的对象。

另一示例性系统包括上述组件，并且所述至少一个识别模块包括用户识别模块，其被配置成接收并分析来自摄像机的一个或多个图像和来自麦克风的语音数据并且基于图像和语音数据分析来标识一个或多个用户的用户特性。

另一示例性系统包括上述组件，并且用户识别模块包括被配置成标识一个或多个图像中的用户的面部和面部的一个或多个面部特性的面部检测模块以及被配置成标识语音数据中的用户的语音和一个或多个语音特性的语音识别模块。面部检测和语音识别模块被配置成标识存储在用户数据库中的具有与面部和语音特性对应的数据的用户模型。

另一示例性系统包括上述组件，并且所述至少一个识别模块包括言语识别模块，其被配置成接收并分析来自麦克风的语音数据并且标识语音数据的主题事项。

另一示例性系统包括上述组件，并且媒体递送系统包括上下文管理模块，其被配置成接收并分析来自所述至少一个识别模块的一个或多个特性，并且至少部分地基于所述一个或多个特性来确定与环境内的一个或多个用户的活动对应的整体主题。

另一示例性系统包括上述组件，并且上下文管理模块还被配置成针对具有与整体主题相关的内容的媒体而访问和搜索媒体源并且将与相关媒体内容相关的数据发送到至少一个媒体设备以供呈现给一个或多个用户。

另一示例性系统包括上述组件，并且上下文管理模块被配置成将与一个或多个特性相关的数据存储在上下文数据库的相关联的简档中，并且还将具有索引的相关联的简档附加到相关媒体内容。

根据另一方面，提供有一种用于媒体的自适应递送以供呈现给环境中的一个或多个用户的装置。该装置包括上下文管理模块，其被配置成从至少一个识别模块接收环境及环境内的一个或多个用户的一个或多个特性并且基于所述一个或多个特性标识来自媒体源的媒体。所标识的媒体具有与所述一个或多个特性相关的内容，并且将相关媒体内容提供给媒体设备以供呈现给环境内的一个或多个用户。

另一示例性系统包括上述组件，并且上下文管理模块包括主题确定模块，其被配置成分析一个或多个特性并且至少部分地基于所述一个或多个特性来确定与环境内的一个或多个用户的活动对应的整体主题。

另一示例性系统包括上述组件，并且上下文管理模块还包括搜索模块，其被配置成针对具有至少与由主题确定模块所建立的整体主题相关的内容的媒体而搜索媒体源。

另一示例性系统包括上述组件，并且上下文管理模块被配置成将与一个或多个特性相关的数据存储在上下文数据库的相关联的简档中并且还将具有索引的相关联的简档附加到相关媒体内容。

根据另一方面，提供有一种包括存储于其上的指令的至少一个计算机可访问介质。当被一个或多个处理器执行时，所述指令可以使计算机系统执行用于媒体的自适应递送以供呈现给环境中的一个或多个用户的操作。所述操作包括：接收由至少一个传感器所捕获的数据；基于所述数据来标识环境及环境内的一个或多个用户的一个或多个特性；基于所述一个或多个特性来标识来自媒体源的媒体，所标识的媒体具有与所述一个或多个特性相关的内容；以及将相关媒体内容发送到至少一个媒体设备以供呈现给环境中的一个或多个用户。

另一示例性计算机可访问介质包括上述操作，并且所述一个或多个特性从包括如下内容的组中选择：一个或多个用户的身份、一个或多个用户之间的通信的主题事项、一个或多个用户的物理运动、以及在环境内标识的对象。

另一示例性计算机可访问介质包括上述操作，并且所述数据从包括如下内容的组中选择：环境及环境内的一个或多个用户的一个或多个图像、以及环境及环境内的一个或多个用户的声音数据。

另一示例性计算机可访问介质包括上述操作，并且还包括分析所述一个或多个图像和声音数据并且基于图像和声音数据分析来标识一个或多个用户的用户特性。

另一示例性计算机可访问介质包括上述操作，并且分析所述一个或多个图像和声音数据包括标识一个或多个图像中的用户的面部和面部的一个或多个面部特性以及标识声音数据中的用户的语音和一个或多个语音特性。

另一示例性计算机可访问介质包括上述操作，并且还包括分析声音数据以及标识声音数据的主题事项。

另一示例性计算机可访问介质包括上述操作，并且还包括将与所述一个或多个特性相关的数据发送到上下文数据库的相关联的简档以及将具有索引的上下文数据库的相关联的简档附加到相关媒体内容。

根据另一方面，提供有一种用于媒体的自适应递送以供呈现给环境中的一个或多个用户的方法。该方法包括：通过至少一个识别模块接收由至少一个传感器所捕获的数据；通过至少一个识别模块基于所述数据来标识环境及环境内的一个或多个用户的一个或多个特性；通过媒体递送系统从至少一个识别模块接收所标识的一个或多个特性；通过媒体递送系统基于所述一个或多个特性而标识来自媒体的媒体，所标识的媒体具有与所述一个或多个特性相关的内容；通过媒体递送系统将相关媒体内容发送到至少一个媒体设备；以及通过至少一个媒体设备将相关媒体内容呈现给环境中的一个或多个用户。

另一示例性方法包括上述操作，并且所述至少一个传感器从包括如下内容的组中选择：摄像机和麦克风。摄像机被配置成捕获环境及其内的一个或多个用户的一个或多个图像，并且麦克风被配置成捕获环境的声音，包括其内的一个或多个用户的语音数据。

另一示例性方法包括上述操作，并且所述至少一个识别模块被配置成基于所述一个或多个图像和声音来标识环境及其内的一个或多个用户的一个或多个特性。

另一示例性方法包括上述操作，并且所述一个或多个特性从包括如下内容的组中选择：一个或多个用户的身份、一个或多个用户之间的通信的主题事项、一个或多个用户的物理运动、以及在环境内标识的对象。

已经在本文中采用的术语和表述被用作描述性的且非限制性的，并且在使用此类术语和表述中不意图排除所示出和描述的特征（或其部分）的任何等同形式，并且要认识到，各种修改在权利要求的范围内是可能的。因而，权利要求意图涵盖所有此类等同形式。

Claims

1.一种用于媒体的自适应递送以供呈现给环境中的一个或多个用户的系统，所述系统包括：

至少一个传感器，其被配置成捕获与环境及所述环境内的一个或多个用户相关的数据；

至少一个识别模块，其被配置成从所述至少一个传感器接收所述所捕获的数据并且基于所述数据来标识所述环境和所述一个或多个用户的一个或多个特性；

媒体递送系统，其被配置成从所述至少一个识别模块接收所述所标识的一个或多个特性并且基于所述所标识的一个或多个特性来访问并标识由媒体源所提供的媒体，所述所标识的媒体具有与所述所标识的一个或多个特性相关的内容；以及

至少一个媒体设备，其被配置成从所述媒体递送系统接收相关媒体内容并且将所述相关媒体内容呈现给所述环境内的所述一个或多个用户。

2.如权利要求1所述的系统，其中所述至少一个传感器从包括如下内容的组中选择：摄像机和麦克风，其中所述摄像机被配置成捕获所述环境及其内的所述一个或多个用户的一个或多个图像，并且所述麦克风被配置成捕获环境的声音，包括其内的所述一个或多个用户的语音数据。

3.如权利要求2所述的系统，其中所述至少一个识别模块被配置成基于所述一个或多个图像和所述声音来标识所述环境及其内的所述一个或多个用户的所述一个或多个特性。

4.如权利要求3所述的系统，其中所述一个或多个特性从包括如下内容的组中选择：所述一个或多个用户的身份、所述一个或多个用户之间的通信的主题事项、所述一个或多个用户的物理运动、以及在所述环境内标识的对象。

5.如权利要求4所述的系统，其中所述至少一个识别模块包括用户识别模块，其被配置成接收并分析来自所述摄像机的所述一个或多个图像和来自所述麦克风的所述语音数据，并且基于图像和语音数据分析来标识所述一个或多个用户的用户特性。

6.如权利要求5所述的系统，其中所述用户识别模块包括：

面部检测模块，其被配置成标识所述一个或多个图像中的用户的面部和所述面部的一个或多个面部特性；以及

语音识别模块，其被配置成标识所述语音数据中的用户的语音和一个或多个语音特性；

其中所述面部检测和语音识别模块被配置成标识存储在用户数据库中的具有与所述面部和语音特性对应的数据的用户模型。

7.如权利要求4所述的系统，其中所述至少一个识别模块包括言语识别模块，其被配置成接收并分析来自所述麦克风的语音数据并且标识所述语音数据的主题事项。

8.如权利要求1所述的系统，其中所述媒体递送系统包括上下文管理模块，其被配置成接收并分析来自所述至少一个识别模块的所述一个或多个特性，并且至少部分地基于所述一个或多个特性来确定与所述环境内的所述一个或多个用户的活动对应的整体主题。

9.如权利要求8所述的系统，其中所述上下文管理模块还被配置成针对具有与所述整体主题相关的内容的媒体而访问并搜索所述媒体源并且将与所述相关媒体内容相关的数据发送到所述至少一个媒体设备以供呈现给所述一个或多个用户。

10.如权利要求9所述的系统，其中所述上下文管理模块被配置成将与所述一个或多个特性相关的数据存储在上下文数据库的相关联的简档中，并且还将具有索引的所述相关联的简档附加到所述相关媒体内容。

11.一种用于媒体的自适应递送以供呈现给环境中的一个或多个用户的装置，所述装置包括：

上下文管理模块，其被配置成从至少一个识别模块接收环境及所述环境内的一个或多个用户的一个或多个特性并且基于所述一个或多个特性来标识来自媒体源的媒体，所述所标识的媒体具有与所述一个或多个特性相关的内容，并且将所述相关媒体内容提供给媒体设备以供呈现给所述环境内的所述一个或多个用户。

12.如权利要求11所述的装置，其中所述上下文管理模块包括主题确定模块，其被配置成分析所述一个或多个特性并且至少部分地基于所述一个或多个特性来确定与所述环境内的所述一个或多个用户的活动对应的整体主题。

13.如权利要求12所述的装置，其中所述上下文管理模块还包括搜索模块，其被配置成针对具有至少与由所述主题确定模块所建立的所述整体主题相关的内容的媒体而搜索所述媒体源。

14.如权利要求11所述的装置，其中所述上下文管理模块被配置成将与所述一个或多个特性相关的数据存储在上下文数据库的相关联的简档中并且还将具有索引的所述相关联的简档附加到所述相关媒体内容。

15.如权利要求11-14中任一项所述的装置，其中所述一个或多个特性从包括如下内容的组中选择：所述一个或多个用户的身份、所述一个或多个用户之间的通信的主题事项、所述一个或多个用户的物理运动、以及在所述环境内标识的对象。

16.一种用于媒体的自适应递送以供呈现给环境中的一个或多个用户的方法，所述方法包括：

通过至少一个识别模块接收由至少一个传感器所捕获的数据；

通过所述至少一个识别模块基于所述数据来标识环境及所述环境内的一个或多个用户的一个或多个特性；

通过媒体递送系统从所述至少一个识别模块接收所述所标识的一个或多个特性；

通过所述媒体递送系统基于所述一个或多个特性而标识来自媒体的媒体，所述所标识的媒体具有与所述一个或多个特性相关的内容；

通过所述媒体递送系统将相关媒体内容发送到至少一个媒体设备；以及

通过所述至少一个媒体设备将所述相关媒体内容呈现给所述环境中的所述一个或多个用户。

17.如权利要求16所述的方法，其中所述至少一个传感器从包括如下内容的组中选择：摄像机和麦克风，其中所述摄像机被配置成捕获所述环境及其内的所述一个或多个用户的一个或多个图像，并且所述麦克风被配置成捕获环境的声音，包括其内的所述一个或多个用户的语音数据。

18.如权利要求17所述的方法，其中所述至少一个识别模块被配置成基于所述一个或多个图像和所述声音来标识所述环境及其内的所述一个或多个用户的所述一个或多个特性。

19.如权利要求16所述的方法，其中所述一个或多个特性从包括如下内容的组中选择：所述一个或多个用户的身份、所述一个或多个用户之间的通信的主题事项、所述一个或多个用户的物理运动、以及在所述环境内标识的对象。

20.如权利要求16-19中任一项所述的方法，其中所述数据从包括如下内容的组中选择：所述环境及所述环境内的所述一个或多个用户的一个或多个图像、以及所述环境及所述环境内的所述一个或多个用户的声音数据。

21.如权利要求20所述的方法，还包括：

分析所述一个或多个图像和所述声音数据；以及

基于所述图像和声音数据分析来标识所述一个或多个用户的用户特性。

22.如权利要求21所述的方法，其中所述分析所述一个或多个图像和所述声音数据包括：

标识所述一个或多个图像中的用户的面部和所述面部的一个或多个面部特性；以及

标识所述声音数据中的用户的语音和一个或多个语音特性。

23.如权利要求20所述的方法，还包括：

分析所述声音数据；以及

标识所述声音数据的主题事项。

24.如权利要求16所述的方法，还包括：

将与所述一个或多个特性相关的数据发送到上下文数据库的相关联的简档；以及

将具有索引的所述上下文数据库的所述相关联的简档附加到所述相关媒体内容。

25.至少一种存储指令的计算机可访问介质，所述指令在由机器执行时使所述机器执行如权利要求16-24中任一项所要求保护的方法的操作。