CN108292322A

CN108292322A - 使用从查看环境捕捉的信号的媒体数据文件的组织、检索、注释和呈现

Info

Publication number: CN108292322A
Application number: CN201680070332.4A
Authority: CN
Inventors: G·克拉萨达基斯
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-01-11
Filing date: 2016-12-29
Publication date: 2018-07-17
Anticipated expiration: 2036-12-29
Also published as: US20190171663A1; US10235367B2; WO2017123419A1; EP3403194A1; US11188586B2; US20170199872A1; CN108292322B

Abstract

一种计算机系统使用实时捕捉自查看环境的上下文来自动地组织、检索、注释和/或呈现媒体数据文件作为与一个或多个实体(诸如各个个体、个体的分组或其他对象)相关联的媒体数据文件的集合。计算机系统在查看环境中的呈现设备上呈现来自所选择的媒体数据文件的媒体数据，以及接收和处理来自该查看环境中的传感器的信号。经处理的信号提供上下文，该上下文可被用来选择和检索媒体数据文件，并且可被用来进一步注释这些媒体数据文件和/或表示这些媒体数据文件和/或实体的集合的其他数据结构。在一些实现中，计算机系统可被配置成持续地处理来自查看环境中的传感器的信号，以连续地标识和使用来自查看环境的上下文。

Description

使用从查看环境捕捉的信号的媒体数据文件的组织、检索、注释和呈现

背景

个人以及家庭和其它个体组正在越来越多地生成和储存媒体数据文件(诸如数字形式的媒体数据(包括但不限于照片、视频以及音频和相关的富媒体数据)的数据文件)的大集合。这些媒体数据文件是使用多台计算机设备捕捉的，并被储存在多个计算机存储系统中，包括但不限于计算机中的不可移动存储设备、可移动存储设备、能由计算机网络上的计算机和在线服务(诸如社交媒体账户)访问的在线存储系统。此类媒体数据还通过多个传输和分发信道在各个个体之间传送和共享。大量的媒体数据以及媒体数据文件在多个不同的存储系统以及多个传输和分发信道之间的分发可使得媒体数据文件的整体管理、支配、检索和使用对各个个体和个体组而言既困难又耗时。尽管一些系统可索引大量的媒体数据，但是此类系统通常局限于处理媒体数据本身或响应显式用户指令以便生成关于媒体数据或关于媒体数据文件的元数据。作为结果，这些媒体数据文件的管理、支配、检索和使用通常还局限于对媒体数据和媒体数据文件可用的元数据。

概述

提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本概述并不旨在标识出所要求保护的主题的关键特征或必要特征，也不旨在限制所要求保护的主题的范围。

计算机系统使用从实时捕捉自查看环境的信号导出的上下文来自动地组织、检索、注释和/或呈现媒体数据文件作为与一个或多个实体(诸如各个个体、个体组或其它对象)相关联的媒体数据文件的集合。媒体数据文件是数字形式的媒体数据的数据文件，媒体数据包括但不限于照片、视频和音频以及相关的富媒体数据(包括这些的组合)。计算机系统在查看环境中的呈现设备上呈现来自所选择的媒体数据文件的媒体数据，以及接收和处理来自该查看环境中的传感器的信号。经处理的信号提供上下文，该上下文可被用来选择和检索媒体数据文件，并且可被用来进一步注释这些媒体数据文件和/或表示这些媒体数据文件和/或实体的集合的其它数据结构。该上下文是通过处理来自查看环境中的传感器的信号而导出的任何信息。该信息可具有一个或多个相关联的参考时间或时间帧，这允许上下文与查看环境中正被呈现的媒体数据在时间上相关联。在一些实现中，计算机系统可被配置成连续地处理来自查看环境中的传感器的信号，以持续地标识和使用来自查看环境的上下文。该持续标识的上下文可被用来进一步检索和呈现与该上下文相关的媒体文件，以及持续地注释这些媒体数据文件和/或表示媒体数据文件和/或实体的集合的其它数据结构。

上下文可包括例如使用语音识别和自然语言处理以及其它技术从查看环境中的麦克风的音频信号中提取的信息。音频信号可包括例如查看环境中的各个个体之间的讨论。从这样的音频信号中提取的信息可包括例如但不限于，关键词、短语、描述、对实体的引用、文本、存在于查看环境中的各个个体的身份、时间信息、位置信息、场合信息、其它实体信息、情感信息和情绪信息。

作为另一示例，上下文可包括使用面部识别、姿势识别、面部表情识别、注视分析和其它图像处理技术从查看环境中的相机的图像信号提取的信息。此类图像数据可被处理以标识例如查看环境中的各个个体以及他们的姿势和表情，以及对所呈现的媒体数据的反应(诸如对所呈现的媒体数据的兴趣)。

使用此类图像数据，数据处理组件可例如从查看环境中的看着正在该查看环境中的显示设备上显示的特定媒体数据的一个或多个人提取注视统计数据。计算机系统可将此类注视统计数据映射到正被显示达特定时间量的媒体数据的对应部分。而其它数据可基于它们与注视统计数据的对应关系而被映射到媒体数据的特定部分。

作为另一示例，数据处理组件可处理图像数据以标识查看环境中的对象，计算机系统可以从该对象导出关于事件发生的附加信息。例如，如果对象识别模块在图像中标识出生日蛋糕，则计算机系统可推断该事件是生日。

上下文可被用来进一步注释媒体数据文件的集合和/或各个个体媒体数据文件。注释意指将诸如上下文信息之类的元数据与诸如媒体文件之类的其它数据相关联。此类关联通过以下而发生：将元数据(诸如标签、得分、文本(自然语言)、声音、引用等)以对该元数据和数据进行关联的方式储存在数据库中或者以另一格式储存。上下文可被用来组织正被呈现到集合中的所选择的一组媒体数据文件，以及对该集合进行注释。上下文还可被用来检索和呈现一组媒体数据文件并将它们组织成集合，和/或检索和呈现先前组织的媒体数据文件的集合。对媒体数据文件和媒体数据文件的集合的此类注释可包括从上下文确定的反馈、反应和其它参与信息。通过用诸如各个个体的反馈和反应之类的信息来注释特定媒体数据，计算机系统针对特定媒体发展交互历史，从而丰富了计算机系统对特定媒体项的认知。计算机系统可接着使用该知识来为观众检索和呈现媒体数据。

上下文可被用来将各实体与各个个体媒体数据文件和/或媒体数据文件的集合相关联。上下文可被用来将信息与各个个体和/或个体组相关联，诸如隐式和显式地标识出的偏好、查看模式、特定位置、事件和日期、与其它实体的关系。

通过以各种方式处理来自查看环境的信号以提取上下文，计算机系统使用该上下文可以动态地选择媒体数据以检索和呈现、可以连续地组织和注释媒体数据，并且同时可以将实体与媒体数据相关联、将其它信息与实体相关联，以及可以跟踪查看环境中的人们对媒体数据的反应，所有这些都是以最小或者没有个体指导和干预的方式进行的。对媒体数据和实体的此类检索、呈现和注释因此可以无缝地发生。使用此类上下文，每当媒体数据文件被呈现在查看环境中时计算机系统还用附加信息和统计数据来注释这些媒体数据文件。对来自查看环境的信号的处理还可提供关于行为模式的统计信息以及个体用户或用户群组和家庭的隐式声明的偏好(每位用户偏好什么媒体文件或故事、时间相关的模式、会话持续时间、所施加的效果和动画等)。

计算机系统可使用一组数据结构来组织元数据以用于来自查看环境的媒体数据文件、实体和上下文。具体而言，故事数据结构是表示以下的数据结构：与一个或多个实体(诸如各个个体或个体组)相关联的一个或多个媒体数据文件的集合，以及基于来自查看环境的上下文的其它数据。计算机系统可使用来自查看环境的上下文来为正被呈现的媒体数据文件的集合定义这样的故事数据结构，和/或选择这样的故事数据结构以用于其媒体数据文件的集合的呈现。

故事数据结构还可包括指定媒体数据文件的集合要如何被合成以供呈现的回放参数数据。此类回放参数数据可指定例如当被呈现时应用于媒体数据的视频切换、音频同时淡入淡出(cross-fade)、动画、标题、字幕、背景音乐和其它效果。计算机系统可基于上下文在呈现期间动态地调整回放参数数据。

计算机系统进一步管理对被储存在多样的存储系统中的媒体数据的底层存储的访问，所述媒体数据诸如照片和视频以及音乐和其它媒体数据以及相关联的元数据。

在以下描述中，参考形成其一部分的附图，并且在其中作为解说示出了特定示例实现。在不脱离本公开的范围的情况下可以做出其它实现。

附图描述

图1是计算机系统的组合框图和数据流图。

图2是数据库模式的示例实现的示意图。

图3是描述计算机系统的第一操作模式的示例实现的流程图。

图4是描述计算机系统的第二操作模式的示例实现的流程图。

图5是描述将从传感器提取的数据与所选择的媒体文件相关联的示例实现的流程图。

图6是描述使用从传感器提取的数据来选择媒体文件的示例实现的流程图。

图7是示例通用计算机的框图。

在数据流图中，平行四边形指示数据，而矩形指示执行对数据的处理的计算机模块。

详细描述

如本文中所描述的计算机系统提供自然用户界面以使用来自查看环境的上下文来组织、检索、注释和/或呈现媒体数据文件作为与一个或多个实体(诸如各个个体、个体组或其它对象)相关联的媒体数据文件的集合。媒体数据文件是数字形式的媒体数据的数据文件，媒体数据包括但不限于照片、视频和音频以及相关的富媒体数据。计算机系统在查看环境中的呈现设备上呈现来自所选择的媒体数据文件的媒体数据，以及接收和处理来自该查看环境中的传感器的信号，诸如包括查看环境中的各个个体的言语交流的音频信号。

参考图1，现在将描述用于媒体数据文件和实体信息的组织、检索、注释和/或呈现的计算机系统的说明性示例。

在图1中，查看环境100表示其中一个或多个个体可存在的房间或其它物理位置。一般而言，多个个体可存在于查看环境100中且与彼此交互。计算机系统通过一个或多个呈现设备102在查看环境100中呈现媒体数据。呈现设备可以是显示图像(例如，照片或视频或计算机生成的动画)和/或呈现声音(例如，音乐、录制的对话、声音效果)的任何设备或设备的组合。

这样的查看环境的示例配置是诸如在房屋、公寓或其它住宅中的房间，其包括诸如用于电视或用于计算机或游戏控制台的一个或多个显示器104，以及扬声器106或集成的媒体系统。另一示例查看环境是诸如在包括一个或多个显示器的工作场所或劳动场所中的办公室、会议室、会议厅或其它工作空间。这样的查看环境的另一示例是包括一个或多个显示器的任何聚集场所。这样的查看环境的另一示例配置是个体的私人空间，在其中他们使用具有显示器104和扬声器106的设备(诸如智能电话)。

为了在呈现设备102上呈现视觉和音频媒体数据，主计算机110被配置成致使媒体数据112通过媒体连接114从存储传送到呈现设备102。媒体连接可以以多种方式来实现，诸如有线(例如，电缆或计算机网络)或无线(例如，WiFi、蓝牙、蜂窝、卫星)连接；计算机网络(例如，以太网、IP)或计算机总线(例如，USB、HDMI)。媒体数据112可例如作为流式数据、模拟信号或作为一个或多个数据文件来传送。呈现设备102可以仅仅是显示器和/或扬声器，或者可以是与主计算机110通信并接收和处理媒体数据以供呈现在呈现设备102上的计算机或其它设备，诸如机顶盒或游戏控制台或智能电话或虚拟现实设备或增强现实设备。

主计算机访问来自被储存在虚拟化媒体存储系统120中的媒体数据文件122的媒体数据112。虚拟化媒体存储系统包括媒体数据文件122的媒体索引124。对于每个文件，媒体索引至少包括足以向主计算机提供对媒体数据文件被实际储存的位置的访问的数据。媒体数据文件122可被储存在大量可能的存储系统中，包括但不限于，在线的社交媒体账户、基于云的存储、本地设备存储、高速缓存层或其它设备(诸如通过本地网络连接到主计算机的平板计算机或移动电话)、本地网络附连存储等。一般而言，社交媒体账户和基于云的存储是计算机网络上的域，这些域为用户储存媒体数据文件且能使用在客户端计算机上运行的应用(诸如浏览器应用或针对域的专用应用)来访问。应用通过域上的用户账户使用用户名和密码和/或安全令牌和/或其它认证方法和针对该域的指定的通信协议来访问该域上的文件。在一些配置中，虚拟化媒体存储系统120维护用于从其它位置访问媒体数据文件的数据；在其它配置中，虚拟化媒体存储系统可在本地存储中维护媒体数据文件的本地副本。在后一种情形中，虚拟化媒体存储系统可被配置成与远程存储系统周期性地同步。这样的虚拟化媒体存储系统可透明地向主计算机提供对多个媒体数据源的访问。

在一些配置中，主计算机110可从媒体数据文件122读取媒体数据，并接着通过媒体连接114将该媒体数据传送给呈现设备102。在这样的配置中，主计算机可被配置成将媒体数据文件变换成可以由呈现设备102处理的格式。在一些配置中，主计算机110可指令存储设备通过媒体连接114将来自媒体数据文件的媒体数据传送给呈现设备102。在一些配置中，主计算机110可指令呈现设备请求存储设备通过媒体连接114将来自媒体数据文件的媒体数据传送给呈现设备。

主计算机还访问由计算机系统用来组织、检索、注释和呈现媒体数据作为与一个或多个实体相关联的媒体数据的集合的其它数据。在本文中所描述的示例实现中，故事是被储存在计算机存储中的数据结构(无论是在持久存储中还是在存储器中)，该数据结构表示与基于来自查看环境的上下文而被注释的一个或多个实体相关联的一个或多个媒体文件的集合。故事数据库140包括表示多个故事的数据。实体数据库160包括表示多个实体的数据，该多个实体可包括但不限于各个个体、个体和对象组，诸如但不限于房屋、汽车、花园、城市、道路、遗迹、国家、大陆、事件、景观、玩具、工具、衣服、鲜花、家具、电子设备、食物等。

被储存在媒体索引124、故事数据库140和实体数据库160中的数据还包括表示若干多对多关系的数据：每个故事与一个或多个实体相关联；每个故事还与一个或多个媒体文件相关联；每个媒体文件与一个或多个实体相关联；每个媒体文件可以与一个或多个故事相关联；实体或实体组可以与一个或多个故事相关联；实体可以与零个或多个实体组相关联；实体组与一个或多个实体相关联；实体或实体组可以与一个或多个媒体文件相关联。在上文中，实体或实体组的感兴趣的特定示例是个体或个体组，尤其是处于其与故事、媒体文件和其它实体的关联中的个体或个体组。

媒体索引、故事数据库和实体数据库可使用一组存储技术和数据管理技术中的任一种来实现，诸如关系数据库、面向对象的数据库、图形数据库以及被储存在数据文件中的结构化数据，等等。下面将更详细地描述这些数据库的示例实现。

计算机系统还可包括环境100中的一个或多个输入设备180，该一个或多个输入设备180向主计算机或查看环境中的连接到主计算机的其它计算机提供用户输入。与呈现设备122相组合的输入设备180还可向主计算机110或查看环境中的连接到主计算机110的其它计算机提供图形和机械用户界面。这样的界面可被提供以例如允许用户浏览、搜索、选择、编辑、创建和删除故事数据库、实体数据库和媒体文件数据库中的条目或对象。

计算机系统还包括查看环境100中的一个或多个传感器170。传感器响应于来自查看环境的物理激励而生成信号172。这些信号被输入到一个或多个数据处理组件174，该数据处理组件174从查看环境提取要作为上下文176提供给主计算机110的数据。可被提取的数据类型取决于传感器的性质和所使用的数据处理组件的类型。数据处理组件可被实现为主计算机的一部分，或者被实现为一个或多个分开的计算机或设备。数据处理组件可执行多级处理以提取多种类型的数据。来自输入设备180的形成针对主计算机的自然用户界面的一部分的数据(诸如以下结合图7所描述)也可被用作传感器170。

为了从传感器170接收信号，信号可通过传感器连接171从传感器传送到数据处理组件。传感器连接171可以以多种方式来实现，诸如有线(例如，电缆或计算机网络)或无线(例如，WiFi、蓝牙)连接；计算机网络(例如，以太网、IP)或计算机总线(例如，USB、HDMI)。来自传感器的信号可例如作为以下来被传送：流式数据(以供主计算机或数据处理组件来捕捉)、模拟信号(以供使用数据处理组件或主计算机的外围设备来捕捉)或数据文件(被传送到数据处理组件或主计算机)。

示例传感器170是麦克风，其响应于环境100中的声波而生成音频信号。这样的音频信号可以是模拟或数字信号。数据处理组件174可处理音频信号，例如以识别正被呈现给呈现设备102的媒体的言语描述及提取文本数据。此类文本数据可被进一步处理以识别和提取关键词、所提及的实体(诸如各个个体、位置和其它名称)、时间信息、情绪数据。音频信号还可被处理以基于语音的音调、基音、语音模式和语音的其它音频特性来提取其它信息，诸如个体的身份、或个体的特性(诸如说话者是孩子还是成人)、或个体的情感状态。此类信息可以与正在呈现设备102上呈现的特定媒体文件或集合相关，从而利用用户生成的元数据丰富了媒体文件。

另一示例传感器170是常规相机，其响应于环境中的自然可见光而生成图像数据。图像数据可以是模拟视频信号、流式数字视频数据、一个或多个图像数据文件等的形式。相机可生成一张或多张照片，即静止图像。相机可以以给定的帧速率生成一系列此类静止图像以提供视频。相机可包括麦克风，并将视频和音频数据组合在一起。此类图像数据可被处理以识别存在于查看环境中的各个个体、检测注视方向、标识新用户、捕捉描述检测到的情感的数据，等等。此类信息可以与正在呈现设备102中呈现的特定媒体文件或集合相关，从而利用用户生成的元数据丰富了媒体文件。

另一示例传感器是多透镜相机，其可包括一个或多个深度相机、红外相机和/或立体相机(诸如可从微软公司获得的KINECT传感器)。这样的系统还生成图像数据，但是是从与用于视频和照片的常规相机不同的光谱生成图像数据的。这样的传感器可以与由数据转换设备执行的其它数据处理组件相组合以提供指示环境中的各个个体的姿势、注视方向等的数据。

来自输入设备180的输入和从来自传感器170的信号中提取的上下文被提供给主计算机上的故事处理组件190。一般而言，故事处理组件执行若干操作来组织、检索、注释和呈现媒体数据文件。下面将更详细地描述这些操作。一般而言，故事处理组件190执行以下各项的操作：使用上下文来选择和检索媒体文件和/或故事，使用上下文将媒体文件组织成故事，以及使用上下文来注释媒体文件、故事和实体。

更具体而言，上下文可被用来进一步注释媒体数据文件的集合和/或各个个体媒体数据文件。上下文可被用来组织正被呈现到称为故事的集合中的所选择的一组媒体数据文件，以及用附加元数据对故事或一个或多个特定媒体文件进行注释。上下文可被用来检索和呈现一组媒体数据文件并将它们组织成集合，和/或检索和呈现先前组织的媒体数据文件的集合。对媒体数据文件和媒体数据文件的集合的注释可包括从上下文确定的反馈、反应、对媒体文件所引用的场合的描述和其它参与信息。上下文可被用来将各实体与各个个体媒体数据文件和/或作为故事的媒体数据文件的集合相关联。上下文可被用来将各实体彼此关联。上下文可被用来将信息与各个个体和/或个体组相关联，诸如隐式和显式地标识出的偏好、查看模式、特定位置、事件和日期、与其它实体的关系和其它元数据。

图1所示的计算机网络仅仅是说明性的。实际的网络拓扑可以是任何种类的计算机网络拓扑。一些计算机可通过局域网彼此通信，而其它计算机可通过广域网彼此通信，并且计算机网络可包括专用网络(包括有线和无线网络)和公共可访问的网络(诸如互联网)两者的组合。

这样的系统的若干部署是可行的。以下是一些说明性示例，其并非旨在是限制性的，而是也可以以组合方式来使用。

例如，主计算机110可以是能通过计算机网络访问的服务器计算机。呈现设备102和传感器170可以是以下各项的一部分：计算机、智能电话、智能电视、游戏控制台(诸如来自微软公司的XBOX游戏控制台)、平板计算机、增强现实设备或虚拟现实设备(诸如来自微软公司的HOLOLENS设备)或其它具有传感器的可穿戴计算机等，该呈现设备102和传感器170通过计算机网络与主计算机通信。

作为另一示例，主计算机110可以是能通过计算机网络访问的服务器计算机。传感器170可以是查看环境中的设备的一部分，该设备始终打开并通过计算机网络连续地将传感器信号传送给主计算机110以供处理。呈现设备102可通过另一连接(诸如通过计算机网络)连接到主计算机110。传感器170连续地向主计算机110传送信号，该主计算机110作为响应选择媒体数据并将其传送给呈现设备102，并接着捕捉上下文以提交且在可能的情况下进行注释。

作为另一示例，主计算机110可以是计算机，并且数据处理组件可包括多个服务器计算机，该多个服务器计算机允许对来自传感器170的信号进行远程处理，并且该多个服务器计算机将上下文信息传达回主计算机110。

作为另一示例，主计算机110可以是一个或多个服务器计算机，该一个或多个服务器计算机能通过诸如互联网之类的计算机网络从多个查看环境中的一个或多个计算机或设备访问。主计算机可被配置成提供共享存储，在该共享存储中媒体数据文件和其它数据库被提供给具有允许、限制或拒绝在用户和用户集合之间共享媒体数据文件和其它数据库的访问控制的大量用户。

现在转到图2，现在将描述媒体索引、实体数据库和故事数据库的示例实现。应当理解，以下是说明性示例，而并非旨在是限制性的。

实体数据库200包括表示各种实体(诸如各个个体和个体及其它对象组)的数据。个体可以与零个或多个个体组相关联。个体组可包括一个或多个个体，但是实际的实现可允许用户定义空的个体分组。类似地，任何实体可以与一个或多个其它实体或实体组相关联。

如图2所示，用于个体或其它单一实体的数据201可包括实体的实体标识符202和实体的名称203。可被储存用于个体的其它数据的示例包括但不限于：联系人信息、位置信息、人口统计信息、偏好、实体分类、使用模式、统计数据、得分等等。

用于诸如个体组(例如，家庭或团队)之类的实体组的数据211可包括该分组组标识符212和该分组的名称213。可被储存用于个体组的其它数据的示例包括但不限于：联系人信息、位置信息、分组类型、分组大小、访问模式、会话历史、分类、分组使用模式、统计数据、得分等等。为个体组储存的数据可以从为该分组中的每个个体储存的信息聚集。类似的数据可被储存用于其它类型的实体。

下面将更详细地描述定义实体和实体组之间的关系以及实体和实体组与故事和媒体数据文件的关系的数据结构。

媒体索引230包括表示被储存在多个数据存储系统中的媒体数据文件的数据，以及表示那些存储系统的数据。多个数据存储系统能从主计算机使用从媒体索引获得的信息来访问。

表示媒体数据文件的数据231包括媒体数据文件的文件标识符232和媒体数据文件的文件名233。文件名可包括储存媒体数据文件的数据存储系统的存储标识符234，以及由该数据存储系统用来储存文件的媒体数据文件的文件名235或其它标识符。可被储存用于媒体数据文件的其它元数据的示例包括但不限于：媒体数据文件的标题或其它文本描述或标签；技术数据，诸如分辨率和格式信息(诸如帧速率、光栅大小、色彩格式、像素位深度、文件格式等)；时间信息，诸如媒体数据被设备捕捉时的时间点或时间范围；位置信息，诸如媒体数据被设备捕捉所处的地理位置；设备信息，诸如关于被用来捕捉媒体数据的一个或多个设备的标识符或其它信息；标记数据，诸如允许结构化搜索的关键词或其它数据；使用信息，诸如媒体数据文件已被搜索、访问、共享或点赞的次数，或用户做出的其它评论或其它分析(诸如注视分析)；情感分类；访问控制信息，诸如与访问和共享相关的权限；统一资源定位符(URL)、统一资源标识符(URI)、标识符形式的标识信息或全球唯一标识符(GUID)。

表示数据存储系统的数据241包括数据存储系统的存储标识符242，以及任选地描述该数据存储系统的名称243或其它描述或标签。访问信息244也可以被包括。访问信息244可包括例如但不限于主计算机可通过其访问数据存储系统的网络地址、URL、URI、ID或GUID形式的标识信息以及诸如用户名和密码和/或用于访问数据存储系统上的媒体数据文件的安全令牌之类的认证信息。

下面将更详细地描述定义媒体数据文件和/或数据存储系统与实体、实体组和故事的关系的数据结构。

故事数据库250包括表示故事的数据。表示故事的数据251包括用于故事的故事标识符252、用于故事的标题253或其它文本标签，以及故事文本254。故事文本254可以是对包含故事文本的数据文件的引用。可被储存用于故事的其它数据的示例包括但不限于：一个或多个时间参考，诸如故事被创建的时间，或故事中的事件所发生的时间；一个或多个位置参考，诸如故事中的事件所发生的位置，或故事被创建的位置；参考故事所标识出的场合；标签数据255，诸如允许结构化搜索的关键词或其它数据和媒体文件分类；使用信息，诸如故事被访问、共享或点赞的次数，或用户做出的其它评论；情感分类；访问控制信息，诸如与访问和共享相关的权限；媒体回放偏好(诸如针对音频或视频文件之间的转换的规范、音量控制)，其可以进一步与故事的定时相关；指向其它故事的指针。

下面将更详细地描述定义故事与实体、实体组和媒体数据文件的关系的数据结构。

如以上所提到的，当被储存在持久存储中时，这些示例数据结构可按关系数据库、面向对象的数据库、图形数据库、被储存在数据文件中的结构化数据等来实现。在一些实现中，在故事处理组件进行处理期间，类似的数据结构可被储存在存储器中以用于当前正由主计算机使用的数据。此类数据结构可被创建并用从数据库读取的数据来填充，随后可由故事处理组件进行修改和扩展，且接着可被持久保存到数据库中以供永久存储。

表示故事、实体和媒体数据的一些数据可涉及多对多关系，诸如使多个个体作为许多个体组的一部分，等等。许多数据表或文件或数据结构可被用来将这些多对多关系表示为若干一对多关系。在一个示例实现中，在使用关系数据库的情况下，该数据可使用联接表来表示。在另一示例实现中，面向对象的数据结构或面向对象的数据库可使用表示不同类型的关系和对象集合的不同的类来直接表示此类关系。图2所示的示例解说了联接表。

例如，就实体和实体组之间的关系而言，实体标识符是实体表的主键，而分组标识符是分组表的主键，并且联接表可被用来表示相互关系。例如，实体-分组表260包括条目261，其中每个条目具有条目标识符262作为其主键，并且包括实体标识符263和分组标识符264作为外键。这样的条目指示具有实体标识符263的实体是具有分组标识符264组的成员。为了找到所选择的实体所属组或者属于所选择组的实体，该实体-分组表260可被搜索。条目261可包括附加字段以储存关于每个关系的附加数据，诸如关系被储存的时间、实体和分组之间的关系的类型、分组中的实体的角色等等。类似的表可被用来跟踪各实体之间的关系。

就实体和媒体数据文件之间的关系而言，实体标识符是实体表的主键，而媒体数据文件标识符是媒体索引的主键，并且联接表可被用来表示它们的相互关系。例如，实体-媒体文件表270包括条目271，其中每个条目具有条目标识符272作为其主键，并且包括实体标识符273和媒体数据文件标识符274作为外键。这样的条目指示具有实体标识符273的实体与具有媒体数据文件标识符274的媒体数据文件相关联。为了找到与所选择的实体相关联的媒体数据文件或者与所选择的媒体数据文件相关联的实体，该实体-媒体文件表270可被搜索。条目271可包括附加字段以储存关于实体和媒体数据文件之间的关系的附加数据，诸如实体是否是作为媒体数据文件的创建者的个体，或者实体是否存在于媒体数据文件的媒体数据中等等。

就实体和故事之间的关系而言，实体标识符是实体表的主键，而故事标识符是故事数据库的主键，并且联接表可被用来表示它们的相互关系。例如，实体-故事表280包括条目281，其中每个条目具有条目标识符282作为其主键，并且包括实体标识符283和故事标识符284作为外键。这样的条目指示具有实体标识符283的实体与具有故事标识符284的故事相关联。为了找到与所选择的实体相关联的故事或者与所选择的故事相关联的实体，该实体-故事表280可被搜索。条目281可包括附加字段以储存关于实体和故事之间的关系的附加数据，诸如实体是否是作为故事的作者的个体，或者实体是存在于故事中所使用的媒体数据中，还是在故事文本中被提及，等等。

就故事和媒体数据文件之间的关系而言，故事标识符是故事数据库的主键，而媒体数据文件标识符是媒体索引的主键，并且联接表可被用来表示它们的相互关系。例如，故事-媒体文件表290包括条目291，其中每个条目具有条目标识符292作为其主键，并且包括故事标识符293和媒体数据文件标识符294作为外键。这样的条目指示具有故事标识符293的故事与具有媒体数据文件标识符294的媒体数据文件相关联。为了找到与所选择的媒体数据文件相关联的故事或者与所选择的故事相关联的媒体数据文件，该故事-媒体文件表290可被搜索。条目291可包括附加字段以储存关于故事和媒体数据文件之间的关系的附加数据。

尽管以上示例在关系数据库的上下文中描述了联接表，但在其它非关系数据库实现中，此类数据可以以文件、文档内标签或足以表示关系的其它数据的形式来被储存。

鉴于使用诸如图2中所描述的数据表示的诸如图1中所描述的这样的计算机系统，该系统可通过若干方式使用来自查看环境的上下文来组织、检索、注释和呈现媒体数据。

现在参考图3，现在将描述计算机系统的操作的第一示例。

在该示例中，一组媒体数据文件被选择300。这样的选择可以以多种方式产生。例如，主计算机上的故事处理组件可通过环境中的传感器、输入设备和呈现设备为主计算机提供用户界面。这样的用户界面可以是图形用户界面，或者可以是基于语音命令、姿势、注视分析等的自然用户界面。作为另一示例，主计算机上的故事处理组件可基于各种输入或准则或过程来自动地选择一组媒体数据文件。作为另一示例，故事处理组件可使用来自查看环境的上下文信息来选择一组媒体数据文件。

例如，通过用户界面，终端用户可浏览、搜索、选择、编辑、创建和删除故事数据库、实体数据库和媒体文件数据库中的条目或对象，这些操作的结果是一组新的、或者经更改的、或者被挑选出的媒体数据文件。作为示例，终端用户可选择其中一个或多个实体存在于图像中的所有媒体数据文件。作为另一示例，终端用户可选择现有的故事。作为另一示例，终端用户可选择从所选择的地理位置捕捉的媒体数据文件。作为另一示例，可以基于预定的时间段和一组个体来选择一组媒体数据文件。作为特定示例，在上周由个体或个体组(诸如家庭)创建的所有媒体数据文件可被标识。

在给定对媒体数据文件的选择的情况下，主计算机发起所选择的媒体数据文件在呈现设备上的呈现302。主计算机可维护数据结构以储存在该呈现过程中所使用的数据，诸如任何当前呈现的媒体数据文件和呈现的时间。可存在被并发地呈现的多个媒体数据文件。如果特定媒体数据文件包括基于时间的媒体数据(即作为随时间的样本序列的媒体数据，诸如视频或音频)，则具有该基于时间的媒体数据的当前位置也可由此类数据结构来跟踪。

当所选择的媒体文件正在呈现设备上呈现时，来自环境的上下文被捕捉304。如以上所描述的，基于环境中的传感器的信号被接收且经受主计算机的处理以便从该信号中导出上下文。从信号中提取的数据的种类基于传感器所提供的信号的性质以及对其执行的处理的种类。

例如，可以使用语音识别和自然语言处理技术来处理音频信号以提取与指示文本在时间上何时发生的时间信息相关联的文本。所提取的文本可被进一步处理以标识或导出与媒体呈现相关的信息，例如对个体或其它实体的引用、情绪信息、时间参考、场合、正被呈现的媒体的详细描述，等等。计算机系统使用此类信息来注释正用元数据呈现的媒体文件或集合，其随后可被用于搜索和选择逻辑。当信息还由注视分析提供时(如下所述)，计算机系统可组合注视分析和所捕捉的文本以更准确地注释媒体数据或系统中的其它数据。

作为另一示例，可以使用面部识别技术来处理来自相机设备的图像数据以标识查看环境中的与指示各个个体何时存在于该查看环境中的时间信息相关联的该各个个体。还可以使用对象识别技术来处理图像数据以标识查看环境中的其它对象还有查看环境本身的类型，例如房间、开放空间、房屋、孩子派对场地等。

图像数据还可被处理以确定注视信息，其可被进一步处理以确定例如特定个体是否正在看着呈现设备。此类信息可被进一步处理以基于查看环境中正在看着该查看环境中的显示设备上正显示的特定媒体数据的一个或多个人来生成注视统计数据。此类注视统计数据可被映射到正被显示达特定时间量的媒体数据的对应部分。而其它数据可基于它们与注视统计数据的对应关系而被映射到媒体数据的特定部分。例如，此类统计数据可包括指示以下的数据：图像的x％的查看者聚焦在该图像的实体A上；或者图像中的总共x个实体中的实体A捕捉到y％的查看者的注意；或者图像的最右侧部分吸引用户注意的可能性要高出x倍。此类统计信息可被故事处理组件用来更有效地选择媒体。例如，故事处理组件可选择图像，基于注视统计数据，这些图像被预期要最大化针对特定查看环境和/或观众的参与、交互和反馈。

主计算机处理来自查看环境和所选择的媒体文件的上下文以生成和储存306表示故事数据库中的故事的数据。该步骤涉及基于所收集的数据、所选择的媒体文件和回放跟踪数据结构来填充实体数据库、故事数据库和媒体文件数据库中的数据结构以及相关联的关系数据结构。在下文结合图5更详细地描述该过程的示例实现。

现在参考图4，现在将描述计算机系统的操作的第二示例。

在该示例中，主计算机通过从查看环境捕捉400上下文来开始操作。类似于结合图3中的过程所描述的对上下文进行捕捉，上下文取决于环境中所使用的传感器以及可用于处理那些信号的应用。另外，可通过终端用户或通过预定的设置或对主计算机进行编程来将上下文限制为一个或多个所选择的类型的数据。这样的限制将会定义主计算机如何选择故事。

故事处理组件处理上下文以从故事数据库选择402故事。故事可基于对来自上下文的多个准则中的任一个准则和被储存在数据库中的数据进行匹配来被选择。例如，与在环境中标识出或提及的各个个体相关的故事以及从其对话中提取的关键词可被选择。下面结合图6更详细地提供该过程的示例实现。

主计算机接着访问404与所选择的故事相关联的媒体数据文件。该访问涉及使用故事-媒体数据文件表来标识与故事相关联的媒体数据文件。主计算机访问媒体索引以便为每个媒体数据文件标识其上储存媒体数据文件的数据存储系统以及媒体数据文件的文件名。主计算机访问数据存储系统信息以获得使得能够为每个媒体数据文件访问数据存储系统的信息。

主计算机接着为所选择的故事发起媒体数据从这些媒体数据文件的传输406，以供呈现在呈现设备上。在该操作模式中，使用以上结合图3所描述的技术，从环境收集的数据也可以与所选择的故事相关联。

图5是描述使用来自查看环境的上下文来将所选择的媒体数据文件打包成故事的示例实现的流程图。

在该过程中，主计算机500接收来自查看环境的上下文和呈现跟踪数据作为输入。呈现跟踪数据是与呈现过程相关联的任何定时数据，其指示所选择的媒体数据文件何时被呈现在呈现设备上。在一些情形中，媒体数据文件的列表和呈现开始时间在这些媒体数据文件中的每一个的呈现时间可基于这些媒体数据文件和/或回放设置来确定的情况下可以是充分的。

主计算机在故事数据库中创建502新故事，并且将所选择的媒体数据文件与故事-媒体文件表中的该新故事相关联504。所提取的数据接着被处理以在故事数据库、实体数据库、媒体索引和相关联的关系数据中创建进一步的关联。例如，主计算机可将基于来自环境的识别出的语音从文本中提取的关键词储存506作为故事的关键词或标签储存在故事数据库中。主计算机可将识别出的语音的转录文字作为故事的文本存储在故事数据库中。主计算机可将指示实体(无论是个体还是个体组(要么在识别出的语音中被提及，要么被识别为存在于环境中))的数据作为与故事相关联的实体储存510在实体-故事表中。附加地，与所收集的数据相关联的时间数据可被进一步处理512以将数据与媒体数据文件相关联。作为示例，语音识别可提供指示个体存在于特定媒体数据文件的媒体数据中的数据。这样的关联可被记录在实体-媒体文件关系数据中。

为了清楚，计算机系统使用两种时间参考。首先，上下文具有对应于上下文被捕捉时的时间的时间参考。类似地，呈现跟踪信息包括对应于媒体文件被呈现时的时间的时间参考。第一种时间参考允许系统将特定上下文与特定媒体文件相关联。其次，上下文可包括时间参考。例如，查看环境中的个体说道“这发生在昨天”，然后时间参考便是“昨天”。计算机系统首先从音频信号中识别短语“昨天”，并接着通过参考该短语在上下文中被提及的时间将该短语转换为绝对日期来对其进行处理。媒体文件、实体或故事还可包括指示与该数据相关的时间的时间参考。具体而言，媒体数据通常具有在创建之际所创建的确切的时间戳。例如，媒体文件可被标记为在特定的一天的特定时间处被捕捉，或者事件可被标记为已发生在特定的一天。因此，作为示例，如果在媒体文件的呈现期间导出的上下文包括短语“这发生在昨天”，则计算机系统通过将“昨天”转换为绝对日期来使用第一时间参考将检测到的短语“这发生在昨天”与当前显示的媒体数据文件相关联，该计算机系统接着使用第二种时间参考“昨天”来用根据对语句“昨天”进行处理所确定的确切日期对该媒体数据文件进行注释。此类注释允许媒体数据文件接着基于该时间参考被检索或组织。一般而言，诸如“夏季”、“冬季”、“上周”、特殊节日、“当约翰在大学时”之类的弱时间参考可被转换为日期范围，包括一天或多天、一周或多周、一个月或几个月和/或一年或几年。

图6是描述使用上下文选择媒体数据文件的示例实现的流程图。

在该过程中，主计算机接收600来自查看环境的上下文作为输入，以及任何进一步暗示的或导出的选择准则。选择准则可以基于用户输入、主计算机上的故事处理组件中的设置、和/或作为故事定义和/或元数据的一部分的预定准则。

基于接收到的上下文和选择准则，主计算机构建602查询以用于访问数据库。查询的形式取决于从传感器提取的数据的种类和选择准则。

主计算机将查询应用于604数据库并接收该查询的结果。该结果可指示例如与选择准则匹配的一个或多个故事或媒体数据文件的集合。主计算机可使用相关性和/或优化统计数据(诸如注视分析、从每个媒体文件的先前呈现捕捉的反馈和反应)来对媒体文件或故事进行排序，以便包括更相关的媒体文件还有接收到查看环境和/或观众的高水平的参与的概率最高的那些媒体文件。作为该排序和优化过程的一部分，特定媒体文件也可取决于特定查看环境和/或观众而被排除。根据这些结果，故事或可为其创建故事的媒体数据文件的集合可被选择606。该选择可基于对终端用户呈现查询结果来由该终端用户执行。该选择也可由计算机自动地作出，诸如通过选择最匹配的故事。然后，主计算机可为所选择的故事访问和呈现608媒体数据文件。

如本文中所使用的，术语“匹配”旨在包括在一组输入项(诸如查询项)与同所储存的数据中的一个或多个条目相关联的一组特征之间应用的任何形式的相似度或差异度量。尽管以上示例描述了将元数据从上下文匹配到故事，但是从查看环境导出的上下文的任一部分可被处理成一组项，该组项可以与数据库中的条目进行比较，以使用各种相似度、差异或确切匹配技术中的任一种来从数据库检索项。

这样的计算机系统可支持各种各样的使用情形，其中来自查看环境的上下文可被用来组织、检索、注释和/或呈现媒体数据文件作为与一个或多个实体(诸如个体、个体组或其它对象)相关联的媒体数据文件的集合。

例如，上下文可包括音频信号，该音频信号包括查看环境中的各个个体的言语交流(诸如查看环境中的各个个体之间的对话)，并且自然地且可能独立于查看体验(该查看体验接着由计算机系统处理以生成伴随对话的媒体体验)而发生。

例如，如果查看环境位于家庭的家中，则连续处理的上下文可被用来智能地服务各种媒体体验并连续地注释来自各种媒体体验的媒体数据，从而导致一种如下的系统：该系统在其如何呈现为查看环境中的各个个体定制的媒体体验方面随时间推移而自适应。上下文可被用来标识家庭和各个个体查看模式、重要日期、场合、事件和对象以及表达(面部、言语语言元素、姿势)，并将这些与各种标签或得分相关联，并接着用这些标签或得分来注释媒体文件和其它数据。所注释的媒体文件和其它数据允许系统基于关于各个个体和家庭以及当前在查看环境中标识出的各个个体的见解来检索和呈现媒体数据。例如，通常由一些家庭成员使用的单词和短语或者来自值得纪念的时刻的单词和短语可被用来注释媒体数据，并接着被用作搜索入口点来检索该媒体数据。这些单词和短语可以从上下文或媒体数据或两者的组合(诸如在媒体数据的呈现期间接收到的语音命令)获得。

作为另一示例，计算机系统可处理来自查看环境中的个体的音频信号，以及该个体相对于显示器的注视和定位信息。注视和定位信息可被用来确定从音频信号提取的任何单词、短语或故事是否可能与正在查看环境中呈现的媒体数据相关。在使用注视分析的情况下，计算机系统使用自然语言处理还有用户是否正在看着所呈现的媒体的信息、以及如果是的情况下用户正看着所呈现的媒体的哪个特定实体和/或区域的信息来确定个体是否正在谈论该所呈现的媒体。如果确定该个体正在谈论该所呈现的媒体，则计算机系统进一步处理所提取的单词、短语或更多文本(诸如描述或故事)，并用该信息在数据库中注释所呈现的媒体数据文件。

作为另一示例，音频数据(诸如音乐、录制的声音、旋律的表示等)或其它音乐数据(诸如歌词、情绪类别、类别、乐器演奏法或其它属性)可以是与故事、媒体数据文件的集合或各个个体媒体数据文件或数据库中的实体相关联的可搜索元数据。计算机系统可被配置成例如响应于语音命令来处理音频数据(诸如哨音或哼出的调)以提取用来搜索数据库或注释数据库中的条目的信息。例如，特定情绪分类类别的音乐可以与数据库中的某故事相关联。作为另一示例，特定情绪分类的音乐可以与特定类别的事件相关联，诸如生日庆祝会或圣诞节庆祝会。然后可以通过接收与实体、故事或孤立的媒体文件相关联的特定哨音或哼出的调或歌曲或旋律来检索这些故事或媒体文件。

作为另一示例，在使用共享存储系统中的文件共享技术的情况下，来自各种数据库的故事、媒体文件和/或实体信息可以与其它用户(诸如“扩展的家庭”)共享。实体数据库可被用来将个体的不同集合跟踪为不同的“家庭”或“扩展的家庭”以实现此类共享。

作为另一示例，被应用于来自查看环境的音频信号的自然语言处理可以以许多方式使用。在给定从音频信号提取的单词、短语和其它信息的情况下，数据库可以是能由具有足够特权的任何个体来搜索的。用户可因此以多种方式(“显式地”和“隐式地”)向计算机系统请求故事。例如，用户可以在几年前和/或在某些位置和/或在某些情况下和/或用某些情感标签、短语来请求多个人x、y和z的照片。计算机系统可接着标识匹配的故事和/或媒体文件、对它们排序、定义呈现和显示属性，以及开始向用户呈现这些媒体文件。自然语言处理可例如被用来提供字幕、评论和进一步的注释。查看者对所呈现的媒体文件的反应可接着从查看环境的上下文中被捕捉并且被用来进一步注释所选择和呈现的媒体文件和故事。例如，评价信息(诸如“喜欢”或“不喜欢”或数值尺度上的值)也可例如通过语音命令和/或姿势来提供。作为另一示例，各个个体的反应可通过处理其它上下文信息(诸如面部分析、声音和身体移动)来得到暗示。该信息可被用来将媒体数据文件与个体和所提供的反应或评价相关联。

作为另一示例，计算机系统可响应于语音输入和命令来提供一些编辑功能。例如，响应于语音命令(例如“注释”)，当前呈现的媒体数据文件可以用关键词、字幕、情感标签、标题或其它信息来注释。作为另一示例，响应于语音命令(例如“编辑”)，媒体数据文件或故事可被呈现以供用户编辑。

各种各样的其它用途可由这样的计算机系统提供，该计算系统被配置成使用来自查看环境的上下文来组织、检索、注释和/或呈现媒体数据文件作为与一个或多个实体(诸如个体、个体组或其它对象)相关联的媒体数据文件的集合。

现已描述了示例实现，图7解说了可以用其实现前述描述的计算机系统的各组件的计算机的示例。这只是计算机的一个示例，而并不旨在对这样的计算机的使用或功能范围提出任何限制。

计算机可以是各种通用或专用计算硬件配置的任何计算硬件配置。可使用的计算机的一些示例类型包括但不限于，个人计算机、游戏控制台、机顶盒、手持式或膝上型设备(例如，媒体播放器、笔记本计算机、平板计算机、蜂窝电话、个人数据助理、语音记录器)、虚拟现实和增强现实设备、服务器计算机、多处理器系统、基于微处理器的系统、可编程消费电子产品、联网个人计算机、微计算机、大型计算机，以及包括任何以上类型的计算机或设备的分布式计算环境，等等。

参考图7，计算机700包括至少一个处理单元702和存储器704。该计算机可具有多个处理单元702和实现存储器704的多个设备。处理单元702可包括彼此独立操作的一个或多个处理核(未示出)。附加的协处理单元也可存在于该计算机中。存储器704可包括易失性设备(诸如动态随机存取存储器(DRAM)或其它随机存取存储器设备)、和非易失性设备(诸如只读存储器、闪存，等等)或两者的某种组合。其它存储(诸如专用存储器或寄存器)也可存在于一个或多个处理器中。计算机700可包括附加存储(诸如存储设备(不论可移动还是不可移动))，该附加存储包括但不限于磁记录或光记录的盘或磁带。此类附加存储在图7中通过可移动存储设备708和不可移动存储设备710来解说。图7中各组件一般地通过互连机制，诸如一条或多条总线730，来互连。

计算机存储介质是其中数据可被存储并由计算机从可寻址物理存储位置检索的任何介质。计算机存储介质包括易失性和非易失性存储器，以及可移动和不可移动存储设备。存储器704、可移动存储708和不可移动存储710全部都是计算机存储介质的示例。计算机存储介质的某些示例是RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光学地或磁光学地记录的存储设备、磁带盒、磁带、磁盘存储或其它磁性存储设备。计算机存储介质和通信介质是介质的互斥的类别。

计算机700还可包括通信连接712，其允许计算机通过通信介质与其它设备进行通信。通信介质通常经由有线或无线物质通过传播诸如载波的已调制数据信号或通过经由该物质的其它传输机制，来传输计算机程序指令、数据结构、程序模块或其它数据。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被设定或更改，从而改变了信号的接收设备的配置或状态的信号。作为示例而非限制，通信介质包括有线介质(诸如传播电信号的金属或其它导电线或传播光信号的光纤)，以及无线介质(诸如允许信号(诸如声、电磁、电、光、红外、射频和其它信号)的传播的任何非有线通信介质)。通信连接712是诸如有线网络接口、无线网络接口之类的设备，射频收发器(例如，Wi-Fi、蜂窝、长期演进(LTE)或蓝牙等)，收发器，导航收发器(例如，全球定位系统(GPS)或全球导航卫星系统(GLONASS)等)，与通信介质接口以通过通信介质传送数据且从通信介质接收数据的收发器。

计算机700可具有各种输入设备714，诸如指针设备、键盘、基于触摸的输入设备、笔、相机、麦克风、诸如加速度计、温度计、光传感器等的传感器，等等。计算机700可具有各种输出设备716，诸如显示器、扬声器等。此类设备全是本领域公知的并且不需要在此过多讨论。各种输入和输出设备可实现自然用户接口(NUI)，其是使得用户能够以“自然”方式与设备交互而无需由诸如鼠标、键盘、遥控等强加的人为约束的任何接口技术。

UI方法的示例可包括依赖于语音识别、触摸和指示笔识别、屏幕上和屏幕附近的姿势识别、空中姿势、头部和眼睛跟踪、话音和语音、视觉、触摸、姿势、以及机器智能的那些方法，并可包括使用触敏显示器、话音和语音识别、意图和目的理解、使用深度相机(如立体相机系统、红外相机系统、和其它相机系统、以及这些的组合)的运动姿势检测、使用加速度计或陀螺仪的运动姿势检测、面部识别、三维显示、头部、眼睛和注视跟踪、浸入式增强现实和虚拟现实系统，所有这些都提供更自然的接口，以及用于使用电场传感电极(EEG和相关方法)的传感大脑活动的技术。

各种存储710、通信连接712、输出设备716和输入设备714连同计算机的其余部分可被集成在外壳内，或可通过计算机上的各种输入/输出接口设备连接，在这种情形中，附图标记710、712、714和716可根据情况指示用于连接到设备的接口或设备其本身。

计算机通常包括操作系统，该操作系统是管理各应用对计算机的各种资源的访问的计算机程序。可存在多个应用。各种资源包括存储器、存储、输入设备和输出设备，诸如图7所示的显示设备和输入设备。

图1到图6的各种模块、组件、数据结构和过程以及图7中的计算机上的任何操作系统、文件系统和应用可以使用一个或多个计算机的一个或多个处理单元与由该一个或多个处理单元处理的一个或多个计算机程序来实现。计算机程序包括计算机可执行指令和/或计算机解释的指令，诸如程序模块，其指令由计算机中的一个或多个处理单元处理。一般而言，此类指令定义在由处理单元处理时指令或配置计算机对数据执行操作或配置计算机实现各种组件、模块或数据结构的例程、程序、对象、组件、数据结构，等等。

替代地或附加地，此处所述的各种组件中的一个或多个的功能可至少部分地由一个或多个硬件逻辑组件来执行。例如、但非限制，可使用的硬件逻辑部件的说明性类型包括现场可编程门阵列(FPGA)、程序专用的集成电路(ASIC)、程序专用的标准产品(ASSP)、片上系统系统(SOC)、复杂可编程逻辑器件(CPLD)、等等。

因此，在一个方面，一种计算机系统包括计算机可访问存储，该计算机可访问存储被配置成储存：实体数据，该实体数据包括标识多个实体的数据和标识实体之间的关系的数据；媒体数据文件和媒体文件元数据，其中每个媒体数据文件具有相关联的媒体文件元数据，该元数据包括与媒体数据文件相关联的一个或多个实体的指示，以及文本数据；以及包括多个故事的故事数据，每个故事包括至少文本数据、与故事相关联的多个实体的指示以及与故事相关联的多个媒体数据文件的指示。该计算机系统还包括环境中的传感器，该传感器生成表示至少环境中的个体进行的言语交流的信号。计算机系统还包括环境中的呈现设备，该呈现设备被配置成接收媒体数据并处理该媒体数据以在环境中呈现该媒体数据。该计算机系统还包括处理系统，该处理系统被配置成接收来自传感器的信号、处理该信号以导出上下文，该上下文包括至少从接收到的信号提取的表示环境中的个体进行的言语交流的数据以及指示实体的数据。该处理系统被进一步配置成在从传感器接收信号的同时从对环境中的呈现设备上的媒体数据文件的选择中呈现媒体数据，以及至少基于从来自传感器的信号导出的上下文在对媒体数据文件的选择之间对媒体数据文件进行注释。

在另一方面，一种制品包括计算机存储介质和储存在该计算机存储介质上的计算机程序指令，该计算机程序指令在由主计算机执行时将该主计算机配置成提供一种计算机系统，该计算机系统包括计算机可访问存储，该计算机可访问存储被配置成储存实体数据，该实体数据包括标识多个实体的数据和标识实体之间的关系的数据；媒体数据文件和媒体文件元数据，其中每个媒体数据文件具有相关联的媒体文件元数据，该元数据包括与媒体数据文件相关联的一个或多个实体的指示，以及文本数据；以及包括多个故事的故事数据，每个故事包括至少文本数据、与故事相关联的多个实体的指示以及与故事相关联的多个媒体数据文件的指示。该计算机程序指令进一步将主计算机配置成接收来自环境中的传感器的信号，该传感器生成表示至少环境中的个体进行的言语交流的信号，以及处理该信号以导出上下文，该上下文包括至少从接收到的信号提取的表示环境中的个体进行的言语交流的数据和指示实体的数据，以及在从传感器接收信号的同时从对环境中的呈现设备上的媒体数据文件的选择中呈现媒体数据，以及至少基于从来自传感器的信号导出的上下文在对媒体数据文件的选择之间对媒体数据文件进行注释。

在另一方面，一种计算机实现的过程使用计算机系统，该计算机系统包括计算机可访问存储，该计算机可访问存储被配置成储存：实体数据，该实体数据包括标识多个实体的数据和标识来自该多个实体的实体的集合的数据；媒体数据文件和媒体文件元数据，其中每个媒体数据文件具有相关联的媒体文件元数据，该元数据包括该多个实体中的与媒体数据文件相关联的一个或多个实体的指示，以及文本数据；以及包括多个故事的故事数据，每个故事包括至少文本数据，与故事相关联的多个实体的指示以及与故事相关联的多个媒体数据文件的指示。该计算机实现的过程包括接收来自环境中的传感器的信号，该传感器生成表示至少环境中的个体进行的言语交流的信号，处理该信号以导出上下文，该上下文包括至少从接收到的信号提取的表示环境中的个体进行的言语交流的数据和指示实体的数据，在从传感器接收信号的同时从对环境中的呈现设备上的媒体数据文件的选择中呈现媒体数据，以及至少基于从来自传感器的信号导出的上下文在对媒体数据文件的选择之间对媒体数据文件进行注释。

在另一方面，一种计算机系统包括用于在媒体数据在查看环境中的呈现设备上的呈现期间处理从该查看环境中的传感器接收到的信号以从信号中提取上下文的装置，以及用于使用所提取的上下文进一步处理媒体数据的装置。

在另一方面，一种计算机实现的过程包括在媒体数据在查看环境中的呈现设备上的呈现期间处理从该查看环境中的传感器接收到的信号以从信号中提取上下文，以及使用所提取的上下文进一步处理媒体数据。

在任何前述方面中，所呈现的媒体数据可基于上下文来选择，和/或所呈现的媒体数据可基于上下文来被注释。

在任何前述方面中，对媒体数据文件的选择可通过将所导出的上下文与同存储中的媒体数据文件相关联的元数据进行匹配而被生成。

在任何前述方面中，媒体数据文件可通过以下来被注释：定义与对媒体数据文件的选择相关联的故事，以及至少基于所导出的上下文来注释所定义的故事。

在任何前述方面中，对媒体数据文件的选择可通过以下来生成：将所导出的上下文与同存储中的故事相关联的元数据进行匹配，以及选择至少一个匹配的故事，以及访问与所选择的故事相关联的媒体数据文件的集合作为对要呈现的媒体数据文件的选择。

在任何前述方面中，计算机可进一步被配置成接收指示对媒体数据文件的选择的输入，发起对媒体文件的选择的呈现，将故事与对媒体数据文件的选择相关联，以及将上下文与同所选择的媒体数据文件相关联的故事相关联。

在任何前述方面中，媒体数据文件可被储存在多个数据存储系统上，其中用于媒体数据文件的元数据进一步包括指示其上储存媒体数据文件的数据存储系统的数据，并且计算机可访问存储被进一步被配置成储存数据存储系统数据，该数据存储系统数据针对每个数据存储系统包括使计算机能够访问该数据存储系统的数据。数据存储系统可包括计算机网络上的域，这些域储存媒体数据文件以使用户能通过使用用户名和密码的用户账户使用浏览器应用进行访问。

在任何上述方面中，计算机可访问存储可被配置为包括以下的数据库：包括关于实体的数据的实体数据库、包括关于故事的数据的故事数据库、包括关于媒体数据文件的数据的媒体索引，以及指定实体、故事和媒体数据文件之间的关联的多个关系数据结构。

在任何前述方面中，计算机可被进一步配置成将时间参考与所导出的上下文相关联，以及至少基于与来自媒体数据文件的媒体数据相关联的时间参考和与所导出的上下文相关联的时间参考来将上下文与媒体数据文件相关联。

任何前述方面可被实现为计算机系统、这样的计算机系统的任何个体组件、这样的计算机系统或这样的计算机系统的任何个体组件执行的过程、或包括其中储存计算机程序指令的计算机存储的一种制品，并且其中当所述计算机程序指令由一个或多个计算机执行时对该一个或多个计算机进行配置以提供这样的计算机系统或这样的计算机系统的任何个体组件。

应理解，所附权利要求书中定义的主题不一定限于上述特定实现。上述特定实现仅仅作为示例公开。

Claims

1.一种计算机系统，包括：

a.计算机可访问存储，所述计算机可访问存储被配置成储存：

实体数据，所述实体数据包括标识多个实体的数据和标识所述实体之间的关系的数据；

媒体数据文件和媒体文件元数据，其中每个媒体数据文件具有相关联的媒体文件元数据，所述元数据包括：与所述媒体数据文件相关联的一个或多个实体的指示，以及文本数据；以及

包括多个故事的故事数据，每个故事包括至少文本数据、与所述故事相关联的多个所述实体的指示以及与所述故事相关联的多个媒体数据文件的指示；

b.环境中的传感器，所述传感器生成表示至少所述环境中的个体进行的言语交流的信号；

c.所述环境中的呈现设备，所述呈现设备被配置成接收媒体数据并处理所述媒体数据以在所述环境中呈现所述媒体数据；以及

d.处理系统，所述处理系统被配置成：

接收来自所述传感器的所述信号；

处理所述信号以导出上下文，所述上下文包括至少从接收到的信号提取的表示所述环境中的所述个体进行的所述言语交流的数据以及指示实体的数据；

在从所述传感器接收所述信号的同时从对所述环境中的所述呈现设备上的媒体数据文件的选择中呈现媒体数据；

至少基于从来自所述传感器的所述信号导出的所述上下文在对媒体数据文件的所述选择之间对媒体数据文件进行注释。

2.根据权利要求1所述的计算机系统，其特征在于，所述处理系统被进一步配置成：

通过将所导出的上下文与同所述存储中的媒体数据文件相关联的元数据进行匹配来生成对所述媒体数据文件的选择。

3.根据权利要求2所述的计算机系统，其特征在于，对媒体数据文件进行注释包括：

定义与对媒体数据文件的所述选择相关联的故事；

至少基于所导出的上下文来注释所定义的故事。

4.根据权利要求1所述的计算机系统，其特征在于，所述处理系统被进一步配置成：

通过将所导出的上下文与同所述存储中的故事相关联的元数据进行匹配来生成对所述媒体数据文件的选择；以及

选择至少一个匹配的故事；以及

访问与所选择的故事相关联的媒体数据文件的集合作为对要呈现的媒体数据文件的选择。

5.根据权利要求1所述的计算机系统，其特征在于，所述处理系统被进一步配置成：

接收指示对所述媒体数据文件的选择的输入；

发起对所述媒体文件的选择的所述呈现；

将故事与对所述媒体数据文件的选择相关联；以及

将所提取的文本数据和实体数据与同所选择的媒体数据文件相关联的所述故事相关联。

6.根据权利要求1所述的计算机系统，其特征在于，其中所述媒体数据文件被储存在多个数据存储系统上，并且其中用于媒体数据文件的所述元数据进一步包括指示其上储存所述媒体数据文件的数据存储系统的数据，并且其中所述计算机可访问存储被进一步被配置成储存数据存储系统数据，所述数据存储系统数据针对每个数据存储系统包括使所述计算机能够访问该数据存储系统的数据。

7.根据权利要求6所述的计算机系统，其特征在于，所述数据存储系统包括计算机网络上的域，所述域储存媒体数据文件以使用户能通过使用用户名和密码的用户账户使用浏览器应用进行访问。

8.根据权利要求1所述的计算机系统，其特征在于，所述计算机可访问存储被配置为包括以下的数据库：

包括关于实体的数据的实体数据库；

包括关于故事的数据的故事数据库；

包括关于媒体数据文件的数据的媒体索引；以及

指定所述实体、所述故事和所述媒体数据文件之间的关联的多个关系数据结构。

9.根据权利要求1所述的计算机系统，其特征在于，进一步包括：

将时间参考与所导出的上下文相关联；

至少基于与来自所述媒体数据文件的媒体数据相关联的时间参考和所述的与所导出的上下文相关联的时间参考来将所述上下文与媒体数据文件相关联。

10.一种使用计算机系统的计算机实现的过程，，所述计算机系统包括计算机可访问存储，所述计算机可访问存储被配置成储存：实体数据，所述实体数据包括标识多个实体的数据和标识来自所述多个实体的实体的集合的数据；媒体数据文件和媒体文件元数据，其中每个媒体数据文件具有相关联的媒体文件元数据，所述元数据包括所述多个实体中的与所述媒体数据文件相关联的一个或多个实体的指示，以及文本数据；以及包括多个故事的故事数据，每个故事包括至少文本数据，与所述故事相关联的多个所述实体的指示以及与所述故事相关联的多个媒体数据文件的指示；以及环境中的传感器，所述传感器生成表示至少所述环境中的个体进行的言语交流的信号；以及所述环境中的呈现设备，所述呈现设备被配置成接收媒体数据并处理所述媒体数据以在所述环境中呈现所述媒体数据，所述计算机实现的过程由所述计算机系统执行，包括：

接收来自所述传感器的所述信号；

11.根据权利要求10所述的过程，其特征在于，进一步包括：

12.根据权利要求11所述的过程，其特征在于，对媒体数据文件进行注释包括：

定义与对媒体数据文件的所述选择相关联的故事；以及

至少基于所导出的上下文来注释所定义的故事。

13.根据权利要求10所述的过程，其特征在于，进一步包括：

选择至少一个匹配的故事；以及

14.根据权利要求10所述的过程，其特征在于，进一步包括：

接收指示对所述媒体数据文件的选择的输入；

发起对所述媒体文件的选择的所述呈现；

将故事与对所述媒体数据文件的选择相关联；以及

15.一种制品，包括：

计算机存储介质；

被储存在所述计算机存储介质上的计算机程序指令，所述计算机程序指令在由主计算机执行时将所述主计算机配置成提供根据权利要求1至9中任一项所述的计算机系统。