CN111771385B

CN111771385B - 作为辅助数据的坐标

Info

Publication number: CN111771385B
Application number: CN201980015533.8A
Authority: CN
Inventors: 迈克尔·菲利普斯; 帕特里克·格林; 亨利·弗雷孔
Original assignee: Source Digital Inc
Current assignee: Source Digital Inc
Priority date: 2018-01-02
Filing date: 2019-01-02
Publication date: 2022-07-05
Anticipated expiration: 2039-01-02
Also published as: US20190208236A1; KR20200138710A; CA3087563A1; CN115278295A; EP3735778A1; PL3735778T3; PL3735778T4; KR102585575B1; JP2021509795A; WO2019136092A1; CN111771385A; EP4096227A1; EP3735778B1; ES2933202T3

Abstract

在媒体环境驱动的内容分发平台中，作为辅助数据的坐标可以包括：获得同步数据和辅助数据，所述辅助数据对表示视听内容的可视部分内的位置的坐标集进行标识，所述辅助数据与同步数据中的时刻挂钩；以及传递同步数据和与同步数据中的时刻挂钩的辅助数据，使得同步数据与视听内容的后续对齐使表示视听内容的可视部分内的位置的坐标集同步。

Description

作为辅助数据的坐标

背景技术

媒体内容经制造、处理，且然后发送给消费者。除了传统媒体内容之外，电子通信技术的普及还允许大量传递与内容有关或加强内容的辅助数据。例如，诸如即时通讯之类的技术提供了一种媒介，通过该媒介将电子信息非常快地传递给一个人或很多人。包括例如个人计算机、移动电话、个人数字助理和电视机顶盒(例如，有线机顶盒、卫星机顶盒等)的电子设备向信息的消费者提供了就绪的访问。可以经由现代通信技术传递的辅助数据的类型和内容变化很大，并且包括从个人信息到信息内容到广告的一切。辅助数据能够采用多种形式，从简单的文本到图形到视频到包含大量数据层的内容。

但是当前技术不足以提取这种辅助数据用于后续的处理。例如，当前的使内容和辅助数据同步的方法可能需要在源与目标或消费者之间建立显式的数据连接，并且通常是单向的。其他当前的同步的方法可能依靠元数据，因为不同的设备将使用可能支持或不支持元数据的各种工作流，或者传递格式容器不很好地适合包含除本质本身之外的元数据，所以通过信号链可能始终存在或不存在元数据。

此外，传统地，辅助数据已经受限于上述类型(例如，文本、图形、视频等)。可用的辅助数据的类型的这种限制限制了对媒体内容和辅助数据两者的利用。

发明内容

本公开提供解决这些问题的方法和系统。本公开描述了一种音频或时间码与自动内容识别(ACR)技术的动态组合，这种动态组合包括指纹识别以触发在下游流水线中、将内容从制造携带到消费者的动作。这些动作保留原始内容和质量，实现对未知内容的兼容和可接受的集成，提供用于有条件访问上游数据库的多个路径以及返回路径。本公开提供了一种用于辅助数据同步、实现间接连接并绕过数据分条障碍的路径。添加包括指纹识别以将例如实时事件与存储在数据库中的事件进行比较的本地化ACR，来实现绕过所述链、并提供用于数据反馈以指示同步的机制、以及向数据库提供更改、更新和附加新信息。它提供了一种存储和检索关于内容的、时间对齐且特征丰富的数据的方式，该数据能够用于众多增值方面，诸如电子商务、数据跟踪、搜索、数据关系以及细粒度受众测量等其他用途。

此外，本公开提供了一种新型的辅助数据：坐标，例如视听内容的可视部分的视场的坐标。这种新的辅助数据类型允许更高级地利用通常的视听内容和辅助数据。它创建与可视皮层中的内容对齐的数据的虚拟表示，以便它能够充当围绕内容的任何内容播放环境的合成包装，并将相关辅助数据暴露给查看者。

并入说明书中并构成说明书一部分的附图示出了各种示例系统、方法等，这些附图示出了本发明各方面的各种示例实施例。应当理解的是，图中所示的元素边界(例如，框、框组或其他形状)表示了边界的一个示例。本领域技术人员应当理解，一个元素可以被设计为多个元素，或者多个元素可以被设计为一个元素。示出为另外元素的内部组件的元素可以实现为外部组件，反之亦然。此外，元素可以不按比例绘制。

图1A示出了用于使包括音频的内容与包括该内容的可视部分的坐标的辅助数据同步的示例性方法的示意图。

图1B示出了用于使包括内容的可视部分的坐标的辅助数据与表示第二坐标集的辅助数据同步的示例性方法的示意图。

图1C示出了用于使包括三维坐标的辅助数据同步的示例性方法的示意图。

图1D示出了用于使表示二维坐标集的辅助数据与表示三维坐标集的辅助数据同步的示例性方法的示意图。

图2示出了用于使辅助数据与包括音频的内容同步的示例性系统的框图。

图3示出了包括内容分发器处的细节的示例性系统的框图。

图4示出了包括消费者处的细节的示例性系统的框图。

图5示出了包括存储位置处的细节的示例性系统的框图。

图6示出了用于使辅助数据与包括音频的内容同步的示例性方法的流程图。

图7A示出了用于使辅助数据与包括音频的内容同步的示例性方法的流程图。

图7B示出了用于媒体环境驱动的内容分发平台的示例性方法的流程图。

图8示出了用于使辅助数据与包括音频的内容同步的示例性机器的框图。

具体实施方式

图1A示出了用于使包括音频的内容与包括该内容的可视部分的坐标的辅助数据同步的示例性方法的示意图。图1A示出了视听内容1，其包括可视部分3和音频部分5。视听内容1可以是电影、电视节目、体育赛事(例如，篮球比赛)、互联网视频、视频游戏、虚拟现实(VR)、增强现实(AR)或混合现实(MR)环境、或经由无线电、互联网等播放的仅音频节目。

图1A还示出了辅助数据7。辅助数据7是与内容有关的数据，并且可以包括：诸如内容名称或内容标识数据之类的、描述内容的数据、关于在内容中播放的脚本的数据、关于在内容中的角色穿着的衣物的数据、包括来自内容的表演者、制作人或导演的评论的数据、指向包括关于内容的信息的资源的统一资源定位符(URL)、关于内容的音频中音乐的数据等。辅助数据7可以包括商业数据，诸如广告数据。辅助数据7还可以包括用户数据，诸如来自内容的查看者的评论(例如，推特(twitter)消息等)。辅助数据7还可以包括专业或技术数据，诸如内容的音频的统计，该统计包括例如对内容的音频缩放的音量或动态范围。辅助数据7还可以包括对另外的应用的区块链级访问。

如能够从以上示例看出的，构成辅助数据7之物可以广泛地变化并且可以从各种源收集。辅助数据的另外的示例是内容1的可视部分3的坐标。这种新类型的辅助数据可以允许更高级地利用通常的视听内容和辅助数据。

伴随辅助数据产生的重要问题是同步；作为实际问题，如何精确地使辅助数据7与视听内容1时间对齐。当前的对内容和辅助数据同步的方法要求在内容的源与目标或消费者之间建立显式的数据连接。这种显式的计时数据将计时传递给消费场所处的设备。这些方法从源或内容提供者到目标或消费者通常也是单向的，这是限制。其他当前的同步的方法依靠附加到内容的元数据，因为不同的设施将使用可能支持或可能不支持元数据的各种工作流或内容容器格式，所以从源或内容提供者到目标或消费者的信号链中，元数据可能始终存在或可能始终不存在。

如图1A中所示，视听内容1包括可视部分3和音频5。图1A还以音频波形曲线的形式示出了视听内容1的音频部分5的表示9。表示9与视听内容1的音频部分5至少相匹配到随时间t根据表示9可标识出音频部分5的程度。在图1A的实施例中，辅助数据7分别在表示9的时刻处与表示9挂钩，该表示的时刻与音频部分5的时刻相对应，辅助数据7与音频部分对齐。在一个实施例中，辅助数据7可以与表示9上的持续时间(而不仅仅是一个时刻)挂钩。在这样的实施例中，辅助数据7可以与表示9上的两个(或更多个)时刻挂钩，该两个时刻分别表示在表示9(例如，电影场景)上的持续时间的开始和结束。在另外的实施例中，辅助数据7可以与适用于所限定的辅助数据7的表示9上的开始时刻以及持续时间挂钩。在这样的实施例中，辅助数据7可以与表示9上的开始(或结束)时刻挂钩，该开始(或结束)时刻分别表示在表示9(例如，电影场景)上的持续时间以及指定为绝对项的持续时间的开始和结束。

在图1A的示例中，辅助数据A与表示9的、与视听内容1的时间t_x相对应的时刻挂钩。辅助数据7b、7c和7h与表示9的、与视听内容1的时间t_x+1相对应的时刻挂钩。辅助数据7d和7e与表示9的、与视听内容1的时间t_x+2相对应的时刻挂钩。辅助数据7f与表示9的、与视听内容1的时间t_x+3相对应的时刻挂钩，且辅助数据7g与表示9的、与视听内容1的时间t_x+4相对应的时刻挂钩。

然后，辅助数据7和表示9中的每一个可以被存储在数据库中，该数据库可以被视听内容1的未来用户或查看者访问。这样，当将视听内容1分发给那些用户或查看者时，表示9以及与该表示9挂钩的辅助数据7对于这些用户或查看者可以是可用的。

在用户的场所，可以将正在接收的视听内容1的音频部分5与表示9进行实时比较，以使音频部分5以及因此的视听内容1与表示9同步。此外，由于辅助数据7与表示9的、与视听内容1的相应时间相对应的时刻挂钩，因此即使在缺少显式的计时数据的情况下，也可以使辅助数据7与视听内容1同步。

在所示的图1A的实施例中，辅助数据7a与视听内容1的时间t_x对齐(即，辅助数据出现在该时间处或与其有关)。辅助数据7b和7c出现在视听内容1的时间t_x+1处或与其有关。辅助数据7d和7e出现在时间t_x+2处或与其有关。辅助数据7f出现在视听内容1的时间t_x+3处或与其有关，并且辅助数据7g出现在时间t_x+4处或与其有关。例如，在t_x处的辅助数据7a可以指示内容的名称，第2季第2集《真爱如血(True Blood)》。在时间t_x+1(例如，在12m 2s处)处，辅助数据7b描述了Anna Paquin(演员)扮演的Sookie Stackhouse(角色)穿着ManoloBlahnik Hangisi 105mm绸缎高跟鞋(配件)，而辅助数据7c指示音乐是伦敦交响乐团演奏的贝多芬的《月光奏鸣曲》。辅助数据7d和7e可以是在时间t_x+2处接收的、用户表达他们对视听内容1或视听内容1中的特定场景的反应的推特消息。辅助数据7f可以指示：由于商业广告，内容的音频的规定音量或动态范围缩放在t_x+3处的变化，或者能够使该辅助数据比整个节目更精细。辅助数据7g可以指示：由于从商业广告回到视听内容1，内容的音频的规定音量或动态范围缩放在t_x+4处的变化。

另外类型的辅助数据可以是内容1的可视部分3的坐标数据。例如，辅助数据可以包括：对表示视听内容1的可视部分3内的位置的坐标集进行标识的数据；以及对位于视听内容1的可视部分3内、由该坐标集表示的位置处的对象的中心和形状进行标识的数据。在图1中，辅助数据7h可以是与内容1的可视部分3相对应的x,y坐标集(《真爱如血》是二维电视节目)。坐标7h与在辅助数据7b的可视部分3上的位置(Sookie Stackhouse的ManoloBlahnik Hangisi 105mm绸缎高跟鞋)相对应。

在该信息作为辅助数据7的一部分的情况下，用户可以向辅助数据系统查询其中出现Manolo Blahnik Hangisi 105mm绸缎高跟鞋的视听内容。搜索结果能够是ManoloBlahnik和/或105mm绸缎高跟鞋(产品)。查询的结果不仅是作为视听内容的第2季第2集《真爱如血》，而且还是作为出现鞋子的视听内容1中、时间+持续时间的t_x+1(例如，在12m 2s处)以及在可视部分3上作为鞋子的精确位置的坐标x,y。替代地，用户可以向辅助数据系统查询视听内容，在该视听内容中，Manolo Blahnik Hangisi 105mm绸缎高跟鞋出现在坐标x,y处。该查询的结果将是在时间t_x+1(例如，在12m 2s处)处的第2季第2集《真爱如血》。

类似地，在坐标集辅助数据可用的情况下，用户可以向辅助数据系统查询由特定的点集或形状坐标集标识的视听内容的可视部分内的位置处的辅助数据。例如，用户可以在时间t_x+1处或从给定形状内的视听内容1(第2季第2集《真爱如血》)内搜索坐标x、y处之物。该查询的结果将是Manolo Blahnik Hangisi 105mm绸缎高跟鞋。为了查询系统，用户可以例如在视听内容1(第2季第2集《真爱如血》)的时间t_x+1处、在坐标x,y处触摸设备的屏幕。系统可以检测在特定位置处的触摸、搜索辅助数据、并且输出标识在特定位置处的对象的信息。

以上查询组合仅是说明性的。许多其他查询组合是可行的，在这些组合中，坐标作为辅助数据允许更高级地利用通常的视听内容和辅助数据。

同样，图1A示出了二维示例(《真爱如血》是二维电视节目)，但是在此公开的辅助数据系统不限于二维，并且可以包括用于如下所述的三维内容(例如3D视频游戏、3D电影、3D虚拟现实等)的三维坐标(x,y，z)。

对作为辅助数据的坐标包括提供了机会，以更高级地利用通常的视听内容和辅助数据。作为辅助数据的坐标可以与简单的相对坐标相对应，例如简单表示内容1的视频帧(例如x＝0-1920，y＝0-1080)内或给定形状(如果已知纵横比，则三个坐标中最小的)内的位置的坐标x,y。然而，作为辅助数据的坐标可以与相对于替代空间或区域的坐标相对应，例如表示内容1的视频帧内的位置并同时表示另外空间或区域(例如虚拟空间，视频游戏内的空间，不同视听内容内的空间等)内的位置的坐标x,y。作为辅助数据的坐标也可以与能够关联到其他空间或区域的绝对坐标相对应，例如表示内容1的视频帧内的位置并同时表示现实世界空间(例如，体育场、城市、国家、星球、宇宙等)内的位置的坐标x,y。

此外，与替代空间或区域相对应的坐标不需要是绝对的或是相对于与内容1的可视部分3上的位置相对应的坐标。与替代空间或区域相对应的这些坐标可以简单地绑定或关联到与内容1的可视部分3上的位置相对应的坐标。例如，与替代空间或区域相对应的坐标可以作为辅助数据与同步数据9中对应的时刻挂钩，以将它们绑定或关联到与内容1的可视部分3上的位置相对应的坐标。这些附加的坐标层成为附加的辅助数据层。

图1B示出了利用坐标作为辅助数据的示例。图1B示出了用于使包括内容的可视部分的坐标的辅助数据与表示第二坐标集的辅助数据同步的示例性方法的示意图。如上所述，辅助数据7h包括与辅助数据7b的可视部分3上的位置相对应的坐标，即在时间t_x+1处、在《真爱如血》的第2季第2集中的Sookie Stackhouse穿着的Manolo Blahnik Hangisi 105mm绸缎高鞋。我们也知道，《真爱如血》发生在路易斯安那州小镇。因此，坐标7h不仅与第2季第2集《真爱如血》的、时间t_x+1处的Sookie Stackhouse的鞋子的位置相对应，还与路易斯安那州的某个地方，现实世界的地方相对应。能够为同一给定的节目的跨度引用多个位置。它在故事中发生的位置，其实际被拍摄的位置以及假设他们正在谈论的位置或内容内的标志上的位置。系统不限于一段相似的元数据，而是与内容有关的相似元数据层。视图8表示路易斯安那州小镇中的或路易斯安那州小镇的谷歌地球(Google Earth)的表示中的空间或位置。从图1B中可以看出，坐标7h与路易斯安那州小镇中和/或这个地方的谷歌地球的表示中的位置相对应。从某种意义上说，两个或更多个空间(第2季第2集《真爱如血》的时间t_x+1和现实世界的路易斯安那州小镇)通过坐标彼此锚定。

不仅表示单段视听内容的可视空间内的位置而且表示替代空间内的位置(或多个位置)的坐标概念具有巨大的意义。例如，用户或移动设备可以向辅助数据系统查询发生表演、电影、游戏等的场景的现实世界坐标。不仅与数据库中的表演、电影、游戏等中的场景/帧相对应而且与现实世界位置相对应的坐标可以因此给出现实世界位置并查询例如天气等的实时服务。在另外的示例中，用户或移动设备可以向辅助数据系统查询发生表演、电影、游戏等的场景的其他视听内容(或仅可视内容)。不仅与正在观看的表演、电影、游戏等中的场景/帧相对应而且还与其他表演、电影、游戏等中的场景相对应的坐标可以因此给出其他表演、电影、游戏等以及它出现的时间。在又一个示例中，用户或移动设备可以向辅助数据系统查询表演、电影、游戏等，所述表演、电影、游戏等具有在特定的世界坐标集处发生的场景。坐标不仅与世界位置相对应而且还与数据库中的各个表演、电影、游戏等相对应，系统可以因此给出表演、电影、游戏等内、与现实世界位置相对应的特定帧/场景。相似的概念也适用于三维空间。

这种能力极其有用，并且在现有技术中不可得到。可以通过坐标关联的空间层是无止尽的；视听内容可以关联到现实世界空间和虚拟世界空间(例如，视频游戏)、AR、MR等。

图1C示出了坐标作为辅助数据的三维示例。图1C示出了用于使辅助数据同步的示例性方法的示意图，该辅助数据包括可能出现的、与三维内容有关的三维坐标。三维内容可以包括立体3D视频、360视频(单视场的或立体的)、虚拟现实(VR)、增强现实(AR)等。在三维中，坐标可以对应于x、y和z。

对于三维内容，坐标z可以与深度坐标相对应。为了说明目的，假设视听内容1(《真爱如血》的第2季第2集)是三维内容。视图层3a-3i表示在视听内容1的时间t_x+1处的视图的深度z。如上所述，辅助数据7h与指示辅助数据7b的可视部分3上的位置的坐标相对应，即在时间t_x+1处、《真爱如血》的第2季第2集期间、Sookie Stackhouse穿着的Manolo BlahnikHangisi 105mm绸缎高跟鞋。作为三维对象的鞋子可出现在多个深度z处。然而，可最好在内容1的可视部分3中、在深度z＝3c处看到鞋子。

对于二维内容，坐标z可以与变焦的水平相对应。例如，高清(HD、UHD、4K以及更高)电影包括的信息比在小屏幕(诸如移动设备的小屏幕)上进行高清显示所需的信息要多得多。辅助数据系统可以利用该附加数据的可用性以在不牺牲分辨率的情况下来提供广泛的变焦。回到《真爱如血》的示例，当在小的移动设备的屏幕上全屏观看第2季第2集《真爱如血》时，Sookie Stackhouse的Manolo Blahnik Hangisi 105mm绸缎高跟鞋可能是不明显的或可能无法很好的看到。在这种情况下，与鞋子的位置相对应的坐标可以包括x、y以及z，z即是可以恰当地看到鞋子的变焦的水平。可以将坐标z设置为z＝3c，以便可以在较小的屏幕中恰当地看到鞋子。

如以上对二维示例所描述的，坐标不仅可以表示单段视听内容的可视空间内的位置，而且可以表示替代空间内的位置(或多个位置)。三维内容也是如此。例如，用户或移动设备可以向辅助数据系统查询发生表演、电影、游戏等的场景(即，特定时间)的、现实世界的三维坐标。不仅与数据库中的表演、电影、游戏等中的场景/帧相对应而且与现实世界位置相对应的坐标可以因此给出现实世界的三维位置。在另外的示例中，用户或移动设备可以向辅助数据系统查询视听内容，该视听内容具有在特定的三维世界(现实或虚拟)坐标集处发生的场景。坐标不仅与世界位置相对应而且还与数据库中的各个表演、电影、游戏等相对应，系统可以因此给出表演、电影、游戏等内、与现实世界位置相对应的特定帧/场景(即特定时间)。

图1D示出了用于使表示二维坐标集的辅助数据与表示三维坐标集的辅助数据同步的示例性方法的示意图。图1D示出了二维可视部分3上的位置7h可以关联到三维位置的示例。视图层8a-8i表示在例如路易斯安那州小镇中或路易斯安那州小镇的谷歌地球的表示中的三维空间或位置的深度(z方向)。从图1D中可以看出，坐标7h与二维的第2季第2集《真爱如血》、在时间t_x+1处的位置相对应以及与在三维的路易斯安那州小镇中和/或这个位置的谷歌地球三维表示中的现实世界位置相对应。从某种意义上说，这两个空间(第2季第2集《真爱如血》的时间t_x+1和现实世界的路易斯安那州小镇)通过坐标彼此锚定。

用户或移动设备可以向辅助数据系统查询发生二维表演、电影、游戏等的场景的现实世界的三维坐标，反之亦然。不仅与数据库中的表演、电影、游戏等中的场景/帧相对应而且与现实世界位置相对应的坐标可以因此给出现实世界的三维位置。在另外的示例中，用户或移动设备可以向辅助数据系统查询视听内容，该视听内容具有在特定的三维世界(真实或虚拟)坐标集处发生的场景。坐标不仅与世界位置相对应而且还与数据库中的相应二维表演、电影、游戏等相对应，系统可以因此给出表演、电影、游戏等内、与现实世界位置相对应的特定帧/场景。

关于创作或收集，可以在视听内容1的播出、广播、分发或表演之前获得或收集包括作为辅助数据的坐标的辅助数据7。例如，可以在视听内容1的预制造、制造、后期制造、质量控制或主控期间获得或收集辅助数据7。也可以在视听内容1的播出、广播、分发或表演期间获得或收集辅助数据7。例如，如果视听内容1是电视节目，则可以在电视节目的第一次或后续广播期间获得或收集辅助数据7。

作为辅助数据的坐标为辅助数据的创作和/或收集提供了附加机会。例如，用户可以在佩戴光学头戴式显示器的同时观看内容1(例如，第2季第2集《真爱如血》)。显示器具有其自己的坐标集，该坐标集可用于例如记录用户通过显示器查看的方向以及正在查看的眼睛的位置(取决于用于查看的系统)。作为辅助数据的坐标可以用于将与光学头戴式显示器中的位置相对应的坐标绑定到与内容1的可视部分3上的位置相对应的坐标。光学头戴式显示器的坐标可以作为辅助数据与同步数据9中的对应时刻挂钩，以将与光学头戴式显示器中的位置相对应的坐标绑定或关联到与内容1的可视部分3上的位置相对应的坐标。

关于存储和分发，所收集的辅助数据7可以存储在数据库中，该数据库可以被视听内容1的未来用户或查看者访问。这样，当稍后将视听内容1分发给那些用户或查看者时，辅助数据7可以对那些用户或查看者可用，以与视听内容1同时消费。辅助数据7以时间上与视听内容1对齐而出现或显现其自身。

图2示出了用于使辅助数据与包括音频的内容同步的示例性系统10的框图。系统10包括三个主要组成部分：内容分发器20、消费者30和存储位置40。图2还示出了媒介M，内容分发器20、消费者30和存储位置40通过该媒介M彼此通信。

元素20不限于广播器或广播设施或设备。实际上，内容分发器20可以表示如下中的一部分或在其中使用的任何设施或设备：预制造、制造、后期制造、质量控制、主控设备、任何类型的广播(包括专业或社交媒体广播)或发送或分发视听内容的其他方法，该任何设施或设备在播出之前和播出期间触摸视听内容1以进行传输或广播。

类似地，尽管为了便于说明，本公开将元素30称为消费者30，但是元素30不限于消费者或消费者场所或设备。实际上，消费者30可以表示在播出期间或播出之后触摸视听内容1以进行传输或广播的任何场所或设备。

同样，媒介M可以是通常用于发送内容1或数据的任何媒介，例如，互联网、卫星通信、无线电通信、电视通信(广播或线缆)等。尽管在图中，媒介M示为由内容分发器20、消费者30和存储位置40共享，但是这些元素之间的通信不需要在同一媒介中进行。所以，例如，内容分发器20可以经由卫星与消费者30通信，同时内容分发器20经由互联网与存储位置40通信。

在图2的示例中，内容分发器20将视听内容1发送给消费者30，并将辅助数据7和表示9发送到存储位置40以进行存储。消费者30从内容分发器20接收视听内容1，并从存储位置40接收辅助数据7和表示9。有趣的是，消费者30还可以将辅助数据7和/或表示9发送到存储位置40。因此，系统10通过消费者30提供了双向通信；消费者30可以参与辅助数据7的创建，以增强辅助数据7、系统的功能性以及最终的消费者的体验。

图3示出了包括内容分发器20处的细节的示例性系统10的框图。内容分发器20包括用于使辅助数据与内容同步的机器或机器组。内容可以包括音频。在所示的实施例中，内容分发器20包括预同步器22，该预同步器将辅助数据7与表示9(例如，图1的视听内容1的音频部分5的表示或可视部分3的表示)的时刻挂钩。

内容分发器20还可以包括收发器24，该收发器经由媒介M将视听内容1传递到消费者30并且将表示9和与表示9中的时刻挂钩的辅助数据7传递到存储位置40。如上所述，消费者30可访问存储位置40。在视听内容1的后续的播出、广播、分发、表演等时候，表示9与内容的音频5(或在表示9与可视部分3相对应的情况下的内容的视频3)的对齐使与表示9中的时刻挂钩的辅助数据7与视听内容1同步。

内容分发器20还可以包括音频处理器26，该音频处理器可以处理视听内容1的音频部分5，以创建内容的音频5的表示，例如，图1A的音频波形曲线。在替代实施例中，内容分发器20还可以包括视频处理器，该视频处理器可以处理视听内容1的可视部分3，以创建代替图1A的音频波形曲线或除此之外的内容视频3的表示。收发器24然后可以将表示9(例如，曲线)和与表示9中的时刻挂钩的辅助数据7传递到存储位置40。

在一个实施例中，预同步器22创建与存储位置40的链接。该链接可以是统一资源标识符(例如，URL)或类似的位置标识符或定位符。音频处理器26可以将与存储位置40的链接插入到视听内容1的元数据中，或者具体地插入到内容的音频5或内容视频3的元数据中。音频部分5可以被编码为但不限于杜比(Dolby)AC-4、AC-3或E-AC-3或MPEG-H，所有这些都能够携带元数据。消费者30可以从视听内容1或内容的音频5或视频3的元数据中提取与存储位置40的链接。具有与存储位置40的链接，消费者30然后可以与存储位置40通信，以获得存储在存储位置40中的信息或在其中存储信息。

在一个实施例中，音频处理器26分析内容的音频5以收集音频部分5的统计，该统计包括例如音频部分5的音量或动态范围缩放。音频处理器26可以将内容的音频5的统计插入到视听内容1、内容的音频5或内容的视频3的元数据中。消费者30可以从元数据中提取内容的音频5的统计。

在一个实施例中，收发器24除了表示9以及与表示9中的时刻挂钩的辅助数据7之外，还将内容的音频5的统计传递到存储位置40。消费者30可以从存储位置40获得内容的音频5的统计。

具有内容的音频5的统计，消费者30然后可以基于从元数据中提取的内容的音频5的统计来调整将要在消费者30场所播放或从消费者场所分发的音频。

如上所述，预同步器22可以在视听内容1的先前播出或表演期间收集辅助数据7。例如，视听内容1可以是原始现场直播的篮球比赛。辅助数据7可以包括最新的比赛统计(例如，得分、篮板、助攻等)。访问该辅助数据7及其对应的计时，在统计准确时，预同步器22可以将辅助数据7与表示9(例如，波形曲线)中、与比赛中适当的计时相对应的时刻挂钩。收发器24然后可以将辅助数据7和表示9发送到存储位置40，以供消费者30访问信息进行如上所述的使用。

内容分发器20还可以包括创作工具28以收集辅助数据7。创作工具28可以允许例如统计人员输入上述篮球比赛的统计。通常，创作工具28可以允许辅助数据7的输入。创作工具28可以用于输入：诸如内容名称或内容标识数据之类的、描述内容的辅助数据、关于在内容中播出的脚本的数据、关于内容中角色穿着的衣物的数据、包括来自内容的表演者、制作人或导演的评论的数据、指向包括关于内容的信息的资源的统一资源定位符(URL)、关于内容的音频中音乐的数据等。创作工具28还可以用于以商业数据的形式输入辅助数据7，诸如广告数据或关于内容或与内容有关的专业或技术数据。

创作工具28还可以用于将对象设置在视听内容1的可视部分3内。这样的位置可以或可以不由坐标集表示。创作工具28可以用于输入该坐标集。创作工具28还可以用于将作为附加辅助数据的第二坐标集(例如，现实世界位置的坐标，表示第二视听内容的可视部分内位置的坐标等)与视听内容1的同步数据9中的时刻挂钩，使得表示视听内容1的可视部分3内的位置的第一坐标集关联到第二坐标集。

图4示出了包括消费者30处的细节的示例性系统10的框图。消费者30可以包括用于使辅助数据7与包括音频5和视频3的内容1同步的机器或机器组。

在所示的实施例中，消费者30包括收发器32，该收发器从内容分发器20接收视听内容1并且从存储位置40接收表示9和与表示9中的时刻挂钩的辅助数据7。

消费者30还可以包括后同步器34，该后同步器将表示9与内容的音频5或视频3对齐，从而如上所述使辅助数据7与视听内容1同步。后同步器34将表示9与内容的音频5或内容的视频3对齐的特定方法对于本发明而言并不重要。可以实现这种对齐的机制包括已知为自动内容识别(ACR)的变型，且具体地包括已知为指纹识别的变型。ACR是用于对在媒体设备上播放或在媒体文件中呈现的内容标识或识别的技术。声音指纹识别从内容本身生成唯一的指纹。无论内容格式、编解码器、比特率和压缩技术如何，指纹识别技术都可以工作。这使得跨网络和信道使用成为可能。连续地将视听内容1的正在进行的实时指纹与表示9进行比较可以用于使视听内容1的辅助数据7时间线同步。这种指纹识别技术的示例可以在发布日期为2017年10月10日、号为9,786,298的美国专利中找到，其全部内容通过引用整体并入本文。

消费者30还可以包括音频处理器36，该音频处理器从收发器32接收内容的音频5。在一个实施例中，音频处理器36可以从视听内容1或从内容的音频5中提取元数据，并且如上所述，音频处理器可以从元数据中提取与存储位置40的链接。具有与存储位置40的链接，收发器32然后可以与存储位置40通信，以获得存储在存储位置40中的信息或在其中存储信息。

替代地或附加地，与存储位置40的链接可以以订阅的基础分发给消费者30，或者以其他方式提供给消费者30。这样，如果消费者30接收的视听内容1不包括元数据或元数据不包括与存储位置40的链接，则消费者30仍可以访问存储位置40。

在一个实施例中，代替或除了提取与存储位置40的链接之外，音频处理器36还如上所述提取存储在元数据中的内容的音频5的统计(例如，音量或动态范围缩放)。在一个实施例中，除了表示9和辅助数据7之外，收发器32还从存储位置40接收内容的音频5的统计。具有内容的音频5的统计，音频处理器36然后可以基于从存储位置40获得的内容的音频5的统计，来处理将要在消费者30场所播放或从消费者场所分发的音频。

在一个实施例中，当视听内容1或内容的音频5包括元数据时，音频处理器使用存储在元数据中的内容的音频的统计(例如，音量或动态范围缩放)，来处理将要在消费者30场所播放或从消费者场所分发的音频。另一方面，当视听内容1或内容的音频5不包括元数据时，音频处理器36使用存储在存储位置40处的内容的音频5的统计，来处理将要在消费者30场所播放或从消费者场所分发的音频。

在一个实施例中，音频处理器36将内容的音频5与从存储位置40获得的表示9进行比较。基于该比较，可以标识视听内容1。即，如果内容的音频5和表示9在参数集内匹配，则视听内容1可以被标识为与表示9相对应，反之亦然。类似地，如果内容的音频5和表示9在该参数集内不匹配，则视听内容1可以说不与表示9相对应，反之亦然。通过引用并入本文的、于2015年4月29日提交的、号为14/699,658的美国专利申请公开了用于通过音量曲线鉴定内容的系统和方法。其中公开的系统和方法可以用于对视听内容1进行标识。与在‘658申请中公开的系统和方法不同的其他系统和方法也可以用于对视听内容1进行标识。在另外的实施例中，视频处理器将内容的视频3与从存储位置40获得的表示9进行比较。基于该比较，可以标识视听内容1。即，如果内容的视频3和表示9在参数集内匹配，则视听内容1可被标识为与表示9相对应，反之亦然。类似地，如果内容的视频3和表示9在该参数集内不匹配，则视听内容1可以说不与表示9相对应，反之亦然。

消费者30还可以包括交互工具38，该交互工具与视听内容1的呈现同步地呈现(例如，显示)辅助数据7。交互工具38通过依靠表示9与内容的音频5或内容的视频3的对齐，以与视听内容1的呈现同步地呈现辅助数据7。该对齐使与表示9中的时刻挂钩的辅助数据7与视听内容1同步。在上述的篮球比赛示例中，即使在该比赛在首次电视直播后多年重放该比赛时，交互工具38也可以与比赛的呈现同步地显示篮球比赛的最新统计。交互工具30还可以与出现在可视部分上的对象(例如，篮球服)有关的显示交互链接，该交互链接的点击将用户引导到关于该对象的更多信息，例如，购买该对象的网站或促进涉及该对象的交易的区块链级信息。

因为存储位置40存储辅助数据7和表示9，所以该信息可以用于随时访问。例如，消费者30可能已经在数字视频记录器(DVR)中记录了篮球比赛(即，视听内容1)，或者以任何其他方式获得了比赛的记录。几天后，消费者可以观看比赛。收发器32可以从DVR(或者消费者30获得内容的任何其他方式)获得比赛(即，视听内容1)，并且还可以从存储位置40获得表示9和辅助数据7。然后，即使当比赛在首次电视直播后几天重放该比赛时，交互工具30也可以与比赛的呈现同步地显示篮球比赛的最新统计或交互链接。

在一个实施例中，交互工具38还可用于收集辅助数据7。例如，在视听内容1的播出、广播、分发或表演期间，消费者可以经由交互工具38输入辅助数据7，诸如与视听内容1或视听内容1的特定场景或部分有关的注释或评论。然后，后同步器34可以将经由交互工具38输入的辅助数据7与表示9的、与视听内容1中的时刻相对应的时刻挂钩，并将辅助数据7存储到存储位置40。在这种情况下，表示9可以是a)从存储位置40获得的表示，或者b)由音频处理器36在消费者30处本地创建并与辅助数据7一起存储到存储位置40的表示。

交互工具38还可以用于将对象设置在视听内容1的可视部分3内。这样的位置可以或可以不由坐标集表示。交互工具38可以用于输入该坐标集。交互工具38还可以用于将作为附加辅助数据的第二坐标集(例如，现实世界位置的坐标，表示第二视听内容的可视部分内的位置的坐标等)与视听内容1的同步数据9中的时刻挂钩，使得表示视听内容1的可视部分3内的位置的第一坐标集关联到第二坐标集。

图5示出了包括存储位置40处的细节的示例性系统10的框图。存储位置40可以包括用于使辅助数据与包括音频的内容同步的机器或机器组。存储位置40可以包括收发器42，该收发器传递(即，发送和接收)表示9和辅助数据7。存储位置40还可以包括数据库44，该数据库存储表示9和与表示9中的时刻挂钩的辅助数据7。

在一个实施例中，收发器42传递并且数据库44存储内容的音频5的统计(例如，音量或动态范围缩放)为辅助数据7，或除了如上所述的辅助数据7之外存储内容的音频的统计。在一个实施例中，在如上所述的视听内容1的后续的播出、广播、分发或表演期间，收发器42继续传递并且数据库44继续存储辅助数据7。

存储位置40可以是可访问到内容分发器20和消费者30的位置，诸如云或具有一般可访问性的本地档案库(例如，经由如上所述的链接)，其可通过订阅、密码等来控制。

可以使用软件、硬件、模拟或数字技术来实现系统10。

参考图6和7A-7B的流程图可以更好地理解示例性方法。尽管为了简化说明的目的，将所示的方法论是示出并描述为一系列框，但是应当理解的是，这些方法论不受框的顺序限制，因为根据示出或描述的框，一些框能够以不同的顺序或与其他框同时出现。此外，实现示例性方法论可能需要少于所有示出的框。另外，附加方法论、替代方法论或两者都能够采用未示出的附加框。

在流程图中，框表示可以用逻辑实现的“处理框”。处理框可以表示方法步骤或用于执行该方法步骤的装置元件。流程图未描绘用于任何特定编程语言、方法论或风格(例如，程序化的、面向对象的)的语法。而是，流程图示出了本领域技术人员可以采用以开发逻辑来执行所示的处理的功能信息。应当理解的是，在一些示例中，未示出诸如临时变量、例程循环等的程序元素。还应当理解的是，电子和软件应用可以涉及动态和灵活的过程，使得能够以与所示出的顺序不同的其他顺序来执行所示的框，或者可以将框组合或分离成多个组件。应当理解的是，可以使用诸如机器语言、程序、面向对象或人工智能技术的各种编程方法来实现过程。

图6示出了用于使辅助数据与包括音频的内容同步的示例性方法600的流程图。

方法600包括在610处收集辅助数据7。如上所述，收集可以在内容的播出、广播、分发或表演之前、期间或之后发生。辅助数据7是与内容某种程度上有关的数据，并且可以包括：诸如内容名称或内容标识数据的、描述内容的数据、关于在内容中播出的脚本的数据、关于由内容中的角色穿着的衣物的数据、包括来自内容的表演者、制作人或导演的评论的数据、指向包括关于内容的信息的资源的统一资源定位符(URL)、关于内容的音频中音乐的数据等。辅助数据7可以包括商业数据，例如广告数据。辅助数据7还可以包括用户数据，诸如来自内容的查看者的评论(例如，推特消息等)。辅助数据7还可以包括专业或技术数据，诸如内容的音频的统计，例如包括内容的音频的音量或动态范围缩放等。辅助数据还可以包括一种数据，该数据标识a)表示视听内容的可视部分内位置的坐标集，以及标识b)在视听内容的可视部分内、位于由坐标集表示的位置处的对象，辅助数据与同步数据中的时刻挂钩。

在620处，方法600还包括分析内容的音频部分5(或可视部分3)以创建表示9。如上所述，可以通过创建内容的音频的音频波形曲线或内容的视频的曲线来创建表示9。

内容的音频的表示9(例如，音频波形曲线)的创建可以作为对音频部分5的分析的一部分来完成。可以在同一时间线上分析视听内容1的音频部分5，并收集音频统计。这能够在典型的质量控制或主控会话期间发生。可以收集的统计包括内容名称或ID、音频波形曲线、音量和/或动态范围缩放，以确保内容与传递规范匹配，以及其他内容特定的非实时统计。

在630处，将辅助数据7与表示9中、与视听内容1中的时刻相对应的时刻挂钩。将辅助数据7与表示9中的时刻挂钩，意味着辅助数据7与视听内容1时间对齐。可以通过将辅助数据7与特定内容1的表示9关联并用表示9中的多次时刻对辅助数据7做时间戳、或其他时间对齐方法来完成该挂钩。

在640处，可以将表示9和与表示9中的时刻挂钩的辅助数据7存储到存储位置40。

在650处，也可以创建与存储位置40的链接。

在660处，可以将与存储位置40的链接以及音频统计的部分或全部插入到用于编码或PCM+MD音频的音频元数据(即，EMDF)和/或用于仅PCM音频的LFE信道中。通过引用并入本文的、于2013年2月19日发布的、号为8,380,334的美国专利公开了用于在音频信号内携带辅助数据的方法和系统，该方法和系统可以用于将元数据插入音频信号中。与在'334专利中公开的系统和方法不同的其他系统和方法也可以用于将元数据插入音频信号中。

在670处，分发视听内容1。视听内容1可以按今天的样子传递，其中音频是经编码的或基带PCM，具有或不具有元数据。

图7A示出了用于使辅助数据与包括音频的内容同步的示例性方法700的流程图。

在710处，方法700包括接收表示9和与表示9中的时刻挂钩的辅助数据7。表示9与辅助数据7的这种组合可以在至少两个环境中使用：1)在用于发送的播出期间，以及2)在消费者的场所处接收视听内容1时。

在用于发送的播出期间，音频处理器可以接受视听内容1的、具有或不具有元数据的编码或基带PCM音频，并且还可以连接到存储位置40所在的云或其他位置。在该环境中，方法700可以包括使用内容的音频的统计来绕过或调整处理内容的音频的音频处理器。

在720处，如果存在EMDF元数据，或者如果在LFE信道内检测到元数据并且内容的音频的统计存储在元数据中，则在725处，可以使用内容的音频5的统计(例如，音量和其他内容特定的数据)来绕过或调整音频处理器，以利用最少的修改或没有修改使已经校正通过的内容能够保持原始质量和兼容性。

在730处，如果不存在元数据或LFE数据，或者如果内容的音频的统计未存储在元数据中，则可以将音频部分5的实时音频曲线与从存储位置40接收的表示9进行比较，以标识视听内容1。如果它们在可选范围内匹配，则标识视听内容1，并且在735处，可以使用可以存储在存储位置40处的内容的音频5的统计来绕过或调整音频处理器，以利用最少的修改或没有修改使已经校正通过的内容保持原始质量和兼容性。

在740处，如果a)不存在元数据或者它不包括针对特定内容或片段的内容的音频5的统计，并且b)音频部分5的实时音频曲线与表示9在一定量的时间内不匹配，则可以执行实时音量和动态范围控制以确保音频部分5是服从的。

在接收到视听内容1时，方法700可以包括使辅助数据7与视听内容1同步。在750处，如果存在元数据(例如，EMDF)并且它包括时间戳，则在760处，可以基于时间戳使辅助数据7与视听内容1同步。如果不存在元数据或它不包括时间戳，则在770处，方法700如上所述将表示9与内容的音频5对齐，以使辅助数据7与视听内容1同步。

现在，依靠表示9与内容的音频5的对齐，与视听内容1同步的消费者应用或交互工具38可以与视听内容1的呈现同步地显示辅助数据7。

在790处，方法700还可以传递附加辅助数据7，该附加辅助数据可以由其他消费者、节目制作人或者可能甚至广告商查看或访问。下游专业或消费者广告插入机制也能够使用该数据，并且由于存在细节丰富的数据，可能通过实时更新或添加该数据而得到增强，因此该插入能够被设定目标为具有比之前的静态方法更好的精确度。方法700可以在视听内容1的后续的播出、广播、分发或表演期间继续接收并存储新的辅助数据7。新的辅助数据7与内容的音频5的表示9中的、与后续的播出、广播、分发或表演期间的视听内容1中的时刻相对应的时刻挂钩。

图7B示出了用于媒体环境驱动的内容分发平台的示例性方法700B的流程图。在705处，方法700B包括接收包括音频部分和可视部分的视听内容。音频部分与视听内容的同步数据的后续对齐使对表示视听内容的可视部分内的位置的坐标集进行标识的辅助数据与视听内容同步。在715处，方法700B检测对视听内容的可视部分内的位置的选择。如果已经做出选择，则在725处，方法700B可以包括：发送表示视听内容的可视部分内的位置的坐标集；接收对位于视听内容的可视部分内、由坐标集表示的位置处的对象进行标识且与视听内容同步的辅助数据。

方法700B还可以包括将音频部分与视听内容的同步数据对齐，以使对表示视听内容的可视部分内的位置的坐标集以及位于视听内容的可视部分内、由视听内容的坐标集表示的位置处的对象进行标识的辅助数据同步，并且依靠音频部分与同步数据的对齐，与视听内容的呈现同步地显示位于视听内容的可视部分内、由坐标集表示的位置处的对象。

方法700B还可以包括接收作为附加辅助数据、与从视听内容的音频部分导出的同步数据中的时刻挂钩的第二坐标集。第二坐标集对应于以下中的一项或更多项：a)现实世界位置的坐标，或b)表示第二视听内容的可视部分内的位置的坐标。

尽管附图示出了串行发生的各种动作，但是应当理解的是，所示的各种动作可以基本并行发生，并且尽管可以示出并行发生的动作，但是应当理解的是，这些动作可以基本上串行发生。尽管关于所示的方法描述了许多处理，但是应当理解的是，可以采用更多或更少数量的处理，并且可以采用轻量级处理、常规处理、线程和其他方法。应当理解的是，在一些情况下，其他示例性方法还可以包括基本上并行发生的动作。所示的示例性方法和其他实施例可以实时地操作、比软件或硬件或混合软件/硬件实现方式中的实时更快地操作，或比软件或硬件或混合软件/硬件实现方式中的实时更慢地操作。

图8示出了用于使辅助数据与包括音频的内容同步的示例性机器800的框图。机器800包括通过总线808可操作地连接的处理器802、存储器804和I/O端口810。

在一个示例中，机器800可以经由例如I/O端口810或I/O接口818接收包括视听内容1、可视部分3、音频部分5、辅助数据7、表示9等的输入信号。机器800还可以包括内容分发器20的预同步器22、收发器24、音频处理器26和创作工具28。机器800还可以包括消费者30的收发器32、后同步器34、音频处理器36和交互工具38。机器800还可以包括存储位置40的收发器42和数据库44。因此，内容分发器20、消费者30或存储位置40可以在机器1700中被实现为硬件、固件、软件或其组合，并因此，机器1700及其组件可以提供用于执行所描述的和/或本文要求保护的功能的方式，如通过预同步器22、收发器24、音频处理器26、创作工具28、收发器32、后同步器34、音频处理器36、交互工具38、收发器42和数据库44执行的功能。

处理器802能够是各种不同的处理器，包括双微处理器和其他多处理器架构。存储器804能够包括易失性存储器或非易失性存储器。非易失性存储器能够包括但不限于：ROM、PROM，EPROM、EEPROM等。易失性存储器能够包括例如RAM、同步RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍数据速率SDRAM(DDR SDRAM)和直接RAM总线RAM(DRRAM)。

盘806可以经由例如I/O接口(例如，卡、设备)818和I/O端口810可操作地连接到机器800。磁盘806能够包括但不限于：如磁盘驱动器、固态盘驱动器、软盘驱动器、磁带驱动器、Zip驱动器、闪存卡或存储棒的设备。此外，盘806能够包括光驱动器，如CD-ROM、CD可记录驱动器(CD-R驱动器)、CD可重写驱动器(CD-RW驱动器)或数字视频ROM驱动器(DVD ROM)。存储器804能够例如存储处理814或数据816。盘806或存储器804能够存储控制和分配机器800的资源的操作系统。

总线808能够是单个内部总线互连架构或其他总线或网状架构。尽管示出了单个总线，但是应当理解的是，机器800可以使用未示出的其他总线(例如，PCIE、SATA、无限带宽、1394、USB、以太网)与各种设备、逻辑和外围设备进行通信。总线808能够是多种类型，包括但不限于：存储器总线或存储器控制器、外围总线或外部总线、交叉开关或本地总线。本地总线能够是多种的，包括但不限于：工业标准架构(ISA)总线、微通道架构(MCA)总线、扩展ISA(EISA)总线、外围组件互连(PCI)总线、通用串行(USB)总线和小型计算机系统接口(SCSI)总线。

机器800可以经由I/O接口818和I/O端口810与输入/输出设备进行交互。输入/输出设备能够包括但不限于：键盘、麦克风、指向和选择设备、相机、视频卡、显示器、盘806、网络设备820等。I/O端口810能够包括但不限于：串行端口、并行端口和USB端口。

机器800能够在网络环境中操作，并因此可以经由I/O接口818或I/O端口810连接到网络设备820。通过网络设备820，机器800可以与网络进行交互。通过网络，机器800可以逻辑连接到远程计算机。机器800可以与之交互的网络包括但不限于：局域网(LAN)、广域网(WAN)和其他网络。网络设备820能够连接到LAN技术，包括但不限于：光纤分布式数据接口(FDDI)、铜分布式数据接口(CDDI)、以太网(IEEE 802.3)、令牌环(IEEE 802.5)、无线计算机通信(IEEE 802.11)、蓝牙(IEEE 802.15.1)、Zigbee(IEEE 802.15.4)等。类似地，网络设备820能够连接到WAN技术，包括但不限于：点对点链接、例如综合业务数字网(ISDN)的电路交换网络、分组交换网络和数字用户线(DSL)。尽管描述了各个网络类型，但是应当理解的是，经由网络、在网络上或通过网络的通信可以包括通信的组合和混合。

限定

以下包括在本文中采用的所选术语的限定。该限定包括落入术语的范围内并且可以用于实现方式的各种示例或组件的形式。这些示例并非旨在进行限制。术语的单数形式和复数形式都可以在限定之内。

“内容”与静止图像、音频媒体、视频媒体或音频/视频(AV)媒体的片段相对应，并且包括与至少一种媒介一起体现、存储、发送、接收、处理或以其他方式使用的信息。常见的媒体内容格式包括FLV格式(Flash视频)、窗口每天视频(Windows Media Video)、实时媒介(RealMedia)、MFX、Quicktime、MPEG、MP3、DivX、JPEG和位图。如在本文中所使用的，术语“媒体剪辑”、“媒体内容”、“信息内容”和“内容”可以互换使用。

如在本文中所使用的“数据存储”或“数据库”是指能够存储数据的物理或逻辑实体。数据存储可以是例如数据库、表、文件、列表、队列、堆、存储器、寄存器等。数据存储可以驻留在一个逻辑或物理实体中，或者可以分布在两个或更多个逻辑或物理实体之间。

在本文中所使用的“逻辑”包括但不限于：硬件、固件、软件或它们的组合，以执行(一个或更多个)功能或(一个或更多个)动作，或从另一逻辑、方法或系统引起功能或动作。例如，基于期望的应用或需求，逻辑可以包括软件控制的微处理器、如专用集成电路(ASIC)的离散逻辑、经编程的逻辑设备、包含指令的存储设备等。逻辑可以包括一个或更多个门、门的组合或其他电路组件。逻辑也可以完全体现为软件。在描述了多个符合逻辑的逻辑的情况下，可以将多个符合逻辑的逻辑合并到一个物理逻辑中。类似地，在描述单个符合逻辑的逻辑的情况下，可以将该单个符合逻辑的逻辑分布在多个物理逻辑之间。

“可操作连接”或实体借此“可操作地连接”的连接是一种其中可以发送或接收信号、物理通信或逻辑通信的连接。通常，可操作连接包括物理接口、电接口或数据接口，但是需要注意的是，可操作连接可以包括足以允许可操作控制的这些或其他类型的连接的不同组合。例如，两个实体能够通过能直接彼此传递信号或通过诸如处理器、操作系统、逻辑、软件或其他实体的一个或更多个中间实体来可操作地连接。逻辑或物理通信信道能够用于创建可操作连接。

在广播中，“播出”是用于将无线电或电视频道从广播器发送到将内容传递给观众的广播网络的术语。

如在本文中所使用的“信号”包括但不限于：一个或更多个电或光信号，模拟或数字信号、数据，一个或更多个计算机或处理器指令、消息、比特或比特流或能够被接收、发送或检测的其他方式。

如在本文中所使用的“软件”包括但不限于：能够被读取、解释、编译或执行并且使计算机、处理器或其他电子设备以期望的方式执行功能、动作或行为的一个或更多个计算机或处理器指令。指令可以以各种形式来体现，诸如例程、算法、模块、方法、线程或程序，包括来自动态或静态链接库的单独的应用或代码。软件也可以以多种可执行或可加载的形式实现，包括但不限于：独立程序、函数调用(本地或远程)、Servlet、applet、存储在存储器中的指令、操作系统的部分或其他类型的可执行指令。本领域技术人员应当理解，软件的形式可以取决于例如期望的应用的要求、其运行的环境或设计者/程序员的期望等。还应当理解的是，计算机可读或可执行指令能够位于一个逻辑中或分布在两个或更多个通信、协作或并行处理逻辑之间，并因此能够以串行、并行、大规模并行和其他方式加载或执行。

可以使用编程语言和工具来制造用于实现本文中所述示例系统和方法的各个组件的合适软件，编程语言和工具诸如Java、Pascal、C#、C++、C、CGI、Perl、SQL、API、SDK、汇编、固件、微代码或其他语言和工具。无论是整个系统还是系统的组件，软件都可以体现为制造的物品，并可以维护或提供为如先前限定的计算机可读介质的一部分。该软件的另外的形式可以包括在网络或其他通信媒介上将软件的程序代码发送给接收者的信号。因此，在一个示例中，计算机可读介质在其从网络服务器下载到用户时具有一种表示软件/固件的信号的形式。在另外的示例中，计算机可读介质在其在网络服务器上被维护时具有一种软件/固件的形式。也可以使用其他形式。

如在本文中所使用的“用户”或“消费者”包括但不限于：一个或更多个人、软件、计算机或其他设备或这些的组合。

以下详细描述中的一些部分是以对存储器内数据位上的操作的算法和符号表示的形式来呈现的。这些算法描述和表示是本领域技术人员用来将其工作的实质传递给其他人的方式。在此，算法通常被认为是产生结果的一系列操作。该操作可以包括对物理量的物理操纵。通常，虽然不是必须的，但是物理量采用以逻辑的方式能被存储、传递、组合、比较以及其他操纵等的电或磁信号的形式。

主要出于通用的原因，有时已经证明将这些信号称为位、值、元素、符号、字符、项、数字等是方便的。但是，应当记住的是，这些和类似术语应与合适的物理量相关联，并且仅是应用于这些量的方便标签。除非另有特别说明，否则应当理解的是，在整个说明书中，诸如处理、计算、核算、确定、显示等术语指的是对表示为物理(电子)量的数据进行操纵和转换的计算机系统、逻辑、处理器或类似电子设备的动作和处理。

为了便于解释，本公开描述了在ETSI TS 102366(附录H)中描述的命名法的内容中的示例，例如用于携带信息且控制关于音频信号的、嵌入该音频信号中的数据的可扩展元数据格式(EMDF)。然而，本公开的原理不限于该环境，并且可以在各种其他环境中实践，包括：包括有ETSI TS 103190(第4.3.15节)的任何压缩音频的任何这种嵌入式元数据方案，或如在ATSC A52：2012和A/85：2013或甚至SMPTE 337M标准中描述的包括元数据的基带PCM音频系统。

就在详细说明书或权利要求书中使用术语“包含”而言，旨在以与术语“包括”相似的方式包含，因为该术语在权利要求中用作过渡词时来解释。此外，就在详细说明书或权利要求书中采用术语“或”而言(例如，A或B)，旨在表示“A或B或两者”。当申请人旨在表示“仅A或B而不是两者”时，将采用术语“仅A或B而不是两者”。因此，在本文中术语“或”的使用是包括性的而不是排他性的使用。参见，Bryan A.Garner的《现代法律用法词典》第624页(第2版，1995年)。

尽管已经通过描述示例示出了示例系统、方法等，并且尽管已经对示例进行了相当详细的描述，但是申请人的意图不是要限制或以任何方式将范围限于这种细节。当然，为了描述在本文中所述的系统、方法等，不可能描述组件或方法的每种可想到的组合。其他优点和修改对本领域技术人员将是显而易见的。因此，本发明不限于所示出和描述的特定细节、表示性装置以及说明性示例。因此，本申请旨在包含落入所附权利要求书的范围内的替代、修改和变型。此外，前面的说明书并不意味着限制本发明的范围。而是，本发明的范围待由所附权利要求书及其等同物确定。

Claims

1.一种用于媒体环境驱动的内容分发平台的机器或机器组，包括：

预同步器，其配置为获得从第一视听内容的音频部分导出的同步数据以及对表示所述第一视听内容的可视部分的帧内的位置的坐标集进行标识的辅助数据，所述辅助数据与同步数据中的时刻挂钩；和

收发器，其配置为传递同步数据和与同步数据中的时刻挂钩的辅助数据，使得同步数据与所述第一视听内容的后续对齐使表示所述第一视听内容的可视部分的帧内的位置的坐标集与所述第一视听内容同步，

其中，表示所述第一视听内容的可视部分的帧内的位置的坐标集还对应于表示与所述第一视听内容不同的第二视听内容的可视部分的帧内的位置的坐标，以指示所述第一视听内容的可视部分的帧内的位置对应于所述第二视听内容的可视部分的帧内的位置。

2.根据权利要求1所述的机器或机器组，其中：

所述预同步器配置为获得对位于所述第一视听内容的可视部分的帧内、由与同步数据中的时刻挂钩的坐标集表示的位置处的对象进行标识的辅助数据，并且

所述收发器配置为传递同步数据和与同步数据中的时刻挂钩的辅助数据，使得同步数据与所述第一视听内容的后续对齐使表示所述第一视听内容的可视部分的帧内的位置的坐标集与位于所述第一视听内容的可视部分的帧内、由所述坐标集表示的位置处的对象同步，以与所述第一视听内容同步。

3.根据权利要求2所述的机器或机器组，包括：

处理器，其配置为从所述第一视听内容的音频部分导出同步数据，其中

所述预同步器配置为将对坐标集和对象进行标识的辅助数据与同步数据中的时刻挂钩；以及

所述收发器配置为将同步数据和与同步数据中的时刻挂钩的辅助数据传递到所述第一视听内容的消费者可访问的数据库。

4.根据权利要求2所述的机器或机器组，包括：

所述收发器配置为将同步数据和与同步数据中的时刻挂钩的辅助数据存储到存储位置。

5.根据权利要求2所述的机器或机器组，包括：

创作工具，其配置为将对象设置在所述第一视听内容的可视部分内、由坐标集表示的位置处。

6.根据权利要求1所述的机器或机器组，其中：

所述收发器配置为将所述同步数据和与所述同步数据中的时刻挂钩的辅助数据存储到存储位置，

所述预同步器配置为创建存储位置的链接；以及

处理器配置为将存储位置的链接插入到所述第一视听内容的元数据中。

7.根据权利要求1所述的机器或机器组，其中：

所述预同步器配置为在所述第一视听内容的先前播出或表演期间收集辅助数据，并将辅助数据与同步数据中、与所述第一视听内容中的时刻相对应的时刻挂钩。

8.根据权利要求1所述的机器或机器组，包括：

创作工具，其配置为将作为附加辅助数据的第二坐标集与同步数据中的时刻挂钩，使得表示所述第一视听内容的可视部分的帧内的位置的坐标集关联到第二坐标集，其中，所述第二坐标集对应于：

表示所述第二视听内容的可视部分的帧内的位置的坐标。

9.根据权利要求1所述的机器或机器组，其中，所述第二视听内容对应于虚拟现实VR、增强现实AR或混合现实MR内容。

10.一种用于媒体环境驱动的内容分发平台的机器或机器组，包括：

收发器，其配置为接收至少包括音频部分和可视部分的第一视听内容，使得音频部分与所述第一视听内容的同步数据的后续对齐使辅助数据与所述第一视听内容同步，所述辅助数据对表示在所述第一视听内容的可视部分的帧内的位置的坐标集进行标识；以及

交互工具，其配置为检测对所述第一视听内容的可视部分的帧内的位置的选择，并发送表示所述第一视听内容的可视部分的帧内的位置的坐标集，

其中，表示所述第一视听内容的可视部分内的位置的坐标集还对应于表示与所述第一视听内容不同的第二视听内容的可视部分的帧内的位置的坐标，以指示所述第一视听内容的可视部分的帧内的位置对应于所述第二视听内容的可视部分的帧内的位置。

11.根据权利要求10所述的机器或机器组，其中：

所述收发器还配置为接收对位于所述第一视听内容的可视部分的帧内、由坐标集表示的位置处的对象进行标识且与所述第一视听内容同步的辅助数据。

12.根据权利要求11所述的机器或机器组，包括：

后同步器，其配置为将音频部分与所述第一视听内容的同步数据对齐，以使对表示所述第一视听内容的可视部分的帧内的位置的坐标集和位于所述第一视听内容的可视部分内、由坐标集表示的位置处的对象进行标识的辅助数据与所述第一视听内容同步。

13.根据权利要求11所述的机器或机器组，包括：

后同步器，其配置为将音频部分与所述第一视听内容的同步数据对齐，以使对表示所述第一视听内容的可视部分的帧内的位置的坐标集和位于所述第一视听内容的可视部分内、由坐标集表示的位置处的对象进行标识的辅助数据与所述第一视听内容同步，其中

所述交互工具配置为依靠音频部分与同步数据的对齐，与所述第一视听内容的呈现同步地显示位于所述第一视听内容的可视部分内、由坐标集表示的位置处的对象。

14.根据权利要求10所述的机器或机器组，其中：

所述收发器配置为接收表示所述第一视听内容的可视部分的帧内的位置的坐标集和作为附加辅助数据、与同步数据中的时刻挂钩的第二坐标集，其中，所述第二坐标集对应于：

表示第二视听内容的可视部分的帧内的位置的坐标。

15.根据权利要求10所述的机器或机器组，其中，所述第二视听内容对应于虚拟现实VR、增强现实AR或混合现实MR内容。

16.一种用于媒体环境驱动的内容分发平台的机器或机器组，包括：

数据库，其配置为存储第一视听内容的音频或视频的表示以及对表示所述第一视听内容的可视部分的帧内的位置的坐标集进行标识且与所述第一视听内容的音频或视频的表示中的时刻挂钩的辅助数据，使得所述第一视听内容的音频或视频的表示与所述第一视听内容的音频部分的后续对齐使与所述第一视听内容的音频或视频的表示中的时刻挂钩的辅助数据与所述第一视听内容同步；和

收发器，其配置为传递所述第一视听内容的音频或视频的表示以及与所述第一视听内容的音频或视频的表示中的时刻挂钩的辅助数据，

17.根据权利要求16所述的机器或机器组，其中，

所述数据库配置为存储对位于所述第一视听内容的可视部分内、由坐标集表示的位置处的对象进行标识且与所述第一视听内容的音频或视频的表示中的时刻挂钩的辅助数据，使得所述第一视听内容的音频或视频的表示与所述第一视听内容的音频部分的后续对齐使对表示所述第一视听内容的可视部分的帧内的位置的坐标集进行标识的辅助数据和对位于所述第一视听内容的可视部分的帧内、由坐标集表示的位置处的对象进行标识的辅助数据同步。

18.根据权利要求17所述的机器或机器组，其中，

所述收发器配置为接收表示所述第一视听内容的可视部分的帧内的位置的坐标集，并且响应于接收表示所述第一视听内容的可视部分的帧内的位置的坐标集，发送对位于所述第一视听内容的可视部分内、由所述坐标集表示的位置处的对象进行标识的辅助数据，或者

所述收发器配置为接收对位于所述第一视听内容的可视部分内、由坐标集表示的位置处的对象进行标识的数据，并且响应于接收对位于所述第一视听内容的可视部分内、由坐标集表示的位置处的对象进行标识的数据，发送对表示所述第一视听内容的可视部分的帧内的位置的坐标集进行标识的辅助数据。

19.根据权利要求16所述的机器或机器组，其中，

所述收发器配置为传递表示所述第一视听内容的可视部分的帧内的位置的坐标集和作为附加辅助数据、与从所述第一视听内容的音频部分或可视部分导出的同步数据中的时刻挂钩的第二坐标集，其中，所述第二坐标集对应于：

表示第二视听内容的可视部分的帧内的位置的坐标。

20.根据权利要求16所述的机器或机器组，其中，所述第二视听内容对应于虚拟现实VR、增强现实AR或混合现实MR内容。

21.一种用于媒体环境驱动的内容分发平台的方法，所述方法包括：

获得从第一视听内容的音频部分或可视部分导出的同步数据以及对表示所述第一视听内容的可视部分的帧内的位置的坐标集进行标识的辅助数据，所述辅助数据与同步数据中的时刻挂钩；以及

传递同步数据和与同步数据中的时刻挂钩的辅助数据，使得同步数据与所述第一视听内容的后续对齐使表示所述第一视听内容的可视部分的帧内的位置的坐标集与所述第一视听内容同步，

22.根据权利要求21所述的方法，包括：

获得对位于所述第一视听内容的可视部分内、由坐标集表示的位置处的对象进行标识的辅助数据，所述辅助数据对与同步数据中的时刻挂钩的对象进行标识，使得同步数据与所述第一视听内容的后续对齐使表示所述第一视听内容的可视部分的帧内的位置的坐标集和位于所述第一视听内容的可视部分内、由坐标集表示的位置处的对象与所述第一视听内容同步。

23.根据权利要求22所述的方法，包括：

将对坐标集和对象进行标识的辅助数据与从音频部分导出的同步数据中的时刻挂钩；以及

将从所述第一视听内容的音频部分导出的同步数据以及与同步数据中的时刻挂钩的辅助数据存储到数据库。

24.根据权利要求22所述的方法，包括：

获得至少包括音频部分和可视部分的所述第一视听内容；

从所述第一视听内容的音频部分导出同步数据；以及

将对坐标集和对象进行标识的辅助数据与从音频部分导出的同步数据中的时刻挂钩。

25.根据权利要求22所述的方法，包括：

将对象设置在所述第一视听内容的可视部分内、由坐标集表示的位置处。

26.根据权利要求22所述的方法，包括：

在所述第一视听内容的播出或表演期间，收集对表示所述第一视听内容的可视部分的帧内的位置的坐标集以及位于所述第一视听内容的可视部分内、由坐标集表示的位置处的对象进行标识的辅助数据，其中，从所述第一视听内容的音频部分导出的同步数据是在播出或表演期间从所述第一视听内容导出的，并且其中，对表示所述第一视听内容的可视部分的帧内的位置的坐标集和位于所述第一视听内容的可视部分内、由坐标集表示的位置处的对象进行标识的辅助数据与从所述第一视听内容的音频部分导出的同步数据的、与播出或表演期间的所述第一视听内容中的时刻相对应的时刻挂钩。

27.根据权利要求21所述的方法，包括：

创建从所述第一视听内容的音频部分导出的同步数据，并将辅助数据与从所述第一视听内容的音频部分导出的同步数据中的时刻挂钩；以及

将从所述第一视听内容的音频部分导出的同步数据和与同步数据中的时刻挂钩的辅助数据存储到存储位置。

28.根据权利要求21所述的方法，包括：

获得对与从所述第一视听内容的音频部分导出的同步数据中的时刻挂钩的第二坐标集进行标识的辅助数据，使得第二坐标集关联到表示所述第一视听内容的可视部分的帧内的位置的坐标集，其中，所述第二坐标集对应于：

表示第二视听内容的可视部分的帧内的位置的坐标。

29.根据权利要求21所述的方法，其中，所述第二视听内容对应于虚拟现实VR、增强现实AR或混合现实MR内容。

30.一种用于媒体环境驱动的内容分发平台的方法，所述方法包括：

接收包括音频部分和可视部分的第一视听内容，使得音频部分与所述第一视听内容的同步数据的后续对齐使对表示所述第一视听内容的可视部分的帧内的位置的坐标集进行标识的辅助数据与所述第一视听内容同步；以及

检测对所述第一视听内容的可视部分的帧内的位置的选择，并发送表示所述第一视听内容的可视部分的帧内的位置的坐标集，

表示所述第一视听内容的可视部分的帧内的位置的坐标集还对应于表示与所述第一视听内容不同的第二视听内容的可视部分的帧内的位置的坐标，以指示所述第一视听内容的可视部分的帧内的位置对应于所述第二视听内容的可视部分的帧内的位置。

31.根据权利要求30所述的方法，包括：

接收对位于所述第一视听内容的可视部分内、由坐标集表示的位置处的对象进行标识且与所述第一视听内容同步的辅助数据。

32.根据权利要求31所述的方法，包括：

将音频部分与所述第一视听内容的同步数据对齐，以使对表示所述第一视听内容的可视部分的帧内的位置的坐标集和位于所述第一视听内容的可视部分内、由坐标集表示的位置处的对象进行标识的辅助数据与所述第一视听内容同步。

33.根据权利要求31所述的方法，包括：

将音频部分与所述第一视听内容的同步数据对齐，以使对表示所述第一视听内容的可视部分的帧内的位置的坐标集和位于所述第一视听内容的可视部分内、由坐标集表示的位置处的对象进行标识的辅助数据与所述第一视听内容同步，以及

依靠音频部分与同步数据的对齐，与所述第一视听内容的呈现同步地显示位于所述第一视听内容的可视部分内、由坐标集表示的位置处的对象。

34.根据权利要求30所述的方法，包括：

接收作为附加辅助数据、与同步数据中的时刻挂钩的第二坐标集，其中，所述第二坐标集对应于：

表示第二视听内容的可视部分的帧内的位置的坐标。

35.根据权利要求30所述的方法，其中，所述第二视听内容对应于虚拟现实VR、增强现实AR或混合现实MR内容。