CN102084361A

CN102084361A - 媒体资产管理

Info

Publication number: CN102084361A
Application number: CN2009801214429A
Authority: CN
Inventors: R·卡维特; J·科亨; N·利
Original assignee: iPharro Media GmbH
Current assignee: iPharro Media GmbH
Priority date: 2008-04-13
Filing date: 2009-04-13
Publication date: 2011-06-01
Also published as: WO2009131861A2; WO2009131861A3; EP2272011A2; US20120110043A1; JP2011519454A

Abstract

在某些实施例中，所述技术包括用于媒体资产管理的系统和方法。在其它实施例中，一种用于媒体资产管理的方法包括接收媒体数据。用于媒体资产管理的方法还包括基于媒体数据生成描述符并将该描述符与一个或多个已存储描述符相比较。所述一个或多个已存储描述符与具有相关元数据的其它媒体数据相关联。用于媒体资产管理的方法还包括基于所述描述符和所述一个或多个已存储描述符的比较使元数据的至少一部分与媒体数据相关联。

Description

媒体资产管理

技术领域

本发明涉及媒体资产管理。特别地，本发明涉及视频内容的元数据管理。

背景技术

宽带通信信道对终端用户设备的可用性已经使得能够用图像、音频、和视频内容实现无处不在的媒体覆盖。在全世界范围内发送的越来越多的媒体内容已经推动了对智能内容管理的需求。供应商必须组织其内容并能够分析其内容。同样地，广播公司和市场研究人员想要知道特定连续镜头已被广播的时间和地点。由于越来越多的媒体内容，所以内容监视、市场趋势分析、版权保护、和资产管理具有挑战性，(如果不是不可能的话)。然而，在本技术领域中存在改善媒体资产管理的需求。

发明内容

在某些方面，所述技术包括媒体资产管理的方法。该方法包括接收第二媒体数据。该方法还包括基于第二媒体数据生成第二描述符。该方法还包括将第二描述符与第一描述符相比较。该第一描述符与具有相关元数据的第一媒体数据相关联。该方法还包括基于第二描述符和第一描述符的比较使元数据的至少一部分与第二媒体数据相关联。

在其它方面，所述技术包括媒体资产管理的方法。该方法包括基于第二媒体数据生成第二描述符。该方法还包括发送对与第二媒体数据相关联的元数据的请求。该请求包括第二描述符。该方法还包括基于该请求接收元数据。该元数据与第一媒体数据的至少一部分相关联。该方法还包括基于第二描述符和与第一媒体数据相关联的第一描述符的比较使元数据与第二媒体数据相关联。

在某些方面，所述技术包括媒体资产管理的方法。该方法包括发送对与第二媒体数据相关联的元数据的请求。该请求包括第二媒体数据。该方法还包括基于该请求接收元数据。该元数据与第一媒体数据的至少一部分相关联。该方法还包括基于第二描述符和与第一媒体数据相关联的第一描述符的比较使元数据与第二媒体数据相关联。

在其它方面，所述技术包括计算机程序产品。所述计算机程序产品被有形地在信息载体中体现。该计算机程序产品包括可操作用于促使数据处理装置接收第二媒体数据、基于该第二媒体数据生成第二描述符、将第二描述符与第一描述符相比较、并基于第二描述符和第一描述符的比较使元数据的至少一部分与第二媒体数据相关联的指令。该第一描述符与具有相关元数据的第一媒体数据相关联。

在所述技术的某些方面，所述技术包括媒体资产管理的系统。该系统包括通信模块、媒体指纹模块、媒体指纹比较模块、和媒体元数据模块。通信模块接收第二媒体数据。媒体指纹模块基于第二媒体数据生成第二描述符。媒体指纹比较模块将第二描述符与第一描述符相比较。该第一描述符与具有相关元数据的第一媒体数据相关联。媒体元数据模块基于第二描述符与第一描述符的比较使元数据的至少一部分与第二媒体数据相关联。

在其它方面，所述技术包括媒体资产管理的系统。该系统包括通信模块、媒体指纹模块、和媒体元数据模块。媒体指纹模块基于第二媒体数据生成第二描述符。通信模块发送对与第二媒体数据相关联的元数据的请求并基于该请求接收元数据。该请求包括第二描述符。该元数据与第一媒体数据的至少一部分相关联。媒体元数据模块基于第二描述符和与第一媒体数据相关联的第一描述符的比较使元数据与第二媒体数据相关联。

在某些方面，所述技术包括媒体资产管理的系统。该系统包括通信模块和媒体元数据模块。通信模块发送对与第二媒体数据相关联的元数据的请求并基于该请求接收元数据。该请求包括第二媒体数据。该元数据与第一媒体数据的至少一部分相关联。媒体元数据模块基于第二描述符和与第一媒体数据相关联的第一描述符的比较使元数据与第二媒体数据相关联。

在其它方面，所述技术包括媒体资产管理的系统。该系统包括用于接收第二媒体数据的装置和用于基于第二媒体数据生成第二描述符的装置。该系统还包括用于将第二描述符与第一描述符相比较的装置。该第一描述符与具有相关元数据的第一媒体数据相关联。该系统还包括用于基于第二描述符和第一描述符的比较使元数据的至少一部分与第二媒体数据相关联的装置。

上述任何方面可以包括以下特征和/或示例中的一个或多个。在某些示例中，所述方法还包括确定与第二媒体数据相关联的一个或多个第二边界，并基于第二媒体数据和所述一个或多个第二边界生成一个或多个第二描述符。

在其它示例中，所述方法还包括将所述一个或多个第二描述符与一个或多个第一描述符相比较。可以使所述一个或多个第一描述符中的每一个第一描述符和与第一媒体数据相关联的一个或多个第一边界相关联。

在某些示例中，所述一个或多个第二边界包括空间边界和/或时间边界。

在其它示例中，所述方法还包括基于所述一个或多个第二边界将第二媒体数据分离成一个或多个第二媒体数据子部分。

在某些示例中，所述方法还包括基于第二描述符和第一描述符的比较使元数据的至少一部分与所述一个或多个第二媒体数据子部分中的至少一个相关联。

在其它示例中，所述第二媒体数据包括第一媒体数据的全部或其一部分。

在某些示例中，所述第二描述符与第一描述符的一部分或全部类似。

在其它示例中，所述方法还包括接收第一媒体数据和与第一媒体数据相关联的元数据并基于第一媒体数据生成第一描述符。

在某些示例中，所述方法还包括使元数据的至少一部分与第一描述符相关联。

在其它示例中，所述方法还包括存储元数据、第一描述符、以及元数据的至少一部分与第一描述符的关联，并检索所存储的元数据、所存储的第一描述符、以及所存储的元数据的至少一部分与第一描述符的关联。

在某些示例中，所述方法还包括确定与第一媒体数据相关联的一个或多个第一边界，并基于第一媒体数据和所述一个或多个第一边界生成一个或多个第一描述符。

在其它示例中，所述方法还包括基于所述一个或多个第一边界将与第一媒体数据相关联的元数据分离成一个或多个元数据子部分，并基于所述一个或多个第一边界使所述一个或多个元数据子部分与所述一个或多个第一描述符相关联。

在某些示例中，所述方法还包括使元数据与第一描述符相关联。

在其它示例中，所述第一媒体数据包括视频。

在某些示例中，所述第一媒体数据包括视频、音频、文本、和/或图像。

在其它示例中，所述第二媒体数据包括第一媒体数据的全部或一部分。

在其它示例中，所述第一媒体数据包括视频。

在其它示例中，所述系统还包括用于确定与第二媒体数据相关联的一个或多个第二边界的视频帧转换模块，和用于基于第二媒体数据和所述一个或多个第二边界生成一个或多个第二描述符的媒体指纹模块。

在其它示例中，所述系统还包括用于将所述一个或多个第二描述符与一个或多个第一描述符相比较的媒体指纹比较模块。可以使所述一个或多个第一描述符中的每一个第一描述符和与第一媒体数据相关联的一个或多个第一边界相关联。

在其它示例中，所述系统还包括用于基于所述一个或多个第二边界将第二媒体数据分离成一个或多个第二媒体数据子部分的视频帧转换模块。

在某些实施例中，所述系统还包括用于基于第二描述符和第一描述符的比较使元数据的至少一部分与所述一个或多个第二媒体数据子部分中的至少一个相关联的媒体元数据模块。

在其它示例中，所述系统还包括用于接收第一媒体数据和与第一媒体数据相关联的元数据的通信模块，和基于第一媒体数据生成第一描述符的媒体指纹模块。

在某些示例中，所述系统还包括用于使元数据的至少一部分与第一描述符相关联的媒体元数据模块。

在其它示例中，所述系统还包括用于存储元数据、第一描述符、以及元数据的至少一部分与第一描述符的关联并检索所存储的元数据、所存储的第一描述符、以及所存储的元数据的至少一部分与第一描述符的关联的存储设备。

在某些示例中，所述系统还包括用于确定与第一媒体数据相关联的一个或多个第一边界的视频转换模块，以及用于基于第一媒体数据和所述一个或多个第一边界生成一个或多个第一描述符的媒体指纹模块。

在其它示例中，所述系统还包括用于基于所述一个或多个第一边界将与第一媒体数据相关联的元数据分离成一个或多个元数据子部分的视频转换模块，和用于基于所述一个或多个第一边界使所述一个或多个元数据子部分与所述一个或多个第一描述符相关联的媒体元数据模块。

在某些示例中，所述系统还包括用于使元数据和第一描述符相关联的媒体元数据模块。

本文所述的媒体资产管理可以提供以下优点中的一个或多个优点。所述媒体资产管理的一个优点是元数据的关联使得能够将元数据结合到媒体的完整工作流中，即从制作到未来再利用，从而增加媒体再利用的机会。所述媒体资产管理的另一优点是元数据的关联通过使得能够经由快速且精确的元数据关联实现对存档媒体的再利用和重定目标(re-purposing)，从而降低媒体制作的成本。

所述媒体资产管理的另外的优点是可以高效地搜索并浏览媒体及其相关元数据，从而降低对使用媒体的障碍。所述媒体资产管理的另一优点是可以通过快速且高效地将媒体的唯一描述符与存储在媒体档案中的媒体的所存储描述符相比较，来在大的媒体档案中找到元数据，从而使得能够进行正确元数据的快速且高效的关联，即媒体资产管理。

通过结合附图进行的以下详细说明，本发明的其它方面和优点将变得显而易见，附图仅以示例的方式举例说明本发明的原理。

附图说明

在与附图一起阅读时，通过对各实施例的以下描述将更透彻地理解本发明的前述及其它目的、特征、和优点、以及发明本身。

图1举例说明示例性系统的功能框图；

图2举例说明示例性内容分析服务器的功能框图；

图3举例说明系统中的示例性通信设备的功能框图；

图4举例说明生成数字视频指纹的示例性流程图；

图5举例说明生成指纹的示例性流程图；

图6举例说明元数据关联的示例性流程图；

图7举例说明元数据关联的另一示例性流程图；

图8举例说明元数据关联的示例性数据流图；

图9举例说明了举例说明元数据关联的另一示例性表格；

图10举例说明元数据关联的示例性数据流图；

图11举例说明了举例说明元数据关联的另一示例性表格；

图12举例说明用于使元数据相关联的示例性流程图；

图13举例说明用于使元数据相关联的另一示例性流程图；

图14举例说明用于使元数据相关联的另一示例性流程图；

图15举例说明用于使元数据相关联的另一示例性流程图；

图16举例说明示例性多信道视频监视系统的方框图；

图17举例说明示例性图形用户界面的屏幕截图；

图18举例说明数字图像表示子帧的变化的示例；

图19举例说明数字视频图像检测系统的示例性流程图；以及

图20A～20B举例说明特征空间中的K-NN嵌套、不相交特征子空间的示例性遍历(traversed)集合。

具体实施方式

以总体概述的方式，所述技术将媒体内容(例如，诸如胶片、剪辑、和广告之类的数字连续镜头、数字媒体广播等)与其它媒体内容相比较，以经由内容分析器使元数据(例如，关于媒体的信息、关于媒体的权限管理数据等)与媒体内容相关联。可以从能够存储、记录、或播放媒体的实际上任何源(例如计算机、移动计算设备、现场电视源、网络服务器源、数字视频盘源等)获得媒体内容。内容分析器使得能够进行数字内容的自动和高效比较以识别与数字内容相关联的元数据。例如，来自源视频的原始元数据可能在例程视频编辑过程期间被丢失或以其他方式损坏。通过将被编辑视频的一部分的描述符与源视频的描述符相比较，可以使原始元数据与结果得到的被编辑视频相关联，或以其他方式在结果得到的被编辑视频中恢复原始元数据。内容分析器可以是内容分析处理器或服务器，其是高度可缩放的且能够使用计算机视觉和信号处理技术来实时地分析视频中和音频域中的连续镜头。

此外，内容分析服务器的自动内容分析和元数据技术是高度精确的。虽然人类观察员可能由于疲劳而犯错，或错过难以识别的连续镜头中的小细节，但内容分析服务器通常能够以超过99％的精确度比较内容，以便可以有利地使元数据与内容相关联以重新填充用于媒体的元数据。内容的比较和元数据的关联不要求监视连续镜头的在先检验或操作。内容分析服务器从媒体流数据本身提取相关信息，并因此能够在没有手动交互的情况下高效地比较几乎无限量的媒体内容。

内容分析服务器从媒体内容的每个样本生成描述符，诸如数字签名-在本文中也称为指纹。优选地，所述描述符唯一地识别各内容片断。例如，数字签名描述内容的特定视频、音频和/或视听方面，诸如视频部分中的色彩分布、形状、和模式及音频流中的频谱。媒体的每个样本具有唯一的指纹，该指纹基本上是其唯一视频、音频、和/或视听特性的简洁数字表示。

如表1中所举例说明的，内容分析服务器利用此类描述符或指纹来使来自媒体样本中的相同和/或类似帧序列或剪辑的元数据相关联。换言之，在本示例中，内容分析服务器接收媒体A和相关元数据，生成用于媒体A的指纹，并存储用于媒体A的指纹和相关元数据。在本示例中，接近同时地或在稍后的时间，内容分析服务器接收媒体B，生成用于媒体B的指纹，将媒体B的指纹与媒体A的已存储指纹相比较，并基于指纹的比较使来自媒体A的已存储元数据与媒体B相关联。

表1.示例性关联过程

图1举例说明示例性系统100的功能框图。系统100包括一个或多个内容设备A 105a、B 105b至Z 105z(在下文中称为内容设备105)、内容分析器，诸如内容分析服务器110、通信网络125、媒体数据库115、一个或多个通信设备A 130a、B 130b至Z 130z(在下文中称为通信设备105)、存储服务器140、和内容服务器150。设备、数据库、和/或服务器经由通信网络125和/或经由设备、数据库、和/或服务器之间的连接(例如直接连接、间接连接等)相互通信。

内容分析服务器110从内容设备105(例如数字视频盘设备、信号获取设备、卫星接收设备、电缆接收盒等)、通信设备130(例如台式计算机、移动计算设备等)、存储服务器140(例如存储区域网络服务器、网络连接存储服务器等)、内容服务器150(例如基于因特网的多媒体服务器、流多媒体服务器等)、和/或能够存储多媒体流的任何其它服务器或设备中的一个或多个请求和/或接收媒体数据-包括但不限于媒体流、多媒体、和/或任何其它类型的媒体(例如视频、音频、文本等)。内容分析服务器110能够识别媒体流的一个或多个片断，例如帧序列。内容分析服务器110可以生成用于媒体流中的一个或多个帧序列中的每一个帧序列的指纹和/或能够生成用于媒体流的指纹。内容分析服务器110将媒体流的一个或多个帧序列的指纹和与其它媒体相关联的一个或多个已存储指纹相比较。内容分析服务器110基于指纹的比较使另一媒体的元数据与媒体流相关联。

在其它示例中，通信设备130请求与媒体(例如电影、电视节目、歌曲、媒体剪辑等)相关联的元数据。通信设备130向内容分析服务器110发送请求。通信设备130响应于该请求从内容分析服务器110接收元数据。通信设备130使接收到的元数据与媒体相关联。例如，元数据包括现在与媒体相关联以供未来使用的关于媒体的版权信息。元数据与媒体的关联有利地使得能够将关于媒体的信息与媒体重新相关联，这使得媒体的用户能够具有准确且最新的关于媒体的信息(例如使用要求、创作者、原始使用日期/时间、版权限制、版权所有、媒体记录的位置、媒体中的人、媒体的类型等)。

在某些示例中，经由媒体数据库115和/或内容分析服务器110来存储元数据。内容分析服务器110可以接收媒体数据(例如多媒体数据、视频数据、音频数据等)和/或与媒体数据相关联的元数据(例如文本、已编码信息、媒体流内的信息等)。内容分析服务器110可以基于媒体数据来生成描述符(例如媒体数据的唯一指纹、媒体数据的一部分的唯一指纹等)。内容分析服务器110可以使描述符与元数据相关联(例如使版权信息与媒体数据的一部分的唯一指纹相关联、使新闻网络与新闻剪辑媒体的描述符相关联等)。内容分析服务器110可以经由存储设备(未示出)和/或媒体数据库115来存储媒体数据、元数据、描述符、和/或元数据与描述符之间的关联。

在其它示例中，内容分析服务器110生成用于每个多媒体流中的每个帧的指纹。内容分析服务器110可以基于来自帧序列中的每个帧的指纹和/或与帧序列相关联的任何其它信息(例如视频内容、音频内容、元数据等)生成用于每个多媒体流的每个帧序列(例如帧组、直接帧序列、间接帧序列等)的指纹。

在某些示例中，内容分析服务器110基于关于每个帧的信息(例如视频内容、音频内容、元数据、指纹等)生成每个多媒体流的帧序列。

在其它示例中，元数据被以嵌入式方式存储在媒体中(例如嵌入媒体流中、嵌入媒体的容器中等)和/或与媒体分开地存储(例如，存储在具有元数据与媒体之间链接的数据库中、存储在存储设备上的相应文件中，等)。例如，可以经由素材交换格式(MXF)、广播媒体交换格式(BMF)、多媒体内容描述接口(MPEG-7)、可扩展标记语言格式(XML)、和/或任何其它类型的格式来存储和/或处理元数据。

虽然图1将通信设备130和内容分析服务器110示为分离的，但可以将通信设备130和/或内容分析服务器110的一部分或全部功能和/或组件集成到单个设备/服务器中(例如经由过程内控制、同一设备/服务器上的不同软件模块、同一设备/服务器上的不同硬件组件等通信)，和/或分布在多个设备/服务器之间(例如，多个后端处理服务器、多个存储设备等)。例如，通信设备130可以生成描述符和/或使元数据与媒体和/或描述符相关联。作为另一示例，内容分析服务器110包括用户接口(例如，基于网络的接口、独立应用程序等)，其使得用户能够将媒体传送到内容分析服务器110以进行元数据关联。

图2举例说明系统200中的示例性内容分析服务器210的功能框图。内容分析服务器210包括通信模块211、处理器212、视频帧预处理器模块213、视频帧转换模块214、媒体指纹模块215、媒体元数据模块216、媒体指纹比较模块217、和存储设备218。

通信模块211接收用于内容分析服务器210的信息和/或发送来自内容分析服务器210的信息。处理器212处理对多媒体流的比较的请求(例如来自用户的请求、来自调度服务器的自动化请求等)并命令通信模块211请求和/或接收多媒体流。视频帧预处理器模块213对多媒体流进行预处理(例如去除黑边、插入稳定边缘、改变尺寸、缩小、选择关键帧、将帧组合在一起等)。视频帧转换模块214转换多媒体流(例如亮度归一化、RGB至Color9等)。

媒体指纹模块215生成用于多媒体流中的每个关键帧选择(例如，每个帧是其自己的关键帧选择、一组帧具有关键帧选择等)的指纹。媒体元数据模块216使元数据与媒体相关联和/或确定来自媒体的元数据(例如从媒体提取元数据、确定用于媒体的元数据等)。媒体指纹比较模块217比较多媒体流的帧序列，以识别多媒体流之间的类似帧序列(例如，通过比较帧序列的每个关键帧选择的指纹、通过比较帧序列中的每个帧的指纹等)。存储设备218存储请求、媒体、元数据、描述符、帧选择、帧序列、帧序列的比较、和/或与元数据关联相关联的任何其它信息。

在某些示例中，视频帧转换模块214确定与媒体数据相关联的一个或多个边界。媒体指纹模块217基于媒体数据和所述一个或多个边界生成一个或多个描述符。表2举例说明由视频帧转换模块214的实施例确定的用于电视节目“Why Dogs are Great”的边界。

表2.用于电视节目的示例性边界和描述符

在其它示例中，媒体指纹比较模块217将一个或多个描述符与一个或多个其它描述符相比较。可以使所述一个或多个其它描述符中的每一个描述符和与其它媒体数据相关联的一个或多个其它边界相关联。例如，媒体指纹比较模块217将所述一个或多个描述符(例如，Alpha(阿尔法)45e、Alpha 45g等)与所存储的描述符相比较。描述符的比较可以是例如精确比较(例如、文本与文本比较、位与位比较等)、相似性比较(例如描述符在指定范围内、描述符在百分比范围内等)、和/或任何其它类型的比较。媒体指纹比较模块217可以例如基于描述符的精确匹配使元数据与媒体数据相关联，和/或可以基于描述符的相似性匹配使元数据的一部分或全部与媒体数据相关联。表3举例说明了描述符与其它描述符的比较。

表3.描述符的示例性比较

在其它示例中，视频帧转换模块214基于一个或多个边界将媒体数据分离成一个或多个媒体数据子部分。在某些示例中，媒体元数据模块216基于描述符与另一描述符的比较使元数据的至少一部分与所述一个或多个媒体数据子部分中的至少一个媒体数据子部分相关联。例如，如表1中所举例说明的，可以基于电影子部分和商业广告子部分将电视播放的电影分成多个子部分。

在某些示例中，通信模块211接收媒体数据和与媒体数据相关联的元数据。媒体指纹模块215基于媒体数据来生成描述符。例如，通信模块211从数字视频盘(DVD)播放器接收媒体数据，在本示例中为电影，并从因特网电影数据库接收元数据。在本示例中，媒体指纹模块215生成电影的描述符并使元数据与描述符相关联。

在其它示例中，媒体元数据模块216使元数据的至少一部分与描述符相关联。例如，电视节目名称与描述符相关联，但不与第一播放日期相关联。

在某些示例中，存储设备218存储元数据、第一描述符、和/或元数据的至少一部分与第一描述符的关联。存储设备218可以例如检索已存储元数据、已存储第一描述符、和/或元数据的至少一部分与第一描述符的已存储关联。

在某些示例中，媒体元数据模块216通过访问第三方信息源来确定用于媒体的新的和/或附加的元数据。媒体元数据模块216可以从因特网数据库(例如因特网电影数据库、因特网音乐数据库等)和/或第三方商业数据库(例如电影工作室数据库、新闻数据库等)请求与媒体相关联的元数据。例如，与媒体相关联的元数据(在本示例中为电影)包括名称“All Dogs go to Heaven”和电影工作室“Dogs Movie Studio”。基于该元数据，媒体元数据模块216从电影工作室数据库请求附加元数据，接收附加元数据(在本示例中为发行时间：“1995年6月1日”；演员：Wof Gang McRuff和Ruffus T.Bone；放映时间：2:03:32)，并使附加元数据与媒体相关联。

图3举例说明系统300中的示例性通信设备310的功能框图。通信设备310包括通信模块331、处理器332、媒体编辑模块333、媒体指纹模块334、媒体元数据模块337、显示设备338(例如监视器、移动设备屏幕、电视等)、和存储设备339。

通信模块311接收用于通信设备310的信息和/或传送来自通信设备310的信息。处理器312处理对媒体流比较的请求(例如来自用户的请求、来自调度服务器的自动化请求等)并命令通信模块311请求和/或接收媒体流。

媒体指纹模块334生成用于媒体流中的每个关键帧选择(例如，每个帧是其自己的关键帧选择、一组帧具有一个关键帧选择等)的指纹。媒体元数据模块337使元数据与媒体相关联和/或确定来自媒体的元数据(例如从媒体提取元数据、确定用于媒体的元数据等)。显示设备338显示请求、媒体、元数据、描述符、帧选择、帧序列、帧序列的比较、和/或与元数据关联相关联的任何其它信息。存储设备339存储请求、媒体、元数据、描述符、帧选择、帧序列、帧序列的比较、和/或与元数据关联相关联的任何其它信息。

在其它示例中，通信设备330利用媒体编辑软件和/或硬件(例如可从加利福尼亚州圣何塞市的Adobe Systems公司获得的Adobe Premiere；可从加拿大渥太华的Corel公司获得的Corel

等)来操作和/或处理媒体。编辑软件和/或硬件可以包括应用程序链接(例如，用户界面中的按钮、拖放界面等)以将被编辑的媒体发送到内容分析服务器210以使可适用的元数据与媒体相关联，如果可能的话。

图4举例说明生成数字视频指纹的示例性流程图400。内容分析单元直接从信号缓冲单元获取已记录数据块(例如多媒体内容)并在分析之前提取指纹。图1的内容分析服务器110接收一个或多个视频(且更一般而言为视听)剪辑或片断470，每个包括图像帧471的各序列。视频图像帧是高度冗余的，其中组合帧根据视频片断470的不同镜头而彼此不同。在示例性视频片断470中，根据镜头：第一镜头472′、第二镜头472″、和第三镜头472′″将视频片断的采样帧分组。针对不同的镜头472′、472″、472′″(总体上为472)中的每一个镜头选择代表帧，也称为关键帧474′、474″、474′″(总体上为474)。内容分析服务器100确定用于不同关键帧474中的每一个关键帧的相应的数字签名476′、476″、476′″(总体上为476)。用于关键帧474的数字签名组476一起表示示例性视频片断470的数字视频指纹478。

在某些示例中，指纹也称为描述符。每个指纹可以是一组帧和/或一个帧的表示。可以从帧的内容导出指纹(例如色彩的函数和/或图像的强度、图像的一部分的衍生物、所有强度值的相加、色值的平均值、辉度值的模、空间频率值)。指纹可以是整数(例如345、523)和/或数字组合，诸如矩阵或向量(例如[a，b]、[x，y，z])。例如，指纹是由[x，y，z]定义的向量，其中，x是辉度，y是色度，并且z是帧的空间频率。

在某些实施例中，根据指纹值来区别镜头。例如，在向量空间中，根据同一镜头的帧确定的指纹将与同一镜头的相邻帧的指纹相差相对小的距离。在到不同镜头的过渡中，下一组帧的指纹相差较大的距离。因此，可以根据相差大于某阈值的其指纹来区别镜头。

因此，可以使用根据第一镜头472′的帧确定的指纹来将那些帧分组或以其他方式将其识别为与第一镜头相关。同样地，可以使用后续镜头的指纹来将后续镜头472″、472′″分组或以其他方式对其进行识别。可以为每个镜头472选择代表帧或关键帧474′、474″、474′″。在某些实施例中，以统计的方式从同一镜头中的一组帧的指纹(例如平均值或质心)选择关键帧。

图5举例说明指纹生成的示例性流程图500。流程图500包括内容设备505和内容分析服务器510。内容分析服务器510包括媒体数据库515。内容设备505向内容分析服务器510发送元数据A 506′和媒体内容A 507′。内容分析服务器510接收元数据A 506″和媒体内容A 507″。内容分析服务器510基于媒体内容A 507″生成一个或多个指纹A 509′。内容分析服务器510存储元数据A 506′″、媒体内容A 507′″、和一个或多个指纹A 509″。在至少一些实施例中，内容分析服务器510记录一个或多个指纹A 509″与已存储元数据A 506″之间的关联。

图6举例说明元数据关联的示例性流程图600。流程图600包括内容分析服务器610和通信设备630。内容分析服务器610包括媒体数据库615。通信设备630向内容分析服务器610发送媒体内容B637′。内容分析服务器610基于媒体内容B 637″生成一个或多个指纹B 639。内容分析服务器610将经由媒体数据库615存储的一个或多个指纹A 609与一个或多个指纹B 638相比较。内容分析服务器610检索经由媒体数据库615存储的元数据A 606。内容分析服务器610基于一个或多个指纹B 638和一个或多个指纹A 609的比较和/或元数据A 606来生成元数据B 636′。内容分析服务器610向通信设备630发送元数据B 636′。通信设备630使元数据B 636″与媒体内容B 637′相关联。

图7举例说明元数据关联的另一示例性流程图700。流程图700包括内容分析服务器710和通信设备730。内容分析服务器710包括媒体数据库715。通信设备730基于媒体内容B 737生成一个或多个指纹B 739′。通信设备730向内容分析服务器710发送一个或多个指纹B 739′。内容分析服务器710将经由媒体数据库715存储的一个或多个指纹A 709和一个或多个指纹B 739″相比较。内容分析服务器710检索经由媒体数据库715存储的元数据A 706。内容分析服务器710基于一个或多个指纹B 738″和一个或多个指纹A 709的比较和/或元数据A 706来生成元数据B 736′。例如，根据所检索的元数据A706生成(例如拷贝)元数据B 736′。内容分析服务器710向通信设备730发送元数据B 736′。通信设备730使元数据B 736″与媒体内容B 737相关联。

图8举例说明利用图2的系统200的元数据关联的示例性数据流图800。流程图800包括媒体803和元数据804。通信模块211接收媒体803和元数据804(例如，经由图1的内容设备105、经由存储设备218等)。视频帧转换模块214确定与媒体807相关联的边界808a、808b、808c、808d、和808e(在下文中称为边界808)。边界指示媒体的子部分：媒体A 807a、媒体B 807b、媒体C 807c、和媒体D 807d。媒体元数据模块216使元数据809的一部分与每个媒体子部分807相关联。换言之，元数据A 809a与媒体A 807a相关联；元数据B 809b与媒体B 807b相关联；元数据C 809c与媒体C 807c相关联；并且元数据D 809d与媒体D 807d相关联。

在某些示例中，视频帧转换模块214基于面检测、模式识别、语音转文字分析、媒体中的嵌入信号、第三方信令数据、和/或提供关于媒体边界的信息的任何其它类型的信息来确定边界。

图9举例说明另一示例性表格900，其举例说明如在图8的流程图800中描绘的元数据关联。表格900举例说明关于媒体部分902、开始时间904、结束时间906、元数据908、和指纹909的信息。表格900包括媒体子部分A 912、B 914、C 916、和D 918的信息。表格900利用开始时间904和结束时间906来描绘每个媒体子部分809的边界808。换言之，利用帧号码(例如起始帧：0，和结束帧：34，帧：0+42等)和/或任何其它类型的位置标识(例如轨道编号、章节编号、插曲编号等)来描绘每个媒体子部分809的边界808。

图10举例说明利用图2的系统200的元数据关联的示例性数据流程图1000。流程图1000包括媒体1003和元数据1004。通信模块211接收媒体1003和元数据1004(例如，经由图1的内容设备105、经由存储设备218等)。视频帧转换模块214确定与媒体1007相关联的边界。边界指示媒体的子部分：媒体A 1007a、媒体B 1007b、媒体C 1007c、和媒体D 1007d。视频帧转换模块214将媒体1007分离成媒体的子部分。媒体元数据模块216使元数据1009的一部分与分离的媒体子部分1007中的每一个相关联。换言之，元数据A 1009a与媒体A 1007a相关联；元数据B 1009b与媒体B 1007b相关联；元数据C 1009c与媒体C 1007c相关联；并且元数据D 1009d与媒体D1007d相关联。

图11举例说明另一示例性表格1100，其举例说明了如在图10的流程图1000中描绘的元数据关联。表格1100举例说明了关于媒体部分1102、对原始媒体的参考1104、元数据1106、和指纹1108的信息。表格1100包括媒体子部分A 1112、B 1114、C 1116、和D 1118的信息。表格1100将每个媒体子部分1007的分离描绘为与原始媒体Media ID XY-10302008相关联的不同部分。媒体到子部分的分离有利地使得能够实现不同元数据到原始媒体的不同片的关联和/或从媒体档案(例如存储设备218、媒体数据库115等)进行的子部分的独立访问。

在某些示例中，媒体的边界是空间边界(例如视频、图像、音频等)、时间边界(例如时间代码、相对时间、帧编号等)、和/或用于媒体的任何其它类型的边界。

图12举例说明用于利用图2的系统200使元数据相关联的示例性流程图1200。通信模块211接收(1210)第二媒体数据。媒体指纹模块215基于第二媒体数据生成(1220)第二描述符。媒体指纹比较模块217将第二描述符与第一描述符相比较(1230)。可以使第一描述符与具有相关元数据的第一媒体数据相关联。如果第二描述符和第一描述符匹配(例如，精确匹配、类似、在相对比例方面彼此在某百分比内等)，则媒体元数据模块216基于第二描述符和第一描述符的比较使元数据的至少一部分与第二媒体数据相关联(1240)。如果第二描述符和第一描述符不匹配，则处理结束(1250)。

图13举例说明用于利用图2的系统200使元数据相关联的另一示例性流程图1300。通信模块211接收(1310)第二媒体数据。视频帧转换模块214确定(1315)与第二媒体数据相关联的一个或多个第二边界。媒体指纹模块215基于第二媒体数据和所述一个或多个第二边界生成(1320)一个或多个第二描述符。媒体指纹比较模块217将所述一个或多个第二描述符与一个或多个第一描述符相比较(1330)。在某些示例中，所述一个或多个第一描述符中的每一个和与第一媒体数据相关联的一个或多个第一边界相关联。如果第二描述符中的一个或多个与第一描述符中的一个或多个匹配(例如，精确匹配、类似、在相对比例方面彼此在某百分比内等)，则媒体元数据模块216基于第二描述符和第一描述符的比较使元数据的至少一部分与所述一个或多个第二媒体数据子部分中的至少一个相关联(1340)。如果第二描述符中的一个或多个与第一描述符中的一个或多个不匹配，则处理结束(1350)。

图14举例说明用于利用图3的系统300使元数据相关联的另一示例性流程图1400。媒体指纹模块334基于第二媒体数据生成(1410)第二描述符。通信模块331发送(1420)对与第二媒体数据相关联的元数据的请求，该请求包括第二描述符。通信模块331基于该请求接收(1430)元数据。该元数据可以与第一媒体数据的至少一部分相关联。媒体元数据模块337基于第二描述符和与第一媒体数据相关联的第一描述符的比较使元数据与第二媒体数据相关联(1340)。

图15举例说明用于利用图3的系统300使元数据相关联的另一示例性流程图1500。通信模块331发送(1510)对与第二媒体数据相关联的元数据的请求。该请求可以包括第二媒体数据。通信模块331基于该请求接收(1420)元数据。该元数据可以与第一媒体数据的至少一部分相关联。媒体元数据模块337基于第二描述符和与第一媒体数据相关联的第一描述符的比较使元数据与第二媒体数据相关联(1430)。

图16举例说明示例性多信道视频监视系统1600的方框图。系统1600包括(i)信号或媒体获取子系统1642，(ii)内容分析子系统1644，(iii)数据存储子系统446，和(iv)管理子系统1648。

媒体获取子系统1642获取一个或多个视频信号1650。对于每个信号而言，媒体获取子系统1642将其作为数据块记录在许多信号缓冲单元1652上。根据使用情况，如在本文中更详细地描述的，缓冲单元1652也可以执行指纹提取。这在远程捕捉方案中可能是有用的，在远程捕捉方案中，通过诸如因特网的通信介质从远处的捕捉站点向中央内容分析站点发送非常简洁的指纹。还可以将视频检测系统和过程与现有信号获取解决方案相集成，只要可通过网络连接访问所记录的数据即可。

可以将用于每个数据块的指纹存储在数据存储子系统1646的媒体仓库1658部分中。在某些实施例中，数据存储子系统1646包括系统仓库1656和参考仓库1660中的一个或多个。数据存储子系统1646的仓库1656、1658、1660中的一个或多个可以包括一个或多个本地硬盘驱动器、网络访问硬盘驱动器、光学存储单元、随机存取存储器(RAM)存储驱动器、和/或其任何组合。仓库1656、1658、1660中的一个或多个可以包括数据管理系统以促进所存储内容的存储和访问。在某些实施例中，系统1640通过诸如Oracle和Microsoft-SQL服务器之类的其数据库访问层支持不同的基于SQL的关系数据库系统。此类系统数据库充当用于在操作期间生成的所有元数据的中央仓库，包括处理、配置、和状态信息。

在某些实施例中，媒体仓库1658充当存储指纹以及其相应关键帧的系统1640的主有效负荷数据储存器。与已存储指纹相关联的已处理连续镜头的低质量版本也被存储在媒体仓库1658中。可以使用可以被作为联网文件系统访问的一个或多个RAID系统来实现媒体仓库1658。

每个数据块可以变成预定由管理子系统1648的控制器1662进行处理的分析任务。控制器1662主要负责作业到内容分析子系统1644的内容分析群集1654中的单独节点的分发和负载平衡。在至少某些实施例中，管理子系统1648还包括操作员/管理员终端，一般称为前端1664。操作员/管理员终端1664可以用来配置视频检测系统1640的一个或多个元件。操作员/管理员终端1664还可以用来上传参考视频内容以进行比较并观看和分析比较的结果。

可以将信号缓冲单元1652实现为在不需要任何用户交互的情况下连续不断地操作。在该实施例中，捕捉连续视频数据流，将其划分成可管理片断或块，并存储在内部硬盘上。可以植入硬盘空间以充当环形缓冲器。在此配置中，可以将较旧的存储数据块移动到单独的长期存储单元以归档，释放内部硬盘驱动器上的空间以存储新的、传入的数据块。该存储管理提供非常长的时段(例如几小时、几天、几个星期等)内的可靠、不间断的信号可用性。控制器1662被配置为保证所有数据块的及时处理，以便没有数据丢失。信号获取单元1652被设计为在没有任何网络连接(如果需要的话)的情况下(例如在网络中断的时段期间)操作以增加系统的故障容忍度。

在某些实施例中，信号缓冲单元1652在本地对记录的块执行指纹提取和代码转换。结果得到的指纹的存储要求与底层数据块相比是不重要的，并且可以连同数据块一起在本地存储。这使得能够通过有限带宽网络来传输包括故事脚本的非常简洁的指纹，以避免发送完整的视频内容。

在某些实施例中，控制器1662管理由信号缓冲单元1652记录的数据块的处理。控制器1662不断地监视信号缓冲单元1652和内容分析节点1654，根据需要执行负荷平衡以保持系统资源的高效利用。例如，控制器1662通过向所选的一些分析节点1654分配分析作业来发起新数据块的处理。在某些情况下，控制器1662自动地重新开始分析节点1654或一个或多个整体分析节点1654上的单独分析过程，使得能够在没有用户交互的情况下进行错误恢复。可以在前端1664处提供图形用户界面以用于系统1600的一个或多个子系统1642、1644、1646的监视和控制。例如，图形用户界面允许用户配置、重配置和获得内容分析1644子系统的状态。

在某些实施例中，分析群集1644包括一个或多个分析节点1654作为视频检测和监视系统的骨干。每个分析节点1654独立地处理由控制器1662分配给它们的分析任务。这主要包括获取所记录的数据块，生成视频指纹，并针对参考内容匹配指纹。结果得到的数据被存储在媒体仓库1658中和数据存储子系统1646中。在系统执行回溯匹配的情况下，分析节点1654还可以充当参考剪辑摄取节点、备份节点、或RetroMatch节点中的一个或多个。通常，由控制器来控制并监视分析群集的所有活动。

在处理多个此类数据块1670之后，这些块的检测结果被存储在系统数据库1656中。有利地，可以灵活地缩放信号缓冲单元1652和内容分析节点1654的数目和容量，以针对任何种类的特定使用情况对系统的容量进行自定义。系统1600的实现可以包括可以被组合并配置为适合个人需要的多个软件组件。根据特定使用情况，多个组件可以在同一硬件上运行。替换地或另外地，组件可以在单独的硬件上运行以获得更好的性能和改善的故障容忍度。此类模块化系统架构允许用户化以适合实际上每种可能的使用情况，从本地、单PC解决方案到全国监视系统、故障容忍度、记录冗余、及其组合。

图17举例说明示例性图形用户界面(GUI)1700的屏幕截图。GUI 1700可以被图1的系统100的操作员、数据年表编者、和/或其它用户用来操作和/或控制内容分析服务器110。GUI 1700使得用户能够检查检测、管理参考内容、编辑剪辑元数据、播放参考和所检测的多媒体内容，并执行参考和所检测的内容之间的详细比较。在某些实施例中，系统1600包括用于诸如记录选择器的不同功能和/或子系统的(一个)或多个不同的图形用户界面、和控制器前端1664。

GUI 1700包括一个或多个用户可选控制机构1782，诸如标准窗口控制特征。GUI 1700还包括检测结果表1784。在示例性实施例中，检测结果表1784包括多个行1786，每次检测一行。行1786包括所存储图像的低分辨率版本以及与检测本身相关的其它信息。通常，可以紧挨着图像提供所存储图像的名称或其它文本指示。检测信息可以包括下述内容中的一个或多个：检测的日期和时间、信道或其它视频源的标记、关于匹配质量的指示、关于音频匹配质量的指示、检验日期、检测识别值、和关于检测源的指示。在某些实施例中，GUI 1700还包括用于观看所检测的和匹配视频的一个或多个帧的视频观看窗口1788。GUI 1700可以包括用于比较音频比较的标记的音频观看窗口1789。

图18举例说明数字图像表示子帧的变化的示例。示出了目标文件图像子帧和被查询图像子帧1800中的一个的一组，其中，组1800包括子帧组1801、1802、1803、和1804。子帧组1801和1802与其它组成员的不同之处在于转换(translation)和比例(scale)中的一个或多个。子帧组1802和1803相互不同，并且就图像内容而言与子帧组1801和1802不同，并且给图像差以子帧匹配阈值。

图19举例说明了用于图16的数字视频图像检测系统1600的实施例的示例性流程图1900。流程图1900在起始点A处启动，其中用户在用户界面处配置数字视频图像检测系统126，其中，配置该系统包括选择至少一个信道、至少一个解码方法、和信道采样率、信道采样时间、和信道采样周期。配置系统126包括手动地和半自动地配置数字视频图像检测系统中的一个。半自动地配置系统126包括选择信道预置、扫描调度代码、和接收调度馈送中的一个或多个。

配置数字视频图像检测系统126还包括生成定时控制序列127，其中，由定时控制序列127生成的一组信号提供到MPEG视频接收机的接口。

在某些实施例中，用于数字视频图像检测系统100的方法流程图1900提供可选地查询网络以得到用于数字视频图像检测系统100的文件图像131以匹配的步骤。在某些实施例中，方法流程图1900提供可选地从用户界面100上传用于数字视频图像检测系统100的文件图像以匹配的步骤。在某些实施例中，查询文件数据库133b并使其排队提供用于数字视频图像检测系统100的至少一个文件图像以匹配。

方法流程图1900还提供用于在MPEG视频接收机处捕捉并缓冲MPEG视频输入并用于将MPEG视频输入171作为数字图像表示存储在MPEG视频档案中的步骤。

方法流程图1900还提供步骤：将MPEG视频图像转换成多个查询数字图像表示，将文件图像转换成多个文件数字图像表示，其中，转换MPEG视频图像和转换文件图像是相似的方法，并且比较和匹配被查询的数字图像表示和文件数字图像表示。由：在上传文件图像时转换文件图像、在文件图像排队时转换文件图像、以及与转换MPEG视频图像并行地转换文件图像中的一个来提供将文件图像转换成多个文件数字图像表示。

方法流程图1900提供用于将MPEG视频图像和文件图像分别转换成被查询RGB数字图像表示和文件RGB数字图像表示的方法142。在某些实施例中，转换方法142还包括从被查询RGB数字图像表示和文件RGB数字图像表示中去除图像边界143。在某些实施例中，转换方法142还包括从被查询RGB数字图像表示和文件RGB数字图像表示中去除分割屏幕143。在某些实施例中，去除图像边界和去除分割屏幕143中的一个或多个包括检测边缘。在某些实施例中，转换方法142还包括将被查询RGB数字图像表示和文件RGB数字图像表示改变尺寸至128×128像素的尺寸。

方法流程图1900还提供用于将MPEG视频图像和文件图像分别转换成被查询COLOR9数字图像表示和文件COLOR9数字图像表示的方法144。转换方法144提供直接从被查询RGB数字图像表示和文件RGB数字图像表示的转换。

转换方法144包括步骤：将被查询RGB数字图像表示和文件RGB数字图像表示投影到中间辉度轴上，对具有中间辉度的被查询RGB数字图像表示和文件RGB数字图像表示进行归一化，并将归一化的被查询RGB数字图像表示和文件RGB数字图像表示分别转换成被查询COLOR9数字图像表示和文件COLOR9数字图像表示。

方法流程图1900还提供用于将MPEG视频图像和文件图像分别转换成被查询的5片断、低分辨率时间矩(temporal moment)数字图像表示和文件5片断、低分辨率时间矩数字图像表示的方法151。转换方法151提供直接从被查询COLOR9数字图像表示和文件COLOR9数字图像表示的转换。

转换方法151包括步骤：将被查询COLOR9数字图像表示和文件COLOR9数字图像表示分割成五个空间重叠部分和不重叠部分，生成用于五个部分中的每一个部分的一组统计矩，对该组统计矩加权，并在时间上使该组统计矩相互关联，生成一组关键帧或镜头帧，其表示COLOR9数字图像表示的一个或多个序列的时间片断。

用于转换方法151的生成一组统计矩包括生成：用于所述五个部分中的每一个部分的平均值、方差、和偏斜中的一个或多个。在某些实施例中，用于转换方法151的在时间上使一组统计矩相互关联包括：使一组被顺序缓冲的RGB数字图像表示的平均值、方差、和偏斜中的一个或多个相互关联。

针对一组被顺序缓冲的MPEG视频图像COLOR9数字图像表示在时间上使一组统计矩相关联允许确定用于连续COLOR9数字图像表示的一个或多个片断的一组中值统计矩。与一组中值统计矩最密切匹配的一组时间片段中的图像帧的一组统计矩被识别为镜头帧(shot frame)或关键帧。该关键帧被保留用于产生较高分辨率匹配的进一步精炼的方法。

方法流程图1900还提供用于使被查询的5部分、低分辨率时间矩数字图像表示和文件5部分、低分辨率时间矩数字图像表示匹配的比较方法152。在某些实施例中，第一比较方法151包括找到以下各项中的一个或多个之间的一个或多个错误：用于被查询的5部分、低分辨率时间矩数字图像表示和文件5部分、低分辨率时间矩数字图像表示的五个片断中的每一个片段的平均值、方差、和偏斜。在某些实施例中，由一个或多个被查询关键帧和一个或多个文件关键帧生成所述一个或多个错误，其对应于COLOR9被查询数字图像表示和文件数字图像表示的一个或多个序列的一个或多个时间片断。在某些实施例中，对所述一个或多个错误加权，其中，与在一组外部片断和部分中相比，所述加权在时间上在中心片断中较强且在空间上在中心部分中较强。

比较方法152包括分支元素，如果第一比较未得到匹配、则该分支元素在‘E’处结束方法流程图2500。比较方法152包括分支元素，如果比较方法152得到匹配、则该分支元素将方法流程图1900指引到转换方法153。

在某些实施例中，比较方法152中的匹配分别包括以下各项中的一个或多个：被查询平均值和文件平均值之间的距离、被查询方差和文件方差之间的距离、以及寄存比平均值阈值小的度量的文件偏斜与被查询偏斜之间的距离、方差阈值、和偏斜阈值。用于第一比较方法152的度量可以是一组众所周知的距离生成度量中的任何一个。

转换方法153a包括从被查询COLOR9数字图像表示和文件COLOR9数字图像表示中提取一组高分辨率时间矩的方法，其中，该组高分辨率时间矩包括以下各项中的一个或多个：用于表示COLOR9数字图像表示的一个或多个序列的时间片断的图像片断中的一组图像中的每一个图像的偏斜、平均值和方差。

由转换方法151提供转换方法153a时间矩。转换方法153a将图像组和相应的统计矩组编索引为时间序列。比较方法154a通过卷积将用于每个时间片断的文件图像组和被查询图像组的统计矩相比较。

比较方法154a中的卷积对下述项中的被查询和归档的一个或多个项求卷积：所述项为第一特征平均值、第一特征方差、和第一特征偏斜。在某些实施例中，对卷积加权，其中，所述加权是色度的函数。在某些实施例中，对卷积加权，其中，所述加权是色调的函数。

比较方法154a包括如果第一特征比较未得到匹配、则结束方法流程图1900的分支元素。比较方法154a包括如果第一特征比较方法153a得到匹配、则将方法流程图1900指引到转换方法153b的分支元素。

在某些实施例中，第一特征比较方法153a中的匹配分别包括以下各项中的一个或多个：被查询的第一特征平均值和文件第一特征平均值之间的距离、被查询的第一特征方差和文件第一特征方差之间的距离、以及寄存比第一特征平均值阈值、第一特征方差阈值、和第一特征偏斜阈值小的度量的被查询的第一特征偏斜和文件第一特征倾斜之间的距离。用于第一特征比较方法153a的度量可以是一组众所周知的距离生成度量中的任何一个。

转换方法153b包括从被查询COLOR9数字图像表示和文件COLOR9数字图像表示提取一组九个被查询小波变换系数和文件小波变换系数。具体而言，由包括COLOR9数字图像表示的九个色彩表示中的每一个的灰度表示生成该组九个被查询的和文件小波变换系数。在某些实施例中，灰度表示近似等效于包括COLOR9数字图像表示的九个色彩表示中的每一个的相应辉度表示。在某些实施例中，通过通常称为颜色范围包围的过程来生成灰度表示，其中，颜色范围包围大约消除跨越包括COLOR9数字图像表示的九个色彩表示的亮度和饱和度或对其进行归一化。

在某些实施例中，该组九个小波变换系数是以下各项中的一个：一组九个一维小波变换系数、九个一维小波变换系数的一组一个或多个非共线组、以及一组九个二维小波变换系数。在某些实施例中，该组九个小波变换系数是一组Haar小波变换系数和二维组Haar小波变换系数中的一个。

方法流程图1900还提供用于使一组九个被查询的小波变换系数和文件小波变换系数匹配的比较方法154b。在某些实施例中，比较方法154b包括用于该组九个被查询的和被归档的小波变换系数的相关函数。在某些实施例中，对该相关函数加权，其中，该加权是色调的函数；亦即，该加权是包括COLOR9数字图像表示的九个色彩表示中的每一个的函数。

比较方法154b包括如果比较方法154b未得到匹配、则结束方法流程图1900的分支元素。比较方法154b包括如果比较方法154b得到匹配、则将方法流程图1900指引到分析方法155a～156b的分支元素。

在某些实施例中，比较方法154b中的比较包括以下各项中的一个或多个：该组九个被查询小波系数和文件小波系数之间的距离、所选择的一组九个被查询小波系数和文件小波系数之间的距离、和经加权的一组九个被查询小波系数和文件小波系数之间的距离。

分析方法155a～156b提供将MPEG视频图像和文件图像分别转换成一个或多个被查询RGB数字图像表示子帧和文件RGB数字图像表示子帧、分别转换成一个或多个灰度数字图像表示子帧和文件灰度数字图像表示子帧、以及一个或多个RGB数字图像表示差子帧。分析方法155a～156b提供直接从被查询的和文件RGB数字图像表示转换成相关子帧。

分析方法55a～156b提供一个或多个被查询的和文件灰度数字图像表示子帧155a，包括：将被查询的和文件RGB数字图像表示的一个或多个部分定义为一个或多个被查询的和文件RGB数字图像表示子帧、将所述一个或多个被查询的和文件RGB数字图像表示子帧转换成一个或多个被查询的和文件灰度数字图像表示子帧、以及对所述一个或多个被查询的和文件灰度数字图像表示子帧进行归一化。

用于定义的方法包括最初针对所述一个或多个被查询的和文件RGB数字图像表示的每一对定义相同的像素。用于转换的方法包括从每对被查询的和文件RGB数字图像表示子帧提取辉度量度(luminance measure)以促进转换。归一化方法包括从所述一个或多个被查询的和文件灰度数字图像表示子帧中的每一对减去平均值。

分析方法155a～156b还提供比较方法155b～156b。比较方法155b～156b包括如果第二比较未得到匹配、则结束方法流程图2500的分支元素。比较方法155b～156b包括如果第二比较方法155b～156b得到匹配、则将方法流程图2500指引到检测分析方法325的分支元素。

比较方法155b～156b包括：提供所述一个或多个被查询的和文件灰度数字图像表示子帧中的每一对之间的配准(registration)155b，并呈递(render)一个或多个RGB数字图像表示差子帧和相连的被查询RGB数字图像表示扩大变化子帧156a～b。

用于提供所述一个或多个被查询的和文件灰度数字图像表示子帧中的每一对之间的配准的方法155b包括：通过将所述一个或多个被查询的和文件灰度数字图像表示子帧中的每一对之间的灰度像素差的绝对值相加来提供绝对差(SAD)度量的和，对所述一个或多个被查询灰度数字图像表示子帧进行转换(translate)和缩放，并进行重复以针对所述一个或多个被查询的和文件灰度数字图像表示子帧中的每一对找到最小SAD。用于方法155b的缩放包括将所述一个或多个被查询灰度数字图像表示子帧独立地缩放至以下各项中的一个：128×128像素子帧、64×64像素子帧、和32×32像素子帧。

用于方法155b的缩放包括将所述一个或多个被查询灰度数字图像表示子帧独立地缩放至以下各项中的一个：720×480像素(480i/p)子帧、720×576像素(576i/p)子帧、1280×720像素(720p)子帧、1280×1080像素(1080i)子帧、和1920×1080像素(1080p)子帧，其中，可以从RGB表示图像或直接从MPEG图像进行缩放。

用于呈递一个或多个RGB数字图像表示差子帧和相连的被查询RGB数字图像表示扩大变化子帧156a～b的方法包括：依照用于提供配准155b的方法使一个或多个被查询的灰度数字图像表示子帧和文件灰度数字图像表示子帧对准，提供一个或多个RGB数字图像表示差子帧，并提供相连的被查询RGB数字图像表示扩大变化子帧。

方法56a中的提供所述一个或多个RGB数字图像表示差子帧包括：抑制所述一个或多个被查询的和文件RGB数字图像表示子帧中的边缘，通过将所述一个或多个被查询的和文件RGB数字图像表示子帧中的每一对之间的RGB像素差的绝对值相加来提供SAD度量，并将一个或多个RGB数字图像表示差子帧定义为集合(其中，相应的SAD在阈值以下)。

所述抑制包括：提供用于所述一个或多个被查询的和文件RGB数字图像表示子帧的边缘图，并从所述一个或多个被查询的和文件RGB数字图像表示子帧减去所述一个或多个被查询的和文件RGB数字图像表示子帧的边缘图，其中，提供边缘图包括提供Sobol滤波器.

方法56a中的提供相连的被查询RGB数字图像表示扩大变化子帧包括：连接并扩大与所述一组一个或多个RGB数字图像表示差子帧相对应的一组一个或多个被查询RGB数字图像表示子帧。

用于呈递一个或多个RGB数字图像表示差子帧和相连的查询RGB数字图像表示扩大变化子帧156a～b的方法包括用于方法156a～b的缩放，其独立地将一个或多个被查询RGB数字图像表示子帧缩放至：128×128像素子帧、64×64像素子帧、和32×32像素子帧中的一个。

用于方法156a～b的缩放包括将所述一个或多个被查询RGB数字图像表示子帧独立地缩放至以下各项中的一个：720×480像素(480i/p)子帧、720×576像素(576i/p)子帧、1280×720像素(720p)子帧、1280×1080像素(1080i)子帧、和1920×1080像素(1080p)子帧，其中，可以从RGB表示图像或直接从MPEG图像进行缩放。

方法流程图1900还提供检测分析方法325。检测分析方法325和相关分类检测方法124提供用于显示匹配和视频驱动器125的视频检测匹配和分类数据和图像，如由用户接口110来控制的那样。检测分析方法325和分类检测方法124还向动态阈值方法335提供检测数据，其中，动态阈值方法335提供下述项之一：动态阈值的自动复位、动态阈值的手动复位、及其组合。

方法流程图1900还提供第三比较方法340，其提供如果文件数据库队列不为空、则结束方法流程图1900的分支元素。

图20A举例说明特征空间2000中的K-NN嵌套的、不相交特征子空间的示例性遍历集合。被查询图像805在A处开始并在D处被集中至目标文件图像831，甄别未通过匹配标准851和852的文件图像，诸如特征空间850和860之间的边界处的处于阈值水平813的文件图像832。

图20B举例说明具有被查询图像子帧变化的K-NN嵌套的、不相交特征子空间的示例性遍历集合。被查询图像805子帧861和目标文件图像831子帧862在特征空间860和830之间的边界处在子帧阈值下不匹配。找到与文件图像832的匹配，并且生成新子帧832且使其与文件图像831和被查询图像805二者相关联，其中，目标文件图像831子帧961和新子帧832二者均包括用于文件目标图像832的新子空间集合。

在某些示例中，图1的内容分析服务器110是网络入口。网络入口实施方式允许以作为服务提供的灵活的按需监视。仅仅需要网络访问，网络入口实施方式允许具有小参考数据量的客户端受益于本发明的视频检测系统和过程的优点。解决方案可以提供使用Microsoft.Net Remoting进行与现有应用的无缝内部集成的若干编程接口中的一个或多个接口。替代地或另外地，可以通过安装辅助控制器和辅助信号缓冲单元来增加用于所记录的视频数据的长期存储和操作冗余。

在题为“Video Detection System And Methods”的国际专利申请序号PCT/US2008/060164、公开号WO2008/128143中更详细地描述了指纹提取，其通过引用整体地结合到本文中。在题为“Frame Sequence Comparisons in Multimedia Streams”的国际专利申请序号PCT/US2009/035617中更详细地描述了指纹比较，其通过引用整体地结合到本文中。

可以在数字电子电路中、在计算机硬件、固件、和/或软件中实现上述系统和方法。该实现可以作为计算机程序产品(即在信息载体中有形地体现的计算机程序)。该实现可以例如在机器可读存储设备中，以供由数据处理装置执行或控制数据处理装置的操作。该实现可以是例如可编程处理器、计算机、和/或多个计算机。

可以以任何形式的编程语言来写计算机程序，包括编译和/或解释语言，并且可以以任何形式来部署计算机程序，包括作为独立的程序或作为子程序、元件、和/或适合于在计算环境中使用的其它单元。可以将计算机程序部署为在一个计算机上或一个站点处的多个计算机上执行。

可以通过执行计算机程序以通过对输入数据进行操作以及生成输出来执行本发明的功能的一个或多个可编程处理器来执行方法步骤。还可以由专用逻辑电路来执行方法步骤且可以将装置实现为专用逻辑电路。该电路可以是例如FPGA(现场可编程门阵列)和/或ASIC(专用集成电路)。模块、子程序和软件代理可以指的是实现该功能的硬件和/或软件、特殊电路、处理器、计算机程序的一部分。

适合于执行计算机程序的处理器包括例如通用和专用微处理器二者、以及任何种类的数字计算机中的任何一个或多个处理器。通常，处理器从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常，计算机可以包括用于存储数据的一个或多个海量存储设备(例如磁盘、磁光盘、或光盘)，可以在工作时耦合以从该一个或多个海量存储设备接收数据和/或向其传输数据。

数据传输和指令还可以通过通信网络发生。适合于体现计算机程序指令和数据的信息载体包括所有形式的非易失性存储器，包括例如半导体存储器设备。信息载体可以例如是EPROM、EEPROM、闪速存储器设备、磁盘、内部硬盘、可移动磁盘、磁光盘、CD-ROM、和/或DVD-ROM盘。可以用专用逻辑电路来补充处理器和存储器，和/或将处理器和存储器结合到专用逻辑电路中。

为了提供与用户的交互，可以在具有显示设备的计算机上实现上述技术。显示设备可以是例如阴极射线管(CRT)和/或液晶显示器(LCD)监视器。与用户的交互可以是例如向用户显示信息，和用户可以用其向计算机提供输入(例如与用户接口元件相交互)的键盘和定位设备(例如鼠标或轨迹球)。可以使用其它种类的设备来提供与用户的交互。其它设备可以是例如以感觉反馈(例如视觉反馈、听觉反馈、或触觉反馈)的任何形式提供给用户的反馈。可以例如以包括声学、语音、和/或触觉输入的任何形式接收来自用户的输入。

可以在包括后端组件的分布式计算系统中实现上述技术。后端组件可以是例如数据服务器、中间件组件、和/或应用服务器。可以在包括前端组件的分布式计算系统中实现上述技术。前端组件可以是例如具有图形用户界面、用户可以通过其与示例性实现相交互的网页浏览器、和/或用于传输设备的其它图形用户界面的客户端计算机。可以通过任何形式或介质的数字数据通信(例如通信网络)来将系统的组件互连。通信网络的示例包括局域网(LAN)、广域网(WAN)、因特网、有线网络、和/或无线网络。

系统可以包括客户端和服务器。客户端和服务器一般相互远离且通常通过通信网络相交互。客户端和服务器的关系借助于在各计算机上运行且相互之间具有客户端-服务器关系的计算机程序形成。

通信网络可以包括例如基于分组的网络和/或基于电路的网络。基于分组的网络可以包括例如因特网、载波网际协议(IP)网络(例如局域网(LAN)、广域网(WAN)、校园网(CAN)、城域网(MAN)、家域网(HAN))、私用IP网络、IP专用小交换机(IPBX)、无线网络(例如无线电接入网络(RAN)、802.11网络、802.16网络、通用分组无线电服务(GPRS)网络、HiperLAN)、和/或其它基于分组的网络。基于电路的网络可以包括例如公共交换电话网(PSTN)、专用小交换机(PBX)、无线网络(例如RAN、蓝牙、码分多址(CDMA)网络、时分多址(TDMA)网络、全球移动通信系统(GSM)网络)、和/或其它基于电路的网络。

通信设备可以包括例如计算机、具有浏览器设备的计算机、电话、IP电话、移动设备(例如蜂窝式电话、个人数字助理(PDA)设备、膝上型计算机、电子邮件设备)、和/或其它类型的通信设备。浏览器设备包括例如具有万维网浏览器(例如，可从微软公司获得的

Internet

可从Mozilla公司获得的

Firefox)的计算机(例如台式计算机、膝上型计算机)。移动计算设备包括例如个人数字助理(PDA)。

包含、包括、和/或每个的复数形式是开放式的且包括所列的部分，并且可以包括未列出的附加部分。和/或是开放式的且包括所列部分中的一个或多个以及所列部分的组合。

通常，术语视频指的是静止图像的序列、或帧，其表示运动中的场景。因此，视频帧本身是静止图像。本文所使用的术语视频和多媒体包括电视和电影风格的视频剪辑和流媒体。视频和多媒体包括模拟格式，诸如标准电视广播及记录和数字格式，还包括标准电视广播和记录(例如DTV)。视频可以是隔行的或循序的。可以根据各种存储格式(包括：数字视频格式(例如DVD)、

和MPEG4；以及模拟录像带(包括

和

))来处理本文所述的视频和多媒体内容。用于数字电视广播的格式可以使用MPEG-2视频编解码器且包括：ATSC-USA、加拿大DVB-欧洲ISDB-日本、巴西DMB-韩国。模拟电视广播标准包括：FCS-USA、俄罗斯；过时MAC-欧洲；过时MUSE-日本NTSC-美国、加拿大、日本PAL-欧洲、亚洲、大洋洲PAL-M-PAL变化。巴西PALplus-PAL扩展、欧洲RS-343(军事)SECAM-法国、前苏联、中非。在本文中所使用的视频和多媒体还包括点播视频，其指的是在用户的选择时刻开始的视频，与流、多播形成对照。

本领域的技术人员将认识到在不脱离本发明的精神或本质特性的情况下可以以其它特定形式来体现本发明。因此，应将前述实施例视为在所有方面是说明性的，而不是限制本文所述的本发明。因此，由所附权利要求而不是由前述说明来指示本发明的范围，并且在权利要求的意义和等价范围内的所有变更因此被意图涵盖于其中。

Claims

1.一种媒体资产管理方法，包括：

接收第二媒体数据；

基于所述第二媒体数据生成第二描述符；

将所述第二描述符与第一描述符相比较，所述第一描述符与具有相关元数据的第一媒体数据相关联；以及

基于第二描述符和第一描述符的比较使所述元数据的至少一部分与第二媒体数据相关联。

2.权利要求1的方法，还包括：

确定与第二媒体数据相关联的一个或多个第二边界；以及

基于第二媒体数据和所述一个或多个第二边界生成一个或多个第二描述符。

3.权利要求2的方法，其中，将第二描述符和第一描述符相比较还包括将所述一个或多个第二描述符和一个或多个第一描述符相比较，所述一个或多个第一描述符中的每一个第一描述符和与所述第一媒体数据相关联的一个或多个第一边界相关联。

4.权利要求2的方法，其中，所述一个或多个第二边界包括空间边界、时间边界、或其任何组合。

5.权利要求2的方法，还包括：基于所述一个或多个第二边界将第二媒体数据分离成一个或多个第二媒体数据子部分。

6.权利要求5的方法，其中，使所述元数据的至少一部分与第二媒体数据相关联还包括：基于第二描述符和第一描述符的比较使元数据的至少一部分与所述一个或多个第二媒体数据子部分中的至少一个相关联。

7.权利要求1的方法，其中，所述第二媒体数据包括第一媒体数据的全部或一部分。

8.权利要求1的方法，其中，所述第二描述符与所述第一描述符的一部分或全部类似。

9.权利要求1的方法，还包括：

接收第一媒体数据和与第一媒体数据相关联的元数据；以及

基于第一媒体数据生成第一描述符。

10.权利要求9的方法，还包括使元数据的至少一部分与第一描述符相关联。

11.权利要求10的方法，还包括：

存储元数据、第一描述符、和元数据的至少一部分与第一描述符的关联；以及

检索已存储元数据、已存储第一描述符、和元数据的至少一部分与第一描述符的已存储关联。

12.权利要求9的方法，还包括：

确定与第一媒体数据相关联的一个或多个第一边界；以及

基于第一媒体数据和所述一个或多个第一边界生成一个或多个第一描述符。

13.权利要求12的方法，还包括：

基于所述一个或多个第一边界将与第一媒体数据相关联的元数据分离成一个或多个元数据子部分；以及

基于所述一个或多个第一边界使所述一个或多个元数据子部分与所述一个或多个第一描述符相关联。

14.权利要求1的方法，还包括使元数据和第一描述符相关联。

15.权利要求1的方法，其中，所述第一媒体数据包括视频。

16.权利要求1的方法，其中，所述第一媒体数据包括视频、音频、文本、图像、或其任何组合。

17.一种媒体资产管理方法，包括：

基于第二媒体数据生成第二描述符；

发送对与第二媒体数据相关联的元数据的请求，该请求包括第二描述符；

基于所述请求接收元数据，所述元数据与第一媒体数据的至少一部分相关联；以及

基于第二描述符和与第一媒体数据相关联的第一描述符的比较使元数据与第二媒体数据相关联。

18.权利要求17的方法，其中，所述第二媒体数据包括第一媒体数据的全部或一部分。

19.权利要求17的方法，其中，所述第二描述符与所述第一描述符的一部分或全部类似。

20.权利要求17的方法，其中，所述第一媒体数据包括视频。

21.权利要求17的方法，其中，所述第一媒体数据包括视频、音频、文本、图像、或其任何组合。

22.一种媒体资产管理方法，包括：

发送对与第二媒体数据相关联的元数据的请求，所述请求包括第二媒体数据；

23.权利要求22的方法，其中，所述第二媒体数据包括第一媒体数据的全部或一部分。

24.权利要求22的方法，其中，所述第二描述符与所述第一描述符的一部分或全部类似。

25.权利要求22的方法，其中，所述第一媒体数据包括视频。

26.权利要求22的方法，其中，所述第一媒体数据包括视频、音频、文本、图像、或其任何组合。

27.一种在信息载体中有形地体现的计算机程序产品，所述计算机程序产品包括指令，该指令可操作用于使数据处理装置：

接收第二媒体数据；

基于所述第二媒体数据生成第二描述符；

基于第二描述符和第一描述符的比较使元数据的至少一部分与第二媒体数据相关联。

28.一种媒体资产管理系统，包括：

通信模块，其用于接收第二媒体数据；

媒体指纹模块，其用于基于所述第二媒体数据生成第二描述符；

媒体指纹比较模块，其用于将所述第二描述符与第一描述符相比较，所述第一描述符与具有相关元数据的第一媒体数据相关联；以及

媒体元数据模块，其用于基于所述第二描述符和所述第一描述符的比较使所述元数据的至少一部分与所述第二媒体数据相关联。

29.权利要求28所述的系统，还包括：

视频帧转换模块，其用于确定与所述第二媒体数据相关联的一个或多个第二边界；以及

媒体指纹模块，其用于基于所述第二媒体数据和所述一个或多个第二边界生成一个或多个第二描述符。

30.权利要求29的系统，还包括媒体指纹比较模块以将所述一个或多个第二描述符与一个或多个第一描述符相比较，所述一个或多个第一描述符中的每一个第一描述符和与所述第一媒体数据相关联的一个或多个第一边界相关联。

31.权利要求29的系统，还包括所述视频帧转换模块以基于所述一个或多个第二边界将所述第二媒体数据分离成一个或多个第二媒体数据子部分。

32.权利要求29的系统，还包括所述媒体元数据模块以基于所述第二描述符与所述第一描述符的比较使所述元数据的至少一部分与所述一个或多个第二媒体数据子部分中的至少一个相关联。

33.权利要求28的系统，还包括：

通信模块，其用于接收第一媒体数据和与第一媒体数据相关联的元数据；以及

媒体指纹模块，其用于基于第一媒体数据生成第一描述符。

34.权利要求33的系统，还包括用于使元数据的至少一部分与第一描述符相关联的媒体元数据模块。

35.权利要求34的系统，还包括：

存储设备，其用于：

36.权利要求35的系统，还包括：

视频转换模块，其用于确定与第一媒体数据相关联的一个或多个第一边界；以及

媒体指纹模块，其用于基于所述第一媒体数据和所述一个或多个第一边界生成一个或多个第一描述符。

37.权利要求36的系统，还包括：

视频转换模块，其用于基于所述一个或多个第一边界将与第一媒体数据相关联的元数据分离成一个或多个元数据子部分；以及

媒体元数据模块，其用于基于所述一个或多个第一边界使所述一个或多个元数据子部分与所述一个或多个第一描述符相关联。

38.权利要求28的系统，还包括用于使所述元数据和所述第一描述符相关联的媒体元数据模块。

39.一种媒体资产管理系统，包括：

媒体指纹模块，其用于基于第二媒体数据生成第二描述符；

通信模块，其用于：

发送对与所述第二媒体数据相关联的元数据的请求，该请求包括所述第二描述符，以及

基于该请求接收元数据，该元数据与所述第一媒体数据的至少一部分相关联；以及

媒体元数据模块，其用于基于所述第二描述符和与第一媒体数据相关联的第一描述符的比较使元数据与所述第二媒体数据相关联。

40.一种媒体资产管理系统，包括：

通信模块，其用于：

发送对与第二媒体数据相关联的元数据的请求，该请求包括第二媒体数据，以及

基于该请求接收元数据，该元数据与第一媒体数据的至少一部分相关联；以及

媒体元数据模块，其用于基于所述第二描述符和与所述第一媒体数据相关联的第一描述符的比较使所述元数据与所述第二媒体数据相关联。

41.一种媒体资产管理系统，包括：

用于接收第二媒体数据的装置；

用于基于所述第二媒体数据生成第二描述符的装置；

用于将所述第二描述符和第一描述符相比较的装置，所述第一描述符与具有相关元数据的第一媒体数据相关联；以及

用于基于第二描述符和第一描述符的比较使元数据的至少一部分与第二媒体数据相关联的装置。