CN104126307A

CN104126307A - 用于改善的图像处理和内容传递的图像元数据创建

Info

Publication number: CN104126307A
Application number: CN201380009955.7A
Authority: CN
Inventors: T·昆凯尔; A·巴莱斯塔德; J·N·格德尔特
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2012-02-29
Filing date: 2013-02-26
Publication date: 2014-10-29
Anticipated expiration: 2033-02-26
Also published as: EP2820848B1; CN104126307B; WO2013130478A1; JP6248172B2; EP2820848A1; US20150007243A1; US9819974B2; JP2015517233A; JP2017068859A

Abstract

给出用于从图像集合创建元数据的媒体处理器的若干实施例。媒体处理器接收图像数据集合并且从图像数据计算元数据。元数据可以包括基于图像数据的统计数据；从其中媒体处理器可以生成并存储元数据的多尺度版本。元数据可以包括直接从图像数据中得出的统计属性或从图像数据的图像外观相关性中得出的统计属性。媒体处理器可以生成元数据的二次采样的集合并且二次采样的集合可以被存储在高效的数据结构中，诸如金字塔结构。金字塔结构可以从空间图像信息、从时间图像信息或从空间-时间图像信息中生成。

Description

用于改善的图像处理和内容传递的图像元数据创建

对相关申请的交叉引用

本申请要求2012年2月29日提交的美国临时专利申请序列号No.61/605,027的优先权，其通过引用全部合并于此。

技术领域

本发明涉及图像内容传递系统，并且更具体地涉及用于创建、验证和/或利用图像内容传递系统内的元数据的新颖的系统和方法。

背景技术

使用图像和/或视频数据流内的元数据以实现不同功能或改善性能是公知的。例如，以下给出共同拥有的专利申请：(1)在2011年2月10日公开的Bauer的、题为“ASSOCIATING INFORMATIONWITH MEDIA CONTENT”的美国专利公开号20110035382；(2)在2011年7月7日公开的Pahalawatta等的题为“CONVERSION OFINTERLEAVED DATA SETS，INCLUDING CHROMACORRECTION AND/OR CORRECTION OF CHECKERBOARDINTERLEAVED FORMATTED3D IMAGES”的美国专利公开号20110164113；(3)在2011年9月8日公开的Filippini等的、题为“MULTI-VIEW VIDEO FORMAT CONTROL”的美国专利公开号20110216162；(4)在2011年9月8日公开的Crockett的、题为“TECHNIQUES FOR CLIENT DEVICE DEPENDENTFILTERING OF METADATA”的美国专利公开号20110219097；(5)在2011年9月15日公开的Dougherty等的题为“APPLICATIONTRACKS IN AUDIO/VIDEO CONTAINERS”的美国专利公开号20110222835；以及(6)在2012年2月2日公开的Dougherty等的、题为“UNIFIED MEDIA CONTENT DIRECTORY SERVICES”的美国专利公开号20120030316；(7)在2012年2月16日公开的Messmer等的题为“VDR METADATA TIMESTAMP TO ENHANCE DATACOHERENCY AND POTENTIAL OF METADATA”的美国专利公开号20120038782，它们全部通过引用合并于此。

在媒体内容中收集图像统计量-以它的各种形式和格式(例如直方图、动差不变量、等等)–以实现处理被描述在共同拥有的：(1)在2011年9月8日公开的Radhakrishnan等的、题为“MEDIAFINGERPRINTS THAT RELIABLY CORRESPOND TO MEDIACONTENT WITH PROJECTION OF MOMENT INVARIANTS”的美国专利公开号20110216937('937公开)；(2)在2009年4月2日公开的Leontaris等的、题为“VIDEO COMPRESSION ANDTRANSMISSION TECHNIQUES”的美国专利公开号20090086816；(3)在2011年7月7日公开的Lu等的、题为“COMPLEXITYALLOCATION FOR VIDEO AND IMAGE CODINGAPPLICATIONS”的美国专利公开号20110164677；(4)在2012年2月2日公开的Ye等的、题为“ADAPTIVE INTERPOLATIONFILTERS FOR MULTI-LAYERED VIDEO DELIVERY”的美国专利公开号20120027079，它们全部通过引用合并于此。

发明内容

这里公开显示器系统和它们的制造和使用方法的几个实施例。

给出用于从图像和/或视频集合创建元数据的媒体处理器的若干实施例。媒体处理器接收图像数据的集合并且从图像数据计算元数据。元数据可以包括基于图像数据的统计数据；从其中媒体处理器可以生成并存储元数据的多尺度版本。元数据可以包括直接从图像数据中得出的统计属性，或统计属性在一些实施例中可以从图像数据的图像外观相互关系中得出。媒体处理器可以生成元数据的二次采样的集合并且二次采样的集合可以被存储在高效的数据结构中，诸如金字塔结构或多尺度结构。金字塔结构可以从空间图像信息、从时间图像信息或从空间-时间图像信息中生成。

在一个实施例中，媒体处理器还可以包括诸如DM处理器、DRM处理器、压缩处理器、TM处理器、CAM处理器或色域映射处理器之类的不同的处理器和/或处理功能。

下面在具体实施方式中结合在本申请之内呈现的附图呈现本系统的其它特征和优点。

附图说明

示范性实施例在附图的参考图中示出。这里公开的实施例和图预期被认为是说明性的而不是限制性的。

图1示出根据本申请的原理做出的数字数据、图像和/或视频管线系统的一个实施例。

图2示出根据本申请的原理做出的媒体处理器的一个可能实施例。

图3描述用于创建元数据和在高效数据结构中存储此类元数据的流程图的一个可能实施例。

图4描述从源图像和/或源视频数据中得出的元数据的集合。

图5描述具有时间关系的可能数据集合的范围，从该时间关系可以得出具有时间特性的元数据。

图6A至6D表示示范视频剪辑的图像分析。

图7A和7B表示从类似于图6A所示的一个视频剪辑得出的元数据的集合。

图8描述元数据可以被存储并访问的高效金字塔数据结构的一个实施例。

图9描述基于高斯差分计算统计量的另一个实施例。

图10描述可以与来自于另一个元数据结构中的元数据相比较使用的一个金字塔的元数据结构的使用的一个实施例。

图11描述可以用于改善的DM重放的视频图像元数据的使用。

图12描述可以用在编辑和/或恢复电影的视频图像元数据的使用。

具体实施方式

如这里使用的，术语“组件”、“系统”、“接口”等等是用来指代与计算机有关的实体、或者硬件、软件(例如，在运行中)、和/或固件。例如，组件可以是运行在处理器上的处理、处理器、对象、可运行程序、程序、和/或计算机。通过例示，运行在服务器上的应用和服务器都可以是组件。一个或多个组件可以存在于处理内并且组件可以被定位在计算机上和/或分布在两个或更多个计算机之间。组件也可以用来指代有关通信的实体、或者硬件、软件(例如，运行中)，和/或固件，并且还可以包括足够的有线或无线硬件以实现通信。

贯穿以下描述，阐述特定细节以便向本领域技术人员提供对本发明的更彻底的理解。但是，公知的元件可能不被示出或详细描述以避免不必要地模糊本公开。因此，说明书和附图应当被认为是说明性的，而不是限制的意义上的。

如这里使用的，术语‘动态范围’(DR)可以涉及人类感知系统(HVS)感知图像中强度(例如，发光度、亮度)的范围的能力，例如从最暗的暗到最亮的亮。在这种意义上讲，DR涉及‘针对场景的’强度。DR也可以涉及显示设备足够或近似呈现特定宽度的强度范围的能力。在这种意义上讲，DR涉及‘针对显示器的’强度。除非特定意义被明确地指定在这里的描述中任一点处具有特定意义，否则应当推断术语可以用在任何意义下，例如可互换地。

如这里使用的，术语高动态范围(HDR)涉及跨越人类视觉系统(HVS)的一些14-15个数量级的DR宽度。例如，具有基本上正常的(例如，在统计、生物统计学或眼科意义的一个或多个中)良好适应的人类具有跨越大约15个数量级的强度范围。适应的人类可以感知如仅仅少量光子一样少的暗光源。然而，前述的人类可以感知沙漠、大海或雪地区中的正午太阳的接近痛苦地灿烂的强度(甚至看一眼太阳，但是简短地以防止伤害)。此跨越尽管可以用到‘适应的’人类，例如，HVS具有其中复位并且调整的时间段的那些人类。

相反，人类可以同时感知强度范围中扩大的宽度的DR可以是某种意义上截短的，与HDR相比。如这里使用的，术语‘可见动态范围’或‘可变动态范围’(VDR)可以单独地或可互换地涉及由HVS同时可感知的DR。如这里使用的，VDR可以涉及跨越5-6个数量级的DR。因此虽然也许与真实的针对场景的HDR相比有点窄，但是VDR仍然代表广泛的DR宽度。如这里使用的，术语‘同时的动态范围’可以涉及VDR。

介绍

如在共同拥有的'937申请中所述，图像统计量可以从源图像数据中收集并且用于创建与源图像数据相关的媒体“指纹”。但是，“指纹”的使用通常需要变更源数据的视频材料的操作。这是从源图像数据创建元数据以实现处理的图像统计量的一个公知的使用。本申请描述新颖的方式、使用-以及系统-用于从源数据的统计分析创建元数据(不变更源数据)以实现各种应用。另外，本申请采用此基于统计的元数据的高效存储和使用，以允许鲁棒的功能和使用集合。

图1描述根据本申请的原理做出的数字数据、图像和/或视频管线系统100的一个实施例。此发明可以潜在地适配在软件产品中以帮助改善其它成像算法的效率。管线100可以包括输入媒体处理器102，其可以将现有图像、视频、元数据(或图像、视频和/或元数据的混合)或其它数字数据(例如源数据)作为输入并且计算与源数据相关联的元数据集合，如将这里进一步讨论的。

此类数据和元数据可以被流化、通信(以有线或无线的方式)和/或否则发送给可以将源数据和/或源数据和元数据(或者以一些方式组合的、或者分开发送的)作为输入的媒体处理器104。数据和元数据的其他源可以经由通信路径方式106对媒体处理器104可用-其也可以包括数据库，或本地或在云上或经由诸如互联网之类的网络使得可用。如将在下面更详细描述的，此通信路径106可以是媒体处理器104与可以将数据和/或元数据发送到适合于在其上呈现图像的显示器110等的编解码处理器108(或链路中其他适当的处理器)通过和/或之间的信息流。应当理解，可以存在沿上下管线或者诸如106之类的其它数据路径互相发送和接收数据和元数据流的无限数目的媒体处理器(没有描述)。

将理解，用于本申请的目的的任何适当管线可以具有用于在适当的媒体处理器与编解码器或视频处理器之间的中间处理和/或通信的多个其它处理器(未示出)。也将理解虚线112可以指示例如从视频管线的消费者方开始在视频管线的制作方、广播和/或分布方之间的假想划分。在一些实施例中，这也可以将一个消费者连接到另一个消费者。对于仅仅少数示例，视频会议、社交网络图像设置转移(例如‘冷’图像预设与其它的自动共享)可以是用于本申请应用的其它环境。

图2示出对本申请的目的可能充分的媒体处理器104的一个可能的实施例。媒体处理器104可以从另一个处理器或来自于通信路径106输入如先前讨论的数据和/或元数据。在任何情况下，源图像和/或视频数据或源数据与元数据的组合由媒体处理器104接收。此类数据集合可以被输入到元数据处理器202中-或者直接如图所示或者间接地经由另一个系统架构。除了接收现有元数据之外，媒体处理器可以计算许多图像、视频和数据流有关的统计量。此新计算的元数据可以或者用于验证来自于以上描述的源中的一个的现有元数据和/或被移交到其它应用、到其它媒体处理器104或者到通信路径106。

如现在将讨论的，根据数据/元数据的应用，可以可选地存在其它系统架构块。这些其它架构块可以实现数据/元数据的一个或多个可能的处理。在一个实施例中，一个处理器块-例如元数据处理器202-可以计算统计量并与其它处理块共享可能被其它块和/或其它整个媒体处理器期望的它计算的统计量。用这种方式，统计量可以被计算仅仅一次而不是多次-也就是说，例如用于DRM和TM模块。另外，媒体处理器202可以包括至少一个其它处理器。

一个可能的块可以是DM(显示器管理)处理器204。DM处理器可以获得可以实现在下游媒体处理器或显示设备处呈现图像和/或视频数据的源数据和/或元数据。例如，DM处理器204可以包括实现色调映射(TM)；颜色外观(CAM)和/或图像外观；和/或色域映射的模块和/或方法。此类色调映射和DM处理的方法可以参见以下共同拥有的申请：(1)在2012年2月2日公开的Atkins等的题为“SYSTEM AND METHOD OF CREATING OR APPROVINGMULTIPLE VIDEO STREAMS”的美国专利公开号20120026405；(2)在2011年8月11日公开的WARD的题为“REPRESENTINGAND RECONSTRUCTING HIGH DYNAMIC RANGE IMAGES的美国专利公开号20110194758；(3)在2011年8月11日公开的Gish等的题为“COMPATIBLE COMPRESSION OF HIGH DYNAMICRANGE，VISUAL DYNAMIC RANGE，AND WIDE COLORGAMUT VIDEO”美国专利公开号20110194618；(4)在2010年8月19日公开的Banterle等的题为“APPARATUS AND METHODSFOR BOOSTING DYNAMIC RANGE IN DIGITAL IMAGES”的美国专利公开号20100208143；(5)在2011年12月15日公开的Kunkel等的题为“IMAGE PROCESSING AND DISPLAYING METHODSFOR DEVICES THAT IMPLEMENT COLOR APPEARANCEMODELS”的美国专利公开号20110305391；(6)在2010年9月16日公开的Kang的题为“ARTIFACT MITIGATION METHOD ANDAPPARATUS FOR IMAGES GENERATED USING THREEDIMENSIONAL COLOR SYNTHESIS”的美国专利公开号20100231603-它们全部通过引用合并于此。

另一个可能的块可以是压缩处理器208。此类压缩处理器208可以以压缩算法可以以优化方式减小用于流化或分布的带宽的方式结合来自于元数据处理器202中的元数据获取源数据。此类元数据可以例如是输入环境或照相机的能力的描述。又一个处理器可以是数字权限管理(DRM)处理器210，其例如使用由元数据处理器202发送和/或计算的基于源数据的元数据并且计算相关的元数据和/或图像统计量，其唯一地标识可以由观看者或例如内容提供器(经由路径106)的第三方请求的源图像和/或视频数据。此类唯一标识可以用来根据版权、许可、地理等确定请求的观看者是否具有对数据(或观看图像和/或视频)的权限。又一个可能的块可以是附加和/或任意的处理器212，帮助实现其它处理器块的处理。附加处理器的一个可能的使用可以用于与社交网络(例如Facebook、Twitter、等等)对接。元数据可以用来高效地识别和/或与“朋友”或其它感兴趣的个人“共享”媒体。一旦适当的元数据已被创建、存储或否则管理，媒体处理器就可以将源和/或元数据输出到视频管线中，诸如先前描述的一个。应当理解这些处理器块-例如压缩处理器、DM处理器、DRM处理器等可以被单独地实施或者可以在单个处理器(具有专用物理电路或者由不同的固件利用公用电路系统)上实施。

元数据使用和创建

相关元数据的使用可以对终端用户实现大范围功能。例如，在视频流中的元数据的可用性可以对帮助优化电影或视频的图像逼真度非常有用处。可替换地，适当的元数据可以被用于创建和/或执行数字权限管理(DRM)。但是，可能发生此元数据流是截断的，因此让内容提供者无法为特定用户定制视频流、或识别所讨论的特定内容。在一个实施例中，可以出于此类各种原因分析消费者端点处的视频流-例如，(1)根据显示管理(DM)算法调整它以用于改善图像逼真度；(2)比较该数据与可用联机数据库以用于有效的“元数据恢复”；(3)比较从内容得出的元数据与联机数据库以用于有效的DRM管理(其可能例如由内容提供者/工作室提供)；或(4)验证接收到的、已经存在的元数据基本上是一致的并且与源数据相互关联。这些方法可以采用元数据“标志器”。对于仅仅一个示例，错误的或不正确的元数据有时可以被随着根本不符合或非常大不可能是正确的视频流一起提交-例如，元数据可能陈述Canon照相机与Nikon镜头组合使用-这是可能的，但是非常不太可能。

如还将讨论的，此类标志器可以是直接从内容得出的“统计属性”-或此类内容的衍生物(例如，“图像外观相关性，“诸如亮度、色度、色彩度、色调、等等)-其当被组合时，可以高度确定地标识-或描述内容的行为。这些标志器的示例可以包括，但是不局限于：(1)统计动差(例如，平均值、方差、偏斜、峰度等等)；(2)最小和最大值；(3)由例如，直方图、图像金字塔、边缘和梯度或傅里叶分析或其它多尺度方法获得的关于内容的空间信息；以及(4)帧率、分辨率和位深度。应当理解，统计量可以被采用在任何源数据或它的衍生物(例如，边缘、色彩空间转换、CAM、时间线、立体深度(z值))或此源数据或它的衍生物的多尺度版本上。因此，例如，可以在源图像衍生物‘色度’上具有多尺度金字塔。

一旦内容被识别或描述，可以标识许多使用：改善的显示管理、增强的分辨率或位深度、DRM相关的问题是明显的示例，但是标志器也可以用于消费者观看习惯的统计分析，基于内容类型、一天的时间和季节习惯。

图3描述用于此类高效元数据的创建的概括的流程图的一个实施例。应当理解，根据元数据的特定使用，在此流程图300上将有差别和/或细化。从图像(和/或源数据)302开始，可以识别数据中的各种属性。块304给出可以从中得出图像统计量的仅仅几个类型的属性。在这些属性当中，存在：外观相关性(例如亮度、色度、和色调)、边缘、梯度、傅里叶空间频率分析(用于，例如空间频率或其它度量)。

除了基于源数据的数据之外，其它数据可以用在元数据的创建中。例如，可以使用关于目标显示器的信息。此类目标显示器值可以包括：使用什么显示器和它的规范、它的最大值和/或最小亮度、对比度、伽马值和色域。也可以使用其它目标显示器分割和值，诸如显示器的环境的描述。另外，可能使用源环境的元数据描述符。例如，此类元数据可以包括关于电影集合、或分级室环境、或分级显示器(其可以是DM模块可能感兴趣的)的规范的信息。

显示器管理元数据器

图4描述一个元数据管线400–可来源于源图像和/或视频数据402。源数据402可以被分析-例如，如果图像数据则为帧，并且如果视频数据则为逐帧-以提取诸如亮度、色度和色调之类的若干度量的数据(404)。由此数据，可以以各种格式创建各个直方图406-例如，全局直方图或行/列直方图。可替换地，输入图像或视频可以被空间二次采样(例如，多尺度方法)，后面是用于每个尺度层的步骤404和406。应当理解，依照要求可以得出直方图元数据的其它格式。

除了基于空间关系的元数据之外，其它形式的元数据可以被创建，即基于时间关系或空间和时间关系的组合。图5描述从其中可以得出元数据的可能数据集的范围-其中在它的推导(从左至右)中考虑增加的时间数据量。在最右边末尾处，各个帧可以被检查元数据。当然，在单个时间点处采取单个帧-这样，时间数据基本上是零。在一个实施例中，使得每个帧在特定积分时间内捕获光子(例如对于每个帧一秒的1/60)。在摄影中，此信息可以被呈现在EXIF文件中。当前，虽这不通常可用于电影，但是此类信息可以在将来可用。积分时间也能够表明捕获的真实场景是亮的还是暗的。

接下来，可以分析图片组(GOP)(也许图像数据的5-10个帧)，然后具有更多帧的场景(但是也许共享大量常见的亮度、色度和色调)，然后电影内的章节，然后整个电影。这也可以由多尺度方法实现。

在若干电影上，可以在计算的元数据中辨别导演风格。在类似主题的图片中涉及的若干导演中，元数据可以能够辨别类型风格的模式(例如，吸血鬼电影倾向于低亮度、高对比度、低色度等)。应当理解，如果考虑适当的度量，则时间元数据可以是期望的。

为了示出这里描述的一些实施例，图6A是模拟飞行到星系空间中的视频剪辑的表示。此特定剪辑可以包括数百(例如超过500)个视频帧。图6B、6C和6D分别表示明度、色度和色调数据的分析(随时间并且每个帧)。更具体地，图6B、6C和6D的每一个可以沿X轴移动被逐帧读出。在任何给定x坐标(即在给定帧)处，示出度量的最大值、最小值和平均值。随着眼睛左到右扫描，观看者可以获得视频如何随注意演进的视频而变的感觉。另外，输入视频帧可以在分析之前被二次采样(例如，在多尺度方法中)。同时，时间线可以被二次采样(例如，在多尺度方法中)。这可以导致组合的空间和时间多尺度方法。

根据由图像计算的统计量，图像处理不影响识别能力，例如由颜色分级引起的(例如，可以使用贝叶斯统计比较内容与参考内容)。图7A和7B示出了相同视频剪辑的VDR(即，可见动态范围，或一些其它增强的和/或增加的动态范围)与SDR(即，如标准的动态范围)级别之间的统计相似性。图7A和7B示出由例如可以在图6A中类似描述的模拟飞行的两个不同的级别得出的两组元数据。图7A从在具有4000cd/m²最大能力(最小0.01cd/m²)的监控器上的分级得出，并且图7B从具有120cd/m²最大功率(最小0.005cd/m²)的CRT模式的监控器上的分级得出。在每个帧处(例如帧100)，指示帧的最大和最小亮度，连同该帧内的平均亮度。应当理解，虽然动态范围和因此级别是不同的，但是存在相同视频的两个不同级别之间的统计相关性。

高效的元数据结构

从关于源数据、目标显示器或两者的一些组合的属性的此集合中，可以创建元数据。此元数据可以依赖于一些可能的图像统计量。例如，明度、色度和/或色调的直方图曲线可以用来得出元数据。在308处，此元数据(可能连同源数据一起)可以被采样和/或二次采样以被存储到高效的存储器或数据结构中。仅仅举一个示例，元数据和/或数据可以被存储在金字塔结构中-如以下中所述(1)P.J.BURT和E.H.ADELSON:The Laplacian Pyramid as a Compact Image Code.IEEE Transactions on Communications，Vol.COM-3I，No.4，1983年4月或(2)E.H.Adelson，C.H.Anderson，J.R.Bergen，P.J.Burt，J.M.Ogden：Pyramid methods in image processing.RCA Engineer，29(6),1984年11月/12月。

图8描述此类金字塔结构800，其基于在图像的X和Y轴上的多层空间二次采样。可以看出，在处理中，原始图像可以是基本层-层G₀。向上移动处理步骤，每个新的层(例如层G₁...层G_n)表示从其中可以恢复下层的编码级别。利用此类空间图像金字塔，可以计算用于不同空间频率的图像统计量。

附加选项是基于‘高斯差分’(DoG)图像(空间频率带通)计算统计量。图9表示利用DoG编码构成的一个此类金字塔。顶部图像表示利用DoG金字塔逐渐地重构图像。

先前提到的统计和空间分析也可以以多维的图像金字塔的形式结合。除了利用空间信息的金字塔(例如，图8)之外，可以建立诸如空间频率分布、外观相关性(明度、色度、和色调，例如，图4)和行和列直方图(也在图4中)之类的其它图像参数的(和从其中建立)直方图金字塔。此方法也可以被在时间尺度上扩展，其中金字塔可以包括描述用于整个电影、章节、场景、块和单个帧(例如图5)的统计量的级别。在图6中描述随时间显示最小、平均和最大外观相关性的示例场景。

图10描述元数据的高效金字塔结构的使用-在DRM应用的上下文中。假定传统源电影的集合先前已被分析用于它的相关统计特征并且存储在图10的金字塔1中。如果观察者/用户正在观看视频数据流(例如测试图像数据的集合)，则此类统计量可以被在运行时计算并且存储在它自己的相关结构中-例如，金字塔2。当金字塔2正在被建立和/或填充时，将可以比较那个金字塔(或它的一部分，因为它可以被随时间建立和/或填充)与先前存储的金字塔的数据库。如在图10中描述的-并且假定视频流基本上是创建金字塔1和2的相同的(例如，容忍可能不同的版本或降级的视频内容，如下面还讨论的)，则如果金字塔2是在层1处对金字塔1的适度良好的匹配，则匹配的置信度可以开始被估计(例如10％的匹配概率)。因为附加层被计算用于金字塔2并且与金字塔1匹配，可见用于匹配的置信度级别可以在仅仅少数层之后基本上上升。如果匹配具有特定阈值内的置信度，则系统可以决定用户是否拥有观看此类流的权限(根据用户的国家或地理等的许可、地方性法律等)。在很多情况下，在所有金字塔步骤已被计算并且比较之前可以达到置信度阈值-因此，可能减小用于此实施例的计算和成本。图10示出了此可能性-例如，在此金字塔的4层处可以达到99.99％阈值。

这类高效的元数据存储器的其它使用可以是可能的。例如，如果做出视频内容的匹配，则元数据可以被用于DM重放调整。如提到的，此类重放调整也可以考虑观看者的显示器的规范和参数。图11描述DM处理的一个实施例。在图11的左手边1102，用于源视频文件的元数据被计算用于亮度、色域和/或动态对比度。图11的右手边1104描述用于类似规范的目标显示器(例如TV、计算机监控器、电影屏幕等)的性能范围和/或限制，例如动态范围、色域、亮度等。在一个实施例中，三个实线(如1106描述的)给出源数据的低到高中范围(或全局统计平均)的映射，如映射到目标显示器的基本上所有性能范围。这可以是期望的，例如，如果正在呈现的场景不利用非常明亮的图像。但是，在视频流的不同部分或部分期间，可能有非常明亮的场景(如在三个虚线1108中描述的)。在这种情况下，源数据的高到中范围可以被映射到目标显示器的基本上所有性能范围。将理解，将源图像数据呈现到目标显示器的性能范围上的这些模式可以是动态的-取决于图像和/或场景分析。

让这些统计量允许系统和/或管线调整视频内容的重放以被最佳重新映射到具有不同映射属性的新的目标图像管线中或到在图11描述的目标显示器上。在这里，提供扩展动态范围的输入材料，例如由于在专业演播室监视器1102上分级的颜色提供被映射到标准的(例如消费者)显示设备1104的大范围可能性。由元数据处理器202计算的统计量提供的元数据现在可以用于做出使用诸如1106(其中重点在源的较暗的图像区域上)或者1108(其中强调小的高光区域)之类的映射策略的判定。当然，这可以不被限制到动态范围压缩。这样的策略也可以应用于色域映射策略。

影片编辑和恢复

这类高效元数据存储和/或建模的另一个可能使用可以在影片编辑和/或恢复领域中。图12描述编辑和/或恢复的一个实施例。仅仅用于解释原因，假定电影的最终剪辑1206最初从三卷1、2和3(即，分别为1204a、1204b和1204c)编辑。进一步假定卷1的一些部分用于创建最后版本1206中的开始序列，卷2的一些部分用于创建最终剪辑中的中间序列，并且卷3的一些部分用于创建最终剪辑的结尾。可以进一步假定一些年过去并且“原版”最终剪辑可能变得丢失或随时间退化-但是一些版本(也许在VHS上)是可用的。此外，假定卷1、2和3可以存在-并且期望从可以反映原始最终剪辑的一些源材料创建高质量的最终剪辑。

在这种情况下，统计量可以才源材料(例如，从卷1、2和3)计算-或者在最终剪辑释放之前、或者此后任何时间。此外，相同的统计量集合可以被计算用于可用的“最终剪辑”。这些统计量将有助于识别进入最终剪辑的源材料的帧。当期望再创建最终剪辑(或它的变体)时，统计量可以用来比较最终剪辑的一些版本与源材料。

在一个实施例中，可以如在图12中给出示例工作流程。方框1202可以描述利用编辑决策列表(EDL)1206从源卷(1204a到c)到最后剪辑1208的典型的编辑处理。通常，多个最终剪辑可以被创建-例如，用于不同的市场或地理区域。如果此编辑处理已经过去很久(例如十年之前)，则EDL通常是不再可用的。但是，电影卷通常被存档。现在，在分布(1210)之后的最终剪辑以及出自存档库的电影卷(1204a到c)可以利用在本申请中描述的方法被统计地分析-例如，通过利用示出的金字塔方法(如在图10可能所示的)。一个目标可以是识别呈现的最终剪辑1210上的匹配帧和出自存档库的电影卷1204a到c以获得匹配原始EDL1206的重构的EDL1214。这仍然可以是可能的，即使现有最终剪辑已退化(例如，如果它仅仅呈现在模拟视频带上)。来自于存档库中的卷现在可以利用重构的EDL被重新剪辑(1216a到c)，例如以高清晰度和/或高动态范围版本。

故障或错误容忍处理

此外，如果整个电影是在流化(或由用户观看)之前是计算可访问的，则统计量应当非常稳固。但是，即使视频将要被广播到用户或用户的集合，分类器的置信度也应当在短时间段内增加，允许当前帧或场景的可靠的识别。

利用统计方法的附加益处是帧可以被识别-甚至当电影或场景被不同地剪辑(例如对于不同国家或市场)时。这是其中金字塔结构将对识别可替换剪辑有用。这可以例如通过比较金字塔的每个维度的不同级别执行并且识别在何处偏离彼此。这允许‘自动导航’到变化。

在本申请的一个实施例中，系统也应当是稳固的，其中仅仅SDR流可用并且确定重构完整的VDR流将需要的遗漏的图像部分。为此所需的数据量(VDR-SDR＝要被传输的信息)可能小于发送完整VDR流并且可能因此例如被经由移动互联网连接传输。在另一个实施例中，可以创建观看者已经拥有的DVD的运行时的VDR版本-用于完整视频的计算和存储(并且可能实际，按美元计，或一些其它的货币单位)成本的一小部分。因为视频中每个帧的位置是潜在已知的，所以此方法也应当相对于在不同国家的不同剪辑或电影版本是稳固的。基于所有这些信息，我们可以计算基于误差统计量的分类器。除识别各个帧之外，此信息也可以被例如与联机数据库比较。此数据库可以例如用于识别消费者的观看偏好(例如识别哪些媒体、语言版本、剪辑、VDR/SDR、分级)。

现在已经给出了与示出了本发明的原理的附图一起阅读的本发明的一个或多个实施例的详细描述。将要理解，本发明是参考这样的实施例描述的，但是本发明不局限于任何实施例。本发明的范围仅仅由权利要求书限定并且本发明涵盖许多替换、修改和等效。在此说明书中已经阐述了许多细节以便提供对本发明彻底的理解。这些细节是为了示例的目的提供的，并且本发明可以在没有这些细节中的一些或全部的情况下根据权利要求书而实践。为了清楚，在与本发明有关的技术领域中已知的技术材料没有被详细描述以使得本发明不被不必要地模糊。

Claims

1.一种媒体处理器，用于从图像集合创建元数据，所述系统包括：

用于第一数据集合的输入，所述第一数据集合还包括一个组中的一个，所述组包括：图像数据、元数据和图像数据/元数据；

元数据处理器，所述元数据处理器能够接收所述第一数据集合，所述元数据处理器能够从所述图像数据集合计算元数据集合，所述元数据集合包括基于所述第一数据集合的统计数据；以及

其中所述元数据处理器还能够生成并存储所述元数据集合的多尺度版本。

2.如权利要求1所述的媒体处理器，其中所述元数据集合还包括一个集合中的至少一个，所述集合包括：直接从所述第一数据集合得出的统计属性和从所述第一数据集合的图像外观相关性得出的统计属性。

3.如权利要求2所述的媒体处理器，其中所述统计属性还包括一个组中的至少一个：所述组包括：平均值、方差、偏斜、峰度、统计动差、直方图、图像金字塔、边缘、梯度、帧率、分辨率和位深度。

4.如权利要求1所述的媒体处理器，其中所述多尺度版本包括所述元数据集合的二次采样的集合，其中所述元数据集合的所述二次采样的集合存储在高效的数据结构中。

5.如权利要求4所述的媒体处理器，其中所述高效的数据结构包括一个组中的一个，所述组包括：金字塔结构和多尺度结构。

6.如权利要求5所述的媒体处理器，其中所述金字塔结构包括一个组中的一个，所述组包括：从空间图像信息得出的数据的金字塔、从时间图像信息得出的数据的金字塔和从空间-时间图像信息得出的金字塔。

7.如权利要求6所述的媒体处理器，所述媒体处理器还包括一个组中的一个，所述组包括：DM处理器、DRM处理器、压缩处理器、TM处理器、CAM处理器、色域映射处理器。

8.一种针对从传统的图像数据集合编译的第一统计量集合得出的第一金字塔结构执行测试图像数据集合的DRM处理的方法，所述方法的步骤包括：

随时间从所述测试图像数据计算第一统计量集合；

随时间从来自于所述测试图像数据的所述第一统计量集合得出测试金字塔结构；

比较所述测试金字塔结构的一部分与所述第一金字塔结构；

测试来自于所述比较一部分的步骤的匹配条件；以及

当所述测试步骤确定给定阈值内的匹配时，返回匹配条件。

9.如权利要求8所述的方法，其中所述执行DRM处理的方法包括用于确定所述测试图像数据所属于的源电影的身份的方法。

10.一种执行要被在目标显示器上呈现的图像数据集合的DM处理的方法，所述目标显示器包括显示器规范集合，所述方法的步骤包括：

随时间从所述图像数据计算第一统计量集合；

比较所述第一统计量集合的所述一部分与所述显示器规范；

测试用于所述第一统计量集合的所述部分与所述显示器规范的匹配条件；以及

在所述显示器上呈现所述图像数据的所述部分，所述显示器包括所述显示器规范。

11.如权利要求10所述的方法，其中所述计算所述第一统计量集合的步骤包括：随时间计算所述图像数据的组中的一个，所述组包括：动态范围和色域。

12.如权利要求11所述的方法，其中所述显示器规范集合包括一个组中的一个，所述组包括：所述显示器的动态范围和所述显示器的色域。

13.如权利要求12所述的方法，其中所述测试的步骤还包括测试一个组中的一个的匹配，所述组包括：具有所述显示器的动态范围的场景的视频的动态范围和具有所述显示器的色域的场景的视频的色域。

14.如权利要求13所述的方法，其中在视频的动态范围处的所述场景被在所述显示器上呈现。

15.一种恢复电影的原版剪辑的方法，所述电影从源卷集合和退化的版本得出；所述方法的步骤包括：

从所述源卷计算统计量集合；

从所述退化的版本计算统计量集合；

从包括来自于所述退化的版本中的帧的所述源卷中识别帧；

从来自于所述识别的源卷中的帧创建所述电影的原版剪辑。

16.如权利要求15所述的方法，其中所述创建所述电影的原版剪辑的步骤还包括创建用于所述原版剪辑的EDL。