CN104853244A

CN104853244A - 用于管理音视频、音频或视频内容的方法和装置

Info

Publication number: CN104853244A
Application number: CN201510082228.4A
Authority: CN
Inventors: 乔纳森·迪金斯
Original assignee: Snell Ltd
Current assignee: Snell Advanced Media Ltd; Grass Valley Ltd
Priority date: 2014-02-17
Filing date: 2015-02-15
Publication date: 2015-08-19
Anticipated expiration: 2035-02-15
Also published as: CN110443108A; US20170188091A1; GB2523311B; EP2908269A3; GB2523311A; US20150237341A1; GB201402775D0; US20190191213A1; CN104853244B; EP2908269A2; US10893323B2; US10219033B2

Abstract

本发明涉及用于管理音视频、音频或视频内容的方法和装置。为了管理音视频内容，在指纹生成器中推导指纹流并且在与指纹生成器物理上分离的指纹处理器处接收指纹流。通过以下过程来生成元数据：处理指纹以检测音频指纹的低值的持续出现，从而生成指示无声的元数据；比较时间上相继的指纹值之间的差异模式与电影节奏的预期模式以生成指示电影节奏的元数据；以及比较时间上相继的指纹值之间的差异与阈值以生成指示静止图像或停帧的元数据。

Description

用于管理音视频、音频或视频内容的方法和装置

技术领域

本发明涉及对音频、视频或者音视频内容的自动监控或者其他管理。

背景技术

典型广播设备输出到地面、卫星和电缆发布系统的非常大量的“信道”不能被人类观众和听众进行经济监控。并且，当从内容提供商接收的诸如电影、电视节目和广告的音视频内容在“被吸收”到广播设备的数字存储系统中时，人类操作员不能总是检查该音视频内容与技术标准的符合性。由查找缺陷和与标准的不符合性的一个人来检查的历史实践对现代数字广播设备来说不再是经济的，或者甚至不再是可行的。

这些发展已经引起用于音视频内容的自动化质量检查(QC)和监控系统的很大进展。典型的QC和监控设备使用识别内容的诸如以下内容的特定特征的各种不同算法来分析音视频数据：

·音频动态范围

·无声或者黑屏的时段的持续时间

·存在字幕

·存在测试信号

·视频宽高比和在视频帧的边缘处存在或不存在“黑条”

·音频与视频同步

该分析结果可以被存储为与音视频内容相关联的“元数据”；或者，其可以在检测发布的内容的缺陷并向操作员报警的监控系统中进行使用，或者自动地对信号路由等做出改变以纠正缺陷。

典型的QC和监控处理是复杂的，并且产生的元数据量很大。因此QC设备通常放置在发布或者处理系统中的仅少数点处，也许仅放置在系统的输入点和输出点。

发明内容

本发明的某些实施方式的目的是提供用于对音频、视频或者音视频内容的自动监控或者其他管理的改进方法和装置。

本发明利用了音视频内容制作和发布领域中的另一个发展范围的优势，其为处理音频和视频内容以形成以非常少量的数据描述内容的一些特征的“签名”或“指纹”。通常这些签名或者指纹与内容中的一些时间位置或者片段(诸如视频帧)相关联，并且使内容流之间的相对定时能被测量；以及，发布网络中的不同点处的内容等效性得到确认。在本说明书的其余部分，术语指纹将被用来描述这种数据类型。

在指纹之间进行区分是重要的，所述区分主要是针对内容标识和音频与视频同步，以及与音视频数据相关联的辅助数据。辅助数据通常将含有源自于QC过程的数据，并且可以用与携带指纹数据的方式相类似的方式来一同携带音频和视频数据及辅助数据。然而，辅助数据直接对元数据编码，并且通常可以通过简单的解复用和解码来提取。

在指纹和压缩图像之间进行区分同样是重要的。尽管可以通过不可逆的有损编码过程来产生压缩图像，但是压缩图像保持了图像并且可以经由合适的解码过程来转换成看得见的形式。却不能通过任何已知的过程来将指纹转换成看得见的图像。

指纹生成设备通常是简单的、便宜的并且放置在发布或处理系统中的许多点处。

本发明在一个方面包含用于从多个指纹推断元数据的方法和装置，所述多个指纹通过不可逆的数据简化过程从特定的音视频、音频或者视频内容流内的各自的时间区域中推导出，其中所述元数据不是直接以指纹进行编码的并且多个指纹是经由通信网络从与推断过程物理分离的指纹生成器接收到的。

在第一实施方式中，在分类机中将指纹流的特征与特定的音视频内容类型的预期特征进行比较，并且所推断的元数据识别从中推导出指纹的内容类型。

合适地方法是，将指纹值的流转换到频域，并且将产生的频域分量与特定的音视频内容类型的预期频率分量进行比较。

此外，对指纹值的流窗口化并且将特定的指纹值或者指纹值范围的出现频率与预期的特定音视频内容类型的出现频率进行比较。

在第二实施方式中，检测了空间视频指纹的特定值的持续出现，并且与一个或者多个预期图像的一个或者多个预期值进行比较以便生成指示特定的预期图像的存在的元数据。

在第三实施方式中，检测音频指纹的低值的持续出现并且生成指示无声的元数据。

在第四实施方式中，将时间上相继的视频指纹的值之间的差异模式与电影节奏的预期模式进行比较，并且生成指示电影节奏的元数据。

附图说明

图1示出了根据本发明的实施方式的示例性系统。

图2示出了根据本发明的实施方式的元数据处理器。

图3示出了视频时间指纹值的序列，从该序列中可识别镜头变化的位置。

图4示出了视频时间指纹值的序列的三个实例，从这些序列中可识别电影节奏。

图5示出了根据本发明的替代实施方式的元数据处理器。

图6示出了根据本发明的另一个替代实施方式的元数据处理器。

具体实施方式

图1中示出了根据本发明的实施方式的系统。音视频数据流(1)被输入到音视频内容发布系统中的一个点处的指纹生成器(2)。指纹生成器(2)输出描述音视频数据流(1)的指纹流(3)。指纹流(3)可以描述音视频数据流(1)的音频或视频元素，但是通常将含有涉及音频和视频元素两者的信息。

指纹流(3)包括指纹序列，其中该序列的每个元素涉及数据流(1)中的不同的时间位置。通常，每个指纹的视频元素源自于不同的视频数据帧；并且，每个指纹的音频元素源自于不同的音频样本集合。指纹流(3)的数据速率比音视频数据流(1)的数据速率小很多。通常，指纹流(3)的音频分量具有150字节/秒左右的数据速率，并且指纹流(3)的视频分量具有500字节/秒左右的数据速率。从音视频数据推导指纹是一个不可逆的过程；从指纹重新构建音视频数据是不可能的。指纹可以被考虑为音视频数据的哈希函数，使得不同音视频数据将极不可能给出相同的指纹。

存在从音频和视频中推导出指纹的许多已知方法。国际专利申请WO 2009/104022(其在此通过引用被并入)描述了可以如何从音频样本流中推导出音频指纹，并且可以如何从视频帧中推导出空间和时间视频指纹。定义音频指纹和视频指纹的用于建立音频流和视频流之间的时间同步的标准正在形成当中。

参考图1，指纹流(3)被输入到指纹处理器(4)并且在下文进一步被描述，其中指纹处理器(4)从指纹流(3)中推导出元数据(5)。

在内容发布系统的另一个地方，不与第一音视频流(1)相关的第二音视频数据流(6)被输入到第二指纹处理器(7)，第二指纹处理器(7)从第二音视频数据流(6)生成第二指纹流(8)。第二指纹流也被路由到指纹处理器(4)。来自音视频内容制作和发布过程中的不同点的其他不相关的音频流、视频流或音视频流可以被指纹化，并且结果被路由到指纹处理器(4)。例如，描述音视频数据流(9)的指纹流(10)被示出为进一步输入到指纹处理器(4)。由于指纹包括少量的数据，故可以通过低带宽链路将各自的指纹流传送到指纹处理器(4)；例如，可以使用窄带互联网连接。

从元数据处理器(4)输出的元数据(5)包括描绘第一音视频流(1)和第二音视频流(6)以及其各自的指纹流被输入到元数据处理器(4)的任何其它音视频流的元数据。通常，指纹处理器(4)将位于中央监控位置，并且其输出元数据(5)将被输入到手动或自动控制系统，该手动或自动控制系统力求保持音视频内容制作和发布系统的正确操作。

图2中示出了元数据处理器(4)对其输入指纹流之一执行的操作。输入指纹流(200)包括与音视频数据流中的时间位置序列相关的空间视频指纹数据、时间视频指纹数据、以及音频指纹数据，从所述音视频数据流推导出输入指纹流(200)。通常，该时间位置序列对应于交错的视频流的场或者渐进的视频流的帧。在下面的描述中，假设指纹是被输入用于音视频序列的每个场。

分离器(201)分离出指纹流(200)的每个输入指纹的三个分量。分离的空间视频指纹流(202)包括每个视频场的一组区域的各自的像素值总和。其被输入到黑探测器(205)，该黑探测器(205)将值与阈值进行比较并且检测在几个连续场的所有区域中低值的同时出现。当检测到该情况时，黑元数据分量(211)被输出给监控过程。

所分离的空间视频指纹流(202)还被输入到测试信号检测器(206)，其检测每个视频场中的一组区域的持续的一组像素值总和的值。测试信号检测器(206)将指纹序列(202)的每个指纹内含有的区域性的像素值总和与先前推导出的已知测试信号的区域性像素值总和进行比较。比较结果与一个或者多个阈值比较以确定指纹中的值与已知测试信号的各自的值的接近等效。如果在连续的指纹序列中发现一组值密切对应于特定的已知测试信号(例如彩条)的值，则输出识别特定测试信号的存在的测试信号元数据分量(212)。

所分离的时间视频指纹流(203)被输入到静止图像检测器(207)。所分离的时间视频指纹流(203)通常包括每个视频场内的一组区域的像素值总和之间的场间差异的度量。一个实例是对帧内的一组区域的在当前场和先前场之间评估的场间差异的和的求和。如果指纹含有帧间差值，或者如果帧间差异可以从指纹中推导出，则其被使用。如果在连续的指纹序列中发现持续的低值场间或帧间差异度量，则输出识别没有运动的静止图像元数据分量(213)。

所分离的时间视频指纹流(203)还被输入到镜头变化检测器(208)，镜头变化检测器(208)通过将指纹与其紧邻的前一指纹及后一指纹之间的各自的值差异与阈值进行比较来识别时间视频指纹的孤立的高值。如果场的时间指纹明显大于之前和之后的场的相应指纹，则该场被识别为新镜头的第一场，并且其被确定在镜头变化元数据输出(214)中。图3中示出了含有镜头变化的视频序列的时间指纹值相对于时间的曲线图。孤立的峰值(31)到(36)对应于镜头变化。

还分析所分离的时间视频指纹流(203)以在电影节奏检测器(209)中检测“电影节奏”。图4示出三个不同的电影节奏的时间视频指纹值序列的实例。在电影节奏检测器(209)中分析了相继场的时间指纹序列，并且识别了指纹之间的差异序列。如图4a中所示，如果来自相邻场的连续的时间指纹对具有相似的值(即，差异小于阈值)，则推断出每对来自新的电影帧；这通常被称为2:2电影节奏。如图4b中所示，如果在连续序列中两对相似的值之后是显著不同的值，则识别为3:2的电影节奏，其中电影帧速率与视频场速率的比值为2:5。并且，如图4c中所示，如果不存在相继场的时间指纹之间的相似性模式，则识别出视频节奏。

电影节奏检测器(209)通过已知的方法，诸如将指纹间差值序列与候选的差异序列相关联来检测相继场的指纹之间的变化模式。输出指示检测的视频节奏(215)、检测的2:2电影节奏(216)或者检测的3:2电影节奏(217)的元数据。

所分离的音频指纹流(204)被输入到无声检测器(210)。典型的音频指纹从相邻的音频样本序列的幅度中推导出。当音频是无声的时，样本幅度小并且产生了低值指纹的序列。当无声检测器(210)检测到持续序列的音频指纹值小于低值阈值时，其输出无声元数据(218)。

图5中示出了另外的音视频指纹分析过程。对应于视频或音视频序列的场或帧的空间或时间视频指纹序列(500)被输入到滚动的窗口选择器(501)，其选择并输出多组相邻指纹值的流。通常每组对应于一秒或两秒的视频，且这些组相互重叠几百毫秒。

在直方图生成器(502)中，每组指纹值被转换成直方图，其给出该组内的值或者值的范围的各自的出现频率。在矩处理器(503)和熵处理器(504)中统计分析了来自直方图生成器(502)的、对应于来自窗口选择器(501)的相邻指纹值序列的直方图序列。

矩处理器(503)确定每个直方图的已知的统计参数：平均值(或一阶矩)、方差(二阶矩)、偏度(三阶矩)、以及峰度(四阶矩)。关于值在一组值内的分布的这些已知的无量纲参数的推导由于对本领域技术人员是公知的，故这里将不再进行描述。

熵处理器(504)确定每个直方图的熵E或者“显著性”。通过以下等式给出合适的度量：

E＝-Σp_ilog(p_i)

其中：p_i是指纹值i的出现数目除以该组中的指纹值的数目；并且

该求和是针对该组中出现的i的所有值进行的。

来自矩处理器(503)的多组无量纲统计参数(505)的流，以及来自熵处理器(504)的熵值(506)的流被输入到分类机(507)，其将其输入数据集中的每个数据集与对应于已知的音视频内容类型的参考数据集进行比较。来自分类机(507)的输出是描述从其推导出指纹值序列(500)的音视频内容的类型的元数据(508)。

通常分类机(507)的输出是来自许多不同的、已知的比较函数的输出的加权和，其中已经在已知的“训练”过程中预先选择了权重和函数。采用这种先前训练，候选的多组比较函数被迭代地应用到多组统计数据(505)和熵数据(506)，所述各组统计数据(505)和熵数据(506)已经根据指纹数据的分析(如图5中所示的)从已知的音视频内容类型中推导出。在该训练中选择了权重和比较函数以便获得比较的加权和的结果与已知内容类型的各个训练数据集之间的最佳一致。分类机(507)使用在先前的训练过程中确定的一组比较函数和各自的权重，以确定何时其输入对应于一组参考数据集的特定成员，其与特定的音视频内容类型相对应。

通常以下类型的音视频流被用作训练数据，并且通过分类机(507)来识别：

·特定运动

·演播室新闻呈现

·“头部特写”

·情节剧

·电影/影片戏剧

·广告

·卡通动漫

·可靠序列

·信号丢失情况

·录像机“往复”模式

其他的内容类型可能更适用于控制和监控特定的音视频制作和发布过程。

图6中示出了本发明的另一个实施方式。通过以与先前描述的窗口选择器(501)类似的方式操作的滚动窗口选择器(601)，将音频或者视频指纹值序列(600)分到多组滚动窗口。时间上有序的、加窗的多组相邻的指纹值在变换处理器(602)中被从时域变换到频域，变换处理器(602)的输出包括多组频谱分量的流，通过窗口选择器(601)应用的滚动窗口的每个时间位置对应一组频谱分量。通常，变换处理器(602)使用公知的傅里叶变换，但是也可以使用其它的时域到频域的转换。

来自变换处理器(602)的多组频率分量(603)的流被输入到分类机(604)，其以与上述分类机(507)类似的方式操作以识别已知类型的音视频内容的频谱特征。描述音视频内容类型的元数据(605)从分类机(604)输出，从该音视频内容类型中推导出指纹值序列(600)。

例如在国际专利申请WO 2009/104022中描述的“条形码”音频签名的一些音频指纹包括一个比特的二进制值序列。这些指纹可以方便地用游程编码进行描述，其中游程值序列指示相继的相同的指纹值的计数。这是公知的数据压缩方法，其通过单个描述符和游程值来表示连续值序列。在二进制数据的情况下，不需要描述符，因为每个游程值表示了二进制数据状态的变化。

指纹序列的滚动窗口的游程值可以进行直方图化，并且游程值或者游程值的范围的出现频率的直方图被用于识别材料特征，从该材料推导出了指纹。

可以通过将时间低通滤波器应用到推导出的元数据来提高从指纹数据提取元数据的所有上述方法的可靠性。例如滑动平均的简单递归滤波器是合适的。然而，存在可靠性和响应速度之间的权衡。对于不同类型的元数据，所需的响应速度是不同的。一些参数描述单个帧，例如黑帧标识符。其他参数涉及短的帧序列，例如电影节奏参数。还有其它的参数涉及几百个或者甚至是几千个帧，例如内容类型参数。适用于这些不同类型的元数据的时间滤波器将具有不同的带宽。

通过该说明书中描述的方法推导出的元数据的值的变化含有可以被用来推导更高级别的元数据的有用信息。例如，镜头变化的出现频率可以被用来推断内容类型。

已经描述了几种不同的分析指纹数据的方法。根据本发明的元数据推断过程可以使用这些方法中的一个或者多个；并非特定指纹的所有元素都需要进行分析。

已经描述了对空间视频指纹、时间视频指纹和音频指纹的处理。从指纹数据中获得元数据的这些方法适用于源自于音视频内容流内的相同时间位置的一种类型的指纹、或者不同类型的指纹的组合。源自于相同的内容的不同指纹类型之间的关系可以被用来确定适用于所述内容的元数据。

通常，可用的音频指纹的时间位置将与音视频内容制作或者发布过程中的相同点处的相同内容流的相关联的可用视频指纹的时间位置具有固定的关系。在该情况下，相比于通过孤立地分析音频或者视频指纹来实现对音视频序列的元数据的确定，将根据本发明的视频指纹分析结果与根据本发明的音频指纹分析结果相结合将给出更可靠的上述确定。

本发明的原理可以被应用于多种不同类型的音频、视频或者音视频指纹。音频和/或视频数据可以在生成适当的一个或者多个指纹之前进行子采样。可以从场或者帧中推导出视频指纹。

Claims

1.一种管理音视频、音频或者视频内容的方法，所述方法包括以下步骤：

在与指纹生成器物理分离的指纹处理器处通过通信网络接收指纹流，所述指纹流在所述指纹生成器中通过不可逆的数据简化过程从特定的音视频、音频或者视频内容流中的各自的时间区域中推导出；以及

在所述指纹处理器中以选自包含以下过程的组的一个或者多个过程来处理所述指纹，以生成不直接以所述指纹进行编码的元数据：

检测音频指纹的低值的持续出现以生成指示无声的元数据；

将时间上相继的指纹值之间的差异的模式与电影节奏的预期模式进行比较以生成指示电影节奏的元数据；以及

将时间上相继的指纹值之间的差异与阈值进行比较以生成指示静止图像或停帧的元数据。

2.如权利要求1所述的方法，其中所述通信网络包括互联网。

3.如权利要求1所述的方法，其中音频指纹流具有每个音频通道小于约500字节/秒的数据速率。

4.如权利要求3所述的方法，其中音频指纹流具有每个音频通道小于约250字节/秒的数据速率。

5.如前述权利要求中任一项所述的方法，其中视频指纹流具有每个场小于约500字节的数据速率。

6.如权利要求5所述的方法，其中视频指纹流具有每个场小于约200字节的数据速率。

7.如权利要求1所述的方法，其中所述内容包括视频帧的视频流，并且其中实质上针对所述视频流中的每个帧生成指纹。

8.一种管理音视频、音频或者视频内容的方法，所述方法包括以下步骤：

在所述指纹处理器中处理所述指纹以生成不直接以所述指纹进行编码的元数据；其中所述处理包括：

使用时间窗口来窗口化所述指纹流；

推导每个时间窗口内的特定的指纹值或指纹值范围的出现频率；

确定所述出现频率的统计矩或者熵值；

将所述统计矩或熵值与特定的内容类型的预期值进行比较；以及

生成表示所述音视频、音频或者视频内容的类型的元数据。

9.如权利要求8所述的方法，其中所述统计矩包括所述出现频率的平均值、方差、偏度或峰度中的一个或者多个。

10.如权利要求8和权利要求9中任一项所述的方法，其中所述通信网络包括互联网。

11.如权利要求8和权利要求9中任一项所述的方法，其中视频指纹流具有每个场小于约500字节的数据速率。

12.如权利要求11所述的方法，其中视频指纹流具有每个场小于约200字节的数据速率。

13.如权利要求8所述的方法，其中所述内容包括视频帧的视频流，并且其中实质上针对所述视频流中的每个帧生成指纹。

14.一种用于管理音视频、音频或者视频内容的装置，包括：

指纹处理器，其被配置为在指纹处理器生成器处通过通信网络接收指纹流，所述指纹流在与所述指纹处理器物理上分离的指纹生成器中通过不可逆的数据简化过程从特定的音视频、音频或者视频内容流中的各自的时间区域中推导出；所述指纹处理器包括：

窗口单元，其被配置为接收所述指纹流并且应用时间窗口；

出现频率直方图单元，其被配置为推导每个时间窗口中的特定指纹值的出现频率；

统计矩单元，其被配置为推导所述出现频率的统计矩；以及

分类机，其被配置为根据所述统计矩来生成表示所述音视频、音频或者视频内容的类型的元数据。

15.如权利要求14所述的装置，还包括熵单元，所述熵单元被配置为推导出现频率的直方图的熵值，并且其中所述分类机被配置为额外地根据所述熵值来生成表示所述音视频、音频或者视频内容的类型的所述元数据。

16.一种非暂时性的计算机程序产品，其适用于引起可编程装置实施如权利要求1所述的方法。