CN1365566A

CN1365566A - 视频信号分析与存储

Info

Publication number: CN1365566A
Application number: CN01800719.8A
Authority: CN
Inventors: A·S·阿斯利
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2000-03-31
Filing date: 2001-03-19
Publication date: 2002-08-21
Also published as: EP1275243A1; JP2003530027A; US20020078438A1; WO2001076230A1; GB0007861D0

Abstract

在检测景物剪辑的方法中,分析了压缩的音频数据,来确定经过特定参数的几个频段的方差。对于每个样本,并且对于多个音频段,参数指示所述的频段的压缩音频数据的最大值。这种方法包括如下步骤:对于几个频段的每个,确定几个连续样本参数的平均值;对于几个频段的每个,计算方差参数,指示几个(M个)连续的确定平均值的确定平均值方差;将预定几个频段的方差参数与阈值水平比较;并且从比较中确定景物剪辑是否发生。

Description

说明书视频信号分析与存储

本发明涉及处理音频加视频数据流的方法和装置，其中音频流被数字压缩，并且尽管不排除在外，本发明特别涉及景物改变的自动检测与记录。

这里，对一些现有出版物中被称为“景物改变”或“景物剪辑”的名词，与这里使用的这些名词的意义之间给出了区别。在这些现有的出版物中，“景物改变”(也被另外称作“编辑点”和“拍摄剪辑”)已经被用于说明视频的编辑或景物中的摄影机切换而导致的任何不连贯。这里，这样适当的情况被称为“拍摄改变”或“拍摄剪辑”。正如这里所使用的，“景物改变”或“景物剪辑”是显示的材料中上下文的改变伴随的那些点。例如，景物可以显示两个演员说话，这时，聚焦在各自演员脸上的两台摄影机之间重复地改变来拍摄，并且一台或更多的辅助摄影机可能给出更宽的或不同角度的拍摄。景物改变只发生在动作位置和时间发生改变时的情况。

在国际专利申请WO 98/43408中描述了用于景物改变的检测与记录的系统和方法的例子。在描述的方法和系统中，被记录的音频流背景水平的改变用于确定剪辑，然后剪辑与播放中被使用的音频和视频数据一起存储。通过在音频背景水平中检测不连贯，只从拍摄改变中识别并区分景物改变，其中在拍摄改变的地方，背景音频水平通常保持相当的恒定。

在音频—视频技术近来的发展中，音频和视频流数字压缩技术的使用已经变得很普通了。音频—视频流的压缩特别有利，因为更多的数据可以存储在相同容量的介质上，并且由于存储容量的增加，存储数据的复杂性可以增加。然而，压缩数据的缺点是，为了应用上述这些方法和系统，有必要首先将音频—视频流解压缩，成为能够处理的原始数据。压缩与解压缩使用的算法复杂，这需要大量进行计算机处理。

本发明想要使用相应的数据压缩音频流，而不需要解压缩，来提供视频流中检测景物改变的方法。

在数字音频压缩系统中，如MPEG音频和Dolby AC-3，基于频率的变形被应用于数字音频解压缩。这些变形允许应用人类听觉模型，使不可听到的声音可以被去除，来减小音频的比特率。当解码时，这些频率变形相反地产生与原来相应的音频信号。

在MPEG音频的情况下，时间—频率音频信号被分成几部分，这些部分被称为分频段。每个分频段对应原始信号中的频率范围，从覆盖最低频率的分频段0开始，一直到覆盖最高频率的分频段32。每个分频段具有相关的比例因数，和解码处理中使用的一组系数。通过确定分频段样本的最大绝对值，并且将这个值量化成6位，来计算每个比例因数。比例因数是应用于分频段系数的乘数。大的比例因数通常指示这个频率范围中有强信号，而小的比例因数指示这个频率范围中有弱信号。

根据本发明的一方面，提供了通过分析压缩的音频数据来检测景物剪辑的方法，对于每个样本和对于多个音频频率波段，所述音频数据包括指示所述的频段的被压缩音频数据的最大值的一个参数，所述方法包括以下步骤：

对于几个频段中的每个，确定几个连续样本的平均参数；

对于几个频段中的每个，计算方差参数，它指示几个(M个)连续的已确定平均数中所确定平均数的方差；

将预定几个频段的方差参数与阈值水平比较；并且

根据比较结果确定景物剪辑是否发生。

根据本发明，通过计算最大值参数的平均数，然后通过计算几个这样的平均数值的方差，来计算任何特定频段的音频方差。本发明使用了最大值参数，它形成部分压缩的音频数据，由此避免了在分析数据前执行解压缩的需要。

压缩方法可以包括MPEG压缩，在这种情况下，最大值参数包括比例因数，并且这些频段包括MPEG压缩设计方案的分频段。

方差参数最好是平均比例因数的方差，并且如果此方差大于这些平均比例因数的移动平均值，那么这指示了这个分频段中音频信号显著改变。

选择几个分频段做这类分析，用于确定音频流中是否已经有显著的改变，这意味着景物剪辑已经发生。

通过增加方差检测中使用的平均数计算的数量，能够改善检测率。然而，这具有增加时间长度的效果，在这段时间中，需要估算景物剪辑，由此减小了精度，其中这个精度用来确定景物剪辑的时刻。

现在参考附图，具体描述本发明的例子，其中：

图1a、1b和1c是示意图，说明了根据本发明方法的步骤；

图1d是图示，说明了根据本发明方法的步骤；

图2是根据本发明的一方面，在检测景物剪辑的方法中执行的步骤的流程图；而

图3是根据本发明的另一方面，检测景物剪辑装置的方块示意图。

图1a是方块示意图，说明了根据本发明方法的步骤。显示了六个取样方块40a到40f，每个样本方块代表预定数量的音频数据样本。在描述的例子中，每个取样方块包括0.5秒音频的压缩音频数据。对于每个样本方块40，代表了分频段0-31。每个分频段0到31提供了关于各自频段上的音频的数据。使用MPEG音频压缩的样本，组成每个0.5s样本方块40的音频样本的比例因数，存储在图1单独的阵列位置中。

对于分频段的子集，对每个样本方块计算比例因数的平均值，即每0.5秒时间段上的平均比例因数。这个平均比例因数存储在阵列50a-50q中，这样对于每个取样方块40，包括：

∑比例因数/样本号(no.samples)

阵列50a-50q是多维的，允许每个分频段的几个平均计算被存储，使它包括多个样本方块40a-40f的平均比例因数。

对于多个样本方块40的每个分频段，重复平均计算，直到已经执行了预定数量的计算，并且结果存储在阵列50a-50q中。在这个例子中，每个分频段的8个平均计算存储在各自阵列的每个单元中。这样，平均计算覆盖八个0.5秒的样本方块(尽管在图1a中只显示了六个)。一旦对于每个分频段，八组平均计算已经存储在各自阵列单元50a-50q中，则如图1b所说明，执行方差运送。

计算存储在阵列50a-50q中的每组8个平均计算的统计方差，并且存储在相应的阵列单元60a-60q中。在任何一个时间段中，在至少50％分频段的方差大于移动平均值的地方，标注了潜在的景物剪辑。

一旦对于每组8个平均计算确定并存储方差计算，则最先的平均计算从各自阵列单元50a-50q中去除，并且剩余的7个平均计算在各自的阵列单元50a-50q中前进一个位置，来允许新的平均计算具有空间。以这种方式，在移动的窗口中计算每个分频段的方差，在这种情况下每0.5秒更新一次，如图1c所显不的。

图1c以图示解释了对一个分频段执行的计算。在图1c中，每个数据单元42包括特定频段中一个样本的比例因数。通过例子的方式，显示了六个样本来组成每0.5秒的样本方块。然后对于每个样本方块，计算六个样本比例因数的平均数M1-M9。

计算8个连续平均数M1-M9的方差，以时间顺序给出方差V1和V2。这样，V1是平均数M1到M8的方差，而V2是平均数M2到M9的方差，如图所示。方差V1与平均数M1到M8的平均值比较，依此类推。

图1d是说明方差70的曲线图，对一个分频段计算出随时间变化的移动平均值80。明显地，一旦所有的方差已经被计算，或者特定的时间段内，一旦每个分频段的方差已经被计算，则可以执行方差与移动平均值的比较。

图2是根据本发明的一方面，检测景物剪辑的方法中执行步骤的流程图。在步骤99开始之后，在步骤100，压缩音频流(由101代表)的每个分频段的部分数据被装入缓存。在这个例子中，这部分被设置为0.5秒的周期。在步骤110，对于每个分频段，计算装入的部分数据的比例因数平均值。在111存储比例因数的平均值。在后续部分的音频数据流中，判断步骤112促使步骤100和110重复，直到已经计算了预定次数的平均值，在这个例子中是8次，并且存储每个分频段。在步骤120中，在每个分频段的8个平均计算中，执行方差(VAR)计算，然后在步骤121存储。后面，在步骤122删除步骤111存储的最先一组平均值，在步骤130，计算的方差与移动平均值比较，并且如果超过50％或更多分频段的方差大于移动平均值，那么数据流的部分在步骤140被标记为潜在的景物剪辑。

后面在步骤140标记一个潜在的剪辑，或者后面在步骤130确定超过50％或更多分频段的方差小于移动平均值，在步骤121中存储的方差(VAR)在步骤141被删除。判断步骤142确定是否已经到达流的末端(EOS)：如果没有，则过程返回到步骤100；如果是，则过程在步骤143结束。

图3是系统的块状示意图，用于根据本发明的一方面判断的景物剪辑。音频视频数据10的来源，可以是例如计算机可读的存储介质，如硬盘或数字多用途光盘(DVD)，数据源连接到处理器20上，而处理器20连接有存储器30。处理器20顺序地读取音频流，并且将每个分频段分成0.5秒的周期。然后将图1中的方法用于分割的音频数据，来确定景物剪辑。然后，每个景物剪辑的时间点或者记录在数据存储区10中，或者记录在下一个数据存储区中。

在试验分析中，0.5秒的时间段用于平均计算，并且确定了至少8个平均计算的方差。设置阈值，使50％的分频段必须大于移动平均，从而景物剪辑被检测到。这些参数提供了检测率，而允许在它们发生的4秒内，检测景物剪辑。

对于MPEG编码的音频，发现如果只有分频段1到17以这种方式分析，来确定景物剪辑，那么得到最佳的结果。显示了用于执行试验分析的基本计算机算法，它只需要Pentium P166 MMX处理器15％的CPU时间(Pentium是Intel公司的注册商标)。明显地，根据所需的精度和可获得的处理能力，对处理分频段的选择可以改变。

对专业读者而言，本发明的方法和系统明显可以与视频处理方法结合，通过所需的音频和视频的指示，来进一步精确确定景物剪辑，而结果指示景物剪辑的域值，每个系统只使用一次或结合使用的结果组合，已经分别确定了景物剪辑的位置。

尽管已经具体描述了特定的计算，本领域的专家应注意各种其它特定的计算。这里8个取样方块和0.5秒取样方块周期的讨论不用于限制本发明。更进一步，为了得到代表样本方差的参数，有各种方差以外的统计计算。例如，对于样本，标准差计算同样有效。方差值可以与上面讨论的移动平均值以外的常数值比较。所有这些变化对于本技术领域的专家都是明显的。

Claims

1.一种通过分析压缩的音频数据来检测景物剪辑的方法，对于每个样本和对于多个音频频段，所述音频数据包括指示所述的频段的被压缩音频数据最大值的一个参数，所述方法包括步骤：

对于几个频段中的每个，确定几个连续样本的参数的平均值；

对于几个频段中的每个，计算方差参数，它指示几个(M个)连续的已确定平均值中所确定平均值的方差；

将预定的几个频段的方差参数与阈值水平比较；并且

根据比较结果确定景物剪辑是否发生。

2.根据权利要求1的方法，其中几个连续样本相应于0.5秒的数据。

3.根据权利要求1或2的方法，其中数M为8。

4.根据前面权利要求任何之一的方法，其中方差参数为统计方差。

5.根据前面权利要求任何之一的方法，其中对于每个频段，阈值水平包括确定平均值的移动平均值。

6.根据权利要求5的方法，其中阈值水平包括M个确定平均值的移动平均值。

7.根据前面权利要求任何之一的方法，其中如果50％或更多频段的比较超过阈值，那么确定景物剪辑发生。

8.根据前面权利要求任何之一的方法，其中指示最大值的参数包括比例因数，并且频段包括MPEG压缩音频的分频段。

9.根据权利要求8的方法，其中预定数量的频段包括分频段1到17。