CN1365566A - 视频信号分析与存储 - Google Patents

视频信号分析与存储 Download PDF

Info

Publication number
CN1365566A
CN1365566A CN01800719.8A CN01800719A CN1365566A CN 1365566 A CN1365566 A CN 1365566A CN 01800719 A CN01800719 A CN 01800719A CN 1365566 A CN1365566 A CN 1365566A
Authority
CN
China
Prior art keywords
frequency
variance
parameter
scene cut
several
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN01800719.8A
Other languages
English (en)
Inventor
A·S·阿斯利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1365566A publication Critical patent/CN1365566A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/147Scene change detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Television Signal Processing For Recording (AREA)
  • Complex Calculations (AREA)

Abstract

在检测景物剪辑的方法中,分析了压缩的音频数据,来确定经过特定参数的几个频段的方差。对于每个样本,并且对于多个音频段,参数指示所述的频段的压缩音频数据的最大值。这种方法包括如下步骤:对于几个频段的每个,确定几个连续样本参数的平均值;对于几个频段的每个,计算方差参数,指示几个(M个)连续的确定平均值的确定平均值方差;将预定几个频段的方差参数与阈值水平比较;并且从比较中确定景物剪辑是否发生。

Description

说明书 视频信号分析与存储
本发明涉及处理音频加视频数据流的方法和装置,其中音频流被数字压缩,并且尽管不排除在外,本发明特别涉及景物改变的自动检测与记录。
这里,对一些现有出版物中被称为“景物改变”或“景物剪辑”的名词,与这里使用的这些名词的意义之间给出了区别。在这些现有的出版物中,“景物改变”(也被另外称作“编辑点”和“拍摄剪辑”)已经被用于说明视频的编辑或景物中的摄影机切换而导致的任何不连贯。这里,这样适当的情况被称为“拍摄改变”或“拍摄剪辑”。正如这里所使用的,“景物改变”或“景物剪辑”是显示的材料中上下文的改变伴随的那些点。例如,景物可以显示两个演员说话,这时,聚焦在各自演员脸上的两台摄影机之间重复地改变来拍摄,并且一台或更多的辅助摄影机可能给出更宽的或不同角度的拍摄。景物改变只发生在动作位置和时间发生改变时的情况。
在国际专利申请WO 98/43408中描述了用于景物改变的检测与记录的系统和方法的例子。在描述的方法和系统中,被记录的音频流背景水平的改变用于确定剪辑,然后剪辑与播放中被使用的音频和视频数据一起存储。通过在音频背景水平中检测不连贯,只从拍摄改变中识别并区分景物改变,其中在拍摄改变的地方,背景音频水平通常保持相当的恒定。
在音频—视频技术近来的发展中,音频和视频流数字压缩技术的使用已经变得很普通了。音频—视频流的压缩特别有利,因为更多的数据可以存储在相同容量的介质上,并且由于存储容量的增加,存储数据的复杂性可以增加。然而,压缩数据的缺点是,为了应用上述这些方法和系统,有必要首先将音频—视频流解压缩,成为能够处理的原始数据。压缩与解压缩使用的算法复杂,这需要大量进行计算机处理。
本发明想要使用相应的数据压缩音频流,而不需要解压缩,来提供视频流中检测景物改变的方法。
在数字音频压缩系统中,如MPEG音频和Dolby AC-3,基于频率的变形被应用于数字音频解压缩。这些变形允许应用人类听觉模型,使不可听到的声音可以被去除,来减小音频的比特率。当解码时,这些频率变形相反地产生与原来相应的音频信号。
在MPEG音频的情况下,时间—频率音频信号被分成几部分,这些部分被称为分频段。每个分频段对应原始信号中的频率范围,从覆盖最低频率的分频段0开始,一直到覆盖最高频率的分频段32。每个分频段具有相关的比例因数,和解码处理中使用的一组系数。通过确定分频段样本的最大绝对值,并且将这个值量化成6位,来计算每个比例因数。比例因数是应用于分频段系数的乘数。大的比例因数通常指示这个频率范围中有强信号,而小的比例因数指示这个频率范围中有弱信号。
根据本发明的一方面,提供了通过分析压缩的音频数据来检测景物剪辑的方法,对于每个样本和对于多个音频频率波段,所述音频数据包括指示所述的频段的被压缩音频数据的最大值的一个参数,所述方法包括以下步骤:
对于几个频段中的每个,确定几个连续样本的平均参数;
对于几个频段中的每个,计算方差参数,它指示几个(M个)连续的已确定平均数中所确定平均数的方差;
将预定几个频段的方差参数与阈值水平比较;并且
根据比较结果确定景物剪辑是否发生。
根据本发明,通过计算最大值参数的平均数,然后通过计算几个这样的平均数值的方差,来计算任何特定频段的音频方差。本发明使用了最大值参数,它形成部分压缩的音频数据,由此避免了在分析数据前执行解压缩的需要。
压缩方法可以包括MPEG压缩,在这种情况下,最大值参数包括比例因数,并且这些频段包括MPEG压缩设计方案的分频段。
方差参数最好是平均比例因数的方差,并且如果此方差大于这些平均比例因数的移动平均值,那么这指示了这个分频段中音频信号显著改变。
选择几个分频段做这类分析,用于确定音频流中是否已经有显著的改变,这意味着景物剪辑已经发生。
通过增加方差检测中使用的平均数计算的数量,能够改善检测率。然而,这具有增加时间长度的效果,在这段时间中,需要估算景物剪辑,由此减小了精度,其中这个精度用来确定景物剪辑的时刻。
现在参考附图,具体描述本发明的例子,其中:
图1a、1b和1c是示意图,说明了根据本发明方法的步骤;
图1d是图示,说明了根据本发明方法的步骤;
图2是根据本发明的一方面,在检测景物剪辑的方法中执行的步骤的流程图;而
图3是根据本发明的另一方面,检测景物剪辑装置的方块示意图。
图1a是方块示意图,说明了根据本发明方法的步骤。显示了六个取样方块40a到40f,每个样本方块代表预定数量的音频数据样本。在描述的例子中,每个取样方块包括0.5秒音频的压缩音频数据。对于每个样本方块40,代表了分频段0-31。每个分频段0到31提供了关于各自频段上的音频的数据。使用MPEG音频压缩的样本,组成每个0.5s样本方块40的音频样本的比例因数,存储在图1单独的阵列位置中。
对于分频段的子集,对每个样本方块计算比例因数的平均值,即每0.5秒时间段上的平均比例因数。这个平均比例因数存储在阵列50a-50q中,这样对于每个取样方块40,包括:
∑比例因数/样本号(no.samples)
阵列50a-50q是多维的,允许每个分频段的几个平均计算被存储,使它包括多个样本方块40a-40f的平均比例因数。
对于多个样本方块40的每个分频段,重复平均计算,直到已经执行了预定数量的计算,并且结果存储在阵列50a-50q中。在这个例子中,每个分频段的8个平均计算存储在各自阵列的每个单元中。这样,平均计算覆盖八个0.5秒的样本方块(尽管在图1a中只显示了六个)。一旦对于每个分频段,八组平均计算已经存储在各自阵列单元50a-50q中,则如图1b所说明,执行方差运送。
计算存储在阵列50a-50q中的每组8个平均计算的统计方差,并且存储在相应的阵列单元60a-60q中。在任何一个时间段中,在至少50%分频段的方差大于移动平均值的地方,标注了潜在的景物剪辑。
一旦对于每组8个平均计算确定并存储方差计算,则最先的平均计算从各自阵列单元50a-50q中去除,并且剩余的7个平均计算在各自的阵列单元50a-50q中前进一个位置,来允许新的平均计算具有空间。以这种方式,在移动的窗口中计算每个分频段的方差,在这种情况下每0.5秒更新一次,如图1c所显不的。
图1c以图示解释了对一个分频段执行的计算。在图1c中,每个数据单元42包括特定频段中一个样本的比例因数。通过例子的方式,显示了六个样本来组成每0.5秒的样本方块。然后对于每个样本方块,计算六个样本比例因数的平均数M1-M9。
计算8个连续平均数M1-M9的方差,以时间顺序给出方差V1和V2。这样,V1是平均数M1到M8的方差,而V2是平均数M2到M9的方差,如图所示。方差V1与平均数M1到M8的平均值比较,依此类推。
图1d是说明方差70的曲线图,对一个分频段计算出随时间变化的移动平均值80。明显地,一旦所有的方差已经被计算,或者特定的时间段内,一旦每个分频段的方差已经被计算,则可以执行方差与移动平均值的比较。
图2是根据本发明的一方面,检测景物剪辑的方法中执行步骤的流程图。在步骤99开始之后,在步骤100,压缩音频流(由101代表)的每个分频段的部分数据被装入缓存。在这个例子中,这部分被设置为0.5秒的周期。在步骤110,对于每个分频段,计算装入的部分数据的比例因数平均值。在111存储比例因数的平均值。在后续部分的音频数据流中,判断步骤112促使步骤100和110重复,直到已经计算了预定次数的平均值,在这个例子中是8次,并且存储每个分频段。在步骤120中,在每个分频段的8个平均计算中,执行方差(VAR)计算,然后在步骤121存储。后面,在步骤122删除步骤111存储的最先一组平均值,在步骤130,计算的方差与移动平均值比较,并且如果超过50%或更多分频段的方差大于移动平均值,那么数据流的部分在步骤140被标记为潜在的景物剪辑。
后面在步骤140标记一个潜在的剪辑,或者后面在步骤130确定超过50%或更多分频段的方差小于移动平均值,在步骤121中存储的方差(VAR)在步骤141被删除。判断步骤142确定是否已经到达流的末端(EOS):如果没有,则过程返回到步骤100;如果是,则过程在步骤143结束。
图3是系统的块状示意图,用于根据本发明的一方面判断的景物剪辑。音频视频数据10的来源,可以是例如计算机可读的存储介质,如硬盘或数字多用途光盘(DVD),数据源连接到处理器20上,而处理器20连接有存储器30。处理器20顺序地读取音频流,并且将每个分频段分成0.5秒的周期。然后将图1中的方法用于分割的音频数据,来确定景物剪辑。然后,每个景物剪辑的时间点或者记录在数据存储区10中,或者记录在下一个数据存储区中。
在试验分析中,0.5秒的时间段用于平均计算,并且确定了至少8个平均计算的方差。设置阈值,使50%的分频段必须大于移动平均,从而景物剪辑被检测到。这些参数提供了检测率,而允许在它们发生的4秒内,检测景物剪辑。
对于MPEG编码的音频,发现如果只有分频段1到17以这种方式分析,来确定景物剪辑,那么得到最佳的结果。显示了用于执行试验分析的基本计算机算法,它只需要Pentium P166 MMX处理器15%的CPU时间(Pentium是Intel公司的注册商标)。明显地,根据所需的精度和可获得的处理能力,对处理分频段的选择可以改变。
对专业读者而言,本发明的方法和系统明显可以与视频处理方法结合,通过所需的音频和视频的指示,来进一步精确确定景物剪辑,而结果指示景物剪辑的域值,每个系统只使用一次或结合使用的结果组合,已经分别确定了景物剪辑的位置。
尽管已经具体描述了特定的计算,本领域的专家应注意各种其它特定的计算。这里8个取样方块和0.5秒取样方块周期的讨论不用于限制本发明。更进一步,为了得到代表样本方差的参数,有各种方差以外的统计计算。例如,对于样本,标准差计算同样有效。方差值可以与上面讨论的移动平均值以外的常数值比较。所有这些变化对于本技术领域的专家都是明显的。

Claims (9)

1.一种通过分析压缩的音频数据来检测景物剪辑的方法,对于每个样本和对于多个音频频段,所述音频数据包括指示所述的频段的被压缩音频数据最大值的一个参数,所述方法包括步骤:
对于几个频段中的每个,确定几个连续样本的参数的平均值;
对于几个频段中的每个,计算方差参数,它指示几个(M个)连续的已确定平均值中所确定平均值的方差;
将预定的几个频段的方差参数与阈值水平比较;并且
根据比较结果确定景物剪辑是否发生。
2.根据权利要求1的方法,其中几个连续样本相应于0.5秒的数据。
3.根据权利要求1或2的方法,其中数M为8。
4.根据前面权利要求任何之一的方法,其中方差参数为统计方差。
5.根据前面权利要求任何之一的方法,其中对于每个频段,阈值水平包括确定平均值的移动平均值。
6.根据权利要求5的方法,其中阈值水平包括M个确定平均值的移动平均值。
7.根据前面权利要求任何之一的方法,其中如果50%或更多频段的比较超过阈值,那么确定景物剪辑发生。
8.根据前面权利要求任何之一的方法,其中指示最大值的参数包括比例因数,并且频段包括MPEG压缩音频的分频段。
9.根据权利要求8的方法,其中预定数量的频段包括分频段1到17。
CN01800719.8A 2000-03-31 2001-03-19 视频信号分析与存储 Pending CN1365566A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GBGB0007861.8A GB0007861D0 (en) 2000-03-31 2000-03-31 Video signal analysis and storage
GB0007861.8 2000-03-31

Publications (1)

Publication Number Publication Date
CN1365566A true CN1365566A (zh) 2002-08-21

Family

ID=9888869

Family Applications (1)

Application Number Title Priority Date Filing Date
CN01800719.8A Pending CN1365566A (zh) 2000-03-31 2001-03-19 视频信号分析与存储

Country Status (6)

Country Link
US (1) US20020078438A1 (zh)
EP (1) EP1275243A1 (zh)
JP (1) JP2003530027A (zh)
CN (1) CN1365566A (zh)
GB (1) GB0007861D0 (zh)
WO (1) WO2001076230A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4036328B2 (ja) * 2002-09-30 2008-01-23 株式会社Kddi研究所 動画像データのシーン分類装置
JP4424590B2 (ja) * 2004-03-05 2010-03-03 株式会社Kddi研究所 スポーツ映像の分類装置
US8886528B2 (en) 2009-06-04 2014-11-11 Panasonic Corporation Audio signal processing device and method

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5724100A (en) * 1996-02-26 1998-03-03 David Sarnoff Research Center, Inc. Method and apparatus for detecting scene-cuts in a block-based video coding system
TW303555B (en) * 1996-08-08 1997-04-21 Ind Tech Res Inst Digital data detecting method
GB9705999D0 (en) * 1997-03-22 1997-05-07 Philips Electronics Nv Video signal analysis and storage
US6370504B1 (en) * 1997-05-29 2002-04-09 University Of Washington Speech recognition on MPEG/Audio encoded files
JPH1132294A (ja) * 1997-07-09 1999-02-02 Sony Corp 情報検索装置および方法、並びに伝送媒体
JP3738939B2 (ja) * 1998-03-05 2006-01-25 Kddi株式会社 動画像のカット点検出装置
DE69924922T2 (de) * 1998-06-15 2006-12-21 Matsushita Electric Industrial Co., Ltd., Kadoma Audiokodierungsmethode und Audiokodierungsvorrichtung
JP4029487B2 (ja) * 1998-08-17 2008-01-09 ソニー株式会社 記録装置および記録方法、再生装置および再生方法、ならびに、記録媒体
JP2001344905A (ja) * 2000-05-26 2001-12-14 Fujitsu Ltd データ再生装置、その方法及び記録媒体

Also Published As

Publication number Publication date
EP1275243A1 (en) 2003-01-15
JP2003530027A (ja) 2003-10-07
US20020078438A1 (en) 2002-06-20
WO2001076230A1 (en) 2001-10-11
GB0007861D0 (en) 2000-05-17

Similar Documents

Publication Publication Date Title
US8586847B2 (en) Musical fingerprinting based on onset intervals
JP4560269B2 (ja) 無音検出
JP4699476B2 (ja) 映像要約装置
US9208790B2 (en) Extraction and matching of characteristic fingerprints from audio signals
US20070201817A1 (en) Method and system for playing back videos at speeds adapted to content
US6680753B2 (en) Method and apparatus for skipping and repeating audio frames
US6881889B2 (en) Generating a music snippet
US20070180980A1 (en) Method and apparatus for estimating tempo based on inter-onset interval count
US11682405B2 (en) Method and system for triggering events
JP2010035125A (ja) ターゲット画像検出装置及びその方法並びに記録媒体
US20080172140A1 (en) Audio playback time estimating apparatus and method
US8121299B2 (en) Method and system for music detection
JP5096259B2 (ja) 要約コンテンツ生成装置および要約コンテンツ生成プログラム
CN111724824B (zh) 一种音频的储存和检索方法
JP2001147697A (ja) 音響データ分析方法及びその装置
CN1365566A (zh) 视频信号分析与存储
US7680654B2 (en) Apparatus and method for segmentation of audio data into meta patterns
US20100329470A1 (en) Audio information processing apparatus and method
US8014606B2 (en) Image discrimination apparatus
EP1306831B1 (en) Digital signal processing method, learning method, apparatuses for them, and program storage medium
JP3124239B2 (ja) 映像情報検出装置
AU751231B2 (en) Digital video processing method and apparatus thereof
JP4249540B2 (ja) 時系列信号の符号化装置および記録媒体
Shieh Audio content based feature extraction on subband domain

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication