CN101129064A

CN101129064A - 动态生成过程建模

Info

Publication number: CN101129064A
Application number: CNA2006800058345A
Authority: CN
Inventors: 雷古纳赞·拉达克里希南; 阿贾伊·迪瓦卡瑞恩
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2005-07-08
Filing date: 2006-07-03
Publication date: 2008-02-20
Also published as: WO2007007693A1; US20070010998A1; EP1859615A1; JP2009500875A

Abstract

一种方法动态跟踪和分析产生多变量时间序列数据的生成过程。在一个应用中，该方法被用于检测例如体育广播和新闻广播的广播节目。在另一应用中，在由诸如摄像机或麦克风的监视设备获得的信号中检测显著事件。

Description

动态生成过程建模

技术领域

本发明一般涉及模拟、跟踪和分析由生成(generative)过程产生的时间序列数据，尤其涉及用单一统计模型动态完成这一点。

背景技术

跟踪生成过程的问题涉及检测和适应生成过程的变化。对于视觉背景建模，该问题已被广泛研究。图像中的各单个像素的强度可被视为由可通过多峰概率分布函数(PDF)建模的生成过程产生。然后，通过检测和适应强度的变化，可以执行背景-前景分割。

用于对景物背景建模的方法可大致分类如下。一类方法维持自适应预测过滤器。新的观察根据当前的过滤器被预测。这基于用于前景像素的预测误差较大的直觉，参见D.Koller，J.Weber and J.Malik，“Robust multiple car tracking with occlusion reasoning，”Proc.European Conf.on Computer Vision，pp.189-196，1994；K.P.Karmanand A.von Brandt，“Moving object recognition using an adaptivebackground memory，”Capellini，editor，Time-varying ImageProcessing and Moving Object Recognition，pp.297-307，1990；和K.Toyoma，J.Krumm，B.Brumitt and B.Meyers，“Wallflower：Principles and practice of background maintenance，”Proc.ICCV，1999。

另一类方法通过使用参数模型自适应地估计像素的强度的概率分布函数，参见C.Stauffer and W.E.L.Grimson，“Learning patterns ofactivity using real-time tracking，”IEEE Trans.On Pattern Analysisand Machine Intelligence，pp.747-757，2000。该方法存在几个问题。该方法随着时间的过去提取各像素的颜色特征，并用高斯分布函数的独立的混合体独立地对各像素的颜色分量进行建模。对于一些过程，各特征大小(dimension)随时间独立演变的假定可能是不正确的。

下列文献说明了其它的概率方法：C.Wren，A.Azarbayejani，T.Darrell and A.Pentland，“Pfinder：Real-time tracking of the humanbody，”IEEE Transactions on Pattern Analysis and MachineIntelligence，vol.19，no.7，pp.780-785，July 1997；O.Tuzel，et at.，“ABayesian approach to background modeling，”Proc.CVPR Workshop，June 21，2005；K.Toyoma，J.Krumm，B.Brumitt and B.Meyers，“Wallflower：Principles and practice of background maintenance，”Proc.ICCV，1999；和N.Friedman and S.Russell，“Imagesegmentation in video sequences，”Conf.on Uncertainty in ArtificialIntelligence，1997。

另一类方法使用非参数密度估计以自适应地学习像素强度的基本生成过程的密度，参见D.Elgammal，D.Harwood and L.Davis，“Non-parametric model for background subtraction，”Proc.ECCV，2000。

由Stauffer等描述的用于视觉背景建模的方法已被扩展到音频分析，M.Cristani，M.Bicego and V.Murino，“On-line adaptivebackground modeling for audio surveillance，”Proc.Of ICPR，2004。

他们的方法基于对波谱的各空间子波段使用分开的多组自适应高斯混合模型的音频数据流的概率建模。该方法的主要缺点在于，GMM对于各个子波段被维持，以检测该子波段中的外离(outlier)事件，随后对外离事件是否为前景事件做出判定。与Stauffer等类似，大量的概率模型同样难以管理。

另一方法从从音频内容提取的倒谱(cepstral)特征的时间序列检测‘背景’和‘前景’，参见R.Radhakrishnan，A.Divakaran，z.Xiongand I.Otsuka，“A content-adaptive analysis and representationframework for audio event discovery from‘unscripted’multimedia，”Eurasip Journal on Applied Signal Processing，Special Issue onInformation Mining from Multimedia，2005；和由Radhakrishnan等在2004年5月7日提交并且在此被加入作为参考的美国专利申请序号No.10/840824，“Multimedia Event Detection and Summarization”。在该时间序列分析中，产生大多数的‘正常’或‘规则’数据的生成过程被称为‘背景’过程。在主导的正常的背景数据中产生短突发不正常或不规则的数据的生成过程被称为‘前景’过程。使用该方法，可以检测时间序列数据中的‘背景’和‘前景’。例如，可以通过从倒谱特征的时间序列检测音频背景检测体育音频中的精彩部分片段、监视音频中的显著事件和视频内容中的节目边界。但是，该方法存在几个问题。最重要的是，在事件可被检测前需要整个时间序列。因此，该方法不能被用于诸如例如用于检测体育事件的“实况”广播中的精彩部分或用于检测由监视照相机观察到的不寻常事件的实时应用。另外，该方法的计算复杂性较高。统计模型对于整个时间序列的各个子序列被估计，并且所有的模型被成双比较以构建仿射性(affinity)矩阵。同样，大量的统计模型和静态处理使得该方法对于实时应用是不实用的。

因此，需要简化的用于动态跟踪生成过程的方法。

大量的用于记录和操纵广播电视节目(内容)的技术是已知的，参见以下专利：美国专利6868225，Multimedia program book markingsystem；6850691，Automatic playback overshoot correction system；6847778，Multimedia visual progress indication system；6792195，Method and apparatus implementing random access and time-basedfunctions on a continuous stream of formatted digital data；6327418，Method and apparatus implementing random access and time-basedfunctions on a continuous stream of formatted digital data；和美国专利申请20030182567，Client-side multimedia content targetingsystem。

这些技术还可包含内容分析技术以使得用户能够高效浏览内容。一般地，技术依赖于关于节目的开始时间和结束时间的信息的电子节目指南(EPG)。当前，EPG很少被更新，例如，在美国每天仅更新四次。但是，EPG并不一直对记录“实况”节目起作用。实况节目出于任何多种的原因可晚些开始，并可超出它们的分配的时间。例如，在平局的情况下或由于天气延迟，体育事件可被延长。因此，希望继续记录节目直到节目完成，或者，替代性地，在不完全依赖EPG的情况下继续记录节目。同样，定期安排的节目被新的公告中断不是不寻常的。在这种情况下，希望只记录定期安排的节目。

发明内容

本发明提供用于动态跟踪和分析产生多变量时间序列数据的生成过程的方法。在一个应用中，该方法被用于检测例如体育广播和新闻广播的广播节目中的边界。在另一应用中，在通过诸如摄像机或麦克风的监视设备获得的信号中检测显著事件。

附图说明

图1、图2、图3、图4是要根据本发明的实施例处理的时间序列数据；

图5是根据本发明的一个实施例的系统和方法的框图；

图6是要被分析的时间序列数据的框图；

图7是用于更新生成过程的多变量模型的方法的框图；

图8是用于通过使用时间序列数据的低级别和高级别特征进行建模的方法的框图。

具体实施方式

本发明的实施例提供动态跟踪和分析产生多变量数据的方法。

图1表示广播信号形式的多变量(multivariate)数据101的时间序列。时间序列数据101包含节目110和120，例如，后跟新闻节目的体育节目。两个节目均由‘正常’数据111和121支配，偶尔有短的突发‘不正常’数据112和122。希望在没有基本生成过程的先验知识的情况下动态检测两个节目之间的边界102。

图2表示时间序列150，其中，要被记录的定期安排的广播节目151暂时被不要被记录的未安排的广播节目152中断。因此，边界102被检测。

图3表示多变量数据201的另一时间序列。时间序列数据201代表例如实时监视信号。时间序列数据201由‘正常’数据211支配，偶尔有短的突发‘不正常’数据212。希望在没有产生数据的生成过程的先验知识的情况下动态检测显著(significant)事件。这然后可被用于产生警报或永久地记录显著事件以减少通信带宽和存储需求。因此，边界102被检测。

图4表示代表要被记录的广播节目221的时间序列数据202。节目偶尔被不要被记录的广播广告222中断。因此，边界102被检测，使得广告可被跳过。

虽然关于产生音频信号的生成过程说明了本发明的实施例，但应理解，本发明可应用于产生例如视频信号、电磁信号、声学信号和医疗和财务数据等的多变量数据的任意生成过程。

系统和方法

图5表示用于建模、跟踪和分析生成过程的系统和方法。信号源310通过使用某一生成过程产生原始信号311。对于本发明，过程是未知的。因此，希望在不知道生成过程的情况下动态地对该过程建模。即，生成过程‘被学习’，并且，随着生成过程随时间演变，模型341被调整。

信号源310可以是声源，例如，人、车辆、扬声器、电磁辐射的发射器、发射光子的景物。信号311可以是声信号和电磁信号等。传感器320获取原始信号311。例如，传感器320可以是麦克风、照相机、RF接收器或IR接收器。传感器320产生时间序列数据321。

应当理解，系统和方法可使用用于同时获取多种信号的多个传感器。在这种情况下，来自各种传感器的时间序列数据321被同步，并且模型341将所有的各个生成过程集成到单一的更高级的模型中。

通过使用滑动窗W_L，时间序列数据被采样。能够调整滑动窗在时间序列数据上随时间向前滑动的尺寸和速率。例如，尺寸和速率根据演变的模型341被调整。

对于各窗口位置或各时刻特征从采样的时间序列数据321被提取330。特征可包含低级特征、中级特征和高级特征。例如，声学特征可包含音调、幅度、Mel频率倒谱系数(MFCC)、‘演讲’、‘音乐’、‘鼓掌’、流派(genre)、艺术家、歌曲标题或演讲内容。视频的特征可包含空间和时间特征。低级特征可包含颜色、移动、纹理等。中级特征和高级特征可包含MPEG-7描述符和对象标签(obiect label)。用于各种信号的本领域已知的其它特征也可被提取330。

应当理解，被提取的特定类型的特征可随时间被调整。例如，特征被动态选择，根据演变的模型341进行提取。

对于各时刻，特征被用于构建特征矢量331。

随着时间的过去，多变量模型341根据特征矢量331被调整500。模型341采取单一的高斯混合模型的形式。该模型包含概率分布函数(PDF)或‘分量’的混合。应当注意，更新过程将特征视为在特征矢量内相互依赖(相关)。这与对于各特征维持单独的PDF并且各特征被视为相互独立的现有技术不同。

随着模型341随时间动态演变，模型可被分析350。执行的精确的分析依赖于应用，这些应用中的一些，诸如节目边界检测和监视，在上面被引入。

分析150可产生用于控制器360的控制信号351简单的控制信号是警报。更复杂的信号可控制时间序列数据321的进一步的处理。例如，只有时间序列数据的被选择的部分被记录，或者，时间序列数据被概括为输出数据361。

对监视的应用

上述系统和方法可被检测显著事件的监视应用使用。显著事件与生成过程的转变点相关。一般地，相对于通常的‘背景’事件，显著的‘前景’事件是不常有和不可预测的。因此，借助于生成背景过程的自适应模型341，我们可检测不寻常的事件。

问题公式化

图6表示时间序列数据400。数据p₁由在背景模式(P₁)中‘正常’操作的未知的生成过程产生。数据p₂由在前景模式(P₂)中不正常地操作的生成过程产生。因此，时间序列数据400可被表达为：

···P₁P₁P₁P₁P₁P₁P₁P₂P₂P₂P₁P₁P₁P₁P₁P₁P₁···

问题是要在没有模式P₁和P₂的任何先验知识的情况下找到模式P₂的开始401和模式P₂的实现的发生的次数。

建模

给定特征矢量331，我们通过用相对较少数目的特征矢量{F₁、F₂、…、F_L}训练GMM341估计在背景模式P₁中操作的生成过程。

通过使用公知的最小描述长度(MDL)原理获得GMM341中的分量的数量，该原理参见J.Rissanen，“Modeling by the shortest datadescription,”Automatica 14，pp.465-471，1978。

GMM模型341由G指示。G中的分量的数量是K。我们使用符号π、μ和R以表示分量341的概率系数、平均值和方差(variance)。因此，K分量的参数组分别为{π_k}_k＝1 ^K、{μ_k}_k＝1 ^K和{R_k}_k＝1 ^K。

模型调整

图7表示调整500各特征矢量F_n331的模型341的步骤。在步骤510中，我们用随机平均数、相对较高的方差斜协方差和相对较低的混合概率初始化下一个分量C_K+1 511，并且，我们相应地将概率系数π归一化。

在步骤520中，我们通过使用模型341确定特征矢量331的可能性(likelihood)L521。然后，我们将该可能性与预定的阈值τ531相比较530。

如果对数可能性(log likelihood)521比阈值531大，那么我们根据

j = \arg ma x_{m} (\frac{P (F_{n} / {μ_{m}, R_{m}}) π_{m}}{P (F_{n} / G)})

确定产生特征矢量F_n的最可能的分量，并根据下式更新540最可能的分量j的参数。

π_j，t＝(1-α)π_j，t-1+α，

μ_j，t＝(1-ρ)μ_j，t-1+ρF_n，和

R_j，t＝(1-ρ)R_j，t+ρ(F_n-μ_j，t)T(F_n-μ_j，t)，

这里，α和ρ与用于调整模型341的比率有关。对于其它的分量(h≠i)，我们根据下式更新概率系数：

π_h，t＝(1-α)π_h，t-1

并将概率系数矩π阵归一化。

否则，如果对数可能性521比阈值小，那么我们假定具有当前的K分量的模型341不适于对特征矢量F_n建模。因此，我们用特征矢量F_n代替550分量C_K+1的平均值。结果，我们将新的混合分量添加到模型上，以说明与模型不一致的当前特征矢量F_n。我们还为将来的预期数据产生新的伪分量。

在步骤560中，我们记录与特征矢量F_n一致的最可能的分量。然后，通过检查对于模型的分量的成员资格的模式(pattern)，我们可检测基本生成过程的变化。

我们的方法在多个方面与Stauffer等的方法不同。我们不对多变量时间序列数据假定斜协方差。另外，我们关于当前的模型使用特征矢量的可能性值，以确定生成过程的变化。并且，我们具有各时刻的单一多变量混合模型。

对于节目边界检测的应用

我们如检测产生构成不同节目的时间序列数据的基本生成过程中的实质变化的问题那样将节目边界检测的问题公式化。这源自于例如广播体育节目与例如新闻节目或电影的‘非体育’节目明显不同的观察。

在本实施例中，我们同时使用低级特征和高级特征以减少需要的处理的量。低级特征是Mel频率倒谱系数，并且高级特征是音频分类标签。

如图8所示，我们使用在时间上相邻的两个滑动窗W¹ _L601和W² _L602。这些窗以固定的时间间隔W_S603步进。两个窗中的标签被比较以确定各时间步骤的距离610。通过使用Kullback-Leibler(KL)距离执行这种比较。距离被存储在缓冲器620中。

如果存在节目边界，那么KL距离中的峰621可能指示时间t的节目变化。可通过使用任意已知的峰检测过程对峰进行检测。通过使用上述低级特征和多变量模型验证节目变化。但是，在这种情况下，仅需要对与峰621相关的时间t之前(G_L)和之后(G_R)的少量的特征构建模型。

我们可根据下式确定G_L和G_R之间的距离：

D (G_{L}, G_{R}) = (\frac{1}{# (F_{L})} \log P (F_{L} | G_{L})) + (\frac{1}{# (F_{R})} \log P (F_{R} | G_{R}))

- (\frac{1}{# (F_{L})} \log P (F_{L} | G_{R})) - (\frac{1}{# (F_{R})} \log P (F_{R} | G_{L}))

这里，F_L和F_R是峰左右的低级特征，并且#代表基数算子(cardinality operator)。通过将该距离与预定的阈值相比较，我们可确定该峰事实上是否与节目边界有关。本质上，生成过程中的候选变化通过使用高级特征被检测，并且低级特征被用于验证候选变化是实际的变化。

虽然通过优选实施例的例子说明了本发明，但应理解，在本发明的精神和范围内，可以提出各种其它的调整和修改。因此，所附的权利要求的目的是要覆盖落在本发明的真实精神和范围内的所有这些变化和修改。

工业实用性

用于动态跟踪和分析产生多变量时间序列数据的生成过程的更有用的方法可被提供。

Claims

1.一种用于对生成过程动态建模的方法，包括：

获取由生成过程产生的时间序列数据；

在获取的同时对时间序列数据采样，以提取各时刻的单一特征矢量，该特征矢量包含时间序列数据的多个相关特征，该采样利用各时刻的滑动窗；和

在获取和采样的同时根据各时刻的单一特征矢量动态更新多变量模型，该多变量模型包含高斯分布函数的混合。

2.根据权利要求1的方法，其中，时间序列数据是包含多个节目的广播信号，并且还包括：

在获取、采样和更新的同时，通过使用多变量模型动态检测多个节目之间的边界。

3.根据权利要求2的方法，还包括：

在获取、采样和更新的同时，只动态记录节目边界之间的选择的程序。

4.根据权利要求1的方法，其中，时间序列数据是实时监视信号，并且还包括：

在获取、采样和更新的同时，通过使用多变量模型动态检测实时监视中的显著事件。

5.根据权利要求4的方法，还包括：

响应检测到显著事件产生警报信号。

6.根据权利要求1的方法，其中，时间序列数据是包含节目和多个广告的广播信号；

在获取、采样和更新的同时，通过使用多变量模型动态检测节目和多个广告之间的边界；和

只记录节目。

7.根据权利要求1的方法，其中，时间序列数据是包含音频和视频信号的广播信号。

8.根据权利要求1的方法，其中，时间序列数据通过多个传感器被获取。

9.根据权利要求1的方法，还包括：

在获取、采样和更新的同时，根据多变量模型动态调整滑动窗的尺寸和时间序列数据的采样速率。

10.根据权利要求1的方法，还包括：

在获取、采样和更新的同时，根据多变量模型动态调整多个相关特征的类型。

11.根据权利要求1的方法，还包括：

在获取、采样和更新的同时，动态分析多变量模型以产生控制信号。

12.根据权利要求11的方法，还包括：

在获取、采样和更新的同时，根据控制信号动态处理时间序列数据。

13.根据权利要求1的方法，其中，多个高斯分布函数根据最小描述长度原理被确定。

14.根据权利要求1的方法，其中，K高斯概率函数中的每一个由一组参数指示，该组参数包含概率系数{π_k}_k＝1 ^K、平均值{μ_k}_k＝1 ^K和方差{R_k}_k＝1 ^K。

15.根据权利要求1的方法，还包括：

通过使用多变量模型确定各特征矢量的可能性；和

根据可能性更新多变量模型。

16.根据权利要求1的方法，其中，各特征矢量包含低级特征和高级特征，并且，还包括：

通过使用高级特征确定多变量模型中的候选变化；和

通过使用低级特征验证候选变化。