CN101425135B

CN101425135B - 用于视频流的实时新事件检测的装置和方法

Info

Publication number: CN101425135B
Application number: CN2008102126901A
Authority: CN
Inventors: 骆罡; 颜嵘; 俞士纶
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2007-11-01
Filing date: 2008-08-29
Publication date: 2013-08-14
Anticipated expiration: 2028-08-29
Also published as: US20100329563A1; TW200925895A; JP2009118461A; US8428360B2; TWI436226B; US20140344845A1; US9215479B2; JP5255372B2; CN101425135A

Abstract

公开了用于以提高的检测效率实时检测视频流中新事件的技术。例如，一种方法确定给定事件是否为视频流中的新事件。该视频流包括多个事件。第一步骤从给定事件中提取第一特征(例如文本特征)集。第一特征集与给定事件所关联的第二特征(例如图像特征)集相比处理起来计算代价更低。第二步骤在存在一个或者多个第一相似度标准时仅使用第一特征集来计算在给定事件与视频流中的一个或者多个先前事件之间的一个或者多个第一相似度值。第三步骤基于计算的一个或者多个第一相似度值来确定给定事件是否为新事件。

Description

用于视频流的实时新事件检测的装置和方法

技术领域

本发明主要地涉及视频流处理并且具体地涉及用于检测视频流中新事件的技术。

背景技术

对于流传输视频，新事件检测(NED)是捕获呈现先前未见过的事件的第一视频剪辑的任务。这一任务在许多领域如智能收集(例如用于反恐怖主义目的)、金融市场分析和新闻分析中具有实际应用，其中有用信息通常湮没于随时间而迅速增长的大量数据中。由于这些应用常常在时间上关键而需要快速回转，所以非常希望在实践中开发一种在线新事件检测(ONED)系统。

约十年前，对文档流的ONED开始在文本处理界受到越来越多的关注。作为它的文本对应系统的扩展，对视频流的ONED因利用文本和视觉信息而已经在视频处理界吸引越来越多的关注。视频ONED系统的基本思想在于将新剪辑与既往到达的所有剪辑做比较。如果它们基于文本和视觉特征的相似度值都在某一阈值以下，则将新剪辑预测为呈现新事件。

先前工作已经表明附加图像信息在标识相关视频剪辑和实现更好的主题跟踪结果中扮演了重要的角色。然而，对视频ONED的所有这些努力主要集中在优化检测准确度而不是检测效率上。实际上，这些方法就剪辑数目而言造成二次时间复杂度。因此，它们对于在实时环境中检测新视频事件、尤其是对于大规模视频收集而言效率并不够高。

例如，在需要同时监视数以万计电视频道的智能收集系统中，现有ONED系统很难实时处理此类成批并且带宽极高的视频流。因此，尽管一些现有NED系统声称可在线使用，但是它们对于实时应用而言实际上效率并不够高。

发明内容

本发明的原理提供用于以提高的检测效率实时检测视频流中新事件的技术。

例如，在本发明的一个方面中，一种方法确定给定事件是否为视频流中的新事件。该视频流包括多个事件。第一步骤从给定事件中提取第一特征(例如文本特征)集。第一特征集与给定事件所关联的第二特征(例如图像特征)集相比处理起来计算代价更低。第二步骤在存在一个或者多个第一相异度标准时仅使用第一特征集来计算在给定事件与视频流中的一个或者多个先前事件之间的一个或者多个第一相异度值。第三步骤基于计算的一个或者多个第一相异度值来确定给定事件是否为新事件。

在本发明的另一方面中，一种用于在视频流环境中捕获呈现先前未见过的事件的新事件视频剪辑的实时新事件检测方法包括多级顺序过滤处理。该处理包括标识相关特征、基于用以导出或者提取特征的计算量对特征排序以及基于排序的特征来形成一个或者多个多级顺序过滤器，其中在较难计算的特征之前使用较易计算的特征。在一个特定实施例中，多级顺序过滤处理中的一级是独自使用文本特征作为用以检测新事件的过滤器，而后续级是使用图像特征作为用以补充检测处理的过滤器。

本发明的这些和其它目的、特征及优点将从结合附图来阅读的对其示例实施例的以下具体描述中变得清楚。

附图说明

图1图示了根据本发明一个实施例的视频数据流中的事件；

图2图示了根据本发明一个实施例的在线新事件检测系统；

图3图示了根据本发明一个实施例的各种视频流相似度场景；

图4图示了根据本发明另一个实施例的在线新事件检测系统；

图5图示了根据本发明一个实施例的在线新事件检测方法；

图6A图示了根据本发明另一实施例的在线新事件检测方法；

图6B图示了根据本发明又一实施例的在线新事件检测方法；

图6C图示了根据本发明一个实施例的滑动时间窗；

图7图示了根据本发明一个实施例的、其中可以实施用于在线新事件检测技术的计算机系统。

具体实施方式

下文在示例类型的基于视频流的数据背景下说明本发明。然而应理解本发明不限于任何特定类型的视频数据流。实际上，本发明更一般地适用于希望提高视频数据流中新事件的检测效率的任何视频数据流。

图1沿着时间轴描绘了视频流中的事件(102、104、106、108、110和112)。不同的形状对应于不同的事件。填充形状代表需要捕获的剪辑(即，新剪辑)。应理解短语“视频剪辑”(或者简称为“剪辑”)旨在于指代视频流的至少一个部分而术语“事件”对应于对象剪辑在视频数据流中的出现或者存在。也应理解“剪辑”(或者推广为视频流的对象部分)可以包括一个或者多个图像。正如下文将进一步说明的，“剪辑”也可以是“镜头”。也应理解术语“在线”可以与术语“实时”互换使用并且一般描述与视频流中新事件或者剪辑的接收基本上同时执行的步骤或者操作。将这与在一些时间以后执行的步骤/操作的“离线”或者“非实时”处理做比较。

根据本发明的原理，提供用以解决前述效率问题并且按照数量级提高ONED系统的视频处理速率而不牺牲实质检测准确度的技术。由于对图像特征的计算相当耗时，所以通过尽可能多地延迟图像特征的处理来最大化ONED系统的效率。具体而言，提出以下数个优化步骤。先独自使用文本特征来滤除多数非新事件剪辑，从而放弃这些剪辑的高代价的图像特征提取步骤。然后，当将新剪辑与旧剪辑做比较时，先计算它们的文本相似度而如果它们的文本充分相异则跳过高代价的图像相似度计算。最后，使用编索引和压缩方法的组合来加速文本处理。在图像相似度计算处理中，也去除锚定图像以提高ONED系统的检测准确度。

在具体讨论优化技术之前，先描述ONED系统的一个示例实施例(这里称为“基线系统”)。假设这一基线系统组合在以下文献中报告的现有技术ONED系统中建议的两个最有影响的信息源：Hsu和Chang(W.Hsu和S.Change的″Topic Tracking across BroadcastNews Videos with Visual Duplicates and Semantic Concepts″，IEEEInternational Conference on Image Processing(ICIP)，2006：141-144)，这些信息源包括TF-IDF(词项频率-反文档频率)文本特征和二进制图像重复特征。为了说明本发明的原理，这里将检测技术示例地描述为基于这一基线系统来构建。

图2示出了基线ONED系统200的架构，其中视频流可以来自例如一个或者多个多语言视频频道201(C₁、C₂、...C_n)。这些流然后分割成“镜头”。分割块没有明示。各镜头长约数秒(例如三秒)并且定义为无编辑者的切割、渐变或者分解的单个连续相机操作。对于各镜头，特征提取模块202从它的关键帧中提取图像特征(204)并且通过使用自动语音识别(206)、继而是机器翻译(208)来获得英语文本特征，使得不同语言的原视频剪辑变得可比较。“关键帧”是作为用于视频中后续帧的参考来使用的完整(可能压缩)图像。然后，ONED组件210使用文本和图像特征来标识呈现先前未见过的事件的新事件镜头并且将这些镜头发送到用户212，该用户可以是例如进行更深入分析的个人或者计算机程序。注意虽然在这一示例性实施例中使用视频镜头作为基本NED单位，但是本发明的原理并不依赖于这一选择，因此它们普遍适用于其它单位如新闻题材等。

基线系统使用传统tf·idf词项加权作为文本特征。由于各镜头S太短以至于无法包含用于计算有意义的文本相似度的足够文本(见下文)，所以用先前m＝5个镜头的文本和后继m个镜头的文本来扩展S的文本(注意所有这些镜头来自同一频道)。按照信息检索的惯例，将词项定义为唯一词语而将词汇表定义为所有唯一词语的集合。对于词汇表中的各词项t和镜头集E中的镜头S，基线系统使用以下公式来计算词项加权：

(f1)词项频率(tf)加权

，

(f2)反文档频率(idf)加权

，

(f3)词项(tf·idf)加权

。

其中tf是词项t在S的文本中的频率(出现次数)，N是E中镜头的总数，而df是其文本包含t的E中镜头的数目。

在实践中，有许多不同方式用以提取(几乎等同)适合于检测近似重复图像的图像特征。基线系统使用Campbell等人(M.Campbell、S.Ebadollahi和D.Joshi等人的″IMB ResearchTRECVID-2006Video Retrieval System″，NIST TRECVID workshop，2006)描述的色矩量特征，其中从关键帧图像的3×3网格中提取局部化色特征，而用于Lab色空间中各网格的前三个矩量用来构造S的n＝81个图像特征f_i(1≤i≤n)。然而，本发明不限于这一特定技术。

作为另一例子，IBM公司的Translingual Automatic LanguageExploitation(TALES)系统(R.Peterson，″IBM Strives for Super HumanSpeech″，http://www.accessible-devices.com/superspeech.html，2006)可以使用计算机群集以约四分钟的延迟-几乎实时地同时对来自数以千计频道的视频流执行图像和文本特征提取。

同样，上述图像和文本特征提取技术仅仅是可以使用的常规技术的例子，因此应理解可以利用其它适当技术。应理解本发明的原理着重于现有系统不能令人满意地实时完成的ONED组件(210)。

为了检测视频ONED系统中的新事件镜头，使用两个镜头S₁和S₂的文本和图像特征来计算它们之间的相异度。相异度越小，S₁和S₂就越可能呈现同一事件。相异度计算方法显示如下。先使用(f4)和(f5)获得文本相异度值：

(f4)归一化文本点积值

(f5)文本相异度值

text_{dissim}_{S_{1}, S_{2}} = 1 - text_{dotprod}_{S_{1}, S_{2},}

其中(j＝1，2)是S_j的词项加权。记法t∈S_j意味着词项t出现在S_j的文本中。接着使用(f6)和(f7)来获得图像相异度：

(f6)归一化图像相似度值

(f7)二值化图像相异度值

bin_image_{dissim}_{S_{1}, S_{2}} = I_{(image_{dissim}_{S_{1}, S_{2}} > T_{image}),}

其中是f_i,j(j＝1，2)是S_j的图像特征，T_image是用于二值化图像相异度值的阈值，而I是指示符函数。也就是，如果归一化图像相异度大于T_image，则二值化图像相异度是一，否则是零。最后，根据(f8)来获得S₁和S₂的总相异度值作为文本相异度值和二值化图像相异度值的线性组合：

overall_{dissim}_{S_{1}, S_{2}} = text_{dissim}_{S_{1}, S_{2}}

\div w_{image} \times bin_image_{dissim}_{S_{1}, S_{2}},

其中W_image是视觉形态的线性加权。这样的线性溶合模型是用以溶合视频ONED系统中视觉和文本形态的最有效方式之一。

现在呈现基线系统的细节。在针对各镜头的文本的信息检索中遵循典型预处理操作，即(1)使用标准Porter词干处理器(stemmer)来执行词干处理以及(2)通过使用标准SMART停用词(stopword)列表来去除停用词。“词干处理”是用于将变形词(或者有时为派生词)简化为它们的词干、基本或者词根形式-一般为书面词形式。“停用词”是对在文本处理之前或者之后滤除的词语的称谓。

注意镜头集E随着新镜头在流环境中陆续到达而保持变化。出于ONED目的，tf和idf加权的计算可以基于与E具有相似特征的静态镜头集E′。对于在E′的文本中不存在的词项，认为它的df是一。与增量式更新统计量N和df的方法相比，这一静态方法具有低得多的开销而检测准确度保持大致相同。

当镜头S到达时，S先被预处理而它的特征保存于存储器中。然后S与在S之前来自同一频道的除了刚才到达的L＝50个之外既往到达的所有旧镜头做比较，因为这L个镜头有可能在与S相同的新闻题材段中。如果在S与旧镜头之间的所有总相异度值在阈值T以上，则将S预测为新事件镜头。否则，如果在S与旧镜头S_old之间的所有总相异度值在阈值T以上，则将S预测为呈现与S_old相同的事件。

可以表明虽然文本特征在检测新事件中是最有效的组件，但是视觉近似重复仍可一贯地增强文本基线的检测准确度。具体而言，使用文本和图像特征可以将文本基线的检测准确度提高多达25％。这可以通过以下事实来说明，即两个镜头中的相似图像常常提供其呈现了相同事件的证据，即使它们的关联语音录制可能由于释义或者语音识别/翻译错误而没有充分相似。也就是，文本特征本身不能正确地检测这两个镜头呈现同一事件。然而，通过考虑来自图像特征的附加证据，该系统可以产生正确预测。

为了提供对总相异度值的更多了解，将原相异度公式(f8)改写成对文本和图像特征不对称处理的等效形式。进一步分析这一替代形式以表明NED处理如何可以更有效率。先将公式(f5)和(f7)带入(f8)中并且将S₁和S₂的总相异度改写为：

(f9)

overall_{dissim}_{S_{1}, S_{2}} = 1 - text_{dotprod}_{S_{1}, S_{2}}

通过考虑其中任一情况都具有两种子情况的两种可能情况来分析(9)：

(1)当S₁和S₂的关键帧是近似重复图像时，即

，得到

overall_{dissim}_{S_{1}, S_{2}} = 1 - text_{dotprod}_{S_{1}, S_{2}} .

因此可以预测：

(i)子情况1：如果

1 - T < text_{dotprod}_{S_{1}, S_{2}},

则S₁和S₂呈现同一事件；

(ii)子情况2：如果

1 - T &GreaterEqual; text_{dotprod}_{S_{1}, S_{2}},

则S₁和S₂呈现不同事件。

(2)当S₁和S₂的关键帧不是近似重复图像时，即

image_{dissim}_{S_{1}, S_{2}} > T_{image},

得到

overall_{dissim}_{S_{1}, S_{2}} = 1 - text_{dotprod}_{S_{1}, S_{2}} + w_{image} .

因此可以预测：

(i)子情况3：如果

1 + w_{image} - T < text_{dotprod}_{S_{1}, S_{2}},

则S₁和S₂呈现同一事件；

(ii)子情况4：如果

1 + w_{image} - T &GreaterEqual; text_{dotprod}_{S_{1}, S_{2}},

则S₁和S₂呈现不同事件。

图3图示了上述四种子情况。

对于任两个镜头S₁和S₂，看起来必须同时使用它们的文本/图像特征并且检查所有上述四种子情况以确定它们是否呈现同一事件。然而，这在许多情况下表现得没有必要。通过不对称处理文本和图像，可以通过将上述四种子情况改写成以下三种等效情况来极大地简化NED操作，其中只有情况2具有两种子情况：

(1)情况1：

1 - T &GreaterEqual; text_{dotprod}_{S_{1}, S_{2}} .

在这一情况下，无论归一化图像相异度

如何都预测S₁和S₂呈现不同事件。

(2)情况2：

1 - T < text_{dotprod}_{S_{1}, S_{2}} \leq 1 + w_{image} - T .

在这一情况下有两种子情况：

(i)子情况1：如果

image_{dissim}_{S_{1}, S_{2}} \leq T_{image},

则预测S₁和S₂呈现相同事件。

(ii)子情况2：如果

image_{dissim}_{S_{1}, S_{2}} > T_{image},

则预测S₁和S₂呈现不同事件。

(3)情况3：

1 + w_{image} - T < text_{dotprod}_{S_{1}, S_{2}} .

在这一情况下，无论归一化图像相异度

如何都预测S₁和S₂呈现相同事件。

在上述情况下，情况1和情况3只需镜头S₁和S₂的文本特征。这里，出于ONED目的，可以不对称处理文本特征和图像特征，即可以使用文本特征作为用以滤除对图像特征的多数不必要操作的预过滤器。这能够为检测效率带来很大益处，因为多数镜头对的文本相似度低，因此情况1是最频繁出现的情况。另一方面，不希望在文本特征之前处理图像特征，因为独自使用图像特征不能确定S₁和S₂是否呈现相同事件。

现在描述用于基于上述分析来提高ONED系统效率的技术。先给出优化ONED系统的高级概括、然后详细阐述单独技术。

图4示出了根据一个示例实施例的优化ONED系统400的架构。来自一个或者多个频道401(C₁、C₂、...C_n)的视频流划分成镜头(未明示)。对于各镜头S，通过使用语音识别(403)以及机器翻译(404)技术来提取文本特征(402)。文本特征用来标识和去除非新闻镜头(406)。其余新闻镜头被馈送到ONED组件412，在这里新事件镜头被标识和发送到用户(414)。在ONED处理中，仅当有必要确定S的关键字是否为锚定图像(410)并且计算在S与旧镜头之间的相似度时才提取S的图像特征(408)。

图5示出了对根据ONED系统400来使用的算法的描述。本领域技术人员将容易认识到算法500中的哪些伪代码部分涉及ONED组件所执行的步骤。

在广播视频中，非新闻视频段(例如商业节目、TV秀)总是与新闻题材混合。出于ONED目的，即使没有相似镜头此前已经出现过，非新闻镜头仍不应视为新事件镜头。去除这些镜头不仅减少ONED系统组件需要处理的镜头数目而且提高ONED系统的效率和检测准确度。

为此，一种简易方法在广播新闻视频时人工指定定期时间段。然而，这样的方法不可升级至如ONED系统需要处理的典型情况那样的数以万计的频道。另外，出于这里的用途而优选去除所有非新闻镜头而不是仅仅商业节目。作为一种替代方式，应用一种简易的基于文本的方法来去除非新闻镜头。它的基本思想在于非新闻镜头(例如商业节目)常常具有比新闻镜头更大的背景噪声，这造成语音识别器难以识别非新闻视频中的文本。另外在新闻镜头中主持人往往以比非新闻镜头更快的节奏谈话(例如TV秀)。基于这两种性质，如果S的识别文本包含少于J个的不同词项则预测镜头S不是新闻，其中J是预定常数。虽然这一方法相当简易，但是它高度准确并且具有有助于提高ONED系统效率的低开销。另外，放弃的非新闻镜头不再需要高代价的图像特征提取步骤。

如上所述，希望尽可能多地延迟图像特征的提取。如图4和图5中所示，当处理新镜头S时，先提取它的文本特征而不是它的图像特征。当将S与旧镜头S_old做比较时，先计算它们的规一化文本点积而不是它们的图像相异度。如果

1 - T &GreaterEqual; text_{dotprod}_{S, S_{old}}

(上述情况1)，则预测S和S_old呈现相同事件。在情况1和情况3中，跳过高代价但是不必要的图像相异度计算步骤。只有在情况2下(当

1 - T < text_{dotprod}_{S, S_{old}} \leq 1 + w_{image} - T

时)，需要计算图像相异度。由于多数镜头对的文本点积小，所以情况2出现的频率通常比情况1和情况3低得多。因而，可以节省多数图像相异度计算。

另外，当预测新镜头不是新事件时，如果所有比较的旧镜头属于情况1或者情况3，则可以跳过高代价的图像特征提取步骤。换而言之，当预测S是新事件镜头或者对于一些S_old有

1 - T < text_{dotprod}_{S, S_{old}} \leq 1 + w_{image} - T

成立时只需针对新镜头S提取图像特征。在实践中，当存在大量频道时，多数镜头会由于反复提及跨不同频道和在同一频道内的同一事件而呈现现有事件。另外，情况1和情况3的出现频率比情况2高得多。因此，对于大部分镜头可以跳过高代价的图像特征提取步骤。

在新闻视频中，主持人通常广播新闻题材。来自同一频道的两个新闻镜头常常具有含同一主持人的关键帧但是呈现不同事件。然而在这一情况下相似关键帧不应视为暗示这两个镜头呈现同一事件。为了将这一因素纳入考虑之中使用以下方法。在Campbell等人(M.Campbell、S.Ebadollahi和D.Joshi等人的″IMB ResearchTRECVID-2006Video Retrieval System″，NIST TRECVID workshop，2006)中描述的锚定图像检测用来检测关键帧是否为锚定图像。在这样的已知锚定图像检测方法中，基于支持矢量机(SVM)和低级色相关图特征来确定关键帧是否为锚定图像。可以利用其它已知图像检测方法。然后，当比较两个镜头时，如果任一镜头的关键帧是锚定图像则设置二值化图像相异度为一。也就是说，如果任一镜头为锚定图像镜头则将它们的关键帧视为相异。这可以减少锚定镜头错误证据对ONED系统检测准确度的影响。

通常，对事件的讨论在新闻视频中仅持续有限数量的时间，而新闻镜头不太可能呈现与相当旧的镜头相同的事件。因此，在存储器中仅保持在滑动窗如最近W天内那些旧镜头的信息。这里W是预定常数。为镜头S而保持的信息包括它的文本特征和它的图像特征(见上文)而不是视频图像，因为只有这些特征才是比较S与未来镜头所需要的。一旦旧镜头从滑动窗起到期，则立即丢弃它的信息。如图所示，图6C图示了根据本发明一个实施例的滑动时间窗。

通常，事件由大量镜头呈现。这些镜头中的仅一个镜头是新事件镜头。呈现同一事件的所有镜头往往彼此相似。因此，将新镜头与呈现同一事件的所有旧镜头做比较显得过度。代之以仅保持新事件镜头的信息。当新镜头S到达时，将S与旧的新事件镜头做比较。如果将S预测为呈现新事件的新事件镜头，则在存储器中保存S的信息。否则丢弃S。

在镜头的文本中的所有词项可以按照它们的词项加权的降序来归类。一般而言，具有较大加权的那些词项对于NED而言更重要。因此，对于各保存镜头，仅保持具有最大加权的前K个词项而不是所有词项。这里K是预定常数。仅前K个词项用来计算文本点积。

为了减少计算相异度值的开销，通过使用低开销方法来开发预过滤技术以从新镜头中快速滤除呈现不同事件的多数镜头。以这一方式，可以实质性地减少需要计算的相异度值的数目。考虑两个镜头S₁和S₂。如果S₁和S₂呈现同一事件，则它们的文本中的靠前词项往往具有一些重叠。也就是，一个或者一些词项有可能在S₁的文本和S₂的文本的靠前词项中出现。因此，这些靠前词项可以用来快速滤除不必要的计算。具体而言，具有预定常数M(M≤K)。在计算S₁和S₂的文本点积之前，先检查S₁和S₂的前M个词项是否相交。如果是这样，则继续计算S₁和S₂的文本点积。否则预测S₁和S₂呈现不同事件并且不计算它们的文本点积。

构建索引以避免对已经滤除的镜头的不必要处理。词汇表中的每个词项具有词项id。各镜头具有与它的到达时间对应的镜头id。为所有保存镜头而保持两个索引：正向索引和反向索引。前向索引具有用于各保存镜头的条目。这些条目按照镜头的到达时间降序来排列。这允许快速标识和丢弃从最近W天的滑动窗已经到期的那些镜头的信息(见上文)。对于各保存镜头，对应条目保持图像特征和与它们的词项加权关联的前K个词项。这些词项按照它们的词项id的升序来排列。因而，两个镜头的文本点积可以通过它们的词项列表的高效“合并”来计算。

对于各保存镜头，通过反向索引仅跟踪它的前M个词项。反向索引具有用于词汇表中各词项的条目。用于词项t的条目是其前M个词项包含t的所有镜头的镜头id的记录(链接)列表。这些镜头id按照降序来排列使得可以高效完成记录列表合并。当新镜头S到达时，仅扫描与S的前M个词项对应的M个记录列表。这M个记录列表合并在一起以找到可以呈现与S相同的事件的候选镜头的镜头id。这是上述预过滤技术。然后对于这样的各候选镜头S_c，正向索引用来计算S和S_c的文本点积和图像相异度(如果需要)。这一计算在生成候选镜头id之时执行。以这一方式，如果S和旧镜头的总相异度值小于阈值T，则将S预测为非新事件镜头而针对S的处理立即停止。否则，如果将S预测为新事件镜头，则S的信息可以容易地添加到反向索引中，因为S的镜头id大于保存镜头的镜头id。

图6A图示了根据本发明另一实施例的在线新事件检测方法。这一方法可以实施于ONED系统400中。如图所示，方法600确定给定事件是否为视频流中的新事件。该视频流包括多个事件。步骤602从给定事件中提取第一特征(例如文本特征)集。该第一特征集与给定事件所关联的第二特征(例如图像特征)集相比较处理起来计算代价更低。当存在一个或者多个第一相异度标准时，步骤604计算仅使用第一特征集来计算在给定事件与视频流中的一个或者多个先前事件之间的一个或者多个第一相异度值。步骤606基于一个或者多个计算的第一相异度值来确定给定事件是否为新事件。

图6B图示了根据本发明又一实施例的在线新事件检测方法。这一方法可以实施于ONED系统400中。如图所示，方法610是用于在视频流环境中捕获呈现先前未见过的事件的新事件视频剪辑的实时新事件检测处理。该方法包括多级顺序过滤处理。该处理包括标识相关特征(步骤612)、基于用以导出或者提取特征量的计算量对特征排序(步骤614)以及基于排序的特征来形成一个或者多个多级顺序过滤器，其中在较难计算的特征之前使用较易计算的特征(步骤616)。在一个特定实施例中，多级顺序过滤处理中的一级是独自使用文本特征作为用以检测新事件的过滤器，而后续级是使用图像特征作为用以补充检测处理的过滤器。

最后参照图7，图示了根据本发明一个实施例的、其中可以实施在线新事件检测技术的计算机系统。也就是，图7图示了根据本发明一个实施例可以用来实施ONED技术(例如上文在图1至图6的背景下描述的组件和方法)中一个或者多个组件/步骤的计算机系统。将理解可以在一个这样的计算机系统上或者在多个这样的计算机系统上实施单独组件/步骤。在实施于分布式计算系统上的情况下，单独计算机系统和/或设备可以经由适当网络如因特网或者万维网来连接。然而，可以经由专用网或者局部网来实现该系统。在许多情况下，本发明不限于任何特定网络。

因此，图7中所示计算机系统可以代表能够提供这里所述所有或者部分功能的一个或者多个服务器或者一个或者多个其它处理设备。例如，图7代表用于实施图2或者图4的ONED系统组件的计算机架构。

如图所示，计算机系统700包括经由计算机总线710或者替代连接布置来耦合的处理器702、存储器704、输入/输出(I/O)设备706和网络接口708。

应认识到如这里使用的术语“处理器”旨在于包括任何处理设备，如例如包括CPU和/或其它处理电路的处理设备。也应理解术语“处理器”可以指代多个处理设备而与处理设备关联的各种单元可以由其它处理设备共享。

如这里使用的术语“存储器”旨在于包括与处理器或者CPU关联的存储器，如例如RAM、ROM、固定存储器设备(例如硬驱动)、可移动存储器设备(例如盘)、闪存等。存储器可以被认为是计算机只读存储介质。

此外，如这里使用的短语“输入/输出设备”或者“I/O设备”旨在于包括例如用于向处理单元输入数据的一个或者多个输入设备(例如键盘、鼠标等)和/或用于呈现与处理单元相关联的结果的一个或者多个输出设备(例如显示器等)。

另外，如这里使用的短语“网络接口”旨在于包括例如用以允许计算机系统经由适当通信协议与另一计算机系统进行通信的一个或者多个收发器。

因而，包括用于执行这里所述方法的指令或者代码的软件组件可以存储于一个或者多个相关联存储器设备(例如ROM、固定或者可移动存储器)中而在使用准备就绪时被部分或者整体加载(例如加载到RAM中)并且由CPU执行。

在任何情况下，应认识到这里描述的和在附图中示出的本发明技术可以用硬件、软件或者其组合的各种形式来实施，例如具有关联存储器、一个或者多个具体实施集成电路、功能电路等的一个或者多个可操作编程的通用数字计算机。给出了这里提供的本发明技术，本领域普通技术人员将能够设想本发明技术的其它实施。

虽然这里已经参照附图描述了本发明的示例实施例，但是应理解本发明不限于这些确切实施例并且本领域技术人员在不脱离本发明的范围或者精神情况下可以做出各种其它改变和修改。

Claims

1.一种用于确定给定事件是否为包括多个事件的视频流中的新事件的方法，包括以下步骤：

从所述给定事件中提取第一特征集，其中所述第一特征集与所述给定事件所关联的第二特征集相比较处理起来计算代价更低，并且其中所述第一特征集包括文本特征集，而所述第二特征集包括图像特征集；

当存在一个或者多个第一相异度标准时，仅使用所述第一特征集来计算在所述给定事件与所述视频流中的一个或者多个先前事件之间的一个或者多个第一相异度值，其中第一相异度值为文本相异度值；以及

基于所述计算的一个或者多个第一相异度值来确定所述给定事件是否为新事件。

2.根据权利要求1所述的方法，其中还包括以下步骤：

从所述给定事件中提取所述第二特征集；

当存在一个或者多个第二相异度标准时，使用所述第二特征集来计算在所述给定事件与所述视频流中的所述一个或者多个先前事件之间的一个或者多个第二相异度值，其中第二相异度值为图像相异度值；以及

基于所述一个或者多个第二相异度值来确定所述给定事件是否为新事件。

3.根据权利要求1所述的方法，还包括以下步骤：将与所述给定事件做比较的一个或者多个先前事件的数目限制为仅包括给定时间窗内的先前事件。

4.根据权利要求1所述的方法，在计算所述一个或者多个第一相异度值之前，还包括以下步骤：预过滤用来计算所述给定事件与所述一个或者多个先前事件之间的所述一个或者多个第一相异度值的所述先前事件，其中所述预过滤步骤是基于对在所述给定事件和所述一个或者多个先前事件中的项目之间重叠的确定。

5.根据权利要求1所述的方法，还包括以下步骤：构建一个或者多个索引以避免对已经滤除的镜头的不必要处理。

6.根据权利要求1所述的方法，其中所述一个或者多个第一相异度标准包括小于、大于或者等于给定值的文本相异度阈值。

7.根据权利要求2所述的方法，其中所述一个或者多个第二相异度标准包括小于、大于或者等于给定值的图像相异度阈值。

8.一种实时的新事件检测方法，用于在视频流传输环境中捕获呈现先前未见过的事件的新事件视频剪辑，所述方法包括提供多级顺序过滤处理的步骤，该处理包括以下步骤：

标识相关特征；

基于用以导出或者提取所述特征的计算量对所述特征排序；以及

基于所述排序的特征来形成一个或者多个多级顺序过滤器，其中在较难计算的特征之前使用较易计算的特征，其中所述较易计算的特征是文本特征，所述较难计算的特征是图像特征，并且其中多级顺序过滤处理中的一级是独自使用文本特征作为用以检测新事件的过滤器，而后续级是使用图像特征作为用以补充检测处理的过滤器。

9.根据权利要求8所述的方法，其中构建一个或者多个索引以避免对已经滤除的镜头的不必要处理。

10.根据权利要求8所述的方法，其中只有与在最近W天内的标识新事件视频剪辑有关的信息才存储于存储器中。

11.根据权利要求8所述的方法，其中只有与各新事件视频剪辑的具有最大加权的前K个词项有关的信息才存储于存储器中。

12.根据权利要求8所述的方法，其中所述新事件视频剪辑中的具有最大加权的前M个词项用来预测呈现为与所述新事件视频剪辑不同的事件的非新事件视频剪辑。

13.根据权利要求8所述的方法，其中文本特征独自用来滤除多数非新事件视频剪辑，从而避免对这些非新事件视频剪辑的图像特征提取。

14.根据权利要求13所述的方法，其中当将所述新事件视频剪辑与所述非新事件视频剪辑做比较时，先计算它们的文本相似度而如果它们的文本充分相异则跳过图像相似度计算。

15.一种用于确定给定事件是否为包括多个事件的视频流中新事件的系统，该系统包括：

用于从所述给定事件中提取第一特征集的装置，其中所述第一特征集与所述给定事件所关联的第二特征集相比处理起来计算代价更低，其中所述第一特征集包括文本特征集而所述第二特征集包括图像特征集；

用于当存在一个或者多个第一相异度标准时，仅使用所述第一特征集来计算在所述给定事件与所述视频流中的一个或者多个先前事件之间的一个或者多个第一相异度值的装置，其中第一相异度值为文本相异度值；以及

用于基于所述计算的一个或者多个第一相异度值来确定所述给定事件是否为新事件的装置。

16.根据权利要求15所述的系统，还包括：

用于从所述给定事件中提取所述第二特征集的装置；

用于当存在一个或者多个第二相异度标准时，使用所述第二特征集来计算在所述给定事件与所述视频流中的所述一个或者多个先前事件之间的一个或者多个第二相异度值的装置，其中第二相异度值为图像相异度值；以及

用于基于所述计算的一个或者多个第一相异度值以及所述一个或者多个第二相异度值来确定所述给定事件是否为新事件的装置。

17.根据权利要求15所述的系统，其中所述系统还包括：

用于将与所述给定事件做比较的一个或者多个先前事件的数目限制为仅包括给定时间窗内的先前事件的装置。