CN1692357A - 用于在视频的未知内容中发现模式的计算机化方法 - Google Patents
用于在视频的未知内容中发现模式的计算机化方法 Download PDFInfo
- Publication number
- CN1692357A CN1692357A CNA200380100520XA CN200380100520A CN1692357A CN 1692357 A CN1692357 A CN 1692357A CN A200380100520X A CNA200380100520X A CN A200380100520XA CN 200380100520 A CN200380100520 A CN 200380100520A CN 1692357 A CN1692357 A CN 1692357A
- Authority
- CN
- China
- Prior art keywords
- video
- cluster
- data
- section
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
- G06F16/739—Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7834—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
- G06F16/785—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
- G06F16/786—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/754—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries involving a deformation of the sample pattern or of the reference pattern; Elastic matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Abstract
提供一种用于在视频的未知内容中发现模式的方法。该视频被划分为不相交的段的集合。每个集合包括视频的所有帧,且每个集合的划分是根据所选择的视频的低级别特征。不相交的各段被聚合为相应的聚类集合,每个聚类包括相似的段。这些聚类接着被标记,并且识别标记之间的关联规则,以在视频的未知内容中发现高级别模式。
Description
技术领域
本发明一般涉及计算机化视频处理,更具体地,涉及使用聚类和关联规则在视频内容中发现模式。
背景技术
数据挖掘从大规模数据库和互联网中抽取信息。数据挖掘已经被应用于市场、财务、传感器和生物数据的分析。数据挖掘不应与在数据中搜索已知模式的模式匹配混淆。
基本上,数据挖掘发现数据中“感兴趣的,,以及先前未知的模式。通常感兴趣的模式是按照特定模式的再出现率而定义的。因为数据挖掘并不假设任何预先定义的模式,所以它常常被描述为非监督学习。
数据挖掘从大量的数据中导出规则、趋势、规律性和相关性。数据挖掘通常基于人工智能(AI)、基于记忆的推理(MBR)、关联规则的产生、决策树(DT)、神经分析、统计分析、聚类和时间序列分析。
聚类识别数据中相关信息的同类组。现有技术的聚类假设数据间的关系是已知的。聚类已经在统计学、模式识别和机器学习中被广泛研究。聚类应用的例子包括用于市场分析的客户细分,以及在所检测到的数据中识别信号数据库的子类。
聚类技术可以被大致分为划分技术和分层技术。划分聚类将数据分为K个聚类,使得每个聚类中的数据相互之间比与不同聚类中的数据更相似。K的值可以由用户指定,或者迭代地确定,以最小化聚类准则。
分层聚类是划分的嵌套序列。聚集的分层聚类将数据放入原子聚类中,然后将原子聚类合并为越来越大的聚类,直到所有数据都在单个大聚类中。分裂的分层聚类反转该过程,开始于所有数据在一个聚类中,并且将该聚类细分为更小的聚类,参阅例如Jain等人的“Algorithms for Clustering Data”,Prentice Hall,1988;Piramuthu等人的“Comparison of SOM neutral network and hierarchicalclustering methods”,European Journal of Operational Research,93(2):402-417,1996年9月;Michaud的“Four clustering techniques”,FGCS Journal,Special Issue on Data Mining,1997;以及Zait等人的“A Comparative study of clustering methods”,FGCS Journal,SpecialIssue on Data Mining,1997。
多数数据挖掘方法降低输入数据的维度。在高维数据空间中形成的聚类不大可能是有意义的聚类,因为高维数据空间中任何地方的点的期望平均密度都很低。用于降低数据维度的已知技术包括主元分析(PCA)、因素分析、奇异值分解(SVD)和小波。主元分析也被称为Karhunen-Loeve展开,它寻找说明数据属性差异的更低维度表示,而因素分析寻找数据属性中的相关性。Jain等人在“Algorithms forfeature selection:An evaluation,Technical report”(Department ofComputer Science,Michigan State University,East Lansing,Mich.,1996)中描述了一种用于图像分析的技术。
一种用于消费者采购模式分析的常用数据挖掘方法是非明显关联或关联规则的识别。明显关联的一个例子是购买婴儿配方食品的消费者同时也买尿布。然而在1992年发现,啤酒和尿布常常在晚间被同时购买。这种关联是非明显关联的一个好例子。通常人们不会把尿布和啤酒相关联作为强相关的购买项,因为啤酒通常不被认为是婴儿配方食品。这种方法也被称为市场指数分析。
关联被定义如下。如果有n个项目I1,...In的集合和例如数据库或操作的一种事务,该事务选择该n个项目的一个子集,则两个项目Ii和Ij之间的关联被定义为用于其中项目Ii和Ij均被选入子集的任何事务的一种规则R。规则R的条件被定义为项目Ii的出现。规则R的结果被定义为项目Ij的出现。规则R的支持被定义为同时具有项目Ii和Ij的事务的百分比。规则R的组合被定义为项目Ii和Ij在同一事务中出现。规则R的置信度被定义为组合的支持与条件的支持的比值。最后,规则R的改进被定义为规则的支持与条件Ii的支持和结果Ij的支持的乘积的比值。
当关联的支持和置信度都高的时候,关联是强的。例如,对于杂货店的交易,牛奶与其它每种卖出的项目都强相关,所以支持很高,因为多数交易包括牛奶作为一个项目。然而对于例如贺卡的一些项目,因为这些不被经常购买所以置信度很低。
最后,关联的改进也需要很强,因为小于1的改进表示条件预测组合不比使用该组合本身的原始概率更准确。因此即使规则的支持和置信度都很高,而相应的改进不大于1,该规则相对纯粹碰运气也没有优势。在下文中我们描述关联用于视频特征的“已标记聚类”而非消费“项目”。
时间序列分析对数据值求相关,作为其时间分离的函数。例如,时间序列分析已经被用于在股票价格、销售量、气候数据和EKG分析中发现模式。通常假设有一个产生该时间序列的基础确定性过程,而且该过程不是随机的。然而,真实世界现象的时间序列数据经常与非确定性数据例如不可避免的随机噪声混合在一起。
典型地,利用相似性度量或者其某种变化对时间序列进行比较,该相似性度量例如欧几里得距离。然而欧几里得距离度量往往是不可靠的。一种鲁棒性更强的相似性度量基于动态时间偏差(DTW),参阅Berndt等人的“Finding patterns in time series:a dynamicprogramming approach”,Advances in Knowledge Discovery and DataMining,AAAI/MIT Press,Menlo Park,CA.pp.229-248,1966。DTW试图通过选择性地拉伸或收缩时间轴而令时间序列对准。
至今,多数数据挖掘技术集中于文本数据、数值数据和线性(一维)信号。然而,大量信息现在很容易以同时具有空间和时间维度的多维图像、电影和视频的形式被获得。
一些现有技术对视频执行初步类型内容分析。最普通的方法用一组已标记的样本训练专家系统,因此这些技术是基于监督学习的,而不是非监督的数据挖掘,参阅Xu等人的“Algorithms and Systems forSegmentation and Structure Analysis in Soccer Video”,IEEEInternational Conference on Multimedia and Expo,Tokyo,Japan,Aug.22-25,2001;由Xu等人于2001年4月20日提交的序列号为09/839,924的美国专利申请“Method and System for High-LevelStructure Analysis and Event Detection in Domain Specific Videos”;以及Naphade等人的“Probabilistic multimedia objects (multijects):Anovel approach to indexing and retrieval in multimedia systems”,Proceedings of the fifth IEEE International Conference on ImageProcessing,vol.3,pp.536-540,1998。
现有技术的非监督视频分析技术多数是内容中性的。例如视频已经通过从已识别的段中选择关键帧而被进行了摘要。其中这些段通过检测场景或“拍摄”变化来确定,例如音频音量减弱或突变。场景描述什么是不重要的。按照某种准则,所选择的特定帧通常是该拍摄中其它帧的好代表。其它技术利用摄像机的视角或视野的变化例如变焦。这种内容中性技术已经取得了中等的成功,并且为了语义上的满意性能,需要补充的内容特定技术。
然而总的来说,与基于内容的视频挖掘相关联的问题没有被很好理解。
例如,如果没有可观的修改,众所周知的分类与回归树(CART)能否应用于视频挖掘是不清楚的。CART方法将独立变量分为小的数据集合组,并且为小数据集合配以一个常函数。在分类树中,该常函数取一个有限的小集合的值,例如是和不是,或者低、中和高。在回归树中,使响应的平均值适合小的相连接的数据集合。
因此,需要提供一种用于挖掘由场景检测到的多维时间序列数据即由摄像机获得的帧序列-视频的系统和方法。视频挖掘对于在视频中发现感兴趣的模式将是尤其有用的,在该视频中,域的先验模型和内容例如编辑模型、新闻视频的特征或者体育视频中的模式等不容易获得。
发明内容
一种方法在视频的未知内容中发现模式。该视频被划分为不相交的段的集合。
每个集合包括视频的所有帧,且每个集合的划分是根据所选择的视频的低级别特征。
不相交的各段被聚合为相应的聚类集合,每个聚类包括相似的段。
这些聚类接着被标记,并且在标记中识别关联规则,以在视频的未知内容中发现高级别模式。
附图简述
图1是根据本发明的视频挖掘方法100的流程图;
图2是一段高尔夫视频的时间序列示意图;
图3是本发明所使用的点交叉距离矩阵;
图4是具有重复模式的点交叉距离矩阵;
图5是近似对角最小代价路径的示意图;以及
图6是具有阈角度的最小路径的示意图。
本发明的优选实施方式
图1示出了根据本发明的视频挖掘方法100的步骤。本发明对于挖掘其中内容中的模式先前未知的视频例如监视或家庭视频尤其有用。被发现的模式可以用于视频的“盲”摘要。我们用盲摘要表示我们不需要知道要被摘要的视频的内容或者类型。本方法对于例如广播新闻、广播体育、故事片等精心准备的视频同样是有用的。这样,本方法使得能够对内容和制作风格上具有多种变化范围的视频进行盲摘要。
我们从任意的可能是未知的内容和制作风格的视频101开始。该视频包括视觉和音频数据。首先,我们选择110内容的低级别特征102,例如,一组特征可以由诸如MPEG-7描述符的运动活动性、颜色、音频、纹理等组成。执行挖掘可以使用一个或多个所选特征102,并且每个挖掘过程的结果152可以被组合起来推断160对输入视频101的更高级别的理解。我们使用所选择的特征以产生用于视频101的时间序列200。
图2是一个基于运动活动性的高尔夫比赛视频的时间序列200的例子。图2将高尔夫视频中的运动活动性级别绘制为时间的函数。时间按照帧编号被表示在x轴201上,且运动活动性作为自从前一帧以后在一个宏块中运动的像素的平均数目被沿y轴202表示。曲线203表示原始的运动活动性。我们对运动活动性数据设定阈,分为运动活动性的高211、中212和低213级别。
我们观察长的突起,它表示低运动活动性后跟随运动活动性的突然升高,并且用所示的尖峰来标记该上升沿。这种尖峰对应于击球。直到击球之前,运动活动性典型地是很低的。在击球的过程中和紧随击球之后,摄像机快速移动以追球,因而产生运动活动性的上升沿。
根据本发明,视频101的帧序列中的运动活动性构成一个时间序列。视频帧的彩色直方图是另一种多维时间序列。视频中的时间序列数据还可以包括诸如语义标记的符号值和音频信号,语义标记例如MPEG-7描述符。应该理解的是,当我们说“时间序列”时,我们是指这一系列数据具有沿x轴的某种类型的排序,例如时间排序。例如空间排序的其它序列排序也是可能的,并且本发明可以被等同地应用于“空间”序列,或者其它多维数据的有序序列。当然在空间序列中,所有路径将处于多个空间分辨率。
本方法100基于视频的时间序列200度量130低级别特征的相似表达,例如在运动情况下的高、中或者低,主导的蓝色、绿色或者棕色可以是另一种表达。我们提供一种“软”匹配,其中小的差异不必使匹配无效。我们这样做是通过数据平滑或者对低级别特征102设定阈,如前所述。如果使用多个特征,时间序列数据可以被加权。例如在最终结果中,颜色与运动活动性相比可以被给予更大的权重。在推断160的过程中低级别特征之间的耦合很松散,因此我们宁可将本数据挖掘分别应用于每个特征,并且通过融合160已聚类的数据151推断出更高级别的模式161,该已聚类数据151是通过对所选择的低级别特征102进行视频挖掘而单独获得的。
与仅仅寻找在给定分辨率下的相似对的现有技术相比,本匹配在大的时间序列中寻找140所有时间分辨率下的所有可能的匹配对,大时间序列例如从视频中获得的时间序列200。
为了在时间序列S(i)200中挖掘所有时间模式103,我们需要各种大小w的多分辨率窗,
w:S(1:w),S(2:w+1),...,S(N-w+1:N)。
应该注意,我们并不显性地构造多分辨率的窗w。作为替代,我们的窗w由交叉距离矩阵300隐式定义,并且我们所做的是找到这些被隐式定义的窗。这使得我们能够找到所有分辨率下的所有匹配。我们的隐式窗寻找技术将在下文中被更加详细地介绍。
我们度量130时间序列数据200之间的点交叉距离300,以寻找140最小距离400,从而对视频101进行聚类150。问题是当多分辨率窗具有不同大小时如何找到相似性。
如图3所示,我们用点距离矩阵300来解决这个问题。大小为w的两个窗302-303之间的距离301被度量如下:
则,
D1(xi,xj)=(xi+k-xj+k)2,且
图3示出了点距离矩阵300的例子,其中一个窗301为xi-xi+w,且另外一个窗302为xj-xj+w。直线301表示式(1)。曲线311和312分别表示时间序列200。即,同一时间序列沿着x轴和y轴,换句话说,该度量是自相关的。
可以对点距离矩阵300进行搜索,寻找点交叉距离短的对角线。在图3的表示法中,距离用灰度进行着色,其中短距离比长距离的灰度浅,因而其中所有距离都为零的主对角为白色,因为该度量是自相关的。
作为一种优势,矩阵300并不限于任何给定的窗大小w。因此可能找到短距离值的所有可能对角路径,其中短是相对于某个阈距离值TD。如果利用时间偏差(warping),路径可以“接近”或者基本上平行于图3中的主对角线310。
如图4中所示,我们通过使用例如小波的适用于本视频内容挖掘的多标度技术对时间序列进行次采样,执行多分辨率分析。这产生一个平滑的矩阵400。本方法跨越不同的窗大小w进行自动匹配,以揭示时间序列中的所有重复的时间模式401-402。
动态时间偏差(DTW)用来在一定限度内“拉伸”和“压缩”时间,以允许时间长度不同的相似视频段之间良好对准。我们用段来表示一个帧序列。我们的段是不相交的,即各段的各帧不重叠,且所有的段组成整个视频。
动态规划(programming)可以用于寻找给出最佳匹配的段的时间偏差。DTW寻找在一定约束下网格中的最优路径,该约束为
(i,j),1≤I≤N,1≤j≤M,
其中N和M分别是两个段的长度,并且每个网格点(i,j)是两个段内第i个和第j个点之间的距离。
我们利用动态规划在点交叉距离矩阵中寻找各点对之间的最小代价路径。我们希望该路径基本上是对角的,即基本平行于主对角线310。此外,我们希望该路径穿过该矩阵中的低交叉距离值,其中低由某个阈值TD定义。这些路径是图3和图4中白色的或接近白色的对角曲线段。
最小代价的一种可能的定义是沿路径的交叉距离值的平均。我们还对允许的路径加上某些约束,即路径500保持沿对角方向的走向,见图5。一种可能的约束集合是,在沿着路径的每一步,可以向下移动一格,向右移动一格,或者对角地移动一格,如图所示。
此外如图6所示,该对角线与在路径两个端点间所绘的直线之间的阈角度应该小于α°,其中0≤α≤45°。可以通过动态规划来确定这样的路径代价准则和约束,以寻找点交叉矩阵中两点之间的最小代价有效路径。
如此获得的有效路径即使不是精确对角的,它指定了时间序列中两个相应子序列的动态时间偏差。因此通过使用动态规划,我们寻找对于两个子序列之间的好匹配的适当时间偏差,并且寻找交叉距离矩阵中两点之间的最小代价路径。
动态规划允许我们能够寻找矩阵中两个给定的点之间的最小代价路径。我们对于寻找矩阵中所有可能的点对之间的最小代价路径感兴趣,并且选择那些代价低于给定阈的路径。
完成它的一种强力方法是通过对每个可能的点对运行动态规划过程。因为交叉距离矩阵是对称的,即时间序列的第i个和第j个样点之间的距离与第j个和第i个样点之间的距离是相等的,我们只需要处理上半个矩阵,其中仅有N2/2个点以及N4/4个点对。然而,处理步骤数目可以被减少以提高本方法的效率。
首先如图6中所示,我们要求对角线和通过路径的两个端点的直线之间的夹角小于α°。然后对于每一个点,我们寻找该点到位于与对角线603呈+α601和-α602角度的直线之间的各点的最小代价路径。此外我们还约束路径上的所有点的值都要低于阈T。在这种情况下,我们能够对整个矩阵设定阈并且仅在高于阈的点的集合之间寻找最小代价路径。
所有这种点之间的最小代价路径都被找到之后,我们可以把端点互相接近的较短路径合并为较长的路径。当一个路径是另一个的超集时,我们也合并这些路径。我们除去那些两端点之间的欧几里得距离小于一定长度的路径。余下的路径集合为我们提供多分辨率的视频中所有的相似子序列对。
在现有技术中,利用动态时间偏差求相似性(例如通过使用动态规划寻找交叉距离矩阵中的最小代价路径)是用于在更大的时间序列中查询一个给定的时间序列模式,见Park等人的“Efficient search forsimilar subsequences of different lengths in sequence databases”,International Conference on Data Engineering(ICDE),pp.23-32,2000。
本技术也可以用于在语音分析的情况下寻找两个序列之间好的对准,见Sakoe等人的“Dynamic Programming algorithm optimizationfor spoken word recognition”,IEEE Trans.Acoust.,Speech,SignalProcess.,ASSP 26,pp.43-49,1978,以及在基因和蛋白质序列分析的情况下进行这种寻找,见Aach等人的“Aligning gene expression timeseries with time warping algorithms”,Bioinformatics,17:495-508,2001。然而这些方法仅仅在给定的交叉距离矩阵中寻找一条具有给定起点的路径,与之相对比,我们寻找所有路径。
在现有技术中,时间序列中子序列的自相似性的计算通常利用一个固定的窗大小w,以及计算原始序列上的移动窗之间的交叉距离,见Agrawal等人的“Efficient Similarity Search in SequenceDatabases”,Proc.of the 4th Int’l Conference on Foundations of DataOrganization and Algorithms,以及“Lecture Notes in ComputerScience”,730,Springer Verlag,p.,69-84。
交叉距离矩阵的其它现有技术应用具有点阵图的形式,其中矩阵元素或者是1或者是0,表示精确匹配或者不匹配。它们已经被用于定性分析以及作为直观工具,见Church等人的“Dotplot:A programfor exploring Self-similarity in millions of lines of text and code”,Journal of Computational and Graphical Statistics,2(2):153--174,1993,或者用于沿对角线分割自相似区域,但不用于自动寻找相似子序列对,见Jeffry的“An Automatic Method of Finding TopicBoundaries”,Proceedings of the 32nd Annual Meeting of theAssociation for Computational Linguistics,1994。本方法可以用于任何这些应用。
霍夫变换可以被应用于把多个短路径合并为曲线。霍夫变换将矩阵400内特定形状的特征分离出来。我们可以利用霍夫变换是因为特征的简单解析描述是不可能的。作为优势,霍夫变换能够容忍特征边界描述中的空隙,而且相对来说不受数据中噪声的影响。此外,霍夫变换对于发现特征的全局描述尤其有用,其中解类的数目是先前未知的,如此处的情形。
我们使用霍夫变换的动机是每个输入距离特征表示它对全局一致的模式的贡献。我们通过将特征空间量化成为有限区间或者累加器单元来执行霍夫变换,当在沿一条离散化的路径排列的累加器单元增加时,它们揭示了该离散化路径。所得到的累加器阵列中的峰值表示一条相应路径存在于该特征空间的强证据。我们利用霍夫变换识别最适合一组给定边沿的路径。
当然应该理解,使用时间序列自相关寻找匹配段的其它技术也可以被使用。例如,可以使用点积。在这种情况下,该积的大小表示相似度级别。对于例如连续帧的彩色直方图的多维时间序列,可以使用直方图交集。
当我们利用DTW找到匹配窗之后,我们将相似段聚合并标记150为聚类151。我们用段表示视频中的帧序列,它直接对应具有相似特征的窗。这样,利用时间序列数据的相似段的识别基本上允许我们划分视频并且把相似段聚合为聚类。
我们等价地使用术语“标记”和“项目”,正如上面为关联所定义的。当我们涉及聚类时,我们暗指聚类是被标记的,例如高运动活动性帧的聚类,或者视频的声道中高噪声的聚类。使用关联和结合利用不同特征所获得的标记152允许我们推断160聚类151中的高级别模式161。这些模式可以接着被用于将视频101盲摘要170为摘要171。该盲摘要基本上根据高级别模式161抽取视频的所选帧。
在步骤160中,我们寻找聚类的标记之间的关联。一种关联类型寻找时间相关的“标记”。这种相关可以或者是同时的,或者是时间偏移的,例如大量动作和高噪声信号指示在娱乐视频中的“动作”事件,或者其后跟随有鼓掌和欢呼的大量动作指示体育视频中的“得分”事件。
我们按以下方法寻找标记之间的关联。每个聚类的标记被认为和前述的“项目”是等价的。因此,我们产生包括标记Li的出现的条件,和包括标记Lj的出现的结果。在这种情况下,时间轴上的每个点都具有一个相应的事务,该事务包括对应于多于一个视频特征102的标记。
例如,我们可以具有两个标记集合,第一个对应于高、中或低的运动活动性描述,且第二个关于音频语义类,其中该标记将显示出例如鼓掌、欢呼、音乐等的音频类中的成员。然后,我们可以找到体育视频中高运动活动性和鼓掌/欢呼之间的关联。注意,即使使用更复杂的标记,关联也可以通过直接计算被找到。也可能在标记的组合之间找到复合关联。
接着,强的关联可以帮助我们找到视频101中相应的普通和不普通的模式,因为模式越普通,支持就越高。
然后,视频101的摘要171包含依赖用户需要的普通和不普通的事件的组合。一种极端情况中,摘要171包含具有强关联的稀有事件。另一个极端中,该摘要包含具有强关联的普通事件。
因此,聚类150开始于基于如上所述的距离度量对所有的相似段进行聚类。部分重叠的段被分开,使得它们或者具有同样的重叠部分,或者完全没有。可以利用聚集程序合并聚类对以形成更大的聚类。我们定义集合S包含至少属于相似聚类对之一的所有段。则集合SC∪S是整个视频101,并且集合SC是集合S的补集。聚类被标记,例如A,B,C,...和A∪B∪C...=S。SC可以被认为是“无用”聚类,相对于标记A,B和C等不是“有意义”的。
这样,聚类150产生具有各种长度的无重叠的段的集合S以及它们相互间的距离。每个聚类151具有以下相关的参数:聚类的紧密度,即聚类中的段有多相似;聚类中段的数目;聚类中段的总长度(以帧或者时间);段的最近点之间的平均距离,它显示了各段在整个视频中的扩散。
聚类中的每一个段都具有以下参数:到其它聚类中心的平均距离,它显示了该段对包含它的聚类具有多大的代表性;以及它的长度(帧或时间)。
然后,摘要代价函数C172可以对以下三者之间的绝对差值进行折衷:所要求的摘要长度、所选择要被包括入摘要171的段的集合R的总长度(即RS)、S中每个段和集合R中最近段之间的距离平均值。这显示了集合R(摘要171)对集合S具有多大的代表性,S当然是整个视频101。我们可以添加一个条件以偏重R在时间上的紧密度,或者相反。于是,摘要171是集合S的使代价函数172最小化的子集R。
该摘要可以接着用于新的视频控制形态,例如“智能”的快进和倒退,以及面对没有先验域知识的情况下立即重定位。
要理解,各种其它适应和修改可以在本发明的本质和范围内做出。因此,所附权利要求书的目的是将所有属于本发明的真实本质和范围之内的这种变化和修改包括进来。
Claims (9)
1.一种用于在视频的未知内容中发现模式的计算机化方法,包含:
将视频划分为多个不相交的段的集合,每个段集合包括视频的所有帧,且其中每个段集合被根据视频的所选择的低级别特征划分;
将每个段集合的不相交的段聚合为相应的聚类集合,每个聚类包括相似段;
标记每个聚类;以及
识别各标记之间的关联规则,以在视频的未知内容中发现高级别模式。
2.权利要求1的方法,还包括:
基于一个特定的低级别特征,由视频的未知内容产生时间序列数据;以及
使该时间序列数据自相关以确定所述相似段。
3.权利要求1的方法,其中该低级别特征是选自由运动活动性、颜色、纹理、音频、语义描述符以及它们的组合所构成的组。
4.权利要求1的方法,还包括:
使所述标记在时间上相关。
5.权利要求4的方法,其中该时间相关是同时的。
6.权利要求4的方法,其中该时间相关是时移的。
7.权利要求2的方法,还包含:
产生所述标记出现的条件和结果,以发现所述高级别模式。
8.权利要求1的方法,还包含:
根据所述高级别模式对该视频进行摘要。
9.权利要求1的方法,还包含:
产生包括第一个标记Li出现的条件和包括第二个标记Lj出现的结果。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/285,914 US7305133B2 (en) | 2002-11-01 | 2002-11-01 | Pattern discovery in video content using association rules on multiple sets of labels |
US10/285,914 | 2002-11-01 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1692357A true CN1692357A (zh) | 2005-11-02 |
CN100419749C CN100419749C (zh) | 2008-09-17 |
Family
ID=32175296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB200380100520XA Expired - Fee Related CN100419749C (zh) | 2002-11-01 | 2003-10-06 | 用于在视频的未知内容中发现模式的计算机化方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7305133B2 (zh) |
EP (1) | EP1512089A2 (zh) |
JP (1) | JP2006505039A (zh) |
CN (1) | CN100419749C (zh) |
WO (1) | WO2004040478A2 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543844A (zh) * | 2011-01-19 | 2019-03-29 | 高通股份有限公司 | 经由模式匹配来学习态势 |
CN114519101A (zh) * | 2020-11-18 | 2022-05-20 | 易保网络技术(上海)有限公司 | 数据聚类方法和系统、数据存储方法和系统以及存储介质 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040205482A1 (en) * | 2002-01-24 | 2004-10-14 | International Business Machines Corporation | Method and apparatus for active annotation of multimedia content |
US7143352B2 (en) * | 2002-11-01 | 2006-11-28 | Mitsubishi Electric Research Laboratories, Inc | Blind summarization of video content |
US7375731B2 (en) * | 2002-11-01 | 2008-05-20 | Mitsubishi Electric Research Laboratories, Inc. | Video mining using unsupervised clustering of video content |
US20040167767A1 (en) * | 2003-02-25 | 2004-08-26 | Ziyou Xiong | Method and system for extracting sports highlights from audio signals |
US7366352B2 (en) * | 2003-03-20 | 2008-04-29 | International Business Machines Corporation | Method and apparatus for performing fast closest match in pattern recognition |
WO2009154597A1 (en) * | 2008-06-19 | 2009-12-23 | Thomson Licensing | Adaptive video key frame selection |
US8571333B2 (en) * | 2010-10-17 | 2013-10-29 | Canon Kabushiki Kaisha | Data clustering |
EP2869236A1 (en) * | 2013-10-31 | 2015-05-06 | Alcatel Lucent | Process for generating a video tag cloud representing objects appearing in a video content |
US10796163B2 (en) * | 2014-03-07 | 2020-10-06 | Eagle Eye Networks, Inc. | Surveillance video activity summary system and access method of operation (VASSAM) |
CN107220483B (zh) * | 2017-05-09 | 2021-01-01 | 西北大学 | 一种土体温度模式预测方法 |
CN108241856B (zh) * | 2018-01-12 | 2019-03-01 | 新华智云科技有限公司 | 资讯信息生成方法及设备 |
CN111782862B (zh) * | 2020-06-24 | 2024-05-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法、装置及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6601103B1 (en) * | 1996-08-22 | 2003-07-29 | Intel Corporation | Method and apparatus for providing personalized supplemental programming |
JP3762835B2 (ja) * | 1998-05-21 | 2006-04-05 | 富士通株式会社 | データ分解装置、その方法、及び記録媒体 |
US6411724B1 (en) * | 1999-07-02 | 2002-06-25 | Koninklijke Philips Electronics N.V. | Using meta-descriptors to represent multimedia information |
US6763069B1 (en) * | 2000-07-06 | 2004-07-13 | Mitsubishi Electric Research Laboratories, Inc | Extraction of high-level features from low-level features of multimedia content |
US20020165839A1 (en) * | 2001-03-14 | 2002-11-07 | Taylor Kevin M. | Segmentation and construction of segmentation classifiers |
US7143352B2 (en) * | 2002-11-01 | 2006-11-28 | Mitsubishi Electric Research Laboratories, Inc | Blind summarization of video content |
US7375731B2 (en) * | 2002-11-01 | 2008-05-20 | Mitsubishi Electric Research Laboratories, Inc. | Video mining using unsupervised clustering of video content |
-
2002
- 2002-11-01 US US10/285,914 patent/US7305133B2/en not_active Expired - Fee Related
-
2003
- 2003-10-06 WO PCT/JP2003/012784 patent/WO2004040478A2/en not_active Application Discontinuation
- 2003-10-06 JP JP2004548016A patent/JP2006505039A/ja active Pending
- 2003-10-06 CN CNB200380100520XA patent/CN100419749C/zh not_active Expired - Fee Related
- 2003-10-06 EP EP03748727A patent/EP1512089A2/en not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543844A (zh) * | 2011-01-19 | 2019-03-29 | 高通股份有限公司 | 经由模式匹配来学习态势 |
CN109543844B (zh) * | 2011-01-19 | 2023-09-15 | 高通股份有限公司 | 经由模式匹配来学习态势 |
CN114519101A (zh) * | 2020-11-18 | 2022-05-20 | 易保网络技术(上海)有限公司 | 数据聚类方法和系统、数据存储方法和系统以及存储介质 |
CN114519101B (zh) * | 2020-11-18 | 2023-06-06 | 易保网络技术(上海)有限公司 | 数据聚类方法和系统、数据存储方法和系统以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN100419749C (zh) | 2008-09-17 |
EP1512089A2 (en) | 2005-03-09 |
US20040086180A1 (en) | 2004-05-06 |
WO2004040478A3 (en) | 2004-10-14 |
WO2004040478A2 (en) | 2004-05-13 |
JP2006505039A (ja) | 2006-02-09 |
US7305133B2 (en) | 2007-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100428229C (zh) | 用于概括未知视频内容的方法 | |
US7103222B2 (en) | Pattern discovery in multi-dimensional time series using multi-resolution matching | |
US7375731B2 (en) | Video mining using unsupervised clustering of video content | |
US10394878B2 (en) | Associating still images and videos | |
Hsu et al. | Reranking methods for visual search | |
CN100419749C (zh) | 用于在视频的未知内容中发现模式的计算机化方法 | |
CN113158023B (zh) | 基于混合推荐算法的公共数字生活精准分类服务方法 | |
CN102890700A (zh) | 一种基于体育比赛视频的相似视频片段检索方法 | |
CN112395457A (zh) | 一种应用于视频版权保护的视频待检索定位方法 | |
US20170185690A1 (en) | System and method for providing content recommendations based on personalized multimedia content element clusters | |
Bhute et al. | Multimedia indexing and retrieval techniques: A review | |
Lin et al. | Video retrieval for shot cluster and classification based on key feature set | |
Heinrichs et al. | Robust image retrieval in a statistical framework | |
Hiriyannaiah et al. | Deep learning and its applications for content-based video retrieval | |
Kundu et al. | Multimedia data mining and its relevance today—an overview | |
Chiu et al. | Detecting pitching frames in baseball game video using markov random walk | |
Feng et al. | Semantic Fast-Forwarding for Video Training Set Construction | |
Cui et al. | A novel multi-metric scheme using dynamic time warping for similarity video clip search | |
Tran | Automatic tag correction in videos: an approach based on frequent pattern mining | |
Ye et al. | Video scenes clustering based on representative shots | |
Wu et al. | Multi-view sequence-data representation and non-metric distance-function learning | |
Crucianu et al. | first name, surname Michel CRUCIANU | |
Wang | Feasibility study of near-duplicate video retrieval based on clustering techniques | |
Dong et al. | An efficient approach for video information retrieval | |
Guan et al. | Human-Centered Computing for Image and Video Retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20080917 Termination date: 20181006 |