CN104520875A

CN104520875A - 优选用于搜索和检索目的的从视频内容提取描述符的方法和装置

Info

Publication number: CN104520875A
Application number: CN201380036591.1A
Authority: CN
Inventors: D·珀; M·梅西纳
Original assignee: Radio And Television Joint-Stock Co Of Italy; SGS Thomson Microelectronics SRL
Current assignee: Radio And Television Joint-Stock Co Of Italy; STMicroelectronics SRL; Rai Radiotelevisione Italiana SpA
Priority date: 2012-07-11
Filing date: 2013-07-11
Publication date: 2015-04-15
Anticipated expiration: 2033-07-11
Also published as: ITMI20121210A1; US20150154456A1; US10127454B2; WO2014009490A1; CN104520875B

Abstract

本发明提供一种用于从视频内容提取描述符的方法，包括以下步骤：关键帧提取步骤，应用基于局部描述符的方法来选择传入视频的画面作为关键帧，所述关键帧表示该视频的在视觉上均质的时间区域；内容分析步骤，分析所述关键帧的内容并将所述关键帧的图像碎片分类为对描述符的提取而言是感兴趣的或不感兴趣的；描述符提取步骤，从选择的所述关键帧提取紧凑描述符，并且还基于接收自所述内容分析步骤的输入来定义周围图像的集合；时间编码步骤，将与已在所述关键帧提取步骤中提取了所述关键帧的时间点有关的信息和在所述描述符提取步骤中提取到的所述紧凑描述符多路复用，获得所述描述符。

Description

优选用于搜索和检索目的的从视频内容提取描述符的方法和装置

技术领域

本发明涉及一种从视频内容提取描述符的方法和装置，所述方法和装置优选用于搜索和检索目的。

背景技术

每天产生和消费的数字视频内容的增加量和对作为该内容的一部分的对象、地点和人进行搜索的需要，使得以在视频搜索和检索应用中使用紧凑描述符为目的而从视频信号提取这些描述符的问题越来越重要。

Miroslaw Bober等人在2012年5月CH,Geneva,ISO/IECJTC1/SC29/WG11/W12734的论文“Test Model 2:CompactDescriptors for Visual Search,Video Subgroup”(其通过引用全部并入于此)公开了一种MPEG视觉搜索紧凑描述符(CDVS)的模型，具体提供了提取模块(图3)，该提取模块产生由两个主要元素(即选择数量的压缩局部描述符和单个全局描述符)组成的紧凑描述符，表示整个图像。

该已知的模型显示在视频被处理时潜在地严重缺乏效率，并且这种缺乏如该视频在时间上冗余(即静态)一样地更高，因为没有考虑到视频的时间冗余。在单独的视觉镜头中，邻近的帧彼此高度相似：应当考虑该特征以限制要被处理的输入信息的量。

另外，该已知的模型提供关键点选择块，在关键点选择块中，包括关键点距图像中心的距离的统计特征的组合被使用，以便在将关键点传递给矢量量化块之前对它们进行加权并因此进行排列以供选择。

尽管该方法具有若干益处，其中包括对输入数据的统计性质的固有(native)自适应性而不需要任何种类的先验知识，然而它内在地就缺失视频内容的若干自然特性，这些自然特性从语义视角来看对于预测视频画面中的感兴趣区域(例如面部的位置)应当是重要的。视频内容的这些缺失的自然特性包括：

·摄影产生语法，并且通过扩展它们的视频对应物，经常使用比明显概念更复杂的语言构造，明显概念将较高的重要性关联到图像的中心区域；

·由内容作者施加的视频内容动态性(dynamism)随着风格、意图和目标观众而高度变化，使得注意力的“中心”通过导演采用全范围的可能性而掌控。另外，取决于正被拍摄的具体内容(人、自然)或拍摄条件(宽镜头、特写)，这些注意力的中心可以随着内容时间线而变化。

·对于其基本性质，视频可以通过应用若干处理步骤而被转换：动态图像剪切(感兴趣的区域)、运动变形(warping)、浏览和概括、叠加图形。应用这样的变换的基本原理依赖于将视频内容适配于各种传送或发布条件的需要，使得这些变换的结果(虽然在物理上不同)从编辑和语义的视角可以被认为是彼此等同的，即对于在构建视频背后的“故事”方面一致的对象、人、位置所关系到的。

Duy-Nguyen等人在2009年6月的IEEE Computer SocietyConference on Computer Vision and Pattern Recognition(CVPR)上的另一论文“SURFTrac:Efficient Tracking and Continuous ObjectRecognition using Local Feature Descriptors”(其通过引用全部并入于此)描述了一种用于提取一系列数字视频图像的描述符的算法(SURFTrac)。对于第一图像，该算法通过执行完全检测来初始化兴趣点的列表。兴趣点接着在接收到新图像时被更新和跟踪。描述符是用于识别的目的，并且该算法按需要来计算描述符。

更具体地说，该算法首先构建从捕获自周围环境的关键帧图像的集合提取的SURF特征的图。在提取第一视频帧的SURF特征并将它们与该图匹配之后，该算法在后续帧中局部地跟踪这些特征。与当前视频帧具有最大重叠区域的关键帧被称为关键节点。附近关键帧的重叠区域基于它们的帧间单应性在每帧中更新，并且因此，关键节点不断地切换到数据库中最相似的图像，允许不断地跟踪并发现视频序列中的新区域。

另外，在初始化期间，其从第一视频图像计算出完整的SURF特征描述符并将它们与各图像进行匹配。

该方法针对数据库中的所有图像特征而构造近似的最接近的邻居树，然后进行几何验证(下面也称为RANSAC“RANdom SampleConsensus”算法)。一经成功识别出匹配的图像，最佳图像被标记为当前关键节点，并且播放的图像的集合被减少到只有通过数据库中的路径连接的那些图像。图像的数据库被组织如下：V是图像的集合；G是无向图，其中图像形成该图中的节点，并且边描述图像之间的关系。两个图像之间的边指示当这两个图像可以通过标准成对图像匹配而相关时的几何关系。每个图像还进一步用一个或多个标识符标识，并且共享相同标识符的两个图像还通过附加的边连接。该组织类似于为分级浏览目的而构造的图像图。图像图的例子在该论文的图1(b)中示出。

一旦关键节点图像及其对象ID被标识，则其可以以相对低的代价不断地匹配和更新关键节点，因为相当确信所有潜在相关的对象都被包括在当前数据库子图中。

因此，该方法基于一种类型的对象匹配，该对象匹配并不高效，因为它不能找出关键帧，原因是它递增地找出兴趣点并且它不能跟踪从第1帧跟踪的递减数量的点，因为它不使用描述符匹配工具的能力，原因是它是基于概率考虑(概率考虑在其准确率-查全率(precision-recall)性能发明是次优的)并且因为它使用离线构建的数据库(该数据库在其内部执行搜索时是消耗存储器的并且在计算上是消耗的)。

US2010/0318515-A1公开了一种数字加指纹技术。这是一种用于实施数字权限策略的技术，由此唯一的标记(称为数字指纹)在分发之前被插入到视频或音频内容中，用于追踪多媒体内容的分发并保护它们免受未经授权的重新分发。该指纹标记标识含有它的视频或音频剪辑。指纹签名的数据库被创建，目的是查询该数据库以找出包含该签名的视频或音频剪辑。使用快速相似性搜索过程来在数据库中搜索该查询签名，以产生匹配签名的候选列表。对候选列表进行进一步分析以找出最可能的参考匹配。在可能的参考匹配与查询剪辑之间执行签名相关，以改善检测准确性。搜索的目的是找出包含该签名的视频或音频剪辑。

从上述现有技术分析可以得出结论，针对图像的视觉内容搜索方法的当前技术水平缺乏对来自视频域的视觉搜索的重要要求，例如减少视频序列中的时间冗余，从语义视角来预测视频画面中的感兴趣区域(例如面部的位置)；完整地执行内容分析等。

发明内容

因此，本发明的主要目的是提供一种用于从视频内容提取描述符的方法和装置，优选用于搜索和检索的目的，其克服上述问题/缺点。

本发明的基本思想是提供一种用于从视频内容提取描述符的方法和设备，包括以下主要部件：

-关键帧提取器块，其使用基于局部描述符的方法来选择传入视频的画面作为关键帧，所述关键帧表示该视频的在视觉上均质的时间区域；

-内容分析器块，其分析所述关键帧的内容并将所述关键帧的图像碎片分类为对紧凑描述符的提取而言是语义上感兴趣的或不感兴趣的；

-描述符提取器块，其从选择的所述关键帧提取所述紧凑描述符，并且还基于接收自所述内容分析器块的输入来定义周围图像的集合；

-时间编码器块，其将与已在所述关键帧提取器中提取了所述关键帧的时间点有关的信息和接收自所述描述符提取器块的所述紧凑描述符多路复用，获得所述语义描述符。

所获得的语义描述符从所含有(“拍摄”)对象的视角而不是从特定序列的视频帧的视角表征视觉内容。这些以及进一步的目的借由权利要求中描述的用于从视频内容提取描述符的方法和装置而实现，权利要求构成本说明书的整体部分。

附图说明

本发明根据以下的详细说明将变得完全清楚，该详细说明通过单纯示例而非限制性举例的方式给出，并参照附图进行阅读，其中：

图1示出根据本发明的方法和装置的主要部件的框图；

图2示出图1的关键帧提取器块的主要部件的框图；

图3示出图1的内容分析器块的主要部件的框图；

图4示出包含块的母集的框图，从中通过选择这些块的子集得到实现本发明的方法的专用电路；

图5示出由图像传感器或者由接收器/解码器装置获取的视频流以及按照帧序列的视频定义的例子，每个帧进一步由四个矩阵组成，三个用于颜色分量，一个用于深度(用于3D视频)。

具体实施方式

图1以系统的主要部件示出了该系统的概览。每个部件将在以下进一步描述。整个系统可以被看作是处理输入视频并产生语义描述符的流的机器。

在本发明的上下文中，“视频”的含义被扩展到覆盖静止图像、2D视频流和3D视频流。3D视频流旨在作为2D视频加每个图像的深度。作为例子，图像的同样大小的附加矩阵包含每像素的深度信息，如图5所示。每个时间帧，三个矩阵包含“Y”、“U”和“V”分量上的视频像素信息。

根据本发明的基本方面，一种用于从视频内容提取描述符的方法包括以下主要步骤：

-关键帧提取步骤，应用基于局部描述符的方法来选择传入视频的画面作为关键帧，所述关键帧表示该视频的在视觉上均质的时间区域；

-内容分析步骤，分析所述关键帧的内容并将所述关键帧的图像碎片分类为对描述符的提取而言是在语义上感兴趣的或不感兴趣的；

-描述符提取步骤，从选择的所述关键帧提取紧凑描述符，并且还基于接收自所述内容分析步骤的输入来定义周围图像的集合；

-时间编码步骤，将与已由关键帧提取器提取了所述关键帧的时间点有关的信息和接收自所述描述符提取步骤的所述紧凑描述符多路复用，获得所述语义描述符。

图2示出图1的关键帧提取器块的主要部件的框图。

关键帧提取器在输入中以特定的帧速率和分辨率接收视频序列，视频序列由在时间上相距帧速率的倒数的多个帧构成。在其输出处，它在帧满足一些条件时将该帧指示为“关键”，这些条件取决于由部件的块对帧执行的分析。

帧获取是以特定的帧速率、以给定的分辨率、纵横比和位深度来获取输入图像的块。在下面的描述中，我们将假设亮度分量被提取并被转发到下一个处理块。但是，相同的算法步骤可应用于图像的任何分量通道或者应用于它们的任何线性组合。

兴趣点检测块处理接收自帧获取块的图像并找出区别点。可应用来检测这样的区别点的算法示例在Agrawal等人在EuropeanConference on Computer Vision(2008)上的论文“Censure:CenterSurround Extremas for Realtime Feature Detection and Matching”(尤其在2.1、2.2、2.3段)中描述，该论文通过引用全部并入于此。所描述的算法是中心包围特征检测器(CenSurE)和修改版本的直立SURF描述符(MU-SURF)。

另一个示例在Rosten等人在European Conference on ComputerVision(2006)上的“Machine Learning for High-Speed CornerDetection”(尤其在2.1、2.7段)中描述，该论文通过引用全部并入于此。

另外对于3D视频，可应用来检测这样的区别点的算法示例在Federico Tombari等人在International Journal of Computer Visionmanuscript No.IIjCV2011上的论文“Performance Evaluation of 3DKeypoint Detectors”中描述，该论文通过引用全部并入于此。

兴趣点——即由它们的[x,y]坐标、得分和MxN个周围的像素碎片表示的——被发送到下一个块均匀采样器。

目标控制器是将由兴趣点检测器计算的兴趣点的数量设置为目标并保持该目标的块。作为非限制性的例子，通过改变检测器的阈值直到达到目标或较少、应用线性目标预测公式，它可以迭代同一算法多次(小于或等于给定的求交运算(cap))，作为非限制性的例子，线性目标预测公式如下：

其中，在当前迭代/运行中，在先前迭代/运行中所计算的阈值乘以一个值，该值取决于2个常数以及相对于作为先前迭代/运行的结果所实现的检测到的点与所设置目标的偏差。

均匀采样器块接着收集接收自兴趣点检测器的所述数量的检测到的点(包括坐标、得分和碎片)并将它们分组为较宽的RxS大小的超级块，使得任何一对RxS超级块的交集为空(即，它们不彼此重叠)。作为该块的进一步功能，可以丢弃检测到的兴趣点中的相互距离太近或/和具有太低得分的一些。

未丢弃的点接着由均匀采样器块发送到二进制描述符块，二进制描述符块在可能的实施例中实现一种算法，该算法在Calonder M.等人在2010年希腊Crete的Proc.of European Conference on ComputerVision(ECCV)上的论文“BRIEF:Binary robust independentelementary features”(尤其在3.1、3.2段)中报告，该论文通过引用全部并入于此。该算法使用二进制串作为高效的特征点描述符，该描述符依赖于相对小数量的强度差异测试来将图像碎片表示为K位二进制串。描述符相似性可以使用这些串之间的汉明距离来评价。

算法的另一个示例在R.Zabih等人在1994年ECCV’94第151-158页的论文“Non-parametric local transforms for computingvisual correspondence”(尤其在第3段)中描述，该论文通过引用全部并入于此。

二进制描述符块的输出是关联到每个兴趣点的K位二进制签名，其被发送给冗余描述符剔除块。

冗余描述符剔除块测量每个RxS超级块内的K位二进制描述符的相似性，例如使用众所周知的技术，如汉明距离(http：//en.wikipedia.org/wiki/Hamming_distance)或雅卡尔系数(http：//en.wikipedia.org/wiki/Jaccard_index)。

冗余描述符剔除块将在保持超级块中的均匀的空间分布的约束下，剔除阈值之下的二进制描述符。那些存活的由二进制描述符阶段生成的二进制描述符被存储到帧描述符缓冲器块中，以便允许由描述符匹配块执行的帧间描述符匹配。这种匹配再次使用汉明距离或雅卡尔系数来执行以对两个时间上连续的帧的兴趣点进行配对。

具有关联的关键点的一些匹配和配对的描述符可能仍是不正确的，使得它们将是相对于捕获潜在的自然对象运动的有序且相干的预期运动矢量场的离群值。因此由离群值移除块来移除离群值运动矢量，离群值移除块实现如运动矢量分量的中值滤波的简单的后处理技术或者如RANSAC的更复杂的技术，RANSAC在Martin A.等人在1981年6月的Comm.of the ACM24(6):381–395上的论文“RandomSample Consensus:A Paradigm for Model Fitting with Applicationsto Image Analysis and Automated Cartography”(尤其在第IV a部分)中描述，该论文通过引用全部并入于此(也参见http：//en.wikipedia.org/wiki/RANSAC)。

在处理的这个时点，获得了连续帧之间的描述符对和关联的兴趣点的流。对按时间顺序的其它帧对和各点重复该过程，这些点标记有唯一的标识符，并且在帧之间配对及随时间被追踪，从而获得兴趣点的列表，包括每帧所述兴趣点的描述符和所述兴趣点到属于在时间上接连的帧并存储在链表块中的其它兴趣点的关联/对应以及所述其它兴趣点的描述符。

如果属于当前帧的正确跟踪的点的数量低于被设置为阈值的特定数量(根据帧内所呈现的信息和内容的丰富性，该阈值每帧或分组可变)，则当前帧中断整个处理的规律性(如图2所示)并被用于对其重新进行初始化。当这种情况发生时，围有较高数量的跟踪的点的先前帧的任何组合可以被标记为关键帧，并作为关键帧决策块的输出发送用于进一步处理。

再次参考图1，此处描述了描述符提取器块的实施例的例子，可应用在需要对帧突发的多个帧进行编码的情况。

一旦由关键帧提取器块生成了关键帧，进行关键帧之前以及关键帧之后的帧突发的特征的提取，以便生成更多查询以使在服务器侧的检索处理更加鲁棒。

从选择的接收自关键帧提取器块的关键帧，由兴趣点检测器块重新检测兴趣点，例如使用与在上面提到的ISO/IECJTC1/SC29/WG11/W12734(第2部分，紧凑描述符提取)中报告的相同方法，以便更加容忍视角、照度和尺度变化。另一种可能的方法在David G.Lowe 2004年1月5日的“Distinctive Image Features fromScale-Invariant Keypoints”第3、4、5章中描述，其通过引用全部并入于此。

描述符提取器块中的兴趣点检测器块可以避免在关键帧中确定新的兴趣点，并且可以选择在关键帧提取器块中对于那些关键帧已经获得的兴趣点或者这些兴趣点的子集。通过使用例如在上面提到的ISO/IEC JTC1/SC29/WG11/W12734第2.1节(关键点选择)、第2.2节(TSPCVQ编码)和第2.3节(坐标编码)中所描述的方法，描述符接着由描述符块提取、并接着在特征选择块中被选择、被矢量量化和去量化(通过描述符&坐标量化和逆描述符&坐标量化块)。

用于提取关于3D视频的描述符的方法的例子在FedericoTombari等人ECCV 2010上的“Unique Signatures of Histograms forLocal Surface Description”中描述，其通过引用全部并入于此，或者所述方法的例子在Federico Tombari等人ICIP2011上的“ACOMBINED TEXTURE-SHAPE DESCRIPTOR FOR ENHANCED3D FEATURE MATCHING”中描述，其通过引用全部并入于此。

从任何当前关键帧提取的描述符被存储在描述符缓冲器中，并接着与属于时间上邻近的关键帧的描述符进行匹配。可以通过使用基于欧几里得(Euclidean)度量的已知1-NN方法来实现描述符之间的匹配。

在最接近的描述符已经被选择之后，只有它们之间的差被矢量量化。每个矢量量化的描述符将具有关联的x、y坐标，所述坐标将经历按照上述ISO/IEC JTC1/SC29/WG11/W12734的坐标编码。

描述符提取器的输出是描述符&坐标量化块的输出，从而获得关键帧的紧凑描述符。该输出被带到时间编码块。

参考图1之二，描述了描述符提取器块的实施例的变型，可应用于在只需要编码一个关键帧时的情况。

在这种情况下，描述符提取的过程只应用到一个关键帧，而无需逆描述符&坐标量化、在缓冲器中存储以及特征匹配的反馈。因此，在这种情况下，只使用兴趣点检测器、描述符、特征选择和描述符&坐标量化这些块。

参考图3，此处描述了内容分析器块的实施例的例子。

本发明的方法的附加步骤是分析关键帧的内容，以便最优化选择关键点的方式。需要这种最优化以便将查询内容(即描述符)集中在对于用户而言语义相关的画面的区域中以及丢弃很少或不提供信息的区域。

使用并行化空间碎片分类方法来执行内容分析，即，首先在空间分割块中对关键帧执行空间分割，例如通过使用多个可能的另选方法。

作为最基本的方法的第一种另选方法提供了用定义尺寸(例如16x16像素)的方形块的固定网格来分割图像。该方法将每个块看作独立的碎片。

较复杂的第二种另选方法基于第一种另选方法，并提供了基于某种块相似性测量来将固定网格的块合并为较大的区域，例如基于如颜色直方图、边缘直方图、主色的全局描述符。

第三种另选方法提供了通过首先通过应用某种二维滤波器(例如索贝尔(Sobel)滤波器，http://en.wikipedia.org/wiki/Sobel_operator)来检测图像边缘、并且接着隔离落在边图内的图像区域来实现分割。

进一步的另选方法例如在B.Zhao等人在ECCV 2010上的论文“Image Segmentation with Topic Random Field”中描述，其通过引用全部并入于此。

作为空间分割块的输出的碎片在多个并行的碎片分类块中被分类。

例如，碎片分类块可以在对碎片是否包含面部、或者标志或一段文本图形、可在查询中具有关键语义含义的所有要素进行分类方面进行最优化。

单独的分类器通常基于最小复杂度的数学，如支持矢量机或多层前馈神经网络，它们的分类模型非常紧凑并存储器需求最小。

单独的分类器还包括特定用于它们的任务的特征提取模块，因此画面碎片的数据与它们的空间定位一起必须在每个分类器的输入处可用，以便执行特征计算。

而且整个图像可以被看作是默认的图像碎片，这对于利用碎片邻域对碎片进行分类的分类器或者对于由检测器表示的碎片分类块的特殊情况可以是有用的。

在检测器(例如面部检测器、屏幕上(on screen)文本&图形检测器、标志检测器)的情况下，空间分割是检测的副结果，并且它产生对由空间分割块提供的碎片定位的细化，在这些情况下，这用作目的在于改善检测器的准确度和性能的对画面的预处理，这些检测器可以对预分割的碎片而不是对整个图像起作用。可以实现图3的单独的碎片分类块的碎片检测和分类技术的例子在Huiping Li、Doermann D.和Kia.O在IEEE Trans.On Image Processing,9:1pp.147-156上的文章“Automatic text detection and tracking in digital video”中描述，该文章通过引用全部并入于此，或者在den Hollander R.J.M.和Hanjalic A.在Proc.of ICIP 2003上的文章“Logo recognition in videostills by string matching”中描述，该文章通过引用全部并入于此。

无论如何，空间分割的结果是画面碎片的集合，例如画面碎片通过它们的矩形边界框或通过更精确的几何特征来标识，这些几何特征可以包括区域轮廓的描述(例如通过使用轮廓关键点的极坐标)。

描述形状时的方法的另一个例子在D.Zhang和G.Lu在2002年意大利Ischia的Third CIRP International Seminar on IntelligentComputation in Manufacturing Engineering-ICME 2002上的论文“Generic Fourier Descriptor for Shape-based Image Retrieval”中描述，该论文通过引用全部并入于此。

等效方法的进一步例子在D.Zhang和G.Lu在2002年Proc.ofthe Sixth Digital Image Computing-Techniques and Applications(DICTA02),Melbourne,Australia,pp.86-91上的论文“A ComparativeStudy of Three Region Shape Descriptors”中描述，该论文通过引用全部并入于此。

在单独的碎片分类块已经遵从一组独立准则(见图3)对碎片进行了分类之后，使用由整体分类器块实现的整体分类方法来执行总体的碎片分类。整体分类器块通过组合若干并行的碎片分类块的输出来工作，这些碎片分类块在检测画面内容的特定语义方面是最优化的。

每个碎片分类块(或分类器)可以具有两种可能的角色(正面或负面)中的一种，这取决于分类对对应碎片的语义相关性是否具有正面的作用。例如，如果分类准则是基于面部的存在的，则分类器具有正面的角色，因为假设面部在画面中具有很强的语义相关性。另一方面，当在画面的特定边缘位置(例如右下)中检测到特定标志(例如广播公司标志)时，标志分类器可以用作负面的执行器。独立于分类器的性质、复杂性和数量，每个分类器输出是由两个贡献组成的：二进制分类决策和表示分类置信度的实际数量。

整体分类器块的角色是接着提供与每个输入碎片的相关性有关的概率估计作为输出。这是通过使用分类置信度得分作为权重的对分类决策的加权线性组合来完成的。具有负面角色的分类器的权重必须在整体和中采用负号。该方法具有不要求任何存储器来执行整体计算的优点。

在整体分类时更复杂的方法也可以使用，如在由W.Nick Street和Y.S.Kim在KDD 01的“A Streaming Ensemble Algorithm(SEA)for Large-Scale Classification”中所描述的，该论文通过引用全部并入于此。

通过使用这种并行化空间碎片分类方法以及整体分类器，出于检索的目的，每个单独的碎片因此被关联到在语义上相关的概率。阈值被关联到该概率，使得后续的碎片几何描述块只对由空间分割块分类的、超出该阈值的那些碎片起作用。

与由空间分割块执行的碎片定位的描述(其目标是以尽可能更高的准确度来识别画面的区域用于后续的分类任务)不同，碎片几何描述块使用更接近检索的逻辑来对碎片起作用。

因此，为了最小化特征选择任务的复杂性，碎片几何描述块可以仅使用矩形边界框或椭圆来表示从中选择提取管线(pipeline)所提取的特征的画面区域。此外，该块的重要任务是将出自分类步骤的不同碎片合并成较大的碎片，以便最小化要使用的碎片描述的数目。例如，如果两个确实地分类的碎片一个完全包括到另一个中，则碎片几何描述块将只选择较大的一个用于输出描述。作为另一个例子，如果两个确定地分类的碎片共享边界，则碎片几何描述块将输出两个碎片之间的合并操作的结果。

因此，碎片几何描述块的输出是碎片的几何描述的集合，这些碎片已经被分类为由特征选择块从中选择关键点的碎片。几何描述的集合必须由特征选择块解释为基本几何碎片(如矩形和椭圆)的逻辑并集。每个基本碎片可以根据它的在平面上对其几何表示所需的最小信息来描述。例如，对于矩形是两个对顶点的坐标，对于椭圆是表征其方程表达a(x-x0)^2+b(y-y0)^2＝c的三个系数a、b、c，x0，y0。因此，这个块的总体输出可以视为元组<t,C>的列表，其中t是碎片的类型(例如“矩形”或“椭圆”)，C是根据该类型给出的坐标的矢量。

优选地，与上述基于管线的内容分析并行地，也可以是用户选择他/她感兴趣的碎片。为此目的提供进一步的碎片选择(外部准则)块，从关键帧提取器块接收关键帧。由于这个准则(用户选择)对检索总是具有占先(pre-emptive)作用，用户选择的碎片总是选择用于碎片几何编码，并因此被供给到碎片几何描述块作为进一步的基本碎片。

作为变型，每当出现用户定义的输入时，可以总是丢弃自动分类管线的输出，以便是更具选择性的。

碎片几何描述块输出被输入到特征选择块(上面也参照图1进行了描述)。特征选择块使用来自碎片几何描述块的信息来过滤在输入碎片的几何并集之外的所提取的描述符。

可用的另选方法是内容分析器块被禁用或者分类器不被激活：在这种情况下，对应于整个帧的默认碎片总是被传输到特征选择块。

在特征选择块中可以使用不同的加权方案，以便放大或降低由空间分割块标识的并且随后由整体分类器块关于用户选择的那些被分类为感兴趣的碎片的相对重要性。实现的例子可以使用用户选择的碎片和其它碎片以逻辑像素的方式相与(AND)，使得用户选择的碎片总是占先和独占的。另一种方法可以通过影响特征选择块的内部选择准则来工作，这种影响是通过使用单独碎片的输入概率而重新确定所提取的关键点的概率密度函数、并认为用户选择的碎片总是具有最大概率(＝1)实现的。

在已经选择了关键帧并使其在时间上丰富、将关键帧的感兴趣和/或用户选择的碎片发送到特征选择块并且特征选择块已经操作了其内部的选择选项之后，在链的输出(位置编码块)处生成描述符的流，使得描述符的分组被关联到特定的关键帧。

为了应用用于视频内容的高级检索功能(其不仅考虑单独画面的空间匹配而且还考虑这些匹配之间沿视频时间线如何相关)，有必要对描述符的时间位置进行编码。

这在时间编码块(图1)中利用所提取的关键帧的时间距离来完成。但是，时间位置以相对的方式来表示，以便涵盖视频已经关于帧速率(例如全局帧速率转换)和基本粗剪操作(镜头消除)被编辑的情况。

时间编码块所执行的算法的例子工作如下：

1.以第一关键帧K(0)开始，第一关键帧K(0)具有由描述符提取器块提取的关联的紧凑描述符D(0)。由于K(0)是第一关键帧，距前一关键帧的时间距离L(0)未被确定。

2.i＝0

3.输出D(0)

4.对于具有描述符集合D(i)的每个新的长度为L(i)的关键帧K(i)，

a.if i>1

i.计算T(i)＝L(i)/L(i-1)

ii.根据某种准则(例如每10秒的经处理材料一个输出)，

可选地输出L(i)(长度重同步(resynch))

iii.输出T(i)D(i)

b.else if i＝1

i.输出L(1)D(1)

5.end for

该方法对于关键帧的时间代码的普通编码的优点是多方面的：

·一旦通过顺序地应用如下公式检测到第一L(k)，就可以从流恢复关键帧之间的原始时间距离：

L(k+1)＝L(k)T(k+1)

·材料的所有可能的子分段可以用作检索侧相对于同一树结构索引的独立查询，并且这些查询可以并行地运行。

·查询关于全局帧速率转换是鲁棒的。

·查询关于关键帧消除/添加是鲁棒的，条件是在服务器侧部分结果全部对特定数据库视频进行索引并且这些结果可以被单独地检索。

时间编码块的输出是作为与关键帧已被提取的时间点有关的信息和关键帧的所述紧凑描述符的多路复用的语义描述符。

该输出使得能够进行考虑了描述符的时间搜索的近邻搜索。

对于具有在第6关键帧处的长度重同步的8个关键帧，时间编码块的输出的例子是：

D(0)L(1)D(1)T(2)D(2)T(3)D(3)T(4)D(4)L(5)T(5)D(5)T(6)D(6)T(7)D(7)

关键帧时间距离序列l(n)＝{l(1)……l(7)}的重构工作如下：

l(1)＝L(1)

l(2)＝T(2)L(1)＝T(2)l(1)

l(3)＝T(3)l(2)＝T(3)T(2)l(1)

l(4)＝T(4)l(3)＝T(4)T(3)T(2)l(1)

l(5)＝L(5)(长度重同步)

l(6)＝T(6)l(5)＝T(6)l(5)

l(7)＝T(7)l(6)＝T(7)T(6)l(5)

本发明可以通过用于计算机的程序有利地实现，该程序包括用于当该程序在计算机上运行时实现方法的一个或多个步骤的程序编码部件。因此，应当理解，本发明的保护范围扩展到这种用于计算机的程序以及另外的其中记录有消息的计算机可读部件，所述计算机可读部件包括用于当该程序在计算机上运行时实现方法的一个或多个步骤的程序编码部件。

借由本发明，实现了许多优点。

描述符编码能够高效地对视频序列以及还有静止图像进行编码，因此利用时间信息冗余，实现更紧凑的查询突发。

该方法实现更好的准确率-查全率性能，这是由于帧的描述符的突发被嵌入到比特流中的事实。

该方法能够更高效地选择语义描述符，这是由于包围在特定感兴趣区域中的信息内容被自动检测。

该方法能够对相关的关键帧进行编码，在相关的关键帧中信息是特别丰富并且在时间上持续的。

在考虑公开了优选实施例的说明书和附图之后，本发明的许多改变、修改、变型以及其它用途和应用对于本领域技术人员而言将是明晰的。所有这些不偏离本发明的精神和范围的改变、修改、变型以及其它用途和应用均被视为被本发明所涵盖。

根据本发明的装置的组件的示例是如图4中所描绘的应用处理器。其包含构建块的母集，通过选择这些块中的一些可以从该母集得到用于专门应用(如移动、数字TV、机顶盒、成像或其它应用)的专用处理器，以构建最终的装置。包括(在同一或分离的芯片组上)实现根据本发明的用于提取语义描述符的方法的电路系统的处理器是标识为“2D/3D描述符提取管线”的那个。输入视频可来自任何源，像例如一个或多个图像传感器、2D/3D摄像机、视频剪辑或静止图像的存储设备、视频解码器或图像质量改进阶段等。对于3D视频，进一步的深度提取块以及2D/3D视频解码器和编码器可能是必要的。其它部件可以是GPU(图形处理单元)、一个或多个主机CPU。

不再描述进一步的实现细节，因为本领域技术人员能够从以上描述的教导开始而实现本发明。

Claims

1.一种用于从视频内容提取描述符的方法，包括以下步骤：

关键帧提取步骤，应用基于局部描述符的方法来选择传入视频的画面作为关键帧，所述关键帧表示该视频的在视觉上均质的时间区域；

内容分析步骤，分析所述关键帧的内容并将所述关键帧的图像碎片分类为对描述符的提取而言是感兴趣的或不感兴趣的；

描述符提取步骤，从选择的所述关键帧提取紧凑描述符，并且还基于接收自所述内容分析步骤的输入来定义周围图像的集合；以及

时间编码步骤，将与已在所述关键帧提取步骤中提取了所述关键帧的时间点有关的信息和在所述描述符提取步骤中提取到的所述紧凑描述符多路复用，获得所述描述符。

2.根据权利要求1所述的方法，其中所述关键帧提取步骤包括以下步骤：

检测输入图像中的兴趣点，所述兴趣点由它们的[x,y]坐标、得分和MxN个周围像素碎片表示；

将所述兴趣点的数量设置为目标并保持所述目标；

收集所述数量的兴趣点，并将它们分组成较宽的RxS大小的超级块，使得任何一对RxS超级块的交集为空；

将所述超级块内的二进制串关联到所述兴趣点；

在所述超级块内匹配所述二进制串，剔除在相似性阈值之下的二进制串，保留在阈值之上的二进制串作为描述符；

对保留的描述符进行帧间匹配；

从所述保留的描述符移除离群值描述符，离群值描述符是相对于捕获潜在的自然对象运动的、有序且相干的预期运动矢量场的离群值；

对连续的帧重复前面的步骤，获得兴趣点的链表，所述链表包括每帧所述兴趣点的描述符和所述兴趣点到属于在时间上接连的帧的其它兴趣点的关联/对应以及所述其它兴趣点的描述符；以及

通过基于关联到候选帧的链表中的共同兴趣点的数量与一个或多个阈值的比较的决策，确定所述候选帧是否是关键帧。

3.根据权利要求2所述的方法，其中所述内容分析步骤包括以下步骤：

在空间上分割所确定的关键帧，获得由几何特征标识的画面碎片的集合；

在多个并行的碎片分类步骤中对在空间上分割了的画面碎片进行分类；

通过整体分类步骤来组合经分类的画面碎片，获得与输入画面碎片中的每一个的相关性有关的概率估计作为输出；

将阈值关联到所述概率；

对超过所述阈值的画面碎片进行几何描述，将所述画面碎片的区域表示为几何描述的集合，从该几何描述的集合选择关键点。

4.根据权利要求3所述的方法，其中所述描述符提取步骤包括以下步骤：

在连续的帧中所确定的关键帧中或者在由所述链表指定的兴趣点周围的像素碎片中检测兴趣点；

从检测到的兴趣点提取描述符；

从所述检测到的兴趣点的提取到的描述符选择特征；

将所述提取到的描述符与从在时间上邻近于当前关键帧的帧所选择的提取到的描述符进行匹配，并且选择最接近的描述符；

对最接近的提取到的描述符之间的相对差异进行矢量量化；

对矢量量化的描述符的坐标进行编码，获得所述紧凑描述符。

5.根据权利要求3所述的方法，其中所述描述符提取步骤包括以下步骤：

在一个帧中所确定的关键帧中或者在由所述链表指定的兴趣点周围的像素碎片中检测兴趣点；

从检测到的兴趣点提取描述符；

从所述检测到的兴趣点的提取到的描述符选择特征；

对提取到的描述符之间的相对差异进行矢量量化；

6.根据权利要求4或5所述的方法，其中在所述描述符提取步骤中，在所述关键帧中的检测到的兴趣点与在关键帧提取步骤中对于所述关键帧获得的兴趣点相同或者是在关键帧提取步骤中对于所述关键帧获得的兴趣点的子集。

7.一种用于从视频内容提取描述符的装置，所述装置包括：

关键帧提取器，应用基于局部描述符的方法来选择传入视频的画面作为关键帧，所述关键帧表示该视频的在视觉上均质的时间区域；

内容分析器，分析所述关键帧的内容并将所述关键帧的图像碎片分类为对描述符的提取而言是感兴趣的或不感兴趣的；

描述符提取器，从选择的所述关键帧提取紧凑描述符，并且还基于接收自所述内容分析器的输入来定义周围图像的集合；以及

时间编码器，将与已在所述关键帧提取器中提取了所述关键帧的时间点有关的信息和在所述描述符提取器中提取到的所述紧凑描述符多路复用，获得所述描述符。

8.根据权利要求7所述的装置，其中所述关键帧提取器包括：

输入图像中的兴趣点的检测器，所述兴趣点由它们的[x,y]坐标、得分和MxN个周围像素碎片表示；

设置单元，将所述兴趣点的数量设置为目标并保持所述目标；

收集单元，收集所述数量的兴趣点，并将它们分组成较宽的RxS大小的超级块，使得任何一对RxS超级块的交集为空；

关联单元，将所述超级块内的二进制串关联到所述兴趣点；

匹配单元，在所述超级块内匹配所述二进制串，剔除在相似性阈值之下的二进制串，保留在阈值之上的二进制串作为描述符，并且对保留的描述符进行帧间匹配；

移除器单元，从所述保留的描述符移除离群值描述符，离群值描述符是相对于捕获潜在的自然对象运动的、有序且相干的预期运动矢量场的离群值；

链接器单元，获得兴趣点的链表，所述链表包括多个连续的帧中每帧的所述兴趣点的描述符和所述兴趣点到属于在时间上接连的帧的其它兴趣点的关联/对应以及所述其它兴趣点的描述符；以及

决策单元，通过基于关联到候选帧的链表中的共同兴趣点的数量与一个或多个阈值的比较的决策，确定所述候选帧是否是关键帧。

9.根据权利要求8所述的装置，其中所述内容分析器包括：

分割单元，在空间上分割所确定的关键帧，获得由几何特征标识的画面碎片的集合；

分类单元，在多个并行的碎片分类步骤中对在空间上分割了的画面碎片进行分类；

组合单元，通过整体分类步骤来组合经分类的画面碎片，获得与输入画面碎片中的每一个的相关性有关的概率估计作为输出；

关联单元，将阈值关联到所述概率；

描述单元，对超过所述阈值的画面碎片进行几何描述，将所述画面碎片的区域表示为几何描述的集合，从该几何描述的集合选择关键点。

10.根据权利要求9所述的装置，其中所述描述符提取器包括：

连续的帧中所确定的关键帧中或者在由所述链表指定的兴趣点周围的像素碎片中的兴趣点的检测器；

提取单元，从检测到的兴趣点提取描述符；

选择单元，从所述检测到的兴趣点的提取到的描述符选择特征；将所述提取到的描述符与从在时间上邻近于当前关键帧的帧所选择的提取到的描述符进行匹配，并且选择最接近的描述符；

量化器，对最接近的提取到的描述符之间的相对差异进行矢量量化；

编码器，对矢量量化的描述符的坐标进行编码，获得所述紧凑描述符。

11.根据权利要求10所述的装置，其中所述描述符提取器包括：

一个帧中所确定的关键帧中或者在由所述链表指定的兴趣点周围的像素碎片中的兴趣点的检测器；

提取单元，从检测到的兴趣点提取描述符；

选择单元，从所述检测到的兴趣点的提取到的描述符选择特征；

量化器，对提取到的描述符之间的相对差异进行矢量量化；

12.根据权利要求10或11所述的装置，其中在所述描述符提取器中，在所述关键帧中的检测到的兴趣点与在关键帧提取器中对于所述关键帧获得的兴趣点相同或者是在关键帧提取器中对于所述关键帧获得的兴趣点的子集。

13.一种包括计算机程序代码部件的计算机程序，当所述程序在计算机上运行时，所述计算机程序代码部件适用于执行权利要求1到6所述的全部步骤。

14.一种其上记录有程序的计算机可读介质，所述计算机可读介质包括计算机程序代码部件，当所述程序在计算机上运行时，所述计算机程序代码部件适用于执行权利要求1到6所述的全部步骤。