CN101420595A

CN101420595A - 一种描述和捕获视频对象的方法及设备

Info

Publication number: CN101420595A
Application number: CNA2007101656145A
Authority: CN
Inventors: 赵光耀
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2007-10-23
Filing date: 2007-10-23
Publication date: 2009-04-29
Anticipated expiration: 2027-10-23
Also published as: WO2009056038A1; US8687064B2; CN101420595B; US20100142914A1

Abstract

本发明公开了一种描述和捕获视频对象的方法及设备，通过捕获视频图像，生成视频序列，根据视频序列生成视频对象跟踪序列；根据视频对象跟踪序列及视频序列，生成视频对象描述符。重放视频对象，根据获取的视频对象跟踪序列包括的信息对视频对象进行捕获和跟踪。应用本发明，由于在构造的视频对象跟踪序列中，通过视频对象区域跟踪编号捕捉和跟踪视频对象，不需要逐帧为每个视频对象建立视频对象描述符，从而减少了视频对象描述符的数量，既能很好地适应智能视频交互的应用需求，又加快了视频资料的检索速度。

Description

一种描述和捕获视频对象的方法及设备

技术领域

本发明涉及视频技术，特别涉及一种描述和捕获视频对象的方法及设备。

背景技术

视频监控(Video Surveillance)技术经过多年的数字化发展，已逐步形成网络化，为生产监控，如生产线流程监控、安全监控，如火车站、地铁站、飞机场的安全监控，以及其它监控如病人护理发挥了积极的作用，然而，随着监控对象的增多以及各对象属性资料信息的更新和增加，如何对大量的视频监控资料进行方便地管理、检索、视频人机交互、智能再处理，充分发挥网络化视频监控系统的优势，是目前视频交互系统(Interactive VideoSystem)需要解决的问题。

运动图像专家组(MPEG，Moving Picture Experts Group)，即国际标准化组织和国际电工委员会第一联合技术组第29分委会第11工作组(ISO/IECJTC1/SC29/WG11)，负责数字视频、音频和其他媒体的压缩、解压缩、处理和表示等国际技术标准的制定工作，从1996年10月开始研究多媒体内容描述接口(Multimedia Content Description Interface)，也就是MPEG-7，于2002年形成了国际标准ISO/IEC 15938，First edition，定义了100多个描述工具，用于描述各种多媒体信息，这些“描述”(包括描述子和描述模式)与其内容关联，允许快速有效地搜索用户感兴趣的资料，带有MPEG-7数据的资料可以包含静止图像、图形、3D模型、音频、语音、视频，以及这些元素如何在多媒体表现中组合的信息，而且，这些通用数据类型的特例还可以包含面部表情和个人化的特性。

MPEG-7支持多种音频和视觉的描述，并根据描述信息的抽象层次，提供一种描述多媒体的方法以便表示不同层次上的用户对信息的需求。以视觉内容为例，较低抽象层包括颜色、视觉对象、纹理、草图、形状、尺寸、体积、空间、运动(轨道)和位置关系等；高层将给出语义信息：如“这是一个场景：一个鸭子正躲藏在树后并有一个汽车正在幕后通过”。抽象层特征一般以完全自动的方式提取，而高层特征一般需要通过与用户的交互来实现。

MPEG-7特别适用于多媒体检索，包括对视频监控材料的检索，通过搜索引擎来匹配查询数据和MPEG-7的音视频描述，如对于图形的查询：通过在屏幕上画几条线就能得到类似图形、标识、表意文字(符号)等的一组图像；又如，对于运动的查询：对一组给定的物体，描述在物体之间的运动关系，就可以得到实现所描述的时空关系的动画列表。

目前的随机存取视频系统，比如光盘、硬盘等，具有“播放、停止、快进、快退、暂停、拖动”操作模式，可以根据视频节目单来选择需要观看的视频片段，也可以从指定的时间点来播放，并通过符合MPEG-7的对象描述可以播放检索结果对应的视频片段。

图1为现有描述方法中使用的动态视频对象描述符示意图，参见图1，为每帧出现的每个对象建立视频对象描述符(Object Descriptor)，描述对象的各种属性，在视频对象描述符里说明其形状、尺寸、分层、持续时间、活动、活动参数以及其他对象特征。

在图1中，对于一个视频序列，每个序列号为一帧，为每帧出现的每个对象建立一个视频对象描述符，在视频对象描述符里说明对象的轮廓坐标、对象编号、尺寸、分层、持续时间、活动、活动参数以及其他对象特征。逐帧的视频对象描述符形成一个视频对象描述文件。举例来说，如果同一个活动对象在N帧图像中出现，就建立N个视频对象描述符来表示它的跟踪关系；如果M个活动对象在N帧图象中出现，就建立M×N个视频对象描述符来表示它的跟踪关系；在每个视频对象描述符里，记录该对象的轮廓上所有像素点的轮廓坐标、视频对象身份编号、尺寸、分层、持续时间、活动、活动参数、身份照片、身份参数以及其他对象特征。在进行重放视频序列时，系统从视频对象描述符里恢复每个对象的轮廓坐标与视频序列的对应关系，从而实现满足视频监控所需要的人机交互功能。

从图1中可以看出，由于对每帧出现的每个对象建立一个视频对象描述符，每个视频对象描述符都需要描述对象的特征，因此，当视频序列较长，和/或视频对象较多时，用于描述视频对象的视频对象描述符的数量和尺寸是非常庞大的，对视频资料的快速检索造成了困难。

由于图1中在视频对象描述符里使用轮廓坐标对视频对象进行位置的定位，需要进行较为复杂的运算处理，占用较多的存储资源，因此，一种改进的方法是，利用视频对象的“多边形顶点坐标”或“视频对象窗口坐标”取代“轮廓坐标”，压缩视频对象描述符的尺寸，但用视频对象窗口坐标或多边形顶点坐标近似描述对象轮廓坐标，在选择视频对象时，如果选择的位置不准确，容易造成操作失误，而且，利用视频对象窗口坐标或多边形顶点坐标对视频对象进行跟踪和标注，也显得较粗糙，进一步地，这种改进的方法只能减少视频对象描述符的尺寸，不能减少视频对象描述符的数量，对视频资料的快速检索仍然不利。

发明内容

本发明实施例提供一种描述视频对象的方法，减少视频序列中视频对象描述符的数量。

本发明实施例还提供一种捕获视频对象的方法，提高视频序列中视频对象的检索速度。

本发明实施例还提供一种描述视频对象的设备，减少视频序列中视频对象描述符的数量。

本发明实施例还提供一种捕获视频对象的设备，提高视频序列中视频对象的检索速度。

为达到上述目的，本发明实施例的技术方案具体是这样实现的：

一种描述视频对象的方法，该方法包含：

捕获视频图像，生成视频序列，根据视频序列生成视频对象跟踪序列；

根据视频对象跟踪序列及视频序列，生成视频对象描述符。

一种捕获视频对象的方法，该方法包括：

重放视频对象，根据获取的视频对象跟踪序列包括的信息对视频对象进行捕获和跟踪。

一种描述视频对象的设备，该设备包含：视频对象捕获模块、视频对象跟踪模块及视频对象分析模块，其中，

视频对象捕获模块，用于捕获视频图像，生成视频序列，将视频序列分别向视频对象跟踪模块及视频对象分析模块输出；

视频对象跟踪模块，用于根据接收的视频序列生成视频对象跟踪序列，向视频对象分析模块输出；

视频对象分析模块，用于根据接收的视频对象跟踪模块输出的视频对象跟踪序列及视频捕获模块输出的视频序列，生成视频对象描述符。

一种捕获视频对象的设备，该设备包含：重放控制模块、视频叠加模块及显示模块，其中，

重放控制模块，用于重放视频对象，接收用户选定的视频对象，与视频对象跟踪序列中包含的视频对象区域位图进行匹配，获取跟踪的视频对象区域编号，根据跟踪的视频对象区域编号查询视频对象区域索引获取跟踪的视频对象区域跟踪编号，跟踪后续帧中与视频对象区域跟踪编号相关的视频对象区域编号，向视频叠加模块输出；

视频叠加模块，用于根据接收信息中包含的视频对象区域编号，与视频序列匹配获取连续的视频对象区域位图，实时标注视频对象区域位图，输出至显示模块；

显示模块，用于实时显示标注的视频对象区域位图。

由上述技术方案可见，本发明实施例的一种描述和捕获视频对象的方法及设备，通过捕获视频图像，生成视频序列，根据视频序列确定视频对象区域编号及视频对象区域跟踪编号；根据视频序列、视频对象区域编号及视频对象区域跟踪编号，生成视频对象跟踪序列；根据视频对象跟踪序列及视频序列，生成视频对象描述符。重放视频对象，根据获取的视频对象跟踪序列包括的信息对视频对象进行捕获和跟踪。由于在构造的视频对象跟踪序列中，通过视频对象区域跟踪编号捕捉和跟踪视频对象，不需要逐帧为每个视频对象建立视频对象描述符，从而减少了视频对象描述符的数量，既能很好地适应智能视频交互的应用需求，又加快了视频资料的检索速度。

附图说明

图1为现有描述方法中使用的动态视频对象描述符示意图。

图2为本发明实施例实施例智能视频生成设备结构示意图。

图3为本发明实施例视频对象区域位图Mk中不同视频对象RID的生成示意图。

图4为本发明实施例视频对象区域位图Mk局部位图示意图。

图5为本发明实施例视频对象描述符的结构示意图。

图6为本发明实施例智能视频重放设备结构示意图。

图7为本发明实施例智能视频编辑设备结构示意图。

图8为本发明实施例一种描述视频对象的方法流程示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明作进一步详细说明。

本发明实施例是通过捕获视频图像，生成视频序列，根据视频序列确定视频对象区域编号及视频对象区域跟踪编号；根据视频序列、视频对象区域编号及视频对象区域跟踪编号，生成视频对象跟踪序列；根据视频对象跟踪序列及视频序列，生成视频对象描述符。

为了实现上述目的，本发明提出了一种描述视频对象的设备。

图2为本发明实施例智能视频生成设备结构示意图。参见图2，该智能视频生成设备包含：视频捕获模块201、视频对象检测模块202、视频对象跟踪模块203、视频对象分析模块204及事件分析模块205，其中，

视频捕获模块201，用于捕获视频图像，生成视频序列(Video Sequence)Pk，包含K帧连续的图像，将视频序列分别向视频对象检测模块202、视频对象跟踪模块203、视频对象分析模块204及事件分析模块205输出；

视频对象检测模块202，用于接收视频捕获模块201输出的视频序列P_k，获取视频对象区域位图(Object Region Map)M_k，对M_k进行检测，对检测到的M_k中不同视频对象分配视频对象区域编号(RID，Region IdentificationNumber)RID，向对象跟踪模块203输出；

下面对本发明实施例对象检测模块202获取视频对象区域位图中不同对象的RID和相应的TID进行说明。

图3为本发明实施例视频对象区域位图M_k中不同视频对象RID的生成示意图，参见图3，假设视频对象区域位图M_k中包括3帧连续的图像，分别为第k帧图像、第k+1帧图像和第k+2帧图像，每帧图像包括2个视频对象，在第k帧图像时，当检测到一个视频对象时，系统给该视频对象分配一个非零的RID，不同的视频对象区域有不同的RID，没有对象的区域RID的数值都为0，视频对象区域位图的生成方法是：

M_{k} (x, y) = \{\begin{matrix} 0 \\ j \end{matrix}

式中，(x，y)为M_k区域坐标：当(x，y)处为背景图像时，M_k(x，y)为零；当(x，y)处为视频对象区域时，M_k(x，y)等于j，其中，j为分配的RID。

以图3为例，对于第k帧图像，系统检测到2个视频对象，给其中一个视频对象分配的RID＝3，表示RID＝3的视频对象区域其数值都为3，另外一个视频对象分配的RID＝5，表示RID＝5的视频对象区域其数值都为5，不同的视频对象区域分配不同的RID；不同帧图像中分配给同一个视频对象的RID可以不相同。

实际应用中，在同一M_k中，视频对象区域里的数值也不一定等于RID，例如，分配的RID＝2，而相应视频对象区域里的数值可以为3，也可以为4；而且，在同一视频对象区域里的数值也不一定都相等，上述情况下，相应视频对象区域里的数值可通过其它方式与RID建立联系。

图4为本发明实施例视频对象区域位图M_k局部位图示意图，参见图4，包含RID＝3和RID＝5的两个视频对象区域，其它区域为RID＝0的背景图像。

获取视频对象区域位图及视频对象区域后，对该视频对象区域进行统计分析就可以得到每个视频对象区域的窗口坐标(Left，Bottom，Right，Top)和中心位置坐标(Center X，Center Y)，计算方法如下：

Left为在M_k中RID为j的点中，最小的x(水平)坐标值；

Bottom为在M_k中RID为j的点中，最小的y(纵)坐标值；

Right为在M_k中RID为j的点中，最大的x(水平)坐标值；

Top为在M_k中RID为j的点中，最大的y(纵)坐标值；

Center X为在M_k中RID为j的点中，平均的x(水平)坐标值；

Center Y为在M_k中RID为j的点中，平均的y(纵)坐标值。

视频对象跟踪模块203，用于接收视频对象检测模块202输出的M_k及RID以及视频捕获模块201输出的P_k，通过对帧间不同视频对象区域的视频内容进行分析，得到视频对象区域的跟踪关系，为不同帧中具有跟踪关系的视频对象区域分配同一个视频对象区域跟踪编号(TID，Region TracingNumber)TID；对于新出现的视频对象区域，为该视频对象区域分配一个新的TID；生成视频对象跟踪序列(Object Tracking Sequence)(M_k，RI_k)，其中，RI_k为第k(k＝0，1，...，K-1)帧视频对象区域索引(Object Region Index)，包含RID和TID；向视频对象分析模块204输出；

仍以图3为例，对于第k帧图像中的RID＝3、第k+1帧图像中的RID＝4和第k+2帧图像中的RID＝3，分配同一个TID＝2，表示其跟踪关系；对于第k帧图像中的RID＝5、第k+1帧图像中的RID＝2和第k+2帧图像中的RID＝4，分配同一个TID＝3，表示其跟踪关系。

假设第k帧视频图像中RID＝3的视频对象区域，计算得到的窗口坐标(Left，Bottom，Right，Top)和中心位置坐标(Center X，Center Y)分别为(180，2，234，56)和(210，28)，RID＝5的视频对象区域，其窗口坐标和中心位置坐标分别为(235，24，255，36)和(246，29)；第k+1帧图像中RID＝4的视频对象区域，窗口坐标和中心位置坐标分别为(102，11，128，38)和(116，24)，RID＝2的视频对象区域，其窗口坐标和中心位置坐标分别为(190，12，215，40)和(203，25)；第k+2帧图像中RID＝3的视频对象区域，窗口坐标和中心位置坐标分别为(27，24，46，35)和(37，28)，RID＝4的视频对象区域，其窗口坐标和中心位置坐标分别为(65，3，115，58)和(92，29)。则视频对象跟踪序列(M_k，RI_k)中视频对象区域索引RI_k可以表示为表1所示。

表1

视频对象分析模块204，用于接收视频对象跟踪模块203输出的视频对象跟踪序列(M_k，RI_k)以及视频捕获模块201输出的P_k，根据P_k和(M_k，RI_k)，生成包含视频对象身份编号(PID，Personal Identification Number)和视频对象分类编号(CID，Classification Number)的视频对象描述符OD_j(j＝0，1，...，J-1)，其中，J为K帧连续图像中包含的不同视频对象的个数。

图5为本发明实施例视频对象描述符的结构示意图，参见图5，包括：PID、TID、CID、身份照片链接、身份参数链接及其它特征。其中，PID和TID是视频对象描述符中不可或缺的参数，PID是标志视频对象的唯一编号，代表视频对象的身份，可以被其它的语义描述引用；TID为(M_k，RI_k)中的视频对象区域跟踪编号；CID为视频对象的分类编号，可以被其它的语义描述所引用，身份照片链接及身份参数链接将身份照片及身份参数链接到其它位置，以减少视频对象描述符的尺寸。还可以是利用压缩编码如变长字节Haffman编码对视频对象跟踪序列进行压缩处理后输出。

在生成初始的视频对象描述符后，视频对象分析模块204不断分析视频对象区域的特征，如果视频对象区域内某视频对象的特征，如视频对象区域位图、视频对象轮廓位图、视频对象身份照片及视频对象身份参数的置信度高于视频对象描述符中对应的该视频对象特征，则将置信度较高的视频对象特征更新到视频对象描述符中，以及，视频对象描述符中身份照片及身份参数对应的链接照片和文件。

事件分析模块205，用于接收视频捕获模块201及视频对象分析模块204的输出，通过分析视频对象检测输出、视频对象跟踪输出、视频对象分析输出及视频序列，生成基于语义的视频对象事件描述(Event Description)ED_n，用于对视频序列中发生的事件进行语义描述，ED_n可以引用OD_j中的PID。

图6为本发明实施例智能视频重放设备结构示意图。参见图6，该智能视频重放设备包含：事件解释模块601、重放控制模块602、视频叠加模块603、显示模块604及点击模块605，其中，

事件解释模块601，用于对视频序列中发生的事件进行语义描述，根据ED_n描述的视频对象，通过ED_n获取相应视频对象对应的PID，将PID信息输出至重放控制模块602；

点击模块605，用于选取跟踪的视频对象，输出至重放控制模块602；

重放控制模块602，用于重放视频对象，同步解释视频对象跟踪序列(M_k，RI_k)，接收点击模块605输出的视频对象，与(M_k，RI_k)中的M_k进行匹配，如果与M_k中某视频对象区域匹配成功，获取跟踪的视频对象对应的RID，根据RID查询RI_k获取跟踪的视频对象对应的TID，通过OD_j搜索该跟踪的视频对象PID和视频对象特征，跟踪后续帧中与TID相关的RID，实现捕捉和跟踪视频对象；

或者，接收事件解释模块601输出的PID信息，根据PID信息确定该视频对象的OD_j，获取对应的TID(一个PID可以对应一个或多个TID)，根据获取的TID，在OD_j中进行检索，获取跟踪的视频对象的其它特征，例如身份照片、身份特征参数、底层特征、语义描述；或者，根据PID信息确定该视频对象的OD_j，在OD_j中进行检索获取对应的TID，通过TID获取跟踪的视频对象RI_k，然后通过RI_k可以跟踪视频对象的位置和轮廓，向视频叠加模块603输出；

视频叠加模块603，用于接收重放控制模块602输出的信息，根据输出信息中包含的RID，与视频序列匹配获取连续的视频对象M_k，然后根据重放控制模块602输出的信息，对相应的图像区域进行实时显示标注、提取对象照片等操作，并将操作的结果输出至显示模块604；

实际应用中，显示标注的形式有多种，可以对选定的视频对象进行标注，也可以对选定的视频对象轮廓进行标注，还可以对选定的视频对象的对象区域窗口坐标进行标注，还可以对选定的所述视频对象的对象区域中心坐标进行标注，还可以对选定的所述视频对象运动轨迹进行标注，还可以根据事件描述符引用的对象身份编号跟踪或标注视频对象，也可以同时进行一种或一种以上的标注。

显示模块604，用于将视频叠加模块603的输出进行显示，如实时提取选定的视频对象身份照片进行显示。

实际应用中，也可以是在智能视频生成设备中增加重放控制模块、视频叠加模块及显示模块，完成视频对象重放显示，查询、跟踪视频序列中视频对象，对相应的图像区域进行实时显示标注以及将提取的身份照片显示。视频对象区域位图可以为对象轮廓位图，也可以为对象轮廓坐标。

图7为本发明实施例智能视频编辑设备结构示意图。参见图7，该智能视频编辑设备包含：事件解释模块701、重放控制/编辑控制模块702、视频叠加模块703、显示模块704及点击模块705，与图6不同的是，智能视频编辑设备在智能视频重放设备的基础上增加了编辑控制功能，用于根据用户的要求对视频对象进行编辑、更新以及改变视频对象跟踪关系。

重放控制/编辑控制模块702，根据点击模块705输出的用户要求，手动编辑与捕获的视频对象相关的事件描述，通过自动或手动更新RI_k中的TID以及OD_j中的TID来改变视频对象跟踪关系；通过手动或自动更新视频对象OD_j中的视频对象身份照片链接、身份参数链接、以及其它特征。

实际应用中，也可以将智能视频生成设备和智能视频重放设备，或将智能视频生成设备和智能视频编辑设备组合成为复合设备。可以应用于视频监控，也可以应用于例如视频会议、工业、医疗、新闻、电影以及摄像机、录像机、光碟机、电脑播放器，视频图像的编码形式可以采用MPEG-1、MPEG-2、MPEG-4、H.263、H.264、WMV9、AVS、JPEG，只要是连续的视频图像，都可以利用视频对象跟踪序列，实现视频交互。

图8为本发明实施例一种描述视频对象的方法流程示意图。参见图8，该流程包含：

步骤801，捕获视频图像；

本步骤中，将捕获的K帧连续的图像作为一个视频序列P_k。

步骤802，构造视频对象跟踪序列(M_k，RI_k)；

本步骤中，根据视频序列P_k，获取视频对象区域位图M_k，对M_k进行检测，对检测到的M_k中不同视频对象分配RID，同一M_k中视频对象区域数值等于RID，根据M_k及RID，获取每个RID的窗口坐标(Left，Bottom，Right，Top)和中心位置坐标(Center X，Center Y)；为不同帧中具有跟踪关系的视频对象区域分配同一个TID；对于新出现的视频对象区域，为该视频对象区域分配一个新的TID；根据RID、TID、窗口坐标及中心位置坐标生成RI_k。

此外，视频对象区域位图M_k也可以是视频对象轮廓位图，还可以是视频对象轮廓坐标，也可以是将视频对象区域位图、视频对象轮廓位图及视频对象轮廓坐标进行压缩。

生成的(M_k，RI_k)与现存的视频码流如MPEG-1、MPEG-2、MPEG-4、H.264兼容，也与MPEG-7的视频视频对象描述符兼容；(M_k，RI_k)可以与相关的视频码流、MPEG-7的描述元素一起存放，也可以单独存放在其它位置。

而且，生成的RI_k可以只包含TID和RID。

步骤803，根据P_k和生成的(M_k，RI_k)，生成和更新视频视频对象描述符OD_j；

本步骤中，根据P_k和生成的(M_k，RI_k)，分析视频对象区域特征，如果视频对象区域图像特征的置信度高于视频对象描述符中视频对象区域图像特征，则将置信度较高的图像特征更新到视频对象描述符中，以及，将质量最好的身份照片更新到相应的描述链接文件中。

本实施例中，为了减少视频对象描述符的尺寸，将视频对象描述符中有关对象身份照片、身份参数等通过链接保存在另外的文件里，进一步减少了视频对象描述符的尺寸。

步骤804，根据P_k、(M_k，RI_k)和OD_j，生成基于语义的视频对象事件描述ED_n；

本步骤中，ED_n用于对视频序列中发生的事件进行语义描述，ED_n可以引用OD_j中的PID。

步骤805，重放视频序列P_k；

本步骤中，在重放视频序列P_k，同步解释(M_k，RI_k)，根据用户选取的图像信息，与M_k进行匹配，如果与M_k中某视频对象区域匹配成功，获取该视频对象RID，然后通过视频对象RI_k查询，获取该视频对象TID，通过OD_j搜索该视频对象PID和对象特征，实现捕捉和跟踪视频对象；

也可以对ED_n进行解释，根据ED_n引用的PID，检索OD_j，获取对应的TID，然后通过RI_k查询获取RID。

步骤806，编辑视频序列P_k。

本步骤中，根据用户的要求自动或手动更新RI_k中的TID及OD_j中的TID，更新视频对象跟踪关系；手动或自动更新视频对象的身份照片、身份参数、其它特征以及手动编辑与捕捉到的视频对象相关的事件描述；根据用户的要求对捕捉和跟踪到的视频对象进行标注显示、照片显示及跟踪关系显示。

由上述实施例可见，本发明实施例的一种描述视频对象的方法及设备，将每帧所有视频对象的轮廓坐标作为一个完整的视频元素形成逐帧的M_k，并通过逐帧的RI_k与P_k建立联系。通过捕获视频图像，构造视频对象跟踪序列(M_k，RI_k)，根据P_k和(M_k，RI_k)，分析视频对象区域特征，根据分析结果更新视频对象描述符OD_j，根据P_k、(M_k，RI_k)和OD_j，生成基于语义的视频对象事件描述ED_n；在重放视频序列P_k时，根据用户选取的图像信息，与M_k进行匹配，获取该视频对象RID，然后通过视频对象RI_k查询，获取该视频对象TID，通过OD_j搜索该视频对象PID和对象特征，实现捕捉和跟踪视频对象，并可在重放时编辑视频序列P_k。对于连续的活动视频对象，通过构造(M_k，RI_k)，不需要逐帧为每个视频对象建立视频对象描述符，减少了视频对象描述符的数量，而且，将视频对象描述符中的身份照片、身份参数通过链接保存在另外的文件里，减少了视频对象描述符的尺寸，既能很好地适应智能视频交互的应用需求，又加快了视频资料的检索速度。

以上举较佳实施例，对本发明的目的、技术方案和优点进行了进一步详细说明，所应理解的是，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种描述跟踪序列的方法，其特征在于，该方法包括：

根据视频对象跟踪序列及视频序列，生成视频对象描述符。

2、如权利要求1所述的方法，其特征在于，所述根据视频序列生成视频对象跟踪序列包括：

根据视频序列确定视频对象区域编号；

根据视频序列确定视频对象区域跟踪编号；

根据视频序列、视频对象区域编号及视频对象区域跟踪编号，生成视频对象跟踪序列。

3、如权利要求2所述的方法，其特征在于，所述根据视频序列确定视频对象区域编号包括：根据视频序列获取视频对象区域位图，对视频对象区域位图中的不同的视频对象区域进行编号。

4、如权利要求2所述的方法，其特征在于，所述根据视频序列确定视频对象区域跟踪编号包括：根据视频序列获取视频对象区域位图，对视频对象区域位图中的不同的视频对象区域进行分析，得到视频对象区域跟踪编号。

5、如权利要求2所述的方法，其特征在于，所述视频对象跟踪序列包括视频对象区域位图和视频对象区域索引。

6、如权利要求5所述的方法，所述视频对象区域索引包括视频对象区域编号和视频对象区域跟踪编号。

7、如权利要求6所述的方法，其特征在于，所述视频对象区域索引进一步包括：对象区域窗口坐标和对象区域中心坐标。

8、如权利要求6或7所述的方法，其特征在于，所述视频对象描述符包括视频对象身份编号及视频对象区域跟踪编号链接，所述视频对象区域跟踪编号链接视频对象的动态属性。

9、如权利要求8所述的方法，其特征在于，所述视频对象描述符进一步包括身份照片链接或身份参数链接，用于根据获取的跟踪对象照片的质量，确定当前帧跟踪对象照片质量好于视频对象描述符身份照片链接对应的照片，用当前帧跟踪对象照片更新视频对象描述符身份照片链接对应的照片。

10、如权利要求9所述的方法，其特征在于，所述用当前帧跟踪对象照片更新视频对象描述符身份照片链接对应的照片的步骤进一步包括：更新所述跟踪对象的身份参数链接对应的文件。

11、如权利要求1～7、9、10任一项所述的方法，其特征在于，所述方法进一步包括：根据视频对象描述符及视频序列，生成事件描述，所述事件描述引用视频对象描述符中的对象身份编号。

12、如权利要求3～7、9、10任一项所述的方法，其特征在于，所述视频对象区域位图为视频对象轮廓位图或视频对象轮廓坐标。

13、如权利要求3～7、9、10任一项所述的方法，其特征在于，对所述视频对象跟踪序列使用变长字节Haffman编码进行压缩处理。

14、一种捕获视频对象的方法，其特征在于，该方法包括：

15、如权利要求14所述的方法，其特征在于，所述对视频对象进行捕获和跟踪的步骤包括：将用户点击输出的视频对象，与视频对象跟踪序列包括的视频对象区域位图进行匹配，确定与视频对象区域位图中某视频对象区域匹配成功，获取跟踪的视频对象对应的视频对象区域编号，根据视频对象区域编号查询视频对象区域索引，获取跟踪的视频对象对应的视频对象区域跟踪编号，通过视频对象描述符搜索跟踪的视频对象身份编号和视频对象特征，跟踪后续帧中与视频对象区域跟踪编号相应的视频对象区域编号。

16、如权利要求15所述的方法，其特征在于，所述对视频对象进行捕获和跟踪的步骤进一步包括对下述之一或任意组合进行标注：视频对象轮廓、视频对象的对象区域窗口坐标、视频对象的对象区域中心坐标、视频对象运动轨迹。

17、如权利要求14或15或16所述的方法，其特征在于，实时提取选定的视频对象身份照片进行显示。

18、如权利要求14或15或16所述的方法，其特征在于，根据事件描述符引用的对象身份编号跟踪或标注视频对象。

19、如权利要求14或15或16所述的方法，其特征在于，所述方法进一步包括：对捕获和跟踪的视频对象进行编辑，通过自动或手动更新视频对象区域索引中的视频对象区域跟踪编号及视频对象描述符中的视频对象区域跟踪编号，或通过自动或手动更新视频对象描述符中包含的身份照片、身份参数链接及其它特征，或通过手动编辑与捕捉到的对象相关的事件描述。

20.一种描述视频对象的设备，其特征在于，该设备包含：视频对象捕获模块、视频对象跟踪模块及视频对象分析模块，其中，

21、如权利要求20所述的设备，其特征在于，所述设备进一步包括视频对象检测模块，用于根据接收的视频序列确定视频对象区域编号及视频对象区域跟踪编号，向视频对象跟踪模块输出；

视频对象跟踪模块，用于根据接收的视频序列确定视频对象区域跟踪编号，根据视频对象区域跟踪编号以及接收的视频对象区域编号及视频序列，生成视频对象跟踪序列，向视频对象分析模块输出。

22、如权利要求20所述的设备，其特征在于，所述设备进一步包括事件分析模块，用于接收视频对象捕获模块输出的视频序列及视频对象分析模块输出的视频对象描述符，生成事件描述，所述事件描述引用视频对象描述符中的对象身份编号。

23.一种捕获视频对象的设备，其特征在于，该设备包含：重放控制模块、视频叠加模块及显示模块，其中，

显示模块，用于实时显示标注的视频对象区域位图。

24、如权利要求23所述的设备，其特征在于，所述设备进一步包括重放控制/编辑控制模块，对捕获和跟踪的视频对象进行编辑，通过自动或手动更新视频对象区域索引中的视频对象区域跟踪编号及视频对象描述符中的视频对象区域跟踪编号，或通过自动或手动更新视频对象描述符中包含的身份照片、身份参数链接及其它特征，或通过手动编辑与捕捉到的对象相关的事件描述。