CN109934852A

CN109934852A - 一种基于对象属性关系图的视频描述方法

Info

Publication number: CN109934852A
Application number: CN201910258535.1A
Authority: CN
Inventors: 冯欣; 张洁; 蒋友妮; 苟光磊; 龙建武; 张琼敏; 石美凤; 谭暑秋; 宋承云; 南海
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2019-04-01
Filing date: 2019-04-01
Publication date: 2019-06-25
Anticipated expiration: 2039-04-01
Also published as: CN109934852B

Abstract

本发明公开了一种基于对象属性关系图的视频描述方法，该方法将给定长视频划分为在内容上基本一致的视频段，然后基于每一视频段对该段视频内容进行分析，提取出视频场景中的关键对象，此处提取的关键对象为包含关键对象的矩形框；将提取出来的每一关键对象作为表示该视频段所对应对象属性关系图的结点，通过对每一关键对象进行空间和时间上的特征分析来对其进行属性描述，并作为结点属性；将获取的关键对象之间的相对位置关系作为该视频段所对应对象属性关系图中两个结点之间的连接边，并以此将两关键对象之间相对方向、距离、相对位置关系在时间上的变化作为边属性。该方法实现了一定时间内复杂视频内容的有效并精炼的表示，且具有很好的扩展性。

Description

一种基于对象属性关系图的视频描述方法

技术领域

本发明涉及图像处理领域，特别涉及一直基于对象属性关系图的视频描述方法。

背景技术

当前，遍布于城市各个角落的视频摄像头构成了庞大的视觉感知网络，为城市安防系统提供了重要数据来源。在这种背景下，对基于内容的视频检索、目标定位和跟踪、目标行为分析等应用的需求大大增加。通过构建计算机程序自动地进行视频分析，提取场景内容中的“兴趣”对象的特征及其运动轨迹，并对视频进行语义内容描述，构建视觉场景的内容摘要，是计算机视觉感知网络实现感知的迫切需求，也将为安防系统中基于关键对象的检索、定位、行为分析等提供新的表示方法和高效的技术手段。

对视频内容分析的研究通常使用某种方法提取视频的主要信息来表征视频内容。目前的研究主要通过提取视频的空间和时间特征来描述视频内容，如对视频每帧图像提取颜色、纹理等空间特征，对视频连续帧提取HOF(光流直方图)、运动特征等。这些低级特征通常通过词袋模型进行描述。该模型通过将图像特征聚类成固定维度的视觉单词本，并以图像特征在视觉单词本中出现的频率来描述视频内容。词袋模型被广泛应用于图像视频分类]和人类行为识别等计算机视觉任务中，但由于该模型没有考虑视频特征之间的空间-时间关系，其对视频内容的描述仍然停留在较低级表征水平。

近年来，深度学习技术在计算机视觉任务上的成功使得通过深度卷积神经网络模型提取视频的高级语义特征成为可能，并表现出了较好的性能。如Du Tran和VigneshRamanathan等人使用3D卷积神经网络提取视频特征，在视频分析、行为识别等方面表现出了很好的性能。然而基于深度学习的特征描述方法需要大量的标注数据，且提取的特征仍旧停留初级视觉层面，不具有语义感知信息。

发明内容

针对现有技术存在的上述问题，本发明的目的是提出一种基于对象图的视频语义内容表示方法，该方法通过利用对象属性关系图的方法对视频语义级的内容进行有效的表示。

为实现上述目的，本发明采用如下技术方案：一种基于对象属性关系图的视频描述方法，将给定长视频划分为在内容上基本一致的视频段，然后基于每一视频段对该段视频内容进行分析，提取出视频场景中的关键对象，此处提取的关键对象为包含关键对象的矩形框；

此时，将提取出来的每一关键对象作为表示该视频段所对应对象属性关系图的结点，通过对每一关键对象进行空间和时间上的特征分析来对其进行属性描述，并作为结点属性；

将获取的关键对象之间的相对位置关系作为该视频段所对应对象属性关系图中两个结点之间的连接边，并以此将两关键对象之间相对方向、距离、相对位置关系在时间上的变化作为边属性。

作为改进，使用在Microsoft COCO数据集上训练的Faster R-CNN模型来对每一视频段内容进行分析，检测提取获得关键对象。

作为改进，所述结点属性是关键对象的特征，选择提取关键对象轮廓特征和关键对象表观特征作为关键对象的空间特征；并通过目标跟踪得到关键对象运动轨迹特征，以此共同描述关键对象的属性。

作为改进，所述关键对象轮廓特征是根据Serge Belongie经典形状上下文方法得到的。

作为改进，所述关键对象表观特征由Microsoft COCO数据集上训练的Faster R-CNN模型中得到。

作为改进，所述关键对象的轨迹特征基于对象的运动轨迹，采用现有的多目标跟踪算法对视频中关键对象进行跟踪，并得到关键对象的运动轨迹。

作为改进，将得到的关键对象的运动轨迹分成X轴方向运动轨迹和Y轴方向运动轨迹，并分别对应的转换为X轴方向傅里叶频谱和Y轴方向傅里叶频谱作为结点的时域特征描述符。

作为改进，对于所述X轴方向运动轨迹，首先通过中值滤波对该运动轨迹进行平滑，然后构造200个采样点的粗粒度频谱和1000个采样点的细粒度频谱；

取粗粒度频谱中前30个非直流分量作为所述X轴方向运动轨迹的一个描述子；

通过计算频谱的一阶中心矩并提取前三个局部极大值点对应的频率作为X轴方向运动轨迹的另一个描述子；

将X轴方向运动轨迹的两个描述子融合得到X轴方向运动轨迹的描述符；

对于所述Y轴方向运动轨迹，首先通过中值滤波对该运动轨迹进行平滑，然后构造200个采样点的粗粒度频谱和1000个采样点的细粒度频谱；

取粗粒度频谱中前30个非直流分量作为所述Y轴方向运动轨迹的一个描述子；

通过计算频谱的一阶中心矩并提取前三个局部极大值点对应的频率作为Y轴方向运动轨迹的另一个描述子；

将Y轴方向运动轨迹的两个描述子融合得到Y轴方向运动轨迹的描述符；

将所述X轴方向运动轨迹的描述符和Y轴方向运动轨迹的描述符融合得到一个66维的特征向量。

作为改进，所述对象属性图的连接边描述视频段中两个关键对象的相对位置关系，在视频段中，这种相对位置关系会随着时间变化，对于关键对象相对位置关系变化的特征描述，利用对象运动轨迹特征描述的两种傅里叶频谱连接边来描述关键对象空间关系在时间域的变化特征，即30维的粗粒度频谱连接边和3维的细粒度频谱连接边，由此，边的属性特征由X方向和Y方向的两种傅里叶频谱描述子构成，其维度为1×66。

相对于现有技术，本发明至少具有如下优点：

本发明提出的基于对象图的视频语义内容表示方法通过利用图的方法对视频语义级的内容进行有效的表示。该表示方法实现了对一定时间内复杂视频内容的有效并精炼的表示，且具有很好的扩展性，任何能够对关键对象进行有效描述的特征都可以作为对象属性的一部分。

实验结果表明，在不同的视频类型中，本发明提出的对象属性关系图表示方法与使用深度卷积网络提取通用特征和低层特征的表示方法相比有很大优势。

附图说明

图1为示例视频SlidingVid1的对象属性关系图。

图2为SlidingVid1中对象1轨迹的粗粒度频谱。

图3为SlidingVid1中对象1轨迹的细粒度频谱。

图4为数据集视频示例帧。

图5(a)为生日视频对的对象属性关系图示例，图5(b)为滑梯视频对的对象属性关系图示例。

图6(a)为BoW表示方法相似度结果对比图，图6(b)为C3D_fc6表示方法相似度结果对比图，图6(c)为VARG表示方法相似度结果对比图。

图7为三种视频描述方法的结果对比。

具体实施方式

下面对本发明作进一步详细说明。

人类理解视频内容是从对视频中关键对象的感知开始的：通过观察视频中关键对象的表观特征、分析单个对象的运动方式及多个对象之间的关系，人们可以很容易地识别出这些对象，以及在什么场景下进行某种活动。受人类对视频的理解方式的启发，本发明提出了一种基于对象属性关系图的视频语义级内容描述方法。该方法基于人类对视频场景内容感知的机理，将视频表示成视频对象属性关系图(Object Attribute RelationshipGraph，OARG)，其中图的结点表示视频中的对象，图的边表示对象之间的关系。提取视频场景中各个对象的表观特征、运动轨迹特征作为对象结点属性内容，同时结合对象间的关系变化特征描述作为对象属性图边的属性内容。

在计算机视觉中，图结构被广泛应用于对象动作识别的任务。在这些研究工作中，图的结点通常表示一个对象(如人)的不同组成部分(身体的不同部分)，图的边用于表示各个部分的空间关系。对于包含一个连贯动作的视频，每一帧都分别构建图的表示，因此会得到一个图表示的序列。然而这种表示方法显然是不紧凑的，对于视频的运动特征仍然需要进一步描述。本发明提出的对象属性关系图描述模型则针对整个视频段生成一幅描述图，图中包含了视频关键关键对象的空间-时间特征、对象间的关系变化特征，是一种更为高效、简洁且无需额外标注数据的视频描述框架。

一种基于对象属性关系图的视频描述方法，将给定长视频划分为在内容上基本一致的视频段内容上基本一致的视频段是指，视频段中的关键对象没有变化，背景内容基本没有变化，然后基于每一视频段对该段视频内容进行分析，提取出视频场景中的关键对象，此处提取的关键对象为包含关键对象的矩形框(例如，人)；

通过获取关键对象之间的相对位置关系作为该视频段所对应对象属性关系图中两个结点之间的连接边，并以此将两对象之间相对方向、距离、相对位置关系在时间上的变化作为边属性。

使用在Microsoft COCO数据集上训练的Faster R-CNN模型来对每一视频段内容进行分析，检测提取获得关键对象。从图1可以看出，OARG模型以视频数据为驱动，将一段视频表示为一个简单的边和结点构成的图，其中不涉及任何复杂的学习过程和视频标注数据。需要说明的是OARG模型是现有模型，为节约篇幅本发明不做赘述。

对于给定视频段V，用一个二元组来表示与其对应的目标属性关系图，如公式(1)：

其中，是给定视频V中被检测到的关键对象集合，是关键对象间的关系集合，o_i描述的是给定视频V中的关键对象i，与对象属性关系图中的结点相对应；e_ij描述的是关键对象i和关键对象j之间的空间关系，与对象属性关系图中的边相对应；

在对象属性关系图不仅包含了视频中的对象及对象间的关系，还包含了它们的时间、空间特征描述，这些特征构成了对象属性关系图的结点属性和边属性。

在对象属性关系图中，结点对应的是视频中的关键对象即包括关键对象的矩形框，所述结点属性是关键对象的特征，选择提取关键对象轮廓特征和关键对象表观特征作为关键对象的空间特征；并通过目标跟踪得到关键对象运动轨迹特征，以此共同描述关键对象的属性。

所述关键对象轮廓特征是根据Serge Belongie经典形状上下文(Shape Context)方法得到的。该方法对每一个检测到的关键对象即包含关键对象的矩形框，首先提取其轮廓特征，并在轮廓线上选择n个点，对于每一点，计算其余n-1个点相对于该点的位置分布。该分布在以该点为原点的极坐标中进行统计，将所得到的60维的直方统计量作为关键对象的形状特征。

其中是对象轮廓上的n个点，是每个点p_i对应的60个形状上下文直方统计量。

所述关键对象表观特征由Microsoft COCO数据集上训练的Faster R-CNN模型中得到。选取Faster R-CNN模型卷积层后的第一个全连接层(fc6)的特征，即1×4096的特征向量作为结点的表观特征连接边。最终，将形状空间特征与表观空间特征进行融合得到结点的空间特征属性。

其中是Faster R-CNN第一个全连接层(fc6)的特征。

所述关键对象的轨迹特征基于对象的运动轨迹，采用现有的多目标跟踪算法对视频中关键对象进行跟踪，并得到关键对象的运动轨迹。

由于傅里叶频谱的长度与对象的运动轨迹的长度无关，且傅里叶频谱能够很好地描述对象的运动幅度和模式将得到的关键对象的运动轨迹分成X轴方向运动轨迹和Y轴方向运动轨迹，并分别对应的转换为X轴方向傅里叶频谱和Y轴方向傅里叶频谱作为结点的时域特征描述符。

其中是对象框的中心点在每一帧中的坐标。

其中是原始对象运动轨迹V_t取200个采样点的粗粒度傅里叶频谱,是原始对象运动轨迹V_t取1000个采样点的细粒度傅里叶频谱。

对象的运动特征描述应较好的体现对象运动轨迹的模式及运动的速度。因此，本发明通过将运动轨迹转换为不同粒度采样点的傅里叶频谱来得到不同运动特征维度的描述。对于所述X轴方向运动轨迹，首先通过中值滤波(窗口长度为5)对运动轨迹进行平滑，然后构造200个采样点的粗粒度频谱和1000个采样点的细粒度频谱来实现。；

由于粗频谱的采样点时间间隔较大，其主要反映对象的总体运动模式，因此，取粗粒度频谱中前30个非直流分量作为X轴方向运动轨迹的一个描述子；

对于细粒度频谱，从其频谱幅值的峰值可以得到对象主要运动部分的强度。因此，通过计算频谱的一阶中心矩并提取前三个局部极大值点对应的频率作为X轴方向运动轨迹的另一个描述子；

通过计算细粒度频谱的一阶中心矩并提取前三个局部极大值点对应的频率作为Y轴方向运动轨迹的另一个描述子；

将所述X轴方向运动轨迹的描述符和Y轴方向运动轨迹的描述符融合得到一个66维的特征向量。66维的特征向量包含水平和垂直两个方向的特征。

其中为提取对象轨迹的粗粒度傅里叶频谱中的前30个非直流分量，先计算对象轨迹细粒度傅里叶频谱一阶中心矩(即)，并取其前三个局部极大值点。

图2、图3给出了图1示例视频中关键对象1运动轨迹(水平和垂直方向)的傅里叶粗粒度频谱和细粒度频谱。

所述对象属性图的连接边描述视频段中两个关键对象的相对位置关系，在视频段中，这种相对位置关系即空间位置关系会随着时间变化，例如，两个一起运动的人(比如一起跳舞)之间的位置关系随着时间有不同的变化。对于关键对象相对位置关系变化的特征描述，利用对象运动轨迹特征描述的两种傅里叶频谱连接边来描述关键对象空间关系在时间域的变化特征，即30维的粗粒度频谱连接边和3维的细粒度频谱连接边，由此，边的属性特征由X方向和Y方向的两种傅里叶频谱描述子构成，其维度为1×66。

其中为目标对象空间关系变化的X方向和Y方向的粗粒度傅立叶频谱；为提取对象间空间关系变化的粗粒度傅里叶频谱中前30个非直流分量；先计算对象轨迹细粒度傅里叶频谱一阶中心矩(即)，并取其前三个局部极大值点。

实验结果：

图匹配与视频相似度度量：

通过以上对象属性图的构建，可以得到视频中的关键对象及其相对关系在时-空域的特征描述，即通过对象属性关系图已使得计算机对视频场景内容具备了语义级的感知。视频的相似度度量是视频检索、聚类、摘要生成等任务的一个关键环节，本发明将基于对象属性关系图的视频语义描述模型应用于视频内容的相似度度量，以检验对象属性关系图语义描述能力。

采用上述方法构建视频对V¹和V²的对象属性关系图本发明提出通过图匹配的方法计算视频对之间的相似度。具体地分别计算结点和连接边的关联矩阵和其中n是对象属性关系图中的结点数，m是对象属性关系图中的连接边数，对于两个视频对应的对象属性关系图，分别计算每对结点(o_i1,o_i2)和每对边(e_i1,j1,e_i2,j2)的相似度。由此，视频对相似度衡量问题被转化为图匹配问题。图匹配问题就是寻找一个最优二次分配矩阵X＝[x_i1,i2]，使得对应结点和对应边的相似度总和M(X)最大：

M(X)＝vec(X)^TKvec(X) (2)；

其中，vec()是向量化操作，K是融合了K₀和K_e的关联矩阵，本发明使用分解图匹配方法FGM)来求解这个问题，该方法为现有技术。

结点关联矩阵K₀和边关联矩阵K_e分别定义了两个对象属性关系图结点和连接边的相似性。由于结点和连接边的属性采用了不同的特征，相应的相似性度量也有所不同。

对于结点的空间特征来说，形状轮廓特征是由像素直方统计量描述的，虽然KL散度能够很好地衡量两个概率分布之间的差异，但是传统的KL散度具有非对称性，所以本发明使用改进的对称KL散度(JS散度)计算对应轮廓特征之间的距离；改进的对称KL散度(JS散度)为现有技术。

表观特征是由CNN特征(Faster R-CNN的第一个全连接层fc6)描述的，本发明直接计算对应表观特征之间的欧式距离。

对于结点的时域特征来说，分别计算对应粗粒度频谱的欧式距离和细粒度频谱的绝对差作为时间特征的距离。

对于边的属性特征，由于边的属性特征与结点的轨迹特征描述方式相同，因此类似地直接计算对应粗粒度频谱的欧式距离和细粒度频谱的绝对距离。

最后，所有属性特征的距离度量都通过应用指数衰减函数转换为相似度度量，并融合不同特征的相似度作为关联矩阵的元素。为了消除特征描述符的取值范围不同所带来的差异，本发明在进行指数映射之前对每种距离度量做了归一化处理。

通过应用FGM求解目标函数公式(2)的最大值，得到的结果即为两个视频的相似度得分。

为了本发明方法的有效性，本发明在视频事件分类的数据集上进行了实验，并与经典的BoW描述方法和基于3D卷积神经网络(C3D)的结果进行了比较。

BoW描述方法使用3D-SIFT作为视觉特征来描述视频信息。实验中，从每个视频中随机选择50帧作为训练数据集，通过K-means聚类生成由500维视觉单词组成的视觉单词本。基于C3D的描述方法使用从全连接层fc6(C3D_fc6)中提取的特征来描述视频信息。

实验数据使用了属于4个典型视频事件类别(即生日Birthday，滑滑梯Sliding，荡秋千Swing，婚礼Wedding)的9个视频(BirthdayVid1，BirthdayVid2，BirthdayVid3，SlidingVid1，SlidingVid2，SwingVid1，SwingVid2，WeddingVid1，WeddingVid2)。其中七个来自哥伦比亚大学用户视频(CCV)数据集，视频数据集包括了丰富的场景内容，具有较大的类内差异和一定的类间相似性。部分视频数据示例帧如图4所示。图5a和图5b给出了应用本发明方法在部分实验数据上构建的对象属性关系图。

通过将本发明提出的视频对象属性关系图(VARG)、BoW方法和C3D方法应用于视频数据集上进行相似性度量，结果如图6(a)，图6(b)和图6(c)所示。其中，BoW方法采用JS散度(随后使用指数衰减函数转换为相似性)度量视频对的BoW描述子的相似度；C3D方法使用高维特征的欧式距离(随后使用指数衰减函数转换为相似性)度量视频对的相似度；本发明提出的视频对象属性关系图描述方法则采用公式(2)的图匹配的优化结果作为视频对的相似度度量。

图6(a)，图6(b)和图6(c)，中用不同的直方图代表了不同的视频，直方图中每个区域间隔代表每个视频(如BirthdayVid1)与数据集内其他视频匹配的结果。

从图6(a)可以看出，BoW表示方法得到的结果认为不同类别的视频也具有较高的相似性。这是由于BoW描述方法基于某些低级局部视觉特征的出现频率来描述视频，忽略了特征间的空间-时间变化，不能有效地为视频对提供语义水平上的视频相似性评估。观察图6(b)可以发现，C3D_fc6和BoW的表现类似，同样无法区分不同类别的视频，这是由于其提取的C3D fc6特征是一种通用的初级视觉特征，无法表示到视频具体对象及其语义层的内涵。而图6(c)则可以看出本发明提出对象属性关系图表示方法能够良好地区分语义内容不同的视频，即语义内容相似地视频有更高地相似度得分，语义内容不同地视频地相似度得分则相对很低。

如图7所示给出了三种方法在整个数据集上的相似度度量的统计结果。统计方法包括类内平均相似度(SimRatio)、查准率(Precision)和查全率(recall)。结果显示本发明提出的VARG表示方法拥有比C3D_fc6和BoW具有更高的SimRatio，在Precision和Recall上也优于其他两种视频表示方法，这表明VARG表示方法在区别不同语义内容的视频上具有明显优势。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于对象属性关系图的视频描述方法，其特征在于：将给定长视频划分为在内容上基本一致的视频段，然后基于每一视频段对该段视频内容进行分析，提取出视频场景中的关键对象，此处提取的关键对象为包含关键对象的矩形框；

2.如权利要求1所述的基于对象属性关系图的视频描述方法，其特征在于：使用在Microsoft COCO数据集上训练的Faster R-CNN模型来对每一视频段内容进行分析，检测提取获得关键对象。

3.如权利要求1所述的基于对象属性关系图的视频描述方法，其特征在于：所述结点属性是关键对象的特征，选择提取关键对象轮廓特征和关键对象表观特征作为关键对象的空间特征；并通过目标跟踪得到关键对象运动轨迹特征，以此共同描述关键对象的属性。

4.如权利要求3所述的基于对象属性关系图的视频描述方法，其特征在于：所述关键对象轮廓特征是根据Serge Belongie经典形状上下文方法得到的。

5.如权利要求3所述的基于对象属性关系图的视频描述方法，其特征在于：所述关键对象表观特征由Microsoft COCO数据集上训练的Faster R-CNN模型中得到。

6.如权利要求3所述的基于对象属性关系图的视频描述方法，其特征在于：所述关键对象的轨迹特征基于对象的运动轨迹，采用现有的多目标跟踪算法对视频中关键对象进行跟踪，并得到关键对象的运动轨迹。

7.如权利要求6所述的基于对象属性关系图的视频描述方法，其特征在于：将得到的关键对象的运动轨迹分成X轴方向运动轨迹和Y轴方向运动轨迹，并分别对应的转换为X轴方向傅里叶频谱和Y轴方向傅里叶频谱作为结点的时域特征描述符。

8.如权利要求7所述的基于对象属性关系图的视频描述方法，其特征在于：对于所述X轴方向运动轨迹，首先通过中值滤波对该运动轨迹进行平滑，然后构造200个采样点的粗粒度频谱和1000个采样点的细粒度频谱；

9.如权利要求1-7任一项所述的基于对象属性关系图的视频描述方法，其特征在于：

所述对象属性图的连接边描述视频段中两个关键对象的相对位置关系，在视频段中，这种相对位置关系会随着时间变化，对于关键对象相对位置关系变化的特征描述，利用对象运动轨迹特征描述的两种傅里叶频谱连接边来描述关键对象空间关系在时间域的变化特征，即30维的粗粒度频谱连接边和3维的细粒度频谱连接边，由此，边的属性特征由X方向和Y方向的两种傅里叶频谱描述子构成，其维度为1×66。