CN110148105B

CN110148105B - 基于迁移学习和视频帧关联学习的视频分析方法

Info

Publication number: CN110148105B
Application number: CN201510112142.1A
Authority: CN
Inventors: 袁媛; 卢孝强; 牟立超
Original assignee: XiAn Institute of Optics and Precision Mechanics of CAS
Current assignee: XiAn Institute of Optics and Precision Mechanics of CAS
Priority date: 2015-05-22
Filing date: 2015-05-22
Publication date: 2022-10-04
Anticipated expiration: 2035-05-22
Also published as: CN110148105A

Abstract

本发明公开了一种基于迁移学习和视频帧关联学习的视频内容分析方法，主要解决了现有视频内容分析方法需要大量人工标记以及视频分析中存在“黑洞”现象的问题。其实现步骤是：(1)依据运动预测和光流分析算法对标签进行视频帧之间的迁移；(2)利用现有的图像标注数据集对上述步骤中产生的“黑洞”现象进行跨媒体迁移学习；(3)利用马尔科夫随机场模型对单幅视频帧中对象空间分布进行先验知识建模；(4)在最大后验概率模型下将以上三步统一求解，得到最终的视频分析结果。本发明充分利用了视频中空‑时域信息，迁移学习方法将大规模的已标注图像数据信息迁移到视频域对“黑洞”进行补绘，从而取得更精准的视频内容的像素级自动标注结果。

Description

基于迁移学习和视频帧关联学习的视频分析方法

技术领域

本发明属于信息处理技术领域，特别涉及一种视频内容像素级自动分析方法，可应用于公共安全管理、影视创作、多媒体技术等领域。

背景技术

视觉是人类感知信息的最重要手段，而视觉数据占人类接收的全部数据的80％以上。因此，视觉数据(包括图像数据与视频数据)的语义理解成为了计算机数据智能化处理中的研究热点。在现实生活中，视觉数据语义理解亦有广泛的应用，比如：基于内容的图像检索、3D重建、汽车辅助驾驶系统等。

近年来，语义理解作为视觉数据处理的一个重要内容，得到越来越多的研究。按照数据的类别，视觉数据理解可分为图像数据理解和视频数据理解两大类。视频内容分析力求更深入地对视频进行分析(如何种对象出现在图像中，它们的位置，所占比例，空间关系等)，得到像素级的分析结果。

目前，视频内容分析的方法主要分为两类：

一是基于2D图像的分析方法，这种方法将视频视作单幅图像的集合，对每一副图像进行单独分析，最后将分析结果连接起来，便形成了对整个视频的分析结果。但是这种视频分析方法只利用了视频的空间信息，而忽略了时间域上的信息，即视频中帧与帧之间的关联。因为视频通常是由移动的摄像机在不同角度同一场景进行观察时拍摄而来，那么两帧之间的匹配点就可以视作是场景内同一点在两个视角下的映射。因此，相同匹配点在不同视角下映射的类别信息应该是相同的，视频的时间域便成为分析的重要点。

二是基于运动估计和光流场分析的视频分析方法。这种方法克服了上述基于2D图像分析方法只考虑视频空间域信息的不足，提出了利用视频的时间域进行标签迁移。当获得当前帧的标注信息之后，利用运动估计和光流场算法求出当前帧与下一帧的匹配点，根据匹配点标签在不同视角映射标签不变的性质，对其进行时间域迁移，得到下一帧的标注结果，以此类推，直至最后一帧，完成对整个视频的标注。但是在这个过程中，位移矢量通常是由光流算法计算得到的，而光流算法会产生一种“黑洞”现象，即像素无标签信息区域，这是由于光流预测算法是一个非单一映射和非满射的过程。

发明内容

本发明的目的在于针对上述现有方法的不足，提出一种基于迁移学习和视频帧关联学习的视频分析方法，充分利用了视频的空-时域信息，同时利用跨媒体的迁移学习算法克服了视频标注过程中的“黑洞”现象，即像素无标签信息区域。

本发明目的的技术方案是：

一种基于迁移学习和视频帧关联学习的视频内容分析方法，其特别之处在于：包括以下步骤：

(1)利用运动估计和光流场估计进行视频帧关联学习；

(1a)计算前向映射函数，并以此为据，对下一帧的标签进行估计；

其中，r_i ^t代表视频中第t帧的第i个超像素，L(·)表示超像素的类别信息，而f(·)为前向映射函数；

(1b)计算反向映射函数，并以此为据，对上一帧的标签进行交叉验证；

(1c)以(1a)和(1b)步骤得到的结果，构造能量函数，如下：

通过上式得到视频的标签信息，其中包括某些像素无标签信息；

(2)对步骤(1)产生的某些像素无标签信息，利用跨媒体迁移学习进行补绘，分为以下两种方法：

(2a)基于近邻匹配的策略；对某些像素无标签信息区域进行视觉特征信息提取，然后利用K近邻在已标注的图像数据库中进行相似度计算，选取前K最近邻，将类别标签赋予像素无标签信息区域；具体可以表示为如下目标式：

式中

表示黑洞区域，s_i表示已知标签信息的图像区域；

(2b)基于分类器的迁移策略。在已有的大规模图像标注数据集上对每类对象提取颜色统计特征、均值、方差量化指标以及LBP纹理特征等特征训练分类器，本方法中采用SVM分类器，然后对“黑洞”区域进行与上述相同的特征提取，再利用已训练好的分类器对其类别进行判断，进而确定其类别标签；分类器的训练方法如下：

式中w_i为系数矩阵，b_i为偏移项；

(3)将步骤(1)和步骤(2)中得到的函数公式相加，得到最终的目标优化函数式，然后在最大后验概率框架下进行统一优化求解；

目标优化函数式可以归结为以下公式：

其中，c^t为第t帧的类别标签图；p(.)代表概率分布；

根据贝叶斯公式，对上式的一系列等价变换，最终得到最终的求解形式：

式中s_i为第i个区域，c_i为第i个区域的类别标签。

基于以上步骤还包括步骤(4)：

计算分析正确率；

将本方法得到的分析结果与标准数据进行对比，标注正确的像素个数除以总的像素个数，得到标注正确率。

步骤(2a)主要提取的信息特征包括：颜色统计特征、均值、方差量化指标以及LBP纹理特征。

本发明的优点是：

由于将基于大规模已标注图像数据信息进行跨媒体迁移学习引入，成功克服了传统视频内容分析方法中存在的“黑洞”现象，同时提出的视频自动标注分析算法，解决了需要大量人工标注的不足。

附图说明

图1为视频分析过程中“黑洞”现象说明；

图2为本发明基于迁移学习和视频帧关联学习的视频分析方法流程图；

图3为本发明实验中所采用的数据库CamSeq01；

图4为本发明在对CamSeq01数据库进行分析的精度对比曲线图；

图5为本发明在对CamSeq01数据库进行分析的效果图。

具体实施方式

参照图2，本发明实现的步骤如下：

步骤1，利用运动估计和光流场估计进行视频帧关联学习。

(1a)计算前向映射函数，并以此为据，对下一帧的标签进行估计。

其中，r_i ^t代表视频中第t帧的第i个超像素，L(·)表示超像素的类别信息，而f(·)为前向映射函数。

(1b)计算反向映射函数，并以此为据，对上一帧的标签进行交叉验证。

(1c)以上述两项，构造能量函数，如下：

通过上式得到视频的标签信息，其中包括某些像素无标签信息，如图1所示；

步骤2，对步骤1中产生的“黑洞”现象即某些像素无标签信息区域，利用跨媒体迁移学习进行补绘。

(2a)基于近邻匹配的策略。对“黑洞”区域进行视觉特征信息提取，主要提取颜色统计特征、均值、方差等量化指标以及LBP纹理特征等，然后利用K近邻在已标注的图像数据库中进行相似度计算，选取前K最近邻，将类别标签赋予“黑洞”区域。

式中

表示黑洞区域，s_i表示已知标签信息的图像区域；

(2b)基于分类器的迁移策略。在已有的大规模图像标注数据集上对每类对象提取颜色统计特征、均值、方差等量化指标以及LBP纹理特征等特征训练分类器，本方法中采用著名的SVM分类器，然后对“黑洞”区域进行与上述相同的特征提取，再利用已训练好的分类器对其类别进行判断，进而确定其类别标签。分类器的训练方法如下：

式中w_i为系数矩阵，b_i为偏移项。

步骤3，将步骤1和步骤2中分别得到的能量函数公式相加，得到最终的目标优化函数式，然后在最大后验概率框架下进行统一优化求解。

视频分析问题可以归结为以下公式：

其中，c^t为第t帧的类别标签图。

式中s_i为第i个区域，c_i为第i个区域的类别标签。

步骤4，计算分析正确率。

将本方法得到的分析结果与标准数据进行对比，标注正确的像素个数除以总的像素个数，便可得到标注正确率。

本发明的效果可以通过以下仿真实验做进一步的说明。

1.仿真条件

本发明是在中央处理器为Intel(R)Core i3-5302.93GHZ、内存4G、WINDOWS 7操作系统上，运用MATLAB软件进行的仿真。

实验中使用的数据库为CamSeq01数据库。如图3所示。

2.仿真内容

按上述方法进行试验，将原始视频作为输入，经过算法处理后得到最终分析结果，将此分析结果与专家标注的标准数据进行比较，计算标注正确率。实验结果如图4和图5所示。对比方法文献来自：J.Fauqueur,G.Brostow,and R.Cipolla,Assisted Video ObjectLabeling By Joint Tracking of Regions and Keypoints,in:Processings ofInternational Conference on Computer Vision,2007.