CN110148105B - 基于迁移学习和视频帧关联学习的视频分析方法 - Google Patents
基于迁移学习和视频帧关联学习的视频分析方法 Download PDFInfo
- Publication number
- CN110148105B CN110148105B CN201510112142.1A CN201510112142A CN110148105B CN 110148105 B CN110148105 B CN 110148105B CN 201510112142 A CN201510112142 A CN 201510112142A CN 110148105 B CN110148105 B CN 110148105B
- Authority
- CN
- China
- Prior art keywords
- video
- label
- learning
- information
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于迁移学习和视频帧关联学习的视频内容分析方法,主要解决了现有视频内容分析方法需要大量人工标记以及视频分析中存在“黑洞”现象的问题。其实现步骤是:(1)依据运动预测和光流分析算法对标签进行视频帧之间的迁移;(2)利用现有的图像标注数据集对上述步骤中产生的“黑洞”现象进行跨媒体迁移学习;(3)利用马尔科夫随机场模型对单幅视频帧中对象空间分布进行先验知识建模;(4)在最大后验概率模型下将以上三步统一求解,得到最终的视频分析结果。本发明充分利用了视频中空‑时域信息,迁移学习方法将大规模的已标注图像数据信息迁移到视频域对“黑洞”进行补绘,从而取得更精准的视频内容的像素级自动标注结果。
Description
技术领域
本发明属于信息处理技术领域,特别涉及一种视频内容像素级自动分析方法,可应用于公共安全管理、影视创作、多媒体技术等领域。
背景技术
视觉是人类感知信息的最重要手段,而视觉数据占人类接收的全部数据的80%以上。因此,视觉数据(包括图像数据与视频数据)的语义理解成为了计算机数据智能化处理中的研究热点。在现实生活中,视觉数据语义理解亦有广泛的应用,比如:基于内容的图像检索、3D重建、汽车辅助驾驶系统等。
近年来,语义理解作为视觉数据处理的一个重要内容,得到越来越多的研究。按照数据的类别,视觉数据理解可分为图像数据理解和视频数据理解两大类。视频内容分析力求更深入地对视频进行分析(如何种对象出现在图像中,它们的位置,所占比例,空间关系等),得到像素级的分析结果。
目前,视频内容分析的方法主要分为两类:
一是基于2D图像的分析方法,这种方法将视频视作单幅图像的集合,对每一副图像进行单独分析,最后将分析结果连接起来,便形成了对整个视频的分析结果。但是这种视频分析方法只利用了视频的空间信息,而忽略了时间域上的信息,即视频中帧与帧之间的关联。因为视频通常是由移动的摄像机在不同角度同一场景进行观察时拍摄而来,那么两帧之间的匹配点就可以视作是场景内同一点在两个视角下的映射。因此,相同匹配点在不同视角下映射的类别信息应该是相同的,视频的时间域便成为分析的重要点。
二是基于运动估计和光流场分析的视频分析方法。这种方法克服了上述基于2D图像分析方法只考虑视频空间域信息的不足,提出了利用视频的时间域进行标签迁移。当获得当前帧的标注信息之后,利用运动估计和光流场算法求出当前帧与下一帧的匹配点,根据匹配点标签在不同视角映射标签不变的性质,对其进行时间域迁移,得到下一帧的标注结果,以此类推,直至最后一帧,完成对整个视频的标注。但是在这个过程中,位移矢量通常是由光流算法计算得到的,而光流算法会产生一种“黑洞”现象,即像素无标签信息区域,这是由于光流预测算法是一个非单一映射和非满射的过程。
发明内容
本发明的目的在于针对上述现有方法的不足,提出一种基于迁移学习和视频帧关联学习的视频分析方法,充分利用了视频的空-时域信息,同时利用跨媒体的迁移学习算法克服了视频标注过程中的“黑洞”现象,即像素无标签信息区域。
本发明目的的技术方案是:
一种基于迁移学习和视频帧关联学习的视频内容分析方法,其特别之处在于:包括以下步骤:
(1)利用运动估计和光流场估计进行视频帧关联学习;
(1a)计算前向映射函数,并以此为据,对下一帧的标签进行估计;
其中,ri t代表视频中第t帧的第i个超像素,L(·)表示超像素的类别信息,而f(·)为前向映射函数;
(1b)计算反向映射函数,并以此为据,对上一帧的标签进行交叉验证;
(1c)以(1a)和(1b)步骤得到的结果,构造能量函数,如下:
通过上式得到视频的标签信息,其中包括某些像素无标签信息;
(2)对步骤(1)产生的某些像素无标签信息,利用跨媒体迁移学习进行补绘,分为以下两种方法:
(2a)基于近邻匹配的策略;对某些像素无标签信息区域进行视觉特征信息提取,然后利用K近邻在已标注的图像数据库中进行相似度计算,选取前K最近邻,将类别标签赋予像素无标签信息区域;具体可以表示为如下目标式:
(2b)基于分类器的迁移策略。在已有的大规模图像标注数据集上对每类对象提取颜色统计特征、均值、方差量化指标以及LBP纹理特征等特征训练分类器,本方法中采用SVM分类器,然后对“黑洞”区域进行与上述相同的特征提取,再利用已训练好的分类器对其类别进行判断,进而确定其类别标签;分类器的训练方法如下:
式中wi为系数矩阵,bi为偏移项;
(3)将步骤(1)和步骤(2)中得到的函数公式相加,得到最终的目标优化函数式,然后在最大后验概率框架下进行统一优化求解;
目标优化函数式可以归结为以下公式:
其中,ct为第t帧的类别标签图;p(.)代表概率分布;
根据贝叶斯公式,对上式的一系列等价变换,最终得到最终的求解形式:
式中si为第i个区域,ci为第i个区域的类别标签。
基于以上步骤还包括步骤(4):
计算分析正确率;
将本方法得到的分析结果与标准数据进行对比,标注正确的像素个数除以总的像素个数,得到标注正确率。
步骤(2a)主要提取的信息特征包括:颜色统计特征、均值、方差量化指标以及LBP纹理特征。
本发明的优点是:
由于将基于大规模已标注图像数据信息进行跨媒体迁移学习引入,成功克服了传统视频内容分析方法中存在的“黑洞”现象,同时提出的视频自动标注分析算法,解决了需要大量人工标注的不足。
附图说明
图1为视频分析过程中“黑洞”现象说明;
图2为本发明基于迁移学习和视频帧关联学习的视频分析方法流程图;
图3为本发明实验中所采用的数据库CamSeq01;
图4为本发明在对CamSeq01数据库进行分析的精度对比曲线图;
图5为本发明在对CamSeq01数据库进行分析的效果图。
具体实施方式
参照图2,本发明实现的步骤如下:
步骤1,利用运动估计和光流场估计进行视频帧关联学习。
(1a)计算前向映射函数,并以此为据,对下一帧的标签进行估计。
其中,ri t代表视频中第t帧的第i个超像素,L(·)表示超像素的类别信息,而f(·)为前向映射函数。
(1b)计算反向映射函数,并以此为据,对上一帧的标签进行交叉验证。
(1c)以上述两项,构造能量函数,如下:
通过上式得到视频的标签信息,其中包括某些像素无标签信息,如图1所示;
步骤2,对步骤1中产生的“黑洞”现象即某些像素无标签信息区域,利用跨媒体迁移学习进行补绘。
(2a)基于近邻匹配的策略。对“黑洞”区域进行视觉特征信息提取,主要提取颜色统计特征、均值、方差等量化指标以及LBP纹理特征等,然后利用K近邻在已标注的图像数据库中进行相似度计算,选取前K最近邻,将类别标签赋予“黑洞”区域。
(2b)基于分类器的迁移策略。在已有的大规模图像标注数据集上对每类对象提取颜色统计特征、均值、方差等量化指标以及LBP纹理特征等特征训练分类器,本方法中采用著名的SVM分类器,然后对“黑洞”区域进行与上述相同的特征提取,再利用已训练好的分类器对其类别进行判断,进而确定其类别标签。分类器的训练方法如下:
式中wi为系数矩阵,bi为偏移项。
步骤3,将步骤1和步骤2中分别得到的能量函数公式相加,得到最终的目标优化函数式,然后在最大后验概率框架下进行统一优化求解。
视频分析问题可以归结为以下公式:
其中,ct为第t帧的类别标签图。
根据贝叶斯公式,对上式的一系列等价变换,最终得到最终的求解形式:
式中si为第i个区域,ci为第i个区域的类别标签。
步骤4,计算分析正确率。
将本方法得到的分析结果与标准数据进行对比,标注正确的像素个数除以总的像素个数,便可得到标注正确率。
本发明的效果可以通过以下仿真实验做进一步的说明。
1.仿真条件
本发明是在中央处理器为Intel(R)Core i3-5302.93GHZ、内存4G、WINDOWS 7操作系统上,运用MATLAB软件进行的仿真。
实验中使用的数据库为CamSeq01数据库。如图3所示。
2.仿真内容
按上述方法进行试验,将原始视频作为输入,经过算法处理后得到最终分析结果,将此分析结果与专家标注的标准数据进行比较,计算标注正确率。实验结果如图4和图5所示。对比方法文献来自:J.Fauqueur,G.Brostow,and R.Cipolla,Assisted Video ObjectLabeling By Joint Tracking of Regions and Keypoints,in:Processings ofInternational Conference on Computer Vision,2007.
Claims (3)
1.一种基于迁移学习和视频帧关联学习的视频内容分析方法,其特征在于:包括以下步骤:
(1)利用运动估计和光流场估计进行视频帧关联学习;
(1a)计算前向映射函数,并以此为据,对下一帧的标签进行估计;
(1b)计算反向映射函数,并以此为据,对上一帧的标签进行交叉验证;
(1c)以(1a)和(1b)步骤得到的结果,构造能量函数,如下:
通过上式得到视频的标签信息,其中包括某些像素无标签信息;
(2)对步骤(1)产生的某些像素无标签信息,利用跨媒体迁移学习进行补绘,分为以下两种方法:
(2a)基于近邻匹配的策略;对某些像素无标签信息区域进行视觉特征信息提取,然后利用K近邻在已标注的图像数据库中进行相似度计算,选取前K最近邻,将类别标签赋予像素无标签信息区域;具体可以表示为如下目标式:
(2b)基于分类器的迁移策略, 在已有的大规模图像标注数据集上对每类对象提取颜色统计特征、均值、方差量化指标以及LBP纹理特征等特征训练分类器,本方法中采用SVM分类器,然后对“黑洞”区域进行与上述相同的特征提取,再利用已训练好的分类器对其类别进行判断,进而确定其类别标签;分类器的训练方法如下:
式中wi为系数矩阵,bi为偏移项;
(3)将步骤(1)和步骤(2)中得到的函数公式相加,得到最终的目标优化函数式,然后在最大后验概率框架下进行统一优化求解;
目标优化函数式可以归结为以下公式:
其中,ct为第t帧的类别标签图;p(.)代表概率分布;
根据贝叶斯公式,对上式的一系列等价变换,最终得到最终的求解形式:
式中si为第i个区域,ci为第i个区域的类别标签。
2.根据权利要求1所述的基于迁移学习和视频帧关联学习的视频内容分析方法,其特征在于:还包括步骤(4):
计算分析正确率;
将本方法得到的分析结果与标准数据进行对比,标注正确的像素个数除以总的像素个数,得到标注正确率。
3.根据权利要求1所述的基于迁移学习和视频帧关联学习的视频内容分析方法,其特征在于:步骤(2a)主要提取的信息特征包括:颜色统计特征、均值、方差量化指标以及LBP纹理特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510112142.1A CN110148105B (zh) | 2015-05-22 | 2015-05-22 | 基于迁移学习和视频帧关联学习的视频分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510112142.1A CN110148105B (zh) | 2015-05-22 | 2015-05-22 | 基于迁移学习和视频帧关联学习的视频分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110148105A CN110148105A (zh) | 2019-08-20 |
CN110148105B true CN110148105B (zh) | 2022-10-04 |
Family
ID=67587986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510112142.1A Active CN110148105B (zh) | 2015-05-22 | 2015-05-22 | 基于迁移学习和视频帧关联学习的视频分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110148105B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191690B (zh) * | 2019-12-16 | 2023-09-05 | 上海航天控制技术研究所 | 基于迁移学习的空间目标自主识别方法、电子设备和存储介质 |
CN115482426A (zh) * | 2021-06-16 | 2022-12-16 | 华为云计算技术有限公司 | 视频标注方法、装置、计算设备和计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6330671B1 (en) * | 1997-06-23 | 2001-12-11 | Sun Microsystems, Inc. | Method and system for secure distribution of cryptographic keys on multicast networks |
CN102207966A (zh) * | 2011-06-01 | 2011-10-05 | 华南理工大学 | 基于对象标签的视频内容快速检索方法 |
CN102289686A (zh) * | 2011-08-09 | 2011-12-21 | 北京航空航天大学 | 一种基于迁移学习的运动目标分类识别方法 |
CN103778407A (zh) * | 2012-10-23 | 2014-05-07 | 南开大学 | 一种迁移学习框架下基于条件随机场的手势识别算法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8532863B2 (en) * | 2009-09-28 | 2013-09-10 | Sri International | Audio based robot control and navigation |
-
2015
- 2015-05-22 CN CN201510112142.1A patent/CN110148105B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6330671B1 (en) * | 1997-06-23 | 2001-12-11 | Sun Microsystems, Inc. | Method and system for secure distribution of cryptographic keys on multicast networks |
CN102207966A (zh) * | 2011-06-01 | 2011-10-05 | 华南理工大学 | 基于对象标签的视频内容快速检索方法 |
CN102289686A (zh) * | 2011-08-09 | 2011-12-21 | 北京航空航天大学 | 一种基于迁移学习的运动目标分类识别方法 |
CN103778407A (zh) * | 2012-10-23 | 2014-05-07 | 南开大学 | 一种迁移学习框架下基于条件随机场的手势识别算法 |
Non-Patent Citations (2)
Title |
---|
使用异构互联网图像组的视频标注;王晗等;《计算机学报》;20131015(第10期);全文 * |
基于遥感图像的目标识别新方法;但志平等;《华中科技大学学报(自然科学版)》;20140110;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110148105A (zh) | 2019-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xiong et al. | Spatiotemporal modeling for crowd counting in videos | |
CN108492319B (zh) | 基于深度全卷积神经网络的运动目标检测方法 | |
Von Stumberg et al. | Gn-net: The gauss-newton loss for multi-weather relocalization | |
CN110276264B (zh) | 一种基于前景分割图的人群密度估计方法 | |
CN107203781B (zh) | 一种基于显著性指导的端到端的弱监督目标检测方法 | |
CN109753913B (zh) | 计算高效的多模式视频语义分割方法 | |
CN111209810A (zh) | 向可见光与红外图像准确实时行人检测的边界框分割监督深度神经网络架构 | |
CN111639564B (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
CN110120064B (zh) | 一种基于互强化与多注意机制学习的深度相关目标跟踪算法 | |
CN110717411A (zh) | 一种基于深层特征融合的行人重识别方法 | |
CN106127197B (zh) | 基于显著标签排序的图像显著性目标检测方法和装置 | |
CN110827312B (zh) | 一种基于协同视觉注意力神经网络的学习方法 | |
CN112446342B (zh) | 关键帧识别模型训练方法、识别方法及装置 | |
Zhang et al. | Coarse-to-fine object detection in unmanned aerial vehicle imagery using lightweight convolutional neural network and deep motion saliency | |
CN110675421B (zh) | 基于少量标注框的深度图像协同分割方法 | |
CN112651423A (zh) | 一种智能视觉系统 | |
CN113111716B (zh) | 一种基于深度学习的遥感影像半自动标注方法和装置 | |
CN112712052A (zh) | 一种机场全景视频中微弱目标的检测识别方法 | |
Zhang et al. | Unsupervised depth estimation from monocular videos with hybrid geometric-refined loss and contextual attention | |
Hedayati et al. | Real-time background subtraction for video surveillance: From research to reality | |
CN111898566A (zh) | 姿态估计方法、装置、电子设备和存储介质 | |
Fang et al. | Context enhancing representation for semantic segmentation in remote sensing images | |
CN110148105B (zh) | 基于迁移学习和视频帧关联学习的视频分析方法 | |
Zhang et al. | Fine-grained-based multi-feature fusion for occluded person re-identification | |
CN114333062A (zh) | 基于异构双网络和特征一致性的行人重识别模型训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |