CN108416795B - 基于排序池化融合空间特征的视频动作识别方法 - Google Patents
基于排序池化融合空间特征的视频动作识别方法 Download PDFInfo
- Publication number
- CN108416795B CN108416795B CN201810177015.3A CN201810177015A CN108416795B CN 108416795 B CN108416795 B CN 108416795B CN 201810177015 A CN201810177015 A CN 201810177015A CN 108416795 B CN108416795 B CN 108416795B
- Authority
- CN
- China
- Prior art keywords
- video
- subspace
- feature vector
- sequence
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/215—Motion-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/251—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Abstract
本发明提供了一种基于排序池化融合空间特征的视频动作识别方法,包括:采用视频局部特征描述子算法对每个视频提取基本视觉特征向量集;对每个视频每帧图像的二维空间进行多尺度分割,构建二维空间金字塔模型;对金字塔模型中每个子空间内的视频基本特征向量集按照帧序列时间顺序排列;对每个子空间内的有序基本特征向量序列单独进行smooth操作;对每个子空间内经smooth操作后的有序特征向量序列单独运用排序池化算法,学习得到属于该子空间的模型参数;将金字塔模型中所有子空间得到的模型参数进行串联,得到的特征向量作为视频最终特征向量;通过使用分类器对该视频特征向量进行分类,识别出该视频的动作类别。
Description
技术领域
本发明涉及一种视频识别技术,特别是一种基于排序池化融合空间特征的视频动作识别方法。
背景技术
当今视频动作识别技术已经广泛应用于多媒体内容分析、人机交互、智能实时监控等领域中,该技术可以通过对视频进行特征提取生成特征向量,用分类器对特征向量进行分类的方法来实现。传统的视频动作识别方法中通常将视频三维时空域作为一个整体来捕捉视频动态变化特征,这种做法存在片面性,会导致丢失大量属于二维图像空间域或一维时序域特有的变化特性,因此,视频动作识别技术需要对视频时间、空间结构分开处理以便更加全面地捕捉视频动态变化中的时空特征信息,本文提出了一种基于排序池化融合空间特征的视频动作识别方法。
发明内容
本发明提供一种基于排序池化融合空间特征的视频动作识别方法,该方法通过使用分类器对时空特征提取方法所得到的视频特征向量进行分类的视频动作识别。
实现本发明目的的技术方案为:一种基于排序池化融合空间特征的视频动作识别方法,其特征在于,包括以下步骤:
步骤1,采用视频局部特征描述子算法对每个视频提取基本视觉特征向量集;
步骤2,对每个视频每帧图像的二维空间进行多尺度分割,构建二维空间金字塔模型;
步骤3,对金字塔模型中每个子空间内的视频基本特征向量集按照帧序列时间顺序排列;
步骤4,对每个子空间内的有序基本特征向量序列单独进行smooth操作;
步骤5,对每个子空间内经smooth操作后的有序特征向量序列单独运用排序池化算法,学习得到属于该子空间的模型参数;
步骤6,将金字塔模型中所有子空间得到的模型参数进行串联,得到的特征向量作为视频最终特征向量;
步骤7,通过使用分类器对该视频特征向量进行分类,识别出该视频的动作类别。
本发明将二维图像空间特征融入排序池化算法中,既继承了排序池化算法可以捕捉丰富的视频时序变化特征的优点,又弥补了其缺乏二维图像空间结构特征的缺点,不仅能够捕捉视频整体运动信息,还能更详细地捕捉到视频一维时序域、二维图像空间域的各自维度特有特征信息,补充视频特征描述子更丰富的动作动态变化信息,使得视频最终的特征向量包含更多属于该视频自身的动态变化特征,拥有更高的描述性能,进而提高视频动作的识别精确度。
下面结合说明书附图对本发明做进一步描述。
附图说明
图1是视频帧序列每帧图像二维空间多尺度分割示意图。
图2是本发明基于排序池化融合空间特征的视频动作识别方法流程图。
具体实施方式
结合图2,一种基于排序池化融合空间特征的视频动作识别方法,包括以下步骤:
步骤1,采用视频局部特征描述子算法对每个视频提取基本视觉特征向量集;
步骤2,对每个视频每帧图像的二维空间进行多尺度分割,构建二维空间金字塔模型;
步骤3,对金字塔模型中每个子空间内的视频基本特征向量集按照帧序列时间顺序排列;
步骤4,对每个子空间内的有序基本特征向量序列单独进行smooth操作;
步骤5,对每个子空间内经smooth操作后的有序特征向量序列单独运用排序池化算法,学习得到属于该子空间的模型参数;
步骤6,将金字塔模型中所有子空间得到的模型参数进行串联,得到的特征向量作为视频最终特征向量;
步骤7,通过使用分类器对该视频特征向量进行分类,识别出该视频的动作类别。
步骤1中的视频局部特征描述子算法可以使用方向梯度直方图或光流直方图算法。
步骤2中对视频的每一帧图像构建一个两层的空间金字塔模型,对图像的二维空间结构进行多尺度分割,金字塔的第一层是对每帧图像不作任何分割,即每帧图像的第一层尺度是一个完整的图像,金字塔的第二层是对每帧图像分别对横轴和纵轴做二等分,即把每帧图像的二维空间分成四等分,分割示意图如图1所示。
步骤3中将金字塔每层的每个子空间内的基本特征向量序列按照每个基本特征向量所属的帧图像的时间顺序排列,获得有序的基本特征向量序列,用表示,其中s表示金字塔的层号,n表示每层中子空间的序号,表示第t帧图像的第s层第n个子空间中的基本特征向量,X(s,n)表示该视频所有帧在第s层第n个子空间中的有序特征向量序列。
步骤4单独地对步骤三所得到的每个子空间的有序基本特征向量序列进行smooth操作,该smooth操作采用的是时变均值向量法对每个子空间的基本特征序列X(s,n)进行预处理,令V(s,n)表示预处理过后金字塔第s层中第n个子空间内的新特征向量序列,令表示该子空间内新特征向量序列中的第t帧新特征向量,则其中第t帧新特征向量的计算方式如公式:
步骤5以子空间为单位,单独对每个子空间的经smooth操作后有序的特征向量序列运用排序池化算法,学习得到属于该子空间的模型参数w(s,n),我们用每帧的新特征向量序列的偏序关系来表示每帧的新特征向量随着时序变化的内在联系,通过学习排序范式来对顺序约束条件建立数学模型,因为特征序列的顺序是已知的,即表示第t帧的特征向量在第t+1帧特征向量之前,所以所构建的数学模型的学习过程是有监督的,对于输入样本我们将特征序列中所有的特征向量两两组合其中表示时间的帧序号ti在tj之前,定义正例样本为样本标签设为1,则反例样本为样本标签设为-1。然后,我们就可以通过SVM的学习算法学习凸优化问题:
ξij≥0
当目标函数达到最优时,学习到的函数参数w(s,n)可以作为该子空间内的视频序列新的特征描述符。
步骤6中将步骤五所得到的该视频金字塔模型中所有子空间的模型参数w(s,n)串联,得到的特征向量W作为该视频最终特征向量。
步骤7中使用的分类器是支持向量机,支持向量机本身是一个二分类分类器,本发明中通过使用one-against-rest方法实现了多分类的功能,获得每个视频的动作类别。
Claims (5)
1.一种基于排序池化融合空间特征的视频动作识别方法,其特征在于,包括以下步骤:
步骤1,采用视频局部特征描述子算法对每个视频提取基本视觉特征向量集;
步骤2,对每个视频每帧图像的二维空间进行多尺度分割,构建二维空间金字塔模型;
步骤3,对金字塔模型中每个子空间内的视频基本特征向量集按照帧序列时间顺序排列;
步骤4,对每个子空间内的有序基本特征向量序列单独进行smooth操作;
步骤5,对每个子空间内经smooth操作后的有序特征向量序列单独运用排序池化算法,学习得到属于该子空间的模型参数;
步骤6,将金字塔模型中所有子空间得到的模型参数进行串联,得到的特征向量作为视频最终特征向量;
步骤7,通过使用分类器对该视频的特征向量进行分类,识别出该视频的动作类别;
通过SVM的学习算法学习凸优化问题:
ξij≥0
当目标函数达到最优时,学习到的函数参数w(s,n)可以作为该子空间内的视频序列新的特征描述符。
2.根据权利要求1所述的方法,其特征在于,所述步骤2中对视频的每一帧图像构建一个两层的空间金字塔模型,对图像的二维空间结构进行多尺度分割,以此将视频每帧图像的二维空间结构信息融入排序池化算法得到的视频特征向量中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810177015.3A CN108416795B (zh) | 2018-03-04 | 2018-03-04 | 基于排序池化融合空间特征的视频动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810177015.3A CN108416795B (zh) | 2018-03-04 | 2018-03-04 | 基于排序池化融合空间特征的视频动作识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108416795A CN108416795A (zh) | 2018-08-17 |
CN108416795B true CN108416795B (zh) | 2022-03-18 |
Family
ID=63129727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810177015.3A Active CN108416795B (zh) | 2018-03-04 | 2018-03-04 | 基于排序池化融合空间特征的视频动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108416795B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109598201B (zh) * | 2018-11-05 | 2020-07-10 | 北京三快在线科技有限公司 | 动作检测方法、装置、电子设备及可读存储介质 |
CN109670593B (zh) * | 2018-12-21 | 2021-03-23 | 深圳致星科技有限公司 | 一种评估、以及预测深度学习模型中层计算时间的方法 |
CN110096617B (zh) * | 2019-04-29 | 2021-08-10 | 北京百度网讯科技有限公司 | 视频分类方法、装置、电子设备及计算机可读存储介质 |
CN112528872A (zh) * | 2020-12-15 | 2021-03-19 | 中化资本数字科技有限公司 | 基于视频流的人脸检测模型的训练方法、装置及计算设备 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103246895B (zh) * | 2013-05-15 | 2016-03-09 | 中国科学院自动化研究所 | 基于深度信息的图像分类方法 |
US20150104102A1 (en) * | 2013-10-11 | 2015-04-16 | Universidade De Coimbra | Semantic segmentation method with second-order pooling |
US10068138B2 (en) * | 2015-09-17 | 2018-09-04 | Canon Kabushiki Kaisha | Devices, systems, and methods for generating a temporal-adaptive representation for video-event classification |
CN105469050B (zh) * | 2015-11-24 | 2019-01-18 | 南京师范大学 | 基于局部时空特征描述与金字塔词汇树的视频行为识别方法 |
CN106845329A (zh) * | 2016-11-11 | 2017-06-13 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于深度卷积特征多通道金字塔池化的动作识别方法 |
CN106650674B (zh) * | 2016-12-27 | 2019-09-10 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于混合池化策略的深度卷积特征的动作识别方法 |
CN106909887A (zh) * | 2017-01-19 | 2017-06-30 | 南京邮电大学盐城大数据研究院有限公司 | 一种基于cnn和svm的动作识别方法 |
-
2018
- 2018-03-04 CN CN201810177015.3A patent/CN108416795B/zh active Active
Non-Patent Citations (1)
Title |
---|
一种基于深度图去噪与时空特征提取的动作识别方法;黄晓晖等;《现代工业经济和信息化》;20170426;第7卷(第05期);64-68 * |
Also Published As
Publication number | Publication date |
---|---|
CN108416795A (zh) | 2018-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109034210B (zh) | 基于超特征融合与多尺度金字塔网络的目标检测方法 | |
CN106650806B (zh) | 一种用于行人检测的协同式深度网络模型方法 | |
Kaur et al. | A comprehensive review of object detection with deep learning | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
US20190228268A1 (en) | Method and system for cell image segmentation using multi-stage convolutional neural networks | |
CN108846446B (zh) | 基于多路径密集特征融合全卷积网络的目标检测方法 | |
CN108416795B (zh) | 基于排序池化融合空间特征的视频动作识别方法 | |
CN108520226B (zh) | 一种基于躯体分解和显著性检测的行人重识别方法 | |
CN111104903B (zh) | 一种深度感知交通场景多目标检测方法和系统 | |
CN112069940B (zh) | 一种基于分阶段特征学习的跨域行人重识别方法 | |
CN108549926A (zh) | 一种用于精细化识别车辆属性的深度神经网络及训练方法 | |
CN103106265B (zh) | 相似图像分类方法及系统 | |
CN110399821B (zh) | 基于人脸表情识别的顾客满意度获取方法 | |
CN112949673A (zh) | 一种基于全局注意力的特征融合目标检测与识别方法 | |
CN109002755B (zh) | 基于人脸图像的年龄估计模型构建方法及估计方法 | |
CN111597870B (zh) | 一种基于注意力机制与多任务学习的人体属性识别方法 | |
CN104063719A (zh) | 基于深度卷积网络的行人检测方法及装置 | |
CN111582095B (zh) | 一种轻量级行人异常行为快速检测方法 | |
CN109871892A (zh) | 一种基于小样本度量学习的机器人视觉认知系统 | |
CN104504395A (zh) | 基于神经网络实现人车分类的方法和系统 | |
CN109145964B (zh) | 一种实现图像颜色聚类的方法和系统 | |
CN112861931B (zh) | 一种基于差异注意力神经网络的多级别变化检测方法、系统、介质及电子设备 | |
Lu et al. | Multi-object detection method based on YOLO and ResNet hybrid networks | |
CN113139501A (zh) | 一种联合局部区域检测与多级特征抓取的行人多属性识别方法 | |
Luo et al. | RBD-Net: robust breakage detection algorithm for industrial leather |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |