CN108416795B - 基于排序池化融合空间特征的视频动作识别方法 - Google Patents

基于排序池化融合空间特征的视频动作识别方法 Download PDF

Info

Publication number
CN108416795B
CN108416795B CN201810177015.3A CN201810177015A CN108416795B CN 108416795 B CN108416795 B CN 108416795B CN 201810177015 A CN201810177015 A CN 201810177015A CN 108416795 B CN108416795 B CN 108416795B
Authority
CN
China
Prior art keywords
video
subspace
feature vector
sequence
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810177015.3A
Other languages
English (en)
Other versions
CN108416795A (zh
Inventor
项欣光
赵恒颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201810177015.3A priority Critical patent/CN108416795B/zh
Publication of CN108416795A publication Critical patent/CN108416795A/zh
Application granted granted Critical
Publication of CN108416795B publication Critical patent/CN108416795B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Abstract

本发明提供了一种基于排序池化融合空间特征的视频动作识别方法,包括:采用视频局部特征描述子算法对每个视频提取基本视觉特征向量集;对每个视频每帧图像的二维空间进行多尺度分割,构建二维空间金字塔模型;对金字塔模型中每个子空间内的视频基本特征向量集按照帧序列时间顺序排列;对每个子空间内的有序基本特征向量序列单独进行smooth操作;对每个子空间内经smooth操作后的有序特征向量序列单独运用排序池化算法,学习得到属于该子空间的模型参数;将金字塔模型中所有子空间得到的模型参数进行串联,得到的特征向量作为视频最终特征向量;通过使用分类器对该视频特征向量进行分类,识别出该视频的动作类别。

Description

基于排序池化融合空间特征的视频动作识别方法
技术领域
本发明涉及一种视频识别技术,特别是一种基于排序池化融合空间特征的视频动作识别方法。
背景技术
当今视频动作识别技术已经广泛应用于多媒体内容分析、人机交互、智能实时监控等领域中,该技术可以通过对视频进行特征提取生成特征向量,用分类器对特征向量进行分类的方法来实现。传统的视频动作识别方法中通常将视频三维时空域作为一个整体来捕捉视频动态变化特征,这种做法存在片面性,会导致丢失大量属于二维图像空间域或一维时序域特有的变化特性,因此,视频动作识别技术需要对视频时间、空间结构分开处理以便更加全面地捕捉视频动态变化中的时空特征信息,本文提出了一种基于排序池化融合空间特征的视频动作识别方法。
发明内容
本发明提供一种基于排序池化融合空间特征的视频动作识别方法,该方法通过使用分类器对时空特征提取方法所得到的视频特征向量进行分类的视频动作识别。
实现本发明目的的技术方案为:一种基于排序池化融合空间特征的视频动作识别方法,其特征在于,包括以下步骤:
步骤1,采用视频局部特征描述子算法对每个视频提取基本视觉特征向量集;
步骤2,对每个视频每帧图像的二维空间进行多尺度分割,构建二维空间金字塔模型;
步骤3,对金字塔模型中每个子空间内的视频基本特征向量集按照帧序列时间顺序排列;
步骤4,对每个子空间内的有序基本特征向量序列单独进行smooth操作;
步骤5,对每个子空间内经smooth操作后的有序特征向量序列单独运用排序池化算法,学习得到属于该子空间的模型参数;
步骤6,将金字塔模型中所有子空间得到的模型参数进行串联,得到的特征向量作为视频最终特征向量;
步骤7,通过使用分类器对该视频特征向量进行分类,识别出该视频的动作类别。
本发明将二维图像空间特征融入排序池化算法中,既继承了排序池化算法可以捕捉丰富的视频时序变化特征的优点,又弥补了其缺乏二维图像空间结构特征的缺点,不仅能够捕捉视频整体运动信息,还能更详细地捕捉到视频一维时序域、二维图像空间域的各自维度特有特征信息,补充视频特征描述子更丰富的动作动态变化信息,使得视频最终的特征向量包含更多属于该视频自身的动态变化特征,拥有更高的描述性能,进而提高视频动作的识别精确度。
下面结合说明书附图对本发明做进一步描述。
附图说明
图1是视频帧序列每帧图像二维空间多尺度分割示意图。
图2是本发明基于排序池化融合空间特征的视频动作识别方法流程图。
具体实施方式
结合图2,一种基于排序池化融合空间特征的视频动作识别方法,包括以下步骤:
步骤1,采用视频局部特征描述子算法对每个视频提取基本视觉特征向量集;
步骤2,对每个视频每帧图像的二维空间进行多尺度分割,构建二维空间金字塔模型;
步骤3,对金字塔模型中每个子空间内的视频基本特征向量集按照帧序列时间顺序排列;
步骤4,对每个子空间内的有序基本特征向量序列单独进行smooth操作;
步骤5,对每个子空间内经smooth操作后的有序特征向量序列单独运用排序池化算法,学习得到属于该子空间的模型参数;
步骤6,将金字塔模型中所有子空间得到的模型参数进行串联,得到的特征向量作为视频最终特征向量;
步骤7,通过使用分类器对该视频特征向量进行分类,识别出该视频的动作类别。
步骤1中的视频局部特征描述子算法可以使用方向梯度直方图或光流直方图算法。
步骤2中对视频的每一帧图像构建一个两层的空间金字塔模型,对图像的二维空间结构进行多尺度分割,金字塔的第一层是对每帧图像不作任何分割,即每帧图像的第一层尺度是一个完整的图像,金字塔的第二层是对每帧图像分别对横轴和纵轴做二等分,即把每帧图像的二维空间分成四等分,分割示意图如图1所示。
步骤3中将金字塔每层的每个子空间内的基本特征向量序列按照每个基本特征向量所属的帧图像的时间顺序排列,获得有序的基本特征向量序列,用
Figure BDA0001587596760000031
表示,其中s表示金字塔的层号,n表示每层中子空间的序号,
Figure BDA0001587596760000032
表示第t帧图像的第s层第n个子空间中的基本特征向量,X(s,n)表示该视频所有帧在第s层第n个子空间中的有序特征向量序列。
步骤4单独地对步骤三所得到的每个子空间的有序基本特征向量序列
Figure BDA0001587596760000033
进行smooth操作,该smooth操作采用的是时变均值向量法对每个子空间的基本特征序列X(s,n)进行预处理,令V(s,n)表示预处理过后金字塔第s层中第n个子空间内的新特征向量序列,令
Figure BDA0001587596760000034
表示该子空间内新特征向量序列中的第t帧新特征向量,则
Figure BDA0001587596760000035
其中第t帧新特征向量
Figure BDA0001587596760000036
的计算方式如公式:
Figure BDA0001587596760000037
其中
Figure BDA0001587596760000038
是表示金子塔第s层第n个子空间内的从第一帧到第t帧图像的所有基本视觉特征向量序列的平均值,计算方式见公式:
Figure BDA0001587596760000039
步骤5以子空间为单位,单独对每个子空间的经smooth操作后有序的特征向量序列
Figure BDA00015875967600000310
运用排序池化算法,学习得到属于该子空间的模型参数w(s,n),我们用每帧的新特征向量序列的偏序关系
Figure BDA00015875967600000311
来表示每帧的新特征向量随着时序变化的内在联系,通过学习排序范式来对顺序约束条件
Figure BDA0001587596760000041
建立数学模型,因为特征序列的顺序是已知的,即
Figure BDA0001587596760000042
表示第t帧的特征向量在第t+1帧特征向量之前,所以所构建的数学模型的学习过程是有监督的,对于输入样本我们将特征序列中所有的特征向量两两组合
Figure BDA0001587596760000043
其中表示时间的帧序号ti在tj之前,定义正例样本为
Figure BDA0001587596760000044
样本标签设为1,则反例样本为
Figure BDA0001587596760000045
样本标签设为-1。然后,我们就可以通过SVM的学习算法学习凸优化问题:
Figure BDA0001587596760000046
Figure BDA0001587596760000047
ξij≥0
当目标函数达到最优时,学习到的函数参数w(s,n)可以作为该子空间内的视频序列新的特征描述符。
步骤6中将步骤五所得到的该视频金字塔模型中所有子空间的模型参数w(s,n)串联,得到的特征向量W作为该视频最终特征向量。
步骤7中使用的分类器是支持向量机,支持向量机本身是一个二分类分类器,本发明中通过使用one-against-rest方法实现了多分类的功能,获得每个视频的动作类别。

Claims (5)

1.一种基于排序池化融合空间特征的视频动作识别方法,其特征在于,包括以下步骤:
步骤1,采用视频局部特征描述子算法对每个视频提取基本视觉特征向量集;
步骤2,对每个视频每帧图像的二维空间进行多尺度分割,构建二维空间金字塔模型;
步骤3,对金字塔模型中每个子空间内的视频基本特征向量集按照帧序列时间顺序排列;
步骤4,对每个子空间内的有序基本特征向量序列单独进行smooth操作;
步骤5,对每个子空间内经smooth操作后的有序特征向量序列单独运用排序池化算法,学习得到属于该子空间的模型参数;
步骤6,将金字塔模型中所有子空间得到的模型参数进行串联,得到的特征向量作为视频最终特征向量;
步骤7,通过使用分类器对该视频的特征向量进行分类,识别出该视频的动作类别;
步骤5以子空间为单位,单独对每个子空间的经smooth操作后有序特征向量序列
Figure FDA0003472488360000011
运用排序池化算法,学习得到属于该子空间的模型参数w(s,n)
Figure FDA0003472488360000012
表示第t帧图像的第s层第n个子空间中的特征向量,
用每帧的新特征向量序列的偏序关系
Figure FDA0003472488360000013
表示每帧的新特征向量随着时序变化的内在联系,通过学习排序范式对顺序约束条件
Figure FDA0003472488360000014
建立数学模型,
Figure FDA0003472488360000015
表示第t帧的特征向量在第t+1帧特征向量之前,
所构建的数学模型的学习过程是有监督的,对于输入样本将特征序列中所有的特征向量两两组合
Figure FDA0003472488360000016
其中表示时间的帧序号ti在tj之前,定义正例样本为
Figure FDA0003472488360000017
样本标签设为1,则反例样本为
Figure FDA0003472488360000018
样本标签设为-1,
通过SVM的学习算法学习凸优化问题:
Figure FDA0003472488360000019
Figure FDA0003472488360000021
ξij≥0
当目标函数达到最优时,学习到的函数参数w(s,n)可以作为该子空间内的视频序列新的特征描述符。
2.根据权利要求1所述的方法,其特征在于,所述步骤2中对视频的每一帧图像构建一个两层的空间金字塔模型,对图像的二维空间结构进行多尺度分割,以此将视频每帧图像的二维空间结构信息融入排序池化算法得到的视频特征向量中。
3.根据权利要求1所述的方法,其特征在于,所述步骤3中将金字塔每层的每个子空间内的基本特征向量序列按照该基本特征向量所属的帧图像的时间顺序排列,获得有序的基本特征向量序列,用
Figure FDA0003472488360000022
表示,其中s表示金字塔的层号,n表示每层中子空间的序号,
Figure FDA0003472488360000023
表示第t帧图像的第s层第n个子空间中的基本特征向量,X(s,n)表示该视频的所有帧再第s层第n个子空间中的有序特征向量序列。
4.根据权利要求3所述的方法,其特征在于,所述步骤4中对步骤3所得到的每个子空间的有序基本特征向量序列
Figure FDA0003472488360000024
进行smooth操作,该smooth操作采用的是时变均值向量法对每个子空间的基本特征序列X(s,n)进行预处理,令V(s,n)表示预处理过后金字塔第s层中第n个子空间内的新特征向量序列,令
Figure FDA0003472488360000025
表示该子空间内新特征向量序列中的第t帧新特征向量,则
Figure FDA0003472488360000026
其中第t帧新特征向量
Figure FDA0003472488360000027
的计算方式如公式:
Figure FDA0003472488360000028
其中
Figure FDA0003472488360000029
是表示金子塔第s层第n个子空间内的从第一帧到第t帧图像的所有基本视觉特征向量序列的平均值,计算方式见公式:
Figure FDA00034724883600000210
5.根据权利要求4所述的方法,其特征在于,所述步骤5中以视频二维空间金字塔模型中的子空间为单位,单独对每个子空间的有序特征向量序列
Figure FDA0003472488360000031
运用排序池化算法,学习得到属于该子空间的模型参数W。
CN201810177015.3A 2018-03-04 2018-03-04 基于排序池化融合空间特征的视频动作识别方法 Active CN108416795B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810177015.3A CN108416795B (zh) 2018-03-04 2018-03-04 基于排序池化融合空间特征的视频动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810177015.3A CN108416795B (zh) 2018-03-04 2018-03-04 基于排序池化融合空间特征的视频动作识别方法

Publications (2)

Publication Number Publication Date
CN108416795A CN108416795A (zh) 2018-08-17
CN108416795B true CN108416795B (zh) 2022-03-18

Family

ID=63129727

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810177015.3A Active CN108416795B (zh) 2018-03-04 2018-03-04 基于排序池化融合空间特征的视频动作识别方法

Country Status (1)

Country Link
CN (1) CN108416795B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109598201B (zh) * 2018-11-05 2020-07-10 北京三快在线科技有限公司 动作检测方法、装置、电子设备及可读存储介质
CN109670593B (zh) * 2018-12-21 2021-03-23 深圳致星科技有限公司 一种评估、以及预测深度学习模型中层计算时间的方法
CN110096617B (zh) * 2019-04-29 2021-08-10 北京百度网讯科技有限公司 视频分类方法、装置、电子设备及计算机可读存储介质
CN112528872A (zh) * 2020-12-15 2021-03-19 中化资本数字科技有限公司 基于视频流的人脸检测模型的训练方法、装置及计算设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246895B (zh) * 2013-05-15 2016-03-09 中国科学院自动化研究所 基于深度信息的图像分类方法
US20150104102A1 (en) * 2013-10-11 2015-04-16 Universidade De Coimbra Semantic segmentation method with second-order pooling
US10068138B2 (en) * 2015-09-17 2018-09-04 Canon Kabushiki Kaisha Devices, systems, and methods for generating a temporal-adaptive representation for video-event classification
CN105469050B (zh) * 2015-11-24 2019-01-18 南京师范大学 基于局部时空特征描述与金字塔词汇树的视频行为识别方法
CN106845329A (zh) * 2016-11-11 2017-06-13 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于深度卷积特征多通道金字塔池化的动作识别方法
CN106650674B (zh) * 2016-12-27 2019-09-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于混合池化策略的深度卷积特征的动作识别方法
CN106909887A (zh) * 2017-01-19 2017-06-30 南京邮电大学盐城大数据研究院有限公司 一种基于cnn和svm的动作识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于深度图去噪与时空特征提取的动作识别方法;黄晓晖等;《现代工业经济和信息化》;20170426;第7卷(第05期);64-68 *

Also Published As

Publication number Publication date
CN108416795A (zh) 2018-08-17

Similar Documents

Publication Publication Date Title
CN109034210B (zh) 基于超特征融合与多尺度金字塔网络的目标检测方法
CN106650806B (zh) 一种用于行人检测的协同式深度网络模型方法
Kaur et al. A comprehensive review of object detection with deep learning
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
US20190228268A1 (en) Method and system for cell image segmentation using multi-stage convolutional neural networks
CN108846446B (zh) 基于多路径密集特征融合全卷积网络的目标检测方法
CN108416795B (zh) 基于排序池化融合空间特征的视频动作识别方法
CN108520226B (zh) 一种基于躯体分解和显著性检测的行人重识别方法
CN111104903B (zh) 一种深度感知交通场景多目标检测方法和系统
CN112069940B (zh) 一种基于分阶段特征学习的跨域行人重识别方法
CN108549926A (zh) 一种用于精细化识别车辆属性的深度神经网络及训练方法
CN103106265B (zh) 相似图像分类方法及系统
CN110399821B (zh) 基于人脸表情识别的顾客满意度获取方法
CN112949673A (zh) 一种基于全局注意力的特征融合目标检测与识别方法
CN109002755B (zh) 基于人脸图像的年龄估计模型构建方法及估计方法
CN111597870B (zh) 一种基于注意力机制与多任务学习的人体属性识别方法
CN104063719A (zh) 基于深度卷积网络的行人检测方法及装置
CN111582095B (zh) 一种轻量级行人异常行为快速检测方法
CN109871892A (zh) 一种基于小样本度量学习的机器人视觉认知系统
CN104504395A (zh) 基于神经网络实现人车分类的方法和系统
CN109145964B (zh) 一种实现图像颜色聚类的方法和系统
CN112861931B (zh) 一种基于差异注意力神经网络的多级别变化检测方法、系统、介质及电子设备
Lu et al. Multi-object detection method based on YOLO and ResNet hybrid networks
CN113139501A (zh) 一种联合局部区域检测与多级特征抓取的行人多属性识别方法
Luo et al. RBD-Net: robust breakage detection algorithm for industrial leather

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant