CN108491751A - 一种基于简单动作的探索特权信息的复杂动作识别方法 - Google Patents

一种基于简单动作的探索特权信息的复杂动作识别方法 Download PDF

Info

Publication number
CN108491751A
CN108491751A CN201810025230.1A CN201810025230A CN108491751A CN 108491751 A CN108491751 A CN 108491751A CN 201810025230 A CN201810025230 A CN 201810025230A CN 108491751 A CN108491751 A CN 108491751A
Authority
CN
China
Prior art keywords
action
compound
compound action
privilege information
exploration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810025230.1A
Other languages
English (en)
Other versions
CN108491751B (zh
Inventor
徐向民
刘芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201810025230.1A priority Critical patent/CN108491751B/zh
Publication of CN108491751A publication Critical patent/CN108491751A/zh
Application granted granted Critical
Publication of CN108491751B publication Critical patent/CN108491751B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于简单动作的探索特权信息的复杂动作识别方法,该方法包括如下步骤:S1、利用改进的密集轨迹(IDT特征)对简单动作和复杂动作的视频提取特征,得到特征矩阵;S2、探索简单动作中的有效信息作为特权信息;S3、通过特权信息,建立模型,帮助复杂动作的学习。本发明对复杂动作进行分析,考虑复杂动作可以由一系列的简单动作组合而成,提出一种全新的框架,通过利用一系列的简单动作实现复杂动作的识别。本发明通过特权信息矩阵编码每个简单动作在复杂动作中发生的概率,帮助复杂动作的学习,从而提高复杂动作的识别率。

Description

一种基于简单动作的探索特权信息的复杂动作识别方法
技术领域
本发明涉及人工智能与视频处理技术领域,具体涉及一种基于简单动作的探索特权信息的复杂动作识别方法,特别是基于特权信息学习技术利用简单动作的知识帮助复杂动作的学习。
背景技术
近年来,视频监控被广泛应用,且需求仍然在不断增长,然而现有的视频监控系统其智能性还远远达不到用户的预期。人体行为的识别在视频监控中有重要的应用价值,可以作为更进一步的高层语义化的分析与理解的基础,使智能化的检测、报警、检索等成为可能。随着信息技术的发展,相关应用需求也越来越多样化,基于视频的行为识别有较高的复杂性,不同应用场景有不同问题,所以也相应有着不同的识别方法。学术界对相关问题一直在进行持续研究,但仍有诸多问题待解决。
传统的机器学习方法训练需要大量的有标签样本,但在实际情况中,有的有标签数据不容易获得,并且获取有标签的样本数据是耗时耗力的,考虑到复杂动作可以由简单动作组合而成,而简单动作可以从已有的简单动作库(KTH、Weizmann等)挑选获得,研究人员可以通过简单动作的学习帮助学习复杂动作。特权信息可以利用有标签的样本去学习有少量标签样本的学习。目前特权信息已经应用于文本,图片,视觉等领域。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种基于简单动作的探索特权信息的复杂动作识别方法。
本发明的目的可以通过采取如下技术方案达到:
一种基于简单动作的探索特权信息的复杂动作识别方法,所述的复杂动作识别方法包括下列步骤:
S1、利用改进的密集轨迹对简单动作和复杂动作的视频进行特征提取,得到特征矩阵;
S2、探索简单动作中的有效信息,将所有的复杂动作发生简单动作的概率组成一个矩阵,作为特权信息;
S3、通过特权信息,建立模型,实现复杂动作的学习。
进一步地,所述的改进的密集轨迹包括以下描述符:轨迹位移向量、梯度直方图、光流直方图和X及Y方向上的光流信息。
进一步地,所述的步骤S1中对提取的视频特征进行利用Fisher vector进行编码。
进一步地,所述的简单动作从KTH和Weizmann数据库中挑选,所述的复杂动作从Olympic Sport和UCF50数据库中挑选。
进一步地,所述的步骤S2具体如下:
将每一个简单动作对应一个具体的数值a,a表示简单动作在复杂动作中发生的概率,基于此规则,得到概率矩阵X*∈RS*M,其中,S表示简单动作的类别数,M表示复杂动作的样本数目。
进一步地,所述的步骤S3具体过程包括:
S301、利用特权信息,建立合理的目标方程式如下:
其中,c是类别数目,T是复杂动作的类别数目,Nc是每个类别中样本的数目,Xci是特征向量,Yci∈{1,-1}是对应的类标签,W和W*分别是主要特征和特权特征的权重向量,项被用来避免过度拟合,项||W||1是表示复杂动作权值参数的l1范数约束,用于学习稀疏参数矩阵W,表示为W=[w1,...,wT],项用来避免过度拟合,项||W*||1意在学习松弛变量的值,表示为γ121和ρ2是四个正数权衡参数;
S302、采用交替迭代优化方法,更新W和W*,由于l1范数的存在,快速迭代收缩阈值,求得最优的W,用于复杂动作的学习。
本发明相对于现有技术具有如下的优点及效果:
(1)本发明对复杂动作进行分析,考虑复杂动作可以由一系列的简单动作组合而成,提出一种全新的框架用于复杂动作的识别通过利用一系列的简单动作。
(2)特权信息矩阵编码了每个简单动作在复杂动作中发生的概率,帮助复杂动作的学习,从而提高复杂动作的识别率。
附图说明
图1是本发明公开的基于简单动作的探索特权信息的复杂动作识别方法的流程图;
图2是简单动作和复杂动作库中的样本示例图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
图1是本发明提出的基于简单动作的探索特权信息的复杂动作识别方法的流程图,如图1所示,所述方法包括以下步骤:
步骤S1、利用改进的密集轨迹(IDT特征)对简单动作和复杂动作的视频进行特征提取,得到特征矩阵。
步骤S1中,改进的密集轨迹(IDT特征)方法在行为识别中有着非常好的效果。在改进的密集轨迹中,有四个描述符:轨迹位移向量(trajectory)、梯度直方图(histogram oforiented gradients,HOG)、光流直方图(histogram of optical flow,HOF)和X及Y方向上的光流信息(motion boundary histograms,MBH)。利用Fisher vector进行编码,高斯混合模型(GMM:Gaussian mixture model)中K的大小设为256,最后得到特征的维数是109056。
简单动作从KTH和Weizmann数据库中挑选,复杂动作是Olympic Sport和UCF50数据库中挑选。
步骤S2、探索简单动作中的有效信息作为特权信息。
具体实践中,复杂动作由一系列的简单动作组合而成,复杂动作发生简单动作的概率不一样,比如复杂动作跳高,发生简单动作跑和跳的概率分别是0.6和0.4。将所有的复杂动作发生简单动作的概率组成一个矩阵,作为特权信息。
步骤S2中,探索简单动作中的有效信息作为特权信息的具体步骤如下:
每一个简单动作有一个具体的数值a,a表示了简单动作在复杂动作中发生的概率。基于此规则,得到概率比矩阵X*∈RS*M,其中,S表示简单动作的类别数,M表示复杂动作的样本数目。
步骤S3、通过特权信息,建立模型,实现复杂动作的学习。
步骤S3中,具体过程包括:
S301、利用特权信息,建立合理的目标方程式如下:
其中,c是类别数目,T是复杂动作的类别数目,Nc是每个类别中样本的数目,Xci是特征向量,Yci∈{1,-1}是对应的类标签。W和W*分别是主要特征和特权特征的权重向量。项被用来避免过度拟合。项||W||1是表示复杂动作权值参数的l1范数约束,用于学习稀疏参数矩阵W,表示为W=[w1,...,wT]。项是用来避免过度拟合的。项||W*||1意在学习松弛变量的值,表示为γ121和ρ2是四个正数权衡参数。
S302、采用交替迭代优化方法,更新W和W*,由于l1范数的存在,快速迭代收缩阈值,求得最优的W,用于复杂动作的学习。
经在复杂动作库上测试,Olympic Sports数据库上40%的样本可以达到79.1%,取的不错的效果。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (6)

1.一种基于简单动作的探索特权信息的复杂动作识别方法,其特征在于,所述的复杂动作识别方法包括下列步骤:
S1、利用改进的密集轨迹对简单动作和复杂动作的视频进行特征提取,得到特征矩阵;
S2、探索简单动作中的有效信息,将所有的复杂动作发生简单动作的概率组成一个矩阵,作为特权信息;
S3、通过特权信息,建立模型,实现复杂动作的学习。
2.根据权利要求1所述的一种基于简单动作的探索特权信息的复杂动作识别方法,其特征在于,
所述的改进的密集轨迹包括以下描述符:轨迹位移向量、梯度直方图、光流直方图和X及Y方向上的光流信息。
3.根据权利要求1所述的一种基于简单动作的探索特权信息的复杂动作识别方法,其特征在于,所述的步骤S1中对提取的视频特征进行利用Fisher vector进行编码。
4.根据权利要求1所述的一种基于简单动作的探索特权信息的复杂动作识别方法,其特征在于,所述的简单动作从KTH和Weizmann数据库中挑选,所述的复杂动作从OlympicSport和UCF50数据库中挑选。
5.根据权利要求1所述的一种基于简单动作的探索特权信息的复杂动作识别方法,其特征在于,所述的步骤S2具体如下:
将每一个简单动作对应一个具体的数值a,a表示简单动作在复杂动作中发生的概率,基于此规则,得到概率矩阵X*∈RS*M,其中,S表示简单动作的类别数,M表示复杂动作的样本数目。
6.根据权利要求1所述的一种基于简单动作的探索特权信息的复杂动作识别方法,其特征在于,所述的步骤S3具体过程包括:
S301、利用特权信息,建立合理的目标方程式如下:
其中,c是类别数目,T是复杂动作的类别数目,Nc是每个类别中样本的数目,Xci是特征向量,Yci∈{1,-1}是对应的类标签,W和W*分别是主要特征和特权特征的权重向量,项被用来避免过度拟合,项||W||1是表示复
杂动作权值参数的l1范数约束,用于学习稀疏参数矩阵W,表示为W=[w1,...,wT],项用来避免过度拟合,项||W|||1意在学习松弛变量的值,
表示为γ121和ρ2是四个正数权衡参数;
S302、采用交替迭代优化方法,更新W和W*,由于l1范数的存在,快速迭代收缩阈值,求得最优的W,用于复杂动作的学习。
CN201810025230.1A 2018-01-11 2018-01-11 一种基于简单动作的探索特权信息的复杂动作识别方法 Active CN108491751B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810025230.1A CN108491751B (zh) 2018-01-11 2018-01-11 一种基于简单动作的探索特权信息的复杂动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810025230.1A CN108491751B (zh) 2018-01-11 2018-01-11 一种基于简单动作的探索特权信息的复杂动作识别方法

Publications (2)

Publication Number Publication Date
CN108491751A true CN108491751A (zh) 2018-09-04
CN108491751B CN108491751B (zh) 2021-08-10

Family

ID=63344177

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810025230.1A Active CN108491751B (zh) 2018-01-11 2018-01-11 一种基于简单动作的探索特权信息的复杂动作识别方法

Country Status (1)

Country Link
CN (1) CN108491751B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020228811A1 (en) * 2019-05-15 2020-11-19 Huawei Technologies Co., Ltd. Adaptive action recognizer for video
CN113920545A (zh) * 2021-12-13 2022-01-11 中煤科工开采研究院有限公司 一种井工煤矿下人员姿态检测的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011224122A (ja) * 2010-04-19 2011-11-10 Sharp Corp 行動認識装置
CN105023000A (zh) * 2015-07-13 2015-11-04 中南民族大学 基于人脑视觉记忆原理的人体动作识别方法及系统
CN106022251A (zh) * 2016-05-17 2016-10-12 沈阳航空航天大学 基于视觉共生矩阵序列的异常双人交互行为识别方法
CN107180226A (zh) * 2017-04-28 2017-09-19 华南理工大学 一种基于组合神经网络的动态手势识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011224122A (ja) * 2010-04-19 2011-11-10 Sharp Corp 行動認識装置
CN105023000A (zh) * 2015-07-13 2015-11-04 中南民族大学 基于人脑视觉记忆原理的人体动作识别方法及系统
CN106022251A (zh) * 2016-05-17 2016-10-12 沈阳航空航天大学 基于视觉共生矩阵序列的异常双人交互行为识别方法
CN107180226A (zh) * 2017-04-28 2017-09-19 华南理工大学 一种基于组合神经网络的动态手势识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FANG LIU ET AL: "Simple to Complex Transfer Learning for Action Recognition", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 *
VLADIMIR VAPNIK ET AL: "Learning Using Privileged Information:", 《 JOURNAL OF MACHINE LEARNING RESEARCH》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020228811A1 (en) * 2019-05-15 2020-11-19 Huawei Technologies Co., Ltd. Adaptive action recognizer for video
US11669743B2 (en) 2019-05-15 2023-06-06 Huawei Technologies Co., Ltd. Adaptive action recognizer for video
CN113920545A (zh) * 2021-12-13 2022-01-11 中煤科工开采研究院有限公司 一种井工煤矿下人员姿态检测的方法和装置

Also Published As

Publication number Publication date
CN108491751B (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
Karpathy et al. Large-scale video classification with convolutional neural networks
Zeng et al. Deep learning of scene-specific classifier for pedestrian detection
CN104281853B (zh) 一种基于3d卷积神经网络的行为识别方法
CN112734775B (zh) 图像标注、图像语义分割、模型训练方法及装置
CN108133188A (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN110555387B (zh) 骨架序列中基于局部关节点轨迹时空卷的行为识别方法
CN110503081B (zh) 基于帧间差分的暴力行为检测方法、系统、设备及介质
CN110097000A (zh) 基于局部特征聚合描述符和时序关系网络的视频行为识别方法
CN106651830A (zh) 一种基于并行卷积神经网络的图像质量测试方法
CN110490136B (zh) 一种基于知识蒸馏的人体行为预测方法
CN106529477A (zh) 基于显著轨迹和时空演化信息的视频人体行为识别方法
CN109902662A (zh) 一种行人重识别方法、系统、装置和存储介质
Xu et al. Violent video classification based on spatial-temporal cues using deep learning
CN110956158A (zh) 一种基于教师学生学习框架的遮挡行人再标识方法
Yang et al. SCNN: Sequential convolutional neural network for human action recognition in videos
CN106709419A (zh) 一种基于显著轨迹空间信息的视频人体行为识别方法
CN104063721A (zh) 一种基于语义特征自动学习与筛选的人类行为识别方法
Wild et al. Automatic localization and decoding of honeybee markers using deep convolutional neural networks
CN115410119A (zh) 一种基于训练样本自适应生成的剧烈运动检测方法及系统
CN108491751A (zh) 一种基于简单动作的探索特权信息的复杂动作识别方法
CN109002808B (zh) 一种人体行为识别方法及系统
Chappa et al. SoGAR: Self-supervised Spatiotemporal Attention-based Social Group Activity Recognition
CN105893967B (zh) 基于时序保留性时空特征的人体行为分类检测方法及系统
Li et al. Video is graph: Structured graph module for video action recognition
Schwinn et al. Behind the machine's gaze: Neural networks with biologically-inspired constraints exhibit human-like visual attention

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant