CN108491751A - 一种基于简单动作的探索特权信息的复杂动作识别方法 - Google Patents
一种基于简单动作的探索特权信息的复杂动作识别方法 Download PDFInfo
- Publication number
- CN108491751A CN108491751A CN201810025230.1A CN201810025230A CN108491751A CN 108491751 A CN108491751 A CN 108491751A CN 201810025230 A CN201810025230 A CN 201810025230A CN 108491751 A CN108491751 A CN 108491751A
- Authority
- CN
- China
- Prior art keywords
- action
- compound
- compound action
- privilege information
- exploration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
- H04N19/137—Motion inside a coding unit, e.g. average field, frame or block difference
- H04N19/139—Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于简单动作的探索特权信息的复杂动作识别方法,该方法包括如下步骤:S1、利用改进的密集轨迹(IDT特征)对简单动作和复杂动作的视频提取特征,得到特征矩阵;S2、探索简单动作中的有效信息作为特权信息;S3、通过特权信息,建立模型,帮助复杂动作的学习。本发明对复杂动作进行分析,考虑复杂动作可以由一系列的简单动作组合而成,提出一种全新的框架,通过利用一系列的简单动作实现复杂动作的识别。本发明通过特权信息矩阵编码每个简单动作在复杂动作中发生的概率,帮助复杂动作的学习,从而提高复杂动作的识别率。
Description
技术领域
本发明涉及人工智能与视频处理技术领域,具体涉及一种基于简单动作的探索特权信息的复杂动作识别方法,特别是基于特权信息学习技术利用简单动作的知识帮助复杂动作的学习。
背景技术
近年来,视频监控被广泛应用,且需求仍然在不断增长,然而现有的视频监控系统其智能性还远远达不到用户的预期。人体行为的识别在视频监控中有重要的应用价值,可以作为更进一步的高层语义化的分析与理解的基础,使智能化的检测、报警、检索等成为可能。随着信息技术的发展,相关应用需求也越来越多样化,基于视频的行为识别有较高的复杂性,不同应用场景有不同问题,所以也相应有着不同的识别方法。学术界对相关问题一直在进行持续研究,但仍有诸多问题待解决。
传统的机器学习方法训练需要大量的有标签样本,但在实际情况中,有的有标签数据不容易获得,并且获取有标签的样本数据是耗时耗力的,考虑到复杂动作可以由简单动作组合而成,而简单动作可以从已有的简单动作库(KTH、Weizmann等)挑选获得,研究人员可以通过简单动作的学习帮助学习复杂动作。特权信息可以利用有标签的样本去学习有少量标签样本的学习。目前特权信息已经应用于文本,图片,视觉等领域。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种基于简单动作的探索特权信息的复杂动作识别方法。
本发明的目的可以通过采取如下技术方案达到:
一种基于简单动作的探索特权信息的复杂动作识别方法,所述的复杂动作识别方法包括下列步骤:
S1、利用改进的密集轨迹对简单动作和复杂动作的视频进行特征提取,得到特征矩阵;
S2、探索简单动作中的有效信息,将所有的复杂动作发生简单动作的概率组成一个矩阵,作为特权信息;
S3、通过特权信息,建立模型,实现复杂动作的学习。
进一步地,所述的改进的密集轨迹包括以下描述符:轨迹位移向量、梯度直方图、光流直方图和X及Y方向上的光流信息。
进一步地,所述的步骤S1中对提取的视频特征进行利用Fisher vector进行编码。
进一步地,所述的简单动作从KTH和Weizmann数据库中挑选,所述的复杂动作从Olympic Sport和UCF50数据库中挑选。
进一步地,所述的步骤S2具体如下:
将每一个简单动作对应一个具体的数值a,a表示简单动作在复杂动作中发生的概率,基于此规则,得到概率矩阵X*∈RS*M,其中,S表示简单动作的类别数,M表示复杂动作的样本数目。
进一步地,所述的步骤S3具体过程包括:
S301、利用特权信息,建立合理的目标方程式如下:
其中,c是类别数目,T是复杂动作的类别数目,Nc是每个类别中样本的数目,Xci是特征向量,Yci∈{1,-1}是对应的类标签,W和W*分别是主要特征和特权特征的权重向量,项被用来避免过度拟合,项||W||1是表示复杂动作权值参数的l1范数约束,用于学习稀疏参数矩阵W,表示为W=[w1,...,wT],项用来避免过度拟合,项||W*||1意在学习松弛变量的值,表示为γ1,γ2,ρ1和ρ2是四个正数权衡参数;
S302、采用交替迭代优化方法,更新W和W*,由于l1范数的存在,快速迭代收缩阈值,求得最优的W,用于复杂动作的学习。
本发明相对于现有技术具有如下的优点及效果:
(1)本发明对复杂动作进行分析,考虑复杂动作可以由一系列的简单动作组合而成,提出一种全新的框架用于复杂动作的识别通过利用一系列的简单动作。
(2)特权信息矩阵编码了每个简单动作在复杂动作中发生的概率,帮助复杂动作的学习,从而提高复杂动作的识别率。
附图说明
图1是本发明公开的基于简单动作的探索特权信息的复杂动作识别方法的流程图;
图2是简单动作和复杂动作库中的样本示例图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
图1是本发明提出的基于简单动作的探索特权信息的复杂动作识别方法的流程图,如图1所示,所述方法包括以下步骤:
步骤S1、利用改进的密集轨迹(IDT特征)对简单动作和复杂动作的视频进行特征提取,得到特征矩阵。
步骤S1中,改进的密集轨迹(IDT特征)方法在行为识别中有着非常好的效果。在改进的密集轨迹中,有四个描述符:轨迹位移向量(trajectory)、梯度直方图(histogram oforiented gradients,HOG)、光流直方图(histogram of optical flow,HOF)和X及Y方向上的光流信息(motion boundary histograms,MBH)。利用Fisher vector进行编码,高斯混合模型(GMM:Gaussian mixture model)中K的大小设为256,最后得到特征的维数是109056。
简单动作从KTH和Weizmann数据库中挑选,复杂动作是Olympic Sport和UCF50数据库中挑选。
步骤S2、探索简单动作中的有效信息作为特权信息。
具体实践中,复杂动作由一系列的简单动作组合而成,复杂动作发生简单动作的概率不一样,比如复杂动作跳高,发生简单动作跑和跳的概率分别是0.6和0.4。将所有的复杂动作发生简单动作的概率组成一个矩阵,作为特权信息。
步骤S2中,探索简单动作中的有效信息作为特权信息的具体步骤如下:
每一个简单动作有一个具体的数值a,a表示了简单动作在复杂动作中发生的概率。基于此规则,得到概率比矩阵X*∈RS*M,其中,S表示简单动作的类别数,M表示复杂动作的样本数目。
步骤S3、通过特权信息,建立模型,实现复杂动作的学习。
步骤S3中,具体过程包括:
S301、利用特权信息,建立合理的目标方程式如下:
其中,c是类别数目,T是复杂动作的类别数目,Nc是每个类别中样本的数目,Xci是特征向量,Yci∈{1,-1}是对应的类标签。W和W*分别是主要特征和特权特征的权重向量。项被用来避免过度拟合。项||W||1是表示复杂动作权值参数的l1范数约束,用于学习稀疏参数矩阵W,表示为W=[w1,...,wT]。项是用来避免过度拟合的。项||W*||1意在学习松弛变量的值,表示为γ1,γ2,ρ1和ρ2是四个正数权衡参数。
S302、采用交替迭代优化方法,更新W和W*,由于l1范数的存在,快速迭代收缩阈值,求得最优的W,用于复杂动作的学习。
经在复杂动作库上测试,Olympic Sports数据库上40%的样本可以达到79.1%,取的不错的效果。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (6)
1.一种基于简单动作的探索特权信息的复杂动作识别方法,其特征在于,所述的复杂动作识别方法包括下列步骤:
S1、利用改进的密集轨迹对简单动作和复杂动作的视频进行特征提取,得到特征矩阵;
S2、探索简单动作中的有效信息,将所有的复杂动作发生简单动作的概率组成一个矩阵,作为特权信息;
S3、通过特权信息,建立模型,实现复杂动作的学习。
2.根据权利要求1所述的一种基于简单动作的探索特权信息的复杂动作识别方法,其特征在于,
所述的改进的密集轨迹包括以下描述符:轨迹位移向量、梯度直方图、光流直方图和X及Y方向上的光流信息。
3.根据权利要求1所述的一种基于简单动作的探索特权信息的复杂动作识别方法,其特征在于,所述的步骤S1中对提取的视频特征进行利用Fisher vector进行编码。
4.根据权利要求1所述的一种基于简单动作的探索特权信息的复杂动作识别方法,其特征在于,所述的简单动作从KTH和Weizmann数据库中挑选,所述的复杂动作从OlympicSport和UCF50数据库中挑选。
5.根据权利要求1所述的一种基于简单动作的探索特权信息的复杂动作识别方法,其特征在于,所述的步骤S2具体如下:
将每一个简单动作对应一个具体的数值a,a表示简单动作在复杂动作中发生的概率,基于此规则,得到概率矩阵X*∈RS*M,其中,S表示简单动作的类别数,M表示复杂动作的样本数目。
6.根据权利要求1所述的一种基于简单动作的探索特权信息的复杂动作识别方法,其特征在于,所述的步骤S3具体过程包括:
S301、利用特权信息,建立合理的目标方程式如下:
其中,c是类别数目,T是复杂动作的类别数目,Nc是每个类别中样本的数目,Xci是特征向量,Yci∈{1,-1}是对应的类标签,W和W*分别是主要特征和特权特征的权重向量,项被用来避免过度拟合,项||W||1是表示复
杂动作权值参数的l1范数约束,用于学习稀疏参数矩阵W,表示为W=[w1,...,wT],项用来避免过度拟合,项||W|||1意在学习松弛变量的值,
表示为γ1,γ2,ρ1和ρ2是四个正数权衡参数;
S302、采用交替迭代优化方法,更新W和W*,由于l1范数的存在,快速迭代收缩阈值,求得最优的W,用于复杂动作的学习。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810025230.1A CN108491751B (zh) | 2018-01-11 | 2018-01-11 | 一种基于简单动作的探索特权信息的复杂动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810025230.1A CN108491751B (zh) | 2018-01-11 | 2018-01-11 | 一种基于简单动作的探索特权信息的复杂动作识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108491751A true CN108491751A (zh) | 2018-09-04 |
CN108491751B CN108491751B (zh) | 2021-08-10 |
Family
ID=63344177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810025230.1A Active CN108491751B (zh) | 2018-01-11 | 2018-01-11 | 一种基于简单动作的探索特权信息的复杂动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108491751B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020228811A1 (en) * | 2019-05-15 | 2020-11-19 | Huawei Technologies Co., Ltd. | Adaptive action recognizer for video |
CN113920545A (zh) * | 2021-12-13 | 2022-01-11 | 中煤科工开采研究院有限公司 | 一种井工煤矿下人员姿态检测的方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011224122A (ja) * | 2010-04-19 | 2011-11-10 | Sharp Corp | 行動認識装置 |
CN105023000A (zh) * | 2015-07-13 | 2015-11-04 | 中南民族大学 | 基于人脑视觉记忆原理的人体动作识别方法及系统 |
CN106022251A (zh) * | 2016-05-17 | 2016-10-12 | 沈阳航空航天大学 | 基于视觉共生矩阵序列的异常双人交互行为识别方法 |
CN107180226A (zh) * | 2017-04-28 | 2017-09-19 | 华南理工大学 | 一种基于组合神经网络的动态手势识别方法 |
-
2018
- 2018-01-11 CN CN201810025230.1A patent/CN108491751B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011224122A (ja) * | 2010-04-19 | 2011-11-10 | Sharp Corp | 行動認識装置 |
CN105023000A (zh) * | 2015-07-13 | 2015-11-04 | 中南民族大学 | 基于人脑视觉记忆原理的人体动作识别方法及系统 |
CN106022251A (zh) * | 2016-05-17 | 2016-10-12 | 沈阳航空航天大学 | 基于视觉共生矩阵序列的异常双人交互行为识别方法 |
CN107180226A (zh) * | 2017-04-28 | 2017-09-19 | 华南理工大学 | 一种基于组合神经网络的动态手势识别方法 |
Non-Patent Citations (2)
Title |
---|
FANG LIU ET AL: "Simple to Complex Transfer Learning for Action Recognition", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 * |
VLADIMIR VAPNIK ET AL: "Learning Using Privileged Information:", 《 JOURNAL OF MACHINE LEARNING RESEARCH》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020228811A1 (en) * | 2019-05-15 | 2020-11-19 | Huawei Technologies Co., Ltd. | Adaptive action recognizer for video |
US11669743B2 (en) | 2019-05-15 | 2023-06-06 | Huawei Technologies Co., Ltd. | Adaptive action recognizer for video |
CN113920545A (zh) * | 2021-12-13 | 2022-01-11 | 中煤科工开采研究院有限公司 | 一种井工煤矿下人员姿态检测的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108491751B (zh) | 2021-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Karpathy et al. | Large-scale video classification with convolutional neural networks | |
Zeng et al. | Deep learning of scene-specific classifier for pedestrian detection | |
CN104281853B (zh) | 一种基于3d卷积神经网络的行为识别方法 | |
CN112734775B (zh) | 图像标注、图像语义分割、模型训练方法及装置 | |
CN108133188A (zh) | 一种基于运动历史图像与卷积神经网络的行为识别方法 | |
CN110555387B (zh) | 骨架序列中基于局部关节点轨迹时空卷的行为识别方法 | |
CN110503081B (zh) | 基于帧间差分的暴力行为检测方法、系统、设备及介质 | |
CN110097000A (zh) | 基于局部特征聚合描述符和时序关系网络的视频行为识别方法 | |
CN106651830A (zh) | 一种基于并行卷积神经网络的图像质量测试方法 | |
CN110490136B (zh) | 一种基于知识蒸馏的人体行为预测方法 | |
CN106529477A (zh) | 基于显著轨迹和时空演化信息的视频人体行为识别方法 | |
CN109902662A (zh) | 一种行人重识别方法、系统、装置和存储介质 | |
Xu et al. | Violent video classification based on spatial-temporal cues using deep learning | |
CN110956158A (zh) | 一种基于教师学生学习框架的遮挡行人再标识方法 | |
Yang et al. | SCNN: Sequential convolutional neural network for human action recognition in videos | |
CN106709419A (zh) | 一种基于显著轨迹空间信息的视频人体行为识别方法 | |
CN104063721A (zh) | 一种基于语义特征自动学习与筛选的人类行为识别方法 | |
Wild et al. | Automatic localization and decoding of honeybee markers using deep convolutional neural networks | |
CN115410119A (zh) | 一种基于训练样本自适应生成的剧烈运动检测方法及系统 | |
CN108491751A (zh) | 一种基于简单动作的探索特权信息的复杂动作识别方法 | |
CN109002808B (zh) | 一种人体行为识别方法及系统 | |
Chappa et al. | SoGAR: Self-supervised Spatiotemporal Attention-based Social Group Activity Recognition | |
CN105893967B (zh) | 基于时序保留性时空特征的人体行为分类检测方法及系统 | |
Li et al. | Video is graph: Structured graph module for video action recognition | |
Schwinn et al. | Behind the machine's gaze: Neural networks with biologically-inspired constraints exhibit human-like visual attention |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |