CN111523477B - 一种基于运动历史图像和集成学习器的视频动作识别方法 - Google Patents
一种基于运动历史图像和集成学习器的视频动作识别方法 Download PDFInfo
- Publication number
- CN111523477B CN111523477B CN202010331129.6A CN202010331129A CN111523477B CN 111523477 B CN111523477 B CN 111523477B CN 202010331129 A CN202010331129 A CN 202010331129A CN 111523477 B CN111523477 B CN 111523477B
- Authority
- CN
- China
- Prior art keywords
- video
- motion
- history image
- data set
- motion history
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于运动历史图像和集成学习器的视频动作识别方法。在提取视频中对象的运动信息时,基于运动历史图像方法提取了多重运动历史图像作为动作信息,并利用图像不变矩描述不同动作的特征差异,将得到的各个视频样本的运动特征输入XGBoost集成分类器进行训练,得到最终的分类模型。本发明仅需要较少的样本数量即可取得较好地视频动作识别效果。
Description
技术领域
本发明属图像处理和动作识别技术领域,具体涉及一种基于运动历史图像和集成学习器的视频动作识别方法。
背景技术
视频动作识别是视频处理研究领域中的一个热门分支,在监控、行为分析等很多方面都得到重要应用。对于小噪声视频数据,在现有的视频动作识别方法中,主要有基于RGB图像和基于传感器数据的方法,主流使用的是基于RGB图像的方法,具体的方法多为RGB视频动作特征+机器学习分类的结构。提取视频中动作特征的常用方法有基于运动历史图像MHI(Motion History Image)、基于方向梯度直方图HOG(Histogram of OrientedGradient)的方法等。其中,基于HOG的方法是通过计算视频流中若干运动像素的方向梯度,整合这些像素的方向向量,构建出视频中对象的运动信息,但需要视频中表示动作的特定单帧图像。MHI是基于帧差法的方法,在一段视频流中在帧差的基础上调整每帧灰度值,越接近最终帧,图像表现出的灰度越亮。在小噪声环境下,基于HOG的方法相比较基于MHI的方法对动作描述能力相对较弱,MHI对其中对象的动作信息描述更加明确。这类方法具有简单、直观等优点,但其不足在于对噪声比较敏感。
对于视频数据提取的动作特征,有很多常用的对其进行训练分类的机器学习的方法,比如SVM、KNN等算法,基于深度学习的方法,比如神经网络等算法等。其中,普通的机器学习方法能力相对较弱,构建的分类模型往往准确率不足,深度学习的方法构建的模型识别能力较强但是运算量较大,在设备运算能力较差的情况下时间效率较低,而且基于深度学习的方法更多用于大数据量样本的动作识别模型构建。集成学习是基于普通机器学习方法而提出的方法,这类方法能力较强且运算量适中,在样本数量较小时不仅能保证准确率而且占据更大的时间效率优势,XGBoost算法是一种基于GBDT(Gradient BoostingDecision Tree)的梯度提升集成算法,它的基本思想是不断地添加基分类器,每次通过学习上一个基分类器的结果添加一个基分类器,对上一个基分类器的分类残差进行修整,一般采用梯度提升决策树作为基分类器,对于样本特征每棵树会生成一个分数,最终将每棵树的分数相加得到预测结果,XGBoost算法因内置多种优化方法,运行结果较好,而且相比较一般的的机器学习方法运算速度极快,介于集成学习方法的优势,本发明提出了基于RGB视频动作特征+集成学习分类的方法。
发明内容
为了克服现有技术的不足,本发明提供一种基于运动历史图像和集成学习器的视频动作识别方法。在提取视频中对象的运动信息时,基于运动历史图像方法提取了多重运动历史图像MMHI(Multiple Motion History Image)作为动作信息,并利用图像不变矩描述不同动作的特征差异,将得到的各个视频样本的运动特征输入XGBoost集成分类器进行训练,得到最终的分类模型。本发明减少了运动历史图像方法对样本数量的需求,并通过结合集成学习的方法,构建了新型的动作识别模型,相比较传统模型具有更好的识别效果。
一种基于运动历史图像和集成学习器的视频动作识别方法,其特征在于步骤如下:
步骤1:由公开的KTH视频数据集中抽取m个视频样本,并剔除其中的无效视频;其中,m的取值范围为(100,599);所述的无效视频为不能播放的损坏视频;
步骤2:对于步骤1得到的数据集中的每个视频样本,采用运动历史图像方法每隔n帧提取一次运动历史图像,并将提取的图像相加,得到该视频样本的多重运动历史图像;其中,n的取值范围为[5,20];
步骤3:提取每个视频样本的多重运动历史图像的Hu矩和Zernike矩特征,作为该视频的运动信息特征,并用数字0到5对每个视频中的6种不同动作进行分类标记,所有视频的运动运动信息特征及其标记信息构成一个新的数据集,并按8:2的比例划分为训练数据集和测试数据集;
步骤4:使用PyCharm程序设计软件,调用xgboost集成学习器数据包,构建XGBoost多分类器,其具体参数为:基分类器类型booster设置为gbtree,决策树的最大深度max_depth设置为12,决策树的数量n_estimatores设置为200,设置学习目标函数objective为multi:softmax,设置学习率learning_rate为0.5,设置分类数量num_class为6;
步骤5:将步骤3得到的训练数据集输入步骤4设置好的XGBoost集成学习器进行训练,训练好的学习器即为最终的分类模型;
步骤6:将待处理视频输入训练好的模型,得到动作分类结果。
本发明的有益效果是:由于采用图像处理技术中的运动历史图像方法获取视频中对象的动作,且采用多重运动历史图像提取,相比较传统的单一运动历史图像,提取的动作轮廓特征更加明显,对机器学习分类器有了更好的支持能力;使用XGBoost集成方法构建分类器,构建的分类方法运行速度比普通方法时间效率提高很多;本发明方案整体比较简单,容易操作,不需要先验知识,所有运算在模型内部完成,对于小噪声环境的视频动作分类具有更好的效果。
附图说明
图1是本发明提出的一种基于运动历史图像和集成学习器的视频动作识别方法流程图;
图2是采用不同机器学习方法进行视频动作分类处理的结果图像;
图中,(a)-SVM算法分类结果;(b)-KNN算法分类结果;(c)-Bagging集成算法分类结果;(d)-AdaBoost集成算法分类结果;(e)-本发明方法分类结果。
具体实施方式
下面结合附图和实施例对本发明进一步说明,本发明包括但不仅限于下述实施例。
如图1所示,本发明提供了一种基于运动历史图像和集成学习器的视频动作识别方法,其具体实现过程如下:
1.准备模型实现所需要的视频样本数据。本发明使用的数据集为公开的小噪声动作数据集——KTH视频数据集。由于样本数量与模型的生成时间成正比关系,因此,从数据集中随机抽取m个视频样本,为减少运行时间,m的取值范围以几百到几千个为宜,KTH本身视频数量为599,这里即取m为599,使用KTH数据集的全部样本。然后,对抽取的视频数据集进行清洗,手动剔除其中的无效视频,无效视频为不能播放的损坏视频,剔除完毕后剩余的样本数量为598。
2.进行单个视频样本的多重运动历史图像提取。在运动历史图像方法的基础上,对一个视频样本每隔n帧提取一次运动历史图像MHI,人在完成一个正常的重复动作(比如挥1次手)大概需要10帧,因为有些数据集中人物动作较快或者较慢,所以,本发明根据所用数据集中数据的特点对n的数值进行适当调整,一般可取n为5到20。然后,使用融合方法将每个视频样本提取出的若干运动历史图像进行融合,融合方法可以使用opencv库提供的add()方法实现,即对每个视频中动作样本得到一个多重的运动历史图像MMHI。
3.进行运动信息特征提取。本发明使用图像不变矩中的Hu矩和Zernike矩表示图像中的运动信息,即提取出前面得到的每个视频样本的多重运动历史图像的Hu矩和Zernike矩特征数据。Hu矩特征提取可用自写函数求出,建议把求出的7个Hu矩特征的绝对值取以e为底对数,取对数后七个矩之间差距较小便于后续计算,Zernike矩可以使用然mahotas库提供的函数提取,其中的参数degree设置为8,提取8阶Zernike图像矩,一共提取出25个Zernike矩特征,将以上提取两种矩的方法写成独立的方法以方便调用。为了保证训练所用的样本数量,构写一个图像镜像处理的方法,可使用opencv中的flip()方法完成镜像操作。在对多重运动历史图像文件处理过程中,先创建一个待容纳所有样本特征一维空数组,对每个多重运动历史图像一次调用一次镜像处理、Hu矩提取和Zernike矩提取方法,使用numpy提供的append()方法将原始多重运动历史图像提取出的两种矩特征数据添加入一个一维数组变量,融合两种矩特征为一个行向量,作为每个视频样本的运动信息特征,最后将这个行向量添加到容纳样本特征信息的空数组中,对于提取的镜像多重运动历史图像执行同样的操作以提取一份镜像多重运动历史图像的运动信息,最后把包含所有样本运动信息特征的数组文件保存成一个csv表格文件。再手动对每个视频样本进行分类标记,即以数字0到5标记KTH数据集中的6种动作,这里取0到5是为了支持后面的XGBoost集成分类器,待标记完成则完成样本数据的预处理。所有带标记的运动信息特征即构成新的数据集,按8:2的比例将新的数据集划分为训练数据集和测试数据集。
4.构建XGBoost多分类器。使用PyCharm程序设计软件,调用xgboost集成学习器数据包,构建XGBoost多分类器,其具体参数为:基分类器类型booster设置为gbtree,为防止过拟合,决策树的最大深度max_depth设置为12,决策树的数量n_estimatores设置为200,设置学习目标函数objective为multi:softmax,设置学习率learning_rate为0.5,设置分类数量num_class为6。
5.将步骤3得到的训练数据集输入步骤4设置好的XGBoost集成学习器进行训练,训练好的学习器即为最终的分类模型。
6.将待处理视频输入训练好的模型,得到动作分类结果。
为验证本发明方法的有效性,在硬件环境:CPU为Intel i7-5500U计算机、4G运行内存和Windows10操作系统下,使用Python3.6程序语言结合PyCharm2018版本开发环境进行仿真实验,并分别选择SVM算法、KNN算法、Bagging集成算法、AdaBoost集成算法作为对比方法,和本发明进行对比实验。图2给出了以混肴矩阵形式表示的采用不同方法进行分类处理得到的结果图像。其中,对6种动作的进行分类对比,对于每个方法对应的图像,y轴数据为动作真实值,x轴数据为动作预测值,其中从左上角到右下角的对角线为正确分类的数据,以黑白颜色和分类准确率数值标注了其对于各种动作的分类能力,从颜色上看,越接近黑色的模块分类准确率越高,对应的准确率数值越接近于1。通过对比可以看出集成学习的方法要明显优于使用普通机器学习的方法,本发明提出的方法在6种动作的识别种准确率是十分可观的,证明了本发明提出方法的有效性。
Claims (1)
1.一种基于运动历史图像和集成学习器的视频动作识别方法,其特征在于步骤如下:
步骤1:由公开的KTH视频数据集中抽取m个视频样本,并剔除其中的无效视频;其中,m的取值范围为(100,599);所述的无效视频为不能播放的损坏视频;
步骤2:对于步骤1得到的数据集中的每个视频样本,采用运动历史图像方法每隔n帧提取一次运动历史图像,并将提取的图像相加,得到该视频样本的多重运动历史图像;其中,n的取值范围为[5,20];
步骤3:提取每个视频样本的多重运动历史图像的Hu矩和Zernike矩特征,作为该视频的运动信息特征,并用数字0到5对每个视频中的6种不同动作进行分类标记,所有视频的运动运动信息特征及其标记信息构成一个新的数据集,并按8:2的比例划分为训练数据集和测试数据集;
步骤4:使用PyCharm程序设计软件,调用xgboost集成学习器数据包,构建XGBoost多分类器,其具体参数为:基分类器类型booster设置为gbtree,决策树的最大深度max_depth设置为12,决策树的数量n_estimatores设置为200,设置学习目标函数objective为multi:softmax,设置学习率learning_rate为0.5,设置分类数量num_class为6;
步骤5:将步骤3得到的训练数据集输入步骤4设置好的XGBoost集成学习器进行训练,训练好的学习器即为最终的分类模型;
步骤6:将待处理视频输入训练好的模型,得到动作分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010331129.6A CN111523477B (zh) | 2020-04-24 | 2020-04-24 | 一种基于运动历史图像和集成学习器的视频动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010331129.6A CN111523477B (zh) | 2020-04-24 | 2020-04-24 | 一种基于运动历史图像和集成学习器的视频动作识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111523477A CN111523477A (zh) | 2020-08-11 |
CN111523477B true CN111523477B (zh) | 2023-08-01 |
Family
ID=71903140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010331129.6A Active CN111523477B (zh) | 2020-04-24 | 2020-04-24 | 一种基于运动历史图像和集成学习器的视频动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111523477B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108133188A (zh) * | 2017-12-22 | 2018-06-08 | 武汉理工大学 | 一种基于运动历史图像与卷积神经网络的行为识别方法 |
CN110135369A (zh) * | 2019-05-20 | 2019-08-16 | 威创集团股份有限公司 | 一种行为识别方法、系统、设备及计算机可读存储介质 |
CN110414554A (zh) * | 2019-06-18 | 2019-11-05 | 浙江大学 | 一种基于多模型改进的Stacking集成学习鱼类识别方法 |
WO2019230264A1 (ja) * | 2018-05-31 | 2019-12-05 | 日本電信電話株式会社 | 動作分類用モデル学習装置、動作分類装置、動作分類用モデル学習方法、プログラム |
WO2020037965A1 (zh) * | 2018-08-21 | 2020-02-27 | 北京大学深圳研究生院 | 一种用于视频预测的多运动流深度卷积网络模型方法 |
-
2020
- 2020-04-24 CN CN202010331129.6A patent/CN111523477B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108133188A (zh) * | 2017-12-22 | 2018-06-08 | 武汉理工大学 | 一种基于运动历史图像与卷积神经网络的行为识别方法 |
WO2019230264A1 (ja) * | 2018-05-31 | 2019-12-05 | 日本電信電話株式会社 | 動作分類用モデル学習装置、動作分類装置、動作分類用モデル学習方法、プログラム |
WO2020037965A1 (zh) * | 2018-08-21 | 2020-02-27 | 北京大学深圳研究生院 | 一种用于视频预测的多运动流深度卷积网络模型方法 |
CN110135369A (zh) * | 2019-05-20 | 2019-08-16 | 威创集团股份有限公司 | 一种行为识别方法、系统、设备及计算机可读存储介质 |
CN110414554A (zh) * | 2019-06-18 | 2019-11-05 | 浙江大学 | 一种基于多模型改进的Stacking集成学习鱼类识别方法 |
Non-Patent Citations (3)
Title |
---|
一种基于改进运动历史图像和支持向量机的行为识别算法;苏寒松;陈震宇;龙鑫;刘高华;;陕西师范大学学报(自然科学版)(第02期);全文 * |
基于3D运动历史图像和多任务学习的动作识别;王松;党建武;王阳萍;金静;;吉林大学学报(工学版)(第04期);全文 * |
基于深度图像的人体行为识别;唐超;张苗辉;李伟;曹峰;王晓峰;童晓红;;系统仿真学报(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111523477A (zh) | 2020-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rao et al. | Deep convolutional neural networks for sign language recognition | |
CN110110624B (zh) | 一种基于DenseNet网络与帧差法特征输入的人体行为识别方法 | |
CN112784763B (zh) | 基于局部与整体特征自适应融合的表情识别方法及系统 | |
CN108875624B (zh) | 基于多尺度的级联稠密连接神经网络的人脸检测方法 | |
CN110399821B (zh) | 基于人脸表情识别的顾客满意度获取方法 | |
Cao et al. | Marine animal classification using combined CNN and hand-designed image features | |
WO2018052587A1 (en) | Method and system for cell image segmentation using multi-stage convolutional neural networks | |
Tian et al. | Ear recognition based on deep convolutional network | |
CN109543548A (zh) | 一种人脸识别方法、装置及存储介质 | |
Caroppo et al. | Comparison between deep learning models and traditional machine learning approaches for facial expression recognition in ageing adults | |
CN109815920A (zh) | 基于卷积神经网络和对抗卷积神经网络的手势识别方法 | |
Shang et al. | Image spam classification based on convolutional neural network | |
CN109086657B (zh) | 一种基于机器学习的耳朵检测方法、系统及模型 | |
CN114882278A (zh) | 一种基于注意力机制和迁移学习的轮胎花纹分类方法和装置 | |
CN113361589A (zh) | 基于迁移学习与知识蒸馏的珍稀濒危植物叶片识别方法 | |
CN117437691A (zh) | 一种基于轻量化网络的实时多人异常行为识别方法及系统 | |
Zhang et al. | Consecutive convolutional activations for scene character recognition | |
CN112580527A (zh) | 一种基于卷积长短期记忆网络的人脸表情识别方法 | |
CN111523477B (zh) | 一种基于运动历史图像和集成学习器的视频动作识别方法 | |
Cheng et al. | An android application for plant identification | |
CN111191584A (zh) | 一种人脸识别方法及装置 | |
CN113642429B (zh) | 一种基于tpp-tccnn的海洋鱼类识别方法 | |
CN113505783B (zh) | 基于少次学习的甲骨文单字识别方法和装置 | |
Kumar et al. | CANNY EDGE DETECTION AND CONTRAST STRETCHING FOR FACIAL EXPRESSION DETECTION AND RECOGNITION USING MACHINE LEARNING | |
Straten | Automatic detection of artefacts in Organ-on-Chip cultures and the influence of artefacts on Convolutional Neural Networks for classification of culture quality |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |