CN105095866B - 一种快速行为识别方法和系统 - Google Patents
一种快速行为识别方法和系统 Download PDFInfo
- Publication number
- CN105095866B CN105095866B CN201510422807.9A CN201510422807A CN105095866B CN 105095866 B CN105095866 B CN 105095866B CN 201510422807 A CN201510422807 A CN 201510422807A CN 105095866 B CN105095866 B CN 105095866B
- Authority
- CN
- China
- Prior art keywords
- video
- module
- activity recognition
- feature
- multiple threads
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种快速行为识别方法和系统,在该方法的训练过程中,采用计算复杂度低的特征提取算法,并采用多种降维手段对所得的特征矩阵进行降维和归一化,降低处理所需时间;在该方法的识别过程中,将捕获的视频采用与训练过程相同的算法进行处理,之后放入训练得到的模型中进行检测和识别;该系统由五部分组成:视频采集模块、离线学习模块、行为识别模块、多线程处理模块和视频显示模块;该系统采用滑动窗口机制将实时捕获的视频处理成若干的视频段,在进行行为识别时对每个视频段进行处理,保证识别结果的实时更新。同时,将计算复杂度较高的特征提取和特征编码过程进行多线程处理,保证处理识别的实时性,可以实现快速准确的对视频中出现的行为进行识别和可视化显示,操作方便,便于扩展。
Description
技术领域
本发明属于计算机视觉、机器学习和智能监控技术领域,涉及一种快速行为识别方法和系统。
背景技术
随着视频采集设备和宽带网络的快速普及和发展,视频已经成为信息的主要载体,且视频的数据量呈现爆炸式的增长。与视频设备的蓬勃发展相比,目前各类视频处理解决方案中的对视频内容的识别和分析方法相对滞后,大部分解决方案依旧采用人为管理的方式,而且现有的视频监控系统通常只是录制视频图像,只能用作事后取证,没有充分发挥视频监控的实时性和主动性。
同时,由于视频信息量巨大,而管理人员无法同时对多个视频中的内容做出实时而准确的判断,使得目前的视频采集设备并没有发挥其应有的作用。为了能实时分析、跟踪、判别监控对象,并在异常事件发生时提示、上报,为政府部门、安全领域及时决策、正确行动提供支持,视频监控的“智能化”就显得尤为重要。
目前,大多数的视频内容都是以人为主体,特别是常见的监控视频,都是以人为监控对象,对人在固定场景下的行为进行记录,所以不论是从安全、监控、娱乐,还是个人存档的角度,对视频中人体行为识别进行研究具有重要的学术和应用价值。然而,面对海量涌现的数据,如何去自动获取,分析其中包含的内容就成为一个亟待解决的问题。近年来基于机器学习、计算机视觉的人体行为识别技术发展迅速,对视频数据进行处理和分析,学习并理解其中人的动作和行为,可以很好的解决人为管理的缺陷,并识别视频中出现的内容。
现有的智能视频监控系统在的行为识别这个难点上的处理效果并不理想,这主要是由以下几个原因导致的:
1)现有的基于机器学习的行为识别算法大多采用复杂的特征描述子或者采用特征融合的方法获得较高时识别率,但同时导致算法的时间和空间复杂度大大增加,不能完成对视频中的行为动作进行实时识别和检测,所以无法在实际中进行应用和推广。
2)行为识别的一个重要难点是缺少进行实验的参考数据集,采用现有公开的数据集训练学习得到模型,无法在当前应用场景下准确地完成识别。
3)现有的基于机器学习的方法进行行为识别的系统很少,这方面的软件系统并不完善。
发明内容
有鉴于此,本发明的目的在于提供一种可以快速对视频中出现的行为进行识别的的方法和基于该方法的行为识别系统,该方法和系统可以克服现有的行为识别算法及系统计算的时间和空间复杂度较高,不能快速地完成对视频内出现的行为动作进行识别的问题。
为达到上述目的,本发明提供如下技术方案:
一种快速行为识别方法,包括以下步骤:步骤一:现场采集所需的训练数据,并进行预处理;步骤二:提取训练数据的特征,对训练样本的特征矩阵进行“池化”操作,在达到降维目的的同时,保持视频特征的旋转、平移和伸缩不变性;步骤三:按行为种类数目平均采样后进行聚类形成码本;再以码本为基础采用“词袋模型”量化所有样本的特征矩阵,对所有样本的特征矩阵进行编码,将各样本的特征矩阵转化成由每个单词所得票数形成的特征向量;步骤四:将各样本对应的特征向量作为支持向量机的输入训练行为识别分类器得到分类器模型;步骤五:利用所得到的码本和分类器模型对实时视频进行实时处理的到分类识别的结果。
本发明还提供了一种快速行为识别系统,包括视频采集模块、离线学习模块、行为识别模块、多线程处理模块和视频显示模块;
所述视频采集模块:通过捕获摄像头完成视频采集操作,采用按键控制的方式,对不同行为动作自动进行分类和命名,并进行相应的预处理,为之后的学习和处理模块准备数据;
所述离线学习模块:对已经采集得到的视频采用机器学习的方法处理,首先,进行特征提取,得到可以表示视频的描述矩阵,其次对描述矩阵采用“池化”、“词袋模型”等方法进行降维和编码,最后采用支持向量机训练得到判决模型;
所述行为识别模块:对采集得到的视频进行处理,识别视频内包含的行为类型,并输出对应的标签信息;
所述多线程处理模块:为保证视频的在处理后实时显示,采用多线程处理加速特征提取、特征编码和运动区域检测过程;
所述视频显示模块:在视频中添加相关的信息标识,显示处理后的视频;
视频采集模块、离线学习模块、行为识别模块和视频显示模块依次相连,而多线程处理模块位于行为识别模块内部,对行为识别模块中对视频进行特征提取和特征编码进行等处理过程进行加速。系统的整体功能为:通过视频采集模块、离线学习模块、多线程处理模块、行为识别模块和视频显示模块的协同运作完成对视频中出现的行为类型进行识别的目的,而离线学习模块和行为识别模块作为其中的核心部分,完成了大部分的处理过程。离线学习模块完成了将视频数据进行训练和学习得到识别模型的任务,而之后的行为动作识别模块利用之前得到的识别模型对未知的视频进行分类和识别,得到视频内所包含的行为内容。此过程的数据读取都由视频采集模块来控制。而最后的结果显示由视频显示模块来完成,实现了将行为识别结果进行可视化显示的功能。在处理过程中加入多线程处理的方式,将训练和识别过程中耗费时间较多的特征提取和特征编码阶段进行多线程并行运算,减少等待处理所需的时间,充分发挥电脑的运算性能,并对训练和识别过程进行加速,已达到保证一定的实时性的目的。
进一步,在行为识别模块中,采用滑动窗口的方法将待识别的视频进行处理,将采集到的视频进行滑动窗口处理,按照滑动窗口的长度和滑动距离分成若干个视频段;在对视频内容进行识别阶段,逐个读取每个视频段分别进行处理和识别,保证识别结果快速更新。
进一步,在多线程处理模块中,根据滑动窗口处理后得到的视频段数目和当前程序的处理能力初始化线程个数,判断当前每个线程的状态,若线程处理结束则保存处理所得的数据,关闭当前线程;在主线程中对各个线程运行后的数据结果进行融合,保证采用多线程处理后结果数据的有序性;该模块将时间复杂度较高的特征提取、特征编码和运行区域检测等步骤进行多线程处理,大大加快程序处理的效率,保证行为识别系统的实时性。
本发明的有益效果在于:1)在保证特征较强描述性的同时,对特征矩阵采用“池化”和“词袋模型”等手段对特征进行多次降维,保证其在进行编码和判决时较快的完成处理;2)采用多线程处理的手段,将行为识别时耗费时间较多的特征提取和特征编码阶段进行多线程并行处理,保证该系统可以快速完成处理,也是实现实时性的关键方法。
附图说明
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:
图1为本发明的一种快速行为识别方法的流程图;
图2为本发明的行为识别系统的系统结构图;
图3为本发明中行为识别系统的视频采集模块实现流程图;
图4为本发明中行为识别系统的离线学习模块实现流程图;
图5为本发明中行为识别系统的多线程处理模块实现流程图;
图6为本发明中行为识别系统的行为识别模块实现流程图;
图7为本发明中行为识别系统的视频显示模块实现流程图。
具体实施方式
下面将结合附图,对本发明的优选实施例进行详细的描述。
图1为本发明的一种快速行为识别方法的流程图,如图所示,主要包括训练过程和识别过程两部分内容,具体包括以下步骤:
步骤101,通过相关的数据采集模块采集所需的实验数据集,为之后的处理过程提供数据支持。
步骤102,对步骤101中采集得到的实验数据进行分类和标注,此操作是为了方便之后的支持向量机进行训练。
步骤103,对分类后的视频进行特征提取,此方法中主要采用提取视频方向梯度直方图(Histogram ofOriented Gradient,HOG)特征,该特征描述子通过计算和统计图像局部区域的梯度方向直方图来构成特征,与其他常用的特征描述方法,如:尺度不变特征转换(Scale-invariant feature transform,SIFT)、密集轨迹特征(Dense Trajectory)、时空兴趣点(spatio-temporal interest point,STIP)等等,相比HOG特征提取速度最快,且由于HOG是在图像的局部方格单元上操作,所以它对图像几何的和光学的形变都能保持很好的不变性,这两种形变只会出现在更大的空间领域上。
步骤104,特征后处理是对步骤103中提取出的特征描述矩阵进行后处理,主要采用“池化”(pooling)和“空间金字塔(spatial pyramid,SP)”,其中pooling是计算图像一个区域上的某个特定特征的平均值(或最大值)。这些概要统计特征不仅具有低得多的维度(相比使用所有提取得到的特征),同时还会改善结果,在放入支持向量机中进行分类,不容易过拟合。SP出现的背景是“词袋模型”被大量地用在了图像表示中,但是“词袋模型”完全缺失了特征点的位置信息。其原理和和分块直方图类似——将图像分成若干块(sub-regions),分别统计每一子块的特征,最后将所有块的特征拼接起来,形成完整的特征。这就是SP中的Spatial。在分块的细节上,采用了一种多尺度的分块方法,即分块的粒度越大越细,呈现出一种层次金字塔的结构,这就是SP中的Pyramid。
步骤105,采用“词袋模型”(bog ofwords,BOW)对特征进行编码,BOW是一种常用的特征编码方式,首先通过聚类得到“码本”,聚类方法采用k_means,聚类中心为1000,之后以码本为基础,以码本中数值的个数为参考初始化该特征对应的直方图。对每个视频得到的特征矩阵与之计算距离值,距离最近则进行投票,该特征值对于的直方图数值加一,最后将一个视频的特征矩阵映射为一维向量,大大降低了放入支持向量机时数据的维度。
步骤106,采用支持向量机对编码后的特征进行分类学习,得到预测识别模型。支持向量机(Support Vector Machines,SVM)是在统计学习理论上发展起来的一种方法。支持向量机的基本思想是通过非线性映射,把样本空间映射到一个高维乃至无穷维的特征空间,使得在特征空间中可以应用线性学习机的方法解决样本空间中的高度非线性的分类和回归问题。支持向量机能较好地解决小样本、非线性、高维数和局部极小点等实际问题。
本发明的支持向量机的核函数优选为径向基函数。使用支持向量机的关键步骤是选择核函数,有多种核函数可以选择,比如线性、多项式、径向基函数和sigmod等。通过比较实验,发现径向基函数(Radial Basis Function,RBF)具有最好的识别率,因此选用径向基函数进行训练和识别。
步骤107,为支持向量机训练学习得到的识别模型,该模型将保存并在识别阶段进行调用。
步骤108,输入为未知视频中行为类别内容的视频。
步骤109,采用与步骤103相同的特征提取方式进行特征提取。
步骤110,采用与步骤104相同的特征后处理方式进行特征后处理。
步骤111,采用与步骤105相同的特征编码方式进行特征编码。
步骤112,调用步骤107得到的预测识别模型,采用支持向量机中的预测函数,对未知视频得到的进行编码后的特征矩阵,进行分类和预测,得到分类预测标签,并依此确定视频中存在的行为内容。
步骤113,对得到的标签进行映射,得到视频中的行为内容。
该行为识别方法选取维度较低的特征提取方法,并采用pooling及bow操作对所得的特征矩阵进行多次降维和编码,一定程度上保证了算法的实时性。
图2为本发明的行为识别系统的系统结构图,如图所示,主要包括视频采集模块、离线学习模块、行为识别模块、多线程处理模块、视频显示模块。通过这些模块的协同运作完成对视频中出现的行为进行识别的目的。
步骤201,视频采集模块,实现采集视频的功能。可以自动检测电脑外接摄像头并读取和存储摄像头输入的数据,采用键盘按键控制视频录制的方法,并自动分类和命名视频内容,大大方便了实验数据集的制作。同时,该模块也可以作为之后离线学习模块和行为识别模块的视频输入来源。
步骤202,离线学习模块,对步骤201采集的视频进行离线的训练学习,训练学习方法如实施例1中的训练过程所示,通过该模块的运行可以实现将视频数据转换为特征矩阵的形式,之后进行特征编码,放入支持向量机中进行训练学习得到识别模型。
步骤203,行为识别模块,调用步骤202中得到的码本和模型以及步骤201中输入的视频,具体实现时,对输入的视频采用滑动窗口的方式进行分段,规定固定的滑动长度和滑动窗口大小,之后对每一小段视频采用实施例1中的识别过程的方法,对输入的视频段中出现的行为动作进行识别,得到预测识别得到的标签。
步骤204,多线程处理模块,采用多线程处理的方式将特征提取、特征编码等耗费时间较久的过程进行处理,节约处理所需的时间,一定程度上保证识别系统对视频中行为内容识别的实时性。
步骤205,视频显示模块,完成对识别结果的可视化显示,将支持向量机预测所得的标签通过映射表的方式转换为行为动作类型,并在视频中以中文字体的形式显示。同时在该模块中采用基于帧差法的运动区域检测方法,用红色矩形框对发生行为的区域进行标示。除此之外,实时进行识别的帧数也会在视频中进行显示。
本发明的行为识别系统完成了从实验数据集的采集、训练学习、行为识别和识别结果的可视化显示等一整套方案,并采用多线程处理的编程方式,对识别过程进行运行速度的优化,保证识别可以实时进行。
图3示意性示出了本发明的行为识别系统中视频采集模块实现流程图。该模块为方便进行实验所需数据集的采集,通过键盘按键控制的方式,实现视频自动命名、自动分类保存,方便之后的模块对视频进行处理。同时在识别行为阶段,本模块也发挥其基础作用,完成视频内容的读入,对视频进行基本的预处理,方便后续模块对该模块采集的视频内容做相应的处理。
步骤301,完成采用视频采集模块的采集数据集功能时,用户只需先对行为类型表进行定义,定义格式为“按键名称”加“行为类型名”,如定义四种基本识别行为内容,分别是“boxing”、“handwaving”、“handclapping”、“normal”,前面的数字代表对应键盘中的按键控制按钮,分别是数字键“1”、“2”、“3”、“4”。
步骤302,对采集的视频存储位置进行设置。
步骤303,采集视频时,按下之前设置好的按钮就可以实现开始录制视频。之后分两种模式,一、按下其他控制键可以对之前的视频内容进行存储并开始录制新的行为类型。二、按下非设置的控制按钮可以实现保存当前录制的视频内容并暂停录制等待下一步的操作,方便在录制视频数据时进行灵活控制。
步骤304,根据按键内容、行为类型设置和存储参数对视频进行自动命名和分类保存,方便后续处理过程。
图4示意性示出了本发明中离线学习模块的流程图,也是本行为系统的算法核心部分,采用机器学习的方法,其基本步骤与实施例1中的训练过程相对应,此处只做简单说明。
步骤401,对之前视频采集模块所得到的数据进行分类,具体实施中中我们采用视频名字自动识别的方法,实现对视频内容自动分类自动打标签,大大节约了人工对视频分类、对视频进行编号所用的时间。
步骤402,对已经分类标注后的视频进行特征提取,获得对应的特征描述子来表征这个视频,此时获得的特征描述维度较高会使得后续计算所需的时间增长,该系统中采用梯度直方图特征(HOG)作为视频的描述子,该描述子具有维度较低、提取速度较快等优点。
步骤403,特征预处理,采用“pooling”和“spatial pyramid”的处理方法,对特征进行处理,pooling可以在保证视频特征原有特性的同时,对视频特征进行降维,减少特征计算时所消耗的时间,spatial pyramid的做法是BOW的的改进,因为BOW是在整张图像中计算特征点的分布特征,进而生成全局直方图,所以会丢失图像的局部、细节信息,无法对图像进行精确地识别。为了克服BOW的固有缺点,本发明在进行BOW之前采用了specialpyramid的策略,它是在不同分辨率上统计图像特征点分布,从而获取图像的局部信息,且此方法产生的时间复杂度并不高。
步骤404,采用“bog of words”的方法对,经过步骤402和403处理后的特征进行特征编码,在降低特征维度的同时,对数据进行归一化,可以一定程度上避免后面SVM训练产生过拟合的情况。
步骤405,支持向量机相关参数,主要是核函数的选取,本发明中经过多次试验,采用径向基函数(RBF)具有最好的识别率,因此选用径向基函数进行训练。
步骤406,采用支持向量机进行训练学习,在完成特征编码后,采用步骤405的参数设置,用支持向量机完成训练学习过程,并判断得到的模型是否最优,通过不断的循环得到最优的分类预测模型,之后就可以采用此模型完成对视频中出现的行为进行识别的任务。
步骤407,得到支持向量机模型并保存。
此模块算法的效果直接关系到整个系统的准确性,作为算法的核心部分,如何选取合适的特征提取方法和合适的训练参数对所得模型的准确性影响很大。同时为使得本软件系统具有推广的价值,需要同时兼顾算法的运行速度,而特征提取过程及特征编码的过程需要耗费大量的计算时间,这就需要我们采用算法优化或者其他的编程手段对计算时间进行优化,在保证较高准确率的情况下,降低计算复杂度,保证一定的实时性。该模块最后会输出由SVM产生的模型文件及在进行特征编码时采用“词袋模型”产生的码本文件,为之后的模块准备所需的参数及数据源。
图5示意性示出了多线程处理模块流程图。将耗时较久的部分如特征提取、特征编码过程,分段放入不同的线程进行并行处理,之后将计算后的结果调回主线程,降低复杂计算带来的处理时间,保证识别的实时性。
多线程是指从软件或者硬件上实现多个线程并发执行的技术。具有多线程能力的计算机因有硬件支持而能够在同一时间执行多于一个线程,进而提升整体处理性能。具有这种能力的系统包括对称多处理机、多核心处理器以及芯片级多处理或同时多线程(Simultaneous处理器。在一个程序中,这些独立运行的程序片段叫作“线程”,利用它编程的概念就叫作“多线程处理”。具有多线程能力的计算机因有硬件支持而能够在同一时间执行多于一个线程,进而提升整体处理性能。目前的计算机普遍配置较高,大多具有多核心处理器,所以采用多线程处理可以充分发挥计算机的性能。
本发明在设计多线程处理模块时,保证一个线程在其存期内,可以在多种状态之间转换。每个状态还可以包含多个子状态。本发明中主要包括以下几个状态
①就绪:参与调度,等待被执行。一旦被调度选中,立即开始执行。
②运行:占用CPU,正在运行中。
③休眠:暂不参与调度,等待特定事件发生。
④中止:已经运行完毕,等待回收线程资源。
如图5所示,多线程处理的功能主要由如下步骤实现:
步骤501,输入待处理的视频数据。
步骤502,滑动窗口处理。采用滑动窗口的方法,在时域将待处理的视频分成固定帧长度的视频段,并通过定义滑动窗口滑动长度,控制视频段的起始和结束位置。
步骤503,产生视频段,等待进入线程中进行处理。
步骤504,在线程内对需要进行处理的视频段进行特征提取和特征编码,得到编码后的特征矩阵。
步骤505,线程状态判断。判断当前每个线程的状态,若线程运行结束则保存运行出的数据。
步骤506,在主线程中对各个线程运行后的数据结果进行融合,保证采用多线程处理后结果数据的有序性。
步骤507,得到经过多线程处理后的特征数据,等待下一步处理。
使用线程可以把占据时间长的程序中的任务放到后台去处理。在一些等待的任务实现上如特征提取、特征编码和运动检测等,线程处理就能加快这些过程的处理速度。一定程度上加快程序的运行速度,使得行为识别一定程度上达到实时处理的效果,同时在这种情况下可以释放一些珍贵的资源如内存占用等等。
图6示意性示出了行为识别模型的流程图,该模块主要包括以下步骤:
步骤601,输入未知其内包含的行为内容类型的视频。
步骤602,滑动窗口处理。采用滑动窗口的方法将待识别的视频进行处理,将一个视频按照滑动窗口的长度和滑动距离分成若干个视频段,具体实施中,滑动窗口的长度为20(帧),滑动窗口的滑动长度为10(帧),选取初始滑动窗口长度为初始视频段。若视频总共有200帧,则进过滑动窗口处理,可以将该视频分为19个视频段,之后对这19个视频段分别放入多线程模块进行处理。
步骤603,多线程处理。对每个视频段分别放入多线程处理模块进行处理得到最终编码后的特征数据。
步骤604,支持向量机预测识别。调用之前离线训练模块得到的模型文件,采用支持向量机对步骤603中得到的特征数据进行预测识别,相关参数设置与实施例1中识别算法相同,此处不在做详细说明。
步骤605,得到预测识别的标签,此标签标示经过支持向量机处理后视频中所含的行为动作类型。
该模块作为本软件中承上启下的模块,调用之前离线学习模块得到的码本和模型文件。当该模块接受到来自视频采集模块得到的未知类型的视频后,对未知的视频进行与之前训练模型采用相同的特征提取方法及特征编码方式,得到描述该未知视频的特征向量,之后将得到的特征向量放入学习模块中得到的行为识别预测模型中,通过行为识别预测模型得到该视频中所包含行为动作的类别标签。
图7示意性示出了视频显示模块的基本实现流程图,视频显示模块完成对经过之前模块处理得到的结果进行显示的功能,主要包括以下步骤:
步骤701,初始视频输入。
步骤702,视频预处理,对视频的压缩比、显示大小进行处理。
步骤703,帧数统计。对显示视频的帧率进行统计,该帧率可以反映出本发明的行为识别系统处理速度的快慢。
步骤704,运动区域检测。采用帧差法进行运动区域检测,帧间差分法是一种通过对视频图像序列中相邻两帧作差分运算来获得运动目标轮廓的方法,它可以很好地适用于存在多个运动目标和摄像机移动的情况。当监控场景中出现物体运动时,帧与帧之间会出现较为明显的差别,两帧相减,得到两帧图像亮度差的绝对值,判断它是否大于阈值来分析视频或图像序列的运动特性,确定图像序列中有无物体运动。从而可以对视频中的运动区域进行提取,并用红色矩形框进行标识。
步骤705,标签映射。采用映射表对步骤605得到的标签进行映射,对于行为识别模块得到的预测标签进行映射,得到对应的行为类型,通过文字的形式在视频的左上角进行显示。
步骤706,视频显示。在视频中显示当前视频帧数、运动区域标识框和行为动作类型。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。
Claims (3)
1.一种快速行为识别系统,其特征在于:
该识别系统包括视频采集模块、离线学习模块、行为识别模块、多线程处理模块和视频显示模块;
所述视频采集模块:通过捕获摄像头完成视频采集操作,采用按键控制的方式,对不同行为动作自动进行分类和命名,并进行相应的预处理,为之后的学习和处理模块准备数据;
所述离线学习模块:对已经采集得到的视频采用机器学习的方法处理,首先,进行特征提取,得到可以表示视频的描述矩阵,其次对描述矩阵采用“池化”和“词袋模型”的方法进行降维和编码,最后采用支持向量机训练得到判决模型;
所述行为识别模块:对采集得到的视频进行处理,识别视频内包含的行为类型,并输出对应的标签信息;
所述多线程处理模块:为保证视频的在处理后实时显示,采用多线程处理加速特征提取、特征编码和运动区域检测过程;
所述视频显示模块:在视频中添加相关的信息标识,显示处理后的视频;
视频采集模块、离线学习模块、行为识别模块和视频显示模块依次相连,多线程处理模块位于行为识别模块内部,对行为识别模块中对视频进行特征提取和特征编码的处理过程进行加速;
所述识别系统的识别方法包括以下步骤:
步骤一:现场采集所需的训练数据,并进行预处理;
步骤二:提取训练数据的特征,对训练样本的特征矩阵进行“池化”操作,在达到降维目的的同时,保持视频特征的旋转、平移和伸缩不变性;
步骤三:按行为种类数目平均采样后进行聚类形成码本;再以码本为基础采用“词袋模型”量化所有样本的特征矩阵,对所有样本的特征矩阵进行编码,将各样本的特征矩阵转化成由每个单词所得票数形成的特征向量;
步骤四:将各样本对应的特征向量作为支持向量机的输入训练行为识别分类器得到分类器模型;
步骤五:利用所得到的码本和分类器模型对实时视频进行实时处理的到分类识别的结果。
2.根据权利要求1所述的一种快速行为识别系统,其特征在于:在行为识别模块中,采用滑动窗口的方法将待识别的视频进行处理,将采集到的视频进行滑动窗口处理,按照滑动窗口的长度和滑动距离分成若干个视频段;在对视频内容进行识别阶段,逐个读取每个视频段分别进行处理和识别,保证识别结果快速更新。
3.根据权利要求2所述的一种快速行为识别系统,其特征在于:在多线程处理模块中,根据滑动窗口处理后得到的视频段数目和当前程序的处理能力初始化线程个数,判断当前每个线程的状态,若线程处理结束则保存处理所得的数据,关闭当前线程;在主线程中对各个线程运行后的数据结果进行融合,保证采用多线程处理后结果数据的有序性;该模块将时间复杂度较高的特征提取、特征编码和运行区域检测步骤进行多线程处理,大大加快程序处理的效率,保证行为识别系统的实时性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510422807.9A CN105095866B (zh) | 2015-07-17 | 2015-07-17 | 一种快速行为识别方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510422807.9A CN105095866B (zh) | 2015-07-17 | 2015-07-17 | 一种快速行为识别方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105095866A CN105095866A (zh) | 2015-11-25 |
CN105095866B true CN105095866B (zh) | 2018-12-21 |
Family
ID=54576255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510422807.9A Active CN105095866B (zh) | 2015-07-17 | 2015-07-17 | 一种快速行为识别方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105095866B (zh) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919947B (zh) * | 2015-12-25 | 2019-12-13 | 中国移动通信集团公司 | 一种用户吃饭行为识别的方法及装置 |
CN105956517B (zh) * | 2016-04-20 | 2019-08-02 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于密集轨迹的动作识别方法 |
CN106056043B (zh) * | 2016-05-19 | 2019-07-30 | 中国科学院自动化研究所 | 基于迁移学习的动物行为识别方法和装置 |
CN106022310B (zh) * | 2016-06-14 | 2021-08-17 | 湖南大学 | 基于htg-hog和stg特征的人体行为识别方法 |
CN106204573A (zh) * | 2016-07-07 | 2016-12-07 | Tcl集团股份有限公司 | 一种智能冰箱的食品管理方法及系统 |
CN106228220A (zh) * | 2016-07-19 | 2016-12-14 | 浙江工商大学 | 一种基于多线程的二维码生成方法及系统 |
CN106331673A (zh) * | 2016-08-22 | 2017-01-11 | 上嘉(天津)文化传播有限公司 | 一种基于分散控制系统的vr视频数据控制方法 |
CN106529594B (zh) * | 2016-11-08 | 2019-07-23 | 上海理工大学 | 应用于大数据行为识别的监督降维方法 |
CN107145927A (zh) * | 2017-04-25 | 2017-09-08 | 浙江工商大学 | 基于多线程的二维码生成方法及系统 |
CN108021889A (zh) * | 2017-12-05 | 2018-05-11 | 重庆邮电大学 | 一种基于姿态外形和运动信息的双通道红外行为识别方法 |
CN108280465A (zh) * | 2017-12-25 | 2018-07-13 | 西安电子科技大学 | 基于层次聚类的判别性部件挖掘行为识别方法 |
CN108600701B (zh) * | 2018-05-02 | 2020-11-24 | 广州飞宇智能科技有限公司 | 一种基于深度学习判断视频行为的监控系统和方法 |
CN109325469B (zh) * | 2018-10-23 | 2022-06-14 | 北京工商大学 | 一种基于深度神经网络的人体姿态识别方法 |
CN109657603B (zh) * | 2018-12-17 | 2021-05-11 | 深圳云天励飞技术有限公司 | 人脸检测的方法及装置 |
CN109829542B (zh) * | 2019-01-29 | 2021-04-16 | 武汉星巡智能科技有限公司 | 基于多核处理器的多元深度网络模型重构方法及装置 |
CN109948807A (zh) * | 2019-03-14 | 2019-06-28 | 腾讯科技(深圳)有限公司 | 一种主动学习方法及装置 |
CN110427222A (zh) * | 2019-06-24 | 2019-11-08 | 北京达佳互联信息技术有限公司 | 数据加载方法、装置、电子设备及存储介质 |
CN110659669B (zh) * | 2019-08-26 | 2022-11-15 | 中国科学院信息工程研究所 | 一种基于加密摄像头视频流量模式变化的用户行为识别方法及系统 |
CN111079567B (zh) * | 2019-11-28 | 2020-11-13 | 中科驭数(北京)科技有限公司 | 采样方法、模型生成方法、视频行为识别方法及装置 |
CN111309151B (zh) * | 2020-02-28 | 2022-09-16 | 桂林电子科技大学 | 一种学校监控设备的控制方法 |
CN111767939B (zh) * | 2020-05-11 | 2023-03-10 | 浙江大学 | 一种水下声呐系统目标提取方法 |
CN111797777B (zh) * | 2020-07-07 | 2023-10-17 | 南京大学 | 基于时空语义特征的手语识别系统及方法 |
CN113992687B (zh) * | 2021-12-28 | 2022-04-08 | 浙江宇视科技有限公司 | 智能业务集群调度方法、装置、电子设备及存储介质 |
CN117253196B (zh) * | 2023-11-17 | 2024-02-02 | 本溪钢铁(集团)信息自动化有限责任公司 | 钢铁行业中基于视频的安全风险监控方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102811343A (zh) * | 2011-06-03 | 2012-12-05 | 南京理工大学 | 一种基于行为识别的智能视频监控系统 |
CN103577841A (zh) * | 2013-11-11 | 2014-02-12 | 浙江大学 | 一种无监督多视图特征选择的人体行为识别方法 |
CN103605986A (zh) * | 2013-11-27 | 2014-02-26 | 天津大学 | 一种基于局部特征的人体动作识别方法 |
CN103955671A (zh) * | 2014-04-23 | 2014-07-30 | 浙江工业大学 | 基于快速判别公共向量算法的人体行为识别方法 |
CN104200202A (zh) * | 2014-08-30 | 2014-12-10 | 电子科技大学 | 一种基于累加感知机的人体上半身检测方法 |
CN104268568A (zh) * | 2014-09-17 | 2015-01-07 | 电子科技大学 | 基于独立子空间网络的行为识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101969450B1 (ko) * | 2012-07-06 | 2019-04-16 | 삼성전자 주식회사 | 단위 행동 인식을 기반으로 사용자의 대표 행동을 인식하는 장치 및 방법 |
-
2015
- 2015-07-17 CN CN201510422807.9A patent/CN105095866B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102811343A (zh) * | 2011-06-03 | 2012-12-05 | 南京理工大学 | 一种基于行为识别的智能视频监控系统 |
CN103577841A (zh) * | 2013-11-11 | 2014-02-12 | 浙江大学 | 一种无监督多视图特征选择的人体行为识别方法 |
CN103605986A (zh) * | 2013-11-27 | 2014-02-26 | 天津大学 | 一种基于局部特征的人体动作识别方法 |
CN103955671A (zh) * | 2014-04-23 | 2014-07-30 | 浙江工业大学 | 基于快速判别公共向量算法的人体行为识别方法 |
CN104200202A (zh) * | 2014-08-30 | 2014-12-10 | 电子科技大学 | 一种基于累加感知机的人体上半身检测方法 |
CN104268568A (zh) * | 2014-09-17 | 2015-01-07 | 电子科技大学 | 基于独立子空间网络的行为识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105095866A (zh) | 2015-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105095866B (zh) | 一种快速行为识别方法和系统 | |
Xu et al. | Segregated temporal assembly recurrent networks for weakly supervised multiple action detection | |
Yaseen et al. | Cloud-based scalable object detection and classification in video streams | |
CN109446923A (zh) | 基于训练特征融合的深度监督卷积神经网络行为识别方法 | |
CN110097000A (zh) | 基于局部特征聚合描述符和时序关系网络的视频行为识别方法 | |
Jing et al. | Yarn-dyed fabric defect classification based on convolutional neural network | |
Wang et al. | Tree leaves detection based on deep learning | |
CN109815920A (zh) | 基于卷积神经网络和对抗卷积神经网络的手势识别方法 | |
Geng et al. | An improved helmet detection method for YOLOv3 on an unbalanced dataset | |
CN109086657B (zh) | 一种基于机器学习的耳朵检测方法、系统及模型 | |
CN108416795B (zh) | 基于排序池化融合空间特征的视频动作识别方法 | |
Liu et al. | Lovit: Long video transformer for surgical phase recognition | |
CN117351392A (zh) | 一种视频异常行为检测的方法 | |
CN114494168A (zh) | 模型确定、图像识别与工业质检方法、设备及存储介质 | |
CN117351473A (zh) | 一种基于深度学习的面料识别方法、系统、设备及介质 | |
Hao et al. | Research on underwater object detection based on improved YOLOv4 | |
Luo et al. | RBD-Net: robust breakage detection algorithm for industrial leather | |
Xia et al. | A multi-scale multi-attention network for dynamic facial expression recognition | |
Kailash et al. | Deep learning based detection of mobility aids using yolov5 | |
Singh | Classification of animal sound using convolutional neural network | |
Rao et al. | Convolutional Neural Network Model for Traffic Sign Recognition | |
Ren et al. | Video-based emotion recognition using multi-dichotomy RNN-DNN | |
Passalis et al. | Deep video stream information analysis and retrieval: Challenges and opportunities | |
Li et al. | Recognizing video events with varying rhythms | |
Li et al. | Size-invariance Matters: Rethinking Metrics and Losses for Imbalanced Multi-object Salient Object Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |