CN111160078B - 一种基于视频图像的人体交互行为识别方法、系统及装置 - Google Patents

一种基于视频图像的人体交互行为识别方法、系统及装置 Download PDF

Info

Publication number
CN111160078B
CN111160078B CN201811488237.3A CN201811488237A CN111160078B CN 111160078 B CN111160078 B CN 111160078B CN 201811488237 A CN201811488237 A CN 201811488237A CN 111160078 B CN111160078 B CN 111160078B
Authority
CN
China
Prior art keywords
video
individual
data
motion
classification result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811488237.3A
Other languages
English (en)
Other versions
CN111160078A (zh
Inventor
叶青
渠畅
张永梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China University of Technology
Original Assignee
North China University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China University of Technology filed Critical North China University of Technology
Priority to CN201811488237.3A priority Critical patent/CN111160078B/zh
Publication of CN111160078A publication Critical patent/CN111160078A/zh
Application granted granted Critical
Publication of CN111160078B publication Critical patent/CN111160078B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明针对现有人体交互行为识别方法中,运动特征信息提取困难,不能充分结合运动整体与运动个体之间关系的问题,提出一种基于视频图像的人体交互行为识别方法、系统及装置。该方法从交互个体分割和整体融合的角度出发,首先进行运动人体检测并进行分割,分别得到两个交互个体的运动视频,接着把交互整体视频和个体分割后的运动视频分别送入卷积神经网络提取初步特征,随后把特征描述符送入多层感知机神经网络训练最后进行初步行为的分类,最后基于全局分类结果和个体分类结果进行多特征学习,形成最终分类结果。

Description

一种基于视频图像的人体交互行为识别方法、系统及装置
技术领域
本发明涉及计算机视频图像数据的处理及人机交互领域,尤其涉及一种基于视频图像的人体交互行为识别方法及系统。
背景技术
人体交互行为识别技术是指,通过分析识别视频图像序列中各个单人的行为,进而理解人与人之间的交互行为,并将这些行为进行描述。人体交互行为识别技术具有巨大的应用价值和广阔的市场前景,其研究成果可以用于各种对公共安全要求敏感的场合,如军事禁区、机场、车站、地铁站台、银行、超市、学校等。
交互行为识别技术中,通常从运动视频中找出运动目标后,进行运动特征信息的提取,最后采取分类算法对其进行分类。在交互行为特征信息获取算法方面,单一特征达不到准确度的要求,而兼顾多个特征的特征提取方式,虽然能提高识别准确率,但是也会破坏原有特征的空间结构,造成冗余信息。在交互行为识别框架中,一般分为基于整体的交互行为识别和基于个体分割的交互行为识别。其中,基于整体的交互行为识别方法将运动双方看作一个整体,这样处理会忽略运动个体之间的差异信息;而基于个体分割的方法是将运动双方分割开看作是两个行为执行者,这种方法原理简单但是识别准确率不高。
上述人体交互行为特征提取过程中,以上研究方法采用基于整体或基于个体的特征提取框架,特征信息没有综合运用。而传统的单一特征或者多特征融合的特征提取方式,也达不到识别准确率的要求。
发明内容
针对上述传统方法的缺陷,本发明提供了一种运动整体和个体结合的人体交互行为识别方法及其系统。从个体分割和整体结合角度出发,结合卷积神经网络和MLP神经网络提取特征,最后对初步识别结果进行多特征学习得到最终分类结果,以期提高交互行为识别的准确率。其中,交互整体信息主要学习交互双方相对位置和转向信息,运动个体信息主要学习单人行为信息。
具体而言,本发明提供了以下的技术方案:
一方面,本发明提供了一种基于视频图像的人体交互行为识别方法,所述方法包括:
步骤1、将输入的人体视频分割为个体左运动视频、个体右运动视频,所述个体左运动视频和个体右运动视频分别是运动视频个体分割后左边运动人视频和右边运动执行人视频;
步骤2、对所述人体视频及所述个体左运动视频、个体右运动视频进行预处理,所述预处理包括数据扩大及数据归一化,获得处理后视频数据;
步骤3、对所述处理后视频数据提取初步特征,将所述初步特征通过多层感知机建立所述初步特征的非线性关系;
步骤4、基于所述初步特征的非线性关系,采用分类器进行交互行为特征的分类。
优选地,所述步骤1进一步包括:
步骤101、将输入图像转换为灰度图,并对所述灰度图进行颜色空间的标准化;
步骤102、计算每个像素位置的梯度方向值;
步骤103、为每个细胞单元构建梯度方向直方图,并将细胞单元组合成块,在块内归一化梯度直方图;
步骤104、将检测窗口中所有重叠的块进行HOG特征的收集。
优选地,所述步骤2中,所述数据扩大,采用如下方式:对视频图像进行翻转,并进行随机裁剪,以扩大数据;
所述数据归一化通过如下方式:
Figure BDA0001895067390000031
xi:=xi
其中,每帧图片有n个像素,xi(i=1,2,…,n)是每帧图片的每一个像素大小,μ是每张图片的平均强度,针对每帧图片减去训练集中图片的平均强度μ。
更为优选地,所述翻转采用水平翻转,所述水平翻转是指以过图像中心的竖直轴为对称轴,将左、右两边像素交换。
优选地,所述步骤3中,所述多层感知机的激活函数为:
ReLU(x)=Max(x,0);
所述多层感知机加入优化器,所述优化器中动量直接并入梯度一阶矩的估计,并在所述优化器中加入偏置修正,以修正从原点初始化的一阶矩和二阶矩估计。
优选地,所述优化器具体通过如下方式实现:
Figure BDA0001895067390000032
其中,mt与vt分别是一阶动量与二阶动量项,β1,β2为动量值大小,通常取0.9和0.999,
Figure BDA0001895067390000041
与/>
Figure BDA0001895067390000042
分别是一阶动量与二阶动量项的修正值,Wt表示t时刻即第t次迭代模型的参数,gt=VJ(Wt)表示t次迭代代价函数关于W的梯度大小;ε是取值很小的数(一般是1e-8);η是学习率,决定了每一时刻的更新步长。
优选地,在所述多层感知机后续引入dropout层,有效减少神经元之间的共适应关系。在网络训练过程中,随机临时删掉网路中一部分的隐藏神经元。
优选地,所述步骤4中,所述分类器采用概率加权融合得到识别概率:
RFinal=RU×PU+RL×PL+RR×PR
其中,RFinal是最后识别结果概率,RU是双人视频分类结果,RL是左侧行为人视频分类结果,RR是右侧行为执行人视频的分类结果,PU、PL、PR为对应的分类结果相应的加权概率。
另一方面,本发明还提供了一种基于视频图像的人体交互行为识别系统,所述系统包括:
运动个体分割模块,用于将输入的人体视频分割为个体左运动视频、个体右运动视频,所述个体左运动视频和个体右运动视频分别是运动视频个体分割后左边运动人视频和右边运动执行人视频;
图像视频预处理模块,用于对所述人体视频及所述个体左运动视频、个体右运动视频进行预处理,所述预处理包括数据扩大及数据归一化,获得处理后视频数据;
神经网络特征提取模块,用于对所述处理后视频数据提取初步特征,将所述初步特征通过多层感知机建立所述初步特征的非线性关系;
人体交互行为识别模块,用于基于所述初步特征的非线性关系,采用分类器进行交互行为特征的分类。
优选地,所述图像视频预处理模块进一步包括:
数据扩大单元,通过对视频图像进行翻转,并进行随机裁剪,以扩大数据;
归一化单元,对扩大后的数据进行数据归一化,所述数据归一化通过如下方式:
Figure BDA0001895067390000051
xi:=xi
其中,每帧图片有n个像素,xi(i=1,2,…,n)是每帧图片的每一个像素大小,μ是每张图片的平均强度。
优选地,所述神经网络特征提取模块还包括优化器单元,所述优化器单元中的动量直接并入所述多层感知机梯度一阶矩的估计,并在所述优化器单元中加入偏置修正,以修正从原点初始化的一阶矩和二阶矩估计。
优选地,所述人体交互行为识别模块中,所述分类器采用概率加权融合得到识别概率:
RFinal=RU×PU+RL×PL+RR×PR
其中,RFinal是最后识别结果概率,RU是双人视频分类结果,RL是左侧行为人视频分类结果,RR是右侧行为执行人视频的分类结果,PU、PL、PR为对应的分类结果相应的加权概率。
优选地,所述优化器单元具体通过如下方式实现:
Figure BDA0001895067390000061
其中,mt与vt分别是一阶动量与二阶动量项,β1,β2为动量值大小,通常取0.9和0.999,
Figure BDA0001895067390000062
与/>
Figure BDA0001895067390000063
分别是一阶动量与二阶动量项的修正值,Wt表示t时刻即第t次迭代模型的参数,gt=VJ(Wt)表示t次迭代代价函数关于W的梯度大小;ε是取值很小的数(一般是1e-8);η是是学习率,决定了每一时刻的更新步长。
优选地,在所述神经网络特征提取模块中,在多层感知机后续引入dropout层,有效减少神经元之间的共适应关系,其在网络训练过程中,随机临时删掉网路中一部分的隐藏神经元。
又一方面,本发明还提供了一种基于视频图像的人体交互行为识别装置,所述装置包括存储器,以及一处理器,所述处理器可以访问所述存储器,调用所述存储器中的指令,并执行所述指令,以执行如上所述的人体交互行为识别方法。
与现有技术相比,本发明的技术方案通过多次特征提取的方式,使得复杂运动图像中的运动特征信息提取更加准确,并且特征能够充分体现出图像中整体运动特征与个体对象的运动特征,从而能够更加准确地对视频中交互的两个不同执行人的行为进行更加准确的判定。
附图说明
图1为本发明实施例的整体流程图;
图2为本发明实施例的运动个体视频分割模块流程图;
图3为常规的MLP网络结构示意图;
图4为本发明实施例的加权融合网络结构。
具体实施例
下面将结合本发明实施例中的图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
在一个具体的实施例中,本发明的技术方案可以通过模块化的方式实现。主要有以下几个模块组成:运动个体分割模块,图像视频预处理模块,神经网络特征提取模块,人体交互行为识别模块。各个模块的具体运算方式,如图1所示,个体左和个体右分别是运动视频个体分割后左边运动人视频和右边运动执行人视频,MLP(Multi-Layer Perceptron)是多层感知机神经网络。详细技术方案如下:
一、运动个体分割模块
该模块从交互个体分割和整体融合的角度出发,首先进行运动人体检测并进行分割,其中运动个体目标检测过程优选地可以采用HOG特征和SVM方法相结合的方法。在行人检测中,HOG特征计算的步骤,针对图像区域(检测窗口,通常采用64*128的窗口)图片:
a.将输入的彩图转换为灰度图;
b.采用Gamma校正法对输入图像进行颜色空间的标准化(归一化);
c.计算每个像素位置的梯度方向值,图像中像素点(x,y)的梯度是:
Gx(x,y)=H(x+1,y)-H(x-1,y) (1)
Gy(x,y)=H(x,y+1)-H(x,y-1) (2)
Figure BDA0001895067390000081
Figure BDA0001895067390000082
其中,H(x,y)表示输入图像中像素点(x,y)处的像素值,Gx(x,y)是图像像素点(x,y)处的水平梯度,Gy(x,y)是图像像素点(x,y)处的垂直梯度,G(x,y),α(x,y)分别是图像像素点(x,y)处的梯度幅值和方向;
d.为每个细胞单元(cell)构建梯度方向直方图。其中,细胞单元是由图像区域(检测窗口)分成的若干小的子区域,细胞单元由一些相邻的像素点组成;
e.把细胞单元组合成大的块(block),并且若干块(可能相互重叠)覆盖整个检测窗口,针对块进行块内归一化梯度直方图;
本领域技术人员明了,一个图像区域(检测窗口)被分成小的子区域(胞体,即细胞单元),若干个胞体组成一个块(block)。因此,一些相邻的像素组成胞体(细胞单元),一些胞体(细胞单元)组成块,并且若干块(可能相互重叠)覆盖整个图像窗口。
f.将检测窗口中所有重叠的块进行HOG特征的收集,特征向量供分类使用。在本领域中,根据目标检测任务的不同,确定图像检测窗口的大小和形状。这里在行人检测任务中,优选可采用64*128(像素个数)的窗口。
结合图2,在一个具体的实施方式中,运动个体分割模块流程如下:
人体检测过程之后,根据检测到的人体矩形框把一段交互运动视频分割成两段只含有单个人行为的运动视频。即把一组双人交互运动视频处理分割成两组只包含单个运动人体的个体左和个体右视频。
二、图像视频预处理模块
考虑到视频后续提取特征信息的需要,首先对视频序列进行预处理。在一个具体的实施方式中,本发明可以采用数据扩大、数据归一化处理的视频处理方式。其中数据扩大方式中,本发明对视频图像采取水平翻转,随机裁剪的方式来扩大数据。其中水平翻转是指以过图像中心的竖直轴为对称轴,将左、右两边像素交换,这样可以扩大一倍数据量。
数据归一化处理时,在一个具体的实施方式中,优选选用对所有训练视频图片采取去均值处理,以去除不同光照的影响。去均值方式如下:
Figure BDA0001895067390000091
xi:=xi-μ (6)
其中,每帧图片有n个像素,xi(i=1,2,…,n)是每帧图片的每一个像素大小。μ是每张图片的平均强度,针对每帧图片减去训练集中图片的平均强度μ。
三、神经网络特征提取模块
首先,作为一个优选的实现方式,选用迁移学习的思路。通过发现大数据模型和小数据问题之间的关联,把已经训练好的模型迁移过去,能够大大减少运算量。优选地,采用卷积神经网络来进行特征初步提取。通过迁移学习的方式提取出图像初步特征后,再送入后续的神经网络进行特征提取。
其次,优选地,在进行后续的交互运动特征提取时,采用改进的多层感知机的方式实现。多层感知机看做是一个有向图,它由多个节点层组成,每一层全连接到下一层。多层感知机主要由输入层,隐藏层和输出层组成,其中输入层接收输入数据,经过隐藏层转发,最后到达输出层。常规的多层感知机网络结构如图3所示。其每层由若干个神经元组成,从输入层到隐藏层,用xi(i=1,2,…,n)代表输入神经元,用h代表隐藏层,则隐藏层的第j(j=1,2,…,m)个输出神经元hj可以用:
Figure BDA0001895067390000101
其中,wji和bi是相应的权重和偏差,f是激活函数。从隐藏层到输出层,神经网络的输出y为:
Figure BDA0001895067390000102
在获得初步特征信息后,采用改进的MLP神经网络去学习特征的非线性关系。激活函数引入非线性关系,同时又可以缓解网络传播过程中容易产生梯度消失的情况。激活函数公式如下:
ReLU(x)=Max(x,0) (9)
在网络训练过程中,优选地,采用加入优化器动态调整学习率参数,所述优化器中动量直接并入梯度一阶矩(指数加权)的估计,并在所述优化器中加入偏置修正,以修正从原点初始化的一阶矩(动量项)和(非中心的)二阶矩估计。所述优化器的具体方法如下:
Figure BDA0001895067390000103
其中,mt与vt分别是一阶动量与二阶动量项,β1,β2为动量值大小通常取0.9和0.999,
Figure BDA0001895067390000111
与/>
Figure BDA0001895067390000112
分别是一阶动量与二阶动量项的修正值,Wt表示t时刻即第t次迭代模型的参数,gt=VJ(Wt)表示t次迭代代价函数关于W的梯度大小;ε是取值很小的数(一般是1e-8);η是学习率,决定了每一时刻的更新步长。
同时,对了防止过拟合的问题,在所述改进的MLP网络后续拟引入dropout层,有效减少神经元之间的共适应关系。在网络训练过程中,随机临时删掉网路中一部分的隐藏神经元。
四、人体交互行为识别模块
在一个优选的实施方式中,在进行交互行为特征的分类时,分类器为每个视频生成一个该类标签,对于训练集{(x(1),y(1)),...,(x(m),y(m))},有y(i)∈{1,2,3,...,k},共有k个分类,对于每个输入x都会有对应每个类的概率p(y=j|x),j=(1,2,…,k)。那么假设函数hθ(x)将要输出一个k维的向量(向量元素的和为1)来表示这k个估计的概率值,如下:
Figure BDA0001895067390000113
其中,
Figure BDA0001895067390000114
是模型的参数,/>
Figure BDA0001895067390000115
是θj的转置矩阵。
对于待处理的视频数据,我们有双人行为视频以及两个单人行为视频,因此经过采用上述网路训练后一组视频会有三个分类的结果。对于最终分类结果,优选地,将每组视频行为的三个分类结果进行概率加权融合得到最终的识别概率:
RFinal=RU×PU+RL×PL+RR×PR (12)
其中,RFinal是最后识别结果概率,RU是双人视频分类结果,RL是左侧行为人视频分类结果,RR是右侧行为执行人视频的分类结果。P为对应的分类结果相应的加权概率,即PU、PL、PR分别为对应的分类结果相应的加权概率。P值要根据后续反复实验比较得到。
另一方面,上述的模块化的实现方式,也可以是以一种系统的方式实现的,如下所述:
一种基于视频图像的人体交互行为识别系统,所述系统包括:
运动个体分割模块,用于将输入的人体视频分割为个体左运动视频、个体右运动视频,所述个体左运动视频和个体右运动视频分别是运动视频个体分割后左边运动人视频和右边运动执行人视频;
图像视频预处理模块,用于对所述人体视频及所述个体左运动视频、个体右运动视频进行预处理,所述预处理包括数据扩大及数据归一化,获得处理后视频数据;
神经网络特征提取模块,用于对所述处理后视频数据提取初步特征,将所述初步特征通过多层感知机建立所述初步特征的非线性关系;
人体交互行为识别模块,用于基于所述初步特征的非线性关系,采用分类器进行交互行为特征的分类。
优选地,所述图像视频预处理模块进一步包括:
数据扩大单元,通过对视频图像进行翻转,并进行随机裁剪,以扩大数据;
归一化单元,对扩大后的数据进行数据归一化,所述数据归一化通过如下方式:
Figure BDA0001895067390000121
xi:=xi
其中,每帧图片有n个像素,xi(i=1,2,…,n)是每帧图片的每一个像素大小,μ是每张图片的平均强度。
优选地,所述神经网络特征提取模块还包括优化器单元,所述优化器单元中的动量直接并入所述多层感知机梯度一阶矩的估计,并在所述优化器单元中加入偏置修正,以修正从原点初始化的一阶矩和二阶矩估计。
优选地,所述人体交互行为识别模块中,所述分类器采用概率加权融合得到识别概率:
RFinal=RU×PU+RL×PL+RR×PR
其中,RFinal是最后识别结果概率,RU是双人视频分类结果,RL是左侧行为人视频分类结果,RR是右侧行为执行人视频的分类结果,PU、PL、PR为对应的分类结果相应的加权概率。
优选地,所述优化器单元具体通过如下方式实现:
Figure BDA0001895067390000131
其中,mt与vt分别是一阶动量与二阶动量项,β1,β2为动量值大小,通常取0.9和0.999,
Figure BDA0001895067390000132
与/>
Figure BDA0001895067390000133
分别是一阶动量与二阶动量项的修正值,Wt表示t时刻即第t次迭代模型的参数,gt=VJ(Wt)表示t次迭代代价函数关于W的梯度大小;ε是取值很小的数(一般是1e-8);η是学习率,决定了每一时刻的更新步长。
优选地,在所述神经网络特征提取模块中,在多层感知机后续引入dropout层,有效减少神经元之间的共适应关系,其在网络训练过程中,随机临时删掉网路中一部分的隐藏神经元。
实施例2
在一个具体的实施例中,本发明的技术方案还可以通过如下的方式实现:
一种基于视频图像的人体交互行为识别方法,所述方法包括:
步骤1、将输入的人体视频分割为个体左运动视频、个体右运动视频,所述个体左运动视频和个体右运动视频分别是运动视频个体分割后左边运动人视频和右边运动执行人视频;
步骤2、对所述人体视频及所述个体左运动视频、个体右运动视频进行预处理,所述预处理包括数据扩大及数据归一化,获得处理后视频数据;
步骤3、对所述处理后视频数据提取初步特征,将所述初步特征通过多层感知机建立所述初步特征的非线性关系;
步骤4、基于所述初步特征的非线性关系,采用分类器进行交互行为特征的分类。
优选地,所述步骤1进一步包括:
步骤101、将输入图像转换为灰度图,并对所述灰度图进行颜色空间的标准化;
步骤102、计算每个像素位置的梯度方向值;
步骤103、为每个细胞单元构建梯度方向直方图,并将细胞单元组合成块,在块内归一化梯度直方图;
步骤104、将检测窗口中所有重叠的块进行HOG特征的收集。
优选地,所述步骤2中,所述数据扩大,采用如下方式:对视频图像进行翻转,并进行随机裁剪,以扩大数据;
所述数据归一化通过如下方式:
Figure BDA0001895067390000151
xi:=xi
其中,每帧图片有n个像素,xi(i=1,2,…,n)是每帧图片的每一个像素大小,μ是每张图片的平均强度,针对每帧图片减去训练集中图片的平均强度μ。
更为优选地,所述翻转采用水平翻转,所述水平翻转是指以过图像中心的竖直轴为对称轴,将左、右两边像素交换。
优选地,所述步骤3中,所述多层感知机的激活函数为:
ReLU(x)=Max(x,0);
所述多层感知机加入优化器,所述优化器中动量直接并入梯度一阶矩的估计,并在所述优化器中加入偏置修正,以修正从原点初始化的一阶矩和二阶矩估计。
优选地,所述优化器具体通过如下方式实现:
Figure BDA0001895067390000152
其中,mt与vt分别是一阶动量与二阶动量项,β1,β2为动量值大小,通常取0.9和0.999,
Figure BDA0001895067390000161
与/>
Figure BDA0001895067390000162
分别是一阶动量与二阶动量项的修正值,Wt表示t时刻即第t次迭代模型的参数,gt=VJ(Wt)表示t次迭代代价函数关于W的梯度大小;ε是取值很小的数(一般是1e-8);η是学习率,决定了每一时刻的更新步长。
优选地,在所述多层感知机后续引入dropout层,有效减少神经元之间的共适应关系。在网络训练过程中,随机临时删掉网路中一部分的隐藏神经元。
优选地,所述步骤4中,所述分类器采用概率加权融合得到识别概率:
RFinal=RU×PU+RL×PL+RR×PR
其中,RFinal是最后识别结果概率,RU是双人视频分类结果,RL是左侧行为人视频分类结果,RR是右侧行为执行人视频的分类结果,PU、PL、PR为对应的分类结果相应的加权概率。
需要指出的是,本实施例中的方法,可以通过如实施例1中的模块化的结构来实现。
实施例3
此外,本发明的技术方案还可以通过基于视频图像的人体交互行为识别装置,所述装置包括存储器,以及一处理器,所述处理器可以访问所述存储器,调用所述存储器中的指令,并执行所述指令,以执行如实施例2所述的人体交互行为识别方法,也可以包含如实施例1中的模块化的系统。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims (8)

1.一种基于视频图像的人体交互行为识别方法,其特征在于,所述方法包括:
步骤1、将输入的人体视频分割为个体左运动视频、个体右运动视频,所述个体左运动视频和个体右运动视频分别是运动视频个体分割后左边运动人视频和右边运动执行人视频;
步骤2、对所述人体视频及所述个体左运动视频、个体右运动视频进行预处理,所述预处理包括数据扩大及数据归一化,获得处理后视频数据;
步骤3、对所述处理后视频数据提取初步特征,将所述初步特征通过多层感知机建立所述初步特征的非线性关系;
步骤4、基于所述初步特征的非线性关系,采用分类器进行交互行为特征的分类;
所述步骤4中,所述分类器采用概率加权融合得到识别概率:
RFinal=RU×PU+RL×PL+RR×PR
其中,RFinal是最后识别结果概率,RU是双人视频分类结果,RL是个体左运动视频分类结果,RR是个体右运动视频的分类结果,PU、PL、PR为对应的分类结果相应的加权概率。
2.根据权利要求1所述的方法,其特征在于,所述步骤1进一步包括:
步骤101、将输入图像转换为灰度图,并对所述灰度图进行颜色空间的标准化;
步骤102、计算每个像素位置的梯度方向值;
步骤103、为每个细胞单元构建梯度方向直方图,并将细胞单元组合成块,在块内归一化梯度直方图;
步骤104、将检测窗口中所有重叠的块进行HOG特征的收集。
3.根据权利要求1所述的方法,其特征在于,所述步骤2中,所述数据扩大,采用如下方式:对视频图像进行翻转,并进行随机裁剪,以扩大数据;
所述数据归一化通过如下方式:
Figure FDA0004106579940000021
xi:=xi
其中,每帧图片有n个像素,xi是每帧图片的每一个像素大小,i=1,2,…,n,μ是每张图片的平均强度。
4.根据权利要求1所述的方法,其特征在于,所述步骤3中,所述多层感知机的激活函数为:
ReLU(x)=Max(x,0);
所述多层感知机加入优化器,所述优化器中动量直接并入梯度一阶矩的估计,并在所述优化器中加入偏置修正,以修正从原点初始化的一阶矩和二阶矩估计。
5.一种基于视频图像的人体交互行为识别系统,其特征在于,所述系统包括:
运动个体分割模块,用于将输入的人体视频分割为个体左运动视频、个体右运动视频,所述个体左运动视频和个体右运动视频分别是运动视频个体分割后左边运动人视频和右边运动执行人视频;
图像视频预处理模块,用于对所述人体视频及所述个体左运动视频、个体右运动视频进行预处理,所述预处理包括数据扩大及数据归一化,获得处理后视频数据;
神经网络特征提取模块,用于对所述处理后视频数据提取初步特征,将所述初步特征通过多层感知机建立所述初步特征的非线性关系;
人体交互行为识别模块,用于基于所述初步特征的非线性关系,采用分类器进行交互行为特征的分类;
所述人体交互行为识别模块中,所述分类器采用概率加权融合得到识别概率:
RFinal=RU×PU+RL×PL+RR×PR
其中,RFinal是最后识别结果概率,RU是双人视频分类结果,RL是个体左运动视频分类结果,RR是个体右运动视频的分类结果,PU、PL、PR为对应的分类结果相应的加权概率。
6.根据权利要求5所述的系统,其特征在于,所述图像视频预处理模块进一步包括:
数据扩大单元,通过对视频图像进行翻转,并进行随机裁剪,以扩大数据;
归一化单元,对扩大后的数据进行数据归一化,所述数据归一化通过如下方式:
Figure FDA0004106579940000041
xi:=xi
其中,每帧图片有n个像素,xi是每帧图片的每一个像素大小,i=1,2,…,n,μ是每张图片的平均强度。
7.根据权利要求5所述的系统,其特征在于,所述神经网络特征提取模块还包括优化器单元,所述优化器单元中的动量直接并入所述多层感知机梯度一阶矩的估计,并在所述优化器单元中加入偏置修正,以修正从原点初始化的一阶矩和二阶矩估计。
8.一种基于视频图像的人体交互行为识别装置,其特征在于,所述装置包括存储器,以及一处理器,所述处理器可以访问所述存储器,调用所述存储器中的指令,并执行所述指令,以执行如权利要求1-4任一所述的人体交互行为识别方法。
CN201811488237.3A 2018-12-06 2018-12-06 一种基于视频图像的人体交互行为识别方法、系统及装置 Active CN111160078B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811488237.3A CN111160078B (zh) 2018-12-06 2018-12-06 一种基于视频图像的人体交互行为识别方法、系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811488237.3A CN111160078B (zh) 2018-12-06 2018-12-06 一种基于视频图像的人体交互行为识别方法、系统及装置

Publications (2)

Publication Number Publication Date
CN111160078A CN111160078A (zh) 2020-05-15
CN111160078B true CN111160078B (zh) 2023-06-23

Family

ID=70555206

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811488237.3A Active CN111160078B (zh) 2018-12-06 2018-12-06 一种基于视频图像的人体交互行为识别方法、系统及装置

Country Status (1)

Country Link
CN (1) CN111160078B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115862152B (zh) * 2023-02-17 2023-05-05 山西清众科技股份有限公司 基于多层感知机的轻量化人体骨骼交互行为推理网络结构

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011186576A (ja) * 2010-03-05 2011-09-22 Nec Corp 動作認識装置
CN106022251A (zh) * 2016-05-17 2016-10-12 沈阳航空航天大学 基于视觉共生矩阵序列的异常双人交互行为识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011186576A (ja) * 2010-03-05 2011-09-22 Nec Corp 動作認識装置
CN106022251A (zh) * 2016-05-17 2016-10-12 沈阳航空航天大学 基于视觉共生矩阵序列的异常双人交互行为识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Nijun Li等.Recognizing human interactions by genetic algorithm-based random forest spatio-temporal correlation.INDUSTRIAL AND COMMERCIAL APPLICATION.2015,全文. *
Ping Guo等.Coupled Observation Decomposed Hidden Markov Model for Multiperson Activity Recognition.IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY.2012,第22卷(第22期),全文. *
Sonia Sehgal.Human Activity Recognition Using BPNN Classifier On HOG Features.2018 international conference on intelligent circuits and systems.2018,全文. *
黄菲菲 等.基于多通道信息融合的双人交互动作识别算法.计算机技术与发展.2016,第26卷(第26期),全文. *

Also Published As

Publication number Publication date
CN111160078A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
US11055854B2 (en) Method and system for real-time target tracking based on deep learning
JP6557783B2 (ja) オブジェクト検出のためのスケール依存プーリングによるカスケード型ニューラルネットワーク
Le et al. Tiny imagenet visual recognition challenge
Bodapati et al. Feature extraction and classification using deep convolutional neural networks
US20180114071A1 (en) Method for analysing media content
Liew et al. Gender classification: a convolutional neural network approach
AlDahoul et al. Real-time human detection for aerial captured video sequences via deep models
Wang et al. A vehicle detection algorithm based on deep belief network
CN108416780A (zh) 一种基于孪生-感兴趣区域池化模型的物体检测与匹配方法
CN111428664A (zh) 一种基于人工智能深度学习技术的计算机视觉的实时多人姿态估计方法
Yang et al. Counting crowds using a scale-distribution-aware network and adaptive human-shaped kernel
Panda et al. Encoder and decoder network with ResNet-50 and global average feature pooling for local change detection
Cao et al. Learning spatial-temporal representation for smoke vehicle detection
CN113205002A (zh) 非受限视频监控的低清人脸识别方法、装置、设备及介质
Lee et al. Face and facial expressions recognition system for blind people using ResNet50 architecture and CNN
Li et al. Pedestrian detection based on light perception fusion of visible and thermal images
Begampure et al. Intelligent video analytics for human action detection: a deep learning approach with transfer learning
Quiroga et al. A study of convolutional architectures for handshape recognition applied to sign language
CN111144220B (zh) 适于大数据的人员检测方法、装置、设备和介质
CN111160078B (zh) 一种基于视频图像的人体交互行为识别方法、系统及装置
Cai et al. Vehicle detection based on visual saliency and deep sparse convolution hierarchical model
eddine Agab et al. Dynamic hand gesture recognition based on textural features
Raju et al. Convolutional neural network demystified for a comprehensive learning with industrial application
Esan et al. Surveillance detection of anomalous activities with optimized deep learning technique in crowded scenes
Labeni et al. Objects counting in videos via deep learning and image processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant