CN107203753B - 一种基于模糊神经网络和图模型推理的动作识别方法 - Google Patents
一种基于模糊神经网络和图模型推理的动作识别方法 Download PDFInfo
- Publication number
- CN107203753B CN107203753B CN201710377372.XA CN201710377372A CN107203753B CN 107203753 B CN107203753 B CN 107203753B CN 201710377372 A CN201710377372 A CN 201710377372A CN 107203753 B CN107203753 B CN 107203753B
- Authority
- CN
- China
- Prior art keywords
- motion
- fuzzy
- neural network
- graph model
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000009471 action Effects 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 30
- 230000033001 locomotion Effects 0.000 claims abstract description 84
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000004364 calculation method Methods 0.000 claims abstract description 17
- 238000000605 extraction Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000003062 neural network model Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 238000012937 correction Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 5
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000003702 image correction Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000009877 rendering Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Medicines Containing Antibodies Or Antigens For Use As Internal Diagnostic Agents (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了的一种基于模糊神经网络和图模型推理的人体运动识别方法具体按照以下步骤实施:步骤1:使用Kinect设备拍摄单目及深度视频,构建人体运动视频序列数据库;步骤2:提取视频Vi的每帧图像,通过人体骨架提取法获得运动骨架;步骤3:对应的代表性帧图像组成人体运动代表帧图像数据库DRF={RFi};步骤4:基于所有获得的运动姿势关键帧骨架特征训练数据的分类;步骤5:构建一个基于概率图模型的模糊神经网络系统进行运动语义推理,来识别由每个代表帧确定的身体姿态语义;步骤6:基于步骤5中构建的FNNGM图模型结构,对动作语义序列进行分类。本发明克服了现有方法较高的计算成本,运动捕获数据较低的应用效率的问题。
Description
技术领域
本发明属于人体运动识别技术领域,具体涉及一种基于模糊神经网络和图模型推理的动作识别方法。
背景技术
近年来,人体动作识别已经成为计算机视觉领域的核心问题。从早期受限条件下简单的动作识别发展到对真实自然场景下复杂动作的识别;从对单人动作的识别到对交互动作甚至是大规模群体动作识别。由于人体运动的复杂性和不确定性,动作识别仍然是一个非常具有挑战性的课题。许多动作识别方法侧重于设计有效的描述符或特征,通过特征匹配进行分类。以往的动作识别主要包含两个类别:特征表示和动作分类。特征表示始终是动作识别的关键任务。一般而言,动作序列特征表示通常分为全局表示和局部表示。全局特征记录总图像呈现,然而,全局特征经常受到遮挡、视点变化和噪声的干扰。基于全局的特征包括基于光流的呈现、基于剪影的描述符、基于边缘的特征和运动历史图像等。局部特征总是独立地描述补丁,并将补丁组合在一起构建时空模型。局部描述符可以更有效地呈现动作视频,尤其是对于噪声图像和部分遮挡图像的呈现。
发明内容
本发明的目的是提供一种基于模糊神经网络和图模型推理的动作识别方法,克服了现有方法较高的计算成本,运动捕获数据较低的应用效率和对紧密匹配的运动的检索不能区分到位的问题。
本发明采用的技术方案是,一种基于模糊神经网络和图模型推理的动作识别方法,具体按照以下步骤实施:
步骤1:使用Kinect设备拍摄单目及深度视频,拍摄速度为30帧每秒,构建有N个类别的人体运动视频序列数据库Dvideo=(V1,V2,...,Vi,...,VN);
步骤2:提取视频Vi的每帧图像,得到帧图像Fi=(fi1,...,fin),其中n表示视频Vi的帧数,对fij进行预处理,通过背景差分和肤色模型获取出fij中运动轮廓,通过人体骨架提取法获得运动骨架;
步骤3:基于获得的帧图像Fi=(fi1,...,fin)聚类获取运动序列代表性的帧RFi=(rfi1,…,rfic);所有视频运动类别所对应的代表性帧图像组成人体运动代表帧图像数据库DRF={RFi},i=1,…,p,p代表数据库总运动序列数;
步骤4:基于所有获得的运动姿势关键帧骨架特征训练数据的分类,首先建立动作语义集S={S1,…,Sω},其中ω是通过聚类后动作语义分类的个数;然后基于关键帧运动骨架特征聚类以形成相似的运动集合G={G1,…,Gq},其中q是聚类组的个数;
步骤5:构建一个基于概率图模型的模糊神经网络系统进行运动语义推理,来识别由每个代表帧确定的身体姿态语义,使用概率图推理来分类动作语义序列;首先训练设计的FNN作为人体姿势分类器;其次,在训练完成的FNN基础上构建图模型;
步骤6:基于步骤5中构建的FNNGM图模型结构,进行图模型推理,对动作语义序列进行分类;将{rf1:k}作为一个测量的图模型;系统状态序列为S={s1:k}和G={g1:k},基于图模型推理的对动作识别进行描述。
本发明的特点还在于,
步骤2具体按照以下步骤实施:
(21)使用Kinect获取人体运动的RGB彩色与深度图像,去除RGB彩色与深度图像噪声,并对其进行图像校正处理;
(22)根据彩色图像背景的复杂程度采用不同方法去除背景,获得前景彩色图像;
(23)基于前景彩色图像且依据肤色模型对脸部及手部进行定位并将脸部及手部定位质心作为初始获取的关节点;
(24)基于学习得到的贝叶斯分类器对彩色图像前景中的运动人体进行部件分类识别;
(25)依据分类识别结果判定肢体各刚体结构部位类别,再根据各刚体部件的链接关系确定出各关节点,依次联接各关节点形成平面人体骨架结合各个关节点深度数据将平面骨架变换成三维立体骨架。
步骤3具体按照以下步骤实施:
(31)给定运动序列Fi,使用模糊C均值FCM聚类方法生成代表帧RFi;
(32)使用四元数来呈现身体姿态,计算两帧间距离;设fi为第i帧中的运动描述符,f1和f2之间的距离计算为:
d(f1,f2)=(f1-f2)(f1-f2)T
使用聚类方法来生成c个聚类中心,选择距离聚类中心最短距离的一些帧作为代表帧,代表帧可表示为RFi={rfk}k=1:c,其中rfk对应于第k个聚类中心。
步骤4具体按照以下步骤实施:
(41)从获取的所有运动代表帧中任意选择q个关键帧骨架运动特征作为初始聚类中心;
(42)根据每个聚类对象的均值,计算任意一个关键帧rfi与聚类中心rfk的距离d(rfi,rfk),rfk代表第k个聚类中心,其欧氏距离为:
(43)重新计算每个聚类的均值,按照运动特征数据点到新质心的距离对数据进行分组,并计算每组的均值作为新质心;当均值与原质心相等,也就是说新质心与原质心相等时算法停止计算,如果条件不满足d(rfi,rfk)<ε,则返回(42),重复执行。
步骤5具体按照以下步骤实施:
(51)训练设计的FNN作为人体姿势分类器,使用数据(rfi,Gj),i=1...n,j=1...p对FNN进行训练;
(52)在训练完成的FNN基础上构建图模型,具体分析过程如下:
FNNGM的参数定义为l=(PS,AS,BG,Brf),其中PS=[pi]1′w是先验概率矩阵,w是动作语义的数量,AS=[aij]w′w是语义状态转换矩阵,是手势观察矩阵,是RF观察矩阵,此外,所有矩阵的元素定义为:
其中S={S1,...,Sw}和G={G1,...,Gp}分别是动作语义集和相似姿态集合;
估计FNNGM的初始参数如下:基于S和G中的rfi数量,计算图形模型参数:
首先,先验概率的计算为:
其次,估计语义交易可能性aij为:
其中,表示训练数据从rft到rft+1相邻链接的数目,其中rft∈Si,rft+1∈Sj;表示训练数据中从rft到rft+1的邻接链路的数量,其中,rft∈Si,rft+1∈Sj,S为所有可能的语义;
步骤(51)具体按照以下步骤实施:
(511)构建一个模糊神经网络模型,模糊系统使用的规则如下:
同时,输出yi计算为:
(512)所述(511)构建的模糊神经网络模型分为四层:输入层、模糊层、模糊规则层和输出层;在输入层中没有计算操作,在模糊层使用公式(1)计算模糊隶属度,然后根据公式(2)得到规则推理结果,最终通过公式(3)计算输出,得到语义分类结果;
(513)使用数据(rfi,Gj),i=1...n,j=1...p对模糊神经网络FNN进行训练,步骤如下:
a.误差计算
其中yd是期望输出,yc是实际输出,e=yd-yc,e是期望输出与实际输出之间的误差;
b.系数修正
c.参数修正
步骤6具体按照以下步骤实施:
(61)给定检测量{rf1:k},以更新隐藏状态信号S={s1:k}和g={h1:k},根据贝叶斯规则,计算P(s1):
将s0和P(s1|s0)设置为初始系统输入,根据公式(8),(9),(11)得到P(s1);
(62)预测C使用检测量更新为:
保证a输出结果在区间[0,1]中,此外,通过测量结果,滤波方程可以重新写为:
基于滤波方程公式(13),进一步得到最大可能状态路径:
本发明的有益效果是,本发明提出的方法分为两个阶段:系统学习和动作识别。在系统学习阶段,首先,提取运动数据集中动作的帧图像;其次,使用模糊C均值聚类算法对帧图像进行聚类获取运动的代表帧;设计一个模糊神经网络分类器来识别代表帧的运动姿态,代表帧的标记的姿态特征数据集被用作教师信号来训练模糊神经网络;最后,使用模糊神经网络图模型的概率图模型对代表帧序列进行分类。本发明的图模型是基于隐马尔可夫模型和模糊神经网络的组合。在动作识别阶段,自动提取待识别动作的代表帧特征,然后使用FNNGM即模糊神经网络和图模型推理算法得到动作语义分类结果。本发明提出的方法能够更加准确、容易的进行动作识别。将本发明提出的算法与现有模型进行比较,验证该算法检索结果具有良好的精确性和有效性。
附图说明
图1是本发明的总体流程图;
图2为本发明步骤4的动作语义集和相似姿态集合的构建;
图3为本发明步骤(51)的用于识别的神经网络;
图4为本发明步骤(52)所构建的FNNGM模型。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明中相关技术介绍如下:
(1)基于肤色模型手势分割技术:肤色为脸和双手区别于周围环境的最明显和简单的特征,所以通过确定准确的肤色区域阈值条件,就可以定位出人脸和双手区域。拍摄视频的图像颜色空间为RGB颜色空间,但在RGB空间人体的肤色受亮度影响相当大,使得肤色点很难从非肤色点中分离出来,同时,每个人的肤色,尤其是不同种族人的肤色都很不同,其主要是由于饱和度与亮度不同而造成的,而肤色在色度上的差异并不大。在色度空间中,HSV色彩空间采用色调H、饱和度S和亮度V三个维度来表示颜色,成功的将三个变量分别开来,所以使用H的阈值用来区分出肤色。YCbCr颜色空间将颜色的亮度用Y分量区分出来,Cb和Cr分别表示蓝色和红色的浓度偏移量成份,所以附加上Cb和Cr的阈值条件共同实现肤色分割。
(2)模糊C均值聚类算法(FCM):在众多模糊聚类算法中,模糊C均值(FCM)算法应用最广泛且较成功,它通过优化目标函数得到每个样本点对所有类中心的隶属度,从而决定样本点的类属以达到自动对样本数据进行分类的目的。
(3)模糊神经网络(FNN):模糊神经网络就是具有模糊权系数或者输入信号是模糊量的神经网络。是模糊理论同神经网络相结合的产物,它汇集了神经网络与模糊理论的优点,集学习、联想、识别、信息处理于一体。
(4)四元数:四元数是由爱尔兰数学家威廉·卢云·哈密顿在1843年发现的数学概念。明确地说,四元数是复数的不可交换延伸。如把四元数的集合考虑成多维实数空间的话,四元数就代表着一个四维空间,相对于复数为二维空间。四元数都是由实数加上三个元素i、j、k组成,而且它们有如下的关系:q=xi+yj+zk+w其中满足i2=j2=k2=-1。
(5)Baum-Welch算法:Baum-Welch算法是一种对HMM模型做参数估计的方法,是EM算法的一个特例。EM算法包含两步:(1)expectation,计算隐变量的概率分布,并得到可观察变量与隐变量联合概率的log-likelihood在前面求得的隐变量概率分布下的期望。(2)maximization,求得使上述期望最大的新的模型参数。若达到收敛条件则退出,否则回到步骤(1)。
本发明方法如图1所示,具体按照以下步骤实施:
步骤1:使用Kinect设备拍摄单目及深度视频,拍摄速度为30帧每秒,构建有N个类别的人体运动视频序列数据库Dvideo=(V1,V2,...,Vi,...,VN);
步骤2:提取视频Vi的每帧图像,得到帧图像Fi=(fi1,...,fin),其中n表示视频Vi的帧数,对fij进行预处理,通过背景差分和肤色模型获取出fij中运动轮廓,通过人体骨架提取法获得运动骨架;
步骤2具体按照以下步骤实施:
(21)使用Kinect获取人体运动的RGB彩色与深度图像,去除RGB彩色与深度图像噪声,并对其进行图像校正处理;
(22)根据彩色图像背景的复杂程度采用不同方法去除背景,获得前景彩色图像;
(23)基于前景彩色图像且依据肤色模型对脸部及手部进行定位并将脸部及手部定位质心作为初始获取的关节点;
(24)基于学习得到的贝叶斯分类器对彩色图像前景中的运动人体进行部件分类识别;
(25)依据分类识别结果判定肢体各刚体结构部位类别,再根据各刚体部件的链接关系确定出各关节点,依次联接各关节点形成平面人体骨架结合各个关节点深度数据将平面骨架变换成三维立体骨架。
步骤3:基于获得的帧图像Fi=(fi1,...,fin)聚类获取运动序列代表性的帧RFi=(rfi1,…,rfic);所有视频运动类别所对应的代表性帧图像组成人体运动代表帧图像数据库DRF={RFi},i=1,…,p,p代表数据库总运动序列数;
步骤3具体按照以下步骤实施:
(31)给定运动序列Fi,使用模糊C均值FCM聚类方法生成代表帧RFi;
(32)使用四元数来呈现身体姿态,计算两帧间距离;设fi为第i帧中的运动描述符,f1和f2之间的距离计算为:
d(f1,f2)=(f1-f2)(f1-f2)T
使用聚类方法来生成c个聚类中心,选择距离聚类中心最短距离的一些帧作为代表帧,代表帧可表示为RFi={rfk}k=1:c,其中rfk对应于第k个聚类中心。
在步骤(32)中,人体运动捕获数据看作是由离散的时间点采样得到的人体运动姿态序列{x1,…,xn},每个采样点看作是一帧,其中每一帧姿态由所有关节点转角信息共同决定,所以,任意时刻,人体运动的姿态都可以表示为一个四元数矢量:q=xi+yj+zk+w(其中满足i2=j2=k2=-1,w是实数;使用n维四元数矢量来描述身体运动姿态,本发明在骨架中使用26个关节点状态信息来呈现一个身体动作,每一个关节点采用四元数来描述,其中n=26×4=104,因此得到104维四元数描述符特征向量,则任意一个关键帧可表示为:rfi=(a1,…,a104)。
步骤4:如图2所示,基于所有获得的运动姿势关键帧骨架特征训练数据的分类,首先建立动作语义集S={S1,…,Sω},其中ω是通过聚类后动作语义分类的个数;然后基于关键帧运动骨架特征聚类以形成相似的运动集合G={G1,…,Gq},其中q是聚类组的个数;
步骤4具体按照以下步骤实施:
(41)从获取的所有运动代表帧中任意选择q个关键帧骨架运动特征作为初始聚类中心;
(42)根据每个聚类对象的均值,计算任意一个关键帧rfi与聚类中心rfk的距离d(rfi,rfk),rfk代表第k个聚类中心,其欧氏距离为:
(43)重新计算每个聚类的均值,按照运动特征数据点到新质心的距离对数据进行分组,并计算每组的均值作为新质心;当均值与原质心相等,也就是说新质心与原质心相等时算法停止计算,如果条件不满足d(rfi,rfk)<ε,则返回(42),重复执行。
步骤5:构建一个基于概率图模型的模糊神经网络系统进行运动语义推理,来识别由每个代表帧确定的身体姿态语义,使用概率图推理来分类动作语义序列;首先训练设计的FNN作为人体姿势分类器;其次,在训练完成的FNN基础上构建图模型;
步骤5具体按照以下步骤实施:
(51)如图3所示,训练设计的FNN作为人体姿势分类器,使用数据(rfi,Gj),i=1...n,j=1...p对FNN进行训练;
(511)构建一个模糊神经网络模型,模糊系统使用的规则如下:
同时,输出yi计算为:
(512)所述(511)构建的模糊神经网络模型分为四层:输入层、模糊层、模糊规则层和输出层;在输入层中没有计算操作,在模糊层使用公式(1)计算模糊隶属度,然后根据公式(2)得到规则推理结果,最终通过公式(3)计算输出,得到语义分类结果;
(513)使用数据(rfi,Gj),i=1...n,j=1...p对模糊神经网络FNN进行训练,步骤如下:
a.误差计算
其中yd是期望输出,yc是实际输出,e=yd-yc,e是期望输出与实际输出之间的误差;
b.系数修正
c.参数修正
(52)如图4所示,在训练完成的FNN基础上构建图模型,具体分析过程如下:
在模糊神经网络模型对每个代表帧确定的身体语义姿态进行识别之后,使用概率图推理对动作语义序列进行分类。首先要构建一个图模型结构,本发明中构建的FNNGM模型图包括三层:测量信号层、运动姿势层和动作语义层。最低层是测量信号层,从最低层输入代表帧序列(rf1,...,rfk)。中间层是运动姿势层,在这一层呈现由FNN推断的离散姿态状态信号(g1,...gk)。最高层是动作语义层,根据中间层和最低层的信息,在该层中计算最终动作语义(s1,...,sk)。
FNNGM的参数定义为l=(PS,AS,BG,Brf),其中PS=[pi]1′w是先验概率矩阵,w是动作语义的数量,AS=[aij]w′w是语义状态转换矩阵,是手势观察矩阵,是RF观察矩阵,此外,所有矩阵的元素定义为:
其中S={S1,...,Sw}和G={G1,...,Gp}分别是动作语义集和相似姿态集合;
估计FNNGM的初始参数如下:基于S和G中的rfi数量,计算图形模型参数:
首先,先验概率的计算为:
其次,估计语义交易可能性aij为:
其中,表示训练数据从rft到rft+1相邻链接的数目,其中rft∈Si,rft+1∈Sj;表示训练数据中从rft到rft+1的邻接链路的数量,其中,rft∈Si,rft+1∈Sj,S为所有可能的语义;
基于初始参数估计,进一步使用Baum-Welch算法优化参数,对数似然值对应于参数学习的全局收敛性能,当对数似然值变得稳定时,意味着参数收敛到最优值。
步骤6:基于步骤5中构建的FNNGM图模型结构,进行图模型推理,对动作语义序列进行分类;将{rf1:k}作为一个测量的图模型;系统状态序列为S={s1:k}和G={g1:k},基于图模型推理的对动作识别进行描述;
步骤6具体按照以下步骤实施:
(61)给定检测量{rf1:k},以更新隐藏状态信号S={s1:k}和g={h1:k},根据贝叶斯规则,计算P(s1):
将s0和P(s1|s0)设置为初始系统输入,根据公式(8),(9),(11)得到P(s1);
(62)预测C使用检测量更新为:
保证a输出结果在区间[0,1]中,此外,通过测量结果,滤波方程可以重新写为:
基于滤波方程公式(13),进一步得到最大可能状态路径:
另外,使用FNNGM进行动作识别的算法如下:
输入:待识别动作
输出:识别结果:s*1:k;
1.获取训练动作数据集中的所有代表帧;
2.使用FCM自动提取代表帧特征;
3.获取动作语义集合S={S1,...,Sw},相似姿势集合G={G1,...,Gp}。
4.基于代表帧特征数据集,构建FNNGM模型;
5.基于集合S和G,根据公式7-10获取FNNGM的参数:λ={
πS,AS,BG,Brf},并使用Baum-Welch算法优化参数;
6.输入待识别动作,使用FCM提取代表帧{rf1:k};
7.设定先验分布:P(s0);
8.for t=1:k
9.根据贝叶斯规则,使用公式11计算P(st);
10.根据方程12计算P(st|gt),P(st|rft);
11.根据方程13计算P(st|g1:t,rf1:t);
12.根据方程14计算maxsP(s1:t|g1:t,rf1:t);
13.end for
14.输出最大概率序列作为识别结果:s*1:k=argmaxs P(s1:t|g1:t,rf1:t)。
Claims (6)
1.一种基于模糊神经网络和图模型推理的动作识别方法,其特征在于,具体按照以下步骤实施:
步骤1:使用Kinect设备拍摄单目及深度视频,拍摄速度为30帧每秒,构建有N个类别的人体运动视频序列数据库Dvideo=(V1,V2,...,Vi,...,VN);
步骤2:提取视频Vi的每帧图像,得到帧图像Fi=(fi1,...,fin),其中n表示视频Vi的帧数,对fij进行预处理,通过背景差分和肤色模型获取出fij中运动轮廓,通过人体骨架提取法获得运动骨架;
步骤3:基于获得的帧图像Fi=(fi1,...,fin)聚类获取运动序列代表性的帧RFi={rfk}k=1:c;所有视频运动类别所对应的代表性帧图像组成人体运动代表帧图像数据库DRF={RFi},i=1,…,p,p代表数据库总运动序列数;
步骤4:基于所有获得的人体运动序列代表帧的骨架特征训练数据的分类,首先建立动作语义集S={S1,…,Sω},其中ω是通过聚类后动作语义分类的个数;然后基于关键帧运动骨架特征聚类以形成相似的运动集合G={G1,…,Gq},其中q是聚类组的个数;
步骤5:构建一个基于概率图模型的模糊神经网络系统进行运动语义推理,来识别由每个代表帧确定的动作语义,使用概率图推理来分类动作语义序列;首先训练设计的FNN作为人体姿势分类器;其次,在训练完成的FNN基础上构建图模型;
步骤6:基于步骤5中构建的FNNGM图模型结构,进行图模型推理,对动作语义序列进行分类;将RFi={rfk}k=1:c作为一个测量的图模型;系统状态序列为S={s1:k}和G={g1:k},基于图模型推理的对动作识别进行描述。
2.根据权利要求1所述的一种基于模糊神经网络和图模型推理的动作识别方法,其特征在于,所述的步骤2具体按照以下步骤实施:
(21)使用Kinect获取人体运动的RGB彩色与深度图像,去除RGB彩色与深度图像噪声,并对其进行图像校正处理;
(22)根据彩色图像背景的复杂程度采用不同方法去除背景,获得前景彩色图像;
(23)基于前景彩色图像且依据肤色模型对脸部及手部进行定位并将脸部及手部定位质心作为初始获取的关节点;
(24)基于学习得到的贝叶斯分类器对彩色图像前景中的运动人体进行部件分类识别;
(25)依据分类识别结果判定肢体各刚体结构部位类别,再根据各刚体部件的连接关系确定出各关节点,依次连接各关节点形成平面人体骨架结合各个关节点深度数据将平面骨架变换成三维立体骨架。
3.根据权利要求1所述的一种基于模糊神经网络和图模型推理的动作识别方法,其特征在于,所述的步骤3具体按照以下步骤实施:
(31)给定运动序列Fi,使用模糊C均值FCM聚类方法生成代表帧RFi;
(32)使用四元数来呈现身体姿态,计算两帧间距离;设fi为第i帧中的运动描述符,f1和f2之间的距离计算为:
d(f1,f2)=(f1-f2)(f1-f2)T
使用聚类方法来生成c个聚类中心,选择距离聚类中心最短距离的一些帧作为代表帧,代表帧可表示为RFi={rfk}k=1:c,其中rfk对应于第k个聚类中心。
4.根据权利要求1所述的一种基于模糊神经网络和图模型推理的动作识别方法,其特征在于,所陈述的步骤5具体按照以下步骤实施:
(51)训练设计的FNN作为人体姿势分类器,使用数据(rfk,Gj),k=1...c,j=1...q对FNN进行训练;
(52)在训练完成的FNN基础上构建图模型,具体分析过程如下:
FNNGM的参数定义为λ=(∏S,AS,BG,Brf),其中∏S=[πi]1×ω是先验概率矩阵,ω是动作语义的数量,AS=[aij]ω×ω是语义状态转换矩阵,是手势观察矩阵,是RF观察矩阵,此外,所有矩阵的元素定义为:
其中S={S1,...,Sw}和G={G1,…,Gq}分别是动作语义集和相似的运动集合;
估计FNNGM的初始参数如下:基于S和G中的rfk数量,计算图形模型参数:
首先,先验概率的计算为:
其次,估计语义交易可能性aij为:
其中,表示训练数据从rft到rft+1相邻连接的数目,其中rft∈Si,rft+1∈Sj;表示训练数据中从rft到rft+1的邻接链路的数量,其中,rft∈Si,rft+1∈Sj,S为所有可能的语义;
5.根据权利要求4所述的一种基于模糊神经网络和图模型推理的动作识别方法,其特征在于,所述的步骤(51)具体按照以下步骤实施:
(511)构建一个模糊神经网络模型,模糊系统使用的规则如下:
同时,输出yi1计算为:
(512)所述(511)构建的模糊神经网络模型分为四层:输入层、模糊层、模糊规则层和输出层;在输入层中没有计算操作,在模糊层使用公式(1)计算模糊隶属度,然后根据公式(2)得到规则推理结果,最终通过公式(3)计算输出,得到语义分类结果;
(513)使用数据(rfk,Gj),k=1...c,j=1...q对模糊神经网络FNN进行训练,步骤如下:
a.误差计算
其中yd是期望输出,yc是实际输出,e=yd-yc,e是期望输出与实际输出之间的误差;
b.系数修正
c.参数修正
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710377372.XA CN107203753B (zh) | 2017-05-25 | 2017-05-25 | 一种基于模糊神经网络和图模型推理的动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710377372.XA CN107203753B (zh) | 2017-05-25 | 2017-05-25 | 一种基于模糊神经网络和图模型推理的动作识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107203753A CN107203753A (zh) | 2017-09-26 |
CN107203753B true CN107203753B (zh) | 2020-09-08 |
Family
ID=59906051
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710377372.XA Expired - Fee Related CN107203753B (zh) | 2017-05-25 | 2017-05-25 | 一种基于模糊神经网络和图模型推理的动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107203753B (zh) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10929987B2 (en) | 2017-08-16 | 2021-02-23 | Nvidia Corporation | Learning rigidity of dynamic scenes for three-dimensional scene flow estimation |
CN109670520B (zh) * | 2017-10-13 | 2021-04-09 | 杭州海康威视数字技术股份有限公司 | 一种目标姿态识别方法、装置及电子设备 |
CN109697511B (zh) * | 2017-10-24 | 2022-04-05 | 华为技术有限公司 | 数据推理方法、装置及计算机设备 |
CN107894834B (zh) * | 2017-11-09 | 2021-04-02 | 上海交通大学 | 增强现实环境下控制手势识别方法与系统 |
CN107749950A (zh) * | 2017-11-09 | 2018-03-02 | 睿魔智能科技(东莞)有限公司 | 一种基于深度学习的拍摄方法和系统 |
CN107944431B (zh) * | 2017-12-19 | 2019-04-26 | 天津天远天合科技有限公司 | 一种基于运动变化的智能识别方法 |
WO2019126908A1 (zh) * | 2017-12-25 | 2019-07-04 | 深圳市大疆创新科技有限公司 | 图像数据处理方法、装置及设备 |
CN108197589B (zh) * | 2018-01-19 | 2019-05-31 | 北京儒博科技有限公司 | 动态人体姿态的语义理解方法、装置、设备和存储介质 |
EP3528167A1 (en) * | 2018-02-19 | 2019-08-21 | Braun GmbH | Apparatus and method for performing a localization of a movable treatment device |
ES2965232T3 (es) * | 2018-02-19 | 2024-04-11 | Braun Gmbh | Aparato y método para clasificar un movimiento de un dispositivo personal móvil |
JP7221291B2 (ja) | 2018-02-19 | 2023-02-13 | ブラウン ゲーエムベーハー | 可動式処置デバイスの位置特定を実施するための装置及び方法 |
EP3743853A1 (en) * | 2018-05-09 | 2020-12-02 | Deepmind Technologies Limited | Performing navigation tasks using grid codes |
CN108647663B (zh) * | 2018-05-17 | 2021-08-06 | 西安电子科技大学 | 基于深度学习和多层次图结构模型的人体姿态估计方法 |
CN108830246B (zh) * | 2018-06-25 | 2022-02-15 | 中南大学 | 一种交通环境行人多维运动特征视觉提取方法 |
CN109011506B (zh) * | 2018-07-12 | 2020-09-15 | 深圳市虚数科技有限公司 | 一种训练动作识别方法 |
CN109409209A (zh) * | 2018-09-11 | 2019-03-01 | 广州杰赛科技股份有限公司 | 一种人体行为识别方法与装置 |
EP3834138B1 (en) * | 2018-09-27 | 2024-06-26 | DeepMind Technologies Limited | Reinforcement learning neural networks grounded in learned visual entities |
CN109544606B (zh) * | 2018-11-02 | 2022-02-15 | 山东大学 | 基于多个Kinect的快速自动配准方法及系统 |
CN109409438B (zh) * | 2018-11-07 | 2021-09-07 | 重庆市勘测院 | 基于ifcm聚类与变分推断的遥感影像分类方法 |
CN109598337B (zh) * | 2018-12-05 | 2021-02-02 | 河南工业大学 | 基于分解模糊神经网络的二氧化硫浓度预测方法 |
CN110472482A (zh) * | 2019-07-01 | 2019-11-19 | 广东工业大学 | 一种物体识别及实时翻译的方法及装置 |
CN111126432B (zh) * | 2019-11-14 | 2023-07-07 | 武汉纺织大学 | 一种用于服装设计的人体体型分类方法 |
CN111325347B (zh) * | 2020-02-19 | 2023-04-11 | 山东大学 | 基于可解释视觉推理模型的危险预警描述自动生成方法 |
CN112295617B (zh) * | 2020-09-18 | 2022-04-01 | 济南大学 | 一种基于实验场景态势感知的智能烧杯 |
CN112201323A (zh) * | 2020-10-16 | 2021-01-08 | 童心堂健康科技(北京)有限公司 | 基于人工智能的运动监测方法、装置和计算机设备 |
CN114724247B (zh) * | 2022-04-11 | 2023-01-31 | 西安电子科技大学广州研究院 | 面向特定场景下基于语义认知的姿态估计方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102682302A (zh) * | 2012-03-12 | 2012-09-19 | 浙江工业大学 | 一种基于关键帧的多特征融合的人体姿态识别方法 |
CN103605986A (zh) * | 2013-11-27 | 2014-02-26 | 天津大学 | 一种基于局部特征的人体动作识别方法 |
CN105373810A (zh) * | 2015-11-12 | 2016-03-02 | 清华大学 | 一种用于建立动作识别模型的方法及系统 |
CN106203363A (zh) * | 2016-07-15 | 2016-12-07 | 中国科学院自动化研究所 | 人体骨架运动序列行为识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8798374B2 (en) * | 2008-08-26 | 2014-08-05 | The Regents Of The University Of California | Automated facial action coding system |
US9483474B2 (en) * | 2015-02-05 | 2016-11-01 | Microsoft Technology Licensing, Llc | Document retrieval/identification using topics |
-
2017
- 2017-05-25 CN CN201710377372.XA patent/CN107203753B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102682302A (zh) * | 2012-03-12 | 2012-09-19 | 浙江工业大学 | 一种基于关键帧的多特征融合的人体姿态识别方法 |
CN103605986A (zh) * | 2013-11-27 | 2014-02-26 | 天津大学 | 一种基于局部特征的人体动作识别方法 |
CN105373810A (zh) * | 2015-11-12 | 2016-03-02 | 清华大学 | 一种用于建立动作识别模型的方法及系统 |
CN106203363A (zh) * | 2016-07-15 | 2016-12-07 | 中国科学院自动化研究所 | 人体骨架运动序列行为识别方法 |
Non-Patent Citations (2)
Title |
---|
Entropic One-Class Classifiers;Lorenzo Livi等;《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》;20151231;第3187-3200页 * |
概率图模型推理方法的研究进展;刘建伟等;《计算机科学》;20150430;第42卷(第4期);第1-19页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107203753A (zh) | 2017-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107203753B (zh) | 一种基于模糊神经网络和图模型推理的动作识别方法 | |
CN108288051B (zh) | 行人再识别模型训练方法及装置、电子设备和存储介质 | |
Elmezain et al. | Real-time capable system for hand gesture recognition using hidden markov models in stereo color image sequences | |
CN106778796B (zh) | 基于混合式协同训练的人体动作识别方法及系统 | |
CN108182447B (zh) | 一种基于深度学习的自适应粒子滤波目标跟踪方法 | |
CN108154118A (zh) | 一种基于自适应组合滤波与多级检测的目标探测系统及方法 | |
CN109815826A (zh) | 人脸属性模型的生成方法及装置 | |
CN107239777B (zh) | 一种基于多视角图模型的餐具检测和识别方法 | |
Ridge et al. | Self-supervised cross-modal online learning of basic object affordances for developmental robotic systems | |
CN107944431A (zh) | 一种基于运动变化的智能识别方法 | |
CN110728694B (zh) | 一种基于持续学习的长时视觉目标跟踪方法 | |
CN107169117B (zh) | 一种基于自动编码器和dtw的手绘图人体运动检索方法 | |
Rao et al. | Sign Language Recognition System Simulated for Video Captured with Smart Phone Front Camera. | |
CN112784929B (zh) | 一种基于双元组扩充的小样本图像分类方法及装置 | |
Haq et al. | Boosting the face recognition performance of ensemble based LDA for pose, non-uniform illuminations, and low-resolution images | |
Kishore et al. | Segment, track, extract, recognize and convert sign language videos to voice/text | |
CN110046544A (zh) | 基于卷积神经网络的数字手势识别方法 | |
CN109191485B (zh) | 一种基于多层超图模型的多视频目标协同分割方法 | |
Xia et al. | Face occlusion detection using deep convolutional neural networks | |
Yang et al. | A robust iris segmentation using fully convolutional network with dilated convolutions | |
Kumar et al. | 3D sign language recognition using spatio temporal graph kernels | |
Naseer et al. | Pixels to precision: features fusion and random forests over labelled-based segmentation | |
CN112200110A (zh) | 一种基于深度干扰分离学习的人脸表情识别方法 | |
CN112381047A (zh) | 一种人脸表情图像的增强识别方法 | |
Kumar et al. | Early estimation model for 3D-discrete indian sign language recognition using graph matching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200908 Termination date: 20210525 |
|
CF01 | Termination of patent right due to non-payment of annual fee |