CN108304795B - 基于深度强化学习的人体骨架行为识别方法及装置 - Google Patents

基于深度强化学习的人体骨架行为识别方法及装置 Download PDF

Info

Publication number
CN108304795B
CN108304795B CN201810083816.3A CN201810083816A CN108304795B CN 108304795 B CN108304795 B CN 108304795B CN 201810083816 A CN201810083816 A CN 201810083816A CN 108304795 B CN108304795 B CN 108304795B
Authority
CN
China
Prior art keywords
frame
neural network
video
training
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810083816.3A
Other languages
English (en)
Other versions
CN108304795A (zh
Inventor
鲁继文
周杰
唐彦嵩
田毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201810083816.3A priority Critical patent/CN108304795B/zh
Publication of CN108304795A publication Critical patent/CN108304795A/zh
Application granted granted Critical
Publication of CN108304795B publication Critical patent/CN108304795B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度强化学习的人体骨架行为识别方法及装置,其中,方法包括:通过对训练集中的每一段视频进行均匀采样得到帧数固定的视频,以训练图卷积神经网络;在图卷积神经网络的参数固定之后,通过图卷积神经网络训练萃取帧网络,以得到满足预设条件的代表帧;通过满足预设条件的代表帧更新图卷积神经网络;获取目标视频,并对目标视频进行均匀采样,以将采样得到的帧送入萃取帧网络得到关键帧;将关键帧送入更新后的图卷积神经网络,以得到行为的最终类别。该方法可以加强挑选出来帧的判别性,去除冗余信息,提高识别性能,降低测试阶段计算量,同时可以充分利用人体骨骼的拓扑关系,来提高行为识别的性能。

Description

基于深度强化学习的人体骨架行为识别方法及装置
技术领域
本发明涉及计算机视觉、强化学习及深度学习技术领域,特别涉及一种基于深度强化学习的人体骨架行为识别方法及装置。
背景技术
行为识别旨在区分出在一段给定视频中的行为类别,是计算机视觉中的一个重要研究方向。行为识别有着广泛的应用,比如视频监控,人与机器人的交互等。相比于传统的彩色视频,基于骨骼的视频中包含着人体关键骨骼的3D位置,其对视角的变换、人体的尺度和运动速度都有着较高的鲁棒性。并且,随着深度传感器(如Kinect)的发展和人体姿态估计算法的成熟,基于人体骨骼的数据正与日俱增。因此,基于人体骨架的行为识别研究,在近些年来受到了越来越多的关注。
基于人体骨架行为识别的方法大体上可以分为两类:基于手工设计特征的方法和基于深度学习的方法。基于手工特征设计的方法在于设计有判别力的特征,用于描述视频在时空上的关系。如,将人体的骨骼建模成Lie群中的一个点,并且通过基于Lie代数的方法对行为进行分类。再如,将朴素贝叶斯最近邻方法扩展为时空朴素贝叶斯最近邻方法,并通过“阶段到类别”的距离来对动作进行分类。总体而言,这些方法通常需要较强的先验手工知识。并且,由于从视频到动作标签是一个较为复杂的非线性映射,这些手工设计方法对其表征的能力是有限的。
另一方面,很多研究者近些年致力于设计不同的深度网络结构来进行行为识别,如RNN(Recurrent Neural Networks,递归神经网络)、CNN(Cable News Network,卷积神经网络)等。其中,RNN模型能够描述时间上的依赖性,但是在实际工程中,训练堆叠的RNN有一定的难度。在另一方面,基于CNN的模型能够在低层描述相邻帧的信息,在高层描述长时间的时序关系,CNN训练起来更有效,也在近期取得了一些令人满意的结果。然而,大多数基于CNN的方法认为所有的帧都是一样重要的,这样便忽视了视频中那些最关键的帧。比如,在一段“踢腿”的视频中,有一些帧描述着动作主体站着,还有一些帧描述着运动主体踢出腿。相比之下,后者对于识别“踢腿”这个动作更加关键。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于深度强化学习的人体骨架行为识别方法,该方法可以加强挑选出来帧的判别性,去除冗余信息,提高识别性能,降低测试阶段计算量,同时可以充分利用人体骨骼的拓扑关系,来提高行为识别的性能。
本发明的另一个目的在于提出一种基于深度强化学习的人体骨架行为识别装置。
为达到上述目的,本发明一方面实施例提出了一种基于深度强化学习的人体骨架行为识别方法,包括以下步骤:通过对训练集中的每一段视频进行均匀采样得到帧数固定的视频,以训练图卷积神经网络;在所述图卷积神经网络的参数固定之后,通过所述图卷积神经网络训练萃取帧网络,以得到满足预设条件的代表帧;通过所述满足预设条件的代表帧更新所述图卷积神经网络;获取目标视频,并对所述目标视频进行均匀采样,以将采样得到的帧送入所述萃取帧网络得到关键帧;将所述关键帧送入所述更新后的图卷积神经网络,以得到行为的最终类别。
本发明实施例的基于深度强化学习的人体骨架行为识别方法,利用强化学习的方法选取图像中的关键帧,并将视频序列中的人体骨骼建模为一张无向图,同时区分骨骼间的内在相连关系和不相连关系,利用图卷积神经网络对其进行学习,从而可以加强挑选出来帧的判别性,去除冗余信息,提高识别性能,降低测试阶段计算量,同时可以充分利用人体骨骼的拓扑关系,来提高行为识别的性能。
另外,根据本发明上述实施例的基于深度强化学习的人体骨架行为识别方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述通过对训练集中的每一段视频进行均匀采样得到帧数固定的视频,进一步包括:将视频中的每一帧建模成一张图g(x,W),其中,x∈RN×3,包含着N个关节点的3D坐标,W是一个N×N的权重邻接矩阵:
Figure BDA0001561801500000021
进一步地,在本发明的一个实施例中,所述训练图卷积神经网络,进一步包括:将每一帧的图像送入基于图的卷积层,以得到:
Zt=y(η,W)*xt
其中,y(η,W)代表图卷积核,*代表图卷积操作,xt代表一个N*3的向量,代表N个关节点的3维坐标。
进一步地,在本发明的一个实施例中,所述在所述图卷积神经网络的参数固定之后,通过所述图卷积神经网络训练萃取帧网络,以得到满足预设条件的代表帧,进一步包括:获取挑选出来的帧的信息,并获取所述挑选出来的帧的信息与全局视频的关系;对每一个挑选出来的帧进行方向的调整;通过训练好的图卷积神经网络生成调整过方向的帧的回馈,以得到满足预设条件的代表帧。
进一步地,在本发明的一个实施例中,所述训练萃取帧网络,还包括:通过强化学习技术训练所述萃取帧网络。
为达到上述目的,本发明另一方面实施例提出了一种基于深度强化学习的人体骨架行为识别装置,包括:图卷积神经网络训练模块,用于通过对训练集中的每一段视频进行均匀采样得到帧数固定的视频,以训练图卷积神经网络;代表帧获取模块,用于在所述图卷积神经网络的参数固定之后,通过所述图卷积神经网络训练萃取帧网络,以得到满足预设条件的代表帧;更新模块,用于通过所述满足预设条件的代表帧更新所述图卷积神经网络;关键帧获取模块,用于获取目标视频,并对所述目标视频进行均匀采样,以将采样得到的帧送入所述萃取帧网络得到关键帧;处理模块,用于将所述关键帧送入所述更新后的图卷积神经网络,以得到行为的最终类别。
本发明实施例的基于深度强化学习的人体骨架行为识别装置,利用强化学习的方法选取图像中的关键帧,并将视频序列中的人体骨骼建模为一张无向图,同时区分骨骼间的内在相连关系和不相连关系,利用图卷积神经网络对其进行学习,从而可以加强挑选出来帧的判别性,去除冗余信息,提高识别性能,降低测试阶段计算量,同时可以充分利用人体骨骼的拓扑关系,来提高行为识别的性能。
另外,根据本发明上述实施例的基于深度强化学习的人体骨架行为识别装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述图卷积神经网络训练模块还用于将视频中的每一帧建模成一张图g(x,W),其中,x∈RN×3,包含着N个关节点的3D坐标,W是一个N×N的权重邻接矩阵:
Figure BDA0001561801500000031
进一步地,在本发明的一个实施例中,所述训练图卷积神经网络,进一步包括:将每一帧的图像送入基于图的卷积层,以得到:
Zt=y(η,W)*xt
其中,y(η,W)代表图卷积核,*代表图卷积操作,xt代表一个N*3的向量,代表N个关节点的3维坐标。
进一步地,在本发明的一个实施例中,所述代表帧获取模块还用于获取挑选出来的帧的信息,并获取所述挑选出来的帧的信息与全局视频的关系,并对每一个挑选出来的帧进行方向的调整,通过训练好的图卷积神经网络生成调整过方向的帧的回馈,以得到满足预设条件的代表帧。
进一步地,在本发明的一个实施例中,所述训练萃取帧网络,还包括:通过强化学习技术训练所述萃取帧网络。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的基于深度强化学习的人体骨架行为识别方法的流程图;
图2为根据本发明一个实施例的将人体骨架建模成无向图的过程示意图;
图3为根据本发明一个实施例的马尔科夫决策过程的示意图;
图4为根据本发明一个实施例的萃取帧网络的结构示意图;
图5为根据本发明一个具体实施例的基于深度强化学习的人体骨架行为识别方法的流程图;
图6为根据本发明一个实施例的基于深度强化学习的人体骨架行为识别装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
在介绍基于深度强化学习的人体骨架行为识别方法及装置之前,先简单介绍一下深度强化学习与关于人体骨架的行为识别。
关于人体骨架的行为识别任务,可用于实验训练与测试的数据有近40多个公开数据集,其中比较主流的有NTU-RGBD、SYSU-3D、UT-Kinect等。NTU-RGBD是目前最大的数据集,包含着由多个Kinect 2传感器采集的56,880段视频。在每一帧中,骨骼数据包含着人体25个关键点的3D坐标信息。这个数据集有交叉主体和交叉视角两个实验设置。SYSU-3D数据集包含着480段视频,有12个行为和40个执行者。实验时随机选取其中来自20个执行者的样本进行训练,剩下的20个样本进行测试,重复以上操作30次,并且在最后评测他们的平均结果。UT-Kinect数据集包含200段视频,有10个行为种类,每个行为被10个执行者重复表演了两次,并采用去一人交叉验证的方法对该数据集进行实验。
强化学习,起源于心理学家和神经学家研究人类如何从外在的环境中优化他们的行为。它在数学上可以被建模为一个马尔科夫决策过程。具体地,将人类看作一个智能体,那么一个典型的强化学习问题可以被表述成,这个智能体根据每一时刻的状态来优化它的动作策略,以此从环境中获得更大的回馈。作为一个先驱性的工作,将深度神经网络与强化学习相结合,提出了深度强化学习,并在街机游戏中取得了和人类水平的效果。
深度强化学习近些年来同样也推动了计算机视觉领域的发展。递归注意力模型,在其中,一张图片上的视觉注意力变化被建模成了一系列的马尔科夫决策过程。此外,强化学习还分别被应用于行人再识别、行为检测和物体检测等视觉任务中。使用深度强化学习来进行视频中的人脸识别问题进行研究。它们大致的思想是在学习过程中,丢掉视频中不关键的帧,那么剩下的帧可以认为是最具有代表性的帧。然后再基于这些帧进行人脸识别。虽然深度强化学习在以上的视觉任务中取得了较好的效果,但目前还没有研究将其应用到行为识别上来。
正是基于上述原因,本发明实施例提出了一种基于深度强化学习的人体骨架行为识别方法及装置。
下面参照附图描述根据本发明实施例提出的基于深度强化学习的人体骨架行为识别方法及装置,首先将参照附图描述根据本发明实施例提出的基于深度强化学习的人体骨架行为识别方法。
图1是本发明一个实施例的基于深度强化学习的人体骨架行为识别方法的流程图。
如图1所示,该基于深度强化学习的人体骨架行为识别方法包括以下步骤:
在步骤S101中,通过对训练集中的每一段视频进行均匀采样得到帧数固定的视频,以训练图卷积神经网络。
可以理解的是,本发明实施例分为训练和测试两个阶段。首先,在训练阶段,对于训练集中的每一段视频,首先对其中的帧进行均匀采样,得到一些帧数固定的视频,用它们来训练一个图卷积神经网络。
在本发明的一个实施例中,通过对训练集中的每一段视频进行均匀采样得到帧数固定的视频,进一步包括:将视频中的每一帧建模成一张图g(x,W),其中,x∈RN×3,包含着N个关节点的3D坐标,W是一个N×N的权重邻接矩阵:
Figure BDA0001561801500000051
具体而言,通过数据表示,将人体骨架建模成无向图。如图所示,给定一段定长视频,首先将其中的每一帧建模成一张图g(x,W),其中,x∈RN×3,包含着N个关节点的3D坐标,W是一个N×N的权重邻接矩阵:
Figure BDA0001561801500000061
本发明实施例将wij置为0,是为了去除关节间的自相关性,并将关节和关节间的连接关系分为两类,分别为内在相连性和不相连性。行为执行者在进行“拍手”这个行为。其中,内在相连性,表示两个关节在物理上直接相连(由图中的实线表示),本发明实施例通过参数α来刻画内在相连间的权重,而且这种相连具有一个很好的性质,那就是两个关节间的距离不会随行为的改变而发生改变。不相连性(由图中的虚线表示),这种关系对于判断一个行为也很重要。譬如手和脚之间的关系变换,也能很好的体现出“拍手”这个行为,本发明实施例通过参数β来刻画内在不相连性的权重。
进一步地,在本发明的一个实施例中,训练图卷积神经网络,进一步包括:将每一帧的图像送入基于图的卷积层,以得到:
Zt=y(η,W)*xt
其中,y(η,W)代表图卷积核,*代表图卷积操作,xt代表一个N*3的向量,代表N个关节点的3维坐标。
具体而言,训练图卷积神经网络。对于每一帧
Figure BDA0001561801500000065
本发明实施例将其送入一个基于图的卷积层,以得到:
Zt=y(η,W)*xt
其中,y(η,W)代表图卷积核,*代表图卷积操作。为了实现上述操作,首先对W进行基于图的拉普拉斯变换,L=In-D-1/2WD-1/2,这里D为对角矩阵,满足dii=Σjwij。接下来对L进行归一化,
Figure BDA0001561801500000062
并且令
Figure BDA0001561801500000063
其中,λmax是对应于L的最大特征值,Tk为契比雪夫多项式。那么图卷积操作可以写成:
Figure BDA0001561801500000064
这里,η∈[η0,η1...,ηK-1]是需要训练的参数,K是图卷积的大小。接下来,本发明实施例将zt送入一个全连接层中,并记全连接层的输出为gt。将每一帧对应的gt拼接到一起,得到一个3D的特征图G=concat[g1,g2,..,gT],然后再将其送入一个传统的卷积神经网络中进行分类。
在步骤S102中,在图卷积神经网络的参数固定之后,通过图卷积神经网络训练萃取帧网络,以得到满足预设条件的代表帧。
可以理解的是,本发明实施例通过固定图卷积神经网络中的参数,并通过它和之前视频来训练萃取帧的网络,以此挑选出那些最具有代表性的帧。
在本发明的一个实施例中,在图卷积神经网络的参数固定之后,通过图卷积神经网络训练萃取帧网络,以得到满足预设条件的代表帧,进一步包括:获取挑选出来的帧的信息,并获取挑选出来的帧的信息与全局视频的关系;对每一个挑选出来的帧进行方向的调整;通过训练好的图卷积神经网络生成调整过方向的帧的回馈,以得到满足预设条件的代表帧。
具体而言,构建马尔科夫决策过程中的状态、动作和回馈。本发明实施例将挑选帧的过程建模为一个MDP(Markov Decision Processes,马尔科夫决策过程),如图3所示,对于一段给定的视频,首先对其进行均匀采样。然后通过这个过程来对采样出来的帧进行不断调整,直到挑选那些出最有判别力的帧。在这个过程中,有三个重要的因素:状态、动作和回馈。下面将对它们进行详细的描述:
状态:MDP的状态主要包含了挑选出来的帧的信息,以及它们与全局视频的关系。具体地,它主要包含两个部分{Sa,Sb}。其中,Sa=[F,M]。F是一个f×N×3的张量,包含着视频的全局信息。这里,f、N和3分别代表帧数、骨骼关节数和3维坐标轴。类似于F,M是一个m×N×3的向量,代表着每一次被选出来的帧。Sb是一个关于被挑选出来帧的二值掩码,在被挑选出的帧的m个位置上为1,其余的位置为0。
动作:MDP的动作表示对每一个挑选出来的帧进行调整的方向。本发明实施例定义3种类型的动作:“左移”(动作0),保持不变(动作1)和右移(动作2),移动的步长均为1。“萃取帧”网络将其中的一个向量A∈Rm×3作为输出,里面的每一个元素Ai,j∈[0,1]代表对于第i帧采用第j个动作的概率。为了保证选取来的m帧的顺序,比如在时序上,选出的第一帧应该比选出的第二帧靠前,将每一帧的调整上界设置为Υi(i=1,2,...,m),满足:
Figure BDA0001561801500000071
其调整的下界满足:
Figure BDA0001561801500000072
那么,将根据如下准则进行调整:
M′i=Mii
其中,δi满足:
Figure BDA0001561801500000081
回馈:对于一个回馈函数r(S,A)而言,它表示了在某个状态S下,一个动作A的好坏程度。本发明实施例通过训练好的图卷积神经网络来生成回馈。在第一轮迭代中,本发明实施例将r设置为1如果预测准确,否则置为-1。对于第n轮迭代来说,首先定义r0回馈:
r0=sgn(Pn,c-Pn-1,c)
其中,c代表了视频的真实类别号,Pn,c代表在第n轮将视频预测为类别c。另外,如果预测在某一轮迭代中由错误的变成了正确的,将会给它一个强激励r=Ω,反之,如果在某一轮迭代中由正确的变成了错误的,将给它一个强惩罚r=-Ω。那么,对于第一轮之后的回馈,本发明实施例将按照如下的情况进行定义:
Figure BDA0001561801500000082
进一步地,在本发明的一个实施例中,训练萃取帧网络,还包括:通过强化学习技术训练萃取帧网络。
具体而言,本发明实施例通过强化学习技术,训练“萃取帧”网络。如图4所示,这个网络包含了三层卷积层,三个全连接层。网络将状态S作为输入,然后输出动作A。具体的,Sa=[F,M]被送入了一个接着全连接层的卷积网络中,Sb也被送入了一个全连接层中。本发明实施例将这两个全连接层的输出拼接在一起,送入第三个全连接层中。接着,网络输出m个softmax层,对应产生了调整的动作。
为了最大化折扣权重R=∑t≥0γtrt,按照如下方式计算交叉熵:
Figure BDA0001561801500000083
这一项中,给出了更新梯度θ的方向,本发明实施例将R归一化为
Figure BDA0001561801500000084
并按照如下方式计算交叉熵,其中
Figure BDA0001561801500000085
在过程中起到了强化梯度下降的作用。那么,θ将按照如下的方式被更新:
Figure BDA0001561801500000086
在步骤S103中,通过满足预设条件的代表帧更新图卷积神经网络。
可以理解的是,满足预设条件的代表帧即为经过上述过程挑选出来的帧,将被进一步用于更新之前训练的图卷积神经网络网络。
在步骤S104中,获取目标视频,并对目标视频进行均匀采样,以将采样得到的帧送入萃取帧网络得到关键帧。
可以理解的是,在测试阶段,如图5所示,给定一段视频,同样对其进行均匀采样,然后将其送入训练好的“萃取帧”的网络,对采样视频进行调整,挑选出其中最关键的帧。
在步骤S105中,将关键帧送入更新后的图卷积神经网络,以得到行为的最终类别。
可以理解的是,本发明实施例再将采样的帧送入之前训练好的图卷积神经网络图卷积神经网络中,从而得出行为的最终类别。
综上,给定一段视频,本发明实施例首先对其进行均匀采样,然后通过一个“萃取帧”的网络,对采样视频进行调整,挑选出其中最关键的帧。之后,再将采样的帧送入一个图卷积神经网络中,从而得出行为的最终类别。本发明实施例通过强化学习的方法,从一段视频中挑选出关键的帧,然后再送到一个图卷积神经网络中进行识别。该方法充分考虑到了挑选出的帧的质量,以及这些关键帧与整段视频的关系,同时也考虑到了人体骨骼之间的拓扑关联
根据本发明实施例提出的基于深度强化学习的人体骨架行为识别方法,在时序上,对于原始视频,通过强化学习的方式挑选数量固定的出关键帧,从而有效的提高输出信息的判别,在空间上,考虑到人体的骨架本质上是一个图的结构,从而采用无向图对其进行建模,并利用图卷积神经网络对其进行分类,充分的挖掘了骨骼间的拓扑关系,提出了一种有效的面向人体骨架数据的鲁棒识别的算法。
其次参照附图描述根据本发明实施例提出的基于深度强化学习的人体骨架行为识别装置。
图6是本发明一个实施例的基于深度强化学习的人体骨架行为识别装置的结构示意图。
如图6所示,该基于深度强化学习的人体骨架行为识别装置10包括:图卷积神经网络训练模块100、代表帧获取模块200、更新模块300、关键帧获取模块400和处理模块500。
其中,图卷积神经网络训练模块100用于通过对训练集中的每一段视频进行均匀采样得到帧数固定的视频,以训练图卷积神经网络。代表帧获取模块200用于在图卷积神经网络的参数固定之后,通过图卷积神经网络训练萃取帧网络,以得到满足预设条件的代表帧。更新模块300用于通过满足预设条件的代表帧更新图卷积神经网络。关键帧获取模块400用于获取目标视频,并对目标视频进行均匀采样,以将采样得到的帧送入萃取帧网络得到关键帧。处理模块500用于将关键帧送入更新后的图卷积神经网络,以得到行为的最终类别。本发明实施例的装置10可以加强挑选出来帧的判别性,去除冗余信息,提高识别性能,同时降低测试阶段计算量,可以充分利用人体骨骼的拓扑关系,来提高行为识别的性能。
进一步地,在本发明的一个实施例中,图卷积神经网络训练模块100还用于将视频中的每一帧建模成一张图g(x,W),其中,x∈RN×3,包含着N个关节点的3D坐标,W是一个N×N的权重邻接矩阵:
Figure BDA0001561801500000101
进一步地,在本发明的一个实施例中,训练图卷积神经网络,进一步包括:将每一帧的图像送入基于图的卷积层,以得到:
Zt=y(η,W)*xt
其中,y(η,W)代表图卷积核,*代表图卷积操作,xt代表一个N*3的向量,代表N个关节点的3维坐标。
进一步地,在本发明的一个实施例中,代表帧获取模块200还用于获取挑选出来的帧的信息,并获取挑选出来的帧的信息与全局视频的关系,并对每一个挑选出来的帧进行方向的调整,通过训练好的图卷积神经网络生成调整过方向的帧的回馈,以得到满足预设条件的代表帧。
进一步地,在本发明的一个实施例中,训练萃取帧网络,还包括:通过强化学习技术训练萃取帧网络。
需要说明的是,前述对基于深度强化学习的人体骨架行为识别方法实施例的解释说明也适用于该实施例的基于深度强化学习的人体骨架行为识别装置,此处不再赘述。
根据本发明实施例提出的基于深度强化学习的人体骨架行为识别装置,在时序上,对于原始视频,通过强化学习的方式挑选数量固定的出关键帧,从而有效的提高输出信息的判别,在空间上,考虑到人体的骨架本质上是一个图的结构,从而采用无向图对其进行建模,并利用图卷积神经网络对其进行分类,充分的挖掘了骨骼间的拓扑关系,提出了一种有效的面向人体骨架数据的鲁棒识别的算法。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种基于深度强化学习的人体骨架行为识别方法,其特征在于,包括以下步骤:
通过对训练集中的每一段视频进行均匀采样得到帧数固定的视频,以训练图卷积神经网络;
在所述图卷积神经网络的参数固定之后,通过所述图卷积神经网络训练萃取帧网络,以得到满足预设条件的代表帧,其中,所述在所述图卷积神经网络的参数固定之后,通过所述图卷积神经网络训练萃取帧网络,以得到满足预设条件的代表帧,进一步包括:获取挑选出来的帧的信息,并获取所述挑选出来的帧的信息与全局视频的关系;对每一个挑选出来的帧进行方向的调整;通过训练好的图卷积神经网络生成调整过方向的帧的回馈,以得到满足预设条件的代表帧;其中,所述萃取帧网络包括三层卷积层和三个全连接层,网络将状态S作为输入,然后输出动作A;
通过所述满足预设条件的代表帧更新所述图卷积神经网络;
获取目标视频,并对所述目标视频进行均匀采样,以将采样得到的帧送入所述萃取帧网络得到关键帧;以及
将所述关键帧送入所述更新后的图卷积神经网络,以得到行为的最终类别。
2.根据权利要求1所述的基于深度强化学习的人体骨架行为识别方法,其特征在于,所述通过对训练集中的每一段视频进行均匀采样得到帧数固定的视频,进一步包括:
将视频中的每一帧建模成一张图g(x,W),其中,x∈RN×3,包含着N个关节点的3维坐标,W是一个N×N的权重邻接矩阵:
Figure FDA0002409466960000011
其中,参数α来刻画两个关节在物理上直接相连间的权重,参数β来刻画两个关节在物理上不直接相连间的权重。
3.根据权利要求1所述的基于深度强化学习的人体骨架行为识别方法,其特征在于,所述训练图卷积神经网络,进一步包括:
将每一帧的图像送入基于图的卷积层,以得到:
Zt=y(η,W)*xt
其中,y(η,W)代表图卷积核,*代表图卷积操作,xt代表一个N*3的向量,代表N个关节点的3维坐标,η∈[η0,η1...,ηK-1]是需要训练的参数,K是图卷积的大小,W是一个N×N的权重邻接矩阵。
4.根据权利要求1所述的基于深度强化学习的人体骨架行为识别方法,其特征在于,所述训练萃取帧网络,还包括:
通过强化学习技术训练所述萃取帧网络。
5.一种基于深度强化学习的人体骨架行为识别装置,其特征在于,包括:
图卷积神经网络训练模块,用于通过对训练集中的每一段视频进行均匀采样得到帧数固定的视频,以训练图卷积神经网络;
代表帧获取模块,用于在所述图卷积神经网络的参数固定之后,通过所述图卷积神经网络训练萃取帧网络,以得到满足预设条件的代表帧,其中,所述代表帧获取模块还用于获取挑选出来的帧的信息,并获取所述挑选出来的帧的信息与全局视频的关系,并对每一个挑选出来的帧进行方向的调整,通过训练好的图卷积神经网络生成调整过方向的帧的回馈,以得到满足预设条件的代表帧;其中,所述萃取帧网络包括三层卷积层和三个全连接层,网络将状态S作为输入,然后输出动作A;
更新模块,用于通过所述满足预设条件的代表帧更新所述图卷积神经网络;
关键帧获取模块,用于获取目标视频,并对所述目标视频进行均匀采样,以将采样得到的帧送入所述萃取帧网络得到关键帧;以及
处理模块,用于将所述关键帧送入所述更新后的图卷积神经网络,以得到行为的最终类别。
6.根据权利要求5所述的基于深度强化学习的人体骨架行为识别装置,其特征在于,所述图卷积神经网络训练模块还用于将视频中的每一帧建模成一张图g(x,W),其中,x∈RN×3,包含着N个关节点的3维坐标,W是一个N×N的权重邻接矩阵:
Figure FDA0002409466960000021
其中,参数α来刻画两个关节在物理上直接相连间的权重,参数β来刻画两个关节在物理上不直接相连间的权重。
7.根据权利要求5所述的基于深度强化学习的人体骨架行为识别装置,其特征在于,所述训练图卷积神经网络,进一步包括:
将每一帧的图像送入基于图的卷积层,以得到:
Zt=y(η,W)*xt
其中,y(η,W)代表图卷积核,*代表图卷积操作,xt代表一个N*3的向量,代表N个关节点的3维坐标,η∈[η0,η1...,ηK-1]是需要训练的参数,K是图卷积的大小,W是一个N×N的权重邻接矩阵。
8.根据权利要求5所述的基于深度强化学习的人体骨架行为识别装置,其特征在于,所述训练萃取帧网络,还包括:
通过强化学习技术训练所述萃取帧网络。
CN201810083816.3A 2018-01-29 2018-01-29 基于深度强化学习的人体骨架行为识别方法及装置 Active CN108304795B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810083816.3A CN108304795B (zh) 2018-01-29 2018-01-29 基于深度强化学习的人体骨架行为识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810083816.3A CN108304795B (zh) 2018-01-29 2018-01-29 基于深度强化学习的人体骨架行为识别方法及装置

Publications (2)

Publication Number Publication Date
CN108304795A CN108304795A (zh) 2018-07-20
CN108304795B true CN108304795B (zh) 2020-05-12

Family

ID=62866698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810083816.3A Active CN108304795B (zh) 2018-01-29 2018-01-29 基于深度强化学习的人体骨架行为识别方法及装置

Country Status (1)

Country Link
CN (1) CN108304795B (zh)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190537B (zh) * 2018-08-23 2020-09-29 浙江工商大学 一种基于掩码感知深度强化学习的多人物姿态估计方法
CN109359543B (zh) * 2018-09-19 2021-10-01 武汉烽火众智数字技术有限责任公司 一种基于骨骼化的人像检索方法及装置
CN109086754A (zh) * 2018-10-11 2018-12-25 天津科技大学 一种基于深度学习的人体姿态识别方法
CN109446927B (zh) * 2018-10-11 2021-11-23 西安电子科技大学 基于先验知识的双人交互行为识别方法
CN109460784A (zh) * 2018-10-22 2019-03-12 武汉极意网络科技有限公司 访问行为特征模型建立方法、设备、存储介质及装置
CN109558811B (zh) * 2018-11-12 2023-04-07 中山大学 一种基于运动前景关注及非监督的关键帧提取的动作识别方法
CN109614874B (zh) * 2018-11-16 2023-06-30 深圳市感动智能科技有限公司 一种基于注意力感知和树形骨架点结构的人体行为识别方法和系统
CN109448291A (zh) * 2018-11-22 2019-03-08 广东点讯智能科技有限公司 一种应用于建筑工地的行为视频监控系统
CN109598708A (zh) * 2018-11-28 2019-04-09 武汉大学人民医院(湖北省人民医院) 一种超声内镜下识别和定位胰腺癌的系统及方法
CN109614995A (zh) * 2018-11-28 2019-04-12 武汉大学人民医院(湖北省人民医院) 一种超声内镜下识别胰胆管和胰腺结构的系统及方法
CN109376720B (zh) * 2018-12-19 2022-01-18 杭州电子科技大学 基于关节点时空简单循环网络和注意力机制的动作分类方法
CN109726798B (zh) * 2018-12-27 2021-04-13 北京灵汐科技有限公司 一种数据处理方法及装置
CN111401106B (zh) * 2019-01-02 2023-03-31 中国移动通信有限公司研究院 一种行为识别方法、装置及设备
CN109902562B (zh) * 2019-01-16 2022-07-01 重庆邮电大学 一种基于强化学习的驾驶员异常姿态监测方法
CN109800717B (zh) * 2019-01-22 2021-02-02 中国科学院自动化研究所 基于强化学习的行为识别视频帧采样方法及系统
CN111476258B (zh) * 2019-01-24 2024-01-05 杭州海康威视数字技术股份有限公司 一种基于注意力机制的特征提取方法、装置及电子设备
CN110070099A (zh) * 2019-02-20 2019-07-30 北京航空航天大学 一种基于强化学习的工业数据特征结构化方法
CN109977232B (zh) * 2019-03-06 2022-05-10 中南大学 一种基于力导图的图神经网络可视分析方法
CN110197116B (zh) * 2019-04-15 2023-05-23 深圳大学 一种人体行为识别方法、装置和计算机可读存储介质
CN110059620B (zh) * 2019-04-17 2021-09-03 安徽艾睿思智能科技有限公司 基于时空注意力的骨骼行为识别方法
CN110188795B (zh) * 2019-04-24 2023-05-09 华为技术有限公司 图像分类方法、数据处理方法和装置
CN110110847B (zh) * 2019-04-30 2020-02-07 吉林大学 一种基于注意力的深度加速强化学习的目标定位方法
CN110222566A (zh) * 2019-04-30 2019-09-10 北京迈格威科技有限公司 一种人脸特征的获取方法、装置、终端及存储介质
CN110210330B (zh) * 2019-05-13 2021-05-28 清华大学 基于内隐知识构建图卷积网络的电磁信号识别方法及装置
CN110210372A (zh) * 2019-05-29 2019-09-06 中国科学院自动化研究所 基于注意增强图卷积网络的骨架行为识别方法、系统
CN110363086A (zh) * 2019-06-11 2019-10-22 中国科学院自动化研究所南京人工智能芯片创新研究院 图数据识别方法、装置、计算机设备和存储介质
CN110215216B (zh) * 2019-06-11 2020-08-25 中国科学院自动化研究所 基于骨骼关节点分区域分层次的行为识别方法、系统
CN110309732B (zh) * 2019-06-13 2021-04-06 浙江大学 基于骨架视频的行为识别方法
CN110263874A (zh) * 2019-06-27 2019-09-20 山东浪潮人工智能研究院有限公司 一种基于注意力关系图学习的图像分类方法及装置
CN110378281A (zh) * 2019-07-17 2019-10-25 青岛科技大学 基于伪3d卷积神经网络的组群行为识别方法
CN110598543B (zh) * 2019-08-05 2021-01-05 华中科技大学 基于属性挖掘和推理的模型训练方法及行人再识别方法
CN111079578A (zh) * 2019-12-02 2020-04-28 海信集团有限公司 行为检测方法及装置
CN113255408B (zh) * 2020-02-11 2024-03-29 深圳绿米联创科技有限公司 行为识别方法、装置、电子设备及存储介质
CN111310659B (zh) * 2020-02-14 2022-08-09 福州大学 基于增进式图卷积神经网络的人体动作识别方法
CN111353447B (zh) * 2020-03-05 2023-07-04 辽宁石油化工大学 一种基于图卷积网络的人体骨架行为识别方法
CN111445081A (zh) * 2020-04-01 2020-07-24 浙江大学 产品作业动态调度的数字孪生虚实自适应迭代优化方法
CN111652066B (zh) * 2020-04-30 2022-07-26 北京航空航天大学 基于多自注意力机制深度学习的医疗行为识别方法
CN111723649B (zh) * 2020-05-08 2022-08-12 天津大学 一种基于语义分解的短视频事件检测方法
CN112001229B (zh) * 2020-07-09 2021-07-20 浙江大华技术股份有限公司 视频行为识别的方法、装置、系统和计算机设备
CN111814719B (zh) * 2020-07-17 2024-02-20 江南大学 一种基于3d时空图卷积的骨架行为识别方法
CN112164129A (zh) * 2020-09-02 2021-01-01 北京电影学院 基于深度卷积网络的无配对动作迁移方法
CN112784812B (zh) * 2021-02-08 2022-09-23 安徽工程大学 一种深蹲动作识别方法
CN113283400B (zh) * 2021-07-19 2021-11-12 成都考拉悠然科技有限公司 一种基于选择性超图卷积网络的骨架动作识别方法
CN113723203B (zh) * 2021-08-04 2022-05-20 清华大学 一种面向边缘计算的人行为特征提取方法与系统
CN114943324B (zh) * 2022-05-26 2023-10-13 中国科学院深圳先进技术研究院 神经网络训练方法、人体运动识别方法及设备、存储介质
CN115797841B (zh) * 2022-12-12 2023-08-18 南京林业大学 基于自适应时空图注意力Transformer网络的四足动物行为识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955671A (zh) * 2014-04-23 2014-07-30 浙江工业大学 基于快速判别公共向量算法的人体行为识别方法
CN104899561A (zh) * 2015-05-27 2015-09-09 华南理工大学 一种并行化的人体行为识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955671A (zh) * 2014-04-23 2014-07-30 浙江工业大学 基于快速判别公共向量算法的人体行为识别方法
CN104899561A (zh) * 2015-05-27 2015-09-09 华南理工大学 一种并行化的人体行为识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ACTION RECOGNITION IN RGB-D EGOCENTRIC VIDEOS;Yansong Tang等;《ICIP2019》;20170920;都3410-3414页 *
Real-time Action Recognition Based on Key Frame Detection;Ling Zhou等;《ICMLC 2017: Proceedings of the 9th International Conference on Machine Learning and Computing》;20170228;第272-277页 *
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action;Sijie Yan等;《Computer Vision and Pattern Recognition》;20180125;第1-10页 *
基于关键帧的复杂人体行为识别;夏利民等;《模式识别与人工智能》;20160228;第29卷(第2期);第154-162页 *

Also Published As

Publication number Publication date
CN108304795A (zh) 2018-07-20

Similar Documents

Publication Publication Date Title
CN108304795B (zh) 基于深度强化学习的人体骨架行为识别方法及装置
Blum et al. Fishyscapes: A benchmark for safe semantic segmentation in autonomous driving
Mukhoti et al. Evaluating bayesian deep learning methods for semantic segmentation
Oh et al. Crowd counting with decomposed uncertainty
CN109961051B (zh) 一种基于聚类和分块特征提取的行人重识别方法
CN107529650B (zh) 闭环检测方法、装置及计算机设备
CN109977757B (zh) 一种基于混合深度回归网络的多模态的头部姿态估计方法
CN111079646A (zh) 基于深度学习的弱监督视频时序动作定位的方法及系统
CN108229347B (zh) 用于人识别的拟吉布斯结构采样的深层置换的方法和装置
CN110120064B (zh) 一种基于互强化与多注意机制学习的深度相关目标跟踪算法
CN111161315B (zh) 一种基于图神经网络的多目标跟踪方法和系统
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
KR20160096460A (ko) 복수의 분류기를 포함하는 딥 러닝 기반 인식 시스템 및 그 제어 방법
CN107169117B (zh) 一种基于自动编码器和dtw的手绘图人体运动检索方法
CN112489092B (zh) 细粒度工业运动模态分类方法、存储介质、设备和装置
CN113610144A (zh) 一种基于多分支局部注意力网络的车辆分类方法
CN113158861B (zh) 一种基于原型对比学习的运动分析方法
CN109446897B (zh) 基于图像上下文信息的场景识别方法及装置
CN107644203B (zh) 一种形状自适应分类的特征点检测方法
CN110795599B (zh) 基于多尺度图的视频突发事件监测方法及系统
Khatri et al. Detection of animals in thermal imagery for surveillance using GAN and object detection framework
CN116266387A (zh) 基于重参数化残差结构和坐标注意力机制的yolov4的图像识别算法及系统
Kailkhura et al. Ensemble learning-based approach for crack detection using CNN
CN108846327B (zh) 一种色素痣与黑素瘤的智能判别系统及方法
CN115294353A (zh) 基于多层属性引导的人群场景图像字幕描述方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant