CN111797806A - 一种基于2d骨架的三维图卷积行为识别方法 - Google Patents

一种基于2d骨架的三维图卷积行为识别方法 Download PDF

Info

Publication number
CN111797806A
CN111797806A CN202010691506.7A CN202010691506A CN111797806A CN 111797806 A CN111797806 A CN 111797806A CN 202010691506 A CN202010691506 A CN 202010691506A CN 111797806 A CN111797806 A CN 111797806A
Authority
CN
China
Prior art keywords
joint
frame
formula
skeleton
joints
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010691506.7A
Other languages
English (en)
Inventor
高飞
沈鑫
葛一粟
卢书芳
翁立波
张元鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202010691506.7A priority Critical patent/CN111797806A/zh
Publication of CN111797806A publication Critical patent/CN111797806A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于2D骨架的三维图卷积行为识别方法,它针对2D骨架数据,通过三维图卷积对骨架描述符进行特征提取以识别动作,具体为:先从包含人的图像检测关节点得到骨架数据,计算骨架描述符,再将骨架描述符输入注意力模块,将骨架描述符输入三维图卷积提取时空特征、通过平均池化层和全连接层分类并计算损失函数以训练网络。本发明基于2D骨架数据,仅利用普通相机,充分利用了骨架固有结构,能够对多种动作进行有效的分类。

Description

一种基于2D骨架的三维图卷积行为识别方法
技术领域
本发明涉及一种基于视频分析的行为识别方法,具体涉及一种基于2D骨架数据的三维图卷积人体行为识别方法。
背景技术
随着经济的发展,摄像头日渐普遍,不仅用于道路监控,也用在家庭或者学校监护。我们能得到的视频数据越来越多,随之而来的问题是高昂的筛选视频信息的人工成本。
出于这个需求,相关技术也得到了快速的发展。人体行为识别的任务是将人体动作序列正确的分类到对应动作。随着低成本RGB-D传感器的发展和人体姿态估计算法的出现,人体骨架数据可以轻松的得到。与传统的视频图像数据相比,人体骨架数据不易受光照变化影响,对于遮挡和背景混乱具有一定鲁棒性。然而,RGB-D相机在室内可控环境下虽可平稳运行,但在复杂的室外环境下因存在更多不可控因素(如太阳辐射和铁磁辐射),深度传感器(例如,结构光、飞行时间或立体视觉)会产生大量的噪声而导致无法正常工作,且其拍摄距离局限于10米以内,其3D骨架的局限性较大。相比之下,2D相机发展至今显得更加稳定可靠。因此,人类姿势识别算法得到的2D骨架数据的适用性更加广泛。
针对2D骨架数据,国内外学术界提出了不少方案。其中与本发明较为接近的技术方案包括:发明专利(申请号:CN201811227200.5,名称:一种基于二维骨架信息的攻击性行为识别方法)阐述了一种通过改进的Boot算法lightGBM和w-lightGBK对骨架特征进行动作二分类的方法;发明专利(申请号:CN201911364679.1,名称:一种从监控视频自动识别人体动作异常的方法)阐述了一种利用K均值聚类对骨架特征进行异常动作和非异常动作二分类的方法。现有的技术只针对二分类问题,并忽略了骨架的空间信息。
综上所述,当前的2D行为识别方法存在着如下不足:(1)动作类别少,仅仅做了二分类动作;(2)对骨架的固有空间结构利用不够充分。
发明内容
针对当前基于2D骨架的行为识别方法所存在的不足,本发明的目的在于提供一种基于2D骨架的三维图卷积行为识别方法。
所述的一种基于2D骨架的三维图卷积行为识别方法,其特征在于包括如下步骤:
步骤1:从包含人的图像检测关节点得到骨架数据;以关节为节点,关节之间的骨骼为边构成骨架关系拓扑图G={V,E},关节集V={vti|t=1,2,…,T,i=1,2,…,N},T表示视频帧数,N表示关节总数,vti表示第t帧中第i个关节,边集E=Es∪Et,空间上的边集Es={<vti,vtj>|t=1,2,…,T,vti∈V且vtj∈V且i≠j且关节vti和vtj之间存在物理上的骨骼连接},vtj表示第t帧中第j个关节,<vti,vtj>表示第t帧的第i个关节vti和第j个关节vtj之间存在的空间上的边,时间上的边集为Et={<vti,v(t+1)i>|t=1,2,…,T-1,i=1,2,…,N},v(t+1)i表示第t+1帧中第i个关节vti,<vti,v(t+1)i>表示第t帧的第i个关节vti和第t+1帧上的第i个关节v(t+1)i之间存在的时间上的边;
步骤2:计算骨架描述符,具体步骤如下:
步骤2.1:选择一个坐标为中心点,根据式(1)进行坐标归一化;
p(vti)=p(vti)-p(vtc) (1)
P(t)={p(vti)|i=1,2,...,N} (2)
式中,p(vti)表示关节vti的坐标信息(xti,yti),vti表示第t帧第i个关节,p(vti)表示第t帧第i个关节vti的坐标信息(xti,yti);vtc表示第t帧被选中的中心关节,中心关节为人体关节集V中的任意一个,p(vtc)表示第t帧被选中的中心关节的坐标信息(xtc,ytc);c表示其编号,P(t)是由第t帧所有关节的归一化坐标信息构成的集合;
步骤2.2:利用当前帧骨架减去前一帧骨架来计算关节的位移;
Δp(vti)=p(vti)-p(v(t-1)i) (3)
ΔP(t)={Δp(vti)|i=1,2,...,N} (4)
式中,Δp(vti)表示关节vti的位移信息(Δxti,Δyti),ΔP(t)是由第t帧中所有关节的位移坐标构成的集合;
步骤2.3:根据式(5)计算关节角度,假设两个关节分别为vti=(xti,yti)和vtj=(xtj,ytj),且<vti,vtj>∈Es
Figure BDA0002589556300000031
AGL(t)={angle(vti)|i=1,2,...,N} (6)
式中,angle(vti)表示关节vti的角度信息,AGL(t)是由第t帧所有关节的角度信息构成的集合;
步骤2.4:根据式(7),联合步骤2.1、2.2和2.3的结果,形成骨架描述符:
Figure BDA0002589556300000032
式中,Input(t)表示输入网络的数据,由第t帧所有关节的坐标信息、位移信息以及角度信息组成;
步骤3:将骨架描述符输入注意力模块,根据公式(8)计算时间注意力Mt
Mt(Input)=σ(Conv([AvgPool(Input);MaxPool(Input)])) (8)
式中,Conv表示卷积核大小为(1,1,1)的三维卷积运算,AvgPool表示平均池化层,MaxPool表示最大池化层;
步骤4:将骨架描述符输入三维图卷积提取时空特征,根据公式(9)、(10)和(11)计算三维图卷积Output:
Figure BDA0002589556300000033
B(vti)={v(t+Δt)j|d(vti,v(t+Δt)i,v(t+Δt)j)=Δt+d(v(t+Δt)i,v(t+Δt)j),d(v(t+Δt)i,v(t+Δt)j)<D,Δt<τ}
(10)
Output=fout*Ms*Mt+fout (11)
式中,B(vti)表示邻居节点集合,d(vti,vtj)表示从节点vti到节点vtj的路径长度,w(t+Δt)j表示权重参数矩阵w在(t+Δt,j)位置处的权重值;Ms是大小为N×N的可训练的关节注意度参数矩阵;
步骤5:通过平均池化层和全连接层得到如式(12)所示的分类结果;
o={oi|i=1,2,...,C} (12)
式中,C是类别总数,oi表示全连接层后得到的第i个类别的概率,概率最大的类别即为识别出来的动作类别;
步骤6:根据式(13)计算损失函数以训练网络,迭代权重,得到更好的分类效果,
Figure BDA0002589556300000041
式中,ci是第i个动作类别,e为自然数;
通过采用上述技术,与现有技术相比,本发明的优点如下:本发明通过采用限定的技术,针对2D骨架数据,仅利用普通相机,就能对多种动作进行有效的分类,从而实现三维图卷积行为的识别。
具体实施方式
下面结合实施例,对本发明进行进一步的说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
本发明的一种基于2D骨架的三维图卷积行为识别方法,具体包括如下步骤:
步骤1:从包含人的图像检测关节点得到骨架数据;以关节为节点,关节之间的骨骼为边,构成骨架关系拓扑图G={V,E},关节集V={vti|t=1,2,…,T,i=1,2,…,N},
其中:T表示视频帧数,N表示关节总数,vti表示第t帧中第i个关节,边集E=Es∪Et,空间上的边集Es={<vti,vtj>|t=1,2,…,T,vti∈V且vtj∈V且i≠j且关节vti和vtj之间存在物理上的骨骼连接},vtj表示第t帧中第j个关节,<vti,vtj>表示第t帧的第i个关节vti和第j个关节vtj之间存在的空间上的边;时间上的边集为Et={<vti,v(t+1)i>|t=1,2,…,T-1,i=1,2,…,N},v(t+1)i表示第t+1帧中第i个关节vti,<vti,v(t+1)i>表示第t帧的第i个关节vti和第t+1帧上的第i个关节v(t+1)i之间存在的时间上的边;
本发明实施例中,使用Openpose检测算法,N取值18;T取值150;
步骤2:计算骨架描述符,具体步骤如下:
步骤2.1:选择一个坐标为中心点,根据式(1)进行坐标归一化;
p(vti)=p(vti)-p(vtc) (1)
P(t)={p(vti)|i=1,2,...,N} (2)
式中,p(vti)表示关节vti的坐标信息(xti,yti),vti表示第t帧第i个关节,p(vti)表示第t帧第i个关节vti的坐标信息(xti,yti);vtc表示第t帧被选中的中心关节,中心关节为人体关节集V中的任意一个,p(vtc)表示第t帧被选中的中心关节的坐标信息(xtc,ytc);c表示其编号,P(t)是由第t帧所有关节的归一化坐标信息构成的集合;
步骤2.2:利用当前帧骨架减去前一帧骨架来计算关节的位移;
Δp(vti)=p(vti)-p(v(t-1)i) (3)
ΔP(t)={Δp(vti)|i=1,2,...,N} (4)
式中,Δp(vti)表示关节vti的位移信息(Δxti,Δyti),ΔP(t)是由第t帧中所有关节的位移坐标构成的集合;
步骤2.3:根据式(5)计算关节角度,假设两个关节分别为vti=(xti,yti)和vtj=(xtj,ytj),且<vti,vtj>∈Es
Figure BDA0002589556300000051
AGL(t)={angle(vti)|i=1,2,...,N} (6)
式中,angle(vti)表示关节vti的角度信息,AGL(t)是由第t帧所有关节的角度信息构成的集合;
步骤2.4:根据式(7),联合步骤2.1、2.2和2.3的结果,形成骨架描述符:
Figure BDA0002589556300000061
式中,Input(t)表示输入网络的数据,由第t帧所有关节的坐标信息、位移信息以及角度信息组成;
步骤3:将骨架描述符输入注意力模块,根据公式(8)计算时间注意力Mt
Mt(Input)=σ(Conv([AvgPool(Input);MaxPool(Input)])) (8)
式中,Conv表示卷积核大小为(1,1,1)的三维卷积运算,AvgPool表示平均池化层,MaxPool表示最大池化层;
步骤4:将骨架描述符输入三维图卷积提取时空特征,根据公式(9)、(10)和(11)计算三维图卷积Output:
Figure BDA0002589556300000062
B(vti)={v(t+Δt)j|d(vti,v(t+Δt)i,v(t+Δt)j)=Δt+d(v(t+Δt)i,v(t+Δt)j),d(v(t+Δt)i,v(t+Δt)j)<D,Δt<τ} (10)
Output=fout*Ms*Mt+fout (11)
式中,B(vti)表示邻居节点集合,d(vti,vtj)表示从节点vti到节点vtj的路径长度,w(t+Δt)j表示权重参数矩阵w在(t+Δt,j)位置处的权重值;Ms是大小为N×N的可训练的关节注意度参数矩阵;
本发明实施例中,D=1表示空间上的1-邻域,τ=9表示时间上的9-邻域;
步骤5:通过平均池化层和全连接层得到如式(12)所示的分类结果;
o={oi|i=1,2,...,C} (12)
式中,C是类别总数,oi表示全连接层后得到的第i个类别的概率,概率最大的类别即为识别出来的动作类别;
步骤6:根据式(13)计算损失函数以训练网络,迭代权重,得到更好的分类效果,
Figure BDA0002589556300000071
式中,ci是第i个动作类别,e为自然数。

Claims (1)

1.一种基于2D骨架的三维图卷积行为识别方法,其技术方案为:
步骤1:从包含人的图像检测关节点得到骨架数据;以关节为节点,关节之间的骨骼为边,构成骨架关系拓扑图G={V,E},关节集V={vti|t=1,2,…,T,i=1,2,…,N},
其中:T表示视频帧数,N表示关节总数,vti表示第t帧中第i个关节,边集E=Es∪Et,空间上的边集Es={<vti,vtj>|t=1,2,…,T,vti∈V且vtj∈V且i≠j且关节vti和vtj之间存在物理上的骨骼连接},vtj表示第t帧中第j个关节,<vti,vtj>表示第t帧的第i个关节vti和第j个关节vtj之间存在的空间上的边,时间上的边集为Et={<vti,v(t+1)i>|t=1,2,…,T-1,i=1,2,…,N},v(t+1)i表示第t+1帧中第i个关节vti,<vti,v(t+1)i>表示第t帧的第i个关节vti和第t+1帧上的第i个关节v(t+1)i之间存在的时间上的边;
步骤2:计算骨架描述符,具体步骤如下:
步骤2.1:选择一个坐标为中心点,根据式(1)进行坐标归一化;
p(vti)=p(vti)-p(vtc) (1)
P(t)={p(vti)|i=1,2,...,N} (2)
式中,p(vti)表示关节vti的坐标信息(xti,yti),vti表示第t帧第i个关节,p(vti)表示第t帧第i个关节vti的坐标信息(xti,yti);vtc表示第t帧被选中的中心关节,中心关节为人体关节集V中的任意一个,p(vtc)表示第t帧被选中的中心关节的坐标信息(xtc,ytc);c表示其编号,P(t)是由第t帧所有关节的归一化坐标信息构成的集合;
步骤2.2:利用当前帧骨架减去前一帧骨架来计算关节的位移;
Δp(vti)=p(vti)-p(v(t-1)i) (3)
ΔP(t)={Δp(vti)|i=1,2,...,N} (4)
式中,Δp(vti)表示关节vti的位移信息(Δxti,Δyti),ΔP(t)是由第t帧中所有关节的位移坐标构成的集合;
步骤2.3:根据式(5)计算关节角度,假设两个关节分别为vti=(xti,yti)和vtj=(xtj,ytj),且<vti,vtj>∈Es
Figure FDA0002589556290000021
AGL(t)={angle(vti)|i=1,2,...,N} (6)
式中,angle(vti)表示关节vti的角度信息,AGL(t)是由第t帧所有关节的角度信息构成的集合;
步骤2.4:根据式(7),联合步骤2.1、2.2和2.3的结果,形成骨架描述符:
Figure FDA0002589556290000022
式中,Input(t)表示输入网络的数据,由第t帧所有关节的坐标信息、位移信息以及角度信息组成;
步骤3:将骨架描述符输入注意力模块,根据公式(8)计算时间注意力Mt
Mt(Input)=σ(Conv([AvgPool(Input);MaxPool(Input)])) (8)
式中,Conv表示卷积核大小为(1,1,1)的三维卷积运算,AvgPool表示平均池化层,MaxPool表示最大池化层;
步骤4:将骨架描述符输入三维图卷积提取时空特征,根据公式(9)、(10)和(11)计算三维图卷积Output:
Figure FDA0002589556290000023
B(vti)={v(t+Δt)j|d(vti,v(t+Δt)i,v(t+Δt)j)=Δt+d(v(t+Δt)i,v(t+Δt)j),d(v(t+Δt)i,v(t+Δt)j)<D,Δt<τ} (10)
Output=fout*Ms*Mt+fout (11)
式中,B(vti)表示邻居节点集合,d(vti,vtj)表示从节点vti到节点vtj的路径长度,w(t+Δt)j表示权重参数矩阵w在(t+Δt,j)位置处的权重值;Ms是大小为N×N的可训练的关节注意度参数矩阵;
步骤5:通过平均池化层和全连接层得到如式(12)所示的分类结果;
o={oi|i=1,2,...,C} (12)
式中,C是类别总数,oi表示全连接层后得到的第i个类别的概率,概率最大的类别即为识别出来的动作类别;
步骤6:根据式(13)计算损失函数以训练网络,迭代权重,得到更好的分类效果,
Figure FDA0002589556290000031
式中,ci是第i个动作类别,e为自然数。
CN202010691506.7A 2020-07-17 2020-07-17 一种基于2d骨架的三维图卷积行为识别方法 Withdrawn CN111797806A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010691506.7A CN111797806A (zh) 2020-07-17 2020-07-17 一种基于2d骨架的三维图卷积行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010691506.7A CN111797806A (zh) 2020-07-17 2020-07-17 一种基于2d骨架的三维图卷积行为识别方法

Publications (1)

Publication Number Publication Date
CN111797806A true CN111797806A (zh) 2020-10-20

Family

ID=72807619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010691506.7A Withdrawn CN111797806A (zh) 2020-07-17 2020-07-17 一种基于2d骨架的三维图卷积行为识别方法

Country Status (1)

Country Link
CN (1) CN111797806A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597883A (zh) * 2020-12-22 2021-04-02 武汉大学 一种基于广义图卷积和强化学习的人体骨架动作识别方法
CN112836824A (zh) * 2021-03-04 2021-05-25 上海交通大学 单目三维人体位姿无监督学习方法、系统及介质
CN113011381A (zh) * 2021-04-09 2021-06-22 中国科学技术大学 基于骨骼关节数据的双人动作识别方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597883A (zh) * 2020-12-22 2021-04-02 武汉大学 一种基于广义图卷积和强化学习的人体骨架动作识别方法
CN112597883B (zh) * 2020-12-22 2024-02-09 武汉大学 一种基于广义图卷积和强化学习的人体骨架动作识别方法
CN112836824A (zh) * 2021-03-04 2021-05-25 上海交通大学 单目三维人体位姿无监督学习方法、系统及介质
CN113011381A (zh) * 2021-04-09 2021-06-22 中国科学技术大学 基于骨骼关节数据的双人动作识别方法

Similar Documents

Publication Publication Date Title
JP7482181B2 (ja) 画像処理装置、画像処理方法
Nadeem et al. Human actions tracking and recognition based on body parts detection via Artificial neural network
US10198823B1 (en) Segmentation of object image data from background image data
Han et al. Space-time representation of people based on 3D skeletal data: A review
US7831087B2 (en) Method for visual-based recognition of an object
Han et al. Fusion of color and infrared video for moving human detection
US8073200B2 (en) Information processing apparatus, information processing method, and computer program
CN111797806A (zh) 一种基于2d骨架的三维图卷积行为识别方法
Sehairi et al. Elderly fall detection system based on multiple shape features and motion analysis
Shao et al. Computer vision for RGB-D sensors: Kinect and its applications [special issue intro.]
Chen et al. Discovering social interactions in real work environments
GB2492779A (en) Pose comparing system
US9183635B2 (en) Method for reconstructing 3D lines from 2D lines in an image
WO2013003860A1 (en) Subject sensing in an environment
CN104182747A (zh) 基于多个立体相机的对象检测跟踪方法及装置
Brenner et al. RGB-D and thermal sensor fusion: a systematic literature review
CN106127119B (zh) 基于彩色图像和深度图像多特征的联合数据关联方法
Rogez et al. Monocular 3-D gait tracking in surveillance scenes
Ershadi-Nasab et al. Uncalibrated multi-view multiple humans association and 3D pose estimation by adversarial learning
Rougier et al. 3D head trajectory using a single camera
Mohsin et al. Clustering and Identification of key body extremities through topological analysis of multi-sensors 3D data
Liu et al. A study of chained stochastic tracking in RGB and depth sensing
Gutfeter et al. Fusion of depth and thermal imaging for people detection
Han et al. RGB-D human identification and tracking in a smart environment
Boyle et al. Advances in Visual Computing: Third International Symposium, ISVC 2007, Lake Tahoe, NV, USA, November 26-28, 2007, Proceedings, Part I

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20201020

WW01 Invention patent application withdrawn after publication