CN111797806A - 一种基于2d骨架的三维图卷积行为识别方法 - Google Patents
一种基于2d骨架的三维图卷积行为识别方法 Download PDFInfo
- Publication number
- CN111797806A CN111797806A CN202010691506.7A CN202010691506A CN111797806A CN 111797806 A CN111797806 A CN 111797806A CN 202010691506 A CN202010691506 A CN 202010691506A CN 111797806 A CN111797806 A CN 111797806A
- Authority
- CN
- China
- Prior art keywords
- joint
- frame
- formula
- skeleton
- joints
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于2D骨架的三维图卷积行为识别方法,它针对2D骨架数据,通过三维图卷积对骨架描述符进行特征提取以识别动作,具体为:先从包含人的图像检测关节点得到骨架数据,计算骨架描述符,再将骨架描述符输入注意力模块,将骨架描述符输入三维图卷积提取时空特征、通过平均池化层和全连接层分类并计算损失函数以训练网络。本发明基于2D骨架数据,仅利用普通相机,充分利用了骨架固有结构,能够对多种动作进行有效的分类。
Description
技术领域
本发明涉及一种基于视频分析的行为识别方法,具体涉及一种基于2D骨架数据的三维图卷积人体行为识别方法。
背景技术
随着经济的发展,摄像头日渐普遍,不仅用于道路监控,也用在家庭或者学校监护。我们能得到的视频数据越来越多,随之而来的问题是高昂的筛选视频信息的人工成本。
出于这个需求,相关技术也得到了快速的发展。人体行为识别的任务是将人体动作序列正确的分类到对应动作。随着低成本RGB-D传感器的发展和人体姿态估计算法的出现,人体骨架数据可以轻松的得到。与传统的视频图像数据相比,人体骨架数据不易受光照变化影响,对于遮挡和背景混乱具有一定鲁棒性。然而,RGB-D相机在室内可控环境下虽可平稳运行,但在复杂的室外环境下因存在更多不可控因素(如太阳辐射和铁磁辐射),深度传感器(例如,结构光、飞行时间或立体视觉)会产生大量的噪声而导致无法正常工作,且其拍摄距离局限于10米以内,其3D骨架的局限性较大。相比之下,2D相机发展至今显得更加稳定可靠。因此,人类姿势识别算法得到的2D骨架数据的适用性更加广泛。
针对2D骨架数据,国内外学术界提出了不少方案。其中与本发明较为接近的技术方案包括:发明专利(申请号:CN201811227200.5,名称:一种基于二维骨架信息的攻击性行为识别方法)阐述了一种通过改进的Boot算法lightGBM和w-lightGBK对骨架特征进行动作二分类的方法;发明专利(申请号:CN201911364679.1,名称:一种从监控视频自动识别人体动作异常的方法)阐述了一种利用K均值聚类对骨架特征进行异常动作和非异常动作二分类的方法。现有的技术只针对二分类问题,并忽略了骨架的空间信息。
综上所述,当前的2D行为识别方法存在着如下不足:(1)动作类别少,仅仅做了二分类动作;(2)对骨架的固有空间结构利用不够充分。
发明内容
针对当前基于2D骨架的行为识别方法所存在的不足,本发明的目的在于提供一种基于2D骨架的三维图卷积行为识别方法。
所述的一种基于2D骨架的三维图卷积行为识别方法,其特征在于包括如下步骤:
步骤1:从包含人的图像检测关节点得到骨架数据;以关节为节点,关节之间的骨骼为边构成骨架关系拓扑图G={V,E},关节集V={vti|t=1,2,…,T,i=1,2,…,N},T表示视频帧数,N表示关节总数,vti表示第t帧中第i个关节,边集E=Es∪Et,空间上的边集Es={<vti,vtj>|t=1,2,…,T,vti∈V且vtj∈V且i≠j且关节vti和vtj之间存在物理上的骨骼连接},vtj表示第t帧中第j个关节,<vti,vtj>表示第t帧的第i个关节vti和第j个关节vtj之间存在的空间上的边,时间上的边集为Et={<vti,v(t+1)i>|t=1,2,…,T-1,i=1,2,…,N},v(t+1)i表示第t+1帧中第i个关节vti,<vti,v(t+1)i>表示第t帧的第i个关节vti和第t+1帧上的第i个关节v(t+1)i之间存在的时间上的边;
步骤2:计算骨架描述符,具体步骤如下:
步骤2.1:选择一个坐标为中心点,根据式(1)进行坐标归一化;
p(vti)=p(vti)-p(vtc) (1)
P(t)={p(vti)|i=1,2,...,N} (2)
式中,p(vti)表示关节vti的坐标信息(xti,yti),vti表示第t帧第i个关节,p(vti)表示第t帧第i个关节vti的坐标信息(xti,yti);vtc表示第t帧被选中的中心关节,中心关节为人体关节集V中的任意一个,p(vtc)表示第t帧被选中的中心关节的坐标信息(xtc,ytc);c表示其编号,P(t)是由第t帧所有关节的归一化坐标信息构成的集合;
步骤2.2:利用当前帧骨架减去前一帧骨架来计算关节的位移;
Δp(vti)=p(vti)-p(v(t-1)i) (3)
ΔP(t)={Δp(vti)|i=1,2,...,N} (4)
式中,Δp(vti)表示关节vti的位移信息(Δxti,Δyti),ΔP(t)是由第t帧中所有关节的位移坐标构成的集合;
步骤2.3:根据式(5)计算关节角度,假设两个关节分别为vti=(xti,yti)和vtj=(xtj,ytj),且<vti,vtj>∈Es;
AGL(t)={angle(vti)|i=1,2,...,N} (6)
式中,angle(vti)表示关节vti的角度信息,AGL(t)是由第t帧所有关节的角度信息构成的集合;
步骤2.4:根据式(7),联合步骤2.1、2.2和2.3的结果,形成骨架描述符:
式中,Input(t)表示输入网络的数据,由第t帧所有关节的坐标信息、位移信息以及角度信息组成;
步骤3:将骨架描述符输入注意力模块,根据公式(8)计算时间注意力Mt:
Mt(Input)=σ(Conv([AvgPool(Input);MaxPool(Input)])) (8)
式中,Conv表示卷积核大小为(1,1,1)的三维卷积运算,AvgPool表示平均池化层,MaxPool表示最大池化层;
步骤4:将骨架描述符输入三维图卷积提取时空特征,根据公式(9)、(10)和(11)计算三维图卷积Output:
B(vti)={v(t+Δt)j|d(vti,v(t+Δt)i,v(t+Δt)j)=Δt+d(v(t+Δt)i,v(t+Δt)j),d(v(t+Δt)i,v(t+Δt)j)<D,Δt<τ}
(10)
Output=fout*Ms*Mt+fout (11)
式中,B(vti)表示邻居节点集合,d(vti,vtj)表示从节点vti到节点vtj的路径长度,w(t+Δt)j表示权重参数矩阵w在(t+Δt,j)位置处的权重值;Ms是大小为N×N的可训练的关节注意度参数矩阵;
步骤5:通过平均池化层和全连接层得到如式(12)所示的分类结果;
o={oi|i=1,2,...,C} (12)
式中,C是类别总数,oi表示全连接层后得到的第i个类别的概率,概率最大的类别即为识别出来的动作类别;
步骤6:根据式(13)计算损失函数以训练网络,迭代权重,得到更好的分类效果,
式中,ci是第i个动作类别,e为自然数;
通过采用上述技术,与现有技术相比,本发明的优点如下:本发明通过采用限定的技术,针对2D骨架数据,仅利用普通相机,就能对多种动作进行有效的分类,从而实现三维图卷积行为的识别。
具体实施方式
下面结合实施例,对本发明进行进一步的说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
本发明的一种基于2D骨架的三维图卷积行为识别方法,具体包括如下步骤:
步骤1:从包含人的图像检测关节点得到骨架数据;以关节为节点,关节之间的骨骼为边,构成骨架关系拓扑图G={V,E},关节集V={vti|t=1,2,…,T,i=1,2,…,N},
其中:T表示视频帧数,N表示关节总数,vti表示第t帧中第i个关节,边集E=Es∪Et,空间上的边集Es={<vti,vtj>|t=1,2,…,T,vti∈V且vtj∈V且i≠j且关节vti和vtj之间存在物理上的骨骼连接},vtj表示第t帧中第j个关节,<vti,vtj>表示第t帧的第i个关节vti和第j个关节vtj之间存在的空间上的边;时间上的边集为Et={<vti,v(t+1)i>|t=1,2,…,T-1,i=1,2,…,N},v(t+1)i表示第t+1帧中第i个关节vti,<vti,v(t+1)i>表示第t帧的第i个关节vti和第t+1帧上的第i个关节v(t+1)i之间存在的时间上的边;
本发明实施例中,使用Openpose检测算法,N取值18;T取值150;
步骤2:计算骨架描述符,具体步骤如下:
步骤2.1:选择一个坐标为中心点,根据式(1)进行坐标归一化;
p(vti)=p(vti)-p(vtc) (1)
P(t)={p(vti)|i=1,2,...,N} (2)
式中,p(vti)表示关节vti的坐标信息(xti,yti),vti表示第t帧第i个关节,p(vti)表示第t帧第i个关节vti的坐标信息(xti,yti);vtc表示第t帧被选中的中心关节,中心关节为人体关节集V中的任意一个,p(vtc)表示第t帧被选中的中心关节的坐标信息(xtc,ytc);c表示其编号,P(t)是由第t帧所有关节的归一化坐标信息构成的集合;
步骤2.2:利用当前帧骨架减去前一帧骨架来计算关节的位移;
Δp(vti)=p(vti)-p(v(t-1)i) (3)
ΔP(t)={Δp(vti)|i=1,2,...,N} (4)
式中,Δp(vti)表示关节vti的位移信息(Δxti,Δyti),ΔP(t)是由第t帧中所有关节的位移坐标构成的集合;
步骤2.3:根据式(5)计算关节角度,假设两个关节分别为vti=(xti,yti)和vtj=(xtj,ytj),且<vti,vtj>∈Es;
AGL(t)={angle(vti)|i=1,2,...,N} (6)
式中,angle(vti)表示关节vti的角度信息,AGL(t)是由第t帧所有关节的角度信息构成的集合;
步骤2.4:根据式(7),联合步骤2.1、2.2和2.3的结果,形成骨架描述符:
式中,Input(t)表示输入网络的数据,由第t帧所有关节的坐标信息、位移信息以及角度信息组成;
步骤3:将骨架描述符输入注意力模块,根据公式(8)计算时间注意力Mt:
Mt(Input)=σ(Conv([AvgPool(Input);MaxPool(Input)])) (8)
式中,Conv表示卷积核大小为(1,1,1)的三维卷积运算,AvgPool表示平均池化层,MaxPool表示最大池化层;
步骤4:将骨架描述符输入三维图卷积提取时空特征,根据公式(9)、(10)和(11)计算三维图卷积Output:
B(vti)={v(t+Δt)j|d(vti,v(t+Δt)i,v(t+Δt)j)=Δt+d(v(t+Δt)i,v(t+Δt)j),d(v(t+Δt)i,v(t+Δt)j)<D,Δt<τ} (10)
Output=fout*Ms*Mt+fout (11)
式中,B(vti)表示邻居节点集合,d(vti,vtj)表示从节点vti到节点vtj的路径长度,w(t+Δt)j表示权重参数矩阵w在(t+Δt,j)位置处的权重值;Ms是大小为N×N的可训练的关节注意度参数矩阵;
本发明实施例中,D=1表示空间上的1-邻域,τ=9表示时间上的9-邻域;
步骤5:通过平均池化层和全连接层得到如式(12)所示的分类结果;
o={oi|i=1,2,...,C} (12)
式中,C是类别总数,oi表示全连接层后得到的第i个类别的概率,概率最大的类别即为识别出来的动作类别;
步骤6:根据式(13)计算损失函数以训练网络,迭代权重,得到更好的分类效果,
式中,ci是第i个动作类别,e为自然数。
Claims (1)
1.一种基于2D骨架的三维图卷积行为识别方法,其技术方案为:
步骤1:从包含人的图像检测关节点得到骨架数据;以关节为节点,关节之间的骨骼为边,构成骨架关系拓扑图G={V,E},关节集V={vti|t=1,2,…,T,i=1,2,…,N},
其中:T表示视频帧数,N表示关节总数,vti表示第t帧中第i个关节,边集E=Es∪Et,空间上的边集Es={<vti,vtj>|t=1,2,…,T,vti∈V且vtj∈V且i≠j且关节vti和vtj之间存在物理上的骨骼连接},vtj表示第t帧中第j个关节,<vti,vtj>表示第t帧的第i个关节vti和第j个关节vtj之间存在的空间上的边,时间上的边集为Et={<vti,v(t+1)i>|t=1,2,…,T-1,i=1,2,…,N},v(t+1)i表示第t+1帧中第i个关节vti,<vti,v(t+1)i>表示第t帧的第i个关节vti和第t+1帧上的第i个关节v(t+1)i之间存在的时间上的边;
步骤2:计算骨架描述符,具体步骤如下:
步骤2.1:选择一个坐标为中心点,根据式(1)进行坐标归一化;
p(vti)=p(vti)-p(vtc) (1)
P(t)={p(vti)|i=1,2,...,N} (2)
式中,p(vti)表示关节vti的坐标信息(xti,yti),vti表示第t帧第i个关节,p(vti)表示第t帧第i个关节vti的坐标信息(xti,yti);vtc表示第t帧被选中的中心关节,中心关节为人体关节集V中的任意一个,p(vtc)表示第t帧被选中的中心关节的坐标信息(xtc,ytc);c表示其编号,P(t)是由第t帧所有关节的归一化坐标信息构成的集合;
步骤2.2:利用当前帧骨架减去前一帧骨架来计算关节的位移;
Δp(vti)=p(vti)-p(v(t-1)i) (3)
ΔP(t)={Δp(vti)|i=1,2,...,N} (4)
式中,Δp(vti)表示关节vti的位移信息(Δxti,Δyti),ΔP(t)是由第t帧中所有关节的位移坐标构成的集合;
步骤2.3:根据式(5)计算关节角度,假设两个关节分别为vti=(xti,yti)和vtj=(xtj,ytj),且<vti,vtj>∈Es;
AGL(t)={angle(vti)|i=1,2,...,N} (6)
式中,angle(vti)表示关节vti的角度信息,AGL(t)是由第t帧所有关节的角度信息构成的集合;
步骤2.4:根据式(7),联合步骤2.1、2.2和2.3的结果,形成骨架描述符:
式中,Input(t)表示输入网络的数据,由第t帧所有关节的坐标信息、位移信息以及角度信息组成;
步骤3:将骨架描述符输入注意力模块,根据公式(8)计算时间注意力Mt:
Mt(Input)=σ(Conv([AvgPool(Input);MaxPool(Input)])) (8)
式中,Conv表示卷积核大小为(1,1,1)的三维卷积运算,AvgPool表示平均池化层,MaxPool表示最大池化层;
步骤4:将骨架描述符输入三维图卷积提取时空特征,根据公式(9)、(10)和(11)计算三维图卷积Output:
B(vti)={v(t+Δt)j|d(vti,v(t+Δt)i,v(t+Δt)j)=Δt+d(v(t+Δt)i,v(t+Δt)j),d(v(t+Δt)i,v(t+Δt)j)<D,Δt<τ} (10)
Output=fout*Ms*Mt+fout (11)
式中,B(vti)表示邻居节点集合,d(vti,vtj)表示从节点vti到节点vtj的路径长度,w(t+Δt)j表示权重参数矩阵w在(t+Δt,j)位置处的权重值;Ms是大小为N×N的可训练的关节注意度参数矩阵;
步骤5:通过平均池化层和全连接层得到如式(12)所示的分类结果;
o={oi|i=1,2,...,C} (12)
式中,C是类别总数,oi表示全连接层后得到的第i个类别的概率,概率最大的类别即为识别出来的动作类别;
步骤6:根据式(13)计算损失函数以训练网络,迭代权重,得到更好的分类效果,
式中,ci是第i个动作类别,e为自然数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010691506.7A CN111797806A (zh) | 2020-07-17 | 2020-07-17 | 一种基于2d骨架的三维图卷积行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010691506.7A CN111797806A (zh) | 2020-07-17 | 2020-07-17 | 一种基于2d骨架的三维图卷积行为识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111797806A true CN111797806A (zh) | 2020-10-20 |
Family
ID=72807619
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010691506.7A Withdrawn CN111797806A (zh) | 2020-07-17 | 2020-07-17 | 一种基于2d骨架的三维图卷积行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111797806A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597883A (zh) * | 2020-12-22 | 2021-04-02 | 武汉大学 | 一种基于广义图卷积和强化学习的人体骨架动作识别方法 |
CN112836824A (zh) * | 2021-03-04 | 2021-05-25 | 上海交通大学 | 单目三维人体位姿无监督学习方法、系统及介质 |
CN113011381A (zh) * | 2021-04-09 | 2021-06-22 | 中国科学技术大学 | 基于骨骼关节数据的双人动作识别方法 |
-
2020
- 2020-07-17 CN CN202010691506.7A patent/CN111797806A/zh not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597883A (zh) * | 2020-12-22 | 2021-04-02 | 武汉大学 | 一种基于广义图卷积和强化学习的人体骨架动作识别方法 |
CN112597883B (zh) * | 2020-12-22 | 2024-02-09 | 武汉大学 | 一种基于广义图卷积和强化学习的人体骨架动作识别方法 |
CN112836824A (zh) * | 2021-03-04 | 2021-05-25 | 上海交通大学 | 单目三维人体位姿无监督学习方法、系统及介质 |
CN113011381A (zh) * | 2021-04-09 | 2021-06-22 | 中国科学技术大学 | 基于骨骼关节数据的双人动作识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7482181B2 (ja) | 画像処理装置、画像処理方法 | |
Nadeem et al. | Human actions tracking and recognition based on body parts detection via Artificial neural network | |
US10198823B1 (en) | Segmentation of object image data from background image data | |
Han et al. | Space-time representation of people based on 3D skeletal data: A review | |
US7831087B2 (en) | Method for visual-based recognition of an object | |
Han et al. | Fusion of color and infrared video for moving human detection | |
US8073200B2 (en) | Information processing apparatus, information processing method, and computer program | |
CN111797806A (zh) | 一种基于2d骨架的三维图卷积行为识别方法 | |
Sehairi et al. | Elderly fall detection system based on multiple shape features and motion analysis | |
Shao et al. | Computer vision for RGB-D sensors: Kinect and its applications [special issue intro.] | |
Chen et al. | Discovering social interactions in real work environments | |
GB2492779A (en) | Pose comparing system | |
US9183635B2 (en) | Method for reconstructing 3D lines from 2D lines in an image | |
WO2013003860A1 (en) | Subject sensing in an environment | |
CN104182747A (zh) | 基于多个立体相机的对象检测跟踪方法及装置 | |
Brenner et al. | RGB-D and thermal sensor fusion: a systematic literature review | |
CN106127119B (zh) | 基于彩色图像和深度图像多特征的联合数据关联方法 | |
Rogez et al. | Monocular 3-D gait tracking in surveillance scenes | |
Ershadi-Nasab et al. | Uncalibrated multi-view multiple humans association and 3D pose estimation by adversarial learning | |
Rougier et al. | 3D head trajectory using a single camera | |
Mohsin et al. | Clustering and Identification of key body extremities through topological analysis of multi-sensors 3D data | |
Liu et al. | A study of chained stochastic tracking in RGB and depth sensing | |
Gutfeter et al. | Fusion of depth and thermal imaging for people detection | |
Han et al. | RGB-D human identification and tracking in a smart environment | |
Boyle et al. | Advances in Visual Computing: Third International Symposium, ISVC 2007, Lake Tahoe, NV, USA, November 26-28, 2007, Proceedings, Part I |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201020 |
|
WW01 | Invention patent application withdrawn after publication |