CN112381004B - 一种基于骨架的双流自适应图卷积网络行为识别方法 - Google Patents

一种基于骨架的双流自适应图卷积网络行为识别方法 Download PDF

Info

Publication number
CN112381004B
CN112381004B CN202011282994.2A CN202011282994A CN112381004B CN 112381004 B CN112381004 B CN 112381004B CN 202011282994 A CN202011282994 A CN 202011282994A CN 112381004 B CN112381004 B CN 112381004B
Authority
CN
China
Prior art keywords
adaptive
graph
skeleton
network
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011282994.2A
Other languages
English (en)
Other versions
CN112381004A (zh
Inventor
田联房
余陆斌
杜启亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Original Assignee
South China University of Technology SCUT
Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT, Zhuhai Institute of Modern Industrial Innovation of South China University of Technology filed Critical South China University of Technology SCUT
Priority to CN202011282994.2A priority Critical patent/CN112381004B/zh
Publication of CN112381004A publication Critical patent/CN112381004A/zh
Application granted granted Critical
Publication of CN112381004B publication Critical patent/CN112381004B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种基于骨架的双流自适应图卷积网络行为识别方法,包括步骤:1)视频图像采集;2)标注视频中人体的骨架信息和行为类别,构建训练集;3)构建自适应空间域图卷积单元Convs和自适应时间域图卷积单元Convt;4)利用自适应空间域图卷积单元Convs和自适应时间域图卷积单元Convt构建自适应图卷积模块;5)利用自适应图卷积模块构建自适应图卷积网络;6)利用自适应图卷积网络构建双流自适应图卷积网络;7)利用训练集训练双流自适应图卷积网络;8)利用训练得到的双流自适应图卷积网络对视频图像中的人体行为进行识别。通过本发明可有效提升人体行为种类识别的准确度,为各种计算机视觉处理应用打下了良好的基础。

Description

一种基于骨架的双流自适应图卷积网络行为识别方法
技术领域
本发明涉及图像模式识别和深度神经网络的技术领域,尤其是指一种基于骨架的双流自适应图卷积网络行为识别方法。
背景技术
目前,视频中的人体行为识别是目前计算机视觉领域中最活跃的研究主题之一,它在智能视频监控、人机交互、基于内容的视频检索、虚拟现实等方面具有广泛的应用前景和潜在经济价值。
传统的行为识别算法多用RGB视频作为输入,但当RGB视频中背景动态干扰较多,光照不稳定,噪声严重时,传统行为识别算法的效果会受到影响。近年来,与传统的使用RGB视频进行识别的方法相比,基于骨架的行为识别因其对动态环境和复杂背景的适应性强而越来越受到关注。
提取视频中人体骨架关节为顶点,其在人体中的自然连接为边作为行为识别算法输入能大大降低视频中的环境干扰对算法识别率的影响。现有的基于骨架的行为识别算法输入的骨架连接是根据人体自然连接定义的,没有充分利用骨架关节之间的信息,同时也没有充分利用关节的前后帧信息,因此急需提出一种自适应调节骨架连接识别并且充分利用空间时间信息的自适应方法。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于骨架的双流自适应图卷积网络行为识别方法,该方法通过搜集大量视频中人体行为的骨架数据,并基于图卷积网络技术,充分利用骨架的时空相关性信息,实现了有效识别视频中人体行为的目的。
为实现上述目的,本发明所提供的技术方案为:一种基于骨架的双流自适应图卷积网络行为识别方法,包括以下步骤:
1)视频图像采集;
2)标注视频中人体的骨架信息和行为类别,构建训练集;
3)构建自适应空间域图卷积单元Convs和自适应时间域图卷积单元Convt;
4)利用自适应空间域图卷积单元Convs和自适应时间域图卷积单元Convt构建自适应图卷积模块;
5)利用自适应图卷积模块构建自适应图卷积网络;
6)利用自适应图卷积网络构建双流自适应图卷积网络;
7)利用训练集训练双流自适应图卷积网络;
8)利用训练得到的双流自适应图卷积网络对视频图像中的人体行为进行识别。
在步骤1)中,利用摄像头拍摄包含不同人体行为的视频,其视角要求为从人体正面拍摄,并将人体放在画面正中区域。
在步骤2)中,利用OpenPose算法检测视频中的人体骨架关键点,利用分区策略构建训练集;包括以下步骤:
2.1)提取人体骨架关键点
利用OpenPose算法检测视频中的人体骨架关键点,记录第i个人体行为所有帧的关键点的坐标信息和对应的行为标签,坐标信息xi记录为大小T×V的矩阵,记录规则为:xi的第t行第v列元素为第i个人体行为中第t帧时第v个关键点的x坐标与y坐标乘积;行为标签记录为T×1的向量yi,遍历视频的每一帧后得到人体骨架关键点关节训练集和对应的训练集标签/>其中,/>表示实数域,N为视频中不同行为的人体总数,T为行为经历的视频帧数,V为人体骨架关键点个数;
得到人体骨架关键点关节训练集XJ后构建人体骨架关键点骨骼训练集构建规则如下:XB的第i元素为第i个关键点坐标与第i-1个关键点坐标相减得到的骨骼向量,因第一个关键点没有前一序号关键点,XB的第一个元素为/>其中/>为XJ的平均值;
2.2)根据分区策略构建训练集
根据分区策略将XJ扩展得到分区骨架关键点关节训练集根据分区策略将XB扩展得到分区骨架关键点骨骼训练集/>Kv是子集总数;
分区策略为:选取骨架中的任一关键点为根节点,遍历所有骨架中的所有点,以根节点直接相连的邻域为分区范围,将根节点分为子集合0,分区范围内比根节点更接近骨架重心的邻节点(近心点)集合为子集合1,分区范围内比根节点更远离骨架重心的邻节点(远心点)集合为子集合2;分区策略公式如下:
式中,labelti(vtj)表示第t帧中第i个根节点邻域中第j个点的子集标签,vtij为第t帧中第i个根节点邻域中的第j个点,其中,t∈[1,T],i∈[1,V],rti为第t帧中第i个根节点到t帧骨架重心的距离,rtj为第t帧中第i个根节点邻域中第j个点到t帧骨架重心的距离。
在步骤3)中,自适应空间域图卷积单元Convs构建过程为:根据输入特征图得到邻接矩阵和空间注意力矩阵Spatial,利用自适应系数加权后与输入特征图相乘,叠加通道后经过1×1空间域图卷积得到输出特征图;
自适应空间域图卷积单元Convs实现用公式表示如下:
式中,fin、fout表示输入特征图和输出特征图,α为随着训练迭代更新的空间自适应系数,Ak是根据人体骨架连接关系得到的邻接矩阵,Spatial是空间注意力矩阵,Ws k是空间域1×1卷积的权重,k是子集序号,Kv是子集总数;
Ak的计算规则为:骨架中第n个节点和第m个节点若相连,则Ak中第n行第m列元素为1,否则为0,当n=m时,第n行第m列为1;空间注意力矩阵Spatial的计算规则为:对坐标信息xi的第一维计算方差,归一化后得到大小为1×V的变化幅度向量Δ,根据变化幅度向量Δ得到大小为V×V的空间注意力矩阵Spatial,V为人体骨架关键点个数;具体规则如下公式:Spatial(n,m)=Δ(n)+Δ(m);其中Spatial(n,m)表示Spatial中的第n行第m列元素;Δ(n),Δ(m)表示Δ中的第n,m个元素;
自适应时间域图卷积单元Convt的构建过程为:据输入特征图得到时间注意力矩阵Temporal,利用自适应系数和单位矩阵E加权后,与输入特征图相乘,经过卷积核大小为Kt×1时间域图卷积得到输出特征图;Temporal的计算规则为:对坐标信息xi第二维计算方差,归一化后得到大小为T×1的时间注意力矩阵,T为行为经历的视频帧数;
自适应时间域图卷积单元Convt实现用公式表示:
fout=Wtfin(βE+(1-β)Temporal)
式中,fin、fout表示输入特征图和输出特征图,Temporal是时间注意力矩阵,β为随着训练迭代更新的空间自适应系数,E为单位矩阵,Wt是时间域Kt×1图卷积权重,Kt×1为卷积核大小。
在步骤4)中,利用自适应空间域图卷积单元Convs和自适应时间域图卷积单元Convt构建自适应图卷积模块,用于处理输入特征图fin,输入特征图fin通过自适应图卷积模块得到输出特征图fout;所述自适应图卷积模由自适应空间域图卷积单元Convs、BN层、Relu层、Dropout层、自适应时间域图卷积单元Convt、BN层和Relu层依次连接而成。
在步骤5)中,利用自适应图卷积模块构建自适应卷积网络,用于处理输入数据集Data,输入数据集Data通过自适应图卷积网络得到预测结果Label;所述自适应图卷积网络由BN层、9个自适应图卷积模块L1、L2、L3、L4、L5、L6、L7、L8、L9、全局平均池化层GAP和Softmax分类器依次连接而成。
在步骤6)中,利用自适应图卷积网络构建双流自适应卷积网络,用于处理两个输入数据集,两个输入数据集通过双流自适应图卷积网络得到预测结果;所述双流自适应卷积网络包含两路自适应图卷积网络,具体为:第一路自适应图卷积网络(Joint-Stream)用于处理关键点关节数据(Joint data),该网络得到的预测结果为PJ;第二路自适应卷积网络(Bone-Stream)用于处理关键点骨骼数据(Bone data),该网络得到的预测结果为PB;将两路自适应图卷积网络的预测结果加权得到预测结果P;加权规则为:P=wPJ+(1-w)PB,其中,w是预测结果加权系数。
在步骤7)中,将分区骨架关键点关节训练集分区骨架关键点骨骼训练集/>和训练集标签Y输入双流自适应图卷积网络进行训练,迭代训练Z轮后,得到训练好的双流自适应图卷积网络。
在步骤8)中,利用双流自适应卷积网络进行行为识别,具体操作是:利用OpenPose算法提取待检测视频中的人体骨架关键点,构建测试集和标签,再将测试集和标签输入到训练好的双流自适应图卷积网络得到预测结果。
本发明与现有技术相比,具有如下优点与有益效果:
现有的基于图卷积网络识别方法不能有效地对时空图中的空间信息和运动信息进行融合实现端到端的训练,而本发明构建的自适应空间域图卷积单元Convs和自适应时间域图卷积单元Convt对运动姿态和骨架关节点在时空域上进行特征融合并自适应特征增强,针对时域内存在的大量干扰信息,构建时间注意力矩阵Temporal进行有效的抑制,同时构建空间注意力矩阵Spatial进一步提高识别的性能。总之,本发明在多个大型骨架数据集上进行实验,与常用方法进行比较,实时性和识别准确率上均有明显提高。
附图说明
图1为人体骨架关键点示意图。
图2为分区策略示意图。
图3为自适应空间域图卷积单元Convs架构图。
图4为自适应图卷积模块架构图。
图5为自适应图卷积网络架构图。
图6为双流自适应图卷积网络架构图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
如图1至图6所示,本实施例所提供的基于骨架的双流自适应图卷积网络行为识别方法,包括以下步骤:
1)利用摄像头拍摄包含不同人体行为的视频,其视角要求为从人体正面拍摄,并将人体放在画面正中区域。本实施例中选用的摄像头分辨率为1080p。
2)利用OpenPose算法检测视频中的人体骨架关键点,利用分区策略构建训练集,包括以下步骤:
2.1)提取人体骨架关键点
利用OpenPose算法检测视频中的人体骨架关键点,记录第i个人体行为所有帧的关键点的坐标信息和对应的行为标签,人体骨架关键点序号如图1所示;坐标信息xi记录为大小T×V的矩阵,记录规则为:xi的第t行第v列元素为第i个人体行为中第t帧时第v个关键点的x坐标与y坐标乘积。行为标签记录为T×1的向量yi,遍历视频的每一帧后得到人体骨架关键点关节训练集和对应的训练集标签其中,/>表示实数域,N为视频中不同行为的人体总数,T为行为经历的视频帧数,V为人体骨架关键点个数;本实施例中N=10000,T=300,V=14。
得到人体骨架关键点关节训练集XJ后构建人体骨架关键点骨骼训练集构建规则如下:XB的第i元素为第i个关键点坐标与第i-1个关键点坐标相减得到的骨骼向量,因第一个关键点没有前一序号关键点,XB的第一个元素为/>其中/>为XJ的平均值。
2.2)根据分区策略构建训练集
根据分区策略将XJ扩展得到分区骨架关键点关节训练集根据分区策略将XB扩展得到分区骨架关键点骨骼训练集/>Kv是子集总数。在本实施例中Kv=3。
分区策略为:选取骨架中的任一关键点为根节点,遍历所有骨架中的所有点,以根节点直接相连的邻域为分区范围,将根节点分为子集合0,分区范围内比根节点更接近骨架重心的邻节点(近心点)集合为子集合1,分区范围内比根节点更远离骨架重心的邻节点(远心点)集合为子集合2;分区策略公式如下:
式中,labelti(vtj)表示第t帧中第i个根节点邻域中第j个点的子集标签,vtij为第t帧中第i个根节点邻域中的第j个点,其中,t∈[1,T],i∈[1,V],rti为第t帧中第i个根节点到t帧骨架重心的距离,rtj为第t帧中第i个根节点邻域中第j个点到t帧骨架重心的距离。
一个分区策略例子示意图如图2所示,图中4号节点为根节点,灰色实线包围区域为与4号节点直接相连的邻域,虚线表示各个节点与重心的距离,根据各个节点与重心的距离划分,4号节点为子集0,3号节点和5号节点为远心点子集2,不存在近心点子集1。
3)构建自适应空间域图卷积单元Convs和自适应时间域图卷积单元Convt,具体情况如下:
自适应空间域图卷积单元Convs构建过程为:根据输入特征图得到邻接矩阵和空间注意力矩阵Spatial,利用自适应系数加权后与输入特征图相乘,叠加通道后经过1×1空间域图卷积得到输出特征图;
自适应空间域图卷积单元Convs实现用公式表示如下:
式中,fin、fout表示输入特征图和输出特征图,α为随着训练迭代更新的空间自适应系数,Ak是根据人体骨架连接关系得到的邻接矩阵,Spatial是空间注意力矩阵,Ws k是空间域1×1卷积的权重,k是子集序号;
Ak的计算规则为:骨架中第n个节点和第m个节点若相连,则Ak中第n行第m列元素为1,否则为0,当n=m时,第n行第m列为1;空间注意力矩阵Spatial的计算规则为:对坐标信息xi的第一维计算方差,归一化后得到大小为1×V的变化幅度向量Δ,根据变化幅度向量Δ得到大小为V×V的空间注意力矩阵Spatial,V为人体骨架关键点个数;具体规则如下公式:Spatial(n,m)=Δ(n)+Δ(m);其中Spatial(n,m)表示Spatial中的第n行第m列元素;Δ(n),Δ(m)表示Δ中的第n,m个元素;
自适应空间域图卷积单元Convs架构如图3所示。在本实施例中Ak为14×14矩阵,Cin,Cout为输入特征图通道数和输出特征图通道数,/>所有元素初始化为0,α初始化为1。
自适应时间域图卷积单元Convt的构建过程为:据输入特征图得到时间注意力矩阵Temporal,利用自适应系数和单位矩阵E加权后,与输入特征图相乘,经过卷积核大小为Kt×1时间域图卷积得到输出特征图;Temporal的计算规则为:对坐标信息xi第二维计算方差,归一化后得到大小为T×1的时间注意力矩阵,T为行为经历的视频帧数;
自适应时间域图卷积单元Convt实现用公式表示:
fout=Wtfin(βE+(1-β)Temporal)
式中,fin、fout表示输入特征图和输出特征图,Temporal是时间注意力矩阵,β为随着训练迭代更新的空间自适应系数,E为单位矩阵,Wt是时间域Kt×1图卷积权重,Kt×1为卷积核大小。
在本实施例中Cin,Cout为输入特征图通道数和输出特征图通道数,Kt=9,Wt所有元素初始化为0,β初始化为1。
4)利用自适应空间域图卷积单元Convs和自适应时间域图卷积单元Convt构建自适应图卷积模块,用于处理输入特征图fin,输入特征图fin通过自适应图卷积模块得到输出特征图fout;所述自适应图卷积模由自适应空间域图卷积单元Convs、BN层、Relu层、Dropout层、自适应时间域图卷积单元Convt、BN层和Relu层依次连接而成。
自适应图卷积模块架构如图4所示。在本实施例中,Dropout层中丢弃率为0.5。
5)利用自适应图卷积模块构建自适应卷积网络,用于处理输入数据集Data,输入数据集Data通过自适应图卷积网络得到预测结果Label;所述自适应图卷积网络由BN层、9个自适应图卷积模块L1、L2、L3、L4、L5、L6、L7、L8、L9、全局平均池化层GAP和Softmax分类器依次连接而成。
自适应图卷积网络架构如图5所示。在本实施例中,L1的输入通道为3,输出通道为64,步长为1,L2和L3的输入通道为64,输出通道为64,步长为1。L4的输入通道为64,输出通道为128,步长为2,L5和L6的输入通道为128,输出通道为128,步长为1。L7的输入通道为128,输出通道为256,步长为2,L8和L9的输入通道为256,输出通道为256,步长为1。
6)利用自适应图卷积网络构建双流自适应卷积网络,用于处理两个输入数据集,两个输入数据集通过双流自适应图卷积网络得到预测结果;所述双流自适应卷积网络包含两路自适应图卷积网络,具体为:第一路自适应图卷积网络(Joint-Stream)用于处理关键点关节数据(Joint data),该网络得到的预测结果为PJ;第二路自适应卷积网络(Bone-Stream)用于处理关键点骨骼数据(Bone data),该网络得到的预测结果为PB;将两路自适应图卷积网络的预测结果加权得到双流自适应图卷积网络预测结果P;加权规则如下:P=wPJ+(1-w)PB,其中w是预测结果加权系数。
双流自适应卷积网络架构如图6所示。在本实施例中,w=0.5。
7)训练双流自适应卷积网络,具体操作是:将分区骨架关键点关节训练集分区骨架关键点骨骼训练集/>和训练集标签Y输入双流自适应图卷积网络进行训练,迭代训练Z轮后,得到训练好的双流自适应图卷积网络。
在本实施例中训练参数如下:迭代次数Z=50,学习率为0.1,当迭代次数到30次时学习率除以10,当迭代次数到40次时学习率再除以10,权重衰减为0.0001,梯度下降策略为Nesterov算法。
8)利用训练好的双流自适应卷积网络进行行为识别,具体步骤如下:利用OpenPose算法提取待检测视频中的人体骨架关键点,构建测试集和标签,构建方法如同步骤2);将测试集和标签输入到训练好的双流自适应图卷积网络模型即可得到预测结果。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (8)

1.一种基于骨架的双流自适应图卷积网络行为识别方法,其特征在于,包括以下步骤:
1)视频图像采集;
2)标注视频中人体的骨架信息和行为类别,构建训练集;
3)构建自适应空间域图卷积单元Convs和自适应时间域图卷积单元Convt;
自适应空间域图卷积单元Convs构建过程为:根据输入特征图得到邻接矩阵和空间注意力矩阵Spatial,利用自适应系数加权后与输入特征图相乘,叠加通道后经过1×1空间域图卷积得到输出特征图;
自适应空间域图卷积单元Convs实现用公式表示如下:
式中,fin、fout表示输入特征图和输出特征图,α为随着训练迭代更新的空间自适应系数,Ak是根据人体骨架连接关系得到的邻接矩阵,Spatial是空间注意力矩阵,是空间域1×1卷积的权重,k是子集序号,Kv是子集总数;
Ak的计算规则为:骨架中第n个节点和第m个节点若相连,则Ak中第n行第m列元素为1,否则为0,当n=m时,第n行第m列为1;空间注意力矩阵Spatial的计算规则为:对坐标信息xi的第一维计算方差,归一化后得到大小为1×V的变化幅度向量Δ,根据变化幅度向量Δ得到大小为V×V的空间注意力矩阵Spatial,V为人体骨架关键点个数;具体规则如下公式:Spatial(n,m)=Δ(n)+Δ(m);其中Spatial(n,m)表示Spatial中的第n行第m列元素;Δ(n),Δ(m)表示Δ中的第n,m个元素;
自适应时间域图卷积单元Convt的构建过程为:据输入特征图得到时间注意力矩阵Temporal,利用自适应系数和单位矩阵E加权后,与输入特征图相乘,经过卷积核大小为Kt×1时间域图卷积得到输出特征图;Temporal的计算规则为:对坐标信息xi第二维计算方差,归一化后得到大小为T×1的时间注意力矩阵,T为行为经历的视频帧数;
自适应时间域图卷积单元Convt实现用公式表示:
fout=Wtfin(βE+(1-β)Temporal)
式中,fin、fout表示输入特征图和输出特征图,Temporal是时间注意力矩阵,β为随着训练迭代更新的空间自适应系数,E为单位矩阵,Wt是时间域Kt×1图卷积权重,Kt×1为卷积核大小;
4)利用自适应空间域图卷积单元Convs和自适应时间域图卷积单元Convt构建自适应图卷积模块;
5)利用自适应图卷积模块构建自适应图卷积网络;
6)利用自适应图卷积网络构建双流自适应图卷积网络;
7)利用训练集训练双流自适应图卷积网络;
8)利用训练得到的双流自适应图卷积网络对视频图像中的人体行为进行识别。
2.根据权利要求1所述的一种基于骨架的双流自适应图卷积网络行为识别方法,其特征在于:在步骤1)中,利用摄像头拍摄包含不同人体行为的视频,其视角要求为从人体正面拍摄,并将人体放在画面正中区域。
3.根据权利要求1所述的一种基于骨架的双流自适应图卷积网络行为识别方法,其特征在于:在步骤2)中,利用OpenPose算法检测视频中的人体骨架关键点,利用分区策略构建训练集;包括以下步骤:
2.1)提取人体骨架关键点
利用OpenPose算法检测视频中的人体骨架关键点,记录第i个人体行为所有帧的关键点的坐标信息和对应的行为标签,坐标信息xi记录为大小T×V的矩阵,记录规则为:xi的第t行第v列元素为第i个人体行为中第t帧时第v个关键点的x坐标与y坐标乘积;行为标签记录为T×1的向量yi,遍历视频的每一帧后得到人体骨架关键点关节训练集和对应的训练集标签/>其中,/>表示实数域,N为视频中不同行为的人体总数,T为行为经历的视频帧数,V为人体骨架关键点个数;
得到人体骨架关键点关节训练集XJ后构建人体骨架关键点骨骼训练集构建规则如下:XB的第i元素为第i个关键点坐标与第i-1个关键点坐标相减得到的骨骼向量,因第一个关键点没有前一序号关键点,XB的第一个元素为/>其中/>为XJ的平均值;
2.2)根据分区策略构建训练集
根据分区策略将XJ扩展得到分区骨架关键点关节训练集根据分区策略将XB扩展得到分区骨架关键点骨骼训练集/>Kv是子集总数;
分区策略为:选取骨架中的任一关键点为根节点,遍历所有骨架中的所有点,以根节点直接相连的邻域为分区范围,将根节点分为子集合0,分区范围内比根节点更接近骨架重心的邻节点集合为子集合1,分区范围内比根节点更远离骨架重心的邻节点集合为子集合2;分区策略公式如下:
式中,labelti(vtj)表示第t帧中第i个根节点邻域中第j个点的子集标签,vtij为第t帧中第i个根节点邻域中的第j个点,其中,t∈[1,T],i∈[1,V],rti为第t帧中第i个根节点到t帧骨架重心的距离,rtj为第t帧中第i个根节点邻域中第j个点到t帧骨架重心的距离。
4.根据权利要求1所述的一种基于骨架的双流自适应图卷积网络行为识别方法,其特征在于:在步骤4)中,利用自适应空间域图卷积单元Convs和自适应时间域图卷积单元Convt构建自适应图卷积模块,用于处理输入特征图fin,输入特征图fin通过自适应图卷积模块得到输出特征图fout;所述自适应图卷积模由自适应空间域图卷积单元Convs、BN层、Relu层、Dropout层、自适应时间域图卷积单元Convt、BN层和Relu层依次连接而成。
5.根据权利要求1所述的一种基于骨架的双流自适应图卷积网络行为识别方法,其特征在于:在步骤5)中,利用自适应图卷积模块构建自适应卷积网络,用于处理输入数据集Data,输入数据集Data通过自适应图卷积网络得到预测结果Label;所述自适应图卷积网络由BN层、9个自适应图卷积模块L1、L2、L3、L4、L5、L6、L7、L8、L9、全局平均池化层GAP和Softmax分类器依次连接而成。
6.根据权利要求1所述的一种基于骨架的双流自适应图卷积网络行为识别方法,其特征在于:在步骤6)中,利用自适应图卷积网络构建双流自适应卷积网络,用于处理两个输入数据集,两个输入数据集通过双流自适应图卷积网络得到预测结果;所述双流自适应卷积网络包含两路自适应图卷积网络,具体为:第一路自适应图卷积网络用于处理关键点关节数据,该网络得到的预测结果为PJ;第二路自适应卷积网络用于处理关键点骨骼数据,该网络得到的预测结果为PB;将两路自适应图卷积网络的预测结果加权得到预测结果P;加权规则为:P=wPJ+(1-w)PB,其中,w是预测结果加权系数。
7.根据权利要求1所述的一种基于骨架的双流自适应图卷积网络行为识别方法,其特征在于:在步骤7)中,将分区骨架关键点关节训练集分区骨架关键点骨骼训练集/>和训练集标签Y输入双流自适应图卷积网络进行训练,迭代训练Z轮后,得到训练好的双流自适应图卷积网络。
8.根据权利要求1所述的一种基于骨架的双流自适应图卷积网络行为识别方法,其特征在于:在步骤8)中,利用双流自适应卷积网络进行行为识别,具体操作是:利用OpenPose算法提取待检测视频中的人体骨架关键点,构建测试集和标签,再将测试集和标签输入到训练好的双流自适应图卷积网络得到预测结果。
CN202011282994.2A 2020-11-17 2020-11-17 一种基于骨架的双流自适应图卷积网络行为识别方法 Active CN112381004B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011282994.2A CN112381004B (zh) 2020-11-17 2020-11-17 一种基于骨架的双流自适应图卷积网络行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011282994.2A CN112381004B (zh) 2020-11-17 2020-11-17 一种基于骨架的双流自适应图卷积网络行为识别方法

Publications (2)

Publication Number Publication Date
CN112381004A CN112381004A (zh) 2021-02-19
CN112381004B true CN112381004B (zh) 2023-08-08

Family

ID=74585599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011282994.2A Active CN112381004B (zh) 2020-11-17 2020-11-17 一种基于骨架的双流自适应图卷积网络行为识别方法

Country Status (1)

Country Link
CN (1) CN112381004B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113158970B (zh) * 2021-05-11 2023-02-07 清华大学 一种基于快慢双流图卷积神经网络的动作识别方法与系统
CN113673560B (zh) * 2021-07-15 2023-06-09 华南理工大学 一种基于多流三维自适应图卷积的人体行为识别方法
CN113283400B (zh) * 2021-07-19 2021-11-12 成都考拉悠然科技有限公司 一种基于选择性超图卷积网络的骨架动作识别方法
CN113688765B (zh) * 2021-08-31 2023-06-27 南京信息工程大学 一种基于注意力机制的自适应图卷积网络的动作识别方法
CN114092963B (zh) * 2021-10-14 2023-09-22 北京百度网讯科技有限公司 关键点检测及模型训练方法、装置、设备和存储介质
CN113963201B (zh) * 2021-10-18 2022-06-14 郑州大学 骨骼动作识别方法、装置、电子设备及存储介质
CN115731243B (zh) * 2022-11-29 2024-02-09 北京长木谷医疗科技股份有限公司 基于人工智能及注意力机制的脊柱图像分割方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203283A (zh) * 2016-06-30 2016-12-07 重庆理工大学 基于三维卷积深度神经网络和深度视频的动作识别方法
CN106203363A (zh) * 2016-07-15 2016-12-07 中国科学院自动化研究所 人体骨架运动序列行为识别方法
CN108846365A (zh) * 2018-06-24 2018-11-20 深圳市中悦科技有限公司 视频中打架行为的检测方法、装置、存储介质及处理器
CN110751072A (zh) * 2019-10-12 2020-02-04 西安电子科技大学 基于知识嵌入图卷积网络的双人交互识别方法
CN111401144A (zh) * 2020-02-26 2020-07-10 华南理工大学 一种基于视频监控的手扶电梯乘客行为识别方法
CN111476181A (zh) * 2020-04-13 2020-07-31 河北工业大学 一种人体骨架动作的识别方法
CN111652124A (zh) * 2020-06-02 2020-09-11 电子科技大学 一种基于图卷积网络的人体行为识别模型的构建方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203283A (zh) * 2016-06-30 2016-12-07 重庆理工大学 基于三维卷积深度神经网络和深度视频的动作识别方法
CN106203363A (zh) * 2016-07-15 2016-12-07 中国科学院自动化研究所 人体骨架运动序列行为识别方法
CN108846365A (zh) * 2018-06-24 2018-11-20 深圳市中悦科技有限公司 视频中打架行为的检测方法、装置、存储介质及处理器
CN110751072A (zh) * 2019-10-12 2020-02-04 西安电子科技大学 基于知识嵌入图卷积网络的双人交互识别方法
CN111401144A (zh) * 2020-02-26 2020-07-10 华南理工大学 一种基于视频监控的手扶电梯乘客行为识别方法
CN111476181A (zh) * 2020-04-13 2020-07-31 河北工业大学 一种人体骨架动作的识别方法
CN111652124A (zh) * 2020-06-02 2020-09-11 电子科技大学 一种基于图卷积网络的人体行为识别模型的构建方法

Also Published As

Publication number Publication date
CN112381004A (zh) 2021-02-19

Similar Documents

Publication Publication Date Title
CN112381004B (zh) 一种基于骨架的双流自适应图卷积网络行为识别方法
CN109961034B (zh) 基于卷积门控循环神经单元的视频目标检测方法
Sun et al. Lattice long short-term memory for human action recognition
CN106407889B (zh) 基于光流图深度学习模型在视频中人体交互动作识别方法
CN110852267B (zh) 基于光流融合型深度神经网络的人群密度估计方法及装置
CN107341452A (zh) 基于四元数时空卷积神经网络的人体行为识别方法
CN112818969B (zh) 一种基于知识蒸馏的人脸姿态估计方法及系统
CN110503666B (zh) 一种基于视频的密集人群计数方法与系统
CN113673560B (zh) 一种基于多流三维自适应图卷积的人体行为识别方法
CN111401207B (zh) 基于mars深度特征提取与增强的人体动作识别方法
CN113610046B (zh) 一种基于深度视频联动特征的行为识别方法
CN114821640B (zh) 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法
Wu et al. Pose-Guided Inflated 3D ConvNet for action recognition in videos
CN114360067A (zh) 一种基于深度学习的动态手势识别方法
Chen et al. Tssd: Temporal single-shot detector based on attention and lstm
CN112308087B (zh) 基于动态视觉传感器的一体化成像识别方法
CN113239866A (zh) 一种时空特征融合与样本注意增强的人脸识别方法及系统
CN111144220B (zh) 适于大数据的人员检测方法、装置、设备和介质
Son et al. Partial convolutional LSTM for spatiotemporal prediction of incomplete data
Lu et al. Multimode gesture recognition algorithm based on convolutional long short-term memory network
CN114694261A (zh) 一种基于多级监督图卷积的视频三维人体姿态估计方法及系统
CN114067359A (zh) 融合人体关键点与可见部位注意力特征的行人检测方法
CN112434614A (zh) 一种基于Caffe框架的滑窗动作检测方法
CN111897988A (zh) 一种高光谱遥感图像分类方法及系统
Sun et al. A Deep Learning Method for Intelligent Analysis of Sports Training Postures

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant