CN111460928A - 一种人体动作识别系统及方法 - Google Patents

一种人体动作识别系统及方法 Download PDF

Info

Publication number
CN111460928A
CN111460928A CN202010186272.0A CN202010186272A CN111460928A CN 111460928 A CN111460928 A CN 111460928A CN 202010186272 A CN202010186272 A CN 202010186272A CN 111460928 A CN111460928 A CN 111460928A
Authority
CN
China
Prior art keywords
skeleton
semantic
dimension
joint
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010186272.0A
Other languages
English (en)
Other versions
CN111460928B (zh
Inventor
夏时洪
温玉辉
高林
钟重阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN202010186272.0A priority Critical patent/CN111460928B/zh
Publication of CN111460928A publication Critical patent/CN111460928A/zh
Application granted granted Critical
Publication of CN111460928B publication Critical patent/CN111460928B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于胶囊网络的人体动作识别系统及方法,构建包含基于语义图式图卷积的语义时空模块、广义注意力非局部模块、初级胶囊层和分类胶囊层组成的网络架构,将基于胶囊网络的架构用于基于骨架序列数据的动作识别,该网络架构利用图卷积和时间域卷积层提取骨架数据的时空特征,胶囊机制能够保持更为丰富的用于动作分类的信息,本发明进一步将广义注意力机制引入到胶囊网络架构中,建立细粒度全局依赖更好地表达时空特征,用于引导更为有效的初级胶囊的生成,初级胶囊通过路由算法与最相关的分类胶囊之间建立联系,从而提高人体动作识别准确性。

Description

一种人体动作识别系统及方法
技术领域
本发明涉及计算机视觉领域以及人工智能领域,具体来说,涉及人工智能领域中的人体动作识别,更具体地说,涉及一种人体动作识别系统及方法。
背景技术
人体动作识别是人工智能领域中一个重要的研究部分,现有技术下,主要是基于卷积神经网络对人体动作进行识别,但是,现有的基于卷积神经网络的人体动作识别方法,基于卷积神经网络对骨架数据特征进行学习,均会将卷积层提取的特征在最终输出到全局池化层得到标量输出,最后经过全连接层和Softmax(归一化指数函数)分类器得到最终的分类估计以实现对人体动作的识别。常用的基于卷积神经网络的人体动作识别方法:将骨架序列数据表示为一系列三维坐标,并通过传统卷积神经网络进行学习;将骨架序列数据人为设计成图片表示,并通过传统卷积神经网络进行学习;将骨架序列数据通过图结构表示,并利用图卷积神经网络进行学习。
现有的基于图卷积神经网络架构的人体动作识别方法,采用基于图卷积神经网络的结构,例如,如图1所示基于图卷积神经网络的人体动作识别网络包括初始层基本时空模块、9层叠加的基本时空模块、全局池化层、全连接层,每一个基本时空模块中均包含有图卷积和时间域卷积用于提取骨架数据的特征,叠加的卷积层提取的特征最后经过全局池化层,全局池化层会将每个特征通道转化为标量,重要信息(例如,位置,朝向,连接等)将会损失掉,因而限制了分类准确率。
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种新的能够保留骨架数据重要信息的人体动作识别系统及方法。
根据本发明的第一方面,本发明提供一种人体动作识别系统,包括:多个语义时空模块,用于对基于语义图式的骨架图表示的骨架序列数据进行语义图式图卷积操作以编码人体骨架中固有连接关系的关节之间的层级结构和包含高阶语义信息的潜在连接关系,得到骨架空间结构特征,并对经语义图式图卷积操作后的骨架序列数据进行时间域卷积操作得到其时空特征;其中,每个语义时空模块包括依次连接的语义图卷积模块、批量池化和非线性激活模块、时间域卷积模块、批量池化和非线性激活模块;广义注意力非局部模块,用于对经多个语义时空模块处理后的骨架序列数据的时空特征进行增强处理,构建骨架序列数据中任意位置之间的全局依赖关系;初级胶囊层,用于将经广义注意力非局部模块处理后的骨架序列数据按动作类别分别生成胶囊;分类胶囊层,包括多个分类胶囊,用于对经初级胶囊层生成的胶囊进行分类,每个分类胶囊对应一个动作类别。
其中,所述多个语义时空模块包括一个初始层语义时空模块和9个叠加的语义时空模块,初始层语义时空模块的输出为9个叠加的语义时空模块的输入,在9个叠加的语义时空模块中,上一个语义时空模块的输出为下一个时空模块的输入;其中,9个叠加的语义时空模块分别为第1层至第3层语义时空模块、第4层至第6层语义时空模块、第7层至第9层语义时空模块。优选的,所述初始层语义时空模块用于将骨架序列数据的三维时空特征的特征维度转换为64维同时保持其时间维度不变然后传输给第1层至第3层语义时空模块;所述第1层至第3层语义时空模块将经初始层语义时空模块处理后的骨架序列数据的特征维度转换为128维同时将其时间维度减半然后传输给第4层至第6层语义时空模块;所述第4层至第6层语义时空模块将经第1层至第3层语义时空模块处理后的骨架序列数据的特征维度转换为256维同时将其时间维度再减半,然后传输给广义注意力非局部模块。
根据本发明的第二方面,提供一种基于本发明第一方面的人体动作识别系统的人体动作识别方法,包括如下步骤:
S1、对待处理的骨架序列数据集中的每个关节的坐标进行预处理,以将每个骨架序列转换为预设时间维度对应的帧数,并将每个骨架序列的各关节坐标从原始相机坐标系转换成身体坐标系;
S2、将经过步骤S1预处理后的每个骨架序列中每一帧包含的骨架数据处理成基于语义图式的骨架图以得到基于语义图式的骨架图序列;其中,以骨架中的一个关节点作为一个目标关节点,基于目标关节点与其他关节点之间的固有连接关系和潜在连接关系,根据所有节点之间的连接关系构建基于语义图式的骨架图;
S3、对步骤S2中得到的骨架图序列进行语义图式图卷积操作,编码人体骨架中固有连接关系的关节之间的层级结构和包含高阶语义信息的潜在连接关系,得到骨架空间结构特征,并对经语义图式图卷积操作后的骨架图序列进行时间域卷积操作得到骨架图序列的时空特征;
S4、基于骨架图序列的时空特征,建立骨架中任意时空位置之间的全局依赖关系,并将全局依赖关系用于增强时空特征;
S5、基于经步骤S4处理后的骨架序列数据的特征,将特征沿着特征维度进行划分得到多个类别的向量,以构建初级胶囊;
S6、将步骤S5中构建的初级胶囊的信息与分类胶囊建立联系,每一个分类胶囊对应一类动作类别,其中,每一个分类胶囊的信息为所有初级胶囊的加权和,且每个初级胶囊的权重通过动态路由算法迭代更新获得,胶囊长度最长的分类胶囊对应的动作类别即为识别到的待处理的骨架序列数据对应的动作类别。
优选的,所述步骤S1包括:
S11、将待处理的骨架序列数据集中的每个骨架序列通过数据扩展的方式转换为预设时间维度对应的帧数;
S12、将经步骤S11处理后的骨架序列中各帧骨架的各关节坐标转为身体坐标系下的坐标,其中,骨架包含如下25个关节:尾椎、脊柱中部、颈部、头部、左肩、左肘、左腕、左手、右肩、右肘、右腕、右手、左髋、左膝、左踝、左脚、右髋、右膝、右踝、右脚、脊柱顶部、左指尖、手掌、右指尖、右手掌;以脊柱中部为原点,3D旋转使得右肩指向左肩的向量为X轴,尾椎指向脊柱顶部的向量为Y轴,X轴和Y轴的叉乘为Z轴,基于X轴、Y轴、Z轴将骨架序列中各帧骨架的关节点坐标转换为三维坐标并表示为V∈R3×25×F,V代表骨架序列属于实数集R,每个骨架序列中包含F帧、每帧25个关节、每个关节用3维坐标表示,F表示预设时间维度,骨架序列的帧数代表时间维度,关节数代表空间维度,坐标维数代表特征维度;
S13、以尾椎到脊柱顶部的距离作为单位距离,将骨架中每对关节之间的距离除以该单位距离以实现归一化。
所述步骤S2包括针对每一帧骨架数据执行如下步骤:
S21、为骨架的每个关节建立图的关节点,使骨架中的每一个关节对应于骨架图中的一个关节点,每一个关节配置一个节点标识并确定骨架重心对应的重心关节;
S22、基于骨架中的关节点之间的固有连接关系,建立骨架图的边;
S23、依次以骨架中的某个关节为目标关节,为该目标关节的固有连接的邻居关节定义不同的语义角色,包括目标关节本身、目标关节的父关节、目标关节的子关节,其中目标关节的父关节是指该目标关节的邻居关节中比目标关节更靠近重心关节的邻居关节,目标关节的子关节是指该目标关节的邻居关节中除了目标关节本身、目标关节的父关节以外的邻居关节;
S24、基于关节和关节的邻居关节的语义角色,为骨架图中表示关节之间的固有连接的边建立以箭头指示的方向,用于描述不同的语义角色关节之间的层级结构,其中,某一目标关节对应的固有连接从其父关节由箭头指向该目标关节再由该目标关节指向其子关节;
S25、在步骤S24处理后的骨架图基础上,为不存在固有连接关系的关节之间建立表示其潜在连接的边,形成当前帧的骨架数据对应的骨架图G(Vt,A),其包含关节点集合Vt和邻接矩阵
Figure BDA0002414304050000045
其中Vt∈RC1×25,表示第t帧骨架图特征的特征维度为C1维,对于初始层语义时空模块C1=3,空间维度为25维,A为邻接矩阵,用于表示骨架图中每对关节点之间的边所描述的语义连接关系。
所述步骤S3包括:
S31、对骨架图序列中的每一帧骨架图进行语义图式图卷积操作:
Figure BDA0002414304050000041
其中,第t帧的骨架特征Vt∈RC1×25包含M种语义连接关系,且语义连接关系m中包含Km个语义角色,
Figure BDA0002414304050000043
是对角矩阵,
Figure BDA0002414304050000044
表示语义连接关系m中的各个关节与语义角色k的邻居关节之间关系的卷积核参数,将骨架特征维度从C1维转换到C2维,用于特征变换提取高维特征,Ot∈RC2×25是第t帧的语义图式图卷积输出,特征维度为C2维,空间维度为25维,特征维度C2由当前语义图卷积卷积核参数确定;
所有骨架图的语义图式图卷积输出组成骨架图序列的语义图式图卷积输出矩阵O∈RC2×25×T1,其中,特征维度为C2维,空间维度为25维,时间维度为T1维,对于初始层语义时空模块,时间维度T1等于预设的时间维度;
S32、将步骤S31中骨架图序列的语义图式图卷积输出进行批量归一化操作得到其归一化特征;
S33、将步骤S32中得到的归一化特征输入到激活函数引入非线性因素进行非线性激活,得到骨架图序列的非线性特征;
S34、对步骤S33中得到的非线性特征进行时间域卷积处理得到骨架图序列的时空特征;
S35、对步骤S34中得到的时空特征进行批量归一化操作得到时空特征对应的归一化特征;
S36、对步骤S35中得到的归一化特征输入到激活函数引入非线性因素进行非线性激活,得到时空特征对应的非线性特征;
S37、将骨架图序列的语义图式图卷积输入通过残差连接到步骤S36的输出得到骨架图序列的初始时空特征;
S38、以步骤S37得到的初始时空特征作为输入,进行9次叠加语义图式图卷积、批量归一化操作、非线性激活、时间域卷积操作、批量归一化、非线性激活组成的组合操作以得到骨架图序列的时空特征矩阵:RC×25×T,其中,叠加操作中的上一次组合操作的输出是下一次的输入,且第1次至第3次组合操作对应的特征维度为C2维、空间维度为25维、时间维度为T1维,第4次至第6次组合操作的对应的特征维度为C2*2维、空间维度为25维、时间维度为T1/2维,第7次至第9次组合操作的对应的特征维度为C2*4维、空间维度为25维、时间维度为T1/4维,C=C2*4,T=T1/4。
所述步骤S4包括:
S41、将骨架图序列线性变换后的特征进行向量化以将特征沿着特征维度及时空维度展开表示为1维向量:
vec(WθP)∈RCN,vec(WφP)∈RCN,vec(WgP)∈RCN,
其中,vec函数表示将特征向量化,N=25×T,WθP∈RC×25×T,WφP∈RC×25×T,WgP∈RC ×25×T表示线性变换后得到的特征;Wθ,Wφ,Wg∈RC×C是由神经网络学习获得的变换权重;
S42、使用点乘关系函数计算任意时空关节任意通道的关联度建立全局依赖关系得到增强特征Q∈RC×25×T
Figure BDA0002414304050000061
在所述步骤S5中:将增强特征输入到初级胶囊层,使用二维空洞卷积对特征进行卷积处理,并对经二维空洞卷积处理后的特征沿着特征维度将其等维度划分为多个类别的向量,每个类别中包含多个向量,每一个向量为一个初级胶囊。
与现有技术相比,本发明的优点在于:本发明构建了基于胶囊网络的架构用于基于骨架序列数据的动作识别,该网络架构利用图卷积和时间域卷积层提取的时空特征,胶囊机制能够保持更为丰富的用于动作分类的信息。此外,本发明进一步将广义注意力机制引入到胶囊网络架构中,建立细粒度全局依赖更好地表达时空特征,用于引导更为有效的初级胶囊的生成。初级胶囊通过路由算法与最相关的分类胶囊之间建立联系,从而提高人体动作识别准确性。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1为现有技术下基于卷积神经网络的人体动作识别系统网络框架示意图;
图2为根据本发明实施例的人体动作识别系统网络框架示意图;
图3为根据本发明实施例的人体动作识别系统中语义识别模块网络示意图;
图4为根据本发明实施例的人体动作识别方法构建骨架图的关节点示意图;
图5为根据本发明实施例的人体动作识别方法构建的简化骨架图示意图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
发明人经过研究发现,骨架数据的特征经过全局池化层,特征通道转化为标量后重要信息(例如,位置,朝向,连接等)将会损失掉,限制分类准确率。为了解决这一普遍存在的根本问题,有必要用向量输出代替全局池化层的标量输出,用向量输出代替全局池化层的标量输出实现并应用于深度神经网络中称为胶囊神经网络(Capsule Neural Networks,简称为CapsNNs)。同时,结合基于广义注意力机制,提出新的基于广义注意力的胶囊神经网络(Generalized Attentional Capsule Neural Network,简称为GA-CapsNN),该网络能够生成保持由卷积层得到的所有重要信息的向量用于基于骨架序列数据的人体动作识别。
本发明建立的基于胶囊网络的架构用于基于骨架序列数据的动作识别,该网络架构利用图卷积和时间域卷积层提取的时空特征,胶囊机制能够保持更为丰富的用于动作分类的信息。此外将广义注意力机制引入到胶囊网络架构中,建立细粒度全局依赖更好地表达时空特征,用于引导更为有效的初级胶囊的生成。初级胶囊通过路由算法与最相关的分类胶囊之间建立联系,从而提高人体动作识别准确性。
下面结合附图及实施例详细说明本发明。
根据本发明的一个实施例,如图2所示,本发明提供一种人体动作识别系统,包括:多个语义时空模块、广义注意力非局部模块、初级胶囊层和分类胶囊层。
其中,所述多个语义时空模块用于对基于语义图式的骨架图表示的骨架序列数据进行语义图式图卷积操作以编码人体骨架中固有连接关系的关节之间的层级结构和包含高阶语义信息的潜在连接关系,得到骨架空间结构特征,并对经语义图式图卷积操作后的骨架序列数据进行时间域卷积操作得到其时空特征;其中,如图3所示,每个语义时空模块包括依次连接的语义图卷积模块、批量池化和非线性激活模块、时间域卷积模块、批量池化和非线性激活模块。所述多个语义时空模块包括一个初始层语义时空模块和9个叠加的语义时空模块,初始层语义时空模块的输出为9个叠加的语义时空模块的输入,在9个叠加的语义时空模块中,上一个语义时空模块的输出为下一个时空模块的输入;其中,9个叠加的语义时空模块分别为第1层至第3层语义时空模块、第4层至第6层语义时空模块、第7层至第9层时空模块;其中,所述初始层语义时空模块用于将骨架序列数据的三维时空特征的特征维度转换为64维同时保持其时间维度不变然后传输给第1层至第3层语义时空模块;所述第1层至第3层语义时空模块将经初始层语义时空模块处理后的骨架序列数据保持其时空维度不变然后传输给第4层至第6层语义时空模块;所述第4层至第6层语义时空模块将经第1层至第3层语义时空模块处理后的骨架序列数据的特征维度转换为128维同时将其时间维度减半然后传输给第7层至第9层语义时空模块;所述第7层至第9层语义时空模块将经第4层至第6层语义时空模块处理后的骨架序列数据的特征维度转换维256维同时将其时间维度再减半,然后传输给广义注意力非局部模块。所述广义注意力非局部模块用于对经语义时空模块处理后的骨架序列数据的时空特征进行增强处理,构建骨架序列数据中任意位置之间的全局依赖关系。
所述初级胶囊层,用于将经广义注意力非局部模块处理后的骨架序列数据的时空特征按动作类别分别生成胶囊。
所述分类胶囊层包括多个分类胶囊,用于对经初级胶囊层生成的胶囊进行分类,每个分类胶囊对应一个动作类别。
本发明的网络架构改进了传统图卷积网络的基本时空模块,将传统图卷积替换为语义图卷积,提出了语义时空模块,在传统图卷积方法的基础上进一步编码了人体骨架关节之间的潜在连接关系,能够得到更丰富的人体骨架空间结构特征;并在语义图卷积网络中引入了广义注意力模块,能够得到骨架图序列的时空特征增强表示;使用初级胶囊层和分类胶囊层代替传统图卷积网络的全局池化层和全连接层,最终得到向量形式的分类胶囊输出取代传统图卷积网络的全局池化层和全连接层得到的标量输出,避免了标量输出中大量特征的损失,能够使用胶囊向量表达更丰富的信息用于人体动作分类,提高人体动作识别的准确性。
根据本发明的另一个实施例,本发明提供一种人体动作识别方法,包括步骤S1、S2、S3、S4、S5、S6,下面详细介绍每个步骤:
在步骤S1中,对待处理的骨架序列数据集中的每个关节的坐标进行预处理,以将每个骨架序列转换为预设时间维度对应的帧数,并将每个骨架序列的各关节坐标从原始相机坐标系转换成身体坐标系,优选的,包括:
S11、将待处理的骨架序列数据集中的每个骨架序列通过数据扩展的方式转换为预设时间维度F对应的帧数;数据集中的每个骨架序列的帧数不一致,我们将每个骨架序列均通过数据扩展方法转换为F帧,优选的F=300;
S12、数据集中每个骨架序列中的各帧骨架的各关节点的原始坐标是在相机坐标系下的,将经步骤S11处理后的骨架序列中各帧骨架的各关节坐标转为身体坐标系下的坐标,其中,如图4所示,骨架包含如下25个关节:尾椎、脊柱中部、颈部、头部、左肩、左肘、左腕、左手、右肩、右肘、右腕、右手、左髋、左膝、左踝、左脚、右髋、右膝、右踝、右脚、脊柱顶部、左指尖、手掌、右指尖、右手掌;以脊柱中部为原点,3D旋转使得右肩指向左肩的向量为X轴,尾椎指向脊柱顶部的向量为Y轴,X轴和Y轴的叉乘为Z轴,基于X轴、Y轴、Z轴将骨架序列中各帧骨架的关节点坐标转换为三维坐标并表示为V∈R3×25×F,V代表骨架序列属于实数集R,每个骨架序列中包含F帧、每帧25个关节、每个关节用3维坐标表示,F表示预设时间维度,骨架序列的帧数代表时间维度,关节数代表空间维度,坐标维数代表特征维度;
S13、以尾椎到脊柱顶部的距离作为单位距离,将骨架中每对关节之间的距离除以该单位距离以实现归一化。
在步骤S2中,将经过步骤S1预处理后的每个骨架序列中每一帧包含的骨架数据处理成基于语义图式的骨架图以得到基于语义图式的骨架图序列;其中,以骨架中的一个关节点作为一个目标关节点,基于目标关节点与其他关节点之间的固有连接关系和潜在连接关系,根据所有节点之间的连接关系构建基于语义图式的骨架图;优选的,构建骨架图序列包括如下步骤:
S21、骨架序列中的单帧骨架为骨架的每个关节建立图的关节点,使骨架中的每一个关节对应于骨架图中的一个关节点,每一个关节配置一个节点标识并确定骨架重心对应的重心关节;如图4所示,将骨架中的25个关节分别建立图的关节点,例如,关节1-尾椎、关节2-脊柱中部、关节3-颈部、关节4-头部、关节5-左肩、关节6-左肘、关节7-左腕、关节8-左手、关节9-右肩、关节10-右肘、关节11-右腕、关节12-右手、关节13-左髋、关节14-左膝、关节15-左踝、关节16-左脚、关节17-右髋、关节18-右膝、关节19-右踝、关节20-右脚、关节21-脊柱顶部、关节22-左指尖、关节23-左手掌、关节24-右指尖、关节25-右手掌,其中关节1为重心关节;
S22、基于骨架中的关节点之间的固有连接关系,建立骨架图的边,如图5中的简化骨架图中的实线所示,在存在固有连接的关节之间建立实线边;例如,关节1-尾椎与关节2-脊柱中部之间、关节2-脊柱中部与关节21-脊柱顶部均存在固有连接关系,建立实线的边;
S23、依次以骨架中的某个关节为目标关节,为该目标关节的固有连接的邻居关节定义不同的语义角色,包括目标关节本身、目标关节的父关节、目标关节的子关节,其中目标关节的父关节是指该目标关节的邻居关节中比目标关节更靠近重心关节的邻居关节,目标关节的子关节是指该目标关节的邻居关节中除了目标关节本身、目标关节的父关节以外的邻居关节;例如,如图5所示,以关节2为目标节点,其固有的邻居关节包括关节1和关节21,其中,关节1是重心关节,且关节2比关节21更靠近重心关节,则关节1是关节2的父关节,关节2是关节21的父关节,关节21是关节2的子关节;
S24、基于关节和关节的邻居关节的语义角色,为骨架图中表示关节之间的固有连接的边建立以箭头指示的方向,用于描述不同的语义角色关节之间的层级结构,其中,某一目标关节对应的固有连接从其父关节由箭头指向该目标关节再由该目标关节指向其子关节;例如,如图5所示,关节1与关节2之间的边,箭头由关节1指向关节2,关节2与关节21之间的边,箭头由关节2指向关节21,其他关节之间的固有连接的边的箭头方向同理可得;
S25、在步骤S24处理后的骨架图基础上,为不存在固有连接关系的关节之间建立表示其潜在连接的边,如图5中的虚线所示,每对不存在固有连接关系的关节之间均存在潜在连接的边,每条边均代表着语义连接关系,由此形成当前帧的骨架数据对应的骨架图G(Vt,A),其包含关节点集合Vt和邻接矩阵
Figure BDA0002414304050000101
其中Vt∈RC1×25,表示第t帧骨架图特征的特征维度为C1维,对于初始层语义时空模块,C1=3,空间维度为25维,A为邻接矩阵,用于表示骨架图中每对关节点之间的边所描述的语义连接关系。例如,如图5所示,以关节21为例,与其存在固有连接关系的关节包括关节3、关节5、关节9和关节2,关节21与关节3、关节5、关节9和关节2之间的边为有方向的实线边,表示关节21分别与这几个关节之间的连接关系,关节21与除了关节3、关节5、关节9和关节2之外的其他20个关节存在潜在连接,则关节21与其他20个关节之间建立虚线的边,其他节点之间的潜在连接同理建立虚线的边。
针对骨架序列中的每一帧骨架数据建立骨架图,形成骨架图序列。
在步骤S3中,对步骤S2中得到的骨架图序列进行语义图式图卷积操作,编码人体骨架中固有连接关系的关节之间的层级结构和包含高阶语义信息的潜在连接关系,得到更丰富的骨架空间结构特征,并对经语义图式图卷积操作后的骨架图序列进行时间域卷积操作得到骨架图序列的时空特征;优选的,包括:
S31、将前面步骤得到的基于语义图式的骨架图输入到语义图式图卷积(Motif-based Graph Convolution,简称为MGC),对骨架图序列中的每一帧骨架图进行语义图式图卷积操作:
Figure BDA0002414304050000111
其中,第t帧的骨架特征Vt∈RC1×25包含M种语义连接关系,且语义连接关系m中包含Km个语义角色,
Figure BDA0002414304050000112
是对角矩阵,
Figure BDA0002414304050000113
表示语义连接关系m中的各个关节与语义角色k的邻居关节之间关系的卷积核参数,将骨架特征维度从C1维转换到C2维,用于特征变换提取高维特征,Ot∈RC2×25是第t帧的语义图式图卷积输出,特征维度为C2维,空间维度为25维,特征维度C2由当前语义图卷积卷积核参数确定。具体地说,骨架图中包含2种语义连接关系即M=2,其中,第一种语义连接关系定义在固有连接的一邻域范围的邻居节点上,每个目标关节的邻居节点定义了三个语义角色(Km=1=3):目标关节本身、目标关节的父关节和子关节,该语义连接关系用来编码人体各个关节固有连接关系之间的层级结构。第二种语义连接关系定义在潜在连接的一邻域范围的邻居节点上,用来编码骨架结构的潜在连接,该连接关系的所有邻居节点的语义角色一致(Km=2=1)。所有骨架图的语义图式图卷积输出组成骨架图序列的语义图式图卷积输出矩阵O∈RC2×25×T1,其中,特征维度为C2维,空间维度为25维,时间维度为T1维,对于初始层语义时空模块,时间维度T1等于预设的时间维度;
S32、将步骤S31中骨架图序列的语义图式图卷积输出进行批量归一化操作(BatchNormalization,简称为BN)得到其归一化特征;
S33、将步骤S32中得到的归一化特征输入到激活函数(Rectified Linear Unit,简称为RELU)引入非线性因素进行非线性激活,得到骨架图序列的非线性特征;
S34、对步骤S33中得到的非线性特征进行时间域卷积处理得到骨架图序列的时空特征;
S35、对步骤S34中得到的时空特征进行批量归一化操作得到时空特征对应的归一化特征;
S36、对步骤S35中得到的归一化特征输入到激活函数引入非线性因素进行非线性激活,得到时空特征对应的非线性特征;
S37、将骨架图序列的语义图式图卷积输入通过残差连接到步骤S36的输出得到骨架图序列的初始时空特征;
S38、以步骤S37得到的初始时空特征作为输入,输入9个叠加的语义时空模块(STM)进行9次叠加的由语义图式图卷积、批量归一化操作、非线性激活、时空卷积操作、批量归一化、非线性激活组成的组合操作以得到骨架图序列的时空特征矩阵:RC×25×T,其中,叠加操作中的上一次组合操作的输出是下一次的输入,且第1次至第3次组合操作对应的特征维度为C2维、空间维度为25维、时间维度为T1维,第4次至第6次组合操作的对应的特征维度为C2*2维、空间维度为25维、时间维度为T1/2维,第7次至第9次组合操作的对应的特征维度为C2*4维、空间维度为25维、时间维度为T1/4维,C=C2*4,T=T1/4。其中,所述步骤S31至S37的步骤由初始层STM完成,步骤S37所得到的时空特征输出再输入到后续9层叠加的STM,上一个STM的输出输入到下一个STM中,初始层STM不包含步骤S37描述的残差连接,将骨架序列输入特征维度从3维转换为64维,9层叠加的STM的输入特征维度和时间维度会变化,但是输入空间维度均为25。根据本发明的一个示例,以预设时间维度F=300为例,经过初始层STM后,骨架序列的时空特征的特征维度从3维变成64维、空间维度仍为25、时间维度300;经过第1层至第3层STM后,骨架序列的时空特征的输入特征维度为64维、空间维度仍为25、时间维度300;第4层和第7层的STM的时间域卷积操作步长为2,因此时间维度降为前面的1/2,经过第4层至第6层STM后,骨架序列的时空特征的输入特征维度从64维变为128维、空间维度25、时间维度变为150,经过第7层至第9层STM后,骨架序列的时空特征的输入特征维度从128维变为256维、空间维度25、时间维度变为75。
在步骤S4中,基于骨架图序列的时空特征,建立骨架中任意时空位置之间的全局依赖关系,并将全局依赖关系用于增强时空特征;优选的,将S3得到的时空特征输入到广义注意力非局部模块(Generalized Attentional Non-local,简称为GANL),GANL模块基于非局部模块的思想构建。为了更好的理解,简单介绍一下非局部模块(Non-local,简称为NL)。NL模块能够基于注意力机制建模任意时空位置之间的全局依赖关系。注意力机制即在某序列的任意位置之间建立关联来计算该序列的增强表示。我们可以使用NL模块建立所有时空关节之间的全局依赖关系,并利用该关系提升时空特征的表达能力,但是NL模块的计算量很大。NL模块中使用点乘关系函数计算所有时空关节的关联度建立全局依赖关系增强时空特征的操作可以由下式表达:
Figure BDA0002414304050000131
其中θ(P)=WθP∈RC×25×T,φ(P)=WφP∈RC×25×T,g(P)=WgP∈RC×25×T表示对P进行线性变换得到的特征,Wθ,Wφ,Wg∈RC×C是要学习的变换权重,进一步将特征通道引入,在任意位置任意特征通道之间建立全局依赖关系,即广义注意力。基于广义注意力机制,构建了GANL模块。
具体来说,首先向量化线性变换后的特征,分别表示为:vec(WθP)∈RCN,vec(WφP)∈RCN,vec(WgP)∈RCN,vec函数表示将特征向量化,即将特征沿着特征维度及时空维度展开表示为1维向量,为了简化时空维度表示,引入N=25×T。GANL模块中使用点乘关系函数计算任意时空关节任意通道的关联度建立全局依赖关系增强时空特征的操作可以由下式表达:
Figure BDA0002414304050000132
上式中vec(WθP)vec(WφP)的计算复杂度为
Figure BDA0002414304050000133
根据交换律,我们可以先计算上式中的vec(WφP)vec(WgP),这两项的计算结果为标量,改变计算顺序之后,GANL模块建立任意时空关节任意通道的全局依赖关系提升时空特征表达能力的操作的复杂度从
Figure BDA0002414304050000135
降低到
Figure BDA0002414304050000136
由下式表达:
Figure BDA0002414304050000134
进一步将向量vec(Q)表示成特征Q∈RC×25×T,以预设时间维度F=300为例,则特征维度C=256,空间维度为25,时间维度T=75。
在步骤S5中,基于经步骤S4处理后的骨架序列数据的特征,将特征沿着特征维度进行划分为多个类别的向量,以构建初级胶囊;具体地说,将增强特征输入到初级胶囊层,使用二维空洞卷积对特征进行卷积处理,并对经二维空洞卷积处理后的特征沿着特征维度将其等维度划分为多个类别的向量,每个类别中包含多个向量,每一个向量为一个初级胶囊。以预设时间维度F=300为例,将经过GANL模块得到的增强特征Q∈R256×25×75输入到初级胶囊层,初级胶囊层使用二维空洞卷积,优选的,其卷积核大小设置为11×11,膨胀系数设置为7×2,经过二维空洞卷积得到的特征表示为H∈R256×5×5,其中特征维度为256、空间维度为5、时间维度为5,将该特征沿着特征维度划分为32个类别的向量,每个向量8维,变为32*25个8维向量,每个类别中包含25个向量,该向量的方向表示时空特征的细节属性,长度表示特征的存在性,这种向量形式的特征命名为胶囊。
在步骤S6中,将步骤S5中构建的初级胶囊的信息与分类胶囊建立联系,每一个分类胶囊对应一类动作类别,胶囊长度最长的分类胶囊对应的动作类别即为识别到的待处理的骨架序列数据对应的动作类别。根据本发明的一个实施例,为分类胶囊定义60个类别的胶囊,胶囊类别数目由数据集中的动作类别数目确定,每个类别中包含1个分类胶囊,每个分类胶囊的维度为8,每个分类胶囊表示为所有初级胶囊的加权和,各个权重通过动态路由算法迭代更新得到。
为了更好地说明本发明的效果,将本发明应用在最广泛使用的三维骨架序列数据集NTU-RGB+D上,该数据集在实验室环境下采集,包含60个动作类别的超过56000个骨架序列数据,这些骨架序列数据来自40个志愿者,并且采用3台不同视角的相机同时采集。该数据集提供了在3个相机坐标系下的关节点坐标,每个采集对象的骨架都包含25个关节点,并且每段序列保证包含不超过2个采集对象。该数据集的作者建议了两个评价规范,第一个评价规范跨对象(Cross-Subject,简称为X-Sub),包含40320个训练数据以及16560个测试数据,在该设置中,训练集来自20个采集对象,而测试集来自剩余的20个对象;第二个评价规范跨视角(Cross-View,简称为X-View),包含37920个训练数据以及18960个测试数据,训练样本来自相机视角2和3,而测试数据来自相机视角1,各个深度神经网络在训练数据集上训练,在测试数据集上测试。测试时,用得到正确分类标签的测试用例数目除以测试数据集的全部测试用例数目,得到各个深度神经网络的识别准确率。在NTU-RGB+D数据集上,本发明的胶囊网络架构不采用广义注意力机制的情况下相对于传统的传统图卷积网络的识别准确率对比:在第一种评价规范X-Sub上,本发明的准确率为87.2%,传统的准确率为81.5%;在第二种评价规范X-View上,本发明的准确率为94.7%,传统的准确率为88.3%。本发明进一步引入广义注意力非局部(GANL)模块,识别准确率得到了进一步提升:在第一种评价规范X-Sub上,本发明的准确率提升为88.0%;在第二种评价规范X-View上,本发明的准确率提升为95.1%。可以看出,本发明的广义注意力胶囊网络架构相较于传统图卷积网络,在X-Sub评价方案上,得到了7.5%的准确率提升,在X-View评价方案上,得到了6.3%的准确率提升。
本发明构建了基于胶囊网络的架构用于基于骨架序列数据的动作识别,该网络架构利用图卷积和时间域卷积层提取骨架数据的时空特征,胶囊机制能够保持更为丰富的用于动作分类的信息。此外,本发明进一步将广义注意力机制引入到胶囊网络架构中,建立细粒度全局依赖更好地表达时空特征,用于引导更为有效的初级胶囊的生成。初级胶囊通过路由算法与最相关的分类胶囊之间建立联系,从而提高人体动作识别准确性。
需要说明的是,虽然上文按照特定顺序描述了各个步骤,但是并不意味着必须按照上述特定顺序来执行各个步骤,实际上,这些步骤中的一些可以并发执行,甚至改变顺序,只要能够实现所需要的功能即可。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (10)

1.一种人体动作识别系统,其特征在于,包括:
多个语义时空模块,用于对基于语义图式的骨架图表示的骨架序列数据进行语义图式图卷积操作以编码人体骨架中固有连接关系的关节之间的层级结构和包含高阶语义信息的潜在连接关系,得到骨架空间结构特征,并对经语义图式图卷积操作后的骨架序列数据进行时空卷积操作得到其时空特征;其中,每个语义时空模块包括依次连接的语义图卷积模块、批量池化和非线性激活模块、时间域卷积模块、批量池化和非线性激活模块;
广义注意力非局部模块,用于对经语义时空模块处理后的骨架序列数据的时空特征进行增强处理,构建骨架序列数据中任意位置之间的全局依赖关系;
初级胶囊层,用于将经广义注意力非局部模块处理后的骨架序列数据特征按特征维度划分生成胶囊;
分类胶囊层,包括多个分类胶囊,使用经初级胶囊层生成的胶囊包含的信息,每个分类胶囊对应一个动作类别。
2.根据权利要求1所述的一种人体动作识别系统,其特征在于,
所述多个语义时空模块包括一个初始层语义时空模块和9个叠加的语义时空模块,初始层语义时空模块的输出为9个叠加的语义时空模块的输入,在9个叠加的语义时空模块中,上一个语义时空模块的输出为下一个语义时空模块的输入;其中,9个叠加的语义时空模块分别为第1层至第3层语义时空模块、第4层至第6层语义时空模块、第7层至第9层语义时空模块;
其中,所述初始层语义时空模块用于将骨架序列数据的三维时空特征的特征维度转换为64维同时保持其时空维度不变然后传输给第1层至第3层语义时空模块;所述第1层至第3层语义时空模块将经初始层语义时空模块处理后的骨架序列数据保持其时空维度不变然后传输给第4层至第6层语义时空模块;所述第4层至第6层语义时空模块将经第1层至第3层语义时空模块处理后的骨架序列数据的特征维度转换为128维同时将其时间维度减半然后传输给第7层至第9层语义时空模块;所述第7层至第9层语义时空模块将经第4层至第6层语义时空模块处理后的骨架序列数据的特征维度转换维256维同时将其时间维度再减半,然后传输给广义注意力非局部模块。
3.一种基于权利要求1至2任一所述的人体动作识别系统的人体动作识别方法,其特征在于,包括如下步骤:
S1、对待处理的骨架序列数据集中的每个关节的坐标进行预处理,以将每个骨架序列转换为预设时间维度对应的帧数,并将每个骨架序列的各关节坐标从原始相机坐标系转换成身体坐标系;
S2、将经过步骤S1预处理后的每个骨架序列中每一帧包含的骨架数据处理成基于语义图式的骨架图以得到基于语义图式的骨架图序列;其中,以骨架中的一个关节点作为一个目标关节点,基于目标关节点与其他关节点之间的固有连接关系和潜在连接关系,根据所有节点之间的连接关系构建基于语义图式的骨架图;
S3、对步骤S2中得到的骨架图序列进行语义图式图卷积操作,编码人体骨架中固有连接关系的关节之间的层级结构和包含高阶语义信息的潜在连接关系,得到骨架空间结构特征,并对经语义图式图卷积操作后的骨架图序列进行时间域卷积操作得到骨架图序列的时空特征;
S4、基于骨架图序列的时空特征,建立骨架中任意时空位置之间的全局依赖关系,并将全局依赖关系用于增强时空特征;
S5、基于经步骤S4处理后的骨架序列数据的特征,将特征沿着特征维度划分为多个类别的向量,以构建初级胶囊;
S6、将步骤S5中构建的初级胶囊的信息与分类胶囊建立联系,每一个分类胶囊对应一类动作类别,胶囊长度最长的分类胶囊对应的动作类别即为识别到的待处理的骨架序列数据对应的动作。
4.根据权利要求3所述的一种人体动作识别方法,其特征在于,所述步骤S1包括:
S11、将待处理的骨架序列数据集中的每个骨架序列通过数据扩展的方式转换为预设时间维度对应的帧数;
S12、将经步骤S11处理后的骨架序列中各帧骨架的各关节坐标转为身体坐标系下的坐标,其中,骨架包含如下25个关节:尾椎、脊柱中部、颈部、头部、左肩、左肘、左腕、左手、右肩、右肘、右腕、右手、左髋、左膝、左踝、左脚、右髋、右膝、右踝、右脚、脊柱顶部、左指尖、手掌、右指尖、右手掌;以脊柱中部为原点,3D旋转使得右肩指向左肩的向量为X轴,尾椎指向脊柱顶部的向量为Y轴,X轴和Y轴的叉乘为Z轴,基于X轴、Y轴、Z轴将骨架序列中各帧骨架的关节点坐标转换为三维坐标并表示为V∈R3×25×F,V代表骨架序列属于实数集R,每个骨架序列中包含F帧、每帧25个关节、每个关节用3维坐标表示,F表示预设时间维度,骨架序列的帧数代表时间维度,关节数代表空间维度,坐标维数代表特征维度;
S13、以尾椎到脊柱顶部的距离作为单位距离,将骨架中每对关节之间的距离除以该单位距离以实现归一化。
5.根据权利要求4所述的一种人体动作识别方法,其特征在于,所述步骤S2包括针对每一帧骨架数据执行如下步骤:
S21、为骨架的每个关节建立图的关节点,使骨架中的每一个关节对应于骨架图中的一个关节点,每一个关节配置一个节点标识并确定骨架重心对应的重心关节;
S22、基于骨架中的关节点之间的固有连接关系,建立骨架图的边;
S23、依次以骨架中的某个关节为目标关节,为该目标关节的固有连接的邻居关节定义不同的语义角色,包括目标关节本身、目标关节的父关节、目标关节的子关节,其中目标关节的父关节是指该目标关节的邻居关节中比目标关节更靠近重心关节的邻居关节,目标关节的子关节是指该目标关节的邻居关节中除了目标关节本身、目标关节的父关节以外的邻居关节;
S24、基于关节和关节的邻居关节的语义角色,为骨架图中表示关节之间的固有连接的边建立以箭头指示的方向,用于描述不同的语义角色关节之间的层级结构,其中,某一目标关节对应的固有连接从其父关节由箭头指向该目标关节再由该目标关节指向其子关节;
S25、在步骤S24处理后的骨架图基础上,为不存在固有连接关系的关节之间建立表示其潜在连接的边,形成当前帧的骨架数据对应的骨架图G(Vt,A),其包含关节点集合Vt和邻接矩阵
Figure FDA0002414304040000031
其中Vt∈RC1×25,表示第t帧骨架图特征的特征维度为C1维,对于初始层语义时空模块C1=3,空间维度为25维,A为邻接矩阵,用于表示骨架图中每对关节点之间的边所描述的语义连接关系。
6.根据权利要求5所述的一种人体动作识别方法,其特征在于,所述步骤S3包括:
S31、对骨架图序列中的每一帧骨架图进行语义图式图卷积操作:
Figure FDA0002414304040000041
其中,第t帧的骨架特征Vt∈RC1×25包含M种语义连接关系,且语义连接关系m中包含Km个语义角色,
Figure FDA0002414304040000042
是对角矩阵,
Figure FDA0002414304040000043
表示语义连接关系m中的各个关节与语义角色k的邻居关节之间关系的卷积核参数,将骨架特征维度从C1维转换到C2维,用于特征变换提取高维特征,Ot∈RC2×25是第t帧的语义图式图卷积输出,特征维度为C2维,空间维度为25维,特征维度C2由当前语义图卷积卷积核参数确定;
所有骨架图的语义图式图卷积输出组成骨架图序列的语义图式图卷积输出矩阵O∈RC2 ×25×T1,其中,特征维度为C2维,空间维度为25维,时间维度为T1维,对于始层语义时空模块,时间维度T1等于预设的时间维度;
S32、将步骤S31中骨架图序列的语义图式图卷积输出进行批量归一化操作得到其归一化特征;
S33、将步骤S32中得到的归一化特征输入到激活函数引入非线性因素进行非线性激活,得到骨架图序列的非线性特征;
S34、对步骤S33中得到的非线性特征进行时间域卷积处理得到骨架图序列的时空特征;
S35、对步骤S34中得到的时空特征进行批量归一化操作得到时空特征对应的归一化特征;
S36、对步骤S35中得到的归一化特征输入到激活函数引入非线性因素进行非线性激活,得到时空特征对应的非线性特征;
S37、将骨架图序列的语义图式图卷积输入通过残差连接到步骤S36的输出得到骨架图序列的初始时空特征;
S38、以步骤S37得到的初始时空特征作为输入,进行9次叠加的由语义图式图卷积、批量归一化操作、非线性激活、时空卷积操作、批量归一化、非线性激活组成的组合操作以得到骨架图序列的时空特征矩阵:RC×25×T,其中,叠加操作的中的上一次组合操作的输出是下一次的输入,且第1次至第3次组合操作对应的特征维度为C2维、空间维度为25维、时间维度为T1维,第4次至第6次组合操作的对应的特征维度为C2*2维、空间维度为25维、时间维度为T1/2维,第7次至第9次组合操作的对应的特征维度为C2*4维、空间维度为25维、时间维度为T1/4维,C=C2*4,T=T1/4。
7.根据权利要求6所述的一种人体动作识别方法,其特征在于,所述步骤S4包括:
S41、将骨架图序列线性变换后的特征进行向量化以将特征沿着特征维度及时空维度展开表示为1维向量:
vec(WθP)∈RCN,vec(WφP)∈RCN,vec(WgP)∈RCN,
其中,vec函数表示将特征向量化,N=25×T,WθP∈RC×25×T,WφP∈RC×25×T,WgP∈RC×25×T表示线性变换后得到的特征;Wθ,Wφ,Wg∈RC×C是由神经网络学习获得的变换权重;
S42、使用点乘关系函数计算任意时空关节任意通道的关联度建立全局依赖关系得到增强特征Q∈RC×25×T
Figure FDA0002414304040000051
8.根据权利要求7所述的一种人体动作识别方法,其特征在于,在所述步骤S5中:将增强特征输入到初级胶囊层,使用二维空洞卷积对特征进行卷积处理,并对经二维空洞卷积处理后的特征沿着特征维度将其等维度划分为多个类别的向量,每个类别中包含多个向量,每一个向量为一个初级胶囊。
9.根据权利要求8所述的一种人体动作识别方法,其特征在于,在所述步骤S6中:每一个动作类别对应一个分类胶囊,将初级胶囊信息和分类胶囊信息建立联系,每一个分类胶囊的信息表示为所有初级胶囊的信息的加权和,且每个初级胶囊的权重通过动态路由算法迭代更新获得。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现如权利要求3至9中任一项所述方法的步骤。
CN202010186272.0A 2020-03-17 2020-03-17 一种人体动作识别系统及方法 Active CN111460928B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010186272.0A CN111460928B (zh) 2020-03-17 2020-03-17 一种人体动作识别系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010186272.0A CN111460928B (zh) 2020-03-17 2020-03-17 一种人体动作识别系统及方法

Publications (2)

Publication Number Publication Date
CN111460928A true CN111460928A (zh) 2020-07-28
CN111460928B CN111460928B (zh) 2023-07-21

Family

ID=71680837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010186272.0A Active CN111460928B (zh) 2020-03-17 2020-03-17 一种人体动作识别系统及方法

Country Status (1)

Country Link
CN (1) CN111460928B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950485A (zh) * 2020-08-18 2020-11-17 中科人工智能创新技术研究院(青岛)有限公司 一种基于人体骨架的人体行为识别方法及系统
CN112235434A (zh) * 2020-10-16 2021-01-15 重庆理工大学 融合k-means及其胶囊网络的DGA网络域名检测识别系统
CN112801060A (zh) * 2021-04-07 2021-05-14 浙大城市学院 运动动作识别方法及装置、模型、电子设备、存储介质
CN112906549A (zh) * 2021-02-07 2021-06-04 同济大学 一种基于时空胶囊网络的视频行为检测方法
CN113111760A (zh) * 2021-04-07 2021-07-13 同济大学 基于通道注意力的轻量化图卷积人体骨架动作识别方法
CN113221626A (zh) * 2021-03-04 2021-08-06 北京联合大学 一种基于Non-local高分辨率网络的人体姿态估计方法
CN113537393A (zh) * 2021-08-09 2021-10-22 南通大学 一种基于改进Transformer的黑暗场景三维人体姿态估计算法
CN113552656A (zh) * 2021-07-26 2021-10-26 福建农林大学 基于室外影像多时空融合的降水强度监测方法及系统
CN114821640A (zh) * 2022-04-12 2022-07-29 杭州电子科技大学 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
CN110111365A (zh) * 2019-05-06 2019-08-09 深圳大学 基于深度学习的训练方法和装置以及目标跟踪方法和装置
CN110175580A (zh) * 2019-05-29 2019-08-27 复旦大学 一种基于时序因果卷积网络的视频行为识别方法
CN110222653A (zh) * 2019-06-11 2019-09-10 中国矿业大学(北京) 一种基于图卷积神经网络的骨架数据行为识别方法
CN110378381A (zh) * 2019-06-17 2019-10-25 华为技术有限公司 物体检测方法、装置和计算机存储介质
CN110427756A (zh) * 2019-06-20 2019-11-08 中国人民解放军战略支援部队信息工程大学 基于胶囊网络的安卓恶意软件检测方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
CN110111365A (zh) * 2019-05-06 2019-08-09 深圳大学 基于深度学习的训练方法和装置以及目标跟踪方法和装置
CN110175580A (zh) * 2019-05-29 2019-08-27 复旦大学 一种基于时序因果卷积网络的视频行为识别方法
CN110222653A (zh) * 2019-06-11 2019-09-10 中国矿业大学(北京) 一种基于图卷积神经网络的骨架数据行为识别方法
CN110378381A (zh) * 2019-06-17 2019-10-25 华为技术有限公司 物体检测方法、装置和计算机存储介质
CN110427756A (zh) * 2019-06-20 2019-11-08 中国人民解放军战略支援部队信息工程大学 基于胶囊网络的安卓恶意软件检测方法及装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950485A (zh) * 2020-08-18 2020-11-17 中科人工智能创新技术研究院(青岛)有限公司 一种基于人体骨架的人体行为识别方法及系统
CN112235434A (zh) * 2020-10-16 2021-01-15 重庆理工大学 融合k-means及其胶囊网络的DGA网络域名检测识别系统
CN112235434B (zh) * 2020-10-16 2021-10-26 重庆理工大学 融合k-means及其胶囊网络的DGA网络域名检测识别系统
CN112906549B (zh) * 2021-02-07 2022-10-25 同济大学 一种基于时空胶囊网络的视频行为检测方法
CN112906549A (zh) * 2021-02-07 2021-06-04 同济大学 一种基于时空胶囊网络的视频行为检测方法
CN113221626A (zh) * 2021-03-04 2021-08-06 北京联合大学 一种基于Non-local高分辨率网络的人体姿态估计方法
CN113221626B (zh) * 2021-03-04 2023-10-20 北京联合大学 一种基于Non-local高分辨率网络的人体姿态估计方法
CN112801060A (zh) * 2021-04-07 2021-05-14 浙大城市学院 运动动作识别方法及装置、模型、电子设备、存储介质
CN113111760A (zh) * 2021-04-07 2021-07-13 同济大学 基于通道注意力的轻量化图卷积人体骨架动作识别方法
CN113552656A (zh) * 2021-07-26 2021-10-26 福建农林大学 基于室外影像多时空融合的降水强度监测方法及系统
CN113537393A (zh) * 2021-08-09 2021-10-22 南通大学 一种基于改进Transformer的黑暗场景三维人体姿态估计算法
CN113537393B (zh) * 2021-08-09 2023-08-22 南通大学 一种基于改进Transformer的黑暗场景三维人体姿态估计算法
CN114821640B (zh) * 2022-04-12 2023-07-18 杭州电子科技大学 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法
CN114821640A (zh) * 2022-04-12 2022-07-29 杭州电子科技大学 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法

Also Published As

Publication number Publication date
CN111460928B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
CN111460928A (zh) 一种人体动作识别系统及方法
Parcollet et al. A survey of quaternion neural networks
Tang et al. Deeply learned compositional models for human pose estimation
Ye et al. Spatial attention deep net with partial pso for hierarchical hybrid hand pose estimation
CN110827415B (zh) 一种全天候未知环境无人自主工作平台
CN113408455B (zh) 一种基于多流信息增强图卷积网络的动作识别方法、系统及存储介质
Furukawa SOM of SOMs
CN112991503B (zh) 一种基于蒙皮权重的模型训练方法、装置、设备及介质
CN109712108B (zh) 一种基于多样鉴别性候选框生成网络的针对视觉定位方法
Chen et al. Towards part-aware monocular 3d human pose estimation: An architecture search approach
CN112200266B (zh) 基于图结构数据的网络训练方法、装置以及节点分类方法
US20220318946A1 (en) Method for image shape transformation based on generative adversarial network
CN114998525A (zh) 基于动态局部-全局图卷积神经网络的动作识别方法
Wu et al. HPGCN: Hierarchical poselet-guided graph convolutional network for 3D pose estimation
Fisch et al. Orientation keypoints for 6D human pose estimation
Dani et al. 3dposelite: a compact 3d pose estimation using node embeddings
Long et al. Multi-view MERA subspace clustering
Maheshwari et al. Mugl: Large scale multi person conditional action generation with locomotion
Zhang et al. Learning enriched hop-aware correlation for robust 3d human pose estimation
Yi et al. An Effective Lightweight Crowd Counting Method Based on an Encoder-Decoder Network for the Internet of Video Things
CN110197226B (zh) 一种无监督图像翻译方法及系统
Lian et al. SORCNet: robust non-rigid shape correspondence with enhanced descriptors by Shared Optimized Res-CapsuleNet
CN112819172B (zh) 一种基于表函数的量子计算模拟方法和系统
Yu et al. Joint 3d human shape recovery and pose estimation from a single image with bilayer graph
Yu et al. Multi‐stream adaptive spatial‐temporal attention graph convolutional network for skeleton‐based action recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant