CN111563409A - 一种基于骨架自相似性的跨视角动作识别方法 - Google Patents

一种基于骨架自相似性的跨视角动作识别方法 Download PDF

Info

Publication number
CN111563409A
CN111563409A CN202010161732.4A CN202010161732A CN111563409A CN 111563409 A CN111563409 A CN 111563409A CN 202010161732 A CN202010161732 A CN 202010161732A CN 111563409 A CN111563409 A CN 111563409A
Authority
CN
China
Prior art keywords
skeleton
self
time
similarity
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010161732.4A
Other languages
English (en)
Inventor
邵展鹏
刘鹏
胡超群
周小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202010161732.4A priority Critical patent/CN111563409A/zh
Publication of CN111563409A publication Critical patent/CN111563409A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Abstract

本发明提出一种基于骨架自相似性的跨视角动作识别方法,包括以下步骤:S1,以精细到粗糙的方式获取3个尺度的骨架序列;S2,将骨架自相似性表示为自相似图像SSI;S3,构建时空卷积模块SCM;S4,构建序列编码模块SEM;S5,基于SCM和SEM的主干网络,通过多流融合构建多流神经网络MSNN。本发明考虑到使用不同尺度的骨架信息可以有效的提高识别性能并很好的处理遮挡情况。因此,首先以精细到粗糙的方式获取了3个尺度的人体骨架。在更精细的尺度上,其相应人体骨架中包含更多的关节;多尺度SSI方案的提出使得本发明具有更好的鲁棒性,有效地防止了侧视角带来的遮挡问题。

Description

一种基于骨架自相似性的跨视角动作识别方法
技术领域
本发明涉及视觉中动作识别技术领域,尤其是涉及一种基于骨架自相似性的 跨视角动作识别方法。
背景技术
人类动作识别由于其广泛的应用而一直是活跃的研究领域,例如视频理解, 人机交互和辅助机器人。在固定的通用视角下,该领域中大多数现有方法都能很 好地实现动作识别。然而当相机视角变化,它们的性能却非常有限甚至变得不可 预知。这种所谓的“跨视角”场景下的动作识别是一项非常具有挑战性的任务, 这是因为不同传感器从各种视角捕获的相同动作的视觉外观可能完全不同。因此, 设计一个在视角变化场景下仍能表现良好的跨视角动作识别方法,是该领域一项 主要的挑战。
为了解决由于视角改变而产生的人体动作视觉变化,相关研究人员提出了很 多非常有价值的解决方法。其中,一种可行的方法是通过仿真方法在人体对象周 围模拟大量的虚拟相机来枚举尽可能多的视角,以生成多个视角的动作训练数据。 但是,这种方法非常耗时,因为它需要合并所有视角并标注大量的视频数据。另 一种可行的方法是为不同视角下的动作设计工程特征或学习不同视角下共同不 变的特征。这种方法的性能在很大程度上受到特征学习模型的训练视角数量的限 制。
近年来,基于人体骨架数据的动作识别受到了越来越多的关注,因为这些数 据不仅对外观,环境背景和视角的变化具有很好的鲁棒性。此外,人体骨架数据 是一种高度结构化的数据,可有利于产生能够克服遮挡和噪声问题的高判别性动 作表示,例如以不同尺度对骨架进行采样和分解。但是,现有基于骨架的跨视角 动作识别方法的性能受到其对骨架数据的不灵活预处理的限制。具体来说,为了 标准化骨架数据的坐标系统,原始骨架数据通常被转换到一个以人体中心为原点 的局部坐标系下。但是,这种预处理不能有效地处理视线变化下的人体外观变化。 首先,这种预处理需要人体的严格刚体假设成立。其次,当动作序列中不包含人 体的直立姿势时,以人体几个关键点为中心的局部坐标系建立方法将完全不可行。 此外,骨架中的遮挡可能为跨视角场景中的预处理和模型学习引入更多的变化。
发明内容
本发明解决了视线变化下的人体外观变化影响动作识别的问题,提出一种基 于骨架自相似性的跨视角动作识别方法,通过多尺度的骨架自相似性来学习跨视 角动作表示,创建具有视角不变性的动作描述。本发明可以在视角变化时显示出 较高的结构稳定性。本发明创造性的将每一帧的骨架自相似性表示为一帧图像, 并相应地设计了一个多流深度学习模型,学习多尺度的具有视角独立性的自相似 性特征表示,在处理跨视角动作识别任务中实现了较好的效果。
为实现上述目的,本发明提供以下的技术方案:
一种基于骨架自相似性的跨视角动作识别方法,包括以下步骤:
S1,以精细到粗糙的方式获取3个尺度的骨架序列;
S2,将骨架自相似性表示为自相似图像SSI;
S3,构建时空卷积模块SCM;
S4,构建序列编码模块SEM;
S5,基于SCM和SEM的主干网络,通过多流融合构建多流神经网络MSNN。
本发明考虑到使用不同尺度的骨架信息可以有效的提高识别性能并很好的 处理遮挡情况。因此,首先以精细到粗糙的方式获取了三个尺度的人体骨架。在 更精细的尺度上,其相应人体骨架中包含更多的关节;多尺度SSI方案的提出使 得本发明具有更好的鲁棒性,有效地防止了侧视角带来的遮挡问题。
作为优选,所述步骤S2具体包括以下步骤:
计算每一帧骨架的所有关节之间的成对欧式距离来生成骨架自相似图像SSI, 每个动作序列都具有3个尺度的骨架序列,每个动作序生成相应的三组不同尺度 的SSI;
设一个动作序列为P,每个动作序列都有3个尺度的骨架序列,即对于L=3, P=[p1,...,pL],其中pl表示第l个尺度的骨架序列,pl是一组3D关节位置序列;
Figure BDA0002406045660000021
其中
Figure BDA0002406045660000022
表示在尺度l下的骨架Nl个关节在3D空间中的x,y和z坐标序列(总共T帧), 其中l尺度下第t帧的骨架序列表示为Pl(t),其骨架自相似性表示为SSI图像 Il(t),定义为大小为Nl×Nl的对称方矩阵:
Figure BDA0002406045660000031
其中dij可以是度量空间中的任意距离,以测量骨架中第i个关节和第j个关 节的位置之间的距离;矩阵对角元素是通过将关节与其自身比较计算而生成的距 离,因此全为零;确定了Il(t)后,则可以将尺度l的骨架序列生产的SSI公式化 为:
Figure BDA0002406045660000032
其中T表示骨架序列的帧数。
作为优选,所述步骤S3具体包括以下步骤:
S301,构建立体卷积神经网络3D CNN分支;
S302,构建时间注意力分支;
S303,添加时间分布的空间金字塔池化层TSPP。
作为优选,所述步骤S301具体包括以下步骤:
设置3个3D卷积层和2个最大池化层,自相似图像SSI先通过2个3D卷积 层,再通过1个最大池化层,再通过1个3D卷积层,最后通过1个最大池化层, 输出的时空特征是
Figure BDA0002406045660000033
在时间维度上具有下采样长度Tα,特征长度为Kl。因为SSI是一种立方体形状张量,所以在本发明中设计了一个轻便的3D CNN应用于SSI提取时空特征,兼顾了性能和效率,有效的解决了跨视角的动 作识别任务。
作为优选,所述步骤S302具体包括以下步骤:
在得到从3D CNN的最后一层获取的时空特征后,设置一个时间注意力模块, 其根据帧的信息重要性,包括一些关键帧包含区分度较高的信息,而其他帧仅提 供上下文信息,自动地对帧进行不同的注意力权重分配;SCM模块的最终输出vl由vl,M和vl,A共同决定:
vl=vl,M e vl,A
其中vl,A是vl,M的注意力权重,用于重新校准时间信息以自动执行信息帧 的软选择,e表示逐元素相乘;
时间注意机制是通过三个全连接层FC层实现的,通过帧之间非线性交互实 现信息帧的选择;
首先引入了一个具有参数W1的空间降维FC1层,然后是ReLU激活函数。 然后引入具有参数W2的时间降维FC2层,其后是Sigmoid激活函数。最后,为 了能在3D CNN分支输出vl,M的时间维度上进行权重计算,在FC2层输出向量 上进行特征求和池化以及重复Kl操作,获得vl,A
Figure RE-GDA0002570602700000041
其中Il,A表示时间注意分支的输入,Tα表示下采样时间长度,Kl表示特征长 度,θ()和δ()分别表示ReLU和Sigmoid函数;repeat(g,n)表示在二维向量的最 后一维中重复元素n次。
作为优选,所述步骤S303具体包括以下步骤:
在网络的3D CNN分支的最后一个最大池化层后,放置了一个时间分布的空 间金字塔池化层,该层将每个时刻的输出特征图划为4×4个空间单元,在每个 空间单元中应用最大池化以获得每个滤波器的特征响应;通过合并所有单元的特 征响应,最终产生一个固定长度的向量
Figure BDA0002406045660000042
作为输出卷积特征,其中Tα表 示在时间维度上的下采样长度;Kl=4×4×fn,其中fn是滤波器数量;采用TSPP 层作为时间注意力分支的第一层,以输出固定长度向量Il,A作为后续FC层的输入 向量。
作为优选,所述步骤S4具体包括以下步骤:
LSTM神经元内部可以保持长期记忆,并学会何时记住或忘记内部存储器单 元中存储的信息。因此,使用两个LSTM层构建SEM模块,输出为zl(tα),最 后沿着时间轴对zl(tα)求和,从而产生最终的动作表示ul:
Figure BDA0002406045660000051
其中ul为SEM的输出动作表示,tα表示当前时间。
作为优选,所述步骤S5具体包括以下步骤:
本发明将SCM和SEM作为构建多流神经网络MSNN的主干。SCM用于提取 SSI图像的时空特征,该时空特征被进一步输入到SEM,以建模动作序列之间的 时序依赖关系。最后,通过融合三个主干网络形成多流神经网络,从不同尺度的 SSI图像学习动作表示。基于此主干结构,此步骤具有两种融合方案对多个流进 行融合,即早期融合和后期融合。早期融合是线性串接多个流的SCM输出特征, 并将该串接的输出特征连接到一个共同的SEM输入。最后,该SEM产生一个动 作表示输出U后期融合是通过串接多个流的SEM输出特征,直接形成一个动作 组合表示U;此后,在U之后增加一个批量归一化BN层,以消除U中的协变 量偏移;最后,将归一化后的U输入到SoftMax分类器,根据给定的U来预测 属于第i类别的概率为,
Figure BDA0002406045660000052
其中,
Figure BDA0002406045660000053
表示U为第i类别的概率,其中ws,i(ws,i)表示SoftMax层中权重矩 阵Ws的第i行(第j列),C表示类的总数;
将MSNN的最终优化目标函数表示为具有L2范数正则化的交叉熵损失函数 L:
Figure BDA0002406045660000054
其中y=(y1,y2,...,yC)是真实值标签,
Figure BDA0002406045660000055
表示序列U属于第i个动作类别的 预测概率;W表示网络权重的全局矩阵,此处合并为一个矩阵;L2正则化应用 于W,以减少网络过度拟合。标量λ1的作用是平衡正则项在目标函数中的贡献。
本发明有以下有益效果:本发明创造性的通过学习骨架自相似性进行跨视角 动作识别,该方法在视角变化情况下表现出较稳定的不变性。同时,多尺度SSI 方案的提出使得本发明具有更好的鲁棒性,有效地防止了侧视角带来的遮挡问题, 并且本发明设计了一个轻便的多流深度模型,兼顾了性能和效率,有效的解决了 跨视角的动作识别任务。
附图说明
图1是本发明技术方案的总体流程示意图;
图2是多尺度人体骨架的采样方法示例,其中包括一个典型的人体骨架关节 图和不同尺度下采样的骨架关节。
图3是多流神经网络主要模块的流程示意图,(a)是时空卷积模块,(b)是序 列编码模块;
图4是多流神经网络中3D CNN分支的参数分配示意图;
图5是早期融合示意图;
图6是后期融合示意图。
具体实施方式
实施例1:
本实施例提出一种基于骨架自相似性的跨视角动作识别方法,包括以下步骤:
S1,以精细到粗糙的方式获取3个尺度的骨架序列;
S2,将骨架自相似性表示为自相似图像SSI;
S3,构建时空卷积模块SCM;
S4,构建序列编码模块SEM;
S5,基于SCM和SEM的主干网络,通过多流融合构建多流神经网络MSNN。
本发明考虑到使用不同尺度的骨架信息可以有效的提高识别性能并很好的 处理遮挡情况。因此,首先以精细到粗糙的方式获取了三个尺度的人体骨架。在 更精细的尺度上,其相应人体骨架中包含更多的关节;多尺度SSI方案的提出使 得本发明具有更好的鲁棒性,有效地防止了侧视角带来的遮挡问题。
步骤S1具体包括以下步骤:
如图2,不同尺度采样的骨架关节以关节号表示,这些关节组成不同尺度的 人体骨架数据,其中数字对应的是上图中人体骨架的关节号码。
不同尺度的骨架采样规则是:在尺度1下,人体骨架的全部关节被采样用于 计算自相似图像,并且尺度1中相邻两关节组成的运动部件成为人体基本运动部 件;在尺度2下,相邻两个基本运动部件组成一个虚拟运动部件(更大的运动部 件),以此为原则采样能组成这些虚拟运动部件的首尾关节。以此类推,在尺度 3下人体骨架将只有5个虚拟运动部件,同样采样能组成此5个虚拟运动部件的 首尾关节。
尺度表如下:
Figure BDA0002406045660000071
步骤S2具体包括以下步骤:
参考图1,计算每一帧骨架的所有关节之间的成对欧式距离来生成骨架自相 似图像SSI,每个动作序列都具有3个尺度的骨架序列,每个动作序生成相应的 三组不同尺度的SSI;
设一个动作序列为P,每个动作序列都有3个尺度的骨架序列,即对于L=3, P=[p1,...,pL],其中pl表示第l个尺度的骨架序列,pl是一组3D关节位置序列;
Figure BDA0002406045660000072
其中
Figure BDA0002406045660000073
表示在尺度l下的骨架Nl个关节在3D空间中的x,y和z坐标序列(总共T帧), 其中l尺度下第t帧的骨架序列表示为Pl(t),其骨架自相似性表示为SSI图像 Il(t),定义为大小为Nl×Nl的对称方矩阵:
Figure BDA0002406045660000074
其中dij可以是度量空间中的任意距离,以测量骨架中第i个关节和第j个关 节的位置之间的距离;矩阵对角元素是通过将关节与其自身比较计算而生成的距 离,因此全为零;确定了Il(t)后,则可以将尺度l的骨架序列生产的SSI公式化 为:
Figure BDA0002406045660000081
其中T表示骨架序列的帧数。
参考图3和图4,步骤S3具体包括以下步骤:
S301,构建立体卷积神经网络3D CNN分支:
设置3个3D卷积层和2个最大池化层,自相似图像SSI先通过2个3D卷积 层,再通过1个最大池化层,再通过1个3D卷积层,最后通过1个最大池化层, 输出的时空特征是
Figure BDA0002406045660000082
在时间维度上具有下采样长度Tα,特征长度为 Kl。因为SSI是一种立方体形状张量,所以在本发明中设计了一个轻便的3D CNN应用于SSI提取时空特征,兼顾了性能和效率,有效的解决了跨视角的动 作识别任务;
S302,构建时间注意力分支:
在得到从3D CNN的最后一层获取的时空特征后,设置一个时间注意力模块, 其根据帧的信息重要性,包括一些关键帧包含区分度较高的信息,而其他帧仅提 供上下文信息,自动地对帧进行不同的注意力权重分配;SCM模块的最终输出 vl由vl,M和vl,A共同决定:
vl=vl,M e vl,A
其中vl,A是vl,M的注意力权重,用于重新校准时间信息以自动执行信息帧 的软选择,e表示逐元素相乘;
时间注意机制是通过三个全连接层FC层实现的,通过帧之间非线性交互实 现信息帧的选择;
首先引入了一个具有参数W1的空间降维FC1层,然后是ReLU激活函数。 然后引入具有参数W2的时间降维FC2层,其后是Sigmoid激活函数。最后,为 了能在3D CNN分支输出vl,M的时间维度上进行权重计算,在FC2层输出向量 上进行特征求和池化以及重复Kl操作,获得vl,A
Figure RE-GDA0002570602700000083
其中Il,A表示时间注意分支的输入,Tα表示下采样时间长度,Kl表示特征长 度,θ()和δ()分别表示ReLU和Sigmoid函数;repeat(g,n)表示在二维向量的最 后一维中重复元素n次;
S303,添加时间分布的空间金字塔池化层TSPP:
在网络的3D CNN分支的最后一个最大池化层后,放置了一个时间分布的空 间金字塔池化层,该层将每个时刻的输出特征图划为4×4个空间单元,在每个 空间单元中应用最大池化以获得每个滤波器的特征响应;通过合并所有单元的特 征响应,最终产生一个固定长度的向量
Figure BDA0002406045660000091
作为输出卷积特征,其中Tα表 示在时间维度上的下采样长度;Kl=4×4×fn,其中fn是滤波器数量;采用TSPP 层作为时间注意力分支的第一层,以输出固定长度向量Il,A作为后续FC层的输入 向量。
步骤S4具体包括以下步骤:
LSTM神经元内部可以保持长期记忆,并学会何时记住或忘记内部存储器单 元中存储的信息。因此,使用两个LSTM层构建SEM模块,输出为zl(tα),最 后沿着时间轴对zl(tα)求和,从而产生最终的动作表示ul:
Figure BDA0002406045660000092
其中ul为SEM的输出动作表示,tα表示当前时间。
参考图5,步骤S5具体包括以下步骤:
将SCM和SEM作为构建多流神经网络MSNN的主干,如图1所示。其中, SCM用于提取SSI图像的时空特征,该时空特征被进一步输入到SEM,以建模动 作序列之间的时序依赖关系。最后,通过融合三个主干网络形成多流神经网络, 从不同尺度的SSI图像学习动作表示。基于此主干结构,早期融合是线性串接多 个流的SCM输出特征,并将该串接的输出特征连接到一个共同的SEM输入,最 后,该SEM产生一个动作表示输出U。
实施例2:
本实施例提出一种基于骨架自相似性的跨视角动作识别方法,相较于实施例 1的步骤S5,采用后期融合替换早期融合,参考图6,步骤S5具体包括以下步 骤:
将SCM和SEM作为构建多流神经网络MSNN的主干,如图1所示。其中, SCM用于提取SSI图像的时空特征;该时空特征被进一步输入到SEM,以建模动 作序列之间的时序依赖关系。最后,通过融合三个主干网络形成多流神经网络, 从不同尺度的SSI图像学习动作表示。基于此主干结构,后期融合是通过串接多 个流的SEM输出特征,直接形成一个动作组合表示U;
实施例3:
对于实施例1和2,在U之后增加一个批量归一化BN层,以消除U中的协 变量偏移;最后,将归一化后的U输入到SoftMax分类器,根据给定的U来预 测属于第i类别的概率为,
Figure BDA0002406045660000101
其中,
Figure BDA0002406045660000102
表示U为第i类别的概率,其中ws,i(ws,i)表示SoftMax层中权重矩 阵Ws的第i行(第j列),C表示类的总数;
将MSNN的最终优化目标函数表示为具有L2范数正则化的交叉熵损失函数 L:
Figure BDA0002406045660000103
其中y=(y1,y2,...,yC)是真实值标签,
Figure BDA0002406045660000104
表示序列U属于第i个动作类别的 预测概率;W表示网络权重的全局矩阵,此处合并为一个矩阵;L2正则化应用 于W,以减少网络过度拟合。标量λ1的作用是平衡正则项在目标函数中的贡献。
本发明有以下有益效果:本发明创造性的通过学习骨架自相似性进行跨视角 动作识别,该方法在视角变化情况下表现出较稳定的不变性。同时,多尺度SSI 方案的提出使得本发明具有更好的鲁棒性,有效地防止了侧视角带来的遮挡问题, 并且本发明设计了一个轻便的多流深度模型,兼顾了性能和效率,有效的解决了 跨视角的动作识别任务。

Claims (10)

1.一种基于骨架自相似性的跨视角动作识别方法,其特征是,包括以下步骤:
S1,以精细到粗糙的方式获取3个尺度的骨架序列;
S2,将骨架自相似性表示为自相似图像SSI;
S3,构建时空卷积模块SCM;
S4,构建序列编码模块SEM;
S5,基于时空卷积模块SCM和序列编码模块SEM的主干网络,通过多流融合构建多流神经网络MSNN。
2.根据权利要求1所述的一种基于骨架自相似性的跨视角动作识别方法,其特征是,所述步骤S2具体包括以下步骤:
计算每一帧骨架的所有关节之间的成对欧式距离来生成骨架自相似图像SSI,每个动作序列都具有3个尺度的骨架序列,每个动作序生成相应的三组不同尺度的SSI;
设一个动作序列为P,每个动作序列都有3个尺度的骨架序列,即对于L=3,P=[p1,...,pL],其中pl表示第l个尺度的骨架序列,pl是一组3D关节位置序列;
Figure FDA0002406045650000011
其中
Figure FDA0002406045650000012
表示在尺度l下的骨架Nl个关节在3D空间中的x,y和z坐标序列,总共T帧,其中l尺度下第t帧的骨架序列表示为Pl(t),其骨架自相似性表示为SSI图像Il(t),定义为大小为Nl×Nl的对称方矩阵:
Figure FDA0002406045650000021
其中dij可以是度量空间中的任意距离,以测量骨架中第i个关节和第j个关节的位置之间的距离;矩阵对角元素是通过将关节与其自身比较计算而生成的距离,因此全为零;确定了Il(t)后,则可以将尺度l的骨架序列生产的SSI公式化为:
Figure FDA0002406045650000022
其中T表示骨架序列的帧数。
3.根据权利要求2所述的一种基于骨架自相似性的跨视角动作识别方法,其特征是,所述步骤S3具体包括以下步骤:
S301,构建立体卷积神经网络3D CNN分支;
S302,构建时间注意力分支;
S303,添加时间分布的空间金字塔池化层TSPP。
4.根据权利要求3所述的一种基于骨架自相似性的跨视角动作识别方法,其特征是,所述步骤S301具体包括以下步骤:
设置3个3D卷积层和2个最大池化层,自相似图像SSI先通过2个3D卷积层,再通过1个最大池化层,再通过1个3D卷积层,最后通过1个最大池化层,输出的时空特征是
Figure FDA0002406045650000023
在时间维度上具有下采样长度Tα,特征长度为Kl
5.根据权利要求4所述的一种基于骨架自相似性的跨视角动作识别方法,其特征是,所述步骤S302具体包括以下步骤:
在得到从3D CNN的最后一层获取的时空特征后,设置一个时间注意力模块,其根据帧的信息重要性,包括一些关键帧包含区分度较高的信息,而其他帧仅提供上下文信息,自动地对帧进行不同的注意力权重分配;SCM模块的最终输出vl由vl,M和vl,A共同决定:
vl=vl,Me vl,A
其中vl,A是vl,M的注意力权重,用于重新校准时间信息以自动执行信息帧的软选择,e表示逐元素相乘;
时间注意机制是通过三个全连接层FC层实现的,通过帧之间非线性交互实现信息帧的选择;
首先引入了一个具有参数W1的空间降维FC1层,然后是ReLU激活函数;然后引入具有参数W2的时间降维FC2层,其后是Sigmoid激活函数;最后,为了能在3D CNN分支输出vl,M的时间维度上进行权重计算,在FC2层输出向量上进行特征求和池化以及重复Kl操作,获得vl,A
Figure RE-FDA0002570602690000031
其中Il,A表示时间注意分支的输入,Tα表示下采样时间长度,Kl表示特征长度,θ()和δ()分别表示ReLU和Sigmoid函数;repeat(g,n)表示在二维向量的最后一维中重复元素n次。
6.根据权利要求5所述的一种基于骨架自相似性的跨视角动作识别方法,其特征是,所述步骤S303具体包括以下步骤:
在网络的3D CNN分支的最后一个最大池化层后,放置了一个时间分布的空间金字塔池化层,该层将每个时刻的输出特征图划为4×4个空间单元,在每个空间单元中应用最大池化以获得每个滤波器的特征响应;通过合并所有单元的特征响应,最终产生一个固定长度的向量
Figure FDA0002406045650000041
作为输出卷积特征,其中Tα表示在时间维度上的下采样长度;Kl=4×4×fn,其中fn是滤波器数量;采用TSPP层作为时间注意力分支的第一层,以输出固定长度向量Il,A作为后续FC层的输入向量。
7.根据权利要求1所述的一种基于骨架自相似性的跨视角动作识别方法,其特征是,所述步骤S4具体包括以下步骤:
使用两个LSTM层构建SEM模块,输出为zl(tα),最后沿着时间轴对zl(tα)求和,从而产生最终的动作表示ul:
Figure FDA0002406045650000042
其中ul为最终的动作表示,tα表示当前时间。
8.根据权利要求7所述的一种基于骨架自相似性的跨视角动作识别方法,其特征是,所述步骤S5具体包括以下步骤:
将时空卷积模块SCM和序列编码模块SEM作为构建多流神经网络MSNN的主干,时空卷积模块SCM用于提取自相似图像SSI的时空特征;该时空特征被进一步输入到序列编码模块SEM,以建模动作序列之间的时序依赖关系;最后,通过融合三个主干网络形成多流神经网络,从不同尺度的自相似图像SSI学习动作表示,基于此主干网络,利用早期融合串接多个流的时空卷积模块SCM输出特征,将该融合特征连接到一个共同的序列编码模块SEM输入,最后,该序列编码模块SEM产生一个最终的动作表示输出U。
9.根据权利要求7所述的一种基于骨架自相似性的跨视角动作识别方法,其特征是,所述步骤S5具体包括以下步骤:
将时空卷积模块SCM和序列编码模块SEM作为构建多流神经网络MSNN的主干,时空卷积模块SCM用于提取自相似图像SSI的时空特征;该时空特征被进一步输入到序列编码模块SEM,以建模动作序列之间的时序依赖关系;最后,通过融合三个主干网络形成多流神经网络,从不同尺度的自相似图像SSI学习动作表示;基于此主干结构,后期融合是通过串接多个流的SEM输出特征,直接形成一个最终的动作组合表示U。
10.根据权利要求8或9所述的一种基于骨架自相似性的跨视角动作识别方法,其特征是,所述步骤S5后增加步骤S6,所述步骤S6包括:
在U之后增加一个批量归一化BN层,以消除U中的协变量偏移;最后,将归一化后的U输入到SoftMax分类器,根据给定的U来预测属于第i类别的概率为,
Figure FDA0002406045650000051
其中,
Figure FDA0002406045650000052
表示U为第i类别的概率,其中ws,i(ws,i)表示SoftMax层中权重矩阵Ws的第i行(第j列),C表示类的总数;
将多流神经网络MSNN的最终优化目标函数表表示为具有L2范数正则化的交叉熵损失函数L:
Figure FDA0002406045650000061
其中y=(y1,y2,...,yC)是真实值标签,
Figure FDA0002406045650000062
表示序列U属于第i个动作类别的预测概率;W表示网络权重的全局矩阵,此处合并为一个矩阵;L2正则化应用于W,标量λ1
CN202010161732.4A 2020-03-10 2020-03-10 一种基于骨架自相似性的跨视角动作识别方法 Pending CN111563409A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010161732.4A CN111563409A (zh) 2020-03-10 2020-03-10 一种基于骨架自相似性的跨视角动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010161732.4A CN111563409A (zh) 2020-03-10 2020-03-10 一种基于骨架自相似性的跨视角动作识别方法

Publications (1)

Publication Number Publication Date
CN111563409A true CN111563409A (zh) 2020-08-21

Family

ID=72071436

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010161732.4A Pending CN111563409A (zh) 2020-03-10 2020-03-10 一种基于骨架自相似性的跨视角动作识别方法

Country Status (1)

Country Link
CN (1) CN111563409A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113705345A (zh) * 2021-07-21 2021-11-26 西安交通大学 一种基于sta-tsn的人类行为识别方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948475A (zh) * 2019-03-06 2019-06-28 武汉大学 一种基于骨架特征和深度学习的人体动作识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948475A (zh) * 2019-03-06 2019-06-28 武汉大学 一种基于骨架特征和深度学习的人体动作识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHANPENG SHAO.ET.: "Learning Representations From Skeletal Self-Similarities for Cross-View Action Recognition" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113705345A (zh) * 2021-07-21 2021-11-26 西安交通大学 一种基于sta-tsn的人类行为识别方法及系统
CN113705345B (zh) * 2021-07-21 2023-09-12 西安交通大学 一种基于sta-tsn的人类行为识别方法及系统

Similar Documents

Publication Publication Date Title
CN108520535B (zh) 基于深度恢复信息的物体分类方法
CN108921893B (zh) 一种基于在线深度学习slam的图像云计算方法及系统
CN108154194B (zh) 一种用基于张量的卷积网络提取高维特征的方法
CN110110624B (zh) 一种基于DenseNet网络与帧差法特征输入的人体行为识别方法
WO2021018163A1 (zh) 神经网络的搜索方法及装置
CN111325111A (zh) 一种融合逆注意力和多尺度深度监督的行人重识别方法
CN111814661B (zh) 基于残差-循环神经网络的人体行为识别方法
CN112801015B (zh) 一种基于注意力机制的多模态人脸识别方法
WO2019227479A1 (zh) 人脸旋转图像的生成方法及装置
CN111310707A (zh) 基于骨骼的图注意力网络动作识别方法及系统
CN111814719A (zh) 一种基于3d时空图卷积的骨架行为识别方法
CN110222718B (zh) 图像处理的方法及装置
CN113128424B (zh) 基于注意力机制的图卷积神经网络动作识别方法
CN111950485B (zh) 一种基于人体骨架的人体行为识别方法及系统
CN112329525A (zh) 一种基于时空图卷积神经网络的手势识别方法和装置
CN111783748A (zh) 人脸识别方法、装置、电子设备及存储介质
CN113516133B (zh) 一种多模态图像分类方法及系统
CN112036260A (zh) 一种自然环境下多尺度子块聚合的表情识别方法及系统
CN114581502A (zh) 基于单目图像的三维人体模型联合重建方法、电子设备及存储介质
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
CN114973418A (zh) 一种跨模态三维点云序列时空特征网络的行为识别方法
CN114359785A (zh) 基于自适应矩阵特征融合网络的唇语识别方法、装置及电子设备
CN114333002A (zh) 基于图深度学习和人脸三维重建的微表情识别方法
CN110782503B (zh) 一种基于两分支深度相关网络的人脸图像合成方法和装置
CN111563409A (zh) 一种基于骨架自相似性的跨视角动作识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200821