CN111563409A - 一种基于骨架自相似性的跨视角动作识别方法 - Google Patents
一种基于骨架自相似性的跨视角动作识别方法 Download PDFInfo
- Publication number
- CN111563409A CN111563409A CN202010161732.4A CN202010161732A CN111563409A CN 111563409 A CN111563409 A CN 111563409A CN 202010161732 A CN202010161732 A CN 202010161732A CN 111563409 A CN111563409 A CN 111563409A
- Authority
- CN
- China
- Prior art keywords
- skeleton
- self
- time
- similarity
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009471 action Effects 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000013528 artificial neural network Methods 0.000 claims abstract description 16
- 230000004927 fusion Effects 0.000 claims abstract description 15
- 238000011176 pooling Methods 0.000 claims description 24
- 238000013527 convolutional neural network Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 13
- 230000002123 temporal effect Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 6
- FQENQNTWSFEDLI-UHFFFAOYSA-J sodium diphosphate Chemical compound [Na+].[Na+].[Na+].[Na+].[O-]P([O-])(=O)OP([O-])([O-])=O FQENQNTWSFEDLI-UHFFFAOYSA-J 0.000 claims description 6
- 235000019818 tetrasodium diphosphate Nutrition 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims 1
- 230000009467 reduction Effects 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 3
- 230000008859 change Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 210000004027 cell Anatomy 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Abstract
本发明提出一种基于骨架自相似性的跨视角动作识别方法,包括以下步骤:S1,以精细到粗糙的方式获取3个尺度的骨架序列;S2,将骨架自相似性表示为自相似图像SSI;S3,构建时空卷积模块SCM;S4,构建序列编码模块SEM;S5,基于SCM和SEM的主干网络,通过多流融合构建多流神经网络MSNN。本发明考虑到使用不同尺度的骨架信息可以有效的提高识别性能并很好的处理遮挡情况。因此,首先以精细到粗糙的方式获取了3个尺度的人体骨架。在更精细的尺度上,其相应人体骨架中包含更多的关节;多尺度SSI方案的提出使得本发明具有更好的鲁棒性,有效地防止了侧视角带来的遮挡问题。
Description
技术领域
本发明涉及视觉中动作识别技术领域,尤其是涉及一种基于骨架自相似性的 跨视角动作识别方法。
背景技术
人类动作识别由于其广泛的应用而一直是活跃的研究领域,例如视频理解, 人机交互和辅助机器人。在固定的通用视角下,该领域中大多数现有方法都能很 好地实现动作识别。然而当相机视角变化,它们的性能却非常有限甚至变得不可 预知。这种所谓的“跨视角”场景下的动作识别是一项非常具有挑战性的任务, 这是因为不同传感器从各种视角捕获的相同动作的视觉外观可能完全不同。因此, 设计一个在视角变化场景下仍能表现良好的跨视角动作识别方法,是该领域一项 主要的挑战。
为了解决由于视角改变而产生的人体动作视觉变化,相关研究人员提出了很 多非常有价值的解决方法。其中,一种可行的方法是通过仿真方法在人体对象周 围模拟大量的虚拟相机来枚举尽可能多的视角,以生成多个视角的动作训练数据。 但是,这种方法非常耗时,因为它需要合并所有视角并标注大量的视频数据。另 一种可行的方法是为不同视角下的动作设计工程特征或学习不同视角下共同不 变的特征。这种方法的性能在很大程度上受到特征学习模型的训练视角数量的限 制。
近年来,基于人体骨架数据的动作识别受到了越来越多的关注,因为这些数 据不仅对外观,环境背景和视角的变化具有很好的鲁棒性。此外,人体骨架数据 是一种高度结构化的数据,可有利于产生能够克服遮挡和噪声问题的高判别性动 作表示,例如以不同尺度对骨架进行采样和分解。但是,现有基于骨架的跨视角 动作识别方法的性能受到其对骨架数据的不灵活预处理的限制。具体来说,为了 标准化骨架数据的坐标系统,原始骨架数据通常被转换到一个以人体中心为原点 的局部坐标系下。但是,这种预处理不能有效地处理视线变化下的人体外观变化。 首先,这种预处理需要人体的严格刚体假设成立。其次,当动作序列中不包含人 体的直立姿势时,以人体几个关键点为中心的局部坐标系建立方法将完全不可行。 此外,骨架中的遮挡可能为跨视角场景中的预处理和模型学习引入更多的变化。
发明内容
本发明解决了视线变化下的人体外观变化影响动作识别的问题,提出一种基 于骨架自相似性的跨视角动作识别方法,通过多尺度的骨架自相似性来学习跨视 角动作表示,创建具有视角不变性的动作描述。本发明可以在视角变化时显示出 较高的结构稳定性。本发明创造性的将每一帧的骨架自相似性表示为一帧图像, 并相应地设计了一个多流深度学习模型,学习多尺度的具有视角独立性的自相似 性特征表示,在处理跨视角动作识别任务中实现了较好的效果。
为实现上述目的,本发明提供以下的技术方案:
一种基于骨架自相似性的跨视角动作识别方法,包括以下步骤:
S1,以精细到粗糙的方式获取3个尺度的骨架序列;
S2,将骨架自相似性表示为自相似图像SSI;
S3,构建时空卷积模块SCM;
S4,构建序列编码模块SEM;
S5,基于SCM和SEM的主干网络,通过多流融合构建多流神经网络MSNN。
本发明考虑到使用不同尺度的骨架信息可以有效的提高识别性能并很好的 处理遮挡情况。因此,首先以精细到粗糙的方式获取了三个尺度的人体骨架。在 更精细的尺度上,其相应人体骨架中包含更多的关节;多尺度SSI方案的提出使 得本发明具有更好的鲁棒性,有效地防止了侧视角带来的遮挡问题。
作为优选,所述步骤S2具体包括以下步骤:
计算每一帧骨架的所有关节之间的成对欧式距离来生成骨架自相似图像SSI, 每个动作序列都具有3个尺度的骨架序列,每个动作序生成相应的三组不同尺度 的SSI;
设一个动作序列为P,每个动作序列都有3个尺度的骨架序列,即对于L=3, P=[p1,...,pL],其中pl表示第l个尺度的骨架序列,pl是一组3D关节位置序列;
令其中表示在尺度l下的骨架Nl个关节在3D空间中的x,y和z坐标序列(总共T帧), 其中l尺度下第t帧的骨架序列表示为Pl(t),其骨架自相似性表示为SSI图像 Il(t),定义为大小为Nl×Nl的对称方矩阵:
其中dij可以是度量空间中的任意距离,以测量骨架中第i个关节和第j个关 节的位置之间的距离;矩阵对角元素是通过将关节与其自身比较计算而生成的距 离,因此全为零;确定了Il(t)后,则可以将尺度l的骨架序列生产的SSI公式化 为:
其中T表示骨架序列的帧数。
作为优选,所述步骤S3具体包括以下步骤:
S301,构建立体卷积神经网络3D CNN分支;
S302,构建时间注意力分支;
S303,添加时间分布的空间金字塔池化层TSPP。
作为优选,所述步骤S301具体包括以下步骤:
设置3个3D卷积层和2个最大池化层,自相似图像SSI先通过2个3D卷积 层,再通过1个最大池化层,再通过1个3D卷积层,最后通过1个最大池化层, 输出的时空特征是在时间维度上具有下采样长度Tα,特征长度为Kl。因为SSI是一种立方体形状张量,所以在本发明中设计了一个轻便的3D CNN应用于SSI提取时空特征,兼顾了性能和效率,有效的解决了跨视角的动 作识别任务。
作为优选,所述步骤S302具体包括以下步骤:
在得到从3D CNN的最后一层获取的时空特征后,设置一个时间注意力模块, 其根据帧的信息重要性,包括一些关键帧包含区分度较高的信息,而其他帧仅提 供上下文信息,自动地对帧进行不同的注意力权重分配;SCM模块的最终输出vl由vl,M和vl,A共同决定:
vl=vl,M e vl,A
其中vl,A是vl,M的注意力权重,用于重新校准时间信息以自动执行信息帧 的软选择,e表示逐元素相乘;
时间注意机制是通过三个全连接层FC层实现的,通过帧之间非线性交互实 现信息帧的选择;
首先引入了一个具有参数W1的空间降维FC1层,然后是ReLU激活函数。 然后引入具有参数W2的时间降维FC2层,其后是Sigmoid激活函数。最后,为 了能在3D CNN分支输出vl,M的时间维度上进行权重计算,在FC2层输出向量 上进行特征求和池化以及重复Kl操作,获得vl,A:
其中Il,A表示时间注意分支的输入,Tα表示下采样时间长度,Kl表示特征长 度,θ()和δ()分别表示ReLU和Sigmoid函数;repeat(g,n)表示在二维向量的最 后一维中重复元素n次。
作为优选,所述步骤S303具体包括以下步骤:
在网络的3D CNN分支的最后一个最大池化层后,放置了一个时间分布的空 间金字塔池化层,该层将每个时刻的输出特征图划为4×4个空间单元,在每个 空间单元中应用最大池化以获得每个滤波器的特征响应;通过合并所有单元的特 征响应,最终产生一个固定长度的向量作为输出卷积特征,其中Tα表 示在时间维度上的下采样长度;Kl=4×4×fn,其中fn是滤波器数量;采用TSPP 层作为时间注意力分支的第一层,以输出固定长度向量Il,A作为后续FC层的输入 向量。
作为优选,所述步骤S4具体包括以下步骤:
LSTM神经元内部可以保持长期记忆,并学会何时记住或忘记内部存储器单 元中存储的信息。因此,使用两个LSTM层构建SEM模块,输出为zl(tα),最 后沿着时间轴对zl(tα)求和,从而产生最终的动作表示ul:
其中ul为SEM的输出动作表示,tα表示当前时间。
作为优选,所述步骤S5具体包括以下步骤:
本发明将SCM和SEM作为构建多流神经网络MSNN的主干。SCM用于提取 SSI图像的时空特征,该时空特征被进一步输入到SEM,以建模动作序列之间的 时序依赖关系。最后,通过融合三个主干网络形成多流神经网络,从不同尺度的 SSI图像学习动作表示。基于此主干结构,此步骤具有两种融合方案对多个流进 行融合,即早期融合和后期融合。早期融合是线性串接多个流的SCM输出特征, 并将该串接的输出特征连接到一个共同的SEM输入。最后,该SEM产生一个动 作表示输出U后期融合是通过串接多个流的SEM输出特征,直接形成一个动作 组合表示U;此后,在U之后增加一个批量归一化BN层,以消除U中的协变 量偏移;最后,将归一化后的U输入到SoftMax分类器,根据给定的U来预测 属于第i类别的概率为,
将MSNN的最终优化目标函数表示为具有L2范数正则化的交叉熵损失函数 L:
其中y=(y1,y2,...,yC)是真实值标签,表示序列U属于第i个动作类别的 预测概率;W表示网络权重的全局矩阵,此处合并为一个矩阵;L2正则化应用 于W,以减少网络过度拟合。标量λ1的作用是平衡正则项在目标函数中的贡献。
本发明有以下有益效果:本发明创造性的通过学习骨架自相似性进行跨视角 动作识别,该方法在视角变化情况下表现出较稳定的不变性。同时,多尺度SSI 方案的提出使得本发明具有更好的鲁棒性,有效地防止了侧视角带来的遮挡问题, 并且本发明设计了一个轻便的多流深度模型,兼顾了性能和效率,有效的解决了 跨视角的动作识别任务。
附图说明
图1是本发明技术方案的总体流程示意图;
图2是多尺度人体骨架的采样方法示例,其中包括一个典型的人体骨架关节 图和不同尺度下采样的骨架关节。
图3是多流神经网络主要模块的流程示意图,(a)是时空卷积模块,(b)是序 列编码模块;
图4是多流神经网络中3D CNN分支的参数分配示意图;
图5是早期融合示意图;
图6是后期融合示意图。
具体实施方式
实施例1:
本实施例提出一种基于骨架自相似性的跨视角动作识别方法,包括以下步骤:
S1,以精细到粗糙的方式获取3个尺度的骨架序列;
S2,将骨架自相似性表示为自相似图像SSI;
S3,构建时空卷积模块SCM;
S4,构建序列编码模块SEM;
S5,基于SCM和SEM的主干网络,通过多流融合构建多流神经网络MSNN。
本发明考虑到使用不同尺度的骨架信息可以有效的提高识别性能并很好的 处理遮挡情况。因此,首先以精细到粗糙的方式获取了三个尺度的人体骨架。在 更精细的尺度上,其相应人体骨架中包含更多的关节;多尺度SSI方案的提出使 得本发明具有更好的鲁棒性,有效地防止了侧视角带来的遮挡问题。
步骤S1具体包括以下步骤:
如图2,不同尺度采样的骨架关节以关节号表示,这些关节组成不同尺度的 人体骨架数据,其中数字对应的是上图中人体骨架的关节号码。
不同尺度的骨架采样规则是:在尺度1下,人体骨架的全部关节被采样用于 计算自相似图像,并且尺度1中相邻两关节组成的运动部件成为人体基本运动部 件;在尺度2下,相邻两个基本运动部件组成一个虚拟运动部件(更大的运动部 件),以此为原则采样能组成这些虚拟运动部件的首尾关节。以此类推,在尺度 3下人体骨架将只有5个虚拟运动部件,同样采样能组成此5个虚拟运动部件的 首尾关节。
尺度表如下:
步骤S2具体包括以下步骤:
参考图1,计算每一帧骨架的所有关节之间的成对欧式距离来生成骨架自相 似图像SSI,每个动作序列都具有3个尺度的骨架序列,每个动作序生成相应的 三组不同尺度的SSI;
设一个动作序列为P,每个动作序列都有3个尺度的骨架序列,即对于L=3, P=[p1,...,pL],其中pl表示第l个尺度的骨架序列,pl是一组3D关节位置序列;
令其中表示在尺度l下的骨架Nl个关节在3D空间中的x,y和z坐标序列(总共T帧), 其中l尺度下第t帧的骨架序列表示为Pl(t),其骨架自相似性表示为SSI图像 Il(t),定义为大小为Nl×Nl的对称方矩阵:
其中dij可以是度量空间中的任意距离,以测量骨架中第i个关节和第j个关 节的位置之间的距离;矩阵对角元素是通过将关节与其自身比较计算而生成的距 离,因此全为零;确定了Il(t)后,则可以将尺度l的骨架序列生产的SSI公式化 为:
其中T表示骨架序列的帧数。
参考图3和图4,步骤S3具体包括以下步骤:
S301,构建立体卷积神经网络3D CNN分支:
设置3个3D卷积层和2个最大池化层,自相似图像SSI先通过2个3D卷积 层,再通过1个最大池化层,再通过1个3D卷积层,最后通过1个最大池化层, 输出的时空特征是在时间维度上具有下采样长度Tα,特征长度为 Kl。因为SSI是一种立方体形状张量,所以在本发明中设计了一个轻便的3D CNN应用于SSI提取时空特征,兼顾了性能和效率,有效的解决了跨视角的动 作识别任务;
S302,构建时间注意力分支:
在得到从3D CNN的最后一层获取的时空特征后,设置一个时间注意力模块, 其根据帧的信息重要性,包括一些关键帧包含区分度较高的信息,而其他帧仅提 供上下文信息,自动地对帧进行不同的注意力权重分配;SCM模块的最终输出 vl由vl,M和vl,A共同决定:
vl=vl,M e vl,A
其中vl,A是vl,M的注意力权重,用于重新校准时间信息以自动执行信息帧 的软选择,e表示逐元素相乘;
时间注意机制是通过三个全连接层FC层实现的,通过帧之间非线性交互实 现信息帧的选择;
首先引入了一个具有参数W1的空间降维FC1层,然后是ReLU激活函数。 然后引入具有参数W2的时间降维FC2层,其后是Sigmoid激活函数。最后,为 了能在3D CNN分支输出vl,M的时间维度上进行权重计算,在FC2层输出向量 上进行特征求和池化以及重复Kl操作,获得vl,A:
其中Il,A表示时间注意分支的输入,Tα表示下采样时间长度,Kl表示特征长 度,θ()和δ()分别表示ReLU和Sigmoid函数;repeat(g,n)表示在二维向量的最 后一维中重复元素n次;
S303,添加时间分布的空间金字塔池化层TSPP:
在网络的3D CNN分支的最后一个最大池化层后,放置了一个时间分布的空 间金字塔池化层,该层将每个时刻的输出特征图划为4×4个空间单元,在每个 空间单元中应用最大池化以获得每个滤波器的特征响应;通过合并所有单元的特 征响应,最终产生一个固定长度的向量作为输出卷积特征,其中Tα表 示在时间维度上的下采样长度;Kl=4×4×fn,其中fn是滤波器数量;采用TSPP 层作为时间注意力分支的第一层,以输出固定长度向量Il,A作为后续FC层的输入 向量。
步骤S4具体包括以下步骤:
LSTM神经元内部可以保持长期记忆,并学会何时记住或忘记内部存储器单 元中存储的信息。因此,使用两个LSTM层构建SEM模块,输出为zl(tα),最 后沿着时间轴对zl(tα)求和,从而产生最终的动作表示ul:
其中ul为SEM的输出动作表示,tα表示当前时间。
参考图5,步骤S5具体包括以下步骤:
将SCM和SEM作为构建多流神经网络MSNN的主干,如图1所示。其中, SCM用于提取SSI图像的时空特征,该时空特征被进一步输入到SEM,以建模动 作序列之间的时序依赖关系。最后,通过融合三个主干网络形成多流神经网络, 从不同尺度的SSI图像学习动作表示。基于此主干结构,早期融合是线性串接多 个流的SCM输出特征,并将该串接的输出特征连接到一个共同的SEM输入,最 后,该SEM产生一个动作表示输出U。
实施例2:
本实施例提出一种基于骨架自相似性的跨视角动作识别方法,相较于实施例 1的步骤S5,采用后期融合替换早期融合,参考图6,步骤S5具体包括以下步 骤:
将SCM和SEM作为构建多流神经网络MSNN的主干,如图1所示。其中, SCM用于提取SSI图像的时空特征;该时空特征被进一步输入到SEM,以建模动 作序列之间的时序依赖关系。最后,通过融合三个主干网络形成多流神经网络, 从不同尺度的SSI图像学习动作表示。基于此主干结构,后期融合是通过串接多 个流的SEM输出特征,直接形成一个动作组合表示U;
实施例3:
对于实施例1和2,在U之后增加一个批量归一化BN层,以消除U中的协 变量偏移;最后,将归一化后的U输入到SoftMax分类器,根据给定的U来预 测属于第i类别的概率为,
将MSNN的最终优化目标函数表示为具有L2范数正则化的交叉熵损失函数 L:
其中y=(y1,y2,...,yC)是真实值标签,表示序列U属于第i个动作类别的 预测概率;W表示网络权重的全局矩阵,此处合并为一个矩阵;L2正则化应用 于W,以减少网络过度拟合。标量λ1的作用是平衡正则项在目标函数中的贡献。
本发明有以下有益效果:本发明创造性的通过学习骨架自相似性进行跨视角 动作识别,该方法在视角变化情况下表现出较稳定的不变性。同时,多尺度SSI 方案的提出使得本发明具有更好的鲁棒性,有效地防止了侧视角带来的遮挡问题, 并且本发明设计了一个轻便的多流深度模型,兼顾了性能和效率,有效的解决了 跨视角的动作识别任务。
Claims (10)
1.一种基于骨架自相似性的跨视角动作识别方法,其特征是,包括以下步骤:
S1,以精细到粗糙的方式获取3个尺度的骨架序列;
S2,将骨架自相似性表示为自相似图像SSI;
S3,构建时空卷积模块SCM;
S4,构建序列编码模块SEM;
S5,基于时空卷积模块SCM和序列编码模块SEM的主干网络,通过多流融合构建多流神经网络MSNN。
2.根据权利要求1所述的一种基于骨架自相似性的跨视角动作识别方法,其特征是,所述步骤S2具体包括以下步骤:
计算每一帧骨架的所有关节之间的成对欧式距离来生成骨架自相似图像SSI,每个动作序列都具有3个尺度的骨架序列,每个动作序生成相应的三组不同尺度的SSI;
设一个动作序列为P,每个动作序列都有3个尺度的骨架序列,即对于L=3,P=[p1,...,pL],其中pl表示第l个尺度的骨架序列,pl是一组3D关节位置序列;
令其中表示在尺度l下的骨架Nl个关节在3D空间中的x,y和z坐标序列,总共T帧,其中l尺度下第t帧的骨架序列表示为Pl(t),其骨架自相似性表示为SSI图像Il(t),定义为大小为Nl×Nl的对称方矩阵:
其中dij可以是度量空间中的任意距离,以测量骨架中第i个关节和第j个关节的位置之间的距离;矩阵对角元素是通过将关节与其自身比较计算而生成的距离,因此全为零;确定了Il(t)后,则可以将尺度l的骨架序列生产的SSI公式化为:
其中T表示骨架序列的帧数。
3.根据权利要求2所述的一种基于骨架自相似性的跨视角动作识别方法,其特征是,所述步骤S3具体包括以下步骤:
S301,构建立体卷积神经网络3D CNN分支;
S302,构建时间注意力分支;
S303,添加时间分布的空间金字塔池化层TSPP。
5.根据权利要求4所述的一种基于骨架自相似性的跨视角动作识别方法,其特征是,所述步骤S302具体包括以下步骤:
在得到从3D CNN的最后一层获取的时空特征后,设置一个时间注意力模块,其根据帧的信息重要性,包括一些关键帧包含区分度较高的信息,而其他帧仅提供上下文信息,自动地对帧进行不同的注意力权重分配;SCM模块的最终输出vl由vl,M和vl,A共同决定:
vl=vl,Me vl,A
其中vl,A是vl,M的注意力权重,用于重新校准时间信息以自动执行信息帧的软选择,e表示逐元素相乘;
时间注意机制是通过三个全连接层FC层实现的,通过帧之间非线性交互实现信息帧的选择;
首先引入了一个具有参数W1的空间降维FC1层,然后是ReLU激活函数;然后引入具有参数W2的时间降维FC2层,其后是Sigmoid激活函数;最后,为了能在3D CNN分支输出vl,M的时间维度上进行权重计算,在FC2层输出向量上进行特征求和池化以及重复Kl操作,获得vl,A:
其中Il,A表示时间注意分支的输入,Tα表示下采样时间长度,Kl表示特征长度,θ()和δ()分别表示ReLU和Sigmoid函数;repeat(g,n)表示在二维向量的最后一维中重复元素n次。
8.根据权利要求7所述的一种基于骨架自相似性的跨视角动作识别方法,其特征是,所述步骤S5具体包括以下步骤:
将时空卷积模块SCM和序列编码模块SEM作为构建多流神经网络MSNN的主干,时空卷积模块SCM用于提取自相似图像SSI的时空特征;该时空特征被进一步输入到序列编码模块SEM,以建模动作序列之间的时序依赖关系;最后,通过融合三个主干网络形成多流神经网络,从不同尺度的自相似图像SSI学习动作表示,基于此主干网络,利用早期融合串接多个流的时空卷积模块SCM输出特征,将该融合特征连接到一个共同的序列编码模块SEM输入,最后,该序列编码模块SEM产生一个最终的动作表示输出U。
9.根据权利要求7所述的一种基于骨架自相似性的跨视角动作识别方法,其特征是,所述步骤S5具体包括以下步骤:
将时空卷积模块SCM和序列编码模块SEM作为构建多流神经网络MSNN的主干,时空卷积模块SCM用于提取自相似图像SSI的时空特征;该时空特征被进一步输入到序列编码模块SEM,以建模动作序列之间的时序依赖关系;最后,通过融合三个主干网络形成多流神经网络,从不同尺度的自相似图像SSI学习动作表示;基于此主干结构,后期融合是通过串接多个流的SEM输出特征,直接形成一个最终的动作组合表示U。
10.根据权利要求8或9所述的一种基于骨架自相似性的跨视角动作识别方法,其特征是,所述步骤S5后增加步骤S6,所述步骤S6包括:
在U之后增加一个批量归一化BN层,以消除U中的协变量偏移;最后,将归一化后的U输入到SoftMax分类器,根据给定的U来预测属于第i类别的概率为,
将多流神经网络MSNN的最终优化目标函数表表示为具有L2范数正则化的交叉熵损失函数L:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010161732.4A CN111563409A (zh) | 2020-03-10 | 2020-03-10 | 一种基于骨架自相似性的跨视角动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010161732.4A CN111563409A (zh) | 2020-03-10 | 2020-03-10 | 一种基于骨架自相似性的跨视角动作识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111563409A true CN111563409A (zh) | 2020-08-21 |
Family
ID=72071436
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010161732.4A Pending CN111563409A (zh) | 2020-03-10 | 2020-03-10 | 一种基于骨架自相似性的跨视角动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111563409A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113705345A (zh) * | 2021-07-21 | 2021-11-26 | 西安交通大学 | 一种基于sta-tsn的人类行为识别方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948475A (zh) * | 2019-03-06 | 2019-06-28 | 武汉大学 | 一种基于骨架特征和深度学习的人体动作识别方法 |
-
2020
- 2020-03-10 CN CN202010161732.4A patent/CN111563409A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948475A (zh) * | 2019-03-06 | 2019-06-28 | 武汉大学 | 一种基于骨架特征和深度学习的人体动作识别方法 |
Non-Patent Citations (1)
Title |
---|
ZHANPENG SHAO.ET.: "Learning Representations From Skeletal Self-Similarities for Cross-View Action Recognition" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113705345A (zh) * | 2021-07-21 | 2021-11-26 | 西安交通大学 | 一种基于sta-tsn的人类行为识别方法及系统 |
CN113705345B (zh) * | 2021-07-21 | 2023-09-12 | 西安交通大学 | 一种基于sta-tsn的人类行为识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108520535B (zh) | 基于深度恢复信息的物体分类方法 | |
CN108921893B (zh) | 一种基于在线深度学习slam的图像云计算方法及系统 | |
CN108154194B (zh) | 一种用基于张量的卷积网络提取高维特征的方法 | |
CN110110624B (zh) | 一种基于DenseNet网络与帧差法特征输入的人体行为识别方法 | |
WO2021018163A1 (zh) | 神经网络的搜索方法及装置 | |
CN111325111A (zh) | 一种融合逆注意力和多尺度深度监督的行人重识别方法 | |
CN111814661B (zh) | 基于残差-循环神经网络的人体行为识别方法 | |
CN112801015B (zh) | 一种基于注意力机制的多模态人脸识别方法 | |
WO2019227479A1 (zh) | 人脸旋转图像的生成方法及装置 | |
CN111310707A (zh) | 基于骨骼的图注意力网络动作识别方法及系统 | |
CN111814719A (zh) | 一种基于3d时空图卷积的骨架行为识别方法 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN113128424B (zh) | 基于注意力机制的图卷积神经网络动作识别方法 | |
CN111950485B (zh) | 一种基于人体骨架的人体行为识别方法及系统 | |
CN112329525A (zh) | 一种基于时空图卷积神经网络的手势识别方法和装置 | |
CN111783748A (zh) | 人脸识别方法、装置、电子设备及存储介质 | |
CN113516133B (zh) | 一种多模态图像分类方法及系统 | |
CN112036260A (zh) | 一种自然环境下多尺度子块聚合的表情识别方法及系统 | |
CN114581502A (zh) | 基于单目图像的三维人体模型联合重建方法、电子设备及存储介质 | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
CN114973418A (zh) | 一种跨模态三维点云序列时空特征网络的行为识别方法 | |
CN114359785A (zh) | 基于自适应矩阵特征融合网络的唇语识别方法、装置及电子设备 | |
CN114333002A (zh) | 基于图深度学习和人脸三维重建的微表情识别方法 | |
CN110782503B (zh) | 一种基于两分支深度相关网络的人脸图像合成方法和装置 | |
CN111563409A (zh) | 一种基于骨架自相似性的跨视角动作识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200821 |