CN117152829A

CN117152829A - 一种多视图自适应骨架网络的工业装箱动作识别方法

Info

Publication number: CN117152829A
Application number: CN202310471306.4A
Authority: CN
Inventors: 胡海洋; 潘开来
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2023-04-27
Filing date: 2023-04-27
Publication date: 2023-12-01

Abstract

本发明公开一种多视图自适应骨架网络的工业装箱动作识别方法。本发明首先使用堆叠的差分图像作为输入，代替原RGB图像来更好地提取运动特征，从而减少复杂背景的干扰。在获取到骨架数据后，传入到自适应视图转换网络中，自动寻找最佳的观测视角，用于提高工人复杂动作的识别精度，除此之外，还引入了双视图结果来解决人体被遮挡的问题，两个视图下的相机分别获取互补的运动信息，后续传入三层堆叠的长短时记忆网络中进行动作识别。最后将不同流下的分类分数进行融合，得到识别结果。此外，为了识别不同的细微动作，还引入了时域注意力模块，利用截取的局部图像传入到后续的ResNeXt网络中，进一步提高了识别的精度。

Description

一种多视图自适应骨架网络的工业装箱动作识别方法

技术领域

本发明属于动作识别技术领域，具体涉及一种多视图自适应骨架网络的工业装箱动作识别方法。

背景技术

动作识别在工业生产制造中变得越来越重要。在复杂的生产环境中，通过识别工人动作和姿态，提高生产效率和质量。随着计算机视觉技术的不断提高，动作识别算法在视频监控、人机交互、辅助驾驶和医疗影像分析等领域得到了广泛的应用。

行为识别技术主要分为手工特征识别方法和深度学习方法。手工构造的特征方法通常将骨架建模，然后使用Grassmann流形和李群等数学语言来表示特征。但人工提取的特征具有局限性，往往需要复杂的参数调整和优化，手工制作的功能需要大量的经验和测试，因此很难实现。

深度学习方法是骨骼动作识别的主流方式，并取得了十分优异的效果。目前最流行的基于深度学习的方法有基于CNN的方法、基于RNN的方法和基于GCN的方法。基于CNN的方法更多被用于处理二维图像任务，也有不少研究者利用深度学习的方法从RGB图像、光流、差分图像和人体骨骼数据中提取动作特征。

传统的行为识别研究往往不会考虑数据采集失效的问题，在复杂的工厂环境下直接套用上述模型并不会取得很好的效果，原因有下：1、车间存在物体或者人体的遮挡；2、光线变化频繁，背景混乱影响数据的采集和识别；3、某些相似的动作无法准确识别。这些问题给研究工作带来的很大的困难。

发明内容

针对上述在工业场景下存在的问题，本发明提出一种多视图自适应骨架网络的工业装箱动作识别方法。

本发明首先使用堆叠的差分图像作为输入，代替原RGB图像来更好地提取运动特征，从而减少复杂背景的干扰。在获取到骨架数据后，传入到自适应视图转换网络中，自动寻找最佳的观测视角，用于提高工人复杂动作的识别精度，除此之外，还引入了双视图结果来解决人体被遮挡的问题，两个视图下的相机分别获取互补的运动信息，后续传入长短时记忆网络中进行动作识别。最后将不同流下的分类分数进行融合，得到识别结果。此外，为了识别不同的细微动作，还引入了时域注意力模块，利用截取的局部图像传入到后续的ResNeXt网络中，进一步提高了识别的精度。

第一方面，本发明提供一种多视图自适应骨架网络的工业装箱动作识别方法，包括如下步骤：

步骤S1：获取两个不同视角下的互补RGB视频；

步骤S2：对两个不同视角下的互补RGB视频处理得到两个不同视角下的差分图像序列；

步骤S3：利用3D姿态估计算法对两个不同视角下的差分图像序列提取人体骨架图像序列；

步骤S4：利用自适应视图转换网络获取两个最佳观察视角的人体骨架图像；

步骤S5：两个最佳观察视角的人体骨架图像各自输入至行为识别模块进行行为识别；

步骤S6：时域注意力模块获取所述行为识别模块中两个识别单元LSTM网络的输出结果，生成时域注意力权重A_T；

步骤S7：根据步骤S3获得的人体骨架图像序列确定手部的位置，然后对步骤S1获取的两个不同视角下的互补RGB视频进行裁剪，得到手部局部图像；最后将手部局部图像输入至ResNeXt网络，提取手部特征矩阵g；

步骤S8：ResNeXt网络输出的手部特征矩阵g与时域注意力模块生成的时域注意力权重A_T在时间维度上线性相乘，然后将相乘结果再与原特征矩阵g逐位相加，最后得到时域修正的特征矩阵g_T；

步骤S9：将时域修正的特征矩阵g_T经全连接层、softmax层获取手部动作识别结果；

步骤S10：将步骤S5行为识别模块输出的识别结果和步骤S9获取的手部动作识别结果进行加权融合，获取工业装箱动作识别结果。

第二方面，本发明提供工业装箱动作识别系统，包括：

数据获取模块，用于获取两个不同视角下的互补RGB视频；

差分图像提取模块，用于对两个不同视角下的互补RGB视频处理得到两个不同视角下的差分图像序列；

人体骨架图像提取模块，用于利用3D姿态估计算法对两个不同视角下的差分图像序列提取人体骨架图像序列；

自适应视图转换网络，用于对人体骨架图像提取模块输出的人体骨架图像序列进行视图转换，得到两个最佳观察视角的人体骨架图像；

行为识别模块，用于对两个最佳观察视角的人体骨架图像进行行为识别；

时域注意力模块，用于获取所述行为识别模块中两个识别单元LSTM网络的输出结果，生成时域注意力权重A_T；

手部特征提取模块，根据人体骨架图像提取模块输出的人体骨架图像序列确定手部的位置，然后对数据获取模块获取的两个不同视角下的互补RGB视频进行裁剪，得到手部局部图像；最后将手部局部图像输入至ResNeXt网络，提取手部特征矩阵g；

时域修正模块，对手部特征提取模块输出的手部特征矩阵g与时域注意力模块生成的时域注意力权重A_T在时间维度上线性相乘，然后将相乘结果再与原特征矩阵g逐位相加，最后得到时域修正的特征矩阵g_T；

手部动作识别模块，将时域修正模块输出的时域修正的特征矩阵g_T经全连接层、softmax层获取手部动作识别结果；

工业装箱动作识别模块，将行为识别模块输出的识别结果和手部动作识别模块获取的手部动作识别结果进行加权融合，获取工业装箱动作识别结果。

第三方面，本发明提供一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现所述的方法。

第四方面，本发明提供一种机器可读存储介质，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现所述的方法。

本发明的有益效果：

本发明提出了一种多视图自适应骨架网络的工业装箱动作识别系统，使用差分图像作为模型的输入，并且在互补方向下的多视图来解决人体被遮挡的问题，将两个互补视图下的差分人体骨架传入自适应视图转换网络，在自适应视图转换网络中，将骨骼数据旋转到最佳的虚拟观察角度，并将转换后的骨架数据传入长短时记忆网络中(long short-term memory,LSTM),然后将不同流下的分类分数进行融合，得到识别结果。此外，为了解决细微动作的识别问题，本发明采用了结合注意力机制的局部定位图像卷积网络，传入到ResNeXt网络中进行识别。最后融合骨架和局部图像识别的结果，预测工人的行为动作，有效提高了工业环境下行为识别的准确率。

附图说明

图1为本发明工业装箱动作识别方法的流程图；

图2为本发明时域注意力网络中注意力单元的架构图；

图3为虚拟观察视点的变化；

图4为工业装箱场景动作序列；其中(a)为箱内安钉；(b)为盖上箱盖；(c)为箱盖嵌缝；(d)为箱外钉钉；(e)为登记信息；(f)为其它动作；

图5为多视角骨架观测；其中(a)为原图(RGB)；(b)为观察视角1；(c)为观察视角2；(d)为观察视角3；

图6为多视图骨架遮挡；其中(a)为视图1(RGB)；(b)为视图2(RGB)；(c)为视图1(骨架)；(d)为视图2(骨架)。

具体实施方式

下面将对本发明所提供的动作识别方法做出具体说明。

一种多视图自适应骨架网络的工业装箱动作识别方法，如图1所示包括如下步骤：

步骤S1：获取两个不同视角下的互补RGB视频；

互补RGB视频由两个处于相对位置的摄像头取得，如一个摄像头位于工人的正面，另一个位于工人的背面，两个摄像头采集的互补RGB视频可以有效解决工人的身体被自身或者货物遮挡的问题。

大多数行为识别方式将RGB图像或者人体骨架数据作为网络的输入，用于提取其中的特征，最直接的代表就是CNN和GCN网络。但是往往在实际的工业场景下，由于背景混乱、光线变化频繁、人体被遮挡等问题，上述两种方式很难有效的提取出动作特征，进而对后续动作识别造成比较大的干扰。基于此，本发明引入差分图像(residual frames，RF)模块来降低这种干扰，提升网络性能。

对于传统的3D卷积网络，将堆叠帧作为输入，其输入形状为T×H×W×C，代表T帧高度为H，宽度为W，通道C为3的RGB图像。每个三维卷积层的卷积核也是三维的，对于每一层同时进行三维间的数据运算。但是，这是在运动特征和空间特征可以被很完美提取的情况下。本发明通过将两个相邻帧相减得到一个差分图像，保留两帧间的不同之处。由于差分图像的性质，在单个的差分图像中，运动信息存于空间轴。将差分图像对2D卷积网络进行改进，已经被证明是相当有效的。但是面对较为复杂的动作时，一般持续时间较长，并不是使用单独一帧就可以表示，因此需要连续的多帧差分图像。在堆叠的差分图像中，动作信息不单单存在空间轴，还存在时间轴上，相邻两帧之间的联系也作为运行信息的一部分。

传统的运动目标检测算法中，差分法和光流法是最为常用的方法。光流法虽然效果较好，但计算复杂，对硬件要求较高，因此在实时工业场景中很少使用。与之相比，差分法计算成本非常低，甚至可以忽略不计，成为更加适合实际应用的方法之一。同时，差分法又细分为背景差分和帧间差分，前者使用算法对前景和背景进行分离，缺点是对于工厂中光线频繁变化的情景下，无法最优化的进行分离。后者使用视频中相邻两帧图像的差异来检测运动物体，但是在物体内部会产生较大的空洞。注意到，使用帧间差分法可以很好地提取出运动物体的轮廓，但会导致物体内部出现空洞，丢失一些运动信息。不过，在实际应用中，可以结合骨架提取算法，从差分图像中获取运动物体的骨架数据，并将其传入后续的主网络中。具体是：

对每个视角下的前后连续帧RGB图像处理成差分图像；

RF_i～j＝|F_i～j-F_i+1～j+1| (1)

其中F_i表示第i帧图像，F_i～j表示第i～j连续帧的图像，RF_i～j表示第i～j连续帧的堆叠差分图像；

步骤S3：利用3D姿态估计算法对两个不同视角下的差分图像序列提取人体骨架图像序列；3D姿态估计算法是一种基于RGB图像的姿态估计算法，连续差分图像被分割成稠密概率身体组件标签，组件定义为骨骼关节空间上相近的部分，然后将推理出的组件重新投影到世界空间坐标系，然后局部化每个组件的空间分布模式，形成预测。

从步骤S3获取到的3D骨架数据往往是一个动作序列中的某几个动作，然而很难从一个固定视角去观察识别所有的动作，对于某些动作而言，从一个角度观察很容易识别，其他角度看很难识别，因此寻找一个合适的观察角度很重要。在实际生产作业中，能够观察和识别不同类型行为的视点是多种多样的，为了能够找到最合适的视图以提高识别性能，本发明提出一个自适应视图转换网络。所提出的自适应视图转换网络能够帮助骨架来自动寻找到最佳的观察视点，并将骨架数据转换到新视点下。

如图3，捕获的原始骨架数据是在摄像机坐标系(全局坐标系)表示的，其坐标原点在于摄像机传感器的中心位置。为了固定每个动作的初始观测方位，将全局的坐标系转换到以骨架髋关节中心为原点的新坐标系O下。利用原始骨架绕全局坐标系X轴和Z轴的逆时针方向旋转，自动获取最佳的观测视角。使用这样的旋转方式，有以下几个方面的考量。(1)对于一个行为动作，可以从不同的视角下观测得到，而在某些视角下会由于人体重叠，遮挡等原因很难识别出准确的动作。因此从不同的视角下进行观测是合理的。利用了双视图解决了障碍物遮挡的问题，同时使用视角转换模块降低了人体重叠的干扰，最大程度的提供每个动作的最佳观察视角，提高识别的精度。(2)在实际的工业场景中，大多数动作识别的误差都是由不同水平(Z轴)和竖直(X轴)视角的观测造成的，分别对两个相机捕获的原始骨骼数据在Z轴进行逆时针方向的旋转，以及在X轴逆时针方向的旋转，就能涵盖全局坐标下的所有视角，结合多视图，就能获取到最佳的观测结果。具体是：

在全局坐标系O下给定的人体骨架图像序列S，在第t帧下图像中第j个骨架关节的坐标记作v_t,j＝[x_t,j,y_t,j,z_t,j]，其中t∈(1,...,T),j∈(1,...,J)，T表示人体骨架图像序列中总帧数，J表示每一帧中骨架关节的总数。在第t帧中所表示的骨架序列的集合为V_t＝{v_t,1,...,v_t,J}。

在某一视角的全局坐标系O下，假设第t帧的虚拟观察视点由一个平移向量d_t∈R³，以及两个分别绕着X轴和Z轴逆时针旋转α_t,β_t弧度的旋转角度表示。同一帧下的所有关节坐标都共享一个旋转角度，在新的观察视角下的骨架关节坐标表示为:

v'_t,j＝[x'_t,j,y'_t,j,z'_t,j]^T＝R_t(v_t,j-d_t) (2)

其中R_t表示为

其中分别表示绕X轴和Z轴旋转的旋转矩阵，使用以下公式表示：

在一个完整的动作序列中，每一个动作都会有其最合适的观察视角，利用自适应视图转换网络来寻找到最佳的视角变换参数α_t,β_t,d_t，最后通过公式(2)计算出新坐标系下的骨架序列坐标V'_t＝{v'_t,1,...,v'_t,J}。

所述自适应视图转换网络包括两个并行的转换单元，每个转换单元包括依次串联的两个LSTM网络分支和一个全连接层；其中一个LSTM网络分支学习节点的旋转矩阵，另一个LSTM网络分支学习平移向量。

所述行为识别模块包括两个并行的识别单元、以及融合模块；每个识别单元包括一层LSTM网络、全局平均池化模块(GAP)、全连接模块；

所述融合模块用于将两个识别单元输出的识别结果进行融合；具体是：

score(k|S)＝w₁×p(k|S₁)+w₂×p(k|S₂) (6)

其中w₁和w₂是每个流的权重。

其中p(k|S₁)、p(k|S₂)表示两个识别单元输出的识别后验概率；k表示第k类行为，S₁、S₂表示两个最佳观察视角的人体骨架图像；

在实际的工业生产环境中，由于存在障碍物遮挡的问题，从单一视角获取的运动数据会有丢失的可能性，从而导致后续的行为识别准确率下降。并且工厂环境极其复杂，无法找到一个最佳的视角来尽可能地观测所有动作。为了在模型训练和测试阶段可以获取到最完整的运动数据，本发明使用了双视图的结构，使用两个不同视角(S1、S2)的相机来获取装箱过程的视频数据，作为模型的输入。利用双视图和自适应视图转换模块对工厂的装箱工人进行动作识别，以获取到最完整、最有效和最精确的数据，提高行为识别的准确率。

相比于单视图而言，多视图的优点就是可以包含额外的一致性和互补性的信息，可以从这些额外的信息中学习到一些对结果更有帮助的特征。其中，不同视图中的一致性信息表示某些特征是相同和共享的，而互补信息是每个视角独有的，可以作为该动作的补充信息。充分利用多视图的一致性和互补性，能最优化的提取到所需的有效特征。

所述时域注意力网络包括两个并行的注意力单元，每个注意力单元包括三层递归神经网络、两层全连接层和一层Softmax层；两层全连接层之间采用tanh激活函数来修正特征值。每个注意力单元计算可如下表示：

A_T＝softmax(s_T) (9)

其中表示两层全连接层的权重和偏置值，s_T表示时间维度上注意力向量值，/>表示从识别单元LSTM网络输出的特征矩阵。

骨架序列是一种在空间和时间维度上描述了人体运动的表达方式，在一个完整的骨架序列中，骨架数据可表示空间上定位的人体结构，同时也在时域上捕获了肢体高频运动的关键帧，这也需要设计一种时空注意力机制，用于分析视频动作识别。将时间和空间维度的注意力机制进行结构，可以更好的学习到不同维度上关键部位的特征，本发明也采用这一方法，将时空注意力进行解耦，应用特定模块中。根据骨架关节点定位，在空间域上将视角聚焦在手关节上，再结合骨架序列的时域特征到注意力机制中。

所述ResNeXt作为卷积神经网络，ResNeXt的由一组相同拓扑结构的残差块组成，其聚合变换可以表示为：

其中φ_i(x)表示具有相同拓扑结构的任意函数，C是一个基数，表示模型中具有相同结构的分支个数。参数C也被用来描述模型的复杂度。参数C的值可以设置为任意数字，优选设置为32。也即使用ResNeXt-50(32x4D)网络架构，4D代表在第一组卷积块中每条路径接受4个通道的特征。

对于人体动作识别而言，不同的身体部位的重要性是不同的，例如在戴安全帽的动作中，手部和头部的占比权重就更高。在工厂的场景下，工人最依赖的身体部分就是他们的手，大多数的任务都是以手为主导完成的。因此需要更多的关注工人手上的一些动作。具体的说有以下两个问题，一是在运动过程中，很难处理一些相似的动作。二是一些不合规的“假动作”，即工人即使做了相同的身体动，但是手上没有拿上相应的工具，即认定这个动作为无效动作。

为了解决这些问题，本发明采取了注意力模块结合卷积神经网络的架构，根据骨架中手部关节点坐标的定位，将原图像中的局部图像进行裁剪，组成局部图像动作序列，将动作序列传入卷积神经网络进行识别，用于确定一些细微的动作差别和“假动作”的问题。由于在运动引起的模糊、物体遮挡和背景干扰等问题，只对工人的手部动作进行跟踪和识别无法精确地识别出具体的动作序列，因此将动作识别的主网络和局部图像识别的子网络相结合，可以极大地提高动作识别精度，实验结果证明了这一点。根据经验，将主网络和子网络融合权重比设为3比1具有最优结果。

本发明采用ResNeXt对手部动作进行识别。

步骤S8：ResNeXt网络输出的手部特征矩阵g与时域注意力模块生成的时域注意力权重A_T在时间维度上线性相乘，然后将相乘结果再与原特征矩阵g逐位相加，最后得到时域修正的特征矩阵g_T。

g_T可以由以下公式计算：

其中，reshape(x)表示将特征向量x的维度转换为与特征图g维度一致的操作。

步骤S9：将时域修正的特征矩阵g_T经全连接层、softmax层获取手部动作识别结果。

经过修正的特征图需要转化为工人行为的类别进行输出，首先使用平均池化将特征图转换为一维的向量输入全连接层中，全连接层将若干输入转化为需要识别的类别数量的输出，再经过softmax层将类别向量的值转化为0到1之间的值，即每个对应类别的概率。

步骤S10：将步骤S5行为识别模块输出的识别结果和步骤S9获取的手部动作识别结果进行加权融合，获取工业装箱动作识别结果，见图4。

步骤S5和S9的识别结果即工人人体骨架和手部细节将共同决定工人当前的行为类别。利用双流的识别架构，既利用了骨架数据的精确度，也弥补了在细小动作上的差别。最终的识别结果进行加权融合，最终输出装箱动作的识别结果。

使用pytorch作为深度学习平台，并在两个NVIDIA RTX 3080Ti GPU上进行训练。视频段通过Kinect相机获取深度图，数据在输入网络前，会先进行水平反转，在训练阶段应用时间抖动。三个LSTM层堆叠在一起，丢包率为0.5。在CNN模型(ResNeXt网络)中，动量被设置为0.9，重量衰减被设置为0.0005，批尺寸设置为32。分别采用了随机梯度下降算法(SGD)和均方根传播算法(RMSPROP)对CNN网络和LSTM网络进行训练。两个模型的学习率最初都设置为0.01，然后根据固定的时间表降低学习率。在该模型中，总共进行了350轮训练，学习率每50轮下降一次。LSTM模型的步长设置为20。

NTU RGB+D实验结果分析

NTU-60数据集的数据是通过Kinect深度摄像头采集的，是目前最大的基于骨架的数据集，有56880个骨架序列，包含了60个不同的行为类型，每个骨架包含了25个关节。该数据集通过3台不同方位(-45,0,45)的Kinect相机从40个名志愿者身上采集的，对于视频段中的每一帧都提供了RGB图像数据、深度数据和骨架数据。为了进行评估，本实施采用了两种评估方法：交叉个体评估(cross-subject，CS)和交叉视角评估(cross-view，CV)。在CS评估中，将40个志愿者的动作序列均分为训练集和测试集。在CV评估中，将0和-45角度下获取的样本用于训练，剩余用于测试。NTU-60为单视图动作数据集，本发明使用了单视图模型进行评估。表1给出了在NTU RGB+60数据集上的各种方法的评估结果。可以看出本实施例的模型在CS协议和CV协议中分别取得了85.52％和93.64％的性能，优于其它流行的网络模型。一般来说，基于GCN(Yang等，2020；Tang等，2018；Liu等，2021)的方法会比基于RNN(Liu等，2016；Song等，2017；Zhang等，2017)的方法更优，考虑了多视图和自适应视图转换模块(Liu等，2021；Zhang等，2019)的方法会比传统的方法性能更好，但本实施例的方法由于额外考虑了局部定位图像，使得最终结果比最佳AMV-GCN模型在CS和CV上好1.66％和1.45％。本实施例的单视图模型结合CNN网络也能获得较好的性能。

表1在NTU RGB-D中与主流行为识别方法的比较

注：黑色字体表示最优结果。

MBAD实验结果分析

在数据集MBAD上，对主流的行为识别方法和本发明的方法进行比较。表2展示了实验结果，可以观察到本实施例的方法在准确率上优于其他方法。基于CNN的方法通常比基于RNN的方法性能更好，基于GCN的方法性能居中。同时为了探索骨架的时空信息，将CNN和RNN网络结构混合(Zhang等，2019)，能提升准确率和召回率，但是本发明的方法依旧比其高出3.96％的准确率以及3.81％的召回率，我们推断这是因为本发明模型考虑了差分网络和多视图。为了分析本发明模块中各个模块的必要性，设计不同实验进行评估。

表2在MBAD中与主流行为识别方法的比较

注：黑色字体表示最优结果。

表3展示了主网络中基于RGB图像和基于差分图像作为输入的差别，只使用差分图像作为网络输入可能会导致部分身体关节丢失，导致较低的准确率。使用RGB图像作为输入能获取完整的观测数据，但是由于工厂环境复杂(遮挡、光线变化)后续很难提取出骨架数据。使用差分图像作为输入结合3D姿态估计算法RMPE能够捕获到完整的骨架数据，在数据集MBAD上获得了最高的准确率。

表3基于RGB和差分图像主网络评估

注：黑色字体表示最优结果，RF为差分图像。

表4展示了自适应视图转换网络和多视图对实验结果的影响。两个视图S1和S2使用了自适应视图转换网络，并且我们假定S01和S02没有使用自适应视图转换网络，直接进行识别。根据比较两对流的结果来评价识别效率。实验结果表明，单一视角S1和S2下的识别性能优于S01和S02的识别性能，虽然帧率fps会有所下降，但仍在可接受的范围内。此外，多视图的融合方式也会对识别性能有所影响，通过表内数据可得，简单地融合两种不同的单流输出结果可以提高性能，并且加权平均的方式效果最佳，比单流S1和S2的准确率分别提高了3.83％和3.03％。结果表明，多流融合模块有利于动作识别，并且加权融合的方式优于平均融合。图5展示了对于不同视图下观察同一运动骨架的结果，在某一视图下获得的骨架数据通过自适应转换模块转变后，能在最佳观测视角来观察骨架序列。实验发现，模块的学习更加倾向于从正面观察动作，原因是正面的观察能够尽可能的使骨骼分散，与之相对的就是侧面观察，骨骼相互遮挡程度最高，观察效果最差。图6展示了多视图模块解决遮挡问题的效果，可以看出某些动作在某一拍摄角度下会存在物体遮挡和人体自遮挡的问题，通过两个互补的视图即可解决遮挡问题，即被遮挡动作能在其中之一的视图下得到良好的识别。综上，我们可以得到下面的结论：(1)在工厂环境下，不同视角获取的数据重要程度显然不同，我们根据实验环境将更重要的视角给予更大的权重，并选择最佳观测视角，能够较大地提高识别性能。(2)多视图能够较好地解决工厂环境下的遮挡问题，增加实验结果的容错率。

表4自适应视图转换网络和多视图融合模块性能的评估

注：黑色字体最优结果，Wei是加权平均，Ave是算术平均。

本发明提出了一种用于实际生产场景的装箱行为检测方法，该方法使用双流的网络模型，主网络是自适应多视图的RNN网络，使用两个互补视角下的深度相机采集同一个工位的数据，并将传入的RGB图像转化为差分图像用于提取骨架信息，后续将骨架数据传入自适应视图转换网络，用于获取最佳的骨架观测点，传入行为识别模块使用加权融合两个视图特征得到识别结果，主网络解决了遮挡和背景混乱的影响。子网络ResNeXt为了弥补“假动作”和相似动作识别精度不足的问题，加入骨架定位的手部图像识别，将截取的局部定位图像传入ResNeXt网络进行识别，最后融合主网络和子网络的识别结果。本发明所提的装箱行为识别方法在数据集MBAD中得到的准确率达92.31％，均优于其他几种主流行为识别方法。在人体频繁被遮挡的复杂工厂环境下，本发明方法可以精确识别出装箱工人的装箱动作，同时保证了网络的流畅性，满足实际的生产需求。

Claims

1.一种多视图自适应骨架网络的工业装箱动作识别方法，其特征在于包括如下步骤：

步骤S1：获取两个不同视角下的互补RGB视频；

步骤S4：利用自适应视图转换网络获取两个最佳观察视角的人体骨架图像；具体是：

在全局坐标系O下给定的人体骨架图像序列S，在第t帧下图像中第j个骨架关节的坐标记作v_t,j＝[x_t,j,y_t,j,z_t,j]，其中t∈(1,...,T),j∈(1,...,J)，T表示人体骨架图像序列中总帧数，J表示每一帧中骨架关节的总数；在第t帧中所表示的骨架序列的集合为V_t＝{v_t,1,...,v_t,J}；

在某一视角的全局坐标系O下，假设第t帧的虚拟观察视点由一个平移向量d_t∈R³，以及两个分别绕着X轴和Z轴逆时针旋转α_t,β_t弧度的旋转角度表示；同一帧下的所有关节坐标都共享一个旋转角度，在新的观察视角下的骨架关节坐标表示为:

v'_t,j＝[x'_t,j,y'_t,j,z'_t,j]^T＝R_t(v_t,j-d_t) (2)

其中R_t表示为

在一个完整的动作序列中，每一个动作都会有其最合适的观察视角，利用自适应视图转换网络来寻找到最佳的视角变换参数α_t,β_t,d_t，最后通过公式(2)计算出新坐标系下的骨架序列坐标V'_t＝{v'_t,1,...,v'_t,J}；

2.根据权利要求1所述方法，其特征在于步骤S2具体是：

对每个视角下的前后连续帧RGB图像处理成差分图像；

RF_i～j＝|F_i～j-F_i+1～j+1| (I)

其中F_i表示第i帧图像，F_i～j表示第i～j连续帧的图像，RF_i～j表示第i～j连续帧的堆叠差分图像。

3.根据权利要求1所述方法，其特征在于步骤S4所述自适应视图转换网络包括两个并行的转换单元，每个转换单元包括依次串联的两个LSTM网络分支和一个全连接层；其中一个LSTM网络分支学习节点的旋转矩阵，另一个LSTM网络分支学习平移向量。

4.根据权利要求1或3所述方法，其特征在于步骤S5所述行为识别模块包括两个并行的识别单元、以及融合模块；每个识别单元包括一层LSTM网络、全局平均池化模块、全连接模块；

score(k|S)＝w_i×p(k|S_t)+w₂×p(k|S₂) (6)

其中w₁和w₂是每个流的权重；

其中p(k|S₁)、p(k|S₂)表示两个识别单元输出的识别后验概率；k表示第k类行为，S₁、S₂表示两个最佳观察视角的人体骨架图像。

5.根据权利要求1所述方法，其特征在于步骤S6所述时域注意力网络包括两个并行的注意力单元，每个注意力单元包括三层递归神经网络、两层全连接层和一层Softmax层；两层全连接层之间采用tanh激活函数来修正特征值；

每个注意力单元计算可如下表示：

A_T＝soft max(s_T) (9)

6.根据权利要求1所述方法，其特征在于步骤S7所述ResNeXt作为卷积神经网络，ResNeXt的由一组相同拓扑结构的残差块组成，其聚合变换可以表示为：

其中φ_i(x)表示具有相同拓扑结构的任意函数，C是一个基数，表示模型中具有相同结构的分支个数。

7.根据权利要求1所述方法，其特征在于步骤S8中时域修正的特征矩阵g_T由以下公式计算：

8.实现权利要求1-7任一项所述方法的工业装箱动作识别系统，其特征在于包括：

数据获取模块，用于获取两个不同视角下的互补RGB视频；

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1-7任一项所述的方法。

10.一种机器可读存储介质，其特征在于，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现权利要求1-7任一项所述的方法。