CN116665312A

CN116665312A - 一种基于多尺度图卷积神经网络的人机协作方法

Info

Publication number: CN116665312A
Application number: CN202310959781.6A
Authority: CN
Inventors: 刘兆伟; 卢喜郎; 刘文哲; 王莹洁; 苏航; 徐金东; 宋永超; 姜岸佐
Original assignee: Yantai University
Current assignee: Yantai University
Priority date: 2023-08-02
Filing date: 2023-08-02
Publication date: 2023-08-29
Anticipated expiration: 2043-08-02
Also published as: CN116665312B

Abstract

本发明公开了一种基于多尺度图卷积神经网络的人机协作方法；该方法包括如下步骤：S1、数据采集：采集人机协作场景人体骨架数据集，并进行预处理，获取预处理数据；S2、模型训练：加载预处理数据。通过训练多尺度图卷积神经网络，获取人体行为识别网络模型；S3、人体行为识别：通过训练好的深度学习网络模型，预测人体行为；S4、人机交互：利用通信算法将预测信息发送到机器人系统，机器人基于人体行为做出动作规划。本发明的一种多尺度图卷积神经网络的人机协作方法，能够实现在真实场景机器人对人体行为及意图的预测，并做出正确交互，从而弥补传统机器人只能完成重复性工作的不足。

Description

一种基于多尺度图卷积神经网络的人机协作方法

技术领域

本发明涉及机器人及计算机视觉领域，确切地说是一种基于多尺度图卷积神经网络的人机协作方法。

背景技术

随着机器人技术的快速进步，机器人能够在各种具有挑战性的环境中毫不费力地操作，从而有效地解决了人力短缺的问题。然而，尽管机器人在自动化任务执行方面取得了显著进展，它们仍然严重依赖预编程来执行特定任务。这种依赖性可能会限制机器人的灵活性和执行那些对于人类来说相对容易的复杂动作的能力。因此，随着对机器人在复杂环境中执行精细和灵活任务的需求不断增加，人们越来越需要协作机器人来弥补人机交互方面的差距。

现有技术检索可知：CN113657349A-一种基于多尺度时空图卷积神经网络的人体行为识别方法，属于神经网络技术领域。该方法包括提取待识别的人体骨骼序列创建数据集并进行预处理；创建包含多尺度图卷积模块、多时长特征融合模块的深度神经网络模型，使模型更好的提取人体骨骼的空间特征和骨骼序列的时序特征；训练和测试所述深度神经网络，得到人体行为识别神经网络模型；利用训练好的模型对待识别的视频图像进行分类，输出分类结果。本发明提供的人体行为识别方法，能够使神经网络模型更好的提取骨骼序列的时空特征，实现人体行为的自动识别，提高人体行为识别准确率。

协作机器人是一类与人类一起工作的机器人，它们利用人类的认知能力来适应不断变化的情况，完成机器人难以独立完成的任务，从而帮助克服预编程的局限性。其中，人体行为识别技术发挥着至关重要的作用。

发明内容

鉴于以上问题，本发明提出一种基于多尺度图卷积神经网络的人机协作方法，以克服现有人机交互方法中存在的缺陷与不足。

为解决上述技术问题，本发明采用如下技术手段：

一种基于多尺度图卷积神经网络的人机协作方法；其特征在于：

该方法包括如下步骤：

S1、数据采集：采集人机协作场景人体骨架数据集，并进行预处理，获取预处理数据；

S2、模型训练：加载预处理数据。通过训练多尺度图卷积神经网络，获取人体行为识别网络模型；

S3、人体行为识别：通过训练好的深度学习网络模型，预测人体行为；

S4、人机交互：利用通信算法将预测信息发送到机器人系统，机器人基于人体行为做出动作规划。

作为优选，本发明更进一步的技术方案是：

所述的数据采集中，采集人机协作场景人体骨架数据集具体过程为：

步骤1：数据获取：使用RGB相机拍摄不同类别的人体动作视频，利用视频处理算法对获取到的视频降低分辨率至340*256，帧率为30帧；

步骤2：转化视频数据：为了扩充数据集，将每个数据集进行镜像处理，获取最终的人体行为视频数据；

步骤3：获取关键点：采用OpenPose提供的提取骨架API提取每个视频的人体骨架数据，并标记每个骨架的类别，其中每个人体骨架包含18个关键点；

步骤4：数据分类：将提取后的骨架数据中的80%作为训练数据集，20%作为测试数据集。

所述的模型训练中多尺度图卷积神经网络模型构建步骤为：

步骤1：构建图结构：对骨架数据构建图结构；

步骤2：构建人体行为识别网络：网络包含9个多尺度时空卷积块，每个块包含一个多尺度空间图卷积网络和一个时间注意力卷积网络；

步骤3：9个多尺度时空卷积块：前三个多尺度时空卷积块有64个输出通道，接下来的3层多尺度时空卷积块有128个输出通道，最后三层有256个输出通道；

步骤4：预测动作类别：输出使用全局池化并将获得的张量输入到具有与类别相同的输出通道数量的全连接层，最终预测出动作类别。

所述的构建图结构中对骨架数据构建图结构；骨架数据定义为每一帧骨架的二维坐标组成的向量序列；

骨架图的定义：，其中关节点集合/>表示/>个关节点的集合，关节点之间的骨架由无向边表示，组成边集合/>，代表人体的骨架结构；无向图的邻接矩阵/>, 当关节点/>和/>之间存在边时，/>，否则/>；

人体行为由一组骨架序列组成，因此骨架输入定义为矩阵：，其中/>为输入视频的帧数，/>为关节的数量（N=18），/>为特征向量的维度。

为聚合相邻节点的信息，可以将时间t的空间GCN定义为：

，

其中是一个具有附加自环的邻接矩阵，用于保持节点自身的特征；对角矩阵/>通过计算节点的度来获得，/>用于归一化A，/>为一个可学习的权重矩阵；节点邻居通过/>进行特征聚合，然后利用/>激活函数获得输出；

为聚合骨架多阶邻居节点的特征，创建多阶节点连接，将节点的高阶邻居合并到网络中；获得高阶邻居信息通过实现，其中/>。

为解决高阶多项式的多尺度聚合导致节点局部邻居权重过大的问题，对于高阶邻接矩阵，将大于1的替换为1，更新邻接矩阵/> ；因此多尺度策略变换为，以消除邻居节点加权过大的问题：

,

其中k决定尺度大小，是标准化的最近邻。

所述的构建人体行为识别网络中时间注意力卷积网络，时间注意力模块为：对任何节点,存在时间序列向量/>，查询/>，键/>，值/>；

对于节点，第/>帧和第/>帧之间链接的权重可以通过点积进行评估；

为了获得一个节点的最终的时间注意力嵌入，首先将所有其他帧的值向量与相应评估分数/>相乘，然后用softmax函数对其进行缩放，并计算加权和，以获得每个节点的时间注意力嵌入/>，其中/>是输出通道的数量；

注意力嵌入表示为：

，

其中是键序列的维度，将评估分数除以/>以增加梯度稳定性；

在输入自注意模块之前，首先将输出转化为/>，其中B是输入的批量大小，此外批量大小B和关节数量V融和为一维；

然后将变换后的输出让如自注意力块中以获得注意嵌入；

然后使用2D卷积网络以t的窗口大小对每个节点执行时间上的特征聚合。

所述的人体行为识别中人体行为识别过程为：

步骤1：识别模型：基于模型训练中训练得到的人体行为识别模型：

步骤2：采集视频数据：使用RGB相机部署到生产环境中，采集生产环境中的视频数据；

步骤3：提取人体骨架：利用OpenPose中的骨架提取API提取视频中的人体骨架；

步骤4：输出预测结果：将骨架输入到模型中，并输出预测结果。

所述的人机交互的过程为：

步骤1：语言系统：人体识别模型基于python语言，机器人基于ROS系统；

步骤2：通信连接：利用Socket库中的UDP协议包，使计算机与机器人系统之间的通信连接；

步骤3：数据交互：将人体行为识别中人体识别模型预测的动作结果按照30帧视频帧率相同的速度发送给机器人系统，机器人系统建立UDP监听，接受计算机发送的类别信息；

步骤4：预定义设立：机器人根据人类动作类别做出交互，执行相应的交互动作。其中机器人交互动作为预定义。

本发明一种基于多尺度图卷积神经网络的人机协作方法。人体行为识别技术可以帮助机器人适应不断变化的工作环境。在复杂的环境中，任务和场景可能会随时发生变化，传统的预编程方法往往无法适应这种变化。但是，通过实时识别和分析人体行为，机器人可以快速适应环境变化，并采取相应的行动。这种灵活性使得机器人能够在动态和未知的情况下与人类协同工作，提高工作效率和任务完成率。

附图说明

图1为本发明的一种基于多尺度图神经网络的人机交互方法流程框图。

图2为人体行为识别骨架数据集合可视化。

具体实施方式

下面结合实施例，进一步说明本发明。

具体实施例1：

参见图1可知，本发明具体实施例：

如图1所示，一种基于多尺度图神经网络的人机交互方法，包括：

S1、采集人机协作场景人体骨架数据集，并进行预处理；

S2、模型训练，通过训练多尺度图卷积神经网络，获取人体行为识别网络模型；

S3、人体行为识别，通过训练好的深度学习网络模型，预测人体行为；

S4、人机交互，利用通信算法将预测信息发送到机器人系统，机器人基于人体行为做出动作规划。

所述S1的人体骨架数据集采集具体包括：

确定8个工业场景中的动作类别，分别为：1）静止不动；2）高举箱子；3）向前传递箱子；4）托举箱子；5）搬箱子；6）提起箱子；7）拉箱子；8）推箱子，使用RGB相机拍摄上述类别的人体动作视频，利用视频处理算法对获取到的视频降低分辨率至340*256，帧率为30帧，为了扩充数据集，再将每个数据集进行镜像处理，获取最终的人体行为视频数据，共1600个视频，采用OpenPose提供的提取骨架API提取每个视频的人体骨架数据，并标记每个骨架的类别，其中每个人体骨架包含18个关键点，采集后的人体骨架如图2所示，将提取后的骨架数据中的80%作为训练数据集，20%作为测试数据集。

所述S2的多尺度图卷积神经网络模型构建，具体包括：

首先对骨架数据构建图结构，然后构建人体行为识别网络，网络包含9个多尺度时空卷积块，每个块包含一个多尺度空间图卷积网络和一个时间注意力卷积网络，其中前三个多尺度时空卷积块有64个输出通道，接下来的3层多尺度时空卷积块有128个输出通道，最后三层有256个输出通道，最后的输出使用全局池化并将获得的张量输入到具有与类别相同的输出通道数量的全连接层，最终预测出动作类别。

骨架数据定义为每一帧骨架的二维坐标组成的向量序列，因此，骨架图的定义为：，其中关节点集合/>表示/>个关节点的集合，关节点之间的骨架由无向边表示，组成边集合/>，代表人体的骨架结构，无向图的邻接矩阵/>, 当关节点/>和/>之间存在边时，/>，否则/>，人体行为由一组骨架序列组成，因此骨架输入定义为矩阵：/>，其中/>为输入视频的帧数，/>为关节的数量（N=18），/>为特征向量的维度。为聚合相邻节点的信息，可以将时间t的空间GCN定义为：

，

其中是一个具有附加自环的邻接矩阵，用于保持节点自身的特征；对角矩阵/>通过计算节点的度来获得，/>用于归一化A，/>为一个可学习的权重矩阵；节点邻居通过/>进行特征聚合，然后利用/>激活函数获得输出。

为聚合骨架多阶邻居节点的特征，创建多阶节点连接，将节点的高阶邻居合并到网络中；获得高阶邻居信息通过实现，其中/>，为解决高阶多项式的多尺度聚合导致节点局部邻居权重过大的问题，对于高阶邻接矩阵，将大于1的/>替换为1，更新邻接矩阵/> ；因此多尺度策略变换为，以消除邻居节点加权过大的问题：

,

其中k决定尺度大小，是标准化的最近邻。

时间注意力机制，对任何节点,存在时间序列向量/>，查询，键/>，值/>，对于节点/>，第/>帧和第/>帧之间链接的权重可以通过点积进行评估，为了获得一个节点的最终的时间注意力嵌入，首先将所有其他帧的值向量/>与相应评估分数/>相乘，然后用softmax函数对其进行缩放，并计算加权和，以获得每个节点的时间注意力嵌入/>，其中/>是输出通道的数量，注意力嵌入表示为：

，

其中是键序列的维度，将评估分数除以/>以增加梯度稳定性，在输入自注意模块之前，首先将输出/>转化为/>，其中B是输入的批量大小，此外批量大小B和关节数量V融和为一维。然后将变换后的输出让如自注意力块中以获得注意嵌入。然后使用2D卷积网络以t的窗口大小对每个节点执行时间上的特征聚合。

所述S3的人体行为识别，具体包括：

基于S2中训练得到的人体行为识别模型，使用RGB相机部署到生产环境中，采集生产环境中的视频数据，利用OpenPose中的骨架提取API提取视频中的人体骨架，然后将骨架输入到模型中，并输出预测结果。

所述S4人机交互,具体包括：

人体识别模型基于python语言，机器人基于ROS系统，利用Socket库中的UDP协议包，建议计算机与机器人系统之间的通信连接，将S3中人体识别模型预测的动作结果按照视频帧率（30）相同的速度发送给机器人系统，机器人系统建立UDP监听，接受计算机发送的类别信息，机器人根据人类动作类别做出交互，执行相应的交互动作，其中机器人交互动作为预定义。

具体实施例2：

本专利的应用场景主要涉及在工厂等环境中，协作机器人与人类伙伴共同参与搬运物品，以实现解放劳动力的目的。具体应用场景是，在工厂或仓库环境中，机器人与人类伙伴一同参与物品搬运任务。机器人通过搭载摄像头，采集周围环境的信息，特别是人体的骨架序列。这些信息会被输入到专利中提出的多尺度图卷积神经网络中，进行人体行为识别。这样，机器人能够实时感知人类伙伴的动作意图，例如，双手向前递过箱子等动作。神经网络模型通过对人体动作的识别，能够准确判断人类伙伴的搬运意图。一旦机器人获取了人类伙伴的动作信息和意图，它会根据预测结果做出相应的交互动作规划。例如，机器人根据预测信息，判断人类伙伴将要将箱子移动到某个位置，机器人就会提前移动到相应的位置，以便从下方接过箱子。

具体实施例3：

本发明中提出的人体行为识别是基于多尺度图卷积神经网络对人体骨架序列进行分类实现的，以下是对人体行为识别实现过程的具体解释：

（1）采集数据集并提取骨架序列：首先，根据具体人机协作需求，采集包含不同人体动作的视频数据。然后，通过骨架提取算法从这些视频中提取出人体的骨架序列。将提取到的骨架序列标注为具体的动作类别，并将数据集划分为训练数据集和测试数据集；

（2）构建多尺度图卷积神经网络模型：这一步骤涉及设计多尺度图卷积神经网络，该网络是专门用于处理图像或骨架序列等结构化数据的神经网络。多尺度图卷积神经网络能够在不同尺度上捕捉图像或序列中的特征，从而更好地进行分类任务；

（3）训练神经网络模型：将采集到的骨架数据集输入到多尺度图卷积神经网络中，并通过反向传播算法对网络进行训练。在训练过程中，神经网络不断优化其参数和权重，以使其能够更准确地识别不同的人体动作类别。经过训练后，我们得到了一个训练好的网络模型；

（4）人体行为识别：在实际应用中，通过摄像机采集的人体骨架序列输入训练好的神经网络模型中，神经网络将输出对应的动作类别编号，实现对人体行为的识别。

具体实施例4：

具体的交互过程为，神经网络模型将预测的人体动作类别通过通讯协议传输给机器人系统。机器人系统根据人类伙伴的动作（例如，双手向前递过箱子）做出相应的交互动作（从下方接过箱子）。机器人的手臂运动过程如下：首先，根据人类的动作，确定机械手动作的目标点。然后，利用插值算法计算出运动轨迹，使机械手能够平滑地到达目标位置，从而完成交互动作。

由于以上所述仅为本发明的具体实施方式，但本发明的保护不限于此，任何本技术领域的技术人员所能想到本技术方案技术特征的等同的变化或替代，都涵盖在本发明的保护范围之内。

Claims

1.一种基于多尺度图卷积神经网络的人机协作方法；其特征在于：

该方法包括如下步骤：

S2、模型训练：加载预处理数据，通过训练多尺度图卷积神经网络，获取人体行为识别网络模型；

2.根据权利要求1所述的一种基于多尺度图卷积神经网络的人机协作方法，其特征在于：所述的数据采集中，采集人机协作场景人体骨架数据集具体过程为：

3.根据权利要求1所述的一种基于多尺度图卷积神经网络的人机协作方法，其特征在于：所述的模型训练中多尺度图卷积神经网络模型构建步骤为：

步骤1：构建图结构：对骨架数据构建图结构；

4.根据权利要求3所述的一种基于多尺度图卷积神经网络的人机协作方法，其特征在于：所述的构建图结构中对骨架数据构建图结构；骨架数据定义为每一帧骨架的二维坐标组成的向量序列；

骨架图的定义：，其中关节点集合/>表示/>个关节点的集合，关节点之间的骨架由无向边表示，组成边集合/>，代表人体的骨架结构；无向图的邻接矩阵，当关节点/>和/>之间存在边时，/>，否则/>；

人体行为由一组骨架序列组成，因此骨架输入定义为矩阵：，其中/>为输入视频的帧数，/>为关节的数量（N=18），/>为特征向量的维度；

为聚合相邻节点的信息，可以将时间t的空间GCN定义为：

，

为聚合骨架多阶邻居节点的特征，创建多阶节点连接，将节点的高阶邻居合并到网络中；获得高阶邻居信息通过实现，其中/>，为解决高阶多项式的多尺度聚合导致节点局部邻居权重过大的问题，对于高阶邻接矩阵，将大于1的/>替换为1，更新邻接矩阵/>；因此多尺度策略变换为，以消除邻居节点加权过大的问题：

，

其中k决定尺度大小，是标准化的最近邻。

5.根据权利要求3所述的一种基于多尺度图卷积神经网络的人机协作方法，其特征在于：所述的构建人体行为识别网络中时间注意力卷积网络，时间注意力模块为：对任何节点，存在时间序列向量/>，查询/>，键/>，值/>；

对于节点，第/>和第/>帧之间链接的权重可以通过点积/>进行评估；

注意力嵌入表示为：

，

然后将变换后的输出让如自注意力块中以获得注意嵌入；

6.根据权利要求1所述的一种基于多尺度图卷积神经网络的人机协作方法，其特征在于：所述的人体行为识别中人体行为识别过程为：

7.根据权利要求1所述的一种基于多尺度图卷积神经网络的人机协作方法，其特征在于：所述的人机交互的过程为：

步骤4：预定义设立：机器人根据人类动作类别做出交互，执行相应的交互动作，其中机器人交互动作为预定义。