CN110796090A

CN110796090A - 基于循环神经网络的人机协作人体行为意图判别方法

Info

Publication number: CN110796090A
Application number: CN201911043483.2A
Authority: CN
Inventors: 姚碧涛; 刘紫彤; 刘泉; 徐文君; 刘志浩; 周祖德
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-02-14

Abstract

本发明公开了一种基于改进的循环神经网络的人机协作人体行为意图判别，包括步骤：对人机协作完成拆卸任务过程中的人体行为意图估计问题建立深度学习网络模型，结合视频数据的特点对于意图提前感知问题进行分析；结合拆卸任务采集相应的视频数据；采用改进的LSTM循环神经网络来对意图类别进行求解，通过采集的视频数据训练深度学习网络模型，获得最优参数；根据最优参数调整深度学习网络模型的损失函数，测试单个视频不同数据长度的判别结果，寻找最优早期预判效果。本发明结合真实的人机协作拆卸场景，对人机协作中机器人提前预测人体行为提供了一种有效的解决方式。

Description

基于循环神经网络的人机协作人体行为意图判别方法

技术领域

本发明适用于解决人机协作领域的人体行为意图早期预测和判别问题，涉及的是一种基于循环神经网络的人机协作人体行为意图判别方法。

背景技术

近年来，人机协作已经成为智能制造的关注热点。在传统的制造场景中，由于安全原因，人类操作员和机器人被分开在不同的工作区域，各自独立完成自己所分配的任务。在人机协作系统中，机器人能协助人共同执行复杂的任务，从而提高生产效率和降低人的负荷。为了实现人机协作，机器人需要跟踪人的动作，估计人类工作者的行为意图，这对机器人智能地协助人一起完成复杂的操作任务至关重要。人机协作中的人体行为意图估计不同于人体行为识别，它需要在人的动作完成之前就能对动作进行预测，从而使机器人及时做出协作动作。

人机协作拆卸领域具有良好的应用前景，对于废旧产品的最大化再利用具有重要意义。由于每个废旧产品的状态不同，因此，废旧产品的拆卸无法用固定的流程，人机协作拆卸具有很大的不确定性，由此造成人机协作拆卸中的人体行为意图估计十分复杂。深度学习作为一种新颖的机器学习方法，具有发现和学习复杂模式的能力，能够准确地从图片或视频等高维数据中提取关键特征。同时，深度学习能有效地解决因不同操作人员执行相同操作的差异性而导致的错误估计问题，如何利用深度学习来进行人机协作拆卸中的人体意图估计，是一个亟待解决的问题。

发明内容

本发明的目的在于，根据人机协作拆卸过程中操作人员行为的特点以及视频数据的特征，提供一种可以提高早期预测准确率的循环神经网络方法，用于人机协作拆卸中的人体意图估计的基于循环神经网络的人机协作人体行为意图判别方法。

为达目的所采用的技术方案是：

提供一种基于循环神经网络的人机协作人体行为意图判别方法，包括如下步骤：

1)对人机协作完成拆卸任务过程中的人体行为意图估计问题建立深度学习网络模型，结合视频数据的特点对于意图提前感知问题进行分析；

2)结合拆卸任务采集相应的视频数据；

3)采用改进的LSTM循环神经网络来对意图类别进行求解，通过采集的视频数据训练深度学习网络模型，获得最优参数；

4)根据最优参数调整深度学习网络模型的损失函数，测试单个视频不同数据长度的判别结果，寻找最优早期预判效果。

接上述技术方案，步骤1)中对意图估计问题进行建模的步骤包括：

(1)对完整视频的特点进行分析，单个视频可以表示为时间序列X＝{x₁,x₂,…x_t,…,x_T,t＝1,…,T}，x_t∈R^M×N×P，其中，x_t为每一帧的特征向量，M、N和P表示为单帧图片的特征维度，T为单个视频的总帧数；每个视频序列X都有一个与之对应的行为类别m_T；m_T取自设定的类别集合

总共有K个意图类别；寻找一个最优参数θ^*，它取自于深度学习网络模型所有可能的参数取值Θ，θ^*表示为：

(2)分析视频早期类别估计问题，将行为完全发生的时刻定义为T，对一个意图预测问题来说，需要在T₁＜T时刻就能准确估计出运动的类别；对于给定的图像序列

训练模型的目的是在时间步T₁识别正确的运动类别；相当于在预期的行动完全发生之前判别出相应动作的所属类别，即意图类别集合

的某个取值；求解意图问题表示为寻找最大意图类别

的过程：

接上述技术方案，步骤2)具体包括：

(1)根据不同操作工具的操纵特点，确立要收集的人机协作拆卸数据集类型，包括操纵动作类型和操纵工具类别；

(2)根据动作特点确定要获取的视频数据时长，获取满足深度学习样本量的视频数据集；

(3)对采集的视频数据做预处理。

接上述技术方案，步骤3)中，利用改进的LSTM循环神经网络对意图类别进行求解的步骤包括：

(1)将采集的视频帧通过经典的vgg16卷积神经网络训练后得到提取的特征向量；

(2)将提取的特征向量输入到改进的LSTM循环神经网络中进行训练，借鉴自然语言处理问题中的时序关联问题，对单个LSTM胞体进行细调，将上一帧判断的预测类别m_t-1作为下一帧的输入；x_t是卷积神经网络提取的t时刻的特征向量，i_t f_t和o_t分别是时间步t的输入门，遗忘门和输出门，c_t和h_t分别是时间步t的单元激活矢量和隐藏状态；W表示相应的权重矩阵；b表示相应的偏移矩阵；σ表示Sigmoid函数；改进的LSTM算法公式为：

接上述技术方案，步骤4)具体为：

(1)在对数损失函数前面增加与时间相关的权重，m_t ^k表示t时刻类别为k的概率，改进的损失函数loss公式如下：

(2)在时间步t时刻的意图类别根据以上的网络来进行判别，输出视频序列结果代表所有未来时间步的人类意图m_t+1,m_t+2...m_T；对被测试视频进行处理，分别保留视频数据长度的前10％-100％，估计不同比例的判别效果，从中寻找最优早期预判效果。

本发明还提供了一种基于循环神经网络的人机协作人体行为意图判别系统，包括：

模型建立模块，用于对人机协作完成拆卸任务过程中的人体行为意图估计问题建立深度学习网络模型，结合视频数据的特点对于意图提前感知问题进行分析；

视频数据采集模块，用于结合拆卸任务采集相应的视频数据；

模型训练模块，用于采用改进的LSTM循环神经网络来对意图类别进行求解，通过采集的视频数据训练深度学习网络模型，获得最优参数；

最优早期预判模块，用于根据最优参数调整深度学习网络模型的损失函数，测试单个视频不同数据长度的判别结果，寻找最优早期预判效果。

接上述技术方案，最优早期预判模块具体用于：

在对数损失函数前面增加与时间相关的权重，

表示t时刻类别为k的概率，改进的损失函数loss公式如下：

在时间步t时刻的意图类别根据以上的网络来进行判别，输出视频序列结果代表所有未来时间步的人类意图m_t+1,m_t+2...m_T；对被测试视频进行处理，分别保留视频数据长度的前10％-100％，估计不同比例的判别效果，从中寻找最优早期预判效果。

接上述技术方案，模型建立模块具体用于：

(2)分析视频早期类别估计问题，将行为完全发生的时刻定义为T，对一个意图预测问题来说，需要在T₁＜T时刻就能准确估计出运动的类别；对于给定的图像序列训练模型的目的是在时间步T₁识别正确的运动类别；相当于在预期的行动完全发生之前判别出相应动作的所属类别，即意图类别集合

的某个取值；求解意图问题表示为寻找最大意图类别

的过程：

接上述技术方案，模型训练模块具体用于：

将采集的视频帧通过经典的vgg16卷积神经网络训练后得到提取的特征向量；

将提取的特征向量输入到改进的LSTM循环神经网络中进行训练，借鉴自然语言处理问题中的时序关联问题，对单个LSTM胞体进行细调，将上一帧判断的预测类别m_t-1作为下一帧的输入；x_t是卷积神经网络提取的t时刻的特征向量，i_t f_t和o_t分别是时间步t的输入门，遗忘门和输出门，c_t和h_t分别是时间步t的单元激活矢量和隐藏状态；W表示相应的权重矩阵；b表示相应的偏移矩阵；σ表示Sigmoid函数；改进的LSTM算法公式为：

本发明还提供了一种计算机存储介质，其内存储有可被处理器执行的计算机程序，该计算机程序执行上述技术方案的基于循环神经网络的人机协作人体行为意图判别方法。

本发明产生的有益效果是：本发明提出了一种新颖的意图估计方法，能有效的提前预测人体行为意图。通过卷积神经网络对视频数据进行特征提取，利用改进的LSTM循环神经网络对视频意图问题进行建模。考虑到视频段的早期估计问题具有较低的准确率，通过添加与时间距离相关因子的损失函数对神经网络进行训练，得到改进的视频早期预判结果。

进一步地，本发明结合人机协作拆卸场景，充分分析拆卸场景中操作人员行为的特点，实现对运动序列的早期预测。本发明不同于计算机视觉领域中的通过单帧图像的像素生成来对视频进行预测的研究，能够基于不完整的视频序列进行人体行为意图估计。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例基于循环神经网络的人机协作人体行为意图判别方法流程图；

图2是步骤二、三、四的具体流程示意图；

图3是步骤三中的深度学习网络的结构图；

图4(a)为模型在训练集和测试集上的准确率；

图4(b)为模型在训练集和测试集上的损失函数；

图5是具体实施方式一提出的模型在单个视频数据长度按比例递增时的意图估计准确率的结果图；

图6是本发明实施例基于循环神经网络的人机协作人体行为意图判别系统结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，本实施方式中的一种基于循环神经网络的行为意图估计方法，具体是按照以下步骤建立的：

步骤一、对意图估计问题进行建模，结合视频数据的特点对于意图提前感知问题进行分析；

步骤二、结合拆卸任务采集相应的视频数据；

步骤三、采用改进的LSTM循环神经网络来对意图类别进行求解，训练深度学习网络获得最优参数；

步骤四、调整模型损失函数，测试单个视频不同数据长度的判别结果，寻找最优早期预判效果。

本发明实施例中，首先，主要通过RGB-D摄像机捕获人机协作拆卸视频数据，视频中涉及人体的动作姿态和可能与其交互的物体信息。然后，通过预训练的经典卷积神经网络vgg16模型提取人机协作拆卸视频数据中的特征，并将提取的特征归一化处理转换成时间序列。最后，将时间序列输入到改进的LSTM循环神经网络结构中。在单个LSTM单元中，将上一帧判决的帧类别的输出作为下一帧的额外输入，并改进损失函数，增加与时间步长相关的权重因子，解决了在视频片段预测完整视频意图的低精度问题。本发明结合真实的人机协作拆卸场景，对人机协作中机器人提前预测人体行为提供了一种有效的解决方式。

进一步地，本实例中步骤一具体包括以下步骤：

步骤一一：对完整视频的特点进行分析，单个视频可以表示为时间序列X＝{x₁,x₂,…x_t,…,x_T,t＝1,…,T}，x_t∈R^M×N×P，其中，x_t为每一帧的特征向量，M、N和P表示为单帧图片的特征维度，T为单个视频的总帧数。每个视频序列X都有一个与之对应的行为类别m_T。m_T取自设定的类别集合

总共有K个意图类别。寻找一个参数θ^*，它取自于深度学习模型所有可能的参数取值集合Θ，θ^*可以表示为：

步骤一二：分析视频早期类别估计问题，将行为完全发生的时刻定义为T，对一个意图预测问题来说，需要在T₁＜T时刻就能估计出运动的类别。对于给定的图像序列

训练模型的目的是在时间步T₁识别正确的运动类别。相当于在预期的行动完全发生之前判别出相应动作的所属类别，即意图类别集合的某个取值。求解意图问题可以表示为寻找最大意图类别

的过程：

进一步地，本实例中步骤二具体包括以下步骤：

步骤二一：如图2所示，根据不同操作工具的操纵特点，确立要收集的人机协作拆卸数据集类型，包括操纵动作类别和操纵工具类别；

步骤二二：根据动作特点确定要获取的视频数据时长，获取满足深度学习样本量的视频数据集；

步骤二三：对采集的视频数据做预处理操作，如特征归一化、数据增强。

在步骤二一中，根据不同操作工具的操纵特点，确立要收集的人机协作拆卸数据集类型。任务的类别组成主要有两部分，w表示涉及的操作工具，Q_W表示操作工具w涉及的操作动作数量，总共有W个不同类型的操作工具，所有的拆卸任务总数K即意图类别总数可以表示为：

在步骤二二中，通过Kinect相机获得视频数据集，根据拆卸动作的特点，采集的视频时长控制在4-5秒的范围内，根据深度学习对样本数据量的要求，收集了13个操作人员约900个动作视频进行训练；

在步骤二三中，对采集的视频数据进行预处理操作，对图片的维度进行调整至224像素和224像素；

在步骤二三中，对数据集进行数据增强的操作，将每个视频随机挑选出要训练的帧数，对于随机挑选的固定帧数，将它们按照时间先后顺序排列。

进一步地，本实例中步骤三包括以下步骤：

步骤三一：提取视频数据通过预训练的卷积神经网络vgg16训练后得到的特征向量；

步骤三二：将得到的特征向量输入到改进的LSTM循环神经网络中去进行训练，将上一帧判断的预测类别作为下一帧的额外输入。

在步骤三一中，如图3所示，将视频数据通过预训练的卷积神经网络vgg16训练后得到提取的特征，卷积内核扫描图像以获得相应的特征。卷积核可以视为过滤器。在卷积层的每个卷积核中都有其关注的图像特征，例如垂直边缘、水平边缘、颜色、纹理等。所有神经元都被添加为整个图像的特征提取器集合，最后，将预训练的经典卷积神经网络vgg16去掉了最后的三层全连接层；

在步骤三二中，将得到的特征向量输入到改进的LSTM循环神经网络中去进行训练，借鉴自然语言处理问题中的时序关联问题，对单个LSTM胞体进行细调，将上一帧判断的预测类别m_t-1作为下一帧的输入。x_t是卷积神经网络提取的时刻t的特征向量，i_t f_t和o_t分别是时间步t的输入门，遗忘门和输出门，c_t和h_t分别是时间步t的单元激活矢量和隐藏状态。W表示相应的权重矩阵，b表示相应的偏移矩阵。σ表示Sigmoid函数。改进的LSTM算法公式为：

i_t＝σ(W_xix_t+W_hih_t-1+W_mim_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+W_mfm_t-1+b_f)

o_t＝σ(W_xox_t+W_hoh_t-1+W_mom_t-1+b_o)

c_t＝f_tc_t-1+i_ttanh(W_xcx_t+W_hch_t-1+W_mcm_t-1+b_c)

h_t＝o_ttanh(c_t)

在步骤三二中，通过循环神经网络的结果可简化为z_t＝h_t＝f_LSTM(x_t,h_t-1,m_t-1；W,b)。

进一步地，本实例中步骤四包括以下步骤：

步骤四一：在视频段的早期可能获得的预估准确率会比较低，通过在对数损失函数前面增加与时间相关的权重，随着时间距离的减少，帧之间的相关关系会增加，可以实现良好的早期预判效果，

表示t时刻类别为k的概率，改进的损失函数loss公式如下：

步骤四二：在时间步t时刻的意图类别可以根据以上的网络来进行判别，输出的当前时刻t的判定结果代表所有未来时间步的人类意m_t+1,m_t+2...m_T；

在步骤四二中，对被测试视频进行处理，分别保留视频数据长度的前10％-100％，估计不同比例的判别效果。

本发明是基于深度学习方法来进行人机协作环境中的行为意图估计，其优化目标是在保证完整视频识别精度的基础上，对于不完整视频段的任务也能有较高的识别精度，以此来实现意图的早期估计。将900个视频数据按总数划分为8:1:1，不同动作类别之间等比例。训练集为总视频数的80％，测试集为总视频数的10％，验证集为10％。模型在训练集和测试集上的准确率和损失函数如图4所示。验证集中的每个视频数据按时间长度逐渐递增至100％。如图5所示，将拿起螺丝刀的视频数据按照视频时长由10％到100％递增，所得到的预测准确率也保持上升，能都实现60％的视频长度就达到83％的预测准确率。

本发明还提供了一种基于循环神经网络的人机协作人体行为意图判别系统，如图6所示，包括：

接上述技术方案，最优早期预判模块具体用于：

在对数损失函数前面增加与时间相关的权重，m_t ^k表示t时刻类别为k的概率，改进的损失函数loss公式如下：

接上述技术方案，模型建立模块具体用于：

的某个取值；求解意图问题表示为寻找最大意图类别

的过程：

接上述技术方案，模型训练模块具体用于：

视频数据采集模块具体用于：

(3)对采集的视频数据做预处理。

该系统主要用于实现上述实施例的基于循环神经网络的人机协作人体行为意图判别方法，各个模块对应方法的每个步骤，模块功能在此不一一赘述。

本发明还提供了一种计算机存储介质，其内存储有可被处理器执行的计算机程序，该计算机程序执行上述实施例的基于循环神经网络的人机协作人体行为意图判别方法。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于循环神经网络的人机协作人体行为意图判别方法，其特征在于，包括如下步骤：

2)结合拆卸任务采集相应的视频数据；

2.根据权利要求1所述的基于循环神经网络的人机协作人体行为意图判别方法，其特征在于，步骤1)中对意图估计问题进行建模的步骤包括：

的某个取值；求解意图问题表示为寻找最大意图类别的过程：

3.根据权利要求1所述的基于循环神经网络的人机协作人体行为意图判别方法，其特征在于，步骤2)具体包括：

(3)对采集的视频数据做预处理。

4.根据权利要求1所述的基于循环神经网络的人机协作人体行为意图判别方法，其特征在于，步骤3)中，利用改进的LSTM循环神经网络对意图类别进行求解的步骤包括：

5.根据权利要求1所述的基于循环神经网络的人机协作人体行为意图判别方法，特征在于，步骤4)具体为：

(1)在对数损失函数前面增加与时间相关的权重，表示t时刻类别为k的概率，改进的损失函数loss公式如下：

6.一种基于循环神经网络的人机协作人体行为意图判别系统，其特征在于，包括：

7.根据权利要求6所述的基于循环神经网络的人机协作人体行为意图判别系统，其特征在于，模型建立模块具体用于：

(1)对完整视频的特点进行分析，单个视频可以表示为时间序列X＝{x₁,x₂,…x_t,…,x_T,t＝1,…,T}，x_t∈R^M×N×P，其中，x_t为每一帧的特征向量，M、N和P表示为单帧图片的特征维度，T为单个视频的总帧数；每个视频序列X都有一个与之对应的行为类别m_T；m_T取自设定的类别集合总共有K个意图类别；寻找一个最优参数θ^*，它取自于深度学习网络模型所有可能的参数取值Θ，θ^*表示为：

的某个取值；求解意图问题表示为寻找最大意图类别

的过程：

8.根据权利要求6所述的基于循环神经网络的人机协作人体行为意图判别系统，其特征在于，最优早期预判模块具体用于：

在对数损失函数前面增加与时间相关的权重，

表示t时刻类别为k的概率，改进的损失函数loss公式如下：

9.根据权利要求6所述的基于循环神经网络的人机协作人体行为意图判别系统，其特征在于，模型训练模块具体用于：

10.一种计算机存储介质，其特征在于，其内存储有可被处理器执行的计算机程序，该计算机程序执行如权利要求1-5中任一项所述的基于循环神经网络的人机协作人体行为意图判别方法。