CN110796090A - 基于循环神经网络的人机协作人体行为意图判别方法 - Google Patents

基于循环神经网络的人机协作人体行为意图判别方法 Download PDF

Info

Publication number
CN110796090A
CN110796090A CN201911043483.2A CN201911043483A CN110796090A CN 110796090 A CN110796090 A CN 110796090A CN 201911043483 A CN201911043483 A CN 201911043483A CN 110796090 A CN110796090 A CN 110796090A
Authority
CN
China
Prior art keywords
human
intention
neural network
video
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911043483.2A
Other languages
English (en)
Inventor
姚碧涛
刘紫彤
刘泉
徐文君
刘志浩
周祖德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN201911043483.2A priority Critical patent/CN110796090A/zh
Publication of CN110796090A publication Critical patent/CN110796090A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于改进的循环神经网络的人机协作人体行为意图判别,包括步骤:对人机协作完成拆卸任务过程中的人体行为意图估计问题建立深度学习网络模型,结合视频数据的特点对于意图提前感知问题进行分析;结合拆卸任务采集相应的视频数据;采用改进的LSTM循环神经网络来对意图类别进行求解,通过采集的视频数据训练深度学习网络模型,获得最优参数;根据最优参数调整深度学习网络模型的损失函数,测试单个视频不同数据长度的判别结果,寻找最优早期预判效果。本发明结合真实的人机协作拆卸场景,对人机协作中机器人提前预测人体行为提供了一种有效的解决方式。

Description

基于循环神经网络的人机协作人体行为意图判别方法
技术领域
本发明适用于解决人机协作领域的人体行为意图早期预测和判别问题,涉及的是一种基于循环神经网络的人机协作人体行为意图判别方法。
背景技术
近年来,人机协作已经成为智能制造的关注热点。在传统的制造场景中,由于安全原因,人类操作员和机器人被分开在不同的工作区域,各自独立完成自己所分配的任务。在人机协作系统中,机器人能协助人共同执行复杂的任务,从而提高生产效率和降低人的负荷。为了实现人机协作,机器人需要跟踪人的动作,估计人类工作者的行为意图,这对机器人智能地协助人一起完成复杂的操作任务至关重要。人机协作中的人体行为意图估计不同于人体行为识别,它需要在人的动作完成之前就能对动作进行预测,从而使机器人及时做出协作动作。
人机协作拆卸领域具有良好的应用前景,对于废旧产品的最大化再利用具有重要意义。由于每个废旧产品的状态不同,因此,废旧产品的拆卸无法用固定的流程,人机协作拆卸具有很大的不确定性,由此造成人机协作拆卸中的人体行为意图估计十分复杂。深度学习作为一种新颖的机器学习方法,具有发现和学习复杂模式的能力,能够准确地从图片或视频等高维数据中提取关键特征。同时,深度学习能有效地解决因不同操作人员执行相同操作的差异性而导致的错误估计问题,如何利用深度学习来进行人机协作拆卸中的人体意图估计,是一个亟待解决的问题。
发明内容
本发明的目的在于,根据人机协作拆卸过程中操作人员行为的特点以及视频数据的特征,提供一种可以提高早期预测准确率的循环神经网络方法,用于人机协作拆卸中的人体意图估计的基于循环神经网络的人机协作人体行为意图判别方法。
为达目的所采用的技术方案是:
提供一种基于循环神经网络的人机协作人体行为意图判别方法,包括如下步骤:
1)对人机协作完成拆卸任务过程中的人体行为意图估计问题建立深度学习网络模型,结合视频数据的特点对于意图提前感知问题进行分析;
2)结合拆卸任务采集相应的视频数据;
3)采用改进的LSTM循环神经网络来对意图类别进行求解,通过采集的视频数据训练深度学习网络模型,获得最优参数;
4)根据最优参数调整深度学习网络模型的损失函数,测试单个视频不同数据长度的判别结果,寻找最优早期预判效果。
接上述技术方案,步骤1)中对意图估计问题进行建模的步骤包括:
(1)对完整视频的特点进行分析,单个视频可以表示为时间序列X={x1,x2,…xt,…,xT,t=1,…,T},xt∈RM×N×P,其中,xt为每一帧的特征向量,M、N和P表示为单帧图片的特征维度,T为单个视频的总帧数;每个视频序列X都有一个与之对应的行为类别mT;mT取自设定的类别集合
Figure BDA0002253483390000026
总共有K个意图类别;寻找一个最优参数θ*,它取自于深度学习网络模型所有可能的参数取值Θ,θ*表示为:
Figure BDA0002253483390000021
(2)分析视频早期类别估计问题,将行为完全发生的时刻定义为T,对一个意图预测问题来说,需要在T1<T时刻就能准确估计出运动的类别;对于给定的图像序列
Figure BDA0002253483390000022
训练模型的目的是在时间步T1识别正确的运动类别;相当于在预期的行动完全发生之前判别出相应动作的所属类别,即意图类别集合
Figure BDA0002253483390000023
的某个取值;求解意图问题表示为寻找最大意图类别
Figure BDA0002253483390000024
的过程:
Figure BDA0002253483390000025
接上述技术方案,步骤2)具体包括:
(1)根据不同操作工具的操纵特点,确立要收集的人机协作拆卸数据集类型,包括操纵动作类型和操纵工具类别;
(2)根据动作特点确定要获取的视频数据时长,获取满足深度学习样本量的视频数据集;
(3)对采集的视频数据做预处理。
接上述技术方案,步骤3)中,利用改进的LSTM循环神经网络对意图类别进行求解的步骤包括:
(1)将采集的视频帧通过经典的vgg16卷积神经网络训练后得到提取的特征向量;
(2)将提取的特征向量输入到改进的LSTM循环神经网络中进行训练,借鉴自然语言处理问题中的时序关联问题,对单个LSTM胞体进行细调,将上一帧判断的预测类别mt-1作为下一帧的输入;xt是卷积神经网络提取的t时刻的特征向量,it ft和ot分别是时间步t的输入门,遗忘门和输出门,ct和ht分别是时间步t的单元激活矢量和隐藏状态;W表示相应的权重矩阵;b表示相应的偏移矩阵;σ表示Sigmoid函数;改进的LSTM算法公式为:
Figure BDA0002253483390000031
接上述技术方案,步骤4)具体为:
(1)在对数损失函数前面增加与时间相关的权重,mt k表示t时刻类别为k的概率,改进的损失函数loss公式如下:
Figure BDA0002253483390000032
(2)在时间步t时刻的意图类别根据以上的网络来进行判别,输出视频序列结果代表所有未来时间步的人类意图mt+1,mt+2...mT;对被测试视频进行处理,分别保留视频数据长度的前10%-100%,估计不同比例的判别效果,从中寻找最优早期预判效果。
本发明还提供了一种基于循环神经网络的人机协作人体行为意图判别系统,包括:
模型建立模块,用于对人机协作完成拆卸任务过程中的人体行为意图估计问题建立深度学习网络模型,结合视频数据的特点对于意图提前感知问题进行分析;
视频数据采集模块,用于结合拆卸任务采集相应的视频数据;
模型训练模块,用于采用改进的LSTM循环神经网络来对意图类别进行求解,通过采集的视频数据训练深度学习网络模型,获得最优参数;
最优早期预判模块,用于根据最优参数调整深度学习网络模型的损失函数,测试单个视频不同数据长度的判别结果,寻找最优早期预判效果。
接上述技术方案,最优早期预判模块具体用于:
在对数损失函数前面增加与时间相关的权重,
Figure BDA0002253483390000033
表示t时刻类别为k的概率,改进的损失函数loss公式如下:
Figure BDA0002253483390000034
在时间步t时刻的意图类别根据以上的网络来进行判别,输出视频序列结果代表所有未来时间步的人类意图mt+1,mt+2...mT;对被测试视频进行处理,分别保留视频数据长度的前10%-100%,估计不同比例的判别效果,从中寻找最优早期预判效果。
接上述技术方案,模型建立模块具体用于:
(1)对完整视频的特点进行分析,单个视频可以表示为时间序列X={x1,x2,…xt,…,xT,t=1,…,T},xt∈RM×N×P,其中,xt为每一帧的特征向量,M、N和P表示为单帧图片的特征维度,T为单个视频的总帧数;每个视频序列X都有一个与之对应的行为类别mT;mT取自设定的类别集合
Figure BDA0002253483390000035
总共有K个意图类别;寻找一个最优参数θ*,它取自于深度学习网络模型所有可能的参数取值Θ,θ*表示为:
Figure BDA0002253483390000041
(2)分析视频早期类别估计问题,将行为完全发生的时刻定义为T,对一个意图预测问题来说,需要在T1<T时刻就能准确估计出运动的类别;对于给定的图像序列训练模型的目的是在时间步T1识别正确的运动类别;相当于在预期的行动完全发生之前判别出相应动作的所属类别,即意图类别集合
Figure BDA0002253483390000043
的某个取值;求解意图问题表示为寻找最大意图类别
Figure BDA0002253483390000044
的过程:
接上述技术方案,模型训练模块具体用于:
将采集的视频帧通过经典的vgg16卷积神经网络训练后得到提取的特征向量;
将提取的特征向量输入到改进的LSTM循环神经网络中进行训练,借鉴自然语言处理问题中的时序关联问题,对单个LSTM胞体进行细调,将上一帧判断的预测类别mt-1作为下一帧的输入;xt是卷积神经网络提取的t时刻的特征向量,it ft和ot分别是时间步t的输入门,遗忘门和输出门,ct和ht分别是时间步t的单元激活矢量和隐藏状态;W表示相应的权重矩阵;b表示相应的偏移矩阵;σ表示Sigmoid函数;改进的LSTM算法公式为:
本发明还提供了一种计算机存储介质,其内存储有可被处理器执行的计算机程序,该计算机程序执行上述技术方案的基于循环神经网络的人机协作人体行为意图判别方法。
本发明产生的有益效果是:本发明提出了一种新颖的意图估计方法,能有效的提前预测人体行为意图。通过卷积神经网络对视频数据进行特征提取,利用改进的LSTM循环神经网络对视频意图问题进行建模。考虑到视频段的早期估计问题具有较低的准确率,通过添加与时间距离相关因子的损失函数对神经网络进行训练,得到改进的视频早期预判结果。
进一步地,本发明结合人机协作拆卸场景,充分分析拆卸场景中操作人员行为的特点,实现对运动序列的早期预测。本发明不同于计算机视觉领域中的通过单帧图像的像素生成来对视频进行预测的研究,能够基于不完整的视频序列进行人体行为意图估计。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例基于循环神经网络的人机协作人体行为意图判别方法流程图;
图2是步骤二、三、四的具体流程示意图;
图3是步骤三中的深度学习网络的结构图;
图4(a)为模型在训练集和测试集上的准确率;
图4(b)为模型在训练集和测试集上的损失函数;
图5是具体实施方式一提出的模型在单个视频数据长度按比例递增时的意图估计准确率的结果图;
图6是本发明实施例基于循环神经网络的人机协作人体行为意图判别系统结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本实施方式中的一种基于循环神经网络的行为意图估计方法,具体是按照以下步骤建立的:
步骤一、对意图估计问题进行建模,结合视频数据的特点对于意图提前感知问题进行分析;
步骤二、结合拆卸任务采集相应的视频数据;
步骤三、采用改进的LSTM循环神经网络来对意图类别进行求解,训练深度学习网络获得最优参数;
步骤四、调整模型损失函数,测试单个视频不同数据长度的判别结果,寻找最优早期预判效果。
本发明实施例中,首先,主要通过RGB-D摄像机捕获人机协作拆卸视频数据,视频中涉及人体的动作姿态和可能与其交互的物体信息。然后,通过预训练的经典卷积神经网络vgg16模型提取人机协作拆卸视频数据中的特征,并将提取的特征归一化处理转换成时间序列。最后,将时间序列输入到改进的LSTM循环神经网络结构中。在单个LSTM单元中,将上一帧判决的帧类别的输出作为下一帧的额外输入,并改进损失函数,增加与时间步长相关的权重因子,解决了在视频片段预测完整视频意图的低精度问题。本发明结合真实的人机协作拆卸场景,对人机协作中机器人提前预测人体行为提供了一种有效的解决方式。
进一步地,本实例中步骤一具体包括以下步骤:
步骤一一:对完整视频的特点进行分析,单个视频可以表示为时间序列X={x1,x2,…xt,…,xT,t=1,…,T},xt∈RM×N×P,其中,xt为每一帧的特征向量,M、N和P表示为单帧图片的特征维度,T为单个视频的总帧数。每个视频序列X都有一个与之对应的行为类别mT。mT取自设定的类别集合
Figure BDA0002253483390000061
总共有K个意图类别。寻找一个参数θ*,它取自于深度学习模型所有可能的参数取值集合Θ,θ*可以表示为:
Figure BDA0002253483390000062
步骤一二:分析视频早期类别估计问题,将行为完全发生的时刻定义为T,对一个意图预测问题来说,需要在T1<T时刻就能估计出运动的类别。对于给定的图像序列
Figure BDA0002253483390000063
训练模型的目的是在时间步T1识别正确的运动类别。相当于在预期的行动完全发生之前判别出相应动作的所属类别,即意图类别集合的某个取值。求解意图问题可以表示为寻找最大意图类别
Figure BDA0002253483390000065
的过程:
Figure BDA0002253483390000066
进一步地,本实例中步骤二具体包括以下步骤:
步骤二一:如图2所示,根据不同操作工具的操纵特点,确立要收集的人机协作拆卸数据集类型,包括操纵动作类别和操纵工具类别;
步骤二二:根据动作特点确定要获取的视频数据时长,获取满足深度学习样本量的视频数据集;
步骤二三:对采集的视频数据做预处理操作,如特征归一化、数据增强。
在步骤二一中,根据不同操作工具的操纵特点,确立要收集的人机协作拆卸数据集类型。任务的类别组成主要有两部分,w表示涉及的操作工具,QW表示操作工具w涉及的操作动作数量,总共有W个不同类型的操作工具,所有的拆卸任务总数K即意图类别总数可以表示为:
Figure BDA0002253483390000067
在步骤二二中,通过Kinect相机获得视频数据集,根据拆卸动作的特点,采集的视频时长控制在4-5秒的范围内,根据深度学习对样本数据量的要求,收集了13个操作人员约900个动作视频进行训练;
在步骤二三中,对采集的视频数据进行预处理操作,对图片的维度进行调整至224像素和224像素;
在步骤二三中,对数据集进行数据增强的操作,将每个视频随机挑选出要训练的帧数,对于随机挑选的固定帧数,将它们按照时间先后顺序排列。
进一步地,本实例中步骤三包括以下步骤:
步骤三一:提取视频数据通过预训练的卷积神经网络vgg16训练后得到的特征向量;
步骤三二:将得到的特征向量输入到改进的LSTM循环神经网络中去进行训练,将上一帧判断的预测类别作为下一帧的额外输入。
在步骤三一中,如图3所示,将视频数据通过预训练的卷积神经网络vgg16训练后得到提取的特征,卷积内核扫描图像以获得相应的特征。卷积核可以视为过滤器。在卷积层的每个卷积核中都有其关注的图像特征,例如垂直边缘、水平边缘、颜色、纹理等。所有神经元都被添加为整个图像的特征提取器集合,最后,将预训练的经典卷积神经网络vgg16去掉了最后的三层全连接层;
在步骤三二中,将得到的特征向量输入到改进的LSTM循环神经网络中去进行训练,借鉴自然语言处理问题中的时序关联问题,对单个LSTM胞体进行细调,将上一帧判断的预测类别mt-1作为下一帧的输入。xt是卷积神经网络提取的时刻t的特征向量,it ft和ot分别是时间步t的输入门,遗忘门和输出门,ct和ht分别是时间步t的单元激活矢量和隐藏状态。W表示相应的权重矩阵,b表示相应的偏移矩阵。σ表示Sigmoid函数。改进的LSTM算法公式为:
it=σ(Wxixt+Whiht-1+Wmimt-1+bi)
ft=σ(Wxfxt+Whfht-1+Wmfmt-1+bf)
ot=σ(Wxoxt+Whoht-1+Wmomt-1+bo)
ct=ftct-1+ittanh(Wxcxt+Whcht-1+Wmcmt-1+bc)
ht=ottanh(ct)
在步骤三二中,通过循环神经网络的结果可简化为zt=ht=fLSTM(xt,ht-1,mt-1;W,b)。
进一步地,本实例中步骤四包括以下步骤:
步骤四一:在视频段的早期可能获得的预估准确率会比较低,通过在对数损失函数前面增加与时间相关的权重,随着时间距离的减少,帧之间的相关关系会增加,可以实现良好的早期预判效果,
Figure BDA0002253483390000071
表示t时刻类别为k的概率,改进的损失函数loss公式如下:
Figure BDA0002253483390000072
步骤四二:在时间步t时刻的意图类别可以根据以上的网络来进行判别,输出的当前时刻t的判定结果代表所有未来时间步的人类意mt+1,mt+2...mT
在步骤四二中,对被测试视频进行处理,分别保留视频数据长度的前10%-100%,估计不同比例的判别效果。
本发明是基于深度学习方法来进行人机协作环境中的行为意图估计,其优化目标是在保证完整视频识别精度的基础上,对于不完整视频段的任务也能有较高的识别精度,以此来实现意图的早期估计。将900个视频数据按总数划分为8:1:1,不同动作类别之间等比例。训练集为总视频数的80%,测试集为总视频数的10%,验证集为10%。模型在训练集和测试集上的准确率和损失函数如图4所示。验证集中的每个视频数据按时间长度逐渐递增至100%。如图5所示,将拿起螺丝刀的视频数据按照视频时长由10%到100%递增,所得到的预测准确率也保持上升,能都实现60%的视频长度就达到83%的预测准确率。
本发明还提供了一种基于循环神经网络的人机协作人体行为意图判别系统,如图6所示,包括:
模型建立模块,用于对人机协作完成拆卸任务过程中的人体行为意图估计问题建立深度学习网络模型,结合视频数据的特点对于意图提前感知问题进行分析;
视频数据采集模块,用于结合拆卸任务采集相应的视频数据;
模型训练模块,用于采用改进的LSTM循环神经网络来对意图类别进行求解,通过采集的视频数据训练深度学习网络模型,获得最优参数;
最优早期预判模块,用于根据最优参数调整深度学习网络模型的损失函数,测试单个视频不同数据长度的判别结果,寻找最优早期预判效果。
接上述技术方案,最优早期预判模块具体用于:
在对数损失函数前面增加与时间相关的权重,mt k表示t时刻类别为k的概率,改进的损失函数loss公式如下:
Figure BDA0002253483390000081
在时间步t时刻的意图类别根据以上的网络来进行判别,输出视频序列结果代表所有未来时间步的人类意图mt+1,mt+2...mT;对被测试视频进行处理,分别保留视频数据长度的前10%-100%,估计不同比例的判别效果,从中寻找最优早期预判效果。
接上述技术方案,模型建立模块具体用于:
(1)对完整视频的特点进行分析,单个视频可以表示为时间序列X={x1,x2,…xt,…,xT,t=1,…,T},xt∈RM×N×P,其中,xt为每一帧的特征向量,M、N和P表示为单帧图片的特征维度,T为单个视频的总帧数;每个视频序列X都有一个与之对应的行为类别mT;mT取自设定的类别集合
Figure BDA0002253483390000082
总共有K个意图类别;寻找一个最优参数θ*,它取自于深度学习网络模型所有可能的参数取值Θ,θ*表示为:
Figure BDA0002253483390000083
(2)分析视频早期类别估计问题,将行为完全发生的时刻定义为T,对一个意图预测问题来说,需要在T1<T时刻就能准确估计出运动的类别;对于给定的图像序列训练模型的目的是在时间步T1识别正确的运动类别;相当于在预期的行动完全发生之前判别出相应动作的所属类别,即意图类别集合
Figure BDA0002253483390000085
的某个取值;求解意图问题表示为寻找最大意图类别
Figure BDA0002253483390000086
的过程:
Figure BDA0002253483390000087
接上述技术方案,模型训练模块具体用于:
将采集的视频帧通过经典的vgg16卷积神经网络训练后得到提取的特征向量;
将提取的特征向量输入到改进的LSTM循环神经网络中进行训练,借鉴自然语言处理问题中的时序关联问题,对单个LSTM胞体进行细调,将上一帧判断的预测类别mt-1作为下一帧的输入;xt是卷积神经网络提取的t时刻的特征向量,it ft和ot分别是时间步t的输入门,遗忘门和输出门,ct和ht分别是时间步t的单元激活矢量和隐藏状态;W表示相应的权重矩阵;b表示相应的偏移矩阵;σ表示Sigmoid函数;改进的LSTM算法公式为:
Figure BDA0002253483390000091
视频数据采集模块具体用于:
(1)根据不同操作工具的操纵特点,确立要收集的人机协作拆卸数据集类型,包括操纵动作类型和操纵工具类别;
(2)根据动作特点确定要获取的视频数据时长,获取满足深度学习样本量的视频数据集;
(3)对采集的视频数据做预处理。
该系统主要用于实现上述实施例的基于循环神经网络的人机协作人体行为意图判别方法,各个模块对应方法的每个步骤,模块功能在此不一一赘述。
本发明还提供了一种计算机存储介质,其内存储有可被处理器执行的计算机程序,该计算机程序执行上述实施例的基于循环神经网络的人机协作人体行为意图判别方法。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (10)

1.一种基于循环神经网络的人机协作人体行为意图判别方法,其特征在于,包括如下步骤:
1)对人机协作完成拆卸任务过程中的人体行为意图估计问题建立深度学习网络模型,结合视频数据的特点对于意图提前感知问题进行分析;
2)结合拆卸任务采集相应的视频数据;
3)采用改进的LSTM循环神经网络来对意图类别进行求解,通过采集的视频数据训练深度学习网络模型,获得最优参数;
4)根据最优参数调整深度学习网络模型的损失函数,测试单个视频不同数据长度的判别结果,寻找最优早期预判效果。
2.根据权利要求1所述的基于循环神经网络的人机协作人体行为意图判别方法,其特征在于,步骤1)中对意图估计问题进行建模的步骤包括:
(1)对完整视频的特点进行分析,单个视频可以表示为时间序列X={x1,x2,…xt,…,xT,t=1,…,T},xt∈RM×N×P,其中,xt为每一帧的特征向量,M、N和P表示为单帧图片的特征维度,T为单个视频的总帧数;每个视频序列X都有一个与之对应的行为类别mT;mT取自设定的类别集合
Figure FDA0002253483380000011
总共有K个意图类别;寻找一个最优参数θ*,它取自于深度学习网络模型所有可能的参数取值Θ,θ*表示为:
Figure FDA0002253483380000012
(2)分析视频早期类别估计问题,将行为完全发生的时刻定义为T,对一个意图预测问题来说,需要在T1<T时刻就能准确估计出运动的类别;对于给定的图像序列
Figure FDA0002253483380000013
训练模型的目的是在时间步T1识别正确的运动类别;相当于在预期的行动完全发生之前判别出相应动作的所属类别,即意图类别集合
Figure FDA0002253483380000014
的某个取值;求解意图问题表示为寻找最大意图类别的过程:
Figure FDA0002253483380000016
3.根据权利要求1所述的基于循环神经网络的人机协作人体行为意图判别方法,其特征在于,步骤2)具体包括:
(1)根据不同操作工具的操纵特点,确立要收集的人机协作拆卸数据集类型,包括操纵动作类型和操纵工具类别;
(2)根据动作特点确定要获取的视频数据时长,获取满足深度学习样本量的视频数据集;
(3)对采集的视频数据做预处理。
4.根据权利要求1所述的基于循环神经网络的人机协作人体行为意图判别方法,其特征在于,步骤3)中,利用改进的LSTM循环神经网络对意图类别进行求解的步骤包括:
(1)将采集的视频帧通过经典的vgg16卷积神经网络训练后得到提取的特征向量;
(2)将提取的特征向量输入到改进的LSTM循环神经网络中进行训练,借鉴自然语言处理问题中的时序关联问题,对单个LSTM胞体进行细调,将上一帧判断的预测类别mt-1作为下一帧的输入;xt是卷积神经网络提取的t时刻的特征向量,it ft和ot分别是时间步t的输入门,遗忘门和输出门,ct和ht分别是时间步t的单元激活矢量和隐藏状态;W表示相应的权重矩阵;b表示相应的偏移矩阵;σ表示Sigmoid函数;改进的LSTM算法公式为:
Figure FDA0002253483380000021
5.根据权利要求1所述的基于循环神经网络的人机协作人体行为意图判别方法,特征在于,步骤4)具体为:
(1)在对数损失函数前面增加与时间相关的权重,表示t时刻类别为k的概率,改进的损失函数loss公式如下:
Figure FDA0002253483380000023
(2)在时间步t时刻的意图类别根据以上的网络来进行判别,输出视频序列结果代表所有未来时间步的人类意图mt+1,mt+2...mT;对被测试视频进行处理,分别保留视频数据长度的前10%-100%,估计不同比例的判别效果,从中寻找最优早期预判效果。
6.一种基于循环神经网络的人机协作人体行为意图判别系统,其特征在于,包括:
模型建立模块,用于对人机协作完成拆卸任务过程中的人体行为意图估计问题建立深度学习网络模型,结合视频数据的特点对于意图提前感知问题进行分析;
视频数据采集模块,用于结合拆卸任务采集相应的视频数据;
模型训练模块,用于采用改进的LSTM循环神经网络来对意图类别进行求解,通过采集的视频数据训练深度学习网络模型,获得最优参数;
最优早期预判模块,用于根据最优参数调整深度学习网络模型的损失函数,测试单个视频不同数据长度的判别结果,寻找最优早期预判效果。
7.根据权利要求6所述的基于循环神经网络的人机协作人体行为意图判别系统,其特征在于,模型建立模块具体用于:
(1)对完整视频的特点进行分析,单个视频可以表示为时间序列X={x1,x2,…xt,…,xT,t=1,…,T},xt∈RM×N×P,其中,xt为每一帧的特征向量,M、N和P表示为单帧图片的特征维度,T为单个视频的总帧数;每个视频序列X都有一个与之对应的行为类别mT;mT取自设定的类别集合总共有K个意图类别;寻找一个最优参数θ*,它取自于深度学习网络模型所有可能的参数取值Θ,θ*表示为:
Figure FDA0002253483380000032
(2)分析视频早期类别估计问题,将行为完全发生的时刻定义为T,对一个意图预测问题来说,需要在T1<T时刻就能准确估计出运动的类别;对于给定的图像序列
Figure FDA0002253483380000033
训练模型的目的是在时间步T1识别正确的运动类别;相当于在预期的行动完全发生之前判别出相应动作的所属类别,即意图类别集合
Figure FDA0002253483380000034
的某个取值;求解意图问题表示为寻找最大意图类别
Figure FDA0002253483380000035
的过程:
Figure FDA0002253483380000036
8.根据权利要求6所述的基于循环神经网络的人机协作人体行为意图判别系统,其特征在于,最优早期预判模块具体用于:
在对数损失函数前面增加与时间相关的权重,
Figure FDA0002253483380000037
表示t时刻类别为k的概率,改进的损失函数loss公式如下:
Figure FDA0002253483380000038
在时间步t时刻的意图类别根据以上的网络来进行判别,输出视频序列结果代表所有未来时间步的人类意图mt+1,mt+2...mT;对被测试视频进行处理,分别保留视频数据长度的前10%-100%,估计不同比例的判别效果,从中寻找最优早期预判效果。
9.根据权利要求6所述的基于循环神经网络的人机协作人体行为意图判别系统,其特征在于,模型训练模块具体用于:
将采集的视频帧通过经典的vgg16卷积神经网络训练后得到提取的特征向量;
将提取的特征向量输入到改进的LSTM循环神经网络中进行训练,借鉴自然语言处理问题中的时序关联问题,对单个LSTM胞体进行细调,将上一帧判断的预测类别mt-1作为下一帧的输入;xt是卷积神经网络提取的t时刻的特征向量,it ft和ot分别是时间步t的输入门,遗忘门和输出门,ct和ht分别是时间步t的单元激活矢量和隐藏状态;W表示相应的权重矩阵;b表示相应的偏移矩阵;σ表示Sigmoid函数;改进的LSTM算法公式为:
Figure FDA0002253483380000039
10.一种计算机存储介质,其特征在于,其内存储有可被处理器执行的计算机程序,该计算机程序执行如权利要求1-5中任一项所述的基于循环神经网络的人机协作人体行为意图判别方法。
CN201911043483.2A 2019-10-30 2019-10-30 基于循环神经网络的人机协作人体行为意图判别方法 Pending CN110796090A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911043483.2A CN110796090A (zh) 2019-10-30 2019-10-30 基于循环神经网络的人机协作人体行为意图判别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911043483.2A CN110796090A (zh) 2019-10-30 2019-10-30 基于循环神经网络的人机协作人体行为意图判别方法

Publications (1)

Publication Number Publication Date
CN110796090A true CN110796090A (zh) 2020-02-14

Family

ID=69442007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911043483.2A Pending CN110796090A (zh) 2019-10-30 2019-10-30 基于循环神经网络的人机协作人体行为意图判别方法

Country Status (1)

Country Link
CN (1) CN110796090A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111403039A (zh) * 2020-03-19 2020-07-10 中国科学院深圳先进技术研究院 一种动态平衡评估方法、装置、设备及介质
CN112364695A (zh) * 2020-10-13 2021-02-12 杭州城市大数据运营有限公司 一种行为预测方法、装置、计算机设备和存储介质
CN114800510A (zh) * 2022-05-06 2022-07-29 武汉理工大学 考虑产品零件失效特征的工业机器人拆解序列规划方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107097227A (zh) * 2017-04-17 2017-08-29 北京航空航天大学 一种人机协作机器人系统
US20180032868A1 (en) * 2016-07-26 2018-02-01 University Of Connecticut Early prediction of an intention of a user's actions
JP2018055259A (ja) * 2016-09-27 2018-04-05 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
CN108563995A (zh) * 2018-03-15 2018-09-21 西安理工大学 基于深度学习的人机协作系统手势识别控制方法
CN109848983A (zh) * 2018-12-10 2019-06-07 华中科技大学 一种高顺应性人引导机器人协同作业的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180032868A1 (en) * 2016-07-26 2018-02-01 University Of Connecticut Early prediction of an intention of a user's actions
JP2018055259A (ja) * 2016-09-27 2018-04-05 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
CN107097227A (zh) * 2017-04-17 2017-08-29 北京航空航天大学 一种人机协作机器人系统
CN108563995A (zh) * 2018-03-15 2018-09-21 西安理工大学 基于深度学习的人机协作系统手势识别控制方法
CN109848983A (zh) * 2018-12-10 2019-06-07 华中科技大学 一种高顺应性人引导机器人协同作业的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SHIYANG YAN ET AL.: "Hierarchical Multi-scale Attention Networks for action recognition", pages 73 - 84 *
ZHICHAO WANG ET AL.: "Recurrent convolutional networks based intention recognition for human-robot collaboration tasks", 《2017 IEEE INTERNATIONAL CONFEREENCE ON SYSTEMS, MAN, AND CYBERNETICS》, pages 1675 - 1680 *
ZITONG LIU ET AL.: "Deep Learning-based Human Motion Prediction considering Context Awareness for Human-Robot Collaboration in Manufacturing", pages 272 - 278 *
赵海文等: "基于机器学习的人机协调操作意图感知与控制方法研究", pages 147 - 150 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111403039A (zh) * 2020-03-19 2020-07-10 中国科学院深圳先进技术研究院 一种动态平衡评估方法、装置、设备及介质
CN112364695A (zh) * 2020-10-13 2021-02-12 杭州城市大数据运营有限公司 一种行为预测方法、装置、计算机设备和存储介质
CN114800510A (zh) * 2022-05-06 2022-07-29 武汉理工大学 考虑产品零件失效特征的工业机器人拆解序列规划方法
CN114800510B (zh) * 2022-05-06 2024-01-23 武汉理工大学 考虑产品零件失效特征的工业机器人拆解序列规划方法

Similar Documents

Publication Publication Date Title
Wang et al. Deep learning-based human motion recognition for predictive context-aware human-robot collaboration
Liu et al. Deep learning-based human motion prediction considering context awareness for human-robot collaboration in manufacturing
CN110728209B (zh) 一种姿态识别方法、装置、电子设备及存储介质
CN107463888B (zh) 基于多任务学习与深度学习的人脸情绪分析方法及系统
CN110796090A (zh) 基于循环神经网络的人机协作人体行为意图判别方法
CN112101219B (zh) 一种面向老年陪护机器人的意图理解方法和系统
CN105809672A (zh) 一种基于超像素和结构化约束的图像多目标协同分割方法
CN110390308B (zh) 一种基于时空对抗生成网络的视频行为识别方法
CN107146237A (zh) 一种基于在线状态学习与估计的目标跟踪方法
Koli et al. Human action recognition using deep neural networks
CN116935203B (zh) 一种基于声光融合的潜水员智能监控方法和系统
Ngxande et al. Detecting inter-sectional accuracy differences in driver drowsiness detection algorithms
Cai et al. CCAN: Constraint co-attention network for instance grasping
CN109272036A (zh) 一种基于深度残差网络的随机蕨目标跟踪方法
CN112232226A (zh) 通过判别式模型检测目标对象的方法和系统
Zou Predictive visual control network for occlusion solution in human-following robot
CN110163106A (zh) 一体式纹身检测与识别方法和系统
Brander et al. Improving Data-Scarce Image Classification Through Multimodal Synthetic Data Pretraining
MinYen et al. A study on estimating the accurate head IMU motion from Video
Lee et al. Adaptive integration of multiple cues for contingency detection
CN113378691B (zh) 基于实时用户行为分析的智能家居管理系统及方法
CN110717434B (zh) 一种基于特征分离的表情识别方法
CN117115783B (zh) 基于机器视觉的流水线工作行为识别方法
Singh et al. Traffic Policeman Gesture Recognition With Spatial Temporal Graph Convolution Network
Zarkasi et al. Robot Vision Pattern Recognition of the Eye and Nose Using the Local Binary Pattern Histogram Method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination