CN116189054A - 基于神经网络的人机协作方法及人机协作系统 - Google Patents

基于神经网络的人机协作方法及人机协作系统 Download PDF

Info

Publication number
CN116189054A
CN116189054A CN202310168810.7A CN202310168810A CN116189054A CN 116189054 A CN116189054 A CN 116189054A CN 202310168810 A CN202310168810 A CN 202310168810A CN 116189054 A CN116189054 A CN 116189054A
Authority
CN
China
Prior art keywords
action
man
human
recognition
gcn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310168810.7A
Other languages
English (en)
Inventor
俞建峰
刘子璇
熊焕
齐一搏
华雪莹
陈宇
化春键
蒋毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202310168810.7A priority Critical patent/CN116189054A/zh
Publication of CN116189054A publication Critical patent/CN116189054A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了基于神经网络的人机协作方法及人机协作系统,属于人机协同操作的动作识别技术领域。本发明通过识别工人的动作,预测其下一步动作意图,从而控制机器人完成相应的协助任务,达到实现高效人机协作的目的;同时提供了一种多视角动作采集模块,实现了利用多视角RGB相机获取无遮挡的完整人体骨架空间坐标;提供了一种自定义的HRI‑GCN动作识别模型,实现了面向人机协作的人体动作识别,通过HRI‑GCN动作识别模型对工人动作的识别以及下一步动作意图的预测,并根据人机任务分配表,使机器人完成相应的协作任务。实现了高效率,高准确率进行人机协作中机器人交互与控制的目的,并可推广到其他更多人机协作交互的动作识别领域。

Description

基于神经网络的人机协作方法及人机协作系统
技术领域
本发明涉及基于神经网络的人机协作方法及人机协作系统,属于人机协同操作的动作识别技术领域。
背景技术
人机协同操作是一种通过人类与机器人的合作,实现协同操作来完成相关任务的工作方式。人机协同的主要理念是将人类的能力和机器人的优势结合起来。现有的机器人普遍存在示教周期长,难以理解抽象的命令以及缺乏在线感知能力等缺陷,从而制约了机器人在工业领域的智能化应用。随着高端制造中产品的多样化以及人工智能的发展,人机协作将成为下一代机器人工业应用的发展趋势。人机协作致力于让机器人主动协作,在机器人还没达到高度智能的条件下,最有效的方法是先感知和识别人类行为,再通过预设的方式为人类提供协助。
近年来,人机协作已经成为智能制造领域关注的热点。目前,机器人应用研究主要集中在搬运、检测和装配等领域中。在传统的制造场景中,由于安全原因,人类操作员和机器人被分开在不同的工作区域,各自独立完成自己所分配的任务。在理想的人机协作系统中,能将机器人的高精度,强度和可重复性与人类操作员的高灵活性和适应性相结合,从而提高生产效率和降低工人的负荷。为了实现人机协作,机器人需要识别工人的动作,进而推断出工人的操作意图,并根据操作意图和机器人动作的对应关系,提供相应的协助;以此提高人机协作中人的主动性和工作效率。
西北工业大学的发明专利《应用于人机协作中的基于分割人体模型的动作识别方法》(授权号为CN109086706B),公开了一种应用于人机协作中的基于分割人体模型的动作识别方法,该方法使用微软Kinect V2传感器采集人体骨骼关节点空间坐标,利用布尔值特征矩阵分别提取关键帧,使用特征向量及动态时间规整算法(DTW算法)对输入分别进行模板匹配,完成对人的动作识别。但该系统在目标检测方面仅采用单路深度相机作为输入,动作容易受到遮挡而导致视角不全,识别准确率下降;在识别算法方面,采用基于DTW算法的模板匹配方法,算法的泛化性和准确性不足,识别前需要对特定操作者进行动作采集,识别模型的可迁移性较差。
华南理工大学的发明专利《基于人机协作的机器人感知与理解方法》(授权号为CN107150347B),公开了一种基于人机协作的机器人感知与理解方法,该方法通过手势识别和自然语言处理,多模态地实现意图识别。通过人类自然高效的交互方式进行人机交流与协助,以提高机器人感知和理解的灵活性、智能性和适应性。但该方法需要多模态的信息融合作为输入,识别模型的输入数据为语音和单视角的RGB视频,该数据在工业场景下易受到噪声或背景干扰,不利于对操作者意图进行准确识别。且在机器人任务分配方面,依赖强化学习和自然语言处理,通过口述的讲解输入机器人的任务内容和对环境信息,这需要大量的经验数据且学习过程不可控,难以准确构建在人机协作中,机器人所需处理的任务与人工处理的任务间的对应关系。
综上所述,现有的基于神经网络的视觉人机协作系统主要存在以下三个问题:第一,人体动作识别部分通常采用单路深度相机的数据作为动作模块的输入,视角有限且易受到遮挡,不能有效识别工人动作。第二,现有条件下机器人对工人的协助方式仅限于接收固定的指令,在工人的操作下完成当前任务,机器人无法预测工人的下一步动作意图,从而主动协助下一步任务。第三,通常机器人的任务和人的任务相互独立,仅限于分别完成各自的任务,最后再进行组合,过程中有大量等待时间。难以构建高效协作场景下,机器人所需处理的任务和工人所需处理的任务之间的对应关系。
发明内容
为了解决上述技术存在的问题,本发明提供了基于神经网络的人机协作方法及人机协作系统,所述技术方案如下:
本发明的第一个目的在于提供一种基于神经网络的人机协作方法,包括:
步骤一:从多个视角获取人机协作操作任务中人体操作的视频数据,对不同视角的多组视频数据,分别利用2D骨骼关键点识别模型openpose完成骨骼关键点识别;
步骤二:将识别得到的多组不同视角坐标下的骨架空间坐标,融合重构后得到完整准确的人体骨架关键点空间坐标序列;
步骤三:将所述人体骨架关键点空间坐标序列输入训练好的自定义HRI-GCN动作识别网络进行动作预测与识别;
步骤四:依据协作任务,制定工作流程以及人机任务对应表;
步骤五:根据识别得到的动作类别,以及设定的协作任务流程和人机任务对应表,指定机器人传递下一步所需的工件或工具;
所述HRI-GCN动作识别网络基于图卷积网络GCN、长短周期记忆网络LSTM和注意力机制构建。
可选的,所述HRI-GCN动作识别网络的构建过程包括:
步骤21:用骨骼关键点的空间坐标多维数组作为图卷积层GCN网络的原始输入,将骨骼关键点作为图的节点,将其转化为邻接矩阵A和度矩阵D作为提取空间特征的图卷积的输入;
步骤22:在图卷积层GCN网络中加入了注意力机制,形成AGCN模块;
步骤23:将通过所述AGCN模块完成单帧空间特征提取的空间特征矩阵序列作为LSTM模块的输入,提取动作的时序特征;
步骤24:将空域图卷积AGCN模块与时域门控单元LSTM模块交替堆叠形成一个时空卷积单元STunit,所述HRI-GCN动作识别网络包括10个时空卷积单元STunit1-Stunit10以及最终一个全连接层FC1,最终连接softmax分类器构成动作识别网络;
所述AGCN模块的输入为4维结构矩阵[N*M,C,T,V],所述LSTM模块的输入同样为4维结构矩阵[N*M,C,T,V],但只对T进行时序信息的提取操作;所述AGCN模块与LSTM模块的输出均保持原结构,为4维结构矩阵[N*M,C,T,V];最后连接全连接层FC1和softmax分类器,输出动作标签;
其中,在4维结构矩阵[N*M,C,T,V]中N是批量大小,M是人数,C是输入通道数,T是时间步数,V是骨骼关键点数。
可选的,所述HRI-GCN动作识别网络的输入为人体骨骼点构成的动作矩阵序列,采用25×3矩阵表示人体骨架25个关键点的空间坐标;所述HRI-GCN动作识别网络的输出采用N×1矩阵表示输入属于某种动作的概率。
可选的,所述HRI-GCN动作识别网络中时空卷积单元STunit采用Relu函数作为激活函数。
可选的,所述HRI-GCN动作识别网络的训练过程包括:
步骤1:利用RGB相机拍摄在人机协作操作任务中人体操作的视频数据,并将采集到的视频帧数进行标准化处理,以动作标签命名保存;
步骤2:对所述步骤1中收集的人体动作视频,利用2D骨骼关键点识别模型openpose完成骨骼关键点识别,生成各个关键点的空间坐标数据,储存为数组,完成数据集的初步建立;
步骤3:将所述步骤2中得到的不同动作对应的骨骼关键点空间坐标数据构建成人体动作骨架数据集;
步骤4:拍摄并识别无动作时各骨架关键点坐标作为基准,将数据集中的空间坐标与无动作时基准坐标进行做差,获得特征向量数组并选择合理阈值利用阈值剔除干扰数据;
步骤5:用邻接矩阵Ak和度矩阵Dk代表所述骨骼关键点的各关键点空间位置、节点间拓扑关系,将代表运动运动的骨骼关键点空间位置信息、拓扑连接关系构建成数据集;
步骤6:所述数据集按8:2比例分割为训练集和测试集;
步骤7:利用所述步骤6中获得的训练集,训练所述HRI-GCN动作识别网络,直至模型收敛,然后在测试集上进行测试模型性能。
可选的,所述HRI-GCN动作识别网络的损失函数为:
Figure BDA0004097126280000041
其中,N代表训练过程中所用的总样本数,M代表需要预测和识别的动作种类,yik为代表目标动作的符号函数,pik代表最终全连接层输出的样本i属于动作类别k的概率。
可选的,所述HRI-GCN动作识别网络的准确率函数为:
Figure BDA0004097126280000042
Figure BDA0004097126280000043
其中,TP代表某类动作识别正确的数目,FP代表某类动作识别错误的数目,M代表需要预测和识别的动作种类,Pk代表某类动作识别的准确率,Wk代表该类动作数据占整体数据的权重。
可选的,所述步骤四中依据协作任务,制定工作流程以及人机任务对应表的过程包括:
步骤41:为人机协作任务,制定工作流程,划分人的工作任务和机器人的协作任务;
步骤42:将人工作任务中的动作与机器人需要进行协作进行的动作,如传递工件或工具进行对应,将动作对应的识别标签对应机器人协作任务,形成人机任务分配表。
本发明的第二个目的在于提供一种基于神经网络的人机协作系统,用于实现上述的基于神经网络的人机协作方法,包括:
多视角动作采集模块,用于从多个角度采集操作人员的动作视频;
动作意图识别模块,基于所述操作人员的动作视频获取骨骼关键点空间坐标序列,并将序列输入所述HRI-GCN动作识别网络,输出最终的预测识别特征向量值,所述特征向量值包括识别得到输入动作属于各类动作的概率;
意图预测及任务分配模块,用于根据意图识别结果和人机任务对应表,指定机器人传递下一步所需的工件或工具;
人机协作模块,根据所述意图预测及任务分配模块发出的指令,机器人传递工具或工件给操作人员。
可选的,所述多视角动作采集模块在正面和侧面分别采集工人操作时的动作数据。
本发明有益效果是:
(1)本发明通过多视角RGB视频数据和骨骼关键点估计算法,实现多视角骨架信息的融合重构,解决了单路相机易受遮挡,导致采集动作信号视角不全的问题,减少环境信息干扰。通过采用多视角RBG相机采集视频数据,配合骨骼关键点识别算法,对多角度视频数据进行骨架信息的识别并且融合重构获取完整的人体骨架3维的空间坐标。同时,本发明不仅能有效避免单路相机视角不全产生遮挡和工业环境下环境光照的干扰,还能生成骨架关键点空间坐标序列,减少输入模型的冗余信息。
(2)本发明通过自定义HRI-GCN动作识别网络,解决了机器人无法预测与主动协助工人下一步任务的问题。HRI-GCN动作识别网络使用连续动作过程中骨骼关键点的位置变化作为输入,实现操作动作的动态识别,且利用循环神经网络的时序特性,完成对工人操作过程中早期动作的预测,识别工人下一步动作意图,进一步提高动作识别准确率和协作的效率。
(3)本发明通过制作人类动作和机器人任务对照表的方法,解决了在协作任务中,机器人和人的任务相对独立,难以发挥人机协同优势的问题。通过将装配流程分解为子装配任务以及单步操作任务,并按照工作特性进行分配。制作工人操作任务和机器人任务分工对照表,实现机器人识别操作人员意图后主动协助下一步装配的目的,提高了协作的灵活性和生产的效率。
本发明提出的一种基于神经网络的人机协作系统动作识别方法,可以显著提高动作识别的准确性,以及人机协同装配的效率,并且可以推广到更多人机协同操作领域。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于神经网络的人机协作系统动作识别方法整体流程图。
图2为本发明基于神经网络的人机协作系统动作识别方法实施示意图。
图3为本发明基于神经网络的人机协作系统动作识别方法多视角动作采集相机布置示意图。
图4本发明基于神经网络的人机协作系统动作识别方法中HRI-GCN模型的结构图。
图5本发明基于神经网络的人机协作系统动作识别方法中网络模型AGCN与LSTM模块的结构图。
图6本发明基于神经网络的人机协作系统动作识别方法执行流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一:
本实施例提供一种基于神经网络的人机协作方法,参见图2,包括:
步骤一:从多个视角获取人机协作操作任务中人体操作的视频数据,对不同视角的两组视频数据,分别利用2D骨骼关键点识别模型openpose完成骨骼关键点识别;
步骤二:将识别得到的两组不同视角坐标下的骨架空间坐标,融合重构后得到完整准确的人体骨架关键点空间坐标序列;
步骤三:将人体骨架关键点空间坐标序列输入训练好的自定义HRI-GCN动作识别网络进行动作预测与识别;
步骤四:依据协作任务,制定工作流程以及人机任务对应表;
步骤五:根据识别得到的动作类别,以及设定的协作任务流程和人机任务对应表,指定机器人传递下一步所需的工件或工具;
HRI-GCN动作识别网络基于图卷积网络GCN、长短周期记忆网络LSTM和注意力机制构建。
实施例二:
本实施例提供一种基于神经网络的人机协作方法,参见图1和图2,本实施例的方法包括神经网络的训练过程和利用训练完成的神经网络进行人机协作的过程,具体的实施步骤如下:
步骤1:利用多路RGB相机在不同视角拍摄人机协作操作任务中人体操作的视频数据,并将采集到的视频帧数进行标准化处理,以动作标签命名保存;
步骤2:对步骤1中收集的不同视角人体动作视频,利用2D骨骼关键点识别模型openpose分别完成骨骼关键点识别,最后利用关键点对应关系,重构人体骨架的空间三维信息,储存为数组,完成数据集的初步建立;
步骤3:将步骤2中得到的不同动作对应的骨骼关键点空间坐标数据构建成人体动作骨架数据集,并将其按8:2的比例分割成训练集与测试集;
步骤4:拍摄并识别无动作时各骨架关键点坐标作为基准,将数据集中的空间坐标与无动作时基准坐标进行做差,获得特征向量数组并选择合理阈值利用阈值剔除干扰数据;
步骤5:利用图卷积网络GCN(Graph Convolutional Networks),长短周期记忆网络LSTM(long short term memory)和注意力机制,构建自定义的用于预测和识别人体动作的HRI-GCN动作识别网络模型;
本实施例中的HRI-GCN网络模型,主要结构如表1所示:
表1HRI-GCN网络模型的主要结构
Figure BDA0004097126280000071
如表1所示,本实施例中设计的HRI-GCN动作识别网络模型的主要特征如下:首先,为了有效地提取动作的时空特征,将10个STunit单元依次连接,实现模型的深化提取更深层次的时空特征。
其次,将注意力机制加入图卷积网络,实现对非直接相邻的关节点间的空间特征提取,增加模型提取不同动作对应关节点空间变化特征的能力。
最后,由于在模型构建时减少了通道的数量,为了保证模型的性能,在输入部分使用了一个批量归一化(batch normalization)层对数据进行归一化,特征提取部分连续使用包括10个STunit单元,每个单元中包含一个图卷积层和一个池化层。输出阶段网络通过一个全连接层将抽象的特征向量映射为预测的类别标签,输出的维度是类别。
步骤6:采用步骤3中得到的处理后的训练集训练步骤5中得到的HRI-GCN神经网络模型,直至模型收敛,训练过程包括:
步骤61:用邻接矩阵Ak和度矩阵Dk代表骨骼关键点的各关键点空间位置、节点间拓扑关系,将代表运动运动的骨骼关键点空间位置信息、拓扑连接关系构建成训练数据集;
步骤62:基于HRI-GCN动作识别网络,建立用于提取骨骼关键点空间变化特征的AGCN模块与用于预测和提取时序特征的LSTM模块,AGCN模块的输入为4维结构矩阵[N*M,C,T,V],LSTM模块的输入同样为4维结构矩阵[N*M,C,T,V],但只对T进行时序信息的提取操作;AGCN与LSTM模块的输出均保持原结构,为4维结构矩阵[N*M,C,T,V];最后连接全连接层FC1和softmax分类器,输出动作标签。
其中,在4维结构矩阵[N*M,C,T,V]中N是批量大小,M是人数,C是输入通道数,T是时间步数,V是骨骼关键点数;
步骤63:为HRI-GCN动作识别网络划分训练集和测试集:将数据集按8:2比例分割为训练集和测试集;
步骤64:定义训练过程中的性能表征,即HRI-GCN动作识别网络的损失函数、准确率函数与召回率函数;
步骤65:利用步骤63中获得的训练集,训练步骤62中所定义的HRI-GCN动作识别网络,直至模型收敛,然后在测试集上进行测试模型性能;在训练过程中采用步骤64中定义的损失函数以及准确率函数评价模型的性能。
进一步的,HRI-GCN模型采用交叉熵函数(Cross Entropy Loss Function)作为损失函数,包括:
Figure BDA0004097126280000081
其中,N代表训练过程中所用的总样本数,M代表需要预测和识别的动作种类,yik为代表目标动作的符号函数,pik代表最终全连接层输出的样本i属于动作类别k的概率。
进一步的,HRI-GCN模型的准确率函数为:
Figure BDA0004097126280000082
Figure BDA0004097126280000083
其中,TP代表某类动作识别正确的数目,FP代表某类动作识别错误的数目M代表需要预测和识别的动作种类,Pk代表某类动作识别的准确率,Wk代表该类动作数据占整体数据的权重。
进一步的,AGCN模块与LSTM模块采用ReLU函数作为激活函数。
步骤7:利用摄像头实时采集操作人员动作,转化为骨架数据,输入训练完成的HRI-GCN网络进行动作预测与识别;
步骤8:依据协同装配任务,制定装配工作流程以及人机任务分配表:
进一步的,步骤8中制定人机任务对应表包括:
步骤81:为人机协作任务,制定工作流程,划分人的工作任务和机器人的协作任务;
步骤82:将人工作任务中的动作与机器人需要进行协作进行的动作,如传递工件或工具进行对应,将动作对应的识别标签对应机器人协作任务,形成人机任务对应表。
步骤9:根据识别得到的动作类别预测下一步意图,然后根据设定的人机任务分配表,指定机器人传递下一步所需的工件或工具。
本实施例通过采用双视角RBG视频数据采集,配合骨骼关键点识别算法将骨骼关键点信息融合重构的方法,解决单路相机采集动作信号视角不全易受遮挡的问题,减少环境信息干扰。通过两个不同视角RGB相机采集视频数据,配合骨骼关键点识别算法,对两个角度的视频数据进行骨架信息的识别并且融合重构获取完整的人体骨架3维的空间坐标。不仅能有效避免单路相机视角不全产生遮挡和工业环境下环境光照的干扰,还能生成骨架关键点空间坐标序列减少输入模型的冗余信息。
本实施例通过自定义的HRI-GCN动作识别网络,解决了机器人仅限于在工人的操作下完成当前任务,机器人无法预测或主动协助下一步任务的问题。HRI-GCN动作识别网络使用连续动作过程中骨骼关键点的位置变化作为输入,实现操作动作的动态识别,且利用循环神经网络的时序特性,完成对工人操作过程中早期动作的预测,识别工人下一步动作意图,进一步提高动作识别准确率和协作的效率。
本实施例通过制作人类动作和机器人任务对照表的方法,解决了在协作任务中,机器人和人的任务相对独立,难以达到高效协作所需要的人机协同任务分配的问题。通过将装配流程分解为子装配任务以及单步操作任务,制作工人操作任务和机器人任务对照表,实现机器人识别操作人员意图后主动协助下一步装配的目的,提高了协作的灵活性和生产的效率。
本实施例提出的一种基于神经网络的人机协作系统动作识别方法,可以显著提高动作识别的准确性,以及人机协同装配的效率,并且可以推广到更多人机协同操作领域。
实施例三:
本实施例提供一种基于神经网络的人机协作系统,如图2所示,包括:多视角动作采集模块,其利用双视角布置RGB相机对工人的操作动作视频数据进行骨架信息的采集和融合;动作意图识别模块,其由数据处理部分和HRI-GCN动作识别网络组成;意图预测及任务分配模块由动作预测,任务分配以及动作规划三个部分来组成;通过多视角动作采集模块、动作意图识别模块、意图预测及任务分配模块等三个模块的信息处理,获取机器人的控制指令,最终输入人机协作模块执行,完成高效的人机协作。
多视角动作采集模块具体用于:多视角获取工人的操作视频,避免动作的遮挡。进一步包括:在正面和侧面分别采集工人操作时的运动数据;利用相机标定过程中获取的主视图采集相机和辅助视图采集相机基准坐标系的空间位置相对关系,完成坐标系的重构。
动作意图识别模块中的数据处理部分具体用于:工人运动过程中骨骼关键点空间坐标的获取。进一步包括:将获取的双路动作信号输入2D人体骨骼关键点识别算法,分别获取两个不同视角下,工人骨骼关键点在各相机基准坐标系下的空间位置,通过关键点对应,以及两基准坐标在空间中的相对位置关系,将两组坐标转换到相同的世界坐标系下,补全因遮挡而丢失或误判的点,最后进行均值滤波,获得相对纯净的骨架关键点空间坐标。
动作意图识别模块中的HRI-GCN动作识别网络具体用于:工人动作的识别和下一步动作意图的预测。进一步包括:将获取到的骨架关键点空间坐标序列,输入HRI-GCN网络,通过STunit单元对输入序列进行时空特征提取,并输出最终的预测识别特征向量值,其中所描述的特征向量值包括识别得到输入动作属于各类动作的概率,可获得当前动作和下一步动作的意图。
意图预测及任务分配模块具体用于:根据工人动作过程中的早期特征,预测出工人下一步的动作意图,并依照人机任务分配表,完成机器人任务的分配。进一步包括:依据装配步骤中每一步的工作特性,将其分解为工人操作的任务和相应的机器人辅助任务,形成人机任务分配表。在获得人操作的当前动作和下一步的工作意图之后,根据人机任务分配表,选择最适合当前工况的机器人任务,根据任务内容规划机器人运动轨迹。
人机协作模块具体用于:根据规划完成的机器人运动轨迹,生成机器人运动指令,机器人传递工具或工件给操作人员,完成人机协作。
本发明实施例中的部分步骤,可以利用软件实现,相应的软件程序可以存储在可读取的存储介质中,如光盘或硬盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于神经网络的人机协作方法,其特征在于,所述方法包括:
步骤一:从多个视角获取人机协作操作任务中人体操作的视频数据,对不同视角的多组视频数据,分别利用2D骨骼关键点识别模型openpose完成骨骼关键点识别;
步骤二:将识别得到的多组不同视角坐标下的骨架空间坐标,融合重构后得到完整准确的人体骨架关键点空间坐标序列;
步骤三:将所述人体骨架关键点空间坐标序列输入训练好的自定义HRI-GCN动作识别网络进行动作预测与识别;
步骤四:依据协作任务,制定工作流程以及人机任务对应表;
步骤五:根据识别得到的动作类别,以及设定的协作任务流程和人机任务对应表,指定机器人传递下一步所需的工件或工具;
所述HRI-GCN动作识别网络基于图卷积网络GCN、长短周期记忆网络LSTM和注意力机制构建。
2.根据权利要求1所述的基于神经网络的人机协作方法,其特征在于,所述HRI-GCN动作识别网络的构建过程包括:
步骤21:用骨骼关键点的空间坐标多维数组作为图卷积层GCN网络的原始输入,将骨骼关键点作为图的节点,将其转化为邻接矩阵A和度矩阵D作为提取空间特征的图卷积的输入;
步骤22:在图卷积层GCN网络中加入了注意力机制,形成AGCN模块;
步骤23:将通过所述AGCN模块完成单帧空间特征提取的空间特征矩阵序列作为LSTM模块的输入,提取动作的时序特征;
步骤24:将空域图卷积AGCN模块与时域门控单元LSTM模块交替堆叠形成一个时空卷积单元STunit,所述HRI-GCN动作识别网络包括10个时空卷积单元STunit1-Stunit10以及最终一个全连接层FC1,最终连接softmax分类器构成动作识别网络;
所述AGCN模块的输入为4维结构矩阵[N*M,C,T,V],所述LSTM模块的输入同样为4维结构矩阵[N*M,C,T,V],但只对T进行时序信息的提取操作;所述AGCN模块与LSTM模块的输出均保持原结构,为4维结构矩阵[N*M,C,T,V];最后连接全连接层FC1和softmax分类器,输出动作标签;
其中,在4维结构矩阵[N*M,C,T,V]中N是批量大小,M是人数,C是输入通道数,T是时间步数,V是骨骼关键点数。
3.根据权利要求2所述的基于神经网络的人机协作方法,其特征在于,所述HRI-GCN动作识别网络的输入为人体骨骼点构成的动作矩阵序列,采用25×3矩阵表示人体骨架25个关键点的空间坐标;所述HRI-GCN动作识别网络的输出采用N×1矩阵表示输入属于某种动作的概率。
4.根据权利要求2所述的基于神经网络的人机协作方法,其特征在于,所述HRI-GCN动作识别网络中时空卷积单元STunit采用Relu函数作为激活函数。
5.根据权利要求2所述的基于神经网络的人机协作方法,其特征在于,所述HRI-GCN动作识别网络的训练过程包括:
步骤1:利用RGB相机拍摄在人机协作操作任务中人体操作的视频数据,并将采集到的视频帧数进行标准化处理,以动作标签命名保存;
步骤2:对所述步骤1中收集的人体动作视频,利用2D骨骼关键点识别模型openpose完成骨骼关键点识别,生成各个关键点的空间坐标数据,储存为数组,完成数据集的初步建立;
步骤3:将所述步骤2中得到的不同动作对应的骨骼关键点空间坐标数据构建成人体动作骨架数据集;
步骤4:拍摄并识别无动作时各骨架关键点坐标作为基准,将数据集中的空间坐标与无动作时基准坐标进行做差,获得特征向量数组并选择合理阈值利用阈值剔除干扰数据;
步骤5:用邻接矩阵Ak和度矩阵Dk代表所述骨骼关键点的各关键点空间位置、节点间拓扑关系,将代表运动运动的骨骼关键点空间位置信息、拓扑连接关系构建成数据集;
步骤6:所述数据集按8:2比例分割为训练集和测试集;
步骤7:利用所述步骤6中获得的训练集,训练所述HRI-GCN动作识别网络,直至模型收敛,然后在测试集上进行测试模型性能。
6.根据权利要求5所述的基于神经网络的人机协作方法,其特征在于,所述HRI-GCN动作识别网络的损失函数为:
Figure FDA0004097126260000021
其中,N代表训练过程中所用的总样本数,M代表需要预测和识别的动作种类,yik为代表目标动作的符号函数,pik代表最终全连接层输出的样本i属于动作类别k的概率。
7.根据权利要求5所述的基于神经网络的人机协作方法,其特征在于,所述HRI-GCN动作识别网络的准确率函数为:
Figure FDA0004097126260000031
Figure FDA0004097126260000032
其中,TP代表某类动作识别正确的数目,FP代表某类动作识别错误的数目,M代表需要预测和识别的动作种类,Pk代表某类动作识别的准确率,Wk代表该类动作数据占整体数据的权重。
8.根据权利要求1所述的基于神经网络的人机协作方法,其特征在于,所述步骤四中依据协作任务,制定工作流程以及人机任务对应表的过程包括:
步骤41:为人机协作任务,制定工作流程,划分人的工作任务和机器人的协作任务;
步骤42:将人工作任务中的动作与机器人需要进行协作进行的动作,如传递工件或工具进行对应,将动作对应的识别标签对应机器人协作任务,形成人机任务分配表。
9.一种基于神经网络的人机协作系统,其特征在于,用于实现权利要求1-8任一项所述的基于神经网络的人机协作方法,包括:
多视角动作采集模块,用于从多个角度采集操作人员的动作视频;
动作意图识别模块,基于所述操作人员的动作视频获取骨骼关键点空间坐标序列,并将序列输入所述HRI-GCN动作识别网络,输出最终的预测识别特征向量值,所述特征向量值包括识别得到输入动作属于各类动作的概率;
意图预测及任务分配模块,用于根据意图识别结果和人机任务对应表,指定机器人传递下一步所需的工件或工具;
人机协作模块,根据所述意图预测及任务分配模块发出的指令,机器人传递工具或工件给操作人员。
10.根据权利要求9所述的基于神经网络的人机协作系统,其特征在于,所述多视角动作采集模块在正面和侧面分别采集工人操作时的动作数据。
CN202310168810.7A 2023-02-27 2023-02-27 基于神经网络的人机协作方法及人机协作系统 Pending CN116189054A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310168810.7A CN116189054A (zh) 2023-02-27 2023-02-27 基于神经网络的人机协作方法及人机协作系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310168810.7A CN116189054A (zh) 2023-02-27 2023-02-27 基于神经网络的人机协作方法及人机协作系统

Publications (1)

Publication Number Publication Date
CN116189054A true CN116189054A (zh) 2023-05-30

Family

ID=86442019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310168810.7A Pending CN116189054A (zh) 2023-02-27 2023-02-27 基于神经网络的人机协作方法及人机协作系统

Country Status (1)

Country Link
CN (1) CN116189054A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117576787A (zh) * 2024-01-16 2024-02-20 北京大学深圳研究生院 基于主动跟踪和自适应手势识别的交接方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114529984A (zh) * 2022-01-17 2022-05-24 重庆邮电大学 一种基于可学习pl-gcn和eclstm的骨骼动作识别方法
CN114821804A (zh) * 2022-05-18 2022-07-29 江苏奥斯汀光电科技股份有限公司 基于注意力机制的图卷积神经网络的动作识别方法
CN114882421A (zh) * 2022-06-01 2022-08-09 江南大学 一种基于时空特征增强图卷积网络的骨架行为识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114529984A (zh) * 2022-01-17 2022-05-24 重庆邮电大学 一种基于可学习pl-gcn和eclstm的骨骼动作识别方法
CN114821804A (zh) * 2022-05-18 2022-07-29 江苏奥斯汀光电科技股份有限公司 基于注意力机制的图卷积神经网络的动作识别方法
CN114882421A (zh) * 2022-06-01 2022-08-09 江南大学 一种基于时空特征增强图卷积网络的骨架行为识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
吴心筱等: "《视频中人的动作分析与识别》", 30 September 2019, 北京:北京理工大学出版社, pages: 262 - 264 *
张家想: "基于图卷积神经网络的人体骨架行为识别方法研究", 中国优秀硕士学位论文全文数据库 (信息科技辑), no. 02, 15 February 2023 (2023-02-15), pages 138 - 2034 *
杨忠等: "《高等学校人工智能教育丛书 人工智能及其应用》", 31 December 2022, 西安:西安电子科学技术大学出版社, pages: 147 - 152 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117576787A (zh) * 2024-01-16 2024-02-20 北京大学深圳研究生院 基于主动跟踪和自适应手势识别的交接方法、装置及设备
CN117576787B (zh) * 2024-01-16 2024-04-16 北京大学深圳研究生院 基于主动跟踪和自适应手势识别的交接方法、装置及设备

Similar Documents

Publication Publication Date Title
CN111243017B (zh) 基于3d视觉的智能机器人抓取方法
CN111968217B (zh) 基于图片的smpl参数预测以及人体模型生成方法
CN112990310A (zh) 服务于电力机器人的人工智能系统及方法
CN105867630A (zh) 机器人的手势识别方法及装置及机器人系统
CN110135249A (zh) 基于时间注意力机制和lstm的人体行为识别方法
CN110728183A (zh) 一种基于注意力机制的神经网络的人体动作识别方法
CN116630394B (zh) 一种三维建模约束的多模态目标物体姿态估计方法及系统
CN110135277B (zh) 一种基于卷积神经网络的人体行为识别方法
CN113538218B (zh) 基于位姿自监督对抗生成网络的弱配对图像风格迁移方法
CN114663514B (zh) 一种基于多模态稠密融合网络的物体6d姿态估计方法
CN108415386A (zh) 用于智能车间的增强现实系统及其工作方法
CN116189054A (zh) 基于神经网络的人机协作方法及人机协作系统
CN111914615A (zh) 基于立体视觉的消防区域可通过性分析系统
Li et al. RoadFormer: Duplex transformer for RGB-normal semantic road scene parsing
Fan et al. An integrated hand-object dense pose estimation approach with explicit occlusion awareness for human-robot collaborative disassembly
Zhang et al. Skeleton-RGB integrated highly similar human action prediction in human–robot collaborative assembly
CN113219926A (zh) 基于数字孪生系统的人机共融制造单元安全风险评估方法
CN114694174A (zh) 一种基于时空图卷积的人体交互行为识别方法
Yu et al. Co-NavGPT: Multi-robot cooperative visual semantic navigation using large language models
CN114511924A (zh) 基于自适应增广与表示学习的半监督骨骼动作识别方法
CN112069979B (zh) 一种实时动作识别人机交互系统
Wang et al. Combining ElasticFusion with PSPNet for RGB-D based indoor semantic mapping
CN110853099B (zh) 一种基于双Kinect相机的人机交互方法及系统
CN114800524B (zh) 一种人机交互协作机器人主动避碰的系统及方法
CN116363757A (zh) 一种基于自注意图卷积的骨骼和传感器双模态人体行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination