CN116665312A - 一种基于多尺度图卷积神经网络的人机协作方法 - Google Patents
一种基于多尺度图卷积神经网络的人机协作方法 Download PDFInfo
- Publication number
- CN116665312A CN116665312A CN202310959781.6A CN202310959781A CN116665312A CN 116665312 A CN116665312 A CN 116665312A CN 202310959781 A CN202310959781 A CN 202310959781A CN 116665312 A CN116665312 A CN 116665312A
- Authority
- CN
- China
- Prior art keywords
- human
- skeleton
- data
- neural network
- scale
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 21
- 230000006399 behavior Effects 0.000 claims abstract description 52
- 230000003993 interaction Effects 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 16
- 238000004891 communication Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 230000010391 action planning Effects 0.000 claims abstract description 4
- 238000013135 deep learning Methods 0.000 claims abstract description 4
- 230000009471 action Effects 0.000 claims description 30
- 239000011159 matrix material Substances 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 230000002776 aggregation Effects 0.000 claims description 6
- 238000004220 aggregation Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000004519 manufacturing process Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 claims description 5
- 230000002123 temporal effect Effects 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000006116 polymerization reaction Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 2
- 101150050759 outI gene Proteins 0.000 claims description 2
- 230000007547 defect Effects 0.000 abstract description 2
- 230000003252 repetitive effect Effects 0.000 abstract 1
- 230000000875 corresponding effect Effects 0.000 description 9
- 238000003062 neural network model Methods 0.000 description 7
- 241000282412 Homo Species 0.000 description 4
- 210000000988 bone and bone Anatomy 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003930 cognitive ability Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Manipulator (AREA)
Abstract
本发明公开了一种基于多尺度图卷积神经网络的人机协作方法;该方法包括如下步骤:S1、数据采集:采集人机协作场景人体骨架数据集,并进行预处理,获取预处理数据;S2、模型训练:加载预处理数据。通过训练多尺度图卷积神经网络,获取人体行为识别网络模型;S3、人体行为识别:通过训练好的深度学习网络模型,预测人体行为;S4、人机交互:利用通信算法将预测信息发送到机器人系统,机器人基于人体行为做出动作规划。本发明的一种多尺度图卷积神经网络的人机协作方法,能够实现在真实场景机器人对人体行为及意图的预测,并做出正确交互,从而弥补传统机器人只能完成重复性工作的不足。
Description
技术领域
本发明涉及机器人及计算机视觉领域,确切地说是一种基于多尺度图卷积神经网络的人机协作方法。
背景技术
随着机器人技术的快速进步,机器人能够在各种具有挑战性的环境中毫不费力地操作,从而有效地解决了人力短缺的问题。然而,尽管机器人在自动化任务执行方面取得了显著进展,它们仍然严重依赖预编程来执行特定任务。这种依赖性可能会限制机器人的灵活性和执行那些对于人类来说相对容易的复杂动作的能力。因此,随着对机器人在复杂环境中执行精细和灵活任务的需求不断增加,人们越来越需要协作机器人来弥补人机交互方面的差距。
现有技术检索可知:CN113657349A-一种基于多尺度时空图卷积神经网络的人体行为识别方法,属于神经网络技术领域。该方法包括提取待识别的人体骨骼序列创建数据集并进行预处理;创建包含多尺度图卷积模块、多时长特征融合模块的深度神经网络模型,使模型更好的提取人体骨骼的空间特征和骨骼序列的时序特征;训练和测试所述深度神经网络,得到人体行为识别神经网络模型;利用训练好的模型对待识别的视频图像进行分类,输出分类结果。本发明提供的人体行为识别方法,能够使神经网络模型更好的提取骨骼序列的时空特征,实现人体行为的自动识别,提高人体行为识别准确率。
协作机器人是一类与人类一起工作的机器人,它们利用人类的认知能力来适应不断变化的情况,完成机器人难以独立完成的任务,从而帮助克服预编程的局限性。其中,人体行为识别技术发挥着至关重要的作用。
发明内容
鉴于以上问题,本发明提出一种基于多尺度图卷积神经网络的人机协作方法,以克服现有人机交互方法中存在的缺陷与不足。
为解决上述技术问题,本发明采用如下技术手段:
一种基于多尺度图卷积神经网络的人机协作方法;其特征在于:
该方法包括如下步骤:
S1、数据采集:采集人机协作场景人体骨架数据集,并进行预处理,获取预处理数据;
S2、模型训练:加载预处理数据。通过训练多尺度图卷积神经网络,获取人体行为识别网络模型;
S3、人体行为识别:通过训练好的深度学习网络模型,预测人体行为;
S4、人机交互:利用通信算法将预测信息发送到机器人系统,机器人基于人体行为做出动作规划。
作为优选,本发明更进一步的技术方案是:
所述的数据采集中,采集人机协作场景人体骨架数据集具体过程为:
步骤1:数据获取:使用RGB相机拍摄不同类别的人体动作视频,利用视频处理算法对获取到的视频降低分辨率至340*256,帧率为30帧;
步骤2:转化视频数据:为了扩充数据集,将每个数据集进行镜像处理,获取最终的人体行为视频数据;
步骤3:获取关键点:采用OpenPose提供的提取骨架API提取每个视频的人体骨架数据,并标记每个骨架的类别,其中每个人体骨架包含18个关键点;
步骤4:数据分类:将提取后的骨架数据中的80%作为训练数据集,20%作为测试数据集。
所述的模型训练中多尺度图卷积神经网络模型构建步骤为:
步骤1:构建图结构:对骨架数据构建图结构;
步骤2:构建人体行为识别网络:网络包含9个多尺度时空卷积块,每个块包含一个多尺度空间图卷积网络和一个时间注意力卷积网络;
步骤3:9个多尺度时空卷积块:前三个多尺度时空卷积块有64个输出通道,接下来的3层多尺度时空卷积块有128个输出通道,最后三层有256个输出通道;
步骤4:预测动作类别:输出使用全局池化并将获得的张量输入到具有与类别相同的输出通道数量的全连接层,最终预测出动作类别。
所述的构建图结构中对骨架数据构建图结构;骨架数据定义为每一帧骨架的二维坐标组成的向量序列;
骨架图的定义:,其中关节点集合/>表示/>个关节点的集合,关节点之间的骨架由无向边表示,组成边集合/>,代表人体的骨架结构;无向图的邻接矩阵/>, 当关节点/>和/>之间存在边时,/>,否则/>;
人体行为由一组骨架序列组成,因此骨架输入定义为矩阵:,其中/>为输入视频的帧数,/>为关节的数量(N=18),/>为特征向量的维度。
为聚合相邻节点的信息,可以将时间t的空间GCN定义为:
,
其中是一个具有附加自环的邻接矩阵,用于保持节点自身的特征;对角矩阵/>通过计算节点的度来获得,/>用于归一化A,/>为一个可学习的权重矩阵;节点邻居通过/>进行特征聚合,然后利用/>激活函数获得输出;
为聚合骨架多阶邻居节点的特征,创建多阶节点连接,将节点的高阶邻居合并到网络中;获得高阶邻居信息通过实现,其中/>。
为解决高阶多项式的多尺度聚合导致节点局部邻居权重过大的问题,对于高阶邻接矩阵,将大于1的替换为1,更新邻接矩阵/> ;因此多尺度策略变换为,以消除邻居节点加权过大的问题:
,
其中k决定尺度大小, 是标准化的最近邻。
所述的构建人体行为识别网络中时间注意力卷积网络,时间注意力模块为:对任何节点,存在时间序列向量/>,查询/>,键/>,值/>;
对于节点,第/>帧和第/>帧之间链接的权重可以通过点积进行评估;
为了获得一个节点的最终的时间注意力嵌入,首先将所有其他帧的值向量与相应评估分数/>相乘,然后用softmax函数对其进行缩放,并计算加权和,以获得每个节点的时间注意力嵌入/>,其中/>是输出通道的数量;
注意力嵌入表示为:
,
其中是键序列的维度,将评估分数除以/>以增加梯度稳定性;
在输入自注意模块之前,首先将输出转化为/>,其中B是输入的批量大小,此外批量大小B和关节数量V融和为一维;
然后将变换后的输出让如自注意力块中以获得注意嵌入;
然后使用2D卷积网络以t的窗口大小对每个节点执行时间上的特征聚合。
所述的人体行为识别中人体行为识别过程为:
步骤1:识别模型:基于模型训练中训练得到的人体行为识别模型:
步骤2:采集视频数据:使用RGB相机部署到生产环境中,采集生产环境中的视频数据;
步骤3:提取人体骨架:利用OpenPose中的骨架提取API提取视频中的人体骨架;
步骤4:输出预测结果:将骨架输入到模型中,并输出预测结果。
所述的人机交互的过程为:
步骤1:语言系统:人体识别模型基于python语言,机器人基于ROS系统;
步骤2:通信连接:利用Socket库中的UDP协议包,使计算机与机器人系统之间的通信连接;
步骤3:数据交互:将人体行为识别中人体识别模型预测的动作结果按照30帧视频帧率相同的速度发送给机器人系统,机器人系统建立UDP监听,接受计算机发送的类别信息;
步骤4:预定义设立:机器人根据人类动作类别做出交互,执行相应的交互动作。其中机器人交互动作为预定义。
本发明一种基于多尺度图卷积神经网络的人机协作方法。人体行为识别技术可以帮助机器人适应不断变化的工作环境。在复杂的环境中,任务和场景可能会随时发生变化,传统的预编程方法往往无法适应这种变化。但是,通过实时识别和分析人体行为,机器人可以快速适应环境变化,并采取相应的行动。这种灵活性使得机器人能够在动态和未知的情况下与人类协同工作,提高工作效率和任务完成率。
附图说明
图1为本发明的一种基于多尺度图神经网络的人机交互方法流程框图。
图2为人体行为识别骨架数据集合可视化。
具体实施方式
下面结合实施例,进一步说明本发明。
具体实施例1:
参见图1可知,本发明具体实施例:
如图1所示,一种基于多尺度图神经网络的人机交互方法,包括:
S1、采集人机协作场景人体骨架数据集,并进行预处理;
S2、模型训练,通过训练多尺度图卷积神经网络,获取人体行为识别网络模型;
S3、人体行为识别,通过训练好的深度学习网络模型,预测人体行为;
S4、人机交互,利用通信算法将预测信息发送到机器人系统,机器人基于人体行为做出动作规划。
所述S1的人体骨架数据集采集具体包括:
确定8个工业场景中的动作类别,分别为:1)静止不动;2)高举箱子;3)向前传递箱子;4)托举箱子;5)搬箱子;6)提起箱子;7)拉箱子;8)推箱子,使用RGB相机拍摄上述类别的人体动作视频,利用视频处理算法对获取到的视频降低分辨率至340*256,帧率为30帧,为了扩充数据集,再将每个数据集进行镜像处理,获取最终的人体行为视频数据,共1600个视频,采用OpenPose提供的提取骨架API提取每个视频的人体骨架数据,并标记每个骨架的类别,其中每个人体骨架包含18个关键点,采集后的人体骨架如图2所示,将提取后的骨架数据中的80%作为训练数据集,20%作为测试数据集。
所述S2的多尺度图卷积神经网络模型构建,具体包括:
首先对骨架数据构建图结构,然后构建人体行为识别网络,网络包含9个多尺度时空卷积块,每个块包含一个多尺度空间图卷积网络和一个时间注意力卷积网络,其中前三个多尺度时空卷积块有64个输出通道,接下来的3层多尺度时空卷积块有128个输出通道,最后三层有256个输出通道,最后的输出使用全局池化并将获得的张量输入到具有与类别相同的输出通道数量的全连接层,最终预测出动作类别。
骨架数据定义为每一帧骨架的二维坐标组成的向量序列,因此,骨架图的定义为:,其中关节点集合/>表示/>个关节点的集合,关节点之间的骨架由无向边表示,组成边集合/>,代表人体的骨架结构,无向图的邻接矩阵/>, 当关节点/>和/>之间存在边时,/>,否则/>,人体行为由一组骨架序列组成,因此骨架输入定义为矩阵:/>,其中/>为输入视频的帧数,/>为关节的数量(N=18),/>为特征向量的维度。为聚合相邻节点的信息,可以将时间t的空间GCN定义为:
,
其中是一个具有附加自环的邻接矩阵,用于保持节点自身的特征;对角矩阵/>通过计算节点的度来获得,/>用于归一化A,/>为一个可学习的权重矩阵;节点邻居通过/>进行特征聚合,然后利用/>激活函数获得输出。
为聚合骨架多阶邻居节点的特征,创建多阶节点连接,将节点的高阶邻居合并到网络中;获得高阶邻居信息通过实现,其中/>,为解决高阶多项式的多尺度聚合导致节点局部邻居权重过大的问题,对于高阶邻接矩阵,将大于1的/>替换为1,更新邻接矩阵/> ;因此多尺度策略变换为,以消除邻居节点加权过大的问题:
,
其中k决定尺度大小, 是标准化的最近邻。
时间注意力机制,对任何节点,存在时间序列向量/>,查询,键/>,值/>,对于节点/>,第/>帧和第/>帧之间链接的权重可以通过点积进行评估,为了获得一个节点的最终的时间注意力嵌入,首先将所有其他帧的值向量/>与相应评估分数/>相乘,然后用softmax函数对其进行缩放,并计算加权和,以获得每个节点的时间注意力嵌入/>,其中/>是输出通道的数量,注意力嵌入表示为:
,
其中是键序列的维度,将评估分数除以/>以增加梯度稳定性,在输入自注意模块之前,首先将输出/>转化为/>,其中B是输入的批量大小,此外批量大小B和关节数量V融和为一维。然后将变换后的输出让如自注意力块中以获得注意嵌入。然后使用2D卷积网络以t的窗口大小对每个节点执行时间上的特征聚合。
所述S3的人体行为识别,具体包括:
基于S2中训练得到的人体行为识别模型,使用RGB相机部署到生产环境中,采集生产环境中的视频数据,利用OpenPose中的骨架提取API提取视频中的人体骨架,然后将骨架输入到模型中,并输出预测结果。
所述S4人机交互,具体包括:
人体识别模型基于python语言,机器人基于ROS系统,利用Socket库中的UDP协议包,建议计算机与机器人系统之间的通信连接,将S3中人体识别模型预测的动作结果按照视频帧率(30)相同的速度发送给机器人系统, 机器人系统建立UDP监听,接受计算机发送的类别信息,机器人根据人类动作类别做出交互,执行相应的交互动作,其中机器人交互动作为预定义。
具体实施例2:
本专利的应用场景主要涉及在工厂等环境中,协作机器人与人类伙伴共同参与搬运物品,以实现解放劳动力的目的。具体应用场景是,在工厂或仓库环境中,机器人与人类伙伴一同参与物品搬运任务。机器人通过搭载摄像头,采集周围环境的信息,特别是人体的骨架序列。这些信息会被输入到专利中提出的多尺度图卷积神经网络中,进行人体行为识别。这样,机器人能够实时感知人类伙伴的动作意图,例如,双手向前递过箱子等动作。神经网络模型通过对人体动作的识别,能够准确判断人类伙伴的搬运意图。一旦机器人获取了人类伙伴的动作信息和意图,它会根据预测结果做出相应的交互动作规划。例如,机器人根据预测信息,判断人类伙伴将要将箱子移动到某个位置,机器人就会提前移动到相应的位置,以便从下方接过箱子。
具体实施例3:
本发明中提出的人体行为识别是基于多尺度图卷积神经网络对人体骨架序列进行分类实现的,以下是对人体行为识别实现过程的具体解释:
(1)采集数据集并提取骨架序列:首先,根据具体人机协作需求,采集包含不同人体动作的视频数据。然后,通过骨架提取算法从这些视频中提取出人体的骨架序列。将提取到的骨架序列标注为具体的动作类别,并将数据集划分为训练数据集和测试数据集;
(2)构建多尺度图卷积神经网络模型:这一步骤涉及设计多尺度图卷积神经网络,该网络是专门用于处理图像或骨架序列等结构化数据的神经网络。多尺度图卷积神经网络能够在不同尺度上捕捉图像或序列中的特征,从而更好地进行分类任务;
(3)训练神经网络模型:将采集到的骨架数据集输入到多尺度图卷积神经网络中,并通过反向传播算法对网络进行训练。在训练过程中,神经网络不断优化其参数和权重,以使其能够更准确地识别不同的人体动作类别。经过训练后,我们得到了一个训练好的网络模型;
(4)人体行为识别:在实际应用中,通过摄像机采集的人体骨架序列输入训练好的神经网络模型中,神经网络将输出对应的动作类别编号,实现对人体行为的识别。
具体实施例4:
具体的交互过程为,神经网络模型将预测的人体动作类别通过通讯协议传输给机器人系统。机器人系统根据人类伙伴的动作(例如,双手向前递过箱子)做出相应的交互动作(从下方接过箱子)。机器人的手臂运动过程如下:首先,根据人类的动作,确定机械手动作的目标点。然后,利用插值算法计算出运动轨迹,使机械手能够平滑地到达目标位置,从而完成交互动作。
由于以上所述仅为本发明的具体实施方式,但本发明的保护不限于此,任何本技术领域的技术人员所能想到本技术方案技术特征的等同的变化或替代,都涵盖在本发明的保护范围之内。
Claims (7)
1.一种基于多尺度图卷积神经网络的人机协作方法;其特征在于:
该方法包括如下步骤:
S1、数据采集:采集人机协作场景人体骨架数据集,并进行预处理,获取预处理数据;
S2、模型训练:加载预处理数据,通过训练多尺度图卷积神经网络,获取人体行为识别网络模型;
S3、人体行为识别:通过训练好的深度学习网络模型,预测人体行为;
S4、人机交互:利用通信算法将预测信息发送到机器人系统,机器人基于人体行为做出动作规划。
2.根据权利要求1所述的一种基于多尺度图卷积神经网络的人机协作方法,其特征在于:所述的数据采集中,采集人机协作场景人体骨架数据集具体过程为:
步骤1:数据获取:使用RGB相机拍摄不同类别的人体动作视频,利用视频处理算法对获取到的视频降低分辨率至340*256,帧率为30帧;
步骤2:转化视频数据:为了扩充数据集,将每个数据集进行镜像处理,获取最终的人体行为视频数据;
步骤3:获取关键点:采用OpenPose提供的提取骨架API提取每个视频的人体骨架数据,并标记每个骨架的类别,其中每个人体骨架包含18个关键点;
步骤4:数据分类:将提取后的骨架数据中的80%作为训练数据集,20%作为测试数据集。
3.根据权利要求1所述的一种基于多尺度图卷积神经网络的人机协作方法,其特征在于:所述的模型训练中多尺度图卷积神经网络模型构建步骤为:
步骤1:构建图结构:对骨架数据构建图结构;
步骤2:构建人体行为识别网络:网络包含9个多尺度时空卷积块,每个块包含一个多尺度空间图卷积网络和一个时间注意力卷积网络;
步骤3:9个多尺度时空卷积块:前三个多尺度时空卷积块有64个输出通道,接下来的3层多尺度时空卷积块有128个输出通道,最后三层有256个输出通道;
步骤4:预测动作类别:输出使用全局池化并将获得的张量输入到具有与类别相同的输出通道数量的全连接层,最终预测出动作类别。
4.根据权利要求3所述的一种基于多尺度图卷积神经网络的人机协作方法,其特征在于:所述的构建图结构中对骨架数据构建图结构;骨架数据定义为每一帧骨架的二维坐标组成的向量序列;
骨架图的定义:,其中关节点集合/>表示/>个关节点的集合,关节点之间的骨架由无向边表示,组成边集合/>,代表人体的骨架结构;无向图的邻接矩阵,当关节点/>和/>之间存在边时,/>,否则/>;
人体行为由一组骨架序列组成,因此骨架输入定义为矩阵:,其中/>为输入视频的帧数,/>为关节的数量(N=18),/>为特征向量的维度;
为聚合相邻节点的信息,可以将时间t的空间GCN定义为:
,
其中是一个具有附加自环的邻接矩阵,用于保持节点自身的特征;对角矩阵/>通过计算节点的度来获得,/>用于归一化A,/>为一个可学习的权重矩阵;节点邻居通过/>进行特征聚合,然后利用/>激活函数获得输出;
为聚合骨架多阶邻居节点的特征,创建多阶节点连接,将节点的高阶邻居合并到网络中;获得高阶邻居信息通过实现,其中/>,为解决高阶多项式的多尺度聚合导致节点局部邻居权重过大的问题,对于高阶邻接矩阵,将大于1的/>替换为1,更新邻接矩阵/>;因此多尺度策略变换为,以消除邻居节点加权过大的问题:
,
其中k决定尺度大小,是标准化的最近邻。
5.根据权利要求3所述的一种基于多尺度图卷积神经网络的人机协作方法,其特征在于:所述的构建人体行为识别网络中时间注意力卷积网络,时间注意力模块为:对任何节点,存在时间序列向量/>,查询/>,键/>,值/>;
对于节点,第/>和第/>帧之间链接的权重可以通过点积/>进行评估;
为了获得一个节点的最终的时间注意力嵌入,首先将所有其他帧的值向量与相应评估分数/>相乘,然后用softmax函数对其进行缩放,并计算加权和,以获得每个节点的时间注意力嵌入/>,其中/>是输出通道的数量;
注意力嵌入表示为:
,
其中是键序列的维度,将评估分数除以/>以增加梯度稳定性;
在输入自注意模块之前,首先将输出转化为/>,其中B是输入的批量大小,此外批量大小B和关节数量V融和为一维;
然后将变换后的输出让如自注意力块中以获得注意嵌入;
然后使用2D卷积网络以t的窗口大小对每个节点执行时间上的特征聚合。
6.根据权利要求1所述的一种基于多尺度图卷积神经网络的人机协作方法,其特征在于:所述的人体行为识别中人体行为识别过程为:
步骤1:识别模型:基于模型训练中训练得到的人体行为识别模型:
步骤2:采集视频数据:使用RGB相机部署到生产环境中,采集生产环境中的视频数据;
步骤3:提取人体骨架:利用OpenPose中的骨架提取API提取视频中的人体骨架;
步骤4:输出预测结果:将骨架输入到模型中,并输出预测结果。
7.根据权利要求1所述的一种基于多尺度图卷积神经网络的人机协作方法,其特征在于:所述的人机交互的过程为:
步骤1:语言系统:人体识别模型基于python语言,机器人基于ROS系统;
步骤2:通信连接:利用Socket库中的UDP协议包,使计算机与机器人系统之间的通信连接;
步骤3:数据交互:将人体行为识别中人体识别模型预测的动作结果按照30帧视频帧率相同的速度发送给机器人系统,机器人系统建立UDP监听,接受计算机发送的类别信息;
步骤4:预定义设立:机器人根据人类动作类别做出交互,执行相应的交互动作,其中机器人交互动作为预定义。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310959781.6A CN116665312B (zh) | 2023-08-02 | 2023-08-02 | 一种基于多尺度图卷积神经网络的人机协作方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310959781.6A CN116665312B (zh) | 2023-08-02 | 2023-08-02 | 一种基于多尺度图卷积神经网络的人机协作方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116665312A true CN116665312A (zh) | 2023-08-29 |
CN116665312B CN116665312B (zh) | 2023-10-31 |
Family
ID=87721053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310959781.6A Active CN116665312B (zh) | 2023-08-02 | 2023-08-02 | 一种基于多尺度图卷积神经网络的人机协作方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116665312B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117409483A (zh) * | 2023-12-13 | 2024-01-16 | 烟台大学 | 基于自适应联合时空图卷积的虚拟现实交互方法及系统 |
CN117409483B (zh) * | 2023-12-13 | 2024-06-07 | 烟台大学 | 基于自适应联合时空图卷积的虚拟现实交互方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113343901A (zh) * | 2021-06-28 | 2021-09-03 | 重庆理工大学 | 基于多尺度注意力图卷积网络的人体行为识别方法 |
CN113657349A (zh) * | 2021-09-01 | 2021-11-16 | 重庆邮电大学 | 一种基于多尺度时空图卷积神经网络的人体行为识别方法 |
CN114582030A (zh) * | 2022-05-06 | 2022-06-03 | 湖北工业大学 | 一种基于服务机器人的行为识别方法 |
CN114821640A (zh) * | 2022-04-12 | 2022-07-29 | 杭州电子科技大学 | 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法 |
CN114882421A (zh) * | 2022-06-01 | 2022-08-09 | 江南大学 | 一种基于时空特征增强图卷积网络的骨架行为识别方法 |
CN115273244A (zh) * | 2022-09-29 | 2022-11-01 | 合肥工业大学 | 基于图神经网络的人体动作识别方法和系统 |
CN115841697A (zh) * | 2022-09-19 | 2023-03-24 | 上海大学 | 一种基于骨架和图像数据融合的动作识别方法 |
CN116012950A (zh) * | 2023-02-15 | 2023-04-25 | 杭州电子科技大学信息工程学院 | 一种基于多重心时空注意图卷积网络的骨架动作识别方法 |
US20230134967A1 (en) * | 2019-10-09 | 2023-05-04 | Toyota Motor Europe | Method for recognizing activities using separate spatial and temporal attention weights |
CN116363757A (zh) * | 2023-04-04 | 2023-06-30 | 山东大学 | 一种基于自注意图卷积的骨骼和传感器双模态人体行为识别方法 |
-
2023
- 2023-08-02 CN CN202310959781.6A patent/CN116665312B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230134967A1 (en) * | 2019-10-09 | 2023-05-04 | Toyota Motor Europe | Method for recognizing activities using separate spatial and temporal attention weights |
CN113343901A (zh) * | 2021-06-28 | 2021-09-03 | 重庆理工大学 | 基于多尺度注意力图卷积网络的人体行为识别方法 |
CN113657349A (zh) * | 2021-09-01 | 2021-11-16 | 重庆邮电大学 | 一种基于多尺度时空图卷积神经网络的人体行为识别方法 |
CN114821640A (zh) * | 2022-04-12 | 2022-07-29 | 杭州电子科技大学 | 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法 |
CN114582030A (zh) * | 2022-05-06 | 2022-06-03 | 湖北工业大学 | 一种基于服务机器人的行为识别方法 |
CN114882421A (zh) * | 2022-06-01 | 2022-08-09 | 江南大学 | 一种基于时空特征增强图卷积网络的骨架行为识别方法 |
CN115841697A (zh) * | 2022-09-19 | 2023-03-24 | 上海大学 | 一种基于骨架和图像数据融合的动作识别方法 |
CN115273244A (zh) * | 2022-09-29 | 2022-11-01 | 合肥工业大学 | 基于图神经网络的人体动作识别方法和系统 |
CN116012950A (zh) * | 2023-02-15 | 2023-04-25 | 杭州电子科技大学信息工程学院 | 一种基于多重心时空注意图卷积网络的骨架动作识别方法 |
CN116363757A (zh) * | 2023-04-04 | 2023-06-30 | 山东大学 | 一种基于自注意图卷积的骨骼和传感器双模态人体行为识别方法 |
Non-Patent Citations (4)
Title |
---|
TIANYI WANG 等: "Temporal Enhanced Multi-Stream Graph Convolutional Nerual Networks For Skeleton-Based Action Recognition", 《2021 CHINA AUTOMATION CONGRESS (CAC)》 * |
董安 等: "基于图卷积的骨架行为识别", 现代计算机, no. 02 * |
解怀奇;乐红兵;: "基于通道注意力机制的视频人体行为识别", 电子技术与软件工程, no. 04 * |
黄科: ""基于骨架的人体动作识别研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117409483A (zh) * | 2023-12-13 | 2024-01-16 | 烟台大学 | 基于自适应联合时空图卷积的虚拟现实交互方法及系统 |
CN117409483B (zh) * | 2023-12-13 | 2024-06-07 | 烟台大学 | 基于自适应联合时空图卷积的虚拟现实交互方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116665312B (zh) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107194559B (zh) | 一种基于三维卷积神经网络的工作流识别方法 | |
Wang et al. | Deep learning-based human motion recognition for predictive context-aware human-robot collaboration | |
Liu et al. | A digital twin-based sim-to-real transfer for deep reinforcement learning-enabled industrial robot grasping | |
Kim et al. | Transfer learning for automated optical inspection | |
CN109483573A (zh) | 机器学习装置、机器人系统以及机器学习方法 | |
CN112163537B (zh) | 一种行人异常行为检测方法、系统、终端以及存储介质 | |
CN112131908A (zh) | 基于双流网络的动作识别方法、装置、存储介质及设备 | |
Li et al. | A novel spatial-temporal graph for skeleton-based driver action recognition | |
Tang et al. | Learning collaborative pushing and grasping policies in dense clutter | |
KR20180123810A (ko) | X-Ray 의료 영상 판독을 위한 데이터 심화학습 처리 기술 및 그 방법 | |
Zhang et al. | Skeleton-RGB integrated highly similar human action prediction in human–robot collaborative assembly | |
Ali et al. | Deep Learning Algorithms for Human Fighting Action Recognition. | |
CN113326932B (zh) | 基于物体检测的物体操作指令跟随学习方法及装置 | |
Wu et al. | A cascaded CNN-based method for monocular vision robotic grasping | |
CN110977966A (zh) | 一种基于虚拟场景训练的机器人避障方法 | |
Ji et al. | A Computer Vision-Based Model for Automatic Motion Time Study. | |
CN116665312B (zh) | 一种基于多尺度图卷积神经网络的人机协作方法 | |
Cai et al. | CCAN: Constraint co-attention network for instance grasping | |
Liu et al. | Sim-and-real reinforcement learning for manipulation: A consensus-based approach | |
Gao et al. | Development of an automated system for the soldering of USB cables | |
CN112651294A (zh) | 基于多尺度融合的遮挡人体姿势识别方法 | |
Rodrigues et al. | Modeling and assessing an intelligent system for safety in human-robot collaboration using deep and machine learning techniques | |
Bhise et al. | Review on deep learning-based plant disease detection | |
Kim et al. | Digital twin for autonomous collaborative robot by using synthetic data and reinforcement learning | |
Molina-Cabello et al. | Neural controller for PTZ cameras based on nonpanoramic foreground detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |