CN113139432B - 基于人体骨架和局部图像的工业包装行为识别方法 - Google Patents
基于人体骨架和局部图像的工业包装行为识别方法 Download PDFInfo
- Publication number
- CN113139432B CN113139432B CN202110320402.XA CN202110320402A CN113139432B CN 113139432 B CN113139432 B CN 113139432B CN 202110320402 A CN202110320402 A CN 202110320402A CN 113139432 B CN113139432 B CN 113139432B
- Authority
- CN
- China
- Prior art keywords
- skeleton
- data set
- video
- image
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000004806 packaging method and process Methods 0.000 title claims abstract description 23
- 230000006399 behavior Effects 0.000 claims abstract description 47
- 238000004519 manufacturing process Methods 0.000 claims abstract description 29
- 210000000707 wrist Anatomy 0.000 claims abstract description 16
- 230000009471 action Effects 0.000 claims abstract description 15
- 238000005520 cutting process Methods 0.000 claims abstract description 7
- 238000000605 extraction Methods 0.000 claims abstract description 5
- 210000004247 hand Anatomy 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 16
- 230000007246 mechanism Effects 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 8
- 230000015654 memory Effects 0.000 claims description 8
- 238000005096 rolling process Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 210000003857 wrist joint Anatomy 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims description 2
- 230000007787 long-term memory Effects 0.000 claims description 2
- 230000000644 propagated effect Effects 0.000 claims description 2
- 230000006403 short-term memory Effects 0.000 claims description 2
- 238000003860 storage Methods 0.000 claims description 2
- 238000012544 monitoring process Methods 0.000 abstract description 5
- 238000009776 industrial production Methods 0.000 abstract description 2
- 238000012858 packaging process Methods 0.000 abstract description 2
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012856 packing Methods 0.000 description 2
- 239000000779 smoke Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开基于人体骨架和局部图像的工业包装行为识别方法。首先使用AlphaPose对监控画面中的工人进行骨架提取,获得含有多个连续骨架信息的骨架序列,再将骨架序列数据输入至DGNN预测当前工人的行为,同时根据AlphaPose估计的骨骼关节中手腕的位置对原图进行裁剪并得到两个局部图像,并分别将对应数量的左右手的局部图像输入至A‑ResNet来获取特征矩阵,再分别将对应数量左右手的特征矩阵输入至LSTM进行分类。根据DGNN和LSTM的结果来判定两种不同的配件是否都已装箱成功。本发明解决了工业生产包装过程中装箱动作识别困难的问题,利用了局部图像视频,能够准确识别工人的生产行为。
Description
技术领域
本发明属于行为识别领域,特别是涉及基于人体骨架和局部图像的工业包装行为识别方法。
背景技术
随着国家大力倡导制造业智能化,许多大型工厂开始由传统制造向智能制造转型,视频监控是其中的必不可少的一部分,通过对车间的实时监控,收集生产数据,从而可以分析车间内的各种生产活动,以确保员工安全,防止生产步骤错误,提高生产效率。
近年来深度学习迅猛发展,目前已成功应用于计算机视觉,包括图像分类、对象检测和姿态估计等。行为识别是视频分析和智能监控领域的一项基本任务,作用是从视频中检测出正在发生的行为。由于深度学习的发展,它取得了极大的进展。当前主流的模型有基于双流网络的行为识别模型(Two-Stream CNN)和基于3D卷积神经网络是行为识别模型以及基于人体骨架的动作识别模型等。许多研究人员开始尝试如何在工业领域应用这些技术,来统计生产信息,以提高生产水平,促进产业发展。
但由于一些工厂环境复杂,现有的模型无法直接应用至某一特定生产场景,并且现有的公开数据集大多不是基于工业场景,工业数据集缺乏,采集数据集相对困难,导致想要训练一个准确度较高的模型尤为困难,且容易过拟合。而且在视频处理实际上计算效率很低最后,工业实际生产过程中往往由于遮挡、光线变化等原因,导致模型无法很好地识别出生产行为。且对于一些特殊的生产场景,现有主流模型无法做出准确的预测。
在某工厂的一个抽油烟机填料组装线中,工人需放置两种不同的配件(连接管道和纸箱工具,)到抽油烟机包装箱中,但工人在抓取过程中,经常会漏放某个配件,即进行伪装抓取(有抓取的动作却未放置配件)在这种场景下,现有的主流模型大多只能识别出工人的抓取动作,但无法识别出两个配件是否都放置成功,导致模型识别的准确度不高。
发明内容
本发明针对目前的技术的不足,提出一种称为基于人体骨架和局部图像的工业包装行为识别方法。
本发明方法的大体思想是:
首先使用姿态估计算法模型AlphaPose对监控画面中的工人进行骨架提取,获得含有多个连续骨架信息的骨架序列,再将骨架序列数据输入至一个有向图神经网络(DGNN)来预测当前工人的行为,同时根据AlphaPose估计的骨骼关节中手腕的位置对原图进行裁剪并得到两个局部图像(左手腕周围以及右手腕周围),并分别将对应数量的左右手的局部图像输入至一个融合注意力机制模块的分类网络A-ResNet来获取特征矩阵,再分别将对应数量左右手的特征矩阵输入至长短期记忆网络模型LSTM进行分类。根据DGNN和LSTM的结果来判定两种不同的配件是否都已装箱成功。
本发明方法的具体步骤是:
步骤(1)将从实际生产场景中获取大量生产视频,将这些视频制作为视频数据集。
步骤(2)利用步骤(1)中视频数据集,使用姿态估计算法模型AlphaPose对视频集中的工人进行骨架提取,获取骨架数据集。
步骤(3)利用步骤(2)制作的骨架数据集,对图卷积网络(DGNN)进行训练,使其能够准确地识别工人的生产行为。
步骤(4)根据步骤(2)得到的骨架数据,对骨骼关节中手腕的位置对原视频流中的每帧图像进行裁剪,得到局部图像视频数据集与局部图像数据集。
步骤(5)构建A-ResNet分类网络,利用步骤(4)得到的局部图像数据集,对网络进行训练。
步骤(6)使用步骤(5)构建的A-ResNet分类网络,删除最后一层,将其作为特征提取器,与长短期记忆网络模型LSTM连接,利用步骤(4)得到的局部图像视频数据集对LSTM网络进行训练。
步骤(7)利用训练好的各个模块,构建基于人体骨架和局部图像的识别模型,用于识别工人是否成功完成装箱。
本发明的另一个目的是提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现上述的方法。
本发明的又一个目的是提供一种机器可读存储介质,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现上述的方法。
本发明的有益效果:与现有的各种动作识别模型相比较,本发明所提供的基于人体骨架和局部图像的工业包装行为识别方法主要有几点创新:1)使用姿态估计算法AlphaPose与有向图神经网络(DGNN)来识别工人的行为;2)使用融合通道注意力机制的分类网络A-ResNet来提取局部图像视频的特征矩阵;3)使用长短期记忆网络模型LSTM对局部图像视频特征矩阵进行分类;4)结合工人动作识别和局部图像视频分类结果共同完成行为识别。
使用姿态估计算法AlphaPose的主要依据是可以提取工人的骨架数据,并配合图卷积网络(DGNN)能够很好地识别工人的行为,并且通过骨架数据获取工人左右手腕坐标来进行图像裁剪。使用融合通道注意力机制模块的分类网络能够增强模型的理解能力,更好地提取图像的特征矩阵,并通过长短期记忆网络模型LSTM对局部图像视频特征矩阵进行分类,在识别工人行为的同时,还能检测到工人手上是否有配件,能够有效识别“假装抓取”这一欺骗性行为。该模型的提出,很好地结合了行为识别和图像视频分类,并且该模型可以端到端的进行。
本发明解决了工业生产包装过程中装箱动作识别困难的问题,利用了局部图像视频,能够准确识别工人的生产行为。
附图说明
图1为本发明提出的模型方法的总体结构图。
图2为本发明提出的A-ResNet的网络结构图。
图3为本发明提出的通道注意力机制模块Atte的网络结构图
具体实施方式
下面结合具体实施例和附图对本发明做进一步的分析。
基于人体骨架和局部图像的工业包装行为识别方法,如图1包括以下步骤:
步骤(1)、将从实际生产场景中获取大量生产视频,将这些视频制作为带有行为标签的视频数据集,具体工作如下:
(1.1)将大量生产视频以一个行为周期为划分,切割为大量的较短的视频片段;
(1.2)对这些视频片段进行行为标签的分类标注,制作为视频数据集;
行为标签主要分为五种:全部抓取(对配件A、B进行包装)、部分抓取1(只对配件A进行包装)、部分抓取2(只对配件B进行包装)、伪装抓取(进行包装动作但未放置配件)、其它动作。配件A、B为相互配对的配件。
步骤(2)、并利用步骤(1)中视频数据集,使用姿态估计算法模型AlphaPose对视频集中的工人进行骨架提取,获取骨架数据集。具体工作如下:
(2.1)将视频数据集中每个数据(即一个视频片段)的所有帧转化为序列化的视频帧;
(2.2)对这些视频帧进行缩放处理,得到视频帧集合v={I1,I2,…It,…,In},其中It代表处于t时刻的帧,n代表这个视频片段的总帧数;
(2.3)把这些视频帧输入至AlphaPose模型进行前向传播,获得一系列骨架序列;
(2.4)按照上述的视频数据集的划分,将骨架序列制作为骨架数据集,并对其进行行为标签的分类标注,行为标签分为抓取、其他动作,其中抓取包括视频数据集行为标签的全部抓取、部分抓取1、部分抓取2与伪装抓取。骨架数据集中一个骨架序列长度为对应视频的总帧数。
(2.5)重复步骤(2.1)至(2.4),将所有的视频数据集制作为骨架数据集。
步骤(3)、利用步骤(2)制作的骨架数据集,对图卷积网络(DGNN)进行训练,使其能够准确地识别工人的生产行为,具体工作如下:
(3.1)载入已在Kinetics-Skeleton数据集上预训练的图卷积网络DGNN;
(3.2)根据步骤(2)制作的骨架数据集,微调图卷积网络DGNN,修改DGNN的最后一层全连接层,将全连接层的输出设定为分类类别数量,此处设为2(抓取和其他动作);
(3.3)使用步骤(2)制作的骨架数据集,对图卷积网络DGNN进行训练。批次大小设为64,使用随机梯度下降(SGD)和动量(0.9)作为优化策略,学习率初始化为0.1,在第30个轮次和第60个轮次减少10倍,共训练150个轮次。
步骤(4)、利用步骤(2)得到的骨架数据集,根据骨骼关节中手腕的位置对步骤(1)视频数据集中的原始图像进行裁剪,得到局部图像数据集与局部图像视频数据集,具体工作如下:
(4.1)根据步骤(2)得到的骨架数据集,获得工人左右手腕关节点在原始图像中的对应坐标(x0,y0);
(4.2)以坐标(x0,y0)为中心点,裁剪原始图像,大小设为224*224,得到包含左右手的局部图像;
(4.3)分别制作局部图像数据集与局部图像视频数据集,局部图像数据集的类别标签标注分为三类:配件A、配件B和其他。局部图像视频数据集与步骤(1)制作的视频数据集相对应,其中每一个数据的视频帧数量为步骤(1)制作的视频数据集的2倍(一张图像被分为两张左右手局部图像),局部图像视频数据集的类别标签标注分为四类:配件A(对应于部分抓取1)、配件B(对应于部分抓取2)、配件A和配件B(对应于全部抓取)、其他。
步骤(5)、构建融合注意力机制模块的分类网络A-ResNet,利用步骤(4)得到的局部图像数据集对网络进行训练,具体工作如下:
(5.1)构建A-ResNet分类网络(见图2),所述的A-ResNet分类网络是在现有ResNet18网络的基础上添加两个通道注意力机制模块;第一个通道注意力机制模块放置在ResNet18网络第一个卷积层之后,第二个通道注意力机制模块放置在ResNet18网络最后一层卷积层之后。
通道注意力机制模块Atte(见图3)构建如下:
设输入Atte模块的特征矩阵的通道数为m,Atte模块分为两个分支和一个融合模块;
第一个分支包括依次级联的平均池化层、卷积层、激活函数层、卷积层;
第一层为平均池化层,步长为1,第二层为卷积层,卷积核大小为1*1,输出通道数为输入通道数的1/16,即m/16,第三层为激活函数层ReLU层,第四层为卷积层,卷积核大小为1*1,输出通道数为m;
第二个分支包括依次级联的最大池化层、卷积层、激活函数层、卷积层;
第一层为最大池化层,步长为1,第二层为卷积层,卷积核大小为1*1,输出通道数为输入通道数的1/16,即m/16,第三层为激活函数层ReLU层,第四层为卷积层,卷积核大小为1*1,输出通道数为m。
融合模块将两个分支输出融合相加,输入至Sigmoid层,再输入至下一层;
(5.2)由于通道注意力模块,不会改变特征图的形状,因此可以将A-ResNet的部分网络模型参数初始化为在ImageNet数据集上预训练过的ResNet18的网络模型参数;
(5.3)根据步骤(4)得到局部图像数据集,微调分类网络A-ResNet,修改A-ResNet的最后一层,设定分类类别数量,此处设为3(配件A、配件B和其他);
(5.4)使用步骤(4)制作的局部图像数据集,对分类网络A-ResNet进行训练,批次大小设为32,使用Adam优化器,学习率初始化为3e-3,衰减因子设为0.7,共训练1000个轮次。
步骤(6)、使用步骤(5)获得的A-ResNet分类网络,删除最后一层,将其作为特征提取器,与长短期记忆网络模型LSTM连接,利用步骤(4)得到的局部图像视频数据集对LSTM网络进行训练,具体工作如下:
(6.1)使用步骤(5)获得的A-ResNet分类网络,删除最后的全连接层,冻结其所有参数,只将其作为特征提取器,在训练中不进行参数的更新;
(6.2)将步骤(6.1)得到的A-ResNet分类网络与长短期记忆网络模型LSTM连接,LSTM再连接一个全连接层,其中全连接层的输入设为LSTM最后一次的输出维度(此处为512),输出设为4(配件A、配件B、配件A和配件B、其他);
(6.3)使用步骤(4)制作的局部图像视频数据集,对步骤(6.2)中的模型进行训练,批次大小设为32,使用Adam优化器,学习率初始化为3e-3,衰减因子设为0.7,共训练1000个轮次。
步骤(7)、利用训练好的各个模块,构建基于人体骨架和局部图像的识别模型,用于识别工人是否成功完成装箱,具体步骤如下:
(7.1)将需要识别的视频片段转化为序列化的视频帧并进行缩放处理,得到视频帧集合;
(7.2)将所有视频帧输入至AlphaPose模型进行前向传播,获得一系列骨架序列S,单个视频帧前向传播过程可以表示为:
st=AlphaPose(It) (1)
st表示一个人体骨架,可表示为: 由两个值组成,表示第i帧图像中人体骨架第j个关节点在原图像中的坐标,/>表示每个关节点的置信度。一个骨架共有18个关节点,S由n个人体骨架组成,可表示为S={S1,S2,…,Sn};
(7.3)将(7.2)得到的骨架序列S输入至训练好的有向图神经网络(DGNN)进行前向传播,得到对应的行为判断P,可表示为:
P=DGNN(S) (2)
其中P是概率分布,可以表示为P={p1…,pk},在这个模型中k=2,即P={p1,p2},p1表示为装箱动作,p2表示其他动作。如果p1>p2,则输出F(P)为TRUE,否则输出F(P)为FALSE,公式可表示为:
(7.4)根据骨架序列中各个骨架的左右手腕关节位置对图像进行裁剪,得到两个固定大小局部图像,大小为224*224,共获取n张左手腕图片LI={li1,li2,…,lin}和n张右手腕图片RI={ri1,ri2,…,rin},其中lit,rit分别表示处于t时刻的左手腕局部图像和处于t时刻的右手腕局部图像,按照{li1,li2,…,lin,ri1,ri2,…,rin}的顺序重新排列,得到图像集合{il1,il2,…,ri2n};
(7.5)将图像集合{il1,il2,…,ri2n}输入至A-ResNet模型(删除最后的全连接层)中,,单个图像前向传播可表示为:
IRi=A-ResNet(ili),1≤i≤2n (4)
其中IRi表示为第i张图像输入至A-ResNet模型得到的特征矩阵。
(7.6)所有图片经过A-ResNet进行前向传播,得到序列{IR1,…,IRi,…IR2n};
(7.7)将序列{IR1,…,IRi,…IR2n}输入至LSTM,进行前向传播,结果可表示为:
其中IRi表示输入序列中第i个一维特征矩阵,表示LSTM中的学习函数,Oi表示输出结果中第i个输出的一维特征矩阵。
取最后的输出O2n,将其输入至LSTM全连接层中进行前向传播,得到分类结果P1,P1是概率分布,可以表示为P1={p11…,p1k},在这个模型中k=4,即P1={p11,p12,p13,p14},共有4个分类结果,p11表示为未检测到任何配件,p12表示为检测到配件A,p13表示为检测到配件B,p14表示为检测到配件A与配件B。如果p14最大,则LSTM模型的输出结果G(P1)为TRUE,否则输出G(P1)为FALSE,公式可表示为
其中Max(P1)表示P1概率分布中的最大值p1i。
(7.8)根据DGNN模型的预测结果F(P)以及LSTM的预测结果G(P1),来判断此次装箱是否成功将所有配件装入包装箱中:
OUT=F(P)&&G(P1) (7)
OUT为本模型的最终判定,若F(P)、G(P1)全部为TRUE,则OUT为TRUE,表示此次工人成功将所有配件装入包装箱中,否则OUT为FALSE,表示此次工人并未将所有配件装入包装箱中。
上述实施例并非是对于本发明的限制,本发明并非仅限于上述实施例,只要符合本发明要求,均属于本发明的保护范围。
Claims (8)
1.基于人体骨架和局部图像的工业包装行为识别方法,其特征在于包括以下步骤:
步骤(1)、制作带有行为标签的生产视频数据集;
步骤(2)、并利用步骤(1)中视频数据集,使用姿态估计算法模型AlphaPose对视频集中的工人进行骨架提取,获取骨架数据集;
步骤(3)、利用步骤(2)制作的骨架数据集,对图卷积网络进行训练,以实现识别工人的生产行为;
步骤(4)、利用步骤(2)得到的骨架数据集,根据骨骼关节中手腕的位置对步骤(1)视频数据集中的原始图像进行裁剪,得到局部图像数据集与局部图像视频数据集,并分别进行行为标签标注;
步骤(5)、构建融合注意力机制模块的分类网络A-ResNet,利用步骤(4)得到的局部图像数据集对网络进行训练;
所述的A-ResNet分类网络是在ResNet18网络的基础上添加两个通道注意力机制模块;第一个通道注意力机制模块放置在ResNet18网络第一个卷积层之后,第二个通道注意力机制模块放置在ResNet18网络最后一层卷积层之后;
步骤(6)、使用步骤(5)获得的A-ResNet分类网络,删除最后的全连接层,然后作为特征提取器;将该特征提取器与长短期记忆网络模型LSTM连接,构建基于人体骨架和局部图像的识别模型;并利用步骤(4)得到的局部图像视频数据集对LSTM网络进行训练;
步骤(7)、利用训练好的基于人体骨架和局部图像的识别模型,用于识别工人是否成功完成装箱。
2.根据权利要求1所述的基于人体骨架和局部图像的工业包装行为识别方法,其特征在于步骤(1)行为标签主要分为五种:全部抓取、部分抓取1、部分抓取2、伪装抓取、其它动作。
3.根据权利要求1所述的基于人体骨架和局部图像的工业包装行为识别方法,其特征在于步骤(2)具体工作如下:
(2.1)将视频数据集中每个数据的所有帧转化为序列化的视频帧;
(2.2)对这些视频帧进行缩放处理,得到视频帧集合v={I1,I2,…It,…,In},其中It代表处于t时刻的帧,n代表这个视频片段的总帧数;
(2.3)把这些视频帧输入至AlphaPose模型进行前向传播,获得一系列骨架序列;
(2.4)按照上述的视频数据集的划分,将骨架序列制作为骨架数据集,并对其进行行为标签的分类标注,行为标签分为抓取、其他动作,其中抓取包括视频数据集行为标签的全部抓取、部分抓取1、部分抓取2与伪装抓取;骨架数据集中一个骨架序列长度为对应视频的总帧数;
(2.5)重复步骤(2.1)至(2.4),将所有的视频数据集制作为骨架数据集。
4.根据权利要求1所述的基于人体骨架和局部图像的工业包装行为识别方法,其特征在于步骤(4)具体工作如下:
(4.1)根据步骤(2)得到的骨架数据集,获得工人左右手腕关节点在原始图像中的对应坐标(x0,y0);
(4.2)以坐标(x0,y0)为中心点,裁剪原始图像,得到包含左右手的局部图像;
(4.3)分别制作局部图像数据集与局部图像视频数据集,局部图像数据集的类别标签标注分为三类:配件A、配件B和其他;局部图像视频数据集与步骤(1)制作的视频数据集相对应,其中每一个数据的视频帧数量为步骤(1)制作的视频数据集的2倍,局部图像视频数据集的类别标签标注分为四类:配件A、配件B、配件A和配件B、其他。
5.根据权利要求1所述的基于人体骨架和局部图像的工业包装行为识别方法,其特征在于步骤(5)A-ResNet分类网络中通道注意力机制模块包括两个分支和一个融合模块,特征矩阵的通道数为m;
第一个分支包括依次级联的平均池化层、卷积层、激活函数层、卷积层;
第二个分支包括依次级联的最大池化层、卷积层、激活函数层、卷积层;
融合模块将两个分支输出融合相加,输入至Sigmoid层,再输入至下一层。
6.根据权利要求1所述的基于人体骨架和局部图像的工业包装行为识别方法,其特征在于步骤(7)具体如下:
(7.1)将需要识别的视频片段转化为序列化的视频帧并进行缩放处理,得到视频帧集合;
(7.2)将所有视频帧输入至AlphaPose模型进行前向传播,获得一系列骨架序列S,单个视频帧前向传播过程可以表示为:
st=AlphaPose(It) (1)
st表示一个人体骨架,可表示为: 由两个值组成,表示第i帧图像中人体骨架第j个关节点在原图像中的坐标,/>表示每个关节点的置信度;一个骨架共有18个关节点,S由n个人体骨架组成,可表示为S={S1,S2,…,Sn};
(7.3)将(7.2)得到的骨架序列S输入至训练好的有向图卷积网络进行前向传播,得到对应的行为判断P,可表示为:
P=DGNN(S) (2)
其中P是概率分布,可以表示为P={p1…,pk},在这个模型中k=2,即P={p1,p2},p1表示为装箱动作,p2表示其他动作;如果p1>p2,则输出F(P)为TRUE,否则输出F(P)为FALSE,公式可表示为:
(7.4)根据骨架序列中各个骨架的左右手腕关节位置对图像进行裁剪,得到两个固定大小局部图像,共获取n张左手腕图片LI={li1,li2,…,lin}和n张右手腕图片RI=ri1,ri2,…,rin},其中lit,rit分别表示处于t时刻的左手腕局部图像和处于t时刻的右手腕局部图像,按照{li1,li2,…,lin,ri1,ri2,…,rin}的顺序重新排列,得到图像集合{il1,il2,…,ri2n};
(7.5)将图像集合{il1,il2,…,ri2n}输入至删除最后全连接层的A-ResNet模型中,单个图像前向传播可表示为:
IRi=A-ResNet(ili),1≤i≤2n (4)
其中IRi表示为第i张图像输入至A-ResNet模型得到的特征矩阵;
(7.6)所有图片经过A-ResNet进行前向传播,得到序列{IR1,…,IRi,…IR2n};
(7.7)将序列{IR1,…,IRi,…IR2n}输入至LSTM,进行前向传播,结果可表示为:
其中IRi表示输入序列中第i个一维特征矩阵,表示LSTM中的学习函数,Oi表示输出结果中第i个输出的一维特征矩阵;
将最后的输出O2n输入至LSTM全连接层中进行前向传播,得到分类结果P1,P1={p11…,p1k},其中k=4,即P1={p11,p12,p13,p14},p11表示为未检测到任何配件,p12表示为检测到配件A,p13表示为检测到配件B,p14表示为检测到配件A与配件B;如果p14最大,则LSTM模型的输出结果G(P1)为TRUE,否则输出G(P1)为FALSE,公式可表示为
其中Max(P1)表示P1概率分布中的最大值p1i;
(7.8)根据DGNN模型的预测结果F(P)以及LSTM的预测结果G(P1),来判断此次装箱是否成功将所有配件装入包装箱中:
OUT=F(P)&&G(P1) (7)
OUT为最终判定结果,若F(P)、G(P1)全部为TRUE,则OUT为TRUE,表示此次工人成功将所有配件装入包装箱中,否则OUT为FALSE,表示此次工人并未将所有配件装入包装箱中。
7.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现权利要求1-6任一项所述的方法。
8.一种机器可读存储介质,其特征在于,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110320402.XA CN113139432B (zh) | 2021-03-25 | 2021-03-25 | 基于人体骨架和局部图像的工业包装行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110320402.XA CN113139432B (zh) | 2021-03-25 | 2021-03-25 | 基于人体骨架和局部图像的工业包装行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113139432A CN113139432A (zh) | 2021-07-20 |
CN113139432B true CN113139432B (zh) | 2024-02-06 |
Family
ID=76810466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110320402.XA Active CN113139432B (zh) | 2021-03-25 | 2021-03-25 | 基于人体骨架和局部图像的工业包装行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113139432B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116562338B (zh) * | 2022-01-27 | 2024-09-13 | 美的集团(上海)有限公司 | 多分支卷积结构、神经网络模型及其确定方法、确定装置 |
CN116756667B (zh) * | 2023-08-18 | 2023-12-12 | 北京九叁有方物联网科技有限公司 | 一种具有行为识别功能的宠物穿戴式设备及其识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111160164A (zh) * | 2019-12-18 | 2020-05-15 | 上海交通大学 | 基于人体骨架和图像融合的动作识别方法 |
CN111967379A (zh) * | 2020-08-14 | 2020-11-20 | 西北工业大学 | 一种基于rgb视频和骨架序列的人体行为识别方法 |
-
2021
- 2021-03-25 CN CN202110320402.XA patent/CN113139432B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111160164A (zh) * | 2019-12-18 | 2020-05-15 | 上海交通大学 | 基于人体骨架和图像融合的动作识别方法 |
CN111967379A (zh) * | 2020-08-14 | 2020-11-20 | 西北工业大学 | 一种基于rgb视频和骨架序列的人体行为识别方法 |
Non-Patent Citations (1)
Title |
---|
基于CNN与双向LSTM的行为识别算法;吴潇颖;李锐;吴胜昔;;计算机工程与设计(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113139432A (zh) | 2021-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298404B (zh) | 一种基于三重孪生哈希网络学习的目标跟踪方法 | |
CN110728209B (zh) | 一种姿态识别方法、装置、电子设备及存储介质 | |
CN109948475B (zh) | 一种基于骨架特征和深度学习的人体动作识别方法 | |
CN103679674B (zh) | 一种无人飞行器实时图像拼接方法及系统 | |
CN108830215B (zh) | 基于人员骨架信息的危险行为识别方法 | |
CN111161315B (zh) | 一种基于图神经网络的多目标跟踪方法和系统 | |
CN110569901A (zh) | 一种基于通道选择的对抗消除弱监督目标检测方法 | |
CN113139432B (zh) | 基于人体骨架和局部图像的工业包装行为识别方法 | |
CN109766873B (zh) | 一种混合可变形卷积的行人再识别方法 | |
CN113128424B (zh) | 基于注意力机制的图卷积神经网络动作识别方法 | |
CN113343901A (zh) | 基于多尺度注意力图卷积网络的人体行为识别方法 | |
CN108805151B (zh) | 一种基于深度相似性网络的图像分类方法 | |
CN110390308B (zh) | 一种基于时空对抗生成网络的视频行为识别方法 | |
CN111046821A (zh) | 一种视频行为识别方法、系统及电子设备 | |
CN116343330A (zh) | 一种红外-可见光图像融合的异常行为识别方法 | |
CN115248876B (zh) | 基于内容理解的遥感影像统筹推荐方法 | |
CN113405667A (zh) | 基于深度学习的红外热人体姿态识别方法 | |
CN116343334A (zh) | 融合关节捕捉的三流自适应图卷积模型的动作识别方法 | |
CN111738074B (zh) | 基于弱监督学习的行人属性识别方法、系统及装置 | |
CN115375672A (zh) | 一种基于改进型YOLOv4算法的煤矸检测方法 | |
CN112990154A (zh) | 一种数据处理方法、计算机设备以及可读存储介质 | |
CN112446253B (zh) | 一种骨架行为识别方法及装置 | |
CN112288809A (zh) | 一种用于多物体复杂场景的机器人抓取检测方法 | |
Gopal et al. | Tiny object detection: Comparative study using single stage CNN object detectors | |
CN110348395B (zh) | 一种基于时空关系的骨架行为识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |