CN114155610B

CN114155610B - 基于上半身姿态估计的面板装配关键动作识别方法

Info

Publication number: CN114155610B
Application number: CN202111499126.4A
Authority: CN
Inventors: 朱美强; 高顺; 梁健; 鹿朋; 李明
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2023-01-24
Anticipated expiration: 2041-12-09
Also published as: CN114155610A

Abstract

本发明涉及一种基于上半身姿态估计的面板装配关键动作识别方法，其包括如下步骤：构建用于对面板装配环节中装配人员检测的目标检测模型；构建用于对人体上半身骨骼关键点姿态识别的HRnet姿态估计模型，利用所构建的HRnet姿态估计模型确定当前装配人员的上半身骨骼关键点相应的坐标；构建用于对面板装配环节装配动作识别的ST‑GCN动作识别网络，根据连续N帧面板装配动作图像中上半身骨骼关键点相应坐标，利用ST‑GCN动作识别网络识别并输出当前装配人员的面板装配动作的类型。本发明能够适应工厂环境下的特殊应用场景，较好实现对显示面板装配关键动作的实时识别，提高面板装配的效率以及可靠性。

Description

基于上半身姿态估计的面板装配关键动作识别方法

技术领域

本发明涉及一种面板装配关键动作识别方法，尤其是一种基于上半身姿态估计的面板装配关键动作识别方法。

背景技术

液晶显示面板属于技术密集型产品，该类产品一般具有结构较复杂且生产过程较为精细等特点。以其生产流程中的驱动装配环节为例，该过程一般包括取件、正面扫码、翻转、反面扫码、驱动插接、检验和放置等一系列时序性关键动作，其中，对驱动插接动作，插接动作的对象为驱动IC(Integrated Circuit Chip)，所述驱动IC一般压合在液晶基板侧边，接口大小不足两厘米，装配基准面不易选取且定位精度难以保证；对检验动作，需对装配效果和产品完好性进行检验，由于产品缺陷情况复杂且检验区域涉及面板四周边缘和插槽内部，使用一般计算机视觉方法不仅不易捕获产品的微小问题，而且难以进行定量分析和效果界定；最后，部分装配产线设计较早，进行自动化改造需要成本投入较大。

因此，上述场景下的装配与检测作业难以实现完全自动化，进而仍然需要人工完成。然而，工人在装配过程中可能因疏忽出现的工序遗漏、动作顺序错误等行为常会给产品质量埋下隐患，从而越来越多的相关企业希望通过技术手段对这一生产环节进行标准化监督，以便及时发现错误并提醒工人纠正，进而达到降低企业次品发生概率和提高经济效益的目的。

近年来，随着深度学习的发展，基于计算机视觉的人体姿态估计与动作识别技术已取得了快速进步。在2D或3D坐标形式下，由一系列关键点组成的人体骨架图不仅能够表示人体关节的天然连接关系，并且动态的人体骨骼关键点通常具有丰富信息量。当一段时间内具有连续语义信息的人体姿态以骨架形式被获取，以此为基础识别出这些骨架序列语义上代表的行为类别是动作识别领域的常用方法。HRnet通过创造性地改变网络高低分辨率之间的连接方式并引入不同分辨率间的交互，使网络在整个结构中都保持了高分辨率的表征，因而在姿态估计领域深受好评。ST-GCN克服了动作识别领域传统方法依赖于手工特征的局限性，通过将图卷积网络扩展到时空图模型，能够对姿态估计算法获取的多帧骨架序列进行时间特征和空间特征的双提取，在相关数据集上取得优异成绩。

目前，人体姿态估计与动作识别技术已广泛应用于人机交互、安防监控和舞蹈健身中的动作矫正等场景，但仔细分析可以发现该类应用场景大多集中在日常生活领域，具有关键点遍布全身、动作幅度较大以及检测背景或人物着装较为简单等特点。当前，面向工业领域的装配动作识别研究相对较少，相关公共数据集因各种原因至今还没建立，尤其在工厂特殊应用场景下针对上半身关键点提取的预训练权重一直并未出现。刘明周等人针对机械产品装配作业中提出的依据感兴趣区域特征点位移计算特征向量并输入支持向量机进行分类的方法，本质上仍然无法摆脱传统方法忽略关节空间连接关系的缺陷；王军等人的基于HRNet深度学习的姿态、行为分析模块及分析方法，其姿态估计模型并未考虑特殊应用场景下的半身一直遮挡情况给后续动作识别带来的严重影响；王天诺等人针对锤、锯、喷、刷等常见装配动作提出的基于3D卷积神经网络的识别方法，一方面识别动作间本身差异较明显，另一方面该类方法还需要装配工具的辅助判断，再者其设定工作环境相对简单，未考虑实际工厂环境下摄像头捕获多人的情况，以及部分车间要求员工身着特殊工作服导致纹理信息较弱使得结构光3D相机无法有效工作的场景；最后， 3D卷积方法本身参数量较大，计算资源要求较高，不利于在边缘设备上大规模部署。

由上述说明可见，基于工业特殊装配场景动作识别算法的改进与优化依然十分稀少，尤其相关论文、专利等针对姿态估计中的下半身遮挡问题少有直面提及，专门针对上半身关键点提取的公开预训练权重几乎没有，部分借助装配工具进行辅助动作识别的方法也显然十分具有局限性，因此，针对液晶显示面板装配关键动作识别这一任务至今并未有系统且易于部署实现的解决方法。

此外，液晶显示面板生产作业环境下，对工人装配关键动作识别主要面临以下困难：首先，由于摄像头画面会覆盖到不同工位，而相邻工位工人执行的是不同工序，因此，需要对检测人物进行筛选；其次，由于操作台的遮挡致使工人下半身一直无法被摄像头捕捉且工人作业必须身着纹理信息缺乏的全套防尘服，这给一般预训练的姿态估计模型试图完整提取人体关键点信息带来极大挑战；再者，工序动作只集中于工人上半身特别是上肢和手部，因此动作变化幅度相较于其他动作识别任务场景较小；最后，同一工序内部的不同动作间耗时长短不一，占用视频帧数差异性较大，对于确定常用时序识别模型中的叠加帧数以保证动作识别准确率亦十分不易。

发明内容

本发明的目的是克服现有技术中存在的不足，提供一种基于上半身姿态估计的面板装配关键动作识别方法，其能够适应工厂环境下的特殊应用场景，较好实现对显示面板装配关键动作的实时识别，提高面板装配的效率以及可靠性。

按照本发明提供的技术方案，一种基于上半身姿态估计的面板装配关键动作识别方法，所述面板装配关键动作识别方法包括

构建用于对面板装配环节中装配人员检测的目标检测模型，利用所构建的目标检测模型对面板装配环节中面板装配动作图像进行所需的目标检测后，以能得到面板装配环节中一当前装配人员的目标检测框信息；

构建用于对人体上半身骨骼关键点姿态识别的HRnet姿态估计模型，对当前装配人员的目标检测框信息，利用所构建的HRnet姿态估计模型确定当前装配人员的上半身骨骼关键点相应的坐标，其中，当前装配人员的上半身骨骼关键点相应的坐标，至少包括鼻子的坐标、左耳的坐标、右耳的坐标、左肩的坐标、左手肘的坐标、左手腕的坐标、右肩的坐标、右手肘的坐标、右手腕的坐标、左手小拇指的坐标、左手中指的坐标、左手大拇指的坐标、右手小拇指的坐标、右手中指的坐标以及右手大拇指的坐标；

构建用于对面板装配环节装配动作识别的ST-GCN动作识别网络；

对面板装配动作识别时，获取面板装配环节中当前装配人员的连续N帧面板装配动作图像，利用目标检测模型输出当前装配人员在每帧面板装配动作图像的目标检测框信息，并利用HRnet姿态估计模型确定每帧面板装配动作图像中的上半身骨骼关键点相应坐标，根据连续N帧面板装配动作图像中上半身骨骼关键点相应坐标，利用ST-GCN动作识别网络识别并输出当前装配人员的面板装配动作的类型。

步骤1中，构建的目标检测模型为基于YOLOV3-tiny的目标检测模型时，包括如下步骤：

步骤1.1、制作用于训练基于YOLOV3-tiny的目标检测模型的目标检测模型数据集，其中，目标检测模型数据集内的数据图像为至少包含人体上半身信息的人体图像；

步骤1.2、将上述制作的目标检测模型数据集划分为检测模型训练集、检测模型验证集以及检测模型测试集，配置基于YOLOV3-tiny的目标检测模型的目标检测模型损失函数以及目标检测模型训练终止条件，利用检测模型训练集对基于YOLOV3-tiny的目标检测模型训练，直至满足目标检测模型训练终止条件，以构建得到用于对面板装配环节中装配人员目标检测的目标检测模型。

步骤1.1中，目标检测模型数据集包括采集面板装配环节中的装配人员上半身图像以及基于COCO2017数据集内的人体图像，其中，对装配人员上半身图像；在对装配人员上半身图像标注时，只标注装配人员上半身图像中的上半身信息，且在对装配人员上半身图像标注后转换为COCO格式；基于 COCO2017数据集，仅提取人体类别的图像，以得到基于COCO2017数据集内的人体图像。

步骤1.2中，配置识别模型训练终止条件为：在检测模型验证集上，目标检测模型的损失函数至少连续5代保持稳定；配置的目标检测模型损失函数为：

其中，K×K为目标检测图像分成的网格数，M为每个网格先验框个数； C_i为第i个网格中预测框的真实置信度，

为第i个网格中预测框的预测置信度，p_i(c)为第i个网格中负责预测目标的预测框的真实类别概率，

为第i个网格中负责预测目标的预测框的预测类别概率，λ_coord为坐标损失权重，λ_noobj为当前网格中不负责预测目标的预测框的置信度损失权重，(x_i,y_i)为第i个网格中所需预测目标的真实框的实际中心坐标值，

为第i个网格中负责预测目标的预测框的预测中心坐标值，w_i为第i个网格中所需预测目标的真实框的实际宽度值，

为第i个网格中负责预测目标的预测框的预测宽度值，h_i为第i 个网格中所需预测目标的真实框的实际高度值，

为第i个网格中负责预测目标的预测框的预测高度值；

取值为第i个网格中的第j个预测框负责预测当前目标时，

否则

取值为第i个网格中的第j个预测框不负责预测当前目标时，

否则，

步骤2中，构建HRnet姿态估计模型时，具体包括如下步骤：

步骤2.1、制作用于训练HRnet姿态估计模型的姿态估计模型数据集，其中，姿态估计模型数据集包括采集面板装配环节中的装配人员上半身图像以及基于COCO-WholeBody的上半身骨骼部位图像；

步骤2.2、将上述制作的姿态估计模型数据集划分为姿态估计模型训练集、姿态估计模型验证集以及姿态估计模型测试集，配置HRnet姿态估计模型的姿态估计模型损失函数以及姿态估计模型训练终止条件，利用姿态估计模型训练集对HRnet姿态估计模型训练，以得到用于对人体上半身骨骼关键点姿态识别的HRnet姿态估计模型；

配置所述HRnet姿态估计模型的姿态估计损失函数为

其中，P为HRnet姿态估计模型识别上半身骨骼关键点的数量，B为HRnet 姿态估计模型一次batch处理姿态估计模型训练集内相应图像的个数，z_ij为第i个上半身骨骼关键点在第j张热图真实值，z_i′_j为第i个上半身骨骼关键点在第 j张热图的预测值，q_i为第i个上半身骨骼关键点相应的权重值。

在姿态估计模型测试集上，利用OKS对训练得到的HRnet姿态估计模型进行评价，在得到对象关键点相似性值OKS_Φ后，通过设定阈值T，则有

其中，Φ为姿态估计模型测试集中人员对象的编号，OKS_Φ为编号Φ的人员对象关键点相似性值，OKS_Φ＞T表示对象关键点相似性值OKS_Φ大于设定阈值T，δ(OKS_Φ＞T)表示对对象关键点相似性值OKS_Φ大于设定阈值T时的阶跃运算，∑_Φ1表示为姿态估计模型测试集中进行预测的总人数，AP为平均准确率，E{AP}表示对平均准确率AP的期望，mAP为平均准确率AP的平均值。

步骤3中，构建用于对面板装配环节装配动作识别的ST-GCN动作识别网络时，利用目标检测模型以及HRnet姿态估计模型制作ST-GCN动作识别网络的动作识别网络数据集；

对ST-GCN动作识别网络训练时，配置ST-GCN动作识别网络的动作识别网络损失函数以及动作识别网络训练终止条件，利用动作识别网络数据集对ST-GCN动作识别网络训练，直至满足动作识别网络训练终止条件，以构建得到用于对面板装配环节装配动作识别的ST-GCN动作识别网络；

其中，配置的动作识别网络损失函数为BCELoss损失函数，在计算动作识别网络损失函数时，先对每个动作识别网络数据集内的标签进行平滑处理，并在平滑处理后再确定动作识别网络损失函数相应的训练损失函数值。

利用目标检测模型对面板装配动作图像进行装配人员识别时，当面板装配动作图像中存在多个装配人员时，计算每个装配人员相应的目标检测框面积，将目标检测框面积最大的装配人员作为当前装配人员。

利用目标检测模型确定当前装配人员的目标检测框信息后，提取当前装配人员的所在区域的图像，并将所提取的图像进行预处理为满足HRnet姿态估计模型处理的姿态估计图像。

所述ST-GCN动作识别网络还同时输出预测类别概率、骨架连接图、当前帧数和整个网络运行帧率。

本发明的优点：利用目标检测模型对面板装配动作图像进行装配人员识别时，通过将目标检测框面积最大的装配人员作为当前装配人员，能克服背景中其他人物干扰，提高当前装配人员目标识别的可靠性；

利用HRnet姿态估计模型确定当前装配人员的上半身骨骼关键点相应的坐标，当前装配人员的上半身骨骼关键点相应的坐标，至少包括鼻子的坐标、左耳的坐标、右耳的坐标、左肩的坐标、左手肘的坐标、左手腕的坐标、右肩的坐标、右手肘的坐标、右手腕的坐标、左手小拇指的坐标、左手中指的坐标、左手大拇指的坐标、右手小拇指的坐标、右手中指的坐标以及右手大拇指的坐标；通过着重增加了手部关键点，以此放大手部动作引起的姿态变化，增强骨架整体的特征表达能力；舍弃面板装配实际应用场景下所含语义信息较少的下半身关键点，克服了下半身关键点一直被遮挡情况下，检测不出或检测不准给后续动作识别带来的严重影响。

根据连续N帧面板装配动作图像中上半身骨骼关键点相应坐标，利用 ST-GCN动作识别网络识别并输出当前装配人员的面板装配动作的类型；从而能够适应工厂环境下的特殊应用场景，较好实现对面板装配关键动作的实时识别，提高面板装配的效率以及可靠性，从而解决由全身性大幅度动作识别到上半身精细化动作识别的适应性问题，能致力于能够及时发现工人动作遗漏并报警以切实减少因工人疏忽而产生的次品，最终达到帮助企业降低次品发生概率和提高经济效益的目的。

附图说明

图1为本发明的流程图。

图2为本发明上半身骨骼关键点的示意图。

具体实施方式

下面结合具体附图和实施例对本发明作进一步说明。

如图1所示：为了能够适应工厂环境下的特殊应用场景，较好实现对显示面板装配关键动作的实时识别，提高面板装配的效率以及可靠性，本发明的面板装配关键动作识别方法，以先执行目标检测模型的构建、HRnet姿态估计模型的构建以及ST-GCN动作识别网络的构建顺序，并利用构建的ST-GCN 动作识别网络进行最终的动作识别为例进行具体的过程说明，因此，对面板装配关键动作的识别包括如下步骤：

步骤1、构建用于对面板装配环节中装配人员检测的目标检测模型，利用所构建的目标检测模型对面板装配环节中面板装配动作图像进行所需的目标检测后，以能得到面板装配环节中一当前装配人员的目标检测框信息；

具体地，利用目标检测模型能实现对面板装配环节中装配人员的检测与识别，利用目标检测模型对面板装配环节进行所需的目标检测，具体是指利用目标检测模型能实现对预设范围内装配人员进行检测与识别，预设范围的可以为某一装配工位区域等，具体情况可以根据实际需要选择。一般地，一装配工位区域仅可允许一装配人员进行面板装配操作。具体实施时，利用一相机等装置获取预设范围内装配人员的面板装配动作图像，目标检测模型对所获取的图像进行目标检测，以能得到当前装配人员的目标检测框信息。

对目标检测模型，一般可以选择现有常用的形式，如可采用基于 YOLOV3-tiny的目标检测模型，基于YOLOV3-tiny的目标检测模型为现有常用的目标检测模型，具体情况为本技术领域人员所熟知，此处不再赘述。当构建的目标检测模型为基于YOLOV3-tiny的目标检测模型时，包括如下步骤：

具体实施时，目标检测模型数据集包括采集面板装配环节中的装配人员上半身图像以及基于COCO2017数据集内的人体图像，其中，对装配人员上半身图像；在对装配人员上半身图像标注时，只标注装配人员上半身图像中的上半身信息，且在对装配人员上半身图像标注后转换为COCO格式；基于 COCO2017数据集，仅提取人体类别的图像，以得到基于COCO2017数据集内的人体图像。

具体地，可以通过相机等形式采集面板装配环节中装配人员上半身图像，采集的装配人员上半身图像可以通过现有常用的标准软件进行标注，具体标准的方式等可以根据需要选择，为本技术领域人员所熟知。COCO2017数据集为现有公开的数据集，由于COCO2017数据集内包含非人员类的图像，因此，需要通过利用本技术领域常用的技术手段仅提取人体类别的图像，从而得到基于COCO2017数据集内的人体图像。

具体实施时，制作目标检测模型数据集内人体图像的数量可以根据实际需要选择，根据制作目标检测模型数据集内人体图像的数量，具体可以根据需要划分为检测模型训练集、检测模型验证集以及检测模型测试集，具体划分得到检测模型训练集、检测模型验证集以及检测模型测试集的数量情况等可以根据需要选择，为本技术领域人员所熟知，此处不再赘述。

当目标检测模型基于YOLOV3-tiny的目标检测模型时，在检测模型训练集上进行训练时，配置基于YOLOV3-tiny的目标检测模型的目标检测模型损失函数以及目标检测模型训练终止条件，一般地，满足目标检测模型训练终止条件时，即构建得到用于对面板装配环节中装配人员目标检测的目标检测模型。

本发明实施例中，配置识别模型训练终止条件为：在检测模型验证集上，目标检测模型的损失函数至少连续5代保持稳定；配置的目标检测模型损失函数为：

为第i个网格中负责预测目标的预测框的预测高度值；

取值为第i个网格中的第j个预测框负责预测当前目标时，

否则

取值为第i个网格中的第j个预测框不负责预测当前目标时，

否则，

具体实施时，对基于YOLOv3-tiny的目标检测模型，输入图像的尺寸设置为以416x416x3，同时使用两个大小分别为13x13x18，26x26x18的分支进行多尺度预测，因此，K×K为目标检测图像分成的网格数，K×K有13x13与 26x26两种取值，具体与现有相一致，为本技术领域人员所熟知，此处不再赘述。具体实施时，M取值均为3，真实框、先验框等的具体情况与现有相一致，具体为本技术领域人员所熟知，此处不再赘述。

对先验框，所谓负责即所述先验框与对象真实框的IOU(交并比)在当前网格M个先验框中最大，意为该先验框形状、尺寸最符合当前这个对象，具体确定先验框与对象真实框之间的IOU的具体方式以及过程为本技术领域人员所熟知，此处不再赘述。对第i个网格中预测框的真实置信度C_i，其取值是由第i个网格中预测框是否负责预测目标决定，如果负责C_i＝1，否则，C_i＝0。坐标损失权重λ_coord可取5，不负责预测目标的预测框的置信度损失权重λ_noobj可取0.2，当然，也可以为其他的取值，具体可以根据需要选择，此处不再赘述。

具体实施时，由于面板装配环节中对目标检测即为对装配人员的检测，即上述损失函数中的目标均为人员类，因此，p_i(c)即为第i个网格中负责预测人员类的预测框的真实类别概率，

为第i个网格中负责预测目标的预测框的预测类别概率，即为第i个网格中负责预测人员类的预测框的预测类别概率。

此外，对于第i个网格中预测框的预测置信度

第i个网格中负责预测目标的预测框的预测类别概率

真实框的预测宽度值

真实框的预测高度值

真实框的预测中心坐标

的具体取值与现有相一致，具体为本技术领域人员所熟知，此处不再赘述。

由于是单一类别训练，检测模型训练集标签只有一个，即只有人员类，可使用Precision标准、Recall标准和AP(Average Precision)标准分别评估基于YOLOv3-tiny的目标检测模型的查准率、查全率和平均准确率，Precision 标准、Recall标准和AP(AveragePrecision)标准分别评价基于YOLOv3-tiny 的目标检测模型的查准率、查全率和平均准确率的具体作用以及过程为本技术领域人员所熟知，此处不再赘述。当然，也可以采用其他现有常用的模型评价标准，具体为本技术领域人员根据需要选择，此处不再赘述。

具体实施时，在确定目标检测模型的损失函数后，在检测模型训练集上，目标检测模型的损失函数至少连续5代保持稳定，具体确定目标检测模型的损失函数至少连续5代保持稳定的方式以及过程为本技术领域人员所熟知，此处不再赘述。在达到配置识别模型训练终止条件后，能自动记录得到基于 YOLOv3-tiny的目标检测模型相应的参数，具体为本技术领域人员所熟知，此处不再赘述。

当然，在达到识别模型训练终止条件，可以通过查准率和查全率等评价方式，以能确定当前基于YOLOv3-tiny的目标检测模型是否符合需求，如符合，则构建基于YOLOv3-tiny的目标检测模型，否则，继续调整直至得到符合需求的基于YOLOv3-tiny的目标检测模型，具体与现有相一致，为本技术领域人员所熟知，此处不再赘述。

具体实施时，利用目标检测模型对面板装配动作图像进行装配人员识别时，当面板装配动作图像中存在多个装配人员时，计算每个装配人员相应的目标检测框面积，将目标检测框面积最大的装配人员作为当前装配人员。

本发明实施例中，由基于YOLOV3-tiny的目标检测模型的特性可知，得到的目标检测框信息包括检测框的左上角的坐标值以及右下角的坐标值，当在预设范围内获取面板装配动作图像中存在多个装配人员时，基于 YOLOV3-tiny的目标检测模型可以同时得到多个装配人员的目标检测框信息。根据每个目标检测框信息所包含的左上角坐标以及右下角坐标值，因此，可以确定每个目标检测框相应的检测框面积。由于当前工位工人距离摄像头等图像装置最近，成像面积理应最大，为排除背景中的其他人物干扰，故将各检测框面积值排序且取最大值作为筛选结果，即将检测框面积最大的装配人员作为当前装配人员。

本发明实施例中，利用基于YOLOV3-tiny的目标检测模型进行目标检测确定当前装配人员后，将所确定的当前装配人员图像作为后续面板装配关键动作识别的基础。

步骤2、构建用于对人体上半身骨骼关键点姿态识别的HRnet姿态估计模型，对当前装配人员的目标检测框信息，利用所构建的HRnet姿态估计模型确定当前装配人员的上半身骨骼关键点相应的坐标，其中，当前装配人员的上半身骨骼关键点相应的坐标，至少包括鼻子的坐标、左耳的坐标、右耳的坐标、左肩的坐标、左手肘的坐标、左手腕的坐标、右肩的坐标、右手肘的坐标、右手腕的坐标、左手小拇指的坐标、左手中指的坐标、左手大拇指的坐标、右手小拇指的坐标、右手中指的坐标以及右手大拇指的坐标；

具体地，利用目标检测模型得到当前装配人员的目标检测框信息后，利用HRnet姿态估计模型对当前装配人员的人体上半身骨骼关键点姿态进行姿态识别，即利用HRnet姿态估计模型确定当前装配人员的上半身骨骼关键点相应的坐标。本发明实施例中，当前装配人员的上半身骨骼关键点相应的坐标，至少包括鼻子的坐标、左耳的坐标、右耳的坐标、左肩的坐标、左手肘的坐标、左手腕的坐标、右肩的坐标、右手肘的坐标、右手腕的坐标、左手小拇指的坐标、左手中指的坐标、左手大拇指的坐标、右手小拇指的坐标、右手中指的坐标以及右手大拇指的坐标。

图2中，为定义上半身骨骼关键点的具体情况，其中，图2中标号中：1 为鼻子，2为左耳，3为右耳，4为左肩，5为左手肘，6为左手腕，7为右肩， 8为右手肘，9为右手腕，10为左手小拇指，11为左手中指，12为左手大拇指，13为右手小拇指，14为右手中指，15为右手大拇指。具体实施时，对于定义的15个上半身骨骼关键点，通过着重增加了手部关键点，以此放大手部动作引起的姿态变化，增强骨架整体的特征表达能力；舍弃面板装配实际应用场景下所含语义信息较少的下半身关键点，克服了下半身关键点一直被遮挡情况下，检测不出或检测不准给后续动作识别带来的严重影响。

为了能利用HRnet姿态估计模型确定当前装配人员的上半身骨骼关键点坐标，具体可以通过下述方式构建HRnet姿态估计模型。具体地，

具体地，可以采用本技术采集面板装配环节中的装配人员上半身图像，当然，在采集得到装配人员上半身图像后，需要利用标准软件对装配人员上半身图像的上半身骨骼关键标注，具体标注的类型等即为上述需要姿态估计的上半身骨骼关键点，即为鼻子、左耳、右耳、左肩、左手肘、左手腕、右肩、右手肘、右手腕、左手小拇指、左手中指、左手大拇指、右手小拇指、右手中指以及右手大拇指。

COCO-WholeBody为现有公开的数据集，本技术领域人员可知， COCO-WholeBody内包含人体多个部位的标注信息，因此，需要采用本技术领域常用的技术手段对COCO-WholeBody处理，得到基于COCO-WholeBody 的上半身骨骼部位图像，其中，得到基于COCO-WholeBody的上半身骨骼部位图像内，上半身骨骼部位图像即为只包含鼻子、左耳、右耳、左肩、左手肘、左手腕、右肩、右手肘、右手腕、左手小拇指、左手中指、左手大拇指、右手小拇指、右手中指以及右手大拇指的标注信息。具体得到基于 COCO-WholeBody的上半身骨骼部位图像的过程以及处理方式可以根据实际需要选择，为本技术领域人员所熟知，此处不再赘述。

配置所述HRnet姿态估计模型的姿态估计损失函数为

其中，P为HRnet姿态估计模型识别上半身骨骼关键点的数量，B为HRnet 姿态估计模型一次batch处理姿态估计模型训练集内相应图像的个数，z_ij为第 i个上半身骨骼关键点在第j张热图真实值，z_i′_j为第i个上半身骨骼关键点在第 j张热图的预测值，q_i为第i个上半身骨骼关键点相应的权重值。

具体实施时，96*72是每个关键点对应热图的大小。HRnet姿态估计模型一次batch处理姿态估计模型训练集内相应图像的个数B，可以根据实际情况确定；第i个上半身骨骼关键点在第j张热图真实值z_ij、第i个上半身骨骼关键点在第j张热图的预测值z_i′_j的具体情况与现有相一致，具体为本技术领域人员所熟知，此处不再赘述。本发明实施例中，针对动作特点，双手腕部相应的权重可设置为1.2，双手指部相应的权重值可设置为1.5，其余上半身骨骼关键点相应的权重均设置为1；从而增大网络在重要部位的惩罚项，引导网络加强对手腕和指部关键点的识别，以期提升网络训练效果。

本发明实施例中，对上述得到姿态估计模型数据集，根据实际需要划分为姿态估计模型训练集、姿态估计模型验证集以及姿态估计模型测试集，姿态估计模型训练集、姿态估计模型验证集以及姿态估计模型测试集的具体作用以及具体情况均与现有相一致，此处不再赘述。

为了能有效构建HRnet姿态估计模型，需要配置HRnet姿态估计模型的姿态估计模型损失函数以及姿态估计模型训练终止条件，并在配置HRnet姿态估计模型的姿态估计模型损失函数以及姿态估计模型训练终止条件后，姿态估计模型训练集对HRnet姿态估计模型训练，以能得到用于对人体上半身骨骼关键点姿态识别的HRnet姿态估计模型。

具体实施时，配置的姿态估计模型训练终止条件，如可以为设定HRnet 姿态估计模型在姿态估计模型训练集训练的代数，如训练持续300个epoch(代) 终止。在达到姿态估计模型训练终止条件后，本技术领域可以确定HRnet姿态估计模型的具体配置参数，为本技术领域人员所熟知，此处不再赘述。

进一步地，在姿态估计模型测试集上，利用OKS对训练得到的HRnet姿态估计模型进行评价，在得到对象关键点相似性值OKS_Φ后，通过设定阈值T，则有

本发明实施例中，对训练结果，采用基于目标关键点相似度(OKS，objectkeypoint similarity)的评价指标计算真值和预测值之间的相似度，阈值T的具体大小以及数量可以根据实际需要选择，如T∈[0.5:0.05:0.95]，即阈值T在起始为0.5至末尾0.95内，每间隔0.05取值，数量可以为10个，即得到平均准确率AP(Average Precision)，最终得到平均准确率AP的平均值mAP (meanaverage precision)。采用本技术领域常用的手段技术得到对象关键点相似性值OKS_Φ后，根据设定阈值T，具体计算δ(OKS_Φ＞T)的过程为本技术领域人员所熟知，此处不再赘述。

具体实施时，采用基于目标关键点相似度(OKS)的评价指标计算真值和预测值之间的相似度的具体方式以及过程为本技术领域人员所熟知，此处不再赘述。通过设置阈值T，得到平均准确率AP的平均值mAP，并利用平均准确率AP的平均值mAP对HRnet姿态估计模型进行评价，以确定当前的 HRnet姿态估计模型是否满足需求，利用平均准确率AP的平均值mAP对HRnet 姿态估计模型进行评价具体的作用、方式以及过程与现有相一致，为本技术领域人员所熟知，此处不再赘述。

进一步地，利用目标检测模型确定当前装配人员的目标检测框信息后，提取当前装配人员的所在区域的图像，并将所提取的图像进行预处理为满足 HRnet姿态估计模型处理的姿态估计图像。

本发明实施例中，在利用基于YOLOV3-tiny的目标检测模型进行目标检测确定当前装配人员后，将当前装配人员的目标检测框信息克隆(复制)后送入HRnet姿态估计模型。由于每个当前装配人员的目标检测框相应大小和宽高比不定，为满足HRnet姿态估计模型的要求，需要将克隆得到当前装配人员的目标检测框信息进行预处理，所述预处理可以为裁剪、缩放、插值等预处理。如设定HRnet姿态估计模型的对输入图像的尺寸要求为384*288，则需做如下预处理：将当前装配人员所在的目标检测框区域进行克隆，接着将当前装配人员所在的目标检测框调整到384*288的尺寸，对缺失区域进行双线性插值，最后通过仿射变换得到满足HRnet姿态估计模型处理的姿态估计图像。

具体地，上述预处理时，将当前装配人员所在的目标检测框克隆、将目标检测框的尺寸调整、双线性差值以及仿射变换的具体过程均可采用现有常用的方式，具体为本技术领域人员所熟知，此处不再赘述。

步骤3、构建用于对面板装配环节装配动作识别的ST-GCN动作识别网络，对面板装配动作识别时，获取面板装配环节中当前装配人员的连续N帧面板装配动作图像，利用目标检测模型输出当前装配人员在每帧面板装配动作图像的目标检测框信息，并利用HRnet姿态估计模型确定每帧面板装配动作图像中的上半身骨骼关键点相应坐标后，根据连续N帧面板装配动作图像中上半身骨骼关键点相应坐标，利用ST-GCN动作识别网络识别并输出当前装配人员的面板装配动作的类型。

具体地，ST-GCN动作识别网络为现有常用的动作识别模型，具体为本技术领域人员所熟知，此处不再赘述。为了能实现对面板装配环节装配动作识别，具体需要对现有的ST-GCN动作识别网络进行训练。具体实施时，构建用于对面板装配环节装配动作识别的ST-GCN动作识别网络时，利用目标检测模型以及HRnet姿态估计模型制作ST-GCN动作识别网络的动作识别网络数据集；

对ST-GCN动作识别网络训练时，配置ST-GCN动作识别网络的动作识别网络损失函数以及动作识别网络训练终止条件，利用动作识别网络数据集对ST-GCN动作识别网络训练，直至动作识别网络训练终止条件，以构建得到用于对面板装配环节装配动作识别的ST-GCN动作识别网络；

其中，配置的动作识别网络损失函数为BCELoss(Binary Cross Entropy Loss)损失函数，在计算动作识别网络损失函数时，先对每个动作识别网络数据集内的标签进行平滑处理，在平滑处理后再确定动作识别网络损失函数相应的训练损失函数值。

本发明实施例中，对于动作识别网络数据集，可以通过下述方式制备得到，具体地：现场采集加模拟制作的视频数据，按每一动作始末切分为若干片段并命名为相应动作，对每一片段利用基于YOLOV3-tiny的目标检测模型进行目标检测，利用HRnet姿态估计模型对基于YOLOV3-tiny的目标检测模型得到当前装配人员的目标检测框信息处理，以能得到当前装配人员的上半身骨骼关键点坐标，在得到当前装配人员的上半身骨骼关键点坐标后，并将当前帧的上半身骨骼关键点坐标连同当前动作标签(动作的序号)保存到一 csv文件中，后续ST-GCN动作识别网络读取所保存csv文件的数据进行训练，且一次读取N帧当前装配人员相应的上半身骨骼关键点坐标连同当前动作标签。

具体实施时，对ST-GCN动作识别网络训练时，配置ST-GCN动作识别网络的动作识别网络损失函数以及动作识别网络训练终止条件，其中，设定的动作识别网络训练终止条件可以为训练代数，如训练50个epoch(代)终止，动作识别网络损失函数采用BCEloss损失函数。达到动作识别网络训练终止条件后，具体确定ST-GCN动作识别网络的具体情况与现有相一致，为本技术领域人员所熟知，此处不再赘述。

为了避免模型对于正确标签过于自信，使得预测正负样本的输出值差别不那么大，在计算动作识别网络损失函数相应的损失值前，对标签进行平滑处理，即能避免过拟合，提高模型的泛化能力，其中标签是表示动作所属真实类型的特征向量，平滑标签的具体情况与现有相一致，为本技术领域人员所熟知，此处不再赘述。具体实施时，所采用的平滑处理方式为：

R′＝(1-ε)*R+ε/β

其中，R′为平滑处理后的标签，R为平滑处理前的标签，ε为平滑因子，平滑因子ε一般可取0.1，β为ST-GCN动作识别网络所识别的面板装配动作类型的数量，本发明实施例中，β＝7。

具体实施时，综合考虑整套工序内部各个动作的时长，并通过top-1分类准确度和top-3分类准确度来评估不同叠加帧数的识别性能，top-1分类准确度和top-3分类准确度具体为现有常用的识别性能评价标准，具体对识别性能评价的方式以及过程为本技术领域人员所熟知，此处不再赘述。具体实施时，通过top-1分类准确度和top-3分类准确度对识别性能评价后，所述N可取8，即根据连续8帧面板装配动作图像中上半身骨骼关键点相应坐标，利用 ST-GCN动作识别网络能有效识别并输出当前装配人员的面板装配动作的类型。

具体实施时，通过top-1分类准确度和top-3分类准确度对ST-GCN动作识别网络的识别性能评价作用、方式以及过程均与现有相一致，具体为本技术领域人员所熟知，此处不再赘述。

一般地，识别输出当前装配人员的面板装配动作类型包括取件、正面扫码、翻转、反面扫码、驱动插接、检验和放置等，面板装配动作类型的具体情况可以参考上述说明，具体为本技术领域人员所熟知，此处不再赘述。此外，所述ST-GCN动作识别网络还同时输出预测类别概率、骨架连接图、当前帧数和整个网络运行帧率。其中，预测类别概率，具体是指ST-GCN动作识别网络对该帧所预测的动作类型有多大把握或概率正确；骨架连接图：即是把当前装配人员的上半身骨骼关键点连接后形成的图形；当以视频方式向 ST-GCN动作识别网络输入面板状态信息时，当前帧图像即是视频第几帧；网络运行帧率，具体是指目标检测模型、HRnet姿态估计模型以及ST-GCN动作识别模型以目前速度一秒钟能处理多少帧的面板装配动作图像。

具体实施时，通过ST-GCN动作识别网络输出预测类别概率、骨架连接图、当前帧数和整个网络运行帧率的具体情况与现有相一致，具体为本技术领域人员所熟知，此处不再赘述。

Claims

1.一种基于上半身姿态估计的面板装配关键动作识别方法，其特征是，所述面板装配关键动作识别方法包括

2.根据权利要求1所述的基于上半身姿态估计的面板装配关键动作识别方法，其特征是，构建的目标检测模型为基于YOLOV3-tiny的目标检测模型时，包括如下步骤：

3.根据权利要求2所述的基于上半身姿态估计的面板装配关键动作识别方法，其特征是，步骤1.1中，目标检测模型数据集包括采集面板装配环节中的装配人员上半身图像以及基于COCO2017数据集内的人体图像，其中，对装配人员上半身图像；在对装配人员上半身图像标注时，只标注装配人员上半身图像中的上半身信息，且在对装配人员上半身图像标注后转换为COCO格式；基于COCO2017数据集，仅提取人体类别的图像，以得到基于COCO2017数据集内的人体图像。

4.根据权利要求2或3所述的基于上半身姿态估计的面板装配关键动作识别方法，其特征是，步骤1.2中，配置识别模型训练终止条件为：在检测模型训练集上，目标检测模型的损失函数至少连续5代保持稳定；配置的目标检测模型损失函数为：

其中，K×K为目标检测图像分成的网格数，M为每个网格先验框个数；C_i为第i个网格中预测框的真实置信度，

为第i个网格中负责预测目标的预测框的预测宽度值，h_i为第i个网格中所需预测目标的真实框的实际高度值，

为第i个网格中负责预测目标的预测框的预测高度值；

取值为第i个网格中的第j个预测框负责预测当前目标时，

否则

取值为第i个网格中的第j个预测框不负责预测当前目标时，

否则，

5.根据权利要求1至3任一项所述的基于上半身姿态估计的面板装配关键动作识别方法，其特征是，构建HRnet姿态估计模型时，具体包括如下步骤：

配置所述HRnet姿态估计模型的姿态估计损失函数为

其中，P为HRnet姿态估计模型识别上半身骨骼关键点的数量，B为HRnet姿态估计模型一次batch处理姿态估计模型训练集内相应图像的个数，z_ij为第i个上半身骨骼关键点在第j张热图真实值，z′_ij为第i个上半身骨骼关键点在第j张热图的预测值，q_i为第i个上半身骨骼关键点相应的权重值。

6.根据权利要求5所述的基于上半身姿态估计的面板装配关键动作识别方法，其特征是，在姿态估计模型测试集上，利用OKS对训练得到的HRnet姿态估计模型进行评价，在得到对象关键点相似性值OKS_Φ后，通过设定阈值T，则有

7.根据权利要求1至3任一项所述的基于上半身姿态估计的面板装配关键动作识别方法，其特征是，构建用于对面板装配环节装配动作识别的ST-GCN动作识别网络时，利用目标检测模型以及HRnet姿态估计模型制作ST-GCN动作识别网络的动作识别网络数据集；

8.根据权利要求2或3所述的基于上半身姿态估计的面板装配关键动作识别方法，其特征是，利用目标检测模型对面板装配动作图像进行装配人员识别时，当面板装配动作图像中存在多个装配人员时，计算每个装配人员相应的目标检测框面积，将目标检测框面积最大的装配人员作为当前装配人员。

9.根据权利要求1至3任一项所述的基于上半身姿态估计的面板装配关键动作识别方法，其特征是，利用目标检测模型确定当前装配人员的目标检测框信息后，提取当前装配人员的所在区域的图像，并将所提取的图像进行预处理为满足HRnet姿态估计模型处理的姿态估计图像。

10.根据权利要求1至3任一项所述的基于上半身姿态估计的面板装配关键动作识别方法，其特征是，所述ST-GCN动作识别网络还同时输出预测类别概率、骨架连接图、当前帧数和整个网络运行帧率。