CN111563446A

CN111563446A - 一种基于数字孪生的人-机交互安全预警与控制方法

Info

Publication number: CN111563446A
Application number: CN202010362190.7A
Authority: CN
Inventors: 李�浩; 马文锋; 文笑雨; 王昊琪; 谢贵重; 孙春亚; 李客; 罗国富
Original assignee: Zhengzhou University of Light Industry
Current assignee: Zhengzhou University of Light Industry
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2020-08-21
Anticipated expiration: 2040-04-30
Also published as: CN111563446B

Abstract

本发明提出了一种基于数字孪生的人‑机交互安全预警与控制方法，其步骤如下：基于深度学习算法识别双目摄像机拍摄的图像中工作人员及工作人员人体关键点位置；将标签粘贴在机器人运动关节处，通过Canny边缘检测和霍夫圆检测算法识别图像中的标签位置获得机器人的位置；基于双目视觉测距原理测量工作人员人体关键点和标签的空间坐标，计算工作人员与机器人间的距离；搭建人‑机交互安全预警孪生系统，实现人‑机交互物理场景与虚拟场景的交互共融，迭代优化，实时在线可视化监控人‑机交互过程的安全。本发明利用实时数据驱动人‑机交互安全预警孪生系统，能够优化出最佳工作空间，保障人与机器人交互过程的安全，提高了人‑机协同工作的效率。

Description

一种基于数字孪生的人-机交互安全预警与控制方法

技术领域

本发明涉及智能制造、人-机交互和安全控制的技术领域，尤其涉及一种基于数字孪生的人-机交互安全预警与控制方法，特别是基于深度学习和多目视觉实现数字孪生环境下的人-机交互的安全控制方法。

背景技术

智能制造将带来全新的制造模式，新型制造模式需要高度自动化来实现快速低成本的生产，还需要具备高柔性和智能化的生产。通过将机器人系统性能和人的灵活性、敏捷性和智能性相结合，在一些生产过程中可以显著提高产线的柔性和智能性，从而提高生产效率。然而，人与机器人在同一工作环境下工作，他们之间的安全问题必须要考虑和解决。

数字孪生是智能制造的一种新型技术应用模式，它是以数字化的形式描述物理实体并建立它的虚拟模型，利用数据模拟物理实体在现实环境中的运行状态，通过虚实交互反馈，数据融合分析、决策迭代优化等手段，给物理实体增加或扩展新的能力。在数字孪生环境中，可以充分的利用模型、数据、多方面协同的技术，起到连接物理世界与信息世界的纽带作用，提供更加实时、高效、智能的服务，这给解决人-机交互过程中存在的安全问题提供了理论与技术基础。

针对人-机交互过程安全问题，目前解决方案主要有两种：一种是机器人与人发生碰撞后，基于接触信息采取一些措施尽可能减小对人的伤害，即被动避让；另一种是机器人与人还未发生碰撞就改变机器人的运行状态，即主动避让。

第一种解决方案主要有：设计一款机器人电子皮肤安装于其表面，从而检测机器人是否与外界发生碰撞以及碰撞力的大小，并及时调整机器人的运行状态；在机器人表面粘贴带有弹性的材料，在一定程度上减小碰撞冲击力，从而降低对人造成的伤害；机器人通过自身内部的电流传感器和关节位置传感器可检测是否与外界环境发生碰撞，并及时调整机器人的运行状态。这些方案中需要布置大量的传感器、可穿戴设备，并且也没有从根本上解决人-机交互过程的安全问题。

第二种解决方案主要有：采用投影仪和摄像机定义划分机器人周围的安全区域，即距离机器大于某值是安全区，小于某值是危险区，然而人与机器人近距离交互过程中需要完成不同的肢体动作，但该方法却不能准确的测量人体某部位与机器人之间的距离；基于路径规划算法，提前规划出一条可避免机器人与人碰撞的路径，但该方法在静态环境中适应较强，在动态环境仍有较大局限性；利用深度相机Kinect获取人和机器人轮廓的三维点云信息，基于点云的空间坐标，计算人-机之间的距离，但由于点云的数量庞大，在计算时耗费大量的时间，不能满足实时性的要求并且深度相机Kinect价格较高。

近年来，随着智能技术在制造业的快速应用与改进，深度学习在计算机视觉领域和智能制造领域得到了快速应用，卷积神经网络在目标识别方面具有突出的优势，通过利用大量的数据和图像对神经网络进行训练，可得到一个兼备速度和准确度的目标识别检测器。

双目立体视觉是基于视差原理，从双目相机中获取多幅图像恢复被测物体三维几何信息。对于空间物体表面的任意一点，在双目相机的左相机检测识别到该点，同时右相机也检测识别到该点，就可以计算出该点的空间三维坐标。

发明内容

针对现有人-机交互控制在动态环境中适应性差，计算量大，成本高的技术问题，本发明提出一种基于数字孪生的人-机交互安全预警与控制方法，基于深度学习和多目视觉相结合，计算出人-机之间的距离，简化了人-机测距的模型，提高了检测的实时性，提高了人-机协同工作的效率，可实时在线可视化监控人-机交互全过程的安全。

为了达到上述目的，本发明的技术方案是这样实现的：一种基于数字孪生的人-机交互安全预警与控制方法，基于深度学习和多目视觉相结合实现虚拟场景的人-机交互识别和反馈控制，其步骤如下：

S1，基于深度学习算法识别双目摄像机拍摄的图像中工作人员及工作人员人体关键点位置；

S2，将标签粘贴在机器人各运动关节处，通过Canny边缘检测和霍夫圆检测算法识别图像中的标签位置从而获得机器人的位置；

S3，基于双目视觉测距原理测量工作人员人体关键点和各标签的空间坐标，计算工作人员与机器人间的距离；

S4，搭建人-机交互安全预警孪生系统，实现人-机交互物理场景与虚拟场景的交互共融，迭代优化，实时在线可视化监控人-机交互过程的安全。

所述步骤S1中识别图像中工作人员及工作人员人体关键点位置的方法为：

S1.1，在人-机交互环境中布置两个双目摄像机；

S1.2，利用双目摄像机拍摄视频图像，建立实际场景下工作人员图像数据集，并制作人体关键点数据集；

S1.3，基于原始的预训练模型YOLO V3-A进行迁移学习训练获得工作人员检测网络；

S1.4，在预训练模型YOLO V3-A的基础上，保留预训练模型YOLO V3-A的前N层中全部参数，再用步骤S1.2中的工作人员图像数据集重新训练预训练模型YOLO V3-A的后M层参数，最后得到工作人员检测模型YOLO V3-B，利用工作人员检测模型YOLO V3-B识别双目摄像机拍摄图像获取图像中的工作人员；

S1.5，设计人体关键点识别网络模型，利用公开人体关键点数据集COCO2017和步骤S1.2制作的人体关键点数据集训练人体关键点识别网络模型，获取图像中人体关键点坐标，实现人体关键点在视频图像中位置的精准预测。

所述步骤S1.2中建立实际场景下工作人员图像数据集和制作人体关键点数据集的方法为：将拍摄视频分解成一帧一帧保存为统一格式、像素大小的图片；利用labelimg软件框出图像中工作人员和工作人员的人体关键点，制作每张图片对应的同名XML文件，XML文件内容包括框出的工作人员和工作人员的人体关键点矩形框的坐标、备注的类别，从而制作出来工作人员图像数据集和人体关键点数据集。

所述步骤S1.4中训练工作人员检测模型YOLO V3-B时，设置迭代次数为100次，采用自适应矩估计方法优化每次迭代的参数；在前40次迭代，设置学习率为0.001，在后60次迭代，设置学习率为0.0001，如果连续5次迭代内工作人员检测模型YOLO V3-B的检测误差没有变化，学习率为上一次学习率的1/10，以此规律迭代；所述步骤1.1中两个双目摄像机其中一个双目摄像机位于机器人正前方2-4m处，另一个双目摄像机位于机器人左方或右方2-4m处；所述工作人员的人体关键点数为17个，与公开的COCO2017数据集标注的人体关键点数一致；所述步骤S1.4中M与N的取值主要取决于两个方面：一方面是工作人员图像数据集的大小，工作人员图像数据集越大，N的值越小M的值越大；另一方面是迁移学习涉及的源域和目标域，根据源域任务与目标域任务之间的差异，差异越大N的值越小M值越大，差异越小M与N的取值则反之。

所述步骤S1.5中人体关键点识别网络模型包括一级网络和二级网络，一级网络和二级网络均是基于ResNet50网络的后四个残差模块作为骨干网络设计提取人体关键点特征，其实现方法为：

S1.5.1，一级网络基于ResNet50网络设计，利用ResNet50网络后四个残差模块提取人体关键点特征，将ResNet50网络中最后一个残差模块的普通卷积修改成步长为1、扩张率为2的扩张卷积，将ResNet50网络中最后一个残差模块的特征图通道数修改为原来的1/2；在一级网络中经过卷积得到的人体关键点特征图进行热力图输出，将这些热力图进行叠加融合作为热力图集输出；

S1.5.2，使用跨级别特征融合的方法实现一级网络和二级网络间的连接：一级网络中某阶段的特征图和热力图通过1×1卷积后输入到二级网络中对应阶段，二级网络该阶段特征具备了第一级网络的特征图、热力图和本身的特征图三个输入量；

S1.5.3，二级网络设计：二级网络利用ResNet50网络后四个残差模块提取人体关键点特征，在最后一个残差模块后增加两次反卷积，利用上下文信息进行预测；

S1.5.4，利用公开数据集COCO2017和自己根据真实人-机交互场景制作的人体关键点数据集训练人体关键点识别网络模型。

所述一级网络中经过一系列的卷积得到4种特征图，特征图经过一次3×3卷积的高斯滤波器生成人体关键点热力图，热力图经过叠加融合又作为二级网络的输入，二级网络再进行特征提取，并且在二级网络后添加两次转置卷积和一次热力图操作；

二级网络是对不易识别和被遮挡的关键点识别，对于不易识别的关键点，使用反卷积增大感受野获得关键点位置，对于不可见关键点，利用上下文信息进行预测，从已经知道的关键点推测出不可见点；提取每个人体关键点损失的前n个，对于全身可见的人体提取前n个人体困难关键点，批量困难点挖掘是以整个批量为单位，设批量大小为m，将损失的大小依次排序，选取m×n个关键点的损失反向传播给网络，看在那个m×n值下网络的识别准确率最高就取对应的该m×n值；n的取值范围是0-17，每个人体关键点总个数是17，m的取值范围为32到512，m是2的指数倍。

所述人体关键点识别网络模型的训练方法为：用公共发布的ImageNet上预训练ResNet50网络的权重初始化，但ResNet50网络的权重进行随机初始化，采用自适应矩估计方法训练，设置初始学习率为0.0005；计算人体关键点热力图的高斯滤波为：

式中，i∈{1,2,3,…I}代表第i个人体关键点，I代表每个人全部的要预测关键点数，Gi^*(s)代表热力图中第i个人体关键点在位置S处的概率值，位置S是通过人体关键点识别网络预测出来的，P_i表示人体关键点在原视频图像的真实坐标，σ₁是高斯滤波的标准差；

人体关键点识别网络的损失函数为：

式中，G_i(s)代表预测的人体关键点i在位置S处的概率值，v_i表示人体关键点i是否可见，v_i＝0表示不可见，v_i＝1表示可见；

一级网络训练时运用中继监督的策略，即对四个阶段特征图都进行监督训练预测，对所有关键点计算损失反向传播调整网络参数；二级网络训练时只对最后一次的特征图进行监督训练预测，计算所有关键点损失，并将关键点的损失大小按照从大到小顺序排列，只反向传播那些损失较大的关键点调整网络参数；当计算得到的损失值不再减小时，调整学习率为上一次的1/2，继续训练，直到无论再怎么减小学习率，损失也不再减小时停止训练；选取不同m与n的值运用控制变量法重复上述训练步骤，即当m的值不变，选取不同的n的值训练网络，当n的值不变，选取不同的m的值训练网络，选取识别率最高的那个模型作为最终的人体关键点识别网络模型。

所述步骤S2的实现方法为：

S2.1，设计圆形标签，标签颜色与人-机交互环境背景有较大的区分度，标签贴在机器人各个运动关节处；

S2.2，获取双目摄像机采集机器人的视频图像p(u,v)，u是图像像素的横坐标，v是图像像素的纵坐标；

S2.3，对视频图像p(u,v)进行数字化处理，转化成灰度图像，构造一个3×3大小的高斯滤波模板，对灰度图像进行高斯模糊去噪；采用3×3的Soble两个方向的算子计算去噪图像的梯度，根据梯度计算边缘图像边缘幅值和角度；对边缘图像的边缘幅值进行非极大值抑制，保留幅值局部变化最大的点；经过非极大值抑制处理的图像进行双阈值边缘连接处理，得到边缘图像P(u,v)；

S2.4，运用霍夫变换检测圆算法查找边缘图像P(u,v)中半径是0.5r到1.5r所有圆形，r表示设计的圆形标签的半径；

S2.5，对查找到的圆形区域进行直方图统计，与原设计的圆形标签的直方图特征比较，特征相似的就是被识别的圆形标签。

所述步骤S2.4的实现方法为：

S2.4.1，直角坐标系下圆形的方程为：

(u-a)²+(v-b)²＝r²；

其中，(a,b)表示圆心坐标，r表示圆的半径；

S2.4.2，将直角坐标系下的圆形的方程变换到霍夫空间中圆的方程，霍夫空间中圆的方程是(a-u)²+(b-v)²＝r²，(u,v)为圆心坐标，半径r是已知设定值，变换原理是将u-v坐标系转换为a-b坐标系，那么直角坐标系中圆形边界上的一点对应到霍夫空间坐标系中即为一个圆，直角坐标系中圆形边界上许多的点就对应到霍夫空间坐标系中许多的圆，这些圆都会交于一点，这个交点可能就是圆心(a,b)；

S2.4.3，用不同的半径值即0.5r到1.5r重复步骤S2.4.2，直到检测出所有半径值在0.5r到1.5r之间圆的圆心位置，进而获得边缘图像中可能为设计的圆形标签的圆。

所述步骤S3的实现方法为：

S3.1，根据双目摄像机的测距原理图，得到现实空间中人体关键点和标签的坐标(x,y,z)；

由相似三角形定律可知在双目摄像机测距公式为：

解方程可得：

其中，b是双目摄像机中左右相机的距离，f是相机焦距，b和f都是已知的值，(x,y,z)代表现实空间中人体关键点或标签的坐标，(u_l,v_l)是左相机的视频图像中人体关键点或标签的坐标，(u_r,v_r)是右相机的视频图像中人体关键点或标签的坐标；

S3.2，通过双目摄像机测得人体关键点空间坐标A1(x_A1,y_A1,z_A1)、A2(x_A2,y_A2,z_A2)、A3(x_A3,y_A3,z_A3)……和标签空间坐标B1(x_B1,y_B1,z_B1)，B2(x_B2,y_B2,z_B2)，B3(x_B3,y_B3,z_B3)……，A1、A2、A3……分别表示第i个人体关键点，i的取值范围是1到17，B1、B2、B3……表示第k个标签，k的取值范围是1到6；

S3.3，计算人体关键点空间坐标A1、A2、A3……分别与标签空间坐标B1、B2、B3……的空间坐标距离，距离公式：

其中，S表示人体关键点与标签之间的距离，(x_Ai,y_Ai,z_Ai)表示第i个人体关键点坐标，(x_Bk,y_Bk,z_Bk)表示第k个标签的坐标；

S3.4，筛选出人体关键点与标签空间的最小距离，就是人-机之间的最小距离。

所述S4中人-机交互安全预警孪生系统包括人-机交互场景的物理系统、虚拟系统和服务系统，物理系统与服务系统连接交换数据，服务系统与虚拟系统连接交换数据；服务系统给物理系统下发控制指令，控制物理系统设备运行状态；物理系统中设备的运行数据传送给服务系统，经服务系统处理后发送给虚拟系统，虚拟系统中基于设备运行数据驱动虚拟仿真模型，对现实物理系统模拟优化，优化出最佳人-机工作空间，并根据不同的人-机之间距离S，给出系统不同控制方案，服务系统中基于虚拟系统优化的结果，下达最优管控指令，保障人-机交互安全；在人-机交互过程中，物理系统的运行状态和仿真系统对物理系统的仿真、验证与优化结果不断反馈给服务系统，服务系统再次对管控方案做优化，实时高效保障人-机交互过程的安全。

本发明的有益效果：基于深度学习算法和双目视觉测距原理识别并测量人体关键点和机器人上的标签在空间中的三维坐标，从而计算出人-机之间的距离，简化了人-机测距的模型，提高了检测的实时性，并利用数字孪生系统对人-机交互过程进行迭代优化，优化出最佳工作空间，根据测定的人-机之间距离，给出系统不同控制方案，实时在线可视化监控人-机交互全过程的安全。本发明解决了人-机交互过程中的安全问题，利用实时数据驱动人-机交互安全预警孪生系统，能够优化出最佳工作空间，并根据测定的人-机之间距离，给出不同控制方案，时刻保障人与机器人交互过程的安全，提高了人-机协同工作的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程图。

图2为本发明中人-机距离测定的原理图。

图3为本发明中人体关键点的分布图。

图4为本发明中基于迁移学习训练人员检测网络模型的YOLOV3-B图。

图5为本发明中人体关键点检测的网络模型示意图。

图6为本发明中连接人体关键点检测网络的中间连接层网络模型图。

图7为本发明中双目测距原理图。

图8为本发明中人-机交互安全预警孪生系统的框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于数字孪生的人-机交互安全预警与控制方法，如图1所示，基于深度学习和多目视觉相结合实现虚拟场景的人-机交互识别和反馈控制，其步骤如下：

S1，基于深度学习算法识别双目摄像机拍摄的图像中工作人员及工作人员人体关键点位置。

S1.1，在人-机交互环境中布置两个双目摄像机，其中一个双目摄像机位于机器人正前方2-4m处，另一个双目摄像机位于机器人左方或右方2-4m处，两个双目摄像机对人-机交互环境全方位照射，实现该环境中无监控盲区，如图2所示。人体是动态的，可以在交互环境中任何位置移动。

S1.2，用步骤S1.1中的双目摄像机拍摄视频，建立实际场景下工作人员图像数据集，并制作人体关键点数据集。将拍摄视频分解成一帧一帧保存为统一格式、像素大小的图片。利用labelimg软件框出视频图像中工作人员和工作人员的人体关键点，制作每张图片对应的同名XML文件，XML文件内容包括框出的工作人员和工作人员的人体关键点矩形框的坐标、备注的类别等。利用Labelimg软件的矩形框手动框出人或人体关键点，当框出后，软件会自动生成矩形框的坐标，该坐标也代表人或人体关键点的坐标。标记出每个工作人员的人体关键点数为17个，与公开的COCO2017数据集标注的人体关键点数一致，17个人体关键点分布如图3所示，17个人体关键点包括左耳、左眼、鼻子、右眼、右耳、左手、左肘、左肩、右肩、右肘、右手、左髋、左膝、左脚、右髋、右膝、右脚，从而制作出来人体关键点数据集。

S1.3，基于原始研究人员提供的预训练模型YOLO V3-A进行迁移学习训练获得工作人员检测网络。本发明只采集了2000张数据集，仅用这些数据训练YOLO V3模型，容易产生过拟合现象并且在训练过程中耗费大量的时间，因此运用迁移学习的方法。

S1.4，运用迁移学习的方法，在预训练模型YOLO V3-A的基础上，保留预训练模型YOLOV3-A的前N层中全部参数，再用步骤S1.2中的工作人员图像数据集重新训练预训练模型YOLO V3-A的后M层参数，最后得到实用性强的工作人员检测模型YOLO V3-B，利用工作人员检测模型YOLO V3-B识别双目摄像机拍摄图像获取图像中的工作人员。训练过程如图4所示，其中，M与N的取值主要取决于两个方面：其中一方面是自己制作数据集的大小，数据集越大，N的值越小M值越大，数据集越小M与N的取值则反之；另一方面是迁移学习一般涉及两个域，源域和目标域，根据源域任务与目标任务之间的差异，差异越大，N的值越小M值越大，差异越小M与N的取值则反之，具体M与N的取值还需要通过实验验证。

S1.4.1，在训练工作人员检测模型YOLO V3-B时，设置迭代次数为100次，采用自适应矩估计(adaptive moment estimation，Adam)方法优化每次迭代的参数。

S1.4.2，在前40次迭代，设置学习率为0.001，在后60次迭代，设置学习率为0.0001，但如果连续5次迭代内工作人员检测模型YOLO V3-B的检测误差没有变化，学习率变为上一次学习率的1/10，以此规律迭代，直到第100次时结束。

运用迁移学习的方法，先用公开数据集训练神经网络，得到预训练模型，再用自己建立的人-机交互特定场景的数据集对预训练模型训练，可以快速训练出符合人-机交互这一特定场景的识别率较高的工作人员检测模型YOLO V3-B，为下一步的人体关键点识别做好基础。

S1.5，设计人体关键点识别网络模型，人体关键点识别网络模型分为两级，展现从粗糙到精细化检测的过程，即用第一级网络进行粗检测，检测容易识别的关键点，用第二级网络进行精检测，检测不容易识别或被遮挡的困难关键点。然后利用公开人体关键点数据集COCO2017和步骤S1.2制作的人体关键点数据集训练该网络模型，获取图像中人体关键点坐标，实现人体关键点在视频图像中位置的精准预测。如图5所示是人体关键点检测网络模型，一级网络和二级网络均是基于ResNet50网络的后四个残差模块(Conv2、Conv3、Conv4、Conv5)作为骨干网络设计提取人体关键点特征，在一级网络中经过一系列的卷积得到4种特征图，特征图经过一次3×3卷积的高斯滤波器生成人体关键点热力图，热力图经过叠加融合又作为第二级网络的输入，二级网络再进行特征提取，并且在二级骨干网络后添加两次转置卷积和一次热力图操作，最终得到预测结果。

S1.5.1，设计一级网络：第一级网络是基于ResNet50网络设计的，利用ResNet50网络后四个残差模块提取人体关键点特征，但ResNet50网络中进行了5次下采样，到最后一个残差模块下采样后得到的特征图大小为原图的1/32。ResNet50网络每一次下采样特征图就会减少1/2，第五次就是原图的1/32，损失了大量的空间信息，主要由于ResNet50网络起初用在图像分类，语义信息相对空间信息较重要。将ResNet50网络中最后一个残差模块的普通卷积修改成步长为1、扩张率为2的扩张卷积，增加感受野，保留图像更多空间信息。但保留更多空间信息同时计算量也会增加，所以将ResNet50网络中最后一个残差模块的特征图通道数修改为原来的1/2，减少网络的计算量。在一级网络中经过卷积得到的人体关键点特征图都会进行热力图输出，来预测人体关键点位置，热力图是对每个像素做概率预测，计算该像素是某个关节点的概率，也是为了能够更清楚直观的看出来图像上某点是关键点。最后将这些热力图进行叠加融合作为热力图集输出，同时热力图集也将作为第二级网络的输入。

S1.5.2，设计第一二级网络间连接方式：如图6所示，在第一级网络与第二级网络连接时使用了跨级别特征融合的方法。第一级网络中某阶段的特征图和热力图通过1×1卷积后输入到第二级网络中对应阶段，这样第二级网络该阶段特征具备了第一级网络的特征图、热力图和本身的特征图三个输入量。通过这种设计，第二级网络当前阶段可以充分利用一级网络的先验信息来提取更多的判别特征，预测结果更更准确。

S1.5.3，第二级网络设计：第二级网络的设计与第一级网络设计类似，也是基于ResNet50网络设计，利用其后四个残差模块提取人体关键点特征，但在最后一个残差模块后增加两次反卷积，特征图大小从原图的1/16变成1/4，由于人体关键点识别需要较高得空间分辨率，通过反卷积可以提高深层网络中特征的空间分辨率。第二级网络主要是对那些不易识别和被遮挡的关键点识别，对于不易识别的关键点，使用增大感受野来获得关键点位置，增大感受野的方法是通过反卷积实现，对于不可见关键点，利用上下文信息进行预测，即从已经知道的关键点推测出不可见点，因为人体关键点之间是存在关联关系。传统困难关键点挖掘是以单个人体为单位，提取每个人体关键点损失的前n个，对于全身可见的人体提取前n个人体困难关键点，但对遮挡严重的人体也提取前n个困难点并不合理。批量困难点挖掘是以整个批量为单位而不是单个人体，人体困难关键点在单个人体上也并不是均匀分布，假设批量大小为m。将损失的大小依次排序，选取m×n个关键点的损失反向传播给网络，看在那个m×n值下网络的识别准确率最高就取对应的该m×n值，因为不同的m×n值对应的网络识别准确率不同。n的取值范围是0-17，本发明中每个人体关键点总个数是17，m的取值范围一般为32到512，并且一般还是以2的指数倍(这是考虑到电脑内存设置和使用的方式，如果m大小是2指数倍，代码会运行地快一些)，具体的m与n的取值需要通过对比实验测得。

S1.5.4，人体关键点识别网络训练。训练过程用到的数据集是公开数据集COCO2017和自己根据真实人-机交互场景制作的数据集，其中COCO2017的训练集(包括5.8万多张图像和15万个标注行人)，测试集(包括5000张图像)。在训练人体关键点网络时用COCO2017的训练集和制作的数据集，在测试时只在自己制作的测试集上测试，这样训练出的网络对人-机交互环境有更好的适应性。

设计的人体关键点识别网络模型是用公共发布的ImageNet上预训练ResNet50模型的权重初始化，但对于基于ResNet50修改过的模型的权重进行随机初始化，采用Adam算法训练，设置初始学习率为0.0005，给出计算人体关键点热力图的高斯滤波公式(1-1)和人体关键点识别网络的损失函数(1-2)：

式中，i∈{1,2,3,…I}代表第i个人体关键点，I代表每个人全部的要预测关键点数，Gi^*(s)代表热力图中第i个人体关键点在位置S处的概率值，位置S是通过人体关键点识别网络预测出来的，P_i表示人体关键点在原视频图像的真实坐标，σ是高斯滤波的标准差、是一个固定值。

式中，G_i(s)代表预测的人体关键点i在位置S处的概率值，v_i表示人体关键点i是否可见，v_i＝0表示不可见，v_i＝1表示可见。

首先，第一级网络训练时运用了中继监督的策略，即对四个阶段特征图都进行监督训练预测，这样可以在不同阶段获得大量的上下文信息，帮助定位哪些难以识别的关键点，对所有关键点计算损失反向传播调整网络参数。第二级网络训练时只对最后一次的特征图进行监督训练预测，计算所有关键点损失，并将关键点的损失大小按照重大到小顺序排列，只反向传播那些损失较大的关键点调整网络参数。其次，当计算得到的损失值不再减小时，调整学习率，可将学习率调整为上一次的1/2，继续训练，直到无论再怎么减小学习率，损失也不再减小时停止训练。最后，选取不同m与n的值运用控制变量法重复上述训练步骤，即当m的值不变，选取不同的n的值训练网络，当n的值不变，选取不同的m的值训练网络，选取识别率最高的那个模型作为最终的人体关键点识别网络模型。

本发明运用深度学习获得人体关键点识别网络模型能够快速准确的识别出图像人体关键点位置，并通过热力图的形式输出，热力图中最大响应值点就是人体关键点。传统人-机交互测距过程中是用深度相机识别整个人体轮廓，生成人体三维点云信息，然后计算机器人与很多点云间的距离，这样计算得到的距离是准确但计算量巨大，而本发明是提取人体具有代表性的17个关键点，只计算了机器人与这17个关键点的距离，虽然在人-机距离精度上有所牺牲，但计算量大幅度减小，保证测量人-机距离的实时性。热力图是为了能够直观看出经过网络预测后的关键点所在的位置，也可理解为热力图是一种供人们可视化的看清网络预测的结果。

S2，将标签粘贴在机器人各运动关节处，通过Canny边缘检测和霍夫圆检测算法识别图像中的标签位置从而获得机器人的位置。

S2.1，设计具有特定形状、大小和颜色的标签，标签满足设计简单且容易识别的原则：标签形状设计为圆形，在能合适地粘贴在机器人关节的基础上标签尽可能大，标签颜色与人-机交互环境背景有较大的区分度，设计的标签如图2所示。

由于机器人是特定的某一机器人，它就在某个位置或工位工作，所以标签贴在机器人各个运动关节处，如六自由度机器人，只需贴6个标签在机器人关节处，如图2所示，通过标签识别可快速简单的获取机器人空间位置。

S2.2，获取双目摄像机采集机器人的视频图像p(u,v)，u是图像像素的横坐标，v是图像像素的纵坐标。

S2.3，对视频图像p(u,v)进行数字化处理，得到边缘图像P(u,v)。

S2.3.1，将视频图像p(u,v)转化成灰度图像，转化关系式：

Gray＝R×0.299+G×0.587+B×0.114

其中，Gray代表灰度，R代表红色通道，G代表绿色通道，B代表蓝色通道。前面系数是固定的值，彩色图转化成灰度图的就是用这些固定系数。

S2.3.2，构造一个3×3大小的高斯滤波模板，对灰度图像进行高斯模糊去噪，二维高斯公式为：

其中，(x,y)表示高斯滤波模板中某点坐标，σ是高斯滤波的标准差，控制去噪效果，一般σ取1时效果最好，f(x,y)表示高斯滤波模板中某点的值。

S2.3.3，采用3×3的Soble两个方向的算子计算去噪图像的梯度，根据梯度计算边缘图像边缘幅值和角度。

根据Soble算子计算去噪图像梯度公式为：

计算边缘图像的幅值和角度公式为：

其中，C表示去噪图像，Gu(u,v)表示边缘图像横向的梯度，Gv(u,v)表示边缘图像纵向的梯度，G(u,v)表示边缘图像的边缘幅值，θ(u,v)表示边缘方向。

S2.3.4，为了得到定位精确和细化的边缘图像的边缘，需要对边缘图像的边缘幅值进行非极大值抑制，保留幅值局部变化最大的点。非极大值抑制过程为：如果边缘图像上点(u,v)的边缘幅值G(u,v)小于沿着边缘方向线上两个相邻像素点的边缘强度，则认为该像素点为非边缘点，将G(u,v)置为0。

S2.3.5，经过非极大值抑制处理的图像需要进行双阈值边缘连接处理，获得完整图像边缘：设定高阈值TH和低阈值TL对细化的边缘图像分割，得到两个阈值的图像TH(u,v)和TL(u,v)，阈值选取取决于图像包含的内容，一般高阈值是低阈值的2倍。TH(u,v)是强边缘图像，含有较少的假边缘，但是有较多的间断，TL(u,v)是弱边缘图像，边缘信息比较全面，但有较多的假边缘。为使TH(u,v)图像达到边缘连续效果，在TL(u,v)图像的边缘寻找可以连接到TH(u,v)的间断边缘，利用递归跟踪算法不断的在弱边缘图像TL(u,v)中搜索边缘，直到将强边缘图像TH(u,v)中的所有间隙连接起来，得到最终的边缘图像P(u,v)。

本发明在获得边缘图像方面采用了Canny算法，能够有效消除噪声在检测过程中的干扰，并且采用了高低阈值检测强边缘和弱边缘，将符合条件的弱边缘连接到强边缘间断处，得到精确的边缘图像。

S2.4，运用霍夫变换检测圆算法查找边缘图像P(u,v)中半径是0.5r到1.5r所有圆形。r表示设计的圆形标签的半径，是一个已知的值。

S2.4.1，直角坐标系下圆的一般方程为：

(u-a)²+(v-b)²＝r²；

其中，(a,b)表示圆心坐标，r表示圆的半径。

S2.4.2，将直角坐标系下的圆的一般方程变换到霍夫空间中圆的方程，霍夫空间中圆的方程是(a-u)²+(b-v)²＝r²，(u,v)为圆心坐标，半径r是已知设定值，变换原理是将u-v坐标系转换为a-b坐标系，那么直角坐标系中圆形边界上的一点对应到霍夫空间坐标系中即为一个圆，直角坐标系中圆形边界上许多的点就对应到霍夫空间坐标系中许多的圆，这些圆都会交于一点，这个交点可能就是圆心(a,b)。

S2.4.3，用不同的半径值即0.5r到1.5r重复步骤S2.4.2，直到检测出所有半径值在0.5r到1.5r之间圆的圆心位置，进而获得边缘图像中可能为设计的圆形标签的圆。将要检测的圆形半径值设为0.5r到1.5r是为了避免漏检，保证设计的圆形标签在要检测的圆形大小范围内。

S2.5，对查找到的圆形区域进行直方图统计，与原设计圆形标签的直方图特征比较，特征相似的就是被识别的圆形标签。

S2.5.1，统计每一圆形区域的像素值，得到该圆的像素分布直方图。

S2.5.2，对设计的圆形标签进行灰度处理，统计圆形标签的像数值，得到圆形标签的像素分布直方图。

S2.5.3，将圆形区域的像素分布直方图与设计的圆形标签的像素分布直方图比较，相似度较高的圆形区域就是设计的圆形标签。

本发明在检测设计的圆形标签时运用了双验证的方法，检测到符合要求半径值的圆不直接确定就是标签，再进一步进行直方图特征对比，特征相似度较高的才最终确定检测到的圆形就是设计的标签，大幅度的降低了误检率。

S3，基于双目视觉测距原理测量工作人员人体关键点和各标签的空间坐标，计算工作人员与机器人间的距离，测距原理如图7所示。

S3.1，根据图7的测距原理图，由相似三角形定律可知在双目摄像机测距公式为：

解方程可得：

其中，b是双目摄像机中左右相机的距离，f是相机焦距，b和f都是已知的值，(x,y,z)代表现实空间中人体关键点或标签的坐标，(u_l,v_l)是左相机的视频图像中人体关键点或标签的坐标，(u_r,v_r)是右相机的视频图像中人体关键点或标签的坐标。人体关键点和标签在左右相机中的坐标(u,v)在步骤S1和S2中已经测得，进而得知现实空间中人体关键点和标签的坐标(x,y,z)。

S3.2，通过双目摄像机测得人体关键点空间坐标A1(x_A1,y_A1,z_A1)、A2(x_A2,y_A2,z_A2)、A3(x_A3,y_A3,z_A3)……和标签空间坐标B1(x_B1,y_B1,z_B1)，B2(x_B2,y_B2,z_B2)，B3(x_B3,y_B3,z_B3)……，A1、A2、A3……分别表示第i个人体关键点，i的取值范围是1到17，B1、B2、B3……表示第k个标签，k的取值范围是1到6。

S3.3，计算人体关键点空间坐标A1、A2、A3……分别与标签空间坐标B1、B2、B3……的空间坐标距离，即计算A1与B1、A1与B2、A1与B3……A1与Bk的距离，A2与B1、A2与B2、A2与B3……A2与Bk的距离，A3与B1、A3与B3、A3与B3……A3与Bk的距离，计算持续到Ai与B1、Ai与B3、Ai与B3……Ai与Bk结束。计算距离公式：

其中，S表示人体关键点与标签之间的距离，(x_Ai,y_Ai,z_Ai)表示第i个人体关键点坐标，(x_Bk,y_Bk,z_Bk)表示第k个标签的坐标。

本发明基于双目测距原理，利用双目摄像机测量出人-机之间距离，双目测距比单目测距更加精确，也不需要一些先知条件，测距时有更强的灵活性。双目相机比深度相机在测量距离的速度上慢了些，但深度相机抗干扰能力差(粉尘会干扰深度相机测量精度)并且价格高昂。双目相机测距可同时综合测量的精度、速度和抗干扰等性能，达到良好的测量效果。

如图8所示，人-机交互安全预警孪生系统包括人-机交互场景的物理系统、虚拟系统和服务系统，物理系统与服务系统连接交换数据，服务系统与虚拟系统连接交换数据。服务系统可以给物理系统下发控制指令，控制物理系统设备运行状态，物理系统中设备的运行数据也可传送给服务系统，经服务系统处理后发送给虚拟系统，虚拟系统中基于设备运行数据驱动虚拟仿真模型，对现实物理系统模拟优化，优化出最佳人-机工作空间，并根据不同的人-机之间距离S，给出系统不同控制方案，服务系统中基于虚拟系统优化的结果，下达最优管控指令，保障人-机交互安全。

物理系统包括工作人员、机器人、工作台、PLC、控制柜、交换机、双目摄像机、报警器、速度传感器等，设备之间的连接关系如图8所示。机器人通过控制柜与PLC相连接，双目摄像机、报警器、速度传感器均通过交换机与PLC相连接，交换机与服务系统的PC机相连接。其中，工作台表示人-机协作完成某项任务的承载体，PLC控制机器人启动、停止和加减速，控制柜控制机器人运行轨迹，交换机用于物理系统中现场总线的互联互通和提高数据传送速度，两个双目相机对交互环境进行冗余拍摄，有效解决在拍摄人-机交互过程的遮挡问题，报警器用于在人-机距离较近时提醒工作人员注意安全，速度传感器采集机器人运行速度。物理系统将双目相机、速度传感器、PLC等设备运行的实时数据上传服务系统，PC机对这些数据进行筛选、清洗和封装，实现对数据可操作性和可溯源性等。

虚拟系统中建立人-机交互场景的虚拟仿真模型，包括了几何模型、行为模型和规则模型的3个层次，实现物理系统到虚拟系统的真实映射。几何模型描述物理实体设备的尺寸、形状、位置关系等几何参数。行为模型描述驱动和扰动因素，例如人-机之间距离S过小、人-机协同完成不同的任务、人-机发生碰撞等。规则模型描述物理系统运行规律，例如机器人运行速度、运行路径、工作人员工作姿态(17个人体关键点相连接能够表示人体姿态)等，让模型具备评估、优化、预测的功能。

在人-机交互过程之前，基于服务系统管控方案数据驱动虚拟仿真模型，模拟人-机交互的整个过程，提前预知管控方案可能存在的问题，例如机人与机器人在某一姿态下协同工作时两者间距离过近存在碰撞风险、机器人运行速度过快或过慢、机器人运行过程中与周边设备发生干涉等。在人-机交互过程中，仿真模型利用物理系统中的实时数据和专家的先验知识对交互场景进行迭代仿真分析，寻找人-机之间不发生碰撞的最小安全距离S和机器人运动的最佳路径和速度，将优化的方案反馈给服务系统。服务系统根据优化后的安全距离S、路径和速度调整管控方案。同时，虚拟系统中逼真的三维可视化效果让人们产生沉浸与交互感，能够提高创造灵感，对物理系统中设备进行布局调整，合理利用占地面积，节省占地资源。

服务系统是为人-机交互场景智能化管控提供支持和服务，包括数据处理、评估、优化和控制物理系统的实体设备等算法，例如：步骤S1中人体关键点识别算法、步骤S2中设计标签的识别算法、步骤S3中人-机距离测定算法、机器人运动状态控制算法、控制报警系统算法。

在人-机交互之前，服务系统基于仿真系统优化得到的数据对最初的管控方案系统做出相应的修正和优化，例如：人-机之间距离S大于某值机器人全速工作，在某值范围内，PLC给机器人发出减速信号机器人减速运行，并且报警系统发出警告信号报警器播放警告，小于某值时，PLC给机器人发出停止信号机器人停止工作，并且报警系统发出强烈警告信号报警器播放强烈警告。在人-机交互过程中，物理系统的运行状态和仿真系统对物理系统的仿真、验证与优化结果不断反馈给服务系统，服务系统再次对管控方案做优化，实时高效保障人-机交互过程的安全。

随着工业4.0不断推进发展，人与机器人交互更加密切，本发明的思想主要解决的是人与机器人协同工作的安全问题。基于数字孪生技术搭建一套具备实时响应、动态反馈、在线可视化的预警系统。该系统包括了物理系统、虚拟系统、服务系统三大子系统，不同系统之间两两交互迭代优化，能够实时获取不同系统中的数据，通过对系统获得的数据计算分析，优化出最佳的人-机交互工作环境，如人-机交互环境的最小工作空间，节省其在车间的占地资源，根据实时的人-机之间距离，给出不同的控制方案，提高人-机协作的效率，同时保证工作人员的安全。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于数字孪生的人-机交互安全预警与控制方法，其特征在于，基于深度学习和多目视觉相结合实现虚拟场景的人-机交互识别和反馈控制，其步骤如下：

2.根据权利要求1所述的基于数字孪生的人-机交互安全预警与控制方法，其特征在于，所述步骤S1中识别图像中工作人员及工作人员人体关键点位置的方法为：

S1.1，在人-机交互环境中布置两个双目摄像机；

3.根据权利要求2所述的基于数字孪生的人-机交互安全预警与控制方法，其特征在于，所述步骤S1.2中建立实际场景下工作人员图像数据集和制作人体关键点数据集的方法为：将拍摄视频分解成一帧一帧保存为统一格式、像素大小的图片；利用labelimg软件框出图像中工作人员和工作人员的人体关键点，制作每张图片对应的同名XML文件，XML文件内容包括框出的工作人员和工作人员的人体关键点矩形框的坐标、备注的类别，从而制作出来工作人员图像数据集和人体关键点数据集。

4.根据权利要求2或3所述的基于数字孪生的人-机交互安全预警与控制方法，其特征在于，所述步骤S1.4中训练工作人员检测模型YOLO V3-B时，设置迭代次数为100次，采用自适应矩估计方法优化每次迭代的参数；在前40次迭代，设置学习率为0.001，在后60次迭代，设置学习率为0.0001，如果连续5次迭代内工作人员检测模型YOLO V3-B的检测误差没有变化，学习率为上一次学习率的1/10，以此规律迭代；所述步骤1.1中两个双目摄像机其中一个双目摄像机位于机器人正前方2-4m处，另一个双目摄像机位于机器人左方或右方2-4m处；所述工作人员的人体关键点数为17个，与公开的COCO2017数据集标注的人体关键点数一致；所述步骤S1.4中M与N的取值主要取决于两个方面：一方面是工作人员图像数据集的大小，工作人员图像数据集越大，N的值越小M的值越大；另一方面是迁移学习涉及的源域和目标域，根据源域任务与目标域任务之间的差异，差异越大N的值越小M值越大，差异越小M与N的取值则反之。

5.根据权利要求2所述的基于数字孪生的人-机交互安全预警与控制方法，其特征在于，所述步骤S1.5中人体关键点识别网络模型包括一级网络和二级网络，一级网络和二级网络均是基于ResNet50网络的后四个残差模块作为骨干网络设计提取人体关键点特征，其实现方法为：

6.根据权利要求5所述的基于数字孪生的人-机交互安全预警与控制方法，其特征在于，所述一级网络中经过一系列的卷积得到4种特征图，特征图经过一次3×3卷积的高斯滤波器生成人体关键点热力图，热力图经过叠加融合又作为二级网络的输入，二级网络再进行特征提取，并且在二级网络后添加两次转置卷积和一次热力图操作；

二级网络是对不易识别和被遮挡的关键点识别，对于不易识别的关键点，使用反卷积增大感受野获得关键点位置，对于不可见关键点，利用上下文信息进行预测，从已经知道的关键点推测出不可见点；提取每个人体关键点损失的前n个，对于全身可见的人体提取前n个人体困难关键点，批量困难点挖掘是以整个批量为单位，设批量大小为m，将损失的大小依次排序，选取m×n个关键点的损失反向传播给网络，看在那个m×n值下网络的识别准确率最高就取对应的该m×n值；n的取值范围是0-17，每个人体关键点总个数是17，m的取值范围为32到512，m是2的指数倍；

人体关键点识别网络的损失函数为：

7.根据权利要求1所述的基于数字孪生的人-机交互安全预警与控制方法，其特征在于，所述步骤S2的实现方法为：

8.根据权利要求7所述的基于数字孪生的人-机交互安全预警与控制方法，其特征在于，所述步骤S2.4的实现方法为：

S2.4.1，直角坐标系下圆形的方程为：

(u-a)²+(v-b)²＝r²；

其中，(a,b)表示圆心坐标，r表示圆的半径；

9.根据权利要求1所述的基于数字孪生的人-机交互安全预警与控制方法，其特征在于，所述步骤S3的实现方法为：

由相似三角形定律可知在双目摄像机测距公式为：

解方程可得：

10.根据权利要求1或9所述的基于数字孪生的人-机交互安全预警与控制方法，其特征在于，所述S4中人-机交互安全预警孪生系统包括人-机交互场景的物理系统、虚拟系统和服务系统，物理系统与服务系统连接交换数据，服务系统与虚拟系统连接交换数据；服务系统给物理系统下发控制指令，控制物理系统设备运行状态；物理系统中设备的运行数据传送给服务系统，经服务系统处理后发送给虚拟系统，虚拟系统中基于设备运行数据驱动虚拟仿真模型，对现实物理系统模拟优化，优化出最佳人-机工作空间，并根据不同的人-机之间距离S，给出系统不同控制方案，服务系统中基于虚拟系统优化的结果，下达最优管控指令，保障人-机交互安全；在人-机交互过程中，物理系统的运行状态和仿真系统对物理系统的仿真、验证与优化结果不断反馈给服务系统，服务系统再次对管控方案做优化，实时高效保障人-机交互过程的安全。