CN117690165B

CN117690165B - 一种钻杆与液压钳间人员穿行检测方法及装置

Info

Publication number: CN117690165B
Application number: CN202410146330.5A
Authority: CN
Inventors: 岑亮; 吴雷; 周维政; 李祎; 易炜
Original assignee: Chongqing Hongbao Technology Co ltd; Sichuan Hongbaorunye Engineering Technology Co ltd
Current assignee: Chongqing Hongbao Technology Co ltd; Sichuan Hongbaorunye Engineering Technology Co ltd
Priority date: 2024-02-02
Filing date: 2024-02-02
Publication date: 2024-07-09
Anticipated expiration: 2044-02-02
Also published as: CN117690165A

Abstract

本申请揭示了一种钻杆与液压钳间人员穿行检测方法及装置，其中，所述方法包括：S100：获取钻探作业现场输入图像；S200：对所述输入图像进行数据增强处理，以获得数据增强处理后的输入图像；S300：构建钻探作业现场检测模型，并对模型进行训练；S400：将数据增强处理后的输入图像输入训练好的钻探作业现场检测模型，以识别所述输入图像中是否存在钻杆和液压钳，以及是否有作业人员位于钻杆和液压钳间的危险区域。本申请能够准确识别出输入图像中目标的关键点信息，从而提高图像的检测精度。

Description

一种钻杆与液压钳间人员穿行检测方法及装置

技术领域

本申请属于智能识别技术领域，具体涉及一种钻杆与液压钳间人员穿行检测方法及装置。

背景技术

钻探作业是一种在地质勘探和工程勘探中常用的方法，通过钻探可以获取地下岩层的物理性质、岩石成分、石油、地下水等情况下的作业。

在钻探作业的安全规范中，要求作业人员应该在液压钳上方保持一个安全距离，作业人员应该避免手部或身体暴露在钻杆与液压钳之间，尤其是液压钳夹紧钻杆的时候。

钻杆作业不合规，不仅给工厂带来巨大损失，还会造成人员伤亡。每年都有因为钻探作业中各类操作不规范而引起的工业事故。

对于传统钻探作业中钻杆与液压钳间人员穿行的安全监测，通常只有靠人工观察甄别。这样不仅浪费人力物力，而且钻探作业现场人员繁杂，实施作业过程中难免遗漏，再加上人为主观影响，非常容易形成违规钻探作业。

为减少钻探作业事故发生，响应工厂构建统一的数字化、智能化管理服务。因此发明一种快速，高精度，高鲁棒性的自动钻杆与液压钳间人员安全检测方法具有非常重要的现实意义。

发明内容

针对现有技术中的不足，本申请的目的在于提供一种钻杆与液压钳间人员穿行检测方法，本方法能够准确识别出输入图像中目标的关键点信息，从而提高检测精度。

为实现上述目的，本申请提供以下技术方案：

一种钻杆与液压钳间人员穿行检测方法，所述方法包括以下步骤：

S100：获取钻探作业现场输入图像；

S200：对所述输入图像进行数据增强处理，以获得数据增强处理后的输入图像；

S300：构建钻探作业现场检测模型，并对模型进行训练；

其中，所述钻探作业现场检测模型包括主干网络，所述主干网络由5个基础模块组成；所述钻探作业现场检测模型还包括特征融合网络，所述特征融合网络由3个叠加的转置卷积层组成，且在叠加的转置卷积层前引入了注意力机制层；

S400：将数据增强处理后的输入图像输入训练好的钻探作业现场检测模型，以识别所述输入图像中是否存在钻杆和液压钳，以及是否有作业人员位于钻杆和液压钳间的危险区域。

优选的，步骤S200中，对所述输入图像进行数据增强处理包括以下步骤：

S201：对输入图像进行包括旋转、缩放、模糊、拼接、偏色和添加噪声在内的初步增强处理；

S202：对初步增强处理后的输入图像通过Mixup算法进行混类或通过Mosaic算法进行拼接。

优选的，步骤S300中，所述钻探作业现场检测模型通过以下步骤进行训练：

S301：收集多张包含钻杆和液压钳以及作业人员位于钻杆和液压钳间危险区域的钻探作业现场图像，对每张图像中的钻杆和液压钳以及作业人员进行标注，以获得多张标注好的作业现场图像；

S302：对多张标注好的作业现场图像进行数据增强处理，以获得多张数据增强处理后的作业现场图像；

S303：将多张数据增强处理后的作业现场图像按一定比例划分为训练集和测试集；

S304：设置训练参数，利用训练集对钻探作业现场检测模型进行训练，在训练过程中，根据损失函数计算模型预测值与标注的实际值之间的损失，当损失函数收敛，则模型训练完成；若损失函数不收敛，则通过调整训练参数或调整检测数据标签对模型重新训练；

S305：利用测试集对训练后的模型进行测试，在测试过程中，以平均精准度AP作为指标对模型进行评价，若平均精准度AP满足阈值，则模型测试通过；否则调整训练参数对模型重新进行训练，直至模型测试通过。

本申请还提供一种钻杆与液压钳间人员穿行检测装置，所述装置包括：

获取模块，用于获取钻探作业现场输入图像；

数据增强模块，用于对输入图像进行数据增强处理，以获得数据增强处理后的输入图像；

模型构建及训练模块，用于构建钻探作业现场检测模型，并对模型进行训练；其中，所述钻探作业现场检测模型包括主干网络，所述主干网络由5个基础模块组成；所述钻探作业现场检测模型还包括特征融合网络，所述特征融合网络由3个叠加的转置卷积层组成，且在叠加的转置卷积层前引入了注意力机制层；

检测模块，用于调用数据增强模块将数据增强处理后的输入图像输入由模型构建及训练模块训练好的钻探作业现场检测模型，以识别输入图像中是否存在钻杆和液压钳，以及是否有作业人员位于钻杆和液压钳间的危险区域。

优选的，所述装置还包括：

预警模块，用于当所述检测模块检测到钻探作业现场输入图像中有作业人员位于钻杆和液压钳间的危险区域时发出预警。

本申请还提供一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于执行如前任一所述的方法。

本申请还提供一种电子设备，包括：

存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，

所述处理器执行所述程序时实现如前任一所述的方法。

与现有技术相比，本申请带来的有益效果为：

1、本申请通过添加注意力机制，能够在不增加模型复杂度的情况下提高对钻杆、液压钳、人员及关键点的识别率；

2、本申请通过在模型的特征融合网络引入转置卷积，使得模型不仅能识别目标，还能准确识别出目标上的关键点信息；

3、本申请通过采用多个转置卷积搭配热力图的检测方案，能较大程度提高目标框及关键点识别精度，构建准确的预警区域。

附图说明

图1是本申请一个实施例提供的一种钻杆与液压钳间人员穿行检测方法的流程图；

图2（a）是本申请另一个实施例提供的原始输入图像；

图2（b）是本申请另一个实施例提供的经Mixup算法增强处理后的效果示意图；

图2（c）是本申请另一个实施例提供的经Mosaic算法处理后的效果示意图；

图3是本申请一个实施例提供的钻探作业现场检测模型的结构示意图；

图4是本申请另一个实施例提供的注意力机制CBAM的结构示意图；

图5是本申请另一个实施例提供的注意力机制CBAM的工作原理示意图；

图6是图3所示模型的训练过程示意图；

图7是本申请另一个实施例提供的准确率-召回率曲线示意图；

图8是本申请另一个实施例提供的热力图；

图9（a）是原始输入图像示意图；

图9（b）标注后的输入图像示意图；

图10是本申请另一个实施例提供的引入转置卷积后特征融合网络输出的特征图；

图11是本申请另一个实施例提供的引入转置卷积前特征融合网络输出的特征图。

具体实施方式

下面将参照附图1至图11详细地描述本申请的具体实施例。虽然附图中显示了本申请的具体实施例，然而应当理解，可以通过各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

需要说明的是，在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可以理解，技术人员可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名词的差异作为区分组件的方式，而是以组件在功能上的差异作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”或“包括”为一开放式用语，故应解释成“包含但不限定于”。说明书后续描述为实施本申请的较佳实施方式，然所述描述乃以说明书的一般原则为目的，并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。

为便于对本申请实施例的理解，下面将结合附图以具体实施例为例做进一步的解释说明，且各个附图并不构成对本申请实施例的限定。

一个实施例中，如图1所示，本申请提供一种钻杆与液压钳间人员穿行检测方法，包括以下步骤：

S100：获取钻探作业现场输入图像；

S300：构建钻探作业现场检测模型，并对模型进行训练；

另一个实施例中，步骤S200中，对所述输入图像进行数据增强处理包括以下步骤：

S201：对如图2（a）所示的输入图像进行包括旋转、缩放、模糊、拼接、偏色和添加噪声在内的初步增强处理；

Mixup增强是对两个(图像，标签)数据组按比例相加后形成的新的数据组。

其中，分别是随机从训练集中抽取的（图像，标签）数据组样本，为输出图像，为对应的输出标签值，是概率值服从参数都为α的Beta分布。

通过Mixup算法增强处理后的输入图像如图2（b）所示。

Mosaic数据增强采用4张不同图片随机缩放，随机裁剪，随机排布等方式进行拼接。

此方法具有以下优点：

丰富数据集：通过随机操作4张图像再进行随机拼接，丰富了数据集。同时通过随机缩放增加了小目标，提升模型对小目标的识别；

减少内存需求：Mosaic增强训练时，直接一次计算4张图片数据，降低内存需求。

通过Mosaic算法增强处理后的输入图像如图2（c）所示。

另一个实施例中，步骤S300中，所述钻探作业现场检测模型包括：输入层，主干网络，特征融合网络和预测输出网络。

本实施例对以上所述各网络结合图3进行详细介绍：

1、主干网络

所述主干网络由上至下包括依次连接的：

第一基础模块State0；

第二基础模块State1；

第三基础模块State2；

第四基础模块State3；

第五基础模块State4。

其中，

第一基础模块State0包括一个7×7卷积层Conv（核算子为7、核滑动步长为2，即[7,2]）和一个最大池化层Maxpool（核算子为3、核滑动步长为2，即[3,2]）；

第二基础模块State1包括依次连接的Black1层、Black2层和Black1层；

第三基础模块State2包括依次连接的Black1层、Black2层、Black2层和Black2层；

第四基础模块State3包括依次连接的Black1层、Black2层、Black2层、Black2层、Black2层和Black2层；

第五基础模块State4包括依次连接的Black1层、Black2层和Black2层。

其中，Black1层采用残差结构，包括两个分支，其中一个分支由3个CBR层（如图3所示，第一个CBR层的核算子为1，核滑动步长为s，即[1,s]，需要说明的是，若Black1层属于第二基础模块State1，则s=1，即Black1层下方所示的[1]；若Black1层属于第三基础模块State2或第五基础模块State4，则s=2，即Black1层下方所示的[2]；第二个CBR层的核算子为3，核滑动步长为1，即[3,1]；第三个CBR层的核算子为3，核滑动步长为1，即[3,1]）堆叠而成，另一个分支只有一个CBR层（核算子为1，核滑动步长为s，即[1,s]，且s=1）来调整通道，两个分支的输出相加连接。

Black2层由3个CBR层（如图3所示，从左至右，第一个CBR层的核算子为1，核滑动步长为1，即[1,1]；第二个CBR层的核算子为3，核滑动步长为1，即[3,1]；第三个CBR层的核算子为1，核滑动步长为1，即[1,1]）堆叠而成。

CBR层由一个普通卷积层Conv、一个批归一化层BN和一个RELU激活函数构成。

所述主干网络由5个基础模块构成，共计包含53层卷积神经网络（CBR含有1层Conv；Black1含有4个CBR，共4个Conv；

Black2中含有3个CBR，共3个Conv；主干网络中的第一基础模块Stage0含有1个Conv；第二基础模块Stage1含有1个Black1，2个Black2，共10个Conv；第三基础模块Stage2含有1个Black1，3个Black2，共13个Conv；第四基础模块Stage3含有1个Black1，5个Black2，共19个Conv；第五基础模块Stage4含有1个Black1，2个Black2，共10个Conv，共计1+10+13+19+10=53个卷积）。

主干网络中的每一层可用于分别提取输入图像中不同的特征信息，随着主干网络层数的加深，提取到的不同层次的信息会越多，不同层次间信息的组合也越多。即超深的主干网络能够使得模型学习到更复杂的特征，从而有助于提高输入图像中的目标识别准确率。

但是，另一方面，超深的网络结构会带来梯度消失、梯度爆炸以及网络退化问题，为解决该问题，本实施例在第二至第五基础模块中引入了具有残差结构（ResNet）的Black1层，对于输入x的期望输出H(x)，引入Black1层后的主干网络能够利用映射将输入x作为初始结果，将原来的映射关系H(x)=F(x)变为H(x)=F(x)+x，残差结构相当于将学习目标改变为残差F(x) = H(x)-x，即目标值H(x)与输入x的差值，而通过改变原有的映射关系，就能够避免超深网络结构存在的梯度消失和梯度爆炸问题以及网络退化问题，具体原理表述如下：

在传统深度神经网络中，随着网络深度的增加，由于梯度在反向传播过程中存在大量的乘法操作，而这一过程中乘法操作的激活值在很小或者很大的时候，就会导致梯度变得非常小或非常大，梯度过小或接近于0将导致训练参数无法更新，也就是所说的梯度消失；梯度过大导致参数更新过大，也就是所说的梯度爆炸；采用残差结构在原本的输出中通过跳跃连接的方式加入原始输入x，能够有效地将输入层的梯度传递到输出层，从而能够有效地避免了梯度消失和梯度爆炸问题。

另外，在传统深度神经网络中，随着网络的加深，通常会出现深层次网络效果反而不如浅层网络好的现象，这种现象被称为网络退化，这也是神经网络不能随意添加深度的原因。残差网络通过让网络拥有恒等映射的能力，使得网络随着层数增加，深层网络至少不会差于浅层网络。残差结构的优化目标为F(x) = H(x)-x，随着网络的不断加深，使得残差F(x)逼近于0，就构成了恒等映射H(x)近似于x，在没有找到更优准确率的情况下，能够让深度网络的精度在最优浅层网络的基础上不会下降，从而能够有效解决网络退化问题。

综上，通过使用具有残差结构的Black1层能够有效减少主干网络加深带来的梯度消失、梯度爆炸以及网络退化问题。

2、特征融合网络

特征融合网络由下至上依次包括：

注意力机制层CBAM；

第一转置卷积层TConv1；

第二转置卷积层TConv2；

第三转置卷积层TConv3。

如图4所示，注意力机制层CBAM采用的是通过使用两个残差结构层（Residual）将通道注意力模块和空间注意力模块连接起来组成的混合注意力模块。其中，通道注意力模块包括残差结构层，残差结构层的输出包括两个分支，第一分支包括依次连接的最大池化层、全连接层FC、ReLU激活函数层和Sigmoid激活函数层；第二分支包括依次连接的平均池化层、全连接层FC、ReLU激活函数层和Sigmoid激活函数层；第一分支的Sigmoid激活函数层和第二分支的Sigmoid激活函数层的输出共同输入矩阵全乘操作层Scale，矩阵全乘操作层的输出和注意力机制层CBAM的输入叠加后输出。该模块中，将输入分别通过全局最大池化和全局平均池化两种操作，得到两种不同的包含通道数的一维向量特征分支，全局最大池化能获取到重要的局部信息，全局平均池化会更关注整体信息，将两个分支分别单独进行全连接操作以学习每个通道的注意力权重，从而使得模型能够自适应地决定哪些通道对于当前任务更加重要；获得每个通道的注意力权重后，再分别通过非线性激活函数ReLU以增加模型复杂度，同时，为确保注意力权重位于0-1之间，将上述两个输出分别执行Sigmoid激活函数；最后，将全局最大特征向量和全局平均特征向量通过相交，即可得到用于通道计算的权重向量。将该权重向量与原始特征图的每个通道通过矩阵全乘操作层相乘，得到加权后的特征图，再与原始输入进行残差运算，得到最终输出。

空间注意力模块包括残差结构层，残差结构层的输出分别通过最大池化层和平均池化层后依次输入拼接层、卷积层Conv和Sigmoid激活函数层。通道注意力模块的输出作为空间注意力模块的输入，首先经过残差结构层，然后分别经最大池化层求取最大值和平均池化层求取平均值，最大值和平均值拼接后经过卷积层卷积以及经过Sigmoid激活函数层处理后获得最终的输出。以通道注意力模块的输出作为该模块的输入，并对该输入执行第二个残差结构，分别使用普通最大池化和普通平均池化，得到不同上下文尺度的特征，与全局操作不同，这里得到的输出大小与输入一致，但维度为1；将两个不同上下文尺度的特征拼接形成维度为2的特征输出，再通过卷积操作融合，即可得到权重特征；再同样执行Sigmoid激活后与原图加权计算，得到最终输出。

本实施例通过在特征融合网络中引入注意力机制层CBAM，能够以高权重聚焦重要信息，以低权重忽略不相关的信息，以图5为例，特征图的通道数为2048，以其中某3个通道为例，引入注意力机制层CBAM后，3个通道的权重分别设置为0.526、0502和0.486（引入注意力机制层CBAM前，每个通道的权重均为0.5），则权重为0.526的特征图能够得到更多特征信息，权重为0.502的特征图和引入注意力机制层CBAM前几乎无变化，权重为0.486的特征图去除了一些干扰，可见，通过引入注意力机制层CBAM，能够解决在卷积池化的过程中特征图的不同通道权重相同带来的损失问题（以图5为例，特征图的通道数为2048，有些通道是比较重要的，因此需要赋予一个较高的权重值；而对那些不重要的通道，则要减少它的影响，因此就需要赋予较低的权重值。而如果每个通道赋予的权重都相同的话，就相当于没有对这些通道的重要性进行区分，而注意力机制层CBAM的作用就是找出这2048个通道中每个通道的不同重要性）。并且，注意力机制层CBAM还可以通过不断调整权重，使得在不同情况下也可以选取重要的信息，因此具有较好的可扩展性和鲁棒性。

引入注意力机制层CBAM后，模型的最终总mAP由93.7%提升到94.8%。

3、预测输出网络

预测输出网络包括并列的5个卷积层，即第一卷积层、第二卷积层、第三卷积层、第四卷积层和第五卷积层。

另一个实施例中，步骤S300中，所述钻探作业现场检测模型通过以下步骤进行训练：

S301：收集多张包含钻杆和液压钳以及作业人员位于钻杆和液压钳间危险区域的钻探作业现场图像（如图9（a）所示），对每张图像中的钻杆、钻杆关键点、液压钳、液压钳的关键点以及作业人员进行标注，以获得多张标注好的作业现场图像（如图9（b）所示）；

该步骤中，标注内容包括【目标类别，目标框中心坐标，目标框宽高，关键点信息】，其中，目标类别包括【‘钻杆’，‘液压钳’，‘工作人员’】。关键点信息包括钻杆关键点、液压钳的关键点1和关键点2。标注格式为【x，y，v】，x、y分别为横、纵坐标，v=0表示关键点不可见，v=1表示关键点可见。

S302：对多张标注好的作业现场图像进行数据增强处理（详见步骤S201和步骤S202所述），以获得多张数据增强处理后的作业现场图像；

S303：将多张数据增强处理后的作业现场图像按一定比例（例如7:3）划分为训练集和测试集；

S304：设置训练参数，例如，将训练次数设置为300，将学习率设置为0.001，批次大小设置为64，利用训练集对钻探作业现场检测模型进行训练，在训练过程中，根据损失函数计算模型预测值与标注的实际值之间的损失，当损失函数收敛，则模型训练完成；若损失函数不收敛，则通过调整训练参数（例如，将训练次数设置为400，将学习率设置为0.05，批次大小设置为128）或人工检查调整数据标签对模型重新训练；

该步骤中，本实施例共采用三种损失函数，包括损失(用于计算热力图 heatmap)、损失(用于计算中心点偏移)和损失(用于计算目标框长宽尺寸)，总的损失函数计算如下：

=++0.1*

中心点及关键点检测采用的是热力图方式，将标注的目标框以高斯核的方式将关键点分布到特征图上，具体如图8所示。

其中，表示检测到一个物体，表示对类别c来说，(x,y)这个位置检测到了c 类目标；表示标注中心点的x坐标，表示标注中心点y坐标；x、y分别表示特征图的横、纵坐标；是一个目标大小相关的标准差，也可以看作是高斯圆的半径相关参数，由于标注框与预测框的IOU（交并比）大于等于0.7，这些预测框的中心点出现的位置汇聚起来可以看作是高斯圆的半径。

损失是在Focal Loss的基础上进行改进的，其中的与是两个超参数，用来均衡难易样本，具体表示如下：

其中，N表示关键点个数，与的值分别为2和4；表示一个关键点样本的标签值，是一个样本的预测值，x、y分别表示关键点热力图的横坐标和纵坐标，c表示所属的类别。

当：

当前坐标刚好位于标签框的中心点上，坐标点为正样本，目标是让越大越好；

当时，，损失为0，这是最理想的状态；

当时，值越大，权重越小，损失越小，即会鼓励的值增大；

其他情况：

当时，表示当前坐标点为负样本，目标是让越小越好。

的作用：当越小/越大，权重也越小/越大，即让损失减小/增大，减小/增大惩罚。

的作用：当关键点远离标签中心点，，此时，对关键点损失没有影响；当关键点处于标注中心点的高斯范围内时，，此时，即让关键点损失减小。所以是用于弱化标注中心点高斯圆范围内的负样本损失，而惩罚远离标注中心点的预测关键点。

损失表示如下：

其中，N表示关键点个数；P表示标注的关键点坐标；表示预测的关键点坐标；表示预测的关键点坐标偏移；R表示下采样因子， R=4。

损失表示如下：

其中，N表示关键点个数；表示每个关键点预测的宽高；表示标注的关键点的宽高；p_k表示预测的点所代表的目标，k表示实际目标。

S305：利用测试集对训练后的模型进行测试，在测试过程中，以平均精准度AP作为指标对模型进行评价，若平均精准度AP满足阈值（由于钻探现场复杂，不同类别物体识别难度不同，所以针对不同类别有不同的评估标准，例如，当模型对于钻杆的AP值等于90%，或者当模型对于液压钳和工作人员的AP值等于95%，即可认为模型合格），则模型测试通过；否则调整训练参数对模型重新进行训练，直至模型测试通过。

平均精准度AP根据准确率Precision和召回率Recall进行计算，具体的，

准确率Precision通过下式计算：

召回率Recall通过下式计算：

其中，TP表示预测值为正实际为正的样本数；FN表示预测为负实际为正的样本数；FP表示预测为负实际为负的样本数；其中，正负样本的判断是根据预测框与标注框的IOU（交并比）进行判断的。本实例中，IOU=0.5，既模型的预测值与实际标注值的交并比大于0.5，即表示预测为正。

再画出Precision-Recall（准确率-召回率）曲线，如图7所示，P-R曲线上通过计算每一个recall值对应的Precision值的平均值可以获得一个数值形式的评估指标AP（在IOU=0.5的情况下，所有类别的AP求平均即可得到最终的mAP@0.5），可以用于衡量训练出来模型检测能力的好坏，再结合人眼对结果的观察即可判断最终模型准确率是否合格，如果不合格则需要采用修改训练参数，添加针对性数据等方法再重新训练。

本实施例中，模型在测试集上的测试结果为：钻杆AP：0.930，液压钳AP：0.952，人员AP：0.962，三个类别的AP求平均即可得到总类别的mAP@0.5=0.948，满足评估标准，模型测试通过。

下面，本实施例结合图6对所述钻探作业现场检测模型的训练过程进行详细描述：

1、将如图2（a）所示的原始输入图像缩放到尺寸为512*512*3（长*宽*通道数，以下相同）；

2、将尺寸为512*512*3的输入图像输入主干网络的第一基础模块State0，经卷积和最大池化处理后输出尺寸为128*128*64的特征图；

3、将尺寸为128*128*64的特征图输入主干网络的第二基础模块State1，经处理后输出尺寸为128*128*256的特征图；

4、将尺寸为128*128*256的特征图输入主干网络的第三基础模块State2，经处理后输出尺寸为64*64*512的特征图；

5、将尺寸为64*64*512的特征图输入主干网络的第四基础模块State3，经处理后输出尺寸为32*32*1024的特征图；

6、将尺寸为32*32*1024的特征图输入主干网络的第五基础模块State4，经处理后输出尺寸为16*16*2048的特征图；

7、将尺寸为16*16*2048的特征图输入特征融合网络的注意力机制层CBAM，经处理后输出尺寸为16*16*2048的特征图；

8、将尺寸为16*16*2048的特征图输入特征融合网络的第一转置卷积层TConv1，经反卷积处理后输出尺寸为32*32*1024的特征图；

9、将尺寸为32*32*1024的特征图输入特征融合网络的第二转置卷积层TConv2，经反卷积处理后输出尺寸为64*64*512的特征图；

10、将尺寸为64*64*512的特征图输入特征融合网络的第三转置卷积层TConv3，经反卷积处理后输出尺寸为128*128*256的目标检测特征图和尺寸为128*128*256的如图10所示的关键点检测特征图；

需要说明的是，通过特征融合网络的第一至第三转置卷积层对由主干网络提取的特征图依次进行反卷积处理，以实现对特征图进行上采样，从而能够克服原始输入图像经过主干网络特征提取后所获得的特征图分辨率变小的问题，进而能够识别出原始输入图像中的关键点信息，即如图10中所示的液压钳关键点1、液压钳关键点2以及钻杆关键点。而由未引入转置卷积的特征融合网络对主干网络提取的特征图处理后的特征图如图11所示，图11中，由于未引入转置卷积的特征融合网络难以克服特征图分辨率变小的问题，因而导致难以识别出图中的关键点信息。由于本模型最终是通过热力图对输入图像中的目标进行预测输出的，而热力图提取输出的方法需要最终的空间分辨率比较大，也就是需要保证一定的尺寸大小才能得到准确的输出，因此，就需要通过特征融合网络对主干网络的输出进行反卷积处理。

11、将尺寸为128*128*256的目标检测特征图经过预测输出网络的第一至第三卷积层卷积处理后，分别输出尺寸为128*128*3（128*128表示热力图的宽和高，热力图中包含目标中心点的坐标信息，3表示目标检测的总类别数【钻杆、液压钳、工作人员】）的热力图（Heatmap）、尺寸为128*128*2（128*128表示热力图的宽和高，2表示中心点坐标的横纵坐标偏移量）的中心点坐标的偏移量（Offset）、尺寸为128*128*2（128*128表示热力图的宽和高，2表示两张尺寸为128*128的热力图，一张对应宽，另一张对应高，这两张图中的每个像素点分别预测宽、高，其中，每个像素点与热力图中的目标像素一一对应）的目标框的宽高尺寸（Size）；

12、将尺寸为128*128*256的关键点检测特征图经过预测输出网络的第四和第五卷积层卷积处理后，分别输出尺寸为128*128*2的热力图（Heatmap）、尺寸为128*128*2的中心点坐标的偏移量（Offset）。

基于上述训练过程可知，当模型能够输出热力图（Heatmap）、中心点坐标的偏移量（Offset）、目标框的宽高尺寸（Size）时，可以判定图像中存在钻杆、液压钳和作业人员。

相比现有的采用回归方式计算坐标，本申请采用了热力图的方式对关键点进行了计算。热力图本质上是高斯热图，主要是让模型学习输出的目标分布，可以看成模型单纯地在学习一种滤波方式，将输入的图片滤波成为最终希望得到的热力图即可，这极大的简化了模型的学习难度，且更契合卷积网络的特性（卷积也可看成是一种滤波），这种方式规定了学习的分布，相对于除了结果外其他内部都是黑盒的回归计算方式，热力图对各种情况的（遮挡、模糊等）的检测鲁棒性要高得多（相比回归计算，热流图最大的区别在于空间泛化能力更强。

空间泛化能力是指模型在训练期间在一个位置获得的知识在预测阶段推广到另一个位置的能力。例如在训练阶段有一个钻杆一直在图片左上角，但预测阶段钻杆放在右下角，如果网络能正确检测，则说明该网络具备空间泛化能力。而回归计算则会极大损害空间泛化能力，因为其计算过程中会通过reshape拉成一维向量。因此，即使存在遮挡或模糊等情况，热力图都能在图像的任意位置找到最可能存在的目标；而回归计算则更容易聚焦在某些特定的位置，在面对各种复杂情况时，识别效果并不太好。同时，热力图输出的特征图较大，通常为原图的1/4，而回归计算的特征图通常不到原图的1/10，图越大，计算得到的坐标点精度越高）。热力图如图8所示，标注的数据会在训练时转换为热力图形式，最终识别的结果也会以热力图形式输出，再解析出目标框及关键点信息。

进一步的，如图10所示，将从热力图中解析（热力图的显示结果就是图8中黑色的高斯圆，这些高斯圆代表目标，高斯圆的图像表现为中心高斯值接近1，边缘接近0，每个类单独在一个热力图中，最后只需要将热力图中最亮的一部分点筛选出来即可）出来的液压钳关键点1和关键点2与钻杆关键点连接所形成的区域即为危险区域，也是需要预警的区域。当作业人员与预警区域相交，则表示有相应的操作风险，需要显示预警信息。而人员与预警界限相交的判定，需要根据检测到的人员目标框与预警界限进行判定，如图10所示，若模型输出的人员目标框的最底边与预警区域相交，则说明人员站在钻杆与液压钳之间，钻探作业期间存在较大的风险。

另一个实施例中，本申请还提供一种钻杆与液压钳间人员穿行检测装置，包括：

获取模块，用于获取钻探作业现场输入图像；

模型构建及训练模块，用于构建钻探作业现场检测模型，并对模型进行训练；

另一个实施例中，所述装置还包括：

另一个实施例中，本申请还提供一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于执行如前任一所述的方法。

另一个实施例中，本申请还提供一种电子设备，所述电子设备包括：

所述处理器执行所述程序时实现如前任一所述的方法。

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种钻杆与液压钳间人员穿行检测方法，其特征在于，所述方法包括以下步骤：

S100：获取钻探作业现场输入图像；

步骤S200中，对所述输入图像进行数据增强处理包括以下步骤：

S202：对初步增强处理后的输入图像通过Mixup算法进行混类或通过Mosaic算法进行拼接；

S300：构建钻探作业现场检测模型，并对模型进行训练；

具体的，所述主干网络由上至下包括依次连接的：

第一基础模块State0；

第二基础模块State1；

第三基础模块State2；

第四基础模块State3；

第五基础模块State4；

其中，

第一基础模块State0包括一个7×7卷积层Conv和一个最大池化层Maxpool；

第二基础模块State1包括依次连接的Black1层、Black2层和Black2层；

第五基础模块State4包括依次连接的Black1层、Black2层和Black2层；

其中，

Black1层采用残差结构，包括两个分支，其中一个分支由3个CBR层堆叠而成，另一个分支只有一个CBR层来调整通道，两个分支的输出相加连接；

Black2层由3个CBR层堆叠而成；

CBR层由一个普通卷积层Conv、一个批归一化层BN和一个RELU激活函数构成；

所述主干网络由5个基础模块构成，共计包含53层卷积神经网络；

所述特征融合网络由下至上依次包括：

注意力机制层CBAM；

第一转置卷积层TConv1；

第二转置卷积层TConv2；

第三转置卷积层TConv3；

注意力机制层CBAM采用的是通过使用两个残差结构层将通道注意力模块和空间注意力模块连接起来组成的混合注意力模块；

其中，通道注意力模块包括残差结构层，残差结构层的输出包括两个分支，第一分支包括依次连接的最大池化层、全连接层FC、ReLU激活函数层和Sigmoid激活函数层；第二分支包括依次连接的平均池化层、全连接层FC、ReLU激活函数层和Sigmoid激活函数层；第一分支的Sigmoid激活函数层和第二分支的Sigmoid激活函数层的输出共同输入矩阵全乘操作层Scale，矩阵全乘操作层的输出和注意力机制层CBAM的输入叠加后输出并作为空间注意力模块的输入；

空间注意力模块包括残差结构层，残差结构层的输出分别通过最大池化层和平均池化层后依次输入拼接层、卷积层Conv和Sigmoid激活函数层；

所述第一至第三转置卷积层对由主干网络提取的特征图依次进行反卷积处理，输出目标检测特征图和关键点检测特征图；

所述钻探作业现场检测模型还包括预测输出网络，预测输出网络包括并列的5个卷积层，即第一卷积层、第二卷积层、第三卷积层、第四卷积层和第五卷积层；

所述目标检测特征图经过预测输出网络的第一至第三卷积层卷积处理后，分别输出第一热力图、第一中心点坐标的偏移量和目标框的宽高尺寸；

所述关键点检测特征图经过预测输出网络的第四和第五卷积层处理后，分别输出第二热力图和第二中心点坐标的偏移量；

从热力图解析出来的液压钳关键点1和关键点2与钻杆关键点连接所形成的区域即为危险区域，也是需要预警的区域；人员与预警界限相交的判定，根据检测到的人员目标框与预警界限进行判定，若模型输出的人员目标框的最底边与预警区域相交，说明人员站在钻杆与液压钳之间，钻探作业期间存在较大风险；

步骤S300中，所述钻探作业现场检测模型通过以下步骤进行训练：

S301：收集多张包含钻杆和液压钳以及作业人员位于钻杆和液压钳间危险区域的钻探作业现场图像，对每张图像中的钻杆、钻杆关键点和液压钳、液压钳的关键点以及作业人员进行标注，以获得多张标注好的作业现场图像；

所述损失函数采用三种损失函数，包括用于计算热力图heatmap 的损失、用于计算中心点偏移的损失和用于计算目标框长宽尺寸的损失，总的损失函数计算如下：

=++0.1*;

中心点及关键点检测采用的是热力图方式，将标注的目标框以高斯核的方式将关键点分布到特征图上：

;

其中，表示检测到一个物体，表示对类别c来说，(x,y)这个位置检测到了c类目标；表示标注中心点的x坐标，表示标注中心点y坐标；x、y分别表示特征图的横、纵坐标；是一个目标大小相关的标准差，也可以看作是高斯圆的半径相关参数，由于标注框与预测框的IOU（交并比）大于等于0.7，这些预测框的中心点出现的位置汇聚起来可以看作是高斯圆的半径；

;

其中，N表示关键点个数，与的值分别为2和4；表示一个关键点样本的标签值，是一个样本的预测值，x、y分别表示关键点热力图的横坐标和纵坐标，c表示所属的类别；

当：

当时，，损失为0，这是最理想的状态；

当时，值越大，权重越小，损失越小，即会鼓励的值增大；

其他情况：

当时，表示当前坐标点为负样本，目标是让越小越好；

的作用：当越小/越大，权重也越小/越大，即让损失减小/增大，减小/增大惩罚；

的作用：当关键点远离标签中心点，，此时，对关键点损失没有影响；当关键点处于标注中心点的高斯范围内时，，此时，即让关键点损失减小；所以是用于弱化标注中心点高斯圆范围内的负样本损失，而惩罚远离标注中心点的预测关键点；

损失表示如下：

;

其中，N表示关键点个数；P表示标注的关键点坐标；表示预测的关键点坐标；表示预测的关键点坐标偏移；R表示下采样因子， R=4；

损失表示如下：

；

其中，N表示关键点个数；表示每个关键点预测的宽高；表示标注的关键点的宽高；p_k表示预测的点所代表的目标，k表示实际目标；

S305：利用测试集对训练后的模型进行测试，在测试过程中，以平均精准度AP作为指标对模型进行评价，若平均精准度AP满足阈值，则模型测试通过；否则调整训练参数对模型重新进行训练，直至模型测试通过；

2.一种用于实现如权利要求1所述方法的钻杆与液压钳间人员穿行检测装置，其特征在于，所述装置包括：

获取模块，用于获取钻探作业现场输入图像；

3.根据权利要求2所述的装置，其特征在于，所述装置还包括：

4.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于执行如权利要求1所述的方法。

5.一种电子设备，其特征在于，所述电子设备包括：

所述处理器执行所述程序时实现如权利要求1所述的方法。