CN113936299A

CN113936299A - 建筑工地中危险区域检测方法

Info

Publication number: CN113936299A
Application number: CN202111210259.5A
Authority: CN
Inventors: 张艳波; 高钰敏; 谢邦天; 曹志勇; 聂道静; 刘艳; 付梦哲; 林仲晨; 蔡小雨
Original assignee: Weite Technologies Co ltd
Current assignee: Weite Technologies Co ltd
Priority date: 2021-10-18
Filing date: 2021-10-18
Publication date: 2022-01-14

Abstract

本发明提供了一种建筑工地中危险区域检测方法，通过上下文感知预测模块对待识别图像进行特征提取，得到多个尺度的特征图集，再对多个尺度的所述特征图集进行整合与特征增强，得到增强特征图，最后利用识别算法进行检测。解决了传统检测方法受限于摄像头的自身条件以及现场环境对图像特征提取检测效果，而且对遮挡或重叠小目标检测效果仍然不理想的技术问题。因为在提取特征尺度上的丰富性，使得在特征增强的过程，不容易发生特征丢失，因此使得后续利用识别算法得到建筑工地中危险区域的检测结果更为准确，提高目标的检测效果，提高了算法鲁棒性。

Description

建筑工地中危险区域检测方法

技术领域

本发明涉及智能建筑施工技术领域，尤其涉及一种建筑工地中危险区域检测方法、检测模型训练方法。

背景技术

在吊车施工过程中，人为操作不当和风载、摩擦、撞击等外界扰动会对系统稳定造成影响，进而引发吊绳断裂、吊绳脱钩、吊钩折断、负载洒落等危险。因此，台车吊运负载下方一定半径范围内需要设定危险区域。行人擅自侵入该危险区域可能会造成施工生产安全事故。

为预防此类事故的发生，因此出现了基于公开号为CN 112966589A的中国专利公开了“一种在危险区域的行为识别方法”，根据所述在危险区域的行为识别方法，能有效解决现有检测方法受限于摄像头的自身条件以及现场环境对图像特征提取检测效果的问题，但其对遮挡或重叠小目标检测效果仍然不理想。

发明内容

针对现有技术中所存在的不足，本发明提供了一种建筑工地中危险区域检测方法，以解决相关技术中传统技术检测效果不够好，特别是对遮挡或重叠小目标检测效果不理想的技术问题。

根据实施例，本发明提供了一种建筑工地中危险区域检测方法，所述方法包括：

获取目标区域的待识别图像；根据上下文感知预测模块对待识别图像进行特征提取，得到多个尺度的特征图集；对多个尺度的所述特征图集进行整合与特征增强，得到增强特征图；对所述增强特征图进行识别，获取目标区域的检测结果。

可选地，根据上下文感知预测模块对待识别图像进行特征提取，得到多个尺度的特征图集，包括：根据提取的尺度参数，将上下文感知预测模块中的编码器和相应解码器自顶向下分层，得到分层结构；根据分层结构对待识别图像进行分层逐级特征提取，得到多个尺度的特征图集。

可选地，根据上下文感知预测模块对待识别图像进行特征提取，得到多个尺度的特征图集，包括：根据64个大小3×3卷积核构成的输入层E⁽⁰⁾对待识别图像进行卷积，得到输入特征集；根据编码器和相应解码器自顶向下的分层结构，对输入特征集逐级提取多层的多个尺度的特征图集。

可选地，所述编码器包括：通过卷积模块后进行池化操作的第一类编码器和通过残差模块后不进行池化的第二类编码器。

可选地，根据分层结构对待识别图像进行分层逐级特征提取，得到多个尺度的特征图集，包括：每个非底层编码器分别向下级编码器和向同层解码器输出；每个非底层解码器将下层解码器输出和同层编码器输出的拼接作为输入；最底层编码器向空间感知模块和向同层解码器输出，最底层的解码器将空间感知模块的输出和同层编码器输出的拼接作为输入；将每个解码器的输出作为所述多个尺度的特征图集。

可选地，编码器与解码器关系如下所示：

其中，E表示编码器，D表示解码器，O表示输出，i表示输入，n表示总层数；

分别指的是第l个编码器的输出，第l个解码器的输入，第l个解码器的输出；U^(l ⁺¹⁾是对第l+1个解码器的输出进行上采样操作，

是空间感知模块的输出，

表示拼接操作；

和/或；

所述空间感知模块的输出，包括：将最底层编码器的输入通过三个膨胀率不同的3×3卷积层和一个1×1卷积层，分别得到四个空间感知特征图，将四个空间特征图进行拼接、归一化处理和激活函数处理，得到与输入相同大小的空间感知模块的输出。

可选地，对多个尺度的所述特征图集进行整合与特征增强，得到增强特征图，包括：

将所述特征图集X展开为[x₁,x₂,...,x_c]，其中x_i∈R^W×H是X的第i层特征图，C是通道总数，对每个所述x_i全局平均，得到通道级特征向量v,v∈R^C；

分别对通道级特征向量v进行卷积和归一化操作，得到归一的通道级特征向量v'；

根据所述归一的通道级特征向量v'对多个尺度的所述特征图X进行加权融合得到输出融合增强特征

对输出融合增强特征

进行卷积，得到增强特征图。

可选地，分别对通道级特征向量进行卷积和归一化操作，得到归一的通道级特征向量，如下式所示：

其中，W表示特征图的宽度尺寸，v表示通道级特征向量，σ指的是Sigmoid运算，进行归一化并映射到[0,1]；

为卷积核大小为k的一维卷积运算，其中k的取值如下式

其中|t|_odd表示距离t最近的奇数，设置r＝2，b＝1。

可选地，获取目标区域的待识别图像之前，还包括：

将训练选集输入包含所述上下文感知预测模块、特征混合增强的模块和识别算法的检测模型的初始模型；

计算整体损失函数值L，L计算方式如下；

K指的是总输出的个数，α_k指的是每个损失的权值，全部设置为1；其中l^(k)为混合损失，

为BCE损失，

为SSIM损失；

根据所述整体损失函数值L在梯度函数求导反向传播，得到目标的检测模型参数；

根据目标检测模型参数，得到目标检测模型。

根据实施例，本发明还提供了一种建筑工地中危险区域检测装置，所述装置包括：

获取模块，用于获取目标区域的待识别图像；

上下文感知预测模块，用于对待识别图像进行特征提取，得到多个尺度的特征图集；

特征混合增强的模块，用于对多个尺度的所述特征图集进行整合与特征增强，得到增强特征图；

识别模块，用于对所述增强特征图进行识别，获取目标区域的检测结果

相比于现有技术，本发明具有如下有益效果：

本发明技术中，通过上下文感知预测模块对待识别图像进行特征提取，得到多个尺度的特征图集，再对多个尺度的所述特征图集进行整合与特征增强，得到增强特征图。因为通过提取特征时，在尺度上的丰富性，再通过特征混合增强的模块在丰富的特征尺度基础上进一步通过整合和特征增强，将可识别的特征显著化，使得更易识别，而且因为尺度的丰富性，在特征增强的过程，不容易发生特征丢失，因此使得后续利用识别算法得到建筑工地中危险区域的检测结果更为准确，提高目标的检测效果，提高了算法鲁棒性。

附图说明

图1为本发明一实施例中的一种建筑工地中危险区域检测方法流程图；

图2为本发明一实施例中检测模型结构示意图。

具体实施方式

本发明的说明书和权利要求书及上述附图中的术语“包括”、“具有”、“含”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。本文中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征可以忽略，或不执行，另外，所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块之间的间接耦合或通信连接可以是电性或其他类似的形式，本文中均不作限定。并且，作为分离部件说明的模块或子模块可以是也可以不是物理上的分离，可以是也可以不是物理模块，或者可以分布到多个电路模块中，可以根据实际的需要选择其中的部分或全部模块来实现本发明实施例方案的目的。应当理解的是，若提及一元件/模块“连接”或者“联接”到另一元件/模块时，其可以直接地连接或直接地联接到另一元件/模块或者也可以存在元件/模块。相反地，当提及一元件/模块“直接地连接”或“直接地联接”到另一元件/模块时，则不存在中间元件/模块。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本发明是参照根据本发明实施例的方法、设备(系统)，和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。本方法实际上包括，可以在不同公司完成本方法的一步或几步，分别达到该步骤的小目标，再整合起来达到本发明的目的。本方法的步骤，只是逻辑上的一种划分，并不是严格的时间顺序。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

参见图1和图2，本发明提供了一种建筑工地中危险区域检测方法，所述方法包括：

本例中，可以通过获取监控视频，并对所述监控视频进行抽帧处理，获得监控视频中对象帧的预识别图像。再根据监控设备编号，对预识别图像重命名，并且根据图像尺度归一化和图像标准化，对预识别图像进行图像预处理，得到待识别图像。然后就可以后续利用预训练好的检测模型(包括上下文感知预测模块和特征混合增强模块以及识别算法)。上下文感知预测模块能够有效的提取全局信息和细节信息，获得特征图集。而特征混合增强模块可以将上下文感知预测模块输出的带有全局信息和细节信息的特征图集进行充分的筛选提取，最终获得结构更加完整清晰的增强特征图。再通过分类或识别检测的算法\分类或识别检测的网络结构，对建筑工地中吊车危险区域进行检测，得到检测目标区域结果，比如标注吊车危险区域的图像信息等等。或者，检测出吊车危险区域出现人，则立即发出危险警示，语音提示该“迅速离开危险区域”等等。

步骤S101获取目标区域的待识别图像。

本例中，可以在吊车作业现场布局摄像头，使整个吊车都在视频画面内，接着进行图像预处理，使得图像重新命名的名称与监控设备相对应。而且，因为监控设备往往可能是以录制视频的形式，因此要将视频转换为待识别图像，就需要对视频做抽帧处理，可以每秒25帧速率抽帧，然后对每一帧进行图像尺度归一化和图像标准化，得到目标区域的待识别图像输入。

步骤S102根据上下文感知预测模块对待识别图像进行特征提取，得到多个尺度的特征图集。

本例中，上下文感知预测模块通过提取多个尺度的特征图集，能够有效的提取全局信息和细节信息。

本例中，如图2所示，上下文感知预测模块可为编码器E⁽¹⁾～E⁽⁶⁾与解码器D⁽¹⁾～D⁽⁶⁾构成的U型结构，可以有效的获取低层和高层的信息。对于主干网络提取的多尺度信息，U型结构使用自顶向下的方式分为多个层级进行逐级融合。其中逐级融合的方法保证了上采样恢复出来的特征更精细，能更好的保留低层细节信息，多层级特征的融合保证了可以汇集多尺度信息，能更好的保留高层全局信息。

本例中，如图2所示，可以采用类似ResNet-34的网络结构作为主干网络，与其的区别是去除其最后两个全连接层和最后一个池化层，并且改变了ResNet-34网络原有的输入层，将64个大小3×3卷积核构成本例中网络的输入层E⁽⁰⁾，这是因为输入层使用的卷积核大小为7×7，stride被设置为2，这会导致引入了过多的参数，从而损失了图像的细节信息，不能适应解决对建筑工地中危险区域检测识别的具体问题。

然后，利用如图2所示E(1)～E(4)，具体可选的尺寸如图所示，采用类似于ResNet-34的4组卷积块后进行池化操作，此时得到的特征图大小(WXH)为如图E(1)～E(4)的特征图尺寸分别为224x224，112x112，56x56，28x28。再通过加入两组卷积块(如图所示E(5)、E(6))以提高模型容量以充分提取高层级语义信息，这两组卷积块是由三个拥有512个卷积核的普通残差块组成，尺寸为14x14。为了提高该模块提取特征图的清晰度，这两个卷积块就不再使用池化模块，保持特征图大小不再变化。

本例中，如图2所示，编码器E⁽¹⁾～E⁽⁶⁾与解码器D⁽¹⁾～D⁽⁶⁾构成的U型结构，并且在编码器与解码器连接处增加一个空间感知模块(如图2所示的SAM:Spatial-Aware Module)以进一步捕获全局语义信息。如图2所示上下文感知预测模块的解码器和编码器几乎完全对称，图示为六对编码器和解码器，分别被记作E^(l),D^(l)(l∈{1,2,3,4,5,6})。E⁽¹⁾～E⁽⁶⁾如上所述，并且分别向下级编码器和向同层解码器输出(而E⁽⁶⁾为向SAM和D⁽⁶⁾输出)；而每个解码器由三个卷积块组成，其中每个卷积块依次由卷积层，批归一化层，激活函数层组成。每个解码器的输入由前一个阶段的解码器的输出与对应的编码器拼接产生，这里的拼接可以采用常见的Add操作，即张量相加，但维度不会扩充。例如14x14x512 add 14x14x512得到14x14x512。如果特征图大小不匹配，则对解码器产生的特征图进行上采样，使其大小一致。每层的解码器的输出为当层的特征图集，如图2所示的E⁽¹⁾～E⁽⁶⁾就输出了不同层的多个尺度的特征图集。

可选地，编码器与解码器关系如下所示：

是空间感知模块的输出，

表示拼接操作。。

本例中，如图2所示，n取值为6。但在不影响本发明目的的前提下，本领域技术人员可以不花费创造性劳动，设置n的取值，另外上采样可以在不影响发明目的前提下，使用常用的各种方式。

可选地，所述空间感知模块的输出，包括：将最底层编码器的输入通过三个膨胀率不同的3×3卷积层和一个1×1卷积层，分别得到四个空间感知特征图，将四个空间特征图进行拼接、归一化处理和激活函数处理，得到与输入相同大小的空间感知模块的输出。

本例中，是说明空间感知模块可选的一个结构，它包含三个膨胀率不同的3×3卷积层和一个1×1卷积层(比如膨胀率分别为3、5、7，使得卷积核的感受野大小不同。)，在经过这些卷积层后产生四个大小相同的特征图，在将其拼接，经过批归一化和ReLU激活函数处理后，能够得到和输入大小相同的特征图。

步骤S103对多个尺度的所述特征图集进行整合与特征增强，得到增强特征图。

将所述特征图集X展开为[x₁,x₂,...,x_c]，其中x_i∈R^W×H是X的第i层特征图，C是通道总数，对每个所述x_i全局平均，得到通道级特征向量v,v∈R^C；WxH是特征图尺寸，W为宽，H为高；

对输出融合增强特征

进行卷积，得到增强特征图。

为卷积核大小为k的一维卷积运算，其中k的取值如下式

其中|t|_odd表示距离t最近的奇数，设置r＝2，b＝1，lb(C)表示对C求以2为底的对数。

本例中，是说明利用特征混合增强的模块，充分聚合多尺度的图像信息，对全局信息和细节信息进行充分的筛选提取，并对得到的信息进行有效的整合，生成增强特征图。对输出融合增强特征

进行卷积，得到增强特征图，所采用的卷积方式可以是通过卷积核个数分别为256，64，32的三组卷积块进行卷积操作，每组卷积块依次由卷积层，批归一化层，激活函数层组成。

通常情况下，CA模块为通道注意力模块，激励函数使用的是全连接神经网络，

f{w₁,w₂}(X)＝w₂ReLU(w₁X)

其中，w₁与w₂的参数量分别为

和

a为降维比例因子。

然而这使得模型容易发生过拟合，影响模型的泛化性能，并且为了减少参数量进行了通道降维,这对于特征的深层次融合和细节保留是致命的。因此，本实施例中，使用ECA模块(高效通道注意力模块)给定通过全局平均池(GAP)获得的聚集特征，ECA通过执行大小为k的快速1D卷积来生成信道权重，而且其中k如上所述通过维度C的映射自适应地确定，在此使用一维卷积作为激励函数，极大的缓解了CA模块的问题。其中，Ca的参数量与ECA模块激励函数一维卷积函数的参数量k相比，其比值为

步骤S104对所述增强特征图进行识别，获取目标区域的检测结果。

本例中，如图2所示，可以通过Saliency may对所述增强特征图进行识别，获取目标区域的检测结果。另外，图2中的supervision1～8表示监督窗口，用于监督和观察模型的运行情况。

可选地，获取目标区域的待识别图像之前，还包括：

计算整体损失函数值L，L计算方式如下；

为BCE损失，

为SSIM损失；

根据目标检测模型参数，得到目标检测模型。

本例中，BCE损失函数是像素级的损失函数，不考虑邻域的像素值，对所有像素的权重相等，有助于在所有像素上收敛，但是容易导致特征缺失和区域一致性差的问题，计算方法为：

其中G(r,c)∈{0,1}是像素(r,c)真实图中的像素值，S(r,c)∈[0,1]是显著性目标像素的预测概率。

SSIM损失函数可以捕捉到图像的结构信息，被整合到训练损失中去学习图像真实图中的结构信息。SSIM损失被定义为：

其中，μ_x,μ_y,σ_x,σ_y分别是x，y的均值和标准差，σ_xy是他们的协方差，为了防止分母为0而导致上溢，设置C₁＝0.01²和C₂＝0.03²。

区域增强损失(regional au gmentation,RA)损失函数增强了区域内像素的一致性，缓解特征缺失。区域增强损失(regional au gmentation,RA)损失函数被定义为：

其中，

|TP|,|FP|,|FN|分别表示真阳性，假阳性和假阴性区域像素值的和，α，β，γ分别用于控制|FP|,|FN|,|TP|的惩罚程度，其中α+β＝1。G(r,c)∈{0,1}是像数值(r,c)的真实图标签，S(r,c)∈{0,1}是显著性的目标预测概率。当α＝β＝γ＝1，该损失退化为IOU损失。通过增大γ，调整β大于α，RA损失函数可以控制不同区域的惩罚程度，减少显著图的前景缺失。

损失函数用于衡量模型的预测的好坏。上述三者结合在一起，通过训练和学习不断优化网络参数，就可以使得目标检测模型对建筑工地中吊车危险区域检测效果更好。

获取模块，用于获取目标区域的待识别图像；

值得说明的是，上述提到的具体实施方式，比如在S101，S102，S103，S104提到各种可选的方式，都有本领域人员不需要创造性劳动即可替换的可能实施的方式，并且这些实施方式在各个步骤都可以在能够实现本发明目的的前提下，任意选择或者不选择，相互组合或结合组成的步骤，也应在本发明权利的保护范围之内。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。