CN116993732B

CN116993732B - 一种缝隙检测方法、系统和存储介质

Info

Publication number: CN116993732B
Application number: CN202311253055.9A
Authority: CN
Inventors: 蒋庆; 李赛; 晋强; 梁雨; 叶冠廷; 沈梦婷; 毛逸飞
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2023-12-26
Anticipated expiration: 2043-09-27
Also published as: CN116993732A

Abstract

本发明涉及混凝土裂缝监测和计算机技术领域，尤其是一种缝隙检测方法、系统和存储介质。本发明对传统的YOLOv7模型进行结构优化，将传统的YOLOv7模型中的将传统的YOLOv7模型中的第一Concat拼接网络替换为第一multicat拼接网络，将第二Concat拼接网络替换为第二multicat拼接网络。本发明扩大了模型的感受野，使其能够捕捉到更广阔的场景信息了，提高对复杂场景和大尺度目标的识别和理解能力，从而提高了模型的精度和实例分割的适应性。

Description

一种缝隙检测方法、系统和存储介质

技术领域

本发明涉及混凝土裂缝监测和计算机技术领域，尤其是一种缝隙检测方法、系统和存储介质。

背景技术

混凝土是桥梁、隧道、大坝和其他基础设施中最常见的材料之一。由于温度、过载、腐蚀和定期维护不足的影响，存在各种类型的缺陷，并可能造成基础设施系统功能丧失和安全受损。混凝土结构例如道路的定期检修对保证结构安全十分重要。

随着计算机技术的发展，各种机器学习方法促进了远程、非接触的混凝土结构检测的发展。目前，常用的YOLOv7模型在道路检测上经常被用到，是当前效果较为稳定、优异的模型。

但是，YOLOv7模型并不是专为裂缝检测所构建的模型结构，其在裂缝检测上的性能需要进一步提高。尤其，YOLOv7模型等机器学习模型输出的结果为输入图像上的裂缝定位和类别，输出结果难以直观的让用户对裂缝形成形象的认知。为了克服该问题，目前常常将裂缝检测模型与用于实例分割的分割头一起使用，分割头可结合裂缝检测结果从原始图像上分割裂缝图像，并对裂缝的尺寸和走向进行标注，便于用户对裂缝产生形象认知。

而目前裂缝检测中忽视了机器学习模型对实例分割的影响，造成计算实现的实例分割并不理想。并且在检测过程中还需要专人对裂缝检测结果进行理解，造成裂缝检测工作专业度高、效率低。

发明内容

为了克服上述现有技术道路裂缝检测专业度高、效率低的缺陷，本发明提出了一种缝隙检测方法，可实现远程高精度监测道路缝隙，并实现精确的实例分割，便于用户形象了解裂缝情况。

本发明提出的一种缝隙检测方法，通过机器学习的目标检测模型对混凝土图像进行识别，以获取裂缝信息，裂缝信息包括裂缝类别；目标检测模型的获取包括以下步骤：首先获取基础模型和学习样本，学习样本为标注有裂缝类别的混凝土损伤图像；然后令基础模型对学习样本进行机器学习，获取收敛后的基础模型作为目标检测模型；

基础模型对传统的YOLOv7模型进行结构优化后获得，优化方式为：将传统的YOLOv7模型中的第一Concat拼接网络替换为第一multicat拼接网络，将第二Concat拼接网络替换为第二multicat拼接网络；第一multicat拼接网络和第二multicat拼接网络结构相同，统称为multicat网络；

multicat网络包括平均池化层、最大池化层和第七Concat拼接网络；multicat网络设有第一输入端、第二输入端和第三输入端；平均池化层和最大池化层均连接multicat网络的第一输入端，multicat网络的第一输入端的输入数据经过平均池化和最大池化后再进行维度叠加，叠加后的数据与multicat网络的第二输入端的输入数据以及multicat网络的第三输入端输送到第七Concat拼接网络进行维度采样，第七Concat拼接网络的输出作为multicat网络的输出；

第一multicat网络的第一输入端的输入为基础模型中任一层网络的输出，第一multicat网络的第二输入端连接第三CBS-3网络的输出端，第一multicat网络的第三输入端连接第一UPSample网络的输出端；第一multicat网络的输出端连接第一ELAN-W网络的输入端；

第二multicat网络的第一输入端的输入为基础模型中任一层网络的输出，第二multicat网络的第二输入端连接第四CBS-3网络的输出端，第二multicat网络的第三输入端连接第二UPSample网络的输出端；第二multicat网络的输出端连接第二ELAN-W网络的输入端。

优选的，第一multicat网络的第一输入端的输入为第二ELAN网络的输出端。

优选的，第二multicat网络的第一输入端的输入为第一ELAN网络的输出。

优选的，相对于传统的YOLOv7模型，基础模型还包括第十五Conv卷积网络、第八Concat拼接网络、第十六Conv卷积网络、第九Concat拼接网络、第十七Conv卷积网络和第十Concat拼接网络；

第十五Conv卷积网络的输入连接第二ELAN网络的输出，第十五Conv卷积网络的输出连接第八Concat拼接网络的输入，第八Concat拼接网络的输入还连接第二ELAN-W网络的输出；第一输出网络中REP网络的输入端分别连接第八Concat拼接网络的输出和第二ELAN-W网络的输出；

第十六Conv卷积网络的输入连接第三ELAN网络的输出，第十六Conv卷积网络的输出连接第九Concat拼接网络的输入，第九Concat拼接网络的输入还连接第三ELAN-W网络的输出；第二输出网络中REP网络的输入端分别连接第九Concat拼接网络的输出和第三ELAN-W网络的输出；

第十七Conv卷积网络的输入连接第四ELAN网络的输出，第十七Conv卷积网络的输出连接第十Concat拼接网络的输入，第十Concat拼接网络的输入还连接第四ELAN-W网络的输出；第三输出网络中REP网络的输入端分别连接第十Concat拼接网络的输出和第四ELAN-W网络的输出。

优选的，相对于传统的YOLOv7模型，

对传统的YOLOv7模型进行结构优化获取基础模型的方式还包括：将传统的YOLOv7模型中的第一ELAN网络、第二ELAN网络、第三ELAN网络和第四ELAN网络均替换为Mycontact-4网络，将第一ELAN-W网络、第二ELAN-W网络、第三ELAN-W网络和第四ELAN-W网络均替换为Mycontact-6网络；

Mycontact-4网络包括第一Conv卷积网络、第二Conv卷积网络、第三Conv卷积网络、第四Conv卷积网络、第五Conv卷积网络、第六Conv卷积网络、第五Concat拼接网络和第七Conv卷积网络；第二Conv卷积网络、第三Conv卷积网络、第四Conv卷积网络、第五Conv卷积网络和第六Conv卷积网络顺序连接，第二Conv卷积网络的输入端连接第一Conv卷积网络的输入端；第一Conv卷积网络的输出端、第二Conv卷积网络的输出端、第四Conv卷积网络的输出端和第六Conv卷积网络的输出端均连接第五Concat拼接网络的输入端，第五Concat拼接网络的输出端连接第七Conv卷积网络的输入端；第一Conv卷积网络的输入端作为Mycontact-4网络的输入端，第七Conv卷积网络的输出端作为Mycontact-4网络的输出端；

Mycontact-6网络包括第八Conv卷积网络、第九Conv卷积网络、第十Conv卷积网络、第十一Conv卷积网络、第十二Conv卷积网络、第十三Conv卷积网络、第六Concat拼接网络和第十四Conv卷积网络；第九Conv卷积网络、第十Conv卷积网络、第十一Conv卷积网络、第十二Conv卷积网络和第十三Conv卷积网络顺序连接，第九Conv卷积网络的输入端连接第八Conv卷积网络的输入端；第八Conv卷积网络的输出端、第九Conv卷积网络的输出端、第十Conv卷积网络的输出端、第十一Conv卷积网络的输出端、第十二Conv卷积网络的输出端和第十三Conv卷积网络的输出端均连接第六Concat拼接网络的输入端，第六Concat拼接网络的输出端连接第十四Conv卷积网络的输入端；第八Conv卷积网络的输入端作为Mycontact-6网络的输入端，第十四Conv卷积网络的输出端作为Mycontact-6网络的输出端。

优选的，还包括：将混凝土图像输入目标检测模型后，将目标检测模型的检测结果和目标检测模型的输入传输到设定的分割头中，分割头对混凝土图像中的裂缝进行实例分割。

本发明提出的一种缝隙检测系统，包括图像获取模块、目标检测模型、分割头和裂缝展示模块；

图像获取模块用于获取待识别的混凝土图像；目标检测模型用于识别混凝土图像上的裂缝，分割头用于对混凝土图像中的裂缝进行实例分割，分割头将分割出的裂缝发送到裂缝展示模块进行显示。

本发明提出的一种缝隙检测系统，包括存储器和处理器，存储器中存储有计算机程序，处理器连接存储器用于执行所述计算机程序，以实现所述的缝隙检测方法。

本发明提出的一种存储介质，存储有计算机程序，计算机程序被执行时用于实现所述的缝隙检测方法。

本发明的优点在于：

（1）本发明提出的缝隙检测方法，在YOLOv7基础上针对混凝土裂缝检测进行结构优化，本发明最终获得的目标检测模型，不仅在目标检测上实现了性能提升，还更加适应混凝土裂缝检测的实例分割，有利于提高裂缝分割的精度，便于用户直观认知裂缝，避免了用户解读目标检测数据的专业性限制。

（2）本发明中，采用multicat网络将模型中来自更早的信息进行融合，这部分信息在进入multicat网络后，会同时进行平均池化和最大池化，再对两部分内容进行相加。通过平均池化，可以计算区域内像素值的平均值，提取整体分布特征。而最大池化则选取区域内最显著的特征，对于边缘、纹理等局部特征有较好的响应。池化操作通过将输入特征图划分为不重叠的区域，并对每个区域进行汇聚（取平均或取最大值）来减小空间尺寸。池化操作可降低空间维度，这有助于减少计算量和参数数量，并使网络对平移和空间变化更加鲁棒。通过multicat网络进行多尺度融合，可以获得更全面、更丰富的特征表达，提高模型对目标物体的表示能力。此外，还可以扩大模型的感受野，使其能够捕捉到更广阔的场景信息。

（3）采用multicat网络可引入不同尺度的特征，使得模型可以更好地理解整个场景的上下文和全局信息，从而提高对复杂场景和大尺度目标的识别和理解能力。并且，图像中的物体可能存在尺度变化，这给目标检测、跟踪和分割等任务带来挑战。通过多尺度融合，可以使模型对尺度变化具有一定的鲁棒性。不同尺度的特征可以互补地提供关于目标物体的信息，从而增强模型对尺度变化的适应能力。

（4）本发明中通过增加的Conv卷积网络和Cancat拼接网络，将模型靠前的浅层特征和靠后的深层特征进行融合；由于YOLO中特征图从浅层到深层逐渐减小，每个层次的特征都包含不同级别的语义信息，通过融合这些不同层次的特征，网络可以同时捕捉低级和高级的语义信息，提高对目标的理解能力。

（5）本发明在传统的YOLOv7基础上增加特征融合，使模型从不同卷积层中获取更丰富的语义信息，有助于提升模型对目标形状、纹理等更细节的理解，从而提高检测器的精确度。

（6）本发明优化过程中，针对每一个输出网络，在其前端设置由Conv卷积网络和Cancat拼接网络构成的加权特征融合模块，通过加权特征融合能够减轻特定层次特征的过度依赖，从而使得网络对于噪声、遮挡和不同环境条件下的目标检测鲁棒性更好。

（7）本发明中，通过Mycontact-4网络和Mycontact-6网络的设置，实现了对特征图的加权，能够提取到更有用的特征信息。本发明中，Mycontact-4网络和Mycontact-6网络配合，将图像的浅层特征和深层特征进行融合。浅层网络即Mycontact-4网络提取的特征与输入更接近，感受野较小，重叠区域也较小，因此可以捕获更多细节和像素级信息。而深层网络即Mycontact-6网络提取的特征与输出更接近，感受野增大，重叠区域增多，从而获取图像的整体性信息。通过融合这两部分特征，可以减少模型对单个特征的依赖性，提高模型的稳定性和准确性。特征融合还可以降低模型对噪声和异常值的敏感度，提高模型的鲁棒性。此外，由于这两种特征来自不同的层次，它们之间可能存在冗余或互补的关系。通过特征融合，可以将它们整合为更丰富、全面的特征表示，从而增强模型的表达能力。

附图说明

图1为传统的YOLOv7模型的结构图；

图2为模型YOLOv7-M的结构图；

图3为multicat网络的结构图；

图4为模型YOLOv7-MF的结构图；

图5为模型YOLOv7-WMF的结构图；

图6(a)为Mycontact-4网络的结构图；

图6(b)为Mycontact-6网络的结构图；

图7为实施例中目标检测上各模型性能对比图；

图8为实施例中实例分割上各模型性能对比图；

图9为实施例中分割结果展示图；

图10为本发明提出的缝隙检测方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了便于表述，本实施方式中，将对应尺寸P0×Q0的2ⁿ⁰层特征数据记作数据P0×Q0×2ⁿ⁰，即P0×Q0×2ⁿ⁰表示尺寸为P0×Q0的图像的2ⁿ⁰个维度上的特征，也可理解为有2ⁿ⁰个尺寸为P0×Q0的特征图像构成的图像数据。n0为任意正整数。值得注意的是，本实施方式中，定义(P/r)×(Q/r)×R表示尺寸为(P/r)×(Q/r)的图像的R个维度上的特征，即由R幅尺寸为(P/r)×(Q/r)的特征图像所描述的图像，P、Q和R均为任意正整数。为了画图方便，本实施方式的附图中，将(P/r)×(Q/r)×R表示为，将P0×Q0×2ⁿ⁰表示为，n0和r均为正整数。

参照图10，本发明提出的缝隙检测方法，首先对传统的YOLOv7模型进行优化，然后结合优化后的模型进行缝隙检测和分割。

传统的YOLOv7模型

由图1所示，传统的YOLOv7模型包括：骨干网络(backbone network)、颈部网络(Neck network)和头部网络(head network)。

骨干网络包括依次连接的第一CBS-1网络、第一CBS-2网络、第二CBS-1网络、第二CBS-2网络、第一ELAN网络、第一MP-1网络、第二ELAN网络、第二MP-1网络、第三ELAN网络和第三MP-1网络。

颈部网络包括依次连接的第四ELAN网络、SPPCSPC网络、第一CBS-3网络、第一UPSample网络、第一Concat拼接网络、第一ELAN-W网络、第二CBS-3网络、第二UPSample网络、第二Concat拼接网络、第二ELAN-W网络、第一MP-2网络、第三Concat拼接网络、第三ELAN-W网络、第二MP-2网络、第四Concat拼接网络和第四ELAN-W网络；颈部网络还包括第三CBS-3网络和第四CBS-3网络。

第三CBS-3网络的输入端连接第三ELAN网络的输出端，第三CBS-3网络的输出端连接第一Concat拼接网络的输入端；第一Concat拼接网络用于对第三ELAN网络的输出和第一UPSample网络的输出进行拼接。

第四CBS-3网络的输入端连接第二ELAN网络的输出端，第四CBS-3网络的输出端连接第二Concat拼接网络的输入端；第二Concat拼接网络用于对第二ELAN网络的输出和第二UPSample网络的输出进行拼接。

头部网络包括第一输出网络、第二输出网络和第三输出网络；第一输出网络、第二输出网络和第三输出网络结构相同，均由顺序连接的REP网络和CBM网络构成，REP网络的输入作为输出网络的输入，REP网络的输出连接CBM网络的输入，CBM网络的输出作为输出网络的输出。

第一输出网络的输入连接第二ELAN-W网络的输出，第二输出网络的输入连接第三ELAN-W网络的输出，第三输出网络的输入连接第四ELAN-W网络的输出。

YOLOv7输入尺寸为P×Q的图像，第一CBS-1网络提取图像特征获取数据P×Q×2^k，k为任意正整数；第一CBS-2网络将数据P×Q×2^k转换为数据(P/2)×(Q/2)×2^k+1，第二CBS-1网络对数据(P/2)×(Q/2)×2^k+1进行卷积，卷积结果经第二CBS-2网络转换为数据(P/4)×(Q/4)×2^k+2；数据(P/4)×(Q/4)×2^k+2经过第一ELAN网络转换为数据(P/4)×(Q/4)×2^k+3。

数据(P/4)×(Q/4)×2^k+3经过第一MP-1网络转换为数据(P/8)×(Q/8)×2^k+3，数据(P/8)×(Q/8)×2^k+3经过第二ELAN网络转换为数据(P/8)×(Q/8)×2^k+4。

数据(P/8)×(Q/8)×2^k+4经过第二MP-1网络转换为数据(P/16)×(Q/16)×2^k+4，数据(P/16)×(Q/16)×2^k+4经过第三ELAN网络转换为数据(P/16)×(Q/16)×2^k+5。

数据(P/16)×(Q/16)×2^k+5经过第三MP-1网络转换为数据(P/32)×(Q/32)×2^k+5，数据(P/32)×(Q/32)×2^k+5经过第四ELAN网络处理，第四ELAN网络输出数据(P/32)×(Q/32)×2^k+5。

第四ELAN网络输出的数据(P/32)×(Q/32)×2^k+5经过SPPCSPC转换为数据(P/32)×(Q/32)×2^k+4，数据(P/32)×(Q/32)×2^k+4经过第一CBS-3网络转换为数据(P/32)×(Q/32)×2^k+3，数据(P/32)×(Q/32)×2^k+3经过第一UPSample网络转换为数据(P/16)×(Q/16)×2^k+3。第三CBS-3网络将第三ELAN网络输出的数据(P/16)×(Q/16)×2^k+5转换为数据(P/16)×(Q/16)×2^k+3；第一Concat拼接网络将第一UPSample输出的数据(P/16)×(Q/16)×2^k ⁺³和第三CBS-3网络输出的数据(P/16)×(Q/16)×2^k+3维度拼接以获取并输出数据(P/16)×(Q/16)×2^k+4。

第一Concat拼接网络输出的数据(P/16)×(Q/16)×2^k+4经过第一ELAN-W网络转换为数据(P/16)×(Q/16)×2^k+3，数据(P/16)×(Q/16)×2^k+3经过第二CBS-3网络转换为数据(P/16)×(Q/16)×2^k+2，数据(P/16)×(Q/16)×2^k+2经过第二UPSample网络转换为(P/8)×(Q/8)×2^k+2。第四CBS-3网络将第二ELAN网络输出的数据(P/8)×(Q/8)×2^k+4转换为数据(P/8)×(Q/8)×2^k+2；第二Concat拼接网络将第二UPSample输出的数据(P/8)×(Q/8)×2^k+2和第四CBS-3网络输出的数据(P/8)×(Q/8)×2^k+2维度拼接以获取并输出数据(P/8)×(Q/8)×2^k+3。

第二Concat拼接网络输出的数据(P/8)×(Q/8)×2^k+3经过第二ELAN-W网络转换为数据(P/8)×(Q/8)×2^k+2，数据(P/8)×(Q/8)×2^k+2经过第一MP-2网络转换为数据(P/16)×(Q/16)×2^k+3；第三Concat拼接网络对第一MP-2网络输出的数据(P/16)×(Q/16)×2^k+3和第一ELAN-W输出的数据(P/16)×(Q/16)×2^k+3进行维度拼接以输出数据(P/16)×(Q/16)×2^k ⁺⁴。

第三Concat拼接网络输出的数据(P/16)×(Q/16)×2^k+4经过第三ELAN-W网络转换为数据(P/16)×(Q/16)×2^k+3，数据(P/16)×(Q/16)×2^k+3经过第二MP-2网络转换为数据(P/32)×(Q/32)×2^k+4；第四Concat拼接网络对第二MP-2网络输出的数据(P/32)×(Q/32)×2^k+4和SPPCSPC网络输出的数据(P/32)×(Q/32)×2^k+4进行维度拼接以输出数据(P/32)×(Q/32)×2^k+5。

第四Concat拼接网络输出的数据(P/32)×(Q/32)×2^k+5经过第四ELAN-W网络转换为数据(P/32)×(Q/32)×2^k+4。

第二ELAN-W网络的输出作为第一输出网络的输入，依次经过第一输出网络的REP网络和CBM网络处理后，第一输出网络输出数据(P/8)×(Q/8)×m，m为设定值。

第三ELAN-W网络输出数据(P/16)×(Q/16)×2^k+3，该第三ELAN-W网络的输出作为第二输出网络的输入，依次经过第二输出网络的REP网络和CBM网络处理后，第二输出网络输出数据(P/16)×(Q/16)×m。

第四ELAN-W网络输出数据(P/32)×(Q/32)×2^k+4，该第四ELAN-W网络的输出作为第三输出网络的输入，依次经过第三输出网络的REP网络和CBM网络处理后，第三输出网络输出数据(P/32)×(Q/32)×m。

YOLOv7模型根据三个输出层输出的(P/8)×(Q/8)×m、(P/16)×(Q/16)×m和(P/32)×(Q/32)×m进行检测，输出检测结果。

YOLOv7模型为本领域现有的模型结构，其中骨干网络、颈部网络、头部网络在YOLOv7模型中均有明确定义，属于本领域的技术常识。

本发明附图中为了便于表述，令各模型的输入为512×512×3的图像数据，即表示由3个尺寸为512×512的特征图像构成模型的输入；令P=Q=n，n为任意正整数；令m=(类别数量+3)×3；例如实施例中令裂缝类别分为横向裂缝、纵向裂缝和疲劳裂缝三类，则m=24。

第一种YOLOv7优化模型记作YOLOv7-M

由图2所示，相对于传统的YOLOv7模型，本实施方式中提出的模型YOLOv7-M，将第一Concat拼接网络替换为第一multicat拼接网络，将第二Concat拼接网络替换为第二multicat拼接网络。

第一multicat拼接网络和第二multicat拼接网络结构相同，统称为multicat网络。

由图3所示，multicat网络包括平均池化层mean-pooling、最大池化层max-pooling和第七Concat拼接网络；

multicat网络设有第一输入端、第二输入端和第三输入端；第一输入端输入数据(n/a)×(n/a)×(2g)，第二输入端输入数据(n/2a)×(n/2a)×g，第三输入端输入数据(n/2a)×(n/2a)×g。

平均池化层和最大池化层均连接multicat网络的第一输入端；平均池化层用于对数据(n/a)×(n/a)×(2g)进行平均池化并输出平均池化数据(n/a)×(n/a)×g；最大池化层用于对数据(n/a)×(n/a)×(2g)进行最大池化并输出最大池化数据(n/a)×(n/a)×g。

第七Concat拼接网络设置3个输入，其第一个输入为平均池化数据(n/a)×(n/a)×g和最大池化数据(n/a)×(n/a)×g维度叠加后的数据(n/2a)×(n/2a)×g。

第七Concat拼接网络的第二个输入作为multicat网络的第二输入端，第七Concat拼接网络的第三个输入作为multicat网络的第三输入端。

第七Concat拼接网络对三个数据结构均为(n/2a)×(n/2a)×g的输入数据进行维度采样，以获取数据(n/2a)×(n/2a)×(2g)并输出。

具体的，模型YOLOv7-M中：

第一multicat网络的第一输入端连接第二ELAN网络的输出端，以获取数据(P/8)×(Q/8)×2^k+4，第一multicat网络的第二输入端连接第三CBS-3网络的输出端以获取数据(P/16)×(Q/16)×2^k+3，第一multicat网络的第三输入端连接第一UPSample网络的输出端以获取数据(P/16)×(Q/16)×2^k+3；第一multicat网络的输出端连接第一ELAN-W网络的输入端，第一multicat网络输出数据(P/16)×(Q/16)×2^k+4；

第二multicat网络的第一输入端连接第一ELAN网络的输出端，以获取数据(P/4)×(Q/4)×2^k+3，第二multicat网络的第二输入端连接第四CBS-3网络的输出端以获取数据(P/8)×(Q/8)×2^k+2，第二multicat网络的第三输入端连接第二UPSample网络的输出端以获取数据(P/8)×(Q/8)×2^k+2；第二multicat网络的输出端连接第二ELAN-W网络的输入端，第二multicat网络输出数据(P/8)×(Q/8)×2^k+3。

第二种YOLOv7优化模型记作YOLOv7-MF

由图4所示，相对于上述的模型YOLOv7-M，本实施方式中提出的模型YOLOv7-MF还包括第十五Conv卷积网络、第八Concat拼接网络、第十六Conv卷积网络、第九Concat拼接网络、第十七Conv卷积网络和第十Concat拼接网络；模型YOLOv7-MF相对于模型YOLOv7-M，还对第一输出网络、第二输出网络和第三输出网络中的REP网络的输入进行了优化。

具体的，第十五Conv卷积网络的输入连接第二ELAN网络的输出，第十五Conv卷积网络的输出连接第八Concat拼接网络的输入，第八Concat拼接网络的输入还连接第二ELAN-W网络的输出。第一输出网络中REP网络的输入端分别连接第八Concat拼接网络的输出和第二ELAN-W网络的输出。

第十六Conv卷积网络的输入连接第三ELAN网络的输出，第十六Conv卷积网络的输出连接第九Concat拼接网络的输入，第九Concat拼接网络的输入还连接第三ELAN-W网络的输出。第二输出网络中REP网络的输入端分别连接第九Concat拼接网络的输出和第三ELAN-W网络的输出。

第十七Conv卷积网络的输入连接第四ELAN网络的输出，第十七Conv卷积网络的输出连接第十Concat拼接网络的输入，第十Concat拼接网络的输入还连接第四ELAN-W网络的输出。第三输出网络中REP网络的输入端分别连接第十Concat拼接网络的输出和第四ELAN-W网络的输出。

第十五Conv卷积网络将第二ELAN网络输出的数据(P/8)×(Q/8)×2^k+4转换为数据(P/8)×(Q/8)×2^k+2，第十五Conv卷积网络输出的数据(P/8)×(Q/8)×2^k+2和第二ELAN-W网络输出的数据(P/8)×(Q/8)×2^k+2经过第八Concat拼接网络进行维度拼接后输出；第一输出网络中REP网络的输入端接入第八Concat拼接网络输出的数据(P/8)×(Q/8)×2^k+3和第二ELAN-W网络输出的数据(P/8)×(Q/8)×2^k+2，第一输出网络中REP网络对输入的数据进行维度调整，调整后的数据输出到相连接的CBM网络进行预测，以获取裂缝类别和位置、数量等。

第十六Conv卷积网络将第三ELAN网络输出的数据(P/16)×(Q/16)×2^k+5转换为数据(P/16)×(Q/16)×2^k+3，第十六Conv卷积网络输出的数据(P/16)×(Q/16)×2^k+3和第三ELAN-W网络输出的数据(P/16)×(Q/16)×2^k+3经过第九Concat拼接网络进行维度拼接后输出；第二输出网络中REP网络的输入端接入第九Concat拼接网络输出的数据(P/16)×(Q/16)×2^k+4和第三ELAN-W网络输出的数据(P/16)×(Q/16)×2^k+3，第二输出网络中REP网络对输入的数据进行维度调整，调整后的数据输出到相连接的CBM网络进行预测，以获取裂缝类别和位置、数量等。

第十七Conv卷积网络将第四ELAN网络输出的数据(P/32)×(Q/32)×2^k+5转换为数据(P/32)×(Q/32)×2^k+4，第十七Conv卷积网络输出的数据(P/32)×(Q/32)×2^k+4和第四ELAN-W网络输出的数据(P/32)×(Q/32)×2^k+4经过第十Concat拼接网络进行维度拼接后输出；第三输出网络中REP网络的输入端接入第十Concat拼接网络输出的数据(P/32)×(Q/32)×2^k+5和第四ELAN-W网络输出的数据(P/32)×(Q/32)×2^k+4，第三输出网络中REP网络对输入的数据进行维度调整，调整后的数据输出到相连接的CBM网络进行预测，以获取裂缝类别和位置、数量等。

值得注意的是，第一输出网络、第二输出网络和第三输出网络中，相对于现有的YOLOv7，只优化了REP网络的输入。模型YOLOv7-MF中，REP网络结构和CBM网络结构直接采用传统YOLOv7中的REP网络结构和CBM网络结构。REP用于将输入的数据维度调整到指定的数据维度，CBM输出指定的尺寸的图像数据以及缝隙分类结果；三个输出网络的CBM网络输出的图像尺寸不同，从而实现不同尺寸下的缝隙分类。

REP网络用于对输入数据的维度进行拼接处理，本实施方式中，仅增加REP网络的数据输入，REP网络的结构和工作原理均为现有技术；REP网络采用自身设定的进行输入数据的拼接，通过扩展REP输入数据维度更好地传播和利用附加的信息，有助于改进模型对对象的边界和形状的定位，因为REP模块能够引入更多的上下文信息，提高对象检测的准确性。

REP网络通过引入残差连接和特征融合来改善特征的表达，以便更好地捕捉对象的细节和上下文。

CBM网络的结构和工作原理也采用现有技术，CBM网络有助于改进对象检测的上下文感知能力，在裂缝识别中，可以更好地理解图像中不同部分的关系，包括裂缝与周围环境的关系。CBM网络的应用可引入更多的上下文信息，帮助模型更好地理解裂缝的位置和形状。

CBM通过引入注意力机制，使模型能够聚焦在感兴趣的区域，并通过不同尺度的上下文信息来改善目标检测的性能。

第三种YOLOv7优化模型记作YOLOv7-WMF

由图5所示，相对于上述的模型YOLOv7-MF，本实施方式中提出的模型YOLOv7-WMF将第一ELAN网络、第二ELAN网络、第三ELAN网络和第四ELAN网络均替换为Mycontact-4网络，将第一ELAN-W网络、第二ELAN-W网络、第三ELAN-W网络和第四ELAN-W网络均替换为Mycontact-6网络。

由图6(a)所示，Mycontact-4网络包括第一Conv卷积网络、第二Conv卷积网络、第三Conv卷积网络、第四Conv卷积网络、第五Conv卷积网络、第六Conv卷积网络、第五Concat拼接网络和第七Conv卷积网络。

第二Conv卷积网络、第三Conv卷积网络、第四Conv卷积网络、第五Conv卷积网络和第六Conv卷积网络顺序连接，第二Conv卷积网络的输入端连接第一Conv卷积网络的输入端；第一Conv卷积网络的输出端、第二Conv卷积网络的输出端、第四Conv卷积网络的输出端和第六Conv卷积网络的输出端均连接第五Concat拼接网络的输入端，第五Concat拼接网络的输出端连接第七Conv卷积网络的输入端。

第一Conv卷积网络的输入端作为Mycontact-4网络的输入端，第七Conv卷积网络的输出端作为Mycontact-4网络的输出端。

Mycontact-4网络中，第一Conv卷积网络和第二Conv卷积网络均对输入的h维度的数据x(h)进行卷积处理，第二Conv卷积网络的输出依次经过第三Conv卷积网络、第四Conv卷积网络、第五Conv卷积网络和第六Conv卷积网络进行卷积处理。第一Conv卷积网络的输出添加权重W1后生成卷积数据x1(h)，第二Conv卷积网络的输出添加权重W2后生成卷积数据x2(h)，第四Conv卷积网络的输出添加权重W3后生成卷积数据x3(h)，第六Conv卷积网络的输出添加权重W4后生成卷积数据x4(h)。卷积数据x1(h)、x2(h)、x3(h)和x4(h)的数据维度均为h。第五Concat拼接网络获取卷积数据x1(h)、x2(h)、x3(h)和x4(h)进行维度拼接后输出4h维度的数据x'(4h)，第七Conv卷积网络对数据x'(4h)进行卷积处理后输出2h维度的数据x''(2h)，该数据x''(2h)即为Mycontact-4网络的输出。可见，Mycontact-4网络的输出数据x''(2h)的数据维度为Mycontact-4网络的输入数据x(h)的数据维度的2倍。显然，Mycontact-4网络的输出相对于其输入在数据维度上翻倍的特征与ELAN网络相同，故而Mycontact-6网络可以直接替换ELAN网络。

由图6(b)所示，Mycontact-6网络包括第八Conv卷积网络、第九Conv卷积网络、第十Conv卷积网络、第十一Conv卷积网络、第十二Conv卷积网络、第十三Conv卷积网络、第六Concat拼接网络和第十四Conv卷积网络。

第九Conv卷积网络、第十Conv卷积网络、第十一Conv卷积网络、第十二Conv卷积网络和第十三Conv卷积网络顺序连接，第九Conv卷积网络的输入端连接第八Conv卷积网络的输入端；第八Conv卷积网络的输出端、第九Conv卷积网络的输出端、第十Conv卷积网络的输出端、第十一Conv卷积网络的输出端、第十二Conv卷积网络的输出端和第十三Conv卷积网络的输出端均连接第六Concat拼接网络的输入端，第六Concat拼接网络的输出端连接第十四Conv卷积网络的输入端。

第八Conv卷积网络的输入端作为Mycontact-6网络的输入端，第十四Conv卷积网络的输出端作为Mycontact-6网络的输出端。

Mycontact-6网络中，第八Conv卷积网络和第九Conv卷积网络均对输入的h维度的数据x(h)进行卷积处理，第九Conv卷积网络的输出依次经过第十Conv卷积网络、第十一Conv卷积网络、第十二Conv卷积网络和第十三Conv卷积网络进行卷积处理。第八Conv卷积网络的输出添加权重W5后生成卷积数据x5(h)，第九Conv卷积网络的输出添加权重W6后生成卷积数据x6(h)，第十Conv卷积网络的输出添加权重W7后生成卷积数据x7(h)，第十一Conv卷积网络的输出添加权重W8后生成卷积数据x8(h)，第十二Conv卷积网络的输出添加权重W9后生成卷积数据x9(h)，第十三Conv卷积网络的输出添加权重W10后生成卷积数据x10(h)。卷积数据x5(h)、x6(h)、x7(h)、x8(h)、x9(h)和x10(h)的数据维度均为h。第六Concat拼接网络获取卷积数据x5(h)、x6(h)、x7(h)、x8(h)、x9(h)和x10(h)进行维度拼接后输出6h维度的数据x'(6h)，第十四Conv卷积网络对数据x'(6h)进行卷积处理后输出h/2/维度的数据x''(h/2)，该数据x''(h/2)即为Mycontact-6网络的输出。可见，Mycontact-6网络的输出数据x''(h/2)的数据维度为Mycontact-6网络的输入数据x(h)的数据维度的1/2。显然，Mycontact-6网络的输出相对于其输入在数据维度上减半的特征与ELAN-W网络相同，故而Mycontact-6网络可以直接替换ELAN网络。

以下结合具体的实施例对本发明提供的模型YOLOv7-M、模型YOLOv7-MF和模型YOLOv7-WMF进行验证。

本实施例中，选择模型YOLOv7、模型YOLOv5、模型Cascade Mask R-CNN、模型Condinst、模型SOLOv2和模型Sparseinst作为对比模型，以验证模型YOLOv7-M、模型YOLOv7-MF和模型YOLOv7-WMF在目标检测上的性能，并进一步验证模型YOLOv7-M、模型YOLOv7-MF和模型YOLOv7-WMF在实例分割上的性能。

本实施例中获取人工标注的混凝土损伤图像作为学习样本，混凝土损伤图像均为实景拍摄的照片。本实施例中，将1371张人工标注的混凝土损伤图像分割为训练集和验证集，通过训练集对本发明提供的模型YOLOv7-M、模型YOLOv7-MF和模型YOLOv7-WMF以及对比模型YOLOv7、YOLOv5、Cascade Mask R-CNN和Condinst进行机器学习，然后将收敛后的模型在验证集上进行测试，统计模型对验证集上的混凝土损伤图像的缝隙的目标检测效果。本实施例中，采用精确度（Precision）、召回率（Recall）和平均准确度（mAP₅₀）三项指标综合评估各模型的性能。

本实施例中，训练集包含960张混凝土损伤图像，人工标注每张混凝土损伤图像的缝隙数量和类别，960张混凝土损伤图像共有357条纵向裂缝、320条横向裂缝和283条疲劳裂缝；验证集包含411张混凝土损伤图像，人工标注每张混凝土损伤图像的缝隙数量和类别，411张混凝土损伤图像共有137条纵向裂缝、123条横向裂缝和151条疲劳裂缝。

本实施例中，训练集和测试集具体统计如下表1所示。

表1：样本统计

本实施例中，当各模型训练完成后，在各模型的输出端设置分割头（SegmentationHead），该分割头为现有结构，用于对检测到的裂缝进行实例分割，以视觉展示裂缝的位置、尺寸和走向。

本实施例中，分割头可采用现有任一种结构，分割头不需要训练，只需要与训练完成的目标检测模型（即本发明提供的模型YOLOv7-M、模型YOLOv7-MF和模型YOLOv7-WMF或者任一种对比模型）配合，将目标检测模型的检测结果输入分割头，分割头便可视觉展示裂缝的位置、尺寸和走向，具体如图9所示。

本实施例中，各种模型在验证集上的验证结果如表2、图7和图8所示。

表2 各模型的目标检测性能和实例分割性能的对比

结合表2、图7可知，在目标检测上，本发明提出的模型YOLOv7-M的精确度相对于表现最好的对比模型YOLOv5还提高了3.88%，模型YOLOv7-MF相对于模型YOLOv7-M在精确度、召回率和平均准确度上均有提高，模型YOLOv7-WMF相对于模型YOLOv7-MF在召回率和平均准确度上有较大的提高；模型YOLOv7-WMF的精确度相对于表现最好的对比模型YOLOv5还提高了3.8%，模型YOLOv7-WMF的召回率相对于表现最好的对比模型YOLOv7还提高了6.17%，模型YOLOv7-WMF的平均准确率相对于表现最好的对比模型YOLOv7还略有提高。

结合表2、图8可知，在实例分割上，本发明提出的模型YOLOv7-M的精确度相对于表现最好的对比模型YOLOv5还提高了2.79%，模型YOLOv7-M的召回率和平均准确度相对于表现最好的对比模型YOLOv7实现了进一步提升；模型YOLOv7-MF相对于模型YOLOv7-M在召回率和平均准确度上实现了进一步提高，模型YOLOv7-WMF在精确度、召回率和平均准确度上均实现了较大的提高。

结合表2可知，本发明提出的模型YOLOv7-M、模型YOLOv7-MF和模型YOLOv7-WMF，在实例分割上的表现相对于现有的任一种模型取得了极大的进步，且在目标检测上也有一定的提升。

结合图7、图8可知，模型YOLOv7-WMF不仅在实例分割上通过精确度、召回率和平均准确率表现的性能稳定且优异，且在目标检测上相对于现有的对比模型也在各性能上取得了稳定且较大的进步。

当然，对于本领域技术人员而言，本发明不限于上述示范性实施例的细节，而还包括在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现的相同或类似结构。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

本发明未详细描述的技术、形状、构造部分均为公知技术。

Claims

1.一种缝隙检测方法，其特征在于，通过机器学习的目标检测模型对混凝土图像进行识别，以获取裂缝信息，裂缝信息包括裂缝类别；目标检测模型的获取包括以下步骤：首先获取基础模型和学习样本，学习样本为标注有裂缝类别的混凝土损伤图像；然后令基础模型对学习样本进行机器学习，获取收敛后的基础模型作为目标检测模型；

multicat网络包括平均池化层mean-pooling、最大池化层max-pooling和第七Concat拼接网络；multicat网络设有第一输入端、第二输入端和第三输入端；平均池化层和最大池化层均连接multicat网络的第一输入端，multicat网络的第一输入端的输入数据经过平均池化和最大池化后再进行维度叠加，叠加后的数据与multicat网络的第二输入端的输入数据以及multicat网络的第三输入端输送到第七Concat拼接网络进行维度采样，第七Concat拼接网络的输出作为multicat网络的输出；

第一multicat网络的第一输入端连接第二ELAN网络的输出端，第一multicat网络的第二输入端连接第三CBS-3网络的输出端，第一multicat网络的第三输入端连接第一UPSample网络的输出端；第一multicat网络的输出端连接第一ELAN-W网络的输入端；

第二multicat网络的第一输入端连接第一ELAN网络的输出端，第二multicat网络的第二输入端连接第四CBS-3网络的输出端，第二multicat网络的第三输入端连接第二UPSample网络的输出端；第二multicat网络的输出端连接第二ELAN-W网络的输入端。

2.如权利要求1所述的缝隙检测方法，其特征在于，第一multicat网络的第一输入端的输入为第二ELAN网络的输出端。

3.如权利要求1所述的缝隙检测方法，其特征在于，第二multicat网络的第一输入端的输入为第一ELAN网络的输出。

4.如权利要求1所述的缝隙检测方法，其特征在于，相对于传统的YOLOv7模型，基础模型还包括第十五Conv卷积网络、第八Concat拼接网络、第十六Conv卷积网络、第九Concat拼接网络、第十七Conv卷积网络和第十Concat拼接网络；

5.如权利要求4所述的缝隙检测方法，其特征在于，对传统的YOLOv7模型进行结构优化获取基础模型的方式还包括：将传统的YOLOv7模型中的第一ELAN网络、第二ELAN网络、第三ELAN网络和第四ELAN网络均替换为Mycontact-4网络，将第一ELAN-W网络、第二ELAN-W网络、第三ELAN-W网络和第四ELAN-W网络均替换为Mycontact-6网络；

6.如权利要求1所述的缝隙检测方法，其特征在于，还包括：将混凝土图像输入目标检测模型后，将目标检测模型的检测结果和目标检测模型的输入传输到设定的分割头中，分割头对混凝土图像中的裂缝进行实例分割。

7.一种采用如权利要求6所述的缝隙检测方法的缝隙检测系统，其特征在于，包括图像获取模块、目标检测模型、分割头和裂缝展示模块；

8.一种缝隙检测系统，其特征在于，包括存储器和处理器，存储器中存储有计算机程序，处理器连接存储器用于执行所述计算机程序，以实现如权利要求1-6任一项所述的缝隙检测方法。

9.一种存储介质，其特征在于，存储有计算机程序，计算机程序被执行时用于实现如权利要求1-6任一项所述的缝隙检测方法。