CN116778346A

CN116778346A - 一种基于改进自注意力机制的管线识别方法及系统

Info

Publication number: CN116778346A
Application number: CN202311062669.9A
Authority: CN
Inventors: 李忠涛; 刘圣勇; 张玉璘
Original assignee: University of Jinan
Current assignee: Lanyin Building Data Technology Shanghai Co ltd
Priority date: 2023-08-23
Filing date: 2023-08-23
Publication date: 2023-09-19
Anticipated expiration: 2043-08-23
Also published as: CN116778346B

Abstract

本发明提出了一种基于改进自注意力机制的管线识别方法及系统，涉及计算机视觉领域。本发明首先根据原有管线数据集进行管线数据扩充，并通过间距控制还原管线分布特征，解决管线数据集数据不平衡问题，然后将特征金字塔中的有效目标特征与传统自注意力机制模型相结合，从而充分利用自注意力机制和特征金字塔的优势，在特征的表达和多尺度信息的处理上取得双赢的效果。

Description

一种基于改进自注意力机制的管线识别方法及系统

技术领域

本发明属于计算机视觉领域，特别涉及一种基于改进自注意力机制的管线识别方法及系统。

背景技术

自注意力机制和特征金字塔是深度学习领域中两个备受瞩目的特征处理技术。自注意力机制通过学习特征之间的相互依赖关系，使得模型能够准确地捕捉上下文信息，无论是在自然语言处理还是计算机视觉任务中都展现了出色的性能。另一方面，特征金字塔则专注于解决多尺度信息的问题。特征金字塔可以有效地整合不同尺度下的特征，从而提升了模型对不同尺寸目标的识别能力。然而，尽管自注意力机制和特征金字塔在各自的领域内都取得了显著的成就，但目前却缺乏一个有效的方法将它们结合起来，以进一步提升模型的性能。目前存在的结合尝试往往面临着融合策略不明确、模型复杂度增加等问题，使得最终效果不如预期。如果能够在一个模型中充分利用自注意力机制和特征金字塔的优势，就能够在特征的表达和多尺度信息的处理上取得双赢的效果。

发明内容

本发明提供一种基于改进自注意力机制的管线识别方法及系统，旨在利用自注意力机制和特征金字塔的优势提高管线的识别效果。

本发明对于传统自注意力机制作出了改进，提供一种基于改进自注意力机制的管线识别方法，包括以下步骤：

S1、设置训练模式和识别模式，在训练模式，从管线数据集获得所有待检测图像和标注数据，统计每种管线的数量，根据数量最大值进行数据扩充操作，将每种管线的数量都提升至数量最大值，从而获得扩充数据，并形成新管线数据集，在识别模式，只获得所有待检测图像，并形成新管线数据集；

S2、构建改进自注意力机制模型，模型由骨干网络、多层MHSA构建的编码器和解码器、特征金字塔分支组成；

S3、将新管线数据集所有待检测图像和标注数据输入到骨干网络得到图像特征图，将图像特征图输入到特征金字塔分支，输出P2、P3、P4特征图；

S4、使用目标位置检测头在P2、P3、P4特征图进行检测，并通过阈值筛选，获得每层特征图中存在目标的位置编码；

S5、将图像特征图输入到编码器中，按照S3中的位置编码，抽取P2、P3、P4特征图对应位置的特征，并与模型编码器中每层MHSA模块的输出特征进行特征优化操作，获得管线检测结果。

优选地，S1提到的数据扩充操作为，统计单个种类管线数量最大值，并将每种管线的数量都提升至数量最大值，首先，设置得到每种管线的扩充数量，生成相同尺寸的新空白图像，从标注数据中随机选取一定数量需要进行扩充的同种类管线，并按照扩充种类个数进行相应次数选取，然后将选取管线的坐标数据当做新目标坐标数据，并复制原图中对应的目标到新空白图像，然后得到一张包含多种管线的新图像，经过多次重复得到多张类似新图像，直至所有管线种类数量均提升至数量最大值，在每一张新图像选取管线的过程中，设置对应坐标列表，每增加一个目标就将坐标存入坐标列表，每次将选取目标放入新图像前，需要将选取目标坐标和坐标列表中的已有坐标进行对比，只有当选取目标和新图像中的已有目标达到一定间距时，选取目标才可放入新图像，否则重新选取目标。

优选地，S2中的MHSA为多头自注意力，是一种用于处理序列数据和图像数据的机制，应用于自注意力机制模型，用于捕捉序列中不同位置之间的关系。

优选地，S3中，如果输入图像大小为H×W时，特征金字塔分支输出的特征图的大小为,这里L代表特征图的输出层数，如P3特征图的L为3，而且（，）等于（，）。

优选地，S4中目标位置检测头由多个 3×3 卷积层组成，然后是一个额外的 3× 3 卷积层用于最终预测，输入步长为的特征图，并输出热图，其中表示位置（i，j）包含目标的概率，按照阈值筛选，得到存在目标的位置，并形成位置编码。

优选地，S5中的特征优化操作为，获得模型编码器中每层MHSA模块的输出特征，根据位置编码抽取P2、P3、P4中对应位置的优化特征，将优化特征和输出特征进行通道维度对齐，然后照通道维度进行连接，形成优化后的输出特征，代替原输出特征作为编码器中下一层MHSA的输入特征。

本发明还提供一种基于改进自注意力机制的管线识别系统，其特征在于，包括图像数据采集模块、图像处理模块、管线检测模块，通过图像数据采集模块采集所要检测的目标图像，在训练模式，通过图像处理模块对采集的目标图像进行数据扩充操作，在识别模式，不使用图像处理模块，管线检测模块内置改进自注意力机制模型，改进自注意力机制模型由骨干网络、多层MHSA构建的编码器和解码器、特征金字塔分支组成，骨干网络用于提取特征，多层MHSA构建的编码器和解码器用于动态加权特征，特征金字塔分支用于提取优化特征。

本发明还提供一种电子设备，其特征在于，包括一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序，其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述一种基于改进自注意力机制的管线识别方法。

本发明还提供一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成上述一种基于改进自注意力机制的管线识别方法。

与现有技术相比，本发明具有以下技术效果：

本发明提供的技术方案首先进行管线数据扩充，并通过间距控制还原管线分布特征，解决管线数据集数据不平衡问题，然后将特征金字塔中的有效目标特征与传统自注意力机制模型相结合，从而充分利用自注意力机制和特征金字塔的优势，在特征的表达和多尺度信息的处理上取得双赢的效果。

附图说明

图1是本发明提供的管线检测流程图；

图2是本发明提供的改进自注意力机制结构图；

图3是本发明提供的识别管线类型；

图4是本发明提供的管线数据集中的原图；

图5是本发明提供的数据扩充得到的新图像。

具体实施方式

本发明旨在提出一种基于改进自注意力机制的管线识别方法及系统，首先根据原有管线数据集进行管线数据扩充，并通过间距控制还原管线分布特征，解决管线数据集数据不平衡问题，然后将特征金字塔中的有效目标特征与传统自注意力机制模型相结合，从而充分利用自注意力机制和特征金字塔的优势，在特征的表达和多尺度信息的处理上取得双赢的效果。

请参见图 1所示，本申请实施例中的一种基于改进自注意力机制的管线识别方法：

进一步，S1提到的数据扩充操作为，统计单个种类管线数量最大值，并将每种管线的数量都提升至数量最大值，首先，设置得到每种管线的扩充数量，生成相同尺寸的新空白图像，从标注数据中随机选取一定数量需要进行扩充的同种类管线，并按照扩充种类个数进行相应次数选取，然后将选取管线的坐标数据当做新目标坐标数据，并复制原图中对应的目标到新空白图像，然后得到一张包含多种管线的新图像，经过多次重复得到多张类似新图像，直至所有管线种类数量均提升至数量最大值，在每一张新图像选取管线的过程中，设置对应坐标列表，每增加一个目标就将坐标存入坐标列表，每次将选取目标放入新图像前，需要将选取目标坐标和坐标列表中的已有坐标进行对比，只有当选取目标和新图像中的已有目标达到一定间距时，选取目标才可放入新图像，否则重新选取目标，这里间距设置为100px，同时间距的判断仅限于水平管线或竖直管线，这里管线的方向由管线标注框的纵横比决定，如果管线标注框的宽度大于高度，则该管线为水平管线，否则为竖直管线，上述操作均基于坐标列表里的坐标，每组坐标均代表一个管线，对于水平管线间距判断，如果两个对比的坐标为（x11，y11，x12，y12）和（x21，y21，x22，y22），如果同时满足|y11-y21|>100和|y12-y22|>100，则判断为管线间距满足要求，对于竖直管线间距判断，如果两个对比的坐标为（x11，y11，x12，y12）和（x21，y21，x22，y22），如果同时满足|x11-x21|>100和|x12-x22|>100，则判断为管线间距满足要求。

进一步，S2中的MHSA为多头自注意力，是一种用于处理序列数据和图像数据的机制，应用于自注意力机制模型，用于捕捉序列中不同位置之间的关系。

进一步，S3中，如果输入图像大小为H×W时，特征金字塔分支输出的特征图的大小为,这里L代表特征图的输出层数，如P3特征图的L为3，而且（，）等于（，）。

进一步，S4中目标位置检测头由多个 3×3 卷积层组成，然后是一个额外的 3× 3 卷积层用于最终预测，输入步长为的特征图，并输出热图，其中表示位置（i，j）包含目标的概率，按照阈值筛选，得到存在目标的位置，并形成位置编码。

进一步，S5中的特征优化操作为，获得模型编码器中每层MHSA模块的输出特征，根据位置编码抽取P2、P3、P4中对应位置的优化特征，将优化特征和输出特征进行通道维度对齐，然后照通道维度进行连接，形成优化后的输出特征，代替原输出特征作为编码器中下一层MHSA的输入特征。

进一步，如图2所示，改进自注意力机制模型基于Swin Transformer模型，每个编码层均为MHSA模块，并在模型中加入特征金字塔分支，通过输入骨干网络的特征图得到输出的P2、P3、P4特征图，通过目标位置查询检测头在三层特征图分别预测目标存在的位置，通过阈值筛选获得位置编码，这里阈值为0.7，即把三层特征图中每个大于该阈值的位置筛选出来，然后把这些位置的特征抽取出来进行连接，形成优化特征，并与模型编码器中每个编码层的输出特征进行连接。

进一步，如图3所示，对于原管线数据集，存在7种类型的管线，其中1类管线数量最多，达到9429，在使用数据扩充后，每种管线的数量均达到9429。

进一步，如图4所示，这是原数据集中的一张图像，其中分布着1类管线，多条水平管线之间的间距均不小于100px,多条竖直管线也是如此，因此如图5所示，在经过数据扩充后，新图像不仅包含多个种类管线，同时多条管线的间距也不小于100px。

本实施例提供一种基于改进自注意力机制的管线识别系统，其特征在于，包括图像数据采集模块、图像处理模块、管线检测模块，通过图像数据采集模块采集所要检测的目标图像，在训练模式，通过图像处理模块对采集的目标图像进行数据扩充操作，在识别模式，不使用图像处理模块，管线检测模块内置改进自注意力机制模型，改进自注意力机制模型由骨干网络、多层MHSA构建的编码器和解码器、特征金字塔分支组成，骨干网络用于提取特征，多层MHSA构建的编码器和解码器用于动态加权特征，特征金字塔分支用于提取优化特征。

本实施例提供一种电子设备，其特征在于，包括一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序，其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述一种基于改进自注意力机制的管线识别方法。

本实施例提供一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成上述一种基于改进自注意力机制的管线识别方法。

以上仅是本发明的优选实施方式，应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于改进自注意力机制的管线识别方法，其特征在于，包括以下步骤：

2. 根据权利要求1所述的一种基于改进自注意力机制的管线识别方法，其特征在于，S1提到的数据扩充操作为，统计单个种类管线数量最大值，并将每种管线的数量都提升至数量最大值，首先，设置得到每种管线的扩充数量，生成相同尺寸的新空白图像，从标注数据中随机选取一定数量需要进行扩充的同种类管线，并按照扩充种类个数进行相应次数选取，然后将选取管线的坐标数据当做新目标坐标数据，并复制原图中对应的目标到新空白图像，然后得到一张包含多种管线的新图像，经过多次重复得到多张类似新图像，直至所有管线种类数量均提升至数量最大值，在每一张新图像选取管线的过程中，设置对应坐标列表，每增加一个目标就将坐标存入坐标列表，每次将选取目标放入新图像前，需要将选取目标坐标和坐标列表中的已有坐标进行对比，只有当选取目标和新图像中的已有目标达到一定间距时，选取目标才可放入新图像，否则重新选取目标。

3. 根据权利要求1所述的一种基于改进自注意力机制的管线识别方法，其特征在于，S2中的MHSA为多头自注意力，是一种用于处理序列数据和图像数据的机制，应用于自注意力机制模型，用于捕捉序列中不同位置之间的关系。

4. 根据权利要求1所述的一种基于改进自注意力机制的管线识别方法，其特征在于，S3中，如果输入图像大小为H×W时，特征金字塔分支输出的特征图的大小为,这里L代表特征图的输出层数，如P3特征图的L为3，而且（，/>）等于（/>，/>）。

5. 根据权利要求1所述的一种基于改进自注意力机制的管线识别方法，其特征在于，S4中目标位置检测头由多个 3×3 卷积层组成，然后是一个额外的 3×3 卷积层用于最终预测，输入步长为的特征图/>，并输出热图/>，其中/>表示位置（i，j）包含目标的概率，按照阈值筛选，得到存在目标的位置，并形成位置编码。

6. 根据权利要求1所述的一种基于改进自注意力机制的管线识别方法，其特征在于，S5中的特征优化操作为，获得模型编码器中每层MHSA模块的输出特征，根据位置编码抽取P2、P3、P4中对应位置的优化特征，将优化特征和输出特征进行通道维度对齐，然后照通道维度进行连接，形成优化后的输出特征，代替原输出特征作为编码器中下一层MHSA的输入特征。

7.一种基于改进自注意力机制的管线识别系统，其特征在于，包括图像数据采集模块、图像处理模块、管线检测模块，通过图像数据采集模块采集所要检测的目标图像，在训练模式，通过图像处理模块对采集的目标图像进行数据扩充操作，在识别模式，不使用图像处理模块，管线检测模块内置改进自注意力机制模型，改进自注意力机制模型由骨干网络、多层MHSA构建的编码器和解码器、特征金字塔分支组成，骨干网络用于提取特征，多层MHSA构建的编码器和解码器用于动态加权特征，特征金字塔分支用于提取优化特征。

8.一种电子设备，其特征在于，包括一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序，其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行权利要求1所述的一种基于改进自注意力机制的管线识别方法。

9.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1所述的一种基于改进自注意力机制的管线识别方法。