CN117557881A - 基于特征图对齐和图文匹配的道路裂缝检测方法及应用 - Google Patents
基于特征图对齐和图文匹配的道路裂缝检测方法及应用 Download PDFInfo
- Publication number
- CN117557881A CN117557881A CN202410046910.7A CN202410046910A CN117557881A CN 117557881 A CN117557881 A CN 117557881A CN 202410046910 A CN202410046910 A CN 202410046910A CN 117557881 A CN117557881 A CN 117557881A
- Authority
- CN
- China
- Prior art keywords
- image
- crack
- feature
- alignment
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 65
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 15
- 239000011159 matrix material Substances 0.000 claims description 88
- 239000013598 vector Substances 0.000 claims description 42
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 22
- 238000000034 method Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 239000010410 layer Substances 0.000 description 16
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 239000010426 asphalt Substances 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 239000004568 cement Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本申请实施例提供了一种基于特征图对齐和图文匹配的道路裂缝检测方法及应用,将待检测图像输入到预训练得到的引入特征图对齐算法的道路裂缝检测模型中进行预测,若待检测图像中存在裂缝目标则截取包括裂缝目标同所在背景的裂缝图像,将裂缝目标和裂缝图像一并输入到图文匹配模块中获取裂缝目标和背景的类别,若裂缝目标为裂缝且背景为路面的话则输出道路裂缝,以此方式提高了道路裂缝的识别准确度。
Description
技术领域
本申请涉及城市管理领域,特别是涉及一种基于特征图对齐和图文匹配的道路裂缝检测方法及应用。
背景技术
在道路通车使用一段时间后,无论沥青路面还是水泥路面,都会或多或少的出现一些早期病害,常见的有裂缝、坑槽、车辙、松散、表面破损等,其中道路裂缝是路面各类病害中最常见、最易发生和最早期产生的病害之一,它伴随着道路的整个使用期并随着路龄的增长而加重。道路裂缝的危害不仅仅是影响路容美观和行车舒适度,如果不及时对裂缝进行密封修补,更容易进一步扩展,使雨水和其它杂物沿裂缝进入面层结构与路基,对道路造成结构性的破坏,导致路面承载能力下降,加速路面局部或成片损坏,从而缩短道路的使用寿命。
常见的沥青路面上的道路裂缝有横向裂缝、纵向裂缝以及网状裂缝,目前各大城市管理场景已经可以借助深度学习算法实现了道路裂缝视觉检测,此类依托于深度学习算法的道路裂缝视觉检测技术可以自动从图像中识别和定位道路裂缝,相较于传统的手工筛查的方式具有更强的特征表达能力和泛化性,能够在复杂的场景中实现高效和准确的道路裂缝检测。
但是由于部分横向、纵向道路裂缝特别细小,在图像中的像素占比有限,进而使得此类细小的裂缝的结构很容易受到背景因素的干扰,目前的道路裂缝目标检测模型在提取图像特征时很容易忽略裂缝的细小的变化,进而产生漏检误检,不仅如此,由于图像画面中不仅有路面,画面中的其他物体表面也可能出现与裂缝相似的特征,传统的道路裂缝目标检测模型无法对检测到的形似裂缝的目标位置合理性做出判断,这将不可避免的降低模型在实际项目上的实用性。另外,大范围的网状裂缝的全局特征复杂多变,网状裂缝在不同材质路面的不同位置上呈现出不同的形态,其复杂度取决于分裂点位置、分裂数量和裂缝的路径长度,目前的道路裂缝目标检测模型遇到前所未见的裂缝形态时很可能因为过拟合训练数据导致无法正确识别。
发明内容
本申请实施例提供了一种基于特征图对齐和图文匹配的道路裂缝检测方法及应用,引入了特征图对齐技术使得裂缝检测模型可更关注于裂缝的特征,引入图文匹配技术区分道路裂缝与其他类型的裂缝,以此方式提高了道路裂缝的识别准确度。
第一方面,本申请实施例提供了一种基于特征图对齐和图文匹配的道路裂缝检测方法,包括以下步骤:
获取至少一待检测图像;
将每一待检测图像输入到预训练的道路裂缝检测模型中进行裂缝目标检测,其中道路裂缝检测模型内引入特征图对齐算法,且利用标注有横向裂缝、纵向裂缝以及网状裂缝的一种或以上组合的图像训练得到;
若当前待检测图像检测到裂缝目标框,则在当前待检测图像中裁剪包括裂缝目标框及对应的裂缝背景的裂缝图像,将当前待检测图像的裂缝目标框和对应的裂缝图像输入到预训练的图文匹配模块中进行语义识别得到裂缝目标框的类别和裂缝背景的类别,其中图文匹配模块包括图像编码器和文本编码器,图像编码器输出的图像特征向量经过条件提示向量加权网络得到自适应条件提示词输入到文本编码器中进行类别分类,且利用标注有横向裂缝、纵向裂缝以及网状裂缝的一种或以上组合的图像训练得到;
若裂缝目标框的类别为裂缝且每个裂缝背景对应的类别为路面,则输出裂缝目标框的类别及位置信息。
第二方面,本申请实施例提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述的基于特征图对齐和图文匹配的道路裂缝检测方法。
第三方面,本申请实施例提供了一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括所述的基于特征图对齐和图文匹配的道路裂缝检测方法。
本发明的主要贡献和创新点如下:
本申请实施例中提及的道路裂缝检测模型中引入了特征图对齐算法以将各个阶段特征图中裂缝的特征通过逐像素连续偏移的方式对齐裂缝特征,降低裂缝周围的背景对卷积核造成干扰,使网络更专注于裂缝的形状,且逐像素偏移过程中并不是每个像素独立的学习偏移位置,而是根据卷积核的长度将裂缝的特征摆直,距离卷积核位置较远的像素点会受到距离卷积核较近的像素点的偏移方向的影响,从而达到裂缝特征连续摆动对齐。
本申请实施例中引入了图文匹配模块对识别到的裂缝做进一步的判断,文本编码器不再需要人为设定提示词,通过二阶段的训练后各个类别的提示词由图像特征动态调整,通过对检测框内目标和目标周围背景来进一步判断目标框内是否为裂缝或裂缝是否在路面上,进而来辨别道路路面裂缝同其他裂缝。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的道路裂缝检测模型的架构示意图;
图2是根据本申请一种实施例的特征对齐残差块的部分架构的逻辑示意图;
图3是根据本申请一种实施例的特征图对齐和普通卷积的比对示意图;
图4是基于特征图对齐和图文匹配的道路裂缝检测方法的整体逻辑示意图;
图5是根据本申请实施例的裂缝目标框及裂缝图像的示意图;
图6是根据本申请实施例的电子装置的硬件结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
实施例一
本方案提供了一种基于特征图对齐和图文匹配的道路裂缝检测方法,包括以下步骤:
获取至少一待检测图像;
将每一待检测图像输入到预训练的道路裂缝检测模型中进行裂缝目标检测,其中道路裂缝检测模型内引入特征图对齐算法,且利用标注有横向裂缝、纵向裂缝以及网状裂缝的一种或以上组合的图像训练得到;
若当前待检测图像检测到裂缝目标框,则在当前待检测图像中裁剪包括裂缝目标框及对应的裂缝背景的裂缝图像,将当前待检测图像的裂缝目标框和对应的裂缝图像输入到预训练的图文匹配模块中进行语义识别得到裂缝目标框的类别和裂缝背景的类别,其中图文匹配模块包括图像编码器和文本编码器,图像编码器输出的图像特征向量经过条件提示向量加权网络得到自适应条件提示词输入到文本编码器中进行类别分类,且利用标注有横向裂缝、纵向裂缝以及网状裂缝的一种或以上组合的图像训练得到;
若裂缝目标框的类别为裂缝且每个裂缝背景对应的类别为路面,则输出裂缝目标框的类别及位置信息。
本方案首先利用预训练的道路裂缝检测模型对待检测图像进行裂缝目标的检测,若是检测到裂缝目标的话则再引入预训练的图文匹配模块以判断是否属于道路裂缝,通过两个阶段的裂缝判断来提高了道路裂缝的识别准确度。
关于本方案道路裂缝检测模型的架构如图1所示,该道路裂缝检测模型包括依次连接的卷积单元、残差单元、特征对齐残差单元、三个预测分支,其中特征对齐残差单元中包括至少一特征对齐残差块,每一特征对齐残差块的第一层前添加特征图对齐操作且第一层的卷积核大小匹配特征大小,图像输入到道路裂缝检测模型中经过卷积单元得到多通道特征图,多通道特征图经过残差单元得到图像特征,图像特征输入到特征对齐残差单元中得到对齐特征,对齐特征经历上采样以及特征跳跃连接后得到待预测特征,待预测特征输入到三个预测分支中分别预测远距离的裂缝目标、中距离的裂缝目标以及近距离的裂缝目标。
具体的,道路裂缝检测模型的卷积单元包括两个卷积层,用于将输入的图像转换为多通道特征图;道路裂缝检测模型的残差单元包括由卷积层和跳跃连接组成的残差块,用于从多通道特征图中提取图像特征。特征对齐残差单元包括三个依次连接的第一特征对齐残差块、第二特征对齐残差块以及第三特征对齐残差块,特征对齐残差块也由卷积层和跳跃连接组成,每一特征对齐残差块的第一层前添加特征图对齐操作并修改特征对齐残差块的第一层卷积层的卷积核为(对齐纵向裂缝特征)或者/>(对齐横向裂缝特征),用于基于图像特征进行对齐和卷积处理得到对齐特征;对齐特征经过串联池化后经历上采样以及特征跳跃连接后得到待预测特征,预测分支区分为远距离预测分支、中距离预测分支以及近距离预测分支。
具体的,对齐特征经过串联池化后同第二特征对齐残差块的输出特征进行卷积和上采样得到第一上采样特征,第一上采样特征同第一特征对齐残差块的输出特征进行卷积和上采样后得到第二上采样特征,第二上采样特征输入到远距离预测分支中预测得到远距离裂缝目标;第二上采样特征同第一上采样特征经过卷积和下采样后得到第三下采样特征,第三下采样特征输入到中距离预测分支中预测得到中距离裂缝目标;第三下采样特征同经过串联池化的对齐特征进行卷积和下采样后输入到近距离预测分支中预测得到近距离裂缝目标。
关于特征对齐残差块的部分架构的逻辑如图2所示,输入的图像特征经过横向裂缝特征对齐后经过1*n的卷积核处理后得到横向裂缝特征,输入的图像特征经过纵向裂缝特征对齐后经过n*1的卷积核处理后得到纵向裂缝特征,横向裂缝特征和纵向裂缝特征按照通道方向堆叠后进入特征对齐残差块后续的卷积层中进行处理。需要说明的是,特征对齐残差块的第一层卷积层前可添加横向裂缝特征对齐和纵向裂缝特征对齐的一种或两种组合,图2给出的是特征对齐残差块的第一层卷积层前添加横向裂缝特征对齐和纵向裂缝特征对齐的组合。
本方案的特征图对齐操作包括横向裂缝特征对齐和纵向裂缝对齐的任一种,当需要进行横向裂缝特征对齐时,特征图对齐操作的步骤为:构建输入的图像特征的x坐标矩阵、y坐标矩阵以及对齐矩阵,将x坐标矩阵和对齐矩阵相加并截断后得到对齐坐标矩阵,对输入的图像特征进行卷积后得到y方向偏移矩阵,将y方向偏移矩阵的中间矩阵置零后向中间矩阵前后两侧叠加偏移量得到y方向连续偏移矩阵,将y方向连续偏移矩阵与y坐标矩阵相加得到新y坐标矩阵,将新y坐标矩阵和对齐坐标矩阵的前两个维度进行交换并纵向堆叠后在输入的图像特征上通过插值算法得到像素偏移后的特征图。
当需要进行纵向裂缝特征对齐时,特征图对齐操作的步骤为:构建输入的图像特征的x坐标矩阵、y坐标矩阵以及对齐矩阵,将y坐标矩阵和对齐矩阵相加并截断后得到对齐坐标矩阵,对输入的图像特征进行卷积后得到x方向偏移矩阵,将x方向偏移矩阵的中间矩阵置零后向中间矩阵前后两侧叠加偏移量得到x方向连续偏移矩阵,将x方向连续偏移矩阵与x坐标矩阵相加得到新x坐标矩阵,将新x坐标矩阵和对齐坐标矩阵的前两个维度进行交换并横向堆叠后在输入的图像特征上通过插值算法得到像素偏移后的特征图。
以下以横向裂缝特征的特征图对齐操作进行示例介绍:
S1:设定当前特征对齐残差块的第一层卷积核为(n,1)且当前输入的图像特征为,其中C表示特征图的通道数,构建图像特征的x坐标矩阵/>和y坐标矩阵/>:
;
;
其中表示x坐标矩阵中当n=i时的二维矩阵,/>表示y坐标矩阵中当n=i时的二维矩阵;
S2:构建图像特征的对齐矩阵:
;
其中表示对齐矩阵中n=j时的二维矩阵,且/>;
S3:将x坐标矩阵与对齐矩阵相加并截断得到对齐坐标矩阵:
;
其中截断操作意为坐标矩阵中出现负值或超过的长宽最大值时,将越界值修改为0或者长宽最大值,当矩阵中的越界值为k时:
;
S4:对图像特征f进行卷积并将每个像素在y中的位置偏移量记录为y轴方向偏移矩阵:设定输出通道数量为m,卷积核大小为3,步长为1,填充为1得到y轴方向偏移矩阵;
S5:将y轴方向偏移矩阵中的中间矩阵置零处理后,向中间矩阵的前后两侧叠加偏移量得到y方向连续偏移矩阵/>:
;
S6:将y方向连续偏移矩阵与y坐标矩阵/>相加得到每个坐标点偏移后的新y坐标矩阵/>:
;
S7:将对齐坐标矩阵和新y坐标矩阵/>的前两个维度交换并纵向堆叠后得到堆叠对齐坐标矩阵/>和对齐y坐标矩阵/>,并将其在图像特征f上通过插值算法得到像素值偏移后的特征图F:
;
其中为插值算法,可以为任何插值算法,至此完成图像特征在横向裂缝特征上的对齐。
如图3所示,图像特征经历普通的卷积核卷积后示意图如图3中的上半部分图所示,而经过特征图对齐后的再经过对应的卷积核处理得到示意图如图3的下半部分图所示。
关于该道路裂缝检测模型的训练方式如下:
准备训练数据:安装在城市管理巡查车辆顶部的摄像头每隔一秒拍摄一张图像,人工对图像进行标注,标注信息为横向裂缝、纵向裂缝、网状裂缝的裂缝目标检测框信息,即其中/>代表类别,/>代表裂缝目标的中心点的坐标,/>代表裂缝目标的宽和高,将标注数据样本按照8:1:1划分为训练集、验证集和测试集;
网络训练:将上述准备好的训练数据输入到道路裂缝检测模型中,采用随机梯度下降策略优化网络模型得到最终的道路裂缝检测模型。关于图文匹配模块的架构如图4中的图文匹配模块所示,图文匹配模块包括由条件提示向量加权网络连接的图像分支和文本分支,其中图像分支内含有图像编码器,文本分支内含有文本编码器,当前待检测图像的裂缝目标框和对应的裂缝图像输入到图像编码器中得到图像特征向量,图像特征向量经过条件提示向量加权网络得到自适应条件提示词,自适应提示词输入到文本编码器中得到文本特征向量,文本特征向量同图像特征向量进行相似度匹配后得到裂缝目标框的类别和裂缝背景的类别。在一些实施例中,文本特征向量同图像特征向量进行相似度匹配后得到横向裂缝概率、纵向裂缝概率、背景为路面概率和背景不为路面概率,通过阈值过滤各种概率来得到裂缝目标框的类别和裂缝背景的类别,其中背景为路面概率以及不为路面概率可用于反馈裂缝背景的类别。
具体的,图像编码器采用VisionTransformer,用于从当前待检测图像的裂缝目标框和对应的裂缝图像中提取对应的图像特征向量。条件提示向量加权网络为两层全连接层的瓶颈结构,其中全连接层之间采用Relu激活函数,用于自图像特征向量中生成自适应条件提示词。文本编码器采用Transformer,用于将自适应条件提示词转换为文本特征向量。
关于该图文匹配模块的训练:
准备训练数据:取安装在城市管理巡查车辆顶部的摄像头每隔一秒拍摄的图像,人工检查图像中是否存在裂缝,若存在裂缝则将将图像中的裂缝区域出来裁剪并标记裂缝的类别(横向裂缝、纵向裂缝);将标注数据样本按照8:1:1划分为训练集、验证集和测试集;
网络训练:
第一阶段训练:断开条件提示向量加权网络,利用图像和文本对单独训练图像编码器和文本编码器,并且条件提示词初始化为“a photo of [cls]”(cls为类别的文本,当裂缝类别为crack_0时条件提示词初始化为“a photo of crack_0”),训练直到图文匹配模块的损失趋于平稳;
第二阶段训练:冻结图像编码器和文本编码器中的权重,在网络中启用条件提示向量加权网络,并将文本编码器的条件提示词初始化为“a photo of [cls]”,图像编码器输入一张图像得到一个图像特征向量;文本编码器输入多条提示词,得到相同数量的文本特征向量,计算图像特征向量与各个文本特征向量之间的余弦距离作为相似度,损失函数采用对比损失,训练至损失最小或者满足训练条件:
其中表示文本特征向量的数量,/>表示onehot格式的标注信息,/>表示两个特征向量的余弦距离,/>表示图像特征向量,/>表示第/>个文本特征向量。
在清楚介绍了道路裂缝检测模型和图文匹配模块的内容后对基于特征图对齐和图文匹配的道路裂缝检测方法的其他步骤进行说明。
优选的,在“获取至少一待检测图像”步骤中,获取拍摄道路的摄像头的待检测视频流,其中待检测视频流包括多帧待检测图像。在本方案的具体实施例中,实时获取城市管理车辆顶部摄像头拍摄的画面作为待检测视频流。
另外,为了便于后续的道路裂缝检测,本方案对待检测图像进行预处理以使得每帧待检测图像的尺寸满足模型需求且将待检测图像的像素值从[0-255]缩放至[0-1]之间。这样做的好处在于:1、可以减少计算量,提高运算速度。因为[0-1]之间的数值比[0-255]之间的数值更小,占用的内存空间也更少。2、可以避免梯度消失或爆炸的问题。因为[0-1]之间的数值更接近于激活函数的线性区域,使得梯度更稳定,不会出现过大或过小的情况。可以提高模型的泛化能力。3、因为[0-1]之间的数值更均匀,可以减少数据的偏差和噪声,使得模型更容易捕捉到数据的本质特征。
在“若当前待检测图像检测到裂缝目标框,自当前待检测图像中裁剪包括裂缝目标框及对应的裂缝背景的裂缝图像”步骤中,若当前待检测图像中检测到裂缝目标框,则将裂缝目标检测框的长宽都进行扩大并在待检测图像中裁剪对应的包括裂缝背景的裂缝图像。
如图5所示,图5是本方案的裂缝目标框和包含裂缝目标框及其背景的裂缝图像的示意图。
在一些实施例中,若检测到视频流中的第t帧待检测图像中检测到裂缝目标,则通过图像裁剪将该帧中的所有裂缝目标都截取出,得到,其中/>表示第t帧待检测图像中的第n个裂缝目标检测框,并将裂缝目标检测框的长和宽扩大为原来的/>倍,再通过图像裁剪获取所有目标及其部分背景得到/>,其中/>表示第t帧中的第/>个带背景的裂缝图像。
在“将当前待检测图像的裂缝目标框和对应的裂缝图像输入到预训练的图文匹配模块中进行语义识别得到裂缝目标框的类别和裂缝背景的类别”步骤中,图文匹配模块得到每个裂缝背景对应的类别的相似度以及每个裂缝目标框同对应的类别的相似度。
在一些具体示例中,将和/>输入图像文本匹配模块得到第t帧中每个裂缝图像和裂缝目标框与先验的类别的相似度,其中/>表示该裂缝背景或者裂缝目标框为语义类别/>的概率为/>,若/>的语义类别为“裂缝”的概率最高,并且/>的语义类别为“路面”的概率最高,则认为/>为道路裂缝,输出裂缝的类别和位置信息。
实施例二
本实施例还提供了一种电子装置,参考图6包括存储器404和处理器402,该存储器404中存储有计算机程序,该处理器402被设置为运行计算机程序以执行上述任一项基于特征图对齐和图文匹配的道路裂缝检测方法的实施例中的步骤。
具体地,上述处理器402可以包括中央处理器(CPU),或者特定集成电路(ApplicationSpecificIntegratedCircuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制,存储器404可包括硬盘驱动器(HardDiskDrive,简称为HDD)、软盘驱动器、固态驱动器(SolidStateDrive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器404可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器404可在数据处理装置的内部或外部。在特定实施例中,存储器404是非易失性(Non-Volatile)存储器。在特定实施例中,存储器404包括只读存储器(Read-OnlyMemory,简称为ROM)和随机存取存储器(RandomAccessMemory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(ProgrammableRead-OnlyMemory,简称为PROM)、可擦除PROM(ErasableProgrammableRead-OnlyMemory,简称为EPROM)、电可擦除PROM(ElectricallyErasableProgrammableRead-OnlyMemory,简称为EEPROM)、电可改写ROM(ElectricallyAlterableRead-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(StaticRandom-AccessMemory,简称为SRAM)或动态随机存取存储器(DynamicRandomAccessMemory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器404(FastPageModeDynamicRandomAccessMemory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDateOutDynamicRandomAccessMemory,简称为EDODRAM)、同步动态随机存取内存(SynchronousDynamicRandom-AccessMemory,简称SDRAM)等。
存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器402所执行的可能的计算机程序指令。
处理器402通过读取并执行存储器404中存储的计算机程序指令,以实现上述实施例中的任意一种基于特征图对齐和图文匹配的道路裂缝检测方法。
可选地,上述电子装置还可以包括传输设备406以及输入输出设备408,其中,该传输设备406和上述处理器402连接,该输入输出设备408和上述处理器402连接。
传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中,传输设备包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备406可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
输入输出设备408用于输入或输出信息。在本实施例中,输入的信息可以是待检测视频流或者待检测图像等,输出的信息可以是道路裂缝等。
可选地,在本实施例中,上述处理器402可以被设置为通过计算机程序执行以下步骤:
获取至少一待检测图像;
将每一待检测图像输入到预训练的道路裂缝检测模型中进行裂缝目标检测,其中道路裂缝检测模型内引入特征图对齐算法,且利用标注有横向裂缝、纵向裂缝以及网状裂缝的一种或以上组合的图像训练得到;
若当前待检测图像检测到裂缝目标框,自当前待检测图像中裁剪包括裂缝目标框及对应的裂缝背景的裂缝图像,将当前待检测图像的裂缝目标框和对应的裂缝图像输入到预训练的图文匹配模块中进行语义识别得到裂缝目标框的类别和裂缝背景的类别,其中图文匹配模块包括图像编码器和文本编码器,图像编码器输出的图像特征向量经过条件提示向量加权网络得到自适应条件提示词输入到文本编码器中进行类别分类,且利用标注有横向裂缝、纵向裂缝以及网状裂缝的一种或以上组合的图像训练得到;
若裂缝目标框的类别为裂缝且每个裂缝背景对应的类别为路面,则输出裂缝目标框的类别及位置信息。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
通常,各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现,而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现,但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示,但是应当理解,作为非限制性示例,本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。
本发明的实施例可以由计算机软件来实现,该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行,或者由硬件来实现,或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中,并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外,在这一点上,应当注意,如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。
本领域的技术人员应该明白,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于特征图对齐和图文匹配的道路裂缝检测方法,其特征在于,包括以下步骤:
获取至少一待检测图像;
将每一待检测图像输入到预训练的道路裂缝检测模型中进行裂缝目标检测,其中道路裂缝检测模型内引入特征图对齐算法,且利用标注有横向裂缝、纵向裂缝以及网状裂缝的一种或以上组合的图像训练得到;
若当前待检测图像检测到裂缝目标框,则在当前待检测图像中裁剪包括裂缝目标框及对应的裂缝背景的裂缝图像,将当前待检测图像的裂缝目标框和对应的裂缝图像输入到预训练的图文匹配模块中进行语义识别得到裂缝目标框的类别和裂缝背景的类别,其中图文匹配模块包括图像编码器和文本编码器,图像编码器输出的图像特征向量经过条件提示向量加权网络得到自适应条件提示词并输入到文本编码器中进行类别分类,且利用标注有横向裂缝、纵向裂缝以及网状裂缝的一种或以上组合的图像训练得到;
若裂缝目标框的类别为裂缝且每个裂缝背景对应的类别为路面,则输出裂缝目标框的类别及位置信息。
2.根据权利要求1所述的基于特征图对齐和图文匹配的道路裂缝检测方法,其特征在于,道路裂缝检测模型包括依次连接的卷积单元、残差单元、特征对齐残差单元、三个预测分支,其中特征对齐残差单元中包括至少一特征对齐残差块,每一特征对齐残差块的第一层前添加特征图对齐操作且第一层的卷积核大小匹配特征大小,图像输入到道路裂缝检测模型中经过卷积单元得到多通道特征图。
3.根据权利要求2所述的基于特征图对齐和图文匹配的道路裂缝检测方法,其特征在于,道路裂缝检测模型的卷积单元包括两个卷积层,道路裂缝检测模型的残差单元包括由卷积层和跳跃连接组成的残差块,特征对齐残差单元包括三个依次连接的第一特征对齐残差块、第二特征对齐残差块以及第三特征对齐残差块。
4.根据权利要求1所述的基于特征图对齐和图文匹配的道路裂缝检测方法,其特征在于,当需要进行横向裂缝特征对齐时,特征图对齐操作的步骤为:构建输入的图像特征的x坐标矩阵、y坐标矩阵以及对齐矩阵,将x坐标矩阵和对齐矩阵相加并截断后得到对齐坐标矩阵,对输入的图像特征进行卷积后得到y方向偏移矩阵,将y方向偏移矩阵的中间矩阵置零后向中间矩阵前后两侧叠加偏移量得到y方向连续偏移矩阵,将y方向连续偏移矩阵与y坐标矩阵相加得到新y坐标矩阵,将新y坐标矩阵和对齐坐标矩阵的前两个维度进行交换并纵向堆叠后在输入的图像特征上通过插值算法得到像素偏移后的特征图。
5.根据权利要求1所述的基于特征图对齐和图文匹配的道路裂缝检测方法,其特征在于,当需要进行纵向裂缝特征对齐时,特征图对齐操作的步骤为:构建输入的图像特征的x坐标矩阵、y坐标矩阵以及对齐矩阵,将y坐标矩阵和对齐矩阵相加并截断后得到对齐坐标矩阵,对输入的图像特征进行卷积后得到x方向偏移矩阵,将x方向偏移矩阵的中间矩阵置零后向中间矩阵前后两侧叠加偏移量得到x方向连续偏移矩阵,将x方向连续偏移矩阵与x坐标矩阵相加得到新x坐标矩阵,将新x坐标矩阵和对齐坐标矩阵的前两个维度进行交换并横向堆叠后在输入的图像特征上通过插值算法得到像素偏移后的特征图。
6.根据权利要求1所述的基于特征图对齐和图文匹配的道路裂缝检测方法,其特征在于,图文匹配模块包括由条件提示向量加权网络连接的图像分支和文本分支,其中图像分支内含有图像编码器,文本分支内含有文本编码器,当前待检测图像的裂缝目标框和对应的裂缝图像输入到图像编码器中得到图像特征向量,图像特征向量经过条件提示向量加权网络得到自适应条件提示词,自适应提示词输入到文本编码器中得到文本特征向量,文本特征向量同图像特征向量进行相似度匹配后得到裂缝目标框的类别和每个裂缝背景对应的类别。
7.根据权利要求1所述的基于特征图对齐和图文匹配的道路裂缝检测方法,其特征在于,图文匹配模块分两阶段训练得到,第一阶段断开条件提示向量加权网络,利用图像和文本对单独训练图像编码器和文本编码器直到损失趋于平稳,第二阶段冻结图像编码器和文本编码器中的权重,在网络中启用条件提示向量加权网络后计算图像特征向量和文本特征向量的余弦距离作为相似度,以对比损失为损失函数。
8.根据权利要求1所述的基于特征图对齐和图文匹配的道路裂缝检测方法,其特征在于,若当前待检测图像中检测到裂缝目标框,则将裂缝目标检测框的长宽都进行扩大并在待检测图像中裁剪对应的含有裂缝背景的裂缝图像。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1到8任一所述的基于特征图对齐和图文匹配的道路裂缝检测方法。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据权利要求1到8任一所述的基于特征图对齐和图文匹配的道路裂缝检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410046910.7A CN117557881B (zh) | 2024-01-12 | 2024-01-12 | 基于特征图对齐和图文匹配的道路裂缝检测方法及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410046910.7A CN117557881B (zh) | 2024-01-12 | 2024-01-12 | 基于特征图对齐和图文匹配的道路裂缝检测方法及应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117557881A true CN117557881A (zh) | 2024-02-13 |
CN117557881B CN117557881B (zh) | 2024-04-05 |
Family
ID=89817131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410046910.7A Active CN117557881B (zh) | 2024-01-12 | 2024-01-12 | 基于特征图对齐和图文匹配的道路裂缝检测方法及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117557881B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115526846A (zh) * | 2022-09-19 | 2022-12-27 | 清华大学 | 基于联合检测的裂缝检测方法、装置和计算机设备 |
CN115984233A (zh) * | 2023-01-12 | 2023-04-18 | 长沙理工大学 | 一种基于分组归一化和移位的图像裂缝检测方法 |
KR20230102496A (ko) * | 2021-12-30 | 2023-07-07 | 포항공과대학교 산학협력단 | 적대적 생성 신경망 기반의 자기 지도 학습형 판별자 네트워크를 이용한 텍스트 투 이미지 생성 장치 및 방법 |
CN116485767A (zh) * | 2023-04-26 | 2023-07-25 | 长安大学 | 基于图像分类与分割的路面裂缝图像检测方法及系统 |
CN116645592A (zh) * | 2023-07-25 | 2023-08-25 | 苏州大学 | 一种基于图像处理的裂缝检测方法和存储介质 |
CN116975350A (zh) * | 2023-04-14 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 图文检索方法、装置、设备及存储介质 |
CN117197763A (zh) * | 2023-09-07 | 2023-12-08 | 湖北工业大学 | 基于交叉注意引导特征对齐网络的道路裂缝检测方法和系统 |
CN117292230A (zh) * | 2023-10-07 | 2023-12-26 | 四川大学 | 基于多模态大模型的建筑物震害损伤智能评估方法 |
-
2024
- 2024-01-12 CN CN202410046910.7A patent/CN117557881B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230102496A (ko) * | 2021-12-30 | 2023-07-07 | 포항공과대학교 산학협력단 | 적대적 생성 신경망 기반의 자기 지도 학습형 판별자 네트워크를 이용한 텍스트 투 이미지 생성 장치 및 방법 |
CN115526846A (zh) * | 2022-09-19 | 2022-12-27 | 清华大学 | 基于联合检测的裂缝检测方法、装置和计算机设备 |
CN115984233A (zh) * | 2023-01-12 | 2023-04-18 | 长沙理工大学 | 一种基于分组归一化和移位的图像裂缝检测方法 |
CN116975350A (zh) * | 2023-04-14 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 图文检索方法、装置、设备及存储介质 |
CN116485767A (zh) * | 2023-04-26 | 2023-07-25 | 长安大学 | 基于图像分类与分割的路面裂缝图像检测方法及系统 |
CN116645592A (zh) * | 2023-07-25 | 2023-08-25 | 苏州大学 | 一种基于图像处理的裂缝检测方法和存储介质 |
CN117197763A (zh) * | 2023-09-07 | 2023-12-08 | 湖北工业大学 | 基于交叉注意引导特征对齐网络的道路裂缝检测方法和系统 |
CN117292230A (zh) * | 2023-10-07 | 2023-12-26 | 四川大学 | 基于多模态大模型的建筑物震害损伤智能评估方法 |
Non-Patent Citations (2)
Title |
---|
ZHUANGZHUANG CHEN ET AL.: "The Devil is in the Crack Orientation: A New Perspective for Crack Detection", 《COMPUTER VISION FOUNDATION》, 6 October 2023 (2023-10-06), pages 6653 - 6663 * |
冯建云: "桥梁裂缝智能检测算法研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》, 15 April 2022 (2022-04-15), pages 034 - 124 * |
Also Published As
Publication number | Publication date |
---|---|
CN117557881B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111666921B (zh) | 车辆控制方法、装置、计算机设备和计算机可读存储介质 | |
CN102354363B (zh) | 高反光柱面金属上的二维条码图像识别方法 | |
CN111709416B (zh) | 车牌定位方法、装置、系统及存储介质 | |
CN111640089B (zh) | 一种基于特征图中心点的缺陷检测方法及装置 | |
US20070127779A1 (en) | System and method for range measurement of a preceding vehicle | |
CN109919145B (zh) | 一种基于3d点云深度学习的矿卡检测方法及系统 | |
CN103186894B (zh) | 一种自适应分块的多聚焦图像融合方法 | |
CN113706581B (zh) | 基于残差通道注意与多层次分类回归的目标跟踪方法 | |
CN113076871A (zh) | 一种基于目标遮挡补偿的鱼群自动检测方法 | |
CN112307978A (zh) | 目标检测方法、装置、电子设备及可读存储介质 | |
CN112070037B (zh) | 基于遥感影像的道路提取方法、装置、介质及设备 | |
CN109165654B (zh) | 一种目标定位模型的训练方法和目标定位方法及装置 | |
CN110796230A (zh) | 卷积神经网络的训练及使用方法、设备及存储介质 | |
CN110008900A (zh) | 一种由区域到目标的可见光遥感图像候选目标提取方法 | |
CN115331245A (zh) | 一种基于图像实例分割的表格结构识别方法 | |
CN115273032A (zh) | 交通标志识别方法、装置、设备及介质 | |
CN111401143A (zh) | 一种行人跟踪系统及方法 | |
CN117557881B (zh) | 基于特征图对齐和图文匹配的道路裂缝检测方法及应用 | |
CN111178181B (zh) | 交通场景分割方法及相关装置 | |
CN113554656B (zh) | 基于图神经网络的光学遥感图像实例分割方法及装置 | |
CN110222657B (zh) | 单步人脸检测器优化系统、方法、装置 | |
CN114821651A (zh) | 一种行人重识别方法、系统、设备及计算机可读存储介质 | |
CN115546780B (zh) | 车牌识别方法、模型及装置 | |
CN114219757B (zh) | 一种基于改进Mask R-CNN的车辆智能定损方法 | |
CN115546472B (zh) | 一种路面车辆重识别方法、装置及应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |