CN114898121B - 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法 - Google Patents
基于图注意力网络的混凝土坝缺陷图像描述自动生成方法 Download PDFInfo
- Publication number
- CN114898121B CN114898121B CN202210664943.9A CN202210664943A CN114898121B CN 114898121 B CN114898121 B CN 114898121B CN 202210664943 A CN202210664943 A CN 202210664943A CN 114898121 B CN114898121 B CN 114898121B
- Authority
- CN
- China
- Prior art keywords
- grid
- graph
- features
- global
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007547 defect Effects 0.000 title claims abstract description 67
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000003993 interaction Effects 0.000 claims abstract description 41
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 32
- 230000000007 visual effect Effects 0.000 claims abstract description 17
- 238000010586 diagram Methods 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 238000004364 calculation method Methods 0.000 claims abstract description 4
- 230000004927 fusion Effects 0.000 claims abstract description 3
- 238000005457 optimization Methods 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 22
- 230000002787 reinforcement Effects 0.000 claims description 21
- 230000007246 mechanism Effects 0.000 claims description 14
- 235000019987 cider Nutrition 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000007689 inspection Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 230000032683 aging Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000002950 deficient Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000002244 precipitate Substances 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 238000002407 reforming Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004901 spalling Methods 0.000 description 1
- 235000013599 spices Nutrition 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A10/00—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
- Y02A10/40—Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于图注意力网络的混凝土坝缺陷图像描述自动生成方法,包括以下步骤:1)利用多层卷积神经网络提取缺陷图像的局部网格特征和整幅图像特征,进行图像编码;2)构建网格特征交互图,对缺陷图像的网格视觉特征和全局图像特征进行融合编码;3)通过图注意力网络更新优化全局和局部特征,充分利用改进的视觉特征进行缺陷描述。本发明构建网格特征交互图,并利用图注意力网络更新节点信息,将特征提取任务作为图节点分类任务实现,不会增加计算开销,同时提高了性能。本发明可以捕捉缺陷图像的全局图像信息,并捕获局部网格特征的潜在交互,加深了对缺陷图像内容的理解,生成的描述文本能够准确并连贯地描述缺陷信息。
Description
技术领域
本发明涉及一种基于图注意力网络的混凝土坝缺陷图像描述自动生成方法,具体是一种为输入的混凝土坝缺陷图像自动生成自然语言描述的方法,属于计算机视觉和自然语言处理的多模态技术领域。
背景技术
我国已建成数百座混凝土重力坝,大坝在外界环境长期作用下始终处于老化损伤演化和新损伤不断形成的过程,大坝表面的缺陷常常反映了它的老化状况,因此有必要定期进行表面缺陷检测以评估其演变。中华人民共和国电力行业标准《混凝土坝安全监测技术规范》明确指出应当委派专员定期对混凝土坝进行检查与安全评价,并出具必要的专项检查报告和总结报告,以维护大坝安全运行,然而混凝土坝缺陷识别问题尚缺乏研究。
近年来,基于区域的视觉特征已成为图像描述生成等视觉—语言任务的主要方法。相对于整张图像来说,图像的网格特征包含更细粒度的各类目标,更加有利于识别混凝土坝的缺陷。对细粒度目标相关的缺陷内容进行编码无疑会优化缺陷识别,得到更具体、更精准的缺陷特征表示。现有的研究焦点是通过注意力机制建模视觉和语言特征之间的相互作用,以获得更加丰富可靠的图像描述,虽然可以使之在描述生成过程中关注最相关的图像特征,但是没有充分利用图像特征之间的交互关系,而且传统的注意力机制不能满足网格特征复杂的交互关系,同时在整合全局图像信息方面也存在一些问题。
发明内容
发明目的:为了工程监测中后续巡检报告的初步生成,保障巡检流程的规范化管理,本发明结合混凝土表面缺陷类型不确定、几何形态各异的特点,研发了基于图注意力网络的混凝土坝缺陷图像描述自动生成方法。网格特征作为图像描述生成的视觉表示具有一定的优势,然而网格特征的局部感受野较小,卷积神经网络只能学习到目标的局部特征,缺乏空间和全局信息。为了更好地使用网格特征作为图像描述生成模型的主要视觉表示,引入全局特征来指导优化更新网格特征可提高视觉表示的准确性。因此,本发明提出全局覆盖与局部部位兼顾的混凝土缺陷评估新工艺,将视觉特征提取问题作为节点分类任务来实现,借助全局图像特征增强视觉表示能力,利用图注意力网络将相邻的网格特征和全局特征相结合进行信息提取,能够有效地捕获全局上下文信息和局部信息,相对于已有的混凝土缺陷图像目标检测方法提高了分类精度,为完成大坝安全巡检报告提供直观的文本依据,降低人工整合的复杂度。
技术方案:一种基于图注意力网络的混凝土坝缺陷图像描述自动生成方法,包括如下步骤:
1)全局特征和网格特征提取,利用多层卷积神经网络分别提取缺陷图像的全局特征和网格特征;
2)构建网格特征交互图,将全局特征和网格特征作为节点输入;
3)全局特征和网格特征更新,利用图注意力网络更新优化2)中构建的网格特征交互图中的节点信息,得到更新后的全局特征和网格特征;
4)基于Transformer的解码模块利用更新后的全局特征和网格特征序列自动生成图像描述。
所述1)中,利用在Visual Genome数据集上预训练的Faster R-CNN模型进行全局特征和网格特征提取,特别的是,Faster R-CNN模型使用步长(Stride)为1的普通卷积层C5和带有两个FC层的1×1RoIPool作为检测头,其中C5层的输出作为缺陷图像的网格特征。
所述2)中,引入网格特征之间的依赖关系和全局特征,借助全局节点机制建立网格特征交互图,构建网格特征交互图过程为:将1)得到的全局特征和网格特征作为网格特征交互图的节点输入,得到一个全局节点和多个局部节点。全局节点用作虚拟中心,与图中的所有节点连接。局部节点根据网格的相对中心坐标建立连接,即将两个相邻的网格节点i和j在邻接矩阵A中的值(i,j)赋为1,表示直接交互,不相邻的节点则赋为0,表示无交互。提出的全局节点机制可以从局部节点中收集并分发通用信息。
所述1)中,利用多层卷积神经网络提取缺陷图像的网格特征和全局特征,进行图像编码:在融合各网格特征的基础上加入特征图的全局特征,提取缺陷图像的全局特征和网格特征。具体来说,定义输入为一幅缺陷图像p0=full_image和n个固定大小的网格Grids=(p1,p2,...,pn),利用在Visual Genome数据集上预训练的Faster R-CNN模型进行缺陷特征提取,使用步长(Stride)为1的普通卷积层C5和带有两个FC层的1×1RoIPool作为检测头,其中C5层的输出作为提取的缺陷图像嵌入IE0:n=CNN(p0:n;ΘCNN),图像嵌入是编码得到的图像特征,在本文中指缺陷图像的网格特征。其中,ΘCNN表示CNN模型的参数,IE包括全局图像嵌入IEGlobal=IE0和局部图像嵌入IELocal=[IE1,IE2,...,IEn],p0:n指p0=full_image和Grids=(p1,p2,...,pn)连接在一起,代表输入整幅图像和n个网格。
所述3)中,基于网格特征交互图的图注意力网络:结合网格特征交互图和图注意力网络,将图注意力网络的节点与缺陷图像的网格相对应,节点的特征为局部图像嵌入,图的边对应网格特征交互图的边,并且利用多头自注意力机制对网格特征交互图中相邻节点的缺陷信息进行融合更新。
所述4)中,Transformer的解码模块包括基准解码模块和优化解码模块,基准解码模块和优化解码模块的训练都分为两个阶段:交叉熵损失优化阶段和强化学习阶段。其中,交叉熵损失优化阶段基于负对数似然估计的损失函数;强化学习阶段基于强化学习的优化策略,将CIDEr得分作为奖励函数。
进一步的,所述3)中,应用图注意力网络更新节点,具体步骤如下:
(3.2)根据邻接矩阵A将两个网格的特征向量相连接,通过函数LeakyReLU非线性层对每个网格进行自注意力计算,如式(1)所示:
其中,eij表示网格j的特征对于网格i的重要程度,V和W均为可学习的参数矩阵,⊕表示连接。
(3.3)使用softmax函数对网格i的所有邻域网格特征进行归一化操作,得到注意力系数αij,使系数在不同节点之间易于比较,如式(2)所示:
其中,Ni表示网格i在网格特征交互图中所有的一阶邻域节点集合,包括i本身。
(3.4)将网格i的所有相邻网格j的特征与对应的权重系数αij进行加权求和,通过非线性层σ得到每个对象节点的最终输出特征,如式(3)所示:
(3.5)为了提高图注意力网络的性能,将上述方法扩展到多头自注意力机制。
进一步的,所述4)中,基于Transformer的解码模块利用更新后的全局特征和网格特征序列自动生成图像描述,具体来说,将全局特征和网格特征的编码信息传递到Transformer模型的解码模块中,Decoder依次会根据当前翻译过的单词序列w1:t翻译下一个单词wt+1,从而生成图像对应的描述句子w1:T。Transformer的解码模块包括基准解码模块和优化解码模块,基准解码模块和优化解码模块的训练都分为两个阶段:交叉熵损失优化阶段和强化学习阶段,具体步骤如下:
(4.2)实际训练中,以批为单位对Transformer模型进行权重更新,如式(5)所示:
其中,N是批的规模,loss表示损失函数,对4.1的损失函数进行N次,更好地训练模型。
(4.3)在强化学习阶段,基于步骤4.1-4.2中的负对数似然估计损失函数训练之后,采用自批判序列训练策略以CIDEr评分作为奖励对Transformer模型进行继续优化,如式(6)所示:
(4.4)强化学习阶段的优化目标是最小化负期望奖励,使用奖励的平均值梯度更新定义如下:
图像描述生成模型的训练阶段会有两个优化,交叉熵优化和强化学习优化,基于不同的优化目标来使模型生成的图像描述更加准确、真实。
一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如上所述的基于图注意力网络的混凝土坝缺陷图像描述自动生成方法。
一种计算机可读存储介质,该计算机可读存储介质存储有执行如上所述的基于图注意力网络的混凝土坝缺陷图像描述自动生成方法的计算机程序。
附图说明
图1为本发明实施例的方法框架图;
图2为本发明实施例的网格特征提取流程图;
图3为本发明实施例的网格特征交互图构建示意图;。
图4为本发明实施例的图注意力网络示意图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
为了实现混凝土坝缺陷图像描述自动生成,采用某电站混凝土坝工程巡检采集到的缺陷数据集,该数据集涵盖了4类缺陷,分别为裂缝(crack)、渗水(seepage)、碱性物析出(alkaline precipitate)、混凝土剥落(concrete spalling)和1类工程特征孔(hole),其中经数据增强后的图片达8890张,包含12995个标记实例。将数据集的85%作为训练集,15%的数据作为测试集,并尽可能保证每个缺陷类别分布均匀。
如图1所示,本发明实施例公开的基于图注意力网络的混凝土坝缺陷图像描述自动生成方法,具体包含以下步骤:
(1)缺陷图像特征编码:在融合各网格特征的基础上加入特征图的全局特征,图像编码模块负责提取缺陷图像的全局特征和网格特征,如图2所示。具体来说,定义输入为一幅缺陷图像p0=full_image和n个固定大小的网格Grids=(p1,p2,...,pn),利用在VisualGenome数据集上预训练的Faster R-CNN模型进行缺陷特征提取,使用步长(Stride)为1的普通卷积层C5和带有两个FC层的1×1RoIPool作为检测头,其中C5层的输出作为提取的缺陷图像嵌入IE0:n=CNN(p0:n;ΘCNN)。其中,ΘCNN表示CNN模型的参数,IE包括全局图像嵌入IEGlobal=IE0和局部图像嵌入IELocal=[IE1,IE2,...,IEn]。
(2)网格特征交互图建立:引入网格特征之间的依赖关系和全局特征,借助全局节点机制建立网格特征交互图,构建过程如图3所示。给定图像的全局和网格特征,首先,根据网格的相对中心坐标为两个相邻的网格i和j建立连接,即将邻接矩阵中(i,j)的值赋为1,表示直接交互。全局节点用作虚拟中心,与图中的所有节点连接,从局部节点中收集并分发通用信息。
(3)基于网格特征交互图的图注意力网络:结合网格特征交互图和图注意力网络,如图4所示,将图注意力网络的节点与缺陷图像的网格相对应,节点的特征为局部图像嵌入,图的边对应网格特征交互图的边,并且利用多头自注意力机制对网格特征交互图中相邻节点的缺陷信息进行融合更新。应用图注意力网络更新节点具体步骤如下:
(3.2)将两个网格的特征向量相连接,通过函数LeakyReLU非线性层对每个网格进行自注意力计算,如式(1)所示:
其中,eij表示网格j的特征对于网格i的重要程度,V和W均为可学习的参数矩阵,⊕表示连接。
(3.3)使用softmax函数对网格i的所有邻域网格特征进行归一化操作,得到注意力系数,使系数在不同节点之间易于比较,如式(2)所示:
其中,Ni表示网格i在网格特征交互图中所有的一阶邻域节点集合(包括i本身)。
(3.4)将网格i的所有相邻网格j的特征与对应的权重系数αij进行加权求和,通过非线性层σ得到每个对象节点的最终输出特征,如式(3)所示:
(3.5)为了提高图注意力网络的性能,将上述方法扩展到多头自注意力机制。
(4)解码与损失函数优化:基准解码模块和优化解码模块的训练都分为两个阶段:交叉熵损失优化阶段和强化学习阶段。其中,交叉熵损失优化阶段基于负对数似然估计的损失函数;强化学习阶段基于强化学习的优化策略,将CIDEr得分作为奖励函数。
基于Transformer的解码模块利用更新后的全局特征和网格特征序列自动生成图像描述,具体来说,将全局特征和网格特征的编码信息传递到Transformer的解码模块中,Decoder依次会根据当前翻译过的单词序列w1:t翻译下一个单词wt+1,从而生成图像对应的描述句子w1:T。Transformer的解码模块包括基准解码模块和优化解码模块,基准解码模块和优化解码模块的训练都分为两个阶段:交叉熵损失优化阶段和强化学习阶段,具体步骤如下:
(4.2)实际训练中,以批为单位对Transformer模型进行权重更新,如式(5)所示:
其中,N是批的规模。
(4.3)在强化学习阶段,基于负对数似然估计损失函数的训练之后,采用自批判序列训练策略以CIDEr评分作为奖励对Transformer模型进行继续优化,如式(6)所示:
其中,r(·)为基于CIDEr评分定义的原始奖励,w1:T表示生成的长度为T的图像描述序列。
(4.4)强化学习阶段的优化目标是最小化负期望奖励,使用奖励的平均值梯度更新定义如下:
参数的设置和实验评价标准如下:
A实验设置:
采用改造预训练Faster R-CNN模型的检测头来提取缺陷图像网格特征,网格尺度为7×7,每个图像特征维度为2048。遵循Transformer模型的超参数设置,模型维度dmodel为512,多头注意力机制头的个数K为8。实验使用dropout算法防止模型过拟合,丢失率设置为0.1。实验基于PyTorch框架并用Adam梯度优化算法进行梯度更新。模型训练分为两个阶段,在交叉熵损失优化训练阶段,以初始学习率为1×10-4训练18轮,其中每3个周期衰减一次,衰减率为0.8,优化对数似然估计损失函数,批规模设置为50;在基于强化学习策略的训练阶段强化学习,以固定学习率为5×10-6训练25轮,批规模设置为100。推理阶段,设置集束大小为5。
B评价指标:
所涉及的评价指标为现有方法统一使用的指标组合,包括:BLEU(B1、B2、B3和B4)、METEOR、CIDEr、ROUGE-L和SPICE。
根据以上实施例可知,本发明得益于全局图像特征丰富的语义信息,可实现更深层次的视觉理解,并基于全局语义进行合理推测;本发明利用网格特征的方法可以生成更完整、详细的缺陷描述,在语义表达上更具优势。本发明在网格特征交互图中使用全局节点机制与图注意力网络,不仅结合全局特征捕获上下文重要信息,还通过图注意力网络聚合节点信息,捕获网格之间的依赖关系和潜在交互,增强视觉特征以提高缺陷描述的准确性。
显然,本领域的技术人员应该明白,上述的本发明实施例的基于图注意力网络的混凝土坝缺陷图像描述自动生成方法各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。
Claims (9)
1.一种基于图注意力网络的混凝土坝缺陷图像描述自动生成方法,其特征在于,包括如下步骤:
1)全局特征和网格特征提取,利用多层卷积神经网络分别提取缺陷图像的全局特征和网格特征;
2)构建网格特征交互图,将全局特征和网格特征作为节点输入;
3)全局特征和网格特征更新,利用图注意力网络更新优化2)中构建的网格特征交互图中的节点信息,得到更新后的全局特征和网格特征;
4)基于Transformer的解码模块利用更新后的全局特征和网格特征序列自动生成图像描述;
所述3)中,基于网格特征交互图的图注意力网络:结合网格特征交互图和图注意力网络,将图注意力网络的节点与缺陷图像的网格相对应,节点的特征为局部图像嵌入,图的边对应网格特征交互图的边,并且利用多头自注意力机制对网格特征交互图中相邻节点的缺陷信息进行融合更新。
2.根据权利要求1所述的基于图注意力网络的混凝土坝缺陷图像描述自动生成方法,其特征在于,所述1)中,利用在Visual Genome数据集上预训练的Faster R-CNN模型进行全局特征和网格特征提取,Faster R-CNN模型使用步长为1的卷积层C5和带有两个FC层的1×1RoIPool作为检测头,其中C5层的输出作为缺陷图像的网格特征。
3.根据权利要求1所述的基于图注意力网络的混凝土坝缺陷图像描述自动生成方法,其特征在于,所述2)中,引入网格特征之间的依赖关系和全局特征,借助全局节点机制建立网格特征交互图,构建网格特征交互图过程为:将1)得到的全局特征和网格特征作为网格特征交互图的节点输入,得到一个全局节点和多个局部节点;全局节点用作虚拟中心,与图中的所有节点连接;局部节点根据网格的相对中心坐标建立连接,即将两个相邻的网格节点i和j在邻接矩阵A中的值(i,j)赋为1,表示直接交互,不相邻的节点则赋为0,表示无交互;全局节点从局部节点中收集并分发通用信息。
4.根据权利要求1所述的基于图注意力网络的混凝土坝缺陷图像描述自动生成方法,其特征在于,所述1)中,利用多层卷积神经网络提取缺陷图像的网格特征和全局特征,进行图像编码:在融合各网格特征的基础上加入特征图的全局特征,提取缺陷图像的全局特征和网格特征;定义输入为一幅缺陷图像p0=full_image和n个固定大小的网格Grids=(p1,p2,...,pn),利用在Visual Genome数据集上预训练的Faster R-CNN模型进行缺陷特征提取,使用步长为1的卷积层C5和带有两个FC层的1×1RoIPool作为检测头,其中C5层的输出作为提取的缺陷图像嵌入IE0:n=CNN(p0:n;ΘCNN);其中,ΘCNN表示CNN模型的参数,IE包括全局图像嵌入IEGlobal=IE0和局部图像嵌入IELocal=[IE1,IE2,...,IEn]。
5.根据权利要求1所述的基于图注意力网络的混凝土坝缺陷图像描述自动生成方法,其特征在于,所述4)中,Transformer的解码模块包括基准解码模块和优化解码模块,基准解码模块和优化解码模块的训练都分为两个阶段:交叉熵损失优化阶段和强化学习阶段;其中,交叉熵损失优化阶段基于负对数似然估计的损失函数;强化学习阶段基于强化学习的优化策略,将CIDEr得分作为奖励函数。
6.根据权利要求1所述的基于图注意力网络的混凝土坝缺陷图像描述自动生成方法,其特征在于,所述3)中,应用图注意力网络更新节点,具体步骤如下:
(3.2)根据邻接矩阵A将两个网格的特征向量相连接,通过函数LeakyReLU非线性层对每个网格进行自注意力计算,如式(1)所示:
其中,eij表示网格j的特征对于网格i的重要程度,V和W均为可学习的参数矩阵,⊕表示连接;
(3.3)使用softmax函数对网格i的所有邻域网格特征进行归一化操作,得到注意力系数αij,使系数在不同节点之间易于比较,如式(2)所示:
其中,Ni表示网格i在网格特征交互图中所有的一阶邻域节点集合,包括i本身;
(3.4)将网格i的所有相邻网格j的特征与对应的权重系数αij进行加权求和,通过非线性层σ得到每个对象节点的最终输出特征,如式(3)所示:
(3.5)将步骤3.1-3.4构成的方法扩展到多头自注意力机制。
7.根据权利要求1所述的基于图注意力网络的混凝土坝缺陷图像描述自动生成方法,其特征在于,所述4)中,基于Transformer的解码模块利用更新后的全局特征和网格特征序列自动生成图像描述,Transformer的解码模块包括基准解码模块和优化解码模块,基准解码模块和优化解码模块的训练都分为两个阶段:交叉熵损失优化阶段和强化学习阶段,具体步骤如下:
(4.2)实际训练中,以批为单位对Transformer模型进行权重更新,如式(5)所示:
其中,N是批的规模;
(4.3)在强化学习阶段,基于步骤4.1-4.2中的负对数似然估计损失函数训练之后,采用自批判序列训练策略以CIDEr评分作为奖励对Transformer模型进行继续优化,如式(6)所示:
(4.4)强化学习阶段的优化目标是最小化负期望奖励,使用奖励的平均值,梯度更新定义如下:
8.一种计算机设备,其特征在于:该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如权利要求1-7中任一项所述的基于图注意力网络的混凝土坝缺陷图像描述自动生成方法。
9.一种计算机可读存储介质,其特征在于:该计算机可读存储介质存储有执行如权利要求1-7中任一项所述的基于图注意力网络的混凝土坝缺陷图像描述自动生成方法的计算机程序。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210664943.9A CN114898121B (zh) | 2022-06-13 | 2022-06-13 | 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法 |
PCT/CN2023/093220 WO2023241272A1 (zh) | 2022-06-13 | 2023-05-10 | 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法 |
US18/327,074 US20230401390A1 (en) | 2022-06-13 | 2023-06-01 | Automatic concrete dam defect image description generation method based on graph attention network |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210664943.9A CN114898121B (zh) | 2022-06-13 | 2022-06-13 | 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114898121A CN114898121A (zh) | 2022-08-12 |
CN114898121B true CN114898121B (zh) | 2023-05-30 |
Family
ID=82727121
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210664943.9A Active CN114898121B (zh) | 2022-06-13 | 2022-06-13 | 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114898121B (zh) |
WO (1) | WO2023241272A1 (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114898121B (zh) * | 2022-06-13 | 2023-05-30 | 河海大学 | 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法 |
CN115359323B (zh) * | 2022-08-31 | 2023-04-25 | 北京百度网讯科技有限公司 | 图像的文本信息生成方法和深度学习模型的训练方法 |
CN117808726A (zh) * | 2022-09-23 | 2024-04-02 | 中国电信股份有限公司 | 用于云边协同的机器视觉缺陷识别方法、装置和系统 |
CN115994891B (zh) * | 2022-11-22 | 2023-06-30 | 河海大学 | 基于狼群算法的无人载具混凝土坝表面缺陷动态检测方法 |
CN118135413B (zh) * | 2024-01-23 | 2024-09-10 | 北京建筑大学 | 一种基于逻辑规则的电网工程周边要素分类方法及系统 |
CN118379237A (zh) * | 2024-03-14 | 2024-07-23 | 哈尔滨工业大学 | 基于视觉大模型sam的桥梁表观裂缝像素级辨识方法 |
CN118314383A (zh) * | 2024-04-02 | 2024-07-09 | 苏州亿铸智能科技有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN118097318B (zh) * | 2024-04-28 | 2024-07-26 | 武汉大学 | 基于视觉语义融合的可控缺陷图像生成方法及设备 |
CN118446972A (zh) * | 2024-04-28 | 2024-08-06 | 北京海云捷迅科技股份有限公司 | 金属表面缺陷检测方法、装置以及存储介质 |
CN118155048A (zh) * | 2024-05-10 | 2024-06-07 | 电子科技大学长三角研究院(衢州) | 一种基于ViT和强化学习的关键特征自适应选择方法 |
CN118657787A (zh) * | 2024-08-22 | 2024-09-17 | 成都赛力斯科技有限公司 | 一种汽车外观缺陷检测方法、设备和存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220919A (zh) * | 2021-05-17 | 2021-08-06 | 河海大学 | 一种大坝缺陷图像文本跨模态检索方法及模型 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180174000A1 (en) * | 2015-06-04 | 2018-06-21 | Hitachi High-Technologies Corporation | Defect image classification device and defect image classification method |
CN110782015B (zh) * | 2019-10-25 | 2024-10-15 | 腾讯科技(深圳)有限公司 | 神经网络的网络结构优化器的训练方法、装置及存储介质 |
CN111126282B (zh) * | 2019-12-25 | 2023-05-12 | 中国矿业大学 | 一种基于变分自注意力强化学习的遥感图像内容描述方法 |
CN111597819B (zh) * | 2020-05-08 | 2021-01-26 | 河海大学 | 一种基于关键词的大坝缺陷图像描述文本生成方法 |
CN112329794B (zh) * | 2020-11-06 | 2024-03-12 | 北京工业大学 | 一种基于双重自注意力机制的图像描述方法 |
CN112767405A (zh) * | 2021-01-18 | 2021-05-07 | 北京工商大学 | 一种基于图注意力网络的三维网格模型分割方法及系统 |
CN112819012B (zh) * | 2021-01-29 | 2022-05-03 | 厦门大学 | 一种基于多源协同特征的图像描述生成方法 |
CN113256677A (zh) * | 2021-04-16 | 2021-08-13 | 浙江工业大学 | 一种图注意力视觉目标跟踪方法 |
CN114612891B (zh) * | 2022-03-09 | 2024-05-28 | 华南理工大学 | 基于对比学习和自适应注意力的图像描述生成方法及介质 |
CN114898121B (zh) * | 2022-06-13 | 2023-05-30 | 河海大学 | 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法 |
-
2022
- 2022-06-13 CN CN202210664943.9A patent/CN114898121B/zh active Active
-
2023
- 2023-05-10 WO PCT/CN2023/093220 patent/WO2023241272A1/zh unknown
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220919A (zh) * | 2021-05-17 | 2021-08-06 | 河海大学 | 一种大坝缺陷图像文本跨模态检索方法及模型 |
Also Published As
Publication number | Publication date |
---|---|
CN114898121A (zh) | 2022-08-12 |
WO2023241272A1 (zh) | 2023-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114898121B (zh) | 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法 | |
US20230401390A1 (en) | Automatic concrete dam defect image description generation method based on graph attention network | |
WO2023116111A1 (zh) | 一种磁盘故障预测方法及装置 | |
CN112884008B (zh) | 一种电力信息采集系统运行状态的预测评估方法及装置 | |
CN113344044B (zh) | 一种基于领域自适应的跨物种医疗影像分类方法 | |
CN113361559B (zh) | 基于深宽度联合神经网络的多模态数据知识信息提取方法 | |
CN110633689B (zh) | 基于半监督注意力网络的人脸识别模型 | |
CN116027829A (zh) | 机房温度控制方法、装置、设备及存储介质 | |
CN118194487A (zh) | 一种电路与用电设备自动化布置方法、介质及系统 | |
CN113469013B (zh) | 一种基于迁移学习和时间序列的电机故障预测方法及系统 | |
CN117993868A (zh) | 基于双模态注意力的电网工程项目审计预警方法及系统 | |
CN117034780B (zh) | 一种基于深度学习的多尺度次季节降水量预测方法 | |
CN113536508A (zh) | 一种制造网络节点分类方法及系统 | |
CN116541507A (zh) | 一种基于动态语义图神经网络的视觉问答方法及系统 | |
CN116401610A (zh) | 基于深度残差网络和联合分布的逆变器参数故障诊断方法 | |
CN115293249A (zh) | 一种基于动态时序预测的电力系统典型场景概率预测方法 | |
CN112016240B (zh) | 一种相似证据非完全降解设备剩余稳定使用寿命预测方法 | |
CN115063374A (zh) | 模型训练、人脸图像质量评分方法、电子设备及存储介质 | |
CN117648890B (zh) | 一种基于人工智能的半导体器件建模方法及系统 | |
CN118279113B (zh) | 一种基于大模型的数智社会公共服务管理方法及系统 | |
Ling et al. | Carbon trading price forecasting based on parameter optimization VMD and deep network CNN–LSTM model | |
CN117577981B (zh) | 光伏发电储能控制方法及系统 | |
CN118199061B (zh) | 一种可再生能源的短期功率预测方法及系统 | |
CN115222024B (zh) | 基于深度特征选择网络的短期光伏发电预测方法和系统 | |
CN117057416B (zh) | 一种次日光伏发电预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |