CN114898121B

CN114898121B - 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法

Info

Publication number: CN114898121B
Application number: CN202210664943.9A
Authority: CN
Inventors: 隋佳宏; 周华; 迟福东; 毛莺池; 陈豪; 万旭; 赵欢; 庞博慧; 余记远; 郭锐; 吴光耀; 王顺波
Original assignee: Hohai University HHU; Huaneng Group Technology Innovation Center Co Ltd; Huaneng Lancang River Hydropower Co Ltd
Current assignee: Hohai University HHU; Huaneng Group Technology Innovation Center Co Ltd; Huaneng Lancang River Hydropower Co Ltd
Priority date: 2022-06-13
Filing date: 2022-06-13
Publication date: 2023-05-30
Anticipated expiration: 2042-06-13
Also published as: CN114898121A; WO2023241272A1

Abstract

本发明公开了一种基于图注意力网络的混凝土坝缺陷图像描述自动生成方法，包括以下步骤：1)利用多层卷积神经网络提取缺陷图像的局部网格特征和整幅图像特征，进行图像编码；2)构建网格特征交互图，对缺陷图像的网格视觉特征和全局图像特征进行融合编码；3)通过图注意力网络更新优化全局和局部特征，充分利用改进的视觉特征进行缺陷描述。本发明构建网格特征交互图，并利用图注意力网络更新节点信息，将特征提取任务作为图节点分类任务实现，不会增加计算开销，同时提高了性能。本发明可以捕捉缺陷图像的全局图像信息，并捕获局部网格特征的潜在交互，加深了对缺陷图像内容的理解，生成的描述文本能够准确并连贯地描述缺陷信息。

Description

基于图注意力网络的混凝土坝缺陷图像描述自动生成方法

技术领域

本发明涉及一种基于图注意力网络的混凝土坝缺陷图像描述自动生成方法，具体是一种为输入的混凝土坝缺陷图像自动生成自然语言描述的方法，属于计算机视觉和自然语言处理的多模态技术领域。

背景技术

我国已建成数百座混凝土重力坝，大坝在外界环境长期作用下始终处于老化损伤演化和新损伤不断形成的过程，大坝表面的缺陷常常反映了它的老化状况，因此有必要定期进行表面缺陷检测以评估其演变。中华人民共和国电力行业标准《混凝土坝安全监测技术规范》明确指出应当委派专员定期对混凝土坝进行检查与安全评价，并出具必要的专项检查报告和总结报告，以维护大坝安全运行，然而混凝土坝缺陷识别问题尚缺乏研究。

近年来，基于区域的视觉特征已成为图像描述生成等视觉—语言任务的主要方法。相对于整张图像来说，图像的网格特征包含更细粒度的各类目标，更加有利于识别混凝土坝的缺陷。对细粒度目标相关的缺陷内容进行编码无疑会优化缺陷识别，得到更具体、更精准的缺陷特征表示。现有的研究焦点是通过注意力机制建模视觉和语言特征之间的相互作用，以获得更加丰富可靠的图像描述，虽然可以使之在描述生成过程中关注最相关的图像特征，但是没有充分利用图像特征之间的交互关系，而且传统的注意力机制不能满足网格特征复杂的交互关系，同时在整合全局图像信息方面也存在一些问题。

发明内容

发明目的：为了工程监测中后续巡检报告的初步生成，保障巡检流程的规范化管理，本发明结合混凝土表面缺陷类型不确定、几何形态各异的特点，研发了基于图注意力网络的混凝土坝缺陷图像描述自动生成方法。网格特征作为图像描述生成的视觉表示具有一定的优势，然而网格特征的局部感受野较小，卷积神经网络只能学习到目标的局部特征，缺乏空间和全局信息。为了更好地使用网格特征作为图像描述生成模型的主要视觉表示，引入全局特征来指导优化更新网格特征可提高视觉表示的准确性。因此，本发明提出全局覆盖与局部部位兼顾的混凝土缺陷评估新工艺，将视觉特征提取问题作为节点分类任务来实现，借助全局图像特征增强视觉表示能力，利用图注意力网络将相邻的网格特征和全局特征相结合进行信息提取，能够有效地捕获全局上下文信息和局部信息，相对于已有的混凝土缺陷图像目标检测方法提高了分类精度，为完成大坝安全巡检报告提供直观的文本依据，降低人工整合的复杂度。

技术方案：一种基于图注意力网络的混凝土坝缺陷图像描述自动生成方法，包括如下步骤：

1)全局特征和网格特征提取，利用多层卷积神经网络分别提取缺陷图像的全局特征和网格特征；

2)构建网格特征交互图，将全局特征和网格特征作为节点输入；

3)全局特征和网格特征更新，利用图注意力网络更新优化2)中构建的网格特征交互图中的节点信息，得到更新后的全局特征和网格特征；

4)基于Transformer的解码模块利用更新后的全局特征和网格特征序列自动生成图像描述。

所述1)中，利用在Visual Genome数据集上预训练的Faster R-CNN模型进行全局特征和网格特征提取，特别的是，Faster R-CNN模型使用步长(Stride)为1的普通卷积层C5和带有两个FC层的1×1RoIPool作为检测头，其中C5层的输出作为缺陷图像的网格特征。

所述2)中，引入网格特征之间的依赖关系和全局特征，借助全局节点机制建立网格特征交互图，构建网格特征交互图过程为：将1)得到的全局特征和网格特征作为网格特征交互图的节点输入，得到一个全局节点和多个局部节点。全局节点用作虚拟中心，与图中的所有节点连接。局部节点根据网格的相对中心坐标建立连接，即将两个相邻的网格节点i和j在邻接矩阵A中的值(i,j)赋为1，表示直接交互，不相邻的节点则赋为0，表示无交互。提出的全局节点机制可以从局部节点中收集并分发通用信息。

所述1)中，利用多层卷积神经网络提取缺陷图像的网格特征和全局特征，进行图像编码：在融合各网格特征的基础上加入特征图的全局特征，提取缺陷图像的全局特征和网格特征。具体来说，定义输入为一幅缺陷图像p₀＝full_image和n个固定大小的网格Grids＝(p₁,p₂,...,p_n)，利用在Visual Genome数据集上预训练的Faster R-CNN模型进行缺陷特征提取，使用步长(Stride)为1的普通卷积层C5和带有两个FC层的1×1RoIPool作为检测头，其中C5层的输出作为提取的缺陷图像嵌入IE_0:n＝CNN(p_0:n；Θ_CNN)，图像嵌入是编码得到的图像特征，在本文中指缺陷图像的网格特征。其中，Θ_CNN表示CNN模型的参数，IE包括全局图像嵌入IE_Global＝IE₀和局部图像嵌入IE_Local＝[IE₁,IE₂,...,IE_n]，p_0:n指p₀＝full_image和Grids＝(p₁,p₂,...,p_n)连接在一起，代表输入整幅图像和n个网格。

所述3)中，基于网格特征交互图的图注意力网络：结合网格特征交互图和图注意力网络，将图注意力网络的节点与缺陷图像的网格相对应，节点的特征为局部图像嵌入，图的边对应网格特征交互图的边，并且利用多头自注意力机制对网格特征交互图中相邻节点的缺陷信息进行融合更新。

所述4)中，Transformer的解码模块包括基准解码模块和优化解码模块，基准解码模块和优化解码模块的训练都分为两个阶段：交叉熵损失优化阶段和强化学习阶段。其中，交叉熵损失优化阶段基于负对数似然估计的损失函数；强化学习阶段基于强化学习的优化策略，将CIDEr得分作为奖励函数。

进一步的，所述3)中，应用图注意力网络更新节点，具体步骤如下：

(3.1)定义多层卷积神经网络得到的网格特征表示为

其中n表示网格个数，F为CNN隐藏层输出的特征维度，/>

表示一个F维的向量。

(3.2)根据邻接矩阵A将两个网格的特征向量相连接，通过函数LeakyReLU非线性层对每个网格进行自注意力计算，如式(1)所示：

其中，e_ij表示网格j的特征对于网格i的重要程度，V和W均为可学习的参数矩阵，⊕表示连接。

(3.3)使用softmax函数对网格i的所有邻域网格特征进行归一化操作，得到注意力系数α_ij，使系数在不同节点之间易于比较，如式(2)所示：

其中，N_i表示网格i在网格特征交互图中所有的一阶邻域节点集合，包括i本身。

(3.4)将网格i的所有相邻网格j的特征与对应的权重系数α_ij进行加权求和，通过非线性层σ得到每个对象节点的最终输出特征，如式(3)所示：

(3.5)为了提高图注意力网络的性能，将上述方法扩展到多头自注意力机制。

进一步的，所述4)中，基于Transformer的解码模块利用更新后的全局特征和网格特征序列自动生成图像描述，具体来说，将全局特征和网格特征的编码信息传递到Transformer模型的解码模块中，Decoder依次会根据当前翻译过的单词序列w_1:t翻译下一个单词w_t+1，从而生成图像对应的描述句子w_1:T。Transformer的解码模块包括基准解码模块和优化解码模块，基准解码模块和优化解码模块的训练都分为两个阶段：交叉熵损失优化阶段和强化学习阶段，具体步骤如下：

(4.1)在交叉熵损失优化阶段，目标是使预测描述与标注描述一致。给定人工标注

和参数为θ的解码模块，最小化以下损失函数：

其中，T为生成描述语句的长度，

表示解码模块基于t-1长度的标注序列/>

预测第t个词向量/>

的概率，log的底数是e。

(4.2)实际训练中，以批为单位对Transformer模型进行权重更新，如式(5)所示：

其中，N是批的规模，loss表示损失函数，对4.1的损失函数进行N次，更好地训练模型。

(4.3)在强化学习阶段，基于步骤4.1-4.2中的负对数似然估计损失函数训练之后，采用自批判序列训练策略以CIDEr评分作为奖励对Transformer模型进行继续优化，如式(6)所示：

其中，r(·)为基于CIDEr评分定义的原始奖励，w_1:T表示模型生成的长度为T的图像描述序列，

表示对预测长度为T的序列的概率求均值。

(4.4)强化学习阶段的优化目标是最小化负期望奖励，使用奖励的平均值梯度更新定义如下：

其中，k是图像描述序列的数目，

是第i个图像描述序列，b是所有图像描述序列获得奖励的平均值，log的底数是e。/>

表示梯度运算符，求导操作，/>

是对L_RL(θ)中的θ求导；/>

是第i个图像描述序列。

图像描述生成模型的训练阶段会有两个优化，交叉熵优化和强化学习优化，基于不同的优化目标来使模型生成的图像描述更加准确、真实。

一种计算机设备，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如上所述的基于图注意力网络的混凝土坝缺陷图像描述自动生成方法。

一种计算机可读存储介质，该计算机可读存储介质存储有执行如上所述的基于图注意力网络的混凝土坝缺陷图像描述自动生成方法的计算机程序。

附图说明

图1为本发明实施例的方法框架图；

图2为本发明实施例的网格特征提取流程图；

图3为本发明实施例的网格特征交互图构建示意图；。

图4为本发明实施例的图注意力网络示意图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

为了实现混凝土坝缺陷图像描述自动生成，采用某电站混凝土坝工程巡检采集到的缺陷数据集，该数据集涵盖了4类缺陷，分别为裂缝(crack)、渗水(seepage)、碱性物析出(alkaline precipitate)、混凝土剥落(concrete spalling)和1类工程特征孔(hole)，其中经数据增强后的图片达8890张，包含12995个标记实例。将数据集的85％作为训练集，15％的数据作为测试集，并尽可能保证每个缺陷类别分布均匀。

如图1所示，本发明实施例公开的基于图注意力网络的混凝土坝缺陷图像描述自动生成方法，具体包含以下步骤：

(1)缺陷图像特征编码：在融合各网格特征的基础上加入特征图的全局特征，图像编码模块负责提取缺陷图像的全局特征和网格特征，如图2所示。具体来说，定义输入为一幅缺陷图像p₀＝full_image和n个固定大小的网格Grids＝(p₁,p₂,...,p_n)，利用在VisualGenome数据集上预训练的Faster R-CNN模型进行缺陷特征提取，使用步长(Stride)为1的普通卷积层C5和带有两个FC层的1×1RoIPool作为检测头，其中C5层的输出作为提取的缺陷图像嵌入IE_0:n＝CNN(p_0:n；Θ_CNN)。其中，Θ_CNN表示CNN模型的参数，IE包括全局图像嵌入IE_Global＝IE₀和局部图像嵌入IE_Local＝[IE₁,IE₂,...,IE_n]。

(2)网格特征交互图建立：引入网格特征之间的依赖关系和全局特征，借助全局节点机制建立网格特征交互图，构建过程如图3所示。给定图像的全局和网格特征，首先，根据网格的相对中心坐标为两个相邻的网格i和j建立连接，即将邻接矩阵中(i,j)的值赋为1，表示直接交互。全局节点用作虚拟中心，与图中的所有节点连接，从局部节点中收集并分发通用信息。

(3)基于网格特征交互图的图注意力网络：结合网格特征交互图和图注意力网络，如图4所示，将图注意力网络的节点与缺陷图像的网格相对应，节点的特征为局部图像嵌入，图的边对应网格特征交互图的边，并且利用多头自注意力机制对网格特征交互图中相邻节点的缺陷信息进行融合更新。应用图注意力网络更新节点具体步骤如下：

(3.1)定义多层卷积神经网络得到的网格特征表示为

其中n表示网格个数，F为CNN隐藏层输出的特征维度。

(3.2)将两个网格的特征向量相连接，通过函数LeakyReLU非线性层对每个网格进行自注意力计算，如式(1)所示：

(3.3)使用softmax函数对网格i的所有邻域网格特征进行归一化操作，得到注意力系数，使系数在不同节点之间易于比较，如式(2)所示：

其中，N_i表示网格i在网格特征交互图中所有的一阶邻域节点集合(包括i本身)。

(4)解码与损失函数优化：基准解码模块和优化解码模块的训练都分为两个阶段：交叉熵损失优化阶段和强化学习阶段。其中，交叉熵损失优化阶段基于负对数似然估计的损失函数；强化学习阶段基于强化学习的优化策略，将CIDEr得分作为奖励函数。

基于Transformer的解码模块利用更新后的全局特征和网格特征序列自动生成图像描述，具体来说，将全局特征和网格特征的编码信息传递到Transformer的解码模块中，Decoder依次会根据当前翻译过的单词序列w_1:t翻译下一个单词w_t+1，从而生成图像对应的描述句子w_1:T。Transformer的解码模块包括基准解码模块和优化解码模块，基准解码模块和优化解码模块的训练都分为两个阶段：交叉熵损失优化阶段和强化学习阶段，具体步骤如下：

和参数为θ的解码模块，最小化以下损失函数：

其中，T为生成描述语句的长度，

表示解码模块基于t-1长度的标注序列/>

预测第t个词向量/>

的概率。

其中，N是批的规模。

(4.3)在强化学习阶段，基于负对数似然估计损失函数的训练之后，采用自批判序列训练策略以CIDEr评分作为奖励对Transformer模型进行继续优化，如式(6)所示：

其中，r(·)为基于CIDEr评分定义的原始奖励，w_1:T表示生成的长度为T的图像描述序列。

其中，k是图像描述序列的数目，

是第i个图像描述序列，b是所有图像描述序列获得奖励的平均值。

参数的设置和实验评价标准如下：

A实验设置：

采用改造预训练Faster R-CNN模型的检测头来提取缺陷图像网格特征，网格尺度为7×7，每个图像特征维度为2048。遵循Transformer模型的超参数设置，模型维度d_model为512，多头注意力机制头的个数K为8。实验使用dropout算法防止模型过拟合，丢失率设置为0.1。实验基于PyTorch框架并用Adam梯度优化算法进行梯度更新。模型训练分为两个阶段，在交叉熵损失优化训练阶段，以初始学习率为1×10^-4训练18轮，其中每3个周期衰减一次，衰减率为0.8，优化对数似然估计损失函数，批规模设置为50；在基于强化学习策略的训练阶段强化学习，以固定学习率为5×10^-6训练25轮，批规模设置为100。推理阶段，设置集束大小为5。

B评价指标：

所涉及的评价指标为现有方法统一使用的指标组合，包括：BLEU(B1、B2、B3和B4)、METEOR、CIDEr、ROUGE-L和SPICE。

根据以上实施例可知，本发明得益于全局图像特征丰富的语义信息，可实现更深层次的视觉理解，并基于全局语义进行合理推测；本发明利用网格特征的方法可以生成更完整、详细的缺陷描述，在语义表达上更具优势。本发明在网格特征交互图中使用全局节点机制与图注意力网络，不仅结合全局特征捕获上下文重要信息，还通过图注意力网络聚合节点信息，捕获网格之间的依赖关系和潜在交互，增强视觉特征以提高缺陷描述的准确性。

显然，本领域的技术人员应该明白，上述的本发明实施例的基于图注意力网络的混凝土坝缺陷图像描述自动生成方法各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

Claims

1.一种基于图注意力网络的混凝土坝缺陷图像描述自动生成方法，其特征在于，包括如下步骤：

4)基于Transformer的解码模块利用更新后的全局特征和网格特征序列自动生成图像描述；

2.根据权利要求1所述的基于图注意力网络的混凝土坝缺陷图像描述自动生成方法，其特征在于，所述1)中，利用在Visual Genome数据集上预训练的Faster R-CNN模型进行全局特征和网格特征提取，Faster R-CNN模型使用步长为1的卷积层C5和带有两个FC层的1×1RoIPool作为检测头，其中C5层的输出作为缺陷图像的网格特征。

3.根据权利要求1所述的基于图注意力网络的混凝土坝缺陷图像描述自动生成方法，其特征在于，所述2)中，引入网格特征之间的依赖关系和全局特征，借助全局节点机制建立网格特征交互图，构建网格特征交互图过程为：将1)得到的全局特征和网格特征作为网格特征交互图的节点输入，得到一个全局节点和多个局部节点；全局节点用作虚拟中心，与图中的所有节点连接；局部节点根据网格的相对中心坐标建立连接，即将两个相邻的网格节点i和j在邻接矩阵A中的值(i,j)赋为1，表示直接交互，不相邻的节点则赋为0，表示无交互；全局节点从局部节点中收集并分发通用信息。

4.根据权利要求1所述的基于图注意力网络的混凝土坝缺陷图像描述自动生成方法，其特征在于，所述1)中，利用多层卷积神经网络提取缺陷图像的网格特征和全局特征，进行图像编码：在融合各网格特征的基础上加入特征图的全局特征，提取缺陷图像的全局特征和网格特征；定义输入为一幅缺陷图像p₀＝full_image和n个固定大小的网格Grids＝(p₁,p₂,...,p_n)，利用在Visual Genome数据集上预训练的Faster R-CNN模型进行缺陷特征提取，使用步长为1的卷积层C5和带有两个FC层的1×1RoIPool作为检测头，其中C5层的输出作为提取的缺陷图像嵌入IE_0:n＝CNN(p_0:n；Θ_CNN)；其中，Θ_CNN表示CNN模型的参数，IE包括全局图像嵌入IE_Global＝IE₀和局部图像嵌入IE_Local＝[IE₁,IE₂,...,IE_n]。

5.根据权利要求1所述的基于图注意力网络的混凝土坝缺陷图像描述自动生成方法，其特征在于，所述4)中，Transformer的解码模块包括基准解码模块和优化解码模块，基准解码模块和优化解码模块的训练都分为两个阶段：交叉熵损失优化阶段和强化学习阶段；其中，交叉熵损失优化阶段基于负对数似然估计的损失函数；强化学习阶段基于强化学习的优化策略，将CIDEr得分作为奖励函数。

6.根据权利要求1所述的基于图注意力网络的混凝土坝缺陷图像描述自动生成方法，其特征在于，所述3)中，应用图注意力网络更新节点，具体步骤如下：

(3.1)定义多层卷积神经网络得到的网格特征表示为

其中n表示网格个数，F为CNN隐藏层输出的特征维度；

其中，e_ij表示网格j的特征对于网格i的重要程度，V和W均为可学习的参数矩阵，⊕表示连接；

其中，N_i表示网格i在网格特征交互图中所有的一阶邻域节点集合，包括i本身；

(3.5)将步骤3.1-3.4构成的方法扩展到多头自注意力机制。

7.根据权利要求1所述的基于图注意力网络的混凝土坝缺陷图像描述自动生成方法，其特征在于，所述4)中，基于Transformer的解码模块利用更新后的全局特征和网格特征序列自动生成图像描述，Transformer的解码模块包括基准解码模块和优化解码模块，基准解码模块和优化解码模块的训练都分为两个阶段：交叉熵损失优化阶段和强化学习阶段，具体步骤如下：

(4.1)在交叉熵损失优化阶段，目标是使预测描述与标注描述一致；给定人工标注