CN114898121A - 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法 - Google Patents

基于图注意力网络的混凝土坝缺陷图像描述自动生成方法 Download PDF

Info

Publication number
CN114898121A
CN114898121A CN202210664943.9A CN202210664943A CN114898121A CN 114898121 A CN114898121 A CN 114898121A CN 202210664943 A CN202210664943 A CN 202210664943A CN 114898121 A CN114898121 A CN 114898121A
Authority
CN
China
Prior art keywords
grid
graph
features
global
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210664943.9A
Other languages
English (en)
Other versions
CN114898121B (zh
Inventor
隋佳宏
周华
迟福东
毛莺池
陈豪
万旭
赵欢
庞博慧
余记远
郭锐
吴光耀
王顺波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Huaneng Group Technology Innovation Center Co Ltd
Huaneng Lancang River Hydropower Co Ltd
Original Assignee
Hohai University HHU
Huaneng Group Technology Innovation Center Co Ltd
Huaneng Lancang River Hydropower Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU, Huaneng Group Technology Innovation Center Co Ltd, Huaneng Lancang River Hydropower Co Ltd filed Critical Hohai University HHU
Priority to CN202210664943.9A priority Critical patent/CN114898121B/zh
Publication of CN114898121A publication Critical patent/CN114898121A/zh
Priority to PCT/CN2023/093220 priority patent/WO2023241272A1/zh
Application granted granted Critical
Publication of CN114898121B publication Critical patent/CN114898121B/zh
Priority to US18/327,074 priority patent/US20230401390A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A10/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
    • Y02A10/40Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于图注意力网络的混凝土坝缺陷图像描述自动生成方法,包括以下步骤:1)利用多层卷积神经网络提取缺陷图像的局部网格特征和整幅图像特征,进行图像编码;2)构建网格特征交互图,对缺陷图像的网格视觉特征和全局图像特征进行融合编码;3)通过图注意力网络更新优化全局和局部特征,充分利用改进的视觉特征进行缺陷描述。本发明构建网格特征交互图,并利用图注意力网络更新节点信息,将特征提取任务作为图节点分类任务实现,不会增加计算开销,同时提高了性能。本发明可以捕捉缺陷图像的全局图像信息,并捕获局部网格特征的潜在交互,加深了对缺陷图像内容的理解,生成的描述文本能够准确并连贯地描述缺陷信息。

Description

基于图注意力网络的混凝土坝缺陷图像描述自动生成方法
技术领域
本发明涉及一种基于图注意力网络的混凝土坝缺陷图像描述自动生成方法,具体是一种为输入的混凝土坝缺陷图像自动生成自然语言描述的方法,属于计算机视觉和自然语言处理的多模态技术领域。
背景技术
我国已建成数百座混凝土重力坝,大坝在外界环境长期作用下始终处于老化损伤演化和新损伤不断形成的过程,大坝表面的缺陷常常反映了它的老化状况,因此有必要定期进行表面缺陷检测以评估其演变。中华人民共和国电力行业标准《混凝土坝安全监测技术规范》明确指出应当委派专员定期对混凝土坝进行检查与安全评价,并出具必要的专项检查报告和总结报告,以维护大坝安全运行,然而混凝土坝缺陷识别问题尚缺乏研究。
近年来,基于区域的视觉特征已成为图像描述生成等视觉—语言任务的主要方法。相对于整张图像来说,图像的网格特征包含更细粒度的各类目标,更加有利于识别混凝土坝的缺陷。对细粒度目标相关的缺陷内容进行编码无疑会优化缺陷识别,得到更具体、更精准的缺陷特征表示。现有的研究焦点是通过注意力机制建模视觉和语言特征之间的相互作用,以获得更加丰富可靠的图像描述,虽然可以使之在描述生成过程中关注最相关的图像特征,但是没有充分利用图像特征之间的交互关系,而且传统的注意力机制不能满足网格特征复杂的交互关系,同时在整合全局图像信息方面也存在一些问题。
发明内容
发明目的:为了工程监测中后续巡检报告的初步生成,保障巡检流程的规范化管理,本发明结合混凝土表面缺陷类型不确定、几何形态各异的特点,研发了基于图注意力网络的混凝土坝缺陷图像描述自动生成方法。网格特征作为图像描述生成的视觉表示具有一定的优势,然而网格特征的局部感受野较小,卷积神经网络只能学习到目标的局部特征,缺乏空间和全局信息。为了更好地使用网格特征作为图像描述生成模型的主要视觉表示,引入全局特征来指导优化更新网格特征可提高视觉表示的准确性。因此,本发明提出全局覆盖与局部部位兼顾的混凝土缺陷评估新工艺,将视觉特征提取问题作为节点分类任务来实现,借助全局图像特征增强视觉表示能力,利用图注意力网络将相邻的网格特征和全局特征相结合进行信息提取,能够有效地捕获全局上下文信息和局部信息,相对于已有的混凝土缺陷图像目标检测方法提高了分类精度,为完成大坝安全巡检报告提供直观的文本依据,降低人工整合的复杂度。
技术方案:一种基于图注意力网络的混凝土坝缺陷图像描述自动生成方法,包括如下步骤:
1)全局特征和网格特征提取,利用多层卷积神经网络分别提取缺陷图像的全局特征和网格特征;
2)构建网格特征交互图,将全局特征和网格特征作为节点输入;
3)全局特征和网格特征更新,利用图注意力网络更新优化2)中构建的网格特征交互图中的节点信息,得到更新后的全局特征和网格特征;
4)基于Transformer的解码模块利用更新后的全局特征和网格特征序列自动生成图像描述。
所述1)中,利用在Visual Genome数据集上预训练的Faster R-CNN模型进行全局特征和网格特征提取,特别的是,Faster R-CNN模型使用步长(Stride)为1的普通卷积层C5和带有两个FC层的1×1RoIPool作为检测头,其中C5层的输出作为缺陷图像的网格特征。
所述2)中,引入网格特征之间的依赖关系和全局特征,借助全局节点机制建立网格特征交互图,构建网格特征交互图过程为:将1)得到的全局特征和网格特征作为网格特征交互图的节点输入,得到一个全局节点和多个局部节点。全局节点用作虚拟中心,与图中的所有节点连接。局部节点根据网格的相对中心坐标建立连接,即将两个相邻的网格节点i和j在邻接矩阵A中的值(i,j)赋为1,表示直接交互,不相邻的节点则赋为0,表示无交互。提出的全局节点机制可以从局部节点中收集并分发通用信息。
所述1)中,利用多层卷积神经网络提取缺陷图像的网格特征和全局特征,进行图像编码:在融合各网格特征的基础上加入特征图的全局特征,提取缺陷图像的全局特征和网格特征。具体来说,定义输入为一幅缺陷图像p0=full_image和n个固定大小的网格Grids=(p1,p2,...,pn),利用在Visual Genome数据集上预训练的Faster R-CNN模型进行缺陷特征提取,使用步长(Stride)为1的普通卷积层C5和带有两个FC层的1×1RoIPool作为检测头,其中C5层的输出作为提取的缺陷图像嵌入IE0:n=CNN(p0:n;ΘCNN),图像嵌入是编码得到的图像特征,在本文中指缺陷图像的网格特征。其中,ΘCNN表示CNN模型的参数,IE包括全局图像嵌入IEGlobal=IE0和局部图像嵌入IELocal=[IE1,IE2,...,IEn],p0:n指p0=full_image和Grids=(p1,p2,...,pn)连接在一起,代表输入整幅图像和n个网格。
所述3)中,基于网格特征交互图的图注意力网络:结合网格特征交互图和图注意力网络,将图注意力网络的节点与缺陷图像的网格相对应,节点的特征为局部图像嵌入,图的边对应网格特征交互图的边,并且利用多头自注意力机制对网格特征交互图中相邻节点的缺陷信息进行融合更新。
所述4)中,Transformer的解码模块包括基准解码模块和优化解码模块,基准解码模块和优化解码模块的训练都分为两个阶段:交叉熵损失优化阶段和强化学习阶段。其中,交叉熵损失优化阶段基于负对数似然估计的损失函数;强化学习阶段基于强化学习的优化策略,将CIDEr得分作为奖励函数。
进一步的,所述3)中,应用图注意力网络更新节点,具体步骤如下:
(3.1)定义多层卷积神经网络得到的网格特征表示为
Figure BDA0003691358430000031
其中n表示网格个数,F为CNN隐藏层输出的特征维度,
Figure BDA0003691358430000032
表示一个F维的向量。
(3.2)根据邻接矩阵A将两个网格的特征向量相连接,通过函数LeakyReLU非线性层对每个网格进行自注意力计算,如式(1)所示:
Figure BDA0003691358430000033
其中,eij表示网格j的特征对于网格i的重要程度,V和W均为可学习的参数矩阵,⊕表示连接。
(3.3)使用softmax函数对网格i的所有邻域网格特征进行归一化操作,得到注意力系数αij,使系数在不同节点之间易于比较,如式(2)所示:
Figure BDA0003691358430000034
其中,Ni表示网格i在网格特征交互图中所有的一阶邻域节点集合,包括i本身。
(3.4)将网格i的所有相邻网格j的特征与对应的权重系数αij进行加权求和,通过非线性层σ得到每个对象节点的最终输出特征,如式(3)所示:
Figure BDA0003691358430000035
(3.5)为了提高图注意力网络的性能,将上述方法扩展到多头自注意力机制。
进一步的,所述4)中,基于Transformer的解码模块利用更新后的全局特征和网格特征序列自动生成图像描述,具体来说,将全局特征和网格特征的编码信息传递到Transformer模型的解码模块中,Decoder依次会根据当前翻译过的单词序列w1:t翻译下一个单词wt+1,从而生成图像对应的描述句子w1:T。Transformer的解码模块包括基准解码模块和优化解码模块,基准解码模块和优化解码模块的训练都分为两个阶段:交叉熵损失优化阶段和强化学习阶段,具体步骤如下:
(4.1)在交叉熵损失优化阶段,目标是使预测描述与标注描述一致。给定人工标注
Figure BDA00036913584300000414
和参数为θ的解码模块,最小化以下损失函数:
Figure BDA0003691358430000041
其中,T为生成描述语句的长度,
Figure BDA0003691358430000042
表示解码模块基于t-1长度的标注序列
Figure BDA0003691358430000043
预测第t个词向量
Figure BDA0003691358430000044
的概率,log的底数是e。
(4.2)实际训练中,以批为单位对Transformer模型进行权重更新,如式(5)所示:
Figure BDA0003691358430000045
其中,N是批的规模,loss表示损失函数,对4.1的损失函数进行N次,更好地训练模型。
(4.3)在强化学习阶段,基于步骤4.1-4.2中的负对数似然估计损失函数训练之后,采用自批判序列训练策略以CIDEr评分作为奖励对Transformer模型进行继续优化,如式(6)所示:
Figure BDA0003691358430000046
其中,r(·)为基于CIDEr评分定义的原始奖励,w1:T表示模型生成的长度为T的图像描述序列,
Figure BDA0003691358430000047
表示对预测长度为T的序列的概率求均值。
(4.4)强化学习阶段的优化目标是最小化负期望奖励,使用奖励的平均值梯度更新定义如下:
Figure BDA0003691358430000048
Figure BDA0003691358430000049
其中,k是图像描述序列的数目,
Figure BDA00036913584300000410
是第i个图像描述序列,b是所有图像描述序列获得奖励的平均值,log的底数是e。
Figure BDA00036913584300000411
表示梯度运算符,求导操作,
Figure BDA00036913584300000412
是对LRL(θ)中的θ求导;
Figure BDA00036913584300000413
是第i个图像描述序列。
图像描述生成模型的训练阶段会有两个优化,交叉熵优化和强化学习优化,基于不同的优化目标来使模型生成的图像描述更加准确、真实。
一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如上所述的基于图注意力网络的混凝土坝缺陷图像描述自动生成方法。
一种计算机可读存储介质,该计算机可读存储介质存储有执行如上所述的基于图注意力网络的混凝土坝缺陷图像描述自动生成方法的计算机程序。
附图说明
图1为本发明实施例的方法框架图;
图2为本发明实施例的网格特征提取流程图;
图3为本发明实施例的网格特征交互图构建示意图;。
图4为本发明实施例的图注意力网络示意图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
为了实现混凝土坝缺陷图像描述自动生成,采用某电站混凝土坝工程巡检采集到的缺陷数据集,该数据集涵盖了4类缺陷,分别为裂缝(crack)、渗水(seepage)、碱性物析出(alkaline precipitate)、混凝土剥落(concrete spalling)和1类工程特征孔(hole),其中经数据增强后的图片达8890张,包含12995个标记实例。将数据集的85%作为训练集,15%的数据作为测试集,并尽可能保证每个缺陷类别分布均匀。
如图1所示,本发明实施例公开的基于图注意力网络的混凝土坝缺陷图像描述自动生成方法,具体包含以下步骤:
(1)缺陷图像特征编码:在融合各网格特征的基础上加入特征图的全局特征,图像编码模块负责提取缺陷图像的全局特征和网格特征,如图2所示。具体来说,定义输入为一幅缺陷图像p0=full_image和n个固定大小的网格Grids=(p1,p2,...,pn),利用在VisualGenome数据集上预训练的Faster R-CNN模型进行缺陷特征提取,使用步长(Stride)为1的普通卷积层C5和带有两个FC层的1×1RoIPool作为检测头,其中C5层的输出作为提取的缺陷图像嵌入IE0:n=CNN(p0:n;ΘCNN)。其中,ΘCNN表示CNN模型的参数,IE包括全局图像嵌入IEGlobal=IE0和局部图像嵌入IELocal=[IE1,IE2,...,IEn]。
(2)网格特征交互图建立:引入网格特征之间的依赖关系和全局特征,借助全局节点机制建立网格特征交互图,构建过程如图3所示。给定图像的全局和网格特征,首先,根据网格的相对中心坐标为两个相邻的网格i和j建立连接,即将邻接矩阵中(i,j)的值赋为1,表示直接交互。全局节点用作虚拟中心,与图中的所有节点连接,从局部节点中收集并分发通用信息。
(3)基于网格特征交互图的图注意力网络:结合网格特征交互图和图注意力网络,如图4所示,将图注意力网络的节点与缺陷图像的网格相对应,节点的特征为局部图像嵌入,图的边对应网格特征交互图的边,并且利用多头自注意力机制对网格特征交互图中相邻节点的缺陷信息进行融合更新。应用图注意力网络更新节点具体步骤如下:
(3.1)定义多层卷积神经网络得到的网格特征表示为
Figure BDA0003691358430000061
其中n表示网格个数,F为CNN隐藏层输出的特征维度。
(3.2)将两个网格的特征向量相连接,通过函数LeakyReLU非线性层对每个网格进行自注意力计算,如式(1)所示:
Figure BDA0003691358430000062
其中,eij表示网格j的特征对于网格i的重要程度,V和W均为可学习的参数矩阵,⊕表示连接。
(3.3)使用softmax函数对网格i的所有邻域网格特征进行归一化操作,得到注意力系数,使系数在不同节点之间易于比较,如式(2)所示:
Figure BDA0003691358430000063
其中,Ni表示网格i在网格特征交互图中所有的一阶邻域节点集合(包括i本身)。
(3.4)将网格i的所有相邻网格j的特征与对应的权重系数αij进行加权求和,通过非线性层σ得到每个对象节点的最终输出特征,如式(3)所示:
Figure BDA0003691358430000064
(3.5)为了提高图注意力网络的性能,将上述方法扩展到多头自注意力机制。
(4)解码与损失函数优化:基准解码模块和优化解码模块的训练都分为两个阶段:交叉熵损失优化阶段和强化学习阶段。其中,交叉熵损失优化阶段基于负对数似然估计的损失函数;强化学习阶段基于强化学习的优化策略,将CIDEr得分作为奖励函数。
基于Transformer的解码模块利用更新后的全局特征和网格特征序列自动生成图像描述,具体来说,将全局特征和网格特征的编码信息传递到Transformer的解码模块中,Decoder依次会根据当前翻译过的单词序列w1:t翻译下一个单词wt+1,从而生成图像对应的描述句子w1:T。Transformer的解码模块包括基准解码模块和优化解码模块,基准解码模块和优化解码模块的训练都分为两个阶段:交叉熵损失优化阶段和强化学习阶段,具体步骤如下:
(4.1)在交叉熵损失优化阶段,目标是使预测描述与标注描述一致。给定人工标注
Figure BDA0003691358430000071
和参数为θ的解码模块,最小化以下损失函数:
Figure BDA0003691358430000072
其中,T为生成描述语句的长度,
Figure BDA0003691358430000073
表示解码模块基于t-1长度的标注序列
Figure BDA0003691358430000074
预测第t个词向量
Figure BDA0003691358430000075
的概率。
(4.2)实际训练中,以批为单位对Transformer模型进行权重更新,如式(5)所示:
Figure BDA0003691358430000076
其中,N是批的规模。
(4.3)在强化学习阶段,基于负对数似然估计损失函数的训练之后,采用自批判序列训练策略以CIDEr评分作为奖励对Transformer模型进行继续优化,如式(6)所示:
Figure BDA0003691358430000077
其中,r(·)为基于CIDEr评分定义的原始奖励,w1:T表示生成的长度为T的图像描述序列。
(4.4)强化学习阶段的优化目标是最小化负期望奖励,使用奖励的平均值梯度更新定义如下:
Figure BDA0003691358430000078
Figure BDA0003691358430000079
其中,k是图像描述序列的数目,
Figure BDA00036913584300000710
是第i个图像描述序列,b是所有图像描述序列获得奖励的平均值。
参数的设置和实验评价标准如下:
A实验设置:
采用改造预训练Faster R-CNN模型的检测头来提取缺陷图像网格特征,网格尺度为7×7,每个图像特征维度为2048。遵循Transformer模型的超参数设置,模型维度dmodel为512,多头注意力机制头的个数K为8。实验使用dropout算法防止模型过拟合,丢失率设置为0.1。实验基于PyTorch框架并用Adam梯度优化算法进行梯度更新。模型训练分为两个阶段,在交叉熵损失优化训练阶段,以初始学习率为1×10-4训练18轮,其中每3个周期衰减一次,衰减率为0.8,优化对数似然估计损失函数,批规模设置为50;在基于强化学习策略的训练阶段强化学习,以固定学习率为5×10-6训练25轮,批规模设置为100。推理阶段,设置集束大小为5。
B评价指标:
所涉及的评价指标为现有方法统一使用的指标组合,包括:BLEU(B1、B2、B3和B4)、METEOR、CIDEr、ROUGE-L和SPICE。
根据以上实施例可知,本发明得益于全局图像特征丰富的语义信息,可实现更深层次的视觉理解,并基于全局语义进行合理推测;本发明利用网格特征的方法可以生成更完整、详细的缺陷描述,在语义表达上更具优势。本发明在网格特征交互图中使用全局节点机制与图注意力网络,不仅结合全局特征捕获上下文重要信息,还通过图注意力网络聚合节点信息,捕获网格之间的依赖关系和潜在交互,增强视觉特征以提高缺陷描述的准确性。
显然,本领域的技术人员应该明白,上述的本发明实施例的基于图注意力网络的混凝土坝缺陷图像描述自动生成方法各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。

Claims (10)

1.一种基于图注意力网络的混凝土坝缺陷图像描述自动生成方法,其特征在于,包括如下步骤:
1)全局特征和网格特征提取,利用多层卷积神经网络分别提取缺陷图像的全局特征和网格特征;
2)构建网格特征交互图,将全局特征和网格特征作为节点输入;
3)全局特征和网格特征更新,利用图注意力网络更新优化2)中构建的网格特征交互图中的节点信息,得到更新后的全局特征和网格特征;
4)基于Transformer的解码模块利用更新后的全局特征和网格特征序列自动生成图像描述。
2.根据权利要求1所述的基于图注意力网络的混凝土坝缺陷图像描述自动生成方法,其特征在于,所述1)中,利用在Visual Genome数据集上预训练的Faster R-CNN模型进行全局特征和网格特征提取,Faster R-CNN模型使用步长为1的卷积层C5和带有两个FC层的1×1RoIPool作为检测头,其中C5层的输出作为缺陷图像的网格特征。
3.根据权利要求1所述的基于图注意力网络的混凝土坝缺陷图像描述自动生成方法,其特征在于,所述2)中,引入网格特征之间的依赖关系和全局特征,借助全局节点机制建立网格特征交互图,构建网格特征交互图过程为:将1)得到的全局特征和网格特征作为网格特征交互图的节点输入,得到一个全局节点和多个局部节点;全局节点用作虚拟中心,与图中的所有节点连接;局部节点根据网格的相对中心坐标建立连接,即将两个相邻的网格节点i和j在邻接矩阵A中的值(i,j)赋为1,表示直接交互,不相邻的节点则赋为0,表示无交互;全局节点从局部节点中收集并分发通用信息。
4.根据权利要求1所述的基于图注意力网络的混凝土坝缺陷图像描述自动生成方法,其特征在于,所述1)中,利用多层卷积神经网络提取缺陷图像的网格特征和全局特征,进行图像编码:在融合各网格特征的基础上加入特征图的全局特征,提取缺陷图像的全局特征和网格特征;定义输入为一幅缺陷图像p0=full_image和n个固定大小的网格Grids=(p1,p2,...,pn),利用在Visual Genome数据集上预训练的Faster R-CNN模型进行缺陷特征提取,使用步长为1的卷积层C5和带有两个FC层的1×1RoIPool作为检测头,其中C5层的输出作为提取的缺陷图像嵌入IE0:n=CNN(p0:n;ΘCNN);其中,ΘCNN表示CNN模型的参数,IE包括全局图像嵌入IEGlobal=IE0和局部图像嵌入IELocal=[IE1,IE2,...,IEn]。
5.根据权利要求1所述的基于图注意力网络的混凝土坝缺陷图像描述自动生成方法,其特征在于,所述3)中,基于网格特征交互图的图注意力网络:结合网格特征交互图和图注意力网络,将图注意力网络的节点与缺陷图像的网格相对应,节点的特征为局部图像嵌入,图的边对应网格特征交互图的边,并且利用多头自注意力机制对网格特征交互图中相邻节点的缺陷信息进行融合更新。
6.根据权利要求1所述的基于图注意力网络的混凝土坝缺陷图像描述自动生成方法,其特征在于,所述4)中,Transformer的解码模块包括基准解码模块和优化解码模块,基准解码模块和优化解码模块的训练都分为两个阶段:交叉熵损失优化阶段和强化学习阶段;其中,交叉熵损失优化阶段基于负对数似然估计的损失函数;强化学习阶段基于强化学习的优化策略,将CIDEr得分作为奖励函数。
7.根据权利要求1所述的基于图注意力网络的混凝土坝缺陷图像描述自动生成方法,其特征在于,所述3)中,应用图注意力网络更新节点,具体步骤如下:
(3.1)定义多层卷积神经网络得到的网格特征表示为
Figure FDA0003691358420000021
其中n表示网格个数,F为CNN隐藏层输出的特征维度;
(3.2)根据邻接矩阵A将两个网格的特征向量相连接,通过函数LeakyReLU非线性层对每个网格进行自注意力计算,如式(1)所示:
Figure FDA0003691358420000022
其中,eij表示网格j的特征对于网格i的重要程度,V和W均为可学习的参数矩阵,
Figure FDA0003691358420000023
表示连接;
(3.3)使用softmax函数对网格i的所有邻域网格特征进行归一化操作,得到注意力系数αij,使系数在不同节点之间易于比较,如式(2)所示:
Figure FDA0003691358420000024
其中,Ni表示网格i在网格特征交互图中所有的一阶邻域节点集合,包括i本身;
(3.4)将网格i的所有相邻网格j的特征与对应的权重系数αij进行加权求和,通过非线性层σ得到每个对象节点的最终输出特征,如式(3)所示:
Figure FDA0003691358420000025
(3.5)将步骤3.1-3.4构成的方法扩展到多头自注意力机制。
8.根据权利要求1所述的基于图注意力网络的混凝土坝缺陷图像描述自动生成方法,其特征在于,所述4)中,基于Transformer的解码模块利用更新后的全局特征和网格特征序列自动生成图像描述,Transformer的解码模块包括基准解码模块和优化解码模块,基准解码模块和优化解码模块的训练都分为两个阶段:交叉熵损失优化阶段和强化学习阶段,具体步骤如下:
(4.1)在交叉熵损失优化阶段,目标是使预测描述与标注描述一致;给定人工标注
Figure FDA0003691358420000031
和参数为θ的解码模块,最小化以下损失函数:
Figure FDA0003691358420000032
其中,T为生成描述语句的长度,
Figure FDA0003691358420000033
表示解码模块基于t-1长度的标注序列
Figure FDA0003691358420000034
预测第t个词向量
Figure FDA0003691358420000035
的概率。
(4.2)实际训练中,以批为单位对Transformer模型进行权重更新,如式(5)所示:
Figure FDA0003691358420000036
其中,N是批的规模;
(4.3)在强化学习阶段,基于步骤4.1-4.2中的负对数似然估计损失函数训练之后,采用自批判序列训练策略以CIDEr评分作为奖励对Transformer模型进行继续优化,如式(6)所示:
Figure FDA0003691358420000037
其中,r(·)为基于CIDEr评分定义的原始奖励,w1:T表示生成的长度为T的图像描述序列;
(4.4)强化学习阶段的优化目标是最小化负期望奖励,使用奖励的平均值,梯度更新定义如下:
Figure FDA0003691358420000038
Figure FDA0003691358420000039
其中,k是图像描述序列的数目,
Figure FDA00036913584200000310
是第i个图像描述序列,b是所有图像描述序列获得奖励的平均值。
9.一种计算机设备,其特征在于:该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如权利要求1-8中任一项所述的基于图注意力网络的混凝土坝缺陷图像描述自动生成方法。
10.一种计算机可读存储介质,其特征在于:该计算机可读存储介质存储有执行如权利要求1-8中任一项所述的基于图注意力网络的混凝土坝缺陷图像描述自动生成方法的计算机程序。
CN202210664943.9A 2022-06-13 2022-06-13 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法 Active CN114898121B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202210664943.9A CN114898121B (zh) 2022-06-13 2022-06-13 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法
PCT/CN2023/093220 WO2023241272A1 (zh) 2022-06-13 2023-05-10 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法
US18/327,074 US20230401390A1 (en) 2022-06-13 2023-06-01 Automatic concrete dam defect image description generation method based on graph attention network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210664943.9A CN114898121B (zh) 2022-06-13 2022-06-13 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法

Publications (2)

Publication Number Publication Date
CN114898121A true CN114898121A (zh) 2022-08-12
CN114898121B CN114898121B (zh) 2023-05-30

Family

ID=82727121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210664943.9A Active CN114898121B (zh) 2022-06-13 2022-06-13 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法

Country Status (2)

Country Link
CN (1) CN114898121B (zh)
WO (1) WO2023241272A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115359323A (zh) * 2022-08-31 2022-11-18 北京百度网讯科技有限公司 图像的文本信息生成方法和深度学习模型的训练方法
CN115994891A (zh) * 2022-11-22 2023-04-21 河海大学 基于狼群算法的无人载具混凝土坝表面缺陷动态检测方法
WO2023241272A1 (zh) * 2022-06-13 2023-12-21 华能澜沧江水电股份有限公司 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法
WO2024060917A1 (zh) * 2022-09-23 2024-03-28 中国电信股份有限公司 缺陷识别方法、装置和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126282A (zh) * 2019-12-25 2020-05-08 中国矿业大学 一种基于变分自注意力强化学习的遥感图像内容描述方法
WO2021078027A1 (zh) * 2019-10-25 2021-04-29 腾讯科技(深圳)有限公司 构建网络结构优化器的方法、装置及计算机可读存储介质
CN112767405A (zh) * 2021-01-18 2021-05-07 北京工商大学 一种基于图注意力网络的三维网格模型分割方法及系统
CN113220919A (zh) * 2021-05-17 2021-08-06 河海大学 一种大坝缺陷图像文本跨模态检索方法及模型
CN113256677A (zh) * 2021-04-16 2021-08-13 浙江工业大学 一种图注意力视觉目标跟踪方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101978995B1 (ko) * 2015-06-04 2019-05-16 가부시키가이샤 히다치 하이테크놀로지즈 결함 화상 분류 장치 및 결함 화상 분류 방법
CN111597819B (zh) * 2020-05-08 2021-01-26 河海大学 一种基于关键词的大坝缺陷图像描述文本生成方法
CN112329794B (zh) * 2020-11-06 2024-03-12 北京工业大学 一种基于双重自注意力机制的图像描述方法
CN112819012B (zh) * 2021-01-29 2022-05-03 厦门大学 一种基于多源协同特征的图像描述生成方法
CN114898121B (zh) * 2022-06-13 2023-05-30 河海大学 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021078027A1 (zh) * 2019-10-25 2021-04-29 腾讯科技(深圳)有限公司 构建网络结构优化器的方法、装置及计算机可读存储介质
CN111126282A (zh) * 2019-12-25 2020-05-08 中国矿业大学 一种基于变分自注意力强化学习的遥感图像内容描述方法
CN112767405A (zh) * 2021-01-18 2021-05-07 北京工商大学 一种基于图注意力网络的三维网格模型分割方法及系统
CN113256677A (zh) * 2021-04-16 2021-08-13 浙江工业大学 一种图注意力视觉目标跟踪方法
CN113220919A (zh) * 2021-05-17 2021-08-06 河海大学 一种大坝缺陷图像文本跨模态检索方法及模型

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
JIAHONG SUI 等: "Image Caption Method Based on Graph Attention Network with Global Context", pages 1 - 8 *
QITONG ZHENG 等: "Graph Self-Attention Network for Image Captioning", pages 1 - 8 *
YUNPENG LUO 等: "Dual-Level Collaborative Transformer for Image Captioning", pages 1 - 8 *
潘毅: "基于改进拆分注意力网络的目标检测算法", pages 198 - 206 *
隋佳宏 等: "基于图注意力网络的全局图像描述生成方法", pages 1 - 10 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023241272A1 (zh) * 2022-06-13 2023-12-21 华能澜沧江水电股份有限公司 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法
CN115359323A (zh) * 2022-08-31 2022-11-18 北京百度网讯科技有限公司 图像的文本信息生成方法和深度学习模型的训练方法
WO2024060917A1 (zh) * 2022-09-23 2024-03-28 中国电信股份有限公司 缺陷识别方法、装置和系统
CN115994891A (zh) * 2022-11-22 2023-04-21 河海大学 基于狼群算法的无人载具混凝土坝表面缺陷动态检测方法
CN115994891B (zh) * 2022-11-22 2023-06-30 河海大学 基于狼群算法的无人载具混凝土坝表面缺陷动态检测方法

Also Published As

Publication number Publication date
CN114898121B (zh) 2023-05-30
WO2023241272A1 (zh) 2023-12-21

Similar Documents

Publication Publication Date Title
CN114898121A (zh) 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法
Xu et al. Recognition of rust grade and rust ratio of steel structures based on ensembled convolutional neural network
CN111985245A (zh) 基于注意力循环门控图卷积网络的关系提取方法及系统
CN109753571B (zh) 一种基于二次主题空间投影的场景图谱低维空间嵌入方法
CN112052948B (zh) 一种网络模型压缩方法、装置、存储介质和电子设备
US20230084910A1 (en) Semantic segmentation network model uncertainty quantification method based on evidence inference
CN107247952B (zh) 基于深层监督的循环卷积神经网络的视觉显著性检测方法
CN104933428A (zh) 一种基于张量描述的人脸识别方法及装置
CN111966812A (zh) 一种基于动态词向量的自动问答方法和存储介质
CN113673482B (zh) 基于动态标签分配的细胞抗核抗体荧光识别方法及系统
Wu et al. Optimized deep learning framework for water distribution data-driven modeling
CN113628059A (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
CN116402352A (zh) 一种企业风险预测方法、装置、电子设备及介质
US20230401390A1 (en) Automatic concrete dam defect image description generation method based on graph attention network
CN115238036A (zh) 一种基于图注意力网络和文本信息的认知诊断方法及装置
Lonij et al. Open-world visual recognition using knowledge graphs
CN114332075A (zh) 基于轻量化深度学习模型的结构缺陷快速识别与分类方法
CN117236676A (zh) 一种基于多模态事件抽取的rpa流程挖掘方法和装置
CN116579408A (zh) 一种基于模型结构冗余度的模型剪枝方法及系统
CN116578336A (zh) 一种基于抄袭者-检测器对抗的软件克隆检测方法
CN116521863A (zh) 一种基于半监督学习的标签抗噪文本分类方法
CN115511082A (zh) 一种基于图神经网络和强化学习的事实验证方法
CN113920379B (zh) 一种基于知识辅助的零样本图像分类方法
CN117648890B (zh) 一种基于人工智能的半导体器件建模方法及系统
CN117390407B (zh) 变电站设备的故障识别方法、系统、介质和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant