CN114998673A

CN114998673A - 一种基于本地自注意力机制的大坝缺陷时序图像描述方法

Info

Publication number: CN114998673A
Application number: CN202210513592.1A
Authority: CN
Inventors: 马洪琪; 肖海斌; 毛莺池; 迟福东; 戚荣志; 庞博慧; 周晓峰; 陈豪; 余记远; 赵欢
Original assignee: Hohai University HHU; Huaneng Lancang River Hydropower Co Ltd
Current assignee: Hohai University HHU; Huaneng Lancang River Hydropower Co Ltd
Priority date: 2022-05-11
Filing date: 2022-05-11
Publication date: 2022-09-02
Anticipated expiration: 2042-05-11
Also published as: WO2023217163A1; CN114998673B

Abstract

本发明公开一种基于本地自注意力机制的大坝缺陷时序图像描述方法，对输入大坝缺陷时序图像进行帧采样，使用卷积神经网络提取特征序列，并将该序列作为自注意力编码器的输入；编码器由基于可变自注意力机制的Transformer网络构成，能够动态建立每一帧的上下文特征关系；采用基于本地注意力机制的LSTM网络生成描述文本，使得预测的每一个单词都能与图像帧建立特征关系，建立图像和文本的上下文依赖以提高文本生成的准确率。本发明在计算图像帧的全局自注意力的基础上添加了动态机制，避免了过大的参数量导致模型收敛缓慢。添加本地注意力的LSTM网络能够直接建立图像和文本两个模态数据之间的对应关系，使得生成的描述文本更准确，包含的信息更全面。

Description

一种基于本地自注意力机制的大坝缺陷时序图像描述方法

技术领域

本发明属于大坝缺陷时序图像描述本文自动生成技术领域，特别涉及一种基于本地自注意力的大坝缺陷时序图像描述方法。

背景技术

在建筑工程等领域，通常将质量不符合规定要求的检验项或者检验点定义为缺陷。随着水电站和大坝等水工建筑物的长期运行，材料老化、环境影响等因素都会产生不同程度的缺陷。现有的无人机、移动摄像头等缺陷图像采集设备采集到的数据均为视频，在获取和传输的过程中，为节约成本会对视频进行压缩编码，从而导致模型无法直接处理视频数据。因此需要将视频转换为时间维度的图像序列，通过模型快速提取其中的图像特征并生成相应的文本以描述缺陷内容，可以帮助用户快速生成巡检报告，规范巡检流程。

描述文本生成通过对图像和文本的特征关系建模，将时序图像翻译成自然语言。由于图像和文本是两种不同模态的数据，其底层特征存在异构性，难以直接计算两者对应关系，容易造成特征信息的丢失，影响生成文本的准确性。且区别于单幅图像，时序图像往往包含了大量的图像帧，模型无法直接从中提取与文本相关的信息。

发明内容

发明目的：目前水工建筑物的巡检工作中大量采用无人机、移动摄像头等设备，采集到的视频数据量大，单纯依靠人工查验，找出其中的缺陷难度大且耗费时间长。为了克服现有技术对于描述缺陷的难题，本发明提供一种基于本地自注意力机制的大坝缺陷时序图像描述方法，动态建立图像序列的上下文特征关系，同时使文本中的每一个单词都能够直接对应相应的图像帧，有效提高了生成文本的准确率。为完成大坝安全巡检报告提供直观的文本依据，降低人工成本。

技术方案：一种基于本地自注意力机制的大坝缺陷时序图像描述方法，包括如下步骤：

(1)对输入的时序图像进行帧采样，使用卷积神经网络提取特征序列，并将该特征序列作为自注意力编码器的输入；

(2)采用基于可变自注意力机制的Transformer网络对时序图像的特征序列编码，动态建立每一帧的上下文关系；

(3)采用基于本地注意力机制的LSTM网络生成描述文本，使得预测的每一个单词都能关注相应的图像帧，通过建立图像和文本的上下文依赖以提高文本生成的准确率。

所述对输入的时序图像进行帧采样，使用卷积神经网络提取特征序列，具体步骤如下：

(1.1)将输入的时序图像分割为没有重叠的T个等长片段，从每个片段中随机抽取一帧x_t组成集合为[x₁,x₂,…,x_T]以增加训练的多样性，使得网络能够学习同一缺陷的不同实例变化。

(1.2)使用卷积神经网络处理每一帧采样图像(即集合[x₁,x₂,…,x_T])，提取其特征图作为自注意力编码器的输入，记作F_t＝[X₁,X₂,…,X_t]，X_t为每一帧抽样图像的特征表示。

所述采用基于可变自注意力机制的Transformer网络对时序图像的特征序列编码的具体步骤如下：

(2.1)为便于计算时序图像的上下文特征关系，首先利用线性全连接层求得每一个采样帧对应的查询向量q、关键词向量k和价值向量v：

q＝Linear(X)＝W_QX

k＝Linear(X)＝W_KX

v＝Linear(X)＝W_VX

其中W_Q、W_K和W_V为计算各向量所需的特征矩阵，X为输入图像序列的每一帧特征表示。q向量指导当前特征图像选择性关注时间维度上的上下文特征；k向量用以计算当前特征图和其他特征图的注意力权重；v向量用以将当前特征图的信息加入自注意力权重中。

(2.2)通过将q向量和k向量的点积结果加入当前图像块得到的注意力权重：

其中d_k为输入向量维度，由输入序列维度除以自注意力头个数求得。q向量和k向量点乘求得各自所对应的序列元素的相似度得分，除以

进行归一化操作以保证梯度在网络中传播的稳定性。

(2.3)在Transformer网络中引入多头可变形的编码结构，避免计算全局自注意力导致参数过多模型收敛缓慢。使得模型仅对当前帧周围的一组关键帧采样并计算注意力权重，即给序列中每一个元素的查询向量q分配数量一定的关键词向量k：

其中P_q为当前帧的位置参考点，x_v为上文求得的特征图对应的v向量，W_m和W′_m为权重可学习特征矩阵。Δp_mqk和A_mqk分别表示第m个自注意力头中的第k个采样点的采样偏移量和自注意力权重，可标准化为∑_k∈ΩA_mqk＝1，通过全连接网络训练得到，并最终线性投影到查询向量中，得到包含上下文信息的采样帧特征图

所述基于本地注意力机制的LSTM网络生成描述文本的具体步骤如下：

(3.1)

为时序图像中每一帧抽样图像的特征表示序列，通过对该序列解码，计算每个单词生成的条件概率得到对应事件的描述文本{S_n}：

其中log以10为底，s为原始文本序列，S_t表示文本的第t个单词，为了便于注意力机制的计算和神经网络实现，将条件概率参数化，每个单词的概率可表示为：

p(S_n,i|S_n＜j,s)＝softmax(g(h_j))

h_j＝f(h_j-1,s)

其中h_j为循环神经网络隐藏层，函数f根据之前位置的隐藏层输出和当前向量计算得到当前位置的隐藏状态，其输出通过函数g转换为与词汇表维度相同的向量。

(3.2)在计算文本的过程中，引入上下文关系向量c_t，通过拼接c_t和序列的隐藏层状态h_t再乘以权重可学习的参数矩阵w_c，求得携带注意力机制的隐藏层状态：

最后通过softmax函数和全连接神经网络输出对应的单词序列：

(3.3)在生成每一个目标单词时，计算当前注意力的中心位置P_t，及本地注意力机制：

使得输出的单词能够关注与其相关的输入序列位置。其中位置矩阵W_p和惩罚项v_p均为权值可学习的特征参数，S为输入序列长度，则该位置对应的注意力窗口为[p_t-D,p_t+D]，D表示窗口的宽度，并通过align函数计算输入和输出序列的隐藏层向量并由高斯分布约束，求得注意力权重：

其中S表示窗口中心位置，σ为D/2，用于计算结果的归一化。最后通过LSTM网络将上下文特征即引入上下文关系向量c_t、注意力权重和前文生成的单词三者串联作为输入，并由全连接网络和softmax激活函数计算得到当前位置的输出单词，最后将所有位置的单词组合即为完整的描述文本。

一种计算机设备，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如上所述的基于本地自注意力机制的大坝缺陷时序图像描述方法。

一种计算机可读存储介质，该计算机可读存储介质存储有执行如上所述的基于本地自注意力机制的大坝缺陷时序图像描述方法的计算机程序。

有益效果：本发明与现有技术相比具有以下优点：

1.在帧采样和特征提取部分，采用随机帧采样对原始时序图像进行预处理，有效压缩了编码序列的大小，同时基于卷积神经网络的特征提取能够使Transformer网络在添加自注意力机制时关注图像视觉特征。

2.基于可变自注意力机制的Transformer网络能够动态建立每一帧的上下文关系，避免了计算全局特征关系导致训练中的梯度下降缓慢，需要长时间的训练和较大的训练轮次才能使模型收敛。

3.基于本地注意力机制的LSTM网络在生成描述文本时，能够使得预测的每一个单词都能关注相应的图像帧，保证生成的文本中不会遗漏原始时序图像的语义信息，提高模型的准确率。

附图说明

图1为具体实施例中缺陷时序图像描述总体框架图；

图2为具体实施例中基于可变自注意力机制的Transformer网络结构示意图；

图3为具体实施例中基于本地注意力机制的LSTM网络结构示意图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

已知有某电站大坝工程巡检是由无人机、移动摄像头等视频采集设备拍摄缺陷时序图像，每段图像中可能包含4类缺陷，分别为裂缝、碱性物析出、渗水、混凝土剥落，需要通过模型提取时序图像特征，并生成相应的描述文本，从而减少人工判断缺陷的时间，规范化巡检流程。

图1给出了基于本地自注意力机制的大坝缺陷时序图像描述方法的总体工作流程，具体实施如下：

(1)对输入的时序图像进行帧采样，使用卷积神经网络提取特征序列，并将该序列作为自注意力编码器的输入。

(1.2)使用以ResNet50作为骨干网络的卷积神经网络处理每一帧采样图像，提取其特征图作为自注意力编码器的输入，并将大小压缩为原始图像的一半，记作F_t＝[X₁,X₂,…,X_t]，X_t为每一帧抽样图像的特征表示；

(2)采用基于可变自注意力机制的Transformer网络对时序图像的特征序列编码，动态建立每一帧的上下文关系，如图2所示。

q＝Linear(X)＝W_QX

k＝Linear(X)＝W_KX

v＝Linear(X)＝W_VX

其中q向量为查询向量，指导当前特征图像选择性关注时间维度上的上下文特征；k向量为关键词向量，用以计算当前特征图和其他特征图的注意力权重；v向量为价值向量，用以将当前特征图的信息加入自注意力权重中，该Transformer网络由8个注意力头和512维全连接网络构成，每个注意力头的权重均独立计算。

进行归一化操作以保证梯度在网络中传播的稳定性。

其中p_q为当前帧的位置参考点，W_m和W_m′为权重可学习特征矩阵，都是通过网络学习的权重，功能和维度大小一致，其权值是不同的。Δp_mqk和A_mqk分别表示第m个自注意力头中的第k个采样点的采样偏移量和自注意力权重，可标准化为

通过全连接网络训练得到，并最终线性投影到查询向量中，通过512维多层感知机网络输出包含上下文信息的采样帧特征图

(3)采用基于本地注意力机制的LSTM网络生成描述文本，使得预测的每一个单词都能关注相应的图像帧，通过建立图像和文本的上下文依赖以提高文本生成的准确率，如图3所示。

(3.1)

其中S_t表示该文本的第t个单词，为了便于注意力机制的计算和神经网络实现，将条件概率参数化，每个单词的概率可表示为：

p(S_n|S_n＜j,s)＝softmax(g(h_j))

h_j＝f(h_j-1,s)

最后通过softmax函数和全连接神经网络输出对应的单词序列：

使得输出的单词能够关注与其相关的输入序列位置。其中位置矩阵W_p和惩罚项v_p均为权值可学习的特征参数，S为输入序列长度，则该位置对应的注意力窗口为[p_t-D,p_t+D]，并通过align函数计算输入和输出序列的隐藏层向量并由高斯分布约束，求得注意力权重：

最后通过LSTM网络将上下文特征、注意力权重和前文生成的单词串联作为输入，并由全连接网络和softmax激活函数计算得到当前位置的输出单词，最后将所有位置的单词组合即为完整的描述文本。大坝缺陷时序图像描述文本生成结果如图1所示，模型能够根据输入图像序列的特征，将钙化一次对应到与之相关性最强的若干帧图像中，通过直接从图像生成关键词，有效提高了模型描述文本的准确率。

显然，本领域的技术人员应该明白，上述的本发明实施例的基于本地自注意力机制的大坝缺陷时序图像描述方法各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

Claims

1.一种基于本地自注意力机制的大坝缺陷时序图像描述方法，其特征在于，包括如下步骤：

(1)对输入的时序图像进行帧采样，使用卷积神经网络提取特征序列；

(3)采用基于本地注意力机制的LSTM网络生成描述文本，使得预测的每一个单词都能关注相应的图像帧。

2.根据权利要求1所述的基于本地自注意力机制的大坝缺陷时序图像描述方法，其特征在于，所述(1)中，对输入的时序图像进行帧采样，使用卷积神经网络提取特征序列，具体步骤如下：

(1.1)将输入的时序图像分割为没有重叠的T个等长片段，从每个片段中随机抽取一帧x_t组成集合为[x₁,x₂,…,x_T]；

(1.2)使用卷积神经网络处理每一帧采样图像，提取其特征图作为自注意力编码器的输入，记作F_t＝[X₁,X₂,…,X_t]，X_t为每一帧抽样图像的特征表示。

3.根据权利要求1所述的基于本地自注意力机制的大坝缺陷时序图像描述方法，其特征在于，所述(2)中，采用基于可变自注意力机制的Transformer网络对时序图像的特征序列编码的具体步骤如下：

(2.1)利用线性全连接层求得每一个采样帧对应的查询向量q、关键词向量k和价值向量v：

q＝Linear(X)＝W_QX

k＝Linear(X)＝W_KX

v＝Linear(X)＝W_VX

其中q向量指导当前特征图像选择性关注时间维度上的上下文特征；k向量用以计算当前特征图和其他特征图的注意力权重；v向量用以将当前特征图的信息加入自注意力权重中；

其中d_k为输入向量维度，由输入序列维度除以自注意力头个数求得；q向量和k向量点乘求得各自所对应的序列元素的相似度得分，除以

进行归一化操作以保证梯度在网络中传播的稳定性；

(2.3)在Transformer网络中引入多头可变形的编码结构，使得模型仅对当前帧周围的一组关键帧采样并计算注意力权重，即给序列中每一个元素的查询向量q分配数量一定的关键词向量k：

其中P_q为当前帧的位置参考点，W_m和W′_m为权重可学习特征矩阵；Δp_mqk和A_mqk分别表示第m个自注意力头中的第k个采样点的采样偏移量和自注意力权重，可标准化为∑_k∈ΩA_mqk＝1，通过全连接网络训练得到，并最终线性投影到查询向量中，得到包含上下文信息的采样帧特征图

4.根据权利要求1所述的基于本地自注意力机制的大坝缺陷时序图像描述方法，其特征在于，所述(3)中，基于本地注意力机制的LSTM网络生成描述文本的具体步骤如下：

(3.1)

为时序图像中每一帧抽样图像的特征表示序列，通过对特征表示序列解码，计算每个单词生成的条件概率得到对应事件的描述文本{S_n}：

其中S_t表示文本的第t个单词，每个单词的概率表示为：

p(S_n,i|S_n＜j,s)＝softmax(g(h_j))

h_j＝f(h_j-1,s)

其中h_j为循环神经网络隐藏层，函数f根据之前位置的隐藏层输出和当前向量计算得到当前位置的隐藏状态，其输出通过函数g转换为与词汇表维度相同的向量；

最后通过softmax函数和全连接神经网络输出对应的单词序列：

(3.3)在生成每一个目标单词时，计算当前注意力的中心位置P_t，即本地注意力机制：

使得输出的单词能够关注与其相关的输入序列位置，其中位置矩阵W_p和惩罚项v_p均为权值可学习的特征参数，S为输入序列长度，则该位置对应的注意力窗口为[p_t-D,p_t+D]，并通过align函数计算输入和输出序列的隐藏层向量并由高斯分布约束，求得注意力权重：

最后通过LSTM网络将上下文特征、注意力权重和前文生成的单词串联作为输入，并由全连接网络和softmax激活函数计算得到当前位置的输出单词。

5.一种计算机设备，其特征在于：该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如权利要求1-4中任一项所述的基于本地自注意力机制的大坝缺陷时序图像描述方法。

6.一种计算机可读存储介质，其特征在于：该计算机可读存储介质存储有执行如权利要求1-4中任一项所述的基于本地自注意力机制的大坝缺陷时序图像描述方法的计算机程序。