CN114998673A - 一种基于本地自注意力机制的大坝缺陷时序图像描述方法 - Google Patents

一种基于本地自注意力机制的大坝缺陷时序图像描述方法 Download PDF

Info

Publication number
CN114998673A
CN114998673A CN202210513592.1A CN202210513592A CN114998673A CN 114998673 A CN114998673 A CN 114998673A CN 202210513592 A CN202210513592 A CN 202210513592A CN 114998673 A CN114998673 A CN 114998673A
Authority
CN
China
Prior art keywords
image
attention
sequence
vector
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210513592.1A
Other languages
English (en)
Other versions
CN114998673B (zh
Inventor
马洪琪
肖海斌
毛莺池
迟福东
戚荣志
庞博慧
周晓峰
陈豪
余记远
赵欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Huaneng Lancang River Hydropower Co Ltd
Original Assignee
Hohai University HHU
Huaneng Lancang River Hydropower Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU, Huaneng Lancang River Hydropower Co Ltd filed Critical Hohai University HHU
Priority to CN202210513592.1A priority Critical patent/CN114998673B/zh
Publication of CN114998673A publication Critical patent/CN114998673A/zh
Priority to PCT/CN2023/093153 priority patent/WO2023217163A1/zh
Priority to US18/337,409 priority patent/US20230368500A1/en
Application granted granted Critical
Publication of CN114998673B publication Critical patent/CN114998673B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A10/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
    • Y02A10/40Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于本地自注意力机制的大坝缺陷时序图像描述方法,对输入大坝缺陷时序图像进行帧采样,使用卷积神经网络提取特征序列,并将该序列作为自注意力编码器的输入;编码器由基于可变自注意力机制的Transformer网络构成,能够动态建立每一帧的上下文特征关系;采用基于本地注意力机制的LSTM网络生成描述文本,使得预测的每一个单词都能与图像帧建立特征关系,建立图像和文本的上下文依赖以提高文本生成的准确率。本发明在计算图像帧的全局自注意力的基础上添加了动态机制,避免了过大的参数量导致模型收敛缓慢。添加本地注意力的LSTM网络能够直接建立图像和文本两个模态数据之间的对应关系,使得生成的描述文本更准确,包含的信息更全面。

Description

一种基于本地自注意力机制的大坝缺陷时序图像描述方法
技术领域
本发明属于大坝缺陷时序图像描述本文自动生成技术领域,特别涉及一种基于本地自注意力的大坝缺陷时序图像描述方法。
背景技术
在建筑工程等领域,通常将质量不符合规定要求的检验项或者检验点定义为缺陷。随着水电站和大坝等水工建筑物的长期运行,材料老化、环境影响等因素都会产生不同程度的缺陷。现有的无人机、移动摄像头等缺陷图像采集设备采集到的数据均为视频,在获取和传输的过程中,为节约成本会对视频进行压缩编码,从而导致模型无法直接处理视频数据。因此需要将视频转换为时间维度的图像序列,通过模型快速提取其中的图像特征并生成相应的文本以描述缺陷内容,可以帮助用户快速生成巡检报告,规范巡检流程。
描述文本生成通过对图像和文本的特征关系建模,将时序图像翻译成自然语言。由于图像和文本是两种不同模态的数据,其底层特征存在异构性,难以直接计算两者对应关系,容易造成特征信息的丢失,影响生成文本的准确性。且区别于单幅图像,时序图像往往包含了大量的图像帧,模型无法直接从中提取与文本相关的信息。
发明内容
发明目的:目前水工建筑物的巡检工作中大量采用无人机、移动摄像头等设备,采集到的视频数据量大,单纯依靠人工查验,找出其中的缺陷难度大且耗费时间长。为了克服现有技术对于描述缺陷的难题,本发明提供一种基于本地自注意力机制的大坝缺陷时序图像描述方法,动态建立图像序列的上下文特征关系,同时使文本中的每一个单词都能够直接对应相应的图像帧,有效提高了生成文本的准确率。为完成大坝安全巡检报告提供直观的文本依据,降低人工成本。
技术方案:一种基于本地自注意力机制的大坝缺陷时序图像描述方法,包括如下步骤:
(1)对输入的时序图像进行帧采样,使用卷积神经网络提取特征序列,并将该特征序列作为自注意力编码器的输入;
(2)采用基于可变自注意力机制的Transformer网络对时序图像的特征序列编码,动态建立每一帧的上下文关系;
(3)采用基于本地注意力机制的LSTM网络生成描述文本,使得预测的每一个单词都能关注相应的图像帧,通过建立图像和文本的上下文依赖以提高文本生成的准确率。
所述对输入的时序图像进行帧采样,使用卷积神经网络提取特征序列,具体步骤如下:
(1.1)将输入的时序图像分割为没有重叠的T个等长片段,从每个片段中随机抽取一帧xt组成集合为[x1,x2,…,xT]以增加训练的多样性,使得网络能够学习同一缺陷的不同实例变化。
(1.2)使用卷积神经网络处理每一帧采样图像(即集合[x1,x2,…,xT]),提取其特征图作为自注意力编码器的输入,记作Ft=[X1,X2,…,Xt],Xt为每一帧抽样图像的特征表示。
所述采用基于可变自注意力机制的Transformer网络对时序图像的特征序列编码的具体步骤如下:
(2.1)为便于计算时序图像的上下文特征关系,首先利用线性全连接层求得每一个采样帧对应的查询向量q、关键词向量k和价值向量v:
q=Linear(X)=WQX
k=Linear(X)=WKX
v=Linear(X)=WVX
其中WQ、WK和WV为计算各向量所需的特征矩阵,X为输入图像序列的每一帧特征表示。q向量指导当前特征图像选择性关注时间维度上的上下文特征;k向量用以计算当前特征图和其他特征图的注意力权重;v向量用以将当前特征图的信息加入自注意力权重中。
(2.2)通过将q向量和k向量的点积结果加入当前图像块得到的注意力权重:
Figure BDA0003638737690000021
其中dk为输入向量维度,由输入序列维度除以自注意力头个数求得。q向量和k向量点乘求得各自所对应的序列元素的相似度得分,除以
Figure BDA0003638737690000022
进行归一化操作以保证梯度在网络中传播的稳定性。
(2.3)在Transformer网络中引入多头可变形的编码结构,避免计算全局自注意力导致参数过多模型收敛缓慢。使得模型仅对当前帧周围的一组关键帧采样并计算注意力权重,即给序列中每一个元素的查询向量q分配数量一定的关键词向量k:
Figure BDA0003638737690000023
其中Pq为当前帧的位置参考点,xv为上文求得的特征图对应的v向量,Wm和W′m为权重可学习特征矩阵。Δpmqk和Amqk分别表示第m个自注意力头中的第k个采样点的采样偏移量和自注意力权重,可标准化为∑k∈ΩAmqk=1,通过全连接网络训练得到,并最终线性投影到查询向量中,得到包含上下文信息的采样帧特征图
Figure BDA0003638737690000035
所述基于本地注意力机制的LSTM网络生成描述文本的具体步骤如下:
(3.1)
Figure BDA0003638737690000036
为时序图像中每一帧抽样图像的特征表示序列,通过对该序列解码,计算每个单词生成的条件概率得到对应事件的描述文本{Sn}:
Figure BDA0003638737690000031
其中log以10为底,s为原始文本序列,St表示文本的第t个单词,为了便于注意力机制的计算和神经网络实现,将条件概率参数化,每个单词的概率可表示为:
p(Sn,i|Sn<j,s)=softmax(g(hj))
hj=f(hj-1,s)
其中hj为循环神经网络隐藏层,函数f根据之前位置的隐藏层输出和当前向量计算得到当前位置的隐藏状态,其输出通过函数g转换为与词汇表维度相同的向量。
(3.2)在计算文本的过程中,引入上下文关系向量ct,通过拼接ct和序列的隐藏层状态ht再乘以权重可学习的参数矩阵wc,求得携带注意力机制的隐藏层状态:
Figure BDA0003638737690000032
最后通过softmax函数和全连接神经网络输出对应的单词序列:
Figure BDA0003638737690000033
(3.3)在生成每一个目标单词时,计算当前注意力的中心位置Pt,及本地注意力机制:
Figure BDA0003638737690000034
使得输出的单词能够关注与其相关的输入序列位置。其中位置矩阵Wp和惩罚项vp均为权值可学习的特征参数,S为输入序列长度,则该位置对应的注意力窗口为[pt-D,pt+D],D表示窗口的宽度,并通过align函数计算输入和输出序列的隐藏层向量并由高斯分布约束,求得注意力权重:
Figure BDA0003638737690000041
其中S表示窗口中心位置,σ为D/2,用于计算结果的归一化。最后通过LSTM网络将上下文特征即引入上下文关系向量ct、注意力权重和前文生成的单词三者串联作为输入,并由全连接网络和softmax激活函数计算得到当前位置的输出单词,最后将所有位置的单词组合即为完整的描述文本。
一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如上所述的基于本地自注意力机制的大坝缺陷时序图像描述方法。
一种计算机可读存储介质,该计算机可读存储介质存储有执行如上所述的基于本地自注意力机制的大坝缺陷时序图像描述方法的计算机程序。
有益效果:本发明与现有技术相比具有以下优点:
1.在帧采样和特征提取部分,采用随机帧采样对原始时序图像进行预处理,有效压缩了编码序列的大小,同时基于卷积神经网络的特征提取能够使Transformer网络在添加自注意力机制时关注图像视觉特征。
2.基于可变自注意力机制的Transformer网络能够动态建立每一帧的上下文关系,避免了计算全局特征关系导致训练中的梯度下降缓慢,需要长时间的训练和较大的训练轮次才能使模型收敛。
3.基于本地注意力机制的LSTM网络在生成描述文本时,能够使得预测的每一个单词都能关注相应的图像帧,保证生成的文本中不会遗漏原始时序图像的语义信息,提高模型的准确率。
附图说明
图1为具体实施例中缺陷时序图像描述总体框架图;
图2为具体实施例中基于可变自注意力机制的Transformer网络结构示意图;
图3为具体实施例中基于本地注意力机制的LSTM网络结构示意图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
已知有某电站大坝工程巡检是由无人机、移动摄像头等视频采集设备拍摄缺陷时序图像,每段图像中可能包含4类缺陷,分别为裂缝、碱性物析出、渗水、混凝土剥落,需要通过模型提取时序图像特征,并生成相应的描述文本,从而减少人工判断缺陷的时间,规范化巡检流程。
图1给出了基于本地自注意力机制的大坝缺陷时序图像描述方法的总体工作流程,具体实施如下:
(1)对输入的时序图像进行帧采样,使用卷积神经网络提取特征序列,并将该序列作为自注意力编码器的输入。
(1.1)将输入的时序图像分割为没有重叠的T个等长片段,从每个片段中随机抽取一帧xt组成集合为[x1,x2,…,xT]以增加训练的多样性,使得网络能够学习同一缺陷的不同实例变化。
(1.2)使用以ResNet50作为骨干网络的卷积神经网络处理每一帧采样图像,提取其特征图作为自注意力编码器的输入,并将大小压缩为原始图像的一半,记作Ft=[X1,X2,…,Xt],Xt为每一帧抽样图像的特征表示;
(2)采用基于可变自注意力机制的Transformer网络对时序图像的特征序列编码,动态建立每一帧的上下文关系,如图2所示。
(2.1)为便于计算时序图像的上下文特征关系,首先利用线性全连接层求得每一个采样帧对应的查询向量q、关键词向量k和价值向量v:
q=Linear(X)=WQX
k=Linear(X)=WKX
v=Linear(X)=WVX
其中q向量为查询向量,指导当前特征图像选择性关注时间维度上的上下文特征;k向量为关键词向量,用以计算当前特征图和其他特征图的注意力权重;v向量为价值向量,用以将当前特征图的信息加入自注意力权重中,该Transformer网络由8个注意力头和512维全连接网络构成,每个注意力头的权重均独立计算。
(2.2)通过将q向量和k向量的点积结果加入当前图像块得到的注意力权重:
Figure BDA0003638737690000051
其中dk为输入向量维度,由输入序列维度除以自注意力头个数求得。q向量和k向量点乘求得各自所对应的序列元素的相似度得分,除以
Figure BDA0003638737690000052
进行归一化操作以保证梯度在网络中传播的稳定性。
(2.3)在Transformer网络中引入多头可变形的编码结构,避免计算全局自注意力导致参数过多模型收敛缓慢。使得模型仅对当前帧周围的一组关键帧采样并计算注意力权重,即给序列中每一个元素的查询向量q分配数量一定的关键词向量k:
Figure BDA0003638737690000061
其中pq为当前帧的位置参考点,Wm和Wm′为权重可学习特征矩阵,都是通过网络学习的权重,功能和维度大小一致,其权值是不同的。Δpmqk和Amqk分别表示第m个自注意力头中的第k个采样点的采样偏移量和自注意力权重,可标准化为
Figure BDA0003638737690000062
通过全连接网络训练得到,并最终线性投影到查询向量中,通过512维多层感知机网络输出包含上下文信息的采样帧特征图
Figure BDA0003638737690000064
(3)采用基于本地注意力机制的LSTM网络生成描述文本,使得预测的每一个单词都能关注相应的图像帧,通过建立图像和文本的上下文依赖以提高文本生成的准确率,如图3所示。
(3.1)
Figure BDA0003638737690000065
为时序图像中每一帧抽样图像的特征表示序列,通过对该序列解码,计算每个单词生成的条件概率得到对应事件的描述文本{Sn}:
Figure BDA0003638737690000063
其中St表示该文本的第t个单词,为了便于注意力机制的计算和神经网络实现,将条件概率参数化,每个单词的概率可表示为:
p(Sn|Sn<j,s)=softmax(g(hj))
hj=f(hj-1,s)
其中hj为循环神经网络隐藏层,函数f根据之前位置的隐藏层输出和当前向量计算得到当前位置的隐藏状态,其输出通过函数g转换为与词汇表维度相同的向量。
(3.2)在计算文本的过程中,引入上下文关系向量ct,通过拼接ct和序列的隐藏层状态ht再乘以权重可学习的参数矩阵wc,求得携带注意力机制的隐藏层状态:
Figure BDA0003638737690000071
最后通过softmax函数和全连接神经网络输出对应的单词序列:
Figure BDA0003638737690000072
(3.3)在生成每一个目标单词时,计算当前注意力的中心位置Pt,及本地注意力机制:
Figure BDA0003638737690000073
使得输出的单词能够关注与其相关的输入序列位置。其中位置矩阵Wp和惩罚项vp均为权值可学习的特征参数,S为输入序列长度,则该位置对应的注意力窗口为[pt-D,pt+D],并通过align函数计算输入和输出序列的隐藏层向量并由高斯分布约束,求得注意力权重:
Figure BDA0003638737690000074
最后通过LSTM网络将上下文特征、注意力权重和前文生成的单词串联作为输入,并由全连接网络和softmax激活函数计算得到当前位置的输出单词,最后将所有位置的单词组合即为完整的描述文本。大坝缺陷时序图像描述文本生成结果如图1所示,模型能够根据输入图像序列的特征,将钙化一次对应到与之相关性最强的若干帧图像中,通过直接从图像生成关键词,有效提高了模型描述文本的准确率。
显然,本领域的技术人员应该明白,上述的本发明实施例的基于本地自注意力机制的大坝缺陷时序图像描述方法各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。

Claims (6)

1.一种基于本地自注意力机制的大坝缺陷时序图像描述方法,其特征在于,包括如下步骤:
(1)对输入的时序图像进行帧采样,使用卷积神经网络提取特征序列;
(2)采用基于可变自注意力机制的Transformer网络对时序图像的特征序列编码,动态建立每一帧的上下文关系;
(3)采用基于本地注意力机制的LSTM网络生成描述文本,使得预测的每一个单词都能关注相应的图像帧。
2.根据权利要求1所述的基于本地自注意力机制的大坝缺陷时序图像描述方法,其特征在于,所述(1)中,对输入的时序图像进行帧采样,使用卷积神经网络提取特征序列,具体步骤如下:
(1.1)将输入的时序图像分割为没有重叠的T个等长片段,从每个片段中随机抽取一帧xt组成集合为[x1,x2,…,xT];
(1.2)使用卷积神经网络处理每一帧采样图像,提取其特征图作为自注意力编码器的输入,记作Ft=[X1,X2,…,Xt],Xt为每一帧抽样图像的特征表示。
3.根据权利要求1所述的基于本地自注意力机制的大坝缺陷时序图像描述方法,其特征在于,所述(2)中,采用基于可变自注意力机制的Transformer网络对时序图像的特征序列编码的具体步骤如下:
(2.1)利用线性全连接层求得每一个采样帧对应的查询向量q、关键词向量k和价值向量v:
q=Linear(X)=WQX
k=Linear(X)=WKX
v=Linear(X)=WVX
其中q向量指导当前特征图像选择性关注时间维度上的上下文特征;k向量用以计算当前特征图和其他特征图的注意力权重;v向量用以将当前特征图的信息加入自注意力权重中;
(2.2)通过将q向量和k向量的点积结果加入当前图像块得到的注意力权重:
Figure FDA0003638737680000011
其中dk为输入向量维度,由输入序列维度除以自注意力头个数求得;q向量和k向量点乘求得各自所对应的序列元素的相似度得分,除以
Figure FDA0003638737680000012
进行归一化操作以保证梯度在网络中传播的稳定性;
(2.3)在Transformer网络中引入多头可变形的编码结构,使得模型仅对当前帧周围的一组关键帧采样并计算注意力权重,即给序列中每一个元素的查询向量q分配数量一定的关键词向量k:
Figure FDA0003638737680000021
其中Pq为当前帧的位置参考点,Wm和W′m为权重可学习特征矩阵;Δpmqk和Amqk分别表示第m个自注意力头中的第k个采样点的采样偏移量和自注意力权重,可标准化为∑k∈ΩAmqk=1,通过全连接网络训练得到,并最终线性投影到查询向量中,得到包含上下文信息的采样帧特征图
Figure FDA0003638737680000022
4.根据权利要求1所述的基于本地自注意力机制的大坝缺陷时序图像描述方法,其特征在于,所述(3)中,基于本地注意力机制的LSTM网络生成描述文本的具体步骤如下:
(3.1)
Figure FDA0003638737680000023
为时序图像中每一帧抽样图像的特征表示序列,通过对特征表示序列解码,计算每个单词生成的条件概率得到对应事件的描述文本{Sn}:
Figure FDA0003638737680000024
其中St表示文本的第t个单词,每个单词的概率表示为:
p(Sn,i|Sn<j,s)=softmax(g(hj))
hj=f(hj-1,s)
其中hj为循环神经网络隐藏层,函数f根据之前位置的隐藏层输出和当前向量计算得到当前位置的隐藏状态,其输出通过函数g转换为与词汇表维度相同的向量;
(3.2)在计算文本的过程中,引入上下文关系向量ct,通过拼接ct和序列的隐藏层状态ht再乘以权重可学习的参数矩阵wc,求得携带注意力机制的隐藏层状态:
Figure FDA0003638737680000025
最后通过softmax函数和全连接神经网络输出对应的单词序列:
Figure FDA0003638737680000026
(3.3)在生成每一个目标单词时,计算当前注意力的中心位置Pt,即本地注意力机制:
Figure FDA0003638737680000031
使得输出的单词能够关注与其相关的输入序列位置,其中位置矩阵Wp和惩罚项vp均为权值可学习的特征参数,S为输入序列长度,则该位置对应的注意力窗口为[pt-D,pt+D],并通过align函数计算输入和输出序列的隐藏层向量并由高斯分布约束,求得注意力权重:
Figure FDA0003638737680000032
最后通过LSTM网络将上下文特征、注意力权重和前文生成的单词串联作为输入,并由全连接网络和softmax激活函数计算得到当前位置的输出单词。
5.一种计算机设备,其特征在于:该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如权利要求1-4中任一项所述的基于本地自注意力机制的大坝缺陷时序图像描述方法。
6.一种计算机可读存储介质,其特征在于:该计算机可读存储介质存储有执行如权利要求1-4中任一项所述的基于本地自注意力机制的大坝缺陷时序图像描述方法的计算机程序。
CN202210513592.1A 2022-05-11 2022-05-11 一种基于本地自注意力机制的大坝缺陷时序图像描述方法 Active CN114998673B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202210513592.1A CN114998673B (zh) 2022-05-11 2022-05-11 一种基于本地自注意力机制的大坝缺陷时序图像描述方法
PCT/CN2023/093153 WO2023217163A1 (zh) 2022-05-11 2023-05-10 一种基于本地自注意力机制的大坝缺陷时序图像描述方法
US18/337,409 US20230368500A1 (en) 2022-05-11 2023-06-19 Time-series image description method for dam defects based on local self-attention

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210513592.1A CN114998673B (zh) 2022-05-11 2022-05-11 一种基于本地自注意力机制的大坝缺陷时序图像描述方法

Publications (2)

Publication Number Publication Date
CN114998673A true CN114998673A (zh) 2022-09-02
CN114998673B CN114998673B (zh) 2023-10-13

Family

ID=83026948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210513592.1A Active CN114998673B (zh) 2022-05-11 2022-05-11 一种基于本地自注意力机制的大坝缺陷时序图像描述方法

Country Status (2)

Country Link
CN (1) CN114998673B (zh)
WO (1) WO2023217163A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023217163A1 (zh) * 2022-05-11 2023-11-16 华能澜沧江水电股份有限公司 一种基于本地自注意力机制的大坝缺陷时序图像描述方法

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117292243B (zh) * 2023-11-24 2024-02-20 合肥工业大学 基于深度学习的心磁信号时空图像预测方法、设备及介质
CN117372936B (zh) * 2023-12-07 2024-03-22 江西财经大学 基于多模态细粒度对齐网络的视频描述方法与系统
CN117493786B (zh) * 2023-12-29 2024-04-09 南方海洋科学与工程广东省实验室(广州) 一种对抗生成网络和图神经网络结合的遥感数据重构方法
CN117807603B (zh) * 2024-02-29 2024-04-30 浙江鹏信信息科技股份有限公司 软件供应链审计方法、系统及计算机可读存储介质
CN118097318B (zh) * 2024-04-28 2024-07-26 武汉大学 基于视觉语义融合的可控缺陷图像生成方法及设备
CN118155227B (zh) * 2024-05-13 2024-07-16 北京中核华辉科技发展有限公司 基于智能化技术的核电设备维护决策方法及系统
CN118332342B (zh) * 2024-06-12 2024-10-01 杭州昊清科技有限公司 一种工业流程数据增广与生成方法
CN118332414B (zh) * 2024-06-13 2024-08-06 江西财经大学 融合数值和视觉特征的图表描述文本的生成方法与系统
CN118570880B (zh) * 2024-07-31 2024-10-01 西安理工大学 人体动作识别方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389055A (zh) * 2018-09-21 2019-02-26 西安电子科技大学 基于混合卷积和注意力机制的视频分类方法
CA3050025A1 (en) * 2018-07-19 2020-01-19 Tata Consultancy Services Limited Systems and methods for end-to-end handwritten text recognition using neural networks
CN110929092A (zh) * 2019-11-19 2020-03-27 国网江苏省电力工程咨询有限公司 一种基于动态注意力机制的多事件视频描述方法
CN113392717A (zh) * 2021-05-21 2021-09-14 杭州电子科技大学 一种基于时序特征金字塔的视频密集描述生成方法
US20220121871A1 (en) * 2020-10-16 2022-04-21 Tsinghua University Multi-directional scene text recognition method and system based on multi-element attention mechanism

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597819B (zh) * 2020-05-08 2021-01-26 河海大学 一种基于关键词的大坝缺陷图像描述文本生成方法
CN114998673B (zh) * 2022-05-11 2023-10-13 河海大学 一种基于本地自注意力机制的大坝缺陷时序图像描述方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3050025A1 (en) * 2018-07-19 2020-01-19 Tata Consultancy Services Limited Systems and methods for end-to-end handwritten text recognition using neural networks
CN109389055A (zh) * 2018-09-21 2019-02-26 西安电子科技大学 基于混合卷积和注意力机制的视频分类方法
CN110929092A (zh) * 2019-11-19 2020-03-27 国网江苏省电力工程咨询有限公司 一种基于动态注意力机制的多事件视频描述方法
US20220121871A1 (en) * 2020-10-16 2022-04-21 Tsinghua University Multi-directional scene text recognition method and system based on multi-element attention mechanism
CN113392717A (zh) * 2021-05-21 2021-09-14 杭州电子科技大学 一种基于时序特征金字塔的视频密集描述生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙红莲等: "电脑知识与技术", pages: 187 - 189 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023217163A1 (zh) * 2022-05-11 2023-11-16 华能澜沧江水电股份有限公司 一种基于本地自注意力机制的大坝缺陷时序图像描述方法

Also Published As

Publication number Publication date
WO2023217163A1 (zh) 2023-11-16
CN114998673B (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
CN114998673B (zh) 一种基于本地自注意力机制的大坝缺陷时序图像描述方法
CN110738090B (zh) 使用神经网络进行端到端手写文本识别的系统和方法
CN113515951B (zh) 基于知识增强注意力网络和组级语义的故事描述生成方法
US20230368500A1 (en) Time-series image description method for dam defects based on local self-attention
KR102225579B1 (ko) 학습성능이 향상된 지식 증류법 기반 의미론적 영상 분할 방법
CN109919174A (zh) 一种基于门控级联注意力机制的文字识别方法
EP3885966B1 (en) Method and device for generating natural language description information
CN110135567A (zh) 基于多注意力生成对抗网络的图像字幕生成方法
CN106570464A (zh) 一种快速处理人脸遮挡的人脸识别方法及装置
CN111259940A (zh) 一种基于空间注意力地图的目标检测方法
CN111967272B (zh) 基于语义对齐的视觉对话生成系统
CN113657115B (zh) 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN111259197B (zh) 一种基于预编码语义特征的视频描述生成方法
CN112990196B (zh) 基于超参数搜索和二阶段训练的场景文字识别方法及系统
CN108389239A (zh) 一种基于条件多模式网络的微笑脸部视频生成方法
CN111738169A (zh) 一种基于端对端网络模型的手写公式识别方法
CN111464881A (zh) 基于自优化机制的全卷积视频描述生成方法
CN116469100A (zh) 一种基于Transformer的双波段图像语义分割方法
CN107463928A (zh) 基于ocr和双向lstm的文字序列纠错算法、系统及其设备
CN114973229B (zh) 文本识别模型训练、文本识别方法、装置、设备及介质
CN114708474A (zh) 一种融合局部和全局特征的图像语义理解算法
CN111259785A (zh) 基于时间偏移残差网络的唇语识别方法
CN115830535A (zh) 一种变电站周边区域积水检测方法、系统、设备及介质
CN111985250A (zh) 模型训练方法、装置、系统及计算机可读存储介质
CN115984883A (zh) 一种基于增强视觉变换器网络的印地语图文识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant