CN108764303A - 一种基于注意力机制的遥感图像自然语言生成方法 - Google Patents

一种基于注意力机制的遥感图像自然语言生成方法 Download PDF

Info

Publication number
CN108764303A
CN108764303A CN201810441978.XA CN201810441978A CN108764303A CN 108764303 A CN108764303 A CN 108764303A CN 201810441978 A CN201810441978 A CN 201810441978A CN 108764303 A CN108764303 A CN 108764303A
Authority
CN
China
Prior art keywords
feature vector
attention
remote sensing
sensing images
hidden layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810441978.XA
Other languages
English (en)
Inventor
郭菲
郭一菲
高建彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201810441978.XA priority Critical patent/CN108764303A/zh
Publication of CN108764303A publication Critical patent/CN108764303A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于注意力机制的遥感图像自然语言生成方法,属于计算机视觉技术领域。CNN部分包括:普通卷积池化层、C‑S层和全连接层;RNN部分结构包括:多层模型单元、GRU单元和注意力单元;将同地区不同时刻的遥感图像输入初始化后的CNN部分获得特征向量;特征向量分别输入进GRU单元和注意力单元,注意力单元还接收来自GRU单元的隐层状态,注意力单元将特征向量和隐层状态二者映射到低维进一步压缩归一化得到加权平均后的特征向量;加权平均后的特征向量和GRU单元的隐层状态经过多层模型单元整合,之后经过一个隐层和一个归一化层,进行最大似然,得到整型数序列;本发明解决了目前遥感图像生成自然语言的结果不理想的问题。

Description

一种基于注意力机制的遥感图像自然语言生成方法
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于注意力机制的遥感图像自然语言生成方法。
背景技术
随着人工智能的发展及普及,图像标注作为计算机视觉领域与自然语言处理领域的融合,其重要地位日渐凸显,在许多重要领域如图像检索,儿童教育和视力受损人士的生活辅助等方面等都有着重要的应用。一种将深度卷积神经网络和循环神经网络结合起来的方法在图像标注问题上取得了显著的进步。然而,计算机视觉领域的成果在遥感图像一些领域,图像标注没有很好地发挥其潜力。对于遥感图像来说,计算机视觉领域经典的CNN与RNN结合框架有一个重大的缺点:由于遥感图像区别于自然图像,包含了大量的无关信息,具有尺度模糊,分类歧义和旋转歧义的特性,常规RNN往往无法针对有效信息给做出句子生成。所以,最终生成的句子会出现缺乏灵活性以及极具相似性的现象,这也使得生成的句子变得无意义。除此之外,遥感图像自然语言描述还面临着缺少较大数据集以及随之而来的训练后的过拟合问题。
在解决上述第一个问题的方法中,大致可归于以下两类,一是手动分类:这是指使用传统的方法对于遥感图像的目标物进行分类,将分类结果输入RNN网络中生成描述语言,这样最后生成的语句会保留有关信息,且不容易被遥感图像的旋转歧义和分类歧义误导。二是基于注意力机制的分类:这是指RNN不再使用统一的语义特征,而让RNN在输入序列中自由选取需要的特征能,接着进行推断来得到模型参数,这种方法迫使RNN产生一个“注意力范围”表示接下来输出的时候要重点关注图像特征中的哪些部分,根据关注的区域来产生下一个输出,这种方法可以产生更灵活的句子,更加知道如何关注相关信息。
对于数据集以及过拟合问题,目前普遍方法是采用迁移学习的思想在较大数据集上进行预训练后在小数据集上进行模型微调。然而,这对于目前数据集有限且数据集内的内容并不丰富的遥感图像来说效果没有在自然图像的处理时非常理想。
总体说来,遥感图像描述生成还存在以下问题:
(1)遥感图像和自然图像不同,包含了大量的无关信息,具有尺度模糊,分类歧义和旋转歧义以及低密度的特性;
(2)遥感图像的数据集有限且训练后的模型容易过拟合;
(3)忽视了遥感图像自身的低密度的特性以及同一地区不同时刻会有多张图像的特性。
发明内容
本发明的目的在于:为解决如下问题:(1)遥感图像和自然图像不同,包含了大量的无关信息,具有尺度模糊,分类歧义和旋转歧义以及低密度的特性,可能导致遥感图像中的地物在不同尺度下表现出不同的语义,并且很难描述遥感图像中的融合区域,易导致分类产生歧义;(2)遥感图像的数据集有限且训练后的模型容易过拟合;(3)忽视了遥感图像自身的特性低密度的特性以及同一地区不同时刻会有多张图像的特性,可能导致很大的遥感图像内只有很小的区域含有很小的有效区域,使得模型无法充分描述有效信息;本发明提供一种基于注意力机制的自然语言生成方法。
为解决技术问题,本发明所采用的技术方案是:
一种基于注意力机制的遥感图像自然语言生成方法,发明内容主要包括:遥感图像字幕的流程框架,预训练模型和对应的自然语言描述,使用了C-S模型层,将它和卷积神经网络结合,构建出新的目标检测框架,以及对于GRU代替原本LSTM的新的框架的提出。具体如下:
一种基于注意力的遥感图像自然语言生成方法,包括如下步骤:
步骤1:将RSICD遥感图像对应的自然语言切片成字符并编号,建立编号与字符相互对应的词典空间;
步骤2:构建系统模型,系统模型包括:CNN部分、RNN部分和句子生成部分;其中,CNN部分结构包括:普通卷积池化层、C-S层和全连接层;RNN部分结构包括:多层模型单元、GRU单元和注意力单元;
步骤3:将CNN部分在ImageNet上预训练来初始化参数;
步骤4:将同地区不同时刻的遥感图像先后输入初始化后的CNN部分获得特征向量;
步骤5:将步骤4得到的特征向量输入RNN部分,特征向量分别输入进GRU单元和注意力单元,注意力单元还接收来自GRU单元的隐层状态,通过注意力单元将特征向量和隐层状态二者映射到低维进一步压缩归一化得到加权平均后的特征向量;加权平均后的特征向量和GRU单元的隐层状态经过多层模型单元整合,经过一个隐层和一个归一化层,进行最大似然,得到整型数序列;
步骤6:对步骤5得到的整型数序列映射至字典空间,通过句子生成部分获得完整句子,采用CIDEr方法对句子打分,输出句子及其分数。
具体地,所述步骤2中的C-S层是由基于空间注意力和基于逐个信道注意力结合而成,其公式定义如下:
X=f(V,α,β) (1)
其中V是来自上一卷积层的特征向量,这里把单个的αl统一表示成
α,α代表空间注意部分的权重,把单个的βl统一表示成β,β是信道注意部分的权重,f
是调整函数,α和β由以下公式定义:
β=φc(V,ht-1)
α=φs(ht-1,fc(V,β)) (2)
φc代表信道部分函数,φs代表空间部分函数,fc(,)是特征向量及其权重的乘法,ht-1代表来自RNN部分的隐层状态。
具体地,所述RNN部分中,所述注意力单元定义如下:
是注意力分数,代表了将vm和ht-1进行降维并压缩成标量,将vm是特征向量,ht-1是 GRU上一时刻的隐层状态,则是对权重进行归一化,使得ut是加权后的结果。对于多个通道,多模型层定义如下:
其中代表了图像不同通道加权后的特征向量,ht是来自GRU的隐层状态,mt代表将不同来源的信息整合到一起;最后再对进行最大似然生成单词。
本发明中,将卷积池化采样的特征图交由一个空间和通道结合注意力模型判定赋予权重,判定网络将较大的权重赋予信息丰富的区域,并且尤其每个通道的权重互不相同,让生成的特征向量针对于输入图像特定通道的特定的“注意范围”,经过RNN解码从而可以生成更加精确灵活的语言描述。
由于本发明将多幅同地区的遥感图像输入进改进后的CNN中,不仅使得遥感图像自身的多图像特性得到充分利用使网络可以学习到不同时刻的信息,而且还“迫使”网络更加“关注”特定通道特定范围的信息,实现了注意力机制在遥感图像上的有效应用,针对遥感图像小数据低密度,多通道的特性,解决了无法生成准确描述的难题;同时,采用迁移学习的方法预训练CNN,避免了复杂的参数初始化过程且防止由于初始参数不适合导致网络性能下降,使得网络其他部分参数可以使用随机初始化的方法。
综上所述,与现有技术相比,本发明具有以下有益效果:
(1)本发明的CNN部分不同于经典的CNN,加入了C-S层,使得每个通道信息都可以有不同权重,对于多波段且每个波段信息相差很大的遥感图像具有重要意义。
(2)利用同地区多个时刻的遥感图像,可以学习到更丰富的图像信息,且很好的应对了遥感图像的分类歧义性,生成更加准确的熙然语言描述。
(3)利用GRU替换了传统的LSTM网络,网络学习的参数会比LSTM少,适用于数据量比较小遥感图像数据集,不容易产生过拟合。
(4)利用将自然语言描述切片的方法,构成一个字典空间对整型的映射,使得生成单词变成了生成整型数字,有效的提高了运算速度。
附图说明
图1是本发明一实施实例的示意图。
图2是本发明的注意力机制RNN部分原理图。
图3是GRU的内部结构。
具体实施方式
下面结合实施例对本发明作进一步的描述,所描述的实施例仅仅是本发明一部分实施例,并不是全部的实施例。基于本发明中的实施例,本领域的普通技术人员在没有做出创造性劳动前提下所获得的其他所用实施例,都属于本发明的保护范围。
一种基于注意力机制的遥感图像自然语言生成方法,包括如下步骤:
步骤1:将RSICD遥感图像对应的自然语言切片成字符并编号,编号的类型是整型,建立编号与字符相互对应的词典空间;即在整型数字和字典之间建立一个映射关系,在生成自然语言时调用。
步骤2:构建系统模型,如图1所示,系统模型包括:CNN部分、RNN部分和句子生成部分;其中,CNN部分结构包括:普通卷积池化层、C-S层和全连接层,图1中,为了方便图片表述,将普通卷积池化层的最后一层卷积层conv5-3单独放出;RNN部分结构包括:多层模型单元、GRU单元和注意力单元;
本实施例中,CNN模型采用VGG-19结构,由16个3×3的卷积层,和嵌入其中的5个 2×2最大池化层以及2个全连接层组成。把最后的卷积层替换为C-S模型,C-S模型分为两个部分,分别为信道注意和空间注意。
其中,C-S层是由基于空间注意力和基于逐个信道注意力结合而成,其公式定义如下:
X=f(V,α,β) (1)
其中V是来自上一卷积层的特征向量,这里把单个的αl统一表示成
α,α代表空间注意部分的权重,把单个的βl统一表示成β,β是信道注意部分的权重,f
是调整函数,α和β由以下公式定义:
β=φc(V,ht-1)
α=φs(ht-1,fc(V,β)) (2)
φc代表信道部分函数,φs代表空间部分函数,fc(,)是特征向量和权重的乘法,ht-1代表来自RNN部分的隐层状态。
所述RNN部分中,所述注意力单元定义如下:
是注意力分数,代表了将vm和ht-1进行降维并压缩成标量,将vm是特征向量,ht-1是 GRU上一时刻的隐层状态,则是对权重进行归一化,使得ut是加权后的结果。对于多个通道,多模型层定义如下:
其中代表了图像不同通道加权后的特征向量,ht是来自GRU的隐层状态,mt代表将不同来源的信息整合到一起;最后再对进行最大似然生成单词。
步骤3:将CNN部分在ImageNet上预训练来初始化参数;
步骤4:将同地区不同时刻的遥感图像先后输入至卷积层,卷积层运算提取输入的不同特征向下传递,卷积后的特征图经过池化层,池化层的目的是减小特征图大小,池化层对每个深度切片,规模为2×2,对模板内的4个点取最大值,称为最大池化操作。具体过程如下:
步骤4.1:最后的卷积层收到来自上一个卷积层的特征图V,用V进行初始化该卷积层;然后使用逐个信道模型Φc计算逐个信道注意权重β,具体过程如下:
对于逐个通道注意模型,:先把V改造成U(扁平化)
U={u1,u2,u3,u4…uC},ui∈RW×H (4.1-1)
其中ui∈RW×H代表特征图V的第i个通道,然后对每个通道用一个平均池化层来得到通
道特征V:
V={v1,v2,v3,v4…vC},V∈RC (4.1-2)
标量vi是向量ui的平均,代表了第i个通道特征。逐个信道模型Φc定义为:
β=softmax(Wi′b+bi′) (4.1-4)
其中Wc∈Rk,Whc∈Rk×d,Wi′∈Rk是变换矩阵,代表向量乘积,bc∈Rk,bi∈R1是偏
差项。
步骤4.2:计算得到β,通过一个β和V的线性组合得到了一个信道加权特征图。然
后把信道加权特征图输入到空间注意模型ΦS中,获得权重α。ΦS定义如下:
α=softmax(Wib+bi) (4.2-2)
其中,V={v1,v2,v3,v4…vm},vi∈RC,m=W·H.vi是扁平化,即映射到低维过后的V,
代表第i个位置的视觉特征;其中Ws∈Rk×C,Whs∈Rk×d,Wi∈Rk是变换矩阵,是映射图
像特征向量和隐藏层状态到一个维度的变换矩阵;是一个矩阵和一个向量的加法,
bs∈Rk,bi∈R1是模型偏差。
步骤4.3:获得权重α后,把V,β,α输入到调制函数f中计算调制过后的特征图X
β=Φc(ht-1,V) (4.3-1),
α=ΦS(ht-1,fc(V,β)) (4.3-2),
X=f(V,α,β) (4.3-3).
fc(·)是一个信道和信道权重的乘法。
随后X进入全连接层,提取最后一个全连接层得到的特征结果。
步骤5:将步骤4得到的特征向量输入RNN部分,特征向量分别输入进GRU单元和注意力单元,注意力单元还接收来自GRU单元的隐层状态,通过注意力单元将特征向量和隐层状态二者映射到低维进一步压缩归一化得到加权平均后的特征向量;加权平均后的特征向量和GRU单元的隐层状态经过多层模型单元整合,经过一个隐层和一个归一化层,进行最大似然,得到整型数序列;
如图3所示,具体过程如下:
对于每个遥感图像,把步骤4生成的特征向量表示为:
V={v1,v2,v3,v4…vKM},vi∈RD (5.0-1)
其中,每个图像提取M个向量,有K个遥感图像,共KM个向量,每个部分对应的向量维度是D。
对于每个时间步骤t计算这些特征对应的权重{β1234…βKM}且给定前一时刻隐藏状态ht-1情况下计算每个m图片的分数
w、Wq、Uq、bq是共享的参数目的是将特征向量与状态与隐藏层状态映射到低维并压缩到一起,φ设置为stanh函数:之后我们通过一个序列softmax层获得权重:
通过加权平均获得一个单独特征向量:
对于多个通道,多模型层定义如下:
其中代表了图像不同通道加权后的特征向量,ht是来自GRU的隐层状态,mt代表将不同来源的信息整合到一起。
之前生成的词向量为y={y1,y2…yt-1},通常下一个词向量yt,p(yj|y1:j-1,V)的概率计算如下:
其中T是句子中单词的个数,y1:j-1是之前生成的词向量。
GRU的内部结构定义如下参见图3:
r,z分别是重置门和更新门,ht-1是上一时刻的状态,当前节点的输入为
h′t-1=ht-1⊙r (4.1-3)
这里的h′主要是包含了当前输入的数据。有针对性地对h′添加到当前的隐藏状态,相当于LSTM的选择记忆阶段。然后进行更新记忆阶段:
ht=z⊙ht-1+(1-z)⊙h′ (4.1-5)
这里的z的范围为0~1,越接近1,代表“记忆”下来的数据越多;而越接近0则代表“遗忘”的越多。z⊙ht-1代表对上一时刻的隐藏状态的选择性遗忘;(1-z)⊙h代表对当前节点信息选择性“记忆”,最终生成整数序列。
步骤6:将生成的整数序列映射至字典空间获得完整的句子y={y1,…,yL},yi∈RK每个单词y使用k中取1的向量的序列描述,K是词典的大小,而当其中包含第K个词的时候此处值为1,L是句子序列长度。对自然语言描述进行打分,自然语言描述输入至遥感图像的打分模型,目前较为优秀的评价模型为包括CIDEr,Smoothed BLEU和METEOR,其中CIDEr是专门为图像标注问题设计的较为优秀的评分模型。
本实施例中采用CIDEr进行评价,它是通过对每个n元组进行Term FrequencyInverse Document Frequency(TF-IDF)权重计算,来衡量图像标注的一致性的一个n元组wk在出现在参考句子sij中的次数被记为hk(sij),如果出现在待评价句子中,则被记为hk(ci)。CIDEr 为每个n元组wk都计算TF-IDF权重gk(sij):
其中是所有Ω是n元组的词汇表,I是数据集中所有图像的集合。
计算基于高斯惩罚的CIDEr-Dn
其中,gn(ci)是一个由gk(ci)生成的向量,对应的是所有长度为n的n元组,||gn(ci)||是向量的大小,而gn(sij)同理,l(ci)和l(sij)分别表示的是待评价句子和参考句子的长度,σ=6,分子为10是为了让得分和其他标准比较相似。不同长度的n元组的得分计算如下:
标准权重ωn=1/N,N=4比较常用。最终评分在0到1之间,1表示完全与人工翻译一致。

Claims (3)

1.一种基于注意力机制的遥感图像自然语言生成方法,其特征在于,包括如下步骤:
步骤1:将RSICD遥感图像对应的自然语言切片成字符并编号,建立编号与字符相互对应的词典空间;
步骤2:构建系统模型,系统模型包括:CNN部分、RNN部分和句子生成部分;其中,CNN部分结构包括:普通卷积池化层、C-S层和全连接层;RNN部分结构包括:多层模型单元、GRU单元和注意力单元;
步骤3:将CNN部分在ImageNet上预训练来初始化参数;
步骤4:将同地区不同时刻的遥感图像先后输入初始化后的CNN部分获得特征向量;
步骤5:将步骤4得到的特征向量输入RNN部分,特征向量分别输入进GRU单元和注意力单元,注意力单元还接收来自GRU单元的隐层状态,通过注意力单元将特征向量和隐层状态二者映射到低维进一步压缩归一化得到加权平均后的特征向量;加权平均后的特征向量和GRU单元的隐层状态经过多层模型单元整合,经过一个隐层和一个归一化层,进行最大似然,得到整型数序列;
步骤6:对步骤5得到的整型数序列映射至字典空间,通过句子生成部分获得完整句子,然后对句子打分,输出句子及其分数。
2.根据权利要求1所述的一种基于注意力机制的遥感图像自然语言生成方法,其特征在于,所述步骤2中的C-S层是由基于空间注意力和基于逐个信道注意力结合而成,其公式定义如下:
X=f(V,α,β) (1)
其中V是来自上一卷积层的特征向量,这里把单个的αl统一表示成α,α代表空间注意部分的权重,把单个的βl统一表示成β,β是信道注意部分的权重,f是调整函数,α和β由以下公式定义:
β=φc(V,ht-1)
α=φs(ht-1,fc(V,β)) (2)
φc代表信道部分函数,φs代表空间部分函数,fc(,)是特征向量和权重的乘法,ht-1代表来自RNN部分的隐层状态。
3.根据权利要求1所述的一种基于注意力机制的遥感图像自然语言生成方法,其特征在于,所述RNN部分中,所述注意力单元定义如下:
是注意力分数,代表了将vm和ht-1进行降维并压缩成标量,将vm是特征向量,ht-1是GRU上一时刻的隐层状态,则是对权重进行归一化,使得ut是加权后的结果。对于多个通道,多模型层定义如下:
其中代表了图像不同通道加权后的特征向量,ht是来自GRU的隐层状态,mt代表将不同来源的信息整合到一起;最后再对进行最大似然生成单词。
CN201810441978.XA 2018-05-10 2018-05-10 一种基于注意力机制的遥感图像自然语言生成方法 Pending CN108764303A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810441978.XA CN108764303A (zh) 2018-05-10 2018-05-10 一种基于注意力机制的遥感图像自然语言生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810441978.XA CN108764303A (zh) 2018-05-10 2018-05-10 一种基于注意力机制的遥感图像自然语言生成方法

Publications (1)

Publication Number Publication Date
CN108764303A true CN108764303A (zh) 2018-11-06

Family

ID=64009926

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810441978.XA Pending CN108764303A (zh) 2018-05-10 2018-05-10 一种基于注意力机制的遥感图像自然语言生成方法

Country Status (1)

Country Link
CN (1) CN108764303A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376804A (zh) * 2018-12-19 2019-02-22 中国地质大学(武汉) 基于注意力机制和卷积神经网络高光谱遥感图像分类方法
CN109726696A (zh) * 2019-01-03 2019-05-07 电子科技大学 基于推敲注意力机制的图像描述生成系统及方法
CN110211685A (zh) * 2019-06-10 2019-09-06 珠海上工医信科技有限公司 基于完全关注机制的糖网筛查网络结构模型
CN110232413A (zh) * 2019-05-31 2019-09-13 华北电力大学(保定) 基于gru网络的绝缘子图像语义描述方法、系统、装置
CN110309800A (zh) * 2019-07-05 2019-10-08 中国科学技术大学 一种林火烟雾探测方法及装置
CN110334724A (zh) * 2019-04-16 2019-10-15 武汉理工大学 基于lstm的遥感对象自然语言描述及多尺度矫正方法
CN111598117A (zh) * 2019-02-21 2020-08-28 成都通甲优博科技有限责任公司 图像识别方法及装置
CN112015543A (zh) * 2019-05-28 2020-12-01 Sap欧洲公司 基于lstm-rnn和注意力机制的资源自动缩放
CN112308138A (zh) * 2020-10-30 2021-02-02 中国平安财产保险股份有限公司 模型采样方法、装置、计算机设备及存储介质
CN112948604A (zh) * 2021-02-01 2021-06-11 西北工业大学 具备多语义层级注意能力的遥感影像文本描述生成方法
CN113488058A (zh) * 2021-06-23 2021-10-08 武汉理工大学 一种基于短语音的声纹识别方法
CN118137277A (zh) * 2024-05-06 2024-06-04 南京信息工程大学 一种基于深度学习的快速自动锁模方法、系统和设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105372994A (zh) * 2015-12-10 2016-03-02 中国人民解放军海军航空工程学院 一种基于鲁棒自适应最优控制的飞行员操纵行为描述方法
US20160272340A1 (en) * 2014-12-24 2016-09-22 Environmental Tectonics Corporation Aircraft-vision systems and methods for maintaining situational awareness and spatial orientation
CN106355138A (zh) * 2016-08-18 2017-01-25 电子科技大学 基于深度学习和关键点特征提取的人脸识别方法
CN106534362A (zh) * 2016-12-14 2017-03-22 航天通信中心 一种基于云平台的软件资源共享的方法以及装置
CN106815601A (zh) * 2017-01-10 2017-06-09 西安电子科技大学 基于递归神经网络的高光谱图像分类方法
CN107766894A (zh) * 2017-11-03 2018-03-06 吉林大学 基于注意力机制和深度学习的遥感图像自然语言生成方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160272340A1 (en) * 2014-12-24 2016-09-22 Environmental Tectonics Corporation Aircraft-vision systems and methods for maintaining situational awareness and spatial orientation
CN105372994A (zh) * 2015-12-10 2016-03-02 中国人民解放军海军航空工程学院 一种基于鲁棒自适应最优控制的飞行员操纵行为描述方法
CN106355138A (zh) * 2016-08-18 2017-01-25 电子科技大学 基于深度学习和关键点特征提取的人脸识别方法
CN106534362A (zh) * 2016-12-14 2017-03-22 航天通信中心 一种基于云平台的软件资源共享的方法以及装置
CN106815601A (zh) * 2017-01-10 2017-06-09 西安电子科技大学 基于递归神经网络的高光谱图像分类方法
CN107766894A (zh) * 2017-11-03 2018-03-06 吉林大学 基于注意力机制和深度学习的遥感图像自然语言生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KAIMING HE等: ""Deep Residual Learning for Image Recognition"", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
LONG CHEN等: ""SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning"", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376804A (zh) * 2018-12-19 2019-02-22 中国地质大学(武汉) 基于注意力机制和卷积神经网络高光谱遥感图像分类方法
CN109376804B (zh) * 2018-12-19 2020-10-30 中国地质大学(武汉) 基于注意力机制和卷积神经网络高光谱遥感图像分类方法
CN109726696A (zh) * 2019-01-03 2019-05-07 电子科技大学 基于推敲注意力机制的图像描述生成系统及方法
CN109726696B (zh) * 2019-01-03 2023-04-07 电子科技大学 基于推敲注意力机制的图像描述生成系统及方法
CN111598117B (zh) * 2019-02-21 2023-06-30 成都通甲优博科技有限责任公司 图像识别方法及装置
CN111598117A (zh) * 2019-02-21 2020-08-28 成都通甲优博科技有限责任公司 图像识别方法及装置
CN110334724B (zh) * 2019-04-16 2022-06-17 武汉理工大学 基于lstm的遥感对象自然语言描述及多尺度矫正方法
CN110334724A (zh) * 2019-04-16 2019-10-15 武汉理工大学 基于lstm的遥感对象自然语言描述及多尺度矫正方法
CN112015543A (zh) * 2019-05-28 2020-12-01 Sap欧洲公司 基于lstm-rnn和注意力机制的资源自动缩放
CN110232413A (zh) * 2019-05-31 2019-09-13 华北电力大学(保定) 基于gru网络的绝缘子图像语义描述方法、系统、装置
CN110211685A (zh) * 2019-06-10 2019-09-06 珠海上工医信科技有限公司 基于完全关注机制的糖网筛查网络结构模型
CN110309800A (zh) * 2019-07-05 2019-10-08 中国科学技术大学 一种林火烟雾探测方法及装置
CN112308138A (zh) * 2020-10-30 2021-02-02 中国平安财产保险股份有限公司 模型采样方法、装置、计算机设备及存储介质
CN112308138B (zh) * 2020-10-30 2024-04-09 中国平安财产保险股份有限公司 模型采样方法、装置、计算机设备及存储介质
CN112948604A (zh) * 2021-02-01 2021-06-11 西北工业大学 具备多语义层级注意能力的遥感影像文本描述生成方法
CN113488058A (zh) * 2021-06-23 2021-10-08 武汉理工大学 一种基于短语音的声纹识别方法
CN118137277A (zh) * 2024-05-06 2024-06-04 南京信息工程大学 一种基于深度学习的快速自动锁模方法、系统和设备

Similar Documents

Publication Publication Date Title
CN108764303A (zh) 一种基于注意力机制的遥感图像自然语言生成方法
CN110163299B (zh) 一种基于自底向上注意力机制和记忆网络的视觉问答方法
CN108830287A (zh) 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN108563653B (zh) 一种用于知识图谱中知识获取模型的构建方法及系统
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
WO2023280065A1 (zh) 一种面向跨模态通信系统的图像重建方法及装置
CN109766427B (zh) 一种基于协同注意力的虚拟学习环境智能问答方法
CN110851760B (zh) 在web3D环境融入视觉问答的人机交互系统
WO2021057056A1 (zh) 神经网络架构搜索方法、图像处理方法、装置和存储介质
CN110502749A (zh) 一种基于双层注意力机制与双向gru的文本关系抽取方法
CN110297908A (zh) 诊疗方案预测方法及装置
CN112561064B (zh) 基于owkbc模型的知识库补全方法
CN110021051A (zh) 一种基于生成对抗网络通过文本指导的人物图像生成方法
CN110134954B (zh) 一种基于Attention机制的命名实体识别方法
CN106844442A (zh) 基于fcn特征提取的多模态循环神经网络图像描述方法
CN108416065A (zh) 基于层级神经网络的图像-句子描述生成系统及方法
CN109919078A (zh) 一种视频序列选择的方法、模型训练的方法及装置
WO2020177214A1 (zh) 一种基于文本不同特征空间的双流式视频生成方法
CN117055724B (zh) 虚拟教学场景中生成式教学资源系统的工作方法
Cao et al. Vision-enhanced and consensus-aware transformer for image captioning
US12056841B2 (en) Method for image shape transformation based on generative adversarial network
CN112905762B (zh) 一种基于同等注意力图网络的视觉问答方法
CN112036276A (zh) 一种人工智能视频问答方法
CN106980830A (zh) 一种基于深度卷积网络自亲缘关系识别方法与装置
CN110008839A (zh) 一种自适应手势识别的智能手语交互系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181106

RJ01 Rejection of invention patent application after publication