CN107766894B - 基于注意力机制和深度学习的遥感图像自然语言生成方法 - Google Patents

基于注意力机制和深度学习的遥感图像自然语言生成方法 Download PDF

Info

Publication number
CN107766894B
CN107766894B CN201711068875.5A CN201711068875A CN107766894B CN 107766894 B CN107766894 B CN 107766894B CN 201711068875 A CN201711068875 A CN 201711068875A CN 107766894 B CN107766894 B CN 107766894B
Authority
CN
China
Prior art keywords
natural language
remote sensing
sensing image
language description
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201711068875.5A
Other languages
English (en)
Other versions
CN107766894A (zh
Inventor
王生生
陈嘉炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN201711068875.5A priority Critical patent/CN107766894B/zh
Publication of CN107766894A publication Critical patent/CN107766894A/zh
Application granted granted Critical
Publication of CN107766894B publication Critical patent/CN107766894B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Astronomy & Astrophysics (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于注意力机制和深度学习的遥感图像自然语言生成方法,该方法包括以下步骤:步骤一、预处理遥感图像和对应的自然语言描述。步骤二、将降噪后的遥感图像输入到密集定位卷积神经网络(Intensive Positioning Convolution Neural Network,简称IPCNN)中。步骤三、将步骤二获得的区域块输入到重分配长短期记忆网络(Reassignment Long‑Short Term Memory,简称RLSTM)中。进入到RLSTM的权重分配层中,利用多层网络函数分别求得每个区域的权重,最后通过RLSTM的深度输出层实现自然语言描述的整体输出。步骤四、将步骤三中生成的自然语言描述输入遥感图像语言描述打分模型,得到句子的打分。步骤五、将目标位置、类别标签和自然语言描述得分输入到数据库中,等待调用。

Description

基于注意力机制和深度学习的遥感图像自然语言生成方法
技术领域
本发明涉及注意力机制,深度学习,遥感图像自然语言生成。
背景技术
近年来,航天技术作为获取信息的核心技术发展十分迅速,卫星遥感技术作为其中一个重要分支不仅在分辨率上有了较大的提高,而且已经逐步具备了全天时、全天候、实时传输的能力。高分辨率遥感图像作为信息的有效载体,扩宽了人眼的视野范围,提高了目标观察精度,在资源勘探、环境监测、自然灾害预防等方面发挥着非常重要的作用。
在日益增长的遥感应用需求下,如何方便、快捷地获取遥感图像中的信息是一个重要研究方向。尤其是没有相关背景知识的一般用户需要一种更易于使用的系统去使用遥感数据。因而,由遥感图像自动生成人可理解的自然语言描述受到了学术界的广泛关注。
大部分遥感图像工作都是关于遥感图像分类、目标检测和场景分类等。遥感图像自然语言描述与上述这些任务的区别在于它的目标是产生全面的句子而不是预测单个标签或单词。目前在这方面,国内几乎没有成型的框架,国外也只是刚刚起步
现在的遥感图像自然语言描述主要由两部分组成。第一部分,遥感图像的多目标检测。首先用区域提取技术从原图中提取候选区域块,然后利用分类器将候选区域块分类。在候选区域块分类阶段使用深度特征作为分类器的输入,一般使用卷积神经网络(Convolutional Neural Network,简称CNN)提取深度特征。第二部分,把标签信息处理成自然语言。主要是采用经典范式框架,这个模型是基于模板的方法设计的,将特征填充到特定的句式框架中,句式框架可以使用预定义模板,可以轻松设计新的模板。
当前遥感图像自然语言描述方法具有一定的局限性:(1)遥感图片一般像素大,目标占比小。在卷积神经网络的训练阶段,一般的解决模式都是直接把原图及其标注信息输入网络,从而导致网络忽略很多背景信息、只关注于目标特征信息的标签。(2)由于传统的自然语言处理采用的是经典范式框架,这种框架是基于模板的方法设计的,具有语言限制。给出的描述模式化,并不灵活和人性化,并且有很多信息在模式化中被省略,造成了信息的流失。
近年来,随着深度学习的兴起,基于注意力机制的神经网络成为了最近神经网络研究的一个热点。注意力机制是一种策略,最早是在视觉图像领域提出来的。注意力机制的思想是提高有用信息的权重,从而让任务处理系统更专注于找到输入数据中显著的与当前输出相关的有用信息,从而提高输出的质量。从应用层面上来说,注意力机制分为空间注意力机制和时间注意力机制。
本发明基于空间注意力机制提出了密集定位层,这个密集定位层可以预测图片中含有重要信息的区域,并围绕这些区域输出多个区域描述块。本发明把密集定位层加入卷积神经网络形成了新的目标检测框架:密集定位卷积神经网络(Intensive PositioningConvolutionNeural Network,简称IPCNN)。同时本发明基于时间注意力机制提出了权重分配层,这个权重分配层可以对特征信息的权重进行重新分配,加强重要信息的权重。本发明把权重分配层加入循环神经网络形成了新的语言框架:重分配长短期记忆网络(Reassignment Long-Short Term Memory,简称RLSTM)。
综上所述,本发明提出的基于注意力机制和深度学习的遥感图像自然语言生成方法。如图1,整体框架由三个过程组成:首先,预处理遥感图像和对应的自然语言描述,对遥感图像进行降噪处理,把自然语言描述切片,将字符构建成一个字典以备调用。然后将遥感图像输入到IPCNN中,在通过IPCNN的密集定位层时,预测图片中的一系列感兴趣的区域并输出多个区域块。之后将区域块输入到RLSTM中,利用RLSTM的权重分配层,对显著的特征进行参数权重重新分配,接着输入RLSTM的循环神经网络中,处理成可理解的自然语言描述。最后将自然语言描述输入遥感图像语言描述打分模型中,标记分数后输入到数据库中,等待调用,输出相应的描述。
发明内容:
一种基于注意力机制和深度学习的遥感图像自然语言生成方法,发明内容主要包括:遥感图像字幕的流程框架,预处理遥感图像和对应的自然语言描述,设计了密集定位层,将它和卷积神经网络结合,构建出新的目标检测框架,设计了权重分配层,将它与循环神经网络结合,构建出新的语言框架,以及遥感图像语言描述打分模型的构建。
一种基于注意力机制和深度学习的遥感图像自然语言生成方法,其特征在于:至少包括以下步骤:
步骤一、预处理遥感图像和对应的自然语言描述,对遥感图像进行降噪处理,把自然语言描述切片,将字符构建成一个字典以备后续调用。
步骤二、将降噪后的遥感图像输入到密集定位卷积神经网络(IntensivePositioning ConvolutionNeural Network,简称IPCNN)中。图像在经过IPCNN前面的卷积层和池化层之后,进入到IPCNN的密集定位层。密集定位层接收到的是有关激活值的输入张量,它能够识别感兴趣的空间区域并且从每一个区域平滑得提取一个固定尺寸的表示。最后通过IPCNN的识别网络将来自密集定位层的每个区域的特征扁平化后,获得区域块。
步骤三、将步骤二获得的区域块输入到重分配长短期记忆网络(ReassignmentLong-Short TermMemory,简称RLSTM)中。首先进入到RLSTM的权重分配层中,将一个区域块均匀地切割成多个区域,并且对每个区域的标签进行编码。接着获取这个区域块在多层网络中的不同时刻的隐藏状态与分割成的每个区域的编码,利用多层网络函数分别求得每个区域的权重。接着整合这些区域的权重得到整张图片关于这个区域块信息的动态表示。然后将这些信息的动态表示输入到RLSTM的循环神经网络中,最后通过RLSTM的深度输出层实现自然语言描述的整体输出。
步骤四、将步骤三中生成的自然语言描述输入遥感图像语言描述打分模型。考虑生成的自然语言描述C的任一单词序列。首先计算其在C中出现的次数,然后统计其在各参考句子中分别出现的次数的最大值,将该值与次数的较小者记作该单词序列的匹配次数。之后,再把每个单词序列的计算结果累加起来,乘一个惩罚因子得到句子的打分。
步骤五、将目标位置、类别标签和自然语言描述得分输入到数据库中,如果有搜索特定标签则输出特定标签下得分前十的句子,否则输出所有语句中得分前十的句子。
有益效果:
与现有技术相比,采用本发明所述的设计方案,可以达到以下技术效果:
1、对遥感图像和对应的自然语言描述进行预处理操作,对遥感图像进行降噪处理,能有效消除周期性的干涉图形,不仅使得原图细节更加丰富,而且能够降低目标识别网络对干扰数据的过拟合,使得网络能够输出更好的特征。把自然语言描述切片,将字符构建成一个字典,就是提前将相应的字符映射成向量,能有效的提高语言模型的运算速度。
2、在IPCNN中,首先图像通过IPCNN的卷积层和池化层处理,接着输入密集定位层。密集定位层能够对感兴趣区域增加权重,并且可以从每一个区域平滑得提取一个固定尺寸的表示。与现有网络相比较,在更加精确地提取目标特征的情况下,还提高了对背景信息的利用。在IPCNN中用双线性插值进行池化操作。这样做的好处在于可以预测变形候选区域,并且可以使梯度传到输入的坐标上,使得网络训练的速度大大加快。最后通过IPCNN的识别网络将来自密集定位层的每个区域的特征扁平化,这样做可以降低维度,加快后续模型的运算时间。
3、在RLSTM中,权重分配层对区域块进行处理分别得到每个区域块中不同区域的权重。接着利用多层网络函数计算得到整个区域块的信息的动态表示。这样做可以给不同单词分配不同的注意力大小。跟经典范式框架相比,重要单词自身的信息被强调,背景信息同样被赋予注意力,则最后呈现出的句子会比之前多出很多细节信息。接着把权重和区域块输入RLSTM中的循环神经网络中,词向量在经过循环神经网络的处理后,会极大的增强语言描述的可读性。
4、将自然语言描述输入遥感图像语言描述打分模型。由于一张图片对应多个区域,一个区域对应多条语句,所以最后得到的数据量庞大且杂乱。本发明将自然语言描述输入遥感图像语言描述打分模型,对信息的价值进行标记,然后将标记过后的数据放入数据库中。和之前的遥感字幕框架比起来,这样既不会忽略一些细节信息,又保证了调用时最有价值的信息会首先出现,节约了使用者大量的时间。
附图说明:
图1.方法框架流程图
图2.目标检测框架流程图
图3.自然语言框架流程图
具体实施方式:
步骤一、预处理遥感图像和对应的自然语言描述。
(1)对遥感图像进行降噪处理,由于周期性噪声一般重叠在原图像上,成为周期性的干涉图形,具有不同的幅度、频率、和相位。用槽形滤波的方法来消除。对于消除尖峰噪声,特别是与扫描方向不平行的,用傅立叶变换进行滤波处理来消除。
(2)把自然语言描述切片,将字符构建成一个字典,以备后续调用。
步骤二、利用降噪后的遥感图像对IPCNN进行训练。
(1)模型结构
如图2,模型主体使用VGG-16结构。它由13个3×3卷积层和嵌入其中的5个2×2最大值池化层(maxpooling)组成,本模型移除了最后的池化层,加入了密集定位层。遥感图片经过卷积层和池化层处理以后进入密集定位层。
(2)卷积层
卷积层接收到的是降噪后的遥感图像,卷积运算的目的是提取输入的不同特征。卷积神经网络中每层卷积层由若干卷积单元组成,每个卷积单元的参数都是通过反向传播算法优化得到的。
输入:每个神经元的权重θ(n-i)(n-j),图像向量xij
输出:
Figure BDA0001456412260000041
(3)池化层
池化层接收到的是卷积后的特征图。池化运算的目的是为了减少特征图,池化操作对每个深度切片独立,规模一般为2*2,相对于卷积层进行卷积运算。这里采用最大池化的方法,即取4个点的最大值。
(4)密集定位层
密集定位层接收到的是经过池化操作的特征图的输入张量,它能够识别感兴趣的空间区域并且从每一个区域平滑得提取一个固定尺寸的表示。本模型中用双线性插值代替了矩形框池化(RoI pooling)。
输入/输出:对于输入的C×W0×H0张量(C,W0,H0代表通道,长,宽)。网络选择B个感兴趣的区域,并且对于这些区域给出了三个输出张量,分别是:
区域坐标:一个B×4大小的矩阵。
区域得分:长度为B,给出了每个输出区域的置信度得分。
区域特征:一个B×C×X×Y大小的张量,给出了输出区域的特征。X,Y代表网格大小。
下面为具体计算步骤:
卷积区域:把W0×H0网格中的每一个点映射回W×H的原始图像平面中,并且以该投影点为中心考虑k个不同大小比例的区域盒子。定位层对每个区域盒子都进行置信度得分和四个标量的预测。
盒回归:利用区域的中心坐标和它的长宽,以及模型预测出的四个标量来计算输出区域的中心和长宽。输出区域的具体参数计算如下:
x=xa+txwa y=ya+tyha (1)
w=waexp(tw) h=haexp(hw) (2)
盒抽样:由于产生的区域特征过多,代价太大,所以要对其进行二次抽样。
在测试阶段使用非极大值抑制算法(Non-maximum suppression,简称NMS)对候选区域的置信度得分进行选择,得到排名最靠前的300个感兴趣的区域。定位层最后得到的就是包含坐标的B×4和包含得分的B的两个张量。
双线性插值:经过采样过后的区域特征,其大小和比例都是不一样的。考虑到要与语言模型相连接,必须要从这些不同大小尺寸的区域中提取出固定尺寸的特征表示。这里面使用抽样网格,其大小为X×Y×2。V是对U的特征进行插值后得到的新的特征图。所以根据U中坐标就可以计算出V中对应元素的值。采样核k表示为:
Figure BDA0001456412260000061
其中:
k(d)=max(0,1-|d|) (4)由于抽样网格是候选区坐标的线性函数,所以梯度就可以被传送回预测的区域特征坐标。对于所有采样区域,进行双线性插值后得到了大小为B×C×X×Y的张量,而这也是定位层最终的输出形式。
(3)识别网络
这一个网络的作用就是将来自定位层的每个区域的特征扁平化为一个向量并将其传至两个全连接层,这两层都是使用了线性修正单元(Rectified Linear Unit,简称ReLU)并且使用了丢弃算法。每一个区域从而能够产生一个维数为D=4096的代码,里面包含了这一个区域中的视觉信息。所有正区域的代码被收集到了一个大小为B×D的矩阵中,然后被传送至语言模型中。同时识别网络也再次完善了每个区域特征的置信度和位置。这两者来自于每个区域所对应的D维代码的线性变换。
步骤三、将IPCNN中得到的区域块输入到RLSTM中。
(1)对IPCNN中得到的特征图进行分割
特征图均匀地切割成多个区域,表示为
a={a1,...,aL},ai∈RD (5)
L表示切割的区域个数。如区域大小为14×14,D=196。输出的主题y可以编码为
y={y1,...,yC},yi∈RK (6)
K是字典的单词个数,C是句子长度。
yi的形式为(0,0,…,0,1,0,…,0,0),即只有第i处位置为1,其它位置为0。
(2)权重分配层
利用特征图分割成的多个区域进行运算:
eti=fatt(ai,ht-1) (7)
Figure BDA0001456412260000062
Figure BDA0001456412260000063
其中i表示第i个特征区域,共L个。
函数fatt采用多层网络实现,利用前一时刻的隐藏状态ht-1与L个特征区域,分别得到每个区域的权重αti
权重αti可以理解为下一步选择哪一个特征区域的概率。
Figure BDA0001456412260000071
是对整张图片部分信息的动态表示。
st,i指是否选择L个特征图中的第i个,如果设置成1,表示选中,0表示不选中。
在权重分配中,只有唯一的选中。
Figure BDA0001456412260000072
变量如下计算
p(st,i=1∣sj<t,a)=αt,i (10)
Figure BDA0001456412260000073
设置logp(y|a)函数的下限为目标函数Ls:
Figure BDA0001456412260000074
对其进行参数求导有
Figure BDA0001456412260000075
为减少估计方差,可采用冲量方式,第k个小批量的时候
Figure BDA0001456412260000076
为进一步减少估计方差,引入多项式分布(Multinomial Distribution)的熵H(s)
Figure BDA0001456412260000077
λr与λe是两个超参。
以上参数求导优化的过程就是强化学习,每次选择下一个特征图的过程都朝目标更好的方向变化。
(3)循环神经网络
将权重信息输入循环神经网络中
如图3,可知神经元中的函数表示:
Figure BDA0001456412260000081
ct=ft⊙ct-1+it⊙gt (17)
ht=ot⊙tanh(ct) (18)其中σ是S型函数(sigmoid)函数,⊙表示同位置的元素相乘。
it,ft,ot分别为输入门、遗忘门、输出门,gt是对输入的转化,ct是cell状态,ht是隐藏状态。
E∈RK×m,通过随机初始化学习到的矩阵。
语言模型中的记忆单元与隐藏单元的初始值,是两个不同的多层感知机,采用所有特征区域的平均值来进行预测的:
Figure BDA0001456412260000082
Figure BDA0001456412260000083
而最终的自然语言描述,采用深度输出层实现
Figure BDA0001456412260000084
其中Lo∈RK×m,Lh∈Rm×n,Lz∈Rm×D
步骤四、将RLSTM中生成的自然语言描述输入遥感图像语言描述打分模型。
(1)精确度计算
考虑模型生成的句子c的全部单词序列(n-gram),考察其中的任一单词序列:首先计算其在c中出现的次数Count(n-gram),然后统计其在各参考句子中分别出现的次数的最大值,将该值与Count(n-gram)的较小者记作该单词序列的匹配次数Countclip(n-gram)之后,再把每个单词序列的计算结果累加起来,得到句子的结果。所以精确度(precision)可以用如下方式计算:
Figure BDA0001456412260000091
式中{Candidates}代表需要评测的多句译文的集合。当n取1时,
Figure BDA0001456412260000092
就是句子c的长度。
(2)惩罚因子计算
由于精确度对短句子评分不客观,如果模型只翻译最有把握的片段,那么就可以得到高分,因此要对短句子进行惩罚。
惩罚的方式就是在原先的评价指标值上乘一个惩罚因子(brevity penaltyfactor):当模型给出的译文句子c的长度lc要比参考句子的长度ls长时,就不进行惩罚,即惩罚因子为1,否则就惩罚:
Figure BDA0001456412260000093
式中的lc代表模型给出的测试集全部句子译文的长度总和,ls代表与模型给出译文句子长度最接近的参考译文的长度。
(3)最终评分公式
综合起来,打分模型的评分公式采用的是对数加权平均值(这是因为当n增大时评分会指数级减小),再乘上惩罚因子:
Figure BDA0001456412260000094
式中的N通常取4,权重wn通常取
Figure BDA0001456412260000095
(几何平均)。最终评分在0到1之间,1表示完全与人工翻译一致。
步骤五、将目标位置、类别标签和自然语言描述得分输入到数据库中,如果有搜索特定标签则输出特定标签下得分前十的句子,否则输出所有语句中得分前十的句子。

Claims (5)

1.一种基于注意力机制和深度学习的遥感图像自然语言生成方法,其特征在于:至少包括以下步骤:
步骤一、预处理遥感图像和对应的自然语言描述,对遥感图像进行降噪处理,把自然语言描述切片,将字符构建成一个字典以备后续调用;
步骤二、密集定位卷积神经网络IPCNN包括卷积层、池化层、密集定位层和识别网络,将降噪后的遥感图像输入到密集定位卷积神经网络,图像在经过卷积层和池化层之后,进入到密集定位层,密集定位层接收到的是有关激活值的输入张量,它能够识别感兴趣的空间区域并且从每一个区域平滑得提取一个固定尺寸的表示,最后通过识别网络将来自密集定位层的每个区域的特征扁平化后,获得区域块;
步骤三、重分配长短期记忆网络RLSTM包括权重分配层、循环神经网络和深度输出层,将步骤二获得的区域块输入到重分配长短期记忆网络中,首先进入到权重分配层中,将一个区域块均匀地切割成多个区域,并且对每个区域的标签进行编码,接着获取这个区域块在多层网络中的不同时刻的隐藏状态与分割成的每个区域的编码,利用多层网络函数分别求得每个区域的权重,接着整合这些区域的权重得到整张图片关于这个区域块信息的动态表示,然后将这些信息的动态表示输入到循环神经网络中,最后通过深度输出层实现自然语言描述的整体输出;
步骤四、将步骤三中生成的自然语言描述输入遥感图像语言描述打分模型,考虑生成的自然语言描述C的任一单词序列n-gram,首先计算单词序列n-gram在自然语言描述C中出现的次数Count,然后统计单词序列n-gram在各参考句子中分别出现的次数的最大值,将该最大值与Count中的较小者记作单词序列n-gram的匹配次数,之后,再把每个单词序列n-gram的计算结果累加起来,乘一个惩罚因子得到自然语言描述C的打分;
步骤五、将目标位置、类别标签和自然语言描述得分输入到数据库中,如果有搜索特定标签则输出特定标签下得分前十的句子,否则输出所有语句中得分前十的句子。
2.根据权利要求1所述的一种基于注意力机制和深度学习的遥感图像自然语言生成方法,其特征在于:步骤一中采用如下方法对遥感图像和对应的自然语言描述进行预处理:利用槽形滤波和傅立叶变换的方法对遥感图像进行降噪处理,能有效消除周期性的干涉图形,不仅使得原图细节更加丰富,而且能够降低目标识别网络对干扰数据的过拟合,使得网络能够输出更好的特征,把自然语言描述切片,将字符构建成一个字典,就是提前将相应的字符映射成向量,能有效的提高语言模型的运算速度。
3.根据权利要求1所述的一种基于注意力机制和深度学习的遥感图像自然语言生成方法,其特征在于:所述步骤二中利用IPCNN对步骤一中的降噪遥感图像进行处理,首先图像通过IPCNN的卷积层和池化层处理,接着输入密集定位层,密集定位层能够对感兴趣区域增加权重,并且可以从每一个区域平滑的提取一个固定尺寸的表示,与现有网络相比较,在更加精确地提取目标特征的情况下,还提高了对背景信息的利用,在IPCNN中用双线性插值进行池化操作,这样做的好处在于可以预测变形候选区域,并且可以使梯度传到输入的坐标上,使得网络训练的速度大大加快,最后通过IPCNN的识别网络将来自密集定位层的每个区域的特征扁平化,这样做可以降低维度,加快后续模型的运算时间。
4.根据权利要求1所述的一种基于注意力机制和深度学习的遥感图像自然语言生成方法,其特征在于:所述步骤三中利用RLSTM对步骤二中得到的区域块进行处理,在RLSTM中,权重分配层对区域块进行处理分别得到每个区域块中不同区域的权重,接着利用多层网络函数计算得到整个区域块的信息的动态表示,这样做可以给不同单词分配不同的注意力大小,跟经典范式框架相比,重要单词自身的信息被强调,背景信息同样被赋予注意力,则最后呈现出的句子会比之前多出很多细节信息,接着把权重和区域块输入RLSTM中的循环神经网络中,词向量在经过循环神经网络的处理后,会极大的增强语言描述的可读性。
5.根据权利要求1所述的一种基于注意力机制和深度学习的遥感图像自然语言生成方法,其特征在于:所述步骤四,步骤五对步骤三中生成的自然语言描述进行进一步处理,将自然语言描述输入遥感图像语言描述打分模型,由于一张图片对应多个区域,一个区域对应多条语句,所以最后得到的数据量庞大且杂乱,将自然语言描述输入遥感图像语言描述打分模型,对信息的价值进行标记,然后将标记过后的数据放入数据库中,和之前的遥感字幕框架比起来,这样既不会忽略一些细节信息,又保证了调用时最有价值的信息会首先出现,节约了使用者大量的时间。
CN201711068875.5A 2017-11-03 2017-11-03 基于注意力机制和深度学习的遥感图像自然语言生成方法 Expired - Fee Related CN107766894B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711068875.5A CN107766894B (zh) 2017-11-03 2017-11-03 基于注意力机制和深度学习的遥感图像自然语言生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711068875.5A CN107766894B (zh) 2017-11-03 2017-11-03 基于注意力机制和深度学习的遥感图像自然语言生成方法

Publications (2)

Publication Number Publication Date
CN107766894A CN107766894A (zh) 2018-03-06
CN107766894B true CN107766894B (zh) 2021-01-22

Family

ID=61273127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711068875.5A Expired - Fee Related CN107766894B (zh) 2017-11-03 2017-11-03 基于注意力机制和深度学习的遥感图像自然语言生成方法

Country Status (1)

Country Link
CN (1) CN107766894B (zh)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764303A (zh) * 2018-05-10 2018-11-06 电子科技大学 一种基于注意力机制的遥感图像自然语言生成方法
CN108647889A (zh) * 2018-05-11 2018-10-12 中国科学院遥感与数字地球研究所 森林净初级生产力估计及认知方法
CN108960281B (zh) * 2018-05-24 2020-05-05 浙江工业大学 一种黑色素瘤分类模型建立方法
CN108776832B (zh) * 2018-06-05 2021-08-24 腾讯科技(深圳)有限公司 信息处理方法、装置、计算机设备和存储介质
CN109033998B (zh) * 2018-07-04 2022-04-12 北京航空航天大学 基于注意力机制卷积神经网络的遥感影像地物标注方法
CN109117846B (zh) * 2018-08-22 2021-11-16 北京旷视科技有限公司 一种图像处理方法、装置、电子设备和计算机可读介质
CN109284406B (zh) * 2018-09-03 2021-12-03 四川长虹电器股份有限公司 基于差异循环神经网络的意图识别方法
CN109376757B (zh) * 2018-09-06 2020-09-08 苏州飞搜科技有限公司 一种多标签分类方法及系统
CN109409222B (zh) * 2018-09-20 2020-10-30 中国地质大学(武汉) 一种基于移动端的多视角人脸表情识别方法
CN109523021B (zh) * 2018-09-28 2020-12-11 浙江工业大学 一种基于长短时记忆网络的动态网络结构预测方法
CN109359564B (zh) * 2018-09-29 2022-06-24 中山大学 一种图像场景图生成方法及装置
CN109522600B (zh) * 2018-10-16 2020-10-16 浙江大学 基于组合深度神经网络的复杂装备剩余使用寿命预测方法
CN109871736B (zh) 2018-11-23 2023-01-31 腾讯科技(深圳)有限公司 自然语言描述信息的生成方法及装置
WO2020125806A1 (en) 2018-12-17 2020-06-25 Shanghai United Imaging Intelligence Co., Ltd. Systems and methods for image segmentation
CN109583576B (zh) * 2018-12-17 2020-11-06 上海联影智能医疗科技有限公司 一种医学图像处理装置及方法
CN109785409B (zh) * 2018-12-29 2020-09-08 武汉大学 一种基于注意力机制的图像-文本数据融合方法和系统
CN109858420A (zh) * 2019-01-24 2019-06-07 国信电子票据平台信息服务有限公司 一种票据处理系统和处理方法
CN111563585B (zh) * 2019-02-14 2023-03-17 上海寒武纪信息科技有限公司 一种神经网络模型的拆分方法及相关产品
EP3926546A4 (en) * 2019-02-14 2022-04-27 Shanghai Cambricon Information Technology Co., Ltd METHOD FOR DIVISION OF NEURONAL NETWORK MODEL, APPARATUS, COMPUTER DEVICE AND INFORMATION HOLDER
CN111563586B (zh) * 2019-02-14 2022-12-09 上海寒武纪信息科技有限公司 一种神经网络模型的拆分方法及相关产品
CN109756842B (zh) * 2019-02-19 2020-05-08 山东大学 基于注意力机制的无线室内定位方法及系统
CN109817246B (zh) * 2019-02-27 2023-04-18 平安科技(深圳)有限公司 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质
CN110188787B (zh) * 2019-04-11 2020-11-03 淮阴工学院 一种基于区块链互证和卷积神经网络的凭证式记账方法
CN110084250B (zh) * 2019-04-26 2024-03-12 北京金山数字娱乐科技有限公司 一种图像描述的方法及系统
CN110083729B (zh) * 2019-04-26 2023-10-27 北京金山数字娱乐科技有限公司 一种图像搜索的方法及系统
CN110070085B (zh) * 2019-04-30 2021-11-02 北京百度网讯科技有限公司 车牌识别方法和装置
CN110085249B (zh) * 2019-05-09 2021-03-16 南京工程学院 基于注意力门控的循环神经网络的单通道语音增强方法
CN110276269B (zh) * 2019-05-29 2021-06-29 西安交通大学 一种基于注意力机制的遥感图像目标检测方法
CN110232413A (zh) * 2019-05-31 2019-09-13 华北电力大学(保定) 基于gru网络的绝缘子图像语义描述方法、系统、装置
CN110378335B (zh) * 2019-06-17 2021-11-19 杭州电子科技大学 一种基于神经网络的信息分析方法及模型
CN110334716B (zh) * 2019-07-04 2022-01-11 北京迈格威科技有限公司 特征图处理方法、图像处理方法及装置
CN111080513B (zh) * 2019-10-24 2023-12-26 天津中科智能识别产业技术研究院有限公司 一种基于注意力机制的人脸图像超分辨率方法
CN110929640B (zh) * 2019-11-20 2023-04-07 西安电子科技大学 一种基于目标检测的宽幅遥感描述生成方法
CN111126282B (zh) * 2019-12-25 2023-05-12 中国矿业大学 一种基于变分自注意力强化学习的遥感图像内容描述方法
CN111539316B (zh) * 2020-04-22 2023-05-05 中南大学 基于双注意力孪生网络的高分遥感影像变化检测方法
CN114580412B (zh) * 2021-12-29 2024-06-04 西安工程大学 基于领域适应的服装实体识别方法
CN114781445B (zh) * 2022-04-11 2022-11-18 山东省人工智能研究院 一种基于可解释性的深度神经网络的心电信号降噪方法
CN114796790B (zh) * 2022-06-23 2022-09-27 深圳市心流科技有限公司 基于脑电的大脑训练方法、装置、智能终端及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955702A (zh) * 2014-04-18 2014-07-30 西安电子科技大学 基于深度rbf网络的sar图像地物分类方法
CN105740894A (zh) * 2016-01-28 2016-07-06 北京航空航天大学 一种高光谱遥感图像的语义标注方法
CN106250931A (zh) * 2016-08-03 2016-12-21 武汉大学 一种基于随机卷积神经网络的高分辨率图像场景分类方法
CN106503055A (zh) * 2016-09-27 2017-03-15 天津大学 一种从结构化文本到图像描述的生成方法
US9619748B1 (en) * 2002-09-30 2017-04-11 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
CN106599198A (zh) * 2016-12-14 2017-04-26 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种多级联结循环神经网络的图像描述方法
CN106650813A (zh) * 2016-12-27 2017-05-10 华南理工大学 一种基于深度残差网络和lstm的图像理解方法
CN106778835A (zh) * 2016-11-29 2017-05-31 武汉大学 融合场景信息和深度特征的遥感图像机场目标识别方法
CN106845411A (zh) * 2017-01-19 2017-06-13 清华大学 一种基于深度学习和概率图模型的视频描述生成方法
CN106845499A (zh) * 2017-01-19 2017-06-13 清华大学 一种基于自然语言语义的图像目标检测方法
EP3229157A1 (en) * 2016-04-07 2017-10-11 Siemens Healthcare GmbH Image analytics question answering

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10909329B2 (en) * 2015-05-21 2021-02-02 Baidu Usa Llc Multilingual image question answering

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9619748B1 (en) * 2002-09-30 2017-04-11 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
CN103955702A (zh) * 2014-04-18 2014-07-30 西安电子科技大学 基于深度rbf网络的sar图像地物分类方法
CN105740894A (zh) * 2016-01-28 2016-07-06 北京航空航天大学 一种高光谱遥感图像的语义标注方法
EP3229157A1 (en) * 2016-04-07 2017-10-11 Siemens Healthcare GmbH Image analytics question answering
CN106250931A (zh) * 2016-08-03 2016-12-21 武汉大学 一种基于随机卷积神经网络的高分辨率图像场景分类方法
CN106503055A (zh) * 2016-09-27 2017-03-15 天津大学 一种从结构化文本到图像描述的生成方法
CN106778835A (zh) * 2016-11-29 2017-05-31 武汉大学 融合场景信息和深度特征的遥感图像机场目标识别方法
CN106599198A (zh) * 2016-12-14 2017-04-26 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种多级联结循环神经网络的图像描述方法
CN106650813A (zh) * 2016-12-27 2017-05-10 华南理工大学 一种基于深度残差网络和lstm的图像理解方法
CN106845411A (zh) * 2017-01-19 2017-06-13 清华大学 一种基于深度学习和概率图模型的视频描述生成方法
CN106845499A (zh) * 2017-01-19 2017-06-13 清华大学 一种基于自然语言语义的图像目标检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Can a Machine Generate Humanlike Language Descriptions for a Remote Sensing Image?;Zhenwei Shi 等;《IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING》;20170630;第55卷(第6期);3623-3634 *
Deep Visual-Semantic Alignments for Generating Image Descriptions;Andrej Karpathy 等;《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》;20170430;第39卷(第4期);664-676 *
基于卷积神经网络的自适应权重multi-gram语句建模系统;张春云 等;《计算机科学》;20170131;第44卷(第1期);60-64 *
顾及局部特性的CNN在遥感影像分类的应用;杨嘉树 等;《计算机工程与应用》;20140401;188-195 *

Also Published As

Publication number Publication date
CN107766894A (zh) 2018-03-06

Similar Documents

Publication Publication Date Title
CN107766894B (zh) 基于注意力机制和深度学习的遥感图像自然语言生成方法
JP6843086B2 (ja) 画像処理システム、画像においてマルチラベル意味エッジ検出を行う方法、および、非一時的コンピューター可読記憶媒体
CN112766172B (zh) 一种基于时序注意力机制的人脸连续表情识别方法
US9330336B2 (en) Systems, methods, and media for on-line boosting of a classifier
JP6892606B2 (ja) 位置特定装置、位置特定方法及びコンピュータプログラム
CN111738363A (zh) 基于改进的3d cnn网络的阿尔茨海默病分类方法
CN113903022B (zh) 基于特征金字塔与注意力融合的文本检测方法及系统
CN113111716B (zh) 一种基于深度学习的遥感影像半自动标注方法和装置
CN111738074B (zh) 基于弱监督学习的行人属性识别方法、系统及装置
CN116704431A (zh) 水污染的在线监测系统及其方法
CN111968124A (zh) 基于半监督语义分割的肩部肌骨超声结构分割方法
CN111126155B (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN115544239A (zh) 一种基于深度学习模型的布局偏好预测方法
CN114612902A (zh) 图像语义分割方法、装置、设备、存储介质及程序产品
CN112069892A (zh) 一种图像识别方法、装置、设备及存储介质
CN114581789A (zh) 一种高光谱图像分类方法及系统
CN112613474A (zh) 一种行人重识别的方法和装置
CN116051984B (zh) 一种基于Transformer的弱小目标检测方法
CN117011932A (zh) 一种奔跑行为检测方法、电子设备及存储介质
CN113537240B (zh) 一种基于雷达序列图像的形变区智能提取方法及系统
CN112818832B (zh) 一种基于部件感知的弱监督物体定位装置及方法
CN115063831A (zh) 一种高性能行人检索与重识别方法及装置
CN114596433A (zh) 一种绝缘子识别方法
Liu et al. A Novel Improved Mask RCNN for Multiple Targets Detection in the Indoor Complex Scenes
CN116030347B (zh) 一种基于注意力网络的高分辨率遥感影像建筑物提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210122

Termination date: 20211103