CN114882488A - 基于深度学习与注意力机制的多源遥感图像信息处理方法 - Google Patents

基于深度学习与注意力机制的多源遥感图像信息处理方法 Download PDF

Info

Publication number
CN114882488A
CN114882488A CN202210547679.0A CN202210547679A CN114882488A CN 114882488 A CN114882488 A CN 114882488A CN 202210547679 A CN202210547679 A CN 202210547679A CN 114882488 A CN114882488 A CN 114882488A
Authority
CN
China
Prior art keywords
image
text
attention
feature
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210547679.0A
Other languages
English (en)
Other versions
CN114882488B (zh
Inventor
党迎旭
王树良
李燈杰
王奕
李明
袁汉宁
耿晶
潘新宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202210547679.0A priority Critical patent/CN114882488B/zh
Publication of CN114882488A publication Critical patent/CN114882488A/zh
Application granted granted Critical
Publication of CN114882488B publication Critical patent/CN114882488B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • G06V30/18038Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
    • G06V30/18048Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
    • G06V30/18057Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19093Proximity measures, i.e. similarity or distance measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1918Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于深度学习与注意力机制的多源遥感图像信息处理方法,包括:步骤1,构建图像描述生成器,所述图像描述生成器基于自上而下图像描述模型构建而成;该自上而下图像描述模型包括顺序连接的注意力LSTM模型和语句生成LSTM模型;步骤2:采用融入词性特征的文本图像匹配的POS‑SCAN模型对图形描述生成器进行训练,得到所述图形描述生成器的损失函数;步骤3:将所述图像描述生成器进行自序列训练后,将所述多源遥感图像进行区域特征提取,并将区域特征提取结果输入所述图像描述生成器,得到所述图像对应的文字标签;步骤4:将所述区域特征提取结果、所述文字标签及候选语句输入相似性评分模块,得到相似度评分结果。

Description

基于深度学习与注意力机制的多源遥感图像信息处理方法
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于深度学习与注意力机制的多源遥感图像信息处理方法。
背景技术
从遥感图像中提取文字信息属于一种典型的场景理解技术,在提取图像中视觉特征、空间特征、语义特征的基础上,利用自然语言生成流畅而有意义的描述来概括图像的内容。目前,实现遥感图像信息提取任务的方法分为传统图像描述方法和基于深度学习的图像描述方法。
传统图像描述算法分为基于模板的方法和基于检索的方法。基于模板的方法首先通过Faster-RCNN等图像识别算法检测出图像中的目标,并通过特定的语句模板或者语法规则连接这些目标并生成描述性语句。而基于检索的方法则是在预先定义的语句集中检索出与给定的输入图像相似度最大的一个语句或者一组语句来描述图像。
深度学习的突破导致了人工智能和机器学习的范式转变,并在包括图像描述在内的计算机视觉领域取得了巨大成功。而应用注意力机制、图卷积神经网络以及强化学习等方法能够有效提高基于深度学习的图像描述算法的性能。因为CNN(卷积神经网络)在计算机视觉领域的广泛应用和RNN(循环神经网络)在机器翻译领域的成功,CNN+RNN的编码-解码模型在图像描述领域被广泛研究,解决了图像描述中的跨模态交互问题,但是该模型在处理长序列数据时存在梯度消失的问题。而基于LSTM(长短期记忆网络)的UP-DOWN模型可以利用门控机制增添删除信息,将特征信息有选择性的传递下去,适合处理长序列数据,被广泛应用于图像描述领域。由于注意力机制可以关注重要信息,忽略次要信息,因此被广泛应用于图像描述模型的解码阶段,帮助解码器有选择的关注图像中的语义特征。但是多数引入注意力机制的图像描述模型使用交叉熵损失函数进行训练,而利用交叉熵函数训练存在以下问题:模型训练和测试阶段存在曝光误差,交叉熵损失函数无法直接对不可微分的评价标准进行微分运算。为解决这一弊端,有研究者提出了利用强化学习来直接优化不可微分的评价标准。但是,这些方法都只关注于图像对象和文本对象特征和客观性评分,未能考虑特征之间的联系。而图神经网络能够有效获取图像中目标对象间的关系特征,构建出更丰富的图像语义特征,使图像描述模型生成的语句更具充分性和多样性。
发明内容
有鉴于此,本发明提供了一种基于深度学习与注意力机制的多源遥感图像信息处理方法,包括:
步骤1,构建图像描述生成器,所述图像描述生成器基于自上而下(UP-DOWN)图像描述模型构建而成;
该自上而下(UP-DOWN)图像描述模型包括顺序连接的注意力LSTM模型和语句生成LSTM模型;
步骤2:采用融入词性特征的文本图像匹配的POS-SCAN模型对图形描述生成器进行训练,得到所述图形描述生成器的损失函数;
步骤3:将所述图像描述生成器进行自序列训练后,将所述多源遥感图像进行区域特征提取,并将区域特征提取结果输入所述图像描述生成器,得到所述图像对应的文字标签;
步骤4:将所述区域特征提取结果、所述文字标签及候选语句输入相似性评分模块,得到相似度评分结果,所述相似度评分模块包括:
图像文本对象特征相似性评分,图像文本对象间关系特征相似性评分和基于共识的图像描述评估指标评分等三个部分。
特别地,所述步骤2具体包括:所述损失函数包括交叉熵函数和所述图形描述生成器中所述注意力LSTM模型和所述POS-SCAN模型之间的KL散度;所述KL散度的计算过程具体包括:从POS-SCAN模型中提取注意权重αt作为真实分布,并提取自上而下(UP-DOWN)图像描述模型的注意权重βt作为模拟分布,将βt拟合αt时产生的信息损耗即KL散度。
特别地,所述步骤3包括:使用Faster R-CNN模型提取的图像区域特征,具体包括:使用具有注意力机制的区域建议网络(RPN)提取候选建议区域;随后基于所述候选建议区域的Faster R-CNN模型的检测器识别目标。
特别地,所述步骤4中图像文本对象特征相似性评分,其是将图像与文本对象特征进行注意力融合,计算图像文本对象特征相似性评分,具体包括:对输入的图像区域特征进行编码,得到图像区域特征的图像对象特征;对文字标签及候选语句中的语句进行编码,使用双向门控循环单元(GRU)模型对标签语句和候选语句中的单词进行词嵌入操作;
对于每个所述图像对象特征,计算出每个标签语句中的所有文本对象特征对其的关注度;计算出所有标签语句在描述图像中任一对象特征所提供的关注信息;利用双向门控循环单元(GRU)模型中的融合层将关注信息集合中的信息向量融合为关注文本融合信息;再通过一个全连接层将融合关注文本融合信息和其对应的图像对象特征融合为对象融合特征;
对于描述语句中的每一个文本对象特征,选取和其相似度最高的融合对象特征来计算两者的余弦相似性,将描述语句中的所有文本对象特征与其对应的图像对象特征的余弦相似性得分的平均值作为图像文本对象特征相似性评分。
特别地,所述步骤4中图像文本对象间关系特征相似性评分,是将图像与文本对象关系特征相似性评分作为自临界序列训练中的目标奖励函数的一部分,具体包括:
对输入的图像区域特征进行编码,得到图像区域特征的图像对象特征;
对于图像中的任一图像对象特征,基于空间结构的图卷积网络(GCN)提取图像中对象间关系特征;对所述文字标签及候选语句进行文本对象关系提取,其中通过文本图解析器建立文本对象关系知识图谱;并建立语义三元组;利用双向门控循环单元(GRU)模型对每个语义三元组进行编码,并计算文本对象间关系特征;
对于图像对象关系特征,首先计算出每个标签语句中的所有对象关系特征对其的关注度;计算出所有标签语句描述图像中任一对象关系特征时提供的关注信息;利用双向门控循环单元(GRU)模型中的融合层将对象关系特征关注信息集合中的信息向量融合为关注文本关系融合信息;通过一个全连接层将关注文本关系融合信息和其对应的图像对象关系特征融合为对象关系融合特征;对于描述语句中的每一个文本对象关系特征,选取和其相似度最高的对象关系融合特征来计算两者的余弦相似性;将描述语句中的所有文本对象关系特征与其对应的图像对象关系特征的余弦相似性得分的平均值作为图像文本对象间关系特征相似性评分。
特别地,所述步骤3具体包括:将所述图像描述生成器进行自序列训练时,将每一个标题采样获取描述语句时,将剩余样本平均得分的新基线来进行自临界序列训练。
有益效果:
1、本发明将图像识别的技术应用在遥感数据的图像处理过程中,增加了遥感数据图像处理的速度和精确性;
2、本发明引入图像文本对象间关系特征相似性评分作为自临界训练目标得分函数的一部分,解决图像描述模型对图像中对象关系描述不充分的弊端;
3、本发明将标签文本对象特征融入到图像文本对象特征相似性评分机制;
4、本发明引入一种除取样样本外剩余样本平均得分的新基线来进行自临界序列训练来提升自临界序列训练的有效性。
附图说明
图1为图像描述生成器的工作流程示意图;
图2为自序列训练阶段的训练框架的工作流程示意图;
图3为图像文本对象特征相似性评分的工作流程示意图;
图4为图像文本对象特征相似性评分中图像与文本对象特征注意力融合的工作流程示意图;
图5为图像文本对象关系特征相似性评分的工作流程示意图;
图6为图像文本对象关系特征相似性评分中图像与文本对象关系特征注意力融合的工作流程示意图。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
本发明为了解决多源遥感图像数据到文本信息的自动提取的问题,提出了一种基于深度学习与注意力机制的多源遥感图像信息融合提取方法。
步骤1,构建图像描述生成器,所述图像描述生成器基于自上而下(UP-DOWN)图像描述模型构建而成;该自上而下(UP-DOWN)图像描述模型包括顺序连接的注意力LSTM模型和语句生成LSTM模型;
如图1所示,第一阶段以UP-DOWN模型为图像描述生成器,该生成器包括一个注意力LSTM和语句生成LSTM,输入为使用Faster R-CNN方法提取的图像特征,输出为图像描述语句。
本方法中采用的UP-DOWN图像描述生成器模型,主要由两个LSTM模型组成,第一层注意力LSTM利用注意力机制引导在生成单词时关注正确的图像区域,第二层语句生成LSTM根据注意力LSTM生成注意力权重向量
Figure BDA0003650117570000061
和当前时间节点生成单词的上下文特征值
Figure BDA0003650117570000062
生成图像特征对应的单词。
该模型的输入是经过Faster R-CNN模型的提取的图像区域特征F={f1,f2,f3,…,fk},首先将图像中的每个区域特征fi转化为图像对象特征
Figure BDA0003650117570000063
计算方式如下:
Figure BDA0003650117570000064
其中Wu和bu是可训练参数。
在第t个时间节点,注意力LSTM将t-1时间节点的语句生成LSTM的隐藏变量输出
Figure BDA0003650117570000065
t-1时间节点的单词的词嵌入向量
Figure BDA0003650117570000066
和图像对象特征的平均值
Figure BDA0003650117570000067
作为输入,得到注意力LSTM的最后隐藏层输出
Figure BDA0003650117570000068
计算方式如下:
Figure BDA0003650117570000069
其中[;]表示向量拼接,对于给定的
Figure BDA00036501175700000610
在t时间节点生成当前单词的上下文特征值
Figure BDA00036501175700000611
为:
Figure BDA00036501175700000612
βt=softmax(zt)#
Figure BDA00036501175700000613
其中上下文特征值
Figure BDA0003650117570000071
指的是当前时刻生成单词时关注的图像特征,βt代表注意力机制门控权重决定那个图像区域更适合当前单词的生成,zi,t是注意力机制门控权重的中间表示,
Figure BDA0003650117570000072
Wva,Wha为训练的权重矩阵。
语句生成LSTM将生成当前词语关注的图像特征
Figure BDA0003650117570000073
和注意力LSTM的输出
Figure BDA0003650117570000074
作为输入,得到在时间节点t可能输出的单词的条件分布如下:
Figure BDA0003650117570000075
Figure BDA0003650117570000076
其中y1…t-1表示(y1,y2,y3,…,yt-1)3,p(yt|y1…t-1)表示在已经生成前t-1个单词的条件下第t个时间节点可能生成的单词的分布情况,
Figure BDA0003650117570000077
为t时间节点语句生成LSTM的隐藏变量输出,而Wo和bo是可训练的权重矩阵和偏移值。
Faster R-CNN模型提取图像特征分为两个阶段,第一阶段使用具有注意力机制的区域建议网络(RPN)提出候选建议区域,第二阶段使用基于区域建议的Faster R-CNN检测器识别目标。
第一阶段区域建议网络将任意大小的图像作为输入并输出一组矩形的候选建议区域及建议分数。为了生成候选建议区域,该模型使用一个滑动窗口在CNN网络最后一层输出的特征图上滑动,并在每一个空间位置预测出多个大小候选建议区域框,并利用回归层计算这些框是对象或者非对象的概率。在训练RPN网络时计算一个锚框与真实的锚框之间的交并比(IoU),将与其中一个真实锚框具有最高的交并比的锚框和与任意真实锚框的交并比都在0.7以上的锚框视为正样本,将与所有真实锚框的交并比都小于0.3的锚框视为负样本。
第二阶段将第一阶段输出的候选建议区域作为输入,并在每一个候选建议区域提取一个特征图,然后将这些特征图作为CNN网络最后一层的输入,该模型的最后输出为每一个图像特征的类标签的softmax分布和图像区域特征fi,其中图像区域特征包括2048维的特征向量序列和4维的边界框坐标。
本方法利用Faster R-CNN提取图像特征,对于给定的图像I,获取其k个图像区域特征F={f1,f2,f3,…,fk}作为UP-DOWN图像描述模型的输入。
步骤2:采用融入词性特征的文本图像匹配的POS-SCAN模型对图形描述生成器进行训练,得到所述图形描述生成器的损失函数;
本发明中训练中得到图形描述器的损失函数前,首先需要对预训练模型,即POS-SCAN模型的损失函数进行训练;在数据集上预训练POS-SCAN模型,然后固定其参数不变。
本方法中的融合词性特征的文本图像匹配模式POS-SCAN、图像文本对象特征相似性评分器和图像文本对象间关系特征相似性评分器均采用三元组损失进行训练,公式如下:
Figure BDA0003650117570000081
l*泛指lpos,lo,lr,S*则分别对应融入词性特征的文本图像匹配模式评分Spos,图像文本对象特征相似性评分So,图像文本对象关系特征相似性评分Sr。该三元组损失函数由两个对称项组成,第一项表示对于给定图像I,统计所有非正确描述语句的损失,S*(I,T)表示当前候选图像与其对应的标签语句的得分,
Figure BDA0003650117570000082
表示当前候选语句和非其对象标签语句的得分。第二项表示对于给定的图像描述语句T,统计所有非正确的图像的损失,
Figure BDA0003650117570000083
表示当前标签语句和非其对应的候选图像的得分。m为边缘系数,[*]+等价于max(*,0)。可以看出当给出图像及其标签语句的情况下可以获得更高的分数。
随后,在POS-SCAN模型的监督下训练UP-DOWN模型,具体做法是,在计算损失函数时除了优化交叉熵cross-entropy,还需优化所述图形描述生成器中所述注意力LSTM模型和所述POS-SCAN模型之间的KL散度,注意到这里也只考虑名词,而非名词不参与计算;即图形描述生成器的损失函数包括:标准化交叉熵和KL散度。通过KL散度从融入词性特征的文本图像匹配模式POS-SCAN中提取注意权重αt,对UP-DOWN图像描述模型的注意权重βt进行正则化,使注意力LSTM将生成的单词与注意区域正确关联。
所述损失函数包括交叉熵函数和所述图形描述生成器中所述注意力LSTM模型和所述POS-SCAN模型之间的KL散度,具体包括:
在第一阶段,通常使用最小化标准交叉熵损失的方法训练图像描述生成器。为了使生成描述性单词时注意力LSTM将生成的单词与注意区域正确关联,本方法将从POS-SCAN模型中提取注意权重αt作为真实分布,并提取UP-DOWN图像描述模型的注意权重βt作为模拟分布,将βt拟合αt时产生的信息损耗即KL散度也作为第一阶段熵训练损失函数的一部分,故熵训练阶段的联合损失函数为:
Figure BDA0003650117570000091
其中前一项为标准交叉熵损失,其中θ为网络需要学习的参数,
Figure BDA0003650117570000092
表示生成描述语句的第t个单词,该项的含义是学习最佳的网络参数θ使该网络最大化在给定图像下生成正确的单词的概率。第二项是KL散度损失,其中λ1为超参数,
Figure BDA0003650117570000093
表示当
Figure BDA0003650117570000094
为名词时该公式为1,否则为0。KL(αt||βt)表示αt和βt两个注意力权重分布的信息熵的差值。
步骤3:将所述图像描述生成器进行自序列训练后,将所述多源遥感图像进行区域特征提取,并将区域特征提取结果输入所述图像描述生成器,得到所述图像对应的文字标签。
如图2所示,第二阶段自序列训练阶段的训练框架分为两部分,包括UP-DOWN为基础的生成器模型和相似性评分机制,其中第二阶段自临界序列训练引用了蒙特卡罗目标变分推理基线来提升训练效果。
在第二阶段通过强化学习方法即自临界序列训练进一步训练图像描述生成模型,其学习目的是最小化负目标奖励函数回报,而目标奖励函数由图像文本对象特征相似性评分,图像文本对象关系特征相似性评分和CIDEr评分三部分组成;负目标奖励函数如下:
Figure BDA0003650117570000101
其中r(y1......n)表示当前语句y的目标奖励得分。
按照自临界序列训练(SCST)的策略梯度方法,该损失的近似梯度为:
Figure BDA0003650117570000102
其中y1:n是抽样的一个候选描述语句,而b是一个基线,且必须和y1:n无关,但是该模型忽略了图像与文本中的对象特征对齐对模型性能的影响,因此Zhou等人提出了将SCAN得分作为SCST中目标奖励函数的一部分:
r(y1:n)=CIDEr(y1:n)+λ2SCAN(I,y1:n)#
其中λ2为超参数,SCAN指文本图像匹配模式得分。
但是该目标奖励函数忽略了图像和文本中对象间关系特征相似性,因此本方法进一步包括:
步骤4:将所述区域特征提取结果、所述文字标签及候选语句输入相似性评分模块,得到相似度评分结果,所述相似度评分模块包括:
图像文本对象特征相似性评分,图像文本对象间关系特征相似性评分和基于共识的图像描述评估指标(CIDEr)评分等三个部分。该相似性评分机制的输入为Faster R-CNN提取的图像区域特征、其对应的标签语句{R1,R2,…,R5},候选语句C,输出为相似性评分。
其中,将图像和文本中对象间关系特征的相似性评分作为SCST中目标奖励函数的一部分,并利用注意力融合机制优化过的图像文本对象特征相似性评分机制代替文本图像匹配模式:
r′(y1:n)=CIDEr(y1:n)+λ3So(I,y1:n)+λ4Sr(I,y1:n)#
其中λ3,λ4为超参数,So(I,y1:n)为图像文本对象特征相似性评分,Sr(I,y1:n)为图像文本对象关系特征相似性评分。
(1)图像文本对象特征相似性评分方法
其使用经过注意力融合机制优化的图像文本匹配模式,即图像文本对象特征相似性评分机制作为自临界序列训练中的目标奖励函数的一部分。
如图3所示,对于一个图像I,图像文本对象特征相似性评分机制的输入为FasterR-CNN提取的图像区域特征,图像对应的标签语句{R1,R2,…,R5},候选语句C,输出为图像文本对象特征相似性评分。具体流程如下:
首先对输入的图像区域特征和语句分别进行编码,公式如下:
Figure BDA0003650117570000111
其中W′u和b′u是可训练参数,fi为Faster R-CNN提取的图像区域特征,
Figure BDA0003650117570000112
为图像对象特征。
其次,实现文本语句词嵌入,使用双向GRU(门控循环单元)模型对标签语句{R1,R2,…,R5}和候选语句C中的单词进行词嵌入操作,公式如下:
Figure BDA0003650117570000113
其中We是嵌入矩阵,xk为词语的one-hot编码向量表示。最终该单词的文本对象特征向量表示为
Figure BDA0003650117570000114
为向前隐藏状态
Figure BDA0003650117570000115
和向后隐藏状态
Figure BDA0003650117570000116
的平均值,公式如下:
Figure BDA0003650117570000117
再次,实现图像与文本对象特征注意力融合,流程如图4所示:
为了获得充分的参考信息来反映人类对图像的主要感知,本方法通过注意机制融合图像中的对象特征和标签语句中的文本对象特征。如图4所示,给定一个图像对象特征
Figure BDA0003650117570000121
首先计算出每个标签语句中的所有文本对象特征
Figure BDA0003650117570000122
对其的关注度:
Figure BDA0003650117570000123
Figure BDA0003650117570000124
表示第j个标签语句中的第k个文本对象特征
Figure BDA0003650117570000125
对图像中第i个对象特征
Figure BDA0003650117570000126
的关注度,Wa为可训练参数。
然后计算出所有标签语句在描述图像中任一对象特征
Figure BDA0003650117570000127
所提供的关注信息:
Figure BDA0003650117570000128
Figure BDA0003650117570000129
表示第j个标签语句在描述图像中第i个对象特征
Figure BDA00036501175700001210
时应关注的文本对象特征。
标签语句集合{R1,R2,…,R5}描述图像中对象特征
Figure BDA00036501175700001211
时的关注信息集合为
Figure BDA00036501175700001212
为了充分利用所有标签语句中文本对象特征对于图像文本对象特征相似性计算的作用,利用GRU融合层将关注信息集合中的信息向量融合为关注文本融合信息
Figure BDA00036501175700001213
(描述第i个对象特征
Figure BDA00036501175700001214
时关注的关注文本融合信息),再通过一个全连接层将融合关注文本融合信息和其对应的图像对象特征融合为对象融合特征
Figure BDA00036501175700001215
其中高度包含了图像对象特征信息和其对应的标签语句中文本对象关注度信息。
最后,本方法将描述语句文本对象特征和图像对象特征的全局相似性评分So(I,T)定义为:
Figure BDA00036501175700001216
So(Z,T)为对象融合特征和描述语句文本对象特征的相似性得分,与描述语句文本对象特征和图像对象特征的全局相似性评分So(I,T)一致,
Figure BDA0003650117570000131
为描述语句T中的第k个文本对象特征,
Figure BDA0003650117570000132
表示在描述第i个图像特征时,融合对象特征和其对应的描述语句中的第k个文本对象特征之间的余弦相似性。此相似性评分表示对于描述语句中的每一个文本对象特征
Figure BDA0003650117570000133
都会选取和其相似度最高的融合对象特征来计算两者的余弦相似性,最后将描述语句中的所有文本对象特征与其对应的图像对象特征的余弦相似性得分的平均值作为图像文本对象特征相似性评分。
(2)图像与文本对象关系特征相似性评分
除图像文本对象相似性评分机制和CIDEr评分以外,本方法将图像与文本对象关系特征相似性评分也作为自临界序列训练中的目标奖励函数的一部分。与图像文本对象特征相似性评分机制类似,图像文本对象关系特征相似性评分机制的输入为Faster R-CNN提取的图像区域特征,图像对应的标签语句{R1,R2,…,R5},候选语句C,输出为图像文本对象关系特征相似性评分。其具体流程如图5所示。
首先实现图像对象关系特征提取,在将输入的图像区域特征fi转化为图像对象特征
Figure BDA0003650117570000134
的基础上,利用GCN网络提取图像中对象间关系特征
Figure BDA0003650117570000135
本方法使用的GCN网络是基于空间结构的图卷积网络,对于图像I中的任一目标对象特征
Figure BDA0003650117570000136
其余对象特征对目标对象特征对应的描述语句的生成的影响权重是不同的,因此本方法使用两个识别对象的锚框之间的偏移量作为关注权重,并采用加权平均法更新GCN网络中的节点的特征值,将目标对象
Figure BDA0003650117570000137
和其它任一邻接对象
Figure BDA0003650117570000138
的关系权值γij定义为两者锚框的偏移量和目标对象与其所有邻接对象的锚框的偏移量的和的比值,因此目标对象特征
Figure BDA0003650117570000139
和其所有的邻接节点的对象关系特征
Figure BDA00036501175700001310
为:
Figure BDA0003650117570000141
Figure BDA0003650117570000142
其中Ni表示目标对象的所有邻接对象,Δbik表示目标对象特征
Figure BDA0003650117570000143
与其某一邻接节点
Figure BDA0003650117570000144
的锚框之间的偏移量,W,Wr为可训练参数,tanh为双曲正切函数,用作激活函数。
其次,实现文本对象关系特征提取。文本对象关系特征提取分为提取文本对象关系知识图谱和语义三元组编码两部分。
在文本对象关系知识图谱语义三元组提取过程中,对于给定的标签语句{R1,R2,…,R5}和候选语句C,本方法使用SPICE作为文本图解析器将其解析为文本知识图谱,给定一组对象类Φ,一组关系类γ,一组属性类A,和一个描述语句x,本文将其解析为一个知识图谱:
G(x)=<O(x),E(x),D(x)>
其中
Figure BDA0003650117570000145
是语句x中包含的对象,即知识图谱中的节点,
Figure BDA0003650117570000146
Figure BDA0003650117570000147
是对象之间的关系短语,即知识图谱中的边,
Figure BDA0003650117570000148
是语句中对象相关的属性集。
在语义三元组编码过程中,语义三元组编码将文本关系图中的语义三元组,记作tk,作为输入,然后使用双向GRU对每个三元组进行编码,
Figure BDA0003650117570000149
其中tk表示文本关系图中的第k个语义三元组,
Figure BDA00036501175700001410
为双向GRU的最后一个向后隐藏状态,
Figure BDA00036501175700001411
为双向GRU的最后一个向前隐藏状态。
最后,我们将每个三元组的最后一个向前隐藏状态特征
Figure BDA00036501175700001412
和最后一个向后隐藏状态特征,
Figure BDA00036501175700001413
的平均值作为文本对象间关系特征
Figure BDA00036501175700001414
Figure BDA0003650117570000151
再次,图像文本对象关系特征注意力融合机制与图像文本对象关系特征相似性评分机制类似。本方法通过注意机制融合图像中对象关系特征和标签语句中对象关系特征,如图6所示。
给定一个图像对象关系特征
Figure BDA0003650117570000152
首先计算出每个标签语句中的所有对象关系特征
Figure BDA0003650117570000153
对其的关注度:
Figure BDA0003650117570000154
Figure BDA0003650117570000155
表示第j个标签语句中的第k个文本对象关系特征
Figure BDA0003650117570000156
对图像中第i个对象关系特征
Figure BDA0003650117570000157
的关注度。
然后计算出所有标签语句描述图像中任一对象关系特征
Figure BDA0003650117570000158
时提供的关注信息:
Figure BDA0003650117570000159
Figure BDA00036501175700001510
表示第j个标签语句对于图像中第i个对象关系特征
Figure BDA00036501175700001511
的应关注的文本对象关系特征。
标签语句集合{R1,R2,…,R5}描述图像中对象关系特征
Figure BDA00036501175700001512
时的关注信息集合为
Figure BDA00036501175700001513
为了充分利用所有标签语句中文本对象关系特征对于图像文本对象关系特征相似性计算的作用,本方法利用GRU融合层将对象关系特征关注信息集合中的信息向量融合为关注文本关系融合信息
Figure BDA00036501175700001514
(描述第i个对象关系特征
Figure BDA00036501175700001515
时关注的关注文本关系融合信息),再通过一个全连接层将关注文本关系融合信息
Figure BDA00036501175700001516
和其对应的图像对象关系特征
Figure BDA00036501175700001517
融合为对象关系融合特征
Figure BDA00036501175700001518
其中高度包含了图像对象关系特征信息和其对应的标签语句中文本对象关系特征关注度信息。
最后,描述语句文本对象关系特征和图像对象关系特征的全局相似性评分Sr(I,T)为:
Figure BDA0003650117570000161
Sr(Z,T)为对象关系融合特征和语句文本对象关系特征的相似性得分,与语句文本对象关系特征和图像对象关系特征的全局相似性评分Sr(I,T)一致,
Figure BDA0003650117570000162
是描述语句T中的第k个文本对象关系特征,
Figure BDA0003650117570000163
表示在描述第i个图像特征时,对象关系融合特征和其对应的描述语句中的第k个文本对象关系特征之间的余弦相似性。此相似性评分表示对于描述语句中的每一个文本对象关系特征
Figure BDA0003650117570000164
都会选取和其相似度最高的对象关系融合特征来计算两者的余弦相似性,最后将描述语句中的所有文本对象关系特征与其对应的图像对象关系特征的余弦相似性得分的平均值作为图像文本对象关系特征相似性评分。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
对于本领域技术人员而言,显然本发明实施例不限于上述示范性实施例的细节,而且在不背离本发明实施例的精神或基本特征的情况下,能够以其他的具体形式实现本发明实施例。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明实施例的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明实施例内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统、装置或终端权利要求中陈述的多个单元、模块或装置也可以由同一个单元、模块或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施方式仅用以说明本发明实施例的技术方案而非限制,尽管参照以上较佳实施方式对本发明实施例进行了详细说明,本领域的普通技术人员应当理解,可以对本发明实施例的技术方案进行修改或等同替换都不应脱离本发明实施例的技术方案的精神和范围。

Claims (6)

1.一种基于深度学习与注意力机制的多源遥感图像信息处理方法,其特征在于,包括:
步骤1,构建图像描述生成器,所述图像描述生成器基于自上而下(UP-DOWN)图像描述模型构建而成;
该自上而下(UP-DOWN)图像描述模型包括顺序连接的注意力LSTM模型和语句生成LSTM模型;
步骤2:采用融入词性特征的文本图像匹配的POS-SCAN模型对图形描述生成器进行训练,得到所述图形描述生成器的损失函数;
步骤3:将所述图像描述生成器进行自序列训练后,将所述多源遥感图像进行区域特征提取,并将区域特征提取结果输入所述图像描述生成器,得到所述图像对应的文字标签;
步骤4:将所述区域特征提取结果、所述文字标签及候选语句输入相似性评分模块,得到相似度评分结果,所述相似度评分模块包括:
图像文本对象特征相似性评分,图像文本对象间关系特征相似性评分和基于共识的图像描述评估指标评分等三个部分。
2.根据权利要求1所述的基于深度学习与注意力机制的多源遥感图像信息处理方法,其特征在于:所述步骤2具体包括:所述损失函数包括交叉熵函数和所述图形描述生成器中所述注意力LSTM模型和所述POS-SCAN模型之间的KL散度;所述KL散度的计算过程具体包括:从POS-SCAN模型中提取注意权重α_t作为真实分布,并提取自上而下(UP-DOWN)图像描述模型的注意权重β_t作为模拟分布,将β_t拟合α_t时产生的信息损耗即KL散度。
3.根据权利要求1或2所述的基于深度学习与注意力机制的多源遥感图像信息处理方法,其特征在于:所述步骤3包括:使用Faster R-CNN模型提取的图像区域特征,具体包括:使用具有注意力机制的区域建议网络(RPN)提取候选建议区域;随后基于所述候选建议区域的Faster R-CNN模型的检测器识别目标。
4.根据权利要求1-3任意一项所述的基于深度学习与注意力机制的多源遥感图像信息处理方法,其特征在于:所述步骤4中图像文本对象特征相似性评分,其是将图像与文本对象特征进行注意力融合,计算图像文本对象特征相似性评分,具体包括:对输入的图像区域特征进行编码,得到图像区域特征的图像对象特征;对文字标签及候选语句中的语句进行编码,使用双向门控循环单元(GRU)模型对标签语句和候选语句中的单词进行词嵌入操作;
对于每个所述图像对象特征,计算出每个标签语句中的所有文本对象特征对其的关注度;计算出所有标签语句在描述图像中任一对象特征所提供的关注信息;利用双向门控循环单元(GRU)模型中的融合层将关注信息集合中的信息向量融合为关注文本融合信息;再通过一个全连接层将融合关注文本融合信息和其对应的图像对象特征融合为对象融合特征;
对于描述语句中的每一个文本对象特征,选取和其相似度最高的融合对象特征来计算两者的余弦相似性,将描述语句中的所有文本对象特征与其对应的图像对象特征的余弦相似性得分的平均值作为图像文本对象特征相似性评分。
5.根据权利要求1-3任意一项所述的基于深度学习与注意力机制的多源遥感图像信息处理方法,其特征在于:所述步骤4中图像文本对象间关系特征相似性评分,是将图像与文本对象关系特征相似性评分作为自临界序列训练中的目标奖励函数的一部分,具体包括:
对输入的图像区域特征进行编码,得到图像区域特征的图像对象特征;
对于图像中的任一图像对象特征,基于空间结构的图卷积网络(GCN)提取图像中对象间关系特征;对所述文字标签及候选语句进行文本对象关系提取,其中通过文本图解析器建立文本对象关系知识图谱;并建立语义三元组;利用双向门控循环单元(GRU)模型对每个语义三元组进行编码,并计算文本对象间关系特征;
对于图像对象关系特征,首先计算出每个标签语句中的所有对象关系特征对其的关注度;计算出所有标签语句描述图像中任一对象关系特征时提供的关注信息;利用双向门控循环单元(GRU)模型中的融合层将对象关系特征关注信息集合中的信息向量融合为关注文本关系融合信息;通过一个全连接层将关注文本关系融合信息和其对应的图像对象关系特征融合为对象关系融合特征;
对于描述语句中的每一个文本对象关系特征,选取和其相似度最高的对象关系融合特征来计算两者的余弦相似性;将描述语句中的所有文本对象关系特征与其对应的图像对象关系特征的余弦相似性得分的平均值作为图像文本对象间关系特征相似性评分。
6.根据权利要求1所述的基于深度学习与注意力机制的多源遥感图像信息处理方法,其特征在于:所述步骤3具体包括:将所述图像描述生成器进行自序列训练时,将每一个标题采样获取描述语句时,将剩余样本平均得分的新基线来进行自临界序列训练。
CN202210547679.0A 2022-05-18 2022-05-18 基于深度学习与注意力机制的多源遥感图像信息处理方法 Active CN114882488B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210547679.0A CN114882488B (zh) 2022-05-18 2022-05-18 基于深度学习与注意力机制的多源遥感图像信息处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210547679.0A CN114882488B (zh) 2022-05-18 2022-05-18 基于深度学习与注意力机制的多源遥感图像信息处理方法

Publications (2)

Publication Number Publication Date
CN114882488A true CN114882488A (zh) 2022-08-09
CN114882488B CN114882488B (zh) 2024-06-28

Family

ID=82677196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210547679.0A Active CN114882488B (zh) 2022-05-18 2022-05-18 基于深度学习与注意力机制的多源遥感图像信息处理方法

Country Status (1)

Country Link
CN (1) CN114882488B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116958706A (zh) * 2023-08-11 2023-10-27 中国矿业大学 基于词性标注的图像多样化描述可控生成方法
CN117152618A (zh) * 2023-10-16 2023-12-01 北京邮电大学 遥感图像中时敏目标变化检测方法及装置
CN118212231A (zh) * 2024-05-17 2024-06-18 荣耀终端有限公司 图像处理方法及相关设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180204111A1 (en) * 2013-02-28 2018-07-19 Z Advanced Computing, Inc. System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform
CN110073301A (zh) * 2017-08-02 2019-07-30 强力物联网投资组合2016有限公司 工业物联网中具有大数据集的数据收集环境下的检测方法和系统
CN110674850A (zh) * 2019-09-03 2020-01-10 武汉大学 一种基于注意力机制的图像描述生成方法
CN111832501A (zh) * 2020-07-20 2020-10-27 中国人民解放军战略支援部队航天工程大学 一种面向卫星在轨应用的遥感影像文本智能描述方法
GB202106229D0 (en) * 2020-04-30 2021-06-16 Nvidia Corp Content management using one or more neural networks
WO2021223323A1 (zh) * 2020-05-06 2021-11-11 首都师范大学 一种中文视觉词汇表构建的图像内容自动描述方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180204111A1 (en) * 2013-02-28 2018-07-19 Z Advanced Computing, Inc. System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform
CN110073301A (zh) * 2017-08-02 2019-07-30 强力物联网投资组合2016有限公司 工业物联网中具有大数据集的数据收集环境下的检测方法和系统
CN110674850A (zh) * 2019-09-03 2020-01-10 武汉大学 一种基于注意力机制的图像描述生成方法
GB202106229D0 (en) * 2020-04-30 2021-06-16 Nvidia Corp Content management using one or more neural networks
WO2021223323A1 (zh) * 2020-05-06 2021-11-11 首都师范大学 一种中文视觉词汇表构建的图像内容自动描述方法
CN111832501A (zh) * 2020-07-20 2020-10-27 中国人民解放军战略支援部队航天工程大学 一种面向卫星在轨应用的遥感影像文本智能描述方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116958706A (zh) * 2023-08-11 2023-10-27 中国矿业大学 基于词性标注的图像多样化描述可控生成方法
CN116958706B (zh) * 2023-08-11 2024-05-14 中国矿业大学 基于词性标注的图像多样化描述可控生成方法
CN117152618A (zh) * 2023-10-16 2023-12-01 北京邮电大学 遥感图像中时敏目标变化检测方法及装置
CN118212231A (zh) * 2024-05-17 2024-06-18 荣耀终端有限公司 图像处理方法及相关设备
CN118212231B (zh) * 2024-05-17 2024-09-03 荣耀终端有限公司 图像处理方法及相关设备

Also Published As

Publication number Publication date
CN114882488B (zh) 2024-06-28

Similar Documents

Publication Publication Date Title
CN110110585B (zh) 基于深度学习的智能阅卷实现方法及系统、计算机程序
CN114882488B (zh) 基于深度学习与注意力机制的多源遥感图像信息处理方法
CN108416065A (zh) 基于层级神经网络的图像-句子描述生成系统及方法
CN113204675B (zh) 一种基于跨模态物体推理网络的跨模态视频时刻检索方法
CN113780059B (zh) 一种基于多特征点的连续手语识别方法
CN110991515B (zh) 一种融合视觉上下文的图像描述方法
CN114492441A (zh) 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法
CN114417851B (zh) 一种基于关键词加权信息的情感分析方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN113449801A (zh) 一种基于多级图像上下文编解码的图像人物行为描述生成方法
CN115545021A (zh) 一种基于深度学习的临床术语识别方法与装置
CN111242059B (zh) 基于递归记忆网络的无监督图像描述模型的生成方法
Khan et al. A deep neural framework for image caption generation using gru-based attention mechanism
CN116402066A (zh) 多网络特征融合的属性级文本情感联合抽取方法及系统
CN115311465A (zh) 一种基于双注意力模型的图像描述方法
CN115223021A (zh) 一种基于视觉问答的果树全生长期农事作业决策方法
CN116452688A (zh) 一种基于共同注意力机制的图像描述生成方法
CN114564768A (zh) 一种基于深度学习的端到端智能平面设计方法
CN112836062A (zh) 一种文本语料库的关系抽取方法
Mars et al. Combination of DE-GAN with CNN-LSTM for Arabic OCR on Images with Colorful Backgrounds
CN116151226B (zh) 一种基于机器学习的聋哑人手语纠错方法、设备和介质
Lin Research on the Teaching Method of College Students’ Education Based on Visual Question Answering Technology
CN114692615B (zh) 一种针对小语种的小样本意图识别方法
CN113192030B (zh) 一种遥感图像描述生成方法及系统
CN112200268A (zh) 一种基于编码器-解码器框架的图像描述方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant