CN114882488A - 基于深度学习与注意力机制的多源遥感图像信息处理方法 - Google Patents
基于深度学习与注意力机制的多源遥感图像信息处理方法 Download PDFInfo
- Publication number
- CN114882488A CN114882488A CN202210547679.0A CN202210547679A CN114882488A CN 114882488 A CN114882488 A CN 114882488A CN 202210547679 A CN202210547679 A CN 202210547679A CN 114882488 A CN114882488 A CN 114882488A
- Authority
- CN
- China
- Prior art keywords
- image
- text
- attention
- feature
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 35
- 238000013135 deep learning Methods 0.000 title claims abstract description 15
- 230000010365 information processing Effects 0.000 title claims abstract description 11
- 238000003672 processing method Methods 0.000 title claims abstract description 11
- 230000006870 function Effects 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 230000004927 fusion Effects 0.000 claims description 46
- 238000000034 method Methods 0.000 claims description 35
- 239000013598 vector Substances 0.000 claims description 12
- 230000002457 bidirectional effect Effects 0.000 claims description 10
- 238000009826 distribution Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000002787 reinforcement Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 235000019987 cider Nutrition 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000288105 Grus Species 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 235000013599 spices Nutrition 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
- G06V30/18019—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
- G06V30/18038—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
- G06V30/18048—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
- G06V30/18057—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
- G06V30/19093—Proximity measures, i.e. similarity or distance measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种基于深度学习与注意力机制的多源遥感图像信息处理方法,包括:步骤1,构建图像描述生成器,所述图像描述生成器基于自上而下图像描述模型构建而成;该自上而下图像描述模型包括顺序连接的注意力LSTM模型和语句生成LSTM模型;步骤2:采用融入词性特征的文本图像匹配的POS‑SCAN模型对图形描述生成器进行训练,得到所述图形描述生成器的损失函数;步骤3:将所述图像描述生成器进行自序列训练后,将所述多源遥感图像进行区域特征提取,并将区域特征提取结果输入所述图像描述生成器,得到所述图像对应的文字标签;步骤4:将所述区域特征提取结果、所述文字标签及候选语句输入相似性评分模块,得到相似度评分结果。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于深度学习与注意力机制的多源遥感图像信息处理方法。
背景技术
从遥感图像中提取文字信息属于一种典型的场景理解技术,在提取图像中视觉特征、空间特征、语义特征的基础上,利用自然语言生成流畅而有意义的描述来概括图像的内容。目前,实现遥感图像信息提取任务的方法分为传统图像描述方法和基于深度学习的图像描述方法。
传统图像描述算法分为基于模板的方法和基于检索的方法。基于模板的方法首先通过Faster-RCNN等图像识别算法检测出图像中的目标,并通过特定的语句模板或者语法规则连接这些目标并生成描述性语句。而基于检索的方法则是在预先定义的语句集中检索出与给定的输入图像相似度最大的一个语句或者一组语句来描述图像。
深度学习的突破导致了人工智能和机器学习的范式转变,并在包括图像描述在内的计算机视觉领域取得了巨大成功。而应用注意力机制、图卷积神经网络以及强化学习等方法能够有效提高基于深度学习的图像描述算法的性能。因为CNN(卷积神经网络)在计算机视觉领域的广泛应用和RNN(循环神经网络)在机器翻译领域的成功,CNN+RNN的编码-解码模型在图像描述领域被广泛研究,解决了图像描述中的跨模态交互问题,但是该模型在处理长序列数据时存在梯度消失的问题。而基于LSTM(长短期记忆网络)的UP-DOWN模型可以利用门控机制增添删除信息,将特征信息有选择性的传递下去,适合处理长序列数据,被广泛应用于图像描述领域。由于注意力机制可以关注重要信息,忽略次要信息,因此被广泛应用于图像描述模型的解码阶段,帮助解码器有选择的关注图像中的语义特征。但是多数引入注意力机制的图像描述模型使用交叉熵损失函数进行训练,而利用交叉熵函数训练存在以下问题:模型训练和测试阶段存在曝光误差,交叉熵损失函数无法直接对不可微分的评价标准进行微分运算。为解决这一弊端,有研究者提出了利用强化学习来直接优化不可微分的评价标准。但是,这些方法都只关注于图像对象和文本对象特征和客观性评分,未能考虑特征之间的联系。而图神经网络能够有效获取图像中目标对象间的关系特征,构建出更丰富的图像语义特征,使图像描述模型生成的语句更具充分性和多样性。
发明内容
有鉴于此,本发明提供了一种基于深度学习与注意力机制的多源遥感图像信息处理方法,包括:
步骤1,构建图像描述生成器,所述图像描述生成器基于自上而下(UP-DOWN)图像描述模型构建而成;
该自上而下(UP-DOWN)图像描述模型包括顺序连接的注意力LSTM模型和语句生成LSTM模型;
步骤2:采用融入词性特征的文本图像匹配的POS-SCAN模型对图形描述生成器进行训练,得到所述图形描述生成器的损失函数;
步骤3:将所述图像描述生成器进行自序列训练后,将所述多源遥感图像进行区域特征提取,并将区域特征提取结果输入所述图像描述生成器,得到所述图像对应的文字标签;
步骤4:将所述区域特征提取结果、所述文字标签及候选语句输入相似性评分模块,得到相似度评分结果,所述相似度评分模块包括:
图像文本对象特征相似性评分,图像文本对象间关系特征相似性评分和基于共识的图像描述评估指标评分等三个部分。
特别地,所述步骤2具体包括:所述损失函数包括交叉熵函数和所述图形描述生成器中所述注意力LSTM模型和所述POS-SCAN模型之间的KL散度;所述KL散度的计算过程具体包括:从POS-SCAN模型中提取注意权重αt作为真实分布,并提取自上而下(UP-DOWN)图像描述模型的注意权重βt作为模拟分布,将βt拟合αt时产生的信息损耗即KL散度。
特别地,所述步骤3包括:使用Faster R-CNN模型提取的图像区域特征,具体包括:使用具有注意力机制的区域建议网络(RPN)提取候选建议区域;随后基于所述候选建议区域的Faster R-CNN模型的检测器识别目标。
特别地,所述步骤4中图像文本对象特征相似性评分,其是将图像与文本对象特征进行注意力融合,计算图像文本对象特征相似性评分,具体包括:对输入的图像区域特征进行编码,得到图像区域特征的图像对象特征;对文字标签及候选语句中的语句进行编码,使用双向门控循环单元(GRU)模型对标签语句和候选语句中的单词进行词嵌入操作;
对于每个所述图像对象特征,计算出每个标签语句中的所有文本对象特征对其的关注度;计算出所有标签语句在描述图像中任一对象特征所提供的关注信息;利用双向门控循环单元(GRU)模型中的融合层将关注信息集合中的信息向量融合为关注文本融合信息;再通过一个全连接层将融合关注文本融合信息和其对应的图像对象特征融合为对象融合特征;
对于描述语句中的每一个文本对象特征,选取和其相似度最高的融合对象特征来计算两者的余弦相似性,将描述语句中的所有文本对象特征与其对应的图像对象特征的余弦相似性得分的平均值作为图像文本对象特征相似性评分。
特别地,所述步骤4中图像文本对象间关系特征相似性评分,是将图像与文本对象关系特征相似性评分作为自临界序列训练中的目标奖励函数的一部分,具体包括:
对输入的图像区域特征进行编码,得到图像区域特征的图像对象特征;
对于图像中的任一图像对象特征,基于空间结构的图卷积网络(GCN)提取图像中对象间关系特征;对所述文字标签及候选语句进行文本对象关系提取,其中通过文本图解析器建立文本对象关系知识图谱;并建立语义三元组;利用双向门控循环单元(GRU)模型对每个语义三元组进行编码,并计算文本对象间关系特征;
对于图像对象关系特征,首先计算出每个标签语句中的所有对象关系特征对其的关注度;计算出所有标签语句描述图像中任一对象关系特征时提供的关注信息;利用双向门控循环单元(GRU)模型中的融合层将对象关系特征关注信息集合中的信息向量融合为关注文本关系融合信息;通过一个全连接层将关注文本关系融合信息和其对应的图像对象关系特征融合为对象关系融合特征;对于描述语句中的每一个文本对象关系特征,选取和其相似度最高的对象关系融合特征来计算两者的余弦相似性;将描述语句中的所有文本对象关系特征与其对应的图像对象关系特征的余弦相似性得分的平均值作为图像文本对象间关系特征相似性评分。
特别地,所述步骤3具体包括:将所述图像描述生成器进行自序列训练时,将每一个标题采样获取描述语句时,将剩余样本平均得分的新基线来进行自临界序列训练。
有益效果:
1、本发明将图像识别的技术应用在遥感数据的图像处理过程中,增加了遥感数据图像处理的速度和精确性;
2、本发明引入图像文本对象间关系特征相似性评分作为自临界训练目标得分函数的一部分,解决图像描述模型对图像中对象关系描述不充分的弊端;
3、本发明将标签文本对象特征融入到图像文本对象特征相似性评分机制;
4、本发明引入一种除取样样本外剩余样本平均得分的新基线来进行自临界序列训练来提升自临界序列训练的有效性。
附图说明
图1为图像描述生成器的工作流程示意图;
图2为自序列训练阶段的训练框架的工作流程示意图;
图3为图像文本对象特征相似性评分的工作流程示意图;
图4为图像文本对象特征相似性评分中图像与文本对象特征注意力融合的工作流程示意图;
图5为图像文本对象关系特征相似性评分的工作流程示意图;
图6为图像文本对象关系特征相似性评分中图像与文本对象关系特征注意力融合的工作流程示意图。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
本发明为了解决多源遥感图像数据到文本信息的自动提取的问题,提出了一种基于深度学习与注意力机制的多源遥感图像信息融合提取方法。
步骤1,构建图像描述生成器,所述图像描述生成器基于自上而下(UP-DOWN)图像描述模型构建而成;该自上而下(UP-DOWN)图像描述模型包括顺序连接的注意力LSTM模型和语句生成LSTM模型;
如图1所示,第一阶段以UP-DOWN模型为图像描述生成器,该生成器包括一个注意力LSTM和语句生成LSTM,输入为使用Faster R-CNN方法提取的图像特征,输出为图像描述语句。
本方法中采用的UP-DOWN图像描述生成器模型,主要由两个LSTM模型组成,第一层注意力LSTM利用注意力机制引导在生成单词时关注正确的图像区域,第二层语句生成LSTM根据注意力LSTM生成注意力权重向量和当前时间节点生成单词的上下文特征值生成图像特征对应的单词。
其中Wu和bu是可训练参数。
βt=softmax(zt)#
其中y1…t-1表示(y1,y2,y3,…,yt-1)3,p(yt|y1…t-1)表示在已经生成前t-1个单词的条件下第t个时间节点可能生成的单词的分布情况,为t时间节点语句生成LSTM的隐藏变量输出,而Wo和bo是可训练的权重矩阵和偏移值。
Faster R-CNN模型提取图像特征分为两个阶段,第一阶段使用具有注意力机制的区域建议网络(RPN)提出候选建议区域,第二阶段使用基于区域建议的Faster R-CNN检测器识别目标。
第一阶段区域建议网络将任意大小的图像作为输入并输出一组矩形的候选建议区域及建议分数。为了生成候选建议区域,该模型使用一个滑动窗口在CNN网络最后一层输出的特征图上滑动,并在每一个空间位置预测出多个大小候选建议区域框,并利用回归层计算这些框是对象或者非对象的概率。在训练RPN网络时计算一个锚框与真实的锚框之间的交并比(IoU),将与其中一个真实锚框具有最高的交并比的锚框和与任意真实锚框的交并比都在0.7以上的锚框视为正样本,将与所有真实锚框的交并比都小于0.3的锚框视为负样本。
第二阶段将第一阶段输出的候选建议区域作为输入,并在每一个候选建议区域提取一个特征图,然后将这些特征图作为CNN网络最后一层的输入,该模型的最后输出为每一个图像特征的类标签的softmax分布和图像区域特征fi,其中图像区域特征包括2048维的特征向量序列和4维的边界框坐标。
本方法利用Faster R-CNN提取图像特征,对于给定的图像I,获取其k个图像区域特征F={f1,f2,f3,…,fk}作为UP-DOWN图像描述模型的输入。
步骤2:采用融入词性特征的文本图像匹配的POS-SCAN模型对图形描述生成器进行训练,得到所述图形描述生成器的损失函数;
本发明中训练中得到图形描述器的损失函数前,首先需要对预训练模型,即POS-SCAN模型的损失函数进行训练;在数据集上预训练POS-SCAN模型,然后固定其参数不变。
本方法中的融合词性特征的文本图像匹配模式POS-SCAN、图像文本对象特征相似性评分器和图像文本对象间关系特征相似性评分器均采用三元组损失进行训练,公式如下:
l*泛指lpos,lo,lr,S*则分别对应融入词性特征的文本图像匹配模式评分Spos,图像文本对象特征相似性评分So,图像文本对象关系特征相似性评分Sr。该三元组损失函数由两个对称项组成,第一项表示对于给定图像I,统计所有非正确描述语句的损失,S*(I,T)表示当前候选图像与其对应的标签语句的得分,表示当前候选语句和非其对象标签语句的得分。第二项表示对于给定的图像描述语句T,统计所有非正确的图像的损失,表示当前标签语句和非其对应的候选图像的得分。m为边缘系数,[*]+等价于max(*,0)。可以看出当给出图像及其标签语句的情况下可以获得更高的分数。
随后,在POS-SCAN模型的监督下训练UP-DOWN模型,具体做法是,在计算损失函数时除了优化交叉熵cross-entropy,还需优化所述图形描述生成器中所述注意力LSTM模型和所述POS-SCAN模型之间的KL散度,注意到这里也只考虑名词,而非名词不参与计算;即图形描述生成器的损失函数包括:标准化交叉熵和KL散度。通过KL散度从融入词性特征的文本图像匹配模式POS-SCAN中提取注意权重αt,对UP-DOWN图像描述模型的注意权重βt进行正则化,使注意力LSTM将生成的单词与注意区域正确关联。
所述损失函数包括交叉熵函数和所述图形描述生成器中所述注意力LSTM模型和所述POS-SCAN模型之间的KL散度,具体包括:
在第一阶段,通常使用最小化标准交叉熵损失的方法训练图像描述生成器。为了使生成描述性单词时注意力LSTM将生成的单词与注意区域正确关联,本方法将从POS-SCAN模型中提取注意权重αt作为真实分布,并提取UP-DOWN图像描述模型的注意权重βt作为模拟分布,将βt拟合αt时产生的信息损耗即KL散度也作为第一阶段熵训练损失函数的一部分,故熵训练阶段的联合损失函数为:
其中前一项为标准交叉熵损失,其中θ为网络需要学习的参数,表示生成描述语句的第t个单词,该项的含义是学习最佳的网络参数θ使该网络最大化在给定图像下生成正确的单词的概率。第二项是KL散度损失,其中λ1为超参数,表示当为名词时该公式为1,否则为0。KL(αt||βt)表示αt和βt两个注意力权重分布的信息熵的差值。
步骤3:将所述图像描述生成器进行自序列训练后,将所述多源遥感图像进行区域特征提取,并将区域特征提取结果输入所述图像描述生成器,得到所述图像对应的文字标签。
如图2所示,第二阶段自序列训练阶段的训练框架分为两部分,包括UP-DOWN为基础的生成器模型和相似性评分机制,其中第二阶段自临界序列训练引用了蒙特卡罗目标变分推理基线来提升训练效果。
在第二阶段通过强化学习方法即自临界序列训练进一步训练图像描述生成模型,其学习目的是最小化负目标奖励函数回报,而目标奖励函数由图像文本对象特征相似性评分,图像文本对象关系特征相似性评分和CIDEr评分三部分组成;负目标奖励函数如下:
其中r(y1......n)表示当前语句y的目标奖励得分。
按照自临界序列训练(SCST)的策略梯度方法,该损失的近似梯度为:
其中y1:n是抽样的一个候选描述语句,而b是一个基线,且必须和y1:n无关,但是该模型忽略了图像与文本中的对象特征对齐对模型性能的影响,因此Zhou等人提出了将SCAN得分作为SCST中目标奖励函数的一部分:
r(y1:n)=CIDEr(y1:n)+λ2SCAN(I,y1:n)#
其中λ2为超参数,SCAN指文本图像匹配模式得分。
但是该目标奖励函数忽略了图像和文本中对象间关系特征相似性,因此本方法进一步包括:
步骤4:将所述区域特征提取结果、所述文字标签及候选语句输入相似性评分模块,得到相似度评分结果,所述相似度评分模块包括:
图像文本对象特征相似性评分,图像文本对象间关系特征相似性评分和基于共识的图像描述评估指标(CIDEr)评分等三个部分。该相似性评分机制的输入为Faster R-CNN提取的图像区域特征、其对应的标签语句{R1,R2,…,R5},候选语句C,输出为相似性评分。
其中,将图像和文本中对象间关系特征的相似性评分作为SCST中目标奖励函数的一部分,并利用注意力融合机制优化过的图像文本对象特征相似性评分机制代替文本图像匹配模式:
r′(y1:n)=CIDEr(y1:n)+λ3So(I,y1:n)+λ4Sr(I,y1:n)#
其中λ3,λ4为超参数,So(I,y1:n)为图像文本对象特征相似性评分,Sr(I,y1:n)为图像文本对象关系特征相似性评分。
(1)图像文本对象特征相似性评分方法
其使用经过注意力融合机制优化的图像文本匹配模式,即图像文本对象特征相似性评分机制作为自临界序列训练中的目标奖励函数的一部分。
如图3所示,对于一个图像I,图像文本对象特征相似性评分机制的输入为FasterR-CNN提取的图像区域特征,图像对应的标签语句{R1,R2,…,R5},候选语句C,输出为图像文本对象特征相似性评分。具体流程如下:
首先对输入的图像区域特征和语句分别进行编码,公式如下:
其次,实现文本语句词嵌入,使用双向GRU(门控循环单元)模型对标签语句{R1,R2,…,R5}和候选语句C中的单词进行词嵌入操作,公式如下:
再次,实现图像与文本对象特征注意力融合,流程如图4所示:
为了获得充分的参考信息来反映人类对图像的主要感知,本方法通过注意机制融合图像中的对象特征和标签语句中的文本对象特征。如图4所示,给定一个图像对象特征首先计算出每个标签语句中的所有文本对象特征对其的关注度:
标签语句集合{R1,R2,…,R5}描述图像中对象特征时的关注信息集合为为了充分利用所有标签语句中文本对象特征对于图像文本对象特征相似性计算的作用,利用GRU融合层将关注信息集合中的信息向量融合为关注文本融合信息(描述第i个对象特征时关注的关注文本融合信息),再通过一个全连接层将融合关注文本融合信息和其对应的图像对象特征融合为对象融合特征其中高度包含了图像对象特征信息和其对应的标签语句中文本对象关注度信息。
最后,本方法将描述语句文本对象特征和图像对象特征的全局相似性评分So(I,T)定义为:
So(Z,T)为对象融合特征和描述语句文本对象特征的相似性得分,与描述语句文本对象特征和图像对象特征的全局相似性评分So(I,T)一致,为描述语句T中的第k个文本对象特征,表示在描述第i个图像特征时,融合对象特征和其对应的描述语句中的第k个文本对象特征之间的余弦相似性。此相似性评分表示对于描述语句中的每一个文本对象特征都会选取和其相似度最高的融合对象特征来计算两者的余弦相似性,最后将描述语句中的所有文本对象特征与其对应的图像对象特征的余弦相似性得分的平均值作为图像文本对象特征相似性评分。
(2)图像与文本对象关系特征相似性评分
除图像文本对象相似性评分机制和CIDEr评分以外,本方法将图像与文本对象关系特征相似性评分也作为自临界序列训练中的目标奖励函数的一部分。与图像文本对象特征相似性评分机制类似,图像文本对象关系特征相似性评分机制的输入为Faster R-CNN提取的图像区域特征,图像对应的标签语句{R1,R2,…,R5},候选语句C,输出为图像文本对象关系特征相似性评分。其具体流程如图5所示。
本方法使用的GCN网络是基于空间结构的图卷积网络,对于图像I中的任一目标对象特征其余对象特征对目标对象特征对应的描述语句的生成的影响权重是不同的,因此本方法使用两个识别对象的锚框之间的偏移量作为关注权重,并采用加权平均法更新GCN网络中的节点的特征值,将目标对象和其它任一邻接对象的关系权值γij定义为两者锚框的偏移量和目标对象与其所有邻接对象的锚框的偏移量的和的比值,因此目标对象特征和其所有的邻接节点的对象关系特征为:
其次,实现文本对象关系特征提取。文本对象关系特征提取分为提取文本对象关系知识图谱和语义三元组编码两部分。
在文本对象关系知识图谱语义三元组提取过程中,对于给定的标签语句{R1,R2,…,R5}和候选语句C,本方法使用SPICE作为文本图解析器将其解析为文本知识图谱,给定一组对象类Φ,一组关系类γ,一组属性类A,和一个描述语句x,本文将其解析为一个知识图谱:
G(x)=<O(x),E(x),D(x)>
在语义三元组编码过程中,语义三元组编码将文本关系图中的语义三元组,记作tk,作为输入,然后使用双向GRU对每个三元组进行编码,
再次,图像文本对象关系特征注意力融合机制与图像文本对象关系特征相似性评分机制类似。本方法通过注意机制融合图像中对象关系特征和标签语句中对象关系特征,如图6所示。
标签语句集合{R1,R2,…,R5}描述图像中对象关系特征时的关注信息集合为为了充分利用所有标签语句中文本对象关系特征对于图像文本对象关系特征相似性计算的作用,本方法利用GRU融合层将对象关系特征关注信息集合中的信息向量融合为关注文本关系融合信息(描述第i个对象关系特征时关注的关注文本关系融合信息),再通过一个全连接层将关注文本关系融合信息和其对应的图像对象关系特征融合为对象关系融合特征其中高度包含了图像对象关系特征信息和其对应的标签语句中文本对象关系特征关注度信息。
最后,描述语句文本对象关系特征和图像对象关系特征的全局相似性评分Sr(I,T)为:
Sr(Z,T)为对象关系融合特征和语句文本对象关系特征的相似性得分,与语句文本对象关系特征和图像对象关系特征的全局相似性评分Sr(I,T)一致,是描述语句T中的第k个文本对象关系特征,表示在描述第i个图像特征时,对象关系融合特征和其对应的描述语句中的第k个文本对象关系特征之间的余弦相似性。此相似性评分表示对于描述语句中的每一个文本对象关系特征都会选取和其相似度最高的对象关系融合特征来计算两者的余弦相似性,最后将描述语句中的所有文本对象关系特征与其对应的图像对象关系特征的余弦相似性得分的平均值作为图像文本对象关系特征相似性评分。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
对于本领域技术人员而言,显然本发明实施例不限于上述示范性实施例的细节,而且在不背离本发明实施例的精神或基本特征的情况下,能够以其他的具体形式实现本发明实施例。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明实施例的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明实施例内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统、装置或终端权利要求中陈述的多个单元、模块或装置也可以由同一个单元、模块或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施方式仅用以说明本发明实施例的技术方案而非限制,尽管参照以上较佳实施方式对本发明实施例进行了详细说明,本领域的普通技术人员应当理解,可以对本发明实施例的技术方案进行修改或等同替换都不应脱离本发明实施例的技术方案的精神和范围。
Claims (6)
1.一种基于深度学习与注意力机制的多源遥感图像信息处理方法,其特征在于,包括:
步骤1,构建图像描述生成器,所述图像描述生成器基于自上而下(UP-DOWN)图像描述模型构建而成;
该自上而下(UP-DOWN)图像描述模型包括顺序连接的注意力LSTM模型和语句生成LSTM模型;
步骤2:采用融入词性特征的文本图像匹配的POS-SCAN模型对图形描述生成器进行训练,得到所述图形描述生成器的损失函数;
步骤3:将所述图像描述生成器进行自序列训练后,将所述多源遥感图像进行区域特征提取,并将区域特征提取结果输入所述图像描述生成器,得到所述图像对应的文字标签;
步骤4:将所述区域特征提取结果、所述文字标签及候选语句输入相似性评分模块,得到相似度评分结果,所述相似度评分模块包括:
图像文本对象特征相似性评分,图像文本对象间关系特征相似性评分和基于共识的图像描述评估指标评分等三个部分。
2.根据权利要求1所述的基于深度学习与注意力机制的多源遥感图像信息处理方法,其特征在于:所述步骤2具体包括:所述损失函数包括交叉熵函数和所述图形描述生成器中所述注意力LSTM模型和所述POS-SCAN模型之间的KL散度;所述KL散度的计算过程具体包括:从POS-SCAN模型中提取注意权重α_t作为真实分布,并提取自上而下(UP-DOWN)图像描述模型的注意权重β_t作为模拟分布,将β_t拟合α_t时产生的信息损耗即KL散度。
3.根据权利要求1或2所述的基于深度学习与注意力机制的多源遥感图像信息处理方法,其特征在于:所述步骤3包括:使用Faster R-CNN模型提取的图像区域特征,具体包括:使用具有注意力机制的区域建议网络(RPN)提取候选建议区域;随后基于所述候选建议区域的Faster R-CNN模型的检测器识别目标。
4.根据权利要求1-3任意一项所述的基于深度学习与注意力机制的多源遥感图像信息处理方法,其特征在于:所述步骤4中图像文本对象特征相似性评分,其是将图像与文本对象特征进行注意力融合,计算图像文本对象特征相似性评分,具体包括:对输入的图像区域特征进行编码,得到图像区域特征的图像对象特征;对文字标签及候选语句中的语句进行编码,使用双向门控循环单元(GRU)模型对标签语句和候选语句中的单词进行词嵌入操作;
对于每个所述图像对象特征,计算出每个标签语句中的所有文本对象特征对其的关注度;计算出所有标签语句在描述图像中任一对象特征所提供的关注信息;利用双向门控循环单元(GRU)模型中的融合层将关注信息集合中的信息向量融合为关注文本融合信息;再通过一个全连接层将融合关注文本融合信息和其对应的图像对象特征融合为对象融合特征;
对于描述语句中的每一个文本对象特征,选取和其相似度最高的融合对象特征来计算两者的余弦相似性,将描述语句中的所有文本对象特征与其对应的图像对象特征的余弦相似性得分的平均值作为图像文本对象特征相似性评分。
5.根据权利要求1-3任意一项所述的基于深度学习与注意力机制的多源遥感图像信息处理方法,其特征在于:所述步骤4中图像文本对象间关系特征相似性评分,是将图像与文本对象关系特征相似性评分作为自临界序列训练中的目标奖励函数的一部分,具体包括:
对输入的图像区域特征进行编码,得到图像区域特征的图像对象特征;
对于图像中的任一图像对象特征,基于空间结构的图卷积网络(GCN)提取图像中对象间关系特征;对所述文字标签及候选语句进行文本对象关系提取,其中通过文本图解析器建立文本对象关系知识图谱;并建立语义三元组;利用双向门控循环单元(GRU)模型对每个语义三元组进行编码,并计算文本对象间关系特征;
对于图像对象关系特征,首先计算出每个标签语句中的所有对象关系特征对其的关注度;计算出所有标签语句描述图像中任一对象关系特征时提供的关注信息;利用双向门控循环单元(GRU)模型中的融合层将对象关系特征关注信息集合中的信息向量融合为关注文本关系融合信息;通过一个全连接层将关注文本关系融合信息和其对应的图像对象关系特征融合为对象关系融合特征;
对于描述语句中的每一个文本对象关系特征,选取和其相似度最高的对象关系融合特征来计算两者的余弦相似性;将描述语句中的所有文本对象关系特征与其对应的图像对象关系特征的余弦相似性得分的平均值作为图像文本对象间关系特征相似性评分。
6.根据权利要求1所述的基于深度学习与注意力机制的多源遥感图像信息处理方法,其特征在于:所述步骤3具体包括:将所述图像描述生成器进行自序列训练时,将每一个标题采样获取描述语句时,将剩余样本平均得分的新基线来进行自临界序列训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210547679.0A CN114882488B (zh) | 2022-05-18 | 2022-05-18 | 基于深度学习与注意力机制的多源遥感图像信息处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210547679.0A CN114882488B (zh) | 2022-05-18 | 2022-05-18 | 基于深度学习与注意力机制的多源遥感图像信息处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114882488A true CN114882488A (zh) | 2022-08-09 |
CN114882488B CN114882488B (zh) | 2024-06-28 |
Family
ID=82677196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210547679.0A Active CN114882488B (zh) | 2022-05-18 | 2022-05-18 | 基于深度学习与注意力机制的多源遥感图像信息处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114882488B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116958706A (zh) * | 2023-08-11 | 2023-10-27 | 中国矿业大学 | 基于词性标注的图像多样化描述可控生成方法 |
CN117152618A (zh) * | 2023-10-16 | 2023-12-01 | 北京邮电大学 | 遥感图像中时敏目标变化检测方法及装置 |
CN118212231A (zh) * | 2024-05-17 | 2024-06-18 | 荣耀终端有限公司 | 图像处理方法及相关设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180204111A1 (en) * | 2013-02-28 | 2018-07-19 | Z Advanced Computing, Inc. | System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform |
CN110073301A (zh) * | 2017-08-02 | 2019-07-30 | 强力物联网投资组合2016有限公司 | 工业物联网中具有大数据集的数据收集环境下的检测方法和系统 |
CN110674850A (zh) * | 2019-09-03 | 2020-01-10 | 武汉大学 | 一种基于注意力机制的图像描述生成方法 |
CN111832501A (zh) * | 2020-07-20 | 2020-10-27 | 中国人民解放军战略支援部队航天工程大学 | 一种面向卫星在轨应用的遥感影像文本智能描述方法 |
GB202106229D0 (en) * | 2020-04-30 | 2021-06-16 | Nvidia Corp | Content management using one or more neural networks |
WO2021223323A1 (zh) * | 2020-05-06 | 2021-11-11 | 首都师范大学 | 一种中文视觉词汇表构建的图像内容自动描述方法 |
-
2022
- 2022-05-18 CN CN202210547679.0A patent/CN114882488B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180204111A1 (en) * | 2013-02-28 | 2018-07-19 | Z Advanced Computing, Inc. | System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform |
CN110073301A (zh) * | 2017-08-02 | 2019-07-30 | 强力物联网投资组合2016有限公司 | 工业物联网中具有大数据集的数据收集环境下的检测方法和系统 |
CN110674850A (zh) * | 2019-09-03 | 2020-01-10 | 武汉大学 | 一种基于注意力机制的图像描述生成方法 |
GB202106229D0 (en) * | 2020-04-30 | 2021-06-16 | Nvidia Corp | Content management using one or more neural networks |
WO2021223323A1 (zh) * | 2020-05-06 | 2021-11-11 | 首都师范大学 | 一种中文视觉词汇表构建的图像内容自动描述方法 |
CN111832501A (zh) * | 2020-07-20 | 2020-10-27 | 中国人民解放军战略支援部队航天工程大学 | 一种面向卫星在轨应用的遥感影像文本智能描述方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116958706A (zh) * | 2023-08-11 | 2023-10-27 | 中国矿业大学 | 基于词性标注的图像多样化描述可控生成方法 |
CN116958706B (zh) * | 2023-08-11 | 2024-05-14 | 中国矿业大学 | 基于词性标注的图像多样化描述可控生成方法 |
CN117152618A (zh) * | 2023-10-16 | 2023-12-01 | 北京邮电大学 | 遥感图像中时敏目标变化检测方法及装置 |
CN118212231A (zh) * | 2024-05-17 | 2024-06-18 | 荣耀终端有限公司 | 图像处理方法及相关设备 |
CN118212231B (zh) * | 2024-05-17 | 2024-09-03 | 荣耀终端有限公司 | 图像处理方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN114882488B (zh) | 2024-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110110585B (zh) | 基于深度学习的智能阅卷实现方法及系统、计算机程序 | |
CN114882488B (zh) | 基于深度学习与注意力机制的多源遥感图像信息处理方法 | |
CN108416065A (zh) | 基于层级神经网络的图像-句子描述生成系统及方法 | |
CN113204675B (zh) | 一种基于跨模态物体推理网络的跨模态视频时刻检索方法 | |
CN113780059B (zh) | 一种基于多特征点的连续手语识别方法 | |
CN110991515B (zh) | 一种融合视觉上下文的图像描述方法 | |
CN114492441A (zh) | 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法 | |
CN114417851B (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN113449801A (zh) | 一种基于多级图像上下文编解码的图像人物行为描述生成方法 | |
CN115545021A (zh) | 一种基于深度学习的临床术语识别方法与装置 | |
CN111242059B (zh) | 基于递归记忆网络的无监督图像描述模型的生成方法 | |
Khan et al. | A deep neural framework for image caption generation using gru-based attention mechanism | |
CN116402066A (zh) | 多网络特征融合的属性级文本情感联合抽取方法及系统 | |
CN115311465A (zh) | 一种基于双注意力模型的图像描述方法 | |
CN115223021A (zh) | 一种基于视觉问答的果树全生长期农事作业决策方法 | |
CN116452688A (zh) | 一种基于共同注意力机制的图像描述生成方法 | |
CN114564768A (zh) | 一种基于深度学习的端到端智能平面设计方法 | |
CN112836062A (zh) | 一种文本语料库的关系抽取方法 | |
Mars et al. | Combination of DE-GAN with CNN-LSTM for Arabic OCR on Images with Colorful Backgrounds | |
CN116151226B (zh) | 一种基于机器学习的聋哑人手语纠错方法、设备和介质 | |
Lin | Research on the Teaching Method of College Students’ Education Based on Visual Question Answering Technology | |
CN114692615B (zh) | 一种针对小语种的小样本意图识别方法 | |
CN113192030B (zh) | 一种遥感图像描述生成方法及系统 | |
CN112200268A (zh) | 一种基于编码器-解码器框架的图像描述方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |