CN110046271A - 一种基于声音指导的遥感图像描述方法 - Google Patents

一种基于声音指导的遥感图像描述方法 Download PDF

Info

Publication number
CN110046271A
CN110046271A CN201910222812.3A CN201910222812A CN110046271A CN 110046271 A CN110046271 A CN 110046271A CN 201910222812 A CN201910222812 A CN 201910222812A CN 110046271 A CN110046271 A CN 110046271A
Authority
CN
China
Prior art keywords
remote sensing
sensing images
module
output
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910222812.3A
Other languages
English (en)
Other versions
CN110046271B (zh
Inventor
卢孝强
王斌强
郑向涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XiAn Institute of Optics and Precision Mechanics of CAS
Original Assignee
XiAn Institute of Optics and Precision Mechanics of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by XiAn Institute of Optics and Precision Mechanics of CAS filed Critical XiAn Institute of Optics and Precision Mechanics of CAS
Priority to CN201910222812.3A priority Critical patent/CN110046271B/zh
Publication of CN110046271A publication Critical patent/CN110046271A/zh
Application granted granted Critical
Publication of CN110046271B publication Critical patent/CN110046271B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Astronomy & Astrophysics (AREA)
  • Remote Sensing (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

为解决现有的遥感图像描述方法无法充分利用数据库当中的标注、在一些复杂场景不能有效适用的问题,本发明提供了一种基于声音指导的遥感图像描述方法。本发明考虑到了遥感图像涉及目标分布复杂的特点,从观察者的角度出发,通过为数据库中的原始遥感图像添加对应的单词语音标注,以限定观察者感兴趣的区域范围,将语音标注当中包含的信息作为描述遥感图像的指导信息,使得生成的句子更贴近观察者的目的。

Description

一种基于声音指导的遥感图像描述方法
技术领域
本发明属于信息处理技术领域,特别涉及一种遥感图像描述方法,可用于地震灾害评估和海洋监测等领域。
背景技术
随着遥感以及相关技术的不断发展,更高分辨率的遥感图像的获取越来越方便。获取的高分辨率遥感图像已应用于地震灾害的分级评估和海洋观测等领域。每时每刻,都在产生大量的遥感图像,这些遥感图像从生成到传输都要耗费巨大的人力物力,如何能够更详尽的挖掘遥感图像当中的信息,以更有效地发挥遥感图像在全球观测等各个方面的重要作用具有重要意义。
为了挖掘遥感图像中的信息,需要研究基于遥感图像的语义理解,对高分辨率遥感图像进行描述,将高分辨率的遥感图像信息转化成为人类能够理解的文本信息。遥感图像不同于普通的自然图像:首先,遥感图像是利用传感器(卫星,航空航天器等)从远处来感知物体的手段;其次,传感器位置不同,对相同的物质会呈现出不同的大小和相对位置,使得遥感图像的语义理解更加困难;最后,因为遥感图像对于普通人而言不熟悉,在标注的时候存在一个不完全标注的问题,更使得遥感图像的语义理解与自然图像的语义理解大有不同。
为了利用有监督的机器学习手段解决遥感图像语义理解的问题,业内研究人员标注了相应的机器学习数据库。文献“B.Qu,X.Li,D.Tao,and X.Lu,“Deep semanticunderstanding of high resolution remote sensing image,”in Proceedings of theInternational Conference on Computer,Information and TelecommunicationSystems,2016,pp.124–128”首次提出基于机器学习来研究遥感图像的语义理解方法,并提出了两个遥感语义理解方法的数据库,这两个数据库分别是UCM-captions和Sydney-captions。其中,UCM-captions包含2100张遥感图像,每张图像对应五句不同的文本标注,Sydney-captions包含613遥感图像,每张图像对应五句不同的文本标注。文献“X.Lu,B.Wang,X.Zheng,and X.Li,“Exploring models and data for remote sensing imagecaption generation,”IEEE Transactions on Geoscience and Remote Sensing,vol.56,no.4,pp.2183–2195,2017.”针对遥感图像不同于自然图像的类别模糊,尺度多变等特点,推出了数据库RSICD(Remote Sensing Image Caption Dataset),其中包含10921张遥感图像,并邀请不同的志愿者对图像进行了标注,每个图像对应五句不同的文本标注。
由于从数据库中通过图像检索生成句子是非常困难的,为了有效利用上述遥感图像数据库中的信息,技术人员采用了以下两类方法从数据库中获取遥感图像对应的句子:
一是基于循环神经网络来生成遥感图像描述的方法,这种方法通过循环神经网络来逐个单词地生成对应遥感图像的描述。B.Qu等人在文献“B.Qu,X.Li,D.Tao,and X.Lu,“Deep semantic understanding ofhigh resolution remote sensing image,”International Conference onComputer,Information and TelecommunicationSystems,pp.124–128,2016.”中提出一种句子生成的框架,该框架基于两种不同的循环神经网络来进行句子的生成。利用神经网络的强大表征能力,图像使用预训练的深度模型后端全连接层的输出,然后利用循环神经网络来逐个单词地生成最终的描述。这种方法对数据库的依赖较强,因为最终生成的句子是和数据库当中的句子作对比,而且一个句子可能偏向于数据库中五个句子当中的简单句子,无法充分利用数据库每一句标注中的细分信息。
二是基于目标检测的方法。这种方法的核心思想是通过目标检测的算法来获取图像当中存在的目标,然后将目标填充到预定义的句子模板当中来进行句子的生成。句子模板是一些缺乏单词的句子,将任务转换为将检测到的目标准确的填充到句子对应的空位置上去。Z.Shi等人在文献“Z.Shi and Z.Zou,“Can a machine generate humanlikelanguage descriptionsfor a remote sensing image?”IEEE Transactions onGeoscienceand Remote Sensing,vol.55,no.6,pp.3623–3634,2017.”中提出一种方法,不同于传统卷积神经网络,这个方法使用全卷积网络来编码图像的特征,并将目标按照视野的大小分为三个等级:单个目标级别,小场景级别和大场景级别。在获取到目标之后,再将这些获取到的目标填充到预定义的句子模板当中。句子模板的生成考虑了人的用法习惯,但是这种生成方式生成的句子相对比较固化,一些复杂的场景并不能有效的适用。
发明内容
为解决现有的遥感图像描述方法无法充分利用数据库当中的标注、在一些复杂场景不能有效适用的问题,本发明提供了一种基于声音指导的遥感图像描述方法。
本发明的技术方案是:
一种基于声音指导的遥感图像描述方法,其特殊之处在于,包括以下步骤:
1)构建训练样本集和测试样本集:
首先为数据库中每一张原始遥感图像添加单词语音标注,所添加的单词语音标注的语义内容与原始遥感图像所描述的内容相关,然后将数据库中原始遥感图像及其对应的文本标注和单词语音标注进行划分,将一部分原始遥感图像及其对应的文本标注和单词语音标注划入训练样本集,其余划入测试样本集;
2)对训练样本集中的原始遥感图像及其对应的文本标注和单词语音标注进行表达:
2.1)利用预训练好的深度神经网络提取每张原始遥感图像的图像特征;
2.2)利用预训练好的词向量提取每张原始遥感图像所对应的五句文本标注的文本特征;
2.3)提取每张原始遥感图像所对应的单词语音标注的初步语音特征;
3)构建基于单词语音指导的网络框架,所述网络框架包括依次连接的声音模块、特征融合模块和输出模块;声音模块用于从步骤2.3)提取的初步语音特征中进一步进行单词语音信息的特征提取;特征融合模块用于对步骤2.1)得到的图像特征和声音模块输出的单词语音特征进行融合;输出模块用于逐个单词地生成描述句子;
4)对所述网络框架进行训练:
采用损失函数,结合训练样本集中的文本标注来反馈训练输出模块的模型参数、特征融合模块的模型参数和声音模块的模型参数;在训练的过程中,逐个选取文本标注当中的每一句进行训练,每一句当中的每个单词对应各个模块当中的一步;
5)待测遥感图像的描述:
5.1)输入待测遥感图像和用户语音;
5.2)利用预训练好的深度神经网络提取待测遥感图像的图像特征;
5.3)提取输入的用户语音特征;
5.4)将步骤5.2)得到的图像特征和步骤5.3)得到的用户语音特征输入到步骤4)中训练好的网络框架中,得到待测遥感图像的文本描述。
进一步地,步骤1)在划分时,将数据库中90%的原始遥感图像及其对应的文本标注和单词语音标注划入训练样本集,10%的原始遥感图像及其对应的文本标注和单词语音标注划入测试样本集。
进一步地,步骤2.1)中的所述深度神经网络采用VGG16、VGG19、AlexNet、GoogLeNet或ResNet。
进一步地,步骤2.2)具体为:将每个单词利用预训练好的词向量模型映射到固定的维度。
进一步地,步骤2.3)具体采用Mel-Frequency Cepstral Coefficients(MFCC)进行语音特征的初步提取。
进一步地,步骤3)中的声音模块、特征融合模块和输出模块均采用GatedRecurrent Unit(GRU)构建。
进一步地,步骤4)中对声音模块的模型参数进行训练的过程具体为:
第1步声音模块的模型当中,Gated Recurrent Unit(GRU)的表达式如下:
z1=σ(WzWss+bz),
其中:
ο表示Hadamard乘积;
σ的表达式如下:
Ws、Wz、Wh是需要学习的权重参数;
z1是更新门;
是中间变量;
h1是第一步输出的语音特征;
bz是计算z1时的偏置;bh是计算时的偏置;
s是步骤2.3)提取的初步语音特征;
tanh为双曲正切函数;
第2步至第t步中声音模块的模型当中,Gated Recurrent Unit(GRU)的表达式如下:
zt=σ(Uzht-1+bz),
rt=σ(Urht-1+br),
其中:ht-1是第t-1步输出的语音特征;
zt是更新门;
rt是重置门;
br是计算rt时的偏置;
ht是第t步输出的语音特征;
是中间变量;
Uz是计算zt时上一步的ht-1作为输入的映射权重;
Ur是计算rt时上一步的ht-1作为输入的映射权重;
Uh是计算时上一步的ht-1作为输入的映射权重。
进一步地,步骤4)中对特征融合模块的模型参数进行训练的过程具体为:
第1步特征融合模块的模型中,Gated Recurrent Unit(GRU)的表达式如下:
z′1=σ(W′z(Wv′v+h1)+U′zh′0+b′z),
r1′=σ(W′rh1+U′rh′0+b′r),
其中:
W′s、W′z、W′h是需要学习的权重参数;
z′1是更新门;
b′z是计算z′1时的偏置;
v是步骤2.1)中提取到的图像特征;
b′h是计算时的偏置;
是中间变量;
h1是声音模块第1步输出的特征;
第2步至第t步特征融合模块的模型中,Gated Recurrent Unit(GRU)的表达式如下:
z′t=σ(W′zht+U′zh′t-1+b′z),
rt′=σ(Wr′ht+U′rh′t-1+b′r),
其中:
W′r、W′z、W′h、U′r、U′z、U′h是需要学习的权重参数;
z′t是更新门;
h′t-1是第t-1步输出的融合特征;
h′t是第t步输出的融合特征;
ht是声音模块第t步输出的语音特征;
rt′是重置门;
b′r是计算rt′时的偏置;
是中间变量。
进一步地,步骤4)中对输出模块的模型参数进行训练的过程具体为:
第1步输出模块的模型中,Gated Recurrent Unit(GRU)的表达式如下:
z1″=σ(Wz″h′T+U″zh″0+b″z),
r1″=σ(Wrh′T+U″rh″0+b″r),
w1=softmax(h1″),
其中:
Wr″、Wz″、W″h,U″r,U″z,U″h是需要学习的权重参数;
z″1是更新门;
h′T是特征融合模块最终输出的融合特征;
h″0是一个句子开始的标志;
b″z是计算z″1时的偏置;
r″1是重置门;
b″r是计算r″1时的偏置;
是中间变量;
h″1是第一步中间输出;
w1是第1步后经全连接层生成的单词;
第2步至第t步声音模块的模型中,Gated Recurrent Unit(GRU)的表达式如下:
z″t=σ(U″zh″t-1+b″z),
rt″=σ(U″rh″t-1+b″r),
wt=softmax(h″t),
其中:
z″t是更新门;
r″t是重置门;
h″t-1是第t-1步的输出;
是中间变量;
h″t是第t步的中间输出;
wt是第t步后经全连接层生成的单词。
进一步地,步骤4)训练过程中采用的损失函数为进行深度神经网络训练;其中:
yt+1是真实标注句子当中的一个单词;
wt+1是对应的生成的单词;
损失函数的第二项是权重的正则化,λ是正则化权重系数。
本发明的优点:
本发明考虑到了遥感图像涉及目标分布复杂的特点,从观察者的角度出发,通过为现有数据库中的原始遥感图像添加对应的单词语音标注(以单词作为约束条件),以限定观察者感兴趣的区域范围,将语音标注当中包含的信息作为描述遥感图像的指导信息,使得生成的句子更贴近观察者的目的,也有利于适应复杂的场景。比如同样是一个机场,包含飞机等物体,有的观察者想要获得的描述是针对飞机的,有的观察者想要获得的描述是针对机场的。而针对这两个不同的需求,现有的方法是无法实现的。而且,采用单词语音标注,方便人机交互,也更加符合实际人机交互的应用需求。
附图说明
图1为本发明基于声音指导的遥感图像描述方法流程图。
具体实施方式
参照图1,本发明所提供的基于声音指导的遥感图像描述方法的实现的步骤如下:
步骤1)构建训练样本集和测试样本集:
首先为数据库中每一张原始遥感图像添加单词语音标注,所添加的单词语音标注的语义内容与原始遥感图像所描述的内容相关,然后将数据库中原始遥感图像及其对应的文本标注和单词语音标注进行划分,将一部分原始遥感图像及其对应的文本标注和单词语音标注划入训练样本集,其余划入测试样本集;需要说明的是,本发明也可以不采用现有数据库,而重新构建数据库。本步骤在划分时,可以将数据库中90%的原始遥感图像及其对应的文本标注和单词语音标注划入训练样本集,10%的原始遥感图像及其对应的文本标注和单词语音标注划入测试样本集。
步骤2)对训练样本集中的原始遥感图像及其对应的文本标注和单词语音标注进行表达:
2.1)利用预训练好的深度神经网络提取每张原始遥感图像的图像特征;所述深度神经网络可以采用VGG16、VGG19、AlexNet、GoogLeNet或ResNet。
2.2)利用预训练好的词向量提取每张原始遥感图像所对应的五句文本标注的文本特征,具体为:
将每个单词利用预训练好的词向量模型映射到固定的维度;其中,预训练好的词向量模型使用Global Vectors(GloVe,出自论文:J.Pennington,R.Socher,andC.Manning,“Glove:Global vectors forword representation,”inProc.Conf.Empirical Methods Natural Lang.Process.,2014,pp.1532–1543.),其中固定的维度和词向量模型有关,随后该固定的维度被映射到后续步骤4.3)当中h″0的维度。
2.3)提取每张原始遥感图像所对应的单词语音标注的初步语音特征,具体可采用Mel-Frequency Cepstral Coefficients(MFCC)进行语音特征的初步提取。
步骤3)采用Gated Recurrent Unit(GRU构建基于单词语音指导的网络框架,所述网络框架包括依次连接的声音模块、特征融合模块和输出模块;声音模块用于从步骤2.3)提取的初步语音特征中进一步进行单词语音信息的特征提取;特征融合模块用于对步骤2.1)得到的图像特征和声音模块输出的单词语音特征进行融合;输出模块用于逐个单词的生成描述句子。声音模块、特征融合模块和输出模块也可采用其它RecurrentNeuralNetwork及其变种构建。
步骤4)对所述网络框架进行训练:
采用损失函数,结合训练样本集中的文本标注来反馈训练输出模块的模型参数、特征融合模块的模型参数和声音模块的模型参数;在训练的过程中,逐个选取文本标注当中的每一句进行训练(例如可以先选择第一张原始遥感图像对应的第一句文本标注,然后选择第五张原始遥感图像对应的第三句文本标注,再选择第二张原始遥感图像对应的第二句文本标注……,选择的顺序不做特定要求,只要能够遍历每一句文本标注进行训练即可),每一句当中的每个单词对应各个模块当中的一步;具体训练过程如下:
4.1)对声音模块的模型参数进行训练的过程具体为:
第1步声音模块的模型当中,Gated Recurrent Unit(GRU)的表达式如下:
z1=σ(WzWss+bz),
其中:
ο表示Hadamard乘积;
σ的表达式如下:
Ws、Wz、Wh是需要学习的权重参数;
z1是更新门;
是中间变量;
h1是第一步输出的语音特征;
bz是计算z1时的偏置;bh是计算时的偏置;
s是步骤2.3)提取的初步语音特征;
tanh为双曲正切函数;
第2步至第t步中声音模块的模型当中,Gated Recurrent Unit(GRU)的表达式如下:
zt=σ(Uzht-1+bz),
rt=σ(Urht-1+br),
其中:ht-1是第t-1步输出的语音特征;
zt是更新门;
rt是重置门;
br是计算rt时的偏置;
ht是第t步输出的语音特征;
是中间变量;
Uz是计算zt时上一步的ht-1作为输入的映射权重;
Ur是计算rt时上一步的ht-1作为输入的映射权重;
Uh是计算时上一步的ht-1作为输入的映射权重。
4.2)对特征融合模块的模型参数进行训练的过程具体为:
第1步特征融合模块的模型中,Gated Recurrent Unit(GRU)的表达式如下:
z′1=σ(W′z(Wv′v+h1)+U′zh′0+b′z),
r1′=σ(Wr′h1+U′rh′0+b′r),
其中:
Ws′、W′z、W′h是需要学习的权重参数;
z′1是更新门;
b′z是计算z′1时的偏置;
v是步骤2.1)中提取到的图像特征;
b′h是计算时的偏置;
是中间变量;
h1是声音模块第1步输出的特征;
第2步至第t步特征融合模块的模型中,Gated Recurrent Unit(GRU)的表达式如下:
z′t=σ(Wz′ht+U′zh′t-1+b′z),
rt′=σ(Wr′ht+U′rh′t-1+b′r),
其中:
W′r、W′z、W′h、U′r、U′z、U′h是需要学习的权重参数;
z′t是更新门;
h′t-1是第t-1步输出的融合特征;
h′t是第t步输出的融合特征;
ht是声音模块第t步输出的语音特征;
rt′是重置门;
b′r是计算rt′时的偏置;
是中间变量。
4.3)对输出模块的模型参数进行训练的过程具体为:
第1步输出模块的模型中,Gated Recurrent Unit(GRU)的表达式如下:
z″1=σ(Wz″hT′+U″zh″0+b″z),
r1″=σ(Wr″h′T+U″rh″0+b″r),
w1=softmax(h″1),
其中:
W″r、W″z、W″h,U″r,U″z,U″h是需要学习的权重参数;
z″1是更新门;
h′T是特征融合模块最终输出的融合特征;
h″0是一个句子开始的标志;
b″z是计算z″1时的偏置;
r1″是重置门;
b″r是计算r″1时的偏置;
是中间变量;
h″1是第一步中间输出;
w1是第1步后经全连接层生成的单词;
第2步至第t步声音模块的模型中,Gated Recurrent Unit(GRU)的表达式如下:
z″t=σ(U″zh″t-1+b″z),
rt″=σ(U″rh″t-1+b″r),
wt=softmax(h″t),
其中:
z″t是更新门;
rt″是重置门;
h″t-1是第t-1步的输出;
是中间变量;
h″t是第t步的中间输出;
wt是第t步后经全连接层生成的单词。
上述训练得到的权重参数构成了所述网络框架的参数。
上述训练过程中采用的损失函数为进行深度神经网络训练;其中:
yt+1是真实标注句子当中的一个单词;
wt+1是对应的生成的单词;
损失函数的第二项是权重的正则化,λ是正则化权重系数。
步骤5)生成遥感图像的描述:
5.1)从测试样本集中任意选取一张原始遥感图像作为待测图像,或者输入一张待测遥感图像并输入用户语音;
5.2)利用预训练好的深度神经网络提取所述待测图像的图像特征;
5.3)提取所述待测图像所对应的单词语音标注的初步语音特征,或者提取输入的用户语音的用户语音特征;
5.4)将步骤5.2)得到的图像特征和步骤5.3)得到的初步语音特征/用户语音特征输入到步骤4)中训练好的网络框架中,得到待测图像的文本描述。
技术效果实验验证:
1.仿真条件
在中央处理器为Intel(R)Xeon(R)CPU E5-2650 V4@2.20GHz、内存500G、Ubuntu14.04.5操作系统上,运用Python软件进行仿真。
实验中使用的图像数据库为公开的数据集RSICD,并为该数据集RSICD中的每一张遥感图像添加了单词语音标注。一般情况下,要求单词语音标注只要为单词即可,比如airport,bridges,buildings,trees,pond,port,railway,river等;最好使单词语音标注的内容与遥感图像有关,例如,输入的声音包含的语义内容与数据库中的至少一张遥感图像相关。
2.仿真内容
在RSICD数据集上,对本发明方法进行实验验证。数据集的划分标准为90%训练,10%测试。为了证明方法的有效性,我们选取了五个现有方法作为对比方法进行比较,所选取的五个对比方法为:VLAD+RNN(Vector of Locally Aggregated Descriptors+Recurrent Neural Networks),VLAD+LSTM(Vector of Locally Aggregated Descriptors+Long Short-Term Memory),mRNN(multimodal Recurrent Neural Networks),mLSTM(multimodal Long Short-Term Memory),mGRU(multimodal Gated Recurrent Units)。其中,
1)VLAD+RNN和VLAD+LSTM是在文献“X.Lu,B.Wang,X.Zheng,and X.Li,“Exploringmodels and data for remote sensing image caption generation,”IEEETransactions on Geoscience and Remote Sensing,vol.56,no.4,pp.2183–2195,2017.”中提出的。
2)mRNN,mLSTM在文献“B.Qu,X.Li,D.Tao,and X.Lu,“Deep semanticunderstanding of high resolution remote sensing image,”InternationalConference on Computer,Information and Telecommunication Systems,pp.124–128,2016.”中有详细介绍。
3)mGRU是在文献“X.Li,A.Yuan,and X.Lu,“Multi-modal gated recurrentunits for image description,”Multimedia Tools and Applications,pp.1–23,2018.”中提出的。
按照具体实施方式部分的步骤进行试验,得到本发明的实验结果,再在同样的数据集上完成对比方法的实验。
使用的评价标准是针对图像描述算法公认的评价指标,包括BLEU-1,BLEU-2,BLEU-3,BLUE-4,METEOR,ROUGE_L,CIDEr,SPICE。BLEU代表的是生成句子中单词的数量和标准句子的单词重合度,其中后缀1,2,3,4分别代表连续多少个单词相似。METEOR用过学习生成句子和标准句子之间的映射来评价句子的生成质量。ROUGE_L通过计算准确率和召回率的加权调和平均来评价句子质量。CIDEr从词频和逆文本频率指数来衡量生成句子的好坏。SPICE从语义图结构的角度来评价生成句子的质量。指标得分越高,代表句子描述的效果越好,实验结果如下表所示(“-”代表对应方法的论文没有提供该指标)。

Claims (10)

1.一种基于声音指导的遥感图像描述方法,其特征在于,包括以下步骤:
1)构建训练样本集和测试样本集:
首先为数据库中每一张原始遥感图像添加单词语音标注,所添加的单词语音标注的语义内容与原始遥感图像所描述的内容相关,然后将数据库中原始遥感图像及其对应的文本标注和单词语音标注进行划分,将一部分原始遥感图像及其对应的文本标注和单词语音标注划入训练样本集,其余划入测试样本集;
2)对训练样本集中的原始遥感图像及其对应的文本标注和单词语音标注进行表达:
2.1)利用预训练好的深度神经网络提取每张原始遥感图像的图像特征;
2.2)利用预训练好的词向量提取每张原始遥感图像所对应的五句文本标注的文本特征;
2.3)提取每张原始遥感图像所对应的单词语音标注的初步语音特征;
3)构建基于单词语音指导的网络框架,所述网络框架包括依次连接的声音模块、特征融合模块和输出模块;声音模块用于从步骤2.3)提取的初步语音特征中进一步进行单词语音信息的特征提取;特征融合模块用于对步骤2.1)得到的图像特征和声音模块输出的单词语音特征进行融合;输出模块用于逐个单词地生成描述句子;
4)对所述网络框架进行训练:
采用损失函数,结合训练样本集中的文本标注来反馈训练输出模块的模型参数、特征融合模块的模型参数和声音模块的模型参数;在训练的过程中,逐个选取文本标注当中的每一句进行训练,每一句当中的每个单词对应各个模块当中的一步;
5)待测遥感图像的描述:
5.1)输入待测遥感图像和用户语音;
5.2)利用预训练好的深度神经网络提取待测遥感图像的图像特征;
5.3)提取输入的用户语音特征;
5.4)将步骤5.2)得到的图像特征和步骤5.3)得到的用户语音特征输入到步骤4)中训练好的网络框架中,得到待测遥感图像的文本描述。
2.根据权利要求1所述的基于声音指导的遥感图像描述方法,其特征在于:步骤1)在划分时,将数据库中90%的原始遥感图像及其对应的文本标注和单词语音标注划入训练样本集,10%的原始遥感图像及其对应的文本标注和单词语音标注划入测试样本集。
3.根据权利要求1所述的基于声音指导的遥感图像描述方法,其特征在于:步骤2.1)中的所述深度神经网络采用VGG16、VGG19、AlexNet、GoogLeNet或ResNet。
4.根据权利要求1或2或3所述的基于声音指导的遥感图像描述方法,其特征在于,步骤2.2)具体为:将每个单词利用预训练好的词向量模型映射到固定的维度。
5.根据权利要求4所述的基于声音指导的遥感图像描述方法,其特征在于:步骤2.3)具体采用Mel-Frequency Cepstral Coefficients(MFCC)进行语音特征的初步提取。
6.根据权利要求5所述的基于声音指导的遥感图像描述方法,其特征在于,步骤3)中的声音模块、特征融合模块和输出模块均采用Gated Recurrent Unit(GRU)构建。
7.根据权利要求6所述的基于声音指导的遥感图像描述方法,其特征在于:步骤4)中对声音模块的模型参数进行训练的过程具体为:
第1步声音模块的模型当中,Gated Recurrent Unit(GRU)的表达式如下:
z1=σ(WzWss+bz),
其中:
表示Hadamard乘积;
σ的表达式如下:
Ws、Wz、Wh是需要学习的权重参数;
z1是更新门;
是中间变量;
h1是第一步输出的语音特征;
bz是计算z1时的偏置;bh是计算时的偏置;
s是步骤2.3)提取的初步语音特征;
tanh为双曲正切函数;
第2步至第t步中声音模块的模型当中,Gated Recurrent Unit(GRU)的表达式如下:
zt=σ(Uzht-1+bz),
rt=σ(Urht-1+br),
其中:ht-1是第t-1步输出的语音特征;
zt是更新门;
rt是重置门;
br是计算rt时的偏置;
ht是第t步输出的语音特征;
是中间变量;
Uz是计算zt时上一步的ht-1作为输入的映射权重;
Ur是计算rt时上一步的ht-1作为输入的映射权重;
Uh是计算时上一步的ht-1作为输入的映射权重。
8.根据权利要求7所述的基于声音指导的遥感图像描述方法,其特征在于,步骤4)中对特征融合模块的模型参数进行训练的过程具体为:
第1步特征融合模块的模型中,Gated Recurrent Unit(GRU)的表达式如下:
z′1=σ(W′z(Wv′v+h1)+U′zh′0+b′z),
r′1=σ(W′rh1+U′rh′0+b′r),
其中:
Ws′、Wz′、Wh′是需要学习的权重参数;
z′1是更新门;
b′z是计算z′1时的偏置;
v是步骤2.1)中提取到的图像特征;
b′h是计算时的偏置;
是中间变量;
h1是声音模块第1步输出的特征;
第2步至第t步特征融合模块的模型中,Gated Recurrent Unit(GRU)的表达式如下:
z′t=σ(W′zht+U′zh′t-1+b′z),
r′t=σ(W′rht+U′rh′t-1+b′r),
其中:
W′r、W′z、W′h、U′r、U′z、U′h是需要学习的权重参数;
z′t是更新门;
h′t-1是第t-1步输出的融合特征;
h′t是第t步输出的融合特征;
ht是声音模块第t步输出的语音特征;
r′t是重置门;
b′r是计算r′t时的偏置;
是中间变量。
9.根据权利要求8所述的基于声音指导的遥感图像描述方法,其特征在于:
步骤4)中对输出模块的模型参数进行训练的过程具体为:
第1步输出模块的模型中,Gated Recurrent Unit(GRU)的表达式如下:
z″1=σ(W″zh′T+U″zh″0+b″z),
r″1=σ(W″rh′T+U″rh″0+b″r),
w1=softmax(h″1),
其中:
W″r、W″z、W″h,U″r,U″z,U″h是需要学习的权重参数;
z″1是更新门;
h′T是特征融合模块最终输出的融合特征;
h″0是一个句子开始的标志;
b″z是计算z″1时的偏置;
r″1是重置门;
b″r是计算r″1时的偏置;
是中间变量;
h″1是第一步中间输出;
w1是第1步后经全连接层生成的单词;
第2步至第t步声音模块的模型中,Gated Recurrent Unit(GRU)的表达式如下:
z″t=σ(U″zht-1+b″z),
r″t=σ(U″rh″t-1+b″r),
wt=softmax(h″t),
其中:
z″t是更新门;
r″t是重置门;
h″t-1是第t-1步的输出;
是中间变量;
h″t是第t步的中间输出;
wt是第t步后经全连接层生成的单词。
10.根据权利要求6所述的基于声音指导的遥感图像描述方法,其特征在于:步骤4)训练过程中采用的损失函数为进行深度神经网络训练;其中:
yt+1是真实标注句子当中的一个单词;
wt+1是对应的生成的单词;
损失函数的第二项是权重的正则化,λ是正则化权重系数。
CN201910222812.3A 2019-03-22 2019-03-22 一种基于声音指导的遥感图像描述方法 Active CN110046271B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910222812.3A CN110046271B (zh) 2019-03-22 2019-03-22 一种基于声音指导的遥感图像描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910222812.3A CN110046271B (zh) 2019-03-22 2019-03-22 一种基于声音指导的遥感图像描述方法

Publications (2)

Publication Number Publication Date
CN110046271A true CN110046271A (zh) 2019-07-23
CN110046271B CN110046271B (zh) 2021-06-22

Family

ID=67274999

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910222812.3A Active CN110046271B (zh) 2019-03-22 2019-03-22 一种基于声音指导的遥感图像描述方法

Country Status (1)

Country Link
CN (1) CN110046271B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909736A (zh) * 2019-11-12 2020-03-24 北京工业大学 一种基于长短期记忆模型与目标检测算法的图像描述方法
CN111832384A (zh) * 2020-05-20 2020-10-27 东南大学 一种融合图像和声音信息的视频标注方法
CN112285776A (zh) * 2020-10-23 2021-01-29 中国矿业大学(北京) 一种基于深度学习的地震速度自动拾取方法
WO2022183814A1 (zh) * 2021-03-03 2022-09-09 Oppo广东移动通信有限公司 图像的语音标注及使用方法与装置、电子装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102810158A (zh) * 2011-05-31 2012-12-05 中国科学院电子学研究所 一种基于多尺度语义模型的高分辨率遥感目标提取方法
US20130330008A1 (en) * 2011-09-24 2013-12-12 Lotfi A. Zadeh Methods and Systems for Applications for Z-numbers
CN104376105A (zh) * 2014-11-26 2015-02-25 北京航空航天大学 一种社会媒体中图像低层视觉特征与文本描述信息的特征融合系统及方法
CN104484666A (zh) * 2014-12-17 2015-04-01 中山大学 一种基于人机交互的图像高级语义解析的方法
CN106778835A (zh) * 2016-11-29 2017-05-31 武汉大学 融合场景信息和深度特征的遥感图像机场目标识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102810158A (zh) * 2011-05-31 2012-12-05 中国科学院电子学研究所 一种基于多尺度语义模型的高分辨率遥感目标提取方法
US20130330008A1 (en) * 2011-09-24 2013-12-12 Lotfi A. Zadeh Methods and Systems for Applications for Z-numbers
CN104376105A (zh) * 2014-11-26 2015-02-25 北京航空航天大学 一种社会媒体中图像低层视觉特征与文本描述信息的特征融合系统及方法
CN104484666A (zh) * 2014-12-17 2015-04-01 中山大学 一种基于人机交互的图像高级语义解析的方法
CN106778835A (zh) * 2016-11-29 2017-05-31 武汉大学 融合场景信息和深度特征的遥感图像机场目标识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张亚亚 等: "基于语义网的遥感图像分类", 《计算机技术与发展》 *
李峰 等: "遥感影像数据库基于内容检索系统的构建", 《武汉大学学报(信息科学版)》 *
王港 等: "基于深度神经网络的遥感目标检测及特征提取", 《无线电工程》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909736A (zh) * 2019-11-12 2020-03-24 北京工业大学 一种基于长短期记忆模型与目标检测算法的图像描述方法
CN111832384A (zh) * 2020-05-20 2020-10-27 东南大学 一种融合图像和声音信息的视频标注方法
CN112285776A (zh) * 2020-10-23 2021-01-29 中国矿业大学(北京) 一种基于深度学习的地震速度自动拾取方法
WO2022183814A1 (zh) * 2021-03-03 2022-09-09 Oppo广东移动通信有限公司 图像的语音标注及使用方法与装置、电子装置及存储介质

Also Published As

Publication number Publication date
CN110046271B (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
CN108536679B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN110046271A (zh) 一种基于声音指导的遥感图像描述方法
WO2021031480A1 (zh) 文本生成方法和装置
CN109783657A (zh) 基于受限文本空间的多步自注意力跨媒体检索方法及系统
CN110647612A (zh) 一种基于双视觉注意力网络的视觉对话生成方法
CN111026842A (zh) 自然语言处理方法、自然语言处理装置及智能问答系统
CN108062388A (zh) 人机对话的回复生成方法和装置
CN110909736A (zh) 一种基于长短期记忆模型与目标检测算法的图像描述方法
CN109740471A (zh) 基于联合潜在语义嵌入的遥感图像描述方法
KR20200010672A (ko) 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템
CN114492441A (zh) 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法
CN110888989A (zh) 一种智能学习平台及其构建方法
CN111177402A (zh) 基于分词处理的评价方法、装置、计算机设备及存储介质
CN113609326A (zh) 基于外部知识和目标间关系的图像描述生成方法
Zhang et al. Teaching chinese sign language with a smartphone
CN114548099A (zh) 基于多任务框架的方面词和方面类别联合抽取和检测方法
CN116561274A (zh) 一种基于数字人技术与自然语言大模型的知识问答方法
CN110956142A (zh) 一种智能交互培训系统
CN115481313A (zh) 一种基于文本语义挖掘的新闻推荐方法
CN112749566B (zh) 一种面向英文写作辅助的语义匹配方法及装置
CN109815927B (zh) 利用对抗双向交互网络解决视频时间文本定位任务的方法
CN116521872A (zh) 一种认知和情感的联合识别方法、系统及电子设备
CN114357166A (zh) 一种基于深度学习的文本分类方法
CN110287355A (zh) 基于检索话题记忆网络的遥感图像描述方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant