CN111553371B - 一种基于多特征提取的图像语义描述方法及系统 - Google Patents

一种基于多特征提取的图像语义描述方法及系统 Download PDF

Info

Publication number
CN111553371B
CN111553371B CN202010306512.6A CN202010306512A CN111553371B CN 111553371 B CN111553371 B CN 111553371B CN 202010306512 A CN202010306512 A CN 202010306512A CN 111553371 B CN111553371 B CN 111553371B
Authority
CN
China
Prior art keywords
image
attribute
lstm
loss function
feature extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010306512.6A
Other languages
English (en)
Other versions
CN111553371A (zh
Inventor
赵小虎
有鹏
李晓
常先红
宋瑞军
张楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN202010306512.6A priority Critical patent/CN111553371B/zh
Publication of CN111553371A publication Critical patent/CN111553371A/zh
Application granted granted Critical
Publication of CN111553371B publication Critical patent/CN111553371B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于多特征提取的图像语义描述方法及系统,属于图像特征提取技术领域,解决了现有技术提取的图像特征单一且长短时记忆网络只能捕捉单向时序信息等问题。该方法包括:将待语义描述的图像输入全局特征提取模型得到图像的全局特征向量;提取所述图像的属性特征向量;将所述全局特征向量和属性特征向量同时输入到双向长短时记忆网络,得到前向联合损失函数和后向联合损失函数;对所述前向联合损失函数和后向联合损失函数累加求和,当所述和最小时,获得与所述图像最佳匹配的语义描述。实现了多个图像特征的提取,提高了语义描述的精确度。

Description

一种基于多特征提取的图像语义描述方法及系统
技术领域
本发明涉及图像特征提取技术领域,尤其涉及一种基于多特征提取的图像语义描述方法及系统。
背景技术
图像语义描述一直是人工智能领域中最重要的研究方向之一,是图像理解的高级任务。目前,基于深度神经网络的图像语义描述方法在这一领域取得了重大突破,尤其是卷积神经网络与递归神经网络相结合的语义描述生成模型。
Mao等人创造性地将卷积神经网络和递归神经网络相结合,解决了图像描述和句子检索等问题。之后Kiros等人率先将编码-解码框架引入图像语义描述研究。它们利用深度卷积神经网络对视觉信息进行编码,同时利用长短时记忆网络(LSTM)对文本数据进行编码。
在基于编码和解码的框架下,语义描述取得有益的效果,但是,现有技术提取的图像特征单一,不足以表示完整的图像信息,造成语义描述效果较差;其次,在RNN(循环神经网络)中存在的梯度消失问题利用LSTM可以消除,然而,LSTM只能捕捉单向时序信息,未实现真正意义上的全局上下文依赖,造成语义描述的精确度较低。
发明内容
鉴于上述的分析,本发明实施例旨在提供一种基于多特征提取的图像语义描述方法及系统,用以解决现有技术提取的图像特征单一且LSTM只能捕捉单向时序信息,造成语义描述精确度较低的问题。
一方面,本发明实施例提供了一种基于多特征提取的图像语义描述方法,包括如下步骤:
将待语义描述的图像输入全局特征提取模型得到图像的全局特征向量;
提取所述图像的属性特征向量;属性特征包括图像的轮廓、纹理与位置信息;
将所述全局特征向量和属性特征向量同时输入到双向长短时记忆网络,得到前向联合损失函数和后向联合损失函数;
对所述前向联合损失函数和后向联合损失函数累加求和,当所述和最小时,获得与所述图像最佳匹配的语义描述。
进一步,将所述图像输入属性特征提取模型提取得到图像的属性特征向量,所述属性特征提取模型通过如下步骤得到:
建立属性特征提取基础模型,所述属性特征提取基础模型包括变更后的SSD网络、先验框模块和列向量最大化模块;
所述变更后的SSD网络以Resnet-50残差结构代替SSD网络的前置网络后得到;所述变更后的SSD网络包括特征提取层,所述特征提取层用于对输入图像进行特征映射获得特征图;
所述先验框模块,用于基于不同的特征图,设置不同尺寸的先验框,利用设置的所述不同尺寸的先验框获得对应特征图的属性检测矩阵;
所述列向量最大化模块,用于对所述属性检测矩阵进行列向量最大化,得到属性特征向量;
输入训练图像对建立的所述基础模型进行训练,得到所述属性特征提取模型。
进一步,所述先验框的尺寸计算公式为:
Figure GDA0004051167590000031
其中,Sk为先验框相对于图像所占的比例,Smin和Smax分别为先验框相对于图像所占比例的最大值和最小值,n为特征图的个数。
进一步,所述将图像输入属性特征提取模型得到图像的属性特征向量,包括如下步骤:
将图像输入属性特征提取模型:
基于特征提取层,获得所述图像的特征图;
基于先验框,获得所述特征图的属性检测矩阵;
基于列向量最大化模块,获得属性特征向量。
进一步,所述将所述全局特征和属性特征同时输入到双向长短时记忆网络,得到前向联合损失函数和后向联合损失函数,具体包括如下步骤:
基于所述全局特征向量和属性特征向量,获得预测单词;
将所述预测单词输入嵌入层得到预测单词向量xt
将所述预测单词向量xt嵌入到文本LSTM,得到文本LSTM前向隐藏层序列
Figure GDA0004051167590000032
和文本LSTM后向隐藏层序列
Figure GDA0004051167590000033
将所述文本LSTM前向隐藏层序列
Figure GDA0004051167590000034
和文本LSTM后向隐藏层序列
Figure GDA0004051167590000035
嵌入到多模态LSTM,得到多模态LSTM前向隐藏层序列
Figure GDA0004051167590000036
和多模态LSTM后向隐藏层序列
Figure GDA0004051167590000037
基于所述多模态LSTM前向隐藏层序列
Figure GDA0004051167590000038
和多模态LSTM后向隐藏层序列
Figure GDA0004051167590000039
使用softmax函数得到最大概率对应的单词wt
基于所述最大概率对应的单词wt得到前向联合损失函数和后向联合损失函数。
进一步,所述得到文本LSTM前向隐藏层序列
Figure GDA0004051167590000041
和文本LSTM后向隐藏层序列
Figure GDA0004051167590000042
包括如下步骤:
基于所述预测单词向量xt得到前向句子
Figure GDA0004051167590000043
和后向句子
Figure GDA0004051167590000044
对所述前向句子
Figure GDA0004051167590000045
和后向句子
Figure GDA0004051167590000046
编码,得到文本STM前向隐藏层序列
Figure GDA0004051167590000047
和文本LSTM后向隐藏层序列
Figure GDA0004051167590000048
另一方面,本发明实施例提供了一种基于多特征提取的图像语义描述系统,包括:
全局特征向量获取模块,用于将待语义描述的图像输入全局特征提取模型得到图像的全局特征向量;
属性特征向量获取模块,用于提取所述图像的属性特征向量;所述属性特征包括图像的轮廓、纹理与位置信息;
联合损失函数获得模块,用于将所述全局特征向量和属性特征向量同时输入到双向长短时记忆网络,得到前向联合损失函数和后向联合损失函数;
语义描述获得模块,用于对所述前向联合损失函数和后向联合损失函数累加求和,当所述和最小时,获得与所述图像最佳匹配的语义描述。
进一步,所述属性特征向量获取模块建立属性特征提取模型的步骤如下:
建立属性特征提取基础模型,所述属性特征提取基础模型包括变更后的SSD网络、先验框模块和列向量最大化模块;
所述变更后的SSD网络以Resnet-50残差结构代替SSD网络的前置网络后得到;所述变更后的SSD网络包括特征提取层,所述特征提取层用于对输入图像进行特征映射获得特征图;
所述先验框模块,用于基于不同的特征图,设置不同尺寸的先验框,利用设置的所述不同尺寸的先验框获得对应特征图的属性检测矩阵;
所述列向量最大化模块,用于对所述属性检测矩阵进行列向量最大化,得到属性特征向量;
输入训练图像对建立的所述基础模型进行训练,得到所述属性特征提取模型。
进一步,所述属性特征向量获取模块通过下述步骤获得属性特征向量:
将图像输入属性特征提取模型:
基于特征提取层,获得所述图像的特征图;
基于先验框,获得所述特征图的属性检测矩阵;
基于列向量最大化模块,获得属性特征向量。
进一步,所述联合损失函数获得模块通过下述步骤得到前向联合损失函数和后向联合损失函数:
基于所述全局特征向量和属性特征向量,获得预测单词;
将所述预测单词输入嵌入层得到预测单词向量xt
将所述预测单词向量xt嵌入到文本LSTM,得到文本LSTM前向隐藏层序列
Figure GDA0004051167590000051
和文本LSTM后向隐藏层序列
Figure GDA0004051167590000052
将所述文本LSTM前向隐藏层序列
Figure GDA0004051167590000053
和文本LSTM后向隐藏层序列
Figure GDA0004051167590000054
嵌入到多模态LSTM,得到多模态LSTM前向隐藏层序列
Figure GDA0004051167590000055
和多模态LSTM后向隐藏层序列
Figure GDA0004051167590000056
基于所述多模态LSTM前向隐藏层序列
Figure GDA0004051167590000057
和多模态LSTM后向隐藏层序列
Figure GDA0004051167590000058
使用softmax函数得到最大概率对应的单词wt
基于所述最大概率对应的单词wt得到前向联合损失函数和后向联合损失函数。
与现有技术相比,本发明至少可实现如下有益效果之一:
1、与现有技术相比,本申请提供的一种基于多特征提取的图像语义描述方法,解决了现有技术提取的图像特征单一,且只能捕捉单向时序信息的问题,实现了多个图像特征的提取,同时,双向长短时记忆网络能够捕捉双向时序信息,使得单词之间的依赖性更高,获得的语义描述效果更加精确。
2、在建立属性特征提取模型的过程中,使用Resnet-50残差结构代替原来的VGG16作为SSD网络的前置网络,并增加了特征提取层,解决了输入图像的目标尺度小、分辨率低等问题,提高了SSD网络的特征提取能力。
3、通过双向长短时记忆网络捕捉双向时序信息,使得单词之间的依赖性更高,解决了LSTM只能捕捉单向时序信息的问题,提高了语义描述效果的准确度。
4、基于前向联合损失函数和后向联合损失函数累加求和,最终得到期望序列,使用数学表达的方式将联合损失函数量化,简单易行,提高了可信度,使得语义描述结果更加精确、可靠。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为基于多特征提取的图像语义描述方法示意图;
图2为基于多特征提取的图像语义描述方法流程图;
图3为一个实施例中建立属性特征提取模型的示意图;
图4为一个实施例中提取图像属性特征向量的流程图;
图5为一个实施例中双向长短时记忆网络内部结构图;
图6为另一个实施例中基于多特征提取的图像语义描述系统结构图;
附图标记:
1000-全局特征向量获取模块;2000-属性特征向量获取模块;3000-联合损失函数获得模块;4000-语义描述获得模块。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
相对于现有技术,本申请提供了一种基于多特征提取的图像语义描述方法,如图1所示。对于输入的图像,通过全局特征提取模型得到图像的全局特征向量Vimg,通过属性特征提取模型得到图像的属性特征向量Vatt,然后将Vimg和Vatt同时输入双向长短时记忆网络,得到联合损失函数,当联合损失函数最小时,获得与输入图像匹配的语义描述。
本发明的一个具体实施例,公开了一种基于多特征提取的图像语义描述方法,如图2所示。包括如下步骤:
S1、将待语义描述的图像输入全局特征提取模型得到图像的全局特征向量。
全局特征提取模型是图像处理的一种基本模型,提取全局特征是为了得到图像的重要信息,包括图像的颜色、纹理、轮廓和位置信息,这些信息就用得到的全局特征向量表示。例如输入的图像中有一个女生,就会得到作为女生的全局特征,例如长发、衣服的颜色、脸轮廓等。
具体的,提取图像的全局特征向量包括:对于全局特征提取模型,输入图像经过多层卷积核,在每层中,有多少个卷积核,经过此卷积核就会产生多少个特征图,随着网络的加深,特征图的长宽尺寸缩小,此卷积层提取的每个特征图越具有代表性。最后一层为全连阶层,经过此层得到的向量作为图像的全局特征向量。
通过提取待语义描述的图像的全局特征向量,实现了全局特征向量的提取,为后续进行图像语义描述做了支撑,对最终得到精确的语义描述具有重要的意义。
S2、提取所述图像的属性特征向量;所述属性特征包括纹理、轮廓与位置信息。
现有的语义描述方法在基于编码及解码的框架性下,取得了不错的描述效果,但是仅仅只是提取了图像的单一特征,单一的图像特征不足以描述完整的图像信息,造成图像描述的结果精确度低。因此,本申请在提取全局特征向量的同时,通过建立属性特征提取模型获得图像的属性特征向量,使用提取的多个特征描述图像的语义,增强了图像的语义描述精度。
优选地,将所述图像输入属性特征提取模型提取得到图像的属性特征向量,所述属性特征提取模型通过如下步骤得到:
建立属性特征提取基础模型,所述属性特征提取基础模型包括变更后的SSD网络、先验框模块和列向量最大化模块;所述变更后的SSD网络以Resnet-50残差结构代替SSD网络的前置网络后得到;所述变更后的SSD网络包括特征提取层,所述特征提取层用于对输入图像进行特征映射获得特征图;所述先验框模块,用于基于不同的特征图,设置不同尺寸的先验框,利用设置的所述不同尺寸的先验框获得对应特征图的属性检测矩阵;所述列向量最大化模块,用于对所述属性检测矩阵进行列向量最大化,得到属性特征向量;
输入训练图像对建立的所述基础模型进行训练,得到所述属性特征提取模型。
具体的,建立的属性特征提取模型包括变更后的SSD网络、先验框模块和列向量最大化模块。其中,变更后的SSD网络由Resnet-50残差结构代替VGG16网络得到,是对原有的SSD网络中的前置网络的改进。如图3所示,变更后的SSD网络包括7个特征提取层,其中,4个特征提取层设置在Resnet-50残差结构中。基于特征提取层进行特征映射可以得到特征图。先验框模块可以得到特征图的属性检测矩阵,具体包括:基于每一个先验框得到一个特征矩阵,将得到的所有特征矩阵进行concat函数合并计算得到属性检测矩阵。列向量最大化模块是对先验框模块得到的属性检测矩阵进行列向量最大化,得到图像的属性特征向量。
传统的卷积网络或者全连接网络在信息传递的时候或多或少会存在信息丢失、损耗等问题,同时还有导致梯度消失或者梯度爆炸,导致很深的网络无法训练,ResNet在一定程度上解决了这个问题,通过直接将输入信息绕道传到输出,保护信息的完整性,整个网络只需要学习输入、输出差别的那一部分,简化学习目标和难度。在SSD网络中,使用Resnet-50残差结构代替原来的VGG16网络后,SSD网络中其他的特征提取层任然不变。使用Resnet-50残差结构代替原来的VGG16作为SSD网络的前置网络,并增加了特征提取层,解决了输入图像的目标尺度小、分辨率低等问题,提高了SSD网络的特征提取能力。
优选地,所述先验框尺寸的计算公式为:
Figure GDA0004051167590000091
其中,Sk为先验框相对于图像所占的比例,Smin和Smax分别为先验框相对于图像所占比例的最大值和最小值,n为特征图个数。对于先验框的长宽比ar,一般选取
Figure GDA0004051167590000101
则每个先验框的宽
Figure GDA0004051167590000102
Figure GDA0004051167590000103
分别为:
Figure GDA0004051167590000104
先验框的中心点为
Figure GDA0004051167590000105
i,j∈[0,|fk|],|fk|为第k个特征图的大小。
输入的图像经过该属性特征提取模型,可获得更加完整的图像信息,解决了全局特征提取模型在特征提取过程中由于丢失了重要信息使得获得的全局特征粗糙的问题,在提取的全局特征的基础上,再提取属性特征,实现了特征信息提取的完整化,增强了图像的语义表达效果。
优选地,如图4所示,所述将图像输入属性特征提取模型得到图像的属性特征向量,包括如下步骤:
S220、将图像输入属性特征提取模型。
S240、基于特征提取层,获得输入所述图像的特征图。输入的图像经过特征提取层即可获得特征图。
S260、基于先验框,获得所述特征图的属性检测矩阵。
具体的,获得属性检测矩阵的方法与提取全局特征的步骤相似,在每层特征图中,基于多层卷积核得到先验框的大小以及位置,基于每一个先验框得到一个特征矩阵,最后,将得到的所有特征矩阵进行concat函数合并计算得到属性检测矩阵。经过多个不同属性检测矩阵的叠加,最终获得图像的属性特征。多个特征提取层与多个先验框的组合,使得提取的图像特征更加完善,提高了语义描述的精度。
S280、基于列向量最大化模块,获得属性特征向量。
具体的,基于上述步骤S260获得的属性检测矩阵,列向量最大化模块通过下述公式得到属性特征向量:
Figure GDA0004051167590000111
其中,Vatt为属性特征向量,
Figure GDA0004051167590000112
为属性检测矩阵,i,j分别为属性检测矩阵的一个行元素或列元素,m为先验框数,c为训练得到的检测矩阵类别数,本实施例中,取m=14658,c=300。
采用属性特征提取模型得到图像的属性特征向量,解决了全局特征提取模型由于丢失了重要信息造成了获得的全局特征粗糙的问题,实现了特征信息提取的完整化,增强了图像的语义表达效果。
S3、将所述全局特征向量和属性特征向量同时输入到双向长短时记忆网络,得到前向联合损失函数和后向联合损失函数。
LSTM作为RNN的一种变体,解决了训练过程中梯度消失和梯度爆炸的问题,但是,LSTM只能够捕捉单相时序信息,对语义描述的精确度较低。而Bi-LSTM的提出是为了更好地对输入数据进行表达,解决了LSTM只能够捕捉单相时序信息的问题。对于很多的数据,如声音和文本,一句话的内容与上下文都有联系,Bi-LSTM可以通过使用对正向的时间序列和反向的时间序列分别进行训练得到与图像相似度最高的词向量的概率,通过该词向量组成的句子可以获得上下文的语义描述。Bi-LSTM包括前向的LSTM和后向的LSTM,LSTM主要通过对旧信息的遗忘和新信息的记忆,使得后续时刻计算的重要信息得以传递,而无用的信息被丢弃,并在每个时刻输出隐层状态。同时,Bi-LSTM可以避免梯度消失问题,能够捕捉双向语义依赖,提高模型对图像的语义描述性能。
具体地,如图5所示,双向长短时记忆网络依次包括嵌入层、文本LSTM(T-LSTM)、多模态LSTM(M-LSTM)和Softmax概率计算层。优选的,将全局特征和属性特征同时输入到双向长短时记忆网络,得到前向联合损失函数和后向联合损失函数,具体包括如下步骤:
S310、基于所述全局特征向量和属性特征向量,获得预测单词。具体的,随机梯度下降(SDG)方法是现有的一种实现端到端的训练方法,在训练过程中,双向长短时记忆网络会对输入的全局特征向量和语义特征向量进行识别训练,使其基于全局特征向量和语义特征向量具有直接获得预测单词的效果。在该步骤中,双向长短时记忆网络是已经被随机梯度下降(SDG)方法训练过的网络,当输入全局特征向量和属性特征向量,可直接获得预测单词。
S320、将所述预测单词输入嵌入层得到预测单词向量xt。嵌入层是双向长短时记忆网络必不可少的处理层,能够将嵌入的单词转化为向量的形式。
S330、将所述预测单词向量xt嵌入到文本LSTM,得到文本LSTM前向隐藏层序列
Figure GDA0004051167590000121
和文本LSTM后向隐藏层序列
Figure GDA0004051167590000122
具体包括如下两个步骤:
S331、基于所述预测单词向量xt得到前向句子
Figure GDA0004051167590000123
和后向句子
Figure GDA0004051167590000124
具体的,xt为单词向量,通过单词的组合可得到不同的句子,由于xt为矢量形式,故其组合得到的句子也为矢量形式,分为前向句子
Figure GDA0004051167590000125
和后向句子
Figure GDA0004051167590000126
S332、对所述前向句子
Figure GDA0004051167590000127
和后向句子
Figure GDA0004051167590000128
编码,得到文本STM前向隐藏层序列
Figure GDA0004051167590000129
和文本LSTM后向隐藏层序列
Figure GDA00040511675900001210
具体的,通过如下公式实现:
Figure GDA00040511675900001211
Figure GDA00040511675900001212
上式中,
Figure GDA00040511675900001213
Figure GDA00040511675900001214
分别为从T-LSTM网络学习得到的前向嵌入矩阵和后向嵌入矩阵,
Figure GDA00040511675900001215
Figure GDA00040511675900001216
分别为前向句子和后向句子,
Figure GDA00040511675900001217
Figure GDA00040511675900001218
分别为从T-LSTM网络学习得到的前向和后向对应的权重,T代表T-LSTM。
S340、将所述文本LSTM前向隐藏层序列
Figure GDA00040511675900001219
和文本LSTM后向隐藏层序列
Figure GDA0004051167590000131
嵌入到多模态LSTM,得到多模态LSTM前向隐藏层序列
Figure GDA0004051167590000132
和多模态LSTM后向隐藏层序列
Figure GDA0004051167590000133
具体的,通过如下公式实现:
Figure GDA0004051167590000134
Figure GDA0004051167590000135
上式中,Vimg为全局特征向量,
Figure GDA0004051167590000136
Figure GDA0004051167590000137
分别为从M-LSTM网络学习得到的前向和后向对应的权重,M代表M-LSTM。
S350、基于所述多模态LSTM前向隐藏层序列
Figure GDA0004051167590000138
和多模态LSTM后向隐藏层序列
Figure GDA0004051167590000139
使用softmax函数得到最大概率对应的单词wt。具体的,通过下述公式实现:
Figure GDA00040511675900001310
Figure GDA00040511675900001311
上式中,
Figure GDA00040511675900001312
Figure GDA00040511675900001313
分别为前向句子和后向句子对应的最大概率,Ws和bs分别为从Bi-LSTM网络中学习得到的权重矩阵和权重向量。
S360、基于所述最大概率对应的单词wt得到前向联合损失函数和后向联合损失函数。
通过双向长短时记忆网络,得到了前向句子和后向句子对应的最大概率,因此从前向句子和后向句子可以得到最大概率对应的单词wt。对最大概率对应的单词wt进行重新组合,即可得到期望序列I。前向联合损失函数
Figure GDA00040511675900001314
和后向联合损失函数
Figure GDA00040511675900001315
均由最大概率对应的单词wt和期望序列I获得,公式如下:
Figure GDA00040511675900001316
Figure GDA0004051167590000141
上式中,T为期望序列I的长度,p()为期望序列I的概率,wt为最大概率对应的一个单词。
S4、对所述前向联合损失函数和后向联合损失函数累加求和,当所述和最小时,提取得到与所述图像最佳匹配的语义描述。
基于最大概率对应的单词w可以获得联合损失函数,其中,前向联合损失函数
Figure GDA0004051167590000142
与后向联合损失函数
Figure GDA0004051167590000143
的累加求和为联合损失函数L,即
Figure GDA0004051167590000144
联合损失函数L(lossfunction)是用来估量预测值与真实值不一致程度,联合损失函数值越小,拟合度越高,即预测值与真实值最接近,最后生成的语句与图像相关度就越高。因此,当联合损失函数L最小时,即前向联合损失函数和后向联合损失函数计算公式中的p最大,计算公式如下所示:
Figure GDA0004051167590000145
Figure GDA0004051167590000146
Figure GDA0004051167590000147
当通过上式得到的期望序列p(wt|I)最大时,联合损失函数值越小,预测值与真实值最接近,最后期望序列I与图像相关度就越高,期望序列I即为与图像最为匹配的语义描述。
基于前向联合损失函数和后向联合损失函数累加求和,最终得到期望序列,使用数学表达的方式将联合损失函数量化,简单易行,提高了体验度,使得语义描述结果更加精确、可靠。
与现有技术相比,本申请提供的一种基于多特征提取的图像语义描述方法,解决了现有技术提取的图像特征单一,且只能捕捉单向时序信息的问题,实现了多个图像特征的提取,同时,双向长短时记忆网络能够捕捉双向时序信息,使得单词之间的依赖性更高,获得的语义描述效果更加精确。
本发明的另一个实施例,如图6所示,提供了一种基于多特征提取的图像语义描述系统,包括如下模块:
全局特征向量获取模块1000,用于将待语义描述的图像输入全局特征提取模型得到图像的全局特征向量;
属性特征向量获取模块2000,用于提取所述图像的属性特征向量;其中,属性特征包括图像的轮廓、纹理与位置信息;
联合损失函数获得模块3000,用于将所述全局特征向量和属性特征向量同时输入到双向长短时记忆网络,得到前向联合损失函数和后向联合损失函数;
语义描述获得模块4000,用于对所述前向联合损失函数和后向联合损失函数累加求和,当所述和最小时,获得与所述图像最佳匹配的语义描述。
一种基于多特征提取的图像语义描述系统,解决了现有技术提取的图像特征单一,且只能捕捉单向时序信息的问题,实现了多个图像特征的提取,同时,双向长短时记忆网络能够捕捉双向时序信息,使得单词之间的依赖性更高,获得的语义描述效果更加精确。
优选的,所述属性特征向量获取模块建立属性特征提取模型的步骤如下:
建立属性特征提取基础模型,所述属性特征提取基础模型包括变更后的SSD网络、先验框模块和列向量最大化模块;
所述变更后的SSD网络以Resnet-50残差结构代替SSD网络的前置网络后得到;所述变更后的SSD网络包括特征提取层,所述特征提取层用于对输入图像进行特征映射获得特征图;
所述先验框模块,用于基于不同的特征图,设置不同尺寸的先验框,利用设置的所述不同尺寸的先验框获得对应特征图的属性检测矩阵;
所述列向量最大化模块,用于对所述属性检测矩阵进行列向量最大化,得到属性特征向量;
输入训练图像对建立的所述基础模型进行训练,得到所述属性特征提取模型。
优选的,所述属性特征向量获取模块通过下述步骤获得属性特征向量:
将图像输入属性特征提取模型:
基于特征提取层,获得所述图像的特征图;
基于先验框,获得所述特征图的属性检测矩阵;
基于列向量最大化模块,获得属性特征向量。
通过属性特征向量获取模块,建立了属性特征提取模型,获得了属性特征向量,解决了现有技术获得的图像特征单一的问题,使得图像特征更加完整化,提高了语义描述的效果。
优选的,所述联合损失函数获得模块通过下述步骤得到前向联合损失函数和后向联合损失函数:
基于所述全局特征向量和属性特征向量,根据随机梯度下降模型得到预测单词;
将所述预测单词输入嵌入层得到预测单词向量xt
将所述预测单词向量xt嵌入到文本LSTM,得到文本LSTM前向隐藏层序列
Figure GDA0004051167590000161
和文本LSTM后向隐藏层序列
Figure GDA0004051167590000162
将所述文本LSTM前向隐藏层序列
Figure GDA0004051167590000163
和文本LSTM后向隐藏层序列
Figure GDA0004051167590000164
嵌入到多模态LSTM,得到多模态LSTM前向隐藏层序列
Figure GDA0004051167590000165
和多模态LSTM后向隐藏层序列
Figure GDA0004051167590000166
基于所述多模态LSTM前向隐藏层序列
Figure GDA0004051167590000167
和多模态LSTM后向隐藏层序列
Figure GDA0004051167590000171
使用softmax函数得到最大概率对应的单词w;
基于所述最大概率对应的单词w得到前向联合损失函数和后向联合损失函数。
通过联合损失函数获得模块,实现了双向长短时记忆网络对双向时序信息的捕捉,解决了现有技术只能捕捉单向时序信息的问题,使得单词之间的依赖性更高。同时,通过语义描述获得模块,使用数学表达的方式将联合损失函数量化,简单易行,提高了体验度,使得语义描述结果更加精确、可靠。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种基于多特征提取的图像语义描述方法,其特征在于,包括如下步骤:
将待语义描述的图像输入全局特征提取模型得到图像的全局特征向量;
提取所述图像的属性特征向量;其中,属性特征包括图像的轮廓、纹理与位置信息;
将所述全局特征向量和属性特征向量同时输入到双向长短时记忆网络,得到前向联合损失函数和后向联合损失函数;
对所述前向联合损失函数和后向联合损失函数累加求和,当所述和最小时,获得与所述图像最佳匹配的语义描述;
将所述全局特征和属性特征同时输入到双向长短时记忆网络,得到前向联合损失函数和后向联合损失函数,具体包括如下步骤:
基于所述全局特征向量和属性特征向量,获得预测单词;
将所述预测单词输入嵌入层得到预测单词向量xt
将所述预测单词向量xt嵌入到文本LSTM,得到文本LSTM前向隐藏层序列
Figure FDA0004051167580000011
和文本LSTM后向隐藏层序列
Figure FDA0004051167580000012
将所述文本LSTM前向隐藏层序列
Figure FDA0004051167580000013
和文本LSTM后向隐藏层序列
Figure FDA0004051167580000014
嵌入到多模态LSTM,得到多模态LSTM前向隐藏层序列
Figure FDA0004051167580000015
和多模态LSTM后向隐藏层序列
Figure FDA0004051167580000016
基于所述多模态LSTM前向隐藏层序列
Figure FDA0004051167580000017
和多模态LSTM后向隐藏层序列
Figure FDA0004051167580000018
使用softmax函数得到最大概率对应的单词wt
基于所述最大概率对应的单词wt得到前向联合损失函数和后向联合损失函数。
2.根据权利要求1所述的方法,其特征在于,将所述图像输入属性特征提取模型提取得到图像的属性特征向量,所述属性特征提取模型通过如下步骤得到:
建立属性特征提取基础模型,所述属性特征提取基础模型包括变更后的SSD网络、先验框模块和列向量最大化模块;
所述变更后的SSD网络以Resnet-50残差结构代替SSD网络的前置网络后得到;所述变更后的SSD网络包括特征提取层,所述特征提取层用于对输入图像进行特征映射获得特征图;
所述先验框模块,用于基于不同的特征图,设置不同尺寸的先验框,利用设置的所述不同尺寸的先验框获得对应特征图的属性检测矩阵;
所述列向量最大化模块,用于对所述属性检测矩阵进行列向量最大化,得到属性特征向量;
输入训练图像对建立的所述基础模型进行训练,得到所述属性特征提取模型。
3.根据权利要求2所述的方法,其特征在于,基于下述公式设置所述先验框的尺寸:
Figure FDA0004051167580000021
其中,Sk为先验框相对于图像所占的比例,Smin和Smax分别为先验框相对于图像所占比例的最大值和最小值,n为特征图的个数。
4.根据权利要求2或3所述的方法,其特征在于,所述将图像输入属性特征提取模型得到图像的属性特征向量,包括如下步骤:
将图像输入属性特征提取模型:
基于特征提取层,获得所述图像的特征图;
基于先验框,获得所述特征图的属性检测矩阵;
基于列向量最大化模块,获得属性特征向量。
5.根据权利要求1所述的方法,其特征在于,所述得到文本LSTM前向隐藏层序列
Figure FDA0004051167580000031
和文本LSTM后向隐藏层序列
Figure FDA0004051167580000032
包括如下步骤:
基于所述预测单词向量xt得到前向句子
Figure FDA0004051167580000033
和后向句子
Figure FDA0004051167580000034
对所述前向句子
Figure FDA0004051167580000035
和后向句子
Figure FDA0004051167580000036
编码,得到文本STM前向隐藏层序列
Figure FDA0004051167580000037
和文本LSTM后向隐藏层序列
Figure FDA0004051167580000038
6.一种基于多特征提取的图像语义描述系统,其特征在于,包括:
全局特征向量获取模块,用于将待语义描述的图像输入全局特征提取模型得到图像的全局特征向量;
属性特征向量获取模块,用于提取所述图像的属性特征向量;其中,属性特征包括图像的轮廓、纹理与位置信息;
联合损失函数获得模块,用于将所述全局特征向量和属性特征向量同时输入到双向长短时记忆网络,得到前向联合损失函数和后向联合损失函数;
语义描述获得模块,用于对所述前向联合损失函数和后向联合损失函数累加求和,当所述和最小时,获得与所述图像最佳匹配的语义描述;
所述联合损失函数获得模块通过下述步骤得到前向联合损失函数和后向联合损失函数,具体包括如下步骤:
基于所述全局特征向量和属性特征向量,获得预测单词;
将所述预测单词输入嵌入层得到预测单词向量xt
将所述预测单词向量xt嵌入到文本LSTM,得到文本LSTM前向隐藏层序列
Figure FDA0004051167580000039
和文本LSTM后向隐藏层序列
Figure FDA00040511675800000310
将所述文本LSTM前向隐藏层序列
Figure FDA00040511675800000311
和文本LSTM后向隐藏层序列
Figure FDA00040511675800000312
嵌入到多模态LSTM,得到多模态LSTM前向隐藏层序列
Figure FDA00040511675800000313
和多模态LSTM后向隐藏层序列
Figure FDA0004051167580000041
基于所述多模态LSTM前向隐藏层序列
Figure FDA0004051167580000042
和多模态LSTM后向隐藏层序列
Figure FDA0004051167580000043
使用softmax函数得到最大概率对应的单词wt
基于所述最大概率对应的单词wt得到前向联合损失函数和后向联合损失函数。
7.根据权利要求6所述的系统,其特征在于,所述属性特征向量获取模块建立属性特征提取模型的步骤如下:
建立属性特征提取基础模型,所述属性特征提取基础模型包括变更后的SSD网络、先验框模块和列向量最大化模块;
所述变更后的SSD网络以Resnet-50残差结构代替SSD网络的前置网络后得到;所述变更后的SSD网络包括特征提取层,所述特征提取层用于对输入图像进行特征映射获得特征图;
所述先验框模块,用于基于不同的特征图,设置不同尺寸的先验框,利用设置的所述不同尺寸的先验框获得对应特征图的属性检测矩阵;
所述列向量最大化模块,用于对所述属性检测矩阵进行列向量最大化,得到属性特征向量;
输入训练图像对建立的所述基础模型进行训练,得到所述属性特征提取模型。
8.根据权利要求6或7所述的系统,其特征在于,所述属性特征向量获取模块通过下述步骤获得属性特征向量:
将图像输入属性特征提取模型:
基于特征提取层,获得所述图像的特征图;
基于先验框,获得所述特征图的属性检测矩阵;
基于列向量最大化模块,获得属性特征向量。
CN202010306512.6A 2020-04-17 2020-04-17 一种基于多特征提取的图像语义描述方法及系统 Active CN111553371B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010306512.6A CN111553371B (zh) 2020-04-17 2020-04-17 一种基于多特征提取的图像语义描述方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010306512.6A CN111553371B (zh) 2020-04-17 2020-04-17 一种基于多特征提取的图像语义描述方法及系统

Publications (2)

Publication Number Publication Date
CN111553371A CN111553371A (zh) 2020-08-18
CN111553371B true CN111553371B (zh) 2023-04-18

Family

ID=72000180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010306512.6A Active CN111553371B (zh) 2020-04-17 2020-04-17 一种基于多特征提取的图像语义描述方法及系统

Country Status (1)

Country Link
CN (1) CN111553371B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926655B (zh) * 2021-02-25 2022-05-17 电子科技大学 一种图像内容理解与视觉问答vqa方法、存储介质和终端

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073941A (zh) * 2016-11-17 2018-05-25 江南大学 一种基于深度学习的图像语义生成方法
CN110033008B (zh) * 2019-04-29 2023-08-04 同济大学 一种基于模态变换与文本归纳的图像描述生成方法
CN110210499B (zh) * 2019-06-03 2023-10-13 中国矿业大学 一种图像语义描述的自适应生成系统
CN110390363A (zh) * 2019-07-29 2019-10-29 上海海事大学 一种图像描述方法

Also Published As

Publication number Publication date
CN111553371A (zh) 2020-08-18

Similar Documents

Publication Publication Date Title
CN110276316B (zh) 一种基于深度学习的人体关键点检测方法
CN113936339B (zh) 基于双通道交叉注意力机制的打架识别方法和装置
Zeng et al. Hand-crafted feature guided deep learning for facial expression recognition
Alajaji et al. Few-shot learning for remote sensing scene classification
CN113177141B (zh) 基于语义嵌入软相似性的多标签视频哈希检索方法及设备
CN110288665A (zh) 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备
CN110933518B (zh) 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法
US20230162522A1 (en) Person re-identification method of integrating global features and ladder-shaped local features and device thereof
CN113129234B (zh) 一种场内外特征融合的残缺图像精细修复方法
CN114549850B (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
CN113723166A (zh) 内容识别方法、装置、计算机设备和存储介质
CN110347857B (zh) 基于强化学习的遥感影像的语义标注方法
CN110991284B (zh) 一种基于场景预分类的光学遥感图像语句描述生成方法
CN111291556A (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN113836992B (zh) 识别标签的方法、训练标签识别模型的方法、装置及设备
CN106776849A (zh) 一种以图快速检索景点的方法及导游系统
CN113592007B (zh) 一种基于知识蒸馏的不良图片识别系统、方法、计算机及存储介质
CN111464881A (zh) 基于自优化机制的全卷积视频描述生成方法
CN112035689A (zh) 一种基于视觉转语义网络的零样本图像哈希检索方法
CN116933051A (zh) 一种用于模态缺失场景的多模态情感识别方法及系统
CN113420179B (zh) 基于时序高斯混合空洞卷积的语义重构视频描述方法
CN111553371B (zh) 一种基于多特征提取的图像语义描述方法及系统
CN105678349B (zh) 一种视觉词汇的上下文描述子生成方法
CN114821299A (zh) 一种遥感图像变化检测方法
CN109583371A (zh) 基于深度学习的陆标信息提取与匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant