CN107563409A - 一种基于区域图像特征关注网络与最近邻排序的描述方法 - Google Patents
一种基于区域图像特征关注网络与最近邻排序的描述方法 Download PDFInfo
- Publication number
- CN107563409A CN107563409A CN201710660329.4A CN201710660329A CN107563409A CN 107563409 A CN107563409 A CN 107563409A CN 201710660329 A CN201710660329 A CN 201710660329A CN 107563409 A CN107563409 A CN 107563409A
- Authority
- CN
- China
- Prior art keywords
- description
- image
- sentence
- concern
- arest neighbors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种基于区域图像特征关注网络与最近邻排序的描述方法,结合全局与区域性的图像特征信息,使得图像描述既能输出整体信息,又能突出细节信息;设计了挖掘深度语义信息的双层语义层和一个用来增加循环神经网络的垂直深度的栈式门循环单元,学习更具深度的图像与单词之间的语义映射;采用最近邻算法与语义相似性对生成的候选描述进行重排序,使得最终输出的句子描述更加合理。
Description
技术领域
本发明涉及计算机视觉领域,尤其涉及一种一种基于区域图像特征关注网络与最近邻排序的图像描述方法。
背景技术
图像描述的难度远远超过了已经在图像理解领域研究多年的目标检测与图像分类。首先,它不仅需要捕捉到图像中的存在的物体,还需要阐述出图像中物体之间的关系,物体的属性以及它们正在参与的活动。难度更大的是,图像描述涉及到视觉模态和语言模态的结合与转换,大量的视觉信息需要被压缩出一句满足句法与语义规则的自然语言描述。这极大地考验了计算机算法融合图像和语言等多模态信息的能力。
目前出现的图像标注的方法已经很多,本文将这些相关的方法大致归结基于管道的方法以及基于端对端的方法。在管道的方法中,图片处理和语言处理是两个分离的结构,其中图片层和语言层的两个模态之间有映射方法,检索方法,模板方法等多种处理方式。而端对端方式是将图片信息和语言信息直接联系起来,达到输入图片,输出描述的端对端处理。实践表明:基于CNN-RNN(卷积神经网络-循环神经网络)编解码框架的端对端处理方法效果最好。然而,这些方法直接从卷积神经网络的全连接层中取出激活向量输入到RNN中,忽略了图像的深层次的区域关注信息。并且这种方法容易产生不合理的描述。
很多学者在CNN-RNN编解码框架的端对端处理方法这个基础上做出探索与改进。Mao等人提出了一种多重循环神经网络(m-RNN)来用于图像描述,网络通过一个由深度单词表示向量,RNN输出激活值和CNN全局图像向量组成的多模态层来生成图像描述。Xu等人在语言模型部分用LSTM(长短期记忆网络)代替了传统的RNN,并且将图像的输入方式由每一个时间点输入改为了只在初始的时候输入一次,减小了噪音干扰,提升了输出效果。以上的方法在图像描述上取得了不错的效果,但是现在的图像描述研究经常忽视了区域的关注图像特征信息。而这些信息对于提高图像描述的输出准确率是有很大帮助的。
发明内容
本发明实施例所要解决的技术问题在于,提供一种一种基于区域图像特征关注网络与最近邻排序的描述方法。可将针对基于区域图像特征关注网络与最近邻排序的图像描述方法以提取图像区域图像关注信息和选择合理的描述。
为了解决上述技术问题,本发明实施例提供了一种基于区域图像特征关注网络与最近邻排序的描述方法,包括以下步骤:
S1:采用Googlenet模型作为CNN初始模型,从全连接层中取出图像的特征参数向量作为图像的全局视觉表示;
S2:将所述图片输入到VGGnet CNN(深度卷积神经网络)模型中,从VGGnet第五卷积层的第三层中取出区域性图像卷积化特征关注映射;
S3:将全局图像特征向量和深度语义表示输入到栈式门循环单元中,解码出图像对应的语义信息;
S4:采用注意力机制的策略,根据栈式门循环单元的隐含层输出,对区域性图像卷积化特征关注映射进行权重赋值,形成上下文向量,引导系统对区域性图像信息的关注;
S5:用变式双曲正切函数将栈式门循环单元的隐含层输出与上下文向量通过一个双模态层结合起来,采用集束搜索算法生成候选的图像描述;
S6:在MSCOCO数据集上运用最邻近算法找到最接近的图像及其句子描述,形成参考句子描述,最后计算候选描述与参考描述间的累积语义相似性,选出最终的句子描述。
进一步地,所述步骤S3中,栈式门循环单元的语义信息解码训练函数为:θ*=argmaxθΣilogp(s1:L|vI,θ),其中vI代表全局图像特征,s1:L代表深度语义表示。
更进一步地,所述步骤S4中,表示区域图像关注信息的上下文向量为zt,获得上下文向量的过程如下:
S41:通过权重和局部信息进行加权处理,得到上下文向量zt=∑iαtiαi,其中[a1,a2,...,aL]是从低维卷积层获取到的L维局部图像特征向量,αti是根据注意力机制权重计算函数获取得到的权重;
S42:αti代表着第t个时刻第i个区域的关注权重,其中eti为中间权重,αti是对中间权重eti的softmax归一化处理;
S43:中间权重eti的计算公式为eti=tanh(W·ai+V·ht-1),其中W,V为投影矩阵,其映射隐含层的输出和局部图像特征到一个相应的空间来生成中间权重向量eti。
更进一步地,所述步骤S5中,双模态层的结合方式为Obm=g(V·rt+W·zt),其中为用来加快训练过程的变式双曲正切函数,rt为栈式门循环单元的隐含层输出,利用集束搜索算法产生m个候选描述的表达式为:h=argmaxmp(S|It)。
更进一步地,所述步骤S6中,通过衡量图像的相似性和描述间的相似性来选择最佳的句子描述,选择的过程如下:
S61:首先测量测试图像与数据集图像的相似性,相似性计算函数选择相关性距离:x1与x2是两个n维向量,与是其均值,||(*)||2是二范数表达式;
S62:通过S61得到图像的相似性后,选择距离属于最近邻的90张图片,将图片自带的句子描述挑选出来作为参考描述,挑选函数如下:r=argminnD(It,Ic),
S63:通过测量候选描述与参考描述语义相似性,得到选择出最终的最佳描述,选择函数如下:其中用于计算c1,c2之间的相关性,H是句子描述候选集合,R是句子参考描述的集合,J是随机提取R中的一个子集,其中数量大小为125,C*是网络最终选择的句子描述。
实施本发明实施例,具有如下有益效果:本发明的方法采用深度学习的方法,对现有大型卷积神经网络进行调整,输出图像的特征参数矩阵作为图像的全局视觉表示;利用注意力关注机制,在卷积层中提取局部图像特征进行关注,模型挖掘出不同层次图像与描述的对应关系去学习图像与单词的深度映射;将全局,区域视觉图像信息和循环神经网络的解码信息相结合,建立一个双模态的深度神经网络算法模型;利用大规模带描述的MSCOCO数据集进行模型参数训练,通过最优化句子描述的概率密度函数,得到最佳的模型参数;采用最邻近方法对模型生成的图像描述顺序进行了重排,在图像数据集中计算图像间的特征相关性,再根据图像描述间的语义相似性对描述的优先级进行重排序,选择最佳的句子描述。本发明用结合全局与区域性的图像特征信息,使得图像描述既能输出整体信息,又能突出细节信息;设计了挖掘深度语义信息的双层语义层和一个用来增加循环神经网络的垂直深度的栈式门循环单元,学习更具深度的图像与单词之间的语义映射;采用最近邻算法与语义相似性对生成的候选描述进行重排序,使得最终输出的句子描述更加合理。
附图说明
图1是本发明模型的总体流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
本发明实施例的一种基于区域图像特征关注网络与最近邻排序的描述方法,包括以下步骤:
S1:采用Googlenet模型作为CNN(卷积神经网络)初始模型,从全连接层中取出图像的特征参数向量作为图像的全局视觉表示;
S2:将所述图片输入到VGGnet CNN(深度卷积神经网络)模型中,从VGGnet第五卷积层的第三层中取出区域性图像卷积化特征关注映射;
S3:将全局图像特征向量和深度语义表示输入到栈式门循环单元中,解码出图像对应的语义信息;
S4:采用注意力机制的策略,根据栈式门循环单元的隐含层输出,对区域性图像卷积化特征关注映射进行权重赋值,形成上下文向量,引导系统对区域性图像信息的关注;
S5:用变式双曲正切函数将栈式门循环单元的隐含层输出与上下文向量通过一个双模态层结合起来,采用集束搜索算法生成候选的图像描述;
S6:在MSCOCO数据集上运用最邻近算法找到最接近的图像及其句子描述,形成参考句子描述,最后计算候选描述与参考描述间的累积语义相似性,选出最终的句子描述。
在步骤S3中,栈式门循环单元的语义信息解码训练函数为:θ*=argmaxθ∑ilogp(s1:L|vI,θ),其中vI代表全局图像特征,s1:L代表深度语义表示。
在步骤S4中,表示区域图像关注信息的上下文向量为zt,获得上下文向量的过程如下:
S41:通过权重和局部信息进行加权处理,得到上下文向量zt=∑iαtiαi,其中[a1,a2,…,aL]是从低维卷积层获取到的L维局部图像特征向量,αti是根据注意力机制权重计算函数获取得到的权重;
S42:αti代表着第t个时刻第i个区域的关注权重,其中eti为中间权重,αti是对中间权重eti的softmax(回归模型)归一化处理;
S43:中间权重eti的计算公式为eti=tanh(W·ai+V·ht-1),其中W,V为投影矩阵,其映射隐含层的输出和局部图像特征到一个相应的空间来生成中间权重向量eti。
在步骤S5中,双模态层的结合方式为Obm=g(V·rt+W·zt),其中为用来加快训练过程的变式双曲正切函数,rt为栈式门循环单元的隐含层输出,利用集束搜索算法产生m个候选描述的表达式为:h=argmaxmp(S|It)。
在步骤S6中,通过衡量图像的相似性和描述间的相似性来选择最佳的句子描述,选择的过程如下:
S61:首先测量测试图像与数据集图像的相似性,相似性计算函数选择相关性距离:x1与x2是两个n维向量,与是其均值,||(*)||2是二范数表达式;
S62:通过S61得到图像的相似性后,选择距离属于最近邻的90张图片,将图片自带的句子描述挑选出来作为参考描述,挑选函数如下:r=argminnD(It,Ic),
S63:通过测量候选描述与参考描述语义相似性,得到选择出最终的最佳描述,选择函数如下:其中用于计算c1,c2之间的相关性,H是句子描述候选集合,R是句子参考描述的集合,J是随机提取R中的一个子集,其中数量大小为125,C*是网络最终选择的句子描述。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (5)
1.一种基于区域图像特征关注网络与最近邻排序的描述方法,其特征在于,包括以下步骤:
S1:采用Googlenet模型作为CNN初始模型,从全连接层中取出图像的特征参数向量作为图像的全局视觉表示;
S2:将所述图片输入到VGGnet CNN模型中,从VGGnet第五卷积层的第三层中取出区域性图像卷积化特征关注映射;
S3:将全局图像特征向量和深度语义表示输入到栈式门循环单元中,解码出图像对应的语义信息;
S4:采用注意力机制的策略,根据栈式门循环单元的隐含层输出,对区域性图像卷积化特征关注映射进行权重赋值,形成上下文向量,引导系统对区域性图像信息的关注;
S5:用变式双曲正切函数将栈式门循环单元的隐含层输出与上下文向量通过一个双模态层结合起来,采用集束搜索算法生成候选的图像描述;
S6:在MSCOCO数据集上运用最邻近算法找到最接近的图像及其句子描述,形成参考句子描述,最后计算候选描述与参考描述间的累积语义相似性,选出最终的句子描述。
2.根据权利要求1所述的基于区域图像特征关注网络与最近邻排序的描述方法,其特征在于,
所述步骤S3中,栈式门循环单元的语义信息解码训练函数为:θ*=argmaxθ∑ilogp(s1:L|vI,θ),其中vI代表全局图像特征,s1:L代表深度语义表示。
3.根据权利要求2所述的基于区域图像特征关注网络与最近邻排序的描述方法,其特征在于,
所述步骤S4中,表示区域图像关注信息的上下文向量为zt,获得上下文向量的过程如下:
S41:通过权重和局部信息进行加权处理,得到上下文向量zt=∑iαtiαi,其中[a1,a2,…,aL]是从低维卷积层获取到的L维局部图像特征向量,αti是根据注意力机制权重计算函数获取得到的权重;
S42:αti代表着第t个时刻第i个区域的关注权重,其中eti为中间权重,αti是对中间权重eti的softmax归一化处理;
S43:中间权重eti的计算公式为eti=tanh(W·αi+V·ht-1),其中W,V为投影矩阵,其映射隐含层的输出和局部图像特征到一个相应的空间来生成中间权重向量eti。
4.根据权利要求3所述的基于区域图像特征关注网络与最近邻排序的描述方法,其特征在于,
所述步骤S5中,双模态层的结合方式为Obm=g(V·rt+W·zt),其中为用来加快训练过程的变式双曲正切函数,rt为栈式门循环单元的隐含层输出,利用集束搜索算法产生m个候选描述的表达式为:h=argmaxmp(S|It)。
5.根据权利要求4所述的基于区域图像特征关注网络与最近邻排序的描述方法,其特征在于,
所述步骤S6中,通过衡量图像的相似性和描述间的相似性来选择最佳的句子描述,选择的过程如下:
S61:首先测量测试图像与数据集图像的相似性,相似性计算函数选择相关性距离:x1与x2是两个n维向量,与是其均值,||(*)||2是二范数表达式;
S62:通过S61得到图像的相似性后,选择距离属于最近邻的90张图片,将图片自带的句子描述挑选出来作为参考描述,挑选函数如下:r=argminnD(It,Ic),
S63:通过测量候选描述与参考描述语义相似性,得到选择出最终的最佳描述,选择函数如下:其中用于计算c1,c2之间的相关性,H是句子描述候选集合,R是句子参考描述的集合,J是随机提取R中的一个子集,其中数量大小为125,C*是网络最终选择的句子描述。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710660329.4A CN107563409B (zh) | 2017-08-04 | 2017-08-04 | 一种基于区域图像特征关注网络与最近邻排序的描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710660329.4A CN107563409B (zh) | 2017-08-04 | 2017-08-04 | 一种基于区域图像特征关注网络与最近邻排序的描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107563409A true CN107563409A (zh) | 2018-01-09 |
CN107563409B CN107563409B (zh) | 2020-12-29 |
Family
ID=60975142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710660329.4A Active CN107563409B (zh) | 2017-08-04 | 2017-08-04 | 一种基于区域图像特征关注网络与最近邻排序的描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107563409B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108491836A (zh) * | 2018-01-25 | 2018-09-04 | 华南理工大学 | 一种自然场景图像中中文文本整体识别方法 |
CN108717587A (zh) * | 2018-05-25 | 2018-10-30 | 杭州知智能科技有限公司 | 一种基于多面排序网络解决推文预测转发任务的方法 |
CN109447242A (zh) * | 2018-10-10 | 2019-03-08 | 复旦大学 | 基于迭代学习的图像描述重生成系统及方法 |
CN110502650A (zh) * | 2019-08-12 | 2019-11-26 | 深圳智能思创科技有限公司 | 一种基于自然语言描述的图像检索系统及方法 |
CN110517329A (zh) * | 2019-08-12 | 2019-11-29 | 北京邮电大学 | 一种基于语义分析的深度学习图像压缩方法 |
CN113436245A (zh) * | 2021-08-26 | 2021-09-24 | 武汉市聚芯微电子有限责任公司 | 图像处理方法、模型训练方法、相关装置及电子设备 |
CN115168281A (zh) * | 2022-09-09 | 2022-10-11 | 之江实验室 | 一种基于禁忌搜索算法的神经网络片上映射方法和装置 |
CN117348496A (zh) * | 2023-11-21 | 2024-01-05 | 广州思林杰科技股份有限公司 | 一种用于源表的数字环路控制系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778227A (zh) * | 2014-01-23 | 2014-05-07 | 西安电子科技大学 | 从检索图像中筛选有用图像的方法 |
CN105512209A (zh) * | 2015-11-28 | 2016-04-20 | 大连理工大学 | 一种基于特征自动学习的生物医学事件触发词识别方法 |
CN106126581A (zh) * | 2016-06-20 | 2016-11-16 | 复旦大学 | 基于深度学习的手绘草图图像检索方法 |
CN106777125A (zh) * | 2016-12-16 | 2017-05-31 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于神经网络及图像关注点的图像描述生成方法 |
-
2017
- 2017-08-04 CN CN201710660329.4A patent/CN107563409B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778227A (zh) * | 2014-01-23 | 2014-05-07 | 西安电子科技大学 | 从检索图像中筛选有用图像的方法 |
CN105512209A (zh) * | 2015-11-28 | 2016-04-20 | 大连理工大学 | 一种基于特征自动学习的生物医学事件触发词识别方法 |
CN106126581A (zh) * | 2016-06-20 | 2016-11-16 | 复旦大学 | 基于深度学习的手绘草图图像检索方法 |
CN106777125A (zh) * | 2016-12-16 | 2017-05-31 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于神经网络及图像关注点的图像描述生成方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108491836A (zh) * | 2018-01-25 | 2018-09-04 | 华南理工大学 | 一种自然场景图像中中文文本整体识别方法 |
CN108491836B (zh) * | 2018-01-25 | 2020-11-24 | 华南理工大学 | 一种自然场景图像中中文文本整体识别方法 |
CN108717587A (zh) * | 2018-05-25 | 2018-10-30 | 杭州知智能科技有限公司 | 一种基于多面排序网络解决推文预测转发任务的方法 |
CN108717587B (zh) * | 2018-05-25 | 2022-03-15 | 杭州一知智能科技有限公司 | 一种基于多面排序网络解决推文预测转发任务的方法 |
CN109447242A (zh) * | 2018-10-10 | 2019-03-08 | 复旦大学 | 基于迭代学习的图像描述重生成系统及方法 |
CN110502650A (zh) * | 2019-08-12 | 2019-11-26 | 深圳智能思创科技有限公司 | 一种基于自然语言描述的图像检索系统及方法 |
CN110517329A (zh) * | 2019-08-12 | 2019-11-29 | 北京邮电大学 | 一种基于语义分析的深度学习图像压缩方法 |
CN110517329B (zh) * | 2019-08-12 | 2021-05-14 | 北京邮电大学 | 一种基于语义分析的深度学习图像压缩方法 |
CN113436245A (zh) * | 2021-08-26 | 2021-09-24 | 武汉市聚芯微电子有限责任公司 | 图像处理方法、模型训练方法、相关装置及电子设备 |
CN115168281A (zh) * | 2022-09-09 | 2022-10-11 | 之江实验室 | 一种基于禁忌搜索算法的神经网络片上映射方法和装置 |
CN117348496A (zh) * | 2023-11-21 | 2024-01-05 | 广州思林杰科技股份有限公司 | 一种用于源表的数字环路控制系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107563409B (zh) | 2020-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107563409A (zh) | 一种基于区域图像特征关注网络与最近邻排序的描述方法 | |
WO2023280065A1 (zh) | 一种面向跨模态通信系统的图像重建方法及装置 | |
CN110598029B (zh) | 基于注意力转移机制的细粒度图像分类方法 | |
CN111199233B (zh) | 一种改进的深度学习色情图像识别方法 | |
CN109815826B (zh) | 人脸属性模型的生成方法及装置 | |
CN110021051A (zh) | 一种基于生成对抗网络通过文本指导的人物图像生成方法 | |
CN110135295A (zh) | 一种基于迁移学习的无监督行人重识别方法 | |
CN106845499A (zh) | 一种基于自然语言语义的图像目标检测方法 | |
CN107832835A (zh) | 一种卷积神经网络的轻量化方法及装置 | |
CN115661943B (zh) | 一种基于轻量级姿态评估网络的跌倒检测方法 | |
CN109711401A (zh) | 一种基于Faster Rcnn的自然场景图像中的文本检测方法 | |
CN114049381A (zh) | 一种融合多层语义信息的孪生交叉目标跟踪方法 | |
CN113032613B (zh) | 一种基于交互注意力卷积神经网络的三维模型检索方法 | |
CN113139481B (zh) | 基于yolov3的教室人数统计方法 | |
CN110008861A (zh) | 一种基于全局和局部特征学习的行人再识别方法 | |
CN109190458A (zh) | 一种基于深度学习的小人头检测方法 | |
CN110956158A (zh) | 一种基于教师学生学习框架的遮挡行人再标识方法 | |
US20240177506A1 (en) | Method and Apparatus for Generating Captioning Device, and Method and Apparatus for Outputting Caption | |
CN112580636A (zh) | 一种基于跨模态协同推理的图像美学质量评价方法 | |
CN109903339A (zh) | 一种基于多维融合特征的视频群体人物定位检测方法 | |
CN112597324A (zh) | 一种基于相关滤波的图像哈希索引构建方法、系统及设备 | |
CN114821299B (zh) | 一种遥感图像变化检测方法 | |
CN115359366A (zh) | 基于参数优化的遥感图像目标检测方法 | |
CN115346149A (zh) | 基于时空图卷积网络的跳绳计数方法和系统 | |
CN113554653A (zh) | 基于互信息校准点云数据长尾分布的语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |