CN107563409B - 一种基于区域图像特征关注网络与最近邻排序的描述方法 - Google Patents
一种基于区域图像特征关注网络与最近邻排序的描述方法 Download PDFInfo
- Publication number
- CN107563409B CN107563409B CN201710660329.4A CN201710660329A CN107563409B CN 107563409 B CN107563409 B CN 107563409B CN 201710660329 A CN201710660329 A CN 201710660329A CN 107563409 B CN107563409 B CN 107563409B
- Authority
- CN
- China
- Prior art keywords
- image
- description
- sentence
- nearest neighbor
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
本发明实施例公开了一种基于区域图像特征关注网络与最近邻排序的描述方法,结合全局与区域性的图像特征信息,使得图像描述既能输出整体信息,又能突出细节信息;设计了挖掘深度语义信息的双层语义层和一个用来增加循环神经网络的垂直深度的栈式门循环单元,学习更具深度的图像与单词之间的语义映射;采用最近邻算法与语义相似性对生成的候选描述进行重排序,使得最终输出的句子描述更加合理。
Description
技术领域
本发明涉及计算机视觉领域,尤其涉及一种基于区域图像特征关注网络与最近邻排序的图像描述方法。
背景技术
图像描述的难度远远超过了已经在图像理解领域研究多年的目标检测与图像分类。首先,它不仅需要捕捉到图像中的存在的物体,还需要阐述出图像中物体之间的关系,物体的属性以及它们正在参与的活动。难度更大的是,图像描述涉及到视觉模态和语言模态的结合与转换,大量的视觉信息需要被压缩出一句满足句法与语义规则的自然语言描述。这极大地考验了计算机算法融合图像和语言等多模态信息的能力。
目前出现的图像标注的方法已经很多,本文将这些相关的方法大致归结基于管道的方法以及基于端对端的方法。在管道的方法中,图片处理和语言处理是两个分离的结构,其中图片层和语言层的两个模态之间有映射方法,检索方法,模板方法等多种处理方式。而端对端方式是将图片信息和语言信息直接联系起来,达到输入图片,输出描述的端对端处理。实践表明:基于CNN-RNN(卷积神经网络-循环神经网络)编解码框架的端对端处理方法效果最好。然而,这些方法直接从卷积神经网络的全连接层中取出激活向量输入到RNN中,忽略了图像的深层次的区域关注信息。并且这种方法容易产生不合理的描述。
很多学者在CNN-RNN编解码框架的端对端处理方法这个基础上做出探索与改进。Mao等人提出了一种多重循环神经网络(m-RNN)来用于图像描述,网络通过一个由深度单词表示向量,RNN输出激活值和CNN全局图像向量组成的多模态层来生成图像描述。Xu等人在语言模型部分用LSTM(长短期记忆网络)代替了传统的RNN,并且将图像的输入方式由每一个时间点输入改为了只在初始的时候输入一次,减小了噪音干扰,提升了输出效果。以上的方法在图像描述上取得了不错的效果,但是现在的图像描述研究经常忽视了区域的关注图像特征信息。而这些信息对于提高图像描述的输出准确率是有很大帮助的。
发明内容
本发明实施例所要解决的技术问题在于,提供一种一种基于区域图像特征关注网络与最近邻排序的描述方法。可将针对基于区域图像特征关注网络与最近邻排序的图像描述方法以提取图像区域图像关注信息和选择合理的描述。
为了解决上述技术问题,本发明实施例提供了一种基于区域图像特征关注网络与最近邻排序的描述方法,包括以下步骤:
S1:采用Googlenet模型作为CNN初始模型,从全连接层中取出图像的特征参数向量作为图像的全局图像特征向量;
S2:将所述图像输入到VGG net CNN(深度卷积神经网络)模型中,从VGG net第五卷积层的第三层中取出区域性图像卷积化特征关注映射;
S3:将全局图像特征向量和深度语义表示输入到栈式门循环单元中,解码出图像对应的语义信息;
S4:采用注意力机制的策略,根据栈式门循环单元的隐含层输出,对区域性图像卷积化特征关注映射进行权重赋值,形成上下文向量,引导系统对区域性图像信息的关注;
S5:用变式双曲正切函数将栈式门循环单元的隐含层输出与上下文向量通过一个双模态层结合起来,采用集束搜索算法生成候选的图像描述;
S6:在M SCO CO数据集上运用最邻近算法找到最接近的图像及其句子描述,形成参考句子描述,最后计算候选描述与参考描述间的累积语义相似性,选出最终的句子描述。
更进一步地,所述步骤S4中,表示区域图像关注信息的上下文向量为zt,获得上下文向量的过程如下:
S43:中间权重eti的计算公式为eti=tanh(W·ai+V·ht-1),其中W,V为投影矩阵,其映射隐含层的输出和局部图像特征到一个相应的空间来生成中间权重向量eti。
更进一步地,所述步骤S5中,双模态层的结合方式为Obm=g(V·rt+W·zt),其中为用来加快训练过程的变式双曲正切函数,rt为栈式门循环单元的隐含层输出,利用集束搜索算法产生m个候选描述的表达式为:
更进一步地,所述步骤S6中,通过衡量图像的相似性和描述间的相似性来选择最佳的句子描述,选择的过程如下:
S61:首先测量测试图像与数据集图像的相似性,相似性计算函数选择相关性距离:
S63:通过测量候选描述与参考描述语义相似性,得到选择出最终的最佳描述,选择函数如下:
实施本发明实施例,具有如下有益效果:本发明的方法采用深度学习的方法,对现有大型卷积神经网络进行调整,输出图像的特征参数矩阵作为图像的全局视觉表示;利用注意力关注机制,在卷积层中提取局部图像特征进行关注,模型挖掘出不同层次图像与描述的对应关系去学习图像与单词的深度映射;将全局,区域视觉图像信息和循环神经网络的解码信息相结合,建立一个双模态的深度神经网络算法模型;利用大规模带描述的M SCOCO数据集进行模型参数训练,通过最优化句子描述的概率密度函数,得到最佳的模型参数;采用最邻近方法对模型生成的图像描述顺序进行了重排,在图像数据集中计算图像间的特征相关性,再根据图像描述间的语义相似性对描述的优先级进行重排序,选择最佳的句子描述。本发明用结合全局与区域性的图像特征信息,使得图像描述既能输出整体信息,又能突出细节信息;设计了挖掘深度语义信息的双层语义层和一个用来增加循环神经网络的垂直深度的栈式门循环单元,学习更具深度的图像与单词之间的语义映射;采用最近邻算法与语义相似性对生成的候选描述进行重排序,使得最终输出的句子描述更加合理。
附图说明
图1是本发明模型的总体流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
本发明实施例的一种基于区域图像特征关注网络与最近邻排序的描述方法,包括以下步骤:
S1:采用Googlenet模型作为CNN(卷积神经网络)初始模型,从全连接层中取出图像的特征参数向量作为图像的全局图像特征向量;
S2:将所述图像输入到VGG net CNN(深度卷积神经网络)模型中,从VGG net第五卷积层的第三层中取出区域性图像卷积化特征关注映射;
S3:将全局图像特征向量和深度语义表示输入到栈式门循环单元中,解码出图像对应的语义信息;
S4:采用注意力机制的策略,根据栈式门循环单元的隐含层输出,对区域性图像卷积化特征关注映射进行权重赋值,形成上下文向量,引导系统对区域性图像信息的关注;
S5:用变式双曲正切函数将栈式门循环单元的隐含层输出与上下文向量通过一个双模态层结合起来,采用集束搜索算法生成候选的图像描述;
S6:在M SCO CO数据集上运用最邻近算法找到最接近的图像及其句子描述,形成参考句子描述,最后计算候选描述与参考描述间的累积语义相似性,选出最终的句子描述。
在步骤S3中,栈式门循环单元的语义信息解码训练函数为:其中vI代表全局图像特征,s1:L代表深度语义表示,θ指代的在优化过程中所有可训练参数的集合,公式代表的是得到使得得到最大值的参数θ*,代表的是在视觉信息vI下,得到描述s1:L的累计概率。s1:L代表的是生成的句子,其中i∈[1,L],代表生成长度为L的句子的某个时刻。
在步骤S4中,表示区域图像关注信息的上下文向量为zi,获得上下文向量的过程如下:
S43:中间权重eti的计算公式为eti=tanh(W·ai+V·ht-1),其中W,V为投影矩阵,其映射隐含层的输出和局部图像特征到一个相应的空间来生成中间权重向量eti。
在步骤S5中,双模态层的结合方式为Obm=g(V·rt+W·zt),其中为用来加快训练过程的变式双曲正切函数,rt为栈式门循环单元的隐含层输出,利用集束搜索算法产生m个候选描述的表达式为:代表是取使得p(S|It)最大的m个句子,形成候选的描述集合h。S代表的是生成的句子描述,It代表的是测试的图片。
在步骤S6中,通过衡量图像的相似性和描述间的相似性来选择最佳的句子描述,选择的过程如下:
S61:首先测量测试图像与数据集图像的相似性,相似性计算函数选择相关性距离:
S63:通过测量候选描述与参考描述语义相似性,得到选择出最终的最佳描述,选择函数如下:
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (4)
1.一种基于区域图像特征关注网络与最近邻排序的描述方法,其特征在于,包括以下步骤:S1:采用Googlenet模型作为CNN初始模型,从全连接层中取出图像的特征参数向量作为图像的全局图像特征向量;
S2:将所述图像输入到VGGnet CNN模型中,从VGGnet第五卷积层的第三层中取出区域性图像卷积化特征关注映射;
S3:将所述全局图像特征向量和深度语义表示输入到栈式门循环单元中,解码出图像对应的语义信息;
S4:采用注意力机制的策略,根据栈式门循环单元的隐含层输出,对区域性图像卷积化特征关注映射进行权重赋值,形成上下文向量,引导系统对区域性图像信息的关注;表示区域性图像信息的上下文向量为zt,获得上下文向量的过程如下:
其中eti为中间权重,αti是对中间权重eti的回归模型归一化处理;
中间权重eti的计算公式为eti=tanh(W·ai+V·ht-1),其中W,V为投影矩阵,其映射隐含层的输出和局部图像特征到一个相应的空间来生成中间权重eti;
S5:用变式双曲正切函数将栈式门循环单元的隐含层输出与上下文向量通过一个双模态层结合起来,采用集束搜索算法生成候选的图像描述;
S6:在MSCOCO数据集上运用最邻近算法找到最接近的图像及其句子描述,形成参考句子描述,最后计算所述候选的图像描述与所述参考句子描述间的累积语义相似性,选出最终的句子描述。
4.根据权利要求3所述的基于区域图像特征关注网络与最近邻排序的描述方法,其特征在于,
所述步骤S6中,通过衡量图像的相似性和描述间的相似性来选择最佳的句子描述,选择的过程如下:
S61:首先测量测试图像与数据集图像的相似性,相似性计算函数选择相关性距离:
S62:通过S61得到图像的相似性后,选择距离属于最近邻的90张图像,将图像自带的句子描述挑选出来作为参考描述,挑选函数如下:其中,It代表的是测试的图像,Ic代表的是由数据集中其他的候选图像,n是挑选的图像数量;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710660329.4A CN107563409B (zh) | 2017-08-04 | 2017-08-04 | 一种基于区域图像特征关注网络与最近邻排序的描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710660329.4A CN107563409B (zh) | 2017-08-04 | 2017-08-04 | 一种基于区域图像特征关注网络与最近邻排序的描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107563409A CN107563409A (zh) | 2018-01-09 |
CN107563409B true CN107563409B (zh) | 2020-12-29 |
Family
ID=60975142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710660329.4A Active CN107563409B (zh) | 2017-08-04 | 2017-08-04 | 一种基于区域图像特征关注网络与最近邻排序的描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107563409B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108491836B (zh) * | 2018-01-25 | 2020-11-24 | 华南理工大学 | 一种自然场景图像中中文文本整体识别方法 |
CN108717587B (zh) * | 2018-05-25 | 2022-03-15 | 杭州一知智能科技有限公司 | 一种基于多面排序网络解决推文预测转发任务的方法 |
CN109447242B (zh) * | 2018-10-10 | 2021-08-20 | 复旦大学 | 基于迭代学习的图像描述重生成系统及方法 |
CN110502650A (zh) * | 2019-08-12 | 2019-11-26 | 深圳智能思创科技有限公司 | 一种基于自然语言描述的图像检索系统及方法 |
CN110517329B (zh) * | 2019-08-12 | 2021-05-14 | 北京邮电大学 | 一种基于语义分析的深度学习图像压缩方法 |
CN113436245B (zh) * | 2021-08-26 | 2021-12-03 | 武汉市聚芯微电子有限责任公司 | 图像处理方法、模型训练方法、相关装置及电子设备 |
CN115168281B (zh) * | 2022-09-09 | 2023-01-03 | 之江实验室 | 一种基于禁忌搜索算法的神经网络片上映射方法和装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778227B (zh) * | 2014-01-23 | 2016-11-02 | 西安电子科技大学 | 从检索图像中筛选有用图像的方法 |
CN105512209B (zh) * | 2015-11-28 | 2018-06-19 | 大连理工大学 | 一种基于特征自动学习的生物医学事件触发词识别方法 |
CN106126581B (zh) * | 2016-06-20 | 2019-07-05 | 复旦大学 | 基于深度学习的手绘草图图像检索方法 |
CN106777125B (zh) * | 2016-12-16 | 2020-10-23 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于神经网络及图像关注点的图像描述生成方法 |
-
2017
- 2017-08-04 CN CN201710660329.4A patent/CN107563409B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN107563409A (zh) | 2018-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107563409B (zh) | 一种基于区域图像特征关注网络与最近邻排序的描述方法 | |
CN111488474B (zh) | 基于增强注意力的细粒度手绘草图图像检索方法 | |
CN114119638A (zh) | 一种融合多尺度特征和注意力机制的医学图像分割方法 | |
CN105718952A (zh) | 使用深度学习网络对断层医学影像进行病灶分类的方法 | |
CN113486190B (zh) | 一种融合实体图像信息和实体类别信息的多模态知识表示方法 | |
CN112348036A (zh) | 基于轻量化残差学习和反卷积级联的自适应目标检测方法 | |
CN112015868A (zh) | 基于知识图谱补全的问答方法 | |
US20230290234A1 (en) | Audiovisual secondary haptic signal reconstruction method based on cloud-edge collaboration | |
CN113239825B (zh) | 一种复杂场景下高精度烟草甲虫检测方法 | |
CN116610778A (zh) | 基于跨模态全局与局部注意力机制的双向图文匹配方法 | |
CN113191390A (zh) | 一种图像分类模型的构建方法、图像分类方法及存储介质 | |
Kalash et al. | Relative saliency and ranking: Models, metrics, data and benchmarks | |
Qiu et al. | CrossDet++: Growing crossline representation for object detection | |
CN114510594A (zh) | 一种基于自注意力机制的传统纹样子图检索方法 | |
Zhou et al. | Multi-objective evolutionary generative adversarial network compression for image translation | |
CN116884072A (zh) | 一种基于多层级和多尺度注意机制的面部表情识别方法 | |
CN109559345B (zh) | 一种服装关键点定位系统及其训练、定位方法 | |
CN116434058A (zh) | 基于视觉文本对齐的影像描述生成方法及系统 | |
CN114429460A (zh) | 一种基于属性感知关系推理的通用图像美学评估方法和装置 | |
CN110826726B (zh) | 目标处理方法、目标处理装置、目标处理设备及介质 | |
CN113344110A (zh) | 一种基于超分辨率重建的模糊图像分类方法 | |
CN112053351A (zh) | 基于神经网络架构搜索和注意力机制的肺部结节良恶性判别方法 | |
Hua | DRN-SEAM: A deep residual network based on squeeze-and-excitation attention mechanism for motion recognition in education | |
CN112508958B (zh) | 一种轻量多尺度的生物医学图像分割方法 | |
Ju et al. | Knowledge distillation for object detection based on Inconsistency-based Feature Imitation and Global Relation Imitation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |