CN107578062A - 一种基于属性概率向量引导注意模式的图片描述方法 - Google Patents

一种基于属性概率向量引导注意模式的图片描述方法 Download PDF

Info

Publication number
CN107578062A
CN107578062A CN201710714932.6A CN201710714932A CN107578062A CN 107578062 A CN107578062 A CN 107578062A CN 201710714932 A CN201710714932 A CN 201710714932A CN 107578062 A CN107578062 A CN 107578062A
Authority
CN
China
Prior art keywords
mrow
probability vector
attribute probability
vector
lstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710714932.6A
Other languages
English (en)
Inventor
何小海
何榜耕
张�杰
苏婕
卿粼波
吴晓红
滕奇志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN201710714932.6A priority Critical patent/CN107578062A/zh
Publication of CN107578062A publication Critical patent/CN107578062A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于属性概率向量引导注意模式的图片描述方法。包括以下步骤:输入图像通过全卷积神经网络得到特征图谱,再经过多实例学习算法层得到属性概率向量,对得到的属性概率向量选取一定阈值初始化长短时记忆单元LSTM隐藏状态c0,h0,通过属性概率向量对注意模式进行引导,并结合上一时刻描述语句LSTM的状态ht‑1,在当前时刻注意模式关注特征图谱上的区域,生成当前需要关注的编码向量,描述语句LSTM根据当前编码向量输出当前时刻的输出状态ht,当前时刻的输出状态即变成上一时刻的状态,重复之前操作直到完成描述语言的生成。本发明所述的基于属性概率向量引导注意模式的图片描述方法比其他方法效果明显提升,评价指标综合表现来说是较好的,基本能够胜任一般的图片描述需要。

Description

一种基于属性概率向量引导注意模式的图片描述方法
技术领域
本发明设计了一种基于属性概率向量引导注意模式的图片描述方法,涉及深度学习,计算机视觉技术领域。
背景技术
人类感知世界的一个重要特性是不会一次性对整个场景进行处理,而是会将注意力集中在视觉空间的某些部分上,从而获取需要的时间和地点信息,并且随着时间的推进,人类会根据不同固定点的信息来建立场景的内部表示用以指导未来的一系列认知及行动;由于部分场景相对于整个场景的简洁性,这种将‘有限’的脑力资源集中在感知部分重要场景上的机制,直接导致人类处理场景的复杂性降低,因为其可以使得人类一直将场景内感兴趣的对象放置在固定的中心位置,固定区域之外的视觉环境的无关特征被自然地淡化和忽略,这一机制被称为人类视觉注意模式。
由于视觉注意模式是人类进行视觉活动的主要机制,而计算机视觉是为了让计算机能够模仿人类视觉活动的学科,因此计算机视觉各分支问题不可避免的开始探索如何引入视觉注意模式,并在部分问题上已经取得了进展。
近来随着视觉注意模式在计算机视觉部分方面取得了有效的进展,在图片描述问题上也开始引入了视觉注意模式,虽然引入方法不尽相同,但其指导思想都是基于时间t时输出的描述词汇应当与图像的某一部分重点关联的假设。虽然目前基于注意模式的图片描述方法在效果上相比其它模型没有绝对优势,甚至比有些模型效果要差,但是随着对注意模式的不断探索和改进以及对获取编码矩阵方式的优化,基于注意模式的图片描述方法在效果上肯定会越来越好。
在基于注意模式的图片描述模型中,Xu等人提出的软注意模型(Soft Attention,Soft-ATT)是非常具有代表性的,但得到的图片描述结果依然不够准确。
发明内容
本发明为解决上述问题提供一种准确率较高的基于属性概率向量引导注意模式(Guiding MIL-ATT, gMIL-ATT)的图片描述方法。本发明通过对图片语义信息的引入方式的不断调整和优化,能取得更好的图片描述效果。
本发明通过以下技术方案来实现上述目的:
一种准确率较高的基于属性概率向量引导注意模式的图片描述方法,包括以下步骤:
(1)输入图像通过全卷积神经网络得到特征图谱,再经过多实例学习算法层得到属性概率向量。
(2)得到的属性概率向量选取一定阈值初始化长短时记忆单元LSTM隐藏状态c0,h0
(3)通过属性概率向量对注意模式进行引导,并结合上一时刻描述语句LSTM的状态ht-1,在当前时刻注意模式关注特征图谱上的区域,生成当前需要关注的编码向量。
(4)描述语句LSTM根据当前编码向量输出当前时刻的输出状态ht
(5)当前时刻的输出状态即变成上一时刻的状态,重复步骤三、四直到完成描述语言的生成。
附图说明
图1是使用属性概率向量初始化注意模式的示意图
图2是本发明t时刻引导部分原理框图
具体实施方式
下面结合附图对本发明作进一步说明:
图1使用属性概率向量初始化注意模式的示意图,包括以下步骤:
(1)输入图像通过全卷积神经网络得到特征图谱,再经过多实例学习算法层得到属性概率向量。
(2)得到的属性概率向量选取一定阈值初始化LSTM隐藏状态c0,h0。具体初始化方法定义如下:
c0=f(Wini⊙Vatt)
h0=f(Wini⊙Vatt)
在上式中,Wini表示需要在训练中学习的参数,Vatt代表属性概率向量,⊙代表对应矩阵相乘。
图2是本发明t时刻引导部分原理框图。引导部分由两个关键的LSTM构成,它们分别是属性概率特征LSTM和描述语句LSTM。在时刻t时,首先将上一时刻描述语句LSTM的状态与属性概率向量进行结合,并将结合后的值送入到属性概率特征LSTM中动态生成权重矩阵,再与特征图谱进行结合,而后生成当前需要关注的编码向量Zt,描述语句LSTM根据当前编码向量输出当前时刻的输出状态ht
设属性概率向量为Vatt,具体引导方法定义如下:
et=Fatt(ht-1,Vatt,a)
=LSTM(WvVatt⊙Wh1ht-1)⊙Waa⊙Wh2ht-1
Zt=∑iαtiai
其中,Wv、Wh1、Wh2和Wa均通过训练学习得到,⊙代表对应矩阵进行点乘;αt={αt1t2t3,...,αtL}为权值,该权值会决定在已产生的词序列之后,产生下一个词时注意力应该重点放在图片哪一部分区域;ai代表特征向量集合,Zt代表根据注意模式动态求取的编码向量,其会被送入到LSTM中进行解码,解码计算公式如下:
ct=ft⊙ct-1+it⊙gt
ht=ot⊙tanh(ct) 。

Claims (3)

1.一种基于属性概率向量引导注意模式的图片描述方法,其特征在于包括以下步骤:
步骤一:输入图像通过全卷积神经网络得到特征图谱,再经过多实例学习算法层得到属性概率向量;
步骤二:对得到的属性概率向量选取一定阈值初始化长短时记忆单元LSTM隐藏状态c0,h0
步骤三:通过属性概率向量对注意模式进行引导,并结合上一时刻描述语句LSTM的状态ht-1,在当前时刻注意模式关注特征图谱上的区域,生成当前需要关注的编码向量;
步骤四:描述语句LSTM根据当前编码向量输出当前时刻的输出状态ht
步骤五:当前时刻的输出状态即变成上一时刻的状态,重复步骤三、四直到完成描述语言的生成。
2.权利要求2所述的属性概率向量,以实验得到的阈值0.2对模型中LSTM隐藏状态初始化,使得模型在一开始能获得图片的全局特征和所含属性信息,一般对特征图谱的各个子图谱进行加权平均的初始化方法只会模糊整个图谱的语义特征,而选取合适阈值的属性概率向量来初始化LSTM隐藏状态能够在突出图片重点语义信息的同时尽可能多的保留有效语义信息,具体初始化方法定义如下:
c0=f(Wini⊙Vatt)
h0=f(Wini⊙Vatt)
在上式中,Wini表示需要在训练中学习的参数,Vatt代表属性概率向量,⊙代表对应矩阵相乘。
3.权利要求3所述的属性概率向量可以为t时刻的模型提供全局语义信息,ht-1可以为模型提供上一个输出单词的信息,而特征图谱可以提供精确的图片局部语义信息,随着LSTM隐藏状态的更新以及注意模式对特征向量的动态选取,初始化的属性概率向量的作用会逐渐消失,通过使用属性概率向量对注意模型进行引导,能够在描述生成过程中保持图片全局语义信息的有效性和积极作用,设属性概率向量为Vatt,具体引导方法定义如下:
et=Fatt(ht-1,Vatt,a)
=LSTM(WvVatt⊙Wh1ht-1)⊙Waa⊙Wh2ht-1
<mrow> <msub> <mi>&amp;alpha;</mi> <mrow> <mi>t</mi> <mi>i</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mrow> <mi>t</mi> <mi>i</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>L</mi> </msubsup> <mi>exp</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mrow> <mi>t</mi> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
Zt=∑iαtiai
Wv、Wh1、Wh2和Wa均通过训练学习得到,⊙代表对应矩阵进行点乘;αt={αt1t2t3,...,αtL}为权;ai代表特征向量集合,Zt代表根据注意模式动态求取的编码向量。
CN201710714932.6A 2017-08-19 2017-08-19 一种基于属性概率向量引导注意模式的图片描述方法 Pending CN107578062A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710714932.6A CN107578062A (zh) 2017-08-19 2017-08-19 一种基于属性概率向量引导注意模式的图片描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710714932.6A CN107578062A (zh) 2017-08-19 2017-08-19 一种基于属性概率向量引导注意模式的图片描述方法

Publications (1)

Publication Number Publication Date
CN107578062A true CN107578062A (zh) 2018-01-12

Family

ID=61033816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710714932.6A Pending CN107578062A (zh) 2017-08-19 2017-08-19 一种基于属性概率向量引导注意模式的图片描述方法

Country Status (1)

Country Link
CN (1) CN107578062A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145946A (zh) * 2018-07-09 2019-01-04 暨南大学 一种智能图像识别和描述方法
CN109190472A (zh) * 2018-07-28 2019-01-11 天津大学 基于图像与属性联合引导的行人属性识别方法
CN109299657A (zh) * 2018-08-14 2019-02-01 清华大学 基于语义注意力保留机制的群体行为识别方法及装置
CN110321996A (zh) * 2018-03-28 2019-10-11 华为技术有限公司 一种基于卷积神经网络的图像处理的方法和装置
CN110717345A (zh) * 2019-10-15 2020-01-21 内蒙古工业大学 一种译文重对齐的循环神经网络跨语言机器翻译方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279495A (zh) * 2015-10-23 2016-01-27 天津大学 一种基于深度学习和文本总结的视频描述方法
CN106503055A (zh) * 2016-09-27 2017-03-15 天津大学 一种从结构化文本到图像描述的生成方法
CN106599198A (zh) * 2016-12-14 2017-04-26 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种多级联结循环神经网络的图像描述方法
CN106650756A (zh) * 2016-12-28 2017-05-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于知识迁移的多模态循环神经网络的图像文本描述方法
CN106777125A (zh) * 2016-12-16 2017-05-31 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于神经网络及图像关注点的图像描述生成方法
CN106845411A (zh) * 2017-01-19 2017-06-13 清华大学 一种基于深度学习和概率图模型的视频描述生成方法
CN106845499A (zh) * 2017-01-19 2017-06-13 清华大学 一种基于自然语言语义的图像目标检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279495A (zh) * 2015-10-23 2016-01-27 天津大学 一种基于深度学习和文本总结的视频描述方法
CN106503055A (zh) * 2016-09-27 2017-03-15 天津大学 一种从结构化文本到图像描述的生成方法
CN106599198A (zh) * 2016-12-14 2017-04-26 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种多级联结循环神经网络的图像描述方法
CN106777125A (zh) * 2016-12-16 2017-05-31 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于神经网络及图像关注点的图像描述生成方法
CN106650756A (zh) * 2016-12-28 2017-05-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于知识迁移的多模态循环神经网络的图像文本描述方法
CN106845411A (zh) * 2017-01-19 2017-06-13 清华大学 一种基于深度学习和概率图模型的视频描述生成方法
CN106845499A (zh) * 2017-01-19 2017-06-13 清华大学 一种基于自然语言语义的图像目标检测方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321996A (zh) * 2018-03-28 2019-10-11 华为技术有限公司 一种基于卷积神经网络的图像处理的方法和装置
CN110321996B (zh) * 2018-03-28 2021-06-29 华为技术有限公司 一种基于卷积神经网络的图像处理的方法和装置
CN109145946A (zh) * 2018-07-09 2019-01-04 暨南大学 一种智能图像识别和描述方法
CN109145946B (zh) * 2018-07-09 2022-02-11 暨南大学 一种智能图像识别和描述方法
CN109190472A (zh) * 2018-07-28 2019-01-11 天津大学 基于图像与属性联合引导的行人属性识别方法
CN109190472B (zh) * 2018-07-28 2021-09-14 天津大学 基于图像与属性联合引导的行人属性识别方法
CN109299657A (zh) * 2018-08-14 2019-02-01 清华大学 基于语义注意力保留机制的群体行为识别方法及装置
CN109299657B (zh) * 2018-08-14 2020-07-03 清华大学 基于语义注意力保留机制的群体行为识别方法及装置
CN110717345A (zh) * 2019-10-15 2020-01-21 内蒙古工业大学 一种译文重对齐的循环神经网络跨语言机器翻译方法
CN110717345B (zh) * 2019-10-15 2020-07-07 内蒙古工业大学 一种译文重对齐的循环神经网络跨语言机器翻译方法

Similar Documents

Publication Publication Date Title
CN107578062A (zh) 一种基于属性概率向量引导注意模式的图片描述方法
CN109891434B (zh) 使用神经网络生成音频
CN107391609B (zh) 一种双向多模态递归网络的图像描述方法
CN106537420B (zh) 用于转换输入信号的方法
JP2019067408A (ja) イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置
CN105139864B (zh) 语音识别方法和装置
CN113343705B (zh) 一种基于文本语义的细节保持图像生成方法及系统
CN108734276A (zh) 一种基于对抗生成网络的模仿学习对话生成方法
CN106776540A (zh) 一种自由化文本生成方法
CN106897254A (zh) 一种网络表示学习方法
CN106531150A (zh) 一种基于深度神经网络模型的情感合成方法
CN109902164B (zh) 利用卷积双向自注意网络解决开放长格式视频问答的方法
CN106653056A (zh) 基于lstm循环神经网络的基频提取模型及训练方法
CN110457661B (zh) 自然语言生成方法、装置、设备及存储介质
CN106776517A (zh) 自动作诗方法和装置及系统
KR102152902B1 (ko) 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치
WO2022048404A1 (zh) 端到端的虚拟对象动画生成方法及装置、存储介质、终端
CN111341294A (zh) 将文本转换为指定风格语音的方法
KR20110084402A (ko) 스피치 모델 생성 방법
CN110379411A (zh) 针对目标说话人的语音合成方法和装置
CN109740012A (zh) 基于深度神经网络对图像语义进行理解和问答的方法
CN116343766A8 (zh) 生成式大模型训练方法、基于模型的人机语音交互方法
KR20220113304A (ko) 음성 합성 및 영상 합성 기술을 통해 고인을 모사하는 가상 인물과 커뮤니케이션을 수행하는 방법 및 시스템
CN107943750A (zh) 一种基于wgan模型的分解卷积方法
KR20210073343A (ko) 중첩 음원을 분리하는 장치, 방법 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination