CN111783852A - 一种基于深度强化学习自适应式生成图像描述的方法 - Google Patents
一种基于深度强化学习自适应式生成图像描述的方法 Download PDFInfo
- Publication number
- CN111783852A CN111783852A CN202010550939.0A CN202010550939A CN111783852A CN 111783852 A CN111783852 A CN 111783852A CN 202010550939 A CN202010550939 A CN 202010550939A CN 111783852 A CN111783852 A CN 111783852A
- Authority
- CN
- China
- Prior art keywords
- description
- image
- formula
- visual information
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000002787 reinforcement Effects 0.000 title claims abstract description 8
- 230000000007 visual effect Effects 0.000 claims abstract description 24
- 230000007246 mechanism Effects 0.000 claims abstract description 21
- 230000008569 process Effects 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 8
- 230000001960 triggered effect Effects 0.000 claims description 7
- 230000015654 memory Effects 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 5
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 4
- 230000006403 short-term memory Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 2
- 238000009795 derivation Methods 0.000 claims description 2
- 230000006872 improvement Effects 0.000 claims description 2
- 238000012546 transfer Methods 0.000 claims description 2
- 230000003044 adaptive effect Effects 0.000 abstract description 3
- 238000004422 calculation algorithm Methods 0.000 abstract description 2
- 238000012937 correction Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
一种基于深度强化学习自适应式生成图像描述的方法及图像描述技术领域,提供一种更好的决策机制使生成描述过程中自适应的决策是否利用视觉信息。如利用语义信息生成下一个词语时不必要使用视觉信息;如利用注意力机制生成下一个单词时视觉信息的占比应该尽可能的大,可进行自适应的比重修正。本发明使在图像描述问题中生成下一个单词时能够自适应的决策是否利用视觉信息;采用强化学习的奖励机制调整在利用注意力机制生成词语时视觉信息所占比重,使得算法具有很强的学习能力、自适应性、科学性和鲁棒性。
Description
技术领域
本发明涉及图像描述技术领域,具体是一种基于深度强化学习自适应式生成图像描述的方法。
背景技术
图像描述技术可以根据输入机器的图像自动生成人类可理解的文字描述。该技术要求模型不仅能够识别图片中的物体还要理解物体之间的关系,然后以自然语言的方式自动阐述图像特征。图像描述在标注图像、婴幼儿早教、辅助医生临床诊断等方面有重大研究意义。
早期的图像描述工作大多基于检索和语义模板的方法,人们无法有效的提取图像特征,生成的句子描述缺乏灵活性,且不能进行泛化。近些年随着计算机视觉和自然语言处理技术的不断发展,目前大多数图像描述问题基于“编码—解码”框架进行处理。JunhuaMao等人第一次将“编码—解码”框架应用于图像描述问题,通过卷积神经网络(Convolutional Neural Networks,CNN)提取图像特征,后经过递归神经网络(RecurrentNeural Network,RNN)生成图像描述;Xu等人引入注意力机制,使在生成图像描述时更关注图像显著区域来提升图像描述工作性能;Jiasen Lu等人提出一种哨兵机制使得模型在生成下一个单词时利用“哨兵”控制视觉信息和语义信息各自占的比重。
当前这些方法在生成下一个单词时不能够科学的决策是否利用视觉信息,且在利用注意力机制生成下一个单词时无法修正视觉信息的比重。
发明内容
本发明所要解决的技术问题是:提供一种更好的决策机制使生成描述过程中自适应的决策是否利用视觉信息。如利用语义信息生成下一个词语时不必要使用视觉信息;如利用注意力机制生成下一个单词时视觉信息的占比应该尽可能的大,可进行自适应的比重修正。
为实现上述目的,本发明采用一种基于深度强化学习自适应式生成图像描述的技术方案,具体步骤如下:
步骤1:将数据分为训练集和测试集,训练集由图像及其相应的描述组成,测试集由图像组成;
步骤2:将训练数据集的图像输入卷积神经网络提取图像特征;
步骤3:将训练集的图像描述用one-hot编码方式进行编码来生成与图像对应的文本序列;
步骤4:将步骤2、3中的图像特征向量和文本序列输入至决策模块,以控制生成下一个词语时是否利用视觉信息;
步骤5:若通过决策模块后触发不利用视觉信息的方法索引,则将图像特征向量和文本序列输入至长短期记忆网络(Long Short-Term Memory,LSTM)生成图像描述;若通过决策模块后触发利用视觉信息索引生成下一个单词,则将图像特征向量和文本序列输入至有注意力机制的LSTM中生成描述;
步骤6:使用基于一致性的图像描述评价(Consensus-based Image DescriptionEvaluation,CIDEr)计算奖励反馈到决策模块进行更新并同时反馈到生成模块中进行比重的修正;
步骤7:最大限度的提高最终生成描述y相对于真实描述y*的回报以对图像描述模型进行训练;
步骤8:将测试数据集的图像分别输入到训练好的图像描述模型中得到相对应的描述语句。
gt=σ(Wxxt+Whht-1) (1)
st=gt⊙tanh(mt) (2)
ut=softmax(Wust+bu) (3)
nt=argmax(ut) (4)
式(1)中gt表示记忆控制门,Wx和Wh为要学习的权重矩阵,xt为t时刻LSTM的输入,ht-1为前一时刻的输出状态,σ为非线性激活函数。式(2)中st表示当前时刻包含的语义信息的状态,mt为LSTM中的记忆细胞,tanh为激活函数,⊙表示元素乘积。式(3)中的ut为生成下一个单词的决策概率分布,Wu和bu是网络参数,softmax为激活函数。式(4)表示ut经过argmax函数得到最高概率索引nt。计算后,将根据最高概率索引去触发生成模块中的不同生成方法。
本发明的有益效果如下:
本发明提出了一种新的决策方式,使在图像描述问题中生成下一个单词时能够自适应的决策是否利用视觉信息;采用强化学习的奖励机制调整在利用注意力机制生成词语时视觉信息所占比重,使得算法具有很强的学习能力、自适应性、科学性和鲁棒性。
附图说明
图1是本发明总体流程图。
图2是生成模块的具体模型图。
具体实施方式
下面结合附图和实施例对本发明进行详细说明,但实例仅用于解释本发明,并不限于此。
结合图1和图2,本实施例基于深度强化学习自适应式生成图像描述的方法由下述步骤组成:
步骤1:从MSCOCO数据集中选择82783张图像和相应描述作为训练集,并选择4000张图像作为测试集;
步骤2:将训练数据集的图像输入到卷积神经网络VGG-19提取图像特征;
步骤3:将训练集的图像描述用one-hot编码方式进行编码来生成与图像对应的文本序列;
步骤4:将步骤2、3中的图像特征向量和文本序列输入至决策模块,以控制生成下一个词语时是否利用视觉信息;
gt=σ(Wxxt+Whht-1) (1)
st=gt⊙tanh(mt) (2)
ut=softmax(Wust+bu) (3)
nt=argmax(ut) (4)
式(1)中gt表示记忆控制门,Wx和Wh为要学习的权重矩阵,xt为t时刻LSTM的输入,ht-1为前一时刻的输出状态,σ为非线性激活函数。式(2)中st表示当前时刻包含的语义信息的状态,mt为LSTM中的记忆细胞,tanh为激活函数,⊙表示元素乘积。式(3)中的ut为生成下一个单词的决策概率分布,Wu和bu是网络参数,softmax为激活函数。式(4)表示ut经过argmax函数得到最高概率索引nt。计算后,将根据最高概率索引去触发生成模块中的不同生成方法。
步骤5:若通过决策模块后触发不利用视觉信息的方法索引,则将图像特征向量和文本序列输入至长短期记忆网络(Long Short-Term Memory,LSTM)生成图像描述,如图2中的分支一(图2上半部分)所示,此时用上一时刻的隐层状态ht-1、当前输入xt和当前隐层状态ht经过多层感知机(Multilayer Perceptron,MLP)预测得到输出yt;
若通过决策模块后触发利用视觉信息索引生成下一个单词,则将图像特征向量和文本序列输入至有注意力机制的LSTM中生成描述,如图2中的分支二(图2下半部分)所示,令上下文向量:
Ct=Atten(V,ht-1) (5)
式(5)中V为图像特征,Atten为注意力机制的函数。此时用上下文向量Ct、上一时刻的隐层状态ht-1、当前输入xt和当前隐层状态ht经过多层感知机(MultilayerPerceptron,MLP)预测得到输出yt;
步骤6:使用基于一致性的图像描述评价(Consensus-based Image DescriptionEvaluation,CIDEr)计算奖励反馈到决策模块进行更新并同时反馈到生成模块中进行比重的修正;
其中计算奖励过程如下:
应用奖励机制反馈到决策模块、生成模块的更新过程具体计算如下:
式(7)中yt表示为t时刻模型生成的描述,R(yt)定义为所有单词的折扣奖励,为折扣因子,表示目标最大化一个累积未来折扣回报,即希望学得一个策略(policy),通过执行这个策略使上式最大化。式(8)中L(θt)定义为期望回报,θt为决策模块或生成模块中的所有参数,yt与式(7)中定义相同,yt *表示t时刻图像对应的真实描述,Eyt[R(yt,yt *)]表示使状态yt转移到yt *的回报。式(9)表示最终对θt求导的梯度,为分值函数(score function),则表示为与式(8)结合并在分值函数的计算下应用奖励机制的反馈更新计算;
步骤7:最大限度的提高最终生成描述y相对于真实描述y*的回报以对图像描述模型进行训练,损失函数为:
L(θ)=-En,y[R(y,y*)] (10)
在式(10)、(11)中θ代表整个模型的参数,n为公示(4)中的概率索引参数,y为模型最终生成描述,y*为图像对应真实描述。式(10)中L(θ)定义为期望回报,En,y[R(y,y*)]表示使状态y转移到y*的回报。式(11)中定义为损失函数,为分值函数(score function),通过与式(10)结合计算得到
步骤8:将测试数据集的一张图像输入到训练好的图像描述模型中得到相对应的描述语句。
Claims (5)
1.一种基于深度强化学习自适应式生成图像描述的方法,其特征在于,具体步骤如下:
步骤1:将数据分为训练集和测试集,训练集由图像及其相应的描述组成,测试集由图像组成;
步骤2:将训练数据集的图像输入卷积神经网络提取图像特征;
步骤3:将训练集的图像描述用one-hot编码方式进行编码来生成与图像对应的文本序列;
步骤4:将步骤2、3中的图像特征向量和文本序列输入至决策模块,以控制生成下一个词语时是否利用视觉信息;
步骤5:若通过决策模块后触发不利用视觉信息的方法索引,则将图像特征向量和文本序列输入至长短期记忆网络(Long Short-Term Memory,LSTM)生成图像描述;若通过决策模块后触发利用视觉信息索引生成下一个单词,则将图像特征向量和文本序列输入至有注意力机制的LSTM中生成描述;
步骤6:使用基于一致性的图像描述评价(Consensus-based Image DescriptionEvaluation,CIDEr)计算奖励反馈到决策模块进行更新并同时反馈到生成模块中进行比重的修正;
步骤7:最大限度的提高最终生成描述y相对于真实描述y*的回报以对图像描述模型进行训练;
步骤8:将测试数据集的图像分别输入到训练好的图像描述模型中得到相对应的描述语句。
gt=σ(Wxxt+Whht-1) (1)
st=gt⊙tanh(mt) (2)
ut=softmax(Wust+bu) (3)
nt=argmax(ut) (4)
式(1)中gt表示记忆控制门,Wx和Wh为要学习的权重矩阵,xt为t时刻LSTM的输入,ht-1为前一时刻的输出状态,σ为非线性激活函数;式(2)中st表示当前时刻包含的语义信息的状态,mt为LSTM中的记忆细胞,tanh为激活函数,⊙表示元素乘积;式(3)中的ut为生成下一个单词的决策概率分布,Wu和bu是网络参数,softmax为激活函数;式(4)表示ut经过argmax函数得到最高概率索引nt;计算后,将根据最高概率索引去触发生成模块中的不同生成方法。
3.根据权利要求1所述的方法,其特征在于:步骤5中若通过决策模块后触发不利用视觉信息的方法索引,则将图像特征向量和文本序列输入至长短期记忆网络(Long Short-Term Memory,LSTM)生成图像描述,此时用上一时刻的隐层状态ht-1、当前输入xt和当前隐层状态ht经过多层感知机预测得到输出yt;
若通过决策模块后触发利用视觉信息索引生成下一个单词,则将图像特征向量和文本序列输入至有注意力机制的LSTM中生成描述,令上下文向量:
Ct=Atten(V,ht-1) (5)
式(5)中V为图像特征,Atten为注意力机制的函数;此时用上下文向量Ct、上一时刻的隐层状态ht-1、当前输入xt和当前隐层状态ht经过多层感知机预测得到输出yt。
4.根据权利要求1所述的方法,其特征在于:步骤6中计算奖励过程如下:
应用奖励机制反馈到决策模块、生成模块的更新过程具体计算如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010550939.0A CN111783852B (zh) | 2020-06-16 | 2020-06-16 | 一种基于深度强化学习自适应式生成图像描述的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010550939.0A CN111783852B (zh) | 2020-06-16 | 2020-06-16 | 一种基于深度强化学习自适应式生成图像描述的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111783852A true CN111783852A (zh) | 2020-10-16 |
CN111783852B CN111783852B (zh) | 2024-03-12 |
Family
ID=72755970
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010550939.0A Active CN111783852B (zh) | 2020-06-16 | 2020-06-16 | 一种基于深度强化学习自适应式生成图像描述的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111783852B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989088A (zh) * | 2021-02-04 | 2021-06-18 | 西安交通大学 | 一种基于强化学习的视觉关系实例学习方法 |
CN113408430A (zh) * | 2021-06-22 | 2021-09-17 | 哈尔滨理工大学 | 基于多级策略和深度强化学习框架的图像中文描述系统及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188779A (zh) * | 2019-06-03 | 2019-08-30 | 中国矿业大学 | 一种图像语义描述的生成方法 |
CN110210499A (zh) * | 2019-06-03 | 2019-09-06 | 中国矿业大学 | 一种图像语义描述的自适应生成系统 |
CN110674850A (zh) * | 2019-09-03 | 2020-01-10 | 武汉大学 | 一种基于注意力机制的图像描述生成方法 |
-
2020
- 2020-06-16 CN CN202010550939.0A patent/CN111783852B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188779A (zh) * | 2019-06-03 | 2019-08-30 | 中国矿业大学 | 一种图像语义描述的生成方法 |
CN110210499A (zh) * | 2019-06-03 | 2019-09-06 | 中国矿业大学 | 一种图像语义描述的自适应生成系统 |
CN110674850A (zh) * | 2019-09-03 | 2020-01-10 | 武汉大学 | 一种基于注意力机制的图像描述生成方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989088A (zh) * | 2021-02-04 | 2021-06-18 | 西安交通大学 | 一种基于强化学习的视觉关系实例学习方法 |
CN112989088B (zh) * | 2021-02-04 | 2023-03-21 | 西安交通大学 | 一种基于强化学习的视觉关系实例学习方法 |
CN113408430A (zh) * | 2021-06-22 | 2021-09-17 | 哈尔滨理工大学 | 基于多级策略和深度强化学习框架的图像中文描述系统及方法 |
CN113408430B (zh) * | 2021-06-22 | 2022-09-09 | 哈尔滨理工大学 | 基于多级策略和深度强化学习框架的图像中文描述系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111783852B (zh) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110309839B (zh) | 一种图像描述的方法及装置 | |
US20240029436A1 (en) | Action classification in video clips using attention-based neural networks | |
US20210279576A1 (en) | Attention neural networks with talking heads attention | |
CN105139864B (zh) | 语音识别方法和装置 | |
CN110321418A (zh) | 一种基于深度学习的领域、意图识别和槽填充方法 | |
CN107133211A (zh) | 一种基于注意力机制的作文评分方法 | |
CN106599198A (zh) | 一种多级联结循环神经网络的图像描述方法 | |
CN107836000A (zh) | 用于语言建模和预测的改进的人工神经网络 | |
CN108416065A (zh) | 基于层级神经网络的图像-句子描述生成系统及方法 | |
US12050983B2 (en) | Attention neural networks with parallel attention and feed-forward layers | |
CN110807069B (zh) | 一种基于强化学习算法的实体关系联合抽取模型构建方法 | |
CN112036276A (zh) | 一种人工智能视频问答方法 | |
Chen et al. | Deep neural networks for multi-class sentiment classification | |
CN116051388A (zh) | 经由语言请求的自动照片编辑 | |
CN112464816A (zh) | 基于二次迁移学习的地方手语识别方法、装置 | |
CN111783852B (zh) | 一种基于深度强化学习自适应式生成图像描述的方法 | |
CN111191461B (zh) | 一种基于课程学习的远程监督关系抽取方法 | |
CN110188791B (zh) | 基于自动估计的视觉情感标签分布预测方法 | |
CN111242059A (zh) | 基于递归记忆网络的无监督图像描述模型的生成方法 | |
CN114925232A (zh) | 一种文段问答框架下跨模态的时域视频定位方法 | |
Gao et al. | Chinese fingerspelling sign language recognition using a nine-layer convolutional neural network | |
CN114511023A (zh) | 分类模型训练方法以及分类方法 | |
CN113297374A (zh) | 一种基于bert和字词特征融合的文本分类方法 | |
CN112905750A (zh) | 一种优化模型的生成方法和设备 | |
CN118245602A (zh) | 情绪识别模型的训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |