CN111783852B - 一种基于深度强化学习自适应式生成图像描述的方法 - Google Patents

一种基于深度强化学习自适应式生成图像描述的方法 Download PDF

Info

Publication number
CN111783852B
CN111783852B CN202010550939.0A CN202010550939A CN111783852B CN 111783852 B CN111783852 B CN 111783852B CN 202010550939 A CN202010550939 A CN 202010550939A CN 111783852 B CN111783852 B CN 111783852B
Authority
CN
China
Prior art keywords
description
image
formula
visual information
decision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010550939.0A
Other languages
English (en)
Other versions
CN111783852A (zh
Inventor
李建强
吴敬怡
董大强
冯慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202010550939.0A priority Critical patent/CN111783852B/zh
Publication of CN111783852A publication Critical patent/CN111783852A/zh
Application granted granted Critical
Publication of CN111783852B publication Critical patent/CN111783852B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

一种基于深度强化学习自适应式生成图像描述的方法及图像描述技术领域,提供一种更好的决策机制使生成描述过程中自适应的决策是否利用视觉信息。如利用语义信息生成下一个词语时不必要使用视觉信息;如利用注意力机制生成下一个单词时视觉信息的占比应该尽可能的大,可进行自适应的比重修正。本发明使在图像描述问题中生成下一个单词时能够自适应的决策是否利用视觉信息;采用强化学习的奖励机制调整在利用注意力机制生成词语时视觉信息所占比重,使得算法具有很强的学习能力、自适应性、科学性和鲁棒性。

Description

一种基于深度强化学习自适应式生成图像描述的方法
技术领域
本发明涉及图像描述技术领域,具体是一种基于深度强化学习自适应式生成图像描述的方法。
背景技术
图像描述技术可以根据输入机器的图像自动生成人类可理解的文字描述。该技术要求模型不仅能够识别图片中的物体还要理解物体之间的关系,然后以自然语言的方式自动阐述图像特征。图像描述在标注图像、婴幼儿早教、辅助医生临床诊断等方面有重大研究意义。
早期的图像描述工作大多基于检索和语义模板的方法,人们无法有效的提取图像特征,生成的句子描述缺乏灵活性,且不能进行泛化。近些年随着计算机视觉和自然语言处理技术的不断发展,目前大多数图像描述问题基于“编码—解码”框架进行处理。JunhuaMao等人第一次将“编码—解码”框架应用于图像描述问题,通过卷积神经网络(Convolutional Neural Networks,CNN)提取图像特征,后经过递归神经网络(RecurrentNeural Network,RNN)生成图像描述;Xu等人引入注意力机制,使在生成图像描述时更关注图像显著区域来提升图像描述工作性能;Jiasen Lu等人提出一种哨兵机制使得模型在生成下一个单词时利用“哨兵”控制视觉信息和语义信息各自占的比重。
当前这些方法在生成下一个单词时不能够科学的决策是否利用视觉信息,且在利用注意力机制生成下一个单词时无法修正视觉信息的比重。
发明内容
本发明所要解决的技术问题是:提供一种更好的决策机制使生成描述过程中自适应的决策是否利用视觉信息。如利用语义信息生成下一个词语时不必要使用视觉信息;如利用注意力机制生成下一个单词时视觉信息的占比应该尽可能的大,可进行自适应的比重修正。
为实现上述目的,本发明采用一种基于深度强化学习自适应式生成图像描述的技术方案,具体步骤如下:
步骤1:将数据分为训练集和测试集,训练集由图像及其相应的描述组成,测试集由图像组成;
步骤2:将训练数据集的图像输入卷积神经网络提取图像特征;
步骤3:将训练集的图像描述用one-hot编码方式进行编码来生成与图像对应的文本序列;
步骤4:将步骤2、3中的图像特征向量和文本序列输入至决策模块,以控制生成下一个词语时是否利用视觉信息;
步骤5:若通过决策模块后触发不利用视觉信息的方法索引,则将图像特征向量和文本序列输入至长短期记忆网络(Long Short-Term Memory,LSTM)生成图像描述;若通过决策模块后触发利用视觉信息索引生成下一个单词,则将图像特征向量和文本序列输入至有注意力机制的LSTM中生成描述;
步骤6:使用基于一致性的图像描述评价(Consensus-based Image DescriptionEvaluation,CIDEr)计算奖励反馈到决策模块进行更新并同时反馈到生成模块中进行比重的修正;
步骤7:最大限度的提高最终生成描述y相对于真实描述y*的回报以对图像描述模型进行训练;
步骤8:将测试数据集的图像分别输入到训练好的图像描述模型中得到相对应的描述语句。
作为一种优选的技术方案,为提供一种内容可控式定向生成图像描述的方法,所述步骤4中的决策模块具体实现为——令作为生成下一个单词的决策概率分布。计算如下:
gt=σ(Wxxt+Whht-1) (1)
st=gt⊙tanh(mt) (2)
ut=softmax(Wust+bu) (3)
nt=argmax(ut) (4)
式(1)中gt表示记忆控制门,Wx和Wh为要学习的权重矩阵,xt为t时刻LSTM的输入,ht-1为前一时刻的输出状态,σ为非线性激活函数。式(2)中st表示当前时刻包含的语义信息的状态,mt为LSTM中的记忆细胞,tanh为激活函数,⊙表示元素乘积。式(3)中的ut为生成下一个单词的决策概率分布,Wu和bu是网络参数,softmax为激活函数。式(4)表示ut经过argmax函数得到最高概率索引nt。计算后,将根据最高概率索引去触发生成模块中的不同生成方法。
本发明的有益效果如下:
本发明提出了一种新的决策方式,使在图像描述问题中生成下一个单词时能够自适应的决策是否利用视觉信息;采用强化学习的奖励机制调整在利用注意力机制生成词语时视觉信息所占比重,使得算法具有很强的学习能力、自适应性、科学性和鲁棒性。
附图说明
图1是本发明总体流程图。
图2是生成模块的具体模型图。
具体实施方式
下面结合附图和实施例对本发明进行详细说明,但实例仅用于解释本发明,并不限于此。
结合图1和图2,本实施例基于深度强化学习自适应式生成图像描述的方法由下述步骤组成:
步骤1:从MSCOCO数据集中选择82783张图像和相应描述作为训练集,并选择4000张图像作为测试集;
步骤2:将训练数据集的图像输入到卷积神经网络VGG-19提取图像特征;
步骤3:将训练集的图像描述用one-hot编码方式进行编码来生成与图像对应的文本序列;
步骤4:将步骤2、3中的图像特征向量和文本序列输入至决策模块,以控制生成下一个词语时是否利用视觉信息;
本实例中的决策模块具体实现为令为生成下一个单词的决策概率分布,其中st为包含之前单词语义信息的参数。计算如下:
gt=σ(Wxxt+Whht-1) (1)
st=gt⊙tanh(mt) (2)
ut=softmax(Wust+bu) (3)
nt=argmax(ut) (4)
式(1)中gt表示记忆控制门,Wx和Wh为要学习的权重矩阵,xt为t时刻LSTM的输入,ht-1为前一时刻的输出状态,σ为非线性激活函数。式(2)中st表示当前时刻包含的语义信息的状态,mt为LSTM中的记忆细胞,tanh为激活函数,⊙表示元素乘积。式(3)中的ut为生成下一个单词的决策概率分布,Wu和bu是网络参数,softmax为激活函数。式(4)表示ut经过argmax函数得到最高概率索引nt。计算后,将根据最高概率索引去触发生成模块中的不同生成方法。
步骤5:若通过决策模块后触发不利用视觉信息的方法索引,则将图像特征向量和文本序列输入至长短期记忆网络(Long Short-Term Memory,LSTM)生成图像描述,如图2中的分支一(图2上半部分)所示,此时用上一时刻的隐层状态ht-1、当前输入xt和当前隐层状态ht经过多层感知机(Multilayer Perceptron,MLP)预测得到输出yt
若通过决策模块后触发利用视觉信息索引生成下一个单词,则将图像特征向量和文本序列输入至有注意力机制的LSTM中生成描述,如图2中的分支二(图2下半部分)所示,令上下文向量:
Ct=Atten(V,ht-1) (5)
式(5)中V为图像特征,Atten为注意力机制的函数。此时用上下文向量Ct、上一时刻的隐层状态ht-1、当前输入xt和当前隐层状态ht经过多层感知机(MultilayerPerceptron,MLP)预测得到输出yt
步骤6:使用基于一致性的图像描述评价(Consensus-based Image DescriptionEvaluation,CIDEr)计算奖励反馈到决策模块进行更新并同时反馈到生成模块中进行比重的修正;
其中计算奖励过程如下:
公式(6)中yt为当前时刻模型输出的描述,Rt(yt)定义为当前的单词奖励,f为CIDEr评估方法,分别表示从开始到t和t-1时刻的生成描述集合,gts为真实描述即训练集中图像对应的描述;
应用奖励机制反馈到决策模块、生成模块的更新过程具体计算如下:
式(7)中yt表示为t时刻模型生成的描述,R(yt)定义为所有单词的折扣奖励,为折扣因子,表示目标最大化一个累积未来折扣回报,即希望学得一个策略(policy),通过执行这个策略使上式最大化。式(8)中L(θt)定义为期望回报,θt为决策模块或生成模块中的所有参数,yt与式(7)中定义相同,yt *表示t时刻图像对应的真实描述,Eyt[R(yt,yt *)]表示使状态yt转移到yt *的回报。式(9)/>表示最终对θt求导的梯度,/>为分值函数(score function),则/>表示为与式(8)结合并在分值函数的计算下应用奖励机制的反馈更新计算;
步骤7:最大限度的提高最终生成描述y相对于真实描述y*的回报以对图像描述模型进行训练,损失函数为:
L(θ)=-En,y[R(y,y*)] (10)
在式(10)、(11)中θ代表整个模型的参数,n为公示(4)中的概率索引参数,y为模型最终生成描述,y*为图像对应真实描述。式(10)中L(θ)定义为期望回报,En,y[R(y,y*)]表示使状态y转移到y*的回报。式(11)中定义为损失函数,/>为分值函数(score function),通过与式(10)结合计算得到/>
步骤8:将测试数据集的一张图像输入到训练好的图像描述模型中得到相对应的描述语句。

Claims (5)

1.一种基于深度强化学习自适应式生成图像描述的方法,其特征在于,具体步骤如下:
步骤1:将数据分为训练集和测试集,训练集由图像及其相应的描述组成,测试集由图像组成;
步骤2:将训练数据集的图像输入卷积神经网络提取图像特征;
步骤3:将训练集的图像描述用one-hot编码方式进行编码来生成与图像对应的文本序列;
步骤4:将步骤2、3中的图像特征向量和文本序列输入至决策模块,以控制生成下一个词语时是否利用视觉信息;
步骤5:若通过决策模块后触发不利用视觉信息的方法索引,则将图像特征向量和文本序列输入至长短期记忆网络(Long Short-Term Memory,LSTM)生成图像描述;若通过决策模块后触发利用视觉信息索引生成下一个单词,则将图像特征向量和文本序列输入至有注意力机制的LSTM中生成描述;
步骤6:使用基于一致性的图像描述评价(Consensus-based Image DescriptionEvaluation,CIDEr)计算奖励反馈到决策模块进行更新并同时反馈到生成模块中进行比重的修正;
步骤7:最大限度的提高最终生成描述y相对于真实描述y*的回报以对图像描述模型进行训练;
步骤8:将测试数据集的图像分别输入到训练好的图像描述模型中得到相对应的描述语句。
2.根据权利要求1所述的方法,其特征在于:所述步骤4中的决策模块具体实现为——令作为生成下一个单词的决策概率分布;计算如下:
gt=σ(Wxxt+Whht-1) (1)
st=gt⊙tanh(mt) (2)
ut=softmax(Wust+bu) (3)
nt=argmax(ut) (4)
式(1)中gt表示记忆控制门,Wx和Wh为要学习的权重矩阵,xt为t时刻LSTM的输入,ht-1为前一时刻的输出状态,σ为非线性激活函数;式(2)中st表示当前时刻包含的语义信息的状态,mt为LSTM中的记忆细胞,tanh为激活函数,⊙表示元素乘积;式(3)中的ut为生成下一个单词的决策概率分布,Wu和bu是网络参数,softmax为激活函数;式(4)表示ut经过argmax函数得到最高概率索引nt;计算后,将根据最高概率索引去触发生成模块中的不同生成方法。
3.根据权利要求1所述的方法,其特征在于:步骤5中若通过决策模块后触发不利用视觉信息的方法索引,则将图像特征向量和文本序列输入至长短期记忆网络(Long Short-Term Memory,LSTM)生成图像描述,此时用上一时刻的隐层状态ht-1、当前输入xt和当前隐层状态ht经过多层感知机预测得到输出yt
若通过决策模块后触发利用视觉信息索引生成下一个单词,则将图像特征向量和文本序列输入至有注意力机制的LSTM中生成描述,令上下文向量:
Ct=Atten(V,ht-1) (5)
式(5)中V为图像特征,Atten为注意力机制的函数;此时用上下文向量Ct、上一时刻的隐层状态ht-1、当前输入xt和当前隐层状态ht经过多层感知机预测得到输出yt
4.根据权利要求1所述的方法,其特征在于:步骤6中计算奖励过程如下:
公式(6)中yt为当前时刻模型输出的描述,Rt(yt)定义为当前的单词奖励,f为CIDEr评估方法,分别表示从开始到t和t-1时刻的生成描述集合,gts为真实描述即训练集中图像对应的描述;
应用奖励机制反馈到决策模块、生成模块的更新过程具体计算如下:
式(7)中yt表示为t时刻模型生成的描述,R(yt)定义为所有单词的折扣奖励,γ为折扣因子,表示目标最大化一个累积未来折扣回报,即希望学得一个策略,通过执行这个策略使上式最大化;式(8)中L(θt)定义为期望回报,θt为决策模块或生成模块中的所有参数,yt与式(7)中定义相同,yt *表示t时刻图像对应的真实描述,/>表示使状态yt转移到yt *的回报;式(9)/>表示最终对θt求导的梯度,/>为分值函数(score function),则/>表示为与式(8)结合并在分值函数的计算下应用奖励机制的反馈更新计算。
5.根据权利要求1所述的方法,其特征在于:步骤7中最大限度的提高最终生成描述y相对于真实描述y*的回报以对图像描述模型进行训练,损失函数为:
L(θ)=-En,y[R(y,y*)] (10)
在式(10)、(11)中θ代表整个模型的参数,n为公示(4)中的概率索引参数,y为模型最终生成描述,y*为图像对应真实描述;式(10)中L(θ)定义为期望回报,En,y[R(y,y*)]表示使状态y转移到y*的回报;式(11)中定义为损失函数,/>为分值函数(score function),通过与式(10)结合计算得到/>
CN202010550939.0A 2020-06-16 2020-06-16 一种基于深度强化学习自适应式生成图像描述的方法 Active CN111783852B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010550939.0A CN111783852B (zh) 2020-06-16 2020-06-16 一种基于深度强化学习自适应式生成图像描述的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010550939.0A CN111783852B (zh) 2020-06-16 2020-06-16 一种基于深度强化学习自适应式生成图像描述的方法

Publications (2)

Publication Number Publication Date
CN111783852A CN111783852A (zh) 2020-10-16
CN111783852B true CN111783852B (zh) 2024-03-12

Family

ID=72755970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010550939.0A Active CN111783852B (zh) 2020-06-16 2020-06-16 一种基于深度强化学习自适应式生成图像描述的方法

Country Status (1)

Country Link
CN (1) CN111783852B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989088B (zh) * 2021-02-04 2023-03-21 西安交通大学 一种基于强化学习的视觉关系实例学习方法
CN113408430B (zh) * 2021-06-22 2022-09-09 哈尔滨理工大学 基于多级策略和深度强化学习框架的图像中文描述系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188779A (zh) * 2019-06-03 2019-08-30 中国矿业大学 一种图像语义描述的生成方法
CN110210499A (zh) * 2019-06-03 2019-09-06 中国矿业大学 一种图像语义描述的自适应生成系统
CN110674850A (zh) * 2019-09-03 2020-01-10 武汉大学 一种基于注意力机制的图像描述生成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188779A (zh) * 2019-06-03 2019-08-30 中国矿业大学 一种图像语义描述的生成方法
CN110210499A (zh) * 2019-06-03 2019-09-06 中国矿业大学 一种图像语义描述的自适应生成系统
CN110674850A (zh) * 2019-09-03 2020-01-10 武汉大学 一种基于注意力机制的图像描述生成方法

Also Published As

Publication number Publication date
CN111783852A (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN110532377B (zh) 一种基于对抗训练和对抗学习网络的半监督文本分类方法
CN110210499B (zh) 一种图像语义描述的自适应生成系统
CN108647233B (zh) 一种用于问答系统的答案排序方法
CN110309839B (zh) 一种图像描述的方法及装置
CN107133211A (zh) 一种基于注意力机制的作文评分方法
CN107924680A (zh) 口语理解系统
CN110489567B (zh) 一种基于跨网络特征映射的节点信息获取方法及其装置
CN112331183B (zh) 基于自回归网络的非平行语料语音转换方法及系统
CN110570920A (zh) 一种基于集中注意力模型的实体、关系联合学习方法
CN109977428A (zh) 一种答案获取的方法及装置
CN110321418A (zh) 一种基于深度学习的领域、意图识别和槽填充方法
CN108563624A (zh) 一种基于深度学习的自然语言生成方法
CN111783852B (zh) 一种基于深度强化学习自适应式生成图像描述的方法
CN106897254A (zh) 一种网络表示学习方法
CN112527966B (zh) 基于Bi-GRU神经网络和自注意力机制的网络文本情感分析方法
CN115424177A (zh) 一种基于增量学习的孪生网络目标跟踪的方法
CN110188791B (zh) 基于自动估计的视觉情感标签分布预测方法
CN111191461B (zh) 一种基于课程学习的远程监督关系抽取方法
CN112116685A (zh) 基于多粒度奖励机制的多注意力融合网络的图像字幕生成方法
Zhang et al. Type-aware medical visual question answering
CN115294627A (zh) 基于文本主驱动的学习者多模态情感分析方法及装置
CN116543289B (zh) 一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法
CN117216223A (zh) 对话文本的生成方法和装置、存储介质及电子设备
CN113297374A (zh) 一种基于bert和字词特征融合的文本分类方法
CN117313709A (zh) 一种基于统计信息和预训练语言模型的生成文本检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant