CN109710787A - 基于深度学习的图像描述方法 - Google Patents
基于深度学习的图像描述方法 Download PDFInfo
- Publication number
- CN109710787A CN109710787A CN201811646150.4A CN201811646150A CN109710787A CN 109710787 A CN109710787 A CN 109710787A CN 201811646150 A CN201811646150 A CN 201811646150A CN 109710787 A CN109710787 A CN 109710787A
- Authority
- CN
- China
- Prior art keywords
- image
- residual error
- network
- model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
一种基于深度学习的图像描述方法,包括将图像数据集分为训练集和测试集;构建图像描述模型;在ImageNet数据集上训练完成残差网络预训练模型,加载残差网络预训练模型参数至图像描述模型中的可变形卷积残差网络中;将训练集中的图像送入空间变换网络中,空间变换网络的输出结果送到可变形卷积残差网络,可变形卷积残差网络输出图像的特征向量;生成图像对应的文本序列;完成语言模型的构建生成图像对应的语句;使用AdamW优化算法对图像描述模型进行训练;输出图像对应的描述语句;本发明提取的图像特征具有更好的空间表达能力,生成的句子准确度高,语言结构丰富,并且模型训练时间少,收敛速度快。
Description
技术领域
本发明属于人工智能深度学习领域,具体是一种基于深度学习的图像描述方法。
背景技术
图像描述是机器将一张图像自动翻译为人类能够理解的句子,它是一个涉及计算机视觉、自然语言处理和机器学习的基本问题。系统不仅要识别图像中的物体,还要识别出物体的属性、位置以及图像中物体之间的关系,然后通过自然语言处理转换为具有一定语法结构的句子。图像描述在帮助有视力障碍的人减轻视觉障碍、婴儿早期教育和图像检索方面有很大的意义。
传统的图像描述是基于模板和基于语义迁移的方法,但传统方法生成的句子结构单一,会出现图像理解偏差的问题,目前主流的图像描述的方法是基于“编码-解码”的方法。Vinyals等人提出NIC模型,通过卷积神经网络(ConvolutionalNeural Network,CNN)提取图像特征,然后送到长短时记忆网络(Long Short-TermMemory,LSTM)中生成图像对应的句子。Xu等人将LSTM与注意机制进行结合,把图像中物体的位置信息与描述的内容进行关联,使得在生成单词序列的时候,更关注图像中显著位置的物体。XuJia等人提出gLSTM(guidingLSTM)模型,在LSTM的基础上加入图像的特征信息或者句子的语义信息,作为LSTM的指导性信息。Qing Sun等人使用双向循环网络模型构建图像描述模型,并且可以通过双向循环网络模型填补句子中缺失的部分。
这些方法所用的网络模型存在模型收敛速度慢,生成的句子准确度低,结构简单等问题。
发明内容
本发明所要解决的主要技术问题在于克服上述描述方法的不足,提供一种收敛速度快、空间表达能力强、生成句子准确度高的基于深度学习的图像描述方法。
解决上述技术问题所采用的技术方案由下述步骤组成:
1.一种基于深度学习的图像描述方法,其特征在于由下述步骤组成:
(1)将图像数据集分为训练集和测试集,训练集由图像和图像对应的标注语句组成,测试集由图像组成;
(2)构建图像描述模型
图像描述模型由空间变换网络、可变形卷积残差网络、双向的自约束门限递归网络串联构成,所述的空间变换网络和可变形卷积残差网络用于提取图像的特征,双向的自约束门限递归网络用于构建语言模型并生成图像对应的语句;
(3)在ImageNet数据集上训练完成残差网络预训练模型,加载残差网络预训练模型参数至可变形卷积残差网络中;
(4)将训练集中的图像送入空间变换网络中,空间变换网络的输出结果送到可变形卷积残差网络,可变形卷积残差网络输出图像的特征向量;
(5)采用one-hot编码方式对训练集中图像对应的描述语句进行编码,生成图像对应的文本序列;
(6)将训练集中图像的特征向量和文本序列传输至双向的自约束门限递归网络中,完成语言模型的构建生成图像对应的语句;
(7)使用AdamW优化算法对图像描述模型进行训练;
(8)将测试集中的一幅图像输入到训练完成的图像描述模型中,输出图像对应的描述语句。
作为一种优选的技术方案,所述的步骤(2)中可变形卷积残差网络结构为残差网络的第五卷积组中所有卷积采样点均加一个偏移向量。
作为一种优选的技术方案,所述的步骤(2)中自约束门限递归网络由门限递归网络的输入和输出分别添加LReLU激活函数构成,所述的自约束门限递归网络的公式如下:
r=σ(Wrxt+UrφLReLU(ht-1)) (1)
z=σ(Wzxt+UzφLReLU(ht-1)) (2)
Outputt=φLReLU(ht) (5)
式中r为重置门,Wr和Ur为重置门权重矩阵,xt为当前时刻网络的输入,σ为sigmoid激活函数,φLReLU为LReLU激活函数,z为更新门,Wz和Uz为更新门权重矩阵,ht-1为前一时刻的输出状态,为当前时刻的隐藏状态信息,Wh和Uh为隐藏状态权重矩阵,ht为当前时刻的状态信息,表示向量对应元素相乘的运算,Outputt为t时刻网络的输出。
本发明的有益效果:
本发明采用深度学习方法对图像进行描述,将图像输入到空间变换网络中,增加了模型的空间鲁棒性;采用可变形卷积残差网络,使卷积核形状可以发生变化,以适应不同的输入特征图,丰富了残差网络的空间表达能力;采用自约束门限递归网络,构建双向的自约束门限递归网络模型,有助于解决多层循环网络结构模型带来的梯度爆炸和梯度消失问题,提高模型构建语言结构的能力;使用AdamW优化算法对模型进行训练,可加快模型的训练速度,减少模型的训练时间。本发明提取的图像特征具有更好的空间表达能力,生成的句子准确度高,语言结构丰富,并且模型训练时间少,收敛速度快。
附图说明
图1是本发明基于深度学习的图像描述方法的流程图。
图2是实施例1中输入的测试图像及输出测试图像对应的描述语句。
具体实施方式
下面结合附图和实施例对本发明进一步详细说明,但本发明不限于这些实施例。
实施例1
本实施例采用的图像数据集为MSCOCO数据集,MSCOCO数据集由图像和图像对应的人工标注的句子组成。
在图1中,本实施例的基于深度学习的图像描述方法,由下述步骤组成:
(1)从MSCOCO数据集中选取82783张图像及图像对应的人工标注的句子作为训练集,选取4000张图像作为测试集;
(2)构建图像描述模型
图像描述模型由空间变换网络、可变形卷积残差网络、双向的自约束门限递归网络串联构成,所述的空间变换网络和可变形卷积残差网络用于提取图像的特征,双向的自约束门限递归网络用于构建语言模型生成图像对应的语句;
本实施例的可变形卷积残差网络结构为残差网络的第五卷积组中所有卷积采样点均加一个偏移向量;
本实施例的自约束门限递归网络由门限递归网络的输入和输出分别添加LReLU激活函数构成,自约束门限递归网络模型的公式如下:
r=σ(Wrxt+UrφLReLU(ht-1)) (1)
z=σ(Wzxt+UzφLReLU(ht-1)) (2)
Outputt=φLReLU(ht) (5)
式中r为重置门,Wr和Ur为重置门权重矩阵,xt为当前时刻网络的输入,σ为sigmoid激活函数,φLReLU为LReLU激活函数,z为更新门,Wz和Uz为更新门权重矩阵,ht-1为前一时刻的输出状态,为当前时刻的隐藏状态信息,Wh和Uh为隐藏状态权重矩阵,ht为当前时刻的状态信息,表示向量对应元素相乘的运算,Outputt为t时刻网络的输出。
(3)在ImageNet数据集上训练完成残差网络预训练模型,加载残差网络预训练模型参数至可变形卷积残差网络中;
(4)将训练集中的图像送入空间变换网络中,空间变换网络的输出结果送到可变形卷积残差网络,可变形卷积残差网络输出图像的特征向量;
(5)采用one-hot编码方式对训练集中的图像对应的描述语句进行编码,生成图像对应的文本序列;
(6)将训练集中图像的特征向量和文本序列传输至双向的自约束门限递归网络中,完成语言模型的构建生成图像对应的语句;
(7)使用AdamW优化算法对图像描述模型进行训练;
AdamW优化算法的公式如式(6)到式(10)所示:
mt=β1mt-1+(1-β1)gt (6)
其中t为时间步,gt为梯度,mt为t时刻梯度的一阶矩,vt为t时刻梯度的二阶矩,mt-1为t-1时刻梯度的一阶矩,vt-1为t-1时刻梯度的二阶矩,β1为一阶矩的衰减因子,β2为二阶矩的衰减因子;
当mt、vt的值趋近于0向量时,对一阶矩和二阶矩的偏差进行修正:
式中β1 t、β2 t分别为β1、β2的转置,分别为mt、vt的修正项;
AdamW参数更新的公式为:
其中θ为模型中的参数,η为学习率,α的值为0.001,ξ的值为10-8,ω为实数;
(8)将测试集中的一幅图像输入到训练完成的图像描述模型中,输出图像对应的描述语句,如图2。
Claims (3)
1.一种基于深度学习的图像描述方法,其特征在于由下述步骤组成:
(1)将图像数据集分为训练集和测试集,训练集由图像和图像对应的标注语句组成,测试集由图像组成;
(2)构建图像描述模型
图像描述模型由空间变换网络、可变形卷积残差网络、双向的自约束门限递归网络串联构成,所述的空间变换网络和可变形卷积残差网络用于提取图像的特征,双向的自约束门限递归网络用于构建语言模型并生成图像对应的语句;
(3)在ImageNet数据集上训练完成残差网络预训练模型,加载残差网络预训练模型参数至可变形卷积残差网络中;
(4)将训练集中的图像送入空间变换网络中,空间变换网络的输出结果送到可变形卷积残差网络,可变形卷积残差网络输出图像的特征向量;
(5)采用one-hot编码方式对训练集中图像对应的描述语句进行编码,生成图像对应的文本序列;
(6)将训练集中图像的特征向量和文本序列传输至双向的自约束门限递归网络中,完成语言模型的构建生成图像对应的语句;
(7)使用AdamW优化算法对图像描述模型进行训练;
(8)将测试集中的一幅图像输入到训练完成的图像描述模型中,输出图像对应的描述语句。
2.根据权利要求1所述的基于深度学习的图像描述方法,其特征在于:所述的步骤(2)中可变形卷积残差网络结构为残差网络的第五卷积组中所有卷积采样点均加一个偏移向量。
3.根据权利要求1所述基于深度学习的图像描述方法,其特征在于:所述的步骤(2)中自约束门限递归网络由门限递归网络的输入和输出分别添加LReLU激活函数构成,所述的自约束门限递归网络的公式如下:
r=σ(Wrxt+UrφLReLU(ht-1)) (1)
z=σ(Wzxt+UzφLReLU(ht-1)) (2)
Outputt=φLReLU(ht) (5)
式中r为重置门,Wr和Ur为重置门权重矩阵,xt为当前时刻网络的输入,σ为sigmoid激活函数,φLReLU为LReLU激活函数,z为更新门,Wz和Uz为更新门权重矩阵,ht-1为前一时刻的输出状态,为当前时刻的隐藏状态信息,Wh和Uh为隐藏状态权重矩阵,ht为当前时刻的状态信息,表示向量对应元素相乘的运算,Outputt为t时刻网络的输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811646150.4A CN109710787B (zh) | 2018-12-30 | 2018-12-30 | 基于深度学习的图像描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811646150.4A CN109710787B (zh) | 2018-12-30 | 2018-12-30 | 基于深度学习的图像描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109710787A true CN109710787A (zh) | 2019-05-03 |
CN109710787B CN109710787B (zh) | 2023-03-28 |
Family
ID=66260447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811646150.4A Active CN109710787B (zh) | 2018-12-30 | 2018-12-30 | 基于深度学习的图像描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109710787B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348014A (zh) * | 2019-07-10 | 2019-10-18 | 电子科技大学 | 一种基于深度学习的语义相似度计算方法 |
CN110852171A (zh) * | 2019-10-14 | 2020-02-28 | 清华大学深圳国际研究生院 | 在线训练的场景描述机器人系统及方法 |
CN110991515A (zh) * | 2019-11-28 | 2020-04-10 | 广西师范大学 | 一种融合视觉上下文的图像描述方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107807971A (zh) * | 2017-10-18 | 2018-03-16 | 北京信息科技大学 | 一种自动图像语义描述方法 |
CN107944450A (zh) * | 2017-11-16 | 2018-04-20 | 深圳市华尊科技股份有限公司 | 一种车牌识别方法及装置 |
CN108009154A (zh) * | 2017-12-20 | 2018-05-08 | 哈尔滨理工大学 | 一种基于深度学习模型的图像中文描述方法 |
CN108509881A (zh) * | 2018-03-22 | 2018-09-07 | 五邑大学 | 一种无切分的脱机手写汉字文本识别方法 |
CN108830287A (zh) * | 2018-04-18 | 2018-11-16 | 哈尔滨理工大学 | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 |
CN108876735A (zh) * | 2018-06-01 | 2018-11-23 | 武汉大学 | 一种基于深度残差网络的真实图像盲去噪方法 |
US20180373985A1 (en) * | 2017-06-23 | 2018-12-27 | Nvidia Corporation | Transforming convolutional neural networks for visual sequence learning |
-
2018
- 2018-12-30 CN CN201811646150.4A patent/CN109710787B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180373985A1 (en) * | 2017-06-23 | 2018-12-27 | Nvidia Corporation | Transforming convolutional neural networks for visual sequence learning |
CN107807971A (zh) * | 2017-10-18 | 2018-03-16 | 北京信息科技大学 | 一种自动图像语义描述方法 |
CN107944450A (zh) * | 2017-11-16 | 2018-04-20 | 深圳市华尊科技股份有限公司 | 一种车牌识别方法及装置 |
CN108009154A (zh) * | 2017-12-20 | 2018-05-08 | 哈尔滨理工大学 | 一种基于深度学习模型的图像中文描述方法 |
CN108509881A (zh) * | 2018-03-22 | 2018-09-07 | 五邑大学 | 一种无切分的脱机手写汉字文本识别方法 |
CN108830287A (zh) * | 2018-04-18 | 2018-11-16 | 哈尔滨理工大学 | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 |
CN108876735A (zh) * | 2018-06-01 | 2018-11-23 | 武汉大学 | 一种基于深度残差网络的真实图像盲去噪方法 |
Non-Patent Citations (9)
Title |
---|
JUNBOZHANG 等: "Predicting citywide crowd flows using deep spatio-temporal residual networks", 《ARTIFICIAL INTELLIGENCE》 * |
SIMON ANDERMATT 等: "Multi-dimensional Gated Recurrent Units for Automated Anatomical Landmark Localization", 《ARXIV》 * |
周文祥: "基于X-ray图像的骨龄自动评估", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
张洁庆 等: "基于GoogLeNet和双层GRU的图像描述", 《陕西师范大学学报(自然科学版)》 * |
张洁庆: "基于深度学习的图像描述方法", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
王体迎 等: "基于门限递归单元循环神经网络的交通流预测方法研究", 《重庆交通大学学报(自然科学版)》 * |
蒋昂波 等: "ReLU激活函数优化研究", 《传感器与微系统》 * |
郭腾腾 等: "一种基于忆阻激活函数的递归神经网络及其联想记忆", 《中国科学:信息科学》 * |
钱勇生 等: "基于改进卷积神经网络的多视角人脸表情识别", 《计算机工程与应用》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348014A (zh) * | 2019-07-10 | 2019-10-18 | 电子科技大学 | 一种基于深度学习的语义相似度计算方法 |
CN110348014B (zh) * | 2019-07-10 | 2023-03-24 | 电子科技大学 | 一种基于深度学习的语义相似度计算方法 |
CN110852171A (zh) * | 2019-10-14 | 2020-02-28 | 清华大学深圳国际研究生院 | 在线训练的场景描述机器人系统及方法 |
CN110991515A (zh) * | 2019-11-28 | 2020-04-10 | 广西师范大学 | 一种融合视觉上下文的图像描述方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109710787B (zh) | 2023-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108073711A (zh) | 一种基于知识图谱的关系抽取方法和系统 | |
CN110390397B (zh) | 一种文本蕴含识别方法及装置 | |
CN110516085A (zh) | 基于双向注意力的图像文本互检索方法 | |
CN107463609A (zh) | 一种使用分层时空注意力编解码器网络机制解决视频问答的方法 | |
CN111651557A (zh) | 一种自动化文本生成方法、装置及计算机可读存储介质 | |
CN107133211A (zh) | 一种基于注意力机制的作文评分方法 | |
CN112487143A (zh) | 一种基于舆情大数据分析的多标签文本分类方法 | |
CN107391623A (zh) | 一种融合多背景知识的知识图谱嵌入方法 | |
CN110427989B (zh) | 汉字骨架自动合成方法及大规模中文字库自动生成方法 | |
CN109710787A (zh) | 基于深度学习的图像描述方法 | |
CN106776540A (zh) | 一种自由化文本生成方法 | |
CN107766320A (zh) | 一种中文代词消解模型建立方法及装置 | |
CN108984904A (zh) | 一种基于深度神经网络的家居设计方法 | |
CN110334196B (zh) | 基于笔画和自注意力机制的神经网络中文问题生成系统 | |
CN108763191A (zh) | 一种文本摘要生成方法及系统 | |
CN110457661B (zh) | 自然语言生成方法、装置、设备及存储介质 | |
CN107679225A (zh) | 一种基于关键词的回复生成方法 | |
CN112395842B (zh) | 一种提高内容一致性的长文本故事生成方法及系统 | |
CN111191461B (zh) | 一种基于课程学习的远程监督关系抽取方法 | |
CN110427629A (zh) | 半监督文本简化模型训练方法和系统 | |
CN112100486A (zh) | 一种基于图模型的深度学习推荐系统及其方法 | |
CN110516240A (zh) | 一种基于Transformer的语义相似度计算模型DSSM技术 | |
CN113240714A (zh) | 一种基于情境感知网络的人体运动意图预测方法 | |
CN110069756A (zh) | 一种考虑用户评价的资源或服务推荐方法 | |
CN115168678A (zh) | 一种时序感知的异质图神经谣言检测模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |