CN109145946B - 一种智能图像识别和描述方法 - Google Patents

一种智能图像识别和描述方法 Download PDF

Info

Publication number
CN109145946B
CN109145946B CN201810776374.0A CN201810776374A CN109145946B CN 109145946 B CN109145946 B CN 109145946B CN 201810776374 A CN201810776374 A CN 201810776374A CN 109145946 B CN109145946 B CN 109145946B
Authority
CN
China
Prior art keywords
model
word
image
inclusion
lstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810776374.0A
Other languages
English (en)
Other versions
CN109145946A (zh
Inventor
孔锐
谢玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN201810776374.0A priority Critical patent/CN109145946B/zh
Publication of CN109145946A publication Critical patent/CN109145946A/zh
Application granted granted Critical
Publication of CN109145946B publication Critical patent/CN109145946B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种智能图像识别和描述方法,包括步骤:1)用卷积神经网络来提取输入图像的特征,生成固定长度的特征向量;2)用提取出的特征向量初始化循环神经网络语言模型LSTM,从而生成句子,描述该输入图像。本方法是一种端到端的图像描述神经网络模型,结合了当前领先的视觉模型Inception V4和语言模型LSTM,与先前的基线模型相比,本专利模型具有特征提取能力强,生成句子描述详细等优点,性能有了显著提高,非常具有实用价值。

Description

一种智能图像识别和描述方法
技术领域
本发明涉及人工智能领域中的图像描述技术领域,特别涉及一种智能图像识别和描述方法。
背景技术
自动识别和描述图像的内容是人工智能领域中一个重要的研究方向,它涉及计算机视觉和自然语言处理技术。目前,大部分图像描述系统是基于模板的文本描述生成,优点是得到的语言描述在语法上有较高的准确率,缺点是高度依赖于模板,不适用于所有图像,且限制了输出的多样性。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种智能图像识别和描述方法,提供了一种端到端的图像描述神经网络模型,克服基于模板的文本描述生成对图像描述所造成的局限性。
本发明的目的通过以下的技术方案实现:一种智能图像识别和描述方法,包括步骤:
1)用卷积神经网络来提取输入图像的特征,生成固定长度的特征向量;
2)用提取出的特征向量初始化循环神经网络语言模型LSTM,从而生成句子,描述该输入图像。
优选的,卷积神经网络包括图像嵌入模型Inception V4,用Inception V4来提取输入图像的特征。
优选的,方法包括LSTM模型、图像嵌入模型Inception V4和单词嵌入模型word2vec,LSTM记忆单元之间展开连接;
用I表示输入图像,用S=(S0,...,SN)表示描述该图像正确的文本描述,则展开过程如下:
x-1=CNN(I) (1)
xt=WeSt,t∈{0...N-1} (2)
pt+1=LSTM(xt),t∈{0...N-1} (3)
其中,用一位有效编码的向量St表示每个单词,St的维度与字典中单词的数量相等;用S0表示一个特定的开始单词,用SN表示一个特定的停止单词,S0、SN用来指定句子的开始和结束;当生成停止单词时,表示模型已经生成了完整的句子;输入图像和输入单词都被映射到相同的空间,其中,输入图像是通过使用卷积神经网络Inception V4,输入单词是通过使用单词嵌入模型word2vecWe;图像I只在t=-1时刻输入一次,将图像的内容传达给LSTM。
优选的,模型训练过程包括:1)在ImageNet数据集上预训练Inception V4,用训练后的Inception V4初始化模型的卷积神经网络;2)使用无动量的随机梯度下降和学习率指数衰减来训练模型的LSTM、单词嵌入word2vec以及Inception V4顶层这3个部分的权重。
具体的,初始学习率为2.0,学习率衰减因子为0.5。
优选的,本发明模型的损失是每个时间步中正确单词的负对数概率之和,如下所示:
Figure BDA0001723837470000021
训练模型中LSTM模块、图像嵌入模块Inception V4的顶层和单词嵌入模块word2vec We这3个模块中的参数,以最小化公式(4)中的损失。
本发明与现有技术相比,具有如下优点和有益效果:
本方法是一种端到端的图像描述神经网络模型,结合了当前领先的视觉模型Inception V4和语言模型LSTM,与先前的基线模型相比,本专利模型具有特征提取能力强,生成句子描述详细等优点,本专利模型的性能有了显著提高,非常具有实用价值。
附图说明
图1是实施例模型架构示意图。
图2是实施例模型架构展开图。
图3是测试图像。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
一种由深层神经网络模型生成自然语言来描述图像内容的方法,该模型由卷积神经网络(Convolution Neural Network,CNN)和循环神经网络(Recurrent NeuralNetwork,RNN)语言模型组成,如图1所示,其中,卷积神经网络用来提取输入图像的特征,生成固定长度的特征向量,该特征向量用来初始化生成句子的循环神经网络语言模型。
方法过程:1)用卷积神经网络Inception V4来提取输入图像的特征,生成固定长度的特征向量;2)用提取出的特征向量初始化循环神经网络语言模型LSTM,从而生成句子,描述该输入图像。
模型训练过程:1)在ImageNet数据集上预训练Inception V4,用训练后的Inception V4初始化本专利模型的CNN;2)本专利模型使用无动量的随机梯度下降和学习率指数衰减来训练模型的LSTM、单词嵌入word2vec以及Inception V4顶层这3个部分的权重,其中,初始学习率为2.0,学习率衰减因子为0.5。
本专利模型架构的展开式如图2所示,它由LSTM模型、图像嵌入模型Inception V4和单词嵌入模型word2vec组成。在模型架构的展开图中,LSTM记忆单元之间展开连接。
用I表示输入图像,用S=(S0,...,SN)表示描述该图像正确的文本描述,则展开过程如下:
x-1=CNN(I) (1)
xt=WeSt,t∈{0...N-1} (2)
pt+1=LSTM(xt),t∈{0...N-1} (3)
其中,用一位有效编码的向量St表示每个单词,St的维度与字典中单词的数量相等。用S0表示一个特定的开始单词,用SN表示一个特定的停止单词,S0、SN用来指定句子的开始和结束。当生成停止单词时,表示模型已经生成了完整的句子。输入图像和输入单词都被映射到相同的空间,其中,输入图像是通过使用卷积神经网络Inception V4,输入单词是通过使用单词嵌入模型word2vecWe。图像I只在t=-1时刻输入一次,将图像的内容传达给LSTM。
本专利模型的损失是每个时间步中正确单词的负对数概率之和,如下所示:
Figure BDA0001723837470000041
训练本文模型中LSTM模块、图像嵌入模块Inception V4的顶层和单词嵌入模块word2vec We这3个模块中的参数,以最小化公式(4)中的损失。本专利模型采用MSCOCO图像描述数据集进行训练,每张图像有5句英文句子描述。为了直观显示模型的性能,随机选取了4张测试图像,如图3所示,模型生成句子来描述图像,如表1所示,结果显示了本专利模型所生成句子的合理性和准确性。
表1模型生成句子
Figure BDA0001723837470000042
在MSCOCO图像描述数据集上的实验结果表明了本专利模型所生成句子的语法准确性和语义准确性,并且优于先前的基线模型,实用价值高。预计该图像描述模型可运用在基于图像理解的各个领域,具有良好的市场前景。
本发明在现有图像描述技术基础上进行了创新,模型结合了当前领先的视觉模型Inception V4和语言模型LSTM。通过本专利模型生成句子与基线模型NICv2生成句子的对比,结果显示了本专利模型生成的句子描述更为准确和详细,句子的整体质量有了显著提高。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (5)

1.一种智能图像识别和描述方法,其特征在于,包括步骤:
1)用卷积神经网络来提取输入图像的特征,生成固定长度的特征向量;
2)用提取出的特征向量初始化循环神经网络语言模型LSTM,从而生成句子,描述该输入图像;
方法包括LSTM模型、图像嵌入模型Inception V4和单词嵌入模型word2vec,LSTM记忆单元之间展开连接;
用I表示输入图像,用S=(S0,...,SN)表示描述该图像正确的文本描述,则展开过程如下:
x-1=CNN(I) (1)
xt=WeSt,t∈{0...N-1} (2)
pt+1=LSTM(xt),t∈{0...N-1} (3)
其中,用一位有效编码的向量St表示每个单词,St的维度与字典中单词的数量相等;用S0表示一个特定的开始单词,用SN表示一个特定的停止单词,S0、SN用来指定句子的开始和结束;当生成停止单词时,表示模型已经生成了完整的句子;输入图像和输入单词都被映射到相同的空间,其中,输入图像是通过使用卷积神经网络的Inception V4生成特征向量x-1,输入单词是通过使用单词嵌入模型的word2vecWe生成512维的词向量xt,word2vecWe为单词嵌入模块;图像I只在t=-1时刻输入一次,将图像的内容传达给LSTM。
2.根据权利要求1所述的智能图像识别和描述方法,其特征在于,卷积神经网络包括图像嵌入模型Inception V4,用Inception V4来提取输入图像的特征。
3.根据权利要求1所述的智能图像识别和描述方法,其特征在于,模型训练过程包括:1)在ImageNet数据集上预训练Inception V4,用训练后的Inception V4初始化模型的卷积神经网络;2)使用无动量的随机梯度下降和学习率指数衰减来训练模型的LSTM、单词嵌入word2vec以及Inception V4顶层这3个部分的权重。
4.根据权利要求3所述的智能图像识别和描述方法,其特征在于,初始学习率为2.0,学习率衰减因子为0.5。
5.根据权利要求3所述的智能图像识别和描述方法,其特征在于,该 模型的损失是每个时间步中正确单词的负对数概率之和,如下所示:
Figure FDA0003150530580000021
其中,pt(St)为每个时间步中正确单词的概率,训练模型中LSTM模块、图像嵌入模块Inception V4的顶层和单词嵌入模块word2vecWe这3个模块中的参数,以最小化公式(4)中的损失。
CN201810776374.0A 2018-07-09 2018-07-09 一种智能图像识别和描述方法 Expired - Fee Related CN109145946B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810776374.0A CN109145946B (zh) 2018-07-09 2018-07-09 一种智能图像识别和描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810776374.0A CN109145946B (zh) 2018-07-09 2018-07-09 一种智能图像识别和描述方法

Publications (2)

Publication Number Publication Date
CN109145946A CN109145946A (zh) 2019-01-04
CN109145946B true CN109145946B (zh) 2022-02-11

Family

ID=64800469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810776374.0A Expired - Fee Related CN109145946B (zh) 2018-07-09 2018-07-09 一种智能图像识别和描述方法

Country Status (1)

Country Link
CN (1) CN109145946B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188772A (zh) * 2019-05-22 2019-08-30 清华大学深圳研究生院 基于深度学习的中文图像描述方法
CN110399905B (zh) * 2019-07-03 2023-03-24 常州大学 施工场景中安全帽佩戴情况的检测及描述方法
CN112214626B (zh) * 2019-07-09 2024-03-19 北京地平线机器人技术研发有限公司 图像识别方法、装置、可读存储介质及电子设备
CN112270344A (zh) * 2020-10-19 2021-01-26 西安工程大学 一种基于cbam的图像描述生成模型方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631468A (zh) * 2015-12-18 2016-06-01 华南理工大学 一种基于rnn的图片描述自动生成方法
CN106650789A (zh) * 2016-11-16 2017-05-10 同济大学 一种基于深度lstm网络的图像描述生成方法
CN106650756A (zh) * 2016-12-28 2017-05-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于知识迁移的多模态循环神经网络的图像文本描述方法
WO2017151757A1 (en) * 2016-03-01 2017-09-08 The United States Of America, As Represented By The Secretary, Department Of Health And Human Services Recurrent neural feedback model for automated image annotation
CN107578062A (zh) * 2017-08-19 2018-01-12 四川大学 一种基于属性概率向量引导注意模式的图片描述方法
CN107609563A (zh) * 2017-09-15 2018-01-19 成都澳海川科技有限公司 图片语义描述方法及装置
CN108073941A (zh) * 2016-11-17 2018-05-25 江南大学 一种基于深度学习的图像语义生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170140240A1 (en) * 2015-07-27 2017-05-18 Salesforce.Com, Inc. Neural network combined image and text evaluator and classifier

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631468A (zh) * 2015-12-18 2016-06-01 华南理工大学 一种基于rnn的图片描述自动生成方法
WO2017151757A1 (en) * 2016-03-01 2017-09-08 The United States Of America, As Represented By The Secretary, Department Of Health And Human Services Recurrent neural feedback model for automated image annotation
CN106650789A (zh) * 2016-11-16 2017-05-10 同济大学 一种基于深度lstm网络的图像描述生成方法
CN108073941A (zh) * 2016-11-17 2018-05-25 江南大学 一种基于深度学习的图像语义生成方法
CN106650756A (zh) * 2016-12-28 2017-05-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于知识迁移的多模态循环神经网络的图像文本描述方法
CN107578062A (zh) * 2017-08-19 2018-01-12 四川大学 一种基于属性概率向量引导注意模式的图片描述方法
CN107609563A (zh) * 2017-09-15 2018-01-19 成都澳海川科技有限公司 图片语义描述方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BabyTalk: Understanding and Generating Simple Image Descriptions;Girish Kulkarni等;《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》;20131231;第35卷(第12期);全文 *
基于梯度核特征及N-gram模型的商品图像句子标注;张红斌等;《计算机科学》;20160531;第43卷(第5期);全文 *

Also Published As

Publication number Publication date
CN109145946A (zh) 2019-01-04

Similar Documents

Publication Publication Date Title
CN111783462B (zh) 基于双神经网络融合的中文命名实体识别模型及方法
US20210390271A1 (en) Neural machine translation systems
CN112464993B (zh) 一种多模态模型训练方法、装置、设备及存储介质
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN109145946B (zh) 一种智能图像识别和描述方法
CN111078866B (zh) 一种基于序列到序列模型的中文文本摘要生成方法
CN106569998A (zh) 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN110288665A (zh) 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备
CN110134968A (zh) 基于深度学习的诗歌生成方法、装置、设备及存储介质
CN116167362A (zh) 模型训练方法、中文文本纠错方法、电子设备和存储介质
CN105068997B (zh) 平行语料的构建方法及装置
CN114676234A (zh) 一种模型训练方法及相关设备
CN111563375B (zh) 一种文本生成方法和装置
CN111599340A (zh) 一种多音字读音预测方法、装置及计算机可读存储介质
CN111125367A (zh) 一种基于多层次注意力机制的多种人物关系抽取方法
CN115658954B (zh) 一种基于提示学习的跨模态检索对抗防御方法
CN110569505A (zh) 一种文本输入方法及装置
CN112016271A (zh) 语言风格转换模型的训练方法、文本处理方法以及装置
CN114020906A (zh) 基于孪生神经网络的中文医疗文本信息匹配方法及系统
CN115064154A (zh) 混合语言语音识别模型的生成方法及装置
CN116955644A (zh) 基于知识图谱的知识融合方法、系统及存储介质
CN117034951A (zh) 基于大语言模型的具有特定语言风格的数字人
CN113722536B (zh) 基于双线性自适应特征交互与目标感知的视频描述方法
CN113408619B (zh) 语言模型预训练方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220211