CN112801234A - 基于神经网络的图像诗句描述生成方法、装置和设备 - Google Patents

基于神经网络的图像诗句描述生成方法、装置和设备 Download PDF

Info

Publication number
CN112801234A
CN112801234A CN202110386114.4A CN202110386114A CN112801234A CN 112801234 A CN112801234 A CN 112801234A CN 202110386114 A CN202110386114 A CN 202110386114A CN 112801234 A CN112801234 A CN 112801234A
Authority
CN
China
Prior art keywords
vector
image
word
verse
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110386114.4A
Other languages
English (en)
Other versions
CN112801234B (zh
Inventor
谢毓湘
闫洁
宫铨志
张家辉
栾悉道
冯素茹
魏迎梅
蒋杰
康来
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202110386114.4A priority Critical patent/CN112801234B/zh
Publication of CN112801234A publication Critical patent/CN112801234A/zh
Application granted granted Critical
Publication of CN112801234B publication Critical patent/CN112801234B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及基于神经网络的图像诗句描述生成方法、装置和设备,方法包括:获取输入图像的图片特征向量以及多个对输入图像的白话描述的词向量;图片特征向量与各词向量的维度相同;将各词向量聚类为k类,分别确定k个聚类中心对应的词向量以及距离k个聚类中心最近的前s‑1个词向量,得到关键词个数为k个的s组关键词;将s组关键词分别输入charRNN神经网络,生成s组关键词对应的s个诗句并将各诗句转换成对应的诗向量;各诗向量与词向量的维度相同;将图片特征向量和任一词向量输入seq2seq模型对各诗向量进行预测,根据预测确定的一个诗向量生成对输入图像描述的诗句。提高了计算机对图像的诗句描述生成效率。

Description

基于神经网络的图像诗句描述生成方法、装置和设备
技术领域
本申请涉及多媒体信息处理技术领域,特别是涉及一种基于神经网络的图像诗句描述生成方法、装置和设备。
背景技术
图像描述生成技术,有时称为“图像自动注释”、“图像标记”或“图像字幕生成”技术,是指让计算机根据一幅图像自动生成一段完整而流畅的文字描述声明。随着多媒体信息处理技术的发展,对于计算机来说,具备“看图说话”的能力却是一项十分艰巨的任务。理解一幅图像很大程度上取决于获取图像的特征,用于此目的的技术可分为两大类:其一是传统的基于机器学习的技术,另一类则是深度学习的技术。传统的基于机器学习的图像描述方法利用了传统的特征提取手段,由于这些手工制作的特征是基于特定任务的,所以用这种方法从大量多样的数据中提取特征是不可行的。
此外,真实世界的数据,如图像和视频是复杂的,有不同的语义解释。随着卷积神经网络(CNN)被广泛用于特征学习,基于深度学习的图像描述生成方法随之流行起来。深度学习是一个端到端的学习过程,可以从训练数据中自动学习特征,因而利用这种方法可以处理大量多样的图像和视频。然而,在实现本发明过程中,发明人发现目前对于图像描述生成研究的关注点还是集中在“生成图像的白话描述”上,主要包括提高对图像进行描述的语言的准确性、通俗性和灵活性等方面,仍存在着对图像的诗句描述效率不高的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种基于神经网络的图像诗句描述生成方法、一种基于神经网络的图像诗句描述生成装置、一种计算机设备以及一种计算机可读存储介质。
为了实现上述目的,本发明实施例采用以下技术方案:
一方面,本发明实施例提供一种基于神经网络的图像诗句描述生成方法,包括步骤:
获取输入图像的图片特征向量以及多个对输入图像的白话描述的词向量;图片特征向量与各词向量的维度相同;
将各词向量聚类为k类,分别确定k个聚类中心对应的词向量以及距离k个聚类中心最近的前s-1个词向量,得到关键词个数为k个的s组关键词;词向量与关键词一一对应,k和s均为大于或等于2的正整数;
将s组关键词分别输入charRNN神经网络,生成s组关键词对应的s个诗句并将各诗句转换成对应的诗向量;各诗向量与词向量的维度相同;
将图片特征向量和任一词向量输入seq2seq模型对各诗向量进行预测,根据预测确定的一个诗向量生成对输入图像描述的诗句。
在其中一个实施例中,获取输入图像的图片特征向量的过程,包括:
将输入图像的尺寸进行标准化处理,转换成尺寸为(224,224,3)的标准图像;
将标准图像输入ResNet卷积神经网络进行图像特征提取,得到标准图像的特征向量;
通过一个全连接层将特征向量转换成256维的图片特征向量。
在其中一个实施例中,获取多个对输入图像的白话描述的词向量的过程,包括:
通过charRNN神经网络的词嵌入层,分别将多个白话描述转换成对应的多个词向量;各词向量的维度均为256维。
在其中一个实施例中,将图片特征向量和任一词向量输入seq2seq模型对各诗向量进行预测的过程,包括:
将图片特征向量和任一词向量拼接作为一个输入序列后输入seq2seq模型的图像-语言编码器;
利用seq2seq模型的图像-语言解码器根据输入序列预测各诗向量。
另一方面,还提供一种基于神经网络的图像诗句描述生成装置,包括:
向量获取模块,用于获取输入图像的图片特征向量以及多个对输入图像的白话描述的词向量;图片特征向量与各词向量的维度相同;
聚类处理模块,用于将各词向量聚类为k类,分别确定k个聚类中心对应的词向量以及距离k个聚类中心最近的前s-1个词向量,得到关键词个数为k个的s组关键词;词向量与关键词一一对应,k和s均为大于或等于2的正整数;
诗句转换模块,用于将s组关键词分别输入charRNN神经网络,生成s组关键词对应的s个诗句并将各诗句转换成对应的诗向量;各诗向量与词向量的维度相同;
预测生成模块,用于将图片特征向量和任一词向量输入seq2seq模型对各诗向量进行预测,根据预测确定的一个诗向量生成对输入图像描述的诗句。
在其中一个实施例中,向量获取模块包括:
标准化子模块,用于将输入图像的尺寸进行标准化处理,转换成尺寸为(224,224,3)的标准图像;
特征提取子模块,用于将标准图像输入ResNet卷积神经网络进行图像特征提取,得到标准图像的特征向量;
维度转换子模块,用于通过一个全连接层将特征向量转换成256维的图片特征向量。
在其中一个实施例中,向量获取模块还包括:
词转换子模块,用于通过charRNN神经网络的词嵌入层,分别将多个白话描述转换成对应的多个词向量;各词向量的维度均为256维。
在其中一个实施例中,预测生成模块包括:
输入编码子模块,用于将图片特征向量和任一词向量拼接作为一个输入序列后输入seq2seq模型的图像-语言编码器;
解码预测子模块,用于利用seq2seq模型的图像-语言解码器根据输入序列预测各诗向量。
又一方面,还提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述基于神经网络的图像诗句描述生成方法的步骤。
上述技术方案中的一个技术方案具有如下优点和有益效果:
上述基于神经网络的图像诗句描述生成方法、装置和设备,通过首先获取维度相同的输入图像的图片特征向量,以及对该输入图像的多个白话描述的相应词向量,然后将多个词向量进行聚类处理,确定各聚类的聚类中心后找到相应的s组关键词,进而将找到的各组关键词分别输入训练好的charRNN神经网络以生成相应的s个诗句描述并转换得到诗句对应的诗向量,扩充到原始数据集中;最后,将获取的图片特征向量和任一个词向量输入seq2seq模型对各诗向量进行预测前述各诗向量,从而根据预测确定的一个诗向量生成对该输入图像描述的诗句。如此,可以高效实现当计算机获得一幅图像时,自动生成对该图像的诗句描述;由于获取的原始数据集中通常只有输入的原始图像和对该图像的白话描述,通过将聚类得到的每组关键词不断地输入到charRNN神经网络中,就会得到更多的关于原始图像的充满诗意的描述,从而扩充了原始数据集中对图像的诗句描述,灵活性更高。
附图说明
图1为一个实施例中基于神经网络的图像诗句描述生成方法的流程示意图;
图2为一个实施例中向量获取的流程示意图;
图3为一个实施例中本申请的方法应用示例的流程框架示意图;
图4为一个实施例中模型训练所用的数据集格式示意图;其中a表示原始图像,b表示多个白话描述;
图5为一个实施例中模型训练的图像编码器示意图;
图6为一个实施例中模型训练的语言编码器示意图;
图7为一个实施例中模型训练的图像-语言编码解码器示意图;
图8为一个实施例中基于神经网络的图像诗句描述生成装置的模块结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时,应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明针对图像的诗句描述效率不高的问题,提出了有效的解决方法,高效实现计算机看图写诗的目的。
请参阅图1,在一个实施例中,本发明提供一种基于神经网络的图像诗句描述生成方法,包括如下步骤S12至S18:
S12,获取输入图像的图片特征向量以及多个对输入图像的白话描述的词向量;图片特征向量与各词向量的维度相同。
可以理解,输入图像可以通过人工给定并输入计算设备中而实现获得,或者可以直接从存储有多种不同输入图像的数据库服务器上请求获得,又或者还可以是通过计算设备配备的摄像头或外接摄像设备现场拍摄而获得,具体获取输入图像的方式在本说明书中不做唯一限定,只要能够获取所需的输入图像均可。图片特征向量的获取,可以通过利用本领域已有的多种卷积神经网络中的任一种来进行图像特征提取而实现。图像特征向量的维度与词向量的维度保持一致,以便于后续步骤的数据处理。
如图2所示,在一些实施方式中,获取输入图像的图片特征向量的过程,具体处理步骤可以包括:
S122,将输入图像的尺寸进行标准化处理,转换成尺寸为(224,224,3)的标准图像;
S124,将标准图像输入ResNet卷积神经网络进行图像特征提取,得到标准图像的特征向量;
S126,通过一个全连接层将特征向量转换成256维的图片特征向量。
可以理解,对输入图像进行处理的过程中,对图像处理需要用到一个图像编码器(Image Encoder),其实质是一个卷积神经网络,在本申请中使用ResNet卷积神经网络。
具体的,首先对输入图像进行标准化处理,将输入图像的尺寸统一转换成高224像素、宽224像素的RGB标准图像,再将标准化后的输入图像输入到ResNet卷积神经网络进行图像特征提取,得到输入图像的特征向量。为了使输入图像的特征向量的维度与词向量的维度保持一致,可以使输入图像的特征向量再经过一个全连接层,转换成256维的向量,也即图片特征向量(可以记为
Figure 293316DEST_PATH_IMAGE001
),如此,在计算设备中可以认为从图像的语义空间转换到了词向量的语义空间。
如图2所示,在另一些实施方式中,获取多个对输入图像的白话描述的词向量的过程,具体处理步骤可以包括:
S128,通过charRNN神经网络的词嵌入层,分别将多个白话描述转换成对应的多个词向量;各词向量的维度均为256维。
可以理解,对于白话描述(也即文字描述)的处理,需要用到一个语言编码器(Language Encoder),具体的,将各个白话描述通过词嵌入的方式转换成相应的各个词向量,例如但不限于:对输入图像的白话描述有五个,分别记为“Caption[1]、Caption[2]、Caption[3]、 Caption[4]和Caption[5]”,将这五个白话描述通过词嵌入层处理后,得到的相应五组词向量分别为“(Caption vector[1]、Caption vector [2]、Caption vector[3]、Caption vector [4]和Caption vector [5]”。每组词向量的维度是一致的,均为256维,而每组词向量的长度可以是不完全一致的,词向量的长度由其相应的白话描述的长度决定。
S14,将各词向量聚类为k类,分别确定k个聚类中心对应的词向量以及距离k个聚类中心最近的前s-1个词向量,得到关键词个数为k个的s组关键词;词向量与关键词一一对应,k和s均为大于或等于2的正整数。
可以理解,k和s均可以取值为2以上的正整数,具体取值可以根据对输入图像的白话描述的数量来选取。具体的,对前述获取的多组词向量进行聚类处理,聚类为k类,则每个聚类中心会对应一个词向量,而一个词向量对应一个关键词,于是会产生k个分别对应于k个聚类中心的关键词。分别找到距离k个聚类中心最近的前s-1个词向量,连同分别对应于各聚类中心的k个关键词,即可得到每组关键词个数为k的s组关键词。
S16,将s组关键词分别输入charRNN神经网络,生成s组关键词对应的s个诗句并将各诗句转换成对应的诗向量;各诗向量与词向量的维度相同。
可以理解,charRNN神经网络是一个已经训练好的网络,向该神经网络输入关键词即可生成诗句。例如将第一组关键词提供给charRNN神经网络,得到一句诗,可以记为poem,将该句诗poem通过词嵌入的方式转换成256维的诗向量,记为poem vector,该诗向量的长度为n,记为
Figure 803932DEST_PATH_IMAGE003
S18,将图片特征向量和任一词向量输入seq2seq模型对各诗向量进行预测,根据预测确定的一个诗向量生成对输入图像描述的诗句。
可以理解,seq2seq模型也即本领域已有的sequence to sequence模型,利用该模型对图像-语言进行编码和解码。其中,在处理过程中需要使用到一个图像-语言编码器(Image-Language Encoder)和一个图像-语言解码器(Image-Language Decoder),图像-语言编码器和图像-语言解码器的实质是一个长短期记忆网络,前者记为LSTM1,后者记为LSTM2。
具体的,将上述步骤获取的图片特征向量
Figure 662298DEST_PATH_IMAGE004
及其一个白话描述(如Caption[1])对应的一组词向量(如Caption vector[1]=
Figure 526348DEST_PATH_IMAGE005
),输入到图像-语言编码器LSTM1中。图像-语言解码器LSTM2根据输入的图片特征向量和词向量序列预测前述步骤中得到各诗向量(序列),根据预测确定的一个诗向量(序列)生成并输出对该输入图像的诗句描述。其中,seq2seq模型根据输入进行预测输出的详细过程可以参照本领域中已有的seq2seq模型的预测输出过程同理理解。例如但不限于:在图像-语言编码器LSTM1中输入一幅图像和对该图像的白话描述“沙漠落日”,图像-语言解码器LSTM2则可以自动生成并输出希望得到对该图像描述的诗句“大漠孤烟直,长河落日圆”。
在一些实施方式中,将图片特征向量和任一词向量输入seq2seq模型对各诗向量进行预测的过程,具体可以包括如下处理步骤:
S182,将图片特征向量和任一词向量拼接作为一个输入序列后输入seq2seq模型的图像-语言编码器;
S184,利用seq2seq模型的图像-语言解码器根据输入序列预测各诗向量。
具体的,将上述步骤S12获取的图片特征向量和一个白话描述对应的一组词向量拼接在一起,例如首尾相接,作为输入序列送入图像-语言编码器LSTM1中,再利用图像-语言解码器LSTM2预测在上述步骤S16中所得到的诗句对应的诗向量(序列)。
上述基于神经网络的图像诗句描述生成方法,通过首先获取维度相同的输入图像的图片特征向量,以及对该输入图像的多个白话描述的相应词向量,然后将多个词向量进行聚类处理,确定各聚类的聚类中心后找到相应的s组关键词,进而将找到的各组关键词分别输入训练好的charRNN神经网络以生成相应的s个诗句描述并转换得到诗句对应的诗向量,扩充到原始数据集中;最后,将获取的图片特征向量和任一个词向量输入seq2seq模型对各诗向量进行预测前述各诗向量,从而根据预测确定的一个诗向量生成对该输入图像描述的诗句。如此,可以高效实现当计算机获得一幅图像时,自动生成对该图像的诗句描述;由于获取的原始数据集中通常只有输入的原始图像和对该图像的白话描述,通过将聚类得到的每组关键词不断地输入到charRNN神经网络中,就会得到更多的关于原始图像的充满诗意的描述,从而扩充了原始数据集中对图像的诗句描述,灵活性更高。
在一个实施例中,为了更直观且全面地说明上述基于神经网络的图像诗句描述生成方法,下面是应用本发明提出的前述方法的示例。需要说明的是,本说明书中给出的实施案例仅为示意性的,并非为本发明具体实施案例的唯一限定,本领域技术人员可以在本发明提供的实施案例的示意下,同理采用上述提供的基于神经网络的图像诗句描述生成方法,实现对不同的输入图像的诗句描述生成。
本示例中要解决的技术问题是当输入是一幅图像时,得到的输出是一句诗,以达到使计算设备“看图写诗”的目的,具体的:
请参阅图3,定义原始数据集,包括一张原始图像(Input Image)作为输入的图像,以及对该原始图像的五个白话描述(Input Sentences):Caption[1]、Caption[2]、Caption[3]、 Caption[4]和Caption[5],也即如图3所示输入的语句。
如图3所示,本示例主要处理步骤包括如下三个步骤:
第一步,利用 CNN(也即卷积神经网络,这里具体采用的是ResNet卷积神经网络)提取原始图像的图像特征,然后利用全连接层将图像的特征向量转换成256维的向量,得到原始图像的图片特征向量。
如图4所示的是本示例的训练集(也即原始数据集)示意图,训练集中包括一张原始图像Image,如图4(a)所示,以及对该图像的多个白话描述Caption[1]-Caption[5],也即分别为图4(b)中所示的C 0 -C 5
如图5所示的是本示例中训练的图像编码器,包括以下三个子步骤:
1),将输入图像的尺寸统一转换成(224,224,3)的标准图像;
2),用ResNet卷积神经网络提取输入图像的特征,得到图像的特征向量;也即图5中所示2048维的图像特征向量;
3),图像的特征向量经过一个全连接层(Linear),转换成图片特征向量;也即图5中所示256维的图像特征向量。
第二步,原始图像的每一个白话描述经过词嵌入(Word Embedding)层,每个词都变成了256 维的词向量。通过聚类的方式得到描述图像特征的关键词,再将关键词输入到charRNN神经网络中生成对图像的诗句描述,补充到原始数据集中。
如图6所示的是本示例中训练的语言编码器,包括以下五个子步骤:
1),将五个白话描述(也即C 1 -C 5 )通过词嵌入的方式转换成256维的词向量(也即CV 1 -CV 5 );
2),对五组词向量进行聚类(Clustering),得到描述图像特征的k个词向量,对应k个关键词;
3),选取距离聚类中心最近的前s组关键词,每组有k个关键词;也即
Figure 934196DEST_PATH_IMAGE006
、…、
Figure 225500DEST_PATH_IMAGE007
等s组关键词;
4),分别将每组关键词依次输入到charRNN神经网络中,得到与该组关键词相关的一句诗Poem;也即图6所示的P 1 P 5
5),分别将各Poem通过词嵌入的方式转换为256维的诗向量Poem vector;也即图6所示的PV 1 PV 5
第三步,将第一步得到的图片特征向量和第二步得到的白话描述所对应的词向量拼接在一起,作为输入序列送入LSTM 1中,再利用LSTM2预测在第二步中所得到的诗句描述对应的诗向量序列。
如图7所示的是本示例中训练的图像-语言编码解码器,其中,ILE表示图像-语言编码器,LD表示图像-语言解码器,包括以下两个子步骤:
1),将图片特征向量
Figure 335276DEST_PATH_IMAGE008
和原始图像的一组白话描述对应的词向量
Figure 3018DEST_PATH_IMAGE009
组成的向量序列输入到图像-语言编码器LSTM1中;
2),图像-语言解码器LSTM2根据输入的向量序列,预测图6的第五步所得到的poemvector序列
Figure 406317DEST_PATH_IMAGE010
综上,高效实现了当计算设备“看到”一幅图像时,自动生成对该图像的诗句描述,从而增加了图像描述生成任务的创新性和趣味性。由于训练数据集中只有原始图像和对图像的白话描述,通过将聚类得到的每组关键词不断地输入到charRNN神经网络中 ,就会得到更多的关于原始图像的充满诗意的描述,如此一来便扩充了数据集中对图片的诗句描述。
应该理解的是,虽然图1和图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且图1和图2的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
请参阅图8,还提供了一种基于神经网络的图像诗句描述生成装置100,包括向量获取模块13、聚类处理模块15、诗句转换模块17和预测生成模块19。其中,向量获取模块13用于获取输入图像的图片特征向量以及多个对输入图像的白话描述的词向量;图片特征向量与各词向量的维度相同。聚类处理模块15用于将各词向量聚类为k类,分别确定k个聚类中心对应的词向量以及距离k个聚类中心最近的前s-1个词向量,得到关键词个数为k个的s组关键词;词向量与关键词一一对应,k和s均为大于或等于2的正整数。诗句转换模块17用于将s组关键词分别输入charRNN神经网络,生成s组关键词对应的s个诗句并将各诗句转换成对应的诗向量;各诗向量与词向量的维度相同。预测生成模块19用于将图片特征向量和任一词向量输入seq2seq模型对各诗向量进行预测,根据预测确定的一个诗向量生成对输入图像描述的诗句。
上述基于神经网络的图像诗句描述生成装置100,通过各模块的协作,首先获取维度相同的输入图像的图片特征向量,以及对该输入图像的多个白话描述的相应词向量,然后将多个词向量进行聚类处理,确定各聚类的聚类中心后找到相应的s组关键词,进而将找到的各组关键词分别输入训练好的charRNN神经网络以生成相应的s个诗句描述并转换得到诗句对应的诗向量,扩充到原始数据集中;最后,将获取的图片特征向量和任一个词向量输入seq2seq模型对各诗向量进行预测前述各诗向量,从而根据预测确定的一个诗向量生成对该输入图像描述的诗句。如此,可以高效实现当计算机获得一幅图像时,自动生成对该图像的诗句描述;由于获取的原始数据集中通常只有输入的原始图像和对该图像的白话描述,通过将聚类得到的每组关键词不断地输入到charRNN神经网络中,就会得到更多的关于原始图像的充满诗意的描述,从而扩充了原始数据集中对图像的诗句描述,灵活性更高。
在一个实施例中,上述向量获取模块包括标准化子模块、特征提取子模块和维度转换子模块。标准化子模块用于将输入图像的尺寸进行标准化处理,转换成尺寸为(224,224,3)的标准图像。特征提取子模块用于将标准图像输入ResNet卷积神经网络进行图像特征提取,得到标准图像的特征向量。维度转换子模块用于通过一个全连接层将特征向量转换成256维的图片特征向量。
在一个实施例中,上述预测生成模块包括输入编码子模块和解码预测子模块。输入编码子模块用于将图片特征向量和任一词向量拼接作为一个输入序列后输入seq2seq模型的图像-语言编码器。解码预测子模块用于利用seq2seq模型的图像-语言解码器根据输入序列预测各诗向量。
关于基于神经网络的图像诗句描述生成装置100的具体限定,可以参见上文中基于神经网络的图像诗句描述生成方法的相应限定,在此不再赘述。上述基于神经网络的图像诗句描述生成装置100中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于具体数据处理功能的设备中,也可以软件形式存储于前述设备的存储器中,以便于处理器调用执行以上各个模块对应的操作,前述计算设备可以是但不限于本领域已有的各型个人计算机或者移动通信终端。
又一方面,还提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时可以实现以下步骤:获取输入图像的图片特征向量以及多个对输入图像的白话描述的词向量;图片特征向量与各词向量的维度相同;将各词向量聚类为k类,分别确定k个聚类中心对应的词向量以及距离k个聚类中心最近的前s-1个词向量,得到关键词个数为k个的s组关键词;词向量与关键词一一对应,k和s均为大于或等于2的正整数;将s组关键词分别输入charRNN神经网络,生成s组关键词对应的s个诗句并将各诗句转换成对应的诗向量;各诗向量与词向量的维度相同;将图片特征向量和任一词向量输入seq2seq模型对各诗向量进行预测,根据预测确定的一个诗向量生成对输入图像描述的诗句。
在一个实施例中,处理器执行计算机程序时还可以实现上述基于神经网络的图像诗句描述生成方法各实施例中增加的步骤或者子步骤。
再一方面,还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取输入图像的图片特征向量以及多个对输入图像的白话描述的词向量;图片特征向量与各词向量的维度相同;将各词向量聚类为k类,分别确定k个聚类中心对应的词向量以及距离k个聚类中心最近的前s-1个词向量,得到关键词个数为k个的s组关键词;词向量与关键词一一对应,k和s均为大于或等于2的正整数;将s组关键词分别输入charRNN神经网络,生成s组关键词对应的s个诗句并将各诗句转换成对应的诗向量;各诗向量与词向量的维度相同;将图片特征向量和任一词向量输入seq2seq模型对各诗向量进行预测,根据预测确定的一个诗向量生成对输入图像描述的诗句。
在一个实施例中,计算机程序被处理器执行时,还可以实现上述基于神经网络的图像诗句描述生成方法各实施例中增加的步骤或者子步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线式动态随机存储器(Rambus DRAM,简称RDRAM)以及接口动态随机存储器(DRDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可做出若干变形和改进,都属于本申请保护范围。因此本申请专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种基于神经网络的图像诗句描述生成方法,其特征在于,包括步骤:
获取输入图像的图片特征向量以及多个对所述输入图像的白话描述的词向量;所述图片特征向量与各所述词向量的维度相同;
将各所述词向量聚类为k类,分别确定k个聚类中心对应的词向量以及距离k个所述聚类中心最近的前s-1个词向量,得到关键词个数为k个的s组关键词;所述词向量与所述关键词一一对应,k和s均为大于或等于2的正整数;
将s组所述关键词分别输入charRNN神经网络,生成s组所述关键词对应的s个诗句并将各所述诗句转换成对应的诗向量;各所述诗向量与所述词向量的维度相同;
将所述图片特征向量和任一所述词向量输入seq2seq模型对各所述诗向量进行预测,根据预测确定的一个所述诗向量生成对所述输入图像描述的诗句。
2.根据权利要求1所述的基于神经网络的图像诗句描述生成方法,其特征在于,获取输入图像的图片特征向量的过程,包括:
将所述输入图像的尺寸进行标准化处理,转换成尺寸为(224,224,3)的标准图像;
将所述标准图像输入ResNet卷积神经网络进行图像特征提取,得到所述标准图像的特征向量;
通过一个全连接层将所述特征向量转换成256维的所述图片特征向量。
3.根据权利要求1或2所述的基于神经网络的图像诗句描述生成方法,其特征在于,获取多个对所述输入图像的白话描述的词向量的过程,包括:
通过所述charRNN神经网络的词嵌入层,分别将多个所述白话描述转换成对应的多个所述词向量;各所述词向量的维度均为256维。
4.根据权利要求3所述的基于神经网络的图像诗句描述生成方法,其特征在于,将所述图片特征向量和任一所述词向量输入seq2seq模型对各所述诗向量进行预测的过程,包括:
将所述图片特征向量和任一所述词向量拼接作为一个输入序列后输入所述seq2seq模型的图像-语言编码器;
利用所述seq2seq模型的图像-语言解码器根据所述输入序列预测各所述诗向量。
5.一种基于神经网络的图像诗句描述生成装置,其特征在于,包括:
向量获取模块,用于获取输入图像的图片特征向量以及多个对所述输入图像的白话描述的词向量;所述图片特征向量与各所述词向量的维度相同;
聚类处理模块,用于将各所述词向量聚类为k类,分别确定k个聚类中心对应的词向量以及距离k个所述聚类中心最近的前s-1个词向量,得到关键词个数为k个的s组关键词;所述词向量与所述关键词一一对应,k和s均为大于或等于2的正整数;
诗句转换模块,用于将s组所述关键词分别输入charRNN神经网络,生成s组所述关键词对应的s个诗句并将各所述诗句转换成对应的诗向量;各所述诗向量与所述词向量的维度相同;
预测生成模块,用于将所述图片特征向量和任一所述词向量输入seq2seq模型对各所述诗向量进行预测,根据预测确定的一个所述诗向量生成对所述输入图像描述的诗句。
6.根据权利要求5所述的基于神经网络的图像诗句描述生成装置,其特征在于,所述向量获取模块包括:
标准化子模块,用于将所述输入图像的尺寸进行标准化处理,转换成尺寸为(224,224,3)的标准图像;
特征提取子模块,用于将所述标准图像输入ResNet卷积神经网络进行图像特征提取,得到所述标准图像的特征向量;
维度转换子模块,用于通过一个全连接层将所述特征向量转换成256维的所述图片特征向量。
7.根据权利要求5所述的基于神经网络的图像诗句描述生成装置,其特征在于,所述向量获取模块还包括:
词转换子模块,用于通过所述charRNN神经网络的词嵌入层,分别将多个所述白话描述转换成对应的多个所述词向量;各所述词向量的维度均为256维。
8.根据权利要求5所述的基于神经网络的图像诗句描述生成装置,其特征在于,所述预测生成模块包括:
输入编码子模块,用于将所述图片特征向量和任一所述词向量拼接作为一个输入序列后输入所述seq2seq模型的图像-语言编码器;
解码预测子模块,用于利用所述seq2seq模型的图像-语言解码器根据所述输入序列预测各所述诗向量。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述基于神经网络的图像诗句描述生成方法的步骤。
CN202110386114.4A 2021-04-12 2021-04-12 基于神经网络的图像诗句描述生成方法、装置和设备 Active CN112801234B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110386114.4A CN112801234B (zh) 2021-04-12 2021-04-12 基于神经网络的图像诗句描述生成方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110386114.4A CN112801234B (zh) 2021-04-12 2021-04-12 基于神经网络的图像诗句描述生成方法、装置和设备

Publications (2)

Publication Number Publication Date
CN112801234A true CN112801234A (zh) 2021-05-14
CN112801234B CN112801234B (zh) 2021-06-18

Family

ID=75816670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110386114.4A Active CN112801234B (zh) 2021-04-12 2021-04-12 基于神经网络的图像诗句描述生成方法、装置和设备

Country Status (1)

Country Link
CN (1) CN112801234B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115062179A (zh) * 2022-07-06 2022-09-16 吴致远 基于深度学习的面向图像的端到端中文古诗词推荐方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480132A (zh) * 2017-07-25 2017-12-15 浙江工业大学 一种基于图像内容的古诗词生成方法
CN110705284A (zh) * 2019-09-19 2020-01-17 苏州思必驰信息科技有限公司 基于神经网络生成模型的诗词生成质量的优化方法及系统
CN111368118A (zh) * 2020-02-13 2020-07-03 中山大学 一种图像描述生成方法、系统、装置和存储介质
US20200242171A1 (en) * 2019-01-29 2020-07-30 Salesforce.Com, Inc. Automated method and system for clustering enriched company seeds into a cluster and selecting best values for each attribute within the cluster to generate a company profile
CN111626058A (zh) * 2020-04-15 2020-09-04 井冈山大学 基于cr2神经网络的图像-文本双编码实现方法及系统
WO2020186484A1 (zh) * 2019-03-20 2020-09-24 深圳大学 图片自动生成描述的方法、系统、电子装置及存储介质
CN112308080A (zh) * 2020-11-05 2021-02-02 南强智视(厦门)科技有限公司 面向指向性视觉理解和分割的图像描述预测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480132A (zh) * 2017-07-25 2017-12-15 浙江工业大学 一种基于图像内容的古诗词生成方法
US20200242171A1 (en) * 2019-01-29 2020-07-30 Salesforce.Com, Inc. Automated method and system for clustering enriched company seeds into a cluster and selecting best values for each attribute within the cluster to generate a company profile
WO2020186484A1 (zh) * 2019-03-20 2020-09-24 深圳大学 图片自动生成描述的方法、系统、电子装置及存储介质
CN110705284A (zh) * 2019-09-19 2020-01-17 苏州思必驰信息科技有限公司 基于神经网络生成模型的诗词生成质量的优化方法及系统
CN111368118A (zh) * 2020-02-13 2020-07-03 中山大学 一种图像描述生成方法、系统、装置和存储介质
CN111626058A (zh) * 2020-04-15 2020-09-04 井冈山大学 基于cr2神经网络的图像-文本双编码实现方法及系统
CN112308080A (zh) * 2020-11-05 2021-02-02 南强智视(厦门)科技有限公司 面向指向性视觉理解和分割的图像描述预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHUO XING.ET.: "Generating Chinese Poems from Images Based on Neural Network", 《PCM 2017:ADVANCED IN MULTIMEDIA INFORMATION PROCESSING-PCM2017》 *
王小宇: "基于深度学习的图像生成古诗方法研究", 《中国优秀硕士学位论文全文数据库 哲学与人文科学辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115062179A (zh) * 2022-07-06 2022-09-16 吴致远 基于深度学习的面向图像的端到端中文古诗词推荐方法

Also Published As

Publication number Publication date
CN112801234B (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN110162669B (zh) 视频分类处理方法、装置、计算机设备及存储介质
CN108419094B (zh) 视频处理方法、视频检索方法、装置、介质及服务器
CN110738090A (zh) 使用神经网络进行端到端手写文本识别的系统和方法
Kim et al. Multi-modality associative bridging through memory: Speech sound recollected from face video
CN109271646A (zh) 文本翻译方法、装置、可读存储介质和计算机设备
CN113961736B (zh) 文本生成图像的方法、装置、计算机设备和存储介质
Wu et al. Seesr: Towards semantics-aware real-world image super-resolution
CN113762322A (zh) 基于多模态表示的视频分类方法、装置和设备及存储介质
CN114245203B (zh) 基于剧本的视频剪辑方法、装置、设备及介质
CN108665506A (zh) 图像处理方法、装置、计算机存储介质及服务器
WO2016142285A1 (en) Method and apparatus for image search using sparsifying analysis operators
CN113240115B (zh) 一种生成人脸变化图像模型的训练方法及相关装置
CN114743539A (zh) 语音合成方法、装置、设备及存储介质
Oghbaie et al. Advances and challenges in deep lip reading
CN112801234B (zh) 基于神经网络的图像诗句描述生成方法、装置和设备
US20230252993A1 (en) Visual speech recognition for digital videos utilizing generative adversarial learning
CN109063772B (zh) 一种基于深度学习的图像个性化语义分析方法、装置及设备
CN117218224B (zh) 人脸情绪图像生成方法及装置、可读存储介质、终端
Sajol et al. A ConvNeXt V2 Approach to Document Image Analysis: Enhancing High-Accuracy Classification
CN115204366A (zh) 模型生成方法、装置、计算机设备和存储介质
CN113010717B (zh) 图像诗句描述生成方法、装置和设备
Song et al. 3D self-attention for unsupervised video quantization
US20230017503A1 (en) Artificial Intelligence System for Sequence-to-Sequence Processing With Attention Adapted for Streaming Applications
CN115272660A (zh) 一种基于双流神经网络的唇语识别方法及系统
CN114780757A (zh) 短媒体标签抽取方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant