CN111242059B - 基于递归记忆网络的无监督图像描述模型的生成方法 - Google Patents

基于递归记忆网络的无监督图像描述模型的生成方法 Download PDF

Info

Publication number
CN111242059B
CN111242059B CN202010049142.2A CN202010049142A CN111242059B CN 111242059 B CN111242059 B CN 111242059B CN 202010049142 A CN202010049142 A CN 202010049142A CN 111242059 B CN111242059 B CN 111242059B
Authority
CN
China
Prior art keywords
memory
time
formula
sentence
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010049142.2A
Other languages
English (en)
Other versions
CN111242059A (zh
Inventor
郭丹
宋培培
刘祥龙
汪萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202010049142.2A priority Critical patent/CN111242059B/zh
Publication of CN111242059A publication Critical patent/CN111242059A/zh
Application granted granted Critical
Publication of CN111242059B publication Critical patent/CN111242059B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于递归记忆网络的无监督图像描述模型的生成方法,其步骤包括:1视觉概念提取与单词表的构建;2视觉概念特征的获取;3基于记忆的解码器的处理;4基于记忆的重构器的处理;5在句子语料库上的模型参数优化;6在图像数据集上的模型参数优化。本发明能够在完全无监督的情况下获取到可靠的图像描述模型,从而能自动生成高质量、多样、准确的图像描述。

Description

基于递归记忆网络的无监督图像描述模型的生成方法
技术领域
本发明属于计算机视觉技术领域,涉及到模式识别、人工智能等技术,具体地说是一种基于递归记忆网络的无监督图像描述模型的生成方法。
背景技术
在多模态信息处理任务中,图像描述生成是一项非常重要的任务,它涉及到计算机视觉和自然语言处理技术的交叉领域。其任务为自动分析输入图像的视觉内容,并生成可以描述图像主要内容的句子或者文本。受机器翻译技术的启发,现有的图像描述生成系统通常遵循一种“编码-解码”框架。具体来说,它先使用卷积神经网络(CNN)提取图像的特征向量,然后使用循环神经网络(RNN)将图像的特征向量解码为句子。这类方法通常是基于大量人工标注的“图像-句子”数据,以完全监督的方式进行训练的。然而,人工标注“图像-句子”数据需要耗费大量的人力、物力和时间。受此限制,现有的图像描述数据集规模较小,例如图像描述基准数据集MSCOCO,仅涵盖了100种对象类别的图像和句子。这一限制使得这种基于有监督方式训练的图像描述系统难以推广到更广泛的场景中。
为了减小图像描述系统对人工标注数据的依赖,有研究者提出了更具挑战性的新任务,即无监督图像描述。无监督图像描述系统只需要单独的图像和文本数据,它可以利用几乎无限量的未标记或弱标记图像,以及随时可用的大型文本语料库。然而,现有的无监督图像描述系统只关注视觉特征与文本特征之间的跨模态对齐,而忽略了对图像视觉语义的理解,影响后续句子生成的准确性和相关性。
发明内容
本发明为了克服现有技术的不足之处,提出一种基于递归记忆网络的无监督图像描述模型的生成方法,以期能实现在完全无监督的情况下获取到可靠的图像描述模型,从而能自动生成高质量、多样、准确的图像描述。
本发明为解决技术问题采用如下技术方案:
本发明一种基于递归记忆网络的无监督图像描述模型的生成方法的特点是按如下步骤进行:
步骤1、视觉概念的提取与单词表的构建:
从图像数据集中获取任意一个图像I,使用目标检测模型Faster-RCNN作为视觉概念检测器,检测所述图像I中的视觉概念,得到所述图像I的视觉概念集合
Figure GDA0003320098270000011
其中,
Figure GDA0003320098270000012
为所述图像I中第m个视觉概念,KI为所述图像I中包含的视觉概念总数;
从句子语料库中获取任意一个句子
Figure GDA0003320098270000021
其中,si表示句子S中第i个单词,L为句子S的单词总数;
使用所述视觉概念检测器的分类标签构造视觉概念词典Vocv;并将所述句子S与所述视觉概念词典Vocv的交集作为所述句子S的视觉概念集合
Figure GDA0003320098270000022
其中,
Figure GDA0003320098270000023
为所述句子S中的第n个视觉概念,KS为所述句子S中包含的视觉概念总数;
利用所述句子语料库中的所有单词以及所述视觉概念词典Vocv中的所有单词构建单词表,并将所述单词表中所有单词按照出现次数从高到低进行编号,从而构建单词索引表Voc;
步骤2、视觉概念特征v的获取:
步骤2.1、用
Figure GDA0003320098270000024
表示当前输入的视觉概念特征集合,即
Figure GDA0003320098270000025
或CS
步骤2.2、将所述当前输入的视觉概念特征集合
Figure GDA0003320098270000026
中每个视觉概念按照时刻顺序逐一输入到LSTM网络中进行编码;并将LSTM网络的最后一个时刻的隐藏状态作为视觉概念特征v;
步骤3、所述无监督图像描述模型中基于记忆的解码器的处理:
步骤3.1、定义当前时刻为t,并初始化t=0;
在t时刻,根据式(1)获取t-1时刻的单词特征xt-1
xt-1=Wewt-1 (1)
式(1)中,We为需要学习的词嵌入矩阵;wt-1为t-1时刻所述无监督图像描述模型的期望输出;当
Figure GDA0003320098270000027
时,令
Figure GDA0003320098270000028
为所述无监督图像描述模型t-1时刻输出的单词;当
Figure GDA0003320098270000029
时,令wt-1=st-1,st-1为所述句子S中第t-1个单词;根据t-1时刻所述无监督图像描述模型的期望输出wt-1所对应的单词在所述单词索引表Voc中的索引,将t-1时刻所述无监督图像描述模型的期望输出wt-1表示为one-hot向量;
步骤3.2、利用式(2)将所述视觉概念特征v与t-1时刻的单词特征xt-1拼接为特征矩阵Ft-1
Ft-1=[v;xt-1] (2)
式(2)中,[;]表示按行拼接操作;
利用式(3)在所述特征矩阵Ft-1上实施多头自注意力操作φf,得到第hf个自注意力操作下的融合矩阵
Figure GDA0003320098270000031
从而得到t时刻的融合矩阵
Figure GDA0003320098270000032
其中,[:]表示按列拼接操作;
Figure GDA0003320098270000033
式(3)中,
Figure GDA0003320098270000034
Figure GDA0003320098270000035
分别表示所述多头自注意力操作φf中第hf个自注意力操作下的三个需要学习的权重矩阵,(·)T表示矩阵转置操作,df
Figure GDA0003320098270000036
的维度;Hf表示所述多头自注意力操作φf的抽头数;
步骤3.3、利用式(4)将所述t时刻的融合矩阵
Figure GDA0003320098270000037
转换为t时刻的融合向量ft
Figure GDA0003320098270000038
式(5)中,FC(·)表示全连接层操作;
步骤3.4、利用式(5)在t时刻的融合向量ft与基于记忆的解码器t-1时刻的记忆状态Mt-1上实施多头自注意力操作φm,得到第hm个自注意力操作下的注意力矩阵
Figure GDA0003320098270000039
从而得到t时刻的注意力矩阵
Figure GDA00033200982700000310
Figure GDA00033200982700000311
式(5)中,
Figure GDA00033200982700000312
Figure GDA00033200982700000313
分别表示所述多头自注意力操作φm中第hm个自注意力操作下的三个需要学习的权重矩阵;dm
Figure GDA00033200982700000314
的维度;Hm表示所述多头自注意力操作φm的抽头数;
步骤3.5、利用式(6)对所述t时刻的注意力矩阵
Figure GDA00033200982700000315
和所述基于记忆的解码器t-1时刻的记忆状态Mt-1进行多层感知机MLP和正则化LN操作,得到当前t时刻的记忆矩阵
Figure GDA00033200982700000316
Figure GDA00033200982700000317
步骤3.6、利用式(7)从所述基于记忆的解码器t-1时刻的记忆状态Mt-1及所述当前t时刻的记忆矩阵
Figure GDA0003320098270000041
中提取有用的信息,得到基于记忆的解码器当前时刻t的记忆状态Mt
Figure GDA0003320098270000042
式(11)中,⊙表示点乘;gi,gf分别表示所述基于记忆的解码器的输入门与遗忘门;并有:
gi=σ(Wi·ft+Ui·tanh(Mt-1)+bi) (8)
gf=σ(Wf·ft+Uf·tanh(Mt-1)+bf) (9)
式(8)~(9)中,Wi,Wf,Ui,Uf是四个需要学习的权重矩阵,bi,bf是两个需要学习的偏置向量,表示sigmoid激活函数;
步骤3.7、利用式(10)得到t时刻的输出单词
Figure GDA0003320098270000043
Figure GDA0003320098270000044
式(10)中,Wo为需要学习的权重矩阵;ot表示所述基于记忆的解码器的输出,且ot=Mt
步骤4、所述无监督图像描述模型中基于记忆的重构器的处理:
步骤4.1、利用式(11)在t-1时刻基于记忆的重构器的隐藏状态zt-1与基于记忆的解码器t时刻的记忆状态Mt上实施多头自注意力操作φr,得到基于记忆的重构器中第hr个自注意力操作下的注意力向量
Figure GDA0003320098270000045
从而得到t时刻的注意力向量
Figure GDA0003320098270000046
Figure GDA0003320098270000047
式(11)中,
Figure GDA0003320098270000048
Figure GDA0003320098270000049
分别表示多头自注意力操作φr中第hr个自注意力操作下的三个需要学习的权重矩阵;dr
Figure GDA00033200982700000410
的维度;Hr表示多头自注意力操作φr的抽头数;
步骤4.2、将t+1赋值给t,返回步骤3顺序执行,直到t=L为止;基于记忆的重构器最后一个时刻的注意力向量作为视觉概念重构特征
Figure GDA00033200982700000411
步骤5、在句子语料库上对无监督图像描述模型的参数优化:
步骤5.1、令
Figure GDA00033200982700000412
步骤5.2、利用式(12)计算无监督图像描述模型在句子语料库上的损失值£S
Figure GDA0003320098270000051
式(12)中,α为设置的超参数;
Figure GDA0003320098270000052
为在已知句子S前t-1个单词的条件下,所述无监督图像描述模型t时刻生成的单词与句子S第t个单词相同的条件概率;
Figure GDA0003320098270000053
为L-2范数;
步骤5.3、利用随机梯度下降法对无监督图像描述模型在句子语料库上的损失值£S进行优化求解,使£S达到最小,从而得到句子语料库上的最优模型;
步骤6、在图像数据集上对最优模型的参数优化:
步骤6.1、使用CNN网络提取所述图像I的全局特征f;
步骤6.2、获取步骤5中最优模型的参数,并令
Figure GDA0003320098270000054
步骤6.3、利用式(13)计算最优模型在图像数据集上的损失值£I
Figure GDA0003320098270000055
式(13)中,[x]+=max(x,0),b和β为设置的超参数;
Figure GDA0003320098270000056
表示与全局特征f语义最不相关的任一视觉概念重构特征,且
Figure GDA0003320098270000057
Ω表示所述图像数据集中所有图像的全局特征集合Ω;ω表示所述全局特征集合Ω中任一全局特征;f′表示与视觉概念重构特征
Figure GDA00033200982700000510
语义最不相关的任一全局特征,且
Figure GDA0003320098270000058
表示所述图像数据集中所有图像对应的视觉概念重构特征集合;η表示所述视觉概念重构特征集合
Figure GDA0003320098270000059
中任一视觉概念重构特征;
步骤6.4、利用随机梯度下降法对最优模型在图像数据集上的损失值£I进行优化求解,使£I达到最小,从而得到图像数据集上的最优模型并作为最终的无监督图像描述模型。
与已有技术相比,本发明的有益效果体现在:
1、本发明充分利用了不相关的图像数据集和句子语料库,能在完全无监督的情况下获取到可靠的图像描述模型,并且不同于现有技术中使用大型生成对抗式网络来解决无监督问题,本发明需要训练的参数更少,收敛速度更快,从而在提升了计算效率的同时提高了图像描述的精准度。
2、本发明提出一种基于记忆的解码器和基于记忆的重构器,在每个时刻通过自注意力机制更新记忆,能够隐式地学习输入特征之间的关系,从而增强了模型的语义推理能力。
3、本发明提出一种无监督联合训练方法,分别为在句子语料库上进行有监督学习,并在图像数据集上进行无监督学习,综合考虑了文本与图像中视觉实体的相关性以及文本与图像全局特征的相关性两方面,从而提高了图像描述的准确性。
附图说明
图1为本发明无监督图像描述模型的示意图。
具体实施方式
本实施例中,如图1所示,一种基于递归记忆网络的无监督图像描述模型的生成方法包括:首先获取输入图像或句子中的视觉概念;再使用编码器将获取的视觉概念编码为视觉概念特征;接着由基于记忆的解码器从视觉概念特征中解码出句子;最后,基于记忆的解码器的输出作为基于记忆的重构器的输入,得到视觉概念重构特征,用于表征生成句子的语义信息;具体地说,是按如下步骤进行:
步骤1、视觉概念的提取与单词表的构建:
从图像数据集中获取任意一个图像I,使用在公开图像数据集OpenImage-v4上训练的目标检测模型Faster-RCNN作为视觉概念检测器,检测图像I中的视觉概念,得到图像I的视觉概念集合
Figure GDA0003320098270000061
其中,
Figure GDA0003320098270000062
为图像I中第m个视觉概念,KI为图像I中包含的视觉概念总数;
从句子语料库中获取任意一个句子
Figure GDA0003320098270000063
其中,si表示句子S中第i个单词,L为句子S的单词总数;
使用视觉概念检测器的分类标签构造视觉概念词典Vocv;并将句子S与视觉概念词典Vocv的交集作为句子S的视觉概念集合
Figure GDA0003320098270000064
其中,
Figure GDA0003320098270000065
为句子S中的第n个视觉概念,KS为句子S中包含的视觉概念总数;
利用句子语料库中的所有单词以及视觉概念词典Vocv中的所有单词构建单词表,并将单词表中所有单词按照出现次数从高到低进行编号,从而构建单词索引表Voc;
步骤2、视觉概念特征v的获取:
步骤2.1、用
Figure GDA0003320098270000066
表示当前输入的视觉概念特征集合,即
Figure GDA0003320098270000067
或CS
步骤2.2、将当前输入的视觉概念特征集合
Figure GDA0003320098270000068
中每个视觉概念按照时刻顺序逐一输入到LSTM网络中进行编码;并将LSTM网络的最后一个时刻的隐藏状态作为视觉概念特征v;
步骤3、无监督图像描述模型中基于记忆的解码器的处理:
步骤3.1、定义当前时刻为t,并初始化t=0;
在t时刻,根据式(1)获取t-1时刻的单词特征xt-1
xt-1=Wewt-1 (1)
式(1)中,We为需要学习的词嵌入矩阵;wt-1为t-1时刻无监督图像描述模型的期望输出;当
Figure GDA0003320098270000071
时,令
Figure GDA0003320098270000072
为无监督图像描述模型t-1时刻输出的单词;当
Figure GDA0003320098270000073
时,令wt-1=st-1,st-1为句子S中第t-1个单词;根据t-1时刻无监督图像描述模型的期望输出wt-1所对应的单词在单词索引表Voc中的索引,将t-1时刻无监督图像描述模型的期望输出wt-1表示为one-hot向量;
步骤3.2、利用式(2)将视觉概念特征v与t-1时刻的单词特征xt-1拼接为特征矩阵Ft-1
Ft-1=[v;xt-1] (2)
式(2)中,[;]表示按行拼接操作;
利用式(3)在特征矩阵Ft-1上实施多头自注意力操作φf,得到第hf个自注意力操作下的融合矩阵
Figure GDA0003320098270000074
从而得到t时刻的融合矩阵
Figure GDA0003320098270000075
其中,[:]表示按列拼接操作;
Figure GDA0003320098270000076
式(3)中,
Figure GDA0003320098270000077
Figure GDA0003320098270000078
分别表示多头自注意力操作φf中第hf个自注意力操作下的三个需要学习的权重矩阵,(·)T表示矩阵转置操作,df
Figure GDA0003320098270000079
的维度;Hf表示多头自注意力操作φf的抽头数;本实施例中,Hf=2;
步骤3.3、利用式(4)将t时刻的融合矩阵
Figure GDA00033200982700000710
转换为t时刻的融合向量ft
Figure GDA00033200982700000711
式(5)中,FC(·)表示全连接层操作;
步骤3.4、利用式(5)在t时刻的融合向量ft与基于记忆的解码器t-1时刻的记忆状态Mt-1上实施多头自注意力操作φm,得到第hm个自注意力操作下的注意力矩阵
Figure GDA0003320098270000081
从而得到t时刻的注意力矩阵
Figure GDA0003320098270000082
Figure GDA0003320098270000083
式(5)中,
Figure GDA0003320098270000084
Figure GDA0003320098270000085
分别表示多头自注意力操作φm中第hm个自注意力操作下的三个需要学习的权重矩阵;dm
Figure GDA0003320098270000086
的维度;Hm表示多头自注意力操作φm的抽头数;本实施例中,Hm=2;
步骤3.5、利用式(6)对t时刻的注意力矩阵
Figure GDA0003320098270000087
和基于记忆的解码器t-1时刻的记忆状态Mt-1进行多层感知机MLP和正则化LN操作,得到当前t时刻的记忆矩阵
Figure GDA0003320098270000088
Figure GDA0003320098270000089
步骤3.6、利用式(7)从基于记忆的解码器t-1时刻的记忆状态Mt-1及当前t时刻的记忆矩阵
Figure GDA00033200982700000810
中提取有用的信息,得到基于记忆的解码器当前时刻t的记忆状态Mt
Figure GDA00033200982700000811
式(11)中,⊙表示点乘;gi,gf分别表示基于记忆的解码器的输入门与遗忘门;并有:
gi=σ(Wi·ft+Ui·tanh(Mt-1)+bi) (8)
gf=σ(Wf·ft+Uf·tanh(Mt-1)+bf) (9)
式(8)~(9)中,Wi,Wf,Ui,Uf是四个需要学习的权重矩阵,bi,bf是两个需要学习的偏置向量,表示sigmoid激活函数;
步骤3.7、利用式(10)得到t时刻的输出单词
Figure GDA00033200982700000812
Figure GDA00033200982700000813
式(10)中,Wo为需要学习的权重矩阵;ot表示基于记忆的解码器的输出,且ot=Mt
步骤4、无监督图像描述模型中基于记忆的重构器的处理:
步骤4.1、利用式(11)在t-1时刻基于记忆的重构器的隐藏状态zt-1与基于记忆的解码器t时刻的记忆状态Mt上实施多头自注意力操作φr,得到基于记忆的重构器中第hr个自注意力操作下的注意力向量
Figure GDA0003320098270000091
从而得到t时刻的注意力向量
Figure GDA0003320098270000092
Figure GDA0003320098270000093
式(11)中,
Figure GDA0003320098270000094
Figure GDA0003320098270000095
分别表示多头自注意力操作φr中第hr个自注意力操作下的三个需要学习的权重矩阵;dr
Figure GDA0003320098270000096
的维度;Hr表示多头自注意力操作φr的抽头数;本实施例中,Hr=2;
步骤4.2、将t+1赋值给t,返回步骤3顺序执行,直到t=L为止;基于记忆的重构器最后一个时刻的注意力向量作为视觉概念重构特征
Figure GDA0003320098270000097
步骤5、在句子语料库上对无监督图像描述模型的参数优化:
步骤5.1、令
Figure GDA0003320098270000098
步骤5.2、利用式(12)计算无监督图像描述模型在句子语料库上的损失值£S
Figure GDA0003320098270000099
式(12)中,α为设置的超参数;本实施例中,α=1;
Figure GDA00033200982700000910
为在已知句子S前t-1个单词的条件下,无监督图像描述模型t时刻生成的单词与句子S第t个单词相同的条件概率;
Figure GDA00033200982700000911
为L-2范数;
步骤5.3、利用随机梯度下降法对无监督图像描述模型在句子语料库上的损失值£S进行优化求解,使£S达到最小,从而得到句子语料库上的最优模型;
步骤6、在图像数据集上对最优模型的参数优化:
步骤6.1、使用CNN网络提取图像I的全局特征f;本实施例中,采用Inception-v4网络提取图像的全局特征;
步骤6.2、获取步骤5中最优模型的参数,并令
Figure GDA00033200982700000912
步骤6.3、利用式(13)计算最优模型在图像数据集上的损失值£I
Figure GDA00033200982700000913
式(13)中,[x]+=max(x,0),b和β为设置的超参数;本实施例中,β=1,b=0.2;
Figure GDA0003320098270000101
表示与全局特征f语义最不相关的任一视觉概念重构特征,且
Figure GDA0003320098270000102
Ω表示图像数据集中所有图像的全局特征集合Ω;ω表示全局特征集合Ω中任一全局特征;f′表示与视觉概念重构特征
Figure GDA0003320098270000103
语义最不相关的任一全局特征,且
Figure GDA0003320098270000104
表示图像数据集中所有图像对应的视觉概念重构特征集合;η表示视觉概念重构特征集合
Figure GDA0003320098270000105
中任一视觉概念重构特征;
步骤6.4、利用随机梯度下降法对最优模型在图像数据集上的损失值£I进行优化求解,使£I达到最小,从而得到图像数据集上的最优模型并作为最终的无监督图像描述模型。

Claims (1)

1.一种基于递归记忆网络的无监督图像描述模型的生成方法,其特征是按如下步骤进行:
步骤1、视觉概念的提取与单词表的构建:
从图像数据集中获取任意一个图像I,使用目标检测模型Faster-RCNN作为视觉概念检测器,检测所述图像I中的视觉概念,得到所述图像I的视觉概念集合
Figure FDA0003320098260000011
其中,
Figure FDA0003320098260000012
为所述图像I中第m个视觉概念,KI为所述图像I中包含的视觉概念总数;
从句子语料库中获取任意一个句子
Figure FDA0003320098260000013
其中,si表示句子S中第i个单词,L为句子S的单词总数;
使用所述视觉概念检测器的分类标签构造视觉概念词典Vocv;并将所述句子S与所述视觉概念词典Vocv的交集作为所述句子S的视觉概念集合
Figure FDA0003320098260000014
其中,
Figure FDA0003320098260000015
为所述句子S中的第n个视觉概念,KS为所述句子S中包含的视觉概念总数;
利用所述句子语料库中的所有单词以及所述视觉概念词典Vocv中的所有单词构建单词表,并将所述单词表中所有单词按照出现次数从高到低进行编号,从而构建单词索引表Voc;
步骤2、视觉概念特征v的获取:
步骤2.1、用
Figure FDA0003320098260000016
表示当前输入的视觉概念特征集合,即
Figure FDA0003320098260000017
或CS
步骤2.2、将所述当前输入的视觉概念特征集合
Figure FDA0003320098260000018
中每个视觉概念按照时刻顺序逐一输入到LSTM网络中进行编码;并将LSTM网络的最后一个时刻的隐藏状态作为视觉概念特征v;
步骤3、所述无监督图像描述模型中基于记忆的解码器的处理:
步骤3.1、定义当前时刻为t,并初始化t=0;
在t时刻,根据式(1)获取t-1时刻的单词特征xt-1
xt-1=Wewt-1 (1)
式(1)中,We为需要学习的词嵌入矩阵;wt-1为t-1时刻所述无监督图像描述模型的期望输出;当
Figure FDA0003320098260000019
时,令
Figure FDA00033200982600000110
Figure FDA00033200982600000111
为所述无监督图像描述模型t-1时刻输出的单词;当
Figure FDA00033200982600000112
时,令wt-1=st-1,st-1为所述句子S中第t-1个单词;根据t-1时刻所述无监督图像描述模型的期望输出wt-1所对应的单词在所述单词索引表Voc中的索引,将t-1时刻所述无监督图像描述模型的期望输出wt-1表示为one-hot向量;
步骤3.2、利用式(2)将所述视觉概念特征v与t-1时刻的单词特征xt-1拼接为特征矩阵Ft-1
Ft-1=[v;xt-1] (2)
式(2)中,[;]表示按行拼接操作;
利用式(3)在所述特征矩阵Ft-1上实施多头自注意力操作φf,得到第hf个自注意力操作下的融合矩阵
Figure FDA0003320098260000021
从而得到t时刻的融合矩阵
Figure FDA0003320098260000022
其中,[:]表示按列拼接操作;
Figure FDA0003320098260000023
式(3)中,
Figure FDA0003320098260000024
Figure FDA0003320098260000025
分别表示所述多头自注意力操作φf中第hf个自注意力操作下的三个需要学习的权重矩阵,(·)T表示矩阵转置操作,df
Figure FDA0003320098260000026
的维度;Hf表示所述多头自注意力操作φf的抽头数;
步骤3.3、利用式(4)将所述t时刻的融合矩阵
Figure FDA0003320098260000027
转换为t时刻的融合向量ft
Figure FDA0003320098260000028
式(5)中,FC(·)表示全连接层操作;
步骤3.4、利用式(5)在t时刻的融合向量ft与基于记忆的解码器t-1时刻的记忆状态Mt-1上实施多头自注意力操作φm,得到第hm个自注意力操作下的注意力矩阵
Figure FDA0003320098260000029
从而得到t时刻的注意力矩阵
Figure FDA00033200982600000210
Figure FDA00033200982600000211
式(5)中,
Figure FDA00033200982600000212
Figure FDA00033200982600000213
分别表示所述多头自注意力操作φm中第hm个自注意力操作下的三个需要学习的权重矩阵;dm
Figure FDA00033200982600000214
的维度;Hm表示所述多头自注意力操作φm的抽头数;
步骤3.5、利用式(6)对所述t时刻的注意力矩阵
Figure FDA00033200982600000215
和所述基于记忆的解码器t-1时刻的记忆状态Mt-1进行多层感知机MLP和正则化LN操作,得到当前t时刻的记忆矩阵
Figure FDA00033200982600000216
Figure FDA0003320098260000031
步骤3.6、利用式(7)从所述基于记忆的解码器t-1时刻的记忆状态Mt-1及所述当前t时刻的记忆矩阵
Figure FDA0003320098260000032
中提取有用的信息,得到基于记忆的解码器当前时刻t的记忆状态Mt
Figure FDA0003320098260000033
式(11)中,⊙表示点乘;gi,gf分别表示所述基于记忆的解码器的输入门与遗忘门;并有:
gi=σ(Wi·ft+Ui·tanh(Mt-1)+bi) (8)
gf=σ(Wf·ft+Uf·tanh(Mt-1)+bf) (9)
式(8)~(9)中,Wi,Wf,Ui,Uf是四个需要学习的权重矩阵,bi,bf是两个需要学习的偏置向量,表示sigmoid激活函数;
步骤3.7、利用式(10)得到t时刻的输出单词
Figure FDA0003320098260000034
Figure FDA0003320098260000035
式(10)中,Wo为需要学习的权重矩阵;ot表示所述基于记忆的解码器的输出,且ot=Mt
步骤4、所述无监督图像描述模型中基于记忆的重构器的处理:
步骤4.1、利用式(11)在t-1时刻基于记忆的重构器的隐藏状态zt-1与基于记忆的解码器t时刻的记忆状态Mt上实施多头自注意力操作φr,得到基于记忆的重构器中第hr个自注意力操作下的注意力向量
Figure FDA0003320098260000036
从而得到t时刻的注意力向量
Figure FDA0003320098260000037
Figure FDA0003320098260000038
式(11)中,
Figure FDA0003320098260000039
Figure FDA00033200982600000310
分别表示多头自注意力操作φr中第hr个自注意力操作下的三个需要学习的权重矩阵;dr
Figure FDA00033200982600000311
的维度;Hr表示多头自注意力操作φr的抽头数;
步骤4.2、将t+1赋值给t,返回步骤3顺序执行,直到t=L为止;基于记忆的重构器最后一个时刻的注意力向量作为视觉概念重构特征
Figure FDA00033200982600000312
步骤5、在句子语料库上对无监督图像描述模型的参数优化:
步骤5.1、令
Figure FDA00033200982600000313
步骤5.2、利用式(12)计算无监督图像描述模型在句子语料库上的损失值£S
Figure FDA0003320098260000041
式(12)中,α为设置的超参数;
Figure FDA0003320098260000042
为在已知句子S前t-1个单词的条件下,所述无监督图像描述模型t时刻生成的单词与句子S第t个单词相同的条件概率;
Figure FDA0003320098260000043
为L-2范数;
步骤5.3、利用随机梯度下降法对无监督图像描述模型在句子语料库上的损失值£S进行优化求解,使£S达到最小,从而得到句子语料库上的最优模型;
步骤6、在图像数据集上对最优模型的参数优化:
步骤6.1、使用CNN网络提取所述图像I的全局特征f;
步骤6.2、获取步骤5中最优模型的参数,并令
Figure FDA0003320098260000044
步骤6.3、利用式(13)计算最优模型在图像数据集上的损失值£I
Figure FDA0003320098260000045
式(13)中,[x]+=max(x,0),b和β为设置的超参数;
Figure FDA0003320098260000046
表示与全局特征f语义最不相关的任一视觉概念重构特征,且
Figure FDA0003320098260000047
Ω表示所述图像数据集中所有图像的全局特征集合Ω;ω表示所述全局特征集合Ω中任一全局特征;f′表示与视觉概念重构特征
Figure FDA0003320098260000048
语义最不相关的任一全局特征,且
Figure FDA0003320098260000049
Figure FDA00033200982600000410
表示所述图像数据集中所有图像对应的视觉概念重构特征集合;η表示所述视觉概念重构特征集合
Figure FDA00033200982600000411
中任一视觉概念重构特征;
步骤6.4、利用随机梯度下降法对最优模型在图像数据集上的损失值£I进行优化求解,使£I达到最小,从而得到图像数据集上的最优模型并作为最终的无监督图像描述模型。
CN202010049142.2A 2020-01-16 2020-01-16 基于递归记忆网络的无监督图像描述模型的生成方法 Active CN111242059B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010049142.2A CN111242059B (zh) 2020-01-16 2020-01-16 基于递归记忆网络的无监督图像描述模型的生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010049142.2A CN111242059B (zh) 2020-01-16 2020-01-16 基于递归记忆网络的无监督图像描述模型的生成方法

Publications (2)

Publication Number Publication Date
CN111242059A CN111242059A (zh) 2020-06-05
CN111242059B true CN111242059B (zh) 2022-03-15

Family

ID=70874655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010049142.2A Active CN111242059B (zh) 2020-01-16 2020-01-16 基于递归记忆网络的无监督图像描述模型的生成方法

Country Status (1)

Country Link
CN (1) CN111242059B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113220891B (zh) * 2021-06-15 2022-10-18 北京邮电大学 基于无监督的概念到句子的生成对抗网络图像描述方法
CN114399646B (zh) * 2021-12-21 2022-09-20 北京中科明彦科技有限公司 一种基于Transformer结构的图像描述方法和装置
CN116775497B (zh) * 2023-08-17 2023-11-14 北京遥感设备研究所 数据库测试用例生成需求描述编码方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596265A (zh) * 2018-05-02 2018-09-28 中山大学 基于文本描述信息和生成对抗网络的视频生成模型
CN110633632A (zh) * 2019-08-06 2019-12-31 厦门大学 一种基于循环指导的弱监督联合目标检测和语义分割方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10565758B2 (en) * 2017-06-14 2020-02-18 Adobe Inc. Neural face editing with intrinsic image disentangling
US20190228313A1 (en) * 2018-01-23 2019-07-25 Insurance Services Office, Inc. Computer Vision Systems and Methods for Unsupervised Representation Learning by Sorting Sequences
CN110288029B (zh) * 2019-06-27 2022-12-06 西安电子科技大学 基于Tri-LSTMs模型的图像描述方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596265A (zh) * 2018-05-02 2018-09-28 中山大学 基于文本描述信息和生成对抗网络的视频生成模型
CN110633632A (zh) * 2019-08-06 2019-12-31 厦门大学 一种基于循环指导的弱监督联合目标检测和语义分割方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Towards Unsupervised Image Captioning with Shared Multimodal Embeddings;Iro Laina等;《arXiv Computer Vision and Pattern Recognition》;20190827;第1-11页 *
Unsupervised Image Captioning;Yang Feng等;《arXiv Computer Vision and Pattern Recognition》;20190409;第1-10页 *
基于多模态递归网络的图像描述研究;束炎武;《万方数据库》;20190114;第1-49页 *
采用无监督学习算法与卷积的图像分类模型;王改华等;《华侨大学学报(自然科学版)》;20180131;第39卷(第1期);第146-151页 *

Also Published As

Publication number Publication date
CN111242059A (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
Cihan Camgoz et al. Subunets: End-to-end hand shape and continuous sign language recognition
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
Chen et al. A semantics-assisted video captioning model trained with scheduled sampling
CN111242059B (zh) 基于递归记忆网络的无监督图像描述模型的生成方法
CN110866542B (zh) 一种基于特征可控融合的深度表示学习方法
US11475225B2 (en) Method, system, electronic device and storage medium for clarification question generation
Li et al. UD_BBC: Named entity recognition in social network combined BERT-BiLSTM-CRF with active learning
Ye et al. A joint-training two-stage method for remote sensing image captioning
CN113204675B (zh) 一种基于跨模态物体推理网络的跨模态视频时刻检索方法
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114756687A (zh) 基于自学习实体关系联合抽取的钢铁产线设备诊断方法
CN116779091B (zh) 一种多模态网络互联融合的胸部影像诊断报告自动生成方法
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
CN116579347A (zh) 一种基于动态语义特征融合的评论文本情感分析方法、系统、设备及介质
CN114882488A (zh) 基于深度学习与注意力机制的多源遥感图像信息处理方法
CN115879546A (zh) 一种复合神经网络心理医学知识图谱构建方法及系统
CN116258990A (zh) 一种基于跨模态亲和力的小样本参考视频目标分割方法
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN113779966A (zh) 一种基于注意力的双向cnn-rnn深度模型的蒙文情感分析方法
CN113192030B (zh) 一种遥感图像描述生成方法及系统
CN115577072A (zh) 一种基于深度学习的短文本情感分析方法
CN115391534A (zh) 文本情感原因识别方法、系统、设备及存储介质
CN114511813A (zh) 视频语义描述方法及装置
Iqbal et al. Capsule-net for Urdu digits recognition
Zheng et al. Frame-level nonverbal feature enhancement based sentiment analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant