CN107918782A - 一种生成描述图像内容的自然语言的方法与系统 - Google Patents
一种生成描述图像内容的自然语言的方法与系统 Download PDFInfo
- Publication number
- CN107918782A CN107918782A CN201711265210.3A CN201711265210A CN107918782A CN 107918782 A CN107918782 A CN 107918782A CN 201711265210 A CN201711265210 A CN 201711265210A CN 107918782 A CN107918782 A CN 107918782A
- Authority
- CN
- China
- Prior art keywords
- mrow
- word
- image
- msub
- local feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Abstract
本发明提供了一种训练用于生成描述图像内容的自然语言的模型的方法,以及采用所述模型生成描述图像内容的自然语言的方法。其中,所述训练方法,包括:A1)将图像训练集中图像的全局特征以及局部特征作为注意力机制的输入,以获得同时包含全局特征以及局部特征的融合的结果;A2)将所述融合的结果和单词训练集作为长短记忆网络的输入,利用损失函数对所述注意力机制以及所述长短记忆网络进行训练,获得所述注意力机制的权值以及所述长短记忆网络的权值;其中,所述损失函数是已知图像的内容、以及描述所述图像内容的自然语句中前一个或多个单词时第i个单词的条件概率的函数,i=1,…imax。
Description
技术领域
本发明涉及图像处理,尤其涉及对图像内容的描述。
背景技术
图像自动描述指的是通过计算机自动生成自然语言语句以描述给定图像的内容。相较于图像分类、目标检测等基础任务,图像自动描述生成任务更复杂并且更具有挑战性,其对于图像内容理解具有重要意义。图像自动描述生成不仅需要计算机识别出一幅图像中存在的物体,还要识别出物体间的关系、行为活动等,并且使用自然语言描述识别出的语义信息。图像自动描述可以应用到许多场景,例如图像文本检索系统、儿童早教系统以及盲人导航等应用。
迄今为止,研究者已经提出很多方法生成图像描述。根据描述的生成方式,可将这些方法分成三个类别:基于模板的方法、基于迁移的方法、以及基于神经网络的方法。
基于模板的方法,首先使用分类器识别出图像的物体、属性以及关系,然后使用一个自然语言句子模板将识别出的物体、属性、和关系组成一个完整的句子。这类方法的优点是简单直观,缺点是受限于句子模板,不能生成语义丰富的句子。
基于迁移的方法,首先利用基于内容的检索方法检索到待生成图像的相似图像,然后直接将相似图像的描述应用到待检索图像。这类方法的优点是可以生成语法准确的句子,缺点是生成的句子可能会偏离图像的真实内容。
最近,受深度神经网络在图像识别任务和机器翻译上的成功应用,出现了许多基于神经网络的图像自动描述生成方法。这类方式是基于卷积神经网络(ConvolutionalNeural Network,CNN)和循环神经网络(Recurrent Neural Network,RNN)框架。此类方法首先利用卷积神经网络编码图像,其次利用循环神经网络解码图像为自然语句。与前两类方法相比,受益于循环神经网络可以捕获动态时序信息、以及卷积神经网络可以捕获图像视觉信息的能力,基于神经网络的方法可以产生语义丰富且语法更准确的句子。
然而,大多数被提出的基于卷积神经网络的方法仅仅使用了图像的全局特征,以至于图像的某些物体就识别不到。因此,当生成图像的文本描述时,就会导致图像中的某些物体信息丢失。例如,在图1(i)的(a)中,通过上述现有技术生成的句子中仅描述了“一组人站在被雪覆盖的斜坡上”而遗漏了这些人身穿的“滑雪板”,致使在描述所述图像时缺少对图像中人们正在执行的行为的信息描述。除此之外,由于图像的全局特征是一种较粗粒度的特征,这可能导致在生成描述句子时图像识别错误。例如,参考图1(ii)的(a),通过上述现有技术生成的句子中将放置在足球场上的物体识别为“足球”,这样的粗粒度描述使得图像中的“风筝”被错误地描述为“足球”。
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种训练用于生成描述图像内容的自然语言的模型的方法,包括:
A1)将图像训练集中图像的全局特征以及局部特征作为注意力机制的输入,以获得同时包含全局特征以及局部特征的融合的结果;
A2)将所述融合的结果和单词训练集作为长短记忆网络的输入,利用损失函数对所述注意力机制以及所述长短记忆网络进行训练,获得所述注意力机制的权值以及所述长短记忆网络的权值;
其中,所述损失函数是已知图像的内容、以及描述所述图像内容的自然语句中前一个或多个单词时第i个单词的条件概率的函数,i=1,…imax。
优选地,根据所述方法,其中步骤A1)包括:
在所述注意力机制执行融合的过程中,分别基于所述注意力机制的权值,为图像训练集中图像的全局特征以及局部特征中的每一个提供权重,以将执行加权后的结果作为所述融合的结果。
优选地,根据所述方法,其中步骤A1)包括:
采用所述注意力机制的权值,为图像训练集中图像的全局特征以及局部特征中的每一个提供权重,所述同时包含全局特征以及局部特征的结果表示为:
其中,W,Wh,Wo,b是所述注意力机制的权值,是激活函数,h(t-1)是训练的t-1时刻所述长度记忆网络的隐藏层值,fk为所述全局特征以及所述局部特征的集合中的第k个特征,表示所述第k个特征与h(t-1)的相关度,表示针对所述第k个特征提供的权重,Gf表示所述全局特征,Lfj表示第j个局部特征,ψ(t)(I)是训练的t个时刻融合获得的同时包含全局特征以及局部特征的结果。
优选地,根据所述方法,其中所述损失函数为:
p(si|I,s0,s1,...,si-1)=softmax(wphi)
si是描述所述图像训练集中图像I的内容的第i个单词,s0,...,si均为所述单词训练集中的单词,p(si|I,s0,s1,...,si-1)是已知描述图像I的内容、以及描述所述图像I的内容的自然语句中的前i-1个单词时第i个单词为si的条件概率,wp是所述长短记忆网络中输入到softmax的隐藏层的权值,hi是计算第i个单词时所述长短记忆网络的隐藏层值。
优选地,根据所述方法,其中步骤A2)包括:
针对所述损失函数采用梯度下降法进行训练。
优选地,根据所述方法,其中所述长短记忆网络包含多个LSTM网络层,所述多个LSTM网络层中的一个以所述融合的结果作为其输入,所述多个LSTM网络层中的一个以单词训练集作为其输入。
以及,一种生成的模型生成描述图像内容的自然语言的方法,包括:
B1)将待描述的测试图像的全局特征以及局部特征作为注意力机制的输入,以获得同时包含全局特征以及局部特征的融合的结果;
B2)将所述融合的结果作为长短记忆网络的输入,输出描述所述测试图像的自然语言;
其中,所述注意力机制的权值、以及所述长短记忆网络的权值由前述任意一项所述方法确定。
优选地,根据所述方法,其中步骤B2)包括:
B2-1)将所述融合的结果以及已获得的前n个描述所述测试图像的单词中的至少一个作为长短记忆网络的输入,得到描述所述测试图像的第n+1个单词;
B2-2)则依照所获得的各个单词的顺序输出描述所述测试图像的自然语言。
优选地,根据所述方法,其中,步骤B2-1)包括:
在尚未获得描述所述测试图像的单词时,将定义的开始符作为长短记忆网络的输入;
步骤B2-2)包括:
若得到的描述所述测试图像的单词同于定义的结束符,或者描述所述测试图像的单词的总数达到设置的上限,则依照所获得的各个单词的顺序输出描述所述测试图像的自然语言。
优选地,根据所述方法,其中步骤B2-1)包括:
根据所述长短记忆网络得到已知描述所述测试图像I的内容、以及描述所述图像I的内容的自然语句中的前i-1个单词时第i个单词为备选词si的条件概率p(si|I,s0,s1,...,si-1),将具有最大条件概率的备选词作为所述第i个单词。
优选地,根据所述方法,其中步骤B2-2)包括:
针对所获得的全部m个单词中的每一个选择针对所述单词具有最大条件概率的多个备选词,对全部m个单词进行排列组合以计算在所述组合形式下完整的自然语句为s0,s1,...,sm的概率:
选择p(s0,s1,...,sm)最大的一种组合方式,依照s0,s1,...,sm的顺序作为所输出的自然语句。
优选地,根据所述方法,其中所述待描述的测试图像的全局特征通过VGG16网络获得,并且所述待描述的测试图像的局部特征通过FasterR-CNN模型获得。
以及,一种用于生成描述图像内容的自然语言的系统,包括:
处理器、和存储装置,
其中,所述存储装置用于存储计算机程序,所述计算机程序在被所述处理器执行时用于实现如权利要求1-12中任意一项所述的方法。
与现有技术相比,本发明的优点在于:
提供了一种训练用于生成描述图像内容的自然语言的模型的方法,所述模型可被用于生成兼具图像的全局特征和局部特征的自然语句,其中采用注意力机制来融合图像的全局特征和局部特征,以基于全局特征保留图像的上下文信息,并且基于局部特征准确地表达图像中各个目标的细节信息。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1示出了现有基于神经网络的方法与根据本发明的方法针对相同图像进行描述的结果对比,
其中,语句a是现有基于神经网络的方法对图像物体信息丢失以及信息误判样例,语句b是根据本发明的方法所生成的图像描述;
图2示出了根据本发明的一个实施例生成描述图像内容的自然语言的模型的流程图;
图3是根据本发明的一个实施例的训练根据本发明的模型的流程的简化框图;
图4是根据本发明的一个实施例训练用于生成描述图像内容的自然语言的模型的方法的流程图;
图5是根据本发明的一个实施例用于生成描述图像内容的自然语言的模型中注意力机制的示意图,其中(a)为图2中的注意力机制在t时刻的输入和输出的示意图,(b)为(a)中注意力机制的内部构造图;
图6是根据本发明的一个实施例用于生成描述图像内容的自然语言的模型中两层长短记忆网络的示意图,其中(a)为图2中的第一层长短记忆网络LSTM1在t时刻的输入和输出的示意图,(b)为(a)中LSTM1的内部构造图,(c)为图2中的第二层长短记忆网络LSTM2在t时刻的输入和输出的示意图,(d)为(c)中LSTM2的内部构造图;
图7示出了根据本发明的一个实施例的使用根据本发明的模型的流程的简化框图;
图8示出了根据本发明的一个实施例利用生成的模型生成描述图像内容的自然语言的方法的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明作详细说明。
为了能够全面地获取待处理图像上的各类特征,在本申请中使用“全局特征”和“局部特征”这两个概念。其中,全局特征指的是用于描述包含图像物体的上下文信息的图像特征;相比之下,局部特征指的是用于描述包含图像物体的细节信息的图像特征。在表示一幅图像时,全局特征和局部特征都是重要的。
举例说明,参考图1(i),“人群”、“雪”、“斜坡”属于全局特征,而“穿着在人脚下的滑雪板”、“戴在人头上的帽子”、“房子上的窗户”等则属于局部特征。类似地,参考图1(ii),“人”、“足球场”属于全局特征,而“放置在足球场地面上的风筝”、“出现在画面中的人的年龄、性别”则属于局部特征。
为了实现本申请的发明目的,不仅需要获取图像中的全局特征,还需要获取图像中的局部特征,从而准确地描述图像所表达的内容;在本发明中可以采用任意现有技术来获取图像中的全局特征以及局部特征,例如采用现有的深度卷积神经网络的算法分别针对图像中的全局特征以及局部特征进行抽取。并且,可以理解,在以采用自然语言来描述图像内容为目的时,仅单纯地对所获得的全部全局特征和局部特征进行叠加往往难以获得令人满意的结果,因此还需要采用专门的算法和规则来融合获得的全局特征和局部特征。此外,还可以采用循环神经网络将融合了全局特征和局部特征的结果翻译成符合自然语言习惯的文本。
图2示出了根据本发明的一个实施例生成描述图像内容的自然语言的模型的流程,所生成的模型用于针对待描述的测试图像生成描述其内容的自然语言。所述模型采用了两层长短记忆网络(Long-Short Term Memory,LSTM),分别表示为LSTM1和LSTM2,以实现生成符合自然语言习惯的文本,在所述LSTM1和LSTM2之间还设置了注意力机制(AttentionMechanism,即图2中的attention layer)以对从输入图像I中提取的全局特征Gf和局部特征Lf1,…,Lfn进行融合,并将融合后的结果输入到LSTM2中。
在训练所述模型时,首先需要从已知的图像训练集中提取出全局特征Gf和局部特征Lf1,…,Lfn,利用该模型中的注意力机制对所述全局特征和所述局部特征进行融合,并将融合后的结果I、以及已知的单词训练集x输入到基于循环神经网络的长短记忆网络(Long-Short Term Memory,LSTM)中(图2中I、x的上标t、t+1…T表示其为针对某一训练时刻的值,下标表示其与长短记忆网络中的第几个网络层对应),通过所述注意力机制以及所述长短记忆网络的隐藏层值的反向传播,最终训练获得针对所述注意力机制以及所述长短记忆网络的权值。
在获得了所述训练的模型之后,可以利用所获得的所述注意力机制以及所述长短记忆网络的权值,通过图2所示出的模型对待描述的测试图像进行处理,并获得描述其内容的自然语言。
为了便于介绍训练根据本发明的模型的具体过程,图3提供了针对训练模型的简化的框图。
参考图3,将已知的图像训练集中图像的全局特征以及局部特征输入到注意力机制中以获得融合了全局特征和局部特征的结果,所述结果、以及已知的单词训练集被输入到长短记忆网络中,根据损失函数计算在采用上述输入的情况下最优的注意力机制的权值以及长短记忆网络的权值。
下面将参考图3和图4所示出的根据本发明的一个具体的实施例,介绍训练用于生成描述图像内容的自然语言的模型的方法,包括:
步骤A1.基于注意力机制获得同时包含图像训练集中图像的全局特征以及局部特征的结果。在本实施例中通过为所述全局特征以及局部特征中的每一个分别提供相应的权重,以将加权后的结果作为融合了全局特征以及局部特征的结果。
以下计算式(1)至(3)示出了采用注意力机制对全局特征以及局部特征进行融合的结果。其中,利用注意力机制的权值为全局特征以及局部特征中的每一个提供相应的权重,将加权获得的结果作为同时包含全局特征以及局部特征的结果。
其中,权值{W,Wh,Wo,b}是注意力机制中需要通过学习而获得的权值,在本实施例中对于所有全局特征和局部特征均采用相同的W,Wh,Wo,b值;是激活函数,在本实施例中采用双曲正弦函数;t表示针对训练所述模型这一过程所处的时刻,训练模型属于反向传播的过程;h(t-1)是在t-1时刻用于生成图像描述文本的循环神经网络中隐藏层的数值,其属于反向传播过程中的历史数据;Gf为全局特征,Lfi为编号为i的局部特征;fk为所述全局特征以及所述局部特征的集合{Gf,Lf1,Lf2…}中的编号为k的特征;表示所述编号为k的特征与h(t-1)的相关度;表示针对所述编号为k的特征提供的权重,并且在本实施例中是全局特征Gf的权重,是编号为i的局部特征的权重,并且所述权重之和为1,即ψ(t)(I)是训练的t个时刻融合获得的同时包含全局特征以及局部特征的结果。
图5(a)示出了图2中的注意力机制在t时刻的输入和输出的示意图。其中,h2 (t-1)表示在前一个时刻t-1产生的来自长短记忆网络的隐藏层值,h2 (t-1)的脚标表示该隐藏层值来自于长短记忆网络中的第二个网络层(在本发明的实施例中采用了两层长短记忆网络,分别表示为LSTM1和LSTM2,应当理解在本发明中可以采用单层的长短记忆网络,也可以采用多层的长短记忆网络,层数越多则对应于更大的计算量)。可以看到,所述注意力机制以长短记忆网络的历史信息、图像训练集中图像的全局特征以及局部特征为输入,输出融合了所述全局特征以及局部特征的结果。
图5(b)示出了图5(a)的内部结构示意图。参考图5(b),针对全局特征以及局部特征中的每一个,均采用了相同的注意力机制的权值W,Wh,Wo,b,以计算其与长短记忆网络在前一时刻的隐藏层值h2 (t-1)的相关程度k=0,1,2…n,所述相关程度经过归一化处理后获得了针对所述全局特征或局部特征提供的权重通过加权对全局特征和局部特征进行融合,获得了融合的结果It=ψt(I)。
步骤A2.将所述融合后的结果、和单词训练集作为长短记忆网络的输入,利用损失函数对所述注意力机制、以及所述长短记忆网络进行训练,获得所述注意力机制的权值以及所述长短记忆网络中的忘记门、输入门、细胞单元、输出门的权值、以及输入到softmax的隐藏层的权值。
如步骤A1中所述,在本发明中可以采用单层或多层的长短记忆网络。图6(a)至(d)示出了根据本发明的一个实施例,针对所述模型采用双层长短记忆网络的示例,其中图6(a)为在t时刻第一层长短记忆网络LSTM1的输入和输出的示意图,图6(b)为图6(a)中LSTM1的内部构造图,图6(c)为在t时刻第二层长短记忆网络LSTM2的输入和输出的示意图,图6(d)为图6(c)中LSTM2的内部构造图。
参考图6(a),LSTM1以其本身在前一时刻t-1产生的隐藏层值h1 (t-1)、单词训练集的特征xt为输入,输出供其本身、以及LSTM2使用的隐藏层值h1 t-1。
参考图6(b)所示出的LSTM1的内部构造,其中单词训练集的特征xt是单词训练集中单词st的特征,其与embedding的权值wx相乘得到xt,xt=wxst。单词训练集中单词的特征xt被输入到LSTM1的忘记门(forget gate)、输入门(input gate)、细胞单元(cell)、输出门(output gate)中,利用LSTM1的针对忘记门的权值{w1 fs,w1 fh,bf}、输入门的权值{w1 is,w1 ih,bi}、输出门的权值{w1 os,w1 oh,bo}、细胞单元的权值{w1 cs,w1 ch},可以得到针对它们的输出,由计算式(4)至(7)示出。
LSTM1的输入门结果i1 t:
i1 t=σ(w1 isxt+w1 ihh1 (t-1)+bi) (4)
其中,σ表示sigmoid函数。
LSTM1的忘记门结果f1 t:
f1 t=σ(w1 fsxt+w1 fhh1 (t-1)+bf) (5)
LSTM1的输出门结果o1 t:
o1 t=σ(w1 osxt+w1 ohh1 (t-1)+bo) (6)
LSTM1的细胞结果c1 t:
其中,Ф表示tanh函数。
其中,权值{w1 fs,w1 fh,bf,w1 is,w1 ih,bi,w1 os,w1 oh,bo,w1 cs,w1 ch}为需要通过训练获得的LSTM1的权值。
图6(c)为与所述LSTM1连接的第二层长短记忆网络,表示为LSTM2,LSTM2以LSTM1在前一时刻t-1所产生的隐藏层值h1 (t-1)、注意力机制所提供的融合的结果It、其本身在前一时刻t-1所产生的隐藏层值h2 (t-1)为输入,输出隐藏层值h2 t-1。
参考图6(d)所示出的针对图6(c)的内部结构示意图,其中h1 (t-1)和It均被输入到LSTM2的输入门、忘记门、输出门、和细胞单元中,利用LSTM2的针对忘记门的权值{w2 fs,w2 fh,w2 fI,b2 f}、输入门的权值{w2 is,w2 ih,w2 iI,b2 i}、输出门的权值{w2 os,w2 oh,w2 oI,b2 o}、细胞单元的权值{w2 cs,w2 ch,w2 cI},产生LSTM2的隐藏层结果h2 t,根据h2 t以及输入到softmax的隐藏层的权值{wp}可以获得当前时刻t的单词的概率。具体的计算表达由计算式(8)至(13)示出。
LSTM2的输入门结果i2 t:
i2 t=σ(w2 ish1 t+w2 ihh2 (t-1)+w2 iIIt+b2 i) (8)
LSTM2的忘记门结果f2 t:
f2 t=σ(w2 fsh1 t+w2 fhh2 (t-1)+w2 fIIt+b2 f) (9)
LSTM2的输出门结果o2 t
o2 t=σ(w2 osh1 t+w2 ohh2 (t-1)+w2 oIIt+b2 o) (10)
LSTM2的细胞结果c2 t:
LSTM2当前时刻t的隐藏层结果h2 t:
已知针对图像I在前t-1个时刻得到的单词分别为s0,s1,...,st-1时,第t个单词为st的条件概率为:
p(st|I,s0,s1,...,st-1)=soft max(wph2 t) (13)
其中,权值{w2 fs,w2 fh,w2 fI,b2 f,w2 is,w2 ih,w2 iI,b2 i,w2 os,w2 oh,w2 oI,b2 o,w2 cs,w2 ch,w2 cI,wp}为需要通过训练获得的LSTM2的权值。
可以理解,针对多层的长短记忆网络,可以选择其中的任意一层以注意力机制的输出作为其输入,选择其中的任意一层以单词训练集中单词的特征作为其输入。
在上述采用两层长短记忆网络以及注意力机制的实施例中,总共需要通过训练获得以下权值,即注意力机制的权值{W,Wh,Wo,b},第一层长短记忆网络的权值{w1 fs,w1 fh,bf,w1 is,w1 ih,bi,w1 os,w1 oh,bo,w1 cs,w1 ch}、和第二层长短记忆网络的权值{w2 fs,w2 fh,w2 fI,b2 f,w2 is,w2 ih,w2 iI,b2 i,w2 os,w2 oh,w2 oI,b2 o,w2 cs,w2 ch,w2 cI,wp}。
这些权值可以通过设立一个训练目标而获得,可以输出满足所述目标的注意力机制的权值、以及长短记忆网络时的各项权值以作为所述模型的参数。
在本发明中提供了一种损失函数,以使得所述损失函数值下降到趋于稳定或者在达到最大训练次数时,将注意力机制的权值、以及长短记忆网络的各项权值作为所述模型的参数。这里的损失可以被理解为是错误率过高、或计算结果的准确率过低、或者预测获得的描述图像内容的语句本身的概率过低。换句话说,凡是不利于描述图像内容的语句准确度的函数均可以被用于根据本发明的损失函数。
因此,本发明将所采用的损失函数设置为是已知图像的内容中前一个或多个单词时第i个单词的条件概率的函数,i=1,…imax。根据本发明的一个实施例,对上述针对各个单词的条件概率取对数后再求和以作为损失函数L(I,s),其表达式为:
p(si|I,s0,s1,...,si-1)=softmax(wphi) (15)
其中,si是描述所述图像训练集中图像I的内容的第i个单词,s0,...,si均为所述单词训练集中的单词,p(si|I,s0,s1,...,si-1)是已知描述图像I的内容中的前i-1个单词时第i个单词为si的条件概率,wp是所述输入到softmax的隐藏层的,hi是计算第i个单词时所述长短记忆网络的隐藏层值。
根据本发明的一个实施例,可以采用梯度下降法进行训练,目标为使得所述损失函数的取值下降达到稳定或在达到最大迭代次数时,输出所述注意力机制的权值以及所述长短记忆网络中的忘记门、输入门、细胞单元、输出门、输入到softmax的隐藏层的以作为根据本发明的模型的参数。
例如,将动量设置为0.9,学习率初始化为0.01,以已知的图像训练集和单词训练集作为模型的输入,每迭代两万次学习率下降一次,最终在损失函数L(I,s)不再下降或者达到最大训练次数时,将当前的注意力机制的权值以及所述长短记忆网络中的忘记门、输入门、细胞单元、输出门、softmax的权值作为模型的参数。
在获得了上述所述注意力机制的权值以及所述长短记忆网络的权值后,则认为完成了对根据本发明的生成描述图像内容的自然语言的模型的训练过程。
下面将具体地介绍如何利用根据本发明上述实施例所生成的模型来生成描述图像内容的自然语言。
图7示出了使用根据本发明的模型的流程的简化的模块图,将提取的待描述的测试图像的全局特征以及局部特征输入到训练好的注意力机制中,并将由注意力机制所输出的融合了全局特征以及局部特征的结果、以及在前一时刻t-1生成的第t-1个单词(或者是前t-1个单词)输入到训练好的长短记忆网络中,由长短记忆网络输出基于上述历史数据、第t个单词为某个备选词的条件概率。
图8示出了根据本发明的一个实施例,参考图7和图8生成的模型生成描述图像内容的自然语言的方法,包括:
步骤B1.提取所述待描述的测试图像的全局特征以及局部特征。
在本发明中可以采用任意现有技术来提取所述待描述的测试图像的全局特征以及局部特征。根据本发明的一个实施例,发明人通过研究发现卷积神经网络具有强大的表达能力,尤其适用于图像识别和目标检测。因此,本发明优选地采用深度卷积神经网络对待处理图像提取全局特征和局部特征。
根据本发明的一个实施例,采用Faster R-CNN提取4096维的图像局部特征{Lf1,Lf2,...,Lfn},所述Faster R-CNN被描述于Ren,S.等人2015年在Neural InformationProcessing Systems上发表的文章“Faster RCNN:Towards real-time object detectionwith region proposal networks”中。在本实施例中,采用Faster R-CNN检测图像中的所有目标,然后根据每个目标的置信度分数从大到小排序,然后选取前n个作为该图像的重要区域,从而确定局部特征{Lf1,Lf2,...,Lfn}。所述Faster RCNN模型在ImageNet的分类数据集上训练获得。并且,在MS COC目标检测数据集上对所述Faster RCNN模型进行微调。
根据本发明的一个实施例,采用VGG16网络提取图像全局特征Gf,所述VGG16网络被描述于Simonyan,K.和Zisserman,A.2014年在CoRR abs/1409.1556发表的文章“Verydeep convolutional networks for large-scale image recognition”中。在本实施例中,将VGG16网络的fc7层的特征作为图像的全局特征Gf,该特征为4096维。可以对图像中的重要区域提取4096维度的fc7层特征。所述VGG16网络在ImageNet的分类数据集上训练获得。可以将所获得的全局特征和局部特征作为一个4096维特征的集合I={Gf,Lf1,...,Lfn}。发明人发现每幅图像平均所包含的目标数量一般低于10,因此,根据本发明的优选实施例,设置n=10。
步骤B2.模型采用通过根据本发明的上述方法所获得的注意力机制的权值以及长短记忆网络的权值,将待描述的测试图像的全局特征以及局部特征作为注意力机制的输入,并且将所述注意力机制的输出、以及已获得的前n-1个描述所述测试图像的单词中的至少一个作为长短记忆网络的输入,得到描述所述测试图像的第n个单词。
在生成第一个描述所述测试图像的单词时,尚未获得描述所述测试图像的历史数据,因此可以定义一个开始符,将其作为所述长短记忆网络的输入。
可以理解,参考计算式(13),利用根据本发明的模型可以通过长短记忆网络输出第n个单词sn为某一备选词的条件概率p(sn|I,s0,s1,...,sn-1),在实际使用时可以得到多个备选词的概率。这里可以将条件概率最大的单词作为第n个单词sn,并将sn用于针对第n+1个单词的判断。
步骤B3.重复上述步骤B2的判断过程,直到得到描述所述测试图像的单词同于定义的结束符,或者描述所述测试图像的单词的总数达到设置的上限时,依照顺序输出已获得的各个单词以作为描述所述测试图像的自然语言。
如步骤B2中所述,在针对每个单词计算时可以得到不止一个备选词,为了尽可能多的涵盖优选的自然语句,可以针对每个单词选择条件概率最大的多个备选词的条件概率以计算各个单词组合在一起作为一个完整自然语句时的概率。例如,针对全部m个单词中的每一个(表示为si),选择p(si|I,s0,s1,...,si-1)最大的两个备选词的条件概率,针对全部m个单词进行排练组合,计算在该组合形式下完整的自然语句为s0,s1,...,sm的概率,即对该组合下的各个备选词的条件概率进行累乘:
选择p(s0,s1,...,sm)最大的一种组合方式,依照s0,s1,...,sm的顺序作为所输出的自然语句。
通过上述实施例可以看出,本发明提供了一种训练用于生成描述图像内容的自然语言的模型的方法,所述模型可被用于生成兼具图像的全局特征和局部特征的自然语句,其中采用注意力机制来融合图像的全局特征和局部特征,以基于全局特征保留图像的上下文信息,并且基于局部特征准确地表达图像中各个目标的细节信息。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管上文参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (13)
1.一种训练用于生成描述图像内容的自然语言的模型的方法,包括:
A1)将图像训练集中图像的全局特征以及局部特征作为注意力机制的输入,以获得同时包含全局特征以及局部特征的融合的结果;
A2)将所述融合的结果和单词训练集作为长短记忆网络的输入,利用损失函数对所述注意力机制以及所述长短记忆网络进行训练,获得所述注意力机制的权值以及所述长短记忆网络的权值;
其中,所述损失函数是已知图像的内容、以及描述所述图像内容的自然语句中前一个或多个单词时第i个单词的条件概率的函数,i=1,…imax。
2.根据权利要求1所述的方法,其中步骤A1)包括:
在所述注意力机制执行融合的过程中,分别基于所述注意力机制的权值,为图像训练集中图像的全局特征以及局部特征中的每一个提供权重,以将执行加权后的结果作为所述融合的结果。
3.根据权利要求2所述的方法,其中步骤A1)包括:
采用所述注意力机制的权值,为图像训练集中图像的全局特征以及局部特征中的每一个提供权重,所述同时包含全局特征以及局部特征的结果表示为:
<mrow>
<msup>
<mi>&psi;</mi>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
</msup>
<mrow>
<mo>(</mo>
<mi>I</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msubsup>
<mi>&alpha;</mi>
<mn>0</mn>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
</msubsup>
<mi>G</mi>
<mi>f</mi>
<mo>+</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mrow>
<mi>j</mi>
<mi>max</mi>
</mrow>
</munderover>
<msubsup>
<mi>&alpha;</mi>
<mi>j</mi>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
</msubsup>
<msub>
<mi>Lf</mi>
<mi>j</mi>
</msub>
</mrow>
<mrow>
<msubsup>
<mi>&alpha;</mi>
<mi>k</mi>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
</msubsup>
<mo>=</mo>
<mfrac>
<msup>
<mi>e</mi>
<msubsup>
<mi>&beta;</mi>
<mi>k</mi>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
</msubsup>
</msup>
<mrow>
<msubsup>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>0</mn>
</mrow>
<mrow>
<mi>j</mi>
<mi>max</mi>
</mrow>
</msubsup>
<msup>
<mi>e</mi>
<msubsup>
<mi>&beta;</mi>
<mi>j</mi>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
</msubsup>
</msup>
</mrow>
</mfrac>
</mrow>
其中,W,Wh,Wo,b是所述注意力机制的权值,是激活函数,h(t-1)是训练的t-1时刻所述长度记忆网络的隐藏层值,fk为所述全局特征以及所述局部特征的集合中的第k个特征,表示所述第k个特征与h(t-1)的相关度,表示针对所述第k个特征提供的权重,Gf表示所述全局特征,Lfj表示第j个局部特征,ψ(t)(I)是训练的t个时刻融合获得的同时包含全局特征以及局部特征的结果。
4.根据权利要求1所述的方法,其中所述损失函数为:
<mrow>
<mi>L</mi>
<mrow>
<mo>(</mo>
<mi>I</mi>
<mo>,</mo>
<mi>s</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</munderover>
<mi>l</mi>
<mi>o</mi>
<mi>g</mi>
<mrow>
<mo>(</mo>
<mi>p</mi>
<mo>(</mo>
<mrow>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<mi>I</mi>
<mo>,</mo>
<msub>
<mi>s</mi>
<mn>0</mn>
</msub>
<mo>,</mo>
<msub>
<mi>s</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<mn>...</mn>
<mo>,</mo>
<msub>
<mi>s</mi>
<mrow>
<mi>i</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
p(si|I,s0,s1,...,si-1)=softmax(wphi)
si是描述所述图像训练集中图像I的内容的第i个单词,s0,...,si均为所述单词训练集中的单词,p(si|I,s0,s1,...,si-1)是已知描述图像I的内容、以及描述所述图像I的内容的自然语句中的前i-1个单词时第i个单词为si的条件概率,wp是所述长短记忆网络中输入到softmax的隐藏层的权值,hi是计算第i个单词时所述长短记忆网络的隐藏层值。
5.根据权利要求1所述的方法,其中步骤A2)包括:
针对所述损失函数采用梯度下降法进行训练。
6.根据权利要求1-5中任意一项所述的方法,其中所述长短记忆网络包含多个LSTM网络层,所述多个LSTM网络层中的一个以所述融合的结果作为其输入,所述多个LSTM网络层中的一个以单词训练集作为其输入。
7.一种生成的模型生成描述图像内容的自然语言的方法,包括:
B1)将待描述的测试图像的全局特征以及局部特征作为注意力机制的输入,以获得同时包含全局特征以及局部特征的融合的结果;
B2)将所述融合的结果作为长短记忆网络的输入,输出描述所述测试图像的自然语言;
其中,所述注意力机制的权值、以及所述长短记忆网络的权值由权利要求1-6中任意一项所述方法确定。
8.根据权利要求7所述的方法,其中步骤B2)包括:
B2-1)将所述融合的结果以及已获得的前n个描述所述测试图像的单词中的至少一个作为长短记忆网络的输入,得到描述所述测试图像的第n+1个单词;
B2-2)则依照所获得的各个单词的顺序输出描述所述测试图像的自然语言。
9.根据权利要求8所述的方法,其中,步骤B2-1)包括:
在尚未获得描述所述测试图像的单词时,将定义的开始符作为长短记忆网络的输入;
步骤B2-2)包括:
若得到的描述所述测试图像的单词同于定义的结束符,或者描述所述测试图像的单词的总数达到设置的上限,则依照所获得的各个单词的顺序输出描述所述测试图像的自然语言。
10.根据权利要求9所述地方法,其中步骤B2-1)包括:
根据所述长短记忆网络得到已知描述所述测试图像I的内容、以及描述所述图像I的内容的自然语句中的前i-1个单词时第i个单词为备选词si的条件概率p(si|I,s0,s1,...,si-1),将具有最大条件概率的备选词作为所述第i个单词。
11.根据权利要求10所述地方法,其中步骤B2-2)包括:
针对所获得的全部m个单词中的每一个选择针对所述单词具有最大条件概率的多个备选词,对全部m个单词进行排列组合以计算在所述组合形式下完整的自然语句为s0,s1,...,sm的概率:
<mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mn>0</mn>
</msub>
<mo>,</mo>
<msub>
<mi>s</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<mn>...</mn>
<mo>,</mo>
<msub>
<mi>s</mi>
<mi>m</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Pi;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</munderover>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<mi>I</mi>
<mo>,</mo>
<msub>
<mi>s</mi>
<mn>0</mn>
</msub>
<mo>,</mo>
<msub>
<mi>s</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<mn>...</mn>
<mo>,</mo>
<msub>
<mi>s</mi>
<mrow>
<mi>i</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
选择p(s0,s1,...,sm)最大的一种组合方式,依照s0,s1,...,sm的顺序作为所输出的自然语句。
12.根据权利要求7-11中任意一项所述的方法,其中所述待描述的测试图像的全局特征通过VGG16网络获得,并且所述待描述的测试图像的局部特征通过Faster R-CNN模型获得。
13.一种用于生成描述图像内容的自然语言的系统,包括:
处理器、和存储装置,
其中,所述存储装置用于存储计算机程序,所述计算机程序在被所述处理器执行时用于实现如权利要求1-12中任意一项所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611244116 | 2016-12-29 | ||
CN2016112441165 | 2016-12-29 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107918782A true CN107918782A (zh) | 2018-04-17 |
CN107918782B CN107918782B (zh) | 2020-01-21 |
Family
ID=61898344
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711265210.3A Active CN107918782B (zh) | 2016-12-29 | 2017-12-05 | 一种生成描述图像内容的自然语言的方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107918782B (zh) |
Cited By (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108647736A (zh) * | 2018-05-16 | 2018-10-12 | 南京大学 | 一种基于感知损失和匹配注意力机制的图像分类方法 |
CN108875807A (zh) * | 2018-05-31 | 2018-11-23 | 陕西师范大学 | 一种基于多注意力多尺度的图像描述方法 |
CN108898639A (zh) * | 2018-05-30 | 2018-11-27 | 湖北工业大学 | 一种图像描述方法及系统 |
CN108989804A (zh) * | 2018-08-23 | 2018-12-11 | 杭州雄迈集成电路技术有限公司 | 图像的编码方法及装置 |
CN109034044A (zh) * | 2018-06-14 | 2018-12-18 | 天津师范大学 | 一种基于融合卷积神经网络的行人再识别方法 |
CN109190619A (zh) * | 2018-08-23 | 2019-01-11 | 重庆大学 | 一种基于目标掩膜的图像描述方法 |
CN109344288A (zh) * | 2018-09-19 | 2019-02-15 | 电子科技大学 | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 |
CN109344920A (zh) * | 2018-12-14 | 2019-02-15 | 汇纳科技股份有限公司 | 顾客属性预测方法、存储介质、系统及设备 |
CN109344404A (zh) * | 2018-09-21 | 2019-02-15 | 中国科学技术大学 | 情境感知的双重注意力自然语言推理方法 |
CN109409423A (zh) * | 2018-10-15 | 2019-03-01 | 珠海格力电器股份有限公司 | 一种图像识别方法、装置、终端及可读存储介质 |
CN109508400A (zh) * | 2018-10-09 | 2019-03-22 | 中国科学院自动化研究所 | 图文摘要生成方法 |
CN109559576A (zh) * | 2018-11-16 | 2019-04-02 | 中南大学 | 一种儿童伴学机器人及其早教系统自学习方法 |
CN109726696A (zh) * | 2019-01-03 | 2019-05-07 | 电子科技大学 | 基于推敲注意力机制的图像描述生成系统及方法 |
CN109816039A (zh) * | 2019-01-31 | 2019-05-28 | 深圳市商汤科技有限公司 | 一种跨模态信息检索方法、装置和存储介质 |
CN109871736A (zh) * | 2018-11-23 | 2019-06-11 | 腾讯科技(深圳)有限公司 | 自然语言描述信息的生成方法及装置 |
CN109886269A (zh) * | 2019-02-27 | 2019-06-14 | 南京中设航空科技发展有限公司 | 一种基于注意力机制的交通广告牌识别方法 |
CN109902296A (zh) * | 2019-01-18 | 2019-06-18 | 华为技术有限公司 | 自然语言处理方法、训练方法及数据处理设备 |
CN109978139A (zh) * | 2019-03-20 | 2019-07-05 | 深圳大学 | 图片自动生成描述的方法、系统、电子装置及存储介质 |
CN110084250A (zh) * | 2019-04-26 | 2019-08-02 | 北京金山数字娱乐科技有限公司 | 一种图像描述的方法及系统 |
CN110188779A (zh) * | 2019-06-03 | 2019-08-30 | 中国矿业大学 | 一种图像语义描述的生成方法 |
CN110210499A (zh) * | 2019-06-03 | 2019-09-06 | 中国矿业大学 | 一种图像语义描述的自适应生成系统 |
CN110288665A (zh) * | 2019-05-13 | 2019-09-27 | 中国科学院西安光学精密机械研究所 | 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备 |
CN110390363A (zh) * | 2019-07-29 | 2019-10-29 | 上海海事大学 | 一种图像描述方法 |
CN110458282A (zh) * | 2019-08-06 | 2019-11-15 | 齐鲁工业大学 | 一种融合多角度多模态的图像描述生成方法及系统 |
CN110458247A (zh) * | 2019-09-06 | 2019-11-15 | 北京金山数字娱乐科技有限公司 | 图像识别模型的训练方法及装置、图像识别方法及装置 |
CN110472642A (zh) * | 2019-08-19 | 2019-11-19 | 齐鲁工业大学 | 基于多级注意力的细粒度图像描述方法及系统 |
CN110490254A (zh) * | 2019-08-20 | 2019-11-22 | 山西潞安环保能源开发股份有限公司五阳煤矿 | 一种基于双重注意力机制层次网络的图像语义生成方法 |
CN110490946A (zh) * | 2019-07-15 | 2019-11-22 | 同济大学 | 基于跨模态相似度和生成对抗网络的文本生成图像方法 |
CN110619313A (zh) * | 2019-09-20 | 2019-12-27 | 西安电子科技大学 | 遥感图像判别性描述生成方法 |
CN110674850A (zh) * | 2019-09-03 | 2020-01-10 | 武汉大学 | 一种基于注意力机制的图像描述生成方法 |
CN111160467A (zh) * | 2019-05-31 | 2020-05-15 | 北京理工大学 | 一种基于条件随机场和内部语义注意力的图像描述方法 |
CN111444968A (zh) * | 2020-03-30 | 2020-07-24 | 哈尔滨工程大学 | 一种基于注意力融合的图像描述生成方法 |
CN111488739A (zh) * | 2020-03-17 | 2020-08-04 | 天津大学 | 基于多粒度生成图像增强表示的隐式篇章关系识别方法 |
CN111915339A (zh) * | 2019-05-09 | 2020-11-10 | 阿里巴巴集团控股有限公司 | 数据的处理方法、装置及设备 |
CN112466298A (zh) * | 2020-11-24 | 2021-03-09 | 网易(杭州)网络有限公司 | 语音检测方法、装置、电子设备和存储介质 |
CN113158822A (zh) * | 2021-03-29 | 2021-07-23 | 中国科学院深圳先进技术研究院 | 基于跨模态关系推理的眼部检测数据的分类方法及装置 |
CN113158821A (zh) * | 2021-03-29 | 2021-07-23 | 中国科学院深圳先进技术研究院 | 基于多模态的眼部检测数据的处理方法、装置及终端设备 |
CN113673535A (zh) * | 2021-05-24 | 2021-11-19 | 重庆师范大学 | 一种多模态特征融合网络的图像描述生成方法 |
WO2022041222A1 (en) * | 2020-08-31 | 2022-03-03 | Top Team Technology Development Limited | Process and system for image classification |
CN114821271A (zh) * | 2022-05-19 | 2022-07-29 | 平安科技(深圳)有限公司 | 模型训练方法、图像描述生成方法、装置及存储介质 |
CN115359323A (zh) * | 2022-08-31 | 2022-11-18 | 北京百度网讯科技有限公司 | 图像的文本信息生成方法和深度学习模型的训练方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101253514A (zh) * | 2005-07-01 | 2008-08-27 | 微软公司 | 文档可视结构的语法剖析 |
CN104268568A (zh) * | 2014-09-17 | 2015-01-07 | 电子科技大学 | 基于独立子空间网络的行为识别方法 |
CN104834747A (zh) * | 2015-05-25 | 2015-08-12 | 中国科学院自动化研究所 | 基于卷积神经网络的短文本分类方法 |
US20160035078A1 (en) * | 2014-07-30 | 2016-02-04 | Adobe Systems Incorporated | Image assessment using deep convolutional neural networks |
CN106250870A (zh) * | 2016-08-16 | 2016-12-21 | 电子科技大学 | 一种联合局部和全局相似性度量学习的行人再识别方法 |
-
2017
- 2017-12-05 CN CN201711265210.3A patent/CN107918782B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101253514A (zh) * | 2005-07-01 | 2008-08-27 | 微软公司 | 文档可视结构的语法剖析 |
US20160035078A1 (en) * | 2014-07-30 | 2016-02-04 | Adobe Systems Incorporated | Image assessment using deep convolutional neural networks |
CN104268568A (zh) * | 2014-09-17 | 2015-01-07 | 电子科技大学 | 基于独立子空间网络的行为识别方法 |
CN104834747A (zh) * | 2015-05-25 | 2015-08-12 | 中国科学院自动化研究所 | 基于卷积神经网络的短文本分类方法 |
CN106250870A (zh) * | 2016-08-16 | 2016-12-21 | 电子科技大学 | 一种联合局部和全局相似性度量学习的行人再识别方法 |
Non-Patent Citations (2)
Title |
---|
WEI-NING HSU ET.AL: "Recurrent Neural Network Encoder with Attention for Community Question Answering", 《ARXIV:1603.07044V1 [CS.CL]》 * |
王惠锋 等: "基于语义的图象检索方法研究综述", 《计算机工程》 * |
Cited By (69)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108647736A (zh) * | 2018-05-16 | 2018-10-12 | 南京大学 | 一种基于感知损失和匹配注意力机制的图像分类方法 |
CN108647736B (zh) * | 2018-05-16 | 2021-10-12 | 南京大学 | 一种基于感知损失和匹配注意力机制的图像分类方法 |
CN108898639A (zh) * | 2018-05-30 | 2018-11-27 | 湖北工业大学 | 一种图像描述方法及系统 |
CN108875807B (zh) * | 2018-05-31 | 2022-05-27 | 陕西师范大学 | 一种基于多注意力多尺度的图像描述方法 |
CN108875807A (zh) * | 2018-05-31 | 2018-11-23 | 陕西师范大学 | 一种基于多注意力多尺度的图像描述方法 |
CN109034044A (zh) * | 2018-06-14 | 2018-12-18 | 天津师范大学 | 一种基于融合卷积神经网络的行人再识别方法 |
CN109034044B (zh) * | 2018-06-14 | 2022-04-05 | 天津师范大学 | 一种基于融合卷积神经网络的行人再识别方法 |
CN108989804A (zh) * | 2018-08-23 | 2018-12-11 | 杭州雄迈集成电路技术有限公司 | 图像的编码方法及装置 |
CN109190619A (zh) * | 2018-08-23 | 2019-01-11 | 重庆大学 | 一种基于目标掩膜的图像描述方法 |
CN108989804B (zh) * | 2018-08-23 | 2021-04-27 | 杭州雄迈集成电路技术股份有限公司 | 图像的编码方法及装置 |
CN109344288A (zh) * | 2018-09-19 | 2019-02-15 | 电子科技大学 | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 |
CN109344288B (zh) * | 2018-09-19 | 2021-09-24 | 电子科技大学 | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 |
CN109344404A (zh) * | 2018-09-21 | 2019-02-15 | 中国科学技术大学 | 情境感知的双重注意力自然语言推理方法 |
CN109508400B (zh) * | 2018-10-09 | 2020-08-28 | 中国科学院自动化研究所 | 图文摘要生成方法 |
CN109508400A (zh) * | 2018-10-09 | 2019-03-22 | 中国科学院自动化研究所 | 图文摘要生成方法 |
CN109409423A (zh) * | 2018-10-15 | 2019-03-01 | 珠海格力电器股份有限公司 | 一种图像识别方法、装置、终端及可读存储介质 |
CN109559576A (zh) * | 2018-11-16 | 2019-04-02 | 中南大学 | 一种儿童伴学机器人及其早教系统自学习方法 |
CN109559576B (zh) * | 2018-11-16 | 2020-07-28 | 中南大学 | 一种儿童伴学机器人及其早教系统自学习方法 |
CN109871736A (zh) * | 2018-11-23 | 2019-06-11 | 腾讯科技(深圳)有限公司 | 自然语言描述信息的生成方法及装置 |
US11868738B2 (en) | 2018-11-23 | 2024-01-09 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for generating natural language description information |
CN109871736B (zh) * | 2018-11-23 | 2023-01-31 | 腾讯科技(深圳)有限公司 | 自然语言描述信息的生成方法及装置 |
CN109344920A (zh) * | 2018-12-14 | 2019-02-15 | 汇纳科技股份有限公司 | 顾客属性预测方法、存储介质、系统及设备 |
CN109344920B (zh) * | 2018-12-14 | 2021-02-02 | 汇纳科技股份有限公司 | 顾客属性预测方法、存储介质、系统及设备 |
CN109726696A (zh) * | 2019-01-03 | 2019-05-07 | 电子科技大学 | 基于推敲注意力机制的图像描述生成系统及方法 |
CN109726696B (zh) * | 2019-01-03 | 2023-04-07 | 电子科技大学 | 基于推敲注意力机制的图像描述生成系统及方法 |
CN109902296A (zh) * | 2019-01-18 | 2019-06-18 | 华为技术有限公司 | 自然语言处理方法、训练方法及数据处理设备 |
CN109816039A (zh) * | 2019-01-31 | 2019-05-28 | 深圳市商汤科技有限公司 | 一种跨模态信息检索方法、装置和存储介质 |
CN109816039B (zh) * | 2019-01-31 | 2021-04-20 | 深圳市商汤科技有限公司 | 一种跨模态信息检索方法、装置和存储介质 |
CN109886269A (zh) * | 2019-02-27 | 2019-06-14 | 南京中设航空科技发展有限公司 | 一种基于注意力机制的交通广告牌识别方法 |
CN109978139B (zh) * | 2019-03-20 | 2021-06-04 | 深圳大学 | 图片自动生成描述的方法、系统、电子装置及存储介质 |
CN109978139A (zh) * | 2019-03-20 | 2019-07-05 | 深圳大学 | 图片自动生成描述的方法、系统、电子装置及存储介质 |
CN110084250B (zh) * | 2019-04-26 | 2024-03-12 | 北京金山数字娱乐科技有限公司 | 一种图像描述的方法及系统 |
CN110084250A (zh) * | 2019-04-26 | 2019-08-02 | 北京金山数字娱乐科技有限公司 | 一种图像描述的方法及系统 |
CN111915339A (zh) * | 2019-05-09 | 2020-11-10 | 阿里巴巴集团控股有限公司 | 数据的处理方法、装置及设备 |
CN110288665B (zh) * | 2019-05-13 | 2021-01-15 | 中国科学院西安光学精密机械研究所 | 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备 |
CN110288665A (zh) * | 2019-05-13 | 2019-09-27 | 中国科学院西安光学精密机械研究所 | 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备 |
CN111160467B (zh) * | 2019-05-31 | 2021-12-10 | 北京理工大学 | 一种基于条件随机场和内部语义注意力的图像描述方法 |
CN111160467A (zh) * | 2019-05-31 | 2020-05-15 | 北京理工大学 | 一种基于条件随机场和内部语义注意力的图像描述方法 |
CN110188779A (zh) * | 2019-06-03 | 2019-08-30 | 中国矿业大学 | 一种图像语义描述的生成方法 |
CN110210499A (zh) * | 2019-06-03 | 2019-09-06 | 中国矿业大学 | 一种图像语义描述的自适应生成系统 |
CN110210499B (zh) * | 2019-06-03 | 2023-10-13 | 中国矿业大学 | 一种图像语义描述的自适应生成系统 |
CN110490946B (zh) * | 2019-07-15 | 2023-07-04 | 同济大学 | 基于跨模态相似度和生成对抗网络的文本生成图像方法 |
CN110490946A (zh) * | 2019-07-15 | 2019-11-22 | 同济大学 | 基于跨模态相似度和生成对抗网络的文本生成图像方法 |
CN110390363A (zh) * | 2019-07-29 | 2019-10-29 | 上海海事大学 | 一种图像描述方法 |
CN110458282B (zh) * | 2019-08-06 | 2022-05-13 | 齐鲁工业大学 | 一种融合多角度多模态的图像描述生成方法及系统 |
CN110458282A (zh) * | 2019-08-06 | 2019-11-15 | 齐鲁工业大学 | 一种融合多角度多模态的图像描述生成方法及系统 |
CN110472642A (zh) * | 2019-08-19 | 2019-11-19 | 齐鲁工业大学 | 基于多级注意力的细粒度图像描述方法及系统 |
CN110490254A (zh) * | 2019-08-20 | 2019-11-22 | 山西潞安环保能源开发股份有限公司五阳煤矿 | 一种基于双重注意力机制层次网络的图像语义生成方法 |
CN110490254B (zh) * | 2019-08-20 | 2023-04-18 | 山西潞安环保能源开发股份有限公司五阳煤矿 | 一种基于双重注意力机制层次网络的图像语义生成方法 |
CN110674850A (zh) * | 2019-09-03 | 2020-01-10 | 武汉大学 | 一种基于注意力机制的图像描述生成方法 |
CN110458247A (zh) * | 2019-09-06 | 2019-11-15 | 北京金山数字娱乐科技有限公司 | 图像识别模型的训练方法及装置、图像识别方法及装置 |
CN110619313B (zh) * | 2019-09-20 | 2023-09-12 | 西安电子科技大学 | 遥感图像判别性描述生成方法 |
CN110619313A (zh) * | 2019-09-20 | 2019-12-27 | 西安电子科技大学 | 遥感图像判别性描述生成方法 |
CN111488739A (zh) * | 2020-03-17 | 2020-08-04 | 天津大学 | 基于多粒度生成图像增强表示的隐式篇章关系识别方法 |
CN111488739B (zh) * | 2020-03-17 | 2023-07-18 | 天津大学 | 基于多粒度生成图像增强表示的隐式篇章关系识别方法 |
CN111444968A (zh) * | 2020-03-30 | 2020-07-24 | 哈尔滨工程大学 | 一种基于注意力融合的图像描述生成方法 |
WO2022041222A1 (en) * | 2020-08-31 | 2022-03-03 | Top Team Technology Development Limited | Process and system for image classification |
CN112466298A (zh) * | 2020-11-24 | 2021-03-09 | 网易(杭州)网络有限公司 | 语音检测方法、装置、电子设备和存储介质 |
CN112466298B (zh) * | 2020-11-24 | 2023-08-11 | 杭州网易智企科技有限公司 | 语音检测方法、装置、电子设备和存储介质 |
CN113158822B (zh) * | 2021-03-29 | 2023-09-29 | 中国科学院深圳先进技术研究院 | 基于跨模态关系推理的眼部检测数据的分类方法及装置 |
CN113158822A (zh) * | 2021-03-29 | 2021-07-23 | 中国科学院深圳先进技术研究院 | 基于跨模态关系推理的眼部检测数据的分类方法及装置 |
CN113158821A (zh) * | 2021-03-29 | 2021-07-23 | 中国科学院深圳先进技术研究院 | 基于多模态的眼部检测数据的处理方法、装置及终端设备 |
WO2022205779A1 (zh) * | 2021-03-29 | 2022-10-06 | 中国科学院深圳先进技术研究院 | 基于多模态的眼部检测数据的处理方法、装置及终端设备 |
CN113158821B (zh) * | 2021-03-29 | 2024-04-12 | 中国科学院深圳先进技术研究院 | 基于多模态的眼部检测数据的处理方法、装置及终端设备 |
CN113673535B (zh) * | 2021-05-24 | 2023-01-10 | 重庆师范大学 | 一种多模态特征融合网络的图像描述生成方法 |
CN113673535A (zh) * | 2021-05-24 | 2021-11-19 | 重庆师范大学 | 一种多模态特征融合网络的图像描述生成方法 |
CN114821271A (zh) * | 2022-05-19 | 2022-07-29 | 平安科技(深圳)有限公司 | 模型训练方法、图像描述生成方法、装置及存储介质 |
CN114821271B (zh) * | 2022-05-19 | 2022-09-16 | 平安科技(深圳)有限公司 | 模型训练方法、图像描述生成方法、装置及存储介质 |
CN115359323A (zh) * | 2022-08-31 | 2022-11-18 | 北京百度网讯科技有限公司 | 图像的文本信息生成方法和深度学习模型的训练方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107918782B (zh) | 2020-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107918782A (zh) | 一种生成描述图像内容的自然语言的方法与系统 | |
CN108984745B (zh) | 一种融合多知识图谱的神经网络文本分类方法 | |
CN110502749B (zh) | 一种基于双层注意力机制与双向gru的文本关系抽取方法 | |
CN108595632B (zh) | 一种融合摘要与主体特征的混合神经网络文本分类方法 | |
CN110516085B (zh) | 基于双向注意力的图像文本互检索方法 | |
CN107239446B (zh) | 一种基于神经网络与注意力机制的情报关系提取方法 | |
CN107943784B (zh) | 基于生成对抗网络的关系抽取方法 | |
CN106529503B (zh) | 一种集成卷积神经网络人脸情感识别方法 | |
CN109472024A (zh) | 一种基于双向循环注意力神经网络的文本分类方法 | |
CN110096711B (zh) | 序列全局关注和局部动态关注的自然语言语义匹配方法 | |
CN109344404B (zh) | 情境感知的双重注意力自然语言推理方法 | |
CN106599933A (zh) | 一种基于联合深度学习模型的文本情感分类方法 | |
CN109189925A (zh) | 基于点互信息的词向量模型和基于cnn的文本分类方法 | |
CN112163426A (zh) | 一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法 | |
CN112949647B (zh) | 三维场景描述方法、装置、电子设备和存储介质 | |
CN109214006B (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN111400494B (zh) | 一种基于GCN-Attention的情感分析方法 | |
Tang et al. | Modelling student behavior using granular large scale action data from a MOOC | |
CN105404865A (zh) | 基于概率态受限玻尔兹曼机级联的人脸检测方法 | |
CN108920446A (zh) | 一种工程文本的处理方法 | |
Puscasiu et al. | Automated image captioning | |
CN109983473A (zh) | 灵活的集成识别和语义处理 | |
Chugunkov et al. | Creation of datasets from open sources | |
Devi et al. | Dive in Deep Learning: Computer Vision, Natural Language Processing, and Signal Processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |