CN111695574A - 可生成依存树的图像描述生成方法和装置 - Google Patents

可生成依存树的图像描述生成方法和装置 Download PDF

Info

Publication number
CN111695574A
CN111695574A CN202010433735.9A CN202010433735A CN111695574A CN 111695574 A CN111695574 A CN 111695574A CN 202010433735 A CN202010433735 A CN 202010433735A CN 111695574 A CN111695574 A CN 111695574A
Authority
CN
China
Prior art keywords
node
tree
image
nodes
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010433735.9A
Other languages
English (en)
Inventor
马志明
袁春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen International Graduate School of Tsinghua University
Original Assignee
Shenzhen International Graduate School of Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen International Graduate School of Tsinghua University filed Critical Shenzhen International Graduate School of Tsinghua University
Priority to CN202010433735.9A priority Critical patent/CN111695574A/zh
Publication of CN111695574A publication Critical patent/CN111695574A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Abstract

一种可生成依存树的图像描述生成方法,所述方法包括对图像描述文本的依存树的三叉树进行建模,从输入的图像中提取出图像特征,然后基于所述图像特征生成所述三叉树的根节点,再生成所述根节点的三个孩子节点,以此类推,递归地生成每一个节点的三个孩子节点,由此生成三叉树,再将生成的三叉树转化成图像描述文本的依存树;较佳地,通过注意力模块在生成每个节点时动态地为每个局部图像特征分配权重。本发明中,节点生成的依赖路径较序列模型更短,且在生成过程中可优先生成重要的单词,生成模式与人类更为接近,达到了高于基准模型的表现。

Description

可生成依存树的图像描述生成方法和装置
技术领域
本发明涉及人工智能领域,特别是涉及一种可生成依存树的图像描述生成方法和装置。
背景技术
根据给定的图像自动生成描述该图像内容的自然语言文本是人工智能领域的一个基本任务。现有的基于深度学习的方法将文本当成单词序列来逐一生成,没有考虑到自然语言文本内在的层次结构,仅能生成序列状的文本。
以上背景技术内容的公开仅用于辅助理解本发明的发明构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下,上述背景技术不应当用于评价本申请的新颖性和创造性。
发明内容
本发明的主要目的在于克服上述技术缺陷,提供一种可生成依存树的图像描述生成方法和装置。
为实现上述目的,本发明采用以下技术方案:
一种可生成依存树的图像描述生成方法,所述方法包括对图像描述文本的依存树的三叉树进行建模,从输入的图像中提取出图像特征,然后基于所述图像特征生成所述三叉树的根节点,再生成所述根节点的三个孩子节点,以此类推,递归地生成每一个节点的三个孩子节点,由此生成三叉树,再将生成的三叉树转化成图像描述文本的依存树;优选地,通过注意力模块在生成每个节点时动态地为每个局部图像特征分配权重。
进一步地:
所述建模基于树状解码器,其中采用卷积神经网络CNN提取出图像的全局特征
Figure BDA0002501452400000011
和局部特征
Figure BDA0002501452400000012
k为局部特征的数量,将图像全局特征v0定义为所述三叉树的根节点的父节点,并采用MD-LSTM处理所述三叉树中的所述父节点和三个孩子节点之间的关系。
生成三叉树的方法包括:
设不同节点的孩子节点在给定它们的祖先节点时条件独立,而同一父节点的不同孩子节点相互关联的,根据条件概率
Figure BDA0002501452400000021
其中A(t)和L(t)分别表示节点t的祖先节点和左兄弟节点;对于没有左兄弟节点的节点,其生成仅依靠其父节点;而三叉树的根节点的生成则依靠全局图像特征v0;父节点和左兄弟节点的条件信息用两个固定长度的隐状态向量ha和hl分别表示;节点的隐状态由其父节点和左兄弟节点的输入xa、xl及它们的隐状态ha、hl通过非线性函数f得到
hi=f(ha,hl,xa,xl) (2)
其中i表示节点生成的序号;采用维度为2的MD-LSTM对f进行建模;
每个节点的预测使用其父节点和左兄弟节点的信息,向三叉树中每个节点到其孩子节点之间添加一条有向边,向每个节点到其右兄弟节点之间添加一条有向边,以由此得到的有向图拓扑排序作为节点的生成顺序。
所述拓扑排序通过深度优先搜索DFS或广度优先搜索BFS得到。
所述三叉树的训练过程展开根据如下公式:
Figure BDA0002501452400000022
x-1=Wvv0 (4)
Figure BDA0002501452400000023
xi=WeSi (6)
hi=f(ha(i),hl(i),xa(i),xl(i)) (7)
pi=softmax(Whhi) (8)
其中下标i表示该节点在拓扑排序中的序号,a(i)和l(i)分别表示节点ti的父节点和左兄弟节点的序号;优选地,定义三叉树根节点的父节点的序号为-1,如果ti没有左兄弟节点,定义l(i)=-2;
Figure BDA0002501452400000024
表示ti节点单词的独热向量,v为单词表;
Figure BDA0002501452400000025
Figure BDA0002501452400000026
分别为可学习词嵌入矩阵和图像嵌入矩阵,
Figure BDA0002501452400000027
为可学习矩阵,通过hi预测单词表中每个单词的概率pi,dh为隐状态维度。
使用的损失函数L为每一步的正确单词的负对数似然之和,如下
Figure BDA0002501452400000031
采用维度为2的MD-LSTM对f进行建模,具体包括:
MD-LSTM通过门控函数对节点信息的继承与节点状态的更新,具体方式如下:
i=σ(Wixaxa+Wihaha+Wixlxl+Wihlhl) (10)
o=σ(Woxaxa+Wohaha+Woxlxl+Wohlhl) (11)
g=tanh(Wgxaxa+Wghaha+Wgxlxl+Wghlhl) (12)
fa=σ(Wfxaxa+Wfhaha) (13)
fl=σ(Wfxlxl+Wfhlhl) (14)
c=fa⊙ca+fl⊙cl+i⊙g (15)
h=o⊙c (16)
其中i、o、g分别为输入门、输出门和单元门,ca、cl、ha和hl分别父节点和左兄弟节点的记忆状态和隐状态,fa和fl为对应的遗忘门,⊙表示按元素乘,σ(·)和tanh(·)分别表示非线性函数sigmoid函数和双曲正切函数tanh,W表示可学习矩阵,节点的记忆状态和隐状态分别由两个向量c和h表示。
所述注意力模块通过动态计算不同局部图像特征的权重可以有效地提升模型的表现,在生成节点时,同时考虑其父节点和左兄弟节点的隐状态ha和hl
ej=Watanh(Wavvj+Waaha+Walhl) (17)
αj=softmax(ej+bα) (18)
Figure BDA0002501452400000032
其中W为可学习矩阵,vj表示第j个局部图像特征,αj表示其权重,j=1...k,bα为可学习偏置;
将得到各个局部图像的加权平均值z整合到MD-LSTM中单元门g的更新式(12)当中
g=tanh(Wgxaxa+Wghaha+Wgxlxl+Wghlhl+Wgzz) (20)。
其中,以给定节点生成其三个孩子节点为三叉树的一个生成步骤,在一个生成步骤中,依次生成该节点的左孩子、中孩子和右孩子节点,可通过父节点生成左孩子节点,然后通过父节点和左孩子节点生成中孩子节点,最后再通过父节点和中孩子节点生成右孩子节点;
在生成整棵树时,先通过输入图像的特征生成根节点,然后对根节点执行生成步骤,得到根节点的三个孩子节点,此时这三个孩子节点均为叶子节点,然后递归地对于树中的每个非#EOB#的叶子节点执行所述生成步骤,直到这棵树中所有的叶子节点均为#EOB#节点或节点数量已达到设定的最大值。
优选地,预测当前节点生成每个单词的概率pi,以如下两种采样方式之一从中选择出合适的单词:
贪婪搜索,从预测的pi中选择概率最大的单词;
集束搜索,维持全局集束规模的kg个当前概率最大的候选三叉树,仅对这些候选三叉树进行向后扩展;扩展时对候选树所有非#EOB#叶子节点执行生成步骤,采用序列的集束搜索方式进行,从而得到以该节点为根的局部集束规模kl个概率最大的子树;对于候选树的不同非#EOB#叶子节点的扩展子树,选择不同的组合方式放入备选集合;当所有候选执行都扩展过一轮之后,从备选中再次选择概率最大的前kg个三叉树放入候选集合,进行下一轮扩展。
一种可生成依存树的图像描述生成装置,包括计算机可读存储介质和处理器,所述计算机可读存储介质存储有可执行程序,其特征在于,所述可执行程序由所述处理器执行时,实现所述的图像描述生成方法。
本发明具有如下有益效果:
本发明提出了一种可生成依存树的图像描述生成方法和装置,该方法是一种基于树状解码器的图像描述生成方法(下文简称ITT),可通过给定的图像直接生成描述文本的依存树。ITT对图像描述文本的依存树的三叉树进行建模。ITT首先使用CNN提取出图像的特征,然后基于该图像特征生成三叉树的根节点,由此生成根节点的三个孩子节点,以此类推,递归地生成每一个节点的三个孩子节点。最后再将生成的三叉树转化成依存树。ITT中节点生成的依赖路径较序列模型更短,且在生成过程中可优先生成重要的单词,生成模式与人类更为接近,最终达到了高于基准模型的表现。
本发明的ITT方法相较FK-2K方法在各项指标上都有提升(FC-2K模型采用了和ITT同样的图像特征提取方式,是ITT的基准模型)。除此以外,ITT可以获得比基于CNN的解码器的模型更好的效果。
相较于序列的方法,本发明的ITT生成节点拥有更短的依赖路径。基于序列的方法,每个单词的生成都依赖于前面生成的每一个单词,其依赖路径为句子的长度。而在ITT中,每个节点的生成依赖于其祖先节点和兄弟节点,依赖路径为树的深度,小于句子的长度。因此通过三叉树的方式生成文本的依存树,可有效地缓解序列生成依赖路径过长的问题。
在依存树当中处于深度小的节点往往是句子中比较重要的单词,本发明采用树状解码器的方法在生成描述文本时,可优先生成这些比较重要的单词,完成句子的主干部分,然后丰富文本的细节。这是一个粗粒度到细粒度的过程。
此外,本发明的树状句子的生成过程与人类构建句子的方式更加一致。
附图说明
图1a至图1b是本发明的图像描述生成方法生成的第一个三叉树实例。
图2a至图2b是本发明的图像描述生成方法生成的第二个三叉树实例。
图3a至图3b是本发明的图像描述生成方法生成的第三个三叉树实例。
具体实施方式
以下对本发明的实施方式做详细说明。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。
本发明实施例提供一种可生成依存树的图像描述生成方法,所述方法包括对图像描述文本的依存树的三叉树进行建模,从输入的图像中提取出图像特征,然后基于所述图像特征生成所述三叉树的根节点,再生成所述根节点的三个孩子节点,以此类推,递归地生成每一个节点的三个孩子节点,由此生成三叉树,再将生成的三叉树转化成图像描述文本的依存树;优选地,通过注意力模块在生成每个节点时动态地为每个局部图像特征分配权重。
本发明实施例的图像描述生成方法是一种基于树状解码器的图像描述生成方法(下文简称ITT),可通过给定的图像直接生成描述文本的依存树。已经证明依存树可以转化为与之等价的三叉树,考虑到三叉树的拓扑结构相较于依存树更为固定,ITT对图像描述文本的依存树的三叉树进行建模。ITT首先使用CNN提取出图像的特征,然后基于该图像特征生成三叉树的根节点,由此生成根节点的三个孩子节点,以此类推,递归地生成每一个节点的三个孩子节点。最后再将生成的三叉树转化成依存树。ITT中节点生成的依赖路径较序列模型更短,且在生成过程中可优先生成重要的单词,生成模式与人类更为接近,最终达到了高于基准模型的表现。
具体实施例的基于树状解码器的图像描述生成模型,缩写为ITT,可直接生成描述文本的依存树。ITT首先采用CNN编码器提取出图像的全局特征
Figure BDA0002501452400000061
和局部特征V={v1,...,vk},
Figure BDA0002501452400000062
k为局部特征的数量。将图像全局特征v0定义为三叉树根节点的父节点,采用MD-LSTM处理三叉树中父节点和三个孩子节点之间的关系。与此同时我们还设计了针对树状解码器的注意力模块,在生成每个节点时动态地为每个局部图像特征分配权重。各个模块具体运行方式如下:
图像特征提取
图像特征的提取方式可采用图像描述生成模型惯用的图像提取方法,例如(1)基于卷积神经网络(CNN)编码器:将图像输入至经ImageNet等大型分类任务上预训练的ResNet-101网络中,取最后一层卷积层的输出,将其做平均池化操作后得到的2048维特征作为全局图像特征,将其做自适应平均池化操作后得到的大小固定为14×14×2048的张量按照网格切分,即可得到196个表示不同感受野的局部图像特征。(2)基于检测模型的编码器:利用Faster R-CNN预测出图像中的目标或显著区域的候选框,使用一个交并比(IoU)阈值为每个类别的候选框进行非极大值抑制,然后选定那些概率超过某个阈值的候选框作为输出候选框,取它们的特征作为局部图像特征,将这些局部图像特的均值作为全局图像特征。
三叉树生成方法
对于三叉树的生成,我们假设不同节点的孩子节点在给定它们的祖先节点时条件独立,而同一父节点的不同孩子节点则是相互关联的。这意味者,我们仅凭借其父节点和与其同一个父节点的其他兄弟节点生成该节点,由于T是一棵三叉树,每个节点至多有两个兄弟节点,我们假设生成方式是由左至右依次生成,那么该节点的生成仅依靠其父节点和左兄弟节点。因此我们得到条件概率如下
Figure BDA0002501452400000063
其中A(t)和L(t)分别表示节点t的祖先节点和左兄弟节点。对于那些没有左兄弟节点的节点,如左孩子节点,其生成仅依靠其父节点。而三叉树的根节点的生成则依靠全局图像特征v0。在该建模过程中,父节点和左兄弟节点的条件信息可以用两个固定长度的隐状态向量ha和hl分别表示。节点的隐状态由其父节点和左兄弟节点的输入xa、xl及它们的隐状态ha、hl通过非线性函数f得到
hi=f(ha,hl,xa,xl) (2)
其中i表示节点生成的序号。ITT采用维度为2的MD-LSTM对f进行建模。
根据条件概率p(t|I,A(t),L(t))得知,每个节点的预测需要其父节点和左兄弟节点的信息,ITT向三叉树中每个节点到其孩子节点之间添加一条有向边,向每个节点到其右兄弟节点之间添加一条有向边,以由此得到的有向图拓扑排序作为节点的生成顺序。而拓扑排序可通过深度优先搜索(DFS)或广度优先搜索(BFS)得到。通过这种方式可以确保当一个节点生成时,其父节点和左兄弟节点已经生成。整个训练过程展开如下
Figure BDA0002501452400000071
x-1=Wvv0 (4)
Figure BDA0002501452400000072
xi=WeSi (6)
hi=f(ha(i),hl(i),xa(i),xl(i)) (7)
pi=softmax(Whhi) (8)
其中下标i表示该节点在拓扑排序中的序号,a(i)和l(i)分别表示节点ti的父节点和左兄弟节点的序号。特别地,我们定义三叉树根节点的父节点的序号为-1,如果ti没有左兄弟节点,定义l(i)=-2。
Figure BDA0002501452400000073
表示ti节点单词的独热向量,v为单词表。
Figure BDA0002501452400000074
Figure BDA0002501452400000075
分别为可学习词嵌入矩阵和图像嵌入矩阵,
Figure BDA0002501452400000076
为可学习矩阵,通过hi预测单词表中每个单词的概率pi,dh为隐状态维度。
ITT的损失函数为每一步的正确单词的负对数似然之和,如下如所示
Figure BDA0002501452400000077
由于三叉树中的每一个节点都用一个特殊节点#EOB#表示,而#EOB#表示三叉树当前分支生成过程的结束。因此,上述损失函数某种程度上也涵盖了树的形状的约束。
MD-LSTM
ITT采用维度为2的MD-LSTM对f进行建模。与LSTM相似,MD-LSTM通过各种门控函数对节点信息的继承与节点状态的更新,具体方式如下
i=σ(Wixaxa+Wihaha+Wixlxl+Wihlhl) (10)
o=σ(Woxaxa+Wohaha+Woxlxl+Wohlhl) (11)
g=tanh(Wgxaxa+Wghaha+Wgxlxl+Wghlhl) (12)
fa=σ(Wfxaxa+Wfhaha) (13)
fl=σ(Wfxlxl+Wfhlhl) (14)
c=fa⊙ca+fl⊙cl+i⊙g (15)
h=o⊙c (16)
其中i、o、g分别为输入门、输出门和单元门,ca、cl、ha和hl分别父节点和左兄弟节点的记忆状态和隐状态,fa和fl为对应的遗忘门,⊙表示按元素乘。σ(·)和tanh(·)分别表示非线性函数sigmoid函数和双曲正切函数tanh。W表示可学习矩阵。节点的记忆状态和隐状态分别由两个向量c和h表示。
注意力模块
在ITT模型的基础上,新增注意力模块通过动态计算不同局部图像特征的权重可以有效地提升模型的表现。在生成节点时,同时考虑其父节点和左兄弟节点的隐状态ha和hl
ej=Watanh(Wavvj+Waaha+Walhl) (17)
αj=softmax(ej+bα) (18)
Figure BDA0002501452400000081
其中各种W为可学习矩阵,vj表示第j个局部图像特征,αj表示其权重,j=1...k,bα为可学习偏置,ITT将得到各个局部图像的加权平均值z整合到MD-LSTM中单元门g的更新式(12)当中
g=tanh(Wgxaxa+Wghaha+Wgxlxl+Wghlhl+Wgzz) (20)
推断过程
为方便下文叙述,定义对于给定节点生成其三个孩子节点为三叉树的一个生成步骤。在一个生成过程,ITT依次生成该节点的左孩子、中孩子和右孩子节点,与训练过程一致,可通过父节点生成左孩子节点,然后通过父节点和左孩子生成中孩子,最后再通过父节点和中孩子生成右孩子。在生成整棵树时,先通过输入图像的特征生成根节点,然后对根节点执行生成步骤,得到根节点的三个孩子节点——此时这三个孩子节点均为叶子节点。然后递归地对于树中的每个非#EOE#的叶子节点执行生成步骤,直到这棵树中所有的叶子节点均为#EOB#节点或节点数量已达到设定的最大值。
通过pi可预测当前节点生成每个单词的概率,这里有两种采样方式从中选择出合适的单词:贪婪搜索和集束搜索。贪婪搜索,即从pi中选择概率最大的单词。但是贪婪搜索单步最大化的做法无法保证生成的三叉树的概率是最大的,可通过集束搜索缓解这个问题。集束搜索会维持kg(全局集束规模)个当前概率最大的候选三叉树,仅对这些候选三叉树进行向后扩展。扩展时对候选树所有非#EOB#叶子节点执行生成步骤,由于执行生成步骤的过程中三个孩子节点的生成顺序是固定的,可采用序列的集束搜索方式进行,从而得到以该节点为根的kl(局部集束规模)个概率最大的子树。对于候选树的不同非#EOB#叶子节点的扩展子树,选择不同的组合方式放入备选集合。当所有候选执行都扩展过一轮之后,从备选中再次选择概率最大的前kg个三叉树放入候选集合,进行下一轮扩展。
实验效果
定量效果
下表是ITT在MS-COCO数据集上的各个评价指标的得分以及与其他方法的比较。其中
Figure BDA0002501452400000091
表示该模型对数据集采用了不同的划分方式。所有得分以百分比(%)的形式表示。
Figure BDA0002501452400000101
其中FC-2K模型采用了和ITT同样的图像特征提取方式,是ITT的基准模型。可以看到ITT相较FK-2K在各项指标上都有提升。除此以外,ITT可以获得比基于CNN的解码器的模型更好的效果。
定性效果
ITT的创新点在于可以根据图片内容直接生成描述文本的依存树,而在上述评测过程中,需将生成的三叉树压平成序列文本与参考文本进行相似度计算。这里用生成的三叉树实例说明ITT在MS-COCO测试集上的表现,如图1a至图3b所示。图1a至图1b是本发明的图像描述生成方法生成的第一个三叉树实例,根据图1a的图片生成了英文文字描述“a manflying through the air while riding a skateboard”。图2a至图2b是本发明的图像描述生成方法生成的第二个三叉树实例,根据图2a的图片生成了英文文字描述“a baseballplayer swinging a bat at a ball”。图3a至图3b是本发明的图像描述生成方法生成的第三个三叉树实例,根据图3a的图片生成了英文文字描述“a man sitting on a curbtalking on a cell phone”。
优势分析
相较于序列的方法,ITT生成节点拥有更短的依赖路径。基于序列的方法,每个单词的生成都依赖于前面生成的每一个单词,其依赖路径为句子的长度。而在ITT中,每个节点的生成依赖于其祖先节点和兄弟节点,依赖路径为树的深度,小于句子的长度。因此通过三叉树的方式生成文本的依存树,可有效地缓解序列生成依赖路径过长的问题。
在依存树当中处于深度小的节点往往是句子中比较重要的单词,采用树状解码器的方法在生成描述文本时,可优先生成这些比较重要的单词,完成句子的主干部分,然后丰富文本的细节。这是一个粗粒度到细粒度的过程。
树状句子的生成过程与人类构建句子的方式更加一致。尽管人类是按顺序讲一个句子,但是在添加更具描述性的形容词和副词以生成完成句子之前,他们可能需记住一些关键字,如动词和名词。因此从这个过程来讲,人类是先生成了这些动词和名词再生成描述性单词。
本发明的背景部分可以包含关于本发明的问题或环境的背景信息,而不一定是描述现有技术。因此,在背景技术部分中包含的内容并不是申请人对现有技术的承认。
以上内容是结合具体/优选的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,其还可以对这些已描述的实施方式做出若干替代或变型,而这些替代或变型方式都应当视为属于本发明的保护范围。在本说明书的描述中,参考术语“一种实施例”、“一些实施例”、“优选实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。尽管已经详细描述了本发明的实施例及其优点,但应当理解,在不脱离专利申请的保护范围的情况下,可以在本文中进行各种改变、替换和变更。

Claims (10)

1.一种可生成依存树的图像描述生成方法,其特征在于,所述方法包括对图像描述文本的依存树的三叉树进行建模,从输入的图像中提取出图像特征,然后基于所述图像特征生成所述三叉树的根节点,再生成所述根节点的三个孩子节点,以此类推,递归地生成每一个节点的三个孩子节点,由此生成三叉树,再将生成的三叉树转化成图像描述文本的依存树;优选地,通过注意力模块在生成每个节点时动态地为每个局部图像特征分配权重。
2.如权利要求1所述的图像描述生成方法,其特征在于,所述建模基于树状解码器,其中采用卷积神经网络CNN提取出图像的全局特征
Figure FDA0002501452390000011
和局部特征V={v1,…,vk},
Figure FDA0002501452390000012
k为局部特征的数量,将图像全局特征v0定义为所述三叉树的根节点的父节点,并采用MD-LSTM处理所述三叉树中的所述父节点和三个孩子节点之间的关系。
3.如权利要求1至2任一项所述的图像描述生成方法,其特征在于,生成三叉树的方法包括:
设不同节点的孩子节点在给定它们的祖先节点时条件独立,而同一父节点的不同孩子节点相互关联的,根据条件概率
Figure FDA0002501452390000013
其中A(t)和L(t)分别表示节点t的祖先节点和左兄弟节点;对于没有左兄弟节点的节点,其生成仅依靠其父节点;而三叉树的根节点的生成则依靠全局图像特征v0;父节点和左兄弟节点的条件信息用两个固定长度的隐状态向量ha和hl分别表示;节点的隐状态由其父节点和左兄弟节点的输入xa、xl及它们的隐状态ha、hl通过非线性函数f得到
hi=f(ha,hl,xa,xl) (2)
其中i表示节点生成的序号;采用维度为2的MD-LSTM对f进行建模;
每个节点的预测使用其父节点和左兄弟节点的信息,向三叉树中每个节点到其孩子节点之间添加一条有向边,向每个节点到其右兄弟节点之间添加一条有向边,以由此得到的有向图拓扑排序作为节点的生成顺序。
4.如权利要求3所述的图像描述生成方法,其特征在于,所述拓扑排序通过深度优先搜索DFS或广度优先搜索BFS得到。
5.如权利要求3或4所述的图像描述生成方法,其特征在于,所述三叉树的训练过程展开根据如下公式:
Figure FDA0002501452390000021
x-1=Wvv0 (4)
Figure FDA0002501452390000022
xi=WeSi (6)
hi=f(ha(i),hl(i),xa(i),xl(i)) (7)
pi=softmax(Whhi) (8)
其中下标i表示该节点在拓扑排序中的序号,a(i)和l(i)分别表示节点ti的父节点和左兄弟节点的序号;优选地,定义三叉树根节点的父节点的序号为-1,如果ti没有左兄弟节点,定义l(i)=-2;
Figure FDA0002501452390000023
表示ti节点单词的独热向量,
Figure FDA0002501452390000024
为单词表;
Figure FDA0002501452390000025
Figure FDA0002501452390000026
分别为可学习词嵌入矩阵和图像嵌入矩阵,
Figure FDA0002501452390000027
为可学习矩阵,通过hi预测单词表中每个单词的概率pi,dh为隐状态维度。
6.如权利要求3至5任一项所述的图像描述生成方法,其特征在于,使用的损失函数L为每一步的正确单词的负对数似然之和,如下
Figure FDA0002501452390000028
7.如权利要求3至6任一项所述的图像描述生成方法,其特征在于,采用维度为2的MD-LSTM对f进行建模,具体包括:
MD-LSTM通过门控函数对节点信息的继承与节点状态的更新,具体方式如下:
i=σ(Wixaxa+Wihaha+Wixlxl+Wihlhl) (10)
o=σ(Woxaxa+Wohaha+Woxlxl+Wohlhl) (11)
g=tanh(Wgxaxa+Wghaha+Wgxlxl+Wghlhl) (12)
fa=σ(Wfxaxa+Wfhaha) (13)
fl=σ(Wfxlxl+Wfhlhl) (14)
c=fa⊙ca+fl⊙cl+i⊙g (15)
h=o⊙c (16)
其中i、o、g分别为输入门、输出门和单元门,ca、cl、ha和hl分别父节点和左兄弟节点的记忆状态和隐状态,fa和fl为对应的遗忘门,⊙表示按元素乘,σ(·)和tanh(·)分别表示非线性函数sigmoid函数和双曲正切函数tanh,W表示可学习矩阵,节点的记忆状态和隐状态分别由两个向量c和h表示。
8.如权利要求7所述的图像描述生成方法,其特征在于,所述注意力模块通过动态计算不同局部图像特征的权重可以有效地提升模型的表现,在生成节点时,同时考虑其父节点和左兄弟节点的隐状态ha和hl
ej=Watanh(Wavvj+Waaha+Walhl) (17)
αj=softmax(ej+bα) (18)
Figure FDA0002501452390000031
其中W为可学习矩阵,vj表示第j个局部图像特征,αj表示其权重,j=1...k,bα为可学习偏置;
将得到各个局部图像的加权平均值z整合到MD-LSTM中单元门g的更新式(12)当中
g=tanh(Wgxaxa+Wghaha+Wgxlxl+Wghlhl+Wgzz) (20)。
9.如权利要求1至8任一项所述的图像描述生成方法,其特征在于,以给定节点生成其三个孩子节点为三叉树的一个生成步骤,在一个生成步骤中,依次生成该节点的左孩子、中孩子和右孩子节点,可通过父节点生成左孩子节点,然后通过父节点和左孩子节点生成中孩子节点,最后再通过父节点和中孩子节点生成右孩子节点;
在生成整棵树时,先通过输入图像的特征生成根节点,然后对根节点执行生成步骤,得到根节点的三个孩子节点,此时这三个孩子节点均为叶子节点,然后递归地对于树中的每个非#EOB#的叶子节点执行所述生成步骤,直到这棵树中所有的叶子节点均为#EOB#节点或节点数量已达到设定的最大值;其中,#EOB#表示三叉树当前分支生成过程的结束的节点;
优选地,预测当前节点生成每个单词的概率pi,以如下两种采样方式之一从中选择出合适的单词:
贪婪搜索,从预测的pi中选择概率最大的单词;
集束搜索,维持全局集束规模的kg个当前概率最大的候选三叉树,仅对这些候选三叉树进行向后扩展;扩展时对候选树所有非#EOB#叶子节点执行生成步骤,采用序列的集束搜索方式进行,从而得到以该节点为根的局部集束规模kl个概率最大的子树;对于候选树的不同非#EOB#叶子节点的扩展子树,选择不同的组合方式放入备选集合;当所有候选执行都扩展过一轮之后,从备选中再次选择概率最大的前kg个三叉树放入候选集合,进行下一轮扩展。
10.一种可生成依存树的图像描述生成装置,包括计算机可读存储介质和处理器,所述计算机可读存储介质存储有可执行程序,其特征在于,所述可执行程序由所述处理器执行时,实现如权利要求1至9任一项所述的图像描述生成方法。
CN202010433735.9A 2020-05-21 2020-05-21 可生成依存树的图像描述生成方法和装置 Pending CN111695574A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010433735.9A CN111695574A (zh) 2020-05-21 2020-05-21 可生成依存树的图像描述生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010433735.9A CN111695574A (zh) 2020-05-21 2020-05-21 可生成依存树的图像描述生成方法和装置

Publications (1)

Publication Number Publication Date
CN111695574A true CN111695574A (zh) 2020-09-22

Family

ID=72477123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010433735.9A Pending CN111695574A (zh) 2020-05-21 2020-05-21 可生成依存树的图像描述生成方法和装置

Country Status (1)

Country Link
CN (1) CN111695574A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114821271A (zh) * 2022-05-19 2022-07-29 平安科技(深圳)有限公司 模型训练方法、图像描述生成方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108075959A (zh) * 2016-11-14 2018-05-25 腾讯科技(深圳)有限公司 一种会话消息处理方法和装置
CN108171283A (zh) * 2017-12-31 2018-06-15 厦门大学 一种基于结构化语义嵌入的图像内容自动描述方法
CN109726696A (zh) * 2019-01-03 2019-05-07 电子科技大学 基于推敲注意力机制的图像描述生成系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108075959A (zh) * 2016-11-14 2018-05-25 腾讯科技(深圳)有限公司 一种会话消息处理方法和装置
CN108171283A (zh) * 2017-12-31 2018-06-15 厦门大学 一种基于结构化语义嵌入的图像内容自动描述方法
CN109726696A (zh) * 2019-01-03 2019-05-07 电子科技大学 基于推敲注意力机制的图像描述生成系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHIMING MA: "Image-to-Tree: A Tree-Structured Decoder for Image Captioning", 《IEEE》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114821271A (zh) * 2022-05-19 2022-07-29 平安科技(深圳)有限公司 模型训练方法、图像描述生成方法、装置及存储介质
CN114821271B (zh) * 2022-05-19 2022-09-16 平安科技(深圳)有限公司 模型训练方法、图像描述生成方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN109472024B (zh) 一种基于双向循环注意力神经网络的文本分类方法
CN110377686B (zh) 一种基于深度神经网络模型的地址信息特征抽取方法
CN110188176B (zh) 深度学习神经网络及训练、预测方法、系统、设备、介质
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
Jing et al. Boosted Bayesian network classifiers
CN111666758B (zh) 中文分词方法、训练设备以及计算机可读存储介质
CN111274790B (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN113435211B (zh) 一种结合外部知识的文本隐式情感分析方法
JP6291443B2 (ja) 接続関係推定装置、方法、及びプログラム
JP6738769B2 (ja) 文ペア分類装置、文ペア分類学習装置、方法、及びプログラム
CN112163425A (zh) 基于多特征信息增强的文本实体关系抽取方法
CN110457661B (zh) 自然语言生成方法、装置、设备及存储介质
CN116521882A (zh) 基于知识图谱的领域长文本分类方法及系统
CN114722820A (zh) 基于门控机制和图注意力网络的中文实体关系抽取方法
JP2017076281A (ja) 単語埋込学習装置、テキスト評価装置、方法、及びプログラム
CN113704416A (zh) 词义消歧方法、装置、电子设备及计算机可读存储介质
CN114841140A (zh) 依存分析模型及基于依存分析的中文联合事件抽取方法
CN114327483A (zh) 图张量神经网络模型建立方法及源代码语义识别方法
CN115374270A (zh) 一种基于图神经网络的法律文本摘要生成方法
CN114387537A (zh) 一种基于描述文本的视频问答方法
CN111695574A (zh) 可生成依存树的图像描述生成方法和装置
CN116681810B (zh) 虚拟对象动作生成方法、装置、计算机设备和存储介质
CN113326374A (zh) 基于特征增强的短文本情感分类方法及系统
CN112417170A (zh) 面向不完备知识图谱的关系链接方法
Kurup et al. Evolution of neural text generation: Comparative analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200922

RJ01 Rejection of invention patent application after publication