CN112465929A - 一种基于改进图卷积网络的图像生成方法 - Google Patents

一种基于改进图卷积网络的图像生成方法 Download PDF

Info

Publication number
CN112465929A
CN112465929A CN202011493010.5A CN202011493010A CN112465929A CN 112465929 A CN112465929 A CN 112465929A CN 202011493010 A CN202011493010 A CN 202011493010A CN 112465929 A CN112465929 A CN 112465929A
Authority
CN
China
Prior art keywords
layer
target
output
sentence
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011493010.5A
Other languages
English (en)
Other versions
CN112465929B (zh
Inventor
肖志勇
张立
柴志雷
刘登峰
吴秦
陈璟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202011493010.5A priority Critical patent/CN112465929B/zh
Publication of CN112465929A publication Critical patent/CN112465929A/zh
Application granted granted Critical
Publication of CN112465929B publication Critical patent/CN112465929B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/206Drawing of charts or graphs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

一种基于改进图卷积网络的图像生成方法,该方法包括:一,建立输入层,利用预训练好的词向量将句子中的单词映射成一个低维、连续的词向量;二,建立Bi‑LSTM层,通过该层混合语义信息;三,构建目标向量的隐层表示,首先先通过GCN层,在句法上,来混合目标与句子中其他词的信息,再使用注意力机制来计算与目标相关的上下文表示;四,构建MDGCN层,根据依存句法树构建句子的多目标依存图,再根据多目标依存图使用图卷积网络对同一句子的多个目标进行建模;五,建立输出层,用一个全连接层转换维度,再通过softmax函数将其转换为概率表示;六,模型训练,使用交叉熵误差函数和L2权重衰退共同作为损失函数。

Description

一种基于改进图卷积网络的图像生成方法
技术领域
本发明属于图像处理领域,具体而言,是一种基于改进图卷积网络的图像生成方法。
背景技术
计算机视觉包括图像生成、语义分割、目标检测等诸多领域,其中通过自然语言描述引导图像生成一直都是图像生成领域的挑战性任务,近年来,深度学习的出现,促进了自然语言描述引导图像生成的发展,并且已经得到了很大的进展。
现阶段,生成对抗网络(Generative Adversarial Network,GAN)在图像生成领域已经得到广泛应用。由文本描述引导图像生成是近几年的热门研究领域,其主要的任务就是通过一段文本描述生成一张与描述内容相互对应的图片。由文本描述引导图像生成方法主要是利用生成对抗网络的原理来完成图像的生成工作。
起初,Reed等人提出GAN-INT-CLS网络,GAN-INT-CLS是以条件生成对抗网络(Conditional Generative Adversarial Networks,CGAN)为模型主干,将文本描述编码为全局向量作为生成器和鉴别器的约束,GAN-INT-CLS有效地生成了分辨率为64x64的可信赖图像,但是图像缺少生动的对象细节。随后,Zhang等人为了生成高分辨率的图像,提出了分阶段的堆栈生成对抗网络(Stacked Generative Adversarial Networks,StackGAN)模型,StackGAN的训练策略是先通过文本描述生成包含基本形状、颜色的64x64低分辨率图像,再利用生成的低分辨率图像和文本描述修补丢失的细节信息,最后生成256×256高分辨率图像。在后续工作中,Zhang等人提出了端到端的堆栈生成对抗网络(StackGAN-v2),StackGAN-v2将生成对抗网络扩展成树状结构,利用多个生成器和多个鉴别器进行并行训练,稳定地完成不同分辨率(如64x64,128x128,256x256)的图像的生成。继StackGAN-v2之后,Xu等人又在此基础之上提出了注意生成对抗网络(Attentional GenerativeAdversarial Networks,AttnGAN),AttnGAN在StackGAN-v2的基础上增加了注意力机制,着重关注文本描述中的相关单词,并将其编码为单词向量输入到网络模型中,生成器和鉴别器针对最相关的单词向量进行精准优化,有效地生成了256x256高质量图像。然而,AttnGAN在处理多个交互对象的复杂场景时,就会显得十分困难。而后,Johnson等人提出了一种利用场景图生成图像的模型(Sg2im)。Sg2im通过场景图推断出对象以及其关系,将所获得的对象及其关系预测出对象的边界框和分割掩模,得到一个关于文本描述的场景布局,接着将场景布局输入到后续的生成网络中生成相互对应的图像。在复杂场景下,Sg2im生成的图像更能反映文本描述内容。但是结果中存在伪影、对象重叠、对象缺失等问题。
为了进一步解决生成图像中伪影、对象重叠、对象缺失的问题,本发明在从场景图生成图像的网络模型的基础上提出了一种结合场景描述的生成对抗网络模型。该模型引入了布局鉴别器,重点关注场景布局与图像之间的差距,弥合此差距,预测出更真实的场景布局,缓解生成图像中出现伪影、对象缺失的现象。同时引入掩模生成网络对数据集进行预处理,生成对象分割掩模向量,使用对象分割掩模向量作为约束,通过描述文本训练布局预测网络,更精确地预测出各个对象在场景布局具体的位置和大小,改善生成的图像中出现多个对象相互重叠的现象,提高生成图像的质量。
发明内容
本方法为了克服现有方法忽略同一句子中不同目标之间的依存关系的不足,提出了一个基于多目标依存建模的图卷积网络模型。模型首先对输入文本进行语义编码,再通过GCN、attention层得到目标的隐层表示,最后再对多个目标之间的依存建模,得到目标的最终表示。
本发明的技术方案:
一种基于改进图卷积网络的图像生成方法,本方法中的模型总体框架图如图1所示,本方法包含以下步骤:
步骤1:建立输入层
在输入层中,利用预训练好的词向量将句子中的单词映射成一个低维、连续的词向量。具体如下:
模型首先利用预训练好的词向量将一个句子
Figure BDA0002841257190000031
中的每个词
Figure BDA0002841257190000032
映射成一个低维、连续的词向量
Figure BDA0002841257190000033
即对于每个
Figure BDA0002841257190000034
都有向量
Figure BDA0002841257190000035
其中τ+1为目标在句子中的起始位置,m为目标长度,n为句子长度,i为单词在句子中的索引,demb为词向量维度。
步骤2:建立Bi-LSTM层
Bi-LSTM由正向LSTM和反向LSTM组成,将正向LSTM输出和反向LSTM输出进行拼接得到Bi-LSTM层。在步骤1得到句子的词向量表示后,将词向量
Figure BDA0002841257190000036
输入到Bi-LSTM层中混合语义信息,其中:
将正向LSTM输出和反向LSTM输出进行拼接后得到Bi-LSTM层的输出向量组
Figure BDA0002841257190000037
其中,
Figure BDA0002841257190000038
表示Bi-LSTM层的输出向量,dhid为单向LSTM输出维度。
步骤3:构建目标向量的隐层表示
首先通过GCN层,在句法上,来混合目标与句子中其他词的信息。再使用注意力机制来计算与目标相关的上下文表示,最后将GCN层的目标向量池化后与注意力层的输出拼接得到目标向量的隐层表示。
步骤4:构建MDGCN层
首先根据依存句法树构建句子的多目标依存图,在根据多目标依存图生成邻接对称矩阵,再对邻接对称矩阵归一化后,使用图卷积网络对同一句子的多个目标进行建模。
步骤5:建立输出层
用一个全连接层将输出最终表示转换维度,再通过softmax函数将其转换为概率表示,实现如下:
Figure BDA0002841257190000041
其中,pi表示输出的概率表示,
Figure BDA0002841257190000042
表示MDGCN层的输出向量,W,b为输出层可训练的参数。
步骤6:模型训练
模型使用交叉熵误差函数和L2权重衰退共同作为损失函数,实现如下:
Figure BDA0002841257190000043
其中pij为向量pi第j个特征,labelij表示labeli的第j个值,λ是L2权重衰退的超参数,Θ为模型中所有可训练的参数,d是输出层维度。
步骤7:图像生成
利用步骤6训练好的模型进行图像的生成。
作为本发明的进一步限定,所述步骤3中的构建目标向量的隐层表示过程如下:
步骤3-1:建立GCN层
首先构建句子的依存句法树,依存句法树上每一个词都与该词句法上有联系的词相连接,再根据依存句法树构建邻接对称矩阵At,At∈Rn×n,由于每一个词都与它自身相连,所以矩阵At的主对角线值均为1,然后对矩阵At进行归一化,具体为At的每个元素均除以该元素所在行的和,公式如下:
Figure BDA0002841257190000051
其中,
Figure BDA0002841257190000052
表示归一化后的元素,
Figure BDA0002841257190000053
表示需要进行归一化的元素;
由于目标的依存性是由其周边词决定,其本身并不包含依存性,所以将目标置为零向量,方便目标下一步混合在句法上有联系的词的信息,公式如下:
Figure BDA0002841257190000054
给出邻接对称矩阵
Figure BDA0002841257190000055
和Bi-LSTM层的输出隐层表示Hs,得到GCN层输出表示为:
Figure BDA0002841257190000056
其中,
Figure BDA0002841257190000057
为GCN层的输出向量
Figure BDA0002841257190000058
第k个特征,
Figure BDA0002841257190000059
为Bi-LSTM层的输出向量
Figure BDA00028412571900000510
第k个特征,
Figure BDA00028412571900000511
W为权重矩阵,b为偏置项,ReLU为非线形激活函数,GCN层输出最终表示为:
Figure BDA00028412571900000512
步骤3-2:建立注意力层
使用注意力机制来计算与目标相关的上下文表示,给出Hs
Figure BDA00028412571900000513
τ+1≤i≤τ+m作为注意力层的输入,得到目标在句子中的注意力权重βt,再通过softmax函数将βt转化为注意力分数αt,具体实现如下:
Figure BDA00028412571900000514
Figure BDA00028412571900000515
其中,
Figure BDA0002841257190000061
表示Bi-LSTM层的输出向量,然后,通过将注意力分数αt和Bi-LSTM层的输出隐层表示Hs加权求和,得到与目标相关的上下文表示ha,实现如下:
Figure BDA0002841257190000062
步骤3-3:池化与拼接
为了能使结果更为准确,提升目标表示的准确性,本方法充分利用模型中间向量值,将
Figure BDA0002841257190000063
做均值池化处理得到平均后的目标向量hp,再和与目标相关的上下文表示ha拼接,得到目标最终表示hc,具体实现如下:
Figure BDA0002841257190000064
hc=[ha;hp](10)
作为本发明的进一步限定,所述步骤4中的建立MDGCN层的过程如下:
步骤4-1:构建多目标依存图
同一个句子中可能存在多个目标,考虑到目标之间可能存在联系,本方法提出多目标依存图来表示目标之间的关系,通过对目标之间情感依存性的处理,使情感预测更为准确。
多目标依存图由该句的依存句法树转换而来,由于目标通常是由多个词组成的短语,为了选定一个词来代表整个短语,本方法选择将由短语生成的依存句法树中的根节点词,来代表整个短语,多目标依存图中的节点仅保留了依存句法树中的目标的根节点词,图中的边存在权重,其值由依存句法树中相对应点之间的距离决定。
之后再构建多目标依存图的邻接对称矩阵Ag,Ag∈Re×e,其中e为句子中目标的个数,首先给出该句中所有的目标aspecti,i∈[1,e]和句子的依存句法树的邻接对称矩阵At∈Rn×n,然后求出目标的根节点词,最后根据目标的根节点词之间的距离得到Ag
最后再对Ag做归一化处理,根据相近节点其情感更为接近的想法,使权重越小的边占比越大,权重越大的边占比越小,具体实现如下:
Figure BDA0002841257190000071
其中,
Figure BDA0002841257190000072
表示归一化后的矩阵,
Figure BDA0002841257190000073
表示归一化前的矩阵。
步骤4-2:建立MDGCN层
得到多目标依存图后,给出邻接对称矩阵
Figure BDA0002841257190000074
和多个目标的隐层表示
Figure BDA0002841257190000075
1≤i≤e,得到MDGCN层的输出表示,具体公式如下:
Figure BDA0002841257190000076
其中
Figure BDA0002841257190000077
为MDGCN层输出向量
Figure BDA0002841257190000078
第k个特征,
Figure BDA0002841257190000079
为步骤3-3池化与拼接后的向量
Figure BDA00028412571900000710
第k个特征,W为权重矩阵,b为偏置项,ReLU为非线形激活函数,MDGCN层输出最终表示为:
Figure BDA00028412571900000711
本发明采用以上技术方法与现有技术方法相比,具有以下优势:
(1)根据句子的依存句法树,构建多目标依存图来表示目标之间的关系。
(2)提出一个全新的改进图卷积模型来建模同一句中多个目标之间的依存关系。
(3)通过割断多目标依存图中不同权重的边来提高结果准确性。
实验结果表示,本方法相比标准图卷积网络模型结果有显著提高。
附图说明
图1是本发明方法的模型整体框架图。
图2是依存句法树转换为多目标依存图的一个例子。
具体实施方式
为了验证本方法的有效性,在Visual Genome数据集上进行实验,本方法采用IS(Inception score)和FID(Fréchet Inception Distance)为定量评估指标,其中IS评估指标主要是衡量模型生成图像的多样性,IS值越大,生成图像的多样性越好;FID评估指标主要是衡量模型生成图像的质量,FID值越小,生成图像的质量越好。本方法词向量均采用预训练好GloVe词向量,向量维度选取d=300,所有不在词向量字典中的词,均随机初始化[-1,1]间均匀分布的300维词向量。
步骤1:建立MDGCN模型
步骤2:训练MDGCN模型
设定超参数,将训练集输入到MDGCN模型,得到损失函数值,再反向传播得到梯度,通过梯度值更新参数,经过设置的迭代次数的迭代之后,得到训练好的MDGCN模型。
步骤2-1:将训练集中的句子读到内存中,作为embedding层的输入
步骤2-2:设定dropout=0.5,学习率η=0.01,用来控制模型的学习进度
步骤2-3:设定最小化交叉熵误差函数,
Figure BDA0002841257190000081
Figure BDA0002841257190000082
y为训练输出值。
步骤2-4:设定迭代次数epoches,开始迭代训练
步骤2-5:计算训练数据集,在当前迭代次数i下,训练得到模型的损失函数值Eloss
步骤2-6:模型权重参数更新,采用SGD的方式更新,
Figure BDA0002841257190000083
步骤2-7:判断迭代是否结束,若i<epoches,重复步骤2-5到2-6,否则输出训练模型。
步骤3:预测
MDGCN模型完成训练后,将要预测的测试集输入模型,即可得到IS和FID值。数据集Visual Genome在MDGCN模型的IS、FID值及和其他模型的IS、FID对比如表1所示。从表1可以看出,本发明方法的IS和FID值好于其他方法,说明了本发明的有效性。
表1不同方法的结果比较
Figure BDA0002841257190000091
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于改进图卷积网络的图像生成方法,其特征在于,包含以下步骤:
步骤1:建立输入层
在输入层中,利用预训练好的词向量将句子中的单词映射成一个低维、连续的词向量;具体如下:
模型首先利用预训练好的词向量将一个句子
Figure FDA0002841257180000011
中的每个词
Figure FDA0002841257180000012
映射成一个低维、连续的词向量
Figure FDA0002841257180000013
即对于每个
Figure FDA0002841257180000014
都有向量
Figure FDA0002841257180000015
其中τ+1为目标在句子中的起始位置,m为目标长度,n为句子长度,i为单词在句子中的索引,demb为词向量维度;
步骤2:建立Bi-LSTM层
Bi-LSTM由正向LSTM和反向LSTM组成,将正向LSTM输出和反向LSTM输出进行拼接得到Bi-LSTM层;在步骤1得到句子的词向量表示后,将词向量
Figure FDA0002841257180000016
输入到Bi-LSTM层中混合语义信息,其中:
将正向LSTM输出和反向LSTM输出进行拼接后得到Bi-LSTM层的输出向量组
Figure FDA0002841257180000017
其中,
Figure FDA0002841257180000018
表示Bi-LSTM层的输出向量,dhid为单向LSTM输出维度;
步骤3:构建目标向量的隐层表示
首先通过GCN层,在句法上,来混合目标与句子中其他词的信息;再使用注意力机制来计算与目标相关的上下文表示,最后将GCN层的目标向量池化后与注意力层的输出拼接得到目标向量的隐层表示;
步骤4:构建MDGCN层
首先根据依存句法树构建句子的多目标依存图,在根据多目标依存图生成邻接对称矩阵,再对邻接对称矩阵归一化后,使用图卷积网络对同一句子的多个目标进行建模;
步骤5:建立输出层
用一个全连接层将输出最终表示转换维度,再通过softmax函数将其转换为概率表示,实现如下:
Figure FDA0002841257180000021
其中,pi表示输出的概率表示,
Figure FDA0002841257180000022
表示MDGCN层的输出向量,W,b为输出层可训练的参数;
步骤6:模型训练
模型使用交叉熵误差函数和L2权重衰退共同作为损失函数,实现如下:
Figure FDA0002841257180000023
其中pij为向量pi第j个特征,labelij表示labeli的第j个值,λ是L2权重衰退的超参数,Θ为模型中所有可训练的参数,d是输出层维度;
步骤7:图像生成
利用步骤6训练好的模型进行图像的生成。
2.根据权利要求1所述的一种基于改进图卷积网络的图像生成方法,其特征在于,步骤3具体为:
步骤3-1:建立GCN层
首先构建句子的依存句法树,依存句法树上每一个词都与该词句法上有联系的词相连接,再根据依存句法树构建邻接对称矩阵At,At∈Rn×n,由于每一个词都与它自身相连,所以矩阵At的主对角线值均为1,然后对矩阵At进行归一化,具体为At的每个元素均除以该元素所在行的和,公式如下:
Figure FDA0002841257180000031
其中,
Figure FDA0002841257180000032
表示归一化后的元素,
Figure FDA0002841257180000033
表示需要进行归一化的元素;
由于目标的依存性是由其周边词决定,其本身并不包含依存性,所以将目标置为零向量,方便目标下一步混合在句法上有联系的词的信息,公式如下:
Figure FDA0002841257180000034
给出邻接对称矩阵
Figure FDA0002841257180000035
和Bi-LSTM层的输出隐层表示HS,得到GCN层输出表示为:
Figure FDA0002841257180000036
其中,
Figure FDA0002841257180000037
为GCN层的输出向量
Figure FDA0002841257180000038
第k个特征,
Figure FDA0002841257180000039
为Bi-LSTM层的输出向量
Figure FDA00028412571800000310
第k个特征,
Figure FDA00028412571800000311
W为权重矩阵,b为偏置项,ReLU为非线形激活函数,GCN层输出最终表示为:
Figure FDA00028412571800000312
步骤3-2:建立注意力层
使用注意力机制来计算与目标相关的上下文表示,给出Hs
Figure FDA00028412571800000313
τ+1≤i≤τ+m作为注意力层的输入,得到目标在句子中的注意力权重βt,再通过softmax函数将βt转化为注意力分数αt,具体实现如下:
Figure FDA00028412571800000314
Figure FDA00028412571800000315
其中,
Figure FDA00028412571800000316
表示Bi-LSTM层的输出向量,然后,通过将注意力分数αt和Bi-LSTM层的输出隐层表示Hs加权求和,得到与目标相关的上下文表示ha,实现如下:
Figure FDA0002841257180000041
步骤3-3:池化与拼接
利用模型中间向量值,将
Figure FDA0002841257180000042
做均值池化处理得到平均后的目标向量hp,再和与目标相关的上下文表示ha拼接,得到目标最终表示hc,具体实现如下:
Figure FDA0002841257180000043
hc=[ha;hp] (10)。
3.根据权利要求1或2所述的一种基于改进图卷积网络的图像生成方法,其特征在于,所述步骤4中的建立MDGCN层的过程如下:
步骤4-1:构建多目标依存图
选择将由短语生成的依存句法树中的根节点词,来代表整个短语,多目标依存图中的节点仅保留了依存句法树中的目标的根节点词,图中的边存在权重,其值由依存句法树中相对应点之间的距离决定;
之后再构建多目标依存图的邻接对称矩阵Ag,Ag∈Re×e,其中e为句子中目标的个数,首先给出该句中所有的目标aspecti,i∈[1,e]和句子的依存句法树的邻接对称矩阵At∈Rn ×n,然后求出目标的根节点词,最后根据目标的根节点词之间的距离得到Ag
最后再对Ag做归一化处理,根据相近节点其情感更为接近的想法,使权重越小的边占比越大,权重越大的边占比越小,具体实现如下:
Figure FDA0002841257180000044
其中,
Figure FDA0002841257180000051
表示归一化后的矩阵,
Figure FDA0002841257180000052
表示归一化前的矩阵;
步骤4-2:建立MDGCN层
得到多目标依存图后,给出邻接对称矩阵
Figure FDA0002841257180000053
和多个目标的隐层表示
Figure FDA0002841257180000054
1≤i≤e,得到MDGCN层的输出表示,具体公式如下:
Figure FDA0002841257180000055
其中
Figure FDA0002841257180000056
为MDGCN层输出向量
Figure FDA0002841257180000057
第k个特征,
Figure FDA0002841257180000058
为步骤3-3池化与拼接后的向量
Figure FDA0002841257180000059
第k个特征,W为权重矩阵,b为偏置项,ReLU为非线形激活函数,MDGCN层输出最终表示为:
Figure FDA00028412571800000510
CN202011493010.5A 2020-12-17 2020-12-17 一种基于改进图卷积网络的图像生成方法 Active CN112465929B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011493010.5A CN112465929B (zh) 2020-12-17 2020-12-17 一种基于改进图卷积网络的图像生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011493010.5A CN112465929B (zh) 2020-12-17 2020-12-17 一种基于改进图卷积网络的图像生成方法

Publications (2)

Publication Number Publication Date
CN112465929A true CN112465929A (zh) 2021-03-09
CN112465929B CN112465929B (zh) 2024-02-02

Family

ID=74803091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011493010.5A Active CN112465929B (zh) 2020-12-17 2020-12-17 一种基于改进图卷积网络的图像生成方法

Country Status (1)

Country Link
CN (1) CN112465929B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113505240A (zh) * 2021-07-09 2021-10-15 吉林大学 一种基于注意力引导图lstm关系提取方法及装置
CN113869007A (zh) * 2021-10-11 2021-12-31 大连理工大学 一种基于深度学习的文本生成图像学习模型

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111400494A (zh) * 2020-03-16 2020-07-10 江南大学 一种基于GCN-Attention的情感分析方法
US10769374B1 (en) * 2019-04-24 2020-09-08 Honghui CHEN Answer selection method for question answering system and the system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10769374B1 (en) * 2019-04-24 2020-09-08 Honghui CHEN Answer selection method for question answering system and the system
CN111400494A (zh) * 2020-03-16 2020-07-10 江南大学 一种基于GCN-Attention的情感分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PINLONG ZHAO 等: "Modeling sentiment dependencies with graph convolutional networks for aspect-level sentiment classification", 《KNOWLEDGE-BASED SYSTEMS》, pages 1 - 10 *
陈佳伟;韩芳;王直杰;: "基于自注意力门控图卷积网络的特定目标情感分析", 计算机应用, no. 08, pages 2022 - 2026 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113505240A (zh) * 2021-07-09 2021-10-15 吉林大学 一种基于注意力引导图lstm关系提取方法及装置
CN113869007A (zh) * 2021-10-11 2021-12-31 大连理工大学 一种基于深度学习的文本生成图像学习模型
CN113869007B (zh) * 2021-10-11 2024-04-23 大连理工大学 一种基于深度学习的文本生成图像学习方法

Also Published As

Publication number Publication date
CN112465929B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
Anderson et al. Bottom-up and top-down attention for image captioning and visual question answering
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN109948691B (zh) 基于深度残差网络及注意力的图像描述生成方法和装置
CN111291183B (zh) 利用文本分类模型进行分类预测的方法及装置
CN110427989B (zh) 汉字骨架自动合成方法及大规模中文字库自动生成方法
CN109919174A (zh) 一种基于门控级联注意力机制的文字识别方法
CN112115687B (zh) 一种结合知识库中的三元组和实体类型的生成问题方法
CN113343705B (zh) 一种基于文本语义的细节保持图像生成方法及系统
CN110210032A (zh) 文本处理方法及装置
CN110096711A (zh) 序列全局关注和局部动态关注的自然语言语义匹配方法
CN111402365B (zh) 一种基于双向架构对抗生成网络的由文字生成图片的方法
CN113673535B (zh) 一种多模态特征融合网络的图像描述生成方法
CN111966812A (zh) 一种基于动态词向量的自动问答方法和存储介质
CN111444367A (zh) 一种基于全局与局部注意力机制的图像标题生成方法
CN112465929A (zh) 一种基于改进图卷积网络的图像生成方法
CN112017255A (zh) 一种根据食谱生成食物图像的方法
CN111563161B (zh) 一种语句识别方法、语句识别装置及智能设备
CN116912708A (zh) 一种基于深度学习的遥感影像建筑物提取方法
CN113140023A (zh) 一种基于空间注意力的文本到图像生成方法及系统
CN114241191A (zh) 一种基于跨模态自注意力的无候选框指代表达理解方法
CN114821569A (zh) 一种基于注意力机制的场景文本识别方法及系统
Deng et al. A position-aware transformer for image captioning
CN114332565A (zh) 一种基于分布估计的条件生成对抗网络文本生成图像方法
Kumar et al. Region driven remote sensing image captioning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant