CN112465929A - 一种基于改进图卷积网络的图像生成方法 - Google Patents
一种基于改进图卷积网络的图像生成方法 Download PDFInfo
- Publication number
- CN112465929A CN112465929A CN202011493010.5A CN202011493010A CN112465929A CN 112465929 A CN112465929 A CN 112465929A CN 202011493010 A CN202011493010 A CN 202011493010A CN 112465929 A CN112465929 A CN 112465929A
- Authority
- CN
- China
- Prior art keywords
- layer
- target
- output
- sentence
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000013598 vector Substances 0.000 claims abstract description 60
- 238000012549 training Methods 0.000 claims abstract description 15
- 230000007246 mechanism Effects 0.000 claims abstract description 6
- 238000013507 mapping Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 28
- 239000000126 substance Substances 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 230000008451 emotion Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000002093 peripheral effect Effects 0.000 claims description 2
- 239000004576 sand Substances 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 8
- 230000011218 segmentation Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 235000014676 Phragmites communis Nutrition 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/20—Drawing from basic elements, e.g. lines or circles
- G06T11/206—Drawing of charts or graphs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
一种基于改进图卷积网络的图像生成方法,该方法包括:一,建立输入层,利用预训练好的词向量将句子中的单词映射成一个低维、连续的词向量;二,建立Bi‑LSTM层,通过该层混合语义信息;三,构建目标向量的隐层表示,首先先通过GCN层,在句法上,来混合目标与句子中其他词的信息,再使用注意力机制来计算与目标相关的上下文表示;四,构建MDGCN层,根据依存句法树构建句子的多目标依存图,再根据多目标依存图使用图卷积网络对同一句子的多个目标进行建模;五,建立输出层,用一个全连接层转换维度,再通过softmax函数将其转换为概率表示;六,模型训练,使用交叉熵误差函数和L2权重衰退共同作为损失函数。
Description
技术领域
本发明属于图像处理领域,具体而言,是一种基于改进图卷积网络的图像生成方法。
背景技术
计算机视觉包括图像生成、语义分割、目标检测等诸多领域,其中通过自然语言描述引导图像生成一直都是图像生成领域的挑战性任务,近年来,深度学习的出现,促进了自然语言描述引导图像生成的发展,并且已经得到了很大的进展。
现阶段,生成对抗网络(Generative Adversarial Network,GAN)在图像生成领域已经得到广泛应用。由文本描述引导图像生成是近几年的热门研究领域,其主要的任务就是通过一段文本描述生成一张与描述内容相互对应的图片。由文本描述引导图像生成方法主要是利用生成对抗网络的原理来完成图像的生成工作。
起初,Reed等人提出GAN-INT-CLS网络,GAN-INT-CLS是以条件生成对抗网络(Conditional Generative Adversarial Networks,CGAN)为模型主干,将文本描述编码为全局向量作为生成器和鉴别器的约束,GAN-INT-CLS有效地生成了分辨率为64x64的可信赖图像,但是图像缺少生动的对象细节。随后,Zhang等人为了生成高分辨率的图像,提出了分阶段的堆栈生成对抗网络(Stacked Generative Adversarial Networks,StackGAN)模型,StackGAN的训练策略是先通过文本描述生成包含基本形状、颜色的64x64低分辨率图像,再利用生成的低分辨率图像和文本描述修补丢失的细节信息,最后生成256×256高分辨率图像。在后续工作中,Zhang等人提出了端到端的堆栈生成对抗网络(StackGAN-v2),StackGAN-v2将生成对抗网络扩展成树状结构,利用多个生成器和多个鉴别器进行并行训练,稳定地完成不同分辨率(如64x64,128x128,256x256)的图像的生成。继StackGAN-v2之后,Xu等人又在此基础之上提出了注意生成对抗网络(Attentional GenerativeAdversarial Networks,AttnGAN),AttnGAN在StackGAN-v2的基础上增加了注意力机制,着重关注文本描述中的相关单词,并将其编码为单词向量输入到网络模型中,生成器和鉴别器针对最相关的单词向量进行精准优化,有效地生成了256x256高质量图像。然而,AttnGAN在处理多个交互对象的复杂场景时,就会显得十分困难。而后,Johnson等人提出了一种利用场景图生成图像的模型(Sg2im)。Sg2im通过场景图推断出对象以及其关系,将所获得的对象及其关系预测出对象的边界框和分割掩模,得到一个关于文本描述的场景布局,接着将场景布局输入到后续的生成网络中生成相互对应的图像。在复杂场景下,Sg2im生成的图像更能反映文本描述内容。但是结果中存在伪影、对象重叠、对象缺失等问题。
为了进一步解决生成图像中伪影、对象重叠、对象缺失的问题,本发明在从场景图生成图像的网络模型的基础上提出了一种结合场景描述的生成对抗网络模型。该模型引入了布局鉴别器,重点关注场景布局与图像之间的差距,弥合此差距,预测出更真实的场景布局,缓解生成图像中出现伪影、对象缺失的现象。同时引入掩模生成网络对数据集进行预处理,生成对象分割掩模向量,使用对象分割掩模向量作为约束,通过描述文本训练布局预测网络,更精确地预测出各个对象在场景布局具体的位置和大小,改善生成的图像中出现多个对象相互重叠的现象,提高生成图像的质量。
发明内容
本方法为了克服现有方法忽略同一句子中不同目标之间的依存关系的不足,提出了一个基于多目标依存建模的图卷积网络模型。模型首先对输入文本进行语义编码,再通过GCN、attention层得到目标的隐层表示,最后再对多个目标之间的依存建模,得到目标的最终表示。
本发明的技术方案:
一种基于改进图卷积网络的图像生成方法,本方法中的模型总体框架图如图1所示,本方法包含以下步骤:
步骤1:建立输入层
在输入层中,利用预训练好的词向量将句子中的单词映射成一个低维、连续的词向量。具体如下:
模型首先利用预训练好的词向量将一个句子中的每个词映射成一个低维、连续的词向量即对于每个都有向量其中τ+1为目标在句子中的起始位置,m为目标长度,n为句子长度,i为单词在句子中的索引,demb为词向量维度。
步骤2:建立Bi-LSTM层
步骤3:构建目标向量的隐层表示
首先通过GCN层,在句法上,来混合目标与句子中其他词的信息。再使用注意力机制来计算与目标相关的上下文表示,最后将GCN层的目标向量池化后与注意力层的输出拼接得到目标向量的隐层表示。
步骤4:构建MDGCN层
首先根据依存句法树构建句子的多目标依存图,在根据多目标依存图生成邻接对称矩阵,再对邻接对称矩阵归一化后,使用图卷积网络对同一句子的多个目标进行建模。
步骤5:建立输出层
用一个全连接层将输出最终表示转换维度,再通过softmax函数将其转换为概率表示,实现如下:
步骤6:模型训练
模型使用交叉熵误差函数和L2权重衰退共同作为损失函数,实现如下:
其中pij为向量pi第j个特征,labelij表示labeli的第j个值,λ是L2权重衰退的超参数,Θ为模型中所有可训练的参数,d是输出层维度。
步骤7:图像生成
利用步骤6训练好的模型进行图像的生成。
作为本发明的进一步限定,所述步骤3中的构建目标向量的隐层表示过程如下:
步骤3-1:建立GCN层
首先构建句子的依存句法树,依存句法树上每一个词都与该词句法上有联系的词相连接,再根据依存句法树构建邻接对称矩阵At,At∈Rn×n,由于每一个词都与它自身相连,所以矩阵At的主对角线值均为1,然后对矩阵At进行归一化,具体为At的每个元素均除以该元素所在行的和,公式如下:
由于目标的依存性是由其周边词决定,其本身并不包含依存性,所以将目标置为零向量,方便目标下一步混合在句法上有联系的词的信息,公式如下:
步骤3-2:建立注意力层
步骤3-3:池化与拼接
hc=[ha;hp](10)
作为本发明的进一步限定,所述步骤4中的建立MDGCN层的过程如下:
步骤4-1:构建多目标依存图
同一个句子中可能存在多个目标,考虑到目标之间可能存在联系,本方法提出多目标依存图来表示目标之间的关系,通过对目标之间情感依存性的处理,使情感预测更为准确。
多目标依存图由该句的依存句法树转换而来,由于目标通常是由多个词组成的短语,为了选定一个词来代表整个短语,本方法选择将由短语生成的依存句法树中的根节点词,来代表整个短语,多目标依存图中的节点仅保留了依存句法树中的目标的根节点词,图中的边存在权重,其值由依存句法树中相对应点之间的距离决定。
之后再构建多目标依存图的邻接对称矩阵Ag,Ag∈Re×e,其中e为句子中目标的个数,首先给出该句中所有的目标aspecti,i∈[1,e]和句子的依存句法树的邻接对称矩阵At∈Rn×n,然后求出目标的根节点词,最后根据目标的根节点词之间的距离得到Ag。
最后再对Ag做归一化处理,根据相近节点其情感更为接近的想法,使权重越小的边占比越大,权重越大的边占比越小,具体实现如下:
步骤4-2:建立MDGCN层
本发明采用以上技术方法与现有技术方法相比,具有以下优势:
(1)根据句子的依存句法树,构建多目标依存图来表示目标之间的关系。
(2)提出一个全新的改进图卷积模型来建模同一句中多个目标之间的依存关系。
(3)通过割断多目标依存图中不同权重的边来提高结果准确性。
实验结果表示,本方法相比标准图卷积网络模型结果有显著提高。
附图说明
图1是本发明方法的模型整体框架图。
图2是依存句法树转换为多目标依存图的一个例子。
具体实施方式
为了验证本方法的有效性,在Visual Genome数据集上进行实验,本方法采用IS(Inception score)和FID(Fréchet Inception Distance)为定量评估指标,其中IS评估指标主要是衡量模型生成图像的多样性,IS值越大,生成图像的多样性越好;FID评估指标主要是衡量模型生成图像的质量,FID值越小,生成图像的质量越好。本方法词向量均采用预训练好GloVe词向量,向量维度选取d=300,所有不在词向量字典中的词,均随机初始化[-1,1]间均匀分布的300维词向量。
步骤1:建立MDGCN模型
步骤2:训练MDGCN模型
设定超参数,将训练集输入到MDGCN模型,得到损失函数值,再反向传播得到梯度,通过梯度值更新参数,经过设置的迭代次数的迭代之后,得到训练好的MDGCN模型。
步骤2-1:将训练集中的句子读到内存中,作为embedding层的输入
步骤2-2:设定dropout=0.5,学习率η=0.01,用来控制模型的学习进度
步骤2-4:设定迭代次数epoches,开始迭代训练
步骤2-5:计算训练数据集,在当前迭代次数i下,训练得到模型的损失函数值Eloss。
步骤2-7:判断迭代是否结束,若i<epoches,重复步骤2-5到2-6,否则输出训练模型。
步骤3:预测
MDGCN模型完成训练后,将要预测的测试集输入模型,即可得到IS和FID值。数据集Visual Genome在MDGCN模型的IS、FID值及和其他模型的IS、FID对比如表1所示。从表1可以看出,本发明方法的IS和FID值好于其他方法,说明了本发明的有效性。
表1不同方法的结果比较
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种基于改进图卷积网络的图像生成方法,其特征在于,包含以下步骤:
步骤1:建立输入层
在输入层中,利用预训练好的词向量将句子中的单词映射成一个低维、连续的词向量;具体如下:
模型首先利用预训练好的词向量将一个句子中的每个词映射成一个低维、连续的词向量即对于每个都有向量其中τ+1为目标在句子中的起始位置,m为目标长度,n为句子长度,i为单词在句子中的索引,demb为词向量维度;
步骤2:建立Bi-LSTM层
步骤3:构建目标向量的隐层表示
首先通过GCN层,在句法上,来混合目标与句子中其他词的信息;再使用注意力机制来计算与目标相关的上下文表示,最后将GCN层的目标向量池化后与注意力层的输出拼接得到目标向量的隐层表示;
步骤4:构建MDGCN层
首先根据依存句法树构建句子的多目标依存图,在根据多目标依存图生成邻接对称矩阵,再对邻接对称矩阵归一化后,使用图卷积网络对同一句子的多个目标进行建模;
步骤5:建立输出层
用一个全连接层将输出最终表示转换维度,再通过softmax函数将其转换为概率表示,实现如下:
步骤6:模型训练
模型使用交叉熵误差函数和L2权重衰退共同作为损失函数,实现如下:
其中pij为向量pi第j个特征,labelij表示labeli的第j个值,λ是L2权重衰退的超参数,Θ为模型中所有可训练的参数,d是输出层维度;
步骤7:图像生成
利用步骤6训练好的模型进行图像的生成。
2.根据权利要求1所述的一种基于改进图卷积网络的图像生成方法,其特征在于,步骤3具体为:
步骤3-1:建立GCN层
首先构建句子的依存句法树,依存句法树上每一个词都与该词句法上有联系的词相连接,再根据依存句法树构建邻接对称矩阵At,At∈Rn×n,由于每一个词都与它自身相连,所以矩阵At的主对角线值均为1,然后对矩阵At进行归一化,具体为At的每个元素均除以该元素所在行的和,公式如下:
由于目标的依存性是由其周边词决定,其本身并不包含依存性,所以将目标置为零向量,方便目标下一步混合在句法上有联系的词的信息,公式如下:
步骤3-2:建立注意力层
步骤3-3:池化与拼接
hc=[ha;hp] (10)。
3.根据权利要求1或2所述的一种基于改进图卷积网络的图像生成方法,其特征在于,所述步骤4中的建立MDGCN层的过程如下:
步骤4-1:构建多目标依存图
选择将由短语生成的依存句法树中的根节点词,来代表整个短语,多目标依存图中的节点仅保留了依存句法树中的目标的根节点词,图中的边存在权重,其值由依存句法树中相对应点之间的距离决定;
之后再构建多目标依存图的邻接对称矩阵Ag,Ag∈Re×e,其中e为句子中目标的个数,首先给出该句中所有的目标aspecti,i∈[1,e]和句子的依存句法树的邻接对称矩阵At∈Rn ×n,然后求出目标的根节点词,最后根据目标的根节点词之间的距离得到Ag;
最后再对Ag做归一化处理,根据相近节点其情感更为接近的想法,使权重越小的边占比越大,权重越大的边占比越小,具体实现如下:
步骤4-2:建立MDGCN层
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011493010.5A CN112465929B (zh) | 2020-12-17 | 2020-12-17 | 一种基于改进图卷积网络的图像生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011493010.5A CN112465929B (zh) | 2020-12-17 | 2020-12-17 | 一种基于改进图卷积网络的图像生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112465929A true CN112465929A (zh) | 2021-03-09 |
CN112465929B CN112465929B (zh) | 2024-02-02 |
Family
ID=74803091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011493010.5A Active CN112465929B (zh) | 2020-12-17 | 2020-12-17 | 一种基于改进图卷积网络的图像生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112465929B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505240A (zh) * | 2021-07-09 | 2021-10-15 | 吉林大学 | 一种基于注意力引导图lstm关系提取方法及装置 |
CN113869007A (zh) * | 2021-10-11 | 2021-12-31 | 大连理工大学 | 一种基于深度学习的文本生成图像学习模型 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111400494A (zh) * | 2020-03-16 | 2020-07-10 | 江南大学 | 一种基于GCN-Attention的情感分析方法 |
US10769374B1 (en) * | 2019-04-24 | 2020-09-08 | Honghui CHEN | Answer selection method for question answering system and the system |
-
2020
- 2020-12-17 CN CN202011493010.5A patent/CN112465929B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10769374B1 (en) * | 2019-04-24 | 2020-09-08 | Honghui CHEN | Answer selection method for question answering system and the system |
CN111400494A (zh) * | 2020-03-16 | 2020-07-10 | 江南大学 | 一种基于GCN-Attention的情感分析方法 |
Non-Patent Citations (2)
Title |
---|
PINLONG ZHAO 等: "Modeling sentiment dependencies with graph convolutional networks for aspect-level sentiment classification", 《KNOWLEDGE-BASED SYSTEMS》, pages 1 - 10 * |
陈佳伟;韩芳;王直杰;: "基于自注意力门控图卷积网络的特定目标情感分析", 计算机应用, no. 08, pages 2022 - 2026 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505240A (zh) * | 2021-07-09 | 2021-10-15 | 吉林大学 | 一种基于注意力引导图lstm关系提取方法及装置 |
CN113869007A (zh) * | 2021-10-11 | 2021-12-31 | 大连理工大学 | 一种基于深度学习的文本生成图像学习模型 |
CN113869007B (zh) * | 2021-10-11 | 2024-04-23 | 大连理工大学 | 一种基于深度学习的文本生成图像学习方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112465929B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Anderson et al. | Bottom-up and top-down attention for image captioning and visual question answering | |
CN110263912B (zh) | 一种基于多目标关联深度推理的图像问答方法 | |
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN109948691B (zh) | 基于深度残差网络及注意力的图像描述生成方法和装置 | |
CN111291183B (zh) | 利用文本分类模型进行分类预测的方法及装置 | |
CN110427989B (zh) | 汉字骨架自动合成方法及大规模中文字库自动生成方法 | |
CN109919174A (zh) | 一种基于门控级联注意力机制的文字识别方法 | |
CN112115687B (zh) | 一种结合知识库中的三元组和实体类型的生成问题方法 | |
CN113343705B (zh) | 一种基于文本语义的细节保持图像生成方法及系统 | |
CN110210032A (zh) | 文本处理方法及装置 | |
CN110096711A (zh) | 序列全局关注和局部动态关注的自然语言语义匹配方法 | |
CN111402365B (zh) | 一种基于双向架构对抗生成网络的由文字生成图片的方法 | |
CN113673535B (zh) | 一种多模态特征融合网络的图像描述生成方法 | |
CN111966812A (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN111444367A (zh) | 一种基于全局与局部注意力机制的图像标题生成方法 | |
CN112465929A (zh) | 一种基于改进图卷积网络的图像生成方法 | |
CN112017255A (zh) | 一种根据食谱生成食物图像的方法 | |
CN111563161B (zh) | 一种语句识别方法、语句识别装置及智能设备 | |
CN116912708A (zh) | 一种基于深度学习的遥感影像建筑物提取方法 | |
CN113140023A (zh) | 一种基于空间注意力的文本到图像生成方法及系统 | |
CN114241191A (zh) | 一种基于跨模态自注意力的无候选框指代表达理解方法 | |
CN114821569A (zh) | 一种基于注意力机制的场景文本识别方法及系统 | |
Deng et al. | A position-aware transformer for image captioning | |
CN114332565A (zh) | 一种基于分布估计的条件生成对抗网络文本生成图像方法 | |
Kumar et al. | Region driven remote sensing image captioning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |