CN113674374B - 基于生成式对抗网络的中文文本生成图像方法及装置 - Google Patents

基于生成式对抗网络的中文文本生成图像方法及装置 Download PDF

Info

Publication number
CN113674374B
CN113674374B CN202110823480.1A CN202110823480A CN113674374B CN 113674374 B CN113674374 B CN 113674374B CN 202110823480 A CN202110823480 A CN 202110823480A CN 113674374 B CN113674374 B CN 113674374B
Authority
CN
China
Prior art keywords
image
keyword
keywords
characteristic
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110823480.1A
Other languages
English (en)
Other versions
CN113674374A (zh
Inventor
陈志华
徐省华
黄经赢
魏文国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Polytechnic Normal University
Original Assignee
Guangdong Polytechnic Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Polytechnic Normal University filed Critical Guangdong Polytechnic Normal University
Priority to CN202110823480.1A priority Critical patent/CN113674374B/zh
Publication of CN113674374A publication Critical patent/CN113674374A/zh
Application granted granted Critical
Publication of CN113674374B publication Critical patent/CN113674374B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Abstract

本发明申请涉及计算机视觉与自然语言处理技术领域,公开了基于生成式对抗网络的中文文本生成图像方法及装置,该方法及装置从描述图像的中文文本提取背景关键词和特征关键词进行文本语义嵌入表示并提取相应的图像特征,且对表示特征关键词的图像特征矩阵添加注意力机制处理,进而将表示特征关键词的图像特征矩阵和表示背景关键词的图像特征矩阵进行融合并输入到生成式对抗网络中进行训练。本申请能够提高生成式对抗网络模型的训练效率,进一步优化特征区域重要子区域的生成效果,同时不用忽略文本的背景特征,使得生成的图像能够与中文文本更接近。

Description

基于生成式对抗网络的中文文本生成图像方法及装置
技术领域
本发明申请涉及计算机视觉与自然语言处理技术领域,尤其涉及基于生成式对抗网络的中文文本生成图像方法及装置。
背景技术
中文文本生成图像是利用中文文本描述生成照片般真实的图片或是抽象的卡通图片。文本描述生成图像代已成为自然语言处理和计算机视觉社区的活跃研究领域,其应用非常广泛,包括照片编辑和计算机辅助设计。相关技术中基于生成式对抗网络的框架来实现中文文本生成图像。生成式对抗网络模型包含一个生成器和一个判别器。生成器经过优化,可以产生向真实数据分布的样本,从而达到欺骗判别器的目的。训练后的判别器可以将真实数据分布样本与生成器生成的虚假样本分开。生成器和判别器在相互博弈中达到最优,使生成的结果越来越好。
目前的生成式对抗网络模型将整个描述图像的中文文本进行编码得到文本语义嵌入表示,对该文本语义嵌入表示添加条件和噪声向量得到图像特征矩阵,进而输入到生成式对抗网络生成相应的图像。然而这种方式由于需要关注整个描述图像的中文文本的特征,降低了生成式对抗网络模型的训练效率,且不能很好地提高图像生成的效果。
发明内容
本发明申请实施例的目的在于,提供一种基于生成式对抗网络的中文文本生成图像方法及装置,能够提高生成式对抗网络模型的训练效率,进一步优化特征区域重要子区域的生成效果,同时不用忽略文本的背景特征,使得生成的图像能够与中文文本更接近。
为达到上述目的,本发明采用如下技术方案:
本申请第一方面提供了基于生成式对抗网络的中文文本生成图像方法,所述方法包括:
对描述样本图像的中文文本进行关键词识别,若识别到至少一个背景关键词和至少一个特征关键词,对所述背景关键词编码得到第一文本语义嵌入表示,以及对所述特征关键词编码得到第二文本语义嵌入表示;
向所述第一文本语义嵌入表示和所述第二文本语义嵌入表示分别添加条件和噪声向量,获得对应所述第一文本语义嵌入表示的第一图像特征矩阵,以及对应所述第二文本语义嵌入表示的第二图像特征矩阵;
对所述第二图像特征矩阵添加注意力机制,加强图像的重要子区域,削弱图像的非重要子区域,得到优化后的第二图像特征矩阵;
将所述第一图像特征矩阵和优化后的第二图像特征矩阵进行融合,生成第三图像特征矩阵,将所述第三图像特征矩阵输入生成式对抗网络,生成相应的图像;
评估生成的图像与所述样本图像的相似度,优化下一次图像的生成。
根据本申请第一方面的一种能够实现的方式,所述方法还包括:
在对描述样本图像的中文文本进行关键词识别时,若仅识别到特征关键词,根据识别到的特征关键词获取对应的标准背景关键词,将所述标准背景关键词作为所述中文文本的背景关键词。
根据本申请第一方面的一种能够实现的方式,从预置的拓展词语表中获取与识别到的特征关键词对应的标准背景关键词,将所述对应的标准背景关键词作为所述中文文本的背景关键词,其中,所述拓展词语表中每一个标准背景关键词对应多个特征关键词。
根据本申请第一方面的一种能够实现的方式,分两个阶段生成所述相应的图像:
将所述第三图像特征矩阵输入第一层生成式对抗网络中,得到一次优化后的图像特征矩阵,对其进行3x3卷积输出第一分辨率的图像;
将一次优化后的图像特征矩阵输入至第二层生成式对抗网络,得到最终的图像特征矩阵,对其进行3x3卷积输出第二分辨率的图像,所述第二分辨率大于所述第一分辨率。
本申请第二方面提供了基于生成式对抗网络的中文文本生成图像装置,所述装置包括:
识别及编码模块,用于对描述样本图像的中文文本进行关键词识别,若识别到至少一个背景关键词和至少一个特征关键词,对所述背景关键词编码得到第一文本语义嵌入表示,以及对所述特征关键词编码得到第二文本语义嵌入表示;
特征获取模块,用于向所述第一文本语义嵌入表示和所述第二文本语义嵌入表示分别添加条件和噪声向量,获得对应所述第一文本语义嵌入表示的第一图像特征矩阵,以及对应所述第二文本语义嵌入表示的第二图像特征矩阵;
注意力添加模块,用于对所述第二图像特征矩阵添加注意力机制,加强图像的重要子区域,削弱图像的非重要子区域,得到优化后的第二图像特征矩阵;
图像生成模块,用于将所述第一图像特征矩阵和优化后的第二图像特征矩阵进行融合,生成第三图像特征矩阵,将所述第三图像特征矩阵输入生成式对抗网络,生成相应的图像;
优化模块,用于评估生成的图像与所述样本图像的相似度,优化下一次图像的生成。
根据本申请第二方面的一种能够实现的方式,所述装置还包括:
背景关键词获取模块,用于在对描述样本图像的中文文本进行关键词识别时,若仅识别到特征关键词,根据识别到的特征关键词获取对应的标准背景关键词,将所述标准背景关键词作为所述中文文本的背景关键词。
根据本申请第二方面的一种能够实现的方式,所述背景关键词获取模块具体用于:
从预置的拓展词语表中获取与识别到的特征关键词对应的标准背景关键词,将所述对应的标准背景关键词作为所述中文文本的背景关键词,其中,所述拓展词语表中每一个标准背景关键词对应多个特征关键词。
根据本申请第二方面的一种能够实现的方式,所述图像生成模块具体用于分两个阶段生成所述相应的图像,所述图像生成模块包括:
第一生成单元,用于将所述第三图像特征矩阵输入第一层生成式对抗网络中,得到一次优化后的图像特征矩阵,对其进行3x3卷积输出第一分辨率的图像;
第二生成单元,用于将一次优化后的图像特征矩阵输入至第二层生成式对抗网络,得到最终的图像特征矩阵,对其进行3x3卷积输出第二分辨率的图像,所述第二分辨率大于所述第一分辨率。
本申请第三方面实施例提供了一种基于生成式对抗网络的中文文本生成图像装置,该装置包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一项实施例所述的基于生成式对抗网络的中文文本生成图像方法。
本申请第四方面实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被执行时实现如上述任一项实施例所述的基于生成式对抗网络的中文文本生成图像方法。
本申请至少具有以下优点:
能够提高生成式对抗网络模型的训练效率,进一步优化特征区域重要子区域的生成效果,同时不用忽略文本的背景特征,使得生成的图像能够与中文文本更接近。
附图说明
图1是本发明申请提供的基于生成式对抗网络的中文文本生成图像方法的一个优选实施例的流程示意图;
图2是本发明申请提供的基于生成式对抗网络的中文文本生成图像装置的一个优选实施例的结构示意图。
附图标记:
识别及编码模块1、特征获取模块2、注意力添加模块3、图像生成模块4、优化模块5。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1所示为本发明申请提供的基于生成式对抗网络的中文文本生成图像方法的一个优选实施例的流程示意图。
如图1所示,所述方法包括:
S101对描述样本图像的中文文本进行关键词识别,若识别到至少一个背景关键词和至少一个特征关键词,对所述背景关键词编码得到第一文本语义嵌入表示,以及对所述特征关键词编码得到第二文本语义嵌入表示。
其中,该关键词为用于表征图像要点的词语。背景关键词可以指通常在图像的背景部分中表达的那些图像关键词,而特征关键词可以指通常在图像的特征部分中表达的那些图像关键词。例如,对于中文文本“蓝天下一个男孩在上篮”,该背景关键词为“蓝天”,特征关键词为“男孩”和“上篮”。又例如中文文本“海洋上有只海燕”,其背景关键词为“海洋”,特征关键词为“海燕”。
可以通过各种方式从描述样本图像的中文文本中识别背景关键词和特征关键词。例如,可以预先建立关键词参考表,该关键词参考表包括被分类为背景关键词的参考词语集合以及被分类为特征关键词的另一参考词语集合。通过将中文文本中的词语与关键词参考表中的对应参考词语进行匹配,可以确定文本中的词语是背景关键词还是特征关键词。此外,还可以通过训练好的基于机器学习的分类器对背景关键词、特征关键词进行分类。本发明实施例该背景关键词和特征关键词的识别方式不做限定。
S102向所述第一文本语义嵌入表示和所述第二文本语义嵌入表示分别添加条件和噪声向量,获得对应所述第一文本语义嵌入表示的第一图像特征矩阵,以及对应所述第二文本语义嵌入表示的第二图像特征矩阵。
本申请实施例中,添加条件和噪声向量的方式可以是:添加条件形成条件增强,以增强训练数据和避免过度拟合,将条件增强与从标准正态分布采样的噪声向量进行拼接,得到相应的图像特征矩阵。
S103对所述第二图像特征矩阵添加注意力机制,加强图像的重要子区域,削弱图像的非重要子区域,得到优化后的第二图像特征矩阵。
其中,该注意力机制,其中心思想是对多个部分的信息进行区分,为不同部分添加不同程度的注意力,以重视那些需要被重点关注到的信息。在本实施例中,注意力机制例如包括两个方面:决定需要关注输入的哪部分以及分配有限的信息处理资源给重要的部分。对第二图像特征矩阵引入注意力机制可以凸显出第二图像特征矩阵中更关键的图像部分。
S104将所述第一图像特征矩阵和优化后的第二图像特征矩阵进行融合,生成第三图像特征矩阵,将所述第三图像特征矩阵输入生成式对抗网络,生成相应的图像。
在一些实施例中,执行步骤S104时,利用图像特征矩阵在生成式对抗网络中进行计算,分两个阶段逐步生成越来越高分辨率的图像。
该两个阶段具体为:
将所述第三图像特征矩阵输入第一层生成式对抗网络中,得到一次优化后的图像特征矩阵,对其进行3x3卷积输出第一分辨率的图像;
将一次优化后的图像特征矩阵输入至第二层生成式对抗网络,得到最终的图像特征矩阵,对其进行3x3卷积输出第二分辨率的图像,所述第二分辨率大于所述第一分辨率。
其中,所述第一分辨率例如为128*128分辨率。
所述第二分辨率例如为256*256分辨率。
本发明实施例分两个阶段优化所述第三图像特征矩阵,能够提高生成图像的分辨率,进一步提高生成图像的质量。
S105评估生成的图像与所述样本图像的相似度,优化下一次图像的生成。
本申请实施例中,可以通过计算生成的图像与所述样本图像的余弦相似性,用来评估生成的图像与所述样本图像的相似度。
本申请上述实施例区别于现有技术的情况,从描述图像的中文文本提取背景关键词和特征关键词,并分别对背景关键词和特征关键词进行文本语义嵌入表示,进而进行图像特征提取。相对现有对整个描述图像的中文文本进行编码的方式,本申请优化了生成式对抗网络的输入,能够提高生成式对抗网络模型的训练效率;在添加注意力机制时,本申请仅对表示特征关键词的图像特征矩阵添加注意力机制处理,能够进一步优化特征区域重要子区域的生成效果,同时不用忽略文本的背景特征,使得生成的图像能够与中文文本更接近。
在一些实施例中,所述方法还包括:
在对描述样本图像的中文文本进行关键词识别时,若仅识别到特征关键词,根据识别到的特征关键词获取对应的标准背景关键词,将所述标准背景关键词作为所述中文文本的背景关键词。
本申请实施例适用于没有背景关键词的中文文本。通过预置拓展词语表确定该中文文本的背景关键词,从而进一步对确定的背景关键词进行编码以得到第一文本语义嵌入表示。例如中文文本“有艘船在航行”,仅能识别到特征关键词为“船”、“航行”,通过利用上述实施例的方法,可以确定对应该“船”和/或“航行”对应的标准背景关键词为“海洋”,则将“海洋”作为该中文文本的背景关键词。
其中,可以通过各种方式来实现根据识别到的特征关键词获取对应的标准背景关键词。
例如,在一种实施方式中,通过训练好的用于根据特征关键词来预测相关背景关键词的机器学习模型来获取对应的标准背景关键词。
在另一种实施方式中,可以预先建立特征关键词到背景关键词的知识图谱,从而通过知识图谱来获取对应的标准背景关键词。
在又一种实施方式中,可以从预置的拓展词语表中获取与识别到的特征关键词对应的标准背景关键词,将所述对应的标准背景关键词作为所述中文文本的背景关键词,其中,所述拓展词语表中每一个标准背景关键词对应多个特征关键词。
本申请第二方面实施例提供了一种基于生成式对抗网络的中文文本生成图像装置。
图2所示是本发明提供的基于生成式对抗网络的中文文本生成图像装置的一个优选实施例的结构示意图,所述装置能够实现上述任一实施例所述的基于生成式对抗网络的中文文本生成图像方法的全部流程。
如图2所示,该装置包括:
识别及编码模块1,用于对描述样本图像的中文文本进行关键词识别,若识别到至少一个背景关键词和至少一个特征关键词,对所述背景关键词编码得到第一文本语义嵌入表示,以及对所述特征关键词编码得到第二文本语义嵌入表示;
特征获取模块2,用于向所述第一文本语义嵌入表示和所述第二文本语义嵌入表示分别添加条件和噪声向量,获得对应所述第一文本语义嵌入表示的第一图像特征矩阵,以及对应所述第二文本语义嵌入表示的第二图像特征矩阵;
注意力添加模块3,用于对所述第二图像特征矩阵添加注意力机制,加强图像的重要子区域,削弱图像的非重要子区域,得到优化后的第二图像特征矩阵;
图像生成模块4,用于将所述第一图像特征矩阵和优化后的第二图像特征矩阵进行融合,生成第三图像特征矩阵,将所述第三图像特征矩阵输入生成式对抗网络,生成相应的图像;
优化模块5,用于评估生成的图像与所述样本图像的相似度,优化下一次图像的生成。
根据本申请第二方面的一种能够实现的方式,所述装置还包括:
背景关键词获取模块,用于在对描述样本图像的中文文本进行关键词识别时,若仅识别到特征关键词,根据识别到的特征关键词获取对应的标准背景关键词,将所述标准背景关键词作为所述中文文本的背景关键词。
根据本申请第二方面的一种能够实现的方式,所述背景关键词获取模块具体用于:
从预置的拓展词语表中获取与识别到的特征关键词对应的标准背景关键词,将所述对应的标准背景关键词作为所述中文文本的背景关键词,其中,所述拓展词语表中每一个标准背景关键词对应多个特征关键词。
根据本申请第二方面的一种能够实现的方式,所述图像生成模块具体用于分两个阶段生成所述相应的图像,所述图像生成模块包括:
第一生成单元,用于将所述第三图像特征矩阵输入第一层生成式对抗网络中,得到一次优化后的图像特征矩阵,对其进行3x3卷积输出第一分辨率的图像;
第二生成单元,用于将一次优化后的图像特征矩阵输入至第二层生成式对抗网络,得到最终的图像特征矩阵,对其进行3x3卷积输出第二分辨率的图像,所述第二分辨率大于所述第一分辨率。
本发明装置上述实施例各模块的功能及实现方式与上述基于生成式对抗网络的中文文本生成图像方法的实施例相同,具体解析可以参照上述基于生成式对抗网络的中文文本生成图像方法的实施例,为了避免重复,在此不再赘述。
本申请还提供了一种基于生成式对抗网络的中文文本生成图像装置,该装置包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一项实施例所述的基于生成式对抗网络的中文文本生成图像方法。
本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被执行时实现如上述任一项实施例所述的基于生成式对抗网络的中文文本生成图像方法。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述基于生成式对抗网络的中文文本生成图像装置的控制中心,利用各种接口和线路连接整个基于生成式对抗网络的中文文本生成图像装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述基于生成式对抗网络的中文文本生成图像装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作装置、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述基于生成式对抗网络的中文文本生成图像装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
以上所述是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本申请的保护范围。

Claims (10)

1.一种基于生成式对抗网络的中文文本生成图像方法,其特征在于,所述方法包括:
对描述样本图像的中文文本进行关键词识别,若识别到至少一个背景关键词和至少一个特征关键词,对所述背景关键词编码得到第一文本语义嵌入表示,以及对所述特征关键词编码得到第二文本语义嵌入表示;
向所述第一文本语义嵌入表示和所述第二文本语义嵌入表示分别添加条件和噪声向量,获得对应所述第一文本语义嵌入表示的第一图像特征矩阵,以及对应所述第二文本语义嵌入表示的第二图像特征矩阵;
对所述第二图像特征矩阵添加注意力机制,加强图像的重要子区域,削弱图像的非重要子区域,得到优化后的第二图像特征矩阵;
将所述第一图像特征矩阵和优化后的第二图像特征矩阵进行融合,生成第三图像特征矩阵,将所述第三图像特征矩阵输入生成式对抗网络,生成相应的图像;
评估生成的图像与所述样本图像的相似度,优化下一次图像的生成。
2.根据权利要求1所述的一种基于生成式对抗网络的中文文本生成图像方法,其特征在于,所述方法还包括:
在对描述样本图像的中文文本进行关键词识别时,若仅识别到特征关键词,根据识别到的特征关键词获取对应的标准背景关键词,将所述标准背景关键词作为所述中文文本的背景关键词。
3.根据权利要求2所述的一种基于生成式对抗网络的中文文本生成图像方法,其特征在于:
从预置的拓展词语表中获取与识别到的特征关键词对应的标准背景关键词,将所述对应的标准背景关键词作为所述中文文本的背景关键词,其中,所述拓展词语表中每一个标准背景关键词对应多个特征关键词。
4.根据权利要求1所述的一种基于生成式对抗网络的中文文本生成图像方法,其特征在于,分两个阶段生成所述相应的图像:
将所述第三图像特征矩阵输入第一层生成式对抗网络中,得到一次优化后的图像特征矩阵,对其进行3x3卷积输出第一分辨率的图像;
将一次优化后的图像特征矩阵输入至第二层生成式对抗网络,得到最终的图像特征矩阵,对其进行3x3卷积输出第二分辨率的图像,所述第二分辨率大于所述第一分辨率。
5.一种基于生成式对抗网络的中文文本生成图像装置,其特征在于,所述装置包括:
识别及编码模块,用于对描述样本图像的中文文本进行关键词识别,若识别到至少一个背景关键词和至少一个特征关键词,对所述背景关键词编码得到第一文本语义嵌入表示,以及对所述特征关键词编码得到第二文本语义嵌入表示;
特征获取模块,用于向所述第一文本语义嵌入表示和所述第二文本语义嵌入表示分别添加条件和噪声向量,获得对应所述第一文本语义嵌入表示的第一图像特征矩阵,以及对应所述第二文本语义嵌入表示的第二图像特征矩阵;
注意力添加模块,用于对所述第二图像特征矩阵添加注意力机制,加强图像的重要子区域,削弱图像的非重要子区域,得到优化后的第二图像特征矩阵;
图像生成模块,用于将所述第一图像特征矩阵和优化后的第二图像特征矩阵进行融合,生成第三图像特征矩阵,将所述第三图像特征矩阵输入生成式对抗网络,生成相应的图像;
优化模块,用于评估生成的图像与所述样本图像的相似度,优化下一次图像的生成。
6.根据权利要求5所述的一种基于生成式对抗网络的中文文本生成图像装置,其特征在于,所述装置还包括:
背景关键词获取模块,用于在对描述样本图像的中文文本进行关键词识别时,若仅识别到特征关键词,根据识别到的特征关键词获取对应的标准背景关键词,将所述标准背景关键词作为所述中文文本的背景关键词。
7.根据权利要求6所述的一种基于生成式对抗网络的中文文本生成图像装置,其特征在于,所述背景关键词获取模块具体用于:
从预置的拓展词语表中获取与识别到的特征关键词对应的标准背景关键词,将所述对应的标准背景关键词作为所述中文文本的背景关键词,其中,所述拓展词语表中每一个标准背景关键词对应多个特征关键词。
8.根据权利要求5所述的一种基于生成式对抗网络的中文文本生成图像装置,其特征在于,所述图像生成模块具体用于分两个阶段生成所述相应的图像,所述图像生成模块包括:
第一生成单元,用于将所述第三图像特征矩阵输入第一层生成式对抗网络中,得到一次优化后的图像特征矩阵,对其进行3x3卷积输出第一分辨率的图像;
第二生成单元,用于将一次优化后的图像特征矩阵输入至第二层生成式对抗网络,得到最终的图像特征矩阵,对其进行3x3卷积输出第二分辨率的图像,所述第二分辨率大于所述第一分辨率。
9.一种基于生成式对抗网络的中文文本生成图像装置,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-4任一项所述的一种基于生成式对抗网络的中文文本生成图像方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被执行时实现如权利要求1-4任一项所述的一种基于生成式对抗网络的中文文本生成图像方法。
CN202110823480.1A 2021-07-20 2021-07-20 基于生成式对抗网络的中文文本生成图像方法及装置 Active CN113674374B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110823480.1A CN113674374B (zh) 2021-07-20 2021-07-20 基于生成式对抗网络的中文文本生成图像方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110823480.1A CN113674374B (zh) 2021-07-20 2021-07-20 基于生成式对抗网络的中文文本生成图像方法及装置

Publications (2)

Publication Number Publication Date
CN113674374A CN113674374A (zh) 2021-11-19
CN113674374B true CN113674374B (zh) 2022-07-01

Family

ID=78539736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110823480.1A Active CN113674374B (zh) 2021-07-20 2021-07-20 基于生成式对抗网络的中文文本生成图像方法及装置

Country Status (1)

Country Link
CN (1) CN113674374B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114648681B (zh) * 2022-05-20 2022-10-28 浪潮电子信息产业股份有限公司 一种图像生成方法、装置、设备及介质
CN117197658A (zh) * 2023-08-08 2023-12-08 北京科技大学 基于多情境生成图像的建筑火灾多目标检测方法与系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111260740A (zh) * 2020-01-16 2020-06-09 华南理工大学 一种基于生成对抗网络的文本到图像生成方法
WO2021075705A1 (ko) * 2019-10-18 2021-04-22 삼성전자주식회사 전자 장치 및 그의 제어 방법
CN112752121A (zh) * 2020-05-26 2021-05-04 腾讯科技(深圳)有限公司 一种视频封面生成方法及装置
CN113076441A (zh) * 2020-01-06 2021-07-06 北京三星通信技术研究有限公司 关键词抽取方法、装置、电子设备及计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021075705A1 (ko) * 2019-10-18 2021-04-22 삼성전자주식회사 전자 장치 및 그의 제어 방법
CN113076441A (zh) * 2020-01-06 2021-07-06 北京三星通信技术研究有限公司 关键词抽取方法、装置、电子设备及计算机可读存储介质
CN111260740A (zh) * 2020-01-16 2020-06-09 华南理工大学 一种基于生成对抗网络的文本到图像生成方法
CN112752121A (zh) * 2020-05-26 2021-05-04 腾讯科技(深圳)有限公司 一种视频封面生成方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于自注意力机制的文本图像生成对抗网络;黄宏宇等;《重庆大学学报》;20200315(第03期);全文 *
结合Web背景知识的图像语义标注;陈世亮等;《计算机工程与应用》;20111024(第04期);全文 *

Also Published As

Publication number Publication date
CN113674374A (zh) 2021-11-19

Similar Documents

Publication Publication Date Title
US7734092B2 (en) Multiple image input for optical character recognition processing systems and methods
CN113674374B (zh) 基于生成式对抗网络的中文文本生成图像方法及装置
CN110188829B (zh) 神经网络的训练方法、目标识别的方法及相关产品
CN110321562B (zh) 一种基于bert的短文本匹配方法及装置
CN111932577B (zh) 文本检测方法、电子设备及计算机可读介质
CN115359219B (zh) 虚拟世界的虚拟形象处理方法及装置
CN113570030A (zh) 数据处理方法、装置、设备以及存储介质
JP2003030672A (ja) 帳票認識装置、方法、プログラムおよび記憶媒体
CN114596566A (zh) 文本识别方法及相关装置
CN114581710A (zh) 图像识别方法、装置、设备、可读存储介质及程序产品
CN114091551A (zh) 色情图像识别方法、装置、电子设备及存储介质
CN113887169A (zh) 文本处理方法、电子设备、计算机存储介质及程序产品
CN117218346A (zh) 图像生成方法、装置、计算机可读存储介质及计算机设备
CN117349402A (zh) 一种基于机器阅读理解的情绪原因对识别方法及系统
CN116612416A (zh) 一种指代视频目标分割方法、装置、设备及可读存储介质
KR20200134813A (ko) 기계 학습을 위한 이미지 처리 장치 및 방법
CN115713632A (zh) 一种基于多尺度注意力机制的特征提取方法及装置
CN115272660A (zh) 一种基于双流神经网络的唇语识别方法及系统
CN114972775A (zh) 特征处理方法、装置、产品、介质及设备
US11288534B2 (en) Apparatus and method for image processing for machine learning
Levin et al. A Study on the Application of Using Hypernetwork and Low Rank Adaptation for Text-to-Image Generation Based on Diffusion Models
CN117235605B (zh) 一种基于多模态注意力融合的敏感信息分类方法及装置
CN116630480B (zh) 一种交互式文本驱动图像编辑的方法、装置和电子设备
CN117437684B (zh) 一种基于修正注意力的图像识别方法和装置
CN117408259B (zh) 一种信息提取方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant