CN112990302A - 基于文本生成图像的模型训练方法、设备和图像生成方法 - Google Patents

基于文本生成图像的模型训练方法、设备和图像生成方法 Download PDF

Info

Publication number
CN112990302A
CN112990302A CN202110266563.5A CN202110266563A CN112990302A CN 112990302 A CN112990302 A CN 112990302A CN 202110266563 A CN202110266563 A CN 202110266563A CN 112990302 A CN112990302 A CN 112990302A
Authority
CN
China
Prior art keywords
image
text
loss function
artificial
training sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110266563.5A
Other languages
English (en)
Other versions
CN112990302B (zh
Inventor
冯方向
牛天睿
王小捷
李睿凡
袁彩霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202110266563.5A priority Critical patent/CN112990302B/zh
Publication of CN112990302A publication Critical patent/CN112990302A/zh
Application granted granted Critical
Publication of CN112990302B publication Critical patent/CN112990302B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation

Abstract

本申请公开了一种基于文本生成图像的模型训练方法、设备和图像生成方法,其中方法包括基于预设训练样本集合中各训练样本的文本信息,生成文本嵌入式表示,将所述文本嵌入式表示输入至图像生成模型,触发图像生成模型基于该文本嵌入式表示,生成人造图像,并采用模态解纠缠方式,提取人造图像的真实度参数和相应训练样本的真实图像的真实度参数;基于所述人造图像,确定所述训练样本的正例和负例;利用所述图像生成模型,基于每个训练样本的正例、负例和真实图像各自对应的所述真实度参数,计算总体损失函数;利用所述总体损失函数,调整所述图像生成模型的参数。采用本申请可以提高模型学习效率和图像生成效果。

Description

基于文本生成图像的模型训练方法、设备和图像生成方法
技术领域
本发明涉及人工智能技术,特别是涉及一种基于文本生成图像的模型训练方法、设备和图像生成方法。
背景技术
图像的创作是一项复杂而重要的工作,它需要专业的绘图与美术知识。因此,面对广泛的需求,机器辅助的图像创作已成为近期的热点,希望机器帮助人用更少的专业知识、更简便快捷的方法创作出所需要的图像。对于无绘画经验者而言,通过语言交互来控制机器绘制图像是最简单自然的方法。这样,就需要机器能够理解并利用人类语言中语义信息,以生成相应的图像。为满足该需求,产生了基于文本生成图像的技术。这类技术需要完成两个基本目标:可信度(fidelity)与一致性(consistency),可信度是指产生的人造图像要与真实图像相似,即看起来逼真;一致性则是指产生的图像能够反映出文本输入信息。
发明人在实现本发明的过程中发现现有基于文本生成图像的方案中存在模型学习效率低、效果差等问题。具体原因分析如下:
由于文本信息无法覆盖图像的所有细节信息,在基于文本生成图像的方案中,对于文本信息中没有限定的图像细节特征,需要随机产生。这样,在基于文本生成图像的场景下,图像信息包括两部分,一部分是模态公共部分与模态特定部分。其中,模态公共部分与文本信息相对应,反映了图像的内容,模态特定部分则是随机产生的,处于不受控制的半随机状态,与图像的内容无关,反映了图像的风格。现有方案在训练图像生成模型时,基于包含模态特定部分的图像特征确定损失函数值。而图文一致性仅与图像的模态公共部分有关,与图像的模态特定部分无关,模态特定部分的存在引入了随机噪声,会干扰模型的学习,从而会导致模型学习效率低、效果差。另外,由于模态特定部分反映了图像风格,该部分不是文本限定的,具有随机性,因此,采用现有基于文本生成图像的方案时,仅能通过改变文本条件来改变所生成图像的内容,而无法有效控制图像的风格,从而导致无法有效控制图像的风格,进而降低了实用性。
发明内容
有鉴于此,本发明的主要目的在于提供一种基于文本生成图像的模型训练方法、设备和图像生成方法,可以提高模型学习效率和图像生成效果。
为了达到上述目的,本发明提出的技术方案为:
一种基于文本生成图像的模型训练方法,包括:
对于预设训练样本集合中的每个训练样本,基于该训练样本的文本信息,生成相应的文本嵌入式表示,并将所述文本嵌入式表示输入至图像生成模型,触发所述图像生成模型基于所述文本嵌入式表示,生成所述文本信息对应的人造图像,并采用模态解纠缠方式,提取所述人造图像的真实度参数和相应训练样本的真实图像的真实度参数;所述真实度参数包括:图像风格的视觉可信度、图-文相似度和图像的整体视觉可信度;
基于所述人造图像,确定每个所述训练样本的正例和负例;
利用所述图像生成模型,基于每个所述训练样本的正例、负例和真实图像各自对应的所述真实度参数,计算相应样本的子损失函数,并基于所述子损失函数,计算相应样本的总体损失函数;所述子损失函数包括内容损失函数、风格损失函数、生成器损失函数和判别器损失函数;所述总体损失函数包括判别器总体损失函数和生成器总体损失函数;
利用所述总体损失函数,调整所述图像生成模型的参数。
基于上述模型训练方法实施例,本发明实施例还公开了一种基于文本生成图像的方法,包括:
基于待生成图像的文本信息,生成相应的文本嵌入式表示;
将所述文本嵌入式表示输入至预训练的图像生成模型处理,得到所述文本信息的人造图像;其中,所述图像生成模型采用如上所述的基于文本生成图像的模型训练方法训练得到。
基于上述模型训练方法实施例,本发明实施例还公开了一种基于文本生成图像的模型训练设备,包括处理器和存储器;
所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如上所述的基于文本生成图像的模型训练方法。
基于上述模型训练方法实施例,本发明实施例还公开了一种计算机可读存储介质,其特征在于,其中存储有计算机可读指令,该计算机可读指令用于执行如上所述的基于文本生成图像的模型训练方法。
由上述技术方案可见,本发明实施例提出的基于文本生成图像的模型训练方法、设备和图像生成方法,在生成人造图像后,采用模态解纠缠方式,提取人造图像和相应真实图像各自的真实度参数。如此,通过模态解纠缠,可以将模态特定部分从人造图像中抽离,从而使得在提取人造图像的真实度参数时,一方面可以仅基于模态公共部分提取图-文相似度,有效避免了与图像内容无关的模态特定部分对图-文相似度的影响,进而可以提高模型学习效率和图像生成效果,另一方面可以单独基于模态特定部分提取出图像风格的视觉可信度,实现对所生成的图像风格的有效控制,进而增加了实用性。
附图说明
图1为本发明实施例的模型训练方法流程示意图;
图2为本发明实施例的基于文本生成图像的方法流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明作进一步地详细描述。
图1为本发明实施例的基于文本生成图像的模型训练方法流程示意图,如图1所示,该实施例实现的模型训练方法主要包括下述步骤:
步骤101、对于预设训练样本集合中的每个训练样本,基于该训练样本的文本信息,生成相应的文本嵌入式表示,并将所述文本嵌入式表示输入至图像生成模型,触发所述图像生成模型基于所述文本嵌入式表示,生成所述文本信息对应的人造图像,并采用模态解纠缠方式,提取所述人造图像的真实度参数和相应训练样本的真实图像的真实度参数。
其中,所述真实度参数包括:图像风格的视觉可信度、图-文相似度和图像的整体视觉可信度。
本步骤中,在基于训练样本的文本信息生成人造图像后,需要采用模态解纠缠方式,提取该人造图像和相应样本的真实图像各自的上述真实度参数。这里,通过模态解纠缠,可以将模态特定部分从人造图像中抽离,如此,在提取人造图像的真实度参数时,一方面可以仅基于模态公共部分提取图-文相似度,从而避免模态特定部分对图-文相似度的影响,从而可以提高模型学习效率和图像生成效果,另一方面又可以单独基于模态特定部分提取出图像风格的视觉可信度,从而可以有效控制图像风格,增加模型的实用性。
对于所述文本嵌入式表示,本领域技术可以采用现有方法基于文本信息得到,例如,可以利用预训练的深层注意力多模态一致性模型提取得到文本信息的文本嵌入式表示,但不限于此。
在一种实施方式中,具体可以采用下述方法生成所述文本信息对应的人造图像:
步骤a1、将所述文本嵌入式表示,输入至图像生成模型的文本编码器处理,得到所述文本信息的文本特征。
具体的,上述文本编码器可以为单层全连接神经网络,但不限于此。
本步骤所得到的文本特征htc,即文本的模态公共部分表征。
步骤a2、将所述文本特征和训练样本对应的预设噪声样本,输入至所述图像生成模型的生成器处理,得到所述文本信息对应的人造图像。
在一种实施方式中,所述生成器可以由若干个采样与残差层构成,它以步骤a1得到的文本特征htc与预设的噪声样本z为输入,并产生图像
Figure BDA0002972219470000051
即人造图像。本步骤生成器对应的处理公式如下:
h=F(htc,z)
Figure BDA0002972219470000052
在一种实施方式中,步骤101具体可以采用下述方法提取所述人造图像的真实度参数和相应训练样本的真实图像的真实度参数:
步骤b1、利用所述图像生成模型的图像编码器,从所述人造图像中提取出模态公共表征和模态特定表征,以及从所述训练样本的真实图像中提取出模态公共表征和模态特定表征。
本步骤中,图像编码器EI以人造图像
Figure BDA0002972219470000053
或者真实图像x为输入,并提取模态解纠缠的图像特征:
Figure BDA0002972219470000054
(hic,his)=EI(x)
上式中,hsc与hss分别代表人造图像的模态公共表征与模态特定表征;hic与his分别代表真实图像的模态公共表征与模态特定表征。
步骤b2、基于所述人造图像的模态公共表征和模态特定表征、所述真实图像的模态公共表征和模态特定表征,利用所述图像生成模型的判别器,提取所述人造图像和所述真实图像的真实度参数。
具体地,与上述三种真实度参数相对应,图像生成模型的判别器将包括三部分,即模态特定判别器、模态公共判别器和整体视觉可信度。
在一种实施方式中,具体可以采用下述方法对上述真实度参数进行提取:
按照
Figure BDA0002972219470000061
提取所述人造图像的图像风格的视觉可信度;其中,hss为所述人造图像的模态特定表征;Ds为所述图像生成模型的模态特定判别器;
Figure BDA0002972219470000062
表示所述人造图像的图像风格的视觉可信度。
按照ss(x=Ds(his),提取所述真实图像的图像风格的视觉可信度;其中,his为所述真实图像的模态特定表征;ss(x)表示所述真实图像的图像风格的视觉可信度。
按照
Figure BDA0002972219470000063
提取所述人造图像的图-文相似度;其中,htc为所述文本信息的文本特征;hsc为所述人造图像的模态公共表征;Dc为所述图像生成模型的模态公共判别器;
Figure BDA0002972219470000064
表示所述人造图像的图-文相似度。
按照sc(x=Dc(htc,hic),提取所述真实图像的图-文相似度;其中,hic为所述真实图像的模态公共表征;sc(x)表示所述真实图像的图-文相似度。
按照
Figure BDA0002972219470000065
提取所述人造图像的整体视觉可信度;其中,Di为所述图像生成模型的整体视觉判别器;
Figure BDA0002972219470000066
表示所述人造图像的整体视觉可信度。
按照si(x)=Di(hic,his),提取所述真实图像的整体视觉可信度;其中,si(x)表示所述真实图像的整体视觉可信度。
在上述方法中,考虑到图像风格的视觉可信度ss只与图像的特定部分表征有关,因此,仅以图像特定部分表征hss与his为输入;图-文相似度sc仅与图像、文本的模态公共部分表征有关,因此,仅以htc、hsc与htc,hic为输入;整体视觉可信度si与模态公共部分表征、特定部分表征均相关,因此,需要同时以二者为输入。
步骤102、基于所述人造图像,确定所述训练样本的正例和负例。
本步骤中,将基于训练样本集合得到的所有人造图像,确定集合中每个训练样本的正例和负例,以便在后续步骤中基于各样本的正例和负例的真实度参数进一步计算各训练样本对应的损失函数。
对于一个训练样本i而言,正例是基于训练样本i生成的人造图像,负例,是基于训练样本集合中除练样本i之外的其他训练样本生成的人造图像。
在一种实施方式中,具体可以采用下述方法确定每个所述训练样本的正例和负例:
对于每个所述训练样本,将该训练样本对应的所述人造图像作为该训练样本的正例,从基于非该练样本对应的所述人造图像中,选择一个图像作为该训练样本的负例。
上述方法中可以采用随机选择的方式,选择负例。为便于操作,也可以采用错位选择的方式选择负例,即对于一个训练样本,将其下一相邻训练样本的人造图像作为该训练样本的负例,但不限于此。
步骤103、利用所述图像生成模型,基于每个所述训练样本的正例、负例和真实图像各自对应的所述真实度参数,计算相应样本的子损失函数,并基于所述子损失函数,计算相应样本的总体损失函数。
其中,所述子损失函数包括内容损失函数、风格损失函数、生成器损失函数和判别器损失函数;所述总体损失函数包括判别器总体损失函数和生成器总体损失函数。
本步骤中,为了提高后续基于损失函数对模型参数调整的准确性,将分别计算内容损失函数(Content Loss)与风格损失函数(Style Loss),以避免模态特定部分对模型训练的影响,同时实现对图像风格的控制。
在一种实施方式中,具体可以采用下述方法计算相应训练样本的各子损失函数:
1、按照
Figure BDA0002972219470000081
计算内容损失函数值
Figure BDA0002972219470000082
其中,
Figure BDA0002972219470000083
表示三元组损失函数,htc为锚点,表示训练样本的文本信息的文本特征;hsc为正例,表示训练样本对应的人造图像的模态公共表征;
Figure BDA0002972219470000084
为负例,表示训练样本的负例的模态公共表征。
上述计算内容损失函数值的方法中,内容损失函数采用了常用于建模图-文对齐关系的排序目标函数,该三元组损失函数(Triplet Loss)的具体计算公式如下:
Figure BDA0002972219470000085
其中,[q]+=max(0,q),f是相似度评分函数,u为文本表示,作为锚点(anchor),v与v-分别为与文本u相匹配的正例图像表示和与u不匹配的负例图像表示;α为预设的正例图像与文本的相似度与负例图像与文本的相似度的预期差值。f的具体形式为皮尔逊相关系数(Pearson Correlation Coefficient)。
上述方法中,内容损失函数以图、文的模态公共部分表征为输入,意图是最大化相匹配的图、文公共部分表示之间的相似度。以文本描述htc为锚点,作为生成器的输入值;而判别器以两种图像特征为输入,包括从锚点产生的图像特征(hsc,hss)和从其他文本产生的图像特征
Figure BDA0002972219470000086
为了有效区分正例和负例,提高模型训练效率,这里,以“最大化相匹配的图-文对的相关性,同时最小化非匹配图-文对的相关性”为内容损失函数的目标,因此,将内容损失函数设计为:
Figure BDA0002972219470000087
2、按照
Figure BDA0002972219470000088
计算所述风格损失函数
Figure BDA0002972219470000089
其中,z为噪声样本;hss表示训练样本对应的人造图像的模态特定表征;ρ为预设的皮尔逊相关系数。
这里,考虑到生成器的输入分为htc和z两个部分,所生成的人造图像
Figure BDA00029722194700000810
的内容完全由文本特征htc决定,则
Figure BDA00029722194700000811
的风格必然由相应的噪声样本z控制,即噪声z应与图像的特定部分表征hss一致。基于此,风格损失函数的形式为z和hss的关联误差:
Figure BDA00029722194700000812
3、按照
Figure BDA0002972219470000091
计算所述生成器损失函数
Figure BDA0002972219470000092
其中,
Figure BDA0002972219470000093
表示从生成器pG中采样得到的训练样本对应的人造图像
Figure BDA0002972219470000094
表示人造图像
Figure BDA0002972219470000095
的图-文相似度;
Figure BDA0002972219470000096
表示人造图像
Figure BDA00029722194700000920
的图像风格的视觉可信度;
Figure BDA0002972219470000097
表示人造图像
Figure BDA0002972219470000098
的整体视觉可信度。
4、按照
Figure BDA0002972219470000099
计算所述判别器损失函数
Figure BDA00029722194700000910
其中,
Figure BDA00029722194700000911
表示从训练样本集合pdata中得到的训练样本的真实图像x;ss(x)表示真实图像x的图像风格的视觉可信度;sc(x)表示真实图像x的图-文相似度;si(x)表示真实图像x的整体视觉可信度。
在计算上述各损失函数时,使用的特征不再是全局的图像特征,而是解纠缠后的图像特征。上述各损失函数经过线性组合,构成了训练时各训练样本对应的下述总体损失函数:
Figure BDA00029722194700000912
Figure BDA00029722194700000913
其中,
Figure BDA00029722194700000914
为判别器总体损失函数,
Figure BDA00029722194700000915
为生成器总体损失函数,
Figure BDA00029722194700000916
为所述判别器损失函数;
Figure BDA00029722194700000917
为所述内容损失函数;
Figure BDA00029722194700000918
为所述风格损失函数;其中,
Figure BDA00029722194700000919
为所述生成器损失函数。
步骤104、利用所述总体损失函数,调整所述图像生成模型的参数。
本步骤中,将基于各训练样本对应的判别器总体损失函数和生成器总体损失函数,对所述图像生成模型的参数进行调整
具体地,在进行上述调整时,将基于判别器总体损失函数对模型中的图像编码器和判别器进行参数调整;基于生成器总体损失函数对模型中的生成器和文本编码器进行参数调整。
基于上述步骤101~104,即可实现基于一个训练样本集合中训练样本对图像生成模型的训练。在实际应用中,为了提高模型训练的准确性,可以利用多个训练样本集合循环利用上述步骤101~104进行图像生成模型的训练。
从上述模型训练方法实施例可以看出,上述模型训练方法实施例可以在不增加文本生成图像模型的复杂度情况下,通过复用判别器,学习图文模态解纠缠表征,提升了文本生成图像的图像生成质量和图文关联度,增加了对人造图像风格的控制能力。
与上述模型训练方法实施例相对应,本发明实施例还提供了一种基于文本生成图像的方法,如图2所示,包括:
步骤201、基于待生成图像的文本信息,生成相应的文本嵌入式表示。
步骤202、将所述文本嵌入式表示输入至预训练的图像生成模型处理,得到所述文本信息的人造图像。
其中,所述图像生成模型采用如上文所述的模型训练方法训练得到。
由于上述模型训练方法训练在图像生成模型时,通过模态解纠缠,将模态特定部分从人造图像中抽离,有效避免了与图像内容无关的模态特定部分对图-文相似度的影响,提高了模型生成图像的效果。因此,利用基于上述模型训练方法训练得到的图像生成模型,为当前待生成图像的文本信息生成图像,可以保障图像生成质量。
与上述模型训练方法实施例相对应,本发明实施例还提供了一种基于文本生成图像的模型训练设备,包括处理器和存储器;
所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如上文所述的基于文本生成图像的模型训练方法。
其中,存储器具体可以实施为电可擦可编程只读存储器(EEPROM)、快闪存储器(Flash memory)、可编程程序只读存储器(PROM)等多种存储介质。处理器可以实施为包括一或多个中央处理器或一或多个现场可编程门阵列,其中现场可编程门阵列集成一或多个中央处理器核。具体地,中央处理器或中央处理器核可以实施为CPU或MCU。
需要说明的是,上述各流程和各结构图中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分,实际实现时,一个模块可以分由多个模块实现,多个模块的功能也可以由同一个模块实现,这些模块可以位于同一个设备中,也可以位于不同的设备中。
各实施方式中的硬件模块可以以机械方式或电子方式实现。例如,一个硬件模块可以包括专门设计的永久性电路或逻辑器件(如专用处理器,如FPGA或ASIC)用于完成特定的操作。硬件模块也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。至于具体采用机械方式,或是采用专用的永久性电路,或是采用临时配置的电路(如由软件进行配置)来实现硬件模块,可以根据成本和时间上的考虑来决定。
本发明还提供了一种机器可读的存储介质,存储用于使一机器执行如本申请所述方法的指令。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施方式的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。此外,还可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作。还可以将从存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施方式中任一实施方式的功能。
用于提供程序代码的存储介质实施方式包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机或云上下载程序代码。
在本文中,“示意性”表示“充当实例、例子或说明”,不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。为使图面简洁,各图中的只示意性地表示出了与本发明相关部分,而并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”并不表示将本发明相关部分的数量限制为“仅此一个”,并且“一个”不表示排除本发明相关部分的数量“多于一个”的情形。在本文中,“上”、“下”、“前”、“后”、“左”、“右”、“内”、“外”等仅用于表示相关部分之间的相对位置关系,而非限定这些相关部分的绝对位置。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于文本生成图像的模型训练方法,其特征在于,包括:
对于预设训练样本集合中的每个训练样本,基于该训练样本的文本信息,生成相应的文本嵌入式表示,并将所述文本嵌入式表示输入至图像生成模型,触发所述图像生成模型基于所述文本嵌入式表示,生成所述文本信息对应的人造图像,并采用模态解纠缠方式,提取所述人造图像的真实度参数和相应训练样本的真实图像的真实度参数;所述真实度参数包括:图像风格的视觉可信度、图-文相似度和图像的整体视觉可信度;
基于所述人造图像,确定所述训练样本的正例和负例;
利用所述图像生成模型,基于所述训练样本的正例、负例和真实图像各自对应的所述真实度参数,计算相应样本的子损失函数,并基于所述子损失函数,计算相应样本的总体损失函数;所述子损失函数包括内容损失函数、风格损失函数、生成器损失函数和判别器损失函数;所述总体损失函数包括判别器总体损失函数和生成器总体损失函数;
利用所述总体损失函数,调整所述图像生成模型的参数。
2.根据权利要求1所述的方法,其特征在于,所述生成所述文本信息对应的人造图像包括:
将所述文本嵌入式表示,输入至图像生成模型的文本编码器处理,得到所述文本信息的文本特征;
将所述文本特征和训练样本对应的预设噪声样本,输入至所述图像生成模型的生成器处理,得到所述文本信息对应的人造图像。
3.根据权利要求1所述的方法,其特征在于,所述采用模态解纠缠方式,提取所述人造图像的真实度参数和相应训练样本的真实图像的真实度参数包括:
利用所述图像生成模型的图像编码器,从所述人造图像中提取出模态公共表征和模态特定表征,以及从所述训练样本的真实图像中提取出模态公共表征和模态特定表征;
基于所述人造图像的模态公共表征和模态特定表征、所述真实图像的模态公共表征和模态特定表征,利用所述图像生成模型的判别器,提取所述人造图像和所述真实图像的真实度参数。
4.根据权利要求3所述的方法,其特征在于,所述真实度参数的提取包括:
按照
Figure FDA0002972219460000021
提取所述人造图像的图像风格的视觉可信度;其中,hss为所述人造图像的模态特定表征;Ds为所述图像生成模型的模态特定判别器;
Figure FDA0002972219460000022
表示所述人造图像的图像风格的视觉可信度;
按照ss(x)=Ds(his),提取所述真实图像的图像风格的视觉可信度;其中,his为所述真实图像的模态特定表征;ss(x)表示所述真实图像的图像风格的视觉可信度;
按照
Figure FDA0002972219460000023
提取所述人造图像的图-文相似度;其中,htc为所述文本信息的文本特征;hsc为所述人造图像的模态公共表征;Dc为所述图像生成模型的模态公共判别器;
Figure FDA0002972219460000024
表示所述人造图像的图-文相似度;
按照sc(x)=Dc(htc,hic),提取所述真实图像的图-文相似度;其中,hic为所述真实图像的模态公共表征;sc(x)表示所述真实图像的图-文相似度;
按照
Figure FDA0002972219460000025
提取所述人造图像的整体视觉可信度;其中,Di为所述图像生成模型的整体视觉判别器;
Figure FDA0002972219460000026
表示所述人造图像的整体视觉可信度;
按照si(x)=Di(hic,his),提取所述真实图像的整体视觉可信度;其中,si(x)表示所述真实图像的整体视觉可信度。
5.根据权利要求1所述的方法,其特征在于,所述确定每个所述训练样本的正例和负例包括:
对于每个所述训练样本,将该训练样本对应的所述人造图像作为该训练样本的正例,从基于非该练样本对应的所述人造图像中,选择一个图像作为该训练样本的负例。
6.根据权利要求1所述的方法,其特征在于,所述计算相应样本的子损失函数包括:
按照
Figure FDA0002972219460000031
计算所述内容损失函数值
Figure FDA0002972219460000032
其中,
Figure FDA0002972219460000033
表示三元组损失函数,htc为锚点,表示训练样本的文本信息的文本特征;hsc为正例,表示训练样本对应的人造图像的模态公共表征;
Figure FDA0002972219460000034
为负例,表示训练样本的负例的模态公共表征;
按照
Figure FDA0002972219460000035
计算所述风格损失函数
Figure FDA0002972219460000036
其中,z为噪声样本;hss表示训练样本对应的人造图像的模态特定表征;ρ为预设的皮尔逊相关系数;
按照
Figure FDA0002972219460000037
计算所述生成器损失函数
Figure FDA0002972219460000038
其中,
Figure FDA0002972219460000039
表示从生成器pG中采样得到的训练样本对应的人造图像
Figure FDA00029722194600000310
Figure FDA00029722194600000311
表示人造图像
Figure FDA00029722194600000312
的图-文相似度;
Figure FDA00029722194600000313
表示人造图像
Figure FDA00029722194600000314
的图像风格的视觉可信度;
Figure FDA00029722194600000315
表示人造图像
Figure FDA00029722194600000316
的整体视觉可信度;
按照
Figure FDA00029722194600000317
计算所述判别器损失函数
Figure FDA00029722194600000318
其中,
Figure FDA00029722194600000319
表示从训练样本集合pdata中得到的训练样本的真实图像x;ss(x)表示真实图像x的图像风格的视觉可信度;sc(x)表示真实图像x的图-文相似度;si(x)表示真实图像x的整体视觉可信度。
7.根据权利要求1所述的方法,其特征在于,所述基于所述子损失函数,计算相应样本的总体损失函数包括:
按照
Figure FDA00029722194600000320
得到所述判别器总体损失函数
Figure FDA00029722194600000321
其中,
Figure FDA00029722194600000322
为所述判别器损失函数;
Figure FDA00029722194600000323
为所述内容损失函数;
Figure FDA00029722194600000324
为所述风格损失函数;
按照
Figure FDA00029722194600000325
得到所述生成器总体损失函数
Figure FDA00029722194600000326
其中,
Figure FDA00029722194600000327
为所述生成器损失函数。
8.一种基于文本生成图像的方法,其特征在于,包括:
基于待生成图像的文本信息,生成相应的文本嵌入式表示;
将所述文本嵌入式表示输入至预训练的图像生成模型处理,得到所述文本信息的人造图像;其中,所述图像生成模型采用权利要求1至7所述的任一模型训练方法训练得到。
9.一种基于文本生成图像的模型训练设备,其特征在于,包括处理器和存储器;
所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如权利要求1至7中任一项所述的基于文本生成图像的模型训练方法。
10.一种计算机可读存储介质,其特征在于,其中存储有计算机可读指令,该计算机可读指令用于执行如权利要求1至7中任一项所述的基于文本生成图像的模型训练方法。
CN202110266563.5A 2021-03-11 2021-03-11 基于文本生成图像的模型训练方法、设备和图像生成方法 Active CN112990302B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110266563.5A CN112990302B (zh) 2021-03-11 2021-03-11 基于文本生成图像的模型训练方法、设备和图像生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110266563.5A CN112990302B (zh) 2021-03-11 2021-03-11 基于文本生成图像的模型训练方法、设备和图像生成方法

Publications (2)

Publication Number Publication Date
CN112990302A true CN112990302A (zh) 2021-06-18
CN112990302B CN112990302B (zh) 2023-03-21

Family

ID=76335093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110266563.5A Active CN112990302B (zh) 2021-03-11 2021-03-11 基于文本生成图像的模型训练方法、设备和图像生成方法

Country Status (1)

Country Link
CN (1) CN112990302B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114549935A (zh) * 2022-02-25 2022-05-27 北京百度网讯科技有限公司 信息生成方法和装置
CN116167434A (zh) * 2023-04-24 2023-05-26 清华大学 一种弱监督视觉语言预训练模型的训练方法和装置
CN116433825A (zh) * 2023-05-24 2023-07-14 北京百度网讯科技有限公司 图像生成方法、装置、计算机设备及存储介质
CN116721334A (zh) * 2023-08-11 2023-09-08 腾讯科技(深圳)有限公司 图像生成模型的训练方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866958A (zh) * 2019-10-28 2020-03-06 清华大学深圳国际研究生院 一种文本到图像的方法
CN111047507A (zh) * 2019-11-29 2020-04-21 北京达佳互联信息技术有限公司 图像生成模型的训练方法、图像生成方法及装置
CN112149634A (zh) * 2020-10-23 2020-12-29 北京百度网讯科技有限公司 图像生成器的训练方法、装置、设备以及存储介质
CN112418310A (zh) * 2020-11-20 2021-02-26 第四范式(北京)技术有限公司 文本风格迁移模型训练方法和系统及图像生成方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866958A (zh) * 2019-10-28 2020-03-06 清华大学深圳国际研究生院 一种文本到图像的方法
CN111047507A (zh) * 2019-11-29 2020-04-21 北京达佳互联信息技术有限公司 图像生成模型的训练方法、图像生成方法及装置
CN112149634A (zh) * 2020-10-23 2020-12-29 北京百度网讯科技有限公司 图像生成器的训练方法、装置、设备以及存储介质
CN112418310A (zh) * 2020-11-20 2021-02-26 第四范式(北京)技术有限公司 文本风格迁移模型训练方法和系统及图像生成方法和系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
FANGXIANG FENG 等: "Modality Disentangled Discriminator for Text-to-Image Synthesis", 《IEEE TRANSACTIONS ON MULTIMEDIA》 *
RUIFAN LI 等: "Exploring Global and Local Linguistic Representations for Text-to-image Synthesis", 《IEEE TRANSACTIONS ON MULTIMEDIA》 *
TIANRUI NIU 等: "Image Synthesis from Locally Related Texts", 《PROCEEDINGS OF ICMR ’20》 *
ZHEN ZHU 等: "语义多模态图像合成", 《ARXIV》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114549935A (zh) * 2022-02-25 2022-05-27 北京百度网讯科技有限公司 信息生成方法和装置
CN114549935B (zh) * 2022-02-25 2024-05-07 北京百度网讯科技有限公司 信息生成方法和装置
CN116167434A (zh) * 2023-04-24 2023-05-26 清华大学 一种弱监督视觉语言预训练模型的训练方法和装置
CN116167434B (zh) * 2023-04-24 2023-07-04 清华大学 一种弱监督视觉语言预训练模型的训练方法和装置
CN116433825A (zh) * 2023-05-24 2023-07-14 北京百度网讯科技有限公司 图像生成方法、装置、计算机设备及存储介质
CN116433825B (zh) * 2023-05-24 2024-03-26 北京百度网讯科技有限公司 图像生成方法、装置、计算机设备及存储介质
CN116721334A (zh) * 2023-08-11 2023-09-08 腾讯科技(深圳)有限公司 图像生成模型的训练方法、装置、设备及存储介质
CN116721334B (zh) * 2023-08-11 2023-11-21 腾讯科技(深圳)有限公司 图像生成模型的训练方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112990302B (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
CN112990302B (zh) 基于文本生成图像的模型训练方法、设备和图像生成方法
Abid et al. Dynamic sign language recognition for smart home interactive application using stochastic linear formal grammar
US9111375B2 (en) Evaluation of three-dimensional scenes using two-dimensional representations
CN110147732A (zh) 指静脉识别方法、装置、计算机设备及存储介质
CN111898696A (zh) 伪标签及标签预测模型的生成方法、装置、介质及设备
JP2019008778A (ja) 画像の領域のキャプション付加
CN106973244A (zh) 使用弱监督为图像配字幕
Aristidou et al. Self‐similarity analysis for motion capture cleaning
US11080553B2 (en) Image search method and apparatus
US20210117651A1 (en) Facial image identification system, identifier generation device, identification device, image identification system, and identification system
Wimmer et al. Low-level fusion of audio and video feature for multi-modal emotion recognition
CN110555896B (zh) 一种图像生成方法、装置以及存储介质
WO2021208601A1 (zh) 基于人工智能的图像处理方法、装置、设备及存储介质
Geng et al. Gated path selection network for semantic segmentation
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
Kumar Verma et al. Generative model for zero-shot sketch-based image retrieval
CN108664465A (zh) 一种自动生成文本方法以及相关装置
Neverova Deep learning for human motion analysis
Galata et al. Learning behaviour models of human activities
Altun et al. SKETRACK: stroke-based recognition of online hand-drawn sketches of arrow-connected diagrams and digital logic circuit diagrams
CN114004364A (zh) 采样优化方法、装置、电子设备及存储介质
Perdana et al. Instance-based deep transfer learning on cross-domain image captioning
JP7006402B2 (ja) クラスタリングプログラム、クラスタリング方法およびクラスタリング装置
Liu et al. A3GAN: An attribute-aware attentive generative adversarial network for face aging
Tan et al. Enhanced text-to-image synthesis with self-supervision

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant