CN111275780B - 人物图像的生成方法及装置 - Google Patents

人物图像的生成方法及装置 Download PDF

Info

Publication number
CN111275780B
CN111275780B CN202010020296.9A CN202010020296A CN111275780B CN 111275780 B CN111275780 B CN 111275780B CN 202010020296 A CN202010020296 A CN 202010020296A CN 111275780 B CN111275780 B CN 111275780B
Authority
CN
China
Prior art keywords
training
network model
countermeasure network
vector
constant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010020296.9A
Other languages
English (en)
Other versions
CN111275780A (zh
Inventor
高晨
武卓卓
刘志超
于靓环
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sohu New Media Information Technology Co Ltd
Original Assignee
Beijing Sohu New Media Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sohu New Media Information Technology Co Ltd filed Critical Beijing Sohu New Media Information Technology Co Ltd
Priority to CN202010020296.9A priority Critical patent/CN111275780B/zh
Publication of CN111275780A publication Critical patent/CN111275780A/zh
Application granted granted Critical
Publication of CN111275780B publication Critical patent/CN111275780B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种人物图像的生成方法及装置,该方法包括:首先,获取描述文本;其中,所述描述文本包括目标人物图像的描述信息;然后,生成所述描述文本对应的语义特征向量;对所述语义特征向量进行运算,得到标准格式的常数向量;其中,对语义特征向量进行运算的过程采用全连接层进行运算;最后,将所述标准格式的常数向量输入到生成式对抗网络模型,由所述生成式对抗网络模型进行运算得到并输出所述目标人物图像。由于,生成式对抗网络模型以及全连接层是通过多次训练并得到的最优模型,所以在本申请的实现过程中,最终可以将描述文本准确的生成对应的人物图像。以达到快速生成人物图像,并提高生成的人物图像的质量的目的。

Description

人物图像的生成方法及装置
技术领域
本申请涉及计算机技术领域,特别涉及一种人物图像的生成方法及装置。
背景技术
目前,在一些特定场景下,需要根据给定的部分信息快速获取人物的面部画像,其中就包括基于自然语言的描述性文本生成面部图像的任务。通常这一任务由于描述的内容、信息较为模糊,常常由人力手工完成并加以核对。
随着机器学习方法的发展,向计算机输入人物特征从而生成图像成为可能。但是,由于现有技术中语义和图像的一致性无法保证,从而导致最终生成的图像质量不高。
因此,亟需一种可以快速生成人物图像,并提高生成的人物图像的质量的方法。
发明内容
基于上述现有技术的不足,本申请提供了一种人物图像的生成方法及装置,以解决由于现有技术中语义和图像的一致性无法保证,从而导致最终生成的图像质量不高的问题。
为了实现上述目的,本申请提供了以下技术方案:
本申请第一方面提供了一种人物图像的生成方法,包括:
获取描述文本;其中,所述描述文本包括目标人物图像的描述信息;
生成所述描述文本对应的语义特征向量;
对所述语义特征向量进行运算,得到标准格式的常数向量;
将所述标准格式的常数向量输入到生成式对抗网络模型,由所述生成式对抗网络模型进行运算得到并输出所述目标人物图像;其中,所述生成式对抗网络模型预先通过训练集训练得到。
可选的,所述生成所述描述文本对应的语义特征向量,包括:
构建所述描述文本中的每一个文字对应的向量;
对所述描述文本中的每一个文字对应的向量进行求均值计算,得到计算结果;其中,所述计算结果为所述描述文本对应的语义特征向量。
可选的,所述对所述语义特征向量进行运算,得到标准格式的常数向量,包括:
将所述语义特征向量输入到全连接层,由所述全连接层运算得到所述标准格式的常数向量。
可选的,所述全连接层的训练方法,包括:
获取第一训练集;其中,所述第一训练集包括:多个训练文本对应的语义特征向量、以及每一个所述训练文本对应的图像的常数向量;
选择所述第一训练集中的每一个所述训练文本对应的语义特征向量输入到原始全连接层,由所述原始全连接层处理所述训练文本对应的语义特征向量,得到所述训练文本对应的语义特征向量的常数向量;
利用所述训练文本对应的语义特征向量的常数向量、与所述训练文本对应的图像的常数向量的均方值,计算得到均方值损失函数;
利用迭代训练所述原始全连接层的参数的方式,求解得到所述均方值损失函数的最优值,其中,所述均方值损失函数的最优值对应的所述原始全连接层,作为训练后的全连接层。
可选的,所述生成式对抗网络模型的训练方法,包括:
获取第二训练集;其中,所述第二训练集包括:多个常数向量、以及每一个所述常数向量对应的标准人物图像;每一个所述常数向量用于描述对应的标准人物图像;
选择所述第二训练集中的每一个常数向量输入到原始生成式对抗网络模型中的生成模型部分,由所述原始生成式对抗网络模型中的生成模型部分处理每一个所述常数向量得到对应的人物图像;
将所述第二训练集中的每一个所述常数向量对应的标准人物图像,与所述原始生成式对抗网络模型中的生成模型部分处理所述常数向量得到的人物图像,分别输入原始生成式对抗网络模型中的判别模型部分,由所述原始生成式对抗网络模型中的判别模型部分分别提取得到所述标准人物图像的图像特征,和所述人物图像的图像特征;
利用所述标准人物图像的图像特征和所述人物图像的图像特征的均方值,计算得到均方值损失函数;
利用迭代训练所述原始生成式对抗网络模型的参数的方式,求解得到所述均方值损失函数的最优值,其中,所述均方值损失函数的最优值对应的所述原始生成式对抗网络模型,作为训练后的生成式对抗网络模型。
本申请第二方面提供了一种人物图像的生成装置,包括:
第一获取单元,用于获取描述文本;其中,所述描述文本包括目标人物图像的描述信息;
生成单元,用于生成所述描述文本对应的语义特征向量;
第一计算单元,用于对所述语义特征向量进行运算,得到标准格式的常数向量;
控制单元,用于将所述标准格式的常数向量输入到生成式对抗网络模型,由所述生成式对抗网络模型进行运算得到并输出所述目标人物图像;其中,所述生成式对抗网络模型预先通过训练集训练得到。
可选的,所述生成单元,包括:
构建单元,用于构建所述描述文本中的每一个文字对应的向量;
生成子单元,用于对所述描述文本中的每一个文字对应的向量进行求均值计算,得到计算结果;其中,所述计算结果为所述描述文本对应的语义特征向量。
可选的,所述计算单元采用将所述语义特征向量输入到全连接层,由所述全连接层运算得到所述标准格式的常数向量的方式,来实现对所述语义特征向量进行运算,得到标准格式的常数向量。
可选的,所述人物图像的生成装置,还包括:
第二获取单元,用于获取第一训练集;其中,所述第一训练集包括:多个训练文本对应的语义特征向量、以及每一个所述训练文本对应的图像的常数向量;
第一输入单元,用于选择所述第一训练集中的每一个所述训练文本对应的语义特征向量输入到原始全连接层,由所述原始全连接层处理所述训练文本对应的语义特征向量,得到所述训练文本对应的语义特征向量的常数向量;
第二计算单元,用于利用所述训练文本对应的语义特征向量的常数向量、与所述训练文本对应的图像的常数向量的均方值,计算得到均方值损失函数;
第一迭代单元,用于利用迭代训练所述原始全连接层的参数的方式,求解得到所述均方值损失函数的最优值,其中,所述均方值损失函数的最优值对应的所述原始全连接层,作为训练后的全连接层。
可选的,所述人物图像的生成装置,还包括:
第三获取单元,用于获取第二训练集;其中,所述第二训练集包括:多个常数向量、以及每一个所述常数向量对应的标准人物图像;每一个所述常数向量用于描述对应的标准人物图像;
第二输入单元,用于选择所述第二训练集中的每一个常数向量输入到原始生成式对抗网络模型中的生成模型部分,由所述原始生成式对抗网络模型中的生成模型部分处理每一个所述常数向量得到对应的人物图像;
第三输入单元,用于将所述第二训练集中的每一个所述常数向量对应的标准人物图像,与所述原始生成式对抗网络模型中的生成模型部分处理所述常数向量得到的人物图像,分别输入原始生成式对抗网络模型中的判别模型部分,由所述原始生成式对抗网络模型中的判别模型部分分别提取得到所述标准人物图像的图像特征,和所述人物图像的图像特征;
第三计算单元,用于利用所述标准人物图像的图像特征和所述人物图像的图像特征的均方值,计算得到均方值损失函数;
第二迭代单元,用于利用迭代训练所述原始生成式对抗网络模型的参数的方式,求解得到所述均方值损失函数的最优值,其中,所述均方值损失函数的最优值对应的所述原始生成式对抗网络模型,作为训练后的生成式对抗网络模型。
由以上方案可知,本申请提供的一种人物图像的生成方法及装置中,通过获取描述文本;然后,生成所述描述文本对应的语义特征向量;对所述语义特征向量进行运算,得到标准格式的常数向量;最后,将所述标准格式的常数向量输入到生成式对抗网络模型,由所述生成式对抗网络模型进行运算得到并输出所述目标人物图像。由于,生成式对抗网络模型是通过多次训练并得到的最优模型,所以在本申请的实现过程中,最终,可以将描述文本准确的生成对应的人物图像。以达到快速生成人物图像,并且,提高生成的人物图像的质量的目的。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种人物图像的生成方法的具体流程图;
图2为本申请另一实施例提供的一种人物图像的生成方法的具体流程图;
图3为本申请另一实施例提供的一种人物图像的生成方法的具体流程图;
图4为本申请另一实施例提供的一种人物图像的生成方法的具体流程图;
图5为本申请另一实施例提供的一种人物图像的生成装置的示意图;
图6为本申请另一实施例提供的一种人物图像的生成装置的示意图;
图7为本申请另一实施例提供的一种人物图像的生成装置的示意图;
图8为本申请另一实施例提供的一种人物图像的生成装置的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要注意,本申请中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系,而术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本申请实施例提供了一种人物图像的生成方法,如图1所示,该方法包括以下步骤:
S101、获取描述文本。
其中,描述文本包括目标人物图像的描述信息。
具体的,描述文本可以是用户通过客户端一步一步所选择出的描述文本;例如,客户端上的操作界面一步一步指示用户操作,如第一步选择目标人物的头发类型,此时会出现多个选项,长发、短发、卷发等,以及头发的颜色;第二步选择目标人物的脸型,如瓜子脸、国字脸等;第三步选择目标人物的耳朵形状;第四步选择目标人物的眼睛形状;第五步……。
需要说明的是,此处仅仅是对用户通过客户端一步一步选择出描述文本的方法进行举例说明,客户端可以理解为一个应用程序APP、全球广域网(World Wide Web,Web)网页、小程序等。客户端可以运行在,但不限于智能手机、平板电脑、个人计算机、笔记本电脑、虚拟现实终端设备、增强现实终端设备上。还需要说明的是,客户端上的操作界面多样化,并且,操作步骤不限于上述的举例说明,可以根据实际情况进行调整至最佳顺序,其中最佳顺序,是通过科研人员进行多次尝试、试验得到的,此处不做限定。
获取描述文本的方法,也可以是客户端通过用户对目标人物的描述所生成的对应的描述文本。例如,通过用户对目标人物进行描述的文本,找到预存在数据库中的多个描述文本,并向用户展示在数据库中与用户对目标人物进行描述的文本,所对应的多个描述文本。让用户自行选择一个自己满意的描述文本。当然,如果数据库中与用户对目标人物进行描述的文本,所对应的多个描述文本之中,没有一个描述文本使用户满意,那么用户可以重新开始对目标人物进行描述,直至找到数据库中使用户满意的,与用户对目标人物进行描述的文本所对应描述文本。其中,此处的客户端同上述的客户端,此处不做限定;用户在对目标人物进行描述的过程中,可以采用打字输入的方法,也可以采用语音输入的方法,此处不做限定。
还需要说明的是,获取描述文本的方法,不限于上述进行举例说明的两种方法,还可以根据实际的情况进行实际的选择,获取描述文本的方法十分多样化,此处不做限定。
S102、生成描述文本对应的语义特征向量。
具体的,根据接收到的描述文本,生成描述文本对应的语义特征向量。
可选的,本申请的另一实施例中,步骤S102的一种实施方式,如图2所示,包括以下步骤:
S201、构建描述文本中的每一个文字对应的向量。
S202、对描述文本中的每一个文字对应的向量进行求均值计算,得到计算结果。
其中,计算结果为描述文本对应的语义特征向量。
S103、对语义特征向量进行运算,得到标准格式的常数向量。
可选的,本申请的另一实施例中,步骤S103的一种实施方式,包括:
将语义特征向量输入到全连接层,由全连接层运算得到标准格式的常数向量。
其中,全连接层为在卷积神经网络(ConvolutionalNeural Networks,CNN)结构中,经多个卷积层和池化层后,连接着1个或1个以上的全连接层。与多层感知器(Multi-Layer Perceptron,MLP)类似,全连接层中的每个神经元与其前一层的所有神经元进行全连接。全连接层可以整合卷积层或者池化层中具有类别区分性的局部信息。
需要说明的是,对于一个具体的分类任务,选择一个合适的损失函数是十分重要的,CNN有几种常用的损失函数,各自都有不同的特点,可以根据实际情况进行对应的选择,此处不做限定。
具体的,将语义特征向量输入至全连接层后,全连接层通过自身运算得到语义特征向量对应的标准格式的常数向量。
可选的,本申请的另一实施例中,全连接层的训练方法,如图3所示,具体包括以下步骤:
S301、获取第一训练集。
其中,第一训练集包括:多个训练文本对应的语义特征向量、以及每一个训练文本对应的图像的常数向量。
需要说明的是,当训练用的第一训练集中的训练文本较少时,还可以采用交叉验证法进行模型的训练,即从数据集中通过分层采样得到多个子集,然后,每次用k-1个子集作为训练集,余下的子集作为测试集,由此可以得到k组训练/测试集,进而再将k组数据进行k次训练试验,最终得到这k个训练试验结果的均值。以达到在训练文本较少时,依旧可以进行正确、准确训练的目的。
S302、选择第一训练集中的每一个训练文本对应的语义特征向量输入到原始全连接层,由原始全连接层处理训练文本对应的语义特征向量,得到训练文本对应的语义特征向量的常数向量。
S303、利用训练文本对应的语义特征向量的常数向量、与训练文本对应的图像的常数向量的均方值,计算得到均方值损失函数。
其中,损失函数(loss function)是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“损失”的函数。在应用中,损失函数通常作为学习准则与优化问题相联系,即通过最小化损失函数求解和评估模型。
S304、利用迭代训练原始全连接层的参数的方式,求解得到均方值损失函数的最优值。
其中,均方值损失函数的最优值对应的原始全连接层,作为训练后的全连接层。
需要说明的是,在优化过程中,可以采用梯度下降法(Stochasticgradierntdescent,SGD),梯度下降法时一种常用于卷积神经网络上的优化算法。随机梯度下降在计算下降最快的方向时随机选一个数据进行计算,而不是扫描全部训练数据集,即沿函数下降最快的方向,通过迭代的方式不断改变卷积神经网络模型中的参数,从而解得损失函数的最优值,从而加快了迭代速度。损失函数的最优值所对应的卷积神经网络模型的参数是最优的。其中,卷积神经网络模型的参数可以包括各个权值和阈值。
在本实施例的具体实现过程中,可以在全连接层中使用残差机制。由于,网络的深度提升不能通过层与层的简单堆叠来实现,因此,会出现梯度消失问题,深层网络很难训练。因为梯度反向传播到前面的层,重复相乘可能使梯度无穷小。导致随着网络的层数更深,其性能趋于饱和,甚至开始迅速下降。通过添加残差机制可以降低全连接层在计算过程中错误率。
同样,在本实施例的具体实现过程中,还可以在全连接层中,加入随机丢失(dropout)工作。由此减小了不同神经元的依赖度。具体的,有些中间输出在给定的训练集上,可能发生只依赖某些神经元的情况,这就会造成对训练集的过拟合。而随机dropout一些神经元,使得它们失活,不对后面的学习参数产生贡献,可以让更多神经元参与到最终的输出当中,进而减少过拟合。
S104、将标准格式的常数向量输入到生成式对抗网络模型,由生成式对抗网络模型进行运算得到并输出目标人物图像。
其中,生成式对抗网络模型预先通过训练集训练得到。
可选的,本申请的另一实施例中,生成式对抗网络模型的训练方法,如图4所示,具体包括以下步骤:
S401、获取第二训练集。
其中,第二训练集包括:多个常数向量、以及每一个常数向量对应的标准人物图像;每一个常数向量用于描述对应的标准人物图像。
需要说明的是,当训练用的第二训练集中的常数向量较少时,还可以采用交叉验证法进行模型的训练,即从数据集中通过分层采样得到多个子集,然后,每次用k-1个子集作为训练集,余下的子集作为测试集,由此可以得到k组训练/测试集,进而再将k组数据进行k次训练试验,最终得到这k个训练试验结果的均值。以达到在常数向量较少时,依旧可以进行正确、准确训练的目的。
S402、选择第二训练集中的每一个常数向量输入到原始生成式对抗网络模型中的生成模型部分,由原始生成式对抗网络模型中的生成模型部分处理每一个常数向量得到对应的人物图像。
S403、将第二训练集中的每一个常数向量对应的标准人物图像,与原始生成式对抗网络模型中的生成模型部分处理常数向量得到的人物图像,分别输入原始生成式对抗网络模型中的判别模型部分,由原始生成式对抗网络模型中的判别模型部分分别提取得到标准人物图像的图像特征,和人物图像的图像特征。
S404、利用标准人物图像的图像特征和人物图像的图像特征的均方值,计算得到均方值损失函数。
其中,损失函数(loss function)是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“损失”的函数。在应用中,损失函数通常作为学习准则与优化问题相联系,即通过最小化损失函数求解和评估模型。
S405、利用迭代训练原始生成式对抗网络模型的参数的方式,求解得到均方值损失函数的最优值。
其中,均方值损失函数的最优值对应的原始生成式对抗网络模型,作为训练后的生成式对抗网络模型。
需要说明的是,在优化过程中,可以采用梯度下降法(Stochasticgradierntdescent,SGD),梯度下降法时一种常用于卷积神经网络上的优化算法。随机梯度下降在计算下降最快的方向时随机选一个数据进行计算,而不是扫描全部训练数据集,即沿函数下降最快的方向,通过迭代的方式不断改变卷积神经网络模型中的参数,从而解得损失函数的最优值,从而加快了迭代速度。损失函数的最优值所对应的卷积神经网络模型的参数是最优的。其中,卷积神经网络模型的参数可以包括各个权值和阈值。
在本实施例的具体实现过程中,可以在生成式对抗网络模型中使用残差机制。由于,网络的深度提升不能通过层与层的简单堆叠来实现,因此,会出现梯度消失问题,深层网络很难训练。因为梯度反向传播到前面的层,重复相乘可能使梯度无穷小。导致随着网络的层数更深,其性能趋于饱和,甚至开始迅速下降。通过添加残差机制可以降低生成式对抗网络模型在计算过程中错误率。
同样,在本实施例的具体实现过程中,还可以在生成式对抗网络模型中,加入随机丢失(dropout)工作。由此减小了不同神经元的依赖度。具体的,有些中间输出在给定的训练集上,可能发生只依赖某些神经元的情况,这就会造成对训练集的过拟合。而随机dropout一些神经元,使它们失活,不对后面的学习参数产生贡献,可以让更多神经元参与到最终的输出当中,进而减少过拟合。
由以上方案可知,本申请提供的一种人物图像的生成方法中,通过获取描述文本;其中,描述文本包括目标人物图像的描述信息;然后,生成描述文本对应的语义特征向量;对语义特征向量进行运算,得到标准格式的常数向量;其中,对语义特征向量进行运算的过程采用全连接层进行运算;最后,将标准格式的常数向量输入到生成式对抗网络模型,由生成式对抗网络模型进行运算得到并输出所述目标人物图像。由于,生成式对抗网络模型是通过多次训练并得到的最优模型,所以在本申请的实现过程中,最终,可以将描述文本准确的生成对应的人物图像。以达到快速生成人物图像,并且,提高生成的人物图像的质量的目的。
本申请另一实施例提供了一种人物图像的生成装置,如图5所示,包括:
第一获取单元501,用于获取描述文本。
其中,描述文本包括目标人物图像的描述信息。
生成单元502,用于生成描述文本对应的语义特征向量。
可选的,本申请的另一实施例中,生成单元502的一种实施方式,如图6所示,包括:
构建单元601,用于构建描述文本中的每一个文字对应的向量。
生成子单元602,用于对描述文本中的每一个文字对应的向量进行求均值计算,得到计算结果。
其中,计算结果为描述文本对应的语义特征向量。
本申请上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,如图2所示,此处不再赘述。
第一计算单元503,用于对语义特征向量进行运算,得到标准格式的常数向量。
可选的,本申请的另一实施例中,所述第一计算单元503采用将语义特征向量输入到全连接层,由全连接层运算得到标准格式的常数向量的方式,来实现对语义特征向量进行运算,得到标准格式的常数向量。
控制单元504,用于将标准格式的常数向量输入到生成式对抗网络模型,由生成式对抗网络模型进行运算得到并输出所述目标人物图像;其中,生成式对抗网络模型预先通过训练集训练得到。
本申请上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,如图1所示,此处不再赘述。
由以上方案可知,本申请提供的一种人物图像的生成方法中,通过第一获取单元501获取描述文本;其中,描述文本包括目标人物图像的描述信息;然后,利用生成单元502生成描述文本对应的语义特征向量;利用第一计算单元503对语义特征向量进行运算,得到标准格式的常数向量;其中,对语义特征向量进行运算的过程采用全连接层进行运算;最后,通过控制单元504将标准格式的常数向量输入到生成式对抗网络模型,由生成式对抗网络模型进行运算得到并输出目标人物图像。由于,生成式对抗网络模型是通过多次训练并得到的最优模型,所以在本申请的实现过程中,最终,可以将描述文本准确的生成对应的人物图像。以达到快速生成人物图像,并且,提高生成的人物图像的质量的目的。
可选的,本申请的另一实施例中,人物图像的生成装置,如图7所示,还包括:
第二获取单元701,用于获取第一训练集。
其中,第一训练集包括:多个训练文本对应的语义特征向量、以及每一个训练文本对应的图像的常数向量。
第一输入单元702,用于选择第一训练集中的每一个训练文本对应的语义特征向量输入到原始全连接层,由原始全连接层处理训练文本对应的语义特征向量,得到训练文本对应的语义特征向量的常数向量。
第二计算单元703,用于利用训练文本对应的语义特征向量的常数向量、与训练文本对应的图像的常数向量的均方值,计算得到均方值损失函数。
第一迭代单元704,用于利用迭代训练原始全连接层的参数的方式,求解得到所述均方值损失函数的最优值。
其中,均方值损失函数的最优值对应的原始全连接层,作为训练后的全连接层。
本申请上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,如图3所示,此处不再赘述。
可选的,本申请的另一实施例中,人物图像的生成装置,如图8所示,还包括:
第三获取单元801,用于获取第二训练集。
其中,第二训练集包括:多个常数向量、以及每一个常数向量对应的标准人物图像;每一个常数向量用于描述对应的标准人物图像。
第二输入单元802,用于选择第二训练集中的每一个常数向量输入到原始生成式对抗网络模型中的生成模型部分,由原始生成式对抗网络模型中的生成模型部分处理每一个常数向量得到对应的人物图像。
第三输入单元803,用于将第二训练集中的每一个常数向量对应的标准人物图像,与原始生成式对抗网络模型中的生成模型部分处理常数向量得到的人物图像,分别输入原始生成式对抗网络模型中的判别模型部分,由原始生成式对抗网络模型中的判别模型部分分别提取得到标准人物图像的图像特征,和人物图像的图像特征。
第三计算单元804,用于利用标准人物图像的图像特征和人物图像的图像特征的均方值,计算得到均方值损失函数。
第二迭代单元805,用于利用迭代训练原始生成式对抗网络模型的参数的方式,求解得到均方值损失函数的最优值。
其中,均方值损失函数的最优值对应的原始生成式对抗网络模型,作为训练后的生成式对抗网络模型。
本申请上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,如图4所示,此处不再赘述。
在本申请公开的上述实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本公开的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本公开各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,直播设备,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种人物图像的生成方法,其特征在于,包括:
获取描述文本;其中,所述描述文本包括目标人物图像的描述信息;
生成所述描述文本对应的语义特征向量;
将所述语义特征向量输入到全连接层,由所述全连接层运算得到所述标准格式的常数向量;
将所述标准格式的常数向量输入到生成式对抗网络模型,由所述生成式对抗网络模型进行运算得到并输出所述目标人物图像;其中,所述生成式对抗网络模型预先通过训练集训练得到。
2.根据权利要求1所述的生成方法,其特征在于,所述生成所述描述文本对应的语义特征向量,包括:
构建所述描述文本中的每一个文字对应的向量;
对所述描述文本中的每一个文字对应的向量进行求均值计算,得到计算结果;其中,所述计算结果为所述描述文本对应的语义特征向量。
3.根据权利要求1所述的生成方法,其特征在于,所述全连接层的训练方法,包括:
获取第一训练集;其中,所述第一训练集包括:多个训练文本对应的语义特征向量、以及每一个所述训练文本对应的图像的常数向量;
选择所述第一训练集中的每一个所述训练文本对应的语义特征向量输入到原始全连接层,由所述原始全连接层处理所述训练文本对应的语义特征向量,得到所述训练文本对应的语义特征向量的常数向量;
利用所述训练文本对应的语义特征向量的常数向量、与所述训练文本对应的图像的常数向量的均方值,计算得到均方值损失函数;
利用迭代训练所述原始全连接层的参数的方式,求解得到所述均方值损失函数的最优值,其中,所述均方值损失函数的最优值对应的所述原始全连接层,作为训练后的全连接层。
4.根据权利要求1至3中任意一项所述的生成方法,其特征在于,所述生成式对抗网络模型的训练方法,包括:
获取第二训练集;其中,所述第二训练集包括:多个常数向量、以及每一个所述常数向量对应的标准人物图像;每一个所述常数向量用于描述对应的标准人物图像;
选择所述第二训练集中的每一个常数向量输入到原始生成式对抗网络模型中的生成模型部分,由所述原始生成式对抗网络模型中的生成模型部分处理每一个所述常数向量得到对应的人物图像;
将所述第二训练集中的每一个所述常数向量对应的标准人物图像,与所述原始生成式对抗网络模型中的生成模型部分处理所述常数向量得到的人物图像,分别输入原始生成式对抗网络模型中的判别模型部分,由所述原始生成式对抗网络模型中的判别模型部分分别提取得到所述标准人物图像的图像特征,和所述人物图像的图像特征;
利用所述标准人物图像的图像特征和所述人物图像的图像特征的均方值,计算得到均方值损失函数;
利用迭代训练所述原始生成式对抗网络模型的参数的方式,求解得到所述均方值损失函数的最优值,其中,所述均方值损失函数的最优值对应的所述原始生成式对抗网络模型,作为训练后的生成式对抗网络模型。
5.一种人物图像的生成装置,其特征在于,包括:
第一获取单元,用于获取描述文本;其中,所述描述文本包括目标人物图像的描述信息;
生成单元,用于生成所述描述文本对应的语义特征向量;
第一计算单元,用将所述语义特征向量输入到全连接层,由所述全连接层运算得到所述标准格式的常数向量;
控制单元,用于将所述标准格式的常数向量输入到生成式对抗网络模型,由所述生成式对抗网络模型进行运算得到并输出所述目标人物图像;其中,所述生成式对抗网络模型预先通过训练集训练得到。
6.根据权利要求5所述的生成装置,其特征在于,所述生成单元,包括:
构建单元,用于构建所述描述文本中的每一个文字对应的向量;
生成子单元,用于对所述描述文本中的每一个文字对应的向量进行求均值计算,得到计算结果;其中,所述计算结果为所述描述文本对应的语义特征向量。
7.根据权利要求5所述的生成装置,其特征在于,还包括:
第二获取单元,用于获取第一训练集;其中,所述第一训练集包括:多个训练文本对应的语义特征向量、以及每一个所述训练文本对应的图像的常数向量;
第一输入单元,用于选择所述第一训练集中的每一个所述训练文本对应的语义特征向量输入到原始全连接层,由所述原始全连接层处理所述训练文本对应的语义特征向量,得到所述训练文本对应的语义特征向量的常数向量;
第二计算单元,用于利用所述训练文本对应的语义特征向量的常数向量、与所述训练文本对应的图像的常数向量的均方值,计算得到均方值损失函数;
第一迭代单元,用于利用迭代训练所述原始全连接层的参数的方式,求解得到所述均方值损失函数的最优值,其中,所述均方值损失函数的最优值对应的所述原始全连接层,作为训练后的全连接层。
8.根据权利要求5至7中任意一项所述的生成装置,其特征在于,还包括:
第三获取单元,用于获取第二训练集;其中,所述第二训练集包括:多个常数向量、以及每一个所述常数向量对应的标准人物图像;每一个所述常数向量用于描述对应的标准人物图像;
第二输入单元,用于选择所述第二训练集中的每一个常数向量输入到原始生成式对抗网络模型中的生成模型部分,由所述原始生成式对抗网络模型中的生成模型部分处理每一个所述常数向量得到对应的人物图像;
第三输入单元,用于将所述第二训练集中的每一个所述常数向量对应的标准人物图像,与所述原始生成式对抗网络模型中的生成模型部分处理所述常数向量得到的人物图像,分别输入原始生成式对抗网络模型中的判别模型部分,由所述原始生成式对抗网络模型中的判别模型部分分别提取得到所述标准人物图像的图像特征,和所述人物图像的图像特征;
第三计算单元,用于利用所述标准人物图像的图像特征和所述人物图像的图像特征的均方值,计算得到均方值损失函数;
第二迭代单元,用于利用迭代训练所述原始生成式对抗网络模型的参数的方式,求解得到所述均方值损失函数的最优值,其中,所述均方值损失函数的最优值对应的所述原始生成式对抗网络模型,作为训练后的生成式对抗网络模型。
CN202010020296.9A 2020-01-09 2020-01-09 人物图像的生成方法及装置 Active CN111275780B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010020296.9A CN111275780B (zh) 2020-01-09 2020-01-09 人物图像的生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010020296.9A CN111275780B (zh) 2020-01-09 2020-01-09 人物图像的生成方法及装置

Publications (2)

Publication Number Publication Date
CN111275780A CN111275780A (zh) 2020-06-12
CN111275780B true CN111275780B (zh) 2023-10-17

Family

ID=71001596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010020296.9A Active CN111275780B (zh) 2020-01-09 2020-01-09 人物图像的生成方法及装置

Country Status (1)

Country Link
CN (1) CN111275780B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832501B (zh) * 2020-07-20 2023-09-29 中国人民解放军战略支援部队航天工程大学 一种面向卫星在轨应用的遥感影像文本智能描述方法
CN112614197B (zh) * 2020-11-23 2024-09-24 上海眼控科技股份有限公司 图像生成方法、装置、计算机设备和存储介质
CN114187165A (zh) * 2021-11-09 2022-03-15 阿里巴巴云计算(北京)有限公司 图像处理方法和装置
CN114091662B (zh) * 2021-11-26 2024-05-14 广东伊莱特生活电器有限公司 一种文本图像生成方法、装置及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073941A (zh) * 2016-11-17 2018-05-25 江南大学 一种基于深度学习的图像语义生成方法
CN109102029A (zh) * 2018-08-23 2018-12-28 重庆科技学院 信息最大化生成对抗网络模型合成人脸样本质量评估方法
CN109147010A (zh) * 2018-08-22 2019-01-04 广东工业大学 带属性人脸图像生成方法、装置、系统及可读存储介质
CN110288029A (zh) * 2019-06-27 2019-09-27 西安电子科技大学 基于Tri-LSTMs模型的图像描述方法
CN110334344A (zh) * 2019-06-13 2019-10-15 腾讯科技(深圳)有限公司 一种语义意图识别方法、装置、设备及存储介质
CN110427846A (zh) * 2019-07-19 2019-11-08 西安工业大学 一种利用卷积神经网络对不平衡小样本的人脸识别方法
CN110516575A (zh) * 2019-08-19 2019-11-29 上海交通大学 基于残差域富模型的gan生成图片检测方法及系统
WO2019228317A1 (zh) * 2018-05-28 2019-12-05 华为技术有限公司 人脸识别方法、装置及计算机可读介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11113599B2 (en) * 2017-06-22 2021-09-07 Adobe Inc. Image captioning utilizing semantic text modeling and adversarial learning

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073941A (zh) * 2016-11-17 2018-05-25 江南大学 一种基于深度学习的图像语义生成方法
WO2019228317A1 (zh) * 2018-05-28 2019-12-05 华为技术有限公司 人脸识别方法、装置及计算机可读介质
CN109147010A (zh) * 2018-08-22 2019-01-04 广东工业大学 带属性人脸图像生成方法、装置、系统及可读存储介质
CN109102029A (zh) * 2018-08-23 2018-12-28 重庆科技学院 信息最大化生成对抗网络模型合成人脸样本质量评估方法
CN110334344A (zh) * 2019-06-13 2019-10-15 腾讯科技(深圳)有限公司 一种语义意图识别方法、装置、设备及存储介质
CN110288029A (zh) * 2019-06-27 2019-09-27 西安电子科技大学 基于Tri-LSTMs模型的图像描述方法
CN110427846A (zh) * 2019-07-19 2019-11-08 西安工业大学 一种利用卷积神经网络对不平衡小样本的人脸识别方法
CN110516575A (zh) * 2019-08-19 2019-11-29 上海交通大学 基于残差域富模型的gan生成图片检测方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
康云云 ; 彭敦陆 ; 陈章 ; 刘丛 ; .ED-GAN:基于改进生成对抗网络的法律文本生成模型.小型微型计算机系统.2019,(第05期),全文. *
张光华 ; 王福豹 ; 段渭军 ; .基于GAN的天文图像生成研究.西北工业大学学报.2019,(第02期),全文. *
李天成 ; 何嘉 ; .一种基于生成对抗网络的图像修复算法.计算机应用与软件.2019,(第12期),全文. *

Also Published As

Publication number Publication date
CN111275780A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN111275780B (zh) 人物图像的生成方法及装置
US11386914B2 (en) Generating audio using neural networks
KR102071582B1 (ko) 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치
US10748065B2 (en) Multi-task neural networks with task-specific paths
KR102392094B1 (ko) 컨볼루션 신경망을 이용한 시퀀스 프로세싱
EP3523759B1 (en) Image processing neural networks with separable convolutional layers
US10984319B2 (en) Neural architecture search
EP4418168A2 (en) Attention-based decoder-only sequence transduction neural networks
WO2018081563A1 (en) Neural architecture search
TR201902908T4 (tr) Yığın normalleştirme katmanları.
CN112329476B (zh) 一种文本纠错方法及装置、设备、存储介质
JP2020061173A (ja) 回答学習装置、回答学習方法、回答生成装置、回答生成方法、及びプログラム
CN112861518B (zh) 文本纠错方法、装置和存储介质及电子装置
CN112966476B (zh) 文本处理方法、装置、电子设备及存储介质
US20220015657A1 (en) Processing eeg data with twin neural networks
CN113726545A (zh) 基于知识增强生成对抗网络的网络流量生成方法及装置
CN111178082A (zh) 一种句向量生成方法、装置及电子设备
US20240152809A1 (en) Efficient machine learning model architecture selection
CN111488950B (zh) 分类模型信息输出方法及装置
CN111325387A (zh) 可解释法律自动判决预测方法及装置
CN111310823A (zh) 目标分类方法、装置和电子系统
Jusin et al. End-To-End Neural Network Based Captcha Recognition
CN116822632B (zh) 一种文本数据的推理方法、装置、存储介质和电子设备
US11983240B2 (en) Meta few-shot class incremental learning
CN117634580A (zh) 一种神经网络模型的数据处理方法、训练方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant