CN117726908B - 图片生成模型的训练方法及装置、存储介质、电子装置 - Google Patents
图片生成模型的训练方法及装置、存储介质、电子装置 Download PDFInfo
- Publication number
- CN117726908B CN117726908B CN202410173839.9A CN202410173839A CN117726908B CN 117726908 B CN117726908 B CN 117726908B CN 202410173839 A CN202410173839 A CN 202410173839A CN 117726908 B CN117726908 B CN 117726908B
- Authority
- CN
- China
- Prior art keywords
- training
- picture
- value
- target
- loss function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 294
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000006870 function Effects 0.000 claims description 147
- 238000000605 extraction Methods 0.000 claims description 81
- 230000000875 corresponding effect Effects 0.000 claims description 60
- 238000004590 computer program Methods 0.000 claims description 13
- 238000001514 detection method Methods 0.000 claims description 11
- 230000002596 correlated effect Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 12
- 238000005406 washing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000011960 computer-aided design Methods 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本申请公开了一种图片生成模型的训练方法及装置、存储介质、电子装置,涉及智慧家庭技术领域,该方法包括:获取第一训练样本集合,其中,第一训练样本集合中的每个训练样本包括:样本图片,样本图片对应的描述信息;使用第一训练样本集合对通用图片生成模型进行训练,直到目标损失函数的取值满足预设的第一收敛条件,结束训练,将结束训练时的通用图片生成模型确定为目标图片生成模型;目标损失函数的取值由第一损失函数的取值和第二损失函数的取值共同确定,第一损失函数为通用图片生成模型的损失函数,第二损失函数的取值为根据样本图片和生成图片各自的对象属性特征确定的取值。上述技术方案,提高了通用图片生成模型的图片生成效果。
Description
技术领域
本申请涉及智慧家庭技术领域,具体而言,涉及一种图片生成模型的训练方法及装置、存储介质、电子装置。
背景技术
随着科学技术的进步和人工智能的发展,越来越多的文本生成图像的算法被相继提出,并被广泛应用在工业设计、计算机辅助设计、幼儿教育以及医疗领域中。作为提升工作效率的工具,保证生成图像的准确性是至关重要的,而生成图像的准确性是与提供的描述文本相对应的。相关技术中的文本生成图像技术主要基于三类基础算法,分别是生成对抗网络、变分自编码器和扩散模型;虽然上述文本生成图像的算法模型在单一场景和目标下,可以得到与目标文本描述相符合的生成图像,但是生成包含多个目标物体的复杂家居场景时,图片的生成效果较差。
针对相关技术中,通用图片生成模型的图片生成效果较差的问题,目前尚未提出有效的解决方案。
因此,有必要对相关技术予以改良以克服相关技术中的所述缺陷。
发明内容
本申请实施例提供了一种图片生成模型的训练方法及装置、存储介质、电子装置,以至少解决通用图片生成模型的图片生成效果较差的问题。
根据本申请实施例的一方面,提供一种图片生成模型的训练方法,包括:获取第一训练样本集合,其中,所述第一训练样本集合中的每个训练样本包括:样本图片,所述样本图片对应的描述信息;所述描述信息用于描述所述样本图片中的对象以及所述对象的属性信息;使用所述第一训练样本集合对通用图片生成模型进行训练,直到目标损失函数的取值满足预设的第一收敛条件,结束训练,将结束训练时的所述通用图片生成模型确定为目标图片生成模型,其中,在所述目标损失函数的取值不满足预设的所述第一收敛条件的情况下,所述通用图片生成模型中的参数被调整;其中,所述目标损失函数的取值由第一损失函数的取值和第二损失函数的取值共同确定,所述第一损失函数为所述通用图片生成模型的损失函数,所述第二损失函数的取值为根据所述样本图片和生成图片各自的对象属性特征确定的取值,所述生成图片为所述通用图片生成模型根据所述样本图片对应的描述信息生成的图片,所述样本图片和生成图片各自的对象属性特征为目标特征提取模型对所述样本图片和所述生成图片分别进行特征提取得到的特征。
在一个示例性的实施例中,使用所述第一训练样本集合对通用图片生成模型进行训练,包括:通过以下步骤执行第i轮训练,其中,i为大于或等于1的正整数,经过第0轮训练得到的通用图片生成模型是未经过训练的所述通用图片生成模型:从所述第一训练样本集合中获取第i轮使用的训练样本,其中,所述第i轮使用的训练样本包括第i轮使用的样本图片,所述第i轮使用的样本图片对应的描述信息;将第i轮使用的样本图片对应的描述信息输入到经过第i-1轮训练得到的通用图片生成模型中,得到第i轮训练得到的生成图片;获取所述第i-1轮训练得到的通用图片生成模型根据所述第i轮使用的样本图片和所述第i轮训练得到的生成图片确定的第i轮训练的第一损失函数的取值;以及使用所述目标特征提取模型对所述第i轮使用的样本图片和所述第i轮训练得到的生成图片分别进行特征提取,得到所述第i轮使用的样本图片的第一对象属性特征和所述第i轮训练得到的生成图片的第二对象属性特征;根据所述第一对象属性特征和所述第二对象属性特征确定第i轮训练的第二损失函数的取值;根据所述第i轮训练的第一损失函数的取值和所述第i轮训练的第二损失函数的取值确定第i轮训练的目标损失函数的取值;在所述第i轮训练的目标损失函数的取值满足所述第一收敛条件的情况下,结束训练;在所述第i轮训练的目标损失函数的取值不满足所述第一收敛条件的情况下,调整所述经过第i-1轮训练得到的通用图片生成模型中的参数,得到经过第i轮训练得到的通用图片生成模型。
在一个示例性的实施例中,使用所述目标特征提取模型对所述第i轮使用的样本图片和所述第i轮训练得到的生成图片分别进行特征提取,得到所述第i轮使用的样本图片的第一对象属性特征和所述第i轮训练得到的生成图片的第二对象属性特征,包括:使用所述目标特征提取模型对所述第i轮使用的样本图片进行目标检测,确定所述第i轮使用的样本图片中的N个对象;对所述N个对象中的每个对象进行特征提取,确定所述N个对象中的每个对象的第一属性特征集合,以得到所述第一对象属性特征,其中,所述第一对象属性特征包括所述第i轮使用的样本图片中的N个对象的N个第一属性特征集合;使用所述目标特征提取模型对所述第i轮训练得到的生成图片进行目标检测和特征提取,确定所述N个对象中的每个对象的第二属性特征集合,以得到所述第二对象属性特征,其中,所述第二对象属性特征包括所述第i轮训练得到的生成图片中的N个对象的N个第二属性特征集合。
在一个示例性的实施例中,根据所述第一对象属性特征和所述第二对象属性特征确定第i轮训练的第二损失函数的取值,包括:根据所述N个第一属性特征集合和所述N个第二属性特征集合确定所述N个对象的N个对象损失值,其中,所述N个对象损失值中的第j个对象的第j个对象损失值根据第j个第一属性特征集合和第j个第二属性特征集合确定,所述第j个第一属性特征集合为所述N个第一属性特征集合中与所述第j个对象对应的属性特征集合,所述第j个第二属性特征集合为所述N个第二属性特征集合中与所述第j个对象对应的属性特征集合;根据所述N个对象损失值确定所述第i轮训练的第二损失函数的取值。
在一个示例性的实施例中,根据所述N个第一属性特征集合和所述N个第二属性特征集合确定所述N个对象的N个对象损失值,包括:通过以下方式确定所述N个对象中的第j个对象的第j个对象损失值,以确定所述N个对象的N个对象损失值:根据第j个第一属性特征集合中的第j个对象的M个属性的M个第一属性特征和所述第j个第二属性特征集合中的所述M个属性的M个第二属性特征确定M个属性损失值;根据所述M个属性损失值确定所述第j个对象的第j个对象损失值。
在一个示例性的实施例中,根据所述N个对象损失值确定所述第i轮训练的第二损失函数的取值,包括:确定所述N个对象中每个对象对应的权重,得到N个权重值;根据所述N个对象损失值和所述N个权重值确定所述第i轮训练的第二损失函数的取值。
在一个示例性的实施例中,确定所述N个对象中每个对象对应的权重,得到N个权重值,包括:确定所述通用图片生成模型对所述N个对象的生成能力;根据所述通用图片生成模型对所述N个对象的生成能力确定所述N个权重值,其中,所述第j个对象损失值对应的权重值的大小与所述通用图片生成模型对所述第j个对象的生成能力正相关。
在一个示例性的实施例中,根据所述第i轮训练的第一损失函数的取值和所述第i轮训练的第二损失函数的取值确定第i轮训练的目标损失函数的取值,包括:确定目标权重值;将所述第i轮训练的第一损失函数的取值加上所述第i轮训练的第二损失函数的取值与所述目标权重值的乘积,得到所述第i轮训练的目标损失函数的取值。
在一个示例性的实施例中,使用所述第一训练样本集合对通用图片生成模型进行训练之前,所述方法还包括:获取第二训练样本集合,其中,所述第二训练样本集合中的每个训练样本包括:训练图片,所述训练图片中的每个对象的属性特征集合;使用所述第二训练样本集合对待训练的特征提取模型进行训练,直到所述待训练的特征提取模型的损失函数的取值满足预设的第二收敛条件,结束训练,将结束训练时的所述待训练的特征提取模型确定为目标特征提取模型,其中,在所述待训练的特征提取模型的损失函数的取值不满足预设的所述第二收敛条件的情况下,所述待训练的特征提取模型中的参数被调整。
在一个示例性的实施例中,将结束训练时的所述通用图片生成模型确定为目标图片生成模型之后,所述方法还包括:获取目标描述信息,其中,所述目标描述信息包括P个子描述信息,所述P个子描述信息中的每个子描述信息用于指示在图片中生成具有多个属性信息的目标对象;将所述目标描述信息输入至所述目标图片生成模型中,得到所述目标图片生成模型输出的目标图片,其中,所述目标图片中具有P个目标对象,所述目标图片中的每个目标对象具有对应的多个属性信息。
根据本申请实施例的另一方面,还提供了一种图片生成模型的训练装置,包括:获取模块,用于获取第一训练样本集合,其中,所述第一训练样本集合中的每个训练样本包括:样本图片,所述样本图片对应的描述信息;所述描述信息用于描述所述样本图片中的对象以及所述对象的属性信息;第一训练模块,用于使用所述第一训练样本集合对通用图片生成模型进行训练,直到目标损失函数的取值满足预设的第一收敛条件,结束训练,将结束训练时的所述通用图片生成模型确定为目标图片生成模型,其中,在所述目标损失函数的取值不满足预设的所述第一收敛条件的情况下,所述通用图片生成模型中的参数被调整;其中,所述目标损失函数的取值由第一损失函数的取值和第二损失函数的取值共同确定,所述第一损失函数为所述通用图片生成模型的损失函数,所述第二损失函数的取值为根据所述样本图片和生成图片各自的对象属性特征确定的取值,所述生成图片为所述通用图片生成模型根据所述样本图片对应的描述信息生成的图片,所述样本图片和生成图片各自的对象属性特征为目标特征提取模型对所述样本图片和所述生成图片分别进行特征提取得到的特征。
根据本申请实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述图片生成模型的训练方法。
根据本申请实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述图片生成模型的训练方法。
通过本申请,使用目标特征提取模型提取样本图片和生成图片的对象属性特征,并通过样本图片和生成图片之间的对象属性特征的损失进一步的约束通用图片生成模型的训练,进而提高了通用图片生成模型的图片生成效果,解决了通用图片生成模型的图片生成效果较差的问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请实施例的一种图片生成模型的训练方法的硬件环境示意图;
图2是根据本申请实施例的一种图片生成模型的训练方法的流程图;
图3是根据本申请实施例的一种模型训练的示意图;
图4是根据本申请实施例的一种图片生成模型的生成图片的示意图;
图5是根据本申请实施例的一种图片生成模型的训练装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例的一个方面,提供了一种图片生成模型的训练方法。该图片生成模型的训练方法广泛应用于智慧家庭(Smart Home)、智能家居、智能家用设备生态、智慧住宅(IntelligenceHouse)生态等全屋智能数字化控制应用场景。可选地,在本实施例中,上述图片生成模型的训练方法可以应用于如图1所示的由终端设备102和服务器104所构成的硬件环境中。如图1所示,服务器104通过网络与终端设备102进行连接,可用于为终端或终端上安装的客户端提供服务(如应用服务等),可在服务器上或独立于服务器设置数据库,用于为服务器104提供数据存储服务,可在服务器上或独立于服务器配置云计算和/或边缘计算服务,用于为服务器104提供数据运算服务。
上述网络可以包括但不限于以下至少之一:有线网络,无线网络。上述有线网络可以包括但不限于以下至少之一:广域网,城域网,局域网,上述无线网络可以包括但不限于以下至少之一:WIFI(Wireless Fidelity,无线保真),蓝牙。终端设备102可以并不限定于为PC、手机、平板电脑、智能空调、智能烟机、智能冰箱、智能烤箱、智能炉灶、智能洗衣机、智能热水器、智能洗涤设备、智能洗碗机、智能投影设备、智能电视、智能晾衣架、智能窗帘、智能影音、智能插座、智能音响、智能音箱、智能新风设备、智能厨卫设备、智能卫浴设备、智能扫地机器人、智能擦窗机器人、智能拖地机器人、智能空气净化设备、智能蒸箱、智能微波炉、智能厨宝、智能净化器、智能饮水机、智能门锁等。
为了解决上述问题,在本实施例中提供了一种图片生成模型的训练方法,图2是根据本申请实施例的一种图片生成模型的训练方法的流程图,该流程包括如下步骤:
步骤S202,获取第一训练样本集合,其中,所述第一训练样本集合中的每个训练样本包括:样本图片,所述样本图片对应的描述信息;所述描述信息用于描述所述样本图片中的对象以及所述对象的属性信息;
可选的,在所述样本图片中具有多个对象的情况下,所述样本图片中的对象的类型相同或者不同,或者部分相同。
作为一种可选的示例,对象为图片中物体、人物、动物等,对象包括但不限于:冰箱、洗衣机、柜子、地板等目标。
作为一种可选的示例,在对象为物体的情况下,对象的属性信息包括但不限于:物体的颜色信息、材质信息、视角信息、图案信息、嵌入信息。
步骤S204,使用所述第一训练样本集合对通用图片生成模型进行训练,直到目标损失函数的取值满足预设的第一收敛条件,结束训练,将结束训练时的所述通用图片生成模型确定为目标图片生成模型,其中,在所述目标损失函数的取值不满足预设的所述第一收敛条件的情况下,所述通用图片生成模型中的参数被调整;
其中,所述目标损失函数的取值由第一损失函数的取值和第二损失函数的取值共同确定,所述第一损失函数为所述通用图片生成模型的损失函数,所述第二损失函数的取值为根据所述样本图片和生成图片各自的对象属性特征确定的取值,所述生成图片为所述通用图片生成模型根据所述样本图片对应的描述信息生成的图片,所述样本图片和生成图片各自的对象属性特征为目标特征提取模型对所述样本图片和所述生成图片分别进行特征提取得到的特征。
需要说明的是,对象属性特征包括图片中每个对象的属性特征集合。
上述步骤,使用目标特征提取模型提取样本图片和生成图片的对象属性特征,并通过样本图片和生成图片之间的对象属性特征的损失进一步的约束通用图片生成模型的训练,进而提高了通用图片生成模型的图片生成效果,解决了通用图片生成模型的图片生成效果较差的问题。
可选的,上述步骤S202-S204的执行主体包括但不限于:处理器。可选的,处理器位于上述终端设备102或者服务器104中。
在一个示例性的实施例中,上述使用所述第一训练样本集合对通用图片生成模型进行训练,包括:通过以下步骤S11-S16执行第i轮训练,其中,i为大于或等于1的正整数,经过第0轮训练得到的通用图片生成模型是未经过训练的所述通用图片生成模型:
步骤S11:从所述第一训练样本集合中获取第i轮使用的训练样本,其中,所述第i轮使用的训练样本包括第i轮使用的样本图片,所述第i轮使用的样本图片对应的描述信息;
步骤S12:将第i轮使用的样本图片对应的描述信息输入到经过第i-1轮训练得到的通用图片生成模型中,得到第i轮训练得到的生成图片;
步骤S13:获取所述第i-1轮训练得到的通用图片生成模型根据所述第i轮使用的样本图片和所述第i轮训练得到的生成图片确定的第i轮训练的第一损失函数的取值;
步骤S14:使用所述目标特征提取模型对所述第i轮使用的样本图片和所述第i轮训练得到的生成图片分别进行特征提取,得到所述第i轮使用的样本图片的第一对象属性特征和所述第i轮训练得到的生成图片的第二对象属性特征;根据所述第一对象属性特征和所述第二对象属性特征确定第i轮训练的第二损失函数的取值;
需要说明的是,上述步骤S13和步骤S14是异步执行的,其没有执行的先后顺序。
步骤S15:根据所述第i轮训练的第一损失函数的取值和所述第i轮训练的第二损失函数的取值确定第i轮训练的目标损失函数的取值;
步骤S16:在所述第i轮训练的目标损失函数的取值满足所述第一收敛条件的情况下,结束训练;在所述第i轮训练的目标损失函数的取值不满足所述第一收敛条件的情况下,调整所述经过第i-1轮训练得到的通用图片生成模型中的参数,得到经过第i轮训练得到的通用图片生成模型。
在一个示例性的实施例中,上述使用所述目标特征提取模型对所述第i轮使用的样本图片和所述第i轮训练得到的生成图片分别进行特征提取,得到所述第i轮使用的样本图片的第一对象属性特征和所述第i轮训练得到的生成图片的第二对象属性特征包括:使用所述目标特征提取模型对所述第i轮使用的样本图片进行目标检测,确定所述第i轮使用的样本图片中的N个对象;对所述N个对象中的每个对象进行特征提取,确定所述N个对象中的每个对象的第一属性特征集合,以得到所述第一对象属性特征,其中,所述第一对象属性特征包括所述第i轮使用的样本图片中的N个对象的N个第一属性特征集合;使用所述目标特征提取模型对所述第i轮训练得到的生成图片进行目标检测和特征提取,确定所述N个对象中的每个对象的第二属性特征集合,以得到所述第二对象属性特征,其中,所述第二对象属性特征包括所述第i轮训练得到的生成图片中的N个对象的N个第二属性特征集合。
需要说明的是,N为正整数,作为一种可选的示例,N为大于5的正整数。
需要说明的是,在样本图片中具有目标对象,但对应的生成图片中不具备目标对象的情况下,则样本图片的第一对象属性特征中具有目标对象的第一属性特征集合,生成图片的第二对象属性特征中不具有目标对象的第二属性特征集合。
需要说明的是,在样本图片和对应的生成图片中均具有目标对象,但样本图片中具有目标对象的目标属性,而生成图片中不具有目标对象的目标属性的情况下,则第一对象属性特征中关于目标对象的第一属性特征集合中具有目标属性的属性特征,第二对象属性特征中关于目标对象的第二属性特征集合中不具有目标属性的属性特征。
在一个示例性的实施例中,上述根据所述第一对象属性特征和所述第二对象属性特征确定第i轮训练的第二损失函数的取值,可以通过以下步骤S21-S22实现:
步骤S21:根据所述N个第一属性特征集合和所述N个第二属性特征集合确定所述N个对象的N个对象损失值,其中,所述N个对象损失值中的第j个对象的第j个对象损失值根据第j个第一属性特征集合和第j个第二属性特征集合确定,所述第j个第一属性特征集合为所述N个第一属性特征集合中与所述第j个对象对应的属性特征集合,所述第j个第二属性特征集合为所述N个第二属性特征集合中与所述第j个对象对应的属性特征集合;
可选的,在第一对象属性特征中具有目标对象的第一属性特征集合,而第二对象属性特征中不具有目标对象的第二属性特征集合的情况下,则目标对象的损失值为预设阈值,且确定所述第i轮训练的目标损失函数的取值不满足所述第一收敛条件。
在一个示例性的实施例中,上述步骤S21包括:通过以下步骤S211-S212确定所述N个对象中的第j个对象的第j个对象损失值,以确定所述N个对象的N个对象损失值:
步骤S211:根据第j个第一属性特征集合中的第j个对象的M个属性的M个第一属性特征和所述第j个第二属性特征集合中的所述M个属性的M个第二属性特征确定M个属性损失值;
可选的,第j个对象的第k个属性的属性损失值根据第j个第一属性特征集合中第k个属性的属性特征和第j个第二属性特征集合中第k个属性的属性特征确定。
步骤S212:根据所述M个属性损失值确定所述第j个对象的第j个对象损失值。
可选的,可以将M个属性损失值进行加权求和,得到所述第j个对象的第j个对象损失值。
可选的,上述步骤S212包括:
;
其中,为第j个对象的第j个对象损失值,/>为第j个对象的第m个属性的属性损失值。/>为权重值,/>。
可选的,可以由用户进行设置,即用户如果倾向于通用图片生成模型对第m个属性的生成能力,则可以将/>相应的设置大一点。
可选的,在上述步骤S212之前,所述方法还包括:确定所述通用图片生成模型对不同属性的生成能力;根据通用图片生成模型对不同属性的生成能力确定所述M个属性损失值对应的M个权重值,其中,目标属性的属性损失值对应的权重值的大小与图片生成模型对目标属性的生成能力正相关,所述不同属性包括所述M个属性,所述不同属性包括所述目标属性。
例如,如果通用图片生成模型需要对颜色具有较好的生成能力,则处理器会对应的将颜色对应的属性损失值的权重值设置的大一点,如果通用图片生成模型不需要对图案具有较好的生成能力,则处理器会对应的将图案对应的属性损失值的权重值设置的小一点。
可选的,可以通过以下方式确定所述通用图片生成模型对不同属性的生成能力:获取第一指示信息,其中,所述第一指示信息用于指示所述通用图片生成模型对不同属性的生成能力。可选的,所述第一指示信息为训练通用图片生成模型的用户下发的信息。
可选的,还可以通过以下方式确定所述通用图片生成模型对不同属性的生成能力:获取场景描述信息,其中,所述场景描述信息用于指示所述通用图片生成模型生成的图片所处的场景;根据所述场景描述信息确定通用图片生成模型对不同属性的生成能力。
可选的,第j个第一属性特征集合中具有第j个对象的目标属性的属性特征,但第j个第二属性特征集合中不具有第j个对象的目标属性的属性特征的情况下,确定第j个对象的目标属性的属性损失值为预设阈值,且确定所述第i轮训练的目标损失函数的取值不满足所述第一收敛条件。
步骤S22:根据所述N个对象损失值确定所述第i轮训练的第二损失函数的取值。
在一个示例性的实施例中,上述步骤S22包括:确定所述N个对象中每个对象对应的权重,得到N个权重值;根据所述N个对象损失值和所述N个权重值确定所述第i轮训练的第二损失函数的取值。
可选的,N个权重值可以由用户进行设置,即用户如果倾向于图片生成模型对第j个对象的生成能力,则可以将第j个对象的权重相应的设置大一点。
可选的,根据所述N个对象损失值和所述N个权重值确定所述第i轮训练的第二损失函数的取值,包括:使用N个权重值对所述N个对象损失值进行加权求和。
也就是说,,其中,为第二损失函数的取值,/>为上述N个权重值,为第n个对象的对象损失值。
可选的,确定所述N个对象中每个对象对应的权重,得到N个权重值,包括:确定所述通用图片生成模型对所述N个对象的生成能力;根据所述通用图片生成模型对所述N个对象的生成能力确定所述N个权重值,其中,所述第j个对象损失值对应的权重值的大小与所述通用图片生成模型对所述第j个对象的生成能力正相关。
例如,如果通用图片生成模型需要对冰箱具有较好的生成能力,则处理器会对应的将冰箱对应的对象损失值的权重值设置的大一点,如果通用图片生成模型不需要对洗衣机具有较好的生成能力,则处理器会对应的将洗衣机对应的对象损失值的权重值设置的小一点。
可选的,可以通过以下方式确定所述通用图片生成模型对所述N个对象的生成能力:获取第二指示信息,其中,所述第二指示信息用于指示所述通用图片生成模型对所述N个对象的生成能力。可选的,所述第二指示信息为训练通用图片生成模型的用户下发的信息。
可选的,还可以通过以下方式确定所述通用图片生成模型对所述N个对象的生成能力:获取场景描述信息,其中,所述场景描述信息用于指示所述通用图片生成模型生成的图片所处的场景;根据所述场景描述信息确定通用图片生成模型对所述N个对象的生成能力。
在一个示例性的实施例中,上述步骤S15包括:确定目标权重值;将所述第i轮训练的第一损失函数的取值加上所述第i轮训练的第二损失函数的取值与所述目标权重值的乘积,得到所述第i轮训练的目标损失函数的取值。
也就是说,目标损失函数的取值,其中,Loss1为第一损失函数的取值,Loss2为第二损失函数的取值,a为目标权重值。
在一个示例性的实施例中,在上述步骤S204之前,所述方法还包括步骤S31-S32:
步骤S31:获取第二训练样本集合,其中,所述第二训练样本集合中的每个训练样本包括:训练图片,所述训练图片中的每个对象的属性特征集合;
步骤S32:使用所述第二训练样本集合对待训练的特征提取模型进行训练,直到所述待训练的特征提取模型的损失函数的取值满足预设的第二收敛条件,结束训练,将结束训练时的所述待训练的特征提取模型确定为目标特征提取模型,其中,在所述待训练的特征提取模型的损失函数的取值不满足预设的所述第二收敛条件的情况下,所述待训练的特征提取模型中的参数被调整。
也就是说,目标特征提取模型是通过监督学习的方法训练得到的。
可选的,目标特征提取模型在进行特征提取的时候,是先使用目标检测子模型对图片进行目标检测,确定所述目标图片中的对象以及对象的类型(例如,图片中具有冰箱、洗衣机、柜子、地板等),进而在检测出对象以后,确定该对象的属性,根据不同的属性,送入不同的属性提取网络进行属性特征提取。
在一个示例性的实施例中,在上述步骤S204之后,所述方法还包括步骤S41-S42:
步骤S41:获取目标描述信息,其中,所述目标描述信息包括P个子描述信息,所述P个子描述信息中的每个子描述信息用于指示在图片中生成具有多个属性信息的目标对象;
步骤S42:将所述目标描述信息输入至所述目标图片生成模型中,得到所述目标图片生成模型输出的目标图片,其中,所述目标图片中具有P个目标对象,所述目标图片中的每个目标对象具有对应的多个属性信息。
在一个示例性的实施例中,目标图片生成模型根据目标描述信息生成的目标图片可以如图4所示。
显然,上述所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。为了更好的理解上述方法,以下结合实施例对上述过程进行说明,但不用于限定本申请实施例的技术方案,具体地:
在一个可选的实施例中,本申请提出了一种新型的模型训练方法,在原始的文本生成图像模型(即上述实施例中的通用图片生成模型)的基础上添加多目标属性特征提取模块(即上述实施例中的目标特征提取模型),多目标属性特征提取模块用来提取样本图片(即用于训练模型的图片)和生成图片对应的多目标属性特征(即上述对象属性特征),通过计算训练图片和生成图片之间的多目标属性特征的损失,进一步帮助文本生成图像模型的训练,进而得到可以生成多目标的复杂家居场景图片(具体的,可以生成具有超过5个目标的复杂家居场景图片)。
多目标属性特征提取模块:该模块的作用是提取图片中的多目标属性特征,用来判断样本图片和生成图片是否一致;可以使用满足要求的多目标、多属性的家居场景图片的训练数据进行模型训练,训练完成后可以得到复杂家居场景的多目标属性特征提取模块。可选的,可以对现有的目标检测和目标识别模型(例如细粒度属性识别模型)进行训练,进而得到多目标属性特征提取模块。
可选的,将多目标属性特征提取模块与原始的文本生成图像模型相融合,则整个文本生成模型的训练的流程如图3所示。
需要说明的是,原始的文本生成图像的大模型在单一目标场景下,可以得到好的生成效果,原始的文本生成图像模型的损失函数为Loss1,则在原始损失函数的基础上添加提取的样本图片和生成图片之间的多目标属性特征损失Loss2,使用两种损失函数的方法对文本生成图像模型进行优化,使得训练完成的文本生成图像模型可以生成包含多目标属性的家居场景图片。
需要说明的是,在本申请中,训练文本生成图像模型的时候所使用的损失函数为:,其中,a指的是多目标属性特征损失函数的权重值。
图片的多目标属性特征提取:多目标属性特征提取模块可以从图片中确定包含的目标类别,例如:冰箱、洗衣机、柜子、地板等目标,然后针对不同的目标提取目标的属性特征,属性信息大致包含目标物体的颜色信息、材质信息、视角信息、图案信息、嵌入信息等。
需要说明的是,多目标属性特征损失Loss2:
;
;
其中表示目标物体1对应的损失,/>表示目标物体1的属性/>对应的损失,其中/>描述属性信息的种类,n表示目标物体的种类,其中,
;
;
其中,k表示不同目标对应的损失函数的权重值,r表示不同属性对应的损失函数的权重值。
需要说明的是,本申请通过增加多目标属性特征提取模块来调整文本生成图像模型训练时的损失函数,进而可以优化模型在多目标、多属性的复杂家居场景下的图片生成效果,解决了当前的文本生成图像模型无法生成多目标复杂场景图片的问题。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
在本实施例中还提供了一种图片生成模型的训练装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的设备较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5是根据本申请实施例的一种图片生成模型的训练装置的结构框图,该装置包括:
获取模块52,用于获取第一训练样本集合,其中,所述第一训练样本集合中的每个训练样本包括:样本图片,所述样本图片对应的描述信息;所述描述信息用于描述所述样本图片中的对象以及所述对象的属性信息;
第一训练模块54,用于使用所述第一训练样本集合对通用图片生成模型进行训练,直到目标损失函数的取值满足预设的第一收敛条件,结束训练,将结束训练时的所述通用图片生成模型确定为目标图片生成模型,其中,在所述目标损失函数的取值不满足预设的所述第一收敛条件的情况下,所述通用图片生成模型中的参数被调整;
其中,所述目标损失函数的取值由第一损失函数的取值和第二损失函数的取值共同确定,所述第一损失函数为所述通用图片生成模型的损失函数,所述第二损失函数的取值为根据所述样本图片和生成图片各自的对象属性特征确定的取值,所述生成图片为所述通用图片生成模型根据所述样本图片对应的描述信息生成的图片,所述样本图片和生成图片各自的对象属性特征为目标特征提取模型对所述样本图片和所述生成图片分别进行特征提取得到的特征。
上述装置,使用目标特征提取模型提取样本图片和生成图片的对象属性特征,并通过样本图片和生成图片之间的对象属性特征的损失进一步的约束通用图片生成模型的训练,进而提高了通用图片生成模型的图片生成效果,解决了通用图片生成模型的图片生成效果较差的问题。
在一个示例性的实施例中,第一训练模块54,还用于通过以下步骤执行第i轮训练,其中,i为大于或等于1的正整数,经过第0轮训练得到的通用图片生成模型是未经过训练的所述通用图片生成模型:从所述第一训练样本集合中获取第i轮使用的训练样本,其中,所述第i轮使用的训练样本包括第i轮使用的样本图片,所述第i轮使用的样本图片对应的描述信息;将第i轮使用的样本图片对应的描述信息输入到经过第i-1轮训练得到的通用图片生成模型中,得到第i轮训练得到的生成图片;获取所述第i-1轮训练得到的通用图片生成模型根据所述第i轮使用的样本图片和所述第i轮训练得到的生成图片确定的第i轮训练的第一损失函数的取值;以及使用所述目标特征提取模型对所述第i轮使用的样本图片和所述第i轮训练得到的生成图片分别进行特征提取,得到所述第i轮使用的样本图片的第一对象属性特征和所述第i轮训练得到的生成图片的第二对象属性特征;根据所述第一对象属性特征和所述第二对象属性特征确定第i轮训练的第二损失函数的取值;根据所述第i轮训练的第一损失函数的取值和所述第i轮训练的第二损失函数的取值确定第i轮训练的目标损失函数的取值;在所述第i轮训练的目标损失函数的取值满足所述第一收敛条件的情况下,结束训练;在所述第i轮训练的目标损失函数的取值不满足所述第一收敛条件的情况下,调整所述经过第i-1轮训练得到的通用图片生成模型中的参数,得到经过第i轮训练得到的通用图片生成模型。
在一个示例性的实施例中,第一训练模块54,还用于使用所述目标特征提取模型对所述第i轮使用的样本图片进行目标检测,确定所述第i轮使用的样本图片中的N个对象;对所述N个对象中的每个对象进行特征提取,确定所述N个对象中的每个对象的第一属性特征集合,以得到所述第一对象属性特征,其中,所述第一对象属性特征包括所述第i轮使用的样本图片中的N个对象的N个第一属性特征集合;使用所述目标特征提取模型对所述第i轮训练得到的生成图片进行目标检测和特征提取,确定所述N个对象中的每个对象的第二属性特征集合,以得到所述第二对象属性特征,其中,所述第二对象属性特征包括所述第i轮训练得到的生成图片中的N个对象的N个第二属性特征集合。
在一个示例性的实施例中,第一训练模块54,还用于根据所述N个第一属性特征集合和所述N个第二属性特征集合确定所述N个对象的N个对象损失值,其中,所述N个对象损失值中的第j个对象的第j个对象损失值根据第j个第一属性特征集合和第j个第二属性特征集合确定,所述第j个第一属性特征集合为所述N个第一属性特征集合中与所述第j个对象对应的属性特征集合,所述第j个第二属性特征集合为所述N个第二属性特征集合中与所述第j个对象对应的属性特征集合;根据所述N个对象损失值确定所述第i轮训练的第二损失函数的取值。
在一个示例性的实施例中,第一训练模块54,还用于通过以下方式确定所述N个对象中的第j个对象的第j个对象损失值,以确定所述N个对象的N个对象损失值:根据第j个第一属性特征集合中的第j个对象的M个属性的M个第一属性特征和所述第j个第二属性特征集合中的所述M个属性的M个第二属性特征确定M个属性损失值;根据所述M个属性损失值确定所述第j个对象的第j个对象损失值。
在一个示例性的实施例中,第一训练模块54,还用于确定所述N个对象中每个对象对应的权重,得到N个权重值;根据所述N个对象损失值和所述N个权重值确定所述第i轮训练的第二损失函数的取值。
在一个示例性的实施例中,第一训练模块54,还用于确定所述通用图片生成模型对所述N个对象的生成能力;根据所述通用图片生成模型对所述N个对象的生成能力确定所述N个权重值,其中,所述第j个对象损失值对应的权重值的大小与所述通用图片生成模型对所述第j个对象的生成能力正相关。
在一个示例性的实施例中,第一训练模块54,还用于确定目标权重值;将所述第i轮训练的第一损失函数的取值加上所述第i轮训练的第二损失函数的取值与所述目标权重值的乘积,得到所述第i轮训练的目标损失函数的取值。
在一个示例性的实施例中,所述装置还包括:第二训练模块,用于使用所述第一训练样本集合对通用图片生成模型进行训练之前,获取第二训练样本集合,其中,所述第二训练样本集合中的每个训练样本包括:训练图片,所述训练图片中的每个对象的属性特征集合;使用所述第二训练样本集合对待训练的特征提取模型进行训练,直到所述待训练的特征提取模型的损失函数的取值满足预设的第二收敛条件,结束训练,将结束训练时的所述待训练的特征提取模型确定为目标特征提取模型,其中,在所述待训练的特征提取模型的损失函数的取值不满足预设的所述第二收敛条件的情况下,所述待训练的特征提取模型中的参数被调整。
在一个示例性的实施例中,所述装置还包括:生成模块,用于将结束训练时的所述通用图片生成模型确定为目标图片生成模型之后,获取目标描述信息,其中,所述目标描述信息包括P个子描述信息,所述P个子描述信息中的每个子描述信息用于指示在图片中生成具有多个属性信息的目标对象;将所述目标描述信息输入至所述目标图片生成模型中,得到所述目标图片生成模型输出的目标图片,其中,所述目标图片中具有P个目标对象,所述目标图片中的每个目标对象具有对应的多个属性信息。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取第一训练样本集合,其中,所述第一训练样本集合中的每个训练样本包括:样本图片,所述样本图片对应的描述信息;所述描述信息用于描述所述样本图片中的对象以及所述对象的属性信息;
S2,使用所述第一训练样本集合对通用图片生成模型进行训练,直到目标损失函数的取值满足预设的第一收敛条件,结束训练,将结束训练时的所述通用图片生成模型确定为目标图片生成模型,其中,在所述目标损失函数的取值不满足预设的所述第一收敛条件的情况下,所述通用图片生成模型中的参数被调整;
其中,所述目标损失函数的取值由第一损失函数的取值和第二损失函数的取值共同确定,所述第一损失函数为所述通用图片生成模型的损失函数,所述第二损失函数的取值为根据所述样本图片和生成图片各自的对象属性特征确定的取值,所述生成图片为所述通用图片生成模型根据所述样本图片对应的描述信息生成的图片,所述样本图片和生成图片各自的对象属性特征为目标特征提取模型对所述样本图片和所述生成图片分别进行特征提取得到的特征。
在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
本申请的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取第一训练样本集合,其中,所述第一训练样本集合中的每个训练样本包括:样本图片,所述样本图片对应的描述信息;所述描述信息用于描述所述样本图片中的对象以及所述对象的属性信息;
S2,使用所述第一训练样本集合对通用图片生成模型进行训练,直到目标损失函数的取值满足预设的第一收敛条件,结束训练,将结束训练时的所述通用图片生成模型确定为目标图片生成模型,其中,在所述目标损失函数的取值不满足预设的所述第一收敛条件的情况下,所述通用图片生成模型中的参数被调整;
其中,所述目标损失函数的取值由第一损失函数的取值和第二损失函数的取值共同确定,所述第一损失函数为所述通用图片生成模型的损失函数,所述第二损失函数的取值为根据所述样本图片和生成图片各自的对象属性特征确定的取值,所述生成图片为所述通用图片生成模型根据所述样本图片对应的描述信息生成的图片,所述样本图片和生成图片各自的对象属性特征为目标特征提取模型对所述样本图片和所述生成图片分别进行特征提取得到的特征。
在一个示例性实施例中,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (13)
1.一种图片生成模型的训练方法,其特征在于,包括:
获取第一训练样本集合,其中,所述第一训练样本集合中的每个训练样本包括:样本图片,所述样本图片对应的描述信息;所述描述信息用于描述所述样本图片中的对象以及所述对象的属性信息;
使用所述第一训练样本集合对通用图片生成模型进行训练,直到目标损失函数的取值满足预设的第一收敛条件,结束训练,将结束训练时的所述通用图片生成模型确定为目标图片生成模型,其中,在所述目标损失函数的取值不满足预设的所述第一收敛条件的情况下,所述通用图片生成模型中的参数被调整;
其中,所述目标损失函数的取值由第一损失函数的取值和第二损失函数的取值共同确定,所述第一损失函数为所述通用图片生成模型的损失函数,所述第二损失函数的取值为根据所述样本图片和生成图片各自的对象属性特征确定的取值,所述生成图片为所述通用图片生成模型根据所述样本图片对应的描述信息生成的图片,所述样本图片和生成图片各自的对象属性特征为目标特征提取模型对所述样本图片和所述生成图片分别进行特征提取得到的特征。
2.根据权利要求1所述的方法,其特征在于,使用所述第一训练样本集合对通用图片生成模型进行训练,包括:
通过以下步骤执行第i轮训练,其中,i为大于或等于1的正整数,经过第0轮训练得到的通用图片生成模型是未经过训练的所述通用图片生成模型:
从所述第一训练样本集合中获取第i轮使用的训练样本,其中,所述第i轮使用的训练样本包括第i轮使用的样本图片,所述第i轮使用的样本图片对应的描述信息;
将第i轮使用的样本图片对应的描述信息输入到经过第i-1轮训练得到的通用图片生成模型中,得到第i轮训练得到的生成图片;
获取所述第i-1轮训练得到的通用图片生成模型根据所述第i轮使用的样本图片和所述第i轮训练得到的生成图片确定的第i轮训练的第一损失函数的取值;以及
使用所述目标特征提取模型对所述第i轮使用的样本图片和所述第i轮训练得到的生成图片分别进行特征提取,得到所述第i轮使用的样本图片的第一对象属性特征和所述第i轮训练得到的生成图片的第二对象属性特征;根据所述第一对象属性特征和所述第二对象属性特征确定第i轮训练的第二损失函数的取值;
根据所述第i轮训练的第一损失函数的取值和所述第i轮训练的第二损失函数的取值确定第i轮训练的目标损失函数的取值;
在所述第i轮训练的目标损失函数的取值满足所述第一收敛条件的情况下,结束训练;在所述第i轮训练的目标损失函数的取值不满足所述第一收敛条件的情况下,调整所述经过第i-1轮训练得到的通用图片生成模型中的参数,得到经过第i轮训练得到的通用图片生成模型。
3.根据权利要求2所述的方法,其特征在于,使用所述目标特征提取模型对所述第i轮使用的样本图片和所述第i轮训练得到的生成图片分别进行特征提取,得到所述第i轮使用的样本图片的第一对象属性特征和所述第i轮训练得到的生成图片的第二对象属性特征,包括:
使用所述目标特征提取模型对所述第i轮使用的样本图片进行目标检测,确定所述第i轮使用的样本图片中的N个对象;对所述N个对象中的每个对象进行特征提取,确定所述N个对象中的每个对象的第一属性特征集合,以得到所述第一对象属性特征,其中,所述第一对象属性特征包括所述第i轮使用的样本图片中的N个对象的N个第一属性特征集合;
使用所述目标特征提取模型对所述第i轮训练得到的生成图片进行目标检测和特征提取,确定所述N个对象中的每个对象的第二属性特征集合,以得到所述第二对象属性特征,其中,所述第二对象属性特征包括所述第i轮训练得到的生成图片中的N个对象的N个第二属性特征集合。
4.根据权利要求3所述的方法,其特征在于,根据所述第一对象属性特征和所述第二对象属性特征确定第i轮训练的第二损失函数的取值,包括:
根据所述N个第一属性特征集合和所述N个第二属性特征集合确定所述N个对象的N个对象损失值,其中,所述N个对象损失值中的第j个对象的第j个对象损失值根据第j个第一属性特征集合和第j个第二属性特征集合确定,所述第j个第一属性特征集合为所述N个第一属性特征集合中与所述第j个对象对应的属性特征集合,所述第j个第二属性特征集合为所述N个第二属性特征集合中与所述第j个对象对应的属性特征集合;
根据所述N个对象损失值确定所述第i轮训练的第二损失函数的取值。
5.根据权利要求4所述的方法,其特征在于,根据所述N个第一属性特征集合和所述N个第二属性特征集合确定所述N个对象的N个对象损失值,包括:
通过以下方式确定所述N个对象中的第j个对象的第j个对象损失值,以确定所述N个对象的N个对象损失值:
根据第j个第一属性特征集合中的第j个对象的M个属性的M个第一属性特征和所述第j个第二属性特征集合中的所述M个属性的M个第二属性特征确定M个属性损失值;
根据所述M个属性损失值确定所述第j个对象的第j个对象损失值。
6.根据权利要求4所述的方法,其特征在于,根据所述N个对象损失值确定所述第i轮训练的第二损失函数的取值,包括:
确定所述N个对象中每个对象对应的权重,得到N个权重值;
根据所述N个对象损失值和所述N个权重值确定所述第i轮训练的第二损失函数的取值。
7.根据权利要求6所述的方法,其特征在于,确定所述N个对象中每个对象对应的权重,得到N个权重值,包括:
确定所述通用图片生成模型对所述N个对象的生成能力;
根据所述通用图片生成模型对所述N个对象的生成能力确定所述N个权重值,其中,所述第j个对象损失值对应的权重值的大小与所述通用图片生成模型对所述第j个对象的生成能力正相关。
8.根据权利要求2所述的方法,其特征在于,根据所述第i轮训练的第一损失函数的取值和所述第i轮训练的第二损失函数的取值确定第i轮训练的目标损失函数的取值,包括:
确定目标权重值;
将所述第i轮训练的第一损失函数的取值加上所述第i轮训练的第二损失函数的取值与所述目标权重值的乘积,得到所述第i轮训练的目标损失函数的取值。
9.根据权利要求1所述的方法,其特征在于,使用所述第一训练样本集合对通用图片生成模型进行训练之前,所述方法还包括:
获取第二训练样本集合,其中,所述第二训练样本集合中的每个训练样本包括:训练图片,所述训练图片中的每个对象的属性特征集合;
使用所述第二训练样本集合对待训练的特征提取模型进行训练,直到所述待训练的特征提取模型的损失函数的取值满足预设的第二收敛条件,结束训练,将结束训练时的所述待训练的特征提取模型确定为目标特征提取模型,其中,在所述待训练的特征提取模型的损失函数的取值不满足预设的所述第二收敛条件的情况下,所述待训练的特征提取模型中的参数被调整。
10.根据权利要求1所述的方法,其特征在于,将结束训练时的所述通用图片生成模型确定为目标图片生成模型之后,所述方法还包括:
获取目标描述信息,其中,所述目标描述信息包括P个子描述信息,所述P个子描述信息中的每个子描述信息用于指示在图片中生成具有多个属性信息的目标对象;
将所述目标描述信息输入至所述目标图片生成模型中,得到所述目标图片生成模型输出的目标图片,其中,所述目标图片中具有P个目标对象,所述目标图片中的每个目标对象具有对应的多个属性信息。
11.一种图片生成模型的训练装置,其特征在于,包括:
获取模块,用于获取第一训练样本集合,其中,所述第一训练样本集合中的每个训练样本包括:样本图片,所述样本图片对应的描述信息;所述描述信息用于描述所述样本图片中的对象以及所述对象的属性信息;
第一训练模块,用于使用所述第一训练样本集合对通用图片生成模型进行训练,直到目标损失函数的取值满足预设的第一收敛条件,结束训练,将结束训练时的所述通用图片生成模型确定为目标图片生成模型,其中,在所述目标损失函数的取值不满足预设的所述第一收敛条件的情况下,所述通用图片生成模型中的参数被调整;
其中,所述目标损失函数的取值由第一损失函数的取值和第二损失函数的取值共同确定,所述第一损失函数为所述通用图片生成模型的损失函数,所述第二损失函数的取值为根据所述样本图片和生成图片各自的对象属性特征确定的取值,所述生成图片为所述通用图片生成模型根据所述样本图片对应的描述信息生成的图片,所述样本图片和生成图片各自的对象属性特征为目标特征提取模型对所述样本图片和所述生成图片分别进行特征提取得到的特征。
12.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行权利要求1至10中任一项所述的方法。
13.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行权利要求1至10中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410173839.9A CN117726908B (zh) | 2024-02-07 | 2024-02-07 | 图片生成模型的训练方法及装置、存储介质、电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410173839.9A CN117726908B (zh) | 2024-02-07 | 2024-02-07 | 图片生成模型的训练方法及装置、存储介质、电子装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117726908A CN117726908A (zh) | 2024-03-19 |
CN117726908B true CN117726908B (zh) | 2024-05-24 |
Family
ID=90207335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410173839.9A Active CN117726908B (zh) | 2024-02-07 | 2024-02-07 | 图片生成模型的训练方法及装置、存储介质、电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117726908B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197525A (zh) * | 2017-11-20 | 2018-06-22 | 中国科学院自动化研究所 | 人脸图像生成方法及装置 |
CN111047507A (zh) * | 2019-11-29 | 2020-04-21 | 北京达佳互联信息技术有限公司 | 图像生成模型的训练方法、图像生成方法及装置 |
WO2021098338A1 (zh) * | 2019-11-19 | 2021-05-27 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、媒体信息合成的方法及相关装置 |
CN113448477A (zh) * | 2021-08-31 | 2021-09-28 | 南昌航空大学 | 交互式图像编辑方法、装置、可读存储介质及电子设备 |
CN114329025A (zh) * | 2021-10-29 | 2022-04-12 | 南京南邮信息产业技术研究院有限公司 | 基于对抗生成网络的跨模态文本到图像生成方法 |
CN115346082A (zh) * | 2022-07-29 | 2022-11-15 | 青岛海尔科技有限公司 | 图像的生成方法、装置、存储介质及电子装置 |
CN116484083A (zh) * | 2023-03-31 | 2023-07-25 | 海尔优家智能科技(北京)有限公司 | 菜品信息的显示方法和装置、存储介质及电子装置 |
CN117173501A (zh) * | 2023-08-03 | 2023-12-05 | 中国电信股份有限公司技术创新中心 | 一种图像检测模型的训练方法、图像检测方法及相关装置 |
CN117173269A (zh) * | 2023-09-01 | 2023-12-05 | 杭州海康威视数字技术股份有限公司 | 一种人脸图像生成方法、装置、电子设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11521716B2 (en) * | 2019-04-16 | 2022-12-06 | Covera Health, Inc. | Computer-implemented detection and statistical analysis of errors by healthcare providers |
-
2024
- 2024-02-07 CN CN202410173839.9A patent/CN117726908B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197525A (zh) * | 2017-11-20 | 2018-06-22 | 中国科学院自动化研究所 | 人脸图像生成方法及装置 |
WO2021098338A1 (zh) * | 2019-11-19 | 2021-05-27 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、媒体信息合成的方法及相关装置 |
CN111047507A (zh) * | 2019-11-29 | 2020-04-21 | 北京达佳互联信息技术有限公司 | 图像生成模型的训练方法、图像生成方法及装置 |
CN113448477A (zh) * | 2021-08-31 | 2021-09-28 | 南昌航空大学 | 交互式图像编辑方法、装置、可读存储介质及电子设备 |
CN114329025A (zh) * | 2021-10-29 | 2022-04-12 | 南京南邮信息产业技术研究院有限公司 | 基于对抗生成网络的跨模态文本到图像生成方法 |
CN115346082A (zh) * | 2022-07-29 | 2022-11-15 | 青岛海尔科技有限公司 | 图像的生成方法、装置、存储介质及电子装置 |
CN116484083A (zh) * | 2023-03-31 | 2023-07-25 | 海尔优家智能科技(北京)有限公司 | 菜品信息的显示方法和装置、存储介质及电子装置 |
CN117173501A (zh) * | 2023-08-03 | 2023-12-05 | 中国电信股份有限公司技术创新中心 | 一种图像检测模型的训练方法、图像检测方法及相关装置 |
CN117173269A (zh) * | 2023-09-01 | 2023-12-05 | 杭州海康威视数字技术股份有限公司 | 一种人脸图像生成方法、装置、电子设备和存储介质 |
Non-Patent Citations (4)
Title |
---|
AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks;Tao Xu et al.;《2018 IEEE/CVF Conference on Computer Vision and Pattern Rcognition 》;20181216;第1316-1324页 * |
Modality Disentangled Discriminator for Text-to-Image Synthesis;Fangxiang Feng et al.;《IEEE TRANSACTIONS ON MULTIMEDIA》;20221231;第2112-2124页 * |
基于Transformer的场景图生成图像算法研究;赵鑫;《中国优秀硕士学位论文全文数据库 信息科技辑》;20240115;I138-1484 * |
基于生成对抗网络的文本生成风格图像研究;李杭芮;《中国优秀硕士学位论文全文数据库 信息科技辑 》;20240115;I138-945 * |
Also Published As
Publication number | Publication date |
---|---|
CN117726908A (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113485144B (zh) | 基于物联网的智能家居控制方法及系统 | |
CN109358546B (zh) | 家用电器的控制方法、装置和系统 | |
CN114821236A (zh) | 智慧家庭环境感知方法、系统、存储介质及电子装置 | |
CN114855416B (zh) | 洗涤程序的推荐方法及装置、存储介质及电子装置 | |
CN111222553A (zh) | 机器学习模型的训练数据处理方法、装置和计算机设备 | |
CN106899656B (zh) | 设备控制方法和装置 | |
CN117726908B (zh) | 图片生成模型的训练方法及装置、存储介质、电子装置 | |
CN117456089A (zh) | 三维场景的生成方法、装置、存储介质及电子装置 | |
CN112541556A (zh) | 模型构建优化方法、设备、介质及计算机程序产品 | |
CN116775964A (zh) | 数字模型的展示方法及装置、存储介质及电子装置 | |
WO2024001189A1 (zh) | 食物存储信息的确定方法及装置、存储介质及电子装置 | |
CN114915514B (zh) | 意图的处理方法和装置、存储介质及电子装置 | |
CN116431852A (zh) | 环境状态可视化方法、装置、存储介质及电子装置 | |
CN114992970B (zh) | 清洁指令的发送方法、装置、存储介质及电子装置 | |
CN116484083A (zh) | 菜品信息的显示方法和装置、存储介质及电子装置 | |
CN115345225A (zh) | 推荐场景的确定方法及装置、存储介质及电子装置 | |
CN111104952A (zh) | 识别食物种类的方法、系统及装置、冰箱 | |
CN114332470A (zh) | 图像处理方法、装置、电子设备和计算机可读存储介质 | |
CN117746214A (zh) | 基于大模型生成图像的文本调整方法、装置、存储介质 | |
CN117689980B (zh) | 构建环境识别模型的方法、识别环境的方法及装置、设备 | |
CN117541913A (zh) | 基于数字孪生的部署场景的生成方法和装置 | |
CN117710234B (zh) | 基于大模型的图片生成方法、装置、设备和介质 | |
CN117744970A (zh) | 人员与岗位的匹配方法、装置、存储介质及电子装置 | |
CN117725423B (zh) | 基于大模型的反馈信息的生成方法及装置 | |
CN115314332B (zh) | 设备主题的设置方法及装置、存储介质及电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |