CN114913303A - 虚拟形象生成方法及相关装置、电子设备、存储介质 - Google Patents
虚拟形象生成方法及相关装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN114913303A CN114913303A CN202210395741.9A CN202210395741A CN114913303A CN 114913303 A CN114913303 A CN 114913303A CN 202210395741 A CN202210395741 A CN 202210395741A CN 114913303 A CN114913303 A CN 114913303A
- Authority
- CN
- China
- Prior art keywords
- image
- feature
- target
- avatar
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000003860 storage Methods 0.000 title claims abstract description 13
- 238000009826 distribution Methods 0.000 claims abstract description 142
- 238000005070 sampling Methods 0.000 claims description 30
- 238000000513 principal component analysis Methods 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 description 31
- 238000013507 mapping Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 11
- 238000000605 extraction Methods 0.000 description 9
- 238000013459 approach Methods 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 230000010365 information processing Effects 0.000 description 4
- 230000002194 synthesizing effect Effects 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 3
- 241000555745 Sciuridae Species 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 239000003086 colorant Substances 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 241000894007 species Species 0.000 description 2
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000037308 hair color Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/20—Finite element generation, e.g. wire-frame surface description, tesselation
- G06T17/205—Re-meshing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- Processing Or Creating Images (AREA)
Abstract
本申请公开了一种虚拟形象生成方法及相关装置、电子设备、存储介质,其中,虚拟形象生成方法包括:获取用户对期望虚拟形象的描述文本,并获取若干形象特征;基于各形象特征分别与描述文本的文本特征进行形象生成,得到候选虚拟形象;响应于用户选择候选虚拟形象作为目标虚拟形象,获取符合目标虚拟形象的特征分布的特征表示作为新的形象特征;基于新的形象特征和文本特征生成最终虚拟形象。上述方案,能够在满足个性化的虚拟形象生成需求基础上,减少虚拟形象生成的时长和成本,并降低对硬件设备的要求。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种虚拟形象生成方法及相关装置、电子设备、存储介质。
背景技术
近年来,以HoloLens、Quest2、Google Glass等为代表的混合现实产品逐渐进入大众视野。作为虚拟世界中重要的信息表达载体—虚拟形象,在诸如智能手机助手、虚拟电商主播、虚拟明显等线上场景和诸如银行、地铁、医院等线下场景多点开花,并呈现扩展趋势。
目前,虚拟形象生成主要使用CG(Computer Graphics,计算机图形学)技术建模,若要实现个性化,则需要从建模开始修改,制作时间较长,人力成本较高,且对设备硬件要求较高。有鉴于此,如何在满足个性化的虚拟形象生成需求基础上,减少虚拟形象生成的时长和成本,并降低对硬件设备的要求,成为亟待解决的问题。
发明内容
本申请主要解决的技术问题是提供一种虚拟形象生成方法及相关装置、电子设备、存储介质,能够提升问题回答的准确性。
为了解决上述技术问题,本申请第一方面提供了一种虚拟形象生成方法,包括:获取用户对期望虚拟形象的描述文本,并获取若干形象特征;基于各形象特征分布与描述文本的文本特征进行形象生成,得到候选虚拟形象;响应于用户选择候选虚拟形象作为目标虚拟形象,获取符合目标虚拟形象的特征分布的特征表示作为新的形象特征;基于新的形象特征和文本特征生成最终虚拟形象。
为了解决上述技术问题,本申请第二方面提供了一种虚拟形象生成装置,包括:获取模块、生成模块、响应模块和循环模块,获取模块,用于获取用户对期望虚拟形象的描述文本,并获取若干形象特征;生成模块,用于基于各形象特征分别与描述文本的文本特征进行形象生成,得到候选虚拟形象;响应模块,用于响应于用户选择候选虚拟形象作为目标虚拟形象,获取符合目标虚拟形象的特征分布的特征表示作为新的形象特征;循环模块,用于基于新的形象特征和文本特征生成最终虚拟形象。
为了解决上述技术问题,本申请第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面的虚拟形象生成方法。
为了解决上述技术问题,本申请第四方面提供了一种计算机可读存储介质,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面的虚拟形象生成方法。
上述方案,获取用户对期望虚拟形象的描述文本,并获取若干形象特征,再基于各形象特征分别与描述文本的文本特征进行形象生成,得到候选虚拟形象,以及响应于用户选择候选虚拟形象作为目标虚拟形象,获取符合目标虚拟形象的特征分布的特征表示作为新的形象特征,并基于新的形象特征和文本特征生成最终虚拟形象。也就是说,在虚拟形象生成过程中,一方面无需依赖于计算机图形建模,另一方面由于在初始阶段分别获取若干形象特征以生成符合各种特征分布的候选虚拟形象,从而在后续阶段通过用户选择的候选虚拟形象再次进行形象生成,进而能够尽可能地符合用户个性化期望。故此,能够在满足个性化的虚拟形象生成需求基础上,减少虚拟形象生成的时长和成本,并降低对硬件设备的要求。
附图说明
图1是本申请虚拟形象生成方法一实施例的流程示意图;
图2是形象生成模型一实施例的框架示意图;
图3是训练形象生成模型一实施例的流程示意图;
图4是训练形象生成模型一实施例的过程示意图;
图5是本申请虚拟形象生成装置一实施例的框架示意图;
图6是本申请电子设备一实施例的框架示意图;
图7是本申请计算机可读存储介质一实施例的框架示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
请参阅图1,图1是本申请虚拟形象生成方法一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S11:获取用户对期望虚拟形象的描述文本,并获取若干形象特征。
在一个实施场景中,需要说明的是,如无特别说明,本公开实施例所述的“虚拟形象”(如,期望虚拟形象、最终虚拟形象、样本虚拟形象等)可以包括但不限于:人、动物、植物等,在此不做限定。示例性地,在应用于诸如幼儿教育等场景时,“虚拟形象”可以是可爱的小朋友;在应用于诸如动物保护等场景时,“虚拟形象”可以是可爱的小松鼠;在应用于诸如植物保护等场景时,“虚拟形象”可以是挺拔的小树苗。其他情况可以以此类推,在此不再一一举例。
在一个实施场景中,需要说明的是,本公开实施例所述的“虚拟形象”(如,期望虚拟形象、最终虚拟形象、样本虚拟形象等)可以以图像数据(如,二维图像数据、三维图像数据等)来表示。具体地,可以通过RGB图像数据表现出虚拟形象的线条、色彩等。此外,本公开实施例所述的“虚拟形象”也可以以网格数据(如,三角网格数据)来表示。具体地,可以通过三角网格数据表现出虚拟形象的三维轮廓等。具体“虚拟形象”的具体表现方式,可以根据实际情况进行设置,在此不做限定。
在一个实施场景中,在正式生成虚拟形象之前,用户可以将对期望虚拟形象通过文本进行描述,以限定出期望虚拟形象的各种属性(如,是人是物、何种风格等)。示例性地,在期望虚拟形象为“可爱的小朋友”的情况下,描述文本可以为“可爱的小朋友”,或者,描述文本可以更加具体为“可爱的小女孩”或“可爱的小男孩”等;或者,在期望虚拟形象为“可爱的小松鼠”的情况下,描述文本可以为“可爱的小松鼠”,在期望虚拟形象为“挺拔的小树苗”的情况下,描述文本可以为“挺拔的小树苗”。其他情况可以以此类推,在此不再一一举例。可以理解地,在现实场景中,对期望虚拟形象的描述文本越准确越具体,越有助于快速生成与期望虚拟形象尽可能接近的最终虚拟形象。
在一个实施场景中,为了在首次形象生成之后,能够得到尽可能多样化的候选虚拟形象,使得其中包含尽可能贴近于期望虚拟形象的候选虚拟形象,以满足后续用户选择所需,若干形象特征可以分别符合各种不同类型虚拟形象的特征分布。此外,若干形象特征的具体数量也可以设置地尽可能多一些,如可以设置为2个、3个、4个、5个等,在此不做限定。
示例性地,作为一种可能的实施方式,可以先采集不同类型的样本虚拟形象,再分别对各个样本虚拟形象进行特征提取,即可得到上述若干形象特征。
示例性地,作为另一种可能的实施方式,可以预先获取若干候选特征分布,且若干候选特征分布分别表征不同类型虚拟形象的特征分布。在此基础上,可以分别从各候选特征分布采样即可得到上述若干形象特征。需要说明的是,在“虚拟形象”是人的情况下,若干候选特征分布可以包括分别表征不同人种、服饰、发饰、背景等虚拟形象的特征分布;或者,在“虚拟形象”是动物的情况下,若干候选特征分布可以包括分别表征不同物种、毛色、背景等虚拟形象的特征分布;或者,在“虚拟形象”是植物的情况下,若干候选特征分布可以包括分别表征不同物种、叶色、花色等虚拟形象的特征分布。其他情况可以以此类推,在此不再一一举例。
在一个实施场景中,特征分布可以包括但不限于特征均值、特征方差等,在此不做限定。示例性地,在后续通过维度为N的特征向量来表示虚拟形象的形象特征的情况下,特征分布可以包括但不限于每一维特征的特征均值和特征方差,在此不做限定。
在一个实施场景中,如前所述,候选特征分布可以包括但不限于每一维特征的特征均值和特征方差等参数。在此基础上,在从每个候选特征分布进行采样得到形象特征的过程中,可以基于该候选特征分布每一维特征的特征均值和特征方差采样得到该维度的特征元素,并将从该候选特征分布采样得到的各个维度特征的特征元素组合,作为从该候选特征分布采样得到的形象特征。仍以候选特征分布共包含D维特征的特征均值和特征方差为例,则在采样第i个维度的特征元素时,可以在 区间随机采样得到第i个维度的特征元素,其中,表示第j个候选特征分布中第i个维度特征的特征均值,表示第j个候选特征分布中第i个维度特征的特征方差。在此基础上,对于每个候选特征分布而言,均可以从其采样得到一个D维的形象特征。
在一个实施场景中,可以预先采集若干样本虚拟形象,并基于若干样本虚拟形象获取各个候选特征分布。具体而言,可以先基于主成分分析提取各个样本虚拟形象的样本形象特征,再基于执行主成分分析所得到的前预设数值个主成分,得到预设数值个聚类中心的中心特征。在此基础上,可以基于各个中心特征对样本形象特征进行聚类,得到分别表征不同类型虚拟形象的候选特征分布。需要说明的是,主成分分析(Principal ComponentsAnalysis,PCA)其数学定义为一个正交化线性变换,把数据变换到一个新的坐标系统中,使得这一数据的任何投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析的算法流程,可以参阅主成分分析的技术细节,在此不再赘述。上述方式,先基于主成分分析提取得到样本虚拟形象,再通过前预设数值个主成分进行聚类,得到表征不同虚拟类型虚拟形象的候选特征分布,故能够在无监督的情况下进行特征聚类,有助于提升候选特征分布的准确性。
在一个具体的实施场景中,为了进一步提升候选特征分布的准确性,可以在利用主成分分析进行特征提取之前,先将样本虚拟形象进行预处理。以样本虚拟形象采用图像数据表示为例,可以对图像数据进行特征点对齐处理,使样本虚拟形象统一位于图像数据的预设位置(如中间位置)。示例性地,样本虚拟形象为人的情况下,可以对人脸数据进行特征点对齐,使之五官在图像中的位置一致(如,均为中间位置)。为了便于描述,可以对齐后的图像可以记为Ialign m,其中,m其取值范围为0至M,M为样本虚拟形象的总数。在此基础上,可以基于主成分分析提取得到样本形象特征。
在一个具体的实施场景中,可以对各样本虚拟形象进行编码,得到样本编码特征,再基于主成分分析将样本编码特征投影到正交空间,得到样本形象特征。仍以样本虚拟形象为以图像数据表示的人为例,可以采用预先训练的神经网络(如,人脸识别网络)对样本虚拟形象(如,前述对齐后的图像Ialign m)进行处理,并取该神经网络最后一个网络层(如全连接层)的输出作为样本编码特征Fm,该特征可以表示为1*1*D维的向量,D可以根据实际情况进行设置,如可以设置为128、256等,在此不做限定。在此基础上,为了使每个聚类中心区分度更大,可以通过主成分分析将样本编码特征投影到相互正交的超维空间,从而可以保证投影后向量的总能量不低于99%。为了便于描述,可以将样本形象特征表示为Fpca m。上述方式,对各样本虚拟形象进行编码,得到样本编码特征,并基于主成分分析将样本编码特征重投影至正交空间,得到样本形象特征,能够每个聚类中心区分度更大,进而能够提升候选特征分布的准确性。
在一个具体的实施场景中,在得到样本形象特征之后,可以采用混合高斯模型(Gaussian Mixture Models,GMM)进行无监督聚类。此外,为了使后续基于候选特征分布所生成的虚拟形象更为丰富,可以根据前预设数值个主成分确定聚类中心的中心特征。具体而言,预设数值C可以根据实际情况进行设置,如可以设置为10、20等,在此不做限定。在此基础上,可以取每个主成分的特征值乘以特征向量作为其中一个聚类中心的中心特征。基于C个聚类中心的中心特征,即可采用混合高斯模型进行聚类,得到C个候选特征分布。如前所述,候选特征分布可以包括但不限于每一维特征的特征均值和特征方差等参数,具体可以通过最大期望(Expectation-Maximization,EM)算法得到混合高斯模型每个聚类中心的参数。参数获取的具体过程,可以参阅最大期望算法的技术细节,在此不再赘述。
步骤S12:基于各形象特征分别与描述文本的文本特征进行形象生成,得到候选虚拟形象。
在一个实施场景中,为了提升文本特征的准确性,可以先对描述文本进行分词以及关键词提取,并将关键词进行组合得到新的描述文本。在此基础上,基于诸如BERT(Bidirectional Encoder Representation from Transformers,双向Transformer的Encoder)等预训练语言模型对新的描述文本进行特征提取,得到文本特征。此外,文本特征的具体提取过程,可以参阅诸如BERT等预训练语言模型的技术细节,在此不再赘述。
在一个具体的实施场景中,示例性地,以描述文本“一位在可爱的小女孩正在沙滩上玩耍”为例,可以先对其进行分词,并提取得到关键词“可爱的小女孩”,得到新的描述文本“可爱的小女孩”。
在一个具体的实施场景中,经预训练语言模型提取之后,即可得到维度为1*S*D的文本特征,其中,S表示码长(即新的描述文本的长度),D表示编码维度。示例性地,以新的描述文本包含n个关键字为例,新的描述文本中第i个关键字可以记为Ki,该关键字对应的编码向量可以记为Tci。其他情况可以以此类推,在此不再一一举例。
需要说明的是,在通过候选特征分布采样得到形象特征的情况下,在现实场景中,既可以先进行特征采样,再提取文本特征,或者,也可以先提取文本特征,再进行特征采样,或者,也可以同时执行特征采样和提取文本特征的操作,在此不做限定。此外,在得到若干形象特征和文本特征之后,即可基于形象特征和文本特征进行形象生成,得到候选虚拟形象,进而对于每个形象特征均可执行上述形象生成,从而得到对应的候选虚拟形象。
在一个实施场景中,为了提升生成虚拟形象的效率,可以预先训练一个形象生成模型,从而候选虚拟形象可以由形象生成模型生成得到。具体来说,形象生成模型可以基于若干样本虚拟形象训练得到,且样本虚拟形象可以标注有样本描述文本。需要说明的是,样本虚拟形象的具体含义,可以参阅前述相关描述,在此不再赘述。此外,形象生成模型可以包括但不限于若干顺序连接的网络层(如,反卷积层),在此对形象生成模型的网络结构不做限定。形象生成模型的训练过程,可以参阅下述公开实施例,在此暂不赘述。上述方式,候选虚拟形象由形象生成模型生成得到,形象生成模型基于若干样本虚拟形象训练得到,样本虚拟形象标注有样本描述文本,一方面能够提升生成虚拟形象的效率,另一方面由于候选特征分布也基于若干样本虚拟形象获取得到,故能够保持模型训练和特征聚类两个过程的数据一致性,有利于提升生成虚拟形象的准确性。
在一个具体的实施场景中,对于每一候选特征分布采样得到的形象特征而言,可以将其与描述文本的文本特征进行拼接,得到拼接特征。示例性地,仍以文本特征表示为1*S*D维度的特征向量且形象特征表示为1*1*D维度的特征向量为例,两者拼接之后可以得到1*1*(S+1)*D维度的拼接特征。在此基础上,可以将拼接特征进行特征映射,得到预设数值个映射特征。需要说明的是,形象生成网络可以包括预设数值个网络层(如,反卷积层),则各个映射特征可以分别输入到至形象生成网络的网络层,以控制不同层级网络层的内容合成,最终即可生成得到符合该候选特征分布的候选虚拟形象。
在一个具体的实施场景中,请结合参阅图2,图2是形象生成模型一实施例的框架示意图。如图2所示,形象生成模型可以包括映射网络和生成网络,映射网络可以包括n个顺序连接的全连接(Fully Connected,FC)层,以及m个并行连接的全连接层。基于此,拼接特征经n个顺序连接的全连接层之后,可以得到第一映射特征W,且第一映射特征W经m(如,18)个顺序连接的全连接层之后,可以得到m个第二映射特征,即前述映射特征。此外,生成网络可以包括k个顺序连接的网络层(如,反卷积层),前述m个映射特征分别输入至不同网络层,以控制不同层级图像内容的合成,从而得到候选虚拟形象。需要说明的是,图2所示仅仅为形象生成模型在实际应用过程中一种可能的实施方式,并不因此而限定形象生成模型的具体结构。
步骤S13:响应于用户选择候选虚拟形象作为目标虚拟形象,获取符合目标虚拟形象的特征分布的特征表示作为新的形象特征。
在一个实施场景中,用户可以选择其中至少一个趋近于期望虚拟形象的候选虚拟形象作为目标虚拟形象,以继续生成虚拟形象,从而使得继续生成的虚拟形象更加趋近于期望虚拟形象。当然,在后续生成之前,需要先获取符合目标虚拟形象的特征分布的特征表示,作为新的形象特征。示例性地,请结合参阅图2,以共有5个候选特征分布为例,为便于描述,可以分别记为1号候选特征分布、2号候选特征分布、3号候选特征分布、4号候选特征分布和5号候选特征分布,经上述处理,可以分别对应生成得到1号候选虚拟形象、2号候选虚拟形象、3号候选虚拟形象、4号候选虚拟形象和5号候选虚拟形象。在一种可能的情况下,用户可以选择其中一个候选虚拟形象,如选择2号候选虚拟形象,作为目标虚拟形象,此时可以获取符合2号候选特征分布的特征表示作为新的形象特征;或者,在另一种可能的情况下,用户可以选择其中多个(如,两个、三个、四个等)候选虚拟形象,如选择2号候选虚拟形象和3号候选虚拟形象,分别作为目标虚拟形象,此时可以获取符合2号候选特征分布的特征表示作为新的形象特征,并获取符合3号候选特征分布的特征表示作为新的形象特征。其他情况可以以此类推,在此不再一一举例。
在一个具体的实施场景中,为获取符合目标虚拟形象的特征分布的特征表示,以得到新的形象特征,可以基于目标特征插值得到新的信息特征。需要说明的是,目标特征为生成得到目标虚拟形象的形象特征。示例性地,以前述选择2号候选虚拟形象作为目标虚拟形象为例,可以将从2号候选特征分布采样的形象特征作为目标特征。其他情况可以以此类推,在此不再一一举例。此外,基于目标特征进行插值的具体过程,可以参阅诸如线性插值、球形插值等插值算法的技术细节,在此不再赘述。上述方式,基于目标特征插值得到新的形象特征,且目标特征为生成得到目标虚拟形象的形象特征,从而能够直接通过插值算法得到符合目标虚拟形象的特征分布的特征表示,进而能够提升生成新的形象特征的便利性。
在一个具体的实施场景中,区别于前述通过插值算法得到符合目标虚拟形象的特征分布的特征表示,如前所述,若干形象特征可以分别从若干候选特征分布采样得到,若干候选特征分布分别表征不同类型虚拟形象的特征分布,则还可以在目标特征分布采样得到新的形象特征。需要说明的是,目标特征分布即为采样得到目标特征的候选特征分布。示例性地,以前述选择2号候选虚拟形象作为目标虚拟形象为例,可以将2号候选特征分布作为目标特征分布。其他情况可以以此类推,在此不再一一举例。此外,基于目标特征分布进行采样的具体过程,可以参阅前述基于候选特征分布进行采样的相关描述,在此不再赘述。上述方式,在目标特征分布采样得到新的形象特征,从而能够通过重新采样得到符合目标虚拟形象的特征分布的特征表示,进而能够提升生成新的形象特征的准确性。
在一个实施场景中,不同于用户选择至少一个趋近于期望虚拟形象的候选虚拟形象作为目标虚拟形象,用户也可以直接确定其中至少一个候选虚拟形象作为最终虚拟形象。也就是说,在实际应用过程中,也可能第一轮生成的若干候选虚拟形象中就有满足用户期望的虚拟形象,此时用户可以直接选择其作为最终虚拟形象。在此情况下,可以直接结束后续流程。
步骤S14:基于新的形象特征和文本特征生成最终虚拟形象。
在一个实施场景中,可以基于新的形象特征和文本特征生成得到新的候选虚拟形象,具体生成过程,可以参阅前述基于形象特征和描述文本的文本特征生成候选虚拟形象的相关描述,在此不再赘述。在此基础上,可以直接将新的候选虚拟形象,作为最终虚拟形象。
在一个实施场景中,为了使最终虚拟形象能够无限趋近于期望虚拟形象,可以基于新的形象特征,重新执行前述分别基于各形象特征和描述文本的文本特征生成候选虚拟形象的步骤以及后续步骤,直至用户选择至少一个候选虚拟形象作为最终虚拟形象为止。也就是说,在得到新的形象特征之后,可以再次执行前述基于各形象特征和描述文本的文本特征生成候选虚拟形象的步骤,此时若用户选择候选虚拟形象作为最终虚拟形象,则可以结束流程,反之若用户选择候选虚拟形象作为新的目标虚拟形象,则可以继续获取符合新的目标虚拟形象的特征分布的特征表示,作为新的形象特征,并再次循环执行上述流程。上述方式,基于新的形象特征,重新执行分别基于各形象特征和描述文本的文本特征生成候选虚拟形象的步骤以及后续步骤,直至用户选择至少一个候选虚拟形象作为最终虚拟形象为止,故通过多次迭代生成虚拟形象,能够使生成的虚拟形象无线趋近于用户的期望虚拟形象,且不同于预先构建包含有限数量候选虚拟形象的数据库,并在数据库中选择最终虚拟形象的方式,通过每次迭代过程中重新获取新的形象特征,能够在每次迭代过程中生成出全新的虚拟形象,进而能够尽可能提升候选虚拟形象的丰富度,提升用户选择出无限趋近期望虚拟形象的最终虚拟形象的可能性,有助于大大提升用户满意度。
上述方案,获取用户对期望虚拟形象的描述文本,并获取若干形象特征,再基于各形象特征分别与描述文本的文本特征进行形象生成,得到候选虚拟形象,以及响应于用户选择候选虚拟形象作为目标虚拟形象,获取符合目标虚拟形象的特征分布的特征表示作为新的形象特征,并基于新的形象特征和文本特征生成最终虚拟形象。也就是说,在虚拟形象生成过程中,一方面无需依赖于计算机图形建模,另一方面由于在初始阶段分别获取若干形象特征以生成符合各种特征分布的候选虚拟形象,从而在后续阶段通过用户选择的候选虚拟形象再次进行形象生成,进而基于其所生成的最终虚拟形象能够尽可能地符合用户个性化期望。故此,能够在满足个性化的虚拟形象生成需求基础上,减少虚拟形象生成的时长和成本,并降低对硬件设备的要求。
请参阅图3,图3是训练形象生成模型一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S31:选择样本虚拟形象作为样本目标形象,并将样本目标形象所标注的样本描述文本作为样本目标文本。
本公开实施例中,如前所述,候选虚拟形象由形象生成模型生成得到,形象生成模型基于若干样本虚拟形象训练得到,样本虚拟形象标注有样本描述文本。在此情况下,可以选择任一样本虚拟形象作为样本目标形象,并将该样本目标形象所标注的样本描述文本作为样本目标文本。
步骤S32:基于样本目标形象提取目标形象特征,并基于样本目标文本提取目标文本特征。
具体而言,提取目标文本特征的具体过程,可以参阅前述公开实施例中关于提取描述文本的文本特征的相关描述,在此不再赘述。此外,提取目标形象特征的具体过程,可以参阅前述公开实施例中关于提取样本形象特征的相关描述,在此不再赘述。为了便于描述,可以将目标文本特征记为Tc。
步骤S33:获取与目标形象特征符合相同特征分布的正例形象特征,并获取与目标形象特征不符合相同特征分布的负例形象特征。
具体而言,如前所述,候选特征分布基于若干样本虚拟形象获取得到,且具体可以通过主成分分析、特征聚类等过程得到,具体可以参阅前述公开实施例中相关描述,在此不再赘述。在此情况下,可以在目标形象特征符合的候选特征分布采样得到正例形象特征,在目标形象特征不符合的候选特征分布采样得到负例形象特征。
在一个实施场景中,可以将提取到目标形象特征的样本目标形象所在聚类对应的候选特征分布,作为正例特征分布,并从正例特征分布采样得到正例形象特征,类似地,可以将若干候选特征分布中正例特征分布以外的任一候选特征分布,作为负例特征分布,并从负例特征分布采样得到负例形象特征。
在一个实施场景中,示例性地,请结合参阅图4,图4是训练形象生成模型一实施例的过程示意图。如图4所示,若干样本虚拟形象经主成分分析、特征聚类等过程之后,可以得到五个候选特征分布,则对于所选择的样本目标形象而言,可以选择其所在聚类对应的候选特征分布作为正例特征分布,并选择其他候选特征分布作为负例特征分布。在此基础上,可以基于样本目标形象提取得到目标形象特征Fanchor,并从正例特征分布采样得到正例形象特征Fpos,以及从负例特征分布采样得到负例形象特征Fneg。特别地,可以从正例特征分布的[-2σ,2σ]区间采样得到正例形象特征,并从负例特征分布的的[-2σ,2σ]区间采样得到负例形象特征。具体采样过程,可以参阅前述公开实施例中关于分别从各候选特征分布采样得到形象特征的相关描述,在此不再赘述。
步骤S34:分别基于目标形象特征、正例形象特征和负例形象特征中一者与目标文本特征,得到合成目标形象、合成正例形象和合成负例形象。
具体而言,可以基于目标形象特征Fanchor和目标文本特征Tc,合成得到合成目标形象,并基于正例形象特征Fpos和目标文本特征Tc,合成得到合成正例形象,以及基于负例形象特征Fneg和目标文本特征Tc,合成得到合成负例形象。例如,可以将目标文本特征Tc和目标形象特征Fanchor、正例形象特征Fpos和负例形象特征Fneg拼接形成3*1*(S+1)*D维度的张量,记为B,作为映射网络的输入,经映射网络中一系列顺序连接的全连接层之后可以得到张量W,并经映射网络中一系列并联连接的全连接层之后可以得到若干个(如,18个)新的特征张量,如可以记为[W1,W2,…,W18]。在此基础上,可以将该组张量分别输入至生成网络的不同层,用于控制不同层级图像内容的生成,具体过程可以参阅前述公开实施例中关于分别基于各形象特征和描述文本的文本特征生成候选虚拟形象的相关描述,在此不再赘述。为了便于描述,可以将合成目标形象记为Ianchor,将合成正例形象记为Ipos,将合成负例形象记为Ineg。
步骤S35:基于合成目标形象、合成正例形象和合成负例形象,调整形象生成模型的网络参数。
在一个实施场景中,为了约束合成目标形象、合成正例形象和合成负例形象在语义层面均与样本目标文本具有一定的相似度,可以基于样本目标文本分别与合成目标形象、合成正例形象、合成负例形象之间的语义相似度,得到第一损失,并基于第一损失,调整网络参数。上述方式,基于样本目标文本分别与合成目标形象、合成正例形象、合成负例形象之间的语义相似度,得到第一损失,并基于第一损失,调整网络参数,能够尽可能地确保合成目标形象、合成正例形象、合成负例形象三者均与样本目标文本均有一致语义,有助于提升形象生成模型对输入文本的语义理解,尽可能地避免形象生成模型生成与输入文本无语义关联的虚拟形象,有利于提升形象生成模型的模型性能。
在一个具体的实施场景中,为了获取样本目标文本和合成虚拟形象两种不同模态数据的语义特征,可以预先训练用于提取不同模态数据语义特征的预训练网络,如可以为CLIP网络,预训练网络的具体结构以及训练过程,可以参阅诸如CLIP网络的技术细节,在此不再赘述。需要说明的是,预训练网络可以包含图像编码器(如图4中人脸特征提取器)和文本编码器(如图4中文本特征提取器),在此基础上,可以采用图像编码器分别提取合成目标形象、合成正例形象、合成负例形象三者的语义特征,分别记为ICanchor、ICpos、ICneg,与此同时,可以采用文本编码器提取样本目标文本的语义特征,记为TCanchor。
在一个具体的实施场景中,在训练过程中,可以约束合成目标形象、合成正例形象、合成负例形象三者的语义特征为ICanchor、ICpos、ICneg均尽可能地接近于样本目标文本的语义特征TCanchor。在此情况下,第一损失Lsim可以表示为:
Lsim=3-[cos(TCanchor,ICanchor)+cos(TCanchor,ICpos)+cos(TCanchor,ICneg)]……(1)
上述公式(1)中,cos()表示余弦相似度,具体计算公式,可以参阅余弦相似度的技术细节,在此不再赘述。
在一个实施场景中,为了进一步约束不同合成虚拟形象之间的差异,在基于第一损失,调整网络参数之前,还可以进一步基于合成目标形象与合成正例形象之间的语义差异,以及合成目标形象与合成负例形象之间的语义差异,得到第二损失,从而可以基于第一损失和第二损失,调整网络参数。上述方式,基于合成目标形象与合成正例形象之间的语义差异,以及合成目标形象与合成负例形象之间的语义差异,得到第二损失,并基于第一损失和第二损失,调整网络参数,能够尽可能地提升符合不同特征分布的形象特征生成出的虚拟形象之间的区分度,有利于提升形象生成模型的模型性能。
在一个具体的实施场景中,可以采用诸如L2范数度量合成目标形象与合成正例形象之间的语义差异,以及合成目标形象与合成负例形象之间的语义差异,在此基础上,可以采用三元组损失处理上述两种语义差异,以拉近合成目标形象与合成正例形象的语义特征,并推远合成目标形象与合成负例形象的语义特征。
在一个具体的实施场景中,第二损失Ltriplet可以表示为:
Ltriplet=||ICanchor-ICpos||2 2—||ICanchor-ICneg||2 2+margin……(2)
上述公式(2)中,||||2表示L2范数,margin表示度量间距,具体数值可以不做限定。
在一个实施场景中,除上述第一损失和第二损失,还可以通过对抗损失来约束生成得到的虚拟形象的分布,使之和真实分布尽可能一致。具体而言,对抗损失Ladv可以表示为:
Ladv=Ez~Pz[fw(G(z))]-Ex~pr[fw(x)]……(3)
上述公式(3)中,G(z)表示由形象生成模型生成的虚拟形象(如,前述合成目标形象、合成正例形象、合成负例形象),x表示真实的虚拟形象(如,前述样本目标形象),fw表示分布函数,E表示分布函数的期望值。关于对抗损失的具体含义,可以参阅生成对抗网络的技术细节,在此不再赘述。
在一个实施场景中,除上述第一损失、第二损失和对抗损失,还可以通过特征匹配损失来进行约束,使模型训练更加稳定。具体而言,特征匹配损失LFM可以表示为:
LFM=∑L l=0||Dl(Ifake),Dl(Ireal)||2 2……(4)
上述公式(4)中,Ifake表示由形象生成模型生成的虚拟形象(如,前述合成目标形象、合成正例形象、合成负例形象),Ireal表示真实的虚拟形象(如,前述样本目标形象),l表示判别器D中第l层网络层,则Dl(Ifake)表示Ifake经判别器D中第l层网络层处理之后输出的特征,Dl(Ireal)表示Ireal经判别器D中第l层网络层处理之后输出的特征。此外,||||2表示L2范数。
在一个实施场景中,上述第一损失、第二损失、对抗损失和特征匹配损失可以进行加权处理,得到加权损失,并基于加权损失,调整网络参数。示例性地,可以采用梯度下降等优化方式,基于加权损失,调整形象生成模型的网络参数。此外,加权损失Ltotal可以表示为:
Ltotal=α1*Lsim+α2*Ladv+α3*LFM+α1*Ltriplet……(5)
上述方案,选择样本虚拟形象作为样本目标形象,并将样本目标形象所标注的样本描述文本作为样本目标文本,基于样本目标形象提取目标形象特征,并基于样本目标文本提取目标文本特征。在此基础上,再获取与目标形象特征符合相同特征分布的正例形象特征,获取与目标形象特征不符合相同特征分布的负例形象特征,并分别基于目标形象特征、正例形象特征和负例形象特征中一者与目标文本特征,得到合成目标形象、合成正例形象和合成负例形象,再基于合成目标形象、合成正例形象和合成负例形象,调整形象生成模型的网络参数,能够尽可能地提升形象生成模型的模型性能。
请参阅图5,图5是本申请虚拟形象生成装置50一实施例的框架示意图。虚拟形象生成装置50包括:获取模块51、生成模块52、响应模块53和循环模块54,获取模块51,用于获取用户对期望虚拟形象的描述文本,并获取若干形象特征;生成模块52,用于基于各形象特征分别与描述文本的文本特征进行形象生成,得到候选虚拟形象;响应模块53,用于响应于用户选择候选虚拟形象作为目标虚拟形象,获取符合目标虚拟形象的特征分布的特征表示作为新的形象特征;循环模块54,用于基于新的形象特征和文本特征生成最终虚拟形象。
上述方案,在虚拟形象生成过程中,一方面无需依赖于计算机图形建模,另一方面由于在初始阶段分别获取若干形象特征以生成符合各种特征分布的候选虚拟形象,从而在后续阶段通过用户选择的候选虚拟形象再次进行形象生成,进而基于其所生成的最终虚拟形象能够尽可能地符合用户个性化期望。故此,能够在满足个性化的虚拟形象生成需求基础上,减少虚拟形象生成的时长和成本,并降低对硬件设备的要求。
在一些公开实施例中,候选虚拟形象由形象生成模型生成得到,形象生成模型基于若干样本虚拟形象训练得到,样本虚拟形象标注有样本描述文本。
因此,候选虚拟形象由形象生成模型生成得到,形象生成模型基于若干样本虚拟形象训练得到,样本虚拟形象标注有样本描述文本,能够提升生成虚拟形象的效率。
在一些公开实施例中,虚拟形象生成装置50包括样本选择模块,用于选择样本虚拟形象作为样本目标形象,并将样本目标形象所标注的样本描述文本作为样本目标文本;虚拟形象生成装置50包括样本提取模块,用于基于样本目标形象提取目标形象特征,并基于样本目标文本提取目标文本特征;虚拟形象生成装置50包括样本采样模块,用于获取与目标形象特征符合相同特征分布的正例形象特征,并获取与目标形象特征不符合相同特征分布的负例形象特征;虚拟形象生成装置50包括样本合成模块,用于分别基于目标形象特征、正例形象特征和负例形象特征中一者与目标文本特征,得到合成目标形象、合成正例形象和合成负例形象;虚拟形象生成装置50包括参数调整模块,用于基于合成目标形象、合成正例形象和合成负例形象,调整形象生成模型的网络参数。
因此,选择样本虚拟形象作为样本目标形象,并将样本目标形象所标注的样本描述文本作为样本目标文本,基于样本目标形象提取目标形象特征,并基于样本目标文本提取目标文本特征。在此基础上,再获取与目标形象特征符合相同特征分布的正例形象特征,获取与目标形象特征不符合相同特征分布的负例形象特征,并分别基于目标形象特征、正例形象特征和负例形象特征中一者与目标文本特征,得到合成目标形象、合成正例形象和合成负例形象,再基于合成目标形象、合成正例形象和合成负例形象,调整形象生成模型的网络参数,能够尽可能地提升形象生成模型的模型性能。
在一些公开实施例中,参数调整模块包括第一度量子模块,用于基于样本目标文本分别与合成目标形象、合成正例形象、合成负例形象之间的语义相似度,得到第一损失;参数调整模块包括网络参数调整子模块,用于基于第一损失,调整网络参数。
因此,基于样本目标文本分别与合成目标形象、合成正例形象、合成负例形象之间的语义相似度,得到第一损失,并基于第一损失,调整网络参数,能够尽可能地确保合成目标形象、合成正例形象、合成负例形象三者均与样本目标文本均有一致语义,有助于提升形象生成模型对输入文本的语义理解,尽可能地避免形象生成模型生成与输入文本无语义关联的虚拟形象,有利于提升形象生成模型的模型性能。
在一些公开实施例中,参数调整模块包括第二度量子模块,用于基于合成目标形象与合成正例形象之间的语义差异,以及合成目标形象与合成负例形象之间的语义差异,得到第二损失;网络参数调整子模块具体用于基于第一损失和第二损失,调整网络参数。
因此,基于合成目标形象与合成正例形象之间的语义差异,以及合成目标形象与合成负例形象之间的语义差异,得到第二损失,并基于第一损失和第二损失,调整网络参数,能够尽可能地提升符合不同特征分布的形象特征生成出的虚拟形象之间的区分度,有利于提升形象生成模型的模型性能。
在一些公开实施例中,若干形象特征分别从若干候选特征分布采样得到,若干候选特征分布分别表征不同类型虚拟形象的特征分布,且候选特征分布基于若干样本虚拟形象获取得到。
因此,通过从若干候选特征分布采样得到若干形象特征,且若干候选特征分布分别表征不同类型虚拟形象的特征分布,而候选特征分布基于若干样本虚拟形象获取得到,故能够尽可能确保形象特征的多样性。
在一些公开实施例中,虚拟形象生成装置50包括主成分分析模块,用于基于主成分分析提取各个样本虚拟形象的样本形象特征;虚拟形象生成装置50包括中心特征获取模块,用于基于执行主成分分析所得到的前预设数值个主成分,得到预设数值个聚类中心的中心特征;虚拟形象生成装置50包括特征聚类模块,用于基于各个中心特征对样本形象特征进行聚类,得到分别表征不同类型虚拟形象的候选特征分布。
因此,先基于主成分分析提取得到样本虚拟形象,再通过前预设数值个主成分进行聚类,得到表征不同虚拟类型虚拟形象的候选特征分布,故能够在无监督的情况下进行特征聚类,有助于提升候选特征分布的准确性。
在一些公开实施例中,主成分分析模块包括形象编码子模块,用于对各样本虚拟形象进行编码,得到样本编码特征;主成分分析模块包括特征投影子模块,用于基于主成分分析将样本编码特征重投影至正交空间,得到样本形象特征。
因此,对各样本虚拟形象进行编码,得到样本编码特征,并基于主成分分析将样本编码特征重投影至正交空间,得到样本形象特征,能够每个聚类中心区分度更大,进而能够提升候选特征分布的准确性。
在一些公开实施例中,响应模块包括第一响应子模块,用于基于目标特征插值得到新的形象特征,响应模块包括第二响应子模块,用于在目标特征分布采样得到新的形象特征;其中,目标特征为生成得到目标虚拟形象的形象特征,若干形象特征分别从若干候选特征分布采样得到,若干候选特征分布分别表征不同类型虚拟形象的特征分布,目标特征分布为采样得到目标特征的候选特征分布。
因此,基于目标特征插值得到新的形象特征,且目标特征为生成得到目标虚拟形象的形象特征,从而能够直接通过插值算法得到符合目标虚拟形象的特征分布的特征表示,进而能够提升生成新的形象特征的便利性;而在目标特征分布采样得到新的形象特征,从而能够通过重新采样得到符合目标虚拟形象的特征分布的特征表示,进而能够提升生成新的形象特征的准确性。
在一些公开实施例中,循环模块具体用于基于新的形象特征,重新执行分别基于各形象特征和描述文本的文本特征生成候选虚拟形象的步骤以及后续步骤,直至用户选择至少一个候选虚拟形象作为最终虚拟形象为止。
因此,基于新的形象特征,重新执行分别基于各形象特征和描述文本的文本特征生成候选虚拟形象的步骤以及后续步骤,直至用户选择至少一个候选虚拟形象作为最终虚拟形象为止,故通过多次迭代生成虚拟形象,能够使生成的虚拟形象无线趋近于用户的期望虚拟形象,且不同于预先构建包含有限数量候选虚拟形象的数据库,并在数据库中选择最终虚拟形象的方式,通过每次迭代过程中重新获取新的形象特征,能够在每次迭代过程中生成出全新的虚拟形象,进而能够尽可能提升候选虚拟形象的丰富度,提升用户选择出无限趋近期望虚拟形象的最终虚拟形象的可能性,有助于大大提升用户满意度。
请参阅图6,图6是本申请电子设备60一实施例的框架示意图。电子设备60包括相互耦接的存储器61和处理器62,存储器61中存储有程序指令,处理器62用于执行程序指令以实现上述任一虚拟形象生成方法实施例中的步骤。具体地,电子设备60可以包括但不限于:台式计算机、笔记本电脑、服务器、手机、平板电脑等等,在此不做限定。
具体而言,处理器62用于控制其自身以及存储器61以实现上述任一虚拟形象生成方法实施例中的步骤。处理器62还可以称为CPU(Central Processing Unit,中央处理单元)。处理器62可能是一种集成电路芯片,具有信号的处理能力。处理器62还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器62可以由集成电路芯片共同实现。
上述方案,在虚拟形象生成过程中,一方面无需依赖于计算机图形建模,另一方面由于在初始阶段分别获取若干形象特征以生成符合各种特征分布的候选虚拟形象,从而在后续阶段通过用户选择的候选虚拟形象再次进行形象生成,进而基于其所生成的最终虚拟形象能够尽可能地符合用户个性化期望。故此,能够在满足个性化的虚拟形象生成需求基础上,减少虚拟形象生成的时长和成本,并降低对硬件设备的要求。
请参阅图7,图7是本申请计算机可读存储介质70一实施例的框架示意图。计算机可读存储介质70存储有能够被处理器运行的程序指令71,程序指令71用于实现上述任一虚拟形象生成方法实施例中的步骤。
上述方案,在虚拟形象生成过程中,一方面无需依赖于计算机图形建模,另一方面由于在初始阶段分别获取若干形象特征以生成符合各种特征分布的候选虚拟形象,从而在后续阶段通过用户选择的候选虚拟形象再次进行形象生成,进而基于其所生成的最终虚拟形象能够尽可能地符合用户个性化期望。故此,能够在满足个性化的虚拟形象生成需求基础上,减少虚拟形象生成的时长和成本,并降低对硬件设备的要求。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
若本申请技术方案涉及个人信息,应用本申请技术方案的产品在处理个人信息前,已明确告知个人信息处理规则,并取得个人自主同意。若本申请技术方案涉及敏感个人信息,应用本申请技术方案的产品在处理敏感个人信息前,已取得个人单独同意,并且同时满足“明示同意”的要求。例如,在摄像头等个人信息采集装置处,设置明确显著的标识告知已进入个人信息采集范围,将会对个人信息进行采集,若个人自愿进入采集范围即视为同意对其个人信息进行采集;或者在个人信息处理的装置上,利用明显的标识/信息告知个人信息处理规则的情况下,通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权;其中,个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。
Claims (13)
1.一种虚拟形象生成方法,其特征在于,包括:
获取用户对期望虚拟形象的描述文本,并获取若干形象特征;
基于各所述形象特征分别与所述描述文本的文本特征进行形象生成,得到候选虚拟形象;
响应于用户选择所述候选虚拟形象作为目标虚拟形象,获取符合所述目标虚拟形象的特征分布的特征表示作为新的形象特征;
基于所述新的形象特征和所述文本特征生成最终虚拟形象。
2.根据权利要求1所述的方法,其特征在于,所述候选虚拟形象由形象生成模型生成得到,所述形象生成模型基于若干样本虚拟形象训练得到,所述样本虚拟形象标注有样本描述文本。
3.根据权利要求2所述的方法,其特征在于,所述形象生成模型的训练步骤包括:
选择所述样本虚拟形象作为样本目标形象,并将所述样本目标形象所标注的样本描述文本作为样本目标文本;
基于所述样本目标形象提取目标形象特征,并基于所述样本目标文本提取目标文本特征;
获取与所述目标形象特征符合相同特征分布的正例形象特征,并获取与所述目标形象特征不符合相同特征分布的负例形象特征;
分别基于所述目标形象特征、所述正例形象特征和所述负例形象特征中一者与所述目标文本特征,得到合成目标形象、合成正例形象和合成负例形象;
基于所述合成目标形象、所述合成正例形象和所述合成负例形象,调整所述形象生成模型的网络参数。
4.根据权利要求3所述的方法,其特征在于,所述基于所述合成目标形象、所述合成正例形象和所述合成负例形象,调整所述形象生成模型的网络参数,包括:
基于所述样本目标文本分别与所述合成目标形象、所述合成正例形象、所述合成负例形象之间的语义相似度,得到第一损失;
基于所述第一损失,调整所述网络参数。
5.根据权利要求4所述的方法,其特征在于,在所述基于所述第一损失,调整所述网络参数之前,所述方法还包括:
基于所述合成目标形象与所述合成正例形象之间的语义差异,以及所述合成目标形象与所述合成负例形象之间的语义差异,得到第二损失;
所述基于所述第一损失,调整所述网络参数,包括:
基于所述第一损失和所述第二损失,调整所述网络参数。
6.根据权利要求1所述的方法,其特征在于,所述若干形象特征分别从若干候选特征分布采样得到,所述若干候选特征分布分别表征不同类型虚拟形象的特征分布,且所述候选特征分布基于若干样本虚拟形象获取得到。
7.根据权利要求6所述的方法,其特征在于,所述候选特征分布的获取步骤包括:
基于主成分分析提取各个所述样本虚拟形象的样本形象特征;
基于执行所述主成分分析所得到的前预设数值个主成分,得到所述预设数值个聚类中心的中心特征;
基于各个所述中心特征对所述样本形象特征进行聚类,得到分别表征不同类型虚拟形象的候选特征分布。
8.根据权利要求7所述的方法,其特征在于,所述基于主成分分析提取各个所述样本虚拟形象的样本形象特征,包括:
对各所述样本虚拟形象进行编码,得到样本编码特征;
基于所述主成分分析将所述样本编码特征重投影至正交空间,得到所述样本形象特征。
9.根据权利要求1所述的方法,其特征在于,所述获取符合所述目标虚拟形象的特征分布的特征表示作为新的形象特征,包括:
基于目标特征插值得到新的形象特征,或者,在目标特征分布采样得到新的形象特征;
其中,所述目标特征为生成得到所述目标虚拟形象的形象特征,所述若干形象特征分别从若干候选特征分布采样得到,所述若干候选特征分布分别表征不同类型虚拟形象的特征分布,所述目标特征分布为采样得到所述目标特征的候选特征分布。
10.根据权利要求1所述的方法,其特征在于,所述基于所述新的形象特征和所述文本特征生成最终虚拟形象,包括:
基于所述新的形象特征,重新执行所述基于各所述形象特征分别与所述描述文本的文本特征进行形象生成,得到候选虚拟形象的步骤以及后续步骤,直至用户选择至少一个所述候选虚拟形象作为所述最终虚拟形象为止。
11.一种虚拟形象生成装置,其特征在于,包括:
获取模块,用于获取用户对期望虚拟形象的描述文本,并获取若干形象特征;
生成模块,用于基于各所述形象特征分别与所述描述文本的文本特征进行形象生成,得到候选虚拟形象;
响应模块,用于响应于用户选择所述候选虚拟形象作为目标虚拟形象,获取符合所述目标虚拟形象的特征分布的特征表示作为新的形象特征;
循环模块,用于基于所述新的形象特征和所述文本特征生成最终虚拟形象。
12.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现权利要求1至10任一项所述的虚拟形象生成方法。
13.一种计算机可读存储介质,其特征在于,存储有能够被处理器运行的程序指令,所述程序指令用于实现权利要求1至10任一项所述的虚拟形象生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210395741.9A CN114913303A (zh) | 2022-04-14 | 2022-04-14 | 虚拟形象生成方法及相关装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210395741.9A CN114913303A (zh) | 2022-04-14 | 2022-04-14 | 虚拟形象生成方法及相关装置、电子设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114913303A true CN114913303A (zh) | 2022-08-16 |
Family
ID=82765368
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210395741.9A Pending CN114913303A (zh) | 2022-04-14 | 2022-04-14 | 虚拟形象生成方法及相关装置、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114913303A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115392216A (zh) * | 2022-10-27 | 2022-11-25 | 科大讯飞股份有限公司 | 一种虚拟形象生成方法、装置、电子设备及存储介质 |
CN116188731A (zh) * | 2022-09-06 | 2023-05-30 | 支付宝(杭州)信息技术有限公司 | 虚拟世界的虚拟形象调整方法及装置 |
CN116704085A (zh) * | 2023-08-08 | 2023-09-05 | 安徽淘云科技股份有限公司 | 虚拟形象生成方法、装置、电子设备和存储介质 |
CN117011435A (zh) * | 2023-09-28 | 2023-11-07 | 世优(北京)科技有限公司 | 数字人形象ai生成方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090044113A1 (en) * | 2007-08-07 | 2009-02-12 | Jones Scott T | Creating a Customized Avatar that Reflects a User's Distinguishable Attributes |
CN108171789A (zh) * | 2017-12-21 | 2018-06-15 | 迈吉客科技(北京)有限公司 | 一种虚拟形象生成方法和系统 |
CN113050795A (zh) * | 2021-03-24 | 2021-06-29 | 北京百度网讯科技有限公司 | 虚拟形象的生成方法及装置 |
CN113920229A (zh) * | 2021-09-06 | 2022-01-11 | 北京小米移动软件有限公司 | 一种虚拟角色的处理方法、装置及存储介质 |
CN114254629A (zh) * | 2021-11-25 | 2022-03-29 | 安徽淘云科技有限公司 | 一种虚拟形象的生成方法、装置、存储介质及设备 |
-
2022
- 2022-04-14 CN CN202210395741.9A patent/CN114913303A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090044113A1 (en) * | 2007-08-07 | 2009-02-12 | Jones Scott T | Creating a Customized Avatar that Reflects a User's Distinguishable Attributes |
CN108171789A (zh) * | 2017-12-21 | 2018-06-15 | 迈吉客科技(北京)有限公司 | 一种虚拟形象生成方法和系统 |
CN113050795A (zh) * | 2021-03-24 | 2021-06-29 | 北京百度网讯科技有限公司 | 虚拟形象的生成方法及装置 |
CN113920229A (zh) * | 2021-09-06 | 2022-01-11 | 北京小米移动软件有限公司 | 一种虚拟角色的处理方法、装置及存储介质 |
CN114254629A (zh) * | 2021-11-25 | 2022-03-29 | 安徽淘云科技有限公司 | 一种虚拟形象的生成方法、装置、存储介质及设备 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116188731A (zh) * | 2022-09-06 | 2023-05-30 | 支付宝(杭州)信息技术有限公司 | 虚拟世界的虚拟形象调整方法及装置 |
CN115392216A (zh) * | 2022-10-27 | 2022-11-25 | 科大讯飞股份有限公司 | 一种虚拟形象生成方法、装置、电子设备及存储介质 |
CN116704085A (zh) * | 2023-08-08 | 2023-09-05 | 安徽淘云科技股份有限公司 | 虚拟形象生成方法、装置、电子设备和存储介质 |
CN116704085B (zh) * | 2023-08-08 | 2023-11-24 | 安徽淘云科技股份有限公司 | 虚拟形象生成方法、装置、电子设备和存储介质 |
CN117011435A (zh) * | 2023-09-28 | 2023-11-07 | 世优(北京)科技有限公司 | 数字人形象ai生成方法及装置 |
CN117011435B (zh) * | 2023-09-28 | 2024-01-09 | 世优(北京)科技有限公司 | 数字人形象ai生成方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pang et al. | Image-to-image translation: Methods and applications | |
KR102627802B1 (ko) | 가상 형상 생성 모델의 트레이닝 방법 및 가상 형상 생성 방법 | |
CN111325851B (zh) | 图像处理方法及装置、电子设备和计算机可读存储介质 | |
CN114913303A (zh) | 虚拟形象生成方法及相关装置、电子设备、存储介质 | |
CN110532996B (zh) | 视频分类的方法、信息处理的方法以及服务器 | |
CN111553267B (zh) | 图像处理方法、图像处理模型训练方法及设备 | |
Wu et al. | Deep portrait image completion and extrapolation | |
Jiang et al. | Blind image quality measurement by exploiting high-order statistics with deep dictionary encoding network | |
CN108197592B (zh) | 信息获取方法和装置 | |
CN110288513B (zh) | 用于改变人脸属性的方法、装置、设备和存储介质 | |
CN114612290B (zh) | 图像编辑模型的训练方法和图像编辑方法 | |
CN115565238B (zh) | 换脸模型的训练方法、装置、设备、存储介质和程序产品 | |
CN111739027A (zh) | 一种图像处理方法、装置、设备及可读存储介质 | |
CN116580257A (zh) | 特征融合模型训练及样本检索方法、装置和计算机设备 | |
CN112819689B (zh) | 人脸属性编辑模型的训练方法、人脸属性编辑方法及设备 | |
CN115439904B (zh) | 一种基于知识引导的人脸属性编辑方法 | |
CN114266695A (zh) | 图像处理方法、图像处理系统及电子设备 | |
CN111539903A (zh) | 训练人脸图像合成模型的方法和装置 | |
CN118212687A (zh) | 人体姿势图像生成方法、装置、设备及介质 | |
CN117726897B (zh) | 训练数据生成方法、装置、电子设备和存储介质 | |
Yan et al. | A parameter-free framework for general supervised subspace learning | |
Duong et al. | Projective complex matrix factorization for facial expression recognition | |
WO2024066549A1 (zh) | 一种数据处理方法及相关设备 | |
CN110489634A (zh) | 一种造型信息推荐方法、装置、系统及终端设备 | |
CN111325173A (zh) | 毛发类型识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |