CN115690276A - 虚拟形象的视频生成方法、装置、计算机设备和存储介质 - Google Patents

虚拟形象的视频生成方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN115690276A
CN115690276A CN202211245566.1A CN202211245566A CN115690276A CN 115690276 A CN115690276 A CN 115690276A CN 202211245566 A CN202211245566 A CN 202211245566A CN 115690276 A CN115690276 A CN 115690276A
Authority
CN
China
Prior art keywords
image
target
image description
vector
description
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211245566.1A
Other languages
English (en)
Inventor
赵安琪
方骅
奚晓斌
陈馥婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202211245566.1A priority Critical patent/CN115690276A/zh
Publication of CN115690276A publication Critical patent/CN115690276A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

本申请涉及一种虚拟形象的视频生成方法、装置、计算机设备、存储介质和计算机程序产品。方法包括:获取针对目标虚拟形象的形象描述标签集,将形象描述标签集输入至预训练的形象图像生成模型,得到与形象描述标签集对应的目标虚拟形象图像;获取与目标虚拟形象所属的形象类型对应的向量动作变化参数集;将待播报语音中的各待播报音素与向量动作变化参数集中各样本音素对应的向量变化数据相匹配,得到目标虚拟形象与待播报语音相匹配的目标向量动作变化参数集;根据待播报语音、目标向量动作变化参数集和目标虚拟形象图像,生成目标虚拟形象播报待播报语音的目标视频。采用本方法能够提高目标虚拟形象的视频生成效率。

Description

虚拟形象的视频生成方法、装置、计算机设备和存储介质
技术领域
本申请涉及人工智能技术领域,特别是涉及一种虚拟形象的视频生成方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着人工智能技术的不断发展,大多企业或机构为提升服务质量以及客户体验,一般采用虚拟形象进行服务。
为了利用虚拟形象进行服务,需要获取虚拟形象的自然发言视频,而这需要通过已采集的真人影像进行模型训练得到。相关技术中,每制作一个新的虚拟形象的视频时,都需要针对新的虚拟形象重新进行真人影像采集,以重新进行动作模型训练和模型参数调整,再根据训练好的动作模型制作该新的虚拟模型针对待播报语音的发言视频,导致需要耗费大量的人力资源和时间成本,难以高效生成虚拟形象的视频。
因此,相关技术中,存在着虚拟形象的视频生成效率低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高虚拟形象的视频生成效率的虚拟形象的视频生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种虚拟形象的视频生成方法。所述方法包括:
获取针对目标虚拟形象的形象描述标签集,将所述形象描述标签集输入至预训练的形象图像生成模型,得到与所述形象描述标签集对应的目标虚拟形象图像;
获取与所述目标虚拟形象所属的形象类型对应的向量动作变化参数集;所述向量动作变化参数集包括播报样本语音中的各样本音素对应的向量变化数据;所述各样本音素对应的向量变化数据为所述形象类型对应的预设形象执行各所述样本音素对应的发音动作时,所述预设形象的活动部位向量的向量变化数据;
将待播报语音中的各待播报音素与所述向量动作变化参数集中各所述样本音素对应的向量变化数据相匹配,得到所述目标虚拟形象与所述待播报语音相匹配的目标向量动作变化参数集;
根据所述待播报语音、所述目标向量动作变化参数集和所述目标虚拟形象图像,生成所述目标虚拟形象播报所述待播报语音的目标视频。
在其中一个实施例中,所述方法还包括:
获取所述目标虚拟形象对应的形象描述参数;所述形象描述参数为对所述形象描述标签集中与各形象描述类别对应的形象描述标签进行量化得到的;
在各预设形象类型所对应的预设形象描述参数中,确定所述形象描述参数对应的目标形象描述参数;
将所述目标形象描述参数对应的预设形象类型,作为所述目标虚拟形象所属的形象类型。
在其中一个实施例中,所述在各预设形象类型所对应的预设形象描述参数中,确定所述形象描述参数对应的目标形象描述参数,包括:
将所述形象描述参数中与各所述形象描述类别对应的形象描述子参数,作为各形象描述维度上的维度数据,得到所述目标虚拟形象对应的形象描述坐标;
根据K最近邻算法,在预设形象描述坐标中,确定与所述形象描述坐标距离最近,且在各所述形象描述维度上与所述形象描述坐标之间的距离小于预设距离阈值的第一形象描述坐标,作为目标形象描述坐标;所述预设形象描述坐标为将所述预设形象描述参数中与各所述形象描述类别对应的预设形象描述子参数,作为各所述形象描述维度上的维度数据得到的;
将所述目标形象描述坐标在各所述形象描述维度上的维度数据,作为所述目标形象描述参数。
在其中一个实施例中,若不存在所述第一形象描述坐标,所述在各预设形象类型所对应的预设形象描述参数中,确定所述形象描述参数对应的目标形象描述参数,包括:
在所述形象描述坐标和所述预设形象描述坐标所处的多维空间坐标系中,确定与各所述形象描述类别对应的目标形象描述维度;
在所述预设形象描述坐标中,分别确定在各所述形象描述类别对应的目标形象描述维度上,与所述形象描述坐标之间的距离最短的第二形象描述坐标;
将各所述第二形象描述坐标在对应的目标形象描述维度上的维度数据,作为所述形象描述参数在对应的所述目标形象描述维度上的维度数据,得到所述形象描述参数对应的目标形象描述参数。
在其中一个实施例中,所述方法还包括:
获取训练视频;所述训练视频为真实人员播报所述播报样本语音的正面人像视频;所述训练视频中的所述真实人员标记有活动部位样本向量;所述活动部位样本向量为对所述真实人员的活动部位进行向量标记得到的;
根据所述训练视频中所述真实人员执行各所述样本音素对应的发音动作时,所述真实人员的活动部位样本向量的变化,生成所述真实人员的活动部位样本向量对应的向量参数变化曲线;
根据K均值聚类算法,对所述训练视频中各所述真实人员的各活动部位样本向量之间的比例和对应的向量参数变化曲线进行归类,得到预设形象类型集以及与所述预设形象类型集中各预设形象类型对应的向量动作变化参数集;所述预设形象类型集为根据所述真实人员对应的形象描述样本标签得到的。
在其中一个实施例中,所述方法还包括:
构建待训练的生成器;所述待训练的生成器用于根据输入的所述形象描述样本标签生成对应的虚拟形象样本图像;
构建待训练的判别器;所述待训练的判别器用于判断输入的图像是否为真实人员样本图像;所述真实人员样本图像为对所述训练视频中的所述真实人员进行截取得到的;
基于所述形象描述样本标签、所述虚拟形象样本图像和所述真实人员样本图像对所述待训练的生成器和所述待训练的判别器进行迭代训练,得到所述预训练的形象图像生成模型。
在其中一个实施例中,所述根据所述待播报语音、所述目标向量动作变化参数集和所述目标虚拟形象图像,生成所述目标虚拟形象播报所述待播报语音的目标视频,包括:
根据所述目标向量动作变化参数集,对所述目标虚拟形象图像中的所述目标虚拟形象的活动部位进行调整,得到所述目标虚拟形象执行各所述待播报音素对应的发音动作时的视频帧图像;
根据各所述视频帧图像和所述待播报语音,得到所述目标虚拟形象播报所述待播报语音时的动作视频;
将所述动作视频与所述待播报语音结合,得到所述目标视频。
在其中一个实施例中,所述根据各所述视频帧图像和所述待播报语音,得到所述目标虚拟形象播报所述待播报语音时的动作视频,包括:
根据各所述待播报音素的发音顺序,对各所述视频帧图像进行排序,得到排序后的视频帧图像;
根据预设视频渲染算法,对所述排序后的视频帧图像中的所述目标虚拟形象进行渲染,得到所述目标虚拟形象播报所述待播报语音时的初始动作视频;
根据所述待播报语音的语速,对所述初始动作视频的播放速度进行调整,得到调整后动作视频;
针对所述调整后动作视频中所述目标虚拟形象的异常活动部位向量进行平滑补帧处理,得到所述动作视频;所述异常活动部位向量为在相邻的所述视频帧图像之间衔接异常的活动部位向量。
第二方面,本申请还提供了一种虚拟形象的视频生成装置。所述装置包括:
第一获取模块,用于获取针对目标虚拟形象的形象描述标签集,将所述形象描述标签集输入至预训练的形象图像生成模型,得到与所述形象描述标签集对应的目标虚拟形象图像;
第二获取模块,用于获取与所述目标虚拟形象所属的形象类型对应的向量动作变化参数集;所述向量动作变化参数集包括播报样本语音中的各样本音素对应的向量变化数据;所述各样本音素对应的向量变化数据为所述形象类型对应的预设形象执行各所述样本音素对应的发音动作时,所述预设形象的活动部位向量的向量变化数据;
匹配模块,用于将待播报语音中的各待播报音素与所述向量动作变化参数集中各所述样本音素对应的向量变化数据相匹配,得到所述目标虚拟形象与所述待播报语音相匹配的目标向量动作变化参数集;
生成模块,用于根据所述待播报语音、所述目标向量动作变化参数集和所述目标虚拟形象图像,生成所述目标虚拟形象播报所述待播报语音的目标视频。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的方法的步骤。
上述虚拟形象的视频生成方法、装置、计算机设备、存储介质和计算机程序产品,通过获取针对目标虚拟形象的形象描述标签集,将形象描述标签集输入至预训练的形象图像生成模型,得到与形象描述标签集对应的目标虚拟形象图像;然后,获取与目标虚拟形象所属的形象类型对应的向量动作变化参数集;向量动作变化参数集包括播报样本语音中的各样本音素对应的向量变化数据;各样本音素对应的向量变化数据为形象类型对应的预设形象执行各样本音素对应的发音动作时,预设形象的活动部位向量的向量变化数据;然后,将待播报语音中的各待播报音素与向量动作变化参数集中各样本音素对应的向量变化数据相匹配,得到目标虚拟形象与待播报语音相匹配的目标向量动作变化参数集;最后,根据待播报语音、目标向量动作变化参数集和目标虚拟形象图像,生成目标虚拟形象播报待播报语音的目标视频。
如此,无需花费大量时间针对每一目标虚拟形象进行真人影像采集以进行独立的虚拟形象图像生成,再以此进行模型训练和模型参数手动调整得到用于获取虚拟形象针对待播报语音的发言视频的目标模型;只需将针对目标虚拟形象的形象描述标签集输入至预训练的形象图像生成模型,即可快速得到与形象描述标签集相匹配的目标虚拟形象图像,并直接通过与目标虚拟形象所属的形象类型相匹配的预设形象对应的向量动作变化参数集,确定目标虚拟形象与待播报语音相匹配的目标向量动作变化参数集,从而可以根据待播报语音、上述向量变化数据和目标虚拟形象图像,得到目标虚拟形象播报待播报语音的目标视频;该方法在获取针对各目标虚拟形象播报待播报语音的目标视频方面具有通用性,进而减短了生成各目标虚拟形象的视频的时间,提高了目标虚拟形象的视频生成效率。
附图说明
图1为一个实施例中一种虚拟形象的视频生成方法的流程示意图;
图2为一个实施例中一种预设形象描述坐标和形象描述坐标的示意图;
图3为一个实施例中一种视频数据预处理的流程示意图;
图4为一个实施例中执行发音动作时,眉毛活动部位样本向量的变化示意图;
图5为一个实施例中一种形象图像生成模型的训练过程示意图;
图6为一个实施例中一种使用目标虚拟形象生成目标视频的方法的流程示意图;
图7为另一个实施例中一种虚拟形象的视频生成方法的流程示意图;
图8为一个实施例中一种包括有向量标记和向量动作变化参数集的虚拟形象图像生成方法的流程示意图;
图9为一个实施例中一种虚拟形象的视频生成装置的结构框图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在一个实施例中,如图1所示,提供了一种虚拟形象的视频生成方法,应用于计算机设备。实际应用中,计算机设备可以是用户终端,也可以是用独立的服务器或者是多个服务器组成的服务器集群来实现。其中,用户终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。本实施例中,该方法包括以下步骤:
步骤S110,获取针对目标虚拟形象的形象描述标签集,将形象描述标签集输入至预训练的形象图像生成模型,得到与形象描述标签集对应的目标虚拟形象图像。
其中,形象描述标签集包括各形象描述类别对应的形象描述标签。
其中,形象描述类别可以但不限于为体型、文化、性格、性别、外观等。
其中,形象描述标签可以但不限于为与性格形象描述类别对应的“活泼”、“严肃”;与文化形象描述类别对应的地区(如“北京”、“上海”);与性别形象描述类别对应的“女”、“男”等。
其中,预训练的形象图像生成模型包括预训练的生成器和预训练的判别器。
其中,目标虚拟形象图像包含有目标虚拟形象。
具体实现中,计算机设备可以获取针对目标虚拟形象的形象描述标签集,将形象描述标签集输入至预训练的形象图像生成模型中预训练的生成器,预训练的生成器可以通过自然语言处理领域的算法,对源为非数值的形象描述标签进行赋值,以将形象描述标签对应的词语转译为一个数值参数,得到与各形象描述标签对应的形象描述参数,并根据各形象描述参数随机生成一定数量的虚拟形象图像。
然后,将上述一定数量的虚拟形象图像输入至预训练的形象图像生成模型中预训练的判别器中,根据预训练的判别器针对虚拟形象图像的判定结果,该判定结果用于表征虚拟形象图像为真实人像图像的概率,筛选出预设数量的最接近真实人像图像的虚拟形象图像,最后,可以人工选取出符合期望的虚拟形象图像,作为目标虚拟形象图像,以供计算机设备获取到与形象描述标签集对应的包含有目标虚拟形象的目标虚拟形象图像。
步骤S120,获取与目标虚拟形象所属的形象类型对应的向量动作变化参数集。
其中,向量动作变化参数集包括播报样本语音中的各样本音素对应的向量变化数据。
其中,各样本音素对应的向量变化数据为形象类型对应的预设形象执行各样本音素对应的发音动作时,预设形象的活动部位向量的向量变化数据。
其中,预设形象的活动部位向量为预设形象上的活动部位所对应的向量,活动部位可以为预设形象的五官、面部轮廓、手臂、腿等部位。
其中,各样本音素对应的发音动作可以包括但不限于为“音素(具体音素发音)”对应的发音动作、“过渡(音素a到音素b)”对应的发音动作、“休息(吸气、笑等)”对应的发音动作。
其中,计算机设备中存储有预设形象类型对应的向量动作变化参数集,该预设形象类型可以为预设的典型形象类型,用于表征预设形象类型对应的预设形象在体型、文化、性格等各形象描述类别上所对应的形象描述标签,如一个预设形象类型可以为“胖(体型形象描述标签)、活泼(性格形象描述标签)、北京(文化形象描述标签)”。
其中,预设形象类型为根据朗读播报样本语音的大量真实人员对应的形象描述标签以及各活动部位向量之间的比例进行归纳总结得到的。
其中,预设形象类型对应的向量动作变化参数集为根据大量真实人员朗读播报样本语音时的活动部位变化规律进行归纳总结得到的。
具体实现中,计算机设备可以在预设形象类型中,确定目标虚拟形象所属的形象类型,获取目标虚拟形象所属的形象类型所对应的向量动作变化参数集,该向量动作变化参数集包括该形象类型对应的预设形象执行播报样本语音中的各样本音素对应的发音动作时,该预设形象的活动部位向量的向量变化数据。
步骤S130,将待播报语音中的各待播报音素与向量动作变化参数集中各样本音素对应的向量变化数据相匹配,得到目标虚拟形象与待播报语音相匹配的目标向量动作变化参数集。
其中,待播报语音对应的播报场景与播报样本语音对应的播报场景相同。
其中,目标向量动作变化参数集包括目标虚拟形象执行各待播报音素对应的发音动作时,目标虚拟形象的活动部位向量的向量变化数据。
其中,目标虚拟形象的活动部位向量为目标虚拟形象上的活动部位所对应的向量,活动部位可以为预设形象的五官、面部轮廓、手臂、腿等部位。
具体实现中,待播报语音的播报场景与播报样本语音对应的播报场景相同,计算机设备可以针对目标虚拟形象图像中的目标虚拟形象的活动部位进行向量标记,得到目标虚拟形象的活动部位向量。然后,计算机设备可以将待播报语音中的各待播报音素与获取到的向量动作变化参数集中各样本音素对应的向量变化数据相匹配,即与目标虚拟形象所属的形象类型对应的预设形象执行各样本音素对应的发音动作时,预设形象的活动部位向量的向量变化数据相匹配,得到目标虚拟形象与待播报语音相匹配的目标向量动作变化参数集,即目标虚拟形象执行各待播报音素对应的发音动作时,目标虚拟形象的活动部位向量的向量变化数据。
具体来说,在匹配过程中,计算机设备可以先将待播报语音中的各待播报音素与播报样本语音中的样本音素相匹配,确定匹配成功的样本音素,根据匹配成功的样本音素所对应的向量变化数据,得到上述目标向量动作变化参数集。
步骤S140,根据待播报语音、目标向量动作变化参数集和目标虚拟形象图像,生成目标虚拟形象播报待播报语音的目标视频。
具体实现中,计算机设备可以根据目标向量动作变化参数集对目标虚拟形象图像中的目标虚拟形象进行调整,得到目标虚拟形象播报待播报语音时的动作视频,并将该动作视频与待播报语音结合,得到目标虚拟形象播报待播报语音的目标视频。
上述虚拟形象的视频生成方法中,通过获取针对目标虚拟形象的形象描述标签集,将形象描述标签集输入至预训练的形象图像生成模型,得到与形象描述标签集对应的目标虚拟形象图像;然后,获取与目标虚拟形象所属的形象类型对应的向量动作变化参数集;向量动作变化参数集包括播报样本语音中的各样本音素对应的向量变化数据;各样本音素对应的向量变化数据为形象类型对应的预设形象执行各样本音素对应的发音动作时,预设形象的活动部位向量的向量变化数据;然后,将待播报语音中的各待播报音素与向量动作变化参数集中各样本音素对应的向量变化数据相匹配,得到目标虚拟形象与待播报语音相匹配的目标向量动作变化参数集;最后,根据待播报语音、目标向量动作变化参数集和目标虚拟形象图像,生成目标虚拟形象播报待播报语音的目标视频。
如此,无需花费大量时间针对每一目标虚拟形象进行真人影像采集以进行独立的虚拟形象图像生成,再以此进行模型训练和模型参数手动调整得到用于获取虚拟形象针对待播报语音的发言视频的目标模型;只需将针对目标虚拟形象的形象描述标签集输入至预训练的形象图像生成模型,即可快速得到与形象描述标签集相匹配的目标虚拟形象图像,并直接通过与目标虚拟形象所属的形象类型相匹配的预设形象对应的向量动作变化参数集,确定目标虚拟形象与待播报语音相匹配的目标向量动作变化参数集,从而可以根据待播报语音、上述向量变化数据和目标虚拟形象图像,得到目标虚拟形象播报待播报语音的目标视频;该方法在获取针对各目标虚拟形象播报待播报语音的目标视频方面具有通用性,进而减短了生成各目标虚拟形象的视频的时间,提高了目标虚拟形象的视频生成效率。
在一个实施例中,方法还包括:获取目标虚拟形象对应的形象描述参数;在各预设形象类型所对应的预设形象描述参数中,确定形象描述参数对应的目标形象描述参数;将目标形象描述参数对应的预设形象类型,作为目标虚拟形象所属的形象类型。
其中,形象描述参数为对形象描述标签集中与各形象描述类别对应的形象描述标签进行量化得到的。
其中,预设形象类型为根据播报上述播报样本语音的大量真实人员对应的形象描述标签以及各活动部位向量之间的比例进行归纳总结得到的。
其中,预设形象描述参数为对通过K均值聚类算法对真实人员对应的形象描述参数进行处理得到的。
其中,真实人员对应的形象描述参数为对真实人员对应的形象描述标签进行量化得到的。
其中,形象描述参数、预设形象描述参数、目标形象描述参数为数值参数。
具体实现中,计算机设备可以获取目标虚拟形象对应的形象描述参数,该形象描述参数为对形象描述标签集中与各形象描述类别对应的形象描述标签进行量化得到的。具体来说,可以通过自然语言处理领域的算法,对源为非数值的形象描述标签进行量化赋值,以将形象描述标签对应的词语转译为一个数值参数,得到与各形象描述标签对应的形象描述参数。
例如,针对性格形象描述类别对应的形象描述标签,通常会使用特定形容词来进行形容,比如‘活泼’,在进行机器学习时,由于机器学习算法更青睐使用数值参数进行训练,通常会使用自然语言处理领域的算法对词语进行赋值,输出一个数值在-1~1之间的参数。体型性格文化等参数是通过第一步选择的标签得到的。其中,若性格形象描述类别对应的形象描述标签未指定时,可以通过该算法随机生成对应的形象描述参数;其中,针对文化形象描述类别对应的形象描述标签,可以根据目标视频的使用地点进行自动调整得到对应的形象描述参数;针对体型形象描述类别对应的形象描述标签,可以根据目标虚拟形象的各活动部位向量之间的比例自动调整得到对应的形象描述参数。
然后,计算机设备可以在各预设形象类型所对应的预设形象描述参数中,确定形象描述参数对应的目标形象描述参数,并将目标形象描述参数对应的预设形象类型,作为目标虚拟形象所属的形象类型。
本实施例的技术方案,通过获取目标虚拟形象对应的形象描述参数;形象描述参数为对形象描述标签集中与各形象描述类别对应的形象描述标签进行量化得到的;在各预设形象类型所对应的预设形象描述参数中,确定形象描述参数对应的目标形象描述参数;将目标形象描述参数对应的预设形象类型,作为目标虚拟形象所属的形象类型;如此,可以直接根据目标虚拟形象对应的形象描述参数,确定各预设形象类型所对应的预设形象描述参数中,与该形象描述参数对应的目标形象描述参数,以确定目标虚拟形象所属的形象类型;从而可以根据目标虚拟形象所属的形象类型对应的向量动作变化参数集确定目标虚拟形象与待播报语音相匹配的目标向量动作变化参数集,无需针对目标虚拟形象,重新对动作模型进行训练以及参数调整以根据训练好的动作模型预测目标虚拟形象的活动部位向量变化,提高了获取目标虚拟形象对应的目标向量动作变化参数集的效率。
在一个实施例中,在各预设形象类型所对应的预设形象描述参数中,确定形象描述参数对应的目标形象描述参数,包括:将形象描述参数中与各形象描述类别对应的形象描述子参数,作为各形象描述维度上的维度数据,得到目标虚拟形象对应的形象描述坐标;根据K最近邻算法,确定与形象描述坐标距离最近,且在各形象描述维度上与形象描述坐标之间的距离小于预设距离阈值的第一形象描述坐标,作为目标形象描述坐标;将目标形象描述坐标在各形象描述维度上的维度数据,作为目标形象描述参数。
其中,预设形象描述坐标为将预设形象描述参数中与各形象描述类别对应的预设形象描述子参数,作为各形象描述维度上的维度数据得到的。
其中,形象描述坐标和预设形象描述坐标处于同一个多维空间坐标系中。
其中,各形象描述维度可以用于表征预设形象描述坐标和预设形象描述坐标所属的多维空间坐标系中的不同坐标轴。
其中,目标虚拟形象对应的形象描述参数包括与各形象描述类别对应的形象描述子参数。
其中,各形象描述类别对应至少两个形象描述子参数。
具体实现中,计算机设备在在各预设形象类型所对应的预设形象描述参数中,确定形象描述参数对应的目标形象描述参数的过程中,计算机设备可以将形象描述参数中与各形象描述类别对应的形象描述子参数,作为各形象描述维度上的维度数据,得到目标虚拟形象对应的形象描述坐标。例如,若体型形象描述类别对应两个形象描述子参数,分别用于表征头身比和胖/瘦,则该体型形象描述类别对应两个形象描述维度,可以表征为多维空间坐标系中的x坐标轴和z坐标轴;同理,若性格形象描述类别对应两个形象描述子参数,则该性格形象描述类别对应两个形象描述维度,可以表征为多维空间坐标系中的y坐标轴和n坐标轴;如此,通过将形象描述参数中与各形象描述类别对应的所有形象描述子参数,作为各形象描述维度上的维度数据,可以得到形象描述坐标(x,y,z,n…)。
然后,计算机设备可以根据K最近邻算法,在多维空间坐标系中的预设形象描述坐标中,确定与形象描述坐标距离最近,且在各形象描述维度上与形象描述坐标之间的距离小于或等于预设距离阈值的第一形象描述坐标,作为目标形象描述坐标。
例如,如图2所示,提供一种多维空间坐标系中预设形象描述坐标和形象描述坐标的示意图,为了简化举例,图2使用的是由x坐标轴、y坐标轴和z坐标轴组成的三维空间坐标系。其中,x坐标轴和z坐标轴可以用于表征体型形象描述类别对应的两个形象描述维度(如x坐标轴为体型形象描述类别对应的头身比形象描述子参数,z坐标轴为体型形象描述类别对应的胖/瘦形象描述子参数);y坐标轴用于表征性格形象描述类别对应的形象描述维度。其中,q点和p点表征形象描述坐标,a、b、c、d点表征预设形象描述坐标。
在确定p点形象描述坐标对应的目标形象描述坐标时,由于a点预设形象描述坐标与p点形象描述坐标之间的距离最近,且在x、y、z坐标轴上与p点形象描述坐标之间的距离都小于预设距离阈值,因此将a点预设形象描述坐标作为与p点形象描述坐标距离最近的预设形象描述坐标,得到目标形象描述坐标。
最后,计算机设备可以将目标形象描述坐标在各形象描述维度上的维度数据,作为目标形象描述参数。
本实施例的技术方案,在在各预设形象类型所对应的预设形象描述参数中,确定形象描述参数对应的目标形象描述参数的过程中,通过将形象描述参数中与各形象描述类别对应的形象描述子参数,作为各形象描述维度上的维度数据,得到目标虚拟形象对应的形象描述坐标;根据K最近邻算法,确定与形象描述坐标距离最近,且在各形象描述维度上与形象描述坐标之间的距离小于或等于预设距离阈值的第一形象描述坐标,作为目标形象描述坐标;预设形象描述坐标为将预设形象描述参数中与各形象描述类别对应的预设形象描述子参数,作为各形象描述维度上的维度数据得到的;将目标形象描述坐标在各形象描述维度上的维度数据,作为目标形象描述参数;如此,通过在预设形象描述坐标中,确定与形象描述坐标之间的距离最近,且在各形象描述维度上与形象描述坐标之间的距离小于预设距离阈值的目标形象描述坐标,由于预设形象描述坐标是根据预设形象类型所对应的预设形象描述参数得到的,从而可以根据目标形象描述坐标确定与目标虚拟形象对应的形象描述参数最接近的目标形象描述参数,以确定与目标虚拟形象最匹配的预设形象类型,准确得到目标虚拟形象所属的形象类型,从而使得根据该形象类型对应的向量动作变化参数集确定目标虚拟形象与待播报语音相匹配的目标向量动作变化参数集后,该目标虚拟形象的行动变化规律符合与对应的形象描述标签相匹配,提高了目标虚拟形象的真实性。
在一个实施例中,若不存在第一形象描述坐标,在各预设形象类型所对应的预设形象描述参数中,确定形象描述参数对应的目标形象描述参数,包括:在形象描述坐标和预设形象描述坐标所处的多维空间坐标系中,确定与各形象描述类别对应的目标形象描述维度;在预设形象描述坐标中,分别确定在各形象描述类别对应的目标形象描述维度上,与形象描述坐标之间的距离最短的第二形象描述坐标;将各第二形象描述坐标在对应的目标形象描述维度上的维度数据,作为形象描述参数在对应的目标形象描述维度上的维度数据,得到形象描述参数对应的目标形象描述参数。
其中,各形象描述类别对应至少两个形象描述子参数,因此,各形象描述类别对应至少两个目标形象描述维度。
具体实现中,若不存在第一形象描述坐标,计算机设备在在各预设形象类型所对应的预设形象描述参数中,确定形象描述参数对应的目标形象描述参数的过程中,计算机设备可以在形象描述坐标和预设形象描述坐标所处的多维空间坐标系中,确定与各形象描述类别对应的目标形象描述维度。例如,接上例,若体型形象描述类别对应两个形象描述子参数,则该体型形象描述类别对应两个目标形象描述维度,可以表征为多维空间坐标系中的x坐标轴和z坐标轴。
然后,计算机设备可以在多维空间坐标系中的预设形象描述坐标中,分别确定在各形象描述类别对应的目标形象描述维度上,与形象描述坐标之间的距离小于预设距离阈值的第二形象描述坐标;最后,将各第二形象描述坐标在对应的目标形象描述维度上的维度数据,作为形象描述参数在对应的目标形象描述维度上的维度数据,得到形象描述参数在各形象描述类别上对应的目标形象描述子参数,得到形象描述参数对应的目标形象描述参数。
举例来说,接上例如图2所示,在确定q点形象描述坐标对应的目标形象描述坐标时,虽然c预设形象描述坐标与p点点形象描述坐标之间的距离最近,但并不满足在x、y、z坐标轴上与q点形象描述坐标之间的距离都小于预设距离阈值这一预设条件,因此,需要确定在体型形象描述类别对应的两个目标形象描述维度上,即确定在x坐标轴和z坐标轴上与形象描述坐标之间的距离最短的d点预设形象描述坐标;以及,在性格形象描述类别对应的目标形象描述维度上,即确定在y坐标轴上与形象描述坐标之间的距离最短的b点预设形象描述坐标,将d点预设形象描述坐标和b点预设形象描述坐标作为第二形象描述坐标。
若d点预设形象描述坐标为(0.8,0.2,0.7),则d点预设形象描述坐标在对应的目标形象描述维度(即体型形象描述类别对应的两个目标形象描述维度)上的维度数据为0.8(对应于x坐标轴)和0.7(对应于y坐标轴),即形象描述参数在体型形象描述类别对应的目标形象描述维度上的维度数据为0.8和0.7;若b点预设形象描述坐标为(0.1,0.9,0.2),则b点预设形象描述坐标在对应的目标形象描述维度(即性格形象描述类别对应的目标形象描述维度)上的维度数据为0.9(对应于y坐标轴),即形象描述参数在性格形象描述类别对应的目标形象描述维度上的维度数据为0.9,得到形象描述参数对应的目标形象描述参数(0.8,0.9,0.7)。
本实施例的技术方案,若不存在第一形象描述坐标,通过在形象描述坐标和预设形象描述坐标所处的多维空间坐标系中,确定与各形象描述类别对应的目标形象描述维度;在预设形象描述坐标中,分别确定在各形象描述类别对应的目标形象描述维度上,与形象描述坐标之间的距离最短的第二形象描述坐标;将各第二形象描述坐标在对应的目标形象描述维度上的维度数据,作为形象描述参数在对应的目标形象描述维度上的维度数据,得到形象描述参数对应的目标形象描述参数;如此,若不存在与形象描述坐标距离最近,且在各形象描述维度上与形象描述坐标之间的距离小于预设距离阈值的预设形象描述坐标,则通过分别确定在各形象描述类别对应的目标形象描述维度上,与形象描述坐标之间的距离最短的第二形象描述坐标,以准确确定形象描述参数在对应的目标形象描述维度上的维度数据,从而可以准确确定形象描述参数在各形象描述类别上对应的目标形象描述子参数,以得到形象描述参数对应的目标形象描述参数,提高了目标形象描述参数的可靠性,可以根据该目标形象描述参数更加准确确定目标虚拟形象所属的形象类型。
在一个实施例中,方法还包括:获取训练视频;根据训练视频中真实人员执行各样本音素对应的发音动作时,真实人员的活动部位样本向量的变化,生成真实人员的活动部位样本向量对应的向量参数变化曲线;根据K均值聚类算法,对训练视频中各真实人员的各活动部位样本向量之间的比例和对应的向量参数变化曲线进行归类,得到预设形象类型集以及与预设形象类型集中各预设形象类型对应的向量动作变化参数集。
其中,训练视频为真实人员播报上述播报样本语音的正面人像视频。
其中,训练视频中的真实人员标记有活动部位样本向量。
其中,活动部位样本向量为对真实人员的活动部位进行向量标记得到的。
其中,真实人员的活动部位包括五官、面部轮廓、手臂、腿等部位。
其中,播报样本语音可以根据具体的播报场景所需的场景词汇得到。
其中,预设形象类型集为根据真实人员对应的形象描述样本标签得到的。
其中,各样本音素对应的发音动作可以包括但不限于为“音素(具体音素发音)”对应的发音动作、“过渡(音素a到音素b)”对应的发音动作、“休息(吸气、笑等)”对应的发音动作。
具体实现中,为了便于本领域技术人员理解,图3提供一种视频数据预处理方法的流程示意图。如图3所示,计算机设备首先可以获取大量真实人员播报上述播报样本语音的五官清晰的正面人像发言视频,然后使用视频人物主体识别算法,去除该正面人像发言视频中的背景,仅保留发言视频中的真实人员,得到仅包含人物主体的发言视频;然后,对该发言视频中的真实人员的活动部位进行向量标记,确定真实人员的活动部位样本向量,从而得到包含真实人员的活动部位样本向量的发言视频作为训练视频;然后,可以对该训练视频中的真实人员进行正面人像截取,得到典型正面静止人像图;同时,使用语音识别算法,对训练视频进行多段分割,得到训练视频中真实人员执行各样本音素对应的发音动作(例如,音素(具体音素发音)、过渡(音素a到音素b)、休息(吸气、笑等))时的分段视频,并根据每个分段视频对应的发音动作进行动作标签,并确定每个分段视频中真实人员的活动部位样本向量的变化,生成每个分段视频中真实人员的活动部位样本向量对应的向量参数变化曲线,得到真实人员与各动作标签对应的向量参数变化曲线。
为了便于本领域技术人员,图4提供了一种真实人员执行“张嘴说a”的发音动作(即某具体音素发音对应的发音动作)时,眉毛活动部位样本向量的变化示意图。如图4所示,(a)图为真实人员的静止人脸图,(b)图为对眉毛进行向量标记后的静止人脸图,(c)图为真实人员执行“张嘴说a”的发音动作后,眉毛活动部位样本向量的变化示意图。如(b)图所示,眉毛活动部位样本向量m1m2m3包括m1点和m2点构成的第一向量m1m2,以及m2点和m3点构成的第二向量m2m3。当执行发音动作后,眉毛两端的m1,m3点上移(例如有一个比如10%的上移),眉峰的m2点上移(例如有一个20%的上移)。通过执行完该发音动作后,这些点的变化,便可以记录第一向量m1m2和第二向量m2m3的变化,以及整体眉毛活动部位样本向量m1m2m3的变化。
如此,在训练过程中,对执行一个发音动作时各活动部位对应的活动部位样本向量都进行类似的记录,最后整合成执行一个发音动作时各活动部位样本向量的向量变化数据,以得到执行该发音动作时各活动部位样本向量对应的向量参数变化曲线;然后,将该发音动作对应的各活动部位样本向量的向量变化数据与其他发音动作对应的各活动部位样本向量的向量变化数据进行整合,可以得到对应真实人员的向量动作变化参数集。
在获取到各真实人员执行各发音动作时所对应的向量参数变化曲线后,可以根据K均值聚类算法,对各真实人员的各活动部位样本向量之间的比例和对应的向量参数变化曲线进行归类,得到预设形象类型集以及与预设形象类型集中各预设形象类型对应的向量动作变化参数集;具体来说,可以通过自然语言处理领域的算法对真实人员对应的形象描述样本标签进行量化,得到对应的形象描述参数;其中,可以根据各活动部位样本向量之间的比例进行确定真实人员的体型形象描述标签对应的形象描述参数;如此,根据K均值聚类算法对真实人员对应的形象描述参数进行处理,可以确定几类预设形象描述参数以及对应的预设形象类型,得到预设形象类型集,从而可以在预设形象类型集中确定目标虚拟模型所属的形象类型。
可以理解的是,可以根据各预设形象类型对应的向量动作变化参数集确定各预设形象类型对应的向量动作变化规律;各预设形象类型对应的向量动作变化规律为该预设形象类型在各形象描述类别上所对应的向量动作变化规律的集合;例如,若体型形象描述类别所对应的向量动作变化规律为体型较胖的人会在行动时幅度更小,若性格形象描述类别所对应的向量动作变化规律为活泼的人会更多地进行一些小动作;那么,若预设形象类型为“胖、活泼”,则该预设形象类型对应的向量动作变化规律为较多较小幅度的小动作;若预设形象类型为“瘦、活泼”,则该预设形象类型对应的向量动作变化规律为较多较大幅度的小动作。
此外,若需提升目标虚拟形象的多样性,可以获取不同人种使用不同语言播报上述播报样本语音的五官清晰的正面人像发言视频进行训练,并对已有的预设形象类型对应的向量动作变化参数集进行增量更新,即可生成目标虚拟形象使用不同语言播报待播报语音的目标视频,无需重新针对目标虚拟形象重新进行建模,降低生成目标视频所需的成本。
本实施例的技术方案,通过获取训练视频;训练视频为真实人员播报上述播报样本语音的正面人像视频;其中,训练视频中的真实人员标记有活动部位样本向量;活动部位样本向量为对真实人员的活动部位进行向量标记得到的;根据训练视频中真实人员执行各样本音素对应的发音动作时,真实人员的活动部位样本向量的变化,生成真实人员的活动部位样本向量对应的向量参数变化曲线;根据K均值聚类算法,对训练视频中各真实人员的各活动部位样本向量之间的比例和对应的向量参数变化曲线进行归类,得到预设形象类型集以及与预设形象类型集中各预设形象类型对应的向量动作变化参数集;预设形象类型集为根据真实人员对应的形象描述样本标签得到的;如此,可以根据各真实人员执行播报样本语音中各样本音素对应的发音动作时,该真实人员的活动部位样本向量对应的向量参数变化曲线,通过K均值聚类算法,归纳出典型的形象类型得到预设形象类型集以及各预设形象类型对应的向量动作变化参数集,用于预测目标虚拟形象所属的形象类型以及对应的目标向量动作变化参数集,使得最终得到的目标虚拟形象的活动部位向量的向量变化数据更贴切于真实人员的活动部位对应的向量变化规律,提高了目标虚拟形象的真实性;同时,无需严格使用专业设备采集的原型视频和人工手动建模,只需使用人物主体整体清晰的正面人像发言视频进行训练,减少了对专业设备和人工质量的依赖。
在一个实施例中,方法还包括:构建待训练的生成器;构建待训练的判别器;基于形象描述样本标签、虚拟形象样本图像和真实人员样本图像对待训练的生成器和待训练的判别器进行迭代训练,得到预训练的形象图像生成模型。
其中,待训练的生成器用于根据输入的形象描述样本标签生成对应的虚拟形象样本图像。
其中,形象描述样本标签为与各形象描述类别对应的形象描述样本标签。
其中,形象描述类别可以但不限于为体型、文化、性格、性别、外观等。
其中,待训练的判别器用于判断输入的图像是否为真实人员样本图像。
其中,真实人员样本图像为对训练视频中的真实人员进行截取得到的。
具体实现中,计算机设备可以对训练视频中真实人员的外貌、服装风格、性别等形象描述类别进行标签,确定各真实人员对应的形象描述样本标签,并对训练视频中的真实人员进行正面人像图片截取,得到真实人员样本图像。并且,计算机设备需要预先构建待训练的生成器和待训练的判别器。其中,待训练的生成器用于根据输入的形象描述样本标签生成对应的虚拟形象样本图像;待训练的判别器用于判断输入的图像是否为真实人员样本图像。
为了便于本领域技术人员理解,图5提供了一种形象图像生成模型的训练过程示意图。如图5所示,计算机设备可以将待训练的生成器作为当前生成器,将待训练的判别器作为当前判别器,随机将形象描述样本标签输入至当前生成器,得到当前生成器根据形象描述样本标签对应的形象描述样本参数生成的虚拟形象样本图像;然后,计算机设备选取与该形象描述样本标签对应的真实人员样本图像,分别将虚拟形象样本图像和真实人员样本图像输入至当前判别器,当前判别器用于判断输入的图像是否为真实人员样本图像,分别得到当前判别器针对虚拟形象样本图像和真实人员样本图像的第一判别结果,并基于该第一判别结果对当前判别器进行正样本奖励和负样本惩罚以对当前判别器进行参数优化,得到优化后的判别器;然后,将当前生成器生成的伪虚拟样本形象输入至优化后的判别器,得到第二判别结果;根据第二判别结果对当前生成器的参数进行优化,得到优化后的生成器;然后,将优化后的生成器作为当前生成器,将优化后的判别器作为当前判别器,重复执行上述步骤对当前生成器和当前判别器进行多伦迭代训练,直到当前生成器和当前判别器达到纳什均衡,得到目标形象生成模型。
本实施例的技术方案,通过构建待训练的生成器;其中,待训练的生成器用于根据输入的形象描述样本标签生成对应的虚拟形象样本图像;构建待训练的判别器;其中,待训练的判别器用于判断输入的图像是否为真实人员样本图像;真实人员样本图像为对训练视频中的真实人员进行截取得到的;基于形象描述样本标签、虚拟形象样本图像和真实人员样本图像对待训练的生成器和待训练的判别器进行迭代训练,得到预训练的形象图像生成模型;如此,基于待训练的生成器和待训练的判别器的多轮迭代训练,使得最终得到的预训练的形象图像生成模型可以准确地输出更具真实性的目标虚拟形象图像。
在一个实施例中,根据待播报语音、目标向量动作变化参数集和目标虚拟形象图像,生成目标虚拟形象播报待播报语音的目标视频,包括:根据目标向量动作变化参数集,对目标虚拟形象图像中的目标虚拟形象的活动部位进行调整,得到目标虚拟形象执行各待播报音素对应的发音动作时的视频帧图像;根据各视频帧图像和待播报语音,得到目标虚拟形象播报待播报语音时的动作视频;将动作视频与待播报语音结合,得到目标视频。
其中,待播报语音为通过音频生成算法将待播报文字转换成语音得到的。
其中,待播报语音中的待播报音素为通过文字转换音素算法将待播报文字转换为音素得到的。
具体实现中,为了便于本领域技术人员,图6提供了一种使用目标虚拟形象生成目标视频的方法的流程示意图。如图6所示,计算机设备获取待播报文字,通过音频生成算法将待播报文字转换为待播报语音,并通过文字转换音素算法将待播报文字转换为各待播报音素。
然后,计算机设备在根据待播报语音、目标向量动作变化参数集和目标虚拟形象图像,生成目标虚拟形象播报待播报语音的目标视频的过程中,计算机设备可以根据目标向量动作变化参数集,即目标虚拟形象执行各待播报音素对应的发音动作时,目标虚拟形象的活动部位向量的向量变化数据,对目标虚拟形象图像中的目标虚拟形象的活动部位进行调整,得到目标虚拟形象执行各待播报音素对应的发音动作时的视频帧图像;然后,根据待播报语音中各待播报音素的发音顺序对各视频帧图像进行排序,并根据视频渲染算法对排序后的视频帧图像中的目标虚拟形象进行渲染,得到目标虚拟形象播报待播报语音时的动作视频;将该动作视频与待播报语音结合,得到目标视频。
本实施例的技术方案,通过根据目标向量动作变化参数集,对目标虚拟形象图像中的目标虚拟形象的活动部位进行调整,得到目标虚拟形象执行各待播报音素对应的发音动作时的视频帧图像;根据各视频帧图像和待播报语音,得到目标虚拟形象播报待播报语音时的动作视频;将动作视频与待播报语音结合,得到目标视频;如此,可以准确得到与待播报语音匹配的动作视频,并根据动作视频与待播报语音准确得到目标虚拟形象播报待播报语音的目标视频。
在一个实施例中,根据各视频帧图像和待播报语音,得到目标虚拟形象播报待播报语音时的动作视频,包括:根据各待播报音素的发音顺序,对各视频帧图像进行排序,得到排序后的视频帧图像;根据预设视频渲染算法,对排序后的视频帧图像中的目标虚拟形象进行渲染,得到目标虚拟形象播报待播报语音时的初始动作视频;根据待播报语音的语速,对初始动作视频的播放速度进行调整,得到调整后动作视频;针对调整后动作视频中目标虚拟形象的异常活动部位向量进行平滑补帧处理,得到动作视频。
其中,异常活动部位向量为在相邻的视频帧图像之间衔接异常的活动部位向量。
具体实现中,计算机设备在根据各视频帧图像和待播报语音,得到目标虚拟形象播报待播报语音时的动作视频的过程中,计算机设备可以根据各待播报音素的发音顺序,对各视频帧图像进行排序,得到排序后的视频帧图像,并根据预设视频渲染算法对排序后的视频帧图像中的目标虚拟形象进行渲染,得到目标虚拟形象播报待播报语音时的初始动作视频;然后,待播报语音的语速,对初始动作视频的播放速度进行调整,得到调整后动作视频;最后,针对调整后动作视频中相邻的视频帧图像之间目标虚拟形象的衔接异常的活动部位向量进行平滑补帧处理,即若目标虚拟形象的同一活动部位向量在相邻的视频帧图像之间衔接异常,则针对该活动部位向量进行平滑补帧处理,添加衔接动作以得到目标虚拟形象播报待播报语音时的动作视频。
本实施例的技术方案,通过根据各待播报音素的发音顺序,对各视频帧图像进行排序,得到排序后的视频帧图像;根据预设视频渲染算法,对排序后的视频帧图像中的目标虚拟形象进行渲染,得到目标虚拟形象播报待播报语音时的初始动作视频;根据待播报语音的语速,对初始动作视频的播放速度进行调整,得到调整后动作视频;针对调整后动作视频中目标虚拟形象的异常活动部位向量进行平滑补帧处理,得到动作视频;其中,异常活动部位向量为在相邻的视频帧图像之间衔接异常的活动部位向量;如此,可以准确得到与待播报语音同步的动作视频,并使得动作视频中目标虚拟形象的活动部位的变化符合真实人员行动规律,提高了动作视频中目标虚拟形象的真实性。
在另一实施例中,如图7所示,提供了一种虚拟形象的视频生成方法,以该方法应用于计算机设备为例进行说明,包括以下步骤:
步骤S702,获取针对目标虚拟形象的形象描述标签集,将形象描述标签集输入至预训练的形象图像生成模型,得到与形象描述标签集对应的目标虚拟形象图像。
步骤S704,获取目标虚拟形象对应的形象描述参数。
步骤S706,在各预设形象类型所对应的预设形象描述参数中,确定形象描述参数对应的目标形象描述参数。
步骤S708,将目标形象描述参数对应的预设形象类型,作为目标虚拟形象所属的形象类型。
步骤S710,获取与目标虚拟形象所属的形象类型对应的向量动作变化参数集。
步骤S712,将待播报语音中的各待播报音素与向量动作变化参数集中各样本音素对应的向量变化数据相匹配,得到目标虚拟形象与待播报语音相匹配的目标向量动作变化参数集。
步骤S714,根据待播报语音、目标向量动作变化参数集和目标虚拟形象图像,生成目标虚拟形象播报待播报语音的目标视频。
需要说明的是,上述步骤的具体限定可以参见上文对一种虚拟形象的视频生成方法的具体限定。
在一实施例中,如图8所示,提供了一种包括有向量标记和向量动作变化参数集的虚拟形象图像生成方法的流程示意图,包括以下步骤:
步骤S810,获取针对目标虚拟形象的形象描述标签集,将形象描述标签集输入至预训练的形象图像生成模型,得到预设数量的虚拟形象图像。
步骤S820,人工选取出符合期望的虚拟形象图像。
步骤S830,针对选取出的虚拟形象图像中的虚拟形象的活动部位进行向量标记,得到含有向量标记的虚拟形象图像。
步骤S840,基于K最近邻算法的最佳向量动作变化参数映射计算,在各预设形象类型对应的向量动作变化参数集中,确定目标虚拟形象所属的形象类型对应的向量动作变化参数集。
步骤S850,得到包括有向量标记和向量动作变化参数集的虚拟形象图像。
本实施例的技术方案,由于得到的虚拟形象图像均为通过机器学习算法随机生成,无需基于任何现实中的个人进行建模参考,故相较传统的2/3D仿真虚拟人针对个人进行扫描制作出的完全模拟真实个人的虚拟形象图像相比,没有人像版权纠纷。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的一种虚拟形象的视频生成方法的虚拟形象的视频生成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个虚拟形象的视频装置生成实施例中的具体限定可以参见上文中对于一种虚拟形象的视频生成方法的限定,在此不再赘述。
在一个实施例中,如图9所示,提供了一种虚拟形象的视频生成装置,包括:第一获取模块910、第二获取模块920、匹配模块930和生成模块940,其中:
第一获取模块910,用于获取针对目标虚拟形象的形象描述标签集,将所述形象描述标签集输入至预训练的形象图像生成模型,得到与所述形象描述标签集对应的目标虚拟形象图像。
第二获取模块920,用于获取与所述目标虚拟形象所属的形象类型对应的向量动作变化参数集;所述向量动作变化参数集包括播报样本语音中的各样本音素对应的向量变化数据;所述各样本音素对应的向量变化数据为所述形象类型对应的预设形象执行各所述样本音素对应的发音动作时,所述预设形象的活动部位向量的向量变化数据。
匹配模块930,用于将待播报语音中的各待播报音素与所述向量动作变化参数集中各所述样本音素对应的向量变化数据相匹配,得到所述目标虚拟形象与所述待播报语音相匹配的目标向量动作变化参数集。
生成模块940,用于根据所述待播报语音、所述目标向量动作变化参数集和所述目标虚拟形象图像,生成所述目标虚拟形象播报所述待播报语音的目标视频。
在其中一个实施例中,所述装置还包括:第三获取模块,用于获取所述目标虚拟形象对应的形象描述参数;所述形象描述参数为对所述形象描述标签集中与各形象描述类别对应的形象描述标签进行量化得到的;第一确定模块,用于在各预设形象类型所对应的预设形象描述参数中,确定所述形象描述参数对应的目标形象描述参数;第二确定模块,用于将所述目标形象描述参数对应的预设形象类型,作为所述目标虚拟形象所属的形象类型。
在其中一个实施例中,所述第一确定模块具体用于将所述形象描述参数中与各所述形象描述类别对应的形象描述子参数,作为各形象描述维度上的维度数据,得到所述目标虚拟形象对应的形象描述坐标;根据K最近邻算法,在预设形象描述坐标中,确定与所述形象描述坐标距离最近,且在各所述形象描述维度上与所述形象描述坐标之间的距离小于预设距离阈值的第一形象描述坐标,作为目标形象描述坐标;所述预设形象描述坐标为将所述预设形象描述参数中与各所述形象描述类别对应的预设形象描述子参数,作为各所述形象描述维度上的维度数据得到的;将所述目标形象描述坐标在各所述形象描述维度上的维度数据,作为所述目标形象描述参数。
在其中一个实施例中,若不存在所述第一形象描述坐标,所述第一确定模块具体用于在所述形象描述坐标和所述预设形象描述坐标所处的多维空间坐标系中,确定与各所述形象描述类别对应的目标形象描述维度;在所述预设形象描述坐标中,分别确定在各所述形象描述类别对应的目标形象描述维度上,与所述形象描述坐标之间的距离最短的第二形象描述坐标;将各所述第二形象描述坐标在对应的目标形象描述维度上的维度数据,作为所述形象描述参数在对应的所述目标形象描述维度上的维度数据,得到所述形象描述参数对应的目标形象描述参数。
在其中一个实施例中,所述装置还包括:第四获取模块,用于获取训练视频;所述训练视频为真实人员播报所述播报样本语音的正面人像视频;所述训练视频中的所述真实人员标记有活动部位样本向量;所述活动部位样本向量为对所述真实人员的活动部位进行向量标记得到的;生成子模块,用于根据所述训练视频中所述真实人员执行各所述样本音素对应的发音动作时,所述真实人员的活动部位样本向量的变化,生成所述真实人员的活动部位样本向量对应的向量参数变化曲线;归类模块,用于根据K均值聚类算法,对所述训练视频中各所述真实人员的各活动部位样本向量之间的比例和对应的向量参数变化曲线进行归类,得到预设形象类型集以及与所述预设形象类型集中各预设形象类型对应的向量动作变化参数集;所述预设形象类型集为根据所述真实人员对应的形象描述样本标签得到的。
在其中一个实施例中,所述装置还包括:第一构建模块,用于构建待训练的生成器;所述待训练的生成器用于根据输入的所述形象描述样本标签生成对应的虚拟形象样本图像;第二构建模块,用于构建待训练的判别器;所述待训练的判别器用于判断输入的图像是否为真实人员样本图像;所述真实人员样本图像为对所述训练视频中的所述真实人员进行截取得到的;训练模块,用于基于所述形象描述样本标签、所述虚拟形象样本图像和所述真实人员样本图像对所述待训练的生成器和所述待训练的判别器进行迭代训练,得到所述预训练的形象图像生成模型。
在其中一个实施例中,所述生成模块940,具体用于根据所述目标向量动作变化参数集,对所述目标虚拟形象图像中的所述目标虚拟形象的活动部位进行调整,得到所述目标虚拟形象执行各所述待播报音素对应的发音动作时的视频帧图像;根据各所述视频帧图像和所述待播报语音,得到所述目标虚拟形象播报所述待播报语音时的动作视频;将所述动作视频与所述待播报语音结合,得到所述目标视频。
在其中一个实施例中,所述生成模块940,具体用于根据各所述待播报音素的发音顺序,对各所述视频帧图像进行排序,得到排序后的视频帧图像;根据预设视频渲染算法,对所述排序后的视频帧图像中的所述目标虚拟形象进行渲染,得到所述目标虚拟形象播报所述待播报语音时的初始动作视频;根据所述待播报语音的语速,对所述初始动作视频的播放速度进行调整,得到调整后动作视频;针对所述调整后动作视频中所述目标虚拟形象的异常活动部位向量进行平滑补帧处理,得到所述动作视频;所述异常活动部位向量为在相邻的所述视频帧图像之间衔接异常的活动部位向量。
上述一种装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储预设形象类型对应的向量动作变化参数集数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种虚拟形象的视频生成方法。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (12)

1.一种虚拟形象的视频生成方法,其特征在于,所述方法包括:
获取针对目标虚拟形象的形象描述标签集,将所述形象描述标签集输入至预训练的形象图像生成模型,得到与所述形象描述标签集对应的目标虚拟形象图像;
获取与所述目标虚拟形象所属的形象类型对应的向量动作变化参数集;所述向量动作变化参数集包括播报样本语音中的各样本音素对应的向量变化数据;所述各样本音素对应的向量变化数据为所述形象类型对应的预设形象执行各所述样本音素对应的发音动作时,所述预设形象的活动部位向量的向量变化数据;
将待播报语音中的各待播报音素与所述向量动作变化参数集中各所述样本音素对应的向量变化数据相匹配,得到所述目标虚拟形象与所述待播报语音相匹配的目标向量动作变化参数集;
根据所述待播报语音、所述目标向量动作变化参数集和所述目标虚拟形象图像,生成所述目标虚拟形象播报所述待播报语音的目标视频。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述目标虚拟形象对应的形象描述参数;所述形象描述参数为对所述形象描述标签集中与各形象描述类别对应的形象描述标签进行量化得到的;
在各预设形象类型所对应的预设形象描述参数中,确定所述形象描述参数对应的目标形象描述参数;
将所述目标形象描述参数对应的预设形象类型,作为所述目标虚拟形象所属的形象类型。
3.据权利要求2所述的方法,其特征在于,所述在各预设形象类型所对应的预设形象描述参数中,确定所述形象描述参数对应的目标形象描述参数,包括:
将所述形象描述参数中与各所述形象描述类别对应的形象描述子参数,作为各形象描述维度上的维度数据,得到所述目标虚拟形象对应的形象描述坐标;
根据K最近邻算法,在预设形象描述坐标中,确定与所述形象描述坐标距离最近,且在各所述形象描述维度上与所述形象描述坐标之间的距离小于预设距离阈值的第一形象描述坐标,作为目标形象描述坐标;所述预设形象描述坐标为将所述预设形象描述参数中与各所述形象描述类别对应的预设形象描述子参数,作为各所述形象描述维度上的维度数据得到的;
将所述目标形象描述坐标在各所述形象描述维度上的维度数据,作为所述目标形象描述参数。
4.根据权利要3所述的方法,其特征在于,若不存在所述第一形象描述坐标,所述在各预设形象类型所对应的预设形象描述参数中,确定所述形象描述参数对应的目标形象描述参数,包括:
在所述形象描述坐标和所述预设形象描述坐标所处的多维空间坐标系中,确定与各所述形象描述类别对应的目标形象描述维度;
在所述预设形象描述坐标中,分别确定在各所述形象描述类别对应的目标形象描述维度上,与所述形象描述坐标之间的距离最短的第二形象描述坐标;
将各所述第二形象描述坐标在对应的目标形象描述维度上的维度数据,作为所述形象描述参数在对应的所述目标形象描述维度上的维度数据,得到所述形象描述参数对应的目标形象描述参数。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取训练视频;所述训练视频为真实人员播报所述播报样本语音的正面人像视频;所述训练视频中的所述真实人员标记有活动部位样本向量;所述活动部位样本向量为对所述真实人员的活动部位进行向量标记得到的;
根据所述训练视频中所述真实人员执行各所述样本音素对应的发音动作时,所述真实人员的活动部位样本向量的变化,生成所述真实人员的活动部位样本向量对应的向量参数变化曲线;
根据K均值聚类算法,对所述训练视频中各所述真实人员的各活动部位样本向量之间的比例和对应的向量参数变化曲线进行归类,得到预设形象类型集以及与所述预设形象类型集中各预设形象类型对应的向量动作变化参数集;所述预设形象类型集为根据所述真实人员对应的形象描述样本标签得到的。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
构建待训练的生成器;所述待训练的生成器用于根据输入的所述形象描述样本标签生成对应的虚拟形象样本图像;
构建待训练的判别器;所述待训练的判别器用于判断输入的图像是否为真实人员样本图像;所述真实人员样本图像为对所述训练视频中的所述真实人员进行截取得到的;
基于所述形象描述样本标签、所述虚拟形象样本图像和所述真实人员样本图像对所述待训练的生成器和所述待训练的判别器进行迭代训练,得到所述预训练的形象图像生成模型。
7.根据权利要求1所述的方法,其特征在于,所述根据所述待播报语音、所述目标向量动作变化参数集和所述目标虚拟形象图像,生成所述目标虚拟形象播报所述待播报语音的目标视频,包括:
根据所述目标向量动作变化参数集,对所述目标虚拟形象图像中的所述目标虚拟形象的活动部位进行调整,得到所述目标虚拟形象执行各所述待播报音素对应的发音动作时的视频帧图像;
根据各所述视频帧图像和所述待播报语音,得到所述目标虚拟形象播报所述待播报语音时的动作视频;
将所述动作视频与所述待播报语音结合,得到所述目标视频。
8.根据权利要求7所述的方法,其特征在于,所述根据各所述视频帧图像和所述待播报语音,得到所述目标虚拟形象播报所述待播报语音时的动作视频,包括:
根据各所述待播报音素的发音顺序,对各所述视频帧图像进行排序,得到排序后的视频帧图像;
根据预设视频渲染算法,对所述排序后的视频帧图像中的所述目标虚拟形象进行渲染,得到所述目标虚拟形象播报所述待播报语音时的初始动作视频;
根据所述待播报语音的语速,对所述初始动作视频的播放速度进行调整,得到调整后动作视频;
针对所述调整后动作视频中所述目标虚拟形象的异常活动部位向量进行平滑补帧处理,得到所述动作视频;所述异常活动部位向量为在相邻的所述视频帧图像之间衔接异常的活动部位向量。
9.一种虚拟形象的视频生成装置,其特征在于,所述装置包括:
第一获取模块,用于获取针对目标虚拟形象的形象描述标签集,将所述形象描述标签集输入至预训练的形象图像生成模型,得到与所述形象描述标签集对应的目标虚拟形象图像;
第二获取模块,用于获取与所述目标虚拟形象所属的形象类型对应的向量动作变化参数集;所述向量动作变化参数集包括播报样本语音中的各样本音素对应的向量变化数据;所述各样本音素对应的向量变化数据为所述形象类型对应的预设形象执行各所述样本音素对应的发音动作时,所述预设形象的活动部位向量的向量变化数据;
匹配模块,用于将待播报语音中的各待播报音素与所述向量动作变化参数集中各所述样本音素对应的向量变化数据相匹配,得到所述目标虚拟形象与所述待播报语音相匹配的目标向量动作变化参数集;
生成模块,用于根据所述待播报语音、所述目标向量动作变化参数集和所述目标虚拟形象图像,生成所述目标虚拟形象播报所述待播报语音的目标视频。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
12.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
CN202211245566.1A 2022-10-12 2022-10-12 虚拟形象的视频生成方法、装置、计算机设备和存储介质 Pending CN115690276A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211245566.1A CN115690276A (zh) 2022-10-12 2022-10-12 虚拟形象的视频生成方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211245566.1A CN115690276A (zh) 2022-10-12 2022-10-12 虚拟形象的视频生成方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN115690276A true CN115690276A (zh) 2023-02-03

Family

ID=85063765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211245566.1A Pending CN115690276A (zh) 2022-10-12 2022-10-12 虚拟形象的视频生成方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN115690276A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117221465A (zh) * 2023-09-20 2023-12-12 北京约来健康科技有限公司 一种数字视频内容合成方法及系统
WO2024169893A1 (zh) * 2023-02-13 2024-08-22 北京字跳网络技术有限公司 模型构建方法、虚拟形象生成方法、装置、设备、介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024169893A1 (zh) * 2023-02-13 2024-08-22 北京字跳网络技术有限公司 模型构建方法、虚拟形象生成方法、装置、设备、介质
CN117221465A (zh) * 2023-09-20 2023-12-12 北京约来健康科技有限公司 一种数字视频内容合成方法及系统
CN117221465B (zh) * 2023-09-20 2024-04-16 北京约来健康科技有限公司 一种数字视频内容合成方法及系统

Similar Documents

Publication Publication Date Title
WO2020258668A1 (zh) 基于对抗网络模型的人脸图像生成方法及装置、非易失性可读存储介质、计算机设备
US20210012777A1 (en) Context acquiring method and device based on voice interaction
CN112395979B (zh) 基于图像的健康状态识别方法、装置、设备及存储介质
CN112418292B (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN111598979B (zh) 虚拟角色的面部动画生成方法、装置、设备及存储介质
CN110555896B (zh) 一种图像生成方法、装置以及存储介质
CN115690276A (zh) 虚拟形象的视频生成方法、装置、计算机设备和存储介质
US20220172710A1 (en) Interactive systems and methods
WO2024109374A1 (zh) 换脸模型的训练方法、装置、设备、存储介质和程序产品
US20220101121A1 (en) Latent-variable generative model with a noise contrastive prior
CN111108508B (zh) 脸部情感识别方法、智能装置和计算机可读存储介质
CN118229844B (zh) 图像生成数据的处理方法、图像生成方法和装置
CN112632244A (zh) 一种人机通话的优化方法、装置、计算机设备及存储介质
Tang et al. Memories are one-to-many mapping alleviators in talking face generation
CN114694224A (zh) 客服问答方法、装置、设备、存储介质和计算机程序产品
Marin et al. The effect of latent space dimension on the quality of synthesized human face images
CN114282059A (zh) 视频检索的方法、装置、设备及存储介质
CN114529785B (zh) 模型的训练方法、视频生成方法和装置、设备、介质
CN110415261B (zh) 一种分区域训练的表情动画转换方法及系统
CN117152308B (zh) 一种虚拟人动作表情优化方法与系统
CN112862672B (zh) 刘海生成方法、装置、计算机设备和存储介质
WO2024066549A1 (zh) 一种数据处理方法及相关设备
CN115631285B (zh) 基于统一驱动的人脸渲染方法、装置、设备及存储介质
CN111445545A (zh) 一种文本转贴图方法、装置、存储介质及电子设备
Wang et al. Generative model with coordinate metric learning for object recognition based on 3D models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination