CN117893652A - 视频生成方法以及参数生成模型训练方法 - Google Patents
视频生成方法以及参数生成模型训练方法 Download PDFInfo
- Publication number
- CN117893652A CN117893652A CN202311729160.5A CN202311729160A CN117893652A CN 117893652 A CN117893652 A CN 117893652A CN 202311729160 A CN202311729160 A CN 202311729160A CN 117893652 A CN117893652 A CN 117893652A
- Authority
- CN
- China
- Prior art keywords
- sample
- video
- emotion
- model
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 119
- 238000012549 training Methods 0.000 title claims abstract description 85
- 230000008451 emotion Effects 0.000 claims abstract description 257
- 230000014509 gene expression Effects 0.000 claims abstract description 205
- 230000033001 locomotion Effects 0.000 claims abstract description 25
- 230000001815 facial effect Effects 0.000 claims abstract description 24
- 238000000605 extraction Methods 0.000 claims description 102
- 230000002996 emotional effect Effects 0.000 claims description 32
- 238000009792 diffusion process Methods 0.000 claims description 21
- 238000011176 pooling Methods 0.000 claims description 20
- 230000036651 mood Effects 0.000 claims description 13
- 238000003860 storage Methods 0.000 claims description 9
- 108091026890 Coding region Proteins 0.000 claims description 8
- 230000008569 process Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 7
- 238000009826 distribution Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000008921 facial expression Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 210000004709 eyebrow Anatomy 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 241000235013 Yarrowia Species 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/04—Indexing scheme for image data processing or generation, in general involving 3D image data
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Psychiatry (AREA)
- Hospice & Palliative Care (AREA)
- General Health & Medical Sciences (AREA)
- Child & Adolescent Psychology (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Processing Or Creating Images (AREA)
Abstract
本说明书实施例提供视频生成方法以及参数生成模型训练方法,其中所述视频生成方法包括:获取待处理语音;将目标对象的情绪特征和待处理语音输入参数生成模型,获得表情参数,其中,表情参数用于描述目标对象在情绪特征影响下的脸部运动信息,参数生成模型基于样本情绪特征、样本语音和样本语音对应的表情参数标签训练得到,样本情绪特征和样本语音基于样本视频得到;将目标对象的对象图像和表情参数输入视频生成模型,获得目标对象的目标视频。通过基于情绪特征和待处理语音生成表情参数,进一步根据表情参数生成目标视频,在保证目标视频中语音和表情同步的前提下,在目标视频中融入了多样化情绪信息,提高了目标视频的准确性与生动性。
Description
技术领域
本说明书实施例涉及计算机技术领域,特别涉及视频生成方法以及参数生成模型训练方法。
背景技术
随着计算机技术的发展,说话人视频生成逐渐成为研究重点。说话人视频生成可以分析处理语音信号,帮助用户创作出说话人视频,满足用户对创作和娱乐的需求,广泛应用于动画制作、虚拟代理、视频会议以及其他多媒体应用中。
然而,传统的说话人视频生成过程中会出现模式坍塌的问题,难以保证说话人视频的生动性以及准确度,因此,亟需一种生动且准确性高的视频生成方案。
发明内容
有鉴于此,本说明书实施例提供了视频生成方法。本说明书一个或者多个实施例同时涉及一种参数生成模型训练方法,视频生成装置,一种参数生成模型训练装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种视频生成方法,包括:
获取待处理语音;
将目标对象的情绪特征和待处理语音输入参数生成模型,获得表情参数,其中,表情参数用于描述目标对象在情绪特征影响下的脸部运动信息,参数生成模型基于样本情绪特征、样本语音和样本语音对应的表情参数标签训练得到,样本情绪特征和样本语音基于样本视频得到;
将目标对象的对象图像和表情参数输入视频生成模型,获得目标对象的目标视频。
根据本说明书实施例的第二方面,提供了一种视频生成方法,包括:
接收用户发送的视频生成请求,其中,视频生成请求携带待处理语音;
将目标对象的情绪特征和待处理语音输入参数生成模型,获得表情参数,其中,表情参数用于描述目标对象在情绪特征影响下的脸部运动信息,参数生成模型基于样本情绪特征、样本语音和样本语音对应的表情参数标签训练得到,样本情绪特征和样本语音基于样本视频得到;
将目标对象的对象图像和表情参数输入视频生成模型,获得视频生成请求对应的目标视频;
向用户发送视频生成请求对应的目标视频。
根据本说明书实施例的第三方面,提供了一种参数生成模型训练方法,应用于云侧设备,包括:
获取多个包括样本对象的样本视频;
从样本视频中提取样本语音和样本语音对应的表情参数标签;
将样本对象的样本情绪特征和样本语音输入初始参数生成模型,获得预测表情参数;
根据预测表情参数和表情参数标签,调整初始参数生成模型的模型参数,获得训练完成的参数生成模型。
根据本说明书实施例的第四方面,提供了一种视频生成装置,包括:
第一获取模块,被配置为获取待处理语音;
第一输入模块,被配置为将目标对象的情绪特征和待处理语音输入参数生成模型,获得表情参数,其中,表情参数用于描述目标对象在情绪特征影响下的脸部运动信息,参数生成模型基于样本情绪特征、样本语音和样本语音对应的表情参数标签训练得到,样本情绪特征和样本语音基于样本视频得到;
第二输入模块,被配置为将目标对象的对象图像和表情参数输入视频生成模型,获得目标对象的目标视频。
根据本说明书实施例的第五方面,提供了一种视频生成装置,包括:
第一接收模块,被配置为接收用户发送的视频生成请求,其中,视频生成请求携带待处理语音;
第三输入模块,被配置为将目标对象的情绪特征和待处理语音输入参数生成模型,获得表情参数,其中,表情参数用于描述目标对象在情绪特征影响下的脸部运动信息,参数生成模型基于样本情绪特征、样本语音和样本语音对应的表情参数标签训练得到,样本情绪特征和样本语音基于样本视频得到;
第四输入模块,被配置为将目标对象的对象图像和表情参数输入视频生成模型,获得视频生成请求对应的目标视频;
发送模块,被配置为向用户发送视频生成请求对应的目标视频。
根据本说明书实施例的第六方面,提供了一种参数生成模型训练装置,应用于云侧设备,包括:
第二获取模块,被配置为获取多个包括样本对象的样本视频;
提取模块,被配置为从样本视频中提取样本语音和样本语音对应的表情参数标签;
第五输入模块,被配置为将样本对象的样本情绪特征和样本语音输入初始参数生成模型,获得预测表情参数;
调整模块,被配置为根据预测表情参数和表情参数标签,调整初始参数生成模型的模型参数,获得训练完成的参数生成模型。
根据本说明书实施例的第七方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述第一方面或者第二方面或者第三方面所提供方法的步骤。
根据本说明书实施例的第八方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述第一方面或者第二方面或者第三方面所提供方法的步骤。
根据本说明书实施例的第九方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述第一方面或者第二方面或者第三方面所提供方法的步骤。
本说明书一个实施例提供的视频生成方法,获取待处理语音;将目标对象的情绪特征和待处理语音输入参数生成模型,获得表情参数,其中,表情参数用于描述目标对象在情绪特征影响下的脸部运动信息,参数生成模型基于样本情绪特征、样本语音和样本语音对应的表情参数标签训练得到,样本情绪特征和样本语音基于样本视频得到;将目标对象的对象图像和表情参数输入视频生成模型,获得目标对象的目标视频。通过基于情绪特征和待处理语音生成表情参数,进一步根据表情参数生成目标视频,在保证目标视频中语音和表情同步的前提下,在目标视频中融入了多样化情绪信息,提高了目标视频的准确性与生动性。
附图说明
图1是本说明书一个实施例提供的一种视频生成系统的架构图;
图2是本说明书一个实施例提供的另一种视频生成系统的架构图;
图3是本说明书一个实施例提供的一种视频生成方法的流程图;
图4是本说明书一个实施例提供的另一种视频生成方法的流程图;
图5是本说明书一个实施例提供的一种参数生成模型训练方法的流程图;
图6是本说明书一个实施例提供的一种视频生成方法的处理过程流程图;
图7是本说明书一个实施例提供的一种视频生成界面的界面示意图;
图8是本说明书一个实施例提供的一种视频生成装置的结构示意图;
图9是本说明书一个实施例提供的另一种视频生成装置的结构示意图;
图10是本说明书一个实施例提供的一种参数生成模型训练装置的结构示意图;
图11是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
此外,需要说明的是,本说明书一个或多个实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
扩散模型(DM,Diffusion Model):扩散模型是一种先进的生成模型,专注于生成高品质样本,在复杂的生成任务中展现出巨大潜力。扩散模型本质上基于概率分布,利用一系列迭代步骤来逐渐构造样本。扩散模型的核心机制借鉴了马尔可夫链蒙特卡洛(MCMC,Markov Chain Monte Carlo)采样,在每个迭代步骤中根据当前状态预测下一状态。通过连续的局部转换,扩散模型能够将一个简单的初始状态逐步“扩散”至符合目标概率分布的复杂样本。更具体地,扩散模型定义了一个转移概率函数,这个函数指导了从当前状态到下一状态的演变。在连续迭代的过程中,扩散模型根据当前状态提出新的候选样本,并不断调整这些样本,使其更加接近所希望得到的目标概率分布。
生成对抗网络(GAN,Generative Adversarial Networks):生成对抗网络是一种强大的深度学习模型,由两部分组成:生成器和判别器,它们在训练过程中相互竞争。生成器的目标是创建逼真的数据样本,而判别器则尝试区分这些生成的样本与真实数据样本。这种设置形成了一个动态的对抗过程,鼓励生成器不断提高生成数据的质量。然而,生成对抗网络存在一种被称为模式坍塌(mode collapse)的问题,这是指在训练过程中生成器开始生成高度相似或重复的样本,无法捕捉到数据分布的多样性,从而导致生成数据的多样性和质量受到限制。
情绪化说话人视频生成:情绪化说话人视频生成是一种深度学习技术,它通过分析和处理输入的语音信号来生成同步的人脸动画,并支持使用视频,文本等情绪参考数据来控制人脸的情绪。该技术使用复杂的神经网络模型来提取音频特征,并将这些特征转化为准确的面部运动,包括嘴唇同步和其他相关的面部表情。这样,它能够创造出口型准确、表情丰富的虚拟说话人视频,提供更加自然和逼真的视听体验,广泛应用于动画制作、虚拟代理、视频会议以及其他多媒体应用中。
表情参数:在计算机视觉和图形学领域,三维形态建模法(3DMM,3D MorphableModel)是一种用于精确捕捉和重建人脸的三维模型。表情参数是这个模型的一组参数,用于描述和控制一个特定人脸的表情变化。通过调整这些表情参数,可以模拟各种不同的面部动作,如微笑、皱眉和眨眼等,从而生成具有丰富表情的三维人脸模型。这些参数的优点在于它们能够以一种相对低维且有效的方式,编码面部表情的复杂变化,是实现面部动画和情感表达模拟的关键技术之一。
自注意力池化层:自注意力池化层可以称为自注意力池化单元。自注意力池化层是一种深度学习网络层,它结合了注意力机制与池化操作,用来提取并加强神经网络中重要的特征信息。这种层通过自注意力机制,允许网络在进行降维池化操作时,更加聚焦于输入特征中的关键部分。具体来说,自注意力池化层会为输入的每个特征分配一个权重,这些权重反映了各个特征对于任务的重要性,然后根据这些权重进行加权池化,以确保在减少数据维度的同时保留有用的信息。
Transformer:Transformer架构是一种深度学习模型,主要用于自然语言处理(NLP,Natural Language Processing)任务,广泛应用于各种文本和序列数据相关的任务,如文本分类、问答系统、摘要生成等。Transformer的核心思想是使用自注意力机制来处理输入的序列数据。
情绪化说话人视频生成可以帮助用户创作出情绪生动的说话人视频,满足用户对创作和娱乐的需求。目前,通常基于生成对抗网络进行情绪化说话人视频生成。然而,由于生成对抗网络易受模式坍塌的影响,这类方法往往在呈现多样化情绪时难以保证表情的自然生动和嘴形的准确度。
为了解决上述问题,本说明书实施例基于扩散模型出色的数据分布学习能力,以及在涵盖多种情绪表达情况下学习语音到人脸动作映射方面的优越性,尝试利用扩散模型生成情绪化的说话人视频,也即,提出了一种基于扩散模型的情绪化说话人视频生成方案,首先使用扩散模型生成描述人脸运动的表情参数,之后使用视频生成模型将表情参数渲染成说话人视频。具体地,获取待处理语音;将目标对象的情绪特征和待处理语音输入参数生成模型,获得表情参数,其中,表情参数用于描述目标对象在情绪特征影响下的脸部运动信息,参数生成模型基于样本情绪特征、样本语音和样本语音对应的表情参数标签训练得到,样本情绪特征和样本语音基于样本视频得到;将目标对象的对象图像和表情参数输入视频生成模型,获得目标对象的目标视频。因其利用了扩散模型对于分布学习的强大能力,所以可以生成更生动的情绪和与输入语音更加同步的嘴形,提高了目标视频的准确性与生动性。
在本说明书中,提供了视频生成方法,本说明书同时涉及一种参数生成模型训练方法,视频生成装置,一种参数生成模型训练装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
参见图1,图1示出了本说明书一个实施例提供的一种视频生成系统的架构图,视频生成系统可以包括客户端100和服务端200;
客户端100,用于向服务端200发送待处理语音;
服务端200,用于将目标对象的情绪特征和待处理语音输入参数生成模型,获得表情参数,其中,表情参数用于描述目标对象在情绪特征影响下的脸部运动信息,参数生成模型基于样本情绪特征、样本语音和样本语音对应的表情参数标签训练得到,样本情绪特征和样本语音基于样本视频得到;将目标对象的对象图像和表情参数输入视频生成模型,获得目标对象的目标视频;向客户端100发送目标视频;
客户端100,还用于接收服务端200发送的目标视频。
应用本说明书实施例的方案,通过基于情绪特征和待处理语音生成表情参数,进一步根据表情参数生成目标视频,在保证目标视频中语音和表情同步的前提下,在目标视频中融入了多样化情绪信息,提高了目标视频的准确性与生动性。
参见图2,图2示出了本说明书一个实施例提供的另一种视频生成系统的架构图,视频生成系统可以包括服务端200以及多个客户端100,其中,客户端100可以包括端侧设备,服务端200可以包括云侧设备。多个客户端100之间通过服务端200可以建立通信连接,在视频生成场景中,服务端200即用来在多个客户端100之间提供视频生成服务,多个客户端100可以分别作为发送端或接收端,通过服务端200实现通信。
用户通过客户端100可与服务端200进行交互以接收其它客户端100发送的数据,或将数据发送至其它客户端100等。在视频生成场景中,可以是用户通过客户端100向服务端200发布数据流,服务端200根据该数据流生成目标视频,并将目标视频推送至其他建立通信的客户端中。
其中,客户端100与服务端200之间通过网络建立连接。网络为客户端100与服务端200之间提供了通信链路的介质。网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。客户端100所传输的数据可能需要经过编码、转码、压缩等处理之后才发布至服务端200。
客户端100可以为浏览器、APP(Application,应用程序)、或网页应用如H5(HyperText Markup Language5,超文本标记语言第5版)应用、或轻应用(也被称为小程序,一种轻量级应用程序)或云应用等,客户端100可以基于服务端200提供的相应服务的软件开发工具包(SDK,Software Development Kit),如基于实时通信(RTC,Real TimeCommunication)SDK开发获得等。客户端100可以部署在电子设备中,需要依赖设备运行或者设备中的某些APP而运行等。电子设备例如可以具有显示屏并支持信息浏览等,如可以是个人移动终端如手机、平板电脑、个人计算机等。在电子设备中通常还可以配置各种其它类应用,例如人机对话类应用、模型训练类应用、文本处理类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
服务端200可以包括提供各种服务的服务器,例如为多个客户端提供通信服务的服务器,又如为客户端上使用的模型提供支持的用于后台训练的服务器,又如对客户端发送的数据进行处理的服务器等。需要说明的是,服务端200可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。服务器也可以是云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN,Content DeliveryNetwork)以及大数据和人工智能平台等基础云计算服务的云服务器,或者是带人工智能技术的智能云计算服务器或智能云主机。
值得说明的是,本说明书实施例中提供的视频生成方法一般由服务端执行,但是,在本说明书的其它实施例中,客户端也可以与服务端具有相似的功能,从而执行本说明书实施例所提供的视频生成方法。在其它实施例中,本说明书实施例所提供的视频生成方法还可以是由客户端与服务端共同执行。
参见图3,图3示出了本说明书一个实施例提供的一种视频生成方法的流程图,具体包括以下步骤:
步骤302:获取待处理语音。
本说明书一个或多个实施例中,可以获取待处理语音,从而对待处理语音进行处理,生成包括待处理语音以及目标对象的目标视频。
具体地,待处理语音是指包括自然语言的音频数据。待处理语音可以是不同场景中的语音,例如会议场景中的会议语音、演唱会场景中的歌曲音频。待处理语音中的自然语言包括但不限于中文、英文。例如,待处理语音可以是包括“我考试得了第一名耶”的音频数据。
实际应用中,获取待处理语音的方式有多种,具体根据实际情况进行选择,本说明书实施例对此不做任何限定。本说明书一种可能的实现方式中,可以接收用户通过客户端发送的待处理语音。本说明书另一种可能的实现方式中,可以从其他数据获取设备或数据库中读取待处理语音。
步骤304:将目标对象的情绪特征和待处理语音输入参数生成模型,获得表情参数,其中,表情参数用于描述目标对象在情绪特征影响下的脸部运动信息,参数生成模型基于样本情绪特征、样本语音和样本语音对应的表情参数标签训练得到,样本情绪特征和样本语音基于样本视频得到。
本说明书一个或多个实施例中,获取待处理语音之后,进一步地,可以将目标对象的情绪特征和待处理语音输入参数生成模型,获得表情参数。
需要说明的是,由于待处理语音中通常包括了说话对象的情绪信息,比如开心时说话对象可能会挑眉、微笑,难过时说话对象可能会皱眉、瘪嘴等等。因此,为了保证表情参数能够更生动、更自然的反映说话对象的脸部运动信息,在生成表情参数时,可以融入目标对象的情绪特征。
具体地,目标对象为目标视频中出现的说话对象。目标对象可以是现实生活中的人或者虚拟场景中的角色。目标对象可以是待处理语音的说话对象,也可以待处理语音的说话对象之外的其他对象。例如,待处理语音的说话对象为A,我们可以将说话对象替换为目标对象B,生成由目标对象B和待处理语音构成的目标视频。目标对象的情绪特征用于表达目标对象的情绪信息。情绪特征是对情绪参考数据进行特征提取得到的。情绪参考数据包括但不限于情绪参考语音、情绪参考图像、情绪参考文本、情绪参考视频。
实际应用中,参数生成模型可以是基于样本情绪特征、样本语音和样本语音对应的表情参数标签训练得到的神经网络模型。也可以是基于样本情绪特征、样本语音和样本语音对应的表情参数标签训练得到的扩散模型,也即基于扩散模型的语音驱动人脸运动生成器,用于使用扩散模型的采样过程生成表情参数。
本说明书一种可选的实施例中,参数生成模型包括编码单元和解码单元;上述将目标对象的情绪特征和待处理语音输入参数生成模型,获得表情参数,可以包括以下步骤:
经编码单元,对待处理语音进行编码,获得语音特征;
经解码单元,对预设噪声、情绪特征和语音特征进行扩散处理,获得表情参数。
需要说明的是,在参数生成模型中,可以使用Transformer编码单元对待处理语音进行编码,获得语音特征。然后,将语音特征、预设噪声、情绪特征输入Transformer解码单元中,由Transformer解码单元输出去噪后的表情参数。
应用本说明书实施例的方案,经编码单元,对待处理语音进行编码,获得语音特征;经解码单元,对预设噪声、情绪特征和语音特征进行扩散处理,获得表情参数。由于表情参数生成过程中融入了情绪特征,因此,得到了更加真实、生动的脸部运动信息,进一步提高了目标视频的准确性与生动性。
实际应用中,将目标对象的情绪特征和待处理语音输入参数生成模型,获得表情参数之前,可以获取目标对象的情绪特征。获取目标对象的情绪特征的方式有多种,具体根据实际情况进行选择,本说明书实施例对此不做任何限定。本说明书一种可能的实现方式中,可以从预先生成的多种情绪特征中提取目标对象的情绪特征。例如,用户指定情绪为悲伤,则提取悲伤情绪对应的情绪特征作为目标对象的情绪特征。
本说明书另一种可能的实现方式中,可以利用情绪参考数据生成目标对象的情绪特征,也即,上述将目标对象的情绪特征和待处理语音输入参数生成模型,获得表情参数之前,还可以包括以下步骤:
获取情绪参考数据,其中,情绪参考数据包括情绪信息;
对情绪参考数据进行特征提取,获得目标对象的情绪特征。
具体地,情绪参考数据是指包括情绪信息的数据。获取情绪参考数据的方式有多种,具体根据实际情况进行选择,本说明书实施例对此不做任何限定。本说明书一种可能的实现方式中,可以接收用户通过客户端发送的情绪参考数据。本说明书另一种可能的实现方式中,可以从其他数据获取设备或数据库中读取情绪参考数据。
实际应用中,对情绪参考数据进行特征提取时,可以根据情绪参考数据的模态选择对应的特征提取方法,从而获得目标情绪特征。以情绪参考数据为情绪参考视频为例,可以利用第二特征提取模型对情绪参考视频进行特征提取,获得目标对象的情绪特征。
本说明书一种可选的实施例中,情绪参考数据包括情绪参考视频;上述对情绪参考数据进行特征提取,获得目标对象的情绪特征,可以包括以下步骤:
将情绪参考视频输入第二特征提取模型,获得目标对象的情绪特征。
具体地,第二特征提取模型可以理解为视频情绪编码模型。第二特征提取模型以情绪参考视频为输入,提取情绪参考视频中蕴含的情绪特征。
应用本说明书实施例的方案,将情绪参考视频输入第二特征提取模型,获得目标对象的情绪特征,实现了通过额外的情绪参考视频获得情绪特征。
本说明书另一种可选的实施例中,情绪参考数据包括情绪参考图像;上述对情绪参考数据进行特征提取,获得目标对象的情绪特征,可以包括以下步骤:
将情绪参考图像和待处理语音输入第一特征提取模型,获得目标对象的情绪特征。
具体地,第一特征提取模型可以理解为语音情绪预测模型,是一个基于Transformer编码器的扩散模型,用于通过扩散模型的采样过程预测情绪特征。第一特征提取模型以情绪参考图像、待处理语音和预设噪声为输入,输出为去噪后得到的情绪特征。
需要说明的是,情绪参考图像可以是目标对象的对象图像。由于视频生成过程中,利用情绪参考视频生成目标对象的情绪特征,过于依赖对额外情绪参考视频的依赖,为了降低这种依赖,本说明书实施例中,提出了第一特征提取模型,第一特征提取模型可以直接使用待处理语音预测目标对象的情绪特征,从而避免使用额外的情绪参考视频。
进一步地,由于视频生成过程中,输入视频生成模型的数据中包括目标对象的对象图像,而对象图像中的肖像信息可以帮助第一特征提取模型预测得到与目标对象相吻合的情绪特征,因此,可以将情绪参考图像、待处理语音和预设噪声输入第一特征提取模型,获得目标对象的情绪特征。
应用本说明书实施例的方案,将情绪参考图像和待处理语音输入第一特征提取模型,获得目标对象的情绪特征,降低了对额外的情绪参考视频的依赖。
本说明书一种可选的实施例中,第二特征提取模型包括序列提取单元、序列编码单元和自注意力池化单元;上述将情绪参考视频输入第二特征提取模型,获得目标对象的情绪特征,可以包括以下步骤:
经序列提取单元,从情绪参考视频中提取表情参数参考序列,其中,表情参数参考序列包括情绪参考视频中各视频帧的参考表情参数;
经序列编码单元,对表情参数参考序列进行编码,获得表情参数编码序列;
经自注意力池化单元,对表情参数编码序列进行池化,获得目标对象的情绪特征。
需要说明的是,第二特征提取模型包括序列提取单元、序列编码单元和自注意力池化单元,利用第二特征提取模型进行情绪特征提取时,序列提取单元可以提取情绪参考视频中各视频帧的参考表情参数,组成表情参数参考序列;随后,基于Transformer的序列编码单元对表情参数参考序列进行编码,得到表情参数编码序列;最后,自注意力池化单元对表情参数编码序列进行池化处理,得到情绪特征。
应用本说明书实施例的方案,将情绪参考视频输入第二特征提取模型,经序列提取单元、序列编码单元和自注意力池化单元的处理,获得目标对象的情绪特征,实现了通过额外的情绪参考视频获得情绪特征。
步骤306:将目标对象的对象图像和表情参数输入视频生成模型,获得目标对象的目标视频。
本说明书一个或多个实施例中,获取待处理语音;将目标对象的情绪特征和待处理语音输入参数生成模型,获得表情参数之后,进一步地,可以将目标对象的对象图像和表情参数输入视频生成模型,获得目标对象的目标视频。
具体地,对象图像包括目标对象的脸部特征信息,因此,对象图像可以称为目标对象的肖像。目标视频可以理解为情绪化说话人视频。目标视频中待处理语音和目标对象的脸部运动同步。视频生成模型可以理解为脸部渲染器,用于基于表情参数和对象图像生成与待处理语音同步的目标视频,目标视频中视频帧中的脸部表情与标签参数一致,对象身份与对象图像一致。
应用本说明书实施例的方案,通过基于情绪特征和待处理语音生成表情参数,进一步根据表情参数生成目标视频,在保证目标视频中语音和表情同步的前提下,在目标视频中融入了多样化情绪信息,提高了目标视频的准确性与生动性。
本说明书一种可选的实施例中,将目标对象的对象图像和表情参数输入视频生成模型,获得目标对象的目标视频之后,可以接收用户通过客户端发送的模型调整信息,并基于模型调整信息调整参数生成模型和/或视频生成模型的模型参数。
需要说明的是,模型调整信息包括但不限于调整模型参数的指令信息、用于调整模型参数的更新后的目标视频。以模型调整信息为更新后的目标视频为例,更新后的目标视频为符合用户需求的视频,可以将更新后的目标视频作为真实样本视频,调整参数生成模型和/或视频生成模型的模型参数,使得参数生成模型和/或视频生成模型的模型参数可以生成接近于真实样本视频的视频。
应用本说明书实施例的方案,接收用户通过客户端发送的模型调整信息,并基于模型调整信息调整参数生成模型和/或视频生成模型的模型参数,提高了模型精准性以及用户满意度。
本说明书一种可选的实施例中,可以利用样本语音、样本对象图像以及情绪特征标签训练得到第一特征提取模型,也即,上述将目标对象的情绪特征和待处理语音输入参数生成模型,获得表情参数之前,还可以包括以下步骤:
获取多个包括样本对象的样本视频;
从样本视频中提取样本对象的样本对象图像和样本语音;
将样本视频输入第二特征提取模型,获得情绪特征标签;
将样本对象图像和样本语音输入第一初始特征提取模型,获得预测情绪特征;
根据情绪特征标签和预测情绪特征,调整第一初始特征提取模型的模型参数,获得训练完成的第一特征提取模型。
具体地,第一初始特征提取模型的训练方式为有监督训练,也即训练过程是包括真实情绪特征标签的,情绪特征标签为第一初始特征提取模型的生成目标,用于指导第一初始特征提取模型的训练过程。在调整第一初始特征提取模型的模型参数时,固定第二特征提取模型的模型参数不变。
“获取多个包括样本对象的样本视频”的方式可以参考上述“获取情绪参考数据”的实现方式。由于第二特征提取模型是预先训练得到的,因此,将样本视频输入第二特征提取模型得到的情绪特征是准确的,可以作为第一特征提取模型训练过程中的情绪特征标签。“将样本视频输入第二特征提取模型,获得情绪特征标签”的方式可以参考上述“将情绪参考视频输入第二特征提取模型,获得目标对象的情绪特征”的实现方式,“将样本对象图像和样本语音输入第一初始特征提取模型,获得预测情绪特征”的方式可以参考上述“将情绪参考图像和待处理语音输入第一特征提取模型,获得目标对象的情绪特征”的实现方式,本说明书实施例对此不做任何限定。
需要说明的是,从样本视频中提取样本对象的样本对象图像和样本语音时,可以利用音频解析工具从样本视频中抽取样本语音,随机选取样本视频的任一包括样本对象的样本视频帧作为样本对象图像。进一步地,若样本对象图像中蕴含了情绪特征,为了避免第一初始特征提取模型直接从样本对象图像中提取情绪特征而忽略样本语音,本说明书实施例中,从样本视频的多个样本视频帧中选择样本对象图像时,可以选择没有明显情绪的样本视频帧,从而提高第一初始特征提取模型的预测能力。
实际应用中,根据情绪特征标签和预测情绪特征,调整第一初始特征提取模型的模型参数时,可以根据情绪特征标签和预测情绪特征计算第一损失值,根据第一损失值调整第一初始特征提取模型的模型参数,直至达到第一预设停止条件,获得完成训练的第一特征提取模型,其中,计算第一损失值的函数有很多,如交叉熵损失函数、L1范数损失函数、最大损失函数、均方误差损失函数、对数损失函数等,具体根据实际情况进行选择,本说明书实施例对此不做任何限定。
本说明书一种可能的实现方式中,第一预设停止条件包括第一损失值小于或等于第一预设阈值。根据情绪特征标签和预测情绪特征计算第一损失值之后,将第一损失值与第一预设阈值进行比较。
具体地,若第一损失值大于第一预设阈值,则说明情绪特征标签和预测情绪特征之间的差异较大,第一初始特征提取模型对于情绪特征的预测能力较差,此时可以调整第一初始特征提取模型的模型参数,继续对第一初始特征提取模型进行训练,直至第一损失值小于或等于第一预设阈值,说明情绪特征标签和预测情绪特征的差异较小,达到第一预设停止条件,获得完成训练的第一特征提取模型。
本说明书另一种可能的实现方式中,除了比较第一损失值和第一预设阈值的大小关系之外,还可以结合第一迭代次数,确定当前的第一初始特征提取模型是否训练完成。
具体地,若第一损失值大于第一预设阈值,则调整第一初始特征提取模型的模型参数,继续对第一初始特征提取模型进行训练,直至达到第一预设迭代次数的情况下,停止迭代,得到完成训练的第一特征提取模型,其中,第一预设阈值和第一预设迭代次数具体根据实际情况进行选择,本说明书实施例对此不做任何限定。
应用本说明书实施例的方案,根据情绪特征标签和预测情绪特征,调整第一初始特征提取模型的模型参数,获得训练完成的第一特征提取模型,通过不断对第一初始特征提取模型的模型参数进行调整,能使最终得到的第一特征提取模型更加精准。
本说明书一种可选的实施例中,上述将目标对象的情绪特征和待处理语音输入参数生成模型,获得表情参数之前,还可以包括以下步骤:
获取多个包括样本对象的样本视频;
从样本视频中提取样本语音和样本语音对应的表情参数标签;
将样本视频输入第二初始特征提取模型,获得样本情绪特征;
将样本情绪特征和样本语音输入初始参数生成模型,获得预测表情参数;
根据预测表情参数和表情参数标签,调整第二初始特征提取模型和初始参数生成模型的模型参数,获得训练完成的第二特征提取模型和参数生成模型。
具体地,第二初始特征提取模型和初始参数生成模型的训练方式为有监督训练,也即训练过程是包括真实表情参数标签的,表情参数标签为初始参数生成模型的生成目标,用于指导第二初始特征提取模型和初始参数生成模型的训练过程。
从样本视频中提取样本语音和样本语音对应的表情参数标签时,可以利用音频解析工具从样本视频中抽取样本语音,并从与样本语音时间同步的样本视频帧中提取样本对象的脸部运动信息,基于样本对象的脸部运动信息生成表情参数标签。
需要说明的是,从样本视频中提取样本语音和样本语音对应的表情参数标签之前,可以从样本视频中提取第一样本子视频和第二样本子视频,第一样本子视频最后一个样本视频帧的时间晚于第二样本子视频最后一个样本视频帧的时间,第一样本子视频和第二样本子视频可以有重叠的样本视频帧,也可以没有重叠的样本视频帧。进一步地,可以从第一样本子视频中提取样本语音和样本语音对应的表情参数标签,将第二样本子视频输入第二初始特征提取模型,获得样本情绪特征;将样本情绪特征和样本语音输入初始参数生成模型,获得预测表情参数。
示例性地,假设样本视频为10s的视频,可以从样本视频第6s-8s的第一样本子视频中提取样本语音和样本语音对应的表情参数标签,将样本视频第2s-5s的第二样本子视频输入第二初始特征提取模型,获得样本情绪特征;将样本情绪特征和样本语音输入初始参数生成模型,获得预测表情参数。
“将样本视频输入第二初始特征提取模型,获得样本情绪特征”的方式可以参考上述“将情绪参考视频输入第二特征提取模型,获得目标对象的情绪特征”的实现方式,“将样本情绪特征和样本语音输入初始参数生成模型,获得预测表情参数”的方式可以参考上述“将目标对象的情绪特征和待处理语音输入参数生成模型,获得表情参数”的实现方式,“根据预测表情参数和表情参数标签,调整第二初始特征提取模型和初始参数生成模型的模型参数”的方式可以参考上述“根据情绪特征标签和预测情绪特征,调整第一初始特征提取模型的模型参数”的实现方式,本说明书实施例便不再进行赘述。
应用本说明书实施例的方案,根据预测表情参数和表情参数标签,调整初始参数生成模型的模型参数,获得训练完成的参数生成模型,通过在参数生成模型的训练过程中融入样本情绪特征,从而使得参数生成模型可以在多样化情绪下生成生动、准确的表情参数,提高了参数生成模型的精准度以及灵活性。
本说明书一种可选的实施例中,上述将目标对象的对象图像和表情参数输入视频生成模型,获得目标对象的目标视频之前,还可以包括以下步骤:
获取多个包括样本对象的样本视频;
从样本视频中提取第一样本视频帧和第二样本视频帧,并根据第一样本视频帧确定样本表情参数;
将样本表情参数和第二样本视频帧输入初始视频生成模型,获得预测视频帧;
根据预测视频帧和第一样本视频帧,调整初始视频生成模型的模型参数,获得训练完成的视频生成模型。
具体地,视频生成模型的训练方式为有监督训练,也即训练过程是包括真实训练标签的,真实训练标签为初始视频生成模型的生成目标,用于指导初始视频生成模型的训练过程。初始视频生成模型由一系列卷积神经网络构成。第一样本视频帧在时间上晚于第二样本视频帧,视频生成模型的训练过程中,将第二样本视频帧作为真实训练标签。
需要说明的是,从样本视频中提取第一样本视频帧和第二样本视频帧时,可以从样本视频的多个样本视频帧中随机选择两个样本视频帧,将时间靠前的样本视频帧作为第二样本视频帧,将时间靠后的样本视频帧作为第一样本视频帧。根据第一样本视频帧确定样本表情参数时,可以从第一样本视频帧中提取样本对象的脸部运动信息,基于样本对象的脸部运动信息生成样本表情参数。
“将样本表情参数和第二样本视频帧输入初始视频生成模型,获得预测视频帧”的方式可以参考上述“将目标对象的对象图像和表情参数输入视频生成模型,获得目标对象的目标视频”的实现方式,“根据预测视频帧和第一样本视频帧,调整初始视频生成模型的模型参数”的方式可以参考上述“根据情绪特征标签和预测情绪特征,调整第一初始特征提取模型的模型参数”的实现方式,本说明书实施例便不再进行赘述。
应用本说明实施例的方案,根据预测视频帧和第一样本视频帧,调整初始视频生成模型的模型参数,获得训练完成的视频生成模型,通过不断对初始视频生成模型的模型参数进行调整,能使最终得到的视频生成模型更加精准。
参见图4,图4示出了本说明书一个实施例提供的另一种视频生成方法的流程图,具体包括以下步骤:
步骤402:接收用户发送的视频生成请求,其中,视频生成请求携带待处理语音。
步骤404:将目标对象的情绪特征和待处理语音输入参数生成模型,获得表情参数,其中,表情参数用于描述目标对象在情绪特征影响下的脸部运动信息,参数生成模型基于样本情绪特征、样本语音和样本语音对应的表情参数标签训练得到,样本情绪特征和样本语音基于样本视频得到。
步骤406:将目标对象的对象图像和表情参数输入视频生成模型,获得视频生成请求对应的目标视频。
步骤408:向用户发送视频生成请求对应的目标视频。
需要说明的是,步骤402至步骤406的实现方式可以参考上述步骤302至步骤306的实现方式,本说明书实施例对此不做任何限定。
实际应用中,向用户发送视频生成请求对应的目标视频的方式有多种,具体根据实际情况进行选择,本说明书实施例对此不做任何限定。本说明书一种可能的实现方式中,可以直接将目标视频发送给用户。本说明书另一种可能的实现方式中,可以根据用户的展示需求信息将目标视频发送给用户。其中,展示需求信息表征用户查看目标视频的需求。展示需求信息包括但不限于仅展示目标视频、展示待处理语音和目标视频,展示需求信息具体根据用户实际需求进行设置,本说明书实施例对此不作任何限定。
应用本说明书实施例的方案,通过基于情绪特征和待处理语音生成表情参数,进一步根据表情参数生成目标视频,在保证目标视频中语音和表情同步的前提下,在目标视频中融入了多样化情绪信息,提高了目标视频的准确性与生动性。
本说明书一种可选的实施例中,上述向用户发送视频生成请求对应的目标视频之后,还可以包括以下步骤:
接收用户基于目标视频发送的视频调整信息,并基于视频调整信息调整目标视频,获得调整后的目标视频。
需要说明的是,向用户发送视频生成请求对应的目标视频之后,可以接收用户基于目标视频发送的视频调整信息。视频调整信息包括但不限于视频滤镜调整信息、视频清晰度调整信息、视频标题生成信息等等,具体根据实际情况进行选择,本说明书实施例对此不做任何限定。
进一步地,接收用户基于目标视频发送的视频调整信息之后,基于视频调整信息调整目标视频时,可以将视频调整信息作为提示信息,将视频调整信息和目标视频输入视频调整模型,获得调整后的目标视频。
应用本说明书实施例的方案,接收用户基于目标视频发送的视频调整信息,并基于视频调整信息调整目标视频,获得调整后的目标视频,实现了与用户之间的数据交互,提高了用户体验度。
参见图5,图5示出了本说明书一个实施例提供的一种参数生成模型训练方法的流程图,参数生成模型训练方法应用于云侧设备,具体包括以下步骤:
步骤502:获取多个包括样本对象的样本视频。
步骤504:从样本视频中提取样本语音和样本语音对应的表情参数标签。
步骤506:将样本对象的样本情绪特征和样本语音输入初始参数生成模型,获得预测表情参数。
步骤508:根据预测表情参数和表情参数标签,调整初始参数生成模型的模型参数,获得训练完成的参数生成模型。
需要说明的是,步骤502至步骤508的实现方式可以参考上述视频生成方法中参数生成模型的训练方式,本说明书实施例对此不做任何限定。
实际应用中,获得训练完成的参数生成模型之后,可以将训练完成的参数生成模型的模型参数发送至端侧设备,以使用户基于模型参数在本地构建参数生成模型,利用参数生成模型生成表情参数,实现视频生成。
应用本说明书实施例的方案,根据预测表情参数和表情参数标签,调整初始参数生成模型的模型参数,获得训练完成的参数生成模型,通过在参数生成模型的训练过程中融入样本情绪特征,从而使得参数生成模型可以在多样化情绪下生成生动、准确的表情参数,提高了参数生成模型的精准度以及灵活性。
参见图6,图6示出了本说明书一个实施例提供的一种视频生成方法的处理过程流程图,视频生成过程中,使用了参数生成模型以及视频生成模型生成视频帧,并利用生成的多个视频帧组成目标视频,接下来分别对各模型的处理流程进行说明:
参数生成模型:将预设噪声、目标对象的情绪特征和待处理语音输入参数生成模型,获得表情参数;
视频生成模型:将目标对象的对象图像和表情参数输入视频生成模型,获得目标对象的目标视频。
需要说明的是,情绪特征的来源可以利用第二特征提取模型对情绪参考视频进行特征提取得到,或者由第一特征提取模型对待处理语音和情绪参考图像进行特征提取得到。
应用本说明书实施例的方案,通过基于情绪特征和待处理语音生成表情参数,进一步根据表情参数生成目标视频,在保证目标视频中语音和表情同步的前提下,在目标视频中融入了多样化情绪信息,实现了在多样化情绪下的生成生动表情和准确嘴形,同时还提出了第一特征提取模型,降低了对额外的情绪参考视频的依赖。
参见图7,图7示出了本说明书一个实施例提供的一种视频生成界面的界面示意图。视频生成界面分为请求输入界面和结果展示界面。请求输入界面中包括请求输入框、“确定”控件以及“取消”控件。结果展示界面中包括结果展示框。
用户通过客户端显示的请求输入框输入视频生成请求,其中,视频生成请求携带待处理语音,点选“确定”控件,服务端接收客户端发送的待处理语音,将目标对象的情绪特征和待处理语音输入参数生成模型,获得表情参数,其中,表情参数用于描述目标对象在情绪特征影响下的脸部运动信息,参数生成模型基于样本情绪特征、样本语音和样本语音对应的表情参数标签训练得到,样本情绪特征和样本语音基于样本视频得到;将目标对象的对象图像和表情参数输入视频生成模型,获得视频生成请求对应的目标视频,并将目标视频发送至客户端。客户端在结果展示框中显示目标视频。
实际应用中,用户对控件进行操作的方式包括点击、双击、触控、鼠标悬停、滑动、长按、语音控制或摇一摇等任一方式,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
与上述视频生成方法实施例相对应,本说明书还提供了视频生成装置实施例,图8示出了本说明书一个实施例提供的一种视频生成装置的结构示意图。如图8所示,该装置包括:
第一获取模块802,被配置为获取待处理语音;
第一输入模块804,被配置为将目标对象的情绪特征和待处理语音输入参数生成模型,获得表情参数,其中,表情参数用于描述目标对象在情绪特征影响下的脸部运动信息,参数生成模型基于样本情绪特征、样本语音和样本语音对应的表情参数标签训练得到,样本情绪特征和样本语音基于样本视频得到;
第二输入模块806,被配置为将目标对象的对象图像和表情参数输入视频生成模型,获得目标对象的目标视频。
可选地,该装置还包括:第三获取模块,被配置为获取情绪参考数据,其中,情绪参考数据包括情绪信息;对情绪参考数据进行特征提取,获得目标对象的情绪特征。
可选地,情绪参考数据包括情绪参考视频;第三获取模块,进一步被配置为将情绪参考视频输入第二特征提取模型,获得目标对象的情绪特征。
可选地,第二特征提取模型包括序列提取单元、序列编码单元和自注意力池化单元;第三获取模块,进一步被配置为经序列提取单元,从情绪参考视频中提取表情参数参考序列,其中,表情参数参考序列包括情绪参考视频中各视频帧的参考表情参数;经序列编码单元,对表情参数参考序列进行编码,获得表情参数编码序列;经自注意力池化单元,对表情参数编码序列进行池化,获得目标对象的情绪特征。
可选地,参数生成模型包括编码单元和解码单元;第一输入模块804,进一步被配置为经编码单元,对待处理语音进行编码,获得语音特征;经解码单元,对预设噪声、情绪特征和语音特征进行扩散处理,获得表情参数。
可选地,该装置还包括:第一训练模块,被配置为获取多个包括样本对象的样本视频;从样本视频中提取样本对象的样本对象图像和样本语音;将样本视频输入第二特征提取模型,获得情绪特征标签;将样本对象图像和样本语音输入第一初始特征提取模型,获得预测情绪特征;根据情绪特征标签和预测情绪特征,调整第一初始特征提取模型的模型参数,获得训练完成的第一特征提取模型。
可选地,该装置还包括:第二训练模块,被配置为获取多个包括样本对象的样本视频;从样本视频中提取样本语音和样本语音对应的表情参数标签;将样本视频输入第二初始特征提取模型,获得样本情绪特征;将样本情绪特征和样本语音输入初始参数生成模型,获得预测表情参数;根据预测表情参数和表情参数标签,调整第二初始特征提取模型和初始参数生成模型的模型参数,获得训练完成的第二特征提取模型和参数生成模型。
可选地,该装置还包括:第三训练模块,被配置为获取多个包括样本对象的样本视频;从样本视频中提取第一样本视频帧和第二样本视频帧,并根据第一样本视频帧确定样本表情参数;将样本表情参数和第二样本视频帧输入初始视频生成模型,获得预测视频帧;根据预测视频帧和第一样本视频帧,调整初始视频生成模型的模型参数,获得训练完成的视频生成模型。
应用本说明书实施例的方案,通过基于情绪特征和待处理语音生成表情参数,进一步根据表情参数生成目标视频,在保证目标视频中语音和表情同步的前提下,在目标视频中融入了多样化情绪信息,提高了目标视频的准确性与生动性。
上述为本实施例的一种视频生成装置的示意性方案。需要说明的是,该视频生成装置的技术方案与上述的视频生成方法的技术方案属于同一构思,视频生成装置的技术方案未详细描述的细节内容,均可以参见上述视频生成方法的技术方案的描述。
与上述视频生成方法实施例相对应,本说明书还提供了视频生成装置实施例,图9示出了本说明书一个实施例提供的另一种视频生成装置的结构示意图。如图9所示,该装置包括:
第一接收模块902,被配置为接收用户发送的视频生成请求,其中,视频生成请求携带待处理语音;
第三输入模块904,被配置为将目标对象的情绪特征和待处理语音输入参数生成模型,获得表情参数,其中,表情参数用于描述目标对象在情绪特征影响下的脸部运动信息,参数生成模型基于样本情绪特征、样本语音和样本语音对应的表情参数标签训练得到,样本情绪特征和样本语音基于样本视频得到;
第四输入模块906,被配置为将目标对象的对象图像和表情参数输入视频生成模型,获得视频生成请求对应的目标视频;
发送模块908,被配置为向用户发送视频生成请求对应的目标视频。
可选地,还装置还包括:第二接收模块,被配置为接收用户基于目标视频发送的视频调整信息,并基于视频调整信息调整目标视频,获得调整后的目标视频。
应用本说明书实施例的方案,通过基于情绪特征和待处理语音生成表情参数,进一步根据表情参数生成目标视频,在保证目标视频中语音和表情同步的前提下,在目标视频中融入了多样化情绪信息,提高了目标视频的准确性与生动性。
上述为本实施例的一种视频生成装置的示意性方案。需要说明的是,该视频生成装置的技术方案与上述的视频生成方法的技术方案属于同一构思,视频生成装置的技术方案未详细描述的细节内容,均可以参见上述视频生成方法的技术方案的描述。
与上述参数生成模型训练方法实施例相对应,本说明书还提供了参数生成模型训练装置实施例,图10示出了本说明书一个实施例提供的一种参数生成模型训练装置的结构示意图。如图10所示,该装置应用于云侧设备,包括:
第二获取模块1002,被配置为获取多个包括样本对象的样本视频;
提取模块1004,被配置为从样本视频中提取样本语音和样本语音对应的表情参数标签;
第五输入模块1006,被配置为将样本对象的样本情绪特征和样本语音输入初始参数生成模型,获得预测表情参数;
调整模块1008,被配置为根据预测表情参数和表情参数标签,调整初始参数生成模型的模型参数,获得训练完成的参数生成模型。
应用本说明书实施例的方案,根据预测表情参数和表情参数标签,调整初始参数生成模型的模型参数,获得训练完成的参数生成模型,通过在参数生成模型的训练过程中融入样本情绪特征,从而使得参数生成模型可以在多样化情绪下生成生动、准确的表情参数,提高了参数生成模型的精准度以及灵活性。
上述为本实施例的一种参数生成模型训练装置的示意性方案。需要说明的是,该参数生成模型训练装置的技术方案与上述的参数生成模型训练方法的技术方案属于同一构思,参数生成模型训练装置的技术方案未详细描述的细节内容,均可以参见上述参数生成模型训练方法的技术方案的描述。
图11示出了本说明书一个实施例提供的一种计算设备的结构框图。该计算设备1100的部件包括但不限于存储器1110和处理器1120。处理器1120与存储器1110通过总线1130相连接,数据库1150用于保存数据。
计算设备1100还包括接入设备1140,接入设备1140使得计算设备1100能够经由一个或多个网络1160通信。这些网络的示例包括公用交换电话网(PSTN,Public SwitchedTelephone Network)、局域网(LAN,Local Area Network)、广域网(WAN,Wide AreaNetwork)、个域网(PAN,Personal Area Network)或诸如因特网的通信网络的组合。接入设备1140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,NetworkInterface Card))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,Wireless LocalArea Networks)无线接口、全球微波互联接入(Wi-MAX,World Interoperability forMicrowave Access)接口、以太网接口、通用串行总线(USB,Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,Near Field Communication)接口,等等。
在本说明书的一个实施例中,计算设备1100的上述部件以及图11中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图11所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备1100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或个人计算机(PC,Personal Computer)的静止计算设备。计算设备1100还可以是移动式或静止式的服务器。
其中,处理器1120用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述视频生成方法或者参数生成模型训练方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的视频生成方法和参数生成模型训练方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述视频生成方法或者参数生成模型训练方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述视频生成方法或者参数生成模型训练方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的视频生成方法和参数生成模型训练方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述视频生成方法或者参数生成模型训练方法的技术方案的描述。
本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述视频生成方法或者参数生成模型训练方法的步骤。
上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述的视频生成方法和参数生成模型训练方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述视频生成方法或者参数生成模型训练方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-On ly Memory)、随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据专利实践的要求进行适当的增减,例如在某些地区,根据专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。
Claims (13)
1.一种视频生成方法,包括:
获取待处理语音;
将目标对象的情绪特征和所述待处理语音输入参数生成模型,获得表情参数,其中,所述表情参数用于描述所述目标对象在所述情绪特征影响下的脸部运动信息,所述参数生成模型基于样本情绪特征、样本语音和所述样本语音对应的表情参数标签训练得到,所述样本情绪特征和所述样本语音基于样本视频得到;
将所述目标对象的对象图像和所述表情参数输入视频生成模型,获得所述目标对象的目标视频。
2.根据权利要求1所述的方法,所述将目标对象的情绪特征和所述待处理语音输入参数生成模型,获得表情参数之前,还包括:
获取情绪参考数据,其中,所述情绪参考数据包括情绪信息;
对所述情绪参考数据进行特征提取,获得目标对象的情绪特征。
3.根据权利要求2所述的方法,所述情绪参考数据包括情绪参考视频;
所述对所述情绪参考数据进行特征提取,获得目标对象的情绪特征,包括:
将所述情绪参考视频输入第二特征提取模型,获得所述目标对象的情绪特征。
4.根据权利要求3所述的方法,所述第二特征提取模型包括序列提取单元、序列编码单元和自注意力池化单元;
所述将所述情绪参考视频输入第二特征提取模型,获得所述目标对象的情绪特征,包括:
经所述序列提取单元,从所述情绪参考视频中提取表情参数参考序列,其中,所述表情参数参考序列包括所述情绪参考视频中各视频帧的参考表情参数;
经所述序列编码单元,对所述表情参数参考序列进行编码,获得表情参数编码序列;
经所述自注意力池化单元,对所述表情参数编码序列进行池化,获得所述目标对象的情绪特征。
5.根据权利要求1所述的方法,所述参数生成模型包括编码单元和解码单元;
所述将目标对象的情绪特征和所述待处理语音输入参数生成模型,获得表情参数,包括:
经所述编码单元,对所述待处理语音进行编码,获得语音特征;
经所述解码单元,对预设噪声、所述情绪特征和所述语音特征进行扩散处理,获得表情参数。
6.根据权利要求1所述的方法,所述将目标对象的情绪特征和所述待处理语音输入参数生成模型,获得表情参数之前,还包括:
获取多个包括样本对象的样本视频;
从所述样本视频中提取样本对象的样本对象图像和样本语音;
将所述样本视频输入第二特征提取模型,获得情绪特征标签;
将所述样本对象图像和所述样本语音输入第一初始特征提取模型,获得预测情绪特征;
根据所述情绪特征标签和所述预测情绪特征,调整所述第一初始特征提取模型的模型参数,获得训练完成的第一特征提取模型。
7.根据权利要求1所述的方法,所述将目标对象的情绪特征和所述待处理语音输入参数生成模型,获得表情参数之前,还包括:
获取多个包括样本对象的样本视频;
从所述样本视频中提取样本语音和所述样本语音对应的表情参数标签;
将所述样本视频输入第二初始特征提取模型,获得样本情绪特征;
将所述样本情绪特征和所述样本语音输入初始参数生成模型,获得预测表情参数;
根据所述预测表情参数和所述表情参数标签,调整所述第二初始特征提取模型和所述初始参数生成模型的模型参数,获得训练完成的第二特征提取模型和参数生成模型。
8.根据权利要求1所述的方法,所述将所述目标对象的对象图像和所述表情参数输入视频生成模型,获得所述目标对象的目标视频之前,还包括:
获取多个包括样本对象的样本视频;
从所述样本视频中提取第一样本视频帧和第二样本视频帧,并根据所述第一样本视频帧确定样本表情参数;
将所述样本表情参数和所述第二样本视频帧输入初始视频生成模型,获得预测视频帧;
根据所述预测视频帧和所述第一样本视频帧,调整所述初始视频生成模型的模型参数,获得训练完成的视频生成模型。
9.一种视频生成方法,包括:
接收用户发送的视频生成请求,其中,所述视频生成请求携带待处理语音;
将目标对象的情绪特征和所述待处理语音输入参数生成模型,获得表情参数,其中,所述表情参数用于描述所述目标对象在所述情绪特征影响下的脸部运动信息,所述参数生成模型基于样本情绪特征、样本语音和所述样本语音对应的表情参数标签训练得到,所述样本情绪特征和所述样本语音基于样本视频得到;
将所述目标对象的对象图像和所述表情参数输入视频生成模型,获得所述视频生成请求对应的目标视频;
向所述用户发送所述视频生成请求对应的目标视频。
10.根据权利要求9所述的方法,所述向所述用户发送所述视频生成请求对应的目标视频之后,还包括:
接收所述用户基于所述目标视频发送的视频调整信息,并基于所述视频调整信息调整所述目标视频,获得调整后的目标视频。
11.一种参数生成模型训练方法,应用于云侧设备,包括:
获取多个包括样本对象的样本视频;
从所述样本视频中提取样本语音和所述样本语音对应的表情参数标签;
将所述样本对象的样本情绪特征和所述样本语音输入初始参数生成模型,获得预测表情参数;
根据所述预测表情参数和所述表情参数标签,调整所述初始参数生成模型的模型参数,获得训练完成的参数生成模型。
12.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至8任意一项或者权利要求9至10任意一项或者权利要求11所述方法的步骤。
13.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至8任意一项或者权利要求9至10任意一项或者权利要求11所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311729160.5A CN117893652A (zh) | 2023-12-14 | 2023-12-14 | 视频生成方法以及参数生成模型训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311729160.5A CN117893652A (zh) | 2023-12-14 | 2023-12-14 | 视频生成方法以及参数生成模型训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117893652A true CN117893652A (zh) | 2024-04-16 |
Family
ID=90646493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311729160.5A Pending CN117893652A (zh) | 2023-12-14 | 2023-12-14 | 视频生成方法以及参数生成模型训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117893652A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118471250A (zh) * | 2024-06-20 | 2024-08-09 | 北京林业大学 | 一种输入语音自动生成口型和表情的方法 |
-
2023
- 2023-12-14 CN CN202311729160.5A patent/CN117893652A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118471250A (zh) * | 2024-06-20 | 2024-08-09 | 北京林业大学 | 一种输入语音自动生成口型和表情的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11670015B2 (en) | Method and apparatus for generating video | |
CN111541908A (zh) | 交互方法、装置、设备以及存储介质 | |
CN113570686A (zh) | 虚拟视频直播处理方法及装置、存储介质、电子设备 | |
KR20220097121A (ko) | 랜덤 널링 인공신경망을 이용한 입모양 합성 장치 및 방법 | |
CN115601485B (zh) | 任务处理模型的数据处理方法及虚拟人物动画生成方法 | |
CN110880198A (zh) | 动画生成方法和装置 | |
CN115496550A (zh) | 文本生成方法以及装置 | |
CN117893652A (zh) | 视频生成方法以及参数生成模型训练方法 | |
CN112668407A (zh) | 人脸关键点生成方法、装置、存储介质及电子设备 | |
CN112634413B (zh) | 生成模型和生成3d动画的方法、装置、设备和存储介质 | |
CN116797868A (zh) | 文本图像生成方法以及扩散生成模型训练方法 | |
CN113469292A (zh) | 视频合成模型的训练方法、合成方法、装置、介质和设备 | |
CN117292022A (zh) | 基于虚拟对象的视频生成方法、装置及电子设备 | |
CN117456062A (zh) | 数字人生成模型的生成器训练方法、数字人生成方法及装置 | |
CN116405724A (zh) | 图像生成方法、系统、电子设备及存储介质 | |
CN115409923A (zh) | 生成三维虚拟形象面部动画的方法、装置及系统 | |
CN114898018A (zh) | 数字对象的动画生成方法、装置、电子设备及存储介质 | |
KR20220096065A (ko) | 인공신경망을 이용한 더빙 영화 입모양 합성 장치 | |
KR20220096068A (ko) | 인공신경망을 이용한 화상 통화 끊김 시 입모양 합성 장치 | |
CN117373455B (zh) | 一种音视频的生成方法、装置、设备及存储介质 | |
CN116843805B (zh) | 一种包含行为的虚拟形象生成方法、装置、设备及介质 | |
CN116939325A (zh) | 视频生成方法 | |
CN118644596A (zh) | 一种人脸关键点运动图像生成方法以及相关设备 | |
CN118781234A (zh) | 图像数据处理方法和模型训练方法 | |
CN118098203A (zh) | 说话对象识别的方法、装置以及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |