CN113132815A - 视频生成方法和装置、计算机可读存储介质、电子设备 - Google Patents

视频生成方法和装置、计算机可读存储介质、电子设备 Download PDF

Info

Publication number
CN113132815A
CN113132815A CN202110438622.2A CN202110438622A CN113132815A CN 113132815 A CN113132815 A CN 113132815A CN 202110438622 A CN202110438622 A CN 202110438622A CN 113132815 A CN113132815 A CN 113132815A
Authority
CN
China
Prior art keywords
dimensional
model
target
video
head model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110438622.2A
Other languages
English (en)
Inventor
赵靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seashell Housing Beijing Technology Co Ltd
Original Assignee
Beijing Fangjianghu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Fangjianghu Technology Co Ltd filed Critical Beijing Fangjianghu Technology Co Ltd
Priority to CN202110438622.2A priority Critical patent/CN113132815A/zh
Publication of CN113132815A publication Critical patent/CN113132815A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本公开实施例公开了一种视频生成方法和装置、计算机可读存储介质、电子设备,其中,方法包括:基于目标对象的第一人脸图像,得到第一三维人头模型;其中,所述第一三维人头模型包括多个顶点和顶点之间的连接关系;基于目标语音数据改变所述第一三维人头模型中n个顶点的位置,得到多帧视频图像;其中,n为大于等于0的整数;基于所述多帧视频图像,得到所述目标对象讲述所述目标语音数据的目标视频。本公开实施例基于目标对象的单帧人脸图像和目标语音数据即可得到目标对象讲述目标语音数据的目标视频,输入数据少,处理效率高,且由于加入了三维人头模型的驱动,获得的目标视频动作更真实。

Description

视频生成方法和装置、计算机可读存储介质、电子设备
技术领域
本公开涉及图像视频技术领域,尤其是一种视频生成方法和装置、计算机可读存储介质、电子设备。
背景技术
随着计算机技术的发展,为更便利的服务用户,减少用户的阅读时间,现有技术提出将文本转换为语音的语音合成技术,语音合成是通过机械的、电子的方法产生人造语音的技术;例如,TTS技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术;但现有技术仅能提供语音缺少与之结合的视频显示,不能为用户提供更直观的体验。
发明内容
为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种视频生成方法和装置、计算机可读存储介质、电子设备。
根据本公开实施例的一个方面,提供了一种视频生成方法,包括:
基于目标对象的第一人脸图像,得到第一三维人头模型;其中,所述第一三维人头模型包括多个顶点和顶点之间的连接关系;
基于目标语音数据改变所述第一三维人头模型中n个顶点的位置,得到多帧视频图像;其中,n为大于等于0的整数;
基于所述多帧视频图像,得到所述目标对象讲述所述目标语音数据的目标视频。
可选地,所述基于目标对象的第一人脸图像,得到第一三维人头模型,包括:
利用第一重建模型对所述第一人脸图像进行人头模型恢复,得到所述第一三维人头模型;其中,所述第一重建模型经过训练。
可选地,在利用第一重建模型对所述第一人脸图像进行人头模型恢复,得到所述第一三维人头模型之前,还包括:
基于第一样本数据集对所述第一重建模型进行训练;其中,所述第一样本数据集包括多对第一样本数据对,每对所述第一样本数据对包括对应的样本人脸图像和样本三维人头模型。
可选地,所述基于目标语音数据改变所述第一三维人头模型中n个顶点的位置,得到多帧视频图像,包括:
对所述目标语音数据进行切分处理,得到多个语音片段;
基于所述多个语音片段分别改变多个所述第一三维人头模型中每个第一三维人头模型中n个顶点的位置,得到多个第二三维人头模型;其中,每个所述语音片段对应一个所述第一三维人头模型;
基于所述多个第二三维人头模型得到多帧视频图像。
可选地,所述基于所述多个语音片段分别改变多个所述第一三维人头模型中每个第一三维人头模型中n个顶点的位置,得到多个第二三维人头模型,包括:
基于所述多个语音片段和多个第一三维人头模型得到多组输入数据;其中,每组所述输入数据包括一个语音片段和对应的所述第一三维人头模型;
基于语音驱动模型分别对每组所述输入数据进行处理,得到多个所述第二三维人头模型;其中,所述第二三维人头模型与所述第一三维人头模型的区别在于部分顶点位置不同。
可选地,在基于语音驱动模型分别对每组所述输入数据进行处理,得到多个所述第二三维人头模型之前,还包括:
利用第二样本数据集对所述语音驱动模型进行训练;其中,所述第二样本数据集包括多对第二样本数据对,每对所述第二样本数据对中包括样本三维模型和与所述样本三维模型对应的样本语音片段。
可选地,所述基于所述多个第二三维人头模型得到多帧视频图像,包括:
分别对所述多个第二三维人头模型中的每个第二三维人头模型进行渲染,得到多帧所述视频图像。
可选地,所述基于所述多帧视频图像,得到所述目标对象讲述所述目标语音数据的目标视频,包括:
将所述多帧视频图像按照对应的语音片段在所述目标语音数据中的顺序进行连接,得到所述目标对象讲述所述目标语音数据的目标视频。
根据本公开实施例的另一方面,提供了一种视频生成装置,包括:
模型恢复模块,用于基于目标对象的第一人脸图像,得到第一三维人头模型;其中,所述第一三维人头模型包括多个顶点和顶点之间的连接关系;
模型驱动模块,用于基于目标语音数据改变所述第一三维人头模型中n个顶点的位置,得到多帧视频图像;其中,n为大于等于0的整数;
视频生成模块,用于基于所述多帧视频图像,得到所述目标对象讲述所述目标语音数据的目标视频。
可选地,所述模型恢复模块,具体用于利用第一重建模型对所述第一人脸图像进行人头模型恢复,得到所述第一三维人头模型;其中,所述第一重建模型经过训练。
可选地,所述装置还包括:
第一训练模块,用于基于第一样本数据集对所述第一重建模型进行训练;其中,所述第一样本数据集包括多对第一样本数据对,每对所述第一样本数据对包括对应的样本人脸图像和样本三维人头模型。
可选地,所述模型驱动模块,包括:
语音切分单元,用于对所述目标语音数据进行切分处理,得到多个语音片段;
顶点位置改变单元,用于基于所述多个语音片段分别改变多个所述第一三维人头模型中每个第一三维人头模型中n个顶点的位置,得到多个第二三维人头模型;其中,每个所述语音片段对应一个所述第一三维人头模型;
视频图像单元,用于基于所述多个第二三维人头模型得到多帧视频图像。
可选地,所述顶点位置改变单元,具体用于基于所述多个语音片段和多个第一三维人头模型得到多组输入数据;其中,每组所述输入数据包括一个语音片段和对应的所述第一三维人头模型;基于语音驱动模型分别对每组所述输入数据进行处理,得到多个所述第二三维人头模型;其中,所述第二三维人头模型与所述第一三维人头模型的区别在于部分顶点位置不同。
可选地,所述模型驱动模块,还包括:
第二训练单元,用于利用第二样本数据集对所述语音驱动模型进行训练;其中,所述第二样本数据集包括多对第二样本数据对,每对所述第二样本数据对中包括样本三维模型和与所述样本三维模型对应的样本语音片段。
可选地,所述视频图像单元,包括:
分别对所述多个第二三维人头模型中的每个第二三维人头模型进行渲染,得到多帧所述视频图像。
可选地,所述视频生成模块,具体用于将所述多帧视频图像按照对应的语音片段在所述目标语音数据中的顺序进行连接,得到所述目标对象讲述所述目标语音数据的目标视频。
根据本公开实施例的又一方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述任一实施例所述的视频生成方法。
根据本公开实施例的还一方面,提供了一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述任一实施例所述的视频生成方法。
基于本公开上述实施例提供的一种视频生成方法和装置、计算机可读存储介质、电子设备,基于目标对象的第一人脸图像,得到第一三维人头模型;其中,所述第一三维人头模型包括多个顶点和顶点之间的连接关系;基于目标语音数据改变所述第一三维人头模型中n个顶点的位置,得到多帧视频图像;其中,n为大于等于0的整数;基于所述多帧视频图像,得到所述目标对象讲述所述目标语音数据的目标视频;基于目标对象的单帧人脸图像和目标语音数据即可得到目标对象讲述目标语音数据的目标视频,输入数据少,处理效率高,且由于加入了三维人头模型的驱动,获得的目标视频动作更真实。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本公开一示例性实施例提供的视频生成方法的流程示意图。
图2是本公开图1所示的实施例中步骤104的一个流程示意图。
图3是本公开一示例性实施例提供的视频生成装置的结构示意图。
图4是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
申请概述
在实现本公开的过程中,发明人发现,现有技术仅提供了语音生成的技术,至少存在以下问题:不能为用户提供更直观的视频体验。
示例性方法
图1是本公开一示例性实施例提供的视频生成方法的流程示意图。本实施例可应用在电子设备上,如图1所示,包括如下步骤:
步骤102,基于目标对象的第一人脸图像,得到第一三维人头模型。
其中,第一三维人头模型包括多个顶点和顶点之间的连接关系。
可选地,本实施例中的第一三维人头模型可以三维网格模型,例如,三角网格或多边形网格等,第一三维人头模型通过顶点和顶点之间的连接关系对目标对象的人头在三维空间中的结构进行描述;第一人脸图像中至少包括目标对象的完整人脸。
步骤104,基于目标语音数据改变第一三维人头模型中n个顶点的位置,得到多帧视频图像。
其中,n为大于等于0的整数。
在一实施例中,改变三维人头模型中的部分顶点的位置即可改变该三维人头模型对应的人物的面部表情和面部动作,例如,改变嘴部顶点的位置,对应的人脸上会出现不同的嘴部动作;本实施例基于目标语音数据对第一三维人头模型进行驱动,使得到的视频图像中的嘴部动作对应该目标语音数据,并且,由于目标语音数据是一段话,对应的嘴部动作必然包括多个,因此,由多帧视频图像进行表示。
步骤106,基于多帧视频图像,得到目标对象讲述目标语音数据的目标视频。
可选地,按照多帧视频图像对应目标语音数据的顺序进行连接,即可得到目标视频,例如,目标语音数据是一段讲房语音,目标对象为一个经纪人A,经过本实施例提供的方法,将得到该经纪人A讲述该讲房语音的视频片段。
本公开上述实施例提供的一种视频生成方法,基于目标对象的第一人脸图像,得到第一三维人头模型;其中,所述第一三维人头模型包括多个顶点和顶点之间的连接关系;基于目标语音数据改变所述第一三维人头模型中n个顶点的位置,得到多帧视频图像;其中,n为大于等于0的整数;基于所述多帧视频图像,得到所述目标对象讲述所述目标语音数据的目标视频;基于目标对象的单帧人脸图像和目标语音数据即可得到目标对象讲述目标语音数据的目标视频,输入数据少,处理效率高,且由于加入了三维人头模型的驱动,获得的目标视频动作更真实。
在一些可选的实施例中,上述实施例提供的步骤102可以包括:
利用第一重建模型对第一人脸图像进行人头模型恢复,得到第一三维人头模型。
其中,第一重建模型经过训练。
本实施例中,第一重建模型可以是深度学习网络,或其他可实现三维模型恢复的模型,本实施例对第一重建模型的结构和方法不进行限制,例如,采用人脸3D形变统计模型(3DMM)作为第一重建模型,3DMM是一种较为基础的三维人脸统计模型,最早被提出是用于解决从二维人脸图像恢复三维形状的问题。
当利用深度学习的方法实现三维人头模型恢复时,需要在进行三维人头模型恢复之前对第一重建模型进行训练,可选地,基于第一样本数据集对第一重建模型进行训练;其中,第一样本数据集包括多对第一样本数据对,每对第一样本数据对包括对应的样本人脸图像和样本三维人头模型。
本实施例通过成对的样本人脸图像和样本三维人头模型对第一重建模型进行训练,使该第一重建模型学习到人脸图像和三维人头模型的对应关系,实现在输入第一人脸图像时可直接输出与该人脸图像对应的第一三维人头模型;在训练过程中,损失由第一重建模型对样本人脸图像处理输出的预测三维人头模型和样本三维人头模型之间的差异确定,可选地,基于损失通过反向梯度传播方法对第一重建模型中的网络参数进行调整,迭代上述网络参数调整过程,直到符合收敛条件,得到训练后的第一重建模型,其中,收敛条件可以包括但不限于:得到的损失小于第一预设值、两次迭代之间损失的差异小于第二预设值、迭代的次数达到第三预设值等,第一、第二、第三预设值根据实际场景进行设置。
如图2所示,在上述图1所示实施例的基础上,步骤104可包括如下步骤:
步骤1041,对目标语音数据进行切分处理,得到多个语音片段。
本实施例中,可根据实际语音内容将目标语音数据切分为多个具有一定时间跨度语音片段,例如,每个语音片段50ms等,并且,为了保证得到的目标视频中口型的连贯性,可以设置成每两个相邻的语音片段中存在重叠部分;接收的语音数据可以是语音时域信号或直接是语音特征,当接收的语音数据为语音时域信号(波形)时,对语音数据提取MFCC特征(对时间窗口的波形进行傅里叶变换,将时域信号转换为频域信号),或者神经网络提取语音特征,以语音特征对三维模型中的顶点位置进行改变;对应的语音切分的长度可根据傅里叶变换的窗口决定。
步骤1042,基于多个语音片段分别改变多个第一三维人头模型中每个第一三维人头模型中n个顶点的位置,得到多个第二三维人头模型。
其中,每个语音片段对应一个第一三维人头模型。
本实施例中,通过每个语音片段对一个第一三维人头模型中的n个顶点进行位置改变。
步骤1043,基于多个第二三维人头模型得到多帧视频图像。
可选地,分别对多个第二三维人头模型中的每个第二三维人头模型进行渲染,得到多帧视频图像。
其中,每个第二三维人头模型经过渲染得到一帧视频图像。
其中,渲染在电脑绘图中是指用软件从模型生成图像的过程,在本实施例中,通过渲染从第二三维人头模型可得到对应的人脸图像作为视频图像;将多帧视频图像按照对应的语音片段在目标语音数据中的顺序进行连接,即可得到目标视频,实现视频中的人脸口型动作对应目标语音数据。
在上述实施例的基础上,步骤1042可以包括:
基于多个语音片段和多个第一三维人头模型得到多组输入数据。
其中,每组输入数据包括一个语音片段和对应的第一三维人头模型。
基于语音驱动模型分别对每组输入数据进行处理,得到多个第二三维人头模型。
其中,第二三维人头模型与第一三维人头模型的区别在于部分顶点位置不同。
本实施例通过语音驱动三维人头模型的运动,该语音驱动模型的输入为一个第一三维人头模型和一个语音片段,输出为对应该语音片段动作的第二三维模型,该第二三维人头模型的中顶点之间的连接关系不变,只改变部分顶点的位置,使第二三维人头模型的神情(例如,眼部动作等)和口型动作与语音片段相对应。可选地,语音驱动模型的结构可采用编码器-解码器(encoder-decoder)的结构,编码器将输入的语音片段和第一三维模型进行编码,再通过解码器解码出新的模型顶点位置,使得第二三维人头模型的顶点位置对应的模型神情和口型与语音片段一致。
当语音驱动模型为深度神经网络时,在基于语音驱动模型分别对每组输入数据进行处理,得到多个第二三维人头模型之前,还包括:
利用第二样本数据集对语音驱动模型进行训练。
其中,第二样本数据集包括多对第二样本数据对,每对第二样本数据对中包括样本三维模型和与样本三维模型对应的样本语音片段。
本实施例通过训练使语音驱动模型学习到语音片段与三维人头模型之间的对应关系;可选地,训练过程可以包括:将每对第二样本数据对输入语音驱动模型,得到预测三维模型;以预测三维模型和第二样本数据对中的样本三维模型之间的差异作为损失,基于该损失通过反向梯度传播调整该语音驱动模型的网络参数,迭代执行上述网络参数调整过程,直到符合收敛条件,得到训练后的语音驱动模型,其中,收敛条件可以包括但不限于:得到的损失小于第四预设值、两次迭代之间损失的差异小于第五预设值、迭代的次数达到第六预设值等,第四、第五、第六预设值根据实际场景进行设置。
本实施例通过对语音驱动模型进行训练,使训练后的语音驱动模型更适合本申请的场景,即,训练后的语音驱动模型能够获得更符合语音片段的三维模型,提高了语音驱动三维人头模型的运动的准确率。
综上,本公开实施例提供的视频生成方法,通过目标对象的一张第一人脸图像恢复出第一三维人头模型,再以目标语音数据驱动第一三维人头模型,以获得目标对象讲述目标语音数据的目标视频,实现了仅以一张人脸图像和目标语音数据即可生成目标视频,极大的减少了视频生成的数据输入,提高了处理效率,并且由于加入三维人头模型的驱动,达到了目标视频动作更接近真实的效果。
本公开实施例提供的任一种视频生成方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。或者,本公开实施例提供的任一种视频生成方法可以由处理器执行,如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种视频生成方法。下文不再赘述。
示例性装置
图3是本公开一示例性实施例提供的视频生成装置的结构示意图。如图3所示,本实施例提供的装置,包括:
模型恢复模块31,用于基于目标对象的第一人脸图像,得到第一三维人头模型。
其中,第一三维人头模型包括多个顶点和顶点之间的连接关系。
模型驱动模块32,用于基于目标语音数据改变第一三维人头模型中n个顶点的位置,得到多帧视频图像。
其中,n为大于等于0的整数。
视频生成模块33,用于基于多帧视频图像,得到目标对象讲述目标语音数据的目标视频。
本公开上述实施例提供的一种视频生成装置,基于目标对象的第一人脸图像,得到第一三维人头模型;其中,所述第一三维人头模型包括多个顶点和顶点之间的连接关系;基于目标语音数据改变所述第一三维人头模型中n个顶点的位置,得到多帧视频图像;其中,n为大于等于0的整数;基于所述多帧视频图像,得到所述目标对象讲述所述目标语音数据的目标视频;基于目标对象的单帧人脸图像和目标语音数据即可得到目标对象讲述目标语音数据的目标视频,输入数据少,处理效率高,且由于加入了三维人头模型的驱动,获得的目标视频动作更真实。
在一些可选的实施例中,模型恢复模块31,具体用于利用第一重建模型对第一人脸图像进行人头模型恢复,得到第一三维人头模型;其中,第一重建模型经过训练。
可选地,本实施例提供的装置还包括:
第一训练模块,用于基于第一样本数据集对第一重建模型进行训练。
其中,第一样本数据集包括多对第一样本数据对,每对第一样本数据对包括对应的样本人脸图像和样本三维人头模型。
在一些可选的实施例中,模型驱动模块32,包括:
语音切分单元,用于对目标语音数据进行切分处理,得到多个语音片段;
顶点位置改变单元,用于基于多个语音片段分别改变多个第一三维人头模型中每个第一三维人头模型中n个顶点的位置,得到多个第二三维人头模型;其中,每个语音片段对应一个第一三维人头模型;
视频图像单元,用于基于多个第二三维人头模型得到多帧视频图像。
可选地,顶点位置改变单元,具体用于基于多个语音片段和多个第一三维人头模型得到多组输入数据;其中,每组输入数据包括一个语音片段和对应的第一三维人头模型;基于语音驱动模型分别对每组输入数据进行处理,得到多个第二三维人头模型;其中,第二三维人头模型与第一三维人头模型的区别在于部分顶点位置不同。
可选地,模型驱动模块,还包括:
第二训练单元,用于利用第二样本数据集对语音驱动模型进行训练;其中,第二样本数据集包括多对第二样本数据对,每对第二样本数据对中包括样本三维模型和与样本三维模型对应的样本语音片段。
在一些可选的实施例中,视频图像单元,包括:
分别对多个第二三维人头模型中的每个第二三维人头模型进行渲染,得到多帧视频图像。
可选地,视频生成模块33,具体用于将多帧视频图像按照对应的语音片段在目标语音数据中的顺序进行连接,得到目标对象讲述目标语音数据的目标视频。
综上,本公开实施例提供的视频生成装置,通过目标对象的一张第一人脸图像恢复出第一三维人头模型,再以目标语音数据驱动第一三维人头模型,以获得目标对象讲述目标语音数据的目标视频,实现了仅以一张人脸图像和目标语音数据即可生成目标视频,极大的减少了视频生成的数据输入,提高了处理效率,并且由于加入三维人头模型的驱动,达到了目标视频动作更接近真实的效果。
示例性电子设备
下面,参考图4来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。
图4图示了根据本公开实施例的电子设备的框图。
如图4所示,电子设备40包括一个或多个处理器41和存储器42。
处理器41可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备40中的其他组件以执行期望的功能。
存储器42可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器41可以运行所述程序指令,以实现上文所述的本公开的各个实施例的视频生成方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备40还可以包括:输入装置43和输出装置44,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,在该电子设备是第一设备100或第二设备200时,该输入装置43可以是上述的麦克风或麦克风阵列,用于捕捉声源的输入信号。在该电子设备是单机设备时,该输入装置43可以是通信网络连接器,用于从第一设备100和第二设备200接收所采集的输入信号。
此外,该输入装置43还可以包括例如键盘、鼠标等等。
该输出装置44可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出装置44可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图4中仅示出了该电子设备40中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备40还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的视频生成方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的视频生成方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (10)

1.一种视频生成方法,其特征在于,包括:
基于目标对象的第一人脸图像,得到第一三维人头模型;其中,所述第一三维人头模型包括多个顶点和顶点之间的连接关系;
基于目标语音数据改变所述第一三维人头模型中n个顶点的位置,得到多帧视频图像;其中,n为大于等于0的整数;
基于所述多帧视频图像,得到所述目标对象讲述所述目标语音数据的目标视频。
2.根据权利要求1所述的方法,其特征在于,所述基于目标对象的第一人脸图像,得到第一三维人头模型,包括:
利用第一重建模型对所述第一人脸图像进行人头模型恢复,得到所述第一三维人头模型;其中,所述第一重建模型经过训练。
3.根据权利要求2所述的方法,其特征在于,在利用第一重建模型对所述第一人脸图像进行人头模型恢复,得到所述第一三维人头模型之前,还包括:
基于第一样本数据集对所述第一重建模型进行训练;其中,所述第一样本数据集包括多对第一样本数据对,每对所述第一样本数据对包括对应的样本人脸图像和样本三维人头模型。
4.根据权利要求1-3任一所述的方法,其特征在于,所述基于目标语音数据改变所述第一三维人头模型中n个顶点的位置,得到多帧视频图像,包括:
对所述目标语音数据进行切分处理,得到多个语音片段;
基于所述多个语音片段分别改变多个所述第一三维人头模型中每个第一三维人头模型中n个顶点的位置,得到多个第二三维人头模型;其中,每个所述语音片段对应一个所述第一三维人头模型;
基于所述多个第二三维人头模型得到多帧视频图像。
5.根据权利要求4所述的方法,其特征在于,所述基于所述多个语音片段分别改变多个所述第一三维人头模型中每个第一三维人头模型中n个顶点的位置,得到多个第二三维人头模型,包括:
基于所述多个语音片段和多个第一三维人头模型得到多组输入数据;其中,每组所述输入数据包括一个语音片段和对应的所述第一三维人头模型;
基于语音驱动模型分别对每组所述输入数据进行处理,得到多个所述第二三维人头模型;其中,所述第二三维人头模型与所述第一三维人头模型的区别在于部分顶点位置不同。
6.根据权利要求4或5所述的方法,其特征在于,所述基于所述多个第二三维人头模型得到多帧视频图像,包括:
分别对所述多个第二三维人头模型中的每个第二三维人头模型进行渲染,得到多帧所述视频图像。
7.根据权利要求1-6任一所述的方法,其特征在于,所述基于所述多帧视频图像,得到所述目标对象讲述所述目标语音数据的目标视频,包括:
将所述多帧视频图像按照对应的语音片段在所述目标语音数据中的顺序进行连接,得到所述目标对象讲述所述目标语音数据的目标视频。
8.一种视频生成装置,其特征在于,包括:
模型恢复模块,用于基于目标对象的第一人脸图像,得到第一三维人头模型;其中,所述第一三维人头模型包括多个顶点和顶点之间的连接关系;
模型驱动模块,用于基于目标语音数据改变所述第一三维人头模型中n个顶点的位置,得到多帧视频图像;其中,n为大于等于0的整数;
视频生成模块,用于基于所述多帧视频图像,得到所述目标对象讲述所述目标语音数据的目标视频。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-7任一所述的视频生成方法。
10.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-7任一所述的视频生成方法。
CN202110438622.2A 2021-04-22 2021-04-22 视频生成方法和装置、计算机可读存储介质、电子设备 Pending CN113132815A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110438622.2A CN113132815A (zh) 2021-04-22 2021-04-22 视频生成方法和装置、计算机可读存储介质、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110438622.2A CN113132815A (zh) 2021-04-22 2021-04-22 视频生成方法和装置、计算机可读存储介质、电子设备

Publications (1)

Publication Number Publication Date
CN113132815A true CN113132815A (zh) 2021-07-16

Family

ID=76779441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110438622.2A Pending CN113132815A (zh) 2021-04-22 2021-04-22 视频生成方法和装置、计算机可读存储介质、电子设备

Country Status (1)

Country Link
CN (1) CN113132815A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024060474A1 (zh) * 2022-09-22 2024-03-28 阿里巴巴(中国)有限公司 视频生成方法、信息显示方法及计算设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111243065A (zh) * 2019-12-26 2020-06-05 浙江大学 一种语音信号驱动的脸部动画生成方法
CN111861872A (zh) * 2020-07-20 2020-10-30 广州市百果园信息技术有限公司 图像换脸方法、视频换脸方法、装置、设备和存储介质
CN112215927A (zh) * 2020-09-18 2021-01-12 腾讯科技(深圳)有限公司 人脸视频的合成方法、装置、设备及介质
CN112215926A (zh) * 2020-09-28 2021-01-12 北京华严互娱科技有限公司 一种语音驱动的人脸动作实时转移方法和系统
CN112331184A (zh) * 2020-10-29 2021-02-05 网易(杭州)网络有限公司 语音口型同步方法、装置、电子设备及存储介质
WO2021052224A1 (zh) * 2019-09-18 2021-03-25 北京市商汤科技开发有限公司 视频生成方法、装置、电子设备和计算机存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021052224A1 (zh) * 2019-09-18 2021-03-25 北京市商汤科技开发有限公司 视频生成方法、装置、电子设备和计算机存储介质
CN111243065A (zh) * 2019-12-26 2020-06-05 浙江大学 一种语音信号驱动的脸部动画生成方法
CN111861872A (zh) * 2020-07-20 2020-10-30 广州市百果园信息技术有限公司 图像换脸方法、视频换脸方法、装置、设备和存储介质
CN112215927A (zh) * 2020-09-18 2021-01-12 腾讯科技(深圳)有限公司 人脸视频的合成方法、装置、设备及介质
CN112215926A (zh) * 2020-09-28 2021-01-12 北京华严互娱科技有限公司 一种语音驱动的人脸动作实时转移方法和系统
CN112331184A (zh) * 2020-10-29 2021-02-05 网易(杭州)网络有限公司 语音口型同步方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024060474A1 (zh) * 2022-09-22 2024-03-28 阿里巴巴(中国)有限公司 视频生成方法、信息显示方法及计算设备

Similar Documents

Publication Publication Date Title
CN111627418B (zh) 语音合成模型的训练方法、合成方法、系统、设备和介质
CN111145322B (zh) 用于驱动虚拟形象的方法、设备和计算机可读存储介质
US10810993B2 (en) Sample-efficient adaptive text-to-speech
CN113132797A (zh) 视频生成方法和装置、计算机可读存储介质、电子设备
US11842728B2 (en) Training neural networks to predict acoustic sequences using observed prosody info
Chen et al. Duallip: A system for joint lip reading and generation
CN114895817B (zh) 交互信息处理方法、网络模型的训练方法及装置
CN111696520A (zh) 智能配音方法、装置、介质及电子设备
CN112786001B (zh) 语音合成模型训练方法、语音合成方法和装置
Filntisis et al. Visual speech-aware perceptual 3d facial expression reconstruction from videos
US11960852B2 (en) Robust direct speech-to-speech translation
Song et al. Talking face generation with multilingual tts
CN115376482A (zh) 面部动作视频生成方法及装置、可读介质和电子设备
CN113132815A (zh) 视频生成方法和装置、计算机可读存储介质、电子设备
CN114495977A (zh) 语音翻译和模型训练方法、装置、电子设备以及存储介质
JP2023169230A (ja) コンピュータプログラム、サーバ装置、端末装置、学習済みモデル、プログラム生成方法、及び方法
CN113160799B (zh) 视频生成方法和装置、计算机可读存储介质、电子设备
Jha et al. Cross-language speech dependent lip-synchronization
CN114255737B (zh) 语音生成方法、装置、电子设备
CN114581570B (zh) 一种三维脸部动作生成方法和系统
CN114898018A (zh) 数字对象的动画生成方法、装置、电子设备及存储介质
CN112967728B (zh) 结合声传递函数的端到端语音合成方法及装置
CN113709551B (zh) 基于剧本的视频展示方法、装置和存储介质
US20240095970A1 (en) Method, electronic device, and computer program product for processing target object
RU2803488C2 (ru) Способ и сервер для генерирования волновой формы

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210903

Address after: 100085 Floor 101 102-1, No. 35 Building, No. 2 Hospital, Xierqi West Road, Haidian District, Beijing

Applicant after: Seashell Housing (Beijing) Technology Co.,Ltd.

Address before: 101300 room 24, 62 Farm Road, Erjie village, Yangzhen Town, Shunyi District, Beijing

Applicant before: Beijing fangjianghu Technology Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210716