CN113886641A - 数字人生成方法、装置、设备及介质 - Google Patents

数字人生成方法、装置、设备及介质 Download PDF

Info

Publication number
CN113886641A
CN113886641A CN202111165980.7A CN202111165980A CN113886641A CN 113886641 A CN113886641 A CN 113886641A CN 202111165980 A CN202111165980 A CN 202111165980A CN 113886641 A CN113886641 A CN 113886641A
Authority
CN
China
Prior art keywords
target
picture
mouth region
parameters
generator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111165980.7A
Other languages
English (en)
Inventor
王鑫宇
刘炫鹏
杨国基
常向月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhuiyi Technology Co Ltd
Original Assignee
Shenzhen Zhuiyi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhuiyi Technology Co Ltd filed Critical Shenzhen Zhuiyi Technology Co Ltd
Priority to CN202111165980.7A priority Critical patent/CN113886641A/zh
Publication of CN113886641A publication Critical patent/CN113886641A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本申请涉及一种数字人生成方法、装置、设备及介质,涉及计算机技术领域,该数字人生成方法包括:将目标音频输入至预先训练好的第一生成器中,得到人物的目标表情参数;从目标图片中提取人物的目标3D人脸重建参数,以及对目标图片进行处理,得到不包含人物嘴巴区域的第一中间图片;依据所述目标表情参数和所述目标3D人脸重建参数,确定目标嘴区域信息;将所述目标嘴区域信息和所述第一中间图片输入至预先训练好的第二生成器中,得到数字人图片。由此,能够使得基于声音推理生成的数字人的姿态更加自然,提升用户体验。

Description

数字人生成方法、装置、设备及介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种数字人生成方法、装置、设备及介质。
背景技术
数字人,是一种利用信息科学的方法对人体在不同水平的形态和功能进行虚拟仿真。随着计算机技术的快速发展,数字人的生成技术越来越成熟。在实际处理中,如果数字人生成技术想要应用在商业,实现实时交互,则数字人生成方案至少需要满足两点:生成效果好和推理效率高;其中,数字人的生成效果好是必要的前提,推理效率高是商业的需要。
目前,为了提高数字人的推理效率,出现了基于声音推理生成数字人的方案,其主要是通过声音推理模型,采用声音推理生成人脸关键点,然后将该人脸关键点画成轮廓线,输入生成对抗网络模型中,最终生成数字人。
然而,基于声音推理出的人脸关键点中包含人脸姿态信息,且该人脸姿态信息存在角度问题,因此,应用上述方案最终生成的数字人姿态不自然。
发明内容
有鉴于此,本申请提供了一种数字人生成方法、装置、设备及介质,以使得基于声音推理生成的数字人的姿态能够更加自然,提升用户体验。
第一方面,本申请实施例提供了一种数字人生成方法,包括:
将目标音频输入至预先训练好的第一生成器中,得到人物的目标表情参数;
从目标图片中提取人物的目标3D人脸重建参数,以及对目标图片进行处理,得到不包含人物嘴巴区域的第一中间图片;
依据所述目标表情参数和所述目标3D人脸重建参数,确定目标嘴区域信息;
将所述目标嘴区域信息和所述第一中间图片输入至预先训练好的第二生成器中,得到数字人图片。
可选的,所述依据所述目标表情参数和所述目标3D人脸重建参数,确定目标嘴区域信息,包括:
将所述目标表情参数和所述目标3D人脸重建参数输入至预设的人脸3D形变统计模型,得到目标三维人脸网格;
从所述目标三维人脸网格中确定目标三维嘴区域网格;
将所述目标三维嘴区域网格确定为目标嘴区域信息。
可选的,所述依据所述目标表情参数和所述目标3D人脸重建参数,确定目标嘴区域信息,包括:
将所述目标表情参数和所述目标3D人脸重建参数输入至预设的人脸3D形变统计模型,得到若干个目标嘴区域关键点;
将若干个所述目标嘴区域关键点确定为目标嘴区域信息。
可选的,所述将所述目标嘴区域信息和所述第一中间图片输入至预先训练好的第二生成器中,得到数字人图片,包括:
按照通道合并的方式,对所述目标嘴区域信息和所述第一中间图片进行合并处理,第二中间图片;
将所述第二中间图片输入至预先训练好的第二生成器中,得到数字人图片。
可选的,所述对目标图片进行处理,得到不包含人物嘴巴区域的中间图片,包括:
利用预设的图片检测算法,从目标图片中确定人物嘴巴区域;
将所述人物嘴巴区域中像素点的像素值置为预设值,得到不包含所述人物嘴巴区域的中间图片。
可选的,所述方法还包括:
按照若干个所述目标音频的时间顺序,对若干个所述目标音频对应的所述数字人图片进行组合,生成数字人视频。
可选的,所述第一生成器通过以下方式训练得到:
从视频流中提取若干个图片帧以及所述图片帧对应的音频帧;
对每一所述图片帧执行以下操作,得到若干个第一样本数据:
从所述图片帧中提取出人物的样本表情参数;从所述图片帧对应的音频帧中提取出样本音频特征;将所述样本音频特征和所述样本表情参数确定为第一样本数据;
依据若干个所述第一样本数据进行模型训练,得到所述第一生成器。
可选的,所述从所述图片帧中提取出人物的样本表情参数,包括:
利用预设的关键点检测算法,从所述图片帧中提取出若干个人脸关键点;
将若干个所述人脸关键点输入至预设的人脸3D形变统计模型,得到人物的样本表情参数。
可选的,所述从所述图片帧对应的音频帧中提取出样本音频特征,包括:
利用傅里叶变换提取Mel频率倒谱系数作为所述图片帧对应的音频帧的样本音频特征;或者,
利用预设的语音识别模型从所述图片帧对应的音频帧中提取样本音频特征。
可选的,所述依据若干个所述第一样本数据进行模型训练,得到所述第一生成器,包括:
将各所述第一样本数据中的所述样本音频特征输入至初始的第一生成器,得到对应的预测表情参数;
依据各所述第一样本数据对应的所述预测表情参数、所述样本表情参数,确定模型损失值;
若所述模型损失值不符合预设的模型收敛条件,则基于所述模型损失值更新所述第一生成器的模型参数,并对更新模型参数后的所述第一生成器进行迭代训练,直至所述模型损失值符合所述模型收敛条件时,得到所述第一生成器。
第二方面,本申请实施例提供了一种数字人生成装置,包括:
表情参数提取模块,用于将目标音频输入至预先训练好的第一生成器中,得到人物的目标表情参数;
3D人脸重建参数提取模块,用于从目标图片中提取人物的目标3D人脸重建参数;
图片处理模块,用于对目标图片进行处理,得到不包含人物嘴巴区域的第一中间图片;
嘴区域信息确定模块,用于依据所述目标表情参数和所述目标3D人脸重建参数,确定目标嘴区域信息;
数字人生成模块,用于将所述目标嘴区域信息和所述第一中间图片输入至预先训练好的第二生成器中,得到数字人图片。
可选的,所述嘴区域信息确定模块,具体用于:
将所述目标表情参数和所述目标3D人脸重建参数输入至预设的人脸3D形变统计模型,得到目标三维人脸网格;
从所述目标三维人脸网格中确定目标三维嘴区域网格;
将所述目标三维嘴区域网格确定为目标嘴区域信息。
可选的,所述嘴区域信息确定模块,具体用于:
将所述目标表情参数和所述目标3D人脸重建参数输入至预设的人脸3D形变统计模型,得到若干个目标嘴区域关键点;
将若干个所述目标嘴区域关键点确定为目标嘴区域信息。
可选的,所述数字人生成模块,具体用于:
按照通道合并的方式,对所述目标嘴区域信息和所述第一中间图片进行合并处理,第二中间图片;
将所述第二中间图片输入至预先训练好的第二生成器中,得到数字人图片。
可选的,所述图片处理模块,具体用于:
利用预设的图片检测算法,从目标图片中确定人物嘴巴区域;
将所述人物嘴巴区域中像素点的像素值置为预设值,得到不包含所述人物嘴巴区域的中间图片。
可选的,所述装置还包括:
视频生成模块,用于按照若干个所述目标音频的时间顺序,对若干个所述目标音频对应的所述数字人图片进行组合,生成数字人视频。
可选的,所述装置还包括:
模型训练模块,用于从视频流中提取若干个图片帧以及所述图片帧对应的音频帧;对每一所述图片帧执行以下操作,得到若干个第一样本数据:从所述图片帧中提取出人物的样本表情参数;从所述图片帧对应的音频帧中提取出样本音频特征;将所述样本音频特征和所述样本表情参数确定为第一样本数据;依据若干个所述第一样本数据进行模型训练,得到所述第一生成器。
可选的,所述模型训练模块从所述图片帧中提取出人物的样本表情参数,包括:
利用预设的关键点检测算法,从所述图片帧中提取出若干个人脸关键点;将若干个所述人脸关键点输入至预设的人脸3D形变统计模型,得到人物的样本表情参数。
可选的,所述模型训练模块从所述图片帧对应的音频帧中提取出样本音频特征,包括:
利用傅里叶变换提取Mel频率倒谱系数作为所述图片帧对应的音频帧的样本音频特征;或者,利用预设的语音识别模型从所述图片帧对应的音频帧中提取样本音频特征。
可选的,所述模型训练模块依据若干个所述第一样本数据进行模型训练,得到所述第一生成器,包括:
将各所述第一样本数据中的所述样本音频特征输入至初始的第一生成器,得到对应的预测表情参数;依据各所述第一样本数据对应的所述预测表情参数、所述样本表情参数,确定模型损失值;若所述模型损失值不符合预设的模型收敛条件,则基于所述模型损失值更新所述第一生成器的模型参数,并对更新模型参数后的所述第一生成器进行迭代训练,直至所述模型损失值符合所述模型收敛条件时,得到所述第一生成器。
第三方面,本申请实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现如第一方面任一项所述的数字人生成方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项所述的数字人生成方法的步骤。
本申请实施例提供的技术方案,通过将目标音频输入至预先训练好的第一生成器中,得到人物的目标表情参数,从目标图片中提取人物的目标3D人脸重建参数,以及对目标图片进行处理,得到不包含人物嘴巴区域的第一中间图片,依据目标表情参数和目标3D人脸重建参数,确定目标嘴区域信息,将目标嘴区域信息和第一中间图片输入至预先训练好的第二生成器中,得到数字人图片,由于目标嘴区域信息包括人物嘴巴张合状态信息,但不包含人脸姿态信息,因此,目标嘴区域信息不存在角度问题,那么,依据目标嘴区域信息和不包含人物嘴巴区域的图片所生成的数字人的姿态也就更加自然,提升了用户体验。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数字人生成方法的步骤流程图;
图2是本申请实施例提供的另一种数字人生成方法的步骤流程图;
图3为本申请一个可选实施例提供的一种数字人生成方法步骤流程图;
图4为本申请一个可选实施例提供的一种数字人生成方法中步骤320的具体实现流程图;
图5为本申请一个可选实施例提供的一种数字人生成方法中步骤330的具体实现流程图;
图6为本申请实施例提供的一种数字人生成装置的结构框图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,示出了本申请实施例提供的一种数字人生成方法的步骤流程图。具体的,本申请提供的数字人生成方法可以适用于视频生成场景,如可以适用于基于真实图片生成视频的虚拟图像的情况;其中,虚拟图像可以是视频中的数字人图像,具体可以用于表示数字人视频中的数字人。具体的,作为一个例子,该视频生成场景为直播视频的生成场景,在该场景下,对用户音频和直播间主播(如虚拟主播)的图片应用本申请提供的数字人生成方法,可以实现基于用户音频驱动直播间主播的图片,从而生成虚拟主播的直播视频。作为另一个例子,该视频生成场景为线上教育视频生成场景,在该场景下,对讲师的音频和讲师(如虚拟讲师)的图片应用本申请提供的数字人生成方法,可以实现基于讲师音频驱动讲师的图片,从而生成虚拟讲师在线授课的视频。当然,上述应用场景仅仅是本申请提供的数字人生成方法的示例性应用场景,本申请实施例对具体的应用场景不做限制。
如图1所示,本申请实施例中的数字人生成方法具体可以包括如下步骤:
步骤110,将目标音频输入至预先训练好的第一生成器中,得到人物的目标表情参数。
其中,目标音频可以指待处理的真实音频,如可以是用户录制的音频,或者是用户录制的视频中的音频。进一步的,本申请实施例中,目标音频可以作为最终生成的数字人视频中所包含的音频,也即最终生成的数字人所输出的音频。
第一生成器是预先训练得到的,用于基于音频推理出人物的表情参数的机器学习模型,该表情参数用于表征人物嘴巴的张合状态。至于第一生成器是如何训练得到的,在下文中通过图3、图4以及图5所示流程进行说明,这里先不详述。
基于上述描述,步骤110中,将目标音频输入至预先训练好的第一生成器中,可得到人物的表情参数(为描述方便,称为目标表情参数)。
步骤120,从目标图片中提取人物的目标3D人脸重建参数。
其中,目标图片可以指待处理的真实图片。在具体实现中,可通过图像采集设备采集人物的图像或视频得到。
3D人脸重建参数包括但不限于:人脸形状信息、反射信息、纹理信息、光照信息等。
在具体实现中,可利用预设的3D人脸重建参数提取算法或3D人脸重建参数提取模型,从目标图片中提取3D人脸重建参数。至于具体的3D人脸重建参数提取算法或3D人脸重建参数提取模型,本申请实施例不做详细阐述。
步骤130,对目标图片进行处理,得到不包含人物嘴巴区域的第一中间图片。
在一实施例中,步骤130的具体实现包括:利用预设的图片检测算法,从目标图片中确定人物的嘴巴区域,然后将嘴巴区域中像素点的像素值置为预设值(例如0),得到不包含人物嘴巴区域的图片(为描述方便,以下称为第一中间图片)。
步骤140,依据目标表情参数和目标3D人脸重建参数,确定目标嘴区域信息。
首先说明,本申请实施例中的目标嘴区域信息包含人物嘴巴的张合状态信息,并不包含人脸姿态信息。
具体的,在一实施例中,步骤140的具体实现包括:将目标表情参数和目标3D人脸重建参数输入至预设的人脸3D形变统计模型(如3DMM),得到三维人脸网格(为描述方便,以下称为目标三维人脸网格)。可以理解的是,由于是依据目标表情参数和目标3D人脸重建参数共同得到目标三维人脸网格的,因此,目标三维人脸网格包含人物嘴巴的张合状态信息。
之后,从目标三维人脸网格中确定目标三维嘴区域网格,将目标三维嘴区域网格确定为目标嘴区域信息。
在另一实施例中,步骤140的具体实现包括:将目标表情参数和目标3D人脸重建参数输入至预设的人脸3D形变统计模型(如3DMM),得到若干个目标嘴区域关键点,将若干个目标嘴区域关键点确定为目标嘴区域信息。
需要注意的是,本申请实施例中的目标嘴区域关键点是依据目标表情参数和目标3D人脸重建参数共同确定的,而目标3D人脸重建参数是从目标图片中提取的,因此,这就与现有技术中单纯的依据音频确定的人脸关键点不同。
步骤150,将目标嘴区域信息和第一中间图片输入至预先训练好的第二生成器中,得到数字人图片。
上述第二生成器是预先训练好的,用于基于人物的嘴区域信息和不包含人物嘴区域的图片(或者按照通道合并方式对该两者进行合并处理所得到的图片)推理生成数字人图片的机器学习模型。
基于此,在一实施例中,可先按照通道合并的方式,对目标嘴区域信息和第一中间图片进行合并处理(为描述方便,将合并处理所得到的图片称为第二中间图片)。之后,将第二中间图片输入至预先训练好的第二生成器中,得到数字人图片。
在另一实施例中,可直接将目标嘴区域信息和第一中间图片输入至预先训练好的第二生成器中,得到数字人图片。
由此可见,本申请实施例提供的技术方案,通过将目标音频输入至预先训练好的第一生成器中,得到人物的目标表情参数,从目标图片中提取人物的目标3D人脸重建参数,以及对目标图片进行处理,得到不包含人物嘴巴区域的第一中间图片,依据目标表情参数和目标3D人脸重建参数,确定目标嘴区域信息,将目标嘴区域信息和第一中间图片输入至预先训练好的第二生成器中,得到数字人图片,由于目标嘴区域信息包括人物嘴巴张合状态信息,但不包含人脸姿态信息,因此,目标嘴区域信息不存在角度问题,那么,依据目标嘴区域信息和不包含人物嘴巴区域的图片所生成的数字人的姿态也就更加自然,提升了用户体验。
参见图2,示出了本申请实施例提供的另一种数字人生成方法的步骤流程图。如图2所示,本申请实施例中的数字人生成方法具体可以包括如下步骤:
步骤210,将目标音频输入至预先训练好的第一生成器中,得到人物的目标表情参数。
步骤220,从目标图片中提取人物的目标3D人脸重建参数。
步骤230,对目标图片进行处理,得到不包含人物嘴巴区域的第一中间图片。
步骤240,依据目标表情参数和目标3D人脸重建参数,确定目标嘴区域信息。
步骤250,将目标嘴区域信息和第一中间图片输入至预先训练好的第二生成器中,得到数字人图片。
至于步骤210至步骤250的详细描述,可参见上述图1所示流程中的描述,这里不再赘述。
步骤260,按照若干个目标音频的时间顺序,对若干个目标音频对应的数字人图片进行组合,生成数字人视频。
本申请实施例中,可针对一段音频(如一段wav格式,帧率为100的音频)应用本申请实施例提供的数字人生成方法,最终生成数字人视频。
具体而言,可将该一段音频中的每一音频帧分别确定为一个目标音频,然后针对每一目标音频执行上述步骤240至步骤250,得到每一目标音频对应的数字人图片。最后,按照该若干个目标音频的时间顺序,对若干个目标音频对应的数字人图片进行组合,生成数字人视频。
由此可见,本申请实施例提供的技术方案,通过将目标音频输入至预先训练好的第一生成器中,得到人物的目标表情参数,从目标图片中提取人物的目标3D人脸重建参数,以及对目标图片进行处理,得到不包含人物嘴巴区域的第一中间图片,依据目标表情参数和目标3D人脸重建参数,确定目标嘴区域信息,将目标嘴区域信息和第一中间图片输入至预先训练好的第二生成器中,得到数字人图片,由于目标嘴区域信息包括人物嘴巴张合状态信息,但不包含人脸姿态信息,因此,目标嘴区域信息不存在角度问题,那么,依据目标嘴区域信息和不包含人物嘴巴区域的图片所生成的数字人的姿态也就更加自然,提升了用户体验。
进一步的,本申请实施例提供的技术方案,通过按照若干个目标音频的时间顺序,对若干个目标音频对应的数字人图片进行组合,能够生成数字人视频,这则使得本申请实施例提供的技术方案能够应用于多种视频生成场景,如上述所举例的直播视频生成场景、线上教育视频生成场景等。
参见图3,示出了本申请一个可选实施例提供的一种数字人生成方法步骤流程图。具体而言,本申请实施例提供的数字人生成方法在模型训练阶段,具体可以包括如下步骤:
步骤310,从视频流中提取若干个图片帧以及图片帧对应的音频帧。
其中,视频流可以指待处理的真实视频流,如可以是用户录制的视频流。在视频流中,每一视频帧包含音频帧和图片帧,例如,若一秒的视频流中包含5个视频帧,则该视频流包含5个音频帧和5个图片帧,也即音频帧与图片帧一一对应。
步骤320,针对每一图片帧,得到一个第一样本数据。
参见图4,步骤320的具体实现可包括以下步骤:
步骤3201,从图片帧中提取出人物的样本表情参数。
在具体实现中,可利用预设的关键点检测算法,从图片帧中提取出若干个人脸关键点(如68个人脸关键点),然后,将若干个人脸关键点输入至预设的人脸3D形变统计模型,得到人物的表情参数(为描述方便,称为人脸表情参数)。
步骤3202,从图片帧对应的音频帧中提取出样本音频特征。
在一实施例中,利用傅里叶变换提取Mel频率倒谱系数作为图片帧对应的音频帧的音频特征(为描述方便,称为样本音频特征)。
在另一实施例中,利用预设的语音识别模型从图片帧对应的音频帧中提取样本音频特征。
步骤3203,将样本音频特征和样本表情参数确定为第一样本数据。
需要说明的是,在第一样本数据中,样本音频特征为输入值,样本表情参数为标签值。
步骤330,依据若干个第一样本数据进行模型训练,得到第一生成器。
参见图5,步骤330的具体实现可包括以下步骤:
步骤3401,将各第一样本数据中的样本音频特征输入至初始的第一生成器,得到对应的预测表情参数。
本申请实施例中,第一生成器可以为CNN模型、LSTM(Long Short-Term Memory,长短期记忆网络)模型等,本发明实施例对第一生成器采用何种模型结构不作限制。
步骤3402,依据各第一样本数据对应的预测表情参数、样本表情参数,确定模型损失值。
在一实施例中,可以采用wing Loss损失函数或者L1 Loss损失函数,依据各第一样本数据对应的预测表情参数、样本表情参数,确定模型损失值。
在另一实施例中,可以分别采用wing Loss损失函数和L1 Loss损失函数,依据各第一样本数据对应的预测表情参数、样本表情参数,确定模型损失值。具体而言,可将采用不同损失函数得到的损失值信息进行直接求和,或者是加权求和,将求和结果确定为模型损失值。
当然,在具体实现中,还可以采用其他的损失函数确定模型损失值,上述仅仅是示例性说明,本申请实施例对此不做限制。
步骤3403,若模型损失值不符合预设的模型收敛条件,则基于模型损失值更新第一生成器的模型参数,并对更新模型参数后的第一生成器进行迭代训练,直至模型损失值符合所述模型收敛条件时,得到第一生成器。
由此可见,本申请实施例中,能够基于真实的视频流训练得到第一生成器,以便在实际应用中,针对音频利用第一生成器推理出人物的表情参数。
本申请实施例还提供了一种数字人生成装置。如图6所示,本申请实施例提供的数字人生成装置600可以包括如下模块:
表情参数提取模块610,用于将目标音频输入至预先训练好的第一生成器中,得到人物的目标表情参数;
3D人脸重建参数提取模块620,用于从目标图片中提取人物的目标3D人脸重建参数;
图片处理模块630,用于对目标图片进行处理,得到不包含人物嘴巴区域的第一中间图片;
嘴区域信息确定模块640,用于依据所述目标表情参数和所述目标3D人脸重建参数,确定目标嘴区域信息;
数字人生成模块650,用于将所述目标嘴区域信息和所述第一中间图片输入至预先训练好的第二生成器中,得到数字人图片。
可选的,所述嘴区域信息确定模块640,具体用于:
将所述目标表情参数和所述目标3D人脸重建参数输入至预设的人脸3D形变统计模型,得到目标三维人脸网格;
从所述目标三维人脸网格中确定目标三维嘴区域网格;
将所述目标三维嘴区域网格确定为目标嘴区域信息。
可选的,所述嘴区域信息确定模块640,具体用于:
将所述目标表情参数和所述目标3D人脸重建参数输入至预设的人脸3D形变统计模型,得到若干个目标嘴区域关键点;
将若干个所述目标嘴区域关键点确定为目标嘴区域信息。
可选的,所述数字人生成模块650,具体用于:
按照通道合并的方式,对所述目标嘴区域信息和所述第一中间图片进行合并处理,第二中间图片;
将所述第二中间图片输入至预先训练好的第二生成器中,得到数字人图片。
可选的,所述图片处理模块630,具体用于:
利用预设的图片检测算法,从目标图片中确定人物嘴巴区域;
将所述人物嘴巴区域中像素点的像素值置为预设值,得到不包含所述人物嘴巴区域的中间图片。
可选的,所述装置还包括(图中未示出):
视频生成模块,用于按照若干个所述目标音频的时间顺序,对若干个所述目标音频对应的所述数字人图片进行组合,生成数字人视频。
可选的,所述装置还包括(图中未示出):
模型训练模块,用于从视频流中提取若干个图片帧以及所述图片帧对应的音频帧;对每一所述图片帧执行以下操作,得到若干个第一样本数据:从所述图片帧中提取出人物的样本表情参数;从所述图片帧对应的音频帧中提取出样本音频特征;将所述样本音频特征和所述样本表情参数确定为第一样本数据;依据若干个所述第一样本数据进行模型训练,得到所述第一生成器。
可选的,所述模型训练模块从所述图片帧中提取出人物的样本表情参数,包括:
利用预设的关键点检测算法,从所述图片帧中提取出若干个人脸关键点;将若干个所述人脸关键点输入至预设的人脸3D形变统计模型,得到人物的样本表情参数。
可选的,所述模型训练模块从所述图片帧对应的音频帧中提取出样本音频特征,包括:
利用傅里叶变换提取Mel频率倒谱系数作为所述图片帧对应的音频帧的样本音频特征;或者,利用预设的语音识别模型从所述图片帧对应的音频帧中提取样本音频特征。
可选的,所述模型训练模块依据若干个所述第一样本数据进行模型训练,得到所述第一生成器,包括:
将各所述第一样本数据中的所述样本音频特征输入至初始的第一生成器,得到对应的预测表情参数;依据各所述第一样本数据对应的所述预测表情参数、所述样本表情参数,确定模型损失值;若所述模型损失值不符合预设的模型收敛条件,则基于所述模型损失值更新所述第一生成器的模型参数,并对更新模型参数后的所述第一生成器进行迭代训练,直至所述模型损失值符合所述模型收敛条件时,得到所述第一生成器。
需要说明的是,上述提供数字人生成装置可执行本申请任意实施例所提供的图像处理方法,具备执行方法相应的功能和有益效果。
在具体实现中,上述数字人生成装置可以应用在诸如个人计算机、服务器等电子设备中,使得电子设备作为图像处理设备可以依据目标音频生成数字人,并使得生成的数字人姿态更加自然,提升用户体验。
进一步的,本申请实施例还提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现上述任意一个方法实施例所述的数字人生成方法的步骤。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一个方法实施例所述的数字人生成方法的步骤。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置、设备、存储介质实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (13)

1.一种数字人生成方法,其特征在于,包括:
将目标音频输入至预先训练好的第一生成器中,得到人物的目标表情参数;
从目标图片中提取人物的目标3D人脸重建参数,以及对目标图片进行处理,得到不包含人物嘴巴区域的第一中间图片;
依据所述目标表情参数和所述目标3D人脸重建参数,确定目标嘴区域信息;
将所述目标嘴区域信息和所述第一中间图片输入至预先训练好的第二生成器中,得到数字人图片。
2.根据权利要求1所述的方法,其特征在于,所述依据所述目标表情参数和所述目标3D人脸重建参数,确定目标嘴区域信息,包括:
将所述目标表情参数和所述目标3D人脸重建参数输入至预设的人脸3D形变统计模型,得到目标三维人脸网格;
从所述目标三维人脸网格中确定目标三维嘴区域网格;
将所述目标三维嘴区域网格确定为目标嘴区域信息。
3.根据权利要求1所述的方法,其特征在于,所述依据所述目标表情参数和所述目标3D人脸重建参数,确定目标嘴区域信息,包括:
将所述目标表情参数和所述目标3D人脸重建参数输入至预设的人脸3D形变统计模型,得到若干个目标嘴区域关键点;
将若干个所述目标嘴区域关键点确定为目标嘴区域信息。
4.根据权利要求1所述的方法,其特征在于,所述将所述目标嘴区域信息和所述第一中间图片输入至预先训练好的第二生成器中,得到数字人图片,包括:
按照通道合并的方式,对所述目标嘴区域信息和所述第一中间图片进行合并处理,第二中间图片;
将所述第二中间图片输入至预先训练好的第二生成器中,得到数字人图片。
5.根据权利要求1所述的方法,其特征在于,所述对目标图片进行处理,得到不包含人物嘴巴区域的中间图片,包括:
利用预设的图片检测算法,从目标图片中确定人物嘴巴区域;
将所述人物嘴巴区域中像素点的像素值置为预设值,得到不包含所述人物嘴巴区域的中间图片。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
按照若干个所述目标音频的时间顺序,对若干个所述目标音频对应的所述数字人图片进行组合,生成数字人视频。
7.根据权利要求1所述的方法,其特征在于,所述第一生成器通过以下方式训练得到:
从视频流中提取若干个图片帧以及所述图片帧对应的音频帧;
对每一所述图片帧执行以下操作,得到若干个第一样本数据:
从所述图片帧中提取出人物的样本表情参数;从所述图片帧对应的音频帧中提取出样本音频特征;将所述样本音频特征和所述样本表情参数确定为第一样本数据;
依据若干个所述第一样本数据进行模型训练,得到所述第一生成器。
8.根据权利要求7所述的方法,其特征在于,所述从所述图片帧中提取出人物的样本表情参数,包括:
利用预设的关键点检测算法,从所述图片帧中提取出若干个人脸关键点;
将若干个所述人脸关键点输入至预设的人脸3D形变统计模型,得到人物的样本表情参数。
9.根据权利要求7所述的方法,其特征在于,所述从所述图片帧对应的音频帧中提取出样本音频特征,包括:
利用傅里叶变换提取Mel频率倒谱系数作为所述图片帧对应的音频帧的样本音频特征;或者,
利用预设的语音识别模型从所述图片帧对应的音频帧中提取样本音频特征。
10.根据权利要求7所述的方法,其特征在于,所述依据若干个所述第一样本数据进行模型训练,得到所述第一生成器,包括:
将各所述第一样本数据中的所述样本音频特征输入至初始的第一生成器,得到对应的预测表情参数;
依据各所述第一样本数据对应的所述预测表情参数、所述样本表情参数,确定模型损失值;
若所述模型损失值不符合预设的模型收敛条件,则基于所述模型损失值更新所述第一生成器的模型参数,并对更新模型参数后的所述第一生成器进行迭代训练,直至所述模型损失值符合所述模型收敛条件时,得到所述第一生成器。
11.一种数字人生成装置,其特征在于,包括:
表情参数提取模块,用于将目标音频输入至预先训练好的第一生成器中,得到人物的目标表情参数;
3D人脸重建参数提取模块,用于从目标图片中提取人物的目标3D人脸重建参数;
图片处理模块,用于对目标图片进行处理,得到不包含人物嘴巴区域的第一中间图片;
嘴区域信息确定模块,用于依据所述目标表情参数和所述目标3D人脸重建参数,确定目标嘴区域信息;
数字人生成模块,用于将所述目标嘴区域信息和所述第一中间图片输入至预先训练好的第二生成器中,得到数字人图片。
12.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-10任一项所述的数字人生成方法的步骤。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-10任一项所述的数字人生成方法的步骤。
CN202111165980.7A 2021-09-30 2021-09-30 数字人生成方法、装置、设备及介质 Pending CN113886641A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111165980.7A CN113886641A (zh) 2021-09-30 2021-09-30 数字人生成方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111165980.7A CN113886641A (zh) 2021-09-30 2021-09-30 数字人生成方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN113886641A true CN113886641A (zh) 2022-01-04

Family

ID=79005196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111165980.7A Pending CN113886641A (zh) 2021-09-30 2021-09-30 数字人生成方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN113886641A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114783022A (zh) * 2022-04-08 2022-07-22 马上消费金融股份有限公司 一种信息处理方法、装置、计算机设备及存储介质
WO2023201996A1 (zh) * 2022-04-19 2023-10-26 奥丁信息科技有限公司 数字人表情及其模型生成方法、装置和vr设备的外挂系统
CN116993875A (zh) * 2023-08-31 2023-11-03 荣耀终端有限公司 数字人的生成方法、装置、电子设备及存储介质
CN117036555A (zh) * 2023-05-18 2023-11-10 无锡捷通数智科技有限公司 数字人的生成方法、装置和数字人的生成系统
WO2023231712A1 (zh) * 2022-05-30 2023-12-07 中兴通讯股份有限公司 数字人驱动方法、数字人驱动设备及存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114783022A (zh) * 2022-04-08 2022-07-22 马上消费金融股份有限公司 一种信息处理方法、装置、计算机设备及存储介质
CN114783022B (zh) * 2022-04-08 2023-07-21 马上消费金融股份有限公司 一种信息处理方法、装置、计算机设备及存储介质
WO2023201996A1 (zh) * 2022-04-19 2023-10-26 奥丁信息科技有限公司 数字人表情及其模型生成方法、装置和vr设备的外挂系统
WO2023231712A1 (zh) * 2022-05-30 2023-12-07 中兴通讯股份有限公司 数字人驱动方法、数字人驱动设备及存储介质
CN117036555A (zh) * 2023-05-18 2023-11-10 无锡捷通数智科技有限公司 数字人的生成方法、装置和数字人的生成系统
CN116993875A (zh) * 2023-08-31 2023-11-03 荣耀终端有限公司 数字人的生成方法、装置、电子设备及存储介质
CN116993875B (zh) * 2023-08-31 2024-02-27 荣耀终端有限公司 数字人的生成方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN113886641A (zh) 数字人生成方法、装置、设备及介质
CN110009716B (zh) 面部表情的生成方法、装置、电子设备及存储介质
CN110390704B (zh) 图像处理方法、装置、终端设备及存储介质
CN110085244B (zh) 直播互动方法、装置、电子设备及可读存储介质
CN111383307A (zh) 基于人像的视频生成方法及设备、存储介质
CN113077537B (zh) 一种视频生成方法、存储介质及设备
CN111401101A (zh) 基于人像的视频生成系统
CN113903067A (zh) 虚拟对象视频的生成方法、装置、设备及介质
CN115423908A (zh) 虚拟人脸的生成方法、装置、设备以及可读存储介质
CN113948105A (zh) 基于语音的图像生成方法、装置、设备及介质
CN117523088A (zh) 一种个性化的三维数字人全息互动形成系统及方法
CN114882861A (zh) 语音生成方法、装置、设备、介质及产品
CN113222841A (zh) 一种图像处理方法、装置、设备及介质
CN113886640A (zh) 数字人生成方法、装置、设备及介质
CN115908662A (zh) 说话人视频的生成模型训练和使用方法、装置及设备
CN109961152A (zh) 虚拟偶像的个性化互动方法、系统、终端设备及存储介质
CN115690276A (zh) 虚拟形象的视频生成方法、装置、计算机设备和存储介质
CN114898018A (zh) 数字对象的动画生成方法、装置、电子设备及存储介质
CN114630190A (zh) 关节姿态参数的确定方法、模型训练方法及装置
CN113901267A (zh) 动作视频的生成方法、装置、设备及介质
CN113886642A (zh) 数字人生成方法、装置、设备及介质
CN113747136A (zh) 视频数据处理方法、装置、设备及介质
CN113886639A (zh) 数字人视频生成方法、装置、电子设备及存储介质
CN117348736B (zh) 一种基于人工智能的数字交互方法、系统和介质
CN117152308B (zh) 一种虚拟人动作表情优化方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination