CN113838173B - 一种受语音和背景声联合驱动的虚拟人头部运动合成方法 - Google Patents

一种受语音和背景声联合驱动的虚拟人头部运动合成方法 Download PDF

Info

Publication number
CN113838173B
CN113838173B CN202111111750.2A CN202111111750A CN113838173B CN 113838173 B CN113838173 B CN 113838173B CN 202111111750 A CN202111111750 A CN 202111111750A CN 113838173 B CN113838173 B CN 113838173B
Authority
CN
China
Prior art keywords
face
voice
sequence
network
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111111750.2A
Other languages
English (en)
Other versions
CN113838173A (zh
Inventor
曾鸣
刘鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202111111750.2A priority Critical patent/CN113838173B/zh
Publication of CN113838173A publication Critical patent/CN113838173A/zh
Application granted granted Critical
Publication of CN113838173B publication Critical patent/CN113838173B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/005General purpose rendering architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Architecture (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Processing Or Creating Images (AREA)

Abstract

一种受语音和背景声联合驱动的虚拟人头部运动合成方法,涉及计算机视觉。对待合成的人脸参考图像进行人脸三维重建,提取其人脸身份参数、人脸纹理参数;输入音乐音频流进行音声分离,分离出背景声音频流和语音音频流;提取音频特征,分别输出背景声特征序列和语音特征序列;分别向第一~四网络输入音频特征,输出头部姿态参数序列、面部表情参数序列;计算三维人脸模型形状和纹理并进行投影渲染,输出二维人脸渲染图像序列;对第五网络输入二维人脸渲染图像序列,输出纹理优化后的虚拟人头部形象视频帧序列。可驱动虚拟人头部姿态、面部表情、眼睛、口型等协同运动,合成神态表情丰富、动作感真实、表现力强的虚拟人头部形象视频。

Description

一种受语音和背景声联合驱动的虚拟人头部运动合成方法
技术领域
本发明涉及计算机视觉技术领域,尤其是涉及一种受语音和背景声联合驱动的虚拟人头部运动合成方法。
背景技术
传统的虚拟人头部形象合成技术需要真人动作驱动,可以合成与真人动作一致、表情丰富的虚拟形象动画,但合成过程复杂且成本较高。语音驱动的虚拟人头部形象合成技术能够从一段语音音频合成一段虚拟人说话的视频,但仅局限于说话情景,合成的虚拟人面部表情往往呆滞死板,表现力差。
论文Suwajanakorn S,Seitz S M,Kemelmacher-Shlizerman I.Synthesizingobama:learning lip sync from audio[J].ACM Transactions on Graphics(ToG),2017,36(4):1-13.中通过输入一段语音音频,从中提取梅尔频率倒谱系数,再借助LSTM网络生成与语音一致的口型形状,但该项技术仅能控制口型的生成,其他头部特征如头部姿态无法生成。论文Yi R,Ye Z,Zhang J,et al.Audio-driven talking face video generationwith learning-based personalized head pose[J].arXiv preprint arXiv:2002.10137,2020.在口型的基础上增加了生成头部姿态的功能,但由于该算法采用监督方式回归头部姿态参数,生成的头部姿态大部分保持静止,效果呆板,表现力差。
发明内容
本发明的目的在于针对传统基于语音驱动的虚拟人头部形象动画合成表情呆滞死板的问题,提供一种受语音和背景声联合驱动的虚拟人头部运动合成方法,可以合成表情丰富、表现力强的虚拟人头部形象。
本发明包括以下步骤:
1)对待合成的人脸参考图像进行人脸三维重建,提取其人脸身份参数、人脸纹理参数;
2)输入音乐音频流进行音声分离,分离出背景声音频流和语音音频流;
3)对步骤2)和3)得到的背景声音频流和语音音频流提取音频特征,分别输出背景声特征序列和语音特征序列;
4)对第一网络输入背景声特征序列和语音特征序列,输出头部姿态参数序列;
5)对第二网络输入背景声特征序列和语音特征序列,输出人脸眼睛混合形状参数序列;
6)对第三网络输入语音特征序列,输出人脸口型混合形状参数序列;
7)对第四网络输入语音特征序列,输出人脸其他混合形状系数序列;
8)步骤4)~6)的输出组成面部表情参数序列,固定人脸身份参数、人脸纹理参数,对三维人脸模型渲染模块输入面部表情参数序列、头部姿态参数序列,输出二维人脸渲染图像序列;
9)对第五网络输入步骤7)得到的二维人脸渲染图像序列,得到加入人脸纹理细节和背景的最终视频帧序列。
在步骤1)中,所述人脸三维重建采用人脸3D形变统计模型,经过人脸三维重建后可从人脸参考图像得到人脸身份参数、人脸纹理参数、人脸面部表情参数、头部姿态参数,丢弃后二者而保留前二者。
在步骤2)中,所述音声分离表示使用音频编辑软件从音乐中分离出背景声和唱歌语音,从而能够对之后各人脸参数的生成进行驱动。
在步骤3)中,所述背景声特征和语音特征均为人耳听觉相关的音频特征,如梅尔频率倒谱系数。
在步骤4)中,所述第一网络为头部姿态参数生成网络,是生成对抗网络,分为生成器模块和判别器模块,其中生成器模块分为音频特征提取模块、上下文建模模块、头部姿态参数生成模块;所述头部姿态参数序列可从高斯噪声中生成,具体步骤如下:
(1)对背景声特征序列和语音特征序列在时序上分帧加窗,分别得到背景声特征窗口,语音特征窗口;
(2)从高斯噪声中采样得到与音频特征窗口维度相同的噪声特征窗口;
(3)将步骤(1)得到的背景声特征窗口、语音特征窗口、步骤(2)得到的噪声特征窗口在特征维上进行拼接,得到输入特征;
(4)将输入特征输入音频特征编码模块,得到高层次的音频特征;
(5)将高层次音频特征输入上下文建模模块,输出带有前后关联的特征;
(6)将带有前后关联的特征输入头部姿态参数生成模块,输出头部姿态参数序列。
在步骤5)中,所述第二网络为人脸眼睛混合形状参数生成网络,为生成对抗网络;其中生成器分为音频特征编码模块、上下文建模模块、人脸眼睛混合形状参数生成模块;人脸眼睛混合形状参数生成网络与头部姿态参数生成网络架构相近,作用相似;特殊地,可设计为二者共用同一个网络部分;具体步骤与步骤4)类似。
在步骤6)中,所述第三网络为人脸口型混合形状参数生成网络,分为语音特征提取模块,上下文建模模块、人脸口型参数回归模块;具体步骤如下:
(1)对语音特征序列在时序上加窗,得到语音特征窗口;
(2)对语音特征提取模块输入语音特征窗口,提取高层次语音特征;
(3)将高层次音频特征输入上下文建模模块,提取带有前后关联的特征;
(4)将带有前后关联的特征输入人脸口型参数回归模块,输出人脸口型混合形状参数序列。
在步骤7)中,所述第四网络为人脸其他混合形状参数生成网络,包含语音特征提取模块、上下文关系建模模块、其他混合形状参数生成模块;人脸其他混合形状参数生成网络与人脸口型混合形状参数生成网络架构相近,特殊地,可设计为二者共用同一个网络部分;具体步骤与步骤6)类似。
在步骤9)中,所述第五网络为人脸纹理优化网络,是生成对抗网络;人脸纹理优化网络用于完成视频-视频转换任务,将二维人脸渲染图像组成的视频转换为纹理更加丰富、背景更加真实、总体表现力更强的虚拟人头部形象视频。
本发明利用背景声和语音之间的相互联系,可以从背景声提取出背景声节奏等信息,从语音提取出情绪信息、语音节奏信息,二者相互结合共同驱动虚拟人头部姿态、面部表情、眼睛、口型等部分协同运动,合成神态表情丰富、动作感真实、表现力强的虚拟人头部形象视频。
附图说明
图1为本发明的整体流程示意图。
图2为本发明的头部姿态参数生成网络整体流程示意图。
图3为本发明的人脸口型混合形状参数生成网络整体流程示意图。
具体实施方式
以下具体实施例将结合附图对本发明作进一步说明。
参见图1~3,本实施例包括以下步骤:
S1:对待合成的人脸参考图象进行人脸三维重建、提取其人脸身份参数b、人脸纹理参数t;
S2:对输入音乐音频进行音声分离,分离出背景声音频流和语音音频流;
S3:对得到的背景声音频流和语音音频流提取音频特征,具体地,分帧加窗后提取梅尔频率倒谱系数,分别输出长度为N的背景声特征序列和语音特征序列。
S4:对第一网络输入背景声特征序列和语音特征序列,输出头部姿态参数序列P=(p0,p1,…,pN-1),其中pi=[α,β,γ,tx,ty,tz]T表示三维人脸模型的刚体变换,α,β,γ表示三维旋转量,tx,ty,tz表示三维方向上的平移量;
S5:对第二网络输入背景声特征序列和语音特征序列,输出人脸眼睛混合形状参数序列E=(e0,e1,…,eN-1);
S6:对第三网络输入语音特征序列,输出人脸口型混合形状参数序列M=(m0,m1,…,mN-1);
S7:对第四网络输入语音特征序列,输出人脸其他混合形状系数序列O=(o0,o1,…,oN-1);
S8:步骤S5~S7的输出组成人脸面部表情参数序列D=(d0,d1,…,dN-1),其中di=[ei;mi;oi]T,固定人脸身份参数b、人脸纹理参数t,对三维人脸模型渲染模块输入人脸面部表情参数序列D、头部姿态参数序列P,使用公式分别计算初平滑的三维人脸模型形状和纹理,再进行投影渲染输出二维人脸渲染图像序列X,其中S,/>分别表示人脸模型的目标形状和平均形状,T,/>分别表示人脸模型的目标纹理和平均纹理,B,C,W分别表示三维人脸模型的身份基,表情基,纹理基。
S9:对第五网络输入S8得到的二维人脸渲染图像序列X,输出加入人脸纹理细节和背景的输出视频帧序列Y。
以上实施例中,背景声和语音特征均采用梅尔频率倒谱系数,提取过程具体步骤如下:
(1)对音频进行响度归一化。
(2)对音频采样点以25ms为窗口大小、10ms为步长大小进行分帧加窗。
(3)对信号窗口预强化,通过高通滤波器并进行傅立叶变换至频域。
(4)将频谱通过梅尔滤波器获得梅尔刻度。
(5)在每个梅尔刻度上提取对数能量并进行离散傅立叶反变换,变换到倒频谱域,得到13维的梅尔频率倒谱系数。
受语音和背景声联合驱动的虚拟人头部姿态、面部表情及口型一致合成方法:
传统的语音驱动的虚拟人头部形象生成技术能够从音频中提取节奏等时序信息,生成符合语音节奏的虚拟人说话视频。但这种方式局限于说话场景,表现形式单一、表情呆滞死板,头部运动简单,整体表现力弱,真实感差。
为了改进传统基于语音驱动的虚拟人头部形象合成方法,本发明提供一种受语音和背景声联合驱动的虚拟人头部运动合成方法。该方法在传统语音驱动的基础上,加入对背景声建模和处理,由语音节奏和背景声节奏联合驱动头部姿态、人脸眼睛变化、人脸表情变化,结合单独的语音驱动的口型变化,共同合成出真实感强、表现力丰富的虚拟人脸形象。该算法主要包括6个部分:
(1)三维人脸重建,包括步骤S1;
(2)语音和背景声联合驱动的人脸参数生成,包括步骤S2~S7;
(3)三维人脸渲染,包括步骤S8;
(4)人脸纹理优化,包括步骤S9;其中三维人脸重建用于提取出合成过程中固定不变的人脸参数,这些参数反映合成过程中人脸中固定不变的因素,包括人脸身份参数、人脸纹理参数。语音和背景声共同驱动的人脸参数生成用于生成随音频变化而变化的人脸因素,包括头部姿态参数、人脸眼睛混合形状参数、人脸口型混合形状参数、人脸其他混合形状参数,它们的变化越多样,则最后合成结果表现力也越强。而后,结合前两步得到的人脸参数,构建出三维人脸模型并进行二维渲染,得到二维人脸渲染图像,为最后的纹理优化提供先验指导信息。最后,将二维人脸渲染图像使用人脸纹理优化网络补充纹理细节,生成纹理丰富、表现力强的虚拟人脸形象。
以上所述步骤(2)语音和背景声联合驱动的人脸参数生成中第一网络至第四网络的具体结构及流程为本发明的关键内容,现结合具体实施例分别阐述具体实施过程。
头部姿态参数生成网络:
在虚拟人脸形象合成场景中,头部姿态表示虚拟人头部在三维空间上的旋转、平移量。和背景声、语音声节奏相一致的头部姿态变化有利于提高虚拟人头部形象整体的表现力和真实感。鉴于头部姿态与音频为弱相关且具有较强随机性,本发明采用生成对抗网络来生成与音频节奏相一致的头部姿态参数序列。结合附图2,具体实施案例如下:
(1)对背景声特征序列和语音特征序列进行以T=9为窗口大小、步长为1在时序上进行分帧加窗,分别得到背景声特征窗口序列G=(g0,g1,…,gi,…)和语音特征窗口序列S=(s0,s1,…,si,…),每个时刻特征维度均为T×M,其中M为梅尔频率倒谱系数的维度大小。
(2)从均值为μ,方差为σ2的高斯噪声中采样得到维度为T×M的噪声特征序列N=(n0,n1,…,ni,…)。
(3)将步骤(1)得到的背景声特征窗口gi、语音特征窗口si、步骤(2)得到的噪声特征窗口ni在特征维上进行拼接,得到维度为T×3M的输入特征。
(4)将步骤(3)得到的输入特征输入音频特征编码模块,得到高层次的音频特征。音频编码模块为神经网络架构,本实施例采用卷积神经网络,但可选择范围并不局限于此。
(5)将步骤(4)得到的高层次音频特征输入上下文建模模块,输出带有前后关联的特征。上下文建模模块为循环神经网络架构,本实施例采用LSTM网络,输出特征维度为512,但可选择范围并不局限于此。
(6)将步骤(5)得到的带有前后关联的特征输入头部姿态参数生成模块(即图中的生成器模块),输出头部姿态参数序列P=(p0,p1,…,pi,…)。头部姿态参数生成模块为简单的参数回归系统,本实施例采用全连接网络,但可选择范围并不局限于此。
(7)将步骤(3)的到的输入特征和步骤(6)的到的头部姿态参数序列P拼接起来输入判别器模块,计算判别器损失用于训练所述网络参数。判别器模块为简单的分类系统,本实施例采用卷积神经网络,但可选择范围并不局限于此。
人脸眼睛混合形状参数生成网络:
本发明采用人眼相关的人脸混合形状参数来建模虚拟人眼睛的眨眼、闭眼、张眼等动作。合成的虚拟人眨眼分布越和真实相似、闭眼张眼动作越和音频节奏相吻合,合成的虚拟人视频效果越真实。鉴于人脸眼睛和头部姿态均与音频为弱相关且具有较强随机性,本发明采用与头部姿态参数生成网络相似的网络结构和运算过程来生成与音频节奏一致的人脸眼睛混合形状参数序列,仅将输出特征换为人脸眼睛混合形状参数即可,具体过程不再赘述。特殊的,头部姿态参数和人脸眼睛混合形状参数的推理可共用同一个网络结构。
人脸口型混合形状参数生成网络:
人脸口型混合形状参数生成网络用于生成与语音内容、节奏一致的人脸口型形状,分为语音特征提取模块,上下文建模模块、人脸口型参数回归模块。该任务为简单的回归任务,本实施例采用卷积神经网络对该任务进行建模。结合附图3,具体实施案例如下:
(1)对语音特征序列以T=9为窗口大小、步长为1在时序上分帧加窗,得到语音特征窗口序列S=(s0,s1,…,si,…)。每个时刻特征维度均为T×N,其中N为梅尔频率倒谱系数的维度大小。
(2)将步骤(1)得到的语音特征窗口si输入语音特征提取模块,得到高层次的音频特征。语音特征提取模块为神经网络架构,本实施例采用卷积神经网络,但可选择范围并不局限于此。
(3)将步骤(2)得到的高层次音频特征输入上下文建模模块,输出带有前后关联的特征。上下文建模模块为循环神经网络架构,本实施例采用LSTM网络,输出特征维度为512,但可选择范围并不局限于此。
(4)将步骤(3)得到的带有前后关联的特征输入人脸口型参数回归模块,输出人脸口型混合形状参数序列M=(m0,m1,…,mi,…)。人脸口型参数回归模块为简单的参数回归系统,本实施例采用全连接网络,但可选择范围并不局限于此。
人脸其他混合形状参数生成网络:
本发明采用除眼睛、嘴巴其他部位的混合形状参数来建模虚拟人关于表情方面的面部动作,进一步丰富了虚拟人面部表情的多样性。鉴于人脸表情与语音中内含的情绪信息为强相关,本发明采用与人脸口型混合形状参数生成网络相似的网络结构和运算过程来生成与语音情感一致的人脸其他混合形状参数序列,仅将输出特征换为人脸其他混合形状参数即可,具体过程不再赘述。特殊地,人脸口型混合形状参数和人脸其他混合形状参数的推理可共用同一个网络结构。
人脸纹理优化网络并不属于本发明的关键内容,本实施例对于人脸纹理优化网络采用vid2vid生成对抗网络完成视频转换任务,但可选择的范围并不局限于此,任何可完成视频转换任务的生成对抗网络均可作为本发明的人脸纹理优化网络。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种受语音和背景声联合驱动的虚拟人头部运动合成方法,其特征在于包括以下步骤:
1)对待合成的人脸参考图像进行人脸三维重建,提取其人脸身份参数、人脸纹理参数;
2)输入音乐音频流进行音声分离,分离出背景声音频流和语音音频流;
3)对步骤2)得到的背景声音频流和语音音频流提取音频特征,分别输出背景声特征序列和语音特征序列;
4)对第一网络输入背景声特征序列和语音特征序列,输出头部姿态参数序列;
5)对第二网络输入背景声特征序列和语音特征序列,输出人脸眼睛混合形状参数序列;
6)对第三网络输入语音特征序列,输出人脸口型混合形状参数序列;
7)对第四网络输入语音特征序列,输出人脸其他混合形状系数序列;
8)步骤5)~7)的输出组成面部表情参数序列,固定人脸身份参数、人脸纹理参数,对三维人脸模型渲染模块输入面部表情参数序列、头部姿态参数序列,输出二维人脸渲染图像序列;
9)对第五网络输入步骤8)得到的二维人脸渲染图像序列,得到加入人脸纹理细节和背景的最终视频帧序列。
2.如权利要求1所述一种受语音和背景声联合驱动的虚拟人头部运动合成方法,其特征在于在步骤1)中,所述人脸三维重建采用人脸3D形变统计模型,经过人脸三维重建后从人脸参考图像得到人脸身份参数、人脸纹理参数、人脸面部表情参数、头部姿态参数,丢弃后二者而保留前二者。
3.如权利要求1所述一种受语音和背景声联合驱动的虚拟人头部运动合成方法,其特征在于在步骤2)中,所述音声分离是使用音频编辑软件从音乐中分离出背景声和唱歌语音,从而对之后各人脸参数的生成进行驱动。
4.如权利要求1所述一种受语音和背景声联合驱动的虚拟人头部运动合成方法,其特征在于在步骤3)中,所述背景声特征和语音特征均为人耳听觉相关的音频特征,包括梅尔频率倒谱系数。
5.如权利要求1所述一种受语音和背景声联合驱动的虚拟人头部运动合成方法,其特征在于在步骤4)中,所述第一网络为头部姿态参数生成网络,是生成对抗网络,分为生成器模块和判别器模块,其中生成器模块分为音频特征提取模块、上下文建模模块、头部姿态参数生成模块;所述头部姿态参数序列从高斯噪声中生成,具体步骤如下:
(1)对背景声特征序列和语音特征序列在时序上分帧加窗,分别得到背景声特征窗口,语音特征窗口;
(2)从高斯噪声中采样得到与音频特征窗口维度相同的噪声特征窗口;
(3)将步骤(1)得到的背景声特征窗口、语音特征窗口、步骤(2)得到的噪声特征窗口在特征维上进行拼接,得到输入特征;
(4)将输入特征输入音频特征编码模块,得到高层次的音频特征;
(5)将高层次音频特征输入上下文建模模块,输出带有前后关联的特征;
(6)将带有前后关联的特征输入头部姿态参数生成模块,输出头部姿态参数序列。
6.如权利要求1所述一种受语音和背景声联合驱动的虚拟人头部运动合成方法,其特征在于在步骤5)中,所述第二网络为人脸眼睛混合形状参数生成网络,为生成对抗网络;其中生成器分为音频特征编码模块、上下文建模模块、人脸眼睛混合形状参数生成模块。
7.如权利要求1所述一种受语音和背景声联合驱动的虚拟人头部运动合成方法,其特征在于在步骤6)中,所述第三网络为人脸口型混合形状参数生成网络,分为语音特征提取模块,上下文建模模块、人脸口型参数回归模块。
8.如权利要求1所述一种受语音和背景声联合驱动的虚拟人头部运动合成方法,其特征在于在步骤6)中,所述对第三网络输入语音特征序列,输出人脸口型混合形状参数序列的具体步骤如下:
(1)对语音特征序列在时序上加窗,得到语音特征窗口;
(2)对语音特征提取模块输入语音特征窗口,提取高层次语音特征;
(3)将高层次音频特征输入上下文建模模块,提取带有前后关联的特征;
(4)将带有前后关联的特征输入人脸口型参数回归模块,输出人脸口型混合形状参数序列。
9.如权利要求1所述一种受语音和背景声联合驱动的虚拟人头部运动合成方法,其特征在于在步骤7)中,所述第四网络为人脸其他混合形状参数生成网络,包含语音特征提取模块、上下文关系建模模块、其他混合形状参数生成模块。
10.如权利要求1所述一种受语音和背景声联合驱动的虚拟人头部运动合成方法,其特征在于在步骤9)中,所述第五网络为人脸纹理优化网络,是生成对抗网络;人脸纹理优化网络用于完成视频-视频转换任务,将二维人脸渲染图像组成的视频转换为纹理更加丰富、背景更加真实、总体表现力更强的虚拟人头部形象视频。
CN202111111750.2A 2021-09-23 2021-09-23 一种受语音和背景声联合驱动的虚拟人头部运动合成方法 Active CN113838173B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111111750.2A CN113838173B (zh) 2021-09-23 2021-09-23 一种受语音和背景声联合驱动的虚拟人头部运动合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111111750.2A CN113838173B (zh) 2021-09-23 2021-09-23 一种受语音和背景声联合驱动的虚拟人头部运动合成方法

Publications (2)

Publication Number Publication Date
CN113838173A CN113838173A (zh) 2021-12-24
CN113838173B true CN113838173B (zh) 2023-08-22

Family

ID=78969093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111111750.2A Active CN113838173B (zh) 2021-09-23 2021-09-23 一种受语音和背景声联合驱动的虚拟人头部运动合成方法

Country Status (1)

Country Link
CN (1) CN113838173B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114898244B (zh) * 2022-04-08 2023-07-21 马上消费金融股份有限公司 一种信息处理方法、装置、计算机设备及存储介质
CN115002509A (zh) * 2022-05-27 2022-09-02 杭州优链时代科技有限公司 一种3d虚拟数字人植入视频方法及系统
CN117373455B (zh) * 2023-12-04 2024-03-08 翌东寰球(深圳)数字科技有限公司 一种音视频的生成方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218842A (zh) * 2013-03-12 2013-07-24 西南交通大学 一种语音同步驱动三维人脸口型与面部姿势动画的方法
KR20160012902A (ko) * 2014-07-24 2016-02-03 삼성전자주식회사 시청자 사이의 연관 정보에 근거하여 광고를 재생하기 위한 방법 및 장치
CN110324702A (zh) * 2019-07-04 2019-10-11 三星电子(中国)研发中心 视频播放过程中的信息推送方法和装置
CN111508064A (zh) * 2020-04-14 2020-08-07 北京世纪好未来教育科技有限公司 基于音素驱动的表情合成方法、装置和计算机存储介质
CN113269872A (zh) * 2021-06-01 2021-08-17 广东工业大学 基于三维人脸重构和视频关键帧优化的合成视频生成方法
CN113393832A (zh) * 2021-06-03 2021-09-14 清华大学深圳国际研究生院 一种基于全局情感编码的虚拟人动画合成方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8224652B2 (en) * 2008-09-26 2012-07-17 Microsoft Corporation Speech and text driven HMM-based body animation synthesis
US20210090576A1 (en) * 2019-09-19 2021-03-25 Giving Tech Labs, LLC Real Time and Delayed Voice State Analyzer and Coach

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218842A (zh) * 2013-03-12 2013-07-24 西南交通大学 一种语音同步驱动三维人脸口型与面部姿势动画的方法
KR20160012902A (ko) * 2014-07-24 2016-02-03 삼성전자주식회사 시청자 사이의 연관 정보에 근거하여 광고를 재생하기 위한 방법 및 장치
CN110324702A (zh) * 2019-07-04 2019-10-11 三星电子(中国)研发中心 视频播放过程中的信息推送方法和装置
CN111508064A (zh) * 2020-04-14 2020-08-07 北京世纪好未来教育科技有限公司 基于音素驱动的表情合成方法、装置和计算机存储介质
CN113269872A (zh) * 2021-06-01 2021-08-17 广东工业大学 基于三维人脸重构和视频关键帧优化的合成视频生成方法
CN113393832A (zh) * 2021-06-03 2021-09-14 清华大学深圳国际研究生院 一种基于全局情感编码的虚拟人动画合成方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Multimodal Target Speech Separation with Voice and Face References;Leyuan Qu 等;《arXiv》;全文 *

Also Published As

Publication number Publication date
CN113838173A (zh) 2021-12-24

Similar Documents

Publication Publication Date Title
CN113838173B (zh) 一种受语音和背景声联合驱动的虚拟人头部运动合成方法
Cao et al. Expressive speech-driven facial animation
Hong et al. Real-time speech-driven face animation with expressions using neural networks
CN112562722A (zh) 基于语义的音频驱动数字人生成方法及系统
Pham et al. End-to-end learning for 3d facial animation from speech
CN112581569B (zh) 自适应情感表达的说话人面部动画生成方法及电子装置
CN112001992A (zh) 基于深度学习的语音驱动3d虚拟人表情音画同步方法及系统
WO2023284435A1 (zh) 生成动画的方法及装置
Rebol et al. Passing a non-verbal turing test: Evaluating gesture animations generated from speech
Hajarolasvadi et al. Generative adversarial networks in human emotion synthesis: A review
Li et al. A survey of computer facial animation techniques
CN116051692A (zh) 一种基于语音驱动的三维数字人脸部动画生成方法
Wang et al. Anyonenet: Synchronized speech and talking head generation for arbitrary persons
Tang et al. Real-time conversion from a single 2D face image to a 3D text-driven emotive audio-visual avatar
Wang et al. Talking faces: Audio-to-video face generation
Barbulescu et al. Audio-visual speaker conversion using prosody features
CN115908662A (zh) 说话人视频的生成模型训练和使用方法、装置及设备
Deng et al. Automatic dynamic expression synthesis for speech animation
CN113362432B (zh) 一种面部动画生成方法及装置
Sadiq et al. Emotion dependent domain adaptation for speech driven affective facial feature synthesis
Deena et al. Speech-driven facial animation using a shared Gaussian process latent variable model
Zhang et al. Realistic Speech-Driven Talking Video Generation with Personalized Pose
Fan et al. ConchShell: A generative adversarial networks that turns pictures into piano music
Tan et al. Style2Talker: High-Resolution Talking Head Generation with Emotion Style and Art Style
Yang et al. A multimodal approach of generating 3D human-like talking agent

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant