CN105551071A - 一种文本语音驱动的人脸动画生成方法及系统 - Google Patents

一种文本语音驱动的人脸动画生成方法及系统 Download PDF

Info

Publication number
CN105551071A
CN105551071A CN201510876078.4A CN201510876078A CN105551071A CN 105551071 A CN105551071 A CN 105551071A CN 201510876078 A CN201510876078 A CN 201510876078A CN 105551071 A CN105551071 A CN 105551071A
Authority
CN
China
Prior art keywords
human face
face characteristic
parameter
characteristic point
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510876078.4A
Other languages
English (en)
Other versions
CN105551071B (zh
Inventor
夏时洪
杨理
袁铭择
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201510876078.4A priority Critical patent/CN105551071B/zh
Publication of CN105551071A publication Critical patent/CN105551071A/zh
Application granted granted Critical
Publication of CN105551071B publication Critical patent/CN105551071B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/167Detection; Localisation; Normalisation using comparisons between temporally consecutive images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Abstract

本发明提出一种文本语音驱动的人脸动画生成方法及系统,该方法包括步骤1,采集文本语音信息,所述文本语音信息包括语音信息与人脸图像信息,对所述文本语音信息进行预处理操作,获取所述语音信息中每个音素的时间信息,及获取所述人脸图像信息中人脸特征参数;步骤2,设置控制函数参数初始值,并计算拟合曲线,及所述拟合曲线与真实曲线之间的拟合误差,计算Jacobian矩阵,计算所述时间信息、所述人脸特征参数的变化值,根据所述变化值更新所述时间信息、所述人脸特征参数,重复步骤2,直到所述拟合误差达到稳定状态;步骤3,获取新输入的语音信息,结合所述控制参数函数,生成2D人脸特征点向量,将所述2D人脸特征点向量重定向到三维人头模型上。

Description

一种文本语音驱动的人脸动画生成方法及系统
技术领域
本发明涉及人脸动画领域,尤其涉及一种文本语音驱动的人脸动画生成方法及系统。
背景技术
可视语音合成技术,旨在为输入语音生成同步的唇形动画和表情动画,从而使应用具有更友好的交互体验,具有重要的应用前景和应用价值,互联网尤其是移动互联网的发展和普及,为可视语音合成提供了更为广阔的应用空间,在面向互联网和移动互联网的交互式社交应用开发中,可视语音合成具有重要的应用价值:可用于开发游戏中的虚拟说话角色,使得角色的唇形和表情更加真实自然;可用于开发在线虚拟聊天室,使用户能够通过虚拟化身进行网络社交;还可用于开发虚拟解说员,用于提升导航系统和电子书阅读器等应用的交互体验,但是,以上这些交互性和面向互联网的特性,也为可视语音合成提出了新的挑战,一个重要的性能方面的考量是可视语音合成的时效性,为了使得系统具有较好的使用体验,用户等待动画合成结果输出的时间应控制在可接受的范围之内,另一个值得关注的点是可视语音合成的真实度,人眼对可视语音的感知十分灵敏,任何微小的偏差都可能会给用户带来不自然的感觉,因此,在进行可视语音合成时,需要考虑这两者之间的平衡。
基于负指数形式的控制函数(DominanceFunction)插值的可视语音合成方法是基于规则合成方法中的经典方法,但是该训练方法采用的无约束优化策略存在某些参数会被优化到与其物理含义冲突的区间以及某些音素会被过度优化的情况,在实际观察中发现,每个音素持续时间中点处对应的唇形并不完全相同,甚至像双唇塞音([p],[b],[m])这样发音时需要闭合双唇且受周围音影响较小的音,其音素持续时间中点处的唇形也并非总是闭合的,如图4所示(其中,“均值”图显示的全部实例的平均形状,其它图的为一些具体实例的唇形。可以看到,平均形状的唇形总体是闭合的,说明大部分实例的持续时间中点处的唇形是闭合的(如形状6所示),这与音素[b]的唇形特性是一致的,但是也存在部分实例的唇形完全没有闭合甚至张开十分明显,如形状16/24/69所示)。
发明专利“一种语音和文本联合驱动的卡通人脸动画生成方法”包括建立语音视位映射库、文本分析、语音切分及语音合并、视位参数拼接步骤;本发明的优点在于:能够自定义音节-视位映射,从而实现各种具有夸张表情效果的唇型和脸形,最终合成卡通人脸动画;不需要大规模数据库进行训练;能够在文本的指导下,进行语音切分,提取音节时长信息,从而合成具有唇型和表情同步的人脸动画。但是该发明在视位拼接平滑的过程中采用三阶埃尔米特函数进行处理的,而本发明的方法中控制函数采用自动训练的方法,采用AAM方法跟踪训练数据的特征点,从而计算出平滑函数的参数,从而生成出较高真实度和实时性的人脸动画。
发明内容
针对现有技术的不足,本发明提出一种文本语音驱动的人脸动画生成方法及系统。
本发明提出一种文本语音驱动的人脸动画生成方法,包括:
步骤1,采集文本语音信息,所述文本语音信息包括语音信息与人脸图像信息,对所述文本语音信息进行预处理操作,获取所述语音信息中每个音素的时间信息,及获取所述人脸图像信息中人脸特征参数;
步骤2,根据所述时间信息与所述人脸特征参数,进行参数自动训练操作,获取控制函数参数,其中根据所述时间信息与所述人脸特征参数,设置控制函数参数初始值,并计算拟合曲线,及所述拟合曲线与真实曲线之间的拟合误差,根据所述时间信息、所述人脸特征参数、所述控制函数参数初始值,计算Jacobian矩阵,并根据梯度下降法,计算所述时间信息、所述人脸特征参数的变化值,根据所述变化值更新所述时间信息、所述人脸特征参数,重复步骤2,直到所述拟合误差达到稳定状态;
步骤3,获取新输入的语音信息,结合所述控制参数函数,计算拟合曲线,并生成2D人脸特征点向量,将所述2D人脸特征点向量重定向到三维人头模型上,以完成人脸动画生成。
所述的文本语音驱动的人脸动画生成方法,所述步骤1中预处理操作包括对所述语音信息进行音素标注,标出所述语音信息中每个句子的每个音素的时间信息;
获取所述人脸图像信息中人脸特征点的位置,并以正脸图像的人脸特征点的位置为模板,对每帧的人脸特征点进行对齐,并对人脸特征点的位置坐标组成的向量进行降维。
所述的文本语音驱动的人脸动画生成方法,所述步骤2中计算拟合曲线的公式为
z ( t ) = Σ i = 1 N T i D i ( t ) Σ i = 1 N D i ( t )
其中z(t)为拟合曲线,T为所述语音信息中音素的目标值T,N为所述语音信息中音素的个数,Di(t)为控制函数参数,t为时间,i为所述语音信息中的音素。
所述的文本语音驱动的人脸动画生成方法,所述步骤2中计算拟合误差的公式为
e(x)=(z-y)T(z-y)
x = arg min x e ( x )
其中x为待优化的所述语音信息与所述人脸图像信息,所述拟合曲线,y为所述真实曲线,e(x)为拟合误差。
所述的文本语音驱动的人脸动画生成方法,所述步骤3包括根据包含中性表情的2D人脸特征点向量与中性稀疏表情基,训练RBF映射,根据所述RBF映射,获取用户稀疏表情基;对于新输入的2D人脸特征点向量,获取稀疏表情基权值,并通过计算获取的权值加权对应稠密表情基生成人脸动画。
本发明还提出一种文本语音驱动的人脸动画生成系统,包括:
预处理模块,用于采集文本语音信息,所述文本语音信息包括语音信息与人脸图像信息,对所述文本语音信息进行预处理操作,获取所述语音信息中每个音素的时间信息,及获取所述人脸图像信息中人脸特征参数;
计算拟合误差模块,用于根据所述时间信息与所述人脸特征参数,进行参数自动训练操作,获取控制函数参数,其中根据所述时间信息与所述人脸特征参数,设置控制函数参数初始值,并计算拟合曲线,及所述拟合曲线与真实曲线之间的拟合误差,根据所述时间信息、所述人脸特征参数、所述控制函数参数初始值,计算Jacobian矩阵,并根据梯度下降法,计算所述时间信息、所述人脸特征参数的变化值,根据所述变化值更新所述时间信息、所述人脸特征参数,重复步骤2,直到所述拟合误差达到稳定状态;
生成人脸动画模块,用于获取新输入的语音信息,结合所述控制参数函数,计算拟合曲线,并生成2D人脸特征点向量,将所述2D人脸特征点向量重定向到三维人头模型上,以完成人脸动画生成。
所述的文本语音驱动的人脸动画生成系统,所述预处理模块中预处理操作包括对所述语音信息进行音素标注,标出所述语音信息中每个句子的每个音素的时间信息;
获取所述人脸图像信息中人脸特征点的位置,并以正脸图像的人脸特征点的位置为模板,对每帧的人脸特征点进行对齐,并对人脸特征点的位置坐标组成的向量进行降维。
所述的文本语音驱动的人脸动画生成系统,所述计算拟合误差模块中计算拟合曲线的公式为
z ( t ) = Σ i = 1 N T i D i ( t ) Σ i = 1 N D i ( t )
其中z(t)为拟合曲线,T为所述语音信息中音素的目标值T,N为所述语音信息中音素的个数,Di(t)为控制函数参数,t为时间,i为所述语音信息中的音素。
所述的文本语音驱动的人脸动画生成系统,所述计算拟合误差模块中计算拟合误差的公式为
e(x)=(z-y)T(z-y)
x = arg min x e ( x )
其中x为待优化的所述语音信息与所述人脸图像信息,所述拟合曲线,y为所述真实曲线,e(x)为拟合误差。
所述的文本语音驱动的人脸动画生成系统,所述生成人脸动画模块包括根据包含中性表情的2D人脸特征点向量与中性稀疏表情基,训练RBF映射,根据所述RBF映射,获取用户稀疏表情基;对于新输入的2D人脸特征点向量,获取稀疏表情基权值,并通过计算获取的权值加权对应稠密表情基生成人脸动画。
由以上发明可知,本发明的优点在于:
如图6所述为本发明系统运行效果图,本发明为输入语音生成同步的唇形动画和表情动画,具有较高的可视语音合成的真实度和时效性,从而使应用具有更友好的交互体验。
附图说明
图1示出了基于规则的合成示意;
图2示出了各参数对控制函数曲线形状的影响;
图3示出了控制函数插值示意;
图4示出了音素[b]的中心时刻的唇形示例;
图5特征点的位置及标号;
图6示出了系统运行效果图。
具体实施方式
以下为本发明整体步骤,如下所示:
本发明一种文本语音驱动的人脸动画生成方法,包括:
步骤1,采集文本语音信息,所述文本语音信息包括语音信息与人脸图像信息,对所述文本语音信息进行预处理操作,获取所述语音信息中每个音素的时间信息,及获取所述人脸图像信息中人脸特征参数;
步骤2,根据所述时间信息与所述人脸特征参数,进行参数自动训练操作,获取控制函数参数,其中根据所述时间信息与所述人脸特征参数,设置控制函数参数初始值,并计算拟合曲线,及所述拟合曲线与真实曲线之间的拟合误差,根据所述时间信息、所述人脸特征参数、所述控制函数参数初始值,计算Jacobian矩阵,并根据梯度下降法,计算所述时间信息、所述人脸特征参数的变化值,根据所述变化值更新所述时间信息、所述人脸特征参数,重复步骤2,直到所述拟合误差达到稳定状态;
步骤3,获取新输入的语音信息,结合所述控制参数函数,计算拟合曲线,并生成2D人脸特征点向量,将所述2D人脸特征点向量重定向到三维人头模型上,以完成人脸动画生成。
所述步骤1中预处理操作包括对所述语音信息进行音素标注,标出所述语音信息中每个句子的每个音素的时间信息;
获取所述人脸图像信息中人脸特征点的位置,并以正脸图像的人脸特征点的位置为模板,对每帧的人脸特征点进行对齐,并对人脸特征点的位置坐标组成的向量进行降维。
所述步骤2中计算拟合曲线的公式为
z ( t ) = Σ i = 1 N T i D i ( t ) Σ i = 1 N D i ( t )
其中z(t)为拟合曲线,T为所述语音信息中音素的目标值T,N为所述语音信息中音素的个数,Di(t)为控制函数参数,t为时间,i为所述语音信息中的音素。
所述步骤2中计算拟合误差的公式为
e(x)=(z-y)T(z-y)
x = arg min x e ( x )
其中x为待优化的所述语音信息与所述人脸图像信息,所述拟合曲线,y为所述真实曲线,e(x)为拟合误差。
所述步骤3包括根据包含中性表情的2D人脸特征点向量与中性稀疏表情基,训练RBF映射,根据所述RBF映射,获取用户稀疏表情基;对于新输入的2D人脸特征点向量,获取稀疏表情基权值,并通过计算获取的权值加权对应稠密表情基生成人脸动画。
本发明还提出一种文本语音驱动的人脸动画生成系统,包括:
预处理模块,用于采集文本语音信息,所述文本语音信息包括语音信息与人脸图像信息,对所述文本语音信息进行预处理操作,获取所述语音信息中每个音素的时间信息,及获取所述人脸图像信息中人脸特征参数;
计算拟合误差模块,用于根据所述时间信息与所述人脸特征参数,进行参数自动训练操作,获取控制函数参数,其中根据所述时间信息与所述人脸特征参数,设置控制函数参数初始值,并计算拟合曲线,及所述拟合曲线与真实曲线之间的拟合误差,根据所述时间信息、所述人脸特征参数、所述控制函数参数初始值,计算Jacobian矩阵,并根据梯度下降法,计算所述时间信息、所述人脸特征参数的变化值,根据所述变化值更新所述时间信息、所述人脸特征参数,重复步骤2,直到所述拟合误差达到稳定状态;
生成人脸动画模块,用于获取新输入的语音信息,结合所述控制参数函数,计算拟合曲线,并生成2D人脸特征点向量,将所述2D人脸特征点向量重定向到三维人头模型上,以完成人脸动画生成。
所述预处理模块中预处理操作包括对所述语音信息进行音素标注,标出所述语音信息中每个句子的每个音素的时间信息;
获取所述人脸图像信息中人脸特征点的位置,并以正脸图像的人脸特征点的位置为模板,对每帧的人脸特征点进行对齐,并对人脸特征点的位置坐标组成的向量进行降维。
所述计算拟合误差模块中计算拟合曲线的公式为
z ( t ) = Σ i = N N T i D i ( t ) Σ i = N N D i ( t )
其中z(t)为拟合曲线,T为所述语音信息中音素的目标值T,N为所述语音信息中音素的个数,Di(t)为控制函数参数,t为时间,i为所述语音信息中的音素。
所述计算拟合误差模块中计算拟合误差的公式为
e(x)=(z-y)T(z-y)
x = arg min x e ( x )
其中x为待优化的所述语音信息与所述人脸图像信息,所述拟合曲线,y为所述真实曲线,e(x)为拟合误差。
所述生成人脸动画模块包括根据包含中性表情的2D人脸特征点向量与中性稀疏表情基,训练RBF映射,根据所述RBF映射,获取用户稀疏表情基;对于新输入的2D人脸特征点向量,获取稀疏表情基权值,并通过计算获取的权值加权对应稠密表情基生成人脸动画。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对根据本发明做进一步详细说明,应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
控制函数参数训练,通过最小化合成曲线z与原始曲线y之间的误差,确定最终的控制函数参数。具体过程如下:
步骤10对采集的训练数据进行预处理,包括对语音的处理和对图像的处理,具体如下:
步骤101,语音标注:对语音信息(音频)进行音素标注(共有55类不同音素),标出音频中每个句子的每个音素的时间信息;
步骤102,人脸特征参数提出:首先,使用AAM特征点跟踪方法获取每帧图像的43个预定义的人脸特征点位置(如图5所示);然后,使用手工挑选的正脸图像的人脸特征点位置为模板,对每帧的人脸特征点进行对齐,以除去采集过程中演员的头部运动;最后,对特征点坐标组成的86维向量进行PCA降维,获得7维的人脸特征参数向量。
步骤11参数自动训练,使用训练数据中的前200句子作为训练数据,后45个句子作为测试数据,进行参数训练。本发明认为人脸参数每维是彼此独立的,因此对每一维分别训练一组控制函数参数,具体训练过程包如下:
步骤111,首先,根据实际数据,设置参数初始值,即根据训练数据中音素的实际平均持续时间、平均可视语音参数值设置其控制函数参数初值,使得控制函数曲线形状分布与音素的实际参数情况一致;
步骤112,然后,由参数当前值,根据下列公式求解拟合曲线、计算拟合曲线和训练数据的真实曲线的拟合误差,其中基于负指数形式的控制函数(DominanceFunction)插值的可视语音合成方法是基于规则合成方法中的经典方法,控制函数描述了片段对发音器官某个部位的作用强度的变化过程,以作用强度最大的时间点为中心,向两侧逐渐下降,其数学形式如下:
其中,τi为片段i的时间中心,即片段作用强度最大的时刻;αi为控制函数的幅值,用于控制片段受相邻片段的影响程度,该值越小表示片段越容易受周围片段的影响;θi和φi控制曲线前后部分的下降,分别用于控制片段对其前后片段的影响,即逆化协同发音和重复式协同发音效果;ci控制曲线前后部分下降的速率,该值越大曲线顶部越平缓,其中e为数学常数,t为音素出现时间,Di(t)为音素控制函数参数。
给定每个片段(语音信息中音素)的目标值T和控制函数D,通过对目标值T进行插值生成连续曲线,曲线z在t时刻的值由如下公式给出:
z ( t ) = Σ i = 1 N T i D i ( t ) Σ i = 1 N D i ( t ) - - - ( 2 )
其中,N为片段的数目,即句子中包含的音素个数。图3展示了包含三个片段的控制函数插值示意。
该方法通过插值生成连续动画的特性使得算法本身具有较好的实时性,其难点在于控制函数参数的设置:手动设置控制函数参数往往十分繁琐,且工作量巨大;传统的自动训练控制函数参数的方法,一般对训练数据的音素格式有特定要求,因此灵活性较差,而JonasBeskow介绍的自动训练方法,直接使用自然句子作为训练数据,因而更具实用性,通过最小化合成曲线z与原始曲线y之间的误差,确定最终的控制函数参数,因此,参数训练问题转化为最小二乘形式的优化问题,其形式如下:
e(x)=(z-y)T(z-y)(3)
x = arg min x e ( x ) - - - ( 4 )
其中,x表示全部待优化参数,即全部55类音素的T,α,θ,φ,c和r组成的330维的参数向量,这里,为了使得音素的作用中心可变,本发明引入变量r,使得τi=center+ri·duration,ri∈[-0.5,0.5],其中,duration为音素的持续时间,center为持续时间中点,注意:每个音素的不同实例,其持续时间并不一定相同,r表示音素作用中心偏离持续时间中点的程度。
步骤113,再次,根据式(5)-(11)求解Jacobian矩阵,然后根据梯度下降法,求解处参数值的变化,根据变化值更新参数;重复步骤112和步骤113,直到使用测试句子的拟合误差不再降低。测试句子的拟合误差求解方法与步骤112相同,其中通过以下方法求解jacobian矩阵:
对于此类高维优化问题,给出显示的Jacobian矩阵能使得优化具有更好的收敛速度,给出一阶偏导公式如下:
∂ z ( t ) ∂ T i = D i ( t ) Σ j = 1 N D j ( t ) - - - ( 5 )
∂ z ( t ) ∂ ψ i = ∂ D i ( t ) ∂ ψ i · T i Σ j = 1 N D j ( t ) - Σ j = 1 N T j D j ( t ) ( Σ j = 1 N D j ( t ) ) 2 - - - ( 6 )
其中,(6)式中ψi为中间变量,可用αiii,ci,ri替换,其中N为所述语音信息中音素的个数,j为所述语音信息中的音素,表示对函数求偏导数。
&part; D i ( t ) &part; &theta; i = D i ( t ) &CenterDot; - ( &tau; i - t ) c i t < &tau; i 0 t &GreaterEqual; &tau; i - - - ( 8 )
由此可知,本发明使用带约束的优化算法优化求解控制函数参数值,表1展示了每类参数的上下界的具体值。
表1
步骤12合成阶段:为输入句子生成唇形动画。具体步骤如下:
步骤121,对于给定的输入语音信息(所述语音信息包括音素序列及音素持续时间信息),使用训练好的控制函数参数,根据式(2)求解拟合曲线。
步骤122,使用PCA参数矩阵将求得的7维可视语音参数恢复成86维的2D人脸特征点向量,从而得到包含43个特征点的帧动画序列。
步骤123,使用表情基动画方法,将2D人脸特征点向量重定向到三维人头模型上。首先,预定义三维模型的中性表情模型和24个稠密表情基,此步骤通常需要美工参与;然后,标注43个2D特征点对应的三维模型上的位置,并以此对应关系生成每个稠密表情基的稀疏表情基。2D人脸特征点运动重定向到三维人头模型具体步骤如下:准备阶段,使用包含中性表情的2D人脸特征点与中性稀疏表情基,训练RBF映射,通过此RBF映射,求出对应的24个用户稀疏表情基;然后,对于新输入的2D人脸特征点:首先使用表情基优化方法,求解稀疏表情的24个稀疏表情基权值,然后使用求得的权值加权对应稠密表情基生成动画。

Claims (10)

1.一种文本语音驱动的人脸动画生成方法,其特征在于,包括:
步骤1,采集文本语音信息,所述文本语音信息包括语音信息与人脸图像信息,对所述文本语音信息进行预处理操作,获取所述语音信息中每个音素的时间信息,及获取所述人脸图像信息中人脸特征参数;
步骤2,根据所述时间信息与所述人脸特征参数,进行参数自动训练操作,获取控制函数参数,其中根据所述时间信息与所述人脸特征参数,设置控制函数参数初始值,并计算拟合曲线,及所述拟合曲线与真实曲线之间的拟合误差,根据所述时间信息、所述人脸特征参数、所述控制函数参数初始值,计算Jacobian矩阵,并根据梯度下降法,计算所述时间信息、所述人脸特征参数的变化值,根据所述变化值更新所述时间信息、所述人脸特征参数,重复步骤2,直到所述拟合误差达到稳定状态;
步骤3,获取新输入的语音信息,结合所述控制参数函数,计算拟合曲线,并生成2D人脸特征点向量,将所述2D人脸特征点向量重定向到三维人头模型上,以完成人脸动画生成。
2.如权利要求1所述的文本语音驱动的人脸动画生成方法,其特征在于,所述步骤1中预处理操作包括对所述语音信息进行音素标注,标出所述语音信息中每个句子的每个音素的时间信息;
获取所述人脸图像信息中人脸特征点的位置,并以正脸图像的人脸特征点的位置为模板,对每帧的人脸特征点进行对齐,并对人脸特征点的位置坐标组成的向量进行降维。
3.如权利要求1所述的文本语音驱动的人脸动画生成方法,其特征在于,所述步骤2中计算拟合曲线的公式为
z ( t ) = &Sigma; i = 1 N T i D i ( t ) &Sigma; i = 1 N D i ( t )
其中z(t)为拟合曲线,T为所述语音信息中音素的目标值T,N为所述语音信息中音素的个数,Di(t)为控制函数参数,t为时间,i为所述语音信息中的音素。
4.如权利要求1所述的文本语音驱动的人脸动画生成方法,其特征在于,所述步骤2中计算拟合误差的公式为
e(x)=(z-y)T(z-y)
x = arg m i n x e ( x )
其中x为待优化的所述语音信息与所述人脸图像信息,所述拟合曲线,y为所述真实曲线,e(x)为拟合误差。
5.如权利要求1所述的文本语音驱动的人脸动画生成方法,其特征在于,所述步骤3包括根据包含中性表情的2D人脸特征点向量与中性稀疏表情基,训练RBF映射,根据所述RBF映射,获取用户稀疏表情基;对于新输入的2D人脸特征点向量,获取稀疏表情基权值,并通过计算获取的权值加权对应稠密表情基生成人脸动画。
6.一种文本语音驱动的人脸动画生成系统,其特征在于,包括:
预处理模块,用于采集文本语音信息,所述文本语音信息包括语音信息与人脸图像信息,对所述文本语音信息进行预处理操作,获取所述语音信息中每个音素的时间信息,及获取所述人脸图像信息中人脸特征参数;
计算拟合误差模块,用于根据所述时间信息与所述人脸特征参数,进行参数自动训练操作,获取控制函数参数,其中根据所述时间信息与所述人脸特征参数,设置控制函数参数初始值,并计算拟合曲线,及所述拟合曲线与真实曲线之间的拟合误差,根据所述时间信息、所述人脸特征参数、所述控制函数参数初始值,计算Jacobian矩阵,并根据梯度下降法,计算所述时间信息、所述人脸特征参数的变化值,根据所述变化值更新所述时间信息、所述人脸特征参数,重复步骤2,直到所述拟合误差达到稳定状态;
生成人脸动画模块,用于获取新输入的语音信息,结合所述控制参数函数,计算拟合曲线,并生成2D人脸特征点向量,将所述2D人脸特征点向量重定向到三维人头模型上,以完成人脸动画生成。
7.如权利要求6所述的文本语音驱动的人脸动画生成系统,其特征在于,所述预处理模块中预处理操作包括对所述语音信息进行音素标注,标出所述语音信息中每个句子的每个音素的时间信息;
获取所述人脸图像信息中人脸特征点的位置,并以正脸图像的人脸特征点的位置为模板,对每帧的人脸特征点进行对齐,并对人脸特征点的位置坐标组成的向量进行降维。
8.如权利要求6所述的文本语音驱动的人脸动画生成系统,其特征在于,所述计算拟合误差模块中计算拟合曲线的公式为
z ( t ) = &Sigma; i = 1 N T i D i ( t ) &Sigma; i = 1 N D i ( t )
其中z(t)为拟合曲线,T为所述语音信息中音素的目标值T,N为所述语音信息中音素的个数,Di(t)为控制函数参数,t为时间,i为所述语音信息中的音素。
9.如权利要求6所述的文本语音驱动的人脸动画生成系统,其特征在于,所述计算拟合误差模块中计算拟合误差的公式为
e(x)=(z-y)T(z-y)
x = arg m i n x e ( x )
其中x为待优化的所述语音信息与所述人脸图像信息,所述拟合曲线,y为所述真实曲线,e(x)为拟合误差。
10.如权利要求6所述的文本语音驱动的人脸动画生成系统,其特征在于,所述生成人脸动画模块包括根据包含中性表情的2D人脸特征点向量与中性稀疏表情基,训练RBF映射,根据所述RBF映射,获取用户稀疏表情基;对于新输入的2D人脸特征点向量,获取稀疏表情基权值,并通过计算获取的权值加权对应稠密表情基生成人脸动画。
CN201510876078.4A 2015-12-02 2015-12-02 一种文本语音驱动的人脸动画生成方法及系统 Active CN105551071B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510876078.4A CN105551071B (zh) 2015-12-02 2015-12-02 一种文本语音驱动的人脸动画生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510876078.4A CN105551071B (zh) 2015-12-02 2015-12-02 一种文本语音驱动的人脸动画生成方法及系统

Publications (2)

Publication Number Publication Date
CN105551071A true CN105551071A (zh) 2016-05-04
CN105551071B CN105551071B (zh) 2018-08-10

Family

ID=55830247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510876078.4A Active CN105551071B (zh) 2015-12-02 2015-12-02 一种文本语音驱动的人脸动画生成方法及系统

Country Status (1)

Country Link
CN (1) CN105551071B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106327555A (zh) * 2016-08-24 2017-01-11 网易(杭州)网络有限公司 一种获得唇形动画的方法及装置
CN107623622A (zh) * 2016-07-15 2018-01-23 掌赢信息科技(上海)有限公司 一种发送语音动画的方法及电子设备
CN107977928A (zh) * 2017-12-21 2018-05-01 广东欧珀移动通信有限公司 表情生成方法、装置、终端及存储介质
CN108648251A (zh) * 2018-05-15 2018-10-12 深圳奥比中光科技有限公司 3d表情制作方法及系统
CN109118562A (zh) * 2018-08-31 2019-01-01 百度在线网络技术(北京)有限公司 虚拟形象的讲解视频制作方法、装置以及终端
CN109377540A (zh) * 2018-09-30 2019-02-22 网易(杭州)网络有限公司 面部动画的合成方法、装置、存储介质、处理器及终端
CN110288680A (zh) * 2019-05-30 2019-09-27 盎锐(上海)信息科技有限公司 影像生成方法及移动终端
CN110413841A (zh) * 2019-06-13 2019-11-05 深圳追一科技有限公司 多态交互方法、装置、系统、电子设备及存储介质
CN110531860A (zh) * 2019-09-02 2019-12-03 腾讯科技(深圳)有限公司 一种基于人工智能的动画形象驱动方法和装置
CN110677598A (zh) * 2019-09-18 2020-01-10 北京市商汤科技开发有限公司 视频生成方法、装置、电子设备和计算机存储介质
CN110751708A (zh) * 2019-10-21 2020-02-04 北京中科深智科技有限公司 一种实时的语音驱动人脸动画的方法和系统
CN110956691A (zh) * 2019-11-21 2020-04-03 Oppo广东移动通信有限公司 一种三维人脸重建方法、装置、设备及存储介质
CN111161368A (zh) * 2019-12-13 2020-05-15 天津大学 通过输入语音实时合成人体发声器官运动图像的方法
CN112002301A (zh) * 2020-06-05 2020-11-27 四川纵横六合科技股份有限公司 一种基于文本的自动化视频生成方法
CN113449590A (zh) * 2021-05-14 2021-09-28 网易(杭州)网络有限公司 说话视频生成方法及装置
CN113744371A (zh) * 2020-05-29 2021-12-03 武汉Tcl集团工业研究院有限公司 一种生成人脸动画的方法、装置、终端及存储介质
CN115965724A (zh) * 2022-12-26 2023-04-14 华院计算技术(上海)股份有限公司 图像生成方法及装置、计算机可读存储介质、终端
CN117152308A (zh) * 2023-09-05 2023-12-01 南京八点八数字科技有限公司 一种虚拟人动作表情优化方法与系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452582A (zh) * 2008-12-18 2009-06-10 北京中星微电子有限公司 一种实现三维视频特效的方法和装置
CN102201122A (zh) * 2011-05-16 2011-09-28 大连大学 一种运动捕捉的数据降噪方法、系统及运动捕捉系统
CN103279970A (zh) * 2013-05-10 2013-09-04 中国科学技术大学 一种实时的语音驱动人脸动画的方法
US20150084950A1 (en) * 2013-09-23 2015-03-26 Lucasfilm Entertainment Company Ltd. Real-time performance capture with on-the-fly correctives

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452582A (zh) * 2008-12-18 2009-06-10 北京中星微电子有限公司 一种实现三维视频特效的方法和装置
CN102201122A (zh) * 2011-05-16 2011-09-28 大连大学 一种运动捕捉的数据降噪方法、系统及运动捕捉系统
CN103279970A (zh) * 2013-05-10 2013-09-04 中国科学技术大学 一种实时的语音驱动人脸动画的方法
US20150084950A1 (en) * 2013-09-23 2015-03-26 Lucasfilm Entertainment Company Ltd. Real-time performance capture with on-the-fly correctives

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107623622A (zh) * 2016-07-15 2018-01-23 掌赢信息科技(上海)有限公司 一种发送语音动画的方法及电子设备
CN106327555A (zh) * 2016-08-24 2017-01-11 网易(杭州)网络有限公司 一种获得唇形动画的方法及装置
CN107977928B (zh) * 2017-12-21 2022-04-19 Oppo广东移动通信有限公司 表情生成方法、装置、终端及存储介质
CN107977928A (zh) * 2017-12-21 2018-05-01 广东欧珀移动通信有限公司 表情生成方法、装置、终端及存储介质
CN108648251A (zh) * 2018-05-15 2018-10-12 深圳奥比中光科技有限公司 3d表情制作方法及系统
CN109118562A (zh) * 2018-08-31 2019-01-01 百度在线网络技术(北京)有限公司 虚拟形象的讲解视频制作方法、装置以及终端
CN109377540A (zh) * 2018-09-30 2019-02-22 网易(杭州)网络有限公司 面部动画的合成方法、装置、存储介质、处理器及终端
CN109377540B (zh) * 2018-09-30 2023-12-19 网易(杭州)网络有限公司 面部动画的合成方法、装置、存储介质、处理器及终端
CN110288680A (zh) * 2019-05-30 2019-09-27 盎锐(上海)信息科技有限公司 影像生成方法及移动终端
CN110413841A (zh) * 2019-06-13 2019-11-05 深圳追一科技有限公司 多态交互方法、装置、系统、电子设备及存储介质
CN110531860A (zh) * 2019-09-02 2019-12-03 腾讯科技(深圳)有限公司 一种基于人工智能的动画形象驱动方法和装置
CN110677598A (zh) * 2019-09-18 2020-01-10 北京市商汤科技开发有限公司 视频生成方法、装置、电子设备和计算机存储介质
CN110677598B (zh) * 2019-09-18 2022-04-12 北京市商汤科技开发有限公司 视频生成方法、装置、电子设备和计算机存储介质
CN110751708A (zh) * 2019-10-21 2020-02-04 北京中科深智科技有限公司 一种实时的语音驱动人脸动画的方法和系统
CN110751708B (zh) * 2019-10-21 2021-03-19 北京中科深智科技有限公司 一种实时的语音驱动人脸动画的方法和系统
CN110956691A (zh) * 2019-11-21 2020-04-03 Oppo广东移动通信有限公司 一种三维人脸重建方法、装置、设备及存储介质
CN111161368A (zh) * 2019-12-13 2020-05-15 天津大学 通过输入语音实时合成人体发声器官运动图像的方法
CN113744371B (zh) * 2020-05-29 2024-04-16 武汉Tcl集团工业研究院有限公司 一种生成人脸动画的方法、装置、终端及存储介质
CN113744371A (zh) * 2020-05-29 2021-12-03 武汉Tcl集团工业研究院有限公司 一种生成人脸动画的方法、装置、终端及存储介质
CN112002301A (zh) * 2020-06-05 2020-11-27 四川纵横六合科技股份有限公司 一种基于文本的自动化视频生成方法
CN113449590A (zh) * 2021-05-14 2021-09-28 网易(杭州)网络有限公司 说话视频生成方法及装置
CN115965724B (zh) * 2022-12-26 2023-08-08 华院计算技术(上海)股份有限公司 图像生成方法及装置、计算机可读存储介质、终端
CN115965724A (zh) * 2022-12-26 2023-04-14 华院计算技术(上海)股份有限公司 图像生成方法及装置、计算机可读存储介质、终端
CN117152308A (zh) * 2023-09-05 2023-12-01 南京八点八数字科技有限公司 一种虚拟人动作表情优化方法与系统
CN117152308B (zh) * 2023-09-05 2024-03-22 江苏八点八智能科技有限公司 一种虚拟人动作表情优化方法与系统

Also Published As

Publication number Publication date
CN105551071B (zh) 2018-08-10

Similar Documents

Publication Publication Date Title
CN105551071A (zh) 一种文本语音驱动的人脸动画生成方法及系统
CN103531196B (zh) 一种波形拼接语音合成的选音方法
US8306824B2 (en) Method and apparatus for creating face character based on voice
CN104361620B (zh) 一种基于综合加权算法的口型动画合成方法
CN108492817A (zh) 一种基于虚拟偶像的歌曲数据处理方法及演唱交互系统
CN103279970B (zh) 一种实时的语音驱动人脸动画的方法
CN107247750A (zh) 人工智能交互方法及系统
EP3866117A1 (en) Voice signal-driven facial animation generation method
CN105023570B (zh) 一种实现声音转换的方法及系统
CN110364140A (zh) 歌声合成模型的训练方法、装置、计算机设备以及存储介质
CN107452379A (zh) 一种方言语言的识别技术及虚拟现实教学方法和系统
CN111243065B (zh) 一种语音信号驱动的脸部动画生成方法
CN111383642B (zh) 基于神经网络的语音应答方法、存储介质以终端设备
CN103258340A (zh) 富有情感表达能力的三维可视化中文普通话发音词典的发音方法
CN102820030A (zh) 发音器官可视语音合成系统
CN115953521B (zh) 远程数字人渲染方法、装置及系统
WO2023115925A1 (zh) 虚拟数字人的驱动方法及位姿获取模型的训练方法
CN103680491B (zh) 语速相依韵律讯息产生装置及语速相依的阶层式韵律模块
KR20220113304A (ko) 음성 합성 및 영상 합성 기술을 통해 고인을 모사하는 가상 인물과 커뮤니케이션을 수행하는 방법 및 시스템
WO2019218773A1 (zh) 语音的合成方法及装置、存储介质、电子装置
CN114170648A (zh) 视频生成方法、装置、电子设备及存储介质
CN106297766B (zh) 语音合成方法及系统
Chen et al. An investigation of implementation and performance analysis of DNN based speech synthesis system
CN105023574A (zh) 一种实现合成语音增强的方法及系统
CN115083371A (zh) 驱动虚拟数字形象唱歌的方法及其装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant