CN113628309A - 一种真人语音口型动画生成方法及系统、电子设备、存储介质 - Google Patents

一种真人语音口型动画生成方法及系统、电子设备、存储介质 Download PDF

Info

Publication number
CN113628309A
CN113628309A CN202110942998.7A CN202110942998A CN113628309A CN 113628309 A CN113628309 A CN 113628309A CN 202110942998 A CN202110942998 A CN 202110942998A CN 113628309 A CN113628309 A CN 113628309A
Authority
CN
China
Prior art keywords
mouth shape
characteristic point
point sequence
shape characteristic
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110942998.7A
Other languages
English (en)
Other versions
CN113628309B (zh
Inventor
沈江洋
李冬平
米楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Faceunity Technology Co ltd
Original Assignee
Faceunity Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Faceunity Technology Co ltd filed Critical Faceunity Technology Co ltd
Priority to CN202110942998.7A priority Critical patent/CN113628309B/zh
Publication of CN113628309A publication Critical patent/CN113628309A/zh
Application granted granted Critical
Publication of CN113628309B publication Critical patent/CN113628309B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种真人语音口型动画生成方法及系统、电子设备、存储介质,属于语音图像技术领域,包括对演讲视频做人脸跟踪和配准,提取人脸三维姿态信息和表情系数;根据表情系数和演讲视频的音素文本,提取到两组口型特征点序列;根据两组口型特征点序列,获得演讲视频的音素文本的口型特征点序列迁移到与表情系数的口型特征点序列中口型集合空间一致的迁移函数;根据迁移函数以及任意音频,获得任意音频迁移后的口型特征点序列;根据迁移后的口型特征点序列从演讲视频中挑选出与之口型集合空间一致的人脸图像,并生成真人语音口型动画序列。本发明能够只用2分钟演讲视频,生成高质量的真人口型动画视频。

Description

一种真人语音口型动画生成方法及系统、电子设备、存储介质
技术领域
本发明属于语音图像技术领域,特别涉及一种真人语音口型动画生成方法及系统、电子设备、存储介质。
背景技术
目前大多数方法都依赖深度神经网络,对数据量的需求很大。为了生成针对单人的高质量口型动画,往往要求针对单人采集大量的数据,如文章Synthesizing obama:learning lip sync from audio,使用了Obama长达17小时的高质量演讲视频训练神经网络模型,而文章A deep learning approach for generalized speech animation,则使用了8小时的精录制视频训练神经网络模型。这类方法的优点是生成结果的质量较高,但缺点是对每个单人,都需要重新采集大量视频,其扩展性较差。
发明内容
针对上述的问题,本发明提供一种真人语音口型动画生成方法及系统、电子设备、存储介质,其方法包括:
对演讲视频做人脸跟踪和配准,提取人脸表情系数;
根据所述表情系数和所述演讲视频的音素文本,提取到两组口型特征点序列;
根据所述两组口型特征点序列,获得所述演讲视频的音素文本的口型特征点序列迁移到与所述表情系数的口型特征点序列中口型集合空间一致的迁移函数;
根据所述迁移函数以及任意音频,获得所述任意音频迁移后的口型特征点序列;
根据所述迁移后的口型特征点序列从所述演讲视频中挑选出与之口型集合空间一致的人脸图像,并生成真人语音口型动画序列。
优选的是,对演讲视频做人脸跟踪和配准,提取人脸三维姿态信息和表情系数包括:
对演讲视频做人脸跟踪和配准,每帧人脸都拟合一个人脸三维模型;
根据所述人脸三维模型,提取人脸三维姿态信息和表情系数。
优选的是,根据所述表情系数和所述演讲视频的音素文本,提取到两组口型特征点序列包括:
所述表情系数和所述演讲视频的音素文本分别输入到基于音视素和Blendshape插值的人脸动画驱动系统中,分别提取到所述表情系数的口型特征点序列和所述演讲视频的音素文本的口型特征点序列。
优选的是,根据所述两组口型特征点序列,获得所述演讲视频的音素文本的口型特征点序列迁移到与所述表情系数的口型特征点序列中口型集合空间一致的迁移函数包括:
所述演讲视频的音素文本的口型特征点序列记为:
Figure BDA0003215837690000021
所述表情系数的口型特征点序列记为:
Figure BDA0003215837690000022
其中,
Figure BDA0003215837690000023
为所述表情系数的口型特征点序列中某一帧口型特征点;
Figure BDA0003215837690000024
为所述演讲视频的音素文本的口型特征点序列中某一帧口型特征点;R18×3为口型特征点构成的矩阵;N(tgt)、N(src)分别为所述表情系数的口型特征点序列和所述演讲视频的音素文本的口型特征点序列的口型数目;
根据直方图匹配原理和离散近似估计法,获得每一帧口型特征点的变换函数;
所有的所述口型特征点的变换函数记为迁移函数。
优选的是,根据所述迁移函数以及任意音频,获得所述任意音频迁移后的口型特征点序列包括:
T(M)={T(Mk)|1≤k≤N;Mk∈R18×3;T(Mk)∈R18×3};
其中,T为迁移函数;M为任意音频的口型特征点序列;T(M)为迁移后的口型特征点序列;k为自然数;Mk、T(Mk)分别为M、T(M)中的第k帧口型特征点。
优选的是,根据所述迁移后的口型特征点序列从所述演讲视频中挑选出与之口型集合空间一致的人脸图像,并生成真人语音口型动画序列包括:
对于所述迁移后的口型特征点序列中每一帧的口型特征点计算与所述表情系数的口型特征点序列的欧式距离;
筛选出欧式距离小于阈值的所述表情系数的口型特征点序列,并执行维特比算法,求得最短路径的口型特征点序列;
将所述最短路径的口型特征点序列对应的人脸图像进行排列,得到真人语音口型动画序列。
优选的是,本发明实施例提供的一种真人语音口型动画生成的系统,包括:
第一提取模块,用于对演讲视频做人脸跟踪和配准,提取人脸表情系数;
第二提取模块,用于根据所述表情系数和所述演讲视频的音素文本,提取到两组口型特征点序列;
函数构建模块,用于根据所述两组口型特征点序列,获得所述演讲视频的音素文本的口型特征点序列迁移到与所述表情系数的口型特征点序列中口型集合空间一致的迁移函数;
计算模块,用于根据所述迁移函数以及任意音频,获得所述任意音频迁移后的口型特征点序列;
生成模块,用于根据所述迁移后的口型特征点序列从所述演讲视频中挑选出与之口型集合空间一致的人脸图像,并生成真人语音口型动画序列。
本发明实施例提供的一种电子设备,包括至少一个处理单元以及至少一个存储单元,其中,所述存储单元存储有程序,当所述程序被所述处理单元执行时,使得所述处理单元执行上述所述的方法。
本发明实施例提供的一种计算机可读存储介质,其存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行上述所述的方法。
与现有技术相比,本发明的有益效果为:
本发明能够只用2分钟演讲视频,生成高质量的真人口型动画视频。
附图说明
图1是本发明实施例提供的真人语音口型动画生成方法流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
参照图1,一种真人语音口型动画生成方法及系统、电子设备、存储介质,其方法包括:
对演讲视频做人脸跟踪和配准,提取人脸表情系数;
具体地,对演讲视频做人脸跟踪和配准,每帧人脸都拟合一个人脸三维模型;
根据人脸三维模型,提取人脸三维姿态信息和表情系数。
在本实施例中的演讲视频为简短的演讲视频,2分钟左右,且在人脸三维模型处于正视图中,提取人脸三维姿态信息和表情系数;生成的真人口型动画也是正视图。
根据表情系数和演讲视频的音素文本,提取到两组口型特征点序列;
具体地,表情系数和演讲视频的音素文本分别输入到基于音视素和Blendshape插值的人脸动画驱动系统中,分别提取到表情系数的口型特征点序列和演讲视频的音素文本的口型特征点序列。
根据两组口型特征点序列,获得演讲视频的音素文本的口型特征点序列迁移到与表情系数的口型特征点序列中口型集合空间一致的迁移函数;
具体地,演讲视频的音素文本的口型特征点序列记为:
Figure BDA0003215837690000051
表情系数的口型特征点序列记为:
Figure BDA0003215837690000052
其中,
Figure BDA0003215837690000053
为表情系数的口型特征点序列中某一帧口型特征点;
Figure BDA0003215837690000054
为演讲视频的音素文本的口型特征点序列中某一帧口型特征点;R18×3为口型特征点构成的矩阵;N(tgt)、N(src)分别为表情系数的口型特征点序列和演讲视频的音素文本的口型特征点序列的口型数目;
根据直方图匹配原理和离散近似估计法,获得每一帧口型特征点的变换函数;
所有的口型特征点的变换函数记为迁移函数。
在本实施例中,一个口型由18个三维特征点构成,因此共由54个变量构成。我们对54个变量中的每一个变量,都构建一个单元非线性映射函数,从而完成口型特征点的迁移映射。为了保证口型运动的拓扑一致性,单元映射函数必须满足单调性和连续性。同时,该函数能近似的将口型从M(src)概率空间变换到M(tgt)概率空间。我们采用直方图匹配来构建这样一个单元映射函数,详细介绍如下。假设x~X是一个定义在[a,b]上的单元连续概率分布,其概率密度函数为fX(x)。y~Y是一个定义在[c,d]上的单元连续概率分布,其概率密度函数为fY(y)。直方图匹配的目标是,构建的单元单调不减的变换函数t,能将单元变量x从X概率分布变换到Y概率分布,即满足
t(x)~Y
其中,~表示t(x)服从Y概率分布。
首先,根据直方图匹配原理,利用变上限积分函数,构建下面两个单元变换函数t1和t2
Figure BDA0003215837690000061
Figure BDA0003215837690000062
易证明,两个变换函数得到的结果都服从[0,1]之间的均匀分布
t1(x),t2(y)~U(0,1)
其中,~表示t1(x),t2(y)服从U(0,1)概率分布,U(0,1)表示[0,1]之间的均匀分布。
再令t1(X)=t2(Y),可以得到一个从X到Y的变换函数
Figure BDA0003215837690000063
Figure BDA0003215837690000064
其中,
Figure BDA0003215837690000065
是所求的X到Y的变换函数,
Figure BDA0003215837690000066
表示函数t2的反函数。
而且,变换函数
Figure BDA0003215837690000067
满足单调连续性,且易证明
Figure BDA0003215837690000068
其中,~表示
Figure BDA0003215837690000069
服从Y概率分布。
至此,对于口型特征点M(tgt)、M(src)中的54个变量,我们可以分别利用离散近似估计,计算得到54个变换函数。为简化表示,简记构建好的54个变换函数为T,从而完成口型特征点的迁移。
对于来自任意的音频输入得到的口型特征点序列M,都能通过口型迁移,获得与M(tgt)口型集合空间较为一致的口型特征点序列T(M),如:
T(M)={T(Mk)|1≤k≤N;Mk∈R18×3;T(Mk)∈R18×3};
其中,T为迁移函数;M为任意音频的口型特征点序列;T(M)为迁移后的口型特征点序列;k为自然数;Mk、T(Mk)分别为M、T(M)中的第k帧口型特征点。
根据迁移函数以及任意音频,获得任意音频迁移后的口型特征点序列;
根据迁移后的口型特征点序列从演讲视频中挑选出与之口型集合空间一致的人脸图像,并生成真人语音口型动画序列。
具体地,对于迁移后的口型特征点序列中每一帧的口型特征点计算与表情系数的口型特征点序列的欧式距离;
筛选出欧式距离小于阈值的表情系数的口型特征点序列,并执行维特比算法,求得最短路径的口型特征点序列;
将最短路径的口型特征点序列对应的人脸图像进行排列,得到真人语音口型动画序列。
进一步地,假设最短路径的口型特征点序列为J,记为:
J={jk|1≤k≤N,1≤jk≤N(tgt)};
其中,jk为其中的第k帧待求解口型序号;N为J的数目,与输入音频长度相匹配;N(tgt)表示原始视频帧数。
联合优化的目标函数如下:
Figure BDA0003215837690000071
其中,εshape表示口型的形状一致性损失项,εtemporal表示口型的时序一致性损失项,ε是一个加权常数项;εshape、εtemporal的公式会在下面详细展开。
首先,是形状一致性损失项εshape,计算式如下
Figure BDA0003215837690000072
其中,εshape表示口型的形状一致性损失项,e表示自然常数,ρ是一个固定加权常数,||...||表示欧式距离;k表示是生成序列的第k帧,jk表示生成序列的第k帧是来自原始视频的第jk帧;
Figure BDA0003215837690000073
表示原始视频帧中的第jk帧的口型特征点;该损失项约束了最终选择的第jk帧原始帧的口型形状,与第k帧输入的驱动口型T(Mk)之间的形状一致性。
然后,是时序一致性损失项,计算式如下
Figure BDA0003215837690000074
其中,εtemporal表示口型的时序一致性损失项,k-1、k分别表示是生成序列的第k-1、k帧,而jk-1、jk分别表示生成序列的第k-1、k帧是来自原始视频的第jk-1、jk帧。此外,C(jk-1,jk)是一个时序连续性度量,表示原始视频的第jk-1、jk帧的时序连续性,该度量的计算式定义如下
C(m,n)=0.5+0.25×(cos(vm,vn-1)+cos(vm+1,vn))
其中,C(m,n)表示原始视频的第m、n帧的时序连续性,vi表示原始视频的第i帧的口型提取的图像PCA特征向量,cos表示向量余弦距离。当m、n两帧连续时,C(m,n)的值为1,当两帧不连续时,C(m,n)的值由m、n两帧的图像相似度决定,相似度越大则值越大。
综上,求解口型序列优化函数,即可得到最短路径的口型特征点序列为J,再据此从原始帧中取帧重排列,即能得到与输入音频相匹配的真人口型动画序列。对于求解口型序列优化函数,采用了维特比算法(viterbi search)。具体的,对于每一帧的待求帧,我们利用先口型特征点的欧式距离,从原始视频帧中搜索最接近的80帧作为备选帧,然后执行维特比算法,求得满足最短路径的口型序列,作为最终结果。
本发明实施例提供的一种真人语音口型动画生成的系统,包括:
第一提取模块,用于对演讲视频做人脸跟踪和配准,提取人脸表情系数;
第二提取模块,用于根据表情系数和演讲视频的音素文本,提取到两组口型特征点序列;
函数构建模块,用于根据两组口型特征点序列,获得演讲视频的音素文本的口型特征点序列迁移到与表情系数的口型特征点序列中口型集合空间一致的迁移函数;
计算模块,用于根据迁移函数以及任意音频,获得任意音频迁移后的口型特征点序列;
生成模块,用于根据迁移后的口型特征点序列从演讲视频中挑选出与之口型集合空间一致的人脸图像,并生成真人语音口型动画序列。
本发明实施例提供的一种电子设备,包括至少一个处理单元以及至少一个存储单元,其中,存储单元存储有程序,当程序被处理单元执行时,使得处理单元执行上述的方法。
本发明实施例提供的一种计算机可读存储介质,其存储有可由电子设备执行的计算机程序,当程序在电子设备上运行时,使得电子设备执行上述的方法。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种真人语音口型动画生成方法,其特征在于,包括:
对演讲视频做人脸跟踪和配准,提取人脸表情系数;
根据所述表情系数和所述演讲视频的音素文本,提取到两组口型特征点序列;
根据所述两组口型特征点序列,获得所述演讲视频的音素文本的口型特征点序列迁移到与所述表情系数的口型特征点序列中口型集合空间一致的迁移函数;
根据所述迁移函数以及任意音频,获得所述任意音频迁移后的口型特征点序列;
根据所述迁移后的口型特征点序列从所述演讲视频中挑选出与之口型集合空间一致的人脸图像,并生成真人语音口型动画序列。
2.如权利要求1所述的真人语音口型动画生成方法,其特征在于,对演讲视频做人脸跟踪和配准,提取表情系数包括:
对演讲视频做人脸跟踪和配准,每帧人脸都拟合一个人脸三维模型;
根据所述人脸三维模型,提取人脸三维姿态信息和表情系数。
3.如权利要求2所述的真人语音口型动画生成方法,其特征在于,根据所述表情系数和所述演讲视频的音素文本,提取到两组口型特征点序列包括:
所述表情系数和所述演讲视频的音素文本分别输入到基于音视素和Blendshape插值的人脸动画驱动系统中,分别提取到所述表情系数的口型特征点序列和所述演讲视频的音素文本的口型特征点序列。
4.如权利要求3所述的真人语音口型动画生成方法,其特征在于,根据所述两组口型特征点序列,获得所述演讲视频的音素文本的口型特征点序列迁移到与所述表情系数的口型特征点序列中口型集合空间一致的迁移函数包括:
所述演讲视频的音素文本的口型特征点序列记为:
Figure FDA0003215837680000011
所述表情系数的口型特征点序列记为:
Figure FDA0003215837680000012
其中,
Figure FDA0003215837680000021
为所述表情系数的口型特征点序列中某一帧口型特征点;
Figure FDA0003215837680000022
为所述演讲视频的音素文本的口型特征点序列中某一帧口型特征点;R18×3为口型特征点构成的矩阵;N(tgt)、N(src)分别为所述表情系数的口型特征点序列和所述演讲视频的音素文本的口型特征点序列的口型数目;
根据直方图匹配原理和离散近似估计法,获得每一帧口型特征点的变换函数;
所有的所述口型特征点的变换函数记为迁移函数。
5.如权利要求4所述的真人语音口型动画生成方法,其特征在于,根据所述迁移函数以及任意音频,获得所述任意音频迁移后的口型特征点序列包括:
T(M)={T(Mk)|1≤k≤N;Mk∈R18×3;T(Mk)∈R18×3};
其中,T为迁移函数;M为任意音频的口型特征点序列;T(M)为迁移后的口型特征点序列;k为自然数;Mk、T(Mk)分别为M、T(M)中的第k帧口型特征点。
6.如权利要求5所述的真人语音口型动画生成方法,其特征在于,根据所述迁移后的口型特征点序列从所述演讲视频中挑选出与之口型集合空间一致的人脸图像,并生成真人语音口型动画序列包括:
对于所述迁移后的口型特征点序列中每一帧的口型特征点计算与所述表情系数的口型特征点序列的欧式距离;
筛选出欧式距离小于阈值的所述表情系数的口型特征点序列,并执行维特比算法,求得最短路径的口型特征点序列;
将所述最短路径的口型特征点序列对应的人脸图像进行排列,得到真人语音口型动画序列。
7.一种真人语音口型动画生成的系统,其特征在于,包括:
第一提取模块,用于对演讲视频做人脸跟踪和配准,提取人脸表情系数;
第二提取模块,用于根据所述表情系数和所述演讲视频的音素文本,提取到两组口型特征点序列;
函数构建模块,用于根据所述两组口型特征点序列,获得所述演讲视频的音素文本的口型特征点序列迁移到与所述表情系数的口型特征点序列中口型集合空间一致的迁移函数;
计算模块,用于根据所述迁移函数以及任意音频,获得所述任意音频迁移后的口型特征点序列;
生成模块,用于根据所述迁移后的口型特征点序列从所述演讲视频中挑选出与之口型集合空间一致的人脸图像,并生成真人语音口型动画序列。
8.一种电子设备,其特征在于,包括至少一个处理单元以及至少一个存储单元,其中,所述存储单元存储有计算机程序,当所述程序被所述处理单元执行时,使得所述处理单元执行权利要求1~6任一权利要求所述的方法。
9.一种存储介质,其特征在于,其存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行权利要求1~6任一权利要求所述的方法。
CN202110942998.7A 2021-08-17 2021-08-17 一种真人语音口型动画生成方法及系统、电子设备、存储介质 Active CN113628309B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110942998.7A CN113628309B (zh) 2021-08-17 2021-08-17 一种真人语音口型动画生成方法及系统、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110942998.7A CN113628309B (zh) 2021-08-17 2021-08-17 一种真人语音口型动画生成方法及系统、电子设备、存储介质

Publications (2)

Publication Number Publication Date
CN113628309A true CN113628309A (zh) 2021-11-09
CN113628309B CN113628309B (zh) 2023-09-22

Family

ID=78386019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110942998.7A Active CN113628309B (zh) 2021-08-17 2021-08-17 一种真人语音口型动画生成方法及系统、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN113628309B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116665695A (zh) * 2023-07-28 2023-08-29 腾讯科技(深圳)有限公司 虚拟对象口型驱动方法、相关装置和介质
CN116863046A (zh) * 2023-07-07 2023-10-10 广东明星创意动画有限公司 一种虚拟口型生成方法、装置、设备及存储介质
CN117292030A (zh) * 2023-10-27 2023-12-26 海看网络科技(山东)股份有限公司 一种生成三维数字人动画的方法和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100082345A1 (en) * 2008-09-26 2010-04-01 Microsoft Corporation Speech and text driven hmm-based body animation synthesis
KR102035596B1 (ko) * 2018-05-25 2019-10-23 주식회사 데커드에이아이피 인공지능 기반의 가상 캐릭터의 페이셜 애니메이션 자동 생성 시스템 및 방법
US20190392625A1 (en) * 2018-11-06 2019-12-26 Beijing Baidu Netcom Science and Technology Co., Ltd Method and apparatus for generating animation
US10755463B1 (en) * 2018-07-20 2020-08-25 Facebook Technologies, Llc Audio-based face tracking and lip syncing for natural facial animation and lip movement
CN111915707A (zh) * 2020-07-01 2020-11-10 天津洪恩完美未来教育科技有限公司 一种基于音频信息的口型动画展示方法、装置及存储介质
CN112541957A (zh) * 2020-12-09 2021-03-23 北京百度网讯科技有限公司 动画生成方法、装置、电子设备以及计算机可读介质
CN112750185A (zh) * 2021-01-19 2021-05-04 清华大学 一种肖像画视频生成方法、装置、电子设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100082345A1 (en) * 2008-09-26 2010-04-01 Microsoft Corporation Speech and text driven hmm-based body animation synthesis
KR102035596B1 (ko) * 2018-05-25 2019-10-23 주식회사 데커드에이아이피 인공지능 기반의 가상 캐릭터의 페이셜 애니메이션 자동 생성 시스템 및 방법
US10755463B1 (en) * 2018-07-20 2020-08-25 Facebook Technologies, Llc Audio-based face tracking and lip syncing for natural facial animation and lip movement
US20190392625A1 (en) * 2018-11-06 2019-12-26 Beijing Baidu Netcom Science and Technology Co., Ltd Method and apparatus for generating animation
CN111915707A (zh) * 2020-07-01 2020-11-10 天津洪恩完美未来教育科技有限公司 一种基于音频信息的口型动画展示方法、装置及存储介质
CN112541957A (zh) * 2020-12-09 2021-03-23 北京百度网讯科技有限公司 动画生成方法、装置、电子设备以及计算机可读介质
CN112750185A (zh) * 2021-01-19 2021-05-04 清华大学 一种肖像画视频生成方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MICHEL D. BONDY ET AL: "Model-based face and lip animation for interactive virtual reality applications", PROCEEDINGS OF THE ANIMATION, pages 559 - 563 *
杜鹏;房宁;赵群飞;: "基于汉语文本驱动的人脸语音同步动画系统", 计算机工程, no. 13, pages 260 - 263 *
米辉辉 等: "汉语语音同步的三维口型动画研究", 计算机应用研究, vol. 32, no. 4, pages 1244 - 1247 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116863046A (zh) * 2023-07-07 2023-10-10 广东明星创意动画有限公司 一种虚拟口型生成方法、装置、设备及存储介质
CN116863046B (zh) * 2023-07-07 2024-03-19 广东明星创意动画有限公司 一种虚拟口型生成方法、装置、设备及存储介质
CN116665695A (zh) * 2023-07-28 2023-08-29 腾讯科技(深圳)有限公司 虚拟对象口型驱动方法、相关装置和介质
CN116665695B (zh) * 2023-07-28 2023-10-20 腾讯科技(深圳)有限公司 虚拟对象口型驱动方法、相关装置和介质
CN117292030A (zh) * 2023-10-27 2023-12-26 海看网络科技(山东)股份有限公司 一种生成三维数字人动画的方法和系统

Also Published As

Publication number Publication date
CN113628309B (zh) 2023-09-22

Similar Documents

Publication Publication Date Title
Ostrovski et al. Autoregressive quantile networks for generative modeling
Maulud et al. A review on linear regression comprehensive in machine learning
CN113628309A (zh) 一种真人语音口型动画生成方法及系统、电子设备、存储介质
CN110188227B (zh) 一种基于深度学习与低秩矩阵优化的哈希图像检索方法
CN110046656B (zh) 基于深度学习的多模态场景识别方法
CN111814854A (zh) 一种无监督域适应的目标重识别方法
CN110575663B (zh) 一种基于人工智能的体育辅助训练方法
WO2020108396A1 (zh) 视频分类的方法以及服务器
CN112995652B (zh) 视频质量评估方法及装置
CN111741330A (zh) 一种视频内容评估方法、装置、存储介质及计算机设备
CN108985370B (zh) 图像标注语句自动生成方法
CN113283298B (zh) 基于时间注意力机制和双流网络的实时行为识别方法
CN113158861B (zh) 一种基于原型对比学习的运动分析方法
CN112819065A (zh) 基于多重聚类信息的无监督行人难样本挖掘方法和系统
CN116580257A (zh) 特征融合模型训练及样本检索方法、装置和计算机设备
CN112115967A (zh) 一种基于数据保护的图像增量学习方法
CN114339409A (zh) 视频处理方法、装置、计算机设备及存储介质
CN110210540A (zh) 基于注意力机制的跨社交媒体用户身份识别方法及系统
CN111723667A (zh) 基于人体关节点坐标的智慧灯杆人群行为识别方法和装置
CN113822125A (zh) 唇语识别模型的处理方法、装置、计算机设备和存储介质
CN110415261B (zh) 一种分区域训练的表情动画转换方法及系统
CN111695570B (zh) 一种基于变分原型推理的小样本下语义分割方法
CN110457523A (zh) 封面图片的选取方法、模型的训练方法、装置及介质
CN112380374B (zh) 一种基于语义扩充的零样本图像分类方法
CN112541541B (zh) 基于多元素分层深度融合的轻量级多模态情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant