CN113628309B - 一种真人语音口型动画生成方法及系统、电子设备、存储介质 - Google Patents
一种真人语音口型动画生成方法及系统、电子设备、存储介质 Download PDFInfo
- Publication number
- CN113628309B CN113628309B CN202110942998.7A CN202110942998A CN113628309B CN 113628309 B CN113628309 B CN 113628309B CN 202110942998 A CN202110942998 A CN 202110942998A CN 113628309 B CN113628309 B CN 113628309B
- Authority
- CN
- China
- Prior art keywords
- mouth shape
- characteristic point
- point sequence
- shape characteristic
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 238000013508 migration Methods 0.000 claims abstract description 34
- 230000005012 migration Effects 0.000 claims abstract description 34
- 238000012545 processing Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 230000008921 facial expression Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000001815 facial effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 39
- 230000009466 transformation Effects 0.000 description 13
- 238000009826 distribution Methods 0.000 description 7
- 230000002123 temporal effect Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 229920002430 Fibre-reinforced plastic Polymers 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000011151 fibre-reinforced plastic Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种真人语音口型动画生成方法及系统、电子设备、存储介质,属于语音图像技术领域,包括对演讲视频做人脸跟踪和配准,提取人脸三维姿态信息和表情系数;根据表情系数和演讲视频的音素文本,提取到两组口型特征点序列;根据两组口型特征点序列,获得演讲视频的音素文本的口型特征点序列迁移到与表情系数的口型特征点序列中口型集合空间一致的迁移函数;根据迁移函数以及任意音频,获得任意音频迁移后的口型特征点序列;根据迁移后的口型特征点序列从演讲视频中挑选出与之口型集合空间一致的人脸图像,并生成真人语音口型动画序列。本发明能够只用2分钟演讲视频,生成高质量的真人口型动画视频。
Description
技术领域
本发明属于语音图像技术领域,特别涉及一种真人语音口型动画生成方法及系统、电子设备、存储介质。
背景技术
目前大多数方法都依赖深度神经网络,对数据量的需求很大。为了生成针对单人的高质量口型动画,往往要求针对单人采集大量的数据,如文章Synthesizing obama:learning lip sync from audio,使用了Obama长达17小时的高质量演讲视频训练神经网络模型,而文章A deep learning approach for generalized speech animation,则使用了8小时的精录制视频训练神经网络模型。这类方法的优点是生成结果的质量较高,但缺点是对每个单人,都需要重新采集大量视频,其扩展性较差。
发明内容
针对上述的问题,本发明提供一种真人语音口型动画生成方法及系统、电子设备、存储介质,其方法包括:
对演讲视频做人脸跟踪和配准,提取人脸表情系数;
根据所述表情系数和所述演讲视频的音素文本,提取到两组口型特征点序列;
根据所述两组口型特征点序列,获得所述演讲视频的音素文本的口型特征点序列迁移到与所述表情系数的口型特征点序列中口型集合空间一致的迁移函数;
根据所述迁移函数以及任意音频,获得所述任意音频迁移后的口型特征点序列;
根据所述迁移后的口型特征点序列从所述演讲视频中挑选出与之口型集合空间一致的人脸图像,并生成真人语音口型动画序列。
优选的是,对演讲视频做人脸跟踪和配准,提取人脸三维姿态信息和表情系数包括:
对演讲视频做人脸跟踪和配准,每帧人脸都拟合一个人脸三维模型;
根据所述人脸三维模型,提取人脸三维姿态信息和表情系数。
优选的是,根据所述表情系数和所述演讲视频的音素文本,提取到两组口型特征点序列包括:
所述表情系数和所述演讲视频的音素文本分别输入到基于音视素和Blendshape插值的人脸动画驱动系统中,分别提取到所述表情系数的口型特征点序列和所述演讲视频的音素文本的口型特征点序列。
优选的是,根据所述两组口型特征点序列,获得所述演讲视频的音素文本的口型特征点序列迁移到与所述表情系数的口型特征点序列中口型集合空间一致的迁移函数包括:
所述演讲视频的音素文本的口型特征点序列记为:
所述表情系数的口型特征点序列记为:
其中,为所述表情系数的口型特征点序列中某一帧口型特征点;/>为所述演讲视频的音素文本的口型特征点序列中某一帧口型特征点;R18×3为口型特征点构成的矩阵;N(tgt)、N(src)分别为所述表情系数的口型特征点序列和所述演讲视频的音素文本的口型特征点序列的口型数目;
根据直方图匹配原理和离散近似估计法,获得每一帧口型特征点的变换函数;
所有的所述口型特征点的变换函数记为迁移函数。
优选的是,根据所述迁移函数以及任意音频,获得所述任意音频迁移后的口型特征点序列包括:
T(M)={T(Mk)|1≤k≤N;Mk∈R18×3;T(Mk)∈R18×3};
其中,T为迁移函数;M为任意音频的口型特征点序列;T(M)为迁移后的口型特征点序列;k为自然数;Mk、T(Mk)分别为M、T(M)中的第k帧口型特征点。
优选的是,根据所述迁移后的口型特征点序列从所述演讲视频中挑选出与之口型集合空间一致的人脸图像,并生成真人语音口型动画序列包括:
对于所述迁移后的口型特征点序列中每一帧的口型特征点计算与所述表情系数的口型特征点序列的欧式距离;
筛选出欧式距离小于阈值的所述表情系数的口型特征点序列,并执行维特比算法,求得最短路径的口型特征点序列;
将所述最短路径的口型特征点序列对应的人脸图像进行排列,得到真人语音口型动画序列。
优选的是,本发明实施例提供的一种真人语音口型动画生成的系统,包括:
第一提取模块,用于对演讲视频做人脸跟踪和配准,提取人脸表情系数;
第二提取模块,用于根据所述表情系数和所述演讲视频的音素文本,提取到两组口型特征点序列;
函数构建模块,用于根据所述两组口型特征点序列,获得所述演讲视频的音素文本的口型特征点序列迁移到与所述表情系数的口型特征点序列中口型集合空间一致的迁移函数;
计算模块,用于根据所述迁移函数以及任意音频,获得所述任意音频迁移后的口型特征点序列;
生成模块,用于根据所述迁移后的口型特征点序列从所述演讲视频中挑选出与之口型集合空间一致的人脸图像,并生成真人语音口型动画序列。
本发明实施例提供的一种电子设备,包括至少一个处理单元以及至少一个存储单元,其中,所述存储单元存储有程序,当所述程序被所述处理单元执行时,使得所述处理单元执行上述所述的方法。
本发明实施例提供的一种计算机可读存储介质,其存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行上述所述的方法。
与现有技术相比,本发明的有益效果为:
本发明能够只用2分钟演讲视频,生成高质量的真人口型动画视频。
附图说明
图1是本发明实施例提供的真人语音口型动画生成方法流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
参照图1,一种真人语音口型动画生成方法及系统、电子设备、存储介质,其方法包括:
对演讲视频做人脸跟踪和配准,提取人脸表情系数;
具体地,对演讲视频做人脸跟踪和配准,每帧人脸都拟合一个人脸三维模型;
根据人脸三维模型,提取人脸三维姿态信息和表情系数。
在本实施例中的演讲视频为简短的演讲视频,2分钟左右,且在人脸三维模型处于正视图中,提取人脸三维姿态信息和表情系数;生成的真人口型动画也是正视图。
根据表情系数和演讲视频的音素文本,提取到两组口型特征点序列;
具体地,表情系数和演讲视频的音素文本分别输入到基于音视素和Blendshape插值的人脸动画驱动系统中,分别提取到表情系数的口型特征点序列和演讲视频的音素文本的口型特征点序列。
根据两组口型特征点序列,获得演讲视频的音素文本的口型特征点序列迁移到与表情系数的口型特征点序列中口型集合空间一致的迁移函数;
具体地,演讲视频的音素文本的口型特征点序列记为:
表情系数的口型特征点序列记为:
其中,为表情系数的口型特征点序列中某一帧口型特征点;/>为演讲视频的音素文本的口型特征点序列中某一帧口型特征点;R18×3为口型特征点构成的矩阵;N(tgt)、N(src)分别为表情系数的口型特征点序列和演讲视频的音素文本的口型特征点序列的口型数目;
根据直方图匹配原理和离散近似估计法,获得每一帧口型特征点的变换函数;
所有的口型特征点的变换函数记为迁移函数。
在本实施例中,一个口型由18个三维特征点构成,因此共由54个变量构成。我们对54个变量中的每一个变量,都构建一个单元非线性映射函数,从而完成口型特征点的迁移映射。为了保证口型运动的拓扑一致性,单元映射函数必须满足单调性和连续性。同时,该函数能近似的将口型从M(src)概率空间变换到M(tgt)概率空间。我们采用直方图匹配来构建这样一个单元映射函数,详细介绍如下。假设x~X是一个定义在[a,b]上的单元连续概率分布,其概率密度函数为fX(x)。y~Y是一个定义在[c,d]上的单元连续概率分布,其概率密度函数为fY(y)。直方图匹配的目标是,构建的单元单调不减的变换函数t,能将单元变量x从X概率分布变换到Y概率分布,即满足
t(x)~Y
其中,~表示t(x)服从Y概率分布。
首先,根据直方图匹配原理,利用变上限积分函数,构建下面两个单元变换函数t1和t2
易证明,两个变换函数得到的结果都服从[0,1]之间的均匀分布
t1(x),t2(y)~U(0,1)
其中,~表示t1(x),t2(y)服从U(0,1)概率分布,U(0,1)表示[0,1]之间的均匀分布。
再令t1(X)=t2(Y),可以得到一个从X到Y的变换函数
其中,是所求的X到Y的变换函数,/>表示函数t2的反函数。
而且,变换函数满足单调连续性,且易证明
其中,~表示服从Y概率分布。
至此,对于口型特征点M(tgt)、M(src)中的54个变量,我们可以分别利用离散近似估计,计算得到54个变换函数。为简化表示,简记构建好的54个变换函数为T,从而完成口型特征点的迁移。
对于来自任意的音频输入得到的口型特征点序列M,都能通过口型迁移,获得与M(tgt)口型集合空间较为一致的口型特征点序列T(M),如:
T(M)={T(Mk)|1≤k≤N;Mk∈R18×3;T(Mk)∈R18×3};
其中,T为迁移函数;M为任意音频的口型特征点序列;T(M)为迁移后的口型特征点序列;k为自然数;Mk、T(Mk)分别为M、T(M)中的第k帧口型特征点。
根据迁移函数以及任意音频,获得任意音频迁移后的口型特征点序列;
根据迁移后的口型特征点序列从演讲视频中挑选出与之口型集合空间一致的人脸图像,并生成真人语音口型动画序列。
具体地,对于迁移后的口型特征点序列中每一帧的口型特征点计算与表情系数的口型特征点序列的欧式距离;
筛选出欧式距离小于阈值的表情系数的口型特征点序列,并执行维特比算法,求得最短路径的口型特征点序列;
将最短路径的口型特征点序列对应的人脸图像进行排列,得到真人语音口型动画序列。
进一步地,假设最短路径的口型特征点序列为J,记为:
J={jk|1≤k≤N,1≤jk≤N(tgt)};
其中,jk为其中的第k帧待求解口型序号;N为J的数目,与输入音频长度相匹配;N(tgt)表示原始视频帧数。
联合优化的目标函数如下:
其中,εshape表示口型的形状一致性损失项,εtemporal表示口型的时序一致性损失项,ε是一个加权常数项;εshape、εtemporal的公式会在下面详细展开。
首先,是形状一致性损失项εshape,计算式如下
其中,εshape表示口型的形状一致性损失项,e表示自然常数,ρ是一个固定加权常数,||...||表示欧式距离;k表示是生成序列的第k帧,jk表示生成序列的第k帧是来自原始视频的第jk帧;表示原始视频帧中的第jk帧的口型特征点;该损失项约束了最终选择的第jk帧原始帧的口型形状,与第k帧输入的驱动口型T(Mk)之间的形状一致性。
然后,是时序一致性损失项,计算式如下
其中,εtemporal表示口型的时序一致性损失项,k-1、k分别表示是生成序列的第k-1、k帧,而jk-1、jk分别表示生成序列的第k-1、k帧是来自原始视频的第jk-1、jk帧。此外,C(jk-1,jk)是一个时序连续性度量,表示原始视频的第jk-1、jk帧的时序连续性,该度量的计算式定义如下
C(m,n)=0.5+0.25×(cos(vm,vn-1)+cos(vm+1,vn))
其中,C(m,n)表示原始视频的第m、n帧的时序连续性,vi表示原始视频的第i帧的口型提取的图像PCA特征向量,cos表示向量余弦距离。当m、n两帧连续时,C(m,n)的值为1,当两帧不连续时,C(m,n)的值由m、n两帧的图像相似度决定,相似度越大则值越大。
综上,求解口型序列优化函数,即可得到最短路径的口型特征点序列为J,再据此从原始帧中取帧重排列,即能得到与输入音频相匹配的真人口型动画序列。对于求解口型序列优化函数,采用了维特比算法(viterbi search)。具体的,对于每一帧的待求帧,我们利用先口型特征点的欧式距离,从原始视频帧中搜索最接近的80帧作为备选帧,然后执行维特比算法,求得满足最短路径的口型序列,作为最终结果。
本发明实施例提供的一种真人语音口型动画生成的系统,包括:
第一提取模块,用于对演讲视频做人脸跟踪和配准,提取人脸表情系数;
第二提取模块,用于根据表情系数和演讲视频的音素文本,提取到两组口型特征点序列;
函数构建模块,用于根据两组口型特征点序列,获得演讲视频的音素文本的口型特征点序列迁移到与表情系数的口型特征点序列中口型集合空间一致的迁移函数;
计算模块,用于根据迁移函数以及任意音频,获得任意音频迁移后的口型特征点序列;
生成模块,用于根据迁移后的口型特征点序列从演讲视频中挑选出与之口型集合空间一致的人脸图像,并生成真人语音口型动画序列。
本发明实施例提供的一种电子设备,包括至少一个处理单元以及至少一个存储单元,其中,存储单元存储有程序,当程序被处理单元执行时,使得处理单元执行上述的方法。
本发明实施例提供的一种计算机可读存储介质,其存储有可由电子设备执行的计算机程序,当程序在电子设备上运行时,使得电子设备执行上述的方法。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种真人语音口型动画生成方法,其特征在于,包括:
对演讲视频做人脸跟踪和配准,提取人脸表情系数;
根据所述表情系数和所述演讲视频的音素文本,提取到两组口型特征点序列;
根据所述两组口型特征点序列,获得所述演讲视频的音素文本的口型特征点序列迁移到与所述表情系数的口型特征点序列中口型集合空间一致的迁移函数,其中,所述演讲视频的音素文本的口型特征点序列记为:所述表情系数的口型特征点序列记为:/> 为所述表情系数的口型特征点序列中某一帧口型特征点;/>为所述演讲视频的音素文本的口型特征点序列中某一帧口型特征点;R18×3为口型特征点构成的矩阵;N(tgt)、N(src)分别为所述表情系数的口型特征点序列和所述演讲视频的音素文本的口型特征点序列的口型数目;
根据所述迁移函数以及任意音频,获得所述任意音频迁移后的口型特征点序列,T(M)={T(Mk)|1≤k≤N;Mk∈R18×3;T(Mk)∈R18×3};其中,T为迁移函数;M为任意音频的口型特征点序列;T(M)为迁移后的口型特征点序列;k为自然数;Mk、T(Mk)分别为M、T(M)中的第k帧口型特征点;
根据所述迁移后的口型特征点序列从所述演讲视频中挑选出与之口型集合空间一致的人脸图像,并生成真人语音口型动画序列;
其中,生成真人语音口型动画序列包括:
对于所述迁移后的口型特征点序列中每一帧的口型特征点计算与所述表情系数的口型特征点序列的欧式距离;
筛选出欧式距离小于阈值的所述表情系数的口型特征点序列,并执行维特比算法,求得最短路径的口型特征点序列;
将所述最短路径的口型特征点序列对应的人脸图像进行排列,得到真人语音口型动画序列。
2.如权利要求1所述的真人语音口型动画生成方法,其特征在于,对演讲视频做人脸跟踪和配准,提取表情系数包括:
对演讲视频做人脸跟踪和配准,每帧人脸都拟合一个人脸三维模型;
根据所述人脸三维模型,提取人脸三维姿态信息和表情系数。
3.如权利要求2所述的真人语音口型动画生成方法,其特征在于,根据所述表情系数和所述演讲视频的音素文本,提取到两组口型特征点序列包括:
所述表情系数和所述演讲视频的音素文本分别输入到基于音视素和Blendshape插值的人脸动画驱动系统中,分别提取到所述表情系数的口型特征点序列和所述演讲视频的音素文本的口型特征点序列。
4.一种真人语音口型动画生成的系统,其特征在于,包括:
第一提取模块,用于对演讲视频做人脸跟踪和配准,提取人脸表情系数;
第二提取模块,用于根据所述表情系数和所述演讲视频的音素文本,提取到两组口型特征点序列;
函数构建模块,用于根据所述两组口型特征点序列,获得所述演讲视频的音素文本的口型特征点序列迁移到与所述表情系数的口型特征点序列中口型集合空间一致的迁移函数,其中,所述演讲视频的音素文本的口型特征点序列记为:所述表情系数的口型特征点序列记为: 为所述表情系数的口型特征点序列中某一帧口型特征点;/>为所述演讲视频的音素文本的口型特征点序列中某一帧口型特征点;R18 ×3为口型特征点构成的矩阵;N(tgt)、N(src)分别为所述表情系数的口型特征点序列和所述演讲视频的音素文本的口型特征点序列的口型数目;
计算模块,用于根据所述迁移函数以及任意音频,获得所述任意音频迁移后的口型特征点序列,T(M)={T(Mk)|1≤k≤N;Mk∈R18×3;T(Mk)∈R18×3};其中,T为迁移函数;M为任意音频的口型特征点序列;T(M)为迁移后的口型特征点序列;k为自然数;Mk、T(Mk)分别为M、T(M)中的第k帧口型特征点;
生成模块,用于根据所述迁移后的口型特征点序列从所述演讲视频中挑选出与之口型集合空间一致的人脸图像,并生成真人语音口型动画序列,
其中,生成真人语音口型动画序列包括:
对于所述迁移后的口型特征点序列中每一帧的口型特征点计算与所述表情系数的口型特征点序列的欧式距离;
筛选出欧式距离小于阈值的所述表情系数的口型特征点序列,并执行维特比算法,求得最短路径的口型特征点序列;
将所述最短路径的口型特征点序列对应的人脸图像进行排列,得到真人语音口型动画序列。
5.一种电子设备,其特征在于,包括至少一个处理单元以及至少一个存储单元,其中,所述存储单元存储有计算机程序,当所述程序被所述处理单元执行时,使得所述处理单元执行权利要求1~3任一权利要求所述的方法。
6.一种存储介质,其特征在于,其存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行权利要求1~3任一权利要求所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110942998.7A CN113628309B (zh) | 2021-08-17 | 2021-08-17 | 一种真人语音口型动画生成方法及系统、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110942998.7A CN113628309B (zh) | 2021-08-17 | 2021-08-17 | 一种真人语音口型动画生成方法及系统、电子设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113628309A CN113628309A (zh) | 2021-11-09 |
CN113628309B true CN113628309B (zh) | 2023-09-22 |
Family
ID=78386019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110942998.7A Active CN113628309B (zh) | 2021-08-17 | 2021-08-17 | 一种真人语音口型动画生成方法及系统、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113628309B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116863046B (zh) * | 2023-07-07 | 2024-03-19 | 广东明星创意动画有限公司 | 一种虚拟口型生成方法、装置、设备及存储介质 |
CN116665695B (zh) * | 2023-07-28 | 2023-10-20 | 腾讯科技(深圳)有限公司 | 虚拟对象口型驱动方法、相关装置和介质 |
CN117292030A (zh) * | 2023-10-27 | 2023-12-26 | 海看网络科技(山东)股份有限公司 | 一种生成三维数字人动画的方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102035596B1 (ko) * | 2018-05-25 | 2019-10-23 | 주식회사 데커드에이아이피 | 인공지능 기반의 가상 캐릭터의 페이셜 애니메이션 자동 생성 시스템 및 방법 |
US10755463B1 (en) * | 2018-07-20 | 2020-08-25 | Facebook Technologies, Llc | Audio-based face tracking and lip syncing for natural facial animation and lip movement |
CN111915707A (zh) * | 2020-07-01 | 2020-11-10 | 天津洪恩完美未来教育科技有限公司 | 一种基于音频信息的口型动画展示方法、装置及存储介质 |
CN112541957A (zh) * | 2020-12-09 | 2021-03-23 | 北京百度网讯科技有限公司 | 动画生成方法、装置、电子设备以及计算机可读介质 |
CN112750185A (zh) * | 2021-01-19 | 2021-05-04 | 清华大学 | 一种肖像画视频生成方法、装置、电子设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8224652B2 (en) * | 2008-09-26 | 2012-07-17 | Microsoft Corporation | Speech and text driven HMM-based body animation synthesis |
CN109377539B (zh) * | 2018-11-06 | 2023-04-11 | 北京百度网讯科技有限公司 | 用于生成动画的方法和装置 |
-
2021
- 2021-08-17 CN CN202110942998.7A patent/CN113628309B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102035596B1 (ko) * | 2018-05-25 | 2019-10-23 | 주식회사 데커드에이아이피 | 인공지능 기반의 가상 캐릭터의 페이셜 애니메이션 자동 생성 시스템 및 방법 |
US10755463B1 (en) * | 2018-07-20 | 2020-08-25 | Facebook Technologies, Llc | Audio-based face tracking and lip syncing for natural facial animation and lip movement |
CN111915707A (zh) * | 2020-07-01 | 2020-11-10 | 天津洪恩完美未来教育科技有限公司 | 一种基于音频信息的口型动画展示方法、装置及存储介质 |
CN112541957A (zh) * | 2020-12-09 | 2021-03-23 | 北京百度网讯科技有限公司 | 动画生成方法、装置、电子设备以及计算机可读介质 |
CN112750185A (zh) * | 2021-01-19 | 2021-05-04 | 清华大学 | 一种肖像画视频生成方法、装置、电子设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
Model-based face and lip animation for interactive virtual reality applications;Michel D. Bondy et al;Proceedings of the Animation;第559-563页 * |
基于汉语文本驱动的人脸语音同步动画系统;杜鹏;房宁;赵群飞;;计算机工程(第13期);第260-263页 * |
汉语语音同步的三维口型动画研究;米辉辉 等;计算机应用研究;第32卷(第4期);第1244-1247页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113628309A (zh) | 2021-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113628309B (zh) | 一种真人语音口型动画生成方法及系统、电子设备、存储介质 | |
Ostrovski et al. | Autoregressive quantile networks for generative modeling | |
CN109544524B (zh) | 一种基于注意力机制的多属性图像美学评价系统 | |
CN110021051B (zh) | 一种基于生成对抗网络通过文本指导的人物图像生成方法 | |
US7684651B2 (en) | Image-based face search | |
CN106845411B (zh) | 一种基于深度学习和概率图模型的视频描述生成方法 | |
CN110575663B (zh) | 一种基于人工智能的体育辅助训练方法 | |
CN108765383A (zh) | 基于深度迁移学习的视频描述方法 | |
CN113158861B (zh) | 一种基于原型对比学习的运动分析方法 | |
CN112380374B (zh) | 一种基于语义扩充的零样本图像分类方法 | |
CN111354246A (zh) | 一种用于帮助聋哑人交流的系统及方法 | |
CN115033736A (zh) | 一种自然语言指导的视频摘要方法 | |
CN108174141B (zh) | 一种视频通信的方法和一种移动装置 | |
CN110415261B (zh) | 一种分区域训练的表情动画转换方法及系统 | |
CN115423908A (zh) | 虚拟人脸的生成方法、装置、设备以及可读存储介质 | |
CN115690276A (zh) | 虚拟形象的视频生成方法、装置、计算机设备和存储介质 | |
CN116051688A (zh) | 过渡动画生成方法及装置、计算机可读存储介质、终端 | |
Cheng et al. | Audio-driven talking video frame restoration | |
CN116109960A (zh) | 基于预训练模型的视频文本检索方法 | |
CN113873297A (zh) | 一种数字人物视频的生成方法及相关装置 | |
CN111695570B (zh) | 一种基于变分原型推理的小样本下语义分割方法 | |
Hu et al. | Deep batch active learning and knowledge distillation for person re-identification | |
CN115966194A (zh) | 语音口型同步生成方法、装置、电子设备及存储介质 | |
CN116071427A (zh) | 一种轻量级视频人体姿态识别系统 | |
CN115376214A (zh) | 情绪识别方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |