CN115690280A - 一种三维形象发音口型模拟方法 - Google Patents

一种三维形象发音口型模拟方法 Download PDF

Info

Publication number
CN115690280A
CN115690280A CN202211687841.5A CN202211687841A CN115690280A CN 115690280 A CN115690280 A CN 115690280A CN 202211687841 A CN202211687841 A CN 202211687841A CN 115690280 A CN115690280 A CN 115690280A
Authority
CN
China
Prior art keywords
phoneme
small color
adjacent
color block
mouth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211687841.5A
Other languages
English (en)
Other versions
CN115690280B (zh
Inventor
周安斌
晏武志
李鑫
潘见见
彭辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Jindong Digital Creative Co ltd
Original Assignee
Shandong Jindong Digital Creative Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Jindong Digital Creative Co ltd filed Critical Shandong Jindong Digital Creative Co ltd
Priority to CN202211687841.5A priority Critical patent/CN115690280B/zh
Publication of CN115690280A publication Critical patent/CN115690280A/zh
Application granted granted Critical
Publication of CN115690280B publication Critical patent/CN115690280B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

本发明提供了一种三维形象发音口型模拟方法,属于三维虚拟技术领域,该三维形象发音口型模拟方法的步骤包括:在测试人员嘴部粘贴多个小色块,测试人员朗读文本,采集测试人员的朗读录像;对朗读录像按照音频中的音素进行拆分,得到音素录像集并处理得到相邻录像对应的音素变化过程的小色块运动轨迹记为音素变化小色块轨迹集;建立三维虚拟人嘴部模型,并根据单音素小色块稳定坐标集建立每个音素对应的口型模型;根据需要读取的文本,建立口型模型序列,并对所述口型模型序列中相邻的口型,以音素变化小色块轨迹集构建口型变动过程。本方法考虑了相邻口型,避免了三维形象发音时单个音素对应的口型产生跳跃,给观众带来不真实的感觉的现象。

Description

一种三维形象发音口型模拟方法
技术领域
本发明属于三维虚拟技术领域,具体而言,涉及一种三维形象发音口型模拟方法。
背景技术
口型是角色面部动画的关键视点,口型动画是否逼真、自然直接影响到角色面部整体动画的真实度,因此,口型动画的制作在电影、游戏以及虚拟现实等人机交互方式中占据着重要地位。
公开号为CN108447474B的中国发明专利(专利号:CN201810199537.3)公开了一种虚拟人物语音与口型同步的建模与控制方法,能够减少口型动画数据标注量,并获得准确、自然流畅并与声音同步的口型动作。该方法包括:产生待同步语音对应的音素序列;将音素序列转换为音素类别序列;将音素类别序列转换为静态口型配置序列;通过动态模型将在时间轴上排布的静态口型配置序列转换为动态变化的口型配置;将动态变化的口型配置渲染成虚拟人物头颈部的姿态形象,同步配合语音信号进行展示。该方法可以不依赖于口型动画数据,并利用语音学先验知识和动态模型实现高效自然的虚拟人物口型同步控制。
由于汉语、英语等在连续发音时口型受到相邻音素的影响而产生变化,上述发明没有解决相邻音素对口型的影响问题,从而导致三维形象发音时单个音素对应的口型产生跳跃,给观众带来不真实的感觉。
发明内容
有鉴于此,本发明提供一种三维形象发音口型模拟方法能够解决相邻音素对口型的影响问题,避免了三维形象发音时单个音素对应的口型产生跳跃,给观众带来不真实的感觉的现象。
本发明是这样实现的:
本发明提供一种三维形象发音口型模拟方法,其中,包括以下步骤:
S10:在测试人员嘴部粘贴多个小色块,使得小色块覆盖满测试人员嘴部且相邻小色块之间的色彩不同,其中所述小色块为直径小于2mm的圆形;
S20:在测试人员正对面设置三个摄像机,其中所述三个摄像机的镜头相互垂直,并以三个摄像机的空间位置建立三维坐标系;
S30:测试人员朗读文本,三个摄像机采集测试人员的朗读录像;
S40:对朗读录像按照音频中的音素进行拆分,得到音素录像集,所述音素录像集的每个视频段为一个音素对应的录像;
S50:对得到的音素录像集进行处理,得到所述音素录像集中每个元素对应的每个小色块的运动轨迹并记为单音素小色块轨迹集;
S60:以音素录像集建立相邻录像集并进行处理,得到相邻录像对应的音素变化过程的小色块运动轨迹记为音素变化小色块轨迹集;
S70:对单音素小色块轨迹集进行处理得到单音素小色块稳定坐标集;
S80:建立三维虚拟人嘴部模型,并根据单音素小色块稳定坐标集建立每个音素对应的口型模型;
S90:根据需要读取的文本,建立口型模型序列,并对所述口型模型序列中相邻的口型,以音素变化小色块轨迹集构建口型变动过程。
在上述技术方案的基础上,本发明的一种三维形象发音口型模拟方法还可以做如下改进:
其中,所述步骤S50中,对得到的音素录像集进行处理的具体步骤包括:
步骤一:将音素录像集中包含的视频段进行清晰化处理;
步骤二:对清晰化处理后的视频段中的每一帧中的各个小色块的中心坐标进行记录作为小色块坐标;
步骤三:将小色块坐标按照视频段的时间轴时域集合做为运动轨迹。
进一步的,所述步骤“将音素录像集中包含的视频段进行清晰化处理”具体为:
将视频流信号转成YUV三分量,并获取视频流信号内各帧图像中像素的Y分量;
对各像素的Y分量进行加权统计计算;其中,采用如下公式对各像素的Y分量进行加权统计计算:
Figure DEST_PATH_IMAGE001
其中,
Figure DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
分别表示第n帧图像中像素的加权统计计算的结果;n为大于0的自然数;i,j为像素的行列坐标;
Figure DEST_PATH_IMAGE004
=0;
Figure DEST_PATH_IMAGE005
表示第n帧图像当前像素的Y分量;
Figure DEST_PATH_IMAGE006
根据加权统计计算的结果及相应像素的Y分量判断该像素是否存在噪声,根据加权统计计算的结果与相应像素的Y分量进行计算,计算公式如下:
Figure DEST_PATH_IMAGE007
根据计算结果L1与L2判断对应帧的像素是否存在噪声;
若是,则根据加权统计计算的结果对相应像素进行清晰处理,具体为:
获取存在噪声的像素加权统计计算的结果
Figure 728840DEST_PATH_IMAGE002
将加权统计计算的结果
Figure 183961DEST_PATH_IMAGE002
赋值给相应像素的Y分量。
其中,所述步骤S60中,以音素录像集建立相邻录像集并进行处理的步骤具体包括:
步骤一:提取相邻录像集中的相邻音素,所述提取方式为除第一个音素外,每一个音素与其前面的一个音素作为相邻音素;
步骤二:根据相邻音素中第一个音素和第二个音素的发音时长进行归一处理后作为发音权重,建立相邻音素发音权重序列;
步骤三:将单音素小色块轨迹集与相邻音素发音权重序列拟合并优化得到音素变化小色块轨迹集。
进一步的,所述“将单音素色小块轨迹集与相邻音素发音权重序列拟合”的具体步骤为:
步骤一:将单音素小色块轨迹集与相邻音素发音权重按照音素进行匹配,得到相邻音素发音权重小色块轨迹集;
步骤二:在三维坐标轴中,相邻音素发音权重小色块轨迹集的坐标乘以权重,得到相邻音素发音权重序列拟合曲线。
进一步的,所述“将单音素小色块轨迹集与相邻音素发音权重序列拟合并优化”中,优化的具体步骤为:
步骤一:选择全部的具有相同相邻音素的相邻音素发音权重序列拟合曲线作为归类集;
步骤二:利用近邻传播聚类算法对所述归类集中的每个相邻音素发音权重序列拟合曲线聚为一类,并得到该类的聚类中心,作为相邻录像对应的音素变化过程的小色块运动轨迹并记为音素变化小色块轨迹集。
其中,所述步骤S70中具体为:利用近邻传播聚类算法将单音素小色块轨迹集的所有坐标聚为一类,并得到该类的聚类中心作为单音素小色块稳定坐标集。
其中,所述步骤S10还包括:在测试人员嘴部粘贴多个小色块之前,将测试人员嘴部涂为白色。
其中,所述测试人员的朗读文本包含所有音素,且包含所有音素的相邻组合。
其中,所述小色块采用柔性材料制成,所述小色块的颜色与测试人员嘴部颜色有明显不同。
与现有技术相比较,本发明提供的一种三维形象发音口型模拟方法的有益效果是:利用小色块时域运动轨迹代替现有技术中常用的口型关键点,使得整个三维形象发音口型模拟流畅,同时以音素录像集建立相邻录像集并进行处理,得到相邻录像对应的音素变化过程的小色块运动轨迹记为音素变化小色块轨迹集;根据需要读取的文本,建立口型模型序列,并对所述口型模型序列中相邻的口型,以音素变化小色块轨迹集构建口型变动过程,避免了三维形象发音时单个音素对应的口型产生跳跃,给观众带来不真实的感觉的现象。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明公开的一种三维形象发音口型模拟方法的流程图;
图2为近邻传播聚类(AP)算法框图。
具体实施方式
如图1所示,是本发明提供的一种三维形象发音口型模拟方法的第一实施例,在本实施例中,包括以下步骤:
S10:在测试人员嘴部粘贴多个小色块,使得小色块覆盖满测试人员嘴部且相邻小色块之间的色彩不同,其中小色块为直径小于2mm的圆形;
S20:在测试人员正对面设置三个摄像机,其中三个摄像机的镜头相互垂直,并以三个摄像机的空间位置建立三维坐标系;
S30:测试人员朗读文本,三个摄像机采集测试人员的朗读录像;
S40:对朗读录像按照音频中的音素进行拆分,得到音素录像集,音素录像集的每个视频段为一个音素对应的录像;
S50:对得到的音素录像集进行处理,得到音素录像集中每个元素对应的每个小色块的运动轨迹并记为单音素小色块轨迹集;
S60:以音素录像集建立相邻录像集并进行处理,得到相邻录像对应的音素变化过程的小色块运动轨迹记为音素变化小色块轨迹集;
S70:对单音素小色块轨迹集进行处理得到单音素小色块稳定坐标集;
S80:建立三维虚拟人嘴部模型,并根据单音素小色块稳定坐标集建立每个音素对应的口型模型;
S90:根据需要读取的文本,建立口型模型序列,并对口型模型序列中相邻的口型,以音素变化小色块轨迹集构建口型变动过程。
由于人类语言中,当前音素的发音受之后音素发音的影响要远远大于受之前音素发音的影响,因此需要建立相邻录像集,并对相邻录像对应的音素变化过程的小色块运动轨迹记为音素变化小色块轨迹集。
其中,在上述技术方案中,步骤S50中,对得到的音素录像集进行处理的具体步骤包括:
步骤一:将音素录像集中包含的视频段进行清晰化处理;
步骤二:对清晰化处理后的视频段中的每一帧中的各个小色块的中心坐标进行记录作为小色块坐标;
步骤三:将小色块坐标按照视频段的时间轴时域集合做为运动轨迹。
进一步的,在上述技术方案中,步骤“将音素录像集中包含的视频段进行清晰化处理”具体为:
将视频流信号转成YUV三分量,并获取视频流信号内各帧图像中像素的Y分量;
对各像素的Y分量进行加权统计计算;其中,采用如下公式对各像素的Y分量进行加权统计计算:
Figure DEST_PATH_IMAGE008
其中,
Figure 826120DEST_PATH_IMAGE002
Figure 459227DEST_PATH_IMAGE003
分别表示第n帧图像中像素的加权统计计算的结果;n为大于0的自然数;i,j为像素的行列坐标;
Figure 169694DEST_PATH_IMAGE004
=0;
Figure 179238DEST_PATH_IMAGE005
表示第n帧图像当前像素的Y分量;
Figure 540818DEST_PATH_IMAGE006
根据加权统计计算的结果及相应像素的Y分量判断该像素是否存在噪声,根据加权统计计算的结果与相应像素的Y分量进行计算,计算公式如下:
Figure DEST_PATH_IMAGE009
根据计算结果L1与L2判断对应帧的像素是否存在噪声;
若是,则根据加权统计计算的结果对相应像素进行清晰处理,具体为:
获取存在噪声的像素加权统计计算的结果
Figure 813668DEST_PATH_IMAGE002
将加权统计计算的结果
Figure 277010DEST_PATH_IMAGE002
赋值给相应像素的Y分量。
其中,YUV是编译true-color颜色空间的种类,“Y”表示像素的明亮度(Luminance、Luma),“U”和“V”则分别表示像素的色度、浓度(Chrominance、Chroma)。需要说明的是,上述将视频流信号转成YUV三分量可以采用已有技术,本发明中不予赘述。
对各像素的Y分量进行加权统计计算。即统计连续多帧视频图像的像素变化情况,离的越远的帧,它对当前帧各像素的影响权重就越低。需要说明的是,本发明中只对Y分量进行加权统计计算,而U分量与V分量保持不变。
其中,在上述技术方案中,步骤S60中,以音素录像集建立相邻录像集并进行处理的步骤具体包括:
步骤一:提取相邻录像集中的相邻音素,提取方式为除第一个音素外,每一个音素与其前面的一个音素作为相邻音素;
步骤二:根据相邻音素中第一个音素和第二个音素的发音时长进行归一处理后作为发音权重,建立相邻音素发音权重序列;
步骤三:将单音素小色块轨迹集与相邻音素发音权重序列拟合并优化得到音素变化小色块轨迹集。
进一步的,在上述技术方案中,“将单音素色小块轨迹集与相邻音素发音权重序列拟合”的具体步骤为:
步骤一:将单音素小色块轨迹集与相邻音素发音权重按照音素进行匹配,得到相邻音素发音权重小色块轨迹集;
步骤二:在三维坐标轴中,相邻音素发音权重小色块轨迹集的坐标乘以权重,得到相邻音素发音权重序列拟合曲线。
进一步的,在上述技术方案中,“将单音素小色块轨迹集与相邻音素发音权重序列拟合并优化”中,优化的具体步骤为:
步骤一:选择全部的具有相同相邻音素的相邻音素发音权重序列拟合曲线作为归类集;
步骤二:利用近邻传播聚类算法对归类集中的每个相邻音素发音权重序列拟合曲线聚为一类,并得到该类的聚类中心,作为相邻录像对应的音素变化过程的小色块运动轨迹并记为音素变化小色块轨迹集。
其中,在上述技术方案中,步骤S70中具体为:利用近邻传播聚类算法将单音素小色块轨迹集的所有坐标聚为一类,并得到该类的聚类中心作为单音素小色块稳定坐标集。
其中,在上述技术方案中,步骤S10还包括:在测试人员嘴部粘贴多个小色块之前,将测试人员嘴部涂为白色。
其中,在上述技术方案中,测试人员的朗读文本包含所有音素,且包含所有音素的相邻组合。
其中,在上述技术方案中,小色块采用柔性材料制成,小色块的颜色与测试人员嘴部颜色有明显不同。
其中,近邻传播聚类算法(AP)是一种基于图论的聚类算法。其基本思想是将全部待聚类样本看作是网络中的节点,且都当作潜在的聚类中心,待聚类样本间通过相似度连线构成一个网络(相似度矩阵S),再通过网络中各条边的消息(吸引度responsibility和归属度availability)的传递,进而计算出待聚类样本集的聚类中心。近邻传播聚类算法的框图如附图2所示。
根据数据标准化预处理后的待聚类样本集计算相似矩阵S(j ,h),S(j ,h)表示数据点h(也就是单音素小色块轨迹集的坐标)适合作为数据点j的聚类中心的能力,一般使用负的欧式距离:
Figure DEST_PATH_IMAGE010
对于网络中的所有待聚类样本,借助图论中邻接矩阵的思想,我们可以计算得到吸引度矩阵R(j ,h)和归属度矩阵A(j ,h)。其中,R(j ,h)表示每个候选聚类中心h相对其他候选聚类中心
Figure DEST_PATH_IMAGE011
对待聚类样本j的吸引程度,A(j ,h)表示每个待聚类样本j对候选聚类中心h的归属度:
Figure DEST_PATH_IMAGE013
为避免在迭代计算过程中R(j ,h)和A(j ,h)出现震荡现象,引入衰减因子λ:
Figure DEST_PATH_IMAGE014
其中衰减因子λ的取值范围为(0,1)。
AP算法通过迭代更新上述吸引度矩阵R(j ,h)和归属度矩阵A(j ,h)的值的方式来实现聚类效果。当R(j ,h)和A(j ,h)达到稳定,或者达到最大迭代次数时,结束算法迭代,并选取R(j ,h)+ A(j ,h)最大的待聚类样本作为聚类中心c,将c作为单音素小色块稳定坐标集。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种三维形象发音口型模拟方法,其特征在于,包括以下步骤:
S10:在测试人员嘴部粘贴多个小色块,使得小色块覆盖满测试人员嘴部且相邻小色块之间的色彩不同,其中所述小色块为直径小于2mm的圆形;
S20:在测试人员正对面设置三个摄像机,其中所述三个摄像机的镜头相互垂直,并以三个摄像机的空间位置建立三维坐标系;
S30:测试人员朗读文本,三个摄像机采集测试人员的朗读录像;
S40:对朗读录像按照音频中的音素进行拆分,得到音素录像集,所述音素录像集的每个视频段为一个音素对应的录像;
S50:对得到的音素录像集进行处理,得到所述音素录像集中每个元素对应的每个小色块的运动轨迹并记为单音素小色块轨迹集;
S60:以音素录像集建立相邻录像集并进行处理,得到相邻录像对应的音素变化过程的小色块运动轨迹记为音素变化小色块轨迹集;
S70:对单音素小色块轨迹集进行处理得到单音素小色块稳定坐标集;
S80:建立三维虚拟人嘴部模型,并根据单音素小色块稳定坐标集建立每个音素对应的口型模型;
S90:根据需要读取的文本,建立口型模型序列,并对所述口型模型序列中相邻的口型,以音素变化小色块轨迹集构建口型变动过程。
2.根据权利要求1所述的一种三维形象发音口型模拟方法,其特征在于,所述步骤S50中,对得到的音素录像集进行处理的具体步骤包括:
步骤一:将音素录像集中包含的视频段进行清晰化处理;
步骤二:对清晰化处理后的视频段中的每一帧中的各个小色块的中心坐标进行记录作为小色块坐标;
步骤三:将小色块坐标按照视频段的时间轴时域集合做为运动轨迹。
3.根据权利要求2所述的一种三维形象发音口型模拟方法,其特征在于,所述步骤“将音素录像集中包含的视频段进行清晰化处理”具体为:
将视频流信号转成YUV三分量,并获取视频流信号内各帧图像中像素的Y分量;
对各像素的Y分量进行加权统计计算;其中,采用如下公式对各像素的Y分量进行加权统计计算:
Figure 452221DEST_PATH_IMAGE001
其中,
Figure 634941DEST_PATH_IMAGE002
Figure 883519DEST_PATH_IMAGE003
分别表示第n帧图像中像素的加权统计计算的结果;n为大于0的自然数;i,j为像素的行列坐标;
Figure 747570DEST_PATH_IMAGE004
=0;
Figure 765205DEST_PATH_IMAGE005
表示第n帧图像当前像素的Y分量;
Figure 305776DEST_PATH_IMAGE006
根据加权统计计算的结果及相应像素的Y分量判断该像素是否存在噪声,根据加权统计计算的结果与相应像素的Y分量进行计算,计算公式如下:
Figure 41651DEST_PATH_IMAGE007
Figure 506131DEST_PATH_IMAGE008
根据计算结果L1与L2判断对应帧的像素是否存在噪声;
若是,则根据加权统计计算的结果对相应像素进行清晰处理,具体为:
获取存在噪声的像素加权统计计算的结果
Figure 643851DEST_PATH_IMAGE009
将加权统计计算的结果
Figure 840477DEST_PATH_IMAGE010
赋值给相应像素的Y分量。
4.根据权利要求1所述的一种三维形象发音口型模拟方法,其特征在于,所述步骤S60中,以音素录像集建立相邻录像集并进行处理的步骤具体包括:
步骤一:提取相邻录像集中的相邻音素,所述提取方式为除第一个音素外,每一个音素与其前面的一个音素作为相邻音素;
步骤二:根据相邻音素中第一个音素和第二个音素的发音时长进行归一处理后作为发音权重,建立相邻音素发音权重序列;
步骤三:将单音素小色块轨迹集与相邻音素发音权重序列拟合并优化得到音素变化小色块轨迹集。
5.根据权利要求4所述的一种三维形象发音口型模拟方法,其特征在于,所述“将单音素色小块轨迹集与相邻音素发音权重序列拟合”的具体步骤为:
步骤一:将单音素小色块轨迹集与相邻音素发音权重按照音素进行匹配,得到相邻音素发音权重小色块轨迹集;
步骤二:在三维坐标轴中,相邻音素发音权重小色块轨迹集的坐标乘以权重,得到相邻音素发音权重序列拟合曲线。
6.根据权利要求5所述的一种三维形象发音口型模拟方法,其特征在于,所述“将单音素小色块轨迹集与相邻音素发音权重序列拟合并优化”中,优化的具体步骤为:
步骤一:选择全部的具有相同相邻音素的相邻音素发音权重序列拟合曲线作为归类集;
步骤二:利用近邻传播聚类算法对所述归类集中的每个相邻音素发音权重序列拟合曲线聚为一类,并得到该类的聚类中心,作为相邻录像对应的音素变化过程的小色块运动轨迹并记为音素变化小色块轨迹集。
7.根据权利要求1所述的一种三维形象发音口型模拟方法,其特征在于,所述步骤S70中具体为:利用近邻传播聚类算法将单音素小色块轨迹集的所有坐标聚为一类,并得到该类的聚类中心作为单音素小色块稳定坐标集。
8.根据权利要求1所述的一种三维形象发音口型模拟方法,其特征在于,所述步骤S10还包括:在测试人员嘴部粘贴多个小色块之前,将测试人员嘴部涂为白色。
9.根据权利要求1所述的一种三维形象发音口型模拟方法,其特征在于,所述测试人员的朗读文本包含所有音素,且包含所有音素的相邻组合。
10.根据权利要求1所述的一种三维形象发音口型模拟方法,其特征在于,所述小色块采用柔性材料制成,所述小色块的颜色与测试人员嘴部颜色有明显不同。
CN202211687841.5A 2022-12-28 2022-12-28 一种三维形象发音口型模拟方法 Active CN115690280B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211687841.5A CN115690280B (zh) 2022-12-28 2022-12-28 一种三维形象发音口型模拟方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211687841.5A CN115690280B (zh) 2022-12-28 2022-12-28 一种三维形象发音口型模拟方法

Publications (2)

Publication Number Publication Date
CN115690280A true CN115690280A (zh) 2023-02-03
CN115690280B CN115690280B (zh) 2023-03-21

Family

ID=85056578

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211687841.5A Active CN115690280B (zh) 2022-12-28 2022-12-28 一种三维形象发音口型模拟方法

Country Status (1)

Country Link
CN (1) CN115690280B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116863046A (zh) * 2023-07-07 2023-10-10 广东明星创意动画有限公司 一种虚拟口型生成方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021073416A1 (zh) * 2019-10-18 2021-04-22 平安科技(深圳)有限公司 基于神经网络生成虚拟人物视频的方法及相关设备
CN113781610A (zh) * 2021-06-28 2021-12-10 武汉大学 一种虚拟人脸的生成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021073416A1 (zh) * 2019-10-18 2021-04-22 平安科技(深圳)有限公司 基于神经网络生成虚拟人物视频的方法及相关设备
CN113781610A (zh) * 2021-06-28 2021-12-10 武汉大学 一种虚拟人脸的生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李冰锋;谢磊;周祥增;付中华;张艳宁;: "实时语音驱动的虚拟说话人" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116863046A (zh) * 2023-07-07 2023-10-10 广东明星创意动画有限公司 一种虚拟口型生成方法、装置、设备及存储介质
CN116863046B (zh) * 2023-07-07 2024-03-19 广东明星创意动画有限公司 一种虚拟口型生成方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN115690280B (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
CN111582241B (zh) 视频字幕识别方法、装置、设备及存储介质
WO2021043053A1 (zh) 一种基于人工智能的动画形象驱动方法和相关装置
CN110866968A (zh) 基于神经网络生成虚拟人物视频的方法及相关设备
CN111325817A (zh) 一种虚拟人物场景视频的生成方法、终端设备及介质
CN110414519A (zh) 一种图片文字的识别方法及其识别装置
CN107992195A (zh) 一种教学内容的处理方法、装置、服务器及存储介质
CN106504304A (zh) 一种动画合成的方法及装置
CN107644085A (zh) 体育赛事新闻的生成方法和装置
CN109474850B (zh) 运动像素视频特效添加方法、装置、终端设备及存储介质
US11847726B2 (en) Method for outputting blend shape value, storage medium, and electronic device
CN113035199B (zh) 音频处理方法、装置、设备及可读存储介质
CN115690280B (zh) 一种三维形象发音口型模拟方法
CN110505498A (zh) 视频的处理、播放方法、装置及计算机可读介质
CN110516266A (zh) 视频字幕自动翻译方法、装置、存储介质及计算机设备
CN113870395A (zh) 动画视频生成方法、装置、设备及存储介质
CN110969681A (zh) 一种基于gan网络的手写体书法文字生成方法
CN116109455B (zh) 一种基于人工智能的语言教学辅助系统
CN115348458A (zh) 虚拟直播控制方法以及系统
CN111460094A (zh) 一种基于tts的音频拼接优化的方法及其装置
CN113395569B (zh) 视频生成方法及装置
CN116229311B (zh) 视频处理方法、装置及存储介质
CN112488114A (zh) 一种图片合成方法及装置、文字识别系统
CN112002005A (zh) 一种基于云端的远程虚拟协同主持的方法
CN117119123A (zh) 一种基于视频素材生成数字人视频的方法及系统
CN115529500A (zh) 动态影像的生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant