CN110942502A - 语音唇形拟合方法、系统及存储介质 - Google Patents
语音唇形拟合方法、系统及存储介质 Download PDFInfo
- Publication number
- CN110942502A CN110942502A CN201911195998.4A CN201911195998A CN110942502A CN 110942502 A CN110942502 A CN 110942502A CN 201911195998 A CN201911195998 A CN 201911195998A CN 110942502 A CN110942502 A CN 110942502A
- Authority
- CN
- China
- Prior art keywords
- lip
- voice
- feature vector
- neural network
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 239000013598 vector Substances 0.000 claims abstract description 135
- 230000004927 fusion Effects 0.000 claims abstract description 71
- 238000013528 artificial neural network Methods 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000013527 convolutional neural network Methods 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 17
- 238000010586 diagram Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 9
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- HEMJJKBWTPKOJG-UHFFFAOYSA-N Gemfibrozil Chemical compound CC1=CC=C(C)C(OCCCC(C)(C)C(O)=O)=C1 HEMJJKBWTPKOJG-UHFFFAOYSA-N 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种语音唇形拟合方法,包括以下内容:采集目标人物视频数据集的图像数据和语音数据;提取所述图像数据中目标人物的唇形特征向量;提取所述语音数据中目标人物的语音特征向量;以语音特征向量为输入,唇形特征向量为输出,训练多尺度融合卷积神经网络;向多尺度融合卷积神经网络输入目标人物待拟合的语音特征向量,多尺度融合卷积神经网络生成拟合的唇形特征向量并进行输出,基于所述唇形特征向量对唇形进行拟合。
Description
技术领域
本发明涉及语音信号技术领域,更具体地,涉及一种语音唇形拟合方法、系统及存储介质。
背景技术
根据语音生成相应唇形的语音唇形拟合技术,是虚拟主播、虚拟形象机器人、动画角色嘴型设计等应用的基础技术之一。准确、流畅地根据语音拟合出唇形,是该项技术难点所在。
目前,基于语音拟合唇形在技术上主要通过以下两种方案实现:
1)根据音素理论和基本唇形理论,利用贝叶斯估计、隐马尔可夫模型、BP神经网络等进行唇形分类后,通过插值估计产生唇形序列的方法。
2)利用LSTM、RNN等循环神经网络进行序列到序列映射的唇形估计方法。
然而,以上两种方案在实际使用时,存在着以下问题:1)类技术方案理论较多、步骤繁琐、模型计算量大、唇形拟合准确率低;2)类技术方案并行度低、运算速度慢、唇形特征点标签采集精确度低、方案整体效率低。
发明内容
本发明为解决现有技术提供的语音唇形拟合方法存在的拟合准确率低的技术缺陷,提供了一种语音唇形拟合方法。
为实现以上发明目的,采用的技术方案是:
语音唇形拟合方法,包括以下内容:
采集目标人物视频数据集的图像数据和语音数据;
提取所述图像数据中目标人物的唇形特征向量;
提取所述语音数据中目标人物的语音特征向量;
以语音特征向量为输入,唇形特征向量为输出,训练多尺度融合卷积神经网络;
向多尺度融合卷积神经网络输入目标人物待拟合的语音特征向量,多尺度融合卷积神经网络生成拟合的唇形特征向量并进行输出,基于所述唇形特征向量对唇形进行拟合。
优选地,所述目标人物视频数据集的图像数据和语音数据同步及同帧率进行采集。
优选地,所述目标人物视频数据集通过三维结构光深度相机采集。
优选地,所述目标人物的唇形特征向量由采集的图像数据逐帧画面中嘴唇、下巴和脸颊部位的30维BlendShape系数向量组成。
优选地,所述提取语音数据中目标人物的语音特征向量的具体过程如下:
对采集的目标人物的语音数据逐帧进行梅尔频率倒谱系数的特征向量提取;
获取一个经过语音识别训练的深度神经网络,并去除掉最后的CTC分类损失层;
将提取的梅尔频率倒谱系数特征向量逐帧输入所述深度神经网络,深度神经网络输出语音数据经过二次提取后的特征向量,即为所需语音特征向量。
优选地,所述训练多尺度融合卷积神经网络的具体过程如下:
A、设采集的语音数据长度共为a帧,帧序号为从1到a,则按照[1:m][2:(m+1)]...[(a-m+1):a]的形式进行滑动帧序分组,将提取的语音特征向量构造成大小为m×n的二维矩阵形式;
B、将所述提取的唇形特征向量构造成大小为m×30的二维矩阵形式;
C、构造多尺度融合卷积神经网络;
D、将所述唇形特征向量展平成一维向量作为所述多尺度融合卷积神经网络训练的标签向量;
E、向所述多尺度融合卷积神经网络输入提取的语音特征向量;
F、根据多尺度融合卷积神经网络的输出计算损失函数,并基于所述损失函数根据反向传播和梯度下降原理调整多尺度融合卷积神经网络的各层权重;
G、重复步骤E、F直至损失函数值符合要求。
其中每一层的二维卷积层的输出特征图大小和输入特征图大小相同;
语音特征向量通过首端的二维卷积层输入,二维卷积层的输出特征图分为两路传输,一路传到下一层二维卷积层,另一路直接传输到加权融合层缓存;当尾端的二维卷积层的输出特征图生成并传输到加权融合层缓存时,将加权融合层中缓存的输出特征图按各自层的权重大小加和输出;将加权融合层的输出展平成一维向量,输入全连接层;全连接层输出的一维向量即为唇形特征的预测向量,基于所述唇形特征的预测向量拟合唇形。
优选地,所述训练的损失函数计算如下:
其中,loss(i)表示输入的第i个语音特征向量的唇形拟合相对误差值,p(i)表示第i个语音特征向量输入多尺度融合卷积神经网络后得到的唇形特征的预测向量,g(i)表示第i个语音特征向量对应的真实唇形特征向量值。
同时,本发明还提供了一种应用以上方法的语音唇形拟合系统,其具体的方案如下:
包括数据采集模块、唇形特征向量提取模块、语音特征向量提取模块、多尺度融合卷积神经网络训练模块和语音唇形拟合模块;
其中数据采集模块用于采集目标人物视频数据集的图像数据和语音数据;
唇形特征向量提取模块用于提取所述图像数据中目标人物的唇形特征向量;
语音特征向量提取模块用于提取所述语音数据中目标人物的语音特征向量;
多尺度融合卷积神经网络训练模块用于以语音特征向量为输入,唇形特征向量为输出,训练多尺度融合卷积神经网络;
语音唇形拟合模块用于向多尺度融合卷积神经网络输入目标人物待拟合的语音特征向量,多尺度融合卷积神经网络生成拟合的唇形特征向量并进行输出,基于所述唇形特征向量对唇形进行拟合。
另外,本发明还提供了一种存储介质,其内部存储有程序,所述程序运行时执行以上的语音唇形拟合方法。
与现有技术相比,本发明的有益效果是:
(1)采用三维结构光深度相机提取人脸与唇形相关的BlendShape系数,能准确地产生和语音相对应的准确唇形系数向量作为多尺度融合卷积神经网络训练的标签向量,也有利于生成由BlendShape系数控制的唇形动画;
(2)对语音数据进行特征二次提取,既有梅尔频率倒谱系数的梅尔频域特征特性,又有语音识别在音素、字词方面的语义特征,更利于语音特征准确地拟合唇形;
(3)将语音特征向量和唇形特征向量用滑动帧序分组,在保证连贯性的情况下,大幅增加训练样本,降低采集训练数据的时间成本;使用多尺度融合卷积神经网络运算,相比循环神经网络,提高并行度,增加了运算效率;使用多个尺度特征图的加权融合,可同时兼顾语音特征向量在时间和特征维度上的关联性,进一步提升唇形拟合的准确度、连贯性和泛化能力;训练的损失函数使用相对误差的形式,更利于观测网络的拟合量化效果。
附图说明
图1为实施例1的基于多尺度融合卷积神经网络语音唇形拟合方法的流程图。
图2为实施例1的多尺度融合卷积神经网络的网络结构示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
以下结合附图和实施例对本发明做进一步的阐述。
实施例1
如图1所示,为本实施例的基于多尺度融合卷积神经网络语音唇形拟合方法的流程图。
本实施例的基于多尺度融合卷积神经网络的语音唇形拟合方法,包括以下步骤:
S1:采集目标人物视频数据集的图像数据和语音数据。本步骤中需要以同时、同帧率采集目标人物视频数据集的图像数据和语音数据,并且所述目标人物视频数据集的图像数据需要使用三维结构光深度相机采集。在本实施例中,利用MacOS和ARKit编写人脸追踪程序,在IphoneX设备上运行,利用其前置摄像头,进行所述视频图像数据采集,帧率为60帧每秒。
S2:提取所述图像数据中目标人物的唇形特征向量。本步骤中,目标人物的唇形特征向量,是由S1步骤采集的目标人物图像数据逐帧画面中嘴唇、下巴和脸颊部位的30维BlendShape系数向量组成。在本实施例中,所述系数向量,由步骤S1中ARKit编写的人脸追踪程序,自动提取并保存在设备文件中,待采集完毕,再上传到电脑上处理;BlendShape系数是在0.0-1.0之间的浮点数。
S3:提取所述语音数据中目标人物的语音特征向量。其具体步骤如下:
S3.1:对S1步骤采集的目标人物语音数据逐帧进行梅尔频率倒谱系数的特征向量提取;在本实施例中,梅尔频率倒谱系数的维度选为26维;
S3.2:获取一个经过语音识别训练的深度神经网络,并去除掉最后的CTC分类损失层;在本实施例中,获取DeepSpeech神经网络框架;
S3.3:将S3.1中提取的梅尔频率倒谱系数特征向量逐帧输入S3.2所述网络中,输出语音数据经过二次提取后的29维特征向量,即为所需语音特征向量。
S4:以语音特征向量为输入,唇形特征向量为输出,训练多尺度融合卷积神经网络,实现语音特征到唇形特征的映射拟合。其具体步骤如下:
S4.1:设S1步骤所采集的目标人物语音数据长度共a帧,帧序号为从1到a,则按照[1:m][2:(m+1)]...[(a-m+1):a]的形式进行滑动帧序分组,将所述语音特征向量构造成大小为m×29的二维矩阵形式;在本实施例中m=30;
S4.2:由于S1步骤所采集的目标人物图像数据和语音数据是同等时长、同等帧率的,因此将所述唇形特征向量构造成大小为30×30的二维矩阵形式;
S4.3:构造多尺度融合卷积神经网络,如图2所示;所述网络由7层二维卷积层、加权融合层和全连接层依次连接构成;其中二维卷积层大小均为3×3;每一层二维卷积层的输出特征图大小和输入特征图相同,并分成两路传输,一路传到下一层卷积层,另一路直接传到加权融合层缓存;当最后一层二维卷积层的输出特征图生成并传到加权融合层缓存时,将加权融合层中缓存的输出特征图按各自层的权重大小[f1:f7]加和输出,其中所述各自层的权重大小为可训练参数;将加权融合层的输出展平成一维向量,输入全连接层;全连接层输出的一维向量即为唇形特征的预测向量;
S4.4:将S4.2所述的唇形特征向量展平成一维向量,作为所述多尺度融合卷积神经网络训练的标签向量;其中训练的损失函数为:
其中,loss(i)表示输入的第i个语音特征向量的唇形拟合相对误差值,p(i)表示第i个语音特征向量输入多尺度融合卷积神经网络后得到的唇形特征的预测向量,g(i)表示第i个语音特征向量对应的真实唇形特征向量值;根据误差的反向传播和梯度下降原理,训练调整所述多尺度融合卷积神经网络中二维卷积层、加权融合层、全连接层的权重,至所有语音特征向量拟合得到的损失函数值最小。在本实施例中,录制了约437分钟的训练数据集;训练时为了缓解过拟合,在全连接层前后分别加入Dropout层,Dropout比例设为0.5;计算梯度下降时的批量数为1;初始学习率为0.1,之后一旦出现连续八次损失函数不下降,则减少20%学习率;训练结束后,损失函数值低至0.1,拟合精确度高。
S5:以唇形特征生成唇形画面。本步骤中,需要将步骤S4拟合得到的唇形特征向量,逐帧合成对应的唇形,可得到流畅的唇形画面。在本实施例中,将唇形特征向量编译为FBX文件,导入到Unity3D引擎中,可看到唇形画面。测试一些未在步骤S4训练的音频片段,依旧能观测到拟合出的唇形非常准确,模型泛化性能良好。
实施例2
本实施例提供了一种应用实施例1语音唇形拟合方法的系统,其具体的方案如下:
包括数据采集模块、唇形特征向量提取模块、语音特征向量提取模块、多尺度融合卷积神经网络训练模块和语音唇形拟合模块;
其中数据采集模块用于采集目标人物视频数据集的图像数据和语音数据;
唇形特征向量提取模块用于提取所述图像数据中目标人物的唇形特征向量;
语音特征向量提取模块用于提取所述语音数据中目标人物的语音特征向量;
多尺度融合卷积神经网络训练模块用于以语音特征向量为输入,唇形特征向量为输出,训练多尺度融合卷积神经网络;
语音唇形拟合模块用于向多尺度融合卷积神经网络输入目标人物待拟合的语音特征向量,多尺度融合卷积神经网络生成拟合的唇形特征向量并进行输出,基于所述唇形特征向量对唇形进行拟合。
实施例3
本实施例提供了一种存储介质,所述存储介质内存储有程序,所述程序运行时执行实施例1的语音唇形拟合方法的方法步骤。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.语音唇形拟合方法,其特征在于:包括以下内容:
采集目标人物视频数据集的图像数据和语音数据;
提取所述图像数据中目标人物的唇形特征向量;
提取所述语音数据中目标人物的语音特征向量;
以语音特征向量为输入,唇形特征向量为输出,训练多尺度融合卷积神经网络;
向多尺度融合卷积神经网络输入目标人物待拟合的语音特征向量,多尺度融合卷积神经网络生成拟合的唇形特征向量并进行输出,基于所述唇形特征向量对唇形进行拟合。
2.根据权利要求1所述的语音唇形拟合方法,其特征在于:所述目标人物视频数据集的图像数据和语音数据同步及同帧率进行采集。
3.根据权利要求1所述的语音唇形拟合方法,其特征在于:所述目标人物视频数据集通过三维结构光深度相机采集。
4.根据权利要求1所述的语音唇形拟合方法,其特征在于:所述目标人物的唇形特征向量由采集的图像数据逐帧画面中嘴唇、下巴和脸颊部位的30维BlendShape系数向量组成。
5.根据权利要求4所述的语音唇形拟合方法,其特征在于:所述提取语音数据中目标人物的语音特征向量的具体过程如下:
对采集的目标人物的语音数据逐帧进行梅尔频率倒谱系数的特征向量提取;
获取一个经过语音识别训练的深度神经网络,并去除掉最后的CTC分类损失层;
将提取的梅尔频率倒谱系数特征向量逐帧输入所述深度神经网络,深度神经网络输出语音数据经过二次提取后的特征向量,即为所需语音特征向量。
6.根据权利要求5所述的语音唇形拟合方法,其特征在于:所述训练多尺度融合卷积神经网络的具体过程如下:
A、设采集的语音数据长度共为a帧,帧序号为从1到a,则按照[1:m][2:(m+1)]...[(a-m+1):a]的形式进行滑动帧序分组,将提取的语音特征向量构造成大小为m×n的二维矩阵形式;
B、将所述提取的唇形特征向量构造成大小为m×30的二维矩阵形式;
C、构造多尺度融合卷积神经网络;
D、将所述唇形特征向量展平成一维向量作为所述多尺度融合卷积神经网络训练的标签向量;
E、向所述多尺度融合卷积神经网络输入提取的语音特征向量;
F、根据多尺度融合卷积神经网络的输出计算损失函数,并基于所述损失函数根据反向传播和梯度下降原理调整多尺度融合卷积神经网络的各层权重;
G、重复步骤E、F直至损失函数值符合要求。
7.根据权利要求6所述的语音唇形拟合方法,其特征在于:所述多尺度融合卷积神经网络包括层二维卷积层、加权融合层和全连接层;层二维卷积层首尾连接,加权融合层的输入端与层二维卷积层的输出端连接,加权融合层的输出端与全连接层的输入端连接;
其中每一层的二维卷积层的输出特征图大小和输入特征图大小相同;
语音特征向量通过首端的二维卷积层输入,二维卷积层的输出特征图分为两路传输,一路传到下一层二维卷积层,另一路直接传输到加权融合层缓存;当尾端的二维卷积层的输出特征图生成并传输到加权融合层缓存时,将加权融合层中缓存的输出特征图按各自层的权重大小加和输出;将加权融合层的输出展平成一维向量,输入全连接层;全连接层输出的一维向量即为唇形特征的预测向量,基于所述唇形特征的预测向量拟合唇形。
9.一种语音唇形拟合系统,其特征在于:包括数据采集模块、唇形特征向量提取模块、语音特征向量提取模块、多尺度融合卷积神经网络训练模块和语音唇形拟合模块;
其中数据采集模块用于采集目标人物视频数据集的图像数据和语音数据;
唇形特征向量提取模块用于提取所述图像数据中目标人物的唇形特征向量;
语音特征向量提取模块用于提取所述语音数据中目标人物的语音特征向量;
多尺度融合卷积神经网络训练模块用于以语音特征向量为输入,唇形特征向量为输出,训练多尺度融合卷积神经网络;
语音唇形拟合模块用于向多尺度融合卷积神经网络输入目标人物待拟合的语音特征向量,多尺度融合卷积神经网络生成拟合的唇形特征向量并进行输出,基于所述唇形特征向量对唇形进行拟合。
10.一种存储介质,内部存储有程序,其特征在于:所述程序运行时执行权利要求1~8任一项的语音唇形拟合方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911195998.4A CN110942502B (zh) | 2019-11-29 | 2019-11-29 | 语音唇形拟合方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911195998.4A CN110942502B (zh) | 2019-11-29 | 2019-11-29 | 语音唇形拟合方法、系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110942502A true CN110942502A (zh) | 2020-03-31 |
CN110942502B CN110942502B (zh) | 2021-10-15 |
Family
ID=69908372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911195998.4A Active CN110942502B (zh) | 2019-11-29 | 2019-11-29 | 语音唇形拟合方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110942502B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112766166A (zh) * | 2021-01-20 | 2021-05-07 | 中国科学技术大学 | 一种基于多音素选择的唇型伪造视频检测方法及系统 |
CN112802484A (zh) * | 2021-04-12 | 2021-05-14 | 四川大学 | 一种混合音频下的大熊猫声音事件检测方法及系统 |
CN113035198A (zh) * | 2021-02-26 | 2021-06-25 | 北京百度网讯科技有限公司 | 三维人脸的唇动控制方法、设备和介质 |
CN113269872A (zh) * | 2021-06-01 | 2021-08-17 | 广东工业大学 | 基于三维人脸重构和视频关键帧优化的合成视频生成方法 |
CN113420697A (zh) * | 2021-07-01 | 2021-09-21 | 中科人工智能创新技术研究院(青岛)有限公司 | 基于表观和形状特征的换装视频行人重识别方法及系统 |
CN113948105A (zh) * | 2021-09-30 | 2022-01-18 | 深圳追一科技有限公司 | 基于语音的图像生成方法、装置、设备及介质 |
CN114495903A (zh) * | 2021-12-21 | 2022-05-13 | 北京达佳互联信息技术有限公司 | 一种语言类别识别方法、装置、电子设备和存储介质 |
CN116312612A (zh) * | 2023-02-02 | 2023-06-23 | 北京甲板智慧科技有限公司 | 基于深度学习的音频处理方法和装置 |
CN117152317B (zh) * | 2023-11-01 | 2024-02-13 | 之江实验室科技控股有限公司 | 数字人界面控制的优化方法 |
CN117765214A (zh) * | 2024-02-21 | 2024-03-26 | 飞狐信息技术(天津)有限公司 | 3d数字人唇形实时驱动方法、装置、终端和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101751692A (zh) * | 2009-12-24 | 2010-06-23 | 四川大学 | 语音驱动唇形动画的方法 |
US20140097957A1 (en) * | 1995-06-07 | 2014-04-10 | American Vehicular Sciences Llc | Driver fatigue monitoring system and method |
CN106653052A (zh) * | 2016-12-29 | 2017-05-10 | Tcl集团股份有限公司 | 虚拟人脸动画的生成方法及装置 |
CN109243490A (zh) * | 2018-10-11 | 2019-01-18 | 平安科技(深圳)有限公司 | 司机情绪识别方法及终端设备 |
CN109308731A (zh) * | 2018-08-24 | 2019-02-05 | 浙江大学 | 级联卷积lstm的语音驱动唇形同步人脸视频合成算法 |
CN109614895A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于attention特征融合的多模态情感识别的方法 |
-
2019
- 2019-11-29 CN CN201911195998.4A patent/CN110942502B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140097957A1 (en) * | 1995-06-07 | 2014-04-10 | American Vehicular Sciences Llc | Driver fatigue monitoring system and method |
CN101751692A (zh) * | 2009-12-24 | 2010-06-23 | 四川大学 | 语音驱动唇形动画的方法 |
CN106653052A (zh) * | 2016-12-29 | 2017-05-10 | Tcl集团股份有限公司 | 虚拟人脸动画的生成方法及装置 |
CN109308731A (zh) * | 2018-08-24 | 2019-02-05 | 浙江大学 | 级联卷积lstm的语音驱动唇形同步人脸视频合成算法 |
CN109243490A (zh) * | 2018-10-11 | 2019-01-18 | 平安科技(深圳)有限公司 | 司机情绪识别方法及终端设备 |
CN109614895A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于attention特征融合的多模态情感识别的方法 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112766166B (zh) * | 2021-01-20 | 2022-09-06 | 中国科学技术大学 | 一种基于多音素选择的唇型伪造视频检测方法及系统 |
CN112766166A (zh) * | 2021-01-20 | 2021-05-07 | 中国科学技术大学 | 一种基于多音素选择的唇型伪造视频检测方法及系统 |
CN113035198A (zh) * | 2021-02-26 | 2021-06-25 | 北京百度网讯科技有限公司 | 三维人脸的唇动控制方法、设备和介质 |
CN113035198B (zh) * | 2021-02-26 | 2023-11-21 | 北京百度网讯科技有限公司 | 三维人脸的唇动控制方法、设备和介质 |
CN112802484A (zh) * | 2021-04-12 | 2021-05-14 | 四川大学 | 一种混合音频下的大熊猫声音事件检测方法及系统 |
CN112802484B (zh) * | 2021-04-12 | 2021-06-18 | 四川大学 | 一种混合音频下的大熊猫声音事件检测方法及系统 |
CN113269872A (zh) * | 2021-06-01 | 2021-08-17 | 广东工业大学 | 基于三维人脸重构和视频关键帧优化的合成视频生成方法 |
CN113420697B (zh) * | 2021-07-01 | 2022-12-09 | 中科人工智能创新技术研究院(青岛)有限公司 | 基于表观和形状特征的换装视频行人重识别方法及系统 |
CN113420697A (zh) * | 2021-07-01 | 2021-09-21 | 中科人工智能创新技术研究院(青岛)有限公司 | 基于表观和形状特征的换装视频行人重识别方法及系统 |
CN113948105A (zh) * | 2021-09-30 | 2022-01-18 | 深圳追一科技有限公司 | 基于语音的图像生成方法、装置、设备及介质 |
CN114495903A (zh) * | 2021-12-21 | 2022-05-13 | 北京达佳互联信息技术有限公司 | 一种语言类别识别方法、装置、电子设备和存储介质 |
CN116312612A (zh) * | 2023-02-02 | 2023-06-23 | 北京甲板智慧科技有限公司 | 基于深度学习的音频处理方法和装置 |
CN116312612B (zh) * | 2023-02-02 | 2024-04-16 | 北京甲板智慧科技有限公司 | 基于深度学习的音频处理方法和装置 |
CN117152317B (zh) * | 2023-11-01 | 2024-02-13 | 之江实验室科技控股有限公司 | 数字人界面控制的优化方法 |
CN117765214A (zh) * | 2024-02-21 | 2024-03-26 | 飞狐信息技术(天津)有限公司 | 3d数字人唇形实时驱动方法、装置、终端和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110942502B (zh) | 2021-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110942502B (zh) | 语音唇形拟合方法、系统及存储介质 | |
CN109308731B (zh) | 级联卷积lstm的语音驱动唇形同步人脸视频合成算法 | |
CN108615009B (zh) | 一种基于动态手势识别的手语翻译交流系统 | |
KR101558202B1 (ko) | 아바타를 이용한 애니메이션 생성 장치 및 방법 | |
Cao et al. | Expressive speech-driven facial animation | |
CN112784730B (zh) | 一种基于时域卷积网络的多模态情感识别方法 | |
CN113378806B (zh) | 一种融合情感编码的音频驱动人脸动画生成方法及系统 | |
CN110069985B (zh) | 基于图像的目标点位置检测方法、装置、电子设备 | |
CN112581569B (zh) | 自适应情感表达的说话人面部动画生成方法及电子装置 | |
CN112308949A (zh) | 模型训练、人脸图像生成方法和装置以及存储介质 | |
CN112001992A (zh) | 基于深度学习的语音驱动3d虚拟人表情音画同步方法及系统 | |
CN113838174B (zh) | 一种音频驱动人脸动画生成方法、装置、设备与介质 | |
Zhao et al. | Predicting tongue motion in unlabeled ultrasound videos using convolutional LSTM neural networks | |
CN113077537A (zh) | 一种视频生成方法、存储介质及设备 | |
CN108648745B (zh) | 一种由唇部图像序列到语音编码参数的转换方法 | |
CN116597857A (zh) | 一种语音驱动图像的方法、系统、装置及存储介质 | |
Mattos et al. | Improving CNN-based viseme recognition using synthetic data | |
CN114170657A (zh) | 融合注意力机制与高阶特征表示的面部情感识别方法 | |
CN114694255B (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
CN114581812B (zh) | 视觉语言识别方法、装置、电子设备及存储介质 | |
CN117409121A (zh) | 基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、系统、设备及介质 | |
CN117892175A (zh) | 一种snn多模态目标识别方法、系统、设备及介质 | |
Sterpu et al. | Can dnns learn to lipread full sentences? | |
CN117668262A (zh) | 基于人工智能语音与图像识别技术的声像档案利用系统 | |
Li et al. | Estimate articulatory MRI series from acoustic signal using deep architecture |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |