CN113763519B - 一种基于深度学习的语音驱动3d人物面部表情方法 - Google Patents

一种基于深度学习的语音驱动3d人物面部表情方法 Download PDF

Info

Publication number
CN113763519B
CN113763519B CN202111321780.6A CN202111321780A CN113763519B CN 113763519 B CN113763519 B CN 113763519B CN 202111321780 A CN202111321780 A CN 202111321780A CN 113763519 B CN113763519 B CN 113763519B
Authority
CN
China
Prior art keywords
voice
model
features
animation
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111321780.6A
Other languages
English (en)
Other versions
CN113763519A (zh
Inventor
赵锐
候志迎
李帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Yuanli Digital Technology Co ltd
Original Assignee
Jiangsu Yuanli Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Yuanli Digital Technology Co ltd filed Critical Jiangsu Yuanli Digital Technology Co ltd
Priority to CN202111321780.6A priority Critical patent/CN113763519B/zh
Publication of CN113763519A publication Critical patent/CN113763519A/zh
Application granted granted Critical
Publication of CN113763519B publication Critical patent/CN113763519B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供一种基于深度学习的语音驱动3D人物面部表情方法,包括以下步骤:从制作好的动画中获取语音并提取语音特征以得到融合语音特征,将其与控制器参数对应起来构成训练数据;搭建深度学习网络模型,对语音特征从多个维度进行建模,得到抽象特征用于训练和回归预测,得到面部表情控制器参数;将融合语音特征输入上述模型中,通过实际输出与目标输出的均方误差,利用Adam优化器最小化误差,优化网络参数,得到最终模型;将语音特征经过处理后输入深度学习网络模型中,回归预测得到控制器参数,用输出的控制器参数驱动动画模型以生成面部表情动画,可以更快地得到更加稳定的动画出品,同时降低了人力和时间成本。

Description

一种基于深度学习的语音驱动3D人物面部表情方法
技术领域
本发明涉及动画制作技术领域,具体涉及一种基于深度学习的语音驱动3D人物面部表情方法。
背景技术
在现有的动画制作技术中,3D人物面部表情一般先由拍摄现场的面部捕捉技术捕捉到初步表情动画,再由制作人员制作,手动调整控制器参数值,最后得到最终面部表情动画。这个过程因为是人工参与的,所以需要耗费大量的时间和人力,而且由于制作人员的因素,最后的3D人物面部表情动画效果可能参差不齐。
申请号为CN202011413230.2的发明专利公开了一种基于深度学习框架的数字人面部表情动画自动迁移方法,使用神经网络学习不同模型之间动画控制器通道参数之间的映射关系,从而实现用已知模型动画去驱动另一模型动画的效果,但该技术依赖数字人表情模型输入的质量,需要作出多帧模型作为训练数据,前期准备则需要耗费时间和人力,同时对表情模型的要求也比较高。
发明内容
本发明的目的是提供一种基于深度学习的语音驱动3D人物面部表情方法,得到更加稳定的动画出品,同时降低了人力和时间成本。
本发明提供了如下的技术方案:
一种基于深度学习的语音驱动3D人物面部表情方法,包括以下步骤:
S1、从制作好的动画中获取每帧动画人物面部表情的控制参数及对应的语音,提取多种语音特征并进行拼接融合得到融合语音特征,将所述融合语音特征与控制器参数对应起来,共同构成训练数据;
S2、搭建深度学习网络模型,对所述语音特征从多个维度进行建模,得到抽象特征以用于训练和回归预测,得到面部表情控制器参数;
S3、模型训练,将步骤S1所述的融合语音特征输入至步骤S2所述的深度学习网络模型中获取实际输出,将语音特征对应的表情控制器参数作为网络的目标输出,获取实际输出与目标输出的均方误差,利用Adam优化器最小化误差,优化网络参数;
S4、根据步骤S3的步骤训练若干轮数,以得到最终模型;
S5、将一条语音特征经过特征提取和处理后输入所述深度学习网络模型中,回归预测得到一系列控制器参数,用输出的控制器参数驱动动画模型以生成面部表情动画。
优选的,步骤S2的所述深度学习网络模型包括
若干层CNN网络层,其每层均对融合语音特征在特征维度上进行卷积操作,以实现对特征的降维处理,得到抽象特征;
RNN层,其采用双向lstm网络,对所述CNN层提取出的特征做时间维度上的序列建模,得到特征向量;
全连接网络层,对所述特征向量进行回归预测,以得到面部表情控制器参数值。
优选的,步骤S3所述的均方误差的计算公式为:
MSELoss=
Figure 770118DEST_PATH_IMAGE001
其中,Y为输入特征对应的控制器参数值,即目标输出;Z为输入特征输入所述深度学习网络模型中回归预测得到的控制参数,即实际输出;n为训练时样本大小;m为控制器参数维度,即最后的全连接网络层维度值。
优选的,所述CNN网络层为7层,所述RNN层为1层,所述全连接网络层为两层,所述全连接网络层包括一层隐藏层。
优选的,步骤S1所述的从制作好的动画中获取每帧动画人物面部表情的控制参数包括从制作好的maya动画中提取控制器参数。
优选的,步骤S1所述的语音特征包括fbank语音特征和mfcc语音特征,并通过deepspeech开源模型的中间特征和所述语音特征在特征维度上拼接融合,作为训练用的融合语音特征。
优选的,在进行模型训练时,采用前后q帧的语音特征用于当前帧的语音特征来训练数据,其中,q≥1。
优选的,步骤S5中,将模型预测得到的控制器参数值,通过maya或ue,使得每一组控制器参数对模型产生一次形变,连起来以得到3D人物面部表情动画。
本发明的有益效果是:
(1)本发明通过语音端推理得到对应的3D人物面部表情控制器,摆脱了人的因素,得到更加稳定的动画出品,同时降低了人力和时间成本;
(2)本发明将fbank特征和deepspeech深层特征拼接作为网络的输入,起到特征增强的作用,模型的泛化性能得到提升;
(3)本发明通过若干CNN层和RNN层对原始特征进行多个维度上的建模,并用最后的若干全连接层回归出控制器参数预测值,大大提高了模型预测的准确率,保证最后的3D人物面部表情动画效果的质量。
具体实施方式
实施例一
一种基于深度学习的语音驱动3D人物面部表情方法,包括以下步骤:
S1、从制作好的动画中获取每帧动画人物面部表情的控制参数及对应的语音,提取多种语音特征并进行拼接融合得到融合语音特征,将融合语音特征与控制器参数对应起来,共同构成训练数据;
S2、搭建深度学习网络模型,对语音特征从多个维度进行建模,得到抽象特征以用于训练和回归预测,得到面部表情控制器参数;
S3、模型训练,将步骤S1的融合语音特征输入至步骤S2的深度学习网络模型中获取实际输出,将语音特征对应的表情控制器参数作为网络的目标输出,获取实际输出与目标输出的均方误差,利用Adam优化器最小化误差,优化网络参数;
S4、根据步骤S3的步骤训练若干轮数,以得到最终模型;
S5、将一条语音特征经过特征提取和处理后输入深度学习网络模型中,回归预测得到一系列控制器参数,用输出的控制器参数驱动动画模型以生成面部表情动画。
本发明通过语音端推理得到对应的3D人物面部表情控制器,摆脱了人的因素,得到更加稳定的动画出品,同时降低了人力和时间成本。
实施例二
一种基于深度学习的语音驱动3D人物面部表情方法,包括以下步骤:
S1、从制作好的maya动画中获取每帧动画人物面部表情的控制参数及对应的语音,提取包括fbank语音特征和mfcc语音特征在内的多种语音特征,通过deepspeech开源模型的中间特征和语音特征在特征维度上拼接融合,将融合语音特征与控制器参数对应起来,共同构成训练数据,实验表明加入deepspeech特征后,模型的泛化性能得到提升;
S2、搭建深度学习网络模型,其架构包括:
若干层CNN网络层,其每层均对融合语音特征在特征维度上进行卷积操作,以实现对特征的降维处理,得到抽象特征;
RNN层,其采用双向lstm网络,对CNN层提取出的特征做时间维度上的序列建模,得到特征向量;
全连接网络层,全连接网络层包括一层隐藏层,对特征向量进行回归预测,以得到面部表情控制器参数值;
S3、模型训练,将步骤S1的融合语音特征输入至步骤S2的深度学习网络模型中获取实际输出,将语音特征对应的表情控制器参数作为网络的目标输出,获取实际输出与目标输出的均方误差,其计算公式为:
MSELoss=
Figure 861440DEST_PATH_IMAGE001
其中,Y为输入特征对应的控制器参数值,即目标输出;Z为输入特征输入深度学习网络模型中回归预测得到的控制参数,即实际输出;n为训练时样本大小;m为控制器参数维度,即最后的全连接网络层维度值;
再利用Adam优化器最小化误差,优化网络参数;
S4、根据步骤S3的步骤训练若干轮数,以得到最终模型,具体的,在进行模型训练时,为了使最后结果更平滑,采用前后q帧的语音特征用于当前帧的语音特征来训练数据,其中,q≥1;
S5、将一条语音特征经过特征提取和处理后输入深度学习网络模型中,回归预测得到一系列控制器参数,将模型预测得到的控制器参数值,通过maya或ue,使得每一组控制器参数对模型产生一次形变,连起来以得到3D人物面部表情动画。
实施例三
一种基于深度学习的语音驱动3D人物面部表情方法如下:
第一步,从制作好的maya动画中获取每帧动画人物面部表情的控制参数及对应的语音,提取包括fbank语音特征和mfcc语音特征在内的多种语音特征,因为deepspeech分类层前的深层特征时间上的维度和这些特征维度相同,都是一秒50帧,本发明通过deepspeech开源模型的中间特征和语音特征在特征维度上拼接融合,将融合语音特征与控制器参数对应起来,共同构成训练数据,融合后的特征在特征维度上有109个值,实验表明加入deepspeech特征后,模型的泛化性能得到提升。
第二步,深度学习网络模型通过7层CNN层和一层RNN层对原始特征进行多个维度上的建模,并用最后的两层全连接层回归出控制器参数预测值。
CNN层每层在融合语音特征(特征大小为(1,20,109),20代表前后10帧的语音特征)的特征维度上进行卷积操作对特征进行降维,对109维的特征而言,第一层CNN将特征维度降维到55,并将卷积通道数上升为16,经过7层CNN后得到的特征维度为1,卷积通道数为256,经过CNN层后得到的特征大小为(256,20,1)。
RNN层对特征时序维度,即上述特征的20这个维度进行序列建模,这里所用的RNN为双向lstm,经过RNN层后得到的特征为512维的向量,这个向量不仅融合了特征维度上的特征信息,也在时序上对特征的重要性进行了建模。
全连接层对上述向量进行回归,包括一层隐藏层,维度为256,最后的全连接层维度为127,即回归预测得到控制器参数值。
深度学习网络模型也可根据特征维度,数据量或者其它因素对网络层数或者结构进行调整。
本模型对语音特征从多个维度进行建模,得到的抽象特征可以有效地用于训练和回归预测面部表情控制器参数。
第三步,将融合语音特征作为网络输入,将语音特征对应的表情控制器参数作为网络的目标输出,通过s2网络的实际输出和目标输出的均方误差(MSE),利用Adam优化器最小化误差,优化网络参数,训练若干轮数,即可得到最终的模型。
令输入特征为X,X是一个大小为(1,20,109)的向量,其对应的动画帧的控制器参数值为Y。
令上述深度学习网络模型为f,则经过f,我们可以得到模型回归预测得到的控制器参数Z。
MSELoss=
Figure 584545DEST_PATH_IMAGE001
n为训练时样本大小,m等于控制器参数维度127。
根据上述步骤训练若干轮数,以得到最终模型,具体的,在进行模型训练时,因为动画的帧数小于提取到语音特征的帧数,通过倍数值将语音特征和每帧动画对应起来,本发明得到的语音特征1s有50帧,则可以选择奇数或者偶数帧作为和动画对应的关键帧,同时为了使最后结果更平滑,采用前后q帧的语音特征用于当前帧的语音特征来训练数据,其中,q≥1。
第四步,将一条语音特征经过特征提取和处理后输入深度学习网络模型中,回归预测得到一系列控制器参数,将模型预测得到的控制器参数值,通过maya或ue,使得每一组控制器参数对模型产生一次形变,连起来以得到3D人物面部表情动画。
本发明通过语音端推理得到对应的3D人物面部表情控制器,摆脱了人的因素,得到更加稳定的动画出品,同时降低了人力和时间成本;
本发明将fbank特征和deepspeech深层特征拼接作为网络的输入,起到特征增强的作用,模型的泛化性能得到提升;
本发明通过若干CNN层和RNN层对原始特征进行多个维度上的建模,并用最后的若干全连接层回归出控制器参数预测值,大大提高了模型预测的准确率,保证最后的3D人物面部表情动画效果的质量。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于深度学习的语音驱动3D人物面部表情方法,其特征在于,包括以下步骤:
S1、从制作好的动画中获取每帧动画人物面部表情的控制参数及对应的语音,提取多种语音特征并进行拼接融合得到融合语音特征,将所述融合语音特征与控制器参数对应起来,共同构成训练数据;
S2、搭建深度学习网络模型,对所述语音特征从多个维度进行建模,得到抽象特征以用于训练和回归预测,得到面部表情控制器参数;
S3、模型训练,将步骤S1所述的融合语音特征输入至步骤S2所述的深度学习网络模型中获取实际输出,将语音特征对应的表情控制器参数作为网络的目标输出,获取实际输出与目标输出的均方误差,利用Adam优化器最小化误差,优化网络参数;
S4、根据步骤S3的步骤训练若干轮数,以得到最终模型;
S5、将一条语音特征经过特征提取和处理后输入所述深度学习网络模型中,回归预测得到一系列控制器参数,用输出的控制器参数驱动动画模型以生成面部表情动画;
步骤S1所述的语音特征包括fbank语音特征和mfcc语音特征,并通过deepspeech开源模型的中间特征和所述语音特征在特征维度上拼接融合,作为训练用的融合语音特征;
步骤S2的所述深度学习网络模型包括
若干层CNN网络层,其每层均对融合语音特征在特征维度上进行卷积操作,以实现对特征的降维处理,得到抽象特征;
RNN层,其采用双向lstm网络,对所述CNN层提取出的特征做时间维度上的序列建模,得到特征向量;
全连接网络层,对所述特征向量进行回归预测,以得到面部表情控制器参数值。
2.根据权利要求1所述的一种基于深度学习的语音驱动3D人物面部表情方法,其特征在于,步骤S3所述的均方误差的计算公式为:
Figure 971554DEST_PATH_IMAGE001
其中,Y为输入特征对应的控制器参数值,即目标输出;Z为输入特征输入所述深度学习网络模型中回归预测得到的控制参数,即实际输出;n为训练时样本大小;m为控制器参数维度,即最后的全连接网络层维度值。
3.根据权利要求1所述的一种基于深度学习的语音驱动3D人物面部表情方法,其特征在于,所述CNN网络层为7层,所述RNN层为1层,所述全连接网络层为两层,所述全连接网络层包括一层隐藏层。
4.根据权利要求1所述的一种基于深度学习的语音驱动3D人物面部表情方法,其特征在于,步骤S1所述的从制作好的动画中获取每帧动画人物面部表情的控制参数包括从制作好的maya动画中提取控制器参数。
5.根据权利要求1所述的一种基于深度学习的语音驱动3D人物面部表情方法,其特征在于,在进行模型训练时,采用前后q帧的语音特征用于当前帧的语音特征来训练数据,其中,q≥1。
6.根据权利要求1所述的一种基于深度学习的语音驱动3D人物面部表情方法,其特征在于,步骤S5中,将模型预测得到的控制器参数值,通过maya或ue,使得每一组控制器参数对模型产生一次形变,连起来以得到3D人物面部表情动画。
CN202111321780.6A 2021-11-09 2021-11-09 一种基于深度学习的语音驱动3d人物面部表情方法 Active CN113763519B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111321780.6A CN113763519B (zh) 2021-11-09 2021-11-09 一种基于深度学习的语音驱动3d人物面部表情方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111321780.6A CN113763519B (zh) 2021-11-09 2021-11-09 一种基于深度学习的语音驱动3d人物面部表情方法

Publications (2)

Publication Number Publication Date
CN113763519A CN113763519A (zh) 2021-12-07
CN113763519B true CN113763519B (zh) 2022-02-08

Family

ID=78784855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111321780.6A Active CN113763519B (zh) 2021-11-09 2021-11-09 一种基于深度学习的语音驱动3d人物面部表情方法

Country Status (1)

Country Link
CN (1) CN113763519B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116051692B (zh) * 2023-04-03 2023-07-07 成都索贝数码科技股份有限公司 一种基于语音驱动的三维数字人脸部动画生成方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109767789A (zh) * 2019-03-06 2019-05-17 慧言科技(天津)有限公司 一种用于语音情感识别的新特征提取方法
CN110164476A (zh) * 2019-05-24 2019-08-23 广西师范大学 一种基于多输出特征融合的blstm的语音情感识别方法
CN111932672A (zh) * 2020-09-14 2020-11-13 江苏原力数字科技股份有限公司 一种基于机器学习自动生成超写实3d面部模型的方法
CN112001992A (zh) * 2020-07-02 2020-11-27 超维视界(北京)传媒科技有限公司 基于深度学习的语音驱动3d虚拟人表情音画同步方法及系统
CN112200894A (zh) * 2020-12-07 2021-01-08 江苏原力数字科技股份有限公司 基于深度学习框架的数字人面部表情动画自动迁移方法
CN112614212A (zh) * 2020-12-16 2021-04-06 上海交通大学 联合语气词特征的视音频驱动人脸动画实现方法及系统
CN113378806A (zh) * 2021-08-16 2021-09-10 之江实验室 一种融合情感编码的音频驱动人脸动画生成方法及系统
CN113408385A (zh) * 2021-06-10 2021-09-17 华南理工大学 一种音视频多模态情感分类方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111063336A (zh) * 2019-12-30 2020-04-24 天津中科智能识别产业技术研究院有限公司 一种基于深度学习的端对端语音识别系统
US11348253B2 (en) * 2020-01-09 2022-05-31 Alibaba Group Holding Limited Single-channel and multi-channel source separation enhanced by lip motion
CN111415677B (zh) * 2020-03-16 2020-12-25 北京字节跳动网络技术有限公司 用于生成视频的方法、装置、设备和介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109767789A (zh) * 2019-03-06 2019-05-17 慧言科技(天津)有限公司 一种用于语音情感识别的新特征提取方法
CN110164476A (zh) * 2019-05-24 2019-08-23 广西师范大学 一种基于多输出特征融合的blstm的语音情感识别方法
CN112001992A (zh) * 2020-07-02 2020-11-27 超维视界(北京)传媒科技有限公司 基于深度学习的语音驱动3d虚拟人表情音画同步方法及系统
CN111932672A (zh) * 2020-09-14 2020-11-13 江苏原力数字科技股份有限公司 一种基于机器学习自动生成超写实3d面部模型的方法
CN112200894A (zh) * 2020-12-07 2021-01-08 江苏原力数字科技股份有限公司 基于深度学习框架的数字人面部表情动画自动迁移方法
CN112614212A (zh) * 2020-12-16 2021-04-06 上海交通大学 联合语气词特征的视音频驱动人脸动画实现方法及系统
CN113408385A (zh) * 2021-06-10 2021-09-17 华南理工大学 一种音视频多模态情感分类方法及系统
CN113378806A (zh) * 2021-08-16 2021-09-10 之江实验室 一种融合情感编码的音频驱动人脸动画生成方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Capture, Learning, and Synthesis of 3D Speaking Styles;Daniel Cudeiro et al;《IEEE Xplore》;20190508;第10101-10111页 *
Speech Emotion Recognition Based on BLSTM and CNN Feature Fusion;Lv Huilian et al;《2020 Association for Computing Machinery》;20200621;第169-172页 *
基于BLSTM算法和字词融合的文本情感分类方法;陈欣等;《中国计量大学学报》;20200615(第02期);第97-104页 *
基于CNN和BLSTM的特征融合的语音情感识别研究;吕惠炼;《中国优秀硕士学位论文全文数据库 信息科技》;20210215(第2期);第1-63页 *

Also Published As

Publication number Publication date
CN113763519A (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
CN107293288B (zh) 一种残差长短期记忆循环神经网络的声学模型建模方法
CN110096950A (zh) 一种基于关键帧的多特征融合行为识别方法
CN112465935A (zh) 虚拟形象合成方法、装置、电子设备和存储介质
CN108776796B (zh) 一种基于全局时空注意力模型的动作识别方法
CN109271629B (zh) 基于强化学习的生成式文本摘要方法
CN111402129A (zh) 一种基于联合上采样卷积神经网络的双目立体匹配方法
CN112200894B (zh) 基于深度学习框架的数字人面部表情动画自动迁移方法
CN107220616B (zh) 一种基于自适应权重的双路协同学习的视频分类方法
CN109271876A (zh) 基于时间演化建模和多示例学习的视频动作检测方法
CN111292765B (zh) 一种融合多个深度学习模型的双模态情感识别方法
CN108172218A (zh) 一种语音建模方法及装置
CN113763519B (zh) 一种基于深度学习的语音驱动3d人物面部表情方法
CN108694951A (zh) 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法
CN106919977A (zh) 一种前馈序列记忆神经网络及其构建方法和系统
CN113656569B (zh) 一种基于上下文信息推理的生成式对话方法
CN111860691B (zh) 基于注意力和循环神经网络的立体视频视觉舒适度分类法
CN117892175A (zh) 一种snn多模态目标识别方法、系统、设备及介质
Shankar et al. Multi-speaker emotion conversion via latent variable regularization and a chained encoder-decoder-predictor network
CN114691995A (zh) 一种基于信息传播和注意力机制的序列推荐方法
CN111783852B (zh) 一种基于深度强化学习自适应式生成图像描述的方法
CN110263232A (zh) 一种基于广度学习和深度学习的混合推荐方法
CN112199550B (zh) 一种基于情感胶囊网络的短视频点击率预测方法
CN116664731B (zh) 人脸动画生成方法及装置、计算机可读存储介质、终端
CN115187705B (zh) 一种语音驱动人脸关键点序列生成方法及装置
CN116912373B (zh) 一种动画处理方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant