CN113297383A - 基于知识蒸馏的语音情感分类方法 - Google Patents

基于知识蒸馏的语音情感分类方法 Download PDF

Info

Publication number
CN113297383A
CN113297383A CN202110695067.1A CN202110695067A CN113297383A CN 113297383 A CN113297383 A CN 113297383A CN 202110695067 A CN202110695067 A CN 202110695067A CN 113297383 A CN113297383 A CN 113297383A
Authority
CN
China
Prior art keywords
speech
model
emotion
data
inputting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110695067.1A
Other languages
English (en)
Other versions
CN113297383B (zh
Inventor
王晶晶
尤佩雯
李寿山
周国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202110695067.1A priority Critical patent/CN113297383B/zh
Publication of CN113297383A publication Critical patent/CN113297383A/zh
Application granted granted Critical
Publication of CN113297383B publication Critical patent/CN113297383B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种基于知识蒸馏的语音情感分类方法,涉及语音智能处理技术,该方法包括:将样本文本数据预处理后输入向量提取网络提取文本词嵌入向量;将文本词嵌入向量输入预设的分类模型;将样本文本数据进行语音合成转换;将TTS语音数据输入语音特征提取模块;将语音时域及频域特征输入预设的分类模型,使用交叉熵损失函数对预设的分类模型进行语音情感分类预测训练;将文本情感分类软标签输入所述预设的分类模型并使用预设的知识蒸馏损失函数进行语音情感分类预测训练,使所述TTS语音数据的情感类别预测趋近于所述样本文本数据的情感分布,得到训练后的分类模型。训练后的分类模型可以对输入的语音数据进行语音情感分类。

Description

基于知识蒸馏的语音情感分类方法
技术领域
本申请涉及语音智能处理技术,更具体地说,本申请涉及一种基于知识蒸馏的语音情感分类方法。
背景技术
计算机对语音情感的分析能力是计算机情感智能的重要组成部分。人类之所以能够通过聆听语音捕捉并分析对方情感的状态,是因为人脑具备了感知和理解语音信号中能够反映说话人情感状态信息的能力。研究认为语音中包含的情感特征信息主要存在于声学特征的韵律特征和音质特征中,比如韵律特征中的基音、强度、语速等,即LLD特征(LowLevel Descriptors),以及在其基础上衍生出其均值、方差、中值等参数,即HSF特征(Highlevel Statistics Functions);除此之外,常用于语音情感识别的还有基于谱的相关特征,其被认为是声道形状变化和发声运动间相关性的体现,能够更好的描述声音随时间变化的动态特性,例如线性倒谱系数(linear predictor coefficient,LPC)、Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)等,其中MFCC特征是基于人耳听觉特性提出的,与Hz频率呈非线性对应关系。在传统的语音情感识别系统中,模式识别的各类算法均可应用在语音的情感识别中,主要使用LLD、HSF等手工特征结合广泛应用于模式识别中的例如高斯混合模型(Gaussian Mixed Model,GMM)、支持向量机(Support VectorMachine,SVM)、隐马尔可夫模型(Hidden Markov Model,HMM)等分类算法构建模型。
深度学习和神经网络的出现,也给语音的情感分类带来了新的解决方案。无论是LLD、HSF等手工特征,或是基于谱的相关特征,和神经网络的结合都给语音情感识别领域带来了全新的活力。近来在语音情感识别领域也有很多学者致力于利用多模态间的联系辅助情感识别任务,利用多模态可以互相补充互相促进的优势,提升情感分析的效果。在语音相关的跨模态任务中,研究大多集中在说话者识别、口语理解等,并未有类似工作直接使用跨模态的方式进行语音情感分类。
但无论是单模态学习,还是多模态学习,都少不了大数据的支持。在传统的机器学习中,大部分的网络训练依然依赖大量标注数据,然而人工标注需要付出大量的代价。很多情况下,大量的标注数据难以获取,尤其是语音标注数据由于其模态的特殊性,更加难以获取大量的样本数据,且人工标注的要求更为严格。
发明内容
本申请的目的是解决上述技术问题。本申请提供了一种基于知识蒸馏的语音情感分类方法,利用较易获取及标注的文本数据训练模型,再基于此模型对语音数据进行情感分类,摆脱了对大量语音标准样本的依赖。本申请提供如下技术方案:
提供一种基于知识蒸馏的语音情感分类方法,包括:
将样本文本数据预处理后输入向量提取网络提取文本词嵌入向量,得到文本词嵌入向量;
将所述文本词嵌入向量输入预设的分类模型,得到文本情感分类软标签;
将样本文本数据进行语音合成转换,得到TTS语音数据;
将所述TTS语音数据输入语音特征提取模块,得到语音特征的梅尔频率倒谱系数表示向量;
将所述TTS语音数据输入特征提取网络,得到语音时域及频域特征;
将所述语音时域及频域特征输入预设的分类模型,使用交叉熵损失函数对预设的分类模型进行语音情感分类预测训练;
将所述文本情感分类软标签输入所述预设的分类模型并使用预设的知识蒸馏损失函数进行语音情感分类预测训练,使所述TTS语音数据的情感类别预测趋近于所述样本文本数据的情感分布,得到训练后的分类模型;
使用训练后的分类模型对输入的语音数据进行语音情感分类。
可选地,其中所述向量提取网络为BERT模型。
可选地,其中所述特征提取网络为CNN+LSTM模型。
可选地,其中对所述样本文本数据进行预处理为:对给定文本数据序列的开头和结尾处分别加上标签“[CLS]”和“[SEP]”。
可选地,其中所述交叉熵损失函数包括学生模型交叉熵损失函数和教师模型交叉熵损失函数。
可选地,其中所述学生模型交叉熵损失函数为:
Figure BDA0003127910190000031
其中,J是样本类别个数,
Figure BDA0003127910190000032
是学生模型对第i个样本Pi的第j类预测概率值。
可选地,其中所述教师模型交叉熵损失函数为:
Figure BDA0003127910190000033
其中,J是样本类别个数,yi,j∈{0,1}是第i个样本Pi的第j类实际标签值,
Figure BDA0003127910190000034
是教师模型对第i个样本Pi的第j类预测软化标签值。
可选地,其中所述预设的知识蒸馏损失函数为:
L=LA+T2*LT*weightd
其中,weightd为知识蒸馏的权重参数,T为温度系数。
本申请的有益效果至少包括:为解决新的跨模态语音情感分类任务,即通过文本模态的数据对语音模态进行情感分类,提供了一个基于知识蒸馏的跨模态情感分类方法。首先训练文本模态情感分类模型作为教师模型,其次使用TTS技术转换语音数据,使用知识蒸馏的方法训练语音模态情感分类模型,即学生模型。训练后的模型可对原始语音数据进行情感分类预测。本申请能够有效利用文本模态的数据对语音模态分类模型进行情感分类训练,使用文本模态训练数据缓解语音训练数据不足的困境。
本申请的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本申请的研究和实践而为本领域的技术人员所理解。
附图说明
通过结合附图对于本申请的示例性实施例进行描述,可以更好地理解本申请,在附图中:
图1是本申请一个实施例提供的基于知识蒸馏的语音情感分类方法的流程图;
图2是本申请一个实施例提供的BERT模型的结构图;
图3是本申请一个实施例提供的CNN+LSTM模型的结构图;
图4是本申请一个实施例提供的网络框架图。
具体实施方式
下面结合附图和实施例,对本申请的具体实施方式作进一步详细描述,以令本领域技术人员参照说明书文字能够据以实施。
需要指出的是,在这些实施方式的具体描述过程中,为了进行简明扼要的描述,本说明书不可能对实际的实施方式的所有特征均作详尽的描述。应当可以理解的是,在任意一种实施方式的实际实施过程中,正如在任意一个工程项目或者设计项目的过程中,为了实现开发者的具体目标,为了满足系统相关的或者商业相关的限制,常常会做出各种各样的具体决策,而这也会从一种实施方式到另一种实施方式之间发生改变。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请的内容不充分。
首先,对本申请涉及的名词进行介绍。
BERT(Bidirectional Encoder Representation from Transformers)是GoogleAI团队在2018年提出来的文本预训练模型,是目前NLP领域任务涵盖范围最广的模型,并在各种任务上取得了非常卓越的效果。BERT的网络架构使用的是多层Transformer结构,其最大的特点是抛弃了传统的RNN和CNN,通过Attention机制将任意位置的两个单词的距离转换成1,有效地解决了NLP中棘手的长期依赖问题。BERT是一个多任务模型,由两个自监督任务组成,分别是MLM(Masked Language Model)和NSP(Next Sentence Prediction)。在经过大量语料预训练的BERT之后,便可以使用预训练好的模型应用到NLP的各个任务中了。
图1是本申请一个实施例提供的基于知识蒸馏的语音情感分类方法的流程图。该方法至少包括以下几个步骤:
步骤S101,将样本文本数据预处理后输入向量提取网络提取文本词嵌入向量,得到文本词嵌入向量。
使用BERT-base模型(uncased)提取文本特征,先对给定文本词序列S={s1,s2,…,sn}(其中n是词的个数)的开头和结尾处分别添加BERT模型的特殊标签“[CLS]”和“[SEP]”,再将词序列通过嵌入层映射为词嵌入向量
Figure BDA0003127910190000041
段嵌入向量
Figure BDA0003127910190000042
和位置嵌入向量
Figure BDA0003127910190000043
最后通过12层Transformer编码后得到文本特征Q=[q[CLS],q1,q2,…,qn,q[SEP]]。形式化公式如下:
Figure BDA0003127910190000051
其中,
Figure BDA0003127910190000052
是向量加法操作。
步骤S102,将所述文本词嵌入向量输入预设的分类模型,得到文本情感分类软标签。
为了增强文本特征Q的上下文语义信息,使用LSTM模型进一步学习文本特征H,形式化公式如下:
H=LSTM(Q)
对于给定文本特征H,使用平均池化层和全连接层计算文本情感的非归一化概率x=[x1,x2,…,xJ],其中,J是样本类别个数,通过softmax函数计算归一化概率分布PT(yi|Pi),计算公式如下:
Figure BDA0003127910190000053
其中,文本分类模型为教师模型,
Figure BDA0003127910190000054
是教师模型对第i个样本Pi的第j类预测标签值,T是知识蒸馏的温度系数,通过调整温度值来生成更加软化的概率标签。
步骤S103,将样本文本数据进行语音合成转换,得到TTS语音数据。
使用文本转换语音的工具将文本模态数据转换为语音模态数据,并根据数据特征更改输出语音的参数,包括速率和音调。本实施例不对具体的文本转换语音的工具作出限定。
步骤S104,将所述TTS语音数据输入语音特征提取模块,得到语音特征的梅尔频率倒谱系数表示向量。
使用语音特征提取模块分别提取语音Ai和TTS语音
Figure BDA0003127910190000055
的MFCC特征M和
Figure BDA0003127910190000056
MFCC是在Mel标度频率域提取出来的倒谱系数参数,具体而言,在MFCC特征提取过程中,先对语音进行预加重、分帧加窗一系列预处理使其每帧的窗口能有更好的连续性,接着选取合适的语音帧长用于快速傅里叶变换(Fast Fourier Transform,FFT)得到对应的频谱,最后通过Mel滤波器得到Mel频谱,并在其上进行倒谱分析。本实施例选取2s的窗口大小以及大小为13的n_mfcc参数进行语音特征的提取。
步骤S105,将所述TTS语音数据输入特征提取网络,得到语音时域及频域特征。
使用CNN+LSTM网络进一步学习语音特征,来增强MFCC特征的语义信息。首先使用6层卷积操作在频域上提取时频信息,接着使用LSTM模型捕捉上下文信息。
步骤S106,将所述语音时域及频域特征输入预设的分类模型,使用交叉熵损失函数对预设的分类模型进行语音情感分类预测训练。
预设的分类模型为学生模型,使用softmax函数计算语音情感分类概率
Figure BDA0003127910190000061
公式如下:
Figure BDA0003127910190000062
步骤S107,将所述文本情感分类软标签输入所述预设的分类模型并使用预设的知识蒸馏损失函数进行语音情感分类预测训练,使所述TTS语音数据的情感类别预测趋近于所述样本文本数据的情感分布。
首先计算教师模型概率分布感知损失函数LT,旨在使学生模型的概率分布趋近于教师模型的概率分布,计算公式如下所示:
Figure BDA0003127910190000063
其中,J是样本类别个数,yi,j∈{0,1}是第i个样本Pi的第j类实际标签值,
Figure BDA0003127910190000064
是教师模型对第i个样本Pi的第j类预测软化标签值。
其次,计算学生模型的交叉熵损失函数LA,计算公式如下:
Figure BDA0003127910190000065
其中,J是样本类别个数,
Figure BDA0003127910190000066
是学生模型对第i个样本Pi的第j类预测概率值。
最后,总体的知识蒸馏损失函数L如下:
L=LA+T2*LT*weightd
其中,weightd是知识蒸馏的权重参数,用于调节两个损失函数的平衡。实验中根据验证集结果,我们设置温度系数T为3、权重weightd为1.5。
步骤S108,使用训练后的分类模型对输入的语音数据进行语音情感分类。
可选地,可以使用测试数据对模型进行测试,参考下表1,为本申请的实施例与其他先进语音情感分类方法在MELD多模态数据集测试集上的精确率及宏平均F1值比较。
表1
Figure BDA0003127910190000071
从表1可以看出本申请的实施例总体表现优于了现有的其他先进性格分类方法。
为了进一步验证本申请方法的有效性和泛化性,可选地,使用加权精确率(WP)和加权F1值(WF)分别评估各方法在MELD、MOSI、MOSEI三个数据集上的性能,进一步验证本申请实施例的有效性和泛化性。如表2所示,本实例在所有数据集上的结果均优于其他基准方法,充分提现了利用知识蒸馏方法构建语音识别情感模型的有效性。本申请的实施例采用在训练端引入TTS文本语音转换技术,在较基础的学生模型CNN+LSTM分类模型上能取得较优越的结果,验证了其在实际应用中的可能性。
表2
Figure BDA0003127910190000072
Figure BDA0003127910190000081
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,对本领域的普通技术人员而言,能够理解本申请的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本申请的说明的情况下运用他们的基本编程技能就能实现的。
因此,本申请的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本申请的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本申请,并且存储有这样的程序产品的存储介质也构成本申请。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。
还需要指出的是,在本申请的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
除非另作定义,权利要求书和说明书中使用的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“一个”或者“一”等类似词语并不表示数量限制,而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的元件或者物件及其等同元件,并不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,也不限于是直接的还是间接的连接。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (8)

1.一种基于知识蒸馏的语音情感分类方法,包括:
将样本文本数据预处理后输入向量提取网络提取文本词嵌入向量,得到文本词嵌入向量;
将所述文本词嵌入向量输入预设的分类模型,得到文本情感分类软标签;
将样本文本数据进行语音合成转换,得到TTS语音数据;
将所述TTS语音数据输入语音特征提取模块,得到语音特征的梅尔频率倒谱系数表示向量;
将所述TTS语音数据输入特征提取网络,得到语音时域及频域特征;
将所述语音时域及频域特征输入预设的分类模型,使用交叉熵损失函数对预设的分类模型进行语音情感分类预测训练;
将所述文本情感分类软标签输入所述预设的分类模型并使用预设的知识蒸馏损失函数进行语音情感分类预测训练,使所述TTS语音数据的情感类别预测趋近于所述样本文本数据的情感分布,得到训练后的分类模型;
使用训练后的分类模型对输入的语音数据进行语音情感分类。
2.根据权利要求1所述的方法,其中所述向量提取网络为BERT模型。
3.根据权利要求1所述的方法,其中所述特征提取网络为CNN+LSTM模型。
4.根据权利要求1所述的方法,其中对所述样本文本数据进行预处理为:对给定样本文本数据序列的开头和结尾处分别加上标签“[CLS]”和“[SEP]”。
5.根据权利要求1所述的方法,其中所述交叉熵损失函数包括学生模型交叉熵损失函数和教师模型交叉熵损失函数。
6.根据权利要求5所述的方法,其中所述学生模型交叉熵损失函数为:
Figure FDA0003127910180000011
其中,J是样本类别个数,
Figure FDA0003127910180000012
是学生模型对第i个样本Pi的第j类预测概率值。
7.根据权利要求5所述的方法,其中所述教师模型交叉熵损失函数为:
Figure FDA0003127910180000021
其中,J是样本类别个数,yi,j∈{0,1}是第i个样本Pi的第j类实际标签值,
Figure FDA0003127910180000022
是教师模型对第i个样本Pi的第j类预测软化标签值。
8.根据权利要求1所述的方法,其中所述预设的知识蒸馏损失函数为:
L=LA+T2*LT*weightd
其中,weightd为知识蒸馏的权重参数,T为温度系数。
CN202110695067.1A 2021-06-22 2021-06-22 基于知识蒸馏的语音情感分类方法 Active CN113297383B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110695067.1A CN113297383B (zh) 2021-06-22 2021-06-22 基于知识蒸馏的语音情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110695067.1A CN113297383B (zh) 2021-06-22 2021-06-22 基于知识蒸馏的语音情感分类方法

Publications (2)

Publication Number Publication Date
CN113297383A true CN113297383A (zh) 2021-08-24
CN113297383B CN113297383B (zh) 2023-08-04

Family

ID=77329173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110695067.1A Active CN113297383B (zh) 2021-06-22 2021-06-22 基于知识蒸馏的语音情感分类方法

Country Status (1)

Country Link
CN (1) CN113297383B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590760A (zh) * 2021-08-13 2021-11-02 珠海格力电器股份有限公司 情感类别的确定方法、模组、智能家居和可读存储介质
CN113704552A (zh) * 2021-08-31 2021-11-26 哈尔滨工业大学 一种基于跨模态自动对齐和预训练语言模型的情感分析方法、系统及设备
CN116821691A (zh) * 2023-08-28 2023-09-29 清华大学 基于任务融合的训练情感识别模型的方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363753A (zh) * 2018-01-30 2018-08-03 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备
CN109697232A (zh) * 2018-12-28 2019-04-30 四川新网银行股份有限公司 一种基于深度学习的中文文本情感分析方法
CN111611377A (zh) * 2020-04-22 2020-09-01 淮阴工学院 基于知识蒸馏的多层神经网络语言模型训练方法与装置
CN111753092A (zh) * 2020-06-30 2020-10-09 深圳创新奇智科技有限公司 一种数据处理方法、模型训练方法、装置及电子设备
CN111931057A (zh) * 2020-08-18 2020-11-13 中国科学院深圳先进技术研究院 一种自适应输出的序列推荐方法和系统
CN112348075A (zh) * 2020-11-02 2021-02-09 大连理工大学 一种基于情景注意力神经网络的多模态情感识别方法
US20210104245A1 (en) * 2019-06-03 2021-04-08 Amazon Technologies, Inc. Multiple classifications of audio data

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363753A (zh) * 2018-01-30 2018-08-03 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备
CN109697232A (zh) * 2018-12-28 2019-04-30 四川新网银行股份有限公司 一种基于深度学习的中文文本情感分析方法
US20210104245A1 (en) * 2019-06-03 2021-04-08 Amazon Technologies, Inc. Multiple classifications of audio data
CN111611377A (zh) * 2020-04-22 2020-09-01 淮阴工学院 基于知识蒸馏的多层神经网络语言模型训练方法与装置
CN111753092A (zh) * 2020-06-30 2020-10-09 深圳创新奇智科技有限公司 一种数据处理方法、模型训练方法、装置及电子设备
CN111931057A (zh) * 2020-08-18 2020-11-13 中国科学院深圳先进技术研究院 一种自适应输出的序列推荐方法和系统
CN112348075A (zh) * 2020-11-02 2021-02-09 大连理工大学 一种基于情景注意力神经网络的多模态情感识别方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590760A (zh) * 2021-08-13 2021-11-02 珠海格力电器股份有限公司 情感类别的确定方法、模组、智能家居和可读存储介质
CN113590760B (zh) * 2021-08-13 2024-05-03 珠海格力电器股份有限公司 情感类别的确定方法、模组、智能家居和可读存储介质
CN113704552A (zh) * 2021-08-31 2021-11-26 哈尔滨工业大学 一种基于跨模态自动对齐和预训练语言模型的情感分析方法、系统及设备
CN116821691A (zh) * 2023-08-28 2023-09-29 清华大学 基于任务融合的训练情感识别模型的方法和装置
CN116821691B (zh) * 2023-08-28 2024-02-23 清华大学 基于任务融合的训练情感识别模型的方法和装置

Also Published As

Publication number Publication date
CN113297383B (zh) 2023-08-04

Similar Documents

Publication Publication Date Title
Mehrish et al. A review of deep learning techniques for speech processing
CN113297383B (zh) 基于知识蒸馏的语音情感分类方法
CN102231278A (zh) 实现语音识别中自动添加标点符号的方法及系统
Liu et al. Mongolian text-to-speech system based on deep neural network
Azizah et al. Hierarchical transfer learning for multilingual, multi-speaker, and style transfer DNN-based TTS on low-resource languages
CN116665669A (zh) 一种基于人工智能的语音交互方法及系统
KR102272554B1 (ko) 텍스트- 다중 음성 변환 방법 및 시스템
CN113450761A (zh) 一种基于变分自编码器的并行语音合成方法和装置
Kumar et al. Machine learning based speech emotions recognition system
Swain et al. A DCRNN-based ensemble classifier for speech emotion recognition in Odia language
Wang et al. A spatial–temporal graph model for pronunciation feature prediction of Chinese poetry
Mei et al. A particular character speech synthesis system based on deep learning
CN115424604B (zh) 一种基于对抗生成网络的语音合成模型的训练方法
Gambhir et al. End-to-end multi-modal low-resourced speech keywords recognition using sequential Conv2D nets
Rafi et al. Relative significance of speech sounds in speaker verification systems
Wen et al. Improving deep neural network based speech synthesis through contextual feature parametrization and multi-task learning
Sisman Machine learning for limited data voice conversion
Nazir et al. Multi speaker text-to-speech synthesis using generalized end-to-end loss function
CN116403562B (zh) 一种基于语义信息自动预测停顿的语音合成方法、系统
Zhao et al. Multi-speaker Chinese news broadcasting system based on improved Tacotron2
Zhang et al. A Non-Autoregressivee Network for Chinese Text to Speech and Voice Cloning
Kuzdeuov et al. Speech command recognition: Text-to-speech and speech corpus scraping are all you need
CN113192483B (zh) 一种文本转换为语音的方法、装置、存储介质和设备
Paul et al. Continuous speech recognition in hindi for health care using deep learning
Wani et al. A review of deep learning architectures for speech and audio processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant