CN113297383B - 基于知识蒸馏的语音情感分类方法 - Google Patents

基于知识蒸馏的语音情感分类方法 Download PDF

Info

Publication number
CN113297383B
CN113297383B CN202110695067.1A CN202110695067A CN113297383B CN 113297383 B CN113297383 B CN 113297383B CN 202110695067 A CN202110695067 A CN 202110695067A CN 113297383 B CN113297383 B CN 113297383B
Authority
CN
China
Prior art keywords
voice
emotion
model
inputting
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110695067.1A
Other languages
English (en)
Other versions
CN113297383A (zh
Inventor
王晶晶
尤佩雯
李寿山
周国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202110695067.1A priority Critical patent/CN113297383B/zh
Publication of CN113297383A publication Critical patent/CN113297383A/zh
Application granted granted Critical
Publication of CN113297383B publication Critical patent/CN113297383B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种基于知识蒸馏的语音情感分类方法,涉及语音智能处理技术,该方法包括:将样本文本数据预处理后输入向量提取网络提取文本词嵌入向量;将文本词嵌入向量输入预设的分类模型;将样本文本数据进行语音合成转换;将TTS语音数据输入语音特征提取模块;将语音时域及频域特征输入预设的分类模型,使用交叉熵损失函数对预设的分类模型进行语音情感分类预测训练;将文本情感分类软标签输入所述预设的分类模型并使用预设的知识蒸馏损失函数进行语音情感分类预测训练,使所述TTS语音数据的情感类别预测趋近于所述样本文本数据的情感分布,得到训练后的分类模型。训练后的分类模型可以对输入的语音数据进行语音情感分类。

Description

基于知识蒸馏的语音情感分类方法
技术领域
本申请涉及语音智能处理技术,更具体地说,本申请涉及一种基于知识蒸馏的语音情感分类方法。
背景技术
计算机对语音情感的分析能力是计算机情感智能的重要组成部分。人类之所以能够通过聆听语音捕捉并分析对方情感的状态,是因为人脑具备了感知和理解语音信号中能够反映说话人情感状态信息的能力。研究认为语音中包含的情感特征信息主要存在于声学特征的韵律特征和音质特征中,比如韵律特征中的基音、强度、语速等,即LLD特征(LowLevel Descriptors),以及在其基础上衍生出其均值、方差、中值等参数,即HSF特征(Highlevel Statistics Functions);除此之外,常用于语音情感识别的还有基于谱的相关特征,其被认为是声道形状变化和发声运动间相关性的体现,能够更好的描述声音随时间变化的动态特性,例如线性倒谱系数(linear predictor coefficient,LPC)、Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)等,其中MFCC特征是基于人耳听觉特性提出的,与Hz频率呈非线性对应关系。在传统的语音情感识别系统中,模式识别的各类算法均可应用在语音的情感识别中,主要使用LLD、HSF等手工特征结合广泛应用于模式识别中的例如高斯混合模型(Gaussian Mixed Model,GMM)、支持向量机(Support VectorMachine,SVM)、隐马尔可夫模型(Hidden Markov Model,HMM)等分类算法构建模型。
深度学习和神经网络的出现,也给语音的情感分类带来了新的解决方案。无论是LLD、HSF等手工特征,或是基于谱的相关特征,和神经网络的结合都给语音情感识别领域带来了全新的活力。近来在语音情感识别领域也有很多学者致力于利用多模态间的联系辅助情感识别任务,利用多模态可以互相补充互相促进的优势,提升情感分析的效果。在语音相关的跨模态任务中,研究大多集中在说话者识别、口语理解等,并未有类似工作直接使用跨模态的方式进行语音情感分类。
但无论是单模态学习,还是多模态学习,都少不了大数据的支持。在传统的机器学习中,大部分的网络训练依然依赖大量标注数据,然而人工标注需要付出大量的代价。很多情况下,大量的标注数据难以获取,尤其是语音标注数据由于其模态的特殊性,更加难以获取大量的样本数据,且人工标注的要求更为严格。
发明内容
本申请的目的是解决上述技术问题。本申请提供了一种基于知识蒸馏的语音情感分类方法,利用较易获取及标注的文本数据训练模型,再基于此模型对语音数据进行情感分类,摆脱了对大量语音标准样本的依赖。本申请提供如下技术方案:
提供一种基于知识蒸馏的语音情感分类方法,包括:
将样本文本数据预处理后输入向量提取网络提取文本词嵌入向量,得到文本词嵌入向量;
将所述文本词嵌入向量输入预设的分类模型,得到文本情感分类软标签;
将样本文本数据进行语音合成转换,得到TTS语音数据;
将所述TTS语音数据输入语音特征提取模块,得到语音特征的梅尔频率倒谱系数表示向量;
将所述TTS语音数据输入特征提取网络,得到语音时域及频域特征;
将所述语音时域及频域特征输入预设的分类模型,使用交叉熵损失函数对预设的分类模型进行语音情感分类预测训练;
将所述文本情感分类软标签输入所述预设的分类模型并使用预设的知识蒸馏损失函数进行语音情感分类预测训练,使所述TTS语音数据的情感类别预测趋近于所述样本文本数据的情感分布,得到训练后的分类模型;
使用训练后的分类模型对输入的语音数据进行语音情感分类。
可选地,其中所述向量提取网络为BERT模型。
可选地,其中所述特征提取网络为CNN+LSTM模型。
可选地,其中对所述样本文本数据进行预处理为:对给定文本数据序列的开头和结尾处分别加上标签“[CLS]”和“[SEP]”。
可选地,其中所述交叉熵损失函数包括学生模型交叉熵损失函数和教师模型交叉熵损失函数。
可选地,其中所述学生模型交叉熵损失函数为:
其中,J是样本类别个数,是学生模型对第i个样本Pi的第j类预测概率值。
可选地,其中所述教师模型交叉熵损失函数为:
其中,J是样本类别个数,yi,j∈{0,1}是第i个样本Pi的第j类实际标签值,是教师模型对第i个样本Pi的第j类预测软化标签值。
可选地,其中所述预设的知识蒸馏损失函数为:
L=LA+T2*LT*weightd
其中,weightd为知识蒸馏的权重参数,T为温度系数。
本申请的有益效果至少包括:为解决新的跨模态语音情感分类任务,即通过文本模态的数据对语音模态进行情感分类,提供了一个基于知识蒸馏的跨模态情感分类方法。首先训练文本模态情感分类模型作为教师模型,其次使用TTS技术转换语音数据,使用知识蒸馏的方法训练语音模态情感分类模型,即学生模型。训练后的模型可对原始语音数据进行情感分类预测。本申请能够有效利用文本模态的数据对语音模态分类模型进行情感分类训练,使用文本模态训练数据缓解语音训练数据不足的困境。
本申请的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本申请的研究和实践而为本领域的技术人员所理解。
附图说明
通过结合附图对于本申请的示例性实施例进行描述,可以更好地理解本申请,在附图中:
图1是本申请一个实施例提供的基于知识蒸馏的语音情感分类方法的流程图;
图2是本申请一个实施例提供的BERT模型的结构图;
图3是本申请一个实施例提供的CNN+LSTM模型的结构图;
图4是本申请一个实施例提供的网络框架图。
具体实施方式
下面结合附图和实施例,对本申请的具体实施方式作进一步详细描述,以令本领域技术人员参照说明书文字能够据以实施。
需要指出的是,在这些实施方式的具体描述过程中,为了进行简明扼要的描述,本说明书不可能对实际的实施方式的所有特征均作详尽的描述。应当可以理解的是,在任意一种实施方式的实际实施过程中,正如在任意一个工程项目或者设计项目的过程中,为了实现开发者的具体目标,为了满足系统相关的或者商业相关的限制,常常会做出各种各样的具体决策,而这也会从一种实施方式到另一种实施方式之间发生改变。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请的内容不充分。
首先,对本申请涉及的名词进行介绍。
BERT(Bidirectional Encoder Representation from Transformers)是GoogleAI团队在2018年提出来的文本预训练模型,是目前NLP领域任务涵盖范围最广的模型,并在各种任务上取得了非常卓越的效果。BERT的网络架构使用的是多层Transformer结构,其最大的特点是抛弃了传统的RNN和CNN,通过Attention机制将任意位置的两个单词的距离转换成1,有效地解决了NLP中棘手的长期依赖问题。BERT是一个多任务模型,由两个自监督任务组成,分别是MLM(Masked Language Model)和NSP(Next Sentence Prediction)。在经过大量语料预训练的BERT之后,便可以使用预训练好的模型应用到NLP的各个任务中了。
图1是本申请一个实施例提供的基于知识蒸馏的语音情感分类方法的流程图。该方法至少包括以下几个步骤:
步骤S101,将样本文本数据预处理后输入向量提取网络提取文本词嵌入向量,得到文本词嵌入向量。
使用BERT-base模型(uncased)提取文本特征,先对给定文本词序列S={s1,s2,…,sn}(其中n是词的个数)的开头和结尾处分别添加BERT模型的特殊标签“[CLS]”和“[SEP]”,再将词序列通过嵌入层映射为词嵌入向量段嵌入向量/>和位置嵌入向量/>最后通过12层Transformer编码后得到文本特征Q=[q[CLS],q1,q2,…,qn,q[SEP]]。形式化公式如下:
其中,是向量加法操作。
步骤S102,将所述文本词嵌入向量输入预设的分类模型,得到文本情感分类软标签。
为了增强文本特征Q的上下文语义信息,使用LSTM模型进一步学习文本特征H,形式化公式如下:
H=LSTM(Q)
对于给定文本特征H,使用平均池化层和全连接层计算文本情感的非归一化概率x=[x1,x2,…,xJ],其中,J是样本类别个数,通过softmax函数计算归一化概率分布PT(yi|Pi),计算公式如下:
其中,文本分类模型为教师模型,是教师模型对第i个样本Pi的第j类预测标签值,T是知识蒸馏的温度系数,通过调整温度值来生成更加软化的概率标签。
步骤S103,将样本文本数据进行语音合成转换,得到TTS语音数据。
使用文本转换语音的工具将文本模态数据转换为语音模态数据,并根据数据特征更改输出语音的参数,包括速率和音调。本实施例不对具体的文本转换语音的工具作出限定。
步骤S104,将所述TTS语音数据输入语音特征提取模块,得到语音特征的梅尔频率倒谱系数表示向量。
使用语音特征提取模块分别提取语音Ai和TTS语音的MFCC特征M和/>MFCC是在Mel标度频率域提取出来的倒谱系数参数,具体而言,在MFCC特征提取过程中,先对语音进行预加重、分帧加窗一系列预处理使其每帧的窗口能有更好的连续性,接着选取合适的语音帧长用于快速傅里叶变换(FastFourier Transform,FFT)得到对应的频谱,最后通过Mel滤波器得到Mel频谱,并在其上进行倒谱分析。本实施例选取2s的窗口大小以及大小为13的n_mfcc参数进行语音特征的提取。
步骤S105,将所述TTS语音数据输入特征提取网络,得到语音时域及频域特征。
使用CNN+LSTM网络进一步学习语音特征,来增强MFCC特征的语义信息。首先使用6层卷积操作在频域上提取时频信息,接着使用LSTM模型捕捉上下文信息。
步骤S106,将所述语音时域及频域特征输入预设的分类模型,使用交叉熵损失函数对预设的分类模型进行语音情感分类预测训练。
预设的分类模型为学生模型,使用softmax函数计算语音情感分类概率公式如下:
步骤S107,将所述文本情感分类软标签输入所述预设的分类模型并使用预设的知识蒸馏损失函数进行语音情感分类预测训练,使所述TTS语音数据的情感类别预测趋近于所述样本文本数据的情感分布。
首先计算教师模型概率分布感知损失函数LT,旨在使学生模型的概率分布趋近于教师模型的概率分布,计算公式如下所示:
其中,J是样本类别个数,yi,j∈{0,1}是第i个样本Pi的第j类实际标签值,是教师模型对第i个样本Pi的第j类预测软化标签值。
其次,计算学生模型的交叉熵损失函数LA,计算公式如下:
其中,J是样本类别个数,是学生模型对第i个样本Pi的第j类预测概率值。
最后,总体的知识蒸馏损失函数L如下:
L=LA+T2*LT*weightd
其中,weightd是知识蒸馏的权重参数,用于调节两个损失函数的平衡。实验中根据验证集结果,我们设置温度系数T为3、权重weightd为1.5。
步骤S108,使用训练后的分类模型对输入的语音数据进行语音情感分类。
可选地,可以使用测试数据对模型进行测试,参考下表1,为本申请的实施例与其他先进语音情感分类方法在MELD多模态数据集测试集上的精确率及宏平均F1值比较。
表1
从表1可以看出本申请的实施例总体表现优于了现有的其他先进性格分类方法。
为了进一步验证本申请方法的有效性和泛化性,可选地,使用加权精确率(WP)和加权F1值(WF)分别评估各方法在MELD、MOSI、MOSEI三个数据集上的性能,进一步验证本申请实施例的有效性和泛化性。如表2所示,本实例在所有数据集上的结果均优于其他基准方法,充分提现了利用知识蒸馏方法构建语音识别情感模型的有效性。本申请的实施例采用在训练端引入TTS文本语音转换技术,在较基础的学生模型CNN+LSTM分类模型上能取得较优越的结果,验证了其在实际应用中的可能性。
表2
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,对本领域的普通技术人员而言,能够理解本申请的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本申请的说明的情况下运用他们的基本编程技能就能实现的。
因此,本申请的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本申请的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本申请,并且存储有这样的程序产品的存储介质也构成本申请。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。
还需要指出的是,在本申请的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
除非另作定义,权利要求书和说明书中使用的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“一个”或者“一”等类似词语并不表示数量限制,而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的元件或者物件及其等同元件,并不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,也不限于是直接的还是间接的连接。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (8)

1.一种基于知识蒸馏的语音情感分类方法,包括:
将样本文本数据预处理后输入向量提取网络提取文本词嵌入向量,得到文本词嵌入向量;
将所述文本词嵌入向量输入预设的分类模型,得到文本情感分类软标签;
将样本文本数据进行语音合成转换,得到TTS语音数据;
将所述TTS语音数据输入语音特征提取模块,得到语音特征的梅尔频率倒谱系数表示向量;
将所述TTS语音数据输入特征提取网络,得到语音时域及频域特征;
将所述语音时域及频域特征输入预设的分类模型,使用交叉熵损失函数对预设的分类模型进行语音情感分类预测训练;
将所述文本情感分类软标签输入所述预设的分类模型并使用预设的知识蒸馏损失函数进行语音情感分类预测训练,使所述TTS语音数据的情感类别预测趋近于所述样本文本数据的情感分布,得到训练后的分类模型;
使用训练后的分类模型对输入的语音数据进行语音情感分类。
2.根据权利要求1所述的方法,其中所述向量提取网络为BERT模型。
3.根据权利要求1所述的方法,其中所述特征提取网络为CNN+LSTM模型。
4.根据权利要求1所述的方法,其中对所述样本文本数据进行预处理为:对给定样本文本数据序列的开头和结尾处分别加上标签“[CLS]”和“[SEP]”。
5.根据权利要求1所述的方法,其中所述交叉熵损失函数包括学生模型交叉熵损失函数和教师模型交叉熵损失函数。
6.根据权利要求5所述的方法,其中所述学生模型交叉熵损失函数为:
其中,J是样本类别个数,yi,j∈{0,1是第i个样本Pi的第j类实际标签值,是学生模型对第i个样本Pi的第j类预测概率值。
7.根据权利要求6所述的方法,其中所述教师模型交叉熵损失函数为:
其中,J是样本类别个数,是教师模型对第i个样本Pi的第j类预测软化标签值。
8.根据权利要求7所述的方法,其中所述预设的知识蒸馏损失函数为:
L=LA+T2*LT*weightd
其中,weightd为知识蒸馏的权重参数,T为温度系数。
CN202110695067.1A 2021-06-22 2021-06-22 基于知识蒸馏的语音情感分类方法 Active CN113297383B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110695067.1A CN113297383B (zh) 2021-06-22 2021-06-22 基于知识蒸馏的语音情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110695067.1A CN113297383B (zh) 2021-06-22 2021-06-22 基于知识蒸馏的语音情感分类方法

Publications (2)

Publication Number Publication Date
CN113297383A CN113297383A (zh) 2021-08-24
CN113297383B true CN113297383B (zh) 2023-08-04

Family

ID=77329173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110695067.1A Active CN113297383B (zh) 2021-06-22 2021-06-22 基于知识蒸馏的语音情感分类方法

Country Status (1)

Country Link
CN (1) CN113297383B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590760B (zh) * 2021-08-13 2024-05-03 珠海格力电器股份有限公司 情感类别的确定方法、模组、智能家居和可读存储介质
CN113704552B (zh) * 2021-08-31 2024-09-24 哈尔滨工业大学 一种基于跨模态自动对齐和预训练语言模型的情感分析方法、系统及设备
CN116821691B (zh) * 2023-08-28 2024-02-23 清华大学 基于任务融合的训练情感识别模型的方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363753A (zh) * 2018-01-30 2018-08-03 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备
CN109697232A (zh) * 2018-12-28 2019-04-30 四川新网银行股份有限公司 一种基于深度学习的中文文本情感分析方法
CN111611377A (zh) * 2020-04-22 2020-09-01 淮阴工学院 基于知识蒸馏的多层神经网络语言模型训练方法与装置
CN111753092A (zh) * 2020-06-30 2020-10-09 深圳创新奇智科技有限公司 一种数据处理方法、模型训练方法、装置及电子设备
CN111931057A (zh) * 2020-08-18 2020-11-13 中国科学院深圳先进技术研究院 一种自适应输出的序列推荐方法和系统
CN112348075A (zh) * 2020-11-02 2021-02-09 大连理工大学 一种基于情景注意力神经网络的多模态情感识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11335347B2 (en) * 2019-06-03 2022-05-17 Amazon Technologies, Inc. Multiple classifications of audio data

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363753A (zh) * 2018-01-30 2018-08-03 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备
CN109697232A (zh) * 2018-12-28 2019-04-30 四川新网银行股份有限公司 一种基于深度学习的中文文本情感分析方法
CN111611377A (zh) * 2020-04-22 2020-09-01 淮阴工学院 基于知识蒸馏的多层神经网络语言模型训练方法与装置
CN111753092A (zh) * 2020-06-30 2020-10-09 深圳创新奇智科技有限公司 一种数据处理方法、模型训练方法、装置及电子设备
CN111931057A (zh) * 2020-08-18 2020-11-13 中国科学院深圳先进技术研究院 一种自适应输出的序列推荐方法和系统
CN112348075A (zh) * 2020-11-02 2021-02-09 大连理工大学 一种基于情景注意力神经网络的多模态情感识别方法

Also Published As

Publication number Publication date
CN113297383A (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
Purwins et al. Deep learning for audio signal processing
CN110516696B (zh) 一种基于语音和表情的自适应权重双模态融合情感识别方法
CN113297383B (zh) 基于知识蒸馏的语音情感分类方法
CN110246488B (zh) 半优化CycleGAN模型的语音转换方法及装置
CN101930735B (zh) 语音情感识别设备和进行语音情感识别的方法
CN106935239A (zh) 一种发音词典的构建方法及装置
Swain et al. Study of feature combination using HMM and SVM for multilingual Odiya speech emotion recognition
Liu et al. Mongolian text-to-speech system based on deep neural network
CN111696522A (zh) 基于hmm和dnn的藏语语音识别方法
Kumar et al. Machine learning based speech emotions recognition system
Jakubec et al. Deep speaker embeddings for Speaker Verification: Review and experimental comparison
CN114937465A (zh) 一种基于自监督学习的语音情感识别方法和计算机设备
Wang et al. A research on HMM based speech recognition in spoken English
Biswas et al. Speech recognition using weighted finite-state transducers
Nazir et al. Multi speaker text-to-speech synthesis using generalized end-to-end loss function
Biswas et al. Spoken language identification of Indian languages using MFCC features
Qiu et al. A Voice Cloning Method Based on the Improved HiFi‐GAN Model
Wang et al. Emphatic speech synthesis and control based on characteristic transferring in end-to-end speech synthesis
Wen et al. Improving deep neural network based speech synthesis through contextual feature parametrization and multi-task learning
Sisman Machine learning for limited data voice conversion
Yuan et al. Improving Voice Style Conversion via Self-attention VAE with Feature Disentanglement
Baas et al. Voice Conversion for Stuttered Speech, Instruments, Unseen Languages and Textually Described Voices
CN116403562B (zh) 一种基于语义信息自动预测停顿的语音合成方法、系统
Tirusha Multilingual Phonetic Features for Indian Language Identification
Gujral et al. Various Issues In Computerized Speech Recognition Systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant