CN110853680A - 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构 - Google Patents
一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构 Download PDFInfo
- Publication number
- CN110853680A CN110853680A CN201911072974.XA CN201911072974A CN110853680A CN 110853680 A CN110853680 A CN 110853680A CN 201911072974 A CN201911072974 A CN 201911072974A CN 110853680 A CN110853680 A CN 110853680A
- Authority
- CN
- China
- Prior art keywords
- features
- voice
- lstm
- bilstm
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 17
- 230000008451 emotion Effects 0.000 claims abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 15
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 8
- 230000007246 mechanism Effects 0.000 claims abstract description 7
- 238000011176 pooling Methods 0.000 claims abstract description 3
- 238000012545 processing Methods 0.000 claims description 9
- 230000002996 emotional effect Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 230000006872 improvement Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000000295 complement effect Effects 0.000 claims description 2
- 230000009977 dual effect Effects 0.000 claims description 2
- 238000009432 framing Methods 0.000 claims description 2
- 230000000306 recurrent effect Effects 0.000 claims description 2
- 238000010561 standard procedure Methods 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 abstract description 2
- 230000036651 mood Effects 0.000 abstract 1
- 238000013135 deep learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Hospice & Palliative Care (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Child & Adolescent Psychology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
Abstract
本发明公布了一种面向语音情感分类的具有多输入多融合策略的双BiLSTM结构。首先,提取语音信号中的Mel谱特征和统计特征两种帧级特征,然后将两种特征同时输入两个双向LSTM网络进行学习,分别应用注意力机制和平均池化操作将两个双向LSTM的输出进行拼接得到基于各帧的注意加权和及平均的两种高级特征,最后,将这两种特征进行融合及批归一化处理后,使用softmax分类器进行语音情感识别。我们的DABL模型同时处理两种不同类型的特征,以便更好地了解情绪中的细微变化。在“EMO‑DB”数据集上的实验结果表明了本文方法的优越性。
Description
技术领域
本发明属于语音信号处理技术领域,具体涉及到一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构。
背景技术
人类的语音作为信息传递最直接最高效的方式,在表达不同情绪的语音时,音色特征,音质特征,韵律特征,音量特征等人耳能感知到的特征方面都有明显区别。因此,利用机器对语音信息进行挖掘,模拟人的情感感知过程来实现语音情感识别是可行的。语音情感识别相关研究在数十年前就已经出现。随着人工智能的发展,人类已经迈入通过语音进行人机交互的时代,使计算机从语音信号中得到反映情绪状态的信息识别出说话人的情感状态,具有重要的研究意义。
特征提取是语音信号处理的第一步,也是最重要的一步。特征的质量直接决定了识别的效果。当前用于语音情感识别的声学特征大致可归纳为韵律学特征、基于谱的相关特征和音质特征等。然而这些人工特征是低级的,这些特征仍然不能很好地表达话语中的情感。近年来,深度学习在语音情感识别中得到了广泛的应用。利用适当算法训练的神经网络模型,能够从原始数据集中提取更有价值的特征并将特征学习融入到模型构建中。传统的机器学习算法和深度学习网络大多只能接受固定维数的特征作为输入。这些特征常常以帧为单位进行提取,却以全局特征统计值的形式参与情感的识别.全局统计的单位一般是听觉上独立的语句或者单词,常用的统计指标有极值、极值范围、方差等。这样做忽略了可变长度的语音波形,此外,这些特征在提取过程中丢失了语音波形的时间信息。近些年,深度学习方法中RNN神经网络在语音情感识别领域异军突起,特别是Long-Short TermMemory(LSTM)的提出,通过门控机制解决传统RNN模型对长时时序序列处理能力有限的问题,同时克服了梯度消失问题使神经网络可以针对长时序列建模问题进行训练。但是情感语音中,不同地方所包含的情感信息是不一样的,可能有些地方还不包含情感信息。尽管LSTM网络能够利用语音时序信号或语音帧特征学习情感变化的时序信息,但是对于情感在语音中分布不平衡的问题并没有考虑,在学习时会把非情感信息一起学习,降低模型性能,其他模型亦是如此。为了解决这些问题,提出了一种将双向长短时记忆(BiLSTM)与多输入多融合策略相结合的语音情感识别方法。
因此本发明主要关注于提取了表征性更好的特征以实现更优秀的语音测谎工作。
发明内容:
特征提取是语音信号处理的第一步,也是最重要的一步。特征的质量直接决定了识别的效果。为了提取更全面的高级特征,提出了一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构。具体步骤如下:
(1)语音预处理:将语料库中的语音数据按对应的情感分类并标记上数字标签,之后对其进行分帧及加窗,为下一步提取特征做准备。
(2)特征提取:对步骤(1)预处理完毕后的语音数据,提取出MFCC,过零率,基频等45维语音特征和64维log-Mel谱特征。
(3)双BiLSTM装置:将步骤(2)提取的两类特征输入改装置中,该装置由两个双向LSTM组成。 LSTM是对递归神经网络(RNN)的改进,引入了三种控制门:输入门、输出门、遗忘门,对隐藏单元进行写、读和复位操作。传统LSTM存在的一个缺陷是它仅能够利用从正向序列中来的以前的内容。在语音情感识别中,从反向序列而来的未来的内容对情感极性的判断也起至关重要的作用。通过处理正向和反向的序列来抽取结构化知识,这样来自于过去和未来的互补信息可以整合到一起用于推理。双向LSTM网络是对标准正向LSTM模型的改进,该模型能够在正向和反向两个方向操作一系列特征。
原始LSTM状态:
it=σ(wxixt+whiht-1+wcict-1+bi) (1)
ft=σ(wxfxt+whfht-1+wcfct-1+bf) (2)
ct=ftct-1+it tanh(wxcxt+whcht-1+bc) (3)
ot=σ(wxoxt+whoht-1+wcoct-1+bo) (4)
ht=ot tanh(ct) (5)
其中:σ为常用的sigmoid激活函数,i,f,o,c分别表示输入门、遗忘门、输出门和记忆细胞,它们与隐层向量h的维度大小相同。双向LSTM状态:
BiLSTM网络两个输出连接到同一个输出节点。输出层可以同时获得历史和未来的信息。因此,与普通的LSTM相比,BiLSTM不需要等到以后的时间节点才能获得未来的信息。
(4)多融合装置:将步骤(3)得到的两类高级特征采用平均池化和注意力机制两种方法进行融合。常用的LSTM网络对情感语音的标签学习方法有Frame-wise、Final-frame和时间上Mean-pool三种方式。 Mean-pool相对于前两种方式能更加充分的学习到每一帧包含的情感,Mean-pool是对LSTM的输出o(t) 随时间推移执行一个滑动平均,即求所有输出的平均值:
Oaverage=∑o(t)/T (7)
BiLSTM使用注意机制的标准方法是选择一个简单的、类似于逻辑回归的加权和作为池层。这个加权和是在BiLSTM、yt的帧向输出和权重u之间的内积,权重u是注意力模型中的参数向量。为了使重量和保持统一,我们对内积应用了softmax函数:
其中,αt是t次输出yt的权重,在时间维度上,所有时间的权系数都应用于输出ot,并在时间维度上作为输出求和。计算公式为:
z=∑αtot (9)
(5)将步骤(4)得到的两类高级特征再进行一次特征融合,经批归一化处理后,使用softmax分类器进行语音情感识别。
(6)重复步骤(2)、(3)、(4)、(5)采集语音的训练集数据,与标签作对比,对模型进行训练,得到训练后的模型。
(7)利用步骤(6)得到的模型结构,对语音的测试集数据进行特征提取和分类,最终识别语音情感。
附图说明:
图1为“BiLSTM”结构图,图2为“DABL”结构图。图3为DABL模型在“EMO-DB”混淆矩阵图。
具体实施方式:
下面结合具体实施方式对本发明做更进一步的说明。
(1)我们选择柏林EMO-DB语料库进行实验验证。实验中使用Leave-One-Speaker-Out(LOSO) 交叉验证策略,该策略更具有现实性和挑战性。在这个策略,每次以一个人的情感语音样本数据集作为测试集的选择实验,其余的情感语音样本作为训练集,每个人的声音都将作为测试集。最后,计算几个试验的平均值作为结果。本文选取加权平均召回率(WA)作为识别性能的评价指标。WA是正确识别的样本数和所有样本数的比值,这是语音情感识别领域常用的评价指标。
(2)用25ms大小和15ms重叠的汉明窗对语音信号进行分帧,然后从每帧语音中提取45个声学低水平描述子,包括MFCC及其一阶和二阶增量,过零率,每帧的均方能量根,频谱的中心、带宽、平坦度及衰减频率。另外,我们使用了64个Mel滤波器来获得log-Mel谱特征。
(3)将步骤(2)得到的两类帧级特征输入两个相同的BiLSTM网络中提取更高级的特征f1和f2。
(4)将步骤(3)得到的两个高级特征,通过Mean-Pool和注意力机制两种融合策略得两类融合特征F1,F2,再进行一次特征融合得到融合特征F=[F1,F2]。
(5)将步骤(4)得到的融合特征F通过批处理归一化层进行传递,然后使用SoftMax分类器对情绪进行分类。为了防止训练过程中的数据过拟合,我们在DABL模型中加入Dropout。两个BiLSTM 模型并行运算。
(6)为了进一步验证该算法的有效性。将所提算法与HuWSF特征及RDBN模型在相同的评价标准下作对比。各个分类器在EMO-DB语料库的识别准确度如表1所示。
表1在EMO-DB语料库上由不同方法得到的平均正确率
方法 | Killer |
HuWSF | 81.74% |
RDBN | 82.32% |
DABL | 84.43% |
由表1可看出发明设计的具有多输入多融合策略的双BiLSTM结构结构相较于HuWSF以及 RDBN算法在EMO-DB语料库上的识别准确度分别提高了2.69%和2.11%。利用DABL模型同时处理两类特征,提取具有更全面的情感信息的高层次特征,并行的内部结构平衡了模块间信息的差异,相较于以往的识别方法,我们的算法可以达到更高的准确度。
Claims (1)
1.本发明公布了一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构,其特征在于,包括以下步骤:
(1)语音预处理:将语料库中的语音数据按对应的情感分类并标记上数字标签,之后对其进行分帧及加窗,为下一步提取特征做准备;
(2)特征提取:对步骤(1)预处理完毕后的语音数据,提取出MFCC,过零率,基频等45维语音特征和64维log-Mel谱特征;
(3)双BiLSTM装置:将步骤(2)提取的两类特征输入改装置中,该装置由两个双向LSTM组成;LSTM是对递归神经网络(RNN)的改进,引入了三种控制门:输入门、输出门、遗忘门,对隐藏单元进行写、读和复位操作;传统LSTM存在的一个缺陷是它仅能够利用从正向序列中来的以前的内容;在语音情感识别中,从反向序列而来的未来的内容对情感极性的判断也起至关重要的作用;通过处理正向和反向的序列来抽取结构化知识,这样来自于过去和未来的互补信息可以整合到一起用于推理;双向LSTM网络是对标准正向LSTM模型的改进,该模型能够在正向和反向两个方向操作一系列特征;原始LSTM状态:
it=σ(wxixt+whiht-1+wcict-1+bi) (1)
ft=σ(wxfxt+whfht-1+wcfct-1+bf) (2)
ct=ftct-1+it tanh(wxcxt+whcht-1+bc) (3)
ot=σ(wxoxt+whoht-1+wcoct-1+bo) (4)
ht=ot tanh(ct) (5)
其中:σ为常用的sigmoid激活函数,i,f,o,c分别表示输入门、遗忘门、输出门和记忆细胞,它们与隐层向量h的维度大小相同;双向LSTM状态:
BiLSTM网络两个输出连接到同一个输出节点;输出层可以同时获得历史和未来的信息,因此,与普通的LSTM相比,BiLSTM不需要等到以后的时间节点才能获得未来的信息;
(4)多融合装置:将步骤(3)得到的两类高级特征采用平均池化和注意力机制两种方法进行融合;常用的LSTM网络对情感语音的标签学习方法有Frame-wise、Final-frame和时间上Mean-pool三种方式;Mean-pool相对于前两种方式能更加充分的学习到每一帧包含的情感,Mean-pool是对LSTM的输出o(t)随时间推移执行一个滑动平均,即求所有输出的平均值:
Oaverage=∑o(t)/T (7)
BiLSTM使用注意机制的标准方法是选择一个简单的、类似于逻辑回归的加权和作为池层;这个加权和是在BiLSTM、yt的帧向输出和权重u之间的内积,权重u是注意力模型中的参数向量;为了使重量和保持统一,我们对内积应用了softmax函数:
其中,αt是t次输出yt的权重,在时间维度上,所有时间的权系数都应用于输出ot,并在时间维度上作为输出求和;计算公式为:
z=∑αtot (9)
(5)将步骤(4)得到的两类高级特征再进行一次特征融合,经批归一化处理后,使用softmax分类器进行语音情感识别;
(6)重复步骤(2)、(3)、(4)、(5)采集语音的训练集数据,与标签作对比,对模型进行训练,得到训练后的模型;
(7)利用步骤(6)得到的模型结构,对语音的测试集数据进行特征提取和分类,最终识别语音情感。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911072974.XA CN110853680B (zh) | 2019-11-05 | 2019-11-05 | 一种具有多输入多融合策略的双BiLSTM的语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911072974.XA CN110853680B (zh) | 2019-11-05 | 2019-11-05 | 一种具有多输入多融合策略的双BiLSTM的语音情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110853680A true CN110853680A (zh) | 2020-02-28 |
CN110853680B CN110853680B (zh) | 2021-12-24 |
Family
ID=69598225
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911072974.XA Expired - Fee Related CN110853680B (zh) | 2019-11-05 | 2019-11-05 | 一种具有多输入多融合策略的双BiLSTM的语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110853680B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111508500A (zh) * | 2020-04-17 | 2020-08-07 | 五邑大学 | 一种语音情绪识别方法、系统、装置和存储介质 |
CN111524519A (zh) * | 2020-05-28 | 2020-08-11 | 中国科学技术大学 | 采用高级特征融合的端到端多通道语音识别方法 |
CN111737521A (zh) * | 2020-08-04 | 2020-10-02 | 北京微播易科技股份有限公司 | 一种视频分类方法和装置 |
CN111816212A (zh) * | 2020-06-19 | 2020-10-23 | 杭州电子科技大学 | 基于特征集融合的语音情感识别及评价方法 |
CN112199503A (zh) * | 2020-10-28 | 2021-01-08 | 南京信息工程大学 | 一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法 |
CN112489690A (zh) * | 2020-12-23 | 2021-03-12 | 沈阳新松机器人自动化股份有限公司 | 语音情绪识别方法及系统 |
CN112735477A (zh) * | 2020-12-31 | 2021-04-30 | 沈阳康慧类脑智能协同创新中心有限公司 | 语音情感分析方法和装置 |
CN113450830A (zh) * | 2021-06-23 | 2021-09-28 | 东南大学 | 具有多重注意机制的卷积循环神经网络的语音情感识别方法 |
CN113674767A (zh) * | 2021-10-09 | 2021-11-19 | 复旦大学 | 一种基于多模态融合的抑郁状态识别方法 |
CN113724732A (zh) * | 2021-04-28 | 2021-11-30 | 河南工业大学 | 一种基于多头注意力机制融合的卷积递归神经网络模型 |
CN113744724A (zh) * | 2021-08-30 | 2021-12-03 | 苏州浪潮智能科技有限公司 | 一种语音转换方法、装置、设备及存储介质 |
CN114495989A (zh) * | 2022-03-07 | 2022-05-13 | 浙江工业大学 | 一种基于神经网络的语音情感识别方法 |
CN115482837A (zh) * | 2022-07-25 | 2022-12-16 | 科睿纳(河北)医疗科技有限公司 | 一种基于人工智能的情绪分类方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180109227A (ko) * | 2017-03-27 | 2018-10-08 | (주)아크릴 | 감정 인식 방법 및 프로그램과, 감정 인식기 생성 방법 및 프로그램 |
CN109146152A (zh) * | 2018-08-01 | 2019-01-04 | 北京京东金融科技控股有限公司 | 一种线上事故等级预测方法和装置 |
CN109522548A (zh) * | 2018-10-26 | 2019-03-26 | 天津大学 | 一种基于双向交互神经网络的文本情感分析方法 |
CN110164476A (zh) * | 2019-05-24 | 2019-08-23 | 广西师范大学 | 一种基于多输出特征融合的blstm的语音情感识别方法 |
-
2019
- 2019-11-05 CN CN201911072974.XA patent/CN110853680B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180109227A (ko) * | 2017-03-27 | 2018-10-08 | (주)아크릴 | 감정 인식 방법 및 프로그램과, 감정 인식기 생성 방법 및 프로그램 |
CN109146152A (zh) * | 2018-08-01 | 2019-01-04 | 北京京东金融科技控股有限公司 | 一种线上事故等级预测方法和装置 |
CN109522548A (zh) * | 2018-10-26 | 2019-03-26 | 天津大学 | 一种基于双向交互神经网络的文本情感分析方法 |
CN110164476A (zh) * | 2019-05-24 | 2019-08-23 | 广西师范大学 | 一种基于多输出特征融合的blstm的语音情感识别方法 |
Non-Patent Citations (2)
Title |
---|
SEYEDMAHDAD MIRSAMADI ET AL.: "《AUTOMATIC SPEECH EMOTION RECOGNITION USING RECURRENT NEURAL NETWORKS WITH LOCAL ATTENTION》", 《2017 ICASSP》 * |
姜芃旭等: "《一种基于卷积神经网络特征表征的语音情感识别方法》", 《电子器件》 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111508500B (zh) * | 2020-04-17 | 2023-08-29 | 五邑大学 | 一种语音情绪识别方法、系统、装置和存储介质 |
CN111508500A (zh) * | 2020-04-17 | 2020-08-07 | 五邑大学 | 一种语音情绪识别方法、系统、装置和存储介质 |
CN111524519A (zh) * | 2020-05-28 | 2020-08-11 | 中国科学技术大学 | 采用高级特征融合的端到端多通道语音识别方法 |
CN111524519B (zh) * | 2020-05-28 | 2022-09-30 | 中国科学技术大学 | 采用高级特征融合的端到端多通道语音识别方法 |
CN111816212A (zh) * | 2020-06-19 | 2020-10-23 | 杭州电子科技大学 | 基于特征集融合的语音情感识别及评价方法 |
CN111816212B (zh) * | 2020-06-19 | 2022-10-11 | 杭州电子科技大学 | 基于特征集融合的语音情感识别及评价方法 |
CN111737521A (zh) * | 2020-08-04 | 2020-10-02 | 北京微播易科技股份有限公司 | 一种视频分类方法和装置 |
CN111737521B (zh) * | 2020-08-04 | 2020-11-24 | 北京微播易科技股份有限公司 | 一种视频分类方法和装置 |
CN112199503B (zh) * | 2020-10-28 | 2023-04-28 | 南京信息工程大学 | 一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法 |
CN112199503A (zh) * | 2020-10-28 | 2021-01-08 | 南京信息工程大学 | 一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法 |
CN112489690A (zh) * | 2020-12-23 | 2021-03-12 | 沈阳新松机器人自动化股份有限公司 | 语音情绪识别方法及系统 |
CN112735477A (zh) * | 2020-12-31 | 2021-04-30 | 沈阳康慧类脑智能协同创新中心有限公司 | 语音情感分析方法和装置 |
CN112735477B (zh) * | 2020-12-31 | 2023-03-17 | 沈阳康慧类脑智能协同创新中心有限公司 | 语音情感分析方法和装置 |
CN113724732A (zh) * | 2021-04-28 | 2021-11-30 | 河南工业大学 | 一种基于多头注意力机制融合的卷积递归神经网络模型 |
CN113724732B (zh) * | 2021-04-28 | 2023-12-01 | 河南工业大学 | 一种基于多头注意力机制融合的卷积递归神经网络模型 |
CN113450830A (zh) * | 2021-06-23 | 2021-09-28 | 东南大学 | 具有多重注意机制的卷积循环神经网络的语音情感识别方法 |
CN113450830B (zh) * | 2021-06-23 | 2024-03-08 | 东南大学 | 具有多重注意机制的卷积循环神经网络的语音情感识别方法 |
CN113744724A (zh) * | 2021-08-30 | 2021-12-03 | 苏州浪潮智能科技有限公司 | 一种语音转换方法、装置、设备及存储介质 |
CN113674767A (zh) * | 2021-10-09 | 2021-11-19 | 复旦大学 | 一种基于多模态融合的抑郁状态识别方法 |
CN114495989A (zh) * | 2022-03-07 | 2022-05-13 | 浙江工业大学 | 一种基于神经网络的语音情感识别方法 |
CN115482837A (zh) * | 2022-07-25 | 2022-12-16 | 科睿纳(河北)医疗科技有限公司 | 一种基于人工智能的情绪分类方法 |
CN115482837B (zh) * | 2022-07-25 | 2023-04-28 | 科睿纳(河北)医疗科技有限公司 | 一种基于人工智能的情绪分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110853680B (zh) | 2021-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110853680B (zh) | 一种具有多输入多融合策略的双BiLSTM的语音情感识别方法 | |
CN110516696B (zh) | 一种基于语音和表情的自适应权重双模态融合情感识别方法 | |
CN110400579B (zh) | 基于方向自注意力机制和双向长短时网络的语音情感识别 | |
CN108597539B (zh) | 基于参数迁移和语谱图的语音情感识别方法 | |
CN108717856B (zh) | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 | |
Zeng et al. | Effective combination of DenseNet and BiLSTM for keyword spotting | |
CN112216271B (zh) | 一种基于卷积块注意机制的视听双模态语音识别方法 | |
CN112581979B (zh) | 一种基于语谱图的语音情绪识别方法 | |
CN111753549A (zh) | 一种基于注意力机制的多模态情感特征学习、识别方法 | |
CN107633842A (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN108597541A (zh) | 一种增强愤怒与开心识别的语音情感识别方法及系统 | |
CN110534132A (zh) | 一种基于谱图特征的并行卷积循环神经网络的语音情感识别方法 | |
CN108711421A (zh) | 一种语音识别声学模型建立方法及装置和电子设备 | |
CN110459225A (zh) | 一种基于cnn融合特征的说话人辨认系统 | |
CN114678030B (zh) | 基于深度残差网络和注意力机制的声纹识别方法及装置 | |
CN113643723A (zh) | 一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法 | |
CN115862684A (zh) | 一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法 | |
CN111899766B (zh) | 基于深度特征与声学特征寻优融合的语音情感识别方法 | |
CN112562725A (zh) | 基于语谱图和胶囊网络的混合语音情感分类方法 | |
CN111081273A (zh) | 一种基于声门波信号特征提取的语音情感识别方法 | |
CN111243621A (zh) | 一种用于合成语音检测的gru-svm深度学习模型的构造方法 | |
CN112466284B (zh) | 一种口罩语音鉴别方法 | |
Ye et al. | Attention bidirectional LSTM networks based mime speech recognition using sEMG data | |
CN116434786A (zh) | 融合文本语义辅助的教师语音情感识别方法 | |
Yang | [Retracted] Design of Service Robot Based on User Emotion Recognition and Environmental Monitoring |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20211224 |