CN109389992A - 一种基于振幅和相位信息的语音情感识别方法 - Google Patents

一种基于振幅和相位信息的语音情感识别方法 Download PDF

Info

Publication number
CN109389992A
CN109389992A CN201811212955.8A CN201811212955A CN109389992A CN 109389992 A CN109389992 A CN 109389992A CN 201811212955 A CN201811212955 A CN 201811212955A CN 109389992 A CN109389992 A CN 109389992A
Authority
CN
China
Prior art keywords
layer
amplitude
phase
phase information
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811212955.8A
Other languages
English (en)
Inventor
王龙标
郭丽丽
党建武
张林娟
关昊天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huiyan Technology (tianjin) Co Ltd
Tianjin University
Original Assignee
Huiyan Technology (tianjin) Co Ltd
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huiyan Technology (tianjin) Co Ltd, Tianjin University filed Critical Huiyan Technology (tianjin) Co Ltd
Priority to CN201811212955.8A priority Critical patent/CN109389992A/zh
Publication of CN109389992A publication Critical patent/CN109389992A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于振幅和相位信息的语音情感识别方法,包括以下步骤:步骤一,输入数据准备:选择情感识别数据库,并对数据进行分段处理;步骤二,提取振幅和相位信息;步骤三,构建卷积神经网络,从振幅和相位的融合信息中提取深度特征;步骤四,构建长短时记忆网络,完成情感分类;最后,输出情感分类结果。本发明的语音情感识方法和现有技术相比,考虑到了语音的相位信息,有效利用相位和振幅信息的互补性,选用CNN自动从振幅和相位信息中同时提取深度情感相关特征,大大的提高了特征的丰富性,获得更好语音情感识别效果。

Description

一种基于振幅和相位信息的语音情感识别方法
技术领域
本发明属于语音情感识别技术领域,尤其是涉及一种基于振幅和相位信息融 合的特征提取方法。
背景技术
人机交互在口语对话系统、智能语音助手等应用中变得越来越重要,其中语 音情感识别能有效的帮助机器来理解人类的意图,因此正确的区分人类的情感能 帮助机器提供更好的用户体验。然而,语音情感识别是一个具有挑战性的任务, 因为我们不能明确的知道哪些特征和模型对区分情感是有效的。
对于语音情感识别问题,比较传统的方法是根据人类的听觉感知手动提取一 些基于听觉的特征,如基频、能量等。这类方法存在的问题是:仅仅依靠人类的 先验知识来提取有效的特征是很困难的,而且有些先验知识不是完全正确;另外 手动提取特征会消耗很多时间。
为了解决以上问题,人们用卷积神经网络Convolutional Neural Network, CNN)直接作用于振幅谱来提取特征。现在最优的方法是CNN和双向长短时记忆 网络(Bidirectional Long Short-Term Memory,BLSTM)结合CNN-BLSTM,但 是目前的研究仍然存在1个主要的问题:仅仅依靠振幅信息进行建模,忽略了相 位信息的作用,因而不能完整的获取语音的有效信息。针对以上问题,本发明提 出了一种基于振幅和相位信息融合的特征提取方法。
发明内容
本发明针对现有语音情感识别模型在特征提取时忽略相位信息的问题,提出 一种基于振幅和相位信息的特征提取方法,从而有效利用相位和振幅信息的互补 性。为了探索不同类别的相位信息的互补性,该方法采用两种相位信息进行实验, 分别是相对相位(Relative Phase)和MGDCC(Modified Group Delay Cepstrral Coefficients)。
为了解决上述技术问题,本发明的技术方案如下:
一种基于振幅和相位信息的语音情感识别方法,包括以下步骤:
步骤一,输入数据准备:对语音情感数据库中的语音信号进行数据准备,把 每一句语音信号切分成固定长度的段。
步骤二,数据预处理:
1)振幅信息提取:通过分帧、加窗、短时傅里叶变换得到振幅谱尺寸为b×a, 为了方便卷积操作,我们做了旋转操作,时间轴变为纵向,尺寸变为a×b,用V1 表示振幅矩阵;
2)相位信息提取:提取每一段语音对应的相位信息包含相对相位和MGDCC 两种信息,用V2表示相位矩阵;
3)将1)提取的振幅信息V1和2)提取的相位信息V2融合在一起,组成一 个大的信息矩阵V,第i句话的第t段语音的融合如公式(1):
其中,代表第i句话的第t段的振幅信息,第i句话的第t段的相位信 息;
步骤三,深度特征提取:
把每一段语音信号对应的振幅和相位融合矩阵V输入到CNN中自动提取特 征,深度特征维度为n;
步骤四,决策:
本发明采用BLSTM做最后的决策。一句话的所有段级别的特征输入到BLSTM 中,然后BLSTM会根据所有段计算出代表一句话的特征,最后输入到softmax 分类器中完成句子的情感分类,分别为高兴、生气、害怕、悲伤、厌恶、无聊、 中性七种情感。
进一步地,所述步骤二中相位信息的提取包含MGDCC和相对相位两种信息, 具体提取过程如下:
1)MGDCC提取
输入语音信号x(n)经过离散傅里叶变换DFT得到频谱图X(ω),如公式(2):
X(ω)=|X(ω)|ejθ(ω), (2)
其中,|X(ω)|表示在频率ω下的振幅,θ(ω)表示在频率ω下的相位。
然而相位取值范围在(-π≤θ≤π),并且相位信息更像是噪声,这个问题称 为相位缠绕。为了克服这个问题,采用群延迟特征进行相位信息处理;
群延迟定义为傅里叶变换相位对频率求负导数,如公式(3):
群延迟函数也可以直接用以下公式从语音频谱中计算:
这里,X(ω)是信号x(n)傅里叶变换后的频谱图,Y(ω)是nx(n)傅里叶变 换后的频谱图,下标R和I代表傅里叶变换后的实部和虚部。
更进一步地,优选采用改进的群延迟函数,并且需要研究已经证明改进的函 数比原始的群延迟函数效果要好。改进的群延迟函数可以用以下公式定义:
其中,S(ω)是对X(ω)取平滑光谱,α和γ的取值范围都是(0,1)。
2)相对相位提取
即使是在相同的频率下,原始的相位信息会随着输入语音的位裁剪置而变化。 对此,采用相对相位,即某个基频ω的相位保持固定,其他频率的相位相对于 这个值来估计。比如,设定基频ω的值为0,我们可以得到以下公式:
X'(ω)=|X(ω)|×ejθ(ω)×ej(-θ(ω)), (7)
对于其他频率ω'=2πf',频谱变成:
最后,相位信息可以被归一化,归一化的相位信息如下:
进一步地,所述步骤三中的卷积神经网络CNN,具体构建步骤如下:
1)第一层是输入层,将步骤二中得到的所有段语音信号的振幅加相位信息 矩阵V输入到CNN;
2)第二层是卷积层,选择n1个尺寸为k1×k1的滤波器做卷积操作,然后经 过激活函数得到该层的输出;
3)第三层是池化层,池化尺寸为p1×p1,对第二层输出的特征图进行降采 样;
4)第四层是第二个卷积层,选择n2个尺寸为k2×k2的滤波器做卷积操作, 然后经过激活函数得到该层输出的特征图;
5)第五层是第二个池化层,池化尺寸为p2×p2,对第四层输出的特征图进 行降采样;
6)第六、七、八、九层均为全连接层,第六层将第五层所有的特征图拼合 到一个特征矩阵;第七层是特征全连接到d个节点的隐藏层;第八层是dropout 层,可以有效防止过拟合;第九层为输出层,输出层节点数等于情感类别数,激 活函数采用softmax。
与现有技术相比,本发明的有益效果为:
附图说明
图1是本发明提出的基于振幅和相位信息的特征提取方法框架图;
图2是用于自动提取声学特征的CNN结构图;
图3是本发明用到的CNN结构图;
表1是实验室中用到的特征列表。
表2是在EmoDB数据库上语音情感识别结果对比。
具体实施方式
为了更好地理解本发明的技术方案,现结合附图及具体实施方式来对本发明 进行更进一步详细的描述。
图1是本发明的基于振幅和相位信息的特征提取方法的框架图,主要包含以 下步骤:
步骤一,输入数据准备:为了验证本发明的效果,在EmoDB进行情感识别实 验,试验采用十折交叉验证方法。EmoDB包含535句话共七类情感,分别为高兴、 生气、害怕、悲伤、厌恶、无聊、中性;所有句子采样频率为16KHz,每一句 话时长约2-3秒。用265ms窗长和25ms的窗移对语音信号进行切分,得到固 定长度的段。
步骤二,数据预处理(如图2所示):
1)振幅信息提取:把每一段语音信号经过预加重、分帧、加窗、快速傅里 叶变换,FFT点数设为256,窗长16ms,窗移8ms,最终得到振幅谱V1(尺寸为 129×32),为了方便卷积,我们把振幅矩阵做旋转操作,时间轴变为纵向,V1尺 寸变为32×129。
2)相位信息提取:本发明用到两种相位信息,提取相对相位的时候窗长16ms, 窗移8ms,基频ω设为1000Hz,每一段语音信号对应的相对相位矩阵为32×129。 提取MGDCC的时候参数α=0.1,γ=0.2,提取到的MGDCC矩阵为32×36。 最终相对相位和MGDCC组成相位矩阵V2(尺寸为32×165)。
最后,将1)提取的振幅信息V1和2)提取的相位信息V2融合在一起,组 成一个大的信息矩阵V(尺寸为32×294)。
步骤三,深度特征提取:
自动声学特征提取,图3是本发明用到的CNN结构图。
第一层是输入层,将步骤二中得到的所有段语音信号的信息矩阵V(32×294) 输入到CNN;
第二层是卷积层,选择32个尺寸为5×5的滤波器做卷积操作,然后经过激 活函数relu得到32个尺寸为28×290的特征图;
第三层是池化层,池化尺寸为2×2,对第二层输出的特征图进行降采样,得 到32个尺寸为14×145的特征图;
第四层是第二个卷积层,选择64个尺寸为5×5的滤波器做卷积操作,然后 经过激活函数relu得到64个尺寸为10×141的特征图;
第五层是第二个池化层,池化尺寸为2×2,对第四层输出的特征图进行降采 样,得到64个尺寸为5×70的特征图;
第六、七、八、九层均为全连接层,第六层将第五层所有的特征图拼合到一 个特征矩阵;第七层是特征全连接到1024个节点的隐藏层;第八层是dropout 层,因数取0.5;第九层为输出层,输出层节点数为7,激活函数采用softmax。 其中,第七层的输出便是CNN提取到的1024维特征。
步骤四,决策:本发明采用2层节点数为200的BLSTM做最后的决策。一句 话的所有段级别的特征1024维输入到BLSTM中,然后BLSTM会根据所有段计算 出代表一句话的特征,最后输入到softmax分类器中完成句子的情感分类,分别 为高兴、生气、害怕、悲伤、厌恶、无聊、中性七种情感。
表1列出了不同收入数据的尺寸,1号特征是本发明的对比算法(只采用振 幅信息),通过各种对比实验来评估相位信息的作用。
表1:不同收入数据的尺寸
ID 特征 尺寸
1 振幅 32×129
2 相对相位 32×129
3 MGDCC 32×36
4 振幅+相对相位 32×258
5 振幅+MGDCC 32×165
6 振幅+相对相位+MGDCC 32×294
表2是在EmoDB数据库上进行十折交叉实验的情感识别结果对比,评价指标 为加权正确率(整个测试集合的正确率)和非加权正确率(先计算每一类情感的 正确率,然后取平均值)。
表2
特征 加权正确率(%) 非加权正确率(%)
振幅 87.66 86.66
相对相位 70.28 68.83
MGDCC 82.80 81.40
振幅+相对相位 88.04 87.08
振幅+MGDCC 88.79 88.19
振幅+相对相位+MGDCC 91.78 91.28
首先,我们可以看出只采用相位进行情感识别是可行的,证明了相位信息在 深度学习框架下可以表现良好。其次,振幅和相对相位或者MGCDCC结合比只用 振幅信息的效果要好,表明振幅和相位信息结合的方法是有效的。其中,振幅和 相对相位结合和单独采用相对相位相比相对加权错误率和非加权错误率都降低 了约58%,而振幅和MGDCC结合与MGDCC相比,提升力度没有这么大。这表明相 对相位和振幅之间具有更高的互补性。最后,把三种特征(振幅,相对相位,MGDCC) 结合起来取得了的最好的结果,表面两种相位信息之间也具有一定的互补性。

Claims (4)

1.一种基于振幅和相位信息的语音情感识别方法,其特征在于,包括以下步骤:
步骤一,输入数据准备:对语音情感数据库中的语音信号进行数据准备,把每一句语音信号切分成固定长度的段;
步骤二,数据预处理:
1)振幅信息提取:通过分帧、加窗、短时傅里叶变换得到振幅谱尺寸为b×a,为了方便卷积操作,进行旋转操作,时间轴变为纵向,尺寸变为a×b,用V1表示振幅矩阵;
2)相位信息提取:提取每一段语音对应的相位信息包含相对相位和MGDCC两种信息,用V2表示相位矩阵;
3)将1)提取的振幅信息V1和2)提取的相位信息V2融合在一起,组成一个大的信息矩阵V,第i句话的第t段语音的融合如公式(1):
其中,代表第i句话的第t段的振幅信息,第i句话的第t段的相位信息;
步骤三,深度特征提取:
把每一段语音信号对应的振幅和相位融合矩阵V输入到CNN中自动提取特征,深度特征维度为n;
步骤四,决策:
采用BLSTM做最后的决策,一句话的所有段级别的特征输入到BLSTM中,然后BLSTM会根据所有段计算出代表一句话的特征,最后输入到softmax分类器中完成句子的情感分类,分别为高兴、生气、害怕、悲伤、厌恶、无聊、中性七种情感。
2.根据权利要求1所述的一种基于振幅和相位信息的语音情感识别方法,其特征在于,所述步骤二中相位信息的提取包含MGDCC和相对相位两种信息,具体提取过程如下:
1)MGDCC提取
输入语音信号x(n)经过离散傅里叶变换DFT得到频谱图X(ω),如公式(2):
X(ω)=|X(ω)|ejθ(ω), (2)
其中,|X(ω)|表示在频率ω下的振幅,θ(ω)表示在频率ω下的相位;
当相位取值范围在(-π≤θ≤π)时,会出现相位缠绕问题,采用群延迟特征进行相位信息处理:
群延迟定义为傅里叶变换相位对频率求负导数,如公式(3):
群延迟函数也可以直接用以下公式从语音频谱中计算:
其中,X(ω)是信号x(n)傅里叶变换后的频谱图,Y(ω)是nx(n)傅里叶变换后的频谱图,下标R和I代表傅里叶变换后的实部和虚部。
3.根据权利要求2所述的一种基于振幅和相位信息的语音情感识别方法,其特征在于,所述群延迟函数用以下公式定义:
其中,S(ω)是对X(ω)取平滑光谱,α和γ的取值范围都是(0,1);
2)相对相位提取
即使是在相同的频率下,原始的相位信息会随着输入语音的位裁剪置而变化,对此,采用相对相位即某个基频ω的相位保持固定,其他频率的相位相对于这个值来估计,设定基频ω的值为0,得到以下公式:
X'(ω)=|X(ω)|×ejθ(ω)×ej(-θ(ω)), (7)
对于其他频率ω'=2πf',频谱变成:
最后,相位信息可以被归一化,归一化的相位信息如下:
4.根据权利要求1所述的一种基于振幅和相位信息的语音情感识别方法,其特征在于,所述步骤三中的卷积神经网络CNN,具体构建步骤如下:
1)第一层是输入层,将步骤二中得到的所有段语音信号的振幅加相位信息矩阵V输入到CNN;
2)第二层是卷积层,选择n1个尺寸为k1×k1的滤波器做卷积操作,然后经过激活函数得到该层的输出;
3)第三层是池化层,池化尺寸为p1×p1,对第二层输出的特征图进行降采样;
4)第四层是第二个卷积层,选择n2个尺寸为k2×k2的滤波器做卷积操作,然后经过激活函数得到该层输出的特征图;
5)第五层是第二个池化层,池化尺寸为p2×p2,对第四层输出的特征图进行降采样;
6)第六、七、八、九层均为全连接层,第六层将第五层所有的特征图拼合到一个特征矩阵;第七层是特征全连接到d个节点的隐藏层;第八层是dropout层,能够有效防止过拟合;第九层为输出层,输出层节点数等于情感类别数,激活函数采用softmax;
7)第八层是dropout层,能够有效防止过拟合;第九层为输出层,输出层节点数等于情感类别数,激活函数采用softmax。
CN201811212955.8A 2018-10-18 2018-10-18 一种基于振幅和相位信息的语音情感识别方法 Pending CN109389992A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811212955.8A CN109389992A (zh) 2018-10-18 2018-10-18 一种基于振幅和相位信息的语音情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811212955.8A CN109389992A (zh) 2018-10-18 2018-10-18 一种基于振幅和相位信息的语音情感识别方法

Publications (1)

Publication Number Publication Date
CN109389992A true CN109389992A (zh) 2019-02-26

Family

ID=65427541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811212955.8A Pending CN109389992A (zh) 2018-10-18 2018-10-18 一种基于振幅和相位信息的语音情感识别方法

Country Status (1)

Country Link
CN (1) CN109389992A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109767789A (zh) * 2019-03-06 2019-05-17 慧言科技(天津)有限公司 一种用于语音情感识别的新特征提取方法
CN109841219A (zh) * 2019-03-15 2019-06-04 慧言科技(天津)有限公司 利用语音振幅信息和多种相位检测语音欺诈重放攻击方法
CN110047516A (zh) * 2019-03-12 2019-07-23 天津大学 一种基于性别感知的语音情感识别方法
CN110047507A (zh) * 2019-03-01 2019-07-23 北京交通大学 一种声源识别方法及装置
CN110164476A (zh) * 2019-05-24 2019-08-23 广西师范大学 一种基于多输出特征融合的blstm的语音情感识别方法
CN110324702A (zh) * 2019-07-04 2019-10-11 三星电子(中国)研发中心 视频播放过程中的信息推送方法和装置
CN110348482A (zh) * 2019-06-05 2019-10-18 华东理工大学 一种基于深度模型集成架构的语音情感识别系统
CN110415722A (zh) * 2019-07-25 2019-11-05 北京得意音通技术有限责任公司 语音信号处理方法、存储介质、计算机程序和电子设备
CN110570844A (zh) * 2019-08-15 2019-12-13 平安科技(深圳)有限公司 语音情绪识别方法、装置及计算机可读存储介质
CN110580920A (zh) * 2019-08-28 2019-12-17 南京梧桐微电子科技有限公司 一种声码器子带清浊音判决的方法及系统
CN110728997A (zh) * 2019-11-29 2020-01-24 中国科学院深圳先进技术研究院 一种基于情景感知的多模态抑郁症检测方法和系统
CN111357051A (zh) * 2019-12-24 2020-06-30 深圳市优必选科技股份有限公司 语音情感识别方法、智能装置和计算机可读存储介质
CN111710349A (zh) * 2020-06-23 2020-09-25 长沙理工大学 一种语音情感识别方法、系统、计算机设备和存储介质
US11521629B1 (en) 2021-06-29 2022-12-06 Institute Of Automation, Chinese Academy Of Sciences Method for obtaining digital audio tampering evidence based on phase deviation detection

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101685634A (zh) * 2008-09-27 2010-03-31 上海盛淘智能科技有限公司 一种儿童语音情感识别方法
US20150142446A1 (en) * 2013-11-21 2015-05-21 Global Analytics, Inc. Credit Risk Decision Management System And Method Using Voice Analytics
CN106782602A (zh) * 2016-12-01 2017-05-31 南京邮电大学 基于长短时间记忆网络和卷积神经网络的语音情感识别方法
US20180233120A1 (en) * 2015-07-24 2018-08-16 Sound Object Technologies S.A. Method and a system for decomposition of acoustic signal into sound objects, a sound object and its use

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101685634A (zh) * 2008-09-27 2010-03-31 上海盛淘智能科技有限公司 一种儿童语音情感识别方法
US20150142446A1 (en) * 2013-11-21 2015-05-21 Global Analytics, Inc. Credit Risk Decision Management System And Method Using Voice Analytics
US20180233120A1 (en) * 2015-07-24 2018-08-16 Sound Object Technologies S.A. Method and a system for decomposition of acoustic signal into sound objects, a sound object and its use
CN106782602A (zh) * 2016-12-01 2017-05-31 南京邮电大学 基于长短时间记忆网络和卷积神经网络的语音情感识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
GUO LILI ET AL.: "《Speech Emotion Recognition by Combining Amplitude and Phase Information Using Convolutional Neural Network》", 《19TH ANNUAL CONFERENCE OF THE INTERNATIONAL-SPEECH-COMMUNICATION-ASSOCIATION (INTERSPEECH 2018)》 *
SUMAN DEB ET AL.: "《Exploration of Phase Information for Speech Emotion Classification》", 《2017 TWENTY-THIRD NATIONAL CONFERENCE ON COMMUNICATIONS (NCC)》 *
曹田熠: "《多模态融合的情感识别研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
许良凤等: "语谱图改进完全局部二值模式的语音情感识别", 《电子测量与仪器学报》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110047507B (zh) * 2019-03-01 2021-03-30 北京交通大学 一种声源识别方法及装置
CN110047507A (zh) * 2019-03-01 2019-07-23 北京交通大学 一种声源识别方法及装置
CN109767789A (zh) * 2019-03-06 2019-05-17 慧言科技(天津)有限公司 一种用于语音情感识别的新特征提取方法
CN110047516A (zh) * 2019-03-12 2019-07-23 天津大学 一种基于性别感知的语音情感识别方法
CN109841219A (zh) * 2019-03-15 2019-06-04 慧言科技(天津)有限公司 利用语音振幅信息和多种相位检测语音欺诈重放攻击方法
CN110164476A (zh) * 2019-05-24 2019-08-23 广西师范大学 一种基于多输出特征融合的blstm的语音情感识别方法
CN110348482A (zh) * 2019-06-05 2019-10-18 华东理工大学 一种基于深度模型集成架构的语音情感识别系统
CN110348482B (zh) * 2019-06-05 2023-06-02 华东理工大学 一种基于深度模型集成架构的语音情感识别系统
CN110324702A (zh) * 2019-07-04 2019-10-11 三星电子(中国)研发中心 视频播放过程中的信息推送方法和装置
CN110324702B (zh) * 2019-07-04 2022-06-07 三星电子(中国)研发中心 视频播放过程中的信息推送方法和装置
CN110415722B (zh) * 2019-07-25 2021-10-08 北京得意音通技术有限责任公司 语音信号处理方法、存储介质、计算机程序和电子设备
CN110415722A (zh) * 2019-07-25 2019-11-05 北京得意音通技术有限责任公司 语音信号处理方法、存储介质、计算机程序和电子设备
CN110570844A (zh) * 2019-08-15 2019-12-13 平安科技(深圳)有限公司 语音情绪识别方法、装置及计算机可读存储介质
CN110570844B (zh) * 2019-08-15 2023-05-05 平安科技(深圳)有限公司 语音情绪识别方法、装置及计算机可读存储介质
CN110580920A (zh) * 2019-08-28 2019-12-17 南京梧桐微电子科技有限公司 一种声码器子带清浊音判决的方法及系统
CN110728997A (zh) * 2019-11-29 2020-01-24 中国科学院深圳先进技术研究院 一种基于情景感知的多模态抑郁症检测方法和系统
CN110728997B (zh) * 2019-11-29 2022-03-22 中国科学院深圳先进技术研究院 一种基于情景感知的多模态抑郁症检测系统
CN111357051A (zh) * 2019-12-24 2020-06-30 深圳市优必选科技股份有限公司 语音情感识别方法、智能装置和计算机可读存储介质
WO2021127982A1 (zh) * 2019-12-24 2021-07-01 深圳市优必选科技股份有限公司 语音情感识别方法、智能装置和计算机可读存储介质
CN111357051B (zh) * 2019-12-24 2024-02-02 深圳市优必选科技股份有限公司 语音情感识别方法、智能装置和计算机可读存储介质
CN111710349A (zh) * 2020-06-23 2020-09-25 长沙理工大学 一种语音情感识别方法、系统、计算机设备和存储介质
CN111710349B (zh) * 2020-06-23 2023-07-04 长沙理工大学 一种语音情感识别方法、系统、计算机设备和存储介质
US11521629B1 (en) 2021-06-29 2022-12-06 Institute Of Automation, Chinese Academy Of Sciences Method for obtaining digital audio tampering evidence based on phase deviation detection

Similar Documents

Publication Publication Date Title
CN109389992A (zh) 一种基于振幅和相位信息的语音情感识别方法
CN104575490B (zh) 基于深度神经网络后验概率算法的口语发音评测方法
DE602004011545T2 (de) Datenverarbeitungseinrichtung und datenverarbeitungseinrichtungssteuerprogramm
Nicholson et al. Emotion recognition in speech using neural networks
CN109243494B (zh) 基于多重注意力机制长短时记忆网络的儿童情感识别方法
CN107146601A (zh) 一种用于说话人识别系统的后端i‑vector增强方法
CN109036465A (zh) 语音情感识别方法
CN108899051A (zh) 一种基于联合特征表示的语音情感识别模型及识别方法
CN108806667A (zh) 基于神经网络的语音与情绪的同步识别方法
CN107039036A (zh) 一种基于自动编码深度置信网络的高质量说话人识别方法
CN106898355B (zh) 一种基于二次建模的说话人识别方法
CN111798874A (zh) 一种语音情绪识别方法及系统
CN110111797A (zh) 基于高斯超矢量和深度神经网络的说话人识别方法
CN107767879A (zh) 基于音色的音频转换方法及装置
DE112020002531T5 (de) Emotionsdetektion unter verwendung der sprechergrundlinie
CN103456302B (zh) 一种基于情感gmm模型权重合成的情感说话人识别方法
CN106611604A (zh) 一种基于深度神经网络的自动语音叠音检测方法
CN109346084A (zh) 基于深度堆栈自编码网络的说话人识别方法
CN107767859A (zh) 噪声环境下人工耳蜗信号的说话人可懂性检测方法
CN105895082A (zh) 声学模型训练方法、语音识别方法及装置
CN110047502A (zh) 噪声环境下层级式语音降噪识别方法及系统
CN106023986A (zh) 一种基于声效模式检测的语音识别方法
CN106782503A (zh) 基于发音过程中生理信息的自动语音识别方法
Cao et al. Speaker-independent speech emotion recognition based on random forest feature selection algorithm
CN110390937A (zh) 一种基于ArcFace loss算法的跨信道声纹识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190226