CN109389992A - 一种基于振幅和相位信息的语音情感识别方法 - Google Patents
一种基于振幅和相位信息的语音情感识别方法 Download PDFInfo
- Publication number
- CN109389992A CN109389992A CN201811212955.8A CN201811212955A CN109389992A CN 109389992 A CN109389992 A CN 109389992A CN 201811212955 A CN201811212955 A CN 201811212955A CN 109389992 A CN109389992 A CN 109389992A
- Authority
- CN
- China
- Prior art keywords
- layer
- amplitude
- phase
- phase information
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 230000008451 emotion Effects 0.000 claims abstract description 25
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 19
- 230000008909 emotion recognition Effects 0.000 claims abstract description 15
- 239000000284 extract Substances 0.000 claims abstract description 5
- 238000000605 extraction Methods 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000010586 diagram Methods 0.000 claims description 15
- 238000001228 spectrum Methods 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 6
- 238000002360 preparation method Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims 1
- 238000004804 winding Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 4
- 230000002996 emotional effect Effects 0.000 abstract 3
- 230000002596 correlated effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 11
- 238000002474 experimental method Methods 0.000 description 5
- 230000007935 neutral effect Effects 0.000 description 3
- 206010063659 Aversion Diseases 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于振幅和相位信息的语音情感识别方法,包括以下步骤:步骤一,输入数据准备:选择情感识别数据库,并对数据进行分段处理;步骤二,提取振幅和相位信息;步骤三,构建卷积神经网络,从振幅和相位的融合信息中提取深度特征;步骤四,构建长短时记忆网络,完成情感分类;最后,输出情感分类结果。本发明的语音情感识方法和现有技术相比,考虑到了语音的相位信息,有效利用相位和振幅信息的互补性,选用CNN自动从振幅和相位信息中同时提取深度情感相关特征,大大的提高了特征的丰富性,获得更好语音情感识别效果。
Description
技术领域
本发明属于语音情感识别技术领域,尤其是涉及一种基于振幅和相位信息融 合的特征提取方法。
背景技术
人机交互在口语对话系统、智能语音助手等应用中变得越来越重要,其中语 音情感识别能有效的帮助机器来理解人类的意图,因此正确的区分人类的情感能 帮助机器提供更好的用户体验。然而,语音情感识别是一个具有挑战性的任务, 因为我们不能明确的知道哪些特征和模型对区分情感是有效的。
对于语音情感识别问题,比较传统的方法是根据人类的听觉感知手动提取一 些基于听觉的特征,如基频、能量等。这类方法存在的问题是:仅仅依靠人类的 先验知识来提取有效的特征是很困难的,而且有些先验知识不是完全正确;另外 手动提取特征会消耗很多时间。
为了解决以上问题,人们用卷积神经网络Convolutional Neural Network, CNN)直接作用于振幅谱来提取特征。现在最优的方法是CNN和双向长短时记忆 网络(Bidirectional Long Short-Term Memory,BLSTM)结合CNN-BLSTM,但 是目前的研究仍然存在1个主要的问题:仅仅依靠振幅信息进行建模,忽略了相 位信息的作用,因而不能完整的获取语音的有效信息。针对以上问题,本发明提 出了一种基于振幅和相位信息融合的特征提取方法。
发明内容
本发明针对现有语音情感识别模型在特征提取时忽略相位信息的问题,提出 一种基于振幅和相位信息的特征提取方法,从而有效利用相位和振幅信息的互补 性。为了探索不同类别的相位信息的互补性,该方法采用两种相位信息进行实验, 分别是相对相位(Relative Phase)和MGDCC(Modified Group Delay Cepstrral Coefficients)。
为了解决上述技术问题,本发明的技术方案如下:
一种基于振幅和相位信息的语音情感识别方法,包括以下步骤:
步骤一,输入数据准备:对语音情感数据库中的语音信号进行数据准备,把 每一句语音信号切分成固定长度的段。
步骤二,数据预处理:
1)振幅信息提取:通过分帧、加窗、短时傅里叶变换得到振幅谱尺寸为b×a, 为了方便卷积操作,我们做了旋转操作,时间轴变为纵向,尺寸变为a×b,用V1 表示振幅矩阵;
2)相位信息提取:提取每一段语音对应的相位信息包含相对相位和MGDCC 两种信息,用V2表示相位矩阵;
3)将1)提取的振幅信息V1和2)提取的相位信息V2融合在一起,组成一 个大的信息矩阵V,第i句话的第t段语音的融合如公式(1):
其中,代表第i句话的第t段的振幅信息,第i句话的第t段的相位信 息;
步骤三,深度特征提取:
把每一段语音信号对应的振幅和相位融合矩阵V输入到CNN中自动提取特 征,深度特征维度为n;
步骤四,决策:
本发明采用BLSTM做最后的决策。一句话的所有段级别的特征输入到BLSTM 中,然后BLSTM会根据所有段计算出代表一句话的特征,最后输入到softmax 分类器中完成句子的情感分类,分别为高兴、生气、害怕、悲伤、厌恶、无聊、 中性七种情感。
进一步地,所述步骤二中相位信息的提取包含MGDCC和相对相位两种信息, 具体提取过程如下:
1)MGDCC提取
输入语音信号x(n)经过离散傅里叶变换DFT得到频谱图X(ω),如公式(2):
X(ω)=|X(ω)|ejθ(ω), (2)
其中,|X(ω)|表示在频率ω下的振幅,θ(ω)表示在频率ω下的相位。
然而相位取值范围在(-π≤θ≤π),并且相位信息更像是噪声,这个问题称 为相位缠绕。为了克服这个问题,采用群延迟特征进行相位信息处理;
群延迟定义为傅里叶变换相位对频率求负导数,如公式(3):
群延迟函数也可以直接用以下公式从语音频谱中计算:
这里,X(ω)是信号x(n)傅里叶变换后的频谱图,Y(ω)是nx(n)傅里叶变 换后的频谱图,下标R和I代表傅里叶变换后的实部和虚部。
更进一步地,优选采用改进的群延迟函数,并且需要研究已经证明改进的函 数比原始的群延迟函数效果要好。改进的群延迟函数可以用以下公式定义:
其中,S(ω)是对X(ω)取平滑光谱,α和γ的取值范围都是(0,1)。
2)相对相位提取
即使是在相同的频率下,原始的相位信息会随着输入语音的位裁剪置而变化。 对此,采用相对相位,即某个基频ω的相位保持固定,其他频率的相位相对于 这个值来估计。比如,设定基频ω的值为0,我们可以得到以下公式:
X'(ω)=|X(ω)|×ejθ(ω)×ej(-θ(ω)), (7)
对于其他频率ω'=2πf',频谱变成:
最后,相位信息可以被归一化,归一化的相位信息如下:
进一步地,所述步骤三中的卷积神经网络CNN,具体构建步骤如下:
1)第一层是输入层,将步骤二中得到的所有段语音信号的振幅加相位信息 矩阵V输入到CNN;
2)第二层是卷积层,选择n1个尺寸为k1×k1的滤波器做卷积操作,然后经 过激活函数得到该层的输出;
3)第三层是池化层,池化尺寸为p1×p1,对第二层输出的特征图进行降采 样;
4)第四层是第二个卷积层,选择n2个尺寸为k2×k2的滤波器做卷积操作, 然后经过激活函数得到该层输出的特征图;
5)第五层是第二个池化层,池化尺寸为p2×p2,对第四层输出的特征图进 行降采样;
6)第六、七、八、九层均为全连接层,第六层将第五层所有的特征图拼合 到一个特征矩阵;第七层是特征全连接到d个节点的隐藏层;第八层是dropout 层,可以有效防止过拟合;第九层为输出层,输出层节点数等于情感类别数,激 活函数采用softmax。
与现有技术相比,本发明的有益效果为:
附图说明
图1是本发明提出的基于振幅和相位信息的特征提取方法框架图;
图2是用于自动提取声学特征的CNN结构图;
图3是本发明用到的CNN结构图;
表1是实验室中用到的特征列表。
表2是在EmoDB数据库上语音情感识别结果对比。
具体实施方式
为了更好地理解本发明的技术方案,现结合附图及具体实施方式来对本发明 进行更进一步详细的描述。
图1是本发明的基于振幅和相位信息的特征提取方法的框架图,主要包含以 下步骤:
步骤一,输入数据准备:为了验证本发明的效果,在EmoDB进行情感识别实 验,试验采用十折交叉验证方法。EmoDB包含535句话共七类情感,分别为高兴、 生气、害怕、悲伤、厌恶、无聊、中性;所有句子采样频率为16KHz,每一句 话时长约2-3秒。用265ms窗长和25ms的窗移对语音信号进行切分,得到固 定长度的段。
步骤二,数据预处理(如图2所示):
1)振幅信息提取:把每一段语音信号经过预加重、分帧、加窗、快速傅里 叶变换,FFT点数设为256,窗长16ms,窗移8ms,最终得到振幅谱V1(尺寸为 129×32),为了方便卷积,我们把振幅矩阵做旋转操作,时间轴变为纵向,V1尺 寸变为32×129。
2)相位信息提取:本发明用到两种相位信息,提取相对相位的时候窗长16ms, 窗移8ms,基频ω设为1000Hz,每一段语音信号对应的相对相位矩阵为32×129。 提取MGDCC的时候参数α=0.1,γ=0.2,提取到的MGDCC矩阵为32×36。 最终相对相位和MGDCC组成相位矩阵V2(尺寸为32×165)。
最后,将1)提取的振幅信息V1和2)提取的相位信息V2融合在一起,组 成一个大的信息矩阵V(尺寸为32×294)。
步骤三,深度特征提取:
自动声学特征提取,图3是本发明用到的CNN结构图。
第一层是输入层,将步骤二中得到的所有段语音信号的信息矩阵V(32×294) 输入到CNN;
第二层是卷积层,选择32个尺寸为5×5的滤波器做卷积操作,然后经过激 活函数relu得到32个尺寸为28×290的特征图;
第三层是池化层,池化尺寸为2×2,对第二层输出的特征图进行降采样,得 到32个尺寸为14×145的特征图;
第四层是第二个卷积层,选择64个尺寸为5×5的滤波器做卷积操作,然后 经过激活函数relu得到64个尺寸为10×141的特征图;
第五层是第二个池化层,池化尺寸为2×2,对第四层输出的特征图进行降采 样,得到64个尺寸为5×70的特征图;
第六、七、八、九层均为全连接层,第六层将第五层所有的特征图拼合到一 个特征矩阵;第七层是特征全连接到1024个节点的隐藏层;第八层是dropout 层,因数取0.5;第九层为输出层,输出层节点数为7,激活函数采用softmax。 其中,第七层的输出便是CNN提取到的1024维特征。
步骤四,决策:本发明采用2层节点数为200的BLSTM做最后的决策。一句 话的所有段级别的特征1024维输入到BLSTM中,然后BLSTM会根据所有段计算 出代表一句话的特征,最后输入到softmax分类器中完成句子的情感分类,分别 为高兴、生气、害怕、悲伤、厌恶、无聊、中性七种情感。
表1列出了不同收入数据的尺寸,1号特征是本发明的对比算法(只采用振 幅信息),通过各种对比实验来评估相位信息的作用。
表1:不同收入数据的尺寸
ID | 特征 | 尺寸 |
1 | 振幅 | 32×129 |
2 | 相对相位 | 32×129 |
3 | MGDCC | 32×36 |
4 | 振幅+相对相位 | 32×258 |
5 | 振幅+MGDCC | 32×165 |
6 | 振幅+相对相位+MGDCC | 32×294 |
表2是在EmoDB数据库上进行十折交叉实验的情感识别结果对比,评价指标 为加权正确率(整个测试集合的正确率)和非加权正确率(先计算每一类情感的 正确率,然后取平均值)。
表2
特征 | 加权正确率(%) | 非加权正确率(%) |
振幅 | 87.66 | 86.66 |
相对相位 | 70.28 | 68.83 |
MGDCC | 82.80 | 81.40 |
振幅+相对相位 | 88.04 | 87.08 |
振幅+MGDCC | 88.79 | 88.19 |
振幅+相对相位+MGDCC | 91.78 | 91.28 |
首先,我们可以看出只采用相位进行情感识别是可行的,证明了相位信息在 深度学习框架下可以表现良好。其次,振幅和相对相位或者MGCDCC结合比只用 振幅信息的效果要好,表明振幅和相位信息结合的方法是有效的。其中,振幅和 相对相位结合和单独采用相对相位相比相对加权错误率和非加权错误率都降低 了约58%,而振幅和MGDCC结合与MGDCC相比,提升力度没有这么大。这表明相 对相位和振幅之间具有更高的互补性。最后,把三种特征(振幅,相对相位,MGDCC) 结合起来取得了的最好的结果,表面两种相位信息之间也具有一定的互补性。
Claims (4)
1.一种基于振幅和相位信息的语音情感识别方法,其特征在于,包括以下步骤:
步骤一,输入数据准备:对语音情感数据库中的语音信号进行数据准备,把每一句语音信号切分成固定长度的段;
步骤二,数据预处理:
1)振幅信息提取:通过分帧、加窗、短时傅里叶变换得到振幅谱尺寸为b×a,为了方便卷积操作,进行旋转操作,时间轴变为纵向,尺寸变为a×b,用V1表示振幅矩阵;
2)相位信息提取:提取每一段语音对应的相位信息包含相对相位和MGDCC两种信息,用V2表示相位矩阵;
3)将1)提取的振幅信息V1和2)提取的相位信息V2融合在一起,组成一个大的信息矩阵V,第i句话的第t段语音的融合如公式(1):
其中,代表第i句话的第t段的振幅信息,第i句话的第t段的相位信息;
步骤三,深度特征提取:
把每一段语音信号对应的振幅和相位融合矩阵V输入到CNN中自动提取特征,深度特征维度为n;
步骤四,决策:
采用BLSTM做最后的决策,一句话的所有段级别的特征输入到BLSTM中,然后BLSTM会根据所有段计算出代表一句话的特征,最后输入到softmax分类器中完成句子的情感分类,分别为高兴、生气、害怕、悲伤、厌恶、无聊、中性七种情感。
2.根据权利要求1所述的一种基于振幅和相位信息的语音情感识别方法,其特征在于,所述步骤二中相位信息的提取包含MGDCC和相对相位两种信息,具体提取过程如下:
1)MGDCC提取
输入语音信号x(n)经过离散傅里叶变换DFT得到频谱图X(ω),如公式(2):
X(ω)=|X(ω)|ejθ(ω), (2)
其中,|X(ω)|表示在频率ω下的振幅,θ(ω)表示在频率ω下的相位;
当相位取值范围在(-π≤θ≤π)时,会出现相位缠绕问题,采用群延迟特征进行相位信息处理:
群延迟定义为傅里叶变换相位对频率求负导数,如公式(3):
群延迟函数也可以直接用以下公式从语音频谱中计算:
其中,X(ω)是信号x(n)傅里叶变换后的频谱图,Y(ω)是nx(n)傅里叶变换后的频谱图,下标R和I代表傅里叶变换后的实部和虚部。
3.根据权利要求2所述的一种基于振幅和相位信息的语音情感识别方法,其特征在于,所述群延迟函数用以下公式定义:
其中,S(ω)是对X(ω)取平滑光谱,α和γ的取值范围都是(0,1);
2)相对相位提取
即使是在相同的频率下,原始的相位信息会随着输入语音的位裁剪置而变化,对此,采用相对相位即某个基频ω的相位保持固定,其他频率的相位相对于这个值来估计,设定基频ω的值为0,得到以下公式:
X'(ω)=|X(ω)|×ejθ(ω)×ej(-θ(ω)), (7)
对于其他频率ω'=2πf',频谱变成:
最后,相位信息可以被归一化,归一化的相位信息如下:
4.根据权利要求1所述的一种基于振幅和相位信息的语音情感识别方法,其特征在于,所述步骤三中的卷积神经网络CNN,具体构建步骤如下:
1)第一层是输入层,将步骤二中得到的所有段语音信号的振幅加相位信息矩阵V输入到CNN;
2)第二层是卷积层,选择n1个尺寸为k1×k1的滤波器做卷积操作,然后经过激活函数得到该层的输出;
3)第三层是池化层,池化尺寸为p1×p1,对第二层输出的特征图进行降采样;
4)第四层是第二个卷积层,选择n2个尺寸为k2×k2的滤波器做卷积操作,然后经过激活函数得到该层输出的特征图;
5)第五层是第二个池化层,池化尺寸为p2×p2,对第四层输出的特征图进行降采样;
6)第六、七、八、九层均为全连接层,第六层将第五层所有的特征图拼合到一个特征矩阵;第七层是特征全连接到d个节点的隐藏层;第八层是dropout层,能够有效防止过拟合;第九层为输出层,输出层节点数等于情感类别数,激活函数采用softmax;
7)第八层是dropout层,能够有效防止过拟合;第九层为输出层,输出层节点数等于情感类别数,激活函数采用softmax。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811212955.8A CN109389992A (zh) | 2018-10-18 | 2018-10-18 | 一种基于振幅和相位信息的语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811212955.8A CN109389992A (zh) | 2018-10-18 | 2018-10-18 | 一种基于振幅和相位信息的语音情感识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109389992A true CN109389992A (zh) | 2019-02-26 |
Family
ID=65427541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811212955.8A Pending CN109389992A (zh) | 2018-10-18 | 2018-10-18 | 一种基于振幅和相位信息的语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109389992A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109767789A (zh) * | 2019-03-06 | 2019-05-17 | 慧言科技(天津)有限公司 | 一种用于语音情感识别的新特征提取方法 |
CN109841219A (zh) * | 2019-03-15 | 2019-06-04 | 慧言科技(天津)有限公司 | 利用语音振幅信息和多种相位检测语音欺诈重放攻击方法 |
CN110047507A (zh) * | 2019-03-01 | 2019-07-23 | 北京交通大学 | 一种声源识别方法及装置 |
CN110047516A (zh) * | 2019-03-12 | 2019-07-23 | 天津大学 | 一种基于性别感知的语音情感识别方法 |
CN110164476A (zh) * | 2019-05-24 | 2019-08-23 | 广西师范大学 | 一种基于多输出特征融合的blstm的语音情感识别方法 |
CN110324702A (zh) * | 2019-07-04 | 2019-10-11 | 三星电子(中国)研发中心 | 视频播放过程中的信息推送方法和装置 |
CN110348482A (zh) * | 2019-06-05 | 2019-10-18 | 华东理工大学 | 一种基于深度模型集成架构的语音情感识别系统 |
CN110415722A (zh) * | 2019-07-25 | 2019-11-05 | 北京得意音通技术有限责任公司 | 语音信号处理方法、存储介质、计算机程序和电子设备 |
CN110570844A (zh) * | 2019-08-15 | 2019-12-13 | 平安科技(深圳)有限公司 | 语音情绪识别方法、装置及计算机可读存储介质 |
CN110580920A (zh) * | 2019-08-28 | 2019-12-17 | 南京梧桐微电子科技有限公司 | 一种声码器子带清浊音判决的方法及系统 |
CN110728997A (zh) * | 2019-11-29 | 2020-01-24 | 中国科学院深圳先进技术研究院 | 一种基于情景感知的多模态抑郁症检测方法和系统 |
CN111357051A (zh) * | 2019-12-24 | 2020-06-30 | 深圳市优必选科技股份有限公司 | 语音情感识别方法、智能装置和计算机可读存储介质 |
CN111710349A (zh) * | 2020-06-23 | 2020-09-25 | 长沙理工大学 | 一种语音情感识别方法、系统、计算机设备和存储介质 |
US11521629B1 (en) | 2021-06-29 | 2022-12-06 | Institute Of Automation, Chinese Academy Of Sciences | Method for obtaining digital audio tampering evidence based on phase deviation detection |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101685634A (zh) * | 2008-09-27 | 2010-03-31 | 上海盛淘智能科技有限公司 | 一种儿童语音情感识别方法 |
US20150142446A1 (en) * | 2013-11-21 | 2015-05-21 | Global Analytics, Inc. | Credit Risk Decision Management System And Method Using Voice Analytics |
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
US20180233120A1 (en) * | 2015-07-24 | 2018-08-16 | Sound Object Technologies S.A. | Method and a system for decomposition of acoustic signal into sound objects, a sound object and its use |
-
2018
- 2018-10-18 CN CN201811212955.8A patent/CN109389992A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101685634A (zh) * | 2008-09-27 | 2010-03-31 | 上海盛淘智能科技有限公司 | 一种儿童语音情感识别方法 |
US20150142446A1 (en) * | 2013-11-21 | 2015-05-21 | Global Analytics, Inc. | Credit Risk Decision Management System And Method Using Voice Analytics |
US20180233120A1 (en) * | 2015-07-24 | 2018-08-16 | Sound Object Technologies S.A. | Method and a system for decomposition of acoustic signal into sound objects, a sound object and its use |
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
Non-Patent Citations (4)
Title |
---|
GUO LILI ET AL.: "《Speech Emotion Recognition by Combining Amplitude and Phase Information Using Convolutional Neural Network》", 《19TH ANNUAL CONFERENCE OF THE INTERNATIONAL-SPEECH-COMMUNICATION-ASSOCIATION (INTERSPEECH 2018)》 * |
SUMAN DEB ET AL.: "《Exploration of Phase Information for Speech Emotion Classification》", 《2017 TWENTY-THIRD NATIONAL CONFERENCE ON COMMUNICATIONS (NCC)》 * |
曹田熠: "《多模态融合的情感识别研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
许良凤等: "语谱图改进完全局部二值模式的语音情感识别", 《电子测量与仪器学报》 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110047507B (zh) * | 2019-03-01 | 2021-03-30 | 北京交通大学 | 一种声源识别方法及装置 |
CN110047507A (zh) * | 2019-03-01 | 2019-07-23 | 北京交通大学 | 一种声源识别方法及装置 |
CN109767789A (zh) * | 2019-03-06 | 2019-05-17 | 慧言科技(天津)有限公司 | 一种用于语音情感识别的新特征提取方法 |
CN110047516A (zh) * | 2019-03-12 | 2019-07-23 | 天津大学 | 一种基于性别感知的语音情感识别方法 |
CN109841219A (zh) * | 2019-03-15 | 2019-06-04 | 慧言科技(天津)有限公司 | 利用语音振幅信息和多种相位检测语音欺诈重放攻击方法 |
CN110164476A (zh) * | 2019-05-24 | 2019-08-23 | 广西师范大学 | 一种基于多输出特征融合的blstm的语音情感识别方法 |
CN110348482A (zh) * | 2019-06-05 | 2019-10-18 | 华东理工大学 | 一种基于深度模型集成架构的语音情感识别系统 |
CN110348482B (zh) * | 2019-06-05 | 2023-06-02 | 华东理工大学 | 一种基于深度模型集成架构的语音情感识别系统 |
CN110324702A (zh) * | 2019-07-04 | 2019-10-11 | 三星电子(中国)研发中心 | 视频播放过程中的信息推送方法和装置 |
CN110324702B (zh) * | 2019-07-04 | 2022-06-07 | 三星电子(中国)研发中心 | 视频播放过程中的信息推送方法和装置 |
CN110415722B (zh) * | 2019-07-25 | 2021-10-08 | 北京得意音通技术有限责任公司 | 语音信号处理方法、存储介质、计算机程序和电子设备 |
CN110415722A (zh) * | 2019-07-25 | 2019-11-05 | 北京得意音通技术有限责任公司 | 语音信号处理方法、存储介质、计算机程序和电子设备 |
CN110570844A (zh) * | 2019-08-15 | 2019-12-13 | 平安科技(深圳)有限公司 | 语音情绪识别方法、装置及计算机可读存储介质 |
CN110570844B (zh) * | 2019-08-15 | 2023-05-05 | 平安科技(深圳)有限公司 | 语音情绪识别方法、装置及计算机可读存储介质 |
CN110580920A (zh) * | 2019-08-28 | 2019-12-17 | 南京梧桐微电子科技有限公司 | 一种声码器子带清浊音判决的方法及系统 |
CN110728997A (zh) * | 2019-11-29 | 2020-01-24 | 中国科学院深圳先进技术研究院 | 一种基于情景感知的多模态抑郁症检测方法和系统 |
CN110728997B (zh) * | 2019-11-29 | 2022-03-22 | 中国科学院深圳先进技术研究院 | 一种基于情景感知的多模态抑郁症检测系统 |
CN111357051A (zh) * | 2019-12-24 | 2020-06-30 | 深圳市优必选科技股份有限公司 | 语音情感识别方法、智能装置和计算机可读存储介质 |
WO2021127982A1 (zh) * | 2019-12-24 | 2021-07-01 | 深圳市优必选科技股份有限公司 | 语音情感识别方法、智能装置和计算机可读存储介质 |
CN111357051B (zh) * | 2019-12-24 | 2024-02-02 | 深圳市优必选科技股份有限公司 | 语音情感识别方法、智能装置和计算机可读存储介质 |
CN111710349A (zh) * | 2020-06-23 | 2020-09-25 | 长沙理工大学 | 一种语音情感识别方法、系统、计算机设备和存储介质 |
CN111710349B (zh) * | 2020-06-23 | 2023-07-04 | 长沙理工大学 | 一种语音情感识别方法、系统、计算机设备和存储介质 |
US11521629B1 (en) | 2021-06-29 | 2022-12-06 | Institute Of Automation, Chinese Academy Of Sciences | Method for obtaining digital audio tampering evidence based on phase deviation detection |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109389992A (zh) | 一种基于振幅和相位信息的语音情感识别方法 | |
CN108717856B (zh) | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 | |
CN108899051B (zh) | 一种基于联合特征表示的语音情感识别模型及识别方法 | |
CN108564942B (zh) | 一种基于敏感度可调的语音情感识别方法及系统 | |
DE112017001830B4 (de) | Sprachverbesserung und audioereignisdetektion für eine umgebung mit nichtstationären geräuschen | |
CN109036465B (zh) | 语音情感识别方法 | |
CN109243494B (zh) | 基于多重注意力机制长短时记忆网络的儿童情感识别方法 | |
CN108694951B (zh) | 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法 | |
CN107393554A (zh) | 一种声场景分类中融合类间标准差的特征提取方法 | |
CN105788592A (zh) | 一种音频分类方法及装置 | |
CN109119072A (zh) | 基于dnn-hmm的民航陆空通话声学模型构建方法 | |
CN107146624A (zh) | 一种说话人确认方法及装置 | |
CN109256118B (zh) | 基于生成式听觉模型的端到端汉语方言识别系统和方法 | |
CN107731233A (zh) | 一种基于rnn的声纹识别方法 | |
CN111798874A (zh) | 一种语音情绪识别方法及系统 | |
CN106898355B (zh) | 一种基于二次建模的说话人识别方法 | |
CN106875943A (zh) | 一种用于大数据分析的语音识别系统 | |
CN105845139A (zh) | 一种离线语音控制方法和装置 | |
CN112992191B (zh) | 语音端点检测方法、装置、电子设备及可读存储介质 | |
CN110992959A (zh) | 一种语音识别方法及系统 | |
CN109065073A (zh) | 基于深度svm网络模型的语音情感识别方法 | |
CN111128240B (zh) | 一种基于对抗语义擦除的语音情感识别方法 | |
CN115081473A (zh) | 一种多特征融合的制动噪声分类识别方法 | |
CN111883181A (zh) | 音频检测方法、装置、存储介质及电子装置 | |
CN104778948A (zh) | 一种基于弯折倒谱特征的抗噪语音识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190226 |