CN112712824B - 一种融合人群信息的语音情感识别方法和系统 - Google Patents
一种融合人群信息的语音情感识别方法和系统 Download PDFInfo
- Publication number
- CN112712824B CN112712824B CN202110322720.XA CN202110322720A CN112712824B CN 112712824 B CN112712824 B CN 112712824B CN 202110322720 A CN202110322720 A CN 202110322720A CN 112712824 B CN112712824 B CN 112712824B
- Authority
- CN
- China
- Prior art keywords
- network
- mel
- information
- crowd
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 28
- 238000001228 spectrum Methods 0.000 claims abstract description 48
- 230000008451 emotion Effects 0.000 claims abstract description 36
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 230000004927 fusion Effects 0.000 claims abstract description 12
- 230000002996 emotional effect Effects 0.000 claims abstract description 5
- 238000011176 pooling Methods 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 17
- 230000003595 spectral effect Effects 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000005236 sound signal Effects 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 239000004094 surface-active agent Substances 0.000 claims description 3
- 239000000758 substrate Substances 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000007246 mechanism Effects 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011410 subtraction method Methods 0.000 description 2
- 238000011426 transformation method Methods 0.000 description 2
- 206010063659 Aversion Diseases 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 238000010668 complexation reaction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Psychiatry (AREA)
- Hospice & Palliative Care (AREA)
- Child & Adolescent Psychology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于人工智能领域,具体涉及一种融合人群信息的语音情感识别方法和系统,该方法包括以下步骤:S1、采集用户语音信号;S2、预处理语音信号,获取梅尔谱;S3、切除梅尔谱前后静音段;S4、通过人群分类网络获取深度人群信息;S5、通过梅尔谱预处理网络获取梅尔谱深度信息;S6、通过SENet融合特征,获取融合信息;S7、通过分类网络,得到情感识别结构。本发明融合人群信息特征,使情感特征提取更加准确,通过SENet的通道注意力机制进行信息融合,能够有效的进行深度特征的提取,提高整体识别精度。
Description
技术领域
本发明属于人工智能领域,具体涉及一种融合人群信息的语音情感识别方法和系统。
背景技术
语言交互是人类最早的交流方式之一,因此语音成为了人类表达情感的主要方式。随着人机交互的兴起,智能的进行语音情感分析也越发重要起来。目前情感主要的分类方式是上世纪Ekman提出的7种情感,分别为:中性、开心、悲伤、生气、害怕、厌恶、惊讶。
当前主流的语音情感识别方法是基于传统算法或者基于简单神经网络架构的深度学习方法。基于传统方法的基本流程为:对语音进行特征提取、通过特征对语音进行情感分类。其中语音特征通常有梅尔频率倒谱系数、梅尔频谱、过零率、基频等。基于深度学习的方法基本流程与传统方法一样,只是传统方法分类器用的是SVM等传统算法,深度学习用的是神经网络分类器。目前深度学习方法使用的特征有梅尔频率倒谱系数和梅尔频谱,网络通常只是简单的几层RNN或者几层CNN作为分类器。
在目前的技术中,因为只考虑了语音的浅层信息,使用了简单的网络结构,所以情感识别识别率都比较低,泛化性也比较差。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提供了基于SENet融合人群信息和梅尔谱特征信息,有效提高语音情感识别准确率的方法和系统,其具体技术方案如下:
一种融合人群信息的语音情感识别方法,包括如下步骤:
进一步的,所述人群分类网络由三层LSTM网络结构构成,所述步骤S4具体包括如下步骤:
S4_2:将S4_1切分好的三个梅尔谱片段,依次输入到三层LSTM网络中,并取LSTM网
络输出的最后一个输出作为最终状态,三个梅尔谱片段最终获得3个隐含特征,最后将3个
隐含特征进行取平均,得到最终的人群深度特征信息。
进一步的,所述步骤S5的梅尔谱预处理网络由ResNet网络级联FMS网络组成,所述
步骤S5具体包括如下步骤:首先将长度为T的梅尔谱图信号扩充成三维矩阵;然后利
用所述的ResNet网络结构采用2层卷积加最大池化的结构,提取梅尔谱图信息中与表示情
感的相关的信息;再利用FMS网络架构对ResNet网络提取出的信息进行有效组合,最后得到
梅尔谱深度特征信息。
进一步的,所述步骤S6具体包括如下步骤:
S6_1:所述人群深度特征信息是空间中的一维向量,其中C代表通道维度;
所述梅尔谱深度特征信息是空间中的三维矩阵,其中T代表时间维度,W代表宽
度维度,C代表通道维度;通过SENet网络,将在时间维度T和宽度维度W上做全局平均池
化,转换成C维向量,得到空间的一维向量,具体的,
其中,
另外,
全局平均池化公式如下:
其中,Y表示网络的输出,X表示网络的输入,W表示网络的权重参数,b表示网络的偏置参数;
进一步的,所述步骤S7具体包括如下步骤:
S7_2:将S7_1得到的特征向量:
其中的e为常量。
一种融合人群信息的语音情感识别系统,包括:
语音信号采集模块,用于采集用户语音信号;
语音信号预处理模块,用于将采集到的语音信号进行预处理,对语音进行端点检测,去除语音前后静音段,生成可用于神经网络处理的数据;
情感预测模块,用于通过设计的网络模型处理梅尔谱特征,预测用户音频的情感类型;
数据存储模块,用于利用MySQL数据库,存储用户的语音数据和情感标签数据。
进一步的,所述语音信号采集模块采用高保真单麦克风或者麦克风阵列。
进一步的,所述预处理,包括:预加重、分帧、加窗、短时傅里叶变换、三角函数滤波、静音去除操作,将语音信号从时域信号转换到频域信号,即从音频采样转换成梅尔谱特征;其中采用谱减法对语音进行静音去噪,采用Z变换方法对语音进行预加重,采用短时傅里叶变换方法对语音进行梅尔谱特征提取。
本发明的优点如下:
1、本发明的语音情感识别方法,融合人群信息对语音情感进行识别,由于不同人群在生理发育上的不同,导致声带形态构造不同,从而影响人的发音效果,例如:儿童的发音清脆、尖锐,老人的声音浑浊、低沉,另外,成年男子的声音通常比成年女子声音更加低沉,因此,融合人群信息能够更加有效提取语音中的蕴含的情感信息;
2、本发明的语音情感识别方法,利用LSTM取最后一个输出和全局池化技术,能够忽略语音长度限制,实现不同长度语音进行情感识别;
3、本发明的语音情感识别方法,利用SENet进行信息融合,能够通过SENet的通道注意力机制,有效提取网络中的重要信息,提高模型整体精度;
4、本发明的语音情感识别系统具有情感分析结果及原始对话语音存储功能,能够帮助做出合理分析和建议,例如用于智能电话客服服务质量评估场景,智能语音对话机器人用户满意度分析场景、语音留言情感分析场景、视频内语音情感类别分析场景等。
附图说明
图1为本发明的语音情感识别系统的结构示意图;
图2为本发明的语音情感识别方法的流程示意图;
图3为本发明的语音情感识别方法的网络结构示意图;
图4 ResNet与FMS融合的网络结构示意图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图,对本发明作进一步详细说明。
如图1所示,一种融合人群信息的语音情感识别系统,包括:
语音信号采集模块,用于采集用户语音信号,一般采用高保真单麦克风或者麦克风阵列,以降低语音信号采集的失真度;
语音信号预处理模块,用于将采集到的语音信号进行预处理,对语音进行端点检测,去除语音前后静音段,生成可用于神经网络处理的数据,具体为:该模块通过对语音进行预加重、分帧、加窗、短时傅里叶变换、三角函数滤波、静音去除等操作,将语音信号从时域信号转换到频域信号,即从音频采样转换成梅尔谱特征,用于后续处理;其中采用谱减法对语音进行去噪,采用Z变换方法对语音进行预加重,采用短时傅里叶变换方法对语音进行梅尔谱提取;
情感预测模块,用于通过设计的网络模型处理梅尔谱特征,预测用户音频的情感类型;
数据存储模块,用于利用MySQL等数据库,存储用户的语音数据和情感标签数据。
如图2所示,一种使用融合人群信息的语音情感识别系统的方法,包括如下步骤:
其中,所述切除前后静音段,采用累加各帧不同频率维度的梅尔谱图的能量,通过设置阈值去除能量低于该阈值的帧,实现去除静音帧。
S4:将S3得到的输入人群分类网络,得到人群深度特征信息,该人群分类
网络由三层LSTM网络结构构成,LSTM网络是一种能够有效解决长序列依赖问题的递归神经
网络结构,多层LSTM常用于解决例如语音这样的序列相关的问题。具体的,包括如下步骤:
S4_2:将S4_1切分好的三段梅尔谱,依次输入到三层LSTM网络中,并取LSTM网络输
出的最后一个输出作为最终状态。通过此方法,三个梅尔谱片段最终获得3个维度为256的
隐含特征,最后将三个特征进行取平均,作为最终的人群深度特征信息。三层LSTM可以
有效提取梅尔谱这种较长时序序列的信息;取LSTM最后一个状态和求平均能够有效去除梅
尔谱中与人群信息无关的文本内容等信息,提高人群信息提取的准确度。
所述梅尔谱预处理网络结构由ResNet网络级联FMS网络,具体网络结构如图4所
示,梅尔谱预处理网络处理步骤为:首先将维度为的梅尔谱扩充成的三
维矩阵,然后通过ResNet与FMS网络结构进行梅尔谱特征的深度信息处理,生成维度为的深度梅尔谱特征;ResNet网络结构采用2层卷积加最大池化的结构,提取梅
尔谱中与表示情感的相关的信息,然后再利用FMS网络架构对ResNet网络提取出的信息进
行有效的组合,得到更加合理的与情感相关的特征。
ResNet网络能够在拓展网络深度,提高网络学习能力的同时,解决深度学习中出现的梯度消失问题;FMS网络能够有效进行网络中的信息提取,有助于ResNet网络高效的提取网络中的有用信息。
S6_1:步骤S4得到的人群深度特征信息是空间中的一维向量,其中C代表通
道维度;步骤S5得到的梅尔谱深度特征信息是空间中的三维矩阵,其中T代表时
间维度,W代表宽度维度,C代表通道维度;通过通道注意力网络SENet,将在时间维度和
宽度维度上做全局平均池化,转换成C维向量,得到空间的一维向量,具体的,
其中,
则平均池化后的特征为:
全局平均池化公式如下:
其中的,Y表示网络的输出,X表示网络的输入,W表示网络的权重参数,b表示网络的偏置参数;
所述SENet通过网络自动计算各个通道的权重系数,能够有效增强网络中提取的重要信息,同时降低无用信息的权重。另外,加入人群信息的SENet,能够根据不同人群,侧重提取与该人群发音特点的相关信息,进一步提高情感识别的准确率。
S7:将S6融合后的特征,通过一层池化层后,输入人群分类网络进行情感识别,
即:将的三维矩阵转换成256维的一维向量,输入到分类网络进行情感识别,
所述分类网络由一层256维的全连接网络加一层7维的全连接网络构成,最后将输出的7维
特征通过Softmax算子进行情感7分类的概率计算,以概率最大者为最终的情感类别,具体
的,包括如下步骤:
S7_2:将S7_1得到的特征向量:
其中的e为常量。
综上所述,本实施提供的方法,通过融合人群信息,增加了音频情感特征提取的准确性,能够增加整个模型的情感识别能力。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种融合人群信息的语音情感识别方法,包括如下步骤:
S1:通过录音采集设备,采集用户音频信号,表示为Xaudio;
S2:对采集的音频信号Xaudio,进行预处理,生成梅尔谱图信号,表示为Xmel;
S3:对生成的梅尔谱图信号Xmel,计算不同时间帧梅尔谱图的能量大小,通过设置阈值,切除前后静音段,得到长度为T的梅尔谱图信号,表示为Xinput;
S4:将S3得到的Xinput输入人群分类网络,得到人群深度特征信息Hp;
S5:将S3得到的Xinput输入梅尔谱预处理网络,得到梅尔谱深度特征信息Hm;
S6:将S4提取的人群深度特征信息Hp和S5提取的梅尔谱深度特征信息Hm通过通道注意力网络SENet进行融合,得到融合特征Hf;
S7:将S6融合后的特征Hf,通过池化层后,输入人群分类网络进行情感识别;
所述人群分类网络由三层LSTM网络结构构成,所述步骤S4具体包括如下步骤:
S4_2:将S4_1切分好的三个梅尔谱片段,依次输入到三层LSTM网络中,并取LSTM网络输出的最后一个输出作为最终状态,三个梅尔谱片段最终获得3个隐含特征,最后将3个隐含特征进行取平均,得到最终的人群深度特征信息Hp。
2.如权利要求1所述的一种融合人群信息的语音情感识别方法,其特征在于,所述步骤S5的梅尔谱预处理网络由ResNet网络级联FMS网络组成,所述步骤S5具体包括如下步骤:首先将长度为T的梅尔谱图信号Xinput扩充成三维矩阵;然后利用所述的ResNet网络结构采用2层卷积加最大池化的结构,提取梅尔谱图信息中与表示情感的相关的信息;再利用FMS网络架构对ResNet网络提取出的信息进行有效组合,最后得到梅尔谱深度特征信息Hm。
3.如权利要求1所述的一种融合人群信息的语音情感识别方法,其特征在于,所述步骤S6具体包括如下步骤:
S6_1:所述人群深度特征信息Hp是空间RC中的一维向量,其中C代表通道维度;所述梅尔谱深度特征信息Hm是空间RT×W×C中的三维矩阵,其中T代表时间维度,W代表宽度维度,C代表通道维度;通过SENet网络,将Hm在时间维度T和宽度维度W上做全局平均池化,转换成C维向量,得到空间RC的一维向量Hp_avg,具体的,
Hm=[H1,H2,H3,...,HC]
其中,
另外,
全局平均池化公式如下:
S6_2:将S6_1得到的Hp_avg与人群深度特征信息Hp进行拼接,得到拼接特征Hc,表达式为:
S6_3:将S6_2得到的拼接特征Hc输入两层全连接网络,得到通道权重向量Wc,其中,全连接网络的计算公式如下:
Y=Q*X+b
其中,Y表示网络的输出,X表示网络的输入,Q表示网络的权重参数,b表示网络的偏置参数;
S6_4:将S6_3得到的权重参数乘以S5得到的深度梅尔谱特征信息Hm,得到情感特征矩阵,将情感特征矩阵在维度T×W上做全局平均池化,得到融合特征Hf。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110322720.XA CN112712824B (zh) | 2021-03-26 | 2021-03-26 | 一种融合人群信息的语音情感识别方法和系统 |
PCT/CN2021/115694 WO2022198923A1 (zh) | 2021-03-26 | 2021-08-31 | 一种融合人群信息的语音情感识别方法和系统 |
PCT/CN2022/070728 WO2022199215A1 (zh) | 2021-03-26 | 2022-01-07 | 一种融合人群信息的语音情感识别方法和系统 |
US17/845,908 US11837252B2 (en) | 2021-03-26 | 2022-06-21 | Speech emotion recognition method and system based on fused population information |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110322720.XA CN112712824B (zh) | 2021-03-26 | 2021-03-26 | 一种融合人群信息的语音情感识别方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112712824A CN112712824A (zh) | 2021-04-27 |
CN112712824B true CN112712824B (zh) | 2021-06-29 |
Family
ID=75550314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110322720.XA Active CN112712824B (zh) | 2021-03-26 | 2021-03-26 | 一种融合人群信息的语音情感识别方法和系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11837252B2 (zh) |
CN (1) | CN112712824B (zh) |
WO (2) | WO2022198923A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112712824B (zh) | 2021-03-26 | 2021-06-29 | 之江实验室 | 一种融合人群信息的语音情感识别方法和系统 |
CN113593537B (zh) * | 2021-07-27 | 2023-10-31 | 华南师范大学 | 基于互补特征学习框架的语音情感识别方法及装置 |
CN113808620B (zh) * | 2021-08-27 | 2023-03-21 | 西藏大学 | 一种基于cnn和lstm的藏语语音情感识别方法 |
CN114387997B (zh) * | 2022-01-21 | 2024-03-29 | 合肥工业大学 | 一种基于深度学习的语音情感识别方法 |
CN114566189B (zh) * | 2022-04-28 | 2022-10-04 | 之江实验室 | 基于三维深度特征融合的语音情感识别方法及系统 |
CN117475360B (zh) * | 2023-12-27 | 2024-03-26 | 南京纳实医学科技有限公司 | 基于改进型mlstm-fcn的音视频特点的生物特征提取与分析方法 |
CN118470665B (zh) * | 2024-07-15 | 2024-09-20 | 中国海洋大学 | 一种复杂天气情况下道路车辆检测方法、介质及系统 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6173260B1 (en) * | 1997-10-29 | 2001-01-09 | Interval Research Corporation | System and method for automatic classification of speech based upon affective content |
CN102222500A (zh) * | 2011-05-11 | 2011-10-19 | 北京航空航天大学 | 结合情感点的汉语语音情感提取及建模方法 |
CN105869657A (zh) * | 2016-06-03 | 2016-08-17 | 竹间智能科技(上海)有限公司 | 语音情感辨识系统及方法 |
CN108154879B (zh) * | 2017-12-26 | 2021-04-09 | 广西师范大学 | 一种基于倒谱分离信号的非特定人语音情感识别方法 |
WO2019225801A1 (ko) * | 2018-05-23 | 2019-11-28 | 한국과학기술원 | 사용자의 음성 신호를 기반으로 감정, 나이 및 성별을 동시에 인식하는 방법 및 시스템 |
CN108899049A (zh) * | 2018-05-31 | 2018-11-27 | 中国地质大学(武汉) | 一种基于卷积神经网络的语音情感识别方法及系统 |
CN109146066A (zh) * | 2018-11-01 | 2019-01-04 | 重庆邮电大学 | 一种基于语音情感识别的虚拟学习环境自然交互方法 |
CN109935243A (zh) * | 2019-02-25 | 2019-06-25 | 重庆大学 | 基于vtlp数据增强及多尺度时频域空洞卷积模型的语音情感识别方法 |
CN109817246B (zh) * | 2019-02-27 | 2023-04-18 | 平安科技(深圳)有限公司 | 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质 |
CN110047516A (zh) * | 2019-03-12 | 2019-07-23 | 天津大学 | 一种基于性别感知的语音情感识别方法 |
CN110021308B (zh) * | 2019-05-16 | 2021-05-18 | 北京百度网讯科技有限公司 | 语音情绪识别方法、装置、计算机设备和存储介质 |
CN110164476B (zh) * | 2019-05-24 | 2021-07-27 | 广西师范大学 | 一种基于多输出特征融合的blstm的语音情感识别方法 |
CN110491416B (zh) * | 2019-07-26 | 2022-02-25 | 广东工业大学 | 一种基于lstm和sae的电话语音情感分析与识别方法 |
CN110852215B (zh) * | 2019-10-30 | 2022-09-06 | 国网江苏省电力有限公司电力科学研究院 | 一种多模态情感识别方法、系统及存储介质 |
CN111292765B (zh) * | 2019-11-21 | 2023-07-28 | 台州学院 | 一种融合多个深度学习模型的双模态情感识别方法 |
CN111429948B (zh) * | 2020-03-27 | 2023-04-28 | 南京工业大学 | 一种基于注意力卷积神经网络的语音情绪识别模型及方法 |
CN112037822B (zh) * | 2020-07-30 | 2022-09-27 | 华南师范大学 | 基于ICNN与Bi-LSTM的语音情感识别方法 |
CN112435689B (zh) * | 2020-11-10 | 2021-08-17 | 罗科仕管理顾问有限公司 | 语音聊天机器人职位面试系统中的情感识别 |
CN112712824B (zh) * | 2021-03-26 | 2021-06-29 | 之江实验室 | 一种融合人群信息的语音情感识别方法和系统 |
-
2021
- 2021-03-26 CN CN202110322720.XA patent/CN112712824B/zh active Active
- 2021-08-31 WO PCT/CN2021/115694 patent/WO2022198923A1/zh active Application Filing
-
2022
- 2022-01-07 WO PCT/CN2022/070728 patent/WO2022199215A1/zh active Application Filing
- 2022-06-21 US US17/845,908 patent/US11837252B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20220328065A1 (en) | 2022-10-13 |
US11837252B2 (en) | 2023-12-05 |
WO2022198923A1 (zh) | 2022-09-29 |
CN112712824A (zh) | 2021-04-27 |
WO2022199215A1 (zh) | 2022-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112712824B (zh) | 一种融合人群信息的语音情感识别方法和系统 | |
CN113408385B (zh) | 一种音视频多模态情感分类方法及系统 | |
CN108597541B (zh) | 一种增强愤怒与开心识别的语音情感识别方法及系统 | |
Deshwal et al. | A language identification system using hybrid features and back-propagation neural network | |
CN108717856A (zh) | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 | |
CN109767756B (zh) | 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法 | |
Hibare et al. | Feature extraction techniques in speech processing: a survey | |
CN107731233A (zh) | 一种基于rnn的声纹识别方法 | |
CN110211594B (zh) | 一种基于孪生网络模型和knn算法的说话人识别方法 | |
CN114566189B (zh) | 基于三维深度特征融合的语音情感识别方法及系统 | |
CN111341319A (zh) | 一种基于局部纹理特征的音频场景识别方法及系统 | |
Gupta et al. | Speech emotion recognition using SVM with thresholding fusion | |
Sarma et al. | An ANN based approach to recognize initial phonemes of spoken words of Assamese language | |
CN113611286B (zh) | 一种基于共性特征提取的跨语种语音情感识别方法和系统 | |
Nawas et al. | Speaker recognition using random forest | |
CN113571095B (zh) | 基于嵌套深度神经网络的语音情感识别方法和系统 | |
CN114298019A (zh) | 情绪识别方法、装置、设备、存储介质、程序产品 | |
Kawade et al. | Speech Emotion Recognition Using 1D CNN-LSTM Network on Indo-Aryan Database | |
Jagadeeshwar et al. | ASERNet: Automatic speech emotion recognition system using MFCC-based LPC approach with deep learning CNN | |
Sakamoto et al. | Stargan-vc+ asr: Stargan-based non-parallel voice conversion regularized by automatic speech recognition | |
Raghib et al. | Emotion analysis and speech signal processing | |
Aggarwal et al. | Application of genetically optimized neural networks for hindi speech recognition system | |
Duong | Development of accent recognition systems for Vietnamese speech | |
Kumar et al. | Transfer learning based convolution neural net for authentication and classification of emotions from natural and stimulated speech signals | |
Mouaz et al. | A new framework based on KNN and DT for speech identification through emphatic letters in Moroccan dialect |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |