CN108053840A - 一种基于pca-bp的情绪识别方法及系统 - Google Patents
一种基于pca-bp的情绪识别方法及系统 Download PDFInfo
- Publication number
- CN108053840A CN108053840A CN201711477181.7A CN201711477181A CN108053840A CN 108053840 A CN108053840 A CN 108053840A CN 201711477181 A CN201711477181 A CN 201711477181A CN 108053840 A CN108053840 A CN 108053840A
- Authority
- CN
- China
- Prior art keywords
- emotion
- feature vector
- audio
- training
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 46
- 239000013598 vector Substances 0.000 claims abstract description 241
- 230000008451 emotion Effects 0.000 claims abstract description 235
- 238000001228 spectrum Methods 0.000 claims abstract description 151
- 238000012549 training Methods 0.000 claims abstract description 148
- 238000003062 neural network model Methods 0.000 claims abstract description 22
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims description 66
- 238000007781 pre-processing Methods 0.000 claims description 21
- 230000009467 reduction Effects 0.000 claims description 16
- 238000001514 detection method Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 description 15
- 238000000513 principal component analysis Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 10
- 210000004205 output neuron Anatomy 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 5
- 230000002996 emotional effect Effects 0.000 description 5
- 230000004927 fusion Effects 0.000 description 5
- 210000002364 input neuron Anatomy 0.000 description 5
- 210000002569 neuron Anatomy 0.000 description 5
- 238000013507 mapping Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Evolutionary Biology (AREA)
- Psychiatry (AREA)
- Hospice & Palliative Care (AREA)
- Child & Adolescent Psychology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明实施例公开了一种基于PCA‑BP的情绪识别方法及系统。通过将训练音频的第一声学特征向量和第一样本熵特征进行融合得到训练音频的第一情感声谱特征向量;采用PCA算法对情感声谱特征向量进行降维得到第二情感声谱特征向量;分别将各种情绪对应的训练音频的第二情感声谱特征向量输入预置BP神经网络模型进行训练得到各种情绪对应的声谱特征向量情绪模型;将待检测音频的第二声学特征向量和第二样本熵特征进行融合得到待检测音频的第三情感声谱特征向量与各个声谱特征向量情绪模型进行比对并计算情绪模型匹配度,输出最大情绪模型匹配度对应的声谱特征向量情绪模型。解决了当前的语音情绪识别过程复杂,实现难度高,准确率低,效率低的技术问题。
Description
技术领域
本发明涉及情绪识别技术领域,尤其涉及一种基于PCA-BP的情绪识别方法及系统。
背景技术
随着计算机技术的迅猛发展,智能化已经越来越深入到人们的生活中,而在实际生活中,同一说话者用不用情绪说的完全相同的一句话,可以被听者品味出不同的含义,人们希望计算机不仅仅能确认说话人和语音识别,同时可以识别语义、情绪等更高级的信息,从而给予相应的反馈。
情绪是指人有喜、怒、哀、乐、惧等心理体验,这中体验是人对客观事物的态度的一种反映。情绪信息是语音信息中的一种信息资源。与语音识别技术不同,情绪识别系统更关注的是说话人的说话方式,需要挖掘更深层次的说话人的语气和态度,可以认为是语音信号中隐藏的更高阶的信息。
实现情绪的识别,需要赋予机器从语音中提取表征发音者情绪的非语义信息。通过寻找各种情绪对应的语音信号中的规律,提取出能够有效表征情绪状态的特征向量,利用计算机分析建模,最终确定发音者的情绪状态。
目前语音情绪识别技术的实现方案多是语音识别与表情识别和语义识别等复合方案的识别方式。但是,这种复合识别方案技术过于复杂,系统不仅仅依赖于简单的语音,甚至还需要进行图像、视频处理分析,不仅处理过程复杂,实现难度高,而且容易出错,效率低下,制约了情绪识别系统的市场推广。因此,导致了当前的语音情绪识别处理过程复杂,实现难度高,准确率低,效率低的技术问题。
发明内容
本发明提供了一种基于PCA-BP的情绪识别方法及系统,解决了当前的语音情绪识别处理过程复杂,实现难度高,过准确率低,效率低的技术问题。
本发明提供了一种基于PCA-BP的情绪识别方法,包括:
S1:获取训练音频,提取所述训练音频的第一声学特征向量和第一样本熵特征,分别将各个所述训练音频的所述第一声学特征向量和所述第一样本熵特征进行融合,得到各个所述训练音频的第一情感声谱特征向量;
S2:采用PCA算法对所述第一情感声谱特征向量进行降维处理,得到第二情感声谱特征向量;
S3:分别将各种情绪对应的所述训练音频的所述第二情感声谱特征向量输入预置BP神经网络模型进行训练,得到各种情绪对应的声谱特征向量情绪模型并加入训练模板库;
S4:获取待检测音频,提取所述待检测音频的第二声学特征向量和第二样本熵特征,将所述第二声学特征向量和所述第二样本熵特征进行融合,得到待检测音频的待检测第三情感声谱特征向量,将第三情感声谱特征向量与所述训练模板库中的各个所述声谱特征向量情绪模型进行比对并计算情绪模型匹配度,输出最大情绪模型匹配度对应的所述声谱特征向量情绪模型。
优选地,骤S1具体包括:获取训练音频,对所述训练音频进行预处理,提取预处理后的所述训练音频的第一声学特征向量和第一样本熵特征,分别将各个所述训练音频的所述第一声学特征向量和所述第一样本熵特征进行融合,得到各个所述训练音频的情感声谱特征向量,其中,预处理具体包括:采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理。
优选地,所述声学特征向量具体包括MFCC特征和/或GFCC特征。
优选地,步骤S3具体包括:
S31:对预置BP神经网络模型进行网络参数初始化,其中,所述网络参数包括:连接权值、连接阈值、最大学习次数、误差精度;
S32:分别将各种情绪对应的所述训练音频的所述情感声谱特征向量输入预置BP神经网络模型进行训练,得到各种情绪对应的声谱特征向量情绪模型并加入训练模板库。
优选地,步骤S4具体包括:
S41:获取待检测音频;
S42:对所述待检测音频进行预处理,提取预处理后的所述待检测音频的第二声学特征向量和第二样本熵特征,分别将各个所述待检测音频的所述第二声学特征向量和所述第二样本熵特征进行融合,得到各个所述待检测音频的情感声谱特征向量;
S43:将所述待检测音频的所述第三情感声谱特征向量与训练模板库中的各个所述声谱特征向量情绪模型进行比对并计算情绪模型匹配度,输出最大情绪模型匹配度对应的所述声谱特征向量情绪模型。
本发明提供了一种基于PCA-BP的情绪识别系统,包括:
第一特征提取单元,用于获取所述训练音频,提取预处理后的所述训练音频的第一声学特征向量和所述第一样本熵特征,分别将各个所述训练音频的所述第一声学特征向量和第一样本熵特征进行融合,得到各个所述训练音频的第一情感声谱特征向量;
降维处理单元,用于采用PCA算法对所述第一情感声谱特征向量进行降维处理,得到第二情感声谱特征向量;
模型训练单元,用于分别将各种情绪对应的所述训练音频的所述第二情感声谱特征向量输入预置BP神经网络模型进行训练,得到各种情绪对应的声谱特征向量情绪模型并加入训练模板库;
情绪识别单元,用于获取待检测音频,提取所述待检测音频的第二声学特征向量和第二样本熵特征,将所述第二声学特征向量和所述第二样本熵特征进行融合,得到待检测音频的第三情感声谱特征向量,将所述第三情感声谱特征向量与所述训练模板库中的各个所述声谱特征向量情绪模型进行比对并计算情绪模型匹配度,输出最大情绪模型匹配度对应的所述声谱特征向量情绪模型。
优选地,第一特征提取单元具体用于:获取训练音频,对所述训练音频进行预处理,提取预处理后的所述训练音频的第一声学特征向量和第一样本熵特征,分别将各个所述训练音频的所述第一声学特征向量和所述第一样本熵特征进行融合,得到各个所述训练音频的情感声谱特征向量,其中,预处理具体包括:采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理。
优选地,所述声学特征向量为MFCC特征和/或GFCC特征。
优选地,模型训练单元具体包括:
初始化单元,用于对预置BP神经网络模型进行网络参数初始化,其中,所述网络参数包括:连接权值、连接阈值、最大学习次数、误差精度;
训练单元,用于分别将各种情绪对应的所述训练音频的所述情感声谱特征向量输入预置BP神经网络模型进行训练,得到各种情绪对应的声谱特征向量情绪模型并加入训练模板库。
优选地,情绪识别单元具体包括:
获取单元,用于获取所述待检测音频;
第二特征提取单元,用于对所述待检测音频进行预处理,提取预处理后的所述待检测音频的第二声学特征向量和第二样本熵特征,分别将各个所述待检测音频的所述第二声学特征向量和所述第二样本熵特征进行融合,得到各个所述待检测音频的第三情感声谱特征向量;
匹配单元,用于将所述待检测音频的所述第三情感声谱特征向量与训练模板库中的各个所述声谱特征向量情绪模型进行比对并计算情绪模型匹配度,输出最大情绪模型匹配度对应的所述声谱特征向量情绪模型。
本发明提供了一种基于PCA-BP的情绪识别方法,包括:S1:获取训练音频,提取所述训练音频的第一声学特征向量和第一样本熵特征,分别将各个所述训练音频的所述第一声学特征向量和所述第一样本熵特征进行融合,得到各个所述训练音频的第一情感声谱特征向量;S2:采用PCA算法对所述第一情感声谱特征向量进行降维处理,得到第二情感声谱特征向量;S3:分别将各种情绪对应的所述训练音频的所述第二情感声谱特征向量输入预置BP神经网络模型进行训练,得到各种情绪对应的声谱特征向量情绪模型并加入训练模板库;S4:获取待检测音频,提取所述待检测音频的第二声学特征向量和第二样本熵特征,将所述第二声学特征向量和所述第二样本熵特征进行融合,得到待检测音频的待检测第三情感声谱特征向量,将第三情感声谱特征向量与所述训练模板库中的各个所述声谱特征向量情绪模型进行比对并计算情绪模型匹配度,输出最大情绪模型匹配度对应的所述声谱特征向量情绪模型。
本发明通过提取音频的传统声学特征向量MFCC和/或GFCC和更高阶的音频特征样本熵参数并进行融合,使得提取到的声谱特征向量更加贴近真实情绪,提高了系统对语音情绪识别的准确率;同时,BP神经网络是一种按误差逆传播算法训练的多层前馈网络,具有实现任何复杂非线性映射的功能,具有自学习功能和具有一定的推广、概括能力的优点,采用PCA算法对情感声谱特征向量进行降维处理,使得利用预置BP神经网络对情感声谱特征向量建模训练的过程得到简单化,提高了识别效率,解决了当前的语音情绪识别处理过程复杂,实现难度高,准确率低,效率低的技术问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种基于PCA-BP的情绪识别方法的一个实施例的流程示意图;
图2为本发明实施例提供的一种基于PCA-BP的情绪识别方法的另一个实施例的流程示意图;
图3为本发明实施例提供的一种基于PCA-BP的情绪识别系统的一个实施例的结构示意图。
具体实施方式
本发明实施例提供了一种基于PCA-BP的情绪识别方法及系统,解决了当前的语音情绪识别处理过程复杂,实现难度高,过准确率低,效率低的技术问题。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例提供了一种基于PCA-BP的情绪识别方法的一个实施例,包括:
步骤101:获取训练音频,提取训练音频的第一声学特征向量和第一样本熵特征,分别将各个训练音频的所述第一声学特征向量和第一样本熵特征进行融合,得到各个训练音频的第一情感声谱特征向量;
需要说明的是,训练音频可以是wav格式音频文件,提取训练音频的第一声学特征向量包括MFCC特征和/或GFCC特征,在进行提取训练音频的第一声学特征向量和第一样本熵特征之前需要对训练音频进行预处理,预处理具体包括:采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理。
样本熵是一种新的时间序列复杂性测度方法,定义为数据向量在m维增加至m+1维时继续保持其相似性的条件概率;分别将各个训练音频的第一声学特征向量和第一样本熵特征进行融合是为了对声学特征向量情感情绪进行多维度提取,样本熵的值越大,产生新信息的概率越大,序列越复杂,能够通过不同情感的语音信号动态变化程度来区分情感类别,融合规则包括加法融合规则,加法融合规则为:
其中,ωi为情感特征集合Ω=(ω1,ω2,…,ωc)中的第i类情感特征,fj为提取音频样本的第j个样本熵序列,P(ωi|fj)为第i类情感特征和第j个样本熵序列对应的条件概率。
步骤102:采用PCA算法对第一情感声谱特征向量进行降维处理,得到第二情感声谱特征向量;
需要说明的是,由于BP神经网络神经元节点众多,在进行输出神经元节点计算时,如果输入神经元的维度过大,会导致计算量大,从而使BP神经网络的构建复杂化,降低训练效率,因此,需要对第一情感声谱特征向量进行降维处理,而PCA算法(主成分分析,Principal Component Analysis)是多元统计分析中用来分析数据的一种方法,它是用一种较少数量的特征对样本进行描述以达到降低特征空间维数的方法,本实施例使用PCA算法对第一情感声谱特征向量进行降维处理。
步骤103:分别将各种情绪对应的训练音频的第二情感声谱特征向量输入预置BP神经网络模型进行训练,得到各种情绪对应的声谱特征向量情绪模型并加入训练模板库;
需要说明的是,BP神经网络(Back Propagation)是一种按误差逆传播算法训练的多层前馈网络,具有实现任何复杂非线性映射的功能,具有自学习功能和具有一定的推广、概括能力的优点,可用于模式识别,BP神经网络的构建过程包括:
1)对预置BP神经网络模型进行进行网络参数初始化,其中,参数包括:连接权值、连接阈值、最大学习次数、误差精度,连接权值包括第一连接权值、第二连接权值;连接阈值包括第一连接阈值、第二连接阈值;第一连接权值、第二连接权值、第一连接阈值、第二连接阈值的取值范围为[-1,1];
2)输入样本数据,样本数据格式为[输入向量,理想输出向量],输入向量为第一声学特征向量和第一样本熵特征融合得到的各个所述训练音频的情感声谱特征向量;理想输出向量为预置的输入向量本身对应的特定匹配向量;
3)计算神经元的输出,以所述输入向量作为输入神经元计算得到对应的输出神经元;计算公式为:
Zoh(k)=f(Zih(k)) (3)
Ooh(k)=f(Oio(k)) (5)
其中,Zih(k)为隐含层输入向量;Miz为第一连接权值;ri(k)为输入层输入向量;Bz为第一连接阈值;Zoh(k)为隐含层输出向量;Mzo为第二连接权值;Bo为第二连接阈值;Oio(k)为理想输出向量;Ooh(k)为实际输出向量;f(Zih(k))为隐含层输入向量的激活函数;f(Oio(k))为输出层输入向量激活函数;
4)计算输出误差,计算所述输出神经元与所述理想输出向量的差值;
5)调节连接权值和连接阈值,根据所述差值调节相应的连接权值和连接阈值;
第一连接权值公式为:
第二连接权值公式为:
第一连接阈值公式为:
第二连接阈值公式为:
其中,为调节后的第一连接权值;为调节后的第二连接权值;为调节后的第一连接阈值;为调节后的第二连接阈值;ε为自学习率,取值范围为[0,1];δz(k)为隐含层各神经元的偏导数;δo(k)为输出层各神经元的偏导数;
6)判断输入样本数据是否结束,即判断所有的输入样本数据是否都经过了BP神经网络,若是,则执行7);若否,则执行2);
7)计算平均误差,将所有的输出误差进行算术平均值的计算,得到的均方根误差即为算术平均误差;
8)判断平均误差是否满足精度要求,将算术平均误差与初始化误差精度进行比对,若算术平均误差小于等于初始化误差精度,则满足精度要求,则输出声谱特征向量情绪模型;若所述算术平均误差大于初始化误差精度,则不满足精度要求,执行9);
9)判断自学习次数是否达到上限,即自学习次数是否大于等于最大学习次数,若是,则输出声谱特征向量情绪模型;若否,则执行2)。
步骤104:获取待检测音频,提取待检测音频的第二声学特征向量和第二样本熵特征,将第二声学特征向量和所述第二样本熵特征进行融合,得到待检测音频的第三情感声谱特征向量,将第三情感声谱特征向量与训练模板库中的各个声谱特征向量情绪模型进行比对并计算情绪模型匹配度,输出最大情绪模型匹配度对应的声谱特征向量情绪模型;
需要说明的是,待检测音频可以是wav格式音频文件,对待检测音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理预处理,提取待检测音频的第二声学特征向量包括MFCC特征和/或GFCC特征,将第二声学特征向量和第二样本熵特征进行融合得到待检测音频的第三情感声谱特征向量,将第三情感声谱特征向量与训练模板库中的各个声谱特征向量情绪模型进行比对并计算情绪模型匹配度,匹配度的计算可以是各种情绪类别的加权平均数,以加权平均数为匹配度,输出匹配度最大的情绪类别。
本实施例通过将各个训练音频的第一声学特征向量和第一样本熵特征进行融合得到各个训练音频的情感声谱特征向量,样本熵的值越大,产生新信息的概率越大,序列越复杂,能够通过不同情感的语音信号动态变化程度来区分情感类别,保证了情感分类的性能,提升了情绪分类的准确率;同时,BP神经网络是一种按误差逆传播算法训练的多层前馈网络,具有实现任何复杂非线性映射的功能,具有自学习功能和具有一定的推广、概括能力的优点,在利用BP神经网络对情感声谱特征向量建模之前采用PCA算法对情感声谱特征向量进行降维处理,使得在进行输出神经元节点计算时,输入神经元的维度得到降低,减少了BP输出神经元的计算量,从而使BP神经网络的构建简单化,提高了训练效率;并且多种类别的声谱特征向量综合匹配可以实现情绪特征的准确识别,提高了情绪识别的灵活性、方便性、严密性和识别效率,能更好地适应智能化硬件未来的需求,可持续对复杂程度日益增长的智能化硬件进行完整、快速地配置,解决了当前的语音情绪识别处理过程复杂,实现难度高,准确率低,效率低的技术问题。
以上为本发明实施例提供的一种基于PCA-BP的情绪识别方法的一个实施例,以下为本发明实施例提供的一种基于PCA-BP的情绪识别方法的另一个实施例。
请参阅图2,本发明实施例提供了一种基于PCA-BP的情绪识别方法的另一个实施例,包括:
步骤201:获取训练音频,对训练音频进行预处理;
需要说明的是,训练音频可以是wav格式音频文件,在进行提取训练音频的第一声学特征向量和第一样本熵特征之前需要对训练音频进行预处理,预处理具体包括:采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理。
步骤202:提取预处理后的训练音频的第一声学特征向量和第一样本熵特征,分别将各个训练音频的第一声学特征向量和第一样本熵特征进行融合,得到各个训练音频的第一情感声谱特征向量;
需要说明的是,提取训练音频的第一声学特征向量包括MFCC特征和/或GFCC特征,分别将各个训练音频的第一声学特征向量和第一样本熵特征进行融合的融合规则与步骤101一致,在此不再进行赘述。
步骤203:采用PCA算法对第一情感声谱特征向量进行降维处理,得到第二情感声谱特征向量;
需要说明的是,由于BP神经网络神经元节点众多,在进行输出神经元节点计算时,如果输入神经元的维度过大,会导致计算量大,从而使BP神经网络的构建复杂化,降低训练效率,因此,需要对情感声谱特征向量进行降维处理,而PCA算法(主成分分析,PrincipalComponent Analysis)是多元统计分析中用来分析数据的一种方法,它是用一种较少数量的特征对样本进行描述以达到降低特征空间维数的方法,本实施例使用PCA算法对第一情感声谱特征向量进行降维处理。
步骤204:对预置BP神经网络模型进行进行网络参数初始化,其中,网络参数包括:连接权值、连接阈值、最大学习次数、误差精度;
需要说明的是,连接权值包括第一连接权值、第二连接权值;连接阈值包括第一连接阈值、第二连接阈值;第一连接权值、第二连接权值、第一连接阈值、第二连接阈值的取值范围为[-1,1]。
步骤205:分别将各种情绪对应的训练音频的第二情感声谱特征向量输入预置BP神经网络模型进行训练,得到各种情绪对应的声谱特征向量情绪模型并加入训练模板库;
需要说明的是,分别将各种情绪对应的训练音频的第二情感声谱特征向量输入预置BP神经网络模型进行训练,得到各种情绪对应的声谱特征向量情绪模型的方法与步骤103一致,在此不再进行赘述。
步骤206:获取待检测音频;
需要说明的是,待检测音频可以是wav格式音频文件,也可以是其他格式音频文件。
步骤207:对待检测音频进行预处理,提取预处理后的待检测音频的第二声学特征向量和第二样本熵特征,分别将各个待检测音频的第二声学特征向量和第二样本熵特征进行融合,得到各个待检测音频的第三情感声谱特征向量;
需要说明的是:获取待检测音频后需要对待检测音频进行预处理,预处理具体包括:采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理,提取预处理后的待检测音频的第二声学特征向量和第二样本熵特征,分别将各个待检测音频的第二声学特征向量和第二样本熵特征进行融合,得到各个待检测音频的第三情感声谱特征向量,其中,融合规则与步骤101一致,在此不再进行赘述。
步骤208:将待检测音频的第三情感声谱特征向量与训练模板库中的各个声谱特征向量情绪模型进行比对并计算情绪模型匹配度,输出最大情绪模型匹配度对应的声谱特征向量情绪模型;
需要说明的是,将第三情感声谱特征向量与训练模板库中的各个声谱特征向量情绪模型进行比对并计算情绪模型匹配度,匹配度的计算可以是各种情绪类别的加权平均数,以加权平均数为匹配度,输出匹配度最大的情绪类别。
本实施例通过将各个训练音频的第一声学特征向量和第一样本熵特征进行融合得到各个训练音频的第一情感声谱特征向量,样本熵的值越大,产生新信息的概率越大,序列越复杂,能够通过不同情感的语音信号动态变化程度来区分情感类别,保证了情感分类的性能,提升了情绪分类的准确率;同时,BP神经网络是一种按误差逆传播算法训练的多层前馈网络,具有实现任何复杂非线性映射的功能,具有自学习功能和具有一定的推广、概括能力的优点,在利用BP神经网络对情感声谱特征向量建模之前采用PCA算法对第一情感声谱特征向量进行降维处理,使得在进行输出神经元节点计算时,输入神经元的维度得到降低,减少了BP输出神经元的计算量,从而使BP神经网络的构建简单化,提高了训练效率;并且多种类别的声谱特征向量综合匹配可以实现情绪特征的准确识别,提高了情绪识别的灵活性、方便性、严密性和识别效率,能更好地适应智能化硬件未来的需求,可持续对复杂程度日益增长的智能化硬件进行完整、快速地配置,解决了当前的语音情绪识别处理过程复杂,实现难度高,准确率低,效率低的技术问题。
以上为本发明实施例提供的一种基于PCA-BP的情绪识别方法的另一个实施例,以下为本发明实施例提供的一种基于PCA-BP的情绪识别系统的一个实施例。
请参阅图3,本发明实施例提供了一种基于PCA-BP的情绪识别系统的一个实施例,包括:
第一特征提取单元301,用于获取训练音频,提取预处理后的训练音频的第一声学特征向量和第一样本熵特征,分别将各个训练音频的第一声学特征向量和第一样本熵特征进行融合,得到各个训练音频的第一情感声谱特征向量。
降维处理单元302,用于采用PCA算法对第一情感声谱特征向量进行降维处理,得到第二情感声谱特征向量。
模型训练单元303,用于分别将各种情绪对应的训练音频的第二情感声谱特征向量输入预置BP神经网络模型进行训练,得到各种情绪对应的声谱特征向量情绪模型并加入训练模板库。
情绪识别单元304,用于获取待检测音频,提取待检测音频的第二声学特征向量和第二样本熵特征,将第二声学特征向量和第二样本熵特征进行融合,得到待检测音频的第三情感声谱特征向量,将第三情感声谱特征向量与训练模板库中的各个声谱特征向量情绪模型进行比对并计算情绪模型匹配度,输出最大情绪模型匹配度对应的声谱特征向量情绪模型。
进一步地,第一特征提取单元301,具体用于获取训练音频,对训练音频进行预处理,提取预处理后的所述训练音频的第一声学特征向量和第一样本熵特征,分别将各个训练音频的所述第一声学特征向量和第一样本熵特征进行融合,得到各个所述训练音频的第一情感声谱特征向量,其中,预处理具体包括:采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理。
进一步地,模型训练单元303具体包括:初始化单元3031和训练单元3032;
初始化单元3031,用于对预置BP神经网络模型进行网络参数初始化,其中,网络参数包括:连接权值、连接阈值、最大学习次数、误差精度;
训练单元3032,用于分别将各种情绪对应的训练音频的情感声谱特征向量输入预置BP神经网络模型进行训练,得到各种情绪对应的声谱特征向量情绪模型并加入训练模板库。
进一步地,情绪识别单元304具体包括:获取单元3041、第二特征处理单元3042和匹配单元3043;
获取单元3041,用于获取待检测音频;。
第二特征处理单元3042,用于对待检测音频进行预处理,提取预处理后的待检测音频的第二声学特征向量和第二样本熵特征,分别将各个待检测音频的第二声学特征向量和第二样本熵特征进行融合,得到各个待检测音频的情感声谱特征向量;
匹配单元3043,用于将待检测音频的第三情感声谱特征向量与训练模板库中的各个声谱特征向量情绪模型进行比对并计算情绪模型匹配度,输出最大情绪模型匹配度对应的声谱特征向量情绪模型。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于PCA-BP的情绪识别方法,其特征在于,包括:
S1:获取训练音频,提取所述训练音频的第一声学特征向量和第一样本熵特征,分别将各个所述训练音频的所述第一声学特征向量和所述第一样本熵特征进行融合,得到各个所述训练音频的第一情感声谱特征向量;
S2:采用PCA算法对所述第一情感声谱特征向量进行降维处理,得到的第二情感声谱特征向量;
S3:分别将各种情绪对应的所述训练音频的所述第二情感声谱特征向量输入预置BP神经网络模型进行训练,得到各种情绪对应的声谱特征向量情绪模型并加入训练模板库;
S4:获取待检测音频,提取所述待检测音频的第二声学特征向量和第二样本熵特征,将所述第二声学特征向量和所述第二样本熵特征进行融合,得到待检测音频的第三情感声谱特征向量,将第三情感声谱特征向量与所述训练模板库中的各个所述声谱特征向量情绪模型进行比对并计算情绪模型匹配度,输出最大情绪模型匹配度对应的所述声谱特征向量情绪模型。
2.根据权利要求1所述的一种基于PCA-BP的情绪识别方法,其特征在于,步骤S1具体包括:
获取训练音频,对所述训练音频进行预处理,提取预处理后的所述训练音频的第一声学特征向量和第一样本熵特征,分别将各个所述训练音频的所述第一声学特征向量和所述第一样本熵特征进行融合,得到各个所述训练音频的情感声谱特征向量,其中,预处理具体包括:采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理。
3.根据权利要求1所述的一种基于PCA-BP的情绪识别方法,其特征在于,所述第一声学特征向量具体包括:MFCC特征和/或GFCC特征。
4.根据权利要求1所述的一种基于PCA-BP的情绪识别方法,其特征在于,步骤S3具体包括:
S31:对预置BP神经网络模型进行网络参数初始化,其中,所述网络参数包括:连接权值、连接阈值、最大学习次数和误差精度;
S32:分别将各种情绪对应的所述训练音频的所述情感声谱特征向量输入预置BP神经网络模型进行训练,得到各种情绪对应的声谱特征向量情绪模型并加入训练模板库。
5.根据权利要求1所述的一种基于PCA-BP的情绪识别方法,其特征在于,步骤S4具体包括:
S41:获取待检测音频;
S42:对所述待检测音频进行预处理,提取预处理后的所述待检测音频的第二声学特征向量和第二样本熵特征,分别将各个所述待检测音频的所述第二声学特征向量和所述第二样本熵特征进行融合,得到各个所述待检测音频的情感声谱特征向量;
S43:将所述待检测音频的所述第三情感声谱特征向量与训练模板库中的各个所述声谱特征向量情绪模型进行比对并计算情绪模型匹配度,输出最大情绪模型匹配度对应的所述声谱特征向量情绪模型。
6.一种基于PCA-BP的情绪识别系统,其特征在于,包括:
第一特征提取单元,用于获取所述训练音频,提取预处理后的所述训练音频的第一声学特征向量和所述第一样本熵特征,分别将各个所述训练音频的所述第一声学特征向量和第一样本熵特征进行融合,得到各个所述训练音频的第一情感声谱特征向量;
降维处理单元,用于采用PCA算法对所述第一情感声谱特征向量进行降维处理,得到第二情感声谱特征向量;
模型训练单元,用于分别将各种情绪对应的所述训练音频的所述第二情感声谱特征向量输入预置BP神经网络模型进行训练,得到各种情绪对应的声谱特征向量情绪模型并加入训练模板库;
情绪识别单元,用于获取待检测音频,提取所述待检测音频的第二声学特征向量和第二样本熵特征,将所述第二声学特征向量和所述第二样本熵特征进行融合,得到待检测音频的第三情感声谱特征向量,将所述第三情感声谱特征向量与所述训练模板库中的各个所述声谱特征向量情绪模型进行比对并计算情绪模型匹配度,输出最大情绪模型匹配度对应的所述声谱特征向量情绪模型。
7.根据权利要求6所述的一种基于PCA-BP的情绪识别系统,其特征在于,第一特征提取单元,具体用于获取训练音频,对所述训练音频进行预处理,提取预处理后的所述训练音频的第一声学特征向量和第一样本熵特征,分别将各个所述训练音频的所述第一声学特征向量和所述第一样本熵特征进行融合,得到各个所述训练音频的情感声谱特征向量,其中,预处理具体包括:采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理。
8.根据权利要求6所述的一种基于PCA-BP的情绪识别系统,其特征在于,所述第一声学特征向量为MFCC特征和/或GFCC特征。
9.根据权利要求6所述的一种基于PCA-BP的情绪识别系统,其特征在于,模型训练单元具体包括:
初始化子单元,用于对预置BP神经网络模型进行网络参数初始化,其中,所述网络参数包括:连接权值、连接阈值、最大学习次数、误差精度;
训练子单元,用于分别将各种情绪对应的所述训练音频的所述情感声谱特征向量输入预置BP神经网络模型进行训练,得到各种情绪对应的声谱特征向量情绪模型并加入训练模板库。
10.根据权利要求6所述的一种基于PCA-BP的情绪识别系统,其特征在于,情绪识别单元具体包括:
获取子单元,用于获取所述待检测音频;
第二特征提取子单元,用于对所述待检测音频进行预处理,提取预处理后的所述待检测音频的第二声学特征向量和第二样本熵特征,分别将各个所述待检测音频的所述第二声学特征向量和所述第二样本熵特征进行融合,得到各个所述待检测音频的第三情感声谱特征向量;
匹配子单元,用于将所述待检测音频的所述第三情感声谱特征向量与训练模板库中的各个所述声谱特征向量情绪模型进行比对并计算情绪模型匹配度,输出最大情绪模型匹配度对应的所述声谱特征向量情绪模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711477181.7A CN108053840A (zh) | 2017-12-29 | 2017-12-29 | 一种基于pca-bp的情绪识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711477181.7A CN108053840A (zh) | 2017-12-29 | 2017-12-29 | 一种基于pca-bp的情绪识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108053840A true CN108053840A (zh) | 2018-05-18 |
Family
ID=62129469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711477181.7A Pending CN108053840A (zh) | 2017-12-29 | 2017-12-29 | 一种基于pca-bp的情绪识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108053840A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108806667A (zh) * | 2018-05-29 | 2018-11-13 | 重庆大学 | 基于神经网络的语音与情绪的同步识别方法 |
CN109147826A (zh) * | 2018-08-22 | 2019-01-04 | 平安科技(深圳)有限公司 | 音乐情感识别方法、装置、计算机设备及计算机存储介质 |
CN109767765A (zh) * | 2019-01-17 | 2019-05-17 | 平安科技(深圳)有限公司 | 话术匹配方法及装置、存储介质、计算机设备 |
CN109857784A (zh) * | 2019-02-12 | 2019-06-07 | 吉林师范大学 | 一种大数据统计分析系统 |
CN110379441A (zh) * | 2019-07-01 | 2019-10-25 | 特斯联(北京)科技有限公司 | 一种基于对抗型人工智能网络的语音服务方法与系统 |
CN110969073A (zh) * | 2019-08-23 | 2020-04-07 | 贵州大学 | 一种基于特征融合与bp神经网络的人脸表情识别方法 |
CN110991427A (zh) * | 2019-12-25 | 2020-04-10 | 北京百度网讯科技有限公司 | 用于视频的情绪识别方法、装置和计算机设备 |
WO2020073743A1 (zh) * | 2018-10-10 | 2020-04-16 | 广州市百果园信息技术有限公司 | 一种音频检测方法、装置、设备及存储介质 |
CN111028920A (zh) * | 2019-12-06 | 2020-04-17 | 杨保红 | 一种心理健康减压流程系统平台 |
CN111145785A (zh) * | 2018-11-02 | 2020-05-12 | 广州灵派科技有限公司 | 一种基于语音的情绪识别方法及装置 |
CN111243627A (zh) * | 2020-01-13 | 2020-06-05 | 云知声智能科技股份有限公司 | 一种语音情感识别方法及装置 |
CN112489625A (zh) * | 2020-10-19 | 2021-03-12 | 厦门快商通科技股份有限公司 | 语音情绪识别方法、系统、移动终端及存储介质 |
CN114495915A (zh) * | 2022-02-18 | 2022-05-13 | 北京百度网讯科技有限公司 | 语音情绪识别模型训练方法、情绪识别方法、装置和设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102707256A (zh) * | 2012-06-20 | 2012-10-03 | 北京航空航天大学 | 基于BP-AdaBoost神经网络的电子式电能表故障诊断方法 |
CN103258532A (zh) * | 2012-11-28 | 2013-08-21 | 河海大学常州校区 | 一种基于模糊支持向量机的汉语语音情感识别方法 |
CN104835507A (zh) * | 2015-03-30 | 2015-08-12 | 渤海大学 | 一种串并结合的多模式情感信息融合与识别方法 |
CN105741832A (zh) * | 2016-01-27 | 2016-07-06 | 广东外语外贸大学 | 一种基于深度学习的口语评测方法和系统 |
-
2017
- 2017-12-29 CN CN201711477181.7A patent/CN108053840A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102707256A (zh) * | 2012-06-20 | 2012-10-03 | 北京航空航天大学 | 基于BP-AdaBoost神经网络的电子式电能表故障诊断方法 |
CN103258532A (zh) * | 2012-11-28 | 2013-08-21 | 河海大学常州校区 | 一种基于模糊支持向量机的汉语语音情感识别方法 |
CN104835507A (zh) * | 2015-03-30 | 2015-08-12 | 渤海大学 | 一种串并结合的多模式情感信息融合与识别方法 |
CN105741832A (zh) * | 2016-01-27 | 2016-07-06 | 广东外语外贸大学 | 一种基于深度学习的口语评测方法和系统 |
Non-Patent Citations (11)
Title |
---|
LI XI: ""SPEech Feature Toolbox (SPEFT) Design and Emotional Speech Feature Extraction"", 《HTTPS://EPUBLICATIONS.MARQUETTE.EDU/THESES/1315》 * |
SHAVETA SHARMA: ""Speech Emotion Recognition using GFCC and BPNN"", 《INTERNATIONAL JOURNAL OF ENGINEERING TRENDS AND TECHNOLOGY (IJETT)》 * |
何亮: ""基于神经网络的语音情感识别"", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 * |
尤鸣宇: ""语音情感识别的关键技术研究"", 《中国博士学位论文全文数据库(信息科技辑)》 * |
屠彬彬: ""基于多特征提取与融合的语音情感研究"", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 * |
屠彬彬: ""基于样本熵与MFCC融合的语音情感识别"", 《计算机工程》 * |
师宏慧: ""语音情感识别方法研究"", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 * |
谭永红: ""基于BP神经网络的自适应控制"", 《控制理论与应用》 * |
韩明 等: "《数学建模案例》", 30 June 2012 * |
颜才柄: ""基于BP神经网络的语音情感识别算法的研究"", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 * |
龚若愚: ""语音情感识别训练系统设计与实现"", 《HTTP://D.WANFANGDATA.COM.CN/THESIS/Y2523319》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108806667A (zh) * | 2018-05-29 | 2018-11-13 | 重庆大学 | 基于神经网络的语音与情绪的同步识别方法 |
CN109147826B (zh) * | 2018-08-22 | 2022-12-27 | 平安科技(深圳)有限公司 | 音乐情感识别方法、装置、计算机设备及计算机存储介质 |
CN109147826A (zh) * | 2018-08-22 | 2019-01-04 | 平安科技(深圳)有限公司 | 音乐情感识别方法、装置、计算机设备及计算机存储介质 |
US11948595B2 (en) | 2018-10-10 | 2024-04-02 | Bigo Technology Pte. Ltd. | Method for detecting audio, device, and storage medium |
WO2020073743A1 (zh) * | 2018-10-10 | 2020-04-16 | 广州市百果园信息技术有限公司 | 一种音频检测方法、装置、设备及存储介质 |
CN111145785A (zh) * | 2018-11-02 | 2020-05-12 | 广州灵派科技有限公司 | 一种基于语音的情绪识别方法及装置 |
CN109767765A (zh) * | 2019-01-17 | 2019-05-17 | 平安科技(深圳)有限公司 | 话术匹配方法及装置、存储介质、计算机设备 |
CN109857784A (zh) * | 2019-02-12 | 2019-06-07 | 吉林师范大学 | 一种大数据统计分析系统 |
CN110379441A (zh) * | 2019-07-01 | 2019-10-25 | 特斯联(北京)科技有限公司 | 一种基于对抗型人工智能网络的语音服务方法与系统 |
CN110969073A (zh) * | 2019-08-23 | 2020-04-07 | 贵州大学 | 一种基于特征融合与bp神经网络的人脸表情识别方法 |
CN110969073B (zh) * | 2019-08-23 | 2023-02-03 | 贵州大学 | 一种基于特征融合与bp神经网络的人脸表情识别方法 |
CN111028920A (zh) * | 2019-12-06 | 2020-04-17 | 杨保红 | 一种心理健康减压流程系统平台 |
CN110991427B (zh) * | 2019-12-25 | 2023-07-14 | 北京百度网讯科技有限公司 | 用于视频的情绪识别方法、装置和计算机设备 |
CN110991427A (zh) * | 2019-12-25 | 2020-04-10 | 北京百度网讯科技有限公司 | 用于视频的情绪识别方法、装置和计算机设备 |
CN111243627B (zh) * | 2020-01-13 | 2022-09-27 | 云知声智能科技股份有限公司 | 一种语音情感识别方法及装置 |
CN111243627A (zh) * | 2020-01-13 | 2020-06-05 | 云知声智能科技股份有限公司 | 一种语音情感识别方法及装置 |
CN112489625A (zh) * | 2020-10-19 | 2021-03-12 | 厦门快商通科技股份有限公司 | 语音情绪识别方法、系统、移动终端及存储介质 |
CN114495915A (zh) * | 2022-02-18 | 2022-05-13 | 北京百度网讯科技有限公司 | 语音情绪识别模型训练方法、情绪识别方法、装置和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108053840A (zh) | 一种基于pca-bp的情绪识别方法及系统 | |
Song | English speech recognition based on deep learning with multiple features | |
Kumar et al. | Multilayer Neural Network Based Speech Emotion Recognition for Smart Assistance. | |
Sun et al. | Speech emotion recognition based on DNN-decision tree SVM model | |
CN108701453B (zh) | 模块化深度学习模型 | |
Zadeh et al. | Memory fusion network for multi-view sequential learning | |
CN110853666B (zh) | 一种说话人分离方法、装置、设备及存储介质 | |
CN108305641B (zh) | 情感信息的确定方法和装置 | |
Mai et al. | Analyzing multimodal sentiment via acoustic-and visual-LSTM with channel-aware temporal convolution network | |
Agarwalla et al. | Machine learning based sample extraction for automatic speech recognition using dialectal Assamese speech | |
Li et al. | Towards Discriminative Representation Learning for Speech Emotion Recognition. | |
EP4198807A1 (en) | Audio processing method and device | |
CN113723166A (zh) | 内容识别方法、装置、计算机设备和存储介质 | |
CN110992959A (zh) | 一种语音识别方法及系统 | |
Gupta et al. | Speech emotion recognition using SVM with thresholding fusion | |
CN111462762B (zh) | 一种说话人向量正则化方法、装置、电子设备和存储介质 | |
Kadyrov et al. | Speaker recognition from spectrogram images | |
Atkar et al. | Speech emotion recognition using dialogue emotion decoder and CNN Classifier | |
Shah et al. | Speech emotion recognition based on SVM using MATLAB | |
CN113571095B (zh) | 基于嵌套深度神经网络的语音情感识别方法和系统 | |
JP2015175859A (ja) | パターン認識装置、パターン認識方法及びパターン認識プログラム | |
Mihalache et al. | Speech emotion recognition using deep neural networks, transfer learning, and ensemble classification techniques | |
Badr et al. | Speech Emotion Recognition using MFCC and Hybrid Neural Networks. | |
JP2016162437A (ja) | パターン分類装置、パターン分類方法およびパターン分類プログラム | |
CN114220417A (zh) | 一种意图识别方法、装置及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180518 |