CN111243627B - 一种语音情感识别方法及装置 - Google Patents
一种语音情感识别方法及装置 Download PDFInfo
- Publication number
- CN111243627B CN111243627B CN202010031959.7A CN202010031959A CN111243627B CN 111243627 B CN111243627 B CN 111243627B CN 202010031959 A CN202010031959 A CN 202010031959A CN 111243627 B CN111243627 B CN 111243627B
- Authority
- CN
- China
- Prior art keywords
- signal
- current voice
- voice signal
- module
- dimension reduction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 27
- 230000009467 reduction Effects 0.000 claims abstract description 58
- 230000008451 emotion Effects 0.000 claims abstract description 54
- 238000007781 pre-processing Methods 0.000 claims abstract description 28
- 239000007788 liquid Substances 0.000 claims description 31
- 238000000354 decomposition reaction Methods 0.000 claims description 24
- 230000004044 response Effects 0.000 claims description 22
- 238000013528 artificial neural network Methods 0.000 claims description 21
- 238000005516 engineering process Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 10
- 238000000513 principal component analysis Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000009286 beneficial effect Effects 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 4
- 210000004556 brain Anatomy 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 201000007902 Primary cutaneous amyloidosis Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 210000003710 cerebral cortex Anatomy 0.000 description 1
- 210000003477 cochlea Anatomy 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000001054 cortical effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 208000014670 posterior cortical atrophy Diseases 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Hospice & Palliative Care (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Child & Adolescent Psychology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种语音情感识别方法及装置,包括:获取当前语音信号;对当前语音信号进行预处理;将预处理之后的当前语音信号输入到计算机中进行第一降维;获取第一降维后的当前语音信号;基于第一降维后的当前语音信号获得当前语音信号对应的目标情感。通过将当前语音信号进行预处理和降维之后就可以获得其对应的目标情感,相比于现有技术需要提取目标特征然后根据目标特征匹配情感的方法来说,本发明无需提取目标特征来进行情感识别,进而避免了现有技术中由于部分语音中缺失目标特征或者提取的目标特征存在偏差而产生的无法自动识别情感和识别成功率低下等问题,大大的提高了用户的使用体验感。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种语音情感识别方法及装置。
背景技术
语音情感识别作为人工智能、心理学、计算科学等多学科交叉的新兴领域,进入21世纪后,随着人工智能领域的快速发展,语音情感识别的需求越来越大,所以分析、研究语音中包含的情感特征,判断说话人喜怒哀乐的情绪有非常重要的影响。
现有的语音情感识别方法的主要流程为获取用户语音然后提取特征,根据特征去匹配语音所对应的情感,这种方法存在以下问题:1、由于需要提取特征所以当语音中没有目标特征时无法自动识别情感,2、提取的目标特征存在偏差会导致最后匹配的情感和实际的不相同使用户的体验感极差,降低了情感识别的准确率。
发明内容
针对上述所显示出来的问题,本方法基于利用用户的当前语音信号,对其进行预处理,将预处理之后的当前语音信号输入到计算机中获得当前语音信号对应的目标情感来实现情感的识别。
一种语音情感识别方法,包括以下步骤:
获取当前语音信号;
对所述当前语音信号进行预处理;
将预处理之后的所述当前语音信号输入到计算机中进行第一降维;
获取第一降维后的所述当前语音信号;
基于所述第一降维后的当前语音信号获得所述当前语音信号对应的目标情感。
优选的,在对所述当前语音信号进行预处理之前,所述方法还包括:
获取历史语音信号;
提取所述历史语音信号的第一LPC特征;
利用所述第一LPC特征训练神经网络;
保存训练好的神经网络。
优选的,所述对当前语音信号进行预处理,包括:
提取所述当前语音信号的第二LPC特征;
将所述第二LPC特征输入到所述训练后的神经网络中获取差值;
基于所述差值使用gammatone滤波器进行第一分解以得到第一频率响应;
将所述第一频率响应确定为第一信号;
计算所述第二LPC特征的第二频率响应作为第二信号;
将所述第一信号和所述第二信号确定为所述预处理之后的当前语音信号。
优选的,所述方法还包括:
将所述第一信号输入到所述计算机的第一储层中;
将所述第二信号输入到所述计算机的第二储层中;
通过所述计算机对所述第一信号和所述第二信号进行处理然后映射输出高维液态第一信号和高维液态第二信号。
优选的,所述将预处理之后的所述当前语音信号输入到计算机中进行第一降维,包括:
利用主成分分析技术对所述高维液态第一信号和所述高维液态第二信号进行第二分解;
输出第二分解后的第一信号和第二信号;
所述方法还包括:
利用线性判断分析技术对第二分解后的第一信号和第二信号进行第二降维;
输出第二降维之后的第一信号和第二信号;
所述基于所述第一降维后的当前语音信号获得所述当前语音信号对应的目标情感,包括:
将所述第二降维之后的第一信号和第二信号相结合形成第三信号;
将所述第三信号输入到预设情绪库中进行匹配以得到所述第三信号对应的目标情感;
输出所述目标情感。
一种语音情感识别装置,该装置包括:
第一获取模块,用于获取当前语音信号;
预处理模块,用于对所述当前语音信号进行预处理;
第一降维模块,用于将预处理之后的所述当前语音信号输入到计算机中进行第一降维;
第二获取模块,用于获取第一降维后的所述当前语音信号;
获得模块,用于基于所述第一降维后的当前语音信号获得所述当前语音信号对应的目标情感。
优选的,所述装置还包括:
第三获取模块,用于获取历史语音信号;
提取模块,用于提取所述历史语音信号的第一LPC特征;
训练模块,用于利用所述第一LPC特征训练神经网络;
保存模块,用于保存训练好的神经网络。
优选的,所述预处理模块,包括:
提取子模块,用于提取所述当前语音信号的第二LPC特征;
获取子模块,用于将所述第二LPC特征输入到所述训练后的神经网络中获取差值;
第一分解子模块,用于基于所述差值使用gammatone滤波器进行第一分解以得到第一频率响应;
第一确定子模块,用于将所述第一频率响应确定为第一信号;
计算子模块,用于计算所述第二LPC特征的第二频率响应作为第二信号;
第二确定子模块,用将所述第一信号和所述第二信号确定为所述预处理之后的当前语音信号。
优选的,所述装置还包括:
第一输入模块,用于将所述第一信号输入到所述计算机的第一储层中;
第二输入模块,用于将所述第二信号输入到所述计算机的第二储层中;
第一输出模块,用于通过所述计算机对所述第一信号和所述第二信号进行处理然后映射输出高维液态第一信号和高维液态第二信号。
优选的,所述第一降维模块,包括:
第二分解子模块,用于利用主成分分析技术对所述高维液态第一信号和所述高维液态第二信号进行第二分解;
第一输出子模块,输出第二分解后的第一信号和第二信号;
所述装置还包括:
第二降维模块,用于利用线性判断分析技术对第二分解后的第一信号和第二信号进行第二降维;
第二输出模块,输出第二降维之后的第一信号和第二信号;
所述获得模块,包括:
结合子模块,用于将所述第二降维之后的第一信号和第二信号相结合形成第三信号;
匹配子模块,用于将所述第三信号输入到预设情绪库中进行匹配以得到所述第三信号对应的目标情感;
第二输出子模块,用于输出所述目标情感。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制,在附图中:
图1为本发明所提供的一种语音情感识别方法的工作流程图;
图2为本发明所提供的一种语音情感识别方法的另一工作流程图;
图3为本发明所提供的一种语音情感识别方法的工作流程截图;
图4为本发明所提供的一种语音情感识别装置的结构图;
图5为本发明所提供的一种语音情感识别装置的另一结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
语音情感识别作为人工智能、心理学、计算科学等多学科交叉的新兴领域,进入21世纪后,随着人工智能领域的快速发展,语音情感识别的需求越来越大,所以分析、研究语音中包含的情感特征,判断说话人喜怒哀乐的情绪有非常重要的影响。
现有的语音情感识别方法的主要流程为获取用户语音然后提取特征,根据特征去匹配语音所对应的情感,这种方法存在以下问题:1、由于需要提取特征所以当语音中没有目标特征时无法自动识别情感,2、提取的目标特征存在偏差会导致最后匹配的情感和实际的不相同使用户的体验感极差,降低了情感识别的准确率。为了解决上述问题,本实施例公开了一种基于利用用户的当前语音信号,对其进行预处理,将预处理之后的当前语音信号输入到计算机中获得当前语音信号对应的目标情感来实现情感的识别的方法。
一种语音情感识别方法,如图1所示,包括以下步骤:
步骤S101、获取当前语音信号;
步骤S102、对当前语音信号进行预处理;
步骤S103、将预处理之后的当前语音信号输入到计算机中进行第一降维;
步骤S104、获取第一降维后的当前语音信号;
步骤S105、基于第一降维后的当前语音信号获得当前语音信号对应的目标情感。
上述技术方案的工作原理为:首先获取用户的当前语音信号,然后对其进行预处理,进而将预处理之后的当前语音信号输入到计算机中进行第一降维,然后根据第一降维之后的当前语音信号获取其对应的目标情感。
上述技术方案的有益效果为:通过将当前语音信号进行预处理和降维之后就可以获得其对应的目标情感,相比于现有技术需要提取目标特征然后根据目标特征匹配情感的方法来说,本发明无需提取目标特征来进行情感识别,进而避免了现有技术中由于部分语音中缺失目标特征或者提取的目标特征存在偏差而产生的无法自动识别情感和识别成功率低下等问题,大大的提高了用户的使用体验感。
在一个实施例中,如图2所示,在对当前语音信号进行预处理之前,上述方法还包括:
步骤S201、获取历史语音信号;
步骤S202、提取历史语音信号的第一LPC特征;
步骤S203、利用所述第一LPC特征训练神经网络;
步骤S204、保存训练好的神经网络;
在本实施例中,上述LPC特征为语音信号中的必要特征,而非现有技术中的目标特征,二者是不相同的。
上述技术方案的有益效果为:通过提取历史语音信号的第一LPC特征来训练神经网络使得神经网络越来越收敛形成一个良好的的样本,若当前语音信号中提取出了和历史语音信号的第一LPC特征相同的特征,则直接可以根据历史语音信号对应的情感来确定当前语音信号对应的情感,使得识别过程不再繁琐。
在一个实施例中,对当前语音信号进行预处理,包括:
提取当前语音信号的第二LPC特征;
将第二LPC特征输入到训练后的神经网络中获取差值;
基于差值使用gammatone滤波器进行第一分解以得到第一频率响应;
将第一频率响应确定为第一信号;
计算第二LPC特征的第二频率响应作为第二信号;
将第一信号和第二信号确定为预处理之后的当前语音信号。
上述技术方案的有益效果为:利用差值计算的第一频率响应来优化当前语音信号的频率响应,一定程度上提高了识别的准确度。
在一个实施例中,上述方法还包括:
将第一信号输入到计算机的第一储层中;
将第二信号输入到计算机的第二储层中;
通过计算机对第一信号和第二信号进行处理然后映射输出高维液态第一信号和高维液态第二信号;
在本实施例中,计算机的第一储层和第二储层模拟了人脑中的大脑皮层回路,使输出的高维液态第一信号和高维液态第二信号更偏向于是人类大脑处理语音信号的结果。上述高维液态第一信号和高维液态第二信号指的通过第一储层和第二储层中经过处理优化得到的更加容易识别的信号。
上述技术方案的有益效果为:高维液态第一信号和高维液态第二信号相比于第一信号和第二信号其信号识别度,使得识别的准确率会更高。
在一个实施例中,将预处理之后的当前语音信号输入到计算机中进行第一降维,包括:
利用主成分分析技术对高维液态第一信号和高维液态第二信号进行第二分解;
输出第二分解后的第一信号和第二信号;
上述方法还包括:
利用线性判断分析技术对第二分解后的第一信号和第二信号进行第二降维;
输出第二降维之后的第一信号和第二信号;
基于第一降维后的当前语音信号获得当前语音信号对应的目标情感,包括:
将第二降维之后的第一信号和第二信号相结合形成第三信号;
将第三信号输入到预设情绪库中进行匹配以得到第三信号对应的目标情感;
输出目标情感。
上述技术方案的有益效果为:通过对第一信号和第二信号进行两次降维来加快识别和计算速度,去除一些不必要的特征,进一步的提高了识别的准确率并且缩减了计算机的计算量,缩短了整个识别流程的时间,将第一信号和第二信号结合成第三信号以便于能从人脑的角度出发来处理语音信号,使得识别的结果更加准确。
在一个实时例中,如图3所示,包括:
第1步:将语音信号进行预处理,在预处理阶段将信号分成两个正交和互补分量,它们根据人耳蜗的特性进行变换和感知整形,根据下面等式计算预测残差,并使用gammatone滤波器组进行分解。这构成了第一个储层的输入。并行地,计算每个全极点LP滤波器的频率响应以揭示语音信号的共振峰结构。该频率响应也使用完全相同的ERB缩放来整形,并构成第二储层的输入;
PC分析算法:
第2步:接收第1步的语音信号,进入液态计算机(LSM)进行处理,液态计算机(LSM)是一种特殊类型的储层计算方法,LSM使用函数LM将输入u(t)映射到“液态”x(t),其中x(t)是输入u(t)和过去输入的任意非线性函数值。其次,无记忆函数fM将x(t)映射到输出y(t);
第3步:再对信号进行降维。降维过程中主成分分析(PCA)应用于来自每个储层的神经元的平均活动。与广泛使用的岭回归相比,PCA具有能够分别缩小两个储层的输出的优点。两个PCA的输出简单地组合在一起。对于最终识别,使用线性判别分析(LDA)。最后利用柏林情绪语音数据库进行语音信号的最终分类匹配。
上述技术方案的有益效果为:这种方法直接作用于语音信号,不需要特征提取,避免了特征提取过程中出现的问题。此外,LSM的神经元回路是仿照大脑皮层中回路设计的,可以很好的模拟人脑对信号的处理。LSM与传统神经网络相比学习能力和记忆性更强,从而可以更好的从人类角度进行情感识别,提高分类准确度。
本实施例还提供了一种语音情感识别装置,如图4所示,该装置包括:
第一获取模块401,用于获取当前语音信号;
预处理模块402,用于对当前语音信号进行预处理;
第一降维模块403,用于将预处理之后的当前语音信号输入到计算机中进行第一降维;
第二获取模块404,用于获取第一降维后的当前语音信号;
获得模块405,用于基于第一降维后的当前语音信号获得当前语音信号对应的目标情感。
在一个实施例中,如图5所示,上述装置还包括:
第三获取模块501,用于获取历史语音信号;
提取模块502,用于提取历史语音信号的第一LPC特征;
训练模块503,用于利用第一LPC特征训练神经网络;
保存模块504,用于保存训练好的神经网络。
在一个实施例中,预处理模块,包括:
提取子模块,用于提取当前语音信号的第二LPC特征;
获取子模块,用于将第二LPC特征输入到训练后的神经网络中获取差值;
第一分解子模块,用于基于差值使用gammatone滤波器进行第一分解以得到第一频率响应;
第一确定子模块,用于将第一频率响应确定为第一信号;
计算子模块,用于计算第二LPC特征的第二频率响应作为第二信号;
第二确定子模块,用将第一信号和第二信号确定为预处理之后的当前语音信号。
在一个实施例中,上述装置还包括:
第一输入模块,用于将第一信号输入到计算机的第一储层中;
第二输入模块,用于将第二信号输入到计算机的第二储层中;
第一输出模块,用于通过计算机对第一信号和第二信号进行处理然后映射输出高维液态第一信号和高维液态第二信号。
在一个实施例中,第一降维模块,包括:
第二分解子模块,用于利用主成分分析技术对高维液态第一信号和高维液态第二信号进行第二分解;
第一输出子模块,输出第二分解后的第一信号和第二信号;
上述装置还包括:
第二降维模块,用于利用线性判断分析技术对第二分解后的第一信号和第二信号进行第二降维;
第二输出模块,输出第二降维之后的第一信号和第二信号;
获得模块,包括:
结合子模块,用于将第二降维之后的第一信号和第二信号相结合形成第三信号;
匹配子模块,用于将第三信号输入到预设情绪库中进行匹配以得到第三信号对应的目标情感;
第二输出子模块,用于输出目标情感。
本领域技术人员应当理解的是,本发明中的第一、第二指的是不同应用阶段而已。
本领域技术用户员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (2)
1.一种语音情感识别方法,其特征在于,包括以下步骤:
获取当前语音信号;
对所述当前语音信号进行预处理;
将预处理之后的所述当前语音信号输入到计算机中进行第一降维;
获取第一降维后的所述当前语音信号;
基于所述第一降维后的当前语音信号获得所述当前语音信号对应的目标情感;
在对所述当前语音信号进行预处理之前,所述方法还包括:
获取历史语音信号;
提取所述历史语音信号的第一LPC特征;
利用所述第一LPC特征训练神经网络;
保存训练好的神经网络;
对所述当前语音信号进行预处理,包括:
提取所述当前语音信号的第二LPC特征;
将所述第二LPC特征输入到所述训练后的神经网络中获取差值;
基于所述差值使用gammatone滤波器进行第一分解以得到第一频率响应;
将所述第一频率响应确定为第一信号;
计算所述第二LPC特征的第二频率响应作为第二信号;
将所述第一信号和所述第二信号确定为所述预处理之后的当前语音信号;
所述方法还包括:
将所述第一信号输入到所述计算机的第一储层中;
将所述第二信号输入到所述计算机的第二储层中;
通过所述计算机对所述第一信号和所述第二信号进行处理然后映射输出高维液态第一信号和高维液态第二信号;
所述将预处理之后的所述当前语音信号输入到计算机中进行第一降维,包括:
利用主成分分析技术对所述高维液态第一信号和所述高维液态第二信号进行第二分解;
输出第二分解后的第一信号和第二信号;
所述方法还包括:
利用线性判断分析技术对第二分解后的第一信号和第二信号进行第二降维;
输出第二降维之后的第一信号和第二信号;
所述基于所述第一降维后的当前语音信号获得所述当前语音信号对应的目标情感,包括:
将所述第二降维之后的第一信号和第二信号相结合形成第三信号;
将所述第三信号输入到预设情绪库中进行匹配以得到所述第三信号对应的目标情感;
输出所述目标情感。
2.一种语音情感识别装置,其特征在于,该装置包括:
第一获取模块,用于获取当前语音信号;
预处理模块,用于对所述当前语音信号进行预处理;
第一降维模块,用于将预处理之后的所述当前语音信号输入到计算机中进行第一降维;
第二获取模块,用于获取第一降维后的所述当前语音信号;
获得模块,用于基于所述第一降维后的当前语音信号获得所述当前语音信号对应的目标情感;
所述装置还包括:
第三获取模块,用于获取历史语音信号;
提取模块,用于提取所述历史语音信号的第一LPC特征;
训练模块,用于利用所述第一LPC特征训练神经网络;
保存模块,用于保存训练好的神经网络;
所述预处理模块,包括:
提取子模块,用于提取所述当前语音信号的第二LPC特征;
获取子模块,用于将所述第二LPC特征输入到所述训练后的神经网络中获取差值;
第一分解子模块,用于基于所述差值使用gammatone滤波器进行第一分解以得到第一频率响应;
第一确定子模块,用于将所述第一频率响应确定为第一信号;
计算子模块,用于计算所述第二LPC特征的第二频率响应作为第二信号;
第二确定子模块,用将所述第一信号和所述第二信号确定为所述预处理之后的当前语音信号;
所述装置还包括:
第一输入模块,用于将所述第一信号输入到所述计算机的第一储层中;
第二输入模块,用于将所述第二信号输入到所述计算机的第二储层中;
第一输出模块,用于通过所述计算机对所述第一信号和所述第二信号进行处理然后映射输出高维液态第一信号和高维液态第二信号;
所述第一降维模块,包括:
第二分解子模块,用于利用主成分分析技术对所述高维液态第一信号和所述高维液态第二信号进行第二分解;
第一输出子模块,输出第二分解后的第一信号和第二信号;
所述装置还包括:
第二降维模块,用于利用线性判断分析技术对第二分解后的第一信号和第二信号进行第二降维;
第二输出模块,输出第二降维之后的第一信号和第二信号;
所述获得模块,包括:
结合子模块,用于将所述第二降维之后的第一信号和第二信号相结合形成第三信号;
匹配子模块,用于将所述第三信号输入到预设情绪库中进行匹配以得到所述第三信号对应的目标情感;
第二输出子模块,用于输出所述目标情感。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010031959.7A CN111243627B (zh) | 2020-01-13 | 2020-01-13 | 一种语音情感识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010031959.7A CN111243627B (zh) | 2020-01-13 | 2020-01-13 | 一种语音情感识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111243627A CN111243627A (zh) | 2020-06-05 |
CN111243627B true CN111243627B (zh) | 2022-09-27 |
Family
ID=70874434
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010031959.7A Active CN111243627B (zh) | 2020-01-13 | 2020-01-13 | 一种语音情感识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111243627B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104091602A (zh) * | 2014-07-11 | 2014-10-08 | 电子科技大学 | 一种基于模糊支持向量机的语音情感识别方法 |
CN108053840A (zh) * | 2017-12-29 | 2018-05-18 | 广州势必可赢网络科技有限公司 | 一种基于pca-bp的情绪识别方法及系统 |
CN108305639A (zh) * | 2018-05-11 | 2018-07-20 | 南京邮电大学 | 语音情感识别方法、计算机可读存储介质、终端 |
CN108550375A (zh) * | 2018-03-14 | 2018-09-18 | 鲁东大学 | 一种基于语音信号的情感识别方法、装置和计算机设备 |
CN109243490A (zh) * | 2018-10-11 | 2019-01-18 | 平安科技(深圳)有限公司 | 司机情绪识别方法及终端设备 |
CN110111769A (zh) * | 2019-04-28 | 2019-08-09 | 深圳信息职业技术学院 | 一种电子耳蜗控制方法、装置、可读存储介质及电子耳蜗 |
CN110473547A (zh) * | 2019-07-12 | 2019-11-19 | 云知声智能科技股份有限公司 | 一种语音识别方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7222075B2 (en) * | 1999-08-31 | 2007-05-22 | Accenture Llp | Detecting emotions using voice signal analysis |
US6687668B2 (en) * | 1999-12-31 | 2004-02-03 | C & S Technology Co., Ltd. | Method for improvement of G.723.1 processing time and speech quality and for reduction of bit rate in CELP vocoder and CELP vococer using the same |
US10741192B2 (en) * | 2018-05-07 | 2020-08-11 | Qualcomm Incorporated | Split-domain speech signal enhancement |
-
2020
- 2020-01-13 CN CN202010031959.7A patent/CN111243627B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104091602A (zh) * | 2014-07-11 | 2014-10-08 | 电子科技大学 | 一种基于模糊支持向量机的语音情感识别方法 |
CN108053840A (zh) * | 2017-12-29 | 2018-05-18 | 广州势必可赢网络科技有限公司 | 一种基于pca-bp的情绪识别方法及系统 |
CN108550375A (zh) * | 2018-03-14 | 2018-09-18 | 鲁东大学 | 一种基于语音信号的情感识别方法、装置和计算机设备 |
CN108305639A (zh) * | 2018-05-11 | 2018-07-20 | 南京邮电大学 | 语音情感识别方法、计算机可读存储介质、终端 |
CN109243490A (zh) * | 2018-10-11 | 2019-01-18 | 平安科技(深圳)有限公司 | 司机情绪识别方法及终端设备 |
CN110111769A (zh) * | 2019-04-28 | 2019-08-09 | 深圳信息职业技术学院 | 一种电子耳蜗控制方法、装置、可读存储介质及电子耳蜗 |
CN110473547A (zh) * | 2019-07-12 | 2019-11-19 | 云知声智能科技股份有限公司 | 一种语音识别方法 |
Non-Patent Citations (6)
Title |
---|
《基于脑电的情感识别》;聂聃;《中国优秀博硕士学位论文全文数据库(硕士)》;20120715;全文 * |
Detection of emotion in analysis of speech using linear predictive coding techniques (L.P.C);A. Chamoli et,al.;《2017 International Conference on Inventive Systems and Control》;20171016;全文 * |
Emotion Recognition of Stressed Speech using Teager Energy and Linear Prediction Features;Reddy, Surekha B et,al.;《2018 IEEE 18TH INTERNATIONAL CONFERENCE ON ADVANCED LEARNING TECHNOLOGIES (ICALT 2018)》;20180713;全文 * |
一种基于小波包主成分分析的语音情感识别方法;朱宗宝等;《安徽建筑大学学报》;20171015(第05期);全文 * |
基于遗传优化的多级SVM语音情感识别;谈利芳 等;《电子测量技术》;20171231;第40卷(第10期);全文 * |
基于高斯混合模型的情感LPC系数的研究;陈明义等;《中南大学学报(自然科学版)》;20130926(第09期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111243627A (zh) | 2020-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE112017003563B4 (de) | Verfahren und system einer automatischen spracherkennung unter verwendung von a-posteriori-vertrauenspunktzahlen | |
CN110457432B (zh) | 面试评分方法、装置、设备及存储介质 | |
US8676574B2 (en) | Method for tone/intonation recognition using auditory attention cues | |
CN107972028B (zh) | 人机交互方法、装置及电子设备 | |
CN108899049A (zh) | 一种基于卷积神经网络的语音情感识别方法及系统 | |
Kadiri et al. | Excitation features of speech for speaker-specific emotion detection | |
CN110738998A (zh) | 基于语音的个人信用评估方法、装置、终端及存储介质 | |
CN113243918B (zh) | 基于多模态隐匿信息测试的风险检测方法及装置 | |
US10283142B1 (en) | Processor-implemented systems and methods for determining sound quality | |
CN112885336A (zh) | 语音识别系统的训练、识别方法、装置、电子设备 | |
CN104347071B (zh) | 生成口语考试参考答案的方法及系统 | |
KR20210071713A (ko) | 스피치 스킬 피드백 시스템 | |
CN112052686B (zh) | 一种用户交互式教育的语音学习资源推送方法 | |
CN111243627B (zh) | 一种语音情感识别方法及装置 | |
CN111462762A (zh) | 一种说话人向量正则化方法、装置、电子设备和存储介质 | |
Tiwari et al. | A novel S-LDA features for automatic emotion recognition from speech using 1-D CNN | |
Yousfi et al. | Holy Qur'an Speech Recognition System Distinguishing The Type of prolongation | |
Malla et al. | A DFC taxonomy of Speech emotion recognition based on convolutional neural network from speech signal | |
CN114203160A (zh) | 应样本数据集生成方法、装置及设备 | |
CN114418320A (zh) | 客服服务质量评估方法、装置、设备、介质和程序产品 | |
CN114360537A (zh) | 口语问答的评分方法、训练方法、计算机设备及存储介质 | |
Chaudhari et al. | Selection of features for emotion recognition from speech | |
Vlasenko et al. | Tendencies regarding the effect of emotional intensity in inter corpus phoneme-level speech emotion modelling | |
Vlasenko et al. | Annotators' agreement and spontaneous emotion classification performance | |
Zhang et al. | Emotional speech synthesis based on DNN and PAD emotional state model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |