CN111243627B

CN111243627B - 一种语音情感识别方法及装置

Info

Publication number: CN111243627B
Application number: CN202010031959.7A
Authority: CN
Inventors: 李兴隆
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-01-13
Filing date: 2020-01-13
Publication date: 2022-09-27
Anticipated expiration: 2040-01-13
Also published as: CN111243627A

Abstract

本发明公开了一种语音情感识别方法及装置，包括：获取当前语音信号；对当前语音信号进行预处理；将预处理之后的当前语音信号输入到计算机中进行第一降维；获取第一降维后的当前语音信号；基于第一降维后的当前语音信号获得当前语音信号对应的目标情感。通过将当前语音信号进行预处理和降维之后就可以获得其对应的目标情感，相比于现有技术需要提取目标特征然后根据目标特征匹配情感的方法来说，本发明无需提取目标特征来进行情感识别，进而避免了现有技术中由于部分语音中缺失目标特征或者提取的目标特征存在偏差而产生的无法自动识别情感和识别成功率低下等问题，大大的提高了用户的使用体验感。

Description

一种语音情感识别方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种语音情感识别方法及装置。

背景技术

语音情感识别作为人工智能、心理学、计算科学等多学科交叉的新兴领域，进入21世纪后，随着人工智能领域的快速发展，语音情感识别的需求越来越大，所以分析、研究语音中包含的情感特征，判断说话人喜怒哀乐的情绪有非常重要的影响。

现有的语音情感识别方法的主要流程为获取用户语音然后提取特征，根据特征去匹配语音所对应的情感，这种方法存在以下问题：1、由于需要提取特征所以当语音中没有目标特征时无法自动识别情感，2、提取的目标特征存在偏差会导致最后匹配的情感和实际的不相同使用户的体验感极差，降低了情感识别的准确率。

发明内容

针对上述所显示出来的问题，本方法基于利用用户的当前语音信号，对其进行预处理，将预处理之后的当前语音信号输入到计算机中获得当前语音信号对应的目标情感来实现情感的识别。

一种语音情感识别方法，包括以下步骤：

获取当前语音信号；

对所述当前语音信号进行预处理；

将预处理之后的所述当前语音信号输入到计算机中进行第一降维；

获取第一降维后的所述当前语音信号；

基于所述第一降维后的当前语音信号获得所述当前语音信号对应的目标情感。

优选的，在对所述当前语音信号进行预处理之前，所述方法还包括：

获取历史语音信号；

提取所述历史语音信号的第一LPC特征；

利用所述第一LPC特征训练神经网络；

保存训练好的神经网络。

优选的，所述对当前语音信号进行预处理，包括：

提取所述当前语音信号的第二LPC特征；

将所述第二LPC特征输入到所述训练后的神经网络中获取差值；

基于所述差值使用gammatone滤波器进行第一分解以得到第一频率响应；

将所述第一频率响应确定为第一信号；

计算所述第二LPC特征的第二频率响应作为第二信号；

将所述第一信号和所述第二信号确定为所述预处理之后的当前语音信号。

优选的，所述方法还包括：

将所述第一信号输入到所述计算机的第一储层中；

将所述第二信号输入到所述计算机的第二储层中；

通过所述计算机对所述第一信号和所述第二信号进行处理然后映射输出高维液态第一信号和高维液态第二信号。

优选的，所述将预处理之后的所述当前语音信号输入到计算机中进行第一降维，包括：

利用主成分分析技术对所述高维液态第一信号和所述高维液态第二信号进行第二分解；

输出第二分解后的第一信号和第二信号；

所述方法还包括：

利用线性判断分析技术对第二分解后的第一信号和第二信号进行第二降维；

输出第二降维之后的第一信号和第二信号；

所述基于所述第一降维后的当前语音信号获得所述当前语音信号对应的目标情感，包括：

将所述第二降维之后的第一信号和第二信号相结合形成第三信号；

将所述第三信号输入到预设情绪库中进行匹配以得到所述第三信号对应的目标情感；

输出所述目标情感。

一种语音情感识别装置，该装置包括：

第一获取模块，用于获取当前语音信号；

预处理模块，用于对所述当前语音信号进行预处理；

第一降维模块，用于将预处理之后的所述当前语音信号输入到计算机中进行第一降维；

第二获取模块，用于获取第一降维后的所述当前语音信号；

获得模块，用于基于所述第一降维后的当前语音信号获得所述当前语音信号对应的目标情感。

优选的，所述装置还包括：

第三获取模块，用于获取历史语音信号；

提取模块，用于提取所述历史语音信号的第一LPC特征；

训练模块，用于利用所述第一LPC特征训练神经网络；

保存模块，用于保存训练好的神经网络。

优选的，所述预处理模块，包括：

提取子模块，用于提取所述当前语音信号的第二LPC特征；

获取子模块，用于将所述第二LPC特征输入到所述训练后的神经网络中获取差值；

第一分解子模块，用于基于所述差值使用gammatone滤波器进行第一分解以得到第一频率响应；

第一确定子模块，用于将所述第一频率响应确定为第一信号；

计算子模块，用于计算所述第二LPC特征的第二频率响应作为第二信号；

第二确定子模块，用将所述第一信号和所述第二信号确定为所述预处理之后的当前语音信号。

优选的，所述装置还包括：

第一输入模块，用于将所述第一信号输入到所述计算机的第一储层中；

第二输入模块，用于将所述第二信号输入到所述计算机的第二储层中；

第一输出模块，用于通过所述计算机对所述第一信号和所述第二信号进行处理然后映射输出高维液态第一信号和高维液态第二信号。

优选的，所述第一降维模块，包括：

第二分解子模块，用于利用主成分分析技术对所述高维液态第一信号和所述高维液态第二信号进行第二分解；

第一输出子模块，输出第二分解后的第一信号和第二信号；

所述装置还包括：

第二降维模块，用于利用线性判断分析技术对第二分解后的第一信号和第二信号进行第二降维；

第二输出模块，输出第二降维之后的第一信号和第二信号；

所述获得模块，包括：

结合子模块，用于将所述第二降维之后的第一信号和第二信号相结合形成第三信号；

匹配子模块，用于将所述第三信号输入到预设情绪库中进行匹配以得到所述第三信号对应的目标情感；

第二输出子模块，用于输出所述目标情感。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制，在附图中：

图1为本发明所提供的一种语音情感识别方法的工作流程图；

图2为本发明所提供的一种语音情感识别方法的另一工作流程图；

图3为本发明所提供的一种语音情感识别方法的工作流程截图；

图4为本发明所提供的一种语音情感识别装置的结构图；

图5为本发明所提供的一种语音情感识别装置的另一结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

现有的语音情感识别方法的主要流程为获取用户语音然后提取特征，根据特征去匹配语音所对应的情感，这种方法存在以下问题：1、由于需要提取特征所以当语音中没有目标特征时无法自动识别情感，2、提取的目标特征存在偏差会导致最后匹配的情感和实际的不相同使用户的体验感极差，降低了情感识别的准确率。为了解决上述问题，本实施例公开了一种基于利用用户的当前语音信号，对其进行预处理，将预处理之后的当前语音信号输入到计算机中获得当前语音信号对应的目标情感来实现情感的识别的方法。

一种语音情感识别方法，如图1所示，包括以下步骤：

步骤S101、获取当前语音信号；

步骤S102、对当前语音信号进行预处理；

步骤S103、将预处理之后的当前语音信号输入到计算机中进行第一降维；

步骤S104、获取第一降维后的当前语音信号；

步骤S105、基于第一降维后的当前语音信号获得当前语音信号对应的目标情感。

上述技术方案的工作原理为：首先获取用户的当前语音信号，然后对其进行预处理，进而将预处理之后的当前语音信号输入到计算机中进行第一降维，然后根据第一降维之后的当前语音信号获取其对应的目标情感。

上述技术方案的有益效果为：通过将当前语音信号进行预处理和降维之后就可以获得其对应的目标情感，相比于现有技术需要提取目标特征然后根据目标特征匹配情感的方法来说，本发明无需提取目标特征来进行情感识别，进而避免了现有技术中由于部分语音中缺失目标特征或者提取的目标特征存在偏差而产生的无法自动识别情感和识别成功率低下等问题，大大的提高了用户的使用体验感。

在一个实施例中，如图2所示，在对当前语音信号进行预处理之前，上述方法还包括：

步骤S201、获取历史语音信号；

步骤S202、提取历史语音信号的第一LPC特征；

步骤S203、利用所述第一LPC特征训练神经网络；

步骤S204、保存训练好的神经网络；

在本实施例中，上述LPC特征为语音信号中的必要特征，而非现有技术中的目标特征，二者是不相同的。

上述技术方案的有益效果为：通过提取历史语音信号的第一LPC特征来训练神经网络使得神经网络越来越收敛形成一个良好的的样本，若当前语音信号中提取出了和历史语音信号的第一LPC特征相同的特征，则直接可以根据历史语音信号对应的情感来确定当前语音信号对应的情感，使得识别过程不再繁琐。

在一个实施例中，对当前语音信号进行预处理，包括：

提取当前语音信号的第二LPC特征；

将第二LPC特征输入到训练后的神经网络中获取差值；

基于差值使用gammatone滤波器进行第一分解以得到第一频率响应；

将第一频率响应确定为第一信号；

计算第二LPC特征的第二频率响应作为第二信号；

将第一信号和第二信号确定为预处理之后的当前语音信号。

上述技术方案的有益效果为：利用差值计算的第一频率响应来优化当前语音信号的频率响应，一定程度上提高了识别的准确度。

在一个实施例中，上述方法还包括：

将第一信号输入到计算机的第一储层中；

将第二信号输入到计算机的第二储层中；

通过计算机对第一信号和第二信号进行处理然后映射输出高维液态第一信号和高维液态第二信号；

在本实施例中，计算机的第一储层和第二储层模拟了人脑中的大脑皮层回路，使输出的高维液态第一信号和高维液态第二信号更偏向于是人类大脑处理语音信号的结果。上述高维液态第一信号和高维液态第二信号指的通过第一储层和第二储层中经过处理优化得到的更加容易识别的信号。

上述技术方案的有益效果为：高维液态第一信号和高维液态第二信号相比于第一信号和第二信号其信号识别度，使得识别的准确率会更高。

在一个实施例中，将预处理之后的当前语音信号输入到计算机中进行第一降维，包括：

利用主成分分析技术对高维液态第一信号和高维液态第二信号进行第二分解；

输出第二分解后的第一信号和第二信号；

上述方法还包括：

输出第二降维之后的第一信号和第二信号；

基于第一降维后的当前语音信号获得当前语音信号对应的目标情感，包括：

将第二降维之后的第一信号和第二信号相结合形成第三信号；

将第三信号输入到预设情绪库中进行匹配以得到第三信号对应的目标情感；

输出目标情感。

上述技术方案的有益效果为：通过对第一信号和第二信号进行两次降维来加快识别和计算速度，去除一些不必要的特征，进一步的提高了识别的准确率并且缩减了计算机的计算量，缩短了整个识别流程的时间，将第一信号和第二信号结合成第三信号以便于能从人脑的角度出发来处理语音信号，使得识别的结果更加准确。

在一个实时例中，如图3所示，包括：

第1步：将语音信号进行预处理，在预处理阶段将信号分成两个正交和互补分量，它们根据人耳蜗的特性进行变换和感知整形，根据下面等式计算预测残差，并使用gammatone滤波器组进行分解。这构成了第一个储层的输入。并行地，计算每个全极点LP滤波器的频率响应以揭示语音信号的共振峰结构。该频率响应也使用完全相同的ERB缩放来整形，并构成第二储层的输入；

PC分析算法：

预测语音样本，x(n):过去语音样本，e(n):残余样本；a_i系数：使用Levinson-Durbin算法获取；

第2步：接收第1步的语音信号，进入液态计算机(LSM)进行处理，液态计算机(LSM)是一种特殊类型的储层计算方法，LSM使用函数L^M将输入u(t)映射到“液态”x(t)，其中x(t)是输入u(t)和过去输入的任意非线性函数值。其次，无记忆函数f^M将x(t)映射到输出y(t)；

第3步：再对信号进行降维。降维过程中主成分分析(PCA)应用于来自每个储层的神经元的平均活动。与广泛使用的岭回归相比，PCA具有能够分别缩小两个储层的输出的优点。两个PCA的输出简单地组合在一起。对于最终识别，使用线性判别分析(LDA)。最后利用柏林情绪语音数据库进行语音信号的最终分类匹配。

上述技术方案的有益效果为：这种方法直接作用于语音信号，不需要特征提取，避免了特征提取过程中出现的问题。此外，LSM的神经元回路是仿照大脑皮层中回路设计的，可以很好的模拟人脑对信号的处理。LSM与传统神经网络相比学习能力和记忆性更强，从而可以更好的从人类角度进行情感识别，提高分类准确度。

本实施例还提供了一种语音情感识别装置，如图4所示，该装置包括：

第一获取模块401，用于获取当前语音信号；

预处理模块402，用于对当前语音信号进行预处理；

第一降维模块403，用于将预处理之后的当前语音信号输入到计算机中进行第一降维；

第二获取模块404，用于获取第一降维后的当前语音信号；

获得模块405，用于基于第一降维后的当前语音信号获得当前语音信号对应的目标情感。

在一个实施例中，如图5所示，上述装置还包括：

第三获取模块501，用于获取历史语音信号；

提取模块502，用于提取历史语音信号的第一LPC特征；

训练模块503，用于利用第一LPC特征训练神经网络；

保存模块504，用于保存训练好的神经网络。

在一个实施例中，预处理模块，包括：

提取子模块，用于提取当前语音信号的第二LPC特征；

获取子模块，用于将第二LPC特征输入到训练后的神经网络中获取差值；

第一分解子模块，用于基于差值使用gammatone滤波器进行第一分解以得到第一频率响应；

第一确定子模块，用于将第一频率响应确定为第一信号；

计算子模块，用于计算第二LPC特征的第二频率响应作为第二信号；

第二确定子模块，用将第一信号和第二信号确定为预处理之后的当前语音信号。

在一个实施例中，上述装置还包括：

第一输入模块，用于将第一信号输入到计算机的第一储层中；

第二输入模块，用于将第二信号输入到计算机的第二储层中；

第一输出模块，用于通过计算机对第一信号和第二信号进行处理然后映射输出高维液态第一信号和高维液态第二信号。

在一个实施例中，第一降维模块，包括：

第二分解子模块，用于利用主成分分析技术对高维液态第一信号和高维液态第二信号进行第二分解；

第一输出子模块，输出第二分解后的第一信号和第二信号；

上述装置还包括：

第二输出模块，输出第二降维之后的第一信号和第二信号；

获得模块，包括：

结合子模块，用于将第二降维之后的第一信号和第二信号相结合形成第三信号；

匹配子模块，用于将第三信号输入到预设情绪库中进行匹配以得到第三信号对应的目标情感；

第二输出子模块，用于输出目标情感。

本领域技术人员应当理解的是，本发明中的第一、第二指的是不同应用阶段而已。

本领域技术用户员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音情感识别方法，其特征在于，包括以下步骤：

获取当前语音信号；

对所述当前语音信号进行预处理；

获取第一降维后的所述当前语音信号；

基于所述第一降维后的当前语音信号获得所述当前语音信号对应的目标情感；

在对所述当前语音信号进行预处理之前，所述方法还包括：

获取历史语音信号；

提取所述历史语音信号的第一LPC特征；

利用所述第一LPC特征训练神经网络；

保存训练好的神经网络；

对所述当前语音信号进行预处理，包括：

提取所述当前语音信号的第二LPC特征；

将所述第一频率响应确定为第一信号；

计算所述第二LPC特征的第二频率响应作为第二信号；

将所述第一信号和所述第二信号确定为所述预处理之后的当前语音信号；

所述方法还包括：

将所述第一信号输入到所述计算机的第一储层中；

将所述第二信号输入到所述计算机的第二储层中；

通过所述计算机对所述第一信号和所述第二信号进行处理然后映射输出高维液态第一信号和高维液态第二信号；

所述将预处理之后的所述当前语音信号输入到计算机中进行第一降维，包括：

输出第二分解后的第一信号和第二信号；

所述方法还包括：

输出第二降维之后的第一信号和第二信号；

输出所述目标情感。

2.一种语音情感识别装置，其特征在于，该装置包括：

第一获取模块，用于获取当前语音信号；

预处理模块，用于对所述当前语音信号进行预处理；

第二获取模块，用于获取第一降维后的所述当前语音信号；

获得模块，用于基于所述第一降维后的当前语音信号获得所述当前语音信号对应的目标情感；

所述装置还包括：

第三获取模块，用于获取历史语音信号；

提取模块，用于提取所述历史语音信号的第一LPC特征；

训练模块，用于利用所述第一LPC特征训练神经网络；

保存模块，用于保存训练好的神经网络；

所述预处理模块，包括：

提取子模块，用于提取所述当前语音信号的第二LPC特征；

第二确定子模块，用将所述第一信号和所述第二信号确定为所述预处理之后的当前语音信号；

所述装置还包括：

第一输出模块，用于通过所述计算机对所述第一信号和所述第二信号进行处理然后映射输出高维液态第一信号和高维液态第二信号；

所述第一降维模块，包括：

第一输出子模块，输出第二分解后的第一信号和第二信号；

所述装置还包括：

第二输出模块，输出第二降维之后的第一信号和第二信号；

所述获得模块，包括：

第二输出子模块，用于输出所述目标情感。