CN110570844B

CN110570844B - 语音情绪识别方法、装置及计算机可读存储介质

Info

Publication number: CN110570844B
Application number: CN201910768144.4A
Authority: CN
Inventors: 方豪; 陆科名; 占小杰; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2023-05-05
Anticipated expiration: 2039-08-15
Also published as: WO2021027117A1; CN110570844A

Abstract

本发明涉及一种人工智能技术，揭露了一种语音情绪识别方法，包括：接收原始语音数据集及标签集，基于预先构建的滤波器对所述原始语音数据集进行降噪处理得到初级语音数据集，将所述初级语音数据集及所述标签集输入至语音性格分类器得到性格分值集，将所述初级语音数据集中各语音的幅度频率与所述性格分值集进行强化计算得到幅度频率集，将所述幅度频率集及标签集输入预先构建的神经网络中，对所述神经网络进行训练，接收用户的语音，将所述用户的语音输入至所述神经网络中得到情绪识别结果并输出。本发明还提出一种语音情绪识别装置以及一种计算机可读存储介质。本发明可以实现高效的模板表格的导入功能。

Description

语音情绪识别方法、装置及计算机可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种接收用户输入语音信息，对所述语音信息进行智能情绪识别的方法、装置及计算机可读存储介质。

背景技术

由于每个人性格、说话风格、控制情绪表达的能力等不同，情绪变化在语言上的表现程度也就不同，而目前的语音情绪识别模型都是通用模型，无法根据不同人的不同说话特点进行个性化地判别，导致出现很多的错判漏判。再者，通用模型的分类精度有限，导致很多差异不大的情绪也无法区分。

发明内容

本发明提供一种语音情绪识别方法、装置及计算机可读存储介质，其主要目的在于接收用户输入的语音信息，对所述语音信息进行智能情绪识别。

为实现上述目的，本发明提供的一种语音情绪识别方法，包括：

接收原始语音数据集及标签集，基于预先构建的滤波器对所述原始语音数据集进行降噪处理得到初级语音数据集；

将所述初级语音数据集及所述标签集输入至语音性格分类器得到性格分值集；

将所述初级语音数据集中各语音的幅度频率与所述性格分值集进行强化计算得到幅度频率集；

将所述幅度频率集及标签集输入预先构建的神经网络中，对所述神经网络进行训练；

接收用户的语音，将所述用户的语音输入至所述神经网络中得到情绪识别结果并输出。

可选地，所述降噪处理，包括：

将所述原始语音数据集输入至预先构建的滤波器；

利用所述滤波器对所述原始语音数据集进行滤波操作得到语音数据输出集；

计算所述语音数据输出集与所述原始语音数据集的误差；

在所述误差大于预设阈值A时更新所述滤波器的内部权重，并返回执行利用所述滤波器对所述原始语音数据集进行滤波操作得到语音数据输出集及计算所述语音数据输出集与所述原始语音数据集的误差，直至所述误差小于所述所述预设阈值A时完成所述降噪处理。

可选地，所述误差通过下述方法计算：

其中，e₁为所述误差，M为所述原始语音数据集的语音信号序列，d为所述语音数据输出集，x为所述原始语音数据集，w_i为所述各个语音信号序列的内部权重，所述w_i通过下述方法计算：

其中，u收敛因子，数值范围在

λ_max表示所述原始语音数据集中波长的最大值，

表示前一语音信号序列的梯度因子。

可选地，所述语音性格分类器为：

其中h_θ(xⁱ)为所述语音性格分类器，xⁱ为所述初级语音数据集各个语音片段，θ为所述语音性格分类器的调节参数，P(yⁱ＝[0，1]|xⁱ，θ)表示语音片段xⁱ在θ为调节参数的前提下，最后的响度范围在[0，1]的概率值，而h_θ(xⁱ)是统计出所有响度的概率值，e为误差，

表示各个响度下所述调节参数的转置矩阵。

可选地，所述强化计算分为幅度强化计算和频率强化计算；

其中，所述幅度强化计算为：

其中，C为所述初级语音数据集的幅度，即原幅度，C′为所述幅度强化计算的幅度，Cmin所述初级语音数据集的最低幅度，Cmax为所述初级语音数据集的最高幅度，r为所述性格分值集；

所述频率强化计算为：

其中，f为所述初级语音数据集的频率，即原频率，f′为所述频率强化计算的频率，fmin所述初级语音数据集的最低频率，fmax为所述初级语音数据集的最高频率，r为所述性格分值集。

此外，为实现上述目的，本发明还提供一种语音情绪识别装置，该装置包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的语音情绪识别程序，所述语音情绪识别程序被所述处理器执行时实现如下步骤：

可选地，所述降噪处理，包括：

将所述原始语音数据集输入至预先构建的滤波器；

计算所述语音数据输出集与所述原始语音数据集的误差；

可选地，所述误差通过下述方法计算：

其中，u收敛因子，数值范围在

λ_max表示所述原始语音数据集中波长的最大值，

表示前一语音信号序列的梯度因子。

可选地，所述语音性格分类器为：

表示各个响度下所述调节参数的转置矩阵。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有语音情绪识别程序，所述语音情绪识别程序可被一个或者多个处理器执行，以实现如上所述的语音情绪识别方法的步骤。

本发明由于通过预先构建的滤波器对原始语音数据集进行降噪处理，故提高了语音数据集的纯洁度，另外利用语音性格分类器对语音数据集进行性格分类，通过各个性格下声音响度计算幅度和频率，由于增加了性格对幅度和频率的影响，所以进一步提高了语音情绪识别的准确性。因此本发明提出的语音情绪识别方法、装置及计算机可读存储介质可以实现精准高效的语音情绪识别功能。

附图说明

图1为本发明一实施例提供的语音情绪识别方法的流程示意图；

图2为本发明一实施例提供的语音情绪识别装置的内部结构示意图；

图3为本发明一实施例提供的语音情绪识别装置中语音情绪识别程序的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种语音情绪识别方法。参照图1所示，为本发明一实施例提供的语音情绪识别方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，语音情绪识别方法包括：

S1、接收原始语音数据集及标签集，基于预先构建的滤波器对所述原始语音数据集进行降噪处理得到初级语音数据集。

较佳地，所述原始语音数据集是不同人在不同场景下的录音片段，如高考动员大会上，老师慷慨激昂的演讲片段等。

所述标签集分为两个部分，分别为响度标签集和情绪标签集。所述响度标签集是对所述原始语音数据集中各个录音片段声音响度的备注，如所述老师慷慨激昂的演讲片段，在所述响度标签集的备注为9.8，其中数字越大代表响度越高，所述响度标签集的数字范围在[0,10]之间；所述情绪标签集是对所述原始语音数据集中各个录音片段情绪的备注，分为[生气、害怕、高兴、伤心、平静]五个标签，如上述老师慷慨激昂的演讲片段在所述情绪标签集备注为高兴。

较佳地，由于现实生活中语音信号一般都带有噪声，在进行情绪识别前需要对语音信号进行降噪处理。本发明较佳实施例中，所述降噪处理包括将所述原始语音数据集输入至预先构建的滤波器，所述滤波器对所述原始语音数据集进行滤波操作得到语音数据输出集，计算所述语音数据输出集与所述原始语音数据集的误差，若所述误差小于预设阈值A时退出所述降噪处理，若所述误差大于所述预设阈值时，更新所述滤波器的内部权重，并返回执行所述滤波器对所述原始语音数据集进行滤波操作得到语音数据输出集，计算所述语音数据输出集与所述原始语音数据集的误差的步骤，直至所述误差小于预设阈值A。

进一步地，所述误差e₁通过下述方法结算：

其中，M为所述原始语音数据集的语音信号序列，d为所述语音数据输出集，x为所述原始语音数据集，w_i为所述各个语音信号序列的内部权重。

进一步地，所述w_i为：

其中，u收敛因子，数值范围在

λ_max表示所述原始语音数据集中波长的最大值，

表示前一语音信号序列的梯度因子。

S2、将所述初级语音数据集及所述标签集输入至语音性格分类器得到性格分值集。

所述语音性格分类器h_θ(xⁱ)为：

其中，xⁱ为所述初级语音数据集各个语音片段，θ为所述语音性格分类器的调节参数，P(yⁱ＝[0，1]|xⁱ，θ)表示语音片段xⁱ在θ为调节参数的前提下，最后的响度范围在[0，1]的概率值，而h_θ(xⁱ)是统计出所有响度的概率值(即[0，1]，[1，2]，...，[9，10])，e为误差，

表示各个响度下所述调节参数的转置矩阵。

较佳地，将所述初级语音数据集及所述响度标签集输入至所述语音性格分类器中，所述语音性格分类器不断更新所述调节参数，并判断误差e是否在预设阈值B范围内，直至满足所述误差e在所述预设阈值B范围内，所述语音性格分类器更新所述调节参数完成，得到所述性格分值集。如所述语音性格分类器计算所述老师慷慨激昂的演讲片段x¹的概率值

因此可看出响度为[9，10]的概率为0.98，在所有10个区间中最大，因此所述老师慷慨激昂的演讲片段最终的响度为[9，10]。

S3、将所述初级语音数据集中各语音的幅度频率与所述性格分值集进行强化计算得到幅度频率集。

较佳地，所述强化计算分为幅度强化计算和频率强化计算。所述幅度强化计算为：

其中，C为所述初级语音数据集的幅度，即原幅度，C′为所述幅度强化计算的幅度，Cmin所述初级语音数据集的最低幅度，Cmax为所述初级语音数据集的最高幅度，r为所述性格分值集。

进一步地，所述频率强化计算为：

S4、将所述幅度频率集及标签集输入预先构建的神经网络中，对所述申请网络进行训练。

较佳地，所述标签集为所述情绪标签集，所述幅度频率集为[C′，f′]。

所述神经网络包括输入层、输出层以及隐含层。所述输入层的节点数即为输入特征的个数，由所述幅度频率集为[C′，f′]确定了幅值、频率作为所述神经网络的输入，因此输入节点的数目为2。所述输出层节点数目即为分类类型数，由所述情绪标签集是包括5种的情绪判别分析(“生气、害怕、高兴、伤心、平静”)，即5作为所述输出层节点的数目。所述隐含层采用S型函数隐含层，其节点数n：

其中，a表示输入节点的数目，b表示输出节点的数目，d为[1，10]内的常数。

进一步地，所述训练是指所述神经网络接收所述幅度频率集并得到预测情绪集，将所述预测情绪集与所述情绪标签集进行误差计算得到情绪误差值，当所述情绪误差值小于预设阈值C后，所述神经网络完成训练。

S5、接收用户的语音，将所述用户的语音输入至所述神经网络中得到情绪识别结果并输出。

优选地，所述接收方式包括接收用户实时的声音或已经录制好的语音片段等。如接收用户实时的和别人的电话交流声音，经过所述神经网络预测得到的情绪为伤心。

发明还提供一种语音情绪识别装置。参照图2所示，为本发明一实施例提供的语音情绪识别装置的内部结构示意图。

在本实施例中，所述语音情绪识别装置1可以是PC(Personal Computer，个人电脑)，或者是智能手机、平板电脑、便携计算机等终端设备，也可以是一种服务器等。该语音情绪识别装置1至少包括存储器11、处理器12，通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是语音情绪识别装置1的内部存储单元，例如该语音情绪识别装置1的硬盘。存储器11在另一些实施例中也可以是语音情绪识别装置1的外部存储设备，例如语音情绪识别装置1上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括语音情绪识别装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于语音情绪识别装置1的应用软件及各类数据，例如语音情绪识别程序01的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行语音情绪识别程序01等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该装置1与其他电子设备之间建立通信连接。

可选地，该装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在语音情绪识别装置1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-14以及语音情绪识别程序01的语音情绪识别装置1，本领域技术人员可以理解的是，图2示出的结构并不构成对语音情绪识别装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的装置1实施例中，存储器11中存储有语音情绪识别程序01；处理器12执行存储器11中存储的语音情绪识别程序01时实现如下步骤：

步骤一、接收原始语音数据集及标签集，基于预先构建的滤波器对所述原始语音数据集进行降噪处理得到初级语音数据集。

所述标签集分为两个部分，分别为响度标签集和情绪标签集。所述响度标签集是对所述原始语音数据集中各个录音片段声音响度的备注，如所述老师慷慨激昂的演讲片段，在所述响度标签集的备注为9.8，其中数字越大代表响度越高，所述响度标签集的数字范围在[0，10]之间；所述情绪标签集是对所述原始语音数据集中各个录音片段情绪的备注，分为[生气、害怕、高兴、伤心、平静]五个标签，如上述老师慷慨激昂的演讲片段在所述情绪标签集备注为高兴。

进一步地，所述误差e₁通过下述方法结算：

进一步地，所述w_i为：

其中，u收敛因子，数值范围在

λ_max表示所述原始语音数据集中波长的最大值，

表示前一语音信号序列的梯度因子。

步骤二、将所述初级语音数据集及所述标签集输入至语音性格分类器得到性格分值集。

所述语音性格分类器h_θ(xⁱ)为：

表示各个响度下所述调节参数的转置矩阵。

步骤三、将所述初级语音数据集中各语音的幅度频率与所述性格分值集进行强化计算得到幅度频率集。

进一步地，所述频率强化计算为：

步骤四、将所述幅度频率集及标签集输入预先构建的神经网络中，对所述申请网络进行训练。

步骤五、接收用户的语音，将所述用户的语音输入至所述神经网络中得到情绪识别结果并输出。

可选地，在其他实施例中，语音情绪识别程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，用于描述语音情绪识别程序在语音情绪识别装置中的执行过程。

例如，参照图3所示，为本发明语音情绪识别装置一实施例中的语音情绪识别程序的程序模块示意图，该实施例中，所述语音情绪识别程序可以被分割为数据接收及处理模块10、幅度频率计算模块20、模型训练模块30、情绪识别输出模块40示例性地：

所述数据接收及处理模块10用于：接收原始语音数据集及标签集，基于预先构建的滤波器对所述原始语音数据集进行降噪处理得到初级语音数据集。

所述幅度频率计算模块20用于：将所述初级语音数据集及所述标签集输入至语音性格分类器得到性格分值集，将所述初级语音数据集中各语音的幅度频率与所述性格分值集进行强化计算得到幅度频率集。

所述模型训练模块30用于：将所述幅度频率集及标签集输入预先构建的神经网络中，对所述神经网络进行训练。

所述情绪识别输出模块40用于：接收用户的语音，将所述用户的语音输入至所述神经网络中得到情绪识别结果并输出。

上述数据接收及处理模块10、幅度频率计算模块20、模型训练模块30、情绪识别输出模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有语音情绪识别程序，所述语音情绪识别程序可被一个或多个处理器执行，以实现如下操作：

接收原始语音数据集及标签集，基于预先构建的滤波器对所述原始语音数据集进行降噪处理得到初级语音数据集。

将所述初级语音数据集及所述标签集输入至语音性格分类器得到性格分值集，将所述初级语音数据集中各语音的幅度频率与所述性格分值集进行强化计算得到幅度频率集。

将所述幅度频率集及标签集输入预先构建的神经网络中，对所述神经网络进行训练。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音情绪识别方法，其特征在于，所述方法包括：

2.如权利要求1所述的语音情绪识别方法，其特征在于，所述降噪处理包括：

将所述原始语音数据集输入至预先构建的滤波器；

计算所述语音数据输出集与所述原始语音数据集的误差；

3.如权利要求2所述的语音情绪识别方法，其特征在于，所述误差通过下述方法计算：

其中，e₁为所述误差，M为所述原始语音数据集的语音信号序列总数，d为所述语音数据输出集，i为语音信号序列号，x_i为所述原始语音数据集的第i个语音信号序列，w_i为第i个语音信号序列的内部权重，所述w_i通过下述方法计算：

其中，u为收敛因子，数值范围在

λ_max表示所述原始语音数据集中波长的最大值，w_i-1为第i-1个语音信号序列的内部权重，

表示第i-1个语音信号序列的梯度因子。

4.如权利要求1至3中任意一项所述的语音情绪识别方法，其特征在于，所述语音性格分类器为：

其中h_θ(ⁱ)为所述语音性格分类器，xⁱ为所述初级语音数据集各个语音片段，θ为所述语音性格分类器的调节参数，P(yⁱ＝[0,1]|ⁱ,)表示语音片段xⁱ在θ为调节参数的前提下，最后的响度范围在[0,1]的概率值，P(yⁱ＝[9,10]|ⁱ,)表示语音片段xⁱ在θ为调节参数的前提下，最后的响度范围在[9,10]的概率值，e为误差，j表示响度序列号，

表示第j个响度下所述调节参数的转置矩阵。

5.如权利要求1中的语音情绪识别方法，其特征在于，所述强化计算分为幅度强化计算和频率强化计算；

其中，所述幅度强化计算为：

所述频率强化计算为：

6.一种语音情绪识别装置，其特征在于，所述装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的语音情绪识别程序，所述语音情绪识别程序被所述处理器执行时实现如下步骤：

7.如权利要求6所述的语音情绪识别装置，其特征在于，所述降噪处理包括：

将所述原始语音数据集输入至预先构建的滤波器；

计算所述语音数据输出集与所述原始语音数据集的误差；

8.如权利要求7所述的语音情绪识别装置，其特征在于，所述误差通过下述方法计算：

其中，u为收敛因子，数值范围在

表示第i-1个语音信号序列的梯度因子。

9.如权利要求6至8中任意一项所述的语音情绪识别装置，其特征在于，所述语音性格分类器为：

其中h_θ(xⁱ)为所述语音性格分类器，xⁱ为所述初级语音数据集各个语音片段，θ为所述语音性格分类器的调节参数，P(yⁱ＝[0,1]|xⁱ,θ)表示语音片段xⁱ在θ为调节参数的前提下，最后的响度范围在[0,1]的概率值，P(yⁱ＝[9,10]|xⁱ,θ)表示语音片段xⁱ在θ为调节参数的前提下，最后的响度范围在[9,10]的概率值，e为误差，j表示响度序列号，

表示第j个响度下所述调节参数的转置矩阵。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有语音情绪识别程序，所述语音情绪识别程序可被一个或者多个处理器执行，以实现如权利要求1至5中任一项所述的语音情绪识别方法的步骤。