CN112489625A

CN112489625A - 语音情绪识别方法、系统、移动终端及存储介质

Info

Publication number: CN112489625A
Application number: CN202011119128.1A
Authority: CN
Inventors: 陈剑超; 肖龙源; 叶志坚
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2021-03-12

Abstract

本发明提供了一种语音情绪识别方法、系统、移动终端及存储介质，该方法包括：获取语音预处理后语音样本的样本熵特征，根据样本熵特征进行端点检测；根据端点检测结果对语音样本进行语音过滤，提取语音过滤后语音样本的语音特征；将语音特征与样本熵特征进行特征融合得到语音融合特征，对语音融合特征进行特征降维得到语音情绪特征；根据语音情绪特征对语音情绪识别模型进行模型训练；将待识别语音输入收敛后的语音情绪识别模型进行语音情绪识别得到语音情绪识别结果。本发明通过将待识别语音输入收敛后的语音情绪识别模型进行语音情绪识别，防止了基于语音片段进行语音比对得到情绪预测结果，所导致的语音情绪识别准确性低下的现象。

Description

语音情绪识别方法、系统、移动终端及存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音情绪识别方法、系统、移动终端及存储介质。

背景技术

情感计算是对于情感相关、来源于情感或者影响情感方面的计算，其目的是赋予智能机器感知，理解和表达各种情感状态的能力。情感识别是情感计算的关键内容，目前，情感计算主要以表情、姿态、语音、文本和生理信号为基础进行情感识别，其中语音信号，是情感信息表达的主要载体，且获取方便，越来越受到相关研究人员的重视。

现有语音情绪识别过程中，是直接基于语音片段进行语音比对，得到情绪预测结果，片段时长与说话人连续说话时长相关，但是，即使在一句话中，语音的情绪也是存在波动的，所以基于语音片段进行的情绪判断存在较大的误差，降低了语音情绪识别的准确性。

发明内容

本发明实施例的目的在于提供一种语音情绪识别方法、系统、移动终端及存储介质，旨在解决现有语音情绪识别过程中，由于基于语音片段进行语音比对得到情绪预测结果，所导致的语音情绪识别准确性低下的问题。

本发明实施例是这样实现的，一种语音情绪识别方法，所述方法包括：

获取语音样本数据，并对所述语音样本数据中的语音样本进行语音预处理；

获取语音预处理后所述语音样本的样本熵特征，并根据所述样本熵特征进行端点检测；

根据端点检测结果对所述语音样本进行语音过滤，并提取语音过滤后所述语音样本的语音特征；

将所述语音特征与所述样本熵特征进行特征融合，得到语音融合特征，并对所述语音融合特征进行特征降维，得到语音情绪特征；

根据所述语音情绪特征对语音情绪识别模型进行模型训练，直至所述语音情绪识别模型收敛；

将待识别语音输入收敛后的所述语音情绪识别模型进行语音情绪识别，得到语音情绪识别结果。

更进一步地，所述根据所述样本熵特征进行端点检测的步骤包括：

若所述样本熵特征大于第一门限阈值，则判定所述样本熵特征对应的语音节点为语音起始点；

若所述样本熵特征小于第二门限阈值，则判定所述样本熵特征对应的语音节点为语音噪声；

若所述样本熵特征大于所述第二门限阈值且小于所述第一门限阈值，则获取所述样本语音的短时过零率；

若所述短时过零率小于第三门限阈值，则判定所述短时过零率对应的语音节点为语音起止点。

更进一步地，所述将所述语音特征与所述样本熵特征进行特征融合的步骤包括：

对所述语音特征和所述样本熵特征进行向量转换，得到语音特征向量和样本熵特征向量；

计算所述语音特征向量和所述样本熵特征向量之间的矢量和，得到所述语音融合特征。

更进一步地，所述对所述语音融合特征进行特征降维的步骤包括：

对所述语音融合特征进行数据标准化处理，并计算数据标准化处理后所述语音融合特征的协方差矩阵；

对所述协方差矩阵进行特征值分解，得到特征向量，并根据所述特征向量构建特征序列；

对所述特征序列进行降维映射，得到所述语音情绪特征。

更进一步地，所述对所述语音融合特征进行数据标准化处理的步骤包括：

计算所述语音融合特征的特征均值和特征标准差，并计算所述语音融合特征与所述特征均值之间的特征差值；

计算所述特征差值与所述特征标准差之间的商值，得到所述数据标准化处理后所述语音融合特征。

更进一步地，所述根据所述语音情绪特征对语音情绪识别模型进行模型训练的步骤包括：

根据所述语音情绪特征计算所述语音情绪识别模型中神经元的输入和输出，并根据所述神经元的输入和输出计算输出误差；

根据所述输出误差调节所述语音情绪识别模型中所述神经元的连接权值和阈值；

若所述神经元之间所述输出误差的平均值小于预设值，且所述语音情绪识别模型的迭代次数大于次数阈值，则判定所述语音情绪识别模型收敛。

更进一步地，所述对所述语音样本数据中的语音样本进行语音预处理的步骤包括：

将所述语音样本输入反混叠滤波器进行语音滤波，并对语音滤波后的所述语音样本进行采样和量化；

对采样和量化后的所述样本语音进行预加重处理，并对预加重处理后的所述所述样本语音进行加窗和分帧处理。

本发明实施例的另一目的在于提供一种语音情绪识别系统，所述系统包括：

语音预处理模块，用于获取语音样本数据，并对所述语音样本数据中的语音样本进行语音预处理；

端点检测模块，用于获取语音预处理后所述语音样本的样本熵特征，并根据所述样本熵特征进行端点检测；

语音特征提取模块，用于根据端点检测结果对所述语音样本进行语音过滤，并提取语音过滤后所述语音样本的语音特征；

特征融合模块，用于将所述语音特征与所述样本熵特征进行特征融合，得到语音融合特征，并对所述语音融合特征进行特征降维，得到语音情绪特征；

模型训练模块，用于根据所述语音情绪特征对语音情绪识别模型进行模型训练，直至所述语音情绪识别模型收敛；

语音情绪识别模块，用于将待识别语音输入收敛后的所述语音情绪识别模型进行语音情绪识别，得到语音情绪识别结果。

本发明实施例的另一目的在于提供一种移动终端，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行上述的语音情绪识别方法。

本发明实施例的另一目的在于提供一种存储介质，其存储有上述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现上述的语音情绪识别方法的步骤。

本发明实施例，通过根据样本熵特征进行端点检测，并根据端点检测结果对语音样本进行语音过滤，有效的提高了语音过滤的准确性，降低了语音噪音或无效的背景音对语音样本中语音特征提取的干扰，通过将语音特征与样本熵特征进行特征融合得到语音融合特征，并对语音融合特征进行特征降维得到语音情绪特征，以基于得到的语音情绪特征对语音情绪识别模型进行模型训练，提高了语音情绪识别模型训练的效果，通过对语音融合特征进行特征降维，以去除语音特征和样本熵特征之间的相关性，进一步提高了语音情绪识别模型训练的效果，通过将待识别语音输入收敛后的语音情绪识别模型进行语音情绪识别得到语音情绪识别结果，防止了基于语音片段进行语音比对得到情绪预测结果，所导致的语音情绪识别准确性低下的现象。

附图说明

图1是本发明第一实施例提供的语音情绪识别方法的流程图；

图2是本发明第一实施例提供的语音情绪识别模型训练的具体实施流程图；

图3是本发明第一实施例提供的语音情绪识别方法的具体实施流程图；

图4是本发明第二实施例提供的语音情绪识别方法的流程图；

图5是本发明第三实施例提供的语音情绪识别系统的结构示意图；

图6是本发明第四实施例提供的移动终端的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一

请参阅图1，是本发明第一实施例提供的语音情绪识别方法的流程图，包括步骤：

步骤S10，获取语音样本数据，并对所述语音样本数据中的语音样本进行语音预处理；

可选的，该步骤中，所述对所述语音样本数据中的语音样本进行语音预处理的步骤包括：

对采样和量化后的所述样本语音进行预加重处理，并对预加重处理后的所述所述样本语音进行加窗和分帧处理；

其中，通过将语音样本输入反混叠滤波器进行语音滤，有效的去除了语音样本中的噪音，提高了后续样本熵特征和语音特征提取的准确性。

具体的，该步骤中，选取汉明窗作为窗函数进行加窗处理，其中窗长为16ms共计256点，窗移为8ms共计128点。语音信号加窗处理后便完成分帧处理，每一帧语音信号都被看成是短时平稳信号，用于后续短时分析、提取特征参数以及最终的情感判别。

步骤S20，获取语音预处理后所述语音样本的样本熵特征，并根据所述样本熵特征进行端点检测；

其中，样本熵(Sample Entropy，SampEn)与近似熵的物理意义相似，都是通过度量信号中产生新模式的概率大小来衡量时间序列复杂性，新模式产生的概率越大，序列的复杂性就越大，样本熵的值越低，序列自我相似性就越高；样本熵的值越大，样本序列就越复杂。

具体的，该步骤中，通过根据样本熵特征进行端点检测，能准确的识别到语音样本中的语音起始点和语音起止点，进而提高了后续对语音样本进行语音过滤的准确性。

步骤S30，根据端点检测结果对所述语音样本进行语音过滤，并提取语音过滤后所述语音样本的语音特征；

其中，根据端点检测结果中得到的语音起始点和语音起止点对语音样本进行语音过滤，能有效的去除语音样本中的噪音和静音，提高了语音样本中语音信号的准确性。

具体的，该步骤中，通过提取语音过滤后语音样本的语音特征，有效的保障了后续语音情绪识别模型训练的准确性，优选的，该语音特征包括语速、能量特征、基音频率或MFCC特征等。

步骤S40，将所述语音特征与所述样本熵特征进行特征融合，得到语音融合特征，并对所述语音融合特征进行特征降维，得到语音情绪特征；

其中，通过将语音特征与所述样本熵特征进行特征融合得到语音融合特征，能有效的提高后续语音情绪识别模型的识别率，改善了语音情绪识别模型的性能，通过对语音融合特征进行特征降维，使得特征降维得到的语音情绪特征携带有表征语音信号情感变化的有效参数，提高了后续语音情绪识别模型训练的准确性。

步骤S50，根据所述语音情绪特征对语音情绪识别模型进行模型训练，直至所述语音情绪识别模型收敛；

其中，请参阅图2，该步骤中，所述根据所述语音情绪特征对语音情绪识别模型进行模型训练的步骤包括：

若所述神经元之间所述输出误差的平均值小于预设值，且所述语音情绪识别模型的迭代次数大于次数阈值，则判定所述语音情绪识别模型收敛；

其中，该预设值和次数阈值均可以根据需求进行设置，该预设值用于判断语音情绪识别模型中神经元的输出误差是否满足精度需求，该次数阈值用于判断语音情绪识别模型的迭代次数是否满足迭代需求。

步骤S60，将待识别语音输入收敛后的所述语音情绪识别模型进行语音情绪识别，得到语音情绪识别结果。

具体的，请参阅图3，是本发明第一实施例提供的语音情绪识别方法的具体实施流程图：

通过进行信号获取得到该待识别语音，对待识别语音依序进行语音信号前期处理(语音预处理)、端点检测、特征参数提取、特征融合和特征降维，以得到待识别语音对应的特性向量(语音情绪特征)，通过基于收敛后的语音情绪识别模型(模式识别分类器)对特性向量进行情绪分类，以得到针对待识别语音的语音情绪识别结果。

本实施例，通过根据样本熵特征进行端点检测，并根据端点检测结果对语音样本进行语音过滤，有效的提高了语音过滤的准确性，降低了语音噪音或无效的背景音对语音样本中语音特征提取的干扰，通过将语音特征与样本熵特征进行特征融合得到语音融合特征，并对语音融合特征进行特征降维得到语音情绪特征，以基于得到的语音情绪特征对语音情绪识别模型进行模型训练，提高了语音情绪识别模型训练的效果，通过对语音融合特征进行特征降维，以去除语音特征和样本熵特征之间的相关性，进一步提高了语音情绪识别模型训练的效果，通过将待识别语音输入收敛后的语音情绪识别模型进行语音情绪识别得到语音情绪识别结果，防止了基于语音片段进行语音比对得到情绪预测结果，所导致的语音情绪识别准确性低下的现象。

实施例二

请参阅图4，是本发明第二实施例提供的语音情绪识别方法的流程图，相对于第一实施例，本实施例提供的语音情绪识别方法是对第一实施例中步骤S20的进一步细化，包括：

步骤S21，若所述样本熵特征大于第一门限阈值，则判定所述样本熵特征对应的语音节点为语音起始点；

其中，该第一门限阈值可以根据需求进行设置，具体的，该步骤中，若所述样本熵特征大于第一门限阈值，且在持续的一段时间内总是跨越低门限阈值，则判定样本熵特征对应的语音节点为语音起始点；

步骤S22，若所述样本熵特征小于第二门限阈值，则判定所述样本熵特征对应的语音节点为语音噪声；

其中，该第二门限阈值可以根据需求进行设置，该第二门限阈值用于判断该样本熵特征对应的语音节点是否为语音噪声；

步骤S23，若所述样本熵特征大于所述第二门限阈值且小于所述第一门限阈值，则获取所述样本语音的短时过零率；

其中，短时过零率是语音信号时域分析中的一种特征参数，它是指每帧内信号通过零值的次数，对有时间横轴的连续语音信号，可以观察到语音的时域波形通过横轴的情况，在离散时间语音信号情况下，如果相邻的采样具有不同的代数符号就称为发生了过零，因此可以计算过零的次数；

具体的，该步骤中，若样本熵特征大于第二门限阈值且小于第一门限阈值，则获取该样本语音的短时过零率，以对该样本熵特征对应的语音节点继续进行分析；

步骤S24，若所述短时过零率小于第三门限阈值，则判定所述短时过零率对应的语音节点为语音起止点。

可选的，针对第一实施例中的步骤S40，所述将所述语音特征与所述样本熵特征进行特征融合的步骤包括：

步骤S41，对所述语音特征和所述样本熵特征进行向量转换，得到语音特征向量和样本熵特征向量；

步骤S42，计算所述语音特征向量和所述样本熵特征向量之间的矢量和，得到所述语音融合特征；

步骤S43，对所述语音融合特征进行数据标准化处理，并计算数据标准化处理后所述语音融合特征的协方差矩阵；

其中，通过对语音融合特征进行数据标准化处理，以取消由于量纲不同、自身变异或者数值相差较大所引起的特征误差，提高了语音融合特征的准确性；

具体的，该步骤中，通过计算数据标准化处理后语音融合特征的协方差矩阵，以得到语音融合特征在不同方向上的分散程度；

可选的，该步骤中，所述对所述语音融合特征进行数据标准化处理的步骤包括：

步骤S44，对所述协方差矩阵进行特征值分解，得到特征向量，并根据所述特征向量构建特征序列；

步骤S45，对所述特征序列进行降维映射，得到所述语音情绪特征。

本实施例中，通过采用PCA算法利用协方差矩阵来计算出语音融合特征在不同方向上的分散程度，利用方差最大的方向作为语音融合特征的主方向。其主要过程是：首先利用语音融合特征及特征构建一个样本矩阵，然后利用样本矩阵计算得到协方差矩阵，再计算协方差矩阵的特征值和特征向量，保留特征值前k大的特征向量作为新的维度方向，再将原始样本数据转换到新的空间维度，得到该语音情绪特征，通过检测样本熵特征与第一门限阈值、低门限阈值、第二门限阈值和第三门限阈值之间的大小，以判断该样本熵特征对应的语音节点是否为语音起始点、语音噪声或语音起止点，进而提高了对应语音样本进行语音过滤的准确性。

实施例三

请参阅图5，是本发明第三实施例提供的语音情绪识别系统100的结构示意图，包括：语音预处理模块10、端点检测模块11、语音特征提取模块12、特征融合模块13、模型训练模块14和语音情绪识别模块15，其中：

语音预处理模块10，用于获取语音样本数据，并对所述语音样本数据中的语音样本进行语音预处理。

其中，语音预处理模块10还用于：将所述语音样本输入反混叠滤波器进行语音滤波，并对语音滤波后的所述语音样本进行采样和量化；

端点检测模块11，用于获取语音预处理后所述语音样本的样本熵特征，并根据所述样本熵特征进行端点检测。

其中，端点检测模块11还用于：若所述样本熵特征大于第一门限阈值，则判定所述样本熵特征对应的语音节点为语音起始点；

语音特征提取模块12，用于根据端点检测结果对所述语音样本进行语音过滤，并提取语音过滤后所述语音样本的语音特征。

特征融合模块13，用于将所述语音特征与所述样本熵特征进行特征融合，得到语音融合特征，并对所述语音融合特征进行特征降维，得到语音情绪特征。

其中，特征融合模块13还用于：对所述语音特征和所述样本熵特征进行向量转换，得到语音特征向量和样本熵特征向量；

可选的，特征融合模块13还用于：对所述语音融合特征进行数据标准化处理，并计算数据标准化处理后所述语音融合特征的协方差矩阵；

对所述特征序列进行降维映射，得到所述语音情绪特征。

可选的，特征融合模块13还用于：计算所述语音融合特征的特征均值和特征标准差，并计算所述语音融合特征与所述特征均值之间的特征差值；

模型训练模块14，用于根据所述语音情绪特征对语音情绪识别模型进行模型训练，直至所述语音情绪识别模型收敛。

其中，模型训练模块14还用于：根据所述语音情绪特征计算所述语音情绪识别模型中神经元的输入和输出，并根据所述神经元的输入和输出计算输出误差；

语音情绪识别模块15，用于将待识别语音输入收敛后的所述语音情绪识别模型进行语音情绪识别，得到语音情绪识别结果。

实施例四

请参阅图6，是本发明第四实施例提供的移动终端101，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端101执行上述的语音情绪识别方法，该移动终端101可以为机器人。

本实施例还提供了一种存储介质，其上存储有上述移动终端101中所使用的计算机程序，该程序在执行时，包括如下步骤：

将待识别语音输入收敛后的所述语音情绪识别模型进行语音情绪识别，得到语音情绪识别结果。所述的存储介质，如：ROM/RAM、磁碟、光盘等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元或模块完成，即将存储装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

本领域技术人员可以理解，图5中示出的组成结构并不构成对本发明的语音情绪识别系统的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，而图1、图4、图5中的语音情绪识别方法亦采用图5中所示的更多或更少的部件，或者组合某些部件，或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述当前语音情绪识别系统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序，其均可存储于所述当前语音情绪识别系统的存储设备(图未示)内。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音情绪识别方法，其特征在于，所述方法包括：

2.如权利要求1所述的语音情绪识别方法，其特征在于，所述根据所述样本熵特征进行端点检测的步骤包括：

3.如权利要求1所述的语音情绪识别方法，其特征在于，所述将所述语音特征与所述样本熵特征进行特征融合的步骤包括：

4.如权利要求1所述的语音情绪识别方法，其特征在于，所述对所述语音融合特征进行特征降维的步骤包括：

对所述特征序列进行降维映射，得到所述语音情绪特征。

5.如权利要求4所述的语音情绪识别方法，其特征在于，所述对所述语音融合特征进行数据标准化处理的步骤包括：

6.如权利要求1所述的语音情绪识别方法，其特征在于，所述根据所述语音情绪特征对语音情绪识别模型进行模型训练的步骤包括：

7.如权利要求1所述的语音情绪识别方法，其特征在于，所述对所述语音样本数据中的语音样本进行语音预处理的步骤包括：

8.一种语音情绪识别系统，其特征在于，所述系统包括：

9.一种移动终端，其特征在于，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至7任一项所述的语音情绪识别方法。

10.一种存储介质，其特征在于，其存储有权利要求9所述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现权利要求1至7任一项所述的语音情绪识别方法的步骤。