CN116631451A

CN116631451A - 一种语音情感识别系统及方法

Info

Publication number: CN116631451A
Application number: CN202310748738.5A
Authority: CN
Inventors: 吴福全; 张勇
Original assignee: Anhui Dike Digital Gold Technology Co ltd
Current assignee: Anhui Dike Digital Gold Technology Co ltd
Priority date: 2023-06-25
Filing date: 2023-06-25
Publication date: 2023-08-22
Anticipated expiration: 2043-06-25
Also published as: CN116631451B

Abstract

本发明公开了一种语音情感识别系统及方法，涉及语音识别技术领域，解决了现有技术通过有限且固定的若干语音特征进行情感识别时，难以保证细分场景语音情感识别精度的技术问题；本发明基于细分场景的特征组合和多场景语音数据的情感标签获取情感识别模型；提取实时语音数据对应语音场景特征，结合情感识别模型识别语音情感；本发明引入场景标签和民族标签，能够提高在细分场景中的语音情感识别精度；本发明对多场景语音数据进行语音情感分析提取各细分场景对应的次特征；将主特征与细分场景的次特征整合，获取细分场景的特征组合；本发明针对各细分场景的次特征进行了分析，筛选出的特征组合能够在保证情感识别精度的基础上降低数据处理量。

Description

一种语音情感识别系统及方法

技术领域

本发明属于语音识别领域，涉及语音情感识别技术，具体是一种语音情感识别系统及方法。

背景技术

随着人工智能技术的发展，情感计算的地位越显重要。语音情感识别的研究对于增强计算机的智能化和人性化、开发新型人机环境以及推动心理学等学科的发展有着非常重要的现实意义。

目前的语音情感识别系统主要是确定对情感识别具有突出贡献的若干语音特征，从语音信息中提取上述语音特征片段，在通过智能分类模型对语音特征片段进行分类，识别出语音特征片段相匹配的语音情感。现有技术针在所有语音场景中均是选择最具代表性的若干语音特征，能够扩宽情感识别的应用范围，但有限且固定的若干语音特征无法同时满足多场景情感识别需求，难以保证细分场景的语音情感识别精度。

本发明提供了一种语音情感识别系统及方法，以解决上述问题。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一；为此，本发明提出了一种语音情感识别系统及方法，用于解决现有技术通过有限且固定的若干语音特征进行情感识别时，难以保证细分场景语音情感识别精度的技术问题。

为实现上述目的，本发明的第一方面提供了一种语音情感识别系统，包括中枢控制模块，以及与之相连接的数据交互模块；数据交互模块分别与数据库和语音采集设备相连接；中枢控制模块通过数据库获取多场景语音数据，对多场景语音数据进行语音情感分析提取各细分场景对应的次特征；将主特征与细分场景的次特征整合，获取细分场景的特征组合；中枢控制模块基于细分场景的特征组合和多场景语音数据的情感标签对人工智能模型进行训练，获取情感识别模型；通过语音采集设备采集实时语音数据，提取实时语音数据对应语音场景特征，结合情感识别模型识别语音情感。

目前在进行语音情感识别时，多是采用有限且固定的若干语音特征来进行情感识别，这些语音特征能够尽最大可能反映出语音数据中的情感。当时，并不存在通用的语音特征组合，也就是说这些语音特征使用的范围更广，但是在细分场景下的语音情感识别精度并不是最好的。

本发明针对多场景数据进行了分析，提取各细分场景下语音情感识别精度最高的特征组合；在确定特征组合之后，对多场景数据进行特征提取生成标准输入数据和标准输出数据，进而完成人工智能模型的训练获取情感识别模型。本发明的情感识别模型不仅适用范围广，而且能够满足各细分场景中的语音情感识别精度。

本发明中的主特征包括基频特征、能量特征和时长特征；基频特征主要包括基音频率及其均值、变化范围、变化率和均方差；能量特征主要包括短时平均能量、短时能量变化率、短时平均振幅、振幅平均变化率和短时最大振幅；时长特征主要包括语速和短时平均过零率。次特征包括基频构造、共振峰构造、MFCC系数或者Mel频谱能量动态系数；基频构造包括基频轨迹曲线的最大值、整个曲线的基频平均值、变化范围以及基音频率的1/4分位点、3/4分位点、1/3分位点和2/3分位点；共振峰构造包括第一共振峰频率、第二共振峰频率、第三共振峰频率的最大值、平均值、动态变化范围、1/4分位点、3/4分位点、1/3分位点和2/3分位点；MFCC系数包括1-12阶的MFCC系数；Mel频谱能量动态系数包括12个等间隔的频带上的频谱能量动态系数。在主特征的基础上能够完成语音情感的识别，将主特征与次特征相结合能够在各细分场景下完成高精度的语音情感识别。

本发明中的中枢控制模块与数据交互模块通信和/或电气连接；数据交互模块分别与数据库和语音采集设备通信和/或电气连接；数据库用于存储多场景语音数据以及对应的情感标签，语音采集设备用于采集需要进行情感识别的实时语音数据。中枢控制模块主要负责进行数据处理，并主导完成语音数据的情感识别；数据交互模块则负责采集各种数据。多场景语音数据是指若干细分场景下对应的语音数据，每条语音数据均对应设置有情感标签；细分场景包括问题答疑、情感交流等。

优选的，所述对多场景语音数据进行语音情感分析提取各细分场景对应的次特征，包括：识别多场景语音数据对应的细分场景；将与细分场景匹配的多场景语音数据以及对应的情感标签进行关联归类，获取细分场景数据；基于细分场景数据验证各细分场景对应精度最高的特征序列，从该特征序列中提取次特征。

本发明需要对多场景语音数据按照细分场景进行划分，则每个细分场景可关联多条语音数据，而且每条语音数据均对应一个或者多个情感标签。通过设置的次特征来验证各细分场景下根据哪些特征序列能够更加准确地识别语音情感。

优选的，所述基于细分场景数据验证各细分场景对应精度最高的特征序列，包括：通过增减次特征来组合形成若干特征序列；基于若干特征序列对细分场景数据进行情感识别，根据情感识别精度筛选出各细分场景对应的特征序列。

对次特征进行排列组合获取若干特征序列，基于若干特征序列中的次特征对细分场景下的语音数据进行情感识别，根据情感识别精度筛选出表现最优的特征序列。则该特征序列在对应细分场景中的语音情感识别表现较好。

优选的，所述将主特征与细分场景的次特征整合，包括：提取各细分场景对应的次特征；将次特征与主特征进行整合和数字化处理，获取对应细分场景的特征组合。

将每个细分场景的次特征与主特征连接起来，整合之后进行数字化处理获取细分场景对应的特征组合，也就是主特征与细分场景对应的最优特征序列的整合。将形成的特征组合与细分场景以及细分场景对应的场景标签相关联，将关联关系存储在数据库中。当然，还可以将主特征与细分场景的次特征结合生成特征序列，则最终获取的细分场景对应的最优特征组合即为特征组合，不需要额外整合主特征与次特征。

优选的，所述中枢控制模块基于细分场景的特征组合和多场景语音数据的情感标签对人工智能模型进行训练，包括：提取场景特征和民族特征，整合生成场景标签；根据特征组合从多场景语音数据中提取语音特征，在语音特征中插入场景标签生成标准输入数据，将多场景语音数据对应的情感标签作为标准输出数据；通过标准输入数据和标准输出数据对构建的人工智能模型进行训练，获取情感识别模型。

从细分场景中提取场景特征，从对应的语音数据中提取民族特征，将场景特征与民族特征相结合生成场景标签。细分场景下的每条语音数据均对应一个场景标签以及情感标签，则基于该细分场景对应的特征组合从语音数据中提取对应的语音特征，将场景标签插入到提取的若干语音特征中，则生成了一条标准输入数据，该语音数据对应的情感标签作为标准输出数据。

因此，可从多场景语音数据中提取若干标准输入数据和标准输出数据的组合，通过获取的标准输入数据和标准输出数据可训练人工智能模型，获取情感识别模型。在获取语音数据之后，可通过情感识别模型识别语音数据中的情感。

优选的，所述提取实时语音数据对应语音场景特征，包括：识别实时语音数据对应的细分场景，获取场景标签；根据场景标签提取对应细分场景的特征组合；从实时语音数据提取特征并填充特征组合，结合对应的场景标签生成语音场景特征；将语音场景特征输入至情感识别模型获取对应的情感标签。

在需要进行语音情感识别时，则从实时语音数据(也可以理解为待识别的语音数据)中识别出细分场景，得到对应的场景标签；进而可以提取到场景标签对应的特征组合，从实时语音数据中提取若干语音特征来填充特征组合，联合场景标签生成语音场景特征。将得到的语音场景特征输入至情感识别模型中，得到对应的情感标签，进而完成语音情感的识别。

本发明的第二方面提供了一种语音情感识别方法，包括：获取多场景语音数据，对多场景语音数据进行语音情感分析提取各细分场景对应的次特征；将主特征与细分场景的次特征整合，获取细分场景的特征组合；基于细分场景的特征组合和多场景语音数据的情感标签对人工智能模型进行训练，获取情感识别模型；采集实时语音数据，提取实时语音数据对应语音场景特征，结合情感识别模型识别语音情感。

与现有技术相比，本发明的有益效果是：

1.本发明基于细分场景的特征组合和多场景语音数据的情感标签对人工智能模型进行训练，获取情感识别模型；通过语音采集设备采集实时语音数据，提取实时语音数据对应语音场景特征，结合情感识别模型识别语音情感；本发明引入场景标签和民族标签，能够提高在细分场景中的语音情感识别精度。

2.本发明对多场景语音数据进行语音情感分析提取各细分场景对应的次特征；将主特征与细分场景的次特征整合，获取细分场景的特征组合；本发明针对各细分场景的次特征进行了分析，筛选出的特征组合能够在保证情感识别精度的基础上降低数据处理量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的系统原理示意图；

图2为本发明的工作步骤示意图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1-图2，本发明第一方面实施例提供了一种语音情感识别系统，包括中枢控制模块，以及与之相连接的数据交互模块；数据交互模块分别与数据库和语音采集设备相连接；中枢控制模块通过数据库获取多场景语音数据，对多场景语音数据进行语音情感分析提取各细分场景对应的次特征；将主特征与细分场景的次特征整合，获取细分场景的特征组合；中枢控制模块基于细分场景的特征组合和多场景语音数据的情感标签对人工智能模型进行训练，获取情感识别模型；通过语音采集设备采集实时语音数据，提取实时语音数据对应语音场景特征，结合情感识别模型识别语音情感。

本实施例的第一步是中枢控制模块通过数据库获取多场景语音数据，对多场景语音数据进行语音情感分析提取各细分场景对应的次特征；将主特征与细分场景的次特征整合，获取细分场景的特征组合。

从数据库中提取多场景语音数据，根据细分场景对多场景语音数据进行归类，获取各细分场景对应的若干语音数据。接下来通过增减次特征设置若干特征序列，其实质就是对所有次特征进行排列组合，每个特征序列中至少包括一个次特征。

特征序列包括[基频轨迹曲线的最大值]，[基频轨迹曲线的最大值，整个曲线的基频平均值]，[基频轨迹曲线的最大值，整个曲线的基频平均值，整个曲线的基频变化范围，基音频率的1/4分位点]，[基频轨迹曲线的最大值，整个曲线的基频平均值，整个曲线的基频变化范围，基音频率的1/4分位点，基音频率的3/4分位点]，……。

针对若干特征序列依次对细分场景下的若干语音数据进行特征提取，将提取的语音特征与语音数据对应的情感标签整合成一条分类训练数据，这样可以获取多条分类训练数据。这些分类训练数据一部分拿来训练分类模型(支持向量机、聚类模型等)，另外一部分用来验证训练之后分类模型的精度，将精度最高的特征序列组合作为该细分场景最优的特征序列。

将细分场景中最优的特征序列与主特征进行整合，获取该细分场景下的特征组合。理论上该特征组合是细分场景下语音情感识别的最优特征组合，其最优性能体现在尽可能使用最少的次特征完成最高精度的情感识别。

本实施例的第二步是中枢控制模块基于细分场景的特征组合和多场景语音数据的情感标签对人工智能模型进行训练，获取情感识别模型。

识别多场景语音数据中若干语音数据的场景特征和民族特征；场景特征是指语音数据对应的场景，如家庭对话、问题答题、会议对话、课堂等，在不同的场景中表达情感的语音特征会有所区别；民族特征主要是考虑到各民族语言在情感表达上的方式不同。

在根据场景标签对应的特征组合提取各语音数据的语音特征，这样每条语音数据均对应一个场景标签、一个民族标签和一组语音特征，将这些数据整合起来形成一条标准输入数据，将语音数据对应的情感标签作为标准输出数据。通过若干组标准输入数据和标准输出数据对人工智能模型进行训练，即可得到情感识别模型。

本实施例的第三步是通过语音采集设备采集实时语音数据，提取实时语音数据对应语音场景特征，结合情感识别模型识别语音情感。

在获取情感识别模型之后，获取需要进行情感识别的实时语音数据。先识别实时语音数据对应的细分场景，具体可根据语音内容来识别，如根据“爸”“妈”等可识别为家庭场景，根据“本次会议……”等可识别为会议场景。根据细分场景设置场景标签，根据实时语音数据的语音内容识别语言，根据语言设置民族标签。接着，根据场景标签提取对应的特征组合，将实时语音数据按照特征组合进行特征提取，将实时语音数据的场景标签、民族标签以及填充后的特征组合整合成语音场景特征，将该语音场景特征输入至情感识别模型中，可获取对应的情感标签，进而完成语音情感识别。

本发明第一方面实施例提供了一种语音情感识别方法，包括：获取多场景语音数据，对多场景语音数据进行语音情感分析提取各细分场景对应的次特征；将主特征与细分场景的次特征整合，获取细分场景的特征组合；基于细分场景的特征组合和多场景语音数据的情感标签对人工智能模型进行训练，获取情感识别模型；采集实时语音数据，提取实时语音数据对应语音场景特征，结合情感识别模型识别语音情感。

以上实施例仅用以说明本发明的技术方法而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方法进行修改或等同替换，而不脱离本发明技术方法的精神和范围。

Claims

1.一种语音情感识别系统，包括中枢控制模块，以及与之相连接的数据交互模块；数据交互模块分别与数据库和语音采集设备相连接；其特征在于：

中枢控制模块通过数据库获取多场景语音数据，对多场景语音数据进行语音情感分析提取各细分场景对应的次特征；将主特征与细分场景的次特征整合，获取细分场景的特征组合；其中，主特征包括基频特征、能量特征和时长特征，次特征包括基频构造、共振峰构造、MFCC系数或者Mel频谱能量动态系数；

中枢控制模块基于细分场景的特征组合和多场景语音数据的情感标签对人工智能模型进行训练，获取情感识别模型；通过语音采集设备采集实时语音数据，提取实时语音数据对应语音场景特征，结合情感识别模型识别语音情感；其中，人工智能模型包括BP神经网络模型或者RBF神经网络模型。

2.根据权利要求1所述的一种语音情感识别系统，其特征在于，所述对多场景语音数据进行语音情感分析提取各细分场景对应的次特征，包括：

识别多场景语音数据对应的细分场景；将与细分场景匹配的多场景语音数据以及对应的情感标签进行关联归类，获取细分场景数据；

基于细分场景数据验证各细分场景对应精度最高的特征序列，从该特征序列中提取次特征；其中，特征序列由主特征和次特征组成。

3.根据权利要求2所述的一种语音情感识别系统，其特征在于，所述基于细分场景数据验证各细分场景对应精度最高的特征序列，包括：

通过增减次特征来组合形成若干特征序列；

基于若干特征序列对细分场景数据进行情感识别，根据情感识别精度筛选出各细分场景对应的特征序列。

4.根据权利要求1所述的一种语音情感识别系统，其特征在于，所述将主特征与细分场景的次特征整合，包括：

提取各细分场景对应的次特征；

将次特征与主特征进行整合和数字化处理，获取对应细分场景的特征组合。

5.根据权利要求1所述的一种语音情感识别系统，其特征在于，所述中枢控制模块基于细分场景的特征组合和多场景语音数据的情感标签对人工智能模型进行训练，包括：

提取场景特征和民族特征，整合生成场景标签；

根据特征组合从多场景语音数据中提取语音特征，在语音特征中插入场景标签生成标准输入数据，将多场景语音数据对应的情感标签作为标准输出数据；

通过标准输入数据和标准输出数据对构建的人工智能模型进行训练，获取情感识别模型。

6.根据权利要求1所述的一种语音情感识别系统，其特征在于，所述提取实时语音数据对应语音场景特征，包括：

识别实时语音数据对应的细分场景，获取场景标签；根据场景标签提取对应细分场景的特征组合；

从实时语音数据提取特征并填充特征组合，结合对应的场景标签生成语音场景特征；将语音场景特征输入至情感识别模型获取对应的情感标签。

7.根据权利要求1所述的一种语音情感识别系统，其特征在于，所述中枢控制模块与数据交互模块通信和/或电气连接；所述数据交互模块分别与数据库和语音采集设备通信和/或电气连接；

所述数据库用于存储多场景语音数据以及对应的情感标签，语音采集设备用于采集需要进行情感识别的实时语音数据。

8.一种语音情感识别方法，基于权利要求1至7任意一项所述的一种语音情感识别系统运行，其特征在于，包括：

获取多场景语音数据，对多场景语音数据进行语音情感分析提取各细分场景对应的次特征；将主特征与细分场景的次特征整合，获取细分场景的特征组合；

基于细分场景的特征组合和多场景语音数据的情感标签对人工智能模型进行训练，获取情感识别模型；采集实时语音数据，提取实时语音数据对应语音场景特征，结合情感识别模型识别语音情感。