CN113611286B

CN113611286B - 一种基于共性特征提取的跨语种语音情感识别方法和系统

Info

Publication number: CN113611286B
Application number: CN202111169207.8A
Authority: CN
Inventors: 李太豪; 郑书凯; 刘逸颖; 阮玉平; 张晓宁
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-10-08
Filing date: 2021-10-08
Publication date: 2022-01-18
Anticipated expiration: 2041-10-08
Also published as: CN113611286A

Abstract

本发明属于人工智能领域，涉及一种基于共性特征提取的跨语种语音情感识别方法和系统，该系统包括：语音信号采集模块，采用高保真单麦克风或者麦克风阵列采集用户语音信号；语音信号预处理模块，用于将采集到的语音信号进行预处理，对语音进行端点检测，去除语音前后静音段，生成可用于神经网络处理的数据；跨语种语音情感识别模块，用于通过设计的复数网络模型处理声谱图特征，预测用户音频的情感类型；分析存储模块，用于存储用户的语音数据和情感标签数据，并根据实际业务进行统计分析。本发明能够有效解决跨语种的语音情感识别问题，解决音频中的相位特征处理问题，从而提取音频中更加精细的发音特征，提升语音情感识别精度。

Description

一种基于共性特征提取的跨语种语音情感识别方法和系统

技术领域

本发明属于人工智能领域，涉及一种基于共性特征提取的跨语种语音情感识别方法和系统。

背景技术

语音是人类在日常交流中表达情感的主要方式。随着人工智能技术的发展，人机交互等应用得到了快速发展，能够进行类人交互，即基于情感智能的人机交互成为一种迫切需求，语音情感识别是实现这种情感交互的关键技术支撑。

当前关于语音情感识别的技术有基于人工特征的传统语音情感识别方法和基于人工神经网络的端到端语音情感识别方法。传统方法往往需要大量的专家知识，根据特定的发音特征等，进行识别特征的设计和模型构建，代价往往比较大。基于人工神经网络的方法一般只需要设计好网络模型，然后利用大量的标注数据，就可以让模型自主学习，实现语音的情感识别。目前，基于神经网络的方法在语音情感识别的效果上，比传统方法表现更好。

使用端到端神经网络技术实现语音情感识别需要大量的标注数据去训练模型，但是对于语音情感标注，标注员只有懂得相关的语种才能够进行标注，而且标注训练模型所需的数据需要耗费大量时间。这就使得语音情感识别只能在某些具有大量标注数据的语种上进行，而对于没有标注数据的语种，就难以实现语音的情感识别。

发明内容

为了解决现有技术中存在的上述跨语种语音情感识别问题，本发明提出了一种基于共性特征提取的跨语种语音情感识别方法和系统，能够有效解决跨语种的语音情感识别问题，并通过复数网络，解决音频中的相位特征处理问题，从而提取音频中更加精细的发音特征，从而提升语音情感识别精度，其具体技术方案如下：

一种基于共性特征提取的跨语种语音情感识别方法，包括如下步骤：

步骤一、采集含标注信息的英文情感语音数据和不含标注信息的其他语种情感语音数据；

步骤二、对情感语音数据进行预处理，生成含相位的声谱图；

步骤三、去除声谱图前后静音段，后输入至网络得到语音深度特征信息，计算得到语音深度特征最大均值误差；

步骤四、将语音深度特征信息输入至分类网络计算得到带标签数据输出的分类概率，结合向量化标签数据得到的标签表征，计算含标注信息的英文情感语音数据分类误差；

步骤五、根据语音深度特征最大均值误差和含标注信息的英文情感语音数据分类误差，训练得到跨语言情感语音分类模型；

步骤六、输入待预测音频处理后的声谱图至训练好的跨语言情感语音分类模型，预测出语音情感。

进一步的，所述步骤一，具体包括以下步骤：

S1、通过网络搜索开源数据集，下载带情感标注的英文语音数据，英文语音数据表示为

，标签数据表示为

；

S2、通过网络搜索或者主动录音采集，下载不含情感标注的非英文语种语音数据，表示为

。

进一步的，所述步骤二，具体为：

S3、对S1和S2采集的语音数据

和

，通过短时傅里叶变换，生成带相位信息的声谱图信息即梅尔谱图信号，分别对应表示为

、

。

进一步的，所述步骤三，具体包括以下步骤：

S4、对S3生成的梅尔谱图信号

、

，计算不同时间帧声谱图信息的能量大小，通过设置阈值，切除前后静音段，得到长度为的声谱图信息，分别表示为

、

；

S5、将S4得到的

、

输入到由复数网络结构构成的特征提取子网络，得到语音深度特征信息

和

；

S6、将S5得到的语音深度特征信息

和

，通过最小化均值误差，得到模型特征相似度损失

，表达式为：

其中，n_s是输入模型的英文数据数量，n_t是输入模型其他语种数据数量，x_i 与x_j为

特征的下标分别为i和j的元素，

特征为矩阵，表示为：

y_i与y_j为

特征的下标分别为i和j的元素，

特征矩阵，表示为：

k表示高斯核函数，可表示为：

其中，b根据数据集进行调整取值。

进一步的，所述步骤四，具体包括以下步骤：

S7、将S5得到的语音深度特征信息

输入到情感分类处理网络，得到情感预测概率特征

；

S8、将S1得到的标签数据使用One-hot技术进行表征，得到标签表征，表示为

；

S9、将S7得到的情感预测概率特征

和S8得到的标签表征

，通过交叉熵函数，计算得到模型损失

，表达式为：

其中，C是情感类别数量。

进一步的，所述步骤五，具体为：

S10、将S6得到的模型特征相似度损失

和S9得到的模型损失

进行累加后通过神经网络梯度更新方法，优化网络模型，得到训练好的跨语言情感语音分类模型。

进一步的，所述步骤六，具体为：

S11、将待预测的任意语种语音

进行预处理，生成带相位声谱图信号

，将此梅尔谱图信号输入到训练好的跨语言情感语音分类模型，预测得到语音的情感类别。

一种基于共性特征提取的跨语种语音情感识别系统，包括：

语音信号采集模块，用于采集用户语音信号，语音信号包括含标注信息的英文情感语音数据和不含标注信息的其他语种情感语音数据；

语音信号预处理模块，用于将采集到的语音信号进行预处理，生成含相位的声谱图，再进行端点检测，去除声谱图信号前后静音段，生成可用于神经网络处理的数据；

跨语种语音情感识别模块，用于通过设计的复数网络模型处理声谱图，得到语音深度特征信息，训练出情感识别模型，预测用户音频的情感类型；

分析存储模块，用于利用Oracle数据库，存储用户的语音数据和情感标签数据，并根据实际业务进行统计分析。

进一步的，所述预处理，具体包括：预加重、分帧、加窗、短时傅里叶变换、静音去除操作，将语音信号从时域信号转换到频域信号，即从音频采样转换成声谱特征；其中采用谱减法对语音进行静音去噪，采用Z变换方法对语音进行预加重，采用短时傅里叶变换方法对语音进行声谱特征提取。

本发明的优点：

1、本发明的基于共性特征提取的跨语种语音情感识别方法，通过最小化网络提取的不同语种的隐含特征的最大均值误差，提取不同语种音频共有的情感信息，有效实现跨语种语音情感的目的；

2、本发明的基于共性特征提取的跨语种语音情感识别方法，利用复数网络提取语谱图信息，能够从语音中提取出与情感发音相关的相位信息，能够使得模型的识别精度更高；

3、本发明的基于共性特征提取的跨语种语音情感识别系统集成了跨语言的语音情感识别模型，能够实现跨语种的语音情感识别，适用于跨地区使用的语音情感识别场景，例如：跨地区的电话、视频会议系统的会议内容自动分析等。

附图说明

图1为本发明的跨语种语音情感识别系统的结构示意图；

图2为本发明的跨语种语音情感识别方法的流程示意图；

图3为本发明的跨语种语音情感识别方法的网络结构示意图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图，对本发明作进一步详细说明。

如图2所示，一种基于共性特征提取的跨语种语音情感识别方法，包括如下步骤：

S1、采集含标注信息的英文情感语音数据：

通过网络搜索开源数据集，下载带情感标注的英文语音数据，英文语音数据表示为

，标签数据表示为

；

S2、采集不含标注信息的其他语种情感语音数据：

通过网络搜索或者主动录音采集，下载不含情感标注的非英文语种语音数据，表示为

；

S3、预处理语音信号，生成含相位的声谱图：

对S1和S2采集的语音数据

和

，通过短时傅里叶变换等操作，生成带相位信息的声谱图信息即梅尔谱图信号，分别对应表示为

、

；

S4、声谱图去前后静音段：

对S3生成的梅尔谱图信号

、

、

；

S5、输入语谱图到网络求取语音深度特征信息：

将S4得到的

、

和

；如图3所示，所述复数网络结构是近年信号处理领域用到的神经网络结构。

S6、计算语音深度特征最大均值误差：

将S5得到的语音深度特征信息

和

，通过最小化均值误差，得到模型特征相似度损失

，使得提取的两种特征信息是一种拥有共同分布的特征；

具体的，所述模型特征相似度损失计算方法如下：

中，n_s是输入模型的英文数据数量，n_t是输入模型其他语种数据数量。x_i与 x_j为

特征的下标分别为i和j的元素，

特征是一个矩阵，可表示为：

中，y_i与y_j为

特征的下标分别为i和j的元素，

特征矩阵，可表示为：

中，k表示高斯核函数，可表示为：

其中，b根据数据集进行调整取值，可取1等数值。

S7、输入语音深度特征信息到分类网络计算带标签数据输出的分类概率：

将S5得到的语音深度特征信息

输入到情感分类处理网络，得到情感预测概率特征

；

S8、将标注数据的标签进行向量化表示：

将S1得到的标签使用One-hot技术进行表征，得到标签表征，表示为

；

S9、计算标注数据分类误差：

将S7得到的情感预测概率特征

和S8得到的标签表征

，通过交叉熵函数，计算得到模型损失

。

具体的，所述交叉熵函数计算方法如下：

其中，C是情感类别数量，通常取值为7，n_s是一次输入训练模型的英文带标签样本数量。

10、根据两个误差更新训练网络，得到情感识别模型M：

将S6得到的模型损失

和S9得到的模型损失

进行累加后通过神经网络梯度更新方法，优化网络模型，以此得到训练好的跨语言情感语音分类模型M。

S11、输入待预测音频处理后的语谱图到模型M，预测语音情感：

将待预测的任意语种语音

进行预处理，生成带相位声谱图信号

，将此梅尔谱图信号输入到模型分类模型M，通过神经网络推导步骤，就可以得到语音的情感类别。

如图1所示，一种基于共性特征提取的跨语种语音情感识别系统，包括：

语音信号采集模块，采用高保真单麦克风或者麦克风阵列，用于采集用户语音信号；

语音信号预处理模块，用于将采集到的语音信号进行预处理，生成含相位的声谱图，再进行端点检测，去除声谱图信号前后静音段，生成可用于神经网络处理的数据；其中，所述预处理，具体包括：预加重、分帧、加窗、短时傅里叶变换、静音去除操作，将语音信号从时域信号转换到频域信号，即从音频采样转换成声谱特征；其中采用谱减法对语音进行静音去噪，采用Z变换方法对语音进行预加重，采用短时傅里叶变换方法对语音进行声谱特征提取；

分析存储模块，用于利用Oracle等数据库，存储用户的语音数据和情感标签数据，并根据实际业务进行统计分析。

以上所述，仅为本发明的优选实施案例，并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明，对于熟悉本领域的人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于共性特征提取的跨语种语音情感识别方法，其特征在于，包括如下步骤：

步骤四、将语音深度特征信息输入至分类网络计算得到带标签数据输出的分类概率，结合向量化标签数据得到的标签表征，计算得到含标注信息的英文情感语音数据分类误差；

步骤六、输入待预测音频处理后的声谱图至训练好的跨语言情感语音分类模型，预测出语音情感；

其中，所述步骤一，具体包括以下步骤：

，标签数据表示为

；

；

所述步骤二，具体为：

S3、对S1和S2采集的语音数据

和

、

；

所述步骤三，具体包括以下步骤：

S4、对S3生成的梅尔谱图信号

、

、

；

S5、将S4得到的

、

和

；

S6、将S5得到的语音深度特征信息

和

，通过最小化均值误差，得到模型特征相似度损失

，表达式为：

其中，n_s是输入模型的英文数据数量，n_t是输入模型其他语种数据数量，x_i与x_j为

特征的下标分别为i和j的元素，

特征为矩阵，表示为：

y_i与y_j为

特征的下标分别为i和j的元素，

特征矩阵，表示为：

k表示高斯核函数，可表示为：

其中，b根据数据集进行调整取值；

所述步骤四，具体包括以下步骤：

S7、将S5得到的语音深度特征信息

输入到情感分类处理网络，得到情感预测概率特征

；

；

S9、将S7得到的情感预测概率特征

和S8得到的标签表征

，通过交叉熵函数，计算得到模型损失

，表达式为：

其中，C是情感类别数量。

2.如权利要求1所述的一种基于共性特征提取的跨语种语音情感识别方法，其特征在于，所述步骤五，具体为：

S10、将S6得到的模型特征相似度损失

和S9得到的模型损失

3.如权利要求2所述的一种基于共性特征提取的跨语种语音情感识别方法，其特征在于，所述步骤六，具体为：

S11、将待预测的任意语种语音

进行预处理，生成带相位声谱图信号

4.一种基于共性特征提取的跨语种语音情感识别系统，其特征在于，包括：

5.如权利要求4所述的一种基于共性特征提取的跨语种语音情感识别系统，其特征在于，所述预处理，具体包括：预加重、分帧、加窗、短时傅里叶变换、静音去除操作，将语音信号从时域信号转换到频域信号，即从音频采样转换成声谱特征；其中采用谱减法对语音进行静音去噪，采用Z变换方法对语音进行预加重，采用短时傅里叶变换方法对语音进行声谱特征提取。