CN117079673A

CN117079673A - 一种基于多模态人工智能的智能情绪识别方法

Info

Publication number: CN117079673A
Application number: CN202311340057.1A
Authority: CN
Inventors: 徐绍杰; 侯志军; 于晓鲁; 孙雷; 徐勇; 李同庆; 邢德鹏
Original assignee: Qingdao Mingweisoft Information Technology Co ltd
Current assignee: Qingdao Mingweisoft Information Technology Co ltd
Priority date: 2023-10-17
Filing date: 2023-10-17
Publication date: 2023-11-17
Anticipated expiration: 2043-10-17
Also published as: CN117079673B

Abstract

本发明涉及语音识别技术领域，提出了一种基于多模态人工智能的智能情绪识别方法，包括：获取个体音频信号，进而获取字节音频信号；获取字节音频信号对应的音强高昂度；获取字节音频信号对应的个体频谱图，获取个体频谱图对应的音调高昂度；获取字节音频信号和其对应的个体频谱图对应的同一发音字节对应的字节高昂度，获取个体音频信号对应的情绪中性置信度；根据个体音频信号对应的情绪中性置信度和个体音频信号获取语音数据向量和文本数据向量，获取多模态特征向量，根据多模态特征向量获取个体音频信号对应的情绪识别结果。本发明旨在解决现有的语音识别过程中，对中性情绪识别精度较低的问题。

Description

一种基于多模态人工智能的智能情绪识别方法

技术领域

本发明涉及语音识别技术领域，具体涉及一种基于多模态人工智能的智能情绪识别方法。

背景技术

当前通常使用面部表情或语音对个体的情绪进行识别。然而，由于隐私保护的需要和特定情境下不方便获取个体的面部图像，所以，实际操作过程中往往仅采集个体的语音信息对个体的情绪进行识别。

然而，现有的根据语音数据进行情绪识别的算法，在变长语音输入情况下有时会面对特征数量大的情况，现有情绪识别算法对语音数据的特征提取方式过于简单，无法有效提取对情绪识别贡献高的有用特征，同时，现有情绪识别算法对人为设计的特征利用率低，最终导致中性情绪易与高兴、愤怒、悲伤等非中性情绪混淆，中性情绪识别精度低的问题。所以，需要一种可额外提取语音特征帮助情绪识别、对中性情绪识别精度较高的情绪识别方法。

发明内容

本发明提供一种基于多模态人工智能的智能情绪识别方法，以解决现有的语音识别过程中，对中性情绪识别精度较低的问题，所采用的技术方案具体如下：

本发明一个实施例提供了一种基于多模态人工智能的智能情绪识别方法，该方法包括以下步骤：

获取个体音频信号，获取个体音频信号的共振峰，获取共振距离序列，根据共振距离序列建立散点图，根据散点图获取字节音频信号；

获取字节音频信号内包含的共振峰的数量、共振峰的振幅和振幅的信息熵，获取字节音频信号对应的音强高昂度；

获取字节音频信号对应的个体频谱图，根据个体频谱图获取一级幅度，根据一级幅度获取个体频谱图对应的音调高昂度；

根据字节音频信号对应的音强高昂度和个体频谱图对应的音调高昂度，获取字节音频信号和其对应的个体频谱图对应的同一发音字节对应的字节高昂度，根据个体音频信号内包含的所有同一发音字节对应的字节高昂度，获取个体音频信号对应的情绪中性置信度；

根据个体音频信号对应的情绪中性置信度和个体音频信号获取语音数据向量和文本数据向量，获取多模态特征向量，根据多模态特征向量获取个体音频信号对应的情绪识别结果。

进一步，所述获取个体音频信号，获取个体音频信号的共振峰，获取共振距离序列，包括的具体方法为：

使用音频采集设备采集需要进行情绪识别的个体的音频信号，将去噪后的音频信号记为个体音频信号；

获取个体音频信号的共振峰和每个共振峰对应的音频采集时刻；

分别将每个共振峰作为待测共振峰，将待测共振峰后一时刻的共振峰记为待测共振峰的相邻共振峰；

将每个待测共振峰的相邻共振峰与待测共振峰的音频采集时刻之差记为待测共振峰的共振距离；

将个体音频信号的所有共振峰的共振距离按照共振峰的采集时刻进行排列，获取共振距离序列，将共振距离在共振距离序列中的次序记为共振距离的序号。

进一步，所述根据共振距离序列建立散点图，根据散点图获取字节音频信号，包括的具体方法为：

以共振距离的序号为横轴，以共振距离的音频采集时刻为纵轴建立散点图，获取每个共振距离在散点图中对应的散点；

对散点图中的所有散点进行聚类，获取多个聚类簇；

选取同一聚类簇内包含的所有散点对应的共振峰，选取所有共振峰的音频采集时刻中最为靠前和最为靠后的音频采集时刻，将最为靠前的音频采集时刻至最为靠后的音频采集时刻确定的时间段对应的音频信号记为字节音频信号；

获取每个聚类簇对应的字节音频信号。

进一步，所述获取字节音频信号内包含的共振峰的数量、共振峰的振幅和振幅的信息熵，获取字节音频信号对应的音强高昂度，包括的具体方法为：

获取字节音频信号内包含的共振峰的数量、共振峰的振幅和振幅的信息熵；

根据字节音频信号内包含的共振峰的数量和共振峰的振幅，获取字节音频信号内包含的共振峰的振幅的均值；

将字节音频信号内包含的共振峰的振幅的均值与振幅的信息熵的比值记为字节音频信号对应的音强高昂度。

进一步，所述获取字节音频信号对应的个体频谱图，根据个体频谱图获取一级幅度，包括的具体方法为：

获取节音频信号对应的个体频谱图；

获取个体频谱图中的频谱波峰；

获取个体频谱图中的频谱波峰对应的幅度的自适应划分阈值，将频谱波峰对应的幅度中大于自适应划分阈值的幅度标记为一级幅度。

进一步，所述根据一级幅度获取个体频谱图对应的音调高昂度，包括的具体方法为：

获取个体频谱图内包含所有一级幅度的幅度均值和一级幅度的信息熵；

将体频谱图内包含所有一级幅度的幅度均值与一级幅度的信息熵的比值记为个体频谱图对应的音调高昂度。

进一步，所述根据字节音频信号对应的音强高昂度和个体频谱图对应的音调高昂度，获取字节音频信号和其对应的个体频谱图对应的同一发音字节对应的字节高昂度，包括的具体方法为：

获取字节音频信号和字节音频信号对应的个体频谱图对应的同一发音字节；

将字节音频信号对应的个体频谱图对应的音调高昂度记为字节音频信号对应的音调高昂度；

将字节音频信号对应的音强高昂度和字节音频信号对应的音调高昂度的乘积记为第一乘积；

将第一乘积记为所述同一发音字节对应的字节高昂度。

进一步，所述根据个体音频信号内包含的所有同一发音字节对应的字节高昂度，获取个体音频信号对应的情绪中性置信度，包括的具体方法为：

将个体音频信号中包含的所有发音字节对应的字节高昂度的中值记为第一中值；

将个体音频信号中包含的所有发音字节对应的字节高昂度与第一中值的差的绝对值的均值记为第一均值；

将第一均值与第一中值的乘积的线性归一化值记为第一归一化值；

将数字一与第一归一化值的差值记为个体音频信号对应的情绪中性置信度。

进一步，所述根据个体音频信号对应的情绪中性置信度和个体音频信号获取语音数据向量和文本数据向量，包括的具体方法为：

将同一获取时间的个体音频信号和个体音频信号对应的情绪中性置信度组成的数对记为获取时间的个体音频数对；

将连续第一预设阈值个个体音频数对按照获取的时间顺序排列为情绪中性置信度序列；

将情绪中性置信度序列输入LSTM长短期记忆递归神经网络，获取长短期记忆递归神经网络学习到的语音数据向量；

将个体音频信号转为文本数据；

将文本数据输入文本分类模型，获取文本分类模型学习到的文本数据向量。

进一步，所述获取多模态特征向量，根据多模态特征向量获取个体音频信号对应的情绪识别结果，包括的具体方法为：

将语音数据向量和文本数据向量进行平均加权，获取多模态特征向量；

将多模态特征向量作为Softmax分类器的输入，得到个体音频信号对应的情绪识别结果。

本发明的有益效果是：

本发明从获取的个体音频信号中识别共振峰，根据共振峰之间的共振距离获取字节音频信号，根据个体的情绪为中性时音强较小、振幅平缓的特征对每个字节音频信号进行评价，获取字节音频信号对应的音强高昂度；其次，获取每个字节音频信号对应的个体频谱图，根据个体的情绪为中性时音调平缓的特征对个体频谱图进行评价，获取个体频谱图对应的音调高昂度，进而根据字节音频信号对应的音强高昂度和个体频谱图对应的音调高昂度获取发音字节对应的字节高昂度，为语音特征的提取提供更为准确的评价，为后续情绪识别提供帮助；然后，根据语句中的不同发音字节表达的情绪不完全相同的特征，获取个体音频信号对应的情绪中性置信度，对个体音频信号表达的中性情绪的置信度进行更为准确地评价；最后，根据个体音频信号获取文本数据向量，根据情绪中性置信度和个体音频信号获取语音数据向量，根据文本数据向量和语音数据向量实现多模态智能情绪识别，在考虑个体音频信号的音强和音调的前提下，添加文本数据对情绪识别结果的影响，利用无情绪起伏影响的单一文字对情绪精准识别进行辅助，进一步提升中性情绪的识别精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例所提供的一种基于多模态人工智能的智能情绪识别方法流程示意图；

图2为多模态情绪识别框架示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明一个实施例所提供的一种基于多模态人工智能的智能情绪识别方法流程图，该方法包括以下步骤：

步骤S001、获取个体音频信号，获取个体音频信号的共振峰，获取共振距离序列，根据共振距离序列建立散点图，根据散点图获取字节音频信号。

在需要进行情绪识别的个体位置附近设置音频采集设备。音频采集设备用于采集需要进行情绪识别的个体的音频信号。其中，音频采集设备可选择录音笔、录音器等设备。

为了增强音频信号的质量，消除环境噪声干扰以及音频采集设备中的电流声等干扰噪声，采用维纳滤波对采集的音频信号进行去噪处理，其中，维纳滤波去噪为公知技术，不再赘述。将去噪后的音频信号记为个体音频信号。

对个体音频信号使用线性预测方法进行共振峰检测，获取共振峰。获取每个共振峰对应的音频采集时刻。分别将每个共振峰作为待测共振峰，将待测共振峰后一时刻的共振峰记为待测共振峰的相邻共振峰，将每个待测共振峰的相邻共振峰与待测共振峰的音频采集时刻之差记为待测共振峰的共振距离。将个体音频信号的所有共振峰的共振距离按照共振峰的采集时刻进行排列，获取共振距离序列。将共振距离在共振距离序列中的次序记为共振距离的序号。以共振距离的序号为横轴，以共振距离的音频采集时刻为纵轴建立散点图，获取每个共振距离在散点图中对应的散点。

由于同一字对应的音频信号一般包含3-5个共振峰，且这些共振峰的音频采集时刻接近，所以，以此为基础将对应同一个字的音频信号选取出来。以3为最小点数目，以10为最大半径，对散点图中的所有散点使用DBSCAN算法进行聚类，获取多个聚类簇。选取同一聚类簇内包含的所有散点对应的共振峰，选取所有共振峰的音频采集时刻中最为靠前和最为靠后的音频采集时刻，将最为靠前的音频采集时刻至最为靠后的音频采集时刻确定的时间段对应的音频信号记为字节音频信号。其中，使用DBSCAN算法对散点图中的所有散点进行聚类为公知技术，不再赘述。

至此，获取个体音频信号中的所有共振峰和字节音频信号。

步骤S002、获取字节音频信号内包含的共振峰的数量、共振峰的振幅和振幅的信息熵，获取字节音频信号对应的音强高昂度。

当需要进行情绪识别的个体的情绪较为中性时，在说话的过程中，每个字的音强较小，每个字对应的字节音频信号的振幅均较为平缓，而个体的情绪较为激动高昂时，在说话的过程中，每个字的音强较大，每个字对应的字节音频信号的振幅均较大。为提高中性情绪的识别精度，以此为依据对每个字节音频信号分别进行分析。

获取每个字节音频信号内包含的所有共振峰的数量和共振峰的振幅。获取每个字节音频信号内包含的所有共振峰的振幅的信息熵。当个体的情绪较为激动高昂时，则每个字对应的字节音频信号包含的所有共振峰的振幅的均值较大，信息熵较小；当个体的情绪较为中性时，则每个字对应的字节音频信号包含的所有共振峰的振幅的均值较小，信息熵较大。

根据上述分析，获取每个字节音频信号对应的音强高昂度。

式中，表示个体音频信号中第/>个字节音频信号对应的音强高昂度，其中，，/>表示个体音频信号中包含的字节音频信号的数量；/>表示第/>个字节音频信号内包含的第/>个共振峰的振幅，其中，/>；/>为第/>个字节音频信号内包含的共振峰的数量；/>表示第/>个字节音频信号内包含的共振峰的振幅的信息熵。

式中，表示个体音频信号中第/>个字节音频信号包含的所有共振峰的振幅的和，/>表示个体音频信号中第/>个字节音频信号包含的所有共振峰的振幅的均值。

当字节音频信号包含的所有共振峰的振幅的均值越大、共振峰的振幅的信息熵越小时，则字节音频信号对应的音强高昂度越大，字节音频信号对应的个体发音的字节情绪越为激动高昂，即字节音频信号对应的字在个体的语句中表达的情绪为中性的置信度越小。

至此，获取每个字节音频信号对应的音强高昂度。

步骤S003、获取字节音频信号对应的个体频谱图，根据个体频谱图获取一级幅度，根据一级幅度获取个体频谱图对应的音调高昂度。

对字节音频信号使用离散傅里叶变换，获取频谱图，将频谱图记为字节音频信号对应的个体频谱图。其中，使用离散傅里叶变换获取频谱图为公知技术，具体过程不再赘述。由于每个字节音频信号对应一个个体频谱图，所以，个体音频信号中包含的字节音频信号的数量即为个体音频信号中包含的个体频谱图的数量。

对个体频谱图使用局部最大值和局部最小值进行频谱峰谷检测，获取个体频谱图中的频谱波峰。分别对每个个体频谱图中的频谱波峰对应的幅度使用OTSU最大类间方差法进行划分，获取自适应划分阈值，将频谱波峰对应的幅度中大于自适应划分阈值的幅度标记为一级幅度。获取每个个体频谱图中筛选出的一级幅度的数量以及一级幅度的信息熵。

当个体的情绪较为激动高昂时，则每个字的音调较高，每个字对应的个体频谱图中一级幅度的均值较大，信息熵较小；当个体的情绪较为中性时，则每个字的音调较低，每个字对应的个体频谱图中一级幅度的均值较小，信息熵较大。

根据上述分析，获取每个个体频谱图对应的音调高昂度。

式中，表示个体音频信号中第/>个个体频谱图对应的音调高昂度，其中，，/>表示个体音频信号中包含的个体频谱图的数量；/>表示第/>个个体频谱图内包含的第/>个一级幅度的幅度，其中，/>；/>表示第/>个个体频谱图内包含的一级幅度的数量；/>表示第/>个个体频谱图内包含的一级幅度的信息熵。

式中，表示个体音频信号中第/>个个体频谱图包含的所有一级幅度的和，/>表示个体音频信号中第/>个个体频谱图包含的所有一级幅度的均值。

当个体频谱图包含的一级幅度的均值越大、一级幅度的信息熵越小时，则个体频谱图对应的音调高昂度越大，个体频谱图对应的个体发音的字节情绪越为激动高昂，即个体频谱图对应的字在个体的语句中表达的情绪为中性的置信度越小。

至此，获取每个个体频谱图对应的音调高昂度。

步骤S004、根据字节音频信号对应的音强高昂度和个体频谱图对应的音调高昂度，获取字节音频信号和其对应的个体频谱图对应的同一发音字节对应的字节高昂度，根据个体音频信号内包含的所有同一发音字节对应的字节高昂度，获取个体音频信号对应的情绪中性置信度。

由于每个字节音频信号对应在个体的语句中表达的一个字，所以个体音频信号中包含的发音字节的数量即为个体音频信号中包含的字节音频信号的数量。

根据字节音频信号对应的音强高昂度和个体频谱图对应的音调高昂度，获取字节音频信号和其对应的个体频谱图对应的同一发音字节对应的字节高昂度。

式中，表示个体音频信号中第/>个发音字节对应的字节高昂度，其中，，/>表示个体音频信号中包含的发音字节的数量；/>表示个体音频信号中第/>个字节音频信号对应的音强高昂度，/>表示个体音频信号中第/>个个体频谱图对应的音调高昂度。

当字节音频信号对应的音强高昂度越大、个体频谱图对应的音调高昂度越大时，字节音频信号和其对应的个体频谱图对应的同一发音字节对应的字节高昂度越大，即发音字节传递的情绪越为激动高昂，发音字节表达的情绪为中性的置信度越小。

在每个个体用语言表达观点或者抒发情绪时，语句的情绪会带动声音起伏，使语句抑扬顿挫，所以，语句中的不同发音字节表达的情绪不完全相同，即不同发音字节对应的字节高昂度有所差异。为了更准确地识别出中性情绪，对个体音频信号中包含的发音字节对应的字节高昂度进行分析。

获取个体音频信号中包含的所有发音字节对应的字节高昂度的中值。

获取个体音频信号对应的情绪中性置信度。

式中，表示个体音频信号对应的情绪中性置信度；/>表示个体音频信号中包含的所有发音字节对应的字节高昂度的中值；/>表示个体音频信号中第/>个发音字节对应的字节高昂度，其中，/>；/>表示个体音频信号中包含的发音字节的数量；表示线性归一化函数，作用为取括号内的线性归一化值。

当个体音频信号中包含的所有发音字节对应的字节高昂度的中值越小，不同发音字节对应的字节高昂度差异越小时，则个体音频信号对应的情绪中性置信度越大，即个体音频信号对应的语句的情绪越为平静温和，个体音频信号对应的语句表达的情绪为中性的置信度越大。

至此，获取个体音频信号对应的情绪中性置信度。

步骤S005、根据个体音频信号对应的情绪中性置信度和个体音频信号获取语音数据向量和文本数据向量，获取多模态特征向量，根据多模态特征向量获取个体音频信号对应的情绪识别结果。

将同一获取时间的个体音频信号和个体音频信号对应的情绪中性置信度组成的数对记为获取时间的个体音频数对，将连续个个体音频数对按照获取的时间顺序排列为情绪中性置信度序列，将情绪中性置信度序列输入LSTM长短期记忆递归神经网络，获取长短期记忆递归神经网络学习到的语音数据向量。其中，/>为第一预设阈值，经验值为10；LSTM长短期记忆递归神经网络以Adam为优化算法，以MSE函数为损失函数，网络的构建和训练过程为公知技术，不再赘述。

对个体音频信号使用Whisper模型将语音信号转为文本数据。将文本数据输入文本分类模型，获取文本分类模型学习到的文本数据向量。其中，文本分类模型以SGD算法为优化算法，以多分类交叉熵为损失函数，模型的构建过程为公知技术，不再赘述。

将语音数据向量和文本数据向量进行平均加权，获取多模态特征向量，将多模态特征向量作为Softmax分类器的输入，得到个体音频信号对应的情绪识别结果。其中，情绪识别结果包括高兴，愤怒，伤心，惊讶，讨厌，害怕和中性。

进一步的，在上述获取情绪识别结果的过程中，添加文本数据对情绪识别结果的影响，可依据无情绪起伏影响音强和音调等因素的单一文字，进一步提升中性情绪的识别的精度。

根据个体音频信号对应的情绪中性置信度和个体音频信号获取个体音频信号对应的情绪识别结果的多模态情绪识别框架示意图如图2所示。

至此，完成对情绪的识别。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多模态人工智能的智能情绪识别方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种基于多模态人工智能的智能情绪识别方法，其特征在于，所述获取个体音频信号，获取个体音频信号的共振峰，获取共振距离序列，包括的具体方法为：

3.根据权利要求2所述的一种基于多模态人工智能的智能情绪识别方法，其特征在于，所述根据共振距离序列建立散点图，根据散点图获取字节音频信号，包括的具体方法为：

对散点图中的所有散点进行聚类，获取多个聚类簇；

获取每个聚类簇对应的字节音频信号。

4.根据权利要求1所述的一种基于多模态人工智能的智能情绪识别方法，其特征在于，所述获取字节音频信号内包含的共振峰的数量、共振峰的振幅和振幅的信息熵，获取字节音频信号对应的音强高昂度，包括的具体方法为：

5.根据权利要求1所述的一种基于多模态人工智能的智能情绪识别方法，其特征在于，所述获取字节音频信号对应的个体频谱图，根据个体频谱图获取一级幅度，包括的具体方法为：

获取节音频信号对应的个体频谱图；

获取个体频谱图中的频谱波峰；

6.根据权利要求1所述的一种基于多模态人工智能的智能情绪识别方法，其特征在于，所述根据一级幅度获取个体频谱图对应的音调高昂度，包括的具体方法为：

7.根据权利要求1所述的一种基于多模态人工智能的智能情绪识别方法，其特征在于，所述根据字节音频信号对应的音强高昂度和个体频谱图对应的音调高昂度，获取字节音频信号和其对应的个体频谱图对应的同一发音字节对应的字节高昂度，包括的具体方法为：

将第一乘积记为所述同一发音字节对应的字节高昂度。

8.根据权利要求1所述的一种基于多模态人工智能的智能情绪识别方法，其特征在于，所述根据个体音频信号内包含的所有同一发音字节对应的字节高昂度，获取个体音频信号对应的情绪中性置信度，包括的具体方法为：

9.根据权利要求1所述的一种基于多模态人工智能的智能情绪识别方法，其特征在于，所述根据个体音频信号对应的情绪中性置信度和个体音频信号获取语音数据向量和文本数据向量，包括的具体方法为：

将个体音频信号转为文本数据；

10.根据权利要求1所述的一种基于多模态人工智能的智能情绪识别方法，其特征在于，所述获取多模态特征向量，根据多模态特征向量获取个体音频信号对应的情绪识别结果，包括的具体方法为：