CN116631450A

CN116631450A - 多模态语音情感识别方法、装置、设备及存储介质

Info

Publication number: CN116631450A
Application number: CN202310715208.0A
Authority: CN
Inventors: 张旭龙; 王健宗; 程宁; 赵嘉豪
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2023-06-15
Filing date: 2023-06-15
Publication date: 2023-08-22

Abstract

本发明公开了一种多模态语音情感识别方法，该方法包括获取至少一个音频数据；对音频数据的音频内容进行音频特征提取，得到梅尔频谱图、过零率特征图以及频谱质心特征图；基于梅尔频谱图、过零率特征图以及频谱质心特征图，确定语调特征；对音频数据进行语音识别，得到文本内容，并对文本内容进行文本特征提取，得到内容特征；将语调特征和内容特征进行拼接，得到音频拼接特征，并通过音频拼接特征确定情感识别结果。本发明通过语调特征和内容特征对音频数据进行情感识别，实现了多模态对音频数据的情感识别，提升了金融或保险等行业中情感识别的准确性。以及在面对复杂语音数据时，也可以准确识别语音中的情感。

Description

多模态语音情感识别方法、装置、设备及存储介质

技术领域

本发明涉及情感识别技术领域，尤其涉及一种多模态语音情感识别方法、装置、设备及存储介质。

背景技术

随着技术的发展，语音情感识别和自然语言处理已经取得了很大的进展，但由于人类情感的多变性和复杂性，人类仍然无法与机器进行自然地交流。因此，建立一套能够在人机交互中检测情感的系统是至关重要的。

现有技术中，情感识别通常是针对于单个模态，如：语音或图像等，在识别性能上存在一定的局限性，比如，现有技术中的情感识别主要利用的是语音中的声学特征和一些相关的韵律学特征，往往忽视了语音中的语调特征和文本特征。但在日常会话和社交中，语音往往是对一段文本内容的复述、二者密切相关。例如，在保险业务办理场景中，准确识别业务员回复用户的语音情绪十分重要，业务员回复的问题的情绪，影响着用户是否办理业务。如此，考虑到语音和文本模态之间的同一性、互补性和强相关联性，与单个模态相比，多种模态信息可以更加准确地捕捉情感。

发明内容

本发明实施例提供一种多模态语音情感识别方法、装置、设备及存储介质，以改善现有技术中单模态语音情感识别准确率较低的问题。

一种多模态语音情感识别方法，包括：

获取至少一个音频数据；

对所述音频数据的音频内容进行音频特征提取，得到梅尔频谱图、过零率特征图以及频谱质心特征图；

基于所述梅尔频谱图、所述过零率特征图以及所述频谱质心特征图，确定语调特征；

对所述音频数据进行语音识别，得到文本内容，并对所述文本内容进行文本特征提取，得到内容特征；

将所述语调特征和所述内容特征进行拼接，得到音频拼接特征，并对所述音频拼接特征进行情感识别，得到情感识别结果。

一种多模态语音情感识别装置，包括：

音频获取模块，用于获取至少一个音频数据；

音频特征提取模块，用于对所述音频数据的音频内容进行音频特征提取，得到梅尔频谱图、过零率特征图以及频谱质心特征图；

语调特征模块，用于基于所述梅尔频谱图、所述过零率特征图以及所述频谱质心特征图，确定语调特征；

文本特征提取模块，用于对所述音频数据进行语音识别，得到文本内容，并对所述文本内容进行文本特征提取，得到内容特征；

情感识别模块，用于将所述语调特征和所述内容特征进行拼接，得到音频拼接特征，并对所述音频拼接特征进行情感识别，得到情感识别结果。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述多模态语音情感识别方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述多模态语音情感识别方法。

本发明提供一种多模态语音情感识别方法、装置、设备及存储介质，该方法通过对获取的音频数据进行音频特征提取，实现了对梅尔频谱图、过零率特征图以及频谱质心特征图的获取。通过将梅尔频谱图、过零率特征图以及频谱质心特征图进行对齐拼接以及语调提取，实现了对音频内容中的语调特征的提取。通过对音频数据进行语音识别，实现了对文本内容的获取。通过对文本内容进行文本特征提取，实现了对内容特征的确定。将语调特征和内容特征进行拼接，实现了对音频拼接特征的获取，进而实现了对音频数据中多模态信息的提取。通过对拼接得到的音频拼接特征进行情感识别，实现了对情感识别结果的获取，进而确保了情感识别结果有较高的准确率。进一步地，通过语调特征和内容特征对音频数据进行情感识别，实现了多模态对音频数据进行情感识别。进而在面对复杂语音数据时，也可以准确识别语音数据中的情感。通过多模态更准确的捕捉音频数据的情感，提升了金融或保险等行业中情感识别的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中多模态语音情感识别方法的应用环境示意图；

图2是本发明一实施例中多模态语音情感识别方法的流程图；

图3是本发明一实施例中多模态语音情感识别方法步骤S30的流程图；

图4是本发明一实施例中文本模型训练方法的流程图；

图5是本发明一实施例中多模态语音情感识别装置的原理框图；

图6是本发明一实施例中计算机设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的多模态语音情感识别方法，该多模态语音情感识别方法可应用如图1所示的应用环境中。具体地，该多模态语音情感识别方法应用在多模态语音情感识别装置中，该多模态语音情感识别装置包括如图1所示的客户端和服务器，客户端与服务器通过网络进行通信，用于改善现有技术中单模态语音情感识别准确率较低的问题。其中，该服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。客户端又称为用户端，是指与服务器相对应，为客户提供分类服务的程序。客户端可安装在但不限于各种计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。

在一实施例中，如图2所示，提供一种多模态语音情感识别方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S10：获取至少一个音频数据。

可理解地，音频数据为需要进行情感识别的语音。例如，在人工客服场景中，音频数据为用户和客服之间的对话去噪后的数据。或者，在银行开户或证劵开户场景中，原始语音数据还可以是客户和工作人员的对话去噪后的数据。音频数据可以为从不同的数据库中获取的，也可以是由客户端发送到服务器中预先准备好的。

S20：对所述音频数据的音频内容进行音频特征提取，得到梅尔频谱图、过零率特征图以及频谱质心特征图。

S30，基于所述梅尔频谱图、所述过零率特征图以及所述频谱质心特征图，确定语调特征。

可理解地，梅尔频谱图为在梅尔刻度下的频谱图。过零率特征图为在每帧中信号从正变为负或从负变为正的次数的图。频谱质心特征图为在一定频率范围内通过能量加权平均的频率的图。语调特征为说话人用语调所表示的态度或口气。

具体地，在得到音频数据之后，对音频数据的音频内容进行音频特征提取，也即对音频数据的音频内容进行梅尔频谱特征提取，例如，可以通过MFCC对音频数据进行梅尔频谱特征提取，从而得到梅尔频谱图；对音频数据的音频内容进行过零率特征提取，从而得到过零率特征图；对音频数据的音频内容进行频谱质心特征提取，即可得到频谱质心特征图。进一步地，将梅尔频谱图、过零率特征图以及频谱质心特征图进行对齐拼接，即可得到混合输入特征。再通过预设的神经网络对混合输入特征进行语调特征提取，即可得到语调特征。例如，在坐席质检场景中，对坐席回复用户的语音内容进行特征提取，从而判断坐席是否带入个人情绪。或者，在心理医疗场中，对用户的语音情绪进行识别，从而判断如何进行心理辅导。

S40：对所述音频数据进行语音识别，得到文本内容，并对所述文本内容进行文本特征提取，得到内容特征。

可理解地，文本内容为与音频数据对应的文本。内容特征为用于表征文本内容的特征。

具体地，获取预设的语音识别模型(若音频数据较少时，可以使用开源的自动语音识别模型进行提取)，将所有音频数据均输入到语音识别模型中，通过语音识别模型对音频数据进行语音识别，即对音频数据进行分帧，也即使用移动窗函数将音频数据划分为一段一段的，得到分帧单元。分帧单元与分帧单元之间是有部分交叠的，然后对所有分帧单元进行特征提取，得到MFCC特征。通过声学模型对MFCC特征进行编码，得到音素信息。再通过语言模型对音素信息进行文字识别，即可得到文本内容。进一步地，通过文本模型对文本内容进行文本特征提取，也即通过文本模型从文本内容中提取表征该文本的重要内容，即可得到内容特征。例如，在银行业务场景中，现在信用卡办理有优惠，您是否需要办理？通过模型将工作人员和用户之间的对话语音转换成文本，从而对文本中的特征进行提取，得到文本的内容特征。

S50：将所述语调特征和所述内容特征进行拼接，得到音频拼接特征，并对所述音频拼接特征进行情感识别，得到情感识别结果。

可理解地，情感识别结果为对音频数据中的情感进行识别得到的结果和概率值。音频拼接特征为语调特征和内容特征拼接或融合得到的。

具体地，在得到内容特征之后，将与同一个音频数据对应的语调特征和内容特征进行拼接，也即可以将语调特征和内容特征直接拼接在一起，也可以将语调特征和内容特征进行融合，从而得到音频拼接特征。获取预设情感识别模型，将音频拼接特征输入到预设情感分类模型中，通过预设情感分类模型对音频拼接特征进行情感识别，也即对音频数据中包含的所有情感进行预测识别，即可得到与音频数据对应的至少一个情感识别结果。例如，在保险业务购买场景中，对业务员回复用户的语音的语调特征和文本的内容特征进行情感识别，从而实现准确识别业务员是否带入个人情绪回复用户问题。或者，在心理医疗场景中，通过用户的语调特征和文本的内容特征进行情感识别，从而实现准确识别用户的心理情感，对用户进行合理的心理辅导。

在本发明实施例中的一种多模态语音情感识别方法，该方法通过对获取的音频数据进行音频特征提取，实现了对梅尔频谱图、过零率特征图以及频谱质心特征图的获取。通过将梅尔频谱图、过零率特征图以及频谱质心特征图进行对齐拼接以及语调提取，实现了对音频内容中的语调特征的提取。通过对音频数据进行语音识别，实现了对文本内容的获取。通过对文本内容进行文本特征提取，实现了对内容特征的确定。将语调特征和内容特征进行拼接，实现了对音频拼接特征的获取，进而实现了对音频数据中多模态信息的提取。通过对拼接得到的音频拼接特征进行情感识别，实现了对情感识别结果的获取，进而确保了情感识别结果有较高的准确率。进一步地，通过语调特征和内容特征对音频数据进行情感识别，实现了多模态对音频数据进行情感识别。进而在面对复杂语音数据时，也可以准确识别语音数据中的情感。通过多模态更准确的捕捉音频数据的情感，提升了金融或保险等行业中情感识别的准确性。

在一实施例中，步骤S10中，也即获取至少一个音频数据，包括：

S101，获取原始语音数据，并对所述原始语音数据进行分帧处理，得到至少一个分帧数据；

S102，对所有所述分帧数据进行端点检测，得到与各所述分帧数据对应的起始点和终止点；

S103，根据所有所述分帧数据的起始点和终止点对所述原始语音数据进行去噪处理，得到音频数据。

可理解地，原始语音数据为需要进行语音检测的音频。例如，在人工智能客服场景中，原始语音数据为用户和客服之间的对话。或者，在智能会议场景中，原始语音数据还可以是不同用户之间的对话。分帧数据为对原始语音数据进行划分得到的。起始点为每个分帧数据中语音区域的开始位置。终止点为每个分帧数据中语音区域的结束位置。其中，每个分帧数据中可能包括其中一个端点或不包括端点。音频数据为仅包括语音区域的数据，如在智能会议场景中，音频数据仅包括不同用户之间的对话。

具体地，从服务器中调取原始语音数据，或者由用户从客户端发送至服务器的原始语音数据。对原始语音数据进行切割处理，也即可以通过固定的频段将原始语音数据划分为一段一段的语音数据，例如，在保险购买场景中，将一段长2秒的业务员和客户之间的原始语音数据划分为180段语音数据。每个分割单元包含数量相同的信号采样点，并将一段一段的语音数据确定为分帧数据。然后计算每个分帧数据中信号的能量值。如果在原始语音数据的前端部分连续若干个分帧数据的能量值低于预设能量阈值(该预设能量值阈值可以根据需求进行设定)，接下来的连续若干个分帧数据能量值大于或等于预设能量阈值，则在信号能量增大的地方就是语音数据的起始点。同理的，如果连续的若干个分帧数据中语音的能量较大，随后若干个分帧数据中语音的能量变小，并且持续一定的时长，可以认为在能量减小的地方即是原始语音数据的结束点。从而确定每段分帧数据中的起始点和终止点。将每段分帧数据中的起始点和终止点之间的语音数据保留，将各个分帧数据之间(第一个分帧数据终止点和第二个分帧数据起始点之间)的语音数据进行删除，并依次删除所有非语音数据。将所有保留的分帧数据按照分割顺序进行拼接，从而得到音频数据。

本发明实施例通过计算每段分帧数据中的信号的能量值，并将分帧数据的能量值和预设能量值阈值进行比较，实现了对每段分帧数据中起始点和/或终止点的确定。根据每段分帧数据中起始点和/或终止点按照顺序将每个终止点和下一个起始点之间的非语音数据进行删除，实现了对音频数据的提取，减少了语音数据的冗余。

在一实施例中，步骤S20中，也即对所述音频数据的音频内容进行音频特征提取，得到梅尔频谱图、过零率特征图以及频谱质心特征图，包括：

S201，通过librosa库中的梅尔频谱函数对所述音频内容进行特征提取，得到梅尔频谱图。

可理解地，梅尔频谱为基于以非线性的梅尔刻度将傅立叶变换频谱转换为更符合人耳听觉的频谱图。

具体地，在得到音频内容之后，使用librosa库中的函数将音频内容转成对应的傅立叶变换频谱，也即对音频内容的wav文件进行读取，得到音频时间序列和采样率。再对音频文件进行重新采样，也即调整重采样信号的长度，使得到原始采样率和目标采样率大小恰好为，得到重采样之后的音频数组。读取时长，得到持续时间(以秒为单位)，进而读取采样率，得到音频内容的采样率。根据持续时间和采样率进行写音频，并将时间序列输出为音频文件。计算音频时间序列的过零率，以及绘制音频内容的波形图，再通过短时傅里叶变换对波形图进行变换，得到短时傅里叶矩阵。短时傅里叶逆变换对短时傅里叶矩阵进行逆变换，得到时域信号，对时域信号进行幅度转换以及功率转换，从而得到傅里叶变换频谱。通过梅尔滤波器对傅里叶变换频谱进行转换处理，即将线形的自然频谱转换为体现人类听觉特性的梅尔频谱，从而得到与音频内容对应的梅尔频谱。

S202，通过librosa库中的过零率函数对所述音频内容进行特征提取，得到过零率特征图。

可理解地，过零率(zero crossing rate)是一个信号符号变化的比率，即，在每帧中信号从正变为负或从负变为正的次数。

具体地，通过librosa库中的过零率函数对音频内容进行特征提取，也即对音频内容的wav文件进行读取，得到音频时间序列和采样率。再对音频文件进行重新采样，也即调整重采样信号的长度，使得到原始采样率和目标采样率大小恰好为，得到重采样之后的音频数组。读取时长，得到持续时间(以秒为单位)，进而读取采样率，得到音频内容的采样率。根据持续时间和采样率进行写音频，并将时间序列输出为音频文件。通过过零率函数计算音频时间序列的过零率，即可得到过零率特征图。

S203，通过librosa库中的频谱质心函数对所述音频内容进行特征提取，得到频谱质心特征图。

可理解地，频谱质心(Spectral Centroid)是频率成分的重心，是在一定频率范围内通过能量加权平均的频率。

具体地，使用librosa库中的函数将音频内容转成对应的傅立叶变换频谱，也即对音频内容的wav文件进行读取，得到音频时间序列和采样率。再对音频文件进行重新采样，也即调整重采样信号的长度，使得到原始采样率和目标采样率大小恰好为，得到重采样之后的音频数组。读取时长，得到持续时间(以秒为单位)，进而读取采样率，得到音频内容的采样率。根据持续时间和采样率进行写音频，并将时间序列输出为音频文件。计算音频时间序列的过零率，以及绘制音频内容的波形图，再通过短时傅里叶变换对波形图进行变换，得到短时傅里叶频谱。基于librosa库中的频谱质心函数对短时傅里叶频谱在每帧频率范围内进行能量加权平均，并将每帧转换为时间，即可频谱质心特征图。

本发明实施例通过梅尔频谱函数对音频内容进行梅尔频谱提取，实现了对梅尔频谱图的获取。通过过零率函数对音频内容进行过零率计算，实现了对过零率特征图的获取。通过频谱质心函数对音频内容进行谱质心的计算，实现了对频谱质心特征图的获取，提高了后续情感识别的准确性。

在一实施例中，如图3所示，步骤S30中，也即基于所述梅尔频谱图、所述过零率特征图以及所述频谱质心特征图，确定语调特征，包括：

S301，对所述梅尔频谱图、所述过零率特征图以及所述频谱质心特征图进行对齐拼接，得到混合输入特征。

S302，通过预设的CNN网络对所述混合输入特征进行语调特征提取，得到语调特征。

可理解地，混合输入特征为在时间维度上将三个特征图进行对齐拼接得到的。语调特征为说话人用语调所表示的态度或口气。例如，同样的句子，语调不同，意思可能会不相同。CNN网络包括预设数量层的CNN结构。

具体地，在得到特征图之后，对梅尔频谱图、过零率特征图以及频谱质心特征图进行对齐拼接，也即在时间维度上将梅尔频谱图、过零率特征图以及频谱质心特征图进行对齐，再将对齐后的梅尔频谱图、过零率特征图以及频谱质心特征图进行拼接，也即以时间为基础将每个时间内的三个特征进行拼接，即可得到混合输入特征。进一步地，获取预设的CNN网络，将所有混合输入特征输入到预设的CNN网络，通过预设的CNN网络对混合输入特征进行语调特征提取，也即通过卷积层对混合输入特征进行卷积处理，并通过ReLU激活函数进行激活处理，从而得到卷积特征。再通过池化层对卷积特征进行池化处理，也即对卷积特征的维度进行压缩，即可得到池化特征。如此，通过预设数量层(如5层或6层)卷积层和池化层之后，通过全连接层对池化特征进行特征提取，也即通过全连接层的隐藏层对池化特征进行语调特征提取，即可得到语调特征。例如，在保险场景中，对保险业务员的回答问题的语音进行语调特征提取；或者，在银行场景中，对银行工作人员回复的语调特征进行提取，即可得到对应的语调特征。

本发明实施例通过对梅尔频谱图、过零率特征图以及频谱质心特征图进行对齐拼接，实现了在时间维度上的对齐和拼接。通过预设的CNN网络对混合输入特征进行语调特征提取，实现了对音频数据中语调特征的提取，提升了后续情感识别的准确性。

在一实施例中，步骤S40中，也即对所述文本内容进行文本特征提取，得到内容特征，包括：

S401，获取文本模型，通过所述文本模型的输入层对所述文本内容进行嵌入处理，得到输入向量。

可理解地，输入向量为对文本内容进行向量嵌入得到的。

具体地，在得到文本内容之后，将文本内容输入到文本模型中，通过文本模型对文本内容的向量进行嵌入处理，即先确定文本内容的词向量，也即对文本内容添加两个特殊的标志位即CLS和SEP。然后，对词向量进行加权融合，也即将一个句子的语义向量添加到每个词向量上，即可得到句向量。最后通过文本模型学习到的位置功能，对词向量和句向量的位置向量进行确定。再将与同一个文本内容对应的词向量、句向量和位置向量进行相加，即可得到输入向量。

S402，通过所述文本模型的注意力层对所述输入向量进行注意力处理，得到注意力向量。

可理解地，注意力向量为对输入向量进行注意力处理得到的。

具体地，通过文本模型中注意力层的注意力机制对输入向量进行注意力处理，即通过多组注意力机制对输入向量中的Q向量，K向量，V向量进行计算，也即使用点积法计算输入向量中的Q向量和K向量之间的相关性得分，即用Q中每一个输入向量与K中每一个输入向量计算点积，并对Q向量和K向量之间的相关性得分进行归一化。然后通过softmax函数，将输入向量之间的得分转换成[0，1]之间的概率分布，并根据输入向量之间的概率分布，然后乘上对应的Values向量，即可得到注意力结果。将多组注意力结果进行拼接，并残差求和以及归一化处理，即可得到注意力向量。

S403，通过所述文本模型的输出层对所述注意力向量进行特征提取，得到内容特征。

具体地，通过文本模型的输出层对注意力向量进行特征提取，即通过预测层中的前馈神经网络的前向传播对注意力向量进行预测，也即通过多层隐藏单元以不同的权重对注意力向量进行计算，并残差求和以及归一化处理，得到概率值，并按照概率值对注意力向量进行特征提取，即可得到内容特征。例如在坐席质检场景中，对整轮客服和用户之间的对话进行转换得到文本内容。然后，再通过bert模型对文本内容进行特征提取，得到对应的内容特征。

本发明实施例通过文本模型对文本内容进行嵌入处理，实现了对输入向量的获取。通过对输入向量进行注意力处理，实现了对重要内容的确定，进而实现了对注意力向量的获取。通过对注意力向量进行特征提取，实现了对内容特征的获取，进而提高了后续情感识别的准确率。

在一实施例中，如图4所示，步骤S401之前，也即获取文本模型之前，包括：

S4011，获取样本训练数据集，所述样本训练数据集包括至少一个样本训练数据和与所述样本训练数据对应的样本标签。

可理解地，样本训练数据可以为各种文本，例如在人工智能客服场景的两人对话文本；或者，在会议视频场景下的多人对话文本；亦或者，在心理医疗场景中，心理师和用户的对话文本等。一个样本训练数据关联一个样本标签，样本标签用于表征样本训练数据的内容特征。样本训练数据和样本标签可以从不同的数据库中采集得到，也可以是从客户端发送到数据库中的预先准备好的。进而根据获取到的所有样本训练数据和与各样本训练数据对应的样本标签构建样本训练数据集。

S4012，获取预设训练模型，通过所述预设训练模型对所述样本训练数据进行特征提取，得到至少一个特征标签。

可理解地，预设训练模型为基于预训练的bert模型构建的。预测标签为预设训练模型对样本训练数据提取得到的特征。

具体地，在得到样本训练数据之后，获取预设训练模型，将所有样本训练数据和样本标签输入到预设训练模型中，通过预设训练模型对样本训练数据进行特征提取，也即通过预设训练模型的输入层对样本训练数据进行嵌入处理，即增加标志位确定词向量，再编码确定句向量，最后确定位置向量，再将与同一个样本训练数据对应的词向量、句向量和位置向量相加即可得到样本输入向量。通过预设训练模型的注意力层对样本输入向量进行注意力处理，即通过多组注意力机制对输入向量分别处理，再将注意力结果拼接后求和及归一化，即可得到样本注意力向量。最后，通过输出层对样本注意力向量进行特征提取，即可得到与各样本训练数据对应的特征标签。

S4013，根据同一所述样本训练数据对应的所述特征标签和所述样本标签，确定所述预设训练模型的预测损失值。

可理解地，预测损失值为对样本训练数据进行特征提取过程中生成的。

具体地，在得到预测标签之后，将样本训练数据对应的所有预测标签按照样本训练数据集中样本训练数据的顺序进行排列，进而将样本训练数据关联的预测标签，与序列相同的样本训练数据的样本标签进行比较；也即按照样本训练数据排序，将位于第一的样本训练数据对应的样本标签，与位于第一的样本训练数据对应的预测标签进行比较，通过损失函数确定样本标签与预测标签之间的损失值，直至所有样本标签与预测标签均比较完成，即可得到预设训练模型的预测损失值。

S4014，在所述预测损失值达到预设收敛条件时，将收敛之后的所述预设训练模型记录为文本模型。

可理解地，收敛条件可以为预测损失值小于设定阈值的条件，还可以为预测损失值经过了500次计算后值为很小且不会再下降的条件，停止训练。

具体地，在得到预测损失值之后，在预测损失值未达到预设的收敛条件时，通过预测损失值调整预设训练模型的初始参数，并将所有样本训练数据和样本标签重新输入至调整初始参数的预设训练模型中，对调整初始参数的预设训练模型进行迭代训练，即可得到与调整初始参数的预设训练模型对应的预测损失值。进而在该预测损失值未达到预设收敛条件时，根据该预测损失值再次调整预设训练模型的初始参数，使得再次调整初始参数的预设训练模型的预测损失值达到预设的收敛条件。如此，使得预设训练模型的准确率越来越高，预测的结果不断的向正确结果靠拢，直至预设训练模型的预测损失值达到预设收敛条件时，将收敛之后的预设训练模型确定为文本模型。

本发明实施例通过大量的样本训练数据对预设训练模型进行迭代训练，并通过损失函数计算预设训练模型的整体损失值，从而实现了对预设训练模型的预测损失值的确定。根据预测损失值对预设训练模型的初始参数进行调整，直至模型收敛，实现了对文本模型的确定，进而确保了文本模型有较高的准确率。

在一实施例中，步骤S50中，也即对所述音频拼接特征进行情感识别，得到情感识别结果，包括：

S501，获取预设情感识别模型；所述预设情感识别模型是基于全连接分类器构建。

S502，通过所述预设情感识别模型对所述音频拼接特征进行情感识别，得到与所述音频数据对应的情感识别结果。

可理解地，情感识别结果为音频数据中的情感和与情感对应的概率值。全连接分类器包括一个输入层、至少一个中间层和一个输入层。

具体地，在得到音频拼接特征之后，从数据库中获取基于全连接分类器构建的预设情感识别模型，将音频拼接特征输入到预设情感识别模型中，通过预设情感识别模型对音频拼接特征进行情感识别，即通过预设情感识别模型对所有音频拼接特征和以不同的权重值进行计算，权重值可以是随机给出的或者预先设置的，也即将音频拼接特征和所有权重值相乘，得到计算结果，并传输到中间层。通过所有中间层对计算结果进行计算预测，并通过激活函数将预测结果转换为情感识别结果，即可得到与个音频数据对应的至少一个情感识别结果。例如，在保险场景中，输入一段长为15秒的业务员和用户的对话语音，情感识别结果得到用户属于开心的概率为68％，属于高兴的概率为72％，悲伤的概率为2％。

本发明实施例通过预设情感识别模型对音频拼接特征进行情感识别，实现了对音频数据中所有种情感的识别，以及实现了每种情感概率的预测，进而提升了情感识别结果的准确率。

应理解，上述实施例中各步骤的序号的大小并不意味着执的行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种多模态语音情感识别装置，该多模态语音情感识别装置与上述实施例中多模态语音情感识别方法一一对应。如图5所示，该多模态语音情感识别装置包括音频获取模块11、音频特征提取模块12、语调特征模块13、文本特征提取模块14和情感识别模块15。各功能模块详细说明如下：

音频获取模块11，用于获取至少一个音频数据；

音频特征提取模块12，用于对所述音频数据的音频内容进行音频特征提取，得到梅尔频谱图、过零率特征图以及频谱质心特征图；

语调特征模块13，用于基于所述梅尔频谱图、所述过零率特征图以及所述频谱质心特征图，确定语调特征；

文本特征提取模块14，用于对所述音频数据进行语音识别，得到文本内容，并对所述文本内容进行文本特征提取，得到内容特征；

情感识别模块15，用于将所述语调特征和所述内容特征进行拼接，得到音频拼接特征，并对所述音频拼接特征进行情感识别，得到情感识别结果。

在一实施例中，所述音频获取模块11包括：

分帧单元，用于获取原始语音数据，并对所述原始语音数据进行分帧处理，得到至少一个分帧数据；

端点检测单元，用于对所有所述分帧数据进行端点检测，得到与各所述分帧数据对应的起始点和终止点；

去噪单元，用于根据所有所述分帧数据的起始点和终止点对所述原始语音数据进行去噪处理，得到音频数据。

在一实施例中，所述音频特征提取模块12包括：

梅尔频谱单元，用于通过librosa库中的梅尔频谱函数对所述音频内容进行特征提取，得到梅尔频谱图；

过零率单元，用于通过librosa库中的过零率函数对所述音频内容进行特征提取，得到过零率特征图；

频谱质心单元，用于通过librosa库中的频谱质心函数对所述音频内容进行特征提取，得到频谱质心特征图。

在一实施例中，所述语调特征模块13包括：

对齐拼接单元，用于对所述梅尔频谱图、所述过零率特征图以及所述频谱质心特征图进行对齐拼接，得到混合输入特征；

语调特征单元，用于通过预设的CNN网络对所述混合输入特征进行语调特征提取，得到语调特征。

在一实施例中，所述文本特征提取模块14包括：

嵌入单元，用于获取文本模型，通过所述文本模型的输入层对所述文本内容进行嵌入处理，得到输入向量；

注意力单元，用于通过所述文本模型的注意力层对所述输入向量进行注意力处理，得到注意力向量；

内容特征单元，用于通过所述文本模型的输出层对所述注意力向量进行特征提取，得到内容特征。

在一实施例中，所述嵌入单元还包括：

样本获取子单元，用于获取样本训练数据集，所述样本训练数据集包括至少一个样本训练数据和与所述样本训练数据对应的样本标签；

标签预测子单元，用于获取预设训练模型，通过所述预设训练模型对所述样本训练数据进行特征提取，得到至少一个特征标签；

损失预测子单元，用于根据同一所述样本训练数据对应的所述特征标签和所述样本标签，确定所述预设训练模型的预测损失值；

模型收敛子单元，用于在所述预测损失值达到预设收敛条件时，将收敛之后的所述预设训练模型记录为文本模型。

在一实施例中，所述情感识别模块15包括：

模型获取单元，用于获取预设情感识别模型；所述预设情感识别模型是基于全连接分类器构建；

情感识别单元，用于通过所述预设情感识别模型对所述音频拼接特征进行情感识别，得到与所述音频数据对应的情感识别结果

关于多模态语音情感识别装置的具体限定可以参见上文中对于多模态语音情感识别方法的限定，在此不再赘述。上述多模态语音情感识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例中多模态语音情感识别方法所用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多模态语音情感识别方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述多模态语音情感识别方法。

在一个实施例中，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述多模态语音情感识别方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围内。

Claims

1.一种多模态语音情感识别方法，其特征在于，包括：

获取至少一个音频数据；

2.如权利要求1所述的多模态语音情感识别方法，其特征在于，所述基于所述梅尔频谱图、所述过零率特征图以及所述频谱质心特征图，确定语调特征，包括：

对所述梅尔频谱图、所述过零率特征图以及所述频谱质心特征图进行对齐拼接，得到混合输入特征；

通过预设的CNN网络对所述混合输入特征进行语调特征提取，得到语调特征。

3.如权利要求1所述的多模态语音情感识别方法，其特征在于，所述对所述音频数据的音频内容进行音频特征提取，得到梅尔频谱图、过零率特征图以及频谱质心特征图，包括：

通过librosa库中的梅尔频谱函数对所述音频内容进行特征提取，得到梅尔频谱图；

通过librosa库中的过零率函数对所述音频内容进行特征提取，得到过零率特征图；

通过librosa库中的频谱质心函数对所述音频内容进行特征提取，得到频谱质心特征图。

4.如权利要求1所述的多模态语音情感识别方法，其特征在于，所述对所述文本内容进行文本特征提取，得到内容特征，包括：

获取文本模型，通过所述文本模型的输入层对所述文本内容进行嵌入处理，得到输入向量；

通过所述文本模型的注意力层对所述输入向量进行注意力处理，得到注意力向量；

通过所述文本模型的输出层对所述注意力向量进行特征提取，得到内容特征。

5.如权利要求4所述的多模态语音情感识别方法，其特征在于，所述获取文本模型之前，包括：

获取样本训练数据集，所述样本训练数据集包括至少一个样本训练数据和与所述样本训练数据对应的样本标签；

获取预设训练模型，通过所述预设训练模型对所述样本训练数据进行特征提取，得到至少一个特征标签；

根据同一所述样本训练数据对应的所述特征标签和所述样本标签，确定所述预设训练模型的预测损失值；

在所述预测损失值达到预设收敛条件时，将收敛之后的所述预设训练模型记录为文本模型。

6.如权利要求1所述的多模态语音情感识别方法，其特征在于，所述对所述音频拼接特征进行情感识别，得到情感识别结果，包括：

获取预设情感识别模型；所述预设情感识别模型是基于全连接分类器构建；

通过所述预设情感识别模型对所述音频拼接特征进行情感识别，得到与所述音频数据对应的情感识别结果。

7.如权利要求1所述的多模态语音情感识别方法，其特征在于，所述获取至少一个音频数据，包括：

获取原始语音数据，并对所述原始语音数据进行分帧处理，得到至少一个分帧数据；

对所有所述分帧数据进行端点检测，得到与各所述分帧数据对应的起始点和终止点；

根据所有所述分帧数据的起始点和终止点对所述原始语音数据进行去噪处理，得到音频数据。

8.一种多模态语音情感识别装置，其特征在于，包括：

音频获取模块，用于获取至少一个音频数据；

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述多模态语音情感识别方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述多模态语音情感识别方法。