CN115312033A

CN115312033A - 基于人工智能的语音情感识别方法、装置、设备及介质

Info

Publication number: CN115312033A
Application number: CN202210816258.3A
Authority: CN
Inventors: 于凤英; 王健宗; 程宁
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-07-12
Filing date: 2022-07-12
Publication date: 2022-11-08

Abstract

本发明涉及人工智能技术领域，尤其涉及一种基于人工智能的语音情感识别方法、装置、设备和介质。该方法对待识别语音信息进行分帧和加窗处理，得到语音帧序列，并提取待识别语音信息的语音特征张量和文本特征张量，将语音特征张量和文本特征张量对齐并进行特征提取，得到多模态特征，采用局部窗口对语音帧序列进行平均池化处理和全局最大池化处理，得到加强语音特征，将加强语音特征与多模态特征进行特征融合，确定融合结果，根据所述融合结果，得到情感识别结果，通过池化处理方式得到低层的加强语音特征，并将加强语音特征与多模态特征进行特征融合，避免了深层网络的退化问题，在提高模型泛化能力的同时，有效地提高了语音情感识别的准确率。

Description

基于人工智能的语音情感识别方法、装置、设备及介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于人工智能的语音情感识别方法、装置、设备及介质。

背景技术

目前，语音情感识别通常采用神经网络模型实现，而神经网络模型识别的准确率与神经网络模型提取的特征息息相关，浅层神经网络通常无法提取到表征能力较好的特征，因此，现有方法一般采用深层神经网络模型对语音信息和语音对应的文本信息分别进行特征提取，得到语音特征和文本特征，再进行特征融合，得到多模态特征，从而为语音情感识别提供更为丰富的特征；

然而，由于在深层神经网络模型中的特征提取会存在退化问题，即随着神经网络模型层数的加深，对语音情感识别的准确率越来越低，因此，如何提高语音情感识别的准确率成为了亟待解决的问题。

发明内容

有鉴于此，本发明实施例提供了一种基于人工智能的语音情感识别方法、装置、设备及介质，以解决语音情感识别的准确率较低的问题。

第一方面，本发明实施例提供一种基于人工智能的语音情感识别方法，所述语音情感识别方法包括：

对待识别语音信息进行分帧处理得到分帧结果，对所述分帧结果进行加窗处理，得到语音帧序列，并提取所述待识别语音信息的语音特征张量和文本特征张量；

将所述语音特征张量和所述文本特征张量对齐，并对对齐后的所述语音特征张量和所述文本特征张量进行特征提取，得到多模态特征；

采用局部窗口对所述语音帧序列进行平均池化处理，得到所述语音帧序列对应的平均池化向量，并对所述平均池化向量进行全局最大池化处理，确定所述全局最大池化处理的结果为所述待识别语音信息的加强语音特征；

将所述加强语音特征与所述多模态特征进行特征融合，确定融合结果，根据所述融合结果，得到情感识别结果。

第二方面，本发明实施例提供一种基于人工智能的语音情感识别装置，所述语音情感识别装置包括：

特征提取模块，用于对待识别语音信息进行分帧处理得到分帧结果，对所述分帧结果进行加窗处理，得到语音帧序列，并提取所述待识别语音信息的语音特征张量和文本特征张量；

特征对齐模块，用于将所述语音特征张量和所述文本特征张量对齐，并对对齐后的所述语音特征张量和所述文本特征张量进行特征提取，得到多模态特征；

池化处理模块，用于采用局部窗口对所述语音帧序列进行平均池化处理，得到所述语音帧序列对应的平均池化向量，并对所述平均池化向量进行全局最大池化处理，确定所述全局最大池化处理的结果为所述待识别语音信息的加强语音特征；

情感识别模块，用于将所述加强语音特征与所述多模态特征进行特征融合，确定融合结果，根据所述融合结果，得到情感识别结果。

第三方面，本发明实施例提供一种计算机设备，所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的语音情感识别方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的语音情感识别方法。

本发明实施例与现有技术相比存在的有益效果是：

对待识别语音信息进行分帧处理得到分帧结果，对所述分帧结果进行加窗处理，得到语音帧序列，并提取待识别语音信息的语音特征张量和文本特征张量，将语音特征张量和文本特征张量对齐，并对对齐后的语音特征张量和文本特征张量进行特征提取，得到多模态特征，采用局部窗口对语音帧序列进行平均池化处理，得到语音帧序列对应的平均池化向量，并对平均池化向量进行全局最大池化处理，确定全局最大池化处理的结果为待识别语音信息的加强语音特征，将加强语音特征与多模态特征进行特征融合，确定融合结果，根据融合结果，得到情感识别结果，通过池化处理方式得到低层的加强语音特征，并将加强语音特征与多模态特征进行特征融合，避免了深层网络的退化问题，在提高模型泛化能力的同时，有效地提高了语音情感识别的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的一种基于人工智能的语音情感识别方法的一应用环境示意图；

图2是本发明实施例一提供的一种基于人工智能的语音情感识别方法的流程示意图；

图3是本发明实施例二提供的一种基于人工智能的语音情感识别方法的流程示意图；

图4是本发明实施例三提供的一种基于人工智能的语音情感识别装置的结构示意图；

图5是本发明实施例四提供的一种计算机设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

应当理解，当在本发明说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本发明说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本发明说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本发明说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本发明的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

应理解，以下实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

为了说明本发明的技术方案，下面通过具体实施例来进行说明。

本发明实施例一提供的一种基于人工智能的语音情感识别方法，可应用在如图1的应用环境中，其中，客户端与服务端进行通信。其中，客户端包括但不限于掌上电脑、桌上型计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、云端终端设备、个人数字助理(personal digital assistant，PDA)等计算机设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

参见图2，是本发明实施例一提供的一种基于人工智能的语音情感识别方法的流程示意图，上述语音情感识别方法可以应用于图1中的服务端，服务端接收客户端发送的待识别语音信息，客户端具备信息存储功能，服务端还可以从客户端的存储信息中采集待识别语音信息，如图2所示，该语音情感识别方法可以包括以下步骤：

步骤S201，对待识别语音信息进行分帧处理得到分帧结果，对所述分帧结果进行加窗处理，得到语音帧序列，并提取待识别语音信息的语音特征张量和文本特征张量。

其中，待识别语音信息可以是指用于语音情感识别的语音信号，分帧可以是指将待识别语音信息截取为若干个待识别语音帧，用于提取语音信号中的短时稳态信息，以便于信号处理，分帧结果可以是指待识别语音信息经分帧处理后得到的若干个待识别语音帧。

加窗可以是指将上述待识别语音帧与窗函数相乘，用于将没有周期性的待识别语音帧呈现出周期信号的部分特征，便于进行信号分析。

语音帧序列可以是指各个待识别语音帧经加窗处理后拼接得到的序列。语音特征张量可以是指用于表征语音特征的特征张量。文本特征张量可以是指用于表征语音对应文本的文本特征的特征张量。

具体地，在分帧时帧表示语音信息段，采用固定帧长l对待识别语音信号进行截取，设置帧移量L确定每次截取的起始位置，为确保所截取语音段对应语音信息的平滑性，相邻帧之间具有一定的重叠，则帧移量L需要小于固定帧长l，在本实施例中，帧移量L设置为0.2s，固定帧长l设置为0.5s。

设置帧数M，在本实施例中，帧数M可以根据实际待识别语音信息长度确定，计算方式为

其中，T为待识别语音信息长度，

表示对x向下取整。

相应地，截取的起始位置为s_m＝(m-1)*L+1，其中，m为截取帧的序号，s_m为第m帧截取的起始位置。

在分帧后得到M个待识别语音帧，在本实施例中，加窗处理采用的窗函数可以是指汉明窗，汉明窗为：

其中，k为采样位置的序号，K为汉明窗长度，需要说明的是，K的取值应小于固定帧长l，以保证待识别语音帧加窗后的平滑性，在本实施例中，K设置为0.2s，采样间隔为0.001，即包含200个采样位置。

在本实施例中，待识别语音信息对应语音特征张量和对应文本特征张量的提取可以采用神经网络模型的方式。

在一实施方式中，帧数M可以由实施者自行设置为固定值，例如，帧数M可以设置为50，该帧数确定方式建议实施者在待识别语音信息长度较为稳定的情况下采用，从而提高计算效率。

在一实施方式中，加窗处理采用的窗函数可以是指矩形窗、海宁窗等。

在一实施方式中，待识别语音信息对应语音特征张量的提取可以采用对上述语音帧序列进行离散傅里叶变换后，对离散傅里叶变换结果进行梅尔倒谱分析的方式。

可选的是，提取待识别语音信息的文本特征张量包括：

将待识别语音信息通过训练好的语音识别模型转换为待识别文本信息；

将待识别文本信息输入训练好的词向量转换模型，得到词向量；

将词向量输入训练好的第一双向长短时记忆网络模型，得到文本特征张量。

其中，语音识别模型可以是指高斯混合模型结合隐马尔可夫模型(GaussianMixture Model+Hidden Markov Model，GMM+HMM)、深度神经网络结合隐马尔可夫模型(Deep Neural Networks+Hidden Markov Model，DNN+HMM)、循环神经网络结合隐马尔可夫模型(Recurrent Neural Network+Hidden Markov Model，RNN+HMM)、监听参与拼写模型(Listen,Attend and Spell，LAS)等。

待识别文本信息可以是指待识别语音信息经语音识别模型处理后，得到的文本信息，词向量转换模型可以是指统计模型(如N-gram模型)、词向量模型(如word2vec模型)等，词向量可以是指用于表征待识别文本信息语义信息的特征向量，第一双向长短时记忆网络模型由两个独立的长短时记忆网络组成。

具体地，第一双向长短时记忆网络模型的输入为词向量，将词向量分别以正序和逆序输入长短时记忆网络进行特征提取，将两个输出向量进行拼接后形成的词向量作为最终特征表达，最终特征表达即为文本特征张量，需要说明的是，在双向长短时记忆网络中，两个独立的长短时记忆网络的参数也是相互独立的。

本实施例采用语音识别模型、词向量转换模型以及双向长短时记忆网络对待识别语音信息进行处理，得到语义表征能力较强的文本特征张量，从而提高了语音情感识别的准确率。

可选的是，提取待识别语音信息的语音特征张量包括：

将待识别语音信息对应的语音帧序列输入训练好的语音特征提取模型，得到初始语音特征张量；

将初始语音特征张量输入训练好的第二双向长短时记忆网络模型，得到语音特征张量。

其中，语音特征提取模型可以是指神经网络模型、梅尔倒谱系数模型、线性预测系数模型、离线小波变换模型、感知线性预测模型等。

第二双向长短时记忆网络模型也由两个独立的长短时记忆网络组成。

具体地，第二双向长短时记忆网络模型的输入为初始语音特征张量，将初始语音特征张量分别以正序和逆序输入长短时记忆网络进行特征提取，将两个输出向量进行拼接后形成的向量作为最终特征表达，最终特征表达即为语音特征张量。

本实施例采用语音特征提取模型以及双向长短时记忆网络对待识别语音信息进行处理，得到表征能力较强的语音特征张量，从而提高了语音情感识别的准确率。

可选的是，在将待识别语音信息对应的语音帧序列输入训练好的语音特征提取模型之前，还包括：

以目标语音情感数据集作为语音特征提取模型训练时的训练数据集；

语音特征提取模型的训练过程包括：

采用预训练好的语音特征提取模型在目标语音情感数据集上进行迁移学习；

确定迁移学习后的语音特征提取模型为训练好的语音特征提取模型。

其中，目标语音情感数据集可以是指与待识别语音信息相似的训练样本构成的语音情感数据集，迁移学习可以是指将语音特征提取模型在大规模训练集中进行预训练，得到预训练好的语音特征提取模型，再通过小规模训练集进行再训练，得到训练好的语音特征提取模型，大规模训练集可以采用谷歌发布的音频集(AudioSet)数据集等，小规模训练集即为目标语音情感数据集。

本实施例采用迁移学习的方式对语音特征提取模型进行训练，能够有效提高语音特征提取模型的泛化能力，避免出现过拟合现象，从而提高了语音特征提取模型提取有效特征的能力。

可选的是，在将初始语音特征张量输入训练好的第二双向长短时记忆网络模型之前，还包括：

以参考权重向量作为第二双向长短时记忆网络模型训练时的嵌入向量，以样本语音帧序列对应的样本初始语音特征张量构成第二双向长短时记忆网络模型的训练数据集；

参考权重向量的获取过程包括：

将样本语音帧序列输入训练好的语音特征提取模型，得到样本初始语音特征张量；

将样本语音帧序列进行切分，得到N个子样本语音帧序列；

将每个子样本语音帧序列输入训练好的语音特征提取模型，得到对应的子样本初始语音特征张量；

确定每个子样本初始语音特征张量与样本初始语音特征张量的相似度为对应子样本语音帧序列的参考权重；

按照时间顺序将每个子样本语音帧序列对应的参考权重拼接为参考权重向量。

其中，N为大于零的整数，参考权重向量由N个参考权重作为元素组成，参考权重可以用于表征基于子样本语音帧序列所提取的特征的独立性，独立性即不受到其他子样本语音帧序列影响的特性。样本语音帧序列可以是指历史语音帧序列，样本初始语音特征张量可以是指历史语音帧序列对应的特征表示，样本初始语音特征张量用于作为第二双向长短时记忆网络模型的训练样本。

切分可以是指在预设位置将样本语音帧序列划分为N个子样本语音帧序列，预设位置可以采用等分的方式，实施者也可根据实际情况设置预设位置。

子样本语音帧序列可以是指样本语音帧序列中的局部段，子样本初始语音特征张量可以是指子样本语音帧序列对应的特征表示，相似度可以是指余弦相似度、欧式距离等。

参考权重拼接可以采用联结方式，即时间顺序在后的参考权重联结到时间顺序在前的参考权重的右侧，以联结方式拼接时，得到的参考权重向量为一行N列。

具体地，在将每个子样本语音帧序列输入训练好的语音特征提取模型之前，需要将子样本语音帧序列的尺寸扩充为与样本语音帧序列一致，具体扩充方式可以采用补零的方式，从而能够采用同一训练好的语音特征提取模型获取尺寸相同的特征表示，便于进行比较。

在本实施例中，采用余弦相似度进行相似度计算，由于在提取特征时，子样本语音帧序列之间对提取特征会互相造成影响，而受其他子样本语音帧序列影响较小的子样本语音帧序列对应的特征表示表征能力更稳定，对于一子样本语音帧序列，在屏蔽其他子样本语音帧序列时，其特征表示与样本语音帧序列对应的特征表示足够相似度，可以表示该子样本语音帧序列对应的特征表示表征能力更强，且表征能力更稳定，因此，采用相似度作为参考权重，用于辅助后续提取到更为有效的特征。

本实施例对样本语音帧序列进行切分，并采用参考权重表征子样本语音帧序列的重要程度，从而后续辅助训练第二双向长短时记忆网络模型，提高了模型精度。

可选的是，在按照时间顺序将每个子样本语音帧序列对应的参考权重拼接为参考权重向量之后，还包括：

在第二双向长短时记忆网络模型训练时，添加训练好的临时分类器，以实际情感类别作为第二双向长短时记忆网络模型训练时的训练标签，以交叉熵损失作为第二双向长短时记忆网络模型训练时的损失函数；

双向长短时记忆网络模型的训练过程包括：

将参考权重向量与样本语音特征张量逐点相乘，得到加权样本语音特征张量，并将加权样本语音特征张量输入训练好的临时分类器，得到预测情感类别；

根据预测情感类别与实际情感类别计算交叉熵损失，以交叉熵损失为依据，采用梯度下降算法反向更新第二双向长短时记忆网络模型的参数，直至交叉熵损失收敛，得到训练好的第二双向长短时记忆网络模型。

其中，加权样本语音特征张量可以是指将参考权重与样本语音特征张量结合后的特征表示，预测情感类别可以是指加权样本语音特征张量经临时分类器输出的类别概率分布中，最大概率对应的情感类别，需要说明的是，临时分类器的输出需要经过归一化指数函数处理，从而得到类别概率分布，最大概率对应的情感类别可以表示加权样本语音特征张量最可能属于的情感类别，实际情感类别可以是指样本语音帧序列所属的真实情感类别，由于样本语音帧序列为历史语音帧序列，因此默认实际情感类别是已知的。

训练好的临时分类器用于将样本初始语音特征张量对应的样本语音特征张量映射为预测情感类别，在本实施例中，临时分类器可以包括编码器层和全连接层，编码器层可以用于提取加权样本语音特征张量的特征，全连接层用于将所提取的特征映射到情感类别空间。

具体地，在参考权重向量与样本语音特征张量逐点相乘时，由于参考权重向量中元素个数与样本语音特征张量中元素个数并不相同，因此需要对参考权重向量进行扩展。由于每个参考权重向量中的元素均对应一个子样本语音帧序列，一个子样本语音帧序列又对应于样本语音特征张量的一部分，因此，对于单个参考权重对应的样本语音特征张量中的所有元素，将参考权重的个数扩展至与元素个数相同，扩展时采用复制方式，即新增加的参考权重与原参考权重一致，完成扩展后将参考权重向量与样本语音特征张量逐点相乘。

在一实施方式中，临时分类器还可以只包括全连接层。

本实施例中，采用添加临时分类器的方式对第二双向长短时记忆网络模型的训练过程进行监督，提高了模型训练的效率以及对情感分类任务的适应性。

上述对待识别语音信息进行分帧处理得到分帧结果，对所述分帧结果进行加窗处理，得到语音帧序列，并提取待识别语音信息的语音特征张量和文本特征张量步骤，将待识别语音信息处理转换为语音帧序列，从而能够更好的提取待识别语音信息对应的特征，提高后续语音情感识别的准确性。

步骤S202，将语音特征张量和文本特征张量对齐，并对对齐后的语音特征张量和文本特征张量进行特征提取，得到多模态特征。

其中，对齐可以是指将语音特征张量和文本特征张量对应特征参数的位置进行对齐，用于避免同一段语音对应的语音特征张量和文本特征张量不对齐的情况，从而影响后续语音情感识别的准确率。

特征提取可以采用特征融合、模型拟合等方式，用于整合语音特征张量和文本特征张量。多模态特征可以是指多种模态信息对应的特征，模态可以是指语音、文本等。

具体地，语音特征张量和文本特征张量对齐时，固定任一特征张量，并调整另一特征张量，将另一特征张量与被固定特征张量对齐，相应地，对齐后的特征张量是指包括调整后的特征张量与固定的特征张量。例如，将语音特征张量固定，则调整文本特征张量与语音特征张量对齐，得到对齐后的文本特征张量。

语音特征张量和文本特征张量的对齐方式可以采用特征匹配、注意力机制等方式，在本实施例中，语音特征张量和文本特征张量的对齐方式采用注意力机制。

上述将语音特征张量和文本特征张量对齐，并对对齐后的语音特征张量和文本特征张量进行特征提取，得到多模态特征步骤，对语音特征张量和文本特征张量进行对齐操作后提取多模态特征，避免了语音特征和文本特征错误匹配的情况，提高了多模态特征的表征能力，从而提高了语音情感识别的准确率。

步骤S203，采用局部窗口对语音帧序列进行平均池化处理，得到语音帧序列对应的平均池化向量，并对平均池化向量进行全局最大池化处理，确定全局最大池化处理的结果为待识别语音信息的加强语音特征。

其中，局部窗口可以是指预设长度的划窗，用于对语音帧序列进行滑动截取局部的子序列，平均池化处理可以是指均值计算处理，平均池化向量可以是指多个截取的子序列对应的均值计算处理结果组成的向量，全局最大池化处理可以是指对所有截取的子序列对应的均值计算处理结果取最大值的处理，用于待识别语音信息进行最大程度的保留和重点提取。

具体地，在本实施例中，局部窗口的长度预设为3，局部窗口的滑动步长设置为2，以确保不遗漏信息，实施者可根据实际情况调整长度值和滑动步长。

所得到的加强语音特征为语音帧序列中最具代表能力的基础特征，可以在深层模型提取特征时，起到校正深层特征的效果。

上述采用局部窗口对语音帧序列进行平均池化处理，得到语音帧序列对应的平均池化向量，并对平均池化向量进行全局最大池化处理，确定全局最大池化处理的结果为待识别语音信息的加强语音特征步骤，能够对待识别语音信息的原始信息进行最大程度的保留和重点提取，便于以加强语音特征为参考，阻止神经网络模型高层特征的退化，提高语音情感识别的准确率。

步骤S204，将加强语音特征与多模态特征进行特征融合，确定融合结果，根据融合结果，得到情感识别结果。

其中，特征融合可以是指特征嵌入、特征加权和特征点乘等特征融合方式，融合结果可以是指多模态特征中引入加强语音特征后得到的语音特征，情感识别结果可以是指情感识别类别，情感识别类别可以包括开心、难过、生气等情绪类别。

具体地，由于加强语音特征形式为单个值，特征嵌入方式可以是指将加强语音特征与多模态特征进行尺寸归一化后，进行联结操作，例如多模态特征为Z维特征，则将加强语音特征扩充为Z维向量，Z维向量中每个元素均相同，按相同维度将Z维向量形式的加强语音特征与Z维特征形式的多模态特征进行联结。特征加权方式可以是指将加强语音特征值逐点与多模态特征的各个元素相加，特征点乘方式可以是指将加强语音特征值逐点与多模态特征的各个元素相乘。

在确定融合结果之后，可以通过分类模型得到情感识别结果，在本实施例中，分类模型可以采用神经网络模型。

在一实施方式中，分类模型还可以是逻辑回归模型、朴素贝叶斯模型、决策树模型、支持向量机模型、随机森林模型、梯度提升树模型等。

上述将加强语音特征与多模态特征进行特征融合，确定融合结果，根据融合结果，得到情感识别结果步骤，通过加强语音特征增强多模态特征的表征能力，从而提高了语音情感识别的准确率。

本实施例中，通过池化处理方式得到低层的加强语音特征，并将加强语音特征与多模态特征进行特征融合，避免了深层网络的退化问题，在提高模型泛化能力的同时，有效地提高了语音情感识别的准确率。

参见图3，是本发明实施例二提供的一种基于人工智能的语音情感识别方法的流程示意图，该语音情感识别方法中，将语音特征张量和文本特征张量对齐可以直接采用根据相似度进行特征对齐的方式，也可以采用注意力模型进行特征对齐的方式；

在根据相似度进行特征对齐的方式时，将语音特征张量和文本特征张量分别切分为语音特征片段和文本特征片段，采用最大权匹配算法(如Kuhn－Munkres，KM算法)进行特征片段的对应匹配，匹配过程中任两个特征片段之间的权重即为该两个特征片段之间的相似度，根据匹配结果确定对齐调整量；

在采用注意力模型进行特征对齐的方式时，将语音特征张量和文本特征张量对齐包括：

步骤S301，将语音特征张量和文本特征张量分别输入训练好的注意力模型，得到对应的关键语音特征分布和对应的关键文本特征分布；

步骤S302，将关键语音特征分布和关键文本特征分布对齐，得到对齐调整量；

步骤S303，根据对齐调整量将语音特征张量和文本特征张量对齐。

其中，注意力模型可以是指自注意力模型(Self Attention)，关键语音特征分布可以是指语音特征中注意力高的特征片段的位置分布，文本特征分布可以是指文本特征中注意力高的特征片段的位置分布，对齐可以是指位置对齐，调整量可以是指使两个特征对齐时对其中一特征的偏移量。

具体地，由于特征中注意力低的特征表征能力不强，且具有相同注意力的特征片段较多，因此在本实施例中，通过自适应阈值化的方式提取注意力高的特征片段以及对应的位置分布，也即关键特征分布，自适应阈值化可以采用特征值均值、特征值中位数等作为自适应阈值。

需要说明的是，在提取到关键特征分布后，关键特征分布中的一关键特征值可能对应于另一关键特征分布中的多个关键特征值，因此，实施者可以采用聚类算法将关键特征分布划分为多个集合，以集合为单位进行调整，以便于后续进行特征对齐，例如，将关键语音特征分布根据基于密度的聚类算法得到S个集合，则将关键文本特征分布根据S均值聚类算法得到S个集合，采用两个不同的聚类方法对关键语音特征分布和关键文本特征分布进行处理的目的在于，确保得到的集合数一致，便于进行对齐，若实际使用时采用基于密度的聚类算法对关键语音特征分布和关键文本特征分布处理后，能够得到数量一致的集合，则无需采用两个不同的聚类方法。

在得到关键语音特征分布和对应的关键文本特征分布后，固定其中一个特征张量，并调整另一个特征张量，令被调整的特征张量对应的关键特征分布与固定的特征张量对应的关键特征分布一致，从而得到调整量。

在本实施例中，根据关键文本特征分布和关键语音特征分布确定调整量，计算效率更高，同时对齐操作避免了特征表征内容不一致的问题，提高了后续语音情感识别的准确率。

对应于上文实施例的语音情感识别方法，图4示出了本发明实施例三提供的基于人工智能的语音情感识别装置的结构框图，上述语音情感识别装置应用于服务端，服务端接收客户端发送的待识别语音信息，客户端具备信息存储功能，服务端还可以从客户端的存储信息中采集待识别语音信息。为了便于说明，仅示出了与本发明实施例相关的部分。

参见图4，该语音情感识别装置包括：

特征提取模块41，用于对待识别语音信息进行分帧处理得到分帧结果，对分帧结果进行加窗处理，得到语音帧序列，并提取待识别语音信息的语音特征张量和文本特征张量；

特征对齐模块42，用于将语音特征张量和文本特征张量对齐，并对对齐后的语音特征张量和文本特征张量进行特征提取，得到多模态特征；

池化处理模块43，用于采用局部窗口对语音帧序列进行平均池化处理，得到语音帧序列对应的平均池化向量，并对平均池化向量进行全局最大池化处理，确定全局最大池化处理的结果为待识别语音信息的加强语音特征；

情感识别模块44，用于将加强语音特征与多模态特征进行特征融合，确定融合结果，根据融合结果，得到情感识别结果。

可选的是，上述特征提取模块41包括：

语音识别单元，用于将待识别语音信息通过训练好的语音识别模型转换为待识别文本信息；

词向量转换单元，用于将待识别文本信息输入训练好的词向量转换模型，得到词向量；

文本特征提取单元，用于将词向量输入训练好的第一双向长短时记忆网络模型，得到文本特征张量。

可选的是，上述特征提取模块41包括：

语音特征提取单元，用于将待识别语音信息对应的语音帧序列输入训练好的语音特征提取模型，得到初始语音特征张量；

语音特征增强单元，用于将初始语音特征张量输入训练好的第二双向长短时记忆网络模型，得到语音特征张量。

可选的是，以目标语音情感数据集作为语音特征提取模型训练时的训练数据集；

上述语音情感识别装置还包括：

迁移学习模块，用于采用预训练好的语音特征提取模型在目标语音情感数据集上进行迁移学习；

模型确定模块，用于确定迁移学习后的语音特征提取模型为训练好的语音特征提取模型。

可选的是，以参考权重向量作为第二双向长短时记忆网络模型训练时的嵌入向量，以样本语音帧序列对应的样本初始语音特征张量构成第二双向长短时记忆网络模型的训练数据集；

上述语音情感识别装置还包括：

样本输入模块，用于将样本语音帧序列输入训练好的语音特征提取模型，得到样本初始语音特征张量；

样本切分模块，用于将样本语音帧序列进行切分，得到N个子样本语音帧序列，N为大于零的整数；

子样本输入模块，用于将每个子样本语音帧序列输入训练好的语音特征提取模型，得到对应的子样本初始语音特征张量；

权重确定模块，用于确定每个子样本初始语音特征张量与样本初始语音特征张量的相似度为对应子样本语音帧序列的参考权重；

权重拼接模块，用于按照时间顺序将每个子样本语音帧序列对应的参考权重拼接为参考权重向量。

可选的是，在第二双向长短时记忆网络模型训练时，添加训练好的临时分类器，训练好的临时分类器用于将样本初始语音特征张量对应的样本语音特征张量映射为预测情感类别，以实际情感类别作为第二双向长短时记忆网络模型训练时的训练标签，以交叉熵损失作为第二双向长短时记忆网络模型训练时的损失函数；

上述语音情感识别装置还包括：

类别预测模块，用于将参考权重向量与样本语音特征张量逐点相乘，得到加权样本语音特征张量，并将加权样本语音特征张量输入训练好的临时分类器，得到预测情感类别；

模型训练模块，用于根据预测情感类别与实际情感类别计算交叉熵损失，以交叉熵损失为依据，采用梯度下降算法反向更新第二双向长短时记忆网络模型的参数，直至交叉熵损失收敛，得到训练好的第二双向长短时记忆网络模型。

可选的是，上述特征对齐模块42包括：

注意力单元，用于将语音特征张量和文本特征张量分别输入训练好的注意力模型，得到对应的关键语音特征分布和对应的关键文本特征分布；

特征调整单元，用于将关键语音特征分布和关键文本特征分布对齐，得到对齐调整量；

特征对齐单元，用于根据对齐调整量将语音特征张量和文本特征张量对齐。

需要说明的是，上述模块、单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

图5为本发明实施例四提供的一种计算机设备的结构示意图。如图5所示，该实施例的计算机设备包括：至少一个处理器(图5中仅示出一个)、存储器以及存储在存储器中并可在至少一个处理器上运行的计算机程序，处理器执行计算机程序时实现上述任意各个语音情感识别方法实施例中的步骤。

该计算机设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，图5仅仅是计算机设备的举例，并不构成对计算机设备的限定，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括网络接口、显示屏和输入装置等。

所称处理器可以是CPU，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器包括可读存储介质、内存储器等，其中，内存储器可以是计算机设备的内存，内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。可读存储介质可以是计算机设备的硬盘，在另一些实施例中也可以是计算机设备的外部存储设备，例如，计算机设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(Secure Digital，SD)卡、闪存卡(Flash Card)等。进一步地，存储器还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，该其他程序如计算机程序的程序代码等。存储器还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。上述装置中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质至少可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

本发明实现上述实施例方法中的全部或部分流程，也可以通过一种计算机程序产品来完成，当计算机程序产品在计算机设备上运行时，使得计算机设备执行时实现可实现上述方法实施例中的步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/计算机设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/计算机设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于人工智能的语音情感识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的语音情感识别方法，其特征在于，所述提取所述待识别语音信息的文本特征张量包括：

将所述待识别语音信息通过训练好的语音识别模型转换为待识别文本信息；

将所述待识别文本信息输入训练好的词向量转换模型，得到词向量；

将所述词向量输入训练好的第一双向长短时记忆网络模型，得到所述文本特征张量。

3.根据权利要求1所述的语音情感识别方法，其特征在于，所述提取所述待识别语音信息的语音特征张量包括：

将所述待识别语音信息对应的语音帧序列输入训练好的语音特征提取模型，得到初始语音特征张量；

将所述初始语音特征张量输入训练好的第二双向长短时记忆网络模型，得到所述语音特征张量。

4.根据权利要求3所述的语音情感识别方法，其特征在于，在所述将所述待识别语音信息对应的语音帧序列输入训练好的语音特征提取模型之前，还包括：

以目标语音情感数据集作为所述语音特征提取模型训练时的训练数据集；

所述语音特征提取模型的训练过程包括：

采用预训练好的语音特征提取模型在所述目标语音情感数据集上进行迁移学习；

5.根据权利要求3所述的语音情感识别方法，其特征在于，在所述将所述初始语音特征张量输入训练好的第二双向长短时记忆网络模型之前，还包括：

以参考权重向量作为所述第二双向长短时记忆网络模型训练时的嵌入向量，以样本语音帧序列对应的样本初始语音特征张量构成所述第二双向长短时记忆网络模型的训练数据集；

所述参考权重向量的获取过程包括：

将所述样本语音帧序列输入所述训练好的语音特征提取模型，得到所述样本初始语音特征张量；

将所述样本语音帧序列进行切分，得到N个子样本语音帧序列，N为大于零的整数；

将每个子样本语音帧序列输入所述训练好的语音特征提取模型，得到对应的子样本初始语音特征张量；

确定每个子样本初始语音特征张量与所述样本初始语音特征张量的相似度为对应子样本语音帧序列的参考权重；

按照时间顺序将每个子样本语音帧序列对应的参考权重拼接为所述参考权重向量。

6.根据权利要求5所述的语音情感识别方法，其特征在于，在所述按照时间顺序将每个子样本语音帧序列对应的参考权重拼接为所述参考权重向量之后，还包括：

在所述第二双向长短时记忆网络模型训练时，添加训练好的临时分类器，所述训练好的临时分类器用于将所述样本初始语音特征张量对应的样本语音特征张量映射为预测情感类别，以实际情感类别作为所述第二双向长短时记忆网络模型训练时的训练标签，以交叉熵损失作为所述第二双向长短时记忆网络模型训练时的损失函数；

所述第二双向长短时记忆网络模型的训练过程包括：

将所述参考权重向量与所述样本语音特征张量逐点相乘，得到加权样本语音特征张量，并将所述加权样本语音特征张量输入所述训练好的临时分类器，得到所述预测情感类别；

根据所述预测情感类别与所述实际情感类别计算所述交叉熵损失，以所述交叉熵损失为依据，采用梯度下降算法反向更新所述第二双向长短时记忆网络模型的参数，直至所述交叉熵损失收敛，得到所述训练好的第二双向长短时记忆网络模型。

7.根据权利要求1至6任一项所述的语音情感识别方法，其特征在于，所述将所述语音特征张量和所述文本特征张量对齐包括：

将所述语音特征张量和所述文本特征张量分别输入训练好的注意力模型，得到对应的关键语音特征分布和对应的关键文本特征分布；

将所述关键语音特征分布和所述关键文本特征分布对齐，得到对齐调整量；

根据所述对齐调整量将所述语音特征张量和所述文本特征张量对齐。

8.一种基于人工智能的语音情感识别装置，其特征在于，所述语音情感识别装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的语音情感识别方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的语音情感识别方法。