CN111968679B

CN111968679B - 情感识别方法、装置、电子设备及存储介质

Info

Publication number: CN111968679B
Application number: CN202011137837.2A
Authority: CN
Inventors: 彭子轩; 陆昱; 潘晟锋; 刘云峰
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2021-01-29
Anticipated expiration: 2040-10-22
Also published as: CN111968679A

Abstract

本申请公开了一种情感识别方法、装置、电子设备及存储介质，涉及人工智能技术领域，该方法包括：获取待分析音频数据的语音特征和文本特征；利用深度学习模型获取所述待分析音频数据对应的身份特征，所述深度学习模型是基于声源分离技术的模型；将所述语音特征、文本特征和身份特征输入至情感识别模型，得到情感分析结果。本申请通过结合待分析语音数据包含的语音特征、文本特征以及身份特征能够准确高效的获取到情感识别结果。

Description

情感识别方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术领域，更具体地，涉及一种情感识别方法、装置、电子设备及存储介质。

背景技术

随着计算机技术的发展，很多智能机器学习、深度学习的不同算法被应用于情感识别上。在情绪感知过程中，情感识别通常被放在第一步，故情感识别能力通常被认为是情感计算中最基本和重要的一个环节，情感识别的目的是通过计算机的算法判断对话中的情感内容，常见的情感内容有高兴、喜悦、悲伤、中性或者愤怒等，情感识别被广泛的应用于诸如人机交互、对话管理等系统中。因此，如何准确的对音频数据中包含的情感进行识别是亟待解决的问题。

发明内容

鉴于上述问题，本申请提出了一种情感识别方法、装置、电子设备及存储介质。

第一方面，本申请实施例提供了一种情感识别方法，该方法包括：获取待分析音频数据的语音特征和文本特征；利用深度学习模型获取待分析音频数据对应的身份特征，深度学习模型是基于声源分离技术的模型；将语音特征、文本特征和身份特征输入至情感识别模型，得到情感分析结果。

进一步地，情感识别模型包括文本编码器、语音编码器和全连接层；将语音特征、文本特征和身份特征输入至情感识别模型，得到情感分析结果，包括：将文本特征输入至文本编码器，得到文本特征向量，以及将语音特征输入至语音编码器，得到语音特征向量；将文本特征向量与身份特征进行拼接，得到目标文本特征，以及将语音特征向量与身份特征进行拼接，得到目标语音特征；利用全连接层对目标文本特征和目标语音特征进行融合得到目标特征，对目标特征进行分类得到情感分析结果。

进一步地，情感识别模型还包括第一卷积神经网络，第一卷积神经网络为二维卷积神经网络；将文本特征向量与身份特征进行拼接，得到目标文本特征，包括：将文本特征向量输入至第一卷积神经网络，并利用第一卷积神经网络对文本特征向量进行特征提取，得到候选文本特征；将候选文本特征与身份特征进行拼接，得到目标文本特征。

进一步地，情感识别模型还包括基于全局的池化层；将候选文本特征与身份特征进行拼接，得到目标文本特征，包括：将候选文本特征输入至基于全局的池化层，得到全局文本特征；将全局文本特征与身份特征进行拼接，得到目标文本特征。

进一步地，情感识别模型还包括第二卷积神经网络，第二卷积神经网络为二维卷积神经网络；将语音特征向量与身份特征进行拼接，得到目标语音特征，包括：将语音特征向量输入至第二卷积神经网络，并利用第二卷积神经网络对语音特征向量进行特征提取，得到候选语音特征；将候选语音特征与身份特征进行拼接，得到目标语音特征。

进一步地，情感识别模型还包括基于全局的池化层；将候选语音特征与身份特征进行拼接，得到目标语音特征，包括：将候选语音特征输入至基于全局的池化层，得到全局语音特征；将全局语音特征与身份特征进行拼接，得到目标语音特征。

进一步地，身份特征包括X-vectors特征，语音特征包括梅尔倒谱系数。

进一步地，利用深度学习模型获取待分析音频数据对应的身份特征，包括：利用滤波器组对待分析音频数据进行特征提取，得到有效音频数据特征；利用深度学习模型对有效语音数据进行特征提取，得到待分析音频数据对应的身份特征。

进一步地，利用滤波器组对待分析音频数据进行特征提取，得到有效音频数据特征，包括：对待分析音频数据进行预加重、分帧、加窗处理，得到待分析音频数据对应的语音帧，并对语音帧进行离散傅里叶变换，得到语音帧的频谱；根据语音帧的频谱获取待分析音频数据对应的有效音频数据特征。

进一步地，获取待分析音频数据，包括：获取原始音频数据，并确定原始音频数据的格式是否为指定格式，深度学习模型的输入数据格式为指定格式；若原始音频数据的格式为指定格式，则将原始音频数据作为待分析音频数据。

进一步地，若原始音频数据的格式不是指定格式，则将原始音频数据转换为指定格式，得到待分析音频数据。

进一步地，将语音特征、文本特征和身份特征输入至情感识别模型，得到情感分析结果之前，包括：获取情感识别网络和情感识别数据集，情感识别数据集包括多个音频数据和多个情感标注数据，音频数据与情感标注数据相互对应；利用情感识别数据集对情感识别网络进行训练，得到情感识别模型。

第二方面，本申请实施例提供了一种情感识别装置，该装置包括：第一获取模块、第二获取模块以及情感输出模块。其中，第一获取模块，用于获取待分析音频数据的语音特征和文本特征。第二获取模块，用于利用深度学习模型获取待分析音频数据对应的身份特征，深度学习模型是基于声源分离技术的模型。情感输出模块，用于将语音特征、文本特征和身份特征输入至情感识别模型，得到情感分析结果。

第三方面，本申请实施例提供了一种电子设备，其包括：存储器、一个或多个处理器以及一个或多个应用程序。其中，一个或多个处理器与存储器耦接。一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于执行如上述第一方面的方法。

第四方面，本申请实施例提供了一种计算机可读取存储介质，该计算机可读取存储介质中存储有程序代码，该程序代码可被处理器调用执行如上述第一方面的方法。

本申请实施例提供的情感识别方法、装置、电子设备及存储介质，该方法通过结合语音特征、文本特征以及身份特征来对待分析音频数据进行情感分类，首先获取待分析音频数据的语音特征和文本特征，然后利用深度学习模型获取待分析音频数据对应的身份特征，其中，深度学习模型是基于声源分离技术的模型，最后将语音特征、文本特征以及身份特征输入至情感识别模型，即可得到待分析语音数据对应的情感分析结果。本申请实施例通过将其获取的语音特征、文本特征以及身份特征输入至身份识别模型，可以准确高效的对待分析音频数据进行情感识别。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请第一实施例提供的情感识别方法的流程示意图。

图2示出了本申请第二实施例提供的情感识别方法的流程示意图。

图3示出了本申请第二实施例提供的情感识别方法中情感识别模型识别过程示意图。

图4示出了本申请第三实施例提供的情感识别方法的流程示意图。

图5示出了本申请第四实施例提供的情感识别方法的流程示意图。

图6示出了本申请第四实施例提供的情感识别方法中情感识别模型的结构示意图。

图7示出了本申请第五实施例提供的情感识别方法的流程示意图。

图8示出了本申请第六实施例提供的情感识别方法的流程示意图。

图9示出了本申请第七实施例提供的情感识别方法的流程示意图。

图10示出了本申请第八实施例提供的情感识别装置的模块框图。

图11示出了本申请第八实施例提供的情感识别装置中确定模块830的模块框图。

图12是本申请第九实施例的用于执行根据本申请实施例的情感识别方法的电子设备的框图。

图13是本申请第十实施例的用于保存或者携带实现根据本申请实施例的情感识别方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

现有的音频情感识别技术大致可以分为三种，方法一是通过语音识别技术（Automatic SpEEch Recognition，ASR）)将音频转换为文本信息, 然后对转换得到的文本进行基于自然语言处理、机器学习和深度学习的情感分析；方法二是直接利用先验提取音频特征，例如，梅尔频率倒谱系数（Mel Frequency Cepstrum Coefficient，MFCC）、短时距傅里叶变换（Short-time Fourier Transform，STFT）以及时频谱（Spectrogram）等，然后利用机器学习或者深度学习进行情感分析；方法三是利用第一种方式获取的文本信息，以及第二种方式获取的语音特征，利用深度学习中的深层神经网络和注意力机制对文本信息和语音特征进行融合从而对情感进行分析。上述三种情感识别技术方案在实际应用中存在诸多缺点。具体为：基于ASR转录后的文本信息的情感分析算法（方法一），其结果易受到ASR转录效果的影响，即错误的ASR输出不会被情感分析任务纠正，存在错误累计传播的效应，如此也会影响到最终的输出结果；基于先验提取音频特征的情感分析算法（方法二），其结果受限于音频信号特征的局限性，文本特征相较于语音特征有充分的语义信息，这些语义信息的丢失会影响情感识别的结果；方法一或者方法二需要大量的带标注数据训练模型；结合文本和语音特征，利用深层神经网络和注意力机制（方法三）虽然能得到较好的模型效果，但是深层神经网络和注意力的使用会导致情感识别模型的复杂度增大，即情感识别模型的复杂度随着参数量的增加呈指数及增长，如此也使得情感识别模型不适用于实际的工程实践。

为了改善上述问题，发明人提出了本申请实施例中的情感识别方法、装置、电子设备及存储介质本申请实施例，该方法通过结合语音特征、文本特征以及声源分离技术模型获取的身份特征可以更加准确高效的对待分析音频数据的情感进行识别。

下面将通过具体实施例对本申请实施例提供的情感识别方法、装置、电子设备及存储介质进行详细说明。

第一实施例

请参阅图1，图1示出了本申请实施例提供的情感识别方法的流程示意图，本方法可以包括步骤S110至步骤S130。

步骤S110：获取待分析音频数据的语音特征和文本特征。

作为一种方式，本申请可以应用于电子设备，而该电子设备则可以是智能手机、平板电脑等，电子设备上可以配置有语音采集装置，该语音采集装置用来采集待分析语音数据，其中，语音采集装置可以是麦克风等采集音频的设备。本申请实施例中，待分析音频数据可以是实时采集的音频数据，即电子设备通过音频采集装置实时获取的音频，所述待分析音频数据也可以是电子设备上预先存储的音频数据。

在一些实施方式中，电子设备获取到待分析音频数据后可以先判断所述待分析音频数据是否为有效音频数据，如果是有效音频数据，则获取所述待分析音频数据对应的语音特征和文本特征。具体的，本申请可以判断所述待分析音频数据中是否包含目标用户的音频数据，如果待分析音频数据中未包含目标用户的音频数据，则确定所述待分析音频数据为无效音频数据。另外，当确定待分析音频数据中包含有目标用户的音频数据时，判断所述音频数据是否为完整音频数据，如果为完整音频数据，则确定所述待分析音频数据为有效音频数据。

在另一些实施方式中，在确定所述待分析音频数据为无效音频数据时，电子设备可以发出提示信息，通过该提示信息提示用户输入新的待分析音频数据。另外，在确定待分析音频数据包含目标用户的音频数据然而该音频数据为不完整音频数据时，本申请也可以根据所述无效音频数据确定所述电子设备中是否存储有候选待分析音频数据，具体的，在确定待分析音频数据为无效音频数据时，本申请可以获取多个历史音频数据，而后获取每个所述历史音频数据与所述待分析音频数据之间的相似度，并将相似度最大的历史音频数据作为新的待分析音频数据。

作为另一种方式，电子设备获取到待分析音频数据后可以对所述待分析音频数据进行预处理操作，其中，预处理操作可以包括静音检测、对话分割以及说话人识别等多个步骤，预处理得到的音频数据以对话中说话人的句子为单位。静音检测又可以称为语音活动检测（Voice Activity Detection，VAD），静音检测的主要作用是从声音信号流里识别和消除长时间的静音期，以达到在不降低业务质量的情况下节省话路资源的作用，故静音检测主要用于检测出正常音频信号出现的时间段，其中，正常音频信号指的是非噪声音频，例如，音乐、语音或者机器声等出现的时间段。对话分割可用于从语音对话数据中将每个人的语音数据分割出来，本申请可以采用基于统计距离的方法来实现对话分割，如BIC（Bayesian Information Criterion）或者GLR(Generalize Likelihood Ratio)等对话分割技术，基于统计距离的方法优势在于不需要经过样本数据训练模型的步骤，直接假设短时间范围内不同人的声学模型高斯混合模型(Gaussian Mixture Model，GMM)分布存在差异，然后基于此差异就可以进行分割，这种方法可以适用于任何的语音角色分割任务。另外，本申请还可以根据每一帧数字信号所处状态对所述数字信号进行分割得到所述待分析音频数据中的语音信号和噪音信号，依次达到去除噪声的效果。说话人识别也可以称为声纹识别，其可以包括人辨人和说话人确认，说话人识别主要是将声纹信号转换成电信号，再用计算机进行识别，人辨人用于判断某段语音是若干人中哪一个所说的，是“多选一”问题，说话人确认用于确认某段语音是否是指定的某个人所说的，是“一对一”的问题。

在一些实施方式中，获取到待分析音频数据后，本申请可以对所述音频数据进行语音信号处理，得到语音特征，所述音频特征可以是MFCC（Mel Frequency CepstralCoefficents，梅尔频率倒谱系数），MFCC是在Mel标度频率域提取出来的倒普参数，是一种在自动语音和说话人识别中广泛使用的特征，其主要用于描述声道的形状，梅尔频率倒谱系数考虑到了人类的听觉特征，先将线性频谱映射到基于听觉感知的Mel非线性频谱中，然后转换到倒谱上。作为一种方式，语音信号处理可以包括预加重、分帧、加窗、快速傅里叶变换等。需要说明的是，音频特征也可以是短时距傅里叶变换 STFT或者时频谱Spectrogram等，音频特征具体指的是哪一个特征，这里不进行明确限制，可以根据实际情况进行选择。

另外，本申请也可以利用语音识别技术（Automatic SpEEch Recognition，ASR）对所述待分析音频数据进行识别，得到文本特征，语音识别技术主要用于将人类的语音中的词汇转换为计算机可读的输入。例如，按键、二进制编码或者字符序列，常用的语音识别技术可以包括基于语言学的和声学的方法、随机模型法、利用人工神经网络的方法以及概率语法分析等，其中，本申请主要采用随机模型法来将待分析音频数据转换为文本特征，所述随机模型法主要采用提取特征、训练模板、对模板进行分类以及对模板进行判断等。本申请也可以采用神经网络的方法对待分析音频数据进行识别，得到文本特征，具体通过哪种方式获取文本特征，这里不进行明确限制，可以根据实际情况进行选择。

步骤S120：利用深度学习模型获取待分析音频数据对应的身份特征。

在一些实施方式中，本申请实施例可以利用深度学习模型（Delay NeuralNetwork，DNN）获取待分析音频数据对应的身份特征，其中，深度学习模型可以是基于声源分离技术的模型。换句话说，本申请实施例中深度学习模型是基于话者分离构建的，话者分离是将一段音频文件中属于每一话者的音频数据进行分割，将同一话者的音频数据合并成一类，不同话者的音频数据分开，并获取每个话者音频数据的时间位置信息，即解决哪个话者在什么时候说的问题，根据事先是否掌握话者信息的情况，话者分离可细分为无源话者分离与有源话者分离。其中，无源话者分离是在事先不知道音频文件所涉及的话者及人数的情况下执行的；有源话者分离则是事先知道音频文件所设计的话者及人数的情况下执行的。深度学习模型，可以是身份识别神经网络经过语音训练数据集训练而成，所述语音训练数据集包括多个语音子数据，每个语音子数据可以包括一个语音数据和该语音数据对应的身份标注，身份特征描述用户身份的特征参数对应的向量。例如：张三的音频“我见到你真的好开心啊”这句话，对应的身份特征(张三)向量化后可以为一个100维的向量。本申请实施例中，语音训练数据集可以是经过用户手动生成的，也可以是经过语音处理获取的，或者也可以是现有的通用的语音数据集。

作为一种方式，本申请可以先获取待分析音频数据的语音特征和文本特征，然后获取所述待分析音频数据对应的身份特征；也可以先获取所述待分析音频数据对应的身份特征，再获取待分析音频数据的语音特征和文本特征；或者也可以同时获取待分析音频数据的语音特征、文本特征以及身份特征，具体先获取哪个特征，这里不进行明确限制，可以根据实际情况进行选择。

步骤S130：将语音特征、文本特征和身份特征输入至情感识别模型，得到情感分析结果。

本申请实施例中，获取到待分析音频数据的音频特征、文本特征以及身份特征后，本申请可以将这三个特征信息输入至情感识别模型中，得到情感分析结果。其中，情感识别模型可以包括文本编码器、语音编码器、全连接层、卷积层以及池化层等，通过文本编码器、语音编码器、全连接层、卷积层以及池化层等的相互配合，本申请可以获取到待分析音频数据中更高层级的特征，如此也可以使最终获取的情感分析结果更加准确。同时，本申请通过情感识别模型可以将所述语音也在和身份特征进行拼接，提及将文本特征与身份特征进行拼接，可以使情感分析结果的获取更加符合实际情况。

作为一种方式，将语音特征、文本特征和身份特征输入至情感识别模型，得到情感分析结果，其中，情感分析结果可以包括高兴、喜悦、悲伤、中性或者愤怒等。待分析音频数据不相同，则其对应的情感分析结果也可能不相同，通过上述介绍可以知道，本申请实施例中的情感分析结果是结合语音特征、文本特征以及身份特征获取的，其在一定程度上保证情感识别的准确性。通过语音识别技术本申请可以确定待分析音频数据包含的文本有哪些，同时本申请可以对该文本进行语义分析。例如，用户A输入的待分析音频数据是“我真的好生气啊”，将所述待分析音频数据进行语音识别技术，即将音频数据转换为文本，得到文本信息“我真的很生气啊”，然后随该文本信息进行文本识别，确定所述文本信息所包含的语义，通过该语义确定用户A当前的情绪可能是愤怒。虽然通过文本识别结果可以确定用户当前可能处于愤怒，但是也存在着误识别，主要原因是语义不能完全表征用户的情绪。例如，用户A语气欢快的说“我好生气啊”，从文本语义来说用户A当前的情绪是愤怒，然而实际情况是用户A的情绪的高兴。此时，为了更准确的对待分析音频数据进行情感分类，本申请可以提取待分析音频数据的语音特征，最后结合文本特征、语音特征以及身份特征便可以准确的对待分析音频数据的情感进行分类。

本申请一个实施例提供的情感识别方法通过结合语音特征、文本特征以及身份特征来对待分析音频数据进行情感分类，首先获取待分析音频数据的语音特征和文本特征，然后利用深度学习模型获取待分析音频数据对应的身份特征，其中，深度学习模型是基于声源分离技术的模型，最后将语音特征、文本特征以及身份特征输入至情感识别模型，即可得到待分析语音数据对应的情感分析结果。本申请实施例通过将其获取的语音特征、文本特征以及身份特征输入至身份识别模型，可以准确高效的对待分析音频数据进行情感识别。另外，本申请提供的情感识别方法中情感识别模型的结构简单且易于实现，如此也使得情感识别模型更适用于实际的工程实践，并且当无法准确通过单一的文本特征或者语音特征进行情感识别时，本申请可以结合这两个特征综合进行情感识别，其在一定程度上提高了情感识别的鲁棒性。

第二实施例

请参阅图2，图2示出了本申请实施例提供的情感识别方法的流程示意图，本方法可以包括步骤S210至步骤S250。

步骤S210：获取待分析音频数据的语音特征和文本特征。

步骤S220：利用深度学习模型获取待分析音频数据对应的身份特征。

作为一种方式步骤S210至步骤S220上述实施例已进行了详细介绍这里就不进行一一赘述。

步骤S230：将文本特征输入至文本编码器，得到文本特征向量，以及将语音特征输入至语音编码器，得到语音特征向量。

本申请实施例中，情感识别模型可以包括文本编码器、语音编码器和全连接层，电子设备可以将文本特征输入至所述文本编码器，得到文本特征向量，以及将语音特征输入至语音编码器，得到语音特征向量。其中，文本编码器用于对语音识别技术获取的文本特征进行编码获得编码状态，文本编码器可以利用深度神经网络将文本特征进行压缩，得到每个时刻对应的编码向量。具体的，本申请可以利用深度神经网络中的长短时记忆网络模型，将文本特征的每个文本元素（词、句子以及符号等）依次输入网络，得到每个时刻对应的编码向量。需要说明的是，利用语音识别技术对待分析音频数据进行处理后，得到的可以是文本特征也可以是文本，因此，在将文本特征输入至文本编码器时，电子设备可以先判断该文本特征是否为文本，如果是文本先进行文本特征提取，然后将所述文本特征输入至文本编码器，文本编码器用于对输入的文本特征输出编码好的特征表达，即文本编码器主要作用是将文本特征以编码向量的形式进行表达。语音编码是通过析取涉及人类语音生成模型的参数来压缩语音的技术的设备，语音编码器把输入语音信号分成时间块或分析帧，语音编码器通常包括编码器和解码器，编码器分析输入语音帧以析取一些相关参数，然后把这些参数量化成二进制表示，即一组数据位或二进制数据分组。数据分组通过通信信道发送给接收机和解码器，解码器处理这些数据分组，对它们进行去量化以生成参数，并用去量化参数重新合成语音帧。本申请实施例中，语音编码器是通过去掉语音中固有的全部自然冗余而把数字化语音信号压缩成低比特率信号。

步骤S240将文本特征向量与身份特征进行拼接，得到目标文本特征，以及将语音特征向量与身份特征进行拼接，得到目标语音特征。

在一些实施方式中，电子设备在利用文本编码器获取到文本特征向量，以及利用语音编码器获取到语音特征向量后，本申请可以将文本特征向量与深度学习模型获取的身份特征进行拼接，得到目标文本特征。同时本申请可以将语音特征向量与深度学习模型获取的身份特征进行拼接，得到目标语音特征，本申请通过将文本特征向量与身份特征进行拼接，以及将语音特征向量与身份特征进行拼接可以使最终获取的文本特征和语音特征信息更加完整，如此也能使得最终输出的情感分析结果更加准确。

步骤S250：利用全连接层对目标文本特征和目标语音特征进行融合得到目标特征，对目标特征进行分类得到情感分析结果。

本申请实施例中，情感识别模型除了包括文本编辑器、语音编辑器以外，还包括全连接层，所述全连接层属于融合模型，所述融合模型可以是所述情感识别模型的子模型，其主要用于融合所述文本编辑器和所述语音编辑器输出的文本特征向量和语音特征向量，并根据最终的融合结果进行分类，得到情感分析结果。为了更清楚的了解，文本编码器、语音编码器、预处理以及融合模型等的关系，本申请给出了如图3所示情感识别框图，从图3可以看出情感识别框图包括音频数据输入模块21、音频数据预处理模块22、深度学习情感识别模块23以及情感输出模块24，所述音频数据输入模块21用于输入待分析音频数据至音频数据预处理模块22，所述音频数据预处理模块22用于对待分析音频数据进行预处理操作，并将其获取的结果输入至深度学习情感识别模块23，其中，音频数据预处理模块22可以包括预处理单元221，所述预处理单元221用于对所述待分析音频数据进行静音检测、去噪、对话分割等操作；对待分析音频数据进行预处理操作后，可以将所述处理后的所述待分析音频数据输入至语音识别模块222，得到识别的文本，以及将所述处理后的待分析音频数据输入至深度学习模块223，得到身份特征。另外，通过预处理模块221对所述待分析音频数据进行处理后，本申请也可以得到语音特征MFCC。综上所述，通过音频数据预处理模块22对待分析音频数据进行处理后可以得到识别的文本（文本特征）、MFCC（语音特征）以及身份特征，所述身份特征可以是X-vectors。然后，音频数据处理模块22可以将其获取的特征传输至深度学习情感识别模块23，所述深度学习情感识别模块23可以包括文本编码器231、语音编码器232以及融合模型233，将所述文本特征输入至所述文本编码器231可以得到文本特征向量，以及将所述语音特征输入至所述语音编码器232可以得到语音特征向量。最后利用融合模型233可以将文本特征向量、语音特征向量和身份特征融合，输出最终特征至情感输出模块24，所述情感输出模块24用于根据最终输出的特征得到情感分类结果。

本申请一个实施例提供的情感识别方法通过结合语音特征、文本特征以及身份特征来对待分析音频数据进行情感分类，首先获取待分析音频数据的语音特征和文本特征，然后利用深度学习模型获取待分析音频数据对应的身份特征，其中，深度学习模型是基于声源分离技术的模型，最后将语音特征、文本特征以及身份特征输入至情感识别模型，即可得到待分析语音数据对应的情感分析结果。本申请实施例通过将其获取的语音特征、文本特征以及身份特征输入至身份识别模型，可以准确高效的对待分析音频数据进行情感识别。另外，本申请通过将文本特征向量与身份特征进行拼接，以及将语音特征向量与身份特征进行拼接可以使最终获取的文本特征和语音特征信息更加完整，如此也能使得最终输出的情感分析结果更加准确。

第三实施例

请参阅图4，图4示出了本申请实施例提供的情感识别方法的流程示意图，本方法可以包括步骤S310至步骤S380。

步骤S310：获取待分析音频数据的语音特征和文本特征。

步骤S320：利用深度学习模型获取待分析音频数据对应的身份特征。

作为一种方式步骤S310至步骤S320上述实施例已进行了详细介绍这里就不进行一一赘述。

步骤S330：将文本特征输入至文本编码器，得到文本特征向量，以及将语音特征输入至语音编码器，得到语音特征向量。

步骤S340：将文本特征向量输入至第一卷积神经网络，并利用第一卷积神经网络对文本特征向量进行特征提取，得到候选文本特征。

在一些实施方式中，情感识别模型可以包括第一卷积神经网络，所述第一卷积神经网络与文本编码器连接，将文本特征输入至文本编码器后，可以得到文本特征向量，所述文本特征向量可以是二维矩阵（N，L），其中，N指的是句子序列维度，而L则指的是文本子向量特征维度。另外，文本编码器输出文本特征向量后，电子设备可以将该文本特征向量输入至所述第一卷积神经网络，所述第一卷积神经网络为二维卷积神经网络，所述第一卷积神经网络可以包括三个子卷积网络，每个所述子卷积网络可以包括多个卷积过滤器数目。作为一个示例，三个子卷积网络可以分别是第一子卷积网络Conv（2*L）、第二子卷积网络Conv（3*L）和第三子卷积网络Conv（4*L），第一子卷积网络Conv（2*L）的卷积过滤数据可以是128个，卷积核大小可以是（L，2），卷积步长可以是（1,1）；第二子卷积网络Conv（3*L）的卷积过滤数据可以是128个，卷积核大小可以是（L，3），卷积步长可以是（1，1）；第三子卷积网络Conv（4*L）的卷积过滤数据可以是128个，卷积核大小可以是（L，4），卷积步长可以是（1，1）。第一子卷积网络、第二子卷积网络以及第三子卷积网络的激活区函数可以是指数线性单元激活函数（ELU）。文本特征向量输入至所述第一卷积神经网络后可以得到候选文本特征，且所述候选文本特征可以包括多个子候选文本特征，所述子候选文本特征与所述子卷积神经网络相互对应。

步骤S350：将候选文本特征与身份特征进行拼接，得到目标文本特征。

在一些实施方式中，情感识别模型还可以包括基于全局的池化层，本申请可以将候选文本特征输入至基于全局的池化层，得到全局文本特征，然后将所述全局文本特征与身份特征进行拼接，得到目标文本特征。本申请实施例中，每个子卷积神经网络可以对应多个基于全局的池化层。每个基于全局的池化层可以包括三部分，这三部分分别是全局最大池化层（global_max_pool）、全局平均池化层（global_avg_pool）和全局标准差池化层（global_std_pool），每个基于全局的池化层可以对应输出一个全局文本特征。另外，文本编码器输出文本特征向量后，本申请可以直接将所述文本特征向量输入至全局平均池化层和全局最大池化层中，得到辅助文本特征。最后，本申请可以将多个全局文本特征与所述辅助文本特征进行融合得到目标文本特征。

步骤S360：将语音特征向量输入至第二卷积神经网络，并利用第二卷积神经网络对语音特征向量进行特征提取，得到候选语音特征。

在一些实施方式中，情感识别模型可以包括第二卷积神经网络，所述第二卷积神经网络与语音编码器连接，将语音特征输入至语音编码器后，可以得到语音特征向量，所述语音特征向量可以是二维矩阵（M，D），其中，M指的是时间帧维度，而D则指的是MFCC特征维度。另外，语音编码器输出语音特征向量后，电子设备可以将该语音特征向量输入至所述第二卷积神经网络，所述第二卷积神经网络为二维卷积神经网络，所述第二卷积神经网络可以包括三个子卷积网络，每个所述子卷积网络可以包括多个卷积过滤器数目。作为一个示例，三个子卷积网络可以分别是第四子卷积网络Conv（5*L）、第五子卷积网络Conv（7*L）和第六子卷积网络Conv（9*L），第四子卷积网络Conv（5*L）的卷积过滤数据可以是128个，卷积核大小可以是（D，5），卷积步长可以是（5,1）；第五子卷积网络Conv（7*L）的卷积过滤数据可以是128个，卷积核大小可以是（D，7），卷积步长可以是（5,1）；第六子卷积网络Conv（9*L）的卷积过滤数据可以是128个，卷积核大小可以是（D，9），卷积步长可以是（5,1）。第四子卷积网络、第五子卷积网络以及第六子卷积网络的激活区函数可以是指数线性单元激活函数（ELU）。语音特征向量输入至所述第二卷积神经网络后可以得到候选语音特征，且所述候选语音特征可以包括多个子候选语音特征，所述子候选语音特征与所述子卷积神经网络相互对应。

步骤S370: 将候选语音特征与身份特征进行拼接，得到目标语音特征。

在一些实施方式中，情感识别模型还可以包括基于全局的池化层，本申请可以将候选语音特征输入至基于全局的池化层，得到全局语音特征，然后将所述全局语音特征与身份特征进行拼接，得到目标语音特征。本申请实施例中，每个子卷积神经网络可以对应多个基于全局的池化层。每个基于全局的池化层可以包括三部分，这三部分分别是全局最大池化层（global_max_pool）、全局平均池化层（global_avg_pool）和全局标准差池化层（global_std_pool），每个基于全局的池化层可以对应输出一个全局语音特征。最后，本申请可以将多个全局语音特征进行融合得到目标语音特征。

步骤S380：利用全连接层对目标文本特征和目标语音特征进行融合得到目标特征，对目标特征进行分类得到情感分析结果。

本申请一个实施例提供的情感识别方法通过结合语音特征、文本特征以及身份特征来对待分析音频数据进行情感分类，首先获取待分析音频数据的语音特征和文本特征，然后利用深度学习模型获取待分析音频数据对应的身份特征，其中，深度学习模型是基于声源分离技术的模型，最后将语音特征、文本特征以及身份特征输入至情感识别模型，即可得到待分析语音数据对应的情感分析结果。本申请实施例通过将其获取的语音特征、文本特征以及身份特征输入至身份识别模型，可以准确高效的对待分析音频数据进行情感识别。另外，本申请通过引入卷积神经网络和全局池化层，可以获取到更高级的文本特征和语音特征，如此也可以提高情感识别的准确性。

第四实施例

请参阅图5，图5示出了本申请实施例提供的情感识别方法的流程示意图，本方法可以包括步骤S410至步骤S430。

步骤S410：获取待分析音频数据的梅尔倒谱系数和文本特征。

本申请实施例中，电子设备获取到待分析音频数据后可以利用语音识别技术（ASR）将所述待分析音频数据转录为文本，即获取到待分析音频数据的文本特征。另外，本申请可以获取待分析音频数据的梅尔倒谱系数（MFCC），具体的，本申请可以先对待分析音频数据进行预加重处理，即将待分析音频数据通过一个高通滤波器；在此基础上为了获取平稳的语音信号，本申请可以对待分析音频数据进行分帧处理，即将待分析音频数据分为一些短段来处理，每一个短段称为一帧；分帧处理后，本申请可以对每一帧音频数据进行加窗处理，将每一帧乘以汉明窗，以增加帧左端和右端的连续性；由于语音信号在时域上的变换通常很难看出其特性，所以本申请在加窗处理后可以对每帧信号进行快速傅里叶变换，得到各帧的频谱。然后本申请可以对傅里叶变换后的语音信号的频谱取模平方得到语音信号的功率谱，接着通过梅尔倒谱滤波器组进行滤波，以得到符合人耳听觉习惯的声谱，最后通过离散余弦变化，得到梅尔倒谱系数。

步骤S420：利用深度学习模型获取待分析音频数据对应的X-vectors特征。

在一些实施方式中，本申请利用深度学习模型可以获取到待分析音频数据对应的X-vectors特征，X-vectors特征用于可变长度的话语映射到固定维度的嵌入特征中。另外，深度学习模型可以是时间延迟神经网络（time delay neural network，TDNN），时延神经网络是第一种为语音识别技术使用多个卷积层的模型，时延神经网络模型在时间轴和频率轴上都应用了卷积运算，本申请中时延神经网络主要是基于声源分离技术的模型，即时延神经网络模型是基于话者分离的深度学习模型。

步骤S430：将语音特征、文本特征和身份特征输入至情感识别模型，得到情感分析结果。

本申请实施例中，情感识别模型可以包括文本编辑器、语音编辑器、第一卷积神经网络、第二卷积神经网络、基于全局的池化层以及全连接层等，为了更清楚的理解情感识别模型结构，本申请给出了如图6所示的示图。通过图6可以知道，待分析音频数据经过语音识别技术可以得到文本特征（文本），以及通过预处理等可以得到语音特征（音频），将所述文本特征输入至文本编码器231，可以得到文本特征向量，将所述语音特征输入至语音编码器232，可以得到语音特征向量。通过上述介绍可以知道情感识别模型可以包括融合模型233，所述融合模型用于将文本特征向量、语音特征向量和身份特征融合，输出最终特征至情感输出模块24。其中，融合模型233可以包括第一卷积神经网络2331和第二卷积神经网络2332，利用所述第一卷积神经网络2331和第二卷积神经网络2332本申请可以对文本特征向量和语音特征向量进行特征提取，得到候选文本特征和语音文本特征，同时文本特征向量也可以直接输入至第三池化层2335，得到第二文本特征，其中，第一卷积神经网络2331可以包括多个卷积层，所述卷积层可以分别表示为Conv（2×L）、Conv（3×L）和Conv（4×L），同理，第二卷积神经网络2332也可以包括多个卷积层，所述多个卷积层可以分别表示为Conv（5×D）、Conv（7×D）和Conv（9×D）。

另外，融合模型还可以包括基于全局的池化层，所述池化层可以包括第一池化层2333和第二池化层2334，第一池化层2333和第二池化层2334用于将第一卷积神经网络2331和第二卷积神经网络2332输出的候选文本特征和语音文本特征进行进一步特征提取，得到全局文本特征和全局语音特征，所述基于全局的池化层可以包括多个子池化层组，每个所述子池化组可以表示为global_max_pool、global_avg_pool以及global_std_pool。而后第一池化层2333和第二池化层2334分别将所述全局文本特征和全局语音特征输入至特征拼接层（concat），所述特征拼接层可以包括第一特征拼接层2336和第二特征拼接层2337，所述第一特征拼接层2336用于将第一池化层输出的多个全局文本特征、第二文本特征以及X-vectors特征2231进行拼接，得到目标文本特征；第二特征拼接层2337用于将第二池化层输出的多个全局语音特征和X-vectors特征2231进行拼接，得到目标语音特征。从图6可以看出融合模型还可以包括全连接层2338，所述全连接层2338用于对目标文本特征和目标语音特征进行进一步特征提取，得到更高级的文本特征和语音特征，最后本申请可以利用全连接网络层2339将目标文本特征和目标语音特征进行融合，得到目标特征，将该目标特征输入至枪杆输出模块24，即可得到情感分类结果。

为了更清楚的理解第一卷积神经网络和第二卷积神经网络的结构，本申请实施例给出了如下表1。

表1

从表1可以看出第一卷积神经网络和第二卷积神经网络的多个卷积层的卷积过滤器数目均是128，第一卷积神经网络的卷积步长为（1,1），而第二卷积神经网络的卷积步长则为（5,1）。另外，第一卷积神经网络和第二卷积神经网络的激活函数均为指数线性单元激活函数（ELU），第一卷积神经网络的输入为文本特征向量，第二卷积神经网络的输入则为语音特征向量（MFCC）。

本申请一个实施例提供的情感识别方法通过结合语音特征、文本特征以及身份特征来对待分析音频数据进行情感分类，首先获取待分析音频数据的语音特征和文本特征，然后利用深度学习模型获取待分析音频数据对应的身份特征，其中，深度学习模型是基于声源分离技术的模型，最后将语音特征、文本特征以及身份特征输入至情感识别模型，即可得到待分析语音数据对应的情感分析结果。本申请实施例通过将其获取的语音特征、文本特征以及身份特征输入至身份识别模型，可以准确高效的对待分析音频数据进行情感识别。另外，本申请通过构建情感识别模型可以更加快速的实现情感识别，且本申请可以不单独依靠语音识别技术转录文本, 在一定程度上可以避免对于文本转录的过于依赖。

第五实施例

请参阅图7，图7示出了本申请实施例提供的情感识别方法的流程示意图，该方法本方法可以包括步骤S510至步骤S540。

步骤S510：获取待分析音频数据的语音特征和文本特征。

步骤S520：利用滤波器组对待分析音频数据进行特征提取，得到有效音频数据特征。

本申请实施例中，有效音频的特征可以是Miltebank特征，所述音频特征可以是电子设备对所述待分析音频数据进行预加重、分帧、加窗处理等操作得到的，具体的，本申请可以先对待分析音频数据进行预加重、分帧、加窗处理，得到所述待分析音频数据对应的语音帧，然后对所述语音帧进行离散傅里叶变换，得到语音帧的频谱。最后，本申请可以根据所述语音帧的频谱获取所述待分析音频数据对应的有效音频数据特征。

作为一种方式，本申请可以先对待分析音频数据进行预加重处理，即将待分析音频数据通过一个高通滤波器；在此基础上为了获取平稳的语音信号，本申请可以对待分析音频数据进行分帧处理，即将待分析音频数据分为一些短段来处理，每一个短段称为一帧；分帧处理后，本申请可以对每一帧音频数据进行加窗处理，将每一帧乘以汉明窗，以增加帧左端和右端的连续性；由于语音信号在时域上的变换通常很难看出其特性，所以本申请在加窗处理后可以对每帧信号进行快速傅里叶变换，得到各帧的频谱。然后本申请可以对傅里叶变换后的语音信号的频谱取模平方得到语音信号的功率谱，最后，本申请可以根据所述语音帧的频谱获取所述待分析音频数据对应的有效音频数据特征，即得到Miltebank特征。

步骤S530：利用深度学习模型对有效语音数据进行特征提取，得到待分析音频数据对应的身份特征。

步骤S540：将语音特征、文本特征和身份特征输入至情感识别模型，得到情感分析结果。

本申请一个实施例提供的情感识别方法通过结合语音特征、文本特征以及身份特征来对待分析音频数据进行情感分类，首先获取待分析音频数据的语音特征和文本特征，然后利用深度学习模型获取待分析音频数据对应的身份特征，其中，深度学习模型是基于声源分离技术的模型，最后将语音特征、文本特征以及身份特征输入至情感识别模型，即可得到待分析语音数据对应的情感分析结果。本申请实施例通过将其获取的语音特征、文本特征以及身份特征输入至身份识别模型，可以准确高效的对待分析音频数据进行情感识别。另外，本申请可以有效融合文本和语音的不同特征，使得情感分析的效果得到很大程度的提升，也使得情感检测系统更加具有鲁棒性。

第六实施例

请参阅图8，图8示出了本申请实施例提供的情感识别方法的流程示意图，本方法可以包括步骤S610至步骤S640。

步骤S610：获取原始音频数据，并确定原始音频数据的格式是否为指定格式。

步骤S620：若原始音频数据的格式为指定格式，则将原始音频数据作为待分析音频数据，并获取待分析音频数据的语音特征和文本特征。

本申请实施例中，指定格式可以是深度学习模型能够识别的模型，即电子设备想通过深度学习模型对原始音频数据进行情绪识别，则原始音频数据的格式与深度学习模型的输入读取格式匹配，如果不匹配则深度学习无法准确识别原始数据包含的情绪，即最终输入的情感分析结果存在误差。因此，本申请在获取到原始音频数据时可以先判断该原始音频数据的格式与深度学习模型所要求的格式是否匹配，如果不匹配则将其先转换为指定格式，而后再输入至深度学习模型。

在一个具体的实施方式中，获取到原始音频数据后，本申请可以先确定所述原始音频数据是否为8kHz的形式，如果是则将原始音频数据作为待分析音频数据并获取待分析音频数据的语音特征和文本特征。如果不是，则将所述原始音频数据的格式转换为8kHz的形式，并进行存储。因此，如果原始音频数据的格式不是指定格式，本申请则可以将所述原始音频数据转换为指定格式，得到待分析音频数据。

步骤S630：利用深度学习模型获取待分析音频数据对应的身份特征。

步骤S640：将语音特征、文本特征和身份特征输入至情感识别模型，得到情感分析结果。

本申请一个实施例提供的情感识别方法通过结合语音特征、文本特征以及身份特征来对待分析音频数据进行情感分类，首先获取待分析音频数据的语音特征和文本特征，然后利用深度学习模型获取待分析音频数据对应的身份特征，其中，深度学习模型是基于声源分离技术的模型，最后将语音特征、文本特征以及身份特征输入至情感识别模型，即可得到待分析语音数据对应的情感分析结果。本申请实施例通过将其获取的语音特征、文本特征以及身份特征输入至身份识别模型，可以准确高效的对待分析音频数据进行情感识别。另外，本申请提出的情感识别方法将待分析音频数据转换为指定格式，其使得情感识别更加高效且易于实现。

第七实施例

请参阅图9，图9示出了本申请实施例提供的情感识别方法的流程示意图，本方法可以包括步骤S710至步骤S720。

步骤S710：获取情感识别网络和情感识别数据集，情感识别数据集包括多个音频数据和多个情感标注数据，音频数据与情感标注数据相互对应。

在一些实施方式中，将所述语音特征、文本特征和身份特征输入至情感识别模型，得到情感分析结果之前本申请可以获取情感识别网络和情感识别数据集，其中，情感识别数据集包括多个音频数据和多个情感标注数据，音频数据与情感标注数据相互对应。情感识别数据集可以是用户手动输入构建的数据集，也可以是现有的通用情感识别数据集，或者也可以是用户通过网络爬虫技术获取的数据集。情感标注数据集可以包括伤心、开心、愤怒等，同一用户说的同一句话，当其情绪不同时对应的情感标注也不相同。例如，用户A在第一时刻说“我很想妈妈”，以及在第二时刻见到妈妈后说“我很想妈妈”，第一时刻说的语音是由于思念而表达出的悲伤情绪，而第二时刻说的语音则是由于见到妈妈后表达出的喜悦情绪。因此，不同的语音即使说的内容相同，但是其对应的情绪也不相同。作为另一种方式，本申请实施例在利用情感识别模型对待分析音频数据对应的情感进行分析时，电子设备也可以通过待分析音频数据对情感识别模型不断进行更新，即利用待分析音频数据对应的语音特征、文本特征和身份特征等对情感识别模型不断进行训练，以此提高情感识别模型识别的准确率，同时可以提高用户的使用体验。

步骤S720：利用情感识别数据集对情感识别网络进行训练，得到情感识别模型。

本申请一个实施例提供的情感识别方法通过结合语音特征、文本特征以及身份特征来对待分析音频数据进行情感分类，首先获取待分析音频数据的语音特征和文本特征，然后利用深度学习模型获取待分析音频数据对应的身份特征，其中，深度学习模型是基于声源分离技术的模型，最后将语音特征、文本特征以及身份特征输入至情感识别模型，即可得到待分析语音数据对应的情感分析结果。本申请实施例通过将其获取的语音特征、文本特征以及身份特征输入至身份识别模型，可以准确高效的对待分析音频数据进行情感识别。另外，本申请可以对情感识别模型不断进行更新训练，其一定程度上可以更加显著的提高情感识别的效率和准确率。

第八实施例

请参阅图10，图10示出了本申请实施例提供的情感识别装置的模块框图。下面将针对图10所示的模块框图进行阐述，该情感识别装置800包括：第一获取模块810、第二模块820以及情感输出模块830。

第一获取模块810，用于获取待分析音频数据的语音特征和文本特征。

可选地，第一获取模块810还用于获取原始音频数据，并确定所述原始音频数据的格式是否为指定格式，所述深度学习模型的输入数据格式为指定格式；若所述原始音频数据的格式为指定格式，则将所述原始音频数据作为待分析音频数据。

可选地，第一获取模块810还用于若所述原始音频数据的格式不是指定格式，则将所述原始音频数据转换为指定格式，得到待分析音频数据。

第二获取模块820，用于利用深度学习模型获取所述待分析音频数据对应的身份特征，所述深度学习模型是基于声源分离技术的模型。

可选地，第二获取模块820还用于利用滤波器组对所述待分析音频数据进行特征提取，得到有效音频数据特征；利用所述深度学习模型对所述有效语音数据进行特征提取，得到所述待分析音频数据对应的身份特征。

可选地，第二获取模块820还用于对所述待分析音频数据进行预加重、分帧、加窗处理，得到所述待分析音频数据对应的语音帧，并对所述语音帧进行离散傅里叶变换，得到语音帧的频谱；根据所述语音帧的频谱获取所述待分析音频数据对应的有效音频数据特征。

情感输出模块830，用于将所述语音特征、文本特征和身份特征输入至情感识别模型，得到情感分析结果。

请参阅图11，确定模块830可以包括特征输入单元831、特征拼接单元832以及特征融合单元833。

特征输入单元831，用于将所述文本特征输入至所述文本编码器，得到文本特征向量，以及将所述语音特征输入至所述语音编码器，得到语音特征向量。

特征拼接单元832，用于将所述文本特征向量与所述身份特征进行拼接，得到目标文本特征，以及将所述语音特征向量与所述身份特征进行拼接，得到目标语音特征。

特征融合单元833，用于利用所述全连接层对所述目标文本特征和所述目标语音特征进行融合得到目标特征，对所述目标特征进行分类得到情感分析结果。

可选地，情感识别模型还包括第一卷积神经网络，所述第一卷积神经网络为二维卷积神经网络，特征拼接单元832还用于将所述文本特征向量输入至所述第一卷积神经网络，并利用所述第一卷积神经网络对所述文本特征向量进行特征提取，得到候选文本特征，将所述候选文本特征与所述身份特征进行拼接，得到目标文本特征。

可选地，情感识别模型还包括基于全局的池化层，特征拼接单元832还用于将所述候选文本特征输入至所述基于全局的池化层，得到全局文本特征；将所述全局文本特征与所述身份特征进行拼接，得到目标文本特征。

可选地，情感识别模型还包括第二卷积神经网络，所述第二卷积神经网络为二维卷积神经网络，特征拼接单元832还用于将所述语音特征向量输入至所述第二卷积神经网络，并利用所述第二卷积神经网络对所述语音特征向量进行特征提取，得到候选语音特征；将所述候选语音特征与所述身份特征进行拼接，得到目标语音特征。

可选地，情感识别模型还包括基于全局的池化层，特征拼接单元832还用于将所述候选语音特征输入至所述基于全局的池化层，得到全局语音特征；将所述全局语音特征与所述身份特征进行拼接，得到目标语音特征。

可选地，身份特征包括X-vectors特征，所述语音特征包括梅尔倒谱系数。

本申请实施例提供的情感识别装置800用于实现前述方法实施例中相应的情感识别方法，并具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的技术人员可以清楚地了解到，本申请实施例提供的情感识别装置800能够实现前述方法实施例中的各个过程，为描述的方便和简洁，上述描述装置800和模块的具体工作过程，可以参阅前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置800或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

第九实施例

请参阅图12，其示出了本申请实施例提供的一种电子设备1000的结构框图。该电子设备1000可以是智能手机、平板电脑等能够运行应用程序的电子设备。本申请中的电子设备1000可以包括一个或多个如下部件：处理器1010、存储器1020以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器1020中并被配置为由一个或多个处理器1010执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器1010可以包括一个或者多个处理核。处理器1010利用各种接口和线路连接整个电子设备1000内的各个部分，通过运行或执行存储在存储器1020内的指令、程序、代码集或指令集，以及调用存储在存储器1020内的数据，执行电子设备1000的各种功能和处理数据。可选地，处理器1010可以采用数字信号处理（Digital Signal Processing，DSP）、现场可编程门阵列（Field－PrograMMable Gate Array，FPGA）、可编程逻辑阵列（PrograMMable Logic Array，PLA）中的至少一种硬件形式来实现。处理器1010可集成中央处理器（Central Processing Unit，CPU）、图像处理器（Graphics Processing Unit，GPU）和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1010中，单独通过一块通信芯片进行实现。

存储器1020可以包括随机存储器（Random ACCess Memory，RAM），也可以包括只读存储器（Read-Only Memory）。存储器1020可用于存储指令、程序、代码、代码集或指令集。存储器1020可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令（比如触控功能、声音播放功能、图像播放功能等）、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备1000在使用中所创建的数据（比如电话本、音视频数据、聊天记录数据）等。

第十实施例

请参阅图13，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质1100中存储有程序代码，程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质1100可以是诸如闪存、EEPROM（电可擦除可编程只读存储器）、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质1100包括非易失性计算机可读介质（non-transitory computer-readable storage medium）。计算机可读存储介质1100具有执行上述方法中的任何方法步骤的程序代码1110的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1110可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种情感识别方法，其特征在于，所述方法包括：

获取待分析音频数据的语音特征和文本特征；

利用深度学习模型获取所述待分析音频数据对应的身份特征，所述深度学习模型是基于声源分离技术的模型；

将所述文本特征输入至情感识别模型的文本编码器，得到文本特征向量，以及将所述语音特征输入至所述情感识别模型的语音编码器，得到语音特征向量；

将所述文本特征向量与所述身份特征进行拼接，得到目标文本特征，以及将所述语音特征向量与所述身份特征进行拼接，得到目标语音特征；

利用所述情感识别模型的全连接层对所述目标文本特征和所述目标语音特征进行融合得到目标特征，对所述目标特征进行分类得到情感分析结果。

2.根据权利要求1所述的方法，其特征在于，所述情感识别模型还包括第一卷积神经网络，所述第一卷积神经网络为二维卷积神经网络；

所述将所述文本特征向量与所述身份特征进行拼接，得到目标文本特征，包括：

将所述文本特征向量输入至所述第一卷积神经网络，并利用所述第一卷积神经网络对所述文本特征向量进行特征提取，得到候选文本特征；

将所述候选文本特征与所述身份特征进行拼接，得到目标文本特征。

3.根据权利要求2所述的方法，其特征在于，所述情感识别模型还包括基于全局的池化层；

所述将所述候选文本特征与所述身份特征进行拼接，得到目标文本特征，包括：

将所述候选文本特征输入至所述基于全局的池化层，得到全局文本特征；

将所述全局文本特征与所述身份特征进行拼接，得到目标文本特征。

4.根据权利要求1所述的方法，其特征在于，所述情感识别模型还包括第二卷积神经网络，所述第二卷积神经网络为二维卷积神经网络；

所述将所述语音特征向量与所述身份特征进行拼接，得到目标语音特征，包括：

将所述语音特征向量输入至所述第二卷积神经网络，并利用所述第二卷积神经网络对所述语音特征向量进行特征提取，得到候选语音特征；

将所述候选语音特征与所述身份特征进行拼接，得到目标语音特征。

5.根据权利要求4所述的方法，其特征在于，所述情感识别模型还包括基于全局的池化层；

所述将所述候选语音特征与所述身份特征进行拼接，得到目标语音特征，包括：

将所述候选语音特征输入至所述基于全局的池化层，得到全局语音特征；

将所述全局语音特征与所述身份特征进行拼接，得到目标语音特征。

6.根据权利要求1至5任一所述的方法，其特征在于，所述身份特征包括X-vectors特征，所述语音特征包括梅尔倒谱系数。

7.根据权利要求1至5任一所述的方法，其特征在于，所述利用深度学习模型获取所述待分析音频数据对应的身份特征，包括：

利用滤波器组对所述待分析音频数据进行特征提取，得到有效音频数据特征；

利用所述深度学习模型对所述有效音频数据特征进行特征提取，得到所述待分析音频数据对应的身份特征。

8.根据权利要求7所述方法，其特征在于，所述利用滤波器组对所述待分析音频数据进行特征提取，得到有效音频数据特征，包括：

对所述待分析音频数据进行预加重、分帧、加窗处理，得到所述待分析音频数据对应的语音帧，并对所述语音帧进行离散傅里叶变换，得到语音帧的频谱；

根据所述语音帧的频谱获取所述待分析音频数据对应的有效音频数据特征。

9.根据权利要求1所述的方法，其特征在于，所述获取待分析音频数据，包括：

获取原始音频数据，并确定所述原始音频数据的格式是否为指定格式，所述深度学习模型的输入数据格式为指定格式；

若所述原始音频数据的格式为指定格式，则将所述原始音频数据作为待分析音频数据。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

若所述原始音频数据的格式不是指定格式，则将所述原始音频数据转换为指定格式，得到待分析音频数据。

11.根据权利要求1所述的方法，其特征在于，所述将所述文本特征输入至情感识别模型的文本编码器之前，包括：

获取情感识别网络和情感识别数据集，所述情感识别数据集包括多个音频数据和多个情感标注数据，所述音频数据与所述情感标注数据相互对应；

利用所述情感识别数据集对所述情感识别网络进行训练，得到情感识别模型。

12.一种情感识别装置，其特征在于，所述装置包括：

第一获取模块，用于获取待分析音频数据的语音特征和文本特征；

第二获取模块，用于利用深度学习模型获取所述待分析音频数据对应的身份特征，所述深度学习模型是基于声源分离技术的模型；

情感输出模块，将所述文本特征输入至情感识别模型的文本编码器，得到文本特征向量，以及将所述语音特征输入至所述情感识别模型的语音编码器，得到语音特征向量；将所述文本特征向量与所述身份特征进行拼接，得到目标文本特征，以及将所述语音特征向量与所述身份特征进行拼接，得到目标语音特征；利用所述情感识别模型的全连接层对所述目标文本特征和所述目标语音特征进行融合得到目标特征，对所述目标特征进行分类得到情感分析结果。

13.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-11中任意一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-11中任意一项所述的方法。