CN114863949A

CN114863949A - 情绪识别方法、装置、计算机设备及存储介质

Info

Publication number: CN114863949A
Application number: CN202210434020.4A
Authority: CN
Inventors: 张文泽; 文博; 刘云峰
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2022-04-24
Filing date: 2022-04-24
Publication date: 2022-08-05

Abstract

本申请涉及一种情绪识别方法，包括：获取语音数据中的第一文本特征及对应的第一频率倒谱特征和声纹特征；将第一文本特征和第一频率倒谱特征进行交叉注意力融合，得到第二文本特征和第二频率倒谱特征；将第二频率倒谱特征和声纹特征编码，得到第一音频编码特征和第二音频编码特征；将第一文本特征和第二文本特征编码，得到第一文本编码特征和第二文本编码特征；将第一音频编码特征和第一文本编码特征多头注意力融合后得到第一融合特征；将第一融合特征根据动态路由算法得到第二融合特征；根据第二融合特征、第二文本编码特征和第二音频编码特征得到情绪识别结果。该方法能够充分利用语音数据所对应的文本特征和语音特征，实现高精度的情绪识别。

Description

情绪识别方法、装置、计算机设备及存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种情绪识别方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着人工智能领域的迅速发展以及深度学习的助力，人机交互领域受到越来越多研究学者的重视。而情绪识别作为人机交互中一个重要的分支，也成为了当前的热点研究方向。目前，对情绪识别的研究大多集中在语音、面部表情、文本等单模态领域。语音作为人们交流最直接的手段，其中涵盖了丰富的情绪信息，人们情绪的变化可以通过语音特征体现出来。语音情绪识别正是将输入包含情绪信息的语音信号转化为可读的物理特征，并提取其中与情绪表达相关的语音特征，再构建情绪识别分类器进行测试和训练，最后输出情绪识别分类结果。然而，传统技术在对语音和文本进行融合时，融合方式较简单，导致情绪识别精度较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高情绪识别精度的情绪识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种情绪识别方法。所述方法包括：

获取语音数据，提取所述语音数据中的第一文本特征及对应的语音特征，所述语音特征包括第一频率倒谱特征和声纹特征；

将所述第一文本特征和所述第一频率倒谱特征进行交叉注意力融合，得到第二文本特征和第二频率倒谱特征；

将所述第二频率倒谱特征和所述声纹特征进行编码，得到第一音频编码特征和第二音频编码特征；

将所述第一文本特征和所述第二文本特征进行编码，得到第一文本编码特征和第二文本编码特征；

将所述第一音频编码特征和所述第一文本编码特征进行多头注意力融合后得到第一融合特征；

根据动态路由算法将所述第一融合特征进行融合，得到第二融合特征；

将所述第二融合特征、所述第二文本编码特征和所述第二音频编码特征进行拼接，得到拼接结果，对所述拼接结果进行分类识别得到情绪识别结果。

在其中一个实施例中，所述将所述第一文本特征和所述第一频率倒谱特征进行交叉注意力融合，得到第二文本特征和第二频率倒谱特征，包括：

计算所述第一文本特征相对于所述第一频率倒谱特征的第一注意力权重，以及所述第一频率倒谱特征相对于所述第一文本特征的第二注意力权重；

根据所述第一注意力权重和所述第一频率倒谱特征，确定所述第二文本特征；

根据所述第二注意力权重和所述第一文本特征，确定所述第二频率倒谱特征。

在其中一个实施例中，所述根据所述第一注意力权重和所述第一频率倒谱特征，确定所述第二文本特征，包括：

将所述第一注意力权重和所述第一频率倒谱特征的乘积作为所述第二文本特征；

根据所述第二注意力权重和所述第一文本特征，确定所述第二频率倒谱特征，包括：

将所述第二注意力权重和所述第一文本特征的乘积作为所述第二频率倒谱特征。

在其中一个实施例中，所述将所述第二频率倒谱特征和所述声纹特征进行编码，得到第一音频编码特征和第二音频编码特征，包括：

将所述第二频率倒谱特征经过卷积和池化处理，得到第一结果；

将所述第一结果的标准差、最大值和平均值与所述声纹特征进行拼接，得到第二结果，将所述第二结果进行池化处理，得到所述第一音频编码特征；

将所述第一音频编码特征进行降维处理，得到所述第二音频编码特征。

在其中一个实施例中，所述将所述第一文本特征和所述第二文本特征进行编码，得到第一文本编码特征和第二文本编码特征，包括：

将所述第二文本特征经过卷积和池化处理，得到第三结果；

将所述第三结果的标准差、最大值和平均值与所述第一文本特征进行拼接，得到第四结果，将所述第四结果进行池化处理，得到所述第一文本编码特征；

将所述第一文本编码特征进行降维处理，得到所述第二文本编码特征。

在其中一个实施例中，所述根据动态路由算法将所述第一融合特征进行融合，得到第二融合特征，包括：

使用所述动态路由算法对所述第一融合特征进行融合，得到中间融合特征；

使用所述动态路由算法对所述中间融合特征进行融合，得到所述第二融合特征。

第二方面，本申请还提供了一种情绪识别装置，所述装置包括：

特征提取模块，用于获取语音数据，提取所述语音数据中的第一文本特征及对应的语音特征，所述语音特征包括第一频率倒谱特征和声纹特征；

第一融合模块，用于将所述第一文本特征和所述第一频率倒谱特征进行交叉注意力融合，得到第二文本特征和第二频率倒谱特征；

第一编码模块，用于将所述第二频率倒谱特征和所述声纹特征进行编码，得到第一音频编码特征和第二音频编码特征；

第二编码模块，用于将所述第一文本特征和所述第二文本特征进行编码，得到第一文本编码特征和第二文本编码特征；

第二融合模块，用于将所述第一音频编码特征和所述第一文本编码特征进行多头注意力融合后得到第一融合特征；

第三融合模块，用于根据动态路由算法将所述第一融合特征进行融合，得到第二融合特征；

情绪识别模块，用于将所述第二融合特征、所述第二文本编码特征和所述第二音频编码特征进行拼接，得到拼接结果，对所述拼接结果进行分类识别得到情绪识别结果。

在其中一个实施例中，所述第一融合模块，还用于：

在其中一个实施例中，所述第一编码模块，还用于：

在其中一个实施例中，所述第二编码模块，还用于：

将所述第二文本特征经过卷积和池化处理，得到第三结果；

在其中一个实施例中，所述第三融合模块，还用于：

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

上述情绪识别方法、装置、计算机设备、存储介质和计算机程序产品，通过获取语音数据，提取所述语音数据中的第一文本特征及对应的语音特征，所述语音特征包括第一频率倒谱特征和声纹特征；将所述第一文本特征和所述第一频率倒谱特征进行交叉注意力融合，得到第二文本特征和第二频率倒谱特征；将所述第二频率倒谱特征和所述声纹特征进行编码，得到第一音频编码特征和第二音频编码特征；将所述第一文本特征和所述第二文本特征进行编码，得到第一文本编码特征和第二文本编码特征；将所述第一音频编码特征和所述第一文本编码特征进行多头注意力融合后得到第一融合特征；根据动态路由算法将所述第一融合特征进行融合，得到第二融合特征；将所述第二融合特征、所述第二文本编码特征和所述第二音频编码特征进行拼接，得到拼接结果，对所述拼接结果进行分类识别得到情绪识别结果。本申请通过对语音数据所对应的文本特征和语音特征进行编码以及深层次融合，然后对编码和融合结果进行分类和情绪识别，能够充分利用语音数据所对应的文本特征和语音特征，实现高精度的情绪识别。

附图说明

图1为一个实施例中情绪识别方法的应用环境图；

图2为一个实施例中情绪识别方法的流程示意图；

图3为一个实施例中步骤204的流程示意图；

图4为一个实施例中步骤206的流程示意图；

图5为一个实施例中步骤208的流程示意图；

图6为一个实施例中步骤212的流程示意图；

图7为另一个实施例中情绪识别方法的流程示意图；

图8为另一个实施例中情绪识别方法的流程示意图；

图9为一个实施例中步骤706的流程示意图；

图10为一个实施例中情绪识别装置的结构框图；

图11为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的情绪识别方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。服务器104获取终端102发送的语音数据，提取语音数据中的第一文本特征及对应的语音特征，其中，语音特征包括第一频率倒谱特征和声纹特征；将第一文本特征和第一频率倒谱特征进行交叉注意力融合，得到第二文本特征和第二频率倒谱特征；将第二频率倒谱特征和声纹特征进行编码，得到第一音频编码特征和第二音频编码特征；将第一文本特征和第二文本特征进行编码，得到第一文本编码特征和第二文本编码特征；将第一音频编码特征和第一文本编码特征进行多头注意力融合后得到第一融合特征；根据动态路由算法将第一融合特征进行融合，得到第二融合特征；将第二融合特征、第二文本编码特征和第二音频编码特征进行拼接，得到拼接结果，对拼接结果进行分类识别得到情绪识别结果。

其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在此需要说明的是，本申请实施例中公开的情绪识别方法中的任意步骤，可以由终端102和服务器104基于交互的方式实现，或者由服务器104单独实现，或者由终端102单独实现，在此不作限制。

在一个实施例中，如图2所示，提供了一种情绪识别方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤202至步骤214。

步骤202，获取语音数据，提取语音数据中的第一文本特征及对应的语音特征，其中，语音特征包括第一频率倒谱特征和声纹特征。

服务器可以通过接收终端发送的语音数据，也可以通过接口直接获取语音数据。其中，语音数据可以是直接录制的语音数据，也可以是从其他形式的数据中提取出来的语音数据，例如，从多媒体数据中提取出来的语音数据。服务器提取语音数据中的第一文本特征及对应的语音特征，其中，第一文本特征可以理解为语音数据中可转换为文本形式的文本特征，语音特征包括第一频率倒谱特征和声纹特征。第一频率倒谱特征例如可以是MFCC(Mel-scale Frequency Cepstral Coefficients，梅尔频率倒谱系数)特征，代表信号频谱的能量在不同频率区间的分布。声纹特征例如可以是ivector(Identity-Vector，身份认证向量)特征，代表对应语音数据的音色等具有明显区分标识的特征。

第一文本特征通过将相应的文本中的每个词转化为对应的向量表示，从而得到整个文本对应的词嵌入矩阵，第一频率倒谱特征可以将频率倒谱图像转换为相应矩阵格式，声纹特征转换为矩阵或者向量格式后，进行后续过程的处理。

步骤204，将第一文本特征和第一频率倒谱特征进行交叉注意力融合，得到第二文本特征和第二频率倒谱特征。

服务器将第一文本特征和第一频率倒谱特征进行交叉注意力融合，得到第二文本特征和第二频率倒谱特征。具体地，第一文本特征和第一频率倒谱特征通过注意力机制进行交叉融合，得到第二文本特征和第二频率倒谱特征，例如，根据第一文本特征和第一频率倒谱特征之间的注意力权重，得到第二文本特征和第二频率倒谱特征。

步骤206，将第二频率倒谱特征和声纹特征进行编码，得到第一音频编码特征和第二音频编码特征。

服务器将第二频率倒谱特征和声纹特征进行编码，得到第一音频编码特征和第二音频编码特征。具体地，编码的过程相当于是对第二频率倒谱特征和声纹特征进行数据处理的过程，例如，进行池化、卷积及维度对齐等处理过程。

步骤208，将第一文本特征和第二文本特征进行编码，得到第一文本编码特征和第二文本编码特征。

服务器将第一文本特征和第二文本特征进行编码，得到第一文本编码特征和第二文本编码特征。其中，本实施例中的编码过程可以与步骤206中的编码过程相同，只是编码对象替换为第一文本特征和第二文本特征，编码结果为第一文本编码特征和第二文本编码特征。即，对第一文本特征和第二文本特征进行池化、卷积及维度对齐等处理过程后，得到第一文本编码特征和第二文本编码特征。

步骤210，将第一音频编码特征和第一文本编码特征进行多头注意力融合后得到第一融合特征。

服务器将第一音频编码特征和第一文本编码特征进行多头注意力融合后得到第一融合特征。多头注意力(Multi-head Attention)是利用多个查询，来平行地计算从输入信息中选取多个信息，每个注意力关注输入信息的不同部分。

在一个可能的实现方式中，将第一音频编码特征和第一文本编码特征的维度对齐后，再进行多头注意力融合。维度对齐，是使得两者的维度保持一致，这样方便后续的运算处理。在进行多头注意力融合时，将第一音频编码特征和第一文本编码特征分别拆分为多个子特征，得到多个第一音频编码子特征和多个第一文本编码子特征，将多个第一音频编码子特征和多个第一文本编码子特征进行多头注意力融合，得到多个第一融合特征。

步骤212，根据动态路由算法将第一融合特征进行融合，得到第二融合特征。

服务器根据动态路由算法将第一融合特征进行融合，得到第二融合特征。动态路由(Dynamic Routing)算法，是一种应用在胶囊网络中的自动更新算法，根据特征之间的相关性对特征进行融合。胶囊网络由多个胶囊组成，而不是由神经元构成，一个胶囊包括一组神经元，表示特定类型的实体的实例化参数，例如，可以表示一个对象或对象部分的方向、可能性、大小等。

在具体应用场景中，可以根据动态路由算法连续进行多次融合，最终得到第二融合特征。例如，可以根据动态路由算法对第一融合特征进行融合，得到中间融合特征，再使用动态路由算法对中间融合特征进行融合，得到第二融合特征。

步骤214，将第二融合特征、第二文本编码特征和第二音频编码特征进行拼接，得到拼接结果，对拼接结果进行分类识别得到情绪识别结果。

服务器将第二融合特征、第二文本编码特征和第二音频编码特征进行拼接，得到拼接结果，对拼接结果进行分类识别，得到情绪识别结果。在对拼接结果进行分类识别时，可以是模型的分类层进行分类识别，也可以通过其他的分类算法进行分类识别。情绪识别结果通常为向量的形式，向量中的各数值用于表征不同的情绪，例如，向量中的数值为0和1之间的数值，若数值为0.9，表示正向的情绪；数值为0.5，表示中性的情绪；数值为0.2，表示负向的情绪。在实际应用中，向量中的数值与情绪类别之间的对应关系可以根据具体情况进行设定，在此不做进一步限定。

上述情绪识别方法中，通过获取语音数据，提取语音数据中的第一文本特征及对应的语音特征，语音特征包括第一频率倒谱特征和声纹特征；将第一文本特征和第一频率倒谱特征进行交叉注意力融合，得到第二文本特征和第二频率倒谱特征；将第二频率倒谱特征和声纹特征进行编码，得到第一音频编码特征和第二音频编码特征；将第一文本特征和第二文本特征进行编码，得到第一文本编码特征和第二文本编码特征；将第一音频编码特征和第一文本编码特征进行多头注意力融合后得到第一融合特征；根据动态路由算法将第一融合特征进行融合，得到第二融合特征；将第二融合特征、第二文本编码特征和第二音频编码特征进行拼接，得到拼接结果，对拼接结果进行分类识别得到情绪识别结果。本申请实施例通过对语音数据所对应的文本特征和语音特征进行编码以及深层次的融合，然后对编码和融合结果进行分类和情绪识别，能够充分利用语音数据所对应的文本特征和语音特征，实现高精度的情绪识别。

在一个实施例中，如图3所示，将第一文本特征和第一频率倒谱特征进行交叉注意力融合，得到第二文本特征和第二频率倒谱特征的步骤204，包括以下步骤302至步骤306：

步骤302，计算第一文本特征相对于第一频率倒谱特征的第一注意力权重，以及第一频率倒谱特征相对于第一文本特征的第二注意力权重。

第一文本特征相对于第一频率倒谱特征的第一注意力权重，是指第一频率倒谱特征对第一文本特征的“注意”程度。通常，第一文本特征包括多个第一文本子特征，第一频率倒谱特征包括多个第一频率倒谱子特征，计算第一文本特征相对于第一频率倒谱特征的第一注意力权重时，分别计算每个第一频率倒谱特征对每个第一文本特征的注意力权重，得到第一注意力权重。同理，计算第一频率倒谱特征相对于第一文本特征的第二注意力权重时，分别计算每个第一文本特征对每个第一频率倒谱特征的注意力权重，得到第二注意力权重。

在一个具体的示例中，假设第一文本特征为A＝[a₁ a₂ a₃ a₄ a₅]，第一频率倒谱特征为B＝[b₁ b₂ b₃ b₄ b₅]，那么第一注意力权重为C1，第二注意力权重为C2，则：

其中，a_ib_j表示a_i相对于b_j的注意力权重，其中，i＝1，…，5；j＝1，…，5；b_ma_n表示b_m相对于a_n的注意力权重，其中m＝1，…，5；n＝1，…，5，。

在一个可能的实现方式中，根据第一文本特征和第一频率倒谱特征，分别确定第一注意力权重和第二注意力权重。具体地，可以将第一文本特征与第一频率倒谱特征的转置的乘积作为第一注意力权重，将第一频率倒谱特征和第一文本特征的转置的乘积作为第二注意力权重。示例性地，假设第一文本特征为A，第一频率倒谱特征为B，那么第一注意力权重为C1＝AB^T，第二注意力权重为C2＝BA^T。可选地，将第一注意力权重和第二注意力权重经过归一化处理，例如softmax函数，转换为0和1之间的数值后，再参与后续的计算。

步骤304，根据第一注意力权重和第一频率倒谱特征，确定第二文本特征。

本实施例中，服务器根据第一注意力权重和第一频率倒谱特征，确定第二文本特征。可以根据第一注意力权重和第一频率倒谱特征的乘积作为第二文本特征，也可以根据第一注意力权重和第一频率倒谱特征的点积作为第二文本特征。

步骤306，根据第二注意力权重和第一文本特征，确定第二频率倒谱特征。

本实施例中，服务器根据第二注意力权重和第一文本特征，确定第二频率倒谱特征。可以根据第二注意力权重和第一文本特征的乘积作为第二频率倒谱特征，也可以根据第二注意力权重和第一文本特征的点积作为第二频率倒谱特征。

在一个实施例中，根据第一注意力权重和第一频率倒谱特征，确定第二文本特征的步骤304，包括以下步骤。

将第一注意力权重和第一频率倒谱特征的乘积作为第二文本特征。

根据第二注意力权重和第一文本特征，确定第二频率倒谱特征的步骤306，包括：

将第二注意力权重和第一文本特征的乘积作为第二频率倒谱特征。

本实施例中，将第一注意力权重和第一频率倒谱特征的乘积作为第二文本特征，将第二注意力权重和第一文本特征的乘积作为第二频率倒谱特征。可以理解的是，在第一注意力权重和第一频率倒谱特征的乘积的基础上，或者在第二注意力权重和第一文本特征的乘积的基础上，乘以或除以相应的系数，或者增加常数，得到对应的第二文本特征或者第二频率倒谱特征，均应该被视为在本申请实施例的保护范围之内。

在一个实施例中，如图4所示，将第二频率倒谱特征和声纹特征进行编码，得到第一音频编码特征和第二音频编码特征的步骤206，包括以下步骤402至步骤406。

步骤402，将第二频率倒谱特征经过卷积和池化处理，得到第一结果。

本实施例中，将第二频率倒谱特征经过卷积和池化处理，可以是先经过卷积处理再经过池化处理，也可以是先经过池化处理再经过卷积处理，同时，卷池或池化处理的过程可以进行多次。在一个示例中，将第二频率倒谱特征经过一次卷积处理后进行一次池化处理，将这个过程作为一组卷积池化处理，重复进行多组卷积池化处理后，例如重复进行5次，得到第一结果。

步骤404，将第一结果的标准差、最大值和平均值与声纹特征进行拼接，得到第二结果，将第二结果进行池化处理，得到第一音频编码特征。

本实施例中，得到第一结果后，分别计算第一结果的标准差、最大值和平均值，将第一结果的标准差、最大值和平均值与声纹特征进行拼接，得到第二结果，将第二结果再进行池化处理，得到第一音频编码特征。

步骤406，将第一音频编码特征进行降维处理，得到第二音频编码特征。

本实施例中，可以根据第一预设维度将第一音频编码特征进行降维处理，也可以参照后续一起处理的其他特征的最小维度进行降维处理，得到第二音频编码特征，方便后续的运算处理。

在一个实施例中，如图5所示，将第一文本特征和第二文本特征进行编码，得到第一文本编码特征和第二文本编码特征的步骤208，包括以下步骤502至步骤506。

步骤502，将第二文本特征经过卷积和池化处理，得到第三结果。

本实施例中，将第二文本特征经过卷积和池化处理，可以是先经过卷积处理再经过池化处理，也可以是先经过池化处理再经过卷积处理，同时，卷池或池化处理的过程可以进行多次。在一个示例中，将第二文本特征经过一次卷积处理后进行一次池化处理，将这个过程作为一组卷积池化处理，重复进行多组卷积池化处理后，例如重复进行5次，得到第三结果。

步骤504，将第三结果的标准差、最大值和平均值与第一文本特征进行拼接，得到第四结果，将第四结果进行池化处理，得到第一文本编码特征。

本实施例中，得到第三结果后，分别计算第三结果的标准差、最大值和平均值，将第三结果的标准差、最大值和平均值与声纹特征进行拼接，得到第四结果，将第四结果再进行池化处理，得到第一文本编码特征。

步骤506，将第一文本编码特征进行降维处理，得到第二文本编码特征。

本实施例中，可以根据第二预设维度将第一音频编码特征进行降维处理，也可以参照后续一起处理的其他特征的最小维度进行降维处理，得到第二文本编码特征，方便后续的运算处理。

在一个实施例中，如图6所示，根据动态路由算法将第一融合特征进行融合，得到第二融合特征的步骤212，包括以下步骤602至步骤604。

步骤602，使用动态路由算法对第一融合特征进行融合，得到中间融合特征。

本实施例中，第一融合特征为多个，将每个第一融合特征拆分为多个第一融合子特征，基于多个第一融合子特征之间的相关性，根据动态路由算法对多个第一融合子特征进行融合，得到中间融合特征。

步骤604，使用动态路由算法对中间融合特征进行融合，得到第二融合特征。

本实施例中，基于多个第一融合特征之间的相关性，根据动态路由算法对多个第一融合特征对应的中间融合特征进行融合，得到第二融合特征。

本实施例通过使用两次动态路由算法对第一融合特征进行融合，得到第二融合特征，第一次使用动态路由算法融合相当于是对第一融合特征的第一融合子特征进行融合，即对第一融合特征的局部特征进行融合，第二次使用动态路由算法融合相当于是对第一融合特征的整体特征进行融合，通过两次融合可以使得数据融合的更加充分，实现了对文本特征和语音特征的深层次融合，进一步提高了情绪识别的识别精度。

在一个实施例中，如图7所示，一种情绪识别方法，包括以下步骤702至步骤714。

步骤702，获取语音数据，提取语音数据中的第一文本特征及对应的语音特征，其中，语音特征包括第一频率倒谱特征和声纹特征。

语音数据可以是直接录制的语音数据，也可以是从其他形式的数据中提取出来的语音数据，例如，从多媒体数据中提取出来的语音数据。服务器提取语音数据中的第一文本特征及对应的语音特征，其中，第一文本特征可以理解为语音数据中可转换为文本形式的文本特征，语音特征包括第一频率倒谱特征和声纹特征。如图8所示示例中，获取语音数据，从语音数据中提取Emb、MFCC、ivector等特征，其中，Emb为第一文本特征，MFCC为第一频率倒谱特征，ivector为声纹特征。

步骤704，将第一文本特征和第一频率倒谱特征进行交叉注意力融合，得到第二文本特征和第二频率倒谱特征。

本实施例中，可以根据第一文本特征和第一频率倒谱特征之间的注意力权重，得到第二文本特征和第二频率倒谱特征。计算第一文本特征相对于第一频率倒谱特征的第一注意力权重，以及第一频率倒谱特征相对于第一文本特征的第二注意力权重，将第一注意力权重和第一频率倒谱特征的乘积作为第二文本特征，将第二注意力权重和第一文本特征的乘积作为第二频率倒谱特征。如图8中所示，将Emb特征和MFCC特征进行交叉注意力融合，得到Emb_2特征和MFCC_2特征，Emb_2特征为第二文本特征，MFCC_2特征为第二频率倒谱特征。

步骤706，将第二频率倒谱特征和声纹特征进行编码，得到第一音频编码特征和第二音频编码特征。

本实施例中，将第二频率倒谱特征经过卷积和池化处理，得到第一结果；将第一结果的标准差、最大值和平均值与声纹特征进行拼接，得到第二结果，将第二结果进行池化处理，得到第一音频编码特征；将第一音频编码特征进行降维处理，得到第二音频编码特征。在图8所示示例中，将MFCC_2特征和ivector特征一起输入语音编码器中进行编码，得到Audio_p特征和Audio_h特征，其中，Audio_p特征为第一音频编码特征，Audio_h特征为第二音频编码特征。

在一个可能的实现方式中，如图9所示，将MFCC_2特征输入卷积池化模块进行处理，得到第一结果，将第一结果的标准差、最大值和平均值与ivector特征进行拼接，得到第二结果，将第二结果输入池化模块进行池化处理，得到Audio_p特征，将Audio_p特征输入Dense模块进行降维处理，得到Audio_h特征。

步骤708，将第一文本特征和第二文本特征进行编码，得到第一文本编码特征和第二文本编码特征。

本实施例中，将第二文本特征经过卷积和池化处理，得到第三结果，将第三结果的标准差、最大值和平均值与第一文本特征进行拼接，得到第四结果，将第四结果进行池化处理，得到第一文本编码特征，将第一文本编码特征进行降维处理，得到第二文本编码特征。在图8所示示例中，将Emb特征和Emb_2特征输入文本编码器中进行编码，得到text_h特征和text_p特征，text_p特征为第一文本编码特征，text_h特征为第二文本编码特征。

步骤710，将第一音频编码特征和第一文本编码特征进行多头注意力融合后得到第一融合特征。

本实施例中，可以将第一音频编码特征和第一文本编码特征分别拆分为多个子特征，得到多个第一音频编码子特征和多个第一文本编码子特征，将多个第一音频编码子特征和多个第一文本编码子特征进行多头注意力融合，得到多个第一融合特征。在图8所示示例中，将text_p特征和Audio_p特征进行多头注意力融合，得到Audio_text特征，Audio_text特征即为第一融合特征，明显地，第一融合特征是语音数据的第一文本特征和语音特征进行深层次融合的结果。

步骤712，使用动态路由算法对第一融合特征进行融合，得到中间融合特征；使用动态路由算法对中间融合特征进行融合，得到第二融合特征。

本实施例中，使用动态路由算法对第一融合特征进行两次融合，得到第二融合特征。第一融合特征为多个，将每个第一融合特征拆分为多个第一融合子特征，基于多个第一融合子特征之间的相关性，根据动态路由算法对多个第一融合子特征进行融合，得到中间融合特征。基于多个第一融合特征之间的相关性，根据动态路由算法对多个第一融合特征对应的中间融合特征进行融合，得到第二融合特征。在图8所示示例中，将Audio_text特征根据动态路由算法进行两次融合，得到A_T特征，A_T特征即为第二融合特征。

步骤714，将第二融合特征、第二文本编码特征和第二音频编码特征进行拼接，得到拼接结果，对拼接结果进行分类识别得到情绪识别结果。

在图8所示示例中，将text_h特征、Audio_h特征、A_T特征进行拼接，得到拼接结果，将拼接结果输入分类器进行分类识别，得到情绪识别结果。

上述情绪识别方法，通过对语音数据对应的文本特征和语音特征进行交叉注意力融合、编码、多头注意力融合及两次动态路由算法融合等多层次的数据融合，再对融合后的结果进行分类和情绪识别，能够充分利用语音数据所对应的文本特征和语音特征，实现高精度的情绪识别。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的情绪识别方法的情绪识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个情绪识别装置实施例中的具体限定可以参见上文中对于情绪识别方法的限定，在此不再赘述。

在一个实施例中，如图10所示，提供了一种情绪识别装置，包括：特征提取模块1002、第一融合模块1004、第一编码模块1006、第二编码模块1008、第二融合模块1010、第三融合模块1012和情绪识别模块1014，其中：

特征提取模块1002，用于获取语音数据，提取所述语音数据中的第一文本特征及对应的语音特征，所述语音特征包括第一频率倒谱特征和声纹特征；

第一融合模块1004，用于将所述第一文本特征和所述第一频率倒谱特征进行交叉注意力融合，得到第二文本特征和第二频率倒谱特征；

第一编码模块1006，用于将所述第二频率倒谱特征和所述声纹特征进行编码，得到第一音频编码特征和第二音频编码特征；

第二编码模块1008，用于将所述第一文本特征和所述第二文本特征进行编码，得到第一文本编码特征和第二文本编码特征；

第二融合模块1010，用于将所述第一音频编码特征和所述第一文本编码特征进行多头注意力融合后得到第一融合特征；

第三融合模块1012，用于根据动态路由算法将所述第一融合特征进行融合，得到第二融合特征；

情绪识别模块1014，用于将所述第二融合特征、所述第二文本编码特征和所述第二音频编码特征进行拼接，得到拼接结果，对所述拼接结果进行分类识别得到情绪识别结果。

在一个实施例中，所述第一融合模块1004，还用于：

在一个实施例中，所述第一编码模块1006，还用于：

在一个实施例中，所述第二编码模块1008，还用于：

将所述第二文本特征经过卷积和池化处理，得到第三结果；

在一个实施例中，所述第三融合模块1012，还用于：

上述情绪识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本特征和语音特征数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种情绪识别方法。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述实施例中情绪识别方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中情绪识别方法的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述实施例中情绪识别方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种情绪识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述第一文本特征和所述第一频率倒谱特征进行交叉注意力融合，得到第二文本特征和第二频率倒谱特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一注意力权重和所述第一频率倒谱特征，确定所述第二文本特征，包括：

所述根据所述第二注意力权重和所述第一文本特征，确定所述第二频率倒谱特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述将所述第二频率倒谱特征和所述声纹特征进行编码，得到第一音频编码特征和第二音频编码特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述第一文本特征和所述第二文本特征进行编码，得到第一文本编码特征和第二文本编码特征，包括：

将所述第二文本特征经过卷积和池化处理，得到第三结果；

6.根据权利要求1所述的方法，其特征在于，所述根据动态路由算法将所述第一融合特征进行融合，得到第二融合特征，包括：

7.一种情绪识别装置，其特征在于，所述装置包括：

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。