CN116821691B

CN116821691B - 基于任务融合的训练情感识别模型的方法和装置

Info

Publication number: CN116821691B
Application number: CN202311083709.8A
Authority: CN
Inventors: 陶建华
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2023-08-28
Filing date: 2023-08-28
Publication date: 2024-02-23
Anticipated expiration: 2043-08-28
Also published as: CN116821691A

Abstract

本公开涉及一种基于任务融合的训练情感识别模型的方法和装置，上述方法包括：在情感识别模型的训练过程中，每训练完一轮次数据，将该训练轮次的特征提取模型参数与目标个体识别模型的提取模型参数对应进行加权求和，得到下一训练轮次的情感识别模型的初始特征提取模型参数；其中，上述目标个体识别模型与上述情感识别模型的模型架构相同、输入的模态种类和数量相同，上述目标个体识别模型的提取模型参数是由个体识别模型经过训练优化后的参数。目标个体识别模型本身已经能够针对个体差异特征进行较好的提取，与情感识别模型进行参数加权求和后，能够融合提取带有个体差异特性的情感表征，模型参数调优更加简便，识别效果更好。

Description

基于任务融合的训练情感识别模型的方法和装置

技术领域

本公开涉及人工智能和计算机技术领域，尤其涉及一种基于任务融合的训练情感识别模型的方法和装置。

背景技术

随着人机交互的技术迭代，对于机器能够理解人类情感的需求也越来越多。诸如在智能客服、聊天机器人、心理测试等领域，均存在对情感识别的广泛需求。

在实现本公开构思的过程中，发明人发现相关技术中至少存在如下技术问题：相关技术中，针对情感识别，大多是对原始语音信号进行声学特征提取，之后基于声学特征或者多模态的融合特征来训练情感分类模型；为了增强情感分类模型在新数据上的稳定性，有的方案通过训练情感分类模型和辅助任务分类器，利用任务间的相关性来增强模型在新数据上的稳定性，该过程中是基于一套模型实现多个任务的训练和调整；然而，共享特征的多任务学习方法存在以下技术问题：不同的任务共享同一个模型参数，这可能导致任务之间的干扰，如果某个任务的训练数据噪声较大或样本不平衡，它可能会对其他任务的学习产生负面影响；共享特征的多任务学习需要设计更复杂的模型结构，以适应多个任务的学习需要，这可能会增加模型的复杂性和参数数量，并导致调优困难；此外，共享特征的多任务学习相比单任务学习需要更多的训练时间用于平衡不同任务的性能，而在采用预训练模型在有情感标签数据上微调的训练时间通常很短，导致该方法无法充分发挥性能。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开的实施例提供了一种基于任务融合的训练情感识别模型的方法和装置。

第一方面，本公开的实施例提供了一种基于任务融合训练情感识别模型的方法。上述方法包括：在情感识别模型的训练过程中，每训练完一轮次数据，将该训练轮次的特征提取模型参数与目标个体识别模型的提取模型参数对应进行加权求和，得到下一训练轮次的情感识别模型的初始特征提取模型参数；其中，上述目标个体识别模型与上述情感识别模型的模型架构相同、输入的模态种类和数量相同，上述目标个体识别模型的提取模型参数是由个体识别模型经过训练优化后的参数。

根据本公开的实施例，上述情感识别模型包括：语音情感特征提取模型，用于对语音数据进行编码和情感特征提取，得到语音情感特征；文本情感特征提取模型，用于对文本数据进行编码和情感特征提取，得到文本情感特征；语音跨模态情感特征提取模型，用于上述语音情感特征从上述文本情感特征进行跨模态学习，得到语音跨模态情感特征；文本跨模态情感特征提取模型，用于上述文本情感特征从上述语音情感特征进行跨模态学习，得到文本跨模态情感特征；情感分类模型，用于对联合情感特征进行情感分类，得到情感分类结果；上述联合情感特征是上述语音情感特征、上述文本情感特征、上述语音跨模态情感特征和上述文本跨模态情感特征拼接后的特征；其中，上述特征提取模型参数包括：上述语音情感特征提取模型、上述文本情感特征提取模型、上述语音跨模态情感特征提取模型和上述文本跨模态情感特征提取模型的模型参数。

根据本公开的实施例，上述语音情感特征提取模型包括：第一语音编码模型和第一语音特征提取模型；上述第一语音编码模型用于对语音数据进行编码处理，得到语音高级表征；上述第一语音特征提取模型用于对上述语音高级表征进行情感特征提取，得到语音情感特征；其中，上述第一语音特征提取模型包括：多层第一长短期记忆网络，连接于每层第一长短期记忆网络之后的第一归一化层；其中，上述第一长短期记忆网络基于Dropout算法进行训练；上述文本情感特征提取模型包括：第一文本编码模型和第一文本特征提取模型；上述第一文本编码模型用于对文本数据进行编码处理，得到文本高级表征；上述第一文本特征提取模型用于对上述文本高级表征进行情感特征提取，得到文本情感特征；其中，上述第一文本特征提取模型包括：多层第二长短期记忆网络，连接于每层第二长短期记忆网络之后的第二归一化层；其中，上述第二长短期记忆网络基于Dropout算法进行训练。

根据本公开的实施例，上述方法还包括：将上述语音情感特征和上述文本情感特征进行特征维度对齐处理；其中，将上述语音情感特征按时序方向展开为一维向量；基于全连接网络对展开的语音情感特征一维向量进行压缩，并对压缩后的向量进行升维处理，得到上述语音情感特征在预设维度下的二维特征向量；将上述文本情感特征按时序方向展开为一维向量；基于全连接网络对展开的文本情感特征一维向量进行压缩，并对压缩后的向量进行升维处理，得到上述文本情感特征在预设维度下的二维特征向量。

根据本公开的实施例，上述语音跨模态情感特征提取模型采用第一多头注意力网络进行跨模态特征提取；上述第一多头注意力网络中，根据上述语音情感特征生成查询向量，根据上述文本情感特征生成键向量和值向量；上述文本跨模态情感特征提取模型采用第二多头注意力网络进行跨模态特征提取；上述第二多头注意力网络中，根据上述文本情感特征生成查询向量，根据上述语音情感特征生成键向量和值向量。

根据本公开的实施例，上述目标个体识别模型包括：语音个体特征提取模型，用于对语音数据进行编码和个体特征提取，得到语音个体特征；文本个体特征提取模型，用于对文本数据进行编码和个体特征提取，得到文本个体特征；语音跨模态个体特征提取模型，用于上述语音个体特征从上述文本个体特征进行跨模态学习，得到语音跨模态个体特征；文本跨模态个体特征提取模型，用于上述文本个体特征从上述语音个体特征进行跨模态学习，得到文本跨模态个体特征；个体分类模型，用于对联合个体特征进行个体分类，得到个体分类结果；上述联合个体特征是上述语音个体特征、上述文本个体特征、上述语音跨模态个体特征和上述文本跨模态个体特征拼接后的特征；其中，上述提取模型参数包括：上述语音个体特征提取模型、上述文本个体特征提取模型、上述语音跨模态个体特征提取模型和上述文本跨模态个体特征提取模型的模型参数。

根据本公开的实施例，上述语音个体特征提取模型包括：第二语音编码模型和第二语音特征提取模型；上述第二语音编码模型用于对语音数据进行编码处理，得到语音高级表征；上述第二语音特征提取模型用于对上述语音高级表征进行个体特征提取，得到语音个体特征；其中，上述第二语音特征提取模型包括：多层第三长短期记忆网络，连接于每层第三长短期记忆网络之后的第三归一化层；其中，上述第三长短期记忆网络基于Dropout算法进行训练；上述文本个体特征提取模型包括：第二文本编码模型和第二文本特征提取模型；上述第二文本编码模型用于对文本数据进行编码处理，得到文本高级表征；上述第二文本特征提取模型用于对上述文本高级表征进行个体特征提取，得到文本个体特征；其中，上述第二文本特征提取模型包括：多层第四长短期记忆网络，连接于每层第四长短期记忆网络之后的第四归一化层；其中，上述第四长短期记忆网络基于Dropout算法进行训练。

根据本公开的实施例，上述方法还包括：将上述语音个体特征和上述文本个体特征进行特征维度对齐处理；其中，将上述语音个体特征按时序方向展开为一维向量；基于全连接网络对展开的语音个体特征一维向量进行压缩，并对压缩后的向量进行升维处理，得到上述语音个体特征在预设维度下的二维特征向量；将上述文本个体特征按时序方向展开为一维向量；基于全连接网络对展开的文本个体特征一维向量进行压缩，并对压缩后的向量进行升维处理，得到上述文本个体特征在预设维度下的二维特征向量。

根据本公开的实施例，上述语音跨模态个体特征提取模型采用第三多头注意力网络进行跨模态特征提取；上述第三多头注意力网络中，根据上述语音个体特征生成查询向量，根据上述文本个体特征生成键向量和值向量；上述文本跨模态情感特征提取模型采用第四多头注意力网络进行跨模态特征提取；上述第四多头注意力网络中，根据上述文本个体特征生成查询向量，根据上述语音个体特征生成键向量和值向量。

根据本公开的实施例，在上述情感识别模型的训练过程中，采用交叉熵损失函数，训练标签为训练数据所对应的情感标签；在训练过程中基于AdamW优化函数来梯度更新上述情感识别模型的参数；在上述个体识别模型的训练过程中，采用交叉熵损失函数，训练标签为训练数据所对应的个体标签；在训练过程中基于AdamW优化函数来梯度更新上述个体识别模型的参数。

第二方面，本公开的实施例提供了一种基于任务融合训练情感识别模型的装置。上述装置包括：参数更新模块，用于在情感识别模型的训练过程中，每训练完一轮次数据，将该训练轮次的特征提取模型参数与目标个体识别模型的提取模型参数对应进行加权求和，得到下一训练轮次的情感识别模型的初始特征提取模型参数；其中，上述目标个体识别模型与上述情感识别模型的模型架构相同、输入的模态种类和数量相同，上述目标个体识别模型的提取模型参数是由个体识别模型经过训练优化后的参数。

第三方面，本公开的实施例提供了一种电子设备。上述电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现如上所述的基于任务融合训练情感识别模型的方法。

第四方面，本公开的实施例提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序，上述计算机程序被处理器执行时实现如上所述的基于任务融合训练情感识别模型的方法。

本公开实施例提供的上述技术方案至少具有如下优点的部分或全部：

在情感识别模型的训练过程中，每训练完一轮次数据，将该训练轮次的特征提取模型参数与目标个体识别模型的提取模型参数对应进行加权求和，得到下一训练轮次的情感识别模型的初始特征提取模型参数，由于目标个体识别模型与情感识别模型的模型架构相同、输入的模态种类和数量相同，同时上述目标个体识别模型的提取模型参数是由个体识别模型经过训练优化后的参数，目标个体识别模型本身已经能够针对个体差异特征进行较好的提取，与情感识别模型进行参数加权求和后，能够融合提取带有个体差异特性的情感表征，模型参数调优更加简便，训练得到的情感识别模型的识别效果更好。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示意性地示出了根据本公开一实施例的基于任务融合训练情感识别模型的方法的流程图；

图2示意性地示出了根据本公开一实施例的情感识别模型的结构框图；

图3示意性地示出了根据本公开一实施例的目标个体识别模型的结构框图；

图4示意性地示出了根据本公开一实施例的基于任务融合训练情感识别模型的方法的实施过程示意图；

图5示意性地示出了根据本公开一实施例的基于任务融合训练情感识别模型的装置的结构框图；

图6示意性地示出了本公开实施例提供的电子设备的结构框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

本公开的第一个示例性实施例提供了一种基于任务融合训练情感识别模型的方法。

图1示意性地示出了根据本公开一实施例的基于任务融合训练情感识别模型的方法的流程图。图4示意性地示出了根据本公开一实施例的基于任务融合训练情感识别模型的方法的实施过程示意图。

参照图1和图4所示，本公开实施例提供的基于任务融合训练情感识别模型的方法，包括以下步骤S110。

在步骤S110，在情感识别模型110的训练过程中，每训练完一轮次数据，将该训练轮次的特征提取模型参数A与目标个体识别模型120的提取模型参数B对应进行加权求和，得到下一训练轮次的情感识别模型的初始特征提取模型参数。例如在图1中示意的加权和结果C，即为下一训练轮次的情感识别模型的初始特征提取模型参数。

其中，上述目标个体识别模型与上述情感识别模型的模型架构相同、输入的模态种类和数量相同，上述目标个体识别模型的提取模型参数是由个体识别模型经过训练优化后的参数。

考虑到不同的个体在情感表达上具有独特性，包括声音、语言等多种形式，这些差异对于准确识别个体的情感状态至关重要；本公开的实施例中通过基于任务融合的构思，在训练情感识别模型的过程中，针对第二轮之后的每轮次训练，将个体识别模型经过训练调优参数后的目标个体识别模型的提取模型参数与该轮次的特征提取模型参数进行加权求和，得到下一训练轮次的情感识别模型的初始特征提取模型参数；由于目标个体识别模型本身已经能够针对个体差异特征进行较好的提取，与情感识别模型进行参数加权求和后，能够融合提取带有个体差异特性的情感表征，模型参数调优更加简便，训练得到的情感识别模型的识别效果更好。

在训练过程中，选定一批量的样本个数，比如样本个数为100个~300个，从训练样本集中随机抽取样本，一批量样本分别输入至待训练的情感识别模型中，对应调整情感识别模型的模型参数，一批量样本全部迭代完一次，称为训练完一轮次（epoch）。训练轮次可以是预设数量，在训练轮次完成后视为训练结束；或者根据训练的损失函数与标签之间的差距而逐步进行训练，直至该差距符合设定阈值视为训练结束。

根据本公开的实施例，在上述情感识别模型的训练过程中，采用交叉熵损失函数，训练标签为训练数据所对应的情感标签；在训练过程中基于AdamW优化函数来梯度更新上述情感识别模型的参数。相比于传统的随机梯度下降法，采用AdamW优化函数来进行梯度更新，使得得到的情感识别模型具有更好的泛化性能。

图2示意性地示出了根据本公开一实施例的情感识别模型的结构框图。

在一些实施例中，参照图2和图4所示，上述情感识别模型110包括：语音情感特征提取模型210，用于对语音数据进行编码和情感特征提取，得到语音情感特征；文本情感特征提取模型220，用于对文本数据进行编码和情感特征提取，得到文本情感特征；语音跨模态情感特征提取模型230，用于上述语音情感特征从上述文本情感特征进行跨模态学习，得到语音跨模态情感特征；文本跨模态情感特征提取模型240，用于上述文本情感特征从上述语音情感特征进行跨模态学习，得到文本跨模态情感特征；情感分类模型250，用于对联合情感特征进行情感分类，得到情感分类结果；上述联合情感特征是上述语音情感特征、上述文本情感特征、上述语音跨模态情感特征和上述文本跨模态情感特征拼接后的特征；其中，上述特征提取模型参数包括：上述语音情感特征提取模型、上述文本情感特征提取模型、上述语音跨模态情感特征提取模型和上述文本跨模态情感特征提取模型的模型参数。

在一些实施例中，上述语音数据是将带有情感标签的原始语音数据通过截断或补零的方式转化后得到的固定长度的音频信号。上述文本数据是带有情感标签的文本数据。上述语音数据和文本数据可以是同一个时段内的多模态数据。

在一些实施例中，上述语音情感特征提取模型210包括：第一语音编码模型和第一语音特征提取模型；上述第一语音编码模型用于对语音数据进行编码处理，得到语音高级表征；上述第一语音特征提取模型用于对上述语音高级表征进行情感特征提取，得到语音情感特征。

其中，上述第一语音编码模型为预训练好的WavLM模型，WavLM是一个基于卷积编码器和Transformer编码器的开源预训练模型。

上述第一语音特征提取模型包括：多层第一长短期记忆网络（LSTM，Long Short-Term Memory Network），连接于每层第一长短期记忆网络之后的第一归一化层；其中，上述第一长短期记忆网络基于Dropout算法进行训练。

Dropout算法是指将模型在训练时按照指定的概率随机地使一些神经元失效，利用剩余网络神经元来进行训练，能够有助于提升避免网络过拟合。通过引入第一归一化层（LayerNorm），可以有效解决神经网络中的梯度消失和梯度爆炸的问题。

由于语音高级表征涵盖了除情感外的其他信息，因此根据语音数据的时序特点采用两层LSTM提取语音情感特征，同时加入了LayerNorm算法和Dropout算法，能有效避免网络过拟合和提高模型稳定性。

上述文本情感特征提取模型220包括：第一文本编码模型和第一文本特征提取模型；上述第一文本编码模型用于对文本数据进行编码处理，得到文本高级表征；上述第一文本特征提取模型用于对上述文本高级表征进行情感特征提取，得到文本情感特征。

其中，上述第一文本编码模型为预训练好的BERT模型，BERT模型是一个基于Transformer的开源预训练模型。根据BERT词库将文本数据转化为嵌入向量，通过截断或补零的方式将其转化为固定词量的文本嵌入，使用预训练好的BERT模型提取文本高级表征。第一文本特征提取模型包括：多层第二长短期记忆网络，连接于每层第二长短期记忆网络之后的第二归一化层；其中，上述第二长短期记忆网络基于Dropout算法进行训练。

Dropout算法是指将模型在训练时按照指定的概率随机地使一些神经元失效，利用剩余网络神经元来进行训练，能够有助于提升避免网络过拟合。通过引入第二归一化层（LayerNorm），可以有效解决神经网络中的梯度消失和梯度爆炸的问题。

由于文本高级表征涵盖了除情感外的其他信息，因此根据文本数据的时序特点采用两层LSTM提取文本情感特征，同时加入了LayerNorm算法和Dropout算法，能有效避免网络过拟合和提高模型稳定性。

在一些实施例中，针对语音情感特征和文本情感特征在时序方向上长度不一致的情形，上述方法还包括以下对齐处理的步骤：将上述语音情感特征和上述文本情感特征进行特征维度对齐处理。

该对齐处理的步骤具体包括：

将上述语音情感特征按时序方向展开为一维向量；

基于全连接网络对展开的语音情感特征一维向量进行压缩，并对压缩后的向量进行升维处理，得到上述语音情感特征在预设维度下的二维特征向量；例如预设维度为（40，32）；

将上述文本情感特征按时序方向展开为一维向量；

基于全连接网络对展开的文本情感特征一维向量进行压缩，并对压缩后的向量进行升维处理，得到上述文本情感特征在上述预设维度下的二维特征向量。

根据本公开的实施例，上述语音跨模态情感特征提取模型230采用第一多头注意力（Multi-Head Attention）网络进行跨模态特征提取；上述第一多头注意力网络中，根据上述语音情感特征生成查询向量，根据上述文本情感特征生成键向量和值向量；上述文本跨模态情感特征提取模型240采用第二多头注意力网络进行跨模态特征提取；上述第二多头注意力网络中，根据上述文本情感特征生成查询向量，根据上述语音情感特征生成键向量和值向量。

为了使语音情感特征从文本情感特征中捕捉补充信息，采用以语音情感特征为查询向量，文本情感特征为键向量和值向量的第一多头注意力网络提取语音跨模态情感特征。为了使文本情感特征从语音情感特征中捕捉补充信息，采用以文本情感特征为查询向量，语音情感特征为键向量和值向量的第二多头注意力网络提取文本跨模态情感特征。

在一些实施例中，情感识别模型的训练过程中，超参数设置如下：长短期记忆网络（包括第一LSTM和第二LSTM）的计算单元数量为64，Dropout参数设置为0.5，多头注意力网络（包括第一多头注意力网络和第二多头注意力网络）的头数设置为8，学习率为0.00001。

图3示意性地示出了根据本公开一实施例的目标个体识别模型的结构框图。

本公开的实施例中，目标个体识别模型120与上述情感识别模型110的模型架构相同、输入的模态种类和数量相同，上述目标个体识别模型120的提取模型参数是由个体识别模型经过训练优化后的参数。因此，在上述实施例的基础上，本实施例的目标个别识别模型120的输入也是两种模态的数据：语音数据和文本数据，该目标个别识别模型的训练标签是个体标签，用于表征个体差异的标签，例如训练数据为用户X的语音数据和文本数据，对应的标签为用户X；训练数据为用户Y的语音数据和文本数据，对应的标签为用户Y。

在一些实施例中，参照图3和图4所示，上述目标个体识别模型120包括：语音个体特征提取模型310，用于对语音数据进行编码和个体特征提取，得到语音个体特征；文本个体特征提取模型320，用于对文本数据进行编码和个体特征提取，得到文本个体特征；语音跨模态个体特征提取模型330，用于上述语音个体特征从上述文本个体特征进行跨模态学习，得到语音跨模态个体特征；文本跨模态个体特征提取模型340，用于上述文本个体特征从上述语音个体特征进行跨模态学习，得到文本跨模态个体特征；个体分类模型350，用于对联合个体特征进行个体分类，得到个体分类结果；上述联合个体特征是上述语音个体特征、上述文本个体特征、上述语音跨模态个体特征和上述文本跨模态个体特征拼接后的特征；其中，上述提取模型参数包括：上述语音个体特征提取模型、上述文本个体特征提取模型、上述语音跨模态个体特征提取模型和上述文本跨模态个体特征提取模型的模型参数。

在一些实施例中，上述语音个体特征提取模型310包括：第二语音编码模型和第二语音特征提取模型；上述第二语音编码模型用于对语音数据进行编码处理，得到语音高级表征；上述第二语音特征提取模型用于对上述语音高级表征进行个体特征提取，得到语音个体特征。

其中，上述第二语音编码模型为预训练好的WavLM模型。上述第二语音特征提取模型包括：多层第三长短期记忆网络，连接于每层第三长短期记忆网络之后的第三归一化层；其中，上述第三长短期记忆网络基于Dropout算法进行训练。

Dropout算法是指将模型在训练时按照指定的概率随机地使一些神经元失效，利用剩余网络神经元来进行训练，能够有助于提升避免网络过拟合。通过引入第三归一化层（LayerNorm），可以有效解决神经网络中的梯度消失和梯度爆炸的问题。

由于语音高级表征涵盖了除个体外的其他信息，因此根据语音数据的时序特点采用两层LSTM提取语音个体特征，同时加入了LayerNorm算法和Dropout算法，能有效避免网络过拟合和提高模型稳定性。

上述文本个体特征提取模型320包括：第二文本编码模型和第二文本特征提取模型；上述第二文本编码模型用于对文本数据进行编码处理，得到文本高级表征；上述第二文本特征提取模型用于对上述文本高级表征进行个体特征提取，得到文本个体特征。

其中，上述第二文本编码模型为预训练好的BERT模型；上述第二文本特征提取模型包括：多层第四长短期记忆网络，连接于每层第四长短期记忆网络之后的第四归一化层；其中，上述第四长短期记忆网络基于Dropout算法进行训练。

Dropout算法是指将模型在训练时按照指定的概率随机地使一些神经元失效，利用剩余网络神经元来进行训练，能够有助于提升避免网络过拟合。通过引入第四归一化层（LayerNorm），可以有效解决神经网络中的梯度消失和梯度爆炸的问题。

由于文本高级表征涵盖了除个体外的其他信息，因此根据文本数据的时序特点采用两层LSTM提取文本个体特征，同时加入了LayerNorm算法和Dropout算法，能有效避免网络过拟合和提高模型稳定性。

在一些实施例中，针对语音个体特征和文本个体特征在时序方向上长度不一致的情形，上述方法还包括以下对齐处理的步骤：将上述语音个体特征和上述文本个体特征进行特征维度对齐处理。

该对齐处理的步骤具体包括：

将上述语音个体特征按时序方向展开为一维向量；

基于全连接网络对展开的语音个体特征一维向量进行压缩，并对压缩后的向量进行升维处理，得到上述语音个体特征在预设维度下的二维特征向量；例如预设维度为（40，32）；

将上述文本个体特征按时序方向展开为一维向量；

基于全连接网络对展开的文本个体特征一维向量进行压缩，并对压缩后的向量进行升维处理，得到上述文本个体特征在预设维度下的二维特征向量。

为了使语音个体特征从文本个体特征中捕捉补充信息，采用以语音个体特征为查询向量，文本个体特征为键向量和值向量的第三多头注意力网络提取语音跨模态个体特征。为了使文本个体特征从语音个体特征中捕捉补充信息，采用以文本个体特征为查询向量，语音个体特征为键向量和值向量的第四多头注意力网络提取文本跨模态个体特征。

在一些实施例中，在上述个体识别模型的训练过程中，采用交叉熵损失函数，训练标签为训练数据所对应的个体标签；在训练过程中基于AdamW优化函数来梯度更新上述个体识别模型的参数。相比于传统的随机梯度下降法，采用AdamW优化函数来进行梯度更新，使得得到的目标个体识别模型具有更好的泛化性能。

在一些实施例中，个体识别模型的训练过程中，超参数设置如下：长短期记忆网络（包括第三LSTM和第四LSTM）的计算单元数量为64，Dropout参数设置为0.5，多头注意力网络（包括第三多头注意力网络和第四多头注意力网络）的头数设置为8，学习率为0.00001。

本公开的第二个示例性实施例提供了一种基于任务融合训练情感识别模型的装置。

图5示意性地示出了根据本公开一实施例的基于任务融合训练情感识别模型的装置的结构框图。

参照图5所示，本实施例提供的基于任务融合训练情感识别模型的装置500包括：参数更新模块510，用于在情感识别模型110的训练过程中，每训练完一轮次数据，将该训练轮次的特征提取模型参数与目标个体识别模型120的提取模型参数对应进行加权求和，得到下一训练轮次的情感识别模型的初始特征提取模型参数。其中，上述目标个体识别模型与上述情感识别模型的模型架构相同、输入的模态种类和数量相同，上述目标个体识别模型的提取模型参数是由个体识别模型经过训练优化后的参数。

在一些实施例中，上述装置500中存储有上述目标个体识别模型的参数，或者能够访问所述目标个体识别模型的参数。

根据本公开的实施例，上述装置还包括：对齐处理模块。

上述对齐处理模块，用于将上述语音情感特征和上述文本情感特征进行特征维度对齐处理。其中，将上述语音情感特征按时序方向展开为一维向量；基于全连接网络对展开的语音情感特征一维向量进行压缩，并对压缩后的向量进行升维处理，得到上述语音情感特征在预设维度下的二维特征向量；将上述文本情感特征按时序方向展开为一维向量；基于全连接网络对展开的文本情感特征一维向量进行压缩，并对压缩后的向量进行升维处理，得到上述文本情感特征在预设维度下的二维特征向量。

在一些实施例中，上述目标个体识别模型也是在该装置500中训练得到，上述对齐处理模块还用于：将上述语音个体特征和上述文本个体特征进行特征维度对齐处理。其中，将上述语音个体特征按时序方向展开为一维向量；基于全连接网络对展开的语音个体特征一维向量进行压缩，并对压缩后的向量进行升维处理，得到上述语音个体特征在预设维度下的二维特征向量；将上述文本个体特征按时序方向展开为一维向量；基于全连接网络对展开的文本个体特征一维向量进行压缩，并对压缩后的向量进行升维处理，得到上述文本个体特征在预设维度下的二维特征向量。

其他更多的细节或者可拓展内容可以参照第一个实施例的描述，第一个实施例的全部内容可以并入至本实施例进行理解。

上述装置500所包含的功能模块中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。装置500所包含的功能模块中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列（FPGA）、可编程逻辑阵列（PLA）、片上系统、基板上的系统、封装上的系统、专用集成电路（ASIC），或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，装置500所包含的功能模块中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

本公开的第三个示例性实施例提供了一种电子设备。

图6示意性示出了本公开实施例提供的电子设备的结构框图。

参照图6所示，本公开实施例提供的电子设备600包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601、通信接口602和存储器603通过通信总线604完成相互间的通信；存储器603，用于存放计算机程序；处理器601，用于执行存储器上所存放的程序时，实现如上所述的基于任务融合训练情感识别模型的方法。

本公开的第四个示例性实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序，上述计算机程序被处理器执行时实现如上所述的基于任务融合训练情感识别模型的方法。

该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的；也可以是单独存在，而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的基于任务融合训练情感识别模型的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

需要说明的是，本公开实施例提供的技术方案中，所涉及的用户个人信息的采集、收集、更新、分析、处理、使用、传输、存储等方面，均符合相关法律法规的规定，被用于合法的用途，且不违背公序良俗。对用户个人信息采取必要措施，防止对用户个人信息数据的非法访问，维护用户个人信息安全、网络安全和国家安全。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于任务融合的训练情感识别模型的方法，其特征在于，包括：

在情感识别模型的训练过程中，每训练完一轮次数据，将该训练轮次的特征提取模型参数与目标个体识别模型的提取模型参数对应进行加权求和，得到下一训练轮次的情感识别模型的初始特征提取模型参数；

其中，所述目标个体识别模型与所述情感识别模型的模型架构相同、输入的模态种类和数量相同，所述目标个体识别模型的提取模型参数是由个体识别模型经过训练优化后的参数；

其中，所述目标个体识别模型包括：

语音个体特征提取模型，用于对语音数据进行编码和个体特征提取，得到语音个体特征；

文本个体特征提取模型，用于对文本数据进行编码和个体特征提取，得到文本个体特征；

语音跨模态个体特征提取模型，用于所述语音个体特征从所述文本个体特征进行跨模态学习，得到语音跨模态个体特征；

文本跨模态个体特征提取模型，用于所述文本个体特征从所述语音个体特征进行跨模态学习，得到文本跨模态个体特征；

个体分类模型，用于对联合个体特征进行个体分类，得到个体分类结果；所述联合个体特征是所述语音个体特征、所述文本个体特征、所述语音跨模态个体特征和所述文本跨模态个体特征拼接后的特征；

其中，所述提取模型参数包括：所述语音个体特征提取模型、所述文本个体特征提取模型、所述语音跨模态个体特征提取模型和所述文本跨模态个体特征提取模型的模型参数。

2.根据权利要求1所述的方法，其特征在于，所述情感识别模型包括：

语音情感特征提取模型，用于对语音数据进行编码和情感特征提取，得到语音情感特征；

文本情感特征提取模型，用于对文本数据进行编码和情感特征提取，得到文本情感特征；

语音跨模态情感特征提取模型，用于所述语音情感特征从所述文本情感特征进行跨模态学习，得到语音跨模态情感特征；

文本跨模态情感特征提取模型，用于所述文本情感特征从所述语音情感特征进行跨模态学习，得到文本跨模态情感特征；

情感分类模型，用于对联合情感特征进行情感分类，得到情感分类结果；所述联合情感特征是所述语音情感特征、所述文本情感特征、所述语音跨模态情感特征和所述文本跨模态情感特征拼接后的特征；

其中，所述特征提取模型参数包括：所述语音情感特征提取模型、所述文本情感特征提取模型、所述语音跨模态情感特征提取模型和所述文本跨模态情感特征提取模型的模型参数。

3.根据权利要求2所述的方法，其特征在于，

所述语音情感特征提取模型包括：第一语音编码模型和第一语音特征提取模型；

所述第一语音编码模型用于对语音数据进行编码处理，得到语音高级表征；

所述第一语音特征提取模型用于对所述语音高级表征进行情感特征提取，得到语音情感特征；

其中，所述第一语音特征提取模型包括：多层第一长短期记忆网络，连接于每层第一长短期记忆网络之后的第一归一化层；其中，所述第一长短期记忆网络基于Dropout算法进行训练；

所述文本情感特征提取模型包括：第一文本编码模型和第一文本特征提取模型；

所述第一文本编码模型用于对文本数据进行编码处理，得到文本高级表征；

所述第一文本特征提取模型用于对所述文本高级表征进行情感特征提取，得到文本情感特征；

其中，所述第一文本特征提取模型包括：多层第二长短期记忆网络，连接于每层第二长短期记忆网络之后的第二归一化层；其中，所述第二长短期记忆网络基于Dropout算法进行训练。

4.根据权利要求2所述的方法，其特征在于，还包括：将所述语音情感特征和所述文本情感特征进行特征维度对齐处理；

其中，将所述语音情感特征按时序方向展开为一维向量；基于全连接网络对展开的语音情感特征一维向量进行压缩，并对压缩后的向量进行升维处理，得到所述语音情感特征在预设维度下的二维特征向量；

将所述文本情感特征按时序方向展开为一维向量；基于全连接网络对展开的文本情感特征一维向量进行压缩，并对压缩后的向量进行升维处理，得到所述文本情感特征在预设维度下的二维特征向量。

5.根据权利要求2-4中任一项所述的方法，其特征在于，

所述语音跨模态情感特征提取模型采用第一多头注意力网络进行跨模态特征提取；所述第一多头注意力网络中，根据所述语音情感特征生成查询向量，根据所述文本情感特征生成键向量和值向量；

所述文本跨模态情感特征提取模型采用第二多头注意力网络进行跨模态特征提取；所述第二多头注意力网络中，根据所述文本情感特征生成查询向量，根据所述语音情感特征生成键向量和值向量。

6.根据权利要求1所述的方法，其特征在于，

所述语音个体特征提取模型包括：第二语音编码模型和第二语音特征提取模型；

所述第二语音编码模型用于对语音数据进行编码处理，得到语音高级表征；

所述第二语音特征提取模型用于对所述语音高级表征进行个体特征提取，得到语音个体特征；

其中，所述第二语音特征提取模型包括：多层第三长短期记忆网络，连接于每层第三长短期记忆网络之后的第三归一化层；其中，所述第三长短期记忆网络基于Dropout算法进行训练；

所述文本个体特征提取模型包括：第二文本编码模型和第二文本特征提取模型；

所述第二文本编码模型用于对文本数据进行编码处理，得到文本高级表征；

所述第二文本特征提取模型用于对所述文本高级表征进行个体特征提取，得到文本个体特征；

其中，所述第二文本特征提取模型包括：多层第四长短期记忆网络，连接于每层第四长短期记忆网络之后的第四归一化层；其中，所述第四长短期记忆网络基于Dropout算法进行训练。

7.根据权利要求1所述的方法，其特征在于，还包括：将所述语音个体特征和所述文本个体特征进行特征维度对齐处理；

其中，将所述语音个体特征按时序方向展开为一维向量；基于全连接网络对展开的语音个体特征一维向量进行压缩，并对压缩后的向量进行升维处理，得到所述语音个体特征在预设维度下的二维特征向量；

将所述文本个体特征按时序方向展开为一维向量；基于全连接网络对展开的文本个体特征一维向量进行压缩，并对压缩后的向量进行升维处理，得到所述文本个体特征在预设维度下的二维特征向量。

8.根据权利要求2-4中任一项所述的方法，其特征在于，

所述语音跨模态个体特征提取模型采用第三多头注意力网络进行跨模态特征提取；所述第三多头注意力网络中，根据所述语音个体特征生成查询向量，根据所述文本个体特征生成键向量和值向量；

所述文本跨模态情感特征提取模型采用第四多头注意力网络进行跨模态特征提取；所述第四多头注意力网络中，根据所述文本个体特征生成查询向量，根据所述语音个体特征生成键向量和值向量。

9.根据权利要求1所述的方法，其特征在于，

在所述情感识别模型的训练过程中，采用交叉熵损失函数，训练标签为训练数据所对应的情感标签；在训练过程中基于AdamW优化函数来梯度更新所述情感识别模型的参数；

在所述个体识别模型的训练过程中，采用交叉熵损失函数，训练标签为训练数据所对应的个体标签；在训练过程中基于AdamW优化函数来梯度更新所述个体识别模型的参数。

10.一种基于任务融合的训练情感识别模型的装置，其特征在于，包括：

参数更新模块，用于在情感识别模型的训练过程中，每训练完一轮次数据，将该训练轮次的特征提取模型参数与目标个体识别模型的提取模型参数对应进行加权求和，得到下一训练轮次的情感识别模型的初始特征提取模型参数；

其中，所述目标个体识别模型包括：

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-9中任一项所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-9中任一项所述的方法。