CN115713797A

CN115713797A - 训练感情识别模型的方法、感情识别方法及装置

Info

Publication number: CN115713797A
Application number: CN202211413350.1A
Authority: CN
Inventors: 林廷恩; 武玉川; 李永彬; 黄非
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-11-11
Filing date: 2022-11-11
Publication date: 2023-02-24

Abstract

本申请实施例公开了一种训练感情识别模型的方法、感情识别方法及装置，涉及机器学习技术领域。其中方法包括：获取包含多个第一训练样本的训练数据，第一训练样本被标注有情感标签和情绪标签；利用训练数据训练感情识别模型；感情识别模型包括编码网络和解码网络；编码网络对第一训练样本进行特征编码，得到第一训练样本的特征表示；解码网络利用第一训练样本的特征表示进行解码，得到感情信息的识别结果，感情信息包括情感信息和/或情绪信息；训练的目标包括：最小化感情识别模型得到的识别结果与对应的第一训练样本被标注的标签之间的差异。本申请通过情感和情绪的联合建模，并且引入了多模态融合机制和对比学习，提高了感情识别模型的准确性。

Description

训练感情识别模型的方法、感情识别方法及装置

技术领域

本申请涉及机器学习技术领域，特别是涉及一种训练感情识别模型的方法、感情识别方法及装置。

背景技术

随着人工智能技术的不断发展，促进了各大服务提供商更加了解用户。在很多服务场景下，需要获知用户的感情信息，从而更好地、有针对性地为用户提供服务。所谓感情是人对客观世界事物的态度的主观反应，主要包括情感和情绪两种。情感指的是用户对事物的看法或意见，通常经过长时间的积累形成，包括积极、消极、中性等。情绪指的是用户短时间内变化的感知形成的反应，包括诸如喜悦、悲伤、恐惧、愤怒、惊讶、厌恶等。目前已有一些单纯进行情感识别的方法，然后基于识别到的用户情感信息为用户提供服务。也有一些单纯进行情绪识别的方法，然后基于识别到的用户情绪信息为用户提供服务。但这些方法的识别准确度均有待提升。

发明内容

有鉴于此，本申请提供了一种训练感情识别模型的方法、感情识别方法及装置，以便于提高感情识别的准确度。

本申请提供了如下方案：

第一方面，提供了一种训练感情识别模型的方法，所述方法包括：

获取包含多个第一训练样本的训练数据，所述第一训练样本被标注有情感标签和情绪标签；

利用所述训练数据训练所述感情识别模型；其中，所述感情识别模型包括编码网络和解码网络；

所述编码网络对所述第一训练样本进行特征编码，得到所述第一训练样本的特征表示；

所述解码网络利用所述第一训练样本的特征表示进行解码，得到感情信息的识别结果，所述感情信息包括情感信息和/或情绪信息；

所述训练的目标包括：最小化所述感情识别模型得到的识别结果与对应的第一训练样本被标注的标签之间的差异。

根据本申请实施例中一可实现的方式，所述获取包含多个第一训练样本的训练数据包括：

获取多个标注有情感标签的第二训练样本以及多个标注有情绪标签的第三训练样本；

确定与缺少情绪标签的第二训练样本之间相似度满足预设要求的第三训练样本，利用确定出的该第三训练样本的情绪标签为该缺少情绪标签的第二训练样本进行情绪标签的标注；以及，确定与缺少情感标签的第三训练样本之间相似度满足预设要求的第二训练样本，利用确定出的该第二训练样本的情感标签为该缺少情感标签的第三训练样本进行情感标签的标注；

将第二训练样本和第三训练样本中同时标注有情绪标签和情感标签的训练样本作为所述第一训练样本。

根据本申请实施例中一可实现的方式，所述情感标签包括情感类型标签和情感分数标签；

所述确定与缺少情感标签的第二训练样本之间相似度满足预设要求的第一训练样本，利用确定出的该第一训练样本的情感标签为该缺少情感标签的第二训练样本进行情感标签的标注包括：

确定与缺少情感标签的第二训练样本之间相似度最高的第一训练样本，将该第一训练样本的情感类型标签作为该缺少情感标签的第二训练样本的情感类型标签，利用该第一训练样本的情感分数标签与相似度值的乘积对该缺少情感标签的第二训练样本进行情感分数标签的标注，其中所述相似度值为该第一训练样本和该缺少情感标签的第二训练样本之间的相似度值。

根据本申请实施例中一可实现的方式，所述第一训练样本包括N种模态的子样本，所述N为大于1的正整数；

所述编码网络包括N个编码子网络和多模态融合网络；

所述N个编码子网络分别对应其中一种模态，对所对应模态的子样本进行特征提取，得到各种模态的特征表示；

所述多模态融合网络将N种模态的特征表示进行融合，得到融合特征表示作为所述第一训练样本的特征表示。

根据本申请实施例中一可实现的方式，所述多模态融合网络包括多层融合子网络；所述多模态融合网络将N种模态的特征表示进行融合，得到融合特征表示作为所述第一训练样本的特征表示包括：

第一层融合子网络将所述N种模态中的第一模态的特征表示与其他模态的特征表示进行点乘后，将点乘得到的表示进行线性变换，将线性变换得到的表示与第一模态的特征表示进行相加后经过神经网络的处理，得到第一层输出的融合特征表示；

其它层融合子网络将上一层输出的融合特征表示与所述其他模态的特征表示进行点乘后，将点乘得到的表示进行线性变换，将线性变换得到的表示与上一层输出的融合特征表示进行相加后经过神经网络的处理，得到当前层输出的融合特征表示。

根据本申请实施例中一可实现的方式，所述训练目标还包括：最小化相同第一训练样本内所述其他模态的特征表示与融合特征表示之间的距离，以及最大化不同训练样本间所述其他模态的特征表示与融合特征表示之间的距离。

根据本申请实施例中一可实现的方式，所述N种模态的子样本包括文本样本，还包括音频样本和视频样本中的至少一种；所述第一模态为文本。

第二方面，提供了一种感情识别方法，所述方法包括：

获取针对用户采集的媒体数据；

将所述媒体数据输入感情识别模型，获取所述感情识别模型输出的包含所述用户的感情信息的识别结果，所述感情信息包括情感信息和/或情绪信息；

其中，所述感情识别模型是采用上述第一方面中任一项所述的方法预先训练得到的。

根据本申请实施例中一可实现的方式，所述针对用户采集的媒体数据包括N种模态的媒体数据，所述N为大于1的正整数。

第三方面，提供了一种智能对话方法，应用于智能对话系统，所述方法包括：

获取用户在所述智能对话系统的输入数据；

将所述输入数据输入感情识别模型，获取所述感情识别模型输出的包含所述用户的感情信息的识别结果，所述感情信息包括情感信息和/或情绪信息；

依据所述用户的感情信息，生成针对所述用户的响应内容，所述响应内容包括响应文本、服务选项或触发人工服务；

第四方面，提供了一种训练感情识别模型的装置，所述装置包括：

样本获取单元，被配置为获取包含多个第一训练样本的训练数据，所述第一训练样本被标注有情感标签和情绪标签；

模型训练单元，被配置为利用所述训练数据训练所述感情识别模型；其中，所述感情识别模型包括编码网络和解码网络；

所述编码网络，用以对所述第一训练样本进行特征编码，得到所述第一训练样本的特征表示；

所述解码网络，用以利用所述第一训练样本的特征表示进行解码，得到感情信息的识别结果，所述感情信息包括情感信息和/或情绪信息；

第五方面，提供了一种感情识别装置，所述感情识别装置包括：

数据获取单元，被配置为获取针对用户采集的媒体数据；

感情识别单元，被配置为将所述媒体数据输入感情识别模型，获取所述感情识别模型输出的包含所述用户的感情信息的识别结果，所述感情信息包括情感信息和/或情绪信息；

其中，所述感情识别模型是由如第四方面所述的装置预先训练得到的。

根据第六方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面、第二方面和第三方面中任一项所述的方法的步骤。

根据第七方面，提供了一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行上述第一方面、第二方面和第三方面中任一项所述的方法的步骤。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

1)本申请将情感识别和情绪识别视为相同的任务进行联合建模，充分学习训练样本所表达情绪和情感之间的相似性和互补性，从而提高感情识别模型在情感和/或情绪识别上的准确率，得到更好的识别效果。

2)本申请中在构建第一训练样本时，充分利用了情绪和情感之间的相似性和互补性，利用样本之间的相似度为缺少情感标签或缺少情绪标签的训练样本打上“伪标签”，让情感和情绪知识共享，从而获得更好的感情识别能力。

3)本申请引入了多模态融合机制，使得感情识别模型能够自动捕捉用户的语言特征和非语言特征，从更加丰富的输入信息中识别出用户的感情信息，进一步提高了感情识别的准确度。

4)本申请在感情识别模型的训练过程中引入多模态对比学习，进一步提高了感情识别模型的鲁棒性，达到更好的识别效果。

5)本申请通过情感和情绪知识的联合建模，得到同一个端到端的模型，能够同时识别出情感信息和情绪信息，从而为后续服务提供更高效和细致的感情信息作为参考。

6)本申请采用编解码模型构建感情识别模型，相比较传统基于分类模型的实现方式，能够更好地对诸如文本、音频、视频等序列型输入进行理解，学习其中蕴含的感情特征，从而具备更优的语音识别效果。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为是本申请实施例所适用的系统架构图；

图2为本申请实施例提供的训练感情识别模型的方法流程图；

图3为本申请实施例提供的补全训练样本感情标签的示意图；

图4为本申请实施例提供的训练感情识别模型的示意性原理图；

图5为本申请实施例提供的多模态融合网络中融合子网络的示意性原理图；

图6为本申请实施例提供的感情识别方法的流程图；

图7为本申请实施例提供的训练感情识别模型的装置的示意性框图；

图8为本申请实施例提供的感情识别装置的示意性框图；

图9为本申请实施例提供的电子设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

目前已有的方式中，都是单纯建立情感识别模型或者情绪识别模型，但建立得到的模型识别准确性均不佳。

但经过研究发现，情感和情绪之间是相似的，例如情感中的“积极”的分数在1.6时(采用-3～3之间的分数来对各情感类型进行评分)和情绪中的“高兴”是非常相似的，可以被投射到统一的表示向量空间。与此同时，情感和情绪之间也是互补的，情感通常是长期的一种感情反应，而情绪通常是一种短期的感情反应。因此，本申请采用了一种全新的思路，将情感识别和情绪识别视为相同的任务进行联合建模。为了方便对本申请的理解，首先对本申请所适用的系统架构进行简单描述。

图1示出了可以应用本申请实施例的示例性系统架构。如图1中所示，该系统架构包括采用离线方式训练感情识别模型的模型训练装置，以及在线对用户的媒体数据进行感情识别的感情识别装置。

其中，模型训练装置获取到训练数据后，采用本申请实施例提供的方法进行模型训练，得到感情识别模型。

感情识别装置利用已经建立的感情识别模型，对针对用户采集的媒体数据进行感情检测，输出包括该用户感情信息的识别结果。其中，针对用户采集的媒体数据可以是单模数据，例如文本、视频、音频等中的一种。也可以是多模数据，例如文本、视频、音频等中的任意组合。

模型训练装置和感情识别装置可以分别设置为独立的服务器，也可以设置于同一个服务器或服务器群组，还可以设置于独立的或者同一云服务器。云服务器又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPs，Virtual Private Server)服务中存在的管理难度大，服务扩展性弱的缺陷。模型训练装置和感情识别装置还可以设置于具有较强计算能力的计算机终端。

另外需要说明的是，图1中以感情识别装置在线执行识别为例，但在一些应用场景下，感情识别装置也可以离线地对媒体数据进行诸如批量式的感情识别，本申请对此不加以限制。

应该理解，图1中的模型训练装置、感情识别装置以及感情识别模型的数目仅仅是示意性的。根据实现需要，可以具有任意数目的模型训练装置、感情识别装置以及感情识别模型。

图2为本申请实施例提供的训练感情识别模型的方法流程图，该方法可以由图1所示系统架构中的模型训练装置执行。如图2中所示，该方法可以包括以下步骤：

步骤202：获取包含多个第一训练样本的训练数据，第一训练样本被标注有情感标签和情绪标签。

步骤204：利用训练数据训练所述感情识别模型；其中，感情识别模型包括编码网络和解码网络；编码网络对第一训练样本进行特征提取，得到第一训练样本的特征表示；解码网络利用第一训练样本的特征表示进行解码，得到感情信息的识别结果，感情信息包括情感信息和/或情绪信息；训练的目标包括：最小化感情识别模型得到的识别结果与对应训练样本被标注的标签之间的差异。

由上述流程可以看出，本申请将情感识别和情绪识别视为相同的任务进行联合建模，充分学习训练样本所表达情绪和情感之间的相似性和互补性，从而提高感情识别模型在情感和/或情绪识别上的准确率，得到更好的识别效果。

下面对上述流程中的各步骤分别进行描述。首先结合实施例对上述步骤202即“获取包含多个第一训练样本的训练数据”进行详细描述。

本申请实施例在训练感情识别模型时利用的训练数据中各第一训练样本均被标注有情感标签和情绪标签。

其中，情感标签可以是二分类的标签，例如消极、积极。也可以是三分类的标签，例如消极、中性、积极。还可以是其他粒度的情感类型标签。除了情感类型标签之外，情感标签还可以是回归任务型的标签即分数标签，例如采用-3分～3分来表达各情感类型的程度。

情绪标签通常是多分类的标签，例如喜悦、悲伤、恐惧、愤怒、惊讶、厌恶等情绪类型标签。还可以进一步包括分数标签来表达各情绪类型的程度。

在后续实施例中以各第一训练样本被标注“情感类型标签，情感分数标签，情绪类型标签”为例进行描述。例如，对于某个第一训练样本，被标注的标签为“消极，-2.5，愤怒”。再例如，对于某个第一训练样本，被标注的标签为“积极，1.6，高兴”。

然而在实际场景下，同时被标注情感标签和情绪标签的样本是很少的，也比较难以获取，若全都采用人工标注，则标注成本较高。但目前已经存在大量仅标注有情感标签的样本，以及仅标注有情绪标签的样本，本申请实施例中提供了一种第一训练样本的生成方式，能够有效地利用已有的这些样本。

具体地，可以首先获取多个标注有情感标签但缺少情绪标签的第二训练样本以及多个标注有情绪标签的第三训练样本。

需要说明的是，本公开中涉及的“第一”、“第二”、“第三”等限定并不具备大小、顺序和数量等方面的限制，仅仅用以在名称上加以区分，例如“第一训练样本”、“第二训练样本”和“第三训练样本”用以区分不同的训练样本。

对于某个第二训练样本A，可以确定与该第二训练样本A之间相似度满足预设要求的第三训练样本B。其中满足预设要求可以是诸如相似度最大，也可以是诸如相似度大于或等于预设阈值，还可以是诸如相似度最大且大于或等于预设阈值，等等。然后利用确定出的第三训练样本B的情绪标签为该第二训练样本A进行情绪标签的标注。

对于第三训练样本C，可以确定与第三训练样本C之间相似度满足预设要求的第二训练样本D。其中满足预设要求可以是诸如相似度最大，也可以是诸如相似度大于或等于预设阈值，还可以是诸如相似度最大且大于或等于预设阈值，等等。然后利用确定出的该第二训练样本D的情感标签为该第三训练样本C进行情感标签的标注。

举个例子，如图3中所示，假设第二训练样本中样本S2具备情感标签“积极，2.5”，第三训练样本E1中具备情绪标签“高兴”。经过相似度计算，发现S2与E1之间的相似度最高，达到了0.8。那么可以将样本S2的情绪标签也标注为“高兴”，得到样本S2的标签为“积极，2.5，高兴。将E1的情感类别标签也标注为“积极”，情感分数可以由S2的情感分数乘以相似度得到，2.5*0.8＝2.0，即将E1的情感标签中情感分数标注为“2.0”，得到E1的标签为“积极，2.0，高兴”。

然后将第二训练样本和第三训练样本中同时标注有情绪标签和情感标签的训练样本作为第一训练样本，用以进行感情识别模型的训练。

上述过程充分利用了情绪和情感之间的相似性和互补性，利用样本之间的相似度为缺少情感标签或缺少情绪标签的训练样本打上“伪标签”，让情感和情绪知识共享，从而获得更好的感情识别能力。

上述各第一训练样本可以是单模态的训练样本，例如仅是文本样本、视频样本和音频样本等中的一种。也可以是N模态的训练样本，即第一训练样本包括N种模态的子样本，N为大于1的正整数。例如可以是文本样本、视频样本和音频样本中的任意组合。在后续实施例中均以文本样本、视频样本和音频样本构成第一训练样本为例。

第一训练样本中多模态的训练样本需要都具有相同的情绪标签以及相同的情感标签，因此在获取第一训练样本时，作为其中一种可实现的方式，可以获取包含用户说话的视频，从该视频中分离出音频，并对用户说话的语音部分进行识别，得到对应的文本。如此就可以得到视频样本、音频样本和文本样本，并统一标注情绪标签和感情标签。

除了这种方式之外，也可以采用其他获取方式。例如用户使用智能对话系统的过程中，除了获取用户语音之外，同时对用户进行视频采集。从用户语音中识别出对应的文本。如此可以得到视频样本、音频样本和文本样本，并统一标注情绪标签和感情标签。对于第一训练样本的获取方式在此不做一一列举。

下面结合实施例对上述步骤204即“利用训练数据训练感情识别模型”进行详细描述。

为了方便理解，首先对感情识别模型的结构进行描述。如图4中所示，感情识别模型主要包括编码网络和解码网络两部分。

其中，编码网络对输入的第一训练样本进行特征编码，得到该第一训练样本的特征表示。

解码网络利用第一训练样本的特征表示进行解码，得到感情信息的识别结果，感情信息包括情感信息和/或情绪信息。

在本申请实施例中，训练数据中的第一训练样本作为情感识别模型的输入，目标输出为该第一训练样本的情感标签和/或情绪标签。该感情识别模型可以是情感识别模型，用以进行情感识别，此时目标输出为第一训练样本的情感标签。该感情识别模型也可以是感情识别模型，用以进行感情识别，此时目标输出为第一训练样本的感情标签。该感情识别模型也可以用以同时识别感情和情感，此时目标输出为第一训练样本的情感标签和情绪标签，后续实施例均以该种情形为例进行描述。

单模式样本的情形较容易理解，在本实施例中以第一训练样本为多模式样本为例进行描述，假设第一训练样本包括文本样本、音频样本和视频样本。在将第一训练样本输入解码网络之前，可以首先对第一训练样本进行特征提取，提取出各模态样本的特征向量。

例如，可以利用嵌入网络对文本样本进行嵌入处理，得到文本样本的特征向量。文本样本实质上是一个文本序列，由各Token(元素)组成，其中Token可以是字符，在一些语言中也可以是词语。嵌入网络可以对文本序列中的各Token进行词Embedding(嵌入)处理，得到各Token的词Embedding，还可以进行位置Embedding处理，得到各Token的位置Embedding。其中，嵌入网络可以采用诸如T5文本神经网络模型的嵌入层。文本样本中各Token的词Embedding和位置Embedding构成了文本样本的特征向量，将该特征向量输入编码网络。

可以从音频样本中提取PCM(Pulse Code Modulation，脉冲编码调制)数据，并将其转换为妹儿频谱图的二维向量。其中二维向量分别代表时间和非线性频率，从而得到音频的特征向量。

可以对视频样本进行等频采样，采样预设数量的图像，例如采样32张图像，解决视频样本之间长度不同的问题。然后将图像统一为预设的大小，例如224×224。还可以进一步对各图像的像素进行标准化处理，例如对RGB像素进行均值归零、方差为一等标准化处理。再利用诸如EfficientNet图像神经网络获取各图像的特征向量从而构成视频的特征向量。

若第一训练样本包括N种模态的子样本，则相应地，编码网络可以包括N个编码子网络和多模态融合网络。其中，N个编码子网络分别对应其中一种模态，对所对应模态的子样本进行特征提取，得到各种模态的特征表示。多模态融合网络将N种模态的特征表示进行融合，得到融合特征表示作为第一训练样本的特征表示。

图4中以文本、视频和音频三种模态为例，编码网络可以包括编码子网络1、编码子网络2和编码子网络3，分别对音频样本、文本样本和视频样本进行编码，得到音频样本的特征表示X^a、文本样本的特征表示X^t和视频样本的特征表示X^v。其中，编码子网络1和编码子网络2可以采用诸如LSTM(Long-Short TermMemory，长短时记忆网络)。编码子网络3可以采用诸如T5(Transfer Text-to-TextTransformer，迁移文本到文本转换)、BERT(Bidirectional Encoder Representation from Transformers，基于转换的双向编码表示)等预训练语言模型。

多模态融合网络可以包括多层融合子网络，对于第一层融合子网络而言，将N种模态中的第一模态的特征表示与其他模态的特征表示进行点乘后，将点乘得到的表示进行线性变换，将线性变换得到的表示与第一模态的特征表示进行相加后经过神经网络的处理，得到第一层输出的融合特征表示。其中第一模态是上述N种模态中的一个预设的模态，该第一模态通常选择对用户感情信息反映最多、影响最大的模态。例如可以将文本作为第一模态。

其它层融合子网络将上一层输出的融合特征表示与其他模态的特征表示进行点乘后，将点乘得到的表示进行线性变换，将线性变换得到的表示与上一层输出的融合特征表示进行相加后经过神经网络的处理，得到当前层输出的融合特征表示。

以音频、视频和文本三种模态的样本为例，其中第j层输出的针对第一训练样本i输出的F_i ^j可以采用如下公式：

F_i ^j＝W(F_i ^u⊙F_i ^j-1) (1)

其中，W()为神经网络的变换函数，当j为1时，上述F_i ^j-1可以采用

为第一训练样本i中文本样本的特征表示。

F_i ^u＝W^uF_i+b^u (2)

公式(2)是一个线性变换的过程，W^u和b^u为线性变换采用的参数，是模型训练过程中要学习的模型参数。

为第一训练样本i中音频样本的特征表示，

为第一训练样本i中视频样本的特征表示。

上述过程对应的每层融合子网络的结构可以如图5中所示。

解码网络可以是基于Transformer的解码网络，对第一训练样本的特征进行解码，得到识别结果，识别结果为感情信息。

作为其中一种可实现的方式，上述感情识别模型的训练目标包括：最小化感情识别模型得到的识别结果与对应的第一训练样本被标注的标签之间的差异。以感情识别模型的识别结果包括情感信息和情绪信息为例，训练目标包括：最小化感情识别模型输出的感情类型与对应第一训练样本的感情类型标签的差异；如果有感情分数标签，则最小化感情识别模型输出的感情分数与对应第一训练样本的感情分数标签的差异；最小化感情识别模型输出的情绪类型与对应第一训练样本的情绪类型标签的差异。

在本说明书实施例中，可以依据上述训练目标构造损失函数L^task，例如可以采用交叉熵损失函数。在每一轮迭代中利用损失函数L^task的取值，采用诸如梯度下降等方式更新模型参数，直至满足预设的训练结束条件。其中训练结束条件可以包括诸如损失函数L^task的取值小于或等于预设的损失函数阈值，迭代次数达到预设的次数阈值等。

作为另一种可实现的方式，除了上述训练目标之外，还可以进一步引入多模态对比学习的方式，将属于相同样本的其他模态的特征表示与融合特征表示之间的距离拉近，将属于不同样本的其他模态的特征表示与融合特征表示之间的距离拉远。也就是说，训练目标可以进一步包括：最小化相同第一训练样本内其他模态的特征表示与融合特征表示之间的距离，以及最大化不同训练样本间其他模态的特征表示与融合特征表示之间的距离。

在上述训练目标中之所以采用的是其他模态(即除了第一模态之外的其他模态)与融合特征表示之间的距离，是因为各融合子网络在获取融合特征时是以第一模态为主进行的融合，本身很大程度上已经体现了第一模态的特征。

上述多模态对比学习的损失函数可以采用诸如infoNCE损失函数。例如，对于音频样本的特征表示与第j层融合子网络产生的融合特征表示对应的损失函数L^ta,j以及视频样本的特征表示与第j层融合子网络产生的融合特征表示对应的损失函数L^tv,j可以采用如下公式：

其中，K为训练过程中采样的一个批(batch)中的第一训练样本的数量。

在感情识别模型的训练过程中引入多模态对比学习，进一步提高了感情识别模型的鲁棒性，达到更好的识别效果。

在这种方式中，可以利用L^task、L^ta,j和L^tv,j构建总损失函数L，然后在每一轮迭代中利用损失函数L的取值，采用诸如梯度下降等方式更新模型参数，直至满足预设的训练结束条件。其中训练结束条件可以包括诸如损失函数L的取值小于或等于预设的损失函数阈值，迭代次数达到预设的次数阈值等。例如，总损失函数L可以采用如下公式：

L＝L^task+α(∑_jL^ta,j)+β(∑_jL^tv,j) (6)

其中，α和β是超参数，用以控制损失函数中的对比学习参与程度，可以采用经验值或实验值。

训练得到的感情识别模型后，可以基于上述感情识别模型进行感情识别。图6为本申请实施例提供的感情识别方法的流程图，该方法可以由图1所示系统架构中的感情识别装置执行。如图6中所示，该方法可以包括以下步骤：

步骤602：获取针对用户采集的媒体数据。

其中媒体数据可以是单模态的数据，也可以是多模态的数据。具体模态和训练感情识别模型的过程中采用的模态一致。例如，训练感情识别模型时采用的是文本样本、音频样本和视频样本，则在使用该感情识别模型进行感情识别时，也针对用户采集文本数据、音频数据和视频数据。

另外，多模态的数据需要针对同一用户进行采集，在不同应用场景下可以获取不同的采集方式。后续将列举不同应用场景进行说明。

步骤604：将媒体数据输入感情识别模型，获取感情识别模型输出的包含用户的感情信息的识别结果，感情信息包括情感信息和/或情绪信息。

其中上述情感信息可以包括情感类型信息，还可以包括情感分数，用以表达各情感类型的程度。情绪信息可以包括情绪类型信息，也可以包括情绪分数，用以表达各情绪类型的程度。

本申请实施例提供的上述方法可以应用于多种应用场景，包括但不限于：

应用场景1：智能对话系统

获取用户在智能对话系统的输入数据。该输入数据可以包括文本数据、音频数据或视频数据中的至少一种。优选获取多种模态的输入数据，例如获取用户在智能对话系统输入的语音数据，该语音数据本身就是音频数据，对该语音数据进行识别得到文本数据，将音频数据和文本数据作为两种模态的输入数据。再例如智能对话系统采集用户的视频数据，在该视频中包含用户语音和面部的图像等。除了该视频数据，对用户语音进行识别得到文本数据，从该视频中分离出音频数据，从而得到视频数据、音频数据和文本数据三种模态的输入数据。

智能对话系统将上述输入数据输入感情识别模型，获取感情识别模型输出的用户感情信息，例如情感类型、情感分数和情绪类型。然后依据用户的感情信息，生成针对该用户的响应内容。其中响应内容可以包括响应文本、服务选项或触发人工服务等。

例如，识别出用户情感类型为消极，情绪类型为难过时，可以采用预设的话术对用户进行安抚。再例如，识别出用户情感类型为消极，情绪类型为愤怒时，可以触发人工服务，由人工来解决用户的问题。再例如，识别出用户情感类型为积极，情绪类型为喜悦时，可以向用户进行一些推广信息的推荐。

文本或对用户输入语音进行识别得到的文本；将获取的文本作为待检测文本输入未知意图检测模型，获取未知意图检测模型对待检测文本的检测结果；若对待检测文本的检测结果为未知意图类型，则采用预设的话术生成针对该用户的响应文本，或者触发人工服务接入智能对话系统以响应该用户。

智能对话系统可以是诸如智能客服系统、智能音箱等等。

应用场景2：电子商务平台

在电子商务平台，用户可以在购买商品或享受服务后，通过音频、视频、文本等方式发表评价。电子商务平台可以将评价数据输入感情识别模型，获取感情识别模型输出的用户的情感类型、情感分数和情绪类型。通过对这些用户的情感类型、情感分数和情绪类型进行统计和分析，可以帮助电子商务平台制定更好的销售、推广等策略。

应用场景3：潮流预测

在诸如社交类平台、电子商务平台、点评类平台、娱乐类平台、多媒体平台等上，用户可以针对热点事物、热点商品、热点人物、热点媒体资源等，通过音频、视频、文本等方式发表观点。可以将这些平台上的用户观点输入感情识别模型，获取感情识别模型输出的用户的情感类型、情感分数和情绪类型。通过对这些用户的情感类型、情感分数和情绪类型进行统计和分析，了解用户的情感和情绪倾向，用以预测未来的潮流趋势，例如商品潮流、影视剧潮流、着装潮流、旅行潮流等等。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

根据另一方面的实施例，提供了一种训练感情识别模型的装置。图7示出根据一个实施例的训练感情识别模型的装置的示意性框图，该装置即图1所示架构中的模型训练装置。如图7所示，该装置700包括：样本获取单元701和模型训练单元702。其中各组成单元的主要功能如下：

样本获取单元701，被配置为获取包含多个第一训练样本的训练数据，第一训练样本被标注有情感标签和情绪标签。

模型训练单元702，被配置为利用训练数据训练感情识别模型；其中，感情识别模型包括编码网络和解码网络。

其中，编码网络，用以对第一训练样本进行特征编码，得到第一训练样本的特征表示。

解码网络，用以利用第一训练样本的特征表示进行解码，得到感情信息的识别结果，感情信息包括情感信息和/或情绪信息。

训练的目标包括：最小化感情识别模型得到的识别结果与对应的第一训练样本被标注的标签之间的差异。

作为其中一种可实现的方式，样本获取单元701可以具体被配置为：获取多个标注有情感标签的第二训练样本以及多个标注有情绪标签的第三训练样本；确定与缺少情绪标签的第二训练样本之间相似度满足预设要求的第三训练样本，利用确定出的该第三训练样本的情绪标签为该缺少情绪标签的第二训练样本进行情绪标签的标注；以及，确定与缺少情感标签的第三训练样本之间相似度满足预设要求的第二训练样本，利用确定出的该第二训练样本的情感标签为该缺少情感标签的第三训练样本进行情感标签的标注；将第二训练样本和第三训练样本中同时标注有情绪标签和情感标签的训练样本作为第一训练样本。

作为其中一种可实现的方式，情感标签可以包括情感类型标签和情感分数标签。

样本获取单元701在确定与缺少情感标签的第二训练样本之间相似度满足预设要求的第一训练样本，利用确定出的该第一训练样本的情感标签为该缺少情感标签的第二训练样本进行情感标签的标注时，可以具体执行：

确定与缺少情感标签的第二训练样本之间相似度最高的第一训练样本，将该第一训练样本的情感类型标签作为该缺少情感标签的第二训练样本的情感类型标签，利用该第一训练样本的情感分数标签与相似度值的乘积对该缺少情感标签的第二训练样本进行情感分数标签的标注，其中相似度值为该第一训练样本和该缺少情感标签的第二训练样本之间的相似度值。

作为其中一种可实现的方式，第一训练样本可以包括N种模态的子样本，N为大于1的正整数。

相应地，编码网络可以包括N个编码子网络和多模态融合网络。N个编码子网络分别对应其中一种模态，对所对应模态的子样本进行特征提取，得到各种模态的特征表示；多模态融合网络将N种模态的特征表示进行融合，得到融合特征表示作为第一训练样本的特征表示。

具体地，多模态融合网络可以包括多层融合子网络。

第一层融合子网络将N种模态中的第一模态的特征表示与其他模态的特征表示进行点乘后，将点乘得到的表示进行线性变换，将线性变换得到的表示与第一模态的特征表示进行相加后经过神经网络的处理，得到第一层输出的融合特征表示。

其中，N种模态的子样本包括文本样本，还包括音频样本和视频样本中的至少一种；第一模态为文本。

更进一步地，上述训练目标还可以包括：最小化相同第一训练样本内其他模态的特征表示与融合特征表示之间的距离，以及最大化不同训练样本间其他模态的特征表示与融合特征表示之间的距离。

根据另一方面的实施例，提供了一种感情识别装置。图8示出根据一个实施例的感情识别装置的示意性框图。如图8所示，该装置800包括：数据获取单元801和感情识别单元802。其中各组成单元的主要功能如下：

数据获取单元801，被配置为获取针对用户采集的媒体数据。

感情识别单元802，被配置为将媒体数据输入感情识别模型，获取感情识别模型输出的包含用户的感情信息的识别结果，感情信息包括情感信息和/或情绪信息。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

另外，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

以及一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述方法实施例中任一项所述的方法的步骤。

本申请还提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

其中，图9示例性的展示出了电子设备的架构，具体可以包括处理器910，视频显示适配器911，磁盘驱动器912，输入/输出接口913，网络接口914，以及存储器920。上述处理器910、视频显示适配器911、磁盘驱动器912、输入/输出接口913、网络接口914，与存储器920之间可以通过通信总线930进行通信连接。

其中，处理器910可以采用通用的CPU、微处理器、应用专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器920可以采用ROM(Read Only Memory，只读存储器)、RAM(RandomAccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器920可以存储用于控制电子设备900运行的操作系统921，用于控制电子设备900的低级别操作的基本输入输出系统(BIOS)922。另外，还可以存储网页浏览器923，数据存储管理系统924，以及模型训练装置/感情识别装置925等等。上述模型训练装置/感情识别装置925就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器920中，并由处理器910来调用执行。

输入/输出接口913用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口914用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线930包括一通路，在设备的各个组件(例如处理器910、视频显示适配器911、磁盘驱动器912、输入/输出接口913、网络接口914，与存储器920)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器910、视频显示适配器911、磁盘驱动器912、输入/输出接口913、网络接口914，存储器920，总线930等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序产品的形式体现出来，该计算机程序产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

以上对本申请所提供的技术方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种训练感情识别模型的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取包含多个第一训练样本的训练数据包括：

3.根据权利要求2所述的方法，其特征在于，所述情感标签包括情感类型标签和情感分数标签；

4.根据权利要求1所述的方法，其特征在于，所述第一训练样本包括N种模态的子样本，所述N为大于1的正整数；

所述编码网络包括N个编码子网络和多模态融合网络；

5.根据权利要求4所述的方法，其特征在于，所述多模态融合网络包括多层融合子网络；所述多模态融合网络将N种模态的特征表示进行融合，得到融合特征表示作为所述第一训练样本的特征表示包括：

6.根据权利要求5所述的方法，其特征在于，所述训练目标还包括：最小化相同第一训练样本内所述其他模态的特征表示与融合特征表示之间的距离，以及最大化不同训练样本间所述其他模态的特征表示与融合特征表示之间的距离。

7.根据权利要求5所述的方法，其特征在于，所述N种模态的子样本包括文本样本，还包括音频样本和视频样本中的至少一种；所述第一模态为文本。

8.一种感情识别方法，其特征在于，所述方法包括：

获取针对用户采集的媒体数据；

其中，所述感情识别模型是采用如权利要求1至7中任一项所述的方法预先训练得到的。

9.根据权利要求8所述的方法，其特征在于，所述针对用户采集的媒体数据包括N种模态的媒体数据，所述N为大于1的正整数。

10.一种智能对话方法，应用于智能对话系统，其特征在于，所述方法包括：

获取用户在所述智能对话系统的输入数据；

11.一种训练感情识别模型的装置，其特征在于，所述装置包括：

12.一种感情识别装置，其特征在于，所述感情识别装置包括：

数据获取单元，被配置为获取针对用户采集的媒体数据；

其中，所述感情识别模型是由如权利要求11所述的装置预先训练得到的。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至10任一项所述的方法的步骤。

14.一种电子设备，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行权利要求1至10任一项所述的方法的步骤。