CN113688938A

CN113688938A - 确定对象情感的方法、训练情感分类模型的方法及装置

Info

Publication number: CN113688938A
Application number: CN202111047021.5A
Authority: CN
Inventors: 冯博豪
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2021-11-23
Anticipated expiration: 2041-09-07
Also published as: CN113688938B

Abstract

本公开提供了一种确定对象情感的方法，涉及人工智能领域，尤其涉及深度学习和计算机视觉领域。具体实现方案为：针对目标对象的多模态数据中每个单模态数据，利用单模态数据的第一权重对单模态数据的特征进行加权，得到每个单模态数据的第一加权特征；多模态数据包括多个单模态数据；根据单模态数据的第一权重，利用特征融合模型对多个单模态数据的第一加权特征进行融合，得到第一融合特征；利用分类模型对第一融合特征进行分类，得到目标对象的情感分类结果。本公开还提供了一种训练情感分类模型的方法、装置、电子设备、存储介质。

Description

确定对象情感的方法、训练情感分类模型的方法及装置

技术领域

本公开涉及人工智能技术领域，进一步涉及深度学习和计算机视觉技术领域，尤其涉及一种确定对象情感的方法及装置、训练情感分类模型的方法及装置、电子设备、存储介质及计算机程序产品。

背景技术

随着网络技术的快速发展，互联网的用户量和平台数量也在迅速增长，越来越多的人喜欢在公共社交媒体和电商平台上分享自己的生活，表达自己的观点。社交平台上往往包含大量的文字、图片以及视频内容，针对这些内容中情感信息的研究，一方面，商家根据他们发表的多媒体内容，分析出每个消费者的情感倾向。例如，针对某个产品的积极态度或者消极态度，从而更有针对性的进行商品推荐、新闻推送。另一方面，商家可以利用用户的情感偏向对自己的产品进行改进或者推广，通过分析用户的情感倾向，商家能够了解到自身产品的优缺点或者消费者群体的层次，从而针对性的对自身产品与服务进行改进，以更好地与其他同类型的企业进行竞争。如何分析多媒体内容中的情感，是当前情感分析领域面临的机遇和挑战。

发明内容

本公开提供了一种确定对象情感的方法及装置、训练情感分类模型的方法及装置、电子设备、存储介质及计算机程序产品。

根据本公开的一方面，提供了一种确定对象情感的方法，包括：针对目标对象的多模态数据中每个单模态数据，利用上述单模态数据的第一权重对上述单模态数据的特征进行加权，得到上述每个单模态数据的第一加权特征；上述多模态数据包括多个单模态数据；根据上述单模态数据的第一权重，利用特征融合模型对多个上述单模态数据的第一加权特征进行融合，得到第一融合特征；利用分类模型对上述第一融合特征进行分类，得到上述目标对象的情感分类结果。

根据本公开的另一方面，提供了一种情感分类模型的训练方法，上述情感分类模型包括特征融合模型和分类模型，包括：针对多模态样本数据中每个单模态样本数据，利用上述单模态样本数据的第一权重对上述单模态样本数据的特征进行加权，得到上述每个单模态样本数据的第一加权特征；上述多模态样本数据包括多个单模态样本数据和用于表征上述多模态样本数据情感的标签；根据上述单模态样本数据的第一权重，利用上述特征融合模型对多个上述单模态样本数据的第一加权特征进行融合，得到第一融合特征；利用上述分类模型对上述第一融合特征进行分类，得到样本的情感分类结果；根据上述样本的情感分类结果和上述标签，训练上述情感分类模型。

根据本公开的另一方面，提供了一种确定对象情感的装置，包括：第一加权模块，用于针对目标对象的多模态数据中每个单模态数据，利用上述单模态数据的第一权重对上述单模态数据的特征进行加权，得到上述每个单模态数据的第一加权特征；上述多模态数据包括多个单模态数据；融合模块，用于根据上述单模态数据的第一权重，利用特征融合模型对多个上述单模态数据的第一加权特征进行融合，得到第一融合特征；分类模块，用于利用分类模型对上述第一融合特征进行分类，得到上述目标对象的情感分类结果。

根据本公开的另一方面，提供了一种情感分类模型的训练装置，包括：上述情感分类模型包括特征融合模型和分类模型，包括：第三加权模块，用于针对多模态样本数据中每个单模态样本数据，利用上述单模态样本数据的第一权重对上述单模态样本数据的特征进行加权，得到上述每个单模态样本数据的第一加权特征；上述多模态样本数据包括多个单模态样本数据和用于表征上述多模态样本数据情感的标签；第二融合模块，用于根据上述单模态样本数据的第一权重，利用上述特征融合模型对多个上述单模态样本数据的第一加权特征进行融合，得到第一融合特征；第二分类模块，用于利用上述分类模型对上述第一融合特征进行分类，得到样本的情感分类结果；训练模块，用于根据上述样本的情感分类结果和上述标签，训练上述情感分类模型。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与上述至少一个处理器通信连接的存储器；其中，上述存储器存储有可被上述至少一个处理器执行的指令，上述指令被上述至少一个处理器执行，以使上述至少一个处理器能够执行本公开实施例上述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，上述计算机指令用于使上述计算机执行本公开实施例上述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，上述计算机程序在被处理器执行时实现本公开实施例上述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一个实施例的可以应用确定对象情感的方法和装置的示例性系统架构；

图2是根据本公开一个实施例的确定对象情感的方法的流程图；

图3是根据本公开另一个实施例的确定对象情感的方法的流程图；

图4是根据本公开一个实施例的确定对象情感的原理图；

图5是根据本公开一个实施例的情感分类模型的训练方法的流程图；

图6是根据本公开另一个实施例的情感分类模型的训练方法的流程图；

图7是根据本公开一个实施例的情感分类模型的原理图；

图8是根据本公开一个实施例的确定对象情感的装置的框图；

图9是根据本公开一个实施例的情感分类模型的训练装置的框图；以及

图10是用来实现本公开实施例的确定对象情感的方法和/或情感分类模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

多模态数据，可以从多媒体内容中被提取出来，比如视频或者动态图，相较于单纯的文本，可以传递更加丰富的情感。

相关技术中，可以利用多模态数据中的单模态数据进行情感分析，比如分析文本模态数据所表达的情感，又比如分析视频中多种图像所表达的情感。或者，可以由处理人员根据多模态数据进行人工的情感分析。

仅利用多模态数据中的单模态数据进行情感分析，存在以下问题：信息量不足，无法真正了解分析对象的情感；容易以偏概全，无法得到真实的情感；容易受到外部信息干扰，产生错误的分析结果，准确性难以保证。

人工的情感分析技术，容易因处理人员的差异产生较大的误差，也难以提高情感分析的准确性。而且，人工的情感分析技术，所需成本高，效率较低，无法快速批量完成。

图1是根据本公开一个实施例的可以应用确定对象情感的方法和装置的示例性系统架构。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，根据该实施例的系统架构100可以包括多个终端设备101、网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线和/或无线通信链路等等。

用户可以使用终端设备101通过网络102与服务器103进行交互，以接收或发送消息等。终端设备101可以是各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机等等。

本公开实施例所提供的确定对象情感的方法一般可以由服务器103执行。相应地，本公开实施例所提供的确定对象情感的装置一般可以设置于服务器103中。本公开实施例所提供的确定对象情感的方法也可以由不同于服务器103且能够与终端设备101和/或服务器103通信的服务器或服务器集群执行。相应地，本公开实施例所提供的确定对象情感的装置也可以设置于不同于服务器103且能够与终端设备101和/或服务器103通信的服务器或服务器集群中。

图2是根据本公开一个实施例的确定对象情感的方法的流程图。

如图2所示，该方法200可以包括操作S210～操作S230。

在操作S210，针对目标对象的多模态数据中每个单模态数据，利用单模态数据的第一权重对单模态数据的特征进行加权，得到每个单模态数据的第一加权特征。

例如，多模态数据包括多个单模态数据。

在本公开实施例中，利用第一权重模型对多模态数据进行处理，得到多模态数据中每个单模态数据的第一权重。

在本公开实施例中，多模态数据可以包括图像模态数据、音频模态数据和文本模态数据中的至少两个。

例如，多模态数据可以是短视频，该多模态数据包括图像模态数据、音频模态数据和文本模态数据。图像模态数据可以是短视频的多个图像帧，音频模态数据可以是短视频中的对话或旁白，文本模态数据可以是短视频的字幕等等。

又例如，多模态数据可以是动态图，该多模态数据包括图像模态数据和文本模态数据。图像模态数据可以是组成动态图的多个图像帧，文本模态数据可以是图像帧上的文字。在一个示例中，从该动态图中提取的文本模态数据是一个词，比如“愤怒”。在另一个示例中，从该动态图中提取的文本模态数据可以是两个词，比如从该动态图在先的图像帧中提取出一个词，比如“愤怒”，并从该动态图之后的图像帧中提取出另一个词，比如“爆发”。

在本公开实施例中，第一权重模型可以是经训练得到的。

例如，第一权重模型可以对一个多模态数据进行处理，该多模态数据包括例如三个单模态数据，则可以得到每个单模态数据的第一权重，比如W₁，W₂，W₃。又例如，第一权重模型可以对另一个多模态数据进行处理，该多模态数据包括例如三个单模态数据，则可以得到每个单模态数据的第一权重，比如W₄，W₅，W₆。

在本公开实施例中，根据单模态数据，得到单模态数据的特征。

例如，根据多模态数据中的三个单模态数据，分别得到三个单模态数据的特征，比如M₁，M₂，M₃。

例如，三个单模态数据的第一权重分别为W₁、W₂及W₃，三个单模态数据的特征分别为M₁、M₂及M₃，那么三个单模态数据的第一加权特征分别为W₁*M₁、W₂*M₂及W₃*M₃。

在操作S220，根据单模态数据的第一权重，利用特征融合模型对多个单模态数据的第一加权特征进行融合，得到第一融合特征。

在本公开实施例中，针对每个单模态数据，根据多个单模态数据的第一权重和基于单模态数据的第一加权特征得到的特征，得到每个单模态样本数据的第二权重；根据单模态样本数据的第二权重，利用特征融合模型对多个单模态样本数据的第一加权特征进行融合，得到第一融合特征。

例如，基于单模态数据的第一加权特征得到的特征可以是第一加权特征本身，第二权重可以通过以下等式得到：

Inter_A_n＝F(Softmax(W_n*relu(W_j*W_n*M_n))) (1)

其中，Inter_A_n为第n个单模态数据的第二权重，W_n为第n个单模态数据的第一权重，W_j为单模态数据的第一权重，W_n*M_n为单模态数据的第一加权特征，n＝1，……，N，j＝1，……，N，其中，N为多模态数据中单模态数据的数量，relu(*)为线性整流函数。F(*)可以是任意函数，比如可以是求和函数或选择函数。每个第二权重都利用了各个单模态数据之间的关系，可以得到的准确的分类结果。

在一个示例中，N＝3，在n＝1时，j取值可以为1，2，3。可以将W_j的取值W₁、W₂及W₃分别输入线性整流函数中，得到的线性整流函数的输出经W₁加权后可以再输入Softmax函数中。根据Softmax函数输出的三个结果，从而得到一个单模态数据的第二权重。在一个示例中，N＝3，在n＝2时，j取值可以为1，2，3。可以将W_j的取值W₁、W₂及W₃分别输入线性整流函数中，得到的线性整流函数的输出经W₂加权后可以再输入Softmax函数中。根据Softmax函数输出的三个结果，从而得到另一个单模态数据的第二权重。在一个示例中，N＝3，在n＝3时，计算第二权重的方式与n＝1或2时相同，本公开在此不再赘述。

在本公开实施例中，特征融合模型包括第一特征融合网络和第二特征融合网络。

在本公开实施例中，可以利用第一特征融合网络对多个单模态数据的第一加权特征进行融合，得到第二融合特征。

例如，可以利用第一特征融合网络多个单模态数据的第一加权特征进行拼接，得到第二融合特征Z，Z＝[W₁*M₁，W₂*M₂，W₃*M₃]。

在本公开实施例中，可以利用第二权重模型对单模态数据的第一权重、多个单模态数据的第一权重和第二融合特征进行处理，得到单模态数据的第二权重。

例如，在另一示例中，第二权重模型可以实现为：

Inter_A_n＝F(Softmax(W_n*relu(W_j*Z))) (2)

其中，Inter_A_n为第n个单模态数据的第二权重，W_n为第n个单模态数据的第一权重，W_j为单模态数据的第一权重，n＝1，……，N，j＝1，……，N，relu(*)为线性整流函数，其中，N为多模态数据中单模态数据的数量，Z为第二融合特征。F(*)可以是任意函数，比如可以是求和函数或选择函数。计算第二权重时，采用的是由多个第一加权特征融合得到的第二融合特征，每个第二权重都可以进一步利用各个单模态数据之间的关系，可以得到的更加准确的分类结果

在一个示例中，

比如，与单模态数据的特征M₁对应的第二权重为：

此时，N＝3，即多模态数据包含3个单模态数据。

在本公开实施例中，针对每个单模态数据的第一加权特征，利用该单模态数据的第二权重对该单模态数据的第一加权特征进行加权，得到每个单模态数据的第二加权特征。

例如，针对每个单模态数据的第一加权特征，比如W₁*M₁、W₂*M₂及W₃*M₃，分别利用Inter_A₁、Inter_A₂及Inter_A₃进行对W₁*M₁、W₂*M₂及W₃*M₃进行加权，得到每个单模态数据的第二加权特征，比如一个单模态数据的第二加权特征为：

Inter_M₁＝Inter_A₁*W₁*M₁ (4)

在本公开实施例中，可以利用第二特征融合网络对多个单模态数据的第二加权特征进行融合，得到第一融合特征。

例如，可以利用第二特征融合网络对多个单模态数据的第二加权特征(Inter_M₁、Inter_M₂及Inter_M₃)进行相加，得到的第一融合特征为：

Inter_M＝Inter_M₁+Inter_M₂+Inter_M₃ (5)

在操作S230，利用分类模型对第一融合特征进行分类，得到目标对象的情感分类结果。

例如，分类模型可以是BP(Back Propagation，反向传播)神经网络模型。分类模型以第一融合特征为输入，以目标对象的情感分类结果为输出。

应该理解，针对不同的目标对象的多模态数据，第一权重、第二权重也可以是固定值。训练完成后，得到了固定的第一权重、固定的第二权重。

通过本公开实施例，可以有效地利用多模态数据中各个单模态数据之间的关系，进而有效地提高情感分类的准确性。

图3是根据本公开另一个实施例的确定对象情感的方法的流程图。

如图3所示，该方法可以包括操作S301～操作S304。

在操作S301，利用特征提取模型对单模态数据进行特征提取，得到单模态数据的初始特征序列。

在本公开实施例中，多模态数据包括图像模态数据。

在本公开实施例中，可以计算图像模态数据中每个图像帧与第一图像帧之间的相似度，将图像模态数据中与第一图像帧的相似度小于预设相似度阈值的图像帧和第一图像帧作为目标帧。

例如，可以提取每个图像帧的特征，计算各个图像帧的特征与第一图像帧的像素距离(比如欧式距离)，像素距离越大，相似度越小，将相似度小于预设阈值的图像帧和第一图像帧作为目标帧。在一个示例中，预设相似度阈值为0.4。在一个示例中，第一图像帧为图像模态数据中的任一帧，比如首帧。

在本公开实施例中，特征提取模型包括图像提取网络。

在本公开实施例中，利用图像提取网络对目标帧进行特征提取，得到图像模态数据的初始特征序列。

例如，图像提取网络可以是C3D神经网络(3D Convolutional Neural Network，3维卷积神经网络)。C3D神经网络可以提取出目标帧的空间信息，也能够模拟出时间信息。在一个示例中，该C3D神经网络包含8个卷积层、5个池化层和2个全连接层。每个卷积层的卷积核的尺寸为3*3*3，移动步长为1*1*1。在5个池化层中，第一个池化层的感受域为1*2*2，移动步长为1*2*2；其余的池化层的感受域为2*2*2，移动步长大小为2*2*2。2个全连接层各包含4096个输出单元。其中，最后一个全连接层的输入可以是图像模态数据的初始特征序列

最后一个全连接层的输出可以是实际的结果，不是特征，因此可以将最后一个全连接层的输入作为图像模态数据的初始特征序列。

例如，图像模态数据的初始特征序列包含时间信息。在一个示例中，多模态数据为20秒的视频，图像模态数据是20个图像帧。相应地，目标帧是第1秒、第3秒、第8秒和第10秒的图像帧。进而，图像模态数据的初始特征序列中在先的一部分维度的数据是从第1秒的图像帧中提取出的，其它维度的数据是依次从第3秒、第8秒和第10秒的图像帧中提取出的。

在本公开实施例中，多模态数据包括音频模态数据。

在本公开实施例中，特征提取模型包括音频提取网络。

在本公开实施例中，利用音频提取网络对音频模态数据进行特征提取，得到音频模态数据的初始特征序列。

例如，音频提取网络可以是TDNN(Time-Delay Neural Network，时延神经网络)。TDNN为多层网络，每层对特征有较强的抽象能力。TDNN网络具有时间不变性，学习过程中不要求对所学的标记进行精确的时间定义，能够准确地表达音频模态数据的特征在时间上的关系。在一个示例，以TDNN最后的隐藏层的输出作为音频模态数据的初始特征序列

例如，音频模态数据中有一部分音频与第1秒的图像帧对应，相应地，音频模态数据的初始特征序列中在前的一部分维度的数据与第1秒的图像帧对应。

在本公开实施例中，多模态数据包括文本模态数据。

例如，文本模态数据可以包括根据多模态数据的字幕得到的文本。在一个示例中，20秒的视频具有字幕，可以根据字幕得到文本。

例如，文本模态数据可以包括根据多模态数据的音频得到的文本。在一个示例中，可以将多模态数据中的音频模态数据通过语音识别技术转换为文本。

例如，文本模态数据可以包括根据多模态数据的图像得到的文本。在一个示例中，图像中包括一些文字，比如路牌、地标名等。

在本公开实施例中，可以将文本模态数据转换为词向量。

例如，将文本模态数据划分为多个句子，每个句子的长度为l，即包含1个单词，每个单词的维度为K，将这些单词通过Word2Vec中的Skip-Gram模型生成低维空间中的K维实数向量(词向量)。

在本公开实施例中，可以利用文本提取网络对词向量进行特征提取，得到文本模态数据的初始特征序列。

例如，文本提取网络可以是LSTM(Long Short-Term Memory，长短时记忆)网络。可以获取文本模态数据的上下文信息，有利于得到准确的情感分类结果。在一个示例中，可以将LSTM网络的输出作为文本模态数据的初始特征序列

在操作S302，利用特征转换网络对单模态数据的初始特征序列进行转换，得到单模态数据的高维特征。

在本公开实施例中，特征融合模型还包括特征转换网络。

例如，特征融合模型可以是基于注意力机制模型(Attention Model)构建的。

例如，特征转换网络可以包括两层的BiLSTM(Bi-directional Long Short-TermMemory，双向长短时记忆)网络。

在本公开实施例中，在每一个时间步长，利用特征转换网络对单模态数据的初始特征序列进行转换，得到单模态数据的高维特征。

例如，在每一个时间步长t，利用两层的BiLSTM网络对单模态数据的初始特征序列

进行处理，产生单模态数据的高维特征

其中n为单模态数据的数量，T为高维特征的长度，T可以为时间步长t的整数倍。在一个示例中，单模态数据的高维特征

可以为：

其中，n＝1，……，N，N为多模态数据中单模态数据的数量。

在一个示例中，N＝3，n＝1，2，3。

为根据图像模态数据的初始特征序列

得到的高维特征，

为根据音频模态数据的初始特征序列

得到的高维特征，

为根据文本模态数据的初始特征序列

得到的高维特征。

在操作S303，利用第三权重模型对单模态数据的高维特征进行处理，得到单模态数据的第三权重。

在本公开实施例中，第三权重模型包括第三权重子模型、第四权重子模型和第五权重子模型。第四权重子模型根据多模态数据，得到第四权重。第五权重子模型根据多模态数据，得到第五权重。第三权重子模型对第四权重、第五权重和单模态数据的高维特征进行处理，得到单模态数据的第三权重。

例如，第三权重子模型可以实现以下等式：

其中，

为单模态数据的第三权重，W_s1为根据多模态数据得到的第四权重，W_s2为根据多模态数据得到的第五权重，

为单模态数据的高维特征，n＝1，……，N，N为多模态数据中单模态数据的数量。单模态数据的第三权重也可以称为单模态数据的注意力权重。根据不同的多模态数据，第四权重和第五权重也可以有所不同。

在操作S304，利用单模态数据的第三权重对单模态数据的高维特征进行加权，得到单模态数据的特征。

例如，单模态数据的特征可以为：

通过本公开实施例，为多个单模态数据的初始特征序列确定不同的第三权重，有助于得到更准确的分类结果。

在一些实施例中，确定对象情感的方法还包括：响应于用户对目标对象的情感分类结果的标注，将标注作为目标对象的多模态数据的标签，将多模态数据作为多模态样本数据；根据多模态样本数据和标签，同时训练特征提取模型、特征融合模型、第一权重模型、第二权重模型和第三权重模型。

例如，用户获取了目标对象的情感分类结果，比如“高兴”。但用户认为该情感分类结果不准确，上传了该情感分类结果的标注，比如“悲伤”。那么该标注可以作为标签，与该标注对应多模态数据可以作为多模态样本数据。

应该理解，针对不同的目标对象的多模态数据，第一权重、第二权重及第三权重也可以是固定值。训练完成后，得到了固定的第一权重、固定的第二权重或固定的第三权重。

图4是根据本公开一个实施例的确定对象情感的方法的原理图。

如图4所示，利用三个单模态数据的第一权重(W₁、W₂及W₃)，分别对三个单模态数据的特征(M₁、M₂及M₃)进行加权，得到三个单模态数据的第一加权特征，分别为W₁*M₁、W₂*M₂及W₃*M₃。

特征融合模型410根据单模态数据的第一权重，对三个单模态数据的第一加权特征进行融合，得到第一融合特征Inter_M。

例如，针对每个单模态数据，根据多个单模态数据的第一权重和基于单模态数据的第一加权特征得到的特征进行处理，得到每个单模态数据的第二权重，即三个单模态数据的第二权重，分别为Inter_A₁、Inter_A₂及Inter_A₃。利用三个单模态数据的第二权重，分别对三个单模态数据的第一加权特征进行加权，得到三个单模态数据的第二加权特征，分别为Inter_M₁、Inter_M₂及Inter_M₃。将三个单模态数据的第二加权特征融合，得到第一融合特征Inter_M。

接下来，利用分类模型对第一融合特征进行分类，得到目标对象的情感分类结果。

图5是根据本公开一个实施例的情感分类模型的训练方法的流程图。

如图5所示，该训练方法500可以包括操作S510～S540。情感分类模型包括特征融合模型和分类模型。

在操作S510，针对多模态样本数据中每个单模态样本数据，利用单模态样本数据的第一权重对单模态样本数据的特征进行加权，得到每个单模态样本数据的第一加权特征。

例如，多模态样本数据包括多个单模态样本数据和用于表征多模态样本数据情感的标签。

在本公开实施例中，情感分类模型还可以包括第一权重模型。

在本公开实施例中，利用第一权重模型对多模态样本数据进行处理，得到多模态样本数据中每个单模态样本数据的第一权重。

在本公开实施例中，多模态样本数据可以包括图像模态样本数据、音频模态样本数据和文本模态样本数据其中的至少两个。

例如，多模态样本数据可以是短视频样本，该多模态样本数据包括图像模态样本数据、音频模态样本数据和文本模态样本数据，其中，图像模态样本数据可以是短视频的多个图像帧，音频模态样本数据可以是短视频中的对话或旁白，文本模态样本数据可以是短视频的字幕等等。在一个示例中，短视频样本的标签可以是“愤怒”。

又例如，多模态样本数据可以是动态图样本，该多模态样本数据包括图像模态样本数据和文本模态样本数据，其中，图像模态样本数据可以是组成动态图样本的多个图像帧，文本模态样本数据可以是图像帧上的文字。在一个示例中，从该动态图样本中提取的文本模态样本数据是一个词，比如“愤怒”。在另一个示例中，从该动态样本图中提取的文本模态样本数据可以是两个词，比如从该动态图样本在先的图像帧中提取出一个词，比如“愤怒”；从该动态图样本的之后的图像帧中提取出另一个词，比如“爆发”。在一个示例中，动态图样本的标签可以为“非常愤怒”。

在本公开实施例中，多模态样本数据的标签可以是用户使用情感分类模型后对分类结果的标注。

例如，用户使用情感分类模型对一多模态样本数据进行情感分类后，获取了情感分类结果，比如“高兴”。但用于认为情感分类结果不准确，上传了该情感分类结果的标注，比如“悲伤”。那么该标注可以作为该多模态样本数据的标签。

在本公开实施例中，第一权重模型可以是经训练得到的。

例如，第一权重模型可以对一个多模态样本数据进行处理，得到每个单模态样本数据的第一权重，比如W₁’，W₂’，W₃’。又例如，第一权重模型可以对另一个多模态样本数据进行处理，得到每个单模态样本数据的第一权重，比如W₄’，W₅’，W₆’。

在本公开实施例中，操作S510的其他实施方式可以参考例如前文记载的图2中的操作S210的实施例。本公开在此不再赘述。

在操作S520，根据单模态样本数据的第一权重，利用特征融合模型对多个单模态样本数据的第一加权特征进行融合，得到第一融合特征。

在本公开实施例中，针对每个单模态样本数据，根据多个单模态样本数据的第一权重和基于单模态样本数据的第一加权特征得到的特征进行处理，得到每个单模态样本数据的第二权重；根据单模态样本数据的第二权重，利用特征融合模型对多个单模态样本数据的第一加权特征进行融合，得到第一融合特征。

例如，基于单模态样本数据的第一加权特征得到的特征可以是第一加权特征本身，第二权重可以通过以下等式得到：

Inter_A’_n＝F′(Softmax(W’_n*relu(W’_j*W’_n*M’_n))) (9)

其中，Inter_A’_n为第n个单模态样本数据的第二权重，W’_n为第n个单模态样本数据的第一权重，W’_j为单模态样本数据的第一权重，n＝1，……，N，j＝1，……，N，relu(*)为线性整流函数，其中，N为多模态样本数据中单模态样本数据的数量。F′(*)可以是任意函数，比如可以是求和函数或选择函数。每个第二权重都利用了各个单模态样本数据之间的关系，可以得到的准确的分类结果。

在一个示例中，N＝3，j取值可以为1，2，3。在n＝1时，可以将W’_j的取值＝W′₁、W′₂及W′₃分别输入线性整流函数中，得到的线性整流函数的输出经W′₁加权后可以再输入Softmax函数中。根据Softmax函数输出的三个结果，从而得到一个单模态样本数据的第二权重。在一个示例中，N＝3，在n＝2时，j取值可以为1，2，3。可以将W′_j的取值W′₁、W′₂及W′₃分别输入线性整流函数中，得到的线性整流函数的输出经W′₂加权后可以再输入Softmax函数中。根据Softmax函数输出的三个结果，从而得到另一个单模态样本数据的第二权重。在一个示例中，N＝3，在n＝3时，计算第二权重的方式与n＝1或2时相同，本公开在此不再赘述。

在本公开实施例中，可以利用第一特征融合网络对多个单模态样本数据的第一加权特征进行融合，得到第二融合特征。

例如，可以利用第一特征融合网络多个单模态样本数据的第一加权特征进行拼接，得到第二融合特征Z’，Z’＝[W’₁*M’₁，W’₂*M’₂，W’₃*M’₃]。

在本公开实施例中，情感分类模型还包括第二权重模型。

在本公开实施例中，可以利用第二权重模型对多个单模态样本数据的第一权重和第二融合特征进行处理，得到单模态样本数据的第二权重。

例如，在另一示例中，第二权重模型可以实现为以下等式：

Inter_A’_n＝F′(Softmax(W’_n*relu(W’_j*Z’))) (10)

其中，Inter_A’_n为第n个单模态样本数据的第二权重，W’_n为第n个单模态样本数据的第一权重，W’_j为单模态样本数据的第一权重，n＝1，……，N，j＝1，……，N，relu(*)为线性整流函数，其中，N为多模态样本数据中单模态样本数据的数量，Z’为第二融合特征。F′(*)可以是任意函数，比如可以是求和函数或选择函数。计算第二权重时，采用的是由多个第一加权特征融合得到的第二融合特征，每个第二权重都可以进一步利用各个单模态样本数据之间的关系，可以得到的更加准确的分类结果。

在一个示例中，

比如，与单模态样本数据的特征M₁对应的第二权重为：

此时，N＝3，即多模态样本数据包含3个单模态样本数据。

在本公开实施例中，针对每个单模态样本数据的第一加权特征，利用该单模态样本数据的第二权重对该单模态样本数据的第一加权特征进行加权，得到每个单模态样本数据的第二加权特征。

例如，针对每个单模态样本数据的第一加权特征W’₁*M’₁、W’₂*M’₂及W’₃*M’₃，分别利用Inter_A’₁、Inter_A’₂及Inter_A’₃进行对W’₁*M’₁、W’₂*M’₂及W’₃*M’₃进行加权，得到每个单模态样本数据的第二加权特征，比如一个单模态样本数据的第二加权特征为：

Inter_M’₁＝Inter_A’₁*W’₁*M’₁ (12)

在本公开实施例中，可以利用第二特征融合网络对多个单模态样本数据的第二加权特征进行融合，得到第一融合特征。

例如，可以利用第二特征融合网络对多个单模态样本数据的第二加权特征(Inter_M’₁、Inter_M’₂及Inter_M’₃)进行相加，得到的第一融合特征为：

Inter_M’＝Inter_M’₁+Inter_M’₂+Inter_M’₃ (13)

在操作S530，利用分类模型对第一融合特征进行分类，得到样本的情感分类结果。

在本公开实施例中，操作S530的实施方式可以参考例如前文记载的图2中的操作S230的实施例。本公开在此不再赘述。

在操作S540，根据样本的情感分类结果和标签，训练情感分类模型

在本公开实施例中，可以根据样本的情感分类结果和标签，调整第一权重模型、第二权重模型的参数。

例如，可以对情感分类模型进行多次训练，每次训练后调整第一权重模型、第二权重模型的参数，直至根据情感分类结果和标签确定的损失值小于预设损失值阈值。又例如，可以对情感分类模型进行预设次数的训练，每次训练后调整第一权重模型、第二权重模型的参数，直至训练次数达到预设次数。

在本公开实施例中，还可以根据样本的情感分类结果和标签，调整特征融合模型和/或分类模型的参数。

例如，可以对情感分类模型进行多次训练，每次训练后调整特征融合模型和/或分类模型的参数，直至根据情感分类结果和标签确定的损失值小于预设损失值阈值。又例如，可以对情感分类模型进行预设次数的训练，每次训练中调整特征融合模型和/或分类模型的参数，直至训练次数达到预设次数。

应该理解，针对不同的多模态样本数据，第一权重、第二权重也可以是固定值。训练完成后，得到了固定的第一权重或固定的第二权重。

图6是根据本公开一个实施例的情感分类模型的训练方法的流程图。

如图6所示，该训练方法可以包括操作S601～S604。情感分类模型还包括特征提取模型、第三权重模型，特征融合模型还包括特征转换网络。

在操作S601，利用特征提取模型对单模态样本数据进行特征提取，得到单模态样本数据的初始特征序列。

在本公开实施例中，操作S601的实施方式可以参考例如前文记载的图3中的操作S301的实施例。本公开在此不再赘述。

在操作S602，利用特征转换网络对单模态样本数据的初始特征序列进行转换，得到单模态样本数据的高维特征。

在本公开实施例中，操作S602的实施方式可以参考例如前文记载的图3中的操作S302的实施例。本公开在此不再赘述。

在操作S603，利用第三权重模型对单模态样本数据的高维特征进行处理，得到单模态样本数据的第三权重。

在本公开实施例中，第三权重模型可以包括第三权重子模型、第四权重子模型和第五权重子模型。第四权重子模型根据多模态样本数据，得到第四权重。第五权重子模型根据多模态样本数据，得到第五权重。第三权重子模型对第四权重、第五权重和单模态样本数据的高维特征进行处理，得到单模态样本数据的第三权重。

例如，第三权重子模型可以实现为以下等式：

其中，

为单模态样本数据的第三权重，W’_s1为第四权重，W’_s2为第五权重，

为单模态样本数据的高维特征，n＝1，……，N，N为多模态数据中单模态数据的数量。单模态样本数据的第三权重也可以称为单模态样本数据的注意力权重。根据不同的多模态样本数据，第四权重和第五权重也可以不同。

在操作S604，利用单模态样本数据的第三权重对单模态样本数据的高维特征进行加权，得到单模态样本数据的特征。

在本公开实施例中，操作S604的实施方式可以参考例如前文记载的图3中的操作S304的实施例。本公开在此不再赘述。

在一些实施例中，可以根据样本的情感分类结果和标签，调整第一权重模型、第二权重模型及第三权重模型的参数。

例如，可以对情感分类模型进行多次训练，每次训练后调整第一权重模型、第二权重模型及第三权重模型的参数，直至根据情感分类结果和标签确定的损失值小于预设损失值阈值。又例如，可以对情感分类模型进行预设次数的训练，每次训练后调整第一权重模型、第二权重模型及第三权重模型的参数，直至训练次数达到预设次数。

在一些实施例中，可以根据样本的情感分类结果和标签，调整特征提取模型、特征融合模型和分类模型的参数。

例如，可以对情感分类模型进行多次训练，每次训练后调整特征提取、特征融合模型和分类模型的参数，直至根据情感分类结果和标签确定的损失值小于预设损失值阈值。又例如，可以对情感分类模型进行预设次数的训练，每次训练后调整特征提取模型、特征融合模型和分类模型的参数，直至训练次数达到预设次数。

应该理解，针对不同的多模态样本数据，第一权重、第二权重及第三权重也可以是固定值。训练完成后，得到了固定的第一权重、固定的第二权重或固定的第三权重。

图7是根据本公开一个实施例的情感分类模型的原理图。

如图7所示，情感分类模型可以包括特征提取模型、特征融合模型和分类模型。多模态样本数据701包括图像模态样本数据7011和文本模态样本数据7012。情感分类模型还可以包括第一权重模型、第二权重模型和第三权重模型。

特征提取模型730包括图像提取网络731和文本提取网络732。图像提取网络731对图像模态样本数据7011进行特征提取，得到图像模态样本数据的初始特征序列

文本提取网络732对图像模态样本数据7012进行特征提取，得到文本样本数据的初始特征序列

特征融合模型710包括特征转换网络711、第一特征融合网络712和第二特征融合网络713。

特征转换网络711分别将图像模态样本数据的初始特征序列

和文本样本数据的初始特征序列

转换为图像模态样本数据的高维特征

知文本样本数据的高维特征

第三权重模型分别根据图像模态样本数据的高维特征

和文本模态样本数据的高维特征

得到图像模态样本数据的第三权重

和文本模态样本数据的第三权重

利用图像模态样本数据的第三权重

对图像模态样本数据的高维特征

进行加权，得到图像模态样本数据的特征M′₁。利用文本模态样本数据的第三权重

对文本模态样本数据的高维特征

进行加权，得到文本模态样本数据的特征M′₃。第一权重模型根据多模态样本数据701分别得到图像模态样本数据的第一权重W′₁和文本模态样本数据的第一权重W′₃。利用图像模态样本数据的第一权重W′₁对图像模态样本数据的特征M′₁进行加权，得到图像模态样本数据的第一加权特征W′₁*M′₁。利用文本模态样本数据的第一权重W′₃对文本模态样本数据的特征M′₃进行加权，得到文本模态样本数据的第一加权特征W′₃*M′₃。

第一特征融合网络712根据图像模态样本数据的第一加权特征W′₁*M′₁和文本模态样本数据的第一加权特征W′₃*M′₃，得到第二融合特征Z′。第二权重模型根据图像模态样本数据的第一权重W′₁、图像模态样本数据的第一权重W′₁和文本模态样本数据的第一权重W′₃以及第二融合特征Z′，得到图像模态样本数据的第二权重Inter_A’₁。利用图像模态样本数据的第二权重Inter_A’₁对图像模态样本数据的第一加权特征进行加权，得到图像模态样本数据的第二加权特征Inter_M’₁。第二权重模型根据文本模态样本数据的第一权重W′₃、图像模态样本数据的第一权重W′₁和文本模态样本数据的第一权重W′₃以及第二融合特征Z′，得到文本模态样本数据的第二权重Inter_A’₃。利用文本模态样本数据的第二权重Inter_A’₃对文本模态样本数据的第一加权特征进行加权，得到文本模态样本数据的第二加权特征Inter_M’₃。

第二特征融合网络713根据图像模态样本数据的第二加权特征Inter_M’₁和文本模态样本数据的第二加权特征Inter_M’₃，得到第一融合特征Inter_M’。

分类模型720根据第一融合特征Inter_M’进行分类，得到样本的情感分类结果。

图7中所示的示例中，多模态样本数据701包括2个单模态样本数据。应该理解，多模态样本数据还可以包含3个或3个以上的单模态样本数据。图7中的情感分类模型对包含3个或3个以上的单模态样本数据的处理方式，与该情感分类模型对多模态样本数据701的处理方式类似，本公开在此不再赘述。

图8是根据本公开一个实施例的确定对象情感的装置的框图。

如图8所示，该装置800包括第一加权模块810、第一融合模块820和第一分类模块830。

第一加权模块810，用于针对目标对象的多模态数据中每个单模态数据，利用单模态数据的第一权重对单模态数据的特征进行加权，得到每个单模态数据的第一加权特征；多模态数据包括多个单模态数据。

第一融合模块820，用于根据单模态数据的第一权重，利用特征融合模型对多个单模态数据的第一加权特征进行融合，得到第一融合特征。

第一分类模块830，用于利用分类模型对第一融合特征进行分类，得到目标对象的情感分类结果。

在一些实施例中，该装置800还包括：第一权重获得模块，用于利用第一权重模型对目标对象的多模态数据进行处理，得到多模态数据中每个单模态数据的第一权重。特征融合模型包括第一特征融合网络和第二特征融合网络；第一融合模块包括：第一融合单元，用于利用第一特征融合网络对多个单模态数据的第一加权特征进行融合，得到第二融合特征；第一权重获得单元，用于利用第二权重模型对多个单模态数据的第一权重和第二融合特征进行处理，得到单模态数据的第二权重；第一加权单元，针对每个单模态数据的第一加权特征，利用该单模态数据的第二权重对该单模态数据的第一加权特征进行加权，得到每个单模态数据的第二加权特征；第二融合单元，用于利用第二特征融合网络对多个单模态数据的第二加权特征进行融合，得到第一融合特征。

在一些实施例中，第二权重模型可以实现为：

其中，Inter_An为第n个单模态数据的第二权重，W_n为第n个单模态数据的第一权重，W_j为单模态数据的第一权重，n＝1，……，N，j＝1，……，N，N为多模态数据中单模态数据的数量，Z为第二融合特征，relu(*)为线性整流函数，F(*)为任意函数。

在一些实施例中，特征融合模型还包括特征转换网络，该装置800还包括：第一特征提取模块，用于利用特征提取模型对单模态数据进行特征提取，得到单模态数据的初始特征序列；第一转换模块，用于利用特征转换网络对单模态数据的初始特征序列进行转换，得到单模态数据的高维特征；第二权重获得模块，用于利用第三权重模型对单模态数据的高维特征进行处理，得到单模态数据的第三权重；第二加权模块，用于利用单模态数据的第三权重对单模态数据的高维特征进行加权，得到单模态数据的特征。

在一些实施例中，多模态数据包括图像模态数据，特征提取模型包括图像提取网络；第一特征提取模块包括：第一计算单元，用于计算图像模态数据中每个图像帧与第一图像帧之间的相似度，将图像模态数据中与第一图像帧的相似度小于预设相似度阈值的图像帧和第一图像帧作为目标帧；第一特征提取单元，用于利用图像提取网络对目标帧进行特征提取，得到图像模态数据的初始特征序列。

在一些实施例中，多模态数据包括音频模态数据，特征提取模型包括音频提取网络；第一特征提取模块包括：第二特征提取单元，用于利用音频提取网络对音频模态数据进行特征提取，得到音频模态数据的初始特征序列。

在一些实施例中，多模态数据包括文本模态数据，文本模态数据包括以下至少之一：根据多模态数据的字幕得到的文本；根据多模态数据的音频得到的文本；根据多模态数据的图像得到的文本；其中，特征提取模型包括文本提取网络；第一特征提取模块包括：第一转换单元，用于将文本模态数据转换为词向量；第三特征提取单元，用于利用文本提取网络对词向量进行特征提取，得到文本模态数据的初始特征序列。

图9是根据本公开一个实施例的情感分类模型的训练装置的框图。

如图9所示，该装置900包括第三加权模块910、第二融合模块920、第二分类模块930和训练模块940，情感分类模型包括特征融合模型和分类模型。

第三加权模块910，用于针对多模态样本数据中每个单模态样本数据，利用单模态样本数据的第一权重对单模态样本数据的特征进行加权，得到每个单模态样本数据的第一加权特征；多模态样本数据包括多个单模态样本数据和用于表征多模态样本数据情感的标签。

第二融合模块920，用于根据单模态样本数据的第一权重，利用特征融合模型对多个单模态样本数据的第一加权特征进行融合，得到第一融合特征。

第二分类模块930，用于利用分类模型对第一融合特征进行分类，得到样本的情感分类结果。

训练模块940，用于根据样本的情感分类结果和标签，训练情感分类模型。

在一些实施例中，情感分类模型还包括第一权重模型，该装置900还包括：第三权重获得模块，用于利用第一权重模型对多模态样本数据进行处理，得到多模态样本数据中每个单模态样本数据的第一权重。特征融合模型包括第一特征融合网络和第二特征融合网络；情感分类模型还包括第二权重模型，第二融合模块包括：第三融合单元，用于利用第一特征融合网络对多个单模态样本数据的第一加权特征进行融合，得到第二融合特征；第二权重获得单元，用于利用第二权重模型对多个单模态样本数据的第一权重和第二融合特征进行处理，得到单模态样本数据的第二权重；第二加权单元，用于针对每个单模态样本数据的第一加权特征，利用该单模态样本数据的第二权重对该单模态样本数据的第一加权特征进行加权，得到每个单模态样本数据的第二加权特征；第四融合单元，用于利用第二特征融合网络对多个单模态样本数据的第二加权特征进行融合，得到第一融合特征。

在一些实施例中，第二权重模型可以实现为以下等式：Inter_A’_n＝F′(Softmax(W’_n*relu(W’_j*Z’)))，其中，Inter_A’_n为第n个单模态样本数据的第二权重，W’_n为第n个单模态样本数据的第一权重，W’_j为单模态样本数据的第一权重，n＝1，……，N，j＝1，……，N，N为多模态样本数据中单模态样本数据的数量，Z’为第二融合特征，relu(*)为线性整流函数，F′(*)为任意函数。

在一些实施例中，情感分类模型还包括特征提取模型、第三权重模型，特征融合模型还包括特征转换网络，该装置900还包括：第二特征提取模块，用于利用特征提取模型对单模态样本数据进行特征提取，得到单模态样本数据的初始特征序列；第二转换模块，用于利用特征转换网络对单模态样本数据的初始特征序列进行转换，得到单模态样本数据的高维特征；第四权重获得模块，用于利用第三权重模型对单模态样本数据的高维特征进行处理，得到单模态样本数据的第三权重；第四加权模块，用于利用单模态样本数据的第三权重对单模态样本数据的高维特征进行加权，得到单模态样本数据的特征。

在一些实施例中，训练模块包括：训练单元，用于根据样本的情感分类结果和标签，调整第一权重模型、第二权重模型、第三权重模型的参数。

在一些实施例中，多模态样本数据包括图像模态样本数据，第二特征提取模型包括图像提取网络。第二特征提取模块包括：第二计算单元，用于计算图像模态样本数据中每个图像帧与第一图像帧之间的相似度，将图像模态样本数据中与第一图像帧的相似度小于预设相似度阈值的图像帧和第一图像帧作为目标帧；第四特征提取单元，用于利用图像提取网络对目标帧进行特征提取，得到图像模态样本数据的初始特征序列。

在一些实施例中，多模态样本数据包括音频模态样本数据，第二特征提取模型包括音频提取网络；第二特征提取模块包括：第五特征提取单元，用于利用音频提取网络对音频模态样本数据进行特征提取，得到音频模态样本数据的初始特征序列。

在一些实施例中，多模态样本数据包括文本模态样本数据，文本模态样本数据包括以下至少之一：根据多模态样本数据的字幕得到的文本；根据多模态样本数据的音频得到的文本；根据多模态样本数据的图像得到的文本；其中，第二特征提取模型包括文本提取网络；特征提取模块包括：第二转换单元，用于将文本模态样本数据转换为词向量；第六特征提取单元，用于利用文本提取网络对词向量进行特征提取，得到文本模态样本数据的初始特征序列。

本公开的技术方案中，所涉及的多模态数据或多模态样本数据的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如确定对象情感的方法和/或情感分类模型的训练方法。例如，在一些实施例中，确定对象情感的方法和/或情感分类模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的确定对象情感的方法和/或情感分类模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行确定对象情感的方法和/或情感分类模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种确定对象情感的方法，包括：

针对目标对象的多模态数据中每个单模态数据，利用所述单模态数据的第一权重对所述单模态数据的特征进行加权，得到所述每个单模态数据的第一加权特征；所述多模态数据包括多个单模态数据；

根据所述单模态数据的第一权重，利用特征融合模型对多个所述单模态数据的第一加权特征进行融合，得到第一融合特征；

利用分类模型对所述第一融合特征进行分类，得到所述目标对象的情感分类结果。

2.根据权利要求1所述的方法，还包括：

利用第一权重模型对所述多模态数据进行处理，得到所述多模态数据中每个单模态数据的第一权重；

其中，所述特征融合模型包括第一特征融合网络和第二特征融合网络；

所述根据所述单模态数据的第一权重，利用特征融合模型对多个所述单模态数据的第一加权特征进行融合，得到第一融合特征包括：

利用所述第一特征融合网络对多个所述单模态数据的第一加权特征进行融合，得到第二融合特征；

利用第二权重模型对多个所述单模态数据的第一权重和所述第二融合特征进行处理，得到所述单模态数据的第二权重；

针对每个单模态数据的第一加权特征，利用该单模态数据的第二权重对该单模态数据的第一加权特征进行加权，得到每个单模态数据的第二加权特征；

利用所述第二特征融合网络对多个所述单模态数据的第二加权特征进行融合，得到所述第一融合特征。

3.根据权利要求2所述的方法，其中，所述第二权重模型实现为：

Inter_A_n＝F(Softmax(W_n*relu(W_j*Z)))

其中，Inter_A_n为第n个所述单模态数据的第二权重，W_n为第n个所述单模态数据的第一权重，W_j为所述单模态数据的第一权重，n＝1，……，N，j＝1，……，N，N为所述多模态数据中单模态数据的数量，Z为所述第二融合特征，relu(*)为线性整流函数，F(*)为任意函数。

4.根据权利要求2或3所述的方法，其中，所述特征融合模型还包括特征转换网络，

所述方法还包括：

利用特征提取模型对所述单模态数据进行特征提取，得到所述单模态数据的初始特征序列；

利用所述特征转换网络对所述单模态数据的初始特征序列进行转换，得到所述单模态数据的高维特征；

利用第三权重模型对所述单模态数据的高维特征进行处理，得到所述单模态数据的第三权重；

利用所述单模态数据的第三权重对所述单模态数据的高维特征进行加权，得到所述单模态数据的特征。

5.根据权利要求4所述的方法，其中，所述多模态数据包括图像模态数据，所述特征提取模型包括图像提取网络；

所述利用特征提取模型对所述单模态数据进行特征提取，得到所述单模态数据的初始特征序列包括：

计算所述图像模态数据中每个图像帧与第一图像帧之间的相似度，将所述图像模态数据中与所述第一图像帧的相似度小于预设相似度阈值的图像帧和所述第一图像帧作为目标帧；

利用所述图像提取网络对所述目标帧进行特征提取，得到所述图像模态数据的初始特征序列。

6.根据权利要求4所述的方法，其中，所述多模态数据包括音频模态数据，所述特征提取模型包括音频提取网络；

利用所述音频提取网络对所述音频模态数据进行特征提取，得到所述音频模态数据的初始特征序列。

7.根据权利要求4所述的方法，其中，所述多模态数据包括文本模态数据，所述文本模态数据包括以下至少之一：

根据所述多模态数据的字幕得到的文本；

根据所述多模态数据的音频得到的文本；

根据所述多模态数据的图像得到的文本；

其中，所述特征提取模型包括文本提取网络；所述利用特征提取模型对所述单模态数据进行特征提取，得到所述单模态数据的初始特征序列包括：

将所述文本模态数据转换为词向量；

利用所述文本提取网络对所述词向量进行特征提取，得到所述文本模态数据的初始特征序列。

8.一种情感分类模型的训练方法，所述情感分类模型包括特征融合模型和分类模型，包括：

针对多模态样本数据中每个单模态样本数据，利用所述单模态样本数据的第一权重对所述单模态样本数据的特征进行加权，得到所述每个单模态样本数据的第一加权特征；所述多模态样本数据包括多个单模态样本数据和用于表征所述多模态样本数据情感的标签；

根据所述单模态样本数据的第一权重，利用所述特征融合模型对多个所述单模态样本数据的第一加权特征进行融合，得到第一融合特征；

利用所述分类模型对所述第一融合特征进行分类，得到样本的情感分类结果；

根据所述样本的情感分类结果和所述标签，训练所述情感分类模型。

9.根据权利要求8所述的方法，其中，所述情感分类模型还包括第一权重模型；

还包括：

利用所述第一权重模型对所述多模态样本数据进行处理，得到所述多模态样本数据中每个单模态样本数据的第一权重；

所述情感分类模型还包括第二权重模型，所述根据所述单模态样本数据的第一权重，利用所述特征融合模型对多个所述单模态样本数据的第一加权特征进行融合，得到第一融合特征包括：

利用所述第一特征融合网络对多个所述单模态样本数据的第一加权特征进行融合，得到第二融合特征；

利用所述第二权重模型对多个所述单模态样本数据的第一权重和所述第二融合特征进行处理，得到所述单模态样本数据的第二权重；

针对每个单模态样本数据的第一加权特征，利用该单模态样本数据的第二权重对该单模态样本数据的第一加权特征进行加权，得到每个单模态样本数据的第二加权特征；

利用所述第二特征融合网络对多个所述单模态样本数据的第二加权特征进行融合，得到所述第一融合特征。

10.根据权利要求9所述的方法，其中，所述第二权重模型实现为：

Inter_A’_n＝F′(Softmax(W’_n*relu(W’_j*Z’)))

其中，Inter_A’_n为第n个所述单模态样本数据的第二权重，W’_n为第n个所述单模态样本数据的第一权重，W’_j为所述单模态样本数据的第一权重，n＝1，……，N，j＝1，……，N，N为所述多模态样本数据中单模态样本数据的数量，Z’为所述第二融合特征，relu(*)为线性整流函数，F′(*)为任意函数。

11.根据权利要求9或10所述的方法，其中，所述情感分类模型还包括特征提取模型、第三权重模型，所述特征融合模型还包括特征转换网络，

所述方法还包括：

利用所述特征提取模型对所述单模态样本数据进行特征提取，得到所述单模态样本数据的初始特征序列；

利用所述特征转换网络对所述单模态样本数据的初始特征序列进行转换，得到所述单模态样本数据的高维特征；

利用所述第三权重模型对所述单模态样本数据的高维特征进行处理，得到所述单模态样本数据的第三权重；

利用所述单模态样本数据的第三权重对所述单模态样本数据的高维特征进行加权，得到所述单模态样本数据的特征。

12.根据权利要求11所述的方法，其中，所述根据所述样本的情感分类结果和所述标签，训练所述情感分类模型包括：

根据所述样本的情感分类结果和所述标签，调整所述第一权重模型、所述第二权重模型、所述第三权重模型的参数。

13.根据权利要求11所述的方法，其中，所述多模态样本数据包括图像模态样本数据，所述特征提取模型包括图像提取网络；所述利用所述特征提取模型对所述单模态样本数据进行特征提取，得到所述单模态样本数据的初始特征序列包括：

计算所述图像模态样本数据中每个图像帧与第一图像帧的相似度，将所述图像模态数据中与所述第一图像帧的相似度小于预设相似度阈值的图像帧和所述第一图像帧作为目标帧；

利用所述图像提取网络对所述目标帧进行特征提取，得到所述图像模态样本数据的初始特征序列。

14.根据权利要求11所述的方法，其中，所述多模态样本数据包括音频模态样本数据，所述特征提取模型包括音频提取网络；所述利用所述特征提取模型对所述单模态样本数据进行特征提取，得到所述单模态样本数据的初始特征序列包括：

利用所述音频提取网络对所述音频模态样本数据进行特征提取，得到所述音频模态样本数据的初始特征序列。

15.根据权利要求11所述的方法，其中，所述多模态样本数据包括文本模态样本数据序列，所述文本模态样本数据包括以下至少之一：

根据所述多模态样本数据的字幕得到的文本；

根据所述多模态样本数据的音频得到的文本；

根据所述多模态样本数据的图像得到的文本；

其中，所述特征提取模型包括文本提取网络；所述利用所述特征提取模型对所述单模态样本数据进行特征提取，得到所述单模态样本数据的初始特征序列包括：

将所述文本模态样本数据转换为词向量；

利用所述文本提取网络对所述词向量进行特征提取，得到所述文本模态样本数据的初始特征序列。

16.一种确定对象情感的装置，包括：

第一加权模块，用于针对目标对象的多模态数据中每个单模态数据，利用所述单模态数据的第一权重对所述单模态数据的特征进行加权，得到所述每个单模态数据的第一加权特征；所述多模态数据包括多个单模态数据；

第一融合模块，用于根据所述单模态数据的第一权重，利用特征融合模型对多个所述单模态数据的第一加权特征进行融合，得到第一融合特征；

第一分类模块，用于利用分类模型对所述第一融合特征进行分类，得到所述目标对象的情感分类结果。

17.一种情感分类模型的训练装置，所述情感分类模型包括特征融合模型和分类模型，包括：

第三加权模块，用于针对多模态样本数据中每个单模态样本数据，利用所述单模态样本数据的第一权重对所述单模态样本数据的特征进行加权，得到所述每个单模态样本数据的第一加权特征；所述多模态样本数据包括多个单模态样本数据和用于表征所述多模态样本数据情感的标签；

第二融合模块，用于根据所述单模态样本数据的第一权重，利用所述特征融合模型对多个所述单模态样本数据的第一加权特征进行融合，得到第一融合特征；

第二分类模块，用于利用所述分类模型对所述第一融合特征进行分类，得到样本的情感分类结果；

训练模块，用于根据所述样本的情感分类结果和所述标签，训练所述情感分类模型。

18.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-15中任一项所述的方法。

19.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-15中任一项所述的方法。

20.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-15中任一项所述的方法。