CN113827240B

CN113827240B - 情绪分类方法和情绪分类模型的训练方法、装置及设备

Info

Publication number: CN113827240B
Application number: CN202111111427.5A
Authority: CN
Inventors: 冯博豪; 刘雨鑫
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-09-22
Filing date: 2021-09-22
Publication date: 2024-03-22
Anticipated expiration: 2041-09-22
Also published as: CN113827240A

Abstract

本公开提供了一种情绪分类方法，涉及人工智能领域，具体涉及深度学习领域和图像处理领域。情绪分类方法的具体实现方案为：确定视频帧序列中第一目标对象的第一生理信号；基于第一生理信号，确定视频帧序列中的第一目标视频帧，其中，第一目标视频帧中第一目标对象的第一生理信号的变化满足预定变化条件；基于第一目标视频帧，确定针对第一目标对象的第一情绪分类信息；基于第一情绪分类信息，确定第一目标对象的情绪类别。

Description

情绪分类方法和情绪分类模型的训练方法、装置及设备

技术领域

本公开涉及人工智能技术领域，具体涉及深度学习技术领域和图像处理领域，尤其涉及情绪分类方法和情绪分类模型的训练方法、装置、电子设备和存储介质。

背景技术

随着人工智能的发展，通过对图像或视频处理来识别对象情绪的技术在多个领域得到发展。作为表情的一种，微表情由于表征速度快和不受意识控制而更能体现出对象的真实情绪。但微表情持续时间较短且较难观察的特点，为微表情的识别带来了较大的挑战。相关技术中通常采用人工对图像或视频进行分析，这无疑存在需要耗费大量人力、时间成本高且准确率难以保证的问题。

发明内容

基于此，本公开提供了一种提高分类精度和分类成本的情绪分类方法、情绪分类模型的训练方法方法、装置、设备和介质。

根据本公开的一个方面，提供了一种情绪分类方法，包括：确定视频帧序列中第一目标对象的第一生理信号；基于第一生理信号，确定视频帧序列中的第一目标视频帧，其中，第一目标视频帧中第一目标对象的第一生理信号的变化满足预定变化条件；基于第一目标视频帧，确定针对第一目标对象的第一情绪分类信息；以及基于第一情绪分类信息，确定第一目标对象的情绪类别。

根据本公开的另一个方面，提供了一种情绪分类模型的训练方法，其中，情绪分类模型包括信号提取网络和第一情绪识别网络；该训练方法包括：采用信号提取网络得到视频帧序列样本中第二目标对象的第二生理信号；其中，视频帧序列样本包括第二目标对象的实际情绪类别；基于第二生理信号，确定视频帧序列中的第二目标视频帧，其中，第二目标视频帧中第二目标对象的第二生理信号的变化满足预定变化条件；基于第二目标视频帧，采用第一情绪识别网络确定针对第二目标对象的第三情绪分类信息；基于第三情绪分类信息，确定第二目标对象的预测情绪类别；以及基于预测情绪类别和实际情绪类别，对情绪分类模型进行训练。

根据本公开的另一方面，提供了一种情绪分类方法，包括：第一信号获得模块，用于确定视频帧序列中第一目标对象的第一生理信号；第一目标帧确定模块，用于基于第一生理信号，确定视频帧序列中的第一目标视频帧，其中，第一目标视频帧中第一目标对象的第一生理信号的变化满足预定变化条件；第一分类模块，用于基于第一目标视频帧，确定针对第一目标对象的第一情绪分类信息；以及类别确定模块，用于基于第一情绪分类信息，确定第一目标对象的情绪类别。

根据本公开的另一方面，提供了一种情绪分类模型的训练装置，其中，情绪分类模型包括信号提取网络和第一情绪识别网络；该训练装置包括：第二信号获得模块，用于采用信号提取网络得到视频帧序列样本中第二目标对象的第二生理信号；其中，视频帧序列样本包括第二目标对象的实际情绪类别；第二目标帧确定模块，用于基于第二生理信号，确定视频帧序列中的第二目标视频帧，其中，第二目标视频帧中第二目标对象的第二生理信号的变化满足预定变化条件；第三分类模块，用于基于第二目标视频帧，采用第二情绪识别网络确定针对第二目标对象的第三情绪分类信息；类别预测模块，用于基于第三情绪分类信息，采用分类网络确定第二目标对象的预测情绪类别；以及模型训练模块，用于基于预测情绪类别和实际情绪类别，对情绪分类模型进行训练。

根据本公开的另一个方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提供的情绪分类方法和/或情绪分类模型的训练方法。

根据本公开的另一个方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提供的情绪分类方法和/或情绪分类模型的训练方法。

根据本公开的另一个方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开提供的情绪分类方法和/或情绪分类模型的训练方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的情绪分类方法和情绪分类模型的训练方法、装置的应用场景示意图；

图2是根据本公开实施例的情绪分类方法的流程示意图；

图3是根据本公开实施例的确定视频帧序列中目标对象的第一生理信号的原理示意图；

图4是根据本公开另一实施例的确定视频帧序列中目标对象的第一生理信号的原理示意图；

图5是根据本公开实施例的确定目标对象的第二情绪分类信息的原理示意图；

图6是根据本公开实施例的情绪分类模型的训练方法的流程示意图；

图7是根据本公开实施例的执行情绪分类方法和情绪分类模型的训练方法的系统结构图；

图8是根据本公开实施例的情绪分类装置的结构框图；

图9是根据本公开实施例的情绪分类模型的训练方法的结构框图；以及

图10是用来实施本公开实施例的情绪分类方法或情绪分类模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开提供了一种情绪分类方法，该方法包括信号确定阶段、第一情绪分类阶段、目标帧确定阶段、第二情绪分类阶段和类别确定阶段。在信号确定阶段中，确定视频帧序列中第一目标对象的第一生理信号。在第一情绪分类阶段中，基于第一生理信号，确定针对第一目标对象的第一情绪分类信息。在目标帧确定阶段中，基于第一生理信号，确定视频帧序列中的第一目标视频帧，其中，第一目标视频帧中第一目标对象的第一生理信号的变化满足预定变化条件。在第二情绪分类阶段，基于第一目标视频帧，确定针对第一目标对象的第二情绪分类信息。在类别确定阶段中，基于第一情绪分类信息和第二情绪分类信息，确定第一目标对象的情绪类别。

以下将结合图1对本公开提供的方法和装置的应用场景进行描述。

图1是根据本公开实施例的情绪分类方法和情绪分类模型的训练方法、装置的应用场景示意图。

如图1所示，该应用场景100可以包括终端设备110。

示例性地，该终端设备110可以为具有处理功能的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式电脑等。该终端设备110例如可以用于对视频数据120进行识别，以识别得到视频中目标对象的情绪类别130。其中，情绪类别130可以包括高兴、伤心、害怕、惊讶、愤怒等类别，本公开对此不做限定。其中，视频数据120可以为采集的视频中存在目标对象的视频片段。

在一实施例中，如图1所示，该应用场景100还可以包括服务器140。终端设备110可以通过网络与服务器140通信连接。服务器140可以是为终端设备110中应用程序的运行提供支持的各种后台管理服务器。

例如，该服务器140可以从数据库150中获取具有标签的视频数据，并根据获取的视频数据对情绪分类模型160进行训练。其中，标签指示视频数据中目标对象的情绪类别。在服务器140完成对情绪分类模型160的训练后，例如可以响应于终端设备110发送的请求，向终端设备110发送训练好的情绪分类模型160。如此，终端设备110可以根据接收到的情绪分类模型160来对视频数据120进行处理。

在一实施例中，终端设备110还可以将视频数据120发送给服务器140，由服务器140采用情绪分类模型对该视频数据120进行识别，实现对视频数据120中目标对象的情绪类别的确定。

需要说明的是，本公开所提供的情绪分类方法一般可以由终端设备110执行，也可以由服务器140执行。相应地，本公开所提供的情绪分类装置一般可以设置在终端设备110中，也可以设置在服务器140中。本公开所提供的情绪分类模型的训练方法一般可以由服务器140执行，或者由与服务器140通信连接的其他服务器执行。相应地，本公开所提供的情绪分类模型的训练装置一般可以设置在服务器140中，或者设置在与服务器140通信连接的其他服务器中。

应该理解，图1中的终端设备、服务器和数据库的数目和类型仅仅是示意性的。根据实现需要，可以具有任意数目和类型的终端设备、服务器和数据库。

以下将结合图1，通过以下图2～图5对本公开提供的情绪分类方法进行详细描述。

图2是根据本公开实施例的情绪分类方法的流程示意图。

如图2所示，该实施例的情绪分类方法200可以包括操作S210～操作S250。

在操作S210，确定视频帧序列中第一目标对象的第一生理信号。

根据本公开的实施例，视频帧序列可以由包括第一目标对象的视频片段中的各视频帧按时间顺序排列得到。其中，时间顺序可以为采集时间的顺序。

例如，该实施例可以采用信号提取网络来提取第一生理信号。例如，若第一生理信号为远程光电体积描记(Remote Photoplethysmography，RPPG)信号，则信号提取网络可以为基于RPPGNet构建的网络，具体地，该第一生理信号可以表示目标生理指标，该目标生理指标可以为心率。

例如，RPPGNet为由时空卷积网络、基于皮肤的注意力网络和分区约束网络构成的网络架构。该网络架构可以先将图像从RGB通道空间投影至另一种颜色空间，然后采用基于时间上下文的规范化方法去除不相关信息(例如由于光照变化或目标对象的运动引起的噪声)。该网络架构通过采用基于皮肤的注意力网络，有助于自适应地选择皮肤区域。通过分区约束网络，可以更好的学习到RPPG信号的表示。

该实施例可以从视频帧序列中提取第一生理信号，是由于当血液流经皮肤时，会引起皮肤对光线的吸收率的变化。基于这一点，可以通过识别目标对象的皮肤颜色的变化来进行心率的预测。

可以理解的是，上述第一生理信号和信号提取网络仅作为示例以利于理解本公开，本公开对此不做限定。只要该第一生理信号表示的目标生理指标可以随着目标对象微表情的变化而发生变化，且信号提取网络可以通过识别视频帧序列得到该目标生理指标即可。

在一实施例中，除了采用信号提取网络来提取第一生理信号外，例如还可以通过分析视频帧中目标对象的面部毛细血管的明暗变化，来确定第一生理信号。例如，可以采用光学心率传感器来测量目标对象的第一生理信号。在测量时，光学心率传感器的光线射向皮肤，该光线透过皮肤组织后反射回的光线被光敏传感器接收，并将反射回的光学信号转换成电信号，该电信号经过模数转换器转换后得到数字信号。该数字信号即为第一生理信号。

在操作S220，基于第一生理信号，确定视频帧序列中的第一目标视频帧。其中，第一目标视频帧中目标对象的第一生理信号的变化满足预定变化条件。

根据本公开的实施例，前述第一生理信号中例如可以包括与视频帧序列中的每个视频帧对应的目标生理指标值。该实施例可以根据目标生理指标值确定第一目标视频帧。例如，可以将对应的目标生理指标值的差值最大的两个视频帧之间所有视频帧作为第一目标视频帧。或者，可以将对应的目标生理指标值的差值大于预定差值的两个视频帧之间所有的视频帧作为第一目标视频帧。

在一实施例中，可以先确定第一生理信号的各个峰值和谷值。然后确定相邻的峰值和谷值之间的差值。将差值最大的峰值和谷值中，峰值对应的视频帧与谷值对应的视频帧之间的所有视频帧作为第一目标视频帧。

在一实施例中，还可以根据第一生理信号中各个目标生理指标值的平均值。随后设定该平均值的预定比例的取值为变化阈值。该实施例可以将对应的目标生理指标值的差值大于该变化阈值的两个视频帧之间的所有视频帧作为第一目标视频帧。

需要说明的是，两个视频帧之间的所有视频帧包括该两个视频帧，以及采集时间介于该两个视频帧的两个采集时间之间的视频帧。

在操作S230，基于第一目标视频帧，确定针对第一目标对象的第一情绪分类信息。

根据本公开的实施例，可以采用情绪识别网络来对第一目标视频帧进行处理，由情绪识别网络输出目标对象的情绪概率向量，该情绪概率向量中包括第一目标对象的情绪为多个预定情绪中每个情绪的概率值。

其中，情绪识别网络例如可以包括卷积神经网络或卷积神经网络与循环神经网络构成的网络框架等，本公开对此不做限定。

在一实施例中，例如可以采用微表情识别模型来确定第一情绪分类信息。例如可以将第一目标视频帧输入微表情识别模型，经由该微表情识别模型处理后，输出针对第一目标对象的第一情绪分类信息。其中，微表情识别模型例如采用强化长期循环递归神经网络(Enriched Long-term Recurrent Convolutional Network，ELRCN)。

其中，ELRCN的整体框架分为卷积网络和长短时记忆网络两个模块。将第一目标视频帧输入微表情识别模型，经由卷积网络模块提取深度空间特征，以将每个第一目标视频帧编码成特征向量。该特征向量输入长短时记忆网络模块，可以经由该长短时记忆网络模块在时域上学习目标视频帧的特征。该长短时记忆网络的输出经由全连接层处理后可以得到该第一情绪分类信息。

在操作S240，基于第一情绪分类信息，确定第一目标对象的情绪类别。

例如，若第一情绪分类信息为概率向量，该实施例可以将该概率向量中的最大概率值对应的预定情绪作为第一目标对象的情绪。

综上分析，该实施例的技术方案，在确定第一目标对象的情绪时，通过先根据生理信号从视频帧序列中挑选出能够更好的表征情绪变化的目标视频帧，基于目标视频帧来预测第一目标对象的情绪类别。相较于直接根据所有视频帧进行情绪类别的预测，可以在一定程度上提高预测结果的准确性。

根据本公开的实施例，还可以基于第一生理信号，来确定针对第一目标对象的第二情绪分类信息。这是由于生理信号(例如心率)，可以在一定程度上反映目标对象的微表情。该实施例可以将基于第一生理信号得到的第二情绪分类信息和基于第一目标视频帧确定的第一情绪分类信息相融合，根据融合结果来确定第一目标对象的情绪类别。通过该方式，可以进一步提高预测的第一目标对象的情绪类别的准确性。

例如，可以先基于第一生理信号，确定目标生理指标在预定长度的时间段内的均值、标准差、方差等特征值。然后根据该特征值与情绪之间的对应关系，确定目标对象的第二情绪分类信息。其中，特征值与情绪之间的对应关系可以预先根据经验设定，本公开对此不做限定。

例如，可以先采用残差神经网络(例如Residual Neural Network，ResNet)等提取第一生理信号的特征数据，然后再采用归一化函数(例如Softmax函数)等来对特征数据进行处理，得到目标对象的情绪属于多个预定情绪中每个情绪的概率。得到的多个概率以概率向量的形式构成第二情绪分类信息。

例如，在得到第一情绪分类信息和第二情绪分类信息后，可以对该第一情绪分类信息和第二情绪分类信息进行融合。根据融合结果确定第一目标对象的情绪类别。

例如，在第一情绪分类信息和第二情绪分类信息均为概率向量的情况下，该实施例可以根据预定权重，计算第一情绪分类信息和第二情绪分类信息的加权和。将表示加权和的概率向量中的各个概率值作为第一目标对象的情绪为多个预定情绪中每个情绪的概率值。其中，预定权重可以根据实际需求进行设定，也可以根据历史预测结果的统计结果来确定，本公开对此不做限定。

图3是根据本公开实施例的确定视频帧序列中目标对象的第一生理信号的原理示意图。

根据本公开的实施例，可以从视频数据中的各视频帧中截取目标对象所在区域的图像，并将该截图得到的图像作为视频帧序列中的一个视频帧。如此，在确定视频帧序列中第一目标对象的第一生理信号时，可以避免视频数据中除第一目标对象外其他物体对第一生理信号的干扰，从而可以提高确定的第一生理信号的准确性。

例如，如图3所示，对于视频数据310，该实施例300可以针对视频数据310包括的多个视频帧311～313中的每个视频帧，确定每个视频帧中目标对象所在的区域，作为第一目标区域。如此，如图3所示，可以得到第一目标区域321～323。随后从每个视频帧中截取该每个视频帧中第一目标区域的图像，可以得到针对第一目标对象的视频帧。例如，如图3所示，可以得到针对第一目标对象的视频帧331～333。该些针对目标对象的视频帧按序排列，即可得到视频帧序列。

例如，可以采用目标检测模型来确定第一目标对象所在的区域。其中，目标检测模型可以为单次查看检测器YOLO或多任务卷积神经网络(Multi-Task ConvolutionalNeural Network，MTCNN)等。其中，MTCNN由三个网络模块构成，该三个网络模块中的Pnet负责检测出目标对象的候选框，三个网络模块中的Rnet负责对Pnet检测得到的候选框进行精调，三个网络模块中的Onet负责输出目标对象的检测框。

根据本公开的实施例，在确定第一生理信号时，例如可以先从视频帧序列中截取目标对象的能够更好地表征生理信号的目标部位的图像，根据该目标部位的图像来确定生理信号。其中，目标部位例如可以为脸颊、鼻翼及鼻翼两侧等部位。该目标部位例如不包括眼睛、嘴巴等会引入运动噪声的部位。通过该方式，可以提高确定的生理信号的准确性。如，在生理信号为心率时，通过该方式可以得到更为纯净的心率。

例如，如图3所示，该实施例300中，针对视频帧序列包括的针对第一目标对象的多个视频帧331～333中的每一帧，可以先确定每一帧中第一目标对象的目标部位所在的区域，作为每一帧的第二目标区域。如图3所示，对于多个视频帧331～333，可以分别得到多个第二目标区域341～343。基于该第二目标区域341～343，可以确定视频帧序列中第一目标对象的第一生理信号350。

例如，可以采用关键点检测算法来确定目标对象的目标部位。其中，关键点检测算法例如可以采用Dlib库中的人脸标记算法或级联金字塔网络模型(Cascaded PyramidNetwork，CPN)等，本公开对此不做限定。在得到关键点后，可以将表示目标部位的关键点依次连接，将该些关键点所围成的区域作为第二目标区域。

图4是根据本公开另一实施例的确定视频帧序列中目标对象的第一生理信号的原理示意图。

根据本公开的实施例，可以采用信号提取网络RPPGNet等对视频帧中的视频帧进行识别，从而确定第一生理信号。如此，可以实现非接触式生理信号的获取。

根据本公开的实施例，还可以在确定第一生理信号之前，先对视频帧进行影像放大，以此便于提高对视频帧的识别准确性。这是由于在目标对象具有微表情时，对原版视频帧进行处理，很难提取到精准的目标生理指标的变化。

示例性地，可以采用影像放大算法对视频帧进行影像放大处理。其中，影像放大算法可以采用欧拉影像放大算法(Eulerian Video Magnification)。如此，如图4所示，该实施例400中，在确定第一生理信号时，可以先基于视频帧序列410中视频帧的排列顺序，以预定帧数为窗口长度划分视频帧序列410。然后对于划分得到的每个窗口内的视频帧组，对视频帧组中各视频帧的第二目标区域进行影像放大处理，得到一个处理后视频帧组。从而完成对视频帧的影像放大。

例如，该实施例400可以设置基于影像放大算法构建的影像放大网络420。将视频帧序列410依据排列顺序依次输入该影像放大网络420，直至输入的帧数达到预定帧数n。等待影像放大网络420处理得到一个处理后视频帧组430后，再将后续的视频帧依次输入影像放大网络420，直至将视频帧序列410中的所有视频帧均输入该影像放大网络420，且不再有处理后视频帧输出。其中，n可以根据实际需求进行设定，本公开对此不做限定。n的取值越大，则影像放大的精度越高。

在经影像放大得到处理后视频帧组后，可以基于得到的至少一个处理后视频帧组430，来确定第一目标对象的目标生理指标随时间变化的信息，作为第一生理信号。

例如，如图4所示，可将得到的至少一个处理后视频帧组430依次输入RPPGNet440，经由该RPPGNet 440处理后，输出第一目标对象的目标生理指标随时间变化的信息。该输出的信息例如可以为心率随时间变化的曲线图450。该曲线图450中包括与放大后视频帧组中每个视频帧对应的心率值。

图5是根据本公开实施例的确定目标对象的第二情绪分类信息的原理示意图。

根据本公开的实施例，在基于第一生理信号确定第二情绪分类信息时，除了考虑第一生理信号的特征数据外，例如还可以考虑第一生理信号中各个时间点的目标生理指标。通过该方式，可以在一定程度上提高确定的第二情绪分类信息的准确性。

示例性地，如图5所示，该实施例500中，在得到第一生理信号510后，可以将第一生理信号510输入残差神经网络ResNet 520中，由该ResNet 520从第一生理信号中提取得到特征数据530。随后可以从第一生理信号510中获取到各个时间点的目标生理指标，得到目标生理指标序列540。随后，可以将该第一生理信号中各个时间点的目标生理指标(即目标生理指标序列540)与特征数据530拼接后作为分类网络550的输入。经由该分类网络550输出针对第一目标对象的第二情绪分类信息。例如，分类网络550可以基于Softmax函数运行。

根据本公开的实施例，在基于第一生理信号确定第二情绪分类信息时，可以先对第一生理信号进行调整，具体可以剔除该第一生理信号中的噪声，以此提高得到的第二情绪分类信息的精度。其中，例如可以通过滤波处理或归一化处理等来实现对第一生理信号的调整。

为了便于实现前文描述的情绪分类方法，本公开还提供了一种情绪分类模型的训练方法，以采用训练得到的情绪分类模型来执行情绪分类方法。以下将结合图6对该情感分类模型的训练方法进行详细描述。

图6是根据本公开实施例的情绪分类模型的训练方法的流程示意图。

如图6所示，该实施例的情绪分类模型的训练方法600可以包括操作S610～操作S650。其中，情绪分类模型包括信号提取网络和第一情绪识别网络。

在操作S610，采用信号提取网络得到视频帧序列样本中第二目标对象的第二生理信号。

根据本公开的实施例，视频帧序列样本包括第二目标对象的实际情绪类别。该信号提取网络例如可以包括有前文描述的RPPGNET网络。视频帧序列样本与前文描述的视频帧序列类似，区别仅在于，该频帧序列样本具有标签，该标签指示实际情绪类别。第二生理信号与前文描述的第一生理信号类似，且该操作S610的实现原理与前文描述的操作S210的实现原理类似，在此不再赘述。

在操作S620，基于第二生理信号，确定视频帧序列中的第二目标视频帧。该操作S620的实现原理与前文描述的操作S220的实现原理类似，在此不再赘述。

在操作S630，基于第二目标视频帧，采用第一情绪识别网络确定针对第二目标对象的第三情绪分类信息。

其中，第一情绪识别网络例如可以为前文描述的ELRCN，该操作S630的实现原理与前文描述的操作S230的实现原理类似，在此不再赘述。

在操作S640，基于第三情绪分类信息，确定第二目标对象的预测情绪类别。该操作S640的实现原理与前文描述的操作S240的实现原理类似，在此不再赘述。

在操作S650，基于预测情绪类别和实际情绪类别，对情绪分类模型进行训练。

该操作S650可以先根据预测情绪类别和实际情绪类别，确定情绪分类模型的损失。然后采用反向传播算法来调整情绪分类模型中的网络参数，以最小化情绪分类模型的损失。其中，情绪分类模型的损失例如可以采用交叉熵损失函数等，本公开对此不做限定。

根据本公开的实施例，情绪分类模型例如还可以包括有第二情绪识别网络和情绪分类网络。其中，第二情绪识别网络例如可以由前文描述的残差神经网络和分类网络构成。基于第二生理信号，采用该第二情绪识别网络可以确定针对第二目标对象的第四情绪分类信息。其中，情绪分类网络可以为全连接层结构，在得到第三情绪分类信息和第四情绪分类信息后，将该第三情绪分类信息和第四情绪分类信息输入情绪分类网络，可以获得第二目标对象的预测情绪类别。

在一实施例中，该全连接层结构可以用于计算第三情绪分类信息和第四情绪分类信息的加权和，将该加权和作为概率向量输出。则根据该概率向量，可以确定预测情绪类别。

根据本公开的实施例，在训练该情绪分类模型时，例如可以采用从混合数据集中的视频样本中获取的视频帧序列来进行训练。其中，混合数据集中包括多个领域的视频样本。在将该情绪分类模型应用于某个具体地垂直领域时，还可以采用从目标领域的视频样本中获取的视频帧序列对该情绪分类模型进行二次训练。通过该方式，可以提高情绪分类模型在该垂直领域中的精度，提高预测的情绪类别的准确性。

其中，视频帧序列样本包括的实际情绪类别可以是人工标注得到的。通过该人工标注，可以保证样本质量，便于提高模型的训练精度。但伴随着样本数量的增多，人工工作量增加，标注员的精力不可避免的存在下降。这无疑会增加标注错误的幅度。因此，该实施例中，除了人工标注外，还可以采用生成式对抗网络(Generative Adversarial Networks，CAN)来生成大量的视频数据，并将生成的视频数据作为情绪分类模型的训练样本。

为了实现上述描述的情绪分类方法和情绪分类模型的训练方法，本公开提供了一种系统架构。以下将结合图7对该架构进行详细描述。

图7是根据本公开实施例的执行情绪分类方法和情绪分类模型的训练方法的系统架构图。

如图7所示，该实施例的系统架构700可以包括区域检测模块710、交互模块720、样本生成模块730、模型训练模块740、心率获取模块750、情绪识别模块760和系统存储模块770。

其中，区域检测模块710用于锁定视频帧中目标对象和目标对象的目标部位的区域。以目标对象为人脸为例，该区域检测模块710包括两部分的检测，一部分是检测人脸，另一部分是脸颊和鼻翼的连通区域的检测。

其中，心率获取模块750可以采用前述的RPPGNet来进行生理信号的获取。RPPGNet的输入为n帧人脸图像，可以直接输出RPPG信号。

其中，情绪识别模块760包括两个部分，一个部分是基于RPPG信号进行第二情绪分类信息的获取。另一部分是利用心率变化明显的视频帧进行图像分类，得到第一情绪分类信息。该情绪识别模块760还可以对得到的两个情绪分类信息以预定权重进行加和，得到最后的概率向量。其中，预定权重可以为超参数，可以通过已有样本的训练获得。

其中，模型训练模块740可以采用情绪识别模块760基于训练样本及训练样本的RPPG信号得到的概率向量与训练样本的标签，来对区域检测模块710、心率获取模块750和情绪识别模块760中模型的网络权重进行调整，实现对前文描述的情绪分类模型的训练。

其中，样本生成模块730用于采用前文描述的人工标注与CAN生成相结合的方式，生成训练样本。

其中，交互模块720的主要组成部分是显示器，该交互模块可以用于呈现微表情的分析结果，即情绪分类结果。系统使用者可以通过显示屏的触摸板，选择或者上传需要进行分析的视频数据。该交互模块720还可以用于显示训练过程中模型的评估指标。该交互模块720还可以用于提供参数设置界面，以供系统使用者设置模型的初始参数等。

其中，系统存储模块770主要用于对视频数据及训练后的模型进行存储。

基于本公开提供的情绪分类方法，本公开还提供了一种情绪分类装置。以下将结合图8对该装置进行详细描述。

图8是根据本公开实施例的情绪分类装置的结构框图。

如图8所示，该实施例的情绪分类装置800可以包括第一信号获得模块810、第一目标帧确定模块820、第一分类模块830和类别确定模块840。

第一信号获得模块810用于确定视频帧序列中第一目标对象的第一生理信号。在一实施例中，第一信号获得模块810可以用于执行前文描述的操作S210，在此不再赘述。

第一目标帧确定模块820用于基于第一生理信号，确定视频帧序列中的第一目标视频帧。其中，第一目标视频帧中第一目标对象的第一生理信号的变化满足预定变化条件。在一实施例中，第一目标帧确定模块820可以用于执行前文描述的操作S220，在此不再赘述。

第一分类模块830用于基于第一目标视频帧，确定针对第一目标对象的第一情绪分类信息。在一实施例中，第一分类模块830可以用于执行前文描述的操作S230，在此不再赘述。

类别确定模块840用于基于第一情绪分类信息，确定第一目标对象的情绪类别。在一实施例中，类别确定模块840可以用于执行前文描述的操作S240，在此不再赘述。

根据本公开的实施例，上述情绪分类装置800还可以包括第二分类模块，用于基于第一生理信号，确定针对第二目标对象的第二情绪分类信息。其中，上述类别确定模块840用于基于第一情绪分类信息和第二情绪分类信息，确定第一目标对象的情绪类别。

根据本公开的实施例，上述情绪分类装置800还可以包括区域确定模块、第一视频帧确定模块和序列确定模块。区域确定模块用于针对视频数据中的每个视频帧，确定每个视频帧中第一目标对象所在的区域，作为第一目标区域。第一视频帧确定模块用于从每个视频帧中截取第一目标区域的图像，得到针对第一目标对象的视频帧。序列确定模块用于将针对第一目标对象的视频帧按时序排列，得到视频帧序列。

根据本公开的实施例，上述第一信号获得模块810可以包括区域确定子模块和信号确定子模块。区域确定子模块用于针对视频帧序列中的每一帧，确定每一帧中第一目标对象的目标部位所在的区域，作为每一帧的第二目标区域。信号确定子模块用于基于第二目标区域，确定视频帧序列中第一目标对象的第一生理信号。

根据本公开的实施例，信号确定子模块可以包括序列划分单元、影像放大单元和信号确定单元。序列划分单元用于基于视频帧序列中视频帧的排列顺序，以预定帧数为窗口长度划分视频帧序列。影像放大单元用于对于划分得到的每个窗口内的视频帧组，对视频帧组中各视频帧的第二目标区域进行影像放大处理，得到一个处理后视频帧组。信号确定单元用于基于得到的至少一个处理后视频帧组，确定第一目标对象的目标生理指标随时间变化的信息，作为第一生理信号。

根据本公开的实施例，上述第二分类模块可以包括特征提取子模块和分类子模块。特征提取子模块用于提取第一生理信号的特征数据。分类子模块用于将第一生理信号中各个时间点的目标生理指标与特征数据拼接后输入分类模型，得到针对第一目标对象的第二情绪分类信息。其中，第一生理信号包括第一目标对象的目标生理指标随时间变化的信息。

根据本公开的实施例，上述第一分类模块830用于将第一目标视频帧输入微表情识别模型，得到针对第一目标对象的第一情绪分类信息。

根据本公开的实施例，上述类别确定模块840可以包括加权子模块和类别确定子模块。加权子模块用于基于预定权重，确定第一情绪分类信息和第二情绪分类信息的加权和。类别确定子模块用于基于加权和，确定第一目标对象的情绪类别。

基于本公开提供的情绪分类模型的训练方法，本公开还提供了一种情绪分类模型的训练装置。以下将结合图9对该装置进行详细描述。

图9是根据本公开实施例的情绪分类模型的训练装置的结构框图。

如图9所示，该实施例的情绪分类模型的训练装置900可以包括第二信号获得模块910、第二目标帧确定模块920、第三分类模块930、类别预测模块940和模型训练模块950。其中，情绪分类模型包括信号提取网络和第一情绪识别网络。

第二信号获得模块910用于采用信号提取网络得到视频帧序列样本中第二目标对象的第二生理信号；其中，视频帧序列样本包括第二目标对象的实际情绪类别。在一实施例中，第二信号获得模块910可以用于执行前文描述的操作S610，在此不再赘述。

第二目标帧确定模块920用于基于第二生理信号，确定视频帧序列中的第二目标视频帧。其中，第二目标视频帧中第二目标对象的第二生理信号的变化满足预定变化条件。在一实施例中，第二目标帧确定模块920可以用于执行前文描述的操作S620，在此不再赘述。

第三分类模块930用于基于第二目标视频帧，采用第一情绪识别网络确定针对第二目标对象的第三情绪分类信息。在一实施例中，第三分类模块930可以用于执行前文描述的操作S630，在此不再赘述。

类别预测模块940用于基于第三情绪分类信息，采用分类网络确定第二目标对象的预测情绪类别。在一实施例中，类别预测模块940可以用于执行前文描述的操作S640，在此不再赘述。

模型训练模块950用于基于预测情绪类别和实际情绪类别，对情绪分类模型进行训练。在一实施例中，模型训练模块950可以用于执行前文描述的操作S650，在此不再赘述。

根据本公开的实施例，情绪分类模型还包括第二情绪识别网络和分类网络。上述情绪分类模型的训练装置900还可以包括第四分类模块，用于基于第二生理信号，采用第二情绪识别网络确定针对第二目标对象的第四情绪分类信息。上述类别预测模块940用于将第三情绪分类信息和第四情绪分类信息输入分类网络，获得第二目标对象的预测情绪类别。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的获取、收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图10示出了可以用来实施本公开实施例的情绪分类方法或情绪分类模型的训练方法的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如情绪分类方法或情绪分类模型的训练方法。例如，在一些实施例中，情绪分类方法或情绪分类模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的情绪分类方法或情绪分类模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行情绪分类方法或情绪分类模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中，服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种情绪分类方法，包括：

确定视频帧序列中第一目标对象的第一生理信号；

基于所述第一生理信号，确定所述视频帧序列中的第一目标视频帧，其中，所述第一目标视频帧中所述第一目标对象的第一生理信号的变化满足预定变化条件，使得所述第一目标视频帧是所述视频帧序列中更好地表征所述第一目标对象的情绪变化的视频帧；

基于所述第一目标视频帧，确定针对所述第一目标对象的第一情绪分类信息；以及

基于所述第一情绪分类信息，确定所述第一目标对象的情绪类别。

2.根据权利要求1所述的方法，还包括：

基于所述第一生理信号，确定针对所述第一目标对象的第二情绪分类信息；

其中，基于所述第一情绪分类信息，确定所述第一目标对象的情绪类别包括：基于所述第一情绪分类信息和所述第二情绪分类信息，确定所述第一目标对象的情绪类别。

3.根据权利要求1或2所述的方法，还包括：

针对视频数据中的每个视频帧，确定所述每个视频帧中所述第一目标对象所在的区域，作为第一目标区域；

从所述每个视频帧中截取所述第一目标区域的图像，得到针对所述第一目标对象的视频帧；以及

将针对所述第一目标对象的视频帧按时序排列，得到所述视频帧序列。

4. 根据权利要求3所述的方法，其中，所述确定视频帧序列中第一目标对象的第一生理信号包括：

针对所述视频帧序列中的每一帧，确定所述每一帧中所述第一目标对象的目标部位所在的区域，作为所述每一帧的第二目标区域；以及

基于所述第二目标区域，确定所述视频帧序列中第一目标对象的第一生理信号。

5.根据权利要求4所述的方法，其中，所述基于所述第二目标区域，确定所述视频帧序列中第一目标对象的第一生理信号包括：

基于所述视频帧序列中视频帧的排列顺序，以预定帧数为窗口长度划分所述视频帧序列；

对于划分得到的每个窗口内的视频帧组，对所述视频帧组中各视频帧的第二目标区域进行影像放大处理，得到一个处理后视频帧组；以及

基于得到的至少一个处理后视频帧组，确定所述第一目标对象的目标生理指标随时间变化的信息，作为所述第一生理信号。

6. 根据权利要求2所述的方法，其中，所述基于所述第一生理信号，确定针对所述第一目标对象的第二情绪分类信息包括：

提取所述第一生理信号的特征数据；以及

将所述第一生理信号中各个时间点的目标生理指标与所述特征数据拼接后输入分类网络，得到针对所述第一目标对象的第二情绪分类信息，

其中，所述第一生理信号包括所述第一目标对象的目标生理指标随时间变化的信息。

7.根据权利要求1所述的方法，其中，所述基于所述第一目标视频帧，确定针对所述第一目标对象的第一情绪分类信息包括：

将所述第一目标视频帧输入微表情识别模型，得到针对所述第一目标对象的第一情绪分类信息。

8. 根据权利要求2所述的方法，其中，所述基于所述第一情绪分类信息和所述第二情绪分类信息，确定所述第一目标对象的情绪类别包括：

基于预定权重，确定所述第一情绪分类信息和所述第二情绪分类信息的加权和；以及

基于所述加权和，确定所述第一目标对象的情绪类别。

9.一种情绪分类模型的训练方法，其中，所述情绪分类模型包括信号提取网络和第一情绪识别网络；所述方法包括：

采用所述信号提取网络得到视频帧序列样本中第二目标对象的第二生理信号；其中，所述视频帧序列样本包括所述第二目标对象的实际情绪类别；

基于所述第二生理信号，确定所述视频帧序列中的第二目标视频帧，其中，所述第二目标视频帧中所述第二目标对象的第二生理信号的变化满足预定变化条件，使得所述第二目标视频帧是所述视频帧序列中更好地表征所述第二目标对象的情绪变化的视频帧；

基于所述第二目标视频帧，采用所述第一情绪识别网络确定针对所述第二目标对象的第三情绪分类信息；

基于所述第三情绪分类信息，确定所述第二目标对象的预测情绪类别；以及

基于所述预测情绪类别和所述实际情绪类别，对所述情绪分类模型进行训练。

10.根据权利要求9所述的方法，其中，所述情绪分类模型还包括第二情绪识别网络和情绪分类网络；所述方法还包括：

基于所述第二生理信号，采用所述第二情绪识别网络确定针对所述第二目标对象的第四情绪分类信息；

所述基于所述第三情绪分类信息，确定所述第二目标对象的预测情绪类别包括：将所述第三情绪分类信息和所述第四情绪分类信息输入所述情绪分类网络，获得所述第二目标对象的预测情绪类别。

11.一种情绪分类装置，包括：

第一信号获得模块，用于确定视频帧序列中第一目标对象的第一生理信号；

第一目标帧确定模块，用于基于所述第一生理信号，确定所述视频帧序列中的第一目标视频帧，其中，所述第一目标视频帧中所述第一目标对象的第一生理信号的变化满足预定变化条件，使得所述第一目标视频帧是所述视频帧序列中更好地表征所述第一目标对象的情绪变化的视频帧；

第一分类模块，用于基于所述第一目标视频帧，确定针对所述第一目标对象的第一情绪分类信息；以及

类别确定模块，用于基于所述第一情绪分类信息，确定所述第一目标对象的情绪类别。

12.根据权利要求11所述的装置，还包括：

第二分类模块，用于基于所述第一生理信号，确定针对第二目标对象的第二情绪分类信息；

其中，所述类别确定模块用于：基于所述第一情绪分类信息和所述第二情绪分类信息，确定所述第一目标对象的情绪类别。

13.根据权利要求11或12所述的装置，还包括：

区域确定模块，用于针对视频数据中的每个视频帧，确定所述每个视频帧中所述第一目标对象所在的区域，作为第一目标区域；

第一视频帧确定模块，用于从所述每个视频帧中截取所述第一目标区域的图像，得到针对所述第一目标对象的视频帧；以及

序列确定模块，用于将针对所述第一目标对象的视频帧按时序排列，得到所述视频帧序列。

14. 根据权利要求13所述的装置，其中，所述第一信号获得模块包括：

区域确定子模块，用于针对所述视频帧序列中的每一帧，确定所述每一帧中所述第一目标对象的目标部位所在的区域，作为所述每一帧的第二目标区域；以及

信号确定子模块，用于基于所述第二目标区域，确定所述视频帧序列中第一目标对象的第一生理信号。

15.根据权利要求14所述的装置，其中，所述信号确定子模块包括：

序列划分单元，用于基于所述视频帧序列中视频帧的排列顺序，以预定帧数为窗口长度划分所述视频帧序列；

影像放大单元，用于对于划分得到的每个窗口内的视频帧组，对所述视频帧组中各视频帧的第二目标区域进行影像放大处理，得到一个处理后视频帧组；以及

信号确定单元，用于基于得到的至少一个处理后视频帧组，确定所述第一目标对象的目标生理指标随时间变化的信息，作为所述第一生理信号。

16. 根据权利要求12所述的装置，其中，所述第二分类模块包括：

特征提取子模块，用于提取所述第一生理信号的特征数据；以及

分类子模块，用于将所述第一生理信号中各个时间点的目标生理指标与所述特征数据拼接后输入分类模型，得到针对所述第一目标对象的第二情绪分类信息，

17.根据权利要求11所述的装置，其中，所述第一分类模块用于：

18. 根据权利要求12所述的装置，其中，所述类别确定模块包括：

加权子模块，用于基于预定权重，确定所述第一情绪分类信息和所述第二情绪分类信息的加权和；以及

类别确定子模块，用于基于所述加权和，确定所述第一目标对象的情绪类别。

19.一种情绪分类模型的训练装置，其中，所述情绪分类模型包括信号提取网络和第一情绪识别网络；所述装置包括：

第二信号获得模块，用于采用所述信号提取网络得到视频帧序列样本中第二目标对象的第二生理信号；其中，所述视频帧序列样本包括所述第二目标对象的实际情绪类别；

第二目标帧确定模块，用于基于所述第二生理信号，确定所述视频帧序列中的第二目标视频帧，其中，所述第二目标视频帧中所述第二目标对象的第二生理信号的变化满足预定变化条件，使得所述第二目标视频帧是所述视频帧序列中更好地表征所述第二目标对象的情绪变化的视频帧；

第三分类模块，用于基于所述第二目标视频帧，采用所述第一情绪识别网络确定针对所述第二目标对象的第三情绪分类信息；

类别预测模块，用于基于所述第三情绪分类信息，确定所述第二目标对象的预测情绪类别；以及

模型训练模块，用于基于所述预测情绪类别和所述实际情绪类别，对所述情绪分类模型进行训练。

20.根据权利要求19所述的装置，其中，所述情绪分类模型还包括第二情绪识别网络和情绪分类网络；所述装置还包括：

第四分类模块，用于基于所述第二生理信号，采用所述第二情绪识别网络确定针对所述第二目标对象的第四情绪分类信息；

所述类别预测模块用于将所述第三情绪分类信息和所述第四情绪分类信息输入所述情绪分类网络，获得所述第二目标对象的预测情绪类别。

21. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1~10中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1~10中任一项所述的方法。