CN114626430B

CN114626430B - 情绪识别模型的训练方法、情绪识别方法、设备及介质

Info

Publication number: CN114626430B
Application number: CN202111659156.7A
Authority: CN
Inventors: 王晓梅
Original assignee: Huayuan Computing Technology Shanghai Co ltd
Current assignee: Huayuan Computing Technology Shanghai Co ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-10-18
Anticipated expiration: 2041-12-30
Also published as: CN114626430A

Abstract

本发明公开了一种情绪识别模型的训练方法、情绪识别方法、设备及介质。该方法基于F‑Transformer结构实现，F‑Transformer结构包括内容编码器、两个特征编码结构及标签解码器，两个特征编码结构分别与内容编码器串联。该训练方法包括以下步骤：获取目标对象的训练集，所述训练集包括若干图像样本；对于每一图像样本，获取第一图像信息及第二图像信息；将所述第一图像信息及所述第二图像信息分别作为所述的F‑Transformer结构的两个特征编码结构的输入，所述图像样本对应的预设情绪信息作为输出进行模型训练以获取情绪识别模型。本发明摆脱了对传统的卷积神经网络结构的依赖，利用自行构建的F‑Transformer结构可以对采集的图像样本中的不同的信息进行深度融合利用，提高了模型训练的效果。

Description

情绪识别模型的训练方法、情绪识别方法、设备及介质

技术领域

本发明涉及图像处理领域，特别涉及一种情绪识别模型的训练方法、情绪识别方法、设备及介质。

背景技术

现有情绪识别技术大多依赖预训练的卷积神经模型来提取视觉特征，这样模型的结构大都固定，并且对新数据集的适应性较差。

此外，目前情绪识别技术大部分依赖性图像/视频中的单一的人脸信息，大量其他信息被忽略。

由此，一方面采集的数据没有得到充分利用，另一方面训练出来的模型对情绪识别的准确度有限。

发明内容

本发明要解决的技术问题是为了克服现有技术中情绪识别技术所使用的模型结构较为固定，并且训练的过程中采集的数据所利用的信息较为单一，导致采集的数据没有得到充分利用，另一方面训练出来的模型对情绪识别的准确度有限缺陷，提供一种基于新的模型结构，并且利用多种信息对新的模型结构中不同模块进行训练，从而可以有效提高情绪识别的准确性的情绪识别模型的训练方法、情绪识别方法、设备及介质。

本发明是通过下述技术方案来解决上述技术问题：

本发明提供了一种情绪识别模型的训练方法，其特征在于，所述情绪识别模型的训练方法基于F-Transformer结构实现，所述F-Transformer结构包括内容编码器、两个特征编码结构及标签解码器，所述两个特征编码结构分别与所述内容编码器串联；两个图像数据分别从所述两个特征编码结构输入，所述两个特征编码结构用于分别对所述两个图像数据进行特征提取以得到两个特征编码信息，所述内容编码器用于对所述两个特征编码信息进行融合处理以得到融合特征信息；所述标签解码器用于将所述融合特征信息作为输入并将对应的预设情绪标签作为输出进行模型训练以得到情绪识别模型。

所述训练方法包括以下步骤：

获取目标对象的训练集，所述训练集包括若干图像样本；

对于每一图像样本，获取第一图像信息及第二图像信息；

将所述第一图像信息及所述第二图像信息分别作为所述的F-Transformer结构的两个特征编码结构的输入，所述图像样本对应的预设情绪信息作为输出进行模型训练以获取情绪识别模型。

较佳地，所述F-Transformer结构还包括与所述内容编码器串联的标签解码器，所述标签解码器用于对所述融合特征信息及所述预设情绪信息所对应的语义信息进行解码处理。

较佳地，所述特征编码结构包括串联的W-MSA编码器及SW-MSA编码器。

较佳地，所述第一图像信息为人物信息；

所述获取第一图像信息的步骤包括以下步骤：

将所述图像样本输入至人物检测模型中以获取所述人物信息；和/或，

所述第二图像信息为场景信息。

较佳地，所述情绪识别模型的训练方法基于N个所述F-Transformer结构实现，n＝1，2…N，n表示第n个F-Transformer结构，所述将所述第一图像信息及所述第二图像信息分别作为所述的F-Transformer结构的两个特征编码结构的输入，所述图像样本对应的预设情绪标签作为输出的步骤具体包括以下步骤：

当n＝1时：将所述第一图像信息及所述第二图像信息分别作为所述F-Transformer结构的两个特征编码结构的输入，所述图像样本对应的预设情绪标签作为输出；

当n>1时，将第n-1个F-Transformer结构获取的两个特征编码信息分别作为第n个F-Transformer结构的两个特征编码结构输入，所述图像样本对应的预设情绪标签作为输出。

较佳地，所述进行模型训练的步骤后还包括：

对于每一个F-Transformer结构，根据对应的损失函数计算损失值；

根据所有计算出来的损失值获取最终损失值；

当所述最终损失值达到预设条件时，获取到情绪识别模型。

本发明还提供了一种情绪识别方法，所述情绪识别方法包括以下步骤：

获取待识别图像；

将所述待识别图像输入至情绪识别模型中以获取情绪预测结果，所述情绪识别模型为根据如上所述的情绪识别方法所得到的模型。

较佳地，所述情绪识别模型包括N个F-Transformer结构，所述将所述待识别图像输入至情绪识别模型中以获取情绪预测结果的步骤包括：

根据每一个F-Transformer的预测结果计算得到情绪预测结果；或，

将最后一个F-Transformer的预测结果作为情绪预测结果。

本发明还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的情绪识别模型的训练方法或如上所述的情绪识别方法。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的情绪识别模型的训练方法或如上所述的情绪识别方法。

本发明的积极进步效果在于：本发明摆脱了对传统的卷积神经网络结构的依赖，利用自行构建的F-Transformer结构可以对采集的图像样本中的不同的信息进行深度融合利用，提高了模型训练的效果。

本发明中，利用多个F-Transformer结构，不仅将容易被忽略的标签语义表示信息利用起来，也将多种信息进行了深度融合，还摆脱了对预训练的卷积神经网络结构的依赖，可以直接输入原始图像端到端地训练模型，从而提升了情绪识别模型训练效率的同时，也提高了训练出来的情绪识别模型的检测效果。

附图说明

图1为本发明实施例1中W-MSA编码器的编码流程图。

图2为本发明实施例1中SW-MSA编码器的编码流程图。

图3为本发明实施例1中内容编码器的编码流程图。

图4为本发明实施例1中标签解码器的编码流程图。

图5为本发明实施例1中基础F-Transformer结构的示意图。

图6为本发明实施例1中情绪识别模型的训练方法的流程图。

图7为本发明实施例1中多个F-Transformer结构的示意图。

图8为本发明实施例1中模型训练完成的确认方式的流程图。

图9为本发明实施例2中情绪识别方法的流程图。

图10为本发明实施例3中电子设备的模块示意图。

具体实施方式

为了便于理解，下面先对实施例中常出现的术语进行解释：

【包括的定义】如这里所使用的术语“具有”、“可以具有”、“包括”或“可以包括”指示本公开的相应功能、操作、元件等的存在，并且不限制其它的一个或多个功能、操作、元件等的存在。此外应当理解到，如这里所使用的术语“包括”或“具有”是指示在说明书中所描述的特点、数字、步骤、操作、元件、部件或其组合的存在，而不排除一个或多个其它特点、数字、步骤、操作、元件、部件或其组合的存在或增加。

【和/或的定义】如这里所使用的术语“A或B”、“A和/或B的至少之一”或“A和/或B的一个或多个”包括与其一起列举的单词的任意和所有组合。例如，“A或B”、“A和B的至少之一”或“A或B的至少之一”意味着(1)包括至少一个A，(2)包括至少一个B，或(3)包括至少一个A和至少一个B两者。

【第一、第二的定义】本申请实施例中出现的第一、第二等描述，仅作示意与区分描述对象之用，没有次序之分，也不表示本申请实施例中对设备个数的特别限定，不能构成对本申请实施例的任何限制。例如，可以将第一元件称为第二元件，而没脱离本公开的范围，类似地，可以将第二元件称为第一元件。

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

本实施例提供了一种情绪识别模型的训练方法，该情绪识别模型的训练方法基于F-Transformer结构实现，F-Transformer结构至少包括内容编码器、两个特征编码结构及标签解码器，两个特征编码结构分别与内容编码器串联；两个图像数据分别从两个特征编码结构输入，两个特征编码结构用于分别对两个图像数据进行特征提取以得到两个特征编码信息，内容编码器用于对两个特征编码信息进行融合处理以得到融合特征信息；标签解码器用于将融合特征信息作为输入并将对应的预设情绪标签作为输出进行模型训练以得到情绪识别模型。

本实施例中，两个特征编码结构中的每一个，都是由串联的W-MSA编码器及SW-MSA编码器组成的编码结构。应当理解，在其他实施例中，编码结构也可以使用其他可以提取特征信息的结构。

其中，W-MSA表示基于窗口的多头自注意力机制，W-MSA编码器具体的编码流程如图1所示。首先设置窗口大小w，将输入图像按照窗口大小分为m个窗，并将其按照像素值展开，可以理解为图中的X，经过不同的全连接层映射为K，Q，V。然后按照图中所示流程进入W-MSA、加和以及归一化、多层感知机、加和以及归一化等操作，直至输出Y。

而SW-MSA表示基于滑窗的多头自注意力机制，SW-MSA编码器具体编码流程如图2所示。其基本流程与W-MSA的编码流程类似，只是将其中的W-MSA操作变为SW-MSA操作。

内容编码器的编码流程可以参考图3，图中X表示人物的视觉特征，Y表示内容特征，经过标准的多头自注意力机制(MSA)融合后，依次进行加和、归一化、前馈网络等操作，最后输出融合特征信息Z。

在一种优选的实施方式中，F-Transformer结构还可以进一步包括与内容编码器串联的标签解码器，标签解码器用于对融合特征信息及预设情绪信息所对应的语义信息进行解码处理，从而可以将容易被忽略的标签语义表示信息利用起来，对多种信息进行进一步的融合。

其中，标签解码器的流程如图4所示。这里的情绪标签语义表示可以通过Bert模型或Glove等自然语言处理模型进行提取。在图4中，Y表示融合的视觉特征信息，X表示标签语义信息。首先将标签语义信息送入到多头注意力机制(MSA)中，输出的信息作为Q，而融合视觉特征信息作为K、V，再送入到另一个多头注意力机制中，此处的标签语义表示带有mask信息，即属于此类情绪类别的标签为1，其他置为0。然后将多层注意力机制输出的特征进行加和、归一化、前馈网络等操作。

经过F-Transformer块后得到的特征映射到情绪类别空间后，进一步获取在每个标签上的概率值，从而通过损失函数的到损失值。

图5示出了一种具体的实现方式中的F-Transformer结构的模块示意图，为了更好地理解本实施例，下面均以该结构作为基础，对本实施例进行说明，但应当理解的是，该结构不应当成为对本实施例的限定。

如图6所示，本实施例中的训练方法包括以下步骤：

步骤101、获取目标对象的训练集。

其中，训练集包括若干图像样本。

步骤102、对于每一图像样本，获取第一图像信息及第二图像信息。

在一种具体的实现方式中第一图像信息为人物信息，具体来说，步骤102中可以具体将图像样本输入至人物检测模型中以获取人物信息。第二图像信息为场景信息，如，可以将第一图像样本本身作为场景信息，也可以将第一图像样本中去除掉人物信息后的部分作为场景信息。

通过提取场景信息，可以从侧面提取出能够影响人物情绪的特征，如，下雨天相对于晴天而言，人的情绪会较低落，又如，在运动的场景下，人的情绪会更激动，又如，在图书馆的场景下，人的情绪会较平静。

应当理解，上述具体场景仅作为举例，不应当成为对本实施例的限定条件。

本实施例中，融合了融合人物信息及场景信息来对模型进行训练，一方面可以提高采集信息的利用度，避免资源被浪费，另一方面，也可以从多个角度进行特征提取，以训练出更有效的情绪识别模型。

步骤103、将第一图像信息及第二图像信息分别作为的F-Transformer结构的两个特征编码结构的输入，图像样本对应的预设情绪信息作为输出进行模型训练以获取情绪识别模型。

如：如图5所示，将第一图像信息(即检测出来的人物框)输入至第一个由W-MSA编码器与SW-MSA编码器组成的编码结构中，可以得到人物的特征编码信息，将第二图像信息(即图像样本本身)输入至第二个由W-MSA编码器与SW-MSA编码器组成的编码结构中，可以得到整体的特征编码信息，经由内容编码器对上述两个特征编码信息进行融合处理，可以得到融合编码信息，标签解码器对预设情绪信息所对应的语义表示及融合编码信息进行解码后，输出的信息映射到情绪类别空间，进一步获取在每个情绪类别上的概率值，送入到损失函数计算损失值，当损失值收敛且小于预设值时，则表明模型训练完成。

本实施例摆脱了对传统的卷积神经网络结构的依赖，利用自行构建的F-Transformer结构可以对采集的图像样本中的不同的信息进行深度融合利用，提高了模型训练的效果。

本实施例中，可以包括一个F-Transformer结构，也可以包括多个F-Transformer结构，该情绪识别模型的训练方法具体可以基于N个F-Transformer结构实现，n＝1，2…N，n表示第n个F-Transformer结构，步骤103具体可以包括以下步骤：

当n＝1时：将第一图像信息及第二图像信息分别作为F-Transformer结构的两个特征编码结构的输入，图像样本对应的预设情绪标签作为输出；

当n>1时，将第n-1个F-Transformer结构获取的两个特征编码信息分别作为第n个F-Transformer结构的两个特征编码结构输入，图像样本对应的预设情绪标签作为输出。

下面以N>2为例，对本实施例中的F-Transformer结构进行说明，图7示出了N>2时，F-Transformer结构之间的连接关系示意图，可以看到，从第二个F-Transformer结构(即F-Transformer块2)开始，其前一个F-Transformer结构中第一个特征编码结构(即第一个串联的W-MSA编码器及SW-MSA编码器组成的编码结构)输出的第一特征编码信息，及第二个特征编码结构(即第二个串联的W-MSA编码器及SW-MSA编码器组成的编码结构)输出的第二特征编码信息分别作为第二个F-Transformer结构中的第一个特征编码结构及第二个特征编码结构的输入，类似的，第二个F-Transformer结构输出的第一特征编码信息及第二特征编码信息分别作为第三个F-Transformer结构中第一个特征编码结构及第二个特征编码结构的输入，以此类推，直至n＝N。

具体而言，如图8所示，步骤103中，可以具体通过以下方式确定模型训练完成：

步骤1031、对于每一个F-Transformer结构，根据对应的损失函数计算损失值；

步骤1032、根据所有计算出来的损失值获取最终损失值。

步骤1033、当最终损失值达到预设条件时，获取到情绪识别模型。

本实施例中，通过将N个F-Transformer结构输出的损失值进行融合，获取模型整体损失值。通过迭代优化模型，不断降低损失值，直至模型收敛，即完成训练，进而可以基于多个F-Transformer结构训练出较优的模型

本实施例中，利用多个F-Transformer结构，不仅将容易被忽略的标签语义表示信息利用起来，也将多种信息进行了深度融合，还摆脱了对预训练的卷积神经网络结构的依赖，可以直接输入原始图像端到端地训练模型，从而提升了情绪识别模型训练效率的同时，也提高了训练出来的情绪识别模型的检测效果。

实施例2

本实施例提供了一种情绪识别方法，如图9所示，该情绪识别方法包括以下步骤：

步骤201、获取待识别图像；

步骤202、将待识别图像输入至情绪识别模型中以获取情绪预测结果。

其中，该情绪识别模型为根据实施例1中的情绪识别方法所得到的模型。

本实施例中，基于情绪识别模型，可以对待识别图像中的人物信息及场景信息进行特征提取，并对提取的特征进行深度融合，结合语意信息进行分析，进而可以准确检测到待识别图像的情绪信息。

其中，该情绪识别模型包括N个F-Transformer结构，由于每个F-Transformer结构都可以输出一个情绪类别预测值，因此步骤202具体可以根据每一个F-Transformer结构的预测结果综合计算得到情绪预测结果以提高准确度，如计算N个F-Transformer结构的结果的平均值，然后做出最终预测；也可以将最后一个F-Transformer的预测结果作为情绪预测结果以进一步提高计算的速度。

本实施例中，提供了预测结果获取的不同的方式，因此，可以提高实际操作过程中情绪识别模型运用的灵活性。

实施例3

本实施例提供一种电子设备，电子设备可以通过计算设备的形式表现(例如可以为服务器设备)，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中处理器执行计算机程序时可以实现实施例1中情绪识别模型的训练方法或实施例2中情绪识别方法。

图10示出了本实施例的硬件结构示意图，如图10所示，电子设备9具体包括：

至少一个处理器91、至少一个存储器92以及用于连接不同系统组件(包括处理器91和存储器92)的总线93，其中：

总线93包括数据总线、地址总线和控制总线。

存储器92包括易失性存储器，例如随机存取存储器(RAM)921和/或高速缓存存储器922，还可以进一步包括只读存储器(ROM)923。

存储器92还包括具有一组(至少一个)程序模块924的程序/实用工具925，这样的程序模块924包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器91通过运行存储在存储器92中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1中情绪识别模型的训练方法或实施例2中情绪识别方法。

电子设备9进一步可以与一个或多个外部设备94(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口95进行。并且，电子设备9还可以通过网络适配器96与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器96通过总线93与电子设备9的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备9使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例4

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例1中情绪识别模型的训练方法或实施例2中情绪识别方法。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现实施例1中情绪识别模型的训练方法或实施例2中情绪识别方法。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种情绪识别模型的训练方法，其特征在于，所述情绪识别模型的训练方法基于F-Transformer结构实现，所述F-Transformer结构包括内容编码器、两个特征编码结构及标签解码器，所述两个特征编码结构分别与所述内容编码器串联；两个图像数据分别从所述两个特征编码结构输入，所述两个特征编码结构用于分别对所述两个图像数据进行特征提取以得到两个特征编码信息，所述内容编码器用于对所述两个特征编码信息进行融合处理以得到融合特征信息；所述标签解码器用于将所述融合特征信息作为输入并将对应的预设情绪标签作为输出进行模型训练以得到情绪识别模型；

所述训练方法包括以下步骤：

获取目标对象的训练集，所述训练集包括若干图像样本；

对于每一图像样本，获取第一图像信息及第二图像信息；所述第一图像信息为人物信息；

2.如权利要求1所述的情绪识别模型的训练方法，其特征在于，所述F-Transformer结构还包括与所述内容编码器串联的标签解码器，所述标签解码器用于对所述融合特征信息及所述预设情绪信息所对应的语义信息进行解码处理。

3.如权利要求1所述的情绪识别模型的训练方法，其特征在于，所述特征编码结构包括串联的W-MSA编码器及SW-MSA编码器。

4.如权利要求1所述的情绪识别模型的训练方法，其特征在于，

所述获取第一图像信息包括以下步骤：

将所述图像样本输入至人物检测模型中以获取所述人物信息；

所述第二图像信息为场景信息。

5.如权利要求4所述的情绪识别模型的训练方法，其特征在于，所述情绪识别模型的训练方法基于N个所述F-Transformer结构实现，n＝1，2…N，n表示第n个F-Transformer结构，所述将所述第一图像信息及所述第二图像信息分别作为所述的F-Transformer结构的两个特征编码结构的输入，所述图像样本对应的预设情绪标签作为输出具体包括以下步骤：

6.如权利要求5所述的情绪识别模型的训练方法，其特征在于，所述进行模型训练的步骤后还包括：

根据所有计算出来的损失值获取最终损失值；

当所述最终损失值达到预设条件时，获取到情绪识别模型。

7.一种情绪识别方法，其特征在于，所述情绪识别方法包括以下步骤：

获取待识别图像；

将所述待识别图像输入至情绪识别模型中以获取情绪预测结果，所述情绪识别模型为根据如权利要求3-6任意一项所述的情绪识别方法所得到的模型。

8.如权利要求7所述的情绪识别方法，其特征在于，所述情绪识别模型包括N个F-Transformer结构，所述将所述待识别图像输入至情绪识别模型中以获取情绪预测结果的步骤包括：

将最后一个F-Transformer的预测结果作为情绪预测结果。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6任一项所述的情绪识别模型的训练方法或权利要求7所述的情绪识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6任一项所述的情绪识别模型的训练方法或权利要求7所述的情绪识别方法。