CN117058405A

CN117058405A - 一种基于图像的情绪识别方法、系统、存储介质及终端

Info

Publication number: CN117058405A
Application number: CN202310807114.6A
Authority: CN
Inventors: 贾秀琴; 杨旗
Original assignee: Beijing Chaoyang Hospital
Current assignee: Beijing Chaoyang Hospital
Priority date: 2023-07-04
Filing date: 2023-07-04
Publication date: 2023-11-14
Anticipated expiration: 2043-07-04
Also published as: CN117058405B

Abstract

本申请公开了一种基于图像的情绪识别方法、系统、存储介质及终端，方法包括：接收来自摄像头针对目标对象所采集的待识别图像；将待识别图像输入预先训练的情绪识别模型中；预先训练的情绪识别模型是根据预先训练的Vision Transformer网络建立，并采用注意力图训练生成的，注意力图是根据原始图像生成的；输出待识别图像对应的情绪标签，并根据情绪标签确定目标对象的情绪。由于本申请在模型训练时采用了根据原始图像生成的注意力图进行训练，使得模型能提取到目标对象注意力关注区域的特征，增加了特征的关键信息；同时Vision Transformer网络可以进行全局特征提取，使得全局特征之间的联系增加；特征的关键信息提升以及全局特征间的联系增加能够提升模型在情绪识别的准确性。

Description

一种基于图像的情绪识别方法、系统、存储介质及终端

技术领域

本申请涉及智慧医疗技术领域以及机器学习技术领域，特别涉及一种基于图像的情绪识别方法、系统、存储介质及终端。

背景技术

病人的心理状态变化通常会随疾病的发展变幻无常，医护人员无法及时准确有效的了解病人的情绪变化，从而无法及时实施精准的情绪治疗。因此，及时准确对大量病人的心理状态进行收集处理分析显得格外重要。

目前，心理学家研究表明，当一个人的内心情绪发生变化时，人的身体姿态以及所目光关注的区域都会发生改变，然而现有的情绪识别算法没有注意到检测病人的注意力关注区域的特征，使得特征的关键信息降低；同时传统的卷积神经网络模型更注重局部特征提取，使得全局特征之间的联系减少；从而降低了情绪识别的准确性。

发明内容

本申请实施例提供了一种基于图像的情绪识别方法、系统、存储介质及终端。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键／重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

第一方面，本申请实施例提供了一种基于图像的情绪识别方法，方法包括：

接收来自摄像头针对目标对象所采集的待识别图像；

将待识别图像输入预先训练的情绪识别模型中；其中，预先训练的情绪识别模型是根据预先训练的Vision Transformer网络建立，并采用注意力图训练生成的，注意力图是根据原始图像生成的；

输出待识别图像对应的情绪标签，并根据情绪标签确定目标对象的情绪。

可选的，接收来自摄像头针对目标对象所采集的待识别原始图像之前，还包括：

建立情绪识别模型，情绪识别模型至少包括卷积神经网络、预先训练的VisionTransformer网络、openpose模型以及模型损失函数；

根据原始图像，生成人体图、人体姿态图以及注意力图，原始图像为模型训练集中任意一个图像；

根据卷积神经网络，提取人体姿态图对应的第一特征矩阵；

根据预先训练的Vision Transformer网络，提取人体图、原始图像以及注意力图各自对应的第二特征矩阵；

根据第一特征矩阵与多个第二特征矩阵进行特征融合以及特征压缩，得到每个原始图像的预测矩阵，并对每个原始图像的预测矩阵标注情绪标签；

将每个原始图像的预测矩阵及其情绪标签输入模型损失函数中，输出模型损失值；

当模型损失值到达最小时，生成预先训练的情绪识别模型；或者当模型损失值未到达最小时，将模型损失值进行反向传播更新情绪识别模型的模型参数；继续执行将每个原始图像的预测矩阵及其情绪标签输入模型损失函数中的步骤，直到情绪识别模型的模型参数到达最小。

可选的，根据原始图像，生成人体图、人体姿态图以及注意力图之前，还包括：

通过摄像头采集目标对象的图像；

在图像的数量到达预设阈值时，对图像进行预处理变换，得到模型训练样本；预处理变换至少包括添加噪声、角度翻转以及图像裁剪；

将模型训练样本按照预设比例进行划分，得到模型训练集、模型测试集以及模型验证集。

可选的，根据原始图像，生成人体图、人体姿态图以及注意力图，包括：

识别原始图像的人体边界框，得到人体图；

通过openpose模型，提取原始图像的18个人体关键点；

根据18个人体关键点，建立二维关键点位置矩阵，得到人体姿态图；

根据原始图像以及针对原始图像设置的先验显著图，生成注意力图；先验显著图为目标对象的目光所关注的区域和关注的目标。

可选的，根据第一特征矩阵与多个第二特征矩阵进行特征融合以及特征压缩，得到每个原始图像的预测矩阵，包括：

将原始图像对应的第二特征矩阵与注意力图对应的第二特征矩阵进行点乘处理，得到注意力特征矩阵；

将注意力特征矩阵与人体姿态图对应的第一特征矩阵、人体图对应的第二特征矩阵进行特征融合，得到目标融合特征；

将目标融合特征通过全连接层进行特征线性降维至预设参数值，以实现注意力特征矩阵的特征压缩，得到每个原始图像的预测矩阵。

可选的，模型损失函数的函数表达式为：

其中，为每个原始图像的预测矩阵，/>为情绪标签，/>为计算预测矩阵的先验值函数，/>为计算原始图像的预测矩阵与情绪标签之间的空间相似距离函数，/>为模型训练集的图像数量，/>为模型训练集中任意一个原始图像，/>为模型训练集中任意一个原始图像的先验值，/>为模型训练集中任意一个原始图像的预测矩阵和情绪标签之间的空间相似距离。

可选的，根据情绪标签确定目标对象的情绪，包括：

加载预先生成的情绪标签和情绪描述文本的映射关系表；

在预先生成的情绪标签和情绪描述文本的映射关系表中确定情绪标签对应的最终情绪描述文本；

将最终情绪描述文本作为目标对象的情绪。

第二方面，本申请实施例提供了一种基于图像的情绪识别系统，系统包括：

图像接收模块，用于接收来自摄像头针对目标对象所采集的待识别图像；

图像输入模块，用于将待识别图像输入预先训练的情绪识别模型中；其中，预先训练的情绪识别模型是根据预先训练的Vision Transformer网络建立，并采用注意力图训练生成的，注意力图是根据原始图像生成的；

情绪确定模块，用于输出待识别图像对应的情绪标签，并根据情绪标签确定目标对象的情绪。

第三方面，本申请实施例提供一种计算机存储介质，计算机存储介质存储有多条指令，指令适于由处理器加载并执行上述的方法步骤。

第四方面，本申请实施例提供一种终端，可包括：处理器和存储器；其中，存储器存储有计算机程序，计算机程序适于由处理器加载并执行上述的方法步骤。

本申请实施例提供的技术方案可以包括以下有益效果：

在本申请实施例中，基于图像的情绪识别系统首先接收来自摄像头针对目标对象所采集的待识别图像，然后将待识别图像输入预先训练的情绪识别模型中；预先训练的情绪识别模型是根据预先训练的Vision Transformer网络建立，并采用注意力图训练生成的，注意力图是根据原始图像生成的，最后输出待识别图像对应的情绪标签，并根据情绪标签确定目标对象的情绪。由于本申请在模型训练时采用了根据原始图像生成的注意力图进行训练，使模型能提取到目标对象注意力关注区域的特征，增加了特征的关键信息；同时Vision Transformer网络可进行全局特征提取，使得全局特征之间的联系增加；特征的关键信息提升以及全局特征间的联系增加能够提升模型在情绪识别的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本申请实施例提供的一种基于图像的情绪识别方法的流程示意图；

图2是本申请实施例提供的一种多种特征融合的融合过程示意图；

图3是本申请实施例提供的一种模型训练的训练过程示意图；

图4是本申请实施例提供的一种基于图像的情绪识别系统的结构示意图；

图5是本申请实施例提供的一种终端的结构示意图。

具体实施方式

以下描述和附图充分地示出本申请的具体实施方案，以使本领域的技术人员能够实践它们。

应当明确，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的系统和方法的例子。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请提供了一种基于图像的情绪识别方法、系统、存储介质及终端，以解决上述相关技术问题中存在的问题。本申请提供的技术方案中，由于本申请在模型训练时采用了根据原始图像生成的注意力图进行训练，使模型能提取到目标对象注意力关注区域的特征，增加了特征的关键信息；同时Vision Transformer网络可进行全局特征提取，使得全局特征之间的联系增加；特征的关键信息提升以及全局特征间的联系增加能够提升模型在情绪识别的准确性，下面采用示例性的实施例进行详细说明。

下面将结合附图1-附图3，对本申请实施例提供的基于图像的情绪识别方法进行详细介绍。该方法可依赖于计算机程序实现，可运行于基于冯诺依曼体系的基于图像的情绪识别系统上。该计算机程序可集成在应用中，也可作为独立的工具类应用运行。

请参见图1，为本申请实施例提供了一种基于图像的情绪识别方法的流程示意图。如图1所示，本申请实施例的方法可以包括以下步骤：

S101，接收来自摄像头针对目标对象所采集的待识别图像；

其中，摄像头是部署到情绪识别场所的图像采集设备上的摄像装置，情绪识别场所例如为医院的心理疾病治疗室，摄像装置可以是医生电脑的图像采集组件。目标对象可以是患者本人。

在一种可能的实现方式中，在进行基于图像的情绪识别中，医生通过预先启动安装在电脑上的情绪识别系统，并调整该电脑上的摄像头以采集包含患者的区域，在医生在和患者交谈过程中，摄像头实时针对目标对象采集待识别图像，电脑接收来自摄像头针对目标对象所采集的待识别图像。

S102，将待识别图像输入预先训练的情绪识别模型中；

其中，预先训练的情绪识别模型是根据预先训练的Vision Transformer网络建立，并采用注意力图训练生成的，注意力图是根据原始图像生成的；

其中，预先训练的情绪识别模型是可以识别出目标对象当前时刻情绪的数学模型，该模型至少包括、卷积神经网络、预先训练的Vision Transformer网络、openpose模型以及模型损失函数。预先训练的Vision Transformer网络是利用训练样本对现有的VisionTransformer神经网络进行训练后得到的。openpose模型可以提取目标对象的关键点，关键点例如：1鼻子，2脖子，3右肩，4右肘，5右腕，6左肩，7左肘，8左腕，9右髋，10右膝，11右踝，12左髋，13左膝，14左踝，15左眼，16右眼，17左耳，18右耳。

在本申请实施例中，在生成预先训练的情绪识别模型时，首先建立情绪识别模型，根据原始图像，生成人体图、人体姿态图以及注意力图，原始图像为模型训练集中任意一个图像，然后根据卷积神经网络，提取人体姿态图对应的第一特征矩阵，再根据预先训练的Vision Transformer网络，提取人体图、原始图像以及注意力图各自对应的第二特征矩阵，其次根据第一特征矩阵与多个第二特征矩阵进行特征融合以及特征压缩，得到每个原始图像的预测矩阵，并对每个原始图像的预测矩阵标注情绪标签，最后将每个原始图像的预测矩阵及其情绪标签输入模型损失函数中，输出模型损失值，以及当模型损失值到达最小时，生成预先训练的情绪识别模型；或者当模型损失值未到达最小时，将模型损失值进行反向传播更新情绪识别模型的模型参数；继续执行将每个原始图像的预测矩阵及其情绪标签输入模型损失函数中的步骤，直到情绪识别模型的模型参数到达最小。情绪标签为一个26维的one hot形式的编码。本申请通过Vision Transformer网络可以进行全局特征提取，使得全局特征之间的联系增加。

进一步地，在据原始图像，生成人体图、人体姿态图以及注意力图之前，首先通过摄像头采集目标对象的图像，然后在图像的数量到达预设阈值时，对图像进行预处理变换，得到模型训练样本；预处理变换至少包括添加噪声、角度翻转以及图像裁剪，最后将模型训练样本按照预设比例进行划分，得到模型训练集、模型测试集以及模型验证集。预设比例可以为6：2：2。

具体的，在根据原始图像，生成人体图、人体姿态图以及注意力图时，首先识别原始图像的人体边界框，得到人体图，再通过openpose模型，提取原始图像的18个人体关键点，然后根据18个人体关键点，建立二维关键点位置矩阵，得到人体姿态图，最后根据原始图像以及针对原始图像设置的先验显著图，生成注意力图；先验显著图为目标对象的目光所关注的区域和关注的目标。由于本申请在模型训练时采用了根据原始图像生成的注意力图进行训练，使得模型能提取到目标对象注意力关注区域的特征，增加了特征的关键信息。

具体的，在根据第一特征矩阵与多个第二特征矩阵进行特征融合以及特征压缩，得到每个原始图像的预测矩阵时，首先将原始图像对应的第二特征矩阵与注意力图对应的第二特征矩阵进行点乘处理，得到注意力特征矩阵，然后将注意力特征矩阵与人体姿态图对应的第一特征矩阵、人体图对应的第二特征矩阵进行特征融合，得到目标融合特征，最后将目标融合特征通过全连接层进行特征线性降维至预设参数值，以实现注意力特征矩阵的特征压缩，得到每个原始图像的预测矩阵。

例如图2所示，图2是本申请提供的一种预测矩阵生成过程的流程示意图，首先根据原始图，生成人体图、人体姿态图以及注意力图，然后将人体图、原始图以及注意力图输入预先训练的Vision Transformer网络提取用于表征特征的特征图，其次将原始图对应的特征图和注意力图对应的特征图进行点乘，得到注意力特征矩阵，再将注意力特征矩阵和人体姿态图对应的特征图以及人体图对应的特征图进行特征融合，之后通过全连接层进行特征压缩，以将特征线性降维到26，最后得到的预测结果为预测矩阵。

具体的，模型损失函数的函数表达式为：

进一步地，预测矩阵和情绪标签之间的空间相似距离的具体表达式为：

=/>，其中，/>为相似度矩阵损失函数的权重。

具体的，本申请可以在一块A100 GPU上进行了训练，一次样本训练的大小为8，训练步长为0.00001。循环进行了30个epoch。

进一步地，预先训练的情绪识别模型还包括图像处理模块。

在一种可能的实现方式中，在基于步骤S101得到待识别图像后，可将待识别图像输入预先训练的情绪识别模型中，该模型的图像处理模型首先将待识别图像进行处理，以得到待识别图像的第一人体图、第一人体姿态图以及第一注意力图，然后根据针对第一人体图、第一人体姿态图以及第一注意力图提取的特征，结合损失函数计算出待识别图像对应的情绪标签。

S103，输出待识别图像对应的情绪标签，并根据情绪标签确定目标对象的情绪。

在一种可能的实现方式中，在模型处理结束后，可输出待识别图像对应的情绪标签，然后加载预先生成的情绪标签和情绪描述文本的映射关系表，其次在预先生成的情绪标签和情绪描述文本的映射关系表中确定情绪标签对应的最终情绪描述文本，最后将最终情绪描述文本作为目标对象的情绪。

请参见图3，为本申请实施例提供了一种模型训练方法的流程示意图。如图3所示，本申请实施例的方法可以包括以下步骤：

S201，建立情绪识别模型，情绪识别模型至少包括卷积神经网络、预先训练的Vision Transformer网络、openpose模型以及模型损失函数；

S202，根据原始图像，生成人体图、人体姿态图以及注意力图，原始图像为模型训练集中任意一个图像；

S203，根据卷积神经网络，提取人体姿态图对应的第一特征矩阵；

S204，根据预先训练的Vision Transformer网络，提取人体图、原始图像以及注意力图各自对应的第二特征矩阵；

S205，根据第一特征矩阵与多个第二特征矩阵进行特征融合以及特征压缩，得到每个原始图像的预测矩阵，并对每个原始图像的预测矩阵标注情绪标签；

S206，将每个原始图像的预测矩阵及其情绪标签输入模型损失函数中，输出模型损失值；

S207，当模型损失值到达最小时，生成预先训练的情绪识别模型；或者当模型损失值未到达最小时，将模型损失值进行反向传播更新情绪识别模型的模型参数；继续执行将每个原始图像的预测矩阵及其情绪标签输入模型损失函数中的步骤，直到情绪识别模型的模型参数到达最小。

下述为本申请系统实施例，可以用于执行本申请方法实施例。对于本申请系统实施例中未披露的细节，请参照本申请方法实施例。

请参见图4，其示出了本申请一个示例性实施例提供的基于图像的情绪识别系统的结构示意图。该基于图像的情绪识别系统可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该系统1包括图像接收模块10、图像输入模块20、情绪确定模块30。

图像接收模块10，用于接收来自摄像头针对目标对象所采集的待识别图像；

图像输入模块20，用于将待识别图像输入预先训练的情绪识别模型中；其中，预先训练的情绪识别模型是根据预先训练的Vision Transformer网络建立，并采用注意力图训练生成的，注意力图是根据原始图像生成的；

情绪确定模块30，用于输出待识别图像对应的情绪标签，并根据情绪标签确定目标对象的情绪。

需要说明的是，上述实施例提供的基于图像的情绪识别系统在执行基于图像的情绪识别方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于图像的情绪识别系统与基于图像的情绪识别方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请还提供一种计算机可读介质，其上存储有程序指令，该程序指令被处理器执行时实现上述各个方法实施例提供的基于图像的情绪识别方法。

本申请还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各个方法实施例的基于图像的情绪识别方法。

请参见图5，为本申请实施例提供了一种终端的结构示意图。如图5所示，终端1000可以包括：至少一个处理器1001，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。

其中，通信总线1002用于实现这些组件之间的连接通信。

其中，用户接口1003可以包括显示屏（Display）、摄像头（Camera），可选用户接口1003还可以包括标准的有线接口、无线接口。

其中，网络接口1004可选的可以包括标准的有线接口、无线接口（如WI-FI接口）。

其中，处理器1001可以包括一个或者多个处理核心。处理器1001利用各种接口和线路连接整个电子设备1000内的各个部分，通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集，以及调用存储在存储器1005内的数据，执行电子设备1000的各种功能和处理数据。可选的，处理器1001可以采用数字信号处理（Digital Signal Processing，DSP）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）、可编程逻辑阵列（Programmable Logic Array，PLA）中的至少一种硬件形式来实现。处理器1001可集成中央处理器（Central Processing Unit，CPU）、图像处理器（Graphics Processing Unit，GPU）和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1001中，单独通过一块芯片进行实现。

其中，存储器1005可以包括随机存储器（Random Access Memory，RAM），也可以包括只读存储器（Read-Only Memory）。可选的，该存储器1005包括非瞬时性计算机可读介质（non-transitory computer-readable storage medium）。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令（比如触控功能、声音播放功能、图像播放功能等）、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储系统。如图5所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于图像的情绪识别应用程序。

在图5所示的终端1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；而处理器1001可以用于调用存储器1005中存储的基于图像的情绪识别应用程序，并具体执行以下操作：

接收来自摄像头针对目标对象所采集的待识别图像；

在一个实施例中，处理器1001在接收来自摄像头针对目标对象所采集的待识别原始图像之前时，还执行以下操作：

根据卷积神经网络，提取人体姿态图对应的第一特征矩阵；

在一个实施例中，处理器1001在执行根据原始图像，生成人体图、人体姿态图以及注意力图之前时，还执行以下操作：

通过摄像头采集目标对象的图像；

在一个实施例中，处理器1001在执行根据原始图像，生成人体图、人体姿态图以及注意力图时，具体执行以下操作：

识别原始图像的人体边界框，得到人体图；

通过openpose模型，提取原始图像的18个人体关键点；

在一个实施例中，处理器1001在执行根据第一特征矩阵与多个第二特征矩阵进行特征融合以及特征压缩，得到每个原始图像的预测矩阵时，具体执行以下操作：

在一个实施例中，处理器1001在执行根据情绪标签确定目标对象的情绪时，具体执行以下操作：

加载预先生成的情绪标签和情绪描述文本的映射关系表；

将最终情绪描述文本作为目标对象的情绪。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，基于图像的情绪识别的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，基于图像的情绪识别的程序的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种基于图像的情绪识别方法，其特征在于，所述方法包括：

接收来自摄像头针对目标对象所采集的待识别图像；

将所述待识别图像输入预先训练的情绪识别模型中；其中，所述预先训练的情绪识别模型是根据预先训练的Vision Transformer网络建立，并采用注意力图训练生成的，所述注意力图是根据原始图像生成的；

输出所述待识别图像对应的情绪标签，并根据所述情绪标签确定所述目标对象的情绪。

2.根据权利要求1所述的方法，其特征在于，所述接收来自摄像头针对目标对象所采集的待识别原始图像之前，还包括：

建立所述情绪识别模型，所述情绪识别模型至少包括卷积神经网络、预先训练的Vision Transformer网络、openpose模型以及模型损失函数；

根据原始图像，生成人体图、人体姿态图以及注意力图，所述原始图像为模型训练集中任意一个图像；

根据所述卷积神经网络，提取所述人体姿态图对应的第一特征矩阵；

根据预先训练的Vision Transformer网络，提取所述人体图、原始图像以及注意力图各自对应的第二特征矩阵；

根据所述第一特征矩阵与多个第二特征矩阵进行特征融合以及特征压缩，得到每个原始图像的预测矩阵，并对每个原始图像的预测矩阵标注情绪标签；

将所述每个原始图像的预测矩阵及其情绪标签输入模型损失函数中，输出模型损失值；

当所述模型损失值到达最小时，生成预先训练的情绪识别模型；或者当所述模型损失值未到达最小时，将所述模型损失值进行反向传播更新所述情绪识别模型的模型参数；继续执行所述将所述每个原始图像的预测矩阵及其情绪标签输入模型损失函数中的步骤，直到所述情绪识别模型的模型参数到达最小。

3.根据权利要求2所述的方法，其特征在于，所述根据原始图像，生成人体图、人体姿态图以及注意力图之前，还包括：

通过摄像头采集目标对象的图像；

在图像的数量到达预设阈值时，对图像进行预处理变换，得到模型训练样本；所述预处理变换至少包括添加噪声、角度翻转以及图像裁剪；

将所述模型训练样本按照预设比例进行划分，得到模型训练集、模型测试集以及模型验证集。

4.根据权利要求2所述的方法，其特征在于，所述根据原始图像，生成人体图、人体姿态图以及注意力图，包括：

识别所述原始图像的人体边界框，得到人体图；

通过所述openpose模型，提取所述原始图像的18个人体关键点；

根据所述18个人体关键点，建立二维关键点位置矩阵，得到人体姿态图；

根据所述原始图像以及针对所述原始图像设置的先验显著图，生成注意力图；所述先验显著图为目标对象的目光所关注的区域和关注的目标。

5.根据权利要求2所述的方法，其特征在于，所述根据所述第一特征矩阵与多个第二特征矩阵进行特征融合以及特征压缩，得到每个原始图像的预测矩阵，包括：

将所述原始图像对应的第二特征矩阵与所述注意力图对应的第二特征矩阵进行点乘处理，得到注意力特征矩阵；

将所述注意力特征矩阵与所述人体姿态图对应的第一特征矩阵、所述人体图对应的第二特征矩阵进行特征融合，得到目标融合特征；

将所述目标融合特征通过全连接层进行特征线性降维至预设参数值，以实现所述注意力特征矩阵的特征压缩，得到每个原始图像的预测矩阵。

6.根据权利要求2所述的方法，其特征在于，所述模型损失函数的函数表达式为：

其中，为每个原始图像的预测矩阵，/>为情绪标签，/>为计算预测矩阵的先验值函数，为计算原始图像的预测矩阵与情绪标签之间的空间相似距离函数，/>为模型训练集的图像数量，/>为模型训练集中任意一个原始图像，/>为模型训练集中任意一个原始图像的先验值，/>为模型训练集中任意一个原始图像的预测矩阵和情绪标签之间的空间相似距离。

7.根据权利要求1所述的方法，其特征在于，所述根据所述情绪标签确定所述目标对象的情绪，包括：

加载预先生成的情绪标签和情绪描述文本的映射关系表；

在所述预先生成的情绪标签和情绪描述文本的映射关系表中确定所述情绪标签对应的最终情绪描述文本；

将所述最终情绪描述文本作为所述目标对象的情绪。

8.一种基于图像的情绪识别系统，其特征在于，所述系统包括：

图像输入模块，用于将所述待识别图像输入预先训练的情绪识别模型中；其中，所述预先训练的情绪识别模型是根据预先训练的Vision Transformer网络建立，并采用注意力图训练生成的，所述注意力图是根据原始图像生成的；

情绪确定模块，用于输出所述待识别图像对应的情绪标签，并根据所述情绪标签确定所述目标对象的情绪。

9.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1-7任意一项所述的方法。

10.一种终端，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1-7任意一项所述的方法。