CN113705541B

CN113705541B - 基于Transformer的标记选择和合并的表情识别方法及系统

Info

Publication number: CN113705541B
Application number: CN202111224946.2A
Authority: CN
Inventors: 雷震; 杨阳; 陶建华; 翁敦芳
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-10-21
Filing date: 2021-10-21
Publication date: 2022-04-01
Anticipated expiration: 2041-10-21
Also published as: CN113705541A

Abstract

本发明提供基于Transformer的标记选择和合并的表情识别方法及系统，包括：将图像分割成不重叠的斑块，并通过线性投影映射到一个D维度的特征向量，构成标记嵌入向量；将其输入第一Transformer网络，得到标记特征；动态地加入α参数计算标记特征的每个标记向量的权重，将标记向量的权重的数值较大的前k个标记向量输入第二Transformer网络，得到动态标记选择的预测结果；将标记特征进行重塑，得到新的结构化特征，并合并，组成包含上下文特征的标记；将其输入第三Transformer网络编码，得到标记合并的预测结果；取动态标记选择的预测结果和标记合并的预测结果取平均，取阈值最大的为表情识别的结果。

Description

基于Transformer的标记选择和合并的表情识别方法及系统

技术领域

本发明涉及模式识别技术领域，具体涉及基于Transformer的标记选择和合并的表情识别方法及系统。

背景技术

对人的表情进行识别，如高兴，难过等，是一个挑战性的任务，也是目前人机交互领域非常火热的任务。目前基于卷积神经网络（Convolutional Neural Networks，简称CNN）的方法目前在表情识别领域取得了巨大成功。事实上，CNN具有参数共享和局部连接特性，因此带来了神经网络层具有平移等变性的能力。同时CNN在很长一段时间内在表情识别任务上都占据着主导地位，广泛地提升了整个领域。与CNN相比，Transformer是一个受欢迎的选择，主要用于自然语言处理（Natural Language Processing, 简称NLP）任务，因为它具有对长距离依赖关系建模的优势。受到Transformer在NLP任务中取得巨大成功的启发。一些研究人员试图将Transformer应用于许多视觉任务，例如，Vision Transformer（ViT）。与捕捉局部性的CNN相比较，基于Transformer的方法明确地利用了全局依赖性，并显示出相当的甚至更好的性能。在本文中，我们试图将Transformer的适用性扩展到表情识别领域。

目前，我们观察到两种形式的Transformer网络。第一种是使用CNN与Transformer相结合。如DETR，其中CNN提取了图像的特征。然后再由Transformer进行序列建模。第二种是纯粹的Transformer，主要代表是ViT。ViT将图像切成斑块，而Transformer中的每块都对所有斑块进行全局处理，在一些大规模数据集中取得了很好的性能。例如，ImageNet。考虑到在Transformer block相同的条件下，第一种方法比第二种方法更复杂，参数数量更多。因此我们选择第二种方法，即纯粹的Transformer，来构建表情识别的稳健基线。

发明内容

有鉴于此，本发明提供一种基于Transformer的标记选择和合并的表情识别方法，所述方法包括：

S1：将输入的RGB图像分割成不重叠的斑块，每个所述斑块被认为是一个标记；

S2：通过线性投影将每个斑块映射到一个D维度的特征向量X _p，构成标记嵌入向量Z ₀；

S3：将所述标记嵌入向量输入第一Transformer网络，得到标记特征Z _L=[Z _L ^f: Z _L ⁰]；

S4：动态地加入α参数计算所述标记特征的每个标记向量的权重，将标记向量的权重的数值较大的前k个标记向量输入第二Transformer网络进行二次编码，得到动态标记选择的预测结果；

S5：将所述标记特征Z _L的Z _L ^f进行重塑，得到新的结构化特征；将所述新的结构化特征合并，组成包含上下文特征的标记；将所述包含上下文特征的标记输入第三Transformer网络编码学习，得到标记合并的预测结果；

S6：表情识别最后的结果是动态标记选择的预测结果和标记合并的预测结果取平均，从平均结果中取阈值最大的为最后表情识别的结果。

在一些实施例中，所述构成标记嵌入向量Z ₀包括：在X _p=[X _p ¹; X _p ²;...,X _p ^N]中加入一个类标记X _cls，Z ₀ ^，=[X _cls; X _p ¹; X _p ²;...,X _p ^N]。

在一些实施例中，所述构成标记嵌入向量Z ₀还包括：在Z ₀ ^，中加入位置向量X _pos，Z ₀=[X _cls; X _p ¹; X _p ²;...,X _p ^N]+X _pos。

在一些实施例中，所述分割成不重叠的斑块的具体方法包括：

每个RGB图像I∈R ^(H×W×C)，其中H、W_d和C分别表示高度、宽度和通道的数量；

产生的斑块数量N描述为

，其中P_h和P_wd表示每个图像斑块的分辨率；

将图像I重塑为一串扁平化的二维斑块

。

在一些实施例中，所述第一Transformer网络用于分类的向量Z ^b表示为：Z ^b=LN(Z _L ⁰)；然后Z ^b被送入全连接层，为表情识别生成中间预测结果；所述中间预测结果用于构成第一Transformer网络训练的损失函数。

在一些实施例中，所述动态地加入α参数计算所述标记特征的每个标记向量的权重的具体方法包括，第i个标记向量的权重

描述为：

其中，

w _i为第i个标记的初始权重；

α _i为参数α的第i个分量,一个可学习的超参数；

；

||•||为2范数。

在一些实施例中，所述将所述标记特征Z _L的Z _L ^f进行重塑，重塑的具体条件为：

Z _L ^s∈R^Hs×Ws×D

其中，

；

所述将所述新的结构化特征合并，合并的具体条件为：

Z _L,tm∈R^Hm×Wm×D

其中，

；

S表示滑动窗口的步长；

P_h ^m为合并后斑块的高度；

P_w ^m为合并后斑块的宽度。

在一些实施例中，所述系统包括：

图像分割模块、斑块线性投影模块、第一Transformer网络、动态标记选择模块、标记合并模块和表情识别模块；

所述图像分割模块：将输入的RGB图像分割成不重叠的斑块，每个所述斑块被认为是一个标记；

所述斑块线性投影模块：通过线性投影将每个斑块映射到一个D维度的特征向量X _p，构成标记嵌入向量Z ₀；

所述第一Transformer网络：将所述标记嵌入向量输入第一Transformer网络，得到标记特征Z _L=[Z _L ^f: Z _L ⁰]；

所述动态标记选择模块包括：标记选择模块、第二Transformer网络和第一多层感知机；所述标记选择模块动态地加入α参数计算所述标记特征的每个标记向量的权重，将标记向量的权重的数值较大的前k个标记向量输入第二Transformer网络进行二次编码，得到第一编码向量，将第一编码向量输入所述第一多层感知机得到动态标记选择的预测结果；

所述标记合并模块包括：重塑模块、合并模块、第三Transformer网络和第二多层感知机；所述重塑模块将所述标记特征Z _L的Z _L ^f进行重塑，得到新的结构化特征；所述合并模块将所述新的结构化特征合并，组成包含上下文特征的标记；将所述包含上下文特征的标记输入第三Transformer网络编码学习，得到第二编码向量，将第二编码向量输入所述第二多层感知机得到标记合并的预测结果；

所述表情识别模块：表情识别最后的结果是动态标记选择的预测结果和标记合并的预测结果取平均，从平均结果中取阈值最大的为最后表情识别的结果。

产生的斑块数量N描述为

，其中P_h和P_wd表示每个图像斑块的分辨率；

将图像I重塑为一串扁平化的二维斑块

。

描述为：

其中，

w _i为第i个标记的初始权重；

α _i为参数α的第i个分量,一个可学习的超参数；

；

||•||为2范数。

Z _L ^s∈R^Hs×Ws×D

其中，

；

所述将所述新的结构化特征合并，合并的具体条件为：

Z _L,tm∈R^Hm×Wm×D

其中，

；

S表示滑动窗口的步长；

P_h ^m为合并后斑块的高度；

P_w ^m为合并后斑块的宽度。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

Transformer能够直接计算不同特征之间的相关性，不需要通过隐藏层传递，可以进行并行计算，充分利用GPU资源。与现有的CNN方法相比，我们的方法每秒传输的帧数更高，性能更强。

附图说明

图1为本发明实施例提供的基于Transformer的标记选择和合并的表情识别方法的流程图；

图2为本发明实施例提供的基于Transformer的标记选择和合并的表情识别系统的结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

考虑到经典的ViT在图像识别上的有效性，我们采用了它作为骨干网络。对于ViT来说，它将输入的图像分割成一连串固定长度的16的图像补丁。然后应用多个Transformer层来捕捉全局关系。然而，这种具有固定长度和尺度的直接标记化缺乏对局部结构的建模能力和相邻像素的关系。这不是表情识别的最佳选择。受此启发，我们提出了一个标记合并（TM）模块。它通过使用周围标记的叠加来重新编码标记。标记合并分支增强了对周围像素和标记的局部信息进行建模的能力。此外，正如以前的注意力机制工作所阐明的那样，并非所有的像素或区域对识别都同样重要。更确切地说，一些像素和区域，如背景，对于学习特征是无用的甚至不利于学习特征表征。基于上述考虑，我们提出了一个动态标记选择（DTS）模块。它可以学习选择重要的标记，同时舍弃无用的标记。这里的标记指的是transformer中的tokens，它表示斑块的特征向量。

实施例1：

图1为本发明实施例提供的基于Transformer的标记选择和合并的表情识别方法的流程图，如图1所示，本申请实施例提供的基于Transformer的标记选择和合并的表情识别方法，包括：

S1：将输入的RGB图像分割成不重叠的斑块，每个所述斑块被认为是一个标记，具体方法包括：

产生的斑块数量N可以描述为

，其中P_h和P_wd表示每个图像斑块的分辨率；

将图像I重塑为一串扁平化的二维斑块

；

在一些实施例中，设定为P_h=P_wd=16，当把大小为128x128的RGB图像作为输入时；总共会产生128个斑块；

S2：通过线性投影将每个斑块映射到一个D维度的特征向量X _p，构成标记嵌入向量Z ₀，即

；

在一些实施例中，D被设定为768；

在一些实施例中，所述构成标记嵌入向量Z ₀包括：在X _p=[X _p ¹; X _p ²;...,X _p ^N]中加入一个类标记X _cls，它是一个可学习的向量，用于表情识别的分类预测结果，Z ₀ ^，=[X _cls; X _p ¹; X _p ²;...,X _p ^N]；其中X _p ⁱ∈R ^D表示第i个斑块标记的特征向量；在Z ₀中加入位置向量X _pos，是一个可学习参数，对空间信息的编码很重要，它表示每个斑块所处的位置信息，Z ₀=[X _cls; X _p ¹; X _p ²;...,X _p ^N]+X _pos；

S3：将所述标记嵌入向量输入第一Transformer网络，得到标记特征Z _L=[Z _L ^f: Z _L ⁰]；Transformer网络由多头自注意力（Multi-headed Self-attention，简称MSA）、层归一化（Layer Norm，简称LN）和多层感知机（Multilayer Perceptron，简称MLP）块交替层组成；

具体过程为：

其中l可以从0到L中取值，而L表示基础ViT模型的最后一层；

所述第一Transformer网络用于分类的向量Z ^b可以表示为：Z ^b=LN(Z _L ⁰)；然后Z ^b被送入全连接层，为表情识别生成中间预测结果；所述中间预测结果用于构成第一Transformer网络训练的损失函数；

S4：在ViT中，整个图像被分割成一系列的图像标记；每一个标记对应于一个特定的图像斑块；然而，并不是所有的标记/斑块对于最终的表情识别都是同等重要的；其中一些可能包含背景等噪音；因此，我们提出了一个动态标记选择方法，以关注最重要的标记而放弃一些次要的标记；动态地加入α参数计算所述标记特征的每个标记向量的权重，将标记向量的权重的数值较大的前k个标记向量输入第二Transformer网络进行二次编码，得到动态标记选择的预测结果，

；

描述为：

其中，

w _i为第i个标记的初始权重；

α _i为参数α的第i个分量,一个可学习的超参数；

；

||•||为2范数；

S5：正如上面提到的，不同图像区域之间的上下文关联性对于属性识别来说确实很重要；对于ViT来说，它采用了一个直接的标记化，将输入图像分割成一连串的斑块（标记）；然而，不同标记之间的关联性涉及较少；目前的方法试图在标记内添加另一个Transformer block进行学习，但这将给模型带来更大的复杂性；因此，提出了一个标记合并分支，通过标记之间的叠加编码来补充标记内部的特征学习；将所述标记特征Z _L的Z _L ^f进行重塑，得到新的结构化特征；将所述新的结构化特征合并，组成包含上下文特征的标记；将所述包含上下文特征的标记输入第三Transformer网络编码学习，得到标记合并的预测结果，

；

在一些实施例中，所述将所述标记特征Z _L的Z _L ^f进行重塑

，重塑的具体条件为：

Z _L ^s∈R^Hs×Ws×D

其中，

；

所述将所述新的结构化特征合并

，合并的具体条件为：

Z _L,tm∈R^Hm×Wm×D

其中，

；

S表示滑动窗口的步长；

P_h ^m为合并后斑块的高度；

P_w ^m为合并后斑块的宽度；

其中，S=2，P_h ^m=P_w ^m=2，更具体地说，标记合并了4个周围的标记形成一个新的标记，在TM这个分支中共产生了8*4个标记；

实施例2：

图2为本发明实施例提供的基于Transformer的标记选择和合并的表情识别系统的结构图。如图2所示，本申请实施例提供的基于Transformer的标记选择和合并的表情识别系统，所述系统包括：

所述图像分割模块：将输入的RGB图像分割成不重叠的斑块，每个所述斑块被认为是一个标记，具体方法包括：

产生的斑块数量N可以描述为

，其中P_h和P_wd表示每个图像斑块的分辨率；

将图像I重塑为一串扁平化的二维斑块

；

所述斑块线性投影模块：通过线性投影将每个斑块映射到一个D维度的特征向量X _p，构成标记嵌入向量Z ₀即

；

其中，D被设定为768；

所述第一Transformer网络：将所述标记嵌入向量输入第一Transformer网络，得到标记特征Z _L=[Z _L ^f: Z _L ⁰]；Transformer网络由多头自注意（MSA）、层归一化（LN）和多层感知机（MLP）块交替层组成；

具体过程为：

其中l可以从0到L中取值，而L表示基础ViT模型的最后一层；

所述动态标记选择模块包括：标记选择模块、第二Transformer网络和第一多层感知机；所述标记选择模块动态地加入α参数计算所述标记特征的每个标记向量的权重，将标记向量的权重的数值较大的前k个标记向量输入第二Transformer网络进行二次编码，得到第一编码向量，将第一编码向量输入所述第一多层感知机得到动态标记选择的预测结果，

；

描述为：

其中，

w _i为第i个标记的初始权重；

α _i为参数α的第i个分量,一个可学习的超参数；

；

||•||为2范数；

所述标记合并模块包括：重塑模块、合并模块、第三Transformer网络和第二多层感知机；所述重塑模块将所述标记特征Z _L的Z _L ^f进行重塑，得到新的结构化特征；所述合并模块将所述新的结构化特征合并，组成包含上下文特征的标记；将所述包含上下文特征的标记输入第三Transformer网络编码学习，得到第二编码向量，将第二编码向量输入所述第二多层感知机得到标记合并的预测结果，

；

在一些实施例中，所述将所述标记特征Z _L的Z _L ^f进行重塑

，重塑的具体条件为：

Z _L ^s∈R^Hs×Ws×D

其中，

；

所述将所述新的结构化特征合并

，合并的具体条件为：

Z _L,tm∈R^Hm×Wm×D

其中，

；

S表示滑动窗口的步长；

P_h ^m为合并后斑块的高度；

P_w ^m为合并后斑块的宽度；

在一些实施例中，S=2，P_h ^m=P_w ^m=2，更具体地说，标记合并了4个周围的标记形成一个新的标记，在TM这个分支中共产生了8*4个标记；

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA（现场可编程门阵列）或ASIC（专用集成电路）来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理（PDA）、移动音频或视频播放器、游戏操纵台、全球定位系统（GPS）接收机、或例如通用串行总线（USB）闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备（例如EPROM、EEPROM和闪存设备）、磁盘（例如内部硬盘或可移动盘）、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.基于Transformer的标记选择和合并的表情识别方法，其特征在于，所述方法包括：

所述动态地加入α参数计算所述标记特征的每个标记向量的权重的具体方法包括，第i个标记向量的权重

描述为：

其中，

w _i为第i个标记的初始权重；

α _i为参数α的第i个分量,一个可学习的超参数；

；

||•||为2范数；

所述将所述标记特征Z _L的Z _L ^f进行重塑，重塑的具体条件为：

Z _L ^s∈R^Hs×Ws×D

其中，

；

所述将所述新的结构化特征合并，合并的具体条件为：

Z _L,tm∈R^Hm×Wm×D

其中，

；

S表示滑动窗口的步长；

P_h ^m为合并后斑块的高度；

P_w ^m为合并后斑块的宽度；

H、W _d分别表示图像的高度、宽度；

S6：表情识别最后的结果是动态标记选择的预测结果和标记合并的预测结果取平均，从平均结果中取预测结果最大的值表示表情识别的结果。

2.根据权利要求1所述的基于Transformer的标记选择和合并的表情识别方法，其特征在于，所述构成标记嵌入向量Z ₀包括：在X _p=[X _p ¹; X _p ²;..., X _p ^N]中加入一个类标记X _cls，Z ₀ ^，=[X _cls; X _p ¹; X _p ²;..., X _p ^N]。

3.根据权利要求2所述的基于Transformer的标记选择和合并的表情识别方法，其特征在于，所述构成标记嵌入向量Z ₀还包括：在Z ₀ ^，中加入位置向量X _pos，Z ₀=[X _cls; X _p ¹; X _p ²;..., X _p ^N]+ X _pos。

4.根据权利要求1所述的基于Transformer的标记选择和合并的表情识别方法，其特征在于，所述分割成不重叠的斑块的具体方法包括：

每个RGB图像

，其中H、W _d和C分别表示高度、宽度和通道的数量；

产生的斑块数量N描述为

，其中P_h和

表示每个图像斑块的分辨率；

将图像I重塑为一串扁平化的二维斑块

。

5.根据权利要求1所述的基于Transformer的标记选择和合并的表情识别方法，其特征在于，所述第一Transformer网络用于分类的向量Z ^b表示为：Z ^b=LN(Z _L ⁰)；然后Z ^b被送入全连接层，为表情识别生成中间预测结果；所述中间预测结果用于构成第一Transformer网络训练的损失函数。

6.基于Transformer的标记选择和合并的表情识别系统，其特征在于，所述系统包括：

所述表情识别模块：表情识别最后的结果是动态标记选择的预测结果和标记合并的预测结果取平均，从平均结果中取预测结果最大的值表示表情识别的结果；

描述为：

其中，

w _i为第i个标记的初始权重；

α _i为参数α的第i个分量,一个可学习的超参数；

；

||•||为2范数；

Z _L ^s∈R^Hs×Ws×D

其中，

；

所述将所述新的结构化特征合并，合并的具体条件为：

Z _L,tm∈R^Hm×Wm×D

其中，

；

S表示滑动窗口的步长；

P_h ^m为合并后斑块的高度；

P_w ^m为合并后斑块的宽度。

7.根据权利要求6所述的基于Transformer的标记选择和合并的表情识别系统，其特征在于，所述构成标记嵌入向量Z ₀包括：在X _p=[X _p ¹; X _p ²;..., X _p ^N]中加入一个类标记X _cls，Z ₀ ^，=[X _cls; X _p ¹; X _p ²;..., X _p ^N]。

8.根据权利要求7所述的基于Transformer的标记选择和合并的表情识别系统，其特征在于，所述构成标记嵌入向量Z ₀还包括：在Z ₀ ^，中加入位置向量X _pos，Z ₀=[X _cls; X _p ¹; X _p ²;..., X _p ^N]+ X _pos。

9.根据权利要求6所述的基于Transformer的标记选择和合并的表情识别系统，其特征在于，所述分割成不重叠的斑块的具体方法包括：

每个RGB图像

，其中H、W_d和C分别表示高度、宽度和通道的数量；

产生的斑块数量N描述为

，其中P_h和

表示每个图像斑块的分辨率；

将图像I重塑为一串扁平化的二维斑块

。

10.根据权利要求6所述的基于Transformer的标记选择和合并的表情识别系统，其特征在于，所述第一Transformer网络用于分类的向量Z ^b表示为：Z ^b=LN(Z _L ⁰)；然后Z ^b被送入全连接层，为表情识别生成中间预测结果；所述中间预测结果用于构成第一Transformer网络训练的损失函数。