CN113705541B - 基于Transformer的标记选择和合并的表情识别方法及系统 - Google Patents

基于Transformer的标记选择和合并的表情识别方法及系统 Download PDF

Info

Publication number
CN113705541B
CN113705541B CN202111224946.2A CN202111224946A CN113705541B CN 113705541 B CN113705541 B CN 113705541B CN 202111224946 A CN202111224946 A CN 202111224946A CN 113705541 B CN113705541 B CN 113705541B
Authority
CN
China
Prior art keywords
marker
mark
vector
expression recognition
selection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111224946.2A
Other languages
English (en)
Other versions
CN113705541A (zh
Inventor
雷震
杨阳
陶建华
翁敦芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202111224946.2A priority Critical patent/CN113705541B/zh
Publication of CN113705541A publication Critical patent/CN113705541A/zh
Application granted granted Critical
Publication of CN113705541B publication Critical patent/CN113705541B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供基于Transformer的标记选择和合并的表情识别方法及系统,包括:将图像分割成不重叠的斑块,并通过线性投影映射到一个D维度的特征向量,构成标记嵌入向量;将其输入第一Transformer网络,得到标记特征;动态地加入α参数计算标记特征的每个标记向量的权重,将标记向量的权重的数值较大的前k个标记向量输入第二Transformer网络,得到动态标记选择的预测结果;将标记特征进行重塑,得到新的结构化特征,并合并,组成包含上下文特征的标记;将其输入第三Transformer网络编码,得到标记合并的预测结果;取动态标记选择的预测结果和标记合并的预测结果取平均,取阈值最大的为表情识别的结果。

Description

基于Transformer的标记选择和合并的表情识别方法及系统
技术领域
本发明涉及模式识别技术领域,具体涉及基于Transformer的标记选择和合并的表情识别方法及系统。
背景技术
对人的表情进行识别,如高兴,难过等,是一个挑战性的任务,也是目前人机交互领域非常火热的任务。目前基于卷积神经网络(Convolutional Neural Networks,简称CNN)的方法目前在表情识别领域取得了巨大成功。事实上,CNN具有参数共享和局部连接特性,因此带来了神经网络层具有平移等变性的能力。同时CNN在很长一段时间内在表情识别任务上都占据着主导地位,广泛地提升了整个领域。与CNN相比,Transformer是一个受欢迎的选择,主要用于自然语言处理(Natural Language Processing, 简称NLP)任务,因为它具有对长距离依赖关系建模的优势。受到Transformer在NLP任务中取得巨大成功的启发。一些研究人员试图将Transformer应用于许多视觉任务,例如,Vision Transformer(ViT)。与捕捉局部性的CNN相比较,基于Transformer的方法明确地利用了全局依赖性,并显示出相当的甚至更好的性能。在本文中,我们试图将Transformer的适用性扩展到表情识别领域。
目前,我们观察到两种形式的Transformer网络。第一种是使用CNN与Transformer相结合。如DETR,其中CNN提取了图像的特征。然后再由Transformer进行序列建模。第二种是纯粹的Transformer,主要代表是ViT。ViT将图像切成斑块,而Transformer中的每块都对所有斑块进行全局处理,在一些大规模数据集中取得了很好的性能。例如,ImageNet。考虑到在Transformer block相同的条件下,第一种方法比第二种方法更复杂,参数数量更多。因此我们选择第二种方法,即纯粹的Transformer,来构建表情识别的稳健基线。
发明内容
有鉴于此,本发明提供一种基于Transformer的标记选择和合并的表情识别方法,所述方法包括:
S1:将输入的RGB图像分割成不重叠的斑块,每个所述斑块被认为是一个标记;
S2:通过线性投影将每个斑块映射到一个D维度的特征向量X p ,构成标记嵌入向量Z 0
S3:将所述标记嵌入向量输入第一Transformer网络,得到标记特征Z L =[Z L f : Z L 0];
S4:动态地加入α参数计算所述标记特征的每个标记向量的权重,将标记向量的权重的数值较大的前k个标记向量输入第二Transformer网络进行二次编码,得到动态标记选择的预测结果;
S5:将所述标记特征Z L Z L f 进行重塑,得到新的结构化特征;将所述新的结构化特征合并,组成包含上下文特征的标记;将所述包含上下文特征的标记输入第三Transformer网络编码学习,得到标记合并的预测结果;
S6:表情识别最后的结果是动态标记选择的预测结果和标记合并的预测结果取平均,从平均结果中取阈值最大的为最后表情识别的结果。
在一些实施例中,所述构成标记嵌入向量Z 0包括:在X p =[X p 1; X p 2;...,X p N ]中加入一个类标记X cls Z 0 =[X cls ; X p 1; X p 2;...,X p N ]。
在一些实施例中,所述构成标记嵌入向量Z 0还包括:在Z 0 中加入位置向量X pos Z 0=[X cls ; X p 1; X p 2;...,X p N ]+X pos
在一些实施例中,所述分割成不重叠的斑块的具体方法包括:
每个RGB图像IR (H×W×C),其中H、Wd和C分别表示高度、宽度和通道的数量;
产生的斑块数量N描述为
Figure DEST_PATH_IMAGE001
,其中Ph和Pwd表示每个图像斑块的分辨率;
将图像I重塑为一串扁平化的二维斑块
Figure 320576DEST_PATH_IMAGE002
在一些实施例中,所述第一Transformer网络用于分类的向量Z b 表示为:Z b =LN(Z L 0);然后Z b 被送入全连接层,为表情识别生成中间预测结果;所述中间预测结果用于构成第一Transformer网络训练的损失函数。
在一些实施例中,所述动态地加入α参数计算所述标记特征的每个标记向量的权重的具体方法包括,第i个标记向量的权重
Figure DEST_PATH_IMAGE003
描述为:
Figure 14862DEST_PATH_IMAGE004
其中,
w i 为第i个标记的初始权重;
α i 为参数α的第i个分量,一个可学习的超参数;
Figure DEST_PATH_IMAGE005
||•||为2范数。
在一些实施例中,所述将所述标记特征Z L Z L f 进行重塑,重塑的具体条件为:
Z L s ∈RHs×Ws×D
其中,
Figure 728740DEST_PATH_IMAGE006
所述将所述新的结构化特征合并,合并的具体条件为:
Z L,tm ∈R Hm×Wm×D
其中,
Figure DEST_PATH_IMAGE007
S表示滑动窗口的步长;
Ph m为合并后斑块的高度;
Pw m为合并后斑块的宽度。
在一些实施例中,所述系统包括:
图像分割模块、斑块线性投影模块、第一Transformer网络、动态标记选择模块、标记合并模块和表情识别模块;
所述图像分割模块:将输入的RGB图像分割成不重叠的斑块,每个所述斑块被认为是一个标记;
所述斑块线性投影模块:通过线性投影将每个斑块映射到一个D维度的特征向量X p ,构成标记嵌入向量Z 0
所述第一Transformer网络:将所述标记嵌入向量输入第一Transformer网络,得到标记特征Z L =[Z L f : Z L 0];
所述动态标记选择模块包括:标记选择模块、第二Transformer网络和第一多层感知机;所述标记选择模块动态地加入α参数计算所述标记特征的每个标记向量的权重,将标记向量的权重的数值较大的前k个标记向量输入第二Transformer网络进行二次编码,得到第一编码向量,将第一编码向量输入所述第一多层感知机得到动态标记选择的预测结果;
所述标记合并模块包括:重塑模块、合并模块、第三Transformer网络和第二多层感知机;所述重塑模块将所述标记特征Z L Z L f 进行重塑,得到新的结构化特征;所述合并模块将所述新的结构化特征合并,组成包含上下文特征的标记;将所述包含上下文特征的标记输入第三Transformer网络编码学习,得到第二编码向量,将第二编码向量输入所述第二多层感知机得到标记合并的预测结果;
所述表情识别模块:表情识别最后的结果是动态标记选择的预测结果和标记合并的预测结果取平均,从平均结果中取阈值最大的为最后表情识别的结果。
在一些实施例中,所述构成标记嵌入向量Z 0包括:在X p =[X p 1; X p 2;...,X p N ]中加入一个类标记X cls Z 0 =[X cls ; X p 1; X p 2;...,X p N ]。
在一些实施例中,所述构成标记嵌入向量Z 0还包括:在Z 0 中加入位置向量X pos Z 0=[X cls ; X p 1; X p 2;...,X p N ]+X pos
在一些实施例中,所述分割成不重叠的斑块的具体方法包括:
每个RGB图像IR (H×W×C),其中H、Wd和C分别表示高度、宽度和通道的数量;
产生的斑块数量N描述为
Figure 774057DEST_PATH_IMAGE001
,其中Ph和Pwd表示每个图像斑块的分辨率;
将图像I重塑为一串扁平化的二维斑块
Figure 169266DEST_PATH_IMAGE002
在一些实施例中,所述第一Transformer网络用于分类的向量Z b 表示为:Z b =LN(Z L 0);然后Z b 被送入全连接层,为表情识别生成中间预测结果;所述中间预测结果用于构成第一Transformer网络训练的损失函数。
在一些实施例中,所述动态地加入α参数计算所述标记特征的每个标记向量的权重的具体方法包括,第i个标记向量的权重
Figure 35503DEST_PATH_IMAGE003
描述为:
Figure 123545DEST_PATH_IMAGE004
其中,
w i 为第i个标记的初始权重;
α i 为参数α的第i个分量,一个可学习的超参数;
Figure 390578DEST_PATH_IMAGE005
||•||为2范数。
在一些实施例中,所述将所述标记特征Z L Z L f 进行重塑,重塑的具体条件为:
Z L s ∈RHs×Ws×D
其中,
Figure 589478DEST_PATH_IMAGE006
所述将所述新的结构化特征合并,合并的具体条件为:
Z L,tm ∈R Hm×Wm×D
其中,
Figure 992778DEST_PATH_IMAGE007
S表示滑动窗口的步长;
Ph m为合并后斑块的高度;
Pw m为合并后斑块的宽度。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
Transformer能够直接计算不同特征之间的相关性,不需要通过隐藏层传递,可以进行并行计算,充分利用GPU资源。与现有的CNN方法相比,我们的方法每秒传输的帧数更高,性能更强。
附图说明
图1为本发明实施例提供的基于Transformer的标记选择和合并的表情识别方法的流程图;
图2为本发明实施例提供的基于Transformer的标记选择和合并的表情识别系统的结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
考虑到经典的ViT在图像识别上的有效性,我们采用了它作为骨干网络。对于ViT来说,它将输入的图像分割成一连串固定长度的16的图像补丁。然后应用多个Transformer层来捕捉全局关系。然而,这种具有固定长度和尺度的直接标记化缺乏对局部结构的建模能力和相邻像素的关系。这不是表情识别的最佳选择。受此启发,我们提出了一个标记合并(TM)模块。它通过使用周围标记的叠加来重新编码标记。标记合并分支增强了对周围像素和标记的局部信息进行建模的能力。此外,正如以前的注意力机制工作所阐明的那样,并非所有的像素或区域对识别都同样重要。更确切地说,一些像素和区域,如背景,对于学习特征是无用的甚至不利于学习特征表征。基于上述考虑,我们提出了一个动态标记选择(DTS)模块。它可以学习选择重要的标记,同时舍弃无用的标记。这里的标记指的是transformer中的tokens,它表示斑块的特征向量。
实施例1:
图1为本发明实施例提供的基于Transformer的标记选择和合并的表情识别方法的流程图,如图1所示,本申请实施例提供的基于Transformer的标记选择和合并的表情识别方法,包括:
S1:将输入的RGB图像分割成不重叠的斑块,每个所述斑块被认为是一个标记,具体方法包括:
每个RGB图像IR (H×W×C),其中H、Wd和C分别表示高度、宽度和通道的数量;
产生的斑块数量N可以描述为
Figure 314037DEST_PATH_IMAGE008
,其中Ph和Pwd表示每个图像斑块的分辨率;
将图像I重塑为一串扁平化的二维斑块
Figure 68367DEST_PATH_IMAGE002
在一些实施例中,设定为Ph=Pwd=16,当把大小为128x128的RGB图像作为输入时;总共会产生128个斑块;
S2:通过线性投影将每个斑块映射到一个D维度的特征向量X p ,构成标记嵌入向量Z 0,即
Figure DEST_PATH_IMAGE009
在一些实施例中,D被设定为768;
在一些实施例中,所述构成标记嵌入向量Z 0包括:在X p =[X p 1; X p 2;...,X p N ]中加入一个类标记X cls ,它是一个可学习的向量,用于表情识别的分类预测结果,Z 0 =[X cls ; X p 1; X p 2;...,X p N ];其中X p i R D 表示第i个斑块标记的特征向量;在Z 0 中加入位置向量X pos ,是一个可学习参数,对空间信息的编码很重要,它表示每个斑块所处的位置信息,Z 0=[X cls ; X p 1; X p 2;...,X p N ]+X pos
S3:将所述标记嵌入向量输入第一Transformer网络,得到标记特征Z L =[Z L f : Z L 0];Transformer网络由多头自注意力(Multi-headed Self-attention,简称MSA)、层归一化(Layer Norm,简称LN)和多层感知机(Multilayer Perceptron,简称MLP)块交替层组成;
具体过程为:
Figure 805379DEST_PATH_IMAGE010
其中l可以从0到L中取值,而L表示基础ViT模型的最后一层;
所述第一Transformer网络用于分类的向量Z b 可以表示为:Z b =LN(Z L 0);然后Z b 被送入全连接层,为表情识别生成中间预测结果;所述中间预测结果用于构成第一Transformer网络训练的损失函数;
S4:在ViT中,整个图像被分割成一系列的图像标记;每一个标记对应于一个特定的图像斑块;然而,并不是所有的标记/斑块对于最终的表情识别都是同等重要的;其中一些可能包含背景等噪音;因此,我们提出了一个动态标记选择方法,以关注最重要的标记而放弃一些次要的标记;动态地加入α参数计算所述标记特征的每个标记向量的权重,将标记向量的权重的数值较大的前k个标记向量输入第二Transformer网络进行二次编码,得到动态标记选择的预测结果,
Figure DEST_PATH_IMAGE011
在一些实施例中,所述动态地加入α参数计算所述标记特征的每个标记向量的权重的具体方法包括,第i个标记向量的权重
Figure 328764DEST_PATH_IMAGE003
描述为:
Figure 571658DEST_PATH_IMAGE004
其中,
w i 为第i个标记的初始权重;
α i 为参数α的第i个分量,一个可学习的超参数;
Figure 547704DEST_PATH_IMAGE005
||•||为2范数;
S5:正如上面提到的,不同图像区域之间的上下文关联性对于属性识别来说确实很重要;对于ViT来说,它采用了一个直接的标记化,将输入图像分割成一连串的斑块(标记);然而,不同标记之间的关联性涉及较少;目前的方法试图在标记内添加另一个Transformer block进行学习,但这将给模型带来更大的复杂性;因此,提出了一个标记合并分支,通过标记之间的叠加编码来补充标记内部的特征学习;将所述标记特征Z L Z L f 进行重塑,得到新的结构化特征;将所述新的结构化特征合并,组成包含上下文特征的标记;将所述包含上下文特征的标记输入第三Transformer网络编码学习,得到标记合并的预测结果,
Figure 88407DEST_PATH_IMAGE012
在一些实施例中,所述将所述标记特征Z L Z L f 进行重塑
Figure DEST_PATH_IMAGE013
,重塑的具体条件为:
Z L s ∈RHs×Ws×D
其中,
Figure 731878DEST_PATH_IMAGE006
所述将所述新的结构化特征合并
Figure 129361DEST_PATH_IMAGE014
,合并的具体条件为:
Z L,tm ∈R Hm×Wm×D
其中,
Figure 858282DEST_PATH_IMAGE007
S表示滑动窗口的步长;
Ph m为合并后斑块的高度;
Pw m为合并后斑块的宽度;
其中,S=2,Ph m=Pw m=2,更具体地说,标记合并了4个周围的标记形成一个新的标记,在TM这个分支中共产生了8*4个标记;
S6:表情识别最后的结果是动态标记选择的预测结果和标记合并的预测结果取平均,从平均结果中取阈值最大的为最后表情识别的结果。
实施例2:
图2为本发明实施例提供的基于Transformer的标记选择和合并的表情识别系统的结构图。如图2所示,本申请实施例提供的基于Transformer的标记选择和合并的表情识别系统,所述系统包括:
图像分割模块、斑块线性投影模块、第一Transformer网络、动态标记选择模块、标记合并模块和表情识别模块;
所述图像分割模块:将输入的RGB图像分割成不重叠的斑块,每个所述斑块被认为是一个标记,具体方法包括:
每个RGB图像IR (H×W×C),其中H、Wd和C分别表示高度、宽度和通道的数量;
产生的斑块数量N可以描述为
Figure 937097DEST_PATH_IMAGE008
,其中Ph和Pwd表示每个图像斑块的分辨率;
将图像I重塑为一串扁平化的二维斑块
Figure 435074DEST_PATH_IMAGE002
在一些实施例中,设定为Ph=Pwd=16,当把大小为128x128的RGB图像作为输入时;总共会产生128个斑块;
所述斑块线性投影模块:通过线性投影将每个斑块映射到一个D维度的特征向量X p ,构成标记嵌入向量Z 0
Figure DEST_PATH_IMAGE015
其中,D被设定为768;
在一些实施例中,所述构成标记嵌入向量Z 0包括:在X p =[X p 1; X p 2;...,X p N ]中加入一个类标记X cls ,它是一个可学习的向量,用于表情识别的分类预测结果,Z 0 =[X cls ; X p 1; X p 2;...,X p N ];其中X p i R D 表示第i个斑块标记的特征向量;在Z 0 中加入位置向量X pos ,是一个可学习参数,对空间信息的编码很重要,它表示每个斑块所处的位置信息,Z 0=[X cls ; X p 1; X p 2;...,X p N ]+X pos
所述第一Transformer网络:将所述标记嵌入向量输入第一Transformer网络,得到标记特征Z L =[Z L f : Z L 0];Transformer网络由多头自注意(MSA)、层归一化(LN)和多层感知机(MLP)块交替层组成;
具体过程为:
Figure 252726DEST_PATH_IMAGE010
其中l可以从0到L中取值,而L表示基础ViT模型的最后一层;
所述第一Transformer网络用于分类的向量Z b 可以表示为:Z b =LN(Z L 0);然后Z b 被送入全连接层,为表情识别生成中间预测结果;所述中间预测结果用于构成第一Transformer网络训练的损失函数;
所述动态标记选择模块包括:标记选择模块、第二Transformer网络和第一多层感知机;所述标记选择模块动态地加入α参数计算所述标记特征的每个标记向量的权重,将标记向量的权重的数值较大的前k个标记向量输入第二Transformer网络进行二次编码,得到第一编码向量,将第一编码向量输入所述第一多层感知机得到动态标记选择的预测结果,
Figure 468944DEST_PATH_IMAGE011
在一些实施例中,所述动态地加入α参数计算所述标记特征的每个标记向量的权重的具体方法包括,第i个标记向量的权重
Figure 351449DEST_PATH_IMAGE003
描述为:
Figure 703933DEST_PATH_IMAGE004
其中,
w i 为第i个标记的初始权重;
α i 为参数α的第i个分量,一个可学习的超参数;
Figure 646482DEST_PATH_IMAGE005
||•||为2范数;
所述标记合并模块包括:重塑模块、合并模块、第三Transformer网络和第二多层感知机;所述重塑模块将所述标记特征Z L Z L f 进行重塑,得到新的结构化特征;所述合并模块将所述新的结构化特征合并,组成包含上下文特征的标记;将所述包含上下文特征的标记输入第三Transformer网络编码学习,得到第二编码向量,将第二编码向量输入所述第二多层感知机得到标记合并的预测结果,
Figure 146733DEST_PATH_IMAGE016
在一些实施例中,所述将所述标记特征Z L Z L f 进行重塑
Figure 567350DEST_PATH_IMAGE013
,重塑的具体条件为:
Z L s ∈RHs×Ws×D
其中,
Figure 39920DEST_PATH_IMAGE006
所述将所述新的结构化特征合并
Figure 887790DEST_PATH_IMAGE014
,合并的具体条件为:
Z L,tm ∈R Hm×Wm×D
其中,
Figure 813021DEST_PATH_IMAGE007
S表示滑动窗口的步长;
Ph m为合并后斑块的高度;
Pw m为合并后斑块的宽度;
在一些实施例中,S=2,Ph m=Pw m=2,更具体地说,标记合并了4个周围的标记形成一个新的标记,在TM这个分支中共产生了8*4个标记;
所述表情识别模块:表情识别最后的结果是动态标记选择的预测结果和标记合并的预测结果取平均,从平均结果中取阈值最大的为最后表情识别的结果。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本说明书中描述的主题及功能操作的实施例可以在以下中实现:数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。
本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行,并且装置也可以实现为专用逻辑电路。
适合用于执行计算机程序的计算机包括,例如通用和/或专用微处理器,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅举几例。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备,例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.基于Transformer的标记选择和合并的表情识别方法,其特征在于,所述方法包括:
S1:将输入的RGB图像分割成不重叠的斑块,每个所述斑块被认为是一个标记;
S2:通过线性投影将每个斑块映射到一个D维度的特征向量X p ,构成标记嵌入向量Z 0
S3:将所述标记嵌入向量输入第一Transformer网络,得到标记特征Z L =[Z L f : Z L 0];
S4:动态地加入α参数计算所述标记特征的每个标记向量的权重,将标记向量的权重的数值较大的前k个标记向量输入第二Transformer网络进行二次编码,得到动态标记选择的预测结果;
所述动态地加入α参数计算所述标记特征的每个标记向量的权重的具体方法包括,第i个标记向量的权重
Figure 592258DEST_PATH_IMAGE001
描述为:
Figure 329270DEST_PATH_IMAGE002
其中,
w i 为第i个标记的初始权重;
α i 为参数α的第i个分量,一个可学习的超参数;
Figure 665705DEST_PATH_IMAGE003
||•||为2范数;
S5:将所述标记特征Z L Z L f 进行重塑,得到新的结构化特征;将所述新的结构化特征合并,组成包含上下文特征的标记;将所述包含上下文特征的标记输入第三Transformer网络编码学习,得到标记合并的预测结果;
所述将所述标记特征Z L Z L f 进行重塑,重塑的具体条件为:
Z L s ∈RHs×Ws×D
其中,
Figure 95549DEST_PATH_IMAGE004
所述将所述新的结构化特征合并,合并的具体条件为:
Z L,tm ∈R Hm×Wm×D
其中,
Figure 337174DEST_PATH_IMAGE005
S表示滑动窗口的步长;
Ph m为合并后斑块的高度;
Pw m为合并后斑块的宽度;
H、W d 分别表示图像的高度、宽度;
S6:表情识别最后的结果是动态标记选择的预测结果和标记合并的预测结果取平均,从平均结果中取预测结果最大的值表示表情识别的结果。
2.根据权利要求1所述的基于Transformer的标记选择和合并的表情识别方法,其特征在于,所述构成标记嵌入向量Z 0包括:在X p =[X p 1; X p 2;..., X p N ]中加入一个类标记X cls Z 0 =[X cls ; X p 1; X p 2;..., X p N ]。
3.根据权利要求2所述的基于Transformer的标记选择和合并的表情识别方法,其特征在于,所述构成标记嵌入向量Z 0还包括:在Z 0 中加入位置向量X pos Z 0=[X cls ; X p 1; X p 2;..., X p N ]+ X pos
4.根据权利要求1所述的基于Transformer的标记选择和合并的表情识别方法,其特征在于,所述分割成不重叠的斑块的具体方法包括:
每个RGB图像
Figure 674615DEST_PATH_IMAGE006
,其中H、W d 和C分别表示高度、宽度和通道的数量;
产生的斑块数量N描述为
Figure 318086DEST_PATH_IMAGE007
,其中Ph
Figure 653252DEST_PATH_IMAGE008
表示每个图像斑块的分辨率;
将图像I重塑为一串扁平化的二维斑块
Figure 382174DEST_PATH_IMAGE009
5.根据权利要求1所述的基于Transformer的标记选择和合并的表情识别方法,其特征在于,所述第一Transformer网络用于分类的向量Z b 表示为:Z b =LN(Z L 0);然后Z b 被送入全连接层,为表情识别生成中间预测结果;所述中间预测结果用于构成第一Transformer网络训练的损失函数。
6.基于Transformer的标记选择和合并的表情识别系统,其特征在于,所述系统包括:
图像分割模块、斑块线性投影模块、第一Transformer网络、动态标记选择模块、标记合并模块和表情识别模块;
所述图像分割模块:将输入的RGB图像分割成不重叠的斑块,每个所述斑块被认为是一个标记;
所述斑块线性投影模块:通过线性投影将每个斑块映射到一个D维度的特征向量X p ,构成标记嵌入向量Z 0
所述第一Transformer网络:将所述标记嵌入向量输入第一Transformer网络,得到标记特征Z L =[Z L f : Z L 0];
所述动态标记选择模块包括:标记选择模块、第二Transformer网络和第一多层感知机;所述标记选择模块动态地加入α参数计算所述标记特征的每个标记向量的权重,将标记向量的权重的数值较大的前k个标记向量输入第二Transformer网络进行二次编码,得到第一编码向量,将第一编码向量输入所述第一多层感知机得到动态标记选择的预测结果;
所述标记合并模块包括:重塑模块、合并模块、第三Transformer网络和第二多层感知机;所述重塑模块将所述标记特征Z L Z L f 进行重塑,得到新的结构化特征;所述合并模块将所述新的结构化特征合并,组成包含上下文特征的标记;将所述包含上下文特征的标记输入第三Transformer网络编码学习,得到第二编码向量,将第二编码向量输入所述第二多层感知机得到标记合并的预测结果;
所述表情识别模块:表情识别最后的结果是动态标记选择的预测结果和标记合并的预测结果取平均,从平均结果中取预测结果最大的值表示表情识别的结果;
所述动态地加入α参数计算所述标记特征的每个标记向量的权重的具体方法包括,第i个标记向量的权重
Figure 265249DEST_PATH_IMAGE010
描述为:
Figure 763226DEST_PATH_IMAGE011
其中,
w i 为第i个标记的初始权重;
α i 为参数α的第i个分量,一个可学习的超参数;
Figure 534873DEST_PATH_IMAGE012
||•||为2范数;
所述将所述标记特征Z L Z L f 进行重塑,重塑的具体条件为:
Z L s ∈RHs×Ws×D
其中,
Figure 547828DEST_PATH_IMAGE013
所述将所述新的结构化特征合并,合并的具体条件为:
Z L,tm ∈R Hm×Wm×D
其中,
Figure 430334DEST_PATH_IMAGE014
S表示滑动窗口的步长;
Ph m为合并后斑块的高度;
Pw m为合并后斑块的宽度。
7.根据权利要求6所述的基于Transformer的标记选择和合并的表情识别系统,其特征在于,所述构成标记嵌入向量Z 0包括:在X p =[X p 1; X p 2;..., X p N ]中加入一个类标记X cls Z 0 =[X cls ; X p 1; X p 2;..., X p N ]。
8.根据权利要求7所述的基于Transformer的标记选择和合并的表情识别系统,其特征在于,所述构成标记嵌入向量Z 0还包括:在Z 0 中加入位置向量X pos Z 0=[X cls ; X p 1; X p 2;..., X p N ]+ X pos
9.根据权利要求6所述的基于Transformer的标记选择和合并的表情识别系统,其特征在于,所述分割成不重叠的斑块的具体方法包括:
每个RGB图像
Figure 782818DEST_PATH_IMAGE015
,其中H、Wd和C分别表示高度、宽度和通道的数量;
产生的斑块数量N描述为
Figure 725366DEST_PATH_IMAGE016
,其中Ph
Figure 976350DEST_PATH_IMAGE017
表示每个图像斑块的分辨率;
将图像I重塑为一串扁平化的二维斑块
Figure 396967DEST_PATH_IMAGE009
10.根据权利要求6所述的基于Transformer的标记选择和合并的表情识别系统,其特征在于,所述第一Transformer网络用于分类的向量Z b 表示为:Z b =LN(Z L 0);然后Z b 被送入全连接层,为表情识别生成中间预测结果;所述中间预测结果用于构成第一Transformer网络训练的损失函数。
CN202111224946.2A 2021-10-21 2021-10-21 基于Transformer的标记选择和合并的表情识别方法及系统 Active CN113705541B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111224946.2A CN113705541B (zh) 2021-10-21 2021-10-21 基于Transformer的标记选择和合并的表情识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111224946.2A CN113705541B (zh) 2021-10-21 2021-10-21 基于Transformer的标记选择和合并的表情识别方法及系统

Publications (2)

Publication Number Publication Date
CN113705541A CN113705541A (zh) 2021-11-26
CN113705541B true CN113705541B (zh) 2022-04-01

Family

ID=78646904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111224946.2A Active CN113705541B (zh) 2021-10-21 2021-10-21 基于Transformer的标记选择和合并的表情识别方法及系统

Country Status (1)

Country Link
CN (1) CN113705541B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116229530A (zh) * 2021-12-02 2023-06-06 新东方教育科技集团有限公司 图像处理方法、装置、存储介质及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783827A (zh) * 2019-01-31 2019-05-21 沈阳雅译网络技术有限公司 一种基于动态线性聚合的深层神经机器翻译方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210043995A (ko) * 2019-10-14 2021-04-22 삼성전자주식회사 모델 학습 방법 및 장치, 및 시퀀스 인식 방법
CN111783462B (zh) * 2020-06-30 2023-07-04 大连民族大学 基于双神经网络融合的中文命名实体识别模型及方法
CN112464861B (zh) * 2020-12-10 2023-01-31 中山大学 用于智能人机交互的行为早期识别方法、系统及存储介质
CN113257248B (zh) * 2021-06-18 2021-10-15 中国科学院自动化研究所 一种流式和非流式混合语音识别系统及流式语音识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783827A (zh) * 2019-01-31 2019-05-21 沈阳雅译网络技术有限公司 一种基于动态线性聚合的深层神经机器翻译方法

Also Published As

Publication number Publication date
CN113705541A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
Zhou et al. Global and local-contrast guides content-aware fusion for RGB-D saliency prediction
Dave et al. Tclr: Temporal contrastive learning for video representation
CN109426805B (zh) 用于对象检测的方法、设备和计算机程序产品
Siarohin et al. First order motion model for image animation
Lin et al. Bmn: Boundary-matching network for temporal action proposal generation
Li et al. Contour knowledge transfer for salient object detection
Yeo et al. Superpixel-based tracking-by-segmentation using markov chains
Liu et al. Human pose estimation in video via structured space learning and halfway temporal evaluation
CN109598231A (zh) 一种视频水印的识别方法、装置、设备及存储介质
Rad et al. Domain transfer for 3d pose estimation from color images without manual annotations
CN111553267B (zh) 图像处理方法、图像处理模型训练方法及设备
CN110458282A (zh) 一种融合多角度多模态的图像描述生成方法及系统
US20120219186A1 (en) Continuous Linear Dynamic Systems
KR20180070170A (ko) 표정 생성 방법, 표정 생성 장치 및 표정 생성을 위한 학습 방법
Mohanty et al. Robust pose recognition using deep learning
US20130182958A1 (en) Apparatus and method for analyzing body part association
CN110705566B (zh) 一种基于空间金字塔池的多模态融合显著性检测方法
CN112036260B (zh) 一种自然环境下多尺度子块聚合的表情识别方法及系统
Ye et al. Temporal order-preserving dynamic quantization for human action recognition from multimodal sensor streams
Liu et al. An improved hand gesture recognition with two-stage convolution neural networks using a hand color image and its pseudo-depth image
WO2022166840A1 (zh) 人脸属性编辑模型的训练方法、人脸属性编辑方法及设备
CN113705541B (zh) 基于Transformer的标记选择和合并的表情识别方法及系统
Singh et al. Action recognition in dark videos using spatio-temporal features and bidirectional encoder representations from transformers
Wang et al. Understanding human activities in videos: A joint action and interaction learning approach
Korban et al. A multi-modal transformer network for action detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant