CN113255530A - 基于注意力的多通道数据融合网络架构及数据处理方法 - Google Patents
基于注意力的多通道数据融合网络架构及数据处理方法 Download PDFInfo
- Publication number
- CN113255530A CN113255530A CN202110596740.6A CN202110596740A CN113255530A CN 113255530 A CN113255530 A CN 113255530A CN 202110596740 A CN202110596740 A CN 202110596740A CN 113255530 A CN113255530 A CN 113255530A
- Authority
- CN
- China
- Prior art keywords
- layer
- module
- features
- attention
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 34
- 238000003672 processing method Methods 0.000 title description 3
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000007781 pre-processing Methods 0.000 claims abstract description 18
- 238000013507 mapping Methods 0.000 claims abstract description 14
- 230000014509 gene expression Effects 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims abstract description 8
- 238000012360 testing method Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 5
- 230000001815 facial effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000008921 facial expression Effects 0.000 abstract description 10
- 238000002474 experimental method Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000002996 emotional effect Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013506 data mapping Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005211 surface analysis Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提供了一种基于注意力的多通道数据融合网络AMDFN架构,所述AMDFN包括:数据预处理模块、多通道数据融合模块和层注意模块;所述数据预处理模块用于对原始的三维人脸扫描图像进行预处理,然后将其映射为8种二维人脸属性图像;所述多通道数据融合模块主要对映射后的8种二维人脸属性图像进行8个通道的图像融合,然后将训练集和测试集输入到ResNet骨干中,提取与表情相关的特征;所述层注意模块对网络中不同层的特征之间的相互依赖关系进行建模,通过为不同层次的特征分配不同的注意权重来提高特征的表示能力。本发明执行速度快、效率高,并且实验表明面部表情识别性能也得到大幅提高。
Description
技术领域
本发明涉及机器识别技术领域,具体是一种用于进行面部数据预处理的基于注意力的多通道数据融合网络架构及数据处理方法。
背景技术
随着人工智能和机器视觉的发展,面部识别构成了人机交互中重要的环节。其中,面部表情被认为是解码人类情感的重要的非语言情感线索。近年来,多模态二维+三维融合方法因其在不同空间通道的细粒度人脸描述而在人脸识别领域显示出了巨大的潜力。
然而,目前的研究主要依靠特征级甚至分数级融合来寻找不同渠道传播的情绪线索,这种寻找可能会因焦点不够集中而遗漏关键信息,造成结果的不准确。因此,亟需建立一种更高注意力更高准确性的融合网络以便更好地进行处理和面部分析识别,从而提高3D表情的识别能力。
发明内容
本发明的目的是为了克服现有技术存在的以上不足或改进需求,提供一种基于注意力的多通道数据融合网络(AMDFN),以更好地进行面部数据预处理。
为了解决上述技术问题,本发明提供了一种基于注意力的多通道数据融合网络AMDFN架构,所述AMDFN包括:数据预处理模块、多通道数据融合模块和层注意模块;所述数据预处理模块用于对原始的三维人脸扫描图像进行预处理,然后将其映射为8种二维人脸属性图像;所述多通道数据融合模块主要对映射后的8种二维人脸属性图像进行8个通道的图像融合,然后将训练集和测试集输入到ResNet骨干中,提取与表情相关的特征;所述层注意模块对网络中不同层的特征之间的相互依赖关系进行建模,通过为不同层次的特征分配不同的注意权重来提高特征的表示能力。
进一步的,层注意模块使用轻量级的具有符号函数的门控机制来建模网络中不同层之间的依赖关系,可以对每个层提取的特征给予不同的注意权重。
其中E表示层注意模块的输出,σ表示Sigmoid函数,φ表示ReLU函数,Fc表示全连接层操作。
进一步的,在层注意模块和最后一层获取特征后,通过元素求和来整合这些特征和浅层特征;最后,遵循卷积层生成最终的预测图。
进一步的,所述映射通过使用八个二维属性映射来表示三维面部扫描:纹理图像、曲率图像、深度图像、沿x、y、z方向的三个法线图像。
进一步的,ResNet骨干中,第一个卷积层的输入信道为8,最后一个完全连接层的输出特征为6;中间层共有4层输出级联,为了使每个中间层的输出特征尺寸相同,在前三层中添加的卷积层的输入信道为64、128、256,输出信道全部为512。
本发明还提供了一种使用基于注意力的多通道数据融合网络进行面部数据处理的方法,所述方法包含以下步骤:
步骤1,使用数据预处理模块对原始的三维人脸扫描图像进行预处理,然后将其映射为8幅二维人脸属性图像;
步骤2,使用多通道数据融合模块对映射后的8种二维人脸属性图像进行8个通道的图像融合,然后将训练集和测试集输入到ResNet骨干中,提取与表情相关的特征;
步骤3,通过层注意模块对网络中不同层的特征之间的相互依赖关系进行建模,通过为不同层次的特征分配不同的注意权重来提高特征的表示能力。
进一步的,层注意模块使用轻量级的具有符号函数的门控机制来建模网络中不同层之间的依赖关系,可以对每个层提取的特征给予不同的注意权重。
进一步的,所述映射通过使用八个二维属性映射来表示三维面部扫描:纹理图像、曲率图像、深度图像、沿x、y、z方向的三个法线图像。
本发明还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述步骤。
本发明还提供了一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行上述步骤。
本发明所述的方案与现有的技术相比,具有如下的有益效果是:
1.本发明使用2D属性图像代替3D网格降低了相当大的计算成本,执行速度快,效率高。
2.本发明创造了一种新的、有效的3D FER解决方案,通过AMDFN学习与面部表情相关的鉴别表达表示。在该解决方案中,首先将3D人脸扫描映射的2D面部属性图像合并到ResNet-18中学习面部表情特征,然后通过层注意网络获得不同层特征之间的依赖关系,通过对不同层的特征分配不同的注意权重来提高特征的表示能力,大大提高了识别性能。
本发明的实验结果提供了可靠的证据,优于Bosphorus数据集上的最先进方法。由于计算成本和准确性的提高,将有助于三维FER实时识别的实现。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1是本发明一实施例所提供的AMDFN的框架示意图;
图2是本发明一实施例所提供的层注意模块的网络架构示意图;
图3是本发明一实施例所提供的由6种表情映射的8个2D属性图像的Bosphorus数据集示意图。
具体实施方式
为使相关技术人员能更好的理解本发明,对本次申请的目的、技术方案和优点有更加清晰的了解,下面将结合具体实例和附图对本发明做进一步说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
本发明提供了一种基于注意力的多通道数据融合网络(AMDFN),其框架示意图如图1所示。所述AMDFN主要包括三个模块:数据预处理模块、多通道数据融合模块和层注意模块(层关注)。数据预处理模块用于对原始的三维人脸扫描图像进行预处理,然后将其映射为N种(优选的,为8种)二维人脸属性图像;多通道数据融合模块主要对映射后的8种二维人脸属性图像进行8个通道的图像融合,然后将训练集和测试集输入到ResNet骨干中,提取与表情相关的特征。最后,通过层注意模块对网络中不同图层的特征之间的相互依赖关系进行建模,通过为不同层次的特征分配不同的注意权重来提高特征的表示能力。
在层注意设置中,由于网络中每一层的特征映射被视为对一个特定类的响应,并且来自不同层的响应相互相关。通过利用不同层的特征之间的相互依赖关系,可以强调来自不同层的相互依赖的特征映射,并改进特定语义的特征表示。因此,本申请构建了一个层注意模块来显式地建模不同层的特征之间的相互依赖关系。进一步的,层注意模块的网络架构示意图如图2所示。本申请使用一种轻量级的门控机制来建模网络中不同层之间的依赖关系,以提高提取特征的表示能力。首先,我们直接计算层注意模块的输入特征从连接的特征提取在不同层i=1,2,...,N。具体来说,我们将Fcat转换维度为然后使用全局平均池操作来探索不同中间特征的依赖性。形式上,我们使用表示生成的特征向量,G中的第k元素可以表示为:
为了充分利用全局池化集成的信息来更好地完全捕获特征层方面的依赖关系,我们使用了一种简单的具有符号函数的门控机制,它可以对每个层提取的特征给予不同的注意权重。此外,我们进行特征层乘法,以获得层注意模块的输出:
其中E表示层注意模块的输出,σ表示Sigmoid函数,φ表示ReLU函数,Fc表示全连接层操作。在层注意模块和最后一层获取特征后,我们通过元素求和来整合这些特征和浅层特征,可以更好地稳定深层网络的训练过程。最后,遵循卷积层生成最终的预测图。
其中,利用AMDFN进行数据预处理的过程可分为三个阶段,以表示使用八个属性图像的三维人脸扫描,并将其输入多通道数据融合模块,具体如下:
我们利用3D中的面部表情建模,将人脸扫描映射到8种不同的2D属性图像,命名为深度图像、曲率图像、三幅法线图像以及纹理图像。这些属性图像可以全面描述面部网格的几何和光度细节,因此将其输入到多通道数据融合模块中,以学习不同表情中的不同特征是理想的。我们首先可以通过现有的3D网格数据得到RGB纹理图像(表示为TR、TG、TB)和每个面部网格的图像深度(D)。然后利用网格中每个顶点的坐标信息估计其法线和曲率值,得到沿x、y、z方向的三幅法线图像(Nx、Ny、Nz),以及归一化曲率图像(C)。最后,我们可以用八个二维属性映射来表示三维面部扫描:Nx、Ny、Nz、D、C、TR、TG、TB。
图3示出了一实施例中由6种面部表情网格生成的8种类型的二维属性图像,我们用6种面部表情来说明映射结果。从上到下显示:三幅法线图像(沿x、y、z方向的Nx、Ny、Nz)、深度图像(D)、曲率图像(C)和纹理图像(T)。
关于法线图像和曲率图像的生成过程描述如下:
(一)对于法线图像,表面法线是阴影表面最基本的信息,它是指在一个特定的点上直接远离表面的向量。设F是由三个顶点V1,V2,V3组成的多边形网格中的一个面,每一个顶点都用沿着x,y,z方向的坐标表示为3×1的向量。然后,我们可以计算F的单位法向量Nf:
给定面F的法向量包括点V,在V处的单位法向量Nv可表示为:
我们生成三个正常映射:Nx,Ny,Nz为每个面部网格使用三个分量的法向量在x,y,z方向。正常图像是三维网格最重要的属性之一,因为它提供了一个很好的测量表面在光照下的亮度的方法。
(二)对于曲率图像,曲率图是由网格曲面上的两个主曲率来量化。它由每个顶点V处的曲率值形成,可定义为:
其中,k1(V)和k2(V)代表点V在两个主方向上的最大和最小曲率,范围从0到1不等。为三维网格计算每个顶点的形状索引值。然后我们使用插值技术生成曲率图像。
每个点的主曲率可以用局部三次拟合算法估计,其中以顶点V为原点,法向量NV为z轴,创建局部坐标系。在垂直于NV的平面内,随机生成x和y轴。然后将一个邻域点P转化为局部坐标系,拟合一个立方面z(x,y)及其法向量。其过程可描述为:
方程可以用最小二乘拟合算法求解,对称矩阵可以表示为:
K1(V)和k2(V)是W的特征值。不同类型的面部表情的不同映射如图3所示。选择这些属性图像是因为它们能够描述三维网格的细节。此外,使用2D属性图像代替3D网格降低了相当大的计算成本。
以下介绍多通道数据融合的具体过程:在第一步中,我们将原始的3D面部扫描图像映射成8种2D面部属性图像。因此,我们可以用八个二维属性映射来表示三维面部扫描:纹理图像、曲率图像、深度图像、沿x、y、z方向的三个法线图像。这种操作有两个优点:1)映射简单,选择包含3D网格中大部分细节的基本2D属性图像,从而可以避免3D面部表情信息的丢失;2)学习网络可以通过映射信息获得三维FER的判别表示。
其中,2D+3DFER方法侧重于特征水平和分数水平的融合。在前者中,虽然对于单个网络只需要训练不同的二维人脸特征图像,但对于特征提取子集中的多个二维人脸特征图像,需要并行设计网络,因此时间消耗和内存消耗都很大。在后者中,多个网络需要进行独立的训练,并最终在结果层面上进行融合,这导致了大量的计算时间和内存消耗。在特征提取子集中提取每个二维人脸特征图像的特征时,一些面部表情信息丢失。
因此,在映射操作之后构建多通道数据。所构造数据的形状为C×H×W,其中H×W对应于二维人脸属性图像的大小,C表示融合图像通道(即C=8)。为了方便模型的输入,将每个二维人脸属性图像的空间维数设置为224×224,给3D人脸扫描输入如果Ifs,通过数据映射得到八个通道输入Iai,用卷积块提取Ifs输入的浅层特征F0,计算如下:
F0=CB(M(Ifs),θ0)
其中θs表示卷积块中的网络参数,CB表示卷积块操作,M表示数据映射操作,然后,使用ResNet-18的主干来提取Ifs输入的中间特征Fi,使每个中间层的特征维数相同,使图层注意模块能够捕捉不同中间特征的依赖关系。通过在第N-1层中执行降维操作,以保持与N层输出相同的维数。
计算Fi如下:
其中Fi表示在网络的不同层提取的特征,CLi表示ResNet-18中的第一卷积层操作,Ri表示第一个N-1层的降维操作(例如池和卷积),θri是与Ri相对应的参数。
在执行时,使用ResNet-18作为重点,这是在图像网络数据集预先训练。为了实现多通道融合数据的特征提取,本申请将第一个卷积层的输入信道更改为8,并将最后一个完全连接层的输出特征更改为6。结合图1所示,本申请共有4层输出级联(即N=4)。为了使每个中间层的输出特征尺寸相同,本申请在前三层中添加的卷积层的输入信道为64、128、256,输出信道全部为512,内核大小为1×1,步幅为1,填充量为1;设置前三层的池化操作,最后所有中间层输出均为7×7×512。此外,本申请还添加了一个池化层和一个卷积层在浅层特征之后,将输出维数转换为7×7×512;本申请使用SGD优化器训练网络,学习速率设置为0.01。所有的模型都是在单个NVIDIA RTX 2080Ti并使用Pytorch语言训练的,使用Pytorch进行70次的训练,对于Bosphorus数据集的批处理大小为20。
本发明还提供了一种处理器,所述处理器包括上述基于注意力的多通道数据融合网络架构,或者用于执行上述的方法。
本发明还提供了一种计算机设备,包括存储器、上述处理器及存储在存储器上并可在处理器上运行的计算机程序。其中,所述处理器执行所述程序时实现上述步骤。
综上,本发明首先将3D人脸扫描映射到多通道图像中,然后将它们融合到一个主干网中,以获得分层的情感特征;其次,利用层注意模型来探索不同层特征之间的依赖关系,以学习有效情感识别的辨别情感线索。本发明在广泛使用的Bosphorus数据集上的综合实验验证了本发明的方法与现有技术的其他方案相比具有更为优异的性能。
虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和原则的前提下,可以在实施的形式及细节上进行任何的修改与变化、等同替换等,这些都属于本发明的保护范围。因此,本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (9)
1.一种基于注意力的多通道数据融合网络AMDFN架构,其特征在于,所述AMDFN包括:数据预处理模块、多通道数据融合模块和层注意模块;所述数据预处理模块用于对原始的三维人脸数据进行预处理,然后将其映射为8种二维人脸属性图像;所述多通道数据融合模块主要对映射后的8种二维人脸属性图像进行8个通道的图像融合,然后将训练集和测试集输入到ResNet骨干中,提取与表情相关的特征;所述层注意模块对网络中不同网络层的特征之间的相互依赖关系进行建模,通过为不同层次的特征分配不同的注意权重来提高特征的表示能力。
2.如权利要求1所述的架构,其特征在于:层注意模块使用轻量级的具有符号函数的门控机制来建模网络中不同层之间的依赖关系,可以对每个层提取的特征给予不同的注意权重。
4.如权利要求2所述的架构,其特征在于:ResNet骨干中,第一个卷积层的输入信道为8,最后一个完全连接层的输出特征为6;中间层共有4层输出级联,为了使每个中间层的输出特征尺寸相同,在前三层中添加的卷积层的输入信道为64、128、256,输出信道全部为512。
5.如权利要求1-4任一项所述的架构,其特征在于:所述映射通过使用八个二维属性映射来表示三维面部扫描:纹理图像、曲率图像、深度图像、沿x、y、z方向的三个法线图像。
6.一种使用基于注意力的多通道数据融合网络进行面部数据处理的方法,其特征在于,所述方法包含以下步骤:
步骤1,使用数据预处理模块对原始的三维人脸扫描图像进行预处理,然后将其映射为8种二维人脸属性图像;
步骤2,使用多通道数据融合模块对映射后的8种二维人脸属性图像进行8个通道的图像融合,然后将训练集和测试集输入到ResNet骨干中,提取与表情相关的特征;
步骤3,通过层注意模块对网络中不同层的特征之间的相互依赖关系进行建模,通过为不同层次的特征分配不同的注意权重来提高特征的表示能力。
7.如权利要求6所述的方法,其特征在于,层注意模块使用轻量级的具有符号函数的门控机制来建模网络中不同层之间的依赖关系,可以对每个层提取的特征给予不同的注意权重。
9.如权利要求6-8任一项所述的方法,其特征在于,所述映射通过使用八个二维属性映射来表示三维面部扫描:纹理图像、曲率图像、深度图像、沿x、y、z方向的三个法线图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110596740.6A CN113255530B (zh) | 2021-05-31 | 2021-05-31 | 基于注意力的多通道数据融合网络架构及数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110596740.6A CN113255530B (zh) | 2021-05-31 | 2021-05-31 | 基于注意力的多通道数据融合网络架构及数据处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113255530A true CN113255530A (zh) | 2021-08-13 |
CN113255530B CN113255530B (zh) | 2024-03-29 |
Family
ID=77183479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110596740.6A Active CN113255530B (zh) | 2021-05-31 | 2021-05-31 | 基于注意力的多通道数据融合网络架构及数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113255530B (zh) |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008064431A1 (en) * | 2006-12-01 | 2008-06-05 | Latrobe University | Method and system for monitoring emotional state changes |
CN106778506A (zh) * | 2016-11-24 | 2017-05-31 | 重庆邮电大学 | 一种融合深度图像和多通道特征的表情识别方法 |
CN110287846A (zh) * | 2019-06-19 | 2019-09-27 | 南京云智控产业技术研究院有限公司 | 一种基于注意力机制的人脸关键点检测方法 |
US20200051326A1 (en) * | 2018-08-10 | 2020-02-13 | Htc Corporation | Facial expression modeling method, apparatus and non-transitory computer readable medium of the same |
CN111428699A (zh) * | 2020-06-10 | 2020-07-17 | 南京理工大学 | 伪3d卷积神经网络与注意力机制结合的驾驶疲劳检测方法及系统 |
CN111461038A (zh) * | 2020-04-07 | 2020-07-28 | 中北大学 | 一种基于分层多模式注意力机制的行人再识别方法 |
WO2020168731A1 (zh) * | 2019-02-19 | 2020-08-27 | 华南理工大学 | 一种基于生成对抗机制与注意力机制的标准人脸生成方法 |
CN111639544A (zh) * | 2020-05-07 | 2020-09-08 | 齐齐哈尔大学 | 基于多分支跨连接卷积神经网络的表情识别方法 |
CN111832620A (zh) * | 2020-06-11 | 2020-10-27 | 桂林电子科技大学 | 一种基于双注意力多层特征融合的图片情感分类方法 |
CN112101318A (zh) * | 2020-11-17 | 2020-12-18 | 深圳市优必选科技股份有限公司 | 基于神经网络模型的图像处理方法、装置、设备及介质 |
CN112257647A (zh) * | 2020-11-03 | 2021-01-22 | 徐州工程学院 | 基于注意力机制的人脸表情识别方法 |
CN112307958A (zh) * | 2020-10-30 | 2021-02-02 | 河北工业大学 | 基于时空外观运动注意力网络的微表情识别方法 |
CN112329683A (zh) * | 2020-11-16 | 2021-02-05 | 常州大学 | 一种基于注意力机制融合的多通道卷积神经网络人脸表情识别方法 |
CN112541409A (zh) * | 2020-11-30 | 2021-03-23 | 北京建筑大学 | 一种融入注意力的残差网络表情识别方法 |
CN112750082A (zh) * | 2021-01-21 | 2021-05-04 | 武汉工程大学 | 基于融合注意力机制的人脸超分辨率方法及系统 |
CN112801040A (zh) * | 2021-03-08 | 2021-05-14 | 重庆邮电大学 | 嵌入高阶信息的轻量级无约束人脸表情识别方法及系统 |
CN112800894A (zh) * | 2021-01-18 | 2021-05-14 | 南京邮电大学 | 一种基于时空流间注意力机制的动态表情识别方法及系统 |
CN112836589A (zh) * | 2021-01-13 | 2021-05-25 | 苏州元启创人工智能科技有限公司 | 基于特征融合的视频中人脸表情识别方法 |
-
2021
- 2021-05-31 CN CN202110596740.6A patent/CN113255530B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008064431A1 (en) * | 2006-12-01 | 2008-06-05 | Latrobe University | Method and system for monitoring emotional state changes |
CN106778506A (zh) * | 2016-11-24 | 2017-05-31 | 重庆邮电大学 | 一种融合深度图像和多通道特征的表情识别方法 |
US20200051326A1 (en) * | 2018-08-10 | 2020-02-13 | Htc Corporation | Facial expression modeling method, apparatus and non-transitory computer readable medium of the same |
WO2020168731A1 (zh) * | 2019-02-19 | 2020-08-27 | 华南理工大学 | 一种基于生成对抗机制与注意力机制的标准人脸生成方法 |
CN110287846A (zh) * | 2019-06-19 | 2019-09-27 | 南京云智控产业技术研究院有限公司 | 一种基于注意力机制的人脸关键点检测方法 |
CN111461038A (zh) * | 2020-04-07 | 2020-07-28 | 中北大学 | 一种基于分层多模式注意力机制的行人再识别方法 |
CN111639544A (zh) * | 2020-05-07 | 2020-09-08 | 齐齐哈尔大学 | 基于多分支跨连接卷积神经网络的表情识别方法 |
CN111428699A (zh) * | 2020-06-10 | 2020-07-17 | 南京理工大学 | 伪3d卷积神经网络与注意力机制结合的驾驶疲劳检测方法及系统 |
CN111832620A (zh) * | 2020-06-11 | 2020-10-27 | 桂林电子科技大学 | 一种基于双注意力多层特征融合的图片情感分类方法 |
CN112307958A (zh) * | 2020-10-30 | 2021-02-02 | 河北工业大学 | 基于时空外观运动注意力网络的微表情识别方法 |
CN112257647A (zh) * | 2020-11-03 | 2021-01-22 | 徐州工程学院 | 基于注意力机制的人脸表情识别方法 |
CN112329683A (zh) * | 2020-11-16 | 2021-02-05 | 常州大学 | 一种基于注意力机制融合的多通道卷积神经网络人脸表情识别方法 |
CN112101318A (zh) * | 2020-11-17 | 2020-12-18 | 深圳市优必选科技股份有限公司 | 基于神经网络模型的图像处理方法、装置、设备及介质 |
CN112541409A (zh) * | 2020-11-30 | 2021-03-23 | 北京建筑大学 | 一种融入注意力的残差网络表情识别方法 |
CN112836589A (zh) * | 2021-01-13 | 2021-05-25 | 苏州元启创人工智能科技有限公司 | 基于特征融合的视频中人脸表情识别方法 |
CN112800894A (zh) * | 2021-01-18 | 2021-05-14 | 南京邮电大学 | 一种基于时空流间注意力机制的动态表情识别方法及系统 |
CN112750082A (zh) * | 2021-01-21 | 2021-05-04 | 武汉工程大学 | 基于融合注意力机制的人脸超分辨率方法及系统 |
CN112801040A (zh) * | 2021-03-08 | 2021-05-14 | 重庆邮电大学 | 嵌入高阶信息的轻量级无约束人脸表情识别方法及系统 |
Non-Patent Citations (4)
Title |
---|
HUIBIN LI等: "Multimodal 2D+3D Facial Expression Recognition With Deep Fusion Convolutional Neural Network", 《IEEE TRANSACTIONS ON MULTIMEDIA》 * |
HUIBIN LI等: "Multimodal 2D+3D Facial Expression Recognition With Deep Fusion Convolutional Neural Network", 《IEEE TRANSACTIONS ON MULTIMEDIA》, vol. 19, no. 12, 31 December 2017 (2017-12-31), pages 1 - 6 * |
魏建军: "基于深度卷及神经网络的人脸表情识别技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
魏建军: "基于深度卷及神经网络的人脸表情识别技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, vol. 2021, no. 1, 15 January 2021 (2021-01-15), pages 138 - 1486 * |
Also Published As
Publication number | Publication date |
---|---|
CN113255530B (zh) | 2024-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110458939B (zh) | 基于视角生成的室内场景建模方法 | |
CN109410307B (zh) | 一种场景点云语义分割方法 | |
CN111047548B (zh) | 姿态变换数据处理方法、装置、计算机设备和存储介质 | |
CN110728219B (zh) | 基于多列多尺度图卷积神经网络的3d人脸生成方法 | |
Chen et al. | Visibility-aware point-based multi-view stereo network | |
CN112950775A (zh) | 一种基于自监督学习的三维人脸模型重建方法及系统 | |
CN112132739A (zh) | 3d重建以及人脸姿态归一化方法、装置、存储介质及设备 | |
CN113345106A (zh) | 一种基于多尺度多层级转换器的三维点云分析方法及系统 | |
CN112819951A (zh) | 一种基于深度图修复的带遮挡三维人体重建方法 | |
Shao et al. | Deep multi-center learning for face alignment | |
CN117218300B (zh) | 三维模型的构建方法、三维构建模型的训练方法及装置 | |
CN116385667B (zh) | 三维模型的重建方法、纹理重构模型的训练方法以及装置 | |
Liu et al. | Deep neural networks with attention mechanism for monocular depth estimation on embedded devices | |
CN116958958A (zh) | 基于图卷积双流形状先验自适应类别级物体姿态估计方法 | |
US20220180548A1 (en) | Method and apparatus with object pose estimation | |
Cao et al. | Label-efficient deep learning-based semantic segmentation of building point clouds at LOD3 level | |
CN113255530B (zh) | 基于注意力的多通道数据融合网络架构及数据处理方法 | |
Hu et al. | Self-perceptual generative adversarial network for synthetic aperture sonar image generation | |
Xu et al. | PVLNet: Parameterized-View-Learning neural network for 3D shape recognition | |
Wang et al. | SparseFormer: Sparse transformer network for point cloud classification | |
CN113239771A (zh) | 一种姿态估计方法、系统及其应用 | |
CN112837420A (zh) | 基于多尺度和折叠结构的兵马俑点云的形状补全方法及系统 | |
CN112785684A (zh) | 一种基于局部信息加权机制的三维模型重建方法 | |
Wang et al. | Scene recognition based on DNN and game theory with its applications in human-robot interaction | |
CN116363329B (zh) | 基于CGAN与LeNet-5的三维图像生成方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |