CN111160163A - 一种基于区域关系建模和信息融合建模的表情识别方法 - Google Patents
一种基于区域关系建模和信息融合建模的表情识别方法 Download PDFInfo
- Publication number
- CN111160163A CN111160163A CN201911310196.3A CN201911310196A CN111160163A CN 111160163 A CN111160163 A CN 111160163A CN 201911310196 A CN201911310196 A CN 201911310196A CN 111160163 A CN111160163 A CN 111160163A
- Authority
- CN
- China
- Prior art keywords
- net
- mask
- expression
- modeling
- triple
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Abstract
本发明公开了一种基于区域关系建模和信息融合建模的表情识别方法。该方法通过对表情显著区域的关系进行建模,以及表情显著区域的信息融合进行建模,基于卷积神经网络、循环神经网络以及自动编码器对输入图片的表情进行识别,并且生成表情特征模式图。不同于之前的识别方法,该方法模拟了两个层次的信息建模,最大化提取表情相关特征的同时能够抑制噪声信息。并且通过自动编码器生成表情特征模式图,增强了表情识别的可解释性。
Description
技术领域
本发明属于图像识别、人脸表情识别领域,特别地涉及一种基于区域关系建模和信息融合建模的表情识别方法。在算法设计和模型训练部分涉及了深度学习技术。
背景技术
人脸表情识别是下一代人机交互的重要途径之一。其目标是根据当前人脸图像,自动分析出用户的情绪特征,并划分为某一类别。
对于人脸表情识别的方法,大体可以分为两个流派。第一种是基于人脸动作编码系统(Facial Action Coding System)。它将人脸面部与表情运动有关的肌肉区域进行编码,形成不同的AU(Action Unit)。通过检测一张人脸图像中不同AU的出现与否,来分析当前用户的表情。
而另一类表情识别的方法主要是基于深度学习方法。通过设计不同结构的深度学习网络,对当前人脸图像的表情特征进行提取并分类,得到用户的表情类别。随着计算资源的不断发展,这类方法受到越来越多研究者的重视。本发明所提出的方法也是基于深度学习方法。
人脸表情识别有其独特性,即在人脸中仅有少部分的表情肌肉运动提供了关键性的信息,而大部分人脸样貌特征对于表情识别来说存在着负作用。因此,如何从人脸的样貌特征中提取出最具有价值的表情特征,是设计深度网络的关键所在。而注意力模型给这个问题提供了良好的思路。通过对人脸图片中的关键性表情变化区域进行注意力加强,能够使得提取表情信息的同时最大程度地减少人脸样貌特征的带来的影响。
发明内容
本发明的目的在于提供了一种基于区域关系建模和信息融合建模的表情识别方法。该方法通过两次建模,实现了从人脸图像中对表情特征进行提取和融合,并完成表情识别分类。
为实现上述目的,本发明的技术方案为:一种基于区域关系建模和信息融合建模的表情识别方法。该方法为:使用目标人脸图像生成表情掩模初值,用于指示表情显著性区域。通过对显著性区域之间的关系进行建模,优化掩模的生成结果。将掩模应用于初始表情特征后形成新的表情特征,并对表情特征进行融合建模,形成维度更低、更紧凑的特征用于分类;同时,生成表情模式图,提升表情识别可解释性。
具体的,本发明方法包括如下步骤:
步骤1:预训练网络并生成表情掩模。基于包括L种不同类别的表情图像数据{表情图像Ii,表情类别标签yi},其中i=1,…,N为样本编号。使用卷积神经网络Exp-Net产生中间特征其中H,W,C分别为Gori的长、宽和通道数。卷积神经网络Mask-Net利用Exp-Net产生的中间特征Gori来学习表情显著区域,并生成单通道掩模将掩模M应用于特征Gori上,形成新的表情特征
步骤2:将Gmask输入Exp-Net的后续层完成表情识别分类任务并进行网络预训练,得到优化的Exp-Net权值;
步骤3:构建Refine-Net模型并得到隐特征h。所述Refine-Net模型由单层循环神经网络RNN组成,将步骤1得到的掩模M输入到Refine-Net模型中生成隐特征h;
步骤4:精调掩模M的区域。将Mask-Net与步骤3构建的Refine-Net级联,使用Triplet-Loss对h进行度量学习,以优化Mask-Net的神经元权重,使其生成的掩模M能够更加准确地反映表情显著区域;
步骤5:信息融合建模与分类。精调掩模M之后,以步骤2优化的Exp-Net的权值、步骤4优化的Mask-Net的神经元权重更新Exp-Net、Mask-Net的权值,按照步骤1的方法,得到精调后的表情特征G′mask,将G′mask输入一个由自编码器网络组成的信息融合网络Fuse-Net。G′mask通过Fuse-Net中的编码器后生成一维向量特征其中S为e的长度。所述Fuse-Net的编码器使用Triplet-Loss对e进行度量学习,使其对表情识别任务具有更好的区分度;再使用一个全连接网络对e进行表情分类,得到最终的表情类别q′;Fuse-Net中的解码器用于生成表情模式图R,其中使用Triplet-Loss对R进行度量学习,使相同表情标签的不同样本所生成的表情模式图尽可能相似;同时对每一个样本的R与I使用MSE-Loss,使得同一个样本的表情模式图R与其原图I尽可能相似。通过平衡两种相似性损失的比例训练网络,最终得到表情模式图R。
步骤6:将步骤5更新权重后的Exp-Net、Mask-Net和训练得到的Fuse-Net依次连接,在Fuse-Net的编码器输出连接一个训练好的全连接网络构建得到基于区域关系建模和信息融合建模的表情识别模型,将采集的人脸表情图像输入至表情识别模型中,即可得到采集的人脸表情图像的类别和对应的表情模式图。
进一步地,所述步骤1中所使用的Exp-Net的结构选自VGG-16、VGG-19、Res-Net等常用卷积神经网络结构。所使用的Mask-Net的结构选自单层卷积神经网络、双层卷积神经网络等。
进一步地,步骤1中所述的将掩模M应用于特征Gori形成Gmask的方法如下:
Gmask=M⊙Gori
其中⊙表示按元素相乘。
进一步地,步骤3中所述的显著性区域关系建模方法如下:
(3.2)将Mvec中的每个元素依次输入由单层RNN组成的Refine-Net。其中h为隐层的输出,{oj}j=1,2,…,T为输出层的输出集合;
(3.4)训练完成后,h即为对每一个掩模M进行区域关系建模的结果,它表征表情显著性区域之间的关系。
进一步地,步骤4中所述的掩模精调方法如下:
(4.1)进行三元组抽样。根据样本的表情类别标签yi,随机挑选样本{Ia,Ip,In}组成三元组。其中a表示锚点样本,p表示与锚点样本表情类别相同的样本,n表示与锚点样本表情类别不同的样本;
(4.2)从步骤3得到的隐特征h中找出三元组样本对应的隐特征得到三元组隐特征{ha,hp,hn}。将Mask-Net与Refine-Net进行级联,使用Triplet-Loss对三元组隐特征进行度量学习来训练整个网络,优化Mask-Net的权重,使其生成的掩模M能够更加准确地反映表情显著区域。其中,Triplet-Loss损失函数具体为:
其中A为三元组的组数,[·]+=max(·,0)为Hinge-Loss,α为阈值。
进一步地,步骤5中所述的信息融合建模与分类方法如下:
(5.3)使用步骤4中相同的挑选三元组方法,形成三元组特征{ea,ep,en}。对三元组特征使用Triplet-Loss形成损失函数Lembed训练编码器,使其生成的特征e对表情分类任务具有更好的区分度;
(5.4)将特征e输入一个全连接网络进行表情分类。
进一步地,步骤6中所述的生成表情模式图R的方法如下:
(5.5)使用步骤4中相同的挑选三元组方法,形成三元组特征{Ra,Rp,Rn}。对三元组特征使用Triplet-Loss形成损失函数Lsim:
其中β为阈值;
对三元组中的每一个样本R与其对应的输入图像I使用MSE-Loss形成损失函数Lpattern:
γ为阈值;
解码器的总损失函数为Ldecoder=λ1Lsim+λ2Lpattern,其中λ1、λ2是用于平衡两种损失的参数。通过调整不同的λ1、λ2,使得生成的表情模式图R达到最好的效果。
本发明的有益效果是:
(1)通过对表情显著性区域之间的关系进行建模,并通过度量学习对这种区域关系进行约束,从而寻找到更为准确的表情显著性区域;
(2)通过对信息融合的过程进行建模,使得生成的特征更为紧凑,并且对于表情识别的任务具有更好的区分度;
(3)通过生成表情模式图,提升了表情识别任务的可解释性。
附图说明
图1为本发明实施例的基于区域关系建模和信息融合建模的表情识别方法的步骤流程图;
图2为本发明实施例的精调掩模前后的掩模示意图;
图3为本发明实施例的表情模式图示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应该理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述可以完全理解本发明。
参考图1所示为本发明实施例的基于区域关系建模和信息融合建模的表情识别的步骤流程图。
对于{人脸表情图像Ii,表情类别标签yi},其中i=1,…,N为样本编号,对其进行以下步骤处理:
1.预训练网络并生成表情掩模。具体地:
(1.1)以VGG-Face作为基础网络,组成Exp-Net,将最后一层的神经元输出数更改为匹配人脸表情识别的类别数。将图像I输入网络,并从Conv_5层输出图像的特征其中H,W,C分别为Gori的长、宽和通道数;本实施例以VGG-Face为例,但不限于此,除了VGG-Face以外,还可以采用VGG-16、VGG-19、Res-Net等常用卷积神经网络结构。
Gmask=M⊙Gori
其中⊙表示按元素相乘;
2.将Gmask输入VGG-Face中Conv_5之后的网络,并在最后一层输出表情识别的分类结果。利用表情标签联合训练VGG-Face和Mask-Net。具体地,损失函数如下:
其中N为样本总数,yi为真值标签,qi为预测的表情类别。
3.构建Refine-Net模型并得到隐特征h。具体地:
(3.2)将Mvec中的每个元素依次输入由单层RNN组成的Refine-Net。其中h为隐层的输出,{oj}j=1,2,…, T为输出层的输出集合;
其中‖·‖2为L2范数;
(3.4)训练完成后,h即为对每一个掩模M进行区域关系建模的结果,它表征表情显著性区域之间的关系。
4.精调掩模M的区域。具体地:
(4.1)进行三元组抽样。根据样本的表情类别标签yi,随机挑选样本{Ia,Ip,In}组成三元组。其中a表示锚点样本,p表示与锚点样本表情类别相同的样本,n表示与锚点样本表情类别不同的样本;
(4.2)针对每一个三元组样本,从步骤3得到的隐特征h中找出三元组样本对应的隐特征得到三元组隐特征{ha,hp,hn}。将Mask-Net与Refine-Net进行级联,冻结VGG-Face中的Conv_1到Conv_5层,保证Gori不发生改变。使用Triplet-Loss对三元组隐特征进行度量学习训练Mask-Net与Refine-Net级联网络,优化Mask-Net的权重,使其生成的掩模M能够更加准确地反映表情显著区域。
具体地损失函数为:
其中A为三元组的组数,[·]+=max(·,0)为Hinge-Loss,α为阈值,α为正数,实验中,可以通过设置多个α值,选择实验结果最优的α值。
5.信息融合建模与分类。具体地:
(5.1)以步骤2优化的Exp-Net的权值、步骤4优化的Mask-Net的神经元权重更新Exp-Net、Mask-Net的权值,即固定Exp-Net和Mask-Net的权值,作为特征生成器,按照步骤1的方法,对每一张图像生成表情特征(5.2)将G′mask输入Fuse-Net。其中编码器用于对G′mask进行特征融和建模,生成更紧凑的表情特征
(5.3)使用步骤4中相同的挑选三元组方法,形成三元组特征{ea,ep,en}。对三元组特征使用Triplet-Loss形成损失函数Lembed训练编码器,使其生成的特征e对表情分类任务具有更好的区分度。具体地:
其中β为阈值,β为正数,实验中,可以通过设置多个β值,选择实验结果最优的β值;
(5.4)将特征e输入一个全连接网络进行表情分类。具体地:
其中y′i为真值标签,q′i为预测的表情类别。
生成表情模式图R。具体地:
(5.5)采用步骤4中相同的挑选三元组方法挑选三元组样本,将三元组样本输入Fuse-Net,Fuse-Net的解码器生成三元组特征{Ra,Rp,Rn}。对三元组特征使用Triplet-Loss形成损失函数Lsim。具体地:
其中γ为阈值,γ为正数,实验中,可以通过设置多个γ值,选择实验结果最优的γ值;
对三元组中的每一个样本R与其对应的输入图像I使用MSE-Loss形成损失函数Lpattern。具体地:
解码器的总损失函数为Ldecoder=λ1Lsim+λ2Lpattern,其中λ1、λ2是用于平衡两种损失的参数,为正数。通过调整不同的λ1、λ2,使得生成的表情模式图R达到最好的效果。
6.将步骤5更新权重后的Exp-Net、Mask-Net和训练得到的Fuse-Net依次连接,在Fuse-Net的编码器输出连接一个训练好的全连接网络即可构建得到基于区域关系建模和信息融合建模的表情识别模型,将采集的人脸表情图像输入至表情识别模型中,即可得到采集的人脸表情图像的类别和对应的表情模式图。
图2的第一行表示精调前的掩模示意图,第二行表示通过本方法精调后的掩模示意图,其中α、β、γ均取值0.2,λ1、λ2取值0.5。可以看出掩模的覆盖区域变得更加集中,说明网络能够捕捉到更加具有区分度的表情区域进行特征提取,从而避免了冗余信息对于分类所产生的干扰。
图3的第一行表示输入图像,第二行表示对应图像生成的表情模式图。通过表情模式图,可以把特征可视化。通过最后的图3可以看出,特征可视化以后可以通过肉眼看出表情类别,相比于以往的表情识别方法,具有更好的表情识别任务的可解释性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于区域关系建模和信息融合建模的表情识别方法,其特征在于,该方法包括如下步骤:
步骤1:预训练网络并生成表情掩模。基于包括L种不同类别的表情图像数据{人脸表情图像Ii,表情类别标签yi},其中i=1,…,N为样本编号,使用卷积神经网络Exp-Net对目标图像进行特征提取,并得到每张图像的表情特征其中H,W,C分别为Gori的长、宽和通道数。然后,将Gori输入一个单层或多层卷积神经网络Mask-Net学习表情显著区域,并生成单通道掩模将掩模M应用于特征Gori上,形成新的表情特征
步骤2:将步骤1得到的Gmask输入Exp-Net的后续层完成表情识别分类任务并进行网络预训练,优化Exp-Net的权值;
步骤3:构建Refine-Net模型并得到隐特征h。所述Refine-Net模型由单层循环神经网络RNN组成,将步骤1得到的掩模M输入到Refine-Net模型中生成隐特征h;
步骤4:精调掩模M的区域。将Mask-Net与步骤3构建的Refine-Net级联,使用Triplet-Loss对h进行度量学习,优化Mask-Net的神经元权重,以达到精调掩模M的目的;
步骤5:信息融合建模与分类。以步骤2优化的Exp-Net的权值、步骤4优化的Mask-Net的神经元权重更新Exp-Net、Mask-Net的权值,按照步骤1的方法,得到精调后的表情特征G′mask,将G′mask输入一个由自编码器网络组成的信息融合网络Fuse-Net。G′mask通过Fuse-Net中的编码器后生成一维向量特征其中S为e的长度。所述Fuse-Net的编码器使用Triplet-Loss对e进行度量学习,使其对表情识别任务具有更好的区分度;再使用一个全连接网络对e进行表情分类,得到最终预测的每张表情图像的类别q′;Fuse-Net中的解码器用于生成表情模式图R,其中使用Triplet-Loss对R进行度量学习,同时对每一个样本的R与其对应的输入图像I使用MSE-Loss,通过平衡两种相似性损失的比例训练网络,最终得到表情模式图R。
步骤6:将步骤5更新权值后的Exp-Net、Mask-Net和训练得到的Fuse-Net依次连接,在Fuse-Net的编码器输出连接一个训练好的全连接网络构建得到基于区域关系建模和信息融合建模的表情识别模型,将采集的人脸表情图像输入至表情识别模型中,即可得到采集的人脸表情图像的类别和对应的表情模式图。
2.根据权利要求1所述的方法,其特征在于,所述步骤1中所使用的Exp-Net的结构选自VGG-16、VGG-19、Res-Net等常用卷积神经网络结构。所使用的Mask-Net的结构选自单层卷积神经网络、双层卷积神经网络等。
4.根据权利要求1所述的方法,其特征在于,步骤4所述的精调掩模方法具体如下:
根据样本的表情类别标签yi,随机挑选表情图像数据组成三元组{Ia,Ip,In}。其中a表示锚点样本,p表示与锚点样本表情类别相同的样本,n表示与锚点样本表情类别不同的样本。从步骤3得到的隐特征h中找出三元组样本对应的隐特征得到三元组隐特征{ha,hp,hn}。将Mask-Net与Refine-Net进行级联,使用Triplet-Loss对三元组隐特征进行度量学习训练Mask-Net与Refine-Net级联网络,优化Mask-Net的权重。其中,Triplet-Loss损失函数具体为:
其中A为三元组的组数,[·]+=max(·,0)为Hinge-Loss,α为阈值。
5.根据权利要求1所述的方法,其特征在于,所述步骤5中,采用三元组数据{Ia,Ip,In}得到的三元组特征{ea,ep,en}和三元组特征{Ra,Rp,Rn}分别对Fuse-Net的编码器和解码器进行训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911310196.3A CN111160163B (zh) | 2019-12-18 | 2019-12-18 | 一种基于区域关系建模和信息融合建模的表情识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911310196.3A CN111160163B (zh) | 2019-12-18 | 2019-12-18 | 一种基于区域关系建模和信息融合建模的表情识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111160163A true CN111160163A (zh) | 2020-05-15 |
CN111160163B CN111160163B (zh) | 2022-04-01 |
Family
ID=70557634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911310196.3A Active CN111160163B (zh) | 2019-12-18 | 2019-12-18 | 一种基于区域关系建模和信息融合建模的表情识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111160163B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783621A (zh) * | 2020-06-29 | 2020-10-16 | 北京百度网讯科技有限公司 | 人脸表情识别及模型训练的方法、装置、设备及存储介质 |
CN112784884A (zh) * | 2021-01-07 | 2021-05-11 | 重庆兆琨智医科技有限公司 | 一种医学图像分类方法、系统、介质及电子终端 |
CN114407624A (zh) * | 2021-04-22 | 2022-04-29 | 北京福乐云数据科技有限公司 | 动态离子发生装置及其控制系统 |
CN116071809A (zh) * | 2023-03-22 | 2023-05-05 | 鹏城实验室 | 一种基于多类表征时空交互的人脸时空表征生成方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160275341A1 (en) * | 2015-03-18 | 2016-09-22 | Adobe Systems Incorporated | Facial Expression Capture for Character Animation |
CN107392105A (zh) * | 2017-06-23 | 2017-11-24 | 广东工业大学 | 一种基于反向协同显著区域特征的表情识别方法 |
CN108197602A (zh) * | 2018-01-30 | 2018-06-22 | 厦门美图之家科技有限公司 | 一种卷积神经网络生成方法及表情识别方法 |
CN108805087A (zh) * | 2018-06-14 | 2018-11-13 | 南京云思创智信息科技有限公司 | 基于多模态情绪识别系统的时序语义融合关联判断子系统 |
-
2019
- 2019-12-18 CN CN201911310196.3A patent/CN111160163B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160275341A1 (en) * | 2015-03-18 | 2016-09-22 | Adobe Systems Incorporated | Facial Expression Capture for Character Animation |
CN107392105A (zh) * | 2017-06-23 | 2017-11-24 | 广东工业大学 | 一种基于反向协同显著区域特征的表情识别方法 |
CN108197602A (zh) * | 2018-01-30 | 2018-06-22 | 厦门美图之家科技有限公司 | 一种卷积神经网络生成方法及表情识别方法 |
CN108805087A (zh) * | 2018-06-14 | 2018-11-13 | 南京云思创智信息科技有限公司 | 基于多模态情绪识别系统的时序语义融合关联判断子系统 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783621A (zh) * | 2020-06-29 | 2020-10-16 | 北京百度网讯科技有限公司 | 人脸表情识别及模型训练的方法、装置、设备及存储介质 |
CN111783621B (zh) * | 2020-06-29 | 2024-01-23 | 北京百度网讯科技有限公司 | 人脸表情识别及模型训练的方法、装置、设备及存储介质 |
CN112784884A (zh) * | 2021-01-07 | 2021-05-11 | 重庆兆琨智医科技有限公司 | 一种医学图像分类方法、系统、介质及电子终端 |
CN114407624A (zh) * | 2021-04-22 | 2022-04-29 | 北京福乐云数据科技有限公司 | 动态离子发生装置及其控制系统 |
CN114407624B (zh) * | 2021-04-22 | 2024-01-30 | 北京福乐云科技有限公司 | 动态离子发生装置及其控制系统 |
CN116071809A (zh) * | 2023-03-22 | 2023-05-05 | 鹏城实验室 | 一种基于多类表征时空交互的人脸时空表征生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111160163B (zh) | 2022-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111160163B (zh) | 一种基于区域关系建模和信息融合建模的表情识别方法 | |
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN113378632B (zh) | 一种基于伪标签优化的无监督域适应行人重识别方法 | |
CN111126218B (zh) | 一种基于零样本学习的人体行为识别方法 | |
Wang et al. | Research on Web text classification algorithm based on improved CNN and SVM | |
CN111310672A (zh) | 基于时序多模型融合建模的视频情感识别方法、装置及介质 | |
CN108694225A (zh) | 一种图像搜索方法、特征向量的生成方法、装置及电子设备 | |
CN113011357B (zh) | 基于时空融合的深度伪造人脸视频定位方法 | |
CN110853656B (zh) | 基于改进神经网络的音频篡改识别方法 | |
CN113326731A (zh) | 一种基于动量网络指导的跨域行人重识别算法 | |
CN114360005B (zh) | 一种基于AU区域和多层级Transformer融合模块的微表情分类方法 | |
Huang et al. | Large-scale weakly-supervised content embeddings for music recommendation and tagging | |
CN112749274A (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN112651940A (zh) | 基于双编码器生成式对抗网络的协同视觉显著性检测方法 | |
CN111027681B (zh) | 时序数据处理模型训练方法、数据处理方法、装置及存储介质 | |
Agrawal et al. | Image Caption Generator Using Attention Mechanism | |
Hu et al. | Semi-supervised learning based on GAN with mean and variance feature matching | |
CN108256463A (zh) | 基于esn神经网络的移动机器人场景识别方法 | |
CN114821299A (zh) | 一种遥感图像变化检测方法 | |
CN113222002A (zh) | 一种基于生成式鉴别性对比优化的零样本分类方法 | |
CN113297936A (zh) | 一种基于局部图卷积网络的排球群体行为识别方法 | |
CN112560440A (zh) | 一种基于深度学习的面向方面级情感分析的句法依赖方法 | |
Abuzneid et al. | Improving human face recognition using deep learning based image registration and multi-classifier approaches | |
Ling et al. | A facial expression recognition system for smart learning based on YOLO and vision transformer | |
CN115329821A (zh) | 一种基于配对编码网络和对比学习的舰船噪声识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |