CN114612961B - 一种多源跨域表情识别方法、装置及存储介质 - Google Patents

一种多源跨域表情识别方法、装置及存储介质 Download PDF

Info

Publication number
CN114612961B
CN114612961B CN202210138130.6A CN202210138130A CN114612961B CN 114612961 B CN114612961 B CN 114612961B CN 202210138130 A CN202210138130 A CN 202210138130A CN 114612961 B CN114612961 B CN 114612961B
Authority
CN
China
Prior art keywords
source
domain
loss function
label
source domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210138130.6A
Other languages
English (en)
Other versions
CN114612961A (zh
Inventor
卢光明
李英建
张正
罗子娟
李亚桐
张伟彬
陈东鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202210138130.6A priority Critical patent/CN114612961B/zh
Publication of CN114612961A publication Critical patent/CN114612961A/zh
Application granted granted Critical
Publication of CN114612961B publication Critical patent/CN114612961B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种多源跨域表情识别方法、装置及存储介质,方法包括:将预处理后的图像数据划分为源域数据和目标域数据;获取源域数据一致性标签,包括基于源域数据原有的标签学习一个标注模型,用于自动对源域数据进行重新标注;利用基于类别原型的度量学习方法学习跨域不变的特征表示,用于提高源域和目标域特征表示判别性,以及减小特征表示的差异性;对表情识别模型进行训练;将目标域数据输入训练好的表情识别模型中,得到目标域数据的最佳预测标签。本发明可从多个源域数据学习语义知识并将其迁移到目标域数据,提升跨域表情识别方法的泛化性能。

Description

一种多源跨域表情识别方法、装置及存储介质
技术领域
本发明涉及表情识别技术领域,特别是涉及一种多源跨域表情识别方法、装置及存储介质。
背景技术
近年来,由于情感计算方法在智能机器人制造、人机交互和数字娱乐等方面的潜在应用价值,该方向受到了越来越多的关注。人脸表情作为人类传递情感的最有力、最直接的方式之一,是情感计算领域的一个重要研究对象。
现存的表情识别方法大都遵循训练集和测试集来自同一数据库的设置。在这种设置中,训练图像和测试图像之间差异较小,因而经常取得较好的识别结果。然而,由于光照,角度和采集方法等因素的影响,不同数据库中的人脸表情图像之间可能存在较大的差异,导致使用一个数据库训练的表情识别模型难以泛化到其他数据库。值得注意的是,在实际应用场景中,获取人脸表情数据相对容易,而对其进行准确标注通常需要耗费大量资源。如何利用已标记的数据库(源域)训练模型,并将模型学习的知识泛化到无标记的数据库(目标域)中,是表情识别方法实际应用中的一个关键问题。
尽管目前已存在少量的跨域表情识别方法,但他们都局限于单个源域,而没有充分利用多个已标注的大规模数据库作为源域。由于标注者的主观性,导致了不同数据库的标注存在一定的不一致性。仅使用一个数据库作为源域训练模型,可能导致模型存在偏置,无法高效地将源域模型迁移到目标域的数据库。综合利用多个数据库作为源域既可以增加训练数据量,又能降低标注者主观性的负面影响。因此,利用有效的方法,充分学习多个有标签数据集的知识,对提升跨域表情识别方法的泛化性能至关重要。
发明内容
本发明针对上述问题,提供了一种多源跨域表情识别方法、装置及存储介质,可从多个源域数据学习语义知识并将其迁移到目标域数据,提升跨域表情识别方法的泛化性能。
本发明的第一方面,提供了一种多源跨域表情识别方法,方法包括以下步骤:
对图像数据进行人脸检测和关键点检测,并进行预处理;
将预处理后的图像数据划分为源域数据和目标域数据,其中源域数据用于训练表情识别模型;
获取源域数据一致性标签,包括基于源域数据原有的标签学习一个标注模型,用于自动对源域数据进行重新标注;
利用基于类别原型的度量学习方法学习跨域不变的特征表示,具体步骤包括:
以源域数据和目标域数据为输入,利用表情识别模型,以第二交叉熵损失函数为目标函数,采用随机梯度下降算法学习源域数据和目标域数据的特征表示,并在每一次迭代中得到预测标签;
将表情识别模型输出的目标域数据的预测标签作为目标域伪标签;
根据源域数据一致性标签和特征表示,设计基于类别原型的第一损失函数,用于提高源域特征表示判别性,迭代过程中对源域数据的类别原型进行更新;
基于目标域特征表示和目标域伪标签,设计基于类别原型的第二损失函数,用于提高目标域特征表示的判别性,迭代过程中对目标域数据的类别原型进行更新;
基于源域数据和目标域数据的类别原型,设计源域-目标域特征表示差异性损失函数,用于减小特征表示的差异性;
对表情识别模型进行训练,包括:将第二交叉熵损失函数、基于类别原型的第一损失函数、基于类别原型的第二损失函数、源域-目标域特征表示差异性损失函数相加得到整体损失函数,将整体损失函数用于表情识别模型训练,利用随机梯度下降算法进行迭代,直至达到最大迭代次数或表情识别模型收敛;
将目标域数据输入训练好的表情识别模型中,得到目标域数据的最佳预测标签。
本发明的进一步技术方案是:所述对图像数据进行预处理,包括对人脸图像进行旋转校正并进行尺寸归一化。
本发明的进一步技术方案是:所述将预处理后的图像数据划分为源域数据和目标域数据,具体包括:在N个数据库中选择K个数据库作为源域数据库,其中K小于N,未被选择的数据库在每次训练过程中选择其中一个作为目标域数据库。
本发明的进一步技术方案是:所述获取源域数据一致性标签,具体步骤包括初始化训练阶段和重标签阶段:
初始化训练阶段,包括:
利用多个源域数据库,使用第一交叉熵损失函数训练标注模型,标注模型输出每个源域样本的预测分数和类别,用于对不同的源域数据库进行一致化标注;
基于标注模型输出每个源域样本的预测分数的信息熵,设计得分差异损失函数,利用得分差异损失函数对每个源域样本各类别的得分进行约束;
重标签阶段,包括:
将预测类别和原始标签进行比较,当预测类别与原标签类别不同,且预测类别分数比原标签类别得分高出一个阈值时,将对应的源域样本的标签重新标记为预测标签;
利用得分差异损失函数重复重标签阶段至标注模型收敛,将所有源域数据输入到标注模型,获得每个源域数据库的新标签。
本发明的进一步技术方案是:在进入重标签阶段前,重复初始化训练阶段到指定的迭代次数。
本发明的第二方面,提供了一种多源跨域表情识别装置,所述装置包括:
预处理单元,用于对图像数据进行人脸检测和关键点检测,并进行预处理;
图像数据划分单元,用于将预处理后的图像数据划分为源域数据和目标域数据,其中源域数据用于训练表情识别模型;
获取源域数据一致性标签单元,用于基于源域数据原有的标签学习一个标注模型,用于自动对源域数据进行重新标注;
学习跨域不变的特征表示单元,用于利用基于类别原型的度量学习方法学习跨域不变的特征表示,具体步骤包括:
以源域数据和目标域数据为输入,利用表情识别模型,以第二交叉熵损失函数为目标函数,采用随机梯度下降算法学习源域数据和目标域数据的特征表示,并在每一次迭代中得到预测标签;
将表情识别模型输出的目标域数据的预测标签作为目标域伪标签;
根据源域数据一致性标签和特征表示,设计基于类别原型的第一损失函数,用于提高源域特征表示判别性,迭代过程中对源域数据的类别原型进行更新;
基于目标域特征表示和目标域伪标签,设计基于类别原型的第二损失函数,用于提高目标域特征表示的判别性,迭代过程中对目标域数据的类别原型进行更新;
基于源域数据和目标域数据的类别原型,设计源域-目标域特征表示差异性损失函数,用于减小特征表示的差异性;
表情识别模型训练单元,用于对表情识别模型进行训练,包括:将第二交叉熵损失函数、基于类别原型的第一损失函数、基于类别原型的第二损失函数、源域-目标域特征表示差异性损失函数相加得到整体损失函数,将整体损失函数用于表情识别模型训练,利用随机梯度下降算法进行迭代,直至达到最大迭代次数或表情识别模型收敛;
获取最佳预测标签单元,用于将目标域数据输入训练好的表情识别模型中,得到目标域数据的最佳预测标签。
本发明的进一步技术方案是:所述获取源域数据一致性标签单元包括初始化训练模块和重标签模块,初始化训练模块用于:
利用多个源域数据库,使用第一交叉熵损失函数训练标注模型,标注模型输出每个源域样本的预测分数和类别,用于对不同的源域数据库进行一致化标注;
基于标注模型输出每个源域样本的预测分数的信息熵,设计得分差异损失函数,利用得分差异损失函数对每个源域样本各类别的得分进行约束;
重标签模块用于:
将预测类别和原始标签进行比较,当预测类别与原标签类别不同,且预测类别分数比原标签类别得分高出一个阈值时,将对应的源域样本的标签重新标记为预测标签;
利用得分差异损失函数重复重标签阶段至标注模型收敛,将所有源域数据输入到标注模型,获得每个源域数据库的新标签。
本发明的第三方面,提供了一种多源跨域表情识别装置,包括:处理器;以及存储器,其中,所述存储器中存储有计算机可执行程序,当由所述处理器执行所述计算机可执行程序时,执行上述多源跨域表情识别方法。
本发明的第四方面,提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述多源跨域表情识别方法。
本发明的目的是提出一种多源跨域表情识别方法、装置及存储介质,使用多个已标注大规模数据库作为源领域,避免单个源域数据库标注的偏置问题,并为知识迁移提供更多的训练数据,从而有利于提高跨域表情识别的准确率。得到的有益效果具体为:
1.能够同时利用多个源域多样性的知识,减少单源域标签存在偏置的影响,对于提高跨域表情模型的泛化能力具有重要意义;
2.采用多一个源域数据库的数据进行训练,极大地增加了训练样本数量,丰富了训练样本的多样性,有利于源域知识到目标域的正迁移;
3.针对不同数据库标签不一致的问题,采用了重标签策略,自动化地获取一致性的标签,有效降低表情识别模型的学习难度,利于表情识别模型收敛和提高跨域表情识别的准确率;
4.本发明方法可以学习跨域不变的判别性特征表示,对降低各源域之间、源域和目标域之间的差异性具有重要意义,且可提高特征表示的判别性,有利于提高跨域表情识别的准确率。
附图说明
图1是本发明实施例中多源跨域表情识别方法流程示意图;
图2是本发明实施例中JAFFE数据库中的原始图像样本图;
图3是本发明实施例中预处理后的JAFFE数据库图像样本图;
图4是本发明实施例中多源跨域表情识别装置结构示意图;
图5是本发明实施例中获取源域数据一致性标签单元结构示意图;
图6是本发明实施例中的计算机设备的架构。
具体实施方式
为进一步对本发明的技术方案作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的步骤,需要说明的是,以下描述的具体实施例是本发明的一个优选实施案例,用以解释本发明的实现方式、功能特点和优点,并不用限定于本发明。
本发明实施例针对多源跨域表情识别方法、装置及存储介质,提供了如下实施例:
基于本发明的实施例1
本实施例用于说明多源跨域表情识别方法,如图1所示,为本发明实施例的多源跨域表情识别方法流程图:
S1.数据预处理,将所有数据,如视频,图像序列等统一为图像格式。对于视频数据和序列数据,选取其中的关键帧作为代表图像。之后,对图像数据进行人脸检测和关键点检测,确定人脸区域在图像中的位置以及各关键点的位置。根据眼睛、鼻子和嘴巴的位置对人脸图像进行旋转校正并进行尺寸归一化。将所有图像的面部区域裁剪并存储,作为表情识别模型的输入。
优选实施例中,对于视频或图像序列数据,选取每种表情峰值的三帧作为该视频或图像序列的代表图像。例如,CK+数据库中每个序列的表情从中性逐渐过渡到峰值,则选择每个序列的最后三帧作为代表图像;MMI数据库中是视频数据,每个表情从中性表情过渡到峰值后再恢复到中性表情,可取中间三帧作为代表图像。
优选实施例中,获取图像数据后,利用OpenCV工具包和Face++API对图像数据进行人脸检测和关键点检测,以此确定人脸区域在图像中的位置以及各关键点,例如眼睛中心,嘴角的位置。然后,基于仿射变换技术,根据眼睛位置对人脸图像进行旋转校正,使双眼连线与水平方向平行,从而对面部的角度进行规范化。假设(a,b)是图像中的任意一点,两眼中心连线与水平的夹角为θ,则仿射变换后新的坐标可用如下公式描述:
Figure BDA0003505253140000051
其中(a0,b0)是旋转中心的坐标。
图像尺寸归一化是指将所有图像根据眼睛、嘴巴的位置进行裁剪和缩放,使得每张图像中,相应的各关键点的位置基本相同,从而减小尺寸、面部器官位置扰动对表情识别效果的影响。原图和预处理后的图像样例如图2和图3所示。
S2.划分源域和目标域数据。假设共有N个数据库,每次选择其中的K个作为源域数据,记为S={S1,S2...SK},其中
Figure BDA0003505253140000061
用于训练表情识别模型,其中K小于N。剩余的N-K个数据库,每次选择其中一个作为未被选择为源域的数据库作为目标域数据库,记为
Figure BDA0003505253140000062
优选实施例中,所述源域和目标域数据划分是指将所有用到的数据集划分为源域和目标域,共计N个数据集。每次训练的表情识别模型需要使用K个源域和一个目标域,分别记作S={S1,S2...SK}和T。第k个源域含有nsk个样本,每个样本和对应的标签分别记为
Figure BDA0003505253140000063
Figure BDA0003505253140000064
本发明的设置是在目标域标签未知的条件下将源域知识迁移到目标域,因此目标域的数据中只有样本
Figure BDA0003505253140000065
没有标签
Figure BDA0003505253140000066
S3.获取源域一致性标签。基于源域数据库
Figure BDA0003505253140000067
的原始标签
Figure BDA0003505253140000068
学习一个标注模型
Figure BDA0003505253140000069
标注模型
Figure BDA00035052531400000610
可优选Resnet或VGG中的一种,自动化地对数据库进行重新标注,提高不同数据集之间标签的一致性。S3包括初始化训练阶段即S3.1至S3.3和重标签阶段即S3.4和S3.5,具体步骤如下:
S3.1.在初始化训练阶段,利用S2中得到的多个源域数据库中的样本输入到标注模型
Figure BDA00035052531400000611
利用样本原始标签,使用第一交叉熵损失函数Lcls为优化函数,采用随机梯度下降SGD算法训练标注模型
Figure BDA00035052531400000612
该模型的参数为θl,输出每个源域样本的预测分数和类别,用于对不同的源域数据库进行一致化标注。上述第一交叉熵损失函数Lcls的计算方法如下:
Figure BDA00035052531400000613
其中
Figure BDA00035052531400000614
Figure BDA00035052531400000615
分别是第k个源域的第j个样本的原始标签和标注模型
Figure BDA00035052531400000616
在训练过程中对该样本的预测标签,nsk是第k个源域的样本数量,K为源域的数量。
S3.2.基于标注模型
Figure BDA00035052531400000617
输出预测分数的信息熵,设计得分差异损失函数LH对每个样本各类别的预测分数进行约束。LH的计算方式如下:
Figure BDA00035052531400000618
其中
Figure BDA00035052531400000619
是标注模型
Figure BDA00035052531400000620
对第k个源域中第j个样本的第c个类别的预测得分,nsk是第k个源域的样本数量,K为源域的数量。C为类别的总数量。优选实施例中可设定C=7,LH可以增大各类别得分的差异性,对于被预测类别,LH有利于提高其得分;对于其它类别,LH有利于降低其得分。得分差异损失函数LH有利于提高预测类别的确定性,对于后续的重标签步骤有重要意义。
S3.3.使用S3.1和S3.2中的目标函数Lcls和LH训练模型
Figure BDA0003505253140000071
至指定的迭代次数step1,使标注模型
Figure BDA0003505253140000072
基于原始标签
Figure BDA0003505253140000073
充分学习各源域的语义知识,完成该步骤后,标注模型
Figure BDA0003505253140000074
对标注一致的样本能进行较好的预测,而对于不同源域中标注不一致的样本,由于其可能存在表情图像非常相似,但标签不同的情况,标注模型
Figure BDA0003505253140000075
无法对这些数据进行拟合,需要设计重标签策略对其重新进行一致化标注。
S3.4.重标签阶段,基于得分差异损失函数LH设计重标签策略,对不一致标注的数据进行重标签,旨在将标注不一致的样本进行统一标注,提高标注的一致性。在S3.3的基础上,继续对标注模型
Figure BDA0003505253140000076
进行训练。优选实施例中,每隔固定的迭代次数n_epoch,将预测类别和原始标签进行比较,当预测类别与原标签类别不同,且预测类别分数比原标签类别得分高出一个阈值δ时,将所述样本的标签重新标记为预测标签。该过程可用如下的公式描述:
Figure BDA0003505253140000077
其中c为标注模型的预测类别标签,
Figure BDA0003505253140000078
是原始标签,
Figure BDA0003505253140000079
是标注模型对第k个源域的第j个样本属于c类的预测分数,δ是一个阈值,可通过实验选择最佳值。值得注意的是,标注模型
Figure BDA00035052531400000710
使用多个源域的数据进行训练,它融合了来自多个源域的知识,因此本方法可以降低由于单个源域标签的主观性造成的影响。
S3.5.基于S3.1和S3.2中的第一交叉熵损失函数和得分差异损失函数,重复S3.4至标注模型
Figure BDA00035052531400000711
收敛或达到最大迭代次数,此时可获得相对一致的新标签。并将所有源域数据输入到
Figure BDA00035052531400000712
从而获得每个源域数据库的新标签,将一致性标签存储,在后续的训练中使用该标签进行特征表示学习和分类。
S4.利用基于类别原型的度量学习方法学习跨域不变的判别性特征表示,基于类别原型的度量学习方法,通过使用每个类别的代表向量,即类别原型,设计源域度量Lss,目标域度量Ltt和源域-目标域度量Lst,提高各域特征表示的判别性,同时减小各源域之间、源域和目标域之间特征表示的差异性,从而提高表情识别模型
Figure BDA00035052531400000713
的泛化能力,提高跨域表情识别准确率。识别模型
Figure BDA00035052531400000714
是一个分类模型,可优选Resnet,VGG等网络结构中的一个。S4流程具体步骤包括:
S4.1.以源域和目标域数据为输入,采用针对分类任务的识别模型
Figure BDA0003505253140000081
以第二交叉熵损失函数L′cls为目标函数,采用随机梯度下降SGD算法学习各域数据集的特征表示,并在每一次迭代中得到预测标签。其中交叉熵损失函数计算如下:
Figure BDA0003505253140000082
其中
Figure BDA0003505253140000083
Figure BDA0003505253140000084
分别是第k个源域的第j个样本的新标签和标注模型
Figure BDA0003505253140000085
在训练过程中对该样本的预测标签,nsk是第k个源域的样本数量,K为源域的数量。
优选实施例中,对源域和目标域图像进行采样组成一个batch的数据,每个域的样本的采集的数量相同。将采集的样本输入识别模型
Figure BDA0003505253140000086
基于源域的新标签,采用第二交叉熵损失函数L′cls和随机梯度下降SGD算法进行训练,在每次迭代中可获的每个样本的特征表示和预测类别。
S4.2.获取目标域数据的伪标签。对于目标域数据,由于在训练过程中无法获得其真实标签,本发明使用S4.1中模型
Figure BDA0003505253140000087
对目标域数据的预测类别作为伪标签。伪标签在模型迭代过程中不断更新,越来越准确。具体实施过程为:在训练过程中,将
Figure BDA0003505253140000088
对目标域数据
Figure BDA0003505253140000089
的预测类别
Figure BDA00035052531400000810
作为伪标签,即:
Figure BDA00035052531400000811
目标域的伪标签集合为
Figure BDA00035052531400000812
S4.3.基于S3得到的源域一致性标签
Figure BDA00035052531400000813
和S4.1得到的特征表示,设计基于类别原型的第一损失函数Lss,提高各源域的特征表示的判别性,并减小特征表示之间的差异性。其中类别原型的数量为每个数据集的类别数量,每个原型的维度与S4.1中的特征表示维度相同。第一损失函数Lss的计算方式如下:
Figure BDA00035052531400000814
其中,
Figure BDA00035052531400000815
是第k个源域中第i个样本的特征表示,
Figure BDA00035052531400000816
是其对应的新标签,
Figure BDA00035052531400000817
是源域中新标签为
Figure BDA00035052531400000818
类别的代表原型,C为类别的总数量,M是一个超参数。第一损失函数Lss可以减小每个样本的特征表示与其对应的类别原型之间的距离,同时增大特征表示与其他类别原型之间的距离,从而达到提高特征表示判别性的目的。此外,第一损失函数Lss缩小所有同类的源域样本均与对应的原型之间的距离,从而缩小了不用源域样本之间差异性,有利于模型
Figure BDA0003505253140000091
收敛。
每个类别原型通过迭代的方式进行更新,开始将其初始化为从标准正态分布采样的随机值,然后在每次迭代过程中按照如下方式对其进行更新:对第n次迭代时源域的类别原型
Figure BDA0003505253140000092
在第n+1次迭代时的更新方式如下:
Figure BDA0003505253140000093
其中
Figure BDA0003505253140000094
是第k个源域的第i个样本在第n+1次迭代是的特征表示,α是一个权重系数,用于控制每次更新的幅度。
S4.4.基于S4.1得到的特征表示和S4.2得到的目标域伪标签,设计基于类别原型的第二损失函数Ltt以提高目标域特征表示的判别性,其计算方式如下:
Figure BDA0003505253140000095
其中
Figure BDA0003505253140000096
是目标域中第i个样本的特征表示,
Figure BDA0003505253140000097
是其对应的伪标签,
Figure BDA0003505253140000098
为类别为
Figure BDA0003505253140000099
的特征表示对应的类别原型,C是类别的总数,M是一个超参数,通过实验确定。基于类别原型的第二损失函数Ltt有利于提高目标域特征表示的判别性,进而有利于最终的识别。假设在第n次迭代时,目标域类别c的原型为
Figure BDA00035052531400000910
则在第n+1次迭代时,目标域的原型更新方式如下。
Figure BDA00035052531400000911
其中
Figure BDA00035052531400000912
是第i个目标域样本在第n+1次迭代时的特征表示,α是权重系数,用于控制每次更新的幅度。
S4.5.基于S4.3和S4.4中的源域和目标域的类别原型,设计源域-目标域特征表示差异性损失函数Lst,减小特征表示的差异性,从而提高模型
Figure BDA00035052531400000913
在目标域数据上的泛化能力,其中Lst的计算方法如下:
Figure BDA00035052531400000914
其中
Figure BDA00035052531400000915
Figure BDA00035052531400000916
分别是源域和目标域类别c的原型,C为类别数量。
S4.6.联合上述的损失函数第二交叉熵损失函数、基于类别原型的第一损失函数、基于类别原型的第二损失函数、源域-目标域特征表示差异性损失函数,得到如下的整体损失函数:
Loverall=Lcls′+Lss+Ltt+Lst
将Loverall加入到表情识别模型
Figure BDA0003505253140000101
训练过程中,利用随机梯度下降算法进行迭代,直至达到最大迭代次数或模型
Figure BDA0003505253140000102
收敛。
S5.将目标域数据输入训练好的表情识别模型中,得到目标域数据的最佳预测标签。
基于本发明的实施例2
本实施例参照图4来描述根据本公开实施例1的方法对应的装置,一种多源跨域表情识别装置100,装置100包括:预处理单元101,用于对图像数据进行人脸检测和关键点检测,并进行预处理;图像数据划分单元102,用于将预处理后的图像数据划分为源域数据和目标域数据,其中源域数据用于训练表情识别模型;获取源域数据一致性标签单元103,用于基于源域数据原有的标签学习一个标注模型,用于自动对源域数据进行重新标注;学习跨域不变的特征表示单元104,用于利用基于类别原型的度量学习方法学习跨域不变的特征表示,具体步骤包括:以源域数据和目标域数据为输入,利用表情识别模型,以第二交叉熵损失函数为目标函数,采用随机梯度下降算法学习源域数据和目标域数据的特征表示,并在每一次迭代中得到预测标签;将表情识别模型输出的目标域数据的预测标签作为目标域伪标签;根据源域数据一致性标签和特征表示,设计基于类别原型的第一损失函数,用于提高源域特征表示判别性,迭代过程中对源域数据的类别原型进行更新;基于目标域特征表示和目标域伪标签,设计基于类别原型的第二损失函数,用于提高目标域特征表示的判别性,迭代过程中对目标域数据的类别原型进行更新;基于源域数据和目标域数据的类别原型,设计源域-目标域特征表示差异性损失函数,用于减小特征表示的差异性;表情识别模型训练单元105,用于对表情识别模型进行训练,包括:将第二交叉熵损失函数、基于类别原型的第一损失函数、基于类别原型的第二损失函数、源域-目标域特征表示差异性损失函数相加得到整体损失函数,将整体损失函数用于表情识别模型训练,利用随机梯度下降算法进行迭代,直至达到最大迭代次数或表情识别模型收敛;获取最佳预测标签单元106,用于将目标域数据输入训练好的表情识别模型中,得到目标域数据的最佳预测标签。
进一步的,如图5所示,获取源域数据一致性标签单元103包括初始化训练模块1031和重标签模块1032,初始化训练模块1031用于:利用多个源域数据库,使用第一交叉熵损失函数训练标注模型,标注模型输出每个源域样本的预测分数和类别,用于对不同的源域数据库进行一致化标注;基于标注模型输出每个源域样本的预测分数的信息熵,设计得分差异损失函数,利用得分差异损失函数对每个源域样本各类别的得分进行约束;重标签模块1032用于:将预测类别和原始标签进行比较,当预测类别与原标签类别不同,且预测类别分数比原标签类别得分高出一个阈值时,将对应的源域样本的标签重新标记为预测标签;利用得分差异损失函数重复重标签阶段至标注模型收敛,将所有源域数据输入到标注模型,获得每个源域数据库的新标签。
除了上述单元和模块以外,装置100还可以包括其他部件,然而,由于这些部件与本公开实施例的内容无关,因此在这里省略其图示和描述。
一种多源跨域表情识别装置100的具体工作过程参照上述一种多源跨域表情识别方法实施例1的描述,不再赘述。
基于本发明的实施例3
根据本发明实施例的装置也可以借助于图6所示的计算设备的架构来实现。图6示出了该计算设备的架构。如图6所示,计算机系统201、系统总线203、一个或多个CPU 204、输入/输出202、存储器205等。存储器205可以存储计算机处理和/或通信使用的各种数据或文件以及CPU所执行包括实施例1-实施2方法的程序指令。图6所示的架构只是示例性的,在实现不同的设备时,根据实际需要调整图6中的一个或多个组件。
基于本发明的实施例4
本发明实施例也可以被实现为计算机可读存储介质。根据实施例4的计算机可读存储介质上存储有计算机可读指令。当所述计算机可读指令由处理器运行时,可以执行参照以上附图描述的根据本发明实施例1的多源跨域表情识别方法。
综合上述实施例1-实施例4提供的一种多源跨域表情识别方法、装置及存储介质,使用多个已标注大规模数据库作为源领域,避免单个源域数据库标注的偏置问题,并为知识迁移提供更多的训练数据,从而有利于提高跨域表情识别的准确率。得到的有益效果具体为:能够同时利用多个源域多样性的知识,减少单源域标签存在偏置的影响,对于提高跨域表情模型的泛化能力具有重要意义;采用多一个源域数据库的数据进行训练,极大地增加了训练样本数量,丰富了训练样本的多样性,有利于源域知识到目标域的正迁移;针对不同数据库标签不一致的问题,采用了重标签策略,自动化地获取一致性的标签,有效降低表情识别模型的学习难度,利于表情识别模型收敛和提高跨域表情识别的准确率;本发明方法可以学习跨域不变的判别性特征表示,对降低各源域之间、源域和目标域之间的差异性具有重要意义,且可提高特征表示的判别性,有利于提高跨域表情识别的准确率。
在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的步骤、方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种步骤、方法所固有的要素。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (9)

1.一种多源跨域表情识别方法,其特征在于,包括以下步骤:
对图像数据进行人脸检测和关键点检测,并进行预处理;
将预处理后的图像数据划分为源域数据和目标域数据;
获取源域数据一致性标签,包括基于源域数据原有的标签学习一个标注模型,用于自动对源域数据进行重新标注;
利用基于类别原型的度量学习方法学习跨域不变的特征表示,具体步骤包括:
以源域数据和目标域数据为输入,利用表情识别模型,以第二交叉熵损失函数为目标函数,采用随机梯度下降算法学习源域数据和目标域数据的特征表示,并在每一次迭代中得到预测标签;
将表情识别模型输出的目标域数据的预测标签作为目标域伪标签;
根据源域数据一致性标签和特征表示,设计基于类别原型的第一损失函数,用于提高源域特征表示判别性,迭代过程中对源域数据的类别原型进行更新;
基于目标域特征表示和目标域伪标签,设计基于类别原型的第二损失函数,用于提高目标域特征表示的判别性,迭代过程中对目标域数据的类别原型进行更新;
基于源域数据和目标域数据的类别原型,设计源域-目标域特征表示差异性损失函数,用于减小特征表示的差异性;
对表情识别模型进行训练,包括:将第二交叉熵损失函数、基于类别原型的第一损失函数、基于类别原型的第二损失函数、源域-目标域特征表示差异性损失函数相加得到整体损失函数,将整体损失函数用于表情识别模型训练,利用随机梯度下降算法进行迭代,直至达到最大迭代次数或表情识别模型收敛;
将目标域数据输入训练好的表情识别模型中,得到目标域数据的最佳预测标签。
2.根据权利要求1所述的多源跨域表情识别方法,其特征在于,所述对图像数据进行预处理,包括对人脸图像进行旋转校正并进行尺寸归一化。
3.根据权利要求1所述的多源跨域表情识别方法,其特征在于,将预处理后的图像数据划分为源域数据和目标域数据,具体包括:在N个数据库中选择K个数据库作为源域数据库,其中K小于N,未被选择的数据库在每次训练过程中选择其中一个作为目标域数据库。
4.根据权利要求1所述的多源跨域表情识别方法,其特征在于,获取源域数据一致性标签,具体步骤包括初始化训练阶段和重标签阶段:
初始化训练阶段,包括:
利用多个源域数据库,使用第一交叉熵损失函数训练标注模型,标注模型输出每个源域样本的预测分数和类别,用于对不同的源域数据库进行一致化标注;
基于标注模型输出每个源域样本的预测分数的信息熵,设计得分差异损失函数,利用得分差异损失函数对每个源域样本各类别的得分进行约束;
重标签阶段,包括:
将预测类别和原始标签进行比较,当预测类别与原标签类别不同,且预测类别分数比原标签类别得分高出一个阈值时,将对应的源域样本的标签重新标记为预测标签;
利用得分差异损失函数重复重标签阶段至标注模型收敛,将所有源域数据输入到标注模型,获得每个源域数据库的新标签。
5.根据权利要求4所述的多源跨域表情识别方法,其特征在于,在进入重标签阶段前,重复初始化训练阶段到指定的迭代次数。
6.一种多源跨域表情识别装置,其特征在于,所述装置包括:
预处理单元,用于对图像数据进行人脸检测和关键点检测,并进行预处理;
图像数据划分单元,用于将预处理后的图像数据划分为源域数据和目标域数据;
获取源域数据一致性标签单元,用于基于源域数据原有的标签学习一个标注模型,用于自动对源域数据进行重新标注;
学习跨域不变的特征表示单元,用于利用基于类别原型的度量学习方法学习跨域不变的特征表示,具体步骤包括:
以源域数据和目标域数据为输入,利用表情识别模型,以第二交叉熵损失函数为目标函数,采用随机梯度下降算法学习源域数据和目标域数据的特征表示,并在每一次迭代中得到预测标签;
将表情识别模型输出的目标域数据的预测标签作为目标域伪标签;
根据源域数据一致性标签和特征表示,设计基于类别原型的第一损失函数,用于提高源域特征表示判别性,迭代过程中对源域数据的类别原型进行更新;
基于目标域特征表示和目标域伪标签,设计基于类别原型的第二损失函数,用于提高目标域特征表示的判别性,迭代过程中对目标域数据的类别原型进行更新;
基于源域数据和目标域数据的类别原型,设计源域-目标域特征表示差异性损失函数,用于减小特征表示的差异性;
表情识别模型训练单元,用于对表情识别模型进行训练,包括:将第二交叉熵损失函数、基于类别原型的第一损失函数、基于类别原型的第二损失函数、源域-目标域特征表示差异性损失函数相加得到整体损失函数,将整体损失函数用于表情识别模型训练,利用随机梯度下降算法进行迭代,直至达到最大迭代次数或表情识别模型收敛;
获取最佳预测标签单元,用于将目标域数据输入训练好的表情识别模型中,得到目标域数据的最佳预测标签。
7.根据权利要求6所述的多源跨域表情识别装置,其特征在于,所述获取源域数据一致性标签单元包括初始化训练模块和重标签模块,初始化训练模块用于:
利用多个源域数据库,使用第一交叉熵损失函数训练标注模型,标注模型输出每个源域样本的预测分数和类别,用于对不同的源域数据库进行一致化标注;
基于标注模型输出每个源域样本的预测分数的信息熵,设计得分差异损失函数,利用得分差异损失函数对每个源域样本各类别的得分进行约束;
重标签模块用于:
将预测类别和原始标签进行比较,当预测类别与原标签类别不同,且预测类别分数比原标签类别得分高出一个阈值时,将对应的源域样本的标签重新标记为预测标签;
利用得分差异损失函数重复重标签阶段至标注模型收敛,将所有源域数据输入到标注模型,获得每个源域数据库的新标签。
8.一种多源跨域表情识别装置,其特征在于,包括:处理器;以及存储器,其中,所述存储器中存储有计算机可执行程序,当由所述处理器执行所述计算机可执行程序时,执行权利要求1-5中任一项所述的多源跨域表情识别方法。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的多源跨域表情识别方法。
CN202210138130.6A 2022-02-15 2022-02-15 一种多源跨域表情识别方法、装置及存储介质 Active CN114612961B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210138130.6A CN114612961B (zh) 2022-02-15 2022-02-15 一种多源跨域表情识别方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210138130.6A CN114612961B (zh) 2022-02-15 2022-02-15 一种多源跨域表情识别方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN114612961A CN114612961A (zh) 2022-06-10
CN114612961B true CN114612961B (zh) 2023-04-07

Family

ID=81858639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210138130.6A Active CN114612961B (zh) 2022-02-15 2022-02-15 一种多源跨域表情识别方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN114612961B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116955855B (zh) * 2023-09-14 2023-11-24 南京擎天科技有限公司 一种低成本跨地域地址解析模型构建方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210486A (zh) * 2019-05-15 2019-09-06 西安电子科技大学 一种基于素描标注信息的生成对抗迁移学习方法
CN111275175A (zh) * 2020-02-20 2020-06-12 腾讯科技(深圳)有限公司 神经网络训练方法、装置、图像分类方法、设备和介质
CN112270208A (zh) * 2020-09-28 2021-01-26 天津大学 一种基于特征子空间分离的交叉数据域微表情分类方法
CN112287994A (zh) * 2020-10-26 2021-01-29 北京嘀嘀无限科技发展有限公司 伪标签处理方法、装置、设备及计算机可读存储介质
CN113628640A (zh) * 2021-07-15 2021-11-09 河南工业大学 一种基于样本均衡和最大均值差异的跨库语音情感识别方法
WO2022001489A1 (zh) * 2020-06-28 2022-01-06 北京交通大学 一种无监督域适应的目标重识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3874417A1 (en) * 2018-10-29 2021-09-08 HRL Laboratories, LLC Systems and methods for few-shot transfer learning
US11367268B2 (en) * 2019-08-27 2022-06-21 Nvidia Corporation Cross-domain image processing for object re-identification

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210486A (zh) * 2019-05-15 2019-09-06 西安电子科技大学 一种基于素描标注信息的生成对抗迁移学习方法
CN111275175A (zh) * 2020-02-20 2020-06-12 腾讯科技(深圳)有限公司 神经网络训练方法、装置、图像分类方法、设备和介质
WO2022001489A1 (zh) * 2020-06-28 2022-01-06 北京交通大学 一种无监督域适应的目标重识别方法
CN112270208A (zh) * 2020-09-28 2021-01-26 天津大学 一种基于特征子空间分离的交叉数据域微表情分类方法
CN112287994A (zh) * 2020-10-26 2021-01-29 北京嘀嘀无限科技发展有限公司 伪标签处理方法、装置、设备及计算机可读存储介质
CN113628640A (zh) * 2021-07-15 2021-11-09 河南工业大学 一种基于样本均衡和最大均值差异的跨库语音情感识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Yingjian Li et al.JDMAN: Joint Discriminative and Mutual Adaptation Networks for Cross-Domain Facial Expression Recognition.《MM'21:Proceedings of the 29th ACM International Conference on Multimedia》.2021,第3312-3320页. *

Also Published As

Publication number Publication date
CN114612961A (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
CN112115783B (zh) 基于深度知识迁移的人脸特征点检测方法、装置及设备
Liu et al. Incdet: In defense of elastic weight consolidation for incremental object detection
EP3029606A2 (en) Method and apparatus for image classification with joint feature adaptation and classifier learning
CN110909820A (zh) 基于自监督学习的图像分类方法及系统
CN111914085A (zh) 文本细粒度情感分类方法、系统、装置及存储介质
CN113344206A (zh) 融合通道与关系特征学习的知识蒸馏方法、装置及设备
JP2022548187A (ja) 対象再識別方法および装置、端末並びに記憶媒体
CN112597324A (zh) 一种基于相关滤波的图像哈希索引构建方法、系统及设备
CN113011568A (zh) 一种模型的训练方法、数据处理方法及设备
CN114612961B (zh) 一种多源跨域表情识别方法、装置及存储介质
Liu et al. Bilaterally normalized scale-consistent sinkhorn distance for few-shot image classification
Nie et al. Multi-label image recognition with attentive transformer-localizer module
Zhou et al. Online object tracking based on BLSTM-RNN with contextual-sequential labeling
CN116977712A (zh) 基于知识蒸馏的道路场景分割方法、系统、设备及介质
CN115937852A (zh) 一种基于文本驱动的高效弱监督语义分割方法及装置
Liu et al. Combined with the residual and multi-scale method for Chinese thermal power system record text recognition
CN114693997A (zh) 基于迁移学习的图像描述生成方法、装置、设备及介质
Lu et al. A Traffic Sign Detection Network Based on PosNeg-Balanced Anchors and Domain Adaptation
Bose et al. Light Weight Structure Texture Feature Analysis for Character Recognition Using Progressive Stochastic Learning Algorithm
Li et al. Domain adaptation with few labeled source samples by graph regularization
Sun et al. Distilling Siamese Trackers with Attention Mask
Sun et al. Unsupervised person re-identification via global-level and patch-level discriminative feature learning
Yuan et al. A decoupled yolov5 with deformable convolution and multi-scale attention
CN111091198A (zh) 一种数据处理方法及装置
CN114764899B (zh) 基于transformer第一视角下的下一个交互物体预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant