CN111832435A - 基于迁移与弱监督的美丽预测方法、装置及存储介质 - Google Patents

基于迁移与弱监督的美丽预测方法、装置及存储介质 Download PDF

Info

Publication number
CN111832435A
CN111832435A CN202010586901.9A CN202010586901A CN111832435A CN 111832435 A CN111832435 A CN 111832435A CN 202010586901 A CN202010586901 A CN 202010586901A CN 111832435 A CN111832435 A CN 111832435A
Authority
CN
China
Prior art keywords
image
domain network
value
label
target domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010586901.9A
Other languages
English (en)
Inventor
甘俊英
白振峰
翟懿奎
何国辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuyi University
Original Assignee
Wuyi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuyi University filed Critical Wuyi University
Priority to CN202010586901.9A priority Critical patent/CN111832435A/zh
Priority to US17/414,196 priority patent/US11769319B2/en
Priority to PCT/CN2020/104569 priority patent/WO2021258482A1/zh
Publication of CN111832435A publication Critical patent/CN111832435A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Abstract

本发明公开了基于迁移和弱监督的人脸美丽预测方法、装置及存储介质,其中方法包括:预处理输入的人脸图像;利用预处理图像训练源域网络,并将源域网络的参数迁移至目标域网络;将标有噪声标签的噪声图像和标有真值标签的真值图像输入至所述目标域网络得到图像特征;将图像特征输入至分类网络得到最终人脸美丽预测结果。有效解决了模型所需数据量过大、模型容易过拟合、模型泛化能力弱、训练时间长问题,提高模型的稳定性和鲁棒性;而且解决了数据库标签的不可靠性问题。

Description

基于迁移与弱监督的美丽预测方法、装置及存储介质
技术领域
本发明涉及图像处理领域,特别是基于迁移与弱监督的美丽预测方法、装置及存储介质。
背景技术
人脸美丽预测技术是通过图像处理与人工智能的结合,智能判断人脸美丽等级。目前人脸美丽预测技术主要通过深度学习实现,但深度学习网络要求有大量的训练样本、训练模型容易过拟合、忽略多任务之间的相关性和差异性、强监督学习中数据标注成本较高以及忽略了获取数据库全部真值标签较困难的实际情况。目前,大多数任务是针对单任务、强标签数据进行模型训练的,单任务忽略了任务之间的关联性,现实生活中的任务往往有千丝万缕的联系;现实生活中强标签数据难以全部获取,并且全部获取真值标签成本昂贵。
发明内容
本发明的目的在于至少解决现有技术中存在的技术问题之一,提供基于迁移与弱监督的美丽预测方法、装置及存储介质。
本发明解决其问题所采用的技术方案是:
本发明的第一方面,基于迁移与弱监督的美丽预测方法,包括以下步骤:
预处理输入的人脸图像得到预处理图像;
利用所述预处理图像训练源域网络,并将训练后的所述源域网络的参数迁移至目标域网络;其中在迁移过程中,对于所述源域网络,根据所述源域网络的T值大于1的softmax层的输出与原始标签得到所述源域网络的损失函数;对于所述目标域网络,根据所述目标域网络的T值大于1的softmax层的输出与原始标签得到所述目标域网络的第一子损失函数,根据所述目标域网络的T值等于1的softmax层的输出与原始标签得到所述目标域网络的第二子损失函数,将所述第一子损失函数和所述第二子损失函数相加得到所述目标域网络的损失函数;
将所述预处理图像分为标有噪声标签的噪声图像和标有真值标签的真值图像,将所述噪声图像和所述真值图像输入至所述目标域网络得到图像特征;
将所述图像特征输入至残差网学习从所述图像特征至所述噪声标签与所述真值标签间的差值的映射并得到第一预测值,以及输入至标准神经网络学习从所述图像特征至所述真值标签的映射并得到第二预测值,将所述第一预测值与所述第二预测值相加后输入至第一分类器得到第一人脸美丽预测结果,将所述第二预测值输入至第二分类器得到第二人脸美丽预测结果,根据所述第一人脸美丽预测结果和所述第二人脸美丽预测结果得到最终人脸美丽预测结果。
根据本发明的第一方面,所述预处理输入的人脸图像得到预处理图像具体是:对所述人脸图像依次进行图像增强处理、图像矫正处理、图像裁剪处理、图像去重处理和图像归一化处理得到预处理图像。
根据本发明的第一方面,所述T值是调节参数,定义于softmax层的softmax函数,softmax函数具体为
Figure BDA0002554144230000031
其中qi是softmax函数的输出,z为softmax函数的输入。
根据本发明的第一方面,所述第一分类器的损失函数为:
Figure BDA0002554144230000032
所述第二分类器的损失函数为:
Figure BDA0002554144230000033
其中hi是所述第一预测值与所述第二预测值的和,gj是所述第二预测值,yi是所述噪声标签,vj是真值标签,Dn是所述图像特征,Nn是所述图像特征的数量。
本发明的第二方面,基于迁移与弱监督的美丽预测装置,包括:
预处理模块,用于预处理输入的人脸图像得到预处理图像;
迁移模块,用于利用所述预处理图像训练源域网络,并将训练后的所述源域网络的参数迁移至目标域网络;其中在迁移过程中,对于所述源域网络,根据所述源域网络的T值大于1的softmax层的输出与原始标签得到所述源域网络的损失函数;对于所述目标域网络,根据所述目标域网络的T值大于1的softmax层的输出与原始标签得到所述目标域网络的第一子损失函数,根据所述目标域网络的T值等于1的softmax层的输出与原始标签得到所述目标域网络的第二子损失函数,将所述第一子损失函数和所述第二子损失函数相加得到所述目标域网络的损失函数;
特征提取模块,用于将所述预处理图像分为标有噪声标签的噪声图像和标有真值标签的真值图像,将所述噪声图像和所述真值图像输入至所述目标域网络得到图像特征;
分类模块,用于将所述图像特征输入至残差网学习从所述图像特征至所述噪声标签与所述真值标签间的差值的映射并得到第一预测值,以及输入至标准神经网络学习从所述图像特征至所述真值标签的映射并得到第二预测值,将所述第一预测值与所述第二预测值相加后输入至第一分类器得到第一人脸美丽预测结果,将所述第二预测值输入至第二分类器得到第二人脸美丽预测结果,根据所述第一人脸美丽预测结果和所述第二人脸美丽预测结果得到最终人脸美丽预测结果。
根据本发明的第二方面,所述预处理输入的人脸图像得到预处理图像具体是:对所述人脸图像依次进行图像增强处理、图像矫正处理、图像裁剪处理、图像去重处理和图像归一化处理得到预处理图像。
根据本发明的第二方面,所述T值是调节参数,定义于softmax层的softmax函数,softmax函数具体为
Figure BDA0002554144230000051
其中qi是softmax函数的输出,z为softmax函数的输入。
根据本发明的第二方面,所述第一分类器的损失函数为:
Figure BDA0002554144230000052
所述第二分类器的损失函数为:
Figure BDA0002554144230000053
其中hi是所述第一预测值与所述第二预测值的和,gj是所述第二预测值,yi是所述噪声标签,vj是真值标签,Dn是所述图像特征,Nn是所述图像特征的数量。
本发明的第三方面,基于迁移与弱监督的美丽预测装置,包括处理器与所述处理器连接的存储器;所述存储器存储有可执行指令;所述处理器执行所述可执行指令,以执行如本发明第一方面所述的基于迁移与弱监督的美丽预测方法。
本发明的第四方面,存储介质存储有可执行指令,可执行指令能被计算机执行,使所述计算机执行如本发明第一方面所述的基于迁移与弱监督的美丽预测方法。
上述方案至少具有以下的有益效果:不仅利用迁移解决样本数量不足的问题,利用源域网络的参数增强目标域网络,有效解决了模型所需数据量过大、模型容易过拟合、模型泛化能力弱、训练时间长问题,提高模型的稳定性和鲁棒性;而且解决了数据库标签的不可靠性问题,在数据标签不准确、不足够、不具体的情况下也可进行相关模型训练;适应性强且能降低数据标注成本和失误标注对模型的影响。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
下面结合附图和实例对本发明作进一步说明。
图1是本发明实施例基于迁移与弱监督的美丽预测方法的流程图;
图2是本发明实施例基于迁移与弱监督的美丽预测装置的结构图;
图3是人脸美丽预测模型的结构图。
具体实施方式
本部分将详细描述本发明的具体实施例,本发明之较佳实施例在附图中示出,附图的作用在于用图形补充说明书文字部分的描述,使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案,但其不能理解为对本发明保护范围的限制。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
参照图1和图3,本发明的某些实施例,提供了基于迁移与弱监督的美丽预测方法,包括以下步骤:
步骤S100、预处理输入的人脸图像得到预处理图像;
步骤S200、利用预处理图像训练源域网络110,并将训练后的源域网络110的参数迁移至目标域网络120;其中在迁移过程中,对于源域网络110,根据源域网络110的T值大于1的softmax层的输出与原始标签得到源域网络110的损失函数;对于目标域网络120,根据目标域网络120的T值大于1的softmax层的输出与原始标签得到目标域网络120的第一子损失函数,根据目标域网络120的T值等于1的softmax层的输出与原始标签得到目标域网络120的第二子损失函数,将第一子损失函数和第二子损失函数相加得到目标域网络120的损失函数;
步骤S300、将预处理图像分为标有噪声标签的噪声图像和标有真值标签的真值图像,将噪声图像和真值图像输入至目标域网络120得到图像特征;
步骤S400、将图像特征输入至残差网210学习从图像特征至噪声标签与真值标签间的差值的映射并得到第一预测值,以及输入至标准神经网络220学习从图像特征至真值标签的映射并得到第二预测值,将第一预测值与第二预测值相加后输入至第一分类器230得到第一人脸美丽预测结果,将第二预测值输入至第二分类器240得到第二人脸美丽预测结果,根据第一人脸美丽预测结果和第二人脸美丽预测结果得到最终人脸美丽预测结果。
在该实施例中,不仅利用迁移解决样本数量不足的问题,利用源域网络110的参数增强目标域网络120,有效解决了模型所需数据量过大、模型容易过拟合、模型泛化能力弱、训练时间长问题,提高模型的稳定性和鲁棒性;而且解决了数据库标签的不可靠性问题,在数据标签不准确、不足够、不具体的情况下也可进行相关模型训练;适应性强且能降低数据标注成本和失误标注对模型的影响。
进一步,输入的人脸图像是融合了多个数据库的数据,包括LSFBD人脸美丽数据库、Fer2013人脸表情数据库、GENKI-4K微笑识别数据库、IMDB-WIKI 500k+数据库以及SCUT-FBP5500数据库。
在步骤S100中,对人脸图像依次进行图像增强处理、图像矫正处理、图像裁剪处理、图像去重处理和图像归一化处理得到预处理图像。预处理能高效地对人脸图像进行区域检测以及关键点检测,以及对齐和裁剪,使人脸图像大小一致,便于后续操作。
将预处理图像输入至人脸美丽预测模型,人脸美丽预测模型执行步骤S200、步骤S300和步骤S400。
进一步,在步骤S200中,利用预处理图像训练源域网络110,并将训练后的源域网络110的参数迁移至目标域网络120。其中在迁移过程中,对于源域网络110,根据源域网络110的T值大于1的softmax层的输出与原始标签得到源域网络110的损失函数;对于目标域网络120,根据目标域网络120的T值大于1的softmax层的输出与原始标签得到目标域网络120的第一子损失函数,根据目标域网络120的T值等于1的softmax层的输出与原始标签得到目标域网络120的第二子损失函数,将第一子损失函数和第二子损失函数相加得到目标域网络120的损失函数。通过让T值升高,然后在后续阶段恢复至1,从而将源域网络110训练预处理图像的参数提取。
计算损失函数,梯度下降,更新目标域网络120的参数。
其中,T值是调节参数,定义于softmax层的softmax函数,softmax函数具体为
Figure BDA0002554144230000091
其中qi是softmax函数的输出,z为softmax函数的输入。T值越大,则softmax函数的输出的分布越平缓;当T值趋向于无穷,则softmax函数的输出则是一个均匀分布且近似于源域网络110。
另外,对于迁移过程,其总体的损失函数为:L=CE(y,p)+αCE(q,p),其中CE=-∑p*logq,p是源域网络110产生的分布。
进一步,在步骤S300中,目标域网络120起到特征提取层的作用。特征提取层是VGG16、ResNet50、Google Inception V3或DenseNet中的一种。在本实施例中,目标域网络120的具体结构为:第一层为3*3大小的卷积层;第二层为3*3大小的卷积层;第三层为3*3大小的卷积层;第四层为池化层;第五层为3*3大小的卷积层;第六层为3*3大小的卷积层;第七层为池化层;第八层为3*3大小的卷积层;第九层为3*3大小的卷积层;第十层为3*3大小的卷积层;第十一层为池化层;第十二层为3*3大小的卷积层;第十三层为3*3大小的卷积层;第十四层为池化层。通过特征提取层提取图像特征,在提取过程中根据实际任务可以对特征提取层进行结构调整、参数优化,寻找最优的形式。
进一步,在步骤S400中,将图像特征输入至残差网210学习从图像特征至噪声标签与真值标签间的差值的映射并得到第一预测值,利用噪声标签监督进入残差网210的所有图像特征;以及将图像特征输入至标准神经网络220学习从图像特征至真值标签的映射并得到第二预测值,利用真值标签监督进入标准神经网络220的所有图像特征。将第一预测值与第二预测值相加后输入至第一分类器230得到第一人脸美丽预测结果,将第二预测值输入至第二分类器240得到第二人脸美丽预测结果。根据第一人脸美丽预测结果和第二人脸美丽预测结果得到最终人脸美丽预测结果。具体为K=w1*K1+w2*K2,其中K为最终人脸美丽预测结果,w1和w2为权重,K1和K2分别是第一人脸美丽预测结果和第二人脸美丽预测结果。
其中,第一分类器230的损失函数为:
Figure BDA0002554144230000111
第二分类器240的损失函数为:
Figure BDA0002554144230000112
其中hi是第一预测值与第二预测值的和,gj是第二预测值,yi是噪声标签,vj是真值标签,Dn是图像特征,Nn是图像特征的数量。
另外,该由残差网210、标准神经网络220、第一分类器230和第二分类器240组成的部分的总体目标为:
Figure BDA0002554144230000113
,其中W是超参数,α是残差网210的损失值与标准神经网络220的损失值之间的权衡参数。
参照图2,本发明的某些实施例,提供了基于迁移与弱监督的美丽预测装置,应用了如方法实施例所述的基于迁移与弱监督的美丽预测装置,美丽预测装置包括:
预处理模块10,用于预处理输入的人脸图像得到预处理图像;
迁移模块20,用于利用预处理图像训练源域网络110,并将训练后的源域网络110的参数迁移至目标域网络120;其中在迁移过程中,对于源域网络110,根据源域网络110的T值大于1的softmax层的输出与原始标签得到源域网络110的损失函数;对于目标域网络120,根据目标域网络120的T值大于1的softmax层的输出与原始标签得到目标域网络120的第一子损失函数,根据目标域网络120的T值等于1的softmax层的输出与原始标签得到目标域网络120的第二子损失函数,将第一子损失函数和第二子损失函数相加得到目标域网络120的损失函数;
特征提取模块30,用于将预处理图像分为标有噪声标签的噪声图像和标有真值标签的真值图像,将噪声图像和真值图像输入至目标域网络120得到图像特征;
分类模块40,用于将图像特征输入至残差网210学习从图像特征至噪声标签与真值标签间的差值的映射并得到第一预测值,以及输入至标准神经网络220学习从图像特征至真值标签的映射并得到第二预测值,将第一预测值与第二预测值相加后输入至第一分类器230得到第一人脸美丽预测结果,将第二预测值输入至第二分类器240得到第二人脸美丽预测结果,根据第一人脸美丽预测结果和第二人脸美丽预测结果得到最终人脸美丽预测结果。
在该装置实施例中,基于迁移与弱监督的美丽预测装置应用如方法实施例所述的基于迁移与弱监督的美丽预测方法,经各个模块的配合,能执行基于迁移与弱监督的美丽预测方法的各个步骤,具有和基于迁移与弱监督的美丽预测方法相同的技术效果,在此不再详述。
本发明的某些实施例,基于迁移与弱监督的美丽预测装置,包括处理器与处理器连接的存储器;存储器存储有可执行指令;处理器执行可执行指令,以执行如方法实施例的基于迁移与弱监督的美丽预测方法。
本发明的某些实施例,存储介质存储有可执行指令,可执行指令能被计算机执行,使计算机执行如方法实施例所述的基于迁移与弱监督的美丽预测方法。
存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
以上所述,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,都应属于本发明的保护范围。

Claims (10)

1.基于迁移与弱监督的美丽预测方法,其特征在于,包括以下步骤:
预处理输入的人脸图像得到预处理图像;
利用所述预处理图像训练源域网络,并将训练后的所述源域网络的参数迁移至目标域网络;其中在迁移过程中,对于所述源域网络,根据所述源域网络的T值大于1的softmax层的输出与原始标签得到所述源域网络的损失函数;对于所述目标域网络,根据所述目标域网络的T值大于1的softmax层的输出与原始标签得到所述目标域网络的第一子损失函数,根据所述目标域网络的T值等于1的softmax层的输出与原始标签得到所述目标域网络的第二子损失函数,将所述第一子损失函数和所述第二子损失函数相加得到所述目标域网络的损失函数;
将所述预处理图像分为标有噪声标签的噪声图像和标有真值标签的真值图像,将所述噪声图像和所述真值图像输入至所述目标域网络得到图像特征;
将所述图像特征输入至残差网学习从所述图像特征至所述噪声标签与所述真值标签间的差值的映射并得到第一预测值,以及输入至标准神经网络学习从所述图像特征至所述真值标签的映射并得到第二预测值,将所述第一预测值与所述第二预测值相加后输入至第一分类器得到第一人脸美丽预测结果,将所述第二预测值输入至第二分类器得到第二人脸美丽预测结果,根据所述第一人脸美丽预测结果和所述第二人脸美丽预测结果得到最终人脸美丽预测结果。
2.根据权利要求1所述的基于迁移与弱监督的美丽预测方法,其特征在于,所述预处理输入的人脸图像得到预处理图像具体是:对所述人脸图像依次进行图像增强处理、图像矫正处理、图像裁剪处理、图像去重处理和图像归一化处理得到预处理图像。
3.根据权利要求1所述的基于迁移与弱监督的美丽预测方法,其特征在于,所述T值是调节参数,定义于softmax层的softmax函数,softmax函数具体为
Figure FDA0002554144220000021
其中qi是softmax函数的输出,z为softmax函数的输入。
4.根据权利要求1所述的基于迁移与弱监督的美丽预测方法,其特征在于,所述第一分类器的损失函数为:
Figure FDA0002554144220000022
所述第二分类器的损失函数为:
Figure FDA0002554144220000023
其中hi是所述第一预测值与所述第二预测值的和,gj是所述第二预测值,yi是所述噪声标签,vj是真值标签,Dn是所述图像特征,Nn是所述图像特征的数量。
5.基于迁移与弱监督的美丽预测装置,其特征在于,包括:
预处理模块,用于预处理输入的人脸图像得到预处理图像;
迁移模块,用于利用所述预处理图像训练源域网络,并将训练后的所述源域网络的参数迁移至目标域网络;其中在迁移过程中,对于所述源域网络,根据所述源域网络的T值大于1的softmax层的输出与原始标签得到所述源域网络的损失函数;对于所述目标域网络,根据所述目标域网络的T值大于1的softmax层的输出与原始标签得到所述目标域网络的第一子损失函数,根据所述目标域网络的T值等于1的softmax层的输出与原始标签得到所述目标域网络的第二子损失函数,将所述第一子损失函数和所述第二子损失函数相加得到所述目标域网络的损失函数;
特征提取模块,用于将所述预处理图像分为标有噪声标签的噪声图像和标有真值标签的真值图像,将所述噪声图像和所述真值图像输入至所述目标域网络得到图像特征;
分类模块,用于将所述图像特征输入至残差网学习从所述图像特征至所述噪声标签与所述真值标签间的差值的映射并得到第一预测值,以及输入至标准神经网络学习从所述图像特征至所述真值标签的映射并得到第二预测值,将所述第一预测值与所述第二预测值相加后输入至第一分类器得到第一人脸美丽预测结果,将所述第二预测值输入至第二分类器得到第二人脸美丽预测结果,根据所述第一人脸美丽预测结果和所述第二人脸美丽预测结果得到最终人脸美丽预测结果。
6.根据权利要求5所述的基于迁移与弱监督的美丽预测装置,其特征在于,所述预处理输入的人脸图像得到预处理图像具体是:对所述人脸图像依次进行图像增强处理、图像矫正处理、图像裁剪处理、图像去重处理和图像归一化处理得到预处理图像。
7.根据权利要求5所述的基于迁移与弱监督的美丽预测装置,其特征在于,所述T值是调节参数,定义于softmax层的softmax函数,softmax函数具体为
Figure FDA0002554144220000041
其中qi是softmax函数的输出,z为softmax函数的输入。
8.根据权利要求5所述的基于迁移与弱监督的美丽预测装置,其特征在于,所述第一分类器的损失函数为:
Figure FDA0002554144220000042
所述第二分类器的损失函数为:
Figure FDA0002554144220000043
其中hi是所述第一预测值与所述第二预测值的和,gj是所述第二预测值,yi是所述噪声标签,vj是真值标签,Dn是所述图像特征,Nn是所述图像特征的数量。
9.基于迁移与弱监督的美丽预测装置,其特征在于,包括处理器与所述处理器连接的存储器;所述存储器存储有可执行指令;所述处理器执行所述可执行指令,以执行如权利要求1至4任一项所述的基于迁移与弱监督的美丽预测方法。
10.存储介质,其特征在于,所述存储介质存储有可执行指令,可执行指令能被计算机执行,使所述计算机执行如权利要求1至4任一项所述的基于迁移与弱监督的美丽预测方法。
CN202010586901.9A 2020-06-24 2020-06-24 基于迁移与弱监督的美丽预测方法、装置及存储介质 Pending CN111832435A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010586901.9A CN111832435A (zh) 2020-06-24 2020-06-24 基于迁移与弱监督的美丽预测方法、装置及存储介质
US17/414,196 US11769319B2 (en) 2020-06-24 2020-07-24 Method and device for predicting beauty based on migration and weak supervision, and storage medium
PCT/CN2020/104569 WO2021258482A1 (zh) 2020-06-24 2020-07-24 基于迁移与弱监督的美丽预测方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010586901.9A CN111832435A (zh) 2020-06-24 2020-06-24 基于迁移与弱监督的美丽预测方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN111832435A true CN111832435A (zh) 2020-10-27

Family

ID=72898155

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010586901.9A Pending CN111832435A (zh) 2020-06-24 2020-06-24 基于迁移与弱监督的美丽预测方法、装置及存储介质

Country Status (3)

Country Link
US (1) US11769319B2 (zh)
CN (1) CN111832435A (zh)
WO (1) WO2021258482A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114550315A (zh) * 2022-01-24 2022-05-27 云南联合视觉科技有限公司 身份比对识别方法、装置及终端设备
CN114898424B (zh) * 2022-04-01 2024-04-26 中南大学 一种基于双重标签分布的轻量化人脸美学预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705407A (zh) * 2019-09-20 2020-01-17 五邑大学 基于多任务迁移的人脸美丽预测方法及装置
CN110705406A (zh) * 2019-09-20 2020-01-17 五邑大学 基于对抗迁移学习的人脸美丽预测方法及装置
CN111080123A (zh) * 2019-12-14 2020-04-28 支付宝(杭州)信息技术有限公司 用户风险评估方法及装置、电子设备、存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182394B (zh) * 2017-12-22 2021-02-02 浙江大华技术股份有限公司 卷积神经网络的训练方法、人脸识别方法及装置
CN108520213B (zh) * 2018-03-28 2021-10-19 五邑大学 一种基于多尺度深度的人脸美丽预测方法
CN108629338B (zh) 2018-06-14 2021-10-19 五邑大学 一种基于lbp和卷积神经网络的人脸美丽预测方法
CN109344855B (zh) * 2018-08-10 2021-09-24 华南理工大学 一种基于排序引导回归的深度模型的人脸美丽评价方法
CN109492666B (zh) * 2018-09-30 2021-07-06 北京百卓网络技术有限公司 图像识别模型训练方法、装置及存储介质
CN111274422A (zh) * 2018-12-04 2020-06-12 北京嘀嘀无限科技发展有限公司 模型训练方法、图像特征提取方法、装置及电子设备
US11126826B1 (en) * 2019-04-03 2021-09-21 Shallow.Ai Inc. Machine learning system and method for recognizing facial images
CN110119689A (zh) 2019-04-18 2019-08-13 五邑大学 一种基于多任务迁移学习的人脸美丽预测方法
CN111985265B (zh) * 2019-05-21 2024-04-12 华为技术有限公司 图像处理方法和装置
US11521011B2 (en) * 2019-06-06 2022-12-06 Samsung Electronics Co., Ltd. Method and apparatus for training neural network model for enhancing image detail
CN110414489A (zh) * 2019-08-21 2019-11-05 五邑大学 一种基于多任务学习的人脸美丽预测方法
CN110728294A (zh) 2019-08-30 2020-01-24 北京影谱科技股份有限公司 一种基于迁移学习的跨领域图像分类模型构建方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705407A (zh) * 2019-09-20 2020-01-17 五邑大学 基于多任务迁移的人脸美丽预测方法及装置
CN110705406A (zh) * 2019-09-20 2020-01-17 五邑大学 基于对抗迁移学习的人脸美丽预测方法及装置
CN111080123A (zh) * 2019-12-14 2020-04-28 支付宝(杭州)信息技术有限公司 用户风险评估方法及装置、电子设备、存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MENGYING HU ET AL.: "Weakly Supervised Image Classification through Noise Regularization", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR2019)》 *
甘俊英 等: "结合多任务迁移学习与知识蒸馏的人脸美丽预测研究", 《信号处理》 *

Also Published As

Publication number Publication date
WO2021258482A1 (zh) 2021-12-30
US11769319B2 (en) 2023-09-26
US20220309768A1 (en) 2022-09-29

Similar Documents

Publication Publication Date Title
CN112329680B (zh) 基于类激活图的半监督遥感影像目标检测和分割方法
CN111275175B (zh) 神经网络训练方法、装置、图像分类方法、设备和介质
CN110929577A (zh) 一种基于YOLOv3的轻量级框架改进的目标识别方法
CN113704522B (zh) 基于人工智能的目标图像快速检索方法及系统
CN111680753A (zh) 一种数据标注方法、装置、电子设备及存储介质
CN111832435A (zh) 基于迁移与弱监督的美丽预测方法、装置及存储介质
CN113763385A (zh) 视频目标分割方法、装置、设备及介质
CN112527959B (zh) 基于无池化卷积嵌入和注意分布神经网络的新闻分类方法
CN116861262B (zh) 一种感知模型训练方法、装置及电子设备和存储介质
CN113239883A (zh) 分类模型的训练方法、装置、电子设备以及存储介质
CN116189130A (zh) 基于图像标注模型的车道线分割方法及装置
CN116451081A (zh) 数据漂移的检测方法、装置、终端及存储介质
Wang et al. Q-YOLO: Efficient inference for real-time object detection
CN112906824B (zh) 车辆聚类方法、系统、设备及存储介质
CN111091198B (zh) 一种数据处理方法及装置
CN111475641B (zh) 一种数据抽取方法、装置、存储介质及设备
CN111832436B (zh) 基于多任务与弱监督的美丽预测方法、装置及存储介质
CN114241411B (zh) 基于目标检测的计数模型处理方法、装置及计算机设备
Yu et al. Vision-based vehicle detection in foggy days by convolutional neural network
Liu et al. Research on vehicle detection based on improved YOLOX_S
US20230022253A1 (en) Fast and accurate prediction methods and systems based on analytical models
Sun Construction of Digital Platform of Religious and Cultural Resources Using Deep Learning and Its Big Data Analysis
CN117876751A (zh) 图像处理方法、图像处理系统及计算机可读介质
CN117392462A (zh) 无标签自监督学习的害虫识别方法、装置、设备及介质
CN117131220A (zh) 一种无监督哈希图像检索模型的训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201027