CN111832436B - 基于多任务与弱监督的美丽预测方法、装置及存储介质 - Google Patents

基于多任务与弱监督的美丽预测方法、装置及存储介质 Download PDF

Info

Publication number
CN111832436B
CN111832436B CN202010587525.5A CN202010587525A CN111832436B CN 111832436 B CN111832436 B CN 111832436B CN 202010587525 A CN202010587525 A CN 202010587525A CN 111832436 B CN111832436 B CN 111832436B
Authority
CN
China
Prior art keywords
image
tasks
network
noise
truth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010587525.5A
Other languages
English (en)
Other versions
CN111832436A (zh
Inventor
甘俊英
白振峰
翟懿奎
何国辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuyi University
Original Assignee
Wuyi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuyi University filed Critical Wuyi University
Priority to CN202010587525.5A priority Critical patent/CN111832436B/zh
Priority to US17/424,407 priority patent/US11721128B2/en
Priority to PCT/CN2020/104568 priority patent/WO2021258481A1/zh
Publication of CN111832436A publication Critical patent/CN111832436A/zh
Application granted granted Critical
Publication of CN111832436B publication Critical patent/CN111832436B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/87Arrangements for image or video recognition or understanding using pattern recognition or machine learning using selection of the recognition techniques, e.g. of a classifier in a multiple classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于多任务与弱监督的美丽预测方法、装置及存储介质,其中方法包括:预处理输入的人脸图像;将预处理图像分配至多个任务;提取共享的图像特征;通过多个由残差网、标准神经网络和分类器组成的分类网络得到多个分类结果;利用多任务间的相关性和差异性,增强主任务人脸美丽预测的表达能力;通过弱监督模式的分类网络,减少对真值标签的依赖,降低数据标注成本和降低噪声标签对人脸美丽预测模型的影响,提高人脸美丽预测模型的泛化能力。

Description

基于多任务与弱监督的美丽预测方法、装置及存储介质
技术领域
本发明涉及图像处理领域,特别是基于多任务与弱监督的美丽预测方法、装置及存储介质。
背景技术
人脸美丽预测技术是通过图像处理与人工智能的结合,智能判断人脸美丽等级。目前人脸美丽预测技术主要通过深度学习实现,但深度学习网络要求有大量的训练样本、训练模型容易过拟合、忽略多任务之间的相关性和差异性、强监督学习中数据标注成本较高以及忽略了获取数据库全部真值标签较困难的实际情况。目前,大多数任务是针对单任务、强标签数据进行模型训练的,单任务忽略了任务之间的关联性,现实生活中的任务往往有千丝万缕的联系;现实生活中强标签数据难以全部获取,并且全部获取真值标签成本昂贵。
发明内容
本发明的目的在于至少解决现有技术中存在的技术问题之一,提供基于多任务与弱监督的美丽预测方法、装置及存储介质。
本发明解决其问题所采用的技术方案是:
本发明的第一方面,基于多任务与弱监督的美丽预测方法,包括以下步骤:
预处理输入的人脸图像得到预处理图像,其中所述预处理图像包括标有真值标签的真值图像和标有噪声标签的噪声图像;
将所述预处理图像分配至多个任务,其中每个所述任务包含多个所述真值图像和多个所述噪声图像,多个所述任务包括一个具体为人脸美丽预测的主任务和多个与人脸美丽预测相关的辅任务;
通过特征提取层处理多个所述任务的所述真值图像和所述噪声图像得到共享的图像特征;
通过多个由残差网、标准神经网络和分类器组成的分类网络处理所述图像特征得到多个分类结果,其中多个所述分类网络与多个所述任务一一对应;
其中,在分类网络中,通过所述残差网处理所述图像特征,学习从所述图像特征到所述真值标签与所述噪声标签的残差值的映射,并得到第一预测值;通过所述标准神经网络,学习从所述图像特征到所述真值标签的映射,并得到第二预测值;通过分类器根据所述第一预测值和所述第二预测值得到所述分类结果。
根据本发明的第一方面,所述预处理输入的人脸图像得到预处理图像具体是:对所述人脸图像依次进行图像增强处理、图像矫正处理、图像裁剪处理、图像去重处理和图像归一化处理得到预处理图像。
根据本发明的第一方面,所述特征提取层是VGG16、ResNet50、Google InceptionV3或DenseNet中的一种。
根据本发明的第一方面,多个所述任务的总体损失函数为:
Figure BDA0002554341160000021
其中Ln是单个所述任务的损失,ωn是对应每个所述任务的权重。
根据本发明的第一方面,所述残差网的损失函数为:
Figure BDA0002554341160000031
其中Dn是所述图像特征,yi是所述噪声标签,hi是所述第一预测值,Lnoise是所述残差网的损失值,Nn是所述图像特征的总数量。
根据本发明的第一方面,所述标准神经网络的损失函数为:
Figure BDA0002554341160000032
其中vj是所述真值标签,gj是所述第二预测值,Lclean是所述标准神经网络的损失值。
根据本发明的第一方面,多个所述分类网络的总体目标为:
Figure BDA0002554341160000033
,其中W是超参数,α是所述残差网的损失值与所述标准神经网络的损失值之间的权衡参数。
根据本发明的第一方面,在每个所述任务中,所述噪声图像的数量比所述真值图像的数量多。
本发明的第二方面,基于多任务与弱监督的美丽预测装置,其特征在于,包括:
预处理模块,用于预处理输入的人脸图像得到预处理图像,其中所述预处理图像包括标有真值标签的真值图像和标有噪声标签的噪声图像;
多任务模块,用于将所述预处理图像分配至多个任务,其中每个所述任务包含多个所述真值图像和多个所述噪声图像,多个所述任务包括一个具体为人脸美丽预测的主任务和多个与人脸美丽预测相关的辅任务;
特征提取模块,用于处理多个所述任务的所述真值图像和所述噪声图像得到共享的图像特征;
分类模块,用于处理所述图像特征得到多个分类结果,所述分类模块包括多个由残差网、标准神经网络和分类器组成的分类网络,其中多个所述分类网络与多个所述任务一一对应;
其中,在分类网络中,通过所述残差网处理所述图像特征,学习从所述图像特征到所述真值标签与所述噪声标签的残差值的映射,并得到第一预测值;通过所述标准神经网络,学习从所述图像特征到所述真值标签的映射,并得到第二预测值;通过分类器根据所述第一预测值和所述第二预测值得到所述分类结果。
本发明的第三方面,存储介质,所述存储介质存储有可执行指令,可执行指令能被计算机执行,使所述计算机执行如本发明第一方面所述的基于多任务与弱监督的美丽预测方法。
上述方案至少具有以下的有益效果:利用多任务间的相关性和差异性,增强主任务人脸美丽预测的表达能力;通过弱监督模式的分类网络,减少对真值标签的依赖,降低数据标注成本和降低噪声标签对人脸美丽预测模型的影响,提高人脸美丽预测模型的泛化能力。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
下面结合附图和实例对本发明作进一步说明。
图1是本发明实施例基于多任务与弱监督的美丽预测方法的流程图;
图2是本发明实施例基于多任务与弱监督的美丽预测装置的结构图;
图3是人脸美丽预测模型的结构图。
具体实施方式
本部分将详细描述本发明的具体实施例,本发明之较佳实施例在附图中示出,附图的作用在于用图形补充说明书文字部分的描述,使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案,但其不能理解为对本发明保护范围的限制。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
参照图1,本发明的某些实施例,提供了基于多任务与弱监督的美丽预测方法,包括以下步骤:
步骤S100、预处理输入的人脸图像得到预处理图像,其中预处理图像包括标有真值标签的真值图像和标有噪声标签的噪声图像;
步骤S200、将预处理图像分配至多个任务,其中每个任务包含多个真值图像和多个噪声图像,多个任务包括一个具体为人脸美丽预测的主任务和多个与人脸美丽预测相关的辅任务;
步骤S300、通过特征提取层处理多个任务的真值图像和噪声图像得到共享的图像特征;
步骤S400、通过多个由残差网210、标准神经网络220和分类器230组成的分类网络200处理图像特征得到多个分类结果,其中多个分类网络200与多个任务一一对应;
其中,在分类网络200中,通过残差网210处理图像特征,学习从图像特征到真值标签与噪声标签的残差值的映射,并得到第一预测值;通过标准神经网络220,学习从图像特征到真值标签的映射,并得到第二预测值;通过分类器230根据第一预测值和第二预测值得到分类结果。
在该实施例中,利用多任务间的相关性和差异性,增强主任务人脸美丽预测的表达能力;通过弱监督模式的分类网络200,减少对真值标签的依赖,降低数据标注成本和降低噪声标签对人脸美丽预测模型的影响,提高人脸美丽预测模型的泛化能力。
另外,在该基于多任务与弱监督的美丽预测方法中,同时学习多个相关任务,通过辅任务来提高人脸美丽预测主任务的准确度;弱监督模式的分类网络200,能有效利用具有真值标签的图像;解决了模型泛化能力差、只能训练单任务以及数据标注成本过高问题。
需要说明的是,输入的人脸图像是融合了多个数据库的数据,包括LSFBD人脸美丽数据库、GENKI-4K微笑识别数据库、IMDB-WIKI500k+数据库以及SCUT-FBP5500数据库。
进一步,预处理输入的人脸图像得到预处理图像具体是:对人脸图像依次进行图像增强处理、图像矫正处理、图像裁剪处理、图像去重处理和图像归一化处理得到预处理图像。预处理能高效地对人脸图像进行区域检测以及关键点检测,以及对齐和裁剪,使人脸图像大小一致,便于后续操作。
实际上,输入预处理图像至人脸美丽预测模型,以执行步骤S200、步骤S300和步骤S400。人脸美丽预测模型的结构参照图3。
进一步,对于步骤S200,在每个任务中,噪声图像的数量比真值图像的数量多。多个任务的总体损失函数为:
Figure BDA0002554341160000081
其中Ln是单个任务的损失,ωn是对应每个任务的权重。需要说明的是,主任务为人脸美丽预测;辅任务为与人脸美丽预测相关的任务,例如性别识别、表情识别等。
进一步,特征提取层是VGG16、ResNet50、Google Inception V3或DenseNet中的一种。在本实施例中,特征提取层的具体结构为:第一层为3*3大小的卷积层;第二层为3*3大小的卷积层;第三层为3*3大小的卷积层;第四层为池化层;第五层为3*3大小的卷积层;第六层为3*3大小的卷积层;第七层为池化层;第八层为3*3大小的卷积层;第九层为3*3大小的卷积层;第十层为3*3大小的卷积层;第十一层为池化层;第十二层为3*3大小的卷积层;第十三层为3*3大小的卷积层;第十四层为池化层。通过特征提取层提取多个任务的图像得到共享的图像特征,通过共享的图像特征并行学习多个相关任务,挖掘多个相关任务间的关系,从而能获取额外的有用信息。
进一步,对于步骤S400,残差网210的损失函数为:
Figure BDA0002554341160000082
其中Dn是图像特征,yi是噪声标签,hi是第一预测值,Lnoise是残差网210的损失值,Nn是图像特征的总数量。在残差网210中,学习从图像特征到真值标签与噪声标签的残差值的映射,并得到第一预测值;利用噪声标签监督进入残差网210的所有图像特征。
进一步,标准神经网络220的损失函数为:
Figure BDA0002554341160000091
其中vj是真值标签,gj是第二预测值,Lclean是标准神经网络220的损失值。在标准神经网络220中,学习从图像特征到真值标签的映射,并得到第二预测值;利用真值标签监督进入标准神经网络220的所有图像特征。
另外,第一预测值和第二预测值进入分类器230,分类结果按以下式子计算:k=W1a+W2b;其中k为分类结果,a为第一预测值,b为第二预测值,W1是对应第一预测值的权重,W2是对应第二预测值的权重。
进一步,多个分类网络200的总体目标为:
Figure BDA0002554341160000092
,其中W是超参数,α是残差网210的损失值与标准神经网络220的损失值之间的权衡参数。
参照图2,本发明的某些实施例,提供了基于多任务与弱监督的美丽预测装置,应用如方法实施例所述的基于多任务与弱监督的美丽预测方法,美丽预测装置包括:
预处理模,100,用于预处理输入的人脸图像得到预处理图像,其中预处理图像包括标有真值标签的真值图像和标有噪声标签的噪声图像;
多任务模块200,用于将预处理图像分配至多个任务,其中每个任务包含多个真值图像和多个噪声图像,多个任务包括一个具体为人脸美丽预测的主任务和多个与人脸美丽预测相关的辅任务;
特征提取模块300,用于处理多个任务的真值图像和噪声图像得到共享的图像特征;
分类模块400,用于处理图像特征得到多个分类结果,分类模块400包括多个由残差网210、标准神经网络220和分类器230组成的分类网络200,其中多个分类网络200与多个任务一一对应;
其中,在分类网络200中,通过残差网210处理图像特征,学习从图像特征到真值标签与噪声标签的残差值的映射,并得到第一预测值;通过标准神经网络220,学习从图像特征到真值标签的映射,并得到第二预测值;通过分类器230根据第一预测值和第二预测值得到分类结果。
在该装置实施例中,基于多任务与弱监督的美丽预测装置应用如方法实施例所述的基于多任务与弱监督的美丽预测方法,经各个模块的配合,能执行基于多任务与弱监督的美丽预测方法的各个步骤,具有和基于多任务与弱监督的美丽预测方法相同的技术效果,在此不再详述。
本发明的某些实施例,提供了存储介质,存储有可执行指令,可执行指令能被计算机执行,使计算机执行如本发明方法实施例所述的基于多任务与弱监督的美丽预测方法。
存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
以上所述,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,都应属于本发明的保护范围。

Claims (7)

1.基于多任务与弱监督的美丽预测方法,其特征在于,包括以下步骤:
预处理输入的人脸图像得到预处理图像,其中所述预处理图像包括标有真值标签的真值图像和标有噪声标签的噪声图像;
将所述预处理图像分配至多个任务,其中每个所述任务包含多个所述真值图像和多个所述噪声图像,多个所述任务包括一个具体为人脸美丽预测的主任务和多个与人脸美丽预测相关的辅任务;通过特征提取层处理多个所述任务的所述真值图像和所述噪声图像得到共享的图像特征;
通过多个由残差网、标准神经网络和分类器组成的分类网络处理所述图像特征得到多个分类结果,其中多个所述分类网络与多个所述任务一一对应;
其中,在分类网络中,通过所述残差网处理所述图像特征,学习从所述图像特征到所述真值标签与所述噪声标签的残差值的映射,并得到第一预测值;通过所述标准神经网络,学习从所述图像特征到所述真值标签的映射,并得到第二预测值;通过分类器根据所述第一预测值和所述第二预测值得到所述分类结果;
所述残差网的损失函数为:
Figure FDA0004127316680000011
其中Dn是所述图像特征,yi是所述噪声标签,hi是所述第一预测值,Lnoise是所述残差网的损失值,Nn是所述图像特征的总数量;所述标准神经网络的损失函数为:
Figure FDA0004127316680000021
其中vj是所述真值标签,gj是所述第二预测值,Lclean是所述标准神经网络的损失值;
多个所述分类网络的总体目标为:
Figure FDA0004127316680000022
,其中W是超参数,α是所述残差网的损失值与所述标准神经网络的损失值之间的权衡参数。
2.根据权利要求1所述的基于多任务与弱监督的美丽预测方法,其特征在于,所述预处理输入的人脸图像得到预处理图像具体是:对所述人脸图像依次进行图像增强处理、图像矫正处理、图像裁剪处理、图像去重处理和图像归一化处理得到预处理图像。
3.根据权利要求1所述的基于多任务与弱监督的美丽预测方法,其特征在于,所述特征提取层是VGG16、ResNet50、Google InceptionV3或DenseNet中的一种。
4.根据权利要求1所述的基于多任务与弱监督的美丽预测方法,其特征在于,多个所述任务的总体损失函数为:
Figure FDA0004127316680000031
其中L是单个所述任务的损失,ω是对n n应每个所述任务的权重。
5.根据权利要求1所述的基于多任务与弱监督的美丽预测方法,其特征在于,在每个所述任务中,所述噪声图像的数量比所述真值图像的数量多。
6.应用如权利要求1至5任一项所述的基于多任务与弱监督的美丽预测装置,其特征在于,包括:
预处理模块,用于预处理输入的人脸图像得到预处理图像,其中所述预处理图像包括标有真值标签的真值图像和标有噪声标签的噪声图像;
多任务模块,用于将所述预处理图像分配至多个任务,其中每个所述任务包含多个所述真值图像和多个所述噪声图像,多个所述任务包括一个具体为人脸美丽预测的主任务和多个与人脸美丽预测相关的辅任务;
特征提取模块,用于处理多个所述任务的所述真值图像和所述噪声图像得到共享的图像特征;
分类模块,用于处理所述图像特征得到多个分类结果,所述分类模块包括多个由残差网、标准神经网络和分类器组成的分类网络,其中多个所述分类网络与多个所述任务一一对应;
其中,在分类网络中,通过所述残差网处理所述图像特征,学习从所述图像特征到所述真值标签与所述噪声标签的残差值的映射,并得到第一预测值;通过所述标准神经网络,学习从所述图像特征到所述真值标签的映射,并得到第二预测值;通过分类器根据所述第一预测值和所述第二预测值得到所述分类结果;
所述残差网的损失函数为:
Figure FDA0004127316680000041
其中Dn是所述图像特征,yi是所述噪声标签,hi是所述第一预测值,Lnoise是所述残差网的损失值,Nn是所述图像特征的总数量;所述标准神经网络的损失函数为:
Figure FDA0004127316680000042
其中vj是所述真值标签,gj是所述第二预测值,Lclean是所述标准神经网络的损失值;
多个所述分类网络的总体目标为:
Figure FDA0004127316680000043
,其中W是超参数,α是所述残差网的损失值与所述标准神经网络的损失值之间的权衡参数。
7.存储介质,其特征在于,所述存储介质存储有可执行指令,可执行指令能被计算机执行,使所述计算机执行如权利要求1至5任一项所述的基于多任务与弱监督的美丽预测方法。
CN202010587525.5A 2020-06-24 2020-06-24 基于多任务与弱监督的美丽预测方法、装置及存储介质 Active CN111832436B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010587525.5A CN111832436B (zh) 2020-06-24 2020-06-24 基于多任务与弱监督的美丽预测方法、装置及存储介质
US17/424,407 US11721128B2 (en) 2020-06-24 2020-07-24 Beauty prediction method and device based on multitasking and weak supervision, and storage medium
PCT/CN2020/104568 WO2021258481A1 (zh) 2020-06-24 2020-07-24 基于多任务与弱监督的美丽预测方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010587525.5A CN111832436B (zh) 2020-06-24 2020-06-24 基于多任务与弱监督的美丽预测方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111832436A CN111832436A (zh) 2020-10-27
CN111832436B true CN111832436B (zh) 2023-06-16

Family

ID=72898839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010587525.5A Active CN111832436B (zh) 2020-06-24 2020-06-24 基于多任务与弱监督的美丽预测方法、装置及存储介质

Country Status (3)

Country Link
US (1) US11721128B2 (zh)
CN (1) CN111832436B (zh)
WO (1) WO2021258481A1 (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399406A (zh) * 2018-01-15 2018-08-14 中山大学 基于深度学习的弱监督显著性物体检测的方法及系统
CN110119689A (zh) * 2019-04-18 2019-08-13 五邑大学 一种基于多任务迁移学习的人脸美丽预测方法
CN110147456A (zh) * 2019-04-12 2019-08-20 中国科学院深圳先进技术研究院 一种图像分类方法、装置、可读存储介质及终端设备
CN110414489A (zh) * 2019-08-21 2019-11-05 五邑大学 一种基于多任务学习的人脸美丽预测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9792532B2 (en) * 2013-06-28 2017-10-17 President And Fellows Of Harvard College Systems and methods for machine learning enhanced by human measurements
US20170337682A1 (en) * 2016-05-18 2017-11-23 Siemens Healthcare Gmbh Method and System for Image Registration Using an Intelligent Artificial Agent
US20200395117A1 (en) * 2019-06-14 2020-12-17 Cycle Clarity, LLC Adaptive image processing method and system in assisted reproductive technologies

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399406A (zh) * 2018-01-15 2018-08-14 中山大学 基于深度学习的弱监督显著性物体检测的方法及系统
CN110147456A (zh) * 2019-04-12 2019-08-20 中国科学院深圳先进技术研究院 一种图像分类方法、装置、可读存储介质及终端设备
CN110119689A (zh) * 2019-04-18 2019-08-13 五邑大学 一种基于多任务迁移学习的人脸美丽预测方法
CN110414489A (zh) * 2019-08-21 2019-11-05 五邑大学 一种基于多任务学习的人脸美丽预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HU,Mengying 等.Weakly Supervised Image Classification through Noise Regularization.IEEE Conference on Computer Vision and Pattern Recognition (CVPR2019).2019,第11517-11525页. *

Also Published As

Publication number Publication date
WO2021258481A1 (zh) 2021-12-30
CN111832436A (zh) 2020-10-27
US20220309828A1 (en) 2022-09-29
US11721128B2 (en) 2023-08-08

Similar Documents

Publication Publication Date Title
US20190325299A1 (en) Unsupervised domain adaptation with similarity learning for images
CN112633419B (zh) 小样本学习方法、装置、电子设备和存储介质
CN110909820A (zh) 基于自监督学习的图像分类方法及系统
CN110414344B (zh) 一种基于视频的人物分类方法、智能终端及存储介质
US20150206315A1 (en) Labeling Objects in Image Scenes
EP3166020A1 (en) Method and apparatus for image classification based on dictionary learning
CN111914085A (zh) 文本细粒度情感分类方法、系统、装置及存储介质
CN112070123B (zh) 小样本sar图像识别方法、装置及存储介质
CN111680678A (zh) 目标区域识别方法、装置、设备及可读存储介质
Keetha et al. A hierarchical dual model of environment-and place-specific utility for visual place recognition
CN109597982B (zh) 摘要文本识别方法及装置
CN115115825B (zh) 图像中的对象检测方法、装置、计算机设备和存储介质
CN114821614A (zh) 图像识别方法、装置、电子设备及计算机可读存储介质
CN114692750A (zh) 一种细粒度图像分类方法、装置、电子设备及存储介质
CN111832435A (zh) 基于迁移与弱监督的美丽预测方法、装置及存储介质
CN112182273B (zh) 基于语义约束矩阵分解哈希的跨模态检索方法及其系统
CN113822144A (zh) 一种目标检测方法、装置、计算机设备和存储介质
CN113239883A (zh) 分类模型的训练方法、装置、电子设备以及存储介质
CN111832436B (zh) 基于多任务与弱监督的美丽预测方法、装置及存储介质
CN111008294B (zh) 交通图像处理、图像检索方法及装置
CN112801960A (zh) 图像处理方法及装置、存储介质、电子设备
CN111125198A (zh) 一种基于时间序列的计算机数据挖掘聚类方法
CN111091198A (zh) 一种数据处理方法及装置
CN112131418A (zh) 目标标注方法、目标标注装置和计算机可读存储介质
CN114219084B (zh) 一种快消行业的访销陈列造假识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant