CN116563556B - 模型训练方法 - Google Patents

模型训练方法 Download PDF

Info

Publication number
CN116563556B
CN116563556B CN202310814511.6A CN202310814511A CN116563556B CN 116563556 B CN116563556 B CN 116563556B CN 202310814511 A CN202310814511 A CN 202310814511A CN 116563556 B CN116563556 B CN 116563556B
Authority
CN
China
Prior art keywords
loss function
model
image
training
face image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310814511.6A
Other languages
English (en)
Other versions
CN116563556A (zh
Inventor
沈晰强
傅斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hikvision Digital Technology Co Ltd
Original Assignee
Hangzhou Hikvision Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hikvision Digital Technology Co Ltd filed Critical Hangzhou Hikvision Digital Technology Co Ltd
Priority to CN202310814511.6A priority Critical patent/CN116563556B/zh
Publication of CN116563556A publication Critical patent/CN116563556A/zh
Application granted granted Critical
Publication of CN116563556B publication Critical patent/CN116563556B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/36Applying a local operator, i.e. means to operate on image points situated in the vicinity of a given point; Non-linear local filtering operations, e.g. median filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Nonlinear Science (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种模型训练方法,涉及深度学习技术领域。方法包括:获取待训练人脸图像降噪模型以及训练样本集,训练样本集包括多组图像对,每组图像对包括样本人脸图像和参考人脸图像;待训练人脸图像降噪模型用于对样本人脸图像进行降噪处理,获得降噪后图像;对样本人脸图像进行语义分割,获得至少一个语义分割区域;基于参考人脸图像和降噪后图像之间各语义分割区域的结构损失,构建待训练人脸图像降噪模型的第一损失函数;利用训练样本集和第一损失函数训练待训练人脸图像降噪模型,获得目标图像降噪模型。本申请可使得训练得到的人脸图像降噪网络可以更好的在降噪处理过程中保留细节特征。

Description

模型训练方法
技术领域
本申请涉及深度学习技术领域,尤其涉及一种模型训练方法。
背景技术
在进行人脸图像信号处理时,可以使用基于深度学习的图像去噪方法进行图像降噪,即将待处理人脸图像输入至图像降噪网络模型中进行降噪处理。
但是,相关技术中,图像降噪模型容易将人脸图像中不同目标物之间的边界细节特征当成噪点去除,如图像降噪模型对低照度场景下的人脸图像进行降噪处理时,容易将人脸五官边界细节当成噪点去除,从而影响最终的图像信号处理质量。
发明内容
本申请的主要目的在于提供一种模型训练方法,旨在解决图像降噪模型降噪不准确的技术问题。
为实现上述目的,本申请提供一种模型训练方法,方法包括:
获取待训练人脸图像降噪模型以及训练样本集,训练样本集包括多组图像对,每组图像对包括样本人脸图像和参考人脸图像;待训练人脸图像降噪模型用于对样本人脸图像进行降噪处理,获得降噪后图像;
对样本人脸图像进行语义分割,获得至少一个语义分割区域;
基于参考人脸图像和降噪后图像之间各语义分割区域的结构损失,构建待训练人脸图像降噪模型的第一损失函数;
利用训练样本集和第一损失函数训练待训练人脸图像降噪模型,获得目标图像降噪模型。
在本申请可能的一实施例中,基于参考人脸图像和降噪后图像之间各语义分割区域的结构损失,构建待训练人脸图像降噪模型的第一损失函数,包括:
基于参考人脸图像和降噪后图像之间各语义分割区域的结构损失,以及各语义分割区域的区域权重,构建待训练人脸图像降噪模型的第一损失函数。
在本申请可能的一实施例中,基于参考人脸图像和降噪后图像之间各语义分割区域的结构损失,构建待训练人脸图像降噪模型的第一损失函数,包括:
确定待训练人脸图像降噪模型的第一参考损失函数分量;
基于参考人脸图像和降噪后图像之间各语义分割区域的结构损失,构建结构损失函数分量;
基于第一参考损失函数分量,第一参考损失函数分量的第一权重、结构损失函数分量以及结构损失函数分量的第二权重,构建第一损失函数。
在本申请可能的一实施例中,获取待训练人脸图像降噪模型以及训练样本集,包括:
获取待训练图像降噪插值网络模型以及训练样本集;图像降噪插值网络模型包括依次连接的待训练人脸图像降噪模型和图像插值模型,样本人脸图像为RAW原始人脸图像,参考人脸图像为彩色人脸图像,且图像插值模型用于对降噪后图像进行光谱上采样插值重建,获得重建彩色人脸图像;
利用训练样本集和第一损失函数训练待训练人脸图像降噪模型,获得目标图像降噪模型,包括:
基于重建彩色人脸图像和参考人脸图像,构建图像插值模型的第二损失函数;
利用训练样本集、第一损失函数和第二损失函数,训练待训练图像降噪插值网络模型,获得目标图像降噪插值网络模型。
在本申请可能的一实施例中,基于重建彩色人脸图像和参考人脸图像,构建图像插值模型的第二损失函数,包括:
确定图像插值模型的第二参考损失函数分量;
基于重建彩色人脸图像和参考人脸图像之间的高低频损失函数分量、高低频损失函数分量对应的第三权重、第二参考损失函数分量以及第二参考损失函数分量的第四权重,构建第二损失函数。
在本申请可能的一实施例中,利用训练样本集、第一损失函数和第二损失函数,训练待训练图像降噪插值网络模型,获得目标图像降噪插值网络模型,包括:
基于第一损失函数、第一损失函数的第五权重、第二损失函数以及第二损失函数的第六权重,构建联合损失函数;
利用训练样本集和联合损失函数,训练待训练图像降噪插值网络模型,获得目标图像降噪插值网络模型。
在本申请可能的一实施例中,待训练图像降噪插值网络模型包括通道分离模块、输出层以及通道分离模块和输出层之间并排的多个通道;
每个通道包括依次连接的待训练人脸图像降噪模型和图像插值模型,且图像插值模型用于对输入的降噪后图像进行插值和上采样,输出上采样图像,上采样图像的尺寸和样本人脸图像的尺寸相同;
通道分离模块用于接收样本人脸图像,基于多个预设尺寸对样本人脸图像分别进行下采样,获得多个通道输入图像,将通道输入图像输入至对应的通道;其中,多个预设尺寸彼此不同,且多个预设尺寸与多个通道一一对应;
输出层用于接收各个通道输出的上采样图像,将多个上采样图像融合得到重建彩色人脸图像。
在本申请可能的一实施例中,利用训练样本集和联合损失函数,训练待训练图像降噪插值网络模型,获得目标图像降噪插值网络模型,包括:
基于训练步数和各个通道的序号,构建各个通道的训练步数相关度;其中,通道的序号与预设尺寸成负相关,当训练步数小于预设收敛步数时,训练步数相关度和序号呈正相关,当训练步数大于预设收敛步数时,训练步数相关度和序号呈负相关;
将训练步数相关度作为对应的通道的通道权重;
基于各个通道的联合损失函数和各个通道的通道权重,构建网络总体损失函数;
利用训练样本集和网络总体损失函数,训练待训练图像降噪插值网络模型,获得目标图像降噪插值网络模型。
在本申请可能的一实施例中,基于训练步数和各个通道的序号,构建各个通道的训练步数相关度,包括:
基于训练步数、各个通道的序号和公式一,构建各个通道的训练步数相关度;
公式一为:
其中,,/>满足:/>,/>为第/>个通道的通道权重,/>为训练步数,/>为预设收敛步数,/>为大于或者等于1的常数。
在本申请可能的一实施例中,利用训练样本集和网络总体损失函数,训练待训练图像降噪插值网络模型,获得目标图像降噪插值网络模型,包括:
将网络总体损失函数中的第五权重赋值为1,第六权重赋值为0,获得第一状态网络总体损失函数;
利用训练样本集训练待训练图像降噪插值网络模型,并使用第一状态网络总体损失函数更新待训练图像降噪插值网络模型的模型参数,直至第一状态网络总体损失函数收敛,获得第一阶段训练模型;
将第五权重赋值为0,第六权重赋值为1,获得第二状态网络总体损失函数;
利用训练样本集训练第一阶段训练模型,并使用第二状态网络总体损失函数更新第一阶段训练模型的模型参数,直至第二状态网络总体损失函数收敛,获得第二阶段训练模型;
确定网络总体损失函数中的第五权重的第一初始赋值和第六权重赋值的第二初始赋值,获得第三状态网络总体损失函数;其中,第一初始赋值和第二初始赋值均大于1,且两者的和等于1;
利用训练样本集训练第二阶段训练模型,并使用第三状态网络总体损失函数更新第五权重和第六权重,直至第二阶段训练模型收敛得到目标图像降噪插值网络模型。
在本申请可能的一实施例中,确定网络总体损失函数中的第五权重的第一初始赋值和第六权重赋值的第二初始赋值,获得第三状态网络总体损失函数之前,方法还包括:
确定当前的第二阶段训练模型;
根据损失函数交替训练规则,从第一状态网络总体损失函数和第二状态网络总体损失函数中确定出当前训练损失函数;
利用训练样本集训练当前的第二阶段训练模型,并使用当前训练损失函数更新当前的第二阶段训练模型的模型参数,直至当前训练损失函数收敛;
返回执行确定当前的第二阶段训练模型,直至第一状态网络总体损失函数和第二状态网络总体损失函数均收敛,获得收敛后的第二阶段训练模型;
利用训练样本集训练第二阶段训练模型,并使用第三状态网络总体损失函数更新第五权重和第六权重,直至第二阶段训练模型收敛得到目标图像降噪插值网络模型,包括:
利用训练样本集训练收敛后的第二阶段训练模型,并使用第三状态网络总体损失函数更新第五权重和第六权重,直至第二阶段训练模型收敛得到目标图像降噪插值网络模型。
本申请实施例提出的一种模型训练方法,方法包括:获取待训练人脸图像降噪模型以及训练样本集,训练样本集包括多组图像对,每组图像对包括样本人脸图像和参考人脸图像;待训练人脸图像降噪模型用于对样本人脸图像进行降噪处理,获得降噪后图像;对样本人脸图像进行语义分割,获得至少一个语义分割区域;基于参考人脸图像和降噪后图像之间各语义分割区域的结构损失,构建待训练人脸图像降噪模型的第一损失函数;利用训练样本集和第一损失函数训练待训练人脸图像降噪模型,获得目标图像降噪模型。
不难看出,本申请实施例在训练人脸图像降噪模型时,构建的损失函数包含了参考人脸图像和降噪后图像之间各语义分割区域的结构损失,从而在对待训练人脸图像降噪模型进行训练时,对模型的输出结果中各语义分割区域的结构损失程度进行衡量,进而可使得训练得到的人脸图像降噪模型可以更好的在降噪处理过程中保留五官等细节特征,以提高后续的图像处理效果。
附图说明
图1为本申请模型训练设备结构示意图;
图2为本申请模型训练方法第一实施例的流程示意图;
图3为本申请人脸语义分割示意图;
图4为本申请模型训练方法第二实施例的流程示意图;
图5为本申请模型训练方法第三实施例的流程示意图;
图6为本申请模型训练方法第三实施例中通道矩阵转换示意图;
图7为本申请模型训练方法第四实施例中阶段示意图;
图8为本申请模型训练方法第四实施例中另一实施方式的阶段示意图;
图9为本申请一示例的多通道神经网络模型示意图;
图10为本申请模型训练装置的功能模块示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
相关技术中,图像降噪模型容易将图像中不同目标物之间的边界细节特征当成噪点去除。
以对人脸图像进行图像信号处理为例,由于在不同的设备和场景下,人脸图像的噪点差异性较大、噪点形态分布也各不相同,因此使用传统神经网络降噪处理方法进行图像降噪时,容易将人脸五官、边界等细节特征当成噪点去除,对人脸细节的保护较差。特别是在低照度场景中,为了满足成像设备在低照度场景下的成像效果要求越来越高的需求,常进行高增益处理,此时噪声更加严重,导致人脸五官更加不清楚。在图像信号处理中,若降噪处理不准确,会导致后续的插值处理也产生较大的误差,从而导致插值后的人脸产生不必要的瑕疵。
为此,本申请实施例提供了一种解决方案,该解决方案在对模型训练时,先对样本人脸图像进行语义分割,将样本人脸图像分割成至少一个语义分割区域,然后构建的损失函数包含了参考人脸图像和降噪后图像之间各语义分割区域的结构损失,从而在对待训练人脸图像降噪模型进行训练时,对模型的输出结果中各语义分割区域的结构损失程度进行衡量,进而可使得训练得到的图像降噪网络可以更好的在降噪处理过程中保留人脸的五官等细节特征,以提高后续的图像处理效果。
下面结合一些具体实施例进一步阐述本申请实施例的发明构思。
下面对本申请涉及到以下技术名词进行解释:
语义分割(Semantic Segmentation)作为计算机视觉处理中的一项基本任务,用于为图像中的每个像素点分配语义类别,被广泛应用于场景识别等场景。
参照图1,图1为本申请实施例方案涉及的硬件运行环境的模型训练设备的结构示意图。
如图1所示,该模型训练设备可以包括:处理器1001,例如CPU,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括语音拾取模块,如麦克风阵列等,可选用户接口1003还可以是显示屏(Display)、输入单元比如键盘(Keyboard)等。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可以理解的是,模型训练设备还可以包括网络接口1004,网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。可选地,模型训练设备还可以包括RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。
本领域技术人员可以理解,图1中示出的模型训练设备结构并不构成对模型训练设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
基于上述模型训练设备的硬件结构但不限于上述硬件结构,本申请提供一种模型训练方法第一实施例。参照图2,图2示出了本申请模型训练方法第一实施例的流程示意图。
需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例中,模型训练方法包括:
步骤S101、获取待训练人脸图像降噪模型以及训练样本集。
训练样本集包括多组图像对,每组图像对包括样本人脸图像和参考人脸图像;待训练人脸图像降噪模型用于对样本人脸图像进行降噪处理,获得降噪后图像。
本实施例中,模型训练方法的执行主体为模型训练设备,该模型训练设备可以是移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)等用户设备(UserEquipment,UE),或者手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备以及移动台(Mobile station,MS)等。
待训练人脸图像降噪模型可以是CNN(Convolutional Neural Networks,卷积神经网络)模型。其用于学习成对的带噪人脸图像和无噪人脸图像的映射关系,再采用训练后的CNN模型对带噪人脸图像进行降噪处理。
训练样本集包括多组图像对,多组图像对包括样本人脸图像和参考人脸图像,其中,样本人脸图像为带噪人脸图像,参考人脸图像为无噪人脸图像。可以理解的,样本人脸图像和参考人脸图像为针对相同人脸的成对图像。如样本人脸图像和参考人脸图像可以是安防领域获得的低照度人脸图像。
下文以样本人脸图像为低照度人脸图像为例进行具体说明。照度是指单位面积上所接收的可见光的能量,照度用单位lux表示。低照度的环境,例如是路灯下0.1lux左右、满月下0.02lux左右、星光下0.0002lux左右。
步骤S102、对样本人脸图像进行语义分割,获得至少一个语义分割区域。
对样本人脸图像进行语义分割,以为图像中的每个像素点分配语义类别,从而将样本人脸图像分割成至少一个语义分割区域,每个语义分割区域具有相应的语义类别。如请参阅图3,可对样本人脸图像进行语义分割,从而将样本人脸图像分割成多个语义分割区域。多个语义分割区域对应的语义类别可包括以下4类:
1)五官;其中,五官类可包括眼睛语义类别、鼻子语义类别、嘴巴语义类别、眉毛语义类别和耳朵语义类别。
2)人脸非五官;其中,人脸非五官可包括发丝语义类别、脸部非五官语义类别。
3)佩戴物品;其中,佩戴物品可包括眼镜语义类别、口罩语义类别等。
4)背景。
值得一提的是,模型训练设备在执行步骤S102时,可以是将样本人脸图像输入至一图像语义分割神经网络模型中,通过该图像语义分割神经网络模型进行语义分割,从而获得至少一个语义分割区域。
或者,模型训练设备在执行步骤S102时,还可以是在待训练人脸图像降噪模型中增加一语义分割模块,通过该语义分割模块进行语义分割。当然,在训练结束后,该语义分割模块需要删除。
步骤S103、基于参考人脸图像和降噪后图像之间各语义分割区域的结构损失,构建待训练人脸图像降噪模型的第一损失函数。
步骤S104、利用训练样本集和第一损失函数训练待训练人脸图像降噪模型,获得目标图像降噪模型。
参考人脸图像为待训练人脸图像降噪模型所训练样本的真实值,而降噪后图像为待训练人脸图像降噪模型所训练样本的预测值,两者之间各个语义分割区域的结构损失可反应出各个语义分割区域的细节特征在降噪过程中被当成噪点去除的情况。
可以理解的,各语义分割区域的结构损失可通过UOI(Universal Quality ImageIndex,图像通用质量指标)指标、MS-SSIM (Multi Scale Structural Similarity IndexMeasure, 多尺度结构相似性)以及SSIM(Structural Similarity,结构相似性)指数等来衡量。当然,SSIM指数在图像品质的衡量上更能符合人眼对图像品质的判断,因此可用于衡量相应语义分割区域的细节特征是否在降噪过程中得到更好的保留。此时,各语义分割区域的SSIM指数表现越好,则相应语义分割区域的结构损失越小,也即是相应语义分割区域的细节特征在降噪过程中得到更好的保留。
作为一种实施方式,模型训练设备在执行步骤S103时,可基于参考人脸图像和降噪后图像之间各语义分割区域的结构损失,以及各语义分割区域的区域权重,构建待训练人脸图像降噪模型的第一损失函数。
具体的,本实施方式中为各个语义分割区域赋予不同的区域权重,从而可通过为人脸图像成像质量做出更大贡献的语义分割区域赋予较大的区域权重,为人脸图像成像质量做出较小贡献的语义分割区域赋予较小的区域权重,使得训练得到的目标图像降噪模型更加关注各个语义分割区域中为人脸图像成像质量做出更大贡献的语义分割区域。
如对于人脸图像,一般用户更加关注人脸五官区域,此时可以为五官类中的眼睛语义类别、鼻子语义类别、嘴巴语义类别、眉毛语义类别和耳朵语义类别等语义类别赋予更大的区域权重,而为人脸非五官、佩戴物品和背景等类下的各个语义类别分配更小的区域权重。
如,在一示例中,第一损失函数构造为:
其中,为第一损失函数,/>为第j个语义分割区域的结构损失函数分量,为样本人脸图像经过语义分割得到的语义分割区域的总数,/>为第j个语义分割区域的区域权重。j为大于或者等于1的正整数。
当然,可以理解的,第一损失函数不仅仅是关注各语义分割区域的结构损失,还需要关注降噪后图像降噪处理的质量,因此模型训练设备在执行步骤S103时,先确定待训练人脸图像降噪模型的第一参考损失函数分量,基于参考人脸图像和降噪后图像之间各语义分割区域的结构损失,构建结构损失函数分量;基于第一参考损失函数分量,第一参考损失函数分量的第一权重、结构损失函数分量以及结构损失函数分量的第二权重,构建第一损失函数。
其中,第一参考损失函数分量用于衡量降噪后图像降噪处理的质量。因此,第一参考损失函数分量可以是深度学习领域常用的L2损失函数或者L1损失函数等。
第一参考损失函数分量对应有第一权重,第一权重越大,则第一损失函数更加关注图像上噪声的去除情况,结构损失函数分量对应有第二权重,第二权重越大,则第一损失函数更加关注各语义分割区域的结构损失,即更加关注的关注各语义分割区域的色彩、亮度、对比度等参数的复原情况。当然,第一权重和第二权重的和为1。
如,第一损失函数可构造为:
其中,为第一损失函数,/>为第一权重,/>为第j个语义分割区域的第一参考函数分量,第一参考函数分量构造成L2损失函数,/>为第二权重。
在构建得到第一损失函数后,即可使用第一损失函数对待训练图像降噪插值网络模型进行训练,从而可以在对待训练人脸图像降噪模型进行训练时,对模型的输出结果中各语义分割区域的结构损失程度进行衡量,进而可使得训练得到的图像降噪网络模型可以更好的在降噪处理过程中保留细节特征,以提高后续的人脸图像处理效果。
容易理解的,随着深度学习算法的发展,出现了针对人脸等特定使用场景使用的降噪插值一体化神经网络。
以针对人脸为例,此类降噪插值一体化神经网络将bayer域人脸图像的降噪和插值功能集一体,能够在降低人脸图像噪声的同时,完成人脸图像插值的功能。但是该类降噪插值一体化神经网络容易将人脸五官等边界细节当成噪点去除,对人脸细节的保护较差。当然,降噪算法不准确,会导致插值算法也产生一定的误差,从而导致插值后的人脸产生不必要的瑕疵。由于在不同的设备和场景下,人脸图像的噪点差异性较大、噪点形态分布也各不相同特别是,针对低照度人脸图像,由于还需要高增益处理,噪声问题更加严重,严重的噪声会影响人脸的直观感受,使得人脸五官不清楚。
为此,基于上述实施例,提出本申请模型训练方法第二实施例。参照图4,图4为本申请模型训练方法第二实施例的流程示意图。
需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例中,模型训练方法包括:
步骤S201、获取待训练图像降噪插值网络模型以及训练样本集。
其中,待训练图像降噪插值网络模型包括依次连接的待训练人脸图像降噪模型和图像插值模型,样本人脸图像为RAW原始人脸图像,且参考人脸图像为彩色人脸图像;图像插值模型用于对降噪后图像进行光谱上采样插值重建,获得重建彩色人脸图像。
样本人脸图像为图像传感器输出的RAW原始人脸图像,图像降噪插值网络模型用于对RAW原始人脸图像进行降噪和光谱上采样插值重建处理,从而得到重建彩色人脸图像。具体的,图像降噪插值网络模型包括依次连接的人脸图像降噪模型和图像插值模型。待训练人脸图像降噪模型用于对输入的样本人脸图像进行降噪处理,图像插值模型用于通过插值对待训练人脸图像降噪模型的输出进行光谱上采样插值重建处理,最终输出重建彩色人脸图像。
如在一示例中,样本人脸图像为低照度人脸RAW数据,参考人脸图像为RGB彩色人脸图像。
步骤S202、对样本人脸图像进行语义分割,获得至少一个语义分割区域。
步骤S203、基于参考人脸图像和降噪后图像之间各语义分割区域的结构损失,构建待训练人脸图像降噪模型的第一损失函数。
可以理解的,步骤S202-步骤S203可参考第一实施例的步骤S102-S103的解释说明,此处不再赘述。
步骤S204、基于重建彩色人脸图像和参考人脸图像,构建图像插值模型的第二损失函数。
步骤S205、利用训练样本集、第一损失函数和第二损失函数,训练待训练图像降噪插值网络模型,获得目标图像降噪插值网络模型。
可以理解的,第二损失函数更加关注一体化网络的插值性能,具体针对低照度人脸图像,可以而减少人脸边缘的锯齿感、伪色等瑕疵问题。并进一步提高人脸高频和低频的纹理细节,增强人脸的清晰度。
作为一种实施方式,模型训练设备在执行步骤S204时,确定图像插值模型的第二参考损失函数分量;基于重建彩色人脸图像和参考人脸图像之间的高低频损失函数分量、高低频损失函数分量对应的第三权重、第二参考损失函数分量以及第二参考损失函数分量的第四权重,构建第二损失函数。
第二参考损失函数分量可以是深度学习领域常用损失函数,如L2损失函数或者L1损失函数等。
高低频损失函数分量包括重建彩色人脸图像和参考人脸图像之间基于拉普拉斯矩阵算子的高频损失函数,以及低频损失函数。
针对低照度人脸图像而言,高频损失函数具体可以是:
低频损失函数具体可以是:
其中,为高频损失函数,/>为低频损失函数,/>为参考人脸图像中第/>个像素点的标签值,/>为重建彩色人脸图像中第/>个像素点的预测值,s是样本人脸图像的像素点总个数,L用于表示拉普拉斯算子滤波,在一示例中,所用的滤波器为:
可以理解的,高频损失函数更加关注人脸及五官的轮廓信息,保护人脸上的高频纹理信息,使得降噪插值后获得的人脸更加清晰。而低频损失函数/>更加关注恢复人脸平坦区域的低频纹理信息,使得重建后的人脸更加自然。
高频损失函数和低频损失函数/>共同构成了高低频损失函数分量。高低频损失函数分量对应有第三权重,用于控制高低频损失函数分量的强弱,第二参考损失函数分量对应有第四权重,用于控制L2损失函数的强弱。
第二损失函数具体可以是:
其中,为第二损失函数,/>为第三权重,/>为第四权重,/>为第二参考损失函数分量。
不难看出,本实施例在对待训练图像降噪插值网络模型进行训练时,通过语义分割确定出至少一个语义分割区域,并在构建的损失函数中会对样本人脸图像中各语义分割区域的结构损失程度进行衡量,从而可使得训练得到的图像降噪插值网络模型可以更好的保留细节特征,以提高处理得到的彩色人脸图像的质量。
作为一种实施方式,模型训练设备在执行步骤S205时,基于第一损失函数、第一损失函数的第五权重、第二损失函数以及第二损失函数的第六权重,构建联合损失函数;利用训练样本集和联合损失函数,训练待训练图像降噪插值网络模型,获得目标图像降噪插值网络模型。
具体的,联合损失函数可以是:
其中,为联合损失函数,/>为第五权重,/>为第六权重。可以理解的,/>
此时,第一损失函数的第五权重相对较大时,训练得到的图像降噪插值网络模型在恢复人脸五官的纹理信息上表现更佳,即更加关注各语义分割区域的结构损失程度。而当第二损失函数的第六权重/>相对较大时,训练得到的图像降噪插值网络模型更加关注插值重建性能,可以改善人脸边缘的锯齿感、伪色等瑕疵问题。
基于上述实施例,提出本申请模型训练方法第三实施例。参照图5,图5为本申请模型训练方法第三实施例的流程示意图。
需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例中,待训练图像降噪插值网络模型包括通道分离模块、输出层以及通道分离模块和输出层之间并排的多个通道。
每个通道包括依次连接的待训练人脸图像降噪模型和图像插值模型,且图像插值模型用于对输入的降噪后图像进行插值和上采样,输出上采样图像,上采样图像的尺寸和样本人脸图像的尺寸相同。
通道分离模块用于接收样本人脸图像,基于多个预设尺寸对样本人脸图像分别进行下采样,获得多个通道输入图像,将通道输入图像输入至对应的通道;其中,多个预设尺寸彼此不同,且多个预设尺寸与多个通道一一对应。
输出层用于接收各个通道输出的上采样图像,将多个上采样图像融合得到重建彩色人脸图像。
具体的,本实施例训练的图像降噪插值网络模型为多通道的神经网络模型,在每个通道的网络结构构建完成后,每个通道的输入对应的预设尺寸即可确定。预设尺寸即为图像的分辨率,本实施例中,每个通道的输入呈一定的下采样关系。
由于预设尺寸为分辨率,所以预设尺寸更小的通道,其分辨率更低,提取的图像细节特征更加扁平化,而预设尺寸更大的通道,其分辨率更高,提取的图像细节特征更加丰富。如此,多通道的神经网络模型可使得最终得到的重建彩色人脸图像在纹理上呈现更多的多样性。
当然,在进行下采样之后,本实施例中图像插值模型需要对输入的降噪后图像进行插值和上采样,输出上采样图像,上采样图像的尺寸和样本人脸图像的尺寸相同。
然后根据相同尺寸的多张上采样图像融合得到整个图像降噪插值网络模型输出的重建彩色人脸图像。
如可以是3个通道的神经网络模型。其中,通道分离模块接收的样本人脸图像为512×512×1的正方形RAW图。请参阅图6,通道分离模块先通过矩阵转换其转换为256×256×4的第一通道输入图像。然后下采样2倍得到128×128×4的第二通道输入图像,下采样4倍得到64×64×4的第三通道输入图像。当然,还可以是通道分离模块将128×128×4的第二通道输入图像下采样2倍得到64×64×4的第三通道输入图像。
此时,第二通道的图像插值模型需要进行2倍上采样处理,方才得到512×512×3的第二通道上采样图像,第三通道的图像插值模型需要进行4倍上采样处理,方才得到512×512×3的第三通道上采样图像。
然后输出层将第一通道上采样图像、第二通道上采样图像和第三通道上采样图像,融合得到重建彩色人脸图像。可以理解的,第一通道上采样图像、第二通道上采样图像和第三通道上采样图像的融合可以是加权融合等融合处理方式,本实施例对此并不限制。
值得一提的是,各个通道的网络参数权重共享。例如第一通道中2个模型、第二通道的2个模型和第3个通道的2个模型的参数权重共享。
基于上述提供的多通道神经网络模型,本实施例中,模型训练方法包括:
步骤S301、获取待训练图像降噪插值网络模型以及训练样本集。
步骤S302、对样本人脸图像进行语义分割,获得至少一个语义分割区域。
步骤S303、基于参考人脸图像和降噪后图像之间各语义分割区域的结构损失,构建待训练人脸图像降噪模型的第一损失函数。
步骤S304、基于重建彩色人脸图像和参考人脸图像,构建图像插值模型的第二损失函数。
步骤S301-步骤304的说明请参考第二实施例中步骤S201-步骤S204,此处不再赘述。
步骤S305、基于训练步数和各个通道的序号,构建各个通道的训练步数相关度。
步骤S306、将训练步数相关度作为对应的通道的通道权重。
步骤S307、基于各个通道的联合损失函数和各个通道的通道权重,构建网络总体损失函数。
步骤S308、利用训练样本集和网络总体损失函数,训练待训练图像降噪插值网络模型,获得目标图像降噪插值网络模型。
其中,通道的序号与预设尺寸成负相关,具体的,本实施例中,序号越大的通道,其对应的输入图像的预设尺寸越小。
可以理解的,由于预设尺寸为分辨率,所以预设尺寸更小的通道,其收敛速度更快,但是图像细节恢复效果更弱,而预设尺寸更大的通道,其分辨率更高,提取的图像细节特征更加丰富,其对于图像的降噪和细节修复能力更强。而综合考虑训练效果,即综合平衡更快的训练收敛速度和训练得到更好的模型,或者为了在训练时,侧重于训练收敛速度或者训练得到更好的模型,可通过为不同通道的通道权重赋予相应的值来实现。
而本实施例中,通道权重和训练步数相关。训练步数即当前训练次数,预设收敛步数为训练开始前配置的预设值,其可由用户根据历史训练数据或者经验预测得到。此外,当训练步数小于预设收敛步数时,训练步数相关度和序号呈正相关,当训练步数大于预设收敛步数时,训练步数相关度和序号呈负相关。也即是本实施例中,所构建的网络总体损失函数为步长渐变嵌套式损失函数。网络总体损失函数中不同部分的权重与训练步数相关,呈非线性的衰减映射。
作为本实施例的一种选择,模型训练设备在执行步骤305时,基于训练步数、各个通道的序号和公式一,构建各个通道的训练步数相关度。
公式一为:
其中,,/>满足:/>,/>为第/>个通道的通道权重,/>为训练步数,/>为预设收敛步数,/>为大于或者等于1的常数,/>为大于或者等于1的常数。在一示例中,/>
公式一可确保各个通道的通道权重之和为1,且各个通道权重之间通过等比数列的方式体现权重优先级。
如此,当时,/>小于1,网络总体损失函数以预设尺寸更小的通道为主,即通道权重随着通道序号的增加而等比例增大,此时网络收敛较快,但是人脸细节恢复一般。
时,各个通道的通道权重一致。
时,/>大于1,网络总体损失函数以预设尺寸更小的通道为辅,通道权重随着通道序号的增加而等比例减小,此时网络对于人脸的降噪和细节修复能力进一步增强。
参考第二实施例,每个通道具有对应的联合损失函数,其包括第一损失函数和第二损失函数两个局部损失函数。其中,第一损失函数融合了语义分割结果,从而关注各语义分割区域的结构损失程度,第二损失函数侧重图像的插值采样效果。
具体的,模型训练设备在执行步骤S307时,构建的网络总体损失函数可以是:
其中,为网络总体损失函数,/>为第/>个通道的联合损失函数,为通道的总数。其中,/>可参考前述第二实施例中对联合损失函数的解释说明,此处不再赘述。
不难看出,本实施例提供的多通道一体化网络通过为不同通道赋予不同通道权重,从而可以根据训练目的以侧重于增强对于人脸的降噪和细节修复能力,或者侧重于网络的收敛速度。
基于上述实施例,提出本申请的模型训练方法第四实施例。
本实施例中,步骤S308具体包括:
步骤S3081、将网络总体损失函数中的第五权重赋值为1,第六权重赋值为0,获得第一状态网络总体损失函数。
步骤S3082、利用训练样本集训练待训练图像降噪插值网络模型,并使用第一状态网络总体损失函数更新待训练图像降噪插值网络模型的模型参数,直至第一状态网络总体损失函数收敛,获得第一阶段训练模型。
步骤S3083、将网络总体损失函数中的第五权重赋值为0,第六权重赋值为1,获得第二状态网络总体损失函数。
步骤S3084、利用训练样本集训练第一阶段训练模型,并使用第二状态网络总体损失函数更新第一阶段训练模型的模型参数,直至第二状态网络总体损失函数收敛,获得第二阶段训练模型。
步骤S3088、确定网络总体损失函数中的第五权重的第一初始赋值和第六权重赋值的第二初始赋值,获得第三状态网络总体损失函数。
其中,第一初始赋值和第二初始赋值均大于1,且两者的和等于1。
步骤S3089、利用训练样本集训练第二阶段训练模型,并使用第三状态网络总体损失函数更新第五权重和第六权重,直至第二阶段训练模型收敛得到目标图像降噪插值网络模型。
具体而言,请参阅图7,本实施例中,模型训练包括模型参数更新和权重参数更新两个阶段,其中,模型参数更新阶段包括步骤S3081-步骤S3084,而权重参数更新阶段包括步骤S3088和步骤S3089。
其中,模型参数更新阶段具体包括图像降噪模型训练阶段和图像插值模型训练阶段。在图像降噪模型训练阶段,模型训练设备执行步骤S3081,将网络总体损失函数中的第五权重赋值为1,第六权重赋值为0,即各个通道的联合损失函数中=1,而/>=0,即各个通道的联合损失函数为:
其中,为第/>个通道的联合损失函数,/>为第/>个通道的第一损失函数。可以理解的,第一损失函数中,第一权重/>和第二权重/>可在训练之前赋值,且,/>,/>
此时,第一状态网络总体损失函数为:
然后利用该第一状态网络总体损失函数训练待训练图像降噪插值网络模型,并利用第一状态网络总体损失函数,也即是各个通道的第一损失函数调整待训练图像降噪插值网络模型的模型参数,主要是人脸图像降噪模型的模型参数。随着训练步数的增加,预设尺寸越小的通道的对应通道权重占比越小,训练直至收敛,从而得到第一阶段训练模型。
然后模型训练设备执行步骤S3083,将网络总体损失函数中的第五权重赋值为0,第六权重赋值为1,即各个通道的联合损失函数中=0,而/>=1,即各个通道的联合损失函数为:
其中,为第/>个通道的联合损失函数,/>为第/>个通道的第二损失函数。可以理解的,第二损失函数中,第三权重/>和第四权重/>可在训练之前赋值,且/>,/>,/>
此时,第二状态网络总体损失函数为:
然后利用该第二状态网络总体损失函数训练待训练图像降噪插值网络模型,并利用第二状态网络总体损失函数,也即是各个通道的第二损失函数调整第一阶段训练模型的模型参数,主要是图像插值模型的模型参数。随着训练步数的增加,预设尺寸越大的通道的对应通道权重占比越小,训练直至收敛,从而得到第二阶段训练模型。
完成模型参数更新阶段后,即进入到权重参数更新阶段,这个阶段主要用于确定和/>的具体值。具体的,模型训练设备执行步骤S3088,确定/>的第一初始赋值和/>的第二初始赋值,其中,/>,且/>,/>。如此得到第三状态网络总体损失函数。然后模型训练设备执行步骤S3089,利用训练样本集训练第二阶段训练模型,并使用第三状态网络总体损失函数更新第五权重和第六权重,直至第二阶段训练模型收敛得到目标图像降噪插值网络模型。其中,随着训练步数的增加,预设尺寸越大的通道的对应通道权重占比越小,直到收敛,从而完成整个训练步骤,得到目标图像降噪插值网络模型。
作为一种实施方式,本实施例中,在步骤S3088之前,方法还包括:
步骤S3085、确定当前的第二阶段训练模型。
步骤S3086、根据损失函数交替训练规则,从第一状态网络总体损失函数和第二状态网络总体损失函数中确定出当前训练损失函数。
步骤S3087、利用训练样本集训练当前的第二阶段训练模型,并使用当前训练损失函数更新当前的第二阶段训练模型的模型参数,直至当前训练损失函数收敛。
返回执行步骤S3085,直至第一状态网络总体损失函数和第二状态网络总体损失函数均收敛,获得收敛后的第二阶段训练模型。
具体而言,请参阅图8,本实施方式中,在模型参数更新阶段和权重参数更新阶段之间,还增加了一个模型参数微调阶段。即在进行了一次步骤S3081至步骤S3082,确定人脸图像降噪模型的模型参数,以及一次步骤S3083至步骤S3084,确定图像插值模型的模型参数后,再执行步骤S3085,将执行S3084后得到的第二阶段训练模型作为待训练模型,然后交替执行步骤S3081-步骤S3082和步骤S3083-步骤S3084,不断训练待训练模型。可以理解的,步骤S3081-步骤S3082和步骤S3083-步骤S3084交替执行的顺序根据步骤S086确定。
如此,交替执行步骤S3081-步骤S3082和步骤S3083-步骤S3084,从而不断对人脸图像降噪模型的模型参数和图像插值模型的模型参数进行微调,直至待训练模型完全收敛,得到完全收敛后的第二阶段训练模型。
此时,模型训练设备执行步骤S3089时,利用训练样本集训练收敛后的第二阶段训练模型,并使用第三状态网络总体损失函数更新第五权重和第六权重,直至第二阶段训练模型收敛得到目标图像降噪插值网络模型。
不难看出,本实施例中,在模型参数更新阶段和权重参数更新阶段之间,还增加了一个模型参数微调阶段,从而使得训练得到的目标模型更佳。
为使得本领域技术人员,更好地理解本申请权利要求的保护范围。以下通过具体的应用场景中的具体实施示例,对本申请权利要求记载的技术方案进行解释说明,可以理解的是,以下示例仅用于解释本申请,而不用于限定本申请权利要求的保护范围。
在一示例中,针对低照度人脸模型,请参阅图9,先将待训练图像降噪插值网络模型构建成3个通道的神经网络模型。其中,通道分离模块接收的样本人脸图像为512×512×1的正方形RAW图。通道分离模块先将其转换为256×256×4的第一通道输入图像。然后下采样2倍得到128×128×4的第二通道输入图像,下采样4倍得到64×64×4的第三通道输入图像。
此时,第二通道的图像插值模型需要进行2倍上采样处理,方才得到512×512×3的第二通道上采样图像,第三通道的图像插值模型需要进行4倍上采样处理,方才得到512×512×3的第三通道上采样图像。
且在该训练模型中,每个通道的人脸图像降噪模型之前,均增设有一人脸语义分割模块,用于对输入的第一通道输入图像、第二通道输入图像或者第三通道输入图像进行语义分割,从而得到语义分割结果,即包括个语义分割区域。当然,在训练结束后,所有通道的人脸语义分割模块需要删除。
在得到语义分割结果后,即可构建得到网络总体损失函数:
而第个通道的联合损失函数为:
其中,
为第/>个通道的第二损失函数,/>为第/>个通道的第/>个语义分割区域的结构损失函数分量,/>为第/>个通道的第/>个语义分割区域的第一参考损失函数分量,/>为第/>个通道的第/>个语义分割区域的高频损失函数分量,/>为第/>个通道的第/>个语义分割区域的低频损失函数分量;为第/>个通道的第二参考函数损失分量。其中/>着重人脸的降噪和人脸的细节修复,而/>专注人脸的插值上采样能力,同时能够有效改善人脸插值过程中产生的伪色、边缘锯齿问题,并进一步提高人脸高频和低频的纹理细节,增强人脸的清晰度。
此外,基于同一发明构思,参阅图10,本申请还提供了一种模型训练装置,包括:
数据获取模块,用于获取待训练人脸图像降噪模型以及训练样本集,训练样本集包括多组图像对,每组图像对包括样本人脸图像和参考人脸图像;待训练人脸图像降噪模型用于对样本人脸图像进行降噪处理,获得降噪后图像;
语义分割模块,用于对样本人脸图像进行语义分割,获得至少一个语义分割区域;
函数构建模块,用于基于参考人脸图像和降噪后图像之间各语义分割区域的结构损失,构建待训练人脸图像降噪模型的第一损失函数;
模型训练模块,用于利用训练样本集和第一损失函数训练待训练人脸图像降噪模型,获得目标图像降噪模型。
需要说明的是,本实施例中的关于模型训练装置的各实施方式以及其达到的技术效果可参照前述实施例中模型训练方法的各种实施方式,这里不再赘述。
此外,本申请实施例还提出一种计算机存储介质,存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上文的模型训练方法的步骤。因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。确定为示例,程序指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本申请提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的保护范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的保护范围内。

Claims (12)

1.一种模型训练方法,其特征在于,所述方法包括:
获取待训练人脸图像降噪模型以及训练样本集,所述训练样本集包括多组图像对,每组所述图像对包括样本人脸图像和参考人脸图像;所述待训练人脸图像降噪模型用于对所述样本人脸图像进行降噪处理,获得降噪后图像;
对所述样本人脸图像进行语义分割,获得至少一个语义分割区域;其中,各所述语义分割区域具有相应的语义类别;
基于所述参考人脸图像和所述降噪后图像之间各所述语义分割区域的结构损失,构建所述待训练人脸图像降噪模型的第一损失函数;其中,所述参考人脸图像和所述降噪后图像均具有与所述样本人脸图像中各所述语义分割区域分别相应的语义分割区域;
利用所述训练样本集和所述第一损失函数训练所述待训练人脸图像降噪模型,获得目标图像降噪模型。
2.根据权利要求1所述的模型训练方法,其特征在于,所述基于所述参考人脸图像和所述降噪后图像之间各所述语义分割区域的结构损失,构建所述待训练人脸图像降噪模型的第一损失函数,包括:
基于所述参考人脸图像和所述降噪后图像之间各所述语义分割区域的结构损失,以及各所述语义分割区域的区域权重,构建所述待训练人脸图像降噪模型的第一损失函数。
3.根据权利要求1所述的模型训练方法,其特征在于,所述基于所述参考人脸图像和所述降噪后图像之间各所述语义分割区域的结构损失,构建所述待训练人脸图像降噪模型的第一损失函数,包括:
确定所述待训练人脸图像降噪模型的第一参考损失函数分量;
基于所述参考人脸图像和所述降噪后图像之间各所述语义分割区域的结构损失,构建结构损失函数分量;
基于所述第一参考损失函数分量,所述第一参考损失函数分量的第一权重、所述结构损失函数分量以及所述结构损失函数分量的第二权重,构建所述第一损失函数。
4.一种模型训练方法,其特征在于,所述方法包括:
获取待训练图像降噪插值网络模型以及训练样本集;所述图像降噪插值网络模型包括依次连接的待训练人脸图像降噪模型和图像插值模型,所述训练样本集包括多组图像对,每组所述图像对包括样本人脸图像和参考人脸图像,所述样本人脸图像为RAW原始人脸图像,所述参考人脸图像为彩色人脸图像,所述待训练人脸图像降噪模型用于对所述样本人脸图像进行降噪处理,获得降噪后图像,且图像插值模型用于对所述降噪后图像进行光谱上采样插值重建,获得重建彩色人脸图像;
对所述样本人脸图像进行语义分割,获得至少一个语义分割区域;其中,各所述语义分割区域具有相应的语义类别;
基于所述参考人脸图像和所述降噪后图像之间各所述语义分割区域的结构损失,构建所述待训练人脸图像降噪模型的第一损失函数;其中,所述参考人脸图像和所述降噪后图像均具有与所述样本人脸图像中各所述语义分割区域分别相应的语义分割区域;
基于所述重建彩色人脸图像和所述参考人脸图像,构建所述图像插值模型的第二损失函数;
利用所述训练样本集、所述第一损失函数和所述第二损失函数,训练所述待训练图像降噪插值网络模型,获得目标图像降噪插值网络模型。
5.根据权利要求4所述的模型训练方法,其特征在于,所述基于所述参考人脸图像和所述降噪后图像之间各所述语义分割区域的结构损失,构建所述待训练人脸图像降噪模型的第一损失函数,包括:
基于所述参考人脸图像和所述降噪后图像之间各所述语义分割区域的结构损失,以及各所述语义分割区域的区域权重,构建所述待训练人脸图像降噪模型的第一损失函数。
6.根据权利要求4所述的模型训练方法,其特征在于,所述基于所述参考人脸图像和所述降噪后图像之间各所述语义分割区域的结构损失,构建所述待训练人脸图像降噪模型的第一损失函数,包括:
确定所述待训练人脸图像降噪模型的第一参考损失函数分量;
基于所述参考人脸图像和所述降噪后图像之间各所述语义分割区域的结构损失,构建结构损失函数分量;
基于所述第一参考损失函数分量,所述第一参考损失函数分量的第一权重、所述结构损失函数分量以及所述结构损失函数分量的第二权重,构建所述第一损失函数。
7.根据权利要求4所述的模型训练方法,其特征在于,所述基于所述重建彩色人脸图像和所述参考人脸图像,构建所述图像插值模型的第二损失函数,包括:
确定所述图像插值模型的第二参考损失函数分量;
基于所述重建彩色人脸图像和所述参考人脸图像之间的高低频损失函数分量、所述高低频损失函数分量对应的第三权重、所述第二参考损失函数分量以及所述第二参考损失函数分量的第四权重,构建所述第二损失函数。
8.根据权利要求4所述的模型训练方法,其特征在于,所述利用所述训练样本集、所述第一损失函数和所述第二损失函数,训练所述待训练图像降噪插值网络模型,获得目标图像降噪插值网络模型,包括:
基于所述第一损失函数、所述第一损失函数的第五权重、所述第二损失函数以及所述第二损失函数的第六权重,构建联合损失函数;
利用所述训练样本集和所述联合损失函数,训练所述待训练图像降噪插值网络模型,获得目标图像降噪插值网络模型。
9.根据权利要求8所述的模型训练方法,其特征在于,所述待训练图像降噪插值网络模型包括通道分离模块、输出层以及所述通道分离模块和所述输出层之间并排的多个通道;
每个所述通道包括依次连接的所述待训练人脸图像降噪模型和所述图像插值模型,且所述图像插值模型用于对输入的降噪后图像进行插值和上采样,输出上采样图像,所述上采样图像的尺寸和所述样本人脸图像的尺寸相同;
所述通道分离模块用于接收所述样本人脸图像,基于多个预设尺寸对所述样本人脸图像分别进行下采样,获得多个通道输入图像,将所述通道输入图像输入至对应的通道;其中,多个所述预设尺寸彼此不同,且多个所述预设尺寸与多个所述通道一一对应;
所述输出层用于接收各个所述通道输出的所述上采样图像,将多个所述上采样图像融合得到所述重建彩色人脸图像。
10.根据权利要求9所述的模型训练方法,其特征在于,所述利用所述训练样本集和所述联合损失函数,训练所述待训练图像降噪插值网络模型,获得目标图像降噪插值网络模型,包括:
基于训练步数和各个所述通道的序号,构建各个所述通道的训练步数相关度;其中,所述通道的序号与所述预设尺寸成负相关,当所述训练步数小于预设收敛步数时,所述训练步数相关度和所述序号呈正相关,当所述训练步数大于所述预设收敛步数时,所述训练步数相关度和所述序号呈负相关;
将所述训练步数相关度作为对应的所述通道的通道权重;
基于各个所述通道的所述联合损失函数和各个所述通道的通道权重,构建网络总体损失函数;
利用所述训练样本集和所述网络总体损失函数,训练所述待训练图像降噪插值网络模型,获得目标图像降噪插值网络模型。
11.根据权利要求10所述的模型训练方法,其特征在于,所述基于训练步数和各个所述通道的序号,构建各个所述通道的训练步数相关度,包括:
基于训练步数、各个所述通道的序号和公式一,构建各个所述通道的训练步数相关度;
所述公式一为:
其中,,/>满足:/>,/>为第/>个通道的通道权重,/>为所述训练步数,/>为预设收敛步数,/>为大于或者等于1的常数。
12.根据权利要求10或11所述的模型训练方法,其特征在于,所述利用所述训练样本集和所述网络总体损失函数,训练所述待训练图像降噪插值网络模型,获得目标图像降噪插值网络模型,包括:
将所述网络总体损失函数中的第五权重赋值为1,所述第六权重赋值为0,获得第一状态网络总体损失函数;
利用所述训练样本集训练所述待训练图像降噪插值网络模型,并使用所述第一状态网络总体损失函数更新所述待训练图像降噪插值网络模型的模型参数,直至所述第一状态网络总体损失函数收敛,获得第一阶段训练模型;
将所述第五权重赋值为0,所述第六权重赋值为1,获得第二状态网络总体损失函数;
利用所述训练样本集训练所述第一阶段训练模型,并使用所述第二状态网络总体损失函数更新所述第一阶段训练模型的模型参数,直至所述第二状态网络总体损失函数收敛,获得第二阶段训练模型;
确定所述网络总体损失函数中的第五权重的第一初始赋值和所述第六权重赋值的第二初始赋值,获得第三状态网络总体损失函数;其中,所述第一初始赋值和所述第二初始赋值均大于1,且两者的和等于1;
利用所述训练样本集训练所述第二阶段训练模型,并使用所述第三状态网络总体损失函数更新所述第五权重和所述第六权重,直至所述第二阶段训练模型收敛得到所述目标图像降噪插值网络模型。
CN202310814511.6A 2023-07-05 2023-07-05 模型训练方法 Active CN116563556B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310814511.6A CN116563556B (zh) 2023-07-05 2023-07-05 模型训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310814511.6A CN116563556B (zh) 2023-07-05 2023-07-05 模型训练方法

Publications (2)

Publication Number Publication Date
CN116563556A CN116563556A (zh) 2023-08-08
CN116563556B true CN116563556B (zh) 2023-11-10

Family

ID=87502147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310814511.6A Active CN116563556B (zh) 2023-07-05 2023-07-05 模型训练方法

Country Status (1)

Country Link
CN (1) CN116563556B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111681187A (zh) * 2020-06-13 2020-09-18 厦门美图之家科技有限公司 降彩噪方法、装置、电子设备和可读存储介质
CN113628148A (zh) * 2021-09-17 2021-11-09 福建库克智能科技有限公司 红外图像降噪方法和装置
CN113822289A (zh) * 2021-06-15 2021-12-21 腾讯科技(深圳)有限公司 图像降噪模型的训练方法、装置、设备及存储介质
CN114187201A (zh) * 2021-12-09 2022-03-15 百果园技术(新加坡)有限公司 模型训练方法、图像处理方法、装置、设备及存储介质
CN114241569A (zh) * 2021-12-21 2022-03-25 中国电信股份有限公司 人脸识别攻击样本的生成方法、模型训练方法及相关设备
CN114266894A (zh) * 2021-12-22 2022-04-01 中电金信软件有限公司 一种图像分割方法、装置、电子设备及存储介质
CN114862685A (zh) * 2021-01-19 2022-08-05 杭州海康威视数字技术股份有限公司 一种图像降噪方法、及图像降噪模组
WO2022194152A1 (zh) * 2021-03-18 2022-09-22 腾讯科技(深圳)有限公司 基于图像处理模型的图像处理方法、装置、电子设备、存储介质及计算机程序产品
CN115293966A (zh) * 2022-06-27 2022-11-04 武汉工程大学 一种人脸图像重建方法、装置以及存储介质
CN115605915A (zh) * 2020-05-18 2023-01-13 上海联影医疗科技股份有限公司(Cn) 一种图像重建系统和方法
WO2023050992A1 (zh) * 2021-09-30 2023-04-06 广州视源电子科技股份有限公司 用于人脸重建的网络训练方法、装置、设备及存储介质
CN116091315A (zh) * 2023-01-05 2023-05-09 南昌大学 一种基于渐进训练和人脸语义分割的人脸超分辨率重建方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115605915A (zh) * 2020-05-18 2023-01-13 上海联影医疗科技股份有限公司(Cn) 一种图像重建系统和方法
CN111681187A (zh) * 2020-06-13 2020-09-18 厦门美图之家科技有限公司 降彩噪方法、装置、电子设备和可读存储介质
CN114862685A (zh) * 2021-01-19 2022-08-05 杭州海康威视数字技术股份有限公司 一种图像降噪方法、及图像降噪模组
WO2022194152A1 (zh) * 2021-03-18 2022-09-22 腾讯科技(深圳)有限公司 基于图像处理模型的图像处理方法、装置、电子设备、存储介质及计算机程序产品
CN113822289A (zh) * 2021-06-15 2021-12-21 腾讯科技(深圳)有限公司 图像降噪模型的训练方法、装置、设备及存储介质
CN113628148A (zh) * 2021-09-17 2021-11-09 福建库克智能科技有限公司 红外图像降噪方法和装置
WO2023050992A1 (zh) * 2021-09-30 2023-04-06 广州视源电子科技股份有限公司 用于人脸重建的网络训练方法、装置、设备及存储介质
CN114187201A (zh) * 2021-12-09 2022-03-15 百果园技术(新加坡)有限公司 模型训练方法、图像处理方法、装置、设备及存储介质
CN114241569A (zh) * 2021-12-21 2022-03-25 中国电信股份有限公司 人脸识别攻击样本的生成方法、模型训练方法及相关设备
CN114266894A (zh) * 2021-12-22 2022-04-01 中电金信软件有限公司 一种图像分割方法、装置、电子设备及存储介质
CN115293966A (zh) * 2022-06-27 2022-11-04 武汉工程大学 一种人脸图像重建方法、装置以及存储介质
CN116091315A (zh) * 2023-01-05 2023-05-09 南昌大学 一种基于渐进训练和人脸语义分割的人脸超分辨率重建方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Huibai Wang ; Peng Xie.Research on Facial Feature Extraction Method Based on Semantic Segmentation.《 2022 IEEE 6th Information Technology and Mechatronics Engineering Conference (ITOEC)》.2022,第787-790页. *
基于卷积神经网络的遥感图像降噪;潘凯;侯亮;;现代信息科技(12);第68-73页 *
预训练网络引导的人脸图像超分辨率重建;徐文博;孙广玲;陆小锋;;工业控制计算机(06);第39-41页 *

Also Published As

Publication number Publication date
CN116563556A (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
CN107278314B (zh) 用于非局部均值图像去噪的装置、移动计算平台和方法
US11127117B2 (en) Information processing method, information processing apparatus, and recording medium
US20160086316A1 (en) Real time skin smoothing image enhancement filter
US20180350043A1 (en) Shallow Depth Of Field Rendering
CN110111245B (zh) 图像处理方法、装置、终端及计算机可读存储介质
CN111081266B (zh) 一种训练生成对抗网络、语音增强方法及系统
CN112602088B (zh) 提高弱光图像的质量的方法、系统和计算机可读介质
WO2023143129A1 (zh) 图像处理方法、装置、电子设备及存储介质
CN116438804A (zh) 帧处理和/或捕获指令系统及技术
CN116563556B (zh) 模型训练方法
CN113658065A (zh) 图像降噪方法及装置、计算机可读介质和电子设备
CN110689478B (zh) 图像风格化处理方法、装置、电子设备及可读介质
CN110689486A (zh) 图像的处理方法、装置、设备及计算机可存储介质
CN111222446B (zh) 人脸识别方法、人脸识别装置及移动终端
CN112788254A (zh) 摄像头抠像方法、装置、设备及存储介质
CN110059739B (zh) 图像合成方法、装置、电子设备和计算机可读存储介质
CN111754412B (zh) 构建数据对的方法、装置及终端设备
CN112232292A (zh) 应用于移动端的人脸检测方法及装置
CN111784726A (zh) 人像抠图方法和装置
CN117496990A (zh) 语音去噪方法、装置、计算机设备及存储介质
CN113298829B (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN112561822B (zh) 美颜方法、装置、电子设备及存储介质
CN114119377A (zh) 一种图像处理方法及装置
CN111489289B (zh) 一种图像处理方法、图像处理装置及终端设备
CN110070494B (zh) 图像处理方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant