CN113569809A - 一种图像处理方法、设备及计算机可读存储介质 - Google Patents
一种图像处理方法、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113569809A CN113569809A CN202110996980.5A CN202110996980A CN113569809A CN 113569809 A CN113569809 A CN 113569809A CN 202110996980 A CN202110996980 A CN 202110996980A CN 113569809 A CN113569809 A CN 113569809A
- Authority
- CN
- China
- Prior art keywords
- image
- training
- target
- face region
- feature extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 261
- 238000012545 processing Methods 0.000 claims abstract description 131
- 238000000605 extraction Methods 0.000 claims abstract description 127
- 238000000034 method Methods 0.000 claims abstract description 80
- 238000004364 calculation method Methods 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 106
- 238000004590 computer program Methods 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 8
- 239000000284 extract Substances 0.000 description 16
- 241000282414 Homo sapiens Species 0.000 description 14
- 230000006870 function Effects 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 12
- 238000013473 artificial intelligence Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 210000001508 eye Anatomy 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 3
- 210000005069 ears Anatomy 0.000 description 3
- 230000005284 excitation Effects 0.000 description 3
- 210000004709 eyebrow Anatomy 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000013077 scoring method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
一种图像处理方法、设备及计算机可读存储介质,其中,该方法包括:获取待检测人脸图像,从待检测人脸图像中提取目标人脸区域图像;利用评分模型包括的第一特征提取网络和第二特征提取网络对该目标人脸区域图像进行处理,得到目标人脸区域图像的评分结果;其中,评分模型是利用包含训练图像的训练数据集训练得到的,第一特征提取网络和第二特征提取网络中的一个或多个是结合训练过程中确定的目标损失值训练得到的,目标损失值是根据训练过程中确定的误差参数以及加权损失参数计算得到的,加权损失参数是基于训练数据集中预测误差大于误差阈值的训练图像所占的比例确定的。采用上述方式可以有效提高人脸图像评分的效率以及准确性。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种图像处理方法、设备及计算机可读存储介质。
背景技术
近年来,随着人脸识别技术的发展,人脸图像评分受到了广泛的关注与研究。目前,通常是由人工对人脸图像进行评分,例如在选秀的场景下采用人工的方式对人脸图像进行评分,但人工评分的方式效率低,且由于人为主观性,会使得人脸评分结果的准确性不高。因此,如何提高人脸图像评分的效率和准确性是目前的研究热点。
申请内容
本申请实施例提供了一种图像处理方法、设备及计算机可读存储介质,可以有效提高人脸图像评分的效率以及准确性。
一方面,本申请实施例公开了一种图像处理方法,该方法包括:
获取待检测人脸图像,从该待检测人脸图像中提取目标人脸区域图像;
然后利用评分模型包括的第一特征提取网络和第二特征提取网络对目标人脸区域图像进行处理,得到目标人脸区域图像的评分结果;
其中,评分模型是利用包含训练图像的训练数据集训练得到的,该第一特征提取网络和第二特征提取网络中的一个或多个是结合训练过程中确定的目标损失值训练得到的,目标损失值是根据训练过程中确定的误差参数以及加权损失参数计算得到的,加权损失参数是基于训练数据集中预测误差大于误差阈值的训练图像所占的比例确定的。
在一实施例中,所述从所述待检测人脸图像中提取目标人脸区域图像,包括:
从所述待检测人脸图像中提取初始人脸区域图像;
对所述初始人脸区域图像进行填充处理,得到目标长宽比的人脸区域图像;
将所述目标长宽比的人脸区域图像进行缩放处理,将缩放处理后的人脸区域图像作为目标人脸区域图像。
在一实施例中,所述利用评分模型包括的第一特征提取网络和第二特征提取网络对所述目标人脸区域图像进行处理,得到所述目标人脸区域图像的评分结果,包括:
利用所述第一特征提取网络对所述目标人脸区域图像进行特征提取,得到第一特征向量;
利用所述第二特征提取网络对所述目标人脸区域图像进行特征提取,得到第二特征向量;
对所述第一特征向量和所述第二特征向量进行处理,得到所述目标人脸区域图像的评分结果。
在一实施例中,所述评分模型还包括评分网络,所述对所述第一特征向量和所述第二特征向量进行处理,得到所述目标人脸区域图像的评分结果,包括:
将所述第一特征向量和所述第二特征向量进行融合,得到融合特征向量;
利用所述评分网络对所述融合特征向量进行处理,得到所述目标人脸区域图像的评分结果。
在一实施例中,该图像处理方法还包括:获取训练数据集,所述训练数据集包括多张训练图像以及各张训练图像的参考评分值;
利用初始评分模型对所述多张训练图像进行处理,得到各张训练图像的预测评分值;
基于各张训练图像的参考评分值和预测评分值,确定误差参数和加权损失参数,并基于所述误差参数和所述加权损失参数确定目标损失值;
基于所述目标损失值对所述初始评分模型包括的第一特征提取网络和第二特征提取网络中的一个或多个进行训练,得到训练后的评分模型。
在一实施例中,所述基于各张训练图像的参考评分值和预测评分值,确定误差参数,包括:基于各张训练图像的参考评分值和预测评分值,确定平均绝对误差和均方根误差中的一个或多个,将所述平均绝对误差和所述均方根误差中的一个或多个作为误差参数。
在一实施例中,所述基于各张训练图像的参考评分值和预测评分值,确定加权损失参数,包括:基于各张训练图像的参考评分值以及预测评分值,确定各张训练图像的预测误差;
确定预测误差大于误差阈值的训练图像在所述训练数据集中所占的比例,并基于所述比例确定加权损失参数。
在一实施例中,所述基于所述误差参数和所述加权损失参数确定目标损失值,包括:
将所述平均绝对误差、所述均方根误差以及所述加权损失参数分别与相应权重相乘后相加,得到目标损失值。
一方面,本申请实施例公开了一种图像处理装置,该装置包括:
获取单元,用于获取待检测人脸图像;
处理单元,用于对待检测人脸图像提取目标人脸区域图像,并利用评分模型包括的第一特征提取网络和第二特征提取网络对该目标人脸区域图像进行处理,得到目标人脸区域图像的评分结果;
其中,评分模型是利用包含训练图像的训练数据集训练得到的,该第一特征提取网络和第二特征提取网络中的一个或多个是结合训练过程中确定的目标损失值训练得到的,目标损失值是根据训练过程中确定的误差参数以及加权损失参数计算得到的,加权损失参数是基于训练数据集中预测误差大于误差阈值的训练图像所占的比例确定的;
训练单元,用于对评分模型进行训练。
在一实施例中,处理单元从待检测人脸图像中提取目标人脸区域图像时,具体用于:从待检测人脸图像中提取初始人脸区域图像,然后对初始人脸区域图像进行填充处理,得到目标长宽比的人脸区域图像,最后将目标长宽比的人脸区域图像进行缩放处理,将缩放处理后的人脸区域图像作为目标人脸区域图像。
在一实施例中,处理单元利用评分模型包括的第一特征提取网络和第二特征提取网络对所述目标人脸区域图像进行处理,得到所述目标人脸区域图像的评分结果时,具体用于:利用所述第一特征提取网络对所述目标人脸区域图像进行特征提取,得到第一特征向量;利用所述第二特征提取网络对所述目标人脸区域图像进行特征提取,得到第二特征向量;对所述第一特征向量和所述第二特征向量进行处理,得到所述目标人脸区域图像的评分结果。
在一实施例中,所述图像处理装置还包括训练单元,该训练单元用于:获取训练数据集,所述训练数据集包括多张训练图像以及各张训练图像的参考评分值;利用初始评分模型对所述多张训练图像进行处理,得到各张训练图像的预测评分值;基于各张训练图像的参考评分值和预测评分值,确定误差参数和加权损失参数,并基于所述误差参数和所述加权损失参数确定目标损失值;基于所述目标损失值对所述初始评分模型包括的第一特征提取网络和第二特征提取网络中的一个或多个进行训练,得到训练后的评分模型。
在一实施例中,训练单元基于各张训练图像的参考评分值和预测评分值,确定误差参数时,具体用于:基于各张训练图像的参考评分值和预测评分值,确定平均绝对误差和均方根误差中的一个或多个,将所述平均绝对误差和所述均方根误差中的一个或多个作为误差参数。
在一实施例中,训练单元基于各张训练图像的参考评分值和预测评分值,确定加权损失参数时,具体用于:基于各张训练图像的参考评分值以及预测评分值,确定各张训练图像的预测误差;确定预测误差大于误差阈值的训练图像在所述训练数据集中所占的比例,并基于所述比例确定加权损失参数。
在一实施例中,训练单元基于所述误差参数和所述加权损失参数确定目标损失值时,还用于:将所述平均绝对误差、所述均方根误差以及所述加权损失参数分别与相应权重相乘后相加,得到目标损失值。
本申请实施例还公开了一种图像处理设备,该图像处理设备包括:
处理器,适于实现一条或多条指令;以及,计算机可读存储介质,该计算机可读存储介质存储有一条或多条指令,一条或多条指令适于由该处理器加载并执行本申请实施例提供的图像处理方法。
本申请实施例还公开了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器运行时,执行本申请实施例提供的图像处理方法。
本申请实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。图像处理设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该图像处理设备执行上述的图像处理方法。
本申请实施例中,图像处理设备利用训练好的评分模型对目标人脸区域图像进行处理,得到目标人脸区域图像的评分结果,其中,目标人脸区域图像是从待检测人脸图像中获取的,具体过程是首先提取待检测人脸图像的人脸的边界框区域图像即初始人脸区域图像,然后对初始人脸区域图像进行填充和缩放处理得到目标人脸区域图像;评分模型中的特征提取网络是结合训练过程中确定的误差参数以及加权损失参数训练得到的,该加权损失参数是基于训练数据集中预测误差大于误差阈值的训练图像所占的比例确定的,由于训练过程中考虑了难样本(即预测误差大于误差阈值的训练图像)比例损失,使得训练得到的特征提取网络能够提取更好的人脸特征,采用上述方式训练得到的评分模型进行人脸评分时,人脸评分的效率以及准确性更高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例公开的一种图像处理系统的架构示意图;
图2是本申请实施例公开的一种图像处理方法的流程示意图;
图3示出了人脸区域图像提取以及调整的方式;
图4示出了评分模型的架构;
图5a示出了评分模型的一种训练方式;
图5b示出了评分模型的另一种训练方式;
图5c示出了评分模型的又一种训练方式;
图6是本申请实施例公开的另一种图像处理方法的流程示意图;
图7是本申请实施例公开的一种图像处理装置的结构示意图;
图8是本申请实施例公开的一种图像处理设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在一实施例中,为提高人脸图像评分的效率以及准确性,本申请实施例提供了以下两种人脸图像评分方法:一种是通过图像处理设备提取人脸图像的方向梯度直方图(HOG)特征、Gabor特征(一种用于描述图像纹理信息的特征)、LBP特征(一种用于描述图像局部纹理的特征)等作为表观特征,然后提取人脸图像的关键点作为几何特征,之后将提取的表观特征和几何特征进行特征融合,再送入回归器中对人脸图像进行回归,常用的回归器所采用的回归方式有线性回归、高斯回归、支持向量机回归,等等。另一种是利用卷积神经网络提取人脸区域图像的深度特征,之后直接利用绝对误差MAE或均方根误差RMSE作为目标函数进行回归。上述两种人脸图像的评分方法实现了人脸图像的自动评分,可以有效提高人脸图像评分的效率,且基于计算机的评分客观性,可以在一定程度上提高人脸图像评分的正确性。
但上述两种方法由于在人脸图像评分过程中没有考虑到人脸识别特征(包括人脸不同区域的不同特征)对人脸图像评分的影响以及在训练评分模型的过程中使用单一任务进行模型训练,所以上述两种人脸图像评分的准确性还不够高,有待进一步提高。
基于此,本申请实施例提供了一种图像处理方法,以进一步提高人脸图像评分的准确性。具体地,该图像处理方法基于评分模型实现,该评分模型考虑了人脸识别特征,其中,该人脸识别特征是对人脸不同区域的不同特征的有效表达,可以包括人脸五官的相关特征,如眼睛的大小、眼睛与眉毛之间的距离、嘴巴的大小、嘴巴与鼻子之间的距离、耳朵的大小和形状,等等,因此该人脸识别特征对人脸有更细致的表征能力,有利于评分模型提取到人脸的细致特征,从而能够给出更加合理的分数预测,同时,在评分模型的训练过程中,也提出了难样本比例损失,该难样本比例损失的功能在于训练过程中优化预测分数的绝对误差大于预设阈值的样本比例;最后,在评分模型训练的过程中形成了多任务模型训练方式,即通过多个损失函数形成的训练方式,通过上述的方式训练出来的评分模型的评分准确性更高。
本申请实施例提供的图像处理方法可以基于人工智能技术AI实现。AI是指利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。AI技术是一门综合学科,其涉及的领域较为广泛;而本申请实施例提供的数据处理方法主要涉及AI技术中的机器学习(MachineLearning,ML)技术。机器学习技术是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供的图像处理方法还可以是基于人工智能技术中的计算机视觉技术(Computer Vision,CV)实现的。计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
本申请实施例提供的图像处理方法可以适用于图1所示的网络架构,该网络架构包括数据库101和图像处理设备102。数据库101可以是图像处理设备102的本地数据库,也可以是云端其他设备的数据库。该图像处理方法可以由图像处理设备102执行,具体的,图像处理设备102从数据库101中获取待检测人脸图像并判断该待检测人脸图像中是否包括人脸区域图像,若待检测人脸图像中不存在人脸区域图像,则返回用于指示该待检测人脸图像中不存在人脸区域图像的提示信息,以重新获取待检测人脸图像;若待检测人脸图像中存在人脸区域图像,则从中提取目标人脸区域图像,然后利用评分模型包括的第一特征提取网络和第二特征提取网络对目标人脸区域图像进行处理,得到目标人脸区域图像的评分结果;其中,评分模型是利用包含训练图像的训练数据集训练得到的,该第一特征提取网络和第二特征提取网络中的一个或多个是结合训练过程中确定的目标损失值训练得到的,目标损失值是根据训练过程中确定的误差参数以及加权损失参数计算得到的,加权损失参数是基于该训练数据集中预测误差大于误差阈值的训练图像所占的比例确定的。由于评分模型在训练过程中考虑了加权损失参数(即基于训练数据集中预测误差大于误差阈值的训练图像所占的比例),使得训练得到的特征提取网络能够提取更好的人脸特征,故采用训练后的评分模型进行人脸评分时,人脸评分的效率以及准确性更高。
需要说明的是,该图像处理设备102可以是终端设备或者服务器,终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能车载等,但并不局限于此;服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
以上对本申请实施例提供的图像处理方法进行了简要介绍,下面对该图像处理方法的具体实现方式进行详细阐述。
请参见图2,为本申请实施例公开的一种图像处理方法的流程示意图,该图像处理方法可以由图1所示的图像处理设备执行,包括但不限于以下步骤:
S201、获取待检测人脸图像,从所述待检测人脸图像中提取目标人脸区域图像。
本申请实施例中,待检测人脸图像可以是从视频中提取的一帧图像,包括从直播视频(例如是唱歌直播视频)中提取的一帧图像;待检测人脸图像也可以是拍摄装置拍摄得到的一张照片,例如,用户利用客户端的拍摄装置对人物进行拍照,并将拍摄得到的人物照片发给图像处理设备,图像处理设备将该人物照片作为待检测人脸图像。
图像处理设备在获取到待检测人脸图像之后,针对该待检测人脸图像进行人脸图像检测,若待检测人脸图像中不存在人脸区域图像,则返回用于指示待检测人脸图像中不存在人脸区域图像的提示信息,以重新获取待检测人脸图像;若待检测人脸图像中存在人脸区域图像,则从中提取目标人脸区域图像。
在一实施例中,图像处理设备从待检测人脸图像中确定人脸区域图像的位置,针对该位置进行图像截取,得到初始人脸区域图像;然后确定初始人脸区域图像的长宽比,若初始人脸区域图像的长宽比不为目标长宽比(例如1:1),则对初始人脸区域图像进行填充处理,得到目标长宽比的人脸区域图像;该填充处理可以是在初始人脸区域图像的周边区域进行补零,以使填充处理后的初始人脸区域图像的长宽比为目标长宽比,例如,假设人脸检测框宽为w,高为h,则填充之后所得到的目标长宽比的样本人脸区域图像的边长都为max(w,h);进一步的,将目标长宽比的人脸区域图像进行缩放处理,以使缩放处理后的人脸区域图像的尺寸为预设尺寸(例如,可以为350pixel×350pixel)。需要说明的是,在缩放处理的过程中,需要保持图像的长宽比不变;最后将缩放处理后的人脸区域图像作为目标人脸区域图像。其中,将人脸区域图像填充为目标长宽比的图像以及将其尺寸缩放为预设尺寸,有利于评分模型的处理。
在可行的实施方式中,如图3所示,可以采用双镜头人脸检测器(Dual Shot FaceDetector,DSFD)对待检测人脸图像进行处理,以从待检测人脸图像中提取出初始人脸区域图像;然后利用图3中的调整模块对初始人脸区域图像进行填充和缩放处理,以得到目标人脸区域图像。
S202、利用评分模型包括的第一特征提取网络和第二特征提取网络对目标人脸区域图像进行处理,得到目标人脸区域图像的评分结果。
本申请实施例中,目标人脸区域图像的评分结果可以是目标人脸区域图像的人脸颜值的评分值。
图像处理设备在提取出目标人脸区域图像后,将该目标人脸区域图像输入评分模型中,评分模型对目标人脸区域图像进行特征提取,并基于提取的特征确定目标人脸区域图像的评分结果,最后输出该评分结果。其中,评分模型提取得到的特征可以包括人脸识别特征,并且还可以包括方向梯度直方图(HOG)特征、Gabor特征(一种用于描述图像纹理信息的特征)、LBP特征(一种用于描述图像局部纹理的特征)、人脸图像的几何特征中的一种或多种。其中,人脸识别特征是对人脸不同区域的不同特征的有效表达,可以包括人脸五官的相关特征,如眼睛的大小、眼睛与眉毛之间的距离、嘴巴的大小、嘴巴与鼻子之间的距离、耳朵的大小和形状,等等,因此该人脸识别特征对人脸有更细致的表征能力,有利于评分模型提取到人脸的细致特征,从而能够给出更加合理的分数预测。
在一实施例中,如图4所示,该评分模型包括第一特征提取网络和第二特征提取网络,评分模型利用该第一特征提取网络对目标人脸区域图像进行特征提取,得到第一特征向量,以及利用该第二特征提取网络对目标人脸区域图像进行特征提取,得到第二特征向量。评分模型然后将第一特征向量和第二特征向量进行融合,得到融合特征向量,并对融合特征向量进行处理,得到目标人脸区域图像的评分结果。在一实施方式中,该评分模型还包括评分网络(如图4所示的全连接层),该评分模型利用该评分网络对第一特征向量和第二特征向量进行融合,并利用该评分网络对融合特征向量进行处理,得到目标人脸区域图像的评分结果;或者该评分模型利用该评分网络只对融合特征向量进行处理得到目标人脸区域图像的评分结果。
其中,第一特征向量所包括的特征包括人脸识别特征,并且还可以包括上述特征(方向梯度直方图(HOG)特征、Gabor特征、LBP特征,人脸图像的几何特征)中的一种或多种;第二特征向量所包括的特征包括人脸识别特征,并且还可以包括上述特征(方向梯度直方图(HOG)特征、Gabor特征LBP特征,人脸图像的几何特征)中的一种或多种,并且第一特征向量和第二特征向量的维度可以不同。通过利用多个特征网络进行特征提取,相对于利用单一特征网络进行特征提取,可以得到更加丰富的人脸特征信息,有利于评分模型得到更准确的预测结果。
在可行的实施方式中,该第一特征提取网络可以是主干网络为inception-resnet(一种残差网络)的人脸识别网络FaceNet,第一特征向量的维度可以为512维;该第二特征提取网络可以是基于挤压和激励残差网络se-resnet构建的特征提取网络,第二特征向量的维度可以为2048维。
在可行的实施方式中,将第一特征向量和所述第二特征向量进行融合的方式可以是采用拼接(concate)的方式,例如,假设第一特征向量的维度为512维,第二特征向量的维度为2048维,则将512维的第一特征向量和2048维的第二特征向量进行拼接,得到拼接后的2560维的特征向量。
本申请实施例中,评分模型是利用包含训练图像的训练数据集训练得到的,并且评分模型包括的第一特征提取网络和第二特征提取网络中的一个或多个是结合训练过程中确定的目标损失值训练得到的,目标损失值是根据训练过程中确定的误差参数以及加权损失参数计算得到的,加权损失参数是基于训练数据集中预测误差大于误差阈值的训练图像所占的比例确定的。
以上介绍了利用评分模型对人脸区域图像进行评分的过程,下面对评分模型的训练方式进行介绍。
请参见图6,为本申请实施例公开的一种评分模型的训练方法的流程示意图,该训练方法可以由训练设备执行,该训练设备可以与执行上述图像处理方法的图像处理设备相同,也可以与该图像处理设备不同。该训练方法包括但不限于以下步骤:
S601、获取训练数据集,该训练数据集包括多张训练图像以及各张训练图像的参考评分值。
本申请实施例中,训练数据集中的训练图像为从样本人脸图像中提取的人脸区域图像;训练数据集中训练图像的参考评分值可以是人为确定的,例如,训练图像的参考评分值可以是同时让5个人分别给每一张训练图像进行评分,然后将5人的评分求取平均值,将该平均值作为该训练图像的参考评分值。
在一种可能的实现方式中,样本人脸图像可以是从视频中提取的一帧图像,包括从直播视频(例如是唱歌直播视频)中提取的一帧图像;样本人脸图像也可以是拍摄装置拍摄得到的一张照片,例如,用户利用客户端的拍摄装置对人物进行拍照,并将拍摄得到的人物照片发给图像处理设备,图像处理设备将该人物照片作为样本人脸图像。
图像处理设备在获取到样本人脸图像之后,针对样本人脸图像进行人脸检测,若样本人脸图像中不存在人脸区域图像,则返回用于指示样本人脸图像中不存在人脸区域图像的提示信息,以重新获取样本人脸图像;若样本人脸图像中存在人脸区域图像,则从中提取训练图像。
在一种可能的实现方式中,图像处理设备从样本人脸图像中确定人脸区域图像的位置,针对该位置进行图像截取,得到样本人脸区域图像;然后确定样本人脸区域图像的长宽比,若样本人脸区域图像的长宽比不为目标长宽比(例如1:1),则对样本人脸区域图像进行填充处理,得到目标长宽比的样本人脸区域图像;该填充处理可以是指在样本人脸区域图像的周边区域进行补零,以使填充处理后的样本人脸区域图像的长宽比为目标长宽比,例如,假设人脸检测框宽为w,高为h,则填充之后所得到的目标长宽比的样本人脸区域图像的边长都为max(w,h);进一步的,将目标长宽比的样本人脸区域图像进行缩放处理,以使缩放处理后的人脸区域图像的尺寸为预设尺寸(例如,可以为350pixel×350pixel)。需要说明的是,在缩放处理的过程中,保持图像的长宽比不变;最后将缩放处理后的样本人脸区域图像作为训练图像。其中,将样本人脸区域图像填充为目标长宽比且将其尺寸缩放为预设尺寸,这样更有利于评分模型的处理。
在可行的实施方式中,如图5a所示,可以采用双镜头人脸检测器(Dual Shot FaceDetector,DSFD)对样本人脸图像进行处理,以从样本人脸图像中提取出样本人脸区域图像;然后利用图5a中的调整模块对样本人脸区域图像进行填充和缩放处理。
S602、利用初始评分模型对所述多张训练图像进行处理,得到各张训练图像的预测评分值,其中,所述初始评分模型包括第一特征提取网络和第二特征提取网络。
本申请实施例中,图像处理设备利用多张训练图像对初始评分模型进行初步训练,得到各张训练图像的预测评分值,该预测评分值可以是对训练图像中的人脸的颜值的评分值。
图像处理设备在提取出训练图像后,将该训练图像输入初始评分模型中,初始评分模型对训练图像进行特征提取,并基于提取的特征确定训练图像的预测评分值。其中,初始评分模型提取得到的特征可以包括人脸识别特征,并且还可以包括方向梯度直方图(HOG)特征、Gabor特征、LBP特征、人脸图像的几何特征中的一种或多种。其中,人脸识别特征是对人脸不同区域的不同特征的有效表达,可以包括人脸五官的相关特征,如眼睛的大小、眼睛与眉毛之间的距离、嘴巴的大小、嘴巴与鼻子之间的距离、耳朵的大小和形状,等等,因此该人脸识别特征对人脸有更细致的表征能力,有利于初始评分模型提取到人脸的细致特征,从而能够给出更加合理的分数预测。
在一实施例中,如图4所示,该初始评分模型包括第一特征提取网络和第二特征提取网络,初始评分模型利用该第一特征提取网络对训练图像进行特征提取,得到第一特征向量,以及利用该第二特征提取网络对训练图像进行特征提取,得到第二特征向量。初始评分模型然后将第一特征向量和第二特征向量进行融合,得到融合特征向量,并对融合特征向量进行处理,得到训练图像的预测评分值。在一实施方式中,该初始评分模型还包括评分网络(如图4所示的全连接层),该初始评分模型利用该评分网络对第一特征向量和第二特征向量进行融合,并利用该评分网络对融合特征向量进行处理,得到训练图像的预测评分值;或者该初始评分模型利用该评分网络只对融合特征向量进行处理得到训练图像的预测评分值。
其中,第一特征向量所包括的特征包括人脸识别特征,并且还可以包括上述特征(方向梯度直方图(HOG)特征、Gabor特征、LBP特征,人脸图像的几何特征)中的一种或多种;第二特征向量所包括的特征包括人脸识别特征,并且还可以上述特征(方向梯度直方图(HOG)特征、Gabor特征LBP特征,人脸图像的几何特征)中的一种或多种,其中,第一特征向量和第二特征向量的维度可以不同。通过利用多个特征网络进行特征提取,相对于利用单一特征网络进行特征提取,可以得到更加丰富的人脸特征信息,有利于初始评分模型得到更准确的预测结果。
在可行的实施方式中,该第一特征提取网络可以是主干网络为inception-resnet(一种残差网络)的人脸识别网络FaceNet,该人脸识别网络FaceNet具有以下优势:采用深度卷积神经网络(CNN)将训练图像映射到欧式空间,在训练前或者在线学习中不断寻找与训练图像最不像的图像,同时寻找与训练图像最像的图像,通过随机梯度下降法,不断缩短所有训练图像的差距,同时尽可能拉大与其他图像的差距,最终达到一个最优。通过这样一种嵌入学习(Embedding learing),能对原始的特征提取网络输出层再进一步学习,从而改善特征的表达,然后该人脸识别网络FaceNet还与inception-resnet(一种残差网络)相结合,其中,inception-resnet(一种残差网络)中的残差连接(Residual connections)允许模型中存在捷径,可以让研究学者成功地训练更深的神经网络。因此,可以将构建好的训练数据集输入到上述的人脸识别网络FaceNet中进行初步训练,得到第一特征向量,其中,第一特征向量所包括的特征包括人脸识别特征、并且还可以包括方向梯度直方图(HOG)特征、Gabor特征、LBP特征,人脸图像的几何特征中的一种或多种。
在可行的实施方式中,第二特征提取网络可以是基于挤压和激励残差网络se-resnet构建的特征提取网络,该网络可以对更为复杂的特征进行提取,因此,可以将构建好的训练数据集输入到该挤压和激励残差网络se-resnet中进行初步训练,得到第二特征向量,第二特征向量所包括的特征包括人脸识别特征、并且还可以包括方向梯度直方图(HOG)特征、Gabor特征、LBP特征,人脸图像的几何特征中的一种或多种。该第一特征向量和第二特征向量的维度可以不同,例如,第一特征向量的维度可以为512维,第二特征向量的维度可以2048维。
在可行的实施方式中,将第一特征向量和所述第二特征向量进行融合的方式可以是采用拼接(concate)的方式,例如,假设第一特征向量的维度为512维,第二特征向量的维度为2048维,则将512维的第一特征向量和2048维的第二特征向量进行拼接,得到拼接后的2560维的特征向量。
S603、基于各张训练图像的参考评分值和预测评分值,确定误差参数和加权损失参数,并基于误差参数和加权损失参数确定目标损失值。
本申请实施例中,可以基于各张训练图像的参考评分值和预测评分值,确定训练图像的平均绝对误差和均方根误差中的一个或多个,将该平均绝对误差和均方根误差中的一个或多个作为误差参数,例如平均绝对误差和均方根误差的计算可以采用如下公式(1)和(2):
其中,LossMAE表示平均绝对误差,LossRMSE表示均方根误差,N为训练图像的数量,abs为取绝对值函数,xi与yi分别表示第i张训练图像的预测评分值和参考评分值。
本申请实施例中,可以基于各张训练图像的参考评分值以及预测评分值,确定各张训练图像的预测误差;确定预测误差大于误差阈值的训练图像在该训练数据集中所占的比例,并基于该比例确定加权损失参数,其中,误差阈值例如可以设置为0.5。
在一实施方式中,可以将该预测误差大于误差阈值的训练图像在该训练数据集中所占的比例作为加权损失参数,该加权损失参数的功能在于直接优化预测误差大于误差阈值的样本比例,此时加权损失参数的计算可以采用如下公式(3):
其中,将该误差阈值设置为0.5,Lossours表示加权损失参数,N为训练图像的数量,I为指示函数,abs为取绝对值函数,xi与yi分别表示第i张训练图像的预测评分值和参考评分值。
本申请实施例中,可以将上述确定的平均绝对误差、均方根误差以及加权损失参数分别与相应权重相乘后相加,得到目标损失值。
在一实施例中,目标损失值的计算公式可以采用如下公式(4):
Loss=a*Lossours+b*LossRMSE+c*LossMAE (4)
其中,Loss为目标损失值,Lossours为加权损失参数,权重系数a例如可以为0.1,LossRMSE均方根误差,权重系数b例如可以为0.3,LossMAE为平均绝对误差,权重系数c例如可以为0.6,其中权重系数a,b,c的和可以为1。
S604、基于目标损失值对初始评分模型包括的第一特征提取网络和第二特征提取网络中的一个或多个进行训练,得到训练后的评分模型。
本申请实施例中,可以基于目标损失值只对初始评分模型包括的第二特征提取网络进行训练,如图5a所示,可以按照图5a中虚线箭头所指示的方向将确定的目标损失值返回给第二特征提取网络,第二特征提取网络基于该目标损失值调整自身的网络架构或者网络参数,以使能够更好的提取人脸特征。此情况下,第一特征提取网络可以是事先已经训练好的,所以无需再基于目标损失值进行训练。
本申请实施例中,还可以基于目标损失值只对初始评分模型包括的第一特征提取网络进行训练,如图5b所示,可以按照图5b中虚线箭头所指示的方向将确定的目标损失值返回给第一特征提取网络,第一特征提取网络基于该目标损失值调整自身的网络架构或者网络参数,以使得能够更好的提取人脸特征。此情况下,第二特征提取网络可以是事先已经训练好的,所以无需再基于目标损失值进行训练。
本申请实施例中,还可以基于目标损失值对初始评分模型包括的第一特征提取网络和第二特征提取网络进行训练,如图5c所示,可以按照图5c中虚线箭头所指示的方向将确定的目标损失值返回给第一特征提取网络和第二特征提取网络,第一特征提取网络和第二特征提取网络基于该目标损失值调整自身的网络架构或者网络参数,以使得能够更好的提取人脸特征。
由于目标损失值是基于加权损失参数确定的,而该加权损失参数的功能在于优化参考评分值和预测评分值的绝对误差大于预设阈值的样本比例,所以基于目标损失值对初始评分模型包括的第一特征提取网络和第二特征提取网络中的一个或两个进行训练,使得训练得到的特征提取网络能够提取更好的人脸特征,采用上述方式训练得到的评分模型进行人脸评分时,人脸评分的效率以及准确性更高。
在一实施例中,根据步骤S603确定的目标损失值对S602中初步训练后的评分模型进行调节,以得到评分模型,该调节的的方式可以为:
确定训练数据集中预测误差大于误差阈值的训练图像所占的比例,若该加权损失参数大于设定的阈值,则根据目标损失值对初步训练后的评分模型进行调节,具体地:首先将得到的目标损失值反馈给初步训练后的评分模型的全连接层,再反馈给第一特征提取网络和第二特征提取网络中的一种或两种,以使对初步训练后的评分模型不断优化,在优化的过程中不断缩小预测误差大于误差阈值的训练图像所占的比例,最后得到调节后的模型即作为评分模型,其中该反馈方式可以是基于反向传播算法的方式。
上述步骤S601~步骤S604具体可以如图5a,5b,5c所述,包括了评分模块、预处理模块和调整模块,其中,评分模块主要是将提取到的特征进行评分,预处理模块主要是从样本人脸图像中获取训练数据集,调整模块主要是对样本人脸区域图像进行填充和缩放处理。
本申请实施例中,图像处理设备获取样本人脸图像,并对样本人脸图像提取人脸的边界框区域图像即样本人脸区域图像,然后对样本人脸区域图像进行填充和缩放处理,得到训练图像;然后将该训练图像作为评分模型的输入导入第一特征提取网络和第二特征提取网络,分别提取出第一特征向量和第二特征向量,其中,该特征向量所包括的特征包括人脸识别特征、并且还可以包括方向梯度直方图(HOG)特征、Gabor特征、LBP特征,人脸图像的几何特征中的一种或几种,然后将第一特征向量和第二特征向量进行融合,得到融合特征向量,最后利用评分模型对融合特征向量进行处理,得到训练图像的预测结果,通过该方法实现对评分模型的训练,可以增加模型训练时的数据量,同时,通过融合特征的方式,丰富了人脸图像的特征信息,并且由于训练过程中考虑了难样本(即预测误差大于误差阈值的训练图像)比例损失,使得训练得到的特征提取网络能够提取更好的人脸特征,采用上述方式训练得到的评分模型进行人脸评分时,人脸评分的效率以及准确性更高。
基于上述的方法实施例,本申请实施例还提供了一种图像处理装置的结构示意图。参见图7,为本申请实施例提供的一种图像处装置的结构示意图。图7所示的图像处理装置1000可运行如下单元:
获取单元1001,用于获取待检测人脸图像;
处理单元1002,用于对待检测人脸图像提取目标人脸区域图像,并利用评分模型包括的第一特征提取网络和第二特征提取网络对该目标人脸区域图像进行处理,得到目标人脸区域图像的评分结果;
其中,评分模型是利用包含训练图像的训练数据集训练得到的,该第一特征提取网络和第二特征提取网络中的一个或多个是结合训练过程中确定的目标损失值训练得到的,目标损失值是根据训练过程中确定的误差参数以及加权损失参数计算得到的,加权损失参数是基于训练数据集中预测误差大于误差阈值的训练图像在该训练数据集中所占的比例确定的。
在一实施例中,处理单元1002从待检测人脸图像中提取目标人脸区域图像时,具体用于:从待检测人脸图像中提取初始人脸区域图像,然后对初始人脸区域图像进行填充处理,得到目标长宽比的人脸区域图像,最后将目标长宽比的人脸区域图像进行缩放处理,将缩放处理后的人脸区域图像作为目标人脸区域图像。
在一实施例中,处理单元1002从待检测人脸图像中提取目标人脸区域图像时,具体用于:从所述待检测人脸图像中提取初始人脸区域图像;对所述初始人脸区域图像进行填充处理,得到目标长宽比的人脸区域图像;将所述目标长宽比的人脸区域图像进行缩放处理,将缩放处理后的人脸区域图像作为目标人脸区域图像。
在一实施例中,处理单元1002利用评分模型包括的第一特征提取网络和第二特征提取网络对所述目标人脸区域图像进行处理,得到所述目标人脸区域图像的评分结果时,具体用于:利用所述第一特征提取网络对所述目标人脸区域图像进行特征提取,得到第一特征向量;利用所述第二特征提取网络对所述目标人脸区域图像进行特征提取,得到第二特征向量;对所述第一特征向量和所述第二特征向量进行处理,得到所述目标人脸区域图像的评分结果。
在一实施例中,图像处理装置还包括训练单元1003,用于:获取训练数据集,所述训练数据集包括多张训练图像以及各张训练图像的参考评分值;利用初始评分模型对多张训练图像进行处理,得到各张训练图像的预测评分值;基于各张训练图像的参考评分值和预测评分值,确定误差参数和加权损失参数,并基于所述误差参数和所述加权损失参数确定目标损失值;基于所述目标损失值对所述初始评分模型包括的第一特征提取网络和第二特征提取网络中的一个或多个进行训练,得到训练后的评分模型。
在一实施例中,训练单元1003基于各张训练图像的参考评分值和预测评分值,确定误差参数时,具体用于:基于各张训练图像的参考评分值和预测评分值,确定平均绝对误差和均方根误差中的一个或多个,将所述平均绝对误差和所述均方根误差中的一个或多个作为误差参数。
在一实施例中,训练单元1003基于各张训练图像的参考评分值和预测评分值,确定加权损失参数时,具体用于:基于各张训练图像的参考评分值以及预测评分值,确定各张训练图像的预测误差;确定预测误差大于误差阈值的训练图像在所述训练数据集中所占的比例,并基于所述比例确定加权损失参数。
在一实施例中,训练单元1003基于所述误差参数和所述加权损失参数确定目标损失值时,具体用于:将所述平均绝对误差、所述均方根误差以及所述加权损失参数分别与相应权重相乘后相加,得到目标损失值。
根据本申请的一个实施例,图2以及图6所示的图像处理方法所涉及各个步骤可以是由图7所示的图像处理装置中的各个单元来执行的。例如,图2所示的图像处理方法中步骤S201可由图7所示的图像处理装置中的获取单元1001来执行,步骤S202可由图7所示的图像处理装置中的处理单元1002来执行;再如,图6所示的图像处理方法中步骤S601可由图7所示的图像处理装置中的获取单元1001来执行,步骤S602-步骤S604可由图7所示的图像处理装置中的训练单元1003来执行。
根据本申请的另一个实施例,图7所示的图像处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,基于图像处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2以及图6所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图7中所示的图像处理装置,以及来实现本申请实施例图像处理方法。所述计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质装载于上述计算设备中,并在其中运行。
本申请实施例中,获取单元1001获取待检测人脸图像,处理单元1002对待检测人脸图像采用双镜头人脸检测器(Dual Shot Face Detector,DSFD)提取人脸的边界框区域图像即初始人脸区域图像,然后对人脸的初始人脸区域图像进行填充和缩放处理,得到目标人脸区域图像,利用评分模型包括的特征提取网络对目标人脸区域图像进行预测,得到目标人脸区域图像的评分结果;其中,该特征提取网络是结合训练过程中确定的误差参数以及加权损失参数训练得到的,该加权损失参数是基于训练数据集中预测误差大于误差阈值的训练图像所占的比例确定的,由于训练过程中考虑了难样本(即预测误差大于误差阈值的训练图像)比例损失,使得训练得到的特征提取网络能够提取更好的人脸特征,利用采用上述方式训练得到的评分模型进行人脸评分时,人脸评分的效率以及准确性更高。
基于上述方法以及装置实施例,本申请实施例提供了一种图像处理设备。参见图8,为本申请实施例提供的一种图像处理设备的结构示意图。图8所示的图像处理设备1100至少包括处理器1101、输入接口1102、输出接口1103、计算机存储介质1104以及存储器1105。其中,处理器1101、输入接口1102、输出接口1103、计算机存储介质1104以及存储器1105可通过总线或其他方式连接。
计算机存储介质1104可以存储在图像处理设备1100的存储器1105中,所述计算机存储介质1104用于存储计算机程序,所述计算机程序包括程序指令,所述处理器1101用于执行所述计算机存储介质1104存储的程序指令。处理器1101(或称CPU(CentralProcessing Unit,中央处理器))是图像处理设备1100的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条计算机指令从而实现相应方法流程或相应功能。
本申请实施例还提供了一种计算机存储介质(Memory),所述计算机存储介质是图像处理设备1100中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括图像处理设备1100中的内置存储介质,当然也可以包括图像处理设备1100支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了图像处理设备1100的操作系统。并且,在该存储空间中还存放了适于被处理器1101加载并执行的一条或多条的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器的计算机存储介质。
在一个实施例中,所述计算机存储介质可由处理器1101加载并执行计算机存储介质中存放的一条或多条指令,以实现上述有关图2以及图3所示的图像处理方法的相应步骤。具体实现中,计算机存储介质中的一条或多条指令由处理器1101加载并执行如下步骤:
获取待检测人脸图像,从所述待检测人脸图像中提取目标人脸区域图像;
利用评分模型包括的第一特征提取网络和第二特征提取网络对所述目标人脸区域图像进行处理,得到所述目标人脸区域图像的评分结果;
其中,所述评分模型是利用包含训练图像的训练数据集训练得到的,所述第一特征提取网络和所述第二特征提取网络中的一个或多个是结合训练过程中确定的目标损失值训练得到的,所述目标损失值是根据训练过程中确定的误差参数以及加权损失参数计算得到的,所述加权损失参数是基于所述训练数据集中预测误差大于误差阈值的训练图像所占的比例确定的。
在一种可能的实现方式中,所述处理器1101从所述待检测人脸图像中提取目标人脸区域图像时,具体用于:
从所述待检测人脸图像中提取初始人脸区域图像;
对所述初始人脸区域图像进行填充处理,得到目标长宽比的人脸区域图像;
将所述目标长宽比的人脸区域图像进行缩放处理,将缩放处理后的人脸区域图像作为目标人脸区域图像。
在一种可能的实现方式中,处理器1101利用评分模型包括的第一特征提取网络和第二特征提取网络对所述目标人脸区域图像进行处理,得到所述目标人脸区域图像的评分结果,包括:
利用所述第一特征提取网络对所述目标人脸区域图像进行特征提取,得到第一特征向量;
利用所述第二特征提取网络对所述目标人脸区域图像进行特征提取,得到第二特征向量;
对所述第一特征向量和所述第二特征向量进行处理,得到所述目标人脸区域图像的评分结果。
在一种可能的实现方式中,所述处理器1101根据评分模型包括评分网络,对所述第一特征向量和所述第二特征向量进行处理,得到所述目标人脸区域图像的评分结果,包括:
将所述第一特征向量和所述第二特征向量进行融合,得到融合特征向量;
利用所述评分网络对所述融合特征向量进行处理,得到所述目标人脸区域图像的评分结果。
在一种可能的实现方式中,所述处理器1101还用于获取训练数据集,所述训练数据集包括多张训练图像以及各张训练图像的参考评分值;
利用初始评分模型对所述多张训练图像进行处理,得到各张训练图像的预测评分值;
基于各张训练图像的参考评分值和预测评分值,确定误差参数和加权损失参数,并基于所述误差参数和所述加权损失参数确定目标损失值;
基于所述目标损失值对所述初始评分模型包括的第一特征提取网络和第二特征提取网络中的一个或多个进行训练,得到训练后的评分模型。
在一种可能的实现方式中,所述处理器1101根据各张训练图像的参考评分值和预测评分值,确定误差参数,包括:基于各张训练图像的参考评分值和预测评分值,确定平均绝对误差和均方根误差中的一个或多个,将所述平均绝对误差和所述均方根误差中的一个或多个作为误差参数。
在一种可能的实现方式中,所述处理器1101根据各张训练图像的参考评分值和预测评分值,确定加权损失参数,包括:基于各张训练图像的参考评分值以及预测评分值,确定各张训练图像的预测误差;确定预测误差大于误差阈值的训练图像在该训练数据集中所占的比例,并基于该比例确定加权损失参数。
本申请实施中,处理器1101获取待检测人脸图像,从待检测人脸图像中提取目标人脸区域图像;利用评分模型包括的第一特征提取网络和第二特征提取网络对目标人脸区域图像进行处理,得到目标人脸区域图像的评分结果;其中,评分模型是利用包含训练图像的训练数据集训练得到的,该第一特征提取网络和第二特征提取网络中的一个或多个是结合训练过程中确定的目标损失值训练得到的,目标损失值是根据训练过程中确定的误差参数以及加权损失参数计算得到的,加权损失参数是基于所述训练数据集中预测误差大于误差阈值的训练图像所占的比例确定的,由第一特征提取网络和第二特征提取网络提取到的特征向量包括第一特征向量和第二特征向量,该第一特征向量和第二特征向量所包括的特征包括人脸识别特征,并且还可以包括方向梯度直方图(HOG)特征、Gabor特征、LBP特征,人脸图像的几何特征中的一种或几种,将第一特征向量和第二特征向量按照预设方式进行融合,得到融合特征向量,最后利用评分模型对融合特征向量进行处理,得到所述目标人脸区域图像的评分结果,通过该方法实现对评分模型的训练,可以增加模型训练时的数据量,同时,通过融合特征的方式,丰富了人脸图像的特征信息,并且由于训练过程中考虑了难样本(即预测误差大于误差阈值的训练图像)比例损失,使得训练得到的特征提取网络能够提取更好的人脸特征,采用上述方式训练得到的评分模型进行人脸评分时,人脸评分的效率以及准确性更高。
根据本申请的一个方面,本申请实施例还提供了一种计算机产品或计算机程序,该计算机产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。处理器1101从计算机可读存储介质中读取该计算机指令,处理器1101执行该计算机指令,使得图像处理设备1100执行图2以及图8所示的图像处理方法。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可能可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种图像处理方法,其特征在于,所述方法包括:
获取待检测人脸图像,从所述待检测人脸图像中提取目标人脸区域图像;
利用评分模型包括的第一特征提取网络和第二特征提取网络对所述目标人脸区域图像进行处理,得到所述目标人脸区域图像的评分结果;
其中,所述评分模型是利用包含训练图像的训练数据集训练得到的,所述第一特征提取网络和所述第二特征提取网络中的一个或多个是结合训练过程中确定的目标损失值训练得到的,所述目标损失值是根据训练过程中确定的误差参数以及加权损失参数计算得到的,所述加权损失参数是基于所述训练数据集中预测误差大于误差阈值的训练图像所占的比例确定的。
2.根据权利要求1所述的方法,其特征在于,所述从所述待检测人脸图像中提取目标人脸区域图像,包括:
从所述待检测人脸图像中提取初始人脸区域图像;
对所述初始人脸区域图像进行填充处理,得到目标长宽比的人脸区域图像;
将所述目标长宽比的人脸区域图像进行缩放处理,将缩放处理后的人脸区域图像作为目标人脸区域图像。
3.根据权利要求1所述的方法,其特征在于,所述利用评分模型包括的第一特征提取网络和第二特征提取网络对所述目标人脸区域图像进行处理,得到所述目标人脸区域图像的评分结果,包括:
利用所述第一特征提取网络对所述目标人脸区域图像进行特征提取,得到第一特征向量;
利用所述第二特征提取网络对所述目标人脸区域图像进行特征提取,得到第二特征向量;
对所述第一特征向量和所述第二特征向量进行处理,得到所述目标人脸区域图像的评分结果。
4.根据权利要求3所述的方法,其特征在于,所述评分模型还包括评分网络,所述对所述第一特征向量和所述第二特征向量进行处理,得到所述目标人脸区域图像的评分结果,包括:
将所述第一特征向量和所述第二特征向量进行融合,得到融合特征向量;
利用所述评分网络对所述融合特征向量进行处理,得到所述目标人脸区域图像的评分结果。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述方法还包括:
获取训练数据集,所述训练数据集包括多张训练图像以及各张训练图像的参考评分值;
利用初始评分模型对所述多张训练图像进行处理,得到各张训练图像的预测评分值;
基于各张训练图像的参考评分值和预测评分值,确定误差参数和加权损失参数,并基于所述误差参数和所述加权损失参数确定目标损失值;
基于所述目标损失值对所述初始评分模型包括的第一特征提取网络和第二特征提取网络中的一个或多个进行训练,得到训练后的评分模型。
6.根据权利要求5所述的方法,其特征在于,所述基于各张训练图像的参考评分值和预测评分值,确定误差参数,包括:
基于各张训练图像的参考评分值和预测评分值,确定平均绝对误差和均方根误差中的一个或多个,将所述平均绝对误差和所述均方根误差中的一个或多个作为误差参数。
7.根据权利要求5所述的方法,其特征在于,所述基于各张训练图像的参考评分值和预测评分值,确定加权损失参数,包括:
基于各张训练图像的参考评分值以及预测评分值,确定各张训练图像的预测误差;
确定预测误差大于误差阈值的训练图像在所述训练数据集中所占的比例,并基于所述比例确定加权损失参数。
8.根据权利要求6所述的方法,其特征在于,所述基于所述误差参数和所述加权损失参数确定目标损失值,包括:
将所述平均绝对误差、所述均方根误差以及所述加权损失参数分别与相应权重相乘后相加,得到目标损失值。
9.一种图像处理设备,其特征在于,所述图像处理设备包括:
处理器,适于实现一条或多条指令;以及,
计算机可读存储介质,所述计算机可读存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如权利要求1-8任一项所述的图像处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-8任一项所述的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110996980.5A CN113569809A (zh) | 2021-08-27 | 2021-08-27 | 一种图像处理方法、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110996980.5A CN113569809A (zh) | 2021-08-27 | 2021-08-27 | 一种图像处理方法、设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113569809A true CN113569809A (zh) | 2021-10-29 |
Family
ID=78172997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110996980.5A Pending CN113569809A (zh) | 2021-08-27 | 2021-08-27 | 一种图像处理方法、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113569809A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116524327A (zh) * | 2023-06-25 | 2023-08-01 | 云账户技术(天津)有限公司 | 人脸识别模型的训练方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111325705A (zh) * | 2018-11-28 | 2020-06-23 | 北京京东尚科信息技术有限公司 | 图像处理方法、装置、设备及存储介质 |
CN111695719A (zh) * | 2020-04-20 | 2020-09-22 | 清华大学 | 一种用户价值预测方法及系统 |
CN112464809A (zh) * | 2020-11-26 | 2021-03-09 | 北京奇艺世纪科技有限公司 | 一种人脸关键点检测方法、装置、电子设备及存储介质 |
WO2021092808A1 (zh) * | 2019-11-13 | 2021-05-20 | 深圳市欢太科技有限公司 | 网络模型的训练方法、图像的处理方法、装置及电子设备 |
-
2021
- 2021-08-27 CN CN202110996980.5A patent/CN113569809A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111325705A (zh) * | 2018-11-28 | 2020-06-23 | 北京京东尚科信息技术有限公司 | 图像处理方法、装置、设备及存储介质 |
WO2021092808A1 (zh) * | 2019-11-13 | 2021-05-20 | 深圳市欢太科技有限公司 | 网络模型的训练方法、图像的处理方法、装置及电子设备 |
CN111695719A (zh) * | 2020-04-20 | 2020-09-22 | 清华大学 | 一种用户价值预测方法及系统 |
CN112464809A (zh) * | 2020-11-26 | 2021-03-09 | 北京奇艺世纪科技有限公司 | 一种人脸关键点检测方法、装置、电子设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116524327A (zh) * | 2023-06-25 | 2023-08-01 | 云账户技术(天津)有限公司 | 人脸识别模型的训练方法、装置、电子设备及存储介质 |
CN116524327B (zh) * | 2023-06-25 | 2023-08-25 | 云账户技术(天津)有限公司 | 人脸识别模型的训练方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112131978B (zh) | 一种视频分类方法、装置、电子设备和存储介质 | |
US20210224601A1 (en) | Video sequence selection method, computer device, and storage medium | |
EP3937124A1 (en) | Image processing method, device and apparatus, and storage medium | |
CN111709409A (zh) | 人脸活体检测方法、装置、设备及介质 | |
CN111666919B (zh) | 一种对象识别方法、装置、计算机设备和存储介质 | |
US20220254134A1 (en) | Region recognition method, apparatus and device, and readable storage medium | |
CN111898703B (zh) | 多标签视频分类方法、模型训练方法、装置及介质 | |
CN112232258B (zh) | 一种信息处理方法、装置及计算机可读存储介质 | |
CN114339409B (zh) | 视频处理方法、装置、计算机设备及存储介质 | |
CN112132197A (zh) | 模型训练、图像处理方法、装置、计算机设备和存储介质 | |
CN113505797B (zh) | 模型训练方法、装置、计算机设备和存储介质 | |
CN112085835B (zh) | 三维卡通人脸生成方法、装置、电子设备及存储介质 | |
EP4404148A1 (en) | Image processing method and apparatus, and computer-readable storage medium | |
KR101996371B1 (ko) | 영상 캡션 생성 시스템과 방법 및 이를 위한 컴퓨터 프로그램 | |
CN116229056A (zh) | 基于双分支特征融合的语义分割方法、装置、设备 | |
CN115050064A (zh) | 人脸活体检测方法、装置、设备及介质 | |
CN111429414B (zh) | 基于人工智能的病灶影像样本确定方法和相关装置 | |
CN112101344A (zh) | 一种视频文本跟踪方法及装置 | |
CN113239866B (zh) | 一种时空特征融合与样本注意增强的人脸识别方法及系统 | |
CN117237547B (zh) | 图像重建方法、重建模型的处理方法和装置 | |
CN114764870A (zh) | 对象定位模型处理、对象定位方法、装置及计算机设备 | |
CN113569809A (zh) | 一种图像处理方法、设备及计算机可读存储介质 | |
CN113822134A (zh) | 一种基于视频的实例跟踪方法、装置、设备及存储介质 | |
CN113822114A (zh) | 一种图像处理方法、相关设备及计算机可读存储介质 | |
CN116469177A (zh) | 混合精度的活体目标检测方法和活体检测模型的训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |