CN110991325A - 一种模型训练的方法、图像识别的方法以及相关装置 - Google Patents
一种模型训练的方法、图像识别的方法以及相关装置 Download PDFInfo
- Publication number
- CN110991325A CN110991325A CN201911203485.3A CN201911203485A CN110991325A CN 110991325 A CN110991325 A CN 110991325A CN 201911203485 A CN201911203485 A CN 201911203485A CN 110991325 A CN110991325 A CN 110991325A
- Authority
- CN
- China
- Prior art keywords
- image
- image sample
- encoder
- self
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 191
- 238000000034 method Methods 0.000 title claims abstract description 101
- 239000011521 glass Substances 0.000 claims abstract description 260
- 230000006870 function Effects 0.000 claims description 226
- 230000001795 light effect Effects 0.000 claims description 86
- 239000000463 material Substances 0.000 claims description 77
- 238000012545 processing Methods 0.000 claims description 35
- 230000001131 transforming effect Effects 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 239000002131 composite material Substances 0.000 claims description 5
- 210000001508 eye Anatomy 0.000 description 34
- 230000001976 improved effect Effects 0.000 description 27
- 238000005516 engineering process Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 25
- 230000009466 transformation Effects 0.000 description 24
- 238000013473 artificial intelligence Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 14
- 238000013461 design Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 241000282414 Homo sapiens Species 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 239000003086 colorant Substances 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 125000001475 halogen functional group Chemical group 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种模型训练的方法、图像识别的方法以及相关装置,提供了一种对人脸图像去除眼镜的自编码器,由于自编码器是基于未佩戴眼镜的图像样本集合训练得的,通过自编码器得到的摘除眼镜后的人脸图像还原度较高,从而可以提高图像识别的准确度。本申请方法包括:获取第一图像样本集合,并根据第一图像样本集合生成第二图像样本集合,其中,第一图像样本集合中的第一图像样本包括未佩戴眼镜的对象,第二图像样本集合中的第二图像样本包括已佩戴眼镜的对象;基于第二图像样本集合,通过待训练自编码器获取预测图像集合;基于预测图像集合以及第一图像样本集合,对待训练自编码器进行训练,得到自编码器。
Description
技术领域
本申请涉及人工智能领域,尤其涉及一种模型训练的方法、图像识别的方法以及相关装置。
背景技术
随着图像处理技术的应用范围越来越广,利用图像处理技术去除图像中的无用信息,得到所需的图像已成为当前图像处理的研究热点。比如,在公共交通的安全验证系统、信用卡验证系统等身份验证系统中,当被验证人员佩戴有眼镜时,通常需要摘取眼镜之后再进行识别,或者对采集的人脸图像去除眼镜之后再进行验证。
目前,可以利用主成分分析(principal components analysis,PCA)技术摘除人脸图像中的眼镜,生成重构之后的无眼镜图像,进而对该无眼镜图像进行识别,得到图像识别的结果。
然而,基于PCA技术对人脸图像进行重构会存在较为严重的失真问题,难以保证重构后的人脸图像与重构前的人脸图像保持一致,导致摘除眼镜后的人脸图像还原度较低,由此降低了图像识别的准确度。
发明内容
本申请实施例提供了一种模型训练的方法、图像识别的方法以及相关装置,提供了一种对人脸图像去除眼镜的自编码器,由于前述自编码器是基于未佩戴眼镜的图像样本集合训练得到的,因此,通过自编码器得到的摘除眼镜后的人脸图像还原度会较高,从而可以提高图像识别的准确度。
有鉴于此,本申请第一方面提供一种模型训练的方法,包括:
获取第一图像样本集合,其中,第一图像样本集合包括至少一个第一图像样本,第一图像样本包括未佩戴眼镜的对象;
根据第一图像样本集合生成第二图像样本集合,其中,第二图像样本集合包括至少一个第二图像样本,第二图像样本包括已佩戴眼镜的对象,且第二图像样本与第一图像样本具有对应关系;
基于第二图像样本集合,通过待训练自编码器获取预测图像集合,其中,预测图像集合包括至少一个预测图像,且预测图像与第二图像样本具有对应关系;
基于预测图像集合以及第一图像样本集合,对待训练自编码器进行训练,得到自编码器。
本申请第二方面提供一种图像识别的方法,包括:
获取待识别图像,其中,待识别图像包括佩戴眼镜的目标对象;
基于待识别图像,通过自编码器获取目标图像,其中,目标图像包括未佩戴眼镜的目标对象,自编码器为采用上述权利要求1至9中任一项方法训练得到的;
将目标图像与预设图像库中的图像进行匹配,得到匹配结果;
若匹配结果为匹配成功,则生成目标对象所对应的图像识别结果。
本申请第三方面提供一种模型训练装置,包括:
获取模块,用于获取第一图像样本集合,其中,第一图像样本集合包括至少一个第一图像样本,第一图像样本包括未佩戴眼镜的对象;
生成模块,用于根据获取模块获取的第一图像样本集合生成第二图像样本集合,其中,第二图像样本集合包括至少一个第二图像样本,第二图像样本包括已佩戴眼镜的对象,且第二图像样本与第一图像样本具有对应关系;
获取模块,还用于基于生成模块生成的第二图像样本集合,通过待训练自编码器获取预测图像集合,其中,预测图像集合包括至少一个预测图像,且预测图像与第二图像样本具有对应关系;
训练模块,用于基于获取模块获取的预测图像集合以及第一图像样本集合,对待训练自编码器进行训练,得到自编码器。
在一种可能的设计中,在本申请实施例的第三方面的第一种实现方式中,
获取模块,具体用于:
获取待处理图像样本集合,其中,待处理图像样本集合包括至少一个待处理图像样本;
获取待处理图像样本集合中待处理图像样本的M个关键点,其中,M为大于1的整数;
根据待处理图像样本的M个关键点,生成第一图像样本,其中,第一图像样本属于第一图像样本集合。
在一种可能的设计中,在本申请实施例的第三方面的第二种实现方式中,
生成模块,具体用于:
获取眼镜模板集合,其中,眼镜模板集合包括至少一个眼镜模板;
根据第一图像样本的M个关键点,获取第一关键点与第二关键点之间的目标距离,其中,M为大于1的整数,第一关键点对应于第一图像样本中对象的左眼位置,第二关键点对应于第一图像样本中对象的右眼位置;
基于目标距离,对眼镜模板集合中的眼镜模板进行调整,得到目标眼镜模板;
根据目标眼镜模板以及第一图像样本,生成第二图像样本,其中,第二图像样本属于第二图像样本集合。
在一种可能的设计中,在本申请实施例的第三方面的第三种实现方式中,
生成模块,具体用于:
对目标眼镜模板以及第一图像样本进行叠加,得到合成图像样本;
通过伽马Gamma变换对合成图像样本进行图像增强处理,得到增强图像样本;
根据增强图像样本生成第二图像样本。
在一种可能的设计中,在本申请实施例的第三方面的第四种实现方式中,
获取模块,还用于从光效库中获取光效素材,其中,光效库包括至少一个光效素材;
模型训练装置还包括:变换模块,用于对光效素材的特征进行随机变换,得到目标光效素材,其中,光效素材的特征包括几何特征以及色彩特征中的至少一种;
生成模块,具体用于:
根据目标光效素材生成镜片样本;
将镜片样本与增强图像样本进行叠加,得到第二图像样本。
在一种可能的设计中,在本申请实施例的第三方面的第五种实现方式中,
训练模块,具体用于:
基于预测图像集合以及第一图像样本集合,根据第一损失函数更新待训练自编码器的模型参数;
若第一损失函数达到收敛,则根据模型参数生成自编码器。
在一种可能的设计中,在本申请实施例的第三方面的第六种实现方式中,
训练模块,具体用于:
根据预测图像集合以及第一图像样本集合,确定第一损失函数;
根据第一损失函数更新待训练自编码器的模型参数;
训练模块,具体用于采用如下方式计算第一损失函数:
LMSE=ω∑‖Igroundtruth-Igen||;
其中,LMSE表示第一损失函数,ω表示第一可调系数,Igroundtruth表示第一图像样本所对应的像素真实值,Igen表示预测图像对应于像素预测值。
在一种可能的设计中,在本申请实施例的第三方面的第七种实现方式中,
训练模块,具体用于:
基于预测图像集合,通过分类器获取第一概率以及第二概率,其中,第一概率表示对象未佩戴眼镜的概率,第二概率表示对象已佩戴眼镜的概率;
基于预测图像集合通过判别器获取第三概率,其中,第三概率表示预测图像集合中属于伪造图像的概率;
基于预测图像集合、第一图像样本集合、第一概率、第二概率以及第三概率,根据目标损失函数更新待训练自编码器的模型参数;
若目标损失函数达到收敛,则根据模型参数生成自编码器。
在一种可能的设计中,在本申请实施例的第三方面的第八种实现方式中,
训练模块,具体用于:
根据预测图像集合以及第一图像样本集合,确定第一损失函数;
根据第一概率以及第二概率,确定第二损失函数;
根据第三概率,确定第三损失函数;
根据第一损失函数、第二损失函数以及第三损失函数,确定目标损失函数;
根据目标损失函数更新待训练自编码器的模型参数。
在一种可能的设计中,在本申请实施例的第三方面的第八种实现方式中,
训练模块,具体用于采用如下方式计算目标损失系数:
L=αLclassifier+βLGAN+LMSE;
LMSE=ω∑‖Igroundtruth-Igen‖;
Lclassifier=-log(Pnoglass)-log(1-Pglass);
其中,L表示目标损失系数,LMSE表示第一损失系数,Lclassifier表示第二损失系数,LGAN表示第三损失系数,ω表示第一可调系数,α表示第二可调系数,β表示第三可调系数,Pnoglass表示第一概率,Pglass表示第二概率,G(z)表示生成器,D(x)表示判别器。
本申请第四方面提供了一种图像识别装置,包括:
获取模块,用于获取待识别图像,其中,待识别图像包括佩戴眼镜的目标对象;
获取模块,还用于基于获取模块获取的待识别图像,通过自编码器获取目标图像,其中,目标图像包括未佩戴眼镜的目标对象,自编码器为上述第二方面以及第二方面的各种可能的设计中的任一种设计中的自编码器;
匹配模块,用于将获取模块获取的目标图像与预设图像库中的图像进行匹配,得到匹配结果;
生成模块,用于在匹配模块得到的匹配结果为匹配成功的情况下,生成目标对象所对应的图像识别结果。
本申请的第五方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
获取第一图像样本集合,并根据第一图像样本集合生成第二图像样本集合,其中,第一图像样本集合包括的第一图像样本中包括未佩戴眼镜的对象,第二图像样本集合包括的第二图像样本中包括已佩戴眼镜的对象,基于第二图像样本集合,通过待训练自编码器获取预测图像集合,其中,预测图像集合包括至少一个预测图像,且预测图像与第二图像样本具有对应关系,基于预测图像集合以及第一图像样本集合,对待训练自编码器进行训练,得到自编码器。通过上述方式,提供了一种对人脸图像去除眼镜的自编码器,由于前述自编码器是基于未佩戴眼镜的图像样本集合训练得到的,因此,通过自编码器得到的摘除眼镜后的人脸图像还原度会较高,从而可以提高图像识别的准确度。
附图说明
图1为本申请实施例中模型训练系统的一个架构示意图;
图2为本申请实施例中模型训练的方法一个实施例示意图;
图3为本申请实施例中获取第一图像样本的一种实施例示意图;
图4为本申请实施例中获取眼镜模板和第一图像样本之间对应关系的一种示意图;
图5为本申请实施例中合成眼镜模板和第一图像样本的一种实施例示意图;
图6为本申请实施例中对合成图像样本进行图像增强处理的一种实施例示意图;
图7为本申请实施例中将镜片样本与增强图像样本进行叠加的一种实施例示意图;
图8为本申请实施例中对待训练自编码器进行训练的一种实施例示意图;
图9为本申请实施例中对待训练自编码器进行训练的另一种实施例示意图;
图10为本申请实施例中图像识别的方法一个实施例示意图;
图11为本申请实施例中模型训练装置一个实施例示意图;
图12为本申请实施例中模型训练装置另一个实施例示意图;
图13为本申请实施例中图像识别装置一个实施例示意图;
图14为本申请实施例中服务器一个实施例示意图;
图15为本申请实施例中终端设备一个实施例示意图。
具体实施方式
本申请实施例提供了一种模型训练的方法、图像识别的方法以及相关装置,提供了一种对人脸图像去除眼镜的自编码器,由于前述自编码器是基于未佩戴眼镜的图像样本集合训练得到的,因此,通过自编码器得到的摘除眼镜后的人脸图像还原度会较高,从而可以提高图像识别的准确度。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应理解,本申请实施例应用于需要对图像中佩戴有眼镜的对象进行去除眼镜的场景中,前述佩戴有眼镜的对象可以为各种存在五官的对象,可以为人、动物、拟人状态的植物、非生物等等。具体的,作为示例,例如在安防等领域中,存在对人脸识别的需求,对于佩戴眼镜的人脸识别存在一定的误差,因此在识别人脸之前进行眼镜消除操作,可以提高人脸识别的准确率;作为另一示例,例如在有些游戏类客户端中,在游戏开始时向玩家提供对自己的游戏角色进行捏脸的过程,具体操作为在获取到玩家的图像之后,基于玩家的图像进行人脸三维重建,从而形成玩家的游戏角色,对于戴眼镜的用户,则需要消除佩戴的眼镜,从而消除眼镜对于人脸三维重建的影响,此处不对应用场景进行穷举。
为了在上述各种场景中,得到还原度较高的摘除眼镜后的人脸图像,本申请实施例提供了一种模型训练的方法,用于训练得到对图像去除眼镜的自编码器,该方法应用于图1示出的模型训练系统中,图1为本申请实施例中模型训练系统的一个架构示意图,如图所示,模型训练系统中包括服务器和配置有自编码器的终端设备,其中,自编码器为人工智能领域的一种神经网络。
具体的,服务器中可以存储有第一图像样本集合,第一图像样本集合中的第一图像样本包括未佩戴眼镜的对象,服务器根据第一图像样本集合生成第二图像样本集合,第二图像样本集合中的第二图像样本包括已佩戴眼镜的对象;服务器在得到第二图像样本集合之后,会基于第二图像样本集合,通过待训练自编码器获取预测图像集合,预测图像集合包括的预测图像与第二图像样本具有对应关系,进而服务器基于预测图像集合以及第一图像样本集合,对待训练自编码器进行迭代训练,直至满足训练结束条件,会得到一个成熟的自编码器。之后服务器可以将自编码器配置于终端设备中,在一种情况中,自编码器是包括于客户端中的,结合上述应用场景进行举例,例如具有捏脸功能的游戏类客户端中需要配置自编码器,则服务器可以将自编码器配置于前述游戏类客户端中,当用户通过终端设备下载前述游戏类客户端时,服务器通过无线网络将配置有自编码器的客户端发送给终端设备,应当理解,前述游戏类客户端仅为一种示例,其他类型的客户端中也可以配置有本申请实施例中的自编码器。在另一种情况中,人脸识别或图像去除眼镜处理等功能为终端设备的主要功能,从而也可以在前述终端设备出厂之前,由服务器通过有线网络或移动存储装置等方式将执行过训练操作的自编码器配置于终端设备中,服务器还可以通过其他方式将执行过训练操作的自编码器配置于终端设备中,此次不做限定。
其中,图1中的服务器为用于对自编码器进行训练的服务器,可以是一台服务器或多台服务器组成的服务器集群或云计算中心等,具体此处均不限定。终端设备可以为图1中示出的平板电脑、笔记本电脑、掌上电脑、手机、个人电脑(personal computer,PC)及语音交互设备;也可以为监控设备、人脸识别设备等,此处不做限定。其中,语音交互设备包含但不仅限于智能音响以及智能家电。在部分实现方式中,配置有自编码器的客户端均可以表现为网页客户端,也可以表现为应用程序类客户端,部署于前述终端设备上。
终端设备和服务器之间可以通过无线网络、有线网络或可移动存储介质进行通信。其中,上述的无线网络使用标准通信技术和/或协议。无线网络通常为因特网、但也可以是任何网络,包括但不限于蓝牙、局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、专用网络或者虚拟专用网络的任何组合)。在一些实施例中,可以使用定制或专用数据通信技术取代或者补充上述数据通信技术。可移动存储介质可以为通用串行总线(Universal Serial Bus,USB)闪存盘、移动硬盘或其他可移动存储介质等。
虽然图1中仅示出了五个终端设备和一个服务器,但应当理解,图1中的示例仅用于理解本方案,具体终端设备和服务器的数量均应当结合实际情况灵活确定。
由于本申请实施例是应用于人工智能领域的,在对本申请实施例提供的模型训练的方法开始介绍之前,先对人工智能领域的一些基础概念进行介绍。人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多种方向展开研究,计算机视觉技术(Computer Vision,CV)就是人工智能技术的多种研究方向中研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
本申请实施例提供的方案涉及人工智能的图像处理技术,结合上述介绍,下面将对本申请中模型训练的方法进行介绍,请参阅图2,本申请实施例中模型训练的方法一个实施例包括:
101、获取第一图像样本集合,其中,第一图像样本集合包括至少一个第一图像样本,第一图像样本包括未佩戴眼镜的对象;
本实施例中,模型训练装置中可以配置有第一图像样本集合,需要说明的是,模型训练装置可以部署于服务器,也可以部署于计算能力较强的终端设备,本申请以模型训练装置部署于服务器为例进行说明,但这不应理解为对本申请的限定。
其中,第一图像样本集合中包括一个或多个第一图像样本,第一图像样本包括未佩戴眼镜的对象,第一图像样本为真实图像,也即第一图像样本不是对包括佩戴眼镜的对象进行去除眼镜处理后得到的图像,而是基于未佩戴眼镜的对象得到的图像。进一步地,第一图像样本中包括未佩戴眼镜的对象可以为人脸、动物的脸、拟人化的植物的脸、拟人化的非生物的脸或其他能够佩戴眼镜的对象。此外,第一图像样本中包括的可以为全局的脸,也可以为局部的脸。
102、根据第一图像样本集合生成第二图像样本集合,其中,第二图像样本集合包括至少一个第二图像样本,第二图像样本包括已佩戴眼镜的对象,且第二图像样本与第一图像样本具有对应关系;
本实施例中,模型训练装置可以根据第一图像样本集合生成第二图像样本集合,其中,第二图像样本集合包括与第一图像样本集合对应的一个或多个第二图像样本,第二图像样本包括已佩戴眼镜的对象。具体的,模型训练装置在获取到第一图像样本集合中的一个或多个第一图像样本之后,针对每个第一图像样本,模型训练装置可以采用非人工智能领域的图像处理技术为第一图像样本中未佩戴眼镜的对象佩戴眼镜,也可以采用卷积神经网络为第一图像样本中未佩戴眼镜的对象佩戴眼镜,从而在针对第一图像样本集合中的所有第一图像样本执行完眼镜合成操作之后,可以得到第二图像样本集合,第二图像样本与第一图像样本之间具有一对一或者多对一的对应关系。
103、基于第二图像样本集合,通过待训练自编码器获取预测图像集合,其中,预测图像集合包括至少一个预测图像,且预测图像与第二图像样本具有对应关系;
本实施例中,模型训练装置在得到第二图像样本集合之后,可以获取预先存储的待训练自编码器,也可以初始化一个待训练自编码器,将第二图像样本输入待训练自编码器,以得到待训练自编码器输出的预测图像,其中,待训练自编码器的目标是去除第二图像样本包括的对象中佩戴的眼镜,但由于待训练自编码器在初始训练阶段的性能可能较弱,则待训练自编码器输出的多个预测图像中可以存在对对象佩戴的眼镜去除不彻底的图像,预测图像集合中包括的预测图像与第二图像样本具有一一对应的关系,预测图像是将第二图像样本输入到待训练自编码器中,进行过眼镜去除处理之后输出的图像。
进一步地,本申请实施例中的待训练自编码器或执行过训练操作的自编码器可以为采用多个残差网络块组成的残差神经网络,残差神经网络是一种卷积神经网络,其内部的残差块使用了跳跃连接的方式。
104、基于预测图像集合以及第一图像样本集合,对待训练自编码器进行训练,得到自编码器。
本实施例中,模型训练装置可以基于预测图像集合以及第一图像样本集合,对待训练自编码器进行迭代训练,在满足迭代训练条件的情况下,得到执行过训练操作的自编码器。具体的,由于第二图像样本是对第一图像样本执行完眼镜合成操作之后得到的,预测图像是待训练自编码器对第二图像样本执行过去除眼镜操作之后得到的,所以第一图像样本中存在与预测图像对应的第一图像样本,预测图像和第一图像样本之间也具有一对一或者多对一的对应关系,则模型训练装置可以在待训练自编码器每生成预测图像集合中的一张预测图像之后,从第一图像集合中获取与前述一张预测图像对应的第一图像样本,从而以第一图像样本为目标对待训练自编码器进行迭代训练,在满足训练条件的情况下,得到执行过训练操作的自编码器。其中,可以为在迭代训练的次数达到预设次数时,视为满足迭代训练条件,预设次数的取值可以为5000、6000、7000或其他数值。也可以为待训练自编码器的损失函数满足收敛条件时,视为满足迭代训练条件,此处不对满足迭代训练条件的具体实现方式进行限定。
本申请实施例中,获取第一图像样本集合,并根据第一图像样本集合生成第二图像样本集合,其中,第一图像样本集合包括的第一图像样本中包括未佩戴眼镜的对象,第二图像样本集合包括的第二图像样本中包括已佩戴眼镜的对象,基于第二图像样本集合,通过待训练自编码器获取预测图像集合,预测图像集合包括至少一个预测图像,且预测图像与第二图像样本具有对应关系,基于预测图像集合以及第一图像样本集合,对待训练自编码器进行训练,得到自编码器。通过上述方式,提供了一种对人脸图像去除眼镜的自编码器,由于前述自编码器是基于未佩戴眼镜的图像样本集合训练得到的,因此,通过自编码器得到的摘除眼镜后的人脸图像还原度会较高,从而可以提高图像识别的准确度。
可选地,在上述图2对应的各个实施例的基础上,本申请实施例提供的模型训练的方法一个可选实施例中,获取第一图像样本集合,可以包括:
获取待处理图像样本集合,其中,待处理图像样本集合包括至少一个待处理图像样本;
获取待处理图像样本集合中待处理图像样本的M个关键点,其中,M为大于1的整数;
根据待处理图像样本的M个关键点,生成第一图像样本,其中,第一图像样本属于第一图像样本集合。
本实施例中,模型训练装置可以从网络图库中获取到图像样本集合,也可以通过爬取网页上的信息获取图像样本集合,还可以为通过图像采集设备直接到图像样本集合,图像样本集合中包括多个图像,图像样本集合中的图像可以包括没有脸部的对象,作为示例,例如图像样本集合中可以存在汽车、树或其他不存在脸部的图像;也可以包括佩戴有眼镜的对象,其中,图像采集设备可以为照相机或者摄影机。模型训练装置在获取到图像样本集合之后,需要从图像样本集合中筛选出待处理图像样本集合,待处理图像样本集合包括至少一个待处理图像样本,每个待处理图像样本中的对象均为有脸部且未佩戴眼镜的对象。接下来,模型训练装置需要对每个待处理图像样本进行预处理,具体的,针对每个待处理图像样本,模型训练装置可以利用卷积神经网络对待处理图像样本的M个关键点进行检测,从而对脸部的M个关键点进行定位,并从待处理图像样本中提取前述M个关键点。其中,采用的卷积神经网络具体可以表现为多任务卷积神经网络(Multi-task convolutionalneural network,MTCNN),此处举例仅为证明本方案的可实现性,还可以采用其他类型的卷积神经网络,此处不做限定。脸部关键点(face landmark)是一种对脸部上一些关键的点位进行标注的方法,通过这些关键点定位,可以对脸部的各个部分进行定位和尺度标定,从而可以对待处理图像样本集合中不同待处理图像样本的脸部进行对齐变换;M为大于1的整数,M的取值具体可以为5,当M的取值为5时,5个关键点可以分别对应两部的两个眼睛、鼻子、嘴巴的左唇尖和右唇尖。
模型训练装置在获取到待处理图像样本的M个关键点之后,可以对应预设大小的图像中的M个固定点位的位置,之后可以基于M个固定点位,采用边缘填充函数和矩阵变换函数,将待处理图像样本对齐到预设大小的图像中,从而生成第一图像样本,其中,第一图像样本属于第一图像样本集合;模型训练装置对待处理图像样本集合中每个待处理图像样本执行上述操作之后,可以得到第一图像样本集合。其中,预设大小的图像可以为大小为224*224、366*366、448*448或其他大小的图像等,第一图像样本的大小为预设大小。边缘填充函数和矩阵变换函数均为开源计算机视觉库opencv中的现有函数,对于边缘填充函数,其原理为复制最近的一行或一列像素并一直延伸至添加边缘的宽度或高度;对于矩阵变换函数,主要是指仿射变换和透视变换,仿射变换是一种二维坐标到二维坐标之间的线性变换,透视变换是将图像投影到一个新的视平面,也称作投影映射,仿射变换和透视变换都是通过矩阵乘法实现的。
为进一步理解本方案,请参阅图3,图3为本申请实施例中获取第一图像样本的一种实施例示意图,其中,步骤A1中,模型训练装置检测待处理图像样本的M个关键点,以对待处理图像样本的M个关键点进行定位,并获取M个关键点,图3中以5个关键点(分别为图3中的两个眼睛、鼻子、嘴巴的左唇尖和右唇尖)为例;步骤A2中,模型训练装置根据获取到的待处理图像样本的M个关键点,在预设大小的图像中对于M个关键点对应的M个固定点位进行定位;步骤A3中,模型训练装置基于M个固定点位,将待处理图像样本对齐到预设大小的图像中,从而生成第一图像样本,应当理解,图3中的示例仅为方便理解本方案,不用于限定本方案。
本申请实施例中,获取待处理图像样本集合,之后获取待处理图像样本集合中待处理图像样本的M个关键点,并服务器根据待处理图像样本的M个关键点,生成第一图像样本集合中的第一图像样本。通过上述方式,服务器在获取待处理图像样本集合之后,会将每个待处理图像样本进行预处理,从而实现了第一图像样本集合中多个第一图像样本的统一化,提高了对待训练自编码器进行训练过程的效率,也有利于提高对待训练自编码器进行训练过程的精准度。
可选地,在上述图2对应的各个实施例的基础上,本申请实施例提供的模型训练的方法一个可选实施例中,根据第一图像样本集合生成第二图像样本集合,可以包括:
获取眼镜模板集合,其中,眼镜模板集合包括至少一个眼镜模板;
根据第一图像样本的M个关键点,获取第一关键点与第二关键点之间的目标距离,其中,M为大于1的整数,第一关键点对应于第一图像样本中对象的左眼位置,第二关键点对应于第一图像样本中对象的右眼位置;
基于目标距离,对眼镜模板集合中的眼镜模板进行调整,得到目标眼镜模板;
根据目标眼镜模板以及第一图像样本,生成第二图像样本,其中,第二图像样本属于第二图像样本集合。
本实施例中,模型训练装置上可以预先配置有眼镜模板集合,其中,眼镜模板集合包括至少一个眼镜模板,具体的,在一种实现方式中,模型训练装置可以为网络图库中获取到包括佩戴有眼镜的对象的多个图像,还可以为通过图像采集设备直接获取到包括佩戴有眼镜的对象的多个图像,进而对前述图像中的眼镜进行扣取得到眼镜模板集合。在另一种实现方式中,模型训练装置可以为网络图库中获取到眼镜的多个图像,也可以购买包括眼镜图像的图像库,还可以为通过图像采集设备直接获取到眼镜的多个图像,进而获取前述图像中的眼镜,模型训练装置可以通过前述多种方式中任一种或多种方式的组合来得到眼镜模板集合。
模型训练装置在获取到第一图像样本集合之后,可以获取眼镜模板集合中包括的多个眼镜模板,针对第一图像样本集合中的每一个第一图像样本,模型训练装置可以从眼镜模板集合中包括的多个眼镜模板中选取一个眼镜模板。针对每一个眼镜模板,模型训练装置会根据第一图像样本的M个关键点中的左眼位置,确定眼镜模板需要左对齐的位置,或者根据第一图像样本的M个关键点中的右眼位置,确定眼镜模板需要右对齐的位置。进而获取第一图像样本中对象的左眼位置与第一图像样本中对象的右眼位置之间的目标距离,其中,前述左眼位置和右眼位置指的可以为眼球的位置,也可以为眼眶中间点的位置,还可以为左眼和右眼的左侧眼角的位置,还可以为左眼和右眼右侧眼角的位置等,具体此处均不作限定。
模型训练装置在利用左眼位置或右眼位置对选取的眼镜模板进行对齐之后,可以基于第一图像样本中对象的左眼位置与右眼位置之间的目标距离,对选取的眼镜模板进行比例缩放调整,当将眼镜模板的大小调整至适合脸部的大小,得到目标眼镜模板。进而模型训练装置可以通过阈值分割在原始输入人脸上切割出眼镜对应的区域,再将目标眼镜模板和第一图像样本在切割出的眼镜模板对应的区域直接相叠加,从而生成了合成的第二图像样本,模型训练装置对于第一图像样本中的所有第一图像样本,可以从眼镜模板集合中选取一个或多个眼镜模板与之进行叠加合成,从而将生成的多个第二图像样本组合形成第二图像样本集合。具体的,模型训练装置可以采用非人工智能的图像合成技术将目标眼镜模板和第一图像样本在切割出的眼镜模板对应的区域进行叠加。其中,第二图像样本属于第二图像样本集合。阈值分割为常见的直接对图像进行分割的算法,根据图像像素的灰度值的不同而定。对应单一目标图像,只需选取一个阈值,即可将图像分为目标和背景两大类,这个称为单阈值分割。如果目标图像复杂,选取多个阈值,才能将图像中的目标区域和背景被分割成多个,这个称为多阈值分割。
为进一步理解本方案,请参阅图4和图5,图4为本申请实施例中获取眼镜模板和第一图像样本之间对应关系的一种示意图,图5为本申请实施例中合成眼镜模板和第一图像样本的一种实施例示意图,其中,图4左侧示出的为4个眼镜模板,图4右侧示出的为2个第一图像样本,从而模型训练装置可以将左侧的4个眼镜模板与右侧的2个第一图像样本任意搭配,以进行目标眼镜模板与第一图像样本的叠加合成操作,应当理解,眼镜模板集合中可以包括更多或更少的眼镜模块,第一图像样本集合中可以包括更多或更少的第一图像样本,图4中的示例仅为方便理解本方案,不用于限定本方案。再请参阅图5,其中,图5左侧示出的为包括未佩戴眼镜的对象的第一图像样本,图5右侧示出的为在执行完目标眼镜模板与第一图像样本之间合成操作的第二图像样本,应当理解,图5中的示例仅为方便理解本方案,不用于限定本方案。
本申请实施例中,在获取到第一图像样本集合之后,会获取包括至少一个眼镜模板的眼镜模板集合,根据第一图像样本的M个关键点,获取第一关键点与第二关键点之间的目标距离,其中,第一关键点对应于第一图像样本中对象的左眼位置,第二关键点对应于第一图像样本中对象的右眼位置,并基于目标距离,对眼镜模板集合中的眼镜模板进行调整,得到目标眼镜模板,从而根据目标眼镜模板以及第一图像样本,生成第二图像样本。通过上述方式,提供了眼镜模板与第一图像样本进行合成的具体实现方式,提高了本方案的可执行性;且目标眼镜模板为基于左眼位置与右眼位置之间的目标距离调整后得到的,从而保证了目标眼镜模板与第一图像样本的适配性,以得到高质量的第二图像样本。
可选地,在上述图2对应的各个实施例的基础上,本申请实施例提供的模型训练的方法一个可选实施例中,服务器根据目标眼镜模板以及第一图像样本,生成第二图像样本,可以包括:
对目标眼镜模板以及第一图像样本进行叠加,得到合成图像样本;
通过伽马Gamma变换对合成图像样本进行图像增强处理,得到增强图像样本;
据增强图像样本生成第二图像样本。
本实施例中,针对每一组目标眼镜模板和第一图像样本,模型训练装置在对目标眼镜模板以及第一图像样本进行叠加合成,得到合成图像样本之后,可以通过伽马(Gamma)变换对合成图像样本中的目标眼镜模板的镜框进行图像增强处理,得到增强图像样本,模型训练装置也可以通过数字图像处理领域的用来增强图像细节的变换方式进行图像增强处理,此处不一一列举。具体的,可以为对镜框的光照进行增强,从而得到增强图像样本,进而可以将增强图像样本确定为第二图像样本,针对每个合成图像样本执行前述操作之后,可以得到第二图像样本集合。其中,Gamma变换指的是输入合成图像样本的灰度值进行的非线性操作,使输出增强图像样本的灰度值与输入图像灰度值呈指数关系。
为进一步理解本方案,请参阅图6,图6为本申请实施例中对合成图像样本进行图像增强处理的一种实施例示意图,其中,图6左侧示出的为未进行图像增强处理前的合成图像样本,图6右侧示出的为进行过图像增强处理前的第二图像样本,很明显,图6右侧图像中的眼镜框更为清晰,应当理解,图6中的示例仅为方便理解本方案,不用于限定本方案。
本申请实施例中,对目标眼镜模板以及第一图像样本进行叠加,得到合成图像样本之后,会Gamma变换对合成图像样本进行图像增强处理,得到增强图像样本,从而得到第二图像样本。通过上述方式,服务器在得到合成图像样本之后,还会进行图像增强处理,从而使得第二图像样本更为逼真,以得到更高质量的第二图像样本。
可选地,在上述图2对应的各个实施例的基础上,本申请实施例提供的模型训练的方法一个可选实施例中,还可以包括:
从光效库中获取光效素材,其中,光效库包括至少一个光效素材;
对光效素材的特征进行随机变换,得到目标光效素材,其中,光效素材的特征包括几何特征以及色彩特征中的至少一种;
根据增强图像样本生成第二图像样本,可以包括:
根据目标光效素材生成镜片样本;
将镜片样本与增强图像样本进行叠加,得到第二图像样本。
本实施例中,模型训练装置上还可以存储由有光效库,其中,光效库包括至少一个光效素材,具体的,模型训练装置可以为网络图库中获取包括光效素材的多个图像,也可以购买包括光效素材的多个图像,还可以为通过图像采集设备直接获取到包括光效素材的多个图像,还可以为通过图像绘制软件直接绘制多个光效素材,还可以通过前述多种方式中任一种或多种方式的组合来得到光效库。进一步地,光效素材指的是光线以及光晕等素材。
在从光效库中获取到光效素材之后,模型训练装置可以对光效素材的特征进行随机变换,得到目标光效素材,其中,光效素材的特征包括透明度、饱和度、几何特征以及色彩特征中的一种或多种的任意组合。进一步地,对光效素材的几何特征进行随机变换指的是通过平移、旋转、尺度变换、畸变或其他方式对光效素材的几何特征进行变换,以模拟不同的光线情况;由于图像由三原色组成,对光效素材的几何特征进行随机变换指的是通过改变光效素材的三原色分量的色相,而改变光效素材的色彩。具体的,对于光效素材的透明度和饱和度,模型训练装置可以将光效素材的透明度和饱和度调低,从而使得光效素材更为真实;对于光效素材的几何特征,模型训练装置可以通过随机函数采用上述平移、旋转、尺度变换、畸变或其他方式进行变换。对于光效素材的色彩特征,模型训练装置可以通过随机函数随机对光效素材的三原色分量进行随机变换,更具体的,模型训练装置可以在获取到光效素材的三原色的值之后,在光效素材的三原色的基础上加上一个合理范围的随机数,从而改变光效素材的色彩特征;可选地,模型训练装置尽量将光效素材的三原色中每个通道的值到蓝光、绿光和紫光的范围内,以保证光效素材的真实性。
模型训练装置在得到目标光效素材之后,可以生成镜片样本,具体的,模型训练装置可以通过阈值分割的方法,对眼镜中的镜片区域进行定位,并从眼镜中分割出镜片的区域,基于眼镜的镜框大小对目标光效素材的大小进行调整,使得目标光效素材的大小与镜框大小相适应,从而得到与镜框相适应的镜片样本;可选地,模型训练装置也可以在得到光效素材之后,先基于眼镜的镜框大小对光效素材的大小进行调整,在得到与镜框大小相适应的光效素材之后,再对光效素材的特征进行随机变换,得到目标光效素材。
模型训练装置可以为在对目标眼镜模板以及第一图像样本进行叠加合成,得到合成图像样本之后,也可以为在获取到对合成图像样本进行图像增强处理的增强图像样本之后,可以基于合成图像样本或增强图像样本,将镜片样本与合成图像样本或将镜片样本与增强图像样本进行叠加,从而得到第二图像样本。具体的,在一种实现方式中,模型训练装置可以为镜片样本分配第一权重值,为合成图像样本或增强图像样本分配第二权重值,进而通过权值叠加的方式将镜片样本与合成图像样本或将镜片样本与增强图像样本进行叠加,从而得到第二图像样本。模型训练装置重复上述操作,将所有合成图像样本或增强图像样本与镜片样本叠加后,可以得到第二图像样本集合。
为进一步理解本方案,请参阅图7,图7为本申请实施例中将镜片样本与增强图像样本进行叠加的一种实施例示意图,其中,图7左侧示出的为未将镜片样本与增强图像样本进行叠加的图像样本,图7右侧示出的为将镜片样本与增强图像样本进行叠加的图像样本,应当理解,图7中的示例仅为方便理解本方案,不用于限定本方案。
本申请实施例中,从光效库中获取光效素材,并对光效素材的特征进行随机变换,得到目标光效素材,其中,光效素材的特征包括几何特征以及色彩特征中的至少一种,进而根据目标光效素材生成镜片样本,将镜片样本与增强图像样本进行叠加,得到第二图像样本。通过上述方式,可以将镜片的光效素材进行几何特征或者色彩特征的变换,从而使得镜片的光效更加真实,从而使得第二图像样本更为逼真,以得到更高质量的第二图像样本。
可选地,在上述图2对应的各个实施例的基础上,本申请实施例提供的模型训练的方法一个可选实施例中,基于预测图像集合以及第一图像样本集合对待训练自编码器进行训练,得到自编码器,可以包括:
模型训练装置基于预测图像集合以及第一图像样本集合,根据第一损失函数更新待训练自编码器的模型参数;
模型训练装置若第一损失函数达到收敛,则根据模型参数生成自编码器。
本实施例中,由于模型训练装置需要以第一图像样本集合为目标,对待训练自编码器的模型参数进行训练,则模型训练装置在获取到预测图像集合中的一个预测图像之后,可以从第一图像样本集合中获取与前述一个预测图像对应的第一图像样本,进而可以根据预测图像以及与之对应的第一图像样本,生成第一损失函数的值,根据第一损失函数的值判断第一损失函数是否达到收敛条件,若未达到收敛条件,则利用第一损失函数的值更新待训练自编码器的模型参数。在待训练自编码器每生成一张预测图像,模型训练装置均可以执行一次前述操作,直至第一损失函数达到收敛条件,则根据最后一次对模型参数进行更新后获得的模型参数生成自编码器。
其中,第一损失函数可以为预测图像以及与之对应的第一图像样本之间每个对应像素的差值的总和,也可以为预测图像以及与之对应的第一图像样本之间每个对应像素的差值的绝对值的总和,也可以为预测图像以及与之对应的第一图像样本之间每个对应像素的差值的总和的平方,还可以为采用其他形式的第一损失函数等,具体第一损失函数的选择可以根据实际情况确定,此处不做限定。第一损失函数的收敛条件可以为第一损失函数的值小于或等于第一预设阈值,作为示例,例如第一预设阈值的取值可以为0.005、0.01、0.02或其它趋近于0的数值;也可以为第一损失函数的相邻两次的值的差值小于或等于第二预设阈值,第二阈值的取值可以与第一阈值的取值相同或不同,作为示例,例如第二预设阈值的取值可以为0.005、0.01、0.02或其它趋近于0的数值等,模型训练装置还可以采用其它收敛条件等,此处不做限定。
本申请实施例中,基于预测图像集合以及第一图像样本集合,根据第一损失函数更新待训练自编码器的模型参数,若第一损失函数达到收敛,则根据模型参数生成自编码器。通过上述方式,提供了服务器对待训练自编码器进行更新的一种具体实现方式,提高了本方案的可实现性。
可选地,在上述图2对应的各个实施例的基础上,本申请实施例提供的模型训练的方法一个可选实施例中,基于预测图像集合以及第一图像样本集合,根据第一损失函数更新待训练自编码器的模型参数,可以包括:
根据预测图像集合以及第一图像样本集合,确定第一损失函数;
根据第一损失函数更新待训练自编码器的模型参数;
根据预测图像集合以及第一图像样本集合,确定第一损失函数,包括:
采用如下方式计算第一损失函数:
LMSE=ω∑‖Igroundtruth-Igen‖;
其中,LMSE表示第一损失函数,ω表示第一可调系数,Igroundtruth表示第一图像样本所对应的像素真实值,Igen表示预测图像对应于像素预测值。
本实施例中,模型训练装置在获取到预测图像集合中的一个预测图像以及与之对应的第一图像样本,可以生成第一损失函数的值,由于模型训练装置可以将梯度下降算法作为待训练自编码器的优化器,在根据第一损失函数的值确定第一损失函数未达到收敛条件的情况下,将第一损失函数的值带入前述梯度下降算法中,以梯度更新待训练自编码器的模型参数。其中,上述公式中示出的第一损失函数指的是均方误差(mean square error,MSE)损失函数,也即第一损失函数的值为第一图像样本中每个像素的像素值与预测图像中每个像素的像素值的差值的均方误差。
为进一步理解本方案,请参阅图8,图8为本申请实施例中对待训练自编码器进行训练的一种实施例示意图,其中,图8中以待训练自编码器采用的为残差神经网络为例,图8中示出了待训练自编码器的多个残差块,其中,B1指的是第一图像样本,B2指的是第二图像样本,图8中以通过残差神经网络在第一图像样本中添加眼镜为例,B3指的是待训练自编码器,B4指的是待训练自编码器输出的预测图像,利用第一图像样本、预测图像以及第一损失函数(也即图8中的均方误差MSE损失函数),对待训练自编码器进行迭代训练,应当理解,图8中的示例仅为方便理解本方案,不用于限定本方案。
本申请实施例中,根据预测图像集合以及第一图像样本集合,确定第一损失函数,并根据第一损失函数更新待训练自编码器的模型参数,还公开了第一损失函数的具体展现形式,通过上述方式,进一步提高了本方案的可实现性;且根据第一图像样本中每个像素的像素值与预测图像中每个像素的像素值生成第一损失函数,简单便捷,提高了本方案的操作简易性。
可选地,在上述图2对应的各个实施例的基础上,本申请实施例提供的模型训练的方法一个可选实施例中,基于预测图像集合以及第一图像样本集合,对待训练自编码器进行训练,得到自编码器,可以包括:
基于预测图像集合,通过分类器获取第一概率以及第二概率,其中,第一概率表示对象未佩戴眼镜的概率,第二概率表示对象已佩戴眼镜的概率;
基于预测图像集合通过判别器获取第三概率,其中,第三概率表示预测图像集合中属于伪造图像的概率;
基于预测图像集合、第一图像样本集合、第一概率、第二概率以及第三概率,根据目标损失函数更新待训练自编码器的模型参数;
在目标损失函数达到收敛的情况下,根据模型参数生成自编码器。
本实施例中,由于待训练自编码器的作用为对第二图像样本中的眼镜进行消除,从而输出不佩戴眼镜的图像,模型训练装置在获取到预测图像集合中的一个预测图像之后,可以将前述一个预测图像输入到分类器中,以通过分类器获取第一概率以及第二概率,其中,第一概率表示对象未佩戴眼镜的概率,第二概率表示对象已佩戴眼镜的概率;由于待训练自编码器的目标为输出高质量的未佩戴眼镜的图像,从而模型训练装置可以将上述一个预测图像输入到判别器中,以通过判别器获取第三概率,其中,第三概率表示预测图像集合中属于伪造图像的概率。进一步地,分类器具体可表现为眼镜二分类器,在将一个图像输入到前述眼镜二分类器中后,可以得到眼镜二分类器输出的对象未佩戴眼镜的概率和对象已佩戴眼镜的概率,作为示例,例如眼镜二分类器具体可以表现为用于大规模图像识别的超深卷积网络(very deep convolutional networks for large-scale imagerecognition,vgg-19)眼镜分类器,可选地,分类器可以为已经训练好的分类器,也可以为尚未训练成熟的分类器,从而可以与待训练自编码器一起训练。判别器包括于生成对抗网络中,生成对抗网络包括生成器和判别器,生成器(也即本申请实施例中的待训练自编码器)用于根据输入的第二图像样本生成一张尽可能真实的假预测图像,判别器用于判别出输入的到判别器中的一个图像属于真实图像还是假图像。生成对抗网络训练是指由生成器生成一张图像去欺骗判别器,然后判别器去判断这张图像以及对应的真实图像是真是假,在这两个模型训练的过程中,使得两个模型的能力越来越强,最终达到稳态的过程。更进一步第,判别器会生成两种类型的概率值,两种类型的概率值分别为表示预测图像属于伪造图像的第三概率值和表示第一图像样本属于真实图像的第四概率值,判别器输出的第三概率值和第四概率值均为一个0-1之间的概率值,判别器训练的目的是使得第三概率值尽可能趋向于0,使得第四概率值尽可能趋向于1,从而获得准确的分类能力。但生成器训练的目的是使得判别器输出的第三概率值尽可能趋向于1。
模型训练装置在得到第一概率、第二概率以及第三概率之后,可以基于第一概率、第二概率以及第三概率得到目标损失函数的函数值;也可以基于预测图像集合和第一图像样本集合得到第一损失函数的函数值,并基于第一概率、第二概率、第三概率以及第一损失函数的函数值得到目标损失函数的函数值,进而判断目标损失函数是否满足收敛条件,若未达到收敛条件,则将目标损失函数的函数值带入前述梯度下降算法中,以梯度更新待训练自编码器的模型参数。在待训练自编码器每生成一张预测图像,模型训练装置均可以执行一次前述操作,直至目标损失函数达到收敛条件,则根据最后一次对模型参数进行更新后获得的模型参数生成自编码器。
本申请实施例中,基于预测图像集合,通过分类器获取第一概率以及第二概率,其中,第一概率表示对象未佩戴眼镜的概率,第二概率表示对象已佩戴眼镜的概率,并基于预测图像集合通过判别器获取第三概率,其中,第三概率表示预测图像集合中属于伪造图像的概率;进而基于预测图像集合、第一图像样本集合、第一概率、第二概率以及第三概率,根据目标损失函数更新待训练自编码器的模型参数,直至目标损失函数达到收敛时得到自编码器。通过上述方式,服务器借助分类器和判别器来对待训练自编码器进行训练,从而有利于帮助自编码器输出的假图像可以彻底消除眼镜且逼近真实的图像,有利于提高自编码器输出的摘除眼镜后的人脸图像的还原度,从而可以提高图像识别的准确度。
可选地,在上述图2对应的各个实施例的基础上,本申请实施例提供的模型训练的方法一个可选实施例中,基于预测图像集合、第一图像样本集合、第一概率、第二概率以及第三概率,根据目标损失函数更新待训练自编码器的模型参数,可以包括:
根据预测图像集合以及第一图像样本集合,确定第一损失函数;
根据第一概率以及第二概率,确定第二损失函数;
根据第三概率,确定第三损失函数;
根据第一损失函数、第二损失函数以及第三损失函数,确定目标损失函数;
根据目标损失函数更新待训练自编码器的模型参数。
本实施例中,模型训练装置可以在获取到预测图像集合中的一个预测图像之后,从第一图像样本集合中获取与之对应的第一图像样本,并根据预测图像和第一图像样本中每个像素之间的差值,确定第一损失函数的函数值;根据第一概率以及第二概率,确定第二损失函数的函数值;根据第三概率,确定第三损失函数的函数值,其中,第一损失函数的目的为将待训练自编码器训练为输出的图像与真实图像类似,第二损失函数的目的为将待训练自编码器训练为输出彻底消除眼镜的图像,第三损失函数的目的为将待训练自编码器训练为输出逼近真实图像的图像;并根据第一损失函数的函数值、第二损失函数的函数值以及第三损失函数的函数值,确定目标损失函数,具体的,可以为将第一损失函数的函数值、第二损失函数的函数值以及第三损失函数的函数值进行加权求和之后,得到目标损失函数的函数值,进而判断目标损失函数是否满足收敛条件,若未达到收敛条件,则将目标损失函数的函数值带入前述梯度下降算法中,以梯度更新待训练自编码器的模型参数,其中,目标损失函数的收敛条件可以为目标损失函数的值小于或等于第三预设阈值;也可以为目标损失函数的相邻两次的值的差值小于或等于第四预设阈值,模型训练装置还可以采用其它收敛条件等,此处不做限定。在待训练自编码器每生成一张预测图像,模型训练装置均可以执行一次前述操作,直至目标损失函数达到收敛条件,则根据最后一次对模型参数进行更新后获得的模型参数生成自编码器。
为进一步理解本方案,请参阅图9,图9为本申请实施例中对待训练自编码器进行训练的另一种实施例示意图,其中,图9中以待训练自编码器采用的为残差神经网络为例,图9中示出了待训练自编码器的多个残差块,由于B1至B4在图8中已经进行了介绍,此处不再赘述,第二损失函数为根据分类器获取的第一概率以及第二概率得到损失函数值,图9中以分类器为眼镜二分类器为例,第三损失函数为根据判别器获取的第三概率值得到损失函数值,利用第一损失函数、第二损失函数以及第三损失函数,对待训练自编码器进行迭代训练,直至满足所有损失函数的收敛条件,可以得到自编码器,应当理解,图9中的示例仅为方便理解本方案,不用于限定本方案。
本申请实施例中,根据第一损失函数、第二损失函数以及第三损失函数,确定目标损失函数,并根据目标损失函数迭代更新待训练自编码器的模型参数,从而有利于帮助自编码器输出的假图像可以彻底消除眼镜且更加逼近真实的图像,有利于提高自编码器输出的摘除眼镜后的人脸图像的还原度,从而可以提高图像识别的准确度。
可选地,在上述图2对应的各个实施例的基础上,本申请实施例提供的模型训练的方法一个可选实施例中,根据第一损失函数、第二损失函数以及第三损失函数,确定目标损失函数,可以包括:
采用如下方式计算目标损失系数:
L=αLclassifier+βLGAN+LMSE;
LMSE=ω∑‖Igroundtruth-Igen||;
Lclassifier=-log(Pnoglass)-log(1-Pglass);
其中,L表示目标损失系数,LMSE表示第一损失系数,Lclassifier表示第二损失系数,LGAN表示第三损失系数,ω表示第一可调系数,α表示第二可调系数,β表示第三可调系数,Pnoglass表示第一概率,Pglass表示第二概率,G(z)表示生成器,D(x)表示判别器,第二损失函数的函数值为根据分类器得到的第一概率和第二概率得到的,第三损失函数为判别器的损失函数。
具体地,Pglass表示分类器的输出结果,它的输出为一个二维向量,即表示戴眼镜的概率。Pnoglass表示分类器的输出结果,它的输出为一个二维向量,即表示不戴眼镜的概率。Igroundtruth表示原图真值像素,Igen表示生成像素。
本申请实施例中,通过上述方式,提供了第一损失函数、第二损失函数以及第三损失函数的具体公式,进一步提高了本方案的可实现性和可执行性。
本申请实施例还提供一种图像识别的方法,请参阅图10,图10为本申请实施例中模型训练方法一个实施例示意图,本申请实施例中图像识别的方法一个实施例包括:
201、获取待识别图像,其中,待识别图像包括佩戴眼镜的目标对象;
本实施例中,图像识别装置可以获取到待识别图像,可以理解的是,图像识别装置可以部署于终端设备,也可以部署于服务器,本申请以图像识别装置部署于终端设备为例进行介绍,然而这不应理解为对本申请的限定。
其中,待识别图像包括佩戴眼镜的目标对象,目标对象可以为人脸、动物的脸、拟人化的植物的脸、拟人化的非生物的脸或其他佩戴有眼镜的对象均可。具体的,图像识别装置可以通过图像采集组件获取到待识别图像,也可以从图像识别装置本地存储的图库或相册中获取到待识别图像,还可以通过网络获取到待识别图像,作为示例,例如从云盘中下载待识别图像;还可以为通过图像绘制软件绘制得到待识别图像,此处不对图像识别装置获取待识别图像的具体实现方式进行限定。
202、基于待识别图像,通过自编码器获取目标图像,其中,目标图像包括未佩戴眼镜的目标对象;
本实施例中,图像识别装置上可以配置有自编码器,该自编码器为服务器采用上述图2至图9对应的方法实施例训练得到之后,配置于图像识别装置上的。图像识别装置在获取到待识别图像之后,通过与训练相同的矩阵视角变换对齐,再将待识别图像输入到自编码器中,以通过自编码器进行图像消除操作,之后通过视角的反变换,从而得到自编码器输出的目标图像,其中,目标图像包括未佩戴眼镜的目标对象。
203、将目标图像与预设图像库中的图像进行匹配,得到匹配结果;
本实施例中,图像识别装置在得到目标图像之后,可以将目标图像与预设图像库中的图像进行匹配,以判断预设图像库中是否存在与目标图像相同或相似的图像,并得到匹配结果;若预设图像库中存在与目标图像相同或相似的图像,则匹配结果为匹配成功;若预设图像库中不存在与目标图像相同或相似的图像,则匹配结果为匹配失败。具体的,图像识别装置在得到目标图像之后,可以访问本地预设图像库,以将目标图像与预设图像库中的图像进行匹配,并得到匹配结果;也可以为将目标图像发送给远端服务器,由服务器将目标图像与预设图像库中的图像进行匹配,并返回匹配结果,对应的,图像识别装置可以接收到服务器发送的匹配结果。
204、在匹配结果为匹配成功的情况下,生成目标对象所对应的图像识别结果。
本实施例中,图像识别装置在匹配结果为匹配成功的情况下,生成目标对象所对应的图像识别结果。具体的,在匹配结果为匹配成功的情况下,可以为从预设图像库中获取与目标图像匹配的图像,作为图像识别结果;也可以为预设图像库中存储有目标对象的信息,从而将预设图像库中目标对象的信息作为图像识别结果,目标对象的信息中可以包括目标对象的年龄、性别、类型或其他个人信息等。更具体的,若图像识别装置上配置有本地预设图像库,则图像识别装置可以基于本地预设图像库得到图像识别结果;若图像识别装置上未配置有本地预设图像库,则图像识别装置可以基于远端服务器得到图像识别结果等,此处不对图像识别结果的内容以及获取方式进行限定。
本申请实施例中,获取待识别图像,其中,待识别图像包括佩戴眼镜的目标对象;基于待识别图像,通过自编码器获取目标图像,其中,目标图像包括未佩戴眼镜的目标对象,自编码器为采用上述图2至图9对应的方法实施例训练得到的;将目标图像与预设图像库中的图像进行匹配,得到匹配结果;若匹配结果为匹配成功,则生成目标对象所对应的图像识别结果。通过上述方式,提供了一种对人脸图像去除眼镜的自编码器的具体实现方式,由于前述自编码器是基于未佩戴眼镜的图像样本集合训练得到的,因此,通过自编码器得到的摘除眼镜后的人脸图像还原度会较高,从而可以提高图像识别的准确度。
下面对本申请中的模型训练装置进行详细描述,请参阅图11,图11为本申请实施例中模型训练装置一个实施例示意图,模型训练装置30包括:
获取模块301,用于获取第一图像样本集合,其中,第一图像样本集合包括至少一个第一图像样本,第一图像样本包括未佩戴眼镜的对象;
生成模块302,用于根据获取模块301获取的第一图像样本集合生成第二图像样本集合,其中,第二图像样本集合包括至少一个第二图像样本,第二图像样本包括已佩戴眼镜的对象,且第二图像样本与第一图像样本具有对应关系;
获取模块301,还用于基于生成模块302生成的第二图像样本集合,通过待训练自编码器获取预测图像集合,其中,预测图像集合包括至少一个预测图像,且预测图像与第二图像样本具有对应关系;
训练模块303,用于基于获取模块301获取的预测图像集合以及第一图像样本集合,对待训练自编码器进行训练,得到自编码器。
本实施例中,获取模块301获取第一图像样本集合,其中,第一图像样本集合包括至少一个第一图像样本,第一图像样本包括未佩戴眼镜的对象,生成模块302根据获取模块301获取的第一图像样本集合生成第二图像样本集合,其中,第二图像样本集合包括至少一个第二图像样本,第二图像样本包括已佩戴眼镜的对象,且第二图像样本与第一图像样本具有对应关系,获取模块301基于生成模块302生成的第二图像样本集合,通过待训练自编码器获取预测图像集合,其中,预测图像集合包括至少一个预测图像,且预测图像与第二图像样本具有对应关系,训练模块303基于获取模块301获取的预测图像集合以及第一图像样本集合,对待训练自编码器进行训练,得到自编码器。
本申请实施例中,获取模块301获取第一图像样本集合,生成模块302根据第一图像样本集合生成第二图像样本集合,其中,第一图像样本集合包括的第一图像样本中包括未佩戴眼镜的对象,第二图像样本集合包括的第二图像样本中包括已佩戴眼镜的对象,获取模块301基于第二图像样本集合,通过待训练自编码器获取预测图像集合,其中,预测图像集合包括至少一个预测图像,且预测图像与第二图像样本具有对应关系,训练模块303基于预测图像集合以及第一图像样本集合,对待训练自编码器进行训练,得到自编码器。通过上述方式,提供了一种对人脸图像去除眼镜的自编码器,由于前述自编码器是基于未佩戴眼镜的图像样本集合训练得到的,因此,通过自编码器得到的摘除眼镜后的人脸图像还原度会较高,从而可以提高图像识别的准确度。
可选地,在上述图11所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,获取模块301,具体用于:
获取待处理图像样本集合,其中,待处理图像样本集合包括至少一个待处理图像样本;
获取待处理图像样本集合中待处理图像样本的M个关键点,其中,M为大于1的整数;
根据待处理图像样本的M个关键点,生成第一图像样本,其中,第一图像样本属于第一图像样本集合。
本申请实施例中,获取模块301获取待处理图像样本集合,之后获取待处理图像样本集合中待处理图像样本的M个关键点,并服务器根据待处理图像样本的M个关键点,生成第一图像样本集合中的第一图像样本。通过上述方式,服务器在获取待处理图像样本集合之后,会将每个待处理图像样本进行预处理,从而实现了第一图像样本集合中多个第一图像样本的统一化,提高了对待训练自编码器进行训练过程的效率,也有利于提高对待训练自编码器进行训练过程的精准度。
可选地,在上述图11所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,生成模块302,具体用于:
获取眼镜模板集合,其中,眼镜模板集合包括至少一个眼镜模板;
根据第一图像样本的M个关键点,获取第一关键点与第二关键点之间的目标距离,其中,M为大于1的整数,第一关键点对应于第一图像样本中对象的左眼位置,第二关键点对应于第一图像样本中对象的右眼位置;
基于目标距离,对眼镜模板集合中的眼镜模板进行调整,得到目标眼镜模板;
根据目标眼镜模板以及第一图像样本,生成第二图像样本,其中,第二图像样本属于第二图像样本集合。
本申请实施例中,生成模块302在获取到第一图像样本集合之后,会获取包括至少一个眼镜模板的眼镜模板集合,根据第一图像样本的M个关键点,获取第一关键点与第二关键点之间的目标距离,其中,第一关键点对应于第一图像样本中对象的左眼位置,第二关键点对应于第一图像样本中对象的右眼位置,并基于目标距离,对眼镜模板集合中的眼镜模板进行调整,得到目标眼镜模板,从而根据目标眼镜模板以及第一图像样本,生成第二图像样本。通过上述方式,提供了眼镜模板与第一图像样本进行合成的具体实现方式,提高了本方案的可执行性;且目标眼镜模板为基于左眼位置与右眼位置之间的目标距离调整后得到的,从而保证了目标眼镜模板与第一图像样本的适配性,以得到高质量的第二图像样本。
可选地,在上述图11所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,生成模块302,具体用于:
对目标眼镜模板以及第一图像样本进行叠加,得到合成图像样本;
通过伽马Gamma变换对合成图像样本进行图像增强处理,得到增强图像样本;
根据增强图像样本生成第二图像样本。
本申请实施例中,生成模块302对目标眼镜模板以及第一图像样本进行叠加,得到合成图像样本之后,会Gamma变换对合成图像样本进行图像增强处理,得到增强图像样本,从而得到第二图像样本。通过上述方式,服务器在得到合成图像样本之后,还会进行图像增强处理,从而使得第二图像样本更为逼真,以得到更高质量的第二图像样本。
可选地,在上述图11所对应的实施例的基础上,请参阅图12,图12为本申请实施例中模型训练装置一个实施例示意图,本申请实施例提供的模型训练装置30的另一实施例中,获取模块301,还用于从光效库中获取光效素材,其中,光效库包括至少一个光效素材;
模型训练装置30还包括:变换模块304,用于对光效素材的特征进行随机变换,得到目标光效素材,其中,光效素材的特征包括几何特征以及色彩特征中的至少一种;
生成模块302,具体用于:
根据目标光效素材生成镜片样本;
将镜片样本与增强图像样本进行叠加,得到第二图像样本。
本申请实施例中,获取模块301从光效库中获取光效素材,变换模块304并对光效素材的特征进行随机变换,得到目标光效素材,其中,光效素材的特征包括几何特征以及色彩特征中的至少一种,进而生成模块302根据目标光效素材生成镜片样本,将镜片样本与增强图像样本进行叠加,得到第二图像样本。通过上述方式,可以将镜片的光效素材进行几何特征或者色彩特征的变换,从而使得镜片的光效更加真实,从而使得第二图像样本更为逼真,以得到更高质量的第二图像样本。
可选地,在上述图11所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,训练模块303,具体用于:
基于预测图像集合以及第一图像样本集合,根据第一损失函数更新待训练自编码器的模型参数;
若第一损失函数达到收敛,则根据模型参数生成自编码器。
本申请实施例中,训练模块303基于预测图像集合以及第一图像样本集合,根据第一损失函数更新待训练自编码器的模型参数,若第一损失函数达到收敛,则根据模型参数生成自编码器。通过上述方式,提供了服务器对待训练自编码器进行更新的一种具体实现方式,提高了本方案的可实现性。
可选地,在上述图11所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,训练模块303,具体用于:
根据预测图像集合以及第一图像样本集合,确定第一损失函数;
根据第一损失函数更新待训练自编码器的模型参数;
训练模块303,具体用于采用如下方式计算第一损失函数:
LMSE=ω∑||Igroundtruth-Igen||;
其中,LMSE表示第一损失函数,ω表示第一可调系数,Igroundtruth表示第一图像样本所对应的像素真实值,Igen表示预测图像对应于像素预测值。
本申请实施例中,训练模块303根据预测图像集合以及第一图像样本集合,确定第一损失函数,并根据第一损失函数更新待训练自编码器的模型参数,还公开了第一损失函数的具体展现形式,通过上述方式,进一步提高了本方案的可实现性;且根据第一图像样本中每个像素的像素值与预测图像中每个像素的像素值生成第一损失函数,简单便捷,提高了本方案的操作简易性。
可选地,在上述图11所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,训练模块303,具体用于:
基于预测图像集合,通过分类器获取第一概率以及第二概率,其中,第一概率表示对象未佩戴眼镜的概率,第二概率表示对象已佩戴眼镜的概率;
基于预测图像集合通过判别器获取第三概率,其中,第三概率表示预测图像集合中属于伪造图像的概率;
基于预测图像集合、第一图像样本集合、第一概率、第二概率以及第三概率,根据目标损失函数更新待训练自编码器的模型参数;
若目标损失函数达到收敛,则根据模型参数生成自编码器。
本申请实施例中,训练模块303基于预测图像集合,通过分类器获取第一概率以及第二概率,其中,第一概率表示对象未佩戴眼镜的概率,第二概率表示对象已佩戴眼镜的概率,并基于预测图像集合通过判别器获取第三概率,其中,第三概率表示预测图像集合中属于伪造图像的概率;进而基于预测图像集合、第一图像样本集合、第一概率、第二概率以及第三概率,根据目标损失函数更新待训练自编码器的模型参数,直至目标损失函数达到收敛时得到自编码器。通过上述方式,服务器借助分类器和判别器来对待训练自编码器进行训练,从而有利于帮助自编码器输出的假图像可以彻底消除眼镜且逼近真实的图像,有利于提高自编码器输出的摘除眼镜后的人脸图像的还原度,从而可以提高图像识别的准确度。
可选地,在上述图11所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,训练模块303,具体用于:
根据预测图像集合以及第一图像样本集合,确定第一损失函数;
根据第一概率以及第二概率,确定第二损失函数;
根据第三概率,确定第三损失函数;
根据第一损失函数、第二损失函数以及第三损失函数,确定目标损失函数;
根据目标损失函数更新待训练自编码器的模型参数。
本申请实施例中,训练模块303根据第一损失函数、第二损失函数以及第三损失函数,确定目标损失函数,并根据目标损失函数迭代更新待训练自编码器的模型参数,从而有利于帮助自编码器输出的假图像可以彻底消除眼镜且更加逼近真实的图像,有利于提高自编码器输出的摘除眼镜后的人脸图像的还原度,从而可以提高图像识别的准确度。
可选地,在上述图11所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,训练模块303,具体用于采用如下方式计算目标损失系数:
L=αLclassifier+βLGAN+LMSE;
LMSE=ω∑||Igroundtruth-Igen||;
Lclassifier=-log(Pnoglass)-log(1-Pglass);
其中,L表示目标损失系数,LMSE表示第一损失系数,Lclassifier表示第二损失系数,LGAN表示第三损失系数,ω表示第一可调系数,α表示第二可调系数,β表示第三可调系数,Pnoglass表示第一概率,Pglass表示第二概率,G(z)表示生成器,D(x)表示判别器。
本申请实施例中,通过上述方式,提供了第一损失函数、第二损失函数以及第三损失函数的具体公式,进一步提高了本方案的可实现性和可执行性。
本申请实施例还提供一种图像识别装置,请参阅图13,图13为本申请实施例中模型训练装置一个实施例示意图,图像识别装置40包括:
获取模块401,用于获取待识别图像,其中,待识别图像包括佩戴眼镜的目标对象;
获取模块401,还用于基于获取模块401获取的待识别图像,通过自编码器获取目标图像,其中,目标图像包括未佩戴眼镜的目标对象,自编码器为采用上述权利要求1至9中任一项方法训练得到的;
匹配模块402,用于将获取模块401获取的目标图像与预设图像库中的图像进行匹配,得到匹配结果;
生成模块403,用于在匹配模块402得到的匹配结果为匹配成功的情况下,生成目标对象所对应的图像识别结果。
本实施例中,获取模块401获取待识别图像,其中,待识别图像包括佩戴眼镜的目标对象,获取模块401,还用于基于获取模块401获取的待识别图像,通过自编码器获取目标图像,其中,目标图像包括未佩戴眼镜的目标对象,自编码器为采用上述图2至图9对应的方法实施例训练得到的,匹配模块402将获取模块401获取的目标图像与预设图像库中的图像进行匹配,得到匹配结果,生成模块403在匹配模块402得到的匹配结果为匹配成功的情况下,生成目标对象所对应的图像识别结果。
本申请实施例中,获取模块401获取待识别图像,其中,待识别图像包括佩戴眼镜的目标对象;基于待识别图像,通过自编码器获取目标图像,其中,目标图像包括未佩戴眼镜的目标对象,自编码器为采用上述图2至图9对应的方法实施例训练得到的;匹配模块402将目标图像与预设图像库中的图像进行匹配,得到匹配结果;若匹配结果为匹配成功,则生成模块403生成目标对象所对应的图像识别结果。通过上述方式,提供了一种对人脸图像去除眼镜的自编码器的具体实现方式,由于前述自编码器是基于未佩戴眼镜的图像样本集合训练得到的,因此,通过自编码器得到的摘除眼镜后的人脸图像还原度会较高,从而可以提高图像识别的准确度。
接下来,本申请实施例还提供了一种服务器,请参阅图14,图14为本申请实施例中提供的服务器的一个结构示意图。所述服务器500上可以部署有上述图11和图12对应的实施例中提供的模型训练装置,用于执行图2至图9对应的实施例中服务器执行的步骤。该服务器500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)522(例如,一个或一个以上处理器)和存储器532,一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对区块链节点中的一系列指令操作。更进一步地,中央处理器522可以设置为与存储介质530通信,在服务器500上执行存储介质530中的一系列指令操作。
服务器500还可以包括一个或一个以上电源526,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口555,和/或,一个或一个以上操作系统541,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图14所示的服务器。在本申请实施例中,当服务器上部署有图11和图12对应的实施例中提供的模型训练装置时,CPU522还用于执行图2至图9对应的实施例中服务器执行的步骤,具体的,CPU522还用于执行如下步骤:
获取第一图像样本集合,其中,所述第一图像样本集合包括至少一个第一图像样本,所述第一图像样本包括未佩戴眼镜的对象;
根据所述第一图像样本集合生成第二图像样本集合,其中,所述第二图像样本集合包括至少一个第二图像样本,所述第二图像样本包括已佩戴眼镜的对象,且所述第二图像样本与所述第一图像样本具有对应关系;
基于所述第二图像样本集合,通过待训练自编码器获取预测图像集合,其中,所述预测图像集合包括至少一个预测图像,且所述预测图像与所述第二图像样本具有对应关系;
基于所述预测图像集合以及所述第一图像样本集合,对所述待训练自编码器进行训练,得到自编码器。
可选地,CPU522具体用于:
获取待处理图像样本集合,其中,所述待处理图像样本集合包括至少一个待处理图像样本;
获取所述待处理图像样本集合中待处理图像样本的M个关键点,其中,所述M为大于1的整数;
根据所述待处理图像样本的M个关键点,生成所述第一图像样本,其中,所述第一图像样本属于所述第一图像样本集合。
可选地,CPU522具体用于:
获取眼镜模板集合,其中,所述眼镜模板集合包括至少一个眼镜模板;
根据所述第一图像样本的M个关键点,获取第一关键点与第二关键点之间的目标距离,其中,所述M为大于1的整数,所述第一关键点对应于所述第一图像样本中所述对象的左眼位置,所述第二关键点对应于所述第二图像样本中所述对象的右眼位置;
基于所述目标距离,对所述眼镜模板集合中的眼镜模板进行调整,得到目标眼镜模板;
根据所述目标眼镜模板以及所述第一图像样本,生成所述第二图像样本,其中,所述第二图像样本属于所述第二图像样本集合。
可选地,CPU522具体用于:
对所述目标眼镜模板以及所述第一图像样本进行叠加,得到合成图像样本;
通过伽马Gamma变换对所述合成图像样本进行图像增强处理,得到增强图像样本;
根据所述增强图像样本生成所述第二图像样本。
可选地,CPU522还用于:
从光效库中获取光效素材,其中,所述光效库包括至少一个光效素材;
对所述光效素材的特征进行随机变换,得到目标光效素材,其中,所述光效素材的特征包括几何特征以及色彩特征中的至少一种;
CPU522具体用于:
根据所述目标光效素材生成镜片样本;
将所述镜片样本与所述增强图像样本进行叠加,得到所述第二图像样本。
可选地,CPU522具体用于:
基于所述预测图像集合以及所述第一图像样本集合,根据第一损失函数更新所述待训练自编码器的模型参数;
若所述第一损失函数达到收敛,则根据所述模型参数生成所述自编码器。
可选地,CPU522具体用于:
根据所述预测图像集合以及所述第一图像样本集合,确定所述第一损失函数;
根据所述第一损失函数更新所述待训练自编码器的模型参数;
采用如下方式计算所述第一损失函数:
LMSE=ω∑||Igroundtruth-Igen||;
其中,所述LMSE表示所述第一损失函数,所述ω表示第一可调系数,所述Igroundtruth表示所述第一图像样本所对应的像素真实值,所述Igen表示所述预测图像对应于像素预测值。
可选地,CPU522具体用于:
基于所述预测图像集合,通过分类器获取第一概率以及第二概率,其中,所述第一概率表示对象未佩戴眼镜的概率,所述第二概率表示对象已佩戴眼镜的概率;
基于所述预测图像集合通过判别器获取第三概率,其中,所述第三概率表示所述预测图像集合中属于伪造图像的概率;
基于所述预测图像集合、所述第一图像样本集合、所述第一概率、所述第二概率以及所述第三概率,根据目标损失函数更新所述待训练自编码器的模型参数;
若所述目标损失函数达到收敛,则根据所述模型参数生成所述自编码器。
可选地,CPU522具体用于:
根据所述预测图像集合以及所述第一图像样本集合,确定第一损失函数;
根据所述第一概率以及所述第二概率,确定第二损失函数;
根据所述第三概率,确定第三损失函数;
根据所述第一损失函数、所述第二损失函数以及所述第三损失函数,确定所述目标损失函数;
根据所述目标损失函数更新所述待训练自编码器的模型参数。
可选地,CPU522具体用于:采用如下方式计算所述目标损失系数:
L=αLclassifier+βLGAN+LMSE;
LMSE=ω∑||Igroundtruth-Igen||;
Lclassifier=-log(Pnoglass)-log(1-Pglass);
其中,所述L表示所述目标损失系数,所述LMSE表示所述第一损失系数,所述Lclassifier表示所述第二损失系数,所述LGAN表示所述第三损失系数,所述ω表示第一可调系数,所述α表示第二可调系数,所述β表示第三可调系数,所述Pnoglass表示所述第一概率,所述Pglass表示所述第二概率,所述G(z)表示生成器,所述D(x)表示判别器。
接下来,本申请实施例还提供了一种终端设备,所述终端设备上可以部署有上述图13对应的实施例中提供的图像识别装置,用于执行图10对应的实施例中终端设备执行的步骤。如图15所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、销售终端(Point of Sales,POS)、车载电脑等任意终端设备,以图像识别装置为手机为例:
图15示出的是与本申请实施例提供的图像识别装置相关的手机的部分结构的框图。参考图15,手机包括:射频(Radio Frequency,RF)电路610、存储器620、输入单元630、显示单元640、传感器630、音频电路660、无线保真(wireless fidelity,WiFi)模块670、处理器680、以及电源690等部件。本领域技术人员可以理解,图15中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图15对手机的各个构成部件进行具体的介绍:
RF电路610可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器680处理;另外,将设计上行的数据发送给基站。通常,RF电路610包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,LNA)、双工器等。此外,RF电路610还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication,GSM)、通用分组无线服务(General Packet RadioService,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器620可用于存储软件程序以及模块,处理器680通过运行存储在存储器620的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元630可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元630可包括触控面板631以及其他输入设备632。触控面板631,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板631上或在触控面板631附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板631可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器680,并能接收处理器680发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板631。除了触控面板631,输入单元630还可以包括其他输入设备632。具体地,其他输入设备632可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元640可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元640可包括显示面板641,可选的,可以采用液晶显示器(Liquid CrystalDisplay,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板641。进一步的,触控面板631可覆盖显示面板641,当触控面板631检测到在其上或附近的触摸操作后,传送给处理器680以确定触摸事件的类型,随后处理器680根据触摸事件的类型在显示面板641上提供相应的视觉输出。虽然在图15中,触控面板631与显示面板641是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板631与显示面板641集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器630,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板641的亮度,接近传感器可在手机移动到耳边时,关闭显示面板641和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路660、扬声器661,传声器662可提供用户与手机之间的音频接口。音频电路660可将接收到的音频数据转换后的电信号,传输到扬声器661,由扬声器661转换为声音信号输出;另一方面,传声器662将收集的声音信号转换为电信号,由音频电路660接收后转换为音频数据,再将音频数据输出处理器680处理后,经RF电路610以发送给比如另一手机,或者将音频数据输出至存储器620以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块670可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图15示出了WiFi模块670,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器680是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器620内的软件程序和/或模块,以及调用存储在存储器620内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器680可包括一个或多个处理单元;可选的,处理器680可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器680中。
手机还包括给各个部件供电的电源690(比如电池),可选的,电源可以通过电源管理系统与处理器680逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像模块、蓝牙模块等,在此不再赘述。
在本申请实施例中,该终端设备所包括的处理器680还用于执行如下步骤:
获取待识别图像,其中,所述待识别图像包括佩戴眼镜的目标对象;
基于所述待识别图像,通过自编码器获取目标图像,其中,所述目标图像包括未佩戴眼镜的所述目标对象,所述自编码器为采用上述权利要求1至9中任一项方法训练得到的;
将所述目标图像与预设图像库中的图像进行匹配,得到匹配结果;
若所述匹配结果为匹配成功,则生成所述目标对象所对应的图像识别结果。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如前述图2至图9所示实施例描述的方法中客户端所执行的步骤,或者,使得计算机执行如前述图10所示实施例描述的方法中客户端所执行的步骤。
本申请实施例中还提供一种包括程序的计算机程序产品,当其在计算机上运行时,使得计算机执行如前述图2至图9所示实施例描述的方法中客户端所执行的步骤,或者,使得计算机执行如前述图10所示实施例描述的方法中客户端所执行的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (15)
1.一种模型训练的方法,其特征在于,包括:
获取第一图像样本集合,其中,所述第一图像样本集合包括至少一个第一图像样本,所述第一图像样本包括未佩戴眼镜的对象;
根据所述第一图像样本集合生成第二图像样本集合,其中,所述第二图像样本集合包括至少一个第二图像样本,所述第二图像样本包括已佩戴眼镜的对象,且所述第二图像样本与所述第一图像样本具有对应关系;
基于所述第二图像样本集合,通过待训练自编码器获取预测图像集合,其中,所述预测图像集合包括至少一个预测图像,且所述预测图像与所述第二图像样本具有对应关系;
基于所述预测图像集合以及所述第一图像样本集合,对所述待训练自编码器进行训练,得到自编码器。
2.根据权利要求1所述的方法,其特征在于,所述获取第一图像样本集合,包括:
获取待处理图像样本集合,其中,所述待处理图像样本集合包括至少一个待处理图像样本;
获取所述待处理图像样本集合中待处理图像样本的M个关键点,其中,所述M为大于1的整数;
根据所述待处理图像样本的M个关键点,生成所述第一图像样本,其中,所述第一图像样本属于所述第一图像样本集合。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一图像样本集合生成第二图像样本集合,包括:
获取眼镜模板集合,其中,所述眼镜模板集合包括至少一个眼镜模板;
根据所述第一图像样本的M个关键点,获取第一关键点与第二关键点之间的目标距离,其中,所述M为大于1的整数,所述第一关键点对应于所述第一图像样本中所述对象的左眼位置,所述第二关键点对应于所述第二图像样本中所述对象的右眼位置;
基于所述目标距离,对所述眼镜模板集合中的眼镜模板进行调整,得到目标眼镜模板;
根据所述目标眼镜模板以及所述第一图像样本,生成所述第二图像样本,其中,所述第二图像样本属于所述第二图像样本集合。
4.根据权利要求3所述的方法,其特征在于,所述根据所述目标眼镜模板以及所述第一图像样本,生成所述第二图像样本,包括:
对所述目标眼镜模板以及所述第一图像样本进行叠加,得到合成图像样本;
通过伽马Gamma变换对所述合成图像样本进行图像增强处理,得到增强图像样本;
根据所述增强图像样本生成所述第二图像样本。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
从光效库中获取光效素材,其中,所述光效库包括至少一个光效素材;
对所述光效素材的特征进行随机变换,得到目标光效素材,其中,所述光效素材的特征包括几何特征以及色彩特征中的至少一种;
所述根据所述增强图像样本生成所述第二图像样本,包括:
根据所述目标光效素材生成镜片样本;
将所述镜片样本与所述增强图像样本进行叠加,得到所述第二图像样本。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述基于所述预测图像集合以及所述第一图像样本集合对所述待训练自编码器进行训练,得到自编码器,包括:
基于所述预测图像集合以及所述第一图像样本集合,根据第一损失函数更新所述待训练自编码器的模型参数;
若所述第一损失函数达到收敛,则根据所述模型参数生成所述自编码器。
7.根据权利要求6所述的方法,其特征在于,所述基于所述预测图像集合以及所述第一图像样本集合,根据第一损失函数更新所述待训练自编码器的模型参数,包括:
根据所述预测图像集合以及所述第一图像样本集合,确定所述第一损失函数;
根据所述第一损失函数更新所述待训练自编码器的模型参数;
所述根据所述预测图像集合以及所述第一图像样本集合,确定所述第一损失函数,包括:
采用如下方式计算所述第一损失函数:
LMSE=ω∑||Igroundtruth-Igen||;
其中,所述LMSE表示所述第一损失函数,所述ω表示第一可调系数,所述Igroundtruth表示所述第一图像样本所对应的像素真实值,所述Igen表示所述预测图像对应于像素预测值。
8.根据权利要求1至5中任一项所述的方法,其特征在于,所述基于所述预测图像集合以及所述第一图像样本集合,对所述待训练自编码器进行训练,得到自编码器,包括:
基于所述预测图像集合,通过分类器获取第一概率以及第二概率,其中,所述第一概率表示对象未佩戴眼镜的概率,所述第二概率表示对象已佩戴眼镜的概率;
基于所述预测图像集合通过判别器获取第三概率,其中,所述第三概率表示所述预测图像集合中属于伪造图像的概率;
基于所述预测图像集合、所述第一图像样本集合、所述第一概率、所述第二概率以及所述第三概率,根据目标损失函数更新所述待训练自编码器的模型参数;
若所述目标损失函数达到收敛,则根据所述模型参数生成所述自编码器。
9.根据权利要求8所述的方法,其特征在于,所述基于所述预测图像集合、所述第一图像样本集合、所述第一概率、所述第二概率以及所述第三概率,根据目标损失函数更新所述待训练自编码器的模型参数,包括:
根据所述预测图像集合以及所述第一图像样本集合,确定第一损失函数;
根据所述第一概率以及所述第二概率,确定第二损失函数;
根据所述第三概率,确定第三损失函数;
根据所述第一损失函数、所述第二损失函数以及所述第三损失函数,确定所述目标损失函数;
根据所述目标损失函数更新所述待训练自编码器的模型参数。
10.根据权利要求9所述的方法,其特征在于,所述根据所述第一损失函数、所述第二损失函数以及所述第三损失函数,确定所述目标损失函数,包括:
采用如下方式计算所述目标损失系数:
L=αLclassifier+βLGAN+LMSE;
LMSE=ω∑||Igroundtruth-Igen||;
Lclassifier=-log(Pnoglass)-log(1-Pglass);
其中,所述L表示所述目标损失系数,所述LMSE表示所述第一损失系数,所述Lclassifier表示所述第二损失系数,所述LGAN表示所述第三损失系数,所述ω表示第一可调系数,所述α表示第二可调系数,所述β表示第三可调系数,所述Pnoglass表示所述第一概率,所述Pglass表示所述第二概率,所述G(z)表示生成器,所述D(x)表示判别器。
11.一种图像识别的方法,其特征在于,包括:
获取待识别图像,其中,所述待识别图像包括佩戴眼镜的目标对象;
基于所述待识别图像,通过自编码器获取目标图像,其中,所述目标图像包括未佩戴眼镜的所述目标对象,所述自编码器为采用上述权利要求1至9中任一项方法训练得到的;
将所述目标图像与预设图像库中的图像进行匹配,得到匹配结果;
若所述匹配结果为匹配成功,则生成所述目标对象所对应的图像识别结果。
12.一种模型训练装置,其特征在于,包括:
获取模块,用于获取第一图像样本集合,其中,所述第一图像样本集合包括至少一个第一图像样本,所述第一图像样本包括未佩戴眼镜的对象;
生成模块,用于根据所述获取模块获取的第一图像样本集合生成第二图像样本集合,其中,所述第二图像样本集合包括至少一个第二图像样本,所述第二图像样本包括已佩戴眼镜的对象,且所述第二图像样本与所述第一图像样本具有对应关系;
所述获取模块,还用于基于所述生成模块生成的第二图像样本集合,通过待训练自编码器获取预测图像集合,其中,所述预测图像集合包括至少一个预测图像,且所述预测图像与所述第二图像样本具有对应关系;
训练模块,用于基于所述获取模块获取的预测图像集合以及所述第一图像样本集合,对所述待训练自编码器进行训练,得到自编码器。
13.一种图像识别装置,其特征在于,包括:
获取模块,用于获取待识别图像,其中,所述待识别图像包括佩戴眼镜的目标对象;
所述获取模块,还用于基于所述获取模块获取的待识别图像,通过自编码器获取目标图像,其中,所述目标图像包括未佩戴眼镜的所述目标对象,所述自编码器为采用上述权利要求1至9中任一项方法训练得到的;
匹配模块,用于将所述获取模块获取的目标图像与预设图像库中的图像进行匹配,得到匹配结果;
生成模块,用于在所述匹配模块得到的匹配结果为匹配成功的情况下,生成所述目标对象所对应的图像识别结果。
14.一种模型训练装置,其特征在于,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括如下步骤:
获取第一图像样本集合,其中,所述第一图像样本集合包括至少一个第一图像样本,所述第一图像样本包括未佩戴眼镜的对象;
根据所述第一图像样本集合生成第二图像样本集合,其中,所述第二图像样本集合包括至少一个第二图像样本,所述第二图像样本包括已佩戴眼镜的对象,且所述第二图像样本与所述第一图像样本具有对应关系;
基于所述第二图像样本集合,通过待训练自编码器获取预测图像集合,其中,所述预测图像集合包括至少一个预测图像,且所述预测图像与所述第二图像样本具有对应关系;
基于所述预测图像集合以及所述第一图像样本集合,对所述待训练自编码器进行训练,得到自编码器;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
15.一种模型训练装置,其特征在于,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括如下步骤:
获取待识别图像,其中,所述待识别图像包括佩戴眼镜的目标对象;
基于所述待识别图像,通过自编码器获取目标图像,其中,所述目标图像包括未佩戴眼镜的所述目标对象,所述自编码器为采用上述权利要求1至9中任一项方法训练得到的;
将所述目标图像与预设图像库中的图像进行匹配,得到匹配结果;
若所述匹配结果为匹配成功,则生成所述目标对象所对应的图像识别结果;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911203485.3A CN110991325A (zh) | 2019-11-29 | 2019-11-29 | 一种模型训练的方法、图像识别的方法以及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911203485.3A CN110991325A (zh) | 2019-11-29 | 2019-11-29 | 一种模型训练的方法、图像识别的方法以及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110991325A true CN110991325A (zh) | 2020-04-10 |
Family
ID=70088430
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911203485.3A Pending CN110991325A (zh) | 2019-11-29 | 2019-11-29 | 一种模型训练的方法、图像识别的方法以及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110991325A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011468A (zh) * | 2021-02-25 | 2021-06-22 | 上海皓桦科技股份有限公司 | 图像特征提取方法及装置 |
CN113052068A (zh) * | 2021-03-24 | 2021-06-29 | 深圳威富云数科技有限公司 | 图像处理方法、装置、计算机设备和存储介质 |
CN113350801A (zh) * | 2021-07-20 | 2021-09-07 | 网易(杭州)网络有限公司 | 模型处理方法、装置、存储介质及计算机设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102034079A (zh) * | 2009-09-24 | 2011-04-27 | 汉王科技股份有限公司 | 眼镜遮挡下的人脸识别方法和系统 |
CN104809761A (zh) * | 2014-01-29 | 2015-07-29 | 上海天昊信息技术有限公司 | 虚拟眼镜试戴系统 |
CN107845062A (zh) * | 2017-11-14 | 2018-03-27 | 北京小米移动软件有限公司 | 图像生成方法及装置 |
CN108447043A (zh) * | 2018-03-30 | 2018-08-24 | 腾讯科技(深圳)有限公司 | 一种图像合成方法、设备及计算机可读介质 |
CN108846355A (zh) * | 2018-06-11 | 2018-11-20 | 腾讯科技(深圳)有限公司 | 图像处理方法、人脸识别方法、装置和计算机设备 |
CN109753850A (zh) * | 2017-11-03 | 2019-05-14 | 富士通株式会社 | 面部识别模型的训练方法和训练设备 |
-
2019
- 2019-11-29 CN CN201911203485.3A patent/CN110991325A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102034079A (zh) * | 2009-09-24 | 2011-04-27 | 汉王科技股份有限公司 | 眼镜遮挡下的人脸识别方法和系统 |
CN104809761A (zh) * | 2014-01-29 | 2015-07-29 | 上海天昊信息技术有限公司 | 虚拟眼镜试戴系统 |
CN109753850A (zh) * | 2017-11-03 | 2019-05-14 | 富士通株式会社 | 面部识别模型的训练方法和训练设备 |
CN107845062A (zh) * | 2017-11-14 | 2018-03-27 | 北京小米移动软件有限公司 | 图像生成方法及装置 |
CN108447043A (zh) * | 2018-03-30 | 2018-08-24 | 腾讯科技(深圳)有限公司 | 一种图像合成方法、设备及计算机可读介质 |
CN108846355A (zh) * | 2018-06-11 | 2018-11-20 | 腾讯科技(深圳)有限公司 | 图像处理方法、人脸识别方法、装置和计算机设备 |
Non-Patent Citations (4)
Title |
---|
BINGWEN HU,ET AL.: "Unsupervised Eyeglasses Removal in the Wild", 《ARXIV》 * |
GANG ZHANG,ET AL.: "Generative Adversarial Network with Spatial Attention for Face Attribute Editing", 《ECCV 2018》 * |
文常保,等: "《人工神经网络理论及应用》", 31 March 2019, 西安电子科技大学出版社 * |
杨帆,等.: "《精通图像处理经典算法(MATLAB版)》", 30 April 2014, 北京航空航天大学出版社 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011468A (zh) * | 2021-02-25 | 2021-06-22 | 上海皓桦科技股份有限公司 | 图像特征提取方法及装置 |
CN113052068A (zh) * | 2021-03-24 | 2021-06-29 | 深圳威富云数科技有限公司 | 图像处理方法、装置、计算机设备和存储介质 |
CN113052068B (zh) * | 2021-03-24 | 2024-04-30 | 深圳威富云数科技有限公司 | 图像处理方法、装置、计算机设备和存储介质 |
CN113350801A (zh) * | 2021-07-20 | 2021-09-07 | 网易(杭州)网络有限公司 | 模型处理方法、装置、存储介质及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020177582A1 (zh) | 视频合成的方法、模型训练的方法、设备及存储介质 | |
CN111461089B (zh) | 一种人脸检测的方法、人脸检测模型的训练方法及装置 | |
US11989350B2 (en) | Hand key point recognition model training method, hand key point recognition method and device | |
US11978239B2 (en) | Target detection method and apparatus, model training method and apparatus, device, and storage medium | |
CN111652121B (zh) | 一种表情迁移模型的训练方法、表情迁移的方法及装置 | |
WO2020216054A1 (zh) | 视线追踪模型训练的方法、视线追踪的方法及装置 | |
EP3965003A1 (en) | Image processing method and device | |
US20210152751A1 (en) | Model training method, media information synthesis method, and related apparatuses | |
CN110852942B (zh) | 一种模型训练的方法、媒体信息合成的方法及装置 | |
CN112101329B (zh) | 一种基于视频的文本识别方法、模型训练的方法及装置 | |
CN112562019A (zh) | 图像色彩调整方法及装置、计算机可读介质和电子设备 | |
CN111009031B (zh) | 一种人脸模型生成的方法、模型生成的方法及装置 | |
CN114418069B (zh) | 一种编码器的训练方法、装置及存储介质 | |
CN110991325A (zh) | 一种模型训练的方法、图像识别的方法以及相关装置 | |
CN108198159A (zh) | 一种图像处理方法、移动终端以及计算机可读存储介质 | |
CN111209812A (zh) | 目标人脸图片提取方法、装置及终端设备 | |
CN113822427A (zh) | 一种模型训练的方法、图像匹配的方法、装置及存储介质 | |
CN111080747B (zh) | 一种人脸图像处理方法及电子设备 | |
CN111556337A (zh) | 一种媒体内容植入方法、模型训练方法以及相关装置 | |
CN111914106B (zh) | 纹理与法线库构建方法、纹理与法线图生成方法及装置 | |
CN108830901B (zh) | 一种图像处理方法和电子设备 | |
CN113723168A (zh) | 一种基于人工智能的主体识别方法、相关装置及存储介质 | |
CN113706438A (zh) | 一种图像处理的方法、相关装置、设备、系统及存储介质 | |
CN116686006A (zh) | 基于可变形模型的三维扫描配准 | |
CN113536876A (zh) | 一种图像识别方法和相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40022214 Country of ref document: HK |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200410 |