CN116486465A - 用于人脸结构分析的图像识别方法及其系统 - Google Patents
用于人脸结构分析的图像识别方法及其系统 Download PDFInfo
- Publication number
- CN116486465A CN116486465A CN202310748452.7A CN202310748452A CN116486465A CN 116486465 A CN116486465 A CN 116486465A CN 202310748452 A CN202310748452 A CN 202310748452A CN 116486465 A CN116486465 A CN 116486465A
- Authority
- CN
- China
- Prior art keywords
- face
- feature map
- feature
- image
- face feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 81
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000009826 distribution Methods 0.000 claims abstract description 37
- 239000013598 vector Substances 0.000 claims description 146
- 239000011159 matrix material Substances 0.000 claims description 44
- 230000002457 bidirectional effect Effects 0.000 claims description 36
- 238000011176 pooling Methods 0.000 claims description 35
- 230000004927 fusion Effects 0.000 claims description 33
- 238000005457 optimization Methods 0.000 claims description 22
- 238000007781 pre-processing Methods 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 17
- 238000001514 detection method Methods 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 6
- 238000010801 machine learning Methods 0.000 abstract description 6
- 230000000694 effects Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 238000003860 storage Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000007792 addition Methods 0.000 description 8
- 238000004140 cleaning Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000013508 migration Methods 0.000 description 8
- 230000005012 migration Effects 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000001815 facial effect Effects 0.000 description 5
- 238000005065 mining Methods 0.000 description 4
- 210000000056 organ Anatomy 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 210000000744 eyelid Anatomy 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 201000009310 astigmatism Diseases 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000002316 cosmetic surgery Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Image Processing (AREA)
Abstract
本申请涉及图像识别领域,其具体地公开了一种用于人脸结构分析的图像识别方法及其系统,其通过采用人工智能的图像识别和机器学习技术挖掘出人脸图像中关于目标对象的人脸隐含特征分布信息,以此来充分且准确地进行目标对象的人脸结构分析,从而生成优化人脸图像报告,以提供更多精准、客观的人脸数据供使用者使用。
Description
技术领域
本申请涉及图像识别领域,且更为具体地,涉及一种用于人脸结构分析的图像识别方法及其系统。
背景技术
随着科技的飞速发展,人工智能和计算机视觉技术得到了广泛应用。利用图像识别和机器学习技术可以实现对人脸特征的精细分析和优化,进而得到精准的人脸特征数据。
例如,申请号为201410348898.1的中国专利公开了人脸图像处理方法,包括:接收其中包括同一人的脸的第一人脸图像和第二人脸图像,所述第一人脸图像包括第一人脸部分与第一背景部分,所述第二人脸图像包括第二人脸部分与第二背景部分;将所述第一人脸图像和所述第二人脸图像保存在图像数据库中;从所述第一人脸图像中提取第一人脸部分并且从所述第二人脸图像中提取第二人脸部分;分别提取所述第一人脸部分的第一人脸特征向量和所述第二人脸部分的第二人脸特征向量;根据所述第一人脸特征向量和所述第二人脸特征向量判断所述第一人脸图像和所述第二人脸图像中包含的脸是谁的脸。该发明有效促进了人脸识别和检测的针对性和准确性。
再如,申请号为201811599359.X的中国专利公开了人脸图像处理方法及相关装置,方法包括:通过特征提取模型将第一人脸图像集合中的多组不同人脸的人脸图像转化成多组人脸图像特征向量;计算所述多组人脸图像特征向量中每组人脸图像特征向量的平均余弦相似度;根据所述每组人脸图像特征向量的平均余弦相似度,确定所述每组人脸图像对应的清洗方式,所述清洗方式包括算法清洗和人工清洗;按照所述每组人脸图像对应的清洗方式对所述第一人脸图像集合中的多组人脸图像进行清洗,得到第二人脸图像集合。该发明通过结合算法清洗和人工清洗对人脸图像集合进行处理,有利于提高人脸图像集合中同一人脸的人脸图像的可靠性和准确性。
随着人们生活水平和审美观念的提高,越来越多的人开始注重美容整形。如何快速准确地分析人脸图像和数据并生成优化方案,为医生提供技术支持是急需解决的问题。传统的方式是由医生通过观察面部特点,进行主观的评估和决策。然而由于每个人的脸型、面部特征以及医生的要求等因素都可能不同,导致对于人脸分析的准确性和效率都较低,可能存在主观性和误差,而且无法做到客观评估和量化结果。
因此,期望一种用于人脸结构分析的图像识别方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种用于人脸结构分析的图像识别方法及系统,其通过采用人工智能的图像识别和机器学习技术挖掘出人脸图像中关于目标对象的人脸隐含特征分布信息,以此来充分且准确地进行目标对象的人脸结构分析,从而生成优化人脸图像报告,以提供更多精准、客观的人脸数据供使用者使用。
根据本申请的一个方面,提供了一种用于人脸结构分析的图像识别方法,其包括:
获取目标对象的人脸图像;
对所述目标对象的人脸图像进行图像预处理以去除所述目标对象的人脸图像中的背景部分以得到预处理后人脸图像;
对所述预处理后人脸图像进行人脸特征点检测以得到带有人脸特征点标注的人脸图像;
将所述带有人脸特征点标注的人脸图像通过基于金字塔网络的编码器结构以得到人脸特征图;
将所述人脸特征图通过双向注意力模块以得到增强人脸特征图;
对所述增强人脸特征图进行特征分布优化以得到优化增强人脸特征图;
以及将所述优化增强人脸特征图通过解码器结构以得到目标对象的优化人脸图像,其中,所述编码器结构与所述解码器结构具有对称的网络结构。
在上述用于人脸结构分析的图像识别方法中,将所述带有人脸特征点标注的人脸图像通过基于金字塔网络的编码器结构以得到人脸特征图,包括:将所述带有人脸特征点标注的人脸图像输入所述编码器结构的第一卷积模块以得到所述第一编码特征图;将所述第一编码特征图输入所述编码器结构的第二卷积模块以得到所述第二编码特征图;将所述第二编码特征图输入所述编码器结构的第三卷积模块以得到所述第三编码特征图;将所述第三编码特征图输入所述编码器结构的第四卷积模块以得到所述第四编码特征图;将所述第四编码特征图输入所述编码器结构的第五卷积模块以得到所述第五编码特征图;以及,融合所述第一至第五编码特征图以得到所述人脸特征图。
在上述用于人脸结构分析的图像识别方法中,将所述人脸特征图通过双向注意力模块以得到增强人脸特征图,包括:对所述人脸特征图进行沿通道维度的全局均值池化以得到全局池化特征矩阵;将所述全局池化特征矩阵分别沿着水平方向和垂直方向进行池化以得到第一向池化向量和第二向池化向量;对所述第一向池化向量和所述第二向池化向量进行关联编码以得到双向关联矩阵;将所述双向关联矩阵输入Sigmoid激活函数以得到双向关联权重矩阵;以及,计算所述双向关联权重矩阵和所述人脸特征图的沿通道维度的各个特征矩阵之间的按位置点乘以得到所述增强人脸特征图。
在上述用于人脸结构分析的图像识别方法中,对所述增强人脸特征图进行特征分布优化以得到优化增强人脸特征图,包括:将所述人脸特征图和所述增强人脸特征图分别展开为人脸特征向量和增强人脸特征向量;融合所述人脸特征向量和所述增强人脸特征向量以得到融合特征向量;以及,将所述融合特征向量进行维度重构以得到所述优化增强人脸特征图。
在上述用于人脸结构分析的图像识别方法中,融合所述人脸特征向量和所述增强人脸特征向量以得到融合特征向量,包括:通过采用类转换器空间迁移置换融合的方式,以如下融合公式来融合所述人脸特征向量和所述增强人脸特征向量以得到所述融合特征向量;其中,所述融合公式为:
;
;
其中,和/>分别是所述人脸特征向量和所述增强人脸特征向量,为向量之间的距离矩阵,/>表示向量间的欧式距离,/>为掩码阈值超参数,且向量均为行向量,/>、/>和/>分别表示特征向量的逐位置相加、相减和相乘,表示矩阵乘法,/>表示/>函数,/>是所述融合特征向量,V1i是所述人脸特征向量的第i个位置的特征值,V2i是所述增强人脸特征向量的第i个位置的特征值。
在上述用于人脸结构分析的图像识别方法中,将所述优化增强人脸特征图通过解码器结构以得到目标对象的优化人脸图像,其中,所述编码器结构与所述解码器结构具有对称的网络结构,包括:将所述优化增强人脸特征图输入所述解码器结构的第一反卷积模块以得到第一解码特征图;融合所述第五编码特征图和所述第一解码特征图以得到第一融合解码特征图作为所述解码器结构的第二反卷积模块的输入。
根据本申请的另一方面,提供了一种用于人脸结构分析的图像识别系统,其包括:
图像采集模块,用于获取目标对象的人脸图像;
图像预处理模块,用于对所述目标对象的人脸图像进行图像预处理以去除所述目标对象的人脸图像中的背景部分以得到预处理后人脸图像;
人脸特征点检测模块,用于对所述预处理后人脸图像进行人脸特征点检测以得到带有人脸特征点标注的人脸图像;
图像特征提取模块,用于将所述带有人脸特征点标注的人脸图像通过基于金字塔网络的编码器结构以得到人脸特征图;
特征增强模块,用于将所述人脸特征图通过双向注意力模块以得到增强人脸特征图;
特征分布优化模块,用于对所述增强人脸特征图进行特征分布优化以得到优化增强人脸特征图;以及解码模块,用于将所述优化增强人脸特征图通过解码器结构以得到目标对象的优化人脸图像,其中,所述编码器结构与所述解码器结构具有对称的网络结构。
根据本申请的再一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的用于人脸结构分析的图像识别方法。
根据本申请的又一方面,提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的用于人脸结构分析的图像识别方法。
与现有技术相比,本申请提供的一种用于人脸结构分析的图像识别方法及系统,其通过采用人工智能的图像识别和机器学习技术挖掘出人脸图像中关于目标对象的人脸隐含特征分布信息,以此来充分且准确地进行目标对象的人脸结构分析,从而生成优化人脸图像报告,以提供更多精准、客观的人脸数据供使用者使用。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为根据本申请实施例的用于人脸结构分析的图像识别方法的场景示意图。
图2为根据本申请实施例的用于人脸结构分析的图像识别方法的流程图。
图3为根据本申请实施例的用于人脸结构分析的图像识别方法的系统架构图。
图4为根据本申请实施例的用于人脸结构分析的图像识别方法中编码器结构编码过程的流程图。
图5为根据本申请实施例的用于人脸结构分析的图像识别方法中特征增强过程的流程图。
图6为根据本申请实施例的用于人脸结构分析的图像识别方法中特征分布优化过程的流程图。
图7为根据本申请实施例的用于人脸结构分析的图像识别系统的框图。
图8为根据本申请实施例的电子设备的框图。
附图标记:
300、图像识别系统;310、图像采集模块;320、图像预处理模块;330、人脸特征点检测模块;340、图像特征提取模块;350、特征增强模块;360、特征分布优化模块;370、解码模块;10、电子设备;11、处理器;12、存储器;13、输入装置;14、输出装置。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
申请概述
如上所述,利用图像识别和机器学习技术可以实现对人脸特征的精细分析和优化,用于辅助医疗整形手术,能够更加精准和高效。然而,由于每个人的脸型、面部特征以及医生的要求等因素都可能不同,导致对于人脸分析的准确性和效率都较低,会存在误差,影响后续的医疗整形效果。因此,期望一种用于人脸结构分析的图像识别方案。
具体地,在本申请的技术方案中,提出了一种用于人脸结构分析的图像识别方法,其能够基于图像识别和机器视觉技术,检测出人脸的眼睛大小、位置及各个人脸特征信息,然后通过远程监测目标对象的度数和散光,以及目标对象的人脸面部表情,从而在不同的人脸特征情况下,自动分析生成目标对象的优化人脸结构,比如鼻梁需要增高,双眼皮等等,以此生成报告,以提供更多精准、客观的人脸数据供使用者使用。在一个具体示例中,首先,采集目标人脸的图像,并对图像进行预处理,提取人脸的特征点;接着,根据特征点,确定人脸的眼睛、鼻子、嘴巴等部位的位置和大小,以及人脸的轮廓和对称性;根据人脸部位的位置和大小,以及人脸的轮廓和对称性,计算人脸的结构参数,如眼距、鼻宽、下巴高度等;然后,根据人脸的结构参数,与预设的标准人脸结构参数进行比较,得出人脸结构的优劣评分;进而,再根据人脸结构的优劣评分,提出改善人脸结构的建议,如增加鼻梁高度、缩小眼距、增加双眼皮等,并生成人脸结构分析报告。 特别地,本发明的系统包括图像采集模块、图像处理模块、人脸结构分析模块和报告生成模块。本发明能够快速准确地分析人脸结构,并提供改善建议,适用于医疗整形行业。
基于此,在本申请的技术方案中,考虑到在实际进行人脸结构的分析来生成优化人脸图像时,关键在于对所述目标对象的人脸图像进行准确充分地分析,以进行所述人脸图像中关于目标对象的人脸特征的充分表达。但是,由于所述目标对象的人脸图像中存在有较多的信息量,且还存在有背景干扰,而关于目标对象的人脸特征在图像中为小尺度的隐含特征信息,这对于目标对象的人脸结构分析带来了困难。因此,在此过程中,难点在于如何进行所述人脸图像中关于目标对象的人脸隐含特征分布信息的充分表达,以此来充分且准确地进行目标对象的人脸结构分析,从而生成优化人脸图像报告,以提供更多精准、客观的人脸数据供使用者使用。
具体地,在本申请的技术方案中,首先,获取目标对象的人脸图像。应可以理解,所述目标对象的人脸图像与背景颜色相近,会导致对比度不明显,也就是说,背景信息会影响到人脸特征的提取和识别。如果将所述人脸图像的原始图片直接放进编码器中进行图像特征提取,会影响最终的优化人脸图像的生成结果精准度。因此,为了提高所述目标对象的人脸图像的对比度,以提高人脸特征的表达能力,需要对原始图片进行图像预处理。也就是,对所述目标对象的人脸图像进行图像预处理以去除所述目标对象的人脸图像中的背景部分以得到预处理后人脸图像。具体来说,可以对图像进行灰度转换、图像标准化、对比度受限自适应直方图均衡化(CLAHE)和伽马校正。
然后,考虑到在人脸识别中,人脸各种区域如眼睛、鼻子、嘴巴等都具有不同的特征,这些特征点的位置和坐标信息对于后续的处理和分析具有重要作用。因此,在本申请的技术方案中,进一步对所述预处理后人脸图像进行人脸特征点检测以得到带有人脸特征点标注的人脸图像。这样,能够根据特征点,确定人脸的眼睛、鼻子、嘴巴等部位的位置和大小,以及人脸的轮廓和对称性,从而快速准确地提取出人脸的关键特征点,并通过标注将这些点显示出来,以更好地观察和分析人脸结构,便于后续进行人脸特征的提取。
接着,使用在隐含特征提取方面具有优异表现的卷积神经网络模型来对于所述带有人脸特征点标注的人脸图像进行特征挖掘,特别地,考虑到在进行所述带有人脸特征点标注的人脸图像的特征提取时,不仅需要关注于所述人脸图像中关于目标对象人脸特征的深层隐藏特征信息,更需要聚焦于所述人脸图像中关于人脸的轮廓、边缘、各个器官位置和纹理等浅层特征信息。而金字塔网络主要是解决目标检测中的多尺度问题,其可以同时利用低层特征高分辨率和高层特征的高语义信息,通过融合这些不同层的特征达到很好的效果。因此,在本申请的技术方案中,将所述带有人脸特征点标注的人脸图像通过基于金字塔网络的编码器结构以得到人脸特征图。特别地,这里,所述基于金字塔网络的编码器采用具有不同深度的第一至第五卷积模块来分别进行所述带有人脸特征点标注的人脸图像的特征挖掘以得到第一至第五编码特征图,从而在提取出所述带有人脸特征点标注的人脸图像中关于目标对象的人脸深层隐含特征的同时,保留其在浅层的轮廓、边缘、各个器官位置和纹理等丰富特征信息,进而在后续进行人脸图像优化时提高图像优化的精准度。应可以理解,金字塔网络主要是解决目标检测中的多尺度问题,通过简单的改变网络连接,在基本不增加原有模型计算量的情况下,可以在不同的特征层上独立进行检测,大幅提升了小目标检测的性能。
进一步地,还考虑到由于目标对象的人脸轮廓、分布等特征复杂多样,保留和传递浅层细节特征对提高算法分割准确率非常重要。在U-Net网络中,通过跳跃连接将编码器的特征信息直接传递到解码器,实现浅层特征与深层特征融合,补充解码器细节特征信息,但这种在同尺度之间特征直接传递的方式过于简单,没有对所述目标对象的人脸信息进行筛选,进而无法有效对目标对象的人脸特征信息进行充分刻画。因此,在本申请的技术方案中,进一步使用双向注意力模块来对所述人脸特征图进行处理以得到增强人脸特征图。这样,能够充分利用上下文信息来增强所述目标对象的人脸特征响应且抑制背景特征响应。具体地,所述双向注意力模块分别从水平方向和垂直方向对整个人脸特征点标注的人脸图像的注意力权重校准并获取复杂特征关系,从而能够从空间的全局特征中获取局部特征信息。
然后,在解码阶段,将所述增强人脸特征图通过解码器结构以得到目标对象的优化人脸图像,特别地,这里,所述解码器与所述编码器具有对称的网络结构。也就是说,具体地,所述编码器结构与所述解码器结构具有对称的网络结构,并配合跳层相加连接的形式,逐步恢复优化后人脸图像的分辨率,以使得目标对象的人脸信息的深层特征得以获取,且边缘、轮廓和分布信息在浅层特征得以保留。
更具体地,在本申请的技术方案中,将所述增强人脸特征图通过解码器结构的第一反卷积模块,以通过与所述编码器结构相对称的所述解码器结构的第一反卷积层来解码得到第一解码特征图。然后,利用跳层相加连接的形式逐步恢复图像的分辨率。也就是说,具体地,融合所述第五编码特征图和所述第一解码特征图以得到第一融合解码特征图,以此来作为所述解码器结构的第二反卷积模块的输入,循环解码得到所述优化人脸图像。这样,能够通过对于目标对象的人脸结构分析,生成优化人脸图像报告,以提供更多精准、客观的人脸数据供使用者使用。
特别地,在本申请的技术方案中,由于所述增强人脸特征图是将所述人脸特征图通过双向注意力模块得到的,在通过双向注意力模块强化注意力维度上的局部特征语义的同时,也期望所述增强人脸特征图能够尽量保持基于金字塔网络的编码器结构得到的不同尺度下的图像编码语义,因此本申请的申请人考虑融合所述人脸特征图和所述增强人脸特征图。但是,由于所述增强人脸特征图在通过双向注意力模块时,其在高维特征空间内的特征分布相对于所述人脸特征图的特征分布存在空间迁移,因此需要提升所述人脸特征图和所述增强人脸特征图的融合效果。
基于此,首先将所述人脸特征图和所述增强人脸特征图展开为人脸特征向量,例如记为和增强人脸特征向量,例如记为/>,并采用类转换器空间迁移置换融合来融合所述人脸特征向量/>和所述增强人脸特征向量/>,具体表示为:
;
;
为向量之间的距离矩阵,即其第/>位置的特征值是特征向量/>的第/>个特征值/>与特征向量/>的第/>个特征值/>之间的距离,/>表示向量间的欧式距离,/>为掩码阈值超参数,且向量均为行向量。
这里,所述类转换器空间迁移置换融合通过以所述人脸特征向量和所述增强人脸特征向量/>的特征值对的差分表征来对特征值对的空间距离进行类转换器机制的掩码预测,实现了融合特征向量/>在高维特征空间内的边仿射编码,并通过施加转换器的自注意力机制下的隐状态偏置,来通过融合特征向量/>相对于待融合的所述人脸特征向量和所述增强人脸特征向量/>在转换器机制下的全局旋转和平移不变形,实现所述人脸特征向量/>和所述增强人脸特征向量/>的特征分布的空间迁移可置换性,从而提升了所述人脸特征向量/>和所述增强人脸特征向量/>的融合效果。这样,再将所述融合特征向量/>还原为增强人脸特征图,就可以提升所述增强人脸特征图的图像语义特征表达效果,从而提升得到的目标对象的优化人脸图像的图像质量。这样,能够准确地进行目标对象的人脸结构分析,从而生成优化人脸图像报告,以提供更多精准、客观的人脸数据供使用者使用。
基于此,本申请提出了一种用于人脸结构分析的图像识别方法,其包括:获取目标对象的人脸图像;对所述目标对象的人脸图像进行图像预处理以去除所述目标对象的人脸图像中的背景部分以得到预处理后人脸图像;对所述预处理后人脸图像进行人脸特征点检测以得到带有人脸特征点标注的人脸图像;将所述带有人脸特征点标注的人脸图像通过基于金字塔网络的编码器结构以得到人脸特征图;将所述人脸特征图通过双向注意力模块以得到增强人脸特征图;对所述增强人脸特征图进行特征分布优化以得到优化增强人脸特征图;以及,将所述优化增强人脸特征图通过解码器结构以得到目标对象的优化人脸图像,其中,所述编码器结构与所述解码器结构具有对称的网络结构。
图1为根据本申请实施例的用于人脸结构分析的图像识别方法的场景示意图。如图1所示,在该应用场景中,通过摄像头(例如,如图1中所示意的C)获取目标对象的人脸图像。接着,将上述图像输入至部署有用于人脸结构分析的图像识别算法的服务器(例如,图1中的S)中,其中,所述服务器能够以所述用于人脸结构分析的图像识别算法对上述输入的图像进行处理,以生成目标对象的优化人脸图像。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性方法
图2为根据本申请实施例的用于人脸结构分析的图像识别方法的流程图。如图2所示,根据本申请实施例的用于人脸结构分析的图像识别方法,包括步骤:S110,获取目标对象的人脸图像;S120,对所述目标对象的人脸图像进行图像预处理以去除所述目标对象的人脸图像中的背景部分以得到预处理后人脸图像;S130,对所述预处理后人脸图像进行人脸特征点检测以得到带有人脸特征点标注的人脸图像;S140,将所述带有人脸特征点标注的人脸图像通过基于金字塔网络的编码器结构以得到人脸特征图;S150,将所述人脸特征图通过双向注意力模块以得到增强人脸特征图;S160,对所述增强人脸特征图进行特征分布优化以得到优化增强人脸特征图;以及,S170,将所述优化增强人脸特征图通过解码器结构以得到目标对象的优化人脸图像,其中,所述编码器结构与所述解码器结构具有对称的网络结构。
图3为根据本申请实施例的用于人脸结构分析的图像识别方法的系统架构图。如图3所示,该网络结构中,首先,获取目标对象的人脸图像;接着,对所述目标对象的人脸图像进行图像预处理以去除所述目标对象的人脸图像中的背景部分以得到预处理后人脸图像;对所述预处理后人脸图像进行人脸特征点检测以得到带有人脸特征点标注的人脸图像;将所述带有人脸特征点标注的人脸图像通过基于金字塔网络的编码器结构以得到人脸特征图;将所述人脸特征图通过双向注意力模块以得到增强人脸特征图;然后,对所述增强人脸特征图进行特征分布优化以得到优化增强人脸特征图;进而,将所述优化增强人脸特征图通过解码器结构以得到目标对象的优化人脸图像,其中,所述编码器结构与所述解码器结构具有对称的网络结构。
更具体地,在步骤S110中,获取目标对象的人脸图像。应可以理解,在实际进行人脸结构的分析来生成优化人脸图像的过程中,关键在于对所述目标对象的人脸图像进行准确充分地分析,以进行所述人脸图像中关于目标对象的人脸特征的充分表达。以此来充分且准确地进行目标对象的人脸结构分析,从而生成优化人脸图像报告,以提供更多精准、客观的人脸数据供使用者使用。因此,首先,通过摄像头来获取目标对象的人脸图像。
更具体地,在步骤S120中,对所述目标对象的人脸图像进行图像预处理以去除所述目标对象的人脸图像中的背景部分以得到预处理后人脸图像。应可以理解,所述目标对象的人脸图像与背景颜色相近,会导致对比度不明显,也就是说,背景信息会影响到人脸特征的提取和识别。如果将所述人脸图像的原始图片直接放进编码器中进行图像特征提取,会影响最终的优化人脸图像的生成结果精准度。因此,为了提高所述目标对象的人脸图像的对比度,以提高人脸特征的表达能力,需要对原始图片进行图像预处理。也就是,对所述目标对象的人脸图像进行图像预处理以去除所述目标对象的人脸图像中的背景部分以得到预处理后人脸图像。具体来说,可以对图像进行灰度转换、图像标准化、对比度受限自适应直方图均衡化(CLAHE)和伽马校正。
更具体地,在步骤S130中,对所述预处理后人脸图像进行人脸特征点检测以得到带有人脸特征点标注的人脸图像。考虑到在人脸识别中,人脸各种区域如眼睛、鼻子、嘴巴等都具有不同的特征,这些特征点的位置和坐标信息对于后续的处理和分析具有重要作用。因此,在本申请的技术方案中,进一步对所述预处理后人脸图像进行人脸特征点检测以得到带有人脸特征点标注的人脸图像。这样,能够根据特征点,确定人脸的眼睛、鼻子、嘴巴等部位的位置和大小,以及人脸的轮廓和对称性,从而快速准确地提取出人脸的关键特征点,并通过标注将这些点显示出来,以更好地观察和分析人脸结构,便于后续进行人脸特征的提取。
更具体地,在步骤S140中,将所述带有人脸特征点标注的人脸图像通过基于金字塔网络的编码器结构以得到人脸特征图。也就是,在本申请的技术方案中,使用在隐含特征提取方面具有优异表现的卷积神经网络模型来对于所述带有人脸特征点标注的人脸图像进行特征挖掘,特别地,考虑到在进行所述带有人脸特征点标注的人脸图像的特征提取时,不仅需要关注于所述人脸图像中关于目标对象人脸特征的深层隐藏特征信息,更需要聚焦于所述人脸图像中关于人脸的轮廓、边缘、各个器官位置和纹理等浅层特征信息。而金字塔网络主要是解决目标检测中的多尺度问题,其可以同时利用低层特征高分辨率和高层特征的高语义信息,通过融合这些不同层的特征达到很好的效果。因此,在本申请的技术方案中,将所述带有人脸特征点标注的人脸图像通过基于金字塔网络的编码器结构以得到人脸特征图。特别地,这里,所述基于金字塔网络的编码器采用具有不同深度的第一至第五卷积模块来分别进行所述带有人脸特征点标注的人脸图像的特征挖掘以得到第一至第五编码特征图,从而在提取出所述带有人脸特征点标注的人脸图像中关于目标对象的人脸深层隐含特征的同时,保留其在浅层的轮廓、边缘、各个器官位置和纹理等丰富特征信息,进而在后续进行人脸图像优化时提高图像优化的精准度。应可以理解,金字塔网络主要是解决目标检测中的多尺度问题,通过简单的改变网络连接,在基本不增加原有模型计算量的情况下,可以在不同的特征层上独立进行检测,大幅提升了小目标检测的性能。
图4为根据本申请实施例的用于人脸结构分析的图像识别方法中编码器结构编码过程的流程图。如图4所示,在所述编码器结构编码过程中,包括:S210,将所述带有人脸特征点标注的人脸图像输入所述编码器结构的第一卷积模块以得到所述第一编码特征图;S220,将所述第一编码特征图输入所述编码器结构的第二卷积模块以得到所述第二编码特征图;S230,将所述第二编码特征图输入所述编码器结构的第三卷积模块以得到所述第三编码特征图;S240,将所述第三编码特征图输入所述编码器结构的第四卷积模块以得到所述第四编码特征图;S250,将所述第四编码特征图输入所述编码器结构的第五卷积模块以得到所述第五编码特征图;以及,S260,融合所述第一至第五编码特征图以得到所述人脸特征图。
更具体地,在步骤S150中,将所述人脸特征图通过双向注意力模块以得到增强人脸特征图。考虑到由于目标对象的人脸轮廓、分布等特征复杂多样,保留和传递浅层细节特征对提高算法分割准确率非常重要。在U-Net网络中,通过跳跃连接将编码器的特征信息直接传递到解码器,实现浅层特征与深层特征融合,补充解码器细节特征信息,但这种在同尺度之间特征直接传递的方式过于简单,没有对所述目标对象的人脸信息进行筛选,进而无法有效对目标对象的人脸特征信息进行充分刻画。因此,在本申请的技术方案中,进一步使用双向注意力模块来对所述人脸特征图进行处理以得到增强人脸特征图。这样,能够充分利用上下文信息来增强所述目标对象的人脸特征响应且抑制背景特征响应。具体地,所述双向注意力模块分别从水平方向和垂直方向对整个人脸特征点标注的人脸图像的注意力权重校准并获取复杂特征关系,从而能够从空间的全局特征中获取局部特征信息。
图5为根据本申请实施例的用于人脸结构分析的图像识别方法中特征增强过程的流程图。如图5所示,在所述特征增强过程中,包括:S310,对所述人脸特征图进行沿通道维度的全局均值池化以得到全局池化特征矩阵;S320,将所述全局池化特征矩阵分别沿着水平方向和垂直方向进行池化以得到第一向池化向量和第二向池化向量;S330,对所述第一向池化向量和所述第二向池化向量进行关联编码以得到双向关联矩阵;S340,将所述双向关联矩阵输入Sigmoid激活函数以得到双向关联权重矩阵;以及,S350,计算所述双向关联权重矩阵和所述人脸特征图的沿通道维度的各个特征矩阵之间的按位置点乘以得到所述增强人脸特征图。
更具体地,在步骤S160中,对所述增强人脸特征图进行特征分布优化以得到优化增强人脸特征图。在本申请的技术方案中,由于所述增强人脸特征图是将所述人脸特征图通过双向注意力模块得到的,在通过双向注意力模块强化注意力维度上的局部特征语义的同时,也期望所述增强人脸特征图能够尽量保持基于金字塔网络的编码器结构得到的不同尺度下的图像编码语义,因此本申请的申请人考虑融合所述人脸特征图和所述增强人脸特征图。但是,由于所述增强人脸特征图在通过双向注意力模块时,其在高维特征空间内的特征分布相对于所述人脸特征图的特征分布存在空间迁移,因此需要提升所述人脸特征图和所述增强人脸特征图的融合效果。基于此,首先将所述人脸特征图和所述增强人脸特征图展开为人脸特征向量,例如记为和增强人脸特征向量,例如记为/>,并采用类转换器空间迁移置换融合来融合所述人脸特征向量/>和所述增强人脸特征向量/>,具体表示为:
;
;
其中,和/>分别是所述人脸特征向量和所述增强人脸特征向量,/>为向量之间的距离矩阵,/>表示向量间的欧式距离,/>为掩码阈值超参数,且向量均为行向量,/>、/>和/>分别表示特征向量的逐位置相加、相减和相乘,/>表示矩阵乘法,/>表示/>函数,/>是所述融合特征向量。这里,所述类转换器空间迁移置换融合通过以所述人脸特征向量/>和所述增强人脸特征向量/>的特征值对的差分表征来对特征值对的空间距离进行类转换器机制的掩码预测,实现了融合特征向量/>在高维特征空间内的边仿射编码,并通过施加转换器的自注意力机制下的隐状态偏置,来通过融合特征向量/>相对于待融合的所述人脸特征向量/>和所述增强人脸特征向量/>在转换器机制下的全局旋转和平移不变形,实现所述人脸特征向量/>和所述增强人脸特征向量/>的特征分布的空间迁移可置换性,从而提升了所述人脸特征向量/>和所述增强人脸特征向量/>的融合效果。这样,再将所述融合特征向量/>还原为增强人脸特征图,就可以提升所述增强人脸特征图的图像语义特征表达效果,从而提升得到的目标对象的优化人脸图像的图像质量。这样,能够准确地进行目标对象的人脸结构分析,从而生成优化人脸图像报告,以提供更多精准、客观的人脸数据供使用者使用。
图6为根据本申请实施例的用于人脸结构分析的图像识别方法中特征分布优化过程的流程图。如图6所示,在所述特征分布优化的过程中,包括:S410,将所述人脸特征图和所述增强人脸特征图分别展开为人脸特征向量和增强人脸特征向量;S420,融合所述人脸特征向量和所述增强人脸特征向量以得到融合特征向量;以及,S430,将所述融合特征向量进行维度重构以得到所述优化增强人脸特征图。
更具体地,在步骤S170中,将所述优化增强人脸特征图通过解码器结构以得到目标对象的优化人脸图像,其中,所述编码器结构与所述解码器结构具有对称的网络结构。也就是,在得到所述优化增强人脸特征图后,进一步将其作为解码特征图以通过解码器结构以得到目标对象的优化人脸图像。特别地,这里,所述解码器与所述编码器具有对称的网络结构。也就是说,具体地,所述编码器结构与所述解码器结构具有对称的网络结构,并配合跳层相加连接的形式,逐步恢复优化后人脸图像的分辨率,以使得目标对象的人脸信息的深层特征得以获取,且边缘、轮廓和分布信息在浅层特征得以保留。更具体地,将所述增强人脸特征图通过解码器结构的第一反卷积模块,以通过与所述编码器结构相对称的所述解码器结构的第一反卷积层来解码得到第一解码特征图。然后,利用跳层相加连接的形式逐步恢复图像的分辨率。也就是说,具体地,融合所述第五编码特征图和所述第一解码特征图以得到第一融合解码特征图,以此来作为所述解码器结构的第二反卷积模块的输入,循环解码得到所述优化人脸图像。这样,能够通过对于目标对象的人脸结构分析,生成优化人脸图像报告,以提供更多精准、客观的人脸数据供使用者使用。
综上,根据本申请实施例的用于人脸结构分析的图像识别方法被阐明,其通过采用人工智能的图像识别和机器学习技术挖掘出人脸图像中关于目标对象的人脸隐含特征分布信息,以此来充分且准确地进行目标对象的人脸结构分析,从而生成优化人脸图像报告,以提供更多精准、客观的人脸数据供使用者使用。
示例性系统
图7为根据本申请实施例的用于人脸结构分析的图像识别系统的框图。如图7所示,根据本申请实施例的用于人脸结构分析的图像识别系统300,包括:图像采集模块310;图像预处理模块320;人脸特征点检测模块330;图像特征提取模块340;特征增强模块350;特征分布优化模块360;以及,解码模块370。
其中,所述图像采集模块310,用于获取目标对象的人脸图像;所述图像预处理模块320,用于对所述目标对象的人脸图像进行图像预处理以去除所述目标对象的人脸图像中的背景部分以得到预处理后人脸图像;所述人脸特征点检测模块330,用于对所述预处理后人脸图像进行人脸特征点检测以得到带有人脸特征点标注的人脸图像;所述图像特征提取模块340,用于将所述带有人脸特征点标注的人脸图像通过基于金字塔网络的编码器结构以得到人脸特征图;所述特征增强模块350,用于将所述人脸特征图通过双向注意力模块以得到增强人脸特征图;所述特征分布优化模块360,用于对所述增强人脸特征图进行特征分布优化以得到优化增强人脸特征图;以及,所述解码模块370,用于将所述优化增强人脸特征图通过解码器结构以得到目标对象的优化人脸图像,其中,所述编码器结构与所述解码器结构具有对称的网络结构。
在一个示例中,在上述用于人脸结构分析的图像识别系统300中,所述图像特征提取模块340,用于:将所述带有人脸特征点标注的人脸图像输入所述编码器结构的第一卷积模块以得到所述第一编码特征图;将所述第一编码特征图输入所述编码器结构的第二卷积模块以得到所述第二编码特征图;将所述第二编码特征图输入所述编码器结构的第三卷积模块以得到所述第三编码特征图;将所述第三编码特征图输入所述编码器结构的第四卷积模块以得到所述第四编码特征图;将所述第四编码特征图输入所述编码器结构的第五卷积模块以得到所述第五编码特征图;以及,融合所述第一至第五编码特征图以得到所述人脸特征图。
在一个示例中,在上述用于人脸结构分析的图像识别系统300中,所述特征增强模块350,用于:对所述人脸特征图进行沿通道维度的全局均值池化以得到全局池化特征矩阵;将所述全局池化特征矩阵分别沿着水平方向和垂直方向进行池化以得到第一向池化向量和第二向池化向量;对所述第一向池化向量和所述第二向池化向量进行关联编码以得到双向关联矩阵;将所述双向关联矩阵输入Sigmoid激活函数以得到双向关联权重矩阵;以及,计算所述双向关联权重矩阵和所述人脸特征图的沿通道维度的各个特征矩阵之间的按位置点乘以得到所述增强人脸特征图。
在一个示例中,在上述用于人脸结构分析的图像识别系统300中,所述特征分布优化模块360,用于:将所述人脸特征图和所述增强人脸特征图分别展开为人脸特征向量和增强人脸特征向量;融合所述人脸特征向量和所述增强人脸特征向量以得到融合特征向量;以及,将所述融合特征向量进行维度重构以得到所述优化增强人脸特征图。其中,融合所述人脸特征向量和所述增强人脸特征向量以得到融合特征向量,包括:通过采用类转换器空间迁移置换融合的方式,以如下融合公式来融合所述人脸特征向量和所述增强人脸特征向量以得到所述融合特征向量;其中,所述融合公式为:
;
;
其中,和/>分别是所述人脸特征向量和所述增强人脸特征向量,/>为向量之间的距离矩阵,/>表示向量间的欧式距离,/>为掩码阈值超参数,且向量均为行向量,/>、/>和/>分别表示特征向量的逐位置相加、相减和相乘,/>表示矩阵乘法,/>表示/>函数,/>是所述融合特征向量。
在一个示例中,在上述用于人脸结构分析的图像识别系统300中,所述解码模块370,用于:将所述优化增强人脸特征图输入所述解码器结构的第一反卷积模块以得到第一解码特征图;融合所述第五编码特征图和所述第一解码特征图以得到第一融合解码特征图作为所述解码器结构的第二反卷积模块的输入。
综上,根据本申请实施例的用于人脸结构分析的图像识别系统300被阐明,其通过采用人工智能的图像识别和机器学习技术挖掘出人脸图像中关于目标对象的人脸隐含特征分布信息,以此来充分且准确地进行目标对象的人脸结构分析,从而生成优化人脸图像报告,以提供更多精准、客观的人脸数据供使用者使用。
如上所述,根据本申请实施例的用于人脸结构分析的图像识别系统可以实现在各种终端设备中。在一个示例中,根据本申请实施例的用于人脸结构分析的图像识别系统300可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该用于人脸结构分析的图像识别系统300可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该用于人脸结构分析的图像识别系统300同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该用于人脸结构分析的图像识别系统300与该终端设备也可以是分立的设备,并且该用于人脸结构分析的图像识别系统300可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性电子设备
下面,参考图8来描述根据本申请实施例的电子设备。
图8图示了根据本申请实施例的电子设备的框图。
如图8所示,电子设备10包括一个或多个处理器11和存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的用于人脸结构分析的图像识别方法中的功能以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如优化增强人脸特征图等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
该输入装置13可以包括例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括目标对象的优化人脸图像等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图8中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的用于人脸结构分析的图像识别方法中的功能中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的用于人脸结构分析的图像识别方法中的功能中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (10)
1.一种用于人脸结构分析的图像识别方法,其特征在于,包括:
获取目标对象的人脸图像;
对所述目标对象的人脸图像进行图像预处理以去除所述目标对象的人脸图像中的背景部分,以得到预处理后人脸图像;
对所述预处理后人脸图像进行人脸特征点检测以得到带有人脸特征点标注的人脸图像;
将所述带有人脸特征点标注的人脸图像通过基于金字塔网络的编码器结构以得到人脸特征图;
将所述人脸特征图通过双向注意力模块以得到增强人脸特征图;
对所述增强人脸特征图进行特征分布进行优化处理以得到优化增强人脸特征图;
以及将所述优化增强人脸特征图通过解码器结构以得到目标对象的优化人脸图像,其中,所述编码器结构与所述解码器结构具有对称的网络结构。
2.根据权利要求1所述的用于人脸结构分析的图像识别方法,其特征在于,将所述带有人脸特征点标注的人脸图像通过基于金字塔网络的编码器结构以得到人脸特征图,包括:
将所述带有人脸特征点标注的人脸图像输入所述编码器结构的第一卷积模块以得到所述第一编码特征图;
将所述第一编码特征图输入所述编码器结构的第二卷积模块以得到所述第二编码特征图;
将所述第二编码特征图输入所述编码器结构的第三卷积模块以得到所述第三编码特征图;
将所述第三编码特征图输入所述编码器结构的第四卷积模块以得到所述第四编码特征图;
将所述第四编码特征图输入所述编码器结构的第五卷积模块以得到所述第五编码特征图;
以及融合所述第一至第五编码特征图以得到所述人脸特征图。
3.根据权利要求2所述的用于人脸结构分析的图像识别方法,其特征在于,将所述人脸特征图通过双向注意力模块以得到增强人脸特征图,包括:
对所述人脸特征图进行沿通道维度的全局均值池化以得到全局池化特征矩阵;
将所述全局池化特征矩阵分别沿着水平方向和垂直方向进行池化以得到第一向池化向量和第二向池化向量;
对所述第一向池化向量和所述第二向池化向量进行关联编码以得到双向关联矩阵;
将所述双向关联矩阵输入Sigmoid激活函数以得到双向关联权重矩阵;
以及将所述双向关联权重矩阵和所述人脸特征图的沿通道维度的各个特征矩阵,按位置进行点乘以得到所述增强人脸特征图。
4.根据权利要求3所述的用于人脸结构分析的图像识别方法,其特征在于,对所述增强人脸特征图进行特征分布优化以得到优化增强人脸特征图,包括:
将所述人脸特征图和所述增强人脸特征图分别展开为人脸特征向量和增强人脸特征向量;
融合所述人脸特征向量和所述增强人脸特征向量以得到融合特征向量;
以及将所述融合特征向量进行维度重构以得到所述优化增强人脸特征图。
5.根据权利要求4所述的用于人脸结构分析的图像识别方法,其特征在于,融合所述人脸特征向量和所述增强人脸特征向量以得到融合特征向量,包括:
以如下融合公式来融合所述人脸特征向量和所述增强人脸特征向量以得到所述融合特征向量;
其中,所述融合公式为:
;
;
其中,和/>分别是所述人脸特征向量和所述增强人脸特征向量,/>为向量之间的距离矩阵,/>表示向量间的欧式距离,/>为掩码阈值超参数,且向量均为行向量,/>、/>和/>分别表示特征向量的逐位置相加、相减和相乘,/>表示矩阵乘法,表示/>函数,/>是所述融合特征向量,V1i是所述人脸特征向量的第i个位置的特征值,V2i是所述增强人脸特征向量的第i个位置的特征值。
6.根据权利要求5所述的用于人脸结构分析的图像识别方法,其特征在于,将所述优化增强人脸特征图通过解码器结构以得到目标对象的优化人脸图像,其中,所述编码器结构与所述解码器结构具有对称的网络结构,包括:
将所述优化增强人脸特征图输入所述解码器结构的第一反卷积模块以得到第一解码特征图;
融合所述第五编码特征图和所述第一解码特征图以得到第一融合解码特征图作为所述解码器结构的第二反卷积模块的输入。
7.一种用于人脸结构分析的图像识别系统,其特征在于,包括:
图像采集模块,用于获取目标对象的人脸图像;
图像预处理模块,用于对所述目标对象的人脸图像进行图像预处理以去除所述目标对象的人脸图像中的背景部分以得到预处理后人脸图像;
人脸特征点检测模块,用于对所述预处理后人脸图像进行人脸特征点检测以得到带有人脸特征点标注的人脸图像;
图像特征提取模块,用于将所述带有人脸特征点标注的人脸图像通过基于金字塔网络的编码器结构以得到人脸特征图;
特征增强模块,用于将所述人脸特征图通过双向注意力模块以得到增强人脸特征图;
特征分布优化模块,用于对所述增强人脸特征图进行特征分布进行优化处理以得到优化增强人脸特征图;
以及解码模块,用于将所述优化增强人脸特征图通过解码器结构以得到目标对象的优化人脸图像,其中,所述编码器结构与所述解码器结构具有对称的网络结构。
8.根据权利要求7所述的一种用于人脸结构分析的图像识别系统,其特征在于,所述特征增强模块,用于:
对所述人脸特征图进行沿通道维度的全局均值池化以得到全局池化特征矩阵;
将所述全局池化特征矩阵分别沿着水平方向和垂直方向进行池化以得到第一向池化向量和第二向池化向量;
对所述第一向池化向量和所述第二向池化向量进行关联编码以得到双向关联矩阵;
将所述双向关联矩阵输入Sigmoid激活函数以得到双向关联权重矩阵;
以及将所述双向关联权重矩阵和所述人脸特征图的沿通道维度的各个特征矩阵,按位置进行点乘以得到所述增强人脸特征图。
9.根据权利要求8所述的一种用于人脸结构分析的图像识别系统,其特征在于,所述特征分布优化模块,用于:
将所述人脸特征图和所述增强人脸特征图分别展开为人脸特征向量和增强人脸特征向量;
融合所述人脸特征向量和所述增强人脸特征向量以得到融合特征向量;
以及将所述融合特征向量进行维度重构以得到所述优化增强人脸特征图。
10.根据权利要求9所述的一种用于人脸结构分析的图像识别系统,其特征在于,所述解码模块,用于:
将所述优化增强人脸特征图输入所述解码器结构的第一反卷积模块以得到第一解码特征图;
融合所述第五编码特征图和所述第一解码特征图以得到第一融合解码特征图作为所述解码器结构的第二反卷积模块的输入。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310748452.7A CN116486465A (zh) | 2023-06-25 | 2023-06-25 | 用于人脸结构分析的图像识别方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310748452.7A CN116486465A (zh) | 2023-06-25 | 2023-06-25 | 用于人脸结构分析的图像识别方法及其系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116486465A true CN116486465A (zh) | 2023-07-25 |
Family
ID=87219969
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310748452.7A Pending CN116486465A (zh) | 2023-06-25 | 2023-06-25 | 用于人脸结构分析的图像识别方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116486465A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116844217A (zh) * | 2023-08-30 | 2023-10-03 | 成都睿瞳科技有限责任公司 | 用于生成人脸数据的图像处理系统及方法 |
-
2023
- 2023-06-25 CN CN202310748452.7A patent/CN116486465A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116844217A (zh) * | 2023-08-30 | 2023-10-03 | 成都睿瞳科技有限责任公司 | 用于生成人脸数据的图像处理系统及方法 |
CN116844217B (zh) * | 2023-08-30 | 2023-11-14 | 成都睿瞳科技有限责任公司 | 用于生成人脸数据的图像处理系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109815826B (zh) | 人脸属性模型的生成方法及装置 | |
CN110796199B (zh) | 一种图像处理方法、装置以及电子医疗设备 | |
WO2022052530A1 (zh) | 人脸矫正模型的训练方法、装置、电子设备及存储介质 | |
CN116563302B (zh) | 智慧医疗信息管理系统及其方法 | |
CN113239834B (zh) | 一种可预训练手模型感知表征的手语识别系统 | |
WO2022206094A1 (zh) | 用于生成字幕器以及输出字幕的方法和装置 | |
CN113688890A (zh) | 异常检测方法、装置、电子设备及计算机可读存储介质 | |
CN112036260A (zh) | 一种自然环境下多尺度子块聚合的表情识别方法及系统 | |
CN116091414A (zh) | 一种基于深度学习的心血管图像识别方法及其系统 | |
CN116486465A (zh) | 用于人脸结构分析的图像识别方法及其系统 | |
CN116524593A (zh) | 一种动态手势识别方法、系统、设备及介质 | |
CN113240655A (zh) | 一种自动检测眼底图像类型的方法、存储介质及装置 | |
CN116503785A (zh) | 游泳馆监管系统及其方法 | |
CN113592769B (zh) | 异常图像的检测、模型的训练方法、装置、设备及介质 | |
CN112541566B (zh) | 一种基于重构损失的图像翻译方法 | |
CN112668543B (zh) | 一种手模型感知的孤立词手语识别方法 | |
CN115862119B (zh) | 基于注意力机制的人脸年龄估计方法及装置 | |
CN116994049A (zh) | 全自动针织横机及其方法 | |
CN111967383A (zh) | 年龄估计方法、年龄估计模型的训练方法和装置 | |
CN111553250A (zh) | 一种基于人脸特征点的精准面瘫程度评测方法及装置 | |
CN116311472A (zh) | 基于多层次图卷积网络的微表情识别方法及装置 | |
CN110705611A (zh) | 眼底图像样本扩展方法、装置、介质及电子设备 | |
JP2023027782A (ja) | 画像遷移方法及び画像遷移モデルの訓練方法、装置、電子機器、記憶媒体及びコンピュータプログラム | |
CN115810109A (zh) | 一种舌像特征提取方法、系统和存储介质 | |
CN112990123B (zh) | 图像处理方法、装置、计算机设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |