CN112052746A - 目标检测方法、装置、电子设备和可读存储介质 - Google Patents
目标检测方法、装置、电子设备和可读存储介质 Download PDFInfo
- Publication number
- CN112052746A CN112052746A CN202010827062.5A CN202010827062A CN112052746A CN 112052746 A CN112052746 A CN 112052746A CN 202010827062 A CN202010827062 A CN 202010827062A CN 112052746 A CN112052746 A CN 112052746A
- Authority
- CN
- China
- Prior art keywords
- image
- face
- target
- detection model
- target detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 128
- 238000012549 training Methods 0.000 claims description 66
- 238000000034 method Methods 0.000 claims description 37
- 230000001815 facial effect Effects 0.000 claims description 32
- 238000002372 labelling Methods 0.000 claims description 26
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 210000000056 organ Anatomy 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000005764 inhibitory process Effects 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 210000000697 sensory organ Anatomy 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 17
- 208000006440 Open Bite Diseases 0.000 description 8
- 230000008569 process Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000004807 localization Effects 0.000 description 3
- 238000013178 mathematical model Methods 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 210000000887 face Anatomy 0.000 description 2
- 210000001061 forehead Anatomy 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供了一种目标检测方法、装置、电子设备和可读存储介质,涉及计算机技术领域,训练后的目标检测模型可以检测图像中的五官区域和脖颈区域,即使目标图像中的人脸被部分遮挡,训练后的目标检测模型也可以通过脖颈区域将目标图像识别为人脸图像,即训练后的目标检测模型可以更准确的区分遮挡人脸图像与非人脸图像。由此,可以提高了人脸识别的准确率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种目标检测方法、装置、电子设备和可读存储介质。
背景技术
目前,随着人工智能技术的发展,人脸识别技术越来越多的被应用到各种场景中。
现有技术中,电子设备会根据获取到的图像进行人脸识别,识别结果包括:识别到人脸或者未识别到人脸。
若电子设备获取到的图像包括人脸,且该人脸为被遮挡的人脸(例如戴口罩、戴墨镜或者戴头巾等),则电子设备的识别结果为未识别到人脸,因此,现有技术中的人脸识别的准确率较低。
发明内容
有鉴于此,本发明实施例提供一种目标检测方法、装置、电子设备和可读存储介质,以提高了人脸识别的准确率。
第一方面,提供了一种目标检测方法,所述方法应用于电子设备,所述方法包括:
获取目标图像;
基于预先训练的目标检测模型,检测所述目标图像中的五官区域和脖颈区域,所述预先训练的目标检测模型至少基于人脸样本图像训练得到,所述人脸样本图像的标注区域至少包括五官区域和脖颈区域;以及
确定所述预先训练的目标检测模型输出的目标识别结果,所述目标识别结果包括图像类别和带有目标定位信息的图像,所述图像类别包括非遮挡人脸图像、遮挡人脸图像和非人脸图像,所述目标定位信息用于标识所述非遮挡人脸图像和所述遮挡人脸图像中五官区域和脖颈区域。
可选的,所述方法还包括:
获取训练集,所述训练集包括训练样本图像和所述训练样本图像的标注,所述训练样本图像包括所述人脸样本图像和非人脸样本图像,所述标注包括非遮挡人脸标注、遮挡人脸标注和非人脸标注,其中,所述非遮挡人脸标注用于标注五官区域未被遮挡的所述人脸样本图像,所述遮挡人脸标注用于标注五官区域被部分遮挡的所述人脸样本图像,所述非人脸标注用于标注所述非人脸样本图像;以及
基于所述训练集,训练目标检测模型。
可选的,所述基于所述训练集,训练目标检测模型,包括:
将所述人脸样本图像作为正样本,将所述非人脸样本图像作为负样本,训练所述目标检测模型。
可选的,所述训练所述目标检测模型,包括:
将所述正样本和所述负样本输入所述目标检测模型;以及
根据所述目标检测模型的输出以及预设的损失函数,对所述目标检测模型的模型参数进行更新。
可选的,所述目标检测模型以目标检测算法SSD作为模型架构,以移动神经网络MobileNet作为主干网络。
可选的,所述目标定位信息包括定位框,所述目标检测模型包括目标定位层,所述目标定位层被配置为执行:通过定位框将目标尺度的特征图中的五官区域和脖颈区域进行定位;
所述方法还包括:
获取目标尺度的人脸图像,确定每个人脸图像中人脸的宽高比;
针对各人脸图像中人脸的宽高比进行聚类操作,确定人脸的宽高比的聚类结果;以及
将所述聚类结果作为所述目标定位层的定位框的宽高比。
可选的,所述确定所述预先训练的目标检测模型输出的目标识别结果,包括:
确定所述预先训练的目标检测模型输出的第一图像,所述第一图像中包括多个定位框;
基于预设的非极大值抑制算法,对所述第一图像中的多个定位框进行筛选,确定第二图像,所述第二图像中包括筛选后的定位框;以及
将所述第二图像作为所述目标识别结果。
可选的,所述方法还包括:
确定所述预先训练的目标检测模型输出的多个类别概率,每个类别概率分别对应一个预设类别;
基于每个预设类别的类别概率,将类别概率最大的预设类别作为所述第二图像的图像类别。
可选的,所述方法还包括:
响应于所述第二图像的图像类别为非遮挡人脸图像或者遮挡人脸图像,将所述筛选后的定位框显示在所述第二图像中;以及
响应于所述第二图像的图像类别为非人脸图像,隐藏所述筛选后的定位框。
第二方面,提供了一种目标检测装置,所述装置应用于电子设备,所述装置包括:
获取模块,用于获取目标图像;
检测模块,用于基于预先训练的目标检测模型,检测所述目标图像中的五官区域和脖颈区域,所述预先训练的目标检测模型至少基于人脸样本图像训练得到,所述人脸样本图像的标注区域至少包括五官区域和脖颈区域;以及
确定模块,用于确定所述预先训练的目标检测模型输出的目标识别结果,所述目标识别结果包括图像类别和带有目标定位信息的图像,所述图像类别包括非遮挡人脸图像、遮挡人脸图像和非人脸图像,所述目标定位信息用于标识所述非遮挡人脸图像和所述遮挡人脸图像中五官区域和脖颈区域。
可选的,所述装置还包括:训练模块;
所述获取模块,还用于获取训练集,所述训练集包括训练样本图像和所述训练样本图像的标注,所述训练样本图像包括所述人脸样本图像和非人脸样本图像,所述标注包括非遮挡人脸标注、遮挡人脸标注和非人脸标注,其中,所述非遮挡人脸标注用于标注五官区域未被遮挡的所述人脸样本图像,所述遮挡人脸标注用于标注五官区域被部分遮挡的所述人脸样本图像,所述非人脸标注用于标注所述非人脸样本图像;以及
训练模块,用于基于所述训练集,训练目标检测模型。
可选的,所述训练模块,具体用于:
将所述人脸样本图像作为正样本,将所述非人脸样本图像作为负样本,训练所述目标检测模型。
可选的,所述训练模块,具体还用于:
将所述正样本和所述负样本输入所述目标检测模型;以及
根据所述目标检测模型的输出以及预设的损失函数,对所述目标检测模型的模型参数进行更新。
可选的,所述目标检测模型以目标检测算法SSD作为模型架构,以移动神经网络MobileNet作为主干网络。
可选的,所述目标定位信息包括定位框,所述目标检测模型包括目标定位层,所述目标定位层被配置为执行:通过定位框将目标尺度的特征图中的五官区域和脖颈区域进行定位;
所述装置还包括:聚类模块;
所述获取模块,还用于获取目标尺度的人脸图像,确定每个人脸图像中人脸的宽高比;
所述聚类模块,用于针对各人脸图像中人脸的宽高比进行聚类操作,确定人脸的宽高比的聚类结果;以及
所述聚类模块,还用于将所述聚类结果作为所述目标定位层的定位框的宽高比。
可选的,所述确定模块,具体用于:
确定所述预先训练的目标检测模型输出的第一图像,所述第一图像中包括多个定位框;
基于预设的非极大值抑制算法,对所述第一图像中的多个定位框进行筛选,确定第二图像,所述第二图像中包括筛选后的定位框;以及
将所述第二图像作为所述目标识别结果。
可选的,
所述确定模块,还用于确定所述预先训练的目标检测模型输出的多个类别概率,每个类别概率分别对应一个预设类别;以及
所述确定模块,还用于基于每个预设类别的类别概率,将类别概率最大的预设类别作为所述第二图像的图像类别。
可选的,所述装置还包括:显示模块和隐藏模块;
所述显示模块,用于响应于所述第二图像的图像类别为非遮挡人脸图像或者遮挡人脸图像,将所述筛选后的定位框显示在所述第二图像中;以及
所述隐藏模块,用于响应于所述第二图像的图像类别为非人脸图像,隐藏所述筛选后的定位框。
第三方面,本发明实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面所述的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。
通过本发明实施例,由于目标检测模型的训练样本标注区域至少包括五官区域和脖颈区域,所以,训练后的目标检测模型可以检测图像中的五官区域和脖颈区域,即使目标图像中的人脸被部分遮挡,训练后的目标检测模型也可以通过脖颈区域将目标图像识别为人脸图像,即训练后的目标检测模型可以更准确的区分遮挡人脸图像与非人脸图像,提高了人脸识别的准确率。
附图说明
通过以下参照附图对本发明实施例的描述,本发明实施例的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1为本发明实施例提供的一种目标检测方法的流程图;
图2为本发明实施例提供的一种标注区域对比的示意图;
图3为本发明实施例提供的另一种目标检测方法的流程图;
图4为本发明实施例提供的一种目标检测模型的示意图;
图5为本发明实施例提供的一种输出层输出的图像的示意图;
图6为本发明实施例提供的一种通过非极大值抑制后的效果示意图;
图7为本发明实施例提供的一种目标检测装置的结构示意图;
图8为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本发明实施例提供一种目标检测方法,该方法应用于电子设备,电子设备可以是终端或者服务器,其中,终端可以是智能手机、平板电脑或者个人计算机(PersonalComputer,PC)等,服务器可以是单个服务器、也可以是以分布式方式配置的服务器集群。
下面将结合具体实施方式,对本发明实施例提供的一种目标检测方法进行详细的说明,如图1所示,具体步骤如下:
在步骤100,获取目标图像。
在步骤200,基于预先训练的目标检测模型,检测目标图像中的五官区域和脖颈区域。
其中,预先训练的目标检测模型至少基于人脸样本图像训练得到,人脸样本图像的标注区域至少包括五官区域和脖颈区域。
在步骤300,确定预先训练的目标检测模型输出的目标识别结果。
其中,目标识别结果包括图像类别和带有目标定位信息的图像,图像类别包括非遮挡人脸图像、遮挡人脸图像和非人脸图像,目标定位信息用于标识非遮挡人脸图像和遮挡人脸图像中五官区域和脖颈区域。
通过本发明实施例,由于目标检测模型的训练样本标注区域至少包括五官区域和脖颈区域,所以,训练后的目标检测模型可以检测图像中的五官区域和脖颈区域,即使目标图像中的人脸被部分遮挡,训练后的目标检测模型也可以通过脖颈区域将目标图像识别为人脸图像,即训练后的目标检测模型可以更准确的区分遮挡人脸图像与非人脸图像,提高了人脸识别的准确率。
更进一步的,如图2所示,图2为本发明实施例提供的一种标注区域对比的示意图,图2包括两个虚拟人脸示意图、标注区域a和标注区域b。
其中,标注区域a为现有技术中的标注区域,标注区域b为本发明实施例中的标注区域。
在现有技术中,由于现有技术仅将人脸的五官部分作为标注区域(即标注区域a),因此,当人脸中的五官被部分遮挡时,现有技术中的电子设备会将被遮挡的人脸识别为非人脸。
在本发明实施例中,标注区域b与标注区域a相比,下方边界延伸到了脖颈区域,上方边界延伸到了额头区域,由于扩大了标注区域的范围,因此,即使人脸中的五官被部分遮挡,本发明实施例中的电子设备也可以基于额头、五官以及脖颈的特征区分被遮挡的人脸和非人脸。
在一种身份验证的场景中,会基于目标检测模型对人脸图像进行人脸识别,进而进行身份验证。
例如,在一个在线教育的场景中,在线教育平台需要对教师进行人脸识别,以审核教师的身份,在此过程中,教师需要使用终端设备对自己的人脸部分进行拍摄,然后终端设备会将拍摄的教师人脸图像上传至教育平台的服务器,教育平台的服务器接收到终端设备发送的教师人脸图像后,会对教师人脸图像进行人脸识别,并基于人脸识别的结果对教师的身份进行审核。
现有技术中,若教师人脸图像中的人脸被部分遮挡,则会使得教育平台的服务器将教师人脸图像识别为非人脸图像(非人脸图像即为不包含人脸的图像),进而使得该教师的身份审核失败。
通过本发明实施例,由于训练后的目标检测模型可以更准确的区分遮挡人脸图像与非人脸图像,因此,即使教师人脸图像中的人脸被部分遮挡,教育平台的服务器也可以将教师人脸图像识别为遮挡人脸图像(遮挡人脸图像即为人脸被部分遮挡的图像),进而使得该教师的身份审核顺利进行。
可选的,如图3所示,电子设备还可以对目标检测模型进行训练,具体过程可以包括如下步骤:
在步骤400,获取训练集。
在步骤500,基于训练集,训练目标检测模型。
其中,训练集包括训练样本图像和训练样本图像的标注,训练样本图像包括人脸样本图像和非人脸样本图像,标注包括非遮挡人脸标注、遮挡人脸标注和非人脸标注。
非遮挡人脸标注用于标注五官区域未被遮挡的人脸样本图像,遮挡人脸标注用于标注五官区域被部分遮挡的人脸样本图像,非人脸标注用于标注非人脸样本图像。
具体的,电子设备训练目标检测模型的过程可以执行为:将人脸样本图像作为正样本,将非人脸样本图像作为负样本,训练目标检测模型。
更进一步的,电子设备可以将正样本和负样本输入目标检测模型;以及根据目标检测模型的输出以及预设的损失函数(loss function),对目标检测模型的模型参数进行更新。
其中,损失函数可以将目标检测模型的输出映射为非负实数以表示该输出的损失。
目标检测模型中可以包括多个数学模型,例如卷积运算,卷积运算的公式可以表示为Conv(I,W)=O,其中I表征输入矩阵,O表征输出矩阵,W表征权重。
数学模型中的变量可以为目标图像的图像数据,数学模型中的不变量(例如权重参数)可以作为模型参数,当电子设备对目标检测模型进行训练时,可以基于预设的损失函数对模型参数进行更新,以使得目标检测模型收敛。
需要说明的,由于非遮挡人脸和遮挡人脸都属于人脸,因此,在实际应用中需要通过一种标准来标注非遮挡人脸和遮挡人脸。
进而,本发明实施例提供一种非遮挡人脸和遮挡人脸的标准,该标准可以用于标注非遮挡人脸图像样本和遮挡人脸图像样本,具体的标准如下表一所示:
表一
人脸图像中的人脸信息 | 人脸图像的分类 |
带有胡子的人脸 | 非遮挡人脸图像 |
戴眼镜的人脸(眼镜为非墨镜) | 非遮挡人脸图像 |
头发遮盖面部小于等于10% | 非遮挡人脸图像 |
头发遮盖面部大于10% | 遮挡人脸图像 |
带有刘海的人脸 | 非遮挡人脸图像 |
带有面部装饰的人脸 | 遮挡人脸图像 |
被脸部装饰物遮挡的人脸 | 遮挡人脸图像 |
被玩偶遮挡的人脸 | 遮挡人脸图像 |
被动物遮挡的人脸 | 遮挡人脸图像 |
被手遮挡的人脸 | 遮挡人脸图像 |
被耳机遮挡的人脸 | 遮挡人脸图像 |
被水杯遮挡的人脸 | 遮挡人脸图像 |
被帽子遮挡的人脸 | 遮挡人脸图像 |
戴墨镜的人脸 | 遮挡人脸图像 |
戴口罩的人脸 | 遮挡人脸图像 |
需要说明的,上述表一所示的内容为本发明实施例做出的示例性说明,表一中的人脸信息不止包含表一所列举的项目,本发明实施例对表一中的人脸信息的项目不做限定。
通过本发明实施例,由于电子设备获取的训练集包括非遮挡人脸图像样本和遮挡人脸图像样本,所以使得训练样本的分类粒度更细,使得训练后的目标检测模型可以准确的识别出被遮挡的人脸,同时,由于人脸图像样本的标注区域由传统的五官区域改为五官加脖颈区域,所以使得训练后的目标检测模型可以更准确的区分遮挡人脸图像与非人脸图像。
结合上述电子设备进行目标检测以及模型训练的过程,在本发明实施例中,目标检测模型以目标检测算法(Single Shot MultiBox Detector,SSD)作为模型架构,以移动神经网络(MobileNet)作为主干网络。
其中,SSD是基于深度学习对物体进行检测的算法,其可以通过多尺度的特征图,准确的检测图像中的目标。
MobileNet是一种轻量化的网络模型,相比于其它网络模型,MobileNet的模型参数较少,可以使得电子设备的计算时间更短,进而可以使得电子设备人脸识别的速度更快。
在一个可选的实施例中,目标定位信息包括定位框(anchor),目标检测模型包括目标定位层,目标定位层被配置为通过定位框将目标尺度的特征图中的五官区域和脖颈区域进行定位。
如图4所示,图4为本发明实施例提供的一种目标检测模型的示意图,其中,该目标检测模型包括:输入层、输出层和n个卷积层(卷积层1至卷积层n)。
具体的,在卷积层1至卷积层n中,卷积层a、卷积层b、卷积层c、卷积层d、卷积层e和卷积层n为定位层,其中,如图3所示,卷积层a、卷积层b、卷积层c、卷积层d、卷积层e和卷积层n不是连续的多个定位层,定位层可以根据针对该定位层预设的定位框,在该定位层中的特征图中定位出待检测人脸。
在实际应用中,电子设备可以获取目标尺度的人脸图像,确定每个人脸图像中人脸(人脸区域加脖颈区域)的宽高比;针对各人脸图像中人脸的宽高比进行聚类操作,确定人脸的宽高比的聚类结果;以及将聚类结果作为目标定位层的定位框的宽高比。
其中,由于现实中每个人脸的宽高比例存在差异,因此,本发明实施例可以通过聚类的方式,设置一个较为合理的定位框宽高比,由于定位框的宽高比对目标检测模型的模型精度影响很大,因此通过本发明实施例可以提高目标检测模型的模型精度。
进而,电子设备可以将目标图像(例如非遮挡人脸图像、人脸图像或者非人脸图像)输入目标检测模型的输入层,然后目标检测模型可以通过卷积运算确定目标图像的特征图,然后每个定位层可以根据该定位层中的特征图确定一个定位框以定位出待检测人脸,然后输出层可以将各定位层确定的定位框显示在目标图像中并输出。
例如,如图5所示,图5为本发明实施例提供的一种输出层输出的图像的示意图,该示意图包括:定位框1、定位框2、定位框3和定位框4。
在图5中,每个定位框用于表征目标检测模型中不同的定位层对人脸进行的定位。
需要说明的,定位框的数量与目标检测模型中的定位层的数量相关,例如,图4所示的目标检测模型中包括六个定位层,则图4所示的目标检测模型输出的图像中可以包括六个定位框,而本发明实施例为了清楚的进行解释说明,在图5中仅展示了4个定位框,本发明实施例对目标检测模型中定位层的数量不做限定。
可选的,电子设备还可以基于非极大值抑制(Non-Maximum Suppression,NMS)算法,从多个定位框中确定最优选的定位框,该过程具体可以为:确定预先训练的目标检测模型输出的第一图像,第一图像中包括多个定位框;基于预设的非极大值抑制算法,对第一图像中的多个定位框进行筛选,确定第二图像;将第二图像作为目标识别结果。
其中,第二图像中包括筛选后的定位框。
在实际应用中,每个定位框可以对应一个置信度分值,电子设备可以基于NMS算法,抑制置信度分值低的定位框,选取置信度分值高的定位框,以选取定位出人脸概率最高的定位框。
例如,如图6所示,图6为本发明实施例提供的一种通过非极大值抑制后的效果示意图,其中,图6所示的示意图为电子设备针对图5进行NMS后的效果示意图,该示意图包括定位框3。
在图5中,若定位框1的分值为0.7,定位框2的分值为0.8,定位框3的分值为0.95,定位框4的分值为0.7,则电子设备可以基于NMS在定位框1、定位框2、定位框3和定位框4中确定定位框3为最优选的定位框。
最终的效果如图6所示,由于电子设备可以基于NMS对定位框1、定位框2和定位框4进行抑制,因此,经过NMS后的人脸图像中仅包含定位框3。
可选的,电子设备还可以确定第二图像的图像类别,具体的,电子设备可以确定预先训练的目标检测模型输出的多个类别概率;以及基于每个预设类别的类别概率,将类别概率最大的预设类别作为第二图像的图像类别。
其中,每个类别概率分别对应一个预设类别。
例如,预设类别可以包括:非遮挡人脸图像、遮挡人脸图像和非人脸图像,当目标检测模型对目标图像进行检测时,目标检测模型可以针对每个预设类别输出一个类别概率,其中,各类别概率的和为1。
若非遮挡人脸图像的类别概率为0.9、遮挡人脸图像的类别概率为0.06、非人脸图像的类别概率为0.04,则电子设备可以将非遮挡人脸图像作为目标图像的图像类别。
综上,电子设备确定第二图像以及第二图像的图像类别后,可以响应于第二图像的图像类别为非遮挡人脸图像或者遮挡人脸图像,将筛选后的定位框显示在第二图像中;以及响应于第二图像的图像类别为非人脸图像,隐藏筛选后的定位框。
在实际应用中,目标图像可能是包含人脸的图像,也可能是不包含人脸的图像,因此,当目标图像的图像类别为非人脸图像时,电子设备可以隐藏第二图像中筛选后的定位框,以使得分类效果更加明显。
基于相同的技术构思,本发明实施例还提供了一种目标检测装置,如图7所示,该装置包括:获取模块71、检测模块72和确定模块73;
获取模块71,用于获取目标图像;
检测模块72,用于基于预先训练的目标检测模型,检测目标图像中的五官区域和脖颈区域,预先训练的目标检测模型至少基于人脸样本图像训练得到,人脸样本图像的标注区域至少包括五官区域和脖颈区域;以及
确定模块73,用于确定预先训练的目标检测模型输出的目标识别结果,目标识别结果包括图像类别和带有目标定位信息的图像,图像类别包括非遮挡人脸图像、遮挡人脸图像和非人脸图像,目标定位信息用于标识非遮挡人脸图像和遮挡人脸图像中五官区域和脖颈区域。
可选的,该装置还包括:训练模块;
获取模块71,还用于获取训练集,训练集包括训练样本图像和训练样本图像的标注,训练样本图像包括人脸样本图像和非人脸样本图像,标注包括非遮挡人脸标注、遮挡人脸标注和非人脸标注,其中,非遮挡人脸标注用于标注五官区域未被遮挡的人脸样本图像,遮挡人脸标注用于标注五官区域被部分遮挡的人脸样本图像,非人脸标注用于标注非人脸样本图像;以及
训练模块,用于基于训练集,训练目标检测模型。
可选的,该训练模块,具体用于:
将人脸样本图像作为正样本,将非人脸样本图像作为负样本,训练目标检测模型。
可选的,该训练模块,具体还用于:
将正样本和负样本输入目标检测模型;以及
根据目标检测模型的输出以及预设的损失函数,对目标检测模型的模型参数进行更新。
可选的,目标检测模型以目标检测算法SSD作为模型架构,以移动神经网络MobileNet作为主干网络。
可选的,目标定位信息包括定位框,目标检测模型包括目标定位层,目标定位层被配置为执行:通过定位框将目标尺度的特征图中的五官区域和脖颈区域进行定位;
该装置还包括:聚类模块;
获取模块71,还用于获取目标尺度的人脸图像,确定每个人脸图像中人脸的宽高比;
聚类模块,用于针对各人脸图像中人脸的宽高比进行聚类操作,确定人脸的宽高比的聚类结果;以及
聚类模块,还用于将聚类结果作为目标定位层的定位框的宽高比。
可选的,确定模块73,具体用于:
确定预先训练的目标检测模型输出的第一图像,第一图像中包括多个定位框;
基于预设的非极大值抑制算法,对第一图像中的多个定位框进行筛选,确定第二图像,第二图像中包括筛选后的定位框;以及
将第二图像作为目标识别结果。
可选的,
确定模块73,还用于确定预先训练的目标检测模型输出的多个类别概率,每个类别概率分别对应一个预设类别;以及
确定模块73,还用于基于每个预设类别的类别概率,将类别概率最大的预设类别作为第二图像的图像类别。
可选的,装置还包括:显示模块和隐藏模块;
显示模块,用于响应于第二图像的图像类别为非遮挡人脸图像或者遮挡人脸图像,将筛选后的定位框显示在第二图像中;以及
隐藏模块,用于响应于第二图像的图像类别为非人脸图像,隐藏筛选后的定位框。
通过本发明实施例,由于目标检测模型的训练样本标注区域至少包括五官区域和脖颈区域,所以,训练后的目标检测模型可以检测图像中的五官区域和脖颈区域,即使目标图像中的人脸被部分遮挡,训练后的目标检测模型也可以通过脖颈区域将目标图像识别为人脸图像,即训练后的目标检测模型可以更准确的区分遮挡人脸图像与非人脸图像,提高了人脸识别的准确率。
图8是本发明实施例的电子设备的示意图。如图8所示,图8所示的电子设备为通用地址查询装置,其包括通用的计算机硬件结构,其至少包括处理器81和存储器82。处理器81和存储器82通过总线83连接。存储器82适于存储处理器81可执行的指令或程序。处理器81可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器81通过执行存储器82所存储的指令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线83将上述多个组件连接在一起,同时将上述组件连接到显示控制器84和显示装置以及输入/输出(I/O)装置85。输入/输出(I/O)装置85可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置85通过输入/输出(I/O)控制器86与系统相连。
本领域的技术人员应明白,本发明的实施例可提供为方法、装置(设备)或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。
本发明是参照根据本发明实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。
这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现流程图一个流程或多个流程中指定的功能。
也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。
本发明的另一实施例涉及一种非易失性存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指定用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本发明各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种目标检测方法,其特征在于,所述方法包括:
获取目标图像;
基于预先训练的目标检测模型,检测所述目标图像中的五官区域和脖颈区域,所述预先训练的目标检测模型至少基于人脸样本图像训练得到,所述人脸样本图像的标注区域至少包括五官区域和脖颈区域;以及
确定所述预先训练的目标检测模型输出的目标识别结果,所述目标识别结果包括图像类别和带有目标定位信息的图像,所述图像类别包括非遮挡人脸图像、遮挡人脸图像和非人脸图像,所述目标定位信息用于标识所述非遮挡人脸图像和所述遮挡人脸图像中五官区域和脖颈区域。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取训练集,所述训练集包括训练样本图像和所述训练样本图像的标注,所述训练样本图像包括所述人脸样本图像和非人脸样本图像,所述标注包括非遮挡人脸标注、遮挡人脸标注和非人脸标注,其中,所述非遮挡人脸标注用于标注五官区域未被遮挡的所述人脸样本图像,所述遮挡人脸标注用于标注五官区域被部分遮挡的所述人脸样本图像,所述非人脸标注用于标注所述非人脸样本图像;以及
基于所述训练集,训练目标检测模型。
3.根据权利要求2所述的方法,其特征在于,所述基于所述训练集,训练目标检测模型,包括:
将所述人脸样本图像作为正样本,将所述非人脸样本图像作为负样本,训练所述目标检测模型。
4.根据权利要求3所述的方法,其特征在于,所述训练所述目标检测模型,包括:
将所述正样本和所述负样本输入所述目标检测模型;以及
根据所述目标检测模型的输出以及预设的损失函数,对所述目标检测模型的模型参数进行更新。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述目标检测模型以目标检测算法SSD作为模型架构,以移动神经网络MobileNet作为主干网络。
6.根据权利要求5所述的方法,其特征在于,所述目标定位信息包括定位框,所述目标检测模型包括目标定位层,所述目标定位层被配置为执行:通过定位框将目标尺度的特征图中的五官区域和脖颈区域进行定位;
所述方法还包括:
获取目标尺度的人脸图像,确定每个人脸图像中人脸的宽高比;
针对各人脸图像中人脸的宽高比进行聚类操作,确定人脸的宽高比的聚类结果;以及
将所述聚类结果作为所述目标定位层的定位框的宽高比。
7.根据权利要求6所述的方法,其特征在于,所述确定所述预先训练的目标检测模型输出的目标识别结果,包括:
确定所述预先训练的目标检测模型输出的第一图像,所述第一图像中包括多个定位框;
基于预设的非极大值抑制算法,对所述第一图像中的多个定位框进行筛选,确定第二图像,所述第二图像中包括筛选后的定位框;以及
将所述第二图像作为所述目标识别结果。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
确定所述预先训练的目标检测模型输出的多个类别概率,每个类别概率分别对应一个预设类别;以及
基于每个预设类别的类别概率,将类别概率最大的预设类别作为所述第二图像的图像类别。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
响应于所述第二图像的图像类别为非遮挡人脸图像或者遮挡人脸图像,将所述筛选后的定位框显示在所述第二图像中;以及
响应于所述第二图像的图像类别为非人脸图像,隐藏所述筛选后的定位框。
10.一种目标检测装置,其特征在于,所述装置包括:
获取模块,用于获取目标图像;
检测模块,用于基于预先训练的目标检测模型,检测所述目标图像中的五官区域和脖颈区域,所述预先训练的目标检测模型至少基于人脸样本图像训练得到,所述人脸样本图像的标注区域至少包括五官区域和脖颈区域;以及
确定模块,用于确定所述预先训练的目标检测模型输出的目标识别结果,所述目标识别结果包括图像类别和带有目标定位信息的图像,所述图像类别包括非遮挡人脸图像、遮挡人脸图像和非人脸图像,所述目标定位信息用于标识所述非遮挡人脸图像和所述遮挡人脸图像中五官区域和脖颈区域。
11.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-9中任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010827062.5A CN112052746A (zh) | 2020-08-17 | 2020-08-17 | 目标检测方法、装置、电子设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010827062.5A CN112052746A (zh) | 2020-08-17 | 2020-08-17 | 目标检测方法、装置、电子设备和可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112052746A true CN112052746A (zh) | 2020-12-08 |
Family
ID=73600557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010827062.5A Pending CN112052746A (zh) | 2020-08-17 | 2020-08-17 | 目标检测方法、装置、电子设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112052746A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699856A (zh) * | 2021-03-24 | 2021-04-23 | 成都新希望金融信息有限公司 | 人脸装饰品识别方法、装置、电子设备及存储介质 |
CN112733671A (zh) * | 2020-12-31 | 2021-04-30 | 新大陆数字技术股份有限公司 | 行人检测方法、装置及可读存储介质 |
CN112906823A (zh) * | 2021-03-29 | 2021-06-04 | 苏州科达科技股份有限公司 | 目标对象识别模型训练方法、识别方法及识别装置 |
CN113705466A (zh) * | 2021-08-30 | 2021-11-26 | 浙江中正智能科技有限公司 | 用于遮挡场景、尤其高仿遮挡下的人脸五官遮挡检测方法 |
CN113807434A (zh) * | 2021-09-16 | 2021-12-17 | 中国联合网络通信集团有限公司 | 布匹的瑕疵识别方法及模型训练方法 |
CN115100713A (zh) * | 2022-06-27 | 2022-09-23 | 飞虎互动科技(北京)有限公司 | 基于实时音视频的金融风控检测方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200709075A (en) * | 2005-08-17 | 2007-03-01 | Chunghwa Telecom Co Ltd | Method and device for human face detection and recognition applied in configuration environment |
CN107679490A (zh) * | 2017-09-29 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 用于检测图像质量的方法和装置 |
CN111091055A (zh) * | 2019-11-13 | 2020-05-01 | 深圳数联天下智能科技有限公司 | 脸型识别方法、装置、设备及计算机可读存储介质 |
CN111539353A (zh) * | 2020-04-27 | 2020-08-14 | 腾讯科技(武汉)有限公司 | 一种图像场景识别方法及装置、计算机设备以及存储介质 |
-
2020
- 2020-08-17 CN CN202010827062.5A patent/CN112052746A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200709075A (en) * | 2005-08-17 | 2007-03-01 | Chunghwa Telecom Co Ltd | Method and device for human face detection and recognition applied in configuration environment |
CN107679490A (zh) * | 2017-09-29 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 用于检测图像质量的方法和装置 |
CN111091055A (zh) * | 2019-11-13 | 2020-05-01 | 深圳数联天下智能科技有限公司 | 脸型识别方法、装置、设备及计算机可读存储介质 |
CN111539353A (zh) * | 2020-04-27 | 2020-08-14 | 腾讯科技(武汉)有限公司 | 一种图像场景识别方法及装置、计算机设备以及存储介质 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733671A (zh) * | 2020-12-31 | 2021-04-30 | 新大陆数字技术股份有限公司 | 行人检测方法、装置及可读存储介质 |
CN112699856A (zh) * | 2021-03-24 | 2021-04-23 | 成都新希望金融信息有限公司 | 人脸装饰品识别方法、装置、电子设备及存储介质 |
CN112906823A (zh) * | 2021-03-29 | 2021-06-04 | 苏州科达科技股份有限公司 | 目标对象识别模型训练方法、识别方法及识别装置 |
CN112906823B (zh) * | 2021-03-29 | 2022-07-05 | 苏州科达科技股份有限公司 | 目标对象识别模型训练方法、识别方法及识别装置 |
CN113705466A (zh) * | 2021-08-30 | 2021-11-26 | 浙江中正智能科技有限公司 | 用于遮挡场景、尤其高仿遮挡下的人脸五官遮挡检测方法 |
CN113705466B (zh) * | 2021-08-30 | 2024-02-09 | 浙江中正智能科技有限公司 | 用于遮挡场景、尤其高仿遮挡下的人脸五官遮挡检测方法 |
CN113807434A (zh) * | 2021-09-16 | 2021-12-17 | 中国联合网络通信集团有限公司 | 布匹的瑕疵识别方法及模型训练方法 |
CN113807434B (zh) * | 2021-09-16 | 2023-07-25 | 中国联合网络通信集团有限公司 | 布匹的瑕疵识别方法及模型训练方法 |
CN115100713A (zh) * | 2022-06-27 | 2022-09-23 | 飞虎互动科技(北京)有限公司 | 基于实时音视频的金融风控检测方法、装置及电子设备 |
CN115100713B (zh) * | 2022-06-27 | 2024-01-30 | 飞虎互动科技(北京)有限公司 | 基于实时音视频的金融风控检测方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112052746A (zh) | 目标检测方法、装置、电子设备和可读存储介质 | |
CN107633207B (zh) | Au特征识别方法、装置及存储介质 | |
CN110738101B (zh) | 行为识别方法、装置及计算机可读存储介质 | |
US11227158B2 (en) | Detailed eye shape model for robust biometric applications | |
CN106897658B (zh) | 人脸活体的鉴别方法和装置 | |
US20210174072A1 (en) | Microexpression-based image recognition method and apparatus, and related device | |
CN108229330A (zh) | 人脸融合识别方法及装置、电子设备和存储介质 | |
CN107958230B (zh) | 人脸表情识别方法及装置 | |
CN106295313B (zh) | 对象身份管理方法、装置和电子设备 | |
CN108288051B (zh) | 行人再识别模型训练方法及装置、电子设备和存储介质 | |
CN110569795A (zh) | 一种图像识别方法、装置以及相关设备 | |
CN106897659B (zh) | 眨眼运动的识别方法和装置 | |
CN107633204A (zh) | 人脸遮挡检测方法、装置及存储介质 | |
US10452896B1 (en) | Technique for creating avatar from image data | |
US9613296B1 (en) | Selecting a set of exemplar images for use in an automated image object recognition system | |
WO2017161233A1 (en) | Deep multi-task representation learning | |
US11126827B2 (en) | Method and system for image identification | |
CN109657537A (zh) | 基于目标检测的图像识别方法、系统和电子设备 | |
CN104517097A (zh) | 一种基于kinect的运动人体姿态识别方法 | |
CN112241667A (zh) | 图像检测方法、装置、设备及存储介质 | |
CN112115790A (zh) | 人脸识别方法、装置、可读存储介质和电子设备 | |
JP2019109843A (ja) | 分類装置、分類方法、属性認識装置、及び機械学習装置 | |
CN114495241A (zh) | 一种图像识别方法及装置、电子设备、存储介质 | |
Mosayyebi et al. | Gender recognition in masked facial images using EfficientNet and transfer learning approach | |
US20130236065A1 (en) | Image semantic clothing attribute |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |