CN111444850B - 一种图片检测的方法和相关装置 - Google Patents
一种图片检测的方法和相关装置 Download PDFInfo
- Publication number
- CN111444850B CN111444850B CN202010228404.1A CN202010228404A CN111444850B CN 111444850 B CN111444850 B CN 111444850B CN 202010228404 A CN202010228404 A CN 202010228404A CN 111444850 B CN111444850 B CN 111444850B
- Authority
- CN
- China
- Prior art keywords
- target
- face
- head
- picture
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 80
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 32
- 238000000605 extraction Methods 0.000 claims description 56
- 230000004927 fusion Effects 0.000 claims description 48
- 230000006870 function Effects 0.000 claims description 41
- 230000008569 process Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 abstract description 21
- 238000005516 engineering process Methods 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 9
- 230000009471 action Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本申请公开了一种图片检测的方法和相关装置,该方法包括:基于同时标注人脸标签、人脸框位置信息、人头标签和人头框位置信息的图片样本以及卷积神经网络进行预先训练,获得用于同时检测人脸和人头的目标检测模型;获取包括人脸和人头的待检测图片;利用目标检测模型对待检测图片进行检测,获得待检测图片中目标人脸框和目标人头框。可见,通过卷积神经网络同时学习人脸特征和人头特征得到目标检测模型,仅利用该模型即可同时检测人脸的位置信息和人头的位置信息,使得检测算法复杂度降低,计算量减小,不仅节省计算资源,而且减少计算时间,能够满足人脸识别技术在实际应用中对于实时性的需求。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种图片检测的方法和相关装置。
背景技术
人脸具有唯一性和不易被复制性,为身份鉴别提供了必要的前提,使得人脸识别技术适用于身份识别和人机交互等应用场景。在进行人脸识别过程中首先需要明确识别对象,并在识别对象移动时保持识别对象的不变性,即,在人脸识别过程中需要进行人脸跟踪。
实际应用中,用户常常出现低头或者转头等动作导致某些瞬间人脸不可见,仅仅基于人脸信息进行跟踪容易导致跟踪中断,为了保持跟踪的稳定性,在利用人脸信息的基础上,还需要利用人头信息作为辅助信息帮助跟踪。现有技术中,一般使用基于卷积神经网络的人头检测器和基于卷积神经网络的人脸检测器这两个检测器,分别获取人头的位置信息和人脸的位置信息。
但是,发明人经过研究发现,采用两个基于卷积神经网络的检测器分别获取人头的位置信息和人脸的位置信息,导致检测算法的算法复杂度高,计算量较大,不仅需要消耗较多的计算资源,而且计算时间急剧增加,难以满足人脸识别技术在实际应用中对于实时性的需求。
发明内容
有鉴于此,本申请实施例提供一种图片检测的方法和相关装置,使得检测算法复杂度降低,计算量减小,不仅节省计算资源,而且减少计算时间,能够满足人脸识别技术在实际应用中对于实时性的需求。
第一方面,本申请实施例提供了一种图片检测的方法,该方法包括:
获取待检测图片,所述待检测图片包括人脸和人头;
利用目标检测模型对所述待检测图片进行检测,获得所述待检测图片中目标人脸框和目标人头框;所述目标检测模型是基于同时标注人脸标签、人脸框位置信息、人头标签和人头框位置信息的图片样本以及卷积神经网络预先训练获得的。
可选的,所述目标检测模型的训练过程包括:
基于所述图片样本和所述卷积神经网络中共用特征提取网络,获得所述图片样本对应的特征图;所述特征图包括人脸特征和人头特征;
基于所述特征图和所述卷积神经网络中人脸、人头分类定位器,获得所述图片样本中预测人脸框和预测人头框;
基于所述预测人脸框、所述预测人头框、所述人脸标签、所述人脸框位置信息、所述人头标签和所述人头框位置信息,利用目标损失函数训练更新所述卷积神经网络的网络参数;
将训练更新完成后的卷积神经网络确定为所述目标检测模型。
可选的,所述共用特征提取网络包括深度可分离卷积模块。
可选的,所述目标损失函数包括人头分类损失函数、人头位置预测损失函数、人脸分类损失函数和人脸位置预测损失函数。
可选的,所述目标检测模型包括目标共用特征提取网络以及目标人脸、目标人头分类定位器;
对应地,所述利用目标检测模型对所述待检测图片进行检测,获得所述待检测图片中目标人脸框和目标人头框,包括:
基于所述待检测图片和所述目标共用特征提取网络,获得所述待检测图片对应的目标特征图;所述目标特征图包括目标人脸特征和目标人头特征;
基于所述目标特征图和所述目标人脸、目标人头分类定位器,获得所述待检测图片中目标人脸框和目标人头框。
可选的,在所述获得所述图片样本对应的特征图之后,还包括:
基于所述特征图和所述卷积神经网络中多尺度特征提取融合模块,获得所述图片样本对应的融合特征图;所述多尺度特征提取融合模块由空洞卷积和普通卷积构成,所述融合特征图包括人脸特征、人头特征以及人脸和人头临近图片语义信息;
对应地,所述基于所述特征图和所述卷积神经网络中人脸、人头分类定位器,获得所述图片样本中预测人脸框和预测人头框,具体为:
基于所述融合特征图和所述人脸、人头分类定位器,获得所述图片样本中预测人脸框和预测人头框。
可选的,所述目标检测模型包括目标共用特征提取网络、目标多尺度特征提取融合模块以及目标人脸、目标人头分类定位器;
对应地,所述利用目标检测模型对所述待检测图片进行检测,获得所述待检测图片中目标人脸框和目标人头框,包括:
基于所述待检测图片和所述目标共用特征提取网络,获得所述待检测图片对应的目标特征图;
基于所述目标特征图和所述目标多尺度特征提取融合模块,获得所述待检测图片对应的目标融合特征图,所述目标融合特征图包括目标人脸特征、目标人头特征以及目标人脸和目标人头临近图片语义信息;
基于所述目标融合特征图和所述目标人脸、目标人头分类定位器,获得所述待检测图片中目标人脸框和目标人头框。
第二方面,本申请实施例提供了一种图片检测的装置,该装置包括:
获取单元,用于获取待检测图片,所述待检测图片包括人脸和人头;
第一获得单元,用于利用目标检测模型对所述待检测图片进行检测,获得所述待检测图片中目标人脸框和目标人头框;所述目标检测模型是基于同时标注人脸标签、人脸框位置信息、人头标签和人头框位置信息的图片样本以及卷积神经网络预先训练获得的。
第三方面,本申请实施例提供了一种终端设备,该终端设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述第一方面任一项所述的图片检测的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述第一方面任一项所述的图片检测的方法。
与现有技术相比,本申请至少具有以下优点:
采用本申请实施例的技术方案,首先,基于同时标注人脸标签、人脸框位置信息、人头标签和人头框位置信息的图片样本以及卷积神经网络进行预先训练,获得用于同时检测人脸和人头的目标检测模型;然后,获取包括人脸和人头的待检测图片;利用目标检测模型对待检测图片进行检测,获得待检测图片中目标人脸框和目标人头框。由此可见,通过卷积神经网络同时学习人脸特征和人头特征得到目标检测模型,仅利用该模型即可同时检测人脸的位置信息和人头的位置信息,使得检测算法复杂度降低,计算量减小,不仅节省计算资源,而且减少计算时间,能够满足人脸识别技术在实际应用中对于实时性的需求。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例中一种应用场景所涉及的系统框架示意图;
图2为本申请实施例提供的一种图片检测的方法的流程示意图;
图3为本申请实施例提供的一种目标检测模型的训练示意图;
图4为本申请实施例提供的一种人脸、人头分类定位器和目标损失函数的示意图;
图5为本申请实施例提供的一种多尺度特征提取融合模块的提取融合示意图;
图6为本申请实施例提供的一种图片检测的装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
现阶段,一般需要分别使用基于卷积神经网络的人头检测器和基于卷积神经网络的人脸检测器这两个检测器,才能获取人头的位置信息和人脸的位置信息。但是,采用两个基于卷积神经网络的检测器,导致检测算法的算法复杂度高,计算量较大,不仅需要消耗较多的计算资源,而且计算时间急剧增加,难以满足人脸识别技术在实际应用中对于实时性的需求,
为了解决这一问题,在本申请实施例中,基于同时标注人脸标签、人脸框位置信息、人头标签和人头框位置信息的图片样本以及卷积神经网络进行预先训练,获得用于同时检测人脸和人头的目标检测模型;获取包括人脸和人头的待检测图片,利用目标检测模型对待检测图片进行检测,获得待检测图片中目标人脸框和目标人头框。可见,通过卷积神经网络同时学习人脸特征和人头特征得到目标检测模型,仅利用该模型即可同时检测人脸的位置信息和人头的位置信息,使得检测算法复杂度降低,计算量减小,不仅节省计算资源,而且减少计算时间,能够满足人脸识别技术在实际应用中对于实时性的需求。
举例来说,本申请实施例的场景之一,可以是应用到如图1所示的场景中,该场景包括客户端101和处理器102,其中,客户端101首先确定待检测图片,然后将待检测图片发送至处理器102;处理器102存储有目标检测模型,采用本申请实施例的方式获得目标人脸框和目标人头框后,将其发送至客户端101,以便客户端101在待检测图片上显示上述信息。
可以理解的是,在上述应用场景中,虽然将本申请实施方式的动作描述由处理器102执行,但是,本申请在执行主体方面不受限制,只要执行了本申请实施方式所公开的动作即可。
可以理解的是,上述场景仅是本申请实施例提供的一个场景示例,本申请实施例并不限于此场景。
下面结合附图,通过实施例来详细说明本申请实施例中图片检测的方法和相关装置的具体实现方式。
示例性方法
参见图2,示出了本申请实施例中一种图片检测的方法的流程示意图。在本实施例中,所述方法例如可以包括以下步骤:
步骤201:获取待检测图片,所述待检测图片包括人脸和人头。
本申请实施例中,在进行人脸、人头检测之前,首先需要获得包括人脸和人头的图片作为待检测图片。
步骤202:利用目标检测模型对所述待检测图片进行检测,获得所述待检测图片中目标人脸框和目标人头框;所述目标检测模型是基于同时标注人脸标签、人脸框位置信息、人头标签和人头框位置信息的图片样本以及卷积神经网络预先训练获得的。
需要说明的是,为了解决现有技术中采用人脸检测器和人头检测器共两个检测器,导致检测算法的算法复杂度高,计算量较大,不仅需要消耗较多的计算资源,而且计算时间急剧增加,难以满足人脸识别技术在实际应用中对于实时性的需求的问题;在本申请实施例中,预先设计能够同时学习人脸特征和人头特征的卷积神经网络,基于同时标注人脸标签、人脸框位置信息、人头标签和人头框位置信息的图片样本进行训练,获得能够同时检测人脸和人头的检测模型作为目标检测模型。因此,在步骤201获取待检测图片后,将待检测图片输入该目标检测模型,预测待检测图片中的人脸、人头以及位置信息,即可同时输出待检测图片中目标人脸框和目标人头框。
实际应用之前,需要预选训练获得目标检测模型,具体训练过程是指为了能让卷积神经网络能够同时学习到人脸特征和人头特征,在卷积神经网络中设计一个用于同时提取人脸特征和人头特征的共用特征提取网络,用于预测人脸、人头以及位置信息的人脸、人头分类定位器,以及对应的用于训练更新网络参数的目标损失函数;则将图片样本输入该共用特征提取网络,即可输出包括人脸特征和人头特征的特征图,将该特征图输入人脸、人头分类定位器,即可输出图片样本中预测人脸框和预测人头框,通过上述预测结果和图片样本的标注数据利用目标损失函数对网络参数进行训练更新直至训练更新完成,例如,如图3所示的一种目标检测模型的训练示意图。因此,在本申请实施例一种可选的实施方式中,所述目标检测模型的训练过程包括以下步骤:
步骤A:基于所述图片样本和所述卷积神经网络中共用特征提取网络,获得所述图片样本对应的特征图;所述特征图包括人脸特征和人头特征。
其中,共用特征提取网络可以使用大量的深度可分离卷积模块,深度可分离卷积模块能够显著降低卷积神经网络的计算量,同时保持提取到的特征的表达能力。假设一个卷积层的输入尺寸为W×H,输入通道为N,输出通道为M,卷积核大小为3×3,经典的卷积神经网络在卷积过程中对每一个输入通道使用一个卷积核,每一个输出通道需要N个卷积核对N个输入通道卷积之后相加,为了获得M个输出通道需要W×H×M×N×3×3的计算量;而深度可分离卷积先对输入特征进行分组卷积,然后再进行通道数的变换,即先使用大小为3×3的卷积核对每一个输入通道进行卷积,每一个输出通道只需要对一个输入通道进行卷积即可,然后使用大小为1×1的卷积核使用经典卷积方法变换输出通道,计算量为W×H×N×3×3+W×H×M。因此,在本申请实施例一种可选的实施方式中,所述共用特征提取网络包括深度可分离卷积模块。
步骤B:基于所述特征图和所述卷积神经网络中人脸、人头分类定位器,获得所述图片样本中预测人脸框和预测人头框。
步骤C:基于所述预测人脸框、所述预测人头框、所述人脸标签、所述人脸框位置信息、所述人头标签和所述人头框位置信息,利用目标损失函数训练更新所述卷积神经网络的网络参数。
需要说明的是,由于在本申请实施例中需要同时预测是否为人脸、人头,若是人脸、人头,需要预测其位置信息,则对于步骤B中的人脸、人头分类定位器获得的预测人脸框和预测人头框作为预测结果,需要结合步骤202中图片样本的人脸标签、人脸框位置信息、人头标签和人头框位置信息这些标注数据分别计算损失函数,则需要将人头分类损失函数、人头位置预测损失函数、人脸分类损失函数和人脸位置预测损失函数结合作为卷积神经网络的目标损失函数,例如,如图4所示的一种人脸、人头分类定位器和目标损失函数的示意图。因此,在本申请实施例一种可选的实施方式中,所述目标损失函数包括人头分类损失函数、人头位置预测损失函数、人脸分类损失函数和人脸位置预测损失函数。作为一种示例,目标损失函数的计算公式如下所示:
其中,L表示目标损失函数,表示人头分类损失函数,/>表示人头位置预测损失函数,/>表示人脸分类损失函数,/>表示人脸位置预测损失函数。α表示分类损失函数的系数,β表示位置预测损失函数的系数,用于平衡分类和位置预测这些任务之间的权重。
步骤D:将训练更新完成后的卷积神经网络确定为所述目标检测模型。
需要说明的是,对应于卷积神经网络中的共用特征提取网络和人脸、目标人头分类定位器,目标检测模型包括目标共用特征提取网络以及目标人脸、目标人头分类定位器。则将待检测图片输入目标检测模型具体是指:首先,将待检测图片输入目标共用特征提取网络,即可输出包括目标人脸特征和目标人头特征的目标特征图;然后,将该目标特征图输入人脸、人头分类定位器,预测待检测图片中人脸和人头,即可输出待检测图片中目标人脸框和目标人头框。因此,在本申请实施例一种可选的实施方式中,所述步骤202例如可以包括以下步骤:
步骤E:基于所述待检测图片和所述目标共用特征提取网络,获得所述待检测图片对应的目标特征图;所述目标特征图包括目标人脸特征和目标人头特征;
步骤F:基于所述目标特征图和所述目标人脸、目标人头分类定位器,获得所述待检测图片中目标人脸框和目标人头框。
此外,需要说明的是,由于人脸和人头临近图片语义信息可以辅助检测人脸和人头,为了使得人脸、人头分类定位器获得预测人脸框和预测人头框的过程中,能够利用到人脸和人头临近图片语义信息,如脖子信息和肩膀信息等;在卷积神经网络的共用特征提取网络和人脸、人头分类定位器之间,还可以设计一个由空洞卷积和普通卷积构成的多尺度特征提取融合模块,用于分别获取不同尺度的特征信息并进行融合,例如,如图5所示的一种多尺度特征提取融合模块的提取融合示意图。则上述步骤A获得特征图输入多尺度特征提取融合模块,即可输出包括人脸特征、人头特征以及人脸和人头临近图片语义信息的融合特征图;后续步骤B将融合特征图代替之前的特征图输入人脸、人头分类定位器,获得更加准确的预测人脸框和预测人头框。
因此,在本申请实施例一种可选的实施方式中,在所述步骤A之后,例如还可以包括步骤G:基于所述特征图和所述卷积神经网络中多尺度特征提取融合模块,获得所述图片样本对应的融合特征图;所述多尺度特征提取融合模块由空洞卷积和普通卷积构成,所述融合特征图包括人脸特征、人头特征以及人脸和人头临近图片语义信息。对应地,所述步骤B例如具体可以为:基于所述融合特征图和所述人脸、人头分类定位器,获得所述图片样本中预测人脸框和预测人头框。多尺度特征提取融合模块能够提取人脸和人头临近图片语义信息,并将其与人脸特征和人头特征进行融合,可以提高后续人脸和人头的检测准确率,也能够增加目标检测模型对难分待检测图片的检测能力。
同理可得,对应于卷积神经网络中共用特征提取网络、多尺度特征提取融合模块以及人脸、人头分类定位器,在本申请实施例一种可选的实施方式中,所述目标检测模型包括目标共用特征提取网络、目标多尺度特征提取融合模块以及目标人脸、目标人头分类定位器;对应地,所述步骤602例如可以包括以下步骤:
步骤H:基于所述待检测图片和所述目标共用特征提取网络,获得所述待检测图片对应的目标特征图;
步骤I:基于所述目标特征图和所述目标多尺度特征提取融合模块,获得所述待检测图片对应的目标融合特征图,所述目标融合特征图包括目标人脸特征、目标人头特征以及目标人脸和目标人头临近图片语义信息;
步骤J:基于所述目标融合特征图和所述目标人脸、目标人头分类定位器,获得所述待检测图片中目标人脸框和目标人头框。
通过本实施例提供的各种实施方式,首先,基于同时标注人脸标签、人脸框位置信息、人头标签和人头框位置信息的图片样本以及卷积神经网络进行预先训练,获得用于同时检测人脸和人头的目标检测模型;然后,获取包括人脸和人头的待检测图片;利用目标检测模型对待检测图片进行检测,获得待检测图片中目标人脸框和目标人头框。由此可见,通过卷积神经网络同时学习人脸特征和人头特征得到目标检测模型,仅利用该模型即可同时检测人脸的位置信息和人头的位置信息,使得检测算法复杂度降低,计算量减小,不仅节省计算资源,而且减少计算时间,能够满足人脸识别技术在实际应用中对于实时性的需求。
示例性装置
参见图6,示出了本申请实施例中一种图片检测的装置的结构示意图。在本实施例中,所述装置例如具体可以包括:
获取单元601,用于获取待检测图片,所述待检测图片包括人脸和人头;
获得单元602,用于利用目标检测模型对所述待检测图片进行检测,获得所述待检测图片中目标人脸框和目标人头框;所述目标检测模型是基于同时标注人脸标签、人脸框位置信息、人头标签和人头框位置信息的图片样本以及卷积神经网络预先训练获得的。
在本申请实施例一种可选的实施方式中,所述还包括训练单元,所述训练单元包括:
第一获得子单元,用于基于所述图片样本和所述卷积神经网络中共用特征提取网络,获得所述图片样本对应的特征图;所述特征图包括人脸特征和人头特征;
第二获得子单元,用于基于所述特征图和所述卷积神经网络中人脸、人头分类定位器,获得所述图片样本中预测人脸框和预测人头框;
训练更新子单元,用于基于所述预测人脸框、所述预测人头框、所述人脸标签、所述人脸框位置信息、所述人头标签和所述人头框位置信息,利用目标损失函数训练更新所述卷积神经网络的网络参数;
确定子单元,用于将训练更新完成后的卷积神经网络确定为所述目标检测模型。
在本申请实施例一种可选的实施方式中,所述共用特征提取网络包括深度可分离卷积模块。
在本申请实施例一种可选的实施方式中,所述目标损失函数包括人头分类损失函数、人头位置预测损失函数、人脸分类损失函数和人脸位置预测损失函数。
在本申请实施例一种可选的实施方式中,所述目标检测模型包括目标共用特征提取网络以及目标人脸、目标人头分类定位器;对应地,所述获得单元602包括:
第三获得子单元,用于基于所述待检测图片和所述目标共用特征提取网络,获得所述待检测图片对应的目标特征图;所述目标特征图包括目标人脸特征和目标人头特征;
第四获得子单元,用于基于所述目标特征图和所述目标人脸、目标人头分类定位器,获得所述待检测图片中目标人脸框和目标人头框。
在本申请实施例一种可选的实施方式中,在所述第一获得子单元和第二获得子单元之间还包括第五获得子单元,所述第五获得子单元具体用于:
基于所述特征图和所述卷积神经网络中多尺度特征提取融合模块,获得所述图片样本对应的融合特征图;所述多尺度特征提取融合模块由空洞卷积和普通卷积构成,所述融合特征图包括人脸特征、人头特征以及人脸和人头临近图片语义信息;
对应地,所述第二获得子单元具体用于:
基于所述融合特征图和所述人脸、人头分类定位器,获得所述图片样本中预测人脸框和预测人头框。
在本申请实施例一种可选的实施方式中,所述目标检测模型包括目标共用特征提取网络、目标多尺度特征提取融合模块以及目标人脸、目标人头分类定位器;
对应地,所述获得单元602包括:
第六获得子单元,用于基于所述待检测图片和所述目标共用特征提取网络,获得所述待检测图片对应的目标特征图;
第七获得子单元,用于基于所述目标特征图和所述目标多尺度特征提取融合模块,获得所述待检测图片对应的目标融合特征图,所述目标融合特征图包括目标人脸特征、目标人头特征以及目标人脸和目标人头临近图片语义信息;
第八获得子单元,用于基于所述目标融合特征图和所述目标人脸、目标人头分类定位器,获得所述待检测图片中目标人脸框和目标人头框。
通过本实施例提供的各种实施方式,首先,基于同时标注人脸标签、人脸框位置信息、人头标签和人头框位置信息的图片样本以及卷积神经网络进行预先训练,获得用于同时检测人脸和人头的目标检测模型;然后,获取包括人脸和人头的待检测图片;利用目标检测模型对待检测图片进行检测,获得待检测图片中目标人脸框和目标人头框。由此可见,通过卷积神经网络同时学习人脸特征和人头特征得到目标检测模型,仅利用该模型即可同时检测人脸的位置信息和人头的位置信息,使得检测算法复杂度降低,计算量减小,不仅节省计算资源,而且减少计算时间,能够满足人脸识别技术在实际应用中对于实时性的需求。
此外,本申请实施例还提供了一种终端设备,该终端设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述方法实施例所述的图片检测的方法。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述方法实施例所述的图片检测的方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述,仅是本申请的较佳实施例而已,并非对本申请作任何形式上的限制。虽然本申请已以较佳实施例揭露如上,然而并非用以限定本申请。任何熟悉本领域的技术人员,在不脱离本申请技术方案范围情况下,都可利用上述揭示的方法和技术内容对本申请技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本申请技术方案的内容,依据本申请的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本申请技术方案保护的范围内。
Claims (10)
1.一种图片检测的方法,其特征在于,包括:
获取待检测图片,所述待检测图片包括人脸和人头;
利用目标检测模型对所述待检测图片进行检测,同时获得所述待检测图片中目标人脸框和目标人头框;所述目标检测模型是基于同时标注人脸标签、人脸框位置信息、人头标签和人头框位置信息的图片样本以及卷积神经网络预先训练获得的;
所述卷积神经网络包括人脸与人头检测共用的共用特征提取网络,以及人脸分类定位器和人头分类定位器。
2.根据权利要求1所述的方法,其特征在于,所述目标检测模型的训练过程包括:
基于所述图片样本和所述卷积神经网络中共用特征提取网络,获得所述图片样本对应的特征图;所述特征图包括人脸特征和人头特征;
基于所述特征图和所述卷积神经网络中人脸、人头分类定位器,获得所述图片样本中预测人脸框和预测人头框;
基于所述预测人脸框、所述预测人头框、所述人脸标签、所述人脸框位置信息、所述人头标签和所述人头框位置信息,利用目标损失函数训练更新所述卷积神经网络的网络参数;
将训练更新完成后的卷积神经网络确定为所述目标检测模型。
3.根据权利要求2所述的方法,其特征在于,所述共用特征提取网络包括深度可分离卷积模块。
4.根据权利要求2所述的方法,其特征在于,所述目标损失函数包括人头分类损失函数、人头位置预测损失函数、人脸分类损失函数和人脸位置预测损失函数。
5.根据权利要求2所述的方法,其特征在于,所述目标检测模型包括目标共用特征提取网络以及目标人脸、目标人头分类定位器;
对应地,所述利用目标检测模型对所述待检测图片进行检测,获得所述待检测图片中目标人脸框和目标人头框,包括:
基于所述待检测图片和所述目标共用特征提取网络,获得所述待检测图片对应的目标特征图;所述目标特征图包括目标人脸特征和目标人头特征;
基于所述目标特征图和所述目标人脸、目标人头分类定位器,获得所述待检测图片中目标人脸框和目标人头框。
6.根据权利要求2所述的方法,其特征在于,在所述获得所述图片样本对应的特征图之后,还包括:
基于所述特征图和所述卷积神经网络中多尺度特征提取融合模块,获得所述图片样本对应的融合特征图;所述多尺度特征提取融合模块由空洞卷积和普通卷积构成,所述融合特征图包括人脸特征、人头特征以及人脸和人头临近图片语义信息;
对应地,所述基于所述特征图和所述卷积神经网络中人脸、人头分类定位器,获得所述图片样本中预测人脸框和预测人头框,具体为:
基于所述融合特征图和所述人脸、人头分类定位器,获得所述图片样本中预测人脸框和预测人头框。
7.根据权利要求6所述的方法,其特征在于,所述目标检测模型包括目标共用特征提取网络、目标多尺度特征提取融合模块以及目标人脸、目标人头分类定位器;
对应地,所述利用目标检测模型对所述待检测图片进行检测,获得所述待检测图片中目标人脸框和目标人头框,包括:
基于所述待检测图片和所述目标共用特征提取网络,获得所述待检测图片对应的目标特征图;
基于所述目标特征图和所述目标多尺度特征提取融合模块,获得所述待检测图片对应的目标融合特征图,所述目标融合特征图包括目标人脸特征、目标人头特征以及目标人脸和目标人头临近图片语义信息;
基于所述目标融合特征图和所述目标人脸、目标人头分类定位器,获得所述待检测图片中目标人脸框和目标人头框。
8.一种图片检测的装置,其特征在于,包括:
获取单元,用于获取待检测图片,所述待检测图片包括人脸和人头;
第一获得单元,用于利用目标检测模型对所述待检测图片进行检测,同时获得所述待检测图片中目标人脸框和目标人头框;所述目标检测模型是基于同时标注人脸标签、人脸框位置信息、人头标签和人头框位置信息的图片样本以及卷积神经网络预先训练获得的;
所述卷积神经网络包括人脸与人头检测共用的共用特征提取网络,以及人脸分类定位器和人头分类定位器。
9.一种终端设备,其特征在于,所述终端设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-7任一项所述的图片检测的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-7任一项所述的图片检测的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010228404.1A CN111444850B (zh) | 2020-03-27 | 2020-03-27 | 一种图片检测的方法和相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010228404.1A CN111444850B (zh) | 2020-03-27 | 2020-03-27 | 一种图片检测的方法和相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111444850A CN111444850A (zh) | 2020-07-24 |
CN111444850B true CN111444850B (zh) | 2023-11-14 |
Family
ID=71652501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010228404.1A Active CN111444850B (zh) | 2020-03-27 | 2020-03-27 | 一种图片检测的方法和相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111444850B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111950507B (zh) * | 2020-08-25 | 2024-06-11 | 北京猎户星空科技有限公司 | 数据处理和模型训练方法、装置、设备及介质 |
CN112183435B (zh) * | 2020-10-12 | 2024-08-06 | 河南威虎智能科技有限公司 | 一种两阶段的手部目标检测方法 |
CN112200169B (zh) * | 2020-12-07 | 2021-04-30 | 北京沃东天骏信息技术有限公司 | 用于训练模型的方法、装置、设备以及存储介质 |
CN113076955A (zh) * | 2021-04-14 | 2021-07-06 | 上海云从企业发展有限公司 | 一种目标检测方法、系统、计算机设备及机器可读介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007316812A (ja) * | 2006-05-24 | 2007-12-06 | Nippon Telegr & Teleph Corp <Ntt> | 画像検索装置、画像検索方法、画像検索プログラム及び記録媒体 |
EP2713307A1 (en) * | 2012-09-28 | 2014-04-02 | Accenture Global Services Limited | Liveness detection |
CN104298955A (zh) * | 2013-07-15 | 2015-01-21 | 深圳市振邦实业有限公司 | 一种人头检测方法及装置 |
CN105550671A (zh) * | 2016-01-28 | 2016-05-04 | 北京麦芯科技有限公司 | 一种人脸识别的方法及装置 |
CN106250850A (zh) * | 2016-07-29 | 2016-12-21 | 深圳市优必选科技有限公司 | 人脸检测跟踪方法及装置、机器人头部转动控制方法及系统 |
CN107301377A (zh) * | 2017-05-26 | 2017-10-27 | 浙江大学 | 一种基于深度相机的人脸与行人感知系统 |
CN108304761A (zh) * | 2017-09-25 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 文本检测方法、装置、存储介质和计算机设备 |
CN108416265A (zh) * | 2018-01-30 | 2018-08-17 | 深圳大学 | 一种人脸检测方法、装置、设备及存储介质 |
CN109271970A (zh) * | 2018-10-30 | 2019-01-25 | 北京旷视科技有限公司 | 人脸检测模型训练方法及装置 |
WO2020000908A1 (zh) * | 2018-06-29 | 2020-01-02 | 汉王科技股份有限公司 | 一种人脸活体检测方法及装置 |
CN110852372A (zh) * | 2019-11-07 | 2020-02-28 | 北京爱笔科技有限公司 | 一种数据关联方法、装置、设备及可读存储介质 |
CN110910460A (zh) * | 2018-12-27 | 2020-03-24 | 北京爱笔科技有限公司 | 一种获取位置信息的方法、装置及标定设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9652475B2 (en) * | 2013-09-17 | 2017-05-16 | Google Technology Holdings LLC | Highlight reels |
-
2020
- 2020-03-27 CN CN202010228404.1A patent/CN111444850B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007316812A (ja) * | 2006-05-24 | 2007-12-06 | Nippon Telegr & Teleph Corp <Ntt> | 画像検索装置、画像検索方法、画像検索プログラム及び記録媒体 |
EP2713307A1 (en) * | 2012-09-28 | 2014-04-02 | Accenture Global Services Limited | Liveness detection |
CN104298955A (zh) * | 2013-07-15 | 2015-01-21 | 深圳市振邦实业有限公司 | 一种人头检测方法及装置 |
CN105550671A (zh) * | 2016-01-28 | 2016-05-04 | 北京麦芯科技有限公司 | 一种人脸识别的方法及装置 |
CN106250850A (zh) * | 2016-07-29 | 2016-12-21 | 深圳市优必选科技有限公司 | 人脸检测跟踪方法及装置、机器人头部转动控制方法及系统 |
CN107301377A (zh) * | 2017-05-26 | 2017-10-27 | 浙江大学 | 一种基于深度相机的人脸与行人感知系统 |
CN108304761A (zh) * | 2017-09-25 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 文本检测方法、装置、存储介质和计算机设备 |
CN108416265A (zh) * | 2018-01-30 | 2018-08-17 | 深圳大学 | 一种人脸检测方法、装置、设备及存储介质 |
WO2020000908A1 (zh) * | 2018-06-29 | 2020-01-02 | 汉王科技股份有限公司 | 一种人脸活体检测方法及装置 |
CN109271970A (zh) * | 2018-10-30 | 2019-01-25 | 北京旷视科技有限公司 | 人脸检测模型训练方法及装置 |
CN110910460A (zh) * | 2018-12-27 | 2020-03-24 | 北京爱笔科技有限公司 | 一种获取位置信息的方法、装置及标定设备 |
CN110852372A (zh) * | 2019-11-07 | 2020-02-28 | 北京爱笔科技有限公司 | 一种数据关联方法、装置、设备及可读存储介质 |
Non-Patent Citations (1)
Title |
---|
检测彩色图像中人头数的人脸分割算法;邹利华;;微计算机信息(第21期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111444850A (zh) | 2020-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444850B (zh) | 一种图片检测的方法和相关装置 | |
CN109086756B (zh) | 一种基于深度神经网络的文本检测分析方法、装置及设备 | |
US11151406B2 (en) | Method, apparatus, device and readable storage medium for image-based data processing | |
US10592726B2 (en) | Manufacturing part identification using computer vision and machine learning | |
CN111666766B (zh) | 数据处理方法、装置和设备 | |
CN111931859B (zh) | 一种多标签图像识别方法和装置 | |
CN113052295B (zh) | 一种神经网络的训练方法、物体检测方法、装置及设备 | |
CN113344121B (zh) | 训练招牌分类模型和招牌分类的方法 | |
CN112926462B (zh) | 训练方法、装置、动作识别方法、装置及电子设备 | |
Alon et al. | Deep-hand: a deep inference vision approach of recognizing a hand sign language using american alphabet | |
CN116958512A (zh) | 目标检测方法、装置、计算机可读介质及电子设备 | |
Rong et al. | Guided text spotting for assistive blind navigation in unfamiliar indoor environments | |
Noe et al. | Efficient Segment-Anything Model for Automatic Mask Region Extraction in Livestock Monitoring | |
CN113836929A (zh) | 命名实体识别方法、装置、设备及存储介质 | |
CN117115565B (zh) | 一种基于自主感知的图像分类方法、装置及智能终端 | |
CN117275005B (zh) | 文本检测、文本检测模型优化、数据标注的方法、装置 | |
Murali et al. | Remote sensing image captioning via multilevel attention-based visual question answering | |
US20220245829A1 (en) | Movement status learning apparatus, movement status recognition apparatus, model learning method, movement status recognition method and program | |
CN116823884A (zh) | 多目标跟踪方法、系统、计算机设备及存储介质 | |
CN112232272B (zh) | 一种激光与视觉图像传感器融合的行人识别方法 | |
CN109460485A (zh) | 一种图像库建立方法、装置和存储介质 | |
CN111444803A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
Sasirekha et al. | Review on Deep Learning Algorithms for Object Detection | |
CN112990145B (zh) | 一种基于组稀疏年龄估计方法及电子设备 | |
CN116311271B (zh) | 文本图像的处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |