CN108520229B - 图像检测方法、装置、电子设备和计算机可读介质 - Google Patents
图像检测方法、装置、电子设备和计算机可读介质 Download PDFInfo
- Publication number
- CN108520229B CN108520229B CN201810299489.5A CN201810299489A CN108520229B CN 108520229 B CN108520229 B CN 108520229B CN 201810299489 A CN201810299489 A CN 201810299489A CN 108520229 B CN108520229 B CN 108520229B
- Authority
- CN
- China
- Prior art keywords
- image
- network
- scale
- processing
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
- G06V10/464—Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种图像检测方法、装置、电子设备和计算机可读介质,涉及图像识别领域,该方法包括:通过目标骨干网络对待处理图像进行多尺度处理,得到多尺度特征图像;通过基于锚的第一网络分支和不基于锚的第二网络分支对多尺度特征图像进行处理,分别得到第一处理结果和第二处理结果,其中,第一处理结果和第二处理结果中分别包括:目标检测框的位置信息和/或目标检测框中包含目标对象的概率;对第一处理结果和第二处理结果进行融合,并基于融合结果确定待处理图像的目标对象检测结果。本发明缓解现有的图像检测技术在对大尺度变化的图像进行检测时检测性能较低的技术问题。
Description
技术领域
本发明涉及图像识别领域,尤其是涉及一种图像检测方法、装置、电子设备和计算机可读介质。
背景技术
图像检测技术对于很多涉及到人脸检测技术的应用是非常基础,并且至关重要的。例如,人脸识别,人脸美妆,人脸AR(Augmented Reality,增强现实技术)等。在高分辨率的图像或者视频中,人脸的尺度变化范围非常大。例如,在4K(即,3840×2160)的图像中,人脸的尺度变化范围非常大,可能从10×10变化到2000×2000。现有的图像检测技术还难以处理这样大的尺度变化。
针对上述问题,还有提出有效解决方案。
发明内容
有鉴于此,本发明的目的在于提供一种图像检测方法、装置、电子设备和计算机可读介质,以缓解现有的图像检测技术在对大尺度变化的图像进行检测时检测性能较低的技术问题。
第一方面,本发明实施例提供了一种图像检测方法,包括:通过目标骨干网络对待处理图像进行多尺度处理,得到多尺度特征图像;通过基于锚的第一网络分支和不基于锚的第二网络分支对所述多尺度特征图像进行处理,分别得到第一处理结果和第二处理结果,其中,所述第一处理结果和所述第二处理结果中分别包括:目标检测框的位置信息和/或所述目标检测框中包含目标对象的概率;对所述第一处理结果和所述第二处理结果进行融合,并基于融合结果确定所述待处理图像的目标对象检测结果。
进一步地,通过第一网络分支和第二网络分支对所述多尺度特征图像进行处理,分别得到第一处理结果和第二处理结果包括:通过第一网络分支对所述多尺度特征图像中每个尺度的特征图像进行处理,得到第一处理结果;通过第二网络分支对所述多尺度特征图像中至少一个尺度的特征图像进行处理,得到第二处理结果。
进一步地,通过第二网络分支对所述多尺度特征图像中至少一个尺度的特征图像进行处理,得到第二处理结果包括:通过所述第二网络分支对所述多尺度特征图像中尺度最小的特征图像进行处理,得到所述第二处理结果;或者,通过所述第二网络分支对所述多尺度特征图像中尺度小于预设尺度的特征图像进行处理,得到所述第二处理结果。
进一步地,通过第一网络分支对所述多尺度特征图像中每个尺度的特征图像进行处理,得到第一处理结果包括:通过所述第一网络分支中的分类子网络对所述每个尺度的特征图像进行卷积处理,并对处理结果进行归一化处理,得到第一数值,所述第一数值表示所述每个尺度的特征图像中的每个锚包括目标对象的概率;通过所述第一网络分支中的回归子网络对所述特征图像进行处理,得到每个所述锚的位置信息;将所述第一数值中的第一目标数值和/或所述第一目标数值所对应的锚的位置信息作为所述第一处理结果,其中,所述第一目标数值为所述第一数值中大于第一预设数值的数值。
进一步地,通过第二网络分支对所述多尺度特征图像中至少一个尺度的特征图像进行处理,得到第二处理结果包括:通过所述第二网络分支中的分类子网络对所述至少一个尺度的特征图像进行卷积处理,并对卷积处理结果进行归一化处理,得到第二数值,所述第二数值表示所述至少一个尺度中每个特征图像的每个像素点位于目标对象上的概率;通过所述第二网络分支中的回归子网络对所述特征图像进行处理,得到所述每个像素点所对应的区域框的位置信息;将所述第二数值中的第二目标数值和/或所述第二目标数值所对应的像素点的区域框的位置信息作为所述第二处理结果,其中,所述第二目标数值为所述第二数值中大于第二预设数值的数值。
进一步地,如果所述待处理图像为训练图像,所述方法还包括:计算所述目标检测框与预设检测框的交并比,其中,所述预设检测框为在所述待处理图像中预先标记的包含目标对象的检测框,且一个目标检测框对应一个预设检测框;利用交叉熵损失函数和所述交并比对所述分类子网络进行损失计算,得到所述分类子网络的函数损失值;利用公式对所述回归子网络进行损失计算,得到所述回归子网络的函数损失值,pred为所述目标检测框,target为所述预设检测框,LIOU为所述回归子网络的函数损失值。
进一步地,利用交叉熵损失函数和所述交并比对所述分类子网络进行损失计算,得到所述分类子网络的函数损失值包括:当所述交并比大于预设数值时,将所述交并比所对应的目标检测框标记为正样本,并计算第一差值,其中,所述第一差值为所述目标检测框所对应的第一数值与第一标记值之间的差值,所述第一标记值为正样本所对应的标记值;当所述交并比小于或者等于所述预设数值时,将所述交并比所对应的目标检测框标记为负样本,并计算第二差值,其中,所述第二差值为所述目标检测框所对应的第一数值与第二标记值之间的差值,所述第二标记值为负样本所对应的标记值;基于所述第一差值和所述第二差值确定所述分类子网络的函数损失值。
进一步地,所述目标骨干网络为Xception-39网络,所述第一网络分支的数量为多个,所述第二网络分支的数量为一个,所述第一网络分支用于对所述多尺度特征图像中每个特征图像进行处理,所述第二网络分支用于对所述多尺度特征图像中尺度最小的特征图像进行处理。
进一步地,对所述第一处理结果和所述第二处理结果进行融合,并基于融合结果确定所述待处理图像的目标对象检测结果包括:利用非极大值抑制算法对所述第一处理结果和所述第二处理结果进行融合,并将融合结果确定为所述待处理图像的目标对象的检测结果。
进一步地,所述目标对象的数量为多个,利用非极大值抑制算法对所述第一处理结果和所述第二处理结果进行融合包括:将所述目标检测框的概率集合作为初始概率集合,执行以下步骤,直到确定出所述目标对象的检测框:在所述初始概率集合中最大概率所对应的检测框作为包含目标对象的检测框Bi;判断是否满足结束条件;如果不满足,则将所述目标检测框中的重叠检测框删除,并在所述初始概率集合中删除所述重叠检测框的概率值,得到目标概率集合,以及将所述目标概率集合作为所述初始概率集合重复执行上述步骤,其中,所述重叠检测框为所述初始概率集合所对应的检测框中与所述检测框Bi之间的重叠率大于预设重叠率的检测框。
第二方面,本发明实施例提供了一种图像检测装置,包括:第一处理单元,用于通过目标骨干网络对待处理图像进行多尺度处理,得到多尺度特征图像;第二处理单元,用于通过基于锚的第一网络分支和不基于锚的第二网络分支对所述多尺度特征图像进行处理,分别得到第一处理结果和第二处理结果,其中,所述第一处理结果和所述第二处理结果中分别包括:目标检测框的位置信息和/或所述目标检测框中包含目标对象的概率;融合单元,用于对所述第一处理结果和所述第二处理结果进行融合,并基于融合结果确定所述待处理图像的目标对象检测结果。
第三方面,本发明实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述所述的方法的步骤。
第四方面,本发明实施例提供了一种计算机存储介质,其上存储有计算机程序,所述计算机运行所述计算机程序时执行上述所述的方法的步骤。
在本发明实施例中,首先,通过目标骨干网络对待处理图像进行多尺度处理,得到多尺度特征图像;然后,通过基于锚的第一网络分支和不基于锚的第二网络分支对多尺度特征图像进行处理,分别得到第一处理结果和第二处理结果,其中,第一处理结果和第二处理结果中分别包括:目标检测框的位置信息和/或目标检测框中包含目标对象的概率;最后,对第一处理结果和第二处理结果进行融合,并基于融合结果确定待处理图像中目标对象的检测结果。
在本实施例中,通过结合基于锚的第一网络分支和不基于锚的第二网络分支对多尺度特征图像进行处理的方式,能够在保证检测模型的检测性能的情况下,确保检测模型在对大尺度变化的图像进行检测时,依然能够具有良好的鲁棒性,从而缓解现有的图像检测技术在对大尺度变化的图像进行检测时检测性能较低的技术问题。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种电子设备的示意图;
图2是根据本发明实施例的一种图像检测方法的流程图;
图3是根据本发明实施例的一种图像检测的神经网络模型的示意图;
图4是根据本发明另一实施例的图像检测方法的流程图;
图5是根据本发明实施例的一种图像检测方法中步骤S402的流程图;
图6是根据本发明实施例的一种图像检测方法中步骤S403的流程图;
图7是根据本发明实施例的第一网络分支的结构示意图;
图8是根据本发明实施例的第二网络分支的结构示意图;
图9是根据本发明实施例的一种图像检测装置的示意图;
图10是根据本发明另一实施例的图像检测装置的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
首先,参照图1来描述用于实现本发明实施例的图像检测方法的示例电子设备100。
如图1所示,电子设备100包括一个或多个处理设备102、一个或多个存储装置104、输入装置106、输出装置108以及图像采集装置110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备也可以具有其他组件和结构。
所述处理设备102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制所述电子设备100中的其它组件以执行期望的功能。
所述存储装置104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理设备102可以运行所述程序指令,以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
所述输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
所述图像采集装置110可以拍摄用户期望的图像(例如照片、视频等),并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。
示例性地,用于实现根据本发明实施例的图像检测方法的示例电子设备可以被实现为诸如智能手机、平板电脑等移动终端上。
根据本发明实施例,提供了一种图像检测方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例,提供了一种图像检测方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图2是根据本发明实施例的一种图像检测方法的流程图,如图2所示,该方法包括如下步骤:
步骤S202,通过目标骨干网络对待处理图像进行多尺度处理,得到多尺度特征图像;
在本实施例中,目标骨干网络为FPN-backbone,其中,FPN(Feature PyramidNetwork)为特征金字塔网络。该特征金字塔网络包括诸多卷积核池化操作,待处理图像经过特征金字塔网络处理之后的结果为大量解析度(或者尺度)不同的特征图feature map。
步骤S204,通过基于锚的第一网络分支和不基于锚的第二网络分支对多尺度特征图像进行处理,分别得到第一处理结果和第二处理结果,其中,第一处理结果和第二处理结果中分别包括:目标检测框的位置信息和/或目标检测框中包含目标对象的概率;
在本实施例中,第一网络分支的英文名称为anchor-based branch;第二网络分支的英文名称为anchor-free branch,第一网络分支和第二网络分支均为图像检测的神经网络。第一网络分支anchor-based branch的优点是在anchor(锚或者候选区域)能够覆盖的尺度范围内回归框比较精确,缺点是anchor需要人工设计,且检测结果严重依赖于anchor的合理设计,且anchor能够覆盖的尺度范围有限。第二网络分支的优点是能够处理较大的尺度变化,缺点是回归框不够精确。
需要说明的是,锚anchor又可以称为候选区域,例如,一个大小为W*H的特征图像,在该特征图像中包括W*H个像素点。如果特征图像中的每个像素点对应A个锚(也即,对应A个候选区域),那么该特征图像中,包括W*H*A个锚(也即,W*H*A个候选区域)。
步骤S206,对第一处理结果和第二处理结果进行融合,并基于融合结果确定待处理图像的目标对象检测结果。
需要说明的是,在本实施例中,目标对象可以是整个人脸;还可以是人脸的局部部位,例如,眼睛,鼻子,嘴巴等等;还可以人的局部部位,例如,胳膊,腿等;还可以是其他非人的物体等等,本实施例中不做具体限定。
在本实施例中,可以利用非极大值抑制算法对第一处理结果和第二处理结果进行融合,并基于融合结果确定待处理图像的目标对象检测结果。
可选地,利用非极大值抑制算法对所述第一处理结果和所述第二处理结果进行融合包括如下步骤:将所述目标检测框的概率集合作为初始概率集合,执行以下步骤,直到确定出所述目标对象的检测框:在所述初始概率集合中最大概率所对应的检测框作为包含目标对象的检测框Bi;判断是否满足结束条件;如果不满足,则将所述目标检测框中的重叠检测框删除,并在所述初始概率集合中删除所述重叠检测框的概率值,得到目标概率集合,以及将所述目标概率集合作为所述初始概率集合重复执行上述步骤,其中,所述重叠检测框为所述初始概率集合所对应的检测框中与所述检测框Bi之间的重叠率大于预设重叠率的检测框。需要说明的是,判断是否满足结束条件是指判断是否满足一个阈值,该阈值为待处理图像中目标对象的数量。
假设,目标对象为人脸,且假设待处理图像中包括两个人脸。此时,第一网络分支将得到第一处理结果,第一处理结果中包括该两个人脸的置信度(也即,目标检测框的概率)和这两个人脸的检测框。第二网络分支将得到第二处理结果,第二处理结果中也包括该两个人脸的置信度(也即,目标检测框的概率)和这两个人脸的检测框。
如果第一网络分支的数量为3个,且第二网络分支的数量为一个,那么将得到三组第一处理结果和一组第二处理结果,每组第一处理结果中包括该两个人脸的置信度(也即,目标检测框的概率)和这两个人脸的检测框。
此时,综合三组第一处理结果和一组第二处理结果,将得到两个人脸中人脸1的4个目标检测框和每个目标检测框所对应的置信度;以及得到两个人脸中人脸2的4个目标检测框和每个目标检测框所对应的置信度。
例如,人脸1的4个目标检测框和每个目标检测框所对应的置信度分别为:目标检测框11的置信度为0.9,目标检测框12的置信度为0.8,目标检测框13的置信度为0.7,目标检测框14的置信度为0.65。人脸2的4个目标检测框和每个目标检测框所对应的置信度分别为:目标检测框21的置信度为0.95,目标检测框22的置信度为0.91,目标检测框23的置信度为0.75,目标检测框24的置信度为0.7。
下面将结合上述融合方法来介绍确定目标对象的检测结果的过程:
首先,将上述8个置信度进行排序,得到排序结果:0.95,0.9,0.9,0.8,0.75,0.7,0.7,0.65。在上述8个置信度的排序结果中置信度为0.95的目标检测框21作为人脸2的检测框。然后,将上述排序结果中与目标检测框21之间的重叠率高于预设重叠率的检测框(也即,重叠检测框)删除。假设,与目标检测框21之间的重叠率高于预设重叠率的检测框为目标检测框22和目标检测框13。此时,在上述排序结果中删除目标检测框22和目标检测框13所对应的置信度,得到以下排序结果:0.9,0.8,0.75,0.7。此时,将该排序结果中置信度0.9所对应的目标检测框11作为人脸1的检测框。
在本实施例中,通过结合基于锚的第一网络分支和不基于锚的第二网络分支对多尺度特征图像进行处理的方式,能够在保证检测模型的检测性能的情况下,确保检测模型在对大尺度变化的图像进行检测时,依然能够具有良好的鲁棒性,从而缓解现有的图像检测技术在对大尺度变化的图像进行检测时检测性能较低的技术问题。
在本实施例中,该图像检测方法应用在用于进行目标对象检测的神经网络模型上,例如,RetinaNet目标检测模型。RetinaNet目标检测模型这类模型是一个端到端模型,可以分成FPN-backbone(即,上述目标骨干网络)和Detection head两部分。其中,Detection head即为上述所描述的第一网络分支和第二网络分支。通常情况下,Detectionhead分成分类子网络classification subnet和回归子网络regression subnet。也就是说,第一网络分支中包括分类子网络classification subnet和回归子网络regressionsubnet,第二网络分支中同样包括分类子网络classification subnet和回归子网络regression subnet。其中,分类子网络classification subnet输出分类信息,监督信号是“是否是目标对象”的标签;回归子网络regression subnet输出回归信息,监督信号是“目标对象的包围框坐标”(即目标对象的具体位置)。
在一个可选的实施例中,目标骨干网络为Xception-39网络,第一网络分支的数量为多个,第二网络分支的数量也为多个,第一网络分支的数量与第二网络分支的数量相同或者不同。第一网络分支和第二网络分支均用于对多尺度特征图像进行处理,进而得到相应的处理结果。
在本实施例中,由于Xception-39足够轻量,因此,使用Xception-39作为目标骨干网络能够保证了图形处理器(Graphics Processing Unit,缩写:GPU)的实时性。在本实施例中,还可以根据实际应用场景将Xception-39网络更换成其它骨干网络。
图3是根据本发明实施例的一种图像检测的神经网络模型的示意图。该神经网络模型用于实现本实施例中所提供的图像检测方法。从图3中可以看出,目标骨干网络为Xception-39网络,该Xception-39网络用于对待处理图像进行卷积计算,得到多尺度特征图,即如图3所示的特征金字塔Feature Pyramid。从图3中的特征金字塔Feature Pyramid可以看出,包括三个缩放尺度的特征图像(即,P3-P5)。
如图3所示,P4是P4’(在图3中未示出)和P5的融合,其中,P5是按照缩放尺度25对待处理图像进行缩放之后的特征图像,P4’(在图3中未示出)是按照缩放尺度24对待处理图像进行缩放之后的特征图像。P3是P3’(在图3中未示出)和P4的融合,其中,P4是P4’(在图3中未示出)和P5的融合,P3’(在图3中未示出)是按照缩放尺度23对待处理图像进行缩放之后的特征图像。
进一步地,从图3中可以看出,模型含有4个detection head,其中,在名称为P3至P5的特征图feature map上各有一个基于anchor(锚或者候选区域)的Detection head,称之为第一网络分支(anchor-based branch);在P3的特征图(feature map)上额外有一个不基于anchor(锚或者候选区域)的Detection head,称之为第二网络分支(anchor-freebranch)。第一网络分支专注于对小尺度目标对象的检测,第二网络分支则专注于对其余尺度目标对象的检测。
也就是说,在本实施例中,优选第一网络分支的数量为多个,第二网络分支的数量为一个,第一网络分支用于对多尺度特征图像中每个特征图像进行处理,第二网络分支用于对多尺度特征图像中尺度最小的特征图像进行处理。
现有的多尺度图像,对于第一网络分支来说都属于尺度偏小的图像,因此在本实施例中,通过专注于小尺度分析的第一网络分支来对特征图像进行分析,能够提高检测框的检测精度。但是,由于一个特征图像中可能包括尺度变化较大的两个目标对象,此时,仅单一的使用第一网络分支将影响模型的检测精度。因此,在本实施例中,通过采用专注于其他尺度分析的第二网络分支来对特征图像进行分析。由于第二网络分支能够处理较大尺度变化的特征图像,因此,在本实施例中,结合第一网络分支和第二网络分支对多尺度特征图像进行处理的方式,能够在保证检测模型的检测性能的情况下,确保检测模型在对大尺度变化的图像进行检测时,依然能够具有良好的鲁棒性,从而缓解现有的目标对象检测技术在对大尺度变化的图像进行检测时检测性能较低的技术问题。
需要说明的是,在本实施例中,优选设置第二网络分支用于对多尺度特征图像中尺度最小的特征图像进行处理的一个原因是,尺度最小的特征图像中所包含的位置点更多,此时将可以标定更多的候选框,从而使得检测框的检测结果更加精确。
图4是根据本发明另一实施例的图像检测方法的流程图。在另一个实施例中,如图4所示,该方法包括如下步骤:
步骤S401,通过目标骨干网络对待处理图像进行多尺度处理,得到多尺度特征图像;步骤S401与步骤S102相同,此处不再赘述。
步骤S402,通过第一网络分支对多尺度特征图像中每个尺度的特征图像进行处理,得到第一处理结果,其中,第一处理结果中包括:目标检测框的位置信息和/或目标检测框中包含目标对象的概率;
步骤S403,通过第二网络分支对多尺度特征图像中至少一个尺度的特征图像进行处理,得到第二处理结果,其中,第二处理结果中包括:目标检测框的位置信息和/或目标检测框中包含目标对象的概率;
步骤S404,对第一处理结果和第二处理结果进行融合,并基于融合结果确定待处理图像的目标对象检测结果;步骤S404与步骤S106相同,此处不再赘述。
在本实施例中,首先,通过目标骨干网络对待处理图像进行多尺度处理,进而,得到多尺度特征图像。例如,得到如图3所示的特征金字塔,即P3至P5所示的特征图像。在得到多尺度特征图像之后,就可以通过第一网络分支anchor-based branch对多尺度特征图像中每个尺度的特征图像进行处理,得到第一处理结果。以及,通过第二网络分支anchor-free branch对多尺度特征图像中至少一个尺度的特征图像进行处理,得到第二处理结果。
优选地,当目标对象检测的神经网络模型为如图3所示的模型时,通过第二网络分支对多尺度特征图像中至少一个尺度的特征图像进行处理,得到第二处理结果包括:通过第二网络分支对多尺度特征图像中尺度最小的特征图像进行处理,得到第二处理结果。
例如,如图3所示,通过第二网络分支anchor-free branch对P3至P5所示的特征图像中的P3特征图像进行处理,得到第二处理结果。
可选地,通过第二网络分支对多尺度特征图像中至少一个尺度的特征图像进行处理,得到第二处理结果还包括:通过第二网络分支对多尺度特征图像中尺度小于预设尺度的特征图像进行处理,得到第二处理结果。
在本实施例中,可以预先设定一个阈值,即,预设尺度,然后,通过第二网络分支anchor-free branch对多尺度特征图像中尺度小于预设尺度的特征图像进行处理。例如,如图3所示,通过第二网络分支anchor-free branch对P3至P5所示的特征图像中尺度小于或者等于3的特征图像(即,P3)进行处理,得到第二处理结果。需要说明的是,用户可以根据实际需要来设定预设尺度的大小,本实施例对此不作具体限定。
图5是根据本发明实施例的一种图像检测方法中步骤S402的流程图。在另一个实施例中,如图5所示,通过第一网络分支对多尺度特征图像中每个尺度的特征图像进行处理,得到第一处理结果包括如下步骤:
步骤S501,通过第一网络分支中的分类子网络对每个尺度的特征图像进行卷积处理,并对处理结果进行归一化处理,得到第一数值,第一数值表示每个尺度的特征图像中的每个锚包括目标对象的概率;
步骤S502,通过第一网络分支中的回归子网络对特征图像进行处理,得到每个锚的位置信息;
步骤S503,将第一数值中的第一目标数值和/或第一目标数值所对应的锚的位置信息作为第一处理结果,其中,第一目标数值为第一数值中大于第一预设数值的数值。
通过上述描述可知,第一网络分支anchor-based branch包括分类子网络classification subnet和回归子网络regression subnet。分类子网络classificationsubnet在目标骨干网络的输出(即多尺度特征图像)上执行卷积对象分类(ObjectClassification);回归子网络regression subnet用于执行卷积边界框回归(boundingbox regression)。也就是说,分类子网络classification subnet的输出“是否是目标对象”的标签,回归子网络regression subnet输出“目标对象的回归框坐标”(即目标对象的具体位置)。
在本实施例中,通过第一网络分支anchor-based branch中的分类子网络classification subnet对每个尺度的特征图像进行卷积计算,并利用归一化函数对卷积计算结果进行归一化处理,归一化处理之后得到第一数值,其中,归一化函数可以为Sigmoid函数。在本实施例中,第一数值表示每个尺度的特征图像中每个锚中包括目标对象的概率。
例如,一个大小为W*H的特征图像,在该特征图像中包括W*H个像素点。如果特征图像中的每个像素点对应A个锚(也即,对应A个候选区域),那么该特征图像中,包括W*H*A个锚(也即,W*H*A个候选区域)。此时,每个锚将得到一个第一数值,该数值表示对应的锚中包含目标对象的概率。
在本实施例中,还可以通过第一网络分支anchor-based branch中的回归子网络regression subnet对每个尺度的特征图像进行卷积边界框回归处理,得到特征图像中每个锚的位置信息。
例如,在上述包括W*H*A个锚的特征图像中。通过第一网络分支anchor-basedbranch中的回归子网络regression subnet,可以对每个锚均确定对应的位置信息。
在得到W*H*A个锚中每个锚的第一数值,以及每个锚的位置信息之后,就可以将第一数值中的第一目标数值和/或第一目标数值所对应的锚的位置信息作为第一处理结果,其中,第一目标数值为第一数值中大于第一预设数值的数值。
在本实施例中,通过上述过程,就能够在每个尺度的特征图像中进行目标对象检测,以得到目标对象检测结果。
图6是根据本发明实施例的一种图像检测方法中步骤S403的流程图。在另一个实施例中,如图6所示,通过第二网络分支对多尺度特征图像中至少一个尺度的特征图像进行处理,得到第二处理结果包括如下步骤:
步骤S601,通过第二网络分支中的分类子网络对至少一个尺度的特征图像进行卷积处理,并对卷积处理结果进行归一化处理,得到第二数值,第二数值表示至少一个尺度中每个特征图像的每个像素点位于目标对象上的概率;
步骤S602,通过第二网络分支中的回归子网络对特征图像进行处理,得到每个像素点所对应的区域框的位置信息;
步骤S603,将第二数值中的第二目标数值和/或第二目标数值所对应的像素点的区域框的位置信息作为第二处理结果,其中,第二目标数值为第二数值中大于第二预设数值的数值。
通过上述描述可知,第二网络分支anchor-based branch包括分类子网络classification subnet和回归子网络regression subnet。分类子网络classificationsubnet在目标骨干网络的输出(即多尺度特征图像)上执行目标分类(ObjectClassification);回归子网络regression subnet用于执行卷积边界框回归(boundingbox regression)。也就是说,分类子网络classification subnet的输出“是否是目标对象”的标签,回归子网络regression subnet输出“目标对象的包围框坐标”(即目标对象的具体位置)。
在本实施例中,通过第二网络分支anchor-based branch中的分类子网络classification subnet对每个尺度的特征图像进行卷积计算,并利用归一化函数对卷积计算结果进行归一化处理,归一化处理之后得到第二数值,其中,归一化函数可以为Sigmoid函数。在本实施例中,第二数值表示特征图像中每个像素点位于目标对象上的概率。
例如,一个大小为W*H的特征图像,在该特征图像中包括W*H个像素点。此时,每个像素点将得到一个第二数值,该数值表示像素点位于目标对象上的概率。
在本实施例中,还可以通过第二网络分支anchor-based branch中的回归子网络regression subnet对每个尺度的特征图像进行卷积边界框回归处理,得到特征图像中每个像素点所对应的区域框的位置信息。
例如,在上述包括W*H个像素点的特征图像中。通过第二网络分支anchor-basedbranch中的回归子网络regression subnet,可以确定W*H个像素点所对应的区域框的位置信息。
在得到W*H个像素点的第二数值,以及每个像素点的区域框的位置信息之后,就可以将第二数值中的第二目标数值和/或第二目标数值所对应的像素点的区域框的位置信息作为第二处理结果,其中,第二目标数值为第二数值中大于第二预设数值的数值。
在本实施例中,通过上述所描述的过程,就能够在每个尺度的特征图像中进行目标对象检测,以得到目标对象检测结果。
需要说明的是,在图5和图6所描述的实施例中,是指当待处理图像为训练图像时,如图3所示的图像检测神经网络模型所执行的操作。当待处理图像为训练图像时,如图3所示的图像检测神经网络模型中第一网络分支anchor-based branch和第二网络分支anchor-based branch的结构如图7和图8所示。
如图7所示的是当待处理图像为训练图像时,第一网络分支的结构示意图。如图8所示的是当待处理图像为训练图像时,第二网络分支的结构示意图。
RetinaNet目标检测模型是一个有监督的神经网络模型。在利用该模型进行目标对象检测时,需要对该神经网络模型进行训练,其中,有监督的神经网络模型的训练过程。训练过程是指将一组训练集(例如,训练图像)送入网络,根据神经网络模型的实际输出与期望输出之间的差别来调整神经网络模型连接权重。具体地,该神经网络模型的训练过程描述如下:
1、选择样本集合的一个样本(Ai,Ci),Ai为训练图像、Ci为训练图像的标签(例如,训练图像是否为包含目标对象的图像);
2、将样本送入神经网络模型,计算神经网络模型的实际输出Y,(此时网络中的权重应该都是随机量);
3、计算D=Ci-Y(即预测值与实际值相差多少);
4、根据误差D调整神经网络模型的权重矩阵W;
5、对每个样本重复上述过程,直到对整个样本集来说,误差不超过规定范围。
因此,在本实施例中,也需要按照上述流程来对如图3所示的神经网络模型进行训练。
如图7所示,当待处理图像为训练图像时,在第一网络分支的分类子网络得到对应的预测结果之后,还需要对该分类子网络的输出进行损失计算,其中,损失计算是指神经网络的预测值与实际值之间的差异。可选地,在本实施例中,是利用损失函数和交并比IOU(Intersection-Over-Union)来进行损失计算。如图7所示,在该第一网络分支的回归子网络中,可以通过LOSS函数(Loss function)来对该回归子网络进行损失计算。
如图8所示,当待处理图像为训练图像时,在第二网络分支的分类子网络得到对应的预测结果之后,还需要对该分类子网络的输出进行损失计算,其中,损失计算是指神经网络的预测值与实际值之间的差异。可选地,在本实施例中,是利用损失函数和交并比IOU(Intersection-Over-Union)来进行损失计算。如图8所示,在该第二网络分支的回归子网络中,可以通过LOSS函数(Loss function)来对该回归子网络进行损失计算。
当待处理图像为训练图像,对第一网络分支的分类子网络和回归子网络进行损失计算的过程描述如下:
步骤S1,计算目标检测框与预设检测框的交并比,其中,预设检测框为在待处理图像中预先标记的包含目标对象的检测框,且一个目标检测框对应一个预设检测框;
步骤S2,利用交叉熵损失函数和交并比对分类子网络进行损失计算,得到分类子网络的函数损失值;
在本实施例中,首先,计算目标检测框与预设检测框的交并比IOU,其中,目标检测框是如图3所示的神经网络模型在对训练图像进行处理时,得到的预测目标对象框,预设检测框为与目标检测框相对应的正确的标注有目标对象的检测框。其中,目标检测框又可以理解为回归框,预设检测框有可以理解为:ground-truth。
在机器学习中ground truth表示有监督学习的训练集的分类准确性,用于证明或者推翻某个假设。有监督的机器学习会对训练数据打标记,这里将那些正确打标记的数据成为ground truth。交并比IOU是产生的候选框(candidate bound)与原标记框(groundtruth bound)的交叠率,即它们的交集与并集的比值,其中,最理想情况是完全重叠,即比值为1。
在图7和图8中,W和H表示特征图像的feature map的宽和高;A表示特征图像feature map的每个位置上anchor(候选区域或者锚)的个数;bbox代表回归框;gt代表ground-truth;“4”表示回归框的坐标信息,例如,回归框的一个顶点坐标和回归框的长宽信息。
在得到目标检测框与预设检测框的交并比之后,就可以利用交叉熵损失函数(sigmoid cross entropy)和交并比对第一网络分支进行损失计算,得到分类子网络的函数损失值。
在一个可选的实施方式中,步骤S2,利用交叉熵损失函数和交并比对分类子网络进行损失计算,得到分类子网络的函数损失值包括如下过程:
当交并比大于预设数值时,将交并比所对应的目标检测框标记为正样本,并计算第一差值,其中,第一差值为目标检测框所对应的第一数值与第一标记值之间的差值,第一标记值为正样本所对应的标记值;
当交并比小于或者等于预设数值时,将交并比所对应的目标检测框标记为负样本,并计算第二差值,其中,第二差值为目标检测框所对应的第一数值与第二标记值之间的差值,第二标记值为负样本所对应的标记值;
基于第一差值和第二差值确定分类子网络的函数损失值。
在本实施例中,当目标检测框与其对应的预设检测框之间的交并比IOU大于预设数值(例如0.5)时,则将该目标检测框标记为正样本。然后,计算该目标检测框所对应的第一数值与第一标记值之间的差值,其中,第一标记值为正样本所对应的标记值(例如,为1)。此时,如果交并比IOU大于0.5,就可以计算该交并比与1之间的差值(即,第一差值)。
当目标检测框与其对应的预设检测框之间的交并比IOU小于或者等于预设数值(例如0.5)时,则将该目标检测框标记为负样本。然后,计算该目标检测框所对应的第二数值与第二标记值之间的差值,其中,第二标记值为负样本所对应的标记值(例如,为0)。此时,如果交并比IOU小于或者等于0.5,就可以计算该交并比与0之间的差值(即,第二差值)。
在得到第一差值和第二差值之后,就可以基于第一差值和第二差值确定分类子网络的函数损失值。
需要说明的是,在本实施例中,由于第一网络分支anchor-based branch和第二网络分支anchor-free branch之间对于正负样本的定义标准有偏差,因此会导致第一网络分支anchor-based branch和第二网络分支anchor-free branch的输出结果无法进行有效的融合。在本实施例中,通过将交并比IOU>0.5的ground-truth作为正样本,以及将交并比IOU≤0.5的ground-truth作为负样本的方式,能够统一了两种网络分支branch对于正负样本的定义,进而方便两种网络分支branch的输出结果的融合。
进一步需要说明的是,当待处理图像为训练图像时,上述第一网络分支anchor-based branch中的分类子网络和回归子网络,以及第二网络分支anchor-based branch中的分类子网络和回归子网络,均可以采用上述所描述的过程来进行训练,此处不再一一列举。
本发明实施例还提供了一种图像检测装置,该图像检测装置主要用于执行本发明实施例上述内容所提供的图像检测方法,以下对本发明实施例提供的图像检测装置做具体介绍。
图9是根据本发明实施例的一种图像检测装置的示意图,如图9所示,该图像检测装置主要包括第一处理单元10,第二处理单元20和融合单元30,其中:
第一处理单元10,用于通过目标骨干网络对待处理图像进行多尺度处理,得到多尺度特征图像;
第二处理单元20,用于通过基于锚的第一网络分支和不基于锚的第二网络分支对多尺度特征图像进行处理,分别得到第一处理结果和第二处理结果,其中,第一处理结果和第二处理结果中分别包括:目标检测框的位置信息和/或目标检测框中包含目标对象的概率;
融合单元30,用于对第一处理结果和第二处理结果进行融合,并基于融合结果确定待处理图像的目标对象检测结果。
在本实施例中,通过结合基于锚的第一网络分支和不基于锚的第二网络分支对多尺度特征图像进行处理的方式,能够在保证检测模型的检测性能的情况下,确保检测模型在对大尺度变化的图像进行检测时,依然能够具有良好的鲁棒性,从而缓解现有的图像检测技术在对大尺度变化的图像进行检测时检测性能较低的技术问题。
可选地,如图10所示,第二处理单元20包括:第一处理模块21,用于通过第一网络分支对多尺度特征图像中每个尺度的特征图像进行处理,得到第一处理结果;第二处理模块22,用于通过第二网络分支对多尺度特征图像中至少一个尺度的特征图像进行处理,得到第二处理结果。
可选地,第二处理模块22用于:通过第二网络分支对多尺度特征图像中尺度最小的特征图像进行处理,得到第二处理结果;或者,通过第二网络分支对多尺度特征图像中尺度小于预设尺度的特征图像进行处理,得到第二处理结果。
可选地,第一处理模块21用于:通过第一网络分支中的分类子网络对每个尺度的特征图像进行卷积处理,并对处理结果进行归一化处理,得到第一数值,第一数值表示每个尺度的特征图像中的每个锚包括目标对象的概率;通过第一网络分支中的回归子网络对特征图像进行处理,得到每个锚的位置信息;将第一数值中的第一目标数值和/或第一目标数值所对应的锚的位置信息作为第一处理结果,其中,第一目标数值为第一数值中大于第一预设数值的数值。
可选地,第二处理模块22还用于:通过第二网络分支中的分类子网络对至少一个尺度的特征图像进行卷积处理,并对卷积处理结果进行归一化处理,得到第二数值,第二数值表示至少一个尺度中每个特征图像的每个像素点位于目标对象上的概率;通过第二网络分支中的回归子网络对特征图像进行处理,得到每个像素点所对应的区域框的位置信息;将第二数值中的第二目标数值和/或第二目标数值所对应的像素点的区域框的位置信息作为第二处理结果,其中,第二目标数值为第二数值中大于第二预设数值的数值。
可选地,该装置还用于:在待处理图像为训练图像的情况下,计算目标检测框与预设检测框的交并比,其中,预设检测框为在待处理图像中预先标记的包含目标对象的检测框,且一个目标检测框对应一个预设检测框;利用交叉熵损失函数和交并比对分类子网络进行损失计算,得到分类子网络的函数损失值;利用公式对回归子网络进行损失计算,得到回归子网络的函数损失值,pred为目标检测框,target为预设检测框,LIOU为回归子网络的函数损失值。
可选地,该装置还用于:当交并比大于预设数值时,将交并比所对应的目标检测框标记为正样本,并计算第一差值,其中,第一差值为目标检测框所对应的第一数值与第一标记值之间的差值,第一标记值为正样本所对应的标记值;当交并比小于或者等于预设数值时,将交并比所对应的目标检测框标记为负样本,并计算第二差值,其中,第二差值为目标检测框所对应的第一数值与第二标记值之间的差值,第二标记值为负样本所对应的标记值;基于第一差值和第二差值确定分类子网络的函数损失值。
可选地,目标骨干网络为Xception-39网络,第一网络分支的数量为多个,第二网络分支的数量为一个,第一网络分支用于对多尺度特征图像中每个特征图像进行处理,第二网络分支用于对多尺度特征图像中尺度最小的特征图像进行处理。
可选地,融合单元30用于:利用非极大值抑制算法对第一处理结果和第二处理结果进行融合,并将融合结果确定为待处理图像中目标对象的检测结果。
可选地,融合单元30用于:将所述目标检测框的概率集合作为初始概率集合,并执行以下过程,直到确定出所述目标对象的检测框:在所述初始概率集合中最大概率所对应的检测框作为包含目标对象的检测框Bi;判断是否满足结束条件;如果不满足,则将所述目标检测框中的重叠检测框删除,并在所述初始概率集合中删除所述重叠检测框的概率值,得到目标概率集合,以及将所述目标概率集合作为所述初始概率集合重复执行上述步骤,其中,所述重叠检测框为所述初始概率集合所对应的检测框中与所述检测框Bi之间的重叠率大于预设重叠率的检测框。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
在另一实施例中,还提供了一种计算机存储介质,其上存储有计算机程序,所述计算机运行所述计算机程序时执行上述方法实施例中任意实施例所述的方法的步骤。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (13)
1.一种图像检测方法,其特征在于,包括:
通过目标骨干网络对待处理图像进行多尺度处理,得到多尺度特征图像;
通过基于锚的第一网络分支和不基于锚的第二网络分支对所述多尺度特征图像进行处理,分别得到第一处理结果和第二处理结果,其中,所述第一处理结果和所述第二处理结果中分别包括:目标检测框的位置信息和/或所述目标检测框中包含目标对象的概率;
对所述第一处理结果和所述第二处理结果进行融合,并基于融合结果确定所述待处理图像的目标对象检测结果。
2.根据权利要求1所述的方法,其特征在于,通过第一网络分支和第二网络分支对所述多尺度特征图像进行处理,分别得到第一处理结果和第二处理结果包括:
通过第一网络分支对所述多尺度特征图像中每个尺度的特征图像进行处理,得到第一处理结果;
通过第二网络分支对所述多尺度特征图像中至少一个尺度的特征图像进行处理,得到第二处理结果。
3.根据权利要求2所述的方法,其特征在于,通过第二网络分支对所述多尺度特征图像中至少一个尺度的特征图像进行处理,得到第二处理结果包括:
通过所述第二网络分支对所述多尺度特征图像中尺度最小的特征图像进行处理,得到所述第二处理结果;或者
通过所述第二网络分支对所述多尺度特征图像中尺度小于预设尺度的特征图像进行处理,得到所述第二处理结果。
4.根据权利要求2所述的方法,其特征在于,通过第一网络分支对所述多尺度特征图像中每个尺度的特征图像进行处理,得到第一处理结果包括:
通过所述第一网络分支中的分类子网络对所述每个尺度的特征图像进行卷积处理,并对处理结果进行归一化处理,得到第一数值,所述第一数值表示所述每个尺度的特征图像中的每个锚包括所述目标对象的概率;
通过所述第一网络分支中的回归子网络对所述特征图像进行处理,得到每个所述锚的位置信息;
将所述第一数值中的第一目标数值和/或所述第一目标数值所对应的锚的位置信息作为所述第一处理结果,其中,所述第一目标数值为所述第一数值中大于第一预设数值的数值。
5.根据权利要求2所述的方法,其特征在于,通过第二网络分支对所述多尺度特征图像中至少一个尺度的特征图像进行处理,得到第二处理结果包括:
通过所述第二网络分支中的分类子网络对所述至少一个尺度的特征图像进行卷积处理,并对卷积处理结果进行归一化处理,得到第二数值,所述第二数值表示所述至少一个尺度中每个特征图像的每个像素点位于所述目标对象上的概率;
通过所述第二网络分支中的回归子网络对所述特征图像进行处理,得到所述每个像素点所对应的区域框的位置信息;
将所述第二数值中的第二目标数值和/或所述第二目标数值所对应的像素点的区域框的位置信息作为所述第二处理结果,其中,所述第二目标数值为所述第二数值中大于第二预设数值的数值。
7.根据权利要求6所述的方法,其特征在于,利用交叉熵损失函数和所述交并比对所述分类子网络进行损失计算,得到所述分类子网络的函数损失值包括:
当所述交并比大于预设数值时,将所述交并比所对应的目标检测框标记为正样本,并计算第一差值,其中,所述第一差值为所述目标检测框所对应的第一数值与第一标记值之间的差值,所述第一标记值为正样本所对应的标记值;
当所述交并比小于或者等于所述预设数值时,将所述交并比所对应的目标检测框标记为负样本,并计算第二差值,其中,所述第二差值为所述目标检测框所对应的第一数值与第二标记值之间的差值,所述第二标记值为负样本所对应的标记值;
基于所述第一差值和所述第二差值确定所述分类子网络的函数损失值。
8.根据权利要求1所述的方法,其特征在于,所述目标骨干网络为Xception-39网络,所述第一网络分支的数量为多个,所述第二网络分支的数量为一个,所述第一网络分支用于对所述多尺度特征图像中每个特征图像进行处理,所述第二网络分支用于对所述多尺度特征图像中尺度最小的特征图像进行处理。
9.根据权利要求1所述的方法,其特征在于,对所述第一处理结果和所述第二处理结果进行融合,并基于融合结果确定所述待处理图像的目标对象检测结果包括:
利用非极大值抑制算法对所述第一处理结果和所述第二处理结果进行融合,并将融合结果确定为所述待处理图像的所述目标对象的检测结果。
10.根据权利要求9所述的方法,其特征在于,利用非极大值抑制算法对所述第一处理结果和所述第二处理结果进行融合包括:
将所述目标检测框的概率集合作为初始概率集合,执行以下步骤,直到确定出所述目标对象的检测框:
在所述初始概率集合中最大概率所对应的检测框作为包含目标对象的检测框Bi;
判断是否满足结束条件;
如果不满足,则将所述目标检测框中的重叠检测框删除,并在所述初始概率集合中删除所述重叠检测框的概率值,得到目标概率集合,以及将所述目标概率集合作为所述初始概率集合重复执行上述步骤,其中,所述重叠检测框为所述初始概率集合所对应的检测框中与所述检测框Bi之间的重叠率大于预设重叠率的检测框。
11.一种图像检测装置,其特征在于,包括:
第一处理单元,用于通过目标骨干网络对待处理图像进行多尺度处理,得到多尺度特征图像;
第二处理单元,用于通过基于锚的第一网络分支和不基于锚的第二网络分支对所述多尺度特征图像进行处理,分别得到第一处理结果和第二处理结果,其中,所述第一处理结果和所述第二处理结果中分别包括:目标检测框的位置信息和/或所述目标检测框中包含目标对象的概率;
融合单元,用于对所述第一处理结果和所述第二处理结果进行融合,并基于融合结果确定所述待处理图像的所述目标对象检测结果。
12.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至10中任一项所述的方法的步骤。
13.一种计算机存储介质,其特征在于,其上存储有计算机程序,所述计算机运行所述计算机程序时执行上述权利要求1至10中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810299489.5A CN108520229B (zh) | 2018-04-04 | 2018-04-04 | 图像检测方法、装置、电子设备和计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810299489.5A CN108520229B (zh) | 2018-04-04 | 2018-04-04 | 图像检测方法、装置、电子设备和计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108520229A CN108520229A (zh) | 2018-09-11 |
CN108520229B true CN108520229B (zh) | 2020-08-07 |
Family
ID=63431902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810299489.5A Active CN108520229B (zh) | 2018-04-04 | 2018-04-04 | 图像检测方法、装置、电子设备和计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108520229B (zh) |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299744A (zh) * | 2018-10-19 | 2019-02-01 | 合肥非度信息技术有限公司 | 合同公章分类模型的训练方法、系统和识别方法、系统 |
CN109376667B (zh) * | 2018-10-29 | 2021-10-01 | 北京旷视科技有限公司 | 目标检测方法、装置及电子设备 |
CN109711241B (zh) * | 2018-10-30 | 2021-07-20 | 百度在线网络技术(北京)有限公司 | 物体检测方法、装置与电子设备 |
CN109472264B (zh) * | 2018-11-09 | 2020-10-27 | 北京字节跳动网络技术有限公司 | 用于生成物体检测模型的方法和装置 |
CN111178119A (zh) * | 2018-11-13 | 2020-05-19 | 北京市商汤科技开发有限公司 | 路口状态检测方法、装置、电子设备及车辆 |
CN109559300A (zh) * | 2018-11-19 | 2019-04-02 | 上海商汤智能科技有限公司 | 图像处理方法、电子设备及计算机可读存储介质 |
CN109784327B (zh) * | 2018-12-04 | 2021-04-16 | 北京达佳互联信息技术有限公司 | 边界框确定方法、装置、电子设备及存储介质 |
CN109670495A (zh) * | 2018-12-13 | 2019-04-23 | 深源恒际科技有限公司 | 一种基于深度神经网络的长短文本检测的方法及系统 |
CN109670452A (zh) * | 2018-12-20 | 2019-04-23 | 北京旷视科技有限公司 | 人脸检测方法、装置、电子设备和人脸检测模型 |
CN109741318B (zh) * | 2018-12-30 | 2022-03-29 | 北京工业大学 | 基于有效感受野的单阶段多尺度特定目标的实时检测方法 |
CN111428539A (zh) * | 2019-01-09 | 2020-07-17 | 成都通甲优博科技有限责任公司 | 目标跟踪方法及装置 |
CN109800710B (zh) * | 2019-01-18 | 2021-04-06 | 北京交通大学 | 行人重识别系统及方法 |
CN109859190B (zh) * | 2019-01-31 | 2021-09-17 | 北京工业大学 | 一种基于深度学习的目标区域检测方法 |
CN109961107B (zh) * | 2019-04-18 | 2022-07-19 | 北京迈格威科技有限公司 | 目标检测模型的训练方法、装置、电子设备及存储介质 |
CN111898622B (zh) * | 2019-05-05 | 2022-07-15 | 阿里巴巴集团控股有限公司 | 信息处理、信息显示与模型训练方法、系统及设备 |
CN110163300B (zh) * | 2019-05-31 | 2021-04-23 | 北京金山云网络技术有限公司 | 一种图像分类方法、装置、电子设备及存储介质 |
CN110298262B (zh) * | 2019-06-06 | 2024-01-02 | 华为技术有限公司 | 物体识别方法及装置 |
CN110414596B (zh) * | 2019-07-25 | 2023-09-26 | 腾讯科技(深圳)有限公司 | 视频处理、模型训练方法和装置、存储介质及电子装置 |
CN110533105B (zh) * | 2019-08-30 | 2022-04-05 | 北京市商汤科技开发有限公司 | 一种目标检测方法及装置、电子设备和存储介质 |
CN110532985B (zh) * | 2019-09-02 | 2022-07-22 | 北京迈格威科技有限公司 | 目标检测方法、装置及系统 |
CN110647881B (zh) * | 2019-09-19 | 2023-09-05 | 腾讯科技(深圳)有限公司 | 确定图像对应的卡片类型的方法、装置、设备及存储介质 |
CN110796649B (zh) * | 2019-10-29 | 2022-08-30 | 北京市商汤科技开发有限公司 | 目标检测方法及装置、电子设备和存储介质 |
CN113065379B (zh) * | 2019-12-27 | 2024-05-07 | 深圳云天励飞技术有限公司 | 融合图像质量的图像检测方法、装置、电子设备 |
CN111199230B (zh) * | 2020-01-03 | 2023-07-07 | 腾讯科技(深圳)有限公司 | 目标检测的方法、装置、电子设备及计算机可读存储介质 |
CN113128308B (zh) * | 2020-01-10 | 2022-05-20 | 中南大学 | 一种港口场景下的行人检测方法、装置、设备及介质 |
CN111461260B (zh) * | 2020-04-29 | 2023-04-18 | 上海东普信息科技有限公司 | 基于特征融合的目标检测方法、装置、设备及存储介质 |
CN111738133A (zh) * | 2020-06-17 | 2020-10-02 | 北京奇艺世纪科技有限公司 | 模型训练方法、目标检测方法、装置、电子设备及可读存储介质 |
CN112036404B (zh) * | 2020-08-31 | 2024-01-02 | 上海大学 | 一种海上船只目标检测方法及系统 |
CN112241700A (zh) * | 2020-10-15 | 2021-01-19 | 希望银蕨智能科技有限公司 | 一种额头精准定位的多目标额温测量方法 |
CN112597837B (zh) | 2020-12-11 | 2024-05-28 | 北京百度网讯科技有限公司 | 图像检测方法、装置、设备、存储介质和计算机程序产品 |
CN112560956A (zh) * | 2020-12-16 | 2021-03-26 | 珠海格力智能装备有限公司 | 目标检测方法及装置、非易失性存储介质、电子设备 |
CN112669282B (zh) * | 2020-12-29 | 2023-02-14 | 燕山大学 | 一种基于深度神经网络的脊柱定位方法 |
CN113052108A (zh) * | 2021-04-01 | 2021-06-29 | 罗普特科技集团股份有限公司 | 基于深度神经网络的多尺度级联航拍目标检测方法和系统 |
CN113254644B (zh) * | 2021-06-07 | 2021-09-17 | 成都数之联科技有限公司 | 模型训练方法及非投诉工单处理方法及系统及装置及介质 |
CN114663594A (zh) * | 2022-03-25 | 2022-06-24 | 中国电信股份有限公司 | 图像特征点检测方法、装置、介质及设备 |
CN117893895A (zh) * | 2024-03-15 | 2024-04-16 | 山东省海洋资源与环境研究院(山东省海洋环境监测中心、山东省水产品质量检验中心) | 一种三疣梭子蟹的识别方法、系统、设备和存储介质 |
CN118675025A (zh) * | 2024-08-21 | 2024-09-20 | 中国科学院自动化研究所 | 基于图像检测器原始输出的图像融合检测方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599939A (zh) * | 2016-12-30 | 2017-04-26 | 深圳市唯特视科技有限公司 | 一种基于区域卷积神经网络的实时目标检测方法 |
CN107220618A (zh) * | 2017-05-25 | 2017-09-29 | 中国科学院自动化研究所 | 人脸检测方法及装置、计算机可读存储介质、设备 |
CN107273836A (zh) * | 2017-06-07 | 2017-10-20 | 深圳市深网视界科技有限公司 | 一种行人检测识别方法、装置、模型和介质 |
CN107463892A (zh) * | 2017-07-27 | 2017-12-12 | 北京大学深圳研究生院 | 一种结合上下文信息和多级特征的图像中行人检测方法 |
US9858496B2 (en) * | 2016-01-20 | 2018-01-02 | Microsoft Technology Licensing, Llc | Object detection and classification in images |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160072676A (ko) * | 2014-12-15 | 2016-06-23 | 삼성전자주식회사 | 객체 검출 장치 및 방법과, 컴퓨터 보조 진단 장치 및 방법 |
-
2018
- 2018-04-04 CN CN201810299489.5A patent/CN108520229B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9858496B2 (en) * | 2016-01-20 | 2018-01-02 | Microsoft Technology Licensing, Llc | Object detection and classification in images |
CN106599939A (zh) * | 2016-12-30 | 2017-04-26 | 深圳市唯特视科技有限公司 | 一种基于区域卷积神经网络的实时目标检测方法 |
CN107220618A (zh) * | 2017-05-25 | 2017-09-29 | 中国科学院自动化研究所 | 人脸检测方法及装置、计算机可读存储介质、设备 |
CN107273836A (zh) * | 2017-06-07 | 2017-10-20 | 深圳市深网视界科技有限公司 | 一种行人检测识别方法、装置、模型和介质 |
CN107463892A (zh) * | 2017-07-27 | 2017-12-12 | 北京大学深圳研究生院 | 一种结合上下文信息和多级特征的图像中行人检测方法 |
Non-Patent Citations (2)
Title |
---|
"Mask R-CNN";Kaiming He等;《2017 IEEE International Conference on Computer Vision》;20171225;全文 * |
"卷积神经网络在图像分类和目标检测应用综述";周俊宇等;《计算机工程与应用》;20171231(第13期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108520229A (zh) | 2018-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108520229B (zh) | 图像检测方法、装置、电子设备和计算机可读介质 | |
US11062123B2 (en) | Method, terminal, and storage medium for tracking facial critical area | |
US10762376B2 (en) | Method and apparatus for detecting text | |
CN109948497B (zh) | 一种物体检测方法、装置及电子设备 | |
CN109815770B (zh) | 二维码检测方法、装置及系统 | |
WO2018108129A1 (zh) | 用于识别物体类别的方法及装置、电子设备 | |
CN109117760B (zh) | 图像处理方法、装置、电子设备和计算机可读介质 | |
US20220254134A1 (en) | Region recognition method, apparatus and device, and readable storage medium | |
CN109343920B (zh) | 一种图像处理方法及其装置、设备和存储介质 | |
CN112200081A (zh) | 异常行为识别方法、装置、电子设备及存储介质 | |
CN108229418B (zh) | 人体关键点检测方法和装置、电子设备、存储介质和程序 | |
CN110853033A (zh) | 基于帧间相似度的视频检测方法和装置 | |
CN108564102A (zh) | 图像聚类结果评价方法和装置 | |
CN109598298B (zh) | 图像物体识别方法和系统 | |
US20240312252A1 (en) | Action recognition method and apparatus | |
CN112926564B (zh) | 图片分析方法、系统、计算机设备和计算机可读存储介质 | |
WO2023279847A1 (zh) | 单元格位置的检测方法、装置和电子设备 | |
CN113706481A (zh) | 精子质量检测方法、装置、计算机设备和存储介质 | |
CN113780145A (zh) | 精子形态检测方法、装置、计算机设备和存储介质 | |
CN109977875A (zh) | 基于深度学习的手势识别方法及设备 | |
CN111080697B (zh) | 检测目标对象方向的方法、装置、计算机设备和存储介质 | |
CN115545103A (zh) | 异常数据识别、标签识别方法和异常数据识别装置 | |
CN113538291A (zh) | 卡证图像倾斜校正方法、装置、计算机设备和存储介质 | |
CN113537158B (zh) | 一种图像目标检测方法、装置、设备及存储介质 | |
CN114092746A (zh) | 一种多属性识别方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |