CN111695380A - 目标检测方法及装置 - Google Patents

目标检测方法及装置 Download PDF

Info

Publication number
CN111695380A
CN111695380A CN201910190044.8A CN201910190044A CN111695380A CN 111695380 A CN111695380 A CN 111695380A CN 201910190044 A CN201910190044 A CN 201910190044A CN 111695380 A CN111695380 A CN 111695380A
Authority
CN
China
Prior art keywords
target
detection
feature map
target detection
detection result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910190044.8A
Other languages
English (en)
Other versions
CN111695380B (zh
Inventor
李明键
王杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hikvision Digital Technology Co Ltd
Original Assignee
Hangzhou Hikvision Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hikvision Digital Technology Co Ltd filed Critical Hangzhou Hikvision Digital Technology Co Ltd
Priority to CN201910190044.8A priority Critical patent/CN111695380B/zh
Publication of CN111695380A publication Critical patent/CN111695380A/zh
Application granted granted Critical
Publication of CN111695380B publication Critical patent/CN111695380B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种目标检测方法及装置。本发明实施例中,通过从输入图像中提取通用特征;从通用特征中提取区别特征,并基于提取到的区别特征进行不同形变的目标检测,得到对应不同形变的多个第一目标检测结果;对得到的多个第一目标检测结果进行融合处理,得到第二目标检测结果,在提取通用特征的基础上,针对不同形变进行不同的特异性目标检测,最后将多个特异性目标检测结果融合得到最终检测结果。由于每种形变的目标检测能够获得该形变对应的特定形状范围内的精确目标检测结果,因此融合后能够得到在整个形状变化范围内具有较好检测效果的整体目标检测结果,提高了形状变化范围较大目标的检测准确率。

Description

目标检测方法及装置
技术领域
本发明涉及图像检测技术领域,尤其涉及一种目标检测方法及装置。
背景技术
目标检测(Object Detection)是指从输入图像中检测出目标的位置和分类。当前,基于图像的目标检测技术的应用范围也越来越广。在实际场景中,由于图像数据的采集方式、位置等条件不同,以及目标本身的形状变化较大,常常导致采集到的图像数据中待检测目标的形状(如大小、长宽比、旋转角度等)变化范围较大。例如,输入图像中既包括非常大的目标,也包括非常小的目标,既包括长度远大于宽度的目标,也包括长度远小于宽度的目标等。
相关技术只对一定形状变化范围内的图像的目标检测效果好,对这类形状变化范围较大的图像,检测效果较差。
发明内容
为克服相关技术中存在的问题,本发明提供了一种目标检测方法及装置。
根据本发明实施例的第一方面,提供一种目标检测方法,所述方法包括:
从输入图像中提取通用特征;
从所述通用特征中提取区别特征,并基于提取到的区别特征进行不同形变的目标检测,得到对应不同形变的多个第一目标检测结果;
对得到的所述多个第一目标检测结果进行融合处理,得到第二目标检测结果。
根据本发明实施例的第二方面,提供一种目标检测装置,所述装置包括:
通用特征提取模块,用于从输入图像中提取通用特征;
特异检测模块,用于从所述通用特征中提取区别特征,并基于提取到的区别特征进行不同形变的目标检测,得到对应不同形变的多个第一目标检测结果;
融合模块,用于对得到的所述多个第一目标检测结果进行融合处理,得到第二目标检测结果。
本发明的实施例提供的技术方案可以包括以下有益效果:
本发明实施例中,通过从输入图像中提取通用特征;从通用特征中提取区别特征,并基于提取到的区别特征进行不同形变的目标检测,得到对应不同形变的多个第一目标检测结果;对得到的多个第一目标检测结果进行融合处理,得到第二目标检测结果,在提取通用特征的基础上,针对不同形变进行不同的特异性目标检测,最后将多个特异性目标检测结果融合得到最终检测结果。由于每种形变的目标检测能够获得该形变对应的特定形状范围内的精确目标检测结果,因此融合后能够得到在整个形状变化范围内具有较好检测效果的整体目标检测结果,提高了形状变化范围较大目标的检测准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本发明的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是本发明实施例提供的目标检测方法的应用场景示例图。
图2是本发明实施例提供的目标检测方法的流程示例图。
图3是本发明实施例提供的目标检测过程示例图。
图4是本发明实施例提供的目标检测装置的功能方块图。
图5是本发明实施例提供的目标检测设备的一个硬件结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
接下来对本发明实施例进行详细说明。
应用本发明实施例提供的目标检测方法,可以对形状不定的目标进行检测。
例如,在一个场景中,对形状不定的目标进行检测可以具体为对自身形状姿态不定的目标进行检测,例如文本检测、航拍图像目标检测等。
在另一个场景中,对形状不定的目标进行检测,可以具体为对形状迥异的多个目标或多个类别的目标进行检测,例如同时检测行人和车辆。
图1是本发明实施例提供的目标检测方法的应用场景示例图。如图1所示,图像采集设备采集包括形状不定的目标的图像,将采集到的图像作为目标检测设备的输入图像输入到目标检测设备中,目标检测设备采用本发明实施例提供的目标检测方法检测图像中的目标,输出目标的位置信息和分类信息。
需要说明的是,图1中的图像采集设备和目标检测设备可以为两个独立设备,也可以集成为同一个设备。
图2是本发明实施例提供的目标检测方法的流程示例图。如图2所示,该方法可以包括以下步骤:
S201,从输入图像中提取通用特征。
S202,从通用特征中提取区别特征,并基于提取到的区别特征进行不同形变的目标检测,得到对应不同形变的多个第一目标检测结果;
S203,对得到的多个第一目标检测结果进行融合处理,得到第二目标检测结果。
在步骤S201中,通用特征是表示输入图像的原有信息的一般性特征。例如,输入图像为车辆图像,则从该车辆图像中提取出的通用特征能够表示出这是一辆车。
在步骤S202中,区别特征是表示输入图像的原有信息、并且与输入图像中的目标相比于真实的目标发生的具体形变对应的特异性特征。
举例说明。车辆图像1和车辆图像2中的目标为同一辆车,车辆图像1中,车辆发生了长宽比变化的形变,车辆图像2中,车辆发生了旋转(角度变化)的形变。从车辆图像1和车辆图像2中提取的通用特征,能够表示图像中的目标是一辆车,但不与具体形变对应。而从车辆图像1和车辆图像2的各自通用特征中提取的区别特征,不仅能够表示图像中的目标是一辆车,而且还与图像中车辆与实际车辆相比发生的具体形变对应。车辆图像1的区别特征与长宽比变化这种形变对应,车辆图像2的区别特征与角度变化这种形变对应。
基于提取到的区别特征进行不同形变的目标检测,使得在每个形变的目标检测中,对于具有相同形变的区别特征的目标,能够获得更精确的检测结果,从而多个不同形变的目标检测,能够针对多个不同形变分别获得更精确的检测结果。
接上例中的车辆图像1和车辆图像2。在获得车辆图像1的区别特征和车辆图像2的区别特征后,将两个区别特征都送入两个检测通道:检测通道1和检测通道2。检测通道1对应的形变是长宽比变化,检测通道2对应的形变是角度变化。车辆图像1的区别特征经检测通道1检测得到检测结果11,车辆图像1的区别特征经检测通道2检测得到检测结果12;车辆图像2的区别特征经检测通道1检测得到检测结果21,车辆图像2的区别特征经检测通道2检测得到检测结果22。对于车辆图像1,检测通道1输出的检测结果11的精度高于检测通道2输出的检测结果12的精度。对于车辆图像2,检测通道2输出的检测结果22的精度高于检测通道1输出的检测结果21的精度。
在步骤S203中,对得到的多个第一目标检测结果进行融合处理的目的是,从同一目标的多个检测结果中找出精度最高的检测结果,最为该目标的最终检测结果。
接上例。对于车辆图像1,对检测结果11和检测结果12进行融合处理,融合处理的结果为检测结果11。对于车辆图像2,对检测结果21和检测结果22进行融合处理,融合处理的结果为检测结果22。如此,对于不同形变的目标,都获得了精度高的检测结果。
需要说明的是,尽管上述示例中不同形变的目标为同一目标,但本发明实施例的方案也同样适用于不同形变的不同目标。本发明实施例并不限制发生形变的是否是相同目标。
需要说明的是,尽管上述示例中仅列举了两种不同形变的情况,但本发明实施例的方案也同样适用于更多种形变的情况,本发明实施例对于不同形变的数量不作限制。
图2所示实施例,通过从输入图像中提取通用特征;从通用特征中提取区别特征,并基于提取到的区别特征进行不同形变的目标检测,得到对应不同形变的多个第一目标检测结果;对得到的多个第一目标检测结果进行融合处理,得到第二目标检测结果,在提取通用特征的基础上,针对不同形变进行不同的特异性目标检测,最后将多个特异性目标检测结果融合得到最终检测结果。由于每种形变的目标检测能够获得该形变对应的特定形状范围内的精确目标检测结果,因此融合后能够得到在整个形状变化范围内具有较好检测效果的整体目标检测结果,提高了形状变化范围较大目标的检测准确率。
在一个示例性的实现过程中,步骤S201包括:对输入图像进行特征提取,得到第一特征图;步骤S202包括:将第一特征图分别输入多个不同检测分支中的每个检测分支;在每个检测分支,对第一特征图针对本检测分支对应的形变进行特征变换,得到第二特征图,基于第二特征图进行目标检测,得到第一目标检测结果;步骤S203包括:对多个不同检测分支的第一目标检测结果进行融合处理,得到第二目标检测结果。
在本示例中,将目标形状变化的范围细分为多个更小的形变范围,针对每个更小的形变范围利用特定的检测分支进行目标检测,获得该形变对应的特定形状范围内的精确目标检测结果,再将所有检测分支的目标检测结果融合,从而能够得到在整个形状变化范围内具有较好检测效果的整体目标检测结果,提高了形状变化范围较大目标的检测准确率。
在一个例子中,对输入图像进行特征提取,得到第一特征图,可以包括:利用预设的卷积神经网络模型对输入图像进行特征提取,得到第一特征图。
此处,预设的卷积神经网络模型可以是任何能够从图像中提取特征的卷积神经网络模型,例如VGG(Visual Geometry Group,视觉几何组)网络模型、Resnet(残差网络)模型、GoogleNet(一种深度学习卷积神经网络结构)网络模型、Inception(一种深度学习卷积神经网络结构)网络模型等。
第一特征图的数据量小于输入图像的数据量,其数据量通常是输入图像的1/16或1/64甚至更小。
多个不同检测分支中的每一个检测分支用于针对一种特定形状的目标进行特异性检测。多个不同检测分支分别针对不同形状的目标进行特异性检测。
例如,在一个例子中,有三个检测分支。其中,第一个检测分支针对尺寸变化的目标进行检测,第二个检测分支针对长宽比变化的目标进行检测,第三个检测分支针对旋转角度变化的目标进行检测。
其中,形变可以是尺寸变化、长宽比变化、旋转角度变化等。在一个例子中,将第一特征图直接输出为第二特征图可以看作是一种特殊的特征变换,即不进行任何变换。
每一个检测分支的第二特征图都是针对本检测分支对应的形变进行特征变换得到的,该特征变换使得第二特征图包括适用于检测本检测分支对应的形变目标的特异性特征,基于该特异性特征进行目标检测,能够提高对本检测分支对应的形变目标的检测准确率。
例如,当输入图像同时包括尺寸变化大的第一目标、长宽比变化大的第二目标和旋转角度变化大的第三目标时,对应形变为尺寸变化的检测分支能够准确地检测出第一目标,对应形变为长宽比变化的检测分支能够准确地检测出第二目标,对应形变为旋转角度变化的检测分支能够准确地检测出第三目标。这样,对所有检测分支的检测结果进行步骤S204的融合处理后,就能够获得对输入图像的整体良好的检测效果。
其中,形状变化范围较大的目标可以是同一种目标,也可以是不同的目标。
例如,在一个例子中,输入图像可以同时包括尺寸变化大的目标a、长宽比变化大的目标b和旋转角度变化大的目标c。在另一个例子中,输入图像可以同时包括尺寸变化大的目标a、长宽比变化大的目标a和旋转角度变化大的目标a。
其中,第二特征图的数据量可以与第一特征图的数据量相同,也可以少于第一特征图的数据量。这样,由于基于第二特征图进行的目标检测处理的数据量小,因此占用资源少,并且耗时少,使得本发明实施例的方案能够适用于对性能要求比较严格的场景。
在一个示例性的实现过程中,对多个不同检测分支的第一目标检测结果进行融合处理,得到第二目标检测结果,可以包括:
基于预设的融合算法,从多个不同检测分支的第一目标检测结果中选取各个目标的最优检测结果;
根据选取的各个目标的最优检测结果,生成第二目标检测结果。
例如,假设总共有3个目标:目标a、目标b、目标c,三个检测分支获得的第一目标检测结果分别是:
第一检测分支:a1、b1、c1;
第二检测分支:a2、b2、c2;
第三检测分支:a3、b3、c3;
对于目标a来说,最优检测结果是a2,对于目标b来说,最优检测结果是b3,对于目标c来说,最优检测结果是c1,则融合后目标a、目标b、目标c对应的第二目标检测结果是:a2、b3、c1。
其中,融合算法可以是任意一种能够用于目标检测结果融合的算法,例如NMS(Non-Maximum Suppression,非极大值抑制)算法。
NMS算法的原理是:
1.将所有检测结果的得分进行排序,选中最高得分及其对应的检测结果;
2.遍历其余的检测结果,如果该检测结果和当前最高得分检测结果的重叠面积大于预设阈值,则将该检测结果删除;
3.从未处理的检测结果中继续选一个得分最高的检测结果,重复上述步骤2。
例如,上述示例中,对于目标a,三个检测分支获得的第一目标检测结果分别是:a1、a2、a3。每个检测结果都对应一个类别值,该类别值为检测结果对应的得分。a1对应类别值S1,a2对应类别值S2,a3对应类别值S3。三个类别值之间的关系如下:
S2>S3>S1
从类别值最大的检测结果a2开始,获取a2与类别值次大的检测结果a3的重叠程度,如果a2与a3的重叠程度大于预设阈值,则舍弃a3,保留a2;
从除a2、a3外的剩余检测结果(即未处理的检测结果)中,选择类别值最大的检测结果,本例中为a1;
获取a2与a1的重叠程度,如果a2与a1的重叠程度大于预设阈值,则舍弃a1,保留a2。
如果a1之后,目标a还有其他检测结果(这些检测结果的类别值都小于S1),则根据类别值由大到小的顺序,重复上述重叠程度的判断,直到最终剩余一个检测结果,该检测结果即为目标a的融合处理的结果。
同理,对于目标b和目标c,也分别采用上述目标a的融合方式进行融合处理,得到融合结果。
由于每一个检测分支针对一种特定形状的目标进行特异性检测,因此,每个检测分支都能够精确地检测一种特定形状范围内的目标,而第二目标检测结果是对多个检测分支的第一目标检测结果进行融合处理得到的,因此融合后得到的第二目标检测结果,对形状变化范围较大的目标具有整体优良的检测效果。
举例说明。当所有检测分支包括针对尺寸变化的目标进行检测的第一检测分支、针对长宽比变化的目标进行检测的第二检测分支、针对旋转角度变化的目标进行检测的第三检测分支时,融合后的检测结果对于包括尺寸变化、长宽比变化和旋转角度变化的目标具有较好的检测效果。
下面针对步骤S203进行详细说明。
在一个示例性的实现过程中,对第一特征图针对本检测分支对应的形变进行特征变换,得到第二特征图,可以包括:
根据本检测分支对应的形变,确定与该形变对应的图像处理方式;
利用确定的图像处理方式对第一特征图进行图像处理,得到第二特征图,第二特征图包括适用于指定形状目标检测的特征,其中,指定形状目标为具有该形变的目标。
其中,与形变对应的图像处理方式可以是用于使具有该形变的目标变换为无形变目标的图像处理方式。举例说明。
在一个示例中,形变为尺寸变化,与该形变对应的图像处理方式可以是如下操作中的一种:
与尺寸对应的池化Pool操作;
步长为1的空洞卷积操作和Pool操作;
步长为N的空洞卷积操作,N为大于1的自然数。
相应地,利用确定的图像处理方式对第一特征图进行图像处理,可以包括如下操作中的一种:
对第一特征图进行与尺寸对应的池化Pool操作;
对第一特征图进行步长为1的空洞卷积操作,对该空洞卷积操作的结果进行Pool操作;
对第一特征图进行步长为N的空洞卷积操作,N为大于1的自然数。
例如,如果目标的正常尺寸为2×1,第一特征图中目标的尺寸为4×2,那么可对第一特征图采用2×2的池化窗口进行池化Pool操作。如果目标的正常尺寸为2×1,第一特征图中目标的尺寸为6×3,那么可对第一特征图采用3×3的池化窗口进行池化Pool操作。通过池化操作,能够获得语义信息接近但感受野不同的特征,有利于不同尺寸目标的检测。
在另一个示例中,形变为长宽比变化,与该形变对应的图像处理方式可以是:与长宽比对应的池化Pool操作和空洞卷积操作。
相应地,利用确定的图像处理方式对第一特征图进行图像处理,可以包括:
对第一特征图进行与长宽比对应的池化Pool操作,对Pool操作的结果进行空洞卷积操作。
对第一特征图进行与长宽比对应的池化Pool操作,能够得到长宽比自适用的特征,用该长宽比自适用的特征来检测不同长宽比的目标,能够使得检测结果更加准确。
例如,在长宽比1:2的检测分支中,可以对第一特征图采用1:2长宽比的池化操作。这样对于第一特征图中长宽比为1:2的目标,将转换为长宽比为1:1的目标。
在另一个示例中,形变为旋转角度变化,与该形变对应的图像处理方式可以是如下操作中的一种:
向指定方向旋转预设角度;
与预设的带旋转的卷积核进行卷积操作。
相应地,利用确定的图像处理方式对第一特征图进行图像处理,可以包括:如下操作中的一种:
将第一特征图向指定方向旋转预设角度;
将第一特征图与预设的带旋转的卷积核进行卷积操作。
在一个示例中,同一目标的不同形变的变体在对应检测分支的第二特征图中的尺寸相同。此时,所有检测分支的目标检测可以使用相同的卷积参数,例如,所有检测分支的目标检测可以共享同一个卷积核。
本示例中,由于第一特征图经过多个检测分支的特征变换,能够得到多个第二特征图,而同一目标的不同形变的变体在对应检测分支的第二特征图中的尺寸相同、且所有检测分支的目标检测具有相同的卷积参数的情况下,所有第二特征图都能够作为样本数据对卷积参数进行训练,因此相当于增加了样本数据,从而能够提高卷积参数的训练效果,使得卷积参数更为精确。进而,卷积参数的精确度提升又能够提高每一个检测分支的目标检测准确率,从而使得整体检测效果更好。
在其它示例中,同一目标的不同形变的变体在对应检测分支的第二特征图中的尺寸也可以不同。
在前述基础上,在一个示例性的实现过程中,基于第二特征图进行目标检测,得到第一目标检测结果,可以包括:
确定与指定形状目标对应的卷积神经网络子模型;
利用确定的卷积神经网络子模型对第二特征图进行处理,获得目标位置信息和分类信息;
根据目标位置信息和分类信息,生成第一目标检测结果。
卷积神经网络子模型可以是预先训练好的。
与指定形状目标对应的卷积神经网络子模型能够对指定形状目标进行精确的检测,提高指定形状目标的检测精度。
例如,利用大量的尺寸变化的目标图像和其对应的已知检测结果作为训练数据,对卷积神经网络模型进行训练,则训练后得到的卷积神经网络模型能够精确地检测尺寸变化的目标。而利用大量的长宽比变化的目标图像和其对应的已知检测结果作为训练数据,对卷积神经网络模型进行训练,则训练后得到的卷积神经网络模型能够精确地检测长宽比变化的目标。
在一个示例性的实现过程中,利用确定的卷积神经网络子模型对第二特征图进行处理之前,还可以包括:利用本检测分支对应的附加网络模型,对第二特征图进行处理,得到第三特征图;利用确定的卷积神经网络子模型对第二特征图进行处理,包括:利用确定的卷积神经网络子模型对第三特征图进行处理。
例如,对于尺寸大的目标,附加网络模型可以是5*5或者7*7卷积的卷积模型,以增大感受野。
对于长宽比变化较大的目标,附加网络模型可以是5*1和1*5并行卷积然后相加的算法模型,以增加对目标长宽比变化的鲁棒性。
下面通过一个示例,对本发明实施例提供的目标检测方法作进一步详细说明。
图3是本发明实施例提供的目标检测过程示例图。请参见图3,本示例中,目标检测过程如下:对输入图像A、B、C、D利用主干网络进行特征提取,得到第一特征图A1、B1、C1和D1;当用长×宽表示图的尺寸时,第一特征图A1中目标的尺寸为4×2(即长为4,宽为2),第一特征图B1中目标的尺寸为2×1,第一特征图C1中目标的尺寸为4×1,第一特征图D1中目标的尺寸为1×2。
在第一检测分支中,对第一特征图A1、B1、C1和D1利用2×2的池化窗口进行池化操作后,再利用特异形状目标检测1的检测方式进行目标检测,对得到检测结果1;其中,对第一特征图A1利用2×2的池化窗口进行池化操作后,得到第二特征图A2,检测结果1针对第二特征图A2的目标检测的精度最高;
在第二检测分支中,对第一特征图A1、B1、C1和D1直接输出后,再利用特异形状目标检测2的检测方式进行目标检测,对得到检测结果2;其中,将第一特征图B1直接输出为第二特征图B2,检测结果2针对第二特征图B2的目标检测的精度最高;
在第三检测分支中,对第一特征图A1、B1、C1和D1利用1×2的池化窗口进行池化操作后,再利用特异形状目标检测3的检测方式进行目标检测,对得到检测结果3;其中,对第一特征图C1利用1×2的池化窗口进行池化操作后,得到第二特征图C2,检测结果3针对第二特征图C2的目标检测的精度最高;
在第四检测分支中,将第一特征图A1、B1、C1和D1顺时针旋转90度后,利用特异形状目标检测4的检测方式进行目标检测,得到检测结果4;其中,将第一特征图D1顺时针旋转90度后,得到第二特征图D2,检测结果4针对第二特征图D2的目标检测的精度最高;
对检测结果1、检测结果2、检测结果3和检测结果4进行融合处理,得到最终的检测结果。
其中,由于第二特征图A2、第二特征图B2、第二特征图C2和第二特征图D2中目标的尺寸相同(均为2×1),因此在各个检测分支的目标检测中,可以共享卷积核。
本发明实施例提供的目标检测方法,具有如下有益效果:
一是,通过将目标形状变化的范围细分为多个更小的形变范围,针对每个更小的形变范围利用特定的检测分支进行目标检测,获得该形变对应的特定形状范围内的精确目标检测结果,再将所有检测分支的目标检测结果融合,从而能够得到在整个形状变化范围内具有较好检测效果的整体目标检测结果,提高了形状变化范围较大目标的检测准确率,并且提升了网络的泛化能力。
二是,每个检测分支使用数据量小的特征图进行目标检测,相比于使用对原始输入图像直接进行形变得到的图像进行目标检测,大大减少了处理的数据量,因此减少了资源占用和耗时,提高了处理速度。
三是,由于各个检测分支之间互相独立,因此相互影响小,从而进一步提高了检测准确率。
四是,在所有检测分支的第二特征图中的目标尺寸相同的情况下,所有检测分支的特异形状目标检测可以共享相同的卷积参数,多个检测分支相当于成倍增加了样本数据,能够提高卷积参数的训练效果,使得卷积参数更加精确。进而,卷积参数的精确度提升又能够提高每一个检测分支的目标检测准确率,从而使得整体检测效果更好。
基于上述的目标检测方法实施例,本发明实施例还提供了相应的装置、设备及存储介质实施例。
图4是本发明实施例提供的目标检测装置的功能方块图。如图4所示,本实施例中,目标检测装置可以包括:
通用特征提取模块410,用于从输入图像中提取通用特征;
特异检测模块420,用于从通用特征中提取区别特征,并基于提取到的区别特征进行不同形变的目标检测,得到对应不同形变的多个第一目标检测结果;
融合模块430,用于对得到的多个第一目标检测结果进行融合处理,得到第二目标检测结果。
在一个示例性的实现过程中,通用特征提取模块410,具体用于利用预设的卷积神经网络模型对输入图像进行特征提取,得到第一特征图;
特异检测模块420,具体用于将第一特征图分别输入多个不同检测分支中的每个检测分支;在每个检测分支,对第一特征图针对本检测分支对应的形变进行特征变换,得到第二特征图,基于第二特征图进行目标检测,得到第一目标检测结果;
融合模块430,具体用于对多个不同检测分支的第一目标检测结果进行融合处理,得到第二目标检测结果。
在一个示例性的实现过程中,特异检测模块420在用于对第一特征图针对本检测分支对应的形变进行特征变换,得到第二特征图时,可以具体用于:
根据本检测分支对应的形变,确定与形变对应的图像处理方式;
利用确定的图像处理方式对第一特征图进行图像处理,得到第二特征图,第二特征图包括适用于指定形状目标检测的特征,指定形状目标为具有形变的目标。
在一个示例性的实现过程中,特异检测模块420在用于基于第二特征图进行目标检测,得到第一目标检测结果时,可以具体用于:
确定与指定形状目标对应的卷积神经网络子模型;
利用确定的卷积神经网络子模型对第二特征图进行处理,获得目标位置信息和分类信息;
根据目标位置信息和分类信息,生成第一目标检测结果。
在一个示例性的实现过程中,特异检测模块420还用于:
利用本检测分支对应的附加网络模型,对第二特征图进行处理,得到第三特征图;
特异检测模块420在用于利用确定的卷积神经网络子模型对第二特征图进行处理时,具体用于:利用确定的卷积神经网络子模型对第三特征图进行处理。
在一个示例性的实现过程中,融合模块430可以具体用于:
基于预设的融合算法,从多个不同检测分支的第一目标检测结果中选取各个目标的最优检测结果;
根据选取的各个目标的最优检测结果,生成第二目标检测结果。
本发明实施例还提供了一种目标检测设备。图5是本发明实施例提供的目标检测设备的一个硬件结构图。如图5所示,目标检测设备包括:内部总线501,以及通过内部总线连接的存储器502,处理器503和外部接口504,其中,
所述处理器503,用于读取存储器502上的机器可读指令,并执行所述指令以实现如下操作:
从输入图像中提取通用特征;
从通用特征中提取区别特征,并基于提取到的区别特征进行不同形变的目标检测,得到对应不同形变的多个第一目标检测结果;
对得到的多个第一目标检测结果进行融合处理,得到第二目标检测结果。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有若干计算机指令,所述计算机指令被执行时进行如下处理:
从输入图像中提取通用特征;
从通用特征中提取区别特征,并基于提取到的区别特征进行不同形变的目标检测,得到对应不同形变的多个第一目标检测结果;
对得到的多个第一目标检测结果进行融合处理,得到第二目标检测结果。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述对本发明特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本领域技术人员在考虑说明书及实践这里申请的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种目标检测方法,其特征在于,所述方法包括:
从输入图像中提取通用特征;
从所述通用特征中提取区别特征,并基于提取到的区别特征进行不同形变的目标检测,得到对应不同形变的多个第一目标检测结果;
对得到的所述多个第一目标检测结果进行融合处理,得到第二目标检测结果。
2.根据权利要求1所述的方法,其特征在于,
所述从输入图像中提取通用特征,包括:
对输入图像进行特征提取,得到第一特征图;
所述从所述通用特征中提取区别特征,并基于提取到的区别特征进行不同形变的目标检测,得到对应不同形变的多个第一目标检测结果,包括:
将所述第一特征图分别输入多个不同检测分支中的每个检测分支;
在每个所述检测分支,对所述第一特征图针对本检测分支对应的形变进行特征变换,得到第二特征图,基于所述第二特征图进行目标检测,得到第一目标检测结果;
所述对得到的所述多个第一目标检测结果进行融合处理,得到第二目标检测结果,包括:
对所述多个不同检测分支的第一目标检测结果进行融合处理,得到第二目标检测结果。
3.根据权利要求2所述的方法,其特征在于,对所述第一特征图针对本检测分支对应的形变进行特征变换,得到第二特征图,包括:
根据本检测分支对应的形变,确定与所述形变对应的图像处理方式;
利用确定的图像处理方式对所述第一特征图进行图像处理,得到第二特征图,所述第二特征图包括适用于指定形状目标检测的特征,所述指定形状目标为具有所述形变的目标。
4.根据权利要求3所述的方法,其特征在于,基于所述第二特征图进行目标检测,得到第一目标检测结果,包括:
确定与所述指定形状目标对应的卷积神经网络子模型;
利用确定的卷积神经网络子模型对所述第二特征图进行处理,获得目标位置信息和分类信息;
根据所述目标位置信息和分类信息,生成第一目标检测结果。
5.根据权利要求4所述的方法,其特征在于,利用确定的卷积神经网络子模型对所述第二特征图进行处理之前,还包括:
利用本检测分支对应的附加网络模型,对第二特征图进行处理,得到第三特征图;
利用确定的卷积神经网络子模型对所述第二特征图进行处理,包括:利用确定的卷积神经网络子模型对所述第三特征图进行处理。
6.根据权利要求2~5任一项所述的方法,其特征在于,对所述多个不同检测分支的第一目标检测结果进行融合处理,得到第二目标检测结果,包括:
基于预设的融合算法,从所述多个不同检测分支的第一目标检测结果中选取各个目标的最优检测结果;
根据选取的各个目标的最优检测结果,生成第二目标检测结果。
7.一种目标检测装置,其特征在于,所述装置包括:
通用特征提取模块,用于从输入图像中提取通用特征;
特异检测模块,用于从所述通用特征中提取区别特征,并基于提取到的区别特征进行不同形变的目标检测,得到对应不同形变的多个第一目标检测结果;
融合模块,用于对得到的所述多个第一目标检测结果进行融合处理,得到第二目标检测结果。
8.根据权利要求7所述的装置,其特征在于,
所述通用特征提取模块,具体用于对输入图像进行特征提取,得到第一特征图;
所述特异检测模块,具体用于将所述第一特征图分别输入多个不同检测分支中的每个检测分支;在每个所述检测分支,对所述第一特征图针对本检测分支对应的形变进行特征变换,得到第二特征图,基于所述第二特征图进行目标检测,得到第一目标检测结果;
所述融合模块,具体用于对所述多个不同检测分支的第一目标检测结果进行融合处理,得到第二目标检测结果。
9.根据权利要求8所述的装置,其特征在于,所述特异检测模块在用于对所述第一特征图针对本检测分支对应的形变进行特征变换,得到第二特征图时,具体用于:
根据本检测分支对应的形变,确定与所述形变对应的图像处理方式;
利用确定的图像处理方式对所述第一特征图进行图像处理,得到第二特征图,所述第二特征图包括适用于指定形状目标检测的特征,所述指定形状目标为具有所述形变的目标。
10.根据权利要求9所述的装置,其特征在于,所述特异检测模块在用于基于所述第二特征图进行目标检测,得到第一目标检测结果时,具体用于:
确定与所述指定形状目标对应的卷积神经网络子模型;
利用确定的卷积神经网络子模型对所述第二特征图进行处理,获得目标位置信息和分类信息;
根据所述目标位置信息和分类信息,生成第一目标检测结果。
CN201910190044.8A 2019-03-13 2019-03-13 目标检测方法及装置 Active CN111695380B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910190044.8A CN111695380B (zh) 2019-03-13 2019-03-13 目标检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910190044.8A CN111695380B (zh) 2019-03-13 2019-03-13 目标检测方法及装置

Publications (2)

Publication Number Publication Date
CN111695380A true CN111695380A (zh) 2020-09-22
CN111695380B CN111695380B (zh) 2023-09-26

Family

ID=72475722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910190044.8A Active CN111695380B (zh) 2019-03-13 2019-03-13 目标检测方法及装置

Country Status (1)

Country Link
CN (1) CN111695380B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341517A (zh) * 2017-07-07 2017-11-10 哈尔滨工业大学 一种基于深度学习层级间特征融合的多尺度小物体检测方法
CN108416327A (zh) * 2018-03-28 2018-08-17 京东方科技集团股份有限公司 一种目标检测方法、装置、计算机设备及可读存储介质
CN108446694A (zh) * 2017-02-16 2018-08-24 杭州海康威视数字技术股份有限公司 一种目标检测方法及装置
CN108564097A (zh) * 2017-12-05 2018-09-21 华南理工大学 一种基于深度卷积神经网络的多尺度目标检测方法
CN108681695A (zh) * 2018-04-26 2018-10-19 北京市商汤科技开发有限公司 视频动作识别方法及装置、电子设备和存储介质
CN108764133A (zh) * 2018-05-25 2018-11-06 北京旷视科技有限公司 图像识别方法、装置及系统
CN109145769A (zh) * 2018-08-01 2019-01-04 辽宁工业大学 融合图像分割特征的目标检测网络设计方法
CN109145927A (zh) * 2017-06-16 2019-01-04 杭州海康威视数字技术股份有限公司 一种对形变图像的目标识别方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446694A (zh) * 2017-02-16 2018-08-24 杭州海康威视数字技术股份有限公司 一种目标检测方法及装置
CN109145927A (zh) * 2017-06-16 2019-01-04 杭州海康威视数字技术股份有限公司 一种对形变图像的目标识别方法及装置
CN107341517A (zh) * 2017-07-07 2017-11-10 哈尔滨工业大学 一种基于深度学习层级间特征融合的多尺度小物体检测方法
CN108564097A (zh) * 2017-12-05 2018-09-21 华南理工大学 一种基于深度卷积神经网络的多尺度目标检测方法
CN108416327A (zh) * 2018-03-28 2018-08-17 京东方科技集团股份有限公司 一种目标检测方法、装置、计算机设备及可读存储介质
CN108681695A (zh) * 2018-04-26 2018-10-19 北京市商汤科技开发有限公司 视频动作识别方法及装置、电子设备和存储介质
CN108764133A (zh) * 2018-05-25 2018-11-06 北京旷视科技有限公司 图像识别方法、装置及系统
CN109145769A (zh) * 2018-08-01 2019-01-04 辽宁工业大学 融合图像分割特征的目标检测网络设计方法

Also Published As

Publication number Publication date
CN111695380B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN107301383B (zh) 一种基于Fast R-CNN的路面交通标志识别方法
CN111160375B (zh) 三维关键点预测及深度学习模型训练方法、装置及设备
US9619733B2 (en) Method for generating a hierarchical structured pattern based descriptor and method and device for recognizing object using the same
CN111179419B (zh) 三维关键点预测及深度学习模型训练方法、装置及设备
US20210081695A1 (en) Image processing method, apparatus, electronic device and computer readable storage medium
CN111881707B (zh) 图像翻拍检测方法、身份验证方法、模型训练方法及装置
CN110598788B (zh) 目标检测方法、装置、电子设备及存储介质
Wang et al. Spatial attention for multi-scale feature refinement for object detection
CN111046971A (zh) 图像识别方法、装置、设备及计算机可读存储介质
CN110555340B (zh) 神经网络计算方法和系统及相应的双神经网络实现
US9323989B2 (en) Tracking device
CN111738270B (zh) 模型生成方法、装置、设备和可读存储介质
CN114331946B (zh) 一种图像数据处理方法、设备以及介质
US20230401691A1 (en) Image defect detection method, electronic device and readable storage medium
CN111241924A (zh) 基于尺度估计的人脸检测及对齐方法、装置、存储介质
CN111539456B (zh) 一种目标识别方法及设备
CN111797971A (zh) 应用卷积神经网络进行数据处理的方法、装置和电子系统
CN111144425B (zh) 检测拍屏图片的方法、装置、电子设备及存储介质
CN110135428B (zh) 图像分割处理方法和装置
CN110751061B (zh) 基于sar网络的sar图像识别方法、装置、设备和存储介质
CN117765363A (zh) 一种基于轻量型记忆库的图像异常检测方法及系统
CN117079265A (zh) 单目3d目标检测的开放集领域泛化的方法、装置及设备
CN115223002B (zh) 模型训练方法、开门动作检测方法、装置以及计算机设备
CN116342955A (zh) 一种基于改进的特征金字塔网络的目标检测方法及系统
CN111695380B (zh) 目标检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant