CN111460958A - 一种物体检测器构建、物体检测方法及系统 - Google Patents

一种物体检测器构建、物体检测方法及系统 Download PDF

Info

Publication number
CN111460958A
CN111460958A CN202010223765.7A CN202010223765A CN111460958A CN 111460958 A CN111460958 A CN 111460958A CN 202010223765 A CN202010223765 A CN 202010223765A CN 111460958 A CN111460958 A CN 111460958A
Authority
CN
China
Prior art keywords
network
head
object detector
backbone network
search space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010223765.7A
Other languages
English (en)
Other versions
CN111460958B (zh
Inventor
彭杰锋
龚科
梁小丹
王广润
林倞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DMAI Guangzhou Co Ltd
Original Assignee
DMAI Guangzhou Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DMAI Guangzhou Co Ltd filed Critical DMAI Guangzhou Co Ltd
Priority to CN202010223765.7A priority Critical patent/CN111460958B/zh
Publication of CN111460958A publication Critical patent/CN111460958A/zh
Application granted granted Critical
Publication of CN111460958B publication Critical patent/CN111460958B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种物体检测器构建、物体检测方法及系统,其中物体检测器构建方法包括:构建主干网络的搜索空间及头部网络的搜索空间,对主干网络和头部网络进行松弛化处理;利用随机梯度下降的方法对松弛化处理后的主干网络和头部网络执行网络结构搜索操作,学习重构其拓扑连接和子网络,得到主干网络和头部网络组成的物体检测器。本发明利用神经网络结构搜索的机制对主干网络和头部网络的结构进行搜索,实现对单次物体检测器的自动网络结构定制。引入头部网络学习重构他们的拓扑连接和子网络,以便挖掘更有效的检测模块进行局部信息和全局信息表达,在执行网络结构搜索时考虑上网络的延迟,实现实时检测任务对模型速度和准确性的权衡。

Description

一种物体检测器构建、物体检测方法及系统
技术领域
本发明涉及自动机器学习技术领域,具体涉及一种物体检测器构建、物体检测方法及系统。
背景技术
目标搜索(检测与定位)是计算机视觉的基础任务,其目的是根据给出的图片找出图片中的目标物体,并给出其位置及其边界框等信息。在现实生活中可以应用于智慧交通,智能安防等方面。
近年来,随着人工智能与深度学习的发展,传统的目标定位与检测任务在性能与速度上都取得了显著性的成果。然而,传统的目标识别或检测任务都是通过人工设计特征提取网络和检测模块来完成的,这需要耗费大量的人力和时间来设计模块与验证有效性。此外,训练过程一般分为两个阶段,先在分类任务上预训练特征提取网络,然后再在目标识别或检测任务上微调模型。现有的模型主干网络是从分类模型迁移过来的,结构固定无法适应具体检测任务做调整,且基于分类任务的预训练模型在检测任务上存在学习目标的偏差。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中的目标检测模型无法调整网络框架导致检测效果差的缺陷,从而提供一种物体检测器构建、物体检测方法及系统。
为达到上述目的,本发明提供如下技术方案:
第一方面,本发明实施例提供一种物体检测器构建方法,包括:构建主干网络的搜索空间,所述主干网络用于提取物体特征;构建头部网络的搜索空间,所述头部网络用于物体的识别检测;对主干网络和头部网络进行松弛化处理;利用随机梯度下降的方法对松弛化处理后的主干网络和头部网络执行网络结构搜索操作,学习重构其拓扑连接和子网络,得到主干网络和头部网络组成的物体检测器。
进一步地,所述主干网络的搜索空间包括多层卷积模块单元,在预设位置的卷积模块单元进行下采样,并在下采样的卷积模块单元增加一倍或多倍的滤波器数量,进行下采样单元称为“缩减单元”,其他单元称为“常规单元”。
进一步地,所述头部网络搜索空间包括多层卷积模块单元,其中的第一个“常规单元”放置在第一个分类器之前,第二个“缩减单元”负责连接主干网络与级联结构,其余单元依次放置在后续的分类器之前。
进一步地,所述主干网络的搜索空间的每个多层卷积模块单元由N个节点组成,其中前两个节点是输入节点,对于N-3个中间节点,第n个节点将来自前面节点的n+1个输入特征图映射到输出特征图,最后一个输出节点将来自中间节点的输出特征图拼接得到当前模块单元的输出。
进一步地,所述头部网络的搜索空间的每个多层卷积模块单元由N个节点组成,其中前两个节点是输入节点,对于N-3个中间节点,第n个节点将来自前面节点的n+1个输入特征图映射到输出特征图,最后一个输出节点将来自中间节点的输出特征图拼接并进行卷积后得到当前模块单元的输出。
进一步地,主干网络的搜索空间和头部网络的搜索空间操作包括:不同尺度的深度可分卷积、不同尺度的卷积、不同尺度的膨胀卷积、无连接操作以及同等映射连接。
进一步地,所述对主干网络和头部网络进行松弛化处理的步骤,包括:
通过增加一路径权重得到松弛化表达的
Figure BDA0002426969490000096
来近似每个中间节点的操作
Figure BDA0002426969490000032
其中,
Figure BDA0002426969490000033
为路径权重由结构参数归一化得到,
Figure BDA0002426969490000034
为输出特征;
分配不同的结构参数α给“常规单元”和“缩减单元”并使用随机梯度下降优化结构参数α和网络权重ω;
设置权衡系数λ控制模型精度和网络延迟的权衡,并将其合并到最终的损失函数L;
当网络收敛后,根据结构参数α选择两个最可能用于每个中间节点的操作来得到离散化的网络结构。
主干网络的损失函数L1为:
L1=Lconf1+Llocl1E1[latency],
头部网络的损失函数为L2:
L2=Lconf2+Lloc21E2[latency],
当主干网络和头部网络同时进行松弛化处理时,总的损失函数L为:
L=L1+L2,
其中,Lconf1、Lconf2分别对应网络的为识别框类别概率, Lloc1、Lloc2为对应网络的识别框位置概率,E1[latency]、E2[latency]为对应网络的延迟,λ1、λ1为对应网络的权衡系数。
第二方面,本发明实施例提供一种物体检测方法,包括;
对本发明实施例第一方面所述的物体检测器构建方法得到的物体检测器进行训练;利用训练好的物体检测器对目标物体进行检测。
第三方面,本发明实施例提供一种物体检测器构建系统,包括:
主干网络的搜索空间构建模块,用于构建主干网络的搜索空间,所述主干网络用于提取物体特征;
头部网络的搜索空间构建模块,用于构建头部网络的搜索空间,所述头部网络用于物体的识别检测;
松弛化处理模块,用于对主干网络和头部网络进行松弛化处理;
物体检测器获取模块,用于利用随机梯度下降的方法对松弛化处理后的主干网络和头部网络执行网络结构搜索操作,学习重构其拓扑连接和子网络,得到主干网络和头部网络组成的物体检测器。
第四方面,本发明实施例提供一种物体检测系统,包括:
训练模块,用于对本发明实施例第一方面所述的物体检测器构建方法得到的物体检测器进行训练;
检测模块,用于利用训练好的物体检测器对目标物体进行检测。
第五方面,本发明实施例提供一种计算机设备,包括:至少一个处理器,以及与至少一个处理器通信连接的存储器,其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器执行本发明实施例第一方面及第二方面所述的方法。
第六方面,本发明实施例提供一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使计算机执行本发明实施例第一方面及第二方面所述的方法。
本发明技术方案,具有如下优点:
本发明提供的一种物体检测器构建、物体检测方法及系统,利用神经网络结构搜索的机制对主干网络(特征提取网络)和头部网络(识别检测模块)的结构进行搜索,实现对单次物体检测器的自动网络结构定制。不同于简单地移植图像分类任务中的预训练模型作为检测框架的主干网络的传统做法,使用神经网络结构搜索方法来自动设计一个符合物体检测任务需求的主干网络,称为自动主干网络,优于手工设计的传统主干网络,并且可以直接在物体检测任务上从零开始训练检测模型。其次,引入了自动头部网络,对大部分已经被验证过有效的检测操作作为搜索空间进行搜索,并学习重构他们的拓扑连接和子网络,以便挖掘更有效的检测模块进行局部信息和全局信息表达。还对网络搜索空间进行了扩充和优化,使网络结构搜索能够学习到最有用的头部网络结构,而无需大量的结构设计和组合。最后,在执行网络结构搜索时考虑上网络的延迟,以实现实时检测任务对模型速度和准确性的权衡。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中的物体检测器构建方法的一个具体示例的流程图;
图2为本发明实施例中的网络结构示意图;
图3为本发明实施例中物体检测网络在不同数据集上的最佳性能对比结果示意图;
图4为本发明实施例中提供的PASCAL VOC数据集中以VGG-16为主干网络的其他基线模型比较结果示意图;
图5为本发明实施例中提供的物体检测器构建系统的模块组成图;
图6为本发明实施例中提供的物体检测方法的一个具体示例的流程图;
图7为本发明实施例中物体检测系统一个具体示例的组成框图。
图8为本发明实施例提供的计算机设备一个具体示例的组成图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
本实施例提供一种物体检测器构建方法,如图1所示,包括如下步骤:
S1:构建主干网络的搜索空间,所述主干网络用于提取物体特征。
本发明实施例中,主干网络的搜索空间包括多层卷积模块单元,在预设位置的卷积模块单元进行下采样,并在下采样的卷积模块单元增加一倍或多倍的滤波器数量,进行下采样单元称为“缩减单元”,其他单元称为“常规单元”。
在一具体实施例中,例如是包括6个卷积模块单元,在起始、1/3、1/2 以及倒数1/6处的单元(第1、2、3、6个单元)中对特征下采样一半(或部分)的空间分辨率,同时增加一倍(或多倍)的滤波器数量。
主干网络的搜索空间的每个多层卷积模块单元由N个节点组成,如图2所示,其中前两个节点是输入节点,分别对应前两个模块单元的输出 Hl-1,Hl-2。对于N-3个中间节点,第n个节点将来自前面节点(包括两个输入节点)的n+1个输入特征图映射到输出特征图
Figure BDA0002426969490000071
最后一个输出节点将来自中间节点的输出特征图
Figure BDA0002426969490000072
拼接得到当前模块单元的输出Hl。搜索空间包含但不限于以下操作:3x3深度可分卷积、5x5深度可分卷积、1x3_3x1卷积、1x5_5x1卷积、3x3膨胀卷积、5x5膨胀卷积、无连接操作、同等映射连接。
S2:构建头部网络的搜索空间,所述头部网络用于物体的识别检测。
头部网络搜索空间包括多层卷积模块单元,其中的第一个“常规单元”放置在第一个分类器之前,第二个“缩减单元”负责连接主干网络与级联结构,如RFBNet中的RFB模块,其余单元依次放置在后续的分类器之前。
本实施例中头部网络的搜索空间的每个多层卷积模块单元由N个节点组成,其中前两个节点是输入节点,对于N-3个中间节点,第n个节点将来自前面节点的n+1个输入特征图映射到输出特征图,最后一个输出节点将来自中间节点的输出特征图拼接并进行卷积后得到当前模块单元的输出。可以看出与主干网络的搜索空间的每个多层卷积模块单元的结果类似,区别在于在输出节点添加了一个新的卷积,例如是1x1卷积。搜索空间也包含但不限于以下操作:3x3深度可分卷积、5x5深度可分卷积、1x3_3x1 深度可分卷积、1x5_5x1深度可分卷积、3x3膨胀卷积、5x5膨胀卷积、3x3 最大池化层、3x3平均池化层、无连接操作、同等映射连接。
S3:对主干网络和头部网络进行松弛化处理。
本发明实施例为了能够使用随机梯度下降的方法执行网络结构搜索,对主干网络和头部网络进行松弛化处理。主干网络和头部网络进行松弛化的过程一样,下面以主干网络松弛化处理为例进行说明。
首先,每个中间节点的输出特征
Figure BDA0002426969490000091
都是由输入特征
Figure BDA0002426969490000092
计算得到,其中的 j节点的输出特征
Figure BDA0002426969490000093
作为i节点的输入特征:
Figure BDA0002426969490000094
为了计算Oj→i,通过增加一个路径权重
Figure BDA0002426969490000095
得到松弛化表达的
Figure BDA0002426969490000096
来近似Oj→i
Figure BDA0002426969490000097
其中
Figure BDA0002426969490000098
由结构参数
Figure BDA0002426969490000099
归一化得到:
Figure BDA00024269694900000910
分配不同的结构参数α给“常规单元”和“缩减单元”并使用随机梯度下降优化结构参数α和网络权重ω。
除了模型精度,网络延迟也作为优化目标之一。具体来说,将网络的延迟建模为神经网络维度的连续函数。给定松弛化表达
Figure BDA00024269694900000911
以及相关联的路径权重
Figure BDA00024269694900000912
定义
Figure BDA00024269694900000913
的期望延迟为:
Figure BDA00024269694900000914
其中LAT(Ok)表示
Figure BDA00024269694900000915
的特定操作时间延迟(微秒),由推理期间测量的实际运行时间得到。因此,网络的总延迟定义如下:
Figure BDA0002426969490000101
本发明实施例通过系数λ控制模型精度和网络延迟的权衡,并将其合并到最终的损失函数中:
L1=Lconf1+Lloc11E1[latency]
当网络收敛后,我们根据结构参数α选择两个最可能用于每个中间节点的操作来得到离散化的网络结构:
Figure BDA0002426969490000102
在实际应用中,当主干网络和头部网络可以分别或同时进行松弛化处理,分别松弛化处理时,主干网络的损失函数L1为:
L1=Lconf1+Lloc11E1[latency],
头部网络的损失函数为L2:
L2=Lconf2+Lloc21E2[latency]
其中,Lconf1、Lconf2分别对应网络的为识别框类别概率, Lloc1、Lloc2为对应网络的识别框位置概率,E1[latency]、E2[latency]为对应网络的延迟,λ1、λ1为对应网络的权衡系数。
当主干网络和头部网络同时进行松弛化处理时,损失函数L为:
L=L1+L2,
S4:利用随机梯度下降的方法对松弛化处理后的主干网络和头部网络执行网络结构搜索操作,学习重构其拓扑连接和子网络,得到主干网络和头部网络组成的物体检测器。
本发明实施例提供的方法,利用神经网络结构搜索的机制对主干网络(特征提取网络)和头部网络(识别检测模块)的结构进行搜索,实现对单次物体检测器的自动网络结构定制。不同于简单地移植图像分类任务中的预训练模型作为检测框架的主干网络的传统做法,使用神经网络结构搜索方法来自动设计一个符合物体检测任务需求的主干网络,称为自动主干网络。实验证明它优于手工设计的传统主干网络,并且可以直接在物体检测任务上从零开始训练检测模型。通过引入了自动头部网络,对大部分已经被验证过有效的检测操作作为搜索空间进行搜索,并学习重构他们的拓扑连接和子网络,以便挖掘更有效的检测模块进行局部信息和全局信息表达。还对网络搜索空间进行了扩充和优化,使网络结构搜索能够学习到最有用的头部网络结构,而无需大量的结构设计和组合。在执行网络结构搜索时考虑上网络的延迟,以实现实时检测任务对模型速度和准确性的权衡。
如图3所示,本发明实施例提供的方法在所有三个基准测试中都获得了比基线模型显着的提升,模型尺寸略有增加。具体而言,自动单次物体检测网络在VOC数据集上实现了72.5%的mAP,相比之下,RFBNet只有71.2%,对于COCO数据集则是21.5%比20.7%,此外,ADE数据集是5.2%比3.7%。这有力地证明了本发明实施例提供的方法可以找到比手工设计的单次物体检测网络更好的神经网络架构,包括更有效的主干网络,和用于分类和边界框回归的更好的头部网络结构。将搜索到的架构迁移到其他数据集(COCO和ADE)与直接在搜索目标数据集(VOC)上的表现是一致的,可以验证本申请提到的自动单次物体检测网络具有很好的迁移性和泛化能力。
此外,本发明实施例提供的自动主干网络可以很容易地扩展,以实现更高的性能。在一实施例中,扩展了自动主干网络,并将其与PASCAL VOC 数据集中以VGG-16为主干网络的其他基线模型进行比较,如图4所示。这里的头部网络结构是RFB模块,与在RFBNet中的头部网络是相同的,以便进行公平的比较,本发明实施例扩展的自动主干网络比目前最先进的单次物体检测器在模型大小上轻量化了40%,却仍然达到了相当的性能。进一步证明了本发明实施例提供的自动主干网络具有良好的泛化能力,可以根据模型大小方便地进行扩展,从而有效地获得更好的结果。
与方法对应地,本发明实施例还提供一种物体检测器构建系统,如图5所示,包括:
主干网络的搜索空间构建模块1,用于构建主干网络的搜索空间,所述主干网络用于提取物体特征;此模块执行实施例1中的步骤S1所描述的方法,在此不再赘述。
头部网络的搜索空间构建模块2,用于构建头部网络的搜索空间,所述头部网络用于物体的识别检测;此模块执行步骤S2所描述的方法,在此不再赘述。
松弛化处理模块3,用于对主干网络和头部网络进行松弛化处理;此模块执行步骤S3所描述的方法,在此不再赘述。
物体检测器获取模块4,用于利用随机梯度下降的方法对松弛化处理后的主干网络和头部网络执行网络结构搜索操作,学习重构其拓扑连接和子网络,得到主干网络和头部网络组成的物体检测器。此模块执行步骤S4所描述的方法,在此不再赘述。
实施例2
本发明实施例提供一种物体检测方法,如图6所示,包括:
步骤S11:对实施例1中所述的物体检测器构建方法得到的物体检测器进行训练;
步骤S12:利用训练好的物体检测器对目标物体进行检测。
本发明实施例提供的物体检测方法,通过实施例1中的自动主干网络和自动头部网络组成自动单次物体检测器,并对其从零开始进行训练,能够实现具体检测任务、具体数据的优化,而不是简单的迁移分类模型的训练参数,对物体检测的结果更加准确。
对应上述物体检测方法,本发明实施例还提供一种物体检测系统,如图7所示,包括:
训练模块11,用于对实施例1中的物体检测器构建方法得到的物体检测器进行训练;此模块执行步骤S11所描述的方法,在此不再赘述。
检测模块12,用于利用训练好的物体检测器对目标物体进行检测。此模块执行步骤S12所描述的方法,在此不再赘述。
实施例3
本发明实施例提供一种计算机设备,如图8所示,包括:至少一个处理器401,例如CPU(Central Processing Unit,中央处理器),至少一个通信接口403,存储器404,至少一个通信总线402。其中,通信总线402用于实现这些组件之间的连接通信。其中,通信接口403可以包括显示屏(Display)、键盘(Keyboard),可选通信接口403还可以包括标准的有线接口、无线接口。存储器404可以是高速RAM存储器(Ramdom Access Memory,易挥发性随机存取存储器),也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器404可选的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以执行实施例1及实施例2中的方法。存储器404中存储一组程序代码,且处理器401调用存储器404中存储的程序代码,以用于执行实施例1及实施例2中的方法。
其中,通信总线402可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。通信总线402可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条线表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器404可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写:HDD)或固降硬盘(英文:solid-state drive,缩写:SSD);存储器404还可以包括上述种类的存储器的组合。
其中,处理器401可以是中央处理器(英文:central processing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU 和NP的组合。
其中,处理器401还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:ASIC),可编程逻辑器件(英文:programmable logic device,缩写:PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:FPGA),通用阵列逻辑(英文:generic arraylogic,缩写: GAL)或其任意组合。
可选地,存储器404还用于存储程序指令。处理器401可以调用程序指令,实现如本申请执行实施例1及实施例2中的方法。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机可执行指令,该计算机可执行指令可执行实施例1及实施例2中的方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccess Memory, RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固降硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (13)

1.一种物体检测器构建方法,其特征在于,包括:
构建主干网络的搜索空间,所述主干网络用于提取物体特征;
构建头部网络的搜索空间,所述头部网络用于物体的识别检测;
对主干网络和头部网络进行松弛化处理;
利用随机梯度下降的方法对松弛化处理后的主干网络和头部网络执行网络结构搜索操作,学习重构其拓扑连接和子网络,得到主干网络和头部网络组成的物体检测器。
2.根据权利要求1所述的物体检测器构建方法,所述主干网络的搜索空间包括多层卷积模块单元,在预设位置的卷积模块单元进行下采样,并在下采样的卷积模块单元增加一倍或多倍的滤波器数量,进行下采样单元称为“缩减单元”,其他单元称为“常规单元”。
3.根据权利要求2所述的物体检测器构建方法,所述头部网络搜索空间包括多层卷积模块单元,其中的第一个“常规单元”放置在第一个分类器之前,第二个“缩减单元”负责连接主干网络与级联结构,其余单元依次放置在后续的分类器之前。
4.根据权利要求1所述的物体检测器构建方法,其特征在于,所述主干网络的搜索空间的每个多层卷积模块单元由N个节点组成,其中前两个节点是输入节点,对于N-3个中间节点,第n个节点将来自前面节点的n+1个输入特征图映射到输出特征图,最后一个输出节点将来自中间节点的输出特征图拼接得到当前模块单元的输出。
5.根据权利要求1所述的物体检测器构建方法,其特征在于,所述头部网络的搜索空间的每个多层卷积模块单元由N个节点组成,其中前两个节点是输入节点,对于N-3个中间节点,第n个节点将来自前面节点的n+1个输入特征图映射到输出特征图,最后一个输出节点将来自中间节点的输出特征图拼接并进行卷积后得到当前模块单元的输出。
6.根据权利要求1所述的物体检测器构建方法,其特征在于,主干网络的搜索空间和头部网络的搜索空间操作包括:不同尺度的深度可分卷积、不同尺度的卷积、不同尺度的膨胀卷积、无连接操作以及同等映射连接。
7.根据权利要求3所述的物体检测器构建方法,其特征在于,所述对主干网络和头部网络进行松弛化处理的步骤,包括:
通过增加一路径权重得到松弛化表达的
Figure DEST_PATH_BDA0002426969490000096
来近似每个中间节点的操作
Figure FDA0002426969480000025
其中,
Figure FDA0002426969480000023
为路径权重由结构参数归一化得到,
Figure FDA0002426969480000024
为输出特征;
分配不同的结构参数α给“常规单元”和“缩减单元”并使用随机梯度下降优化结构参数α和网络权重ω;
设置权衡系数λ控制模型精度和网络延迟的权衡,并将其合并到最终的损失函数L;
当网络收敛后,根据结构参数α选择两个最可能用于每个中间节点的操作来得到离散化的网络结构。
8.根据权利要求7所述的物体检测器构建方法,其特征在于,主干网络的损失函数L1为:
L1=Lconf1+Lloc11E1[latency],
头部网络的损失函数为L2:
L2=Lconf2+Lloc21E2[latency],
当主干网络和头部网络同时进行松弛化处理时,总的损失函数L为:
L=L1+L2,
其中,Lconf1、Lconf2分别对应网络的为识别框类别概率,Lloc1、L1oc2为对应网络的识别框位置概率,E1[latency]、E2[latency]为对应网络的延迟,λ1、λ1为对应网络的权衡系数。
9.一种物体检测方法,其特征在于,包括;
对权力要求1-8任一所述的物体检测器构建方法得到的物体检测器进行训练;
利用训练好的物体检测器对目标物体进行检测。
10.一种物体检测器构建系统,其特征在于,包括:
主干网络的搜索空间构建模块,用于构建主干网络的搜索空间,所述主干网络用于提取物体特征;
头部网络的搜索空间构建模块,用于构建头部网络的搜索空间,所述头部网络用于物体的识别检测;
松弛化处理模块,用于对主干网络和头部网络进行松弛化处理;
物体检测器获取模块,用于利用随机梯度下降的方法对松弛化处理后的主干网络和头部网络执行网络结构搜索操作,学习重构其拓扑连接和子网络,得到主干网络和头部网络组成的物体检测器。
11.一种物体检测系统,其特征在于,包括;
训练模块,用于对权力要求1-8任一所述的物体检测器构建方法得到的物体检测器进行训练;
检测模块,用于利用训练好的物体检测器对目标物体进行检测。
12.一种计算机设备,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-9中任一所述的方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行权利要求1-9中任一所述的方法。
CN202010223765.7A 2020-03-26 2020-03-26 一种物体检测器构建、物体检测方法及系统 Active CN111460958B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010223765.7A CN111460958B (zh) 2020-03-26 2020-03-26 一种物体检测器构建、物体检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010223765.7A CN111460958B (zh) 2020-03-26 2020-03-26 一种物体检测器构建、物体检测方法及系统

Publications (2)

Publication Number Publication Date
CN111460958A true CN111460958A (zh) 2020-07-28
CN111460958B CN111460958B (zh) 2023-05-05

Family

ID=71682472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010223765.7A Active CN111460958B (zh) 2020-03-26 2020-03-26 一种物体检测器构建、物体检测方法及系统

Country Status (1)

Country Link
CN (1) CN111460958B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967585A (zh) * 2020-09-25 2020-11-20 深圳市商汤科技有限公司 网络模型的处理方法及装置、电子设备和存储介质
CN112200862A (zh) * 2020-12-01 2021-01-08 北京达佳互联信息技术有限公司 目标检测模型的训练方法、目标检测方法及装置
CN112434552A (zh) * 2020-10-13 2021-03-02 广州视源电子科技股份有限公司 神经网络模型调整方法、装置、设备及存储介质
CN113065413A (zh) * 2021-03-12 2021-07-02 国网河北省电力有限公司 基于神经网络搜索的场景文字识别方法及装置
CN113222934A (zh) * 2021-05-13 2021-08-06 南开大学 一种基于设备感知的显著性物体检测方法及系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217225A (zh) * 2014-09-02 2014-12-17 中国科学院自动化研究所 一种视觉目标检测与标注方法
US20170193152A1 (en) * 2016-01-05 2017-07-06 International Business Machines Corporation System and method for combined path tracing in static timing analysis
CN107122735A (zh) * 2017-04-26 2017-09-01 中山大学 一种基于深度学习和条件随机场的多目标跟踪方法
WO2018076130A1 (zh) * 2016-10-24 2018-05-03 中国科学院自动化研究所 物体识别模型的建立方法及物体识别方法
US20180165547A1 (en) * 2016-12-08 2018-06-14 Shenzhen University Object Recognition Method and Device
CN108985457A (zh) * 2018-08-22 2018-12-11 北京大学 一种受优化算法启发的深度神经网络结构设计方法
US20190147340A1 (en) * 2017-11-16 2019-05-16 Mitusbishi Electric Research Laboratories, Inc. Machine Learning via Double Layer Optimization
CN110059646A (zh) * 2019-04-23 2019-07-26 暗物智能科技(广州)有限公司 训练动作规划模型的方法及目标搜索方法
WO2019162241A1 (en) * 2018-02-21 2019-08-29 Robert Bosch Gmbh Real-time object detection using depth sensors
CN110363049A (zh) * 2018-04-10 2019-10-22 阿里巴巴集团控股有限公司 图形元素检测识别和类别确定的方法及装置
WO2019222543A1 (en) * 2018-05-17 2019-11-21 Qualcomm Incorporated Continuous relaxation of quantization for discretized deep neural networks
CN110633747A (zh) * 2019-09-12 2019-12-31 网易(杭州)网络有限公司 目标检测器的压缩方法、装置、介质以及电子设备
WO2020024585A1 (zh) * 2018-08-03 2020-02-06 华为技术有限公司 一种训练物体检测模型的方法、装置以及设备

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217225A (zh) * 2014-09-02 2014-12-17 中国科学院自动化研究所 一种视觉目标检测与标注方法
US20170193152A1 (en) * 2016-01-05 2017-07-06 International Business Machines Corporation System and method for combined path tracing in static timing analysis
WO2018076130A1 (zh) * 2016-10-24 2018-05-03 中国科学院自动化研究所 物体识别模型的建立方法及物体识别方法
US20180165547A1 (en) * 2016-12-08 2018-06-14 Shenzhen University Object Recognition Method and Device
CN107122735A (zh) * 2017-04-26 2017-09-01 中山大学 一种基于深度学习和条件随机场的多目标跟踪方法
US20190147340A1 (en) * 2017-11-16 2019-05-16 Mitusbishi Electric Research Laboratories, Inc. Machine Learning via Double Layer Optimization
WO2019162241A1 (en) * 2018-02-21 2019-08-29 Robert Bosch Gmbh Real-time object detection using depth sensors
CN110363049A (zh) * 2018-04-10 2019-10-22 阿里巴巴集团控股有限公司 图形元素检测识别和类别确定的方法及装置
WO2019222543A1 (en) * 2018-05-17 2019-11-21 Qualcomm Incorporated Continuous relaxation of quantization for discretized deep neural networks
WO2020024585A1 (zh) * 2018-08-03 2020-02-06 华为技术有限公司 一种训练物体检测模型的方法、装置以及设备
CN108985457A (zh) * 2018-08-22 2018-12-11 北京大学 一种受优化算法启发的深度神经网络结构设计方法
CN110059646A (zh) * 2019-04-23 2019-07-26 暗物智能科技(广州)有限公司 训练动作规划模型的方法及目标搜索方法
CN110633747A (zh) * 2019-09-12 2019-12-31 网易(杭州)网络有限公司 目标检测器的压缩方法、装置、介质以及电子设备

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967585A (zh) * 2020-09-25 2020-11-20 深圳市商汤科技有限公司 网络模型的处理方法及装置、电子设备和存储介质
CN111967585B (zh) * 2020-09-25 2022-02-22 深圳市商汤科技有限公司 网络模型的处理方法及装置、电子设备和存储介质
CN112434552A (zh) * 2020-10-13 2021-03-02 广州视源电子科技股份有限公司 神经网络模型调整方法、装置、设备及存储介质
CN112200862A (zh) * 2020-12-01 2021-01-08 北京达佳互联信息技术有限公司 目标检测模型的训练方法、目标检测方法及装置
CN112200862B (zh) * 2020-12-01 2021-04-13 北京达佳互联信息技术有限公司 目标检测模型的训练方法、目标检测方法及装置
CN113065413A (zh) * 2021-03-12 2021-07-02 国网河北省电力有限公司 基于神经网络搜索的场景文字识别方法及装置
CN113222934A (zh) * 2021-05-13 2021-08-06 南开大学 一种基于设备感知的显著性物体检测方法及系统

Also Published As

Publication number Publication date
CN111460958B (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
CN111460958A (zh) 一种物体检测器构建、物体检测方法及系统
CN111489358B (zh) 一种基于深度学习的三维点云语义分割方法
US11151403B2 (en) Method and apparatus for segmenting sky area, and convolutional neural network
CN108230278B (zh) 一种基于生成对抗网络的图像去雨滴方法
CN111144561B (zh) 一种神经网络模型确定方法及装置
WO2021057056A1 (zh) 神经网络架构搜索方法、图像处理方法、装置和存储介质
CN111476184A (zh) 一种基于双注意力机制的人体关键点检测方法
CN108647742A (zh) 基于轻量级神经网络的快速目标检测方法
CN110348447B (zh) 一种具有丰富空间信息的多模型集成目标检测方法
CN106203363A (zh) 人体骨架运动序列行为识别方法
JP2018514852A (ja) 逐次画像サンプリングおよび微調整された特徴の記憶
US11580356B2 (en) Efficient inferencing with piecewise pointwise convolution
CN108960015A (zh) 一种基于深度学习的车系自动识别方法及装置
CN111401523A (zh) 一种基于网络层剪枝的深度学习网络模型压缩方法
CN111428854A (zh) 一种结构搜索方法及结构搜索装置
CN108363962B (zh) 一种基于多层次特征深度学习的人脸检测方法及系统
CN113554084A (zh) 基于剪枝和轻量卷积的车辆再辨识模型压缩方法及系统
CN115049952A (zh) 一种基于多尺度级联感知深度学习网络的幼鱼肢体识别方法
Chartock et al. Extraction of building footprints from satellite imagery
CN114610272A (zh) Ai模型生成方法、电子设备及存储介质
CN107193979A (zh) 一种同源图片检索的方法
CN116883746A (zh) 一种基于分区池化超图神经网络的图节点分类方法
CN113920124B (zh) 基于分割和误差引导的脑神经元迭代分割方法
CN111931913B (zh) 基于Caffe的卷积神经网络在FPGA上的部署方法
CN114758191A (zh) 一种图像识别方法、装置及电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant