CN111310535B

CN111310535B - 使用卷积神经网络模型的对象检测方法及对象检测设备

Info

Publication number: CN111310535B
Application number: CN201910298504.9A
Authority: CN
Inventors: 赖威豪; 梁珮蓉; 蒋泗得; 陈泽民; 阮圣彰
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 2018-12-11
Filing date: 2019-04-15
Publication date: 2023-07-14
Anticipated expiration: 2039-04-15
Also published as: CN111310535A

Abstract

一种使用卷积神经网络模型的对象检测方法及对象检测设备。该对象检测方法包含：产生传感器数据；通过使用第一对象检测算法来处理传感器数据以产生第一对象检测结果；通过使用多级稀疏更新映像算法来处理第一对象检测结果以产生多级更新后第一对象检测结果；通过使用各级稀疏更新映像算法之间的多级空间池化算法来处理第一级的更新后第一对象检测结果；执行多级深卷积层算法以提取多个特征结果；以及基于最后一级的特征结果来执行检测预测。

Description

使用卷积神经网络模型的对象检测方法及对象检测设备

技术领域

本发明涉及一种对象检测方法及对象检测设备，尤其是涉及一种使用卷积神经网络(convolutional neural network，CNN)模型的对象检测方法及对象检测设备。

背景技术

自驾车开发已是近年来重要的研究和开发项目，且检测或感测设备已尤其重要。可通过提供更可靠的感测数据和通过提供特定环境类型内的关于车身环境的更精确信息来改进检测设备。检测设备还可基于车身环境的传感器读数来产生强化信息。在检测设备的建构中，对象检测是必不可少的技术中的一种。通过安装在车身上的高分辨率摄影机拍摄的影像来识别出现在车辆前部的对象的位置和类型，且还通过组合如计算器视觉和深度学习的技术，车辆可作出精确判定以确定是否规避对象或是否剎车。作出判定可类似于基于其眼睛的观测结果来采取策略的人工智能。

然而，各种对象检测可能依赖于深度学习方法。深度学习是用于使用训练数据来修改学习模型的常用术语。深度学习可要求大量计算资源以训练和预测学习模型。当检测设备执行对象检测时，训练模型将用于前向传播计算。计算量在训练阶段和预测阶段两者期间可能很大。在没有具有高计算能力的硬件装置的情况下，此类尝试将几乎不可能，因为每秒的图像处理帧数在极小时间间隔内很大。因此，用于对象检测的算法阶段的持续优化在现阶段将仍然是必要的。

当人驾驶车辆时，对象检测算法可帮助自动驾驶车辆(autonomous vehicle)在感测范围内感测任一对象，且所述算法还将提供预测路径规划给其它系统。为了满足这一需求，检测设备必须满足至少三个特点，所述特点包含：大数量(即可识别对象数目)、精确性(即正确地识别对象的类型和对象的位置)以及快速(即达到反应所需的瞬时计算速率)。为了满足以上特征，有必要对现有深度学习模型作出改进和修改。

表1

表1展示对象检测必须妥协于检测性能和计算复杂度的困境，因为对象检测的较高性能将形成较高计算复杂度。本文中，双阶DL(deep learning，DL)对象检测模型具有最高检测精确性，但其通常需要最大的计算成本。详细地说，双阶DL对象检测采用与单阶DL对象检测类似的卷积层，区别在于双阶DL在那些卷积层后采用区域建议网络(regionproposal network，RPN)从所提供的特征图(feature maps)中提出一或多个感兴趣区域(region of interest，ROI)。图1说明RPN根据最后一个卷积层提取的特征图提出感兴趣区域。更详细地说，处理器将通过使用RPN来处理一组所提供的特征图(即图1中所说明的输入影像)以在双阶DL对象检测模型中提出一些ROI，其中特征图包含多个未使用特征(unusedfeatures，UNU)。多个未使用特征UNU将需要一定量计算成本，而这成本为无效分配，因为多个未使用特征UNU不贡献任何检测结果。

换句话说，双阶DL对象检测模型中的RPN具有降低检测构架效率的两个缺点。第一，RPN分析所提供的特征图建议任一潜在候选ROI，可能存在将不产生任何ROI建议的多个未使用特征UNU，然而这些未使用特征UNU需要一定量计算成本已由RPN计算。在ROI不出现的区域中的操作造成的计算浪费是第一特征不必要的计算部分(即多个未使用特征)。第二，尽管双阶DL对象检测中的RPN的当前位置实现稳健检测性能，但其可形成低效推断。相反，ROI建议可定位于卷积层前部以显着减小网络大小以及其计算工作。

发明内容

因此，本发明涉及一种使用CNN模型的对象检测方法和对象检测设备。

在示范性实施例中的一个中，本发明涉及一种使用CNN模型的对象检测方法，所述方法将包含但不限于：通过使用传感器来产生传感器数据；通过使用第一对象检测算法来处理传感器数据以产生第一对象检测结果，其中第一对象检测结果包含包围盒(boundingbox；BB)信息；通过使用多级稀疏更新映像算法来根据包围盒信息处理第一对象检测结果以在CNN模型中产生多级更新后第一对象检测结果；通过使用多级空间池化算法来处理第一级的更新后第一对象检测结果以减小各级稀疏更新映像算法之间的多级更新后第一对象检测结果的空间维度；基于CNN模型中的多级更新后第一对象检测结果来执行多级深卷积层算法以对应地提取多个特征结果；以及基于由最后一级的多级深卷积层算法中产生的最后一级的特征结果来执行检测预测。

在示范性实施例中的一个中，本发明涉及一种对象检测设备，所述对象检测设备将包含但不限于：传感器，用于产生传感器数据；以及处理器，耦合到传感器且配置成至少进行以下操作：通过使用第一对象检测算法来处理传感器数据以产生第一对象检测结果，其中第一对象检测结果包含包围盒信息；通过使用多级稀疏更新映像算法来根据包围盒信息处理第一对象检测结果以在CNN模型中产生多级更新后第一对象检测结果；通过使用多级空间池化算法来处理第一级的更新后第一对象检测结果以减小各级稀疏更新映像算法之间的多级更新后第一对象检测结果的空间维度；基于CNN模型中的多级更新后第一对象检测结果来执行多级深卷积层算法以对应地提取多个特征结果；以及基于由最后一级的多级深卷积层算法中产生的最后一级的特征结果来执行检测预测。

为让本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合附图作详细说明如下。

附图说明

图1说明基于提取的特征图的由区域建议网络(RPN)提出的感兴趣区域。

图2说明根据本发明的示范性实施例中的一个的对象检测设备的硬件方框图。

图3说明根据本发明的示范性实施例中的一个的使用对象检测设备的自动驾驶车辆。

图4是根据本发明的示范性实施例中的一个的说明对象检测方法的步骤的流程图。

图5说明根据本发明的示范性实施例中的一个的对象检测构架的详细方框图。

图6说明根据本发明的示范性实施例中的一个的第一对象检测算法。

图7说明根据本发明的示范性实施例中的一个的多级稀疏更新映像算法中的每一级。

图8A到图8F说明根据本发明的示范性实施例中的一个的多级深卷积层算法中的每一级。

图9说明根据本发明的示范性实施例中的一个的多级空间池化算法中的每一级。

图10说明根据本发明的示范性实施例中的一个的对象检测方法的另一实施实例。

200、1000：对象检测设备

210：传感器

220：处理器

300、V1010：自动驾驶车辆

501：第t个RGB影像数据

501a：RGB摄影机数组

502：第t个检测后RGB影像数据

503：第t个推断结果

532：第(t-1)个特征图1

533：第t个特征图1

542：第(t-1)个特征图2

543：第t个特征图2

552：第(t-1)个特征图5

553：第t个特征图k

1001：前置摄影机

1003：处理单元

BBX1、BBX2、BBX3：包围盒

conv1、conv2、conv3、conv4、conv5、convk：卷积算法

IC、IC1、IC2：影像区

GC、GC1、GC0、GC2：网格单元

PIX：像素

UNU：未使用特征

S410、S420、S430、S440、S450、S460：步骤

S510：基于CV的ROI步骤

S520、S521、S522：SUM算法步骤

S530、S540、S550：深卷积层算法步骤

S531、S541、S551：卷积算法步骤

S534a：位置层算法步骤

S534b：卷积层算法步骤

S534c：恢复层算法步骤

S534d：池化层算法步骤

S560、S561：空间池化算法步骤

S570：ROI池化算法步骤

S580：包围盒回归算法步骤

具体实施方式

现在将详细参考本发明的当前示范性实施例，附图中示出了所述示范性实施例的实例。只要有可能，相同的参考标号在附图和描述中用以指代相同或相似部分。

本发明提供一种用于自动驾驶车辆以检测即将出现在自动驾驶车辆的指定视野(field of view，FOV)内的对象的构架，且所述构架将从对象检测设备、使用对象检测设备的自动驾驶车辆以及对象检测方法的角度加以解释。所述设备可设置于无任何人为干预的情况下自动操作的自动驾驶车辆内，且因此检测车辆的指定FOV的对象以执行计算并确定道路条件将是至关重要的。设备将包含但不限于：具有重迭FOV的多组不同感测装置，如用于从环境获取二维(two dimensional，2D)RGB数据的具有一或多个影像传感器的一组成像装置；以及处理单元，配置成至少执行用于每个传感器的第一对象检测算法、多级稀疏更新映像算法、多级空间池化算法以及多级深卷积层算法以产生特征结果从而执行检测预测。通过所提供的构架，可提取特征结果以执行检测预测以便改进瞬时计算速度且减小不必要的资料量。图2到图9阐明具有其它细节的所提供的对象检测构架。

图2说明根据本发明的示范性实施例中的一个的对象检测设备的硬件方框图。对象检测设备200将包含但不限于传感器210和处理器220。传感器210可以是成像传感器，如在指定FOV内将可见光撷取为2D影像的RGB影像传感器。处理器220将配置成至少通过使用第一对象检测算法来处理传感器数据以产生第一对象检测结果，其中第一对象检测结果包含包围盒信息。

处理器220将随后配置成根据包围盒信息通过使用多级稀疏更新映像算法(sparse update mapping algorithm)来处理第一对象检测结果以在CNN模型中产生多级更新后第一对象检测结果。然后，处理器220将配置成通过使用多级空间池化算法(spatialpooling algorithm)来处理第一级的更新后第一对象检测结果以减小各级稀疏更新映像算法之间的多级更新后第一对象检测结果的空间维度(spatial dimension)。

处理器220将随后配置成基于CNN模型中的多级更新后第一对象检测结果来执行多级深卷积层算法(deep convolution layer algorithm)以对应地提取多个特征结果。最后，处理器220将配置成基于最后一级的深卷积层算法中产生的最后一级的特征结果来执行检测预测。以这种方式，本发明改进瞬时计算速度且通过第一对象检测算法、多级稀疏更新映像算法、多级空间池化算法以及多级深卷积层算法来减小不必要的计算数据量，且由于适当地使用稳健数据集来训练CNN，因此可识别的对象数目将增大。

应注意，在其它实施例中，对象检测设备200可包含多个2D成像传感器，且处理器220可用以处理多个传感器数据，本领域的技术人员可根据实际情形和要求适应性地调整传感器210的数目。

图3说明根据本发明的示范性实施例中的一个的使用对象检测设备的自动驾驶车辆。自动驾驶车辆300将包含但不限于如图2所示的对象检测设备200。

图4是根据本发明的示范性实施例中的一个的说明对象检测方法的步骤的流程图。在步骤S410中，对象检测设备将通过使用传感器来产生传感器数据。在步骤S420中，对象检测设备将通过使用第一对象检测算法来处理传感器数据以产生第一对象检测结果，其中第一对象检测结果包含包围盒信息。

在步骤S430中，对象检测设备将根据包围盒信息以通过使用多级稀疏更新映像算法来处理第一对象检测结果以在CNN模型中产生多级更新后第一对象检测结果。在步骤S440中，对象检测设备将通过使用多级空间池化算法来处理第一级的更新后第一对象检测结果以减小各级稀疏更新映像算法之间的多级更新后第一对象检测结果的空间维度。在步骤S450中，对象检测设备将基于CNN模型中的多级更新后第一对象检测结果来执行多级深卷积层算法以对应地提取多个特征结果。最后，在步骤S460中，对象检测设备将基于由最后一级的多级深卷积层算法中产生的最后一级的特征结果来执行检测预测。

图5到图9用一些示范性实施例和实例阐明所提供的对象检测构架。图5说明根据本发明的示范性实施例中的一个的对象检测构架的详细方框图。在这个实施例中，多种类型的感测装置可包含传感器(例如RGB摄影机数组501a)。RGB摄影机数组501a拍摄自动驾驶车辆附近的影像且产生传感器数据(例如第t个RGB影像数据501)，因此，其中第t个中的t的定义是指帧指数(frame index)。换句话说，RGB摄影机数组501a可撷取多个时间点中的多个帧，且第t个RGB影像数据501是在时间点t处撷取的帧。处理器耦合到RGB摄影机数组501a，且处理器配置成至少处理第t个RGB影像数据501。首先，处理器将通过使用第一对象检测算法(例如图5中所说明的基于CV的ROI步骤S510)来处理传感器数据(即第t个RGB影像数据501)以产生第一对象检测结果(即第t个检测后RGB影像数据502)，其中第t个检测后RGB影像数据502包含包围盒信息。随后，处理器将处理CNN模型中的第一对象检测结果(即第t个检测后RGB影像数据502)和传感器数据(即第t个RGB影像数据501)，其中CNN模型例如是，由S.任(S.Ren)等人，“较快R-CNN：针对具有区域建议网络的实时对象检测(Faster R-CNN：Towards Real-time Object Detection with Region Proposal Networks)”，CoRR，第abs/1506.01497卷，2016，提出的较快R-CNN(Faster R-CNN)算法。

在实施方式中，处理器将随后根据包围盒信息通过使用多级稀疏更新映射(sparse update mapping；SUM)算法(即SUM算法步骤S520、SUM算法步骤S521、SUM算法步骤S522)来处理第一对象检测结果以产生多级更新后第一对象检测结果，且处理器将通过使用多级空间池化算法(即空间池化算法步骤S560、空间池化算法步骤S561)来处理第一级的更新后第一对象检测结果以减小各级稀疏更新映像算法之间的多级更新后第一对象检测结果中的第一级的空间维度。处理器将基于多级更新后第一对象检测结果来执行多级深卷积层算法(即深卷积层算法步骤S530、深卷积层算法步骤S540、深卷积层算法步骤S550)以对应地提取多个特征结果(即第t个特征图1533、第t个特征图2543、第t个特征图k 553)，其中多级深卷积层算法中的每一级包含卷积算法(即卷积算法conv1步骤S531、卷积算法conv2步骤S541、卷积算法convk步骤S551)。然后，处理器将基于由最后一级的深卷积层算法中(即深卷积层算法步骤S550)产生的最后一级的特征结果来执行感兴趣区域(ROI)池化算法(即ROI池化算法步骤S570)和包围盒回归算法(即包围盒回归算法步骤S580)以执行检测预测(即第t个推断结果503)。

更具体地说，图6说明根据本发明的示范性实施例中的一个的第一对象检测算法。参考图5和图6，处理器将通过使用第一对象检测算法(即图5中和图6所说明的基于CV的ROI步骤S510)来处理第t个RGB影像数据501以产生第一对象检测结果(例如第t个检测后RGB影像数据502)，其中第t个检测后RGB影像数据502包含包围盒信息。详细地说，处理器将基于计算器视觉(Computer Vision)来检测第t个RGB影像数据501以发现感兴趣区域(ROI)(例如第t个检测后RGB影像数据502中所说明的包围盒)，其中ROI包含但不限于行人、车辆以及对象检测设备面前的任何障碍物。然后，处理器将根据ROI来产生包围盒信息，其中包围盒信息包含包围盒的坐标信息，例如包围盒的四个拐角点的坐标。应注意，这个实施例中的第一对象检测算法可使用任一类型的可不考虑检测性能(例如误报率)而有效地进行计算的对象检测算法以检测包围盒。

然后，图7说明根据本发明的示范性实施例中的一个的多级稀疏更新映像算法中的每一级。参考图5和图7，处理器将根据CNN模型中的包围盒信息通过使用多级稀疏更新映像算法来处理第一对象检测结果(即第t个检测后RGB影像数据502)以产生多级更新后第一对象检测结果。举例来说，在第一级的稀疏更新映像算法中(即图5和图7中所说明的SUM算法步骤S520)中，处理器将通过将包围盒信息映像到框信息图(例如图7中所说明的框信息图)来产生具有多个包围盒(例如图7中所说明的包围盒BBX1、包围盒BBX2、包围盒BBX3)的框信息图作为更新后第一对象检测结果(例如图7中所说明的更新后框信息图)。

详细地说，框信息图包括多个网格单元(例如网格单元GC、网格单元GC0)，且更新后框信息图也包括多个网格单元(例如网格单元GCl、网格单元GC2)，其中网格单元中的每一个的长度是1个像素PIX，且网格单元中的每一个的宽度是1个像素PIX，且框信息图中的网格单元的数目与传感器数据中的像素数目相同。举例来说，框信息图的长度是17个像素PIX，且框信息图的宽度是10个像素PIX，因此在这个实施例中，框信息图的大小(即框信息图的网格单元数目)是170个网格单元，且传感器数据的网格单元数目也包括170个网格单元。应注意，图7仅是实例，且框信息图的网格单元数目不限于本发明。

另外，在将包围盒信息映像到框信息图后，处理器将检查网格单元和包围盒是否对准或不对准。如果网格单元和包围盒不对准，那么处理器会将与包围盒(例如包围盒BBX1)重迭的网格单元(例如网格单元GC0)设置为第一数目区。在另一方面，处理器会将不含包围盒的网格单元(例如网格单元GC)设置为第二数目区。处理器还会将任一组空间上重迭的包围盒(例如包围盒BBX2和包围盒BBX3)组合为重迭包围盒的单个集合。然后，处理器会将第一数目区的值设置为第一指数(例如二进制数的数值1)，且将第二数目区的值设置为第二指数(例如二进制数的数值0)。换句话说，处理器会将真值(即二进制数的数值1)设置为包围盒内(或与包围盒重迭)的网格单元值和重迭包围盒的单个集合内的网格单元值，且将假值(即二进制数的数值0)设置为包围盒外的网格单元值和重迭包围盒的单个集合外的网格单元值。因此，在真值是需要更新的区域的情况下，处理器将知道网格单元的值。应注意，在这个示范性实施例中，第一指数和第二指数是二进制数，但不限于此。以这种方式，处理器将产生更新后第一对象检测结果(即图7中所说明的更新后框信息图)。

图8A到图8E说明根据本发明的示范性实施例中的一个的多级深卷积层算法中的每一级。图8A说明根据本发明的示范性实施例中的一个的多级深卷积层算法中的每一级的详细构架。参考图5和图8A，处理器将基于CNN模型中的多级更新后第一对象检测结果来执行5级的深卷积层算法(例如图8A中所说明的多级的深卷积层算法步骤S530、S540到S550)以对应地提取多个特征结果。应注意，作为示范性实施例，处理器将执行5级的深卷积层算法，但本发明不限制深卷积层算法阶级的数目，图8A仅是实例，且不构成对本发明的限制。在其它实施例中，处理器可执行k级的深卷积层算法，其中k是正整数。

详细地说，在各级深卷积层算法中，处理器将基于前一级的特征结果，通过使用位置层算法来处理多级更新后第一对象检测结果中的前一级的更新后第一对象检测结果以产生带状特征图(strip feature map)(即卷积算法步骤S531的位置层算法步骤S534a)，通过使用卷积层算法来处理带状特征图以产生卷积后带状特征图(即卷积算法步骤S531的卷积层算法步骤S534b)，基于来自多级深卷积层算法中的较早时间点的先前时间特征结果(例如图5和图8A中所说明的第(t-1)个特征图1532、第(t-1)个特征图2542、第(t-1)个特征图3、第(t-1)个特征图4以及第(t-1)个特征图5552)通过使用恢复层算法(即卷积算法步骤S531的恢复层算法步骤S534c)来处理卷积的带状特征图以产生特征结果(例如图5中所说明的第t个特征图1533、第t个特征图2543以及第t个特征图k553)，其中时间点(t-1)于时间点t。

处理器将随后通过使用池化层算法处理特征结果以减小特征结果的空间维度(即卷积算法步骤S531的池化层算法步骤S534d)。换句话说，神经网络算法中的每一个(例如卷积算法conv1、卷积算法conv2、卷积算法conv3、卷积算法conv4、卷积算法conv5以及卷积算法convk)包括位置层算法(position layer algorithm)、卷积层算法、恢复层算法(recovery layer algorithm)以及池化层算法。举例来说，增加各级深卷积层算法的滤波器以便发现后一级处的更详细部分，例如，卷积算法conv1中的64个滤波器、卷积算法conv2中的128个滤波器、卷积算法conv3中的256个滤波器、卷积算法conv4中的512个滤波器以及卷积算法conv5中的512个滤波器，且不限于此。应注意，这些配置可根据网络体系结构的所需设计而改变，不用以限制本发明。

举例来说，描述第一级的深卷积层算法步骤S530作为示范性实施例，处理器将接收更新后第一对象检测结果(即图7中所说明的更新后框信息图)作为前一级的更新后第一对象检测结果，且接收传感器数据(即第t个RGB影像数据501)作为前一级的特征结果，且处理器将随后基于第t个RGB影像数据501通过使用第一级的深卷积层算法来处理更新后框信息图。

然后，在第二级的深卷积层算法步骤S540中，处理器将从第二级的稀疏更新映像算法S521中接收更新后第一对象检测结果作为前一级的更新后第一对象检测结果，且从第一级的深卷积层算法步骤S530中接收特征结果533作为前一级的特征结果，且处理器将随后基于特征结果533通过使用第二级的深卷积层算法S540来处理来自第二级的稀疏更新映像算法S521中的更新后第一对象检测结果，以继续执行第三级的深卷积层算法、第四级的深卷积层算法步骤以及最后一级的深卷积层算法S550。

更具体地说，图8B至图8C说明根据本发明的示范性实施例中的一个的多级位置层算法中的每一级。参考图5，图8A和图8B到图8C，位置层算法包括：接收前一级的更新后第一对象检测结果和前一级的特征结果；基于前一级的特征结果来划分前一级的更新后第一对象检测结果以产生具有多个影像区的位置图，其中影像区中的每一个由N×N个网格单元拼接，且N是正整数；将与第一数目区重迭的影像区的值设置为第一指数；以及将位置图卷积到带状特征图。

详细地说，以第一级的深卷积层算法步骤S530中的位置层算法步骤S534a用作示范性实施例以供说明，处理器将接收更新后第一对象检测结果(即图8B中所说明的更新后框信息图)作为前一级的更新后第一对象检测结果，且接收传感器数据(即第t个RGB影像数据501)作为前一级的特征结果。随后，处理器将基于第t个RGB影像数据501来划分更新后框信息图以产生具有多个影像区(例如影像区IC)的位置图(如图8B中所说明)，其中影像区中的每一个由3×3个网格单元拼接(例如由9个网格单元拼接)。接下来，处理器将与第一数目区重迭的影像区(例如影像区ICl和影像区IC2)的值设置为第一指数。以这种方式，划分更新后框信息图以产生影像区的方式改进计算效率，因为块(例如3×3网格单元)类型的计算方式更适用于深卷积层算法。需注意的是，本实施例的影像区中的每一个虽采用3×3个网格单元拼接而成，然而本发明不限定于此。举例来说，影像区中的每一个可采用任意数量(例如：6×6个网格单元)的网格单元或不同形状的特征图(例如：带状、块状、直条或横条等形状)拼接而成。

处理器将识别位置图(即位置图(w×h))作为带状特征图(即图8C中所说明的影像单元(n×n×C))。更具体地说，位置图(w×h)是通过使用位置层算法来处理第t个RGB影像数据501的这一实施例的实际结果。处理器将随后标记位置图(w×h)上的影像区(即标记后输入图(w×h×C))。然后，处理器会将位置图(w×h)卷积到影像单元(n×n×C)，其中影像单元(n×n×C)的数据报含C个影像区，且C个影像区中的每一个包括3×3个网格单元。以这种方式，将位置图卷积到带状特征图的方式适用于执行卷积层算法。

图8D说明根据本发明的示范性实施例中的一个的多级卷积层算法中的每一级。参考图5、图8A以及图8D，卷积层算法包括：对带状特征图进行卷积以产生卷积的带状特征图。详细地说，第一级的深卷积层算法步骤S530中的卷积层算法步骤S534b用作示范性实施例以供说明，处理器将对带状特征图(即影像单元(n×n×C))进行卷积以产生卷积的带状特征图(即输出影像单元(n×n×C))。应注意，这个实施例中的卷积层算法可使用任一类型的可有效地进行计算的卷积层算法以从输入影像数据提取特征图。

图8E说明根据本发明的示范性实施例中的一个的多级恢复层算法中的每一级。参考图5、图8A以及图8E，恢复层算法包括：接收卷积的带状特征图，且操作卷积的带状特征图和先前时间特征结果以产生特征结果。更具体地说，以第一级的深卷积层算法步骤S530中的恢复层算法步骤S534c用作示范性实施例以供说明，处理器将接收卷积的带状特征图(即输出影像单元(n×n×C))，且根据位置图(w×h)来将卷积的带状特征图恢复为特征图(即特征图(w×h×C))(如图8C中所说明)。详细地说，输出影像单元(n×n×C)的数据并不包含关于原始资料(即图5中所说明的第t个RGB影像数据501)的位置信息，因此其应倒转为具有特征图(即特征图(w×h×C))的位置图。处理器将随后操作特征图(w×h×C)和先前时间特征结果(例如图8E中所说明的第(t-1)个特征图(w×h×C))以产生特征结果(即第t个特征图(w×n×C))，其中特征结果(即第t个特征图(w×n×C))的产生的操作是例如异或(XOR)操作。

图8F说明根据本发明的示范性实施例中的一个的多级池化层算法中的每一级。参考图5、图8A以及图8F，处理器将执行池化层算法以减小特征结果的空间维度，以便从输入特征结果(即来源于先前层的特征结果)获得更适应情境的特征。更具体地说，以第一级的深卷积层算法步骤S530中的池化层算法步骤S534d用作示范性实施例以供说明。处理器将减小特征结果(即图8F中所说明的第t个特征图(w×h×C))的空间维度以变为空间上减小的特征结果(即图8F中所说明的第t个特征图k+1(w×n×C))，其中第t个特征图(w′×h′×C)的位置信息与第t个特征图k+1(w′×h′×C)的位置信息相同，且第t个特征图(w′×h′×C)的维度大于第t个特征图k+1(w′×h′×C)的维度。以这种方式，可通过使用池化层算法减小特征结果的维度，以便减小计算数据量。

换句话说，处理器将在卷积层算法之前执行位置层算法且在卷积层算法之后执行恢复层算法(例如如图8A中所说明的第一级的深卷积层算法步骤S530)，等等，以执行第二级的深卷积层算法步骤S540到最后一级的深卷积层算法步骤S550。

在另一方面，处理器将通过使用多级空间池化算法来处理第一级的更新后第一对象检测结果以减小各级稀疏更新映像算法之间的多级更新后第一对象检测结果的空间维度。更具体地说，图9说明根据本发明的示范性实施例中的一个的多级空间池化算法中的每一级。参考图5和图9，在各级稀疏更新映像算法之间，处理器将减小第一级的更新后第一对象检测结果(即图7和图9中所说明的更新后框信息图)的空间维度，以便对应地匹配特征结果中的每一个的维度。详细地说，例如，处理器将减小由SUM算法步骤S520产生的更新后第一对象检测结果的空间维度以维持更新后框信息图的位置信息且改变更新后第一对象检测结果(即图9中所说明的更新后框信息图k+1)的维度。因此，更新后框信息图k+1的维度与第(t-1)个特征图2542的维度相同。处理器将随后通过使用SUM算法步骤S521来处理更新后框信息图k+1以产生第二级的更新后第一对象检测结果作为深卷积层算法步骤S540的输入数据，等等，以执行下一步骤。应注意，空间池化算法的处理方法和池化层算法的处理方法不同，池化层算法的处理方法是处理特征结果的浮点数，且空间池化算法的处理方法是处理更新后第一对象检测结果的二进制数。

最后，处理器将基于由最后一级的深卷积层算法中产生的最后一级的特征结果来执行感兴趣区域(ROI)池化算法(即ROI池化算法步骤S570)和包围盒回归算法(即包围盒回归算法步骤S580)以执行检测预测(即第t个推断结果503)。详细地说，处理器将提供包围盒的不定范围的界面和空间上互连的完全连接层，使得网络体系结构可具有最后一层的卷积特征(即最后一级的特征结果)且在ROI池化算法步骤S570中作出最终预测结果(即检测预测)，且处理器将随后量化每一ROI的置信度预测最可能属于哪一类别和回归包围盒值以使其更接近于对象且作为最终输出(即第t个推断结果503)。

以这种方式，本发明基于高预测精确性前提通过使用第一对象检测算法、多级的稀疏更新映像算法、多级的空间池化算法以及多级的深卷积层算法来去除更新后第一对象检测结果的不必要的计算区域(即第二数目区)，以改进瞬时计算速度且减小不必要的计算数据量。

图10说明根据本发明的示范性实施例中的一个的对象检测方法的另一实施实例。自动驾驶车辆V1010包括对象检测设备1000。对象检测设备1000包括前置摄影机1001和处理单元1003。前置摄影机1001耦合到处理单元1003，其中处理单元1003是例如具有英特尔酷睿(Intel Core)i9 7900X@3.3GHz、128GB DDR4存储器和通过使用Python程序语言操作的辉达(NVidia)Titan X(Pascal)12GB VRAM的个人计算器，且由前置摄影机1001产生的传感器数据具有1280×720个像素。

参照图10，对象检测设备1000可准确地检测自动驾驶车辆V1010面前的对象，其中平均计算速度达到例如基于CPU的2.934秒/帧，且平均计算速度可达到例如基于GPU的0.040秒/帧。应注意，由S.任(S.Ren)等人，“较快R-CNN：针对具有区域建议网络的实时对象检测(Faster R-CNN：Towards Real-time Object Detection with Region ProposalNetworks)”，CoRR，第abs/1506.01497卷，2016，提出的较快R-CNN(Faster R-CNN)架构平均计算速度可达到基于CPU的8.219秒/帧，且平均计算速度可达到例如基于GPU的0.092秒/帧。因此，对象检测设备1000可快于较快R-CNN，对象检测设备1000可以保持原始构架(即较快R-CNN构架)的准确率并降低复杂度。

对象检测设备1000的复杂性可改进瞬时计算速度且基于高预测精确性前提来降低不必要的计算数据量。换句话说，处理单元1003将配置成至少进行以下操作：通过使用第一对象检测算法来处理传感器数据以产生第一对象检测结果，其中第一对象检测结果包含包围盒信息；通过使用多级稀疏更新映像算法来根据包围盒信息处理第一对象检测结果以在CNN模型中产生多级更新后第一对象检测结果；通过使用多级空间池化算法来处理第一级的更新后第一对象检测结果以减小各级稀疏更新映像算法之间的多级更新后第一对象检测结果的空间维度；基于CNN模型中的多级更新后第一对象检测结果来执行多级深卷积层算法以对应地提取多个特征结果；以及基于由最后一级的深卷积层算法中产生的最后一级的特征结果来执行检测预测(即图5中所说明的第t个推断结果503)。

应注意，对象检测设备1000与图2、图5中描绘的对象检测设备相同或类似。因此，本文中不提供进一步描述。

鉴于前述描述，本发明提供一种适合用于自动驾驶车辆的对象检测设备。具体地说，本发明的目的可包含：根据ROI通过使用所提供的第一对象检测算法来找到包围盒信息；通过使用所提供的稀疏更新映像算法来去除更新后第一对象检测结果的不必要的计算区域；以及提供多级空间池化算法和多级深卷积层算法以执行检测预测。以这种方式，可改进瞬时计算速度。

本申请所公开的实施例的详细描述中使用的组件、动作或指令不应解释为对本发明来说绝对关键或必要的，除非明确地如此描述。而且，如本文中所使用，不定冠词“一(a/an)”可以包含一个以上项目。如果意图表示只有一个项目，那么能够使用术语“单个”或类似语言。此外，如本文中所使用，在多个项目和/或多个项目种类的列表之前的术语“中的任一个”意图包含所述项目和/或项目种类个别地或结合其它项目和/或其它项目种类“中的任一个”、“中的任何组合”、“中的任何多个”和/或“中的多个的任何组合”。此外，如本文中所使用，术语“集合”意图包含任何数目个项目，包含零个。此外，如本文中所使用，术语“数目”意图包含任何数目，包含零。

本领域技术人员将显而易见，在不脱离本发明的范围或精神的情况下，可对所公开的实施例的结构作出各种修改和变化。鉴于前述内容，意图本发明涵盖属于随附权利要求书和其等效物的范围内的本发明的修改及变化。

虽然本发明已以实施例公开如上，然其并非用以限定本发明，任何本领域技术人员，在不脱离本发明的精神和范围内，当可作些许的更动与润饰，故本发明的保护范围当视权利要求所界定的保护范围为准。

Claims

1.一种使用卷积神经网络模型的对象检测方法，其特征在于，所述方法包括：

通过使用传感器产生传感器数据；

通过使用第一对象检测算法来处理所述传感器数据以产生第一对象检测结果，其中所述第一对象检测结果包含包围盒信息；

通过使用多级稀疏更新映像算法来根据所述包围盒信息处理所述第一对象检测结果以在所述卷积神经网络模型中产生多级更新后第一对象检测结果；

通过使用多级空间池化算法来处理第一级的所述更新后第一对象检测结果以减小所述多级稀疏更新映像算法中各级稀疏更新映射算法之间的所述多级更新后第一对象检测结果的空间维度；

基于所述卷积神经网络模型中的所述多级更新后第一对象检测结果来执行多级深卷积层算法以对应地提取多个特征结果；以及

基于由最后一级的所述多级深卷积层算法中产生的最后一级的特征结果来执行检测预测；

其中，所述多级稀疏更新映像算法中包括：

通过将所述包围盒信息映像到框信息图来产生具有多个包围盒的所述框信息图作为所述更新后第一对象检测结果，其中所述框信息图包括多个网格单元，以及所述框信息图中的网格单元数目与所述传感器数据中的像素数目相同。

2.根据权利要求1所述的对象检测方法，其特征在于，所述多级稀疏更新映像算法中进一步包括：

将与所述包围盒重迭的所述网格单元设置为第一数目区，以及将不含所述包围盒的所述网格单元设置为第二数目区；以及

将所述第一数目区的值设置为第一指数，以及将所述第二数目区的值设置为第二指数，其中所述第一指数以及所述第二指数不同。

3.根据权利要求2所述的对象检测方法，其特征在于，所述第一指数表示的区域需要被更新，以及所述第二指数表示的区域不需被更新。

4.根据权利要求2所述的对象检测方法，其特征在于，所述多级稀疏更新映像算法中进一步包括：

将任一组空间上重迭的所述包围盒组合为重迭包围盒的单个集合。

5.根据权利要求1所述的对象检测方法，其特征在于，所述多级深卷积层算法中包括：

基于前一级的所述特征结果，通过使用位置层算法来处理所述多级更新后第一对象检测结果中的前一级的更新后第一对象检测结果以产生带状特征图；

通过使用卷积层算法来处理所述带状特征图以产生卷积后带状特征图；

基于来自所述多级深卷积层算法中较早时间点的先前时间特征结果，通过使用恢复层算法来处理所述卷积后带状特征图以产生所述特征结果；以及

通过使用池化层算法来处理所述特征结果以减小所述特征结果的所述空间维度。

6.根据权利要求5所述的对象检测方法，其特征在于，所述位置层算法包括：

接收所述前一级的更新后第一对象检测结果以及所述前一级的特征结果；

基于所述前一级的特征结果来划分所述前一级的更新后第一对象检测结果以产生具有多个影像区的位置图，其中所述影像区中的每一个由N×N网格单元拼接，以及N是正整数；

将与所述第一数目区重迭的所述影像区的值设置为所述第一指数；以及

将所述位置图卷积到所述带状特征图。

7.根据权利要求6所述的对象检测方法，其特征在于，所述卷积层算法进一步包括：

对所述带状特征图进行卷积以产生卷积后带状特征图。

8.根据权利要求7所述的对象检测方法，其特征在于，所述恢复层算法进一步包括：

接收所述卷积后带状特征图；以及

操作所述卷积后带状特征图以及所述先前时间特征结果以产生所述特征结果。

9.根据权利要求1所述的对象检测方法，其特征在于，通过使用第一对象检测算法来处理所述传感器数据的步骤包括：

基于计算器视觉来检测所述传感器数据以发现感兴趣区域；以及

根据所述感兴趣区域来产生所述包围盒信息。

10.一种对象检测设备，其特征在于，包括：

传感器，用于产生传感器数据；以及

处理器，耦合到所述传感器以及配置成至少进行以下操作：

通过使用多级稀疏更新映像算法来根据所述包围盒信息处理所述第一对象检测结果以在卷积神经网络模型中产生多级更新后第一对象检测结果；

其中，所述多级稀疏更新映像算法中包括：

11.根据权利要求10所述的对象检测设备，其特征在于，所述多级稀疏更新映像算法中进一步包括：

12.根据权利要求11所述的对象检测设备，其特征在于，所述第一指数表示的区域需要被更新，以及所述第二指数表示的区域不需要被更新。

13.根据权利要求11所述的对象检测设备，其特征在于，所述多级稀疏更新映像算法中进一步包括：

14.根据权利要求10所述的对象检测设备，其特征在于，所述多级深卷积层算法中包括：

15.根据权利要求14所述的对象检测设备，其特征在于，所述位置层算法包括：

将所述位置图卷积到所述带状特征图。

16.根据权利要求15所述的对象检测设备，其特征在于，所述卷积层算法进一步包括：

对所述带状特征图进行卷积以产生卷积后带状特征图。

17.根据权利要求16所述的对象检测设备，其特征在于，所述恢复层算法进一步包括：

接收所述卷积后带状特征图；以及

18.根据权利要求17所述的对象检测设备，其特征在于，所述处理器配置成至少通过使用第一对象检测算法来处理所述传感器数据的步骤包括：

根据所述感兴趣区域来产生所述包围盒信息。

19.根据权利要求10所述的对象检测设备，其特征在于，所述传感器包括摄影机。