CN109426803A

CN109426803A - 用于识别对象的方法和设备

Info

Publication number: CN109426803A
Application number: CN201810916953.0A
Authority: CN
Inventors: 田巴罗
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2017-09-04
Filing date: 2018-08-13
Publication date: 2019-03-05
Anticipated expiration: 2038-08-13
Also published as: EP3451230A1; US11804047B2; US11048266B2; KR20190026116A; US20190072977A1; CN109426803B; KR102463175B1; US20210278858A1

Abstract

提供一种用于识别对象的方法和设备，所述方法包括：在神经网络中从输入图像提取特征并产生特征图。与产生特征图的步骤并行地，与感兴趣对象对应的感兴趣区域(ROI)从输入图像被提取，并且用于检测感兴趣对象的对象候选区域的数量基于ROI的大小被确定。基于对象候选区域的数量，感兴趣对象在神经网络中从ROI被识别。

Description

用于识别对象的方法和设备

本申请要求于2017年9月4日提交到韩国知识产权局的第10-2017-0112429号韩国专利申请的权益，所述韩国专利申请的全部公开出于所有目的通过引用包含于此。

技术领域

以下描述涉及一种用于识别对象的方法和设备。

背景技术

车辆的自主驾驶使得各种驾驶操作能够自动地执行。例如，自主车辆在没有驾驶员通过方向盘、加速器踏板或刹车器来操作车辆的情况下独立在道路上行驶。用于自主驾驶的对象识别基于在车辆中分析的图像信息被执行。

发明内容

提供本发明内容以采用简化的形式介绍在下面的具体实施方式中进一步描述的构思的选择。本发明内容不意图识别要求保护的主题的关键特征或必要特征，也不意图被用于帮助确定要求保护的主题的范围。

在一个总的方面，提供一种对象识别方法，包括：在神经网络中，从输入图像提取特征并产生特征图；与产生特征图的步骤并行地，从输入图像提取与感兴趣对象对应的感兴趣区域(ROI)；基于ROI的大小确定用于检测感兴趣对象的对象候选区域的数量；在神经网络中基于对象候选区域的数量从ROI识别感兴趣对象。

感兴趣对象可包括道路、车辆、人、动物、植物和建筑中的任何一个或任何组合。

提取ROI的步骤可包括：基于ROI的大小和输入图像的大小确定对象候选区域的数量。

提取ROI的步骤可包括：计算ROI的大小与输入图像的大小的比率；基于所述比率确定对象候选区域的数量。

识别感兴趣对象的步骤可包括：确定特征图上的对象候选区域的位置；基于对象候选区域的位置，从ROI识别感兴趣对象。

提取ROI的步骤可包括：根据基于训练的场景分割算法和图像处理算法中的任何一个或任何组合来提取ROI。

神经网络可包括基于区域的卷积神经网络(R-CNN)，R-CNN包括区域建议网络(RPN)和检测网络。

所述对象识别方法可包括：基于识别的结果，确定用于控制车辆的速度和车辆的行驶方向的控制参数；使用控制参数来控制车辆的运动。

确定对象候选区域的数量的步骤可包括：计算ROI的大小与输入图像的大小的比率；基于将针对神经网络的默认对象候选区域的数量应用到所述比率，确定对象候选区域的数量。

ROI可包括与道路、车辆、人、动物、植物和建筑中的一个或任何组合对应的区域。

在另一总的方面，提供一种对象识别方法，包括：从输入图像提取与感兴趣对象对应的感兴趣区域(ROI)；基于ROI的大小确定用于检测感兴趣对象的对象候选区域的数量；在神经网络中，基于对象候选区域的数量从ROI识别感兴趣对象。

确定对象候选区域的数量的步骤可包括：基于ROI的大小和输入图像的大小确定对象候选区域的数量。

确定对象候选区域的数量的步骤可包括：计算ROI的大小与输入图像的大小的比率；基于所述比率确定对象候选区域的数量。

识别感兴趣对象的步骤可包括：基于对象候选区域的数量，确定在神经网络中产生的特征图上的对象候选区域的位置；基于对象候选区域的位置，从ROI识别感兴趣对象。

在另一总的方面，提供一种对象识别设备，包括：传感器，被配置为获得输入图像；神经网络，包括多个层，被配置为从输入图像提取特征并产生特征图；处理器，被配置为：与特征图的产生并行地从输入图像提取与感兴趣对象对应的感兴趣区域(ROI)，并基于ROI的大小确定用于检测感兴趣对象的对象候选区域的数量，其中，神经网络还被配置为基于对象候选区域的数量从ROI识别感兴趣对象。

处理器可用于：计算ROI的大小与输入图像的大小的比率，并基于所述比率确定对象候选区域的数量。

在另一总的方面，提供一种对象识别设备，包括：传感器，被配置为获得输入图像；处理器，被配置为：从输入图像提取与感兴趣对象对应的感兴趣区域(ROI)，并基于ROI的大小确定用于检测感兴趣对象的对象候选区域的数量；神经网络，包括多个层，被配置为基于对象候选区域的数量从ROI识别感兴趣对象。

在另一总的方面，提供一种对象识别设备，包括：传感器，被配置为捕获图像；处理器，被配置为：从所述图像提取与感兴趣对象对应的感兴趣区域(ROI)；计算ROI的大小与所述图像的大小的比率；基于所述比率确定用于检测感兴趣对象的对象候选区域的数量；神经网络，被配置为：从所述图像提取特征并产生特征图；基于对象候选区域的数量和特征图，从ROI识别感兴趣对象。

处理器可被配置为：基于识别的对象确定用于控制车辆的速度和车辆的行驶方向的控制参数。

其他特征和方面将从下面的具体实施方式、附图以及权利要求而清楚。

附图说明

图1是示出对象识别设备的网络架构的示例的示图。

图2是示出区域建议网络(RPN)的操作的示例的示图。

图3和图4是示出并行执行对象识别方法的操作的处理的示例的示图。

图5和图6是示出顺序执行对象识别方法的操作的处理的示例的示图。

图7是示出对象识别设备的示例的示图。

贯穿附图和具体实施方式，除非另外描述或提供，否则相同的附图参考标记将被理解为表示相同的元件、特征和结构。附图可不按比例，为了清楚、说明和方便，附图中的元件的相对大小、比例和描绘可被夸大。

具体实施方式

提供下面的具体描述，以帮助读者获得对这里描述的方法、设备和/或系统的全面的理解。然而，在理解本申请的公开之后，这里描述的方法、设备和/或系统的各种改变、修改和等同物将是清楚的。例如，这里描述的操作的顺序仅是示例，操作的顺序不限于这里阐述的顺序，而是除了必须以特定顺序发生的操作以外，可如在理解本申请的公开之后将清楚的那样被改变。此外，为了更加清楚和简明，本领域已知的特征的描述可被省略。

这里描述的特征可以以不同的形式体现，并不将被解释为局限于这里所描述的示例。相反，已经提供这里描述的示例，仅为示出在理解本申请的公开之后将清楚的实现这里描述的方法、设备和/或系统的多种可能的方式中的一些。

本公开中所公开的示例的下面的结构或功能的描述仅意在描述示例的目的，并且示例可以以各种形式实现。示例不意在被限制，而是意图将各种修改、等同物和替代物也涵盖在权利要求的范围内。

虽然“第一”或“第二”的术语被用于解释各种组件，但是这些组件不将被这些术语所限制。这些术语仅用于将一个组件与另一组件区分。例如，在根据本公开的构思的权利的范围内，“第一”组件可被称为“第二”组件，类似地，“第二”组件可被称为“第一”组件。

将理解，当组件被称为“连接到”另一组件时，该组件可直接连接或结合到所述另一组件，或可存在中间组件。

如在这里使用的，除非上下文明确地另有指示，否则单数形式也意图包括复数形式。

在一个示例中，对象识别方法和设备被实现为各种类型的产品，诸如，例如，智能代理、移动电话、蜂窝电话、智能电话、可穿戴智能装置(诸如，戒指、手表、眼镜、眼镜型装置、手镯、踝部支架、腰带、项链、耳环、头带、头盔、嵌入衣服中的装置或者眼镜显示器(EGD))、服务器、个人计算机(PC)、膝上型计算机、平板计算机、笔记本、小型笔记本、上网本、超移动PC(UMPC)、平板个人计算机(平板)、平板手机、移动网络装置(MID)、个人数字助理(PDA)、企业数字助理(EDA)、数码相机、数码摄像机、便携式游戏机、MP3播放器、便携式/个人多媒体播放器(PMP)、手持电子书、便携式手提PC、全球定位系统(GPS)导航、个人导航装置、便携式导航装置(PND)、手持游戏机、电子书、电视机(TV)、高清晰电视机(HDTV)、智能电器、智能家电、智能车辆、信息亭、基于生物测定的门锁、安保装置、金融服务装置、通信系统、图像处理系统、图形处理系统、通过网络控制的各种物联网(IoT)装置、智能车辆、其他消费者电子/信息技术(CE/IT)装置或者与这里公开的装置相一致的能够无线通信或网络通信的任何其他装置。

示例可应用于图像处理以使用智能电话、移动装置、智能家居系统、智能车辆以及自动柜员机(ATM)来识别对象。

在一个示例中，这里描述的对象识别设备可被纳入车辆中。这里描述的车辆是指任何模式的交通、投递或通信，诸如，例如，汽车、卡车、拖拉机、踏板车、摩托车、自行车、水陆两用车、雪橇车、船、公共交通车辆、公共汽车、单轨车、火车、有轨电车、自主或自动驾驶车辆、智能车辆、自驾驶车辆、飞机、无人飞行器、无人驾驶飞机、或者移动装置。此外，示例可用于通过识别对象来为智能车辆的自主驾驶提供信息并控制自主车辆。在一个示例中，对象识别设备可用于需要定位操作的机器人。在下文中，将参照附图详细描述示例，并且附图中相同的参考标号始终指示相同的元件。

这里描述的设备和方法可用于在智能车辆的导航系统中识别对象，以针对完全自主或自动驾驶的车内驾驶辅助产生用于辅助自主或自动驾驶车辆的转向的位置信息，并因此使更安全和更舒适的驾驶成为可能。

图1示出对象识别设备100的网络架构的示例。参照图1，对象识别设备100包括更快的基于区域的卷积神经网络(region-based convolutional neural network，R-CNN)110和处理器130。

在一个示例中，更快的R-CNN 110接收输入图像105的全部区域并立刻处理与输入图像105对应的对象候选区域。更快的R-CNN 110通过在包括多个卷积(conv)层的CNN 111中的最大池化(max-pooling)来立刻从输入图像105的全部区域提取特征，并产生特征图(feature map)113。在一个示例中，可提供特征图113或多个特征图113。例如，特征图113为Conv5特征图。

更快的R-CNN 110获取具有感兴趣对象存在的高概率的候选区域，即，使用区域建议网络(region proposal network，RPN)115从特征图113获取建议116。在下面的描述中，建议116被称为“对象候选区域”。以下将参考图2详细描述RPN 115的配置。

在一个示例中，更快的R-CNN 110将使用RPN 115获取的对象候选区域提供给ROI(即，感兴趣区域)池化层117。在一个示例中，更快的R-CNN 110通过ROI池化层117从特征图113提取固定长度的特征向量。在一个示例中，提取的固定长度的特征向量被应用到全连接(FC)层(未示出)。在一个示例中，更快的R-CNN 110包括被配置为估计对象类别和背景的分类器119，以及被配置为输出每个对象类别的位置的边界框回归器(bounding boxregressor)(未示出)。例如，分类器119为柔性最大(softmax)分类器。在一个示例中，ROI池化层117和分类器119对应于被配置为识别对象的检测网络。分类器119和边界框回归器连接到FC层的后端。

更快的R-CNN 110通过CNN 111针对输入图像105的全部区域仅执行一次卷积操作，并在更快的R-CNN 110中共享该卷积操作的结果。ROI池化层117调节大小，以便各种对象候选区域被输入到FC层。

通常，用于推测更快的R-CNN 110中的对象的推测时间使用等式“推测时间≈1×ConvTime+建议的数量×fcTime”来近似表示。在等式中，ConvTime表示用于在CNN 111中执行卷积操作的时间，fcTime表示在FC层中使用的时间。更快的R-CNN 110的推测时间与建议的数量(即，对象候选区域的数量)成比例。

对象识别设备100减少对象候选区域的数量，对象候选区域的数量与感兴趣区域(ROI)的面积成比例对更快的R-CNN 110中的推测时间具有显著影响，因此，减少推测时间。

例如，对象识别设备100通过从输入图像105快速提取车辆行驶的道路区域并针对该道路区域执行对象识别，来提高对象识别速度。在一个示例中，对象识别设备100将提取的道路区域设置为ROI，将在更快的R-CNN 110中使用的对象候选区域的数量重新设置为适合于ROI的大小，并执行对象识别，以有效地提高对象识别速度。在一个示例中，使用由处理器130执行的场景分割算法提取被设置为ROI的道路区域。处理器130基于ROI的大小来确定对象候选区域的数量，并将对象候选区域的数量提供给RPN 115。在一个示例中，处理器130的上述操作以及在更快的R-CNN 110中产生特征图113的操作被并行执行或顺序地执行。

在一个示例中，当更快的R-CNN 110的操作和处理器130的操作被并行执行时，用于提取ROI并确定对象候选区域的数量的额外的时间量不被计算。

在另一示例中，处理器130使用基于计算机视觉算法的各种ROI提取方案以10毫秒(ms)内的相对高的速度提取ROI，并与更快的R-CNN 110顺序地操作。

在下文中，将参照图3和图4在下面描述更快的R-CNN 110的操作和处理器130的操作被并行执行的示例，并参照图5和图6在下面描述更快的R-CNN 110的操作和处理器130的操作被顺序地执行的示例。

图2示出RPN 115的操作的示例。参照图2，在RPN 115中，输入图像的大小不受限，输出为针对每个对象候选区域的各自具有“对象性分数”的矩形对象的集合。“对象性分数”对应于感兴趣对象存在于对应区域中的概率(例如，0.98或0.86)。例如，RPN 115的模型为全卷积网络的形式。

RPN 115接收包括卷积层的CNN的特征图113作为输入，通过中间层230使用具有“n×n”大小的滑动窗口210执行卷积操作，并产生256维(或512维)特征向量。256维特征向量被应用到分类(cls)层250和回归(reg)层270中的每个。cls层250通过框分类来指示256维特征向量是否表示对象。reg层270产生与256维特征向量对应的对象候选区域的坐标。

例如，cls层250获取指示“k”个对象候选区域中的每个是否对应于对象的对象性分数。因此，cls层250的输出值为“2k个分数”。此外，reg层270输出每个对象候选区域的四个坐标值(X,Y,W,H)。因此，reg层270的输出值为“4k个坐标”。

根据示例，总共“k”个对象候选区域被推荐给每个滑动窗口210。被推荐给每个滑动窗口210的总共“k”个对象候选区域对应于滑动窗口210的规模与长宽比基于滑动窗口210的中心而改变的组合(例如，“k”个定位框(anchor box)290)。

图3示出执行对象识别方法的示例。图3中的操作可以以所示的顺序和方式被执行，然而在不脱离描述的说明性示例的精神和范围的情况下，一些操作的次序可被改变，或一些操作被省略。图3中示出的许多操作可被并行或同时执行。图3的一个或多个块以及块的组合能够由执行指定功能的基于专用硬件的计算机实现，或者由专用硬件以及计算机指令的组合实现。除了下面的图3的描述之外，图1至图2的描述也可应用于图3，并且通过引用合并于此。因此，上面的描述可不在此重复。

参照图3，在操作310中，对象识别设备在神经网络中从输入图像提取特征向量并产生特征图。神经网络包括多个层。例如，神经网络包括R-CNN，R-CNN包括RPN和检测网络。

在操作320中，与在操作310中产生特征图的步骤并行地，对象识别设备使用处理器提取ROI并确定对象候选区域的数量。以下将参照图4进一步描述与产生特征图的步骤并行地执行的操作。在操作320中，对象识别设备从输入图像提取与至少一个感兴趣对象对应的ROI。例如，感兴趣对象包括诸如道路、车辆、人、动物、植物或建筑的对象。此外，例如，ROI为与道路、车辆、人、动物、植物和建筑对应的区域。在一个示例中，对象识别设备使用基于训练的场景分割算法和图像处理算法来提取ROI。

在操作320中，对象识别设备基于ROI的大小确定用于检测感兴趣对象的对象候选区域的数量。例如，对象识别设备基于ROI的大小和输入图像的大小来确定对象候选区域的数量。如下面等式1所示，对象识别设备计算ROI的大小(由道路面积表示)与输入图像的大小(由输入图像面积表示)的比率，并基于计算的比率确定对象候选区域的数量。

[等式1]

在操作330中，对象识别设备基于在操作320中确定的对象候选区域的数量来识别感兴趣对象。在一个示例中，对象识别设备确定在从神经网络输出的特征图上的对象候选区域的位置。例如，对象识别设备使用上述RPN确定对象候选区域的位置(即，坐标)。对象识别设备基于对象候选区域的位置从ROI识别感兴趣对象。

在一个示例中，当感兴趣对象被识别到时，仅提取的ROI(例如，道路区域)而不是输入图像的全部区域被使用。因此，对象候选区域的数量减少，用于对象识别的时间的量被大大减少。

在一个示例中，对象识别设备基于操作330的对象识别结果来确定用于控制车辆的速度和车辆的行驶方向的控制参数，并使用控制参数来控制车辆的运动。

图4示出并行执行对象识别方法的操作的处理的示例。图4中的操作可可以以所示的顺序和方式被执行，然而在不脱离描述的说明性示例的精神和范围的情况下，一些操作的次序可被改变，或一些操作被省略。图4中示出的许多操作可被并行或同时执行。图4的一个或多个块以及块的组合能够由执行指定功能的基于专用硬件的计算机实现，或者由专用硬件以及计算机指令的组合实现。除了下面的图4的描述之外，图1至图3的描述也可应用于图4，并且通过引用合并于此。因此，上面的描述可不在此重复。

参照图4，在一个示例中，操作420、430、440和450在对象识别设备的神经网络中被执行，操作425、435和445由对象识别设备的处理器执行。在一个示例中，图4中的包围操作420、425、430、435和445的虚线对应于在神经网络和处理器中并行执行的操作。

在操作410中，对象识别设备从图像传感器获得输入图像。对象识别设备将输入图像提供给神经网络和处理器。

在操作420中，神经网络从输入图像提取特征。在操作430中，神经网络基于提取的特征产生特征图。与操作420和430并行地，在操作425中，处理器从输入图像提取与感兴趣对象对应的ROI(例如，道路区域)。在一个示例中，对象识别设备使用被训练为检测感兴趣对象的单独的神经网络来检测包括感兴趣对象(例如，道路)的ROI(例如，道路区域)。在这个示例中，单独的神经网络是被训练为检测包括与感兴趣对象一起的感兴趣对象的特征部分的ROI。在另一示例中，对象识别设备基于使用光探测和测距(LiDAR)传感器获得的传感器信息以及由相机或图像传感器捕获的外部图像来检测ROI(例如，道路区域)。在一个示例中，例如，传感器信息包括指示从外部图像检测的距感兴趣对象的距离的深度信息。

在操作435中，处理器计算提取的道路区域的大小与输入图像的大小的比率。例如，如以上在等式1中所述，基于道路区域的面积与输入图像的面积来计算该比率。例如，假设输入图像具有100mm²的大小，输入图像中的道路区域具有25mm²的大小，并且在神经网络中，针对输入图像的“20”个对象候选区域被设置为默认。在这个示例中，道路区域的面积对应于输入图像的大小的25％。在操作445中，处理器通过将道路区域的面积与输入图像的大小的比率(例如，25％)乘以在神经网络中被设置为默认的针对输入图像的对象候选区域的数量(例如，“20”)，来确定对象候选区域的数量。例如，“5”个对象候选区域通过将25％的比率乘以“20”被确定。

在一个示例中，处理器预先以查找表的形式存储基于道路区域的大小与输入图像的大小的比率确定的对象候选区域的数量。例如，当道路区域的面积被计算时，处理器基于查找表确定对象候选区域的数量。处理器将对象候选区域的数量传送到神经网络。

在操作440中，响应于接收到在操作445中确定的对象候选区域的数量，神经网络确定在操作430中产生的特征图上的对象候选区域的位置。

在操作450中，神经网络基于对象候选区域的位置从ROI识别感兴趣对象。因此，神经网络从ROI而不是输入图像的整个区域识别感兴趣对象，并减少用于对象识别的时间。

图5示出对象识别方法的另一示例。图5中的操作可以以所示的顺序和方式被执行，然而在不脱离描述的说明性示例的精神和范围的情况下，一些操作的次序可被改变，或一些操作被省略。图5中示出的许多操作可被并行或同时执行。图5的一个或多个块以及块的组合能够由执行指定功能的基于专用硬件的计算机实现，或者由专用硬件以及计算机指令的组合实现。除了下面的图5的描述之外，图1至图4的描述也可应用于图5，并且通过引用合并于此。因此，上面的描述可不在此重复。

参照图5，在操作510中，对象识别设备从输入图像提取与至少一个感兴趣对象对应的ROI。例如，对象识别设备使用基于训练的场景分割算法和图像处理算法的任何一个或任何组合来提取ROI。例如，感兴趣对象包括道路、车辆、人、动物、植物或建筑。此外，例如，ROI为与道路、车辆、人、动物、植物和建筑对应的区域。

在操作520中，对象识别设备基于ROI的大小确定用于检测感兴趣对象的对象候选区域的数量。例如，如上面等式1中所述，对象识别设备计算ROI的大小和输入图像的大小的比率并基于计算的比率确定对象候选区域的数量。

在操作530中，对象识别设备在神经网络中基于对象候选区域的数量从ROI识别感兴趣对象。例如，对象识别设备基于确定的对象候选区域的数量来确定在神经网络中产生的特征图上的对象候选区域的位置。对象识别设备基于对象候选区域的位置从ROI识别感兴趣对象。例如，神经网络包括R-CNN，R-CNN包括RPN和检测网络。

对象识别设备基于对象识别结果确定用于控制车辆的速度和车辆的行驶方向的控制参数，并使用控制参数控制车辆的运动。

图6示出顺序执行对象识别方法的操作的处理的示例。图6中的操作可可以以所示的顺序和方式被执行，然而在不脱离描述的说明性示例的精神和范围的情况下，一些操作的次序可被改变，或一些操作被省略。图6中示出的许多操作可被并行或同时执行。图6的一个或多个块以及块的组合能够由执行指定功能的基于专用硬件的计算机实现，或者由专用硬件以及计算机指令的组合实现。除了下面的图6的描述之外，图1至图5的描述也可应用于图6，并且通过引用合并于此。因此，上面的描述可不在此重复。

参照图6，在一个示例中，操作610、620、630和640由对象识别设备的处理器执行，操作650、660、670和680由对象识别设备的神经网络执行。

在操作610中，对象识别设备从相机或图像传感器获得输入图像。对象识别设备将输入图像提供给处理器。

在操作620中，处理器从输入图像提取与感兴趣对象对应的ROI(例如，道路区域)。处理器将输入图像和关于提取的道路区域的信息传送给神经网络。在操作650中，神经网络基于关于道路区域的信息从输入图像提取特征。在操作660中，神经网络基于提取的特征产生特征图。

在一个示例中，对象识别设备使用被训练为检测感兴趣对象的单独的神经网络来检测包括感兴趣对象(例如，道路)的ROI(例如，道路区域)。在这个示例中，单独的神经网络是被训练为检测包括与感兴趣对象一起的感兴趣对象的特征部分的ROI。在一个示例中，对象识别设备基于使用LiDAR传感器获得的传感器信息以及由相机或图像传感器捕获的外部图像来检测ROI(例如，道路区域)。在这个示例中，例如，传感器信息包括指示从外部图像检测的距感兴趣对象的距离的深度信息。

在操作630中，处理器计算提取的道路区域的大小与输入图像的大小的比率。例如，如以上在等式1中所述，基于道路区域的面积与输入图像的面积来计算该比率。

在操作640中，处理器通过将在操作630中计算的比率乘以在神经网络中设置的针对输入图像的对象候选区域的默认数量，来确定对象候选区域的数量。

在操作670中，响应于从处理器接收到在操作640中确定的对象候选区域的数量，神经网络确定在操作660中产生的特征图上的对象候选区域的位置。

在操作680中，神经网络基于对象候选区域的位置从ROI识别感兴趣对象。

图7示出对象识别设备700的示例。参照图7，对象识别设备700包括传感器710、处理器730、神经网络750和显示器(未示出)。传感器710、处理器730、神经网络750和显示器经由通信总线705彼此通信。对象识别设备700还包括存储器(未示出)。

传感器710获得输入图像。例如，传感器710包括图像传感器或LiDAR传感器。可提供单个传感器710或多个传感器710。

处理器730与在神经网络750中的特征图的产生并行地提取与至少一个感兴趣对象对应的ROI。此外，处理器730基于ROI的大小确定用于检测感兴趣对象的对象候选区域的数量。处理器730计算ROI的大小与输入图像的大小的比率，并基于计算的比率确定对象候选区域的数量。

例如，神经网络750为更快的R-CNN。在一个示例中，神经网络750包括卷积网络751、RPN 753和检测网络755。卷积网络751从输入图像提取特征并产生特征图。卷积网络751包括多个卷积层。RPN 753针对输入图像的全部区域确定对象候选区域。确定的对象候选区域的数量对应于默认值。检测网络755基于对象候选区域的数量从ROI识别感兴趣对象。卷积网络751、RPN 753和检测网络755分别对应于图1的CNN 111、RPN 115和包括ROI池化层117和分类器119的检测网络，因此图1的上面描述可应用于卷积网络751、RPN 753和检测网络755中的每个的操作。

在一个示例中，由对象识别设备700识别的对象被输出到显示器。在一个示例中，对象识别设备700通过平视显示器(HUD)将对象显示在车辆的挡风玻璃上。然而，位置的显示不限于前面描述的示例，并且使用增强现实或车辆中的显示面板的车辆中的任何其他的仪表群、车载信息娱乐系统、屏幕可执行显示功能。在不脱离描述的说明性的示例的精神和范围的情况下，操作性地连接到对象识别设备700的其他显示器(诸如，例如，智能电话和眼镜显示器(EGD))可被使用。

存储器存储输入图像以及由处理器730确定的对象候选区域的数量。在一个示例中，存储器存储查找表，其中，在查找表中，预先存储基于ROI的大小与输入图像的大小的比率的对象候选区域的数量。例如，存储器为易失性存储器或非易失性存储器。在下面提供存储器的进一步描述。

例如，处理器730从输入图像提取与至少一个感兴趣对象对应的ROI，并基于ROI的大小确定用于检测感兴趣对象的对象候选区域的数量。在这个示例中，神经网络750包括被配置为基于对象候选区域的数量从ROI识别感兴趣对象的多个层。

在一个示例中，处理器730和神经网络750执行参照图1至图6在上面描述的方法中的至少一个或对应于方法中的至少一个的算法。处理器730和神经网络750执行程序并控制对象识别设备700。由处理器730和神经网络750执行的程序代码被存储在存储器中。

这里针对图1、图2和图7描述的对象识别设备700、神经网络750、其他设备、单元、模块、装置和组件由硬件组件来实现。可用于执行本申请中描述的操作的硬件组件的示例在适当情况下包括控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器和被配置为执行本申请中描述的操作的任何其他电子组件。在其他示例中，通过计算硬件(例如，通过一个或多个处理器或计算机)来实现执行本申请中描述的操作的一个或多个硬件组件。可通过一个或多个处理元件(诸如，逻辑门的阵列、控制器和算术逻辑单元、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器或被配置为以限定的方式响应并执行指令以获得期望结果的任意其他装置或装置的组合)来实现处理器或计算机。在一个示例中，处理器或计算机包括(或连接到)存储由处理器或计算机执行的指令或软件的一个或多个存储器。通过处理器或计算机实现的硬件组件可执行指令或软件(诸如，操作系统(OS)和在OS上运行的一个或多个软件应用)，以执行本申请中描述的操作。硬件组件还可响应于指令或软件的执行而访问、操控、处理、创建和存储数据。为了简明起见，单数术语“处理器”或“计算机”可用于本申请中描述的示例的描述，但在其他示例中，多个处理器或计算机可被使用，或者处理器或计算机可包括多个处理元件或多种类型的处理元件或二者。例如，可通过单个处理器、或者两个或更多个处理器、或者处理器和控制器来实现单个硬件组件或者两个或更多个硬件组件。可通过一个或多个处理器、或者处理器和控制器来实现一个或多个硬件组件，可通过一个或多个其他处理器、或者另一处理器和另一控制器来实现一个或多个其他硬件组件。一个或多个处理器、或者处理器和控制器可实现单个硬件组件或者两个或更多个硬件组件。硬件组件可具有任意一个或多个不同的处理配置，其示例包括单个处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理和多指令多数据(MIMD)多处理。

通过被实现为如上面描述地执行指令或软件以执行本申请中描述的由所述方法执行的操作的计算硬件(例如，通过一个或多个处理器或计算机)来执行在图3至图6中示出的执行本申请中描述的操作的方法。例如，可通过单个处理器、或者两个或更多个处理器或者处理器和控制器来执行单个操作或者两个或更多个操作。可通过一个或多个处理器、或者处理器和控制器来执行一个或多个操作，可通过一个或多个其他处理器、或者另一处理器和另一控制器来执行一个或多个其他操作。一个或多个处理器、或者处理器和控制器可执行单个操作或者两个或更多个操作。

用于控制处理器或计算机实现硬件组件并且执行如上面描述的方法的指令或软件被写为计算机程序、代码段、指令或它们的任何组合，用于单独地或共同地指示或配置处理器或计算机作为用于执行由硬件组件执行的操作和如上所述的方法的机器或专用计算机进行操作。在一个示例中，指令或软件包括存储防止冲突的方法的小程序(applet)、动态链接库(DLL)、中间件、固件、装置驱动器、应用程序中的至少一个。在一个示例中，指令或软件包括直接由一个或多个处理器或计算机执行的机器代码，诸如，由编译器产生的机器代码。在另一示例中，指令或软件包括由一个或多个处理器或计算机使用解释器执行的更高级代码。可基于附图中示出的框图和流程图以及公开了用于执行由硬件组件执行的操作和如上所述的方法的算法的说明书中的相应描述，使用任意的编程语言编写指令或软件。

用于控制处理器或计算机实现硬件组件并且执行如上所述的方法的指令或软件以及任何相关联的数据、数据文件以及数据结构可被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中，或被记录、存储或固定在一个或多个非暂时性计算机可读存储介质上。非暂时性计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-RLTH、BD-RE、蓝光或光盘存储、硬盘驱动(HDD)、固态驱动(SSD)、卡型存储器(诸如，多媒体卡微)或卡(例如，安全数字(SD)或超数字(XD))、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘和被配置为以非暂时性的方式存储指令或软件以及任何相关联的数据、数据文件和数据结构的任意其他装置，并将指令或软件以及任何相关联的数据、数据文件以及数据结构提供给处理器或计算机，以便处理器或计算机能执行指令。在一个示例中，指令或软件以及任何相关联的数据、数据文件以及数据结构被分布在联网的计算机系统上，使得指令或软件以及任何相关联的数据、数据文件以及数据结构通过一个或多个处理器或计算机以分布式的方式被存储、访问和执行。

虽然本公开包括特定示例，但是在获得对本申请的公开的全面理解之后将清楚的是：在不脱离权利要求和它们的等同物的精神和范围的情况下，可对这些示例进行形式和细节上的各种改变。在此描述的示例应仅在描述意义上考虑，而非为了限制的目的。在每个示例中的特征或方面的描述将被视为可应用于其他示例中的相似特征或方面。如果以不同的顺序执行描述的技术，和/或如果描述的系统、架构、装置或电路中的组件以不同方式被组合和/或被其他组件或其等同物替代或补充，则可实现合适的结果。因此，本公开的范围并非由具体实施方式限定，而是由权利要求和它们的等同物所限定，并且在权利要求和它们的等同物的范围内的所有变化将被解释为包括在本公开中。

Claims

1.一种对象识别方法，包括：

在神经网络中，从输入图像提取特征并产生特征图；

与产生特征图的步骤并行地，从输入图像提取与感兴趣对象对应的感兴趣区域ROI；

基于ROI的大小确定用于检测感兴趣对象的对象候选区域的数量；

在神经网络中基于对象候选区域的数量从ROI识别感兴趣对象。

2.如权利要求1所述的对象识别方法，其中，感兴趣对象包括道路、车辆、人、动物、植物和建筑中的任何一个或任何组合。

3.如权利要求1所述的对象识别方法，其中，确定对象候选区域的数量的步骤包括：基于ROI的大小和输入图像的大小确定对象候选区域的数量。

4.如权利要求3所述的对象识别方法，其中，确定对象候选区域的数量的步骤包括：

计算ROI的大小与输入图像的大小的比率；

基于所述比率确定对象候选区域的数量。

5.如权利要求1所述的对象识别方法，其中，识别感兴趣对象的步骤包括：

确定特征图上的对象候选区域的位置；

基于对象候选区域的位置，从ROI识别感兴趣对象。

6.如权利要求1所述的对象识别方法，其中，提取ROI的步骤包括：根据基于训练的场景分割算法和图像处理算法中的任何一个或任何组合来提取ROI。

7.如权利要求1所述的对象识别方法，其中，神经网络包括基于区域的卷积神经网络R-CNN，R-CNN包括区域建议网络RPN和检测网络。

8.如权利要求1所述的对象识别方法，还包括：

基于识别的结果，确定用于控制车辆的速度和车辆的行驶方向的控制参数；

使用控制参数来控制车辆的运动。

9.如权利要求1所述的对象识别方法，其中，确定对象候选区域的数量的步骤包括：

计算ROI的大小与输入图像的大小的比率；

基于将针对神经网络的对象候选区域的默认数量应用到所述比率，确定对象候选区域的数量。

10.如权利要求1所述的对象识别方法，其中，ROI包括与道路、车辆、人、动物、植物和建筑中的任何一个或任何组合对应的区域。

11.一种存储指令的非暂时性计算机可读存储介质，当所述指令被处理器执行时，使处理器执行如权利要求1所述的方法。

12.一种对象识别方法，包括：

从输入图像提取与感兴趣对象对应的感兴趣区域ROI；

在神经网络中，基于对象候选区域的数量从ROI识别感兴趣对象。

13.如权利要求12所述的对象识别方法，其中，感兴趣对象包括道路、车辆、人、动物、植物和建筑中的任何一个或任何组合。

14.如权利要求12所述的对象识别方法，其中，确定对象候选区域的数量的步骤包括：基于ROI的大小和输入图像的大小确定对象候选区域的数量。

15.如权利要求14所述的对象识别方法，其中，确定对象候选区域的数量的步骤包括：

计算ROI的大小与输入图像的大小的比率；

基于所述比率确定对象候选区域的数量。

16.如权利要求12所述的对象识别方法，其中，识别感兴趣对象的步骤包括：

基于对象候选区域的数量，确定在神经网络中产生的特征图上的对象候选区域的位置；

基于对象候选区域的位置，从ROI识别感兴趣对象。

17.如权利要求12所述的对象识别方法，其中，提取ROI的步骤包括：根据基于训练的场景分割算法和图像处理算法中的任何一个或任何组合来提取ROI。

18.如权利要求12所述的对象识别方法，其中，神经网络包括基于区域的卷积神经网络R-CNN，R-CNN包括区域建议网络RPN和检测网络。

19.如权利要求12所述的对象识别方法，还包括：

使用控制参数来控制车辆的运动。

20.一种存储指令的非暂时性计算机可读存储介质，当所述指令被处理器执行时，使处理器执行如权利要求12所述的方法。

21.一种对象识别设备，包括：

传感器，被配置为获得输入图像；

神经网络，包括多个层，被配置为从输入图像提取特征并产生特征图；

处理器，被配置为：与特征图的产生并行地从输入图像提取与感兴趣对象对应的感兴趣区域ROI，并基于ROI的大小确定用于检测感兴趣对象的对象候选区域的数量，

其中，神经网络还被配置为基于对象候选区域的数量从ROI识别感兴趣对象。

22.如权利要求21所述的对象识别设备，其中，处理器还被配置为：计算ROI的大小与输入图像的大小的比率，并基于所述比率确定对象候选区域的数量。

23.一种对象识别设备，包括：

传感器，被配置为获得输入图像；

处理器，被配置为：从输入图像提取与感兴趣对象对应的感兴趣区域ROI，并基于ROI的大小确定用于检测感兴趣对象的对象候选区域的数量；

神经网络，包括多个层，被配置为基于对象候选区域的数量从ROI识别感兴趣对象。

24.一种对象识别设备，包括：

传感器，被配置为捕获图像；

处理器，被配置为：

从所述图像提取与感兴趣对象对应的感兴趣区域ROI，

计算ROI的大小与所述图像的大小的比率，

基于所述比率确定用于检测感兴趣对象的对象候选区域的数量；

神经网络，被配置为：

从所述图像提取特征并产生特征图，

基于对象候选区域的数量和特征图，从ROI识别感兴趣对象。

25.如权利要求24所述的对象识别方法，其中，处理器还被配置为：基于识别的对象确定用于控制车辆的速度和车辆的行驶方向的控制参数。