CN110555362A

CN110555362A - 物体识别装置

Info

Publication number: CN110555362A
Application number: CN201910451289.1A
Authority: CN
Inventors: 桥本大辅; 武安聡; 平野公太
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2018-05-31
Filing date: 2019-05-28
Publication date: 2019-12-10
Anticipated expiration: 2039-05-28
Also published as: JP6988698B2; JP2019211831A; US20190370978A1; CN110555362B; US10937176B2

Abstract

本发明提供一种物体识别装置，其在对运算负荷进行抑制的同时适当地实施物体识别。物体识别装置(210)具备：第一输出单元(211)，其利用以第一图像数据为输入的神经网络(300)而输出第一物体的暂定位置以及跟踪优先度；第二输出单元(212)，其以第一图像数据、暂定位置以及跟踪优先度为输入，并且，(ⅰ)针对跟踪优先度满足预定的条件的第一物体，执行时间序列跟踪处理并输出位置及速度，(ⅱ)针对跟踪优先度不满足预定的条件的第一物体，不执行时间序列跟踪处理，且输出位置。神经网络为，利用教师数据进行了学习的完成学习神经网络，所述教师数据包含第二图像数据和第二图像数据中的第二物体的位置以及跟踪优先度的正确数据。

Description

物体识别装置

技术领域

本发明涉及一种对包含于图像数据中的物体进行识别的物体识别装置的技术领域。

背景技术

作为这种装置，已知一种在实施图像识别时执行对应识别物体进行追踪的跟踪处理的装置(例如，参照专利文献1)。

在先技术文献

专利文献

专利文献1：日本特开平06-075935号公报

发明内容

发明要解决的课题

在应识别物体中，存在应该执行跟踪处理的物体(即，能够通过执行跟踪处理而获得有用的信息的物体)和不应该执行跟踪处理的物体(即使执行跟踪处理也无法获得有用的信息的物体)。因此，若针对所有的物体执行跟踪处理，则存在无端地增加运算负荷这样的技术性问题点。在上述的专利文献1中，并未考虑上述那样的问题，因此在抑制运算负荷这一点上还具有改善的余地。

本发明是鉴于例如上述问题点而完成的发明，其课题在于，提供一种能够在抑制运算负荷的同时适当地实施物体识别的物体识别装置。

用于解决课题的手段

在本发明所涉及的物体识别装置的一个方式中，所述物体识别装置基于按时间序列输入的第一图像数据，对被包含在所述第一图像数据中的第一物体进行识别，所述物体识别装置具备：第一输出单元，其利用以所述第一图像数据为输入的神经网络而输出表示所述第一物体的暂定位置以及表示应该执行时间序列跟踪处理的程度的跟踪优先度；第二输出单元，其以所述第一图像数据、所述暂定位置以及所述跟踪优先度为输入，并且，(ⅰ)针对所述跟踪优先度满足预定的条件的所述第一物体，执行所述时间序列跟踪处理并输出位置及速度，(ⅱ)针对所述跟踪优先度不满足所述预定的条件的所述第一物体，不执行所述时间序列跟踪处理，且输出位置，所述神经网络为，利用教师数据进行了学习的完成学习神经网络，所述教师数据是基于和所述第一图像数据不同的第二图像数据而制作的。

附图说明

图1为表示本实施方式所涉及的车辆的结构的框图。

图2为表示本实施方式所涉及的神经网络的结构的框图。

图3为表示本实施方式所涉及的神经网络的学习所使用的教师数据的制作方法的流程图。

图4为表示本实施方式所涉及的物体识别部的动作的流程的流程图。

具体实施方式

以下，参照附图，对物体识别装置的实施方式进行说明。

<装置结构>

首先，参照图1，对搭载有本实施方式所涉及的物体识别装置的车辆的整体结构进行说明。图1为表示本实施方式所涉及的车辆的结构的框图。

如图1所示，本实施方式所涉及的车辆10被构成为，具备摄像机100和ECU(Electric Control Unit:电子控制单元)200。

摄像机100被构成为，例如由能够对车辆10的周围(例如，行进方向前方的情况)进行拍摄的车载摄像机。且为摄像机100所拍摄到的时间序列的图像数据被输出至ECU200中的结构。此外，摄像机100所输出的图像数据为后述的附录中的“第一图像数据”的一个具体例。

ECU200被构成为能够对车辆的各部进行控制的控制单元。ECU200被构成为，作为用于实现其功能的处理模块或者物理上的处理电路而具备物体识别部210、规划处理部220以及车辆控制部230。

物体识别部210是作为本实施方式所涉及的“物体识别装置”的一个具体例而发挥作用的部分，且被构成为能够根据摄像机100所拍摄的图像数据中而对包含在图像中的物体的位置、种类、速度等进行识别。物体识别部210具备第一识别部211以及第二识别部212。

第一识别部211具备以从摄像机100输出的图像数据为输入的神经网络300。且为神经网络300的运算结果被输出至第二识别部212中的结构。第一识别部211为后述的附录中的“第一输出单元”的一个具体例。

此处，参照图2，对神经网络300的具体结构进行说明。图2为表示本实施方式所涉及的神经网络的结构的框图。

如图2所示，神经网络300具备神经网络主干部310、位置推断用神经网络部320、种类检测用神经网络部330以及跟踪优先度检测用神经网络部340。上述各部分别由多个卷积神经网络等构成。从摄像机100输出的图像被输入至神经网络主干部310中，然后，分别从位置推断用神经网络部320、种类检测用神经网络部330以及跟踪优先度检测用神经网络部340中输出包含在图像数据中的物体的位置(换言之，坐标信息)、种类(例如，车辆、行人等属性信息)以及跟踪优先度。

另外，此处的“跟踪优先度”是指，用于对是否应该在物体识别部210中实施跟踪处理进行判断的参数，并且针对应该优先实施跟踪处理的物体而计算为较高的值，针对不应该优先实施跟踪处理的物体而计算为较低的值。换言之，跟踪优先度为，表示是否应该针对物体而实施高精度的识别的参数。跟踪优先度例如是基于物体的遮挡率(即，被其他的物体遮蔽的遮蔽比例)、截断率(即，伸出至拍摄范围外的比例)、或者物体是否处于隔着护栏或中央隔离带的对面侧的判断、或者物体给车辆10的行驶带来的影响度等而计算出的。

更具体而言，在物体的遮挡率较高(即，被遮蔽的比例较大)的情况下，判断为在从车辆10进行观察时物体存在于里侧的可能性较高，因此计算为相对较低的值的跟踪优先度。另一方面，在物体的遮挡率较低(即，被遮蔽的比例较小)的情况下，判断为在从车辆10进行观察时物体存在于跟前侧的可能性较高，因此计算为相对较高的值的跟踪优先度。作为遮挡率，例如能够使用物体在摄像机图像上的像素面积的被其他物体遮蔽的遮蔽率等。教师数据的遮挡率通过如下方式求出，即，在后述的教师数据制作时，以由注解作业人员所注解的经验法则或者物体的模型信息为基础而对物体的真实的像素面积进行推断，并且设为“遮挡率＝(物体的真实的像素面积推断值-摄像机图像上的物体的像素面积)/物体的真实的像素面积推断值”。通过使神经网络300学习教师数据的遮挡率，从而使第一识别部211能够在不经由基于规则库所进行的判断或人的介入的情况下，推断出物体的遮挡率。

另外，在物体的截断率较高(即，伸出至图像框外的比例较大)的情况下，判断为物体存在于从车辆10的正面偏离的位置的可能性较高，因此计算为相对较低的值的跟踪优先度。另一方面，在物体的截断率较低(即，突出至图像框外的比例较小)的情况下，判断为物体存在于接近车辆10的正面的位置的可能性较高，因此计算为相对较高的值的跟踪优先度。作为截断率，例如能够使用因物体的摄像机图像上的像素面积的、因摄像机死角而造成的遮蔽率等。教师数据的截断率通过如下方式求出，即，在后述的教师数据制作时，以注解作业人员所注解的经验法则或者物体的模型信息为基础而对包含摄像机的视野(Field ofView，FOV)外的区域在内的物体的真实的像素面积进行推断，并设为“截断率＝(物体的真实的像素面积推断值-FOV内的物体的像素面积)/物体的真实的像素面积推断值”。通过使神经网络300学习教师数据的截断率，从而使第一识别部211能够在不经由通过规则库而进行的判断或人的介入的情况下，推断出物体的截断率。

另外，在物体位于隔着护栏或中央隔离带的对面侧的情况下，判断为物体不给车辆10的行驶带来影响的可能性较高，因此计算为相对较低的值的跟踪优先度。另一方面，在物体处于护栏或中央隔离带的跟前侧的情况下，判断为物体给车辆10的行驶带来影响的可能性较高，因此计算为相对较高的值的跟踪优先度。在后述的教师数据的制作时，以由注解作业人员注解的目视确认等为基础而标记上对物体是否位于隔着护栏或中央隔离带的对面侧进行判断的结果。通过使神经网络300学习被标记的结果，从而使第一识别部211能够在不经由通过规则库进行的判断或人的介入的情况下，对物体是否处于隔着护栏或中央隔离带的对面侧进行判断。

并且，在物体给车辆10的行驶带来的影响度较高(例如，是能够判断为发生碰撞可能性较高这样的物体)的情况下，判断为应提高对于物体的识别精度，因此计算为相对较高的值的跟踪优先度。另一方面，在物体给车辆10的行驶带来的影响度较低(例如，是能够判断为发生碰撞可能性较低这样的物体)的情况下，判断为不提高对于物体的识别精度，因此计算为相对较低的值的跟踪优先度。在后述的教师数据的制作时，标记如下的结果，即，注解作业人员根据驾驶经验而对物体是否为在平时的驾驶习惯中进行追踪的物体进行判断、以及基于经验法则而对物体否为需要追踪的物体进行判断的结果。通过使神经网络30学习被标记的结果，从而使第一识别部211能够在不经由通过规则库而进行的判断或人的介入的情况下，判断出是否应该对物体进行跟踪。

返回图1，第二识别部212被构成为，能够基于从摄像机100输出的图像数据以及从第一识别部211(换言之，神经网络300)输入的各种信息，而计算出物体的位置、物体的种类、物体的实例固有ID、物体的速度。且构成为第二识别部212的计算结果被输出至规划处理部220中。第二识别部212为后述的附录中的“第二输出单元”的一个具体例。

规划处理部220基于物体识别部210的识别结果(即，物体的位置、物体的种类、物体的速度)，来确定应该如何对车辆10的行驶进行控制。规划处理部220例如为了避免车辆10与识别出的物体的碰撞，而确定与车辆的行驶路径、行驶速度等相关的参数。且构成为，在规划处理部220中所确定的参数被输出至车辆控制部230。

车辆控制部230基于从规划处理部220输入的参数，而对车辆10的各部进行控制。车辆控制部230例如对车辆10的制动驱动器进行控制从而执行车辆的制动控制，或者对车辆的转向驱动器进行控制从而执行车辆的自动转向控制。

<神经网络的学习>

接下来，参照图3，对在神经网络300的学习中使用的教师数据的制作方法进行说明。图3为表示在本实施方式所涉及的神经网络的学习中使用的教师数据的制作方法的流程图。

如图3所示，在制作教师数据时，首先从成为教师数据的基础的多个图像数据之中选择一个图像(步骤S101)。另外，此处的多个图像数据为在后述的附录的“第二图像数据”的一个具体例。被用于教师数据的制作中的多个图像数据是与摄像机100所拍摄的图像数据那样的时间序列的图像数据不同的数据(即，是为了教师数据制作用而另外准备的图像数据)。

接下来，从所选择的图像所包含的多个物体之中，选择要实施正确数据的标记的一个物体(步骤S102)。

接下来，实施BBOX(Bounding box，包围盒)的标记(步骤S103)，所述BBOX是包含所选择的物体在内的矩形区域。即，实施与物体的位置相关的正确数据的标记。

接下来，实施所选择的物体的种类的标记(步骤S104)。即，实施与物体的种类相关的正确数据的标记。

接下来，实施所选择的物体的跟踪优先度的标记(步骤S105)。即，实施与物体的跟踪优先度相关的正确数据的标记。跟踪优先度的正确数据如已经说明的那样，基于物体的遮挡率、截断率以及对车辆10的行驶的影响度等而被标记。此外，跟踪优先度的标记除了通过作业人员的目视而进行的人工注解以外，也可以是半自动注解或者全自动注解等。

当物体的位置、种类、跟踪优先度的标记完成时，对是否选择了所选择的图像中包含的全部的物体(即，是否执行了针对全部的物体的标记)进行判断(步骤S106)。在被判断为未选择全部的物体的情况下(步骤S106：否)，再次执行步骤S102的处理。即，将图像中包含的物体中的还未被选择的物体作为标记的对象而进行选择，并再次开始一系列的处理。如此，反复执行正确数据的标记，直至对图像中的全部的物体均完成为止。但是，关于不需要进行标记的物体(例如，作为教师数据的意义较小的物体等)，也可以省略标记。

在判断为选择了全部的物体的情况下(步骤S106：是)，对是否选择了全部的图像(即，对是否针对在教师数据的制作中所利用的多个图像数据的全部均执行了正确数据的标记)进行判断(步骤S107)。在判断为未选择全部的图像的情况下(步骤S107：否)，再次执行步骤S101的处理。即，选择在教师数据的制作所利用的图像中的还未被选择的图像作为标记的对象，并再次开始一系列的处理。如此，反复执行正确数据的标记，直至对多个图像数据的全部均完成为止。

此外，典型的上述教师数据的制作是在装置的出厂前实施的，神经网络300的学习也在装置的出厂前实施。但是，教师数据的制作是可以在装置的出厂后利用由摄像机100拍摄的图像数据的一部分或者从外部(例如，其他车辆等)接收的图像数据等而实施的。即，可以对神经网络300实施所谓的在线学习。

<物体识别动作>

接下来，参照图4，对使用了完成学习的神经网络300的物体识别动作(即，物体识别部210的动作)进行说明。图4为表示本实施方式所涉及的物体识别部的动作的流程的流程图。

如图4所示，在物体识别动作时，首先第一识别部211利用神经网络300而计算出物体的位置、种类、跟踪优先度(步骤S201)。被计算出的物体的位置、种类、跟踪优先度分别被输出至第二识别部212。在本实施方式中，作为物体的位置而计算出表示物体的包围盒(Bounding Box，BBOX)的位置的像素坐标。

接下来，第二识别部212基于跟踪优先度而制作应该执行跟踪处理的物体的列表A(步骤S202)。包含于列表A中的物体(换言之，应该执行跟踪处理的物体)是根据跟踪优先度是否满足预定的条件来确定的。例如，可以仅将图像所包含的物体中的跟踪优先度高于预定阈值B的物体追加到列表A中。

接下来，按照像素尺寸从大到小的顺序逐一地从被包含于列表A中的物体之中选择物体(步骤S203)。而且，对所选择的物体执行跟踪状态的更新处理(即，跟踪处理)(步骤S204)。具体而言，例如，通过Kanade-Lucas-Tomasi(KLT)算法，而实施在步骤S201中计算出的对象物体的BBOX的内部的特征点的时间序列追踪处理。作为其他的实施方式，也可以利用通过均值漂移(Mean-shift)法实施的物体的追踪处理等其他的跟踪方法。

接下来，对是否选择了列表A的全部的物体进行判断(步骤S205)。即，对是否针对列表A中包含的全部的物体均执行了跟踪处理进行判断。在未选择列表A的全部的物体的情况下(步骤S205：否)，对选择的物体的个数是否在阈值N1以上进行判断(步骤S206)。此外，阈值N1被设定为执行跟踪处理的物体的上限值，并且例如根据ECU200的运算处理能力等而被预先设定。

在所选择的物体的个数未在阈值N1以上的情况下(步骤S206：否)，再次执行步骤S203的处理。即，选择还未被选择的物体之中的像素尺寸最大的物体作为跟踪处理的对象，并反复执行一系列的处理。

另一方面，在选择了列表A的全部的物体的情况下(步骤S205：是)，或者，在所选择的物体的数量在阈值N1以上的情况下(步骤S206：是)，基于跟踪处理的结果而输出跟踪对象物体的种类、位置以及速度(步骤S207)。也就是说，通过在第一识别部211的处理结果中添加跟踪处理的结果而输出与物体相关的信息。另一方面，对于跟踪非对象物体(即，未被包含于列表A中的物体或者被包含于列表A中的物体中的没有作为跟踪对象而被选择的物体)，基于第一识别部211的处理结果，而输出物体的种类以及位置(步骤S208)。

此外，也可以设为，尽管针对包含于列表A中的全部的物体而实施了跟踪处理，但在运算负荷上具有富余的情况(例如，执行了跟踪处理的物体的数量小于阈值N1的情况等)下，针对未被包含于列表A中的物体也实施跟踪处理。在该情况下，只要在执行跟踪处理的物体的总数成为适当的值(例如阈值N1)之前，针对以与用于被包含在列表A中的跟踪优先度的条件(即，预定阈值B)相比而更宽松的条件选择的新的列表C来执行与从步骤S203至步骤S206同样的处理即可。

<技术效果>

接下来，对通过本实施方式所涉及的物体识别部210(即，物体识别装置)的动作而获得的技术上的效果进行说明。

如参照图1至图4所说明的那样，根据本实施方式所涉及的物体识别部210，基于跟踪优先度，而确定是否执行跟踪处理。具体而言，仅对跟踪优先度较高的物体执行跟踪处理，对跟踪优先度较低的物体不执行跟踪处理。因此，若与针对所有的物体均执行跟踪处理的情况相比，则能够抑制装置的运算负荷。

此外，物体的跟踪优先度是难以在例如基于规则库的处理中准确计算出的。然而在本实施方式中，由于如上述那样利用了完成学习的神经网络300，因此能够准确地计算出跟踪优先度。另外，由于神经网络300利用并非时间序列的图像来进行学习，因此，例如与使用时间序列的图像数据来进行学习的情况相比，能够实现有效率的学习。

<附录>

以下，对从以上所说明的实施方式中导出的发明的各种方式进行说明。

(附录1)

在附录1中记载的物体识别装置是基于按时间序列被输入的第一图像数据，而对包含在所述第一图像数据中的第一物体进行识别的装置，该物体识别装置具备：第一输出单元，其利用以所述第一图像数据为输入的神经网络而输出所述第一物体的暂定位置以及表示应该执行时间序列跟踪处理的跟踪优先度；第二输出单元，其以所述第一图像数据、所述暂定位置以及所述跟踪优先度为输入，并且，(ⅰ)针对所述跟踪优先度满足预定的条件的所述第一物体而执行所述时间序列跟踪处理并输出位置以及速度，(ⅱ)针对所述跟踪优先度不满足所述预定的条件的所述第一物体，不执行所述时间序列跟踪处理，且输出位置，所述神经网络为，利用教师数据进行了学习的完成学习的神经网络，所述教师数据包含与所述第一图像数据不同的第二图像数据和被包含在所述第二图像数据中的第二物体的位置以及所述跟踪优先度的正确数据。

根据附录1中记载的物体识别装置，由于基于跟踪优先度来确定是否执行跟踪处理，因此能够抑制不必要的跟踪处理。因此，能够在抑制运算负荷的同时，适当识别物体的位置、速度。

另外，用于求出跟踪优先度的神经网络利用教师数据来进行学习，所述教师数据包含与通过时间序列被输入的第一图像数据不同的第二图像数据和被包含于第二图像数据中的第二物体的位置以及跟踪优先度的正确数据。由此，能够通过制作成本较小的教师数据，而以高精度求出跟踪优先度。

(附录2)

在附录2所记载的物体识别装置中，所述第二物体的所述跟踪优先度的正确数据是基于所述第二物体因与其他的物体重合而被隐藏的比例来确定的，所述其他的物体与所述第二物体相比而靠跟前侧。

根据附录2所记载的物体识别装置，基于成为识别对象的物体被其他的物体遮蔽的比例(所谓的遮挡(occlusion)率)，来确定跟踪优先度的正确数据。由于遮挡率较大的物体在与其相比靠跟前侧存在其他的物体，因此能够判断为应该实施跟踪处理且进行识别的优先度较低。另一方面，由于遮挡率较小的物体在与其相比靠跟前侧存在有其他的物体的可能性较低(换言之，存在于最靠跟前侧的可能性较高)，因此能够判断为应该实施跟踪处理且进行识别的优先度较高。因此，如果基于第二物体的遮挡率来确定跟踪优先度的正确数据，则能够更适当地实施神经网络的学习。

(附录3)

在附录3所记载的物体识别装置中，所述第二物体的所述跟踪优先度的正确数据是基于所述第二物体因伸出至所述第二图像数据的框外而被隐藏的比例来确定的。

根据附录3所记载的物体识别装置，基于成为识别对象的物体从拍摄范围伸出的比例(所谓的截断(truncation)率)来确定跟踪优先度的正确数据。由于截断率较大的物体以大幅地跨出至第二图像数据的拍摄范围外的方式而存在，因此能够判断为应该实施跟踪处理且进行识别的优先度较低。另一方面，由于截断率较小的物体被收纳在第二图像数据的拍摄范围内的部分较大(换言之，由于存在于接近拍摄范围的正面)，因此能够判断为应该实施跟踪处理且进行识别的优先度较高。因此，如果基于第二物体的截断率来确定跟踪优先度的正确数据，则能够更适当地实施神经网络的学习。

(附录4)

在附录4所记载的物体识别装置中，所述第二物体的所述跟踪优先度的正确数据是基于所述第二物体给搭载有该物体识别装置的车辆的行驶带来的影响度而确定的。

例如，对于在与搭载有物体识别装置的车辆相同的车道上行驶的其他车辆、或者有可能突然出现的人等对自己车辆的行驶的影响度较大的物体，也应该为了回避碰撞的危险而以相对较高的精度进行识别。因此，如果基于第二物体给车辆的行驶带来的影响度来确定跟踪优先度的正确数据，则能够更适当地实施神经网络的学习。

本发明并不限定于上述的实施方式，能够在不违背从权利要求书以及说明书整体读取出的发明的主旨或者思想的范围内进行适当变更，随着这样的变更而形成的物体识别装置也包含在本发明的技术范围内。

符号说明

10 车辆

100 摄像机

200 ECU

210 物体识别部

211 第一识别部

212 第二识别部

220 规划处理部

230 车辆控制部

300 神经网络

310 神经网络主干部

320 位置推断用神经网络部

330 种类检测用神经网络部

340 跟踪优先度检测用神经网络部。

Claims

1.一种物体识别装置，其基于按时间序列输入的第一图像数据，对包含在所述第一图像数据中的第一物体进行识别，所述物体识别装置的特征在于，具备：

第一输出单元，其利用以所述第一图像数据为输入的神经网络，而输出所述第一物体的暂定位置以及表示应该执行时间序列跟踪处理的程度的跟踪优先度；

第二输出单元，其以所述第一图像数据、所述暂定位置以及所述跟踪优先度为输入，并且，(ⅰ)针对所述跟踪优先度满足预定的条件的所述第一物体而执行所述时间序列跟踪处理并输出位置以及速度，(ⅱ)针对所述跟踪优先度不满足所述预定的条件的所述第一物体，不执行所述时间序列跟踪处理，且输出位置，

所述神经网络为，利用教师数据进行了学习的完成学习神经网络，所述教师数据包含与所述第一图像数据不同的第二图像数据和所述第二图像数据中包含的第二物体的位置以及所述跟踪优先度的正确数据。

2.如权利要求1所述的物体识别装置，其特征在于，

所述第二物体的所述跟踪优先度的正确数据是基于所述第二物体因与其他的物体重合而被隐藏的比例来确定的，所述其他的物体与所述第二物体相比而位于跟前侧。

3.如权利要求1或2所述的物体识别装置，其特征在于，

所述第二物体的所述跟踪优先度的正确数据是基于所述第二物体因伸出至所述第二图像数据的框外而被隐藏的比例来确定的。

4.如权利要求1至3中的任意一项所述的物体识别装置，其特征在于，

所述第二物体的所述跟踪优先度的正确数据是基于所述第二物体给搭载有该物体识别装置的车辆的行驶带来的影响度而确定的。