CN110008806A

CN110008806A - 存储介质、学习处理方法、学习装置及物体识别装置

Info

Publication number: CN110008806A
Application number: CN201811553131.7A
Authority: CN
Inventors: 坂本洋介; 松原海明
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2017-12-27
Filing date: 2018-12-18
Publication date: 2019-07-12
Anticipated expiration: 2038-12-18
Also published as: US20190197669A1; JP6688277B2; CN110008806B; US10733705B2; JP2019117577A

Abstract

提供一种能够提高学习处理的精度的信息处理装置、学习处理方法、学习装置及物体识别装置。信息处理装置使计算机进行以下处理：基于因拍摄时的光学作用而在被摄体产生有规定的失真的第一拍摄图像，来生成修正了所述失真的等同图像；生成第一教师数据，所述第一教师数据是针对指定了与对象物体对应的图像区域的所述等同图像而赋予了与所述对象物体相关的关联信息的教师数据；将所述第一教师数据所包含的所述等同图像变换为存在规定的失真的失真图像而生成第二教师数据；以及基于所述第二教师数据，来生成当输入产生有规定的失真的第二拍摄图像时输出对所述第二拍摄图像所包含的所述对象物体进行识别的结果的学习模型。

Description

存储介质、学习处理方法、学习装置及物体识别装置

技术领域

本发明涉及存储介质、学习处理方法、学习模型、数据构造、学习装置、数据构造及物体识别装置。

背景技术

近年来，关于自动地控制车辆的研究不断进展。在自动地控制车辆时重要的是与车辆的行驶相应地实时识别车辆周边的物体。例如，关于使用搭载于车辆的相机所拍摄的拍摄图像来识别车辆周边的物体的技术的研究及实用化不断推进。与该技术相关联地已知有以下技术：基于搭载于车辆的相机所拍摄的拍摄图像，并通过预先准备的学习模型来识别物体，并且将拍摄图像直接用作学习用的图像来更新学习模型(例如参照日本特开2007-328631号公报)。

扩大识别装置的识别范围、提高车辆周边的识别精度在自动控制车辆时也是重要。例如，能够通过使用广角镜头来扩大识别范围。通过使用鱼眼镜头，从而与车辆的远处相比扩大近处的物体的图像，提高物体的识别精度。

然而，在通过这样的镜头所拍摄到的拍摄图像中，由于光学作用而被摄体产生失真。因此，在以往的技术中，将产生失真的拍摄图像直接用作学习用的图像，由此学习处理的精度有时低下。

发明内容

本发明的方案是考虑到上述情况而做出的，其目的之一在于提供能够提高学习处理的精度的存储介质、学习处理方法、学习模型、数据构造、学习装置及物体识别装置。

用于解决课题的方案

本发明所涉及的车辆控制装置、车辆控制方法及存储介质采用了以下构成。

(1)：本发明的一方案所涉及的信息处理装置使计算机进行以下处理：基于因拍摄时的光学作用而在被摄体产生有规定的失真的第一拍摄图像，来生成修正了所述失真的等同图像；生成第一教师数据，所述第一教师数据是针对指定了与对象物体对应的图像区域的所述等同图像而赋予了与所述对象物体相关的关联信息的教师数据；将所述第一教师数据所包含的所述等同图像变换为存在规定的失真的失真图像而生成第二教师数据；以及基于所述第二教师数据，来生成当输入产生有规定的失真的第二拍摄图像时输出对所述第二拍摄图像所包含的所述对象物体进行识别的结果的学习模型。

(2)：在上述(1)的方案的基础上，所述第一拍摄图像及所述第二拍摄图像为由具备鱼眼镜头的摄像部拍摄出的图像。

(3)：在上述(1)的方案的基础上，所述信息处理装置使所述计算机进一步进行如下处理：通过由矩形的框包围所述对象物体的图像区域，来指定与所述对象物体对应的图像区域。

(4)：在上述(3)的方案的基础上，所述信息处理装置使所述计算机进一步进行如下处理：在生成第二教师数据的情况下，将所述第一教师数据所包含的所述等同图像变换为所述失真图像，并且将所述矩形的框的形状变换为存在与如下位置相应的失真的形状，所述位置是所述等同图像中的指定了所述矩形的框的位置。

(5)：本发明的一方案所涉及的学习处理方法是由计算机执行的学习处理方法，其中，所述学习处理方法包括如下处理：基于因拍摄时的光学作用而在被摄体产生有规定的失真的第一拍摄图像，来生成修正了所述失真的等同图像；生成第一教师数据，所述第一教师数据是针对指定了与对象物体对应的图像区域的所述等同图像而赋予了与所述对象物体相关的关联信息的教师数据；将所述第一教师数据所包含的所述等同图像变换为存在规定的失真的失真图像而生成第二教师数据；以及基于所述第二教师数据，来生成当输入产生有规定的失真的第二拍摄图像时输出对所述第二拍摄图像所包含的所述对象物体进行识别的结果的学习模型。

(6)：本发明的一方案所涉及的学习装置具备：图像修正部，其基于因拍摄时的光学作用而在被摄体产生有规定的失真的第一拍摄图像，来生成修正了所述失真的等同图像；第一教师数据生成部，其生成第一教师数据，所述第一教师数据是针对指定了与对象物体对应的图像区域的所述等同图像而赋予了与所述对象物体相关的关联信息的教师数据；第二教师数据生成部，其将所述第一教师数据所包含的所述等同图像变换为存在规定的失真的失真图像而生成第二教师数据；以及学习模型生成部，其基于所述第二教师数据，来生成当输入产生有规定的失真的第二拍摄图像时输出对所述第二拍摄图像所包含的所述对象物体进行识别的结果的学习模型。

(7)：本发明的一方案所涉及的物体识别装置，通过计算机进行如下处理：基于因拍摄时的光学作用而在被摄体产生有规定的失真的第一拍摄图像，来生成修正了所述失真的等同图像；生成第一教师数据，所述第一教师数据是针对指定了与对象物体对应的图像区域的所述等同图像而赋予了与所述对象物体相关的关联信息的教师数据；将所述第一教师数据所包含的所述等同图像变换为存在规定的失真的失真图像而生成第二教师数据；以及基于所述第二教师数据，来生成当输入产生有规定的失真的第二拍摄图像时输出对所述第二拍摄图像所包含的所述对象物体进行识别的结果的学习模型，由此，所述物体识别装置使用生成的所述学习模型来识别物体。

(8)：在上述(7)的方案的基础上，所述物体识别装置还具备识别部，该识别部基于由会产生所述规定的失真的摄像部拍摄出但未修正失真的第三拍摄图像，来识别由会产生所述规定的失真的摄像部拍摄出的第三拍摄图像所包含的所述对象物体。

根据上述(1)～(8)的方案，能够提高学习处理的精度。

附图说明

图1是实施方式所涉及的学习处理装置的构成图。

图2是实施方式所涉及的物体识别装置的构成图。

图3是表示基于学习处理装置的处理的流程的一例的流程图。

图4是表示在由学习处理装置100进行的处理中使用的图像的一例的图。

图5是用于说明按分割的区域生成学习模型的情况的一例的参考图。

具体实施方式

以下，参照附图对本发明的信息处理装置、学习处理方法、学习装置及物体识别装置的实施方式进行说明。

[学习处理装置]

图1是实施方式所涉及的学习处理装置100的构成图。学习处理装置100是基于拍摄图像来生成学习模型的装置。学习处理装置100例如具备通信部101、输入部102、显示部103、连接部104、学习处理部110及存储部150。

通信部101例如包括NIC(Network Interface Card)等通信接口。输入部102为键盘、鼠标等。显示部103为LCD(Liquid Crystal Display)等。连接部104为将学习处理装置100与外部装置连接的硬件，例如为USB连接器等。存储部150为RAM(Random AccessMemory)、ROM(Read Only Memory)、SSD(Solid State Drive)等闪存器、HDD(Hard DiskDrive)等。

在存储部150例如保存有拍摄图像151、等同图像152、第一教师数据154、第二教师数据155、学习模型156等。拍摄图像151为由规定的相机拍摄的拍摄图像的数据，为生成学习模型时所使用的输入数据。拍摄图像例如为具备广角镜头、鱼眼镜头的相机所拍摄的图像，为不产生规定的失真的图像。规定失真根据镜头的类型而预先决定。等同图像152、第一教师数据154、第二教师数据155及学习模型156是由学习处理部110生成的信息，在学习处理部110的说明中一并进行说明。

学习处理部110例如具备数据取得部111、图像修正部112、物体检测部113、第一教师数据生成部114、第二教师数据生成部115及学习模型生成部116。这些构成例如通过CPU(Central Processing Unit)等硬件处理器执行程序(软件)来实现。这些构成要素中的一部分或全部可以通过LSI(Large Scale Integration)、ASIC(Application SpecificIntegrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(GraphicsProcessing Unit)等硬件(包含电路部：circuitry)来实现，也可以通过软件与硬件的协同配合来实现。

数据取得部111使存储部150存储使用通信部101从外部装置接收到的信息、从经由连接部104连接的外部装置输入的信息。例如，数据取得部111使存储部150存储从外部装置接收到的(或者输入了的)拍摄图像的图像数据作为拍摄图像151。

图像修正部112基于拍摄图像151来生成将拍摄图像的失真修正后的图像(成为失真被修正而压缩率接近于均等的状态，由此以下记作等同图像)，并使存储部150存储该修正后的图像作为等同图像152。关于修正拍摄图像的失真的处理，可以使用各种方法。例如，可以使用表示预先求得的像素间的对应关系(压缩率等)的信息来修正拍摄图像的失真。

物体检测部113从由图像修正部112生成的等同图像检测对象物体。物体检测部113例如基于表示预先决定的对象物体的图像特征的信息来检测等同图像内所包含的对象物体。在对象物体中，例如包括有大楼、标识等构造物、行人(也可以区分大人、儿童、老人等)、动物等。物体检测部113将检测结果向第一教师数据生成部114输出。

第一教师数据生成部114基于由物体检测部113检测的检测结果来执行注解而生成第一教师数据。注解是指定含有图像内所包含的对象物体的图像区域(例如在对象物体的周围设定框)并生成注解信息而与图像建立关联的处理。注解信息为与指定的图像区域所包含的对象物体相关的关联信息，例如其包括类别标签、元信息、图像内位置信息等。在此记载了的注解信息的内容为一例，通过注解可以不赋予上述全部信息，也可以适当追加或者删除上述信息的一部分。类别标签是表示物体的类别等的信息。

在物体的类别中例如包括构造物、人、车辆等。类别标签可以按物体的类别来设定更加详细的项目，例如可以包括表示物体的颜色、形状、大小、高度、性别、年龄、车型等信息。元信息例如为表示拍摄时的环境(天气、地点等)、镜头的种类、光圈、快门速度等拍摄条件等的信息。图像内位置信息为表示指定的图像区域相对于整体图像内的位置的信息，例如包括表示设定的框的四角的信息、帧ID等。

例如，第一教师数据生成部114通过在将包含对象物体的图像区域包围的位置设定框，来指定将图像内含有的对象物体包括在内的图像区域。在检测出多个对象物体的情况下，第一教师数据生成部114也可以对一个等同图像设定多个框。以下将设定有框的等同图像记作带框的等同图像。框的形状例如为矩形、接近矩形的图形。接近矩形的图形包括存在相对的边分别平行且相邻的边正交的关系、而且角为圆形形状等图形。以下将由框包围的图像区域记作物体图像区域。第一教师数据生成部114例如以包括对象物体的全部且物体图像区域的面积最小的方式在等同图像上设定框。第一教师数据生成部114生成将注解信息与带框的等同图像建立关联的第一教师数据，并使存储部150储存该第一教师数据作为第一教师数据154。

也可以由人进行物体检测部113对对象物体检测的处理、基于第一教师数据生成部114的注解等处理。例如，存在由操作者使用输入部102以在等同图像上包围对象图像的方式设定框、由操作者使用输入部102输入与注解信息相当的信息等情况。

第二教师数据生成部115生成在生成学习模型时使用的教师数据即第二教师数据。第二教师数据生成部115使存储部150存储生成的第二教师数据作为第二教师数据155。第二教师数据生成部115例如将还赋予了注解信息的第一教师数据所包含的带框的等同图像变换为存在规定的失真的图像(以下记作失真图像)，从而生成第二教师数据。即，第二教师数据为在失真图像上赋予了注解信息的数据。在失真图像上产生的规定的失真为与在拍摄图像上产生的失真相同的失真。在将带框的等同图像变换为存在失真的图像时，第二教师数据生成部115将设定于带框的等同图像的框的形状变换为存在与如下位置相对应且与失真图像相同的失真的图像，所述位置是指框在带框的等同图像中的位置。

学习模型生成部116通过机械学习，来生成当输入产生了规定的失真的拍摄图像时输出对拍摄图像所包含的物体进行识别的结果的学习模型。学习模型生成部116基于保存于存储部150的拍摄图像151和第二教师数据155来生成学习模型。学习模型的生成方法可以使用各种方法。例如，在采用深度学习的情况下，学习模型生成部116预先设定多层的神经元构造，并通过反向传播等方法搜索最佳的参数，由此生成学习模型。学习模型生成部116使存储部150存储生成的学习模型作为学习模型156。

[物体识别装置]

图2是实施方式所涉及的物体识别装置200的构成图。物体识别装置200例如为搭载于车辆的车载装置的一部分。物体识别装置200例如具备摄像部202、连接部204、物体识别部210及存储部250。

摄像部202为拍摄出产生了失真的图像的摄像部，例如具备广角镜头、鱼眼镜头。摄像部202例如是与拍摄出在学习处理装置100中生成学习模型时所使用的拍摄图像的相机相同种类的部件。摄像部202将拍摄得到的拍摄图像数据向物体识别部210输出。连接部204为将物体识别装置与外部装置连接的硬件。存储部250为RAM、ROM、SSD等闪存器、HDD等。在存储部250中例如保存有学习模型251等。

物体识别部210例如具备数据取得部211和识别部212。这些构成例如通过CPU等硬件处理器执行程序(软件)来实现。这些构成要素中的一部分或全部可以通过LSI、ASIC、FPGA、GPU等硬件(包含电路部：circuitry)来实现，也可以通过软件与硬件的协同配合来实现。数据取得部211使存储部150存储从经由连接部204连接的外部装置输入的学习模型，来作为学习模型251。数据取得部211将从摄像部202输出的拍摄图像数据向识别部212输出。

识别部212使用学习模型来进行基于从摄像部202输出的拍摄图像数据的物体识别处理。即，识别部212基于未修正失真的拍摄图像来识别拍摄图像所包含的对象物体。

[学习处理的流程图]

以下参照图3来对学习处理装置100的处理的流程的一例进行说明。

图3是表示由学习处理装置100进行的处理的流程的一例的流程图。参照图4，也一并说明在由学习处理装置100进行的处理中使用的图像。图4是表示在由学习处理装置100进行的处理中使用的图像的一例的图。作为以下的处理的前提，在存储部150中保存有多个拍摄图像。

首先，图像修正部112从存储部150读出一个拍摄图像，并修正读出的拍摄图像的失真而生成等同图像(步骤S101)。例如，图像修正部112修正对图4的(a)所示的拍摄图像imgA对应的失真，并生成图4的(b)所示的等同图像imgB。

接下来，物体检测部113从等同图像检测出对象物体，并将检测结果向第一教师数据生成部114输出(步骤S103)。例如，物体检测部113从拍摄图像imgA检测出构造物和行人来作为对象物体。接下来，第一教师数据生成部114如图4的(c)所示的带框的等同图像imgC那样，对由物体检测部113检测出的构造物设定框F1、对检测出的行人设定框F2(步骤S105)。在图示中，示出了对一栋构造物和一个行人设定框的例子，然而也可以是对全部的对象物体设定框。

接下来，第一教师数据生成部114生成表示由物体检测部113检测出的各对象物体的类别标签、表示拍摄图像imgA被拍摄时的环境等的元信息、以及表示设定的框F1、F2的四角的坐标值的图像内位置信息(步骤S107)。第一教师数据生成部114将生成的类别标签、元信息及图像内位置信息等(即注解信息)赋予在步骤S105设定有框F1、F2的带框的等同图像imgC，生成第一教师数据(步骤S109)。

接下来，第二教师数据生成部115将第一教师数据所包含的带框的等同图像变换为存在失真的失真图像而生成第二教师数据(步骤S111)。例如，在赋予了注解信息的情况下，第二教师数据生成部115将图4的(c)所示的带框的等同图像imgC变换为图4的(d)所示的存在失真的失真图像imgD，生成第二教师数据(步骤S111)。

根据以上说明的本实施方式的学习处理装置100，其具备：图像修正部112，其修正因拍摄时的光学作用而在被摄体产生有规定的失真的第一拍摄图像的所述失真，从而生成等同图像；第一教师数据生成部114，其生成第一教师数据，所述第一教师数据是针对设定有图像内所包含的对象物体的图像区域的所述等同图像而赋予了与所述对象物体相关的关联信息的教师数据；第二教师数据生成部115，其将由所述第一教师数据生成部114生成的所述第一教师数据所包含的所述等同图像变换为存在所述规定的失真的失真图像，并生成对所述失真图像赋予了所述关联信息的第二教师数据；以及学习模型生成部116，其基于所述第二教师数据，来生成当输入产生有所述规定的失真的第二拍摄图像时输出对所述第二拍摄图像所包含的物体进行识别的结果的学习模型，由此能够使学习处理的精度提高。

在物体检测部113(或者人)进行设定框的处理时，在产生有失真的图像中对象物体也发生失真，所以难以设定矩形的框。然而，通过使用修正后的等同图像，能够使矩形的框的设定简单。

在使用生成的学习模型来识别物体时，不用对由鱼眼镜头、广角镜头等拍摄得到的图像执行修正失真的处理即可，由此能够提高识别物体时的识别速度。

如图4的(c)、(d)所示那样，当将等同图像与失真图像进行比较时，失真图像中的存在于图像内的中心附近的物体(例如行人)比等同图像中的存在于图像内的中心附近的物体(例如行人)大。另一方面，失真图像中的存在于图像内的外侧附近的物体(例如构造物)比等同图像中的存在于图像内的外侧附近的物体(例如构造物)细长。这样，即使是两图像中的相同的对象物体，其形状、像素尺寸也不同。由此，与根据以等同图像为基础的第一教师数据来生成学习模型的情况相比，通过基于第二教师数据来生成学习模型，能够提高物体识别装置200的识别精度。尤其是能够提高行人的识别精度。

上述实施方式能够以以下的方式来表现。

一种学习处理装置，其中，

所述学习处理装置具备：

存储装置；以及

硬件处理器，其执行保存于所述存储装置的程序，

所述硬件处理器构成为，通过执行所述程序而进行如下处理：

基于因拍摄时的光学作用而在被摄体产生有规定的失真的第一拍摄图像，来生成修正了所述失真的等同图像；

生成第一教师数据，所述第一教师数据是针对指定了与对象物体对应的图像区域的所述等同图像而赋予了与所述对象物体相关的关联信息的教师数据；

将所述第一教师数据所包含的所述等同图像变换为存在规定的失真的失真图像而生成第二教师数据；以及

基于所述第二教师数据，来生成当输入产生有规定的失真的第二拍摄图像时输出对所述第二拍摄图像所包含的所述对象物体进行识别的结果的学习模型。

以上，使用实施方式对本发明的具体实施方式进行了说明，然而本发明并不限定于这样的实施方式，在不脱离本发明的主旨的范围内能够进行各种变形及替换。

例如，学习处理装置100也可以将等同图像分割为规定的区域，并按分割的区域生成学习模型。图5是用于说明按分割的区域生成学习模型的情况的一例的参考图。如图5所示的那样，图像修正部112修正拍摄图像imgA的失真而生成等同图像imgB。图像修正部112将等同图像imgB分割为预先决定的分割区域，从而生成多个等同图像imgB(L)、imgB(C)、imgB(R)。等同图像imgB(L)为包含等同图像imgB的左侧的区域(以下称为第一区域)的图像，等同图像imgB(C)为包含等同图像imgB的中央部分(以下称为第二区域)的图像，等同图像imgB(R)为包含等同图像imgB的右侧的区域(以下称为第三区域)的图像。物体检测部113从等同图像imgB(L)、imgB(C)、imgB(R)分别检测对象物体。

然后，第一教师数据生成部114分别基于等同图像imgB(L)、imgB(C)、imgB(R)来生成第一教师数据。例如，第一教师数据生成部114以包围检测出的对象物体的方式设定框F11、F12、F13，并生成带框的等同图像imgC(L)、imgC(C)、imgC(R)和关于各对象物体的注解信息，生成第一教师数据。第二教师数据生成部115将带框的等同图像imgC(L)、imgC(C)、imgC(R)变换为存在规定的失真的失真图像imgD(L)、imgD(C)、imgD(R)，从而形成第二教师数据。学习模型生成部116基于失真图像imgD(L)生成第一学习模型，基于失真图像imgD(C)生成第二学习模型，基于失真图像imgD(R)生成第三学习模型。然后，针对拍摄图像的第一区域，物体识别装置200使用第一学习模型来进行物体识别。针对拍摄图像的第二区域，物体识别装置200使用第二学习模型来进行物体识别，针对拍摄图像的第三区域，物体识别装置200使用第三学习模型来进行物体识别。由此，能够进一步地提高学习精度。

拍摄出产生规定的失真的图像的摄像部例如也可以是具备广角镜头、鱼眼镜头且具备根据图像内的位置的不同而压缩率不同的镜头的相机。图像修正部112进行使该压缩率均等那样的修正处理。

Claims

1.一种信息处理装置，其中，

所述信息处理装置使计算机进行以下处理：

2.根据权利要求1所述的信息处理装置，其中，

所述第一拍摄图像及所述第二拍摄图像为由具备鱼眼镜头的摄像部拍摄出的图像。

3.根据权利要求1所述的信息处理装置，其中，

所述信息处理装置使所述计算机进一步进行如下处理：通过由矩形的框包围所述对象物体的图像区域，来指定与所述对象物体对应的图像区域。

4.根据权利要求3所述的信息处理装置，其中，

所述信息处理装置使所述计算机进一步进行如下处理：在生成第二教师数据的情况下，将所述第一教师数据所包含的所述等同图像变换为所述失真图像，并且将所述矩形的框的形状变换为存在与如下位置相应的失真的形状，所述位置是所述等同图像中的指定了所述矩形的框的位置。

5.一种学习处理方法，其是由计算机执行的学习处理方法，其中，

所述学习处理方法包括如下处理：

6.一种学习装置，其中，

所述学习装置具备：

图像修正部，其基于因拍摄时的光学作用而在被摄体产生有规定的失真的第一拍摄图像，来生成修正了所述失真的等同图像；

第一教师数据生成部，其生成第一教师数据，所述第一教师数据是针对指定了与对象物体对应的图像区域的所述等同图像而赋予了与所述对象物体相关的关联信息的教师数据；

第二教师数据生成部，其将所述第一教师数据所包含的所述等同图像变换为存在规定的失真的失真图像而生成第二教师数据；以及

学习模型生成部，其基于所述第二教师数据，来生成当输入产生有规定的失真的第二拍摄图像时输出对所述第二拍摄图像所包含的所述对象物体进行识别的结果的学习模型。

7.一种物体识别装置，其中，

通过计算机进行如下处理：

基于所述第二教师数据，来生成当输入产生有规定的失真的第二拍摄图像时输出对所述第二拍摄图像所包含的所述对象物体进行识别的结果的学习模型，

由此，所述物体识别装置使用生成的所述学习模型来识别物体。

8.根据权利要求7所述的物体识别装置，其中，

所述物体识别装置还具备识别部，该识别部基于由会产生所述规定的失真的摄像部拍摄出但未修正失真的第三拍摄图像，来识别由会产生所述规定的失真的摄像部拍摄出的第三拍摄图像所包含的所述对象物体。