CN109564687A

CN109564687A - 学习方法和程序

Info

Publication number: CN109564687A
Application number: CN201880003113.3A
Authority: CN
Inventors: S·阿莱托; L·里加佐; 筑泽宗太郎
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2017-03-16
Filing date: 2018-03-05
Publication date: 2019-04-02
Anticipated expiration: 2038-03-05
Also published as: CN109564687B; WO2018168539A1; EP3598387A1; US11687773B2; JP2018156640A; JP7036610B2; EP3598387A4; US20190332939A1; EP3598387B1

Abstract

学习方法包括：输入处理，向神经网络输入构成动态图像的时间上相邻的第1图像和第2图像，所述第2图像是从第1图像经过预定时间后的图像；学习处理，使用第1图像和第2图像，使神经网络学习输出转换矩阵，所述转换矩阵是对第1图像中的全部像素使用的将第1图像转换为第2图像的转换矩阵；以及输出处理，将通过转换矩阵生成的表现第1图像的各像素的到预定时间后为止的移动量的移动量图像作为第1图像与第2图像之间的运动的推定结果来输出。

Description

学习方法和程序

技术领域

本公开涉及学习方法和程序，特别涉及计算机使用神经网络进行的学习方法和程序。

背景技术

近年来，存在推定作为表现图像间的运动的事物的光流的技术。如果能够实时且高精度地推定光流，能够根据通过移动中的汽车所搭载的摄像头等得到的图像来检测或追踪位于路上的多个对象。因此，也期待作为事先检测并避免事故等可能性的系统的先进驾驶协助系统(Advanced Driver Assistance System：ADAS)和用于实现自动驾驶车的技术。

例如，例如非专利文献1公开了如下技术：使神经网络推定光流，其中，该神经网络使用通过Kitti Dataset等已知的数据集准备的正解数据作为训练数据(Teacher data，教师数据)来进行学习。

现有技术文献

非专利文献

非专利文献1:G.Long，L.Kneip，J.M.Alvarez，H.Li，X.Zhang，and Q.Yu.Learningimage matching by simply watching video.In European Conference on ComputerVision，pages 434-450.Springer，2016.1，3

非专利文献2:M.Jaderberg，K.Simonyan，A.Zisserman，et al.Spatialtransformer networks.In Advances in Neural Information Processing Systems，pages 2017-2025，2015.2

发明内容

本公开的一个方式的学习方法包括：输入步骤，向神经网络输入构成动态图像的时间上相邻的第1图像和第2图像，所述第2图像是从所述第1图像经过预定时间后的图像；学习步骤，使用所述第1图像和所述第2图像，使所述神经网络学习输出转换矩阵，所述转换矩阵是对所述第1图像中的全部像素使用的将所述第1图像转换为所述第2图像的转换矩阵；以及输出步骤，将通过所述转换矩阵生成的移动量图像作为所述第1图像与所述第2图像之间的运动的推定结果来输出，所述移动量图像表现所述第1图像的各像素的到所述预定时间后为止的移动量。

此外，这些整体或具体的方式也可以由系统、方法、集成电路、计算机程序或计算机可读取的CD-ROM等记录介质实现，也可以由系统、方法、集成电路、计算机程序和记录介质的任意组合实现。

根据本公开的学习方法等，能够使神经网络没有训练数据而学习光流推定。

附图说明

图1是示出实施方式中的推定器的结构的一例的框图。

图2是示出图1所示的推定器使用的神经网络的结构的一例的框图。

图3是示出实施方式中的H-net的结构的一例的图。

图4是示出图1所示的推定器使用的神经网络的结构的一例的框图。

图5是示出实施方式中的F-net的结构的一例的图。

图6是概念性地示出实施方式中的推定器的推定处理结果的图。

图7是示出实施方式中的学习方法的流程图。

图8是示出实施方式的学习处理中使用的神经网络的结构的一例的图。

图9是示出图7所示的步骤S12的详细处理的一例的流程图。

图10是概念性地示出图7所示的步骤S12的详细处理的图。

图11是示出本公开的学习方法的学习效果的图。

图12是示出使用Kitti raw数据集进行学习的本公开的神经网络的评价结果的图。

图13是示出使用Virtual Kitti数据集进行本公开的学习方法的情况下的评价的另一图。

图14是示出使用DR(eye)VE数据库来评价本公开的学习方法的环境条件的影响的图。

具体实施方式

(作为本发明基础的知识)

已知，关于根据由移动中的汽车得到的图像来高精度地进行运动流推定，通常需要复杂处理，该复杂处理需要专用硬件。另一方面，近年来，以推定运动流为目的的算法开发变得多见。但是，能够公开用于运动流推定的数据集却缺乏，这成为重大的问题。

例如，Kitti Flow数据集作为能够公开利用的数据集，是为了执行2D-3D匹配，进行准确对应，作成正解数据而使用LIDAR点集取得的。进而，Kitti Flow数据集中准备的正解数据是小于400的带正解信息的帧，其数量不充分。此外，该正解数据不是为了用于光流推定而准备的，作为用于学习光流推定的正解数据，其精度不充分。

另一方面，在没有训练数据而学习光流推定的方法中，能够使用足够数量的数据集，不过，没有训练数据这样的正解信息而怎样学习光流推定成为问题。如上述非专利文献1公开的技术那样，即使在有训练数据来学习的情况下，因难以实时且高精度地推定光流，故而也存在问题。

总之，在非专利文献1公开的技术中，存在难以实时且高精度地推定光流这样的问题。这是因为，已知数据集中准备的正解数据的数量不充分，而且不是为了用于光流推定而准备的。另一方面，如果能够没有训练数据而使神经网络进行学习，则虽然能够充分准备用于学习的数据集的数量，但难以学习到希望的输出即光流推定。

本公开是鉴于上述的情况而完成的，提供能够使神经网络没有训练数据而学习光流推定的学习方法和程序。

由此，能够使神经网络没有训练数据而学习光流推定。

另外，本公开的一个方式的学习方法包括：输入步骤，向神经网络输入构成动态图像的时间上相邻的第1图像和第2图像，所述第2图像是从所述第1图像经过预定时间后的图像；学习步骤，i)使构成所述神经网络的第1神经网络使用所述第1图像和所述第2图像来学习输出第1移动量图像，所述第1移动量图像表现所述第1图像的各像素的到所述预定时间后为止的第1移动量，ii)使构成所述神经网络的与所述第1神经网络不同的第2神经网络使用所述第1图像、所述第2图像和所述第1移动量图像来学习输出第2移动量图像，所述第2移动量图像表现所述第1图像的各像素的到所述预定时间后为止的第2移动量；以及输出步骤，将所述第2移动量图像作为所述第1图像与所述第2图像之间的运动的推定结果来输出。

由此，能够使神经网络没有训练数据而学习光流推定。

此处，例如也可以是，在所述学习步骤中，使用所述第1图像和所述第2图像，使所述第1神经网络学习输出转换矩阵，由此学习输出从所述转换矩阵生成的所述第1移动量图像，所述转换矩阵是对所述第1图像中的全部像素使用的将所述第1图像转换为所述第2图像的转换矩阵。

另外，例如也可以是，在所述学习步骤中，包括：计算将第1误差与第2误差结合而得到的结合误差，所述第1误差是通过所述转换矩阵和所述第1图像生成的作为从所述第1图像经过所述预定时间后的图像的第1推定图像与所述第2图像之间的误差，所述第2误差是通过所述第2移动量图像和所述第1图像生成的作为从所述第1图像经过所述预定时间后的图像的第2推定图像与所述第2图像之间的误差；决定步骤，在计算出的所述结合误差达到了最小的情况下，将所述结合误差达到了最小的所述第1神经网络和所述第2神经网络的权重决定为进行了学习的所述第1神经网络和所述第2神经网络的权重。

另外，例如，此处也可以是，构成所述神经网络的第1神经网络由一个以上的卷积层和一个以上的全连接层构成，所述全连接层构成为输出9个参数中的至少8个参数，所述9个参数成为构成所述转换矩阵的9个系数。

此外，例如也可以是，构成所述神经网络的第1神经网络由两个以上的卷积层构成，所述两个以上的卷积层中的最终层构成为输出9个参数中的至少8个参数，所述9个参数成为构成所述转换矩阵的9个系数。

另外，例如也可以是，构成所述神经网络的第2神经网络由包括一个以上的卷积层的压缩层、位于所述压缩层之后且包括一个以上的反卷积层的展开层以及位于所述展开层之后的一个卷积层构成，所述一个卷积层构成为输出表示构成所述第2移动量图像的像素的移动量的两个参数。

此外，这些概括性或具体的方式可以由系统、方法、集成电路、计算机程序或计算机可读取的CD-ROM等记录介质实现，也可以由系统、方法、集成电路、计算机程序和记录介质的任意组合实现。

以下说明的实施方式均表示本公开的一具体例。以下的实施方式所示的数值、形状、构成要素、步骤、步骤顺序等只是一例，不限定本公开的主旨。另外，关于以下的实施方式中的构成要素中的表示最上位概念的独立权利要求所未记载的构成要素，作为任意构成要素来说明。另外，在全部实施方式中，也能够组合各个实施方式的内容。

(实施方式)

以下，参照附图，对实施方式中的推定器10的信息处理方法等进行说明。

[推定器10的结构]

图1是示出实施方式中的推定器10的结构的一例的框图。图2是示出图1所示的推定器10使用的神经网络的结构的一例的框图。

推定器10由使用神经网络的计算机等实现。推定器10在被输入作为由时间上连续的图像构成的动态图像的影像时，输出作为图像间的运动的推定结果的光流。此外，作为光流，推定器10可以输出表现推定出的图像间的运动的图像，也可以输出表现推定出的图像间的运动的信息。另外，关于影像，典型为通过汽车所搭载的摄像头等拍摄单元拍摄汽车前进的方向而得到的时间上连续的动态图像，但不限于此。也可以是时间上连续的静态图像。

以下，对推定器10使用的神经网络的结构例进行说明。

[神经网络10a的结构]

图2是示出图1所示的推定器10使用的神经网络10a的结构的一例的框图。

如图2所示，神经网络10a具有H-net 11和STL_H 12。以下，神经网络10a有时也称作自我运动网络(Ego-motion Network)。神经网络10a被输入构成动态图像的时间上相邻的第1图像51与第2图像52，输出第1图像51与第2图像52之间的运动的推定结果，所述第2图像52是从第1图像51经过了预定时间后的图像。

＜H-net 11＞

H-net 11是第1神经网络的一例，输出对第1图像51中的全部像素使用的将第1图像51转换为第2图像52的转换矩阵H。更具体而言，H-net11由一个以上的卷积层和一个以上的全连接层构成，输出成为构成转换矩阵H的3×3的9个系数的9个参数。即，全连接层构成为输出成为构成转换矩阵H的9个系数的9参数。此外，全连接层也可以构成为输出成为构成转换矩阵H的9个系数的9参数中的至少8个参数。这是因为，能够根据8个参数计算出第9个参数。

此处，转换矩阵H是能够估算两个静态图像间的运动域(motion field，运动区域、场所)的矩阵，例如是能够将第1图像51映射转换为第2图像52的矩阵。在该转换矩阵H中，能够通过3×3的9个参数对映射赋予特征，故而能够减少输出空间的维数。因此，H-net 11能够高速地进行运算处理。

图3是示出实施方式中的H-net 11的结构的一例的图。

例如如图3所示，H-net 11是由6个卷积层(Conv 111～Con 116)和3个全连接层(FC 117～FC 119)构成的小型神经网络。构成为：Conv 111和Conv 112的输出数为32，Conv113和Conv 113的输出数为64，Conv115和Conv 116的输出数为128。6个卷积层(Conv 111～Con 116)以3×3核心为特征，将作为卷积的应用间隔的步长(stride)设为2。6个卷积层(Conv 111～Con 116)使用ReLU(Rectified Linear Unit：线性整流函数)作为激活函数。

另外构成为，FC 117的输出数为128，FC 118的输出数为1024，全连接层的最终层的FC 119的输出数为9。

此外，说明过只要H-net 11由一个以上的卷积层和一个以上的全连接层构成就足够，但构成一个以上的全连接层中的最终层的全连接层的输出数成为FC 119所示的9。

另外，全连接层的输出结果可由卷积层实现，故而H-net 11可以不构成全连接层。即，H-net 11由两个以上的卷积层构成，构成为使成为两个以上的卷积层中的最终层的卷积层的输出数与FC 119相同而为9即可。如上所述，能够根据8个参数计算出第9个参数，因此两个以上的卷积层中的最终层也可以构成为输出成为构成所述转换矩阵H的9个系数的9个参数中的至少8个参数。

＜STL_H 12＞

STL_H 12使用由H-net 11输出的转换矩阵H，将表现第1图像51的各像素的到预定时间后为止的第1移动量的第1移动量图像61作为第1图像51与第2图像52之间的运动的推定结果来输出。STL_H 12例如是由非专利文献2公开的保持空间不变性的、能够完全微分的空间转换网络(Spatial Transformer Network：STN)构成的空间转换层(Spatialtransformer Layer)。在非专利文献2中，公开了如下内容：使STN学习用于输出转换矩阵的参数，其中，该转换矩阵使同一物体的从某个角度拍摄到的图像进行扭曲(warp)(变形等转换)为从其他角度拍摄同一物体而得到的其它图像。进而，例如在给予了通过神经网络等通常的参数化函数而从两个帧U_t、U_t+1推定出的映射转换T_φ后，STN通过计算T_φ(U_t)，能够得到U_t+1。

此外，STL_H 12使用由H-net 11输出的转换矩阵H对第1图像51进行转换，能够生成作为接近第2图像52的图像的推定图像。由H-net 11推定出的转换矩阵H是用于使第1图像51扭曲而转换为第2图像52的映射矩阵。因此，转换矩阵H进行全局转换，该全局转换虽然能够捕捉图像间的整体运动，但不至于捕捉图像中的各对象的详细运动。因此，使用由H-net11输出的转换矩阵H而使第1图像51转换得到的推定图像不是第2图像52，而是接近的图像。同样，使用由H-net 11输出的转换矩阵H而生成的第1移动量图像61表示第1图像51与第2图像52之间的整体运动的推定结果，但未表示到图像中的各对象的详细运动的推定。

这样，神经网络10a将通过H-net 11输出的转换矩阵H而生成的、表现第1图像的各像素的到预定时间后为止的第1移动量的第1移动量图像61作为第1图像51与第2图像52之间的运动的推定结果来输出。由于第1移动量图像61表现第1图像51的各像素的到预定时间后为止的第1移动量，故而能够捕捉为表现第1图像51与第2图像之间的运动的光流。即，神经网络10a能够输出所推定出的光流。

此外，推定器10使用的神经网络的结构不限于图2所示的神经网络10a的结构。也可以是图4所示的神经网络10b的结构。以下，对其进行说明。

[神经网络10b的结构]

图4是示出图1所示的推定器10使用的神经网络10b的结构的一例的框图。对与图2同样的要素标注相同的标号，并省略详细说明。

如图4所示，神经网络10b具有H-net 11、STL_H 12和F-net 13。神经网络10b也与神经网络10a同样，被输入构成动态图像的时间上相邻的第1图像51和第2图像52，输出第1图像51与第2图像52之间的运动的推定结果，所述第2图像52是从第1图像51经过了预定时间后的图像的。此外，在图4中，将具有H-net 11、STL_H 12和F-net 13的神经网络表示为自我运动网络11a。

＜F-net 13＞

F-net 13是与构成神经网络10b的第1神经网络不同的第2神经网络的一例，有时也称作精细化网络(refinement network)。F-net 13被输入第1图像51、第2图像52和表现第1移动量的第1移动量图像61，输出表现第1图像51的各像素的到预定时间后为止的第2移动量的第2移动量图像62。更具体而言，F-net 13由包括一个以上的卷积层的压缩层、位于压缩层之后且包括一个以上的反卷积层的展开层、以及位于展开层之后的一个卷积层构成，输出表示构成表现第2移动量的第2移动量图像62的各像素的移动量的两个参数。即，位于展开层之后的一个卷积层构成为输出表示构成第2移动量的像素的移动量的两个参数。

图5是示出实施方式中的F-net 13的结构的一例的图。

如例如图5所示，F-net 13由5个压缩层(C-block 131～135)、5个展开层(T-block136～140)以及作为卷积层的最终层(Conv 141)构成。图5所示的箭头表示压缩层与展开层之间的跳跃(skip)连接。通过5个压缩层(C-block 131～135)和5个展开层(T-block 136～140)构成进行维数削减的自动编码器。5个展开层(T-block 136～140)成为镜像了5个压缩层的结构的结构。

C-block 131和C-block 132的输出数为96，C-block 133～C-block 135的输出数为128。作为5个压缩层的C-block 133～C-block 135分别由3个卷积层构成，以3×3核心为特征，将3个卷积层中的最终层的步长设为2，将除此之外的步长设为1。即，在各压缩层中，在3个卷积层的最终层以外的两个卷积层中，每挪动1个像素提取特征，在最终层，每挪动2个像素提取特征。这样，各压缩层将所输入的第1移动量图像61的特征机械能压缩并向下传递。

T-block 136～T-block 138的输出数为128，T-block 139和T-block 140的输出数为96。作为5个展开层的T-block 136～T-block 140分别由3个反卷积层(也称作转置卷积层)构成，以4×4核心为特征，将3个卷积层中的起始层的步长设为2，将除此之外的步长设为1。即，在3个卷积层的起始层中，每挪动2个像素展开特征，在后面的两个层中，每挪动1个像素提取特征，由此，5个展开层分别将所输入的压缩后的第1移动量图像61的特征进行展开，并向下传递。

另外，作为最终层的卷积层的Conv 141的输出数构成为2。此处，将输出数设为2是因为通过图像的X方向、Y方向的两个参数来表现构成第2移动量图像的像素的移动量。

这样，在神经网络10b中，将通过H-net 11输出的转换矩阵H而生成的、表现第1图像的各像素的到预定时间后为止的第1移动量的第1移动量图像61、第1图像51和第2图像输入到F-net 13。进而，将F-net 13输出的、表现第1图像51的各像素的到预定时间后为止的第2移动量的第2移动量图像62作为第1图像51与第2图像52之间的运动的推定结果来输出。

此外，第2移动量图像62表现第1图像51的各像素的到预定时间后为止的第2移动量，故而能够捕捉为表现第1图像51与第2图像之间的运动的光流。即，神经网络10b能够输出所推定出的光流。

[推定器10的推定处理结果]

图6是概念性地示出实施方式中的推定器10的推定处理结果的图。图6示出推定器10使用图4所示的神经网络10b的情况下的推定处理结果的一例。

如图6所示，作为第1图像51和第2图像52，向推定器10使用的神经网络10b输入作为时间上连续的车载摄像头的图像的帧X_t、X_t+1。在该情况下，自我运动网络11a将表现帧X_t的各像素的到预定时间后为止的移动量的移动量图像F_H作为第1移动量图像61输出到F-net 13。此处，移动量图像F_H是通过颜色浓淡来表示帧X_t、X_t+1间的运动的图像。F-net 13被输入从自我运动网络11a输出的移动量图像F_H和帧X_t、X_t+1，将表现帧X_t的各像素的到预定时间后为止的移动量的移动量图像F作为帧X_t、X_t+1之间的运动的推定结果来输出。

在图6所示的例子中，在从移动量图像F_H和移动量图像F的中心起左侧的颜色的浓淡中，颜色越浓，表示帧X_t、X_t+1之间左侧的运动越大。同样，在从移动量图像F_H和移动量图像的中心起右侧的颜色的浓淡中，颜色越浓，表示帧X_t、X_t+1之间右侧的运动越大。

另外，移动量图像F_H能够捕捉帧X_t、X_t+1之间的整体运动，但不至于捕捉帧X_t中包含的各对象的详细运动。另一方面，移动量图像F相当于使移动量图像F_H精细化(refine)的结果，在捕捉帧X_t、X_t+1之间的整体运动的基础上，还捕捉帧X_t中包含的各对象的详细运动。

[推定器10的学习处理]

以下，对用于实现这样的推定器10的学习处理进行说明。将作为推定器10发挥功能之前的进行学习处理的单元称作神经网络10c来进行说明。

[学习方法]

图7是示出实施方式中的学习方法的流程图。

如图7所示，首先，计算机进行将第1图像和第2图像输入到神经网络10c的输入处理(S11)。更具体而言，计算机将构成动态图像的时间上相邻的第1图像51和第2图像52输入到神经网络10c，所述第2图像52是从第1图像51经过预定时间后的图像。

接下来，计算机进行神经网络10c的学习处理(S12)。此处，学习后的神经网络10c成为使用图2进行了说明的神经网络10a。在该情况下，计算机使用步骤S11中输入的第1图像51和第2图像52，使神经网络10c学习输出转换矩阵H，所述转换矩阵H是对第1图像51中的全部像素使用的将第1图像51转换为第2图像52的转换矩阵。

另一方面，学习后的神经网络10c成为使用图4进行了说明的神经网络10b。在该情况下，计算机i)使构成神经网络10c的第1神经网络使用步骤S11中输入的第1图像51和第2图像52来学习输出第1移动量图像61，所述第1移动量图像61表现第1图像51的各像素的到预定时间后为止的第1移动量。另外，计算机与i)一同，ii)使构成神经网络10c的与第1神经网络不同的第2神经网络使用步骤S11中输入的第1图像51、第2图像52和第1移动量图像61来学习输出第2移动量图像62，所述第2移动量图像62表现第1图像51的各像素的到预定时间后为止的第2移动量。此处，计算机也可以使用步骤S11中输入的第1图像51和第2图像52，使第1神经网络学习输出转换矩阵H，由此学习输出从转换矩阵H生成的第1移动量图像61，所述转换矩阵H是对第1图像51中的全部像素使用的将第1图像51转换为第2图像52的转换矩阵。

此外，计算机大量地准备构成动态图像的时间上相邻的第1图像和第2图像的组。即，计算机能够通过反复步骤S11～S12，使用大量的第1图像和第2图像的组来使神经网络10c进行学习。

接下来，计算机进行光流推定结果的输出处理(S13)。此处，学习后的神经网络10c成为使用图2进行了说明的神经网络10a。在该情况下，计算机将由在步骤S12中进行了学习的神经网络10c输出的转换矩阵H生成的、表现第1图像51的各像素的到预定时间后为止的移动量的第1移动量图像61作为第1图像51与第2图像52之间的运动的推定结果来输出。这是因为，如上所述，该第1移动量图像61能够捕捉为表现第1图像51与第2图像之间的运动的光流。即，计算机能够使学习后的神经网络10c输出光流推定结果。

另一方面，学习后的神经网络10c成为使用图4进行了说明的神经网络10b。在该情况下，计算机将在步骤S12中学习后的神经网络10c所输出的第2移动量图像62作为第1图像51与第2图像52之间的运动的推定结果来输出。这是因为，如上所述，该第2移动量图像62能够捕捉为表现第1图像51与第2图像之间的运动的光流。即，计算机能够使学习后的神经网络10c输出光流推定结果。

[学习方法的详细情况]

以下，对图7所示的步骤S12的详细处理进行说明。

＜神经网络10c的结构＞

图8是示出实施方式的学习处理中使用的神经网络10c的结构的一例的图。图8示出了学习后的神经网络10c成为使用图4进行了说明的神经网络10b的情况下的神经网络10c的结构。此外，对与图4同样的要素标注相同的标号，并省略详细说明。

图8所示的神经网络10c具有H-net 11c、STL_H 12、F-net 13c、STL_F14、第1误差计算部15和第2误差计算部16。

H-net 11c除了具有学习未完成的权重这点以外，与H-net 11相同。

STL_H 12使用由H-net 11c输出的转换矩阵H，将表现第1图像51的各像素的到预定时间后为止的第1移动量的第1移动量图像61c作为第1图像51与第2图像52之间的运动的推定结果来输出。即，第1移动量图像61c是使用学习未完成的H-net 11c输出的转换矩阵H而生成的。

另外，STL_H 12输出作为推定为第2图像52的图像的第1推定图像63c，所述图像是使用由H-net 11c输出的转换矩阵H将第1图像51转换而得到的图像。即，STL_H 12还通过输入第1图像51，从由H-net 11c输出的转换矩阵H来生成被推定为第2图像52的第1推定图像63c并输出。

F-net 13c除了具有学习未完成的权重这点以外，与F-net 13相同。即，F-net 13c使用第1移动量图像61c生成第2移动量图像62c并输出。

STL_F 14与STL_H 12同样，是由STN构成的空间转换层。STL_F 14使用从F-net 13c输出的第2移动量图像62c，生成第2推定图像64c并输出，所述第2推定图像64c是推定为第2图像52的图像。

第1误差计算部15计算作为第1推定图像63c与第2图像52之间的误差的第1误差。

第2误差计算部16计算作为第2推定图像64c与第2图像52之间的误差的第2误差。

＜步骤S12的详细处理＞

图9是示出图7所示的步骤S12的详细处理的一例的流程图。在图9中，作为一例，假设使用图8所示的神经网络10c进行步骤S12的学习处理来进行说明。

在步骤S12中，计算机首先使神经网络10c输出转换矩阵H和第2移动量图像62c(S121)。更具体而言，计算机使H-net 11c输出转换矩阵H，所述转换矩阵H是对第1图像51中的全部像素使用的将第1图像51转换为第2图像52的转换矩阵。与此同时，计算机使F-net13c使用第1图像51、第2图像52和从转换矩阵H生成的表现第1移动量的第1移动量图像61c，来输出表现第1图像51的各像素的到预定时间后为止的第2移动量的第2移动量图像62c。

接下来，计算机计算将第1误差与第2误差结合而得到的结合误差，其中，第1误差是基于步骤S121中输出的转换矩阵H计算出的误差，第2误差是基于步骤S121中输出的第2移动量图像62c计算出的误差(S122)。更具体而言，计算机计算作为第1推定图像63c与第2图像52之间的误差的第1误差，所述第1推定图像63c是通过第1图像51和步骤S121中输出的转换矩阵H生成的从第1图像51经过预定时间后的图像。另外，计算机计算作为第2推定图像64c与第2图像52之间的误差的第2误差，所述第2推定图像64c是通过第1图像51和步骤S121中输出的第2移动量图像62c生成的从第1图像51经过预定时间后的图像。进而，计算机计算将第1误差与第2误差结合而得到的结合误差。

此处，第1误差、第2误差和结合误差例如使用Charbonnier loss来计算。

接下来，计算机判定在步骤S122中计算出的结合误差是否为最小(S123)。

在步骤S123中结合误差不是最小的情况下(S123：否)，以使该差变小的方式更新H-net 11c和F-net 13c的权重(S124)。进而，计算机进行从步骤S121开始反复的回归处理。

另一方面，在步骤S123中结合误差为最小的情况下(S123：是)，将结合误差达到了最小时的H-net 11c和F-net 13c的权重决定为学习完成的权重(S124)。更具体而言，在S122中计算出的结合误差达到了最小的情况下，将结合误差达到了最小的H-net 11c和F-net 13c的权重决定为进行了学习的自我运动网络11a和F-net 13的权重。此外，结合误差最小可以指如下情况：在决定了回归处理的上限次数的情况下，到上限次数为止的回归处理中的结合误差最小。

图10是概念性地示出图7所示的步骤S12的详细处理的图。图10也示出了使用图8所示的神经网络10c进行了学习处理的情况下的一例。

如图10所示，作为第1图像51和第2图像52，向神经网络10c输入作为时间上连续的车载摄像头的图像的帧X_t、X_t+1。在该情况下，计算机使构成神经网络10c的自我运动网络11a将表现帧X_t的各像素的到预定时间后为止的移动量的移动量图像F_HC作为第1移动量图像61c输出到F-net13c。此处，移动量图像F_Hc通过颜色的浓淡表示帧X_t、X_t+1间的运动。

另外，计算机使自我运动网络11a输出作为推定为第2图像52的图像的第1推定图像E^H _t+1，所述图像是使用由H-net 11c输出的转换矩阵H对帧X_t进行了转换而得到的图像。

另外，计算机将从自我运动网络11a输出的移动量图像F_HC和帧X_t、X_t+1输入到F-net13c。进而，计算机使F-net 13c将表现帧X_t的各像素的到预定时间后为止的移动量的移动量图像Fc作为帧X_t、X_t+1之间的运动的推定结果来输出。

另外，计算机使STL_F 14使用由F-net 13c输出的移动量图像Fc生成并输出第2推定图像E^F _t+1，该第2推定图像E^F _t+1是推定为第2图像52的图像。

另外，计算机使第1误差计算部15计算作为第1推定图像E^H _t+1与第2图像52之间的误差的第1误差，并且使第2误差计算部16计算作为第2推定图像E^F _t+1与第2图像52之间的误差的第2误差。进而，计算机以使将第1误差与第2误差结合而得到的结合误差最小的方式，使神经网络10c学习权重。

此处，为了评价第1误差和第2误差，可以使用例如(式1)所示的Charbonnier loss的误差函数。另外，结合误差例如可以如(式2)所示，通过对第1误差和第2误差赋予权重来进行评价。此外，(式1)和(式2)所示的误差函数是一例。另外，在(式1)中，ε为例如0.1等的正则化常数，是为了抑制过度学习等而追加的项。α、β用于赋予权重。

根据图10可知，在为了使神经网络10c进行光流推定而进行本公开的学习方法时，可以使为了学习而输入的帧X_t、X_t+1中的帧X_t+1承担训练数据的作用。即，可知，在本公开的学习方法中，不需要将除为了学习而与帧X_t一同输入的帧X_t+1之外的数据设为训练数据，因此不需要另外准备正解数据。

[效果等]

使用神经网络的光流推定是最活跃的研究领域之一。但是，难以推定由车载摄像头拍摄到的构成动态图像的时间上相邻的两个图像之间的紧密的运动流，难以使神经网络高精度且短时间地进行光流推定。

分析得出，这主要因为两个因素。第1个因素是，为了进行光流推定，需要考虑不仅是汽车运动(也称作Ego-motion)的影响。例如，都市中拍摄到的场景图像由建筑物等主要是静止物体构成，场景图像的平面内的运动模式与车载摄像头的运动强相关。但是，该场景图像不仅由静止的物体构成，其它汽车或步行者等的静止物体周围的物体与车载摄像头的运动独立地运动。因此，为了能够信赖光流推定结果，需要正确地推定上述Ego-motion和周围物体的运动这两个类型的运动。

第二个因素是，为了进行光流推定，作为正解信息，需要收集在像素级别上包含准确的光流信息的数据。如上述，难以收集包含这样的正解信息的数据。这是因为，在通常公开的汽车用数据集中，缺少作为正解信息的光流信息。

针对第1个因素，在本实施方式的学习方法中，通过以下方式进行了应对：通过作为第1神经网络的H-net来推定Ego-motion和周围物体运动这两个类型的运动中的Ego-motion，通过作为第2神经网络的F-net来推定周围物体的运动。即，使H-net学习输出转换矩阵的要素，所述转换矩阵是理解为在像素级别将时间上靠前的图像通过映射几何而转换为时间上靠后的图像来对连续的两个图像之间进行映射几何学转换。进而，通过上述STL将由H-net输出的转换矩阵转换为第1移动量图像，由此，能够进行表示Ego-motion的光流的推定。此外，由于映射几何学转换的空间制约，不能在转换矩阵中反映周围物体的运动，故而如上所述，第1移动量图像表示连续的两个图像间的整体运动的推定结果，但不能到表示图像中的各对象的详细运动的推定。即，第1移动量图像相当于粗略地进行了连续的两个图像间的光流推定。

进而，使F-net根据在使第1移动量图像承担训练数据的同时连续的两个图像之间，输出在第1移动量图像中进一步反映了周围物体的运动的第2移动量图像。即，第2移动量图像相当于进行了第1移动量图像的精细化(refine)。

这样，根据本实施方式的学习方法，能够学习连续的两个图像间的光流的推定。

针对第二个因素，在本实施方式的学习方法中，通过以下方式进行了应对：通过将为了学习而输入的时间上相邻的两个图像中的时间上靠后的图像作为训练数据等来进行自我学习。即，在本实施方式的学习方法中，以在光流推定的学习中不需要预先准备的训练数据的方式进行了应对。

更具体而言，使作为第1神经网络的H-net 11学习输出转换矩阵，由此能够使为了学习而一同输入的第2图像承担训练数据的作用，所述转换矩阵是将第1图像51转换为第2图像52的转换矩阵。另外，使作为第2神经网络的F-net 13以从H-net 11输出的转换矩阵生成的第1移动量图像61承担训练数据的作用来进行学习。即，根据使用仅构成上述H-net 11或构成H-net 11和F-net 13的神经网络的本实施方式的学习方法，能够仅使用为了学习而输入的时间上相邻的两个图像来进行自我学习。

这样，根据本实施方式的学习方法，针对仅构成H-net 11或构成H-net11和F-net13的神经网络，能够没有训练数据而学习光流推定。

(实施例)

以下，对本公开的推定器10中使用的神经网络的有效性进行了验证，因此，将该实验结果作为实施例来进行说明。

如上所述，推定器10中使用的神经网络能够将为了学习而输入的时间上相邻的两个图像中的时间上靠后的图像作为训练数据来使用等，由此进行自我学习。即，不需要作为对光流推定而准备的正解数据的训练数据。因此，在使用于推定器10的神经网络进行学习时，能够使用Kitti raw或DR(eye)VE等大规模的汽车数据集。此处，Kitti raw数据集包含在卡尔斯鲁厄市取得的44000张图像，DR(eye)VE数据库包含555000张图像，这些图像包含在高速道路、繁华市区或农村等昼与夜之间、晴天与下雨或者在较大的场景变动之间转变而带来的图像状态的急剧变化。

另一方面，Kitti Flow被知晓为包含正解信息的实际的汽车用数据集的最大规模，但在训练和测试这两个版本中，只不过是800个以下的带正解信息的成对图像的组合。此外，近年来，作为受Kitti影响的合成汽车数据集，发布了Virtual Kitti。但是，在该Virtual Kitti数据集中，在光流、语义分割、深度和对象的包围盒(Bounding box)、以及对象包围盒中，也只是包含带有完全正解信息的21000以上的帧。

以下，使用Kitti raw数据集、Virtual Kitti数据集或DR(eye)VE数据库评价了在推定器10中使用的神经网络的性能，因此，对其结果进行说明。此外，在以下的实验中，针对Kitti raw数据集、Virtual Kitti数据集或DR(eye)VE数据库的各数据集，不进行微调来使用。

＜实验条件＞

在本实验中，将学习率设定为10^-4，将微型批次尺寸(mini patch size)设定为16，将β1设定为0.5，将除此之外的参数设定为默认(初始值)，使用Adam optimizer进行了学习。另外，在由1000个微型批次构成的250epoch(轮)分别完成后，学习结束。另外，为了评价H-net和F-net的第1误差和第2误差，针对结合误差，使用上述(式2)，设α为0.5，β为1。

＜实验结果＞

图11是示出本公开的学习方法的学习效果的图。此外，在图11中，为了更容易解读绘图比例(plot scale)而将最初的50个微型批次部分省略。另外，在图11中，细线的数据为比较例，示出了将Virtual Kitti数据集的正解数据用作训练数据进行了学习的情况下的批次数与平均点误差(Average Point Error)之间的关系。另一方面，粗线的数据示出了使本公开的神经网络使用Virtual Kitti数据集、无训练而进行了学习的情况下的批次数与重构误差(Reconstruction Error)之间的关系。重构误差相当于(式2)的结合误差的值。

如图11所示，可知，本公开的神经网络与比较例相比，在批次数较小时，学习效果存在差异，但在批次数为500左右以上时，学习效果变为等同。即，在使本公开的推定器10中使用的神经网络10c没有训练数据而进行了学习的情况下，只要具有足够的批次数即数据集数，就能够进行有效果的学习。

图12是示出使用Kitti raw数据集进行了学习的本公开的神经网络的评价结果的图。在图12中，示出了使H-net和F-net独立地、例如以使(式1)最小化的方式进行学习时的评价结果。另外，在图12中，使具有学习后的H-net和F-net的本公开的神经网络10c例如以使(式2)最小化的方式进行学习时，将评价结果表示为joint。另外，在图12中，Accuracy@5表示终点误差(End Point Error)小于5像素的运动矢量的比率，值越高，性能越好。APE表示全部运动矢量的平均点误差(Average Point Error)，越低则性能越好。此外，Time(s)表示使用NVIDIA GTX 1080Ti GPU计算出的执行时间。

如图11所示，可知，F-net与H-net相比，执行时间慢大约4倍，表示精度的Accuracy@5和APE也较差。F-net具有上述那样的自动编码器的结构，故而认为，为了通过独立的学习达到较高的性能，需要包含大量正解信息的数据集。

另一方面，上述转换矩阵H用于图像的扭曲(变形等转换)，故而，在学习输出转换矩阵的H-net中，即使没有训练数据也表现出较高的性能，能够通过12ms的执行时间来输出转换矩阵。

此外，可知，在相当于本公开的神经网络10c的joint中，执行时间比H-net慢4倍以上，也比F-net慢，但与F-net、H-net相比，Accuracy@5得到了改善。可知，APE也低于H-net，与F-net相比得到了改善。

根据这些可知，实施方式中说明的构成H-net的本公开的神经网络10a以及构成F-net、H-net的本公开的神经网络10b是有用的。

图13是示出使用Virtual Kitti数据集进行了本公开的学习方法的情况下的评价的另一图。图13中，作为比较例，也示出了使用训练数据进行了学习的其它方法中的模型DeepFlow、EpicFlow、FlowNetv2、MRFlow的评价。

此外，Virtual Kitti数据集导入了典型的汽车的视点，与其它的数据集存在不同。例如，Virtual Kitti数据集在计算机渲染的场景中存在典型的Artifact。但是，在现今，Virtual Kitti数据集是通过计算机图形学使场景扭曲(变形)得到的、提供汽车用高密度正解光流信息的最大的数据集。进而，与具有基于LIDAR的正解信息的其它数据集成对比的是，Virtual Kitti数据集保证是准确的。

如图13所示，可知，Ours(或Our+FT)即本公开的学习方法与使用训练数据进行了学习的其它模型相比，执行时间短，表示精度的Accuracy@5和APE也为其它模型同等以上。具体而言，可知，本公开的学习方法与其它模型相比，在得到最优的APE结果的基础上，比最快的其它模型还快2.5倍。

图14是示出使用DR(eye)VE数据库来评价本公开的学习方法的环境条件的影响的图。图14中，作为比较例，还示出了使用训练数据进行了学习的其它方法中的模型DeepFlow、EpicFlow的评价。在DR(eye)VE数据库中，未准备正解信息，故而对推定出光流的推定图像的PSNR(Peak Signal to Noise Ratio：峰值信噪比)进行测定，将PSNR作为环境条件影响的评价指标。

如图14所示，可知，Ours即本公开的学习方法在夜间环境、雨中环境、日间环境中的任一个环境的情况下，PSNR高于使用训练数据进行了学习的其它模型。例如，本公开的学习方法示出了如下情况：与其它模型相比，即使在夜间环境中，PSNR也较高。可知，使通过本公开的学习方法学习后的推定器10输出的推定出光流的推定图像的强度较低，该推定图像为有效且低误差的图像。另外，在本实验中，如图14所示可知，环境条件对通过本公开的学习方法进行了学习的推定器10的光流推定不会产生较大的影响。

如上所述，根据本公开的学习方法及其程序，能够使神经网络没有训练而学习光流推定。进而，通过本公开的学习方法进行了学习的推定器能够以接近实时的短时间进行光流推定，且能够高精度地进行光流推定。因此，能够将本公开的学习方法及其程序充分应用于ADAS或自动驾驶等要求实时且高精度地检测或追踪位于路上的多个对象的系统。

(其它实施方式的可能性)

以上，在实施方式中，对本公开的学习方法进行了说明，但对实施各处理的主体或装置没有特别限定。也可以通过组装在配置于本地的特定装置内的处理器等(以下进行说明)来处理。另外，也可以通过配置在与本地装置不同的场所的云服务器等来处理。

此外，本公开不限定上述实施方式。例如，也可以将本说明书中记载的构成要素任意组合，另外，也可以将除去几个构成要素而实现的其他实施方式作为本公开的实施方式。另外，针对上述实施方式，在不脱离本公开的主旨即权利要求书所记载的文本所表达的含义范围内实施本领域技术人员想到的各种变形而得到的变形例也包含在本公开中。

另外，本公开还包含以下那样的情况。

(1)具体而言，上述装置是由微处理器、ROM、RAM、硬盘单元、显示器单元、键盘、鼠标等构成的计算机系统。所述RAM或硬盘单元中存储有计算机程序。所述微处理器按照所述计算机程序进行工作，由此各装置达成其功能。此处，计算机程序是为了达成预定功能而组合多个表示针对计算机的指令的命令代码而构成的。

(2)构成上述装置的构成要素的一部分或全部也可以由1个系统LSI(Large ScaleIntegration：大规模集成电路)构成。系统LSI是将多个结构部集成到1个芯片上而制造出的超大功能LSI，具体而言，是构成为包含微处理器、ROM、RAM等的计算机系统。上述RAM中存储有计算机程序。上述微处理器按照上述计算机程序进行工作，由此系统LSI达成其功能。

(3)构成上述装置的构成要素的一部分或全部也可以由能够对各装置装卸的IC卡或单体的模块构成。上述IC卡或上述模块是由微处理器、ROM、RAM等构成的计算机系统。上述IC卡或上述模块也可以包含上述超多功能LSI。微处理器按照计算机程序进行工作，由此上述IC卡或上述模块达成其功能。该IC卡或该模块也可以具有防篡改性。

(4)另外，本公开也可以是上述所示的方法。另外，也可以是通过计算机实现这些方法的计算机程序，或者由上述计算机程序构成的数字信号。

(5)另外，本公开也可以将上述计算机程序或上述数字信号记录到计算机可读取的记录介质、例如，软盘、硬盘、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray(注册商标)Disc)、半导体存储器等中。另外，也可以是这些记录介质中记录的上述数字信号。

另外，本公开也可以经由电子通信线路、无线或有线通信线路、以互联网为代表的网络、数据广播等来传输上述计算机程序或上述数字信号。

另外，本公开也可以是具有微处理器和存储器的计算机系统，上述存储器存储上述计算机程序，上述微处理器按照上述计算机程序进行工作。

另外，也可以通过将上述程序或上述数字信号记录到上述记录介质中来进行传送，或经由上述网络等来传送上述程序或上述数字信号，由此，通过独立的其它计算机系统来实施。

产业上的可利用性

本公开能够应用于使用神经网络的学习方法和程序，尤其是能够应用于ADAS和自动驾驶等要求实时且高精度地检测或追踪位于路上的多个对象的系统。

标号说明

10 推定器

10a、10b、10c 神经网络

11、11c H-net

11a 自我运动网络

12 STL_H

13、13c F-net

14 STL_F

15 第1误差计算部

16 第2误差计算部

51 第1图像

52 第2图像

61、61c 第1移动量图像

62，62c 第2移动量图像

63c 第1推定图像

64c 第2推定图像

111、112、113、114、115、116、141 Conv

117、118、119 FC

131、132、133、134、135 C-block

136、137、138、139、140 T-block

Claims

1.一种学习方法，包括：

输入步骤，向神经网络输入构成动态图像的时间上相邻的第1图像和第2图像，所述第2图像是从所述第1图像经过预定时间后的图像；

学习步骤，使用所述第1图像和所述第2图像，使所述神经网络学习输出转换矩阵，所述转换矩阵是对所述第1图像中的全部像素使用的将所述第1图像转换为所述第2图像的转换矩阵；以及

输出步骤，将通过所述转换矩阵生成的移动量图像作为所述第1图像与所述第2图像之间的运动的推定结果来输出，所述移动量图像表现所述第1图像的各像素的到所述预定时间后为止的移动量。

2.一种学习方法，包括：

学习步骤，i)使构成所述神经网络的第1神经网络使用所述第1图像和所述第2图像来学习输出第1移动量图像，所述第1移动量图像表现所述第1图像的各像素的到所述预定时间后为止的第1移动量，ii)使构成所述神经网络的与所述第1神经网络不同的第2神经网络使用所述第1图像、所述第2图像和所述第1移动量图像来学习输出第2移动量图像，所述第2移动量图像表现所述第1图像的各像素的到所述预定时间后为止的第2移动量；以及

输出步骤，将所述第2移动量图像作为所述第1图像与所述第2图像之间的运动的推定结果来输出。

3.根据权利要求2所述的学习方法，

在所述学习步骤中，使用所述第1图像和所述第2图像，使所述第1神经网络学习输出转换矩阵，由此学习输出从所述转换矩阵生成的所述第1移动量图像，所述转换矩阵是对所述第1图像中的全部像素使用的将所述第1图像转换为所述第2图像的转换矩阵。

4.根据权利要求3所述的学习方法，

在所述学习步骤中，包括：

计算将第1误差与第2误差结合而得到的结合误差，所述第1误差是通过所述转换矩阵和所述第1图像生成的作为从所述第1图像经过所述预定时间后的图像的第1推定图像与所述第2图像之间的误差，所述第2误差是通过所述第2移动量图像和所述第1图像生成的作为从所述第1图像经过所述预定时间后的图像的第2推定图像与所述第2图像之间的误差；

决定步骤，在计算出的所述结合误差达到了最小的情况下，将所述结合误差达到了最小的所述第1神经网络和所述第2神经网络的权重决定为进行了学习的所述第1神经网络和所述第2神经网络的权重。

5.根据权利要求1、3或4所述的学习方法，

构成所述神经网络的第1神经网络由一个以上的卷积层和一个以上的全连接层构成，

所述全连接层构成为输出9个参数中的至少8个参数，所述9个参数成为构成所述转换矩阵的9个系数。

6.根据权利要求1、3或4所述的学习方法，

构成所述神经网络的第1神经网络由两个以上的卷积层构成，

所述两个以上的卷积层中的最终层构成为输出9个参数中的至少8个参数，所述9个参数成为构成所述转换矩阵的9个系数。

7.根据权利要求5或6所述的学习方法，

构成所述神经网络的第2神经网络由包括一个以上的卷积层的压缩层、位于所述压缩层之后且包括一个以上的反卷积层的展开层以及位于所述展开层之后的一个卷积层构成，

所述一个卷积层构成为输出表示构成所述第2移动量图像的像素的移动量的两个参数。

8.一种程序，使计算机执行如下步骤：

9.一种程序，使计算机执行如下步骤：