CN108352072A

CN108352072A - 物体跟踪方法、物体跟踪装置以及程序

Info

Publication number: CN108352072A
Application number: CN201780003689.5A
Authority: CN
Inventors: M·Y·金; 筑泽宗太郎
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2016-08-08
Filing date: 2017-07-07
Publication date: 2018-07-31
Anticipated expiration: 2037-07-07
Also published as: EP3499454A4; JP6832504B2; CN108352072B; JP2018026108A; US20190066313A1; EP3499454A1; EP3499454B1; US10803602B2

Abstract

本公开提供物体跟踪方法、物体跟踪装置以及程序。本公开的物体跟踪方法包括：输入步骤(S1)，向神经网络输入按时间序列连续的两个以上的图像；和输出步骤(S2)，对在输入步骤(S1)中输入的两个以上的图像各自的、使该神经网络提取出的特征量进行比较来核对相似性，由此，将与映现在时间序列上靠前的图像中的作为跟踪候选的一个以上的物体一致的映现在时间序列上比靠前的图像靠后的图像中的一个以上的物体的识别信息以及位置信息作为识别结果进行输出。该神经网络包括两个以上的具有零个以上的全连接层和一个以上的卷积层的相同结构，在相同结构间的对应的层中共享参数。

Description

物体跟踪方法、物体跟踪装置以及程序

技术领域

本公开涉及物体跟踪方法、物体跟踪装置以及程序，特别涉及计算机使用神经网络进行的物体跟踪方法、物体跟踪装置及其程序。

背景技术

例如提出了在对映现在动态图像中的多个对象物体进行跟踪的物体跟踪技术中使用深度学习(Deep Learning)(例如非专利文献1～3)。在非专利文献1～3中，对深度学习中使用的神经网络，利用处理时间序列信息的循环神经网络(Recurrent NeuralNetwork)。由此，因为对动态图像间所映现的多个对象物体的推移等的时间信息进行处理，所以能够实现使用了深度学习的物体跟踪技术。

现有技术文献

非专利文献1：Gan，Q.，Guo，Q.，Zhang，Z.，Cho，K.：First step toward model-free，anonymous object tracking with recurrent neural networks.CoRR abs/1511.06425

非专利文献2：Kahou，S.E.，Michalski，V.，Memisevic，R.：RATM：recurrentattentive tracking model.CoRR abs/1510.08660(2015)

非专利文献3：Ondruska，P.，Posner，I.：Deep tracking：Seeing beyond seeingusing recurrent neural networks.CoRR abs/1602.00991(2016)

发明内容

本公开的一个技术方案的物体跟踪方法是计算机使用神经网络进行的物体跟踪方法，包括：输入步骤，向所述神经网络输入分别映现有一个以上的物体且按时间序列连续的两个以上的图像；和输出步骤，对在所述输入步骤中输入的所述两个以上的图像各自的、使所述神经网络提取出的特征量进行比较来核对相似性，由此，将与映现在所述两个以上的图像中的时间序列上靠前的图像中的作为跟踪候选的一个以上的物体一致的、映现在时间序列上比所述靠前的图像靠后的图像中的一个以上的物体的识别信息以及位置信息作为识别结果进行输出，所述神经网络包括两个以上的相同结构，所述相同结构具有零个以上的全连接层和一个以上的卷积层，在所述相同结构间的对应的层中共享参数。

此外，这些概括性或具体的技术方案既可以通过系统、方法、集成电路、计算机程序或计算机可读取的CD-ROM等记录介质来实现，也可以通过系统、方法、集成电路、计算机程序以及记录介质的任意组合来实现。

根据本公开的物体跟踪方法等，能够进一步提高使用了深度学习的物体跟踪的处理速度。

附图说明

图1是表示实施方式的物体跟踪装置的构成的一例的框图。

图2是表示图1所示的输出部的详细构成的一例的框图。

图3是图2所示的提取部所使用的神经网络的结构的一例的说明图。

图4是图3所示的基本神经网络的结构的一例的说明图。

图5是表示实施方式的物体跟踪装置的处理例的流程图。

图6A是表示向实施方式的物体跟踪装置输入的输入图像的一例的图。

图6B是表示向实施方式的物体跟踪装置输入的输入图像的一例的图。

图7是表示实施方式的物体跟踪装置所进行的处理的概貌(image)的图。

图8是表示实施方式的物体跟踪装置所进行的处理的概貌的图。

图9A是表示实施方式的物体跟踪装置的处理结果的一例的图。

图9B是表示实施方式的物体跟踪装置的处理结果的一例的图。

图10是表示实施方式的学习处理的概要的流程图。

图11是实施方式的第一阶段的学习处理中使用的基本神经网络的结构的一例的说明图。

图12是实施方式的第二阶段的学习处理中使用的神经网络的结构的一例的说明图。

图13是表示实施例1的使用了Market-1501数据集的学习时误差的图。

图14是表示实施例1的使用了Market-1501数据集的验证时误差的图。

图15A是表示实施例1的使用验证用的Market-1501数据集而获得的特征量的欧几里得距离的图。

图15B是表示实施例1的使用验证用的Market-1501数据集而获得的特征量的欧几里得距离的图。

图16A是表示实施例1的使用验证用的Mot16数据集而获得的特征量的欧几里得距离的图。

图16B是表示实施例1的使用验证用的Mot16数据集而获得的特征量的欧几里得距离的图。

图16C是表示实施例1的使用验证用的Mot16数据集而获得的特征量的欧几里得距离的图。

图17A是表示实施例1的使用验证用的Mot16数据集而获得的特征量的欧几里得距离的图。

图17B是表示实施例1的使用验证用的Mot16数据集而获得的特征量的欧几里得距离的图。

图17C是表示实施例1的使用验证用的Mot16数据集而获得的特征量的欧几里得距离的图。

图18A是表示实施例1的使用学习用的Mot16数据集而获得的的特征量的欧几里得距离的图。

图18B是表示实施例1的使用学习用的Mot16数据集而获得的的特征量的欧几里得距离的图。

图18C是表示实施例1的使用学习用的Mot16数据集而获得的特征量的欧几里得距离的图。

图19A是表示实施例1的使用学习用的Mot16数据集而获得的特征量的欧几里得距离的图。

图19B是表示实施例1的使用学习用的Mot16数据集而获得的特征量的欧几里得距离的图。

图19C是表示实施例1的使用学习用的Mot16数据集而获得的特征量的欧几里得距离的图。

图20是表示实施例1的预定算法的一例的图。

图21是表示实施例2的MOT16训练数据集(MOT16Train Data)的基准(benchmark)评价结果的图。

图22是表示实施例2的MOT16测试数据集的基准评价结果的图。

具体实施方式

(得到本公开的一技术方案的经过)

物体跟踪正在随着对机器视觉(machine vision)的识别的关心的高涨而快速发展。另外，物体跟踪因对高水平地理解对象这一情况的关心的高涨而成为在计算机视觉中最活跃的话题之一。对于物体跟踪，在运动分析的领域，也已存在使目标从受监视系统支配而工作向自主地工作变化等用于使跟踪性能提高的广泛探讨。

但是，机器视觉为了进行物体跟踪，需要调整取决于数据集的许多参数，为了适用于ADAS等要求实时地进行物体跟踪的系统，成为重大限制。

近年来，DNNs(Deep Neural Networks，深度神经网络)因能够学习大量的特征而被广泛地使用起来。因此，使用DNNs构建物体跟踪系统的技术也被积极地提了出来(例如上述非专利文献1～3)。在非专利文献1～3中，如上所述，对深度学习中使用的神经网络，利用加入物体移动的推移等的时间信息(时间序列信息)的循环神经网络(RNN)。对于物体移动的推移等的时间信息，动态图像中的对象物体的推移的关系当然在整个动态图像中的物体的跟踪中也很重要。

但是，非专利文献1～3中提出的使用了深度学习的物体跟踪技术，因利用了循环神经网络而需要非常多的运算，因此处理速度慢。

因此，例如，在作为事先检测并避免事故等的可能性的系统的ADAS(AdvancedDriver Assistance System：先进驾驶辅助系统)等要求实时的物体跟踪的系统中，难以适用该物体跟踪技术。

本公开是鉴于上述情况而完成的，提供能够进一步提高使用了深度学习的物体跟踪的处理速度的物体跟踪方法、物体跟踪装置以及程序。

本公开的一技术方案的物体跟踪方法是计算机使用神经网络进行的物体跟踪方法，包括：输入步骤，向所述神经网络输入分别映现有一个以上的物体且按时间序列连续的两个以上的图像；和输出步骤，对在所述输入步骤中输入的所述两个以上的图像各自的、使所述神经网络提取出的特征量进行比较来核对相似性，由此，将与映现在所述两个以上的图像中的时间序列上靠前的图像中的作为跟踪候选的一个以上的物体一致的、映现在时间序列上比所述靠前的图像靠后的图像中的一个以上的物体的识别信息以及位置信息作为识别结果进行输出，所述神经网络包括两个以上的相同结构，所述相同结构具有零个以上的全连接层和一个以上的卷积层，在所述相同结构间的对应的层中共享参数。

由此，能够实现能进一步提高使用了深度学习的物体跟踪的处理速度的物体跟踪方法。

在此，例如也可以是，在所述输入步骤中，向所述神经网络输入分别映现有一个以上的物体且按时间序列连续的第1图像以及第2图像，在所述输出步骤中，使所述神经网络提取映现在通过所述输入步骤输入的所述第1图像中的作为跟踪候选的一个以上的物体各自的第1特征量、以及映现在所述第2图像中的一个以上的物体各自的第2特征量，对提取出的所述第1特征量和所述第2特征量进行比较来核对相似性，由此，将与映现在所述第1图像中的所述跟踪候选分别一致的映现在所述第2图像中的一个以上的物体的识别信息以及位置信息作为识别结果进行输出，所述神经网络包括两个所述相同结构，通过两个所述相同结构提取所述第1图像的所述第1特征量以及所述第2图像的所述第2特征量。

另外，例如也可以是，在所述输入步骤中，向所述神经网络输入分别映现有一个以上的物体且按时间序列连续的第1图像、第2图像以及第3图像，在所述输出步骤中，使所述神经网络提取映现在通过所述输入步骤输入的所述第1图像中的作为跟踪候选的一个以上的物体各自的第1特征量、映现在所述第2图像中的一个以上的物体各自的第2特征量、以及映现在所述第3图像中的一个以上的物体各自的第3特征量，对提取出的所述第1特征量、所述第2特征量以及所述第3特征量进行比较来核对相似性，由此，将与映现在所述第1图像中的所述跟踪候选分别一致的映现在所述第2图像以及所述第3图像中的一个以上的物体的识别信息以及位置信息作为识别结果进行输出，所述神经网络包括三个所述相同结构，通过三个所述相同结构提取所述第1图像的所述第1特征量、所述第2图像的所述第2特征量以及所述第3图像的所述第3特征量。

另外，例如也可以是，所述物体跟踪方法还包括：学习步骤，在进行所述输入步骤之前，使用包括多个成对图像和非成对图像的学习用数据，使所述神经网络学习用于从所述成对图像的各图像中提取在基于比较的相似性的核对中表示同一物体的特征量的所述参数，所述成对图像是映现有同一物体的两个以上的图像，所述非成对图像是映现有非同一物体的两个以上的图像。

另外，例如也可以是，所述神经网络在所述两个以上的相同结构之外还具有追加层，所述追加层算出映现在通过所述输入步骤输入的所述两个以上的图像中的一个以上的物体的位置变化以及该图像中的区域变化。

另外，例如也可以是，所述物体跟踪方法还包括：第1学习步骤，在进行所述输入步骤之前，使用包括多个成对图像和非成对图像的学习用数据，使所述神经网络中的所述两个以上的相同结构学习用于从所述成对图像的各图像中提取在基于比较的相似性的核对中表示同一物体的特征量的所述参数，所述成对图像是映现有同一物体的两个以上的图像，所述非成对图像是映现有非同一物体的两个以上的图像；和第2学习步骤，使在所述两个以上的相同结构中反映了通过所述第1学习步骤学习后的所述参数的所述神经网络使用所述学习用数据，学习用于从所述成对图像的各图像中提取在基于比较的相似性的核对中表示同一物体的特征量的所述参数。

另外，例如也可以是，对于所述基于比较的相似性，通过由所述两个以上的相同结构提取出的在所述输入步骤中输入的所述两个以上的图像各自的特征量的距离的比较来评价。

另外，例如也可以是，对于所述基于比较的相似性，使用误差函数来评价，所述误差函数使用了所述两个以上的图像各自的特征量的欧几里得距离。

另外，例如也可以是，所述两个以上的相同结构分别以比在所述输入步骤中输入的所述两个以上的图像中的对应的图像的维度少的维度提取该该图像的特征量，由所述两个以上的相同结构分别提取的特征量的维度相同。

另外，例如也可以是，映现在所述两个以上的图像中的一个以上的物体是人物和车辆中的至少一方。

以下说明的实施方式都表示本公开的一个具体例子。以下的实施方式中示出的数值、形状、构成要素、步骤、步骤的顺序等是一例，并非限定本公开的意思。另外，关于以下的实施方式中的构成要素中的未记载在表示最上位概念的独立权利要求中的构成要素，作为任意的构成要素来说明。另外，也可以在全部实施方式中组合各个实施方式的内容。

(实施方式1)

以下，参照附图来进行实施方式1的物体跟踪装置10的物体跟踪方法等的说明。

[物体跟踪装置10的构成]

图1是表示本实施方式的物体跟踪装置10的构成的一例的框图。图2是表示图1所示的输出部12的详细构成的一例的框图。

物体跟踪装置10通过使用了神经网络的计算机等来实现，如图1所示，由输入部11和输出部12构成。物体跟踪装置10在被输入映现有跟踪对象的影像时，输出包含跟踪对象的物体的识别信息以及位置信息的跟踪结果。此外，物体跟踪装置10也可以输出赋予了跟踪结果的影像。

<输入部11>

输入部11向神经网络输入分别映现有一个以上的物体且按时间序列连续的两个以上的图像。更具体而言，输入部11向神经网络输入分别映现有一个以上的物体且按时间序列连续的第1图像以及第2图像。此外，输入部11也可以向神经网络输入分别映现有一个以上的物体且按时间序列连续的第1图像、第2图像以及第3图像。

在本实施方式中，认为输入部11向输出部12的提取部121输入按时间序列连续的两个图像即第1图像以及第2图像来进行说明。此外，输入部11也可以向输出部12的提取部121输入按时间序列连续的三个图像即第1图像、第2图像以及第3图像。另外，一个以上的物体是人物和车辆中的至少一方即可，也可以是人物和车辆之外的物体。

<输出部12>

如图2所示，输出部12具备提取部121、核对部122以及跟踪结果输出部123。输出部12输出针对输入到输入部11的影像的跟踪结果。例如，输出部12将与输入到输入部11的影像所包含的时间序列图像中的时间序列上靠前的图像所包含的跟踪对象的物体一致的、时间序列上靠后的图像所包含的物体的识别信息以及位置信息作为跟踪结果进行输出。此外，输出部12也可以对输入到输入部11的影像赋予跟踪结果来输出。也就是说，输出部12也可以输出对时间序列上靠后的图像所包含的物体附加了与对时间序列上靠前的图像所包含的同一物体附加的识别信息相同的识别信息的影像。

《提取部121》

提取部121使用神经网络，提取由输入部11输入的两个以上的图像各自的特征量(特征图(Feature Map))。也就是说，该特征量也可以是特征图。在此，该神经网络包括两个以上的具有零个以上的全连接层和一个以上的卷积层的相同结构，在相同结构间的对应的层中共享参数。该神经网络在该两个以上的相同结构之外，还具有追加层，该追加层算出映现在由输入部11输入的两个以上的图像中的一个以上的物体的位置变化以及该图像中的区域变化。并且，该两个以上的相同结构分别比由输入部11输入的两个以上的图像中的对应的图像的维度少的维度提取该图像的特征量，由两个以上的相同结构分别提取的特征量的维度相同。

在本实施方式中，提取部121使用如下的神经网络，该神经网络包括两个具有零个以上的全连接层和一个以上的卷积层的相同结构，在相同结构间的对应的层中共享参数，并且，该神经网络在该两个相同结构之外，具有追加层，该追加层算出映现在由输入部11输入的两个图像中的一个以上的物体的位置变化以及该图像中的区域变化。并且，提取部121使用该神经网络来提取映现在由输入部11输入的第1图像中的作为跟踪候选的一个以上的物体各自的第1特征量、以及映现在第2图像中的一个以上的物体各自的第2特征量。

此外，在通过输入部11输入了按时间序列连续的三个图像即第1图像、第2图像以及第3图像的情况下，提取部121也可以使用如下的神经网络，该神经网络包括三个具有零个以上的全连接层和一个以上的卷积层的相同结构，在相同结构间的对应的层中共享参数，并且，该神经网络在该三个相同结构之外，具有追加层，该追加层算出映现在由输入部11输入的三个图像中的一个以上的物体的位置变化以及该图像中的区域变化。即，提取部121也可以使用该神经网络来提取映现在由输入部11输入的第1图像中的作为跟踪候选的一个以上的物体各自的第1特征量、映现在第2图像中的一个以上的物体各自的第2特征量、以及映现在第3图像中的一个以上的物体各自的第3特征量。

在此，对本实施方式的提取部121所使用的神经网络的结构的一例进行说明。图3是图2所示的提取部121所使用的神经网络121a的结构的一例的说明图。图4是图3所示的基本神经网络1211的结构的一例的说明图。

本实施方式的提取部121所使用的神经网络121a的结构，相当于例如对图4所示的基本神经网络1211(N_B)进行了扩展的结构。

图4所示的基本神经网络1211包括两个相同结构，该相同结构具有五个卷积层(conv1～conv5)、两个池化层(poo1，poo2)以及两个全连接层(fc1，fc2)，在相同结构间的对应的五个卷积层和两个全连接层中共享参数。此外，如此在除池化层之外的相同结构的对应的层中共享参数的神经网络，也被称为孪生神经网络(Siamese neural network)。

如图4所示，在各卷积层中，例如使用双曲正切(tanh)来作为激活函数。另外，在最初的全连接层(fc1)中，例如使用斜坡函数(Rectified Linear Unit(ReLU)；线性修正单元)来作为激活函数。对于滤波器的尺寸即内核尺寸(kernel size)，例如在conv1中为5x5，在pool1中为2x2，在conv2中为3x3，在pool2中为2x2，在conv3中为3x3，在conv4中为2x2，在conv5中为2x2，在fc1中为2048，在fc2中为1024。此外，这些是一个例子，也可以设为与上述不同的激活函数以及内核尺寸。另外，在图4所示的基本神经网络1211中，列举了相同结构内具有五个卷积层的情况为例，但不限于此。当增加相同结构内的卷积层的个数时，图像的特征提取时的识别精度提高，另一方面，运算量会增加而需要处理时间，因此适当地决定即可。

无论如何，基本神经网络1211具有两个以上的相同结构，在该相同结构的对应的层中共享参数即可。并且，这样的基本神经网络1211能够以相同的维度、且比所输入的第1图像以及第2图像的维度少的维度提取第1图像以及第2图像的特征量。

图3所示的神经网络121a在图4所示的基本神经网络1211之外，至少具有算出映现在由输入部11输入的两个以上的图像中的一个以上的物体的位置变化以及该图像中的区域变化的追加层1217以及追加层1219。另外，神经网络121a在图4所示的基本神经网络1211之外，具有特征层1212以及特征层1213。此外，神经网络121a是对作为孪生神经网络(Siamese neural network)的基本神经网络1211(N_B：Base Network(基本网络))进行了扩展的神经网络，因此有时也称为扩展孪生神经网络(Enhanced Siamese neural network(ESNN))。

更具体而言，图3所示的神经网络121a由基本神经网络1211、特征层1212、特征层1213、特征连接层1214、特征连接层1215、维度处理层1216、维度处理层1218、追加层1217以及追加层1219构成。

特征层1212是输出基本神经网络1211所提取出的关于第1图像的例如二维或四维的特征量(特征图)的层。也就是说，特征层1212的内核尺寸为2或4。如此，特征层1212所输出的第1图像的特征量，与第1图像的维数(数百万)相比大幅减少。同样地，特征层1213是输出基本神经网络1211所提取出的关于第2图像的例如二维或四维的特征量(特征图)的层。也就是说，特征层1213的内核尺寸为2或4。如此，特征层1213所输出的第2图像的特征量，与第2图像的维数(数百万)相比大幅减少。此外，特征层1212以及特征层1213的内核尺寸不限于2或4，只要是1以上即可。

此外，特征层1212以及特征层1213虽然位于基本神经网络1211之外，但也是基本神经网络1211的输出层。

维度处理层1216包括例如使用斜坡函数(Rectified Linear Unit(ReLU))来作为激活函数的卷积层，进行增加维度的处理以及减少维度的处理。维度处理层1216将特征层1212以及特征层1213所保持的特征量的维度进行增加并向追加层1217输入。另外，维度处理层1216将追加层1217所输出的位置评价量的维度进行减少并向特征连接层1214以及特征连接层1215输入。

维度处理层1218同样地包括例如使用斜坡函数(Rectified Linear Unit(ReLU))来作为激活函数的卷积层，进行增加维度的处理以及减少维度的处理。维度处理层1218将特征层1212以及特征层1213所保持的特征量的维度进行增加并向追加层1219输入。另外，维度处理层1218将追加层1217所输出的区域的大小评价量的维度进行减少并向特征连接层1214以及特征连接层1215输入。

追加层1217算出映现在第1图像和第2图像中的一个以上的物体即跟踪对象物体的位置变化来作为追加特征量。追加层1217例如进行第1图像和第2图像中示出的包括跟踪对象物体的框(box：矩形框体)的区域彼此的(交集的面积/并集的面积)的计算。如此，追加层1217通过计算IoU(Intersection-over-Union，交除并)，算出跟踪对象物体的位置变化来作为追加特征量。

追加层1219算出映现在第1图像和第2图像中的一个以上的物体即跟踪对象物体的区域的大小的变化来作为追加特征量。追加层1219例如进行第1图像和第2图像中示出的表示跟踪对象物体的框的区域的(最小面积/最大面积)的计算。如此，追加层1219通过用AreaRatio(面积比)计算区域的大小的变化，算出跟踪对象物体的区域变化来作为追加特征量。

此外，对于维度处理层1216以及维度处理层1218，如果特征层1212以及特征层1213所保持的特征量的维度与追加层1217以及追加层1217所算出的追加特征量的维度不同则是需要的，如果维度相同则是不需要的。

特征连接层1214将特征层1212所具有的第1图像中的特征量和由追加层1217、追加层1219算出的追加特征量进行连接。同样地，特征连接层1215将特征层1213所具有的第2图像中的特征量和由追加层1217、追加层1219算出的追加特征量进行连接。

如此，提取部121使用神经网络121a来提取由输入部11输入的两个以上的图像各自的特征量(特征图)，由此，能够获得将跟踪候选的位置变化以及区域变化考虑在内的跟踪候选的图像上的相似性。此外，特征图(Feature Map，特征映射)既可以以相似矩阵的形式来获得，也可以以矢量记载的形式来获得。另外，特征图因为表示跟踪候选的图像上的相似性，所以有时也称为相似性映射(Similarity Mapping)。

《核对部122》

核对部122对使神经网络提取出的特征量(特征图)进行核对。在本实施方式中，核对部122对提取部121提取出的映现在第1图像中的作为跟踪候选的一个以上的物体各自的第1特征量和映现在第2图像中的一个以上的物体各自的第2特征量进行核对。更具体而言，核对部122使用预定的算法，对由提取部121提取出的第1特征量和第2特征量进行核对。核对部122例如使用欧几里得距离，对由提取部121提取出的第1特征量和第2特征量的距离进行评价，由此对将跟踪候选的位置变化以及区域变化考虑在内的跟踪候选的图像上的相似性进行核对。此外，第1特征量以及第2特征量的距离的评价方法并不限于使用欧几里得距离的情况。例如，也可以使用曼哈顿距离(Manhattan Distance)，还可以使用马氏距离(Mahalanobis Distance)。

此外，在通过输入部11输入了按时间序列连续的三个图像即第1图像、第2图像以及第3图像的情况下，核对部122对提取部121提取出的第1特征量、第2特征量以及第3特征量进行核对即可。

《跟踪结果输出部123》

跟踪结果输出部123将与映现在两个以上的图像中的时间序列上靠前的图像中的作为跟踪候选的一个以上的物体一致的、映现在时间序列上比靠前的图像靠后的图像中的一个以上的物体的识别信息以及位置信息作为识别结果进行输出。

在本实施方式中，跟踪结果输出部123将与映现在第1图像中的跟踪候选分别一致的映现在第2图像中的一个以上的物体的识别信息以及位置信息作为识别结果进行输出。另外，在通过输入部11输入了按时间序列连续的三个图像即第1图像、第2图像以及第3图像的情况下，跟踪结果输出部123将与映现在第1图像中的跟踪候选分别一致的映现在第2图像以及第3图像中的一个以上的物体的识别信息以及位置信息作为识别结果进行输出。

此外，跟踪结果输出部123也可以输出附加了识别信息的第2图像，所述识别信息表示是与映现在第1图像中的跟踪候选分别相同的物体之意。例如，在对映现在第1图像中的跟踪候选例如附加了识别编号的情况下，跟踪结果输出部123也可以将对与映现在第1图像中的跟踪候选相同物体的映现在第2图像中的跟踪候选附加了相同的识别编号的第2图像作为识别结果进行输出。

另外，在通过输入部11输入了按时间序列连续的三个图像即第1图像、第2图像以及第3图像的情况下，跟踪结果输出部123也可以输出对与映现在第1图像中的跟踪候选分别一致的映现在第2图像以及第3图像中的一个以上的物体附加了识别信息的第2图像以及第3图像，所述识别信息表示是与映现在第1图像中的跟踪候选分别相同的物体之意。

[物体跟踪装置10的工作等]

接着，对如上述那样构成的物体跟踪装置10的工作等进行说明。

图5是表示本实施方式的物体跟踪装置10的处理例的流程图。图6A以及图6B是表示向本实施方式的物体跟踪装置10输入的输入图像的一例的图。图7以及图8是表示本实施方式的物体跟踪装置10所进行的处理的概貌(image)的图。图9A的以及图9B是表示本实施方式的物体跟踪装置10的处理结果的一例的图。

首先，向物体跟踪装置10输入映现有跟踪对象的影像(S1)。更具体而言，物体跟踪装置10的计算机向神经网络121a输入按时间序列连续的两个以上的图像，该两个以上的图像是构成该影像的图像中的两个以上的图像、且分别映现有一个以上的物体。例如，物体跟踪装置10的计算机向神经网络121a输入图6A以及图6B所示的按时间序列连续的映现有跟踪对象的图像50_t-1以及图像50_t。

在此，图6A所示的图像50_t-1是向物体跟踪装置10输入的时间序列上靠前的第1图像的一例，对包括作为跟踪对象的二人的人物的区域即框附加有1或2的识别编号。另一方面，图6B所示的图像50_t是向物体跟踪装置10输入的时间序列上靠后的第2图像的一例，但对包括作为跟踪对象的二人的人物的区域即框未附加识别编号。

接着，物体跟踪装置10的计算机使神经网络121a推定通过S1输入的两个以上的图像的跟踪对象的物体的特征量即特征图，输出通过对所推定出的特征图进行核对而获得的跟踪结果(S2)。

更具体而言，物体跟踪装置10的计算机首先使神经网络121a提取通过S1输入的两个以上的图像各自的特征量即特征图。在图7所示的例子中，示出了如下处理的概貌：使用在相同结构的对应的层中共享参数(PARAMETERS)的神经网络121a，提取特征图(FeatureMap)。

接着，物体跟踪装置10的计算机通过核对使用神经网络121a获得的特征图，识别与映现在时间序列上靠前的图像中的作为跟踪候选的一个以上的物体一致的映现在时间序列上靠后的图像中的一个以上的物体。在图8所示的例子中，示出了如下处理的概貌：通过以预定的匹配算法对作为第1图像的图像50_t-1的框所包含的跟踪对象的人物与作为第2图像的图像50_t的框所包含的跟踪对象的人物的特征图进行比较并核对相似性，由此识别是否为同一人物。

并且，物体跟踪装置10的计算机将与映现在时间序列上靠前的图像中的作为跟踪候选的一个以上的物体一致的、映现在时间序列上靠后的图像中的一个以上的物体的识别信息以及位置信息作为识别结果进行输出。在本实施方式中，物体跟踪装置10的计算机将附加了识别信息之后的图像作为跟踪结果进行输出，所述识别信息表示映现在靠后的图像中的一个以上的物体是与映现在靠前的图像中的跟踪候选分别相同的物体之意。物体跟踪装置10的计算机对例如包含与映现在图9A所示的图像50_t-1中的跟踪对象的人物相同的人物即映现在图9B所示的图像50_t中的人物的框，附加与对包含映现在图9A所示的图像50_t-1中的跟踪对象的人物的框附加的识别编号相同的编号来进行输出。在此，框是位置信息的一个例子，识别编号是识别信息的一个例子。

在此，图9A所示的图像50_t-1是与图6A相同的第1图像的一例。另一方面，图9B所示的图像50_t是与图6B相同的第2图像的一例，但对包含作为跟踪对象的二人的人物的区域即框附加有识别编号来作为跟踪结果。

[物体跟踪装置10的学习处理]

以下，对用于实现这样的物体跟踪装置10的学习处理进行说明。在本实施方式中，进行如下的两阶段学习：首先，进行孪生神经网络(基本神经网络1211)的学习，然后，进行扩展孪生神经网络(神经网络121a)的学习。以下，将在第一阶段的学习中使用的孪生神经网络称为基本神经网络1211a，将在第二阶段的学习中使用的扩展孪生神经网络称为神经网络121b来进行说明。

图10是表示本实施方式的学习处理的概要的流程图。图11是本实施方式的第一阶段的学习处理中使用的基本神经网络1211a的结构的一例的说明图。图12是本实施方式的第二阶段的学习处理中使用的神经网络121b的结构的一例的说明图。此外，对与图3以及图4同样的要素标注相同的标号，省略详细说明。

<S10>

首先，准备包括多个成对图像和非成对图像的学习用数据，所述成对图像是映现有同一物体的两个图像，所述非成对图像是映现有非同一物体的两个图像(S10)。更具体而言，准备在第一阶段的学习处理(以下，称为第1学习处理)中使用的学习用数据和在第二阶段的学习处理(以下，称为第2学习处理)中使用的学习用数据。

在本实施方式中，为了第1学习处理用，准备包括多个根据Market-1501数据集生成的成对图像(matching pairs)和非成对图像(non-matching pairs)的学习用数据。在此，成对图像是映现有相同大小的同一物体的相同大小的两个图像。非成对图像是映现有相同大小的非同一物体的相同大小的两个图像。另外，为了第2学习处理用，准备包括多个根据MOT16数据集生成的映现有同一物体的两个图像即成对图像和映现有非同一物体的两个图像即非成对图像的学习用数据。

《Market-1501数据集》

Market-1501数据集包括附加有能够利用于测试和学习这两方的注释(正解标签)的1501个同一人物，能够在人物的再识别中使用。Market-1501数据集通过6个不同角度的摄像头来收集。

《MOT16数据集》

另一方面，MOT16数据集包括MOT16-02、04、05、09、10、11、13等能够利用于测试的7个测试序列(sequence)和MOT16-01、03、06、07、08、12、14等能够利用于学习处理的7个学习用序列。在学习用序列中包含79，790个检测，在测试序列中包含135，376个表示行人的检测。MOT16数据集所包含的一个序列是从单个视点拍摄到的视频序列，各序列是以安装于车、手持相机等的摄像头等各种各样的视点收集到的序列。

<S11>

接着，计算机进行使用通过S10准备的学习用数据使基本神经网络1211a进行学习的第1学习处理(S11)。更具体而言，计算机进行如下的第1学习处理：使用包括多个映现有同一物体的两个图像即成对图像和映现有非同一物体的两个图像即非成对图像的学习用数据，使基本神经网络1211a学习用于从成对图像的各图像中提取在基于比较的相似性的核对中表示同一物体的特征量的参数。在此，对于基于比较的相似性，通过由基本神经网络1211a提取出的两个以上的图像各自的特征量的距离的比较来评价。作为一例，对于基于比较的相似性，使用误差函数来评价，所述误差函数使用了两个以上的图像各自的特征量的欧几里得距离。

在本实施方式中，计算机使用图11所示那样的基本神经网络1211a来进行第1学习处理。图11所示的基本神经网络1211a还具备数据输入层51及数据输入层51p、和评价层1220。

数据输入层51以及数据输入层51p向图4所示的基本神经网络1211输入成对图像或非成对图像。数据输入层51向基本神经网络1211a输入为第1学习处理用而准备的学习用数据所包含的成对图像和非成对图像的一方的图像。数据输入层51p向基本神经网络1211a输入成对图像和非成对图像的另一方的图像。

评价层1220使用欧几里得距离来评价由基本神经网络1211a提取并输出的特征量。评价层1220例如根据(式1)以及(式2)，算出使用了欧几里得距离的误差函数。

E_n＝||F-F_p||₂…(式1)

在此，E_n表示从特征层1212a输出的特征量F_p与从特征层1213a输出的特征量F之间的欧几里得距离。另外，(式2)中的y表示从数据输入层51以及数据输入层51p输入的两个图像的标签。y＝1表示两个图像是成对图像，y＝0表示两个图像是非成对图像。m是余裕参数，作为在映现在两个图像中的物体不是同一物体的情况下无法提取表示同一性的特征量时的对策发挥功能。在本实施方式中，设为m＝3。

在S11中，计算机调整或更新基本神经网络1211a的参数，使得由评价层1220算出的误差变小。在此，参数是构成基本神经网络1211a的卷积层以及全连接层的权重和由特征层1212a以及特征层1213a共享的权重。计算机调整或更新参数，直到在第1学习处理中由评价层1220算出的误差达到最小或不再变动的状态。

<S12>

接着，计算机进行使用通过S10准备的学习用数据使反映了通过S11学习后的基本神经网络1211a的参数的神经网络121b进行学习的第2学习处理(S12)。更具体而言，计算机进行如下的第2学习处理：使在基本神经网络1211b中反映了通过S11学习后的参数的神经网络121b，使用通过S10准备的学习用数据，学习用于从成对图像的各图像中提取在基于比较的相似性的核对中表示同一物体的特征量的参数。

在本实施方式中，计算机使用图12所示那样的神经网络121b来进行第2学习处理。图12所示的神经网络121b追加有评价层1222。此外，在图12所示的神经网络121b中，通过S11学习后的参数被反映并暂时固定于基本神经网络1211b。

数据输入层51向基本神经网络1211b输入为第2学习处理用而准备的学习用数据所包含的成对图像和非成对图像的一方的图像。数据输入层51p向基本神经网络1211b输入成对图像和非成对图像的另一方的图像。

评价层1222针对神经网络121a，算出用于使用欧几里得距离来评价由特征层1212b以及特征层1213b输出的特征量的误差函数。评价层1222与评价层1220同样地，例如根据(式1)以及(式2)，算出使用欧几里得距离的误差函数即可。该情况下，(式1)中的特征量F_p设为将从特征层1212b输出的特征量与由追加层1217以及追加层1219算出的追加特征量进行连接而得到的特征量即可。另外，(式1)中的特征量F设为将从特征层1213b输出的特征量与由追加层1217以及追加层1219算出的追加特征量进行连接而得到的特征量即可。并且，E_n设为这些特征量F_p和特征量F的欧几里得距离即可。

此外，对于追加层1217、追加层1219所算出的追加特征量，能够根据以下的(式3)来算出。

在此，b_i、b_j是表示包含映现在向数据输入层51以及数据输入层51p输入的两个图像的各图像中的物体的区域的框。追加层1217算出D_IoU来作为追加特征量，追加层1219算出D_ARAT来作为追加特征量。

在S12中，计算机对图12所示的神经网络121b的基本神经网络1211b反映通过S11学习后的参数，但在最初的阶段进行固定并进行第2学习处理。

换言之，计算机在第2学习处理的最初的阶段，将基本神经网络1211b的参数固定，使用为第2学习处理用而准备的学习用数据，仅进行特征层1212b和特征层1213b所共享的参数的学习。具体而言，计算机使用为第2学习处理用而准备的学习用数据来调整或更新特征层1212b和特征层1213b所共享的参数，使得由评价层1222算出的误差变小。在此，对参数进行调整或更新，使得在第2学习处理的最初的阶段由评价层1222算出的误差达到最小或不再变动的状态。

接着，计算机在特征层1212b和特征层1213b所共享的参数的学习一旦结束时，解除基本神经网络1211b的参数的固定来进行第2学习处理。也就是说，计算机在第2学习处理的最后的阶段，使用为第2学习处理用而准备的学习用数据来进行神经网络121b全部参数的学习。

此外，在第2学习处理中，首先，在最初的阶段仅学习特征层1212b和特征层1213b所共享的参数，是为了有效使用通过第1学习处理学习后的基本神经网络1211a的参数。假设在第2学习处理中，不设置最初以及最后的阶段，而使用为第2学习处理用而准备的学习用数据来进行神经网络121b的全部参数的学习。那么，会大幅变更了通过第1学习处理学习后的参数，不止学习效率会降低，也存在参数并不收敛的可能性。

在本实施方式中，通过进行这样的两阶段的学习处理，能够学习物体跟踪装置10所使用的神经网络121a的参数。

[物体跟踪装置10的效果等]

如上所述，根据本实施方式的物体跟踪装置10，使用扩展孪生神经网络，对于表示按时间序列输入的输入图像中的跟踪候选的图像上的相似性的特征图，获得位置变化以及区域变化来作为追加特征，并且以比输入图像的维数大幅减少的维数进行取得。并且，通过对所取得的特征图进行比较，核对按时间序列输入的输入图像中的跟踪候选的相似性，由此能够进行物体跟踪。如此，本实施方式的物体跟踪装置10通过使用扩展孪生神经网络，能够使用能够考虑减少了维数的时间信息的特征图来核对跟踪候选的相似性。由此，本实施方式的物体跟踪装置10与利用了循环神经网络的物体跟踪相比，能够高速地进行处理。也就是说，根据本实施方式的物体跟踪装置10，能够进一步提高使用了深度学习的物体跟踪的处理速度。由此，能够将本实施方式的物体跟踪装置10适用于ADAS等要求实时的物体跟踪的系统。

(变形例)

在上述的实施方式中，对物体跟踪装置10所使用的神经网络是扩展孪生神经网络的情况进行了说明，但并不限于此。物体跟踪装置10所使用的神经网络也可以仅由孪生神经网络即基本神经网络1211以及特征层1212、1213来构成。该情况下，图10所示的学习处理针对图11所示的构成即基本神经网络1211a，进行S11的第1学习处理以及S12的第2学习处理即可。

此外，也可以针对图11所示的构成即基本神经网络1211a，仅进行S11的第1学习处理。即，计算机也可以进行如下的学习处理：使用通过S10准备的学习用数据，使用包括多个映现有同一物体的两个以上的图像即成对图像和映现有非同一物体的两个以上的图像即非成对图像的学习用图像，使由基本神经网络1211a构成的神经网络，学习用于从成对图像的各图像中提取在基于比较的相似性的核对中表示同一物体的特征量的所述参数。

(实施例1)

对物体跟踪装置10所使用的神经网络是孪生神经网络或扩展孪生神经网络的情况下的两阶段的学习处理的有效性进行了验证，因此将该实验结果作为实施例1进行说明。

[数据集]

(第1学习处理中使用的学习用数据)

根据Market-1501数据集，生成75，000组随机选择了同为64(w)×64(h)大小的同一人物的同为128(w)×128(h)尺寸的不同的两个图像而得到的成对图像。另外，根据Market-1501数据集，生成75，000组随机选择了同为64(w)×64(h)大小的不同人物的同为128(w)×128(h)尺寸的不同的两个图像而得到的非成对图像。并且，将包括这些成对图像以及非成对图像的数据作为在第1学习处理中使用的学习用数据。另外，为了第1学习处理的有效性的验证用，分别生成了25，000组上述那样的成对图像以及非成对图像。

(第2学习处理中使用的学习用数据)

在构成MOT16数据集的7个测试序列中，没有ground truth信息即正解信息。因此，将构成MOT16数据集的7个学习用序列分割为学习用的6个序列和验证用的1个序列。在6个序列中，从两个连续帧中，与表示IoU(位置变化)以及Area Ratio(区域变化)的数据一起生成总共约为222，400个的成对图像和非成对图像，作为在第2学习处理中使用的学习用数据。在剩余的1个序列中，从两个连续帧中，与表示IoU(位置变化)以及Area Ratio(区域变化)的数据一起生成总共约为198，800个的成对图像和非成对图像，作为第2学习处理的有效性的验证用。

[第1学习处理的有效性]

在第1学习处理中，使用根据Market-1501数据集生成的学习用数据，使基本神经网络1211a，以1次的批量(batch size)为128、学习率为0.01的概率的梯度下降法进行了学习。

图13是表示实施例1的使用了Market-1501数据集的学习时误差的图。图14是表示实施例1的使用了Market-1501数据集的验证时误差的图。纵轴表示误差，横轴表示将反复100回作为一次的次数。图14中示出了图13的次数时的用第1学习处理完的基本神经网络1211a进行了验证的结果。

用Market-1501数据集进行了验证的结果是，第1学习处理完的基本神经网络1211a实现了精度＝0.9854、再现率＝0.9774以及F₁＝0.9814。此外，F₁的评分可以根据以下的(式4)来算出。

在此，TP表示真阳性的数即在分类成正负两类时真为正且预测结果也为正的输出数据数。FP表示假阳性的数即真为负且预测结果为正的输出数据数。FN表示假阴性的数即真为负且预测结果为负的输出数据数。

图15A以及图15B表示实施例1的使用验证用的Market-1501数据集而获得的特征量的欧几里得距离的图。纵轴表示由学习完的基本神经网络1211a输出的两个特征量的欧几里得距离。横轴上的左侧的图以线性或对数的尺度示出了向第1学习处理完的基本神经网络1211a输入了非成对图像时所输出的两个特征量的欧几里得距离。横轴上的右侧的图以线性或对数的尺度示出了向第1学习处理完的基本神经网络1211a输入了成对图像时所输出的两个特征量的欧几里得距离。此外，图15B相当于将图15A的纵轴变换成对数尺度而得到的图。

如图15B所示，可知：在第1学习处理完的基本神经网络1211a中，相似性能够大致以水平线h₁(m＝3)作为边界用从成对图像以及非成对图像中提取出的两个特征量来进行分类。也就是说，可知：第1学习处理完的基本神经网络1211a针对成对图像提取了表示同一物体的特征量，针对非成对图像提取了表示非同一物体的特征量。

[第2学习处理的有效性]

在第2学习处理中，如上所述，首先，使构成神经网络121b的一部分的基本神经网络1211b反映了通过第1学习处理学习后的参数。接着，使用根据Mot16数据集生成的学习用数据，在最初的阶段将基本神经网络1211b的参数固定而使神经网络121b进行了学习。并且，在最后的阶段，将基本神经网络1211b的参数解除固定来使神经网络121b进行了学习。

用Mot16数据集进行了验证的结果是，根据仅第2学习处理完的基本神经网络1211b，实现了精度＝0.9837、再现率＝0.9966以及F₁＝0.9901。另外，根据第2学习处理完的神经网络121b，实现了精度＝0.9908、再现率＝0.9990以及F₁＝0.9949。

图16A～图17C是表示实施例1的使用验证用的Mot16数据集而获得的特征量的欧几里得距离的图。图16A～图16C中示出了由第2学习处理完的基本神经网络1211b获得的两个特征量的欧几里得距离。图17A～图17C中示出了由第2学习处理完的神经网络121b获得的两个特征量的欧几里得距离。在这些图中，浓色点表示从成对图像中提取出的特征量，淡色点表示从非成对图像中提取出的特征量。

更具体而言，图16A中示出了由第2学习处理完的基本神经网络1211b获得的两个特征量的欧几里得距离的柱状图。纵轴表示标准化后的频率，横轴表示欧几里得距离。此外，虚线v₁表示从成对图像中提取出的两个特征量的欧几里得距离的平均值，虚线v₂表示从非成对图像中提取出的两个特征量的欧几里得距离的平均值。图16B是以横轴为IoU(交集的面积/并集的面积)、纵轴为线性尺度的欧几里得距离来对图16A的结果进行了描绘的图。图16C是以横轴为IoU(交集的面积/并集的面积)、纵轴为对数尺度的欧几里得距离来对图16A的结果进行了描绘的图。此外，图16C相当于将图16A的纵轴变换成对数尺度而得到的图。

图17A中示出了由第2学习处理完的基本神经网络1211b获得的两个特征量的欧几里得距离的柱状图。纵轴表示标准化后的频率，横轴表示欧几里得距离。此外，虚线v₃表示从成对图像中提取出的两个特征量的欧几里得距离的平均值，虚线v₄表示从非成对图像中提取出的两个特征量的欧几里得距离的平均值。图17B是以横轴为IoU(交集的面积/并集的面积)、纵轴为线性尺度的欧几里得距离来对图17A的结果进行了描绘的图。图17C是以横轴为IoU(交集的面积/并集的面积)、纵轴为对数尺度的欧几里得距离来对图17A的结果进行了描绘的图。此外，图17C相当于将图17A的纵轴变换成对数刻度而得到的图。

如图16C所示，可知：在第2学习处理完的基本神经网络1211b中，以水平线h₂(m＝3)作为边界，用从成对图像以及非成对图像中提取出的两个特征量，能够大致对相似性进行分类。另外，如图17C所示，可知：在第2学习处理完的神经网络121b中，以水平线h₂(m＝3)作为边界，用从成对图像以及非成对图像中提取出的特征量，能够对相似性进行分类。并且，对图16C与图17C进行比较可知，图17C所示的例子能够更有效地对相似性进行分类。也就是说，可知：第2学习处理完的神经网络121b能够更有效地针对成对图像提取出表示同一物体的特征量，针对非成对图像提取出表示非同一物体的特征量。例如，可知这是因为：对于在第2学习处理完的基本神经网络1211b中因IoU<0.05而误分类的非成对图像的特征量，能够在第2学习处理完的神经网络121b中正确地分类。这意味着：在第2学习处理完的神经网络121b中，通过利用IoU以及Area Ratio等表示位置变化以及区域变化的信息，能够将例如从穿着相似衣服的不同人物提取的相似的特征量识别为从不同人物提取出的特征量。

此外，图18A～图19C是表示实施例1的使用学习用的Mot16数据集而获得的特征量的欧几里得距离的图。图18A～图19C和图16A～图17C相比，除了使用了学习用的Mot16数据集这一点之外，成为同样的图。在图18A中，虚线v₅表示第2学习处理完的基本神经网络1211b从成对图像中提取出的两个特征量的欧几里得距离的平均值，虚线v₆表示第2学习处理完的基本神经网络1211b从非成对图像中提取出的两个特征量的欧几里得距离的平均值。同样地，在图19A中，虚线v₇表示第2学习处理完的神经网络121b从成对图像中提取出的两个特征量的欧几里得距离的平均值，虚线v₈表示第2学习处理完的神经网络121b从非成对图像中提取出的两个特征量的欧几里得距离的平均值。

[算法]

图20是表示实施例1的预定算法的一例的图。图20中示出了为了对基本神经网络1211a、1211b所提取出的特征量和神经网络121b所提取出的特征量进行比较来核对相似性而使用的预定算法的一例。

在本实施例中，使用能够根据以下的(式5)～(式8)算出的评分函数S_new来进行基本神经网络1211a、1211b所提取出的特征量的相似性的核对。

S_New＝S_Dist+S_IoUS_Arat…(式5)

S_Dist(b_i，b_j)＝γlog_0.3{max(γ，D_siam(b_i，b_j))}…(式6)

在此，b_i、b_j是表示包含映现在向图11或图12所示的数据输入层51、51p输入的按时间序列连续的两个图像B_t-1、B_t的各图像中的人物等物体在内的区域的框。如(式6)所示，(式5)所示的S_Dist可以根据基本神经网络1211a，1211b从b_i、b_j中提取出的特征量的欧几里得距离D(bi，bj)和偏置项γ来导出。如(式7)所示，S_IoU可以通过使b_i、b_j的IoU(位置变化)偏移1.0来导出。如(式8)所示，S_Arat可以根据b_i、b_j的AreaRatio(区域变化)来导出。

另外，在本实施例中，使用能够根据以下的(式6)算出的S_Dist进行了基于神经网络121b所提取出的特征量的相似性的核对。

根据以上所述，能够使用以下的(式9)所示的评分函数S_new来进行基于特征量的相似性的核对。也就是说，在进行基于基本神经网络所提取的特征量的相似性的核对时，使用IoU及AreaRatio和欧几里得距离来进行即可。另外，在进行基于对基本神经网络进行了扩展的神经网络所提取的特征量的相似性的核对时，仅使用欧几里得距离来进行即可。

并且，在本实施例中，使用图20所示那样的预定算法来导出(式9)所示的评分函数S_new。此外，在图20的行1中输入的n决定为了与当前帧生成对而要检索之前的多少帧。在图20中，在决定了与当前帧的跟踪对象的物体相似的物体的情况下，分配与当前帧的跟踪对象的物体相同的ID。

(实施例2)

在实施例2中，使用MOT16训练数据集和MOT16测试数据集对物体跟踪装置10所使用的神经网络的性能进行了评价，因此对其结果进行说明。此外，在实施例2中，将物体跟踪装置10所使用的神经网络设为孪生神经网络。也就是说，在实施例2中，对变形例的物体跟踪装置10所使用的神经网络评价了性能。另外，使用MOT16对跟踪多个对象物体的物体跟踪的性能进行基准评价，这是最先建立的评价方法之一并被广泛使用。

图21是表示实施例2的MOT16训练数据集的基准评价结果的图。如图21所示，物体跟踪的精度(MOTA)中的最高的值48.6，是使用了MOT16-11序列的情况下的评价结果。物体跟踪的精度(MOTA)中的最低的值6.2是使用了MOT16-13序列的情况下的评价结果。但是，已知MOT16-13序列是在MOT16训练数据集所包含的序列中最难进行物体跟踪的序列。使用MOT16训练数据集进行物体跟踪的情况下的精度(MOTA)的平均值为31.0。

执行时间(Hz)按MOT16训练数据集所包含的各序列而不同。执行时间取决于序列的密度，因此序列的密度即图像帧内的对象物体的检测数越多则处理量就越多，因此需要时间。此外，对于本实施例中的执行时间，使用NVIDIA GeForce GTX 970显卡进行了评价。

图22是表示实施例2的MOT16测试数据集的基准评价结果的图。此外，在图22中，“Ours”相当于本公开的物体跟踪装置10所进行的物体检测的性能评价结果即基准评价。其他是未使用孪生神经网络的方法中的物体检测的基准评价。另外，对于图22所示的基准评价，通过1)不使用未来的信息而使用当前及过去的信息的方法即在线(online)、2)不自己准备跟踪对象而使用所提供的检测集的方法来进行。

如图22所示，物体跟踪的精度(MOTA)为35.2，执行时间(Hz)为5.6Hz。虽然与进行了其他的基准评价的硬件规格有关的信息不足，不能进行执行时间(Hz)即处理速度的准确比较，但是可知：“Ours”与“其他”相比，在精度和处理速度这两方都达到了足够的性能。

如上所述，根据本公开的物体跟踪装置以及物体跟踪方法，能够实现能进一步提高使用了深度学习的物体跟踪的处理速度的物体跟踪方法。因此，能够将本公开的物体跟踪装置以及物体跟踪方法充分适用于ADAS等要求实时的物体跟踪的系统。

(其他实施技术方案的可能性)

以上，在实施方式中对本公开的物体跟踪方法进行了说明，但关于实施各处理的主体和/或装置并没有特别限定。也可以通过组装在本地配置的特定装置内的处理器等(以下进行说明)来进行处理。另外，也可以通过配置于与本地装置不同的场所的云服务器等来进行处理。

另外，作为学习用数据或物体跟踪方法的输入图像，既可以是由车载摄像头拍摄到的图像(整体图像)，也可以是整体图像的一部分图像(部分图像)。作为部分图像，也可以是包含跟踪对象的一个物体的区域的图像。作为整体图像，也可以是包含跟踪对象的多个物体的图像。

此外，本公开并不限定于上述实施方式。例如，也可以将对在本说明书中记载的构成要素进行任意组合、另外删除了几个构成要素而实现的其他实施方式设为本公开的实施方式。另外，在不脱离本公开的主旨即权利要求书所记载的文言所表示的意思的范围内对上述实施方式实施本领域技术人员能想到的各种变形而得到的变形例，也包含在本公开中。

另外，本公开进一步也包括以下这样的情况。

(1)上述的装置具体是由微处理器、ROM、RAM、硬盘单元、显示器单元、键盘、鼠标等构成的计算机系统。在所述RAM或硬盘单元中存储有计算机程序。通过所述微处理器按照所述计算机程序进行工作，各装置实现其功能。在此，计算机程序是为了实现预定功能而组合多个表示对计算机的指令的命令代码而构成的。

(2)构成上述装置的构成要素的一部分或全部，也可以由一个系统LSI(LargeScale Integration：大规模集成电路)构成。系统LSI是将多个构成部集成到一个芯片上而制造出的超多功能LSI，具体是包括微处理器、ROM、RAM等而构成的计算机系统。在所述RAM中存储有计算机程序。通过所述微处理器按照所述计算机程序进行工作，系统LSI实现其功能。

(3)构成上述装置的构成要素的一部分或全部也可以由能够装卸于各装置的IC卡或单体模块构成。所述IC卡或所述模块是由微处理器、ROM、RAM等构成的计算机系统。所述IC卡或所述模块也可以包括上述的超多功能LSI。通过微处理器按照计算机程序进行工作，所述IC卡或所述模块实现其功能。该IC卡或该模块也可以具有防篡改性能。

(4)另外，本公开也可以是上述所示的方法。另外，也可以是通过计算机实现这些方法的计算机程序，还可以是由所述计算机程序形成的数字信号。

(5)另外，本公开也可以将所述计算机程序或所述数字信号记录于计算机可读取的记录介质，例如软盘、硬盘、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray(注册商标)Disc)、半导体存储器等。另外，也可以是记录在这些记录介质中的所述数字信号。

另外，本公开也可以将所述计算机程序或所述数字信号经由电通信线路、无线或有线通信线路、以互联网为代表的网络、数据广播等进行传输。

另外，本公开也可以是具备微处理器和存储器的计算机系统，所述存储器存储有上述计算机程序，所述微处理器按照所述计算机程序进行工作

另外，也可以是，通过将所述程序或所述数字信号记录在所述记录介质中并进行移送、或者经由所述网络等将所述程序或所述数字信号进行移送，由此通过独立的其他的计算机系统来实施。

产业上的可利用性

本公开能够利用于使用了深度学习的物体跟踪方法、物体跟踪装置以及程序，特别是能够利用于ADAS等要求实时的物体跟踪的系统。

标号的说明

10物体跟踪装置；11输入部；12输出部；50_t-1、50_t图像；51、51p数据输入层；121提取部；121a、121b神经网络；122核对部；123跟踪结果输出部；1211、1211a、1211b基本神经网络；1212、1212a、1212b、1213、1213a、1213b特征层；1214、1215特征连接层；1216、1218维度处理层；1217、1219追加层；1220、1222评价层。

Claims

1.一种物体跟踪方法，是计算机使用神经网络进行的物体跟踪方法，包括：

输入步骤，向所述神经网络输入分别映现有一个以上的物体且按时间序列连续的两个以上的图像；和

输出步骤，对在所述输入步骤中输入的所述两个以上的图像各自的、使所述神经网络提取出的特征量进行比较来核对相似性，由此，将与映现在所述两个以上的图像中的时间序列上靠前的图像中的作为跟踪候选的一个以上的物体一致的、映现在时间序列上比所述靠前的图像靠后的图像中的一个以上的物体的识别信息以及位置信息作为识别结果进行输出，

所述神经网络包括两个以上的相同结构，所述相同结构具有零个以上的全连接层和一个以上的卷积层，在所述相同结构间的对应的层中共享参数。

2.根据权利要求1所述的物体跟踪方法，

在所述输入步骤中，向所述神经网络输入分别映现有一个以上的物体且按时间序列连续的第1图像以及第2图像，

在所述输出步骤中，使所述神经网络提取映现在通过所述输入步骤输入的所述第1图像中的作为跟踪候选的一个以上的物体各自的第1特征量、以及映现在所述第2图像中的一个以上的物体各自的第2特征量，对提取出的所述第1特征量和所述第2特征量进行比较来核对相似性，由此，将与映现在所述第1图像中的所述跟踪候选分别一致的映现在所述第2图像中的一个以上的物体的识别信息以及位置信息作为识别结果进行输出，

所述神经网络包括两个所述相同结构，通过两个所述相同结构提取所述第1图像的所述第1特征量以及所述第2图像的所述第2特征量。

3.根据权利要求1所述的物体跟踪方法，

在所述输入步骤中，向所述神经网络输入分别映现有一个以上的物体且按时间序列连续的第1图像、第2图像以及第3图像，

在所述输出步骤中，使所述神经网络提取映现在通过所述输入步骤输入的所述第1图像中的作为跟踪候选的一个以上的物体各自的第1特征量、映现在所述第2图像中的一个以上的物体各自的第2特征量、以及映现在所述第3图像中的一个以上的物体各自的第3特征量，对提取出的所述第1特征量、所述第2特征量以及所述第3特征量进行比较来核对相似性，由此，将与映现在所述第1图像中的所述跟踪候选分别一致的映现在所述第2图像以及所述第3图像中的一个以上的物体的识别信息以及位置信息作为识别结果进行输出，

所述神经网络包括三个所述相同结构，通过三个所述相同结构提取所述第1图像的所述第1特征量、所述第2图像的所述第2特征量以及所述第3图像的所述第3特征量。

4.根据权利要求1～3中任一项所述的物体跟踪方法，所述物体跟踪方法还包括：

学习步骤，在进行所述输入步骤之前，使用包括多个成对图像和非成对图像的学习用数据，使所述神经网络学习用于从所述成对图像的各图像中提取在基于比较的相似性的核对中表示同一物体的特征量的所述参数，所述成对图像是映现有同一物体的两个以上的图像，所述非成对图像是映现有非同一物体的两个以上的图像。

5.根据权利要求1～3中任一项所述的物体跟踪方法，

所述神经网络在所述两个以上的相同结构之外还具有追加层，所述追加层算出映现在通过所述输入步骤输入的所述两个以上的图像中的一个以上的物体的位置变化以及该图像中的区域变化。

6.根据权利要求5所述的物体跟踪方法，所述物体跟踪方法还包括：

第1学习步骤，在进行所述输入步骤之前，使用包括多个成对图像和非成对图像的学习用数据，使所述神经网络中的所述两个以上的相同结构学习用于从所述成对图像的各图像中提取在基于比较的相似性的核对中表示同一物体的特征量的所述参数，所述成对图像是映现有同一物体的两个以上的图像，所述非成对图像是映现有非同一物体的两个以上的图像；和第2学习步骤，使在所述两个以上的相同结构中反映了通过所述第1学习步骤学习后的所述参数的所述神经网络使用所述学习用数据，学习用于从所述成对图像的各图像中提取在基于比较的相似性的核对中表示同一物体的特征量的所述参数。

7.根据权利要求4或6所述的物体跟踪方法，

对于所述基于比较的相似性，通过由所述两个以上的相同结构提取出的在所述输入步骤中输入的所述两个以上的图像各自的特征量的距离的比较来评价。

8.根据权利要求7所述的物体跟踪方法，

对于所述基于比较的相似性，使用误差函数来评价，所述误差函数使用了所述两个以上的图像各自的特征量的欧几里得距离。

9.根据权利要求1～8中任一项所述的物体跟踪方法，

所述两个以上的相同结构分别以比在所述输入步骤中输入的所述两个以上的图像中的对应的图像的维度少的维度提取该图像的特征量，

由所述两个以上的相同结构分别提取的特征量的维度相同。

10.根据权利要求1～7中任一项所述的物体跟踪方法，

映现在所述两个以上的图像中的一个以上的物体是人物和车辆中的至少一方。

11.一种程序，使计算机执行：

输入步骤，向神经网络输入分别映现有一个以上的物体且按时间序列连续的两个以上的图像，所述神经网络包括两个以上的相同结构，所述相同结构具有零个以上的全连接层和一个以上的卷积层，在所述相同结构间的对应的层中共享参数；和

输出步骤，对在所述输入步骤中输入的所述两个以上的图像各自的、使所述神经网络提取出的特征量进行比较来核对相似性，由此，将与映现在所述两个以上的图像中的时间序列上最靠前的图像中的作为跟踪候选的一个以上的物体一致的、映现在时间序列上比所述靠前的图像靠后的图像中的一个以上的物体的识别信息以及位置信息作为识别结果进行输出。

12.一种物体跟踪装置，具备：

输入部，其向神经网络输入分别映现有一个以上的物体且按时间序列连续的两个以上的图像；和

输出部，其对由所述输入部输入的所述两个以上的图像各自的、使所述神经网络提取出的特征量进行比较来核对相似性，由此，将与映现在所述两个以上的图像中的时间序列上最靠前的图像中的作为跟踪候选的一个以上的物体一致的、映现在时间序列上比所述靠前的图像靠后的图像中的一个以上的物体的识别信息以及位置信息作为识别结果进行输出，