CN112509015A

CN112509015A - 物体跟踪方法和记录介质

Info

Publication number: CN112509015A
Application number: CN202010841605.9A
Authority: CN
Inventors: 冈田雅司; 竹中慎治
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2019-09-13
Filing date: 2020-08-20
Publication date: 2021-03-16
Also published as: JP7404125B2; US11282215B2; JP2021043940A; US20210082128A1

Abstract

一种物体跟踪方法和记录介质。该方法包括：预测步骤(S1)，将姿势的时间序列数据输入到姿势预测器，预测当前帧中的第1物体的预测姿势位置各自的分布即预测分布；估计步骤(S2)，将当前帧输入到姿势估计部，估计当前帧中映现的第2物体各自的位置的集合；输出步骤(S3)，将位置的集合和预测分布进行匹配，取得并输出表示第2物体分别相当于第1物体中的哪一个的识别信息、以及第2物体的位置信息；以及更新步骤(S4)，基于在输出步骤(S3)中取得的识别信息以及位置信息，更新表示从在预测步骤(S1)中预测出的预测分布得到的第1物体各自的姿势的坐标，并追加到姿势的时间序列数据中。

Description

物体跟踪方法和记录介质

技术领域

本公开涉及物体跟踪方法和记录介质。

背景技术

在跟踪影像中映现的多个对象物体的物体跟踪技术中，跟踪影像中的多个人的姿势的姿势跟踪技术受到关注。并且，在姿势跟踪技术中，多采用2阶段的方案(例如，参照非专利文献1)。这里，2阶段的方案是如下方案：1)使用deep CNN(Convolutional NeuralNetwork：卷积神经网络)来估计每个帧的姿势，2)按每帧进行贪婪二分图匹配(greedybipartite matching)。

在非专利文献1所公开的姿势跟踪技术中，根据输入的影像的当前帧估计姿势，根据过去帧的姿势和光流，对过去帧的姿势的坐标进行移位处理，由此预测当前帧中的姿势。然后，将从当前帧估计出的姿势和从过去帧等预测出的姿势进行匹配，对匹配的配对赋予相同的ID。另外，在该匹配中，使用估计出的姿势和预测出的姿势的对象关键点相似性(OKS：Object Keypoint Similarity)。

现有技术文献

非专利文献

非专利文献1：B.Xiao，H.Wu，and Y.Wei，“Simple baselines for human poseestimation and tracking，”in European Conference on Computer Vision，2018.

发明内容

发明所要解决的课题

然而，在非专利文献1所公开的姿势跟踪技术中，存在相对于姿势的预测的错误较脆弱的课题。例如，存在影像中的多个人物的姿势高速地变化、或因遮挡(occlusion)而消失或再现等在影像中产生干扰的情况。在非专利文献1所公开的姿势跟踪技术中，若发生上述那样的干扰，则错误地估计当前帧中的姿势，无法与从过去帧等预测出的姿势正确地匹配。即，在非专利文献1所公开的姿势跟踪技术中，若发生上述那样的干扰，则会导致姿势的跟踪错误，即导致跟踪失误。

本发明是鉴于上述情况而完成的，其目的在于提供一种能够抑制跟踪失误的物体跟踪方法以及记录介质。

用于解决课题的手段

为了解决上述课题，本公开的一个方式的物体跟踪方法是计算机进行的影像的物体跟踪方法，包括：预测步骤，将姿势的时间序列数据输入到姿势预测器，从而使所述姿势预测器预测当前帧中的1个以上的第1物体的预测姿势位置各自的分布即预测分布，所述姿势的时间序列数据包含表示在时间序列上连续的2个以上的过去帧中映现的1个以上的物体各自的姿势的坐标，所述姿势预测器包含第1神经网络且进行考虑了不确定性的姿势预测；估计步骤，将所述当前帧输入到第2神经网络，从而使所述第2神经网络估计在所述当前帧中映现的1个以上的第2物体各自的位置的集合；输出步骤，通过将所述1个以上的第2物体各自的位置的集合和所述预测分布进行匹配，取得并输出识别信息以及位置信息，所述识别信息表示所述1个以上的第2物体分别相当于所述1个以上的第1物体中的哪一个，所述位置信息是表示所述1个以上的第2物体各自的姿势的位置；以及更新步骤，基于在所述输出步骤中取得的所述识别信息以及所述位置信息，将包含表示从在所述预测步骤中预测出的所述预测分布得到的所述1个以上的第1物体各自的姿势的坐标的数据追加到所述姿势的时间序列数据，从而更新所述姿势的时间序列数据。

另外，这些中的一部分具体的方式可以使用系统、方法、集成电路、计算机程序或计算机可读取的CD-ROM等记录介质来实现，也可以使用系统、方法、集成电路、计算机程序和记录介质的任意组合来实现。

发明效果

根据本公开的物体跟踪方法等，能够抑制跟踪失误。

附图说明

图1是表示实施方式中的物体跟踪装置的图。

图2是表示通过软件实现实施方式中的物体跟踪装置的功能的计算机的硬件结构的一例的图。

图3是表示实施方式中的物体跟踪装置的结构的一例的框图。

图4是表示图3所示的姿势预测器的详细结构的一例的框图。

图5是表示图3所示的姿势预测器的架构的一例的图。

图6A是表示比较例中的当前帧的姿势估计结果的图。

图6B是表示比较例中的当前帧的姿势估计结果的图。

图6C是表示比较例中的当前帧的姿势估计结果的图。

图7A是表示实施例1中的当前帧的姿势预测结果的图。

图7B是表示实施例1中的当前帧的姿势预测结果的图。

图7C是表示实施例1中的当前帧的姿势预测结果的图。

图8是表示实施方式中的物体跟踪装置的动作的流程图。

图9是表示实施例2中的物体跟踪方法的伪代码的一例的图。

图10是概念性地表示实施例2中的物体跟踪方法的图。

图11是表示实施例3中的物体跟踪性能的评价结果的图。

图12是表示将实施例3中的姿势预测器的组件无效化等的情况下的性能评价实验的结果的图。

图13是在视觉上表示基于本公开和比较例中的物体跟踪方法的物体跟踪结果的图。

图14是在视觉上表示基于本公开和比较例中的物体跟踪方法的物体跟踪结果的图。

附图标记说明

10 物体跟踪装置

11 姿势预测器

12 姿势估计部

13 匹配部

14 输出部

15 数据更新部

111 输入处理部

112 第1神经网络

113 循环NN

114 全耦合NN

115 输出处理部

具体实施方式

本公开的一个方式的物体跟踪方法是由计算机进行的影像的物体跟踪方法，包括：预测步骤，将姿势的时间序列数据输入到姿势预测器，从而使所述姿势预测器预测当前帧中的1个以上的第1物体的预测姿势位置各自的分布即预测分布，所述姿势的时间序列数据包含表示在时间序列上连续的2个以上的过去帧中映现的1个以上的物体各自的姿势的坐标，所述姿势预测器包含第1神经网络且进行考虑了不确定性的姿势预测；估计步骤，将所述当前帧输入到第2神经网络，从而使所述第2神经网络估计在所述当前帧中映现的1个以上的第2物体各自的位置的集合；输出步骤，通过将所述1个以上的第2物体各自的位置的集合和所述预测分布进行匹配，取得并输出识别信息以及位置信息，所述识别信息表示所述1个以上的第2物体分别相当于所述1个以上的第1物体中的哪一个，所述位置信息是表示所述1个以上的第2物体各自的姿势的位置；以及更新步骤，基于在所述输出步骤中取得的所述识别信息以及所述位置信息，将包含表示从在所述预测步骤中预测出的所述预测分布得到的所述1个以上的第1物体各自的姿势的坐标的数据追加到所述姿势的时间序列数据，从而更新所述姿势的时间序列数据。

由此，能够实现能够抑制跟踪失误的物体跟踪方法。

在此，例如也可以是，在所述输出步骤中，通过将所述1个以上的第2物体各自的位置的集合和所述预测分布进行匹配，计算由匹配得分为规定值以上的所述预测分布和所述位置的集合构成的组，基于计算出的所述组取得并输出所述识别信息和所述位置信息。

另外，例如也可以是，在所述输出步骤中，通过将所述1个以上的第2物体各自的位置的集合和所述预测分布进行二分图匹配，计算由匹配得分为规定值以上的所述预测分布和所述位置的集合构成的所述组。

另外，例如也可以是，在所述预测步骤中，所述第1神经网络使用用于考虑所述不确定性的1个以上的模型，通过使所述1个以上的模型分别根据所述姿势的时间序列数据，预测所述当前帧中的1个以上的所述第1物体的预测姿势位置，由此预测所述预测分布。

另外，例如也可以是，所述预测分布是考虑了所述不确定性的分布，是包含所预测的所述预测姿势位置且以高斯分布中的方差来表现的分布。

另外，例如也可以是，所述第1神经网络具有循环神经网络和形成所述1个以上的模型的规定的神经网络。

另外，例如也可以是，所述1个以上的模型通过对所述规定的神经网络应用丢弃(dropout)，使构成所述规定的神经网络的1个以上的节点去活性而形成。

以下，参照附图对本公开的一个方式的物体跟踪方法进行具体说明。另外，以下说明的实施方式均表示本发明的一个具体例。以下的实施方式所示的数值、形状、材料、构成要素、构成要素的配置位置等是一例，并非旨在限定本发明。另外，关于以下的实施方式中的构成要素中的、表示最上位概念的独立技术方案中没有记载的构成要素，作为任意的构成要素进行说明。另外，在所有的实施方式中，也可以组合各个内容。

(实施方式)

以下，进行实施方式中的物体跟踪装置10的物体跟踪方法等的说明。

[物体跟踪装置10]

图1是表示本实施方式中的物体跟踪装置10的图。

在本实施方式中的物体跟踪装置10中，与姿势的时间序列数据一起输入影像即映现作为跟踪对象的1个以上的物体的当前帧。于是，物体跟踪装置10输出包含作为跟踪对象的1个以上的物体各自的识别信息以及作为表示该物体各自的姿势的位置的位置信息在内的当前帧中的跟踪结果。另外，物体跟踪装置10还输出更新后的姿势的时间序列数据。如后所述，在姿势的时间序列数据中，包含表示在时间序列上连续的2个以上的过去帧中映现的1个物体各自的姿势的坐标。另外，接着，当物体跟踪装置10在与更新后的姿势的时间序列数据一起被输入下一个当前帧时，同样地输出跟踪结果。这样，物体跟踪装置10跟踪所输入的影像中映现的1个以上的物体的姿势。以下，列举人物作为物体的一例进行说明，但不限于此。可以是有骨头有姿势的动物，只要能够检测后述的关键点，则不限于动物，可以是生物也可以是物体。

[硬件结构]

接着，使用图2对本实施方式中的物体跟踪装置10的硬件结构进行说明。图2是表示通过软件实现实施方式中的物体跟踪装置10的功能的计算机1000的硬件结构的一例的图。

如图2所示，计算机1000是具备输入装置1001、输出装置1002、CPU1003、内置存储器1004、RAM1005、读取装置1007、收发装置1008以及总线1009的计算机。输入装置1001、输出装置1002、CPU1003、内置存储器1004、RAM1005、读取装置1007以及收发装置1008通过总线1009连接。

输入装置1001是输入按钮、触摸板、触摸面板显示器等成为用户界面的装置，受理用户的操作。此外，除了受理用户的接触操作以外，输入装置1001也可以是受理利用声音的操作、利用遥控器等的远程操作的结构。

内置存储器1004是闪存等。另外，内置存储器1004也可以预先存储用于实现物体跟踪装置10的功能的程序、以及利用了物体跟踪装置10的功能结构的应用程序中的至少一方。

RAM1005是随机存取存储器(Random Access Memory)，在执行程序或应用程序时用于数据等的存储。

读取装置1007从USB(Universal Serial Bus，通用串行总线)存储器等记录介质读取信息。读取装置1007从记录有上述那样的程序和应用程序的记录介质读取该程序和应用程序，并将该程序和应用程序存储于内置存储器1004。

收发装置1008是用于以无线或有线的方式进行通信的通信电路。收发装置1008例如与连接于网络的服务器装置进行通信，从服务器装置下载上述那样的程序、应用程序并存储于内置存储器1004。

CPU1003是中央运算处理装置(Central Processing Unit)，是将存储在内置存储器1004中的程序、应用程序复制到RAM1005中，从RAM1005依次读出并执行该程序、应用程序所包含的命令。

[物体跟踪装置10的结构]

接着，说明本实施方式中的物体跟踪装置10的结构。

图3是表示本实施方式中的物体跟踪装置10的结构的一例的框图。

物体跟踪装置10跟踪输入的影像中映现的1个以上的物体的姿势。在本实施方式中，如图3所示，物体跟踪装置10具备姿势预测器11、姿势估计部12、匹配部13、输出部14以及数据更新部15。以下，对各构成要素进行详细说明。

＜姿势预测器11＞

姿势预测器11由包含第1神经网络的架构构成，进行考虑了不确定性的姿势预测。关于架构的详细内容将后述。

当输入姿势的时间序列数据时，姿势预测器11预测当前帧中的1个以上的第1物体的预测姿势位置各自的分布即预测分布，所述姿势的时间序列数据包含表示在时间序列上连续的2个以上的过去帧中映现的1个以上的物体各自的姿势的坐标。在此，姿势预测器11预测的预测分布是考虑了后述的2种不确定性的至少一方的分布，是包含预测出的预测姿势位置且以高斯分布中的方差来表现的分布。此外，姿势的时间序列数据除了该坐标以外，还可以包含分别识别1个以上的物体的识别符(ID)。

在本实施方式中，作为帧内的物体的人物的姿势被预测为帧内的人物的关节的场所的集合。此外，该关节例如是头部、肩、指尖、肘、手腕等，被称为关键点。姿势的时间序列数据保持为队列这样的数据结构，通过后述的数据更新部15输入到姿势预测器11。

姿势预测器11根据姿势的时间序列数据，以分布(即，作为关键点的位置的分布)预测构成当前帧中的1个以上的人物的姿势的关键点的位置位于当前帧内的哪个边。这样的关键点的位置的分布相当于上述的预测分布。这样，姿势预测器11不是对构成当前帧中的人物的姿势的关键点的位置位于何处(1个假设)进行预测，而是以分布的形式(即预测分布)来预测构成当前帧中的人物的姿势的关键点的位置是哪个边(换言之，多个假设)。

＜姿势估计部12＞

姿势估计部12在当前帧被输入时，估计当前帧中映现的0个以上的第2物体各自的位置的集合。此外，姿势估计部12也可以在没有映现出物体的情况下，不进行输出即不进行估计。

在本实施方式中，向姿势估计部12输入当前帧的RGB图像，估计构成当前帧中映现的1个以上的人物的姿势的关键点的位置的集合。此外，姿势估计部12停留在能够估计在当前帧中存在某些人物的姿势。即，虽然由姿势估计部12估计当前帧中映现的人物的姿势，但不知道所估计的姿势的人物是谁(未对估计出的姿势的人物赋予ID)。

另外，姿势估计部12由包含第2神经网络的架构构成。然后，姿势估计部12通过将从影像取得的当前帧输入到第2神经网络，使第2神经网络估计当前帧中映现的1个以上的第2物体各自的位置的集合。在本实施方式中，第2神经网络是非专利文献1所公开的deepCNN。另外，第2神经网络只要能够根据当前帧估计构成当前帧中映现的1个以上的人物的姿势的关键点的位置的集合，则可以是任意结构的DNN(Deep Neural Network：深度神经网络)。

＜匹配部13＞

匹配部13将姿势估计部12估计出的1个以上的第2物体各自的位置的集合和姿势预测器11预测出的预测分布进行匹配。匹配部13通过匹配，取得并输出表示1个以上的第2物体分别相当于1个以上的第1物体中的哪一个的识别信息、以及表示1个以上的第2物体各自的姿势的坐标即位置信息。更具体而言，匹配部13通过进行匹配，计算由匹配得分为规定值以上的预测分布和位置的集合构成的组，基于计算出的组取得并输出识别信息和位置信息。匹配部13也可以通过对姿势估计部12估计出的1个以上的第2物体各自的位置的集合和姿势预测器11预测出的预测分布进行二分图匹配，来计算该组。

在本实施方式中，匹配部13使用对象关键点相似性(OKS)对姿势预测器11预测出的关键点的位置的分布和姿势估计部12估计出的关键点的位置的集合进行二分图匹配。这里，对象关键点相似性(OKS)是指用作表示估计姿势与正确姿势的相似度的评价指标。对象关键点相似性(OKS)是表示关于被注释的关节点的估计坐标与正确坐标的相似度的平均的值，表示人物的估计姿势与正确姿势完全一致时1的值。另外，二分图匹配也被称为二部图匹配，是在分别包含多个要素的2个类别间求出成为有效的配对的多个组的方法。

更详细而言，匹配部13针对姿势预测器11预测出的关键点的位置的分布与姿势估计部12估计出的关键点的位置的集合的所有组，使用对象关键点相似性(OKS)来计算匹配得分。匹配部13取得所有组中成为阈值以上的匹配得分的组作为有效的组。成为阈值以上的匹配得分的组由通过姿势预测器11预测而在分布中的关键点的位置与通过姿势估计部12估计出的集合中的位置的配对构成。

匹配部13基于成为阈值以上的匹配得分的组，取得表示估计出的当前帧中映现的1个以上的人物的姿势的位置信息，并且对估计出的姿势的人物赋予ID。此外，表示1个以上的人物的姿势的位置信息例如是构成1个以上的人物的姿势的多个关键点的位置坐标。另外，与对估计出的姿势的人物赋予的ID相关的信息相当于上述的识别信息。

然后，匹配部13将取得的位置信息和识别信息输出到输出部14。

＜输出部14＞

输出部14将从匹配部13输出的位置信息和识别信息反映在当前帧中，作为跟踪结果输出。另外，输出部14将从匹配部13输出的位置信息和识别信息输出到数据更新部15。

＜数据更新部15＞

数据更新部15基于取得的识别信息以及位置信息，将包含表示从在姿势预测器11中预测出的预测分布得到的1个以上的第1物体各自的姿势的坐标的数据追加到姿势的时间序列数据，从而更新姿势的时间序列数据。

在本实施方式中，数据更新部15在姿势预测器11中预测出的预测分布中，基于匹配部13的匹配结果，仅将概率良好的对象追加到姿势的时间序列数据中。在此，如上所述，姿势的时间序列数据以队列这样的数据结构被保持。因此，数据更新部15通过仅将预测分布中概率良好的对象追加(推送)到姿势的时间序列数据，从而删除姿势的时间序列数据的最早的数据，因此能够更新姿势的时间序列数据。

更详细而言，数据更新部15也可以使用粒子滤波器来更新姿势的时间序列数据。这里，粒子滤波器也被称为particle filter或顺序蒙特卡罗法，是基于概率分布的时间序列数据的预测方法。粒子滤波器也被理解为贝叶斯滤波器的蒙特卡罗近似。在此，只要将粒子(或particle)捕捉为由关键点的集合构成的1个姿势即可。因此，在数据更新部15使用粒子滤波器的情况下，数据更新部15只要根据由二分图匹配计算出的匹配得分来更新时间序列数据的队列并进行采样即可。这样，数据更新部15能够进行上述姿势的时间序列数据的更新。

[姿势预测器11的详细结构等]

接着，对姿势预测器11的详细结构进行说明。

图4是表示图3所示的姿势预测器11的详细结构的一例的框图。图5是表示图3所示的姿势预测器11的架构的一例的图。此外，在图5中，还示出了第1神经网络112仅在学习时进行误差反向传播算法(back propagation)和对数似然度的误差函数的计算的情况。

如上所述，姿势预测器11由包含第1神经网络112的架构构成，作为考虑了不确定性的姿势预测，以姿势分布预测当前帧中的构成人物的姿势的关键点的位置位于哪个边。

在本实施方式中，姿势预测器11通过考虑2种不确定性，能够以姿势分布预测具有概率行为的多种姿势(也称为多个假设)。在此，2种不确定性是认知不确定性(EpistemicUncertainty)和异方差偶然不确定性(Heteroscedastic Aleatoric Uncertainty)。

认知不确定性是起因于与模型以及模型所使用的参数相关的知识或者信息的不足的不确定性，也被称为模型的不确定性。在使用DNN进行推理的情况下，认知不确定性意味着起因于学习用数据的不足的学习模型的差别所导致的不确定性。此外，认知不确定性在学习用数据充足的情况下得到改善。

偶然不确定性是起因于在观测中本来存在的差异或变动即观测中固有包含的噪声的不确定性。换言之，偶然不确定性是起因于观测误差或干扰的偶发性的不确定性。在进行姿势预测的情况下，由于人的步调的突然变化、高速照相机的平摇和俯仰、或者基于deepCNN模型的姿势估计错误而产生该不确定性。此外，偶然不确定性无论怎么学习也不改善。异方差偶然不确定性是在观测中固有地包含的噪声量根据输入而不同的情况下的不确定性。

如图4所示，在本实施方式中，姿势预测器11具备输入处理部111、第1神经网络112以及输出处理部115。

＜输入处理部111＞

输入处理部111从输入到姿势预测器11的姿势的时间序列数据中提取并输出例如表示10帧量等规定的时间所包含的在过去帧中映现的1个以上的人物各自的姿势的坐标、和表示该坐标是否在过去帧中可见的可见标志。

在图5所示的例子中，输入处理部111从输入到姿势预测器11的姿势的时间序列数据中提取表示时间长度的参数L所包含的数量的过去帧中各自的构成姿势的关键点的集合的位置坐标，在时间方向上计算差分。输入处理部111将计算出的该差分输出到第1神经网络112。

＜第1神经网络112＞

第1神经网络112使用用于考虑不确定性的1个以上的模型，使1个以上的模型分别根据姿势的时间序列数据，预测当前帧中的1个以上的第1物体的预测姿势位置，从而预测预测分布。第1神经网络112具有循环神经网络和形成1个以上的模型的规定的神经网络。在此，1个以上的模型通过对规定的神经网络应用丢弃(dropout)，使构成规定的神经网络的1个以上的节点去活性而形成。

在本实施方式中，如图4所示，第1神经网络112具备循环NN(Neural Network)113和全耦合NN(Neural Network)114。

循环NN113是具有回溯并输入某一层的输出的递归耦合，并处理随着时间的经过而值发生变化的时间序列数据的神经网络。循环NN113例如也可以是LSTM(Long ShortTerm Memory：长短期记忆)。此外，循环NN113并不限于LSTM，也可以是GRU(GatedRecurrent Unit：门控循环单元)，也可以是QRNN(Quasi-Recurrent Neural Networks：准递归神经网络)。

在此，LSTM是能够学习长期的时间序列数据的模型，能够长时间活用网络内部的短期存储。GRU是使LSTM更简单一点的模型，但与LSTM同样地，能够学习长期的时间序列数据。QRNN是用CNN模拟RNN的机构的模型。QRNN也被理解为使LSTM高速化的算法。

在图5所示的例子中，循环NN113由64个单元数构成的LSTM构成。

全耦合NN114是由全耦合层构成的神经网络，也被称为全耦合型的神经网络(前馈)。全耦合NN114由输入层、多个中间层和输出层构成，中间层全部成为全耦合层。全耦合NN114应用丢弃或集成(ensemble)，以分布的形式输出考虑了认知不确定性的多个假设(各种姿势)。

在此，丢弃是一边使神经网络的一定的节点去活性(也称为无效化)一边推进学习等的方法。在本实施方式中，将丢弃应用于预测时的全耦合NN114，将认知不确定性模型化。由此，能够将中间层的一部分已去活性时的全耦合NN114作为1个模型来处理。即，全耦合NN114利用丢弃，随机地将中间层的一部分去活性，从而能够在对相互不同的1个以上的模型进行概率采样(也称为概率模型)的同时按照每个模型输出1个姿势预测。并且，全耦合NN114将姿势预测的结果近似为高斯分布而输出。

这样，全耦合NN114能够将从概率模型得到的多个姿势近似为高斯分布并作为预测结果输出。另外，高斯分布是一例，可以用分类分布进行近似，也可以用三角分布或柯西分布进行近似。

在图5所示的例子中，全耦合NN114例如由40个中间层即隐藏节点构成，作为隐藏节点的激活函数，例如使用Leaky-ReLU。另外，隐藏节点的丢弃概率为0.3。这样，全耦合NN114通过在预测时利用丢弃，能够将认知不确定性模型化。另外，隐藏节点的数量不限于40，隐藏节点的激活函数不限于Leaky-ReLU。丢弃概率也不限于0.3，可以适当地设定。

此外，在图5中，示出了全耦合NN114在预测时利用丢弃的例子，但不限于此，也可以利用集成。在该情况下，全耦合NN114具备1个以上的模型，将对从1个以上的模型分别得到的姿势预测进行了融合的结果例如与高斯分布近似地输出即可。

如上所述，由于全耦合NN114对各种模型概率地进行采样，能够根据从LSTM113输出的1个结果(输入)输出多个假设(预测出的多个姿势)，并将该输出以分布的形式(即预测分布)输出到输出处理部115。

＜输出处理部115＞

输出处理部115基于从第1神经网络112输出的分布(上述的预测分布)，进一步生成多个假设(预测的多个姿势)。然后，将包含从第1神经网络112输出的分布和生成的多个假设的分布作为姿势预测器11输出的预测分布，输出到匹配部13以及数据更新部15。

在本实施方式中，通过使输出处理部115进一步对第1神经网络112的输出(上述的预测分布)加上方差并输出，能够将异方差偶然不确定性模型化。

更具体而言，输出处理部115将包含从第1神经网络112输出的分布和生成的多个假设的分布以向第1神经网络112的输出加上方差的形式，作为姿势预测器11输出的预测分布而输出。由此，输出处理部115能够以作为构成粒子滤波器的样本集合的粒子进行处理的形式，输出姿势预测器11输出的预测分布。

在图5所示的例子中，输出处理部115通过对从第1神经网络112输出的高斯分布进行平均并乘以随机数，计算相当于多个假设的多个值。另外，输出处理部115根据从第1神经网络112输出的高斯分布和从姿势的时间序列数据提取出的最新的眼睛可见的关键点的坐标的相加值来计算方差。然后，输出处理部115将将计算出的多个值与方差值相加而得到的高斯分布作为预测分布进行输出。另外，在图5中，σ表示高斯分布的平均，μ表示方差，N(0，1)表示标准高斯分布。

这样，输出处理部115根据状况使粒子的多样性即方差值自适应地变化，并且输出依赖于第1神经网络112的输出的高斯分布。另外，高斯分布是一例，可以用分类分布进行近似，也可以用三角分布或柯西分布进行近似。

此外，输出处理部115例如在影像中映现的人物高速移动的状况的情况下，输出表现出将粒子散布到更大范围的高斯分布。另一方面，输出处理部115例如在影像中映现的人物以低速运动的状况的情况下，输出表现使粒子集中于更窄的区域的高斯分布。这样的动作有助于有效地利用粒子滤波器的样本集合中使用的有限的粒子。

(实施例1)

在实施例1中，对使用图5所示的姿势预测器11预测当前帧的预测分布而得到姿势预测结果的情况、和作为比较例使用非专利文献1中公开的姿势跟踪技术来估计当前帧的姿势并得到姿势估计结果的情况进行说明。在此，以下，将非专利文献1中公开的姿势跟踪技术也称为光流的姿势估计。

图6A～图6C是表示比较例中的当前帧的姿势估计结果的图。图7A～图7C是表示实施例1中的当前帧的姿势预测结果的图。在图6A和图7A、图6B和图7B、以及图6C和图7C中，分别示出了针对相同的当前帧的姿势估计结果以及姿势预测结果。在图6A～图6C中，空心的圆圈表示在前面的帧中估计出的关键点的位置，空心的三角表示在当前帧中估计出的关键点的位置，空心的星星表示当前帧中的真实(即正确的)的关键点的位置。另一方面，在图7A～图7C中，虚线的区域表示当前帧中预测的关键点的位置的分布(相当于上述的预测分布)，表示预测分布的平均的位置，空心的星星表示当前帧中的真实(即正确的)的关键点的位置。

如图6A所示，对于运动少的人物，真正的关键点的位置与估计出的关键点的位置比较一致，得到可靠性高的姿势估计结果。另一方面，如图6B和图6C所示，对于运动快的身体的部分和运动快的人物，真正的关键点的位置与估计出的关键点的位置分离，成为可靠性低的姿势估计结果。

与此相对，在使用图5所示的姿势预测器11，考虑2个不确定性来预测当前帧的预测分布的情况下，如图7A～图7C所示，真正的关键点的位置包含在虚线的区域所示的预测分布中。进而，由于真正的关键点的位置与预测分布的平均的位置比较一致，可知得到了可靠性高的姿势预测结果。

[物体跟踪装置10的动作等]

接着，对如以上那样构成的物体跟踪装置10的动作等进行说明。

图8是表示本实施方式中的物体跟踪装置10的动作例的流程图。

首先，物体跟踪装置10向姿势预测器11输入姿势的时间序列数据，预测当前帧中的预测分布(S1)。更具体而言，物体跟踪装置10将姿势的时间序列数据输入到包含第1神经网络且进行考虑了不确定性的姿势预测的姿势预测器11，来预测当前帧中的1个以上的第1物体的预测姿势位置各自的分布即预测分布。此外，在姿势的时间序列数据中，包含表示输入到姿势估计部12的影像中的在时间序列上连续的2个以上的过去帧中映现的1个以上的物体各自的姿势的坐标。此外，在本实施方式中，物体是人物。

接着，物体跟踪装置10向姿势估计部12输入影像，估计当前帧中映现的物体各自的位置的集合(S2)。更具体而言，物体跟踪装置10将当前帧的RGB图像输入到构成姿势估计部12的第2神经网络，估计当前帧中映现的1个以上的第2物体各自的位置的集合。

接着，物体跟踪装置10通过进行匹配，取得并输出当前帧中的物体的识别信息和位置信息(S3)。更具体而言，物体跟踪装置10将在步骤S2中估计出的位置的集合与在步骤S1中预测出的预测分布进行匹配。由此，物体跟踪装置10取得并输出表示1个以上的第2物体分别相当于1个以上的第1物体中的哪一个的识别信息、以及表示1个以上的第2物体各自的姿势的坐标即位置信息。此外，在本实施方式中，物体跟踪装置10使用二分图匹配作为匹配。另外，当前帧中的物体的识别信息是与赋予当前帧中的物体的ID相关的信息。当前帧中的物体的位置信息是构成当前帧中的物体的姿势的多个关键点的位置坐标。

接着，物体跟踪装置10基于在步骤S3中取得的识别信息和位置信息，通过将包含表示从在步骤S1中预测出的预测分布而得到的当前帧的物体的姿势的坐标的数据追加到姿势的时间序列数据来进行更新(S4)。

这样，物体跟踪装置10通过对输入的影像进行步骤S1～S4，能够跟踪影像中映现的人物等物体的姿势。

(实施例2)

在实施例2中，对考虑2个不确定性来预测当前帧的预测分布的姿势预测器11与活用了粒子滤波器的物体跟踪装置10的物体跟踪方法进行说明。在实施例2中，以下设为物体是人物来进行说明。

图9是表示实施例2中的物体跟踪方法的伪代码的一例的图。图10是概念性地表示实施例2中的物体跟踪方法的图。此外，图9所示的伪代码通过作为用于进行矩阵运算的工具的TensorFlow来安装，除了最外侧的循环以外的循环的重复和全部独立的线程由GPU并列执行。作为GPU，例如通过使用单一的NVIDIA RTX2080 GPU，能够以30fps同时跟踪10个左右的姿势。在图9所示的伪代码中，由“(1)姿势预测(Pose Prediction)”表示的算法相当于物体跟踪装置10的姿势预测器11的姿势预测处理。由“(2)姿势估计(Pose Estimation)”表示的算法相当于物体跟踪装置10的姿势估计部12的姿势估计处理。由“(3)贪婪匹配(Greedy Matching)”表示的算法相当于物体跟踪装置10的匹配部13的匹配处理。由“(4)粒子更新(Particle Update)”表示的算法相当于物体跟踪装置10的数据更新部15的更新处理。

在此，将由根据时刻t的当前帧t估计出的多个姿势构成的1个以上的人物设为C_t，将表示该多个人物各自的暂时的索引设为j。利用图9所示的伪代码进行的物体跟踪方法使用最大F_max滤波器来跟踪多个人物中的多个姿势。

另外，多个姿势分别具有作为表示唯一的人物的track ID的k，由P个粒子来表现。滤波器k的粒子n包含存储过去的姿势z^(k，n) _t-L：t-1的L尺寸的队列。在针对时刻的跟踪处理期间，仅F_t(＜F_max)滤波器被激活并执行。滤波器的激活化和非激活化由管理帧中的人物的出现(消失)的寿命计数l_k控制。

首先，在图9所示的伪代码中，当算法1开始时，如第1行的顺序所示，全部的滤波器变为非激活。

接着，按照第3行和第4行的顺序进行姿势预测处理。更具体而言，首先，在第3行的步骤中，从激活滤波器收集由过去的姿势z^(k；n) _t-L：t-1的F_t×P序列构成的姿势的时间序列数据。接着，在第4行的步骤中，将收集到的姿势的时间序列数据输入到姿势预测器11，输出F_t×P的预测姿势z^(k；n)_t。

此外，在时刻t＝1即针对构成影像的最初的当前帧t或者没有激活滤波器的情况下，不执行第3行以及第4行的步骤。另外，K_t表示当前有效的激活滤波器的集合。另外，在图10中，姿势的时间序列数据表示为表示多个过去帧的预测分布的坐标和赋予人物的ID。

接着，按照第5行的顺序进行姿势估计处理。更具体而言，在第5行的步骤中，对上述的非专利文献1所公开的deep CNN输入当前帧的RGB图像，来估计表示人物C_t的估计姿势x^(j) _t。另外，在图10中，示出了将当前帧的RGB图像输入到姿势估计部12，得到利用关键点估计当前帧中映现的人物的多个姿势的估计结果、甚至不知道人物是谁(应该赋予的ID)的情况。

接着，按照第6行～第17行的步骤进行匹配处理。更具体而言，首先，在第6行的步骤中，使用贪婪法(日文：貪欲法)，根据F_t×P的预测姿势z^(k；n) _t和C_t的估计姿势x^(j) _t，作为整体计算表示C_t×F_t×P的OKS值的d^(j，k，n) _OKS。接着，在第7行的步骤中，C_t×F_t×P的OKS张量(日文：テンソル)的形状通过沿着n轴取得权重平均而变换为C_t×F_t，计算匹配得分的矩阵。接着，在第8行的步骤中，使用计算出的匹配得分的矩阵，进行将合理的配对组合的二分图匹配处理。通过该处理，具有低于阈值(即，估计姿势与预测姿势分离地配置)的匹配得分的配对被删除，因此能够防止不适当的匹配。第8行的步骤所示的变量j'_k以及k'_j分别表示与滤波器k以及姿势j对应的对象的索引。此外，在由于激活滤波器的不足及过剩、以及阈值的原因而未分配对应的对象的情况下，变量j'_k及k'_j取负值。另外，{j'_k}_k表示从某个滤波器k观察到的匹配的人物的ID，{k'_j}_j表示从检测到的j这样的人观察到的匹配的滤波器。

接着，在第10行和第11行的步骤中，在变量k'_j相对于姿势j具有有效的值的情况下，将(x^(j) _t、k'_j)的组作为跟踪结果输出到输出部14。在图10中，示出了由输出部14(未图示)输出的、该组重叠于当前帧t的跟踪结果。此外，在第10行的步骤中所示的k'_j＞-1表示存在变量k'_j相对于姿势j具有有效的值、配对成立的滤波器。另一方面，在第12行～第17行的步骤中，在变量k'_j相对于姿势j具有无效的值的情况下，新的滤波器k_new被激活。然后，新的索引与估计姿势x^(j) _t一起被输出到输出部14。

接着，在第15行和第16行的步骤中，由于不知道过去帧的姿势，将表示姿势的时间序列数据的队列设为0，使关键点不显示而进行初始化，将预测姿势设为x^(j) _t，从而进行初始化。

接着，在第18行～第26行的步骤中进行更新处理。更具体而言，首先，在第18行的步骤中，将最新的预测姿势z^(k，n) _t推送至表示姿势的时间序列数据的队列，删除最早的预测姿势。接着，在第20行和第21行的步骤中，在变量j'_k具有有效的值的情况下，滤波器k的队列基于前状态下的似然度，进行重新选择粒子的概率性重采样。此外，第20行和第21行的步骤在j'_k＜0的情况下不执行。

接着，在第22行和第24行的步骤中，寿命计数l_k根据对应于滤波器k的对象的存在而增加或减少。在第25行和第26行的步骤中，当寿命计数l_k变为零时，视为由滤波器k跟踪的人物完全消失，滤波器k被非激活化。

(实施例3)

在实施例3中，对使用Pose-Track2018 Data set进行的物体跟踪装置10的性能评价实验的结果进行说明。此外，在Pose-Track2018 Data set中，对视频内的多个人物赋予了包含17个体关键点的场所和唯一的track ID的注释。在实施例3中，以下设物体为人物来进行说明。

在本实施例中，使用Pose-Track2018 Data set，对上述图5所示的姿势预测器11进行了学习和评价。学习用数据由Pose-Track2018 Data set的学习用的注释数据制作。另外，利用Adam optimizer，用制作的学习用数据来学习姿势预测器11。在此，学习率为10^-3，微批量尺寸为30。

图11是表示实施例3中的物体跟踪性能的评价结果的图。在图11中，使用Pose-Track2018 Data set和已知的评价工具，通过得分计算出物体跟踪精度(MOTA)作为物体跟踪性能。这里，MOTA是多目标跟踪综述Multiple Object Tracking Accuracy的缩写。在图11中，姿势预测器11的姿势跟踪方法的MOTA作为本公开而示出。另外，在图11中，将非专利文献1中公开的姿势跟踪方法的MOTA作为比较例表示，将其他现有的姿势跟踪方法的MOTA作为参考例1～5表示。

如图11所示，可知在本公开中，实现了66.2的得分，与比较例中的65.4的得分相比有所改善。

接着，进行了明确图5所示的姿势预测器11的哪个组件对改善有贡献的实验。更具体而言，进行了使图5所示的姿势预测器11的组件中的1)将2种不确定性的双方或者任一个无效化的情况、2)使表示时间序列数据的时间长度的参数L变化的情况下的性能评价实验。在本实施例中，通过将应用于图5所示的全耦合NN114的丢弃非激活化，实现了不将认知不确定性模型化的情况。另一方面，通过使在图5所示的输出处理部115中使用的平均值(即σ的值)固定，实现了不使异方差偶然不确定性模型化的情况。

图12是表示将实施例3中的姿势预测器11的组件无效化等的情况下的性能评价实验的结果的图。在图12所示的表中，在使认知不确定性有效的情况下，即在将认知不确定性模型化的情况下进行检查。同样地，在使异方差偶然不确定性有效的情况下，即对异方差偶然不确定性进行模型化的情况下进行检查。另外，在图12中，认知不确定性表现为E.Uncertainty，异方差偶然不确定性表现为H.A.Uncertainty。

另外，在图12中，作为性能评价的指标，代替MOTA，使用了作为用于计算MOTA的中间变量的num_Switches。另外，MOTA由num_Switches、num_misses以及num_false_positives这3个变量构成。num_Switches是表示跟踪失误的总数的指标，如在某帧中识别为例如A这样的人物的关键点，但在其他帧中误识别为例如B这样的人物的关键点。num_misses是表示在某帧内未识别出本来应该识别的关键点的位置的姿势估计错误的总数的指标。num_false_positives是表示在某帧内错误地识别出本来不应该识别的关键点的姿势估计错误的总数的指标。另外，在图12中，将非专利文献1中公开的姿势跟踪方法的num_Switches作为比较例进行表示，为了参考，还示出了MOTA的得分。

在图12中，如果比较本公开和比较例的num_switches的值，则可知图11所示的姿势预测器11的MOTA的得分不是通过更准确的姿势估计，而是通过基于姿势预测器11的姿势预测来实现的。进而，如图12所示，可知在本公开和比较例中，在num_Switches的值中，改善了约50％。

另外，从图12还可知，通过2种不确定性参与，跟踪性能得到改善。另外，在考虑了2种不确定性的姿势预测器11中，通过参照表示姿势的时间序列数据的时间长度的参数L的值为10或15的更长的上下文，可知MOTA的得分变高。即，通过参照作为姿势的时间序列数据的长的上下文，在考虑了2种不确定性的姿势预测器11中，能够预测更多更合理的假设(预测姿势位置)，作为结果可知能够进行最终的性能的改善。此外，参数L影响LSTM的依次传输的存储器尺寸及计算时间这样的计算的复杂性和学习的稳定性，因此需要慎重地决定。另外，在此前的说明中，通过队列的利用，明确地将姿势的时间序列信息作为历史而保持，但处理时间序列信息的方法并不限定于此。例如，也可以保持LSTM的内部变量，并将其作为队列的替代(日文：キューの代替)。

[物体跟踪装置10的效果等]

如上所述，根据本公开的物体跟踪装置10，通过利用进行考虑了预测结果的不确定性的姿势预测的姿势预测器11来进行影像中映现的人物的姿势跟踪，能够抑制跟踪失误。在本实施方式中，利用组装2种不确定性来进行姿势预测的姿势预测器11和粒子滤波器来进行影像中映现的人物的姿势跟踪。在此，在姿势预测器11中，将认知不确定性以及异方差偶然不确定性这样的2种不确定性模型化而组装。由此，姿势预测器11能够通过当前帧中映现的人物的姿势的预测分布(即，关键点的位置的分布)来预测多样且合理的假设(即，预测姿势位置)。另外，通过向姿势预测器11导入循环神经网络，能够活用长时间的上下文信息，因此即使影像中映现的人物发生遮挡，也能够抑制跟踪失误。

这里，使用图13和图14，对物体跟踪装置10的效果进行说明。

图13和图14是在视觉上表示基于本公开和比较例中的物体跟踪方法的物体跟踪结果的图。在图13中，示出了影像中映现的3人高速地移动即多个人物的姿势高速地变化的情况下的姿势跟踪结果。在图14中，示出了在构成影像的3张时间序列帧中，在第2张的帧中1人被其他人遮住而在第3张的帧中再现的情况，即在影像中映现的人物的姿势发生遮挡的情况下的姿势跟踪结果。此外，在图13的(a)和图14的(a)中，作为比较例，示出了基于非专利文献1中公开的姿势跟踪技术的姿势跟踪结果。在图13的(b)和图14的(b)中，作为本公开示出了本实施方式中的物体跟踪装置10的姿势跟踪结果。

更具体而言，在图13的(a)中，可知在时间序列帧中的后面的帧中，用粗圆线表示的关键点被附加于与前一帧不同的人物，将不同的人物误识别为同一人物而产生了跟踪失误。另一方面，在图13的(b)中，在时间序列帧中的前后的帧中，由粗圆线表示的关键点被附加于同一人物，因此可知能够正确地识别，跟踪失误得到抑制。

在图14的(a)中可知，在时间序列帧中的最初的帧和最后的帧中，对发生了遮挡的人物附加由圆线和圆圈虚线表示的关键点，将同一人物误识别为不同的人物而产生了跟踪失误。另一方面，在图14的(b)中，可知即使在时间序列帧中的最初的帧和最后的帧中，也对发生了遮挡的人物附加有由圆线表示的关键点，能够正确地识别为同一人物，跟踪失误得到抑制。

如上所述，可知根据本实施方式中的物体跟踪装置10，即使发生姿势高速地变化、或者由于遮挡而姿势消失或再现等干扰，也能够抑制跟踪失误。

(其他实施方式的可能性)

以上，在实施方式中说明了本公开的物体跟踪方法，但关于实施各处理的主体、装置，不特别限定。可以由组装在配置于本地的特定的装置内的处理器等(以下说明)来处理。另外，也可以由配置于与本地的装置不同的场所的云服务器等进行处理。

此外，本公开并不限定于上述实施方式。例如，也可以将本说明书中记载的构成要素任意组合，另外，将几个构成要素除外而实现的其他实施方式也可以作为本公开的实施方式。另外，对上述实施方式在不脱离本公开的主旨、即权利要求书所记载的语句所示的意思的范围内实施本领域技术人员想到的各种变形而得到的变形例也包含在本公开中。

例如，为了将偶然不确定性模型化，也可以利用α-divergence丢弃和神经网络集成。另外，为了将偶然不确定性模型化，也可以通过导入混合密度网络(Mixture DensityNetworks)，不是以上述高斯分布而是以混合高斯分布来表现预测分布。

另外，本公开的物体跟踪方法活用粒子滤波器、考虑了2种不确定性的姿势预测以及上下文信息。由此，本公开的物体跟踪方法例如有能够应用于SLAM(SimultaneousLocalization and Mapping：同步定位与地图创建)这样的各种各样的SMC(SequentialMonte Carlo：顺序蒙特卡罗)为基础的机器人工程学的任务的可能性。另外，本公开的物体跟踪方法有可能不限于2维的人物姿势，而能够应用于3维的人物姿势。

本公开还包括以下情况。

(1)上述装置具体而言是由微处理器、ROM、RAM、硬盘单元、显示器单元、键盘、鼠标等构成的计算机系统。在所述RAM或硬盘单元中存储有计算机程序。通过所述微处理器按照所述计算机程序进行动作，各装置实现其功能。这里，计算机程序是为了实现规定的功能而组合多个表示针对计算机的指令的命令代码而构成的。

(2)构成上述装置的构成要素的一部分或全部也可以由1个系统LSI(Large ScaleIntegration：大规模集成电路)构成。系统LSI是将多个结构部集成在1个芯片上而制造的超多功能LSI，具体而言，是包含微处理器、ROM、RAM等而构成的计算机系统。在所述RAM中存储有计算机程序。通过所述微处理器按照所述计算机程序进行动作，系统LSI实现其功能。

(3)构成上述装置的构成要素的一部分或全部也可以由能够装卸于各装置的IC卡或单体的模块构成。所述IC卡或所述模块是由微处理器、ROM、RAM等构成的计算机系统。所述IC卡或所述模块也可以包含上述的超多功能LSI。通过微处理器按照计算机程序进行动作，所述IC卡或所述模块实现其功能。该IC卡或该模块也可以具有防篡改性。

(4)另外，本公开也可以是上述所示的方法。另外，既可以是通过计算机实现这些方法的计算机程序，也可以是由所述计算机程序构成的数字信号。

(5)另外，本公开也可以将所述计算机程序或所述数字信号记录在计算机可读取的记录介质、例如软盘、硬盘、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray(注册商标)Disc)、半导体存储器等中。另外，也可以是记录在这些记录介质中的所述数字信号。

另外，本公开也可以经由电气通信线路、无线或有线通信线路、以互联网为代表的网络、数据广播等传输所述计算机程序或所述数字信号。

另外，本公开也可以是具备微处理器和存储器的计算机系统，所述存储器存储上述计算机程序，所述微处理器按照所述计算机程序进行动作。

另外，也可以通过将所述程序或所述数字信号记录在所述记录介质中并进行移送，或者经由所述网络等移送所述程序或所述数字信号，从而通过独立的其他计算机系统来实施。

产业上的可利用性

本公开能够利用于记录有物体跟踪方法以及程序的非暂时性的计算机可读取的记录介质，特别是能够利用于记录有对在影像中映现的多个人物的2维的人物姿势进行跟踪的物体跟踪方法以及程序的非暂时性的计算机可读取的记录介质。

Claims

1.一种物体跟踪方法，是由计算机进行的影像的物体跟踪方法，其中，包括：

预测步骤，将姿势的时间序列数据输入到姿势预测器，从而使所述姿势预测器预测当前帧中的1个以上的第1物体的预测姿势位置各自的分布即预测分布，所述姿势的时间序列数据包含表示在时间序列上连续的2个以上的过去帧中映现的1个以上的物体各自的姿势的坐标，所述姿势预测器包含第1神经网络且进行考虑了不确定性的姿势预测；

估计步骤，将所述当前帧输入到第2神经网络，从而使所述第2神经网络估计在所述当前帧中映现的1个以上的第2物体各自的位置的集合；

输出步骤，通过将所述1个以上的第2物体各自的位置的集合和所述预测分布进行匹配，取得并输出识别信息以及位置信息，所述识别信息表示所述1个以上的第2物体分别相当于所述1个以上的第1物体中的哪一个，所述位置信息是表示所述1个以上的第2物体各自的姿势的位置；以及

更新步骤，基于在所述输出步骤中取得的所述识别信息以及所述位置信息，将包含表示从在所述预测步骤中预测出的所述预测分布得到的所述1个以上的第1物体各自的姿势的坐标的数据追加到所述姿势的时间序列数据，从而更新所述姿势的时间序列数据。

2.根据权利要求1所述的物体跟踪方法，其中，

在所述输出步骤中，通过将所述1个以上的第2物体各自的位置的集合和所述预测分布进行匹配，计算由匹配得分为规定值以上的所述预测分布和所述位置的集合构成的组，基于计算出的所述组取得并输出所述识别信息和所述位置信息。

3.根据权利要求2所述的物体跟踪方法，其中，

在所述输出步骤中，通过将所述1个以上的第2物体各自的位置的集合和所述预测分布进行二分图匹配，计算由匹配得分为规定值以上的所述预测分布和所述位置的集合构成的所述组。

4.根据权利要求1至3中任一项所述的物体跟踪方法，其中，

在所述预测步骤中，所述第1神经网络使用用于考虑所述不确定性的1个以上的模型，通过使所述1个以上的模型分别根据所述姿势的时间序列数据，预测所述当前帧中的1个以上的所述第1物体的预测姿势位置，由此预测所述预测分布。

5.根据权利要求4所述的物体跟踪方法，其中，

所述预测分布是考虑了所述不确定性的分布，是包含预测出的所述预测姿势位置且以高斯分布中的方差来表现的分布。

6.根据权利要求4所述的物体跟踪方法，其中，

所述第1神经网络具有循环神经网络和形成所述1个以上的模型的规定的神经网络。

7.根据权利要求6所述的物体跟踪方法，其中，

所述1个以上的模型通过对所述规定的神经网络应用丢弃，使构成所述规定的神经网络的1个以上的节点去活性而形成。

8.一种记录介质，是记录有程序的非暂时性的计算机可读取的记录介质，所述程序使计算机执行如下步骤：

预测步骤，将姿势的时间序列数据输入到姿势预测器，从而使所述姿势预测器预测当前帧中的1个以上的第1物体的预测姿势位置各自的分布即预测分布，所述姿势的时间序列数据包含表示在时间序列上连续的2个以上的过去图像中映现的1个以上的物体各自的姿势的坐标，所述姿势预测器包含第1神经网络且进行考虑了不确定性的姿势预测；