CN108230355A

CN108230355A - 目标跟踪及神经网络训练方法、装置、存储介质和电子设备

Info

Publication number: CN108230355A
Application number: CN201710448051.4A
Authority: CN
Inventors: 王晓刚; 储琪; 欧阳万里; 李鸿升
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2017-06-14
Filing date: 2017-06-14
Publication date: 2018-06-29

Abstract

本发明实施例提供了一种目标跟踪及神经网络训练方法、装置、存储介质和电子设备，其中，所述目标跟踪方法包括：据视频帧序列获取第一目标对象在所述视频帧序列中对应候选目标对象的候选特征数据；根据所述候选特征数据获取所述候选目标对象的空间注意力数据；所述空间注意力数据用于根据视觉注意力在所述候选目标对象中确定所述第一目标对象；根据所述空间注意力数据获取所述第一目标对象在当前视频帧中的位置信息。采用本发明的技术方案，可以有效地提高目标跟踪的成功率，并且提高目标跟踪对于非目标对象信息的干扰和目标对象被遮挡等因素的鲁棒性。

Description

目标跟踪及神经网络训练方法、装置、存储介质和电子设备

技术领域

本发明实施例涉及计算机视觉技术领域，尤其涉及一种目标跟踪方法、装置、存储介质和电子设备，以及一种神经网络训练方法、装置、存储介质和电子设备。

背景技术

多目标跟踪可以实现对视频序列中的多个目标的轨迹跟踪，是计算机视觉领域的重要研究方向，主要应用在智能视频监控、行为分析、事件检测以及自动驾驶等方面。对于多目标跟踪，在线多目标跟踪因具有良好的应用前景，显得尤为重要。

在线多目标跟踪算法，主要是检测视频序列每一帧视频帧，将检测结果和跟踪的目标进行数据关联。当目标被其他目标或者背景遮挡时，基于目标检测器的检测结果的在线多目标跟踪方法可能会出现漂移现象，导致跟踪失败。

发明内容

本发明实施例提供了一种目标跟踪方案以及一种神经网络训练方案。

根据本发明实施例的第一方面，提供了一种目标跟踪方法，包括：跟据视频帧序列获取第一目标对象在所述视频帧序列中对应候选目标对象的候选特征数据；根据所述候选特征数据获取所述候选目标对象的空间注意力数据；所述空间注意力数据用于根据视觉注意力在所述候选目标对象中确定所述第一目标对象；根据所述空间注意力数据获取所述第一目标对象在当前视频帧中的位置信息。

可选地，所述根据视频帧序列获取第一目标对象在所述视频帧序列中对应候选目标对象的候选特征数据，包括：获取第一目标对象在视频帧序列中的运动数据，以及当前视频帧的特征图；根据所述运行数据以及所述第一目标对象在当前视频帧中的位置信息，确定所述第一目标对象在当前视频帧中对应的候选目标对象；从所述特征图中获取所述候选目标对象的候选特征数据。

可选地，所述根据所述候选特征数据获取所述候选目标对象的空间注意力数据，包括：根据所述候选特征数据获取所述候选目标对象的可视性数据；根据所述可视性数据获取所述候选目标对象的空间注意力数据。

可选地，所述根据所述空间注意力数据获取所述第一目标对象在当前视频帧中的位置信息，包括：根据所述空间注意力数据对所述候选特征数据进行加权处理；根据加权处理后的候选特征数据获取所述第一目标对象在当前视频帧中的位置信息。

可选地，所述根据加权处理后的候选特征数据获取所述第一目标对象在当前视频帧中的位置信息，包括：根据加权处理后的候选特征数据获取所述候选目标对象的对象分类数据；根据所述候选目标对象的对象分类数据确定所述当前视频帧中是否存在所述第一目标对象，若存在，则在所述候选目标对象中确定所述第一目标对象以及所述第一目标对象在当前视频帧中的位置信息。

可选地，所述根据所述候选特征数据获取所述候选目标对象的空间注意力数据，包括：通过第一目标对象的空间注意力子网络，根据所述候选特征数据获取所述候选目标对象的空间注意力数据；所述根据所述空间注意力数据获取所述第一目标对象在当前视频帧中的位置信息，包括：通过第一目标对象的对象外观分类子网络，根据所述空间注意力数据获取所述第一目标对象在当前视频帧中的位置信息；所述空间注意力子网络和所述对象外观分类子网络为所述第一目标对象的目标跟踪网络的子网络结构。

可选地，所述获取第一目标对象在视频帧序列中的运动数据，包括：根据视频帧序列中位于当前视频帧之前的视频帧中第一目标对象的位置信息，确定视频帧序列中第一目标对象的运动数据。

可选地，还包括：获取当前视频帧的目标检测结果；如果所述目标检测结果指示当前视频帧中包括第一目标对象以外的第二目标对象，则根据所述目标检测结果获取所述第二目标对象的位置信息。

根据本发明实施例的第二方面，提供了一种神经网络训练方法，包括：根据视频帧序列获取第一目标对象在所述视频帧序列中对应候选目标对象的候选特征数据；通过为第一目标对象设置的空间注意力子网络，根据所述候选特征数据获取所述候选目标对象的空间注意力数据；通过为第一目标对象设置的对象外观分类子网络，根据所述空间注意力数据获取所述第一目标对象在当前视频帧中的位置信息；根据所述位置信息获取特征数据训练样本；根据所述特征数据训练样本训练所述空间注意力子网络和所述对象外观分类子网络。

可选地，所述特征数据训练样本包括：当前帧正训练样本和当前帧负训练样本；所述根据所述位置信息获取特征数据训练样本，包括：获取与所述第一目标对象的位置的重叠区域占联合区域的比例大于预设比例阈值的邻近区域内的特征数据，作为所述当前帧正训练样本；和/或，获取与所述第一目标对象的位置的重叠区域占联合区域的比例小于或等于预设比例阈值的非邻近区域内的特征数据，作为所述当前帧负训练样本。

可选地，所述特征数据训练样本还包括：历史正训练样本；在根据所述特征数据训练样本训练所述空间注意力子网络和所述对象外观分类子网络之前，还包括：

获取所述视频帧序列中位于当前视频帧之前的视频帧中的正训练样本，作为所述历史正训练样本。

可选地，在所述根据所述特征数据训练样本训练所述空间注意力子网络和所述对象外观分类子网络之前，还包括：根据所述位置信息，获取所述第一目标对象的时间注意力数据；根据所述时间注意力数据对所述特征数据训练样本进行加权处理；所述根据所述特征数据训练样本训练所述空间注意力子网络和所述对象外观分类子网络，包括：根据加权后的特征数据训练样本训练所述空间注意力子网络和所述对象外观分类子网络。

可选地，在所述获取第一目标对象在当前视频帧中的位置信息之后，还包括：根据所述位置信息更新所述运动数据。

可选地，所述根据所述候选特征数据获取所述候选目标对象的空间注意力数据，包括：根据所述候选特征数据获取候选目标对象的可视性数据；根据所述可视性数据获取所述候选目标对象的空间注意力数据。

可选地，所述空间注意力子网络和所述对象外观分类子网络为所述第一目标对象的目标跟踪网络的子网络结构。

可选地，还包括：获取当前视频帧的目标检测结果；如果所述目标检测结果指示当前视频帧中包括所述第一目标对象以外的第二目标对象，则根据所述目标检测结果获取所述第二目标对象的位置信息。

根据本发明实施例的第三方面，提供了一种目标跟踪装置，包括：第一特征获取模块，用于根据视频帧序列获取第一目标对象在所述视频帧序列中对应候选目标对象的候选特征数据；第一注意力获取模块，用于根据所述候选特征数据获取所述候选目标对象的空间注意力数据；所述空间注意力数据用于根据视觉注意力在所述候选目标对象中确定所述第一目标对象；第一跟踪模块，用于根据所述空间注意力数据获取所述第一目标对象在当前视频帧中的位置信息。

可选地，所述第一特征获取模块包括：第一获取单元，用于获取第一目标对象在视频帧序列中的运动数据，以及当前视频帧的特征图；第一确定单元，用于根据所述运行数据以及所述第一目标对象在当前视频帧中的位置信息，确定所述第一目标对象在当前视频帧中对应的候选目标对象；第一特征获取单元，用于从所述特征图中获取所述候选目标对象的候选特征数据。

可选地，所述第一注意力获取模块包括：第一可视数据获取单元，用于根据所述候选特征数据获取所述候选目标对象的可视性数据；第一注意力获取单元，用于根据所述可视性数据获取所述候选目标对象的空间注意力数据。

可选地，所述第一跟踪模块包括：第一加权单元，用于根据所述空间注意力数据对所述候选特征数据进行加权处理；第一跟踪单元，用于根据加权处理后的候选特征数据获取所述第一目标对象在当前视频帧中的位置信息。

可选地，所述第一跟踪单元包括：第一分类子单元，用于根据加权处理后的候选特征数据获取所述候选目标对象的对象分类数据；第一跟踪子单元，用于根据所述候选目标对象的对象分类数据确定所述当前视频帧中是否存在所述第一目标对象，若存在，则在所述候选目标对象中确定所述第一目标对象以及所述第一目标对象在当前视频帧中的位置信息。

可选地，所述第一注意力获取模块用于通过第一目标对象的空间注意力子网络，根据所述候选特征数据获取所述候选目标对象的空间注意力数据；所述第一跟踪模块用于通过第一目标对象的对象外观分类子网络，根据所述空间注意力数据获取所述第一目标对象在当前视频帧中的位置信息；所述空间注意力子网络和所述对象外观分类子网络为所述第一目标对象的目标跟踪网络的子网络结构。

可选地，所述第一获取单元用于根据视频帧序列中位于当前视频帧之前的视频帧中第一目标对象的位置信息，确定视频帧序列中第一目标对象的运动数据。

可选地，还包括：第一目标检测模块，用于获取当前视频帧的目标检测结果；第二跟踪模块，用于如果所述目标检测结果指示当前视频帧中包括第一目标对象以外的第二目标对象，则根据所述目标检测结果获取所述第二目标对象的位置信息。

根据本发明实施例的第四方面，提供了一种神经网络训练装置，包括：第二特征获取模块，用于根据视频帧序列获取第一目标对象在所述视频帧序列中对应候选目标对象的候选特征数据；第二注意力获取模块，用于通过为第一目标对象设置的空间注意力子网络，根据所述候选特征数据获取所述候选目标对象的空间注意力数据；第三跟踪模块，用于通过为第一目标对象设置的对象外观分类子网络，根据所述空间注意力数据获取所述第一目标对象在当前视频帧中的位置信息；训练样本获取模块，用于根据所述位置信息获取特征数据训练样本；训练模块，用于根据所述特征数据训练样本训练所述空间注意力子网络和所述对象外观分类子网络。

可选地，所述特征数据训练样本包括：当前帧正训练样本和当前帧负训练样本；所述训练样本获取模块包括：正样本获取单元，用于获取与所述第一目标对象的位置的重叠区域占联合区域的比例大于预设比例阈值的邻近区域内的特征数据，作为所述当前帧正训练样本；和/或，负样本获取单元，用于获取与所述第一目标对象的位置的重叠区域占联合区域的比例小于或等于预设比例阈值的非邻近区域内的特征数据，作为所述当前帧负训练样本。

可选地，所述特征数据训练样本还包括：历史正训练样本；所述训练样本获取模块还包括：历史样本获取单元，用于获取所述视频帧序列中位于当前视频帧之前的视频帧中的正训练样本，作为所述历史正训练样本。

可选地，所述训练模块包括：时间注意力获取单元，用于根据所述位置信息，获取所述第一目标对象的时间注意力数据；第二加权单元，根据所述时间注意力数据对所述特征数据训练样本进行加权处理；训练单元，用于根据加权后的特征数据训练样本训练所述空间注意力子网络和所述对象外观分类子网络。

可选地，第二特征获取模块包括：第二获取单元，用于获取第一目标对象在视频帧序列中的运动数据，以及当前视频帧的特征图；第二确定单元，用于根据所述运行数据以及所述第一目标对象在当前视频帧中的位置信息，确定所述第一目标对象在当前视频帧中对应的候选目标对象；第二特征获取单元，用于从所述特征图中获取所述候选目标对象的候选特征数据。

可选地，还包括：更新模块，用于根据所述位置信息更新所述运动数据。

可选地，所述第二注意力获取模块包括：第二可视数据获取单元，用于根据所述候选特征数据获取候选目标对象的可视性数据；第二注意力获取单元，用于根据所述可视性数据获取所述候选目标对象的空间注意力数据。

可选地，所述第三跟踪模块包括：第三加权单元，用于根据所述空间注意力数据对所述候选特征数据进行加权处理；第二跟踪单元，用于根据加权处理后的候选特征数据获取所述第一目标对象在当前视频帧中的位置信息。

可选地，所述第二跟踪单元包括：第二分类子单元，用于根据加权处理后的候选特征数据获取所述候选目标对象的对象分类数据；第二跟踪子单元，用于根据所述候选目标对象的对象分类数据确定所述当前视频帧中是否存在所述第一目标对象，若存在，则在所述候选目标对象中确定所述第一目标对象以及所述第一目标对象在当前视频帧中的位置信息。

可选地，还包括：第二目标检测模块，用于获取当前视频帧的目标检测结果；第四跟踪模块，用于如果所述目标检测结果指示当前视频帧中包括所述第一目标对象以外的第二目标对象，则根据所述目标检测结果获取所述第二目标对象的位置信息。

根据本发明实施例的第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述程序指令被处理器执行时实现前述任一项目标跟踪方法的步骤。

根据本发明实施例的第六方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述程序指令被处理器执行时实现前述任一项神经网络训练方法的步骤。

根据本发明实施例的第七方面，提供了一种电子设备，包括：处理器、存储器、通信元件和通信总线，所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行前述任一项目标跟踪方法对应的操作。

根据本发明实施例的第八方面，提供了一种电子设备，包括：处理器、存储器、通信元件和通信总线，所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行前述任一项神经网络训练方法对应的操作。

根据本发明实施例的目标跟踪方案，通过视频帧序列中目标对象的运动数据，获取当前视频帧中目标对象的候选特征数据，方便对目标对象进行检测跟踪；利用空间注意力机制来修正获取的候选特征数据，可以保证对候选目标对象的检测的准确性，进一步提高了目标跟踪的成功率，并且，有效提高了目标跟踪对于非目标对象信息的干扰，以及目标对象被遮挡等因素的鲁棒性。

附图说明

图1是根据本发明实施例一的一种目标跟踪方法的步骤流程图；

图2是根据本发明实施例二的一种目标跟踪方法的步骤流程图；

图3是根据本发明实施例三的一种神经网络训练方法的步骤流程图；

图4是根据本发明实施例四的一种神经网络训练方法的步骤流程图；

图5是根据本发明实施例五的一种目标跟踪装置的结构框图；

图6是根据本发明实施例六的一种目标跟踪装置的结构框图；

图7是根据本发明实施例七的一种神经网络训练装置的结构框图；

图8是根据本发明实施例八的一种神经网络训练装置的结构框图；

图9是根据本发明实施例九的一种电子设备的结构示意图；

图10是根据本发明实施例十的一种电子设备的结构示意图。

具体实施方式

下面结合附图(若干附图中相同的标号表示相同的元素)和实施例，对本发明实施例的具体实施方式作进一步详细说明。以下实施例用于说明本发明，但不用来限制本发明的范围。

本领域技术人员可以理解，本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

实施例一

参照图1，示出了根据本发明实施例一的一种目标跟踪方法的步骤流程图。

本实施例的目标跟踪方法包括以下步骤：

步骤S102：根据视频帧序列获取第一目标对象在所述视频帧序列中对应候选目标对象的候选特征数据。

本发明实施例中，第一目标对象为在视频帧序列中时序位于当前视频帧之前的连续视频帧中包括的目标对象。候选目标对象为第一目标对象在当前视频帧中的候选对象，第一目标对象可以对应一个或多个候选目标对象。本实施例通过从当前视频帧中搜索第一目标对象的候选目标对象，并从候选目标对象中确定第一目标对象，进而实现对第一目标对象的跟踪。

其中，若视频帧序列中包括两个或两个以上的第一目标对象，则获取每个第一目标对象在当前视频帧中对应的候选目标对象的候选特征数据。而且，每个第一目标对象可以对应一个或多个候选目标对象，此时，获取第一目标对象对应的所有候选目标对象的候选特征数据例如，获取候选目标对象的特征图(Feature Map)。这里，视频帧序列可以为任意连续视频帧序列；第一目标对象可以包括人、车辆、动物等。

步骤S104：根据候选特征数据获取候选目标对象的空间注意力数据。其中，空间注意力数据用于根据视觉注意力在候选目标对象中确定第一目标对象。

人类视觉注意力对信息的处理不是均衡的，它会自动地对感兴趣的区域进行处理，提取出有用的信息，而对不感兴趣的区域则不作处理，以使人类能够在复杂的视觉环境中快速定位感兴趣目标。本发明实施例引入空间注意力(Spatial Attention)机制，可以通过计算机来模拟人类视觉注意力的模型，在视频帧中提取人眼所能观察到的引人注意的焦点，例如，视频帧中未被遮挡的区域，或者视频帧中的显著性区域等。

本实施例中，空间注意力数据用于在空间上提高候选目标对象所引起的注意力，可根据空间注意力数据来修正获取的候选特征数据，以使候选目标对象所在区域的部分区域表现得更为显著，从而方便在候选目标对象中确定第一目标对象。例如，针对视频帧中目标对象被遮挡不易检测的问题，可以通过候选目标对象的空间注意力数据，修正候选目标对象的候选特征数据，使得未被遮挡的候选目标对象的区域表现得更为显著。

步骤S106：根据空间注意力数据获取第一目标对象在当前视频帧中的位置信息。

可选地，根据第一目标对象对应的一个或多个候选目标对象的空间注意力数据，来修正对应的候选特征数据，并根据修正后的候选特征数据，对各候选目标对象进行分类，以准确地判断出当前视频帧中是否存在第一目标对象，以及从候选目标对象中确定第一目标对象，从而获取第一目标对象在当前视频帧中的位置信息，实现对第一目标对象的跟踪。

根据本发明实施例的目标跟踪方法，通过视频帧序列中目标对象的运动数据，获取当前视频帧中目标对象的候选特征数据，方便对目标对象进行检测跟踪；利用空间注意力数据来修正获取的候选特征数据，可以保证对候选目标对象的检测的准确性，进一步提高了目标跟踪的成功率，并且，有效提高了目标跟踪对于非目标对象信息的干扰，以及目标对象被遮挡等因素的鲁棒性。

在实际应用中，针对连续视频帧序列，可以循环执行本实施例的目标跟踪方法，以根据目标对象的运动数据来对视频帧序列中的目标对象进行持续跟踪，并通过空间注意力机制提高目标跟踪对干扰信息的鲁棒性，进而提高目标跟踪的成功率。

本实施例的目标跟踪方法，可用于对视频帧序列进行在线的单目标跟踪或者多目标跟踪，进行智能视频监控、行为分析以及自动驾驶等。

本实施例的目标跟踪方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。

实施例二

参照图2，示出了根据本发明实施例二的一种目标跟踪方法的步骤流程图。

本实施例的目标跟踪方法包括以下步骤：

步骤S202：获取当前视频帧的目标检测结果。

本实施例中，通过目标检测器来检测视频帧序列的当前视频帧，并获取检测结果，以确定当前视频帧中的目标对象，包括第一目标对象和第二目标对象。其中，第一目标对象包括在当前视频帧以及当前视频帧之前的视频帧中；第二目标对象包括在当前视频帧中，但未包括在当前视频帧之前的视频帧中，也即，第二目标对象为视频帧序列中新出现的目标对象。当前视频帧中可以包括一个或多个第一目标对象那个，以及一个或多个第二目标对象。

可选地，在对当前视频帧中的第一目标对象进行跟踪时，可以通过在之前的视频帧中为第一目标对象设置的，用于对第一目标对象进行跟踪的目标跟踪网络，来执行下述步骤S204至步骤S216，实现对第一目标对象的跟踪。

此外，若目标检测结果指示当前视频帧中包括第一目标对象以外的第二目标对象，则根据目标检测结果直接获取第二目标对象的位置信息，无需执行下述步骤。而且，还可以为第二目标对象设置目标跟踪网络，用于获取第二目标对象在之后视频帧中的位置信息，对第二目标对象进行跟踪。这里，若当前视频帧为视频帧序列的首帧，则当前视频帧中仅包括第二目标对象。

可选地，如果目标检测结果指示当前视频帧中包括多个第一目标对象和多个第二目标对象，则每个第一目标对象和每个第二目标对象均对应一个目标跟踪网络。

本实施例中，目标跟踪网络可以包括空间注意力子网络和对象外观分类子网络。也即，空间注意力子网络和对象外观分类子网络为目标跟踪网络的子网络结构，利用引入空间注意力机制的神经网络(例如，深度卷积神经网络)和用于目标对象分类的对象外观分类子网络进行目标跟踪。

步骤S204：根据视频帧序列获取第一目标对象在所述视频帧序列中对应的候选目标对象。

可选地，在执行本步骤之前，获取第一目标对象在视频帧序列中的运动数据。

其中，第一目标对象的运动数据是指，第一目标对象在连续视频帧中的位置的运动数据(例如，运动轨迹)。视频帧序列中第一目标对象的运动数据，可以根据视频帧序列中位于当前视频帧之前的视频帧中第一目标对象的位置信息来确定。具体地，根据第一目标对象在之前的连续视频帧中的位置的变化，可以计算出第一目标对象的位置的运动轨迹或运动模型等，这些均可以作为该运动数据。例如，该运动数据可以为简单的线性运动模型，或者其他复杂的运动模型。根据该运动数据可以预测第一目标对象在当前视频帧中的位置，从而可以确定第一目标对象视频帧中对应的候选目标对象。

一种可行的实施方式中，根据视频帧序列中第一目标对象的运动数据，和前一视频帧中第一目标对象的位置信息，预测第一目标对象在当前视频帧中的运动范围，从而可以将上述目标检测结果中出现在该运动范围内的一个或多个目标对象，选择为第一目标对象对应的候选目标对象。

步骤S206：从当前视频帧的特征图中获取候选目标对象的候选特征数据。

在执行该步骤之前，获取当前视频帧的特征图(Feature Map)。特征图的具体获取方式，包括但不限于通过深度卷积神经网络对当前视频帧进行特征提取操作，来获取当前视频帧的全局特征图。

在获取当前视频帧的特征图之后，根据确定的候选目标对象的位置信息，从特征图中提取候选目标对象的特征数据。例如，获取候选目标对象的特征图。

可选地，通过神经网络对当前视频帧的特征图进行ROI–Pooling(Region ofinterest–Pooling，对感兴趣区域的池化)操作，提取候选目标对象的特征数据作为候选特征数据。

在实际应用中，用于获取当前视频帧的特征图的神经网络，和用于从特征图中提取候选特征数据的神经网络，可以和上述目标跟踪网络组成一个整体神经网络。在该整体神经网络中，包括分别为各第一目标对象和第二目标对象设置的目标跟踪网络。

步骤S208：根据候选特征数据获取候选目标对象的可视性数据。

本实施例中，在获取候选目标对象的候选特征数据之后，获取候选目标对象的可视性数据，用于指示当前视频帧中候选目标对象所在区域的可视性。例如，候选特征数据可以为候选目标对象的特征图，则可视性数据可以为候选目标对象的可视图，其中，未被遮挡的区域的元素值为1，被遮挡的区域的元素值为0。

步骤S210：根据可视性数据获取候选目标对象的空间注意力数据。其中，空间注意力数据用于根据视觉注意力在候选目标对象中确定第一目标对象

可选地，通过上述空间注意力子网络来获取候选目标对象的可视性数据，经过计算处理来获取候选目标对象的空间注意力数据。也即，可以由空间注意力子网络执行步骤S208和步骤S210，根据候选特征数据获取空间注意力数据。在实际应用中，空间注意力子网络可以包括局部连接层和Softmax层等，将获取的候选特征数据输入空间注意力子网络，来获取上述可视图，并通过对可视图进行局部加权求和、空间归一化等计算处理，来获取候选目标对象的空间注意力图，其中，空间注意力图中的元素之和为1，并且未被遮挡的区域的元素值较大，被遮挡的区域的元素值较小。

步骤S212：根据空间注意力数据对候选特征数据进行加权处理。

候选目标对象的空间注意力数据用于对候选特征数据进行加权处理，使得未被遮挡的区域的权重值大于被遮挡的区域的权重值，从而使得未被遮挡的区域可以得到更多的注意，也即，将候选目标对象未被遮挡的区域表现的更为显著，从而方便对候选目标对象进行分类。

步骤S214：根据加权后的候选特征数据获取候选目标对象的对象分类数据。

具体地，根据加权后的候选特征数据对候选目标对象进行分类，获取候选目标对象的对象分类数据，用于从候选目标对象中确定第一目标对象。可选地，将加权后的候选特征数据输入到上述对象外观分类子网络，可以得到候选目标对象的分类得分。

步骤S216：根据候选目标对象的对象分类数据获取第一目标对象在当前视频帧中的位置信息。

可选地，根据候选目标对象的对象分类数据确定当前视频帧中是否存在第一目标对象。若存在，则从候选目标对象中确定第一目标对象，以及确定第一目标对象在当前视频帧中的位置信息。

一种可选地实施方式中，候选目标对象的对象分类数据为分类得分。在第一目标对象对应的一个或多个候选目标对象中，如果候选目标对象的分类得分中的最大值大于预设阈值，则确定当前视频帧中存在第一目标对象，该最大值对应的候选目标对象为第一目标对象，可以获取该候选目标对象的位置信息作为第一目标对象在当前视频帧中的位置信息，从而实现对第一目标对象的跟踪。如果候选目标对象的分类得分中的最大值小于或等于预设阈值，则确定当前视频帧中不存在第一目标对象，可以将第一目标对象在当前视频帧设置为未被跟踪状态。

在实际应用中，可以循环执行本实施例的目标跟踪方法，用于对连续视频帧持续地进行单目标跟踪或多目标跟踪，并且通过对当前视频帧的目标检测结果，设置目标跟踪网络来对视频序列中已有的第一目标对象进行跟踪，以及对新的第二目标对象进行跟踪。而且，还可以根据跟踪结果确定是否终止目标跟踪。例如，如果在超过设定帧数的连续视频帧中，均检测到目标对象处于未被跟踪状态(执行步骤S216可以确定)，可以终止对目标对象的跟踪。此外，还可以根据上述第一目标对象的运动数据，来确定是否终止目标跟踪。例如，如果根据运动数据判断出第一目标对象的位置，在之前的视频帧中持续向视频图像的边缘运动，且已经运动至视频帧图像的边缘，则可以相应地终止对第一目标对象的跟踪。也即，本实施例的目标跟踪方法，可以通过动态地增加或减少目标跟踪网络，对连续视频帧序列进行在线目标跟踪。

根据本发明实施例的目标跟踪方法，通过视频帧序列中目标对象的运动数据，获取当前视频帧中目标对象的候选特征数据，方便对目标对象进行跟踪；利用空间注意力机制来修正获取的候选特征数据，可以保证对候选目标对象的分类的准确性，进一步提高了目标跟踪的成功率，并且，有效提高了目标跟踪对于非目标对象信息的干扰，以及目标对象被遮挡等因素的鲁棒性。在实际应用中，本实施例的目标跟踪方法，可以对视频帧序列进行单目标跟踪或者多目标跟踪，用于智能视频监控、行为分析以及自动驾驶等。

实施例三

参照图3，示出了根据本发明实施例三的一种神经网络训练方法的步骤流程图。

本实施例的神经网络训练方法包括以下步骤：

步骤S302：根据视频帧序列获取第一目标对象在所述视频帧序列中对应候选目标对象的候选特征数据。

本实施例中，视频帧序列可以为任意视频帧序列，第一目标对象可以为人、动物、车辆等任意对象。如果视频帧序列中包括两个或两个以上第一目标对象，则获取每个第一目标对象的候选特征数据；并且，如果第一目标对象对应两个或两个以上的候选目标对象，则获取该第一目标对象对应的所有候选目标对象的候选特征数据。

步骤S304：通过为第一目标对象的空间注意力子网络，根据候选特征数据获取候选目标对象的空间注意力数据。

其中，空间注意力数据用于根据视觉注意力在候选目标对象中确定第一目标对象。空间注意力子网络可以是任意适当的，可获取空间注意力数据的神经网络，包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络等。

步骤S306：通过为第一目标对象的对象外观分类子网络，根据空间注意力数据获取第一目标对象在当前视频帧中的位置信息。

其中，对象外观分类子网络可以是任意适当的，可对第一目标对象的外观进行分类并获取第一目标对象的位置信息的神经网络，包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络等。

步骤S308：根据位置信息获取特征训练训练样本。

根据从第一目标对象的跟踪结果中，获取的第一目标对象在当前视频帧中的位置信息，可用于获取特征训练训练样本，来进一步训练上述空间注意力子网络和对象外观分类子网络。其中，如果当前视频帧中包括多个第一目标对象，则分别获取每个第一目标对象对应的特征数据训练样本，对各自的空间注意力子网络和对象外观分类子网络进行训练。本实施例对训练样本的具体形式不作限定，特征数据训练样本包括但不限于，当前视频帧中位于第一目标对象周围的区域内的特征数据。

步骤S310：根据特征数据训练样本训练空间注意力子网络和对象外观分类子网。

将获取的特征数据训练样本用于目标对象的进一步训练，调整空间注意力子网络和对象外观分类子网的网络参数，以提高空间注意力子网络获取空间注意力数据的准确性，以及提高对象外观分类子网获取的位置信息的准确性。

可选地，针对连续视频帧重复执行上述步骤，根据在每帧视频帧中获取的第一目标对象的位置信息，均对空间注意力子网络和对象外观分类子网进行一次训练。也即，在利用空间注意力子网络和对象外观分类子网对连续视频帧序列进行目标跟踪的过程中，对空间注意力子网络和对象外观分类子网进行同步训练，以实现空间注意力子网络和对象外观分类子网的在线训练。

本发明实施例的神经网络训练方法，实现了对引入空间注意力机制和目标对象外观分类机制的神经网络的在线训练，通过训练后的神经网络来根据视频帧序列中目标对象的运动数据，获取当前视频帧中目标对象的候选特征数据，并利用空间注意力数据来获取目标跟踪的位置信息，进而提高了目标跟踪的成功率，并且，有效提高了目标跟踪对于非目标对象信息的干扰，以及目标对象被遮挡等因素的鲁棒性。

本实施例的神经网络训练方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。

实施例四

参照图4，示出了根据本发明实施例四的一种神经网络训练方法的步骤流程图。

本实施例的神经网络训练方法包括以下步骤：

步骤S402：获取当前视频帧的目标检测结果。

在本发明实施例中，通过目标检测器来检测视频帧序列，并获取当前视频帧的目标检测结果，以确定当前视频帧中的目标对象，包括第一目标对象和/第二目标对象。其中，第一目标对象还包括在当前视频帧之前的视频帧中，第二目标对象未出现在之前的视频帧中。当前视频帧中可以包括一个或多个第一目标对象，以及一个或多个第二目标对象。

可选地，在对当前视频帧中的第一目标对象进行跟踪时，获取在之前的视频帧中为第一目标对象设置的目标跟踪网络。其中，目标跟踪网络包括空间注意力子网络和对象外观分类子网络。此外，如果检测到当前视频帧中包括第一目标对象以外的第二目标对象，则根据目标检测结果直接获取第二目标对象的位置信息。而且，还可以为第二目标对象设置目标跟踪网络，用于获取第二目标对象在之后视频帧中的位置信息，对第二目标对象进行跟踪。如果目标检测结果指示当前视频帧中包括多个第一目标对象和多个第二目标对象，则每个第一目标对象和每个第二目标对象均对应一个目标跟踪网络。

在实际应用中，可以设置包括空间注意力子网络和对象外观分类子网络的目标跟踪网络，用于进行目标对象跟踪。

步骤S404：根据视频帧序列获取第一目标对象在所述视频帧序列中对应候选目标对象的候选特征数据。

一种可选的实施方式中，根据第一目标对象在所述视频帧序列中的运动数据和当前视频帧中第一目标对象的位置信息，来确定第一目标对象在当前视频帧中对应的候选目标对象，并从当前视频帧的特征图中提取候选目标对象的特征数据作为候选特征数据。

执行该步骤之前，根据视频帧序列中位于当前视频帧之前的视频帧中第一目标对象的位置信息，确定视频帧序列中第一目标对象的运动数据；以及，获取当前视频帧的特征图，例如通过深度卷积神经网络对当前视频帧进行特征提取，获取当前视频帧的特征图。

执行该步骤，可以通过神经网络对获取的特征图进行ROI–Pooling操作，提取候选目标对象的候选特征数据。

在这里说明，当前视频帧中可以包括多个第一目标对象，每个第一目标对象可以包括一个或多个候选目标对象。针对每个第一目标对象获取的候选特征数据，包括所有与该第一目标对象对应的候选目标的特征数据。其中，获取候选目标对象的候选特征数据是当前视频帧的特征图中的一部分。

在实际应用中，可以采用包括深度卷积层和池化层的神经网络，来执行该步骤。其中，深度卷积层用于获取当前视频帧的特征图并进行共享，池化层用于从共享的特征图中提取第一目标对象的候选特征数据。而且，该神经网络还可以和上述包括空间注意力子网络和对象外观分类子网络的目标跟踪网络，一起形成为一个整体的神经网络。

步骤S406：根据候选特征数据获取候选目标对象的可视性数据。

步骤S408：根据可视性数据获取候选目标对象的空间注意力数据。

步骤S410：根据候选目标对象的空间注意力数据对候选特征数据进行加权处理。

步骤S412：根据加权后的候选特征数据获取第一目标对象在当前视频帧中的位置信息。

其中，步骤S406至步骤S408可以由上述空间注意力子网络执行，步骤S412可以由上述对象外观分类子网络执行，具体的执行方式可参见实施例二中的步骤S208至步骤S216，在此不再赘述。

步骤S414：根据位置信息获取特征数据训练样本以及第一目标对象的时间注意力数据。

本实施例中，根据对第一目标对象的跟踪结果获取第一目标对象在当前视频帧中的位置信息，并根据获取的位置信息来获取特征数据训练样本，以及第一目标对象的时间注意力数据。

可选地，特征数据训练样本可以包括当前帧正训练样本、当前帧负训练样本和历史正训练样本。

在获取特征数据训练样本时，获取第一目标对象的位置周围的邻近区域内的特征数据，作为当前帧正训练样本；获取第一目标对象的位置周围的非邻近区域内的特征数据作，为当前帧正训练样本；以及，获取视频帧序列中位于当前视频帧之前的视频帧中的正训练样本，作为历史正训练样本。

其中，邻近区域为与第一目标对象的位置的重叠区域占联合区域的比例大于预设比例阈值的区域，邻近区域内包括全部的第一目标对象，或者至少包括第一目标对象的一部分，且该部分大于包括的其他目标对象的部分；非邻近区域为与第一目标对象的位置的重叠区域占联合区域的比例小于或等于预设比例阈值的区域，非邻近区域内不包括第一目标对象，或者包括其他目标对象的部分大于包括第一目标对象的部分。例如，当前帧正训练样本可以包括邻近区域内的第一目标对象的特征数据。当前帧负训练样本可以包括非邻近区域内的其他目标对象的特征数据，或者背景区域的特征数据。历史正训练样本可以包括之前的视频帧中获取的可靠的正训练样本。

在这里说明，如果第一目标对象的跟踪结果指示第一目标对象在当前视频帧处于未被跟踪状态，则仅获取当前帧负训练样本和历史正训练样本，来训练空间注意力子网络和对象外观分类子网络，或者不进行训练。

此外，针对第二目标对象，可以根据目标检测结果指示的第二目标对象的位置信息，来获取特征数据训练样本训练空间注意力子网络和对象外观分类子网络。

在获取第一目标对象的时间注意力数据时，根据第一目标对象在当前帧的可视性数据，以及第一目标对象在当前视频帧中的位置与其他目标对象(包括其他第一目标对象和/或第二目标对象)的位置之间的关系，获取第一目标对象的时间注意力数据。例如，时间注意力数据αⁱ＝σ(γⁱsⁱ+βⁱσⁱ+bⁱ)，其中，sⁱ为上述可视性数据所有元素的均值，σⁱ为目标位置与当前帧其它目标位置的重叠区域占联合区域比例的最大值，γⁱ、βⁱ和bⁱ为可学习的参数，σ(x)＝(1+e^-z)代表sigmoid函数。αⁱ可表明第一目标对象被遮挡的情况，αⁱ的值越大表示目标被遮挡的越严重。

步骤S416：根据时间注意力数据对特征数据训练样本进行加权处理。

一种可选的实施方式中，时间注意力数据用于平衡当前帧正训练样本和历史正训练样本在损失函数中的权重。例如，对于当前视频帧中的第一目标对象处于被遮挡严重的情况下，可以减小当前帧正训练样本对应的权重，增加历史正训练样本对应的权重；对于第一目标对象未处于被遮挡严重的情况下，可以增加当前帧正训练样本对应的权重，减小历史正训练样本对应的权重，以使通过特征数据训练样本训练的训练空间注意力子网络和对象外观分类子网络，对目标对象被遮挡的情况具有较高的鲁棒性。这里，损失函数可以采用下述公式：

其中，和分别为当前帧负训练样本、当前帧正训练样本和历史正训练样本的损失；为上述对象分类得分；N分别为当前帧负训练样本、当前帧正训练样本和历史正训练样本的数量。

步骤S418：根据加权后的特征数据训练样本训练空间注意力子网络和对象外观分类子网络。

可选地，根据加权后的特征数据训练样本来调整训练空间注意力子网络和对象外观分类子网络的网络参数，来训练空间注意力子网络和对象外观分类子网络，进而更新目标跟踪网络。

此外，在获取第一目标对象在当前视频帧的位置信息之后，还可以对视频帧序列中第一目标对象的运动数据进行更新。

在实际应用中，可以采样上述神经网络训练方法训练的神经网络，对连续视频帧进行目标跟踪，根据在每帧视频帧中获取的目标对象(包括第一目标对象和/或第二目标对象)的位置信息，来获取特征数据训练样本并对目标跟踪网络(包括空间注意力子网络和对象外观分类子网络)进行在线训练。

本发明实施例的神经网络训练方法，实现了对引入空间注意力机制和目标对象外观分类机制的神经网络的在线训练，通过训练后的神经网络来根据视频帧序列中目标对象的运动数据，获取当前视频帧中目标对象的候选特征数据，并利用空间注意力机制来修正获取的候选特征数据，保证了对候选目标对象的分类的准确性，进而提高了目标跟踪的成功率，并且，有效提高了目标跟踪对于非目标对象信息的干扰，以及目标对象被遮挡等因素的鲁棒性。

实施例五

参照图5，示出了根据本发明实施例五的一种目标跟踪装置的结构框图。

本实施例的目标跟踪装置包括：第一特征获取模块502，用于根据视频帧序列获取第一目标对象在所述视频帧序列中对应候选目标对象的候选特征数据；第一注意力获取模块504，用于根据所述候选特征数据获取所述候选目标对象的空间注意力数据；所述空间注意力数据用于根据视觉注意力在所述候选目标对象中确定所述第一目标对象；第一跟踪模块506，用于根据所述空间注意力数据获取所述第一目标对象在当前视频帧中的位置信息。

本实施例的目标跟踪装置用于实现前述方法实施例中相应的目标跟踪方法，并具有相应的方法实施例的有益效果，在此不再赘述。

实施例六

参照图6，示出了根据本发明实施例六的一种目标跟踪装置的结构框图。

本实施例的目标跟踪装置包括：第一特征获取模块602，用于根据视频帧序列获取第一目标对象在所述视频帧序列中对应候选目标对象的候选特征数据；第一注意力获取模块604，用于根据所述候选特征数据获取所述候选目标对象的空间注意力数据；所述空间注意力数据用于根据视觉注意力在所述候选目标对象中确定所述第一目标对象；第一跟踪模块606，用于根据所述空间注意力数据获取所述第一目标对象在当前视频帧中的位置信息。

可选地，所述第一特征获取模块602包括：第一获取单元6022，用于获取第一目标对象在视频帧序列中的运动数据，以及当前视频帧的特征图；第一确定单元6024，用于根据所述运行数据以及所述第一目标对象在当前视频帧中的位置信息，确定所述第一目标对象在当前视频帧中对应的候选目标对象；第一特征获取单元6026，用于从所述特征图中获取所述候选目标对象的候选特征数据。

可选地，所述第一注意力获取模块604包括：第一可视数据获取单元6042，用于根据所述候选特征数据获取所述候选目标对象的可视性数据；第一注意力获取单元6044，用于根据所述可视性数据获取所述候选目标对象的空间注意力数据。

可选地，所述第一跟踪模块606包括：第一加权单元6062，用于根据所述空间注意力数据对所述候选特征数据进行加权处理；第一跟踪单元6064，用于根据加权处理后的候选特征数据获取所述第一目标对象在当前视频帧中的位置信息。

可选地，所述第一跟踪单元6064包括：第一分类子单元(图中未示出)，用于根据加权处理后的候选特征数据获取所述候选目标对象的对象分类数据；第一跟踪子单元(图中未示出)，用于根据所述候选目标对象的对象分类数据确定所述当前视频帧中是否存在所述第一目标对象，若存在，则在所述候选目标对象中确定所述第一目标对象以及所述第一目标对象在当前视频帧中的位置信息。

可选地，所述第一注意力获取模块604用于通过第一目标对象的空间注意力子网络，根据所述候选特征数据获取所述候选目标对象的空间注意力数据；所述第一跟踪模块606用于通过第一目标对象的对象外观分类子网络，根据所述空间注意力数据获取所述第一目标对象在当前视频帧中的位置信息；所述空间注意力子网络和所述对象外观分类子网络为所述第一目标对象的目标跟踪网络的子网络结构。

可选地，所述第一获取单元6022用于根据视频帧序列中位于当前视频帧之前的视频帧中第一目标对象的位置信息，确定视频帧序列中第一目标对象的运动数据。

可选地，还包括：第一目标检测模块608，用于获取当前视频帧的目标检测结果；第二跟踪模块610，用于如果所述目标检测结果指示当前视频帧中包括第一目标对象以外的第二目标对象，则根据所述目标检测结果获取所述第二目标对象的位置信息。

实施例七

参照图7，示出了根据本发明实施例七的一种神经网络训练装置的结构框图。

本实施例的神经网络训练装置包括：第二特征获取模块702，用于根据视频帧序列获取第一目标对象在所述视频帧序列中对应候选目标对象的候选特征数据；第二注意力获取模块704，用于通过为第一目标对象设置的空间注意力子网络，根据所述候选特征数据获取所述候选目标对象的空间注意力数据；第三跟踪模块706，用于通过为第一目标对象设置的对象外观分类子网络，根据所述空间注意力数据获取所述第一目标对象在当前视频帧中的位置信息；训练样本获取模块708，用于根据所述位置信息获取特征数据训练样本；训练模块710，用于根据所述特征数据训练样本训练所述空间注意力子网络和所述对象外观分类子网络。

本实施例的神经网络训练装置用于实现前述方法实施例中相应的神经网络训练方法，并具有相应的方法实施例的有益效果，在此不再赘述。

实施例八

参照图8，示出了根据本发明实施例八的一种神经网络训练装置的结构框图。

本实施例的神经网络训练装置包括：第二特征获取模块802，用于根据视频帧序列获取第一目标对象在所述视频帧序列中对应候选目标对象的候选特征数据；第二注意力获取模块804，用于通过为第一目标对象设置的空间注意力子网络，根据所述候选特征数据获取所述候选目标对象的空间注意力数据；第三跟踪模块806，用于通过为第一目标对象设置的对象外观分类子网络，根据所述空间注意力数据获取所述第一目标对象在当前视频帧中的位置信息；训练样本获取模块808，用于根据所述位置信息获取特征数据训练样本；训练模块810，用于根据所述特征数据训练样本训练所述空间注意力子网络和所述对象外观分类子网络。

可选地，所述特征数据训练样本包括：当前帧正训练样本和当前帧负训练样本；所述训练样本获取模块808包括：正样本获取单元8082，用于获取与所述第一目标对象的位置的重叠区域占联合区域的比例大于预设比例阈值的邻近区域内的特征数据，作为所述当前帧正训练样本；和/或，负样本获取单元8084，用于获取与所述第一目标对象的位置的重叠区域占联合区域的比例小于或等于预设比例阈值的非邻近区域内的特征数据，作为所述当前帧负训练样本。

可选地，所述特征数据训练样本还包括：历史正训练样本；所述训练样本获取模块还包括：历史样本获取单元8086，用于获取所述视频帧序列中位于当前视频帧之前的视频帧中的正训练样本，作为所述历史正训练样本。

可选地，所述训练模块810包括：时间注意力获取单元8102，用于根据所述位置信息，获取所述第一目标对象的时间注意力数据；第二加权单元8104，根据所述时间注意力数据对所述特征数据训练样本进行加权处理；训练单元8106，用于根据加权后的特征数据训练样本训练所述空间注意力子网络和所述对象外观分类子网络。

可选地，第二特征获取模块802包括：第二获取单元8022，用于获取第一目标对象在视频帧序列中的运动数据，以及当前视频帧的特征图；第二确定单元8024，用于根据所述运行数据以及所述第一目标对象在当前视频帧中的位置信息，确定所述第一目标对象在当前视频帧中对应的候选目标对象；第二特征获取单元8026，用于从所述特征图中获取所述候选目标对象的候选特征数据。

可选地，还包括：更新模块(图中未示出)，用于根据所述位置信息更新所述运动数据。

可选地，所述第二注意力获取模块804包括：第二可视数据获取单元8042，用于根据所述候选特征数据获取候选目标对象的可视性数据；第二注意力获取单元8044，用于根据所述可视性数据获取所述候选目标对象的空间注意力数据。

可选地，所述第三跟踪模块806包括：第三加权单元8062，用于根据所述空间注意力数据对所述候选特征数据进行加权处理；第二跟踪单元8064，用于根据加权处理后的候选特征数据获取所述第一目标对象在当前视频帧中的位置信息。

可选地，所述第二跟踪单元9064包括：第二分类子单元(图中未示出)，用于根据加权处理后的候选特征数据获取所述候选目标对象的对象分类数据；第二跟踪子单元(图中未示出)，用于根据所述候选目标对象的对象分类数据确定所述当前视频帧中是否存在所述第一目标对象，若存在，则在所述候选目标对象中确定所述第一目标对象以及所述第一目标对象在当前视频帧中的位置信息。

可选地，还包括：第二目标检测模块812，用于获取当前视频帧的目标检测结果；第四跟踪模块814，用于如果所述目标检测结果指示当前视频帧中包括所述第一目标对象以外的第二目标对象，则根据所述目标检测结果获取所述第二目标对象的位置信息。

实施例九

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图9，其示出了适于用来实现本发明实施例的终端设备或服务器的电子设备900的结构示意图。如图9所示，电子设备900包括一个或多个第一处理器、第一通信元件等，所述一个或多个第一处理器例如：一个或多个中央处理单元(CPU)901，和/或一个或多个图像处理器(GPU)913等，第一处理器可以根据存储在只读存储器(ROM)902中的可执行指令或者从存储部分908加载到随机访问存储器(RAM)903中的可执行指令而执行各种适当的动作和处理。本实施例中，第一只读存储器902和随机访问存储器903统称为第一存储器。第一通信元件包括通信组件912和/或通信接口909。其中，通信组件912可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，通信接口909包括诸如LAN卡、调制解调器等的网络接口卡的通信接口，通信接口909经由诸如因特网的网络执行通信处理。

第一处理器可与只读存储器902和/或随机访问存储器903中通信以执行可执行指令，通过第一通信总线904与通信组件912相连、并经通信组件912与其他目标设备通信，从而完成本发明实施例提供的任一项目标跟踪方法对应的操作，例如，根据视频帧序列获取第一目标对象在所述视频帧序列中对应候选目标对象的候选特征数据；根据所述候选特征数据获取所述候选目标对象的空间注意力数据；所述空间注意力数据用于根据视觉注意力在所述候选目标对象中确定所述第一目标对象；根据所述空间注意力数据获取所述第一目标对象在当前视频帧中的位置信息。

此外，在RAM 903中，还可存储有装置操作所需的各种程序和数据。CPU901或GPU913、ROM902以及RAM903通过第一通信总线904彼此相连。在有RAM903的情况下，ROM902为可选模块。RAM903存储可执行指令，或在运行时向ROM902中写入可执行指令，可执行指令使第一处理器执行上述通信方法对应的操作。输入/输出(I/O)接口905也连接至第一通信总线904。通信组件912可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在通信总线链接上。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信接口909。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

需要说明的，如图9所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图9的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信元件可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明的保护范围。

特别地，根据本发明实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本发明实施例提供的目标跟踪方法步骤对应的指令，例如，根据视频帧序列获取第一目标对象在所述视频帧序列中对应候选目标对象的候选特征数据；根据所述候选特征数据获取所述候选目标对象的空间注意力数据；所述空间注意力数据用于根据视觉注意力在所述候选目标对象中确定所述第一目标对象；根据所述空间注意力数据获取所述第一目标对象在当前视频帧中的位置信息。在这样的实施例中，该计算机程序可以通过通信元件从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被第一处理器执行时，执行本发明实施例的方法中限定的上述功能。

实施例十

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图10，其示出了适于用来实现本发明实施例的终端设备或服务器的电子设备1000的结构示意图。如图10所示，电子设备1000包括一个或多个第一处理器、第一通信元件等，所述一个或多个第一处理器例如：一个或多个中央处理单元(CPU)1001，和/或一个或多个图像处理器(GPU)1013等，第一处理器可以根据存储在只读存储器(ROM)1002中的可执行指令或者从存储部分1008加载到随机访问存储器(RAM)1003中的可执行指令而执行各种适当的动作和处理。本实施例中，第一只读存储器1002和随机访问存储器1003统称为第一存储器。第一通信元件包括通信组件1012和/或通信接口1009。其中，通信组件1012可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，通信接口1009包括诸如LAN卡、调制解调器等的网络接口卡的通信接口，通信接口1009经由诸如因特网的网络执行通信处理。

第一处理器可与只读存储器1002和/或随机访问存储器1003中通信以执行可执行指令，通过第一通信总线1004与通信组件1012相连、并经通信组件1012与其他目标设备通信，从而完成本发明实施例提供的任一项神经网络训练方法对应的操作，例如，根据视频帧序列获取第一目标对象在所述视频帧序列中对应候选目标对象的候选特征数据；通过为第一目标对象设置的空间注意力子网络，根据所述候选特征数据获取所述候选目标对象的空间注意力数据；通过为第一目标对象设置的对象外观分类子网络，根据所述空间注意力数据获取所述第一目标对象在当前视频帧中的位置信息；根据所述位置信息获取特征数据训练样本；根据所述特征数据训练样本训练所述空间注意力子网络和所述对象外观分类子网络。

此外，在RAM 1003中，还可存储有装置操作所需的各种程序和数据。CPU1001或GPU1013、ROM1002以及RAM1003通过第一通信总线1004彼此相连。在有RAM1003的情况下，ROM1002为可选模块。RAM1003存储可执行指令，或在运行时向ROM1002中写入可执行指令，可执行指令使第一处理器执行上述通信方法对应的操作。输入/输出(I/O)接口1005也连接至第一通信总线1004。通信组件1012可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在通信总线链接上。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信接口1009。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

需要说明的，如图10所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图10的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信元件可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明的保护范围。

特别地，根据本发明实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本发明实施例提供的神经网络训练方法步骤对应的指令，例如，根据视频帧序列获取第一目标对象在所述视频帧序列中对应候选目标对象的候选特征数据；通过为第一目标对象设置的空间注意力子网络，根据所述候选特征数据获取所述候选目标对象的空间注意力数据；通过为第一目标对象设置的对象外观分类子网络，根据所述空间注意力数据获取所述第一目标对象在当前视频帧中的位置信息；根据所述位置信息获取特征数据训练样本；根据所述特征数据训练样本训练所述空间注意力子网络和所述对象外观分类子网络。在这样的实施例中，该计算机程序可以通过通信元件从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被第一处理器执行时，执行本发明实施例的方法中限定的上述功能。

需要指出，根据实施的需要，可将本申请中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

可能以许多方式来实现本发明的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明实施例的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本发明实施例的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明实施例的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明实施例的方法的程序的记录介质。

本发明实施例的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式，很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种目标跟踪方法，包括：

根据视频帧序列获取第一目标对象在所述视频帧序列中对应候选目标对象的候选特征数据；

根据所述候选特征数据获取所述候选目标对象的空间注意力数据；所述空间注意力数据用于根据视觉注意力在所述候选目标对象中确定所述第一目标对象；

根据所述空间注意力数据获取所述第一目标对象在当前视频帧中的位置信息。

2.根据权利要求1所述的方法，其中，所述根据视频帧序列获取第一目标对象在所述视频帧序列中对应候选目标对象的候选特征数据，包括：

获取第一目标对象在视频帧序列中的运动数据，以及当前视频帧的特征图；

根据所述运行数据以及所述第一目标对象在当前视频帧中的位置信息，确定所述第一目标对象在当前视频帧中对应的候选目标对象；

从所述特征图中获取所述候选目标对象的候选特征数据。

3.根据权利要求1或2所述的方法，其中，所述根据所述候选特征数据获取所述候选目标对象的空间注意力数据，包括：

根据所述候选特征数据获取所述候选目标对象的可视性数据；

根据所述可视性数据获取所述候选目标对象的空间注意力数据。

4.一种神经网络训练方法，包括：

通过为第一目标对象设置的空间注意力子网络，根据所述候选特征数据获取所述候选目标对象的空间注意力数据；

通过为第一目标对象设置的对象外观分类子网络，根据所述空间注意力数据获取所述第一目标对象在当前视频帧中的位置信息；

根据所述位置信息获取特征数据训练样本；

根据所述特征数据训练样本训练所述空间注意力子网络和所述对象外观分类子网络。

5.一种目标跟踪装置，包括：

第一特征获取模块，用于根据视频帧序列获取第一目标对象在所述视频帧序列中对应候选目标对象的候选特征数据；

第一注意力获取模块，用于根据所述候选特征数据获取所述候选目标对象的空间注意力数据；所述空间注意力数据用于根据视觉注意力在所述候选目标对象中确定所述第一目标对象；

第一跟踪模块，用于根据所述空间注意力数据获取所述第一目标对象在当前视频帧中的位置信息。

6.一种神经网络训练装置，包括：

第二特征获取模块，用于根据视频帧序列获取第一目标对象在所述视频帧序列中对应候选目标对象的候选特征数据；

第二注意力获取模块，用于通过为第一目标对象设置的空间注意力子网络，根据所述候选特征数据获取所述候选目标对象的空间注意力数据；

第三跟踪模块，用于通过为第一目标对象设置的对象外观分类子网络，根据所述空间注意力数据获取所述第一目标对象在当前视频帧中的位置信息；

训练样本获取模块，用于根据所述位置信息获取特征数据训练样本；

训练模块，用于根据所述特征数据训练样本训练所述空间注意力子网络和所述对象外观分类子网络。

7.一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述程序指令被处理器执行时实现权利要求1至3中任一项所述的目标跟踪方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述程序指令被处理器执行时实现权利要求4所述的神经网络训练方法的步骤。

9.一种电子设备，包括：处理器、存储器、通信元件和通信总线，所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1至3中任一项所述的目标跟踪方法对应的操作。

10.一种电子设备，包括：处理器、存储器、通信元件和通信总线，所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求4所述的神经网络训练方法对应的操作。