CN108701210B

CN108701210B - 用于cnn网络适配和对象在线追踪的方法和系统

Info

Publication number: CN108701210B
Application number: CN201680080165.1A
Authority: CN
Inventors: 王晓刚; 王立君; 欧阳万里; 卢湖川
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2016-02-02
Filing date: 2016-02-02
Publication date: 2021-08-17
Anticipated expiration: 2036-02-02
Also published as: US20180341872A1; US11521095B2; CN108701210A; WO2017132830A1

Abstract

公开用于CNN网络适配和对象在线追踪的方法、设备及系统。所述CNN网络适配方法包括：将第一特征图转换为多个子特征图，其中所述第一特征图由所述预训练的CNN根据所述目标视频的帧而生成；将每个所述子特征图分别与多个适配卷积核中的一个适配卷积核进行卷积，以输出具有改善的适配性的多个第二特征图；逐帧训练所述多个适配卷积核。

Description

用于CNN网络适配和对象在线追踪的方法和系统

技术领域

本公开涉及用于卷积神经网络(CNN)网络适配和对象在线追踪的方法、设备和系统。

背景技术

视觉追踪是计算机视觉中的基础性问题，已受到越来越多的关注。对于不依赖于模型的对象追踪问题，第一帧中的边界框指示类别不明的目标，且追踪器用于在每一后续帧中定位目标。由于由突然运动、变形、遮挡和光照变化引起的目标外观的显著改变，视觉追踪仍然是具有挑战性的问题。先前的方法依赖于人工编辑的特征来描述目标，且在一定程度上解决了上述具有挑战性的问题。

最近，在大规模图像分类数据集上训练的深度CNN已经取得了巨大成功。由学习过程发现的这些语义表示被证明对区分各种类别的对象非常有效。然而，对具有数百万参数的深度CNN进行有监督的训练需要大量的带注释的训练样本。为了利用有限数量的训练样本将深度CNN应用于各项任务，先前方法采用迁移学习方法，即首先在具有大规模训练数据集的源任务上预训练深度CNN，然后在目标任务上对学习得到的特征进行微调。由于CNN特征在不同数据集上具有良好的泛化能力，因此这种迁移学习方法是有效的，且已在许多应用中显示出与当前科技水平匹配的性能。

然而，对于在线视觉追踪，由于仅在第一帧中提供了具有真值(ground truth)标记的训练样本，且用于更新追踪器的追踪结果也是以顺序方式获得，所以缺乏训练样本的问题变得更加严重。因此，直接在线微调预训练的深度CNN容易过拟合，这会使追踪器性能下降并逐渐导致追踪漂移。

发明内容

下文呈现本公开的简要概述，以便提供对本公开的一些方面的基本理解。此概述并非本公开的详尽综述。该概述既不旨在确定本公开的重要或关键要素，也不希望划定本公开的特定实施例的任何范围或权利要求书的任何范围。其唯一目的是以简化形式呈现本公开的一些概念作为稍后呈现的更详细描述的序文。

为了至少部分地解决以上一个问题，在本申请的一个方面中，提出一种用于使预训练的CNN适配目标视频的CNN网络适配方法。所述方法包括：将第一特征图转换为多个子特征图，其中所述第一特征图由所述预训练的CNN根据所述目标视频的帧而生成；将每个所述子特征图分别与多个适配卷积核中的一个适配卷积核进行卷积，以输出具有改善的适配性的多个第二特征图；以及逐帧训练所述多个适配卷积核。

在本申请的一个实施例中，所述转换和所述卷积在适配CNN中实施，所述适配CNN包括：第一卷积层，链接到所述预训练的CNN且用于将所述第一特征图转换为所述多个子特征图；以及第二卷积层，链接到所述第一卷积层且用于将每个所述子特征图分别与所述多个适配卷积核中的一个适配卷积核进行卷积。

在本申请的一个实施例中，所述训练包括：将第一训练样本正向馈送经过所述预训练的CNN和所述适配CNN以生成第一输出图像，其中所述第一训练样本根据所述目标视频的第一帧而获得；将所生成的第一输出图像与从所述第一帧推导出的第一真值进行比较以获得分别用于所述多个适配卷积核的多个第一训练误差；将所述多个第一训练误差反复地反向传播经过所述预训练的CNN和所述适配CNN以训练所述多个适配卷积核，直到所述多个第一训练误差收敛，其中，获得分别用于经训练的多个适配卷积核的多个参数；将所获得的多个参数中具有最小第一训练误差的参数与所获得的多个参数中的其余参数分别分组到集成集和候选集中；以及根据所述目标视频的后续帧优化被分组到所述候选集中的参数。

在本申请的一个实施例中，所述优化包括：将第二训练样本正向馈送经过所述预训练的CNN和所述适配CNN以生成第二输出图像，其中所述第二训练样本根据所述目标视频的第二帧而获得，且所述第二帧在所述第一帧之后；将所述第二输出图像与从所述第二帧推导出的第二真值进行比较以获得用于所述多个适配卷积核的多个第二训练误差；以及如果任一第二训练误差高于阈值，则将所述第二训练误差反向传播经过所述预训练的CNN和所述适配CNN以进一步优化所述候选集中的参数并且将被进一步优化的参数中的至少一个参数传送到所述集成集中。

在本申请的一个实施例中，每个所述适配卷积核在不同损失准则下训练。

在本申请的一个实施例中，所述方法还包括通过掩码层进一步降低所述多个子特征图之间的关联性，其中所述掩码层链接到所述适配CNN的所述第二卷积层。

在本申请的一个实施例中，所述掩码层包括多个二进制掩码，每个二进制掩码与一个子特征图进行卷积且与被卷积的子特征图具有相同的空间尺寸。

在另一方面中，提出一种用于对象在线追踪的方法，包括：确定目标视频的第一帧中的关注区域(ROI)；将所确定的ROI正向馈送经过预训练的CNN以提取其初始特征图；利用所述初始特征图初始化用于检测所述对象的位置的适配CNN和用于限定所述对象的比例的比例估计网络；利用经初始化的适配CNN预测所述对象在所述目标视频的第二帧中的第二位置，其中所述第二帧在所述第一帧之后；利用经初始化的比例估计网络估计所述对象在所述目标视频的所述第二帧中的第二比例；利用在所述预测和所述估计中获取的经优化的网络参数分别更新所述适配CNN和所述比例估计网络；利用经更新的适配CNN预测所述对象在所述目标视频的第三帧中的第三位置，其中所述第三帧在所述第二帧之后；以及利用经更新的比例估计网络估计所述对象在所述目标视频的所述第三帧中的第三比例。

在本申请的一个实施例中，所述适配CNN包括：第一卷积层，链接到所述预训练的CNN且用于将第一特征图转换为多个子特征图，其中所述第一特征图通过所述预训练的CNN根据所述目标视频的任一帧而生成；以及第二卷积层，链接到所述第一卷积层且用于将每个所述子特征图分别与多个适配卷积核中的一个适配卷积核进行卷积，以输出具有改善的适配性的多个第二特征图。

在本申请的一个实施例中，所述适配CNN通过以下操作来初始化：将第一训练样本正向馈送经过所述预训练的CNN和所述适配CNN以生成第一输出图像，其中所述第一训练样本根据所述目标视频的第一帧而获得；将所生成的第一输出图像与从所述第一帧推导出的第一真值进行比较以获得分别用于所述多个适配卷积核的多个第一训练误差；将所述多个第一训练误差反复地反向传播经过所述预训练的CNN和所述适配CNN 以训练所述多个适配卷积核，直到所述多个第一训练误差收敛，其中，获得分别用于经训练的多个适配卷积核的多个参数；将所获得的多个参数中具有最小第一训练误差的参数与所获得的多个参数中的其余参数分别分组到集成集和候选集中。

在本申请的一个实施例中，所述适配CNN通过以下操作来更新：将第二训练样本正向馈送经过所述预训练的CNN和所述适配CNN以生成第二输出图像，其中所述第二训练样本根据所述目标视频的第二帧而获得，且所述第二帧在所述第一帧之后；将所述第二输出图像与从所述第二帧推导出的第二真值进行比较以获得分别用于所述多个适配卷积核的多个第二训练误差；以及如果任一第二训练误差高于阈值，则将所述第二训练误差反向传播经过所述预训练的CNN和所述适配CNN以进一步优化所述候选集中的参数且将被进一步优化的参数中的至少一个参数传送到所述集成集中。

在本申请的一个实施例中，所述适配CNN还包括掩码层，所述掩码层链接到所述第二卷积层以进一步降低所述多个子特征图之间的关联性。

在本申请的一个实施例中，所述对象的位置通过由所述适配CNN生成的热图来预测，其中，具有最大值的位置被预测为所述对象的位置，且所述最大值被采样为置信度。

在本申请的一个实施例中，仅当所述置信度高于预定阈值时才执行所述更新。

在本申请的一个实施例中，待追踪的对象处于所述ROI的中心。

在另一方面中，提出用于使预训练的CNN适配目标视频的系统，包括：存储器，存储可执行组件；以及处理器，电联接到所述存储器以执行所述可执行组件。所述可执行组件经运行以执行以下操作：将第一特征图转换为多个子特征图，其中所述第一特征图由所述预训练的CNN根据所述目标视频的帧而生成；将每个所述子特征图分别与多个适配卷积核中的一个适配卷积核进行卷积，以输出具有改善的适配性的多个第二特征图；逐帧训练所述多个适配卷积核。

在另一方面中，提出一种用于对象在线追踪的系统，包括：存储器，存储可执行组件；以及处理器，电联接到所述存储器以执行所述可执行组件。所述可执行组件经运行以执行以下操作：确定目标视频的第一帧中的关注区域(ROI)；将所确定的ROI正向馈送经过预训练的CNN以提取其初始特征图；利用所述初始特征图初始化用于检测所述对象的位置的适配CNN和用于限定所述对象的比例的比例估计网络；利用经初始化的适配CNN预测所述对象在所述目标视频的第二帧中的第二位置，其中所述第二帧在所述第一帧之后；利用经初始化的比例估计网络估计所述对象在所述目标视频的所述第二帧中的第二比例；利用在所述预测和所述估计中获取的经优化的网络参数分别更新所述适配CNN和所述比例估计网络；利用经更新的适配CNN预测所述对象在所述目标视频的第三帧中的第三位置，其中所述第三帧在所述第二帧之后；以及利用经更新的比例估计网络估计所述对象在所述目标视频的所述第三帧中的第三比例。

在另一方面中，提出一种用于使预训练的CNN适配目标视频的设备，包括：用于将第一特征图转换为多个子特征图的装置，其中所述第一特征图由预训练的CNN根据目标视频的帧而生成；用于将每个所述子特征图分别与多个适配卷积核中的一个适配卷积核进行卷积，以输出具有改善的适配性的多个第二特征图的装置；以及用于逐帧训练所述多个适配卷积核的装置。

在另一方面中，提出一种用于对象在线追踪的设备。所述设备包括特征提取单元，所述特征提取单元用于确定目标视频的第一帧中的关注区域(ROI)以及将所确定的ROI 正向馈送经过预训练的CNN以提取其初始特征图。所述设备还包括：初始化和更新单元，利用所述初始特征图初始化用于检测所述对象的位置的适配CNN和用于限定所述对象的比例的比例估计网络；位置预测单元，利用经初始化的适配CNN预测所述对象在所述目标视频的第二帧中的第二位置，其中所述第二帧在所述第一帧之后；以及比例估计单元，利用经初始化的比例估计网络估计所述对象在所述目标视频的所述第二帧中的第二比例。此外，所述初始化和更新单元还用于利用在所述预测和所述估计中获取的经优化的网络参数分别更新所述适配CNN和所述比例估计网络；所述位置预测单元还用于利用经更新的适配CNN预测所述对象在所述目标视频的第三帧中的第三位置，其中所述第三帧在所述第二帧之后；且所述比例估计单元还用于利用经更新的比例估计网络估计所述对象在所述目标视频的所述第三帧中的第三比例。

在另一方面中，提出一种计算机可读存储介质，所述计算机可读存储介质存储有可由处理器运行以执行以下操作的计算机可读指令，所述操作包括：将第一特征图转换为多个子特征图，其中所述第一特征图由所述预训练的CNN根据所述目标视频的帧而生成；将每个所述子特征图分别与多个适配卷积核中的一个适配卷积核进行卷积，以输出具有改善的适配性的多个第二特征图；以及逐帧训练所述多个适配卷积核。

在另一方面中，提出一种计算机可读存储介质，所述计算机可读存储介质存储有可由处理器运行以执行以下操作的计算机可读指令，所述操作包括：确定目标视频的第一帧中的关注区域(ROI)；将所确定的ROI正向馈送经过预训练的CNN以提取其初始特征图；利用所述初始特征图初始化用于检测所述对象的位置的适配CNN和用于限定所述对象的比例的比例估计网络；利用经初始化的适配CNN预测所述对象在所述目标视频的第二帧中的第二位置，其中所述第二帧在所述第一帧之后；利用经初始化的比例估计网络估计所述对象在所述目标视频的所述第二帧中的第二比例；利用在所述预测和所述估计中获取的经优化的网络参数分别更新所述适配CNN和所述比例估计网络；利用经更新的适配CNN预测所述对象在所述目标视频的第三帧中的第三位置，其中所述第三帧在所述第二帧之后；以及利用经更新的比例估计网络估计所述对象在所述目标视频的所述第三帧中的第三比例。

基于所提出的CNN适配方法及系统，预训练的深度特征可以按减小的过拟合有效地转移到在线应用。所提出的对象在线追踪方法、设备及系统是基于所提出的CNN适配方法、设备及系统加以构造。由于过拟合现象得以减少，所提出的对象在线追踪方法及系统执行的对象在线追踪可得以改善。

附图说明

在下文参考附图描述本申请的示范性非限制性实施例。附图是说明性的且通常未按确切比例绘制。在不同附图中用相同的附图标记标注相同或相似的元件。

图1示出了用于使预训练的CNN适配目标图像的常规方法。

图2a到图2c示出了根据本申请的实施例的用于使预训练的CNN适配目标视频的适配CNN。

图3是示出了根据本申请的实施例的初始化适配CNN的流程图。

图4是示出了根据本申请的实施例的对象在线追踪过程的流程图。

图5是示出了根据本申请的实施例的用于对象在线追踪的系统架构的示意图。

具体实施方式

现将详细参考本发明的一些特定实施例，包含发明人预期用于实现本发明的最佳实施例。在附图中示出了这些特定实施例的实例。尽管结合了这些特定实施例描述本发明，但所属领域的技术人员将了解，其并不意欲将本发明限于所描述的实施例。相反，希望涵盖可包含在如所附权利要求书限定的本发明的精神和范围内的替代方案、修改方案和等同方案。在以下描述中，阐述了众多特定细节以便提供对本申请的透彻理解。可在没有这些特定细节中的一些细节或全部细节的情况下实施本申请。在一些情况下，并未详细描述公知的过程操作以防使本申请被不必要地混淆。

本文中所使用的术语仅用于描述特定实施例的目的，而不旨在限制本发明。除非上下文另外清楚地指示，否则如本文所使用的单数形式“一”和“所述”旨在还包括复数形式。还应理解，术语“包括(comprises和/或comprising)”在用于本说明书中时指定所陈述的特征、整体、步骤、操作、元件和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组的存在或添加。

对于在线应用，迁移离线预训练的CNN特征的一种简单方法是向预训练的CNN模型串行添加一个或多个随机初始化的CNN层，即适配CNN。接着，使预训练的CNN 的参数(即卷积核和偏置)保持不变，而仅在线训练适配CNN的参数以匹配当前任务，例如目标视频或目标图像。图1示出了用于使预训练的CNN 1100适配目标图像的此类常规方法1000。如从图1中可以看出，适配CNN 1200被串接到预训练的CNN 1100，并且用于将预训练的特征优化到用于监督的最终适配特征1300。然而，由于适配CNN 1200的参数在训练过程中被联合地学习，所以此迁移学习方法对于仅在第一帧中提供具有真值标记的训练样本的在线应用存在严重的过拟合。在线学习的参数主要集中在最近的训练样本，且不太可能很好地泛化到历史样本和未来样本。此现象对于在线视觉追踪可能是致命的，在在线视觉追踪中，目标常常发生显著的外观改变或明显的遮挡。

为了解决上述问题，如图2a到图2c所示，为了更好地迁移预训练的深度特征，提出适配CNN 2200。预训练的CNN 2100表示为CNN-E，RGB图像被作为输入且卷积特征图X被输出。表示为CNN-A的在线适配CNN 2200被随机初始化，且包括与作为非线性激活单元的ReLU层交错的两个卷积层。第一卷积层链接到预训练的CNN 2100，且用于将第一特征图转换为多个子特征图。第二卷积层链接到第一卷积层，且用于分别将子特征图中的每一个与适配卷积核中的一个卷积核进行卷积。在线适配CNN 2200将特征图X用作输入并生成由下式表示的最终特征图2300：

其中

表示由空间尺寸为m×n的第二卷积层生成的子特征图的第c通道。第二层中的子特征图通过将内核与第一层中的子特征图进行卷积而获得：

其中C₁表示由第一卷积层输出的子特征图的通道的数目；

表示连接第一卷积层子特征图的第k通道与第二卷积层子特征图的第c通道的卷积核；b_c为偏置，且符号“*”表示卷积操作。在所有通道上进行求和。

为了将随机性引入到参数学习过程中，输出的子特征图被视为一组基础学习器，由下式表示：

其中每一基础学习器被定义为：

且参数

指示CNN-A的第一卷积层和第二卷积层中的对应内核权重和偏置。

CNN-A网络的在线训练由此等效于在线训练每一基础学习器以及将针对每一基础学习器训练完备的参数依次采样为集成集(ensemble set)。因为所提出的在线训练方法在所输出的子特征图的每一通道中独立进行，因此在以下论述中，将仅论述一个输出通道作为实例来描述训练方法。为便于标注，省略了上标通道号，且用标注

来表示任一输出子特征图通道的基础学习器的参数。

图3示出如何初始化在线训练过程。在在线训练过程开始时，在步骤S301处根据目标视频的第一帧准备第一训练样本。从给定图像准备训练样本的策略(例如随机梯度下降(SGD))对于所属领域的技术人员是公知的，因此在下文中将不详细地论述。接着在步骤S302处将第一训练样本正向馈送经过预训练的CNN和适配CNN以生成第一输出图像。接着在步骤S303处，将第一输出图像与从第一帧推导出的第一真值进行比较，以获得分别用于多个适配卷积核的多个第一训练误差。反向传播第一训练误差经过预训练的CNN和适配CNN，以迭代方式训练适配卷积核，直到第一训练误差收敛，如在步骤S304处所示。

在一个实施例中，在初始化之后，分别为适配卷积核中的每一卷积核训练多个参数。选择具有最小训练误差的参数

且将其分组为集成集ε，且将经训练参数中的其余参数分组为候选集

。将在目标视频的后续帧中优化候选集中的参数。然而，在替代实施方案中，可将两个或更多个具有最小训练误差的参数选择为集成集。

在后续训练过程(即优化过程)中，以类似方式依次将候选集中的参数添加到集成集。因为优化过程类似于初始化过程，例如准备、馈送、比较和反向传播，因此在下文中将仅论述差异之处。

在优化过程中，使用集成集中的所有参数来形成集成(ensemble)，其中输出

用于在线测试。在第t步骤处，获得具有目标输出Y_t的新训练样本X_t。集成集ε中的参数被联合地优化，例如通过利用损失函数 L_ε＝L(Y_t，F(X_t；ε))的SGD过程。同时，每一参数

被独立地优化，例如通过SGD 使用以下损失函数：

其中F(X_t；ε)是固定的，且参数η用来平衡集成对候选参数的影响，使得参数

的优化考虑到目标输出Y_t和集成F(X_t；ε)的输出。如果训练误差Lε高于预定阈值且候选集C不为空，则例如根据以下采样概率密度来从候选集C采样优化参数

其中q(·)为单调递减函数。因此，从候选集C移除采样的参数且将其添加到集成集ε中。以上在线训练方法依次按每一时间步长进行。在所有参数被从候选集采样到集成集时，集成F(X；ε)演变为训练完备的CNN模型。在替代实施例中，并入在训练完备的 CNN模型中的参数仍然将在后续帧的周期期间利用另一训练过程联合地更新。因为所提出的适配CNN的参数是独立地训练，尤其是通过使用不同损失标准来训练，所以所提出的适配CNN表现出适度的多样性。

在一个实施例中，适配CNN可包含掩码层，且掩码层链接到第二卷积层以进一步降低子特征图之间的关联性。具体地说，从第二卷积层输出的子特征图的每一通道和与所述子特征图具有相同空间尺寸的各个二进制掩码相关联。所有掩码以随机方式初始化，且接着在整个在线训练过程中固定。然后根据下式进行在训练阶段卷积层的正向传播：

其中X^k指示子特征图的第k通道；M^c表示与输出特征图F^c的第c通道相关联的二进制掩码；且符号“⊙”表示哈达玛(Hadamard)乘积。因此，还通过考虑二进制掩码进行反向传播。以此方式训练后，学习的卷积核被迫经过二进制掩码而关注输入特征图的不同部分。

在另一方面中，提出一种用于对象在线追踪的方法。图4示意性地示出了用于对象在线追踪的一般流程图。在追踪过程开始时，如步骤S401处所示，用视频的第一帧中的目标边界框手动选择目标对象，且因此确定关注区域(ROI)。在一个实施例中，ROI 处于目标对象的中心。在另一实施方案中，作为一实例，ROI可能是目标边界框大小的两倍。在步骤S402处，将ROI正向馈送到预训练的CNN以提取用于初始化的初始特征图。初始特征图包括第一帧中的目标对象的位置和比例的信息。在步骤S403处，利用初始特征图对适配CNN和比例估计网络进行初始化，其中利用适配CNN来预测目标对象的位置，且利用比例估计网络来估计目标对象的比例。将在以下段落中进一步描述比例估计过程。如步骤S404和S405所示，利用经初始化的适配CNN和比例估计网络，预测和估计目标对象在下一帧(例如目标视频的第二帧)中的位置和比例。此外，位置预测和比例估计过程也是训练过程，其分别为适配CNN和比例估计网络提供了多个优化参数。利用经优化参数，在步骤S406中联合地更新适配CNN和比例估计网络。在更新过程之后，适配CNN和比例估计网络对于相关帧都具有更好的适配性。将基于经更新的适配CNN来预测和估计目标对象在目标视频的后续帧中的位置和比例(步骤S407 和S408)。预测和估计的结果反过来又进一步更新适配CNN和比例估计网络。

上述对象在线追踪过程可在图5中示出的系统中实施。包括预训练的CNN(即 CNN-E)的特征提取单元501用于确定ROI并提取任一帧的特征。被提取的特征被发送到包括适配CNN的位置预测单元502和包括比例估计网络的比例估计单元503。此外，被提取的特征还发送到初始化和更新单元504用于在目标视频的第一帧处初始化。在后续帧中，当前帧的被提取的特征图以及来自位置预测单元502和比例估计单元503的输出被发送到初始化和更新单元504以更新适配CNN和比例估计网络。

在前文已经论述了适配CNN的结构、初始化和优化，在下文中将不对其进一步详述。在对象在线追踪的情况下，适配CNN具体用来通过执行热图回归来将从预训练的 CNN提取的特征图转换为目标热图。接着通过热图上具有最大值的位置来确定目标对象的位置，且对应最大热图值用作此预测的置信度。在一个实施例中，仅当置信度高于预定阈值时才进行适配CNN和比例估计网络的更新，以避免使用不良的训练样本进行更新。

比例估计网络具有常规深度学习网络结构，例如CNN或全连接网络，因此在本文中将不详细地描述。在对象在线追踪的情况下，比例预测单元接收从预训练的网络提取的特征图，且应用一组预定比例转换以获得对应的经比例转换的特征图。经比例转换的特征图正向馈送经过比例估计网络，所述比例估计网络为每一比例转换分配一个分数。然后将具有最高分数的比例预测为目标的当前比例。利用由追踪系统产生的位置和比例，可以以更高的精度追踪目标对象。

在本申请的一个方面中，提出一种用于使预训练的CNN适配目标视频的CNN网络适配方法。所述方法包括：将第一特征图转换为多个子特征图，其中所述第一特征图由所述预训练的CNN根据所述目标视频的帧而生成；将每个所述子特征图分别与多个适配卷积核中的一个适配卷积核进行卷积，以输出具有改善的适配性的多个第二特征图；以及逐帧训练所述多个适配卷积核。

如所属领域的技术人员将了解的，本申请可实现为系统、方法或计算机程序产品。因此，本申请可采用完全由硬件实现的实施例的形式以及可采用在本文中可都大致称作“单元”、“电路”、“模块”或“系统”的硬件形式。在实施时，本发明的功能和本发明的原理中的一部分得到集成电路(IC)的良好支持，集成电路例如是数字信号处理器和软件、或专用IC。可以预期的是，本领域普通技术人员根据本文公开的概念和原理的教导能够通过最少的实验容易地生成IC，而不必考虑例如由时间、当前技术和经济考量等驱使的可能的繁重工作量和许多其它设计选项。因此，为了简化和最小化对根据本申请的原理概念进行混淆的任何风险，对此类软件和IC(如果存在的话)的进一步论述将被限制为对于由优选实施例使用的原理和概念而言必要的部分。另外，本发明可采用完全为软件的实施例(包括固件、驻留软件、微码等)或可采用组合了软件的实施例的形式。例如，系统可包括存储可执行组件的存储器以及处理器，所述处理器电联接到存储器以执行可执行组件来执行系统的如参考图1到5所论述的操作。另外，本发明可采用计算机程序产品的形式，该计算机程序产品可实施为任意有形的、在其中具有计算机可用程序代码的介质的形式。

虽然已经描述本申请的优选实例，但是所属领域的技术人员可在知晓基本发明概念后对这些实例作出变化或修改。所附权利要求书可被理解为包括落在本申请的范围内的优选实例及其所有变化或修改。

显然，所属领域的技术人员可在不脱离本申请的精神和范围的情况下对本申请作出变化或修改。因而，如果这些变化或修改属于权利要求书和等同技术的范围，那么其也可落在本申请的范围内。

Claims

1.一种用于使预训练的卷积神经网络适配目标视频的方法，包括：

将第一特征图转换为多个子特征图，其中所述第一特征图由所述预训练的卷积神经网络根据所述目标视频的帧而生成；

将每个所述子特征图分别与多个适配卷积核中的一个适配卷积核进行卷积，以输出具有改善的适配性的多个第二特征图；以及

逐帧训练所述多个适配卷积核。

2.根据权利要求1所述的方法，其中所述转换和所述卷积在适配卷积神经网络中实施，所述适配卷积神经网络包括：

第一卷积层，链接到所述预训练的卷积神经网络且用于将所述第一特征图转换为所述多个子特征图；以及

第二卷积层，链接到所述第一卷积层且用于将每个所述子特征图分别与所述多个适配卷积核中的一个适配卷积核进行卷积。

3.根据权利要求2所述的方法，其中所述训练包括：

将第一训练样本正向馈送经过所述预训练的卷积神经网络和所述适配卷积神经网络以生成第一输出图像，其中所述第一训练样本根据所述目标视频的第一帧而获得；

将所生成的第一输出图像与从所述第一帧推导出的第一真值进行比较以获得分别用于所述多个适配卷积核的多个第一训练误差；

将所述多个第一训练误差反复地反向传播经过所述预训练的卷积神经网络和所述适配卷积神经网络以训练所述多个适配卷积核，直到所述多个第一训练误差收敛，其中，获得分别用于经训练的多个适配卷积核的多个参数；

将所获得的多个参数中具有最小第一训练误差的参数与所获得的多个参数中的其余参数分别分组到集成集和候选集中；以及

根据所述目标视频的后续帧优化被分组到所述候选集中的参数。

4.根据权利要求3所述的方法，其中所述优化包括：

将第二训练样本正向馈送经过所述预训练的卷积神经网络和所述适配卷积神经网络以生成第二输出图像，其中所述第二训练样本根据所述目标视频的第二帧而获得，且所述第二帧在所述第一帧之后；

将所述第二输出图像与从所述第二帧推导出的第二真值进行比较以获得用于所述多个适配卷积核的多个第二训练误差；以及

如果任一第二训练误差高于阈值，则执行以下操作：

将所述第二训练误差反向传播经过所述预训练的卷积神经网络和所述适配卷积神经网络以进一步优化所述候选集中的参数；以及

将被进一步优化的参数中的至少一个参数传送到所述集成集中。

5.根据权利要求1所述的方法，其中每个所述适配卷积核在不同损失准则下训练。

6.根据权利要求2所述的方法，其中所述方法还包括：

通过掩码层降低所述多个子特征图之间的关联性，其中所述掩码层链接到所述适配卷积神经网络的所述第二卷积层。

7.根据权利要求6所述的方法，其中所述掩码层包括多个二进制掩码，每个二进制掩码与一个子特征图进行卷积且与被卷积的子特征图具有相同的空间尺寸。

8.一种用于对象在线追踪的方法，包括：

确定目标视频的第一帧中的关注区域；

将所确定的关注区域正向馈送经过预训练的卷积神经网络以提取其初始特征图；

利用所述初始特征图初始化用于检测所述对象的位置的适配卷积神经网络和用于限定所述对象的比例的比例估计网络；

利用经初始化的适配卷积神经网络预测所述对象在所述目标视频的第二帧中的第二位置，其中所述第二帧在所述第一帧之后；

利用经初始化的比例估计网络估计所述对象在所述目标视频的所述第二帧中的第二比例；

利用在所述预测和所述估计中获取的经优化的网络参数分别更新所述适配卷积神经网络和所述比例估计网络；

利用经更新的适配卷积神经网络预测所述对象在所述目标视频的第三帧中的第三位置，其中所述第三帧在所述第二帧之后；以及

利用经更新的比例估计网络估计所述对象在所述目标视频的所述第三帧中的第三比例。

9.根据权利要求8所述的方法，其中所述适配卷积神经网络包括：

第一卷积层，链接到所述预训练的卷积神经网络且用于将第一特征图转换为多个子特征图，其中所述第一特征图通过所述预训练的卷积神经网络根据所述目标视频的任一帧而生成；以及

第二卷积层，链接到所述第一卷积层且用于将每个所述子特征图分别与多个适配卷积核中的一个适配卷积核进行卷积，以输出具有改善的适配性的多个第二特征图。

10.根据权利要求9所述的方法，其中所述适配卷积神经网络通过以下操作来初始化：

将所获得的多个参数中具有最小第一训练误差的参数与所获得的多个参数中的其余参数分别分组到集成集和候选集中。

11.根据权利要求10所述的方法，其中所述适配卷积神经网络通过以下操作来更新：

将所述第二输出图像与从所述第二帧推导出的第二真值进行比较以获得分别用于所述多个适配卷积核的多个第二训练误差；以及

如果任一第二训练误差高于阈值，则执行以下操作：

12.根据权利要求9所述的方法，其中每个所述适配卷积核在不同损失准则下训练。

13.根据权利要求9所述的方法，其中所述适配卷积神经网络还包括掩码层，所述掩码层链接到所述第二卷积层以进一步降低所述多个子特征图之间的关联性。

14.根据权利要求13所述的方法，其中所述掩码层包括多个二进制掩码，每个二进制掩码与一个子特征图进行卷积且与被卷积的子特征图具有相同的空间尺寸。

15.根据权利要求9所述的方法，其中所述对象的位置通过由所述适配卷积神经网络生成的热图来预测，其中，具有最大值的位置被预测为所述对象的位置，且所述最大值被采样为置信度。

16.根据权利要求15所述的方法，其中仅当所述置信度高于预定阈值时才执行所述更新。

17.根据权利要求8所述的方法，其中待追踪的对象处于所述关注区域的中心。

18.一种用于使预训练的卷积神经网络适配目标视频的系统，包括：

存储器，存储可执行组件；以及

处理器，电联接到所述存储器以运行所述可执行组件，从而执行以下操作：

逐帧训练所述多个适配卷积核。

19.根据权利要求18所述的系统，其中所述可执行组件包括适配卷积神经网络，所述适配卷积神经网络包括：

20.根据权利要求19所述的系统，其中所述训练包括：

21.根据权利要求20所述的系统，其中所述优化包括：

如果任一第二训练误差高于阈值，则执行以下操作：

22.根据权利要求18所述的系统，其中每个所述适配卷积核在不同损失准则下训练。

23.根据权利要求19所述的系统，其中所述适配卷积神经网络还包括掩码层，所述掩码层链接到所述第二卷积层以进一步降低所述多个子特征图之间的关联性。

24.根据权利要求23所述的系统，其中所述掩码层包括多个二进制掩码，每个二进制掩码与一个子特征图进行卷积且与被卷积的子特征图具有相同的空间尺寸。

25.一种用于对象在线追踪的系统，包括：

存储器，存储可执行组件；以及

确定目标视频的第一帧中的关注区域；

26.根据权利要求25所述的系统，其中所述适配卷积神经网络包括：

27.根据权利要求26所述的系统，其中所述适配卷积神经网络通过以下操作来初始化：

将所述第一输出图像与从所述第一帧导出的第一真值进行比较以获得分别用于所述多个适配卷积核的多个第一训练误差；

28.根据权利要求27所述的系统，其中所述适配卷积神经网络通过以下操作来更新：

如果任一第二训练误差高于阈值，则执行以下操作：

29.根据权利要求26所述的系统，其中每个所述适配卷积核在不同损失准则下训练。

30.根据权利要求26所述的系统，其中所述适配卷积神经网络还包括掩码层，所述掩码层链接到所述第二卷积层以进一步降低所述多个子特征图之间的关联性。

31.根据权利要求30所述的系统，其中所述掩码层包括多个二进制掩码，每个二进制掩码与一个子特征图进行卷积且与被卷积的子特征图具有相同的空间尺寸。

32.根据权利要求26所述的系统，其中所述对象的位置通过由所述适配卷积神经网络生成的热图来预测，其中，具有最大值的位置被预测为所述对象的位置，且所述最大值被采样为置信度。

33.根据权利要求32所述的系统，其中仅当所述置信度高于预定阈值时才执行所述更新。

34.根据权利要求25所述的系统，其中待追踪的对象处于所述关注区域的中心。

35.一种用于使预训练的卷积神经网络适配目标视频的设备，包括：

用于将第一特征图转换为多个子特征图的装置，其中所述第一特征图由预训练的卷积神经网络根据目标视频的帧而生成；

用于将每个所述子特征图分别与多个适配卷积核中的一个适配卷积核进行卷积，以输出具有改善的适配性的多个第二特征图的装置；以及

用于逐帧训练所述多个适配卷积核的装置。

36.根据权利要求35所述的设备，其中所述用于转换的装置和所述用于卷积的装置是以适配卷积神经网络的形式组织的，所述适配卷积神经网络包括：

37.根据权利要求36所述的设备，其中所述训练包括：

38.根据权利要求37所述的设备，其中所述优化包括：

如果任一第二训练误差高于阈值，则执行以下操作：

39.根据权利要求35所述的设备，其中每个所述适配卷积核在不同损失准则下训练。

40.根据权利要求36所述的设备，其中所述适配卷积神经网络还包括掩码层，所述掩码层链接到所述第二卷积层以进一步降低所述多个子特征图之间的关联性。

41.根据权利要求40所述的设备，其中所述掩码层包括多个二进制掩码，每个二进制掩码与一个子特征图进行卷积且与被卷积的子特征图具有相同的空间尺寸。

42.一种用于对象在线追踪的设备，包括：

特征提取单元，用于确定目标视频的第一帧中的关注区域以及将所确定的关注区域正向馈送经过预训练的卷积神经网络以提取其初始特征图；

初始化和更新单元，用于利用所述初始特征图初始化用于检测所述对象的位置的适配卷积神经网络和用于限定所述对象的比例的比例估计网络；

位置预测单元，利用经初始化的适配卷积神经网络预测所述对象在所述目标视频的第二帧中的第二位置，其中所述第二帧在所述第一帧之后；以及

比例估计单元，利用经初始化的比例估计网络估计所述对象在所述目标视频的所述第二帧中的第二比例；

其中，所述初始化和更新单元还用于利用在所述预测和所述估计中获取的经优化的网络参数分别更新所述适配卷积神经网络和所述比例估计网络；

所述位置预测单元还用于利用经更新的适配卷积神经网络预测所述对象在所述目标视频的第三帧中的第三位置，其中所述第三帧在所述第二帧之后；以及

所述比例估计单元还用于利用经更新的比例估计网络估计所述对象在所述目标视频的所述第三帧中的第三比例。

43.根据权利要求42所述的设备，其中所述适配卷积神经网络包括：

44.根据权利要求43所述的设备，其中所述适配卷积神经网络通过以下操作来初始化：

45.根据权利要求44所述的设备，其中所述适配卷积神经网络通过以下操作来更新：

如果任一第二训练误差高于阈值，则执行以下操作：

46.根据权利要求42所述的设备，其中每个所述适配卷积核在不同损失准则下训练。

47.根据权利要求43所述的设备，其中所述适配卷积神经网络还包括掩码层，所述掩码层链接到所述第二卷积层以进一步降低所述多个子特征图之间的关联性。

48.根据权利要求47所述的设备，其中所述掩码层包括多个二进制掩码，每个二进制掩码与一个子特征图进行卷积且与被卷积的子特征图具有相同的空间尺寸。

49.根据权利要求43所述的设备，其中所述对象的位置通过由所述适配卷积神经网络生成的热图来预测，其中，具有最大值的位置被预测为所述对象的位置，且所述最大值被采样为置信度。

50.根据权利要求49所述的设备，其中仅当所述置信度高于预定阈值时才执行所述更新。

51.根据权利要求42所述的设备，其中待追踪的对象处于所述关注区域的中心。

52.一种计算机可读存储介质，所述计算机可读存储介质存储有可由处理器运行以执行以下操作的计算机可读指令，所述操作包括：

将第一特征图转换为多个子特征图，其中所述第一特征图由预训练的卷积神经网络根据目标视频的帧而生成；

逐帧训练所述多个适配卷积核。

53.一种计算机可读存储介质，所述计算机可读存储介质存储有可由处理器运行以执行以下操作的计算机可读指令，所述操作包括：

确定目标视频的第一帧中的关注区域；

利用所述初始特征图初始化用于检测对象的位置的适配卷积神经网络和用于限定所述对象的比例的比例估计网络；