CN110766725A

CN110766725A - 模板图像的更新、目标跟踪方法及装置、电子设备及介质

Info

Publication number: CN110766725A
Application number: CN201911054594.3A
Authority: CN
Inventors: 陈光启; 王飞; 钱晨
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-02-07
Anticipated expiration: 2039-10-31
Also published as: CN110766725B

Abstract

本申请实施例公开了一种模板图像的更新方法及装置、目标跟踪方法及装置、电子设备及存储介质。所述模板图像的更新方法，包括：根据第t+1帧图像确定所述第t+1帧图像的特征图，其中，t为正整数；根据所述第t+1帧图像的特征图，更新第t个模板图像得到第t+1个模板图像，以根据第t+1个模板图像对第t+2帧图像进行目标跟踪；其中，所述第t个模板图像，用于对所述第t+1帧图像进行目标跟踪；第t个模板图像和第t+1个模板图像中均包含要跟踪的目标。

Description

模板图像的更新、目标跟踪方法及装置、电子设备及介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种模板图像的更新方法及装置、目标跟踪方法及装置、电子设备及存储介质。

背景技术

目标追踪的过程中，会采集视频，然后对视频的视频帧进行逐帧处理，追踪视频中的目标。

现有技术中提供多种进行目标追踪的方法，但是在一些情况下依然会跟丢目标，导致跟踪成功率低的问题。

发明内容

有鉴于此，本发明实施例期望提供一种模板图像的更新方法及装置、目标跟踪方法及装置、电子设备及存储介质。

本发明的技术方案是这样实现的：

本申请实施例第一方面提供一种模板图像的更新方法，包括：

根据第t+1帧图像确定所述第t+1帧图像的特征图，其中，t为正整数；

根据所述第t+1帧图像的特征图，更新第t个模板图像得到第t+1个模板图像，以根据第t+1个模板图像对第t+2帧图像进行目标跟踪；其中，所述第t个模板图像，用于对所述第t+1帧图像进行目标跟踪；第t个模板图像和第t+1个模板图像中均包含要跟踪的目标。

基于上述方案，所述方法还包括：

根据所述第t+1帧图像的特征图及所述第t个模板图像的特征图，确定第t+1帧图像的各像素的分类标签及所述分类标签的分类置信度；

所述根据所述第t+1帧图像的特征图，更新第t个模板图像得到第t+1个模板图像，包括：

根据所述第t+1帧图像的特征图及所述分类置信度，更新所述第t个模板图像得到所述第t+1个模板图像。

基于上述方案，所述根据所述第t+1帧图像的特征图及所述分类置信度，更新所述第t个模板图像得到所述第t+1个模板图像，包括：

根据所述分类置信度，确定更新步长；

基于所述更新步长，确定所述第t个模板图像的特征图的更新特征；

结合第一个模板图像的特征图和所述更新特征，得到所述第t+1个模板图像；

其中，所述第一个模板图像是：根据第一帧图像中的所述目标的边界框对所述第一帧图像进行裁剪得到的包含所述目标的图像。

本申请实施例第二方面提供一种目标跟踪方法，所述方法包括：

基于第一方面任意技术方案提供的方法更新的模板图像；

根据更新后的模板图像对输入图像进行目标跟踪。

本申请实施例第三方面提供一种模板图像的更新装置，包括：

第一确定模块，用于根据第t+1帧图像确定所述第t+1帧图像的特征图，其中，t为正整数；

第一更新模块，用于根据所述第t+1帧图像的特征图，更新第t个模板图像得到第t+1个模板图像，以根据第t+1个模板图像对第t+2帧图像进行目标跟踪；其中，所述第t个模板图像，用于对所述第t+1帧图像进行目标跟踪；第t个模板图像和第t+1个模板图像中均包含要跟踪的目标。

基于上述方案，所述装置还包括：

第二确定模块，用于根据所述第t+1帧图像的特征图及所述第t个模板图像的特征图，确定第t+1帧图像的各像素的分类标签及所述分类标签的分类置信度；

所述第一更新模块，用于根据所述第t+1帧图像的特征图及所述分类置信度，更新所述第t个模板图像得到所述第t+1个模板图像。

基于上述方案，所述第一更新模块，具体用于根据所述分类置信度，确定更新步长；基于所述更新步长，确定所述第t个模板图像的特征图的更新特征；结合第一个模板图像的特征图和所述更新特征，得到所述第t+1个模板图像；其中，所述第一个模板图像是：根据第一帧图像中的所述目标的边界框对所述第一帧图像进行裁剪得到的包含所述目标的图像。

本申请实施例第四方面提供的一种目标跟踪装置，所述装置包括：

第二更新模块，用于基于第一方面任意技术方案提供的方法更新的模板图像；

跟踪模块，用于根据更新后的模板图像对输入图像进行目标跟踪。

本申请实施例第五方面提供一种电子设备，包括：

存储器；

处理器，与所述存储器连接，用于通过执行存储在所述存储器上的计算机可执行指令，能够实现第一方面至第二方面任一项提供的方法。

本申请实施例第六方面提供一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令；所述计算机可执行指令，被处理器执行后，能够实现第一方面至第二方面任一项提供的方法。

本申请实施例提供的技术方案，在进行目标跟踪时，会根据第t帧图像的嵌入特征更新模板图像得到第t+1个模板图像，如此在根据第t+1个模板图像对第t+2帧图像进行目标跟踪时，由于第t+1个模板图像中包括了目标的最新的外观，也就是说不断更新模板图像，相对于固定模板图像来说，考虑了目标外观状态的变化，因此能够减少由于跟踪的目标的外观变化导致的跟丢或者跟错现象，提升了跟踪的成功率和跟踪精确度。

附图说明

图1为本发明实施例提供的一种目标跟踪网络的模板更新方法的流程示意图；

图2为本发明实施例提供的另一种目标跟踪网络的模板更新方法的流程示意图；

图3为本发明实施例提供的一种目标跟踪网络的训练方法的流程示意图；

图4为孪生网络和RPN的分类分支的连接示意图；

图5为本发明实施例提供的一种目标跟踪网络的结构示意图；

图6为本发明实施例提供的一种目标跟踪网络的模板更新装置的结构示意图；

图7为本发明实施例提供的一种目标跟踪网络的训练装置的结构示意图；

图8为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述。

如图1所示，本实施例提供一种目标跟踪网络的模板更新方法，包括：

步骤S110：根据第t+1帧图像确定所述第t+1帧图像的特征图，其中，t为正整数；

步骤S120：根据所述第t+1帧图像的特征图，更新第t个模板图像得到第t+1个模板图像，以根据第t+1个模板图像对第t+2帧图像进行目标跟踪；其中，所述第t个模板图像，用于对所述第t+1帧图像进行目标跟踪；第t个模板图像和第t+1个模板图像中均包含要跟踪的目标。

本实施例提供的目标跟踪方法可以应用于利用样本图像训练得到的目标跟踪网络中。

在进行目标跟踪时，是基于对输入图像和模板图像进行的目标跟踪的。但是在本实施例中，会动态的更新所述模板图像。

在本实施例中，所述输入图像可来自一个视频或者来自一个图像序列。

当t为1时，即第1帧图像，则将第1帧图像作为一个跟踪视频或跟踪图像序列的首帧。所述首帧图像将作为第1个模板图像，用于第1帧图像中目标定位，以进行目标跟踪。第1帧图像的特征图，会用于确定第1个模板图像；而第1个模板图像将用于第2帧图像的目标跟踪。

在本申请实施例中，当目标跟踪网络中用于单目标跟踪时，则前述的特征图可为包含区分目标和背景的特征值的特征图。当目标跟踪网络用于多目标跟踪时，则前述的特征图为包含嵌入特征的嵌入特征图。嵌入特征图包含不同嵌入特征，不仅可用于区分目标和背景，而且还可以用于区分不同的目标。例如，在嵌入特征图中某一个像素的像素值为“1”、一个像素的像素值为“0”、另一个像素的像素值为“2”，像素值为“0”的像素为属于背景的像素；像素值不为“0”的像素为属于目标的像素。但是像素值为“1”的像素和像素值“2”的像素属于不同目标的像素。

如此，本申请的目标跟踪方法，在进行目标跟踪时，会根据第t帧图像的嵌入特征更新模板图像得到第t+1个模板图像，如此在根据第t+1个模板图像对第t+2帧图像进行目标跟踪时，由于第t+1个模板图像中包括了目标的最新的外观，也就是说动态的更新模板图像，而更新后的模板包括了目标的最新的外观，相对于固定模板图像来说，考虑了目标外观状态的变化，因此能够减少由于跟踪的目标的外观变化导致的跟丢或者跟错现象，提升了目标跟踪的精确度。

本实施例提供的目标跟踪方法所应用的目标跟踪网络，可包括特征提取网络，该特征提取网络可为孪生网络。所述孪生网络为神经网络的一种，可以用于提取图像特征。

所述孪生网络包括两个分支，分别是：

第一分支，用于提取模板图像的特征图；

第二分支，用于提取输入图像的特征图。

第一分支和第二分支，在提取特征图时网络结构可相同或类似。若输入图像中包含模板图像中已标注的目标，则提取出的特征图会有相似性，从而可以通过输入图像的特征图和模板图像的特征图的相似性计算，确定出当前输入图像是否包含已经在模板图像中标记的目标，从而实现目标跟踪。

因为在目标跟踪时，由于目标的外观变化的连续性，故相邻两帧图像的同一个目标的外观或形态上是有比较高的相似度的。

在一些实施例中，如图2所示，所述方法还包括：

步骤S111：根据所述第t+1帧图像的特征图及所述第t个模板图像的特征图，确定第t+1帧图像的各像素的分类标签及所述分类标签的分类置信度；

所述步骤S120可包括步骤S121：所述步骤S121：根据所述第t+1帧图像的特征图及所述分类置信度，更新所述第t个模板图像得到所述第t+1个模板图像。

在本申请实施例中所述目标跟踪网络可包括：分类网络；所述分类网络可以基于所述第t+1帧图像的特征图，进行第t+1帧图像的分类。

在本实施例中，该分类网络可为神经网络的一种，例如，可为能够进行二分类的分类网络。例如，该分类网络可采用候选区域网络(Region Proposal Network，RPN)的分类分支。

分类网络可根据第t+2帧图像的特征图和第t+1个模板图像的特征图确定图像中各个位置处的相似度，这些相似度按照像素进行排列形成了相似度特征图，然后对相似度特征图进行通道维度的求和得到求和值，利用软最大(Softmax)函数等分类函对所述求和值进行处理，得到第t+2帧图像上各个位置包含目标的概率值，该概率值可以用于分类，并用于计算所述分类置信度。所述分类置信度越高，则表示第t+2帧图像对应位置所分配的分类标签的准确度越高。

在本实施例中，为了确保更新后的第t+1个模板图像有利于提升第t+2帧图像的目标跟踪精确度，将会根据所述分类置信度来更新所述第t个模板图像，从而得到第t+1个模板图像。

在本实施例中，所述第t个模板图像的更新程度，与所述分类置信度正相关。即所述分类置信度越高，则在第t+1个模板图像引入第t+1帧图像的成分越高；从而以提升第t+2帧图像的目标跟踪的成功率和准确率。

在一些实施例中，所述步骤S120具体可包括：

根据所述分类置信度，确定更新步长；

其中，所述第一个模板图像是根据第一帧图像中的所述目标的边界框对所述第一帧图像进行裁剪，得到的包含所述目标的图像。

具体的在更新模板图像时，可以参照如下函数关系：

β_t＝β*p_t 公式(3)

φ(z_o)＝ψ(z_o) 公式(4)

其中，β为预设权值；p_t为第t帧图像的分类置信度；β_t为生成第t+1个模板图像的更新步长；ψ(z₀)为第1个模板图像的特征图；

为预设的超参数；

为第t个模板图像的特征图；ψ(z_t+1)为供第t+1帧图像进行目标跟踪的模板图像的特征图；该特征图可以用于确定模板图像。φ(z₁)为第1个模板图像。

如此，分类置信度低的输入图像对模板图像的影响就小，而分类置信度高的输入图像对模板图像的影响就大，从而确保了模板图像在目标跟踪过程中的适应性和鲁棒性，提升了基于图像进行目标跟踪的跟踪成功率。

本申请实施例提供还一种目标跟踪方法，可包括：

目标跟踪网络基于前述任意实施提供的应用于目标跟踪网络的模板图像的更新方法更新的模板图像及输入图像，进行目标跟踪。

如此，在进行目标跟踪时，不再是使用静态的模板图像进行跟踪，而是会边跟踪边更新模板图像，利用这种方式可以确保模板图像与动态的跟踪目标当前采集的输入图像相似程度最高，提升跟踪精度。

如图3所示，本实施例提供一种目标跟踪网络的训练方法，包括：

步骤S210：利用所述目标跟踪网络中的孪生网络的第一分支对模板图像提取特征得到第一特征图，并利用所述孪生网络的第二分支对样本图像提取特征得到第二特征图；其中，所述模板图像为包含了所述样本图像中要跟踪的目标的图像；

步骤S220：利用所述目标跟踪网络中的分类网络确定所述第一特征图和所述第二特征图之间的相似度；

步骤S230：基于所述第一特征图和所述第二特征图之间的相似度，确定第一损失值；该第一损失值中包含了间隔惩罚项，其中的间隔表示目标的特征，与干扰物的特征和/或背景的特征之间的余弦距离或者夹角，因此，该第一损失值又称为大间隔分类损失值。

步骤S240：根据所述第一损失值调整所述目标跟踪网络的网络参数。

本申请实施例提供的技术方案，会基于相似度特征图，会计算出输入图像的特征图和模板图像的特征图之间的相似度，基于该相似度得到一个第一损失值，基于该第一损失值进行目标跟踪网络训练过程中的网络参数的更新，也就是引入了输入图像的特征与模板图像的特征之间的间隔来训练网络，使得网络能够更准确的分辨出目标的特征与干扰物或者背景的特征的差异，更准确的识别出目标，如此可以减少目标跟踪过程中，干扰物以及背景对目标的定位干扰。

在本实施例中，分别会提取模板图像和样本图像的特征图，而模板图像的特征图为第一特征图，样本图像的特征图称之为第二特征图。

在一些实施例中，步骤S210中通过孪生网络等特征提取网络提取到所述第一特征图和所述第二特征图之后，会通过相关操作，得到相似度。该相似度按照像素矩阵的排列方式会形成相似度特征图。例如，在一些实施例中，通过求取第一特征图和第二特征图之间的内积，得到所述相似度特征图。

在另一些实施例中，可以通过卷积操作，以所述第一特征图作为卷积核对所述第二特征图进行卷积操作，得到所述相似度特征图。

所述第一特征图包括：所述模板图像中目标的第一特征图，和所述模板图像中背景的第一特征图；

所述S220可包括：

利用所述目标跟踪网络中的分类网络确定所述目标的第一特征图和所述第二特征图之间的相似度，得到第一相似度的确定结果；

利用所述目标跟踪网络中的分类网络确定所述背景的第一特征图和所述第二特征图之间的相似度，得到第二相似度的确定结果；

所述步骤S230可包括：基于所述第一相似度的确定结果和所述第二相似度的确定结果，确定所述第一损失值。

此处的第一相似度的确定结果包括：目标的第一特征图与第二特征图之间的相似度；而第二相似度的确定结果包括：背景的第一特征图与第二特征图之间的相似度。

例如，根据目标的第一特征图和第二特征图，得到第一相似度图；根据背景的第一特征图和第二特征图进行，得到第二相似度图。这里的两张相似度图的维度可均为：W*H*S；例如，S可为2个通道的相似度的个数之和512。即一个通道的相似度的个数为256。将同一个通道的相似度进行求和，如此会将第一相似度图和第二相似度图缩减为维度为：W*H*2的图像。

将维度均为W*H*2的第一相似度图和第二相似度图，计算大间隔分类损失值，将该大间隔分类损失值作为所述第一损失值。

例如，在得到所述相似度之后，可以确定输入图像的第一特征图和所述输入图像的第二特征图之间差异度的差异值。这种差异值可以用第一特征图和第二特征图在同一个位置的特征之间的夹角表示。

若通过分类确定出所述输入图像中包含跟踪的目标，则输入图像的第二特征图应该与模板图像中目标的第一特征图之间的间隔小，且与模板图像中背景的第一特征图之间的差异值大。

若通过分类确定出输入图像中不包含跟踪的目标，则输入图像的第二特征图应该与模板图像中背景的第一特征图之间的差异值小，且与模板图像中目标的第一特征图之间的差异值大。

若不满足上述规律，则说明当前输入图像的分类的出错概率高，相应的第一损失值也就大。

在本实施例中，将根据所述第一损失值更新所述目标跟踪网络的网络参数。例如，当所述第一损失值大于损失阈值时，利用反向传播等方式更新所述目标跟踪网络的网络参数。

再例如，所述第一损失值未收敛(即未达到最小时)，同样可利用反向传播等方式更新所述目标跟踪网络的网络参数。网络参数更新后，所述第一损失值将减小，则网络参数更新后的目标跟踪网络对输入图像中的目标跟踪处理的成功率及精确度会提升。

在本申请实施例中，所述网络参数包括但不限于：

目标跟踪网络中一个或多个处理节点的权值；

目标跟踪网络中一个或多个处理节点的阈值等。

在一些实施例中，所述第一特征图包括：所述模板图像中目标的第一特征图，和所述模板图像中背景的第一特征图；

例如，所述步骤S220中对所述目标的第一特征图和所述第二特征图进行相似度计算，在本实施例中，利用孪生网络等在对模板图像进行处理时，会分别获得目标的第一特征图和背景的第一特征图。而样本图像可以仅提取目标的特征图，即会得到样本图像的一个第二特征图，即目标的特征图。然后，分别根据样本图像的一个第二特征图和模板图像的两个第一特征图确定两个相似度。再结合两个的相似度，来进行所述间隔确定以计算所述第一损失值。

在本申请实施例中采用会基于算第一特征图和第二特征图之间差异值计算损失值的计算函数可以采用大间隔损失函数。如下公式(6)为一种大间隔损失函数的示例。

其中，ψ(z)为第一特征图，k为1时，表示模板图像中目标的第一特征图；k为0时，表示模板图像中背景的第一特征图。

ψ(x)_p为第二特征图中第p个位置的特征；

为相似度特征图中第p个位置的特征。

为ψ(z)和ψ(x)_p之间的夹角，也即前述间隔，当k为0时

为第二间隔值，即与模板图像中的北京的间隔值；当k为1时

为第一间隔值，即与模板图像中目标的间隔值。m为差异参数；G为相似度特征图所包含的特征个数。z表示模板图像；x表示输入图像；θ为提取所述第一特征图和/或所述第二特征图的网络参数，该θ可为提取所述第一特征图和所述第二特征图的全共享参数，也可以是部分共享参数；是预先确定的参数值。

在一些实施例中，所述利用所述目标跟踪网络中的分类网络确定所述第一特征图和所述第二特征图之间的相似度，包括：将第一特征图中的特征作为卷积核，对所述样本图像中的候选区域的特征进行卷积，生成各通道的相似度；其中，所述样本图像中的候选区域的特征根据所述样本图像中的候选区域和所述第二特征图确定；将所述各通道的相似度在通道维度上通过相加进行合并。例如，分类网络为包含C个通道的网络，在具体实现过程中，会以第一特征图的特征值作为卷积核，分别对样本图像中候选区域的特征进行卷积，得到C个通道的相似度。在得到这C个通道的相似度之后可进行相加得到合并的相似度。在一些实施例中，还可以对C个通道的相似度相加之后，进行平均得到合并后的相似度。所述基于所述第一特征图和所述第二特征图之间的相似度，确定第一损失值，包括：根据合并后的相似度，确定第一损失值。

图4为孪生网络和RPN的分类分支的连接示意图，RPN的分类分支对模板图像及输入图像的特征提取，得到特征图，从模板图像中提取目标的第一特征图(z1)和背景的第一特征图(z0)。通过相似度计算得到两种相似度特征图。将两种通道的相似度特征图进行合并，生成一个单通道的相似度特征图。然后基于这两种相似度特征图及差异参数，计算所述第一损失值。

所述候选区域是将样本图像的前一帧图像中检测的目标为中心，外扩一定尺寸得到的区域。

在一些实施例中，所述方法还包括：

利用所述目标跟踪网络中的分类网络根据所述第一特征图和所述第二特征图，对所述样本图像的各像素进行分类预测得到分类预测结果；基于所述分类预测结果和所述样本图像的各像素的分类标注结果之间的差异，得到第二损失值；

所述步骤S240可包括：结合所述第一损失值和所述第二损失值，更新所述目标跟踪网络的网络参数。

本实施例中为了进一步提升训练后的目标跟踪网络的追踪精确度，本实施例中还会计算第二损失值，该第二损失值为衡量目标跟踪网络分类的准确度的损失值。

在本实施例中，所述第二损失值可为分类网络的分类损失。例如，分类网络以第一特征图中的特征作为卷积核，对所述输入图像中的候选区域的特征进行卷积，生成各通道的相似度，再由目标跟踪网络中的区域建议网络根据各通道的相似度生成每个锚点框包含目标的概率，并基于该概率计算出所述第二损失值。

例如，采用RPN进行分类时，分类分支会对输入图像进行分类得到分类标签。

在具体实施例过程中，可以用如下公式计算所述第二损失值L_cls(q,u；z,x)：

其中，H(y_p，h(q,u；z,x)_p)为y_p和h(θ,u；z,x)_p的交叉熵；y_p为样本图像在第p个位置的标注标签；h(q,u；z,x)_p为样本图像在第p个位置的分类得分；G为样本图像所包含的位置个数。

z表示模板图像；x表示样本图像；θ和u为目标跟踪网络的网络参数，该θ可为提取所述第一特征图和所述第二特征图的全共享参数，也可以是部分共享参数；是预先确定的参数值。θ为特征提取和/或相关操作之前目标跟踪网络的网络参数；u为计算第二瞬时值的头部模块的网络参数。

在一些实施例中，所述方法还包括：基于所述第一特征图和所述第二特征图，对所述样本图像进行处理得到跟踪的目标的边界框；

基于所述边界框和所述样本图像的锚点框(即目标的标注的边界框，或者目标的标注框)之间的差异，得到第三损失值；

所述步骤S240可包括：基于所述第一损失值和所述第三损失值，更新所述目标跟踪网络的网络参数。

所述锚点框可为预先设置的包含目标的框，可为人工手动标记的，也可以是标注设备标记的。

该第三损失值可为RPN中回归分支的回归损失。例如，输入图像与模板图像经过回归分支产生的相似度特征图，只经过RPN的回归分支，计算回归损失。

在一些实施例中，所述边界框为：基于第一特征图和第二特征图，得到所述样本图像中目标的边界框。该边界框可以用参数(x，y，w，h)来表示，其中，x及y为该边界框在样本图像上的中心点的坐标；w表示边界框的宽度；h表示边界框的高度。在本实施例中，基于边界框和锚点框之间的差异，可以计算得到第三损失值。

在步骤S240中会结合所述第一损失值和第三损失值，更新所述目标跟踪网络的网络参数。

进一步地，所述步骤S240可为：结合所述第一损失值、第二损失值及第三损失值三者，更新所述目标跟踪网络的网络参数。

图5所示一种目标跟踪网络，包括：孪生网络，用于提取特征图；RPN用于进行样本图像的分类和目标在样本图像中的定位。

所述孪生网络通过各种卷积操作(CNN)得到了模板图像的第一特征图和样本图像的第二特征图；分别输入到RPN的分类分支和回归分支，RPN中的Conv表示卷积操作。

分类分支和回归分支的网络参数是不同，但是网络结构相似。在通过一些卷积操作等处理之后，各自都会进行相似度计算得到相似度特征图；然后基于相似度特征进行分类标签的预测，和边界框的定位。

本实施例还提供一种目标跟踪方法，所述方法包括：

利用前述任意技术方案训练得到的目标跟踪网络进行输入图像的目标跟踪。

进一步地，所述方法还包括：利用前述任意方法，在目标跟踪的过程中，更新所述目标跟踪网络进行目标跟踪的模板图像。该模板图像的更新方法可以用于前述实施例中任意一种模板更新方法进行更新。

如图6所示，本实施例提供一种目标跟踪网络的模板更新装置，包括：

第一确定模块110，用于根据第t+1帧图像确定所述第t+1帧图像的特征图，其中，t为正整数；

第一更新模块120，用于根据所述第t+1帧图像的特征图，更新第t个模板图像得到第t+1个模板图像，以根据第t+1个模板图像对第t+2帧图像进行目标跟踪；其中，所述第t个模板图像，用于对所述第t+1帧图像进行目标跟踪；第t个模板图像和第t+1个模板图像中均包含要跟踪的目标。

在一些实施例中，所述第一确定模块110及所述第一更新模块120可为程序模块；所述程序模块被处理器执行后，能够实现前述特征图的提取和模板图像的更新。

在另一些实施例中，所述第一确定模块110及所述第一更新模块120可为软硬结合模块；所述软硬结合模块包括但不限于各种可编程阵列；所述可编程阵列包括但不限于：复杂可编程阵列或者现场可编程阵列。

在还有一些实施例中，所述第一确定模块110及所述第一更新模块120可为纯硬件模块；所述纯硬件模块包括但不限于专用集成电路。

在一些实施例中，所述装置还包括：

第一更新模块120，用于根据所述第t+1帧图像的特征图及所述分类置信度，更新所述第t个模板图像得到所述第t+1个模板图像。

在一些实施例中，第一更新模块120，具体用于根据所述分类置信度，确定更新步长；基于所述更新步长，确定所述第t个模板图像的特征图的更新特征；结合第一个模板图像的特征图和所述更新特征，得到所述第t+1个模板图像；其中，所述第一个模板图像是根据第一帧图像中的所述目标的边界框对所述第一帧图像进行裁剪，得到的包含所述目标的图像。

本申请实施例还提供一种目标跟踪装置，所述装置用于目标跟踪网络基于前述任意实施例提供的更新方法更新的模板图像及输入图像，进行目标跟踪。

如图7所示，本实施例提供一种目标跟踪网络的训练装置，包括：

训练模块210，用于利用所述目标跟踪网络中的孪生网络的第一分支对模板图像提取特征得到第一特征图，并利用所述孪生网络的第二分支对样本图像提取特征得到第二特征图；其中，所述模板图像为包含了所述样本图像中要跟踪的目标的图像；

第三确定模块220，用于利用所述目标跟踪网络中的分类网络确定所述第一特征图和所述第二特征图之间的相似度；

第一损失模块230，用于基于所述第一特征图和所述第二特征图之间的相似度，确定第一损失值；

调整模块240，用于根据所述第一损失值调整所述目标跟踪网络的网络参数。在一些实施例中，训练模块210、第三确定模块220、第一损失模块230及调整模块240可为程序模块。

在另一些实施例中，训练模块210、第三确定模块220、第一损失模块230及调整模块240可为软硬结合模块；所述软硬结合模块包括但不限于各种可编程阵列；所述可编程阵列包括但不限于：复杂可编程阵列或者现场可编程阵列。

在还有一些实施例中，训练模块210、第三确定模块220、第一损失模块230及调整模块240可为纯硬件模块；所述纯硬件模块包括但不限于专用集成电路。

第三确定模块220，具体用于利用所述目标跟踪网络中的分类网络确定所述目标的第一特征图和所述第二特征图之间的相似度，得到第一相似度的确定结果；利用所述目标跟踪网络中的分类网络确定所述背景的第一特征图和所述第二特征图之间的相似度，得到第二相似度的确定结果；

第一损失模块230，具体用于基于所述第一相似度的确定结果和所述第二相似度的确定结果，确定所述第一损失值。

在一些实施例中，第三确定模块220，具体用于将第一特征图中的特征作为卷积核，对所述样本图像中的候选区域的特征进行卷积，生成各通道的相似度；其中，所述样本图像中的候选区域的特征根据所述样本图像中的候选区域和所述第二特征图确定；将所述各通道的相似度在通道维度上通过相加进行合并；

第一损失模块230，具体用于根据合并后的相似度，确定第一损失值。在一些实施例中第三确定模块220，具体用于根据所述第一特征图和所述样本图像中的候选区域的特征构成的特征图的内积，确定在通道维度上合并后的相似度；

第一损失模块230，具体用于根据通道维度上合并后的相似度，确定第一损失值。在一些实施例中，本申请实施例提供的目标跟踪网络的训练装置还包括预测模块，用于利用所述目标跟踪网络中的分类网络根据所述第一特征图和所述第二特征图，对所述样本图像的各像素进行分类预测得到分类预测结果；第二损失模块，用于基于所述分类预测结果和所述样本图像的各像素的分类标注结果之间的差异，得到第二损失值；调整模块240，具体用于结合所述第一损失值和所述第二损失值，调整所述目标跟踪网络的网络参数。

在一些实施例中，本申请实施例提供的目标跟踪网络的训练装置还包括：第四确定模块，用于利用所述目标跟踪网络中的回归网络根据所述第一特征图和所述第二特征图，确定所述样本图像中的目标的边界框；第三损失模块，用于基于确定的边界框和所述样本图像中的目标的标注的边界框之间的差异，得到第三损失值；调整模块240，用于基于所述第一损失值和所述第三损失值，调整所述目标跟踪网络的网络参数。

本实施例提供一种目标跟踪装置，所述装置包括：

第二跟踪模块，用于利用上述任一实施例提供的训练的目标跟踪网络对输入图像进行目标跟踪。

在一些实施例中所述装置还包括：

第二更新模块，用于在进行目标跟踪的过程中，利用上述任一实施例提供的方法更新所述目标跟踪网络进行目标跟踪时的模板图像。

以下结合上述任意实施例提供几个具体示例：

示例1：

目标追踪是计算机视觉中的任务之一，有着广泛的应用，例如，视频内容理解、视频监控分析、增强现实、人机交互、自动驾驶等。

目标追踪的具体内容包括：给定目标在视频第一帧中出现位置的边界框，需要在后续视频帧中对该目标的位置进行定位。实际应用中需要目标追踪的速度足够快，令后续任务(例如图像分类)有足够的时间进行；同时需要保证对目标的定位足够准确和稳定，否则会对后续任务产生影响。

例如，利用孪生全卷积网络(SiamFC)与孪生区域提议网络(SiamRPN)在速度上可以做到实时(>2FPS)，但由于模型的判别能力不足，在追踪过程中容易受到画面中干扰物的影响，出现对目标的错误定位。并且，以SiamFC与SiamRPN为代表的孪生网络在追踪过程中仅使用第一帧的模板图像产生模板特征，后续不会对模板特征的参数进行更新，因此模型无法很好地适应目标的外观状态变化。FPS为每秒传输帧数。

利用大间隔损失函数提升模型判别能力，提高模型对前背景的区分的准确性，可以缓解干扰物对目标定位的影响，以减少在追踪过程中的失败。

利用自适应的在线更新方法，对孪生网络的模板特征参数进行更新，使模型适应目标外观状态的变化，增加模型的鲁棒性。

此算法分为两个阶段：训练阶段和测试阶段，测试阶段又分为预测步骤与更新步骤。

训练阶段可包括：

搜索区域图像(对应于前述输入图像)与模板图像经过主干网络的分类分支后进行相关操作，产生相似度特征图，对该相似度特征图使用大间隔损失函数计算损失，此处的损失为前述第一损失值。

同时该相似度特征图经过区域建议网络的分类分支后计算分类损失。此处的分类损失为前述第二损失值。

搜索区域图像与模板图像经过回归分支产生的相似度特征图只经过区域建议网络的回归分支，计算回归损失。此处的回归损失为前述的第三损失值。

通过以上三个损失值进行反向传播进行模型的参数更新。

本示例利用卷积/相关操作与大间隔损失函数进行结合，学习更具有判别性的图像特征。

预测步骤，可包括：

模板图像通过主干网络产生模板的分类特征与回归特征，在之后输入网络的每一帧经过主干网络提取分类特征与回归特征，使用模板的分类特征与候选区域的分类特征计算目标所在的锚点框；使用模板的回归特征与当前帧的回归特征计算目标的坐标。

更新步骤可包括：

预测的目标坐标或位置，使用当前帧的分类特征估计出目标的特征；通分类分支预测的置信度(对应于前述目标置信度)，用估计出的目标特征对模板特征进行更新。

使用预测的目标坐标估计当前帧的目标特征，以及使用预测的置信度控制更新的幅度。

此算法分为两个阶段：训练阶段和测试阶段。训练阶段在预先准备的数据集上进行训练，训练完成后固定所有网络参数。测试阶段使用待预测的视频，分为预测步骤与更新步骤。

一.训练阶段，可包括：

模板特征提取，输入：t＝0时刻初始帧图像，目标在初始帧的边界框坐标，输出：模板特征；

给定图像与目标位置的边界框，裁剪出以目标为中心，并包含目标区域的上下文的图像作为模板图像，输入特征提取网络进行前馈，产生模板特征。

选区域特征提取，可包括：

输入：t时刻(t>0)候选区域图像，t-1时刻预测的目标边界框坐标；

输出：t时刻(t>0)候选区域特征；

以t-1时刻预测的目标为中心，外扩一定尺寸作为t时刻的候选区域，将候选区域的图像输入特征提取网络进行前馈，产生候选区域特征。

计算分类损失可包括：

输入：模板特征，候选区域特征(对应于前述输入图像的特征图中的特征)，目标边界框坐标；

输出：分类损失。

通过当前目标边界框坐标计算出每个锚点框(Anchor Box)的分类标签；以模板特征为卷积核，对候选区域特征进行卷积，产生相关特征图；接着通过该相关特征图经过通道维度求和，软最大(Softmax)回归出特征图上每个点对应的原图上包含目标的概率，通过大间隔的损失函数计算二分类的损失(该步骤不可替换)；相关特征图输入区域建议网络，产生每个锚点框包含目标的概率，并计算分类损失；二者进行加权和作为总的分类损失。

计算回归损失，可包括：

输入：模板特征(即模板图像的嵌入特征)，候选区域特征(即输入图像的嵌入特征)，目标边界框坐标；

输出：回归损失。

通过当前目标边界框坐标计算出每个锚点框(Anchor Box)的对应目标坐标的误差作为回归目标；

以模板特征为卷积核，对候选区域特征进行卷积，产生相关特征图；相关特征图输入区域建议网络，预测每个锚点框对应的修正量，与回归目标计算回归损失。

反向传播优化，可包括：输入：网络参数，回归损失，分类损失；输出：更新后的网络参数。

对损失进行加权求和，进行反向传播后对网络参数更新。

模型初始化：

输入：t＝0时刻初始帧图像，目标在初始帧的边界框坐标；

输出：模板特征。

给定图像与目标位置的边界框，裁剪出以目标为中心，并包含目标区域的上下文的图像作为模板图像，输入特征提取网络进行前馈，产生t＝0时刻的模板特征；

候选区域特征提取，可包括：

输出：t时刻(t>0)候选区域特征；

以t-1时刻预测的目标为中心，外扩一定尺寸在t时刻视频帧上裁剪出候选区域图像，将候选区域图像输入特征提取网络进行前馈，产生候选区域特征。

目标位置计算，可包括：

输入：t-1时刻(t>0)的模板特征，t时刻候选区域特征；

输出：t时刻目标所在位置的锚点框；

以模板特征为卷积核，对候选区域特征进行卷积，产生相关特征图，经过区域建议网络产生每个锚点框包含目标的置信度(概率)，得到目标最可能所在的锚点框位置。

目标坐标回归，可包括：

输入：t-1时刻(t>0)模板特征，t时刻候选区域特征，t时刻目标所在位置的锚点框；

输出：t时刻目标所在位置的边界框坐标。

以模板特征为卷积核，对候选区域特征进行卷积，产生相关特征图，经过区域建议网络产生每个锚点框的偏差量，对3中确定的锚点框进行坐标偏差的修正，回归出目标的准确边界框坐标。

模板参数更新，可包括：

输入：t-1时刻(t>0)模板特征，t时刻候选区域特征，t时刻目标所在位置的边界框，t时刻目标所在锚点框的置信度；

输出：更新后的t时刻模板特征；

通过估计出的目标坐标，从候选区域特征中估计出t时刻的目标特征，实施方法可以是从候选区域特征中直接裁剪，也可以是感兴趣池化(ROI-Pooling)或感兴趣区域对齐(ROI-Align)的方式产生。产生的最可能所在位置的锚点框置信度作为输入，通过一个估计更新步长的函数(可替换，最简单的函数为步长＝置信度)产生自适应的更新步长β，将目标特征以步长β对t-1时刻模板特征进行更新,接着通过固定的系数将更新后的t-1时刻模板特征与t＝0时刻的模板特征加权产生t时刻的模板特征。

例如在驾驶员监控系统(Driver monitoring System，DMS)里，可以应用于危险动作追踪、手势追踪等任务中。在危险动作追踪里，以检测到的危险动作帧为模板，在后续的视频帧中对该危险动作进行追踪；在手势追踪里，以检测到手的图像帧为模板，对后续帧中的手进行追踪。传统的追踪方法在危险动作追踪中，容易产生误报，不能准确区分出正常动作与危险动作(喝水、打电话、抽烟)，通过本发明的方法能够提高模型的判别能力，可以减少由动作状态分类错误产生的丢失目标、误报目标的情形。

如图8所示，本申请实施例提供了一种电子设备，包括：

存储器，用于存储信息；

处理器，分别与显示器及所述存储器连接，用于通过执行存储在所述存储器上的计算机可执行指令，能够实现前述一个或多个技术方案提供的模板更新方法、目标跟踪网络的训练方法以及目标跟踪方法之中的一种或者多种方法的结合。

该存储器可为各种类型的存储器，可为随机存储器、只读存储器、闪存等。所述存储器可用于信息存储，例如，存储计算机可执行指令等。所述计算机可执行指令可为各种程序指令，例如，目标程序指令和/或源程序指令等。

所述处理器可为各种类型的处理器，例如，中央处理器、微处理器、数字信号处理器、可编程阵列、数字信号处理器、专用集成电路或图像处理器等。

所述处理器可以通过总线与所述存储器连接。所述总线可为集成电路总线等。

在一些实施例中，所述终端设备还可包括：通信接口，该通信接口可包括：网络接口、例如，局域网接口、收发天线等。所述通信接口同样与所述处理器连接，能够用于信息收发。

在一些实施例中，所述终端设备还包括人机交互接口，例如，所述人机交互接口可包括各种输入输出设备，例如，键盘、触摸屏等。

在一些实施例中，所述电子设备还包括：显示器，该显示器可以第一对象的旋转过程和/或旋转效果。

本申请实施例提供了一种计算机存储介质，所述计算机存储介质存储有计算机可执行代码；所述计算机可执行代码被执行后，能够实现前述一个或多个技术方案提供的模板更新方法、目标跟踪网络的训练方法以及目标跟踪方法之中的一种或者多种方法的结合。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理模块中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本申请任意实施例公开的技术特征，在不冲突的情况下，可以任意组合形成新的方法实施例或设备实施例。

本申请任意实施例公开的方法实施例，在不冲突的情况下，可以任意组合形成新的方法实施例。

本申请任意实施例公开的设备实施例，在不冲突的情况下，可以任意组合形成新的设备实施例。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种模板图像的更新方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述第t+1帧图像的特征图及所述分类置信度，更新所述第t个模板图像得到所述第t+1个模板图像，包括：

根据所述分类置信度，确定更新步长；

4.一种目标跟踪方法，其特征在于，所述方法包括：

基于权利要求1至3任一项提供的方法更新的模板图像；

根据更新后的模板图像对输入图像进行目标跟踪。

5.一种模板图像的更新装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

7.根据权利要求6所述的装置，其特征在于，所述第一更新模块，具体用于根据所述分类置信度，确定更新步长；基于所述更新步长，确定所述第t个模板图像的特征图的更新特征；结合第一个模板图像的特征图和所述更新特征，得到所述第t+目标跟踪网络的训练装置1个模板图像；其中，所述第一个模板图像是：根据第一帧图像中的所述目标的边界框对所述第一帧图像进行裁剪得到的包含所述目标的图像。

8.一种目标跟踪装置，其特征在于，所述装置包括：

第二更新模块，用于基于权利要求1至3任一项提供的方法更新模板图像；

9.一种电子设备，其特征在于，包括：

存储器；

处理器，与所述存储器连接，用于通过执行存储在所述存储器上的计算机可执行指令，能够实现权利要求1至3或4任一项提供的方法。

10.一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令；所述计算机可执行指令，被处理器执行后，能够实现权利要求1至3或4任一项提供的方法。