CN111428539A

CN111428539A - 目标跟踪方法及装置

Info

Publication number: CN111428539A
Application number: CN201910020725.XA
Authority: CN
Inventors: 张顺丰; 陈志超; 毛河; 周彬
Original assignee: Chengdu Topplusvision Science & Technology Co ltd
Current assignee: Chengdu Topplusvision Science & Technology Co ltd
Priority date: 2019-01-09
Filing date: 2019-01-09
Publication date: 2020-07-17

Abstract

本申请提供的目标跟踪方法及装置，通过选取待跟踪图像中的一帧图像作为模板帧，其中模板帧中包含跟踪目标。通过基于特征金字塔网络的孪生神经网络提取模板帧中跟踪目标的第一特征和待跟踪图像中其他图像的第二特征。通过区域推荐网络的分类分支识别出待跟踪图像中的背景图片，通过区域推荐网络中的回归分支确定跟踪目标在该待跟踪图像的跟踪目标的精确位置。本申请中的孪生网络作为特征提取网络，获取融合底层和高层特征的特征图，保证了获取的特征图既有底层特征的准确性和又有高层特征的鲁棒性。通过区域推荐网络的分类分支获得跟踪目标大致位置，通过回归分支确定所述跟踪目标的精确位置，进而获得更加精确的目标位置。

Description

目标跟踪方法及装置

技术领域

本申请涉及图像识别领域，具体而言，涉及一种目标跟踪方法及装置。

背景技术

图像跟踪一直都是计算机视觉领域的难题，事先知道第一帧中的目标位置，然后需要在后续帧中找到目标。由于先验知识少、目标被遮挡、目标消失、运动模糊、目标和环境的剧烈变化、目标的高速运动或者相机的抖动都会对目标跟踪造成影响，因此图像跟踪一直都是计算机视觉领域的难题。传统的方法是使用模板图在待识别图中进行对比，输出的响应图，相当于每个位置和模板帧的相似度。但这种方法通过多尺度测试来预测尺度的变化，这里会降低识别速度，输出的响应图的分辨率比较低，输出预测的位置精度差。

发明内容

为了克服现有技术中的上述不足，本申请的目的在于提供一种目标跟踪方法，应用于图像处理设备，所述图像处理设备预设有神经网络模型，所述神经网络模型包括孪生神经网络和区域推荐网络，所述孪生神经网络包括特征金字塔网络，所述方法包括：

获取待跟踪视频，并将所述跟踪视频中标记有跟踪目标的一帧图像作为模板图像；

通过所述特征金字塔网络学习所述模板图像获得模板特征图像；

将所述待跟踪视频作为检测图像；依次选取所述检测图像中的一张图像作为目标检测图像；

针对每个所述目标检测图像，通过所述金字塔网络学习该目标检测图像获得检测特征图像；

通过所述区域推荐网络学习所述模板特征图像和检测特征图像获得所述检测图像中所述跟踪目标的分类概率和所述跟踪目标的位置信息，根据所述分类概率和位置信息在所述目标检测图像中标记出跟踪目标。

可选地，所述区域推荐网络包括分类网络、回归网络和全连接层；所述通过所述区域推荐网络学习所述模板特征图像和检测特征图像获得所述检测图像中所述跟踪目标的分类概率和所述跟踪目标的位置信息，根据所述分类概率和位置信息在所述目标检测图像中标记出跟踪目标的步骤包括：

通过所述分类网络学习所述模板特征图像和检测特征图像获得所述跟踪目标分类概率，进而确定所述跟踪目标的大致位置；

通过所述回归网络学习所述模板特征图像和检测特征图像获得所述跟踪目标的多个标记框以及所述标记框的置信度，所述置信度表示所述标记框标记的目标为所述跟踪目标的概率；

根据所述跟踪目标的大致位置和所述多个标记框的置信度确定所述跟踪目标在所述检测图像中的精确位置。

可选地，所述分类网络包括第一特征提取分支、第一搜索分支和全连接层，所述第一特征提取分支包括第一特征层；通过所述分类网络学习所述模板特征图像和检测特征图像获得所述跟踪目标分类概率，进而确定所述跟踪目标的大致位置的步骤包括：

通过所述第一特征层学习所述模板特征图像获得预设数量的第一索引特征图像；

将所述第一索引特征图像作为滤波器，通过所述第一搜索分支根据所述滤波器在所述检测特征图像中进行搜索进而获得所述第一跟踪特征；

通过所述全连接层学习所述第一跟踪特征，分辨出所述目标检测图像前景和背景，进而获得所述跟踪目标的大致位置。

可选地，所述回归网络包括第二特征提取分支、第二搜索分支和全连接层，所述第二特征提取分支包括第二特征层，所述通过所述回归网络学习所述模板特征图像和检测特征图像获得所述跟踪目标的多个标记框以及所述标记框的置信度的步骤包括：

通过所述第二特征层学习所述模板特征图像获得预设数量的第二索引特征图像；

将所述第二索引特征图像作为滤波器，通过所述第二搜索分支根据所述滤波器在所述检测特征图像中进行搜索进而获得所述第二跟踪特征；

通过所述全连接层学习所述第二跟踪特征，获得所述跟踪目标的多个标记框以及所述标记框的置信度。

可选地，所述根据所述跟踪目标的大致位置和所述多个标记框的置信度确定所述跟踪目标在所述检测图像中的精确位置的步骤包括：

根据所述标记框的置信度，通过非极大值抑制算法确定所述跟踪目标在所述目标检测图像中的精确位置。

本申请的另目的在于提供一种目标跟踪装置，应用于图像处理设备，所述图像处理设备预设有神经网络模型，所述神经网络模型包括孪生神经网络和区域推荐网络，所述孪生神经网络包括特征金字塔网络；所述图像处理设备包括模板图像获取模块、第一特征模块、检测图像获取模块、第二特征模块和标记模块；

所述模板图像获取模块用于获取待跟踪视频，并将所述跟踪视频中标记有跟踪目标的一帧图像作为模板图像；

所述第一特征模块用于通过所述特征金字塔网络学习所述模板图像获得模板特征图像；

所述检测图像获取模块用于将所述待跟踪视频中所述模板图像之后的图像作为检测图像；根据时间顺序依次选取所述检测图像中的一张图像作为目标检测图像；

所述第二特征模块用于针对每个所述目标检测图像，通过所述金字塔网络学习该目标检测图像获得检测特征图像；

所述标记模块用于通过所述区域推荐网络学习所述模板特征图像和检测特征图像获得所述检测图像中所述跟踪目标的分类概率和所述跟踪目标的位置信息，根据所述分类概率和位置信息在所述目标检测图像中标记出跟踪目标。

可选地，所述区域推荐网络包括分类网络、回归网络和全连接层，所述标记模块通过以下方式对所述跟踪目标进行标记：

可选地，所述分类网络包括第一特征提取分支、第一搜索分支和全连接层，所述第一特征提取分支包括第一特征层；所述标记模块通过以下方式获得所述跟踪目标的大致位置：

可选地，所述回归网络包括第二特征提取分支和第二搜索分支，所述第二特征提取分支包括第二特征层；所述标记模块通过以下方式获得所述跟踪目标的多个标记框以及所述标记框的置信度：

可选地，所述标记模块通过以下方式确定所述跟踪目标在所述目标检测图像中的精确位置：

相对于现有技术而言，本申请具有以下有益效果：

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的图像处理设备的硬件结构图；

图2为本申请实施例提供的目标跟踪方法的步骤流程图；

图3为本申请实施例提供的神经网络模型的结构图；

图4为本申请实施例提供的特征金字塔网络的结构图；

图5为本申请实施例提供的目标跟踪装置的结构图。

图标：100-图像处理设备；130-处理器；110-目标跟踪装置；120-存储器；81-模板图像；82-检测图像；83-孪生神经网络；80-第一网络；89-第二网络；84-模板特征图像；85-检测特征图像；86-区域推荐网络；87-分类分支；88-回归分支；91-第一卷积块；92-第二卷积块；93-第三卷积块；94-第四卷积块；95-第五卷积块；90-上采样层；97-第一卷积层；96-第二卷积层；98-第三卷积层；99-第四卷积层；1101-模板图像获取模块；1102-第一特征模块；1103-检测图像获取模块；1104-第二特征模块；1105-标记模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中，需要说明的是，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

为了解决传统的技术方案中，跟踪图像中的特定目标存在识别速度慢、输出的图像分辨率低以及跟踪精度低等问题。本实施例提供一种目标跟踪方法，应用于图像处理设备100。

请参照图1所示的图像处理设备100的硬件结构图，所述图像处理设备100包括目标跟踪装置110、存储器120和处理器130。其中所述存储器120和处理器130以及各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

所述图像处理设备100可以是，但不限于，智能手机、个人电脑(personalcomputer，PC)、平板电脑、个人数字助理(personal digital assistant，PDA)、移动上网设备(mobile Internet device，MID)或者服务器。所述图像处理设备100的操作系统可以是，但不限于，安卓(Android)系统、IOS(iPhone operating system)系统、Windows phone系统、Windows系统等。

其中，所述存储器120可以是，但不限于，随机存取存储器(Random AccessMemory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(ProgrammableRead-Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read-OnlyMemory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory，EEPROM)等。其中，存储器120用于存储程序，所述处理器130在接收到执行指令后，执行所述程序。

所述处理器130可能是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

请参照图2所示目标跟踪方法的步骤流程图，所述目标跟踪方法应用于图1所示的图像处理设备100，所述图像处理设备100预设有神经网络模型。

请参照图3所示的神经网络模型的结构图，所述神经网络模型包括孪生神经网络83和区域推荐网络86，所述孪生神经网络83包括特征金字塔网络，所述区域推荐网络86包括分类分支87和回归分支88，以下将所述方法的各个步骤进行详细阐述。

步骤S100，获取待跟踪视频，并将所述跟踪视频中标记有跟踪目标的一帧图像作为模板图像81。

可选地，所述图像采集设备通过网络或者本地长效存储介质获取待跟踪视频，并通过图像识别技术识别出该待跟踪视频中存在跟踪目标的一帧图像。所述图像处理设备100将存在跟踪目标的一帧图像作为模板图像81，其中，所述跟踪目标可以是车辆或者行人等能够移动的目标。

步骤S200，通过所述特征金字塔网络学习所述模板图像81获得模板特征图像84。

可选地，所述孪生神经网络83包括第一网络80和第二网络89，所述第一网络80和第二网络89结构相同，权值共享。本实施例中的所述第一网络80和所述第二网络89为特征金字塔网络，所述图像处理设备100通过所述特征金字塔网络将高语义低分辨率的高层特征信息和低语义高分辨率的底层特征信息相融合，因而，所述特征金字塔网络提取的跟踪目标的特征信息既保证的底层特征的准确性又保证了高层特征信息的鲁棒性。本实施例中，所述图像处理设备100通过所述第一网络80学习所述模板图像81获得模板特征图像84。

步骤S300，将所述待跟踪视频作为检测图像82；依次选取所述检测图像82中的一张图像作为目标检测图像。

步骤S400，针对每个所述目标检测图像，通过所述金字塔网络学习该目标检测图像获得检测特征图像85。

可选地，所述图像处理设备100依次选取所述待跟踪视频中的一帧图像作为目标检测图像，并通过所述第二网络89学习所述目标检测图像中的特征，获得检测特征图像85。

例如，在一种可能的示例中，所述特征金字塔网络通过如下方式获得模板特征图像84。请参照图4所示的特征金字塔网络的结构图，所述图像处理设备100依次通过第一卷积块91、第二卷积块92、第三卷积块93、第四卷积块94和第五卷积块95获得第一特征图像、第二特征图像、第三特征图像、第四特征图像和第五特征图像。

所述第一卷积块91包括一个Conv3-48的卷积层和一个Max Pooling的池化层，其中，所述Conv3-48表示卷积核大小为3×3，通道数为48的卷积层，所述Max Pooling表示最大池化处理的池化层；

所述第二卷积块92包括一个Conv3-96的卷积层和一个Max Pooling的池化层，其中，所述Conv3-96表示卷积核大小为3×3，通道数为98的卷积层，所述Max Pooling表示最大池化处理的池化层；

所述第三卷积块93依次包括二个Conv3-192的卷积层和一个MaxPooling的池化层，其中，所述Conv3-48表示卷积核大小为3×3，通道数为48的卷积层，所述Max Pooling表示最大池化处理的池化层。

所述第四卷积块94依次包括二个Conv3-384的卷积层和一个MaxPooling的池化层，其中，所述Conv3-384表示卷积核大小为3×3，通道数为384的卷积层，所述Max Pooling表示最大池化处理的池化层。

所述第五卷积块95依次包括二个Conv3-384的卷积层和一个MaxPooling的池化层，其中，所述Conv3-384表示卷积核大小为3×3，通道数为384的卷积层，所述Max Pooling表示最大池化处理的池化层。

所述图像处理设备100将所述第五特征图像通过上采样层90获得第六特征图像，并且，将第四特征图像通过第一卷积层97进行处理获得第七特征图像；其中，所述第一卷积层97为Conv1*1的卷积层，所述Conv1*1表示所述第一卷积层97的卷积核的大小为1×1。所述图像处理设备100将所述第六特征图像和第七特征图像进行融合获得第八特征图像，其中，所述第六特征图像和第七特征图像的分辨率和通道数相同。

进一步地，所述图像处理设备100将所述第八特征图像通过第三卷积层98进行处理获得第九特征图像，其中，所述第三卷积层98为Conv3*3的卷积层，所述Conv3*3表示所述第四卷积层99的卷积核的大小为3×3。所述图像处理设备100通过第二卷积层96将所述第三特征图像进行处理获得第十特征图像，其中，所述第二卷积层96为Conv1*1的卷积层，所述Conv1*1表示所述第二卷积层96的卷积核的大小为1×1。所述图像处理设备100将所述第九特征图像和所述第十特征图像进行融合获得第十一特征图像，其中，所述第九特征图像和所述第十特征图像的分辨率和通道数相同。

进一步地，所述图像处理设备100将所述第十一特征图像通过第四卷积层99进行处理获得所述样本特征图像，其中，所述第四卷积层99为Conv3*3的卷积层，所述Conv3*3表示所述第四卷积层99的卷积核的大小为3×3。

步骤S500，通过所述区域推荐网络86学习所述模板特征图像84和检测特征图像85获得所述检测图像82中所述跟踪目标的分类概率和所述跟踪目标的位置信息，根据所述分类概率和位置信息在所述目标检测图像中标记出跟踪目标。

可选地，所述区域推荐网络86包括分类网络、回归网络和全连接层。其中，所述分类网络包括第一特征提取分支、第一搜索分支和全连接层。所述图像处理设备100通过所述第一特征层学习所述模板特征图像84获得预设数量的第一索引特征图像，并将将所述第一索引特征图像作为滤波器，通过所述第一搜索分支根据所述滤波器在所述检测特征图像85中进行搜索进而获得所述第一跟踪特征。所述图像处理设备100通过所述全连接层学习所述第一跟踪特征，输出分类概率，进而根据所述分类概率分辨出所述目标检测图像前景和背景，进而获得所述跟踪目标的大致位置。

所述回归网络包括第二特征提取分支、第二搜索分支和全连接层，所述第二特征提取分支包括第二特征层。所述图像处理设备100通过所述第二特征层学习所述模板特征图像84获得预设数量的第二索引特征图像；将所述第二索引特征图像作为滤波器，通过所述第二搜索分支根据所述滤波器在所述检测特征图像85中进行搜索进而获得所述第二跟踪特征；通过所述全连接层学习所述第二跟踪特征，获得所述跟踪目标的多个标记框以及所述标记框的置信度。所述图像处理设备100最后根据非极大值抑制算法确定所述跟踪目标在所述目标检测图中的精确位置。

例如，在一种可能的示例中，根据区域推荐网络86的经验表明，如果有k个锚点，那么所述区域推荐网络86的第一特征提取分支需要输出通道数为2k的特征图作为滤波器，所述第二特征提取分支需要输出通道数为4k的特征图作为滤波器，在本示例中，所述锚点的个数为5。其中，所述k个锚点表示当通过一个滑动窗口在所述模板特征图像上滑动时，所述滑动窗口区域的图像数据对应于所述模板图像k个不同区域原始图像。因此所述图像处理设备100需要通过1×1的卷积核提升所述样本特征图像的通道数。

在本示例中，通过1×1的卷积核提升所述样本特征图像的通道数，所述第一特征提取分支获得通道数为10，维度数为192的第一索引特征图像，所述第二特征提取分支获得通道数为20，维度数为192的第二索引特征图像。所述图像处理设备100将所述第一索引特征图像作为第一滤波器，通过该第一波器在所述检测特征图像85上进行搜索，进而获得第一跟踪特征。所述图像处理设备100通过分类分支87的全连接层学习所述第一跟踪特征，获得所述目标检测图像中目标的分类概率，进而确定出所述目标检测图像的背景。

所述图像处理设备100将所述第二索引特征图像作为第二滤波器，通过该第二滤波器在所述检测特征图像85上进行搜索，进而获得第二跟踪特征。所述图像处理设备100通过分类分支87的全连接层学习所述第二跟踪特征，获得所述目标检测图像中的跟踪目标的精确位置。

所述图像处理设备100还包括对所述神经网路模型的训练过程，获取大量跟踪视频构建训练数据，从同一视频帧中选取模板图像81和检测图像82。其中，在所述检测图像中，需要标记出其中的跟踪目标和背景。所述图像处理设备100识别并标记标本对时，针对IOU(IOU，Intersection overUnion)大于0.6的标记框确定为所述跟踪目标，针对IOU小于0.3的标记框确定为背景。所述图像处理设备100通过ImageNet上预设的神经网络模型参数初始化所述特征金字塔网络的前3个卷积块的参数。其中，所述ImageNet是一个用于视觉对象识别软件研究的大型可视化数据库。

所述图像处理设备100将所述训练数据送入所述神经网络模型，重复进行预设批次的训练，在训练的过程中，调整学习速率。例如，在一种可能的示例中，所述图像处理设备100对所述训练数据进行50个批次的训练，在第0-20批次时，学习速率为0.01；在第21-30批次时学习速率为0.001；在第31-40批次时，学习速率为0.0001；在第41-50批次时，学习速率为0.00001。其中，所述分类分支87的损失函数为交叉熵损失函数L₁，所述回归分支88的损失函数为Smooth L1损失函数L₂，并通过以下方式平衡上诉两个损失函数：

Loss＝L₁+λL₂

其中λ用于平衡两个损失函数。

本实施例的另一目的在于提供一种目标跟踪装置110，请参照图5所示的目标跟踪装置110的结构图，所述目标跟踪装置110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器120中或固化在所述图像处理设备100的操作系统(operating system，OS)中的软件功能模块。所述处理器130用于执行所述存储器120中存储的可执行模块，例如所述目标跟踪装置110所包括的软件功能模块及计算机程序等。

从功能上划分，所述目标跟踪装置110可以包括模板图像获取模块1101、第一特征模块1102、检测图像获取模块1103、第二特征模块1104和标记模块1105。

所述模板图像81获取模块用于获取待跟踪视频，并将所述跟踪视频中标记有跟踪目标的一帧图像作为模板图像81。

在本实施例中，所述模板图像81获取模块用于执行图2中的步骤S100，关于所述模板图像81获取模块的详细描述可以参考步骤S100的详细描述。

所述第一特征模块1102用于通过所述特征金字塔网络学习所述模板图像81获得模板特征图像84。

在本实施例中，所述第一特征模块1102用于执行图2中的步骤S200，关于所述第一特征模块1102的详细描述可以参考步骤S200的详细描述。

所述检测图像获取模块1103用于将所述待跟踪视频中所述模板图像81之后的图像作为检测图像82；根据时间顺序依次选取所述检测图像82中的一张图像作为目标检测图像。

在本实施例中，所述检测图像获取模块1103用于执行图2中的步骤S300，关于所述检测图像获取模块1103的详细描述可以参考步骤S300的详细描述。

所述第二特征模块1104用于针对每个所述目标检测图像，通过所述金字塔网络学习该目标检测图像获得检测特征图像85。

在本实施例中，所述第二特征模块1104用于执行图2中的步骤S400，关于苏搜书第二特征模块1104的详细描述可以参考步骤S400的详细描述。

所述标记模块1105用于通过所述区域推荐网络86学习所述模板特征图像84和检测特征图像85获得所述检测图像82中所述跟踪目标的分类概率和所述跟踪目标的位置信息，根据所述分类概率和位置信息在所述目标检测图像中标记出跟踪目标。

在本实施例中，所述标记模块1105用于执行图2中的步骤S500，关于所述标记模块1105的详细描述可以参考步骤S500的详细描述。

可选地，所述区域推荐网络86包括分类网络、回归网络和全连接层，所述标记模块1105通过以下方式对所述跟踪目标进行标记：

通过所述分类网络学习所述模板特征图像84和检测特征图像85获得所述跟踪目标分类概率，进而确定所述跟踪目标的大致位置；

通过所述回归网络学习所述模板特征图像84和检测特征图像85获得所述跟踪目标的多个标记框以及所述标记框的置信度；

根据所述跟踪目标的大致位置和所述多个标记框的置信度确定所述跟踪目标在所述检测图像82中的精确位置。

可选的，所述分类网络包括第一特征提取分支、第一搜索分支和全连接层，所述第一特征提取分支包括第一特征层；所述标记模块1105通过以下方式获得所述跟踪目标的大致位置：

通过所述第一特征层学习所述模板特征图像84获得预设数量的第一索引特征图像；

将所述第一索引特征图像作为滤波器，通过所述第一搜索分支根据所述滤波器在所述检测特征图像85中进行搜索进而获得所述第一跟踪特征；

可选地，所述回归网络包括第二特征提取分支和第二搜索分支，所述第二特征提取分支包括第二特征层；所述标记模块1105通过以下方式获得所述跟踪目标的多个标记框以及所述标记框的置信度：

通过所述第二特征层学习所述模板特征图像84获得预设数量的第二索引特征图像；

将所述第二索引特征图像作为滤波器，通过所述第二搜索分支根据所述滤波器在所述检测特征图像85中进行搜索进而获得所述第二跟踪特征；

可选地，所述标记模块1105通过以下方式确定所述跟踪目标在所述目标检测图像中的精确位置：

综上所述，本申请提供的目标跟踪方法及装置，通过选取待跟踪图像中的一帧图像作为模板帧，其中模板帧中包含跟踪目标。通过基于特征金字塔网络的孪生神经网络83提取模板帧中跟踪目标的第一特征和待跟踪图像中其他图像的第二特征。通过区域推荐网络86的分类分支87识别出待跟踪图像中的背景图片，通过区域推荐网络86中的回归分支88确定跟踪目标在该待跟踪图像的跟踪目标的精确位置。本申请中的孪生网络作为特征提取网络，获取融合底层和高层特征的特征图，保证了获取的特征图既有底层特征的准确性和又有高层特征的鲁棒性。通过区域推荐网络86的分类分支87获得跟踪目标大致位置，通过回归分支88确定所述跟踪目标的精确位置，进而获得更加精确的目标位置。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述，仅为本申请的各种实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种目标跟踪方法，其特征在于，应用于图像处理设备，所述图像处理设备预设有神经网络模型，所述神经网络模型包括孪生神经网络和区域推荐网络，所述孪生神经网络包括特征金字塔网络，所述方法包括：

2.根据权利要求1所述的目标跟踪方法，其特征在于，所述区域推荐网络包括分类网络和回归网络；所述通过所述区域推荐网络学习所述模板特征图像和检测特征图像获得所述检测图像中所述跟踪目标的分类概率和所述跟踪目标的位置信息，根据所述分类概率和位置信息在所述目标检测图像中标记出跟踪目标的步骤包括：

3.根据权利要求2所述的目标跟踪方法，其特征在于，所述分类网络包括第一特征提取分支、第一搜索分支和全连接层，所述第一特征提取分支包括第一特征层；通过所述分类网络学习所述模板特征图像和检测特征图像获得所述跟踪目标分类概率，进而确定所述跟踪目标的大致位置的步骤包括：

将所述第一索引特征图像作为滤波器，通过所述第一搜索分支根据所述滤波器在所述检测特征图像中进行搜索进而获得第一跟踪特征；

4.根据权利要求2所述的目标跟踪方法，其特征在于，所述回归网络包括第二特征提取分支、第二搜索分支和全连接层，所述第二特征提取分支包括第二特征层，所述通过所述回归网络学习所述模板特征图像和检测特征图像获得所述跟踪目标的多个标记框以及所述标记框的置信度的步骤包括：

将所述第二索引特征图像作为滤波器，通过所述第二搜索分支根据所述滤波器在所述检测特征图像中进行搜索进而获得第二跟踪特征；

5.根据权利要求4所述的目标跟踪方法，其特征在于，所述根据所述跟踪目标的大致位置和所述多个标记框的置信度确定所述跟踪目标在所述检测图像中的精确位置的步骤包括：

6.一种目标跟踪装置，其特征在于，应用于图像处理设备，所述图像处理设备预设有神经网络模型，所述神经网络模型包括孪生神经网络和区域推荐网络，所述孪生神经网络包括特征金字塔网络；所述图像处理设备包括模板图像获取模块、第一特征模块、检测图像获取模块、第二特征模块和标记模块；

7.根据权利要求6所述的目标跟踪装置，其特征在于，所述区域推荐网络包括分类网络、回归网络和全连接层，所述标记模块通过以下方式对所述跟踪目标进行标记：

8.根据权利要求7所述的目标跟踪装置，其特征在于，所述分类网络包括第一特征提取分支、第一搜索分支和全连接层，所述第一特征提取分支包括第一特征层；所述标记模块通过以下方式获得所述跟踪目标的大致位置：

9.根据权利要求7所述的目标跟踪装置，其特征在于，所述回归网络包括第二特征提取分支和第二搜索分支，所述第二特征提取分支包括第二特征层；所述标记模块通过以下方式获得所述跟踪目标的多个标记框以及所述标记框的置信度：

10.根据权利要求9所述的目标跟踪装置，其特征在于，所述标记模块通过以下方式确定所述跟踪目标在所述目标检测图像中的精确位置：