CN116309710A

CN116309710A - 目标追踪方法和电子设备

Info

Publication number: CN116309710A
Application number: CN202310212380.4A
Authority: CN
Inventors: 杨晨; 王永华; 陈国乔; 张作超
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2023-02-27
Filing date: 2023-02-27
Publication date: 2023-06-23

Abstract

本申请实施例提供了一种目标追踪方法和电子设备，应用于电子技术领域。该方法包括：显示第一拍摄界面，第一拍摄界面的第一区域用于显示摄像头拍摄的视频流；当第一区域显示视频流的第n帧图像时，接收用户对第n帧图像输入的第一操作；响应于第一操作，对第n帧图像进行特征提取，得到模板特征，第n帧图像中包含目标；根据模板特征，通过第一网络确定视频流的第n+x帧图像中是否包含目标；若通过第一网络确定第n+x帧图像中不包含目标，则根据模板特征，通过第二网络确定第n+x帧图像中是否包含目标，其中，第一网络和第二网络满足第一预设条件中至少一个。该方法能够提高追踪精度。

Description

目标追踪方法和电子设备

技术领域

本申请涉及电子技术领域，具体涉及一种目标追踪方法和电子设备。

背景技术

目标追踪(visual object tracking)，也称为目标跟踪，是指在视频流中的各帧图像中定位某一目标。目前，目标追踪被应用于各个领域和场景，例如，自动驾驶、体育赛事转播、安防监控、无人机追踪拍摄，以及手机等电子设备的拍照和录像场景等。

相关技术中的目标追踪方法，在对目标进行追踪时，若目标出现形变、运动、局部遮挡等情况，对目标的追踪容易丢失。

发明内容

本申请提供了一种目标追踪方法和电子设备，对于困难场景的目标搜索能够提高追踪精度，减小目标追踪丢失的可能性。

第一方面，本申请提供一种目标追踪方法，该方法由电子设备执行，该方法包括：

显示第一拍摄界面，第一拍摄界面的第一区域用于显示摄像头拍摄的视频流；当第一区域显示视频流的第n帧图像时，接收用户对第n帧图像输入的第一操作，n为正整数；响应于第一操作，对第n帧图像进行特征提取，得到模板特征，第n帧图像中包含目标；根据模板特征，通过第一网络确定视频流的第n+x帧图像中是否包含目标，x为正整数；若通过第一网络确定第n+x帧图像中不包含目标，则根据模板特征，通过第二网络确定第n+x帧图像中是否包含目标，其中，第一网络和第二网络满足第一预设条件中至少一个；第一预设条件包括：第二网络的网络深度大于第一网络的网络深度、第二网络的网络宽度大于第一网络的网络宽度、第二网络的输入图像的分辨率大于第一网络的输入图像的分辨率。

可选的，第一拍摄界面可以为拍摄预览界面，例如拍照预览界面或录像预览界面。第一拍摄界面也可以为实际拍摄视频的界面，例如录像界面。

可选的，第一操作可以为预先设置的用于输入追踪指令，或者输入追踪并聚焦(可称为追焦)指令等的操作。第一操作例如可以为点击操作。

第一网络、第二网络用于根据模板特征，对视频流中的图像进行处理，以确定图像中是否包含目标。可选的，第一网络、第二网络可以为搜索网络，或称为追踪网络等。第一网络和第二网络满足第一预设条件中的至少一个，也即，第二网络的网络深度、网络宽度和输入图像的分辨率中的至少一者大于第一网络。其中，第二网络的网络深度和/或网络宽度大于第一网络，则第二网络对于目标的搜索深度大于第一网络。换句话说，第一网络相较于第二网络，为浅层搜索网络，和/或，第一网络为低分辨率的追踪网络。

本申请实施例第一方面提供的目标追踪方法，在用户对包括目标的第n帧图像输入第一操作后，对第n帧图像进行特征提取，得到模板特征。之后，对于第n帧之后的第n+x帧图像，基于模板特征，通过第一网络和第二网络对目标进行目标搜索。其中，第二网络的网络深度、网络宽度和输入图像的分辨率中的至少一者大于第一网络。如此，在目标追踪过程中，首先通过第一网络确定第n+x帧图像中是否包含目标，在通过第一网络确定第n+x帧中不包含目标的情况下，再通过第二网络对图像确定第n+x帧图像中是否包含目标，也即，通过第二网络进一步加大目标搜索的深度或者增大输入图像的分辨率，或者同时从搜索深度和输入图像的分辨率中的多种维度上进行提升，以提高搜索准确度。这样，对于困难场景的目标追踪能够提高追踪精度，减小目标追踪丢失的可能性。同时，目标跟踪过程中，根据第一网络的搜索结果确定是否通过第二网络加深搜索深度，或者加大输入图像分辨率，相较于只通过第二网络进行追踪，该方法能够防止在非困难场景下进行非必要的深层搜索，或高分辨率搜索，以减小算法运行复杂度，提高目标追踪的实时性，且能够降低设备功耗。总而言之，本申请实施例提供的方法能够自适应地选择第一网络和第二网络，从而实现追踪精度与功耗、实时性的平衡。

结合第一方面，在第一方面的有些实现方式中，该方法还包括：若通过第二网络确定第n+x帧图像中不包含目标，则根据模板特征，通过第三网络确定第n+x帧图像是否包含目标，其中，第二网络和第三网络满足第二预设条件中至少一个；第二预设条件包括：第三网络的网络深度大于第二网络的网络深度、第三网络的网络宽度大于第二网络的网络宽度、第三网络的输入图像的分辨率大于第二网络的输入图像的分辨率。

该实现方式中，除了第一网络和第二网络外，该方法还通过第三网络，进一步对目标进行深层搜索和/或高分辨率搜索。第一网络、第二网络和第三网络在网络深度、网络宽度、输入图像的分辨率三个维度中的一个或多个维度上呈递进关系。这样，在目标追踪过程中，在通过第二网络确定第n+x真土向中不包括目标的情况下，进一步通过第三网络确定是否包括目标，以进一步加深目标搜索的深度，和/或加大输入图像的分辨率，从而进一步提高目标搜索准确度。对于困难场景的目标追踪能够进一步提高追踪精度，减小目标追踪丢失的可能性。

一种可能的实现方式中，第二网络的网络深度和网络宽度中的至少一者大于第一网络，且，第三网络的网络深度和网络宽度中的至少一者大于第一网络，且，第三网络的输入图像的分辨率分别大于第一网络和第二网络。

也就是说，比较而言，第一网络为低分辨率的浅层搜索网络，第二网络为低分辨率的深层搜索网络，第三网络为高分辨率的深层搜索网络。这样，第一网络、第二网络和第三网络在搜索深度和分辨率上的递进关系更匀称，进一步提高目标追踪精度与功耗、实时性的平衡性。

一种可能的实现方式中，根据模板特征，通过第一网络确定视频流的第n+x帧图像中是否包含目标，包括：从第n+x帧图像中选取第一追踪区域；根据模板特征，通过第一网络对第一追踪区域进行搜索，输出第一位置和第一位置对应的第一置信度；若第一置信度大于第一置信度阈值，则通过第一网络确定第n+x帧图像中包含目标；若第一置信度小于或等于第一置信度阈值，则通过第一网络确定第n+x帧图像中不包含目标。

该实现方式中，从第n+x帧图像中选取第一追踪区域，通过第一网络在对第n+x帧图像搜索，以确定第n+x帧图像中是否包含目标。也就是说，第一网络对第n+x帧图像进行局部搜索，以确定第n+x帧图像中是否包含目标。目标追踪的过程中，多数情况为非困难场景，因此，该实现方式，在对第n+x图像进行第一次搜索时，先进行局部搜索，能够减小算法运行复杂度，提高算法运行效率，减小设备功耗，提高目标追踪的实时性。

一种可能的实现方式中，从第n+x帧图像中选取第一追踪区域，包括：根据目标在视频流的第n+x-1帧图像中的位置，选取第n+x帧图像中的部分区域，得到第一追踪区域。

也就是说，根据目标在上一帧图像中的位置，从第n+x帧图像中选取第一追踪区域。目标移动的过程中时逐渐移动的，因而，根据目标在上一帧图像中的位置，从第n+x帧图像中选取第一追踪区域，进而进行目标搜索，能够提高目标搜索的成功率，进而提高目标追踪的成功率。

一种可能的实现方式中，该方法还包括：若通过第一网络确定第n+x帧图像中包含目标，则输出第一位置，第一位置表征目标在第n+x帧图像中的位置。

也即，在通过第一网络对第n+x帧图像进行目标搜索时，搜索成功，则输出第一位置，该第一位置即为目标在第n+x帧图像中的位置。该步骤之后，可以令x＝x+1，返回执行步骤“根据模板特征，通过第一网络确定视频流的第n+x帧图像中是否包含目标”以实现对下一帧图像的目标追踪。

一种可能的实现方式中，根据模板特征，通过第二网络确定第n+x帧图像中是否包含目标，包括：根据模板特征，通过第二网络对第一追踪区域进行搜索，输出第二位置和第二位置对应的第二置信度；若第二置信度大于第二置信度阈值，则通过第二网络确定第n+x帧图像中包含目标；若第二置信度小于或等于第二置信度阈值，则通过第二网络确定第n+x帧图像中不包含目标。

该实现方式中，在通过第二网络进行目标搜索时，对第一追踪区域进行搜索，也即，第二网络对第n+x帧图像进行局部搜索，这样，第二网络对目标搜索时，仅加深搜索深度，不扩大搜索范围，这样，防止过度搜索，减小算法运行复杂度，提高目标追踪的实时性，且能够降低设备功耗。

一种可能的实现方式中，该方法还包括：若通过第二网络确定第n+x帧图像中包含目标，则输出第二位置，第二位置表征目标在第n+x帧图像中的位置。

也即，在通过第二网络对第n+x帧图像进行目标搜索时，搜索成功，则输出第二位置，该第二位置即为目标在第n+x帧图像中的位置。该步骤之后，可以令x＝x+1，返回执行步骤“根据模板特征，通过第一网络确定视频流的第n+x帧图像中是否包含目标”以实现对下一帧图像的目标追踪。

一种可能的实现方式中，第三网络对第n+x帧图像的搜索范围分别大于第一网络和第二网络对第n+x帧图像的搜索范围。

一种可能的实现方式中，通过第三网络确定第n+x帧图像是否包含目标，包括：对第n+x帧图像进行区域划分，得到多个第二追踪区域；根据模板特征，通过第三网络对多个第二追踪区域分别进行搜索，输出多个第三位置和各个第三位置对应的第三置信度；若多个第三置信度中存在大于第三置信度阈值的第三目标置信度，则通过第三网络确定第n+x帧图像中包含目标；若多个第三置信度中不存在第三目标置信度，则通过第三网络确定第n+x帧图像中不包含目标。

以上两种实现方式中，通过第三网络对目标进行搜索时，不仅加大搜索深度和/或输入图像的分辨率，而且加大搜索范围，这样，进一步提高搜索的准确性，从而提高目标追踪精度，减小目标追踪丢失的可能性。

一种可能的实现方式中，多个第二追踪区域中至少一个第二追踪区域的分辨率大于第一追踪区域的分辨率。

该实现方式中，至少一个第二追踪区域的分辨率大于第一追踪区域的分辨率，这样，使得第三网络对目标的搜索准确率更高，进而提高目标追踪的精确度。

一种可能的实现方式中，该方法还包括：若通过第三网络确定第n+x帧图像中包含目标，则输出第三目标位置，第三目标位置为第三目标置信度对应的第三位置，第三目标位置表征目标在第n+x帧图像中的位置；若通过第三网络确定第n+x帧图像中不包含目标，则停止对目标的追踪。

该实现方式中，若第三网络对目标搜索成功，将搜索得到的位置确定为目标在第n+x帧图像中的位置。在该步骤之后，可以令x＝x+1，返回执行步骤“根据模板特征，通过第一网络确定视频流的第n+x帧图像中是否包含目标”以实现对下一帧图像的目标追踪。

若第三网络对目标搜索失败，则可以停止对该目标的追踪。当然，在一些其他的实施例中，也可以不停止目标追踪，而是令x＝x+1，返回执行步骤“根据模板特征，通过第一网络确定视频流的第n+x帧图像中是否包含目标”以实现对下一帧图像的目标追踪。

一种可能的实现方式中，第一操作为点击操作，响应于第一操作，对第n帧图像进行特征提取，得到模板特征，包括：响应于第一操作，确定第一操作的点击位置；根据点击位置，在第n帧图像中选取目标区域；对目标区域进行特征提取，生成模板特征。

可选的，响应于第一操作，可以以第一操作的点击位置为中心，选取预设范围内的区域，作为目标区域。

该实现方式中，基于点击位置确定目标区域，再基于目标区域进行特征提取，生成模板特征，使生成的模板特征更加准确，从而使追踪的目标更符合用户意图，提高用户体验。

第二方面，本申请提供一种装置，该装置包含在电子设备中，该装置具有实现上述第一方面及上述第一方面的可能实现方式中电子设备行为的功能。功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块或单元。例如，接收模块或单元、处理模块或单元等。

一种可能的实现方式中，该装置包括显示模块、接收模块和追踪模块。显示模块用于显示第一拍摄界面，第一拍摄界面的第一区域用于显示摄像头拍摄的视频流。接收模块用于当第一区域显示视频流的第n帧图像时，接收用户对第n帧图像输入的第一操作，n为正整数。追踪模块用于响应于第一操作，对第n帧图像进行特征提取，得到模板特征，第n帧图像中包含目标；根据模板特征，通过第一网络确定视频流的第n+x帧图像中是否包含目标，x为正整数；若通过第一网络确定第n+x帧图像中不包含目标，则根据模板特征，通过第二网络确定第n+x帧图像中是否包含目标，其中，第一网络和第二网络满足第一预设条件中至少一个；第一预设条件包括：第二网络的网络深度大于第一网络的网络深度、第二网络的网络宽度大于第一网络的网络宽度、第二网络的输入图像的分辨率大于第一网络的输入图像的分辨率。

第三方面，本申请提供一种电子设备，电子设备包括：处理器、存储器和接口；处理器、存储器和接口相互配合，使得电子设备执行第一方面的技术方案中任意一种方法。

第四方面，本申请提供一种芯片，包括处理器。处理器用于读取并执行存储器中存储的计算机程序，以执行第一方面及其任意可能的实现方式中的方法。

可选的，芯片还包括存储器，存储器与处理器通过电路或电线连接。

进一步可选的，芯片还包括通信接口。

第五方面，本申请提供一种计算机可读存储介质，计算机可读存储介质中存储了计算机程序，当计算机程序被处理器执行时，使得该处理器执行第一方面的技术方案中任意一种方法。

第六方面，本申请提供一种计算机程序产品，计算机程序产品包括：计算机程序代码，当计算机程序代码在电子设备上运行时，使得该电子设备执行第一方面的技术方案中任意一种方法。

附图说明

图1是本申请实施例提供的一例目标追踪的界面示意图；

图2是本申请实施例提供的一例电子设备的结构示意图；

图3是本申请实施例提供的一例电子设备的软件和硬件结构框图；

图4是本申请实施例提供的一例拍照预览场景对应的目标追踪的界面变化示意图；

图5是本申请实施例提供的一例录像场景对应的目标追踪的界面变化示意图；

图6是本申请实施例提供的一例目标追踪方法的流程示意图；

图7是本申请实施例提供的一例目标追踪方法的原理示意图；

图8是本申请实施例提供的一例搜索网络的结构及目标追踪过程示意图；

图9是本申请实施例提供的另一例目标追踪方法的流程示意图；

图10是本申请实施例提供的一例无人机目标追踪结果的示意图；

图11是本申请实施例提供的一例数据自动标注结果的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括一个或者更多个该特征。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本申请说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

为更好地理解本申请实施例，以下对实施例中可能涉及的术语或概念进行解释说明。

1、神经网络

神经网络(neural-network，NN)，或称作连接模型(connection model)，简称网络。神经网络是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

神经网络可以包括前馈神经网络、反向传播(back propagation，BP)神经网络、卷积神经网络(convolutional neural networks，CNN)等。

2、网络宽度

网络宽度是指神经网络中通道(channel)的数量，也是滤波器的数量。网络越宽，对目标特征的提取能力越强，即一层网络能学习到更加丰富的特征，比如不同方向、不同频率的纹理特征等。也就是说，网络宽度决定了网络在某一层学到的信息量。

3、网络深度

网络深度是指神经网络中的网络层(layer)的数量，如，残差网络(residualnetwork，resnet)18的网络深度为18，是指该网络有18层网络层。网络深度越大，学习能力越强。以卷积神经网络为例，卷积神经网络的网络层能够对输入图像数据进行逐层抽象学习，比如第一层学习到了图像边缘特征，第二层学习到了简单形状特征，第三层学习到了目标形状的特征。因此，网络深度决定了网络的表达(抽象)能力，网络深度越大(即网络越深)，学习能力越强。

总而言之，在一定的程度上，网络越深、越宽，网络的特征提取能力越好，网络的精确度越高。本申请实施例中，将基于网络深度较深和/或网络宽度较宽的目标搜索过程称为对目标的搜索深度较大，或称为深层搜索。

下面对本申请实施例的技术问题和方法的适用设备进行说明。

目标追踪广泛应用于各个技术领域和应用场景，例如，自动驾驶、体育赛事转播、安防监控、无人机追踪拍摄，以及手机等电子设备的拍照和录像(即拍摄视频)场景等。以手机的拍照和录像场景为例，使用手机拍照或录像预览时，或者使用手机录像的过程中，均可以对目标进行追踪，以便于对该目标进行对焦、调整亮度等预设处理。

示例性的，图1为本申请实施例提供的一例目标追踪的界面示意图。如图1中的(a)图所示，界面中包括一只小狗，可以对这只小狗进行追踪，以对小狗进行对焦。如图1中的(b)图所示，界面中包括一盆绿植，可以对该绿植进行追踪，以对该绿植进行对焦、调整亮度等预设处理。如图1中的(c)图所示，界面中包括车辆，可以对该车辆进行追踪，以对该车辆及周围区域进行对焦、调整亮度等预设处理。

相关技术中，在对目标追踪过程中，若目标出现变形、运动、局部遮挡等场景(以下称为困难场景)，容易出现目标追踪丢失的情况。

本申请实施例提供的目标追踪方法，基于局部低分辨率的浅层搜索网络(以下简称局部浅层网络，也称为第一网络)、局部低分辨率的深层搜索网络(以下简称局部深层网络，也称为第二网络)和全局高分辨率的深层搜索网络(以下简称全局深层网络，也称为第三网络模型)对目标进行搜索。三种网络在网络深度或宽度、输入图像的分辨率，以及搜索范围上呈递进关系。这样，在目标追踪过程中，首先通过局部浅层网络对图像的局部进行低分辨率的浅层搜索，在搜索失败的情况下，再通过局部深层网络对图像的局部进行低分辨率的深层搜索，即加深目标搜索的深度，以提高搜索准确度。局部深层网络仍搜索失败，再通过全局深层网络对图像的全局进行高分辨率的深层搜索，即进一步增大输入图像的分辨率，并扩大搜索范围，以进一步提高搜索准确度。如此，该方法对于困难场景的目标追踪能够提高追踪精度，减小目标追踪丢失的可能性。同时，搜索过程中，根据搜索结果逐步加深搜索深度或者扩大搜索范围，防止在非困难场景下进行非必要的深层搜索，或高分辨率搜索，或全局搜索，以减小算法运行复杂度，提高目标追踪的实时性，且能够降低设备功耗。

本申请实施例提供的目标追踪方法可以应用于手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)、无人机等可以拍摄视频的电子设备上，本申请实施例对电子设备的具体类型不作任何限制。

示例性的，图2是本申请实施例提供的一例电子设备100的结构示意图。电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universalserial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。

其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为电子设备供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，外部存储器，显示屏194，摄像头193，和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。图2中的天线1和天线2的结构仅为一种示例。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(codedivision multiple access，CDMA)，宽带码分多址(wideband code division multipleaccess，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidounavigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellitesystem，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

电子设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本申请实施例以分层架构的Android系统为例，示例性说明电子设备100的软件结构。

如图3所示，采用分层架构的软件系统分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，软件系统可以分为五层，从上至下分别为应用层210、应用框架层220、硬件抽象层230、驱动层240以及硬件层250。

应用层210可以包括相机、图库应用程序，还可以包括日历、通话、地图、导航、WLAN、蓝牙、音乐、视频、短信息等应用程序。

应用框架层220为应用层210的应用程序提供应用程序访问接口和编程框架。

例如，应用框架层220包括相机访问接口，该相机访问接口用于通过相机管理和相机设备来提供相机的拍摄服务。

应用框架层220中的相机管理用于管理相机。相机管理可以获取相机的参数，例如判断相机的工作状态等。

应用框架层220中的相机设备用于提供不同相机设备以及相机管理之间的数据访问接口。

硬件抽象层230用于将硬件抽象化。比如，硬件抽象层230可以包相机硬件抽象层以及其他硬件设备抽象层；相机硬件抽象层中可以包括相机设备1、相机设备2、追踪设备等。可以理解，相机设备1、相机设备2和追踪设备等可以为通过软件或软件与硬件的结合实现的功能模块。在电子设备开机时，或电子设备运行过程中，会创建对应的进程或启动对应的流程等，以实现相机设备1、相机设备2和追踪设备对应的功能。具体的，追踪设备用于实现目标追踪的功能。

相机硬件抽象层可以与相机算法库相连接，相机硬件抽象层可以调用相机算法库中的算法。本申请实施例中，相机算法库中包括追踪器(即追踪算法)。可选的，追踪器可以通过以下模块实现：区域选取模块、区域划分模块、模板特征提取网络、局部浅层网络、局部深层网络、全局深层网络和逻辑判断模块等。

可以理解，无论是拍照预览、录像预览，还是录像，电子设备100都是在持续获取并显示视频流，视频流中包括多帧图像。因此，本申请实施例中，将视频流中的各张图像称为帧图像，将视频流中的第n张图像称为第n帧图像。

区域选取模块用于在视频流的第n帧图像中确定目标区域，还用于根据目标在第n+x-1帧图像中的位置，选取第n+x帧图像的部分区域，得到第一追踪区域。其中，n和x均为正整数。也就是说，区域选取模块在第n帧图像中确定目标区域，并在第n帧之后的各个帧图像中分别选取第一追踪区域。在某一帧图像中选取第一追踪区域时，根据目标在该帧图像的上一帧(或称为前一帧)图像中的位置进行选取。可选的，第一追踪区域的分辨率大于目标区域的分辨率。

区域划分模块用于对第n+x帧图像进行划分，得到多个第二追踪区域。可选的，第二追踪区域的分辨率大于第一追踪区域的分辨率。

模板特征提取网络用于对目标图像进行特征提取，得到模板特征。

局部浅层网络、局部深层网络、全局深层网络均用于根据模板特征对输入网络的待处理图像(称为输入图像)进行目标搜索，输出目标的位置和位置对应的置信度。可选的，局部浅层网络、局部深层网络、全局深层网络可以为卷积神经网络。

具体的，在目标追踪时，向局部浅层网络和局部深层网络输入的图像为区域选取模块选取的第一追踪区域。即，局部浅层网络和局部深层网络的用于对局部区域进行搜索。向全局深层网络的输入的图像为区域划分模块划分得到的各个第二追踪区域，即，全局深层网络用于对全局区域进行搜索。

第二追踪区域的分辨率可以大于第一追踪区域的分辨率，也即，全局深层网络的输入图像的分辨率高于局部浅层网络和局部深层网络的输入图像的分辨率。可选的，局部深层网络和全局深层网络的网络宽度及网络深度中的至少一个大于局部浅层网络。

逻辑判断模块用于对局部浅层网络、局部深层网络和全局深层网络输出的置信度进行逻辑判断，以确定目标追踪结果。目标追踪结果可以包括追踪成功和追踪失败(即追踪丢失)。

具体的，逻辑判断模块用于对局部浅层网络输出的第一置信度进行判断，若第一置信度大于第一置信度阈值，则确定追踪成功，将局部浅层网络输出的第一位置作为目标的位置进行输出；若第一置信度小于或等于第一置信度阈值，则将第一追踪区域输入局部深层网络进行处理。

逻辑判断模块还用于对局部深层网络输出的第二置信度进行判断，若第二置信度大于第二置信度阈值，则确定追踪成功，将局部深层网络输出的第二位置作为目标的位置进行输出；若第二置信度小于或等于第二置信度阈值，则逻辑判断模块指示区域划分模块对图像进行区域划分，并将划分得到的各个第二追踪区域分别输入全局深层网络进行处理。

逻辑判断模块还用于对全局深层网络输出的第三置信度进行判断，若第三置信度大于第三置信度阈值，则确定追踪成功，将全局深层网络输出的第三位置作为目标的位置进行输出；若第三置信度小于或等于第三置信度阈值，则确定追踪丢失，停止对该目标的追踪。

当然，相机算法库中还可以包括其他预设算法，例如去紫边算法、饱和度调整算法等等，本申请实施例对此不做任何限定。

驱动层240用于为不同的硬件设备提供驱动。比如，驱动层可以包括相机驱动；数字信号处理器驱动以及图形处理器驱动。

硬件层250可以包括传感器、图像信号处理器、数字信号处理器、图形处理器以及其他硬件设备。其中，传感器可以包括传感器1、传感器2等，还可以包括深度传感器(timeof flight，TOF)和多光谱传感器。

下面结合拍照预览场景下的目标追踪过程，示例性说明电子设备100的软件系统的工作流程。

当用户在触摸传感器180K上对相机APP的图标执行点击操作时，相机APP被点击操作唤醒，并进入拍照预览模式。相机APP通过相机访问接口调用相机硬件抽象层的各个相机设备。示例性的，相机硬件抽象层判断出当前变焦倍数小于0.6变焦倍数，由此，可以通过向相机设备驱动下发调用广角摄像头的指令。同时相机算法库开始加载相机算法库中的算法。

当硬件层的传感器被调用后，例如，调用广角摄像头中的传感器1获取原始图像后，将原始图像发送给图像信号处理进行配准等初步处理，处理后经相机设备驱动返回相机硬件抽象层，再利用加载的相机算法库中的其他预设算法进行处理，得到帧图像1。

相机硬件抽象层将得到的帧图像1经相机访问接口发送回相机APP进行预览显示。

当用户在触摸传感器180K上对帧图像1的位置1执行点击操作时，相机APP响应于点击操作，通过相机访问接口调用相机硬件抽象层的追踪设备。相机硬件抽象层的追踪设备调用相机算法库中的追踪器。追踪器从帧图像1中获取目标图像，并提取模板特征。

相机APP按照上述过程继续获取下一帧图像，得到帧图像2。之后，追踪设备调用相机算法库中的追踪器。追踪器根据从帧图像1提取的模板特征，对帧图像2进行目标追踪，得到目标在帧图像2中的位置。相机硬件抽象层的追踪设备生成该位置对应的追踪标识。追踪标识用于标识目标在帧图像2中的位置。其中，相机算法库中的追踪器及其他预设算法可以通过数字信号处理器驱动调用数字信号处理器、图形处理器驱动调用图形处理器，以实现算法的运行。

相机硬件抽象层将得到的帧图像2和追踪标识经相机访问接口发送回相机APP。相机APP在电子设备的界面中预览显示帧图像2，并显示追踪标识。如此，界面中目标的外围即可呈现追踪标识，提示用户当前目标位于追踪标识限定的区域内。在一个具体的实施例中，追踪标识用于限定出一方形区域。可选的，追踪标识通过完整的连续限定出该方形区域，即追踪标识为追踪框。可选的，追踪标识也可以仅通过四个角限定出该方形区域。本申请实施例对于追踪表示的具体形式不做任何限定。

按照上述帧图像2的生成过程，重复执行，以实现对每帧图像的目标追踪。

为了便于理解，本申请以下实施例将以具有图2和图3所示结构的电子设备为例，结合附图和应用场景，对本申请实施例提供的目标追踪方法进行具体阐述。

首先，以手机的预览和录像应用场景为例，对目标追踪方法的界面进行说明。

示例性的，图4为本申请实施例提供的一例拍照预览场景对应的目标追踪的界面变化示意图。如图4中的(a)图所示，当用户点击手机桌面上的相机APP的图标，手机打开相机APP，并进入拍照预览界面，显示周围环境的预览图像，如图4中的(b)图所示。在预览界面下，若用户点击屏幕中预览图像的位置401，相机APP响应于用户的点击，通过本申请实施例提供的目标追踪方法，根据用户点击的位置401确定目标区域402，目标区域402中包括待追踪的目标403。后续获取预览图像后，对预览图像中的该目标403进行追踪，并显示追踪标识。例如，如图4中的(c)图所示，当目标403发生移动，或者用户移动手机(图4中目标403发生移动为例)，目标403在画面中的位置发生变化，基于本申请实施例提供的方法对目标403进行追踪，并在界面中显示追踪标识404。

可选的，当用户点击拍照预览界面中的拍照控件405，相机APP保存照片至相册。之后，继续基于本申请实施例提供的目标追踪方法，对目标403进行追踪，显示追踪标识404，如图4中的(d)图所示。

在一个实施例中，当目标403部分或全部移出画面，则追踪丢失，界面中不再显示追踪标识，如图4中的(e)图所示。可选的，在追踪丢失之后，当目标403再次出现在画面中时，可以对目标403进行继续追踪，也可以不再对目标403进行追踪，本申请实施例对此不做任何限定。在另一个实施例中，当用户切换拍照模式，例如，由拍照切换为录像、人像等模式，则相机APP重新启流，不再对目标402进行追踪。

录像预览场景与图4所示的拍照预览过程相似，在此不再赘述。

示例性的，图5为本申请实施例提供的一例录像场景对应的目标追踪的界面变化示意图。如图5中的(a)图所示，在拍照预览界面下，用户点击“录像”控件501，相机APP将拍照模式切换为录像模式。手机显示图5中的(b)图所示的录像预览界面。该界面中显示周围环境的预览图像。当用户点击录像预览界面中的开始录制控件502，相机APP开始录制视频，进入图5中的(c)图所示的界面。在录像过程中，若用户点击屏幕中的位置503，相机APP响应于用户的点击，通过本申请实施例提供的目标追踪方法，根据用户点击的位置503确定目标区域504。目标区域504中包括待追踪的目标505。后续获取帧图像后，对帧图像中的目标505进行追踪，并显示追踪标识。例如，如图5中的(d)图所示，当目标505发生移动，或者用户移动手机(图5中目标505发生移动为例)，目标505在画面中的位置发生变化，基于本申请实施例提供的方法对目标505进行追踪，并在界面中显示追踪标识506。

可选的，在录像场景，当用户点击停止录制控件，或者目标跟踪丢失时，不再对目标505进行追踪。

下面以手机的预览和录像场景为例，对目标追踪方法实现上述追踪效果的具体过程进行说明。

本实施例主要对目标追踪过程中，相机硬件抽象层及相机算法库对图像的处理过程进行说明，对于图像的生成过程可以参见上述实施例，不再赘述。

示例性的，图6是本申请实施例提供的一例目标追踪方法的流程示意图，图7是本申请实施例提供的一例目标追踪方法的原理示意图，请一并参见图6和图7，该方法包括步骤S101至S133。

其中，步骤S101至S105为提取特征，生成模板特征的过程，下述称为模板特征生成阶段。步骤S106至步骤S114为基于局部浅层网络搜索目标的过程，下述称为局部浅层搜索阶段。步骤S115至步骤S121为基于局部深层网络搜索目标的过程，下述称为局部深层搜索阶段。步骤S122至步骤S133为基于全局深层网络搜索目标的过程，下述称为局部深层搜索阶段。下面对按照阶段，依次进行说明。

1、模板特征生成阶段

S101、手机的界面中显示视频流的第n帧图像，响应于用户对第n帧图像中位置1的点击操作，相机硬件抽象层的追踪设备调用相机算法库中的追踪器。

可选的，追踪设备调用追踪器时可以携带第n帧图像以及位置1的信息等。

S102、追踪器中的区域选取模块响应于相机追踪设备的调用，根据位置1在第n帧图像中确定目标区域。

本实施例中，第n帧图像为视频流中的任一帧图像。n为正整数。第n帧图像为触发启动目标追踪流程的帧图像，是后续进行目标追踪的基础，因此也称为初始帧。视频流中初始帧之后，需基于该初始帧进行目标追踪的帧图像可称为追踪帧。

可选的，位置1例如可以为图4中的(b)图中的位置401或图5中的(b)图中的位置503。

在一个具体的实施例中，区域选取模块可以以位置1为中心，选择周围预设范围1内的区域作为目标区域。例如，以位置1为中心，按照预设半径选取一圆形区域，作为目标区域。或者，以位置1为中心，选取预设面积的一方形区域，作为目标区域。请参见图7，在一个具体的实施例中，目标区域可以如图7所示。

需要说明的是，本实施例中，步骤S101和S102的执行，是通过用户对位置1的点击操作触发。在一些其他的实施例中，根据应用场景的不同，这两个动作的执行也可以通过其他方式触发。例如，可以通过目标检测触发。以人脸识别为例，当电子设备在第n帧图像中检测到人脸时，追踪设备调用追踪器进行目标追踪。在这种情况下，步骤S102中的“根据位置1在第n帧图像中确定目标区域”也可以替换为：“根据检测到的目标的中心点的位置，在第n帧图像中确定目标区域”。具体的，区域选取模块可以计算检测到的目标的中心点所在的位置，并以该中心点为中心，选择周围预设范围1内的区域作为目标区域。另外，在这种情况下，可以不执行步骤S103，直接执行步骤S104。

S103、区域选取模块对目标区域进行目标检测，确定目标区域中是否存在目标；若是，则执行步骤S104；若否，则结束流程。

可选的，区域选取模块进行目标检测的方法可以如下：基于边缘检测算法检测目标区域中的边缘特征，再根据边缘特征确定目标区域中是否存在目标。

可选的，目标特征提取网络也可以通过显著性目标检测算法，确定目标区域中是否存在目标。例如，基于多级特征聚合网络，利用来自多个层次的卷积特征作为显著性线索进行显著性目标检测。

区域选择模块通过目标检测，若确定目标区域中存在人物、动物、植物、物体等对象的部分或全部，则确定目标区域中存在目标，执行步骤S104。例如，若目标区域中存在杯子、猫、花、人、人手等，则确定目标区域存在目标。若目标区域中不存在上述目标中的任一个，则确定该目标区域中不存在目标，放弃目标追踪。例如，目标区域中仅包括没有花纹或花纹重复的地毯的中间区域，则确定目标区域中不存在目标。

在一个具体的实施例中，图7所示的目标区域，经过该步骤的目标检测，确定该目标区域中存在目标(狗)，因此，继续执行步骤S104。

可以理解，目标区域中不包括目标时，执行目标追踪的意义不大，即使执行目标追踪，很快会追踪丢失。因此，该步骤中对于不存在目标的目标区域，直接放弃目标追踪，以简化算法，提高算法运行效率，提高用户体验。

需要说明的是，步骤S103为可选步骤，也可以不执行，即步骤S102执行完成后直接执行步骤S104。

S104、区域选取模块将目标区域输入模板特征提取网络。

S105、模板特征提取网络对目标区域进行特征提取，生成模板特征，并对追踪器进行初始化。

可选的，对追踪器进行初始化可以包括设置追踪器的状态为追踪状态等。追踪状态用于表征目标追踪流程已启动。可以理解，追踪器中的各个模块可以根据追踪器的状态执行相关的操作。在接收到追踪设备的调用时，若确定追踪器的状态为追踪状态，则追踪器中的相关模块根据模板特征进行目标追踪。

可以理解，在执行上述步骤S101至S105的同时，电子设备可以按照上述实施例所述的过程获取视频流的下一帧图像，即第n+1帧图像。由于执行步骤S101至S105一般所需的时间较短，因此在电子设备获取到第n+1帧图像之前，或者电子设备获取到第n+1帧图像的同时，步骤S101至S105即可执行完成。因此，可以根据步骤S105得到模板特征，从第n+1帧图像开始对目标进行追踪。本实施例中，将以步骤S105之后，从第n+1帧图像开始对目标进行追踪为例进行说明。

但是，在其他的实施例中，步骤S105之后，也可以从其他的帧开始对目标进行追踪。例如，可以从第n+2帧图像、第n+5帧图像等开始对目标进行追踪。可选的，当步骤S101至S105需要较长时间，或者除步骤S101至S105之外，方法还包括其他的步骤，致使生成模板特征需要较长时间时，也可以在生成模板特征后，从生成时间距离当前时刻最近的一帧图像开始，对目标进行追踪。本申请实施例对此不做任何限定。

2、局部浅层搜索阶段

S106、相机硬件抽象层中的追踪设备获取到第n+1帧图像(追踪帧)后，调用相机算法库中的追踪器。

可选的，追踪设备调用追踪器时可以携带第n+1帧图像。

请参见图7，在一个具体的实施例中，第n+1帧图像可以如图7所示。

S107、追踪器中的区域选取模块响应于相机追踪设备的调用，根据目标在第n帧图像中的位置，选取第n+1帧图像的部分区域，得到第一追踪区域。

如上所述，模板特征提取网络在生成模板特征后，设置追踪器的状态为追踪状态。因此，本实施例中，区域选取模块在接收到相机追踪设备的调用时，确定追踪器的状态为追踪状态，进而从第n+1帧图像中选取第一追踪区域。

可选的，区域选取模块可以根据目标的中心点在第n帧图像中的位置，选取第一追踪区域。具体的，区域选取模块可以在第n+1帧图像中，将目标的中心点在第n帧图像中的位置作为中心，选取预设范围2的区域，得到第一追踪区域。第一追踪区域的面积小于第n+1帧图像的面积，也就是说，第一追踪区域为第n+1帧图像中的局部区域。

可选的，预设范围2可以大于预设范围1，从而使第一追踪区域的面积大于目标区域的面积，即第一追踪区域的分辨率可以高于目标区域。第一追踪区域的分辨率大于目标区域，后续基于第一追踪区域进行搜索时搜索成功的概率更大，从而使目标追踪的成功率更高。

当然，区域选取模块也可以根据目标的边缘或者顶点等在第n帧图像中的位置，选取第一追踪区域。本申请实施例对此不做任何限定。

S108、区域选取模块将第一追踪区域输入局部浅层网络。

S109、局部浅层网络根据模板特征，对第一追踪区域进行目标搜索，输出第一位置和所述第一位置对应的第一置信度；第一位置用于表征目标在第n+1帧图像中的位置。

S110、局部浅层网络将第一位置和第一置信度发送至逻辑判断模块。

S111、逻辑判断模块判断第一置信度是否大于第一置信度阈值；若是，则执行步骤S112；若否，则执行步骤S115。

第一置信度大于第一置信度阈值，表示局部浅层网络对目标搜索成功，即追踪成功，执行步骤S112，以输出第一位置。第一置信度小于或等于第一置信度阈值，表示局部浅层网络对目标搜索失败，执行步骤S115，以进入局部深层搜索阶段。

S112、逻辑判断模块生成追踪成功信息；追踪成功信息用于表征目标追踪成功。

S113、逻辑判断模块将第一位置和追踪成功信息返回至相机硬件抽象层的追踪设备。

S114、追踪设备接收到追踪成功信息后，根据第一位置，生成第一位置对应的第一追踪标识。

之后，电子设备的界面中显示第n+1帧图像和第一追踪标识。

3、局部深层搜索阶段

S115、逻辑判断模块将第一追踪区域输入局部深层网络。

S116、局部深层网络根据模板特征，对第一追踪区域进行目标搜索，输出第二位置和第二位置对应的第二置信度；第二位置用于表征目标在第n+1帧图像中的位置。

请参见图7，在一个具体的实施例中，第一追踪区域可以如图中的701所示。可以看出，输入局部浅层网络和局部深层网络的是第n+1帧图像的局部，即局部浅层网络和局部深层网络是对第n+1帧图像的局部进行搜索。

S117、局部深层网络将第二位置和第二置信度发送至逻辑判断模块。

S118、逻辑判断模块判断第二置信度是否大于第二置信度阈值；若是，则执行步骤S119；若否，则执行步骤S122。

可选的，第二置信度阈值与第一置信度阈值可以相同，也可以不同。

第二置信度大于第二置信度阈值，表示局部深层网络对目标搜索成功，即追踪成功，执行步骤S119，以输出第二位置。第二置信度小于或等于第二置信度阈值，表示局部深层网络对目标搜索失败，执行步骤S122，以进入全局深层搜索阶段。

S119、逻辑判断模块生成追踪成功信息；追踪成功信息用于表征目标追踪成功。

S120、逻辑判断模块将第二位置和追踪成功信息返回至相机硬件抽象层的追踪设备。

S121、追踪设备接收到追踪成功信息后，根据第二位置，生成第二位置对应的第二追踪标识。

之后，电子设备的界面中显示第n+1帧图像和第二追踪标识。

4、全局深层搜索阶段

S122、逻辑判断模块指示区域划分模块进行区域划分。

S123、区域划分模块对第n+1帧图像进行划分，得到多个第二追踪区域。

可选的，区域划分模块可以按照预设的划分方式对第n+1帧图像进行划分。例如，可以按照网格划分方式，将第n+1帧图像划分为多个第二追踪区域。这种方法简单方便，能够提高算法的运行效率。

可选的，区域划分模块也可以根据第n+1帧图像的特征，对第n+1帧图像进行划分。例如，可以基于像素点聚类的方法、区域候选网络(region proposal network，RPN)方法等，充分考虑图像中的特征，对第n+1帧图像进行划分，生成多个第二追踪区域。这样能够提高第二追踪区域中目标的完整性，进而提高目标追踪的准确性。

可选的，第二追踪区域的面积可以大于第一追踪区域，即第二追踪区域的分辨率大于第一追踪区域，这样，在基于第二追踪区域进行全局深层搜索时，搜索成功的概率更大，从而使目标追踪的成功率更高。

S124、区域划分模块将各个第二追踪区域分别输入全局深层网络。

S125、全局深层网络根据模板特征，对各个第二追踪区域分别进行目标搜索，分别输出多个第三位置和各个第三位置对应的第三置信度；第三位置用于表征目标在第n+1帧图像中的位置。

请参见图7，在一个具体的实施例中，第n+1帧图像划分后得到的多个第二追踪区域可以如图7中的702所示。可以看出，深层追踪网络是对各个第二追踪区域702分别进行搜索，即深层追踪网络是对n+1帧图像的全局进行搜索。

S126、全局深层网络将各个第三位置和各个第三置信度发送至逻辑判断模块。

S127、逻辑判断模块判断是否存在大于第三置信度阈值的第三目标置信度；若是，则执行步骤S128；若否，则执行步骤S131。

可选的，第三置信度阈值与第一置信度阈值、第二置信度阈值可以相同，也可以不同。

若存在第三目标置信度，表示全局深层网络对目标搜索成功，即追踪成功，执行步骤S128，以输出第三目标置信度对应的第三目标位置。若不存在第三目标置信度，即所有第三置信度均小于或等于第三置信度阈值，表示全局深层网络对目标搜索失败，即追踪失败，执行步骤S122，以停止追踪。

S128、逻辑判断模块生成追踪成功信息；追踪成功信息用于表征目标追踪成功。

S129、逻辑判断模块将第三目标位置和追踪成功信息返回至相机硬件抽象层的追踪设备。

S130、追踪设备接收到追踪成功信息后，根据第三目标位置，生成第三目标位置对应的第三追踪标识。

之后，电子设备的界面中显示第n+1帧图像和第三追踪标识。

请参见图7，在一个具体的实施例中，手机的界面中显示的第三追踪标识可以如图7中的703所示。

S131、逻辑判断模块生成追踪失败信息；追踪成功信息用于表征目标追踪失败，即追踪丢失。

S132、逻辑判断模块将各个第三位置和追踪失败信息返回至相机硬件抽象层的追踪设备。

可选的，该步骤中，逻辑判断模块也可以仅将追踪失败信息发送至相机硬件抽象层的追踪设备，而不发送各个第三位置，以简化算法，提高算法运行效率。

S133、追踪设备接收到追踪失败信息后，停止追踪。

追踪设备接收到追踪失败消息后，不生成追踪标识，界面中也不显示追踪标识。而且，追踪设备停止对当前目标的追踪，下一帧图像生成后，追踪设备不再调用相机算库中的追踪器。

可以理解，在追踪过程中，若满足预设的退出追踪条件，则追踪设备也停止追踪。预设的退出追踪条件例如可以如上述实施例所述的，切换拍照模式等。

另外，在目标追踪成功，且不满足预设的退出追踪条件的情况下，对于视频流中后续的任一帧图像第n+x帧图像，按照上述步骤S106至S133同样的方法进行目标追踪。也就是说，上述步骤S114、S121、S130之后，令n＝n+1，返回执行步骤S106。

本实施例提供的目标追踪方法，基于局部浅层网络、局部深层网络和全局深层网络对目标进行搜索。三种网络在网络深度或网络宽度、输入图像的分辨率，以及搜索范围上呈递进关系。这样，在目标追踪过程中，首先通过局部浅层网络对图像的局部进行低分辨率的浅层搜索，在搜索失败的情况下，再通过局部深层网络对图像的局部进行低分辨率的深层搜索，即加深搜索的网络深度和/或宽度，以提高搜索准确度。局部深层网络仍搜索失败，再通过全局深层网络对图像的全局进行高分辨率的深层搜索，即进一步增大输入图像的分辨率，并扩大搜索范围，以进一步提高搜索准确度。如此，对于困难场景的目标搜索能够提高追踪精度，减小目标追踪丢失的可能性。同时，搜索过程中，根据搜索结果逐步加深搜索深度，或者加大输入图像分辨率，或者扩大搜索范围，相较于只通过全局深层网络进行追踪，该方法能够防止在非困难场景下进行非必要的深层搜索，或高分辨率搜索，或全局搜索，以减小算法运行复杂度，提高目标追踪的实时性，且能够降低设备功耗。

总而言之，本申请实施例提供的方法能够自适应地选择局部浅层网络、局部深层网络和全局深层网络，从而实现追踪精度与功耗、实时性的平衡。

需要说明的是，在一些实施例中，也可以仅通过局部浅层网络和全局深层网络进行目标追踪。具体的，上述图6所示的实施例中，步骤“S111、逻辑判断模块判断第一置信度是否大于第一置信度阈值”的判断结果为否，则执行步骤S122，而不再执行步骤S115至S121。如此，可以简化算法，提高算法运行效率，进而降低功耗，提高标追踪的实时性。

当然，在其他的一些实施例中，还可以仅通过局部浅层网络和局部深层网络对目标进行追踪。也就是说，本申请实施例提供的目标追踪方法中，搜索网络可以包括局部浅层网络、局部深层网络和全局深层网络三个网络中的全部，还可以包括三个网络中其中两个。当然，搜索网络也可以包括比这三个网络更多的网络，本申请实施例对此不做任何限定。总而言之，搜索网络中的网络数量为多个(大于或等于2个)，且多个网络之间在搜索范围、输入图像的分辨率、网络的深度、网络的宽度几个维度中的至少一个维度上呈现递增效果。这样，在通过多个网络进行目标追踪时，根据搜索结果逐步加大搜索力度，提高搜索准确度。如此，对于困难场景的目标搜索能够提高追踪精度，减小目标追踪丢失的可能性。同时，搜索过程中，根据搜索结果逐步加深大搜索力度，防止在非困难场景下进行过度搜索，以减小算法运行复杂度，提高目标追踪的实时性，且能够降低设备功耗。

可以理解，局部浅层网络、局部深层网络和全局深层网络的结构可以相同，也可以不同。示例性的，图8为本申请实施例提供的一例搜索网络的结构及目标追踪过程示意图。如图8所示，本实施例中，局部浅层网络、局部深层网络和全局深层网络可以均包括搜索特征提取网络、特征调整层、相关匹配层、定位分支和分类分支。其中，各个网络中的搜索特征区域网络与模板特征提取网络是共享权重的。也就是说，网络结构，各个网络中的搜索特征区域网络与模板特征提取网络的结构及滤波器权值是相同的，但是，输入图像的分辨率可以不同。

下面结合各个网络的结构，对本申请实施例提供的目标追踪进行进一步说明。

示例性的，图9为本申请实施例提供的另一例目标追踪方法的流程示意图，请一并参见图8和图9，该方法包括：

1、模板特征生成阶段

S201、区域选取模块在初始帧中选取目标区域z。

具体的，参见上述步骤S102，区域选取模块可以以用户点击的位置1为中心，或者以检测出的目标的中心点所在的位置为中心，选取目标区域z。位置1或目标的中心点的位置表示为c₀＝(x，y)，目标区域z可以表示为：z∈R^h×w×3。也就是说，目标区域z的维度为h×w×3，其中，h表示高度值为h，w表示宽度值为w，3表示通道数为3(R、G、B三通道)。

S202、模板特征提取网络

对目标区域进行特征提取，得到模板特征/>

2、局部浅层搜索阶段

对于任一帧追踪帧x，首先进入局部浅层搜索阶段，即执行下述步骤S203至208：

S203、区域选取模块根据目标在上一帧图像中的位置，选取追踪帧x中的部分区域，得到第一追踪区域x。

具体的，当追踪帧x为第一帧追踪帧(即初始帧之后的第一帧图像)，区域选取模块根据目标在初始帧中的位置，在追踪帧x中选取第一追踪区域x。这种情况下，可以根据对目标的检测结果，确定目标在初始帧中的位置，并进一步选取第一追踪区域x。可选的，第一追踪区域x的分辨率大于目标区域，即，H＞h，和/或，W＞w。

当追踪帧x为第一帧追踪帧之后的追踪帧，区域选取模块根据目标在上一帧追踪帧(追踪帧x-1)中的位置，在追踪帧x中选取第一追踪区域x。在这种情况下，根据上一帧追踪帧的追踪结果，即可得到目标在上一帧追踪帧中的位置，进而选取第一追踪区域x。

可选的，区域选取模块可以根据目标在上一帧图像中的位置，确定目标的中心点在上一帧图像中的位置，再以目标的中心点在上一帧图像中的位置为中心，选取第一追踪区域x。目标的中心点的位置表示为c_z＝(x，y)，第一追踪区域x可以表示为：x∈R^H×W×3。也就是说，第一追踪区域x的维度为H×W×3，其中，H表示高度值为H，W表示宽度值为W，3表示通道数为3(R、G、B三通道)。

在一个具体的实施例中，可以以目标的中心点在上一帧图像中的位置为中心，将上一帧的目标区域z或上一帧的第一追踪区域x-1扩大预设倍数，得到追踪帧x的第一追踪区域x。例如，目标在追踪帧x-1中的位置为(100，100，200，200)，预设扩大倍数为2倍，则根据目标的中心点在追踪帧x-1中的位置，在追踪帧x中选择的第一追踪区域x的位置为(50，50，250，250)，即，第一追踪区域x为x∈R^200×200×3。

S204、局部浅层网络中的搜索特征提取网络

对第一追踪区域x进行特征提取，得到搜索特征/>

S205、局部浅层网络中的特征调整层μ^s对搜索特征

进行调整，得到调整后的搜索特征/>

S206、同时，局部浅层网络中的特征调整层μ^s对模板特征

进行调整，得到调整后的模板特征/>

S207、局部浅层网络中的相关匹配层ω^s对调整后的模板特征

和调整后的搜索特征/>

进行相关匹配，得到匹配特征/>

可选的，相关匹配层的具体实现方法，可以是基于深度可分离卷积的互相关匹配，也可以是基于编码-解码结构(transformer)的互相关匹配等，本申请实施例对此不做任何限定。同样的，本申请实施例对于网络中其他子网络的具体结构及实现方法也不做任何限定，可以根据实际需求设计，只要能够实现其功能即可。

S208、匹配特征

分别经过定位分支h^s和置信度分支ρ^s，得到多个位置坐标b1＝(l，t，b，r)和每个位置坐标b1对应的置信度ρ1，根据各个位置坐标b1和对应的置信度ρ1输出第一位置b_t1和第一置信度ρ_t1。

其中，位置坐标b1用于限定一区域。l表示区域的左上顶点的x坐标值，t表示区域的左上区域的y坐标值，b表示区域的右下顶点的x坐标值，r表示区域的右下顶点的y坐标值。

将多个置信度ρ1中的最大值ρ_t1作为局部浅层网络的输出，得到第一置信度ρ_t1；将第一置信度ρ_t1对应的位置坐标b_t1作为局部浅层网络的输出，得到第一位置b_t1。

S209、逻辑判断模块判断第一置信度ρ_t1是否大于第一置信度阈值σ1。

若第一置信度ρ_t1大于第一置信度阈值σ1，表示第一追踪区域中存在目标，局部浅层网络对目标搜索成功，即追踪成功，则逻辑判断模块向追踪设备发送第一位置b_t1和追踪成功信息，电子设备显示第一位置b_t1对应的追踪标识，如图8所示。之后，进入对下一帧追踪帧x+1的目标追踪，即令x＝x+1，并返回执行步骤S203。

若第一置信度ρ_t1小于或等于第一置信度阈值σ1，表示第一追踪区域中不存在目标，局部浅层网络对目标搜索失败，则进入局部深层搜索阶段，即执行下述步骤S210至S215。

3、局部深层搜索阶段

S210、局部深层网络中的搜索特征提取网络

对第一追踪区域x进行特征提取，得到搜索特征/>

S211、局部深层网络中的特征调整层μ^d对搜索特征

进行调整，得到调整后的搜索特征/>

S213、同时，局部深层网络中的特征调整层μ^d对模板特征

进行调整，得到调整后的模板特征/>

S214、局部深层网络中的相关匹配层ω^d对调整后的模板特征

和调整后的搜索特征/>

进行相关匹配，得到匹配特征/>

S215、匹配特征

分别经过定位分支h^d和置信度分支ρ^d，得到多个位置坐标b2＝(l，t，b，r)和每个位置坐标b2对应的置信度ρ2，根据各个位置坐标b2和对应的置信度ρ2输出第二位置b_t2和第二置信度ρ_t2。

将多个置信度ρ2中的最大值ρ_t2作为局部深层网络的输出，得到第二置信度ρ_t2；将第二置信度ρ_t2对应的位置坐标b_t2作为局部深层网络的输出，得到第二位置b_t2。

S216、逻辑判断模块判断第二置信度ρ_t2是否大于第二置信度阈值σ2。

若第二置信度ρ_t2大于第二置信度阈值σ2，表示第一追踪区域中存在目标，局部深层网络对目标搜索成功，即追踪成功，则逻辑判断模块向追踪设备发送第二位置b_t2和追踪成功信息，电子设备显示第二位置b_t2对应的追踪标识，如图8所示。之后，进入对下一帧追踪帧x+1的目标追踪，即令x＝x+1，并返回执行步骤S203。

若第二置信度ρ_t2小于或等于第二置信度阈值σ2，表示第一追踪区域中不存在目标，局部深层网络对目标搜索失败，则进入全局深层搜索阶段，即执行下述步骤S217至S223。

4、全局深层搜索阶段

S217、区域划分模块对追踪帧x进行划分，得到多个第二追踪区域。

区域选择模块分别将各个第二追踪区域输入全局深层网络。对于任一个第二追踪区域i，全局深层网络执行下述S218至S224：

S218、全局深层网络中的搜索特征提取网络

对第二追踪区域i进行特征提取，得到搜索特征/>

S219、全局深层网络中的特征调整层μⁿ对搜索特征

进行调整，得到调整后的搜索特征/>

S220、同时，全局深层网络中的特征调整层μⁿ对模板特征

进行调整，得到调整后的模板特征/>

S221、全局深层网络中的相关匹配层ωⁿ对调整后的模板特征

和调整后的搜索特征/>

进行相关匹配，得到匹配特征/>

S222、匹配特征

分别经过定位分支hⁿ和置信度分支ρⁿ，得到多个位置坐标b3＝(l，t，b，r)和每个位置坐标b3对应的置信度ρ3，根据各个位置坐标b3和对应的置信度ρ3输出第三位置b_t3和第三置信度ρ_t3。

将多个置信度ρ3中的最大值ρ_t3作为全局深层网络的输出，得到第三置信度ρ_t3；将第三置信度ρ_t3对应的位置坐标b_t3作为全局深层网络的输出，得到第三位置b_t3。

S223、逻辑判断模块判断第三置信度ρ_t3是否大于第三置信度阈值σ3。

若第三置信度ρ_t3大于第三置信度阈值σ3，表示第二追踪区域i中存在目标，则追踪成功，电子设备显示第三位置b_t3对应的追踪标识(如图8所示)，结束对当前追踪帧x的追踪，执行对下一追踪帧x+1的目标追踪。即令x＝x+1，并返回执行步骤S203。

若第三置信度ρ_t3小于或等于第三置信度阈值σ3，表示第二追踪区域i中不存在目标，则执行步骤S224。

S224、确定是否遍历所有第二追踪区域；若否，则令i＝i+1，返回执行步骤S218，即，对下一个第二追踪区域i+1进行全局深层搜索；若是，则确定追踪失败，即追踪丢失，电子设备不显示追踪标识，停止追踪。

可选的，该步骤中，在任一个第二追踪区域i中不存在目标，且确定没有遍历所有第二追踪区域的情况下，可以直接返回执行步骤S218，对下一个第二追踪区域进行搜索。即循环执行上述步骤S218至S224，直至得到追踪成功或追踪丢失(即得到追踪结果)。

作为一种可能的实现方式，在第二追踪区域i中不存在目标，且确定没有遍历所有第二追踪区域的情况下，还可以先启动对下一帧追踪帧x+1的目标追踪。在对下一帧追踪帧x+1进行目标追踪的同时，执行一次步骤S218至S224，对下一个第二追踪区域i+1进行搜索。以此类推，在每一帧追踪帧进行目标追踪的同时，对一个第二追踪区域进行搜索，直至得到追踪结果。

具体的，在追踪帧x，执行上述步骤S218至S224，对多个第二追踪区域中的第二追踪区域i进行搜索，若搜索成功，则显示追踪标识，结束对追踪帧x的追踪，之后启动追踪帧x+1的目标追踪。若第二追踪区域i中不存在目标，且确定没有遍历所有第二追踪区域，则先启动对追踪帧x+1的目标追踪。在对追踪帧x+1进行目标追踪的同时，可以按照上述步骤S218至S224对第二追踪区域i+1进行搜索。若搜索成功，则显示追踪标识，结束对追踪帧x+1的追踪，之后启动对追踪帧x+2的目标追踪。若第二追踪区域i+1中仍不存在目标，则按照上述过程，在对追踪帧x+2进行目标追踪的过程中，继续对第二追踪区域i+2进行搜索......以此类推，直至得到追踪结果。

也就是说，本实施例中，在通过全局深层网络进行全局深层搜索时，可以将全局深层搜索过程拆分、延迟，与对后续追踪帧的追踪同时进行，这样能够防止因全局深层搜索时间过长造成视频卡顿，提高用户体验。

下面对本申请中的局部浅层网络、局部深层网络和全局深层网络的具体结构进行说明。

如上所述，局部深层网络和全局深层网络的网络宽度、网络深度中至少一个大于局部浅层网络。也就是说，局部深层网络和全局深层网络相较于局部浅层网络，网络更深，和/或更宽。全局深层网络的输入图像的分辨率可以高于局部浅层网络和局部深层网络，而且，全局深层网络是对图像的全局进行搜索，而局部浅层网络和局部深层网络是对图像的局部进行搜索。

在一个具体的实施例中，这三种网络的分辨率、通道数和网络深度可以如下表1所示：

表1

	输入图像的分辨率	特征通道数	网络层数
				局部浅层网络	255x255	128	21
局部深层网络	255x255	256	23
				全局深层网络	353x353	256	23

需要说明的是，表1提供的数据仅作为一种示例，并不造成对这三种网络的任何限定。

可选的，本申请实施例中的这三种网络的搜索特征提取网络、特征调整层、相关匹配层、定位分支和置信度分支的网络深度及宽度等均可以根据实际需求设计和调整，表2给出一种实现示例：

表2

其中，conv表示卷积层。maxpool表示最大池化层。stage表示阶段。centercrop表示中心裁剪。corrconv表示相关卷积层。

本申请实施例提供的目标追踪方法，通过局部浅层网络、局部深层网络和全局深层网络，层层递进的对目标进行搜索，进而实现目标追踪精度和功耗、实时性的平衡。而且，局部浅层网络、局部深层网络和全局深层网络可以根据实际使用场景和需求调整网络结构、深度、宽度等，便于对网络进行扩展和适配，能够满足不同使用平台的使用需求，提高了该方法的适用性。

下面结合场景和附图对本申请实施例提供的目标追踪方法的追踪效果进行说明。

场景1：无人机目标追踪

示例性的，图10为本申请实施例提供的一例无人机目标追踪结果的示意图。本实施例中，无人机采用本申请实施例提供的方法，对图像中的目标人物进行追踪。在连续的4帧图像中，追踪结果分别为图10中的(a)图、图10中的(b)图、图10中的(c)图和图10中的(d)所示。由图可以看出，该方法能够准确的对目标进行追踪。

场景2：数据自动标注

示例性的，图11为本申请实施例提供的一例数据自动标注结果的示意图。本实施例中，将本申请实施例提供的目标追踪方法应用于车辆中安装的行车记录仪。该车辆在行进过程中，行车记录仪实时获取道路的视频数据，并通过该目标追踪方法，对每一帧图像中的目标车辆进行追踪和标注，追踪和标注结果如图11中的(a)图、图11中的(b)图、图11中的(c)图和图11中的(d)所示。由图可以看出，该方法能够准确的对目标进行追踪和标注。

上文详细介绍了本申请实施例提供的目标追踪方法的示例。可以理解的是，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对电子设备进行功能模块的划分，例如，可以对应各个功能划分为各个功能模块，例如检测单元、处理单元、显示单元等，也可以将两个或两个以上的功能集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

需要说明的是，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

本实施例提供的电子设备，用于执行上述目标追踪方法，因此可以达到与上述实现方法相同的效果。

在采用集成的单元的情况下，电子设备还可以包括处理模块、存储模块和通信模块。其中，处理模块可以用于对电子设备的动作进行控制管理。存储模块可以用于支持电子设备执行存储程序代码和数据等。通信模块，可以用于支持电子设备与其他设备的通信。

其中，处理模块可以是处理器或控制器。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，数字信号处理(digital signal processing，DSP)和微处理器的组合等等。存储模块可以是存储器。通信模块具体可以为射频电路、蓝牙芯片、Wi-Fi芯片等与其他电子设备交互的设备。

在一个实施例中，当处理模块为处理器，存储模块为存储器时，本实施例所涉及的电子设备可以为具有图2所示结构的设备。

本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质中存储了计算机程序，当计算机程序被处理器执行时，使得处理器执行上述任一实施例的目标追踪方法。

本申请实施例还提供了一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述相关步骤，以实现上述实施例中的目标追踪方法。

另外，本申请的实施例还提供一种装置，这个装置具体可以是芯片，组件或模块，该装置可包括相连的处理器和存储器；其中，存储器用于存储计算机执行指令，当装置运行时，处理器可执行存储器存储的计算机执行指令，以使芯片执行上述各方法实施例中的目标追踪方法。

其中，本实施例提供的电子设备、计算机可读存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

通过以上实施方式的描述，所属领域的技术人员可以了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种目标追踪方法，所述方法由电子设备执行，其特征在于，所述方法包括：

显示第一拍摄界面，所述第一拍摄界面的第一区域用于显示摄像头拍摄的视频流；

当所述第一区域显示所述视频流的第n帧图像时，接收用户对所述第n帧图像输入的第一操作，n为正整数；

响应于所述第一操作，对所述第n帧图像进行特征提取，得到模板特征，所述第n帧图像中包含目标；

根据所述模板特征，通过第一网络确定所述视频流的第n+x帧图像中是否包含所述目标，x为正整数；

若通过第一网络确定所述第n+x帧图像中不包含所述目标，则根据所述模板特征，通过第二网络确定所述第n+x帧图像中是否包含所述目标，其中，所述第一网络和所述第二网络满足第一预设条件中至少一个；

所述第一预设条件包括：所述第二网络的网络深度大于所述第一网络的网络深度、所述第二网络的网络宽度大于所述第一网络的网络宽度、所述第二网络的输入图像的分辨率大于所述第一网络的输入图像的分辨率。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若通过所述第二网络确定所述第n+x帧图像中不包含所述目标，则根据所述模板特征，通过第三网络确定所述第n+x帧图像是否包含所述目标，其中，所述第二网络和所述第三网络满足第二预设条件中至少一个；

所述第二预设条件包括：所述第三网络的网络深度大于所述第二网络的网络深度、所述第三网络的网络宽度大于所述第二网络的网络宽度、所述第三网络的输入图像的分辨率大于所述第二网络的输入图像的分辨率。

3.根据权利要求2所述的方法，其特征在于，所述第二网络的网络深度和网络宽度中的至少一者大于所述第一网络，且，所述第三网络的网络深度和网络宽度中的至少一者大于所述第一网络，且，所述第三网络的输入图像的分辨率分别大于所述第一网络和所述第二网络。

4.根据权利要求2或3所述的方法，其特征在于，所述根据所述模板特征，通过第一网络确定所述视频流的第n+x帧图像中是否包含所述目标，包括：

从所述第n+x帧图像中选取第一追踪区域；

根据所述模板特征，通过所述第一网络对所述第一追踪区域进行搜索，输出第一位置和所述第一位置对应的第一置信度；

若所述第一置信度大于第一置信度阈值，则通过所述第一网络确定所述第n+x帧图像中包含所述目标；

若所述第一置信度小于或等于所述第一置信度阈值，则通过所述第一网络确定所述第n+x帧图像中不包含所述目标。

5.根据权利要求4所述的方法，其特征在于，所述从所述第n+x帧图像中选取第一追踪区域，包括：

根据所述目标在所述视频流的第n+x-1帧图像中的位置，选取所述第n+x帧图像中的部分区域，得到所述第一追踪区域。

6.根据权利要求4或5所述的方法，其特征在于，所述方法还包括：

若通过所述第一网络确定所述第n+x帧图像中包含所述目标，则输出所述第一位置，所述第一位置表征所述目标在所述第n+x帧图像中的位置。

7.根据权利要求4至6中任一项所述的方法，其特征在于，所述根据所述模板特征，通过第二网络确定所述第n+x帧图像中是否包含所述目标，包括：

根据所述模板特征，通过所述第二网络对所述第一追踪区域进行搜索，输出第二位置和所述第二位置对应的第二置信度；

若所述第二置信度大于第二置信度阈值，则通过所述第二网络确定所述第n+x帧图像中包含所述目标；

若所述第二置信度小于或等于所述第二置信度阈值，则通过所述第二网络确定所述第n+x帧图像中不包含所述目标。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

若通过所述第二网络确定所述第n+x帧图像中包含所述目标，则输出所述第二位置，所述第二位置表征所述目标在所述第n+x帧图像中的位置。

9.根据权利要求4至8中任一项所述的方法，其特征在于，所述第三网络对所述第n+x帧图像的搜索范围分别大于所述第一网络和所述第二网络对所述第n+x帧图像的搜索范围。

10.根据权利要求9所述的方法，其特征在于，所述通过第三网络确定所述第n+x帧图像是否包含所述目标，包括：

对所述第n+x帧图像进行区域划分，得到多个第二追踪区域；

根据所述模板特征，通过所述第三网络对所述多个第二追踪区域分别进行搜索，输出多个第三位置和各个所述第三位置对应的第三置信度；

若所述多个第三置信度中存在大于第三置信度阈值的第三目标置信度，则通过所述第三网络确定所述第n+x帧图像中包含所述目标；

若所述多个第三置信度中不存在所述第三目标置信度，则通过所述第三网络确定所述第n+x帧图像中不包含所述目标。

11.根据权利要求10所述的方法，其特征在于，所述多个第二追踪区域中至少一个第二追踪区域的分辨率大于所述第一追踪区域的分辨率。

12.根据权利要求10或11所述的方法，其特征在于，所述方法还包括：

若通过所述第三网络确定所述第n+x帧图像中包含所述目标，则输出第三目标位置，所述第三目标位置为所述第三目标置信度对应的第三位置，所述第三目标位置表征所述目标在所述第n+x帧图像中的位置；

若通过所述第三网络确定所述第n+x帧图像中不包含所述目标，则停止对所述目标的追踪。

13.根据权利要求1至12中任一项所述的方法，其特征在于，所述第一操作为点击操作，所述响应于所述第一操作，对所述第n帧图像进行特征提取，得到模板特征，包括：

响应于所述第一操作，确定所述第一操作的点击位置；

根据所述点击位置，在所述第n帧图像中选取目标区域；

对所述目标区域进行特征提取，生成所述模板特征。

14.一种电子设备，其特征在于，包括：处理器、存储器和接口；

所述处理器、所述存储器和所述接口相互配合，使得所述电子设备执行如权利要求1至13中任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储了计算机程序，当所述计算机程序被处理器执行时，使得所述处理器执行权利要求1至13中任一项所述的方法。