CN117714884A

CN117714884A - 目标追踪方法和电子设备

Info

Publication number: CN117714884A
Application number: CN202311130257.4A
Authority: CN
Inventors: 杨晨; 王永华; 朱世宇
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2023-08-31
Filing date: 2023-08-31
Publication date: 2024-03-15

Abstract

本申请实施例提供了一种目标追踪方法和电子设备，应用于电子技术领域。该方法包括：显示第一拍摄界面，第一拍摄界面的第一区域用于显示摄像头拍摄的视频流；当第一区域显示视频流的第n帧图像时，接收用户在第n帧图像的第一位置输入的第一操作，第n帧图像中包含目标；响应于第一操作，根据第一位置，在第n帧图像中确定第一目标区域，第一目标区域中包含目标的第一部分；根据第一目标区域，在第n帧图像中确定第二目标区域，第二目标区域中包含的目标的第二部分，第二部分的面积大于第一部分的面积；基于第二目标区域，对视频流的第n+x帧图像中的目标进行追踪。该方法能够提高追踪准确性。

Description

目标追踪方法和电子设备

技术领域

本申请涉及电子技术领域，具体涉及一种目标追踪方法和电子设备。

背景技术

目标追踪(visual object tracking)，也称为目标跟踪，是指在视频流的各帧图像中定位某一目标。目前，目标追踪被应用于各个领域和场景，例如，自动驾驶、体育赛事转播、安防监控、无人机追踪拍摄，以及手机等电子设备的拍摄预览场景和录像场景等。

以电子设备拍摄预览和录像场景下的目标追踪为例：界面中显示某一帧图像，用户点击图像中的目标，电子设备识别用户的点击位置，根据用户的点击位置识别待追踪的目标，在后续的帧图像中，对该目标进行搜索追踪。

然而，相关技术中的目标追踪方法对目标追踪的准确性较差，影响用户体验。

发明内容

本申请提供了一种目标追踪方法和电子设备，能够提高目标追踪的准确性，提高用户体验。

第一方面，本申请提供一种目标追踪方法，包括：显示第一拍摄界面，第一拍摄界面的第一区域用于显示摄像头拍摄的视频流；当第一区域显示视频流的第n帧图像时，接收用户在第n帧图像的第一位置输入的第一操作，n为正整数，第n帧图像中包含目标；响应于第一操作，根据第一位置，在第n帧图像中确定第一目标区域，第一目标区域中包含目标的第一部分；根据第一目标区域，在第n帧图像中确定第二目标区域，第二目标区域中包含的目标的第二部分，第二部分的面积大于第一部分的面积；基于第二目标区域，对视频流的第n+x帧图像中的目标进行追踪，x为正整数。

可选的，第一操作例如可以为点击操作，第一位置也即点击位置。

可选的，目标的第一部分和第二部分均可以为目标的部分，也可以为目标的全部。可选的，可以对第一目标区域的尺寸和/或位置进行调整，得到第二目标区域。

本申请第一方面提供的目标追踪方法，根据第一目标区域确定第二目标区域，使第二目标区域中包含的目标的第二部分的面积大于第一目标区域中包含的第一部分的面积。第二部分的面积大于第一部分的面积，则第二目标区域包含的目标特征(即目标的特征)比第一目标区域包含的目标特征多，因而基于第二目标区域进行目标追踪时，从第二目标区域提取得到的模板特征更多，能够提高追踪的准确性。而且，第二目标区域包含的目标特征多，则其包含显著特征的概率更大，因而从第二目标区域提取得到的模板特征更具有区分度，从而能够进一步提高目标追踪的准确性。

一种可能的实现方式中，根据第一目标区域，在第n帧图像中确定第二目标区域，包括：根据第一目标区域，在第n帧图像中确定感兴趣区域，感兴趣区域中包含第一目标区域；对感兴趣区域进行图像分割，得到多个子区域；分别确定多个子区域的最小外接矩形；分别确定多个候选区域与第一目标区域的重叠率，得到与多个候选区域一一对应的多个重叠率，候选区域为最小外接矩形在第n帧图像中限定出的区域；将多个重叠率中的最大重叠率对应的候选区域确定为第二目标区域。

图像分割得到多个子区域，每个子区域包含一种对象。最大重叠率对应的候选区域也即包含的对象为上述目标的区域，因而将该区域确定为第二目标区域。图像分割能够按照对象的特性，将同一对象的部分划分为一个子区域。基于子区域与初始目标区域的重叠情况，即确定出包含目标的子区域，从而确定出第二目标区域。通过该实现方式中的方法能够简单、准确的确定出第二目标区域。

一种可能的实现方式中，基于第二目标区域，对视频流的第n+x帧图像中的目标进行追踪，包括：若最大重叠率大于预设重叠阈值，则基于第二目标区域，对视频流的第n+x帧图像中的目标进行追踪。

一种可能的实现方式中，该方法还包括：若最大重叠率小于或等于预设重叠阈值，则基于第一目标区域，对视频流的第n+x帧图像中的目标进行追踪。

最大重叠率也即第二目标区域与第一目标区域的重叠率。该实现方式中，将最大重叠率与预设重叠阈值比较，在最大重叠率大于预设重叠阈值时，才将将第二目标区域作为最终目标追踪时的目标区域。这样，能够防止目标追踪时的目标区域过于偏离第一目标区域，即过于偏离用户的点击位置，防止影响用户原本的选择给用户带来不好的体验。

一种可能的实现方式中，对感兴趣区域进行图像分割，得到多个子区域，包括：对感兴趣区域进行高斯模糊处理，得到模糊图像；对模糊图像进行基于颜色的k均值聚类，得到多个聚类；以多个聚类分别作为掩模，对模糊图像进行二值化掩码处理，得到与多个聚类一一对应的多张二值化掩码图；基于多张二值化掩码图，执行取连通域操作，得到多个子区域。

该实现方式中，通过高斯模糊处理，能够滤除感兴趣区域中的非重点内容，保留重点内容，后续主要对重点内容进行处理，减小运算量，从而提高算法运行效率。

一种可能的实现方式中，基于多张二值化掩码图，执行取连通域操作，包括：对多张二值化掩码图分别进行中值滤波处理，得到多张滤波图像；基于多张滤波图像，执行取连通域操作，得到多个子区域。

该实现方式中，中值滤波处理能够滤除图像中较小的离散区域，减少图像处理噪声，提高图像处理效率，且能够提高图像处理的准确度。

一种可能的实现方式中，基于多张滤波图像，执行取连通域操作，得到多个子区域：分别对多张滤波图像执行取连通域操作，得到多个连通域；分别计算多个连通域的面积；滤除多个连通域中面积小于面积阈值的连通域，得到多个子区域。

该实现方式中，滤除面积较小的连通域，减小这些连通域对图像处理的影响，一方面减小算法运算量，提高算法运行效率，另一方面能够减小这些连通域对图像处理结果的干扰，提高处理结果的准确性。

一种可能的实现方式中，分别确定多个候选区域与第一目标区域的重叠率，得到与多个候选区域一一对应的多个重叠率，包括：分别计算多个候选区域与第一目标区域的交并比，得到多个重叠率。

该实现方式中，通过计算交并比能够简单快速的确定出重叠率。

一种可能的实现方式中，基于第二目标区域，对视频流的第n+x帧图像中的目标进行追踪，包括：对第二目标区域进行特征提取，得到模板特征；根据模板特征，确定视频流的第n+x帧图像中目标的位置和对应的置信度。

一种可能的实现方式中，基于第二目标区域，对视频流的第n+x帧图像中的目标进行追踪之前，该方法还包括：确定第二目标区域的追踪稳定性满足预设条件。

一种可能的实现方式中，确定第二目标区域的追踪稳定性满足预设条件，包括：基于第n帧图像，对第二目标区域进行数据增广，得到多个变换区域；对多个变换区域分别进行目标搜索，确定目标在各个变换区域中的位置和对应的置信度；若确定多个变换区域中的第一变换区域的个数大于预设数量，则确定第二目标区域的追踪稳定性满足预设条件，第一变换区域对应的置信度大于置信度阈值。

该实现方式能够提高追踪稳定性，具体的可以参见第二方面中的描述。

第二方面，本申请提供一种目标追踪方法，包括：显示第一拍摄界面，第一拍摄界面的第一区域用于显示摄像头拍摄的视频流；当第一区域显示视频流的第n帧图像时，接收用户在第n帧图像中的第一位置输入的第一操作，n为正整数；响应于第一操作，根据第一位置，在第n帧图像中确定第三目标区域，第三目标区域中包含目标的部分或全部；若第三目标区域的追踪稳定性满足预设条件，则基于第三目标区域，对视频流的第n+x帧图像中的目标进行追踪，x为正整数。

本申请第二方面提供的目标追踪方法，在获取第三目标区域后，对初始目标的追踪稳定性进行检测，若追踪稳定性满足预设条件，则对目标区域进行特征提取，开启目标追踪；否则不开启目标追踪。这样，开启目标追踪后，追踪丢失的可能性较小，提高了目标追踪的稳定性和持续性，提高用户体验。

一种可能的实现方式中，该方法还包括：基于第n帧图像，对第三目标区域进行数据增广，得到多个变换区域；对多个变换区域分别进行目标搜索，确定目标在各个变换区域中的位置和对应的置信度；若多个变换区域中的第一变换区域的个数大于预设数量，则确定第三目标区域的追踪稳定性满足预设条件；第一变换区域对应的置信度大于置信度阈值。

该实现方式中，通过对第三目标区域进行数据增广，得到多个变换区域，对变换区域进行目标追踪。这相当于用变换区域模拟视频流中后续追踪帧内的追踪区域，并模拟对第三目标区域中目标进行追踪的过程，判断追踪的稳定性。若稳定，说明后续实际追踪成功率较高，不容易追踪丢失，因而可以开启目标追踪。若不稳定，说明后续实际追踪成功率较低，容易追踪丢失，因而不开启目标追踪。如此，一方面若开启追踪，追踪稳定性较高，提高用户体验。另一方面，若不开启追踪，能够防止浪费资源。该方法能够简单、准确的判断追踪稳定性。

一种可能的实现方式中，基于第n帧图像，对第三目标区域进行数据增广，得到多个变换区域，包括：在第n帧图像中，对第三目标区域的边框进行尺度变换和平移变换中的至少一项处理，得到多个变换框；将各个变换框限定出的区域确定为变换区域。

该实现方式中，通过尺度变换和平移变换能够简单、有效地实现数据增广。

一种可能的实现方式中，平移变换的方向包括垂直向上、垂直向下、水平向左、水平向右、沿对角线向左上和沿对角线向右下中的至少一种。

一种可能的实现方式中，根据第一位置，在第n帧图像中确定第三目标区域，包括：根据第一位置，按照预设尺寸，在所述第n帧图像中确定第三目标区域。

也就是说，第三目标区域可以为上述第一方面提供的方法中的第一目标区域。该实现方式根据第一位置，按照预设尺寸能够快速地确定第三目标尺寸，能够提高算法运行效率。

一种可能的实现方式中，根据第一位置，在第n帧图像中确定第三目标区域，包括：根据第一位置，按照预设尺寸，在第n帧图像中确定第一目标区域，第一目标区域中包含目标的第一部分；根据第一目标区域，在第n帧图像中确定第三目标区域，第三目标区域中包含的目标的第二部分，第二部分的面积大于第一部分的面积。

一种可能的实现方式中，根据第一目标区域，在第n帧图像中确定第三目标区域，包括：根据第一目标区域，在第n帧图像中确定感兴趣区域，感兴趣区域中包含第一目标区域；对感兴趣区域进行图像分割，得到多个子区域；分别确定多个子区域的最小外接矩形；分别确定多个候选区域与第一目标区域的重叠率，得到与多个候选区域一一对应的多个重叠率，候选区域为最小外接矩形在第n帧图像中限定出的区域；将多个重叠率中的最大重叠率对应的候选区域确定为第三目标区域。

也就是说，第三目标区域可以为上述第一方面提供的方法中的第二目标区域。该实现方式能够提高追踪准确性，具体的参见第一方面的描述。

第三方面，本申请提供一种装置，该装置包含在电子设备中，该装置具有实现上述第一方面及上述第一方面的可能实现方式中电子设备行为的功能。功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块或单元。例如，接收模块或单元、处理模块或单元等。

第四方面，本申请提供一种电子设备，电子设备包括：处理器、存储器和接口；处理器、存储器和接口相互配合，使得电子设备执行第一方面或第二方面的技术方案中任意一种方法。

可选的，该处理器可以为中央处理器(central processing unit，CPU)。

第五方面，本申请提供一种芯片，包括处理器。处理器用于读取并执行存储器中存储的计算机程序，以执行第一方面及其任意可能的实现方式中的方法，或者执行第二方面及其任意可能的实现方式中的方法。

可选的，芯片还包括存储器，存储器与处理器通过电路或电线连接。

进一步可选的，芯片还包括通信接口。

第六方面，本申请提供一种计算机可读存储介质，计算机可读存储介质中存储了计算机程序，当计算机程序被处理器执行时，使得该处理器执行第一方面或第二方面的技术方案中任意一种方法。

第七方面，本申请提供一种计算机程序产品，计算机程序产品包括：计算机程序代码，当计算机程序代码在电子设备上运行时，使得该电子设备执行第一方面或第二方面的技术方案中任意一种方法。

附图说明

图1是本申请实施例提供的一例拍照预览场景对应的目标追踪的界面变化示意图；

图2是本申请实施例提供的一例录像场景对应的目标追踪的界面变化示意图；

图3是本申请实施例提供的一例追踪目标的示意图；

图4是相关技术中目标追踪的过程示意图；

图5是本申请实施例提供的一例目标追踪的应用场景示意图；

图6是本申请实施例提供的另一例目标追踪的应用场景示意图；

图7是本申请实施例提供的一例电子设备100的结构示意图；

图8是本申请实施例提供的一例电子设备的系统架构示意图；

图9是本申请实施例提供的一例目标追踪方法的流程示意图；

图10是本申请实施例提供的一例目标追踪方法的原理示意图；

图11是本申请实施例提供的另一例目标区域调整过程的流程示意图；

图12是本申请实施例提供的另一例目标区域调整的原理示意图；

图13是本申请实施例提供的一例距离交并比计算原理示意图；

图14是本申请实施例提供的另一例电子设备的系统架构示意图；

图15是本申请实施例提供的又一例目标追踪方法的流程示意图；

图16是本申请实施例提供的又一例目标追踪方法的原理示意图；

图17是本申请实施例提供的一例追踪稳定性检测过程的流程示意图；

图18是本申请实施例提供的一例追踪稳定性检测的原理示意图；

图19是本申请实施例提供的一例不同尺度因子对应的不同追踪稳定性检测结果示意图：

图20是本申请实施例提供的又一例电子设备的系统架构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括一个或者更多个该特征。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本申请说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

首先对本申请实施例提供的目标追踪方法的应用场景和本申请涉及的技术问题进行说明。

目标追踪广泛应用于各个技术领域和应用场景，例如，自动驾驶、体育赛事转播、安防监控、无人机追踪拍摄，以及手机等电子设备的拍摄预览场景和录像(即拍摄视频)场景等。

以手机的拍摄预览和录像场景为例，使用手机拍照预览或录像预览，或者使用手机录像的过程中，均可以对目标进行追踪，以便于对该目标进行对焦、调整亮度等预设处理。

示例性的，图1为本申请实施例提供的一例拍照预览场景对应的目标追踪的界面变化示意图。如图1中的(a)图所示，当用户点击手机桌面上的相机应用(application，APP)的图标，手机启动相机APP，并进入拍照预览界面，显示周围环境的预览图像，如图1中的(b)图所示。在预览界面下，若用户点击屏幕中预览图像的位置101，手机响应于用户的点击，根据用户点击的位置101确定目标区域，并显示目标框102。目标区域中包括待追踪的目标103。

后续手机逐帧获取预览图像后，对每帧预览图像中的该目标103进行追踪，并显示追踪框。具体的，如图1中的(c)图和(d)图所示，目标103发生移动，或者用户移动手机(图1中以目标103发生移动为例)时，目标103在画面中的位置发生变化，通过目标追踪，可以在当前画面中识别到目标103，并在界面中显示追踪框104，对识出的目标103的位置进行标识。当目标103部分或全部移出画面，则追踪丢失，界面中不再显示追踪框，如图1中的(e)图所示。

录像预览场景下，目标追踪的界面与图1所示的拍照预览场景下的界面相似，在此不再赘述。

示例性的，图2为本申请实施例提供的一例录像场景对应的目标追踪的界面变化示意图。如图2中的(a)图所示，在拍照预览界面下，用户点击“录像”控件201，相机APP将拍摄模式切换为录像模式。手机显示图2中的(b)图所示的录像预览界面。该界面中显示周围环境的预览图像。当用户点击录像预览界面中的开始录制控件202，手机开始录制视频，进入图2中的(c)图所示的界面。

在录像过程中，若用户点击屏幕中的位置203，手机响应于用户的点击，根据用户点击的位置203确定目标区域，并显示目标框204。目标区域中包括待追踪的目标205。

后续手机逐帧获取视频图像后，对每帧视频图像中的目标205进行追踪，并显示追踪框。具体的，如图2中的(d)图所示，目标205发生移动，或者用户移动手机(图2中目标205发生移动为例)，目标205在画面中的位置发生变化，通过目标追踪，可以在当前画面中识别到目标205，并通过追踪框206标识目标205的位置。

可以理解，根据用户选择的不同，追踪的目标可以为人物、动物、植物、景物或物品等。图3为本申请实施例提供的一例追踪目标的示意图。如图3中的(a)图所示，界面中包括一只小狗，用户点击该小狗，则手机对这只小狗追踪。如图3中的(b)图所示，界面中包括一盆绿植，用户点击该绿植，则手机可以对该绿植进行追踪。如图3中的(c)图所示，界面中包括车辆，用户点击该车辆，则手机可以对该车辆进行追踪。

参见图4，下面结合图4对相关技术中的目标追踪算法的实现过程进行说明。

可以理解，无论是拍照预览、录像预览，还是录像，电子设备都是在持续获取并显示视频流，视频流中包括多张图像。本申请实施例中，将视频流中的各张图像称为帧图像，将视频流中的第n张图像称为第n帧图像。

如图4所示，相关技术中，在手机界面中显示视频流的第n帧图像时，响应于用户对第n帧图像中的位置401的点击操作，手机以该位置401为中心，选择预设大小的区域作为目标区域402。之后将该目标区域402输入模板特征提取网络进行特征提取，生成模板特征，并初始化追踪器，开启目标追踪。

以视频流中的第n+1帧图像为例，手机将第n+1帧图像输入追踪网络，追踪网络根据模板特征，对第n+1帧图像进行目标搜索，得到一目标位置403和该目标位置403对应的目标置信度。根据目标置信度确定是否追踪成功，若追踪成功，则根据该目标位置403显示追踪框404。若该追踪丢失，则停止追踪。

然而，实际应用中发现，基于图4所示的方法进行目标追踪时，一种情况下，当用户的点击位置偏离拟追踪目标的显著特征所在的区域时，追踪准确性较差。其中，显著特征是指目标中具有区分度的特征，即，能够将目标与其他对象区分开的特征。不同的目标，显著特征可以不同。例如，图像中人物的显著特征可以包括脸部特征、肢体特征等。

参见图5，同图4中的第n帧图像，该图像中包括一只猩猩，猩猩的显著特征为脸部特征。用户想将该猩猩作为目标进行目标追踪。而用户在点击猩猩时，偏离了猩猩的脸部，点击了猩猩身体部位的501处。用户点击后，手机根据用户点击位置确定出的目标区域如图5中的502所示。对目标区域502进行特征提取得到的特征不包含脸部特征，而主要包含黑色毛发的特征，这导致追踪时容易将其他类似的对象(例如黑色的猫、黑色的地毯等)识别为目标，即导致追踪准确性较差，从而导致后续显示的追踪框位置出现错误，给用户带来不好的体验。

在另一种情况下，当用户点击的位置周围不包含显著目标时，追踪容易丢失，追踪持续性差。其中，显著目标可以为具有明确边界的对象，例如人物、动物、动物、建筑物等的部分或全部。参见图6，该图像中包括大海和降落伞601。用户想将该降落伞601作为目标进行目标追踪。然而，用户点击位置602后，由于画面显示的延迟性等原因，手机根据用户点击的位置确定出的目标区域如图6中的603所示。由于该目标区域603内未包含显著目标，因而对目标区域进行特征提取得到的特征不够显著，导致追踪时目标容易丢失，追踪持续性差，影响用户体验。

基于此，一方面，本申请提供一种目标追踪方法，在根据用户点击位置按照预设大小确定目标区域后，调整目标区域的位置和/或大小，使调整后的目标区域尽可能多地包含目标特征，这样，基于调整后的目标区域进行特征提取得到的模板特征更多，能够提高目标追踪的准确性。而且，调整后的目标区域包含的目标特征多，则其包含显著特征的概率更大，基于调整后的目标区域进行特征提取得到的模板特征更具有区分度，进一步提高目标追踪的准确性。另一方面，本申请实施例还提供一种目标追踪方法，通过对目标区域进行数据增广，以数据增广后的多个区域作为追踪区域进行模拟追踪，若模拟追踪的稳定性满足预设要求，则对目标区域进行特征提取，开启目标追踪；否则不开启目标追踪。也就是说，该方法对目标区域的追踪稳定性进行检测，根据检测结果决策是否开启目标追踪。这样，开启目标追踪后，追踪丢失的可能性较小，提高了目标追踪的稳定性和持续性，提高用户体验。

以下结合实施例对两方面的目标追踪方法分别进行说明。

实施例一：

本实施例主要对涉及目标区域调整的目标追踪方法进行说明。

首先对本实施例提供的方法所适用设备进行说明。

本实施例提供的目标追踪方法可以应用于手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)、无人机等可以拍摄视频的电子设备上，本申请实施例对电子设备的具体类型不作任何限制。

示例性的，图7是本申请实施例提供的一例电子设备100的结构示意图。电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universalserialbus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriberidentification module，SIM)卡接口195等。

其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为电子设备供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，外部存储器，显示屏194，摄像头193，和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。图7中的天线1和天线2的结构仅为一种示例。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(codedivision multiple access，CDMA)，宽带码分多址(wideband code division multipleaccess，WCDMA)，时分码分多址(time-division code divisionmultiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidounavigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellitesystem，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(1iquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

电子设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本申请实施例以分层架构的Android系统为例，示例性说明电子设备100的软件结构。

如图8所示，采用分层架构的软件系统分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，电子设备的系统架构(软件系统和硬件系统)可以分为五层，从上至下分别为应用层210、应用框架层220、硬件抽象层230、驱动层240以及硬件层250。

应用层210可以包括相机、图库应用程序包。当然，应用层210还可以包括日历、通话、地图、导航、WLAN、蓝牙、音乐、视频、短信息等应用程序包，图8中未示出。

应用框架层220为应用层210的应用程序提供应用程序访问接口和编程框架。

例如，应用框架层220包括相机访问接口，该相机访问接口用于通过相机管理和相机设备来提供相机的拍摄服务。

应用框架层220中的相机管理用于管理相机。相机管理可以获取相机的参数，例如判断相机的工作状态等。

应用框架层220中的相机设备用于提供不同相机设备以及相机管理之间的数据访问接口。

硬件抽象层230用于将硬件抽象化。比如，硬件抽象层230可以包相机硬件抽象层以及其他硬件设备抽象层。相机硬件抽象层中可以包括相机设备1、相机设备2、追踪设备等。可以理解，相机设备1、相机设备2和追踪设备等可以为通过软件或软件与硬件的结合实现的功能模块。在电子设备开机时，或电子设备运行过程中，会创建对应的进程或启动对应的流程，以实现相机设备1、相机设备2和追踪设备对应的功能。其中，追踪设备用于实现目标追踪的功能。

相机硬件抽象层可以与相机算法库相连接，相机硬件抽象层可以调用相机算法库中的算法。本申请实施例中，相机算法库中包括追踪器(即追踪算法)。可选的，追踪器可以通过以下模块实现：区域选取模块、区域调整模块、模板特征提取网络、追踪网络等。

区域选取模块用于在视频流的第n帧图像中确定初始目标区域(也称为第一目标区域)。

区域调整模块用于对初始目标区域的位置和/或大小进行调整，得到调整后的目标区域(以下简称调整目标区域，也称为第二目标区域)。

模板特征提取网络用于对调整目标区域进行特征提取，得到模板特征。

追踪网络用于根据模板特征，对输入追踪网络的图像(称为输入图像)进行目标跟踪。

当然，相机算法库中还可以包括其他预设算法，例如去紫边算法、饱和度调整算法等等，本申请实施例对此不做任何限定。

驱动层240用于为不同的硬件设备提供驱动。比如，驱动层可以包括相机驱动；数字信号处理器驱动以及图形处理器驱动。

硬件层250可以包括传感器、图像信号处理器、数字信号处理器、图形处理器以及其他硬件设备。其中，传感器可以包括传感器1、传感器2等，还可以包括深度传感器(timeofflight，TOF)和多光谱传感器。

下面结合拍照预览场景下的目标追踪过程，示例性说明电子设备100的软件系统的工作流程。

当用户在触摸传感器180K上对相机APP的图标执行点击操作时，相机APP被点击操作唤醒，并进入拍照预览模式。相机APP通过相机访问接口调用相机硬件抽象层的各个相机设备。示例性的，相机硬件抽象层判断出当前变焦倍数小于0.6变焦倍数，由此，可以通过向相机设备驱动下发调用广角摄像头的指令。同时相机算法库开始加载相机算法库中的算法。

当硬件层的传感器被调用后，例如，调用广角摄像头中的传感器1获取原始图像后，将原始图像发送给图像信号处理进行配准等初步处理，处理后经相机设备驱动返回相机硬件抽象层，再利用加载的相机算法库中的其他预设算法进行处理，得到帧图像1。

相机硬件抽象层将得到的帧图像1经相机访问接口发送回相机APP进行预览显示。

当用户在触摸传感器180K上对帧图像1的位置1执行点击操作时，相机APP响应于点击操作，通过相机访问接口调用相机硬件抽象层的追踪设备。相机硬件抽象层的追踪设备调用相机算法库中的追踪器。追踪器从帧图像1中获取初始目标区域，对初始目标区域进行区域调整后得到调整目标区域，之后对调整目标区域提取模板特征。

相机APP按照上述过程继续获取下一帧图像，得到帧图像2。之后，追踪设备调用相机算法库中的追踪器。追踪器根据从帧图像1提取的模板特征，对帧图像2进行目标追踪，得到目标在帧图像2中的位置。相机硬件抽象层的追踪设备生成该位置对应的追踪标识。追踪标识用于标识目标在帧图像2中的位置。其中，相机算法库中的追踪器及其他预设算法可以通过数字信号处理器驱动调用数字信号处理器、图形处理器驱动调用图形处理器，以实现算法的运行。

相机硬件抽象层将得到的帧图像2和追踪标识经相机访问接口发送回相机APP。相机APP在电子设备的界面中预览显示帧图像2，并显示追踪标识。如此，界面中目标的外围即可呈现追踪标识，提示用户当前目标位于追踪标识限定的区域内。在一个具体的实施例中，追踪标识用于限定出一方形区域。可选的，追踪标识通过完整的方形图形限定出该方形区域，即追踪标识为方形追踪框。可选的，追踪标识也可以仅通过四个角限定出该方形区域。当然，追踪标识也可以为其他形状，本申请实施例对于追踪标识的具体形式不做任何限定。

按照上述帧图像2的生成过程，重复执行，以实现对每帧图像的目标追踪。

为了便于理解，本申请以下实施例将以具有图7和图8所示结构的电子设备为例，结合附图和应用场景，对本申请实施例提供的目标追踪方法进行具体阐述。

本实施例中，主要对目标追踪过程中相机硬件抽象层及相机算法库对图像的处理过程进行说明，关于图像的生成过程可以参见上述实施例，不再赘述。

示例性的，图9是本申请实施例提供的一例目标追踪方法的流程示意图，图10是本申请实施例提供的一例目标追踪方法的原理示意图，请一并参见图9和图10，该方法包括：

S101、电子设备的界面中显示视频流的第n帧图像，响应于用户对第n帧图像中位置1的点击操作，相机硬件抽象层的追踪设备调用相机算法库中的追踪器。

可选的，追踪设备调用追踪器时可以携带第n帧图像以及位置1的信息。

可选的，位置1例如可以为图1中的(b)图中的位置101或图2中的(c)图中的位置203。

S102、追踪器中的区域选取模块响应于追踪设备的调用，根据位置1在第n帧图像中确定初始目标区域。

本实施例中，第n帧图像为视频流中的任一帧图像。n为正整数。第n帧图像为触发启动目标追踪流程的帧图像，是后续进行目标追踪的基础，因此也称为初始帧。视频流中，初始帧之后需基于该初始帧进行目标追踪的帧图像可称为追踪帧。

在一个具体的实施例中，区域选取模块可以以位置1为中心，选择周围预设范围1内的区域作为目标区域。例如，以位置1为中心，按照预设半径选取一圆形区域，作为目标区域。或者，以位置1为中心，选取预设面积的一方形区域，作为目标区域。也就是说，初始目标区域的选取方式和大小均为预设的，因此，在用户点击位置相同的情况下，得到的初始目标区域是相同的。

参见图10，位置1示出为1001，根据位置1确定出的初始目标区域可以如图10中的1002所示。

可选的，位置1的坐标表示为c₀＝{cx₀，cy₀}，初始目标区域的大小表示为{w₀，h₀}。w₀表示宽度，h₀表示高度。初始目标区域的边框可以表示为b₀＝{cx₀，cy₀，w₀，h₀}。

可选的，确定初始目标区域后，界面中还可以根据目标区域在界面中显示目标框，如图1中的(b)图中的目标框102或图2中的(c)图中的目标框204。可以理解，目标框的大小、形式等可以与目标区域的边框完全相同，也可以不同。

S103、区域选取模块向区域调整模块发送初始目标区域。

S104、区域调整模块对初始目标区域进行位置和/或大小调整，得到调整目标区域。

可以理解，本申请实施例中，调整初始目标区域的位置和/或大小，实质是调整初始目标区域的边框的位置和大小，得到新的边框，新的边框限定出的区域称为调整目标区域；或者，基于初始目标区域的位置和大小，在第n帧图像中重新选取与初始目标区域位置和/或大小不同的区域，重新选取的区域称为调整目标区域。

可选的，若初始目标区域包含目标的第一部分，调整目标区域中包含目标的第二部分，则，第二部分的面积大于第一部分的面积。也就是说，调整目标区域中包含的目标特征可以多于初始目标区域中包含的目标特征，这样，调整目标区域内包含目标的显著特征的概率更大。在一个具体的实施例中，调整目标区域中可以包含目标的全部，这样，调整目标区域可以覆盖目标的显著特征。

参见图10，调整目标区域可以如图10中的1003所示。

S105、区域调整模块将调整目标区域输入模板特征提取网络。

S106、模板特征提取网络对调整目标区域进行特征提取，生成模板特征，并对追踪器进行初始化。

可选的，对追踪器进行初始化可以包括设置追踪器的状态为追踪状态等。追踪状态用于表征目标追踪流程已启动。可以理解，追踪器中的各个模块可以根据追踪器的状态执行相关的操作。在接收到追踪设备的调用时，若确定追踪器的状态为追踪状态，则追踪器中的相关模块根据模板特征进行目标追踪。

可选的，模板特征也称为目标特征，可以表示为

可以理解，在执行上述步骤S101至S106的同时，电子设备可以按照上述实施例所述的过程获取视频流的下一帧图像，即第n+1帧图像。由于执行步骤S101至S106一般所需的时间较短，因此在电子设备获取到第n+1帧图像之前，或者电子设备获取到第n+1帧图像的同时，步骤S101至S106即可执行完成。因此，可以根据步骤S106得到模板特征，从第n+1帧图像开始对目标进行追踪。本实施例中，将以步骤S106之后，从第n+1帧图像开始对目标进行追踪为例进行说明。

但是，在其他的实施例中，步骤S106之后，也可以从其他的帧开始对目标进行追踪。例如，可以从第n+2帧图像、第n+5帧图像等开始对目标进行追踪。可选的，当步骤S101至S106需要较长时间，或者除步骤S101至S106之外，方法还包括其他的步骤，致使生成模板特征需要较长时间时，也可以在生成模板特征后，从生成时间距离当前时刻最近的一帧图像开始，对目标进行追踪。本申请实施例对此不做任何限定。

S107、相机硬件抽象层中的追踪设备获取到第n+1帧图像(追踪帧)后，调用相机算法库中的追踪器。

可选的，追踪设备调用追踪器时可以携带第n+1帧图像。

S108、追踪器中的追踪网络响应于追踪设备的调用，根据模板特征，对第n+1帧图像进行目标搜索，确定目标位置和该目标位置对应的目标置信度；目标位置用于表征目标在第n+1帧图像中的位置。

可选的，追踪网络可以从第n+1帧图像中选取大概率包含目标的部分区域作为追踪区域(也称为搜索区域)进行目标搜索，这样能够减小计算量，提高算法运行效率。

具体的，可以提取追踪区域的特征，得到搜索特征并计算模板特征与搜索特征/>之间的相关性，输出目标位置，以及目标位置对应的目标置信度。其中，目标位置实质为追踪网络识别出的包含目标的区域的边框位置。目标位置可以表示为b_n＝{cx_n，cy_n，w_n，h_n}。目标置信度可以表示为ρ_n。

参见图10，追踪网络搜索得到的第n+1帧图像中的目标位置如图10中的1004所示。

S109、追踪网络判断目标置信度是否大于置信度阈值；若是，则执行步骤S110；若否，则执行步骤S113。

置信度阈值可以表示为ρ_th。也即判断ρ_n是否大于ρ_th。

S110、追踪网络生成追踪成功信息；追踪成功信息用于表征目标追踪成功。

S111、追踪网络将目标位置和追踪成功信息返回至相机硬件抽象层的追踪设备。

S112、追踪设备接收到追踪成功信息后，根据目标位置，生成目标位置对应的追踪标识。

之后，电子设备的界面中显示第n+1帧图像和追踪标识。

参见图10，第n+1帧图像中的追踪标识可以如图10中的1005所示。由此可以看出，该追踪标识内包含了目标的显著特征。

S113、追踪网络生成追踪失败信息；追踪失败信息用于表征目标追踪失败，即追踪丢失。

S114、追踪网络将目标位置和追踪失败信息返回至相机硬件抽象层的追踪设备。

可选的，该步骤中，追踪网络也可以仅将追踪失败信息发送至相机硬件抽象层的追踪设备，而不发送目标位置，以简化算法，提高算法运行效率。

S115、追踪设备接收到追踪失败信息后，停止追踪。

追踪设备接收到追踪失败消息后，不生成追踪标识，界面中也不显示追踪标识。而且，追踪设备停止对当前目标的追踪，下一帧图像生成后，追踪设备不再调用相机算库中的追踪器。

可以理解，在追踪过程中，若满足预设的退出追踪条件，则追踪设备也停止追踪。预设的退出追踪条件例如可以为：切换拍照模式等。

另外，在目标追踪成功，且不满足预设的退出追踪条件的情况下，对于视频流中后续的任一帧图像(第n+x帧图像)，按照上述步骤S107至S115同样的方法进行目标追踪。也就是说，上述步骤S112之后，令n＝n+1，返回执行步骤S107。

本申请实施例提供的目标追踪方法，在根据用户点击位置，按照固定大小确定目标区域后，通过对初始目标区域的大小和/或位置进行调整，使目标的第二部分的面积大于第一部分的面积，从而使得到的调整目标区域能够尽可能多地包含目标特征。这样，基于调整目标区域进行特征提取得到的模板特征更多，提高目标追踪的准确性。而且，调整目标区域包含的目标特征多，其包含显著特征的概率更大，基于调整目标区域进行特征提取得到的模板特征更具有区分度，从而使根据模板特征进行追踪时，能够更准确地识别目标，即提高目标追踪的准确性。

下面对目标区域的调整过程进行进一步说明。

示例性的，图11为本申请实施例提供的一例目标区域调整过程的流程示意图，图12为本申请实施例提供的一例目标区域调整的原理示意图。请一并参见图11和图12，上述步骤S104中，“对初始目标区域进行位置和/或大小调整，得到调整目标区域”，包括：

S201、根据初始目标区域，在第n帧图像中选取感兴趣区域，感兴趣区域包含初始目标区域，且大于目标区域的面积。

如上所述，位置1的坐标表示为c₀＝{cx₀，cy₀}，初始目标区域的大小表示为{w₀，h₀}。可选的，感兴趣区域的中心可以与初始目标区域的中心重合，即感兴趣区域的中心也为c₀＝{cx₀，cy₀}。则感兴趣区域的范围(即边框)可以表示为ROI＝{cx₀，cy₀，αw₀，ah₀}。其中，α大于1。可以理解，感兴趣区域实质为第n帧初始图像中的一部分，也为图像，因而感兴趣区域也可以称为感兴趣图像。感兴趣区域可以表示为I_roi。

可选的，也可以在第n帧图像中，将初始目标区域的边框向外拉伸，得到感兴趣区域。本申请实施例对于感兴趣区域的选取方式不做限定。

如图12所示，初始目标区域示出为1201，位置1示出为1202，感兴趣区域示出为1203。

S202、对感兴趣区域进行高斯模糊处理，得到模糊图像。

对感兴趣区域进行高斯模糊处理的过程可以表示为：I_gauss＝GaussianBlur(I_roi)。其中，I_qauss表示模糊图像。

具体的，I_gauss＝I_roi*w_k。

其中w_k表示大小为k的高斯核，*表示卷积运算。

通过高斯模糊处理，能够滤除感兴趣区域中的非重点内容，保留重点内容，后续主要对重点内容进行处理，减小运算量，从而提高算法运行效率。

图12中，模糊图像示出为1204。

S203、对模糊图像进行基于颜色的k均值聚类(k-meansclustering)，得到k个聚类。k为大于1的整数。

具体的，对于所有样本X＝{x₁，...，x_n}，随机初始化k个聚类中心：设置最大迭代次数为N，然后迭代地通过以下步骤a和步骤b更新聚类中心：

步骤a：分配：

对于0≤i＜n，分别计算每个样本x_i到第k个聚类中心的欧氏距离：/> 将x_i标记为距离最小的聚类中心的类别，即：

步骤b：更新：

对于0≤j＜k，更新每个聚类中心：

若所有的聚类中心都没有更新，则停止迭代，输出聚类结果(k个聚类)；否则继续迭代直到达到最大迭代次数N，输出聚类结果(k个聚类)。

参见图12，k-means聚类结果示出为1205。图12中，以k为4为例，对模糊图像进行基于颜色的k-means聚类，得到4个聚类，每个聚类对应一种颜色。图12中k-means聚类结果1205所示的聚类中心分别对应四种颜色。

S204、以k个聚类分别作为掩模(mask)，对模糊图像进行二值化掩码处理，得到与k个聚类一一对应的k张二值化掩码图(也称为二值化掩模图)。

也就是说，经过步骤S204，能够得到k个二值化掩码图像。如图12所示，k为4时，对k-means聚类结果1205进行二值化掩码处理得到的4张二值化掩码图分别为图12中的a1图、a2图、a3图和a4图。其中，图12中的a1图为颜色1聚类对应的二值化掩码图，图12中的a2图为颜色2聚类对应的二值化掩码图，图12中的a3图为颜色3聚类对应的二值化掩码图，图12中的a4图为颜色4聚类中心对应的二值化掩码图。

S205、分别对k张二值化掩码图进行中值滤波处理，得到k张滤波图像。

中值滤波处理能够滤除图像中较小的离散区域，减少图像处理噪声，提高图像处理效率，且能够提高图像处理的准确度。

S206、分别取k张滤波图像中的连通域，得到m个连通域。

连通域是指二值化图像中，具有相同像素值且相邻的像素点构成的连通区域。其中，相邻的像素指得是在图像中上、下、左、右或对角线方向上相邻的像素。

可选的，对于第k个聚类对应的二值化掩码图B，可以利用两遍扫描法(two-pass)取连通域：

第一遍扫描：初始化标签label(x，y)＝0，遍历B中的像素，如果B(x，y)＝＝1，则：

a、如果B(x，y)邻域内的像素值都为0，更新标签值label和像素B(x，y)的值：

label＝+1，B(x，y)＝label。

b、如果B(x，y)邻域内有像素值大于1，则将B(x，y)赋值为邻域内的最小值，并将相同邻域内的标签保存在一个集合L_k中。

第二遍扫描：遍历所有像素，如果B(x，y)>0，找到B(x，y)所属的标签集合L_k，并将B(x，y)赋值为L_k的最小值。

两遍扫描完成后，具有相同值的像素即构成一个连通域。可以理解，每张滤波图像经过取连通域处理后，可能得到一个连通域，也可能得到多个连通域。假设k张滤波图像计算总共得到m个连通域。

S207、分别计算m个连通域的面积，滤除m个连通域中面积小于面积阈值的连通域，得到n个连通域。n小于或等于m。

滤除面积较小的连通域，减小这些连通域对图像处理的影响，一方面减小算法运算量，提高算法运行效率，另一方面能够减小这些连通域对图像处理结果的干扰，提高处理结果的准确性。

S208、分别计算n个连通域对应的最小外接矩形。

n个连通域中的第i个连通域的最小外接矩形表示为b_i，则n个最小外接矩形的集合可以表示为：B_c＝{b_i，i∈n}，b_i＝{cx_i，cy_i，w_i，h_i}。

如图12中的a1图、a2图、a3图和a4图所示，各个连通域对应的最小外接矩形如白色实线框所示。

S209、将各个最小外接矩形分别映射至第n帧图像中，计算各个最小外接矩形限定的区域(下称为候选区域)与初始目标区域的重叠率。

重叠率表征候选区域与初始目标区域的重叠部分的面积，占二者总覆盖面积的比例。

可选的，可以通过交并比计算候选区域与初始目标区域的重叠率。例如，可以通过距离交并比(distance intersection over union，DIoU)：

其中，DIoU_i表示第i个候选区域与初始目标区域的距离交并比。b_i表示第i个候选区域的边框，即第i个最小外接矩形。b₀表示初始目标区域的边框。d表示第i个候选区域与初始目标区域的中心点的欧氏距离，c表示第i个候选区域与初始目标区域的最小闭包的对角线距离。参见图13，第i个候选区域示出为1301，初始目标区域示出为1302，候选区域1301与初始目标区域1302的最小闭包示出为1303。则，d、c如图所示。

可选的，也可以通过其他的方式计算或表征候选区域与初始目标区域的重叠率，本申请实施例对此不做任何限定。

S210、将所有(n个)重叠率中的最大重叠率对应的候选区域确定为调整目标区域。

可以理解，最大重叠率对应的候选区域也即n个候选区域中包含目标特征最多的候选区域。

参见图12，调整目标区域可以如图中的1206所示。

可以理解，上述步骤S202、步骤S205和步骤S207可以为可选的步骤，实际应用中，也可以不执行，以减小运算量，提高算法运行效率。

另外，上述步骤S202至步骤S207实质是为了实现对感兴趣区域的图像分割，将感兴趣区域中包含不同对象的区域分开来，得到多个子区域。实际应用中，也可以通过其他的方法进行图像分割，例如，阈值分割法、边缘提取法、基于神经网络的图像分割方法等等，本申请实施例对此不做任何限定。

继续参见图12，在一个实施例中，步骤S104之后，步骤S105之前，还可以包括：

确定调整目标区域对应的重叠率(即最大重叠率)是否大于预设重叠阈值；若是，则执行步骤S105；若否，则将初始目标区域输入模板特征提取网络，对初始目标区域进行特征提取，生产模板特征，并对追踪器进行初始化。

即判断是否DIoU_max>τ，若是，则基于调整目标区域进行目标追踪；若否，则基于初始目标区域进行目标追踪。DIoU_max表示n个重叠率中的最大重叠率，也即调整目标区域对应的重叠率，τ表示预设重叠阈值。τ为大于0且小于1的值。

最大重叠率DIoU_max大于预设重叠阈值τ，说明调整目标区域距离初始目标区域较近，和/或，与初始目标区域重叠的部分较多，即说明调整目标区域不会偏离初始目标区域太远或者初始目标区域重叠的部分较少，该区域可以作为目标追踪时的目标区域。

最大重叠率DIoU_max大小于或等于预设重叠阈值τ，说明调整目标区域距离初始目标区域较远，或，与初始目标区域重叠的部分较少。调整目标区域若作为目标追踪时的目标区域，会偏离用户点击位置较多，违背用户意图，影响用户体验，因而仍然使用初始目标作为目标追踪时的目标区域。

本实施例提供的方法，将调整目标区域与初始目标区域的重叠率与预设重叠阈值比较，在最大重叠率大于预设重叠阈值时，才将将调整目标区域作为最终目标追踪时的目标区域。这样，能够防止目标追踪时的目标区域过于偏离初始目标区域，即过于偏离用户的点击位置，防止影响用户原本的选择给用户带来不好的体验。

下面对图9所示实施例中的步骤S108的实现过程进行说明。

在一个实施例中，追踪网络中可以包括局部浅层网络、局部深层网络、全局深层网络等，局部浅层网络、局部深层网络、全局深层网络均用于根据模板特征对输入图像进行目标搜索，输出目标的位置和位置对应的置信度。可选的，局部浅层网络、局部深层网络、全局深层网络可以为卷积神经网络。局部浅层网络和局部深层网络的用于对局部区域进行搜索。全局深层网络用于对全局区域进行搜索。局部深层网络和全局深层网络的网络深度或网络宽度大于局部浅层网络。

具体的，步骤S108中，“响应于追踪设备的调用，根据模板特征，对第n+1帧图像进行目标搜索，确定目标位置和该目标位置对应的目标置信度”，以及步骤S109中“判断目标置信度是否大于置信度阈值”，可以包括：

1)根据目标在第n帧图像中的位置，选取第n+1帧图像的部分区域，得到第一追踪区域。

可选的，可以根据目标的中心点在第n帧图像中的位置，选取第一追踪区域。具体的，可以在第n+1帧图像中，将目标的中心点在第n帧图像中的位置作为中心，选取预设范围2的区域，得到第一追踪区域。第一追踪区域的面积小于第n+1帧图像的面积，也就是说，第一追踪区域为第n+1帧图像中的局部区域。

可选的，预设范围2可以大于预设范围1，从而使第一追踪区域的面积大于目标区域的面积，即第一追踪区域的分辨率可以高于目标区域。第一追踪区域的分辨率大于目标区域，后续基于第一追踪区域进行搜索时搜索成功的概率更大，从而使目标追踪的成功率更高。

2)将第一追踪区域输入局部浅层网络，局部浅层网络根据模板特征，对第一追踪区域进行目标搜索，输出第一位置和所述第一位置对应的第一置信度；第一位置用于表征目标在第n+1帧图像中的位置。

4)判断第一置信度是否大于置信度阈值；若是，则将第一位置作为目标位置，并执行步骤S110；若否，则执行下述步骤5)。

第一置信度大于置信度阈值，表示局部浅层网络对目标搜索成功，即追踪成功，执行步骤S110，以将第一位置作为目标位置输出。第一置信度小于或等于置信度阈值，表示局部浅层网络对目标搜索失败，执行步骤5)，以进入局部深层搜索阶段。

5)将第一追踪区域输入局部深层网络，局部深层网络根据模板特征，对第一追踪区域进行目标搜索，输出第二位置和第二位置对应的第二置信度；第二位置用于表征目标在第n+1帧图像中的位置。

6)判断第二置信度是否大于置信度阈值；若是，则将第二位置作为目标位置，并执行步骤S110；若否，则执行步骤7)。

第二置信度大于置信度阈值，表示局部深层网络对目标搜索成功，即追踪成功，执行步骤S110，以将第二位置作为目标位置输出。第二置信度小于或等于置信度阈值，表示局部深层网络对目标搜索失败，执行步骤7)，以进入全局深层搜索阶段。

7)对第n+1帧图像进行划分，得到多个第二追踪区域。

可选的，可以按照预设的划分方式对第n+1帧图像进行划分。例如，可以按照网格划分方法、基于像素点聚类的方法、区域候选网络(region proposal network，RPN)方法等将第n+1帧图像划分为多个第二追踪区域。

可选的，第二追踪区域的面积可以大于第一追踪区域，即第二追踪区域的分辨率大于第一追踪区域，这样，在基于第二追踪区域进行全局深层搜索时，搜索成功的概率更大，从而使目标追踪的成功率更高。

8)将各个第二追踪区域分别输入全局深层网络，全局深层网络根据模板特征，对各个第二追踪区域分别进行目标搜索，分别输出多个第三位置和各个第三位置对应的第三置信度；第三位置用于表征目标在第n+1帧图像中的位置。

9)判断是否存在大于置信度阈值的第三置信度；若是，则将大于置信度阈值的第三置信度对应的第三位置作为目标位置，并执行步骤S110；若否，则执行步骤S113。

若存在第三目标置信度，表示全局深层网络对目标搜索成功，即追踪成功，执行步骤S109，以将大于置信度阈值的第三置信度对应的第三位置作为目标位置输出。若不存在大于置信度阈值的第三置信度，即所有第三置信度均小于或等于置信度阈值，表示全局深层网络对目标搜索失败，即追踪失败，执行步骤S113，以停止追踪。

本实施例提供的目标追踪方法，基于局部浅层网络、局部深层网络和全局深层网络对目标进行搜索。三种网络在网络深度或网络宽度、输入图像的分辨率，以及搜索范围上呈递进关系。这样，在目标追踪过程中，首先通过局部浅层网络对图像的局部进行低分辨率的浅层搜索，在搜索失败的情况下，再通过局部深层网络对图像的局部进行低分辨率的深层搜索，即加深搜索的网络深度和/或宽度，以提高搜索准确度。局部深层网络仍搜索失败，再通过全局深层网络对图像的全局进行高分辨率的深层搜索，即进一步增大输入图像的分辨率，并扩大搜索范围，以进一步提高搜索准确度。如此，对于困难场景的目标搜索能够提高追踪精度，减小目标追踪丢失的可能性。同时，搜索过程中，根据搜索结果逐步加深搜索深度，或者加大输入图像分辨率，或者扩大搜索范围，相较于只通过全局深层网络进行追踪，该方法能够防止在非困难场景下进行非必要的深层搜索，或高分辨率搜索，或全局搜索，以减小算法运行复杂度，提高目标追踪的实时性，且能够降低设备功耗。

当然，上述追踪网络的结构，以及追踪网络进行目标追踪的方法仅作为一种示例。实际应用中，追踪网络可以包括比如上结构更多或更少的网络，或者，也可以采取其他任何能够实现目标追踪的方法，本申请对此不做任何限定。

实施例二：

本实施例主要对涉及稳定性检测的目标追踪方法进行说明。

本实施例中提供的目标追踪方法所适用的电子设备的硬件结构可以与实施例一相同，不再赘述。

示例性的，图14为本申请实施例提供的另一例电子设备的系统架构示意图。如图14所示，本实施例提供的目标追踪方法所适用的电子设备的软件架构与实施例一类似，不同点在于，追踪器中未区域调整模块，但是包括稳定性检测模块。稳定性检测模块用于对区域选取模块选取的初始目标区域进行追踪稳定性检测。其他模块的功能参见实施例一，不再赘述。

示例性的，图15是本申请实施例提供的又一例目标追踪方法的流程示意图，图16是本申请实施例提供的又一例目标追踪方法的原理示意图，请一并参见图15和图16，该方法包括：

S301、电子设备的界面中显示视频流的第n帧图像，响应于用户对第n帧图像中位置1的点击操作，相机硬件抽象层的追踪设备调用相机算法库中的追踪器。

S302、追踪器中的区域选取模块响应于追踪设备的调用，根据位置1在第n帧图像中确定初始目标区域。

该过程与实施例一中图9和图10所示过程一致，不再赘述。

S303、区域选取模块将初始目标区域发送至稳定性检测模块。

S304、稳定性检测模块检测初始目标区域的追踪稳定性是否满足要求；若满足要求，则执行步骤S305；若不满足要求，则不开启目标追踪，结束本次流程。

初始目标区域的追踪稳定性满足要求，说明基于初始目标区域进行目标追踪时，稳定性较高，不容易追踪丢失，因而执行步骤S304开启目标追踪。初始目标区域的追踪稳定性不满足要求，说明基于初始目标区域进行目标追踪时，稳定性较低，容易追踪丢失，因而不开启目标追踪，直接结束本次流程，待下一次接收到用户点击操作后，再执行步骤S301，开启下一次追踪流程。

S305、稳定性检测模块将初始目标区域输入模板特征提取网络。

S306、模板特征提取网络对初始目标区域进行特征提取，生成模板特征，并对追踪器进行初始化。

S307、相机硬件抽象层中的追踪设备获取到第n+1帧图像(追踪帧)后，调用相机算法库中的追踪器。

S308、追踪器中的追踪网络响应于追踪设备的调用，根据模板特征，对第n+1帧图像进行目标搜索，确定目标位置和该目标位置对应的目标置信度；目标位置用于表征目标在第n+1帧图像中的位置。

S309、追踪网络判断目标置信度是否大于置信度阈值；若是，则执行步骤S310；若否，则执行步骤S313。

S310、追踪网络生成追踪成功信息；追踪成功信息用于表征目标追踪成功。

S311、追踪网络将目标位置和追踪成功信息返回至相机硬件抽象层的追踪设备。

S312、追踪设备接收到追踪成功信息后，根据目标位置，生成目标位置对应的第一追踪标识。

之后，电子设备的界面中显示第n+1帧图像和追踪标识。

S313、追踪网络生成追踪失败信息；追踪失败信息用于表征目标追踪失败，即追踪丢失。

S314、追踪网络将目标位置和追踪失败信息返回至相机硬件抽象层的追踪设备。

S315、追踪设备接收到追踪失败信息后，停止追踪。

上述步骤S306至S315与实施例一中的步骤S106至S115一致，不再赘述。

本申请实施例提供的目标追踪方法，在获取初始目标区域后，对初始目标的追踪稳定性进行检测，若追踪稳定性满足要求，则对目标区域进行特征提取，开启目标追踪；否则不开启目标追踪。这样，开启目标追踪后，追踪丢失的可能性较小，提高了目标追踪的稳定性和持续性，提高用户体验。

下面对追踪稳定性检测的过程进行进一步说明。

示例性的，图17为本申请实施例提供的一例追踪稳定性检测过程的流程示意图，图18为本申请实施例提供的一例追踪稳定性检测的原理示意图。请一并参见图17和图18，上述步骤S304中，“检测初始目标区域的追踪稳定性是否满足要求”，包括以下步骤。以下步骤的执行主体可以为稳定性检测模块，不再赘述。

S401、对初始目标区域进行特征提取，生成模板特征。

可选的，可以由稳定性检测模块进行特征提取，也可以由稳定性检测模块将初始目标区域将稳定性检测模块输入模板特征提取网络，模板特征提取网络特征提取后将生成的模板特征返回至稳定性检测模块。本申请实施例对此不做任何限定。

特征提取的过程与上述步骤S306类似，不同点在于，该步骤仅进行模板特征提取，不初始化追踪器，即，不开启目标追踪。

S402、在第n帧图像中，对初始目标区域的边框进行尺度变换和/或平移变换，得到Z个变换框，Z为大于或等于1的整数。

可选的，尺度变换是指对初始目标区域的边框的大小进行改变。尺度变换可以包括压缩、膨胀等，即将初始目标区域的边框缩小或扩大。可选的，平移变换是指平移初始目标区域的边框，改变其在图像中的位置。平移变换的方向可以为垂直向上、垂直向下、水平向左、水平向右、沿对角线向左上或沿对角线向右下等。对初始目标区域的边框进行尺度变换和/或平移变换包括：对初始目标区域的边框进行尺度变换，对初始目标区域的边框进行平移变换，或者对初始目标区域的边框既进行尺度变换，又进行平移变换。对初始目标区域的边框变换后的框称为变换框。

初始目标区域的边框可以表示为b₀＝{cx₀，cy₀，w₀，h₀}，变换框可以表示为：b_n(s，t)＝g(t，f(s，b₀))。f(s，b₀)表示对初始目标区域的边框b₀做尺度因子为s的尺度变换，g(t，f(s，b₀))表示对尺度变换后的框做尺度因子为x的平移变换。其中，尺度因子s和平移因子x可以根据需求设置。例如，尺度因子s可以为0.8，表示将初始目标区域的边框缩小至原来的80％；平移因子x可以为0.3，表示将初始目标区域的边框向某一方向平移30％。

参见图18，第n帧图像中，用户点击位置1后，确定出初始目标区域的边框1801。对初始目标区域的边框1801进行压缩变换，之后向上、下、左、右分别作平移变换，得到4个变换框，如图中的图像1802所示。图像1802中的变换框可以表示为b_s＝{cx_i，cy_i，w_i，h_i}，i∈[0，4)。

对初始目标区域的边框1801进行膨胀变换，之后向上、下、左、右分别做平移变换，得到4个变换框，如图中的图像1803所示。图像1803中的变换框可以表示为b_l＝{cx_j，cx_j，w_j，h_j}，j∈[0，4)。

可以理解，步骤S402实质是用于实现对初始目标区域的数据增广，以得到变换框限定出的区域(以下称为变换区域)。在一些其他的实施例中，也可以采取其他方式对初始目标区域进行数据增广，得到多个变换区域，例如，旋转、翻转、调整灰度、对比度等，本申请实施例对此不做任何限定。

S403、根据模板特征，分别对各个变换框限定出的区域(即变换区域)进行目标搜索，确定各个变换区域中的目标位置，以及目标位置对应的目标置信度(共得到Z个目标位置和对应的Z个目标置信度)。

具体的，对于任一个变换区域a，对该变换区域进行特征提取，得到搜索特征a。将搜索特征与模板特征进行匹配，即计算二者之间的相关性，得到变换区域中的目标位置a和目标位置a对应的目标置信度a。

换句话说，该步骤中，是将各个变换区域作为追踪区域，参照上述步骤S308的实现过程，分别进行目标搜索。

该步骤中，得到的Z个目标位置中的第z个可以表示为第z个目标位置对应的目标置信度可以表示为ρ_z，z∈Z。

S404、确定Z个目标置信度中大于置信度阈值的个数T。T大于或等于0且小于或等于Z。

即确定目标置信度ρ_z是否满足ρ_z>ρ_th，z∈Z。

某一个变换区域对应的目标置信度大于置信度阈值，说明该变换区域中存在目标，即对该变换区域进行目标追踪的追踪结果为成功。

S405、确定大于置信度阈值的个数T是否大于预设数量Y；若是，则确定满足稳定性要求；若否，则确定不满足稳定性要求。

也即，确定是否满足∑(p_z>P_th)>Y。大于置信度阈值的个数T大于预设数量Y，说明Z个变换区域中较多个变换区域中存在目标，即，对Z个变换区域进行目标追踪，较多变换区域能够成功追踪，说明对该初始目标区域中的目标进行追踪，能够较稳定的追踪，目标不容易丢失，因此说明初始目标区域中存在显著目标，确定初始目标区域追踪稳定性满足要求。因此，执行步骤S406，开启目标追踪。否则，说明Z个变换区域中较多变换区域中不存在目标，即，对Z个变换区域进行目标追踪，较多变换区域追踪失败，说明对该初始目标区域中的目标进行追踪，不能够较稳定的追踪，目标容易丢失，因此说明初始目标区域中不存在显著目标，确定初始目标区域追踪稳定性不满足要求。

预设数量Y的值可以根据变换框的个数Z确定，例如，Z为8时，预设数量Y可以为6，也可以为7、8等。预设数量Y越大，追踪稳定性要求越高，初始目标区域越不容易达到追踪稳定性要求，开启目标追踪的可能性越小。反之亦然。

在一个具体的实施例中，预设数量Y＝ceil(Z*0.7)，其中，Z表示变换框的个数，也即变换区域的个数。ceil(x)表示天花板函数，表示对实数向大取整。按照该公式确定预设数量，能够使预设数量Y的取值与变换框的个数Z相关，且大小合适，从而使追踪稳定性要求不会过高也不会过低，开启目标追踪不会过难也不会过于容易，提高用户体验。

另外，在设置尺度因子s和平移因子x时，尺度因子s和/或平移因子x越大，表示变换尺度越大，越不容易达到追踪稳定性要求，开启目标追踪的可能性越小。反之亦然。

示例性的，图19中示出了不同尺度因子对应的不同追踪稳定性检测结果。其中，图19中的(a)图为初始目标区域的示意图。尺度因子s为0.8，平移因子x为0.3的情况下，按照上述步骤S401至S405进行追踪稳定性检测，不满足追踪稳定性要求，不开启目标追踪，界面中仅显示目标框，如图19中的(b)图所示。尺度因子s为1.0，平移因子x为0.3的情况下，按照上述步骤S401至S405进行追踪稳定性检测，满足追踪稳定性要求，开启目标追踪，界面中显示追踪标识，如图19中的(c)图所示。尺度因子s为1.0，平移因子x为0.1的情况下，按照上述步骤S401至S405进行追踪稳定性检测，满足追踪稳定性要求，开启目标追踪，界面中显示追踪标识，如图19中的(d)图所示。

可以理解，上述过程相当于用Z个变换区域模拟视频流中后续追踪帧内的追踪区域，并模拟对初始目标区域中目标进行追踪的过程，判断追踪的稳定性。若稳定，说明后续实际追踪成功率较高，不容易追踪丢失，因而可以开启目标追踪。若不稳定，说明后续实际追踪成功率较低，容易追踪丢失，因而不开启目标追踪。如此，一方面若开启追踪，追踪稳定性较高，提高用户体验。另一方面，若不开启追踪，能够防止浪费资源。该方法能够简单、准确的判断追踪稳定性。

可选的，在一个实施例中，在确定初始目标区域的追踪稳定性满足要求的情况下，开启目标追踪后，可以不再对初始目标区域进行模板特征提取，直接利用上述步骤S401生成的模板特征进行目标追踪。这样，能够简化运算过程，提高算法运行效率。

实施例三：

本实施例主要对既涉及目标区域调整又涉及追踪稳定性检测的目标追踪方法进行说明。

本实施例中提供的目标追踪方法所适用的电子设备的硬件结构可以与实施例一、二相同，不再赘述。

示例性的，图20为本申请实施例提供的又一例电子设备的系统架构示意图。如图20所示，本实施例提供的目标追踪方法所适用的电子设备的软件架构与实施例一、二类似，不同点在于，本实施例中，追踪器中既包括区域调整模块又包括稳定性检测模块。

本实施例中，稳定性检测模块用于对区域调整模块调整得到的调整目标区域进行追踪稳定性检测。其他模块的功能参见实施例一、二，不再赘述。

简单来说，本实施例提供的目标追踪方法可以将上述实施例一和上述实施例二的方案结合，先通过上述实施例一提供的方法对初始目标区域进行调整，得到调整目标区域。之后，对调整目标区域进行追踪稳定性检测，确定调整目标区域的追踪稳定性满足要求后开启追踪，否则不开启追踪。本实施例提供的目标追踪方法的具体实现过程和有益效果等可以参见上述实施例一和实施例二，不再赘述。

上文详细介绍了本申请实施例提供的目标追踪方法的示例。可以理解的是，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对电子设备进行功能模块的划分，例如，可以对应各个功能划分为各个功能模块，例如检测单元、处理单元、显示单元等，也可以将两个或两个以上的功能集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

需要说明的是，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

本实施例提供的电子设备，用于执行上述目标追踪方法，因此可以达到与上述实现方法相同的效果。

在采用集成的单元的情况下，电子设备还可以包括处理模块、存储模块和通信模块。其中，处理模块可以用于对电子设备的动作进行控制管理。存储模块可以用于支持电子设备执行存储程序代码和数据等。通信模块，可以用于支持电子设备与其他设备的通信。

其中，处理模块可以是处理器或控制器。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，数字信号处理(digital signal processing，DSP)和微处理器的组合等等。存储模块可以是存储器。通信模块具体可以为射频电路、蓝牙芯片、Wi-Fi芯片等与其他电子设备交互的设备。

在一个实施例中，当处理模块为处理器，存储模块为存储器时，本实施例所涉及的电子设备可以为具有图7所示结构的设备。

本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质中存储了计算机程序，当计算机程序被处理器执行时，使得处理器执行上述任一实施例的目标追踪方法。

本申请实施例还提供了一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述相关步骤，以实现上述实施例中的目标追踪方法。

另外，本申请的实施例还提供一种装置，这个装置具体可以是芯片，组件或模块，该装置可包括相连的处理器和存储器；其中，存储器用于存储计算机执行指令，当装置运行时，处理器可执行存储器存储的计算机执行指令，以使芯片执行上述各方法实施例中的目标追踪方法。

其中，本实施例提供的电子设备、计算机可读存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

通过以上实施方式的描述，所属领域的技术人员可以了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种目标追踪方法，其特征在于，包括：

显示第一拍摄界面，所述第一拍摄界面的第一区域用于显示摄像头拍摄的视频流；

当所述第一区域显示所述视频流的第n帧图像时，接收用户在所述第n帧图像的第一位置输入的第一操作，n为正整数，所述第n帧图像中包含目标；

响应于所述第一操作，根据所述第一位置，在所述第n帧图像中确定第一目标区域，所述第一目标区域中包含所述目标的第一部分；

根据所述第一目标区域，在所述第n帧图像中确定第二目标区域，所述第二目标区域中包含的所述目标的第二部分，所述第二部分的面积大于所述第一部分的面积；

基于所述第二目标区域，对所述视频流的第n+x帧图像中的所述目标进行追踪，x为正整数。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一目标区域，在所述第n帧图像中确定第二目标区域，包括：

根据所述第一目标区域，在所述第n帧图像中确定感兴趣区域，所述感兴趣区域中包含所述第一目标区域；

对所述感兴趣区域进行图像分割，得到多个子区域；

分别确定所述多个子区域的最小外接矩形；

分别确定多个候选区域与所述第一目标区域的重叠率，得到与所述多个候选区域一一对应的多个重叠率，所述候选区域为所述最小外接矩形在所述第n帧图像中限定出的区域；

将所述多个重叠率中的最大重叠率对应的候选区域确定为所述第二目标区域。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第二目标区域，对所述视频流的第n+x帧图像中的所述目标进行追踪，包括：

若所述最大重叠率大于预设重叠阈值，则基于所述第二目标区域，对所述视频流的第n+x帧图像中的所述目标进行追踪。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

若所述最大重叠率小于或等于所述预设重叠阈值，则基于所述第一目标区域，对所述视频流的第n+x帧图像中的所述目标进行追踪。

5.根据权利要求2至4中任一项所述的方法，其特征在于，所述对所述感兴趣区域进行图像分割，得到多个子区域，包括：

对所述感兴趣区域进行高斯模糊处理，得到模糊图像；

对所述模糊图像进行基于颜色的k均值聚类，得到多个聚类；

以所述多个聚类分别作为掩模，对所述模糊图像进行二值化掩码处理，得到与所述多个聚类一一对应的多张二值化掩码图；

基于所述多张二值化掩码图，执行取连通域操作，得到所述多个子区域。

6.根据权利要求5所述的方法，其特征在于，所述基于所述多张二值化掩码图，执行取连通域操作，包括：

对所述多张二值化掩码图分别进行中值滤波处理，得到多张滤波图像；

基于所述多张滤波图像，执行取连通域操作，得到所述多个子区域。

7.根据权利要求6所述的方法，其特征在于，所述基于所述多张滤波图像，执行取连通域操作，得到所述多个子区域：

分别对所述多张滤波图像执行取连通域操作，得到多个连通域；

分别计算所述多个连通域的面积；

滤除所述多个连通域中面积小于面积阈值的连通域，得到所述多个子区域。

8.根据权利要求2至7中任一项所述的方法，其特征在于，所述分别确定多个候选区域与所述第一目标区域的重叠率，得到与所述多个候选区域一一对应的多个重叠率，包括：

分别计算所述多个候选区域与所述第一目标区域的交并比，得到所述多个重叠率。

9.根据权利要求1至8中任一项所述的方法，其特征在于，所述基于所述第二目标区域，对所述视频流的第n+x帧图像中的所述目标进行追踪，包括：

对所述第二目标区域进行特征提取，得到模板特征；

根据所述模板特征，确定所述视频流的第n+x帧图像中所述目标的位置和对应的置信度。

10.根据权利要求1至9中任一项所述的方法，其特征在于，所述基于所述第二目标区域，对所述视频流的第n+x帧图像中的所述目标进行追踪之前，所述方法还包括：

确定所述第二目标区域的追踪稳定性满足预设条件。

11.根据权利要求10所述的方法，其特征在于，所述确定所述第二目标区域的追踪稳定性满足预设条件，包括：

基于所述第n帧图像，对所述第二目标区域进行数据增广，得到多个变换区域；

对所述多个变换区域分别进行目标搜索，确定所述目标在各个所述变换区域中的位置和对应的置信度；

若确定所述多个变换区域中的第一变换区域的个数大于预设数量，则确定所述第二目标区域的追踪稳定性满足预设条件，所述第一变换区域对应的置信度大于置信度阈值。

12.一种目标追踪方法，其特征在于，包括：

当所述第一区域显示所述视频流的第n帧图像时，接收用户在所述第n帧图像中的第一位置输入的第一操作，n为正整数；

响应于所述第一操作，根据所述第一位置，在所述第n帧图像中确定第三目标区域，所述第三目标区域中包含目标的部分或全部；

若所述第三目标区域的追踪稳定性满足预设条件，则基于所述第三目标区域，对所述视频流的第n+x帧图像中的所述目标进行追踪，x为正整数。

13.根据权利要求12所述的方法，其特征在于，所述方法还包括：

基于所述第n帧图像，对所述第三目标区域进行数据增广，得到多个变换区域；

若所述多个变换区域中的第一变换区域的个数大于预设数量，则确定所述第三目标区域的追踪稳定性满足预设条件；所述第一变换区域对应的置信度大于置信度阈值。

14.根据权利要求12或13所述的方法，其特征在于，所述基于所述第n帧图像，对所述第三目标区域进行数据增广，得到多个变换区域，包括：

在所述第n帧图像中，对所述第三目标区域的边框进行尺度变换和平移变换中的至少一项处理，得到多个变换框；

将所述各个变换框限定出的区域确定为所述变换区域。

15.根据权利要求14所述的方法，其特征在于，所述平移变换的方向包括垂直向上、垂直向下、水平向左、水平向右、沿对角线向左上和沿对角线向右下中的至少一种。

16.根据权利要求12至15中任一项所述的方法，其特征在于，所述根据所述第一位置，在所述第n帧图像中确定第三目标区域，包括：

根据所述第一位置，按照预设尺寸，在所述第n帧图像中确定所述第三目标区域。

17.根据权利要求12至15中任一项所述的方法，其特征在于，所述根据所述第一位置，在所述第n帧图像中确定第三目标区域，包括：

根据所述第一位置，按照预设尺寸，在所述第n帧图像中确定第一目标区域，所述第一目标区域中包含所述目标的第一部分；

根据所述第一目标区域，在所述第n帧图像中确定所述第三目标区域，所述第三目标区域中包含的所述目标的第二部分，所述第二部分的面积大于所述第一部分的面积。

18.根据权利要求17所述的方法，其特征在于，所述根据所述第一目标区域，在所述第n帧图像中确定所述第三目标区域，包括：

对所述感兴趣区域进行图像分割，得到多个子区域；

分别确定所述多个子区域的最小外接矩形；

将所述多个重叠率中的最大重叠率对应的候选区域确定为所述第三目标区域。

19.一种电子设备，其特征在于，包括：处理器、存储器和接口；

所述处理器、所述存储器和所述接口相互配合，使得所述电子设备执行如权利要求1至18中任一项所述的方法。

20.一种芯片系统，其特征在于，包括处理器；所述处理器用于读取并执行存储器中存储的计算机程序，以执行如权利要求1至18中任一项所述的方法。

21.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储了计算机程序，当所述计算机程序被处理器执行时，使得所述处理器执行权利要求1至18中任一项所述的方法。