CN114697525B

CN114697525B - 一种确定跟踪目标的方法及电子设备

Info

Publication number: CN114697525B
Application number: CN202011607731.4A
Authority: CN
Inventors: 张超; 徐健; 张雅琪; 刘宏马; 贾志平; 吕帅林
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2023-06-06
Anticipated expiration: 2040-12-29
Also published as: EP4258649A1; US20240062392A1; CN114697525A; WO2022143230A1; EP4258649A4

Abstract

本发明涉及视频处理领域，公开了一种确定跟踪目标的方法及电子设备，本申请提供一种视频拍摄的方法，电子设备获取N帧图像，然后获取用户的对于屏幕中目标物体的第一操作；电子设备显示面积循环变化的目标框；根据用户对于目标物体的第二操作，获取第N帧图像中目标框的信息；根据目标框的信息，确定目标物体的特征向量。

Description

一种确定跟踪目标的方法及电子设备

技术领域

本申请涉及视频处理领域，尤其涉及一种确定跟踪目标的方法及电子设备。

背景技术

现在的电子设备大部分都具有视频拍摄功能。在用户进行视频拍摄时，可以让视频画面跟随视频中的某个特定目标，也即无需用户手动调节，视频画面会随着某个特定目标的移动而发生变化，使特定目标始终保持在视频画面的中心位置。上述功能可以称为目标跟踪。

现有技术中，通过目标检测与用户单次点击确定跟踪目标的方式来选定需要跟踪的特定目标。在用户点击特定目标前，电子设备启动目标检测，检测出视频画面中指定类别的物体的位置和大小，并将其显示在目标框内。当用户的点击坐标位于某个目标框内时，即确定该目标框内的物体为需要跟踪的特定目标。现有技术的缺点是目标检测所能检测的物体类别有限，不能实现任意物体的跟踪。并且受限于目标检测算法，如果物体的尺寸不符合算法的要求，则电子设备无法检测到目标。此外，运行目标检测算法需要占用处理器资源，增加功耗。

发明内容

本申请提供的一确定跟踪目标的方法及电子设备，可以让用户快速便捷地确定视频录制场景中目标跟踪模式下的跟踪目标，提升用户选择跟踪目标的范围，以实现跟踪更多种类目标的目的。

第一方面，本申请提供一种视频拍摄的方法，电子设备获取N帧图像，然后获取用户的对于屏幕中目标物体的第一操作；电子设备显示面积循环变化的目标框；

根据用户对于目标物体的第二操作，获取第N帧图像中目标框的信息；

根据目标框的信息，确定目标物体的特征向量。

结合第一方面，可以理解的是，在一些实施方式中，在显示面积循环变化的目标框之后，还包括：确定用户是否有对目标物体的第三操作；

若有第三操作，则确定用户是否有对目标物体的第四操作。

结合第一方面，可以理解的是，在另外一些实施方式中，若用户没有对目标物体的第三操作，则确定用户是否有第二操作；若用户没有第二操作，则继续显示所述面积循环变化的目标框；若用户有第二操作，则获取第N帧图像中所述目标框的信息。

结合第一方面，可以理解的是，在另外一些实施方式中，若确定用户有对目标物体的第四操作，则获取第四操作；确定用户是否取消第四操作；若用户未取消第四操作，则继续获取用户对于目标物体的第四操作；若用户取消第四操作，则确定用户是否对目标物体有第二操作。

结合第一方面，可以理解的是，在另外一些实施方式中，若确定用户没有对目标物体的第四操作，则获取用户对目标物体的第二操作。

结合第一方面，可以理解的是，在另外一些实施方式中，若用户有对目标物体的第二操作，则获取第二操作；确定用户是否取消第二操作；若用户没有对目标物体的第二操作，则获取第N帧图像中目标框的信息。

结合第一方面，可以理解的是，在另外一些实施方式中，若用户取消第二操作，则获取第N帧图像中目标框的信息；若用户未取消第二操作，则继续获取第二操作。

结合第一方面，可以理解的是，在另外一些实施方式中，第一操作为点击操作，第二操作为二次点击操作，第三操作为长按操作，第四操作为拖动操作。

结合第一方面，可以理解的是，在另外一些实施方式中，目标框的信息包括目标框的面积与位置。

第二方面，本申请提供一种电子设备，包括屏幕、存储器和处理器，屏幕接收用户对于屏幕中的目标物体的操作；

存储器用于存储计算机程序；

处理器用于调用计算机程序，使得电子设备执行上述第一方面中的任一项所述的方法。

第三方面，本申请提供一种计算机存储介质，包括：计算机指令；当计算机指令在电子设备上运行时，使得电子设备执行上述第一方面中的中任一项所述的方法。

附图说明

图1A是本申请实施例提供的一种电子设备获取的图像帧的示意图；

图1B是本申请实施例提供的一种电子设备100的硬件结构示意图；

图1C是本申请实施例提供的一种电子设备100的软件结构示意图

图2A～图2J是本申请实施例提供的一些电子设备100接收用户操作来确定跟踪目标的用户界面示意图；

图3是本申请实施例提供的一种实现目标跟踪的方法示意图；

图4是本申请实施例提供的一种跟踪目标的特征向量示意图；

图5是本申请实施例提供的一种确定跟踪目标的目标框的方法流程图；

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

下面介绍本申请实施例涉及的应用场景以及本申请实施例需要用到的相关术语。

(1)目标跟踪

有拍摄视频功能的电子设备，可以在视频拍摄时对视频画面中的某个特定物体进行跟踪拍摄，也即目标跟踪。目标跟踪的方式有两种：第一种是首先电子设备的图像信号处理器(image signal processor，ISP)获取到一帧广角图像，如图1A所示，ISP获取到的广角图像是图像101。如果确定跟踪目标是人物103，则以人物103为中心，裁切一部分图像(如图像102)，并将图像102重新确定大小，并固定裁切图像的分辨率(如将分辨率固定为1080P)，然后将经过上述处理的图像显示到屏幕上，展示给用户。第二种是使用辅助设备(如云台等)，这些辅助设备可以随着用户的运动进行旋转和切换镜头来实现不同视野的调整，从而能够持续拍摄特定目标。本申请中的目标跟踪使用上述两种方式中的第一种。

电子设备的摄像头可以获取到连续的图像帧，用户可以在电子设备显示的连续的图像帧中第N帧选定跟踪目标。本申请实施例中的目标跟踪也可以是指，电子设备可以在连续的第N帧图像后(如：第N+1帧)的图像帧中确定出用户选定的跟踪目标。电子设备可以标注出图像帧中的跟踪目标。

在本申请中，电子设备是可以显示连续的图像帧的设备，如手机、平板电脑、台式电脑、电视机等。本申请实施例对电子设备不做限定。在本申请的实施例中，电子设备显示的一帧图像可以称为图像帧或者第N帧图像。

(2)跟踪目标

在本申请的实施例中，将第N帧图像中用户确定的某个特定物体(例如，人、植物或动物、汽车等)称为跟踪目标。

(3)神经网络

神经网络可以是由神经单元组成的，神经单元可以是指以x_s和截距1为输入的运算单元，该运算单元的输出可以参考下述公式(1)：

其中，s＝1、2、……、n，n为大于1的自然数，W_s为x_s的权重，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，用于将非线性特性引入神经网络中，来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入。激活函数可以是sigmoid函数。神经网络是将许多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

(4)卷积神经网络

卷积神经网络(convolutional neuron network，CNN)是一种带有卷积结构的神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器，卷积过程可以看作是使用一个可训练的滤波器与一个输入的图像或者卷积特征平面(feature map)做卷积。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包含若干个特征平面，每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。这其中隐含的原理是：图像的某一部分的统计信息与其他部分是一样的。即意味着在某一部分学习的图像信息也能用在另一部分上。所以对于图像上的所有位置，都能使用同样的学习得到的图像信息。在同一卷积层中，可以使用多个卷积核来提取不同的图像信息，一般地，卷积核数量越多，卷积操作反映的图像信息越丰富。

卷积核可以以随机大小的矩阵的形式初始化，在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外，共享权重带来的直接好处是减少卷积神经网络各层之间的连接，同时又降低了过拟合的风险。

(5)特征匹配算法

本申请用到的特征匹配算法是，将跟踪目标的目标小图的特征(例如特征为6*6*128)作为卷积核，在图像帧特征图(例如特征为22*22*128)上进行卷积，得到得分地图(Score map)，上述Score map为一个分值矩阵(例如17*17的矩阵)。在Score map上分值越大的点(对应图像帧上的一片区域)，表示对应图像帧上的这一片区域与目标的特征越相像，也即该片区域是跟踪目标所在位置的可能性越高。

(6)中心加权算法

在特征匹配算法中得到的Score map上，增加一个余弦窗，也即给分值矩阵中的每个点乘以一个系数。最中心的点对应上一帧目标所在的位置，系数为1。从中心点向外扩散，每个点乘以的系数越来越小，表示远离中心的点惩罚增加。

下面，介绍本申请以下实施例中提供的示例性的电子设备100。

图1B示出了电子设备100的结构示意图。

下面以电子设备100为例对实施例进行具体说明。应该理解的是，图1B所示电子设备100仅是一个范例，并且电子设备100可以具有比图1中所示的更多的或者更少的部件，可以组合两个或多个的部件，或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

电子设备100可以包括：处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。显示屏194可以接受用户的点击或者滑动操作，来确定视频拍摄中的跟踪目标。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入，产生与电子设备100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作，马达191也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

图1C是本申请实施例的电子设备100的软件结构框图。分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。应用程序层可以包括一系列应用程序包。

如图1C所示，应用程序包可以包括相机、图库、日历、通话、地图、导航、WLAN、蓝牙、音乐、视频、短信息等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架，应用程序框架层包括一些预先定义的函数。

如图1C所示，应用程序框架层可以包括窗口管理器、内容提供器、视图系统、电话管理器、资源管理器、通知管理器等。

窗口管理器用于管理窗口程序，窗口管理器可以获取显示屏大小，判断是否有状态栏、锁定屏幕、截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频、图像、音频、拨打和接听的电话、浏览历史和书签、电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串、图标、图片、布局文件、视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息、发出提示音、电子设备振动、指示灯闪烁等。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)、媒体库(media libraries)、三维图形处理库(例如：OpenGL ES)、2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频、视频格式回放和录制以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4、H.264、MP3、AAC、AMR、JPG和PNG等。

三维图形处理库用于实现三维图形绘图、图像渲染、合成和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动、摄像头驱动、音频驱动、传感器驱动。

下面介绍本申请涉及的一些典型的拍摄场景。

如图2A所示，电子设备100可以包括摄像头21。其中，摄像头21可以为前置摄像头。摄像头21还可以包含后置摄像头。电子设备100可以显示如图2A所示的用户界面200。用户界面200可以包括应用图标显示区域23、具有常用应用程序图标的托盘24。其中：

应用图标显示区域23可以包含图库图标231，响应于作用在图库图标231的用户，例如触摸操作，电子设备100可以开启图库应用程序，从而显示电子设备100中存储的图片和视频等信息。电子设备100中存储的图片和视频中包括电子设备100通过相机应用程序拍摄的照片和视频。应用图标显示区域23还可以包括更多的应用程序图标，例如智慧生活、设置、日历、畅联通话、时钟、应用商城、备忘录等图标，本申请实施例对此不做限定。

具有常用应用程序图标的托盘24可展示相机图标22。响应于作用在相机图标22上的用户操作，例如触摸操作，电子设备100可以开启相机应用程序，从而进行拍照以及录像等功能。其中，电子设备100开启相机应用程序时，可以开启摄像头21(前置摄像头和/或后置摄像头)，来实现拍照以及录像等功能。具有常用应用程序图标的托盘23还可以展示更多的应用程序图标，例如电话、信息、通讯录等图标，本申请实施例对此不作限定。

用户界面200还可以包含更多或更少的内容，例如显示当前时间和日期的控件、显示天气的控件等等。可以理解的是，图2A仅仅示例性示出了电子设备100上的用户界面，不应构成对本申请实施例的限定。

响应于作用在相机图标22上的用户操作，电子设备100可以显示如图2B所示的用户界面210。用户界面210可以包括预览区域221、编辑控件220、比例调整控件219、闪光灯控件218、智能识物控件217、滤镜控件216、设置控件215、相机模式选择轮盘211、图库快捷控件214、快门控件212、摄像头翻转控件213等。其中：

预览区域221可以用于显示摄像头21实时采集的图像。电子设备可以实时刷新其中的显示内容，以便于用户预览摄像头21当前采集的图像。

编辑控件200可以用于给当前实时采集的图像添加涂鸦或者表情。

比例调整控件219可以用于调整当前显示的预览区域221的显示比例，如16:9、4:3等。

闪光灯控件218可以用于开启或者关闭闪光灯。

智能识物控件217可以用于使用人工智能算法识别当前采集的图像的类别，并做相应的处理。

滤镜控件216可以用于模拟相机的滤光镜，调整光源的颜色。

设置控件215可以用于调整拍摄照片的参数以及开启或关闭一些用于拍照的方式(如定时拍照、微笑抓拍、声控拍照等)。设置控件215可以用于设置更多其他拍摄的功能，如设置画面比例、设置视频分辨率、设置跟拍模式、设置水印等，本申请实施例不作限定。

相机模式选择轮盘211中可以显示有一个或多个拍摄模式选项。这一个或多个拍摄模式选项可以包括：夜景模式、人像模式、拍照模式、录像模式、专业模式等。这一个或多个拍摄模式选项在界面上可以表现为文字信息，例如“夜景”、“人像”、“拍照”、“录像”、“专业”、“更多”。不限于此，这一个或多个摄像选项在界面上海可以表现为图标或者其他形式的交互元素(interactive element,IE)。当检测到作用与录像模式选项上的用户操作，电子设备100可以开启用户选择的拍摄模式。不限于图2B所示，相机模式选择轮盘211中该可以包含更多或更少的拍摄模式选项。用户可以通过在相机模式选择轮盘211中向左/右滑动来浏览其他拍摄模式选项。

图库快捷控件214可以用于开启图库应用程序。响应于作用在图库快捷控件214上的用户操作，例如点击操作，电子设备100可以开启图库应用程序。这样，用户可以便捷地查看拍摄的照片和视频，而无需先退出相机应用程序，再开启图库应用程序。图库应用程序是智能手机、平板电脑等电子设备上的一款图片管理的应用程序，又可以称为“相册”，本实施例对该应用程序的名称不做限制。图库应用程序可以支持用户对存储于电子设备100上的图片进行各种操作，例如浏览、编辑、删除、选择等操作。

快门控件212可以用于监听触发拍照的用户操作。电子设备100可以检测到作用于快门控件212的用户操作，响应于该操作，电子设备100可以将预览区域221中的图像保存为图库应用程序中的图片。另外，电子设备100还可以在图库快捷控件213中显示所保存的图像的缩略图。也即是说，用户可以点击快门控件212来触发拍照。其中，快门控件212可以是按钮或者其他形式的控件。

摄像头翻转控件213可以用于监听触发翻转摄像头的用户操作。电子设备100可以检测到作用于摄像头翻转控件213的用户操作，例如点击操作，响应于该操作，电子设备100可以翻转用于拍摄的摄像头，例如将后置摄像头切换为前置摄像头，或者将前置摄像头切换为后置摄像头。

用户界面210还可以包含更多或者更少的内容，本申请实施例对此不作限定。

图2C至图2J示例性的示出了电子设备100进行视频拍摄时采用目标跟踪的用户界面。

如图2B所示，响应于用户对于设置控件215的点击操作，进入设置界面。示例性的，设置界面可以为如图2C所示的用户界面230。在用户界面230中，可以包括但不限于拍照类的设置选项、视频类的设置选项、通用类的设置选项等。在拍照类的设置选项中，可以包括画面比例选项，例如画面比例可以为4:3；还可以包括声控拍照选项，例如可以将声控拍照打开或者关闭。在视频类的设置选项中，可以包括视频分辨率选项，例如1080P；还可以包括跟踪模式，例如可以将跟踪模式打开或者关闭，在跟踪模式下电子设备可以使用目标跟踪的功能。在通用类的设置选中中，可以包括自动添加水印选项，例如可以将自动添加水印选项打开或者关闭；还可以包含定时拍摄选项，例如可以将定时拍摄选项打开或者关闭。

响应于用户对于跟踪模式选项的点击，可以开启或者关闭跟踪模式。在开启跟踪模式的情况下，如图2B所示，响应于用户对于快门控件212的点击操作，电子设备100开始录像，也即拍摄视频。在开始拍摄视频后，如图2D所示，在电子设备上显示用户界面240。在用户界面240中，预览区域靠上的位置有跟踪指示开关241。

跟踪指示开关241能够表示目前是否打开目标跟踪模式，响应于用户对于跟踪指示开关241的操作，可以打开或者关闭跟踪模式。在目标跟踪模式打开的情况下，用户可以进行确定跟踪目标的操作。

在用户界面240中，有一个人物244(也可以是任意物体)。在视频开始录制后，在用户界面240的下方，有时间控件242用来显示视频开始录制的时长。电子设备100开始录制视频后，用户可以在用户界面240中点击人物244，在用户点击的位置处会出现以触摸处为圆心(或中心)的目标框243。

目标框243可以是圆形也可以是其他形状，本申请对目标框的形状不做限定。在一些实施例中，在跟踪模式开启的情况下，用户点击人物244后，目标框243会随着时间的变化而改变形状的大小。

在另外一些实施例中，用户需要长按在人物244上，目标框243才会随着时间的变化而改变形状的大小。如图2E所示，在人物244静止的情况下，用户持续按压触摸处，随着时间的增长，例如时间控件242由图2D中的00:02到了图2E中的00:03，目标框243的面积逐渐变大。

随着用户按压人物244的时间增加，如图2F所示，时间控件242由图2E中的00:03增加到了图2F中的00:05，目标框243的面积相比图2E中的目标框243的面积又进一步增大，以覆盖更大的目标范围。

如果用户继续持续按压人物244，则如图2G所示，时间控件242由图2F中国的00：05增加到了00：06，目标框243的面积相比图2F中的目标框243的面积减小了。

在上述实施例中，随着用户持续按压目标，目标框243的面积会循环增大到减小，如图2D至图2G所示。可以理解的是，目标框243面积增大的最大范围为视频录制界面的全部显示界面，目标框243的最小范围为用户点击目标时屏幕的触摸点。上述实施例的优点在于，可以让用户更加自由地选择跟踪目标，并且能够使用户更加方便地选择大小不同的跟踪目标。

在一些实施例中，在跟踪模式打开的情况下，用户可以在选取跟踪目标的时候，如果未能点击到目标的中心位置，用户可以拖动手指，来达到目标框243的中心随着手指拖动而变动的目的。随着目标框243的中心位置移动，目标框243的面积也会循环式的增大并且缩小。如图2H所示，用户初始点击人物244的上方位置，产生初始目标框243。随着用户将目标框243的中心向下拖动，目标框243的面积逐步增大，显示为目标框243a。可以理解的是，在上述实施例中只要用户的手指不离开屏幕，以用户点击位置为中心的目标框243会循环增大和减小；并且，用户的拖动手势和目标框243面积的变化可以同步进行。

在另外一些实施例中，在跟踪模式打开的情况下，视频录制界面中的物体(例如人物)可能会发生移动或者运动。在这种场景下，用户点击屏幕的位置可以随着物体的移动而移动，或者随着人物的运动而运动，也即用户点击屏幕的位置始终在物体上并跟随物体移动。可以理解的是，在上述场景下，目标框243的面积也会随着用户按压时间的增长而循环增大和减小。如图2I所示，人物244从视频录制界面中的最左侧运动到最右侧，用户在人物244出现在视频录制界面的最左侧时点击人物244，产生初始目标框243；随着人物244运动到视频录制界面的中间位置，用户的手指跟随人物244的运动而移动到屏幕的中间位置，初始目标框243的面积逐步增大并显示为目标框243b；随着人物244运动到视频录制界面的最右侧，用户的手指跟随人物244的运动而移动到屏幕的右侧位置，目标框243b的面积逐步减小并显示为目标框243c。在上述实施例中，用户可以更加便捷地将运动中的物体选取为跟踪目标。

在一些实施例中，在跟踪模式打开的情况下，视频录制界面中的物体(例如人物)可能会移动至视频录制界面的外部，可能会导致因为物体的特征缺失而无法确定跟踪的目标。在上述的实施例中，在物体移动出视频录制界面外的情况下，视频录制界面中会出现提示用户转动电子设备的文字或者图标提示。如图2J所示，在视频录制界面250中，人物244移动到了视频录制界面250的边缘，此时如果人物244继续移动，目标框243无法获取人物244的特征，从而无法确定跟踪目标。在电子设备检测到人物244移动到视频录制界面250边缘时，在视频录制界面250上出现提示245，可以理解的是，提示245可以是文字也可以是图标等其他形式，本申请对此不做限定。提示245可以是“请转动手机，以保持目标在画面中”。在上述实施例中，电子设备可以智能提示用户，让用户能够避免因未注意或者不知道如何操作而导致无法确定跟踪目标的情况。

下面介绍本申请中确定跟踪目标的一些方法。

如图3所示，电子设备在视频录制的跟踪模式下，确定跟踪目标的方法包括步骤S310。在步骤S310中，电子设备确认初始跟踪目标。具体跟踪目标的确认方法如本申请前述实施例所述，在此不再赘述。在用户确认跟踪目标后，进入步骤S320。

在步骤S320中，电子设备分别提取跟踪目标的特征和当前视频帧的特征。例如，跟踪目标的特征可以用特征向量F1(N)表示，视频帧的特征可以用F(N)表示。电子设备在步骤S322中提取F1(N)，在步骤S321中提取F(N)。

在步骤S330中，获取特征向量F1(N)与特征向量F(N)后，电子设备执行前述特征匹配算法与中心加权算法，对F1(N)与F(N)进行特征匹配。如图4所示，电子设备可以通过特征提取算法对跟踪目标图像进行特征提取，得到并保存跟踪目标图像的特征(例如纹理特征、轮廓特征、颜色特征等等)，具体的，电子设备可以对踪目标图像进行特征提取得到的特征向量表示跟踪目标图像对应的跟踪目标的特征。可以将第N帧图像中指定目标(人物244)的特征用特征向量F1(N)表示。特征向量可以表示跟踪目标的颜色特征、纹理特征、轮廓特征等其他特征。例如，特征向量F1(N)可以表示指定目标(人物244)的纹理特征，轮廓特征、颜色特征等等中的一项或多项。此处将指定目标(人物244)的特征向量F1(N)具体形式，以及大小不作限定。例如，F1(N)可以是包含n个数值的特征向量[0.5，0.6，0.8，…，0.9，0.7，0.3]。其中，n为整数，可以是128，256，512等等，n的大小不作限定。电子设备将指定目标(人物244)的特征提取之后，将指定目标(人物244)的特征保存至跟踪模板中，跟踪模板中存储特征向量F(N)。

跟踪模板可用于表示跟踪目标的一个或多个特征。电子设备提取跟踪目标的特征之后，电子设备将跟踪目标的特征保存至跟踪模板中。在后续连续的视频帧中，当电子设备将图像帧中的指定目标的特征与跟踪模板中跟踪目标的特征进行匹配。

在步骤S340中，若匹配成功，则电子设备在该图像帧中确定该指定目标为跟踪目标。当用户指定跟踪目标后，电子设备将在第N帧图像之后的图像帧中对跟踪目标进行跟踪。

接下来介绍电子设备如何对跟踪目标进行跟踪的。

电子设备可以采取任意一种方式对跟踪目标进行跟踪。

在第N帧图像之后的连续的图像帧中，电子设备以上一帧图像中目标框243的中心为搜索中心，以其目标框的尺寸的M倍为搜索区域来对跟踪目标进行跟踪。电子设备根据跟踪目标的特征和搜索区域内的每个像素点得到搜索区域内每个像素点的响应值，若搜索区域内像素点对应的最大响应值大于预设响应值，则搜索区域内有跟踪目标。则电子设备标记出该帧图像中该跟踪目标所处的位置。之后，电子设备自动对焦至该跟踪目标，以使跟踪目标拍摄地更清楚。

在步骤S350中，当电子设备在第N+1帧图像中确定跟踪目标的中心点之后，电子设备将以跟踪目标的中心点为中心，以确定尺寸大小的裁剪框对获取到的第N+1帧图像进行裁剪，得到新的图像。一般的，裁剪框的预设尺寸要比目标框243的尺寸大。示例性的，裁剪框的预设尺寸可以是电子设备获取到的原始图像的尺寸一半或四分之三，本申请对于裁剪框的预设尺寸大小不做限定。

在一些实施例中，当电子设备在视频录制界面中标记出跟踪目标在第N+1帧图像帧中的位置后，可以在跟踪目标的位置上或周围显示出指定目标对应的类。

在电子设备的预览流中，显示经过裁剪的新的图像。

下面介绍本申请中，确定目标框的一些方法。

在步骤S501中，电子设备先获取视频流，视频流中包含N帧图像帧。

在步骤S502中，电子设备获取用户对于屏幕中目标物体的第一操作(例如，点击操作)，并进入步骤S503。可以理解的是，该目标物体可以是静止或者运动的物体或者人物、动物等，本申请对此不做限定。

在步骤S503中，经过用户的点击操作后，视频录制界面中显示面积不断循环变化的(例如，大小不同的)，并且以点击点为中心的目标框。可以理解的是，只要用户的手指没有离开电子设备的屏幕，则视频录制界面会持续循环显示面积大小不同的目标框。并且目标框的最大面积和最小面积如上述实施例所述，在此不再赘述。进入步骤S504。

在步骤S504中，电子设备判断用户是否长按屏幕，或者判断用户是否长按目标框。可以理解的是，此处的长按操作就是用户的手指对于电子设备屏幕的持续按压。如果用户没有长按目标框，则进入S506；如果确定用户长按了目标框，则进入步骤S505。

在步骤S506中，因为用户没有长按目标框，电子设备判断用户是否再次点击目标框。如果用户没有再次点击目标框，则返回步骤S503；如果用户再次点击目标框，则进入步骤S512。

在步骤S505中，因为确定用户长按目标框，则下一步判断用户是否拖动目标框。如果用户拖动了目标框，则进入步骤S507；如果用户没有拖动目标框，则进入步骤S510。

在步骤S507中，因为确定用户拖动了目标框，则电子设备获取用户对于目标框的拖动操作，然后进入步骤S508。

在步骤S508中，电子设备判断用户是否取消了拖动操作。如果用户没有取消拖动操作，则返回步骤S507；如果用户取消了拖动操作，则进入步骤S509。

在步骤S509中，电子设备再次判断用户是否在拖动目标框后长按目标框。如果没有继续长按目标框，则进入步骤S512；如果在用户拖动目标框后，仍然长按目标框，则进入步骤S510。

在步骤S510中，电子设备会获取用户对于目标框的长按操作，进入步骤S511。

在步骤S511中，电子设备判断用户是否会取消会目标框的长按操作。如果确定没有取消长按操作，则返回步骤S510继续获取用户对于目标框的长按操作；如果确定用户取消了长按操作，则进入步骤S512。

在步骤S512中，电子设备获取第N帧图像中目标框的信息(包括但不限于，面积大小信息和位置信息)。进入步骤S513。

在步骤S513中，电子设备根据步骤S512获取到的目标框的面积大小和位置信息来确定跟踪目标的特征向量。确定跟踪目标的特征向量的方法如图3所述的实施例，在此不再赘述。

可以理解的是，上述步骤之间的顺序不构成对本实施例的限制，也即本实施例中可以没有上述步骤中的部分，上述步骤也可以根据需要进行不同程度的组合。

其他内容参考上文相关内容的描述，不再赘述。

可以理解的是，上述电子设备等为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

本申请实施例可以根据上述方法示例对上述电子设备等进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本发明实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。下面以采用对应各个功能划分各个功能模块为例进行说明：

本申请实施例提供的方法中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例描述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、网络设备、电子设备或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机可以存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，数字视频光盘(digital video disc，DVD))、或者半导体介质(例如，SSD)等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

以上，仅为本申请的具体实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。因此，本申请实施例的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频拍摄的方法，其特征在于，获取N帧图像；

获取用户的对于屏幕中目标物体的第一操作；

显示面积随着时间的变化而循环变化的目标框；

根据用户对于所述目标物体的第二操作，获取第N帧图像中所述目标框的信息，其中，所述第一操作为点击操作，所述第二操作为二次点击操作；

根据所述目标框的信息，确定所述目标物体的特征向量。

2.根据权利要求1所述的方法，其特征在于，在所述显示面积循环变化的目标框之后，还包括：确定用户是否有对所述目标物体的第三操作；

若有所述第三操作，则确定用户是否有对所述目标物体的第四操作。

3.根据权利要求2所述的方法，其特征在于，若用户没有对所述目标物体的所述第三操作，则确定用户是否有第二操作；若用户没有第二操作，则继续显示所述面积循环变化的目标框；若用户有所述第二操作，则获取所述第N帧图像中所述目标框的信息。

4.根据权利要求2所述的方法，其特征在于，若确定用户有对所述目标物体的所述第四操作，则获取所述第四操作；确定所述用户是否取消所述第四操作；若用户未取消所述第四操作，则继续获取所述用户对于所述目标物体的第四操作；若用户取消所述第四操作，则确定用户是否对所述目标物体有所述第三操作。

5.根据权利要求2所述的方法，其特征在于，若确定用户没有对所述目标物体的所述第四操作，则获取所述用户对所述目标物体的所述第三操作。

6.根据权利要求4所述的方法，其特征在于，若用户有对所述目标物体的所述第三操作，则获取所述第三操作；确定用户是否取消所述第三操作；若用户没有对所述目标物体的所述第三操作，则获取所述第N帧图像中所述目标框的信息。

7.根据权利要求6所述的方法，其特征在于，若用户取消所述第三操作，则获取所述第N帧图像中所述目标框的信息；若用户未取消所述第三操作，则继续获取所述第三操作。

8.根据权利要求2至7中任一项所述的方法，其特征在于，所述第三操作为长按操作，所述第四操作为拖动操作。

9.根据权利要求1所述的方法，其特征在于，所述目标框的信息包括目标框的面积与位置。

10.一种电子设备，包括屏幕、存储器和处理器，其特征在于，所述屏幕接收用户对于所述屏幕中的目标物体的操作，所述操作包括点击操作和/或二次点击操作；

所述存储器用于存储计算机程序；

所述处理器用于调用所述计算机程序，使得所述电子设备执行权利要求1至9中任一项所述的方法。

11.一种计算机存储介质，其特征在于，包括：计算机指令；当所述计算机指令在电子设备上运行时，使得所述电子设备执行权利要求1至9中任一项所述的方法。