CN108830219A

CN108830219A - 基于人机交互的目标跟踪方法、装置及存储介质

Info

Publication number: CN108830219A
Application number: CN201810623186.4A
Authority: CN
Inventors: 王盟; 吕宪伟; 王延可; 冀映辉; 蔡炜
Original assignee: Shenzhen Fei Fei Robot Technology Co Ltd; Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Shenzhen Fei Fei Robot Technology Co Ltd; Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2018-06-15
Filing date: 2018-06-15
Publication date: 2018-11-16
Anticipated expiration: 2038-06-15
Also published as: CN108830219B

Abstract

本公开提供一种基于人机交互的目标跟踪方法、装置及存储介质，通过基于用户的目标选取操作所产生触发指令，即可确定所需跟踪的目标，而不需要对连续的多帧图像进行运算学习，才能确定所需跟踪的目标，减少了目标的获取运算，提高目标获取效率和跟踪效率；并通过基于所提取的图像特征检测下一帧中目标图像的位置和尺度，能在一定程度上优化对刚性目标、尺度变换的目标、高速运动的目标和长时间被遮挡的目标的跟踪效果，提高目标跟踪的精度；从而实现在一般的便携式设备上，也能够保证运算效率和目标跟踪的效果。

Description

基于人机交互的目标跟踪方法、装置及存储介质

技术领域

本公开涉及跟踪技术领域，尤其涉及能够应用于便携式设备上基于人机交互的目标跟踪方法、装置及存储介质。

背景技术

跟踪技术一直是计算机视觉领域中的热点之一，其在军事帧察、精确制导、火力打击、战场评估及安防监控等诸多方面都有广泛的应用前景。

现阶段，实现对运动的目标对象的跟踪方法有两种方案，第一种是利用KCF(Kernal Correlation Filter，核相关滤波算法)后叠加HOG(Histogram of OrientedGradient，方向梯度直方图)特征，实现对运动的目标对象的跟踪；第二种是利用KCF后叠加深度特征，实现对运动的目标对象的检测。采用第一种方案时，在目标对象处于较为复杂的场景中，无法对目标对象进行精确的定位和检测，尤其对场景的前景和背景的区分能力不强。第二种方案虽然可以解决第一种方案的问题，但其运算复杂度较高，无法在运算能力一般的便携式设备上较快的运行。

发明内容

为克服相关技术中存在的问题，本公开提供了基于人机交互的目标跟踪方法、装置及存储介质。

根据本公开实施例的第一方面，提供一种基于人机交互的目标跟踪方法，包括：

根据用户的触发指令生成目标跟踪框；其中，所述目标跟踪框用于指示当前帧中目标图像所在区域；

提取下一帧中与目标跟踪框对应的区域内的图像特征，基于所提取的图像特征检测下一帧中目标图像所在的位置及尺度；基于检测结果确定是否更新目标跟踪框的当前位置及当前尺度。

由此，本公开通过基于用户的目标选取操作所产生触发指令，即可确定所需跟踪的目标，而不需要对连续的多帧图像进行运算学习，才能确定所需跟踪的目标，减少了目标的获取运算，提高目标获取效率和跟踪效率；并通过基于所提取的图像特征检测下一帧中目标图像的位置和尺度，能在一定程度上优化对刚性目标、尺度变换的目标、高速运动的目标和长时间被遮挡的目标的跟踪效果，提高目标跟踪的精度；从而实现在一般的便携式设备上，也能够保证运算效率和目标跟踪的效果。

可选地，所述根据用户的触发指令生成目标跟踪框的步骤，包括：

根据由用户点击操作产生的触发指令，获得初始帧中目标图像的超像素；根据获得的超像素生成初始帧中目标图像的初选跟踪框；其中，所述初始帧为触发指令产生时，所显示的图像；

根据初始帧后连续的多帧图像的图像特征，调整所述初选跟踪框，得到当前帧的目标跟踪框。

通过基于用户的点击操作确定目标图像，实现在视频的录制过程中，方便了用户对目标图像的选取操作，降低用户对目标图像的选取难度。

可选地，在调整所述初选跟踪框的过程中，当检测到终止指令时，停止调整所述初选跟踪框，以得到目标跟踪框。

通过在检测到终止指令时，停止调整所述初选跟踪框，不仅保证了由被调整后的初选跟踪框生成的目标跟踪框的准确度，而且适时地减少了调整所产生的运算，能进一步提高目标跟踪框的生成效率。

可选地，所述终止指令由预存的终止函数根据当前初选跟踪框的参数确定是否产生。

通过终止函数根据当前初选跟踪框的参数确定是否产生终止指令，而不是依赖于人为操作产生终止指令，避免因人为因素所产生的运算误差或运算不足，而导致所得到的目标跟踪框精度下降的问题发生，也避免因运算过多而导致运算负担过大和目标跟踪框的获取效率降低的问题发生。

根据由用户执行包围目标图像的触控操作所产生的触发指令，生成当前帧中包围目标图像的图形；

根据所述图形的位置参数和尺度参数生成目标跟踪框。

通过用户执行包围目标图像的操作，生成包围目标图像的图形，从而不需要基于用户选取的超像素点而对多帧图像处理，而是根据该图形的位置参数和尺度参数即可生成目标跟踪框，大大减少了运算步骤，有利于进一步降低运算复杂度，能更好地适用于便携式设备。

可选地，下一帧中目标图像所在的位置通过位置跟踪模板基于所提取的图像特征检测得到；下一帧中目标图像的尺度通过尺度跟踪模板基于所述位置跟踪模板的检测结果检测得到。

通过位置跟踪模板结合尺度跟踪模板实现对目标图像的位置检测和尺度检测，可以在一定程度上简化运算过程；并且尺度跟踪模板的检测是基于位置跟踪模板的检测结果，可以进一步提高对目标图像的跟踪精度。

可选地，所述基于所提取的图像特征检测下一帧中目标图像所在的位置及尺度的步骤，包括：

通过位置跟踪模板计算得到所提取的图像特征的响应值，根据响应值最大的图像特征获得最大响应位置；所述最大响应位置为下一帧中目标图像的中心所在的位置；

通过尺度跟踪模板计算不同的尺度响应因子在最大响应位置处的响应值，根据响应值最大的尺度响应因子获得下一帧中目标图像的尺度。

通过尺度跟踪模板直接计算不同的尺度响应因子在最大响应位置处的响应值，即可实现对目标图像的尺度获取，而不需要基于图像特征实现尺度获取，能进一步简化尺度获取的运算步骤，提高目标跟踪效率。

可选地，本公开基于人机交互的目标跟踪方法，还包括：当检测到当前帧的目标图像处于预设显示区域外时，调整当前帧的位置参数，以使目标图像显示于预设显示区域内。

通过对目标图像的显示方式的限定，实现处于显示区域边缘的目标图像能够被调整而显示于显示区域中部，能使用户更快地查看到目标对象的情况。

根据本公开实施例的第二方面，提供一种基于人机交互的目标跟踪装置，所述装置包括：存储器、处理器、触摸屏和摄像模块；所述存储器存储有多条指令，所述指令可被所述处理器执行而实现前述任一项所述方法的步骤。

根据本公开实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现前述任一项所述方法的步骤。

由于本公开基于人机交互的目标跟踪装置和计算机可读存储介质都涵盖了本公开基于人机交互的目标跟踪方法，故本公开基于人机交互的目标跟踪装置和计算机可读存储介质都包括前述基于人机交互的目标跟踪方法所产生的有益技术效果，在此不再赘述。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

图1是本公开根据一示例性实施例示出的一种基于人机交互的目标跟踪方法的流程图；

图2是本公开根据一示例性实施例示出的终端设备的触摸屏中显示有初始帧时的界面示意图；

图3是本公开根据一示例性实施例示出的用户通过点击操作选取所需跟踪的目标图像时的示意图；

图4是本公开根据一示例性实施例示出的基于用户的点击操作而生成的初选跟踪框的示意图；

图5是本公开根据一示例性实施例示出的基于图4所示的初选跟踪框生成的目标跟踪框的示意图；

图6是本公开根据一示例性实施例示出的用户通过执行包围图2所示的初始帧的目标图像的触控操作，以选取所需跟踪的目标图像时的示意图；

图7是本公开根据一示例性实施例示出的用户经过图6所示的操作，所得到的包围目标图形的示意图；

图8是本公开根据一示例性实施例示出的基于图7所示的图形生成的目标跟踪框的示意图；

图9是本公开根据一示例性实施例示出的初始帧只显示有局部目标图像时的示意图；

图10是本公开根据一示例性实施例示出的当前帧的目标跟踪框的示意图；

图11是本公开根据一示例性实施例示出的将当前帧的目标跟踪框作为下一帧的目标跟踪框时的示意图；

图12是本公开根据一示例性实施例示出的一种基于人机交互的目标跟踪装置的电子设备的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

参照图1，图1是本公开根据一示例性实施例示出的一种基于人机交互的目标跟踪方法的流程图，所述方法可应用于便携式终端中，也可以应用于非便携式终端中，包括以下步骤：

步骤1，根据用户的触发指令生成目标跟踪框；其中，所述目标跟踪框用于指示当前帧中目标图像所在区域。

步骤2，提取下一帧中与目标跟踪框对应的区域内的图像特征，基于所提取的图像特征检测下一帧中目标图像所在的位置及尺度；基于检测结果确定是否更新目标跟踪框的当前位置及当前尺度。

在一实施例中，所述步骤1中的目标跟踪框的生成步骤可以包括：

步骤11，根据由用户点击操作产生的触发指令，获得初始帧中目标图像的超像素；根据获得的超像素生成初始帧中目标图像的初选跟踪框；其中，所述初始帧为触发指令产生时，所显示的图像。

步骤12，根据初始帧后连续的多帧图像的图像特征，调整所述初选跟踪框，得到当前帧的目标跟踪框。

可选地，参照图2～4，图2是本公开根据一示例性实施例示出的终端设备的触摸屏中显示有初始帧时的界面示意图；图3是本公开根据一示例性实施例示出的用户通过点击操作选取所需跟踪的目标图像时的示意图；图4是本公开根据一示例性实施例示出的基于用户的点击操作而生成的初选跟踪框的示意图。在步骤11中，终端设备的触摸屏中显示有初始帧1a，初始帧中显示有所需跟踪的目标1b，如图2所示。当用户需要启用终端设备的跟踪功能或更换所需跟踪的目标时，可以通过在触摸屏上点击所需跟踪的目标的局部区域或像素点，如图3所示，以使所产生的触发指令包含有目标图像的局部位置参数，由此在后续处理中可以获得初始帧中目标图像的一个超像素。然后，可以通过采集处于所述超像素领域的其它超像素，并根据相关技术中的相关策略判断是否将其它超像素加入到基于触发指令所获得的超像素中，在判断处理完成后，即可根据最终得到的超像素区域生成初选跟踪框2a，如图4所示，在图4中，虽然显示有初选跟踪框2a，但在实际中，不一定会显示初选跟踪框2a。

可选地，所述步骤11可以包括：

步骤111，通过超像素分割处理输入的每帧图像，获得每帧图像带权重的多块连接图。显示初始帧，根据由用户当前点击操作所产生的触发指令，于初始帧中选取对应的一个超像素；根据相关策略判断是否将其它超像素加入到基于触发指令所获得的超像素中；完成判断处理后，根据最终得到的超像素区域生成初选跟踪框。其中，基于触发指令所获得的超像素位于其中一块连接图中。

在其他变形实施例中，用户可以通过鼠标点击输入的方式产生触发指令。

在一实施例中，所述步骤12可以包括：

步骤121，对初始帧后输入的每帧图像的多块连接图进行归一化处理，得到每帧图像归一化后的颜色直方图；根据每帧图像的颜色直方图计算每相邻两帧图像的颜色相似度。

步骤122，计算初始帧后输入的每帧图像中每相邻两块连接图之间的通用边界因子。

步骤123，计算初始帧后输入的每帧图像中目标图像的超像素区域大小。

步骤124，通过随机普林算法结合颜色相似度、通用边界因子和超像素区域大小，对所述初选框进行更新计算，得到目标跟踪框。

在步骤124中，对初选框进行更新计算的过程中，需要用到分类器和相关的训练样本，通过用训练样本对分类器不断训练，最终便可以得到所需的目标跟踪框。其中，本公开不限定分类器的类型，也不限定分类的参数，只要所应用到的分类器能够实现本公开所需的功能即可。训练样本可由本领域技术人员根据本公开得到，在此也不赘述。

可选地，参照图5，图5是本公开根据一示例性实施例示出的基于图4所示的初选跟踪框生成的目标跟踪框的示意图。在步骤124中，基于图4所示的初选跟踪框2a，进行运算得到的目标跟踪框2b可以如图5所示，在实际中，目标跟踪框2b会展示给用户。

在另一实施例中，所述步骤1中的目标跟踪框的生成步骤可以包括：

步骤11'，根据由用户执行包围目标图像的触控操作所产生的触发指令，生成当前帧中包围目标图像的图形。

步骤12'，根据所述图形的位置参数和尺度参数生成目标跟踪框。

可选地，参照图6～8，图6是本公开根据一示例性实施例示出的用户通过执行包围图2所示的初始帧的目标图像的触控操作，以选取所需跟踪的目标图像时的示意图；图7是本公开根据一示例性实施例示出的用户经过图6所示的操作，所得到的包围目标图形的示意图；图8是本公开根据一示例性实施例示出的基于图7所示的图形生成的目标跟踪框的示意图。在步骤11'中，终端设备的触摸屏中显示有初始帧，当用户需要启动终端设备的跟踪功能或更换所需跟踪的目标时，如图6和图7所示，可以通过在触摸屏上画出一个能够基本包围当前所需跟踪的目标的图形2c，以使所产生的触发指令包含有所述图形的位置参数。由此在后续处理中可以获得图形的位置参数的同时，根据图形的位置参数获得其尺度参数，这样就可以结合位置参数和尺度参数生成一个目标跟踪框2d，如图8所示。其中，在得到尺度参数后，会选取所述图像在初始帧的横向上的最大长度值、和在初始帧的纵向上的最大宽度值，由此根据最大长度值a和最大宽度值b生成一个长度为a、宽度为b的矩形；或者，生成一个长度为2a、宽度为2b的矩形，该矩形即为目标跟踪框。

在其他变形实施例中，用户可以通过一直按压鼠标在显示屏中画出一个包围目标的图形的方式产生触发指令。

可选地，本公开中，根据初选跟踪框生成的目标跟踪框的面积比初选跟踪框的面积大，这样一来，在初始帧中的目标对象处于初始帧的边缘位置时，即，参照图9，图9是本公开根据一示例性实施例示出的初始帧只显示有局部目标图像时的示意图；初始帧中只有显示有局部的目标图像1b'时，初选跟踪框2a'所包围的目标图像是不完整的，故获取面积比初选跟踪框面积大的目标跟踪框，能够在目标图像完全显示时，更好地包围完整的目标图像。

可选地，参照图10和图11，图10是本公开根据一示例性实施例示出的当前帧的目标跟踪框的示意图；图11是本公开根据一示例性实施例示出的将当前帧的目标跟踪框作为下一帧的目标跟踪框时的示意图。在步骤2中，提取下一帧中与目标跟踪框对应的区域内的图像特征，是指：先以当前帧1a1的目标跟踪框2e作为下一帧1a2的初始目标跟踪框，去提取下一帧1a2的初始目标跟踪框2e内的图像特征。

可选地，所述位置跟踪模板和所述尺度跟踪模板的获取步骤可以包括：

步骤21，根据从所述初始目标跟踪框内提取到的多个图像特征，生成位置回归矩阵。其中，所述尺度回归矩阵与目标图像的位置相关。

步骤22，对所述初始目标跟踪框进行尺度变换，生成尺度不同的多个尺度框；根据从尺度框内提取到的多个图像特征，生成尺度回归矩阵。其中，所述尺度回归矩阵与目标图像的尺度相关。

步骤23，根据位置回归矩阵训练得到位置跟踪模板，根据尺度回归矩阵训练得到尺度跟踪模板。

在本公开中，前述图像特征可以为梯度特征向量，或灰度特征向量。前述尺度包括宽度和长度。

在步骤22中，所述尺度变换可以为随机仿射变换。

在步骤23中，可以通过对两个分类器进行训练，分别得到位置跟踪模板和尺度跟踪模板。其中，所述两分类器的内设参数不一样，至于参数如何设定，本领域技术人员可以根据本公开和相关技术得到，在此不赘述。

可选地，所述步骤2中，下一帧中目标图像所在的位置是通过位置跟踪模板基于所提取的图像特征检测得到的；所述下一帧中目标图像的尺度是通过尺度跟踪模板基于所述位置跟踪模板的检测结果检测得到的。也即，所述基于所提取的图像特征检测下一帧中目标图像所在的位置及尺度的步骤，可以包括：

步骤24，通过位置跟踪模板计算得到所提取的图像特征的响应值，根据响应值最大的图像特征获得最大响应位置；所述最大响应位置为下一帧中目标图像的中心所在的位置。其中，所述中心可以指的是一个像素点，也可以指的是目标图像的中心区域。

步骤25，通过尺度跟踪模板计算不同的尺度响应因子在最大响应位置处的响应值，根据响应值最大的尺度响应因子获得下一帧中目标图像的尺度。

由此，计算得到下一帧的最大响应位置和尺度响应因子后，即可基于最大响应位置确定是否需要更新下一帧中目标跟踪框的当前位置，基于尺度响应因子确定是否需要更新下一帧中目标跟踪框的当前尺度。

可选地，本公开中前述的任一帧图像都可以通过终端设备的摄像模块拍摄得到。

在一实施例中，所述步骤12还可以包括：步骤125，在调整所述初选跟踪框的过程中，当检测到终止指令时，停止调整所述初选跟踪框，以得到目标跟踪框。其中，所述终止指令由预存的终止函数根据当前初选跟踪框的参数确定是否产生。

在步骤125中，在对所述初选跟踪框进行更新计算的过程中，会将每次更新得到的初选跟踪框的参数输入到预存的终止函数中；当通过终止函数计算得到的当前初选跟踪框的参数满足预设的终止条件时，即会产生终止指令。其中，终止条件可以为但不限于：相同物体的超像素未连接的概率值是否小于预设值。

由此，本公开通过利用终止函数根据当前初选跟踪框的参数确定是否产生终止指令，而不是依赖于人为操作产生终止指令，避免因人为因素所产生的运算误差或运算不足，而导致所得到的目标跟踪框精度下降的问题发生，也避免因运算过多而导致运算负担过大和目标跟踪框的获取效率降低的问题发生；从而提高目标跟踪框的生成效率和准确度。

在一实施例中，所述步骤21中，在提取到多个图像特征后，还对各个图像特征进行频域变换，得到对应的图像频域特征；基于图像频域特征生成位置回归矩阵，并对位置回归矩阵进行频域变换，生成位置回归频域矩阵。

在一实施例中，所述步骤22中，在提取到尺度框内的多个图像特征后，还对各个图像特征进行频域变换，得到对应的图像频域特征；基于图像频域特征生成尺度回归矩阵，并对尺度回归矩阵进行频域变换，生成尺度回归频域矩阵。

在一实施例中，所述步骤23可以适应性地替换为：根据位置回归频域矩阵训练得到位置跟踪模板，根据尺度回归频域矩阵训练得到尺度跟踪模板。

其中，特征的频域变换和矩阵的频域变换可通过傅里叶变换实现。

由此，本公开通过基于频域变换后的图像特征生成回归矩阵，并基于频域变换后的回归矩阵生成跟踪模板，使得在运算中，能够利用频域部分的算法实现运算，进一步提高运算效率和目标跟踪效率。

在一实施例中，基于上述任一实施例的基础上，本公开基于人机交互的目标跟踪方法还可以包括：步骤3；当检测到当前帧的目标图像处于预设显示区域外时，调整当前帧的位置参数，以使目标图像显示于预设显示区域内。

可选地，所述步骤3中，所述预设显示区域可以为终端设备的触控屏的显示区域中的中间区域部分，终端可以预先存储触控屏的显示区域中的中间区域的边界上的位置参数。则在检测时，可以通过检测目标图像的中心处的位置参数是否属于所述中间区域的边界的位置参数的范围内，以此判断目标图像是否显示于预设显示区域外。

可选地，所述步骤3中，可以通过调整当前帧在触摸屏显示区域中的显示位置，如当目标图像处于中间区域外的左边区域时，将当前帧向右移动至中间区域内，直至目标图像位于中间区域内。其中，前述移动可以体现为改变当前帧在触摸屏显示区域处的显示范围。

由此，本公开通过对目标图像的显示方式进行限定，实现处于显示区域边缘的目标图像能够被调整而显示于显示区域中部，能使用户更快地查看到目标对象的情况。

与前述基于人机交互的目标跟踪方法的实施例相对应，本公开还提供一种基于人机交互的目标跟踪装置，所述装置包括：存储器、处理器、触摸屏和摄像模块。所述存储器存储有多条指令，所述指令可被所述处理器执行而实现前述基于人机交互的目标跟踪方法的步骤，包括：

从目标跟踪框内提取下一帧中对应区域的图像特征，基于所提取的图像特征检测下一帧中目标图像所在的位置及尺度；基于检测结果确定是否更新目标跟踪框的当前位置及当前尺度。

参照图12，图12是本公开根据一示例性实施例示出的一种基于人机交互的目标跟踪装置的电子设备的结构框图。所述电子设备500可以是计算机，移动电话，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等终端设备。

参照图12，电子设备500可以包括以下一个或多个组件：处理组件501，存储器502，电源组件503，多媒体组件504，音频组件505，输入/输出(I/O)的接口506，传感器组件507，以及通信组件508。

处理组件501通常控制电子设备500的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件501可以包括一个或多个处理器509来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件501可以包括一个或多个模块，便于处理组件501和其它组件之间的交互。例如，处理部件501可以包括多媒体模块，以方便多媒体组件504和处理组件501之间的交互。

存储器502被配置为存储各种类型的数据以支持在电子设备500的操作。这些数据的示例包括用于在电子设备500上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器502可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件503为电子设备500的各种组件提供电力。电源组件503可以包括电源管理系统，一个或多个电源，及其它与为电子设备500生成、管理和分配电力相关联的组件。

多媒体组件504包括在所述电子设备500和用户之间的提供一个输出接口的屏幕。所述屏幕可以包括触摸面板(TP)，被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件504包括一个前置摄像头和/或后置摄像头。当电子设备500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件505被配置为输出和/或输入音频信号。例如，音频组件505包括一个麦克风(MIC)，当电子设备500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器502或经由通信组件508发送。在一些实施例中，音频组件505还包括一个扬声器，用于输出音频信号。

I/O接口502为处理组件501和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件507包括一个或多个传感器，用于为电子设备500提供各个方面的状态评估。例如，传感器组件507可以检测到电子设备500的打开/关闭状态，组件的相对定位，例如所述组件为电子设备500的显示器和小键盘，传感器组件507还可以检测电子设备500或电子设备500一个组件的位置改变，用户与电子设备500接触的存在或不存在，电子设备500方位或加速/减速和电子设备500的温度变化。传感器组件507可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件507还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件507还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器，温度传感器，光电传感器或GPS传感器。

通信组件508被配置为便于电子设备500和其它设备之间有线或无线方式的通信。电子设备500可以接入基于通信标准的无线网络，如WiFi，2G，3G或4G，或它们的组合。在一个示例性实施例中，通信组件508经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件508还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其它技术来实现。

在示例性实施例中，电子设备500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其它电子元件实现，用于执行上述方法。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

与前述基于人机交互的目标跟踪方法的实施例相对应，本公开还提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被上述电子设备的处理器509执行时实现所述基于人机交互的目标跟踪方法的步骤，包括：

本公开可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

以上所述仅为本公开的较佳实施例而已，并不用以限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开保护的范围之内。

Claims

1.一种基于人机交互的目标跟踪方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据用户的触发指令生成目标跟踪框的步骤，包括：

3.根据权利要求2所述的方法，其特征在于，在调整所述初选跟踪框的过程中，当检测到终止指令时，停止调整所述初选跟踪框，以得到目标跟踪框。

4.根据权利要求3所述的方法，其特征在于，所述终止指令由预存的终止函数根据当前初选跟踪框的参数确定是否产生。

5.根据权利要求1所述的方法，其特征在于，所述根据用户的触发指令生成目标跟踪框的步骤，包括：

根据由用户执行包围目标图像的触控操作产生的触发指令，生成当前帧中包围目标图像的图形；

根据所述图形的位置参数和尺度参数生成目标跟踪框。

6.根据权利要求1所述的方法，其特征在于，下一帧中目标图像所在的位置通过位置跟踪模板基于所提取的图像特征检测得到；下一帧中目标图像的尺度通过尺度跟踪模板基于所述位置跟踪模板的检测结果检测得到。

7.根据权利要求6所述的方法，其特征在于，所述基于所提取的图像特征检测下一帧中目标图像所在的位置及尺度的步骤，包括：

8.根据权利要求1所述的方法，其特征在于，还包括：

当检测到当前帧的目标图像处于预设显示区域外时，调整当前帧的位置参数，以使目标图像显示于预设显示区域内。

9.一种基于人机交互的目标跟踪装置，其特征在于，所述装置包括：存储器、处理器、触摸屏和摄像模块；所述存储器存储有多条指令，所述指令可被所述处理器执行而实现权利要求1～8任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1～8任一项所述方法的步骤。