CN106650965B

CN106650965B - 一种远程视频处理方法及装置

Info

Publication number: CN106650965B
Application number: CN201611263508.6A
Authority: CN
Inventors: 贾宏峰; 肖洪波
Original assignee: Senscape Technologies Beijing Co ltd
Current assignee: Senscape Technologies Beijing Co ltd
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2020-11-06
Anticipated expiration: 2036-12-30
Also published as: CN106650965A

Abstract

本发明提供了一种远程视频处理方法及装置，其中，该方法包括：接收终端传输的视频流的当前帧图像；获取第一图像中待跟踪目标的中心坐标，第一图像为当前帧图像之前距离当前帧图像最近的包含待跟踪目标的图像；根据中心坐标，确定当前帧图像中待跟踪目标的位置；在当前帧图像中待跟踪目标的位置处叠加预设标识符。本发明将物体追踪和图像识别技术相结合，且根据距离当前帧图像最近的包含待跟踪目标的图像来确定当前帧图像中待跟踪目标的位置，提高了位置确定的准确性，使得成像场景更加准确稳定。

Description

一种远程视频处理方法及装置

技术领域

本发明涉及通信技术领域，具体而言，涉及一种远程视频处理方法及装置。

背景技术

远程助手应用主要是针对机械维修、售后服务或远程指导等远程服务的应用程序。远程助手应用主要分为终端和服务器两部分，当终端需要远程服务时，服务器需对终端传输的视频进行远程视频处理，以便为终端远程服务。

当前，相关技术中，当终端需要远程服务时，终端传输视频流给服务器。服务器接收终端传输的视频流，在视频流的第一帧中人工标注出待跟踪目标，并在待跟踪目标上添加标识。对于第一帧之后的每帧图像，都根据前一帧图像中待跟踪目标的位置，确定当前帧图像中待跟踪目标的位置，并在当前帧图像中的待跟踪目标上添加标识。

但是视频流中可能存在多帧图像中不包含待跟踪目标的图像，因此根据前一帧图像中待跟踪目标的位置来确定当前帧图像中待跟踪目标的位置，位置确定的误差很大。

发明内容

有鉴于此，本发明实施例的目的在于提供一种远程视频处理方法及装置，将物体追踪和图像识别技术相结合，且根据距离当前帧图像最近的包含待跟踪目标的图像来确定当前帧图像中待跟踪目标的位置，提高了位置确定的准确性，使得成像场景更加准确稳定。

第一方面，本发明实施例提供了一种远程视频处理方法，所述方法包括：

接收终端传输的视频流的当前帧图像；

获取第一图像中待跟踪目标的中心坐标，所述第一图像为所述当前帧图像之前距离所述当前帧图像最近的包含所述待跟踪目标的图像；

根据所述中心坐标，确定所述当前帧图像中所述待跟踪目标的位置；

在所述当前帧图像中所述待跟踪目标的位置处叠加预设标识符。

结合第一方面，本发明实施例提供了上述第一方面的第一种可能的实现方式，其中，所述根据所述中心坐标，确定所述当前帧图像中所述待跟踪目标的位置，包括：

在所述第一图像中，计算以所述中心坐标为中心点的预设尺寸的像素区域对应的第一梯度直方图；

在所述当前帧图像中，定位出以所述中心坐标为中心点的预设尺寸的搜索窗口，按照预设步距分别向上下左右四个方向移动所述搜索窗口；

分别计算移动所述搜索窗口时所述搜索窗口所覆盖的像素区域对应的第二梯度直方图；

分别计算每个所述第二梯度直方图与所述第一梯度直方图之间的相似度，沿最大的相似度对应的方向移动所述搜索窗口，直至搜索出所述待跟踪目标的位置。

结合第一方面，本发明实施例提供了上述第一方面的第二种可能的实现方式，其中，所述在所述当前帧图像中所述待跟踪目标的位置处叠加预设标识符，包括：

通过卡尔曼滤波算法对预设标识符的纹理进行过滤处理；

根据所述待跟踪目标的位置，将过滤处理后的所述预设标识符叠加到所述当前帧图像中所述待跟踪目标的图像上。

结合第一方面，本发明实施例提供了上述第一方面的第三种可能的实现方式，其中，所述根据所述中心坐标，确定所述当前帧图像中所述待跟踪目标的位置之后，还包括：

根据所述待跟踪目标的位置，确定包含所述待跟踪目标的选定区域；

获取所述选定区域的梯度直方图，获取所述当前帧图像对应的金字塔图像序列；

从所述金字塔图像序列最顶层的图像开始，通过滑动窗口按照预设搜索顺序搜索所述待跟踪目标，得到搜索结果；

根据所述选定区域的梯度直方图和所述搜索结果，调整所述待跟踪目标的位置。

结合第一方面，本发明实施例提供了上述第一方面的第四种可能的实现方式，其中，所述根据所述中心坐标，确定所述当前帧图像中所述待跟踪目标的位置之后，还包括：

获取所述第一图像中的第一特征点，提取所述当前帧图像中的第二特征点；

根据所述第一特征点和所述第二特征点，生成所述待跟踪目标对应的运动向量；

根据所述运动向量，获取拍摄所述待跟踪目标的摄像头的位置姿态信息。

结合第一方面，本发明实施例提供了上述第一方面的第五种可能的实现方式，其中，所述方法还包括：

获取所述待跟踪目标对应的多个场景图像；

根据所述多个场景图像，构建场景关键字字典。

结合第一方面的第五种可能的实现方式，本发明实施例提供了上述第一方面的第六种可能的实现方式，其中，所述方法还包括：

根据所述场景关键字字典和所述当前帧图像，确定所述当前帧图像中所述待跟踪目标对应的搜索区域。

第二方面，本发明实施例提供了一种远程视频处理装置，所述装置包括：

接收模块，用于接收终端传输的视频流的当前帧图像；

获取模块，用于获取第一图像中待跟踪目标的中心坐标，所述第一图像为所述当前帧图像之前距离所述当前帧图像最近的包含所述待跟踪目标的图像；

确定模块，用于根据所述中心坐标，确定所述当前帧图像中所述待跟踪目标的位置；

叠加模块，用于在所述当前帧图像中所述待跟踪目标的位置处叠加预设标识符。

结合第二方面，本发明实施例提供了上述第二方面的第一种可能的实现方式，其中，所述确定模块包括：

计算单元，用于在所述第一图像中，计算以所述中心坐标为中心点的预设尺寸的像素区域对应的第一梯度直方图；

移动单元，用于在所述当前帧图像中，定位出以所述中心坐标为中心点的预设尺寸的搜索窗口，按照预设步距分别向上下左右四个方向移动所述搜索窗口；

所述计算单元，用于分别计算移动所述搜索窗口时所述搜索窗口所覆盖的像素区域对应的第二梯度直方图；分别计算每个所述第二梯度直方图与所述第一梯度直方图之间的相似度，沿最大的相似度对应的方向移动所述搜索窗口，直至搜索出所述待跟踪目标的位置。

结合第二方面，本发明实施例提供了上述第二方面的第二种可能的实现方式，其中，所述叠加模块包括：

过滤单元，用于通过卡尔曼滤波算法对预设标识符的纹理进行过滤处理；

叠加单元，用于根据所述待跟踪目标的位置，将过滤处理后的所述预设标识符叠加到所述当前帧图像中所述待跟踪目标的图像上。

在本发明实施例提供的方法及装置中，接收终端传输的视频流的当前帧图像；获取第一图像中待跟踪目标的中心坐标，第一图像为当前帧图像之前距离当前帧图像最近的包含待跟踪目标的图像；根据中心坐标，确定当前帧图像中待跟踪目标的位置；在当前帧图像中待跟踪目标的位置处叠加预设标识符。本发明将物体追踪和图像识别技术相结合，且根据距离当前帧图像最近的包含待跟踪目标的图像来确定当前帧图像中待跟踪目标的位置，提高了位置确定的准确性，使得成像场景更加准确稳定。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例1所提供的一种远程视频处理方法的流程图；

图2示出了本发明实施例2所提供的一种远程视频处理装置的第一结构示意图；

图3示出了本发明实施例2所提供的一种远程视频处理装置的第二结构示意图；

图4示出了本发明实施例2所提供的一种一种远程视频处理装置的第三结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

考虑到视频流中可能存在多帧图像中不包含待跟踪目标的图像，而相关技术中根据前一帧图像中待跟踪目标的位置来确定当前帧图像中待跟踪目标的位置，位置确定的误差很大。基于此，本发明实施例提供了一种远程视频处理的方法及装置，下面通过实施例进行描述。

实施例1

参见图1，本发明实施例提供了一种远程视频处理方法，该方法具体包括以下步骤：

步骤101：接收终端传输的视频流的当前帧图像。

本发明实施例的执行主体为服务器。在远程助手应用中，服务器为终端提供远程服务，该终端可以为用户的手机或平板电脑等，终端上安装有远程助手应用的客户端。

当用户需要通过终端上的该客户端使用远程助手服务时，用户通过终端上的摄像头对需远程服务的物体进行拍摄，得到该物体对应的视频流。终端通过与服务器之间的网络连接实时将该物体对应的视频流传输给服务器。服务器接收终端传输的视频流。

例如，假设用户的路由器需要售后服务，则该用户可以通过手机拍摄路由器对应的视频流，并通过手机上安装的远程助手的客户端将该视频流实时上传给服务器。

服务器接收到终端上传的视频流的一帧图像，当该帧图像为终端上传的该视频流的第一帧图像时，由技术人员通过人工标注的方式在该视频流的第一帧图像中标注出待跟踪目标。待跟踪目标为上述需远程服务的物体上与本次远程服务相关的地方。例如，需远程服务的路由器存在连接故障，技术人员看到终端上传的视频流的第一帧图像，对第一帧图像中的路由器的图像进行分析后，确定解决该故障需操作路由器上一按钮，则该按钮即为待跟踪目标，技术人员在第一帧图像中该按钮处添加标识符，该标识符可以为圆圈或三角形等。

在本发明实施例中，对于每一帧图像，确定出待跟踪目标的位置后，确定待跟踪目标对应的中心坐标，存储该帧图像的序号与待跟踪目标对应的中心坐标的对应关系。上述技术人员在第一帧图像中标注出待跟踪目标后，存储第一帧图像的序号与待跟踪目标对应的中心坐标的对应关系。

上述待跟踪目标对应的中心坐标可以为整个待跟踪目标的中心点的坐标。待跟踪目标尺寸较大时，也可以将待跟踪目标划分为多个部分，将划分出的每个部分的中心坐标作为待跟踪目标对应的中心坐标。

由于在远程服务过程中，服务器需指导终端对待跟踪目标进行一些操作以完成本次远程服务，所以服务器需要在终端上传的视频流的各帧图像中对该待跟踪目标进行实时追踪。通过人工标注在第一帧图像中标注出待跟踪目标后，当服务器再次接收到终端上传的该视频流的图像时，本发明实施例通过如下步骤102和103的操作在当前帧图像中确定出待跟踪目标的位置，从而实现对待跟踪目标进行实时跟踪。

步骤102：获取第一图像中待跟踪目标对应的中心坐标，第一图像为当前帧图像之前距离当前帧图像最近的包含待跟踪目标的图像。

当服务器再次接收到终端上传的视频流的一帧图像时，为了便于描述，将该帧图像称为当前帧图像。服务器获取已存储的图像的序号与待跟踪目标对应的中心坐标的对应关系，分别计算该对应关系包括的每个序号与当前帧图像的序号之间的差值，确定差值最小的序号。该差值最小的序号对应的图像即为当前帧图像之前距离当前帧图像最近的包含待跟踪目标的图像，即该差值最小的序号对应的图像即为上述第一图像。从上述对应关系中获取该差值最小的序号对应的待跟踪目标的中心坐标。

例如，当前帧图像的序号为004，服务器存储的图像的序号与待跟踪目标对应的中心坐标的对应关系如表1所示，计算当前帧图像的序号与表1中包括的每个序号之间的差值，确定出差值最小的序号为002，从表1所示的对应关系中获取序号002对应的图像中待跟踪目标的中心坐标(3,4)。即获取的第一图像中待跟踪目标的中心坐标为(3,4)。

表1

步骤103：根据获取的中心坐标，确定当前帧图像中待跟踪目标的位置。

本发明实施例中，通过如下操作来确定当前帧图像中待跟踪目标的位置，具体包括：

在第一图像中，计算以中心坐标为中心点的预设尺寸的像素区域对应的第一梯度直方图；在当前帧图像中，定位出以中心坐标为中心点的预设尺寸的搜索窗口，按照预设步距分别向上下左右四个方向移动搜索窗口；分别计算移动搜索窗口时搜索窗口所覆盖的像素区域对应的第二梯度直方图；分别计算每个第二梯度直方图与第一梯度直方图之间的相似度，沿最大的相似度对应的方向移动搜索窗口，直至搜索出待跟踪目标的位置。

在本发明实施例中，当获取的中心坐标为整个待跟踪目标的中心坐标时，上述预设尺寸大于或等于待跟踪目标的尺寸。当获取的中心坐标为待跟踪目标包括的各个部分的中心坐标时，上述预设尺寸可以为5*5或8*8等，且分别以获取的各个中心坐标为中心点的多个预设尺寸所组成的区域的总尺寸大于或等于待跟踪目标的尺寸。

在第一图像中，确定以步骤102获取的中心坐标为中心点的预设尺寸的搜索窗口所覆盖的像素区域，计算该像素区域对应的第一梯度直方图。在当前帧图像中，确定以上述中心坐标为中心点的预设尺寸的搜索窗口，以该搜索窗口为起始搜索窗口，按照预设步距分别向上下左右四个方向移动搜索窗口，分别计算向上下左右移动搜索窗口时搜索窗口所覆盖的像素区域对应的第二梯度直方图。分别计算每次移动后得到的第二梯度直方图与上述第一梯度直方图之间的相似度，确定出最大的相似度对应的移动方向，沿确定的移动方向移动搜索窗口，然后再按照上述方式迭代确定搜索窗口的移动方向，直到搜索出待跟踪目标。

在本发明实施例中，当获取的中心坐标为整个待跟踪目标的中心坐标时，搜索出待跟踪目标的判断依据为搜索窗口所覆盖的像素区域对应的梯度直方图与上述第一梯度直方图之间的相似度大于等于预设阈值，此时认为待跟踪目标位于当前搜索窗口所覆盖的像素区域中，即搜索出了待跟踪目标。

当获取的中心坐标包括待跟踪目标各个部分的中心坐标时，搜索出待跟踪目标的判断依据为，对于每个中心坐标，搜索窗口所覆盖的像素区域对应的梯度直方图与上述第一梯度直方图之间的相似度都大于等于预设阈值，此时认为待跟踪目标位的各个部分分别位于各个中心坐标对应的搜索窗口所覆盖的像素区域中，即搜索出了待跟踪目标。

在本发明实施例中，按照预设步距向上移动搜索窗口时，移动后搜索窗口的中心点坐标的横坐标不变，纵坐标在原来基础上加预设步距。向下移动搜索窗口时，移动后搜索窗口的中心点坐标的横坐标不变，纵坐标在原来基础上减预设步距。向左移动搜索窗口时，移动后搜索窗口的中心点坐标的横坐标在原来基础上减预设步距，纵坐标不变。向右移动搜索窗口时，移动后搜索窗口的中心点坐标的横坐标在原来基础上加预设步距，纵坐标不变。预设步距可以为1或2等。

在上述不断确定搜索窗口的移动方向，并移动搜索窗口来搜索待跟踪目标的过程中，利用函数meanshift()和光流法相结合的方式进行迭代。在迭代过程中，首先对待跟踪目标的初始化，可通过目标检测方式得到待跟踪目标对应的搜索窗口，也可以通过鼠标手工选取的方式得到待跟踪目标的搜索窗口。为了减少服务器的计算量，当上述中心坐标为整个待跟踪目标的中心坐标时，本发明实施例中搜索窗口可以为待跟踪目标的外接矩阵框。当上述中心坐标为待跟踪目标各个部分的中心坐标时，搜索窗口可以为各个部分对应的外接矩阵框。

本发明实施例中，通过如下公式(1)所示的Epanechnikov核函数的截面函数或公式(2)所示的Gaussian核函数的截面函数来计算上述第一梯度直方图和第二梯度直方图之间的相似度：

在公式(1)和(2)中，d为预设空间维数，C_d为单位d维球的体积，x为第一梯度直方图与第二梯度直方图之间的差值，K_E(x)和K_N(x)均为x对应的第一梯度直方图与第二梯度直方图之间的相似度。

通过上述公式(1)或公式(2)计算出第一梯度直方图与第二梯度直方图之间的相似度后，沿相似度最大的方向移动搜索窗口，直到搜索出待跟踪目标的位置。当然也可能搜索不到待跟踪目标此时认为当前帧图像中不包含待跟踪目标的图像，此时不进行后续操作，当服务器接收到下一帧图像时再按照本发明实施例的方式来对待跟踪目标进行跟踪。

若通过上述方式确定出待跟踪目标的位置的话，则获取当前帧图像的序号及当前帧图像中待跟踪目标对应的中心坐标，并存储在上文所提及的序号与待跟踪目标对应的中心坐标的对应关系。然后通过如下步骤104的操作在待跟踪目标的位置处添加预设标识符。

步骤104：在当前帧图像中待跟踪目标的位置处叠加预设标识符。

由于在将预设标识符叠加到当前帧图像中时，叠加的预设标识符可能存在抖动的情况，所以本发明实施例通过如下所示的卡尔曼滤波算法对预设标识符的纹理进行过滤处理；根据待跟踪目标的位置，将过滤处理后的预设标识符叠加到当前帧图像中待跟踪目标的图像上。

Algorithm Kalman_filter(μ_t-1,∑_t-1,u_t,z_t)：

returnμ_t，Σ_t。

其中，t为时刻；μ_t为t时刻的状态向量，表示待跟踪目标的图像坐标、变化速度和摄像头姿态；Σ_t为t时刻状态的协方差矩阵，表示状态估计的不确定性；u_t为t时刻的输入信息，如惯导信息等；z_t为t时刻的观测信息，如待跟踪目标的图像坐标；R_t为t时刻预测方程的协方差矩阵，表示预测过程的不确定性；Q_t为t时刻观测方程的协方差矩阵，即当前帧图像上待跟踪目标的坐标的不确定性；A_t、B_t为t时刻预测方程线性化处理时的雅克比矩阵；C_t为t时刻观测方程线性化处理时的雅克比矩阵；K_t为t时刻计算的卡尔曼增益矩阵；I为预设的单位矩阵。

上述卡尔曼滤波算法的本质是通过预测结合测量来估计当前系统的状态。对预设标识符处理过滤后，待跟踪目标的位置更加稳定且误差更小，然后将预设标识符叠加在待跟踪目标的图像上，从而消除叠加抖动影响。

通过上述方式将预设标识符叠加到当前帧图像中，实现了对待跟踪目标的实时追踪，且用户通过终端上的远程助手客户端，能够实时看到叠加了预设标识符的待跟踪目标，从而实现远程指导用户对待跟踪目标进行操作。

本发明实施例中，在步骤103确定当前帧图像中待跟踪目标的位置之后，还通过如下操作来确定该位置是否准确，并在不准确时对确定的位置进行调整，以减少确定的待跟踪目标的位置的误差。具体包括：

根据待跟踪目标的位置，确定包含待跟踪目标的选定区域；根据Sift(Scale-invariant feature transform，尺度不变特征变换)算法特征点的描述子，获取选定区域的梯度直方图，获取当前帧图像对应的金字塔图像序列；从金字塔图像序列最顶层的图像开始，通过滑动窗口按照预设搜索顺序搜索待跟踪目标，得到搜索结果；根据选定区域的梯度直方图和搜索结果，调整待跟踪目标的位置。

上述获取当前帧图像对应的金字塔图像序列时，将当前帧图像中一些像素去掉，得到不同分辨率的图像，将这些图像按照分辨率从小到大的顺序进行排列，得到当前帧图像对应的金字塔图像序列。例如，假设当前帧图像为640*480的图像，则将当前帧图像中每隔一行或多行的像素行去掉，得到80*60、160*120、320*240的图像，则得到的当前帧图像对应的金字塔图像序列为分辨率依次是80*60、160*120、320*240和640*480的图像。

上述预设搜索顺序可以为从左到右或从右到左的顺序。通过上述方式得到前帧图像对应的金字塔图像序列后，通过滑动窗口按照预设搜索顺序先在金字塔图像序列最顶层的图像中搜索待跟踪目标，如果搜索到，则不再对金字塔图像序列中的后续图像进行搜索。如果没搜索到，则再依次对金字塔图像序列中的后续图像搜索，直到搜索到待跟踪目标。将搜索到的待跟踪目的位置与步骤103中确定出的位置比较，若两者一致，则不进行调整。若两者不一致，则对步骤103中确定出的位置进行调整。

在本发明实施例中，还获取第一图像中的第一特征点，提取当前帧图像中的第二特征点；根据第一特征点和第二特征点，生成待跟踪目标对应的运动向量；根据运动向量，获取拍摄待跟踪目标的摄像头的位置姿态信息。

上述第一特征点为第一图像中纹理特征明显的像素点，第二特征点为当前帧图像中纹理特征明显的像素点。将坐标位置相同的第一特征点与第二特征点进行匹配，构造出待跟踪目标对应的运动向量，该运动向量能够体现待跟踪目标的像素点在第一图像到当前帧图像之间的运动方向及运动距离，且根据该运动向量能够预测出拍摄待跟踪目标的摄像头的位置姿态信息。摄像头的位置姿态信息能够体现摄像头的运动路径。

通过上述方式获得待跟踪目标的运动向量及摄像头的位置姿态信息后，可以根据该运动向量与摄像头的位置姿态信息，预测下一帧图像中待跟踪目标的位置，如此在处理下一帧图像时，可以先从预测的待跟踪目标的位置处开始搜索待跟踪目标，从而缩小搜索范围，能够快速确定出下一帧图像中待跟踪目标的准确位置，提高了搜索效率和搜索准确性。

通过上述方式获得待跟踪目标的运动向量及摄像头的位置姿态信息后，还利用如下所示的信息滤波算法对待跟踪目标的状态进行更新，以便根据待跟踪目标的最新状态来叠加预设标识符。

Aldorithm Information_filter(ξ_t-1,Ω_t-1,u_t,z_t):

returnξ_t，Ω_t。

其中，t为时刻，ξ_t为t时刻的状态向量，即特征点的空间坐标和摄像头的位置姿态信息；Ω_t为t时刻状态的信息矩阵，表示状态估计值的置信度；u_t为t时刻的输入信息，如惯导信息等；z_t为t时刻的观测信息，如特征点在图像上特征点的坐标；R_t为t时刻预测方程的协方差矩阵，表示预测过程的不确定性；Q_t为t时刻观测方程的协方差矩阵，即图像上特征点坐标的不确定性；A_t、B_t为t时刻预测方程线性化处理时的雅克比矩阵；C_t为t时刻观测方程线性化处理时的雅克比矩阵。

通过上述方式对待跟踪目标的状态更新后，用得到的摄像头的位置姿态信息来更新待跟踪目标的其他特征点的空间位置，选择估计相对准确的特征点来进行非线性优化，以提高位置估计的精度。

由于终端上传的视频流中，待跟踪目标出现的场景可能不同，本发明实施例还离线获取待跟踪目标对应的多个场景图像；根据多个场景图像，构建场景关键字字典。

本发明实施例中，利用回环检测方式把不同场景图像抽象成关键字的集合。离线获取多个场景图像，从每个场景图像中抽取特征点，将抽取的特征点用k-means(K均值)算法进行聚类，将描述子空间划分为k类，将划分的每个自空间继续用k-means算法进行聚类，循环将描述子建立成树形结构。回环检测使用BRIEF描述子，描述子在p点周围选取两个点做比较，将比较的结果作为描述子的编码，其公式如下所示：

其中，L_b是BRIEF描述子的位数；(x_i,y_i),i∈[1,...,L_b]为选好的点对；B_i(P)为BRIEF描述子；I表示灰度。

通过上述方式构建的场景关键字字典中包括多个场景的BRIEF描述子。构建出场景关键字字典之后，可以根据场景关键字字典和当前帧图像，确定当前帧图像中待跟踪目标对应的搜索区域。

将当前帧图像的场景抽象成BRIEF描述子，根据当前帧图像对应的BRIEF描述子，查看场景关键字字典中是否包含匹配的BRIEF描述子，若包含，则获取该匹配的BRIEF描述子对应的场景图像中待跟踪目标的位置。在当前帧图像中搜索待跟踪目标时首先从获取的位置处开始搜索，

之后把当前视频流的场景也抽象成关键字集合，对两个集合进行关键字搜索匹配。达到缩小识别范围的目标。从而缩小搜索范围，能够快速确定出当前帧图像中待跟踪目标的准确位置，提高了搜索效率和搜索准确性。

本发明实施例中，将物体追踪和图像识别技术相结合，使得成像场景更加准确，更加稳定，提高了对待跟踪目标进行实时追踪的准确性。

在本发明实施例中，接收终端传输的视频流的当前帧图像；获取第一图像中待跟踪目标的中心坐标，第一图像为当前帧图像之前距离当前帧图像最近的包含待跟踪目标的图像；根据中心坐标，确定当前帧图像中待跟踪目标的位置；在当前帧图像中待跟踪目标的位置处叠加预设标识符。本发明将物体追踪和图像识别技术相结合，且根据距离当前帧图像最近的包含待跟踪目标的图像来确定当前帧图像中待跟踪目标的位置，提高了位置确定的准确性，使得成像场景更加准确稳定。

实施例2

参见图2，本发明实施例提供了一种远程视频处理装置，该装置用于执行上述实施例1所提供的远程视频处理方法。该装置包括：

接收模块201，用于接收终端传输的视频流的当前帧图像；

获取模块202，用于获取第一图像中待跟踪目标的中心坐标，第一图像为当前帧图像之前距离当前帧图像最近的包含待跟踪目标的图像；

确定模块203，用于根据中心坐标，确定当前帧图像中待跟踪目标的位置；

叠加模块204，用于在当前帧图像中待跟踪目标的位置处叠加预设标识符。

如图3所示，上述确定模块203包括：

计算单元2031，用于在第一图像中，计算以中心坐标为中心点的预设尺寸的像素区域对应的第一梯度直方图；

移动单元2032，用于在当前帧图像中，定位出以中心坐标为中心点的预设尺寸的搜索窗口，按照预设步距分别向上下左右四个方向移动搜索窗口；

计算单元2031，用于分别计算移动搜索窗口时搜索窗口所覆盖的像素区域对应的第二梯度直方图；分别计算每个第二梯度直方图与第一梯度直方图之间的相似度，沿最大的相似度对应的方向移动搜索窗口，直至搜索出待跟踪目标的位置。

如图3所示，叠加模块204包括：

过滤单元2041，用于通过卡尔曼滤波算法对预设标识符的纹理进行过滤处理；

叠加单元2042，用于根据待跟踪目标的位置，将过滤处理后的预设标识符叠加到当前帧图像中待跟踪目标的图像上。

如图4所示，该装置还包括：

调整模块205，用于根据待跟踪目标的位置，确定包含待跟踪目标的选定区域；获取选定区域的梯度直方图，获取当前帧图像对应的金字塔图像序列；从金字塔图像序列最顶层的图像开始，通过滑动窗口按照预设搜索顺序搜索待跟踪目标，得到搜索结果；根据选定区域的梯度直方图和搜索结果，调整待跟踪目标的位置。

位置姿态获取模块206，用于获取第一图像中的第一特征点，提取当前帧图像中的第二特征点；根据第一特征点和第二特征点，生成待跟踪目标对应的运动向量；根据运动向量，获取拍摄待跟踪目标的摄像头的位置姿态信息。

场景字典构建模块207，用于获取待跟踪目标对应的多个场景图像；根据多个场景图像，构建场景关键字字典。根据场景关键字字典和当前帧图像，确定当前帧图像中待跟踪目标对应的搜索区域。

本发明实施例所提供的远程视频处理装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种远程视频处理方法，其特征在于，所述方法包括：

接收终端传输的视频流的当前帧图像，其中，所述视频流中存在多帧图像不包含待跟踪目标的图像；

获取第一图像中所述待跟踪目标的中心坐标，所述第一图像为所述当前帧图像之前距离所述当前帧图像最近的包含所述待跟踪目标的图像；

在所述当前帧图像中所述待跟踪目标的位置处叠加预设标识符；

其中，在所述获取第一图像中所述待跟踪目标的中心坐标之前，所述方法还包括：

获取已存储的图像的序号与所述待跟踪目标对应的中心坐标的对应关系；

分别计算该对应关系包括的每个序号与当前帧图像的序号之间的差值，确定差值最小的序号对应的图像为所述第一图像。

2.根据权利要求1所述的方法，其特征在于，所述根据所述中心坐标，确定所述当前帧图像中所述待跟踪目标的位置，包括：

3.根据权利要求1所述的方法，其特征在于，所述在所述当前帧图像中所述待跟踪目标的位置处叠加预设标识符，包括：

通过卡尔曼滤波算法对预设标识符的纹理进行过滤处理；

4.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述中心坐标，确定所述当前帧图像中所述待跟踪目标的位置之后，还包括：

5.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述中心坐标，确定所述当前帧图像中所述待跟踪目标的位置之后，还包括：

6.根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

获取所述待跟踪目标对应的多个场景图像；

根据所述多个场景图像，构建场景关键字字典。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.一种远程视频处理装置，其特征在于，所述装置包括：

接收模块，用于接收终端传输的视频流的当前帧图像，其中，所述视频流中存在多帧图像不包含待跟踪目标的图像；

获取模块，用于获取第一图像中所述待跟踪目标的中心坐标，所述第一图像为所述当前帧图像之前距离所述当前帧图像最近的包含所述待跟踪目标的图像；

叠加模块，用于在所述当前帧图像中所述待跟踪目标的位置处叠加预设标识符；

其中，所述获取模块，还用于：

9.根据权利要求8所述的装置，其特征在于，所述确定模块包括：

10.根据权利要求8所述的装置，其特征在于，所述叠加模块包括：