CN110516620B

CN110516620B - 目标跟踪方法、装置、存储介质及电子设备

Info

Publication number: CN110516620B
Application number: CN201910810167.7A
Authority: CN
Inventors: 唐梦云; 周文; 陈泳君
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2023-07-28
Anticipated expiration: 2039-08-29
Also published as: WO2021036828A1; US11783491B2; CN110516620A; US20210407103A1; JP7305251B2; JP2022526750A

Abstract

本申请公开了一种目标跟踪方法、装置、存储介质及电子设备，属于人工智能技术领域。所述方法包括：获取摄像头采集的视频流，对所述视频流进行解码得到多帧图像；对于待处理的当前帧图像，当所述当前帧图像为第一类型图像时，对所述当前帧图像进行目标检测，得到被检测目标在所述当前帧图像中的位置信息；当所述当前帧图像为第二类型图像时，基于上一帧图像的运动向量，预测所述上一帧图像中的被检测目标在所述当前帧图像中的位置信息。本申请提供的目标跟踪方法既利用到了解码出来的全部图像的信息，又避免了逐帧图像进行目标检测带来的速率较慢的问题，不但确保了实时的跟踪速度，而且还确保了得到的跟踪结果的精确度。

Description

目标跟踪方法、装置、存储介质及电子设备

技术领域

本申请涉及人工智能技术领域，特别涉及一种目标跟踪方法、装置、存储介质及电子设备。

背景技术

计算机视觉技术作为人工智能的核心，其应用范围目前已经遍及多个领域。比如，目标跟踪作为计算机视觉技术的一个重要研究方向，在当下有着十分广泛的应用，可应用在诸如人机交互、无人驾驶等场景下。

以单摄像头多目标跟踪为例，相关技术在进行目标跟踪时，首先将摄像头采集到的视频流解码为多帧图像；之后，基于目标检测算法对解码出来的每一帧图像均进行目标检测，进而根据对每一帧图像的目标检测结果实现目标跟踪。

由于需要对每一帧图像均进行目标检测，因此较为耗时，尤其是在面对高分辨率图像时，用于目标检测的图像越大，检测速度便越慢，这会严重影响目标跟踪的性能，很难做到实时跟踪。而为了达到实时跟踪的效果，相关技术采用的在解码出来的全部帧图像中抽取少数进行目标检测而剩余图像不做任何处理的方式，由于未利用到全部帧图像的信息，又会严重制约跟踪结果的准确性。基于此，如何进行目标跟踪，以在提升跟踪速度的同时又能够确保跟踪精确度，成为了本领域技术人员亟待解决的一个问题。

发明内容

本申请实施例提供了一种目标跟踪方法、装置、存储介质及电子设备，能够在提升跟踪速度的同时又能够确保跟踪精确度。所述技术方案如下：

一方面，提供了一种目标跟踪方法，所述方法包括：

获取摄像头采集的视频流，对所述视频流进行解码得到多帧图像；

对于待处理的当前帧图像，当所述当前帧图像为第一类型图像时，对所述当前帧图像进行目标检测，得到被检测目标在所述当前帧图像中的位置信息；

当所述当前帧图像为第二类型图像时，基于上一帧图像的运动向量，预测所述上一帧图像中的被检测目标在所述当前帧图像中的位置信息。

另一方面，提供了一种目标跟踪装置，所述装置包括：

获取模块，用于获取摄像头采集的视频流；

解码模块，用于对所述视频流进行解码得到多帧图像；

处理模块，用于对于待处理的当前帧图像，当所述当前帧图像为第一类型图像时，对所述当前帧图像进行目标检测，得到被检测目标在所述当前帧图像中的位置信息；当所述当前帧图像为第二类型图像时，基于上一帧图像的运动向量，预测所述上一帧图像中的被检测目标在所述当前帧图像中的位置信息。

在一种可能的实现方式中，当所述当前帧图像为第一类图像时，所述处理模块，还用于在对所述当前帧图像进行目标检测之后，对所述当前帧图像中的被检测目标进行关键点检测；基于得到的关键点检测结果和所述当前帧图像的运动向量，预测所述当前帧图像中的被检测目标在下一帧图像中的位置信息。

在一种可能的实现方式中，所述当前帧图像中的被检测目标为一个或多个，所述处理模块，还用于对于每个被检测目标，基于所述被检测目标的关键点检测结果，将所述被检测目标划分为多个区域；基于所述当前帧图像的运动向量，获取所述被检测目标的每个区域的运动向量偏置；基于所述每个区域的运动向量偏置，预测所述被检测目标在所述下一帧图像中的位置信息。

在一种可能的实现方式中，当所述当前帧图像为第二类图像时，所述处理模块，还用于当下一帧图像为所述跟踪帧时，基于所述当前帧图像的运动向量，预测所述当前帧图像中的被检测目标在所述下一帧图像中的位置信息。

在一种可能的实现方式中，所述处理模块，还用于基于所述当前帧图像的运动向量，获取所述被检测目标的每个区域的运动向量偏置；基于所述每个区域的运动向量偏置，预测所述被检测目标在所述下一帧图像中的位置信息。

在一种可能的实现方式中，所述处理模块，还用于对于所述被检测目标的每个区域，基于所述当前帧图像的运动向量，获取所述区域中每个像素点的运动向量；基于所述区域中包括的像素点总量和所述区域中每个像素点的运动向量，获取所述区域的运动向量偏置。

在一种可能的实现方式中，所述处理模块，还用于基于所述每个区域的运动向量偏置，将所述每个区域进行平移，预测得到所述每个区域在所述下一帧图像中的位置信息；基于预测出的所述每个区域在所述下一帧图像中的位置信息，在所述下一帧图像中生成一个包围所述每个区域的边界框，得到所述被检测目标在所述下一帧图像中的位置信息。

在一种可能的实现方式中，所述处理模块，还用于在接收到终端发送的针对所述摄像头的目标跟踪请求后，获取所述摄像头采集的视频流。

在一种可能的实现方式中，所述装置还包括：

发送模块，用于将所述被检测目标在所述当前帧图像中的位置信息发送给所述终端，由所述终端对所述被检测目标在所述当前帧图像中的位置信息进行显示。

在一种可能的实现方式中，当所述被检测目标为行人时，所述处理模块，还用于对所述当前帧图像中的行人进行人体骨骼关键点检测；基于所述行人的人体骨骼关键点检测结果，将所述行人划分为多个人体区域。

另一方面，提供了一种存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述的目标跟踪方法。

另一方面，提供了一种电子设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述的目标跟踪方法。

本申请实施例提供的技术方案带来的有益效果是：

在获取到摄像头采集的视频流后，首先对视频流进行解码得到多帧图像，之后，对解码得到的每帧图像依次进行如下处理：对于待处理的当前帧图像，判断当前帧图像为第一类图像还是第二类图像；如果当前帧图像为第一类图像，则对当前帧图像进行目标检测，得到被检测目标在当前帧图像中的位置信息；如果当前帧图像为第二类图像，则基于上一帧图像的运动向量，预测上一帧图像中的被检测目标在当前帧图像中的位置信息。基于以上描述可知，本申请实施例将解码出来的多帧图像分为了两类，且仅对第一类图像执行目标检测，对于第二类图像仅是基于运动向量执行运动检测，即通过运动向量来计算跟踪的目标的空间运动信息。该种目标跟踪方法，既利用到了解码出来的全部图像的信息，又避免了逐帧图像进行目标检测带来的速率较慢的问题，不但确保了实时的跟踪速度，而且还确保了得到的跟踪结果的精确度，因此极大地提升了目标跟踪的效率，减少了时间和资源的消耗。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种目标跟踪方法涉及的实施环境的示意图；

图2是本申请实施例提供的一种目标跟踪方法涉及的系统架构图；

图3是本申请实施例提供的一种目标跟踪方法的流程图；

图4是本申请实施例提供的一种目标检测的效果图；

图5是本申请实施例提供的一种进行人体关键点检测的关键点示意图；

图6是本申请实施例提供的一种人体关键点检测的效果图；

图7是本申请实施例提供的一种进行人体区域划分的区域示意图；

图8是本申请实施例提供的一种进行人体区域划分的效果图；

图9是本申请实施例提供的一种被检测目标的各个区域在下一帧图像中的预估位置的效果图；

图10是本申请实施例提供的一种确定被检测目标在下一帧图像的位置的效果图；

图11是本申请实施例提供的一种目标跟踪方法的整体执行流程图；

图12是本申请实施例提供的一种目标跟踪方法的流程图；

图13是本申请实施例提供的一种目标跟踪装置的结构示意图；

图14是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

随着人工智能技术的研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的目标跟踪方案可以应用于诸如无人驾驶等领域，涉及人工智能的计算机视觉技术和深度学习技术等。

其中，计算机视觉技术是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(OpticalCharacter Recognition，光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(3Dimensions，三维)技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

其中，深度学习是机器学习的子类，深度神经网络从字面上理解即是深层次的神经网络。作为一个示例，将简单的单层神经网络中的隐藏层扩展出来多层时，便得到了深度神经网络。而机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

具体通过如下实施例对本申请提供的一种目标跟踪方法进行介绍说明。

在对本申请实施例进行详细地解释说明之前，先对本申请实施例涉及到的一些名词进行解释说明。

目标检测(Object Detection)：用于对图像中的人、车、动物、植物等目标的位置和类别进行检测和识别。

目标检测包含检测和识别两个任务，检测任务用于确定待检测目标在图像中的具体位置，识别任务用于对检测出的目标进行类别判断。

换一种表达方式，目标检测通常包括两个过程:一个过程是预测目标的类别，另一个过程是在该目标周围绘制一个边界框(bounding box)。

其中，目标检测是很多计算机视觉应用的基础，比如实例分割、关键点检测、人脸识别等。另外，目标检测在自动驾驶汽车、人体跟踪等领域也得到了广泛的应用。

人体骨骼关键点检测(Pose Estimation)：以已经检测到人体的图像作为输入，检测人体关键部位的位置，比如双眼、双耳、鼻子、嘴巴、肩膀、手肘、胯、膝盖等。

其中，人体骨骼关键点检测是诸多计算机视觉任务的基础，例如行为识别、人物跟踪、步态识别等。

目标跟踪(Object Tracking)：是指在视频序列中定位感兴趣运动目标的位置、大小或运动轨迹，目标跟踪是计算机视觉领域中视频分析的基本功能之一。

其中，目标的运动轨迹由在视频帧中定位出来的目标的位置连接形成，而包围目标的边界框的大小能够反映出目标本身的大小。

单摄像头多目标跟踪：是指从单个摄像头拍摄得到的视频序列中获得感兴趣的多个目标的位置、大小或运动轨迹。

运动向量(Motion Vector)：运动向量是一个二维的数据，一般在直角坐标系里面表示为(MVx,MVy)。

在本申请实施例中，从相邻的两帧图像之间提取各帧图像的运动向量。其中，运动向量给出了各个像素点在相邻的两帧图像之间的相对位移。也即是，在相邻的两帧图像之间存在像素点的运动，换一种表达方式，上一帧图像中的像素点在下一帧图像中其位置会发生变动，那么这个变动，便是该像素点的运动向量。作为一个示例，在本申请实施例中，针对从摄像头采集的视频流中解码出来的每一帧图像，该帧图像中坐标位置为(x，y)的像素点的运动向量为(dx，dy)。

下面对本申请实施例提供的一种目标跟踪方法涉及的实施环境进行介绍。

参见图1，该实施环境包括：摄像头101、终端102和服务器103。

作为一个示例，本申请实施例提供的目标跟踪方法可应用在单摄像头多目标跟踪场景下，即摄像头101的个数为一个，在该场景下，摄像头101既可以为固定摄像头，也可以为移动摄像头，本申请实施例对此不进行具体限定。

在本申请实施例中，终端102能够向服务器103发起目标跟踪请求，以请求服务器103对某一摄像头进行目标跟踪。其中，终端102的类型包括但不限于智能手机、平板电脑、台式电脑、笔记本电脑等。

在一种可能的实现方式中，终端102上安装有特定应用程序，终端102通过该特定应用程序与服务器103进行数据通信。

另外，终端102还可以对摄像头101采集到的视频流进行显示，以及对服务器103返回的目标跟踪结果进行显示，本申请实施例对此不进行具体限定。

需要说明的是，服务器103可以为单独的服务器或服务器集群，本申请实施例对此同样不进行具体限定。

如前文所述，相关技术在进行目标跟踪时，要么较为耗时，严重影响目标跟踪的性能，难以达到实时跟踪；要么因为未利用全部图像的信息，虽然达到了实时跟踪，但是对跟踪结果的准确性造成影响。考虑到上述存在的问题，本申请实施例提出了一种基于运动向量的目标跟踪方法，该方法的应用场景包括但不限于单摄像头多目标跟踪。

该方法既利用了全部图像的信息，又避免了因逐帧进行目标检测而导致的速率较慢，进而无法做到实时跟踪的问题。即该方法不但确保了实时的跟踪速度，而且还确保了得到的跟踪结果的精确度。

以图1所示的实施环境和图2所示的系统架构图为例，摄像头101采集的视频流会存储备份在服务器103上。当终端102向服务器103发起针对摄像头101的目标跟踪请求时，服务器103会获取摄像头101采集的视频流，并将视频流进行解码得到多帧图像，同时服务器103还会提取每一帧图像的运动向量。

在本申请实施例中，会将解码得到的多帧图像分为检测帧和跟踪帧，对于检测帧和跟踪帧服务器103执行不同的处理。

需要说明的是，解码得到的第一帧图像为检测帧；其中，一个检测帧后面通常可以跟随多个跟踪帧，而检测帧和跟踪帧的密度可以根据具体场景进行设置，本申请实施例对此不进行具体限定。即，检测帧只占全部图像中的一小部分，跟踪帧的数量大于检测帧。

如图2所示，服务器103仅是对检测帧进行目标检测和关键点检测，而对跟踪帧进行跟踪操作，即从相邻两帧图像之间提取各帧图像的运动向量，并通过对运动向量进行分区域统计，来定位目标在各帧图像中的位置，进而基于定位到的位置确定跟踪的目标在现实场景的移动方向，从而实现对目标进行跟踪。

换一种表达方式，服务器103仅需对检测帧进行目标检测，而跟踪帧则被用于进行运动检测，以判断是否有移动目标，即服务器103从相邻两帧图像之间提取各帧图像的运动向量，通过统计运动向量的方向，来计算跟踪的目标的空间运动信息，从而确定跟踪的目标的移动方向，进而实现对目标进行跟踪。

本申请实施例提供的方法首次将运动向量用于目标跟踪，有效地减少了特征搜索空间，提高了目标跟踪效率。另外，由于仅需对检测帧进行目标检测，因此显著提升了跟踪速度，而且由于利用了全部图像的信息，因此还确保了得到的跟踪结果的精确度。

在另一种可能的实现方式中，在得到跟踪结果后，服务器103除了选择将跟踪结果推送至终端102进行前端显示之外，还可以将跟踪结果推送至其他业务逻辑，比如区域管控、徘徊检测、跨摄像头多目标跟踪、视频结构化等，本申请实施例对此不进行具体限定。

下面对本申请实施例提供的一种目标跟踪方法进行详细地解释说明。

需要说明的是，后文中出现的类似第一、第二、第三、第四等描述，仅是为了区分不同的对象，而不构成任何其他的限定。

图3是本申请实施例提供的一种目标跟踪方法的流程图。参见图3，本申请实施例提供的方法流程包括：

301、终端向服务器发起针对摄像头的目标跟踪请求。

以单摄像头多目标跟踪场景为例，则题述的摄像头指代单一摄像头，其中，该摄像头机既可以为固定式摄像头，也可以为移动式摄像头，本申请实施例对此不进行具体限定。

作为一个示例，终端可对防控范围内的任意一个摄像头发起目标跟踪请求。

302、服务器在接收到针对该摄像头的目标跟踪请求后，获取该摄像头采集的视频流。

如图2所示，摄像头在采集到视频流后，通常会将采集的视频流上传至服务器进行备份存储，因此服务器在接收到目标跟踪请求后，可直接从诸如后台数据库等地方获取相应摄像头采集的视频流。

需要说明的是，摄像头采集到的视频数据通常是以“流”的形式进行传输。

303、服务器对视频流进行解码得到多帧图像，并获取多帧图像中每帧图像的运动向量。

在本申请实施例中，服务器在获取到视频流后会对视频流进行解码，换一种表达方式，服务器会对视频流进行逐帧分割，也即将视频流拆分成帧，进而得到一帧一帧的单独图像。

其中，一帧图像的运动向量中包括了各个像素点的运动向量，该运动向量指示了各个像素点在相邻的两帧图像之间的相对位移。

作为一个示例，针对从摄像头采集的视频流中解码出来的每一帧图像，该帧图像中坐标位置为(x，y)的像素点的运动向量为(dx，dy)。

在一种可能的实现方式中，运动向量是服务器根据摄像头采集到的视频流的码流格式和解码特点直接从视频流中提取到的，换一种表达方式，运动向量是摄像头采集到的视频流本身包含一种信息。

304、对于待处理的当前帧图像，服务器判断当前帧图像是检测帧还是跟踪帧；如果当前帧图像为检测帧，则执行下述步骤305；如果当前帧图像为跟踪帧，则执行下述步骤308。

在本申请实施中，为了实现既能够利用到解码出来的全部图像的信息，又不需要对全部图像均进行目标检测，服务器将解码出来的多帧图像分为了检测帧和跟踪帧。其中，检测帧指代需要进行目标检测的视频帧，跟踪帧指代不需要进行目标检测仅需要执行跟踪操作的视频帧，在本文中，检测帧也称之为第一类型图像，跟踪帧也称之为第二类型图像。

需要说明的是，解码出来的第一帧图像为检测帧；即，解码出来的多帧图像中的第一帧图像为检测帧，且每两个检测帧之间间隔一个或多个跟踪帧。也即，一个检测帧后面可以跟随多个跟踪帧，而检测帧和跟踪帧的密度可以根据具体场景来进行设置，本申请实施例对此不进行具体限定。

作为一个示例，如图2所示，假设检测帧的设置间隔为5，则若第i帧为检测帧，那么接下来的第i+1帧、第i+2帧、第i+3帧和第i+4帧均为跟踪帧，而第i+5帧为检测帧。其中，i的取值为正整数。以i的取值为1为例，则第2帧、第3帧、第4帧和第5帧均为跟踪帧，第1帧和第6帧为检测帧。

305、服务器对当前帧图像进行目标检测，得到被检测目标在当前帧图像中的第一位置，并将被检测目标在当前帧图像中的第一位置，作为当前帧图像的跟踪结果返回给终端，由终端对第一位置进行显示。

需要说明的第一点是，服务器跟踪的目标即被检测目标包括但不限于人类、车辆、动物等，本申请实施例对此不进行具体限定。

需要说明的第二点是，一帧图像中可能存在多个被检测目标，服务器在进行目标检测时，还需给出当前帧图像中所有被检测目标的位置信息。

在本申请实施例中，服务器基于目标检测算法对当前帧图像进行目标检测。其中，使用的目标检测算法包括但不限于：Faster R-CNN(Convolutional Neural Networks,卷积神经网络)、Mask R-CNN、YOLO(You Only Look Once)、YOLOv2、YOLOv3等。

在一种可能的实现方式中，以被检测目标为行人为例，则目标检测结果会给出行人的位置信息(xb,yb,width,height)，该位置信息即对应前述的第一位置。其中，(xb,yb)为检测出来的行人的外接矩形(也称之为边界框)的起始点坐标，width和height分别指代该外接矩形的宽度和高度。

其中，服务器执行目标检测的效果可如图4所示。

在本申请实施例中，会将被检测目标在当前帧图像中的第一位置，即位置信息(xb,yb,width,height)，作为当前帧图像的跟踪结果返回给终端，由第一终端进行前端显示，呈现给用户。

306、服务器对当前帧图像中的被检测目标进行关键点检测。

以被检测目标为行人为例，则题述的对被检测目标关键检测即为对行人进行人体骨骼关键点检测，也即本步骤用于实现对人体关键点进行定位，给出人体关键点的坐标(xk,yk)。

在一种可能的实现方式中，参见5,人体关键点包括左眼、右眼、左耳、右耳、鼻子、左肩、右肩、左肘、右肘、左手腕、右手腕、左臀、右臀、左膝、右膝、左踝、右踝这17个关键点。

作为一个示例，服务器在进行人体骨骼关键点检测时，使用的人体骨骼关键点检测算法包括但不限于G-RMI、Mask R-CNN、HRNet、CPN(Cascaded Pyramid Network，级联金字塔网络)等，本申请实施例对此不进行具体限定。

其中，服务器执行人体骨骼关键点检测的效果可如图6所示。

307、服务器基于得到的关键点检测结果和当前帧图像的运动向量，预测当前帧图像中的被检测目标在下一帧图像中的第三位置。

在一种可能的实现方式中，本步骤可细分为如下几个步骤：

3071、根据关键点检测结果对每一个被检测目标进行区域划分。

针对该步骤，即是对于每个被检测目标均执行以下步骤：基于每个被检测目标的关键点检测结果，将每个被检测目标划分为多个区域。

以被检测目标为行人为例，则是基于每个行人的人体骨骼关键点检测结果，将每个行人划分为多个人体区域。

作为一个示例，如图7所示，本申请实施例将人体一共划分为了13个区域，分别用数字1至13代表。需要说明的是，如图8所示，由于摄像头视角和人体在运动过程中姿态变化的缘故，这13个区域极有可能出现重叠的情况。

3072、对于每个被检测目标，计算划分出来的各个区域的运动向量偏置。

本步骤根据运动向量分别计算被检测目标的各个区域的运动向量偏置。即，服务器基于当前帧图像的运动向量，获取被检测目标的每个区域的运动向量偏置。其中，该运动向量偏置在本文中为平均运动向量偏置，以坐标(d_ave-x,d_ave-y)指代该平均运动向量偏置。

在一种可能的实现方式中，平均运动向量偏置的计算公式如下：

其中，(dx,dy)为坐标为(x,y)的像素点的运动向量，N为该区域中包括像素点总量。上述计算公式用文字描述即为：对于被检测目标的每个区域，基于当前帧图像的运动向量，获取该区域中每个像素点的运动向量；基于该区域中包括的像素点总量和该区域中每个像素点的运动向量，获取该区域的平均运动向量偏置。

3073、将每个被检测目标的各个区域按照相应的运动向量偏置进行平移，作为各个区域在下一帧图像中对应的区域位置。

如图9所示，图9中示出的各个标注框即为根据当前帧图像的各个区域的运动向量，预估出来的各个区域在下一帧图像中的具体位置。

3074、基于预测出的各个区域在下一帧图像中的位置，在下一帧图像中生成一个包围各个区域的外接矩形，得到被检测目标在下一帧图像中的第三位置。

针对该步骤，服务器会根据预测出的各个区域在下一帧图像中的位置，求取一个外接矩形，作为相应的被检测目标在下一帧图像的位置，从而实现对下一帧图像中的被检测目标进行跟踪，而无需再对下一帧图像进行目标检测和关键点检测等操作，从而节省了算法资源，加快了处理速度。

其中，本步骤的处理效果图可如图10所示。至此，经过步骤305至步骤307对当前帧图像的处理完毕。

作为一个示例，以当前帧图像为图2中的第i帧为例，由于第i帧为检测帧，因此需要对第i帧依次执行目标检测、关键点检测、区域划分、计算区域的运动向量偏置以及确定下一帧图像目标位置等处理。但是第i帧的下一帧即第i+1帧、以及后续的第i+2帧至第i+4帧，则无需再进行诸如第i帧的上述处理，如图2所示，第i+1帧至第i+4帧仅需执行除目标检测和关键点检测之外的处理即可。

308、服务器基于上一帧图像的运动向量，预测上一帧图像中的被检测目标在当前帧图像中的第二位置，并将被检测目标在当前帧图像中的第二位置，作为当前帧图像的跟踪结果返回给终端，由终端对第二位置进行显示。

在本申请实施例中，由于当前帧图像为跟踪帧，因此在上一帧图像的处理过程中，会基于上一帧图像的运动向量，预估当前帧图像中被检测目标的各个区域的位置，并基于预估的各个区域的位置求取一个外接矩形，作为当前帧图像中被检测目标的位置，即得到上一帧图像中的被检测目标在当前帧图像中的第二位置。

换一种表达方式，对于一帧图像来说，如果该帧图像的下一帧图像不是检测帧，则还会基于该帧图像的运动向量，预估下一帧图像中被检测目标的各个区域的位置，以及基于预估的各个区域的位置，确定下一帧图像中被检测目标的位置。

在另一种可能的实现方式中，如果当前帧图像的下一帧图像仍然为跟踪帧，则本申请实施例还会基于当前帧图像的运动向量，预测当前帧图像中的被检测目标在下一帧图像中的第四位置。

在一种可能的实现方式中，基于当前帧图像的运动向量，预测当前帧图像中的被检测目标在下一帧图像中的第四位置，包括：

3081、对于基于当前帧图像的运动向量，获取被检测目标的每个区域的运动向量偏置。

该步骤与前述步骤3072同理。

另外，由于当前帧图像为跟踪帧，因此当前帧图像中被检测目标的每个区域的位置均来自基于上一帧图像的预估。

3082、基于每个区域的运动向量偏置，将每个区域进行平移，预测得到每个区域在下一帧图像中的位置。

该步骤与前述步骤3073同理。

3083、基于预测出的每个区域在下一帧图像中的位置，在下一帧图像中生成一个包围每个区域的边界框，得到被检测目标在下一帧图像中的第四位置。

该步骤与前述步骤3074同理。

本申请实施例提供的方法至少具有以下有益效果：

在获取到摄像头采集的视频流后，首先对视频流进行解码得到多帧图像，之后，对解码得到的每帧图像依次进行如下处理：对于待处理的当前帧图像，判断当前帧图像为检测帧还是跟踪帧；如果当前帧图像为检测帧，则对当前帧图像进行目标检测，得到被检测目标在当前帧图像中的位置信息；如果当前帧图像为跟踪帧，则基于上一帧图像的运动向量，预测上一帧图像中的被检测目标在当前帧图像中的位置信息。

基于以上描述可知，本申请实施例将解码出来的多帧图像分为了检测帧和跟踪帧，且仅对检测帧执行目标检测，对于跟踪帧仅是基于运动向量执行运动检测，即通过运动向量来计算跟踪的目标的空间运动信息。

本申请实施例提供的目标跟踪方法，既利用到了解码出来的全部图像的信息，又避免了逐帧图像进行目标检测带来的速率较慢的问题，该方法不但确保了实时的跟踪速度，而且还确保了得到的跟踪结果的精确度，因此极大地提升了目标跟踪的效率，减少了时间和资源的消耗。

另外，通过连接每一帧图像的被检测目标的位置信息，可以得到各个被检测目标的运动轨迹。

另外，本申请实施例提供的方法将运动向量用于目标跟踪，有效地减少了特征搜索空间，进一步地提高了目标跟踪的效率。

另外，本申请实施例提供的目标跟踪方法可以实现单摄像头下多目标实时跟踪，进而可以应用于跨摄像头多目标跟踪、徘徊检测、区域管控等多种业务场景下。

另外，本申请实施例提供的目标跟踪方法可以广泛应用于安防领域，降低安防成本、提升安保效率。

在另一个实施例中，参见图11，以目标为行人为例，则本申请实施例提供的目标跟踪方法的整体执行流程包括如下步骤：

1101、对摄像头的视频流进行解码，获取解码得到的每帧图像的运动向量。

该步骤即是将视频流解码为一帧一帧的图像，并提取每帧图像的运动向量。

1102、判断当前帧图像是检测帧还是跟踪帧；如果当前帧图像是检测帧，则执行下述步骤1103；如果当前帧图像是跟踪帧，则执行下述步骤1108。

需要说明的是，解码后的第一帧还需为检测帧；其中，一个检测帧后面可以跟随多个跟踪帧，检测帧和跟踪帧的密度可以根据具体场景来进行设置，本申请实施例对此不进行具体限定。

1103、基于目标检测算法对当前帧图像的人体目标进行检测，并将检测到的人体目标的位置信息(xb,yb,width,height)作为当前帧图像的跟踪结果，执行下述步骤1109。

1104、基于人体骨骼关键点检测算法，对检测到的每个人体目标进行人体骨骼关键点检测。

1105、对于每个人体目标，根据相应的人体关键点信息进行人体区域划分。

1106、基于当前帧图像中各个人体目标的运动向量，计算各个人体目标的每个人体区域的运动向量偏置，将每个人体区域按照相应的运动向量偏置进行平移，作为下一帧图像中每个人体区域对应的位置。

1107、根据上一步中预测的下一帧图像中每个人体区域对应的位置，确定下一帧图像中各个人体目标的位置，至此，该帧处理完毕。

1108、基于步骤1106和1107，获取作为跟踪帧的当前帧图像中各个人体目标的人体区域的位置信息，以及当前帧图像中各个人体目标的位置信息，将获取到的各个人体目标的位置信息作为当前帧图像的跟踪结果，分别执行下述步骤1109和1110。

1109、返回当前帧的跟踪结果。

需要说明的是，一帧图像中可能存在多个人体目标，因此还需返回检测到的所有人体目标的位置信息。

1110、判断下一帧图像是否为跟踪帧；如果是，则跳转至步骤1106。

本申请实施例提供的方法，在获取到摄像头采集的视频流后，首先对视频流进行解码得到多帧图像，之后，对解码得到的每帧图像依次进行如下处理：对于待处理的当前帧图像，判断当前帧图像为检测帧还是跟踪帧；如果当前帧图像为检测帧，则对当前帧图像进行目标检测，得到被检测目标在当前帧图像中的位置；如果当前帧图像为跟踪帧，则基于上一帧图像的运动向量，预测上一帧图像中的被检测目标在当前帧图像中的位置。

本申请实施例提供的目标跟踪方法既利用到了解码出来的全部图像的信息，又避免了逐帧图像进行目标检测带来的速率较慢的问题，该方法不但确保了实时的跟踪速度，而且还确保了得到的跟踪结果的精确度，因此极大地提升了目标跟踪的效率，减少了时间和资源的消耗。

在另一个实施例中，参见图12，本申请实施例提供的目标跟踪方法包括如下步骤：

1201、获取摄像头采集的视频流，对视频流进行解码得到多帧图像。

1202、对于待处理的当前帧图像，当该当前帧图像为第一类型图像时，对当前帧图像进行目标检测，得到被检测目标在当前帧图像中的位置信息。

1203、当该当前帧图像为第二类型图像时，基于上一帧图像的运动向量，预测上一帧图像中的被检测目标在当前帧图像中的位置信息。

本申请实施例提供的方法，在获取到摄像头采集的视频流后，首先对视频流进行解码得到多帧图像，之后，对解码得到的每帧图像依次进行如下处理：对于待处理的当前帧图像；如果当前帧图像为第一类图像，则对当前帧图像进行目标检测，得到被检测目标在当前帧图像中的位置；如果当前帧图像为第二类图像，则基于上一帧图像的运动向量，预测上一帧图像中的被检测目标在当前帧图像中的位置。

基于以上描述可知，本申请实施例将解码出来的多帧图像分为了第一类图像和第二类推向，且仅对第一类图像执行目标检测，对于第二类图像仅是基于运动向量执行运动检测，即通过运动向量来计算跟踪的目标的空间运动信息。

图13是本申请实施例提供的一种目标跟踪装置的结构示意图。参见图13，该装置包括：

获取模块1301，用于获取摄像头采集的视频流；

解码模块1302，用于对所述视频流进行解码得到多帧图像；

处理模块1303，用于对于待处理的当前帧图像，当所述当前帧图像为第一类型图像时，对所述当前帧图像进行目标检测，得到被检测目标在所述当前帧图像中的位置信息；当所述当前帧图像为第二类型图像时，基于上一帧图像的运动向量，预测所述上一帧图像中的被检测目标在所述当前帧图像中的位置信息。

本申请实施例提供的装置，在获取到摄像头采集的视频流后，首先对视频流进行解码得到多帧图像，之后，对解码得到的每帧图像依次进行如下处理：对于待处理的当前帧图像，判断当前帧图像为第一类图像还是第二类图像；如果当前帧图像为第一类图像，则对当前帧图像进行目标检测，得到被检测目标在当前帧图像中的位置信息；如果当前帧图像为第二类图像，则基于上一帧图像的运动向量，预测上一帧图像中的被检测目标在当前帧图像中的位置信息。基于以上描述可知，本申请实施例将解码出来的多帧图像分为了两类，且仅对第一类图像执行目标检测，对于第二类图像仅是基于运动向量执行运动检测，即通过运动向量来计算跟踪的目标的空间运动信息。该种目标跟踪方法，既利用到了解码出来的全部图像的信息，又避免了逐帧图像进行目标检测带来的速率较慢的问题，不但确保了实时的跟踪速度，而且还确保了得到的跟踪结果的精确度，因此极大地提升了目标跟踪的效率，减少了时间和资源的消耗。

在一种可能的实现方式中，所述第一类型图像为所述多帧图像中的检测帧，所述第二类型图像为所述多帧图像中的跟踪帧；

其中，所述多帧图像中解码出来的第一帧图像为所述检测帧，每两个所述检测帧之间间隔一个或多个所述跟踪帧。

在一种可能的实现方式中，所述装置还包括：

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的触发智能网业务的装置在触发智能网业务时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的触发智能网业务的装置与触发智能网业务的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图14是本申请实施例提供的一种电子设备的结构示意图，该电子设备可以表现为服务器。该电子设备1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)1401和一个或一个以上的存储器1402，其中，所述存储器1402中存储有至少一条指令，所述至少一条指令由所述处理器1401加载并执行以实现上述各个方法实施例提供的目标跟踪方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述实施例中的目标跟踪方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种目标跟踪方法，其特征在于，所述方法包括：

对于待处理的当前帧图像，当所述当前帧图像为第一类型图像时，对所述当前帧图像进行目标检测，得到被检测目标在所述当前帧图像中的位置信息；对所述被检测目标进行关键点检测；基于所述被检测目标的关键点检测结果，将所述被检测目标划分为多个区域；基于所述当前帧图像的运动向量，获取所述被检测目标的每个区域的运动向量偏置；

当所述当前帧图像为第二类型图像时，基于上一帧图像的运动向量，预测所述上一帧图像中的被检测目标在所述当前帧图像中的位置信息；当下一帧图像为所述第二类型图像时，基于所述当前帧图像的运动向量，获取所述被检测目标的每个区域的运动向量偏置；

在得到所述每个区域的运动向量偏置后，基于所述每个区域的运动向量偏置，将所述每个区域进行平移，预测得到所述每个区域在所述下一帧图像中的位置信息；基于预测出的所述每个区域在所述下一帧图像中的位置信息，在所述下一帧图像中生成一个包围所述每个区域的边界框，得到所述被检测目标在所述下一帧图像中的位置信息。

2.根据权利要求1所述的方法，其特征在于，所述第一类型图像为所述多帧图像中的检测帧，所述第二类型图像为所述多帧图像中的跟踪帧；

3.根据权利要求1所述的方法，其特征在于，所述基于所述当前帧图像的运动向量，获取所述被检测目标的每个区域的运动向量偏置，包括：

对于所述被检测目标的每个区域，基于所述当前帧图像的运动向量，获取所述区域中每个像素点的运动向量；

基于所述区域中包括的像素点总量和所述区域中每个像素点的运动向量，获取所述区域的运动向量偏置。

4.根据权利要求1至3中任一项权利要求所述的方法，其特征在于，所述获取摄像头采集的视频流，包括：

在接收到终端发送的针对所述摄像头的目标跟踪请求后，获取所述摄像头采集的视频流。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

将所述被检测目标在所述当前帧图像中的位置信息发送给所述终端，由所述终端对所述被检测目标在所述当前帧图像中的位置信息进行显示。

6.根据权利要求1所述的方法，其特征在于，当所述被检测目标为行人时，所述对所述当前帧图像中的被检测目标进行关键点检测，包括：

对所述当前帧图像中的行人进行人体骨骼关键点检测；

所述基于所述被检测目标的关键点检测结果，将所述被检测目标划分为多个区域，包括：

基于所述行人的人体骨骼关键点检测结果，将所述行人划分为多个人体区域。

7.一种目标跟踪装置，其特征在于，所述装置包括：

获取模块，用于获取摄像头采集的视频流；

解码模块，用于对所述视频流进行解码得到多帧图像；

处理模块，用于对于待处理的当前帧图像，当所述当前帧图像为第一类型图像时，对所述当前帧图像进行目标检测，得到被检测目标在所述当前帧图像中的位置信息；对所述被检测目标进行关键点检测；基于所述被检测目标的关键点检测结果，将所述被检测目标划分为多个区域；基于所述当前帧图像的运动向量，获取所述被检测目标的每个区域的运动向量偏置；

所述处理模块，还用于当所述当前帧图像为第二类型图像时，基于上一帧图像的运动向量，预测所述上一帧图像中的被检测目标在所述当前帧图像中的位置信息；当下一帧图像为所述第二类型图像时，基于所述当前帧图像的运动向量，获取所述被检测目标的每个区域的运动向量偏置；

所述处理模块，还用于在得到所述每个区域的运动向量偏置后，基于所述每个区域的运动向量偏置，将所述每个区域进行平移，预测得到所述每个区域在所述下一帧图像中的位置信息；基于预测出的所述每个区域在所述下一帧图像中的位置信息，在所述下一帧图像中生成一个包围所述每个区域的边界框，得到所述被检测目标在所述下一帧图像中的位置信息。

8.根据权利要求7所述的装置，其特征在于，所述第一类型图像为所述多帧图像中的检测帧，所述第二类型图像为所述多帧图像中的跟踪帧；

9.一种存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至6中任一项权利要求所述的目标跟踪方法。

10.一种电子设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至6中任一项权利要求所述的目标跟踪方法。