CN110868600A

CN110868600A - 目标跟踪视频推流方法、显示方法、装置和存储介质

Info

Publication number: CN110868600A
Application number: CN201911096937.2A
Authority: CN
Inventors: 毛江云; 杨涛; 陈志博
Original assignee: Tencent Cloud Computing Beijing Co Ltd
Current assignee: Tencent Cloud Computing Beijing Co Ltd
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2020-03-06
Anticipated expiration: 2039-11-11
Also published as: CN110868600B

Abstract

本申请提供一种目标跟踪视频推流方法、显示方法、装置和存储介质，属于图像处理技术领域。在本申请中，确定视频数据中的各个图像帧中的目标检测框位置信息之后，将根据图像帧中包含的目标检测框的位置信息，生成该图像帧对应的检测框位置数据，然后通过两个通道分别发送视频数据和检测框位置数据。对于视频数据进行编码压缩后生成编码数据，通过视频数据通道发送编码数据，编码数据的数据量远小于未编码的视频数据的数据量。而检测框位置数据本身的数据格式决定了其数据量很小，可以无需编码压缩直接通过位置数据通道发送。相较于现有的发送包含目标检测框的图片的方式，本申请所提供的方案可以减小传输数据量，节约网络带宽。

Description

目标跟踪视频推流方法、显示方法、装置和存储介质

技术领域

本申请涉及图像处理技术领域，具体涉及一种目标跟踪视频推流方法、显示方法、装置和存储介质。

背景技术

随着科学技术的快速发展，基于计算机视觉的相关技术得以广泛应用，例如，目标跟踪技术迅速发展并在多个领域得到应用，其中的人脸跟踪技术目前已在视频安防、自动门禁、商场购物等场景下广泛应用。

目标跟踪技术主要包括目标检测和目标跟踪，其中，目标检测是指在图片中找到目标位置，目标跟踪是指给定初始目标位置，在连续的视频图像中进行持续目标位置的预测。

在目前的多种应用场景中，视频处理设备对采集的视频进行目标跟踪处理之后，可以通过显示设备实时显示目标跟踪的结果。例如，在视频安防场景中，摄像头实时采集视频，视频处理设备对采集的视频进行人脸检测和人脸跟踪，在视频的图像帧中标记人脸框，将包含人脸框的视频发送至播放设备的显示设备上进行播放，以方便管理人员直观地查看视频监控。在商场购物场景中，在显示设备上播放包含人脸框的视频，除了方便管理人员直观地查看之外，还有利于进行人流统计。

在现有的目标跟踪应用场景中，视频处理设备进行对采集的视频进行目标跟踪处理之后，通常将包含目标检测框的图像帧以图片流的形式发送至播放设备进行播放。由于图片的数据量大，因此以图片流的方式传输图像帧数据流量大，会占用较大的网络带宽。

发明内容

为解决现有存在的技术问题，本申请实施例提供一种目标跟踪视频推流方法、显示方法、装置和存储介质，可以减小传输数据量，节约网络带宽。

为达到上述目的，本申请实施例的技术方案是这样实现的：

第一方面，本申请实施例提供了一种目标跟踪视频推流方法，所述方法包括：

对于获取的视频数据中包含目标对象的各个图像帧，确定目标检测框在图像帧中的位置信息，所述目标检测框用于标记图像帧中目标对象的位置；

根据每个图像帧包含的目标检测框的位置信息，生成每个图像帧对应的检测框位置数据；

通过视频数据通道发送包含编码后的视频数据的编码数据；

通过位置数据通道发送每个图像帧对应的检测框位置数据。

在一种可能的实施例中，所述对于获取的视频数据中包含目标对象的各个图像帧，确定目标检测框在图像帧中的位置信息之前，所述方法还包括：

通过取流线程获取视频数据，并将获取的视频数据暂存至消息队列中；

所述发送包含编码后的视频数据的编码数据，包括：

通过推流线程从消息队列中提取视频数据，对所述视频数据进行编码，并发送编码后得到的编码数据。

在一种可能的实施例中，所述方法还包括：

通过取流线程获取音频数据，并将获取的音频数据暂存至消息队列中；

所述发送包含编码后的视频数据的编码数据，还包括：

通过推流线程从消息队列中提取音频数据；

根据系统时钟基准为视频数据中的每个图像帧添加对应的时间戳信息，并根据系统时钟基准为音频数据中的每个音频帧添加对应的时间戳信息；

将添加时间戳信息后的视频数据和音频数据共同编码，得到编码数据。

在一种可能的实施例中，所述通过取流线程获取视频数据，包括：

若接收到的视音频数据中包括多路视频流数据，从所述多路视频流数据中选取一路视频流数据作为获取的视频数据；

所述通过取流线程获取音频数据，包括：

若接收到的视音频数据中包括多路音频流数据，从所述多路音频流数据中选取一路音频流数据作为获取的音频数据。

第二方面，本申请实施例提供了一种目标跟踪视频显示方法，所述方法包括：

通过视频数据通道接收编码数据，所述编码数据包括编码后的视频数据；

对所述编码数据进行解码，得到所述视频数据；

通过位置数据通道接收所述视频数据中包含目标对象的各个图像帧对应的检测框位置数据，所述检测框位置数据包括对应的图像帧所包含的目标检测框的位置信息；

根据所述检测框位置数据在对应的图像帧中添加目标检测框；

显示所述视频数据的各个图像帧，全部或部分图像帧中包含目标检测框。

第三方面，本申请实施例提供了一种目标跟踪视频推流装置，所述装置包括：

目标检测单元，用于对于获取的视频数据中包含目标对象的各个图像帧，确定目标检测框在图像帧中的位置信息，所述目标检测框用于标记图像帧中目标对象的位置；以及根据每个图像帧包含的目标检测框的位置信息，生成每个图像帧对应的检测框位置数据；

推流单元，用于通过视频数据通道发送包含编码后的视频数据的编码数据；以及通过位置数据通道发送每个图像帧对应的检测框位置数据。

第四方面，本申请实施例提供了一种目标跟踪视频显示装置，所述装置包括：

数据接收单元，用于通过视频数据通道接收编码数据，所述编码数据包括编码后的视频数据；并通过位置数据通道接收所述视频数据中包含目标对象的各个图像帧对应的检测框位置数据，所述检测框位置数据包括对应的图像帧所包含的目标检测框的位置信息；

解码单元，用于对所述编码数据进行解码，得到所述视频数据；

显示单元，用于根据所述检测框位置数据在对应的图像帧中添加目标检测框，并显示所述视频数据的各个图像帧，全部或部分图像帧中包含目标检测框。

第五方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现上述第一方面的目标跟踪视频推流方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现上述第一方面的目标跟踪视频显示方法。

第七方面，本申请实施例提供了一种视频处理设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器实现上述第一方面的目标跟踪视频推流方法。

第八方面，本申请实施例提供了一种播放设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器实现上述第二方面的目标跟踪视频显示方法。

本申请实施例的目标跟踪视频推流方法、显示方法、装置和存储介质，在确定视频数据中的各个图像帧中的目标检测框位置信息之后，将根据图像帧中包含的目标检测框的位置信息，生成该图像帧对应的检测框位置数据，然后通过两个通道分别发送视频数据和检测框位置数据。对于视频数据进行编码压缩后生成编码数据，通过视频数据通道发送编码数据，编码数据的数据量远小于未编码的视频数据的数据量。而检测框位置数据本身的数据格式决定了其数据量很小，可以无需编码压缩直接通过位置数据通道发送。相较于现有技术中将目标检测框标注在图像帧上，在发送包含目标检测框的图片的方式，本申请实施例所提供的方法可以减小传输数据量，节约网络带宽。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种目标跟踪视频推流方法的应用场景图；

图2为本申请实施例提供的一种目标跟踪视频推流方法的流程示意图；

图3为本申请实施例提供的一种取流和推流的执行过程的流程示意图；

图4为本申请实施例提供的一种取流线程的工作流程示意图；

图5为本申请实施例提供的一种视频数据和音频数据分离的示意图；

图6为本申请实施例提供的一种推流线程的工作流程示意图；

图7为本申请实施例提供的一种目标跟踪视频显示方法的流程示意图；

图8为本申请实施例提供的一种播放设备播放的画面的示意图；

图9为本申请实施例提供的一种目标跟踪视频推流装置的结构框图；

图10为本申请实施例提供的另一种目标跟踪视频推流装置的结构框图；

图11为本申请实施例提供的一种目标跟踪视频显示装置的结构框图；

图12为本申请实施例提供的一种视频处理设备的结构框图；

图13为本申请实施例提供的一种播放设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

以下对本申请实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

(1)取流：指获取视频数据的过程，视频处理设备可以接收摄像头采集的视频数据，也可以获取保存在存储介质中的视频数据或者通过网络下载视频数据，诸如上述获取视频数据的过程均可以称为取流。

(2)推流：指将视频数据和检测框位置数据发送至服务器或播放设备的过程，视频处理设备可以将视频数据和检测框位置数据直接发送至播放设备，也可以先将视频数据和检测框位置数据发送至服务器，再由服务器将其转发至播放设备。

(3)目标跟踪技术：指在检测到目标的前提下，在后续图像帧中继续捕获目标的位置信息的一种计算机视觉技术。目标跟踪技术包括目标检测和目标跟踪两个过程，其中，目标检测过程是指在图片中找到目标位置，目标跟踪过程是指给定初始目标位置，在连续的视频图像帧中进行持续目标位置的预测。

(4)计算机视觉技术：是一门研究如何使机器“看”的科学，指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等处理的机器视觉技术，还可进一步做图形处理，将图像处理成为更适合人眼观察或传送给仪器检测的图像。

下面结合附图及具体实施例对本申请作进一步详细的说明。

本申请实施例所提供的目标跟踪视频推流方法和目标跟踪视频显示方法可以应用于图1示出的应用场景中，参见图1所示，视频处理设备100和播放设备300之间通过服务器200传输数据。视频处理设备100用于将获取的视频数据进行图像处理后，发送至服务器200，以使服务器200将接收到的视频数据转发至播放设备300进行播放。例如，在无人售货的便利店门口，可以安装视频处理设备100，视频处理设备100设置有摄像头，可以采集便利店门口的视频图像，监测是否有人进入或走出便利店。视频处理设备100对摄像头采集的视频数据进行人脸检测，并将检测得到的检查框位置数据和视频数据发送给服务器200，以使服务器200将接收到的数据转发至远端的播放设备300，展示给便利店的管理员。

在一些实施例中，视频处理设备100与服务器200之间，以及服务器200与播放设备300之间可以通过网络进行通信连接，该网络可以是但不限于局域网、城域网或广域网等。在另一些实施例中，视频处理设备100、服务器200和播放设备300还可以集成在同一个系统或同一个设备内部。

需要说明的是，图1所示的本申请实施例的应用场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定。本申请实施例提供的技术方案也可以应用于其它场景中，例如，视频处理设备直接与播放设备连接，将获取的视频数据进行图像处理后，直接发送至播放设备进行播放。并且，随着新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

图1中所示的视频处理设备100设置有摄像头，可以通过摄像头采集视频数据。在一些实施例中，视频处理设备100也可以与远程摄像头连接，或者不连接摄像头，而是获取保存在存储介质中的视频数据或者通过网络下载视频数据。例如，视频处理设备100可以通过数据线连接存储介质，获取保存在存储介质中的视频数据。

在现有技术中，视频处理设备100对视频数据进行处理，在视频数据的图像帧中标注目标检测框，由于目标检测框与原有图像帧位于不同的图层，因此采用常用的图像压缩方法对标注有目标检测框的图像帧进行编码压缩后通过服务器传送至播放设备，播放设备再进行解码，得到的解码后的视频中往往不能正确显示目标检测框。所以，视频处理设备100通常将标注有目标检测框的图像帧以图片的形式发送给服务器，由于图片的数据量极大，因此以该方式传输数据流量大，会占用较大的网络带宽，使用较多的网络资源，容易导致网络堵塞。当网络堵塞时，传输过程受阻或中断，还会影响播放设备所播放的视频的流畅性。

基于此，本申请实施例提供了一种目标跟踪视频推流方法、显示方法、装置和存储介质，可以减小传输数据量，节约网络带宽。本申请实施例提供的目标跟踪视频推流方法可以由图1所示的视频处理设备100执行，视频处理设备对于获取的视频数据中包含目标对象的各个图像帧，确定目标检测框在图像帧中的位置信息，根据每个图像帧包含的目标检测框的位置信息，生成每个图像帧对应的检测框位置数据，通过视频数据通道发送包含编码后的视频数据的编码数据，并通过位置数据通道发送每个图像帧对应的检测框位置数据。对于视频数据进行编码压缩后生成编码数据，并通过视频数据通道发送，编码数据的数据量远小于未编码的视频数据的数据量。而检测框位置数据本身的数据格式决定了其数据量很小，可以无需编码压缩直接通过位置数据通道发送。相较于现有技术，本申请实施例所提供的目标跟踪视频推流方法可以减小传输数据量，节约网络带宽。

以下首先介绍本申请实施例提供的目标跟踪视频推流方法，图2示出了本申请实施例提供的一种目标跟踪视频推流方法的流程图，如图2所示，该方法可以包括以下步骤：

步骤S201，对于获取的视频数据中包含目标对象的各个图像帧，确定目标检测框在图像帧中的位置信息。

视频处理设备可以接收摄像头采集的视频数据，也可以获取保存在存储介质中的视频数据或者通过网络下载视频数据。视频处理设备对视频数据中的图像帧进行目标检测，确定各个图像帧是否包含目标对象。其中，目标对象可以是人脸、人体，也可以是动物、植物或其它事物(如车辆)等。

视频处理设备可以采用预先训练好的目标检测模型检测视频数据的某个图像帧中是否包含目标对象。如果某个图像帧中包含目标对象，目标检测模型将输出目标检测框在该图像帧中的位置信息，其中，目标检测框用于标记图像帧中目标对象的位置。检测到某个图像帧中目标对象的位置之后，将该位置作为目标对象的初始位置，在后续的各个图像帧中进行目标跟踪，即持续在后续的图像帧中确定目标对象的位置，输出目标检测框在后续的各个图像帧中的位置信息。

步骤S202，根据每个图像帧包含的目标检测框的位置信息，生成每个图像帧对应的检测框位置数据。

对于视频数据中的图像帧，一些图像帧可能不包含目标对象，一些图像帧可能包含多个目标对象。对于包含多个目标对象的图像帧，对应每一个目标对象都有一个目标检测框，每个目标检测框都有各自的位置信息。

目标检测框的位置信息可以通过目标检测框在图像帧中的像素坐标表示，例如，可以通过目标检测框的四个角的顶点的像素坐标表示，也可以通过左上角和右下角两个顶点的像素坐标表示。如果通过左上角和右下角两个顶点的像素坐标来表示一个目标检测框的位置信息，可以表示为{[x₁,y₁],[x₂,y₂]}，其中，[x₁,y₁]表示该目标检测框的左上角的顶点的像素坐标，[x₂,y₂]表示该目标检测框的右下角的顶点的像素坐标。

如果一个图像帧中包含多个目标检测框，则根据各个目标检测框的位置信息生成的该图像帧的检测框位置数据可以表示为{{[x₁₁,y₁₁],[x₁₂,y₁₂]}，……{[x_i1,y_i1],[x_i2,y_i2]}……{[x_n1,y_n1],[x_n2,y_n2]}}，其中，n表示该图像帧中包含的目标检测框的数量，[x_i1,y_i1]表示第i个目标检测框的左上角的顶点的像素坐标，[x_i2,y_i2]表示第i个目标检测框的右下角的顶点的像素坐标。在一些实施例中，图像帧的检测框位置数据还可以通过表格的形式表示。

为了方便确定检测框位置数据与图像帧的对应关系，已使服务器或播放设备可以将目标检测框正确地标注到对应的图像帧上再进行显示，可以为每组检测框位置数据设置与对应的图像帧相同的标识。

在一些实施例中，视频数据中的每个图像帧都有标识其唯一性的编号，如果视频数据中的图像帧没有唯一对应的编号，可以为每个图像帧配置标识其唯一性的编号，并为每组检测框位置数据配置与其相对应的图像帧相同的编号。如编号为0005的图像帧，该图像帧对应的检测框位置数据的编号也是0005。播放设备可以按照编号0005的检测框位置数据中各个目标检测框的位置信息，在编号0005的图像帧上标注目标检测框。

在另一些实施例中，视频数据中的每个图像帧都有时间戳，该时间戳可以是解码时间戳或显示时间戳。每个图像帧的时间戳均不相同，可以作为图像帧的标识，为每组检测框位置数据配置与其相对应的图像帧相同的时间戳。如时间戳为m分n秒的图像帧，该图像帧对应的检测框位置数据也具有m分n秒的时间戳。播放设备可以按照时间戳为m分n秒的检测框位置数据中各个目标检测框的位置信息，在时间戳为m分n秒的图像帧上标注目标检测框。

步骤S203，通过视频数据通道发送包含编码后的视频数据的编码数据；

在一种实施例中，可以将获取的视频数据进行编码压缩后，得到编码数据。例如，可以采用H264编码标准对获取的视频数据进行编码。H264编码标准是一种面向块并基于运动补偿的高级视频编码标准。可以理解的是，也可以采用其他编码标准对获取的视频数据进行编码。对视频数据进行编码后，得到的编码数据的数据量将大大减小，远远小于原有的视频数据，更有利于通过网络或有线连接部件进行传输。

步骤S204，通过位置数据通道发送每个图像帧对应的检测框位置数据。

由于检测框位置数据具有数据格式，其本身的数据量很小，因此无需编码压缩即可直接通过位置数据通道发送。

考虑到在现有技术中，获取视频数据，对视频数据进行目标检测以及将视频数据发送至服务器几个环节通常串行执行，如果其中某一个环节出现卡顿，其它环节均受到影响，导致整体处理的速度大幅度降低。为了解决这一问题，在一个可选的实施例中，对于视频数据的获取和推送过程可以参照图3所示的流程图实现，包括：通过取流线程获取视频数据，并将获取的视频数据暂存至消息队列中；通过推流线程从消息队列中提取视频数据，对视频数据进行编码，并发送编码后得到的编码数据。通过设置消息队列，取流线程将获取的视频数据暂存至消息队列中，推流线程从消息队列中提取视频数据，实时推流。取流线程和推流线程并行执行，在取流的同时还可以进行推流，两个线程互不影响进程。

具体地说，取流线程负责获取视频数据。取流线程可以直接获取摄像头采集的视频数据，也可以接收其它设备通过网络传送的视频数据。取流线程如果接收到其它设备传送的压缩的视频数据包，还需要对视频数据包进行解码，以获得所需的视频数据。取流线程将获取的视频数据暂存至消息队列中。

推流线程负责将视频数据推送出去。推流线程按照先进先出的顺序从消息队列中提取视频数据，对视频数据进行编码，并发送编码后得到的编码数据。推流线程可以根据RTMP(Real-Time Messaging Protocol，实时消息传输协议)发送编码后的视频数据。RTMP协议是通过互联网在Flash播放器与一个服务器之间传输流媒体音频、视频和数据的专有协议。

例如，推流线程从消息队列中提取一个图像帧后，该图像帧即在消息队列中被删除。

视频数据中包括多个图像帧，通过目标检测单元对视频数据中的图像帧进行目标检测和目标跟踪，确定目标检测框在图像帧中的位置信息，并根据每个图像帧包含的目标检测框的位置信息，生成每个图像帧对应的检测框位置数据，通过推流线程发送生成的检测框位置数据。

推流线程分别通过两个不同的通道发送编码后的视频数据和检测框位置数据。

在实际应用中，一般推流线程的推流速度比取流线程的取流速度快，因此取流和推流可以实时同步进行。推流和取流实时同步，可以保证播放设备得到的视频数据和检测框位置信息的显示实时性。

另外，推流线程的推流速度会受到网络的影响，如果网络堵塞，推流线程的推流速度变慢，而取流线程的取流速度快，此时，消息队列有一定的容忍度，取流线程可以将获取的视频数据按照接收顺序暂存在消息队列中，待推流线程逐一将消息队列中的视频数据推送至服务器，从而不会发生丢帧的现象。

若网络堵塞的时间较长，消息队列中存储的视频数据超过预设量，则可以仅将视频数据中包含目标对象的各个图像帧暂存至消息队列中。例如，取流线程获取目标检测单元对视频数据中的每个图像帧的检测结果，舍弃不包含目标对象的图像帧，仅将包含目标对象的各个图像帧暂存至消息队列中，这样，推流线程在推流时，仅需要将以包含目标对象的各个图像帧进行编码压缩后推送至服务器即可，可以进一步减小推流的数据量，缓解网络压力。

在一些实施例中，取流线程的工作流程如图4所示，包括如下步骤：

步骤S401，获取视音频数据的压缩数据包。

步骤S402，解码获取的压缩数据包，得到视频数据和音频数据。

取流线程获取的数据流可能不止包含视频数据，还包含音频数据。例如，取流线程接收到其它设备传送的压缩数据包，对该压缩数据包进行解码，得到视音频数据，可以采用现有的视音频分离技术从多媒体角度将视频数据和音频数据分离，以便于对视频数据进行目标检测。并且，在弱网情况下，还可以只传输视频数据来减小对带宽的压力。

图5示出了视音频分离的示意图，目前的绝大多数视音频数据均会在流数据中封装多媒体类型，比如，在流数据中的特定字段标注该数据是视频数据或音频数据，只要解析出该特定字段的内容就可以确定该数据是视频数据还是音频数据，并可以以此为依据将视频数据和音频数据分离。

在一种实施例中，接收到的视音频数据中可能包括多路视频流数据和多路音频数据，为了减小推流传输时的数据量，或者满足采用PTMP协议推流时只能推送一路视频流和一路音频流的要求，可以从多路视频流数据中选取一路视频流数据作为获取的视频数据，并从多路音频流数据中选取一路音频流数据作为获取的音频数据。例如，可以选取第一个接收到的视频流或音频流，或者根据网络状况选取质量符合要求的视频流或音频流。例如，如果接收到PTSP(Real Time Streaming Protocol，实时流传输协议)传输的视频音数据，由于PTSP协议传输的数据流会提供质量高低不同的多种码流，因此接收到的视音频数据中往往包含多路视频数据和音频数据，可以根据网络情况动态选择一路视频数据和一路音频数据。

可以理解的是，在部分实施例中，如果接收到的视音频数据中包括多路视频流数据，从多路视频流数据中选取一路视频流数据作为获取的视频数据；如果接收到的视音频数据中包括多路音频流数据，从多路音频流数据中选取一路音频流数据作为获取的音频数据。

步骤S403，将视频数据和音频数据放入消息队列，并将视频数据传送给目标检测单元。

步骤S404，判断是否是结束帧；若是，结束；若否，返回执行步骤S401。

在一些实施例中，推流线程的工作流程如图6所示，包括如下步骤：

步骤S601，从消息队列中提取视频数据和音频数据。

推流线程可以逐帧从消息队列中提取视频数据和音频数据。

步骤S602，判断是否是结束帧；若是，结束；若否，执行步骤S603。

步骤S603，对视频数据和音频数据进行同步处理。

如果获取的视音频数据中没有时间戳信息，视音频数据无法同步，可能会导致推流失败，此时，需要对视频数据和音频数据进行同步处理。例如，可以将视频数据的时间同步到音频数据的时间基准上，也可以将音频数据的时间同步到视频数据的时间基准上，还可以将视频数据和音频数据的时间均同步到系统时钟基准上。

在一种实施例中，可以通过如下方法将视频数据和音频数据的时间均同步到系统时钟基准上：根据系统时钟基准为视频数据中的每个图像帧添加对应的时间戳信息，并根据系统时钟基准为音频数据中的每个音频帧添加对应的时间戳信息。其中，时间戳信息可以是PTS(present time stamp，解码时间戳)或DTS(decoding time stamp，显示时间戳)。

具体地说，对于视频数据中的任意一个图像帧，可以根据该图像帧的接收序号和视频帧间隔确定该图像帧对应的时间戳信息，其中，视频帧间隔是根据视频帧率和系统时钟基准确定的。例如，第i个图像帧的时间戳信息vpts_i可以通过如下公式计算得到：

vpts_i＝i_{frame_order}×t_{frame_duration}

其中，i_{frame_order}表示第i个图像帧的接收序号，即表明该图像帧是第几个图像帧。t_{frame_duration}表示视频帧间隔，视频帧间隔是视频帧率vfps的倒数和系统时钟基准的乘积。

对于音频数据中的任意一个音频帧，根据该音频帧的接收序号和音频帧间隔确定该音频帧对应的时间戳信息，其中，音频帧间隔是根据音频帧率和系统时钟基准确定的。例如，第m个音频帧的时间戳信息apts_m可以通过如下公式计算得到：

apts_m＝m_{frame_order}×t_{frame_dur}

其中，m_{frame_order}表示第m个音频帧的接收序号，即表明该音频帧是第几个音频帧。t_{frame_dur}表示音频帧间隔，音频帧间隔是音频帧率afps的倒数和系统时钟基准的乘积。

将视频数据和音频数据的时间均同步到系统时钟基准上之后，即完成了对视频数据和音频数据的同步处理。

在一些实施例中，步骤S603可以省略。如接收到的视音频数据中本身就携带有时间戳信息，则无需对视频数据和音频数据进行同步处理。

步骤S604，将视频数据和音频数据进行编码，得到编码数据。

步骤S605，发送编码数据。

通过视频数据通道将上述编码数据发送给服务器或直接发送给播放设备，并返回执行步骤S601。

在本申请实施例中，目标检测单元对取流线程得到的视频数据中的图像帧进行目标检测和目标跟踪，确定目标检测框在图像帧中的位置信息，并根据每个图像帧包含的目标检测框的位置信息，生成每个图像帧对应的检测框位置数据，将生成的检测框位置数据发送给推流线程。推流线程通过位置数据通道将检测框位置数据发送给服务器或直接发送给播放设备。播放设备接收到编码数据和检测框位置数据，对编码数据进行解码，得到视频数据和音频数据，根据检测框位置数据在视频数据的图像帧中添加目标检测框，最终显示包含目标检测框的图像帧。同时，播放设备播放与视频数据同步的音频数据。

上述实施例中，接收到数据是视音频数据，发送时视频数据和音频数据均发送至服务器或播放设备。在另一些实施例中，即使接收到的数据为视音频数据，也可以只发送视频数据或者只发送视频数据中包含目标对象的图像帧，以减轻对网络带宽的压力。

与上述目标跟踪视频推流方法目标跟踪视频显示方法相对应地，本申请实施例还提供了一种目标跟踪视频显示方法，该目标跟踪视频显示方法可以由图1中所示的播放设备300执行。图7示出了本申请实施例还提供的一种目标跟踪视频显示方法的流程图，如图7所示，该方法可以包括如下步骤：

步骤S701，通过视频数据通道接收编码数据。

编码数据为上述视频处理设备进行编码后得到的数据。播放设备可以从视频处理设备接收编码数据，也可以从服务器接收编码数据。编码数据通过视频数据通道传输，播放设备通过视频数据通道接收编码数据。

在一种实施例中，编码数据可以只包括编码后的视频数据。在另一种实施例中，编码数据可以包括编码后的视频数据和音频数据。

步骤S702，对编码数据进行解码，得到视频数据。

播放设备采用与编码标准相对应的协议对编码数据进行解码。例如，如果编码数据是根据H264编码标准进行编码后得到的数据，则可以采用H264编码标准相对应的协议对编码数据进行解码。

如果编码数据中包括编码后的视频数据，则解码后得到视频数据。如果编码数据中包括编码后的视频数据和音频数据，则解码后得到视频数据和音频数据。

步骤S703，通过位置数据通道接收视频数据中包含目标对象的各个图像帧对应的检测框位置数据。

其中，检测框位置数据包括对应的图像帧所包含的目标检测框的位置信息。检测框位置数据的数据内容和格式以在上文中介绍，在此不再赘述。

步骤S704，根据检测框位置数据在对应的图像帧中添加目标检测框。

每个检测框位置数据与对应的图像帧具有相同的标识，该标识可以是编号或时间戳。例如，如果某个检测框位置数据的时间戳为m分n秒，则该检测框位置数据与时间戳为m分n秒的图像帧相对应。按照该检测框位置数据中包含的目标检测框的位置信息，在时间戳为m分n秒的图像帧中对应的位置添加目标检测框。

步骤S705，显示视频数据的各个图像帧，全部或部分图像帧中包含目标检测框。

播放设备播放在图像帧中添加了目标检测框的视频数据，例如，如果目标对象为人脸图像，则播放设备播放的视频图像可以如图8所示。如果播放设备解码后得到音频数据，将根据视频数据和音频数据的时间戳信息同步播放视频数据和音频数据。

与上述目标跟踪视频推流方法基于相同的发明构思，本申请实施例还提供了一种目标跟踪视频推流装置。图9为本申请实施例的提供的目标跟踪视频推流装置的结构示意图；如图9所示，该目标跟踪视频推流装置包括目标检测单元91和推流单元92；其中，推流单元92可以理解为上文的推流线程。

目标检测单元91，用于对于获取的视频数据中包含目标对象的各个图像帧，确定目标检测框在图像帧中的位置信息，目标检测框用于标记图像帧中目标对象的位置；以及根据每个图像帧包含的目标检测框的位置信息，生成每个图像帧对应的检测框位置数据；

推流单元92，用于通过视频数据通道发送包含编码后的视频数据的编码数据；以及通过位置数据通道发送每个图像帧对应的检测框位置数据。

本申请实施例的目标跟踪视频推流装置，在确定视频数据中的各个图像帧中的目标检测框位置信息之后，将根据图像帧中包含的目标检测框的位置信息，生成该图像帧对应的检测框位置数据，然后通过两个通道分别发送视频数据和检测框位置数据。对于视频数据进行编码压缩后生成编码数据，通过视频数据通道发送编码数据，编码数据的数据量远小于未编码的视频数据的数据量。而检测框位置数据本身的数据格式决定了其数据量很小，可以无需编码压缩直接通过位置数据通道发送。相较于现有技术中将目标检测框标注在图像帧上，在发送包含目标检测框的图片的方式，本申请实施例所提供的装置可以减小传输数据量，节约网络带宽。

在一种可选的实施例中，每个图像帧对应的检测框位置数据具有与该图像帧相同的标识，标识为编号或时间戳。

在一种可选的实施例中，如图10所示，上述目标跟踪视频推流装置还可以包括取流单元101，取流单元101可以理解为上文的取流线程。

取流单元101，可以用于：获取视频数据，并将获取的视频数据暂存至消息队列中。

推流单元92，可以用于：从消息队列中提取视频数据，对视频数据进行编码，并发送编码后得到的编码数据。

在一种可选的实施例中，取流单元101，还可以用于：获取音频数据，并将获取的音频数据暂存至消息队列中。

推流单元92，还可以用于：通过推流线程从消息队列中提取音频数据；根据系统时钟基准为视频数据中的每个图像帧添加对应的时间戳信息，并根据系统时钟基准为音频数据中的每个音频帧添加对应的时间戳信息；将添加时间戳信息后的视频数据和音频数据共同编码，得到编码数据。

在一种可选的实施例中，推流单元92，还可以用于：

对于视频数据中的任意一个图像帧，根据该图像帧的接收序号和视频帧间隔确定该图像帧对应的时间戳信息，视频帧间隔是根据视频帧率和系统时钟基准确定的；

对于音频数据中的任意一个音频帧，根据该音频帧的接收序号和音频帧间隔确定该音频帧对应的时间戳信息，音频帧间隔是根据音频帧率和系统时钟基准确定的。

在一种可选的实施例中，取流单元101，还可以用于：

若接收到的视音频数据中包括多路视频流数据，从多路视频流数据中选取一路视频流数据作为获取的视频数据；

若接收到的视音频数据中包括多路音频流数据，从多路音频流数据中选取一路音频流数据作为获取的音频数据。

在一种可选的实施例中，取流单元101，还可以用于：若消息队列中存储的视频数据超过预设量，则仅将视频数据中包含目标对象的各个图像帧暂存至消息队列中。

上述目标跟踪视频推流装置，通过设置消息队列，取流线程将获取的视频数据暂存至消息队列中，推流线程从消息队列中提取视频数据，实时推流。取流线程和推流线程并行执行，在取流的同时还可以进行推流，两个线程互不影响进程。

与上述目标跟踪视频显示方法基于相同的发明构思，本申请实施例还提供了一种目标跟踪视频显示装置。图11为本申请实施例的提供的目标跟踪视频推流装置的结构示意图；如图11所示，该目标跟踪视频推流装置包括数据接收单元111、解码单元112和显示单元113。

其中，数据接收单元111，用于通过视频数据通道接收编码数据，编码数据包括编码后的视频数据；并通过位置数据通道接收视频数据中包含目标对象的各个图像帧对应的检测框位置数据，检测框位置数据包括对应的图像帧所包含的目标检测框的位置信息；

解码单元112，用于对编码数据进行解码，得到视频数据；

显示单元113，用于根据检测框位置数据在对应的图像帧中添加目标检测框，并显示视频数据的各个图像帧，全部或部分图像帧中包含目标检测框。

与上述目标跟踪视频推流方法基于相同的发明构思，本申请实施例还提供了一种视频处理设备。该视频处理设备可以是图1中所示的视频处理设备100，该视频处理设备至少包括用于存储数据的存储器和用于数据处理的处理器。其中，对于用于数据处理的处理器而言，在执行处理时，可以采用微处理器、CPU、DSP或FPGA实现；对于存储器来说，包含操作指令，该操作指令可以为计算机可执行代码，通过操作指令来实现上述本申请实施例的目标跟踪视频推流方法流程中的各个步骤。

图12为本申请实施例提供的一种视频处理设备的结构示意图；如图12所示，本申请实施例中的视频处理设备100包括：处理器101、摄像头102、存储器103、通讯设备104、总线105和输入设备106。处理器101、存储器103、输入设备106、摄像头102和通讯设备104均通过总线105连接，总线105用于处理器101、存储器103、摄像头102和通讯设备104之间传输数据。

摄像头102用于采集进入视野内的事物的图像，并生成视频数据。摄像头102可以采用RGB摄像头。

存储器103，用于存储处理器101执行的计算机程序。存储器103可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统，以及运行轻应用服务功能所需的程序等；存储数据区可存储获取的视频数据、目标检测得到的检测框位置数据、消息队列等。

存储器103可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器103也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器103是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器103可以是上述存储器的组合。

存储器103中存储有计算机存储介质，计算机存储介质中存储有计算机可执行指令，计算机可执行指令用于实现本申请实施例的目标跟踪视频推流方法。处理器101，可以包括一个或多个中央处理单元(central processing unit，CPU)或者为数字处理单元等等。处理器101，用于调用存储器103中存储的计算机程序时实现上述目标跟踪视频推流方法。

通讯设备104用于与服务器或播放设备连接并进行数据传输，将视频数据和检测框位置数据传输至服务器或播放设备。

输入设备106主要用于获取用户的输入操作，当视频处理设备不同时，输入设备106也可能不同。例如，输入设备106可以是按键等。

与上述目标跟踪视频显示方法基于相同的发明构思，本申请实施例还提供了一种播放设备。该播放设备可以是图1中所示的播放设备300，该播放设备至少包括用于存储数据的存储器和用于数据处理的处理器。其中，对于用于数据处理的处理器而言，在执行处理时，可以采用微处理器、CPU、DSP或FPGA实现；对于存储器来说，包含操作指令，该操作指令可以为计算机可执行代码，通过操作指令来实现上述本申请实施例的目标跟踪视频显示方法流程中的各个步骤。

图13为本申请实施例提供的一种播放设备的结构示意图；如图13所示，本申请实施例中的播放设备300包括：处理器301、显示器302、存储器303、通讯设备304、总线305和扬声器306。处理器301、存储器303、扬声器306、摄像头302和通讯设备304均通过总线305连接，总线305用于处理器301、存储器303、摄像头302和通讯设备304之间传输数据。

显示器302用于显示接收到的视频数据。

存储器303，用于存储处理器301执行的计算机程序。存储器303可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统，以及运行轻应用服务功能所需的程序等；存储数据区可存储获取的视频数据、目标检测得到的检测框位置数据等。

存储器303中存储有计算机存储介质，计算机存储介质中存储有计算机可执行指令，计算机可执行指令用于实现本申请实施例的目标跟踪视频显示方法。处理器301，可以包括一个或多个中央处理单元(central processing unit，CPU)或者为数字处理单元等等。处理器301，用于调用存储器303中存储的计算机程序时实现上述目标跟踪视频显示方法。

通讯设备304用于与服务器或视频处理设备连接并进行数据传输，接收服务器或视频处理设备发送的视频数据和检测框位置数据。

扬声器306用于播放接收到的音频数据。

本申请实施例还提供了一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令用于实现本申请实施例所记载的目标跟踪视频推流方法。

本申请实施例还提供了一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令用于实现本申请实施例所记载的目标跟踪视频显示方法。

在一些可能的实施方式中，本申请提供的方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的方法中的步骤，例如，所述计算机设备可以执行本申请实施例所记载的目标跟踪视频推流方法或目标跟踪视频显示方法。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种目标跟踪视频推流方法，其特征在于，所述方法包括：

通过视频数据通道发送包含编码后的视频数据的编码数据；

通过位置数据通道发送每个图像帧对应的检测框位置数据。

2.根据权利要求1所述的方法，其特征在于，每个图像帧对应的检测框位置数据具有与该图像帧相同的标识，所述标识为编号或时间戳。

3.根据权利要求1所述的方法，其特征在于，所述对于获取的视频数据中包含目标对象的各个图像帧，确定目标检测框在图像帧中的位置信息之前，所述方法还包括：

所述发送包含编码后的视频数据的编码数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

所述发送包含编码后的视频数据的编码数据，还包括：

通过推流线程从消息队列中提取音频数据；

5.根据权利要求4所述的方法，其特征在于，所述根据系统时钟基准为视频数据中的每个图像帧添加对应的时间戳信息，包括：

对于视频数据中的任意一个图像帧，根据该图像帧的接收序号和视频帧间隔确定该图像帧对应的时间戳信息，所述视频帧间隔是根据视频帧率和系统时钟基准确定的；

所述根据系统时钟基准为音频数据中的每个音频帧添加对应的时间戳信息，包括：

对于音频数据中的任意一个音频帧，根据该音频帧的接收序号和音频帧间隔确定该音频帧对应的时间戳信息，所述音频帧间隔是根据音频帧率和系统时钟基准确定的。

6.根据权利要求3所述的方法，其特征在于，所述发送包含编码后的视频数据的编码数据之前，所述方法还包括：

若所述消息队列中存储的视频数据超过预设量，则仅将视频数据中包含目标对象的各个图像帧暂存至消息队列中。

7.一种目标跟踪视频显示方法，其特征在于，所述方法包括：

对所述编码数据进行解码，得到所述视频数据；

8.一种目标跟踪视频推流装置，其特征在于，所述装置包括：

9.一种目标跟踪视频显示装置，其特征在于，所述装置包括：

10.一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，其特征在于：所述计算机程序被处理器执行时，实现权利要求1～6中任一项或权利要求7所述的方法。