CN115866162A

CN115866162A - 视频流生成方法、装置、电子设备及存储介质

Info

Publication number: CN115866162A
Application number: CN202111131771.0A
Authority: CN
Inventors: 杨培志; 吴国英; 贾卫林; 赵朝凤
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Xiongan ICT Co Ltd; China Mobile System Integration Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Xiongan ICT Co Ltd; China Mobile System Integration Co Ltd
Priority date: 2021-09-26
Filing date: 2021-09-26
Publication date: 2023-03-28
Anticipated expiration: 2041-09-26
Also published as: CN115866162B

Abstract

本发明提供一种视频流生成方法、装置、电子设备及存储介质，属于视频处理技术领域。所述方法包括：确定第一队列和第二队列，第一队列中包括携带第一时间戳标识的原始视频帧数据，第二队列中包括携带第二时间戳标识的识别结果数据，第二队列中的识别结果数据是对第一队列中的原始视频帧数据进行图像识别得到的；基于第一时间戳标识与第二时间戳标识，将第一队列中的原始视频帧数据和第二队列中的识别结果数据进行时序对齐合并，获取合并后的数据队列；基于合并后的数据队列，生成视频流。本发明通过将原始视频帧和识别结果进行时序对齐后合并，基于合并后的数据队列生成视频流，有效解决了视频流合成中的数据对齐问题。

Description

视频流生成方法、装置、电子设备及存储介质

技术领域

本发明涉及视频处理技术领域，尤其涉及一种视频流生成方法、装置、电子设备及存储介质。

背景技术

随着智慧城市的深入发展，网络摄像机等视频采集设备已遍布于楼宇、街道和园区等之中，由此而生的视频图像AI(Artificial Intelligence，人工智能)分析，已经成为智慧城市建设中一项不可或缺的技术。然而，AI分析后的结果需要再通过视频的方式展示给用户，则需要使用实时视频生成技术将视频帧数据生成视频流。

现有技术生成视频流的一般实现为，将原始视频帧流和对应经过AI识别处理得到的结果作为输入数据输入视频流生成系统，然后输出叠加了对物体识别结果标注的视频流。

然而，在视觉AI的应用实践中，为了在可以满足需求的前提下尽可能降低资源消耗，AI识别会每隔一定的帧间隔处理一次视频中的帧数据，则视频帧的识别结果是非连续的，无法正确标识在视频流上。

发明内容

针对现有技术存在的问题，本发明提供一种视频流生成方法、装置、电子设备及存储介质。

第一方面，本发明提供一种视频流生成方法，包括：确定第一队列和第二队列，所述第一队列中包括携带第一时间戳标识的原始视频帧数据，所述第二队列中包括携带第二时间戳标识的识别结果数据，所述第二队列中的识别结果数据是对所述第一队列中的原始视频帧数据进行图像识别得到的，所述第一时间戳标识与所述第二时间戳标识相对应；

基于所述第一时间戳标识与所述第二时间戳标识，将所述第一队列中的原始视频帧数据和所述第二队列中的识别结果数据进行时序对齐合并，获取合并后的数据队列；

基于所述合并后的数据队列，生成视频流。

在一个实施例中，所述基于所述第一时间戳标识与所述第二时间戳标识，将所述第一队列中的原始视频帧数据和所述第二队列中的识别结果数据进行时序对齐合并，获取合并后的数据队列，包括：

从所述第二队列中获取第一个不为空的识别结果数据作为第一结果数据；

基于所述第一结果数据携带的第二时间戳标识，确定所述第一队列的起点数据，所述起点数据携带的第一时间戳标识和所述第一结果数据携带的第二时间戳标识相同；

将所述起点数据、所述第一结果数据和RGB图像帧标识进行组合，获取第一合并数据，初始化计数器的值为0，并将所述第一合并数据添加至合并后的数据队列；

将所述起点数据和所述第一结果数据分别作为所述第一队列和所述第二队列的起点，对所述第一队列和所述第二队列执行至少一次数据对齐合并过程，获取所述合并后的数据队列。

在一个实施例中，所述一次数据对齐合并过程，包括：

从所述第一队列中获取未进行数据对齐合并的首个数据作为第二视频帧数据，并将所述计数器的值加1；

在所述计数器的值大于识别图像帧的间隔个数的情况下，从所述第二队列中获取未进行数据对齐合并的首个数据作为第二结果数据，并将所述计数器的值重置为0；

将所述第二视频帧数据、所述第二结果数据和所述RGB图像帧标识进行组合，获取第二合并数据；

在所述计数器的值不大于所述识别图像帧的间隔个数的情况下，将所述第二视频帧数据、空结果数据和编码帧标识进行组合，获取第三合并数据；

将所述第二合并数据或所述第三合并数据添加至所述合并后的数据队列。

在一个实施例中，所述第一队列中的每个原始视频帧数据包括RGB像素帧类型的视频帧数据和编码帧类型的视频帧数据；

所述基于所述合并后的数据队列，生成视频流，包括：

从所述合并后的数据队列中依次获取一组数据作为第四合并数据；

在所述第四合并数据中包括的帧类型标识为所述RGB图像帧标识的情况下，基于所述第四合并数据中包括的识别结果数据，采用图形处理器GPU在所述第四合并数据中包括的RGB像素帧类型的视频帧数据上添加标注信息，获取带有标注的RGB像素类型的视频帧数据作为第三视频帧数据；

对所述第三视频帧数据进行编码，获取编码后的第三视频帧数据作为第四视频帧数据；

对所述第四视频帧数据进行封装，将封装后的所述第四视频帧数据发送至流媒体服务器。

在一个实施例中，所述基于所述合并后的数据队列，生成视频流，还包括：

在所述第四合并数据中包括的帧类型标识为所述编码帧标识的情况下，获取所述第四合并数据中包括的编码帧类型的视频帧数据作为第五视频帧数据；

对所述第五视频帧数据进行封装，将封装后的所述第五视频帧数据发送至所述流媒体服务器。

在一个实施例中，在对视频帧数据进行封装之前，所述方法还包括：

在实时消息传输协议RTMP模块未初始化的情况下，判断所述视频帧数据是否是即时解码刷新IDR帧；

在所述视频帧数据是所述IDR帧的情况下，从所述视频帧数据中提取序列参数集SPS信息和图像参数集PPS信息；

根据所述序列参数集SPS信息和所述图像参数集PPS信息初始化所述RTMP模块。

在一个实施例中，所述第一队列的长度满足L_org＞((t₂-t₁)+T)/T_org；

其中，L_org表示所述第一队列的长度；t₁表示所述原始视频帧数据进入所述第一队列的时间；t₂表示所述原始视频帧数据经过所述图像识别后，进入所述第二队列的时间；T表示从所述第二队列中获取一次识别结果数据的周期；T_org表示原始视频流的帧周期。

第二方面，本发明提供一种视频流生成装置，包括：

确定模块，用于确定第一队列和第二队列，所述第一队列中包括携带第一时间戳标识的原始视频帧数据，所述第二队列中包括携带第二时间戳标识的识别结果数据，所述第二队列中的识别结果数据是对所述第一队列中的原始视频帧数据进行图像识别得到的，所述第一时间戳标识与所述第二时间戳标识相对应；

合并模块，用于基于所述第一时间戳标识与所述第二时间戳标识，将所述第一队列中的原始视频帧数据和所述第二队列中的识别结果数据进行时序对齐合并，获取合并后的数据队列；

生成模块，用于基于所述合并后的数据队列，生成视频流。

第三方面，本发明提供一种电子设备，包括存储器和存储有计算机程序的存储器，所述处理器执行所述程序时实现第一方面所述视频流生成方法的步骤。

第四方面，本发明提供一种处理器可读存储介质，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行第一方面所述视频流生成方法的步骤。

本发明提供的视频流生成方法、装置、电子设备及存储介质，通过首先将原始视频帧队列的数据和识别结果队列的数据进行时序对齐后合并，可以将连续的原始视频帧和经过图像识别的非连续的识别结果进行准确关联，以保证在原始视频帧和其结果对应叠加时的准确性，然后基于合并后的数据队列生成视频流，有效解决了实时视频流合成中的数据对齐问题，保证识别结果可以正确标识在视频流上。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是现有技术提供的视频流生成方法的流程示意图；

图2是本发明提供的视频流生成方法的流程示意图之一；

图3是本发明提供的视频流生成方法的输入队列模型示意图；

图4是本发明提供的视频帧时序对齐流程示意图；

图5是本发明提供的视频流生成方法的叠加生成视频流示意图；

图6是本发明提供的视频流生成方法的流程示意图之二；

图7是本发明提供的视频流生成装置的结构示意图；

图8是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了便于更加清晰地理解本发明各实施例，首先对一些相关的背景知识进行如下介绍。

实时视频生成技术应用的场景比较广泛，如互动直播、医学检测和AR(AugmentedReality，增强现实)/VR(Virtual Reality，虚拟现实)等领域。随着近年来智慧城市领域的深入发展，网络摄像机等视频采集设备已遍布于楼宇、街道和园区等之中，由此而生的视频图像AI分析，已经成为智慧城市建设中一项不可或缺的技术。AI分析后的结果需要再通过视频的方式展示给用户，这就需要使用到实时视频生成技术。

图1是现有技术提供的视频流生成方法的流程示意图，如图1所示，实时视频流生成系统的输入为原始视频帧流和对应经过AI识别处理得到的结果，输出为叠加了对物体识别结果标注(如矩形框和文本等标注)的视频流。进一步，视频流再输出给媒体服务器以供用户进行浏览。

现有的基于AI识别结果生成实时视频流的方法，侧重点在对视频生成技术的灵活使用上，未对视频生成技术自身存在的一些问题给出解决办法。

在视觉AI的应用实践中，输入原始视频的帧率一般为每秒25～30帧，如果对每一帧数据都进行处理，那么视觉AI识别将非常消耗硬件资源，这样在硬件资源保持不变时，能够同时处理视频的路数会受到限制。此外，对于大多数需求场景并不需要每一帧图像都进行分析处理。因此，一般情况下视觉AI识别会每隔一定的帧间隔处理一次视频中的帧数据，在既能满足需求的前提下，又能尽可能降低资源消耗，从而提高整个系统同时处理视频的路数。原始视频帧一般保存在内存队列中，识别生成的结果也存放在另一个内存队列中，因为AI识别并非针对每一帧图像，所以工程中需要解决如何将连续的原始帧和非连续的识别结果关联起来，以保证在原始帧和其结果叠加时的对应关系。

经过叠加标注处理后的视频帧，其格式一般为图像像素点，实时视频流生成系统需要再将图像像素点转换为带有一定编码格式如H.264的视频帧，这一编码过程是整个实时视频生成系统中最消耗硬件资源的环节。若使用CPU(Central Processing Unit，中央处理器)进行编码，整个系统的并发处理能力将受到很大限制，因为CPU并不适合视频编码。目前一些GPU(Graphics Processing Unit，图形处理器)设备内部已经集成了专门用于视频编码的硬件单元，这些单元处理视频编码的能力远远超过使用CPU的方式。所以工程中需要解决如何使用GPU的硬件编码能力，同时从系统设计出发，在硬件资源一定的情况下，尽可能的提升实时视频流生成系统同时生成的视频流的路数。

通过前述描述可知，现有技术通常是先对视频流进行分析，然后叠加一定的处理效果后，再生成新的视频流。但是现有技术未深入解决如何将识别后的结果与原始帧叠加生成新的视频帧的问题，同时也未解决如何高效的生成视频流的问题。

下面对本发明中可能涉及到的一些专业术语做如下介绍：

(1)视频流：视频流是指以传输流的方式承载视频数据，它能够被作为一个稳定的和连续的流通过网络进行处理。

(2)RTMP(Real Time Messaging Protocol，实时消息传输协议)协议：RTMP是一种用来进行实时数据通信的网络协议，支持RTMP协议的流媒体或交互服务器之间进行音视频数据通信。

(3)视频编解码：视频是连续的图像序列，由连续的帧构成，一帧即为一幅图像。由于人眼的视觉暂留效应，帧序列以一定的速率播放时，人眼看到的是动作连续的视频。由于连续的帧之间相似性极高，为便于储存传输，需要对原始的视频进行编码压缩，以去除空间和时间维度的冗余。视频编码方式是指通过压缩技术，将原始视频格式的文件转换成另一种视频格式文件的方式。目前常见的视频流传输中最为重要的编解码标准有H.264和H.265等。

(4)视频封装和解封装：封装是对编码后的视频帧保存成为带有一定格式的文件，常见的格式有FLV(Flash Video，Flash视频)和MP4等。解封装是将带有一定封装格式的视频数据还原为原始视频编码帧的过程。

(5)图像识别：指利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对象的技术，目前应用较为普遍的是深度学习算法。

(6)GPU资源利用：用于衡量GPU的使用情况，主要包括GPU利用率。

(7)视频硬编码：硬编码指使用非CPU的设备进行编码，如通过GPU，专用DSP(Digital Signal Process，数字信号处理)和FPGA(Field Programmable Gate Array，现场可编程逻辑门阵列)等设备完成视频帧的压缩编码操作。

(8)流媒体服务器：流媒体指以流的方式在网络中传送音频、视频和多媒体文件的媒体形式，流媒体服务器的主要功能是对流媒体内容进行采集、缓存、调度和传输播放。

(9)FFmpeg(Fast Forward Mpeg)：是一个开源的多媒体处理工具，其拥有自身的多媒体处理框架，具备音视频的解码、编码、转码、混合、解密、过滤和播放等功能。

下面结合图2-图7描述本发明提供的视频流生成方法及装置。

图2是本发明提供的视频流生成方法的流程示意图之一，如图2所示，该方法包括如下流程：

步骤200：确定第一队列和第二队列，所述第一队列中包括携带第一时间戳标识的原始视频帧数据，所述第二队列中包括携带第二时间戳标识的识别结果数据，所述第二队列中的识别结果数据是对所述第一队列中的原始视频帧数据进行图像识别得到的，所述第一时间戳标识与所述第二时间戳标识相对应；

步骤210：基于所述第一时间戳标识与所述第二时间戳标识，将所述第一队列中的原始视频帧数据和所述第二队列中的识别结果数据进行时序对齐合并，获取合并后的数据队列；

步骤220：基于所述合并后的数据队列，生成视频流。

可选地，第一队列可以包括原始视频帧数据，第二队列可以包括识别结果数据。

可选地，识别结果数据可以至少是图像中物体属性分类的类别、物体坐标、物体大小或物体标识等信息中的其中一种。

可选地，第二队列中的识别结果数据可以是对第一队列中的原始视频帧数据进行图像识别得到的。

可选地，可以基于第一队列和第二队列，生成视频流。

可选地，第二队列可以包括对第一队列的连续的原始视频帧进行图像识别得到的连续视频帧的识别结果数据。

可选地，第二队列可以包括对第一队列的连续的原始视频帧每隔预设的帧间隔进行图像识别得到的非连续视频帧的识别结果数据。

可选地，预设的帧间隔的个数可以是1个、2个或3个等，本发明对此不作具体限定。

可选地，第一队列可以包括携带第一时间戳标识的原始视频帧数据。

可选地，第二队列可以包括携带第二时间戳标识的识别结果数据。

可选地，第一时间戳标识可以与第二时间戳标识相对应。

可选地，可以基于第一时间戳标识与第二时间戳标识，将第一队列中的原始视频帧数据和第二队列中的识别结果数据进行时序对齐合并，获取合并后的数据队列。

可选地，可以基于合并后的数据队列，生成视频流。

为了避免视频流合成过程中，连续的原始视频帧和非连续的识别结果不能准确关联，从而导致识别结果不能正确标识在视频流上的问题，本发明首先将原始视频帧队列的数据和识别结果队列的数据进行时序对齐后合并，然后基于合并后的数据队列生成视频流，可以有效解决视频流合成中的数据对齐问题，保证识别结果正确标识在视频流上。

本发明提供的视频流生成方法，通过首先将原始视频帧队列的数据和识别结果队列的数据进行时序对齐后合并，可以将连续的原始视频帧和经过图像识别的非连续的识别结果进行准确关联，以保证在原始视频帧和其结果对应叠加时的准确性，然后基于合并后的数据队列生成视频流，有效解决了实时视频流合成中的数据对齐问题，保证识别结果可以正确标识在视频流上。

可选地，所述基于所述第一时间戳标识与所述第二时间戳标识，将所述第一队列中的原始视频帧数据和所述第二队列中的识别结果数据进行时序对齐合并，获取合并后的数据队列，包括：

可选地，可以从第二队列中获取第一个不为空的识别结果数据作为第一结果数据。

可选地，可以基于第一结果数据携带的第二时间戳标识，确定第一队列的起点数据。

可选地，起点数据携带的第一时间戳标识和第一结果数据携带的第二时间戳标识可以相同。

可选地，基于第一结果数据携带的第二时间戳标识，确定第一队列的起点数据，可以包括：

从第一队列中任意获取一个数据作为第一数据；

在第一数据携带的第一时间戳标识与第一结果数据携带的第二时间戳标识不同的情况下，丢弃第一数据，重新从第一队列中任意获取一个未获取过的新的视频帧数据，在获取到的新的视频帧数据携带的第一时间戳标识与第一结果数据携带的第二时间戳标识相同的情况下，将新的视频帧数据作为第一队列的起点数据。

可选地，可以将起点数据、第一结果数据和RGB图像帧标识进行组合，获取第一合并数据。

可选地，可以将第一合并数据作为合并后的数据队列中的首个数据添加至合并后的数据队列。

可选地，可以将起点数据和第一结果数据分别作为第一队列和第二队列的起点，对第一队列和第二队列执行至少一次数据对齐合并过程，获取合并后的数据队列。

本发明通过首先确定第二队列的起点数据，基于第二队列的起点数据携带的第二时间戳标识，循环遍历第一队列，确定第一队列的起点数据，第一队列的起点数据携带的第一时间戳标识与第二队列的起点数据携带的时间戳标识相同，然后分别基于两个队列的起点数据，对两个队列至少执行一次数据对齐合并过程，获得合并后的数据队列。

本发明提供的视频流生成方法，通过将原始视频帧队列的数据和识别结果队列的数据进行时序对齐后合并，可以将连续的原始视频帧和经过图像识别的视频帧的识别结果进行准确关联，以保证在原始视频帧和其结果对应叠加时的准确性。

可选地，所述一次数据对齐合并过程，包括：

可选地，可以从第一队列中获取未进行数据对齐合并的首个数据作为第二视频帧数据，并可以将计数器的值加1。

可选地，在计数器的值大于识别图像帧的间隔个数的情况下，可以从第二队列中获取未进行数据对齐合并的首个数据作为第二结果数据，并可以将计数器的值重置为0。

可选地，可以将第二视频帧数据、第二结果数据和RGB图像帧标识进行组合，获取第二合并数据。

可选地，在计数器的值不大于识别图像帧的间隔个数的情况下，可以将第二视频帧数据、空结果数据和编码帧标识进行组合，获取第三合并数据。

可选地，可以将第二合并数据或第三合并数据添加至合并后的数据队列。

本发明基于第一队列的起点数据和第二队列的起点数据，对两个队列进行数据对齐合并，具体过程为：首先从第一队列中获取未进行数据对齐合并的首个数据作为第二视频帧数据，并将计数器值加1，然后判断计数器的值与识别图像帧的间隔个数的大小，在计数器的值大于识别图像帧的间隔个数的情况下，从第二队列中获取未进行数据对齐合并的首个数据作为第二结果数据，并将计数器的值重置为0，同时将第二视频帧数据、第二结果数据和RGB图像帧标识进行组合，获取第二合并数据；在计数器的值不大于识别图像帧的间隔个数的情况下，将第二视频帧数据、空结果数据和编码帧标识进行组合，获取第三合并数据，最后将第二合并数据或第三合并数据添加至合并后的数据队列。循环执行上述过程，即可得到最终合并后的数据队列。

图3是本发明提供的视频流生成方法的输入队列模型示意图，如图3所示，第一输入队列中的每个数据包含一帧图像和它的唯一时间戳标识；第二输入队列中的每个数据包含AI识别结果和其对应的原始帧的时间戳标识。图中用正整数序列表示数据中包含的时间戳标识。从时间戳标识上来看，因为AI识别并非每一帧都会进行，因此只有经过AI识别处理的原始帧才会有识别结果，没有经过处理的原始帧，在识别结果队列中不存在它的识别结果。此外，视觉AI识别处理通常需要一段时间，所以识别结果和对应的原始帧在进入各自队列的时间上存在大小为t的延迟。

可选地，可以假设原始视频流的帧周期为T_org，视觉AI处理识别一帧数据的时长为T_ai，识别图像帧的间隔个数记为N_int。图4是本发明提供的视频帧时序对齐流程示意图，如图4所示，主要过程是分别从两个队列中获取数据，并保证原始视频帧与其识别结果的一对一组合。具体包括如下流程：

步骤401：从包括识别结果数据的第二队列中获取一次结果数据记为D_p；

可选地，D_p可以包括识别物体所属类别、物体位置和大小、物体的标识等信息。

步骤402：判断结果数据D_p是否为空数据，在D_p为空的情况下，等待识别间隔T＝(N_int+1)*T_ai后，转向步骤401；在D_p不为空的情况下，则得到D_p对应的第二时间戳标识，记为T_sp(例如，在图3中，T_sp代表的值为5)，转向步骤403；

步骤403：从包括原始视频帧数据的第一队列中获取一次原始图像帧记为D_o；

步骤404：比较该图像D_o携带的第一时间戳标识T_so和步骤402中获取到的第二时间戳标识T_sp是否相同，如果不相同，则丢弃该数据，转向步骤403，直到获取到与步骤402中的结果数据D_p携带的第二时间戳标识T_sp相同的原始视频帧，以此为起点，将获取到的原始视频帧、识别结果和RGB图像帧标识三个数据组合后记为D_op，并初始化count计数器的值为0，同时将D_op传送给叠加模块的输入队列；

步骤405：按照视频帧的间隔T_org定时执行如下步骤：

步骤4051：从原始帧队列中获取一帧数据记为D_o，并将count值自加1；

步骤4052：判断count值是否大于N_int，如果count值大于N_int，则从识别结果队列中获取一次数据记为D_p，并将count值重置为0，帧类型标识设置为RGB帧；如果count值不大于N_int，则将识别结果数据设置为空，帧类型标识设置为编码帧；

步骤4053：将识别结果数据、原始视频帧和帧类型标识组合后发往叠加模块，再回到步骤4051重复执行。

可选地，所述第一队列中的每个原始视频帧数据包括RGB像素帧类型的视频帧数据和编码帧类型的视频帧数据；

所述基于所述合并后的数据队列，生成视频流，包括：

可选地，第一队列中的每个原始视频帧数据可以包括RGB像素帧类型的视频帧数据和编码帧类型的视频帧数据。

可选地，可以从合并后的数据队列中依次获取一组数据作为第四合并数据。

可选地，在第四合并数据中包括的帧类型标识为RGB图像帧标识的情况下，可以基于第四合并数据中包括的识别结果数据，采用图形处理器GPU在第四合并数据中包括的RGB像素帧类型的视频帧数据上添加标注信息，获取带有标注的RGB像素类型的视频帧数据作为第三视频帧数据。

可选地，可以对第三视频帧数据进行编码，获取编码后的第三视频帧数据作为第四视频帧数据；

可选地，针对CPU编码效率低的问题，可以使用GPU对第三视频帧数据进行编码，获取编码后的第三视频帧数据作为第四视频帧数据；

可选地，可以使用GPU对第三视频帧数据进行H.264或H.265编码，得到编码后的视频帧。

可选地，可以对第四视频帧数据进行封装，将封装后的第四视频帧数据发送至流媒体服务器。

为了解决CPU进行视频编码导致系统并发处理能力受限的问题，本发明首先采用图形处理器GPU在RGB像素帧类型的视频帧数据上添加标注信息，然后对添加过标注的视频帧采用GPU硬件编码技术进行编码，有效提高了系统的并发处理能力，提高了系统同时生成实时视频流的路数。

本发明提供的视频流生成方法，可以通过GPU硬件编码技术，替代传统CPU进行编码，极大地提高了同时生成实时视频流的路数。

可选地，所述基于所述合并后的数据队列，生成视频流，还包括：

可选地，在第四合并数据中包括的帧类型标识为编码帧标识的情况下，可以获取第四合并数据中包括的编码帧类型的视频帧数据作为第五视频帧数据。

可选地，可以对第五视频帧数据进行封装，将封装后的第五视频帧数据发送至流媒体服务器。

本发明提供的视频流生成方法，输入的原始视频帧队列中的数据支持RGB帧和编码帧两种类型，对于不需要进行叠加识别结果的视频帧，在获取原始视频帧时，采用只解封装不解码的策略，从而在实时视频流生成时不再进行编码，避免解码再编码造成的硬件资源浪费。

可选地，在对视频帧数据进行封装之前，所述方法还包括：

可选地，在实时消息传输协议RTMP模块未初始化的情况下，可以判断视频帧数据是否是即时解码刷新IDR(Instantaneous Decoding Refresh，即时解码刷新)帧。

可选地，在视频帧数据是IDR帧的情况下，可以从视频帧数据中提取序列参数集SPS(Sequence Paramater Set，序列参数集)信息和图像参数集PPS(Picture ParamaterSet，图像参数集)信息。

可选地，可以根据序列参数集SPS信息和图像参数集PPS信息初始化RTMP模块。

图5是本发明提供的视频流生成方法的叠加生成视频流示意图，如图5所示，具体包括如下流程：

步骤501：设置RTMP模块初始化标志位init＝0；

步骤502：从数据对齐模块输出的合并后的数据队列中获取一个数据，并提取该数据中的帧类型信息；

步骤503：判断帧类型是RGB帧还是编码帧，如果是编码帧，则从步骤502获取的数据中获取出编码帧，并转到下述步骤505；如果是RGB帧，则从步骤502获取的数据中获取出原始视频RGB帧和对应的识别结果，然后使用GPU在这一原始帧图像上添加物体标注，输出为经过标注后的RGB视频帧；

步骤504：使用GPU对步骤503得到的RGB视频帧进行H.264或H.265编码，得到编码后的视频帧；

步骤505：判断初始化标志位init的值，当其值为0时，则说明RTMP功能尚未初始化，接着判断步骤504获得的视频帧的类型是否为IDR帧，如果不是IDR帧，则转到步骤502；如果是IDR帧，则说明可以从中提取RTMP初始化所需的SPS和PPS信息，然后根据这两个信息初始化RTMP模块，并将标志位init设置为1；当初始化标志位init的值为1时，则转到步骤506；

步骤506：获取编码后的视频帧，调用FFmpeg的封装和网络传送模块发送这一帧数据到流媒体服务器，然后转回到步骤501。

可选地，所述第一队列的长度满足L_org＞((t₂-t₁)+T)/T_org；

可选地，第一队列的长度可以满足L_org＞((t₂-t₁)+T)/T_org，其中，L_org表示所述第一队列的长度；t₁表示所述原始视频帧数据进入所述第一队列的时间；t₂表示所述原始视频帧数据经过所述图像识别后，进入所述第二队列的时间；T表示从所述第二队列中获取一次识别结果数据的周期；T_org表示原始视频流的帧周期。

实际应用中的两个输入队列的长度都是有限的，即第一队列和第二队列的长度有限，当数据个数超过队列最大存储的个数时，队列中排在最前面的数据将会被删除。因此为了保证每次一定能够在原始帧队列中获取到识别结果数据对应时间戳标识的原始视频帧数据，需要对两个队列的长度进行设置。

图3是本发明提供的视频流生成方法的输入队列模型示意图，如图3所示，原始视频帧进入原始帧队列的时间为t₁，原始帧经过处理后，进入识别结果队列的时间为t₂，由于获取一次识别结果的周期为T，则最多在t₂+T时刻获取到识别结果。若需要在t₂+T时刻获取到原始视频帧，则原始视频帧的队列长度应该满足：L_org＞((t₂-t₁)+T)/T_org，否则，可能因为原始视频帧队列长度不够，导致在还未来得及读取原始视频帧数据时，原始帧已经从队列中移除了。此外，为保证识别结果队列的写入和读取不发生冲突，一般情况设置长度为L_res＝2。

图6是本发明提供的视频流生成方法的流程示意图之二，如图6所示，实时视频流生成的实现结构如图中的虚线框内。主要分为数据对齐和叠加合成两个模块。数据对齐模块的输入为原始视频帧和AI识别结果的的队列，其输出为将两个队列对应数据合并后的数据，可以解决连续原始帧和非连续识别结果的对应关联问题；叠加合成模块的输入为数据对齐模块合并后的数据，输出为RTMP协议的实时视频流。其中，叠加合成模块的内部处理过程为，首先使用GPU在原始图像上叠加标注结果，然后使用GPU对处理后的图像进行视频编码，最后将编码后的视频帧封装和网络发送。叠加合成模块可以解决实时视频流生成系统受限于CPU硬件特性无法有效提高实时视频流生成系统同时生成视频流路数的问题。

下面对本发明提供的视频流生成装置进行描述，下文描述的视频流生成装置与上文描述的视频流生成方法可相互对应参照。

图7是本发明提供的视频流生成装置的结构示意图，如图7所示，该装置包括：确定模块710、合并模块720和生成模块730；其中：

确定模块710用于确定第一队列和第二队列，所述第一队列中包括携带第一时间戳标识的原始视频帧数据，所述第二队列中包括携带第二时间戳标识的识别结果数据，所述第二队列中的识别结果数据是对所述第一队列中的原始视频帧数据进行图像识别得到的，所述第一时间戳标识与所述第二时间戳标识相对应；

合并模块720用于基于所述第一时间戳标识与所述第二时间戳标识，将所述第一队列中的原始视频帧数据和所述第二队列中的识别结果数据进行时序对齐合并，获取合并后的数据队列；

生成模块730用于基于所述合并后的数据队列，生成视频流。

本发明提供的视频流生成装置，通过首先将原始视频帧队列的数据和识别结果队列的数据进行时序对齐后合并，可以将连续的原始视频帧和经过图像识别的非连续的识别结果进行准确关联，以保证在原始视频帧和其结果对应叠加时的准确性，然后基于合并后的数据队列生成视频流，有效解决了实时视频流合成中的数据对齐问题，保证识别结果可以正确标识在视频流上。

图8是本发明提供的电子设备的结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communication Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的计算机程序，以执行视频流生成方法的步骤，例如包括：

确定第一队列和第二队列，所述第一队列中包括携带第一时间戳标识的原始视频帧数据，所述第二队列中包括携带第二时间戳标识的识别结果数据，所述第二队列中的识别结果数据是对所述第一队列中的原始视频帧数据进行图像识别得到的，所述第一时间戳标识与所述第二时间戳标识相对应；

基于所述合并后的数据队列，生成视频流。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的视频流生成方法，该方法包括：

基于所述合并后的数据队列，生成视频流。

又一方面，本申请实施例还提供一种处理器可读存储介质，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行上述各实施例提供的视频流生成方法，例如包括：

基于所述合并后的数据队列，生成视频流。

所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频流生成方法，其特征在于，包括：

基于所述合并后的数据队列，生成视频流。

2.根据权利要求1所述的视频流生成方法，其特征在于，所述基于所述第一时间戳标识与所述第二时间戳标识，将所述第一队列中的原始视频帧数据和所述第二队列中的识别结果数据进行时序对齐合并，获取合并后的数据队列，包括：

3.根据权利要求2所述的视频流生成方法，其特征在于，所述一次数据对齐合并过程，包括：

4.根据权利要求3所述的视频流生成方法，其特征在于，所述第一队列中的每个原始视频帧数据包括RGB像素帧类型的视频帧数据和编码帧类型的视频帧数据；

所述基于所述合并后的数据队列，生成视频流，包括：

5.根据权利要求4所述的视频流生成方法，其特征在于，所述基于所述合并后的数据队列，生成视频流，还包括：

6.根据权利要求4或5所述的视频流生成方法，其特征在于，在对视频帧数据进行封装之前，所述方法还包括：

7.根据权利要求1所述的视频流生成方法，其特征在于，所述第一队列的长度满足L_org＞((t₂-t₁)+T)/T_org；

8.一种视频流生成装置，其特征在于，包括：

生成模块，用于基于所述合并后的数据队列，生成视频流。

9.一种电子设备，包括处理器和存储有计算机程序的存储器，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述视频流生成方法的步骤。

10.一种处理器可读存储介质，其特征在于，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行权利要求1至7任一项所述视频流生成方法的步骤。