CN115147756A

CN115147756A - 一种视频流处理方法、装置、电子设备及存储介质

Info

Publication number: CN115147756A
Application number: CN202210679746.4A
Authority: CN
Inventors: 董志伟
Original assignee: Innovation Qizhi Zhejiang Technology Co ltd
Current assignee: Innovation Qizhi Zhejiang Technology Co ltd
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2022-10-04

Abstract

本申请提供一种视频流处理方法、装置、电子设备及存储介质，用于改善对视频处理后的计算机视觉结果进行展示的效率较低的问题。该方法包括：获取第一视频流，第一视频流包括多个图像帧；对多个图像帧中的每个图像帧进行计算机视觉处理，获得图像帧的处理结果；针对多个图像帧中的每个图像帧，判断该图像帧的处理结果是否是预设结果；若是，则将该图像帧的处理结果绘制在第二视频流中的图像帧上。通过在处理结果是预设结果时直接绘制在第二视频流中的图像帧上，以便于在进行展示时直接播放绘制后的第二视频流即可，从而避免了在展示时才实时将结构化结果数据进行解析等复杂操作，有效地提高了对视频处理后的计算机视觉结果进行展示的效率。

Description

一种视频流处理方法、装置、电子设备及存储介质

技术领域

本申请涉及视频处理和图像处理的技术领域，具体而言，涉及一种视频流处理方法、装置、电子设备及存储介质。

背景技术

目前，针对视频流中的所有图像帧进行计算机视觉处理(例如目标检测) 之后，通常是将所有图像帧处理后的结构化结果数据存储在文件或者数据库中的。然而在需要展示视觉处理的结果视频时，仍然需要实时从文件或者数据库中读取和解析结构化结果数据，并将解析后的结构化结果数据展示在该视频流中；其中，结构化结果数据例如：脚本对象简谱(JavaScript Object Notation，JSON)格式或者可扩展标记语言(eXtensible MarkupLanguage， XML)格式的数据。因此，目前对视频处理后的计算机视觉结果进行展示的效率较低。

发明内容

本申请实施例的目的在于提供一种视频流处理方法、装置、电子设备及存储介质，用于改善对视频处理后的计算机视觉结果进行展示的效率较低的问题。

本申请实施例提供了一种视频流处理方法，包括：获取第一视频流，第一视频流包括多个图像帧；对多个图像帧中的每个图像帧进行计算机视觉处理，获得图像帧的处理结果；针对多个图像帧中的每个图像帧，判断该图像帧的处理结果是否是预设结果；若是，则将该图像帧的处理结果绘制在第二视频流中的图像帧上。

在上述方案的实现过程中，通过对多个图像帧中的每个图像帧进行计算机视觉处理，获得图像帧的处理结果，并在处理结果是预设结果时直接绘制在第二视频流中的图像帧上，以便于在进行展示时直接播放绘制后的第二视频流即可，从而避免了在展示时才实时将结构化结果数据进行解析等复杂操作，有效地提高了对视频处理后的计算机视觉结果进行展示的效率。

可选地，在本申请实施例中，计算机视觉处理为目标检测，处理结果包括：目标对象的类别和图像帧中的位置；对多个图像帧中的每个图像帧进行计算机视觉处理，包括：获取第一视频流的编码格式；根据编码格式对第一视频流进行解码，获得多个图像帧中的每个图像帧；对每个图像帧中的目标对象进行目标检测，获得目标对象的类别和目标对象在图像帧中的位置。

在上述方案的实现过程中，通过对每个图像帧中的目标对象进行目标检测，获得目标对象的类别和目标对象在图像帧中的位置，该目标对象的类别和位置用于直接绘制在第二视频流中的图像帧上，从而避免了在展示时才实时将结构化结果数据进行解析等复杂操作，有效地提高了对视频处理后的计算机视觉结果进行展示的效率。

可选地，在本申请实施例中，将该图像帧的处理结果绘制在第二视频流中的图像帧上，包括：将该图像帧复制为第二视频流中的图像帧；在第二视频流中的图像帧上绘制出目标对象在图像帧中的位置，并在第二视频流中的图像帧中标记出目标对象的类别。

在上述方案的实现过程中，通过在第二视频流中的图像帧上绘制出目标对象在图像帧中的位置，并在第二视频流中的图像帧中标记出目标对象的类别，从而避免了在展示时才实时将结构化结果数据进行解析等复杂操作，有效地提高了对视频处理后的计算机视觉结果进行展示的效率。

可选地，在本申请实施例中，在获得目标对象的类别和目标对象在图像帧中的位置之后，还包括：判断目标对象的类别是否是人脸类别；若是，则根据目标对象在图像帧中的位置对该图像帧依次进行裁剪和人脸识别，获得人脸识别结果，并根据人脸识别结果输出预警信息。

在上述方案的实现过程中，通过根据目标对象在图像帧中的位置对该图像帧依次进行裁剪和人脸识别，获得人脸识别结果，并根据人脸识别结果输出预警信息，从而避免了人工地在第一视频流中识别该目标对象的情况，有效地减轻了在视频中查找目标对象的工作量，提高了在视频中查找目标对象的效率。

可选地，在本申请实施例中，计算机视觉处理为语义分割，处理结果包括：目标对象在图像帧中的所有像素点；对多个图像帧中的每个图像帧进行计算机视觉处理，包括：获取第一视频流的编码格式；根据编码格式对第一视频流进行解码，获得多个图像帧中的每个图像帧；对每个图像帧中的目标对象进行语义分割，获得目标对象在图像帧中的所有像素点。

在上述方案的实现过程中，通过对每个图像帧中的目标对象进行语义分割，获得目标对象在图像帧中的所有像素点，该图像帧中的所有像素点用于直接绘制在第二视频流中的图像帧上，从而避免了在展示时才实时将结构化结果数据进行解析等复杂操作，有效地提高了对视频处理后的计算机视觉结果进行展示的效率。

可选地，在本申请实施例中，将该图像帧的处理结果绘制在第二视频流中的图像帧上，包括：将该图像帧复制为第二视频流中的图像帧；将目标对象在图像帧中的所有像素点绘制在第二视频流中的图像帧上。

在上述方案的实现过程中，通过将该图像帧复制为第二视频流中的图像帧，并将目标对象在图像帧中的所有像素点绘制在第二视频流中的图像帧上，从而避免了在展示时才实时将结构化结果数据进行解析等复杂操作，有效地提高了对视频处理后的计算机视觉结果进行展示的效率。

可选地，在本申请实施例中，对多个图像帧中的每个图像帧进行计算机视觉处理，包括：判断多个图像帧中的上一图像帧与当前图像帧之间的相似程度是否小于预设阈值；若是，则对当前图像帧进行计算机视觉处理，否则，对多个图像帧中的下一图像帧进行计算机视觉处理。

在上述方案的实现过程中，通过只有上一图像帧与当前图像帧之间的相似程度小于预设阈值时，才对当前图像帧进行计算机视觉处理，当上一图像帧与当前图像帧之间的相似程度大于或等于预设阈值时，就不对当前图像帧进行计算机视觉处理，而是直接处理下一图像帧，那么可以避免重复处理相似程度非常大甚至相同的图像帧，从而有效地节约图像帧的计算量和存储空间。

本申请实施例还提供了一种视频流处理装置，包括：视频图像获取模块，用于获取第一视频流，第一视频流包括多个图像帧；图像视觉处理模块，用于对多个图像帧中的每个图像帧进行计算机视觉处理，获得图像帧的处理结果；处理结果判断模块，用于针对多个图像帧中的每个图像帧，判断该图像帧的处理结果是否是预设结果；处理结果绘制模块，用于若该图像帧的处理结果是预设结果，则将该图像帧的处理结果绘制在第二视频流中的图像帧上。

可选地，在本申请实施例中，计算机视觉处理为目标检测，处理结果包括：目标对象的类别和图像帧中的位置；图像视觉处理模块，包括：第一编码获取模块，用于获取第一视频流的编码格式；第一图像解码模块，用于根据编码格式对第一视频流进行解码，获得多个图像帧中的每个图像帧；图像目标检测模块，用于对每个图像帧中的目标对象进行目标检测，获得目标对象的类别和目标对象在图像帧中的位置。

可选地，在本申请实施例中，处理结果绘制模块，包括：第一图像复制模块，用于将该图像帧复制为第二视频流中的图像帧；第一图像绘制模块，用于在第二视频流中的图像帧上绘制出目标对象在图像帧中的位置，并在第二视频流中的图像帧中标记出目标对象的类别。

可选地，在本申请实施例中，处理结果绘制模块，还包括：人脸类别判断模块，用于判断目标对象的类别是否是人脸类别；图像裁剪识别模块，用于若目标对象的类别是人脸类别，则根据目标对象在图像帧中的位置对该图像帧依次进行裁剪和人脸识别，获得人脸识别结果，并根据人脸识别结果输出预警信息。

可选地，在本申请实施例中，计算机视觉处理为语义分割，处理结果包括：目标对象在图像帧中的所有像素点；图像视觉处理模块，包括：第二编码获取模块，用于获取第一视频流的编码格式；第二图像解码模块，用于根据编码格式对第一视频流进行解码，获得多个图像帧中的每个图像帧；图像语义分割模块，用于对每个图像帧中的目标对象进行语义分割，获得目标对象在图像帧中的所有像素点。

可选地，在本申请实施例中，处理结果绘制模块，包括：第二图像复制模块，用于将该图像帧复制为第二视频流中的图像帧；第二图像绘制模块，用于将目标对象在图像帧中的所有像素点绘制在第二视频流中的图像帧上。

可选地，在本申请实施例中，图像视觉处理模块，包括：相似图像判断模块，用于判断多个图像帧中的上一图像帧与当前图像帧之间的相似程度是否小于预设阈值；相似图像处理模块，用于若多个图像帧中的上一图像帧与当前图像帧之间的相似程度小于预设阈值，则对当前图像帧进行计算机视觉处理，若多个图像帧中的上一图像帧与当前图像帧之间的相似程度大于或等于预设阈值，则对多个图像帧中的下一图像帧进行计算机视觉处理。

本申请实施例还提供了一种电子设备，包括：处理器和存储器，存储器存储有处理器可执行的机器可读指令，机器可读指令被处理器执行时执行如上面描述的方法。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上面描述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请实施例中的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出的本申请实施例提供的视频流处理方法的流程示意图；

图2示出的本申请实施例提供的根据目标检测的处理结果进行人脸识别的示意图；

图3示出的本申请实施例提供的对图像帧进行目标检测的过程示意图；

图4示出的本申请实施例提供的对图像帧进行语义分割的过程示意图；

图5示出的本申请实施例提供的视频流处理装置的结构示意图；

图6示出的本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请实施例中的一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请实施例的详细描述并非旨在限制要求保护的本申请实施例的范围，而是仅仅表示本申请实施例中的选定实施例。基于本申请实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请实施例保护的范围。

可以理解的是，本申请实施例中的“第一”、“第二”用于区别类似的对象。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

在介绍本申请实施例提供的视频流处理方法之前，先介绍本申请实施例中所涉及的一些概念：

机器学习(Machine Learning，ML)，是指人工智能领域中研究人类学习行为的一个分支；通过归纳、一般化、特殊化、类比等基本方法探索人类的认识规律和学习过程，建立各种能通过经验自动改进的算法，使计算机系统能够具有自动学习特定知识和技能的能力。

实时流协议(Real Time Streaming Protocol，RTSP)，是一种在网络协议(Internet Protocol)层上传输流媒体数据的应用层协议，专为娱乐和通信系统的使用，以控制流媒体服务器；RTSP协议可以用于创建和控制终端之间的媒体会话。

需要说明的是，本申请实施例提供的视频流处理方法可以被电子设备执行，这里的电子设备是指具有执行计算机程序功能的设备终端或者服务器，设备终端例如：智能手机、个人电脑、平板电脑、个人数字助理或者移动上网设备等。服务器是指通过网络提供计算服务的设备，服务器例如：x86 服务器以及非x86服务器，非x86服务器包括：大型机、小型机和UNIX服务器。

下面介绍该视频流处理方法适用的应用场景，这里的应用场景包括但不限于：视频处理分析场景、车辆检测场景和安防监控场景等等。以视频处理分析场景为例进行说明，在使用机器学习算法或者神经网络模型对视频进行计算机视觉处理分析时，可以使用该视频流处理方法对视频中的每个图像帧进行计算机视觉处理，从而能够有效地避免在展示时才实时将结构化结果数据进行解析等复杂操作，有效地提高了对视频处理后的计算机视觉结果进行展示的效率，此处的计算机视觉处理可以包括：目标检测、语义分割或者目标识别等等。

请参见图1示出的本申请实施例提供的视频流处理方法的流程示意图；本申请实施例提供了一种视频流处理方法，包括：

步骤S110：获取第一视频流，第一视频流包括多个图像帧。

上述步骤S110中的第一视频流的获得方式可以包括：第一种获得方式，电子设备是摄像机、录像机或彩色照相机等视频采集设备，通过视频采集设备对目标对象进行拍摄，获得第一视频流；第二种获得方式，电子设备不是视频采集设备，而是视频采集设备通过RTSP协议向电子设备发送第一视频流，然后电子设备接收视频采集设备发送的第一视频流；第三种获得方式，从其它设备上获取第一视频流，具体例如：从视频服务器的文件系统、数据库或移动存储设备中获取第一视频流；又例如：使用浏览器等软件获取互联网上的第一视频流，或者使用其它应用程序访问互联网上第一视频流。

步骤S120：对多个图像帧中的每个图像帧进行计算机视觉处理，获得图像帧的处理结果。

可以理解的是，上面的计算机视觉处理包括但不限于：目标检测、语义分割或者目标识别等等，目标检测可以包括：行人检测、车辆检测、着装检测和人脸检测等等。其中，对图像帧进行目标检测的处理结果可以包括：目标对象的类别(Class)和该目标对象在图像帧中的位置(框标识出来)，对图像帧进行语义分割的处理结果可以包括：目标对象在图像帧中的所有像素点。

步骤S130：针对多个图像帧中的每个图像帧，判断该图像帧的处理结果是否是预设结果。

步骤S140：若该图像帧的处理结果是预设结果，则将该图像帧的处理结果绘制在第二视频流中的图像帧上。

通常在视频处理和图像处理领域中，将视频流中的图像个数称为帧数，具体来说，通常的一张图像在视频流中也被称为一帧图像，所以此处的第一视频流可以是由多个帧图像按照时间序列排序进行存储的。

在上述的实现过程中，通过对多个图像帧中的每个图像帧进行计算机视觉处理，获得图像帧的处理结果，并在处理结果是预设结果时直接绘制在第二视频流中的图像帧上，且在处理结果不是预设结果时就不绘制，以便于在进行展示时直接播放绘制后的第二视频流即可，从而避免了在展示时才实时将结构化结果数据进行解析等复杂操作，有效地提高了对视频处理后的计算机视觉结果进行展示的效率。

可选地，在处理结果不是预设结果时就不绘制，能够有效地避免第二视频流的存储空间等于或大于第一视频流的存储空间的情况出现，能够有效地节约存储的空间，并避免在第二视频流中保留大量的无用信息(即不包括计算机视觉结果的信息)，所以上述的视频流处理方法还可以包括：

步骤S150：若该图像帧的处理结果不是预设结果，则针对下一个图像帧继续执行步骤S130。

上述步骤S150的实施方式例如：在目标检测中的车辆检测场景中，在高速路上并非每时每刻都有车辆，若该图像帧的处理结果是出现车辆，则将该图像帧的处理结果绘制在第二视频流中的图像帧上(具体的绘制过程将在下面详细的描述)；若该图像帧的处理结果是没有出现车辆，则不处理当前图像帧，而是针对下一个图像帧继续执行步骤S130(即判断下一个图像帧中是否有车辆)，直到第一视频流中的所有图像帧都被处理。

当然，在具体的实践过程中，类似的场景还有很多，无法穷举所有场景。此处又以安防监控场景为例进行说明，例如：当小区或商场出现行人时就绘制，具体地，若该图像帧的处理结果是出现行人，则将该图像帧的处理结果绘制在第二视频流中的图像帧上；若该图像帧的处理结果是没有出现行人，则针对下一个图像帧继续执行步骤S130(即判断下一个图像帧中是否出现行人)，直到第一视频流中的所有图像帧都被处理。

在上述方案的实现过程中，只有图像帧的处理结果是预设结果时，才将该图像帧的处理结果绘制在第二视频流中的图像帧上，当该处理结果不是预设结果时，就不绘制在第二视频流的图像帧上，那么该视频流就不会保存多余的无用信息(即没有处理结果的图像帧)，从而极大地节约了第二视频流的存储空间。同时，由于第二视频流中的图像帧上都是有处理结果的，便于业务人员或者研究人员后续对该图像帧上的处理结果进行分析，具体例如：在行人检测场景中，该图像帧上已经绘制了该行人所在位置和类别，便于后续可以对该行人进行人脸裁剪和人脸识别等分析(具体过程将在下面详细地说明)。

请参见图2示出的本申请实施例提供的根据目标检测的处理结果进行人脸识别的示意图；作为步骤S120的一种可选实施方式，上述的计算机视觉处理可以是目标检测，目标检测的处理结果可以包括：目标对象的类别和图像帧中的位置；上述步骤S120中的计算机视觉处理的具体过程可以包括：

步骤S121：获取第一视频流的编码格式。

上述步骤S121的实施方式例如：由于网络摄像头通常发给电子设备的是RTSP协议数据(即第一视频流)，而RTSP协议数据是经过H.264或 H.265进行编码的，因此，需要先获取到第一视频流的编码格式(例如H.264 或H.265)，然后再根据该编码格式对第一视频流进行解码。

步骤S122：根据编码格式对第一视频流进行解码，获得多个图像帧中的每个图像帧。

上述步骤S122的实施方式例如：由于第一视频流是经过H.264或H.265 进行编码的，第一视频流(即RTSP协议数据)是经过编码压缩过的，因此，只要电子设备使用对应编码格式(例如H.264或H.265)对第一视频流(即 RTSP协议数据)进行解码后，即可获得多个图像帧中的每个图像帧。

步骤S123：对每个图像帧中的目标对象进行目标检测，获得目标对象的类别和目标对象在图像帧中的位置。

上述步骤S123的实施方式例如：在行人检测的场景中，假设目标对象是行人，那么可以检测每个图像帧中是否存在行人，若存在，则可以在图像帧中绘制出该行人在图像帧中的位置(即虚线框在图像帧的位置)，并将虚线框的上方或者下方添加该目标对象的标签信息，标签信息可以包括：目标对象的类别(例如树、车、行人或者人脸等等)和概率(例如0.9或0.95等等)。

作为步骤S120的一种可选实施方式，在获得目标检测的处理结果(即目标对象的类别和目标对象在图像帧中的位置)之后，还可以根据目标检测的处理结果进行人脸识别，人脸识别的实施方式可以包括：

步骤S124：判断目标对象的类别是否是人脸类别。

步骤S125：若目标对象的类别是人脸类别，则根据目标对象在图像帧中的位置对该图像帧依次进行裁剪和人脸识别，获得人脸识别结果，并根据人脸识别结果输出预警信息。

上述步骤S124至步骤S125的实施方式例如：如果该目标对象的类别是人脸，则可以根据目标对象在图像帧中的位置(即图中的虚线框)对该图像帧依次进行裁剪，获得裁剪后的区域图像(例如图中的行人区域图像或人脸区域图像)。若裁剪后的区域图像是行人区域图像，且该区域图像的质量大于阈值，还可以进一步对该行人区域图像进行人脸检测和人脸区域裁剪 (原理与上面类似)，获得人脸区域图像。然后，对人脸区域图像进行人脸识别，获得人脸识别结果(例如：在数据库中查找到人脸特征对应的个人信息，个人信息包括：姓名、民族、电话和住址等)。最后，若人脸识别结果中的姓名是张三，则可以输出预警信息，该预警信息用于提示找到张三。

请参见图3示出的本申请实施例提供的对图像帧进行目标检测的过程示意图；作为步骤S140的一种可选实施方式，在获得目标检测的处理结果之后，还可以根据处理结果进行绘制，上述根据目标检测的处理结果进行绘制的过程可以包括：

步骤S141：将该图像帧复制为第二视频流中的图像帧。

步骤S142：在第二视频流中的图像帧上绘制出目标对象在图像帧中的位置，并在第二视频流中的图像帧中标记出目标对象的类别。

上述步骤S141至步骤S142的实施方式例如：假设目标检测的处理结果是检测出第一视频流的图像帧中的车辆所在位置和树所在位置，那么在获得目标检测的处理结果(即车辆所在位置和树所在位置)之后，还可以将该图像帧复制为第二视频流中的图像帧，并在第二视频流中的图像帧上绘制出在图像帧中的车辆所在位置和树所在位置，并在第二视频流中的图像帧中标记出目标对象(包括车辆和树)的类别和概率(即确认是该类别的概率，例如确认是树的概率为0.98)。

请参见图4示出的本申请实施例提供的对图像帧进行语义分割的过程示意图；作为步骤S120的一种可选实施方式，计算机视觉处理可以是语义分割，语义分割的处理结果包括：目标对象在图像帧中的所有像素点；上述步骤S120中的计算机视觉处理的具体过程可以包括：

步骤S121：获取第一视频流的编码格式。

其中，此处的步骤S121至步骤S122的实施原理和实施方式与步骤S121 至步骤S122的实施原理和实施方式是类似的，因此不再赘述。

在步骤S122之后，执行步骤S126：对每个图像帧中的目标对象进行语义分割，获得目标对象在图像帧中的所有像素点。

上述步骤S126的实施方式例如：假设分割出每个图像帧中的车辆和树，那么绘制车辆和树到第二视频流的图像帧上时，可以将每个图像帧中的车辆和树所占的所有像素点染成黑色。

作为步骤S140的一种可选实施方式，在语义分割获得目标对象在图像帧中的所有像素点之后，还可以将目标对象在图像帧中的所有像素点绘制在第二视频流中的图像帧上，该实施方式可以包括：

步骤S143：将该图像帧复制为第二视频流中的图像帧。

步骤S144：将目标对象在图像帧中的所有像素点绘制在第二视频流中的图像帧上。

上述步骤S143至步骤S144的实施方式例如：以将第一视频流的所有车辆和树染成黑色为例进行说明，具体地，若该图像帧的处理结果是预设结果，即预设结果是图像帧中包括车辆和树，则将该图像帧复制为第二视频流中的图像帧，并将车辆和树在图像帧中的所有像素点以黑色像素点绘制在第二视频流中的图像帧上。

作为步骤S120的一种可选实施方式，在对每个图像帧计算机视觉处理时，还可以根据上一图像帧与当前图像帧的相似程度来确定是否处理当前图像帧，该实施方式可以包括：

步骤S127：判断多个图像帧中的上一图像帧与当前图像帧之间的相似程度是否小于预设阈值。

步骤S128：若多个图像帧中的上一图像帧与当前图像帧之间的相似程度小于预设阈值，则对当前图像帧进行计算机视觉处理。

步骤S129：若多个图像帧中的上一图像帧与当前图像帧之间的相似程度大于或等于预设阈值，则对多个图像帧中的下一图像帧进行计算机视觉处理。

上述步骤S127至步骤S129的实施方式例如：假设预设阈值是80％，当然，在具体的实践过程中，该预设阈值可以根据具体情况进行设置，例如设置为85％或者90％等等。可以判断多个图像帧中的上一图像帧与当前图像帧之间的相似程度是否小于80％。若多个图像帧中的上一图像帧与当前图像帧之间的相似程度小于80％，则对当前图像帧进行目标检测、语义分割或者目标识别等计算机视觉处理。若多个图像帧中的上一图像帧与当前图像帧之间的相似程度大于或等于80％，则对多个图像帧中的下一图像帧进行目标检测、语义分割或者目标识别等计算机视觉处理。

在上述方案的实现过程中，只有上一图像帧与当前图像帧之间的相似程度小于预设阈值时，才对当前图像帧进行计算机视觉处理，当上一图像帧与当前图像帧之间的相似程度大于或等于预设阈值时，就不对当前图像帧进行计算机视觉处理，而是直接处理下一图像帧，那么可以避免重复处理相似程度非常大甚至相同的图像帧，从而有效地节约图像帧的计算量和存储空间。

请参见图5示出的本申请实施例提供的视频流处理装置的结构示意图；本申请实施例提供了一种视频流处理装置200，包括：

视频图像获取模块210，用于获取第一视频流，第一视频流包括多个图像帧。

图像视觉处理模块220，用于对多个图像帧中的每个图像帧进行计算机视觉处理，获得图像帧的处理结果。

处理结果判断模块230，用于针对多个图像帧中的每个图像帧，判断该图像帧的处理结果是否是预设结果。

处理结果绘制模块240，用于若该图像帧的处理结果是预设结果，则将该图像帧的处理结果绘制在第二视频流中的图像帧上。

可选地，在本申请实施例中，计算机视觉处理为目标检测，处理结果包括：目标对象的类别和图像帧中的位置；图像视觉处理模块，包括：

第一编码获取模块，用于获取第一视频流的编码格式。

第一图像解码模块，用于根据编码格式对第一视频流进行解码，获得多个图像帧中的每个图像帧。

图像目标检测模块，用于对每个图像帧中的目标对象进行目标检测，获得目标对象的类别和目标对象在图像帧中的位置。

可选地，在本申请实施例中，处理结果绘制模块，包括：

第一图像复制模块，用于将该图像帧复制为第二视频流中的图像帧。

第一图像绘制模块，用于在第二视频流中的图像帧上绘制出目标对象在图像帧中的位置，并在第二视频流中的图像帧中标记出目标对象的类别。

可选地，在本申请实施例中，处理结果绘制模块，还包括：

人脸类别判断模块，用于判断目标对象的类别是否是人脸类别。

图像裁剪识别模块，用于若目标对象的类别是人脸类别，则根据目标对象在图像帧中的位置对该图像帧依次进行裁剪和人脸识别，获得人脸识别结果，并根据人脸识别结果输出预警信息。

可选地，在本申请实施例中，计算机视觉处理为语义分割，处理结果包括：目标对象在图像帧中的所有像素点；图像视觉处理模块，包括：

第二编码获取模块，用于获取第一视频流的编码格式。

第二图像解码模块，用于根据编码格式对第一视频流进行解码，获得多个图像帧中的每个图像帧。

图像语义分割模块，用于对每个图像帧中的目标对象进行语义分割，获得目标对象在图像帧中的所有像素点。

可选地，在本申请实施例中，处理结果绘制模块，包括：

第二图像复制模块，用于将该图像帧复制为第二视频流中的图像帧。

第二图像绘制模块，用于将目标对象在图像帧中的所有像素点绘制在第二视频流中的图像帧上。

可选地，在本申请实施例中，图像视觉处理模块，包括：

相似图像判断模块，用于判断多个图像帧中的上一图像帧与当前图像帧之间的相似程度是否小于预设阈值。

相似图像处理模块，用于若多个图像帧中的上一图像帧与当前图像帧之间的相似程度小于预设阈值，则对当前图像帧进行计算机视觉处理，若多个图像帧中的上一图像帧与当前图像帧之间的相似程度大于或等于预设阈值，则对多个图像帧中的下一图像帧进行计算机视觉处理。

应理解的是，该装置与上述的视频流处理方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system，OS)中的软件功能模块。

请参见图6示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备300，包括：处理器310和存储器320，存储器320存储有处理器310可执行的机器可读指令，机器可读指令被处理器 310执行时执行如上的方法。

本申请实施例还提供了一种计算机可读存储介质330，该计算机可读存储介质330上存储有计算机程序，该计算机程序被处理器310运行时执行如上的方法。

其中，计算机可读存储介质330可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory,简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM)，可编程只读存储器(Programmable Read-Only Memory,简称PROM)，只读存储器(Read-Only Memory,简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请实施例提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其他的方式实现。以上所描述的装置实施例仅是示意性的，例如，附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以和附图中所标注的发生顺序不同。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这主要根据所涉及的功能而定。

另外，在本申请实施例中的各个实施例的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。此外，在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上的描述，仅为本申请实施例的可选实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种视频流处理方法，其特征在于，包括：

获取第一视频流，所述第一视频流包括多个图像帧；

对所述多个图像帧中的每个图像帧进行计算机视觉处理，获得所述图像帧的处理结果；

针对所述多个图像帧中的每个图像帧，判断该图像帧的处理结果是否是预设结果；

若是，则将该图像帧的处理结果绘制在第二视频流中的图像帧上。

2.根据权利要求1所述的方法，其特征在于，所述计算机视觉处理为目标检测，所述处理结果包括：目标对象的类别和图像帧中的位置；所述对所述多个图像帧中的每个图像帧进行计算机视觉处理，包括：

获取所述第一视频流的编码格式；

根据所述编码格式对所述第一视频流进行解码，获得所述多个图像帧中的每个图像帧；

对所述每个图像帧中的目标对象进行目标检测，获得所述目标对象的类别和所述目标对象在图像帧中的位置。

3.根据权利要求2所述的方法，其特征在于，所述将该图像帧的处理结果绘制在第二视频流中的图像帧上，包括：

将该图像帧复制为所述第二视频流中的图像帧；

在所述第二视频流中的图像帧上绘制出所述目标对象在所述图像帧中的位置，并在所述第二视频流中的图像帧中标记出所述目标对象的类别。

4.根据权利要求2所述的方法，其特征在于，在所述获得所述目标对象的类别和所述目标对象在图像帧中的位置之后，还包括：

判断所述目标对象的类别是否是人脸类别；

若是，则根据所述目标对象在图像帧中的位置对该图像帧依次进行裁剪和人脸识别，获得人脸识别结果，并根据所述人脸识别结果输出预警信息。

5.根据权利要求1所述的方法，其特征在于，所述计算机视觉处理为语义分割，所述处理结果包括：目标对象在图像帧中的所有像素点；所述对所述多个图像帧中的每个图像帧进行计算机视觉处理，包括：

获取所述第一视频流的编码格式；

对所述每个图像帧中的目标对象进行语义分割，获得所述目标对象在图像帧中的所有像素点。

6.根据权利要求5所述的方法，其特征在于，所述将该图像帧的处理结果绘制在第二视频流中的图像帧上，包括：

将该图像帧复制为所述第二视频流中的图像帧；

将所述目标对象在图像帧中的所有像素点绘制在所述第二视频流中的图像帧上。

7.根据权利要求1所述的方法，其特征在于，所述对所述多个图像帧中的每个图像帧进行计算机视觉处理，包括：

判断所述多个图像帧中的上一图像帧与当前图像帧之间的相似程度是否小于预设阈值；

若是，则对所述当前图像帧进行计算机视觉处理，否则，对所述多个图像帧中的下一图像帧进行计算机视觉处理。

8.一种视频流处理装置，其特征在于，包括：

视频图像获取模块，用于获取第一视频流，所述第一视频流包括多个图像帧；

图像视觉处理模块，用于对所述多个图像帧中的每个图像帧进行计算机视觉处理，获得所述图像帧的处理结果；

处理结果判断模块，用于针对所述多个图像帧中的每个图像帧，判断该图像帧的处理结果是否是预设结果；

处理结果绘制模块，用于若该图像帧的处理结果是预设结果，则将该图像帧的处理结果绘制在第二视频流中的图像帧上。

9.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的方法。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任一所述的方法。