CN116248861A

CN116248861A - 一种智能视频检测方法、系统及装置

Info

Publication number: CN116248861A
Application number: CN202310167971.4A
Authority: CN
Inventors: 张永昊; 金长新; 朱翔宇; 李锐
Original assignee: Shandong Inspur Science Research Institute Co Ltd
Current assignee: Shandong Inspur Science Research Institute Co Ltd
Priority date: 2023-02-27
Filing date: 2023-02-27
Publication date: 2023-06-09

Abstract

本发明公开了一种智能视频检测方法、系统及装置，属于流媒体数据处理技术领域，设备端利用NPU开发板采集摄像头模块的视频，并运行yolo目标检测算法实时处理视频，将yolo处理后的视频流通过流媒体服务推流至服务器；用户端通过拉取服务器中的视频流实现视频显示；所述设备端完成视频的采集、处理和推流，在初始化时完成流媒体服务部署和yolo模型的部署；所述yolo模型的部署，将yolo训练得到的.pt模型通过转换得到NPU开发板支持的模型，然后将转换后的模型移植到NPU开发板中。本发明能够实现视频的智能检测和远端显示，实现了视频数据的无线传输，成本低、延时小，具有较高的经济性和实用性。

Description

一种智能视频检测方法、系统及装置

技术领域

本发明涉及流媒体数据处理技术领域，具体地说是一种智能视频检测方法、系统及装置。

背景技术

近几年随着短视频的兴起，出现了各类直播平台，随之各种流媒体服务技术也应运而生，流媒体是以流的方式在网络中传送音频、视频和多媒体文件的媒体形式。现如今，流媒体服务的传输类型和应用场景日益丰富，已在智慧城市、智慧园区、智慧交通、工业互联网等多个应用场景得到应用。

传统的视频检测或监控系统都是将摄像头的视频流传到本地，在本地进行图像的处理并输出处理结果，实时性较差并且成本较高。

发明内容

本发明的技术任务是针对以上不足之处，提供一种智能视频检测方法、系统及装置，能够实现视频的智能检测和远端显示，实现了视频数据的无线传输，成本低、延时小，具有较高的经济性和实用性。

本发明解决其技术问题所采用的技术方案是：

一种智能视频检测方法，设备端利用NPU开发板采集摄像头模块的视频，并运行yolo目标检测算法实时处理视频，将yolo处理后的视频流通过流媒体服务推流至服务器；用户端通过拉取服务器中的视频流实现视频显示；

所述设备端完成视频的采集、处理和推流，在初始化时完成流媒体服务部署和yolo模型的部署；

所述流媒体服务支持多种音视频流的编码、转换及推送；NPU检测处理后的视频通过所述流媒体服务推送至服务器供用户端拉流；

所述yolo模型的部署，将yolo训练得到的.pt模型通过转换得到NPU开发板支持的模型，然后将转换后的模型移植到NPU开发板中；

完成流媒体服务部署和yolo模型移植后，开始视频采集、处理、推流。

本方法基于NPU(Neural-Network Processing Units，嵌入式神经网络处理器)实现智能视频检测，可实现NPU开发板运行人工智能(AI)算法实现视频的智能检测，并将检测后视频流以特定的视频格式推流至服务器；用户端设备可实现对特定格式视频流的拉流，在用户终端显示AI算法处理后视频流；设备端以人工智能物联网边缘计算NPU开发板为载体，结合流媒体服务器和目标检测、识别的AI算法，将人工智能和物联网(AIot)的功能集合于一体，实现了在端侧设备本地完成视频的计算、预测和推流；用户端以终端设备为载体，实现对端侧设备处理后视频的拉流显示以及相关检测参数的动态设置。

搭载NPU的开发板擅长处理视频、图像等海量的多媒体数据，通过移植AI算法，NPU可具备人工智能算法的预测和推理能力。基于NPU的智能视频检测系统根据本地预测结果，可以自动检索设定的目标，自动解析实时视频源中的有效信息，迅速精准的定位，并且可以分辨视频中的异常现象，当检测系统检测到设定的异常阈值后，会第一时间给出报警提示。本方法实现端侧完成视频处理，无需复杂布线，实时性较高。

本方法基于NPU实现视频检测，可完成目标检测、视频流无线传输、远程智能监控，结合yolo目标检测的人工智能算法和流媒体服务器的物联网平台，实现了AI智能监控的功能，具备布线简单、视频无线传输、延时低的特点，具有较高的经济性和实用性。

优选的，用户端设置阈值参数，通过TCP协议回传至NPU开发板，实现双向通讯；从而能够实现视频检测参数的动态调整；

设备端将通过yolo模型预测的结果通过流媒体服务推流至服务器，用户端从服务器拉取视频流在显示端显示，用户端的显示部分可设置NPU图像检测的相关阈值参数，设置完成后通过TCP协议回传至设备端，用设定的参数进行新的检测过程。

优选的，所述阈值参数包括区域检测的边界、边界闯入报警阈值、视频处理帧率。

优选的，在NPU开发板中，读取摄像头视频并利用移植的yolo模型处理视频流的过程如下：

1)、读取视频流；

2)、将读取到的视频流分割为帧图像并依次输入到队列中，利用队列先进先出的特性管理图像；

3)、NPU预测帧图像的结果，NPU根据移植的yolo模型对输入的每一帧图像进行需求加工，预测每一帧图像的结果；

4)、帧图像重组，NPU将原始帧图像和根据yolo模型预测的结果的图像帧重组，将重组后的结果输入到pipe中；

5)、流媒体服务推流视频。

优选的，所述读取视频流，NPU开发板利用计算机视觉和机器学习软件库OpenCV读取实时视频流，并初始化帧图像格式。

优选的，所述NPU预测帧图像的结果，设置图像的帧间隔参数n，即NPU在连续图像帧中只处理n的整数倍的图像帧。比如帧间隔设置为4，则NPU每间隔4帧处理一帧图像。

优选的，所述流媒体服务推流视频，利用流媒体服务中的ffmpeg工具，设置视频流的参数包括像素格式、帧率、编码方式，从pipe管道中依次读取帧图像，以设定的格式推流到服务器。

本发明还要求保护一种智能视频检测系统，包括设备端、服务器和用户端，

所述设备端在初始化时完成流媒体服务部署和yolo模型的部署；然后完成视频的采集、处理和推流，所述yolo模型部署包括yolo模型训练、模型转换和模型部署；

用户端完成视频的拉流显示和阈值参数设置；

所述设备端包括摄像头模块、报警模块和NPU开发板，摄像头模块用于实时采集视频流，输入到NPU开发板；NPU开发板用于实现视频的采集、处理、编码、推流；报警模块用于当NPU检测到某帧图像超出设定的检测参数阈值时，给出报警提示；

该系统实现上述的智能视频检测方法。NPU开发板采集摄像头模块的视频，并运行yolo目标检测算法实时处理视频，将yolo处理后的视频流通过流媒体服务推流至服务器，用户端通过拉取服务器中的视频流实现视频显示，从而实现视频的智能检测。

在用户显示端设置阈值参数，可通过TCP协议回传至NPU开发板，实现双向通讯。

该系统可完成目标检测、视频流无线传输、远程智能监控，结合yolo目标检测的人工智能算法和流媒体服务器的物联网平台，实现了AI智能监控的功能，具备布线简单、视频无线传输、延时低的特点，具有较高的经济性和实用性。

本发明还要求一种智能视频检测装置，包括NPU开发板，流媒体服务器环境搭建模块，yolo模型部署模块，视频采集、处理、推流模块，以及摄像头模块；

摄像头模块用于实时采集视频流，输入到NPU开发板；

流媒体服务器环境搭建模块实现智能视频检测装置初始化时的流媒体服务部署，所述流媒体服务支持多种音视频流的编码、转换和推送，将NPU开发板检测处理后的视频通过流媒体服务推送至服务器供用户终端拉流；

yolo模型部署模块实现智能视频检测装置初始化时的yolo模型部署，将yolo训练得到的.pt模型通过转换得到NPU开发板支持的模型，然后将转换后的模型移植到NPU开发板中；

视频采集、处理、推流模块在智能视频检测装置完成流媒体服务部署和yolo模型移植后，开始视频采集、处理、推流。

优选的，该装置还包括报警模块，当所述用户终端设置有视频检测相关的阈值参数，所述报警模块在当NPU开发板检测到某帧图像超出设定的检测参数阈值时，给出报警提示。

本发明的一种智能视频检测方法、系统及装置与现有技术相比，具有以下

有益效果：

本方法可以直接在端侧利用人工智能算法处理视频数据，数据可以保存在本地服务器中，因此实时性和安全性更高。

本方法集人工智能AI和物联网IoT功能与一体，利用了机器学习和物联网万物互联的潜力，将AI算法移植到NPU开发板中，使得端侧设备具有学习和决策能力。

本方法提出的视频检测系统结构简单，应用场景灵活，且不需要复杂的布线就可以实现智能监控的功能。

本方法具有报警提示的功能，当NPU检测到图像帧信息与设定的检测阈值参数不符时，直接给出报警提示。

利用NPU强大的卷积神经网络处理能力，可直接在端侧实现视频的智能检测和处理，保证检测的实时性和安全性。本发明结合了人工智能和物联网的特性，是一种具有自主决策和学习的端侧设备，体现了系统的智能性。检测结果可以通过流媒体服务推送至服务器进行远程拉流显示与设置，体现了系统的远程控制性。本发明提出的智能视频检测系统具有免布线、实时性高、安全性强的特点，符合当前人工智能物联网时代发展的市场主旋律，应用场景丰富，具有较高的市场前景和应用价值。

附图说明

图1是本发明一个实施例提供的智能视频检测方法实现的架构示图；

图2是本发明一个实施例提供的智能视频检测方法软件流程示图；

图3是本发明一个实施例提供的视频帧处理流程示图；

图4是本发明一个实施例提供的视频推拉流过程示图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

本发明实施例提供了一种智能视频检测方法，设备端利用NPU开发板采集摄像头模块的视频，并运行yolo目标检测算法实时处理视频，将yolo处理后的视频流通过流媒体服务推流至服务器；用户端通过拉取服务器中的视频流实现视频显示，从而实现视频的智能检测。

用户端设置阈值参数，如区域检测的边界、边界闯入报警阈值、视频处理帧率等，通过TCP协议回传至NPU开发板，实现双向通讯；从而能够实现视频检测参数的动态调整；设备端将通过yolo模型预测的结果通过流媒体服务推流至服务器，用户端从服务器拉取视频流在显示端显示，用户端的显示部分可设置NPU图像检测的相关阈值参数，设置完成后通过TCP协议回传至设备端，用设定的参数进行新的检测过程。

所述设备端完成视频的采集、处理和推流，在初始化时完成流媒体服务部署和yolo模型的部署；用户端完成视频的拉流显示和阈值参数设置。如图2所示。

所述流媒体服务支持各种音视频流的编码、转换及推送；NPU检测处理后的视频通过所述流媒体服务推送至服务器供用户端拉流；

所述yolo模型的部署，由于NPU开发板的计算力、板载内存等是有限制的，因此无法将PC机上训练的模型直接应用到NPU开发板，需要进行裁切和一些列的模型转换，将yolo训练得到的.pt模型通过一系列转换得到NPU开发板支持的模型，然后将转换后的模型移植到NPU开发板中；本过程包括yolo模型训练、模型转换和模型部署；

完成流媒体服务部署和yolo模型移植后，开始视频采集、处理、推流。在用户端，主要完成视频拉流和显示，以及视频检测相关阈值参数的设置，通过TCP协议回传至设备端。

如图3所示，在NPU开发板中，读取摄像头视频并利用移植的yolo模型处理视频流的过程如下：

1)、读取视频流。NPU开发板利用计算机视觉和机器学习软件库OpenCV读取实时视频流，并初始化帧图像格式。

2)、将视频分割为图像帧并输入到队列中。将读取到的视频流分割为帧图像并依次输入到队列中，利用队列先进先出的特性管理图像。

3)、NPU预测帧图像的结果。NPU虽然可以运行卷积神经网络，但是它的综合性能和GPU相比还是有较大差距的，因此设置图像的帧间隔参数n，即NPU在连续图像帧中只处理n的整数倍的图像帧。比如帧间隔设置为4，则NPU每间隔4帧处理一帧图像。NPU根据移植的yolo模型对输入的每一帧图像进行需求加工，预测每一帧图像的结果。

4)、帧图像重组。NPU将原始帧图像和根据yolo模型预测的结果的图像帧重组，将重组后的结果输入到pipe中。

5)、流媒体服务推流视频。利用流媒体服务中的ffmpeg工具，设置视频流的像素格式、帧率、编码方式等参数，从pipe管道中依次读取帧图像，以设定的格式推流到服务器。

视频推拉流的过程如附图4所示，设备端将通过yolo模型预测的结果通过流媒体服务推流至服务器，用户端从服务器拉取视频流在显示端显示，如图4中①过程；用户端的显示部分可以设置NPU图像检测的相关阈值参数，设置完成后通过TCP协议回传至设备端，用设定的参数进行新的检测过程，如图4中的②过程所示。

本方法基于NPU实现智能视频检测，根据本地预测结果，可以自动检索设定的目标，自动解析实时视频源中的有效信息，迅速精准的定位，并且可以分辨视频中的异常现象，当检测系统检测到设定的异常阈值后，会第一时间给出报警提示。人工智能物联网(AIoT)融合了AI和IoT技术，使得端侧设备具备自主学习和决策的能力，从而最大限度的发挥物联网万物互联的潜力。本方法提出的基于NPU的智能视频检测系统包括端侧设备和终端设备(视频处理与推流端以及视频拉流端)的部署与开发，结合了AIoT技术，主要应用于非复杂场景下的视频检测。

本发明实施例还提供一种智能视频检测系统，包括设备端、服务器和用户端，

用户端完成视频的拉流显示和阈值参数设置；

该系统实现上述的智能视频检测方法。NPU开发板采集摄像头模块的视频，并运行yolo目标检测算法实时处理视频，将yolo处理后的视频流通过流媒体服务推流至服务器，用户端通过拉取服务器中的视频流实现视频显示，从而实现视频的智能检测。在用户显示端设置阈值参数，可通过TCP协议回传至NPU开发板，实现双向通讯。

设备端完成视频的采集、处理和推流，在初始化时完成流媒体服务部署和yolo模型的部署；用户端完成视频的拉流显示和阈值参数设置。

所述流媒体服务支持各种音视频流的编码、转换级推送；NPU检测处理后的视频通过所述流媒体服务推送至服务器供用户端拉流；

所述yolo模型的部署，将yolo训练得到的.pt模型通过一系列转换得到NPU开发板支持的模型，然后将转换后的模型移植到NPU开发板中；本过程包括yolo模型训练、模型转换和模型部署；

在NPU开发板中，读取摄像头视频并利用移植的yolo模型处理视频流的过程如下：

视频推拉流的过程为：设备端将通过yolo模型预测的结果通过流媒体服务推流至服务器，用户端从服务器拉取视频流在显示端显示，如图4中①过程；用户端的显示部分可以设置NPU图像检测的相关阈值参数，设置完成后通过TCP协议回传至设备端，用设定的参数进行新的检测过程，如图4中的②过程所示。

该系统以NPU开发板为核心的端侧设备和用户端设备。通过在NPU端部署流媒体服务，移植yolo模型，实现了视频的端侧处理和用户端显示，将人工智能算法和物联网的功能相结合。NPU端实现视频的实时检测和推流，整个处理过程无需经过云端，实时性较高，安全性较强。用户端可设置视频检测的阈值参数并通过TCP协议回传至NPU开发板，实现了数据双向通讯。

摄像头模块用于实时采集视频流，输入到NPU开发板；

该装置还包括报警模块，当所述用户终端设置有视频检测相关的阈值参数，所述报警模块在当NPU开发板检测到某帧图像超出设定的检测参数阈值时，给出报警提示。

通过上面具体实施方式，所述技术领域的技术人员可容易的实现本发明。但是应当理解，本发明并不限于上述的具体实施方式。在公开的实施方式的基础上，所述技术领域的技术人员可任意组合不同的技术特征，从而实现不同的技术方案。

除说明书所述的技术特征外，均为本专业技术人员的已知技术。

Claims

1.一种智能视频检测方法，其特征在于，设备端利用NPU开发板采集摄像头模块的视频，并运行yolo目标检测算法实时处理视频，将yolo处理后的视频流通过流媒体服务推流至服务器；用户端通过拉取服务器中的视频流实现视频显示；

2.根据权利要求1所述的一种智能视频检测方法，其特征在于，用户端设置阈值参数，通过TCP协议回传至NPU开发板，实现双向通讯；

3.根据权利要求2所述的一种智能视频检测方法，其特征在于，所述阈值参数包括区域检测的边界、边界闯入报警阈值、视频处理帧率。

4.根据权利要求1或2或3所述的一种智能视频检测方法，其特征在于，在NPU开发板中，读取摄像头视频并利用移植的yolo模型处理视频流的过程如下：

1)、读取视频流；

5)、流媒体服务推流视频。

5.根据权利要求4所述的一种智能视频检测方法，其特征在于，所述读取视频流，NPU开发板利用计算机视觉和机器学习软件库OpenCV读取实时视频流，并初始化帧图像格式。

6.根据权利要求4所述的一种智能视频检测方法，其特征在于，所述NPU预测帧图像的结果，设置图像的帧间隔参数n，即NPU在连续图像帧中只处理n的整数倍的图像帧。

7.根据权利要求4所述的一种智能视频检测方法，其特征在于，所述流媒体服务推流视频，利用流媒体服务中的ffmpeg工具，设置视频流的参数包括像素格式、帧率、编码方式，从pipe管道中依次读取帧图像，以设定的格式推流到服务器。

8.一种智能视频检测系统，其特征在于，包括设备端、服务器和用户端，

用户端完成视频的拉流显示和阈值参数设置；

该系统实现权利要求1至7任一项所述的智能视频检测方法。

9.一种智能视频检测装置，其特征在于，包括NPU开发板，流媒体服务器环境搭建模块，yolo模型部署模块，视频采集、处理、推流模块，以及摄像头模块；

摄像头模块用于实时采集视频流，输入到NPU开发板；

流媒体服务器环境搭建模块实现智能视频检测装置初始化时的流媒体服务部署，所述流媒体服务支持多种音视频流的编码、转换和推送，将NPU检测处理后的视频通过流媒体服务推送至服务器供用户终端拉流；

10.根据权利要求9所述的一种智能视频检测装置，其特征在于还包括报警模块，当所述用户终端设置有视频检测相关的阈值参数，所述报警模块在当NPU开发板检测到某帧图像超出设定的检测参数阈值时，给出报警提示。