CN117201834B

CN117201834B - 基于目标检测的实时双光谱融合视频流显示方法及系统

Info

Publication number: CN117201834B
Application number: CN202311162554.7A
Authority: CN
Inventors: 闵济海; 刘爽; 张兆珩
Original assignee: Nanjing Tetra Electronic Technology Co ltd
Current assignee: Nanjing Tetra Electronic Technology Co ltd
Priority date: 2023-09-11
Filing date: 2023-09-11
Publication date: 2024-06-21
Anticipated expiration: 2043-09-11
Also published as: CN117201834A

Abstract

本发明属于目标检测技术领域，具体涉及基于目标检测的实时双光谱融合视频流显示方法及系统，通过捕捉可见光和红外视频，构建流水线管道对两路视频解码编码为BGR帧图像，并应用目标检测算法提取位置信息；根据目标位置，将可见光视频流中的颜色数组信息替换红外视频流中对应位置的颜色数组信息，完成单帧图片的双光融合；将合成图像逐帧输出至内存缓冲，当缓冲满时，构建管道合成视频流，推送至端口；在前端显示设备中播放，实现双光谱目标信息的实时显示。本发明能够在单光谱视频的基础上，实时追踪并在对应位置上显示另一路光谱视频中的目标信息。

Description

基于目标检测的实时双光谱融合视频流显示方法及系统

技术领域

本发明涉及目标检测技术领域，具体涉及基于目标检测的实时双光谱融合视频流显示方法及系统。

背景技术

目标检测是计算机视觉中最重要的任务之一，主要目标是在真实场景或输入图像中检测出特定目标以及目标的具体位置，并为每个检测到的对象分配预先标注的类别标签。当前大部分目标识别的展示大多基于单光谱的视频流，即仅展示可见光或红外光谱视频流，而忽略了另外一路视频流中拍摄到的对应检测目标。这种展示方式虽然能够满足一定的需求，但无法给用户提供更加全面、精准的目标识别体验。

在当下工业巡检机器人中，越来越多地采用了计算机视觉技术，特别是目标检测技术，以达到在机器人巡检时，实时检测人员情况、开关表计、烟火毒气等目标，辅助相关工作人员对工业生产的规划和维护。然而，现有的目标检测技术多数只基于单光谱的视频流进行检测和展示，无法展示同一目标在另一路光谱视频中的对应位置信息。例如，针对可见光视频流进行人员头部检测，而忽略了红外光谱视频中人员对应的信息。这种情况下，用户需要同时观看两路光谱的视频流，并自行判断两路视频中的目标是否对应。这样的方式明显增加了用户的认知负担，而且无法保证检测的准确性和实时性。

发明内容

发明目的：本发明目的在于针对现有技术的不足，提供基于目标检测的实时双光谱融合视频流显示方法及系统，能够在单光谱视频的基础上，实时追踪并在对应位置上显示另一路光谱视频中的目标信息，提高了目标识别的准确性和用户体验。

技术方案：本发明所述基于目标检测的实时双光谱融合视频流显示方法，包括如下步骤：捕捉可见光视频和红外视频；读取可见光视频流和红外视频流，分别标记为流A和流B；构建两条流水线管道，对流A和流B分别解码并编码为一系列BGR视频帧图像，从流水线管道输出缓冲区中读取每一帧图像的B/G/R颜色分量信息；对每一帧图像使用目标检测算法，获取目标的位置信息；根据检测到的目标位置信息，从流A和流B的帧图像中获取对应位置的颜色数组信息，将流A中的颜色数组信息替换流B中对应位置的颜色数组信息，完成单帧图片的双光融合；将融合后的帧图像转换为图片格式，并逐帧输出至内存缓冲队列，当内存缓冲队列满时，构建用于接收格式帧图片的流水线管道，合成为视频流，推送至对应端口；从推送端口接收视频流，转发视频流并将其在前端显示设备中播放，以实现双光谱融合视频流的实时显示。

进一步完善上述技术方案，分别采用可见光相机、红外相机捕捉可见光视频和红外视频以及通过网络传输对应的视频流。

进一步地，利用Python构建用于读取视频流的两条pipeline流水线管道，使用FFmpeg和NVIDIA联合推出的cuvid库的硬解码功能，在NVIDIA GPU上分别读取这两路视频流数据，并逐帧编码为一系列BGR视频帧图片。

进一步地，使用Python从两条流水线管道的输出缓冲区中读取每一帧图像的B/G/R三个颜色分量的信息，并用Python的Numpy库处理为能被OpenCV直接读取的nparray格式数据。

进一步地，使用YoloV5算法接收nparray格式的图片数据，提取图像关键特征，然后利用神经网络结构识别待检测目标，并预测检测到的每一个目标的类别，选择概率最高的类别作为预测类别，最后利用非极大值抑制NMS来去除重复检测框，最后并为每一帧图像输出一组检测到的目标检测框的位置，其中，检测框位置信息包括了目标的上下左右坐标以及这个目标的预测类别和预测分数，这些位置信息被暂存在一个自定义的缓冲区数据池中。

进一步地，采用OpenCV从缓冲区数据池中读取YoloV5输入的检测框位置，每读到一帧的检测框信息，就依据检测框的上下左右坐标信息，将流A当前帧对应位置的检测目标的颜色数组信息拷贝下来，再用拷贝下来的信息将流B当前帧的对应位置的颜色数组信息替换，从而完成单帧图片的合成。

进一步地，OpenCV将合成后的单帧图片数组信息转换为JPG格式的图片，逐帧输出到内存缓冲队列中，当内存缓冲队列满时，使用Python构建一条用于接收JPG格式帧图片的pipeline流水线管道，下达系统指令，使FFmpeg接收队列中的图片，并使用cuvid库的硬编码功能在NVIDIA GPU中合成为H264视频流，封装为flv格式的RTMP视频流，推送到对应端口。

进一步地，使用Nginx从视频流推送端口中接收视频流，并代理和转发视频流，将其在前端显示设备中播放，从而实现了基于目标检测的实时双光谱融合视频流的显示。

进一步地，YoloV5算法接收了nparray格式的每一帧图片，开始进行目标识别，包括如下步骤：首先利用卷积神经网络模型来提取图像的关键特征；在特征提取的基础上，YoloV5使用Darknet神经网络结构进行目标检测，Darknet神经网络结构会将输入的图像分割为多个小的区域，并为每个区域生成一系列的候选框，预测每个候选框中是否包含一个目标，以及这个目标的位置和大小；对于检测到的每个目标，YoloV5采用多分类器预测它的类别，多分类器会输出每个类别的概率，最后选择概率最高的类别作为这个目标的预测类别；YoloV5采用非极大值抑制算法来去除重复的检测框，非极大值抑制算法会比较所有检测框的预测分数，并保留分数最高的检测框，同时去除与这个检测框重叠度过高的其他检测框；YoloV5算法会为每一帧图像生成一组检测框的位置，每个检测框的位置包括了目标的上下左右坐标，以及这个目标的预测类别和预测分数，这些位置信息可以被用来定位待检测目标，从而完成目标识别任务。

用于实现上述的基于目标检测的实时双光谱融合视频流显示方法的系统，包括：至少一台用于捕捉可见光视频的可见光相机和一台用于捕捉红外视频的红外相机；用于接收和处理可见光相机和红外相机传输的视频流的计算机或服务器，所述计算机或服务器配备有NVIDIA GPU，运行在Ubuntu系统上；所述Ubuntu系统运行有基于深度学习技术的目标检测算法和图像处理软件，所述目标检测算法采用特征提取、目标检测、类别识别和非极大值抑制，用于检测目标并提供目标的位置、类别和预测分数信息；所述图像处理软件采用Python编程语言和OpenCV库实现，用于从视频流中提取颜色信息、执行目标检测算法、融合两路视频流、生成合成帧图像并输出至内存缓冲队列；用于显示双光融合视频流的显示设备。

有益效果：本发明采用了双光谱融合技术，将可见光和红外光的信息融合在一起，可以更加全面、精准地展示显示目标。

与传统的单光相机方式相比，本发明具有以下优点：（1）更加精准：基于深度学习的目标检测算法，可以精准地检测和识别目标，提高检测的精准度和准确性；（2）更加实用：实时的双光融合视频流显示方法，可以实时地展示更为丰富的目标检测信息，方便实际应用场景中的使用，降低用户的认知负担；（3）更加安全性：在某些特殊应用场景中，如工业巡检、安防监控等，双光融合视频流可以帮助检测人员发现隐蔽的安全隐患，提高安全性。

附图说明

图1是本发明的系统组成示意图；

图2是本发明视频合成展示方案示意图。

具体实施方式

下面通过附图对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

实施例1：如图1所示的基于目标检测的实时双光谱融合视频流显示系统，包括：

可见光相机和红外相机：分别用于捕捉可见光视频和红外视频，两个相机可以分别连接到一台计算机或服务器，通过不同的接口进行传输。

计算机或服务器：用于接收和处理从可见光相机和红外相机传输的视频流，并实时执行目标检测算法。计算机或服务器需要配备高性能的CPU和GPU以保证计算效率和实时性，本实施例中使用的是Ubuntu系统。

Ubuntu系统运行有目标检测算法：通过在输入的视频流中检测目标并给出其位置信息，从而实现对目标的跟踪和识别。目标检测算法可以基于深度学习技术，如YOLOv5、Faster R-CNN等。

Ubuntu系统运行有图像处理软件：用于接收从计算机或服务器传输的检测结果和视频流，并实现双光融合显示，图像处理软件可以使用Python编程语言和OpenCV库实现，通过调用计算机或服务器上的GPU进行图像处理。

显示设备：用于显示双光融合视频流，显示设备可以是计算机的显示器、投影仪、电视等。

实施例2：本实施例旨在解决现有目标检测技术中只基于单光谱视频流的展示方式，无法直观呈现多个光谱的检测结果的问题，而提出了一种实时双光融合视频流显示方法，通过将两路不同光谱的视频流进行融合，将它们的检测目标进行对应，从而实现更直观、全面的目标展示。

1.首先，在Ubuntu系统上读取两路网络相机RTSP传输的H264视频流，分别为流A和流B；

2.利用Python构建两条用于读取视频流的两条pipeline流水线管道，下达系统指令，使用FFmpeg和NVIDIA联合推出的cuvid库的硬解码功能，在NVIDIA GPU上分别读取这两路视频流数据，并逐帧编码为一系列BGR视频帧图片；

3.将这些图片输出到系统内存中，使用Python从两条流水线管道的输出缓冲区中读取每一帧的B/G/R三个颜色分量的信息，并用Python的Numpy库处理为能被和OpenCV直接读取的nparray格式数据；

4.使用YoloV5算法接收上一步经过处理后的nparray格式的图片数据，利用特征提取提取图像关键特征，然后利用神经网络结构识别待检测目标，并预测检测到的每一个目标的类别，选择概率最高的类别作为预测类别，最后利用非极大值抑制NMS来去除重复检测框，最后并为每一帧图像输出一组检测到的目标的检测框的位置。其中，检测框位置信息包括了目标的上下左右坐标，以及这个目标的预测类别和预测分数，这些位置信息被暂存在一个自定义的缓冲区数据池中；

YoloV5算法是一种利用深度学习进行目标检测的算法。在第四步中，YoloV5首先接收了从第三步处理后的每一帧图片，然后开始进行目标识别。以下是其主要步骤：

1. 特征提取：YoloV5会首先利用一种称为卷积神经网络（CNN）的模型来提取图像的特征。这种模型会对图片进行一系列卷积、池化等操作，提取出图像的关键特征。

2.目标检测：在特征提取的基础上，YoloV5进一步使用了一种被称为 "Darknet"的神经网络结构进行目标检测。Darknet网络会将输入的图像分割为多个小的区域，并为每个区域生成一系列的候选框，预测每个候选框中是否包含一个目标，以及这个目标的位置和大小。

3.类别识别：对于检测到的每个目标，YoloV5还会预测它的类别。这是通过一个多分类器完成的，多分类器会输出每个类别的概率，最后选择概率最高的类别作为这个目标的预测类别。

4.非极大值抑制（NMS）：YoloV5最后使用一种名为非极大值抑制（NMS）的技术来去除重复的检测框。NMS会比较所有检测框的预测分数，并保留分数最高的检测框，同时去除与这个检测框重叠度过高的其他检测框。

经过这四步，YoloV5算法会为每一帧图像生成一组检测框的位置，每个检测框的位置包括了目标的中心点坐标、宽度和高度，以及这个目标的预测类别和预测分数。这些位置信息可以被用来定位待检测目标，从而完成第四步的目标识别任务。

在整个过程中，YoloV5算法的所有参数都是通过大量人工标注过的图像进行训练得到的。在训练过程中，算法会不断调整参数，使得预测的检测框与真实的目标位置越来越接近，预测的类别与真实的目标类别越来越一致。

使用OpenCV从缓冲区数据池中读取YoloV5输入的的检测框位置，每读到一帧的检测框信息，就依据检测框的上下左右坐标信息，将流A当前帧对应位置的检测目标的颜色数组信息拷贝下来，再用拷贝下来的信息将流B当前帧的对应位置的颜色数组信息替换，从而完成单帧图片的合成。

OpenCV将合成后的单帧图片数组信息转换为JPG格式的图片，逐帧输出到内存缓冲队列中，以减少网络波动导致没有收到视频帧时出现视频流卡顿的概率；

当内存缓冲队列满时，使用Python构建一条用于接收JPG格式帧图片的pipeline流水线管道下达系统指令，使FFmpeg接收队列中的图片，并使用cuvid库的硬编码功能在NVIDIA GPU中合成为H264视频流，封装为flv格式的RTMP视频流，推送到计算机对应端口；

使用Nginx从视频流推送端口中接收视频流，并代理和转发视频流，将其在前端显示设备中播放，从而实现了基于目标检测的实时双光谱融合视频流的显示。

本发明采用了双光谱融合技术，将可见光和红外光的信息融合在一起，可以更加全面、精准地展示显示目标，视频合成展示如图2所示。

如上所述，尽管参照特定的优选实施例已经表示和表述了本发明，但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下，可对其在形式上和细节上作出各种变化。

Claims

1.基于目标检测的实时双光谱融合视频流显示方法，其特征在于，包括如下步骤：

捕捉可见光视频和红外视频；

读取可见光视频流和红外视频流，分别标记为流A和流B；

利用Python构建用于读取视频流的两条pipeline流水线管道，使用FFmpeg和NVIDIA联合推出的cuvid库的硬解码功能，在NVIDIA GPU上分别读取这两路视频流数据，并逐帧编码为一系列BGR视频帧图片；使用Python从两条流水线管道的输出缓冲区中读取每一帧图像的B/G/R三个颜色分量的信息，并用Python的Numpy库处理为能被OpenCV直接读取的nparray格式数据；

使用YoloV5算法接收nparray格式的图片数据，提取图像关键特征，然后利用神经网络结构识别待检测目标，并预测检测到的每一个目标的类别，选择概率最高的类别作为预测类别，利用非极大值抑制NMS来去除重复检测框，最后并为每一帧图像输出一组检测到的目标检测框的位置，其中，检测框位置信息包括了目标的上下左右坐标以及这个目标的预测类别和预测分数，这些位置信息被暂存在一个自定义的缓冲区数据池中；

根据检测到的目标位置信息，从流A和流B的帧图像中获取对应位置的颜色数组信息，将流A中的颜色数组信息替换流B中对应位置的颜色数组信息，完成单帧图片的双光融合；

将融合后的帧图像转换为图片格式，并逐帧输出至内存缓冲队列，当内存缓冲队列满时，构建用于接收格式帧图片的流水线管道，合成为视频流，推送至对应端口；

从推送端口接收视频流，转发视频流并将其在前端显示设备中播放，以实现双光谱融合视频流的实时显示。

2.根据权利要求1所述的基于目标检测的实时双光谱融合视频流显示方法，其特征在于：分别采用可见光相机、红外相机捕捉可见光视频和红外视频以及通过网络传输对应的视频流。

3.根据权利要求1所述的基于目标检测的实时双光谱融合视频流显示方法，其特征在于：采用OpenCV从缓冲区数据池中读取YoloV5输入的检测框位置，每读到一帧的检测框信息，就依据检测框的上下左右坐标信息，将流A当前帧对应位置的检测目标的颜色数组信息拷贝下来，再用拷贝下来的信息将流B当前帧的对应位置的颜色数组信息替换，从而完成单帧图片的合成。

4.根据权利要求3所述的基于目标检测的实时双光谱融合视频流显示方法，其特征在于：OpenCV将合成后的单帧图片数组信息转换为JPG格式的图片，逐帧输出到内存缓冲队列中，当内存缓冲队列满时，使用Python构建一条用于接收JPG格式帧图片的pipeline流水线管道，下达系统指令，使FFmpeg接收队列中的图片，并使用cuvid库的硬编码功能在NVIDIAGPU中合成为H264视频流，封装为flv格式的RTMP视频流，推送到对应端口。

5.根据权利要求4所述的基于目标检测的实时双光谱融合视频流显示方法，其特征在于：使用Nginx从视频流推送端口中接收视频流，并代理和转发视频流，将其在前端显示设备中播放，从而实现了基于目标检测的实时双光谱融合视频流的显示。

6.根据权利要求4所述的基于目标检测的实时双光谱融合视频流显示方法，其特征在于：YoloV5算法接收了nparray格式的每一帧图片，开始进行目标识别，包括如下步骤：首先利用卷积神经网络模型来提取图像的关键特征；在特征提取的基础上，YoloV5使用Darknet神经网络结构进行目标检测，Darknet神经网络结构会将输入的图像分割为多个小的区域，并为每个区域生成一系列的候选框，预测每个候选框中是否包含一个目标，以及这个目标的位置和大小；对于检测到的每个目标，YoloV5采用多分类器预测它的类别，多分类器会输出每个类别的概率，最后选择概率最高的类别作为这个目标的预测类别；YoloV5采用非极大值抑制算法来去除重复的检测框，非极大值抑制算法会比较所有检测框的预测分数，并保留分数最高的检测框，同时去除与这个检测框重叠度过高的其他检测框；YoloV5算法会为每一帧图像生成一组检测框的位置，每个检测框的位置包括了目标的上下左右坐标，以及这个目标的预测类别和预测分数，这些位置信息可以被用来定位待检测目标，从而完成目标识别任务。

7.用于实现权利要求1所述的基于目标检测的实时双光谱融合视频流显示方法的系统，其特征在于，包括：

至少一台用于捕捉可见光视频的可见光相机和一台用于捕捉红外视频的红外相机；

用于接收和处理可见光相机和红外相机传输的视频流的计算机或服务器，所述计算机或服务器配备有NVIDIA GPU，运行在Ubuntu系统上；所述Ubuntu系统运行有基于深度学习技术的目标检测算法和图像处理软件，所述目标检测算法采用特征提取、目标检测、类别识别和非极大值抑制，用于检测目标并提供目标的位置、类别和预测分数信息；所述图像处理软件采用Python编程语言和OpenCV库实现，用于从视频流中提取颜色信息、执行目标检测算法、融合两路视频流、生成合成帧图像并输出至内存缓冲队列；

用于显示双光融合视频流的显示设备。