CN117095323A

CN117095323A - 一种提高实时视频目标检测性能的方法

Info

Publication number: CN117095323A
Application number: CN202210515438.8A
Authority: CN
Inventors: 田野; 王晓君; 汪顺东; 唐灵勇
Original assignee: Guangzhou Tianyue Electronic Technology Co ltd
Current assignee: Guangzhou Tianyue Electronic Technology Co ltd
Priority date: 2022-05-11
Filing date: 2022-05-11
Publication date: 2023-11-21

Abstract

本发明提供一种提高实时视频目标检测性能的方法。所述一种提高实时视频目标检测性能的方法，包括以下步骤：S1：实时视频传输模块，调用手机摄像头进行视频流数据采集，经过压缩编解码后按照传输协议进行传输。本发明提供的提高实时视频目标检测性能的方法，防止检测框出现不连续、抖动等突兀的变化，提高视频目标检测的速度，并对检测结果进行加权平滑，增加帧间检测框的稳定性。

Description

一种提高实时视频目标检测性能的方法

技术领域

本发明涉及视频处理算法领域，尤其涉及一种提高实时视频目标检测性能的方法。

背景技术

目前深度学习目标检测技术在静态图像上检测目标时有很高的精度和速度，在各行各业中得到大量应用。但当其应用于视频的连续检测时，会出现帧间检测不连续、检测框变化突兀、高精度和速度不能同时满足等问题，由于深度学习技术计算量大，极其耗费内存，当其应用于手机等边缘设备上时，以上问题更加明显。

由于视频连续帧之间存在大量的冗余信息，没必要每帧都做高精度检测，因此针对上述问题，在对视频检测的实际应用中通常采用先提取关键帧再做目标检测的方法，优化检测的速度与精度，常用的关键帧提取技术有间隔法，帧差法，光流估计等，间隔法主要是设置帧间隔，视频通常一秒包含30帧图像，如设置帧间隔5，则每隔5帧取一帧作为关键帧，其余帧作为非关键帧；间隔法非常简单，但其所获取的帧没有代表性，当视频没有运动发生时，其所获取的关键帧仍会有大量的冗余，帧差法常用的有二帧差法和三帧差法，其核心是将相邻帧的全局灰度计算差值，并将差值与预先设置的阈值进行比较，大于阈值则说明关键特征较多，将此帧作为关键帧；帧差法简单有效，但其基于全局差值容易忽略局部信息，且其阈值的设置需要根据图像内容改变，阈值的取值决定了关键帧获取的质量，光流法核心在于计算相邻帧像素的光流向量，但其计算量较大，也有稠密光流和稀疏光流之分。

因此，有必要提供一种提高实时视频目标检测性能的方法解决上述技术问题。

发明内容

本发明提供一种提高实时视频目标检测性能的方法，解决了视频目标检测计算开销大，精度与速度不能兼顾；现有视频关键帧提取技术需要先验知识，不能满足实时视频的关键帧提取的问题。

为解决上述技术问题，本发明提供的一种提高实时视频目标检测性能的方法，包括以下步骤：

S1：实时视频传输模块，调用手机摄像头进行视频流数据采集，经过压缩编解码后按照传输协议进行传输；

S2：关键帧判断模块，S21，当视频传输模块实时输入帧时，首先判断其是否为本次视频检测输入的第一帧，若是第一帧则直接判定为关键帧，然后输入目标检测模块进行检测，记录模块返回的检测结果，继续进行下一帧的输入；若非第一帧，则进行下一步；

S22，获取当前传入的帧记为fn帧，将上一次判断的关键帧记录为fn-1 帧，并获取fn-1帧的目标检测结果，其结果内容主要为n个[class，confidence， [x，y，w，h]]，即检测到n个目标的[类别，类别置信度，[中心点x坐标，中心点y坐标，检测框宽度，检测框高度]]，遍历fn-1帧的目标检测结果，提取每个检测框的检测信息，按照fn-1帧检测框位置，提取fn-1帧和fn帧检测框位置的图像信息，并将fn-1帧检测框与fn帧预置框图像信息一一对应；

S23，使用光流算法对fn-1帧检测框与fn帧预置框图像进行计算，得到图像的光流向量；

S24，对相邻帧提取相应位置的检测框并完成光流计算后，统计每个检测框内所有像素的光流向量总和，对所有区域的光流向量进行排序，找出最大的光流向量及其对应的检测框区域，分别记为max_flow和max_bbox；

S25，设定光流阈值，阈值取max_bbox检测框x，y长度的1/4，计算 max_flow的光流分量，Mx表示光流在x轴上的分量，My表示光流在y轴上的分量，并将分量值分别与阈值进行比较：当计算值大于阈值时，将当前帧判定为关键帧，输入目标检测模块进行检测；当计算值小于阈值时，将当前帧判定为非关键帧，沿用fn-1帧的目标检测结果；

S26，进行下一次输入判定，完成关键帧判断模块；

S3：目标检测模块，使用YOLOV5s目标检测模型进行训练优化，并将模型权重文件转换为tflite格式，在手机端进行部署检测；

S4：检测框稳定性优化模块，当实时视频输入连续帧时，相邻帧之间的像素由于光线亮度变化、编解码噪音等可能已经发生了改变，但我们视觉上分辨不出这些微观像素上的差别，看到的图片还是一模一样，由于目标检测是对图像像素卷积处理，最后回归出检测框，并有nms等后处理操作，这些造成了相邻帧间检测框抖动、变化突兀、不连续等问题的出现，具体为取fn-1帧的目标检测结果，简写为fn-1＝[cls，conf，[x，y，w，h]]，其中检测框信息为 fn-1_bbox＝[x，y，w，h]；取fn帧的目标检测结果，简写为fn＝[cls，conf，[x， y，w，h]]，其中检测框信息为fn_bbox＝[x，y，w，h]，由于帧间像素的变化，及目标检测针对单帧图像检测后做nms处理，导致两帧检测结果中fn-1_bbox 与fn_bbox的信息完全不相关，表现在图像上即为连续帧上检测框出现抖动、检测框不连续；

因此本方案加入检测框稳定性优化模块，使用指数移动加权平均算法，结合关键帧与非关键帧的检测框结果并进行处理，优化终端应用的稳定性。具体为获取fn-1帧的实际检测结果fn-1＝[cls，conf，[x，y，w，h]]，获取fn帧的实际目标检测结果fn＝[cls，conf，[x，y，w，h]]，对fn-1与fn检测结果中的 bbox信息[x，y，w，h]分别进行指数移动加权平均处理，指数加权移动平均就是通过当前的实际值和前一段时期(由权值约定平均了多少以前的数据)来进行平滑修改当前的值，来生成一个平稳的趋势曲线，具体公式如下：

其中是Vt时刻的移动平均预测值；θt为t时刻的真实值；β为权重，决定了平均的t值；1-β^t为偏差修正项，随着t的增大，β^t会逐渐接近于0， 1-β^t就会逐渐接近于1，解决估测初期不准确的问题；

经过以上步骤完成对实时视频目标检测的整个流程；

优选的，所述S22至S24的主要算法步骤为：

遍历fn-1帧的目标检测结果；

提取第i个检测框的检测信息，[class，confidence，[x，y，w，h]]；

按照第i个检测框的位置信息[x，y，w，h]，提取fn-1帧和fn帧图像中相应坐标的像素，标记为区域图像In-1和区域图像In；

对区域In-1和区域In计算稠密光流，得到结果记为M(x，y，n)，表示第n帧(x，y)处的像素光流向量；

统计区域内光流向量的总和，记为Mi，表示第i个区域的光流向量；

遍历完所有检测框，统计光流向量，找出最大的光流向量及其对应的区域，其值记为max_flow，区域记为max_bbox。

优选的，所述S3至S4的主要算法步骤为：

获取fn-1帧的实际目标检测信息，记为列表fn-1；

获取关键帧判断模块中计算的fn-1->fn的区域光流向量；

获取fn帧的实际目标检测信息，记为列表fn；

遍历列表fn-1：

提取第i个检测框的检测信息，记为fn-1_i＝[class，confidence，[x，y，w， h]]；

提取第i个区域的光流向量，记为向量M；

将第i个检测框的位置和光流向量M作为先验信息，使用卡尔曼滤波对提取的检测框进行预测更新，记为fn_i_预测；

以fn_i_预测中心点[x，y]，半径M，设置搜索区域；

遍历fn帧的实际目标检测信息：

当检测框中心点[x，y]落入步骤iv的搜索区域，且与fn_i_预测框的IOU 值最大时，将此时的实际检测信息记为fn_i_实际；

使用指数移动加权平均对fn-1_i和fn_i_实际的检测框[x，y，w，h]分别加权，输出fn_i_平均；本方案中β权值取0.7，代表平均3次检测结果的数据，将[x，y，w，h]分别代入上述公式，求得加权平均后的结果，即

完成预测与更新，输出加权平滑后的结果。

与相关技术相比较，本发明提供的提高实时视频目标检测性能的方法具有如下有益效果：

本发明提供一种提高实时视频目标检测性能的方法，实时视频传输模块主要负责手机端实时视频的推流与拉流，将流数据输入关键帧判断模块，键帧判断模块负责从实时传输的视频帧中提取出关键帧，输入目标检测模块进行检测，非关键帧不做检测，从而提高目标检测模型对实时视频的处理性能，目标检测模块负责使用神经网络对图片进行卷积识别出图片上各目标的类别，并检测出其具体位置，然后将检测结果输入检测框稳定性优化模块，检测框稳定性优化模块负责统计前一帧和当前帧的检测结果，并对其检测框的位置进行优化，防止检测框出现不连续、抖动等突兀的变化，提高视频目标检测的速度，并对检测结果进行加权平滑，增加帧间检测框的稳定性。

附图说明

图1为本发明提供的提高实时视频目标检测性能的方法的流程示意图；

图2为本发明提供的提高实时视频目标检测性能的方法的模块示意图。

具体实施方式

下面结合附图和实施方式对本发明作进一步说明。

请结合参阅图1、图2，其中，图1为本发明提供的提高实时视频目标检测性能的方法的流程示意图；图2为本发明提供的提高实时视频目标检测性能的方法的模块示意图。一种提高实时视频目标检测性能的方法，包括以下步骤：。

S1：实时视频传输模块，调用手机摄像头进行视频流数据采集，经过压缩编解码后按照传输协议进行传输；实时视频传输模块主要负责手机端实时视频的推流与拉流，将流数据输入关键帧判断模块，

S2：关键帧判断模块，键帧判断模块负责从实时传输的视频帧中提取出关键帧，输入目标检测模块进行检测，非关键帧不做检测，从而提高目标检测模型对实时视频的处理性能，S21，当视频传输模块实时输入帧时，首先判断其是否为本次视频检测输入的第一帧，若是第一帧则直接判定为关键帧，然后输入目标检测模块进行检测，记录模块返回的检测结果，继续进行下一帧的输入；若非第一帧，则进行下一步；

S22，获取当前传入的帧记为fn帧，将上一次判断的关键帧记录为fn-1 帧，并获取fn-1帧的目标检测结果，其结果内容主要为n个[class，confidence， [x，y，w，h]]，即检测到n个目标的[类别，类别置信度，[中心点x坐标，中心点y坐标，检测框宽度，检测框高度]]。遍历fn-1帧的目标检测结果，提取每个检测框的检测信息，按照fn-1帧检测框位置，提取fn-1帧和fn帧检测框位置的图像信息，并将fn-1帧检测框与fn帧预置框图像信息一一对应；

S23，使用光流算法对fn-1帧检测框与fn帧预置框图像进行计算，得到图像的光流向量。光流法是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的一种方法。

比如在第n-1帧上A点的位置是(x1，y1)，在第n帧上A点假如它的位置是(x2，y2)，则x2＝x1+ux，y2＝y1+vy，即In-1(x1，y1)＝In(x2，y2)＝In-1(x1+ux， x1+vy)，那么In-1->In的光流即为:(ux，vy)，其中u，v指在x，y轴上的速度分量，ux，vy指在x，y轴上的偏移量。所以给定一对图片(fn-1->fn)，就可以计算出这对图片之间的光流图，大小和两帧的图片相同。光流算法可分为稀疏光流和稠密光流，稀疏光流算法首先提取图像中的特征点，然后计算两张图像中特征点的光流向量，计算量小但不太准确；稠密光流算法直接计算图像中每个像素点的光流向量，计算量大但准确性高，本方案主要检测视频中的目标信息，对于其余信息并不关注，因此对于整张图像光流估计，会引入不相干信息的干扰，且计算量大。对于实时视频帧，注意力应集中在相邻帧中是目标且发生运动的部分，因此本方案只对目标检测到的结果进行稠密光流计算，避免其余信息的干扰，减少计算量的同时提高准确性。

S24，对相邻帧提取相应位置的检测框并完成光流计算后，统计每个检测框内所有像素的光流向量总和。对所有区域的光流向量进行排序，找出最大的光流向量及其对应的检测框区域，分别记为max_flow和max_bbox；

S25，设定光流阈值，阈值取max_bbox检测框x，y长度的1/4。计算 max_flow的光流分量，Mx表示光流在x轴上的分量，My表示光流在y轴上的分量，并将分量值分别与阈值进行比较：当计算值大于阈值时，将当前帧判定为关键帧，输入目标检测模块进行检测；当计算值小于阈值时，将当前帧判定为非关键帧，沿用fn-1帧的目标检测结果。

S26，进行下一次输入判定，完成关键帧判断模块；

S3：目标检测模块，使用YOLOV5s目标检测模型进行训练优化，并将模型权重文件转换为tflite格式，在手机端进行部署检测；目标检测模块负责使用神经网络对图片进行卷积识别出图片上各目标的类别，并检测出其具体位置，然后将检测结果输入检测框稳定性优化模块

S4：检测框稳定性优化模块，检测框稳定性优化模块负责统计前一帧和当前帧的检测结果，并对其检测框的位置进行优化，防止检测框出现不连续、抖动等突兀的变化，当实时视频输入连续帧时，相邻帧之间的像素由于光线亮度变化、编解码噪音等可能已经发生了改变，但我们视觉上分辨不出这些微观像素上的差别，看到的图片还是一模一样。由于目标检测是对图像像素卷积处理，最后回归出检测框，并有nms等后处理操作，这些造成了相邻帧间检测框抖动、变化突兀、不连续等问题的出现。具体为取fn-1帧的目标检测结果，简写为fn-1＝[cls，conf，[x，y，w，h]]，其中检测框信息为fn-1_bbox＝[x，y，w， h]；取fn帧的目标检测结果，简写为fn＝[cls，conf，[x，y，w，h]]，其中检测框信息为fn_bbox＝[x，y，w，h]。由于帧间像素的变化，及目标检测针对单帧图像检测后做nms处理，导致两帧检测结果中fn-1_bbox与fn_bbox的信息完全不相关，表现在图像上即为连续帧上检测框出现抖动、检测框不连续。

因此本方案加入检测框稳定性优化模块，使用指数移动加权平均算法，结合关键帧与非关键帧的检测框结果并进行处理，优化终端应用的稳定性。具体为获取fn-1帧的实际检测结果fn-1＝[cls，conf，[x，y，w，h]]，获取fn帧的实际目标检测结果fn＝[cls，conf，[x，y，w，h]]，对fn-1与fn检测结果中的 bbox信息[x，y，w，h]分别进行指数移动加权平均处理。指数加权移动平均就是通过当前的实际值和前一段时期(由权值约定平均了多少以前的数据)来进行平滑修改当前的值，来生成一个平稳的趋势曲线。具体公式如下：

其中是Vt时刻的移动平均预测值；θt为t时刻的真实值；β为权重，决定了平均的t值；1-β^t为偏差修正项，随着t的增大，β^t会逐渐接近于0，1-β^t就会逐渐接近于1，解决估测初期不准确的问题；

经过以上步骤完成对实时视频目标检测的整个流程；

所述S22至S24的主要算法步骤为：

遍历fn-1帧的目标检测结果；

所述S3至S4的主要算法步骤为：

获取fn-1帧的实际目标检测信息，记为列表fn-1；

获取关键帧判断模块中计算的fn-1->fn的区域光流向量；

获取fn帧的实际目标检测信息，记为列表fn；

遍历列表fn-1：

提取第i个区域的光流向量，记为向量M；

以fn_i_预测中心点[x，y]，半径M，设置搜索区域；

遍历fn帧的实际目标检测信息：

完成预测与更新，输出加权平滑后的结果。

业务逻辑：使用实时视频传输模块，调用手机摄像头获取视频流，压缩编解码后进行流数据传输；使用关键帧判断模块对输入数据进行判断，提取出实时流数据的关键帧；使用目标检测模型对数据进行卷积处理，检测出目标的类别与位置；使用检测框稳定性优化模块对目标检测结果进行优化；使用实时视频传输模块返回数据，在用户端进行展示；

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种提高实时视频目标检测性能的方法，其特征在于，包括以下步骤：

S22，获取当前传入的帧记为fn帧，将上一次判断的关键帧记录为fn-1帧，并获取fn-1帧的目标检测结果，其结果内容主要为n个[class，confidence，[x，y，w，h]]，即检测到n个目标的[类别，类别置信度，[中心点x坐标，中心点y坐标，检测框宽度，检测框高度]]，遍历fn-1帧的目标检测结果，提取每个检测框的检测信息，按照fn-1帧检测框位置，提取fn-1帧和fn帧检测框位置的图像信息，并将fn-1帧检测框与fn帧预置框图像信息一一对应；

S25，设定光流阈值，阈值取max_bbox检测框x，y长度的1/4，计算max_flow的光流分量，Mx表示光流在x轴上的分量，My表示光流在y轴上的分量，并将分量值分别与阈值进行比较：当计算值大于阈值时，将当前帧判定为关键帧，输入目标检测模块进行检测；当计算值小于阈值时，将当前帧判定为非关键帧，沿用fn-1帧的目标检测结果；

S26，进行下一次输入判定，完成关键帧判断模块；

S4：检测框稳定性优化模块，当实时视频输入连续帧时，相邻帧之间的像素由于光线亮度变化、编解码噪音等可能已经发生了改变，但我们视觉上分辨不出这些微观像素上的差别，看到的图片还是一模一样，由于目标检测是对图像像素卷积处理，最后回归出检测框，并有nms等后处理操作，这些造成了相邻帧间检测框抖动、变化突兀、不连续等问题的出现，具体为取fn-1帧的目标检测结果，简写为fn-1＝[cls，conf，[x，y，w，h]]，其中检测框信息为fn-1_bbox＝[x，y，w，h]；取fn帧的目标检测结果，简写为fn＝[cls，conf，[x，y，w，h]]，其中检测框信息为fn_bbox＝[x，y，w，h]，由于帧间像素的变化，及目标检测针对单帧图像检测后做nms处理，导致两帧检测结果中fn-1_bbox与fn_bbox的信息完全不相关，表现在图像上即为连续帧上检测框出现抖动、检测框不连续；

因此本方案加入检测框稳定性优化模块，使用指数移动加权平均算法，结合关键帧与非关键帧的检测框结果并进行处理，优化终端应用的稳定性。具体为获取fn-1帧的实际检测结果fn-1＝[cls，conf，[x，y，w，h]]，获取fn帧的实际目标检测结果fn＝[cls，conf，[x，y，w，h]]，对fn-1与fn检测结果中的bbox信息[x，y，w，h]分别进行指数移动加权平均处理，指数加权移动平均就是通过当前的实际值和前一段时期(由权值约定平均了多少以前的数据)来进行平滑修改当前的值，来生成一个平稳的趋势曲线，具体公式如下：

经过以上步骤完成对实时视频目标检测的整个流程。

2.根据权利要求1所述的提高实时视频目标检测性能的方法，其特征在于，所述S22至S24的主要算法步骤为：

遍历fn-1帧的目标检测结果；

3.根据权利要求1所述的提高实时视频目标检测性能的方法，其特征在于，所述S3至S4的主要算法步骤为：

获取fn-1帧的实际目标检测信息，记为列表fn-1；

获取关键帧判断模块中计算的fn-1->fn的区域光流向量；

获取fn帧的实际目标检测信息，记为列表fn；

遍历列表fn-1：

提取第i个检测框的检测信息，记为fn-1_i＝[class，confidence，[x，y，w，h]]；

提取第i个区域的光流向量，记为向量M；

以fn_i_预测中心点[x，y]，半径M，设置搜索区域；

遍历fn帧的实际目标检测信息：

当检测框中心点[x，y]落入步骤iv的搜索区域，且与fn_i_预测框的IOU值最大时，将此时的实际检测信息记为fn_i_实际；

完成预测与更新，输出加权平滑后的结果。