CN117095323A - 一种提高实时视频目标检测性能的方法 - Google Patents
一种提高实时视频目标检测性能的方法 Download PDFInfo
- Publication number
- CN117095323A CN117095323A CN202210515438.8A CN202210515438A CN117095323A CN 117095323 A CN117095323 A CN 117095323A CN 202210515438 A CN202210515438 A CN 202210515438A CN 117095323 A CN117095323 A CN 117095323A
- Authority
- CN
- China
- Prior art keywords
- frame
- detection
- optical flow
- frames
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 241
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000005540 biological transmission Effects 0.000 claims abstract description 14
- 230000006835 compression Effects 0.000 claims abstract description 4
- 238000007906 compression Methods 0.000 claims abstract description 4
- 230000003287 optical effect Effects 0.000 claims description 82
- 239000013598 vector Substances 0.000 claims description 48
- 238000012545 processing Methods 0.000 claims description 13
- 238000005457 optimization Methods 0.000 claims description 8
- 238000013459 approach Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000012805 post-processing Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种提高实时视频目标检测性能的方法。所述一种提高实时视频目标检测性能的方法,包括以下步骤:S1:实时视频传输模块,调用手机摄像头进行视频流数据采集,经过压缩编解码后按照传输协议进行传输。本发明提供的提高实时视频目标检测性能的方法,防止检测框出现不连续、抖动等突兀的变化,提高视频目标检测的速度,并对检测结果进行加权平滑,增加帧间检测框的稳定性。
Description
技术领域
本发明涉及视频处理算法领域,尤其涉及一种提高实时视频目标检测性能的方法。
背景技术
目前深度学习目标检测技术在静态图像上检测目标时有很高的精度和速度,在各行各业中得到大量应用。但当其应用于视频的连续检测时,会出现帧间检测不连续、检测框变化突兀、高精度和速度不能同时满足等问题,由于深度学习技术计算量大,极其耗费内存,当其应用于手机等边缘设备上时,以上问题更加明显。
由于视频连续帧之间存在大量的冗余信息,没必要每帧都做高精度检测,因此针对上述问题,在对视频检测的实际应用中通常采用先提取关键帧再做目标检测的方法,优化检测的速度与精度,常用的关键帧提取技术有间隔法,帧差法,光流估计等,间隔法主要是设置帧间隔,视频通常一秒包含30帧图像,如设置帧间隔5,则每隔5帧取一帧作为关键帧,其余帧作为非关键帧;间隔法非常简单,但其所获取的帧没有代表性,当视频没有运动发生时,其所获取的关键帧仍会有大量的冗余,帧差法常用的有二帧差法和三帧差法,其核心是将相邻帧的全局灰度计算差值,并将差值与预先设置的阈值进行比较,大于阈值则说明关键特征较多,将此帧作为关键帧;帧差法简单有效,但其基于全局差值容易忽略局部信息,且其阈值的设置需要根据图像内容改变,阈值的取值决定了关键帧获取的质量,光流法核心在于计算相邻帧像素的光流向量,但其计算量较大,也有稠密光流和稀疏光流之分。
因此,有必要提供一种提高实时视频目标检测性能的方法解决上述技术问题。
发明内容
本发明提供一种提高实时视频目标检测性能的方法,解决了视频目标检测计算开销大,精度与速度不能兼顾;现有视频关键帧提取技术需要先验知识,不能满足实时视频的关键帧提取的问题。
为解决上述技术问题,本发明提供的一种提高实时视频目标检测性能的方法,包括以下步骤:
S1:实时视频传输模块,调用手机摄像头进行视频流数据采集,经过压缩编解码后按照传输协议进行传输;
S2:关键帧判断模块,S21,当视频传输模块实时输入帧时,首先判断其是否为本次视频检测输入的第一帧,若是第一帧则直接判定为关键帧,然后输入目标检测模块进行检测,记录模块返回的检测结果,继续进行下一帧的输入;若非第一帧,则进行下一步;
S22,获取当前传入的帧记为fn帧,将上一次判断的关键帧记录为fn-1 帧,并获取fn-1帧的目标检测结果,其结果内容主要为n个[class,confidence, [x,y,w,h]],即检测到n个目标的[类别,类别置信度,[中心点x坐标,中心点y坐标,检测框宽度,检测框高度]],遍历fn-1帧的目标检测结果,提取每个检测框的检测信息,按照fn-1帧检测框位置,提取fn-1帧和fn帧检测框位置的图像信息,并将fn-1帧检测框与fn帧预置框图像信息一一对应;
S23,使用光流算法对fn-1帧检测框与fn帧预置框图像进行计算,得到图像的光流向量;
S24,对相邻帧提取相应位置的检测框并完成光流计算后,统计每个检测框内所有像素的光流向量总和,对所有区域的光流向量进行排序,找出最大的光流向量及其对应的检测框区域,分别记为max_flow和max_bbox;
S25,设定光流阈值,阈值取max_bbox检测框x,y长度的1/4,计算 max_flow的光流分量,Mx表示光流在x轴上的分量,My表示光流在y轴上的分量,并将分量值分别与阈值进行比较:当计算值大于阈值时,将当前帧判定为关键帧,输入目标检测模块进行检测;当计算值小于阈值时,将当前帧判定为非关键帧,沿用fn-1帧的目标检测结果;
S26,进行下一次输入判定,完成关键帧判断模块;
S3:目标检测模块,使用YOLOV5s目标检测模型进行训练优化,并将模型权重文件转换为tflite格式,在手机端进行部署检测;
S4:检测框稳定性优化模块,当实时视频输入连续帧时,相邻帧之间的像素由于光线亮度变化、编解码噪音等可能已经发生了改变,但我们视觉上分辨不出这些微观像素上的差别,看到的图片还是一模一样,由于目标检测是对图像像素卷积处理,最后回归出检测框,并有nms等后处理操作,这些造成了相邻帧间检测框抖动、变化突兀、不连续等问题的出现,具体为取fn-1帧的目标检测结果,简写为fn-1=[cls,conf,[x,y,w,h]],其中检测框信息为 fn-1_bbox=[x,y,w,h];取fn帧的目标检测结果,简写为fn=[cls,conf,[x, y,w,h]],其中检测框信息为fn_bbox=[x,y,w,h],由于帧间像素的变化,及目标检测针对单帧图像检测后做nms处理,导致两帧检测结果中fn-1_bbox 与fn_bbox的信息完全不相关,表现在图像上即为连续帧上检测框出现抖动、检测框不连续;
因此本方案加入检测框稳定性优化模块,使用指数移动加权平均算法,结合关键帧与非关键帧的检测框结果并进行处理,优化终端应用的稳定性。具体为获取fn-1帧的实际检测结果fn-1=[cls,conf,[x,y,w,h]],获取fn帧的实际目标检测结果fn=[cls,conf,[x,y,w,h]],对fn-1与fn检测结果中的 bbox信息[x,y,w,h]分别进行指数移动加权平均处理,指数加权移动平均就是通过当前的实际值和前一段时期(由权值约定平均了多少以前的数据)来进行平滑修改当前的值,来生成一个平稳的趋势曲线,具体公式如下:
其中是Vt时刻的移动平均预测值;θt为t时刻的真实值;β为权重,决定了平均的t值;1-β^t为偏差修正项,随着t的增大,β^t会逐渐接近于0, 1-β^t就会逐渐接近于1,解决估测初期不准确的问题;
经过以上步骤完成对实时视频目标检测的整个流程;
优选的,所述S22至S24的主要算法步骤为:
遍历fn-1帧的目标检测结果;
提取第i个检测框的检测信息,[class,confidence,[x,y,w,h]];
按照第i个检测框的位置信息[x,y,w,h],提取fn-1帧和fn帧图像中相应坐标的像素,标记为区域图像In-1和区域图像In;
对区域In-1和区域In计算稠密光流,得到结果记为M(x,y,n),表示第n帧(x,y)处的像素光流向量;
统计区域内光流向量的总和,记为Mi,表示第i个区域的光流向量;
遍历完所有检测框,统计光流向量,找出最大的光流向量及其对应的区域,其值记为max_flow,区域记为max_bbox。
优选的,所述S3至S4的主要算法步骤为:
获取fn-1帧的实际目标检测信息,记为列表fn-1;
获取关键帧判断模块中计算的fn-1->fn的区域光流向量;
获取fn帧的实际目标检测信息,记为列表fn;
遍历列表fn-1:
提取第i个检测框的检测信息,记为fn-1_i=[class,confidence,[x,y,w, h]];
提取第i个区域的光流向量,记为向量M;
将第i个检测框的位置和光流向量M作为先验信息,使用卡尔曼滤波对提取的检测框进行预测更新,记为fn_i_预测;
以fn_i_预测中心点[x,y],半径M,设置搜索区域;
遍历fn帧的实际目标检测信息:
当检测框中心点[x,y]落入步骤iv的搜索区域,且与fn_i_预测框的IOU 值最大时,将此时的实际检测信息记为fn_i_实际;
使用指数移动加权平均对fn-1_i和fn_i_实际的检测框[x,y,w,h]分别加权,输出fn_i_平均;本方案中β权值取0.7,代表平均3次检测结果的数据,将[x,y,w,h]分别代入上述公式,求得加权平均后的结果,即
完成预测与更新,输出加权平滑后的结果。
与相关技术相比较,本发明提供的提高实时视频目标检测性能的方法具有如下有益效果:
本发明提供一种提高实时视频目标检测性能的方法,实时视频传输模块主要负责手机端实时视频的推流与拉流,将流数据输入关键帧判断模块,键帧判断模块负责从实时传输的视频帧中提取出关键帧,输入目标检测模块进行检测,非关键帧不做检测,从而提高目标检测模型对实时视频的处理性能,目标检测模块负责使用神经网络对图片进行卷积识别出图片上各目标的类别,并检测出其具体位置,然后将检测结果输入检测框稳定性优化模块,检测框稳定性优化模块负责统计前一帧和当前帧的检测结果,并对其检测框的位置进行优化,防止检测框出现不连续、抖动等突兀的变化,提高视频目标检测的速度,并对检测结果进行加权平滑,增加帧间检测框的稳定性。
附图说明
图1为本发明提供的提高实时视频目标检测性能的方法的流程示意图;
图2为本发明提供的提高实时视频目标检测性能的方法的模块示意图。
具体实施方式
下面结合附图和实施方式对本发明作进一步说明。
请结合参阅图1、图2,其中,图1为本发明提供的提高实时视频目标检测性能的方法的流程示意图;图2为本发明提供的提高实时视频目标检测性能的方法的模块示意图。一种提高实时视频目标检测性能的方法,包括以下步骤:。
S1:实时视频传输模块,调用手机摄像头进行视频流数据采集,经过压缩编解码后按照传输协议进行传输;实时视频传输模块主要负责手机端实时视频的推流与拉流,将流数据输入关键帧判断模块,
S2:关键帧判断模块,键帧判断模块负责从实时传输的视频帧中提取出关键帧,输入目标检测模块进行检测,非关键帧不做检测,从而提高目标检测模型对实时视频的处理性能,S21,当视频传输模块实时输入帧时,首先判断其是否为本次视频检测输入的第一帧,若是第一帧则直接判定为关键帧,然后输入目标检测模块进行检测,记录模块返回的检测结果,继续进行下一帧的输入;若非第一帧,则进行下一步;
S22,获取当前传入的帧记为fn帧,将上一次判断的关键帧记录为fn-1 帧,并获取fn-1帧的目标检测结果,其结果内容主要为n个[class,confidence, [x,y,w,h]],即检测到n个目标的[类别,类别置信度,[中心点x坐标,中心点y坐标,检测框宽度,检测框高度]]。遍历fn-1帧的目标检测结果,提取每个检测框的检测信息,按照fn-1帧检测框位置,提取fn-1帧和fn帧检测框位置的图像信息,并将fn-1帧检测框与fn帧预置框图像信息一一对应;
S23,使用光流算法对fn-1帧检测框与fn帧预置框图像进行计算,得到图像的光流向量。光流法是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。
比如在第n-1帧上A点的位置是(x1,y1),在第n帧上A点假如它的位置 是(x2,y2),则x2=x1+ux,y2=y1+vy,即In-1(x1,y1)=In(x2,y2)=In-1(x1+ux, x1+vy),那么In-1->In的光流即为:(ux,vy),其中u,v指在x,y轴上的速度 分量,ux,vy指在x,y轴上的偏移量。所以给定一对图片(fn-1->fn),就可以 计算出这对图片之间的光流图,大小和两帧的图片相同。光流算法可分为稀疏 光流和稠密光流,稀疏光流算法首先提取图像中的特征点,然后计算两张图像 中特征点的光流向量,计算量小但不太准确;稠密光流算法直接计算图像中每 个像素点的光流向量,计算量大但准确性高,本方案主要检测视频中的目标信 息,对于其余信息并不关注,因此对于整张图像光流估计,会引入不相干信息 的干扰,且计算量大。对于实时视频帧,注意力应集中在相邻帧中是目标且发 生运动的部分,因此本方案只对目标检测到的结果进行稠密光流计算,避免其 余信息的干扰,减少计算量的同时提高准确性。
S24,对相邻帧提取相应位置的检测框并完成光流计算后,统计每个检测框内所有像素的光流向量总和。对所有区域的光流向量进行排序,找出最大的光流向量及其对应的检测框区域,分别记为max_flow和max_bbox;
S25,设定光流阈值,阈值取max_bbox检测框x,y长度的1/4。计算 max_flow的光流分量,Mx表示光流在x轴上的分量,My表示光流在y轴上的分量,并将分量值分别与阈值进行比较:当计算值大于阈值时,将当前帧判定为关键帧,输入目标检测模块进行检测;当计算值小于阈值时,将当前帧判定为非关键帧,沿用fn-1帧的目标检测结果。
S26,进行下一次输入判定,完成关键帧判断模块;
S3:目标检测模块,使用YOLOV5s目标检测模型进行训练优化,并将模型权重文件转换为tflite格式,在手机端进行部署检测;目标检测模块负责使用神经网络对图片进行卷积识别出图片上各目标的类别,并检测出其具体位置,然后将检测结果输入检测框稳定性优化模块
S4:检测框稳定性优化模块,检测框稳定性优化模块负责统计前一帧和当前帧的检测结果,并对其检测框的位置进行优化,防止检测框出现不连续、抖动等突兀的变化,当实时视频输入连续帧时,相邻帧之间的像素由于光线亮度变化、编解码噪音等可能已经发生了改变,但我们视觉上分辨不出这些微观像素上的差别,看到的图片还是一模一样。由于目标检测是对图像像素卷积处理,最后回归出检测框,并有nms等后处理操作,这些造成了相邻帧间检测框抖动、变化突兀、不连续等问题的出现。具体为取fn-1帧的目标检测结果,简写为fn-1=[cls,conf,[x,y,w,h]],其中检测框信息为fn-1_bbox=[x,y,w, h];取fn帧的目标检测结果,简写为fn=[cls,conf,[x,y,w,h]],其中检测框信息为fn_bbox=[x,y,w,h]。由于帧间像素的变化,及目标检测针对单帧图像检测后做nms处理,导致两帧检测结果中fn-1_bbox与fn_bbox的信息完全不相关,表现在图像上即为连续帧上检测框出现抖动、检测框不连续。
因此本方案加入检测框稳定性优化模块,使用指数移动加权平均算法,结合关键帧与非关键帧的检测框结果并进行处理,优化终端应用的稳定性。具体为获取fn-1帧的实际检测结果fn-1=[cls,conf,[x,y,w,h]],获取fn帧的实际目标检测结果fn=[cls,conf,[x,y,w,h]],对fn-1与fn检测结果中的 bbox信息[x,y,w,h]分别进行指数移动加权平均处理。指数加权移动平均就是通过当前的实际值和前一段时期(由权值约定平均了多少以前的数据)来进行平滑修改当前的值,来生成一个平稳的趋势曲线。具体公式如下:
其中是Vt时刻的移动平均预测值;θt为t时刻的真实值;β为权重,决定了平均的t值;1-β^t为偏差修正项,随着t的增大,β^t会逐渐接近于0,1-β^t就会逐渐接近于1,解决估测初期不准确的问题;
经过以上步骤完成对实时视频目标检测的整个流程;
所述S22至S24的主要算法步骤为:
遍历fn-1帧的目标检测结果;
提取第i个检测框的检测信息,[class,confidence,[x,y,w,h]];
按照第i个检测框的位置信息[x,y,w,h],提取fn-1帧和fn帧图像中相应坐标的像素,标记为区域图像In-1和区域图像In;
对区域In-1和区域In计算稠密光流,得到结果记为M(x,y,n),表示第n帧(x,y)处的像素光流向量;
统计区域内光流向量的总和,记为Mi,表示第i个区域的光流向量;
遍历完所有检测框,统计光流向量,找出最大的光流向量及其对应的区域,其值记为max_flow,区域记为max_bbox。
所述S3至S4的主要算法步骤为:
获取fn-1帧的实际目标检测信息,记为列表fn-1;
获取关键帧判断模块中计算的fn-1->fn的区域光流向量;
获取fn帧的实际目标检测信息,记为列表fn;
遍历列表fn-1:
提取第i个检测框的检测信息,记为fn-1_i=[class,confidence,[x,y,w, h]];
提取第i个区域的光流向量,记为向量M;
将第i个检测框的位置和光流向量M作为先验信息,使用卡尔曼滤波对提取的检测框进行预测更新,记为fn_i_预测;
以fn_i_预测中心点[x,y],半径M,设置搜索区域;
遍历fn帧的实际目标检测信息:
当检测框中心点[x,y]落入步骤iv的搜索区域,且与fn_i_预测框的IOU 值最大时,将此时的实际检测信息记为fn_i_实际;
使用指数移动加权平均对fn-1_i和fn_i_实际的检测框[x,y,w,h]分别加权,输出fn_i_平均;本方案中β权值取0.7,代表平均3次检测结果的数据,将[x,y,w,h]分别代入上述公式,求得加权平均后的结果,即
完成预测与更新,输出加权平滑后的结果。
业务逻辑:使用实时视频传输模块,调用手机摄像头获取视频流,压缩编解码后进行流数据传输;使用关键帧判断模块对输入数据进行判断,提取出实时流数据的关键帧;使用目标检测模型对数据进行卷积处理,检测出目标的类别与位置;使用检测框稳定性优化模块对目标检测结果进行优化;使用实时视频传输模块返回数据,在用户端进行展示;
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利 用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运 用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (3)
1.一种提高实时视频目标检测性能的方法,其特征在于,包括以下步骤:
S1:实时视频传输模块,调用手机摄像头进行视频流数据采集,经过压缩编解码后按照传输协议进行传输;
S2:关键帧判断模块,S21,当视频传输模块实时输入帧时,首先判断其是否为本次视频检测输入的第一帧,若是第一帧则直接判定为关键帧,然后输入目标检测模块进行检测,记录模块返回的检测结果,继续进行下一帧的输入;若非第一帧,则进行下一步;
S22,获取当前传入的帧记为fn帧,将上一次判断的关键帧记录为fn-1帧,并获取fn-1帧的目标检测结果,其结果内容主要为n个[class,confidence,[x,y,w,h]],即检测到n个目标的[类别,类别置信度,[中心点x坐标,中心点y坐标,检测框宽度,检测框高度]],遍历fn-1帧的目标检测结果,提取每个检测框的检测信息,按照fn-1帧检测框位置,提取fn-1帧和fn帧检测框位置的图像信息,并将fn-1帧检测框与fn帧预置框图像信息一一对应;
S23,使用光流算法对fn-1帧检测框与fn帧预置框图像进行计算,得到图像的光流向量;
S24,对相邻帧提取相应位置的检测框并完成光流计算后,统计每个检测框内所有像素的光流向量总和,对所有区域的光流向量进行排序,找出最大的光流向量及其对应的检测框区域,分别记为max_flow和max_bbox;
S25,设定光流阈值,阈值取max_bbox检测框x,y长度的1/4,计算max_flow的光流分量,Mx表示光流在x轴上的分量,My表示光流在y轴上的分量,并将分量值分别与阈值进行比较:当计算值大于阈值时,将当前帧判定为关键帧,输入目标检测模块进行检测;当计算值小于阈值时,将当前帧判定为非关键帧,沿用fn-1帧的目标检测结果;
S26,进行下一次输入判定,完成关键帧判断模块;
S3:目标检测模块,使用YOLOV5s目标检测模型进行训练优化,并将模型权重文件转换为tflite格式,在手机端进行部署检测;
S4:检测框稳定性优化模块,当实时视频输入连续帧时,相邻帧之间的像素由于光线亮度变化、编解码噪音等可能已经发生了改变,但我们视觉上分辨不出这些微观像素上的差别,看到的图片还是一模一样,由于目标检测是对图像像素卷积处理,最后回归出检测框,并有nms等后处理操作,这些造成了相邻帧间检测框抖动、变化突兀、不连续等问题的出现,具体为取fn-1帧的目标检测结果,简写为fn-1=[cls,conf,[x,y,w,h]],其中检测框信息为fn-1_bbox=[x,y,w,h];取fn帧的目标检测结果,简写为fn=[cls,conf,[x,y,w,h]],其中检测框信息为fn_bbox=[x,y,w,h],由于帧间像素的变化,及目标检测针对单帧图像检测后做nms处理,导致两帧检测结果中fn-1_bbox与fn_bbox的信息完全不相关,表现在图像上即为连续帧上检测框出现抖动、检测框不连续;
因此本方案加入检测框稳定性优化模块,使用指数移动加权平均算法,结合关键帧与非关键帧的检测框结果并进行处理,优化终端应用的稳定性。具体为获取fn-1帧的实际检测结果fn-1=[cls,conf,[x,y,w,h]],获取fn帧的实际目标检测结果fn=[cls,conf,[x,y,w,h]],对fn-1与fn检测结果中的bbox信息[x,y,w,h]分别进行指数移动加权平均处理,指数加权移动平均就是通过当前的实际值和前一段时期(由权值约定平均了多少以前的数据)来进行平滑修改当前的值,来生成一个平稳的趋势曲线,具体公式如下:
其中是Vt时刻的移动平均预测值;θt为t时刻的真实值;β为权重,决定了平均的t值;1-β^t为偏差修正项,随着t的增大,β^t会逐渐接近于0,1-β^t就会逐渐接近于1,解决估测初期不准确的问题;
经过以上步骤完成对实时视频目标检测的整个流程。
2.根据权利要求1所述的提高实时视频目标检测性能的方法,其特征在于,所述S22至S24的主要算法步骤为:
遍历fn-1帧的目标检测结果;
提取第i个检测框的检测信息,[class,confidence,[x,y,w,h]];
按照第i个检测框的位置信息[x,y,w,h],提取fn-1帧和fn帧图像中相应坐标的像素,标记为区域图像In-1和区域图像In;
对区域In-1和区域In计算稠密光流,得到结果记为M(x,y,n),表示第n帧(x,y)处的像素光流向量;
统计区域内光流向量的总和,记为Mi,表示第i个区域的光流向量;
遍历完所有检测框,统计光流向量,找出最大的光流向量及其对应的区域,其值记为max_flow,区域记为max_bbox。
3.根据权利要求1所述的提高实时视频目标检测性能的方法,其特征在于,所述S3至S4的主要算法步骤为:
获取fn-1帧的实际目标检测信息,记为列表fn-1;
获取关键帧判断模块中计算的fn-1->fn的区域光流向量;
获取fn帧的实际目标检测信息,记为列表fn;
遍历列表fn-1:
提取第i个检测框的检测信息,记为fn-1_i=[class,confidence,[x,y,w,h]];
提取第i个区域的光流向量,记为向量M;
将第i个检测框的位置和光流向量M作为先验信息,使用卡尔曼滤波对提取的检测框进行预测更新,记为fn_i_预测;
以fn_i_预测中心点[x,y],半径M,设置搜索区域;
遍历fn帧的实际目标检测信息:
当检测框中心点[x,y]落入步骤iv的搜索区域,且与fn_i_预测框的IOU值最大时,将此时的实际检测信息记为fn_i_实际;
使用指数移动加权平均对fn-1_i和fn_i_实际的检测框[x,y,w,h]分别加权,输出fn_i_平均;本方案中β权值取0.7,代表平均3次检测结果的数据,将[x,y,w,h]分别代入上述公式,求得加权平均后的结果,即
完成预测与更新,输出加权平滑后的结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210515438.8A CN117095323A (zh) | 2022-05-11 | 2022-05-11 | 一种提高实时视频目标检测性能的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210515438.8A CN117095323A (zh) | 2022-05-11 | 2022-05-11 | 一种提高实时视频目标检测性能的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117095323A true CN117095323A (zh) | 2023-11-21 |
Family
ID=88775994
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210515438.8A Pending CN117095323A (zh) | 2022-05-11 | 2022-05-11 | 一种提高实时视频目标检测性能的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117095323A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117671801A (zh) * | 2024-02-02 | 2024-03-08 | 中科方寸知微(南京)科技有限公司 | 基于二分缩减的实时目标检测方法及系统 |
-
2022
- 2022-05-11 CN CN202210515438.8A patent/CN117095323A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117671801A (zh) * | 2024-02-02 | 2024-03-08 | 中科方寸知微(南京)科技有限公司 | 基于二分缩减的实时目标检测方法及系统 |
CN117671801B (zh) * | 2024-02-02 | 2024-04-23 | 中科方寸知微(南京)科技有限公司 | 基于二分缩减的实时目标检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109522854B (zh) | 一种基于深度学习和多目标跟踪的行人流量统计方法 | |
CN102665041B (zh) | 处理视频数据的方法、图像处理电路及照相机 | |
US9852511B2 (en) | Systems and methods for tracking and detecting a target object | |
KR100492127B1 (ko) | 적응형 움직임 추정장치 및 추정 방법 | |
CN113286194A (zh) | 视频处理方法、装置、电子设备及可读存储介质 | |
CN111462185A (zh) | 跟踪器辅助的图像捕获 | |
CN110796010A (zh) | 一种结合光流法和卡尔曼滤波的视频稳像方法 | |
CN111260684A (zh) | 基于帧差法和背景差分法结合的前景像素提取方法及系统 | |
CN113723190A (zh) | 一种面向同步移动目标的多目标跟踪方法 | |
CN111161309B (zh) | 一种车载视频动态目标的搜索与定位方法 | |
CN101557516B (zh) | 视频质量评估方法及装置 | |
CN110163887A (zh) | 基于运动插值估计与前景分割相结合的视频目标跟踪方法 | |
Hung et al. | A fast algorithm of temporal median filter for background subtraction. | |
CN110569706A (zh) | 一种基于时间和空间网络的深度集成目标跟踪算法 | |
CN117095323A (zh) | 一种提高实时视频目标检测性能的方法 | |
JP3230804B2 (ja) | ターゲットウィンドウの移動を通したブロックマッチング方法 | |
CN112270691A (zh) | 一种基于动态滤波器网络的单目视频结构和运动预测方法 | |
CN111753590B (zh) | 一种行为识别方法、装置及电子设备 | |
CN114615468A (zh) | 一种基于安防监控的智能定位方法 | |
CN101420594A (zh) | 将视频图像划分为构成区域的设备和方法 | |
CN112465869B (zh) | 一种轨迹关联方法、装置、电子设备及存储介质 | |
CN106658024B (zh) | 一种快速的视频编码方法 | |
CN114913471B (zh) | 一种图像处理方法、装置和可读存储介质 | |
CN111160099A (zh) | 一种视频图像目标的智能化分割方法 | |
JP2017515372A (ja) | 動きフィールド推定 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |