CN117671801A - 基于二分缩减的实时目标检测方法及系统 - Google Patents

基于二分缩减的实时目标检测方法及系统 Download PDF

Info

Publication number
CN117671801A
CN117671801A CN202410150166.5A CN202410150166A CN117671801A CN 117671801 A CN117671801 A CN 117671801A CN 202410150166 A CN202410150166 A CN 202410150166A CN 117671801 A CN117671801 A CN 117671801A
Authority
CN
China
Prior art keywords
frame
image
detection
target
move
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410150166.5A
Other languages
English (en)
Other versions
CN117671801B (zh
Inventor
冷聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Fangcun Zhiwei Nanjing Technology Co ltd
Original Assignee
Zhongke Fangcun Zhiwei Nanjing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Fangcun Zhiwei Nanjing Technology Co ltd filed Critical Zhongke Fangcun Zhiwei Nanjing Technology Co ltd
Priority to CN202410150166.5A priority Critical patent/CN117671801B/zh
Publication of CN117671801A publication Critical patent/CN117671801A/zh
Application granted granted Critical
Publication of CN117671801B publication Critical patent/CN117671801B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/34Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于二分缩减的实时目标检测方法及系统,包括:构建两个不同的目标检测模型;输入一个视频以及一个刷新频率;处理视频的第一帧,得到人体检测框;处理视频的后续帧,用二值图来表示当前帧的潜在目标区域;对潜在目标区域进行显著性区域提取;对运动区域框进行重排列;对重排列后的图像进行目标检测,输出当前帧的检测结果;逐一对比重排列后的图像的检测结果和重排列前的图像的运动区域框,计算出当前帧的检测结果在原始图像中的位置和大小;直到视频检测结束。本发明方案能够解决目标检测模型对实际应用场景中小目标物体效果不佳,容易漏检的问题。

Description

基于二分缩减的实时目标检测方法及系统
技术领域
本发明属于人体检测技术领域,尤其为一种基于二分缩减的实时目标检测方法及系统。
背景技术
深度卷积神经网络模型在目标检测任务中效果非常好,在实际场景中应用也比较广泛。但是目前的目标检测模型对实际应用场景中小目标物体效果不佳,容易漏检。其主要原因是:实际应用场景中监控摄像头视野范围越来越大,如果目标距离摄像头比较远,其在图像中的大小一般比较小。目标检测模型的预处理步骤一般会对输入图像进行缩放成固定尺寸,导致小目标物体会变得更小,模型更难捕捉相关。
针对实际应用场景中小目标漏检的现象,基于检测目标扣图重新拼组去除图像背景区域从而凸显检测目标的思路,解决目标检测模型的输入图像预处理步骤中图像形状尺寸归一化操作导致的小目标检测漏检的问题。解决上述问题的一般方案是将图像或视频中的检测目标从原来的图像中抠出来,重新排列,拼成一个新的图片,从而去除了图像的背景区域,减弱了目标检测模型的输入图像预处理步骤中尺寸归一化带来的影响,以实现增大图像中小目标的检测准确率。
为了可能保证重排列后的图像的目标检测结果的准确性。一般来说需要满足以下两个条件:重排列后的图像的面积尽可能小,以实现最大程度去除背景区域;重排列后的图像的尺寸尽可能接近正方形,以避免目标检测模型的输入图像预处理步骤中的尺寸归一化带来的小目标形变导致的漏检或错检。为了保证整个方案的实时性,还应满足第三个条件:重排列算法要足够高效。当前重排列技术的重排列算法只部分考虑了条件,即重排列后的图像的面积最小。导致了现有技术方案的以下缺点:一是速度慢,现有技术方案设计了复杂的重排列算法,以保证图像的面积最小,这直接导致了现有技术方案的耗时长,效率低下。二是不能支持目标检测加速,由于目标检测一般要求输入一个正方形图像,因此需要对输入图像进行尺寸归一化。现有技术方案重排序后形成的新的图像的形状不能保证接近正方形,尺寸归一化预处理会导致小目标图像区域发生较大的未保持原图像区域长宽比例的拉伸,使得已训练好的模型不能正确识别小目标。
因此需要研究创新,以解决现有技术存在的上述问题。
发明内容
发明目的,提出一种基于二分缩减的实时目标检测方法,以解决上述现有技术存在的上述问题。进一步目的是提出一种实现上述方法的系统。
技术方案,根据本申请的一个方面,提供一种基于二分缩减的实时目标检测方法,包括:
S1,构建至少两个用于在视频中检测出人体位置和大小的目标检测模型,并初始化系统;目标检测模型包括第一目标检测模型和第二目标检测模型,其中第一目标检测模型的精度高于第二目标模型,计算速度低于第二目标检测模型;
S2,采集并构建视频数据集合,获取至少一个视频以及至少一个刷新频率作为输入;
S3,获取视频的第一帧图像,采用第一目标检测模型进行目标检测,得到人体检测框;
S4,针对视频中第二帧起的后续各帧,采用多目标跟踪及动态区域检测算法进行检测,并使用二值图来表示当前帧的潜在目标区域Rt move
S5,针对每一潜在目标区域R1 move,采用二值图像膨胀算法,确定图像的运动区域框Rt bbox,以提取潜在目标区域中的显著性区域:
S6,采用二分缩减的矩形框重排列算法对运动区域框Rt bbox进行重排,获得重排列后图像It new,以及运动区域框Rt bbox在图像It new中的位置Rt new
S7,采用第二目标检测模型对重排列后的图像It new进行目标检测,输出当前帧的检测结果Rt det,检测结果Rt det包括每个目标的位置和大小;
S8,逐一对比重排列后的图像的检测结果Rt det和重排列前图像的运动区域框Rt bbox的矩形框,构建矩形框的对应关系,对应计算出当前帧的检测结果在原始图像中的位置和大小,即Rt final;t为自然数;
S9,重复步骤S4至S8,直至完成检测工作。
根据本申请的一个方面,所述步骤S1中进一步为:
S11、构建第一目标检测模型ML和第二目标检测模型MS,第一目标检测模型ML的参数量大于第二目标检测模型,精度高于第二目标检测模型,计算速度低于第二目标检测模型;
S12、初始化至少一个正方形的盒子B,用来放置图像中的目标区域,盒子的边长为S,初始值为0;
S13、初始化用来记录放置是否成功的变量Q,Q的初始值为True;
S14、初始化用来确定盒子最小边长的上界U和下界L,其中,上界的初始值为运
动区域框Rt bbox中所有矩形框的宽、高的总长度的最大值;下界的初始值0;
所述步骤S2进一步为:
S21、采集并构建视频数据集合,从视频数据集合中读取一个视频文件V,将其转换为一组图像帧It,为每个图像帧编号,视频的总帧数记为N;N为自然数;
S22、设置刷新频率的阈值,基于阈值采用第一目标检测模型进行目标检测。
根据本申请的一个方面,所述步骤S3进一步为:
S31、将视频的第一帧I0输入第一目标检测模型ML,得到人体检测框R0 bbox,人体检测框的个数记为L,每个人体检测框的位置和大小由左上角坐标和宽高表示;
S32、将人体检测框R0 bbox作为当前帧的检测结果R0 final,并在视频的第一帧I0上绘制出来。
根据本申请的一个方面,步骤S4进一步为:
S41、从第二帧图像开始,采用视频多目标跟踪及动态区域检测算法依序对视频的第t帧图像进行检测,得到当前帧的潜在目标区域Rt move
S42、将当前帧的潜在目标区域Rt move与当前帧的图像It相乘,得到一个包含可能有目标的区域图像It move
S43、将区域图像It move输入第二目标检测模型MS,得到人体检测框Rt bbox,其中人体检测框的个数记为L,每个人体检测框的位置及大小由左上角坐标和宽高表示;
S44、将人体检测框Rt bbox与前一帧的检测结果Rt-1 final进行匹配,得到当前帧的检测结果Rt final
S45、对于没有匹配的检测框,如果是当前帧的检测框,为其分配一个新的编号,加入到当前帧的检测结果Rt final中;如果是前一帧的检测框,检查其是否已经连续消失超过一个阈值M,如果是,则将其从当前帧的检测结果Rt final中删除,否则,保留其在当前帧的检测结果Rt final中,并降低其置信度;
所述步骤S41具体实现过程如下:
S411、根据前一帧的检测结果Rt-1 final,在前一帧图像It-1上绘制出人体检测框,得到一个二值图像Rt-1 bbox
S412、利用光流算法计算出前一帧的图像It-1和当前帧的图像It之间的像素运动,得到一个运动场Mt-1 t
S413、利用背景差分算法计算出前一帧的图像It-1和当前帧的图像It之间的像素差异,得到一个差分图Dt-1 t
根据本申请的一个方面,所述步骤S5进一步为:
S51、对当前帧的潜在目标区域Rt move进行显著性区域提取,得到显著图St move
S52、对显著图St move进行二值化,得到二值图Bt move,以过滤掉不显著的区域;
S53、对二值图Bt move进行二值图像膨胀算法,得到膨胀图Dt move
S54、对膨胀图Dt move进行连通区域标记,得到标记图Lt move
S55、对标记图Lt move中的每个连通区域,计算出其外接矩形,即最小的能够包含该区域的矩形,得到一个运动区域框Rt bbox,其中运动区域框的个数记为L,每个运动区域框的位置和大小由左上角坐标和宽高表示;
所述步骤S51具体实现过程如下:
S511、计算出当前帧的潜在目标区域Rt move的全局对比度图Ct move,即每个像素与图像中其他像素的差异程度;
S512、计算出当前帧的潜在目标区域Rt move的中心度图Gt move,即每个像素与图像中心的距离程度;
S513、将对比度图Ct move和中心度图Gt move进行加权平均,得到显著图St move
根据本申请的一个方面,所述步骤S53进一步为:
S531、构建结构元素E,结构元素E为二值矩阵;
S532、对二值图Bt move中的每个像素,将结构元素E与其重叠,如果E中有任何一个像素与Ct move中的像素相等,则将该像素标记为1,否则标记为0;
S533、重复上述步骤S531和S532,对二值图Bt move中的所有像素进行膨胀,得到一个膨胀Dt move
根据本申请的一个方面,所述步骤S6进一步为:
S61、矩形框排序,
S611、将运动区域框Rt bbox中所有矩形框按高度从大到小排序,记作运动区域框高度集合Rt h
S612、将运动区域框Rt bbox中所有矩形框按面积从大到小排序,记作运动区域框面积集合Rt area
S62、矩形框放置,
S621、构建正方形的盒子B,盒子边长为max(H,W),其中H,W是视频帧的高度和宽度,将B分成四个相等的子盒子B1,B2,B3,B4
S622、从运动区域框高度集合Rt h中取出最高的矩形框r0,将其放入子盒子B1中,使其左上角与子盒子B1的左上角对齐;
S623、从运动区域框面积集合Rt area中取出最大的矩形框r1,将其放入子盒子B2中,使其左上角与子盒子B2的左上角对齐;
S624、重复上述步骤,直到运动区域框高度集合Rt h或运动区域框面积集合Rt area中没有剩余的矩形框为止;如果运动区域框高度集合Rt h中有剩余的矩形框,将其按高度降序排列,依次放入子盒子B3中,使其左对齐,上下紧密排列;如果运动区域框面积集合Rt area中有剩余的矩形框,将其按面积降序排列,依次放入子盒子B4中,使其左对齐,上下紧密排列;
S625、记录每个矩形框在盒子B中的位置和大小;
S626、将盒子B中的所有矩形框裁剪出来,拼接成一个新的图像It new
根据本申请的一个方面,所述步骤S7进一步为:
S71、将重排列后的图像It new输入第二目标检测模型,得到当前帧的检测结果Rt det
S72、对每个检测结果,设置对应的类别和置信度,以表示该目标属于哪一类以及该检测结果的可靠程度。
根据本申请的一个方面,所述S8进一步为:
S81、对于每个检测结果Rj det,基于矩形框的交并比找出与其重叠度最高的运动区域框Ri new
S82、根据重叠的运动区域框Ri new,找出其在重排列前的图像中的位置和大小;
S83、根据检测结果Rj det在重排列后的图像中的位置和大小,以及运动区域框Ri new在重排列后的图像中的位置和大小,计算出检测结果Rj det在重排列前的图像中的位置和大小;
S84、根据检测结果Rj bbox在重排列前的图像中的位置和大小,以及运动区域框Ri bbox在原始图像中的位置和大小,计算出检测结果Rj final在原始图像中的位置和大小;
S85、记录每个检测结果在原始图像中的位置和大小。
根据本申请的另一个方面,一种基于二分缩减的实时目标检测系统,其特征是,包括:
至少一个处理器;以及至少一个与所述处理器通信连接的存储器;其中,所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述任一项技术方案所述的基于二分缩减的实时目标检测方法。
有益效果,采用视频多目标跟踪及动态区域检测算法检测视频帧的潜在目标区域,能够以较小的代价大致定位目标检测对象;采用新设计的基于二分缩减的矩形框重排列算法,能够确定最优的正方形框盒子,以放下所有的矩形框,构建出重排列后的图像;
采用较小的目标检测模型对重排列图像进行目标检测,可以节省更多的目标检测算法时间;采用较大的目标检测模型定期对视频帧进行精细的目标检测,可以刷新目标跟踪和动态区域定位的准确度,避免误差的累积,保证了最终本专利算法的精度。
附图说明
图1是本发明的流程图。
图2是本发明步骤S1的流程图。
图3是本发明步骤S2的流程图。
图4是本发明步骤S3的流程图。
图5是本发明步骤S4的流程图。
图6是本发明步骤S5的流程图。
图7是本发明步骤S6的流程图。
图8是本发明步骤S8的流程图。
具体实施方式
下面通过实施例,并结合附图1至8,对本发明的技术方案做进一步具体说明。
如图1所示,本实施例实现了一种基于二分缩减的实时目标检测方法,包括:
S1,构建两个不同的目标检测模型,一个快速但粗糙的,另一个慢速但精细的,且两个模型都能在视频中检测出人体的位置和大小;
S2,读取并输入一个视频以及一个刷新频率;其中视频是由一系列的图像帧组成的,每个图像帧都有一个序号,从0开始,刷新频率是一个预定数字,表示每隔多少帧,就用精细的模型进行一次目标检测;
S3,视频的第一帧处理:采用精细的模型进行目标检测,得到人体检测框;人体检测框是一个矩形,用来表示人体在图像中的位置和大小;
S4,视频的后续帧处理:采用一种视频多目标跟踪及动态区域检测算法,用黑白图来表示当前帧的可能有目标的区域,黑白图是一个二值图像,其中白色的部分表示可能有目标的区域,黑色的部分表示没有目标的区域,用二值图来表示当前帧的潜在目标区域,记为Rt move
S5,对潜在目标区域进行显著性区域提取:采用二值图像膨胀算法,确定图像的运动区域框,记为Rt bbox;运动区域框是一个矩形,用来表示当前帧有多少个区域是可能的目标存在区域,以及每个区域的位置和大小;
S6,对运动区域框进行重排列:用以得到重排列后的图像,以及运动区域框在重排列后的图像中的位置;重排列的目的是使得运动区域框能够尽可能紧凑地放进一个正方形的盒子里,同时保持原来的朝向,不发生翻转或重叠;
S7,采用快速的模型对重排列后的图像进行目标检测,输出当前帧的检测结果,即每个目标的位置和大小,用Rt det来表示当前帧的检测结果;对每个检测结果,还有对应的类别和置信度,表示该目标属于哪一类,以及该检测结果的可靠程度;
S8,逐一对比重排列后的图像的检测结果和重排列前的图像的运动区域框,构建它们之间的对应关系,对应计算出当前帧的检测结果在原始图像中的位置和大小,即Rt final
S9,重复步骤S4至S8,直到视频结束;如果当前帧是刷新频率的整数倍数时,就用精细的模型进行一次目标检测,得到当前帧的精细的目标检测框。
在本实施例中,采用二分缩减的矩形框重排列算法的目标检测加速方法,能够有效地解决现有技术中重排列后的图像的形状不接近正方形的问题,提高了目标检测的准确性和效率;采用多目标跟踪及动态区域检测算法的目标检测加速方法,能够有效地解决现有技术中无法根据视频的帧间运动信息动态确定潜在目标区域的问题,提高了目标检测的精度和鲁棒性;采用至少两个不同精度和速度的目标检测模型的目标检测加速方法,能够有效地解决现有技术中无法根据视频的刷新频率动态选择合适的模型进行目标检测的问题,平衡了目标检测的性能和效率。通过多目标跟踪及动态区域检测算法,能够根据视频的帧间运动信息,动态地确定潜在目标区域,减少了无关区域的干扰,提高了目标检测的精度。
总之,本实施例能够有效地提高小目标物体的检测准确率,减少漏检和错检的情况,提高目标检测的质量;能够有效地降低目标检测模型的计算复杂度和资源消耗,提高目标检测的速度和效率,适用于边缘计算设备;能够灵活地适应不同的视频场景和目标检测模型,具有较强的通用性和可扩展性。
如图2所示,根据本发明进一步改进,所述步骤S1具体包括:
S11、构建两个目标检测模型:分别命名为ML和MS,ML是一个参数量大、精度高的模型,MS是一个参数量小、精度较低的模型;
S12、初始化一个正方形的盒子B,用来放置图像中的目标区域:盒子的边长记为S,初始值为0;
S13、初始化一个变量Q:用来记录放置是否成功,Q的初始值为True;
S14、初始化一个上下界:用来确定盒子的最小边长,上界记为U,初始值为Rt bbox中所有矩形框的宽、高的总长度的最大值,即U0=max(H0,W0),H0=∑i=0 L-1hi,W0=∑i=0 L-1wi,下界记为L,初始值为0,即L0=0。
本步骤构建了两个模型,利用两个目标检测模型的不同性能,结合了精度和速度的优势,具体来说,ML模型用来评估动态区域的合理性,MS模型用来评估可检测性,两者相互配合,达到了最佳的效果。
如图3所示,根据本发明进一步改进,所述步骤S2具体包括:
S21、读取一个视频文件,将其转换为一系列的图像帧,每个图像帧都有一个序号,从0开始,记为t,视频的总帧数记为N,即V={It}t=0 N-1
S22、设置一个刷新频率,表示每隔多少帧,就用精细的模型进行一次目标检,刷新频率可以根据视频的帧率和目标检测的精度要求进行调整。
在进一步的实施例中,还可以采用动态的刷新频率设置方法,根据视频的帧率和目标检测的精度要求进行调整,而不是固定地对每一帧进行目标检测。这样,可以避免对无关或重复的帧进行冗余的计算,同时保证对关键帧进行充分的分析,从而提高目标检测的性能。
如图4所示,根据本发明进一步改进,所述步骤S3中视频的第一帧处理具体包括:
S31、将视频的第一帧I0输入精细的模型ML,得到人体检测框R0 bbox:人体检测框的个数记为L,每个人体检测框的位置和大小由左上角坐标和宽高表示,即R0 bbox={ri=(xi,yi,hi,wi)}i=0 L-1
S32、将人体检测框R0 bbox作为当前帧的检测结果R0 final,并在I0上绘制出来。
在本实施例中,只需要输入精细的模型ML,不需要额外的预处理或后处理,简化了流程,提高了效率;精细的模型ML可以利用深度学习技术,对人体进行准确的检测,提高了准确率;人体检测框的位置和大小可以用简单的坐标和尺寸表示,方便了后续的跟踪和匹配,降低了复杂度。
如图5所示,根据本发明进一步改进,所述步骤S4中视频的后续帧处理具体包括:
S41、对视频的第t+1帧It,采用视频多目标跟踪及动态区域检测算法,得到当前帧的潜在目标区域Rt move
S42、将当前帧的潜在目标区域Rt move与当前帧的图像I(t+1)相乘,得到一个只包含可能有目标的区域的图像It move
S43、将图像It move输入粗糙的模型MS,得到人体检测框Rt bbox,其中人体检测框的个数记为L,每个人体检测框的位置和大小由左上角坐标和宽高表示,即Rt+1 bbox={ri=(xi,yi,hi,wi)}i=0 L-1
S44、将人体检测框Rt bbox与前一帧的检测结果Rt-1 final进行匹配,得到当前帧的检测结果Rt final
S45、对于没有匹配的检测框,如果是当前帧的检测框,为其分配一个新的编号,加入到当前帧的检测结果Rt final中;如果是前一帧的检测框,检查其是否已经连续消失超过一个阈值M,如果是,则将其从当前帧的检测结果Rt final中删除,否则,保留其在当前帧的检测结果Rt final中,但降低其置信度。
根据本发明进一步改进,所述步骤S41具体实现过程如下:
S411、根据前一帧的检测结果Rt-1 final,在前一帧的图像It-1上绘制出人体检测框,得到一个二值图像Rt-1 bbox
S412、利用光流算法,计算出前一帧的图像It-1和当前帧的图像It之间的像素运动,得到一个运动场Mt-1 t
S413、利用背景差分算法,计算出前一帧的图像It-1和当前帧的图像It之间的像素差异,得到一个差分图Dt-1 t
在本实施例中,将视频多目标跟踪和动态区域检测相结合,实现了对视频中的人体的快速定位和跟踪;将精细的模型ML和粗糙的模型MS相结合,实现了对人体的高精度检测和高效率跟踪;将运动信息和时空约束相结合,实现了对人体的高鲁棒性匹配和跟踪。
采用视频多目标跟踪及动态区域检测算法,可以根据前一帧的检测结果,预测当前帧的潜在目标区域,减少了无关区域的干扰,提高了鲁棒性;将当前帧的潜在目标区域与当前帧的图像相乘,可以得到一个只包含可能有目标的区域的图像,减少了计算量,提高了速度;将图像输入粗糙的模型MS,可以利用深度学习技术,对人体进行快速的检测,提高了效率;将人体检测框与前一帧的检测结果进行匹配,可以利用运动信息和时空约束,对人体进行准确的跟踪,提高了准确率;对于没有匹配的检测框,可以根据编号、消失时间和置信度,进行合理的处理,提高了鲁棒性。
对视频中的多个人体进行实时的检测和跟踪,生成每个人体的轨迹;可以处理各种复杂的场景,如遮挡、光照变化、视角变化、目标外观变化等,保持跟踪的稳定性和连续性;可以在保证准确率的同时,提高速度和效率,适用于实时的视频分析应用。
如图6所述,根据本发明进一步改进,所述步骤S5中对潜在目标区域进行显著性区域提取具体包括:
S51、对当前帧的潜在目标区域Rt move进行显著性区域提取,得到一个显著图St move
S52、对显著图St move进行二值化,得到一个二值图Bt move,即若St move(x,y)>T,Bt move(x,y)=1,否则Bt move(x,y)=0;其中T是一个阈值,用来过滤掉不显著的区域;
S53、对二值图Bt move进行二值图像膨胀算法,得到一个膨胀图Dt move
S54、对膨胀图Dt move进行连通区域标记,得到一个标记图Lt move
S55、对标记图Lt move中的每个连通区域,计算出其外接矩形,即最小的能够包含该区域的矩形,得到一个运动区域框Rt bbox,其中运动区域框的个数记为L,每个运动区域框的位置和大小由左上角坐标和宽高表示。
根据本发明进一步改进,所述步骤S51具体实现过程如下:
S511、计算出当前帧的潜在目标区域Rt move的全局对比度图Ct move,即每个像素与图像中其他像素的差异程度,记为:
Ct move(x,y)=∑(i,j=0)(H,W-1)|Rt move(x,y)-Rt move(i,j)|;
S512、计算出当前帧的潜在目标区域Rt move的中心度图Gt move,即每个像素与图像中心的距离程度,记为:
Gt move(x,y)=sqrt((x-H/2)2+(y-W/2)2);
S513、将对比度图Ct move和中心度图Gt-1 move进行加权平均,得到显著图St move,记为:
St move(x,y)=β×Ct move(x,y)+(1-β)×Gt move(x,y),其中β是一个权重系数。
根据本发明进一步改进,所述步骤S53具体实现过程如下:
S531、定义一个结构元素E,即一个小的二值矩阵;
S532、对二值图Bt move中的每个像素,将结构元素E与其重叠,如果E中有任何一个像素与C(t-1) move中的像素相等,即E(i,j)=Bt move(x+i,y+j),则将该像素标记为1,否则标记为0,即Dt move(x,y)=max(i,j∈E)Bt move(x+i,y+j);
S533、重复上述步骤,对二值图Bt move中的所有像素进行膨胀,得到一个膨胀Dt move
在本实施例中,能够有效地提取出当前帧的潜在目标区域中的显著性区域,即人眼关注的区域,从而减少了后续处理的计算量和复杂度,提高了目标检测的效率和准确性。综合了全局对比度和中心度两种显著性特征,能够兼顾图像中的高对比度区域和靠近中心的区域,同时通过加权平均的方式调节两种特征的权重,使得显著图更加符合人类视觉的特点。能够生成清晰的显著图,突出显示图像中的显著性区域,同时通过二值化、膨胀和连通区域标记的操作,能够将显著性区域分割出来,得到一个个的运动区域框,为后续的目标跟踪提供了有效的候选区域。针对视频序列中的潜在目标区域进行了改进和优化,使得显著性检测更加适用于视频目标检测的场景,提高了显著性检测的实用性和通用性。
如图7所示,根据本发明进一步改进,所述步骤S6中对运动区域框进行重排列具体包括:
S61、矩形框排序:
S611、按矩形框的高排序,将Rt bbox中所有矩形框{ri=(xi,yi,hi,wi)}i=0 L-1按高度从大到小排序,仍记为Rt h
S612、按矩形框的面积排序,将Rt bbox中所有矩形框{ri=(xi,yi,hi,wi)}i=0 L-1按面积从大到小排序,仍记为Rt area
S62、矩形框放置:
S621、给定一个正方形的盒子B,其边长为max(H,W),其中H,W是视频帧的高度和宽度,将B分成四个相等的子盒子B1,B2,B3,B4
S622、从Rt h中取出最高的矩形框r0,将其放入B1中,使其左上角与B1的左上角对齐;
S623、从Rt area中取出最大的矩形框r1,将其放入B2中,使其左上角与B2的左上角对齐;
S624、重复上述步骤,直到Rt h或Rt area中没有剩余的矩形框为止;如果Rt h中有剩余的矩形框,将其按高度降序排列,依次放入B3中,使其左对齐,上下紧密排列;如果Rt area中有剩余的矩形框,将其按面积降序排列,依次放入B4中,使其左对齐,上下紧密排列;
S625、记录每个矩形框在B中的位置和大小,即Rt new={ri=(xi,yi,hi,wi)}i=0 L-1
S626、将B中的所有矩形框裁剪出来,拼接成一个新的图像It new
在本实施例中,可以有效地利用空间,将运动区域框紧凑地放入一个正方形的盒子中,减少了无效的背景区域,提高了图像的信息密度;可以保持运动区域框的相对大小和位置,避免了对运动区域框进行缩放或旋转等变换,从而保留了运动区域框的原始特征;可以根据运动区域框的高度和面积进行排序,使得高度和面积较大的运动区域框优先放置,从而突出了运动区域框的重要性;可以将运动区域框分成两类,一类是按高度排序的,一类是按面积排序的,从而为后续的特征提取和识别提供了不同的视角和依据。
通过将运动区域框从原始的视频帧中分离出来,形成一个新的图像,从而降低了视频帧的复杂度,简化了后续的处理流程;通过将运动区域框的位置和大小进行标准化,从而消除了视频帧之间的差异,增强了运动区域框的可比较性;通过将运动区域框的高度和面积作为排序的依据,从而反映了运动区域框的重要程度,为后续的特征提取和识别提供了有价值的信息;通过将运动区域框分成两类,从而为后续的特征提取和识别提供了多样化的选择,可以根据不同的场景和需求,选择合适的运动区域框进行处理。
根据本发明进一步改进,所述步骤S7中对重排列后的图像进行目标检测具体包括:
S71、将重排列后的图像I(t+1) new输入快速的模型MS,得到当前帧的检测结果Rt det,其中检测结果的个数记为K,每个检测结果的位置和大小由左上角坐标和宽高表示,即Rt det={rj det=(xj det,yj det,hj,wj)}j=0 K-1
S72、对每个检测结果,设置对应的类别和置信度,表示该目标属于哪一类,以及该检测结果的可靠程度,类别是一个数字,表示目标的种类;置信度是一个0到1之间的小数,表示检测结果的正确概率;检测结果的类别和置信度表示为:Ct det={cj det=(lj det,sj det)}j=0 K-1,其中lj det是第j个检测结果的类别,sj det是第j个检测结果的置信度。
在本实施例中,可以利用运动区域框的信息,减少检测的范围和复杂度,提高检测的速度和精度。它的优势是可以使用一个快速的模型MS,而不需要一个复杂的模型ML,从而节省计算资源和时间。它的技术效果是可以得到当前帧的检测结果Rt det,以及每个检测结果的类别和置信度Ct det,这些信息可以用于后续的处理和分析。将运动区域框作为一个重要的先验信息,引入到目标检测的过程中,从而提升目标检测的性能。
如图8所示,根据本发明进一步改进,所述步骤S8中计算当前帧的检测结果在原始图像中的位置和大小具体包括:
S81、对于每个检测结果Rj det,找出与其重叠度最高的运动区域框Ri new,即IOU(rj det,ri new)=maxi=0 L-1IOU(Rj det,Ri new),其中IOU是两个矩形框的交并比;
S82、根据重叠的运动区域框Ri new,找出其在重排列前的图像中的位置和大小,Ri bbox,即Ri bbox=(xi,yi,hi,wi);
S83、根据检测结果rj det在重排列后的图像中的位置和大小,以及运动区域框Ri new在重排列后的图像中的位置和大小,计算出检测结果Rj det在重排列前的图像中的位置和大小,即Rj bbox,即Rj bbox=(xj bbox,yj bbox,hj,wj),其中xj bbox=xi+xj det,yj bbox=yi+yj det
S84、根据检测结果rj bbox在重排列前的图像中的位置和大小,以及运动区域框ri bbox在原始图像中的位置和大小,计算出检测结果rj final在原始图像中的位置和大小,即rj final=(xj final,yj final,hj,wj),其中xj final=xi bbox+xj bbox×wi/wi new,yj final=yi bbox+yj bbox×hi/hi new
S85、记录每个检测结果在原始图像中的位置和大小,即Rt+1 final={rj final=(xj final ,yj final,hj,wj)}j=0 K-1
在本实施例中,可以恢复检测结果的真实尺度和位置,使得检测结果更符合实际情况。它的优势是可以利用运动区域框在重排列前后的图像中的位置和大小的关系,以及检测结果在重排列后的图像中的位置和大小的关系,通过简单的数学运算,得到检测结果在原始图像中的位置和大小。它的技术效果是可以得到当前帧的检测结果在原始图像中的位置和大小Rt final,这些信息可以用于显示或输出检测结果,或者作为后续的跟踪或识别的输入。将运动区域框作为一个重要的转换因子,引入到目标检测的结果恢复的过程中,从而提升目标检测的准确性。
根据本发明进一步改进,所述步骤S9具体包括:
S91、将当前帧的序号t加一,即t=t+1;
S92、判断是否到达视频的最后一帧,即t=N-1,如果是,则结束算法,否则继续;S93、判断当前帧是否是刷新频率的整数倍数,即t mod P=0,如果是,则执行步骤
S93,否则执行步骤S94;
S94、重复步骤S91至S93,直到视频结束。
在本申请的另一实施例中,还包括一种基于图像梯度和光滑性的光流算法,用以估计出相邻两帧图像之间的像素运动;具体实现过程如下:
S412a、计算出前一帧的图像It-1和当前帧的图像It的梯度,即图像的灰度值在水平方向和垂直方向的变化率,记为Ix,Iy,It
S412b、对每个像素,假设其在相邻两帧图像之间的运动是匀速的,即It-1(x,y)=It(x+u,y+v),其中u,v是像素的水平和垂直方向的运动量,也就是光流,将这个假设代入梯度方程,得到Ixu+Iyv=-It
S412c、对每个像素,找出其周围的一个小窗口,例如5×5的像素区域,假设这个窗口内的所有像素的光流是相同的,即u,v是常数,将这个假设代入梯度方程,得到一个线性方程组,用最小二乘法求解,得到u,v的近似值;
S412d、重复上述步骤,对图像中的所有像素求解光流,得到一个运动场Mt-1 t={mi=(ui,vi)}(i=0) (H×W-1),其中H,W是图像的高度和宽度,每个像素的位置和大小由左上角坐标和宽高表示,即It-1={pi=(xi,yi,1,1)}(i=0) (H×W-1)
在本申请的另一实施例中,还包括一种基于像素灰度值的背景差分算法,用以检测出图像中的运动区域;具体实现过程如下:
S413a、对于每个像素,计算出前一帧的图像I(t-1)和当前帧的图像I(t+1)的灰度值之差,即D(t-1) (t+1)(x,y)=|I(t-1)(x,y)-I(t+1)(x,y)|;
S413b、对于每个像素,如果其灰度值之差大于一个阈值T,说明该像素发生了运动,将其标记为白色,否则标记为黑色,即若Dt-1 t(x,y)>T,则Rt-1 t(x,y)=1,否则Rt-1 t(x,y)=0;
S413c、对于每个像素,如果其周围有一定比例的像素是白色的,说明该像素属于运动区域,将其保留为白色,否则将其去除为黑色,即若∑(i,j∈N(x,y))Rt-1 t(i,j)>P,则Rt-1 move(x,y)=1,否则Rt-1 move(x,y)=0;其中N(x,y)表示以(x,y)为中心的一个小窗口,P是一个百分比阈值。
在进一步的实施例中,包括如下步骤:
构建两个模型均满足实际应用场景需求的目标检测模型ML、Ms,其中ML模型参数量大、精度高,但推理速度慢,Ms参数量小、精度较低,但推理速度快;
采集视频V={It}t=0 N-1,其中t∈{0,1,2,…,N-1}表示视频帧的序号;视频帧刷新频率P=50,即模型每隔50帧将视频帧输入目标检测模型ML,得到当前帧的精细的目标检测框;
(3)对于第t=0帧,使用目标检测模型ML进行精细目标检测,得到人体检测框。
(4)对于第t,t∈{1,2,…}帧,采用视频多目标跟踪及动态区域检测算法,用二值图来表示当前帧的潜在目标区域,记为Rt move
(5)对当前帧的潜在目标区域Rt move进行显著性区域提取,并采用二值图像膨胀算法,确定图像的运动区域框Rt bbox={ri=(xi,yi,hi,wi)}i=0 L-1,即确定当前帧有L个区域是可能的目标存在区域,其中第i个矩形框的宽、高分别为wi、hi
(6)采用基于二分缩减的矩形框重排列算法对Rt bbox进行重排列,得到重排列后的图像It new,以及Rt bbox在图像It new中的位置;
Rt new={ri new=(xi new,yi new,hi,wi)}i=0 L-1
(7)采用目标检测模型Ms对It new进行目标检测,输出当前帧的检测结果Rt det={rj det=(xj det,yj det,hj,wj)}j=0 K-1
(8)逐一对比Rt det与Rt new中的矩形框,构建Rt det与Rt bbox中矩形框的对应关系,对应计算出Rt det在原图像帧It中的检测框,
Rt final={rj final=(xj final,yj final,hj,wj)}j=0 K-1
(9)重复步骤(4)至(8),直到视频结束;注意如果t为P的整数倍数时,将视频帧输入目标检测模型ML,得到当前帧的精细的目标检测框。
其中,步骤(6)的具体流程如下:
图像的运动区域框Rt+1 bbox={ri=(xi,yi,hi,wi)}i=0 L-1,见步骤(5);假设矩形框重排列的结果是成功放进一个正方形的盒子,正方形盒子的边长要求最小;此外,规定矩形框优先放置在盒子的左上角,且与原图保持一致的朝向,不发生翻转。
正方形的盒子B初始化,边长记为S。
令正方形盒子的边长为Rt bbox中所有矩形框的宽、高的总长度的最大值,并作为正方形盒子的边长的上界,即U0=max(H0,W0),H0=∑i=0 L-1hi,W0=∑i=0 L-1wi,这保证了正方形盒子B0能否放下Rt bbox中所有矩形框,
令正方形盒子的边长的下界为L_0=0,满足L<S≤U;
放置成功与否变量初始化,Q=True;
矩形框排序:
按矩形框的高排序。将Rt bbox中所有矩形框{ri=(xi,yi,hi,wi)}i=0 L-1按高度从大到小排序,仍记为Rt h
按矩形框的面积排序。
将Rt bbox中所有矩形框{ri=(xi,yi,hi,wi)}i=0 L-1按高度从大到小排序,仍记为Rt area
给定矩形框集合Rt h及正方形盒子上下届初始值U0、L0,按照高度由大到小的顺序逐一将矩形框放进盒子里,已经放置的矩形框从集合Rt h中删除,放置规则如下:
如果Q=True,将Rt h中最大的矩形框放进盒子的空白区域里,需要满足矩形框的高、宽分别不小于盒子的空白区域的高、宽。如果放置成功,则进入下一步,令Q=True,并将该矩形框从Rt+1 h中去除;否则,放置不成功,令Q=False。
如果Q=True,正方形盒子将被分割成四个区域,其中三个区域是空白区域,记为F1k=(H1k,W1k),k=1,2,3。选取F1k中面积最大的空白区域,放置Rt h中高最大的矩形框;如果放置成功,则进入下一步,并将该矩形框从Rt h中去除;否则,放置不成功,则逐个尝试F1k中其它空白区域,如果全部失败,则令Q=False。
如果Q=True,正方形盒子将继续被分割成更小的区域,其中空白区域,记为F2k=(H2k,W2k),k=1,2,3,…,6。选取F2k中面积最大的空白区域,放置Rt h中高最大的矩形框;如果放置成功,则进入下一步,并将该矩形框从Rt h中去除;否则,放置不成功,则逐个尝试F1k中其它空白区域,直到有空白区域能够放下该矩形框;如果全部失败,令Q=False。
类似地,继续放置矩形框到重新分割后的空白框里,直到所有框均放进盒子里,或则出现Q=False。
如果Q=True,则所有框均放进盒子里,此时尝试新的更小的正方形盒子,新的正方形盒子的边长采用二分法确定,即令S=(U+L)/2;重复上述放置步骤,如果成功放置所有盒子,则更新正方形盒子边长的上界U=(U+L)/2;如果放置失败(Q=False),则更新正方形盒子边长的下界L=(U+L)/2。
重复上述正方形盒子边长的上下届二分步骤,直到丨丨U-L丨丨<5,退出放置步骤,并确定最优正方形盒子边长Sh
给定矩形框集合Rt h及正方形盒子上下届初始值U0、L0,按照面积由大到小的顺序逐一将矩形框放进盒子里,确定最优正方形盒子边长Sarea
令S=min(Sh,Sarea),以及较小值对应的矩形框放置方式,
Rt new={ri new=(xi new,yi new,hi,wi)}i=0 L-1,按照放置方式将图像区域进行重排列得到图像It new
重排列后的图像It new,以及Rt bbox在图像It new中的位置Rt new,见步骤(6)。
根据本发明进一步改进,还提供一种基于二分缩减的实时目标检测系统,包括:至少一个处理器;以及至少一个与所述处理器通信连接的存储器;其中,所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述任一项技术方案所述的基于二分缩减的实时目标检测方法。
总之,本实施例具有三大优势:
采用简单的视频多目标跟踪及动态区域检测算法检测视频帧的潜在目标区域,并用矩形框表示,能够以较小的代价大致定位98%以上的目标检测对象。
采用新设计的基于二分缩减的矩形框重排列算法,能够以O(nlogn)的时间代价确定最优的正方形框盒子,以放下所有的矩形框,构建出重排列后的图像It+1 new
采用较小的目标检测模型对重排列图像进行目标检测,可以节省更多的目标检测算法时间。采用较大的目标检测模型定期对视频帧进行精细的目标检测,可以刷新目标跟踪和动态区域定位的准确度,避免误差的累积,保证了最终本专利算法的精度。在昇腾Atlas 200I和RK3588上均达到了>30FPS的帧率和80%的mAP,精度上满足实际应用需求,速度上能够达到实时。
如上所述,尽管参照特定的优选实施例已经表示和表述了本发明,但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下,可对其在形式上和细节上做出各种变化。

Claims (10)

1.一种基于二分缩减的实时目标检测方法,其特征是,包括:
S1,构建至少两个用于在视频中检测出人体位置和大小的目标检测模型,并初始化系统;目标检测模型包括第一目标检测模型和第二目标检测模型,其中第一目标检测模型的精度高于第二目标模型,计算速度低于第二目标检测模型;
S2,采集并构建视频数据集合,获取至少一个视频以及至少一个刷新频率作为输入;
S3,获取视频的第一帧图像,采用第一目标检测模型进行目标检测,得到人体检测框;
S4,针对视频中第二帧起的后续各帧,采用多目标跟踪及动态区域检测算法进行检测,并使用二值图来表示当前帧的潜在目标区域Rt move
S5,针对每一潜在目标区域Rt move,采用二值图像膨胀算法,确定图像的运动区域框Rt bbox,以提取潜在目标区域中的显著性区域:
S6,采用二分缩减的矩形框重排列算法对运动区域框Rt bbox进行重排,获得重排列后图像It new,以及运动区域框Rt bbox在图像It new中的位置Rt new
S7,采用第二目标检测模型对重排列后的图像It new进行目标检测,输出当前帧的检测结果Rt det,检测结果Rt det包括每个目标的位置和大小;
S8,逐一对比重排列后的图像的检测结果Rt det和重排列前图像的运动区域框Rt bbox的矩形框,构建矩形框的对应关系,对应计算出当前帧的检测结果在原始图像中的位置和大小,即Rt final;t为自然数;
S9,重复步骤S4至S8,直至完成检测工作。
2.根据权利要求1所述的一种基于二分缩减的实时目标检测方法,其特征是,所述
步骤S1中进一步为:
S11、构建第一目标检测模型ML和第二目标检测模型MS,第一目标检测模型ML的参数量大于第二目标检测模型,精度高于第二目标检测模型,计算速度低于第二目标检测模型;
S12、初始化至少一个正方形的盒子B,用来放置图像中的目标区域,盒子的边长为S,初始值为0;
S13、初始化用来记录放置是否成功的变量Q,Q的初始值为True;
S14、初始化用来确定盒子最小边长的上界U和下界L,其中,上界的初始值为运
动区域框Rt bbox中所有矩形框的宽、高的总长度的最大值;下界的初始值0;
所述步骤S2进一步为:
S21、采集并构建视频数据集合,从视频数据集合中读取一个视频文件V,将其转换为一组图像帧It,为每个图像帧编号,视频的总帧数记为N;N为自然数;
S22、设置刷新频率的阈值,基于阈值采用第一目标检测模型进行目标检测。
3.根据权利要求2所述的一种基于二分缩减的实时目标检测方法,其特征是,所述步骤S3进一步为:
S31、将视频的第一帧I0输入第一目标检测模型ML,得到人体检测框R0 bbox,人体检测框的个数记为L,每个人体检测框的位置和大小由左上角坐标和宽高表示;
S32、将人体检测框R0 bbox作为当前帧的检测结果R0 final,并在视频的第一帧I0上绘制出来。
4.根据权利要求3所述的一种基于二分缩减的实时目标检测方法,其特征是,所述
步骤S4进一步为:
S41、从第二帧图像开始,采用视频多目标跟踪及动态区域检测算法依序对视频的第t帧图像进行检测,得到当前帧的潜在目标区域Rt move
S42、将当前帧的潜在目标区域Rt move与当前帧的图像It相乘,得到一个包含可能有目标的区域图像It move
S43、将区域图像It move输入第二目标检测模型MS,得到人体检测框Rt bbox,其中人体检测框的个数记为L,每个人体检测框的位置及大小由左上角坐标和宽高表示;
S44、将人体检测框Rt bbox与前一帧的检测结果Rt-1 final进行匹配,得到当前帧的检测结果Rt final
S45、对于没有匹配的检测框,如果是当前帧的检测框,为其分配一个新的编号,加入到当前帧的检测结果Rt final中;如果是前一帧的检测框,检查其是否已经连续消失超过一个阈值M,如果是,则将其从当前帧的检测结果Rt final中删除,否则,保留其在当前帧的检测结果Rt final中,并降低其置信度;
所述步骤S41具体实现过程如下:
S411、根据前一帧的检测结果Rt final,在前一帧图像It-1上绘制出人体检测框,得到一个二值图像Rt bbox
S412、利用光流算法计算出前一帧的图像It-1和当前帧的图像It之间的像素运动,得到一个运动场Mt-1 t
S413、利用背景差分算法计算出前一帧的图像It-1和当前帧的图像It之间的像素差异,得到一个差分图Dt t
5.根据权利要求4所述的一种基于二分缩减的实时目标检测方法,其特征是,所述步骤S5进一步为:
S51、对当前帧的潜在目标区域Rt move进行显著性区域提取,得到显著图St move
S52、对显著图St move进行二值化,得到二值图Bt move,以过滤掉不显著的区域;
S53、对二值图Bt move进行二值图像膨胀算法,得到膨胀图Dt move
S54、对膨胀图Dt move进行连通区域标记,得到标记图Lt move
S55、对标记图Lt move中的每个连通区域,计算出其外接矩形,即最小的能够包含该区域的矩形,得到一个运动区域框Rt bbox,其中运动区域框的个数记为L,每个运动区域框的位置和大小由左上角坐标和宽高表示;
所述步骤S51具体实现过程如下:
S511、计算出当前帧的潜在目标区域Rt move的全局对比度图Ct move,即每个像素与图像中其他像素的差异程度;
S512、计算出当前帧的潜在目标区域Rt move的中心度图Gt move,即每个像素与图像中心的距离程度;
S513、将对比度图Ct move和中心度图Gt move进行加权平均,得到显著图St move
6.根据权利要求5所述的一种基于二分缩减的实时目标检测方法,其特征是,所述步骤S53进一步为:
S531、构建结构元素E,结构元素E为二值矩阵;
S532、对二值图Bt move中的每个像素,将结构元素E与其重叠,如果E中有任何一个像素与Ct move中的像素相等,则将该像素标记为1,否则标记为0;
S533、重复上述步骤S531和S532,对二值图Bt move中的所有像素进行膨胀,得到一个膨胀Dt move
7.根据权利要求6所述的一种基于二分缩减的实时目标检测方法,其特征是,所述步骤S6进一步为:
S61、矩形框排序,
S611、将运动区域框Rt bbox中所有矩形框按高度从大到小排序,记作运动区域框高度集合Rt h
S612、将运动区域框Rt bbox中所有矩形框按面积从大到小排序,记作运动区域框面积集合Rt area
S62、矩形框放置,
S621、构建正方形的盒子B,盒子边长为max(H,W),其中H,W是视频帧的高度和宽度,将B分成四个相等的子盒子B1,B2,B3,B4
S622、从运动区域框高度集合Rt h中取出最高的矩形框r0,将其放入子盒子B1中,使其左上角与子盒子B1的左上角对齐;
S623、从运动区域框面积集合Rt area中取出最大的矩形框r1,将其放入子盒子B2中,使其左上角与子盒子B2的左上角对齐;
S624、重复上述步骤,直到运动区域框高度集合Rt h或运动区域框面积集合Rt area中没有剩余的矩形框为止;如果运动区域框高度集合Rt h中有剩余的矩形框,将其按高度降序排列,依次放入子盒子B3中,使其左对齐,上下紧密排列;如果运动区域框面积集合Rt area中有剩余的矩形框,将其按面积降序排列,依次放入子盒子B4中,使其左对齐,上下紧密排列;
S625、记录每个矩形框在盒子B中的位置和大小;
S626、将盒子B中的所有矩形框裁剪出来,拼接成一个新的图像It new
8.根据权利要求7所述的一种基于二分缩减的实时目标检测方法,其特征是,所述步骤S7进一步为:
S71、将重排列后的图像It new输入第二目标检测模型,得到当前帧的检测结果Rt det
S72、对每个检测结果,设置对应的类别和置信度,以表示该目标属于哪一类以及该检测结果的可靠程度。
9.根据权利要求8所述的一种基于二分缩减的实时目标检测方法,其特征是,所述S8进一步为:
S81、对于每个检测结果Rj det,基于矩形框的交并比找出与其重叠度最高的运动区域框Ri new
S82、根据重叠的运动区域框Ri new,找出其在重排列前的图像中的位置和大小;
S83、根据检测结果Rj det在重排列后的图像中的位置和大小,以及运动区域框Ri new在重排列后的图像中的位置和大小,计算出检测结果Rj det在重排列前的图像中的位置和大小;
S84、根据检测结果Rj bbox在重排列前的图像中的位置和大小,以及运动区域框Ri bbox在原始图像中的位置和大小,计算出检测结果Rj final在原始图像中的位置和大小;
S85、记录每个检测结果在原始图像中的位置和大小。
10.一种二分缩减的实时目标检测系统,其特征是,包括:
至少一个处理器;以及至少一个与所述处理器通信连接的存储器;其中,所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现权利要求1至9任一项所述的基于二分缩减的实时目标检测方法。
CN202410150166.5A 2024-02-02 2024-02-02 基于二分缩减的实时目标检测方法及系统 Active CN117671801B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410150166.5A CN117671801B (zh) 2024-02-02 2024-02-02 基于二分缩减的实时目标检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410150166.5A CN117671801B (zh) 2024-02-02 2024-02-02 基于二分缩减的实时目标检测方法及系统

Publications (2)

Publication Number Publication Date
CN117671801A true CN117671801A (zh) 2024-03-08
CN117671801B CN117671801B (zh) 2024-04-23

Family

ID=90075423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410150166.5A Active CN117671801B (zh) 2024-02-02 2024-02-02 基于二分缩减的实时目标检测方法及系统

Country Status (1)

Country Link
CN (1) CN117671801B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109005409A (zh) * 2018-07-27 2018-12-14 浙江工业大学 一种基于目标检测与跟踪的智能视频编码方法
CN110929560A (zh) * 2019-10-11 2020-03-27 杭州电子科技大学 融合目标检测与跟踪的视频半自动目标标注方法
CN112784738A (zh) * 2021-01-21 2021-05-11 上海云从汇临人工智能科技有限公司 运动目标检测告警方法、装置以及计算机可读存储介质
CN114399629A (zh) * 2021-12-22 2022-04-26 北京沃东天骏信息技术有限公司 一种目标检测模型的训练方法、目标检测的方法和装置
CN115170523A (zh) * 2022-07-14 2022-10-11 哈尔滨工业大学 一种基于局部对比度的低复杂度红外弱小目标检测方法
CN115965865A (zh) * 2022-12-26 2023-04-14 中国电子科技集团公司第三十八研究所 一种基于机场掩膜的遥感图像飞机目标检测方法
CN116030453A (zh) * 2023-02-13 2023-04-28 中科方寸知微(南京)科技有限公司 一种数字电气表计的识别方法、装置及设备
CN116152632A (zh) * 2023-03-07 2023-05-23 沈阳理工大学 一种基于深度学习的空中目标检测方法
CN116385495A (zh) * 2023-04-20 2023-07-04 大连海事大学 一种动态背景下红外视频的运动目标闭环检测方法
CN117095323A (zh) * 2022-05-11 2023-11-21 广州天越电子科技有限公司 一种提高实时视频目标检测性能的方法
US20230410362A1 (en) * 2021-01-20 2023-12-21 Beijing Jingdong Qianshi Technology Co., Ltd. Target object detection method and apparatus, and electronic device, storage medium and program

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109005409A (zh) * 2018-07-27 2018-12-14 浙江工业大学 一种基于目标检测与跟踪的智能视频编码方法
CN110929560A (zh) * 2019-10-11 2020-03-27 杭州电子科技大学 融合目标检测与跟踪的视频半自动目标标注方法
US20230410362A1 (en) * 2021-01-20 2023-12-21 Beijing Jingdong Qianshi Technology Co., Ltd. Target object detection method and apparatus, and electronic device, storage medium and program
CN112784738A (zh) * 2021-01-21 2021-05-11 上海云从汇临人工智能科技有限公司 运动目标检测告警方法、装置以及计算机可读存储介质
CN114399629A (zh) * 2021-12-22 2022-04-26 北京沃东天骏信息技术有限公司 一种目标检测模型的训练方法、目标检测的方法和装置
WO2023116507A1 (zh) * 2021-12-22 2023-06-29 北京沃东天骏信息技术有限公司 一种目标检测模型的训练方法、目标检测的方法和装置
CN117095323A (zh) * 2022-05-11 2023-11-21 广州天越电子科技有限公司 一种提高实时视频目标检测性能的方法
CN115170523A (zh) * 2022-07-14 2022-10-11 哈尔滨工业大学 一种基于局部对比度的低复杂度红外弱小目标检测方法
CN115965865A (zh) * 2022-12-26 2023-04-14 中国电子科技集团公司第三十八研究所 一种基于机场掩膜的遥感图像飞机目标检测方法
CN116030453A (zh) * 2023-02-13 2023-04-28 中科方寸知微(南京)科技有限公司 一种数字电气表计的识别方法、装置及设备
CN116152632A (zh) * 2023-03-07 2023-05-23 沈阳理工大学 一种基于深度学习的空中目标检测方法
CN116385495A (zh) * 2023-04-20 2023-07-04 大连海事大学 一种动态背景下红外视频的运动目标闭环检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CUONG CAO PHAM等: "Robust object proposals re-ranking for object detection in autonomous driving using convolutional neural networks", 《SIGNAL PROCESSING: IMAGE COMMUNICATION》, vol. 53, 30 April 2017 (2017-04-30), pages 110 - 122, XP029940900, DOI: 10.1016/j.image.2017.02.007 *
ZHENTAO JIANG等: "Weakly Supervised Salient Object Detection with Box Annotation", 《ACPR 2021: PATTERN RECOGNITON》, vol. 13188, 11 May 2022 (2022-05-11), pages 197 - 211 *
杨健: "基于深度学习的无人机小目标检测", 《中国优秀硕士学位论文全文数据库 工程科技II辑》, no. 2, 15 February 2023 (2023-02-15), pages 031 - 1014 *
王玮光: "结合超分辨率技术的目标检测算法研究与应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 5, 15 May 2022 (2022-05-15), pages 138 - 602 *

Also Published As

Publication number Publication date
CN117671801B (zh) 2024-04-23

Similar Documents

Publication Publication Date Title
CN110929593B (zh) 一种基于细节辨别区别的实时显著性行人检测方法
CN112232371B (zh) 一种基于YOLOv3与文本识别的美式车牌识别方法
CN111753682B (zh) 一种基于目标检测算法的吊装区域动态监控方法
CN107273832B (zh) 基于积分通道特征与卷积神经网络的车牌识别方法及系统
CN111310622A (zh) 一种面向水下机器人智能作业的鱼群目标识别方法
CN112307919B (zh) 一种基于改进YOLOv3的单证图像中数字信息区域识别方法
CN113076871A (zh) 一种基于目标遮挡补偿的鱼群自动检测方法
CN114627052A (zh) 一种基于深度学习的红外图像漏气漏液检测方法及系统
CN111091101B (zh) 基于一步法的高精度行人检测方法、系统、装置
CN116579616B (zh) 一种基于深度学习的风险识别方法
CN106373146A (zh) 一种基于模糊学习的目标跟踪方法
CN111368634B (zh) 基于神经网络的人头检测方法、系统及存储介质
CN115187786A (zh) 一种基于旋转的CenterNet2目标检测方法
CN115019201B (zh) 一种基于特征精细化深度网络的弱小目标检测方法
CN113989604A (zh) 基于端到端深度学习的轮胎dot信息识别方法
CN115424017A (zh) 一种建筑物内外轮廓分割方法、装置及存储介质
CN116703919A (zh) 一种基于最优传输距离损失模型的表面杂质检测方法
CN113963333B (zh) 一种基于改进yolof模型的交通标志牌检测方法
CN114550014A (zh) 道路分割方法及计算机装置
CN117671801B (zh) 基于二分缩减的实时目标检测方法及系统
CN111476226A (zh) 一种文本定位方法、装置及模型训练方法
CN110889418A (zh) 一种气体轮廓识别方法
de Sa Lowande et al. Analysis of post-disaster damage detection using aerial footage from uwf campus after hurricane sally
CN116912670A (zh) 基于改进yolo模型的深海鱼类识别方法
CN115471773A (zh) 一种面向智慧教室的学生跟踪方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant