CN117671801A

CN117671801A - 基于二分缩减的实时目标检测方法及系统

Info

Publication number: CN117671801A
Application number: CN202410150166.5A
Authority: CN
Inventors: 冷聪
Original assignee: Zhongke Fangcun Zhiwei Nanjing Technology Co ltd
Current assignee: Zhongke Fangcun Zhiwei Nanjing Technology Co ltd
Priority date: 2024-02-02
Filing date: 2024-02-02
Publication date: 2024-03-08
Anticipated expiration: 2044-02-02
Also published as: CN117671801B

Abstract

本发明提出了一种基于二分缩减的实时目标检测方法及系统，包括：构建两个不同的目标检测模型；输入一个视频以及一个刷新频率；处理视频的第一帧，得到人体检测框；处理视频的后续帧，用二值图来表示当前帧的潜在目标区域；对潜在目标区域进行显著性区域提取；对运动区域框进行重排列；对重排列后的图像进行目标检测，输出当前帧的检测结果；逐一对比重排列后的图像的检测结果和重排列前的图像的运动区域框，计算出当前帧的检测结果在原始图像中的位置和大小；直到视频检测结束。本发明方案能够解决目标检测模型对实际应用场景中小目标物体效果不佳，容易漏检的问题。

Description

基于二分缩减的实时目标检测方法及系统

技术领域

本发明属于人体检测技术领域，尤其为一种基于二分缩减的实时目标检测方法及系统。

背景技术

深度卷积神经网络模型在目标检测任务中效果非常好，在实际场景中应用也比较广泛。但是目前的目标检测模型对实际应用场景中小目标物体效果不佳，容易漏检。其主要原因是：实际应用场景中监控摄像头视野范围越来越大，如果目标距离摄像头比较远，其在图像中的大小一般比较小。目标检测模型的预处理步骤一般会对输入图像进行缩放成固定尺寸，导致小目标物体会变得更小，模型更难捕捉相关。

针对实际应用场景中小目标漏检的现象，基于检测目标扣图重新拼组去除图像背景区域从而凸显检测目标的思路，解决目标检测模型的输入图像预处理步骤中图像形状尺寸归一化操作导致的小目标检测漏检的问题。解决上述问题的一般方案是将图像或视频中的检测目标从原来的图像中抠出来，重新排列，拼成一个新的图片，从而去除了图像的背景区域，减弱了目标检测模型的输入图像预处理步骤中尺寸归一化带来的影响，以实现增大图像中小目标的检测准确率。

为了可能保证重排列后的图像的目标检测结果的准确性。一般来说需要满足以下两个条件：重排列后的图像的面积尽可能小，以实现最大程度去除背景区域；重排列后的图像的尺寸尽可能接近正方形，以避免目标检测模型的输入图像预处理步骤中的尺寸归一化带来的小目标形变导致的漏检或错检。为了保证整个方案的实时性，还应满足第三个条件：重排列算法要足够高效。当前重排列技术的重排列算法只部分考虑了条件，即重排列后的图像的面积最小。导致了现有技术方案的以下缺点：一是速度慢，现有技术方案设计了复杂的重排列算法，以保证图像的面积最小，这直接导致了现有技术方案的耗时长，效率低下。二是不能支持目标检测加速，由于目标检测一般要求输入一个正方形图像，因此需要对输入图像进行尺寸归一化。现有技术方案重排序后形成的新的图像的形状不能保证接近正方形，尺寸归一化预处理会导致小目标图像区域发生较大的未保持原图像区域长宽比例的拉伸，使得已训练好的模型不能正确识别小目标。

因此需要研究创新，以解决现有技术存在的上述问题。

发明内容

发明目的，提出一种基于二分缩减的实时目标检测方法，以解决上述现有技术存在的上述问题。进一步目的是提出一种实现上述方法的系统。

技术方案，根据本申请的一个方面，提供一种基于二分缩减的实时目标检测方法，包括：

S1，构建至少两个用于在视频中检测出人体位置和大小的目标检测模型，并初始化系统；目标检测模型包括第一目标检测模型和第二目标检测模型，其中第一目标检测模型的精度高于第二目标模型，计算速度低于第二目标检测模型；

S2，采集并构建视频数据集合，获取至少一个视频以及至少一个刷新频率作为输入；

S3，获取视频的第一帧图像，采用第一目标检测模型进行目标检测，得到人体检测框；

S4，针对视频中第二帧起的后续各帧，采用多目标跟踪及动态区域检测算法进行检测，并使用二值图来表示当前帧的潜在目标区域R_t ^move；

S5，针对每一潜在目标区域R₁ ^move，采用二值图像膨胀算法，确定图像的运动区域框R_t ^bbox，以提取潜在目标区域中的显著性区域：

S6，采用二分缩减的矩形框重排列算法对运动区域框R_t ^bbox进行重排，获得重排列后图像I_t ^new，以及运动区域框R_t ^bbox在图像I_t ^new中的位置R_t ^new；

S7，采用第二目标检测模型对重排列后的图像I_t ^new进行目标检测，输出当前帧的检测结果R_t ^det，检测结果R_t ^det包括每个目标的位置和大小；

S8，逐一对比重排列后的图像的检测结果R_t ^det和重排列前图像的运动区域框R_t ^bbox的矩形框，构建矩形框的对应关系，对应计算出当前帧的检测结果在原始图像中的位置和大小，即R_t ^final；t为自然数；

S9，重复步骤S4至S8，直至完成检测工作。

根据本申请的一个方面，所述步骤S1中进一步为：

S11、构建第一目标检测模型M_L和第二目标检测模型M_S，第一目标检测模型M_L的参数量大于第二目标检测模型，精度高于第二目标检测模型，计算速度低于第二目标检测模型；

S12、初始化至少一个正方形的盒子B，用来放置图像中的目标区域，盒子的边长为S，初始值为0；

S13、初始化用来记录放置是否成功的变量Q，Q的初始值为True；

S14、初始化用来确定盒子最小边长的上界U和下界L，其中，上界的初始值为运

动区域框R_t ^bbox中所有矩形框的宽、高的总长度的最大值；下界的初始值0；

所述步骤S2进一步为：

S21、采集并构建视频数据集合，从视频数据集合中读取一个视频文件V，将其转换为一组图像帧I_t，为每个图像帧编号，视频的总帧数记为N；N为自然数；

S22、设置刷新频率的阈值，基于阈值采用第一目标检测模型进行目标检测。

根据本申请的一个方面，所述步骤S3进一步为：

S31、将视频的第一帧I₀输入第一目标检测模型M_L，得到人体检测框R₀ ^bbox，人体检测框的个数记为L，每个人体检测框的位置和大小由左上角坐标和宽高表示；

S32、将人体检测框R₀ ^bbox作为当前帧的检测结果R₀ ^final，并在视频的第一帧I₀上绘制出来。

根据本申请的一个方面，步骤S4进一步为：

S41、从第二帧图像开始，采用视频多目标跟踪及动态区域检测算法依序对视频的第t帧图像进行检测，得到当前帧的潜在目标区域R_t ^move；

S42、将当前帧的潜在目标区域R_t ^move与当前帧的图像I_t相乘，得到一个包含可能有目标的区域图像I_t ^move；

S43、将区域图像I_t ^move输入第二目标检测模型M_S，得到人体检测框R_t ^bbox，其中人体检测框的个数记为L，每个人体检测框的位置及大小由左上角坐标和宽高表示；

S44、将人体检测框R_t ^bbox与前一帧的检测结果R_t-1 ^final进行匹配，得到当前帧的检测结果R_t ^final；

S45、对于没有匹配的检测框，如果是当前帧的检测框，为其分配一个新的编号，加入到当前帧的检测结果R_t ^final中；如果是前一帧的检测框，检查其是否已经连续消失超过一个阈值M，如果是，则将其从当前帧的检测结果R_t ^final中删除，否则，保留其在当前帧的检测结果R_t ^final中，并降低其置信度；

所述步骤S41具体实现过程如下：

S411、根据前一帧的检测结果R_t-1 ^final，在前一帧图像I_t-1上绘制出人体检测框，得到一个二值图像R_t-1 ^bbox；

S412、利用光流算法计算出前一帧的图像I_t-1和当前帧的图像I_t之间的像素运动，得到一个运动场M_t-1 ^t；

S413、利用背景差分算法计算出前一帧的图像I_t-1和当前帧的图像I_t之间的像素差异，得到一个差分图D_t-1 ^t。

根据本申请的一个方面，所述步骤S5进一步为：

S51、对当前帧的潜在目标区域R_t ^move进行显著性区域提取，得到显著图S_t ^move；

S52、对显著图S_t ^move进行二值化，得到二值图B_t ^move，以过滤掉不显著的区域；

S53、对二值图B_t ^move进行二值图像膨胀算法，得到膨胀图D_t ^move；

S54、对膨胀图D_t ^move进行连通区域标记，得到标记图L_t ^move；

S55、对标记图L_t ^move中的每个连通区域，计算出其外接矩形，即最小的能够包含该区域的矩形，得到一个运动区域框R_t ^bbox，其中运动区域框的个数记为L，每个运动区域框的位置和大小由左上角坐标和宽高表示；

所述步骤S51具体实现过程如下：

S511、计算出当前帧的潜在目标区域R_t ^move的全局对比度图C_t ^move，即每个像素与图像中其他像素的差异程度；

S512、计算出当前帧的潜在目标区域R_t ^move的中心度图G_t ^move，即每个像素与图像中心的距离程度；

S513、将对比度图C_t ^move和中心度图G_t ^move进行加权平均，得到显著图S_t ^move。

根据本申请的一个方面，所述步骤S53进一步为：

S531、构建结构元素E，结构元素E为二值矩阵；

S532、对二值图B_t ^move中的每个像素，将结构元素E与其重叠，如果E中有任何一个像素与C_t ^move中的像素相等，则将该像素标记为1，否则标记为0；

S533、重复上述步骤S531和S532，对二值图B_t ^move中的所有像素进行膨胀，得到一个膨胀D_t ^move。

根据本申请的一个方面，所述步骤S6进一步为：

S61、矩形框排序，

S611、将运动区域框R_t ^bbox中所有矩形框按高度从大到小排序，记作运动区域框高度集合R_t ^h；

S612、将运动区域框R_t ^bbox中所有矩形框按面积从大到小排序，记作运动区域框面积集合R_t ^area；

S62、矩形框放置，

S621、构建正方形的盒子B，盒子边长为max(H,W)，其中H，W是视频帧的高度和宽度，将B分成四个相等的子盒子B₁,B₂,B₃,B₄；

S622、从运动区域框高度集合R_t ^h中取出最高的矩形框r₀，将其放入子盒子B₁中，使其左上角与子盒子B₁的左上角对齐；

S623、从运动区域框面积集合R_t ^area中取出最大的矩形框r₁，将其放入子盒子B₂中，使其左上角与子盒子B₂的左上角对齐；

S624、重复上述步骤，直到运动区域框高度集合R_t ^h或运动区域框面积集合R_t ^area中没有剩余的矩形框为止；如果运动区域框高度集合R_t ^h中有剩余的矩形框，将其按高度降序排列，依次放入子盒子B₃中，使其左对齐，上下紧密排列；如果运动区域框面积集合R_t ^area中有剩余的矩形框，将其按面积降序排列，依次放入子盒子B₄中，使其左对齐，上下紧密排列；

S625、记录每个矩形框在盒子B中的位置和大小；

S626、将盒子B中的所有矩形框裁剪出来，拼接成一个新的图像I_t ^new。

根据本申请的一个方面，所述步骤S7进一步为：

S71、将重排列后的图像I_t ^new输入第二目标检测模型，得到当前帧的检测结果R_t ^det；

S72、对每个检测结果，设置对应的类别和置信度，以表示该目标属于哪一类以及该检测结果的可靠程度。

根据本申请的一个方面，所述S8进一步为：

S81、对于每个检测结果R_j ^det，基于矩形框的交并比找出与其重叠度最高的运动区域框R_i ^new；

S82、根据重叠的运动区域框R_i ^new，找出其在重排列前的图像中的位置和大小；

S83、根据检测结果R_j ^det在重排列后的图像中的位置和大小，以及运动区域框R_i ^new在重排列后的图像中的位置和大小，计算出检测结果R_j ^det在重排列前的图像中的位置和大小；

S84、根据检测结果R_j ^bbox在重排列前的图像中的位置和大小，以及运动区域框R_i ^bbox在原始图像中的位置和大小，计算出检测结果R_j ^final在原始图像中的位置和大小；

S85、记录每个检测结果在原始图像中的位置和大小。

根据本申请的另一个方面，一种基于二分缩减的实时目标检测系统，其特征是，包括：

至少一个处理器；以及至少一个与所述处理器通信连接的存储器；其中，所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现上述任一项技术方案所述的基于二分缩减的实时目标检测方法。

有益效果，采用视频多目标跟踪及动态区域检测算法检测视频帧的潜在目标区域，能够以较小的代价大致定位目标检测对象；采用新设计的基于二分缩减的矩形框重排列算法，能够确定最优的正方形框盒子，以放下所有的矩形框，构建出重排列后的图像；

采用较小的目标检测模型对重排列图像进行目标检测，可以节省更多的目标检测算法时间；采用较大的目标检测模型定期对视频帧进行精细的目标检测，可以刷新目标跟踪和动态区域定位的准确度，避免误差的累积，保证了最终本专利算法的精度。

附图说明

图1是本发明的流程图。

图2是本发明步骤S1的流程图。

图3是本发明步骤S2的流程图。

图4是本发明步骤S3的流程图。

图5是本发明步骤S4的流程图。

图6是本发明步骤S5的流程图。

图7是本发明步骤S6的流程图。

图8是本发明步骤S8的流程图。

具体实施方式

下面通过实施例，并结合附图1至8，对本发明的技术方案做进一步具体说明。

如图1所示，本实施例实现了一种基于二分缩减的实时目标检测方法，包括：

S1，构建两个不同的目标检测模型，一个快速但粗糙的，另一个慢速但精细的，且两个模型都能在视频中检测出人体的位置和大小；

S2，读取并输入一个视频以及一个刷新频率；其中视频是由一系列的图像帧组成的，每个图像帧都有一个序号，从0开始，刷新频率是一个预定数字，表示每隔多少帧，就用精细的模型进行一次目标检测；

S3，视频的第一帧处理：采用精细的模型进行目标检测，得到人体检测框；人体检测框是一个矩形，用来表示人体在图像中的位置和大小；

S4，视频的后续帧处理：采用一种视频多目标跟踪及动态区域检测算法，用黑白图来表示当前帧的可能有目标的区域，黑白图是一个二值图像，其中白色的部分表示可能有目标的区域，黑色的部分表示没有目标的区域，用二值图来表示当前帧的潜在目标区域，记为R_t ^move；

S5，对潜在目标区域进行显著性区域提取：采用二值图像膨胀算法，确定图像的运动区域框，记为R_t ^bbox；运动区域框是一个矩形，用来表示当前帧有多少个区域是可能的目标存在区域，以及每个区域的位置和大小；

S6，对运动区域框进行重排列：用以得到重排列后的图像，以及运动区域框在重排列后的图像中的位置；重排列的目的是使得运动区域框能够尽可能紧凑地放进一个正方形的盒子里，同时保持原来的朝向，不发生翻转或重叠；

S7，采用快速的模型对重排列后的图像进行目标检测，输出当前帧的检测结果，即每个目标的位置和大小，用R_t ^det来表示当前帧的检测结果；对每个检测结果，还有对应的类别和置信度，表示该目标属于哪一类，以及该检测结果的可靠程度；

S8，逐一对比重排列后的图像的检测结果和重排列前的图像的运动区域框，构建它们之间的对应关系，对应计算出当前帧的检测结果在原始图像中的位置和大小，即R_t ^final；

S9，重复步骤S4至S8，直到视频结束；如果当前帧是刷新频率的整数倍数时，就用精细的模型进行一次目标检测，得到当前帧的精细的目标检测框。

在本实施例中，采用二分缩减的矩形框重排列算法的目标检测加速方法，能够有效地解决现有技术中重排列后的图像的形状不接近正方形的问题，提高了目标检测的准确性和效率；采用多目标跟踪及动态区域检测算法的目标检测加速方法，能够有效地解决现有技术中无法根据视频的帧间运动信息动态确定潜在目标区域的问题，提高了目标检测的精度和鲁棒性；采用至少两个不同精度和速度的目标检测模型的目标检测加速方法，能够有效地解决现有技术中无法根据视频的刷新频率动态选择合适的模型进行目标检测的问题，平衡了目标检测的性能和效率。通过多目标跟踪及动态区域检测算法，能够根据视频的帧间运动信息，动态地确定潜在目标区域，减少了无关区域的干扰，提高了目标检测的精度。

总之，本实施例能够有效地提高小目标物体的检测准确率，减少漏检和错检的情况，提高目标检测的质量；能够有效地降低目标检测模型的计算复杂度和资源消耗，提高目标检测的速度和效率，适用于边缘计算设备；能够灵活地适应不同的视频场景和目标检测模型，具有较强的通用性和可扩展性。

如图2所示，根据本发明进一步改进，所述步骤S1具体包括：

S11、构建两个目标检测模型：分别命名为M_L和M_S，M_L是一个参数量大、精度高的模型，M_S是一个参数量小、精度较低的模型；

S12、初始化一个正方形的盒子B，用来放置图像中的目标区域：盒子的边长记为S，初始值为0；

S13、初始化一个变量Q：用来记录放置是否成功，Q的初始值为True；

S14、初始化一个上下界：用来确定盒子的最小边长，上界记为U，初始值为R_t ^bbox中所有矩形框的宽、高的总长度的最大值，即U₀=max(H₀,W₀)，H₀=∑_i=0 ^L-1h_i，W₀=∑_i=0 ^L-1w_i，下界记为L，初始值为0，即L₀=0。

本步骤构建了两个模型，利用两个目标检测模型的不同性能，结合了精度和速度的优势，具体来说，ML模型用来评估动态区域的合理性，MS模型用来评估可检测性，两者相互配合，达到了最佳的效果。

如图3所示，根据本发明进一步改进，所述步骤S2具体包括：

S21、读取一个视频文件，将其转换为一系列的图像帧，每个图像帧都有一个序号，从0开始，记为t，视频的总帧数记为N，即V={I_t}_t=0 ^N-1；

S22、设置一个刷新频率，表示每隔多少帧，就用精细的模型进行一次目标检，刷新频率可以根据视频的帧率和目标检测的精度要求进行调整。

在进一步的实施例中，还可以采用动态的刷新频率设置方法，根据视频的帧率和目标检测的精度要求进行调整，而不是固定地对每一帧进行目标检测。这样，可以避免对无关或重复的帧进行冗余的计算，同时保证对关键帧进行充分的分析，从而提高目标检测的性能。

如图4所示，根据本发明进一步改进，所述步骤S3中视频的第一帧处理具体包括：

S31、将视频的第一帧I₀输入精细的模型M_L，得到人体检测框R₀ ^bbox：人体检测框的个数记为L，每个人体检测框的位置和大小由左上角坐标和宽高表示，即R₀ ^bbox={r_i=(x_i,y_i,h_i,w_i)}_i=0 ^L-1；

S32、将人体检测框R₀ ^bbox作为当前帧的检测结果R₀ ^final，并在I₀上绘制出来。

在本实施例中，只需要输入精细的模型ML，不需要额外的预处理或后处理，简化了流程，提高了效率；精细的模型ML可以利用深度学习技术，对人体进行准确的检测，提高了准确率；人体检测框的位置和大小可以用简单的坐标和尺寸表示，方便了后续的跟踪和匹配，降低了复杂度。

如图5所示，根据本发明进一步改进，所述步骤S4中视频的后续帧处理具体包括：

S41、对视频的第t+1帧I_t，采用视频多目标跟踪及动态区域检测算法，得到当前帧的潜在目标区域R_t ^move；

S42、将当前帧的潜在目标区域R_t ^move与当前帧的图像I_(t+1)相乘，得到一个只包含可能有目标的区域的图像I_t ^move；

S43、将图像I_t ^move输入粗糙的模型M_S，得到人体检测框R_t ^bbox，其中人体检测框的个数记为L，每个人体检测框的位置和大小由左上角坐标和宽高表示，即R_t+1 ^bbox={r_i=(x_i,y_i,h_i,w_i)}_i=0 ^L-1；

S45、对于没有匹配的检测框，如果是当前帧的检测框，为其分配一个新的编号，加入到当前帧的检测结果R_t ^final中；如果是前一帧的检测框，检查其是否已经连续消失超过一个阈值M，如果是，则将其从当前帧的检测结果R_t ^final中删除，否则，保留其在当前帧的检测结果R_t ^final中，但降低其置信度。

根据本发明进一步改进，所述步骤S41具体实现过程如下：

S411、根据前一帧的检测结果R_t-1 ^final，在前一帧的图像I_t-1上绘制出人体检测框，得到一个二值图像R_t-1 ^bbox；

S412、利用光流算法，计算出前一帧的图像I_t-1和当前帧的图像I_t之间的像素运动，得到一个运动场M_t-1 ^t；

S413、利用背景差分算法，计算出前一帧的图像I_t-1和当前帧的图像I_t之间的像素差异，得到一个差分图D_t-1 ^t。

在本实施例中，将视频多目标跟踪和动态区域检测相结合，实现了对视频中的人体的快速定位和跟踪；将精细的模型ML和粗糙的模型MS相结合，实现了对人体的高精度检测和高效率跟踪；将运动信息和时空约束相结合，实现了对人体的高鲁棒性匹配和跟踪。

采用视频多目标跟踪及动态区域检测算法，可以根据前一帧的检测结果，预测当前帧的潜在目标区域，减少了无关区域的干扰，提高了鲁棒性；将当前帧的潜在目标区域与当前帧的图像相乘，可以得到一个只包含可能有目标的区域的图像，减少了计算量，提高了速度；将图像输入粗糙的模型MS，可以利用深度学习技术，对人体进行快速的检测，提高了效率；将人体检测框与前一帧的检测结果进行匹配，可以利用运动信息和时空约束，对人体进行准确的跟踪，提高了准确率；对于没有匹配的检测框，可以根据编号、消失时间和置信度，进行合理的处理，提高了鲁棒性。

对视频中的多个人体进行实时的检测和跟踪，生成每个人体的轨迹；可以处理各种复杂的场景，如遮挡、光照变化、视角变化、目标外观变化等，保持跟踪的稳定性和连续性；可以在保证准确率的同时，提高速度和效率，适用于实时的视频分析应用。

如图6所述，根据本发明进一步改进，所述步骤S5中对潜在目标区域进行显著性区域提取具体包括：

S51、对当前帧的潜在目标区域R_t ^move进行显著性区域提取，得到一个显著图S_t ^move；

S52、对显著图S_t ^move进行二值化，得到一个二值图B_t ^move，即若S_t ^move（x,y）>T，B_t ^move(x,y)=1，否则B_t ^move(x,y)=0；其中T是一个阈值，用来过滤掉不显著的区域；

S53、对二值图B_t ^move进行二值图像膨胀算法，得到一个膨胀图D_t ^move；

S54、对膨胀图D_t ^move进行连通区域标记，得到一个标记图L_t ^move；

S55、对标记图L_t ^move中的每个连通区域，计算出其外接矩形，即最小的能够包含该区域的矩形，得到一个运动区域框R_t ^bbox，其中运动区域框的个数记为L，每个运动区域框的位置和大小由左上角坐标和宽高表示。

根据本发明进一步改进，所述步骤S51具体实现过程如下：

S511、计算出当前帧的潜在目标区域R_t ^move的全局对比度图C_t ^move，即每个像素与图像中其他像素的差异程度，记为：

C_t ^move(x,y)=∑_(i,j=0)(H,W-1)|R_t ^move(x,y)-R_t ^move(i,j)|；

S512、计算出当前帧的潜在目标区域R_t ^move的中心度图G_t ^move，即每个像素与图像中心的距离程度，记为：

G_t ^move(x,y)=sqrt((x-H/2)²+(y-W/2)²)；

S513、将对比度图C_t ^move和中心度图G_t-1 ^move进行加权平均，得到显著图S_t ^move，记为：

S_t ^move(x,y)=β×C_t ^move(x,y)+(1-β)×G_t ^move(x,y)，其中β是一个权重系数。

根据本发明进一步改进，所述步骤S53具体实现过程如下：

S531、定义一个结构元素E，即一个小的二值矩阵；

S532、对二值图B_t ^move中的每个像素，将结构元素E与其重叠，如果E中有任何一个像素与C_(t-1) ^move中的像素相等，即E(i,j)=B_t ^move(x+i,y+j)，则将该像素标记为1，否则标记为0，即D_t ^move(x,y)=max_(i,j∈E)B_t ^move(x+i,y+j)；

S533、重复上述步骤，对二值图B_t ^move中的所有像素进行膨胀，得到一个膨胀D_t ^move。

在本实施例中，能够有效地提取出当前帧的潜在目标区域中的显著性区域，即人眼关注的区域，从而减少了后续处理的计算量和复杂度，提高了目标检测的效率和准确性。综合了全局对比度和中心度两种显著性特征，能够兼顾图像中的高对比度区域和靠近中心的区域，同时通过加权平均的方式调节两种特征的权重，使得显著图更加符合人类视觉的特点。能够生成清晰的显著图，突出显示图像中的显著性区域，同时通过二值化、膨胀和连通区域标记的操作，能够将显著性区域分割出来，得到一个个的运动区域框，为后续的目标跟踪提供了有效的候选区域。针对视频序列中的潜在目标区域进行了改进和优化，使得显著性检测更加适用于视频目标检测的场景，提高了显著性检测的实用性和通用性。

如图7所示，根据本发明进一步改进，所述步骤S6中对运动区域框进行重排列具体包括：

S61、矩形框排序：

S611、按矩形框的高排序，将R_t ^bbox中所有矩形框{r_i=(x_i,y_i,h_i,w_i)}_i=0 ^L-1按高度从大到小排序，仍记为R_t ^h；

S612、按矩形框的面积排序，将R_t ^bbox中所有矩形框{r_i=(x_i,y_i,h_i,w_i)}_i=0 ^L-1按面积从大到小排序，仍记为R_t ^area；

S62、矩形框放置：

S621、给定一个正方形的盒子B，其边长为max(H,W)，其中H，W是视频帧的高度和宽度，将B分成四个相等的子盒子B₁,B₂,B₃,B₄；

S622、从R_t ^h中取出最高的矩形框r₀，将其放入B₁中，使其左上角与B₁的左上角对齐；

S623、从R_t ^area中取出最大的矩形框r₁，将其放入B₂中，使其左上角与B₂的左上角对齐；

S624、重复上述步骤，直到R_t ^h或R_t ^area中没有剩余的矩形框为止；如果R_t ^h中有剩余的矩形框，将其按高度降序排列，依次放入B₃中，使其左对齐，上下紧密排列；如果R_t ^area中有剩余的矩形框，将其按面积降序排列，依次放入B₄中，使其左对齐，上下紧密排列；

S625、记录每个矩形框在B中的位置和大小，即R_t ^new={r_i=(x_i,y_i,h_i,w_i)}_i=0 ^L-1；

S626、将B中的所有矩形框裁剪出来，拼接成一个新的图像I_t ^new。

在本实施例中，可以有效地利用空间，将运动区域框紧凑地放入一个正方形的盒子中，减少了无效的背景区域，提高了图像的信息密度；可以保持运动区域框的相对大小和位置，避免了对运动区域框进行缩放或旋转等变换，从而保留了运动区域框的原始特征；可以根据运动区域框的高度和面积进行排序，使得高度和面积较大的运动区域框优先放置，从而突出了运动区域框的重要性；可以将运动区域框分成两类，一类是按高度排序的，一类是按面积排序的，从而为后续的特征提取和识别提供了不同的视角和依据。

通过将运动区域框从原始的视频帧中分离出来，形成一个新的图像，从而降低了视频帧的复杂度，简化了后续的处理流程；通过将运动区域框的位置和大小进行标准化，从而消除了视频帧之间的差异，增强了运动区域框的可比较性；通过将运动区域框的高度和面积作为排序的依据，从而反映了运动区域框的重要程度，为后续的特征提取和识别提供了有价值的信息；通过将运动区域框分成两类，从而为后续的特征提取和识别提供了多样化的选择，可以根据不同的场景和需求，选择合适的运动区域框进行处理。

根据本发明进一步改进，所述步骤S7中对重排列后的图像进行目标检测具体包括：

S71、将重排列后的图像I_(t+1) ^new输入快速的模型M_S，得到当前帧的检测结果R_t ^det，其中检测结果的个数记为K，每个检测结果的位置和大小由左上角坐标和宽高表示，即R_t ^det={r_j ^det=(x_j ^det,y_j ^det,h_j,w_j)}_j=0 ^K-1；

S72、对每个检测结果，设置对应的类别和置信度，表示该目标属于哪一类，以及该检测结果的可靠程度，类别是一个数字，表示目标的种类；置信度是一个0到1之间的小数，表示检测结果的正确概率；检测结果的类别和置信度表示为：C_t ^det={c_j ^det=(l_j ^det,s_j ^det)}_j=0 ^K-1，其中l_j ^det是第j个检测结果的类别，s_j ^det是第j个检测结果的置信度。

在本实施例中，可以利用运动区域框的信息，减少检测的范围和复杂度，提高检测的速度和精度。它的优势是可以使用一个快速的模型MS，而不需要一个复杂的模型ML，从而节省计算资源和时间。它的技术效果是可以得到当前帧的检测结果R_t ^det，以及每个检测结果的类别和置信度C_t ^det，这些信息可以用于后续的处理和分析。将运动区域框作为一个重要的先验信息，引入到目标检测的过程中，从而提升目标检测的性能。

如图8所示，根据本发明进一步改进，所述步骤S8中计算当前帧的检测结果在原始图像中的位置和大小具体包括：

S81、对于每个检测结果R_j ^det，找出与其重叠度最高的运动区域框R_i ^new，即IOU(r_j ^det,r_i ^new)=max_i=0 ^L-1IOU(R_j ^det,R_i ^new)，其中IOU是两个矩形框的交并比；

S82、根据重叠的运动区域框R_i ^new，找出其在重排列前的图像中的位置和大小，R_i ^bbox，即R_i ^bbox=(x_i,y_i,h_i,w_i)；

S83、根据检测结果r_j ^det在重排列后的图像中的位置和大小，以及运动区域框R_i ^new在重排列后的图像中的位置和大小，计算出检测结果R_j ^det在重排列前的图像中的位置和大小，即R_j ^bbox，即R_j ^bbox=(x_j ^bbox,y_j ^bbox,h_j,w_j)，其中x_j ^bbox=x_i+x_j ^det，y_j ^bbox=y_i+y_j ^det；

S84、根据检测结果r_j ^bbox在重排列前的图像中的位置和大小，以及运动区域框r_i ^bbox在原始图像中的位置和大小，计算出检测结果r_j ^final在原始图像中的位置和大小，即_rj ^final=(x_j ^final,y_j ^final,h_j,w_j)，其中x_j ^final=x_i ^bbox+x_j ^bbox×w_i/w_i ^new，y_j ^final=y_i ^bbox+y_j ^bbox×h_i/h_i ^new；

S85、记录每个检测结果在原始图像中的位置和大小，即R_t+1 ^final={r_j ^final=(x_j ^final _,y_j ^final,h_j,w_j)}_j=0 ^K-1。

在本实施例中，可以恢复检测结果的真实尺度和位置，使得检测结果更符合实际情况。它的优势是可以利用运动区域框在重排列前后的图像中的位置和大小的关系，以及检测结果在重排列后的图像中的位置和大小的关系，通过简单的数学运算，得到检测结果在原始图像中的位置和大小。它的技术效果是可以得到当前帧的检测结果在原始图像中的位置和大小R_t ^final，这些信息可以用于显示或输出检测结果，或者作为后续的跟踪或识别的输入。将运动区域框作为一个重要的转换因子，引入到目标检测的结果恢复的过程中，从而提升目标检测的准确性。

根据本发明进一步改进，所述步骤S9具体包括：

S91、将当前帧的序号t加一，即t=t+1；

S92、判断是否到达视频的最后一帧，即t=N-1，如果是，则结束算法，否则继续；S93、判断当前帧是否是刷新频率的整数倍数，即t mod P=0，如果是，则执行步骤

S93，否则执行步骤S94；

S94、重复步骤S91至S93，直到视频结束。

在本申请的另一实施例中，还包括一种基于图像梯度和光滑性的光流算法，用以估计出相邻两帧图像之间的像素运动；具体实现过程如下：

S412a、计算出前一帧的图像I_t-1和当前帧的图像I_t的梯度，即图像的灰度值在水平方向和垂直方向的变化率，记为I_x,I_y,I_t；

S412b、对每个像素，假设其在相邻两帧图像之间的运动是匀速的，即I_t-1(x,y)=I_t(x+u,y+v)，其中u,v是像素的水平和垂直方向的运动量，也就是光流，将这个假设代入梯度方程，得到I_xu+I_yv=-I_t；

S412c、对每个像素，找出其周围的一个小窗口，例如5×5的像素区域，假设这个窗口内的所有像素的光流是相同的，即u,v是常数，将这个假设代入梯度方程，得到一个线性方程组，用最小二乘法求解，得到u,v的近似值；

S412d、重复上述步骤，对图像中的所有像素求解光流，得到一个运动场M_t-1 ^t={m_i=(u_i,v_i)}_(i=0) ^(H×W-1)，其中H,W是图像的高度和宽度，每个像素的位置和大小由左上角坐标和宽高表示，即I_t-1={p_i=(x_i,y_i,1,1)}_(i=0) ^(H×W-1)；

在本申请的另一实施例中，还包括一种基于像素灰度值的背景差分算法，用以检测出图像中的运动区域；具体实现过程如下：

S413a、对于每个像素，计算出前一帧的图像I_(t-1)和当前帧的图像I_(t+1)的灰度值之差，即D_(t-1) ^(t+1)(x,y)=|I_(t-1)(x,y)-I_(t+1)(x,y)|；

S413b、对于每个像素，如果其灰度值之差大于一个阈值T，说明该像素发生了运动，将其标记为白色，否则标记为黑色，即若D_t-1 ^t(x,y)>T，则R_t-1 ^t(x,y)=1，否则R_t-1 ^t(x,y)=0；

S413c、对于每个像素，如果其周围有一定比例的像素是白色的，说明该像素属于运动区域，将其保留为白色，否则将其去除为黑色，即若∑_{(i,j∈N(x,y))}R_t-1 ^t(i,j)>P，则R_t-1 ^move(x,y)=1，否则R_t-1 ^move(x,y)=0；其中N(x,y)表示以(x,y)为中心的一个小窗口，P是一个百分比阈值。

在进一步的实施例中，包括如下步骤：

构建两个模型均满足实际应用场景需求的目标检测模型ML、Ms，其中ML模型参数量大、精度高，但推理速度慢，Ms参数量小、精度较低，但推理速度快；

采集视频V={I_t}_t=0 ^N-1，其中t∈{0,1,2,…,N-1}表示视频帧的序号；视频帧刷新频率P=50，即模型每隔50帧将视频帧输入目标检测模型ML，得到当前帧的精细的目标检测框；

（3）对于第t=0帧，使用目标检测模型ML进行精细目标检测，得到人体检测框。

（4）对于第t，t∈{1,2,…}帧，采用视频多目标跟踪及动态区域检测算法，用二值图来表示当前帧的潜在目标区域，记为R_t ^move；

（5）对当前帧的潜在目标区域R_t ^move进行显著性区域提取，并采用二值图像膨胀算法，确定图像的运动区域框R_t ^bbox={r_i=(x_i,y_i,h_i,w_i)}_i=0 ^L-1，即确定当前帧有L个区域是可能的目标存在区域，其中第i个矩形框的宽、高分别为w_i、h_i；

（6）采用基于二分缩减的矩形框重排列算法对R_t ^bbox进行重排列，得到重排列后的图像I_t ^new，以及R_t ^bbox在图像I_t ^new中的位置；

R_t ^new={r_i ^new=(x_i ^new,y_i ^new,h_i,w_i)}_i=0 ^L-1；

（7）采用目标检测模型Ms对I_t ^new进行目标检测，输出当前帧的检测结果R_t ^det={r_j ^det=(x_j ^det,y_j ^det,h_j,w_j)}_j=0 ^K-1；

（8）逐一对比R_t ^det与R_t ^new中的矩形框，构建R_t ^det与R_t ^bbox中矩形框的对应关系，对应计算出R_t ^det在原图像帧I_t中的检测框，

R_t ^final={r_j ^final=(x_j ^final,y_j ^final,h_j,w_j)}_j=0 ^K-1。

（9）重复步骤（4）至（8），直到视频结束；注意如果t为P的整数倍数时，将视频帧输入目标检测模型ML，得到当前帧的精细的目标检测框。

其中，步骤（6）的具体流程如下：

图像的运动区域框R_t+1 ^bbox={r_i=(x_i,y_i,h_i,w_i)}_i=0 ^L-1，见步骤（5）；假设矩形框重排列的结果是成功放进一个正方形的盒子，正方形盒子的边长要求最小；此外，规定矩形框优先放置在盒子的左上角，且与原图保持一致的朝向，不发生翻转。

正方形的盒子B初始化，边长记为S。

令正方形盒子的边长为R_t ^bbox中所有矩形框的宽、高的总长度的最大值，并作为正方形盒子的边长的上界，即U0=max(H₀,W₀)，H₀=∑_i=0 ^L-1h_i，W₀=∑_i=0 ^L-1w_i，这保证了正方形盒子B₀能否放下R_t ^bbox中所有矩形框，

令正方形盒子的边长的下界为L_0=0，满足L<S≤U；

放置成功与否变量初始化，Q=True；

矩形框排序：

按矩形框的高排序。将R_t ^bbox中所有矩形框{r_i=(x_i,y_i,h_i,w_i)}_i=0 ^L-1按高度从大到小排序，仍记为R_t ^h；

按矩形框的面积排序。

将R_t ^bbox中所有矩形框{r_i=(x_i,y_i,h_i,w_i)}_i=0 ^L-1按高度从大到小排序，仍记为R_t ^area。

给定矩形框集合R_t ^h及正方形盒子上下届初始值U₀、L₀，按照高度由大到小的顺序逐一将矩形框放进盒子里，已经放置的矩形框从集合R_t ^h中删除，放置规则如下：

如果Q=True，将R_t ^h中最大的矩形框放进盒子的空白区域里，需要满足矩形框的高、宽分别不小于盒子的空白区域的高、宽。如果放置成功，则进入下一步，令Q=True，并将该矩形框从R_t+1 ^h中去除；否则，放置不成功，令Q=False。

如果Q=True，正方形盒子将被分割成四个区域，其中三个区域是空白区域，记为F_1k=(H_1k,W_1k),k=1,2,3。选取F_1k中面积最大的空白区域，放置R_t ^h中高最大的矩形框；如果放置成功，则进入下一步，并将该矩形框从R_t ^h中去除；否则，放置不成功，则逐个尝试F_1k中其它空白区域，如果全部失败，则令Q=False。

如果Q=True，正方形盒子将继续被分割成更小的区域，其中空白区域，记为F_2k=(H_2k,W_2k),k=1,2,3,…,6。选取F_2k中面积最大的空白区域，放置R_t ^h中高最大的矩形框；如果放置成功，则进入下一步，并将该矩形框从R_t ^h中去除；否则，放置不成功，则逐个尝试F_1k中其它空白区域，直到有空白区域能够放下该矩形框；如果全部失败，令Q=False。

类似地，继续放置矩形框到重新分割后的空白框里，直到所有框均放进盒子里，或则出现Q=False。

如果Q=True，则所有框均放进盒子里，此时尝试新的更小的正方形盒子，新的正方形盒子的边长采用二分法确定，即令S=(U+L)/2；重复上述放置步骤，如果成功放置所有盒子，则更新正方形盒子边长的上界U=(U+L)/2；如果放置失败（Q=False），则更新正方形盒子边长的下界L=(U+L)/2。

重复上述正方形盒子边长的上下届二分步骤，直到丨丨U-L丨丨<5，退出放置步骤，并确定最优正方形盒子边长S^h。

给定矩形框集合R_t ^h及正方形盒子上下届初始值U₀、L₀，按照面积由大到小的顺序逐一将矩形框放进盒子里，确定最优正方形盒子边长S^area。

令S=min(S^h,S^area)，以及较小值对应的矩形框放置方式，

R_t ^new={r_i ^new=(x_i ^new,y_i ^new,h_i,w_i)}_i=0 ^L-1，按照放置方式将图像区域进行重排列得到图像I_t ^new。

重排列后的图像I_t ^new，以及R_t ^bbox在图像I_t ^new中的位置R_t ^new，见步骤（6）。

根据本发明进一步改进，还提供一种基于二分缩减的实时目标检测系统，包括：至少一个处理器；以及至少一个与所述处理器通信连接的存储器；其中，所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现上述任一项技术方案所述的基于二分缩减的实时目标检测方法。

总之，本实施例具有三大优势：

采用简单的视频多目标跟踪及动态区域检测算法检测视频帧的潜在目标区域，并用矩形框表示，能够以较小的代价大致定位98%以上的目标检测对象。

采用新设计的基于二分缩减的矩形框重排列算法，能够以O(nlogn)的时间代价确定最优的正方形框盒子，以放下所有的矩形框，构建出重排列后的图像I_t+1 ^new。

采用较小的目标检测模型对重排列图像进行目标检测，可以节省更多的目标检测算法时间。采用较大的目标检测模型定期对视频帧进行精细的目标检测，可以刷新目标跟踪和动态区域定位的准确度，避免误差的累积，保证了最终本专利算法的精度。在昇腾Atlas 200I和RK3588上均达到了>30FPS的帧率和80%的mAP，精度上满足实际应用需求，速度上能够达到实时。

如上所述，尽管参照特定的优选实施例已经表示和表述了本发明，但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下，可对其在形式上和细节上做出各种变化。

Claims

1.一种基于二分缩减的实时目标检测方法，其特征是，包括：

S5，针对每一潜在目标区域R_t ^move，采用二值图像膨胀算法，确定图像的运动区域框R_t ^bbox，以提取潜在目标区域中的显著性区域：

S9，重复步骤S4至S8，直至完成检测工作。

2.根据权利要求1所述的一种基于二分缩减的实时目标检测方法，其特征是，所述

步骤S1中进一步为：

所述步骤S2进一步为：

3.根据权利要求2所述的一种基于二分缩减的实时目标检测方法，其特征是，所述步骤S3进一步为：

4.根据权利要求3所述的一种基于二分缩减的实时目标检测方法，其特征是，所述

步骤S4进一步为：

所述步骤S41具体实现过程如下：

S411、根据前一帧的检测结果R_t ^final，在前一帧图像I_t-1上绘制出人体检测框，得到一个二值图像R_t ^bbox；

S413、利用背景差分算法计算出前一帧的图像I_t-1和当前帧的图像I_t之间的像素差异，得到一个差分图D_t ^t。

5.根据权利要求4所述的一种基于二分缩减的实时目标检测方法，其特征是，所述步骤S5进一步为：

所述步骤S51具体实现过程如下：

6.根据权利要求5所述的一种基于二分缩减的实时目标检测方法，其特征是，所述步骤S53进一步为：

S531、构建结构元素E，结构元素E为二值矩阵；

7.根据权利要求6所述的一种基于二分缩减的实时目标检测方法，其特征是，所述步骤S6进一步为：

S61、矩形框排序，

S62、矩形框放置，

S625、记录每个矩形框在盒子B中的位置和大小；

8.根据权利要求7所述的一种基于二分缩减的实时目标检测方法，其特征是，所述步骤S7进一步为：

9.根据权利要求8所述的一种基于二分缩减的实时目标检测方法，其特征是，所述S8进一步为：

S85、记录每个检测结果在原始图像中的位置和大小。

10.一种二分缩减的实时目标检测系统，其特征是，包括：

至少一个处理器；以及至少一个与所述处理器通信连接的存储器；其中，所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现权利要求1至9任一项所述的基于二分缩减的实时目标检测方法。