CN110321806A

CN110321806A - 目标检测方法、图像处理设备及具有存储功能的设备

Info

Publication number: CN110321806A
Application number: CN201910508042.9A
Authority: CN
Inventors: 张佳骕; 潘华东
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2019-10-11

Abstract

本申请公开了一种目标检测方法、图像处理设备及具有存储功能的设备，该方法包括：获取视频帧，并将该视频帧输入基于深度学习的目标检测模型中，检测得到视频帧中的目标；获取目标与对应背景区域的相似度；将相似度小于预设阈值的目标作为检测到的目标进行输出。通过上述方式，本申请能够目标检测的准确率。

Description

目标检测方法、图像处理设备及具有存储功能的设备

技术领域

本申请涉及图像处理技术领域，特别是涉及一种目标检测方法、图像处理设备及具有存储功能的设备。

背景技术

在视频图像处理领域，目标检测技术主要分为深度学习目标检测方法和非深度学习目标检测方法两种。然而，基于深度学习目标检测算法，存在虚检的目标，即在视频帧中检出了不需检出的物体，例如检测目标为机动车时，在雨伞，树木，垃圾桶等上也检出目标框。而基于非深度学习中背景建模的目标检测算法，仅可以检测出运动的目标，而且需要进一步进行目标区域分割才能获取到目标框。

发明内容

本申请主要解决的技术问题是提供一种目标检测方法、图像处理设备及具有存储功能的设备，能够提高目标检测的准确率。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种目标检测方法，包括：获取视频帧，并将该视频帧输入基于深度学习的目标检测模型中，检测得到视频帧中的目标；获取目标与对应背景区域的相似度；将相似度小于预设阈值的目标作为检测到的目标进行输出。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种图像处理设备，包括：相互连接的处理器和存储器；存储器用于存储处理器执行所需的指令和数据；处理器用于执行指令以实现如上所述的方法。

为解决上述技术问题，本申请采用的又一个技术方案是：提供一种具有存储功能的设备，内部存储有程序指令，该程序指令用于被执行以实现如上所述的方法。

本申请的有益效果是：区别于现有技术的情况，本申请的实施例中，获取视频帧后，将该视频帧输入基于深度学习的目标检测模型中，检测得到视频帧中的目标，并获取目标与对应背景区域的相似度，将相似度小于预设阈值的目标作为检测到的目标进行输出。通过上述方式，本申请通过将与对应背景区域的相似度低的目标去除，从而实现去除基于深度学习的目标检测模型的虚检目标，有效抑制虚检，提高了目标检测的准确率。

附图说明

图1是本申请一种目标检测方法第一实施例的流程示意图；

图2是图1中步骤S12的具体流程示意图；

图3是本申请一种目标检测方法第二实施例的流程示意图；

图4是图3中步骤S1221的具体流程示意图；

图5是检测到多个目标框的一个视频帧的示意图；

图6是本申请一种目标检测方法第三实施例的流程示意图；

图7是本申请一种图像处理设备一实施例的结构示意图；

图8是本申请一种具有存储功能的设备一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示，本申请一种目标检测方法第一实施例包括：

S11：获取视频帧，并将视频帧输入基于深度学习的目标检测模型中，检测得到视频帧中的目标。

其中，目标检测模型是目标检测神经网络模型，其可以采用如RPN(RegionProposal Network，区域建议网络)和Faster CNN(Faster Convolutional NeuralNetwork，更快的卷积神经网络)结合的Faster-RCNN，或者SSD(Single Shot MultiBoxDetector，单镜头多盒检测器)，又或者Yolo(You Only Look Once)等基于深度学习的神经网络算法实现。

具体地，在一个应用例中，预先采用视频数据对目标检测神经网络进行训练，可以得到一个训练好的目标检测模型。然后，将获取的视频帧输入训练好的目标检测模型中后，该目标检测模型会自动检测并输出视频帧中的目标，得到目标编号和目标框。其中，同一目标的目标编号相同，同一目标的目标框在不同帧中的位置可能不同。

S12：获取目标与对应背景区域的相似度。

其中，对应背景区域是与视频帧中检测到的目标位置相同的背景区域。

具体地，该对应背景区域可以利用基于非深度学习的背景建模方法建立该视频帧的背景模型，并生成对应的背景图像，然后在背景图像中获取与目标框的位置一致的背景区域。然后，将目标区域图像与该对应背景区域图像进行比较，例如比较像素值等，从而得到二者的相似度，例如平均像素值差距等。

可选地，如图2所示，步骤S12包括：

S121：对视频帧进行背景识别，获取背景图像。

具体地，在对视频帧进行背景识别时，可以采用Vibe或混合高斯背景模型算法建立视频帧中的场景的背景模型，并得到该视频帧对应的背景图像。

S122：在背景图像中截取与目标的目标框位置相同的背景区域图像。

具体地，通过上述步骤S121已经获取视频帧对应的背景图像，通过步骤S11已经检测得到视频帧中目标的目标框，为了确定检测出的目标是否为虚检目标，可以在背景图像获取与目标框位置相同的背景区域图像，以便后续去除背景相似度较低的目标。其中，获取该背景区域图像时，首先获取目标框在视频帧图像中的位置，然后在背景图像中定位相同位置的区域，并截取该区域的图像，即可得到该背景区域图像。

S123：计算该目标框与该背景区域图像的相似度。

具体地，计算目标的背景相似度时，可以将该目标框框选到的视频帧中的区域图像与该背景区域图像进行比较，计算两个区域图像的差异。例如比较两个区域图像相同位置的像素点的像素值，计算平均像素值差异，或者计算像素值方差，又或者像素值差异小于某个阈值(如小于1)的像素个数比例等。由此，只需要计算目标框与对应背景区域图像的相似度，不需要与整个背景图像进行比较，可以减少计算量，提高检测速度。

S13：将相似度小于预设阈值的目标作为检测到的目标进行输出。

其中，该预设阈值是预先设定的判定目标为虚检目标的临界值，其具体取值根据该相似度的指标类型和检测精度而定。

例如，当该相似度为两个区域图像相同位置的像素点的像素值差异小于某个阈值(如小于1)的像素个数比例时，该预设阈值可以设置为5％。当计算得到的目标框与该背景区域图像的相似度大于或等于5％，则表明该目标框与背景图像过于类似，判定该目标框为虚检目标框，可以将其从输出数据中删除，而当计算得到的目标框与该背景区域图像的相似度小于5％时，则表明该目标框与背景图像差异较大，判定该目标框不是虚检目标框，可以将其作为检测到的目标进行输出。

本实施例中，通过将与对应背景区域的相似度低的目标去除，从而实现去除基于深度学习的目标检测模型的虚检目标，有效抑制虚检，提高了目标检测的准确率。而相对于仅使用背景建模的方法，本申请通过深度学习的目标检测模型获取目标，不需要再对判定为运动的区域进行目标的分割得到目标框，检测速度快。

在其他实施例中，对视频帧进行目标检测时，可能检测得到多个目标框，目标框可能存在被其他目标框遮挡的情况，此时为了更准确地计算目标与背景区域的相似度，需要去除被遮挡的部分的影响。

具体如图3所示，本申请一种目标检测方法第二实施例是在本申请一种目标检测方法第一实施例的基础上，进一步限定步骤S122和步骤S123包括：

S1221：判断当前目标的目标框是否被其他目标框遮挡。

具体地，当从视频帧中检测出多个目标框时，首先可以选取其中一个目标框作为当前目标的目标框，然后判断该目标框是否被其他目标框遮挡，即判断该目标框与其他目标框的前后顺序。根据视觉常识，更接近摄像头拍摄点的物体更不容易被遮挡，即根据目标框距离摄像头拍摄点的远近可以确定其前后顺序。其中，离摄像头拍摄点近的目标框顺序靠前，离摄像头拍摄点远的目标框顺序靠后。

可选地，确定目标框离摄像头拍摄点的距离通常可以根据目标框在图像中的位置确定。具体如图4所示，步骤S1221包括：

S21：判断当前目标的目标框是否与其他目标的目标框重叠。

具体地，在检测得到目标的目标框时，可以得到目标框的位置坐标，例如各个角点的位置坐标，从而可以得到该目标框框选的位置区域，即各个角点框选出的区域。当某个目标框的某个角点在另一个目标框框选的位置区域内时，表明上述两个目标框重叠。当某个目标框的所有角点均不在另一个目标框框选的位置区域内时，表明上述两个目标框不重叠。

例如图5所示，目标框A的左上角点在目标框B内，因此目标框A和B重叠，而目标框A的所有角点均不在目标框C内，因此目标框A和目标框C不重叠。

经过步骤S21判断之后，若当前目标的目标框与其他目标的目标框重叠，则执行步骤S22，否则执行步骤S24。

S22：判断相对于与当前目标的目标框重叠的其他目标的目标框，当前目标的目标框是否更接近视频帧的坐标原点。

其中，视频帧的坐标原点根据视频帧采集图像的本地坐标系确定。例如，以视频帧图像的左上角点作为坐标原点。

经过步骤S21判断之后，若当前目标的目标框更接近视频帧的坐标原点，则执行步骤S23，否则执行步骤S24。

S23：判定当前目标的目标框被与当前目标的目标框重叠的其他目标框遮挡。

S24：判定当前目标的目标框未被其他目标框遮挡。

具体地，结合图5所示，对多个目标框rect存在重叠的情况，以视频帧图像的左上角点O作为坐标原点，以目标框rect的右下角点y坐标为目标框坐标，可以判定目标框的前后顺序。其中，y坐标大的rect在y坐标小的rect前方，若两个目标框有重叠，则y坐标大的rect对y坐标小的rect产生遮挡。

例如，当以目标框A为当前目标框时，目标框A相对于其他目标的目标框B、C和D，更远离视频帧的坐标原点，即目标框A右下角点的坐标大于其他目标框右下角点的坐标，虽然目标框A与目标框B有重叠，但目标框A并没有被目标框B遮挡。然而，当以目标框B为当前目标框时，目标框A对目标框B产生遮挡，即目标框B被目标框A遮挡。以此类推，目标框C被目标框B和D遮挡，目标框D未被其他目标框遮挡。

在其他实施例中，为了减少计算量，判定当前目标框是否更接近视频帧坐标原点时，可以只比较当前目标框以及与当前目标框重叠的其他目标框。

经过步骤S1221判断之后，若该目标框被其他目标框遮挡，则执行步骤S1223，否则执行步骤S1222。

S1222：以该目标框区域作为相似度计算区域。

S1223：以未被遮挡区域作为相似度计算区域。

其中，该相似度计算区域是用于后续与背景区域图像进行比较计算目标的背景相似度的图像区域，也称目标图像。

S1224：在背景图像中截取与相似度计算区域位置相同的背景区域图像。

具体地，当目标框没有被其他目标框遮挡时，可以直接将该目标框区域作为相似度计算区域。当目标框被其他目标框遮挡时，例如图5中，目标框B被目标框A遮挡，此时需要先计算目标框A与B重叠的区域，然后将目标框B的框选区域去除该重叠区域，得到该未被遮挡区域，即为相似度计算区域。其中，在计算A与B的重叠区域时，可以根据A与B的角点坐标确定重叠区域位置，例如根据A框的左上角点坐标(x1,y1)和B框的右下角点坐标(x2,y2)，可以得到重叠区域的四个角点坐标为(x1,y1)、(x2,y1)、(x1,y2)和(x2,y2)，从而可以定位该重叠区域。

当相似度计算区域确定后，可以在该视频帧中截取该相似度计算区域的图像，作为目标图像crop_obj，此时根据该目标图像的位置，可以在背景图像中截取与该目标图像crop_obj位置相同的背景区域图像crop_back。

S1231：计算相似度计算区域与背景区域图像的相似度。

具体地，目标图像crop_obj和背景区域图像crop_back截取完成后，即可以计算crop_obj和crop_back的相似度，例如两个区域图像中相同位置像素点的像素值差异，得到平均像素值差异，以此作为二者相似度指标。

计算完成当前目标框的背景相似度后，可以遍历其他目标框，即将其他目标框作为当前目标框重复上述步骤S1221～S1231，即可以得到视频帧中所有目标的目标框与对应背景区域图像的相似度。

本实施例在计算多个重叠目标框与背景的相似度时，先判定目标框的前后顺序，在计算后面目标框背景相似度的时候，去除在其之前目标框对其遮挡的区域，提高了被遮挡目标计算的背景相似度的准确度。

在其他实施例中，计算目标与背景的相似度时，可以参考之前帧中该目标与背景的相似度，从而可以避免个别帧的相似度不准确导致目标丢失的问题。

具体如图6所示，本申请一种目标检测方法第三实施例包括：

S31：建立目标列表，以存储目标信息。

其中，该目标信息包括目标编号、目标框及目标背景相似度。

具体地，未开始进行目标检测前，可以先初始化目标列表，建立一个空的目标列表obj_list。该目标列表obj_list用于保存当前所有目标的目标信息并根据后续目标检测流程持续更新。保存的目标信息包括：目标编号id，目标框rect，和目标背景相似度sim。其中，id是目标的唯一标识，不同视频帧中同一目标的id相同，rect是在当前视频帧中该目标的目标矩形框，用于标识目标在当前视频帧中的位置区域，sim是该目标的动态背景相似度，其与当前视频帧以及之前视频帧中目标与背景的相似度相关。

S32：获取视频帧，并将视频帧输入基于深度学习的目标检测模型中，检测得到视频帧中的目标。

在一个应用例中，可以读取当前视频帧图像frame^(k)，并通过目标检测神经网络模型及跟踪算法，可以获取frame^(k)中所有目标的信息obj_dect^(k)，包含每个目标的id以及在frame^(k)中的目标框rect^(k)。

S33：获取目标与对应背景区域的相似度。

在上述应用例中，获取目标背景相似度之前，可以先使用当前视频帧图像frame^(k)对背景模型进行背景建模，并得到背景图像frame_back^(k)。对obj_dect^(k)中每个目标，首先根据该目标的rect^(k)在frame^(k)中截取出目标图像crop_obj，然后在frame_back^(k)的相同位置截取出相对应的目标背景图像crop_back，最后计算出crop_obj和crop_back的相似度sim^(k)，即该目标在frame^(k)中的背景相似度。

其中，上述步骤S32和S33的具体执行过程可以参考本申请一种目标检测方法第一或第二实施例的执行过程，此处不再重复。

S34：判断目标列表中是否存在目标的目标背景相似度。

具体地，为了结合该目标之前帧和当前帧的背景相似度得到动态背景相似度，此处需要根据obj_dect^(k)对obj_list进行更新，遍历obj_dect^(k)中的每一个目标，查找该目标的id是否在obj_list中，若存在，则执行步骤S35，若不存在，则执行步骤S36。

S35：计算该目标与对应背景区域的相似度和目标背景相似度的加权和，以更新目标背景相似度。

其中，该目标背景相似度为目标列表中保存的该目标之前帧的背景相似度，该目标与对应背景区域的相似度为当前帧计算得到的该目标当前帧的背景相似度。

具体地，若目标列表中存在该目标的背景相似度，则表示之前帧中该目标已经存在，则对目标的信息进行更新，目标框更新rect＝rect^(k)，动态背景相似度更新sim＝(1-α)sim+αsim^(k)。其中，权重α根据实际精度需求设定，例如α取0.6。由此对目标使用动态的背景相似度，使用目标当前帧的背景相似度对动态背景相似度进行更新，从而利用动态背景相似度判定目标是否输出，增加了算法的鲁棒性，避免了个别帧目标背景相似度不准确导致的目标丢失问题。

S36：在目标列表中新建并保存该目标的目标信息。

具体地，若目标列表中不存在该目标的背景相似度，则表示之前帧中不存在该目标，则新建该目标的信息，目标框rect＝rect^(k)，动态背景相似度sim＝sim^(k)。

可选地，随着时间的推移，目标可能会从视频帧中消失，因此为了保证目标列表的准确性，需要进一步更新目标列表。具体如图6所示，步骤S35或S36之后，还包括：

S37：判断目标列表中的目标是否包含在视频帧检测得到的目标中。

若目标列表的目标中存在部分目标不包含在视频帧检测得到的目标中，则执行如下步骤S38，否则执行步骤S39。

S38：将不包含在视频帧检测得到的目标中的该部分目标的目标信息从目标列表中删除。

S39：保存更新后的目标列表。

具体地，可以判断obj_list中目标的id是否出现在obj_dect^(k)中，若obj_list中目标的id未出现在obj_dect^(k)中，则说明目标消失，应在obj_list中删除此目标的目标信息，否则直接保存更新后的目标列表即可。

其中，上述步骤S37～S39也可以在步骤S34之前或同时执行。

S40：将相似度小于预设阈值的目标作为检测到的目标进行输出。

上述步骤S40的具体执行过程可以参考本申请一种目标检测方法第一实施例的对应步骤，此处不再重复。

S41：判断是否完成所有视频帧的目标检测。

S42：获取下一帧视频帧。

具体地，遍历完成obj_list中目标信息更新，并完成当前帧的目标检测并输出相似度小于预设阈值的目标后，即完成当前帧的目标检测，此时可以判断是否完成所有视频帧的目标检测。例如，当前帧为第k帧，可以判断当前帧是否已经是最后一帧，即判断k是否小于总帧数，若当前帧不是最后一帧，即k小于总帧数，则判定未完成所有帧的目标检测，否则判定完成所有帧的目标检测。若未完成，则执行步骤S42，获取下一帧视频帧，例如第k+1帧，并返回执行步骤S32，直至完成所有视频帧的目标检测。若已完成所有视频帧的目标检测，则结束目标检测流程。

本实施例中，通过计算深度学习模型检测出的目标的目标框与背景的相似度，若大于阈值，则进行去除，从而去除与背景相似度过大的虚检目标，达到虚检抑制的效果，提高了目标检测的准确性。同时，使用目标当前帧的背景相似度对动态背景相似度进行更新，用动态背景相似度判定目标是否输出，增加了算法的鲁棒性，避免了个别帧目标背景相似度不准确导致的目标丢失问题。

如图7所示，本申请一种图像处理设备一实施例中，图像处理设备100包括：相互连接的处理器110和存储器120。

该存储器120用于存储处理器110执行所需的指令和数据，例如存储目标列表等。

处理器110还可以称为CPU(Central Processing Unit，中央处理单元)。处理器110可能是一种集成电路芯片，具有信号的处理能力。处理器110还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该处理器110用于执行指令以实现如本申请一种目标检测方法第一至第三任一实施例或其不冲突的组合所提供的方法。

该图像处理设备100还可以包括通信电路(图未示)、显示器(图未示)等其他部件。

其中，该图像处理设备100可以是摄像机、监控设备、手机或后台服务器等。

本实施例中，图像处理设备通过将与对应背景区域的相似度低的目标去除，从而实现去除基于深度学习的目标检测模型的虚检目标，有效抑制虚检，提高了目标检测的准确率。而相对于仅使用背景建模的方法，本申请通过深度学习的目标检测模型获取目标，不需要再对判定为运动的区域进行目标的分割得到目标框，检测速度快。

如图8所示，本申请一种具有存储功能的设备一实施例中，具有存储功能的设备200内部存储有程序指令210，该程序指令210用于被执行以实现如本申请一种目标检测方法第一至第三任一实施例或其不冲突的组合所提供的方法。

该具有存储功能的设备200为U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等可以存储程序指令的介质，或者也可以为存储有该程序指令的服务器，该服务器可将存储的程序指令发送给其他设备运行，或者也可以自运行该存储的程序指令。

在一实施例中，具有存储功能的设备200可以是如图7所示的存储器120。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种目标检测方法，其特征在于，包括：

获取视频帧，并将所述视频帧输入基于深度学习的目标检测模型中，检测得到所述视频帧中的目标；

获取所述目标与对应背景区域的相似度；

将所述相似度小于预设阈值的目标作为检测到的目标进行输出。

2.根据权利要求1所述的方法，其特征在于，所述将所述视频帧输入基于深度学习的目标检测模型中，检测得到所述视频帧中的目标包括：

将所述视频帧输入基于深度学习的目标检测模型中，检测得到目标的目标编号和目标框；

其中，所述目标检测模型是目标检测神经网络模型。

3.根据权利要求2所述的方法，其特征在于，所述获取所述目标与对应背景区域的相似度包括：

对所述视频帧进行背景识别，获取背景图像；

在所述背景图像中截取与所述目标的目标框位置相同的背景区域图像；

计算所述目标框与所述背景区域图像的相似度。

4.根据权利要求3所述的方法，其特征在于，

所述在所述背景图像中截取所述目标的目标框位置相同的背景区域图像包括：

判断当前目标的所述目标框是否被其他目标框遮挡；

若所述目标框被其他目标框遮挡，则以所述未被遮挡区域作为相似度计算区域；

在所述背景图像中截取与所述相似度计算区域位置相同的背景区域图像；

所述计算所述目标框与所述背景区域图像的相似度包括：

计算所述相似度计算区域与所述背景区域图像的相似度。

5.根据权利要求4所述的方法，其特征在于，所述判断所述目标框是否被其他目标框遮挡包括：

判断当前目标的所述目标框是否与其他目标的目标框重叠；

若重叠，则判断相对于与所述目标框重叠的所述其他目标的目标框，所述当前目标的目标框是否更接近所述视频帧的坐标原点；

若更接近，则判定当前目标的所述目标框被与所述目标框重叠的所述其他目标框遮挡。

6.根据权利要求1所述的方法，其特征在于，进一步包括：

建立目标列表，以存储目标信息，所述目标信息包括目标编号、目标框及目标背景相似度。

7.根据权利要求6所述的方法，其特征在于，所述获取所述目标与对应背景区域的相似度之后，还包括：

判断所述目标列表中是否存在所述目标的目标背景相似度；

若存在，则计算所述目标与对应背景区域的相似度和所述目标背景相似度的加权和，以更新所述目标背景相似度；

若不存在，则在所述目标列表中新建并保存所述目标的目标信息。

8.根据权利要求6所述的方法，其特征在于，所述获取所述目标与对应背景区域的相似度之后，还包括：

判断所述目标列表中的目标是否包含在所述视频帧检测得到的目标中；

若所述目标列表的目标中存在部分目标不包含在所述视频帧检测得到的目标中，则将不包含在所述视频帧检测得到的目标中的目标的目标信息从所述目标列表中删除。

9.根据权利要求1所述的方法，其特征在于，所述将所述相似度小于预设阈值的目标作为检测到的目标进行输出之后，还包括：

获取下一帧视频帧；

返回执行所述将所述视频帧输入基于深度学习的目标检测模型中，检测得到所述视频帧中的目标的步骤，直至遍历完成所有视频帧。

10.一种图像处理设备，其特征在于，包括：相互连接的处理器和存储器；

所述存储器用于存储所述处理器执行所需的指令和数据；

所述处理器用于执行指令以实现如权利要求1-9任一项所述的方法。

11.一种具有存储功能的设备，内部存储有程序指令，其特征在于，所述程序指令用于被执行以实现如权利要求1-9任一项所述的方法。