CN113177481A

CN113177481A - 目标检测方法、装置、电子设备及存储介质

Info

Publication number: CN113177481A
Application number: CN202110476621.7A
Authority: CN
Inventors: 于越; 孙昊; 谭啸
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-07-27
Anticipated expiration: 2041-04-29
Also published as: CN113177481B

Abstract

本申请提出一种目标检测方法及装置，涉及图像处理领域，尤其涉及计算机视觉和深度学习等人工智能领域，可用于智能交通场景。包括按照第一时间间隔从视频中采样的第一帧图像进行背景建模，以获取被检测为前景的第一候选图像区域；按照第二时间间隔对视频中采样的第二帧图像进行背景建模，以获取被检测为背景的第二候选图像区域，其中，第一时间间隔大于第二时间间隔；从第二候选图像区域中获取与第一候选图像区域匹配的第三候选图像区域；基于未携带检测目标的第一路面参考图像，从第三候选图像区域中识别出携带检测目标的目标候选图像区域。本申请中，有效缩小了目标的检测范围，降低了目标的检测难度，实现了对于目标的精准高效的检测。

Description

目标检测方法、装置、电子设备及存储介质

技术领域

本申请涉及图像处理领域，尤其涉及计算机视觉和深度学习等人工智能领域。

背景技术

一般情况下，类似于路面抛洒物的目标，容易对经过的车辆或者行人的人身安全造成重大的伤害，比如，塑料袋可以随风飘起遮挡车辆视线导致交通事故、啤酒瓶等易碎尖锐物体容易导致车辆的爆胎失控甚至侧翻等等。为了降低交通事故的发生，或者避免其他的类似路面抛洒物的目标带来的危害，需要对该类型的目标进行及时的检测和清理。

发明内容

本申请提出了一种用于目标检测的方法、装置、电子设备以及存储介质、计算机程序产品。

根据本申请的一方面，提出了一种目标检测方法，包括：按照第一时间间隔从视频中采样的第一帧图像进行背景建模，以获取被检测为前景的第一候选图像区域；按照第二时间间隔对所述视频中采样的第二帧图像进行背景建模，以获取被检测为背景的第二候选图像区域，其中，所述第一时间间隔大于所述第二时间间隔；从所述第二候选图像区域中获取与所述第一候选图像区域匹配的第三候选图像区域；基于未携带检测目标的第一路面参考图像，从所述第三候选图像区域中识别出携带检测目标的目标候选图像区域。

根据本申请的第二方面，提出了一种目标检测装置，包括：第一获取模块，用于按照第一时间间隔从视频中采样的帧图像进行背景建模，以获取被检测为前景的第一候选图像区域；第二获取模块，用于按照第二时间间隔对所述视频中采样的帧图像进行背景建模，以获取被检测为背景的第二候选图像区域，其中，所述第一时间间隔大于所述第二时间间隔；候选区域模块，用于从所述第二候选图像区域中获取与所述第一候选图像区域匹配的第三候选图像区域；识别模块，用于基于未携带检测目标的第一路面参考图像，从所述第三候选图像区域中识别出携带检测目标的目标候选图像区域。

根据本申请的第三方面，提出了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述第一方面提出的目标检测的方法。

根据本申请的第四方面，提出了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述第一方面提出的目标检测的方法。

根据本申请的第五方面，提出了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述第一方面提出的目标检测的方法。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请一实施例的目标检测方法的流程示意图；

图2是本申请另一实施例的目标检测方法的流程示意图；

图3是本申请另一实施例的目标检测方法的流程示意图；

图4是本申请另一实施例的目标检测方法的流程示意图；

图5是本申请另一实施例的目标检测方法的流程示意图；

图6是本申请另一实施例的目标检测方法的流程示意图；

图7是本申请另一实施例的目标检测方法的流程示意图；

图8是本申请一实施例的目标检测装置的结构示意图；

图9是本申请另一实施例的目标检测装置的结构示意图；

图10是本申请一实施例的电子设备的示意性框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图像处理(Image Processing)，用计算机对图像进行分析，以达到所需结果的技术。又称影像处理。图像处理一般指数字图像处理。数字图像是指用工业相机、摄像机、扫描仪等设备经过拍摄得到的一个大的二维数组，该数组的元素称为像素，其值称为灰度值。图像处理技术一般包括图像压缩，增强和复原，匹配、描述和识别3个部分。

深度学习(Deep Learning，简称DL)，是机器学习(Machine Learning，简称ML)领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能。深度学习是学习样本数据的内在律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。

计算机视觉(Computer Vision)，是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。这里所指的信息指Shannon定义的，可以用来帮助做一个“决定”的信息。因为感知可以看作是从感官信号中提取信息，所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。

人工智能(Artificial Intelligence，简称AI)，是研究使计算机来模拟人生的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术，也有软件层面的技术。人工智能硬件技术一般包括计算机视觉技术、语音识别技术、自然语言处理技术以及及其学习/深度学习、大数据处理技术、知识图谱技术等几大方面。

智能交通系统(Intelligent Traffic System，ITS)，又称智能运输系统(Intelligent Transportation System)，是将先进的科学技术(信息技术、计算机技术、数据通信技术、传感器技术、电子控制技术、自动控制理论、运筹学、人工智能等)有效地综合运用于交通运输、服务控制和车辆制造，加强车辆、道路、使用者三者之间的联系，从而形成一种保障安全、提高效率、改善环境、节约能源的综合运输系统。

图1是本申请一实施例的目标检测方法的流程示意图。如图所示，该图像识别方法包括以下步骤：

S101，按照第一时间间隔从视频中采样的第一帧图像进行背景建模，以获取被检测为前景的第一候选图像区域。

背景与前景是相对的概念，针对某一帧图像，其中所需提取的元素可以确定为前景，该图像中的其他元素可以确定为背景。比如，设定高速公路车辆通过视频中的某一帧图像，其中，所需提取的元素为汽车，则可以确定，提取到的汽车为前景，而图像中的其他元素。比如路面、树木等元素，可以确定为背景。

可选地，本申请实施例提出的目标检测方法，可以适用于路面抛洒物的检测，即检测目标可以为路面抛洒物。

实现中，针对路面检测目标的检测对象通常是视频，可以根据不同的时间间隔对视频进行采样，获取视频中的部分帧图像并进行背景建模，可以将在部分帧图像中运动的物体确定为前景，静态的物体确定为背景。在采样获取的视频的部分帧图像中，保持静态的物体往往出现在多个帧图像中、且出现在视频中的时长较长，该状态的物体在背景建模中可以被确认为背景图像，比如路面、树木、建筑物等等。运动的物体往往随着运动，可能会在视频中短暂出现后，从视频中消失，可以理解为，在采样获取的视频的部分帧图像中，运动的物体出现在连续的少数帧图像中、且出现在视频中的时长较短，该状态的物体在背景建模中可以被确认为前景图像，比如抛洒物、动物等等。

作为一种可能的实现方式，针对视频采样获取的部分帧图像组成的第一帧图像，基于第一时间间隔对第一帧图像进行背景建模，获取在第一帧图像中出现的帧数较少且持续时长较短的物体组成的图像区域，该图像区域可以确定为第一帧图像的前景图像。进一步地，将该前景图像确定为第一候选图像区域。

作为另一种可能的实现方式，针对视频采样获取到的第一帧图像，按照第一时间间隔进行背景建模，获取在第一帧图像中出现帧数较多且持续时长较长的物体组成的图像区域，该状态的物体可以理解为在第一帧图像中处于静态，则将处于静态的物体组成的图像确定为第一帧图像中的背景图像。进一步地，将第一帧图像的全部图像区域与背景图像进行比较做差，二者之间差异化部分的图像区域可以确定为第一帧图像的前景图像，将该前景图像确定为第一候选图像区域。

比如，可以对公路的一段监控视频中进行采样，获取到第一帧图像，其中，设定第一帧图像中包括行驶中的车辆、飞行的麻雀、公路旁边的山坡、路边的树木。设定该公路监控视频帧数为20帧每s，视频时长共10s，则监控视频共200帧。采样获取到的部分帧图像组成的第一帧图像为第20帧至第80帧的帧图像组合。设定第一时间间隔为0.2s，则根据第一时间间隔对第一帧图像进行背景建模。

可以理解为，在第一帧图像中，按照0.2s为一个周期进行背景建模。从第一帧图像中的第1帧开始，间隔0.2s后对第6帧进行背景建模，每间隔0.2s进行一次针对第一帧图像中的对应的某一帧图像进行背景建模，直至第一帧图像中根据第一时间间隔可以被背景建模的最后一帧图像，第61帧。进一步地，根据背景建模的结果，可以获取到，第一帧图像中行驶中的车辆、飞行的麻雀组成的图像出现的帧数较少且持续时长较短，可以被确定为前景图像，而公路旁边的山坡、路边的树木组成的图像出现的帧数较多且持续时长较长，可以被确定为背景图像。

进一步地，将行驶中的车辆、飞行的麻雀所在的前景图像区域确定为第一候选图像区域。

S102，按照第二时间间隔对视频中采样的第二帧图像进行背景建模，以获取被检测为背景的第二候选图像区域，其中，第一时间间隔大于第二时间间隔。

本申请实施例中，第一帧图像与第二帧图像是从同一视频中采样获取的。

作为一种可能的实现方式，针对视频采样获取的部分帧图像组成的第二帧图像，基于第二时间间隔对第二帧图像进行背景建模，获取在第二帧图像中出现的帧数较少的物体组成的图像区域，将该图像区域确定为第二帧图像的前景图像。进一步地，第二帧图像的全部图像区域与前景图像进行比较做差，二者之间差异化部分的图像区域可以确定为第二帧图像的背景图像，将该背景图像确定为第二候选图像区域。

作为另一种可能的实现方式，针对视频采样获取到的第二帧图像，按照第二时间间隔进行背景建模，获取在第二帧图像中出现帧数较多的物体组成的图像区域，由于第二时间间隔较短，故而在第二帧图像中处于该状态的物体可以是静态物体，也可以是运动状态的物体。将该状态的物体所在的图像确定为第二帧图像中的背景图像。进一步地，将该背景图像确定为第二候选图像区域。

需要说明的是，由于第二时间间隔较短，在较短时间间隔的背景建模中，进行背景建模的全部帧图像中出现检测目标的图像的帧数较多，故而，该场景下，检测目标会被建模成为第二帧图像的背景图像。

比如，依然以上述针对公路的一段监控视频为例，基于监控视频的采样获取到第二帧图像，其中，设定第二帧图像中包括行驶中的车辆、抛洒物、公路旁边的山坡、路边的树木、闪烁的光斑。设定该公路监控视频帧数为20帧每s，视频时长共10s，则监控视频共200帧。第二帧图像为监控视频中第70帧至第120帧的帧图像组合。设定第二时间间隔为0.1s，则根据第二时间间隔对第二帧图像进行背景建模。

可以理解为，在第二帧图像中，按照0.1s为一个周期进行背景建模，从第二帧图像中的第1帧开始进行，间隔0.1s后对第4帧进行背景建模，每间隔0.1s进行一次针对第二帧图像的背景建模，直至第二帧图像中按照第二时间间隔可以被背景建模的最后一帧图像，第51帧。进一步地，根据背景建模的结果获取到，第二帧图像中闪烁的光斑组成的图像区域出现帧数较少，可以被确定为前景图像，行驶中的车辆、抛洒物、公路旁边的山坡、路边的树木所在的图像区域出现的帧数较多，可以被确定为背景图像。

进一步地，将行驶中的车辆、抛洒物、公路旁边的山坡、路边的树木所在的背景图像区域确定为第二候选图像区域。

S103，从第二候选图像区域中获取与第一候选图像区域匹配的第三候选图像区域。

一般情况下，在长时间间隔的背景建模中，检测目标由于处于运动状态，出现帧数较少且持续时长较短，会被建模成前景，在短时间间隔的背景建模中，检测目标由于出现帧数较多，会被建模成背景。可以理解为，属于在长时间间隔的背景建模中的前景图像同时属于在短时间间隔的背景建模中的背景图像的物体所在的图像，携带有检测目标的概率较高。

本申请实施例中，将第一候选图像区域与第二候选图像区域进行匹配比较，获取第一候选图像区域与第二候选图像区域之间重复的候选图像区域。重复可以指帧图像的帧编号重复，也可以为图像内容重复，此处不进行限制。其中，该重复的候选图像区域内所呈现的物体，在第一帧图像中被建模为前景，且在第二帧图像中被建模为背景。

进一步地，将从第二候选图像区域中获取到的与第一候选图像区域匹配的候选图像区域，即第二候选图像区域中与第一候选图像区域重复的图像区域确定为第三候选图像区域。

比如，在上述示例的基础上，设定第二帧图像的背景图像，即第二候选图像区域包含有行驶中的车辆、抛洒物、公路旁边的山坡、路边的树木组成的图像区域，设定第一帧图像的前景图像，即第一候选图像区域中包含有行驶中的车辆、抛洒物、闪烁的光斑所在的图像区域，则将第一候选图像区域与第二候选图像区域匹配，获取到二者之间重叠的行驶中的车辆、抛洒物所在的图像区域。

一般情况下，在道路上短暂出现的物体，如抛洒物，其所在的图像区域在第一帧图像中属于前景图像，同时在第二帧图像中属于背景图像。将第二候选图像区域中，与第一候选图像区域重复的第二候选图像区域确定为第三候选图像区域。

S104，基于未携带检测目标的第一路面参考图像，从第三候选图像区域中识别出携带检测目标的目标候选图像区域。

为了更准确的识别检测目标，需要基于第三候选图像区域进一步缩小检测目标的检测范围，以确认没有携带检测目标的第一路面参考图像作为参考，将第三候选图像区域与第一路面参考图像进行比较，进而确定目标候选图像区域。

本申请实施例中，可以基于第三候选图像区域与第一路面参考图像的比较结果，从第三候选图像区域中删除与第一路面参考图像相似度较高的部分，获取到二者之间的差异化部分，进而将该部分的图像区域确定为携带有检测目标的目标候选图像区域。

需要说明的是，本申请所提出的目标检测方法，可以应用于多个场景，比如智能交通场景，在智能交通场景下，通过本申请提出的目标检测方法可以实现对于类似路面抛洒物的目标的准确识别。

本申请提出的目标检测方法，针对视频采样获取的第一帧图像按照第一时间间隔进行背景建模，获取第一候选图像区域，针对视频采样获取的第二帧图像按照第二时间间隔进行背景建模，获取第二候选图像区域，基于第一候选图像区域与第二候选图像区域获取到第三候选图像区域，将第三候选图像区域与第一路面参考图像进行对比，进一步确定目标候选图像区域。本申请中，通过对第一候选图像区域与第二候选图像区域的对比，获取在第一帧图像中被建模成前景而在第二帧图像中被建模成背景图像的图像区域，将其确定为第三候选图像区域，基于第一路面参考图像以及第三候选图像区域进而获取目标候选图像区域，有效缩小了检测范围，降低了检测难度，使得可以在没有充足数据的前提下，实现对于检测目标的准确识别，进而提高了检测的效率，达到了精准高效的对目标进行检测识别的目的。

上述实施例所提出的第三候选图像区域的获取方法，可结合图2进一步的理解，图2为本申请另一实施例的目标检测方法的流程示意图，如图2所示，该方法包括：

S201，获取第一候选图像区域所属的帧图像的第一帧编号，以及第二候选图像区域所属的帧图像第二帧编号。

可选地，基于帧图像的采集时刻，生成帧图像的编号。比如，以视频中第T₁时刻采集到的帧图像的帧编号为1，第T_N时刻采集到的帧图像的帧编号为N。再比如，可以将每个帧图像的采集时刻作为帧图像的帧编号。

本申请实施例中，每个候选图像区域均有对应的来源帧图像，即候选图像区域所属的帧图像，帧图像的帧编号在视频采集过程中生成。第一候选图像区域所属的帧图像的帧编号可以称为第一帧编号。第二候选图像区域所属的帧图像的帧编号可以称为第二帧编号。

S202，从第二候选图像区域中，获取第一帧编号和第二帧编号相同的目标帧编号。

本申请实施例中，检测目标可以是路面抛洒物，也可以是其他物体。当检测目标为路面抛洒物时，设定普通轿车的车窗距离地面高度为1.3m。一般情况下，地球表面的物体自由落体的速率为9.8米每秒(m/s)，可以估算，抛洒物从车窗抛出至地面需要约0.133s，设定监控视频的帧数为较为基础的30帧每秒，则抛洒物出现帧数约为4帧。故而，在基于较短的时间间隔进行图像区域的背景建模时，路面抛洒物通常会被建模成为背景图像。

本申请实施例中，第一帧图像与第二帧图像采样于相同的视频，在进行针对运动状态的物体的背景建模时，图像中处于出现帧数较少且出现时长较短的物体会被建模为前景图像，出现帧数较多且出现时长较长的物体会被建模为背景图像，由于第一时间间隔大于第二时间间隔，针对相同的视频，基于背景建模获取到的第一候选图像区域与第二候选图像区域存在重复部分。

将每个第一帧编号与每个第二帧编号进行对比，获取数字相同的帧编号，即为目标帧编号。

比如，用于采样的视频为20帧每秒，时长10s，该视频帧数共200帧，设定，第一帧编号包括帧编号13、帧编号15、帧编号19，第二帧编号包括帧编号13、帧编号15、帧编号16、帧编号17，将第一帧编号与第二帧编号匹配，获取二者之间帧编号相同的帧编号，即帧编号13以及帧编号15，进一步地，将帧编号13以及帧编号15确定为目标帧编号。

S203，将目标帧编号对应的第二候选图像帧确定为与第一候选图像区域匹配的第三候选图像区域。

上述示例中，确定帧编号13以及帧编号15为目标帧编号，则第二候选图像区域中，帧编号13以及帧编号15对应的第二候选图像区域，可以被确定为第三候选图像区域。

本申请提出的目标检测方法，通过第一候选图像区域对应的第一帧编号与第二候选图像区域对应的第二帧编号之间相同的帧编号，获取到第二候选图像区域中与第一候选图像区域匹配的候选图像区域，进而确定可能携带有检测目标的第三候选图像区域，进一步缩小了检测范围，提高了检测的效率，达到了精准高效的对目标进行检测识别的目的。

在上述实施例的基础上，可以实现目标候选图像区域的获取，如图3所示，图3为本申请另一实施例的目标检测方法的流程示意图，该方法包括：

S301，获取第一路面参考图像和第三候选图像区域的相似度。

本申请实施例中，第一路面参考图像中所呈现的物体可以确定为非检测目标的其它物体，通过第三候选图像与第一路面参考图像的相似度，可以将第三候选图像区域与第一路面参考图像进行比较，进而实现对于检测目标的识别。

将第三候选图像区域中所呈现的物体的所处位置、大小、形状、颜色等外观参数，与第一路面参考图像中所呈现的物体的所处位置、大小、形状、颜色等外观参数进行对比，进而获取到第一路面参考图像与第三候选图像区域的相似度。

S302，基于相似度，从第三候选图像区域中识别出目标候选图像区域。

本申请实施例中，基于第一路面参考图像与第三候选图像区域的相似度，可以实现目标候选图像区域的获取，即基于相似度的结果从第三候选图像区域中识别出目标候选图像区域。

当第三候选图像区域与第一路面参考图像相似度较高时，可以确定当前的第三候选图像区域未携带有检测目标，当第三候选图像区域与第一路面参考图像相似度较低时，则当前的第三候选图像区域携带有检测目标的概率较高，进一步地，可以将与第一路面参考图像相似度较低的第三候选图像区域确定为目标候选图像区域。

其中，当第一路面参考图像与第三候选图像区域之间的相似度较高时，可以确定当前的图像区域为噪声图像区域，通过对噪声图像区域的识别可以有效减少对目标进行检测识别时的检测干扰。

进一步地，可以设定一个第三候选图像区域与第一路面参考图像之间的相似度阈值。

可选地，响应于相似度小于预设相似度阈值，则将第三候选图像区域确定为目标候选图像区域。

本申请实施例中，当第三候选图像区域与第一路面参考图像之间的相似度小于预设的相似度阈值时，可以判断，当前的第三候选图像区域与第一路面参考图像之间差异化部分较多，由于第一路面参考图像确定为未携带检测目标的参考图像，则与其相似度较低的第三候选图像区域携带有检测目标的概率较大。因此，可以将相似度较低的第三候选图像区域确定为目标候选图像区域。

可选地，响应于相似度大于或者等于预设相似度阈值，则将第三候选图像区域确定为噪声图像区域。

本申请实施例中，当第三候选图像区域与第一路面参考图像之间的相似度大于或者等于预设的相似度阈值时，可以判断，当前的第三候选图像区域与第一路面参考图像之间相似度较高，由于第一路面参考图像可以确定为未携带检测目标的参考图像，则与其相似度较高的第三候选图像区域携带有检测目标的概率较低。因此，可以将该相似度较高的第三候选图像区域确定为未携带检测目标的噪声图像区域。

本申请提出的目标检测方法，基于第三候选图像区域与第一路面参考图像之间的相似度，获取携带有检测目标的目标候选图像区域，通过相似度的对比进一步缩小检测范围，基于第三候选图像区域与第一路面参考图像之间的相似度实现的噪声图像区域的确定，可以有效减少噪声干扰，从而降低检测难度，进而提高目标检测的准确度。

进一步地，第一路面参考图像与第三候选图像区域的相似度的获取方法可结合图4理解，图4为本申请另一实施例的目标检测方法的流程示意图，如图4所示，该方法包括：

S401，获取第三候选图像区域在其所属帧图像中的位置。

在对帧图像进行背景建模的过程中，可以获取到被识别为背景或者前景的图像区域在所属帧图像中的位置。本申请实施例中，可以在短时间间隔背景建模的过程中，获取到被识别为背景的第二候选图像区域在所属帧图像中的位置，即可以获取到第三候选图像区域在其所属帧图像中的位置。

S402，从第一路面参考图像中获取在相同位置上的图像区域。

本申请实施例中，确定第三候选图像区域在其所属的帧图像中的所处位置后，将该位置映射至第一路面参考图像中，进而获取到第一路面参考图像中相同位置的图像区域。

比如，第三候选图像区域在其所属的帧图像中处于左下角的位置，将该位置映射至第一路面参考图像中，第一路面参考图像中左下角位置的图像区域即为与第三候选图像区域在其所属的帧图像中的位置处于相同位置上的图像区域。

S403，获取图像区域与第三候选图像区域的相似度，作为第一路面参考图像与候选图像区域的相似度。

本申请实施例中，获取第一路面参考图像中，与第三候选图像区域在其所属的帧图像中的处于相同位置上的图像区域，并将其与第三候选图像区域进行比较，可以通过比较两个图像区域中所呈现的物体的各项外观参数，比如大小、颜色、形状等等，进而获取到两个图像区域的相似度。

其中，两个图像区域中所呈现的物体的各项参数之间差值越小，则两个图像区域相似度越高。

进一步地，基于两个相同位置上的图像区域之间进行比较获取到的相似度，确定为第一路面参考图像与第三候选图像区域的相似度。

本申请提出的目标检测方法，通过获取第三候选图像区域在其所属的帧图像的位置上的图像区域，与第一路面参考图像在相同位置上的图像区域的相似度，获取第三候选图像区域与第一路面参考图像的相似度，为后续对于检测目标的准确识别提供了基础，同时也为后续噪声图像干扰的确定提供了识别依据，提高了目标检测的准确度。

为进一步缩小检测范围，可结合图5理解，图5为本申请另一实施例的目标检测方法的流程示意图，如图5所示，该方法包括：

S501，获取第三候选图像区域在其所属帧图像中的位置。

关于步骤S501的具体内容，可参见步骤S401中相关内容的记载，此处不再赘述。

S502，基于位置，获取第三候选图像区域与标记有路面分割结果的第二路面参考图像之间的重叠部分。

为了有效地缩小对目标的检测识别的检测范围，可以通过标记有路面分割结果的第二路面参考图像，对第三候选图像区域进行进一步筛选识别，进而从第三候选图像区域中筛选出处于路面的候选图像区域，以对这些候选图像区域进行目标识别，有利于降低运算量，并提高识别效率。

其中，标记有路面分割结果的第二路面参考图像可以将路面和其他背景进行区分标记，比如，第二路面参考图像中包括路面和天空，可以对路面区域标记为1，对天空区域标记为2。此处仅为示例，不能作为限定本申请的条件。本申请实施例中将第二路面参考图像作为参考，可以基于路面分割结果标识实现对于第三图像区域的筛选。

本申请实施例中，可以将第三候选图像区域在其所属帧图像中的所处的位置，映射进第二路面参考图像中，获取第二路面参考图像中处于相同位置的图像区域，该图像区域即为第三候选图像区域与第二路面参考图像之间的重叠部分。

S503，获取重叠部分的路面面积小于预设面积阈值的不属于路面区域的候选图像区域。

重叠部分可能包括路面，也可能包括其他区域，比如天空，也可能出现既包括路面也包括天空的情况。一般情况下若重叠部分内出现大面积天空时，可以说明该第三候选图像区域并非路面区域，在天空中出现树叶或风筝等运动物体时，也有可能被认定为第三候选图像区域，但是该情况下的第三候选图像区域出现的路面区域较小。若将这些非路面区域的第三候选图像区域也进行检测，对提高检测结果的精度并没有起到较大的作用，并且会提升检测的工作量，降低检测的效率，因此，可以将被认定为不属于路面区域的候选图像区域从第三候选图像区域中筛选掉，仅保留被认定为属于路面区域的第三候选图像区域。

可选地，在获取到重叠区域后，可以提取该重叠区域中被标记为路面图像片段，获取该被标记为路面图像片段的路面面积，本申请实施例中，可以预设一个面积阈值，响应于重叠部分的路面面积小于预设面积阈值，则可以认定该第三候选图像区域为非属于路面区域的候选图像区域。响应于重叠部分的路面面积大于或者等于预设面积阈值，则可以认定该第三候选图像区域为属于路面区域的候选图像区域。

S504，从第三候选图像区域中筛除不属于路面区域的候选图像区域。

本申请实施例中，获取到重叠区域中不属于路面区域的候选图像区域后，将该不属于路面区域的候选图像区域从第三候选图像区域中删除，进而只需对属于路面区域的第三候选图像区域进行目标检测，进一步缩小了检测范围，降低了运算量，并且提高了检测效率。

本申请提出的目标检测方法，基于第二路面参考图像与第三候选图像区域，获取到第三候选图像区域中确定不属于路面位置的图像区域，并将其从第三候选图像区域中删除，进一步地缩小了检测范围，有效降低了检测难度。

在上述实施例的基础上，需要进行更加精准的实现检测目标的定位，如图6所示，图6为本申请另一实施例的目标检测方法的流程示意图，该方法包括：

S601，获取检测目标的最小横纵坐标和最大横纵坐标。

为了更加精准的针对图像中的检测目标进行标记，确定了目标候选图像区域后，可以使用具有规则形状的框架将检测目标置于框架之中，以达到突出显示的目的。其中，框架的形状可以是矩形。

进一步地，针对检测目标的物体，其平行于横轴方向且距离坐标系原点最近的位置所对应的横坐标可以确定为最小横坐标，其平行于横轴方向且距离原点最远的位置所对应的横坐标可以确定为最大横坐标。

相应地，其平行于纵轴方向且距离坐标系原点最近的位置所对应的纵坐标可以确定为最小纵坐标，其平行于纵轴方向且距离原点最远的位置所对应的纵坐标可以确定为最大纵坐标。

进一步地，可以获取到检测目标的最小横纵坐标以及最大横纵坐标。

S602，根据检测目标的最小横纵坐标和最大横纵坐标，生成检测目标的检测框。

本申请实施例中，基于获取到的最小横坐标与最大横坐标，可以生成目标检测框的一个边长，基于最小纵坐标与最大纵坐标，可以生成目标检测框的另一个边长，进一步地，基于两个边长以及检测目标的形状生成具有规则形状的外接检测框，将检测目标置于检测框中，以达到突出显示的目的。

可选地，也可以基于检测目标的最小横纵坐标的数值和最大横纵坐标的数值生成检测目标的完整坐标，并基于该坐标实现对检测目标的精准定位。

本申请提出的目标检测方法，通过获取检测目标的坐标值，进而实现对于检测目标的精准定位，保证了目标检测的准确度。

为更好的理解上述实施例提出的目标检测方法，可结合图7，图7为本申请另一实施例的目标检测方法的流程示意图，如图7所示，该方法包括：

S701，输入视频图像数据。

S702，采样获取第一帧图像，并按照第一时间间隔进行背景建模，获取第一候选图像区域。

S703，采样获取第二帧图像，并按照第二时间间隔进行背景建模，获取第二候选图像区域。

S704，获取第三候选图像区域。

S705，输入第一路面参考图像。

S706，第三候选图像区域与第一路面参考图像之间的相似度计算。

S707，是否相似。

S708，输入第二路面参考图像。

S709，第三候选图像区域与第二路面参考图像之间的重叠区域计算。

S710，是否属于路面。

S711，确定检测目标。

S712，生成目标检测框，并输出。

针对输入的视频图像数据采样获取第一帧图像，并基于第一时间间隔进行背景建模，获取第一候选图像区域。相应地，针对采样获取的第二帧图像，基于第二时间间隔进行背景建模，获取第二候选图像区域。基于第一候选图像区域与第二候选图像区域进一步获取第三候选图像区域。通过第一路面参考图像与第三候选区域的对比，确定目标候选图像区域，通过第二路面参考图像与第三候选图像区域的对比，获取属于路面部分的图像区域。进一步地，基于目标候选图像区域以及确定属于路面位置的图像区域，实现目标的检测，并基于检测目标的最大横纵坐标值以及最小横纵坐标值生成检测框并输出。本申请中，通过对第一候选图像区域与第二候选图像区域的对比，获取在第一帧图像中被建模成前景而在第二帧图像中被建模成背景图像的图像区域，将其确定为第三候选图像区域，基于第一路面参考图像以及第三候选图像区域进而获取目标候选图像区域，有效缩小了检测范围，降低了检测难度，使得可以在没有充足数据的前提下，实现对于目标的准确检测，进而提高了检测的效率，达到了精准高效的对目标进行检测识别的目的。

与上述几种实施例提供的目标检测方法相对应，本申请的一个实施例还提供一种目标检测装置，由于本申请实施例提供的目标检测装置与上述几种实施例提供的目标检测方法相对应，因此在目标检测方法的实施方式也适用于本申请实施例提供的目标检测装置，在下述实施例中不再详细描述。

图8为本申请一实施例的目标检测装置的结构示意图，如图8所示，目标检测装置800，包括第一获取模块81、第二获取模块82、候选区域模块83、识别模块84，其中：

第一获取模块81，用于按照第一时间间隔从视频中采样的帧图像进行背景建模，以获取被检测为前景的第一候选图像区域；

第二获取模块82，用于按照第二时间间隔对视频中采样的帧图像进行背景建模，以获取被检测为背景的第二候选图像区域，其中，第一时间间隔大于第二时间间隔；

候选区域模块83，用于从第二候选图像区域中获取与第一候选图像区域匹配的第三候选图像区域；

识别模块84，用于基于未携带检测目标的第一路面参考图像，从第三候选图像区域中识别出携带检测目标的目标候选图像区域。

图9为本申请另一实施例的目标检测装置的结构示意图，如图9所示，目标检测装置900，包括第一获取模块91、第二获取模块92、候选区域模块93、识别模块94、位置获取模块95、重叠获取模块96、筛除模块97，其中：

需要说明的是，第一获取模块81、第二获取模块82、候选区域模块83、识别模块84与第一获取模块91、第二获取模块92、候选区域模块93、识别模块94，具备相同的结构和功能。

本申请实施例中，识别模块94，还用于：获取第一路面参考图像和第三候选图像区域的相似度；基于相似度，从第三候选图像区域中识别出目标候选图像区域。

本申请实施例中，识别模块94，还用于：响应于相似度小于预设相似度阈值，则将第三候选图像区域确定为目标候选图像区域；或者，响应于相似度大于或者等于预设相似度阈值，则将第三候选图像区域确定为噪声图像区域。

本申请实施例中，目标检测装置900，还包括位置获取模块95、重叠获取模块96、筛除模块97，其中：

位置获取模块95，用于获取第三候选图像区域在其所属帧图像中的位置；

重叠获取模块96，用于基于位置，获取第三候选图像区域与标记有路面分割结果的第二路面参考图像之间的重叠部分；

筛除模块97，用于获取重叠部分的面积小于预设面积阈值的不属于路面区域的候选图像区域，并从第三候选图像区域中筛除不属于路面区域的候选图像区域。

本申请实施例中，识别模块94，还用于：获取第三候选图像区域在其所属帧图像中的位置；从第一路面参考图像中获取在相同位置上的图像区域；获取图像区域与第三候选图像区域的相似度，作为第一路面参考图像与候选图像区域的相似度。

本申请实施例中，识别模块94，还用于：获取第三候选图像区域对应的帧编号，并根据帧编号确定第三候选图像区域对应的帧图像。

本申请实施例中，目标检测装置900，还包括检测框生成模块98，其中：

检测框生成模块98，用于获取检测目标的最小横纵坐标和最大横纵坐标，以及根据检测目标的最小横纵坐标和最大横纵坐标，生成检测目标的检测框。

本申请实施例中，候选区域模块93，还用于：获取第一候选图像区域所属的帧图像的第一帧编号，以及第二候选图像区域所属的帧图像第二帧编号；从第二候选图像区域中，获取第一帧编号和第二帧编号相同的目标帧编号；将目标帧编号对应的第二候选图像帧确定为与第一候选图像区域匹配的候选图像区域；从第二候选图像区域中，删除与第一候选图像区域匹配的候选图像区域。

本申请提出的目标检测装置，针对输入的视频图像数据采样获取第一帧图像，并基于第一时间间隔进行背景建模，获取第一候选图像区域。相应地，针对采样获取的第二帧图像，基于第二时间间隔进行背景建模，获取第二候选图像区域。基于第一候选图像区域与第二候选图像区域进一步获取第三候选图像区域。通过第一路面参考图像与第三候选区域的对比，确定目标候选图像区域，通过第二路面参考图像与第三候选图像区域的对比，获取属于路面部分的图像区域。进一步地，基于目标候选图像区域以及确定属于路面位置的图像区域，实现目标的检测，并基于检测目标的最大横纵坐标值以及最小横纵坐标值生成检测框并输出。本申请中，通过对第一候选图像区域与第二候选图像区域的对比，获取在第一帧图像中被建模成前景而在第二帧图像中被建模成背景图像的图像区域，将其确定为第三候选图像区域，基于第一路面参考图像以及第三候选图像区域进而获取目标候选图像区域，有效缩小了检测范围，降低了检测难度，使得可以在没有充足数据的前提下，实现对于目标的准确检测，进而提高了检测的效率，达到了精准高效的对目标进行检测识别的目的。

图10示出了可以用来实施本申请的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，比如键盘、鼠标等；输出单元1007，比如各种类型的显示器、扬声器等；存储单元1008，比如磁盘、光盘等；以及通信单元1009，比如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，比如图像识别方法。比如，在一些实施例中，图像识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，比如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM1003并由计算单元1001执行时，可以执行上文描述的图像识别方法一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(比如，借助于固件)而被配置为执行图像识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(比如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(比如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；比如，提供给用户的反馈可以是任何形式的传感反馈(比如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(比如，作为数据服务器)、或者包括中间件部件的计算系统(比如，应用服务器)、或者包括前端部件的计算系统(比如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(比如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务端可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(“Virtual Private Server”，或简称“VPS”)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合区块链的服务器

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。比如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种目标检测方法，包括：

按照第一时间间隔从视频中采样的第一帧图像进行背景建模，以获取被检测为前景的第一候选图像区域；

按照第二时间间隔对所述视频中采样的第二帧图像进行背景建模，以获取被检测为背景的第二候选图像区域，其中，所述第一时间间隔大于所述第二时间间隔；

从所述第二候选图像区域中获取与所述第一候选图像区域匹配的第三候选图像区域；

基于未携带检测目标的第一路面参考图像，从所述第三候选图像区域中识别出携带检测目标的目标候选图像区域。

2.根据权利要求1所述的方法，其中，所述基于未携带检测目标的第一路面参考图像，从所述第三候选图像区域中识别出携带检测目标的目标候选图像区域，包括：

获取所述第一路面参考图像和所述第三候选图像区域的相似度；

基于所述相似度，从所述第三候选图像区域中识别出所述目标候选图像区域。

3.根据权利要求2所述的方法，其中，还包括：

响应于所述相似度小于预设相似度阈值，则将所述第三候选图像区域确定为所述目标候选图像区域；或者，

响应于所述相似度大于或者等于所述预设相似度阈值，则将所述第三候选图像区域确定为噪声图像区域。

4.根据权利要求1-3任一项所述的方法，其中，所述基于未携带检测目标的第一路面参考图像，从所述第三候选图像区域中识别出携带检测目标的目标候选图像区域之前，还包括：

获取所述第三候选图像区域在其所属帧图像中的位置；

基于所述位置，获取所述第三候选图像区域与标记有路面分割结果的第二路面参考图像之间的重叠部分；

获取所述重叠部分的面积小于预设面积阈值的不属于路面区域的候选图像区域；

从所述第三候选图像区域中筛除所述不属于路面区域的候选图像区域。

5.根据权利要求2或3所述的方法，其中，所述获取所述第一路面参考图像和所述第三候选图像区域的相似度，包括：

获取所述第三候选图像区域在其所属帧图像中的位置；

从所述第一路面参考图像中获取在相同所述位置上的图像区域；

获取所述图像区域与所述第三候选图像区域的相似度，作为所述第一路面参考图像与所述候选图像区域的相似度。

6.根据权利要求5所述的方法，其中，所述获取所述第三候选图像区域对应的帧图像，包括：

获取所述第三候选图像区域对应的帧编号，并根据所述帧编号确定所述第三候选图像区域对应的帧图像。

7.根据权利要求1-3任一项所述的方法，其中，所述从所述第三候选图像区域中识别出携带检测目标的目标候选图像区域之后，还包括：

获取所述检测目标的最小横纵坐标和最大横纵坐标；

根据所述检测目标的最小横纵坐标和所述最大横纵坐标，生成所述检测目标的检测框。

8.根据权利要求1-3任一项所述的方法，其中，所述从所述第二候选图像区域中获取与所述第一候选图像区域匹配的候选图像区域并删除，以获取第三候选图像区域，包括：

获取所述第一候选图像区域所属的帧图像的第一帧编号，以及所述第二候选图像区域所属的帧图像第二帧编号；

从所述第二候选图像区域中，获取所述第一帧编号和所述第二帧编号相同的目标帧编号；

将所述目标帧编号对应的第二候选图像帧确定为与所述第一候选图像区域匹配的第三候选图像区域。

9.一种目标检测装置，包括：

第一获取模块，用于按照第一时间间隔从视频中采样的帧图像进行背景建模，以获取被检测为前景的第一候选图像区域；

第二获取模块，用于按照第二时间间隔对所述视频中采样的帧图像进行背景建模，以获取被检测为背景的第二候选图像区域，其中，所述第一时间间隔大于所述第二时间间隔；

区域匹配模块，用于从所述第二候选图像区域中获取与所述第一候选图像区域匹配的第三候选图像区域；

识别模块，用于基于未携带检测目标的第一路面参考图像，从所述第三候选图像区域中识别出携带检测目标的目标候选图像区域。

10.根据权利要求9所述的装置，其中，所述识别模块，还用于：

11.根据权利要求10所述的装置，其中，所述识别模块，还用于：

12.根据权利要求9-11任一项所述的装置，其中，所述装置还包括：

位置获取模块，用于获取所述第三候选图像区域在其所属帧图像中的位置；

重叠获取模块，用于基于所述位置，获取所述第三候选图像区域与标记有路面分割结果的第二路面参考图像之间的重叠部分；

筛除模块，用于获取所述重叠部分的面积小于预设面积阈值的不属于路面区域的候选图像区域，并从所述第三候选图像区域中筛除所述不属于路面区域的候选图像区域。

13.根据权利要求10或11所述的装置，其中，所述识别模块，还用于：

获取所述第三候选图像区域在其所属帧图像中的位置；

14.根据权利要求13所述的装置，其中，所述识别模块，还用于：

15.根据权利要求9-11任一项所述的装置，其中，所述装置还包括：

检测框生成模块，用于获取所述检测目标的最小横纵坐标和最大横纵坐标，以及根据所述检测目标的最小横纵坐标和所述最大横纵坐标，生成所述检测目标的检测框。

16.根据权利要求9-11任一项所述的装置，其中，所述区域匹配模块，还用于：

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。

19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。