CN115984634B

CN115984634B - 图像检测方法、装置、设备、存储介质和程序产品

Info

Publication number: CN115984634B
Application number: CN202310272350.2A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Moore Threads Technology Co Ltd
Current assignee: Mole Thread Intelligent Technology (Beijing) Co.,Ltd.
Priority date: 2023-03-20
Filing date: 2023-03-20
Publication date: 2023-09-12
Anticipated expiration: 2043-03-20
Also published as: CN115984634A

Abstract

本申请涉及一种图像检测方法、装置、设备、存储介质和程序产品。所述方法包括：根据获取的至少两帧图像，确定其他图像与当前帧图像之间的残差图；所述至少两帧图像中包括当前帧图像，所述其他图像为各所述图像中除所述当前帧图像之外的图像；根据所述其他图像对应的残差图和所述当前帧图像，对所述当前帧图像中的对象进行识别处理，确定所述当前帧图像中的对象的目标类别；所述目标类别包括动态和非动态；根据所述对象的目标类别对所述当前帧图像进行处理，得到目标图像；所述目标图像中不包括目标类别为动态的对象。采用本方法能够提高物体检测结果的准确性。

Description

图像检测方法、装置、设备、存储介质和程序产品

技术领域

本申请涉及计算机技术领域，特别是涉及一种图像检测方法、装置、设备、存储介质和程序产品。

背景技术

SLAM（Simultaneous Localization and Mapping，同步定位与建图）系统一般包括传感器数据、视觉里程计、后端、建图及回环检测五个模块。其工作流程为：传感器读取场景中物体的数据后，视觉里程计估计两个时刻物体的相对运动，后端处理视觉里程计的估计结果的累积误差，建图则根据前端与后端得到的运动轨迹来建立地图，回环检测对同一场景不同时刻的图像，通过空间上约束来消除累积误差，使得建图更加准确。由此可见，场景中的物体对后续里程估计以及建图等各个流程均会产生影响，尤其物体为动态物体时的影响会更为显著，因此对场景中的动态物体进行检测并剔除就非常有必要。

相关技术中，一般在检测场景中的动态物体时，一般是对物体进行检测，然后对检测到的物体进行特征点提取，获得特征点；之后可以根据预先定义好的物体的静态或动态的类别，对特征点中为动态类别的特征点进行剔除，以获得最终的数据检测结果。

然而，上述技术存在获得的物体检测结果不够准确的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高物体检测结果准确性的图像检测方法、装置、设备、存储介质和程序产品。

第一方面，本申请提供了一种图像检测方法，该方法包括：

根据获取的至少两帧图像，确定其他图像与当前帧图像之间的残差图；上述至少两帧图像中包括当前帧图像，上述其他图像为各图像中除当前帧图像之外的图像；

根据其他图像对应的残差图和当前帧图像，对当前帧图像中的对象进行识别处理，确定当前帧图像中的对象的目标类别；上述目标类别包括动态和非动态；

根据对象的目标类别对当前帧图像进行处理，得到目标图像；上述目标图像中不包括目标类别为动态的对象。

在其中一个实施例中，上述根据其他图像对应的残差图和当前帧图像，对当前帧图像中的对象进行识别处理，确定当前帧图像中的对象的目标类别，包括：

将当前帧图像和其他图像对应的残差图进行堆叠，获得堆叠图像；

将堆叠图像输入至预设的动态对象识别网络中，对当前帧图像中的对象进行识别处理，确定当前帧图像中的对象的目标类别；

其中，上述动态对象识别网络是根据预设的第一训练数据集进行训练得到的，上述第一训练数据集中包括多种不同的样本对象以及每种样本对象的参考类别，上述参考类别包括动态或非动态。

在其中一个实施例中，上述根据获取的至少两帧图像，确定其他图像与当前帧图像之间的残差图，包括：

将其他图像变换至当前帧图像所在的相机坐标系下，获得变换后的其他图像；

计算变换后的其他图像与当前帧图像之间的残差图，确定其他图像对应的残差图。

在其中一个实施例中，上述计算变换后的其他图像与当前帧图像之间的残差图，包括：

计算变换后的其他图像与当前帧图像之间在深度信息通道上的残差图；

上述将当前帧图像和其他图像对应的残差图进行堆叠，获得堆叠图像，包括：

将当前帧图像、变换后的其他图像与当前帧图像之间在深度信息通道上的残差图进行堆叠，获得堆叠图像。

在其中一个实施例中，上述第一数据集的构建方式包括：

获取初始视频帧；上述初始视频帧中包括多个时刻连续的初始样本图像；

将各初始样本图像输入至预设的全景分割网络中进行分割处理，确定各样本图像中每个样本对象的分割信息；

根据各样本图像的分割信息，结合相邻的至少一个样本图像的分割信息，确定各样本图像中每个样本对象的参考类别，获得第一数据集。

在其中一个实施例中，上述根据对象的目标类别对当前帧图像进行处理，得到目标图像，包括：

根据当前帧图像中对象的目标类别，剔除当前帧图像中目标类别为动态的对象，得到目标图像。

第二方面，本申请还提供了一种图像检测装置，该装置包括：

残差图确定模块，用于根据获取的至少两帧图像，确定其他图像与当前帧图像之间的残差图；上述至少两帧图像中包括当前帧图像，上述其他图像为各图像中除当前帧图像之外的图像；

目标类别确定模块，用于根据其他图像对应的残差图和当前帧图像，对当前帧图像中的对象进行识别处理，确定当前帧图像中的对象的目标类别；上述目标类别包括动态和非动态；

目标图像确定模块，用于根据对象的目标类别对当前帧图像进行处理，得到目标图像；上述目标图像中不包括目标类别为动态的对象。

第三方面，本申请还提供了一种计算机设备，计算机设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质，计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品，计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述图像检测方法、装置、设备、存储介质和程序产品，通过根据获取的至少两帧图像确定其中其他图像与当前帧图像之间的残差图，并根据其他图像对应的残差图和当前帧图像对当前帧图像中的对象进行识别处理，确定当前帧图像中的对象的目标类别，然后通过对象的目标类别对当前帧图像进行处理后，得到不包括目标类别为动态的对象的目标图像；其中，目标类别包括动态和非动态。该方法中，由于通过当前帧图像结合其他图像的残差图，可以更好的区分出当前帧图像中对象的运动信息，以便后续更加准确且快速地识别出对象的目标类别以对当前帧图像处理，这样的方式不会直接剔除图像中的动态对象，因此可以减少过多地删除非动态物体的可能性，即获得的物体检测结果更加准确；同时删除的物体及其信息较少，那么就可以保留更多的物体及其信息，即图像中保留的场景信息就更多，后续采用该图像进行建图的结果就更准确。

附图说明

图1为一个实施例中计算机设备的内部结构图；

图2为一个实施例中图像检测方法的流程示意图；

图3为另一个实施例中图像检测方法的流程示意图；

图4为另一个实施例中图像检测方法的流程示意图；

图5为另一个实施例中图像检测方法的流程示意图；

图6为另一个实施例中对网络进行知识蒸馏处理的示例图；

图7为另一个实施例中图像检测方法的详细流程示意图；

图8为一个实施例中图像检测装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的图像检测方法，可以应用于种计算机设备，该计算机设备可以是终端，其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种图像检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，如图2所示，提供了一种图像检测方法，以该方法应用于图1中的计算机设备为例进行说明，可以包括以下步骤：

S202，根据获取的至少两帧图像，确定其他图像与当前帧图像之间的残差图；上述至少两帧图像中包括当前帧图像，上述其他图像为各图像中除当前帧图像之外的图像。

其中，对于这里的至少两帧图像，各帧图像之间可以具有时间关联性，例如至少两帧图像中包括当前时刻采集的当前帧图像和前一时刻采集的前一帧图像，或者至少两帧图像中包括当前时刻采集的当前帧图像和前多个时刻采集的前K帧图像，其中K大于等于1。

在本步骤中，可以通过传感器对建图场景中的对象进行图像采集以获得相应的图像。这里的传感器例如可以是雷达、相机、摄像头等等，其中的相机可以是具备采集深度信息功能的相机，雷达可以是激光雷达、毫米波雷达等等。该传感器可以设置在机器人上，计算机设备可以设置在机器人上，或者通过无线的方式与机器人连接，这样即可获得机器人上的传感器所采集的图像。

通过上述传感器在各个时刻对建图场景中的对象进行图像采集，即可获得当前时刻采集的当前帧图像和其他时刻采集的图像（可以记为其他图像），获得至少两帧图像。计算机设备在获得至少两帧图像之后，可以将每个其他图像分别和当前帧图像进行作差，具体可以是：对其他图像上的各个点和当前帧图像上相应位置处的点，两者的像素值进行作差，这样即可获得每个其他图像和当前帧图像之间的残差图。

S204，根据其他图像对应的残差图和当前帧图像，对当前帧图像中的对象进行识别处理，确定当前帧图像中的对象的目标类别；上述目标类别包括动态和非动态。

在本步骤中，在获得每个其他图像对应的残差图之后，可以结合当前帧图像一起对其中的对象进行分析识别处理，获得对象具体是动态或是非动态的目标类别。其中，这里在对当前帧图像上的对象进行分析识别时，可以是采用神经网络来进行分析识别，或者还可以是其他方式，这里不作具体限定。

需要说明的是，对于其他图像的残差图和当前帧图像，如果当前帧图像中存在运动的对象，那么该运动的对象在残差图上必然是存在的，而对于不运动的对象，其在残差图上通过残差处理就可以消除掉，即不存在。因此这里通过其他图像的残差图与当前帧图像，可以较为直观地区分出当前帧图像中对象的运动信息，以便后续更加准确且快速地识别出对象的目标类别。

另外，对于目标类别中的动态指的是绝对动态，例如在路上行驶的车辆或者行走的行人等对象，即为动态的对象，对于停在停车位上的车辆等对象可以认为是非动态的对象。对于目标类别中的非动态，其与绝对静态含义稍微有些差别，例如可以是相对静态。对于绝对静态的含义，例如道路场景中的交通灯和建筑物等对象的位置在该道路场景中是不会改变的，那么交通灯和建筑物就可以认为是静态的对象；再例如道路场景中有很多车辆，有的车辆停在停车位上，有的车辆在路上行驶，那么这里的车辆有停止和行驶的，其位置是可变的，那么就不是绝对静态的对象，属于相对静态的对象，与此类似的对象还有行人、骑单车的人等。

一般绝对静态的对象的位置不会改变，那么采集该对象的图像可以增加建图的细节且增加建图的精度；然而相对静态的对象中有的对象的位置变化非常大，其会大大影响到建图的精度，需要对其进行着重检测，因此本实施例中主要是针对相对静态的对象进行检测，以提高后续建图的精度。

S206，根据对象的目标类别对当前帧图像进行处理，得到目标图像；上述目标图像中不包括目标类别为动态的对象。

在本步骤中，上述在获得当前帧图像中对象具体是属于动态还是非动态的目标类别之后，作为可选的实施例，可以根据当前帧图像中对象的目标类别，剔除当前帧图像中目标类别为动态的对象，得到目标图像。

也就是说，在当前帧图像中，可以将目标类别为动态的对象的信息从当前帧图像中剔除（例如抠图的方式剔除等），将当前帧图像中绝对静态的对象以及非动态的对象的信息均保留下来，之后可以执行后续的视觉里程计、回环检测、非线性优化等步骤，实现建图过程。

上述图像检测方法中，通过根据获取的至少两帧图像确定其中其他图像与当前帧图像之间的残差图，并根据其他图像对应的残差图和当前帧图像对当前帧图像中的对象进行识别处理，确定当前帧图像中的对象的目标类别，然后通过对象的目标类别对当前帧图像进行处理后，得到不包括目标类别为动态的对象的目标图像；其中，目标类别包括动态和非动态。该方法中，由于通过当前帧图像结合其他图像的残差图，可以更好的区分出当前帧图像中对象的运动信息，以便后续更加准确且快速地识别出对象的目标类别以对当前帧图像处理，这样的方式不会直接剔除图像中的动态对象，因此可以减少过多地删除非动态物体的可能性，即获得的物体检测结果更加准确；同时删除的物体及其信息较少，那么就可以保留更多的物体及其信息，即图像中保留的场景信息就更多，后续采用该图像进行建图的结果就更准确。

上述在通过传感器采集至少两帧图像时，由于传感器可能会存在移动或者搭载传感器的机器人存在移动等情况，会导致采集的各帧图像之间的坐标系不同，影响后续对象的分析识别结果，因此为了避免此问题，本实施例中先对各帧图像进行坐标变换，之后再计算残差图。以下实施例就对该过程的具体实现方式进行详细说明。

在另一个实施例中，提供了另一种图像检测方法，在上述实施例的基础上，如图3所示，上述S202可以包括以下步骤：

S302，将其他图像变换至当前帧图像所在的相机坐标系下，获得变换后的其他图像。

S304，计算变换后的其他图像与当前帧图像之间的残差图，确定其他图像对应的残差图。

其中，在获得各帧图像之后，可以通过特征点匹配等方式计算出每个其他图像的相机坐标系和当前帧图像的相机坐标系之间的空间变换关系，然后通过空间变换关系对相应的其他图像上的各个点进行变换，以将其他图像变换至当前帧图像所在的相机坐标系下，获得变换后的其他图像。

之后，可以将每个变换后的其他图像分别和当前帧图像进行作差，具体可以是：对其他图像上的各个点和当前帧图像上相应位置处的点，两者的像素值进行作差，这样即可获得每个变换后的其他图像和当前帧图像之间的残差图。另外，对于这里的残差图，作为可选的实施例，可以是计算变换后的其他图像与当前帧图像之间在深度信息通道上的残差图。这里的深度信息可以采用具备采集深度信息功能的相机采集获得，这里对于计算深度信息，主要是各帧图像在深度信息的维度上存在差异之处。

本实施例中，通过将其他图像转换至当前帧图像的坐标系下再计算残差图，这样在同一个坐标系下计算也可以提升计算的残差图的准确性，进而提升后续对象识别的精度。

上述实施例中提到了对当前帧图像中非静态的对象进行识别时可以采用神经网络进行识别，以下实施例就对采用神经网络进行识别的过程进行说明。

在另一个实施例中，提供了另一种图像检测方法，在上述实施例的基础上，如图4所示，上述S204可以包括以下步骤：

S402，将当前帧图像和其他图像对应的残差图进行堆叠，获得堆叠图像。

在本步骤中，在计算出各帧图像在深度信息通道上的残差图之后，作为可选的实施例，本步骤中可以是将当前帧图像、变换后的其他图像与当前帧图像之间在深度信息通道上的残差图进行堆叠，获得堆叠图像。这里的堆叠处理具体可以是按照一定的顺序将各图像进行组合或者合并等处理，最终可以获得堆叠图像。

需要说明的是，当前帧图像及其他图像各自不仅包括深度信息通道D，还包括RGB三个颜色通道。那么这里的堆叠具体可以是：将当前帧图像的RGBD四个通道的信息，加上变换后的其他图像与当前帧图像在深度信息通道上的残差图，总共两部分的信息堆叠起来获得堆叠图像，作为后续动态对象识别网络的输入。

S404，将堆叠图像输入至预设的动态对象识别网络中，对当前帧图像中的对象进行识别处理，确定当前帧图像中的对象的目标类别。

其中，动态对象识别网络可以是神经网络，具体的网络类型和网络架构这里不作具体限定。该动态对象识别网络例如可以是二分类网络，其输出可以是对象属于两个类别的概率，并通过概率和阈值的比较即可获得相应的类别。

通常，神经网络一般在使用之前都需要进行训练，该动态对象识别网络也可以预先训练好。对于其训练过程，可以是该动态对象识别网络是根据预设的第一训练数据集进行训练得到的，该第一训练数据集中包括多种不同的样本对象以及每种样本对象的参考类别，参考类别包括动态或非动态。

这里的第一训练数据集可以是实时采集的数据，也可以是公开的数据集Cityscapes。以Cityscapes为例，其中包括多个城市的场景，并且对场景中的样本对象预先进行了语义标注和实例标注；其中语义标注主要是对样本对象的名称进行标注，例如样本对象的语义标注包括人、车等；实例标注主要是对同一类样本对象的标识进行标注，例如某一个场景中有5个语义均为车的车辆，那么可以分别为这5辆车标注不同的标识，例如1、2、3、4、5，以区分不同的车辆。在该数据集的基础上，本实施例中可以通过语义标注和实例标注对样本对象的参考类别进行标注，例如行驶中的车辆，其参考类别可以设置为动态，例如停在停车位的车辆，其参考类别可以设置为非动态。

基于上述公开的数据集以及参考类别的标注之后，可以采用标注后的数据对初始动态对象识别网络进行训练，获得训练好的网络；或者还可以根据任务需要在公开的数据集中补充实际任务场景的数据，获得第一训练数据集，以丰富训练数据。

另外，在实际训练动态对象识别网络时，可以将第一训练数据集按照6：2：2的比例划分成训练集、验证集和测试集，并通过训练集、验证集和测试集完成对初始动态对象识别网络的训练，获得满足精度要求的动态对象识别网络。

在获得训练好的动态对象识别网络之后，可以将上述当前帧图像RGBD四个通道的信息、变换后的其他图像各自与当前帧图像在深度信息通道上的残差图进行堆叠后获得的堆叠图像输入至动态对象识别网络中，对当前帧图像上的对象进行识别，获得当前帧图像上的对象为动态或非动态的目标类别。

本实施例中，通过将当前帧图像和残差图进行堆叠后输入至预先训练好的动态对象识别网络中进行识别处理，获得当前帧图像上的对象为动态或非动态的目标类别，这样通过训练好的识别网络对当前帧图像进行识别，可以提高对象识别的效率和准确性。

上述实施例主要是针对第一数据集是公开数据集为例进行说明，以下对第一数据集为实时采集的数据而言时，具体如何构建第一数据集的过程进行说明。

在另一个实施例中，提供了另一种图像检测方法，在上述实施例的基础上，如图5所示，上述第一数据集的构建过程可以包括以下步骤：

S502，获取初始视频帧；上述初始视频帧中包括多个时刻连续的初始样本图像。

在本步骤中，可以通过传感器对各种建图场景中的样本对象进行实时采集，获得初始视频帧，该初始视频帧中的各初始样本图像为在连续时刻进行采集获得的图像。

S504，将各初始样本图像输入至预设的全景分割网络中进行分割处理，确定各样本图像中每个样本对象的分割信息。

在获得各初始样本图像之后，可以将各初始样本图像输入至预设的全景分割网络中进行分割处理，确定各初始样本图像中各个样本对象的分割信息。其中，每个样本对象的分割信息包括该样本对象的语义信息和实例信息；语义信息主要包括对象的名称，例如对象的名称可以是人、车、建筑物等等；实例信息主要包括对象的标识，用于表征该对象为某一名称下的某个对象。

一般全景分割网络在使用之前还需要进行训练，在训练时，该全景分割网络可以是根据预设的第二训练数据集进行训练得到的，上述第二训练数据集中包括多个样本图像以及每个样本图像中各个样本对象的参考分割结果，每个样本对象的参考分割结果包括样本对象的参考语义信息和参考实例信息。

这里的第二训练集例如也可以是公开的数据集Cityscapes，其中包括多个城市的场景，并且对场景中的样本对象预先标注了参考分割结果，该参考分割结果中包括中样本对象的参考语义信息和参考实例信息，即上述提到的对样本对象进行了语义标注和实例标注，其中的语义标注和实例标注的具体含义可以参见上述第一训练数据集中描述，这里就不再赘述。当然这里的参考分割结果中也可以包括样本对象的位置信息等。

在采用第二训练数据集进行全景分割网络的训练时，也可以是将第二训练数据集按照6：2：2的比例划分成训练集、验证集和测试集，并通过训练集、验证集和测试集完成对初始全景分割网络的训练，获得满足精度要求的全景分割网络。这里获得的满足精度要求的全景分割网络可以记为初始全景分割网络。

一般可以直接基于上述第二训练数据集对未训练的全景分割网络进行训练，获得训练好的网络；或者还可以根据任务需要在公开的数据集中补充实际任务场景的数据，获得第二训练数据集，以丰富训练数据。

在获得训练好的全景分割网络后，可以将各个样本图像均输入至全景分割网络中进行分割处理，获得每个样本图像上的各个样本对象以及每个样本对象的分割信息，例如可以包括语义信息和实例信息。

S506，根据各样本图像的分割信息，结合相邻的至少一个样本图像的分割信息，确定各样本图像中每个样本对象的参考类别，获得第一数据集。

在本步骤中，在获得每个样本图像的分割信息之后，针对同一个样本对象而言，可以获取相邻多帧均包括该样本对象的样本图像，并统计该样本对象在这几帧图像上的类别，例如该样本对象的类别为动态的图像数量较多，则确定该样本对象的参考类别为动态，否则为非动态。

通过此方式可以对全部的样本对象均进行参考类别的确定即标注，最终标注完成，将标注参考类别的样本图像组合起来即可获得第一数据集。

本实施例中，通过获取包括多个连续时刻初始样本图像的初始视频帧，并采用预设的全景分割模型对其进行分割获得其中样本对象的分割信息，以及结合相邻样本图像的分割信息确定每个样本图像中样本对象的参考类别，获得第一数据集。这里通过连续的视频帧以及结合相邻帧图像的分割信息共同确定样本对象的参考类别，可以使得确定的参考类别更准确，从而确定的第一数据集更准确，那么通过第一数据集训练的动态对象识别网络的识别精度就更高。

以下实施例对全景分割网络进行进一步说明。

在另一个实施例中，上述全景分割网络为轻量化全景分割网络。这里的轻量化全景分割网络指的是轻量级的全景分割网络，通过轻量级的全景分割网络，这样可以便于将全景分割网络部署在边缘设备上，提升全景分割网络的适用范围。

进一步，对于上述轻量化全景分割网络的确定方式，可以包括：对初始全景分割网络进行知识蒸馏处理以及剪枝处理，确定轻量化全景分割网络。

其中的初始全景分割网络可以是上述通过第二训练数据集直接训练得到的网络，该初始全景分割网络一般量级较大，占用内存可能会比较大，因此这里为了减少网络占用的内存，可以对初始全景分割网络进行知识蒸馏处理和剪枝处理。

首先基于上述初始全景分割网络的框架，减少网络的卷积层和池化层等网络层的层数，获得新的全景分割网络。接着对新的全景分割网络进行知识蒸馏处理，参见图6所示，知识蒸馏处理主要分成两步，首先是训练教师模型，上述初始全景分割网络为教师模型（Teacher model），获得教师模型后，在温度T下对教师模型进行“蒸馏”，得到学生模型（Student/Distilledmodel），上述新的全景分割网络就是学生模型。

在训练过程中，首先输入图像可以分别输入至教师模型和学生模型中，通过多层layer网络层（例如图中的layer 层m和layer 层n）进行处理，之后可以进行softmax归一化处理；之后可以通过构造硬损失（学生损失student loss，对应hard label硬标签和hardprediction 硬预测结果）和软损失（蒸馏损失distillation loss，对应soft label软标签和soft prediction 软预测结果）；并通过这两个损失实现以大模型（初始全景分割网络）指导小模型（新的全景分割网络）的方式对小模型（新的全景分割网络）进行训练，最终获得训练好的小模型（新的全景分割网络）。

之后可以对训练好的小模型（新的全景分割网络）进行剪枝处理，这里先对剪枝处理的原因进行说明。一般深度学习网络模型从卷积层到全连接层存在着大量冗余的参数，大量神经元激活值趋近于0，仅仅只有少部分（5-10%）权值参与着主要的计算，将这些神经元去除后可以表现出同样的模型表达能力，这种情况被称为过参数化，而对应的技术则被称为模型剪枝处理。

模型剪枝处理的一般分为如下几个步骤：1、评估神经元的重要性；2、去掉最不重要的神经元；3、对模型进行精细化调整；4、根据精度要求判断是否进行剪枝；5、如继续剪枝，则重复1-5，否则执行步骤6；6、停止剪枝处理，得到剪枝后的模型，即本实施例中的轻量化全景分割网络。

本实施例中，通过对初始全景分割网络进行知识蒸馏处理和剪枝处理，获得轻量化全景分割网络，这样可以便于快速将大量级的网络转化为小量级的网络，降低网络占用的内存，提升网络的适用范围。

以下实施例中给出一个具体的实施例来对本申请的技术方案进行说明在上述实施例的基础上，如图7所示，该方法可以包括以下步骤：

模型训练阶段：

一、动态对象识别网络。通过预设的第一训练数据集对未训练的始对象识别网络进行训练得到动态对象识别网络，上述第一训练数据集中包括多种不同的样本对象以及每种样本对象的参考类别，上述参考类别包括动态或非动态。

其中第一数据集的构建方式包括：获取初始视频帧；上述初始视频帧中包括多个时刻连续的初始样本图像；将各初始样本图像输入至预设的全景分割网络中进行分割处理，确定各样本图像中每个样本对象的分割信息；根据各样本图像的分割信息，结合相邻的至少一个样本图像的分割信息，确定各样本图像中每个样本对象的参考类别，获得第一数据集。

二、全景分割网络。通过预设的第二训练数据集对未训练的全景分割网络进行训练得到全景分割网络，上述第二训练数据集中包括多个样本图像以及每个样本图像中各个样本对象的参考分割结果，每个样本对象的参考分割结果包括样本对象的参考语义信息和参考实例信息。

模型应用阶段：

S1，获取至少两帧图像；该至少两帧图像中包括当前帧图像和其他帧图像，其他图像为各图像中除当前帧图像之外的图像；

S2，将其他图像变换至当前帧图像所在的相机坐标系下，获得变换后的其他图像；

S3，计算变换后的其他图像与当前帧图像之间在深度信息通道上的残差图，确定其他图像对应的残差图；

S4，将当前帧图像、变换后的其他图像与当前帧图像之间在深度信息通道上的残差图进行堆叠，获得堆叠图像；

S5，将堆叠图像输入至预设的动态对象识别网络中，对当前帧图像中的对象进行识别处理，确定当前帧图像中的对象的目标类别；目标类别包括动态和非动态；

S6，根据当前帧图像中的对象的目标类别，剔除当前帧图像中目标类别为动态的对象，得到目标图像。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的图像检测方法的图像检测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个图像检测装置实施例中的具体限定可以参见上文中对于图像检测方法的限定，在此不再赘述。

在一个实施例中，如图8所示，提供了一种图像检测装置，包括：初始类别确定模块、目标类别确定模块和目标图像确定模块，其中：

可选的，上述目标图像确定模块，可以包括：

剔除单元，用于根据当前帧图像中对象的目标类别，剔除当前帧图像中目标类别为动态的对象，得到目标图像。

在另一个实施例中，提供了另一种图像检测装置，在上述实施例的基础上，上述目标类别确定模块，可以包括：

堆叠单元，用于将当前帧图像和其他图像对应的残差图进行堆叠，获得堆叠图像；

识别单元，用于将堆叠图像输入至预设的动态对象识别网络中，对当前帧图像中的对象进行识别处理，确定当前帧图像中的对象的目标类别；其中，上述动态对象识别网络是根据预设的第一训练数据集进行训练得到的，上述第一训练数据集中包括多种不同的样本对象以及每种样本对象的参考类别，上述参考类别包括动态或非动态。

在另一个实施例中，提供了另一种图像检测装置，在上述实施例的基础上，上述残差图确定模块，可以包括：

变换单元，用于将其他图像变换至当前帧图像所在的相机坐标系下，获得变换后的其他图像；

计算单元，用于计算变换后的其他图像与当前帧图像之间的残差图，确定其他图像对应的残差图。

残差计算单元，用于根据获取的至少两帧图像，计算变换后的其他图像与当前帧图像之间在深度信息通道上的残差图；

上述堆叠单元，用于将当前帧图像、变换后的其他图像与当前帧图像之间在深度信息通道上的残差图进行堆叠，获得堆叠图像。

在另一个实施例中，提供了另一种图像检测装置，在上述实施例的基础上，上述装置还包括构建模块，该构建模块可以包括：

视频帧获取单元，用于获取初始视频帧；上述初始视频帧中包括多个时刻连续的初始样本图像；

分割单元，用于将各初始样本图像输入至预设的全景分割网络中进行分割处理，确定各样本图像中每个样本对象的分割信息；

构建单元，用于根据各样本图像的分割信息，结合相邻的至少一个样本图像的分割信息，确定各样本图像中每个样本对象的参考类别，获得第一数据集。

上述图像检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

根据获取的至少两帧图像，确定其他图像与当前帧图像之间的残差图；上述至少两帧图像中包括当前帧图像，上述其他图像为各图像中除当前帧图像之外的图像；根据其他图像对应的残差图和当前帧图像，对当前帧图像中的对象进行识别处理，确定当前帧图像中的对象的目标类别；上述目标类别包括动态和非动态；根据对象的目标类别对当前帧图像进行处理，得到目标图像；上述目标图像中不包括目标类别为动态的对象。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

将当前帧图像和其他图像对应的残差图进行堆叠，获得堆叠图像；将堆叠图像输入至预设的动态对象识别网络中，对当前帧图像中的对象进行识别处理，确定当前帧图像中的对象的目标类别；其中，上述动态对象识别网络是根据预设的第一训练数据集进行训练得到的，上述第一训练数据集中包括多种不同的样本对象以及每种样本对象的参考类别，上述参考类别包括动态或非动态。

将其他图像变换至当前帧图像所在的相机坐标系下，获得变换后的其他图像；计算变换后的其他图像与当前帧图像之间的残差图，确定其他图像对应的残差图。

根据获取的至少两帧图像，计算变换后的其他图像与当前帧图像之间在深度信息通道上的残差图；将当前帧图像、变换后的其他图像与当前帧图像之间在深度信息通道上的残差图进行堆叠，获得堆叠图像。

获取初始视频帧；上述初始视频帧中包括多个时刻连续的初始样本图像；将各初始样本图像输入至预设的全景分割网络中进行分割处理，确定各样本图像中每个样本对象的分割信息；根据各样本图像的分割信息，结合相邻的至少一个样本图像的分割信息，确定各样本图像中每个样本对象的参考类别，获得第一数据集。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

需要说明的是，本申请所涉及的数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经过各方充分授权的数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric RandomAccess Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccessMemory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种图像检测方法，其特征在于，所述方法包括：

根据获取的至少两帧图像，确定其他图像与当前帧图像之间的残差图；所述至少两帧图像中包括当前帧图像，所述其他图像为各所述图像中除所述当前帧图像之外的图像；

根据所述其他图像对应的残差图和所述当前帧图像，对所述当前帧图像中的对象进行识别处理，确定所述当前帧图像中的对象的目标类别；所述目标类别包括动态和非动态；

根据所述对象的目标类别对所述当前帧图像进行处理，得到目标图像；所述目标图像中不包括目标类别为动态的对象；

所述根据所述其他图像对应的残差图和所述当前帧图像，对所述当前帧图像中的对象进行识别处理，确定所述当前帧图像中的对象的目标类别，包括：

将所述当前帧图像和所述其他图像对应的残差图进行堆叠，获得堆叠图像；所述堆叠图像中包括所述当前帧图像在深度信息通道上的信息和颜色通道上的信息，以及所述其他图像在深度信息通道上的残差图；

将所述堆叠图像输入至预设的动态对象识别网络中，对所述当前帧图像中的对象进行识别处理，确定所述当前帧图像中的对象的目标类别；

其中，所述动态对象识别网络是根据预设的第一训练数据集进行训练得到的，所述第一训练数据集中包括多个样本图像，每个样本图像中均包括样本对象以及每个样本对象的参考类别，所述参考类别包括动态或非动态。

2.根据权利要求1所述的方法，其特征在于，所述根据获取的至少两帧图像，确定其他图像与当前帧图像之间的残差图，包括：

将所述其他图像变换至所述当前帧图像所在的相机坐标系下，获得变换后的其他图像；

计算所述变换后的其他图像与所述当前帧图像之间的残差图，确定所述其他图像对应的残差图。

3.根据权利要求2所述的方法，其特征在于，所述计算所述变换后的其他图像与所述当前帧图像之间的残差图，包括：

计算所述变换后的其他图像与所述当前帧图像之间在深度信息通道上的残差图；

所述将所述当前帧图像和所述其他图像对应的残差图进行堆叠，获得堆叠图像，包括：

将所述当前帧图像、所述变换后的其他图像与所述当前帧图像之间在深度信息通道上的残差图进行堆叠，获得堆叠图像。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述第一训练数据集的构建方式包括：

获取初始视频帧；所述初始视频帧中包括多个时刻连续的初始样本图像；

将各所述初始样本图像输入至预设的全景分割网络中进行分割处理，确定各所述样本图像中每个样本对象的分割信息；

根据各所述样本图像的分割信息，结合相邻的至少一个样本图像的分割信息，确定各所述样本图像中每个样本对象的参考类别，获得所述第一训练数据集。

5.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述对象的目标类别对所述当前帧图像进行处理，得到目标图像，包括：

根据所述当前帧图像中的对象的目标类别，剔除所述当前帧图像中目标类别为动态的对象，得到目标图像。

6.一种图像检测装置，其特征在于，所述装置包括：

残差图确定模块，用于根据获取的至少两帧图像，确定其他图像与当前帧图像之间的残差图；所述至少两帧图像中包括当前帧图像，所述其他图像为各所述图像中除所述当前帧图像之外的图像；

目标类别确定模块，用于根据所述其他图像对应的残差图和所述当前帧图像，对所述当前帧图像中的对象进行识别处理，确定所述当前帧图像中的对象的目标类别；所述目标类别包括动态和非动态；

目标图像确定模块，用于根据所述对象的目标类别对所述当前帧图像进行处理，得到目标图像；所述目标图像中不包括目标类别为动态的对象；

所述目标类别确定模块，包括：

堆叠单元，用于将所述当前帧图像和所述其他图像对应的残差图进行堆叠，获得堆叠图像；所述堆叠图像中包括所述当前帧图像在深度信息通道上的信息和颜色通道上的信息，以及所述其他图像在深度信息通道上的残差图；

识别单元，用于将所述堆叠图像输入至预设的动态对象识别网络中，对所述当前帧图像中的对象进行识别处理，确定所述当前帧图像中的对象的目标类别；

7.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。