CN117392633B

CN117392633B - 一种目标检测方法、计算机可读存储介质及智能设备

Info

Publication number: CN117392633B
Application number: CN202311688481.5A
Authority: CN
Inventors: 任少卿; 马宁宁
Original assignee: Anhui Weilai Zhijia Technology Co Ltd
Current assignee: Anhui Weilai Zhijia Technology Co Ltd
Priority date: 2023-12-11
Filing date: 2023-12-11
Publication date: 2024-03-26
Anticipated expiration: 2043-12-11
Also published as: CN117392633A

Abstract

本申请涉及计算机技术领域，具体提供一种目标检测方法、计算机可读存储介质及智能设备，旨在解决现有预训练阶段未充分利用训练样本的属性信息，不利于得到通用能力较强的基础网络模型，从而影响检测模型的目标检测效果的问题。为此目的，本申请的目标检测方法包括：通过在特征提取网络预训练模型中设置空间感知网络、纹理感知网络和时序感知网络多个任务输出网络，基于多帧时序训练样本和多个任务输出网络对初始特征提取网络进行自监督训练，有利于充分利用训练样本的时间、空间、颜色以及纹理等属性信息，实现了空间、纹理和时序之间的互监督，提高了训练好的特征提取网络的通用能力，进而应用到检测模型后能够有效提高检测模型的目标检测效果。

Description

一种目标检测方法、计算机可读存储介质及智能设备

技术领域

本申请涉及计算机技术领域，具体提供一种目标检测方法、计算机可读存储介质及智能设备。

背景技术

现有技术中可以基于训练好的检测模型进行目标检测，实现对周围环境的自动感知，进而可应用于如自动驾驶等技术领域。相关技术中可采用以下方式得到训练好的检测模型：一种是获取带有标签的训练样本，利用带有标签的训练样本对检测模型进行有监督训练；另一种分两个阶段，在第一阶段利用无标签的训练样本、没有特定的任务对检测模型中的基础网络如特征提取网络进行无监督训练，在第二阶段将第一阶段初步训练好的基础网络应用于目标检测任务，利用带标签训练样本继续进行训练基础网络，得到训练好的检测模型。

上述检测模型的训练方法中，基于有监督训练的方法对带标签的训练样本的需求量较大，且训练样本的标签通常为人工标注，耗时且成本较高，基于无监督训练的方法虽然可以减少对带标签训练样本的需求量，但是在第一阶段亦即预训练阶段，未充分利用训练样本的属性信息，不利于得到通用能力较强的基础网络模型，从而影响检测模型的目标检测效果。

发明内容

本申请旨在解决上述技术问题，即，解决现有预训练阶段未充分利用训练样本的属性信息，不利于得到通用能力较强的基础网络模型，从而影响检测模型的目标检测效果的问题。

在第一方面，本申请提供了一种目标检测方法，其包括：

获取待识别场景的感知数据，所述感知数据包括至少一帧图像数据；

将所述感知数据输入训练好的检测模型，得到目标检测结果；

其中，所述检测模型包括基于自监督训练得到的特征提取网络，基于自监督训练得到所述特征提取网络包括：

获取训练场景的多帧时序训练样本，每帧时序训练样本包括无标签的环视图像数据以及点云数据；

基于所述多帧时序训练样本对特征提取网络预训练模型进行自监督训练，所述特征提取网络预训练模型包括初始特征提取网络和多个任务输出网络，所述多个任务输出网络包括空间感知网络、纹理感知网络和时序感知网络，得到训练好的所述特征提取网络。

在一些实施例中，基于所述多帧时序训练样本对特征提取网络预训练模型进行自监督训练包括：

对所述初始特征提取网络进行基于当前帧的环视图像数据、点云数据和所述空间感知网络的第一自监督训练、基于当前帧的环视图像数据和所述纹理感知网络的第二自监督训练以及基于相邻两帧时序训练样本和所述时序感知网络的第三自监督训练，得到训练好的所述特征提取网络。

在一些实施例中，对所述初始特征提取网络进行基于当前帧的环视图像数据、点云数据和所述空间感知网络的第一自监督训练包括：

将当前帧的环视图像数据输入所述初始特征提取网络，得到图像特征数据；

将所述图像特征数据输入所述空间感知网络，得到空间预测结果；

基于所述空间预测结果和当前帧的点云数据进行第一损失计算，并基于所述第一损失计算的结果对所述初始特征提取网络进行所述第一自监督训练。

在一些实施例中，所述图像特征数据利用三维体素场表征，所述将所述图像特征数据输入所述空间感知网络，得到空间预测结果包括：将所述图像特征数据输入所述空间感知网络，得到体素占用状态值、体素速度和体素反射率中的至少一者；

所述基于所述空间预测结果和当前帧的点云数据进行第一损失计算包括：

基于体素占用状态值、体素速度和体素反射率中的至少一者与当前帧的点云数据进行第一损失计算。

在一些实施例中，对所述初始特征提取网络进行基于当前帧的环视图像数据和所述纹理感知网络的第二自监督训练包括：

将所述图像特征数输入所述纹理感知网络，得到纹理预测结果；

基于所述纹理预测结果和当前帧的环视图像进行第二损失计算，并基于所述第二损失计算的结果对所述初始特征提取网络进行所述第二自监督训练。

在一些实施例中，所述基于所述纹理预测结果和当前帧的环视图像进行第二损失计算包括：

基于所述纹理预测结果和当前帧的环视图像计算未遮挡像素的总平方误差光度损失。

在一些实施例中，对所述初始特征提取网络进行基于相邻两帧时序训练样本和所述时序感知网络的第三自监督训练包括：

获取所述相邻两帧时序训练样本中当前帧的环视图像数据对应的空间预测结果和/或纹理预测结果；

将所述空间预测结果和/或所述纹理预测结果输入所述初始特征提取网络和所述时序感知网络，得到下一帧的预测结果；

至少基于所述下一帧的预测结果和所述相邻两帧时序训练样本中下一帧的时序训练样本进行第三损失计算，并基于所述第三损失计算的结果对所述初始特征提取网络进行所述第三自监督训练。

在一些实施例中，所述至少基于所述下一帧的预测结果和所述相邻两帧时序训练样本中下一帧的时序训练样本进行第三损失计算，包括：

基于所述空间预测结果和/或纹理预测结果与当前帧的时序训练样本进行当前帧一致性损失计算；以及，

基于所述下一帧的预测结果和所述下一帧的时序训练样本进行预测帧一致性损失计算。

在第二方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的目标检测方法。

在第三方面，本申请提供了一种智能设备，其包括：

至少一个处理器；

以及，与所述至少一个处理器通信连接的存储器；

其中，所述存储器中存储有计算机程序，所述计算机程序被所述至少一个处理器执行时实现上述任一项所述的目标检测方法。

在一些实施例中，所述智能设备还包括：

至少一个传感器，所述至少一个传感器与所述至少一个处理器通信连接，所述至少一个传感器用于感知信息。

在采用上述技术方案的情况下，本申请能够通过在特征提取网络预训练模型中设置空间感知网络、纹理感知网络和时序感知网络多个任务输出网络，基于多帧时序训练样本和多个任务输出网络对初始特征提取网络进行自监督训练，有利于充分利用训练样本的时间、空间、颜色以及纹理等属性信息，实现了空间、纹理和时序之间的互监督，提高了训练好的特征提取网络的通用能力，进而应用到检测模型后能够有效提高检测模型的目标检测效果。

附图说明

下面结合附图来描述本申请的优选实施方式，附图中：

图1是本申请实施例提供的一种目标检测方法流程示意图；

图2是本申请实施例提供的特征提取网络预训练模型的结构示意图；

图3是本申请实施例提供的一种特征提取网络自监督训练方法流程示意图；

图4是本申请实施例提供的智能设备结构示意图。

具体实施方式

下面参照附图来描述本申请的一些实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本申请的技术原理，并非旨在限制本申请的保护范围。

参见图1所示，图1是本申请实施例提供的一种目标检测方法流程示意图，其可以包括：

步骤S11：获取待识别场景的感知数据，感知数据包括至少一帧图像数据；

步骤S12：将感知数据输入训练好的检测模型，得到目标检测结果。

在一些实施例中，本申请实施例提供的目标检测方法可以应用于驾驶场景，用于进行行人或车道线检测。

在本申请实施例中，检测模型可以包括训练好的特征提取网络，该训练好的特征提取网络可以通过在预训练阶段，基于初始特征提取网络和空间感知网络、纹理感知网络以及时序感知网络多个任务输出网络构建特征提取网络预训练模型，通过对构建的特征提取网络预训练模型进行自监督训练得到。参见图2所示，图2是本申请实施例提供的特征提取网络预训练模型的结构示意图。通过设置空间感知网络可以学习到场景的空间信息，通过设置纹理感知网络可以学习到纹理信息，通过设置时序网络有效学习到遮挡物体信息以及运动信息，从而能够从多个维度优化特征提取网络，提高特征提取网络的通用能力。

在另一些实施例中，在基于构建的特征提取网络预训练模型进行自监督训练，得到训练好的特征提取网络并应用于目标检测任务之后，还可以利用带标签的训练样本继续进行训练，以对预训练阶段得到的、训练好的特征提取网络进行微调，将微调后的特征提取网络作为最终的训练好的特征提取网络，从而得到训练好的检测模型。

参见图3所示，图3是本申请实施例提供的一种特征提取网络自监督训练方法流程示意图，其可以包括：

步骤S31：获取训练场景的多帧时序训练样本，每帧时序训练样本包括无标签的环视图像数据以及点云数据；

步骤S32：基于多帧时序训练样本对特征提取网络预训练模型进行自监督训练，特征提取网络预训练模型包括初始特征提取网络和多个任务输出网络，多个任务输出网络包括空间感知网络、纹理感知网络和时序感知网络，得到训练好的特征提取网络。

在一些实施例中，步骤S31可以具体为：获取相同时刻下训练场景的环视图像数据和点云数据，环视图像数据包括在不同方位分别采集到的训练场景的多个图像，以相同时刻下的环视图像数据和点云数据作为一帧时序训练样本；获取不同时刻下的时序训练样本，得到多帧时序训练样本。

在本申请实施例中，无标签的环视图像数据可以包括颜色、时间和纹理多种属性信息，其中纹理可以通过颜色和/亮度等特征表示，无标签的点云数据可以通过三维体素场表征，无标签的点云数据可以包括各个体素的体素占用状态真实值、体素真实速度和体素真实反射率中的至少一种属性信息。上述属性信息可以用于后续的无监督训练过程中。

在一些实施例中，步骤S32可以具体为：

对初始特征提取网络进行基于当前帧的环视图像数据、点云数据和空间感知网络的第一自监督训练、基于当前帧的环视图像数据和纹理感知网络的第二自监督训练以及基于相邻两帧时序训练样本和时序感知网络的第三自监督训练，得到训练好的特征提取网络。

在一些实施例中，空间感知网络可以包括多个卷积层，纹理感知网络可以采用神经辐射场网络，时序感知网络可以采用transformer网络。在其他实施例中，空间感知网络、纹理感知网络和时序感知网络可以采用本领域其他能够实现相同功能的网络。

在一些实施例中，对初始特征提取网络进行基于当前帧的环视图像数据、点云数据和空间感知网络的第一自监督训练可以包括：

将当前帧的环视图像数据输入初始特征提取网络，得到图像特征数据；

将图像特征数据输入空间感知网络，得到空间预测结果；

基于空间预测结果和当前帧的点云数据进行第一损失计算，并基于第一损失计算的结果对初始特征提取网络进行第一自监督训练。

在一些实施例中，初始特征提取网络可以包括骨干网络和鸟瞰网络，骨干网络用于对输入的当前帧的环视图像数据进行特征提取，得到二维特征数据；鸟瞰网络用于将二维特征数据转换为三维特征数据，作为图像特征数据。对三维特征数据进行体素网格划分，得到利用三维体素场表征的图像特征数据。

在一些实施例中，将图像特征数据输入空间感知网络，得到空间预测结果包括：将图像特征数据输入空间感知网络，得到体素占用状态值、体素速度和体素反射率中的至少一者。

在一些实施例中，基于空间预测结果和当前帧的点云数据进行第一损失计算包括：

如上文所述，点云数据可以包括各个体素的体素占用状态真实值、体素真实速度和体素真实反射率中的至少一种属性信息。

其中，当空间预测结果包括体素占用状态值时，基于空间预测结果和当前帧的点云数据进行第一损失计算包括：

基于体素占用状态值、当前帧点云数据的体素占用状态真实值以及体素未遮挡系数计算未遮挡体素的总焦点损失；

基于总焦点损失与未遮挡体素的总遮挡系数的比值，得到体素占用损失。

其中，体素占用损失可以用以下表达式表示：

其中，L _occupancy代表体素占用损失，Mask _{i_is_not_occluded}代表第i个体素的体素未遮挡系数，体素Voxel有n个，作为示例，被遮挡时可表示为Mask _{i_is _occluded} =0，未遮挡时Mask _{i_is_not_occluded} =1，x _i ^occ代表第i个体素的体素占用状态值，gt _i ^occ代表第i个体素的体素占用状态真实值，L _focal代表焦点损失，上式中分子代表i至n个体素中未被遮体素的总焦点损失，分母代表i至n个体素中未被遮体素的总遮挡系数。

当空间预测结果包括体素速度时，基于空间预测结果和当前帧的点云数据进行第一损失计算包括：

基于体素速度、当前帧点云数据的体素真实速度以及体素占用系数计算占用体素的第一总回归损失；

基于第一总回归损失与占用体素的总占用系数的比值，得到体素速度损失。

其中，体素速度损失可以用以下表达式表示：

其中，L _flow代表体素速度损失，Mask _{i_is_occupied}代表第i个体素的体素占用系数，体素Voxel有n个，作为示例，被占用时Mask _{i_is _occupied} =1，未被占用时可以表示为Mask _{i_is_not_occupied} =0，x _i ^flow代表第i个体素的体素速度，gt _i ^flow代表第i个体素的体素真实速度，L _reg代表回归损失，上式中分子代表i至n个体素中占用体素的第一总回归损失，分母代表i至n个体素中占用体素的总占用系数。

当空间预测结果包括体素反射率时，基于空间预测结果和当前帧的点云数据进行第一损失计算包括：

基于体素反射率、当前帧点云数据的体素真实反射率以及体素占用系数计算占用体素的第二总回归损失；

基于第二总回归损失与占用体素的总占用系数的比值，得到体素反射率损失。

其中，体素反射率损失可以用以下表达式表示：

其中，L _Reflect代表体素反射率损失，Mask _{i_is_occupied}代表第i个体素的体素占用系数，体素Voxel有n个，作为示例，被占用时Mask _{i_is_occupied}=1，未被占用时可以表示为Mask _{i_is_not_occupied}=0，x _i ^ref代表第i个体素的体素反射率，gt _i ^ref代表第i个体素的体素真实反射率，L _reg代表回归损失，上式中分子代表i至n个体素中占用体素的第二总回归损失，分母代表i至n个体素中占用体素的总占用系数。

在一些实施例中，基于第一损失计算的结果对初始特征提取网络进行第一自监督训练可以为基于体素占用损失、体素速度损失和体素反射率损失分别对初始特征提取网络进行训练，在其他实施例中，还可以为基于体素占用损失、体素速度损失和体素反射率损失进行加权求和得到总损失，以总损失作为第一损失计算的结果对初始特征提取网络进行第一自监督训练。需要说明的是，也可以采用其他的方式进行总损失的计算，在本申请中将不做特别的限定。

在一些实施例中，对初始特征提取网络进行基于当前帧的环视图像数据和纹理感知网络的第二自监督训练可以包括：

将图像特征数输入纹理感知网络，得到纹理预测结果；

基于纹理预测结果和当前帧的环视图像进行第二损失计算，并基于第二损失计算的结果对初始特征提取网络进行第二自监督训练。

其中，针对多帧时序训练样本中的当前帧时序训练样本，将当前帧时序训练样本中无标签的环视图像数据输入初始特征提取网络，得到图像特征数据；将图像特征数据分别输入空间感知网络和纹理感知网络，得到空间预测结果和纹理预测结果。

在一些实施例中，纹理预测结果可以包括各个像素的预测颜色和预测密度。

在一些实施例中，基于纹理预测结果和当前帧的环视图像进行第二损失计算包括：

基于纹理预测结果和当前帧的环视图像计算未遮挡像素的总平方误差光度损失。

未遮挡像素的总平方误差光度损失可以通过以下表达式得到：

其中，L _{nerf_cam_i}代表神经辐射场中虚拟相机每个像素从射线长度r=0至占用像素MaskedPixels范围的平方误差光度损失，C _r代表射线r关联像素的预测纹理，C _r ^gt代表与射线r关联像素的真实纹理，L _nerf代表多个未遮挡像素的总平方误差光度损失，T _t表示射线位置t的累积透明度，σ(r(t))为射线r(t)处的体素密度，c(r(t))为射线r(t)处的体素颜色。

在一些实施例中，对初始特征提取网络进行基于相邻两帧时序训练样本和时序感知网络的第三自监督训练包括：

获取相邻两帧时序训练样本中当前帧的环视图像数据对应的空间预测结果和/或纹理预测结果；

将空间预测结果和/或纹理预测结果输入初始特征提取网络和时序感知网络，得到下一帧的预测结果；

至少基于下一帧的预测结果和相邻两帧时序训练样本中下一帧的时序训练样本进行第三损失计算，并基于第三损失计算的结果对初始特征提取网络进行第三自监督训练。

在一些实施例中，可以将当前帧对应的空间感知网络的输出即空间预测结果，和/或，当前帧对应的纹理感知网络的输出即纹理预测结果作为输入，得到下一帧的预测结果。在其他实施例中，也可以直接将当前帧时序训练样本中无标签的环视图像数据作为输入，用于得到下一帧的预测结果。

其中，当将空间预测结果作为输入时可以基于当前帧的空间预测结果得到下一帧的空间预测结果。相应的，可以基于下一帧的空间预测结果和下一帧的时序训练样本中无标签的点云数据进行第三损失计算。

当将纹理预测结果作为输入时可以基于当前帧的纹理预测结果得到下一帧的纹理预测结果。相应的，可以基于下一帧的纹理预测结果和下一帧的时序训练样本中无标签的环视图像数据进行第三损失计算。

其中，进行第三损失计算可以为进行一致性损失计算。

在一些实施例中，至少基于下一帧的预测结果和相邻两帧时序训练样本中下一帧的时序训练样本进行第三损失计算可以包括：

基于空间预测结果和/或纹理预测结果与当前帧的时序训练样本进行当前帧一致性损失计算；以及，

基于下一帧的预测结果和下一帧的时序训练样本进行预测帧一致性损失计算。

需要说明的是，当前帧可以动态进行调整，下一帧是相对于当前帧来说时序更靠后的一帧。

当前帧一致性损失可以通过以下表达式表示：

L _{any_single_frame} =L _any (Pred _t ,GT _t )

其中，L _{any_single_frame}代表当前帧的当前帧一致性损失，Pred _t代表当前帧的环视图像数据对应的空间预测结果和/或纹理预测结果，GT _t代表由当前帧的时序训练样本获取的与空间预测结果和/或纹理预测结果对应的真值。

预测帧一致性损失可以通过以下表达式表示：

L _{any_temporal_consist} =L _any (Pred_next(Pred _t ),GT _t+1 )

其中，L _{any_temporal_consist}代表预测帧一致性损失，Pred_next(Pred _t )代表基于当前帧的环视图像数据对应的空间预测结果和/或纹理预测结果得到的下一帧的预测结果，GT _t+1代表由下一帧的时序训练样本获取的与空间预测结果和/或纹理预测结果对应的真值。

在一些实施例中，基于第三损失计算的结果对初始特征提取网络进行第三自监督训练可以包括基于当前帧一致性损失和预测帧一致性损失分别对初始特征提取网络进行自监督训练；在另一些实施例中，还可以为基于当前帧一致性损失和预测帧一致性损失进行加权求和，得到第三损失计算的结果并基于第三损失的结果对初始特征提取网络进行第三自监督训练。

在一些实施例中，当第一损失计算、第二损失计算和第三损失计算的结果均满足相应预设标准时，确定得到训练好的特征提取网络，并可以将该训练好的特征提取网络应用于目标检测任务。其中，相应预设标准可以根据需求进行灵活设置。

本申请通过在特征提取网络预训练模型中设置空间感知网络、纹理感知网络和时序感知网络多个任务输出网络，基于多帧时序训练样本和多个任务输出网络对初始特征提取网络进行自监督训练，有利于充分利用训练样本的时间、空间、颜色以及纹理等属性信息，实现了空间、纹理和时序之间的互监督，提高了训练好的特征提取网络的通用能力，进而应用到检测模型后能够有效提高检测模型的目标检测效果。

本领域技术人员能够理解的是，本申请实现上述实施例的方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。

本申请的另一方面，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，计算机程序被处理器执行时实现上述任一实施例所述的目标检测方法。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备，可选的，本申请实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。

本申请的另一方面还提供了一种智能设备，其可以包括至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器中存储有计算机程序，计算机程序被至少一个处理器执行时实现上述任一实施例所述的目标检测方法。

本申请所述的智能设备，可以包括驾驶设备、智能车、机器人等设备。

参见图4所示，图4中示例性的示出了存储器41和处理器42通过总线连接，且存储器41和处理器42均只设置有一个时的结构。

在另一些实施例中，智能设备可以包括多个存储器41和多个处理器42。而执行上述任意实施例的目标检测方法的程序可以被分割成多段子程序，每段子程序分别可以由处理器42加载并运行以执行上述方法实施例的目标检测方法的不同步骤。具体地，每段子程序可以分别存储在不同的存储器41中，每个处理器42可以被配置成用于执行一个或多个存储器41中的程序，以共同实现上述方法实施例的目标检测方法。

在本申请的一些实施例中，智能设备还包括至少一个传感器，所述至少一个传感器用于感知信息。所述至少一个传感器与本申请提到任何一种类型的处理器通信连接。可选的，智能设备还包括自动驾驶系统，自动驾驶系统用于引导智能设备自行行驶或辅助驾驶。所述至少一个处理器与所述至少一个传感器和/或自动驾驶系统通信，用于完成本申请上述任一实施例中的方法。

至此，已经结合附图所示的优选实施方式描述了本申请的技术方案，但是，本领域技术人员容易理解的是，本申请的保护范围显然不局限于这些具体实施方式。在不偏离本申请的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本申请的保护范围之内。

Claims

1.一种目标检测方法，其特征在于，包括：

基于所述多帧时序训练样本对特征提取网络预训练模型进行自监督训练，所述特征提取网络预训练模型包括初始特征提取网络和多个任务输出网络，所述多个任务输出网络包括空间感知网络、纹理感知网络和时序感知网络，以基于所述空间感知网络、所述纹理感知网络和所述时序感知网络之间的互监督，得到训练好的所述特征提取网络；基于所述多帧时序训练样本对特征提取网络预训练模型进行自监督训练包括：

2.根据权利要求1所述的方法，其特征在于，对所述初始特征提取网络进行基于当前帧的环视图像数据、点云数据和所述空间感知网络的第一自监督训练包括：

3.根据权利要求2所述的方法，其特征在于，所述图像特征数据利用三维体素场表征，所述将所述图像特征数据输入所述空间感知网络，得到空间预测结果包括：将所述图像特征数据输入所述空间感知网络，得到体素占用状态值、体素速度和体素反射率中的至少一者；

4.根据权利要求1所述的方法，其特征在于，对所述初始特征提取网络进行基于当前帧的环视图像数据和所述纹理感知网络的第二自监督训练包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述纹理预测结果和当前帧的环视图像进行第二损失计算包括：

6.根据权利要求1所述的方法，其特征在于，对所述初始特征提取网络进行基于相邻两帧时序训练样本和所述时序感知网络的第三自监督训练包括：

7.根据权利要求6所述的方法，其特征在于，所述至少基于所述下一帧的预测结果和所述相邻两帧时序训练样本中下一帧的时序训练样本进行第三损失计算，包括：

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的目标检测方法。

9.一种智能设备，其特征在于，包括：

至少一个处理器；

以及，与所述至少一个处理器通信连接的存储器；

其中，所述存储器中存储有计算机程序，所述计算机程序被所述至少一个处理器执行时实现权利要求1至7中任一项所述的目标检测方法。

10.根据权利要求9所述的智能设备，其特征在于，所述智能设备还包括：