CN116129318A - 一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法 - Google Patents

一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法 Download PDF

Info

Publication number
CN116129318A
CN116129318A CN202310107513.1A CN202310107513A CN116129318A CN 116129318 A CN116129318 A CN 116129318A CN 202310107513 A CN202310107513 A CN 202310107513A CN 116129318 A CN116129318 A CN 116129318A
Authority
CN
China
Prior art keywords
dimensional
monocular
point set
unsupervised
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310107513.1A
Other languages
English (en)
Inventor
百晓
范嘉楠
郑锦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202310107513.1A priority Critical patent/CN116129318A/zh
Publication of CN116129318A publication Critical patent/CN116129318A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法。其主要步骤为,使用已知内参的相机拍摄某个场景下一定长度的视频序列帧,再利用序列图像之间的投影关系自监督地训练单目深度网络,学习序列图像的单目深度估计值;随后通过预训练好的实例分割网络对图像直接预测其实例分割结果,将得到的实例分割结果结合相机内参和学习好的单目深度估计值反投影至三维空间中,得到每个实例的伪雷达数据;最后利用无监督聚类方法滤除离群点,在鸟瞰视角(x‑z平面)求解点集的最小外接矩形,y轴方向求解点集的最大‑最小高度差,最终得到物体的三维目标检测包围框。本发明利用视频前后帧的序列信息和预训练的实例分割网络,能够在完全无人工标注的情况下完成对任何新场景的三维目标检测,能够显著降低对新场景三维目标检测学习所需的人工标注成本。

Description

一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法
技术领域
本发明涉及目标检测领域,提出了一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法。
背景技术
随着深度学习的发展,许多计算机视觉相关的任务都打破了传统方法的局限并得到了突破性的发展,例如新兴的自动驾驶领域,依靠着目标检测、场景语义理解等上游任务的高度精确性、可靠性,人们可以尝试通过例如三维目标检测这样的手段,完成对自动驾驶方面的相关控制。三维目标检测任务根据传感器输入数据的形式不同,可以大致分为三个流派:激光雷达式、多目式和单目式的三维目标检测。其中,单目三维目标检测的任务是指在只有单目图像作为数据输入的情况下,结合相机的参数,完成图像中目标在三维空间下的检测。
在这些形式中,激光雷达虽然精度较高,但是仪器价格高昂且探测距离受限,往往还需要结合多目相机共同完成一个自动驾驶传感系统的搭建,例如当今TESLA、百度Apollo等企业都已经有了较为成熟的多目结合激光雷达的方案。然而,如果一个自动驾驶系统能够仅仅依赖单目相机完成目标的三维检测,那么将会大大节约成本,并具有极高的推广性,这也成为了当前三维目标检测的重点和研究热点。
然而,单目三维目标检测存在以下几个挑战:(1)单目图像包含的信息较少,仅有RGB三个通道的颜色信息,缺乏像激光雷达或是多目图像能够获取到的空间深度信息,如何估计物体的距离、像素点的深度将是此问题的关键;(2)目前已有的三维目标检测公开数据集通常面向自动驾驶领域,图像的风格仅限于国外的乡村地区和城镇地区,将训练好的模型应用于新的场景时,其泛化性能不能得到有效保证;(3)获取一个物体真实的三维检测包围框通常需要先获取其激光雷达信息,再雇佣专业的标注人员在雷达场景下对物体进行标注,所需成本较大。目前,开发出一种在新场景下无需标注即可获得三维检测包围框的无监督方法,仍是较大的挑战。
为了有效提升单目三维目标检测的精确度,本方法基于视频的序列特点挖掘更多信息,并借助预训练好的实例分割网络模型来共同构建一个无需标签信息、具有良好泛化性的三维目标检测网络。
发明内容
为了有效减少三维目标检测任务在一个新场景中的高额标注开支,本发明通过利用视频连续帧之间的运动信息和在其他数据集中预训练好的实例分割网络,可以无监督地生成图像的三维目标检测包围框。
为实现上述目的,本发明采用的技术方案流程如下:
一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法,其特征在于包括以下步骤:
(1)获取相机内参矩阵;
(2)使用该相机,拍摄某个场景下一定长度的视频序列帧;
(3)通过自监督单目深度网络,利用序列图像之间的投影关系,自监督地训练学习,得到序列图像的单目深度估计值;
(4)通过预训练的实例分割网络,对图像直接预测得到其实例分割结果;
(5)将得到的实例分割结果,结合步骤(3)学习到的单目深度估计值,以及步骤(1)获取的相机内参矩阵,反投影至三维空间中,得到每个实例的区域三维点集;
(6)利用无监督聚类方法对每个实例的区域三维点集进行聚类,进一步滤除离群点,得到实例主体三维点集,随后在BEV(Bird’s Eye View,鸟瞰视角)中求解实例主体三维点集的最小外接矩形,得到其x-z平面的二维包围框,并求取实例主体三维点集的y轴方向最大-最小高度差,将y轴方向最大-最小高度差作为y轴高度,最终得到物体的三维检测包围框。
如上所述的方法,其特征在于步骤(3)中通过自监督单目深度网络,利用序列图像之间的投影关系得到序列图像的单目深度估计值,其具体过程为:先预测当前帧和临近帧的单目深度估计值和位姿变换矩阵,再将临近帧的单目深度估计值进行位姿变换,得到临近帧位姿变化后的单目深度估计值,将其与当前帧的单目深度估计计算损失,以实现自监督的训练学习。
如上所述的方法,其特征在于步骤(4)中所使用的预训练实例分割网络,在其预训练过程使用的数据集应该包含三维目标检测任务所需检测目标类别,并具有良好的泛化性能。
如上所述的方法,其特征在于步骤(5)中实例分割结果,结合单目深度估计值、相机内参矩阵反投影的具体过程为:将实例分割后的像素点p转化为齐次坐标形式p=(u,v,1),其中u,v为像素点在二维图像上的以像素为单位的横纵坐标;将步骤(3)中得到的单目深度估计dp=Dt(p),结合步骤(1)得到的相机内参矩阵K,计算得到像素点p在三维场景中的坐标(U,V,W,1)T=K-1dp(u,v,1)T,其中U,V,W分别对应相机坐标系下x,y,z轴上的坐标值,该坐标值以米为单位,最终得到每个实例的区域三维点集。
如上所述的方法,其特征在于步骤(6)将每个实例的区域三维点集转化为实例主体三维点集,并进一步计算三维包围框的具体过程为:首先对每个实例的区域三维点集应用无监督聚类算法,得到多个聚类簇;取点数量最多的聚类簇作为实例主体三维点集,其他聚类簇所包含的点作为离群点进行点的去除;基于y轴方向求取实例主体三维点集的最大值和最小值,将两者差值作为三维包围框的y轴高度,同时在实例主体三维点集所对应的x-z平面上求解最小外接矩形,最终得到三维包围框。
如上所述的方法,其特征在于:对每个当前帧的临近帧,优选为当前帧的下一帧,对自监督单目深度估计网络,优选为sfm-learner、Monodepth系列、sc-depth或packnet网络结构,其中用于位姿估计的网络优选为输入层通道数修改为6的ResNet-18网络。
如上所述的方法,其特征在于:实例分割网络预训练的数据集优选MSCOCO数据集,网络优选Mask R-CNN网络结构;对于实例分割后得到的结果,进一步优选类别置信度大于等于0.5、包围框内部像素置信度大于等于0.5的像素区域,得到最终的实例分割结果。
如上所述的方法,其特征在于:对于每个实例的区域三维点集进行无监督聚类的算法,优选DBSCAN算法,算法参数中邻域半径E优选为0.8米,邻域内最小样本数MinPts优选为10个;对于满足物体垂直于地面假设的类别,实例主体三维点集在x-z平面上求解最小外接矩阵的过程,优选旋转卡壳算法。
附图说明
下面结合附图和具体实施方式对本发明作进一步的说明。
图1为本发明的基于视频序列和预训练实例分割的无监督单目三维目标检测方法的流程示意图;
图2为一个实施例中预训练好的实例分割网络对车辆类别直接迁移的分割效果图。
具体实施方式
前已述及,本发明提出一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法,下面结合附图说明本发明的具体实施方式。实施例中所使用的具体神经网络仅做参考,并不特限于该网络,只要能够达到其任务功能,可以做其他替换。
如图1所示,本发明基于视频序列和预训练实例分割的无监督单目三维目标检测方法,其一个实施例包括如下步骤:
(1)首先获得相机的内参矩阵K,并使用该相机,拍摄某个场景下一定长度的视频序列帧。可以简单地使用相机支架行走拍摄,也可以将相机固定在汽车载具上,对场景进行低速驾驶拍摄,由此得到某场景下的视频图像序列。
(2)通过自监督单目深度网络,利用序列图像之间的投影关系,自监督地训练学习序列图像的单目深度估计。本实施例采用的是monodepth2网络作为自监督单目深度估计预测网络,对于其他实施例也可以在保证效果的前提下做替换。以KITTI公开数据集为例,该数据为国外乡村环境的自动驾驶场景,每个场景都拍摄了一定长度的视频序列,选取其中一个场景作为本实施例的视频序列,例如编号为2011_10_03_drive_0047的场景,包含了837帧图像。
在每个epoch中,将除最后一帧外的全部帧作为训练集,对训练集中的每一帧It(此后均称为当前帧)和该帧的下一帧It′(此后均称为临近帧)作为输入进行训练,流程如下:
(2.1)将当前帧和临近帧分别输入一个单目深度网络,其结构为一个U-Net式的Encoder-Decoder结构,得到当前帧和临近帧的深度估计Dt和Dt′
(2.2)将当前帧和临近帧进行拼接操作,得到一个H×W×6的向量,其中H,W为帧的高与宽;将此向量输入至位姿估计网络,本实施例中选择ResNet-18网络,并将输入层的通道数修改为6以适配拼接后的向量维度,由此得到由临近帧变换至当前帧的位姿变换矩阵(也即单应矩阵)H;对临近帧像素点i′,其齐次坐标形式pi′=(x,y,1)T,那么其在当前帧对应的像素点i坐标pi=Hpi′,两者在图像层面上的向量值应具有对应关系,故做L1损失
Figure BDA0004075583770000051
来迭代地训练位姿变换估计网络。
(2.3)对临近帧像素点i′和其在当前帧上对应的像素点i,它们分别的单目深度估计值也应具有对应关系,故对两者采用平滑L1损失
Figure BDA0004075583770000052
Figure BDA0004075583770000053
其中D(p)表示单目深度估计图D上一像素点p的单目深度估计值,以此来迭代地训练单目深度估计网络。
在15个epoch后,训练损失基本收敛,完成对单目深度估计网络的训练。在此后的网络推断过程中,只需单目深度估计网络的参数,即可完成对任一张图像的深度估计。
(3)通过预训练的实例分割网络对当前帧图像预测其实例分割信息。本实施例采用MSCOCO数据集上预训练好的Mask R-CNN网络作为实例分割网络,对于其他实施例也可以在保证效果的前提下做替换。
该网络在MSCOCO数据集上预训练,可以较好地完成对车辆、行人、自行车手等物体的检测,符合本方法的任务需求。至此,我们可以完成对拍摄视频每一帧的实例分割信息预测。在本实施例中,设置物体类别置信度为0.5,掩膜像素置信度为0.5,可以得到较为精确的实例分割,如图2所示为输入KITTI数据集上某张图像,在上述条件下得到的实例分割预测。
(4)将步骤(3)得到的实例分割预测,通过相机的内参矩阵和对应的单目深度估计反投影至三维空间中。记分割得到的点集为P,对其中的像素点p∈P取齐次坐标形式p=(u,v,1),通过相机的内参矩阵K以及步骤(3)中得到的单目深度估计dp=Dt(p),根据针孔相机模型,计算出该像素点在相机坐标系下的三维场景中的坐标(U,V,W,1)T=K-1dppT,其中U,V,W分别对应相机坐标系下x,y,z轴上的数值。
由此,可以将点集P中的像素点一对一地映射到其三维空间中的坐标,记新的点集为区域三维点集,在本领域中也被称作伪雷达(点云)信息。
(5)对区域三维点集,在本实施例中进一步选用DBSCAN算法将实例的主体部分提取出来,滤除离群点。其具体流程为:
(5.1)设置DBSCAN算法所需参数:同类最小距离为0.8m,邻域内最小样本数为10。
(5.2)经过DBSCAN算法,输出得到多个类别簇,选取其中样本数量最多的簇作为实例的主体部分,称为实例主体三维点集;将其余簇样本点视为离群点,舍去。在图1的滤除离群点后的伪雷达信息中,红色点为离群点,蓝色点为保留的实例主体三维点集,用于进一步的包围框求解。
(6)基于物体垂直于路面的基本假设,对实例主体三维点集,取其x,z坐标,并在x-z平面上利用旋转卡壳算法求解最小外接矩形,作为三维包围框的长与宽;再取整个点集在y轴方向上的最大值与最小值,使其差值作为三维包围框的高度,最终组合为物体的三维检测包围框。
尽管上面结合附图对本发明进行了描述,但是本发明并不局限于上述的具体实施方式,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨的情况下,本领域的技术人员能思及的变化,都应落入本发明的保护范围内。另外,本发明未详细阐述的部分属于本领域的公知技术。

Claims (9)

1.一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法,其特征在于,包括以下步骤:
(1)获取相机内参矩阵;
(2)使用该相机,拍摄某个场景下一定长度的视频序列帧;
(3)通过自监督单目深度网络,利用序列图像之间的投影关系,自监督地训练学习,得到序列图像的单目深度估计值;
(4)通过预训练的实例分割网络,对图像直接预测得到其实例分割结果;
(5)将得到的实例分割结果,结合步骤(3)学习到的单目深度估计值,以及步骤(1)获取的相机内参矩阵,反投影至三维空间中,得到每个实例的区域三维点集;
(6)利用无监督聚类方法对每个实例的区域三维点集进行聚类,进一步滤除离群点,得到实例主体三维点集,随后在BEV(Bird’s Eye View,鸟瞰视角)中求解实例主体三维点集的最小外接矩形,得到其x-z平面的二维包围框,并求取实例主体三维点集的y轴方向最大-最小高度差,将y轴方向最大-最小高度差作为y轴高度,最终得到物体的三维检测包围框。
2.如权利要求1所述的一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法,其特征在于步骤(3)中通过自监督单目深度网络,利用序列图像之间的投影关系得到序列图像的单目深度估计值,其具体过程为:先预测当前帧和临近帧的单目深度估计值和位姿变换矩阵,再将临近帧的单目深度估计值进行位姿变换,得到临近帧位姿变化后的单目深度估计值,将其与当前帧的单目深度估计计算损失,以实现自监督的训练学习。
3.如权利要求1所述的一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法,其特征在于步骤(4)中所使用的预训练实例分割网络,在其预训练过程使用的数据集应该包含三维目标检测任务所需检测目标类别,并具有良好的泛化性能。
4.如权利要求1所述的一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法,其特征在于步骤(5)中实例分割结果,结合单目深度估计值、相机内参矩阵反投影的具体过程为:
(4.1)将实例分割后的像素点p转化为齐次坐标形式p=(u,v,1),其中u,v为像素点在二维图像上的以像素为单位的横纵坐标;
(4.2)将步骤(3)中得到的单目深度估计dp=Dt(p),结合步骤(1)得到的相机内参矩阵K,计算得到像素点p在三维场景中的坐标(U,V,W,1)T=K-1dp(u,v,1)T,其中U,V,W分别对应相机坐标系下x,y,z轴上的坐标值,该坐标值以米为单位,最终得到每个实例的区域三维点集。
5.如权利要求1所述的一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法,其特征在于步骤(6)将每个实例的区域三维点集转化为实例主体三维点集,并进一步计算三维包围框的具体过程为:
(5.1)首先对每个实例的区域三维点集应用无监督聚类算法,得到多个聚类簇;
(5.2)取点数量最多的聚类簇作为实例主体三维点集,其他聚类簇所包含的点作为离群点进行点的去除;
(5.3)基于y轴方向求取实例主体三维点集的最大值和最小值,将两者差值作为三维包围框的y轴高度,同时在实例主体三维点集所对应的x-z平面上求解最小外接矩形,最终得到三维包围框。
6.如权利要求2所述的一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法,其特征在于:对每个当前帧的临近帧,优选为当前帧的下一帧,对自监督单目深度估计网络,优选为sfm-learner、Monodepth系列、sc-depth或packnet网络结构,其中用于位姿估计的网络优选为输入层通道数修改为6的ResNet-18网络。
7.如权利要求3所述的一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法,其特征在于:
(7.1)实例分割网络预训练的数据集优选MSCOCO数据集,网络优选Mask R-CNN网络结构;
(7.2)对于实例分割后得到的结果,进一步优选类别置信度大于等于0.5、包围框内部像素置信度大于等于0.5的像素区域,得到最终的实例分割结果。
8.如权利要求5所述的一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法,其特征在于:
(8.1)对于每个实例的区域三维点集进行无监督聚类的算法,优选DBSCAN算法,算法参数中邻域半径E优选为0.8米,邻域内最小样本数MinPts优选为10个;
(8.2)对于满足物体垂直于地面假设的类别,实例主体三维点集在x-z平面上求解最小外接矩阵的过程,优选旋转卡壳算法。
9.一种非临时性计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法程序,所述基于视频序列和预训练实例分割的无监督单目三维目标检测方法程序被处理器执行时,实现如权利要求1至8中任一项所述的基于视频序列和预训练实例分割的无监督单目三维目标检测方法。
CN202310107513.1A 2023-02-14 2023-02-14 一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法 Pending CN116129318A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310107513.1A CN116129318A (zh) 2023-02-14 2023-02-14 一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310107513.1A CN116129318A (zh) 2023-02-14 2023-02-14 一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法

Publications (1)

Publication Number Publication Date
CN116129318A true CN116129318A (zh) 2023-05-16

Family

ID=86300851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310107513.1A Pending CN116129318A (zh) 2023-02-14 2023-02-14 一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法

Country Status (1)

Country Link
CN (1) CN116129318A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116343100A (zh) * 2023-05-27 2023-06-27 广东中科凯泽信息科技有限公司 一种基于自监督学习的目标识别方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116343100A (zh) * 2023-05-27 2023-06-27 广东中科凯泽信息科技有限公司 一种基于自监督学习的目标识别方法及系统
CN116343100B (zh) * 2023-05-27 2023-08-11 广东中科凯泽信息科技有限公司 一种基于自监督学习的目标识别方法及系统

Similar Documents

Publication Publication Date Title
CN108961327B (zh) 一种单目深度估计方法及其装置、设备和存储介质
Sakaridis et al. Semantic foggy scene understanding with synthetic data
Schulter et al. Learning to look around objects for top-view representations of outdoor scenes
CN111598030B (zh) 一种航拍图像中车辆检测和分割的方法及系统
US20210142095A1 (en) Image disparity estimation
US10353271B2 (en) Depth estimation method for monocular image based on multi-scale CNN and continuous CRF
CN111563415B (zh) 一种基于双目视觉的三维目标检测系统及方法
EP3211596A1 (en) Generating a virtual world to assess real-world video analysis performance
WO2019153245A1 (en) Systems and methods for deep localization and segmentation with 3d semantic map
CN112417953B (zh) 道路状况检测和地图数据更新方法、装置、系统及设备
CN112801074B (zh) 一种基于交通摄像头的深度图估计方法
CN113256699B (zh) 图像处理方法、装置、计算机设备和存储介质
CN105608417A (zh) 交通信号灯检测方法及装置
CN112699834A (zh) 交通标识检测方法、装置、计算机设备和存储介质
CN114372523A (zh) 一种基于证据深度学习的双目匹配不确定性估计方法
CN114519772A (zh) 一种基于稀疏点云和代价聚合的三维重建方法及系统
CN104463962B (zh) 基于gps信息视频的三维场景重建方法
CN115937442A (zh) 基于隐式神经表达的路面重建方法、车辆及存储介质
CN111105451B (zh) 一种克服遮挡效应的驾驶场景双目深度估计方法
CN112686952A (zh) 一种图像光流计算系统、方法及应用
CN116129318A (zh) 一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法
CN116958393A (zh) 一种增量式图像渲染方法及装置
CN115953447A (zh) 面向3d目标检测的点云一致性约束单目深度估计方法
CN116129386A (zh) 可行驶区域检测方法、系统及计算机可读介质
CN112818743B (zh) 图像识别的方法、装置、电子设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication