CN117392638A - 一种服务于机器人场景的开放物体类别感知方法及装置 - Google Patents

一种服务于机器人场景的开放物体类别感知方法及装置 Download PDF

Info

Publication number
CN117392638A
CN117392638A CN202311330745.XA CN202311330745A CN117392638A CN 117392638 A CN117392638 A CN 117392638A CN 202311330745 A CN202311330745 A CN 202311330745A CN 117392638 A CN117392638 A CN 117392638A
Authority
CN
China
Prior art keywords
image
point cloud
image block
point
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311330745.XA
Other languages
English (en)
Inventor
李天威
高继扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Yanhaitu Technology Co ltd
Original Assignee
Suzhou Yanhaitu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Yanhaitu Technology Co ltd filed Critical Suzhou Yanhaitu Technology Co ltd
Priority to CN202311330745.XA priority Critical patent/CN117392638A/zh
Publication of CN117392638A publication Critical patent/CN117392638A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/7635Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks based on graphs, e.g. graph cuts or spectral clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/582Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of traffic signs
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种服务于机器人场景的开放物体类别感知方法及装置。该方法中通过图像分割以及聚类的方式得到物体的图像块,因此,具备对开放物体在图像中位置的定位能力,最后将图像块的类别作为图像块对应的物体的类别,因此,可以感知到开放物体类别,并且,由于所获得的开放物体类别的并不特定,因此,可以对不特定的开放物体类别进行检测,提高了对开放物体类别的感知能力。

Description

一种服务于机器人场景的开放物体类别感知方法及装置
技术领域
本发明涉及物体识别技术领域,具体而言,涉及一种服务于机器人场景的开放物体类别感知方法及装置。
背景技术
对于移动的机器人来说,对物体的类别进行感知是非常重要的,例如:机器人为车辆,那么车辆在行驶过程中,对道路上的物体的类别进行感知有助于自身安全。
现有的物体识别方法存在以下局限性:
1.仅能识别特定的经常遇到的常见物体的物体类别,例如:车辆、行人、骑自行车者和交通标志牌;
2.可以识别特定的开放物体的物体类别,但缺乏对开放物体在图像中位置的定位能力,其中,开放物体为在某些场景下不常见的物体,例如:在行驶车道中的矿泉水瓶;
3.可以识别开放物体的物体类别,但由于标注数据集仅包含有限类别,其开放类别物体检测能力有限。
可见,现有的物体识别方法对开放物体类别的感知能力较差。
发明内容
本发明提供了一种服务于机器人场景的开放物体类别感知方法及装置,能够提高对开放物体类别的感知能力。具体的技术方案如下。
第一方面,本发明提供了一种服务于机器人场景的开放物体类别感知方法,包括:
获取点云序列与对应的图像序列;
针对所述点云序列中的每个点云,根据预设数据预处理方法将该点云中的每个点云点投射到对应的图像帧中得到点云投射点;
针对所述图像序列中的每个图像帧,根据预设图像分割方法以及该图像帧中的所有点云投射点对该图像帧进行分割,得到该图像帧的图像分割结果;
针对所述点云序列中的每个点云,将该点云中的每个点云点作为图的节点,基于该点云对应的图像帧的图像分割结果确定所述图中包含的几何边与语义边;
根据预设聚类方法、所述几何边和所述语义边进行聚类,得到所述图中物体的聚类结果;
针对所述聚类结果中的每个物体,将该物体投射到所述图像序列中得到该物体对应的图像块;
针对每个图像块,将该图像块输入至预设图像分类网络中,得到该图像块对应的特征图,将该图像块对应的物体的点云点投射到该图像块上得到图像块特征向量,获得多个开放物体类别的物体类别特征向量,基于所述图像块特征向量和所述物体类别特征向量确定该图像块的类别,并将该图像块的类别作为该图像块对应的物体的类别。
可选的,所述针对所述点云序列中的每个点云,根据预设数据预处理方法将该点云中的每个点云点投射到对应的图像帧中得到点云投射点的步骤,包括:
获取拍摄所述图像序列的相机的内参和外参以及采集所述点云序列的激光雷达的位姿信息;
针对所述点云序列中的每个点云,根据采集该点云时的所述激光雷达的位姿信息以及所述相机的内参和外参,将该点云中的每个点云点投射到对应的图像帧中得到点云投射点。
可选的,所述预设图像分割方法为分割任意模型SAM或者Mask2Former图像分割模型。
可选的,所述基于该点云对应的图像帧的图像分割结果确定所述图中包含的几何边与语义边的步骤,包括:
将属于同一时刻且属于同一个图像分割结果的点云投射点对对应的点云点对作为一条语义边,计算所述图中的每两个点云点之间的欧式距离,将属于不同时刻且欧式距离小于预设距离阈值的点云点对作为一条几何边。
可选的,所述预设聚类方法为谱聚类方法。
可选的,所述将该物体投射到所述图像序列中得到该物体对应的图像块的步骤,包括:
根据采集该物体对应的点云时的所述激光雷达的位姿信息以及所述相机的内参和外参,将该物体投射到所述图像序列中,确定该物体在各图像帧中对应的最小外接矩形区域,并基于所述最小外接矩形区域确定该物体对应的图像块。
可选的,所述预设图像分类网络为对比语言-图像预训练CLIP网络或者开放对比语言-图像预训练OpenCLIP网络。
可选的,所述对比语言-图像预训练CLIP网络中文本编码器的Transformer的计算方式为:
AttnVV=softmax(V*VT)*V
其中,AttnVV为VV注意力权重矩阵,V为值,T为转置,softmax为归一化函数。
可选的,所述获得多个开放物体类别的物体类别特征向量,基于所述图像块特征向量和所述物体类别特征向量确定该图像块的类别的步骤,包括:
根据多个开放物体类别的类别名称和预设特征向量提取算法,得到每个开放物体类别的物体类别特征向量;
计算每个物体类别特征向量与所述图像块特征向量之间的相似度,将相似度最高的物体类别特征向量对应的开放物体类别作为该图像块的类别。
第二方面,本发明提供了一种服务于机器人场景的开放物体类别感知装置,包括:
获取模块,用于获取点云序列与对应的图像序列;
预处理模块,用于针对所述点云序列中的每个点云,根据预设数据预处理方法将该点云中的每个点云点投射到对应的图像帧中得到点云投射点;
图像分割模块,用于针对所述图像序列中的每个图像帧,根据预设图像分割方法以及该图像帧中的所有点云投射点对该图像帧进行分割,得到该图像帧的图像分割结果;
图优化模块,用于针对所述点云序列中的每个点云,将该点云中的每个点云点作为图的节点,基于该点云对应的图像帧的图像分割结果确定所述图中包含的几何边与语义边;
聚类模块,用于根据预设聚类方法、所述几何边和所述语义边进行聚类,得到所述图中物体的聚类结果;
投射模块,用于针对所述聚类结果中的每个物体,将该物体投射到所述图像序列中得到该物体对应的图像块;
类别感知模块,用于针对每个图像块,将该图像块输入至预设图像分类网络中,得到该图像块对应的特征图,将该图像块对应的物体的点云点投射到该图像块上得到图像块特征向量,获得多个开放物体类别的物体类别特征向量,基于所述图像块特征向量和所述物体类别特征向量确定该图像块的类别,并将该图像块的类别作为该图像块对应的物体的类别。
可选的,所述预处理模块,包括:
获取子模块,用于获取拍摄所述图像序列的相机的内参和外参以及采集所述点云序列的激光雷达的位姿信息;
投射子模块,用于针对所述点云序列中的每个点云,根据采集该点云时的所述激光雷达的位姿信息以及所述相机的内参和外参,将该点云中的每个点云点投射到对应的图像帧中得到点云投射点。
可选的,所述预设图像分割方法为分割任意模型SAM或者Mask2Former图像分割模型。
可选的,所述图优化模块,具体用于:
将属于同一时刻且属于同一个图像分割结果的点云投射点对对应的点云点对作为一条语义边,计算所述图中的每两个点云点之间的欧式距离,将属于不同时刻且欧式距离小于预设距离阈值的点云点对作为一条几何边。
可选的,所述预设聚类方法为谱聚类方法。
可选的,所述投射模块,具体用于:
根据采集该物体对应的点云时的所述激光雷达的位姿信息以及所述相机的内参和外参,将该物体投射到所述图像序列中,确定该物体在各图像帧中对应的最小外接矩形区域,并基于所述最小外接矩形区域确定该物体对应的图像块。
可选的,所述预设图像分类网络为对比语言-图像预训练CLIP网络或者开放对比语言-图像预训练OpenCLIP网络。
可选的,所述对比语言-图像预训练CLIP网络中文本编码器的Transformer的计算方式为:
AttnVV=softmax(V*VT)*V
其中,AttnVV为VV注意力权重矩阵,V为值,T为转置,softmax为归一化函数。
可选的,所述类别感知模块,包括:
特征提取子模块,用于根据多个开放物体类别的类别名称和预设特征向量提取算法,得到每个开放物体类别的物体类别特征向量;
计算子模块,用于计算每个物体类别特征向量与所述图像块特征向量之间的相似度,将相似度最高的物体类别特征向量对应的开放物体类别作为该图像块的类别。
由上述内容可知,本发明实施例提供的一种服务于机器人场景的开放物体类别感知方法及装置,可以获取点云序列与对应的图像序列,针对点云序列中的每个点云,根据预设数据预处理方法将该点云中的每个点云点投射到对应的图像帧中得到点云投射点,针对图像序列中的每个图像帧,根据预设图像分割方法以及该图像帧中的所有点云投射点对该图像帧进行分割,得到该图像帧的图像分割结果,针对点云序列中的每个点云,将该点云中的每个点云点作为图的节点,基于该点云对应的图像帧的图像分割结果确定图中包含的几何边与语义边,根据预设聚类方法、几何边和语义边进行聚类,得到图中物体的聚类结果,针对聚类结果中的每个物体,将该物体投射到图像序列中得到该物体对应的图像块,针对每个图像块,将该图像块输入至预设图像分类网络中,得到该图像块对应的特征图,将该图像块对应的物体的点云点投射到该图像块上得到图像块特征向量,获得多个开放物体类别的物体类别特征向量,基于图像块特征向量和物体类别特征向量确定该图像块的类别,并将该图像块的类别作为该图像块对应的物体的类别。本发明中,通过图像分割以及聚类的方式得到物体的图像块,因此,具备对开放物体在图像中位置的定位能力,最后将图像块的类别作为图像块对应的物体的类别,因此,可以感知到开放物体类别,并且,由于所获得的开放物体类别的并不特定,因此,可以对不特定的开放物体类别进行检测,提高了对开放物体类别的感知能力。
本发明实施例的创新点包括:
1、通过图像分割以及聚类的方式得到物体的图像块,因此,具备对开放物体在图像中位置的定位能力,最后将图像块的类别作为图像块对应的物体的类别,因此,可以感知到开放物体类别,并且,由于所获得的开放物体类别的并不特定,因此,可以对不特定的开放物体类别进行检测,提高了对开放物体类别的感知能力。
2、针对点云序列中的每个点云,根据采集该点云时的激光雷达的位姿信息以及相机的内参和外参,将该点云中的每个点云点投射到对应的图像帧中得到点云投射点,实现点云中的每个点云点与图像帧中的每个像素点之间的对应。
3、基于图像分割结果确定图中包含的语义边,基于欧式距离确定图中包含的几何边。
4、通过将该物体投射到图像序列中,确定该物体在各图像帧中对应的最小外接矩形区域,并基于最小外接矩形区域来确定该物体对应的图像块。
5、通过预设图像分割方法可以将图像帧中的所有物体区分开来,然后采用图优化的方法,通过几何边可以找到距离较近的属于同一个物体的点云点,通过语义边可以找到距离较远的属于同一个物体的点云点,因此,通过几何边和语义边可以将所有物体都找到,提高了对开放物体的召回率。
6、由于V相对于Q和K更与像素的特征值有关,因此,在将对比语言-图像预训练CLIP网络中文本编码器的Transformer的计算方式由QK注意力权重矩阵修改为VV注意力权重矩阵后,使得每个像素位置的特征值能够更好的融合和自己相关的特征,因此,能够提高像素与其语义之间的一致性,从而增强了类别识别的可靠性。
7、仅使用物体的点云点投射到图像块上的特征向量,减少了来自非物体像素位置的干扰,提高了类别识别的精确性。
8、本发明利用了对比语言-图像预训练CLIP网络本身具有的开放物体类别的识别能力,可以识别未在对比语言-图像预训练CLIP网络的训练数据中出现的开放物体类别。
9、将对比语言-图像预训练CLIP网络中文本编码器的Transformer的计算方式由QK注意力权重矩阵修改为VV注意力权重矩阵,使得每个像素位置的特征值能够更好的融合和自己相关的特征,因此,能够提高像素与其语义之间的一致性,并且将图像块对应的物体的点云点投射到图像块上得到图像块特征向量,并不是整个图像帧的特征向量,因此,得到了能更好的描述物体的特征,从而提高了对开放物体类别识别的准确率。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例。对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的服务于机器人场景的开放物体类别感知方法的一种流程示意图;
图2为图优化中的一个图的示意图;
图3为对比语言-图像预训练CLIP网络的结构示意图;
图4为本发明实施例提供的服务于机器人场景的开放物体类别感知装置的一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例及附图中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含的一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
本发明实施例公开了一种服务于机器人场景的开放物体类别感知方法及装置,能够提高对开放物体类别的感知能力。下面对本发明实施例进行详细说明。
图1为本发明实施例提供的服务于机器人场景的开放物体类别感知方法的一种流程示意图。该方法应用于电子设备。该方法具体包括以下步骤。
S110:获取点云序列与对应的图像序列。
在本发明实施例中,对开放物体类别的感知一共分为两个步骤:
第一步:
对物体的识别,也就是识别出图像中的物体,但此时并不知道物体的类别。包括步骤S120-S160。
第二步:
对类别的识别,也就是从所识别出的物体中,得到开放物体的类别。包括步骤S170。
为了对图像中的开放物体的类别进行感知,需要通过车辆上的激光雷达采集点云以及相机采集图像,然后获取点云序列与对应的图像序列。具体的,可以是实时获取,也可以是离线获取。如果是实时获取,那么可以获取当前图像帧以及当前图像帧之前的连续预设数量的图像帧以及对应的点云序列,如果是离线获取,那么可以任意进行获取哪一时间段内的图像序列以及对应的点云序列。
S120:针对点云序列中的每个点云,根据预设数据预处理方法将该点云中的每个点云点投射到对应的图像帧中得到点云投射点。
为了对图像帧中的物体进行识别,需要对点云序列以及对应的图像序列进行数据预处理,具体的,针对点云序列中的每个点云,根据预设数据预处理方法将该点云中的每个点云点投射到对应的图像帧中得到点云投射点。
其中,步骤S120可以包括:
获取拍摄图像序列的相机的内参和外参以及采集点云序列的激光雷达的位姿信息;
针对点云序列中的每个点云,根据采集该点云时的激光雷达的位姿信息以及相机的内参和外参,将该点云中的每个点云点投射到对应的图像帧中得到点云投射点。
在车辆上的激光雷达采集点云以及相机采集图像时,相应的相机的内参和外参,以及激光雷达的位姿信息也被记录了下来,例如可以记录在车辆的处理器中。因此,可以获取拍摄图像序列的相机的内参和外参以及采集点云序列的激光雷达的位姿信息。
然后,根据激光雷达的位姿信息以及相机的内参和外参将点云序列投射到图像序列中,得到点云序列包括含的每个点云中的每个点云点与图像序列包含的每个图像帧中的每个像素点的对应关系,然后将对应关系中的像素点作为点云投射点,即针对点云序列中的每个点云,根据采集该点云时的激光雷达的位姿信息以及相机的内参和外参,将该点云中的每个点云点投射到对应的图像帧中得到点云投射点。其中,根据激光雷达的位姿信息以及相机的内参和外参将点云序列投射到图像序列中的方法可以为现有的任意一种将点云序列投射到图像序列的投射方法。
由此,针对点云序列中的每个点云,根据采集该点云时的激光雷达的位姿信息以及相机的内参和外参,将该点云中的每个点云点投射到对应的图像帧中得到点云投射点,实现点云中的每个点云点与图像帧中的每个像素点之间的对应。
S130:针对图像序列中的每个图像帧,根据预设图像分割方法以及该图像帧中的所有点云投射点对该图像帧进行分割,得到该图像帧的图像分割结果。
由于一个图像帧中可能包含很多内容的,例如:大树、房子以及道路等,因此,需要对每个图像帧进行图像分割从而将图像中的所有内容分割出来,从而方便后续进行物体的识别,具体的,针对图像序列中的每个图像帧,根据预设图像分割方法以及该图像帧中的所有点云投射点对该图像帧进行分割,得到该图像帧的图像分割结果。
其中,预设图像分割方法可以为SAM(Segment Anything Model,分割任意模型)或者Mask2Former图像分割模型。
需要说明的是,此时得到的图像分割结果仅仅是将图像帧中的所有内容进行分割,是与类别无关的,不包含语义信息的。
S140:针对点云序列中的每个点云,将该点云中的每个点云点作为图的节点,基于该点云对应的图像帧的图像分割结果确定图中包含的几何边与语义边。
由于图像分割结果仅仅是将图像帧中的所有内容进行分割,有些内容属于同一个物体却被分割成到了不同的图像分割结果中,因此,还无法定位到具体的物体,因此,为了进行物体的识别,需要基于图像分割结果识别到具体的物体,在本发明实施例中,通过图优化和聚类的方式来识别到具体的物体。
具体的,图优化的方式为针对点云序列中的每个点云,将该点云中的每个点云点作为图的节点,基于该点云对应的图像帧的图像分割结果确定图中包含的几何边与语义边。
图2为图优化中的一个图的示意图,参见图2,在图优化的一个图中,存在节点和边,在本发明实施例中,针对点云序列中的每个点云,将该点云中的每个点云点作为图的节点,并定义两种类型的边:几何边和语义边,图2中的实现代表语义边,虚线代表几何边,圆形中为1的圆形代表t-1时刻的节点,圆形中为2的圆形代表t时刻的节点,圆形中为3的圆形代表t+1时刻的节点。
其中,基于该点云对应的图像帧的图像分割结果确定图中包含的几何边与语义边,可以包括:
将属于同一时刻且属于同一个图像分割结果的点云投射点对对应的点云点对作为一条语义边,计算图中的每两个点云点之间的欧式距离,将属于不同时刻且欧式距离小于预设距离阈值的点云点对作为一条几何边。其中,预设距离阈值可以根据经验确定。
在本发明实施例中,两个点云点形成一条边,也就是一点云点对形成一条边,几何边代表组成该边的两个点云点之间的距离较近,语义边代表组成该边的两个点云点在同一时刻属于同一个图像分割结果。
继续参见图2,一共存在6条语义边:A、B、C、D、E和F,以及3条几何边:G、H和J。
由此,基于图像分割结果确定图中包含的语义边,基于欧式距离确定图中包含的几何边。
S150:根据预设聚类方法、几何边和语义边进行聚类,得到图中物体的聚类结果。
在进行图优化确定图中包含的几何边与语义边后,即可根据预设聚类方法、几何边和语义边进行聚类,得到图中物体的聚类结果。
其中,预设聚类方法可以为谱聚类方法。具体的,基于几何边与语义边构建图的拉普拉斯矩阵,基于拉普拉斯矩阵得到图的特征向量,然后再特征向量空间中进行聚类,得到图中物体的聚类结果,也就是识别到了图中的具体的物体。
S160:针对聚类结果中的每个物体,将该物体投射到图像序列中得到该物体对应的图像块。
步骤S160识别到的是图优化的图中的物体,还需要基于此定位到图像帧中的物体,因此,针对聚类结果中的每个物体,将该物体投射到图像序列中得到该物体对应的图像块。
其中,将该物体投射到图像序列中得到该物体对应的图像块,可以包括:
根据采集该物体对应的点云时的激光雷达的位姿信息以及相机的内参和外参,将该物体投射到图像序列中,确定该物体在各图像帧中对应的最小外接矩形区域,并基于最小外接矩形区域确定该物体对应的图像块。
根据采集该物体对应的点云时的激光雷达的位姿信息以及相机的内参和外参,将该物体投射到图像序列中的方式与步骤S120中根据激光雷达的位姿信息以及相机的内参和外参将点云序列投射到图像序列中的方法一样,在此不再赘述。
在将该物体投射到图像序列中后,取该物体在各图像帧中对应的最小外接矩形区域,并基于最小外接矩形区域确定该物体对应的图像块。
由于有的物体可能在多个图像帧中出现,有的物体可能仅在一个图像帧中出现,因此,基于最小外接矩形区域确定该物体对应的图像块,可以为:
判断该物体是否在图像序列的一个图像帧中存在,如果是,将所存在的图像帧中的该物体的最小外接矩形区域作为该物体对应的图像块;
如果否,从所存在的图像帧中确定距离相机最近的图像帧中的该物体的最小外接矩形区域作为该物体对应的图像块。
由于点云是具有位置信息的,因此,可以基于该物体的点云点来确定该物体所在的图像帧与相机之间的距离。
此时,仅仅是得到了物体对应的图像块,仍然不知道物体的类别是什么。
由此,通过将该物体投射到图像序列中,确定该物体在各图像帧中对应的最小外接矩形区域,并基于最小外接矩形区域来确定该物体对应的图像块。
本发明实施例中,通过预设图像分割方法可以将图像帧中的所有物体区分开来,然后采用图优化的方法,通过几何边可以找到距离较近的属于同一个物体的点云点,通过语义边可以找到距离较远的属于同一个物体的点云点,因此,通过几何边和语义边可以将所有物体都找到,提高了对开放物体的召回率。
S170:针对每个图像块,将该图像块输入至预设图像分类网络中,得到该图像块对应的特征图,将该图像块对应的物体的点云点投射到该图像块上得到图像块特征向量,获得多个开放物体类别的物体类别特征向量,基于图像块特征向量和物体类别特征向量确定该图像块的类别,并将该图像块的类别作为该图像块对应的物体的类别。
为了确定物体的类别,针对每个图像块,将该图像块输入至预设图像分类网络中,得到该图像块对应的特征图。
其中,预设图像分类网络可以有多种,包括但不限于以下两种:CLIP(ContrastiveLanguage–Image Pre-training,对比语言-图像预训练)网络或者OpenCLIP(OpenContrastive Language–Image Pre-training,开放对比语言-图像预训练)网络。
当预设图像分类网络为对比语言-图像预训练CLIP网络时,在一种实现方式中,本发明实施例为了提高像素与其语义之间的一致性,改进了对比语言-图像预训练CLIP网络的结构,将对比语言-图像预训练CLIP网络中文本编码器的Transformer的计算方式修改为下述公式:
AttnVV=softmax(V*VT)*V
其中,AttnVV为VV注意力权重矩阵,V为值,T为转置,softmax为归一化函数。
未修改之前的对比语言-图像预训练CLIP网络中文本编码器的Transformer的计算方式为:
AttnQK=softmax(Q*KT)*V
其中,AttnQK为QK注意力权重矩阵,V为值,T为转置,Q为查询,K为键,softmax为归一化函数。
由上述两个公式可见,由于V相对于Q和K更与像素的特征值有关,因此,在将对比语言-图像预训练CLIP网络中文本编码器的Transformer的计算方式由QK注意力权重矩阵修改为VV注意力权重矩阵后,使得每个像素位置的特征值能够更好的融合和自己相关的特征,因此,能够提高像素与其语义之间的一致性,从而增强了类别识别的可靠性。
图3为对比语言-图像预训练CLIP网络的结构示意图,参见图3,当预设图像分类网络为对比语言-图像预训练CLIP网络时,将图像块输入至对比语言-图像预训练CLIP网络的图像编码器中,得到该图像块对应的特征图M:(1+h*w)*C,其中,C为特征维度,h为图像块的宽度,w为图像块的高度,示例性的,C为512,h为224,w为224。
在得到了该图像块对应的特征图后,将该图像块对应的物体的点云点投射到该图像块上得到图像块特征向量。
其中,将该图像块对应的物体的点云点投射到该图像块上得到图像块特征向量可以包括:
将该图像块对应的物体的点云点投射到该图像块上得到多个特征向量,计算多个特征向量的平均值作为该图像块的图像块特征向量。
具体的,将物体的点云点投射到图像块上的投射方式与步骤S120中根据激光雷达的位姿信息以及相机的内参和外参将点云序列投射到图像序列中的方法一样,在此不再赘述。
由此,仅使用物体的点云点投射到图像块上的特征向量,减少了来自非物体像素位置的干扰,提高了类别识别的精确性。
在得到了图像块特征向量后,获得多个开放物体类别的物体类别特征向量,基于图像块特征向量和所述物体类别特征向量确定该图像块的类别,并将该图像块的类别作为该图像块对应的物体的类别。
其中,获得多个开放物体类别的物体类别特征向量,基于图像块特征向量和物体类别特征向量确定该图像块的类别,可以包括:
根据多个开放物体类别的类别名称和预设特征向量提取算法,得到每个开放物体类别的物体类别特征向量;
计算每个物体类别特征向量与图像块特征向量之间的相似度,将相似度最高的物体类别特征向量对应的开放物体类别作为该图像块的类别。
当预设特征向量提取算法为对比语言-图像预训练CLIP网络时,上述根据多个开放物体类别的类别名称和预设特征向量提取算法,得到每个开放物体类别的物体类别特征向量可以为:
将多个开放物体类别的类别名称输入至对比语言-图像预训练CLIP网络中的文本编码器中,得到每个开放物体类别的物体类别特征向量。
继续参见图3,多个开放物体类别的类别名称至少包括:车、垃圾、消防栓和石头,多个开放物体类别的类别名称经过一个图像模板后输入至对比语言-图像预训练CLIP网络中的文本编码器中,得到N个开放物体类别的物体类别特征向量,其中,R1代表第1个开放物体类别的物体类别特征向量,R2代表第2个开放物体类别的物体类别特征向量,R2代表第2个开放物体类别的物体类别特征向量,RN代表第N个开放物体类别的物体类别特征向量。
在得到每个开放物体类别的物体类别特征向量后,即可计算每个物体类别特征向量与图像块特征向量之间的相似度,将相似度最高的物体类别特征向量对应的开放物体类别作为该图像块的类别。其中,计算相似度的方法可以为余弦相似度计算方法。
继续参见图3,M R1为计算图像块特征向量与第1个开放物体类别的物体类别特征向量之间的相似度,M R2为计算图像块特征向量与第2个开放物体类别的物体类别特征向量之间的相似度,M R3为计算图像块特征向量与第3个开放物体类别的物体类别特征向量之间的相似度,M RN为计算图像块特征向量与第N个开放物体类别的物体类别特征向量之间的相似度,最后,相似度最高的物体类别特征向量对应的开放物体类别为消防栓,则将消防栓作为图像块的类别。
由此,本发明利用了对比语言-图像预训练CLIP网络本身具有的开放物体类别的识别能力,可以识别未在对比语言-图像预训练CLIP网络的训练数据中出现的开放物体类别。
本发明实施例中,将对比语言-图像预训练CLIP网络中文本编码器的Transformer的计算方式由QK注意力权重矩阵修改为VV注意力权重矩阵,使得每个像素位置的特征值能够更好的融合和自己相关的特征,因此,能够提高像素与其语义之间的一致性,并且将图像块对应的物体的点云点投射到图像块上得到图像块特征向量,并不是整个图像帧的特征向量,因此,得到了能更好的描述物体的特征,从而提高了对开放物体类别识别的准确率。
由上述内容可知,本实施例可以获取点云序列与对应的图像序列,针对点云序列中的每个点云,根据预设数据预处理方法将该点云中的每个点云点投射到对应的图像帧中得到点云投射点,针对图像序列中的每个图像帧,根据预设图像分割方法以及该图像帧中的所有点云投射点对该图像帧进行分割,得到该图像帧的图像分割结果,针对点云序列中的每个点云,将该点云中的每个点云点作为图的节点,基于该点云对应的图像帧的图像分割结果确定图中包含的几何边与语义边,根据预设聚类方法、几何边和语义边进行聚类,得到图中物体的聚类结果,针对聚类结果中的每个物体,将该物体投射到图像序列中得到该物体对应的图像块,针对每个图像块,将该图像块输入至预设图像分类网络中,得到该图像块对应的特征图,将该图像块对应的物体的点云点投射到该图像块上得到图像块特征向量,获得多个开放物体类别的物体类别特征向量,基于图像块特征向量和物体类别特征向量确定该图像块的类别,并将该图像块的类别作为该图像块对应的物体的类别。本发明中,通过图像分割以及聚类的方式得到物体的图像块,因此,具备对开放物体在图像中位置的定位能力,最后将图像块的类别作为图像块对应的物体的类别,因此,可以感知到开放物体类别,并且,由于所获得的开放物体类别的并不特定,因此,可以对不特定的开放物体类别进行检测,提高了对开放物体类别的感知能力。
图4为本发明实施例提供的服务于机器人场景的开放物体类别感知装置的一种结构示意图。参见图4,本发明实施例提供的一种服务于机器人场景的开放物体类别感知装置,可以包括:
获取模块410,用于获取点云序列与对应的图像序列;
预处理模块420,用于针对所述点云序列中的每个点云,根据预设数据预处理方法将该点云中的每个点云点投射到对应的图像帧中得到点云投射点;
图像分割模块430,用于针对所述图像序列中的每个图像帧,根据预设图像分割方法以及该图像帧中的所有点云投射点对该图像帧进行分割,得到该图像帧的图像分割结果;
图优化模块440,用于针对所述点云序列中的每个点云,将该点云中的每个点云点作为图的节点,基于该点云对应的图像帧的图像分割结果确定所述图中包含的几何边与语义边;
聚类模块450,用于根据预设聚类方法、所述几何边和所述语义边进行聚类,得到所述图中物体的聚类结果;
投射模块460,用于针对所述聚类结果中的每个物体,将该物体投射到所述图像序列中得到该物体对应的图像块;
类别感知模块470,用于针对每个图像块,将该图像块输入至预设图像分类网络中,得到该图像块对应的特征图,将该图像块对应的物体的点云点投射到该图像块上得到图像块特征向量,获得多个开放物体类别的物体类别特征向量,基于所述图像块特征向量和所述物体类别特征向量确定该图像块的类别,并将该图像块的类别作为该图像块对应的物体的类别。
由此,本实施例提供的装置可以获取点云序列与对应的图像序列,针对点云序列中的每个点云,根据预设数据预处理方法将该点云中的每个点云点投射到对应的图像帧中得到点云投射点,针对图像序列中的每个图像帧,根据预设图像分割方法以及该图像帧中的所有点云投射点对该图像帧进行分割,得到该图像帧的图像分割结果,针对点云序列中的每个点云,将该点云中的每个点云点作为图的节点,基于该点云对应的图像帧的图像分割结果确定图中包含的几何边与语义边,根据预设聚类方法、几何边和语义边进行聚类,得到图中物体的聚类结果,针对聚类结果中的每个物体,将该物体投射到图像序列中得到该物体对应的图像块,针对每个图像块,将该图像块输入至预设图像分类网络中,得到该图像块对应的特征图,将该图像块对应的物体的点云点投射到该图像块上得到图像块特征向量,获得多个开放物体类别的物体类别特征向量,基于图像块特征向量和物体类别特征向量确定该图像块的类别,并将该图像块的类别作为该图像块对应的物体的类别。本发明中,通过图像分割以及聚类的方式得到物体的图像块,因此,具备对开放物体在图像中位置的定位能力,最后将图像块的类别作为图像块对应的物体的类别,因此,可以感知到开放物体类别,并且,由于所获得的开放物体类别的并不特定,因此,可以对不特定的开放物体类别进行检测,提高了对开放物体类别的感知能力。
在一种实现方式中,所述预处理模块420,可以包括:
获取子模块,用于获取拍摄所述图像序列的相机的内参和外参以及采集所述点云序列的激光雷达的位姿信息;
投射子模块,用于针对所述点云序列中的每个点云,根据采集该点云时的所述激光雷达的位姿信息以及所述相机的内参和外参,将该点云中的每个点云点投射到对应的图像帧中得到点云投射点。
在一种实现方式中,所述预设图像分割方法可以为分割任意模型SAM或者Mask2Former图像分割模型。
在一种实现方式中,所述图优化模块440,可以具体用于:
将属于同一时刻且属于同一个图像分割结果的点云投射点对对应的点云点对作为一条语义边,计算所述图中的每两个点云点之间的欧式距离,将属于不同时刻且欧式距离小于预设距离阈值的点云点对作为一条几何边。
在一种实现方式中,所述预设聚类方法可以为谱聚类方法。
在一种实现方式中,所述投射模块460,可以具体用于:
根据采集该物体对应的点云时的所述激光雷达的位姿信息以及所述相机的内参和外参,将该物体投射到所述图像序列中,确定该物体在各图像帧中对应的最小外接矩形区域,并基于所述最小外接矩形区域确定该物体对应的图像块。
在一种实现方式中,所述预设图像分类网络可以为对比语言-图像预训练CLIP网络或者开放对比语言-图像预训练OpenCLIP网络。
在一种实现方式中,所述对比语言-图像预训练CLIP网络中文本编码器的Transformer的计算方式可以为:
AttnVV=softmax(V*VT)*V
其中,AttnVV为VV注意力权重矩阵,V为值,T为转置,softmax为归一化函数。
在一种实现方式中,所述类别感知模块470,可以包括:
特征提取子模块,用于根据多个开放物体类别的类别名称和预设特征向量提取算法,得到每个开放物体类别的物体类别特征向量;
计算子模块,用于计算每个物体类别特征向量与所述图像块特征向量之间的相似度,将相似度最高的物体类别特征向量对应的开放物体类别作为该图像块的类别。
上述装置实施例与方法实施例相对应,与该方法实施例具有同样的技术效果,具体说明参见方法实施例。装置实施例是基于方法实施例得到的,具体的说明可以参见方法实施例部分,此处不再赘述。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域普通技术人员可以理解:实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims (18)

1.一种服务于机器人场景的开放物体类别感知方法,其特征在于,包括:
获取点云序列与对应的图像序列;
针对所述点云序列中的每个点云,根据预设数据预处理方法将该点云中的每个点云点投射到对应的图像帧中得到点云投射点;
针对所述图像序列中的每个图像帧,根据预设图像分割方法以及该图像帧中的所有点云投射点对该图像帧进行分割,得到该图像帧的图像分割结果;
针对所述点云序列中的每个点云,将该点云中的每个点云点作为图的节点,基于该点云对应的图像帧的图像分割结果确定所述图中包含的几何边与语义边;
根据预设聚类方法、所述几何边和所述语义边进行聚类,得到所述图中物体的聚类结果;
针对所述聚类结果中的每个物体,将该物体投射到所述图像序列中得到该物体对应的图像块;
针对每个图像块,将该图像块输入至预设图像分类网络中,得到该图像块对应的特征图,将该图像块对应的物体的点云点投射到该图像块上得到图像块特征向量,获得多个开放物体类别的物体类别特征向量,基于所述图像块特征向量和所述物体类别特征向量确定该图像块的类别,并将该图像块的类别作为该图像块对应的物体的类别。
2.如权利要求1所述的方法,其特征在于,所述针对所述点云序列中的每个点云,根据预设数据预处理方法将该点云中的每个点云点投射到对应的图像帧中得到点云投射点的步骤,包括:
获取拍摄所述图像序列的相机的内参和外参以及采集所述点云序列的激光雷达的位姿信息;
针对所述点云序列中的每个点云,根据采集该点云时的所述激光雷达的位姿信息以及所述相机的内参和外参,将该点云中的每个点云点投射到对应的图像帧中得到点云投射点。
3.如权利要求1所述的方法,其特征在于,所述预设图像分割方法为分割任意模型SAM或者Mask2Former图像分割模型。
4.如权利要求1所述的方法,其特征在于,所述基于该点云对应的图像帧的图像分割结果确定所述图中包含的几何边与语义边的步骤,包括:
将属于同一时刻且属于同一个图像分割结果的点云投射点对对应的点云点对作为一条语义边,计算所述图中的每两个点云点之间的欧式距离,将属于不同时刻且欧式距离小于预设距离阈值的点云点对作为一条几何边。
5.如权利要求1所述的方法,其特征在于,所述预设聚类方法为谱聚类方法。
6.如权利要求2所述的方法,其特征在于,所述将该物体投射到所述图像序列中得到该物体对应的图像块的步骤,包括:
根据采集该物体对应的点云时的所述激光雷达的位姿信息以及所述相机的内参和外参,将该物体投射到所述图像序列中,确定该物体在各图像帧中对应的最小外接矩形区域,并基于所述最小外接矩形区域确定该物体对应的图像块。
7.如权利要求1所述的方法,其特征在于,所述预设图像分类网络为对比语言-图像预训练CLIP网络或者开放对比语言-图像预训练OpenCLIP网络。
8.如权利要求7所述的方法,其特征在于,所述对比语言-图像预训练CLIP网络中文本编码器的Transformer的计算方式为:
AttnVV=softmax(V*VT)*V
其中,AttnVV为VV注意力权重矩阵,V为值,T为转置,softmax为归一化函数。
9.如权利要求1所述的方法,其特征在于,所述获得多个开放物体类别的物体类别特征向量,基于所述图像块特征向量和所述物体类别特征向量确定该图像块的类别的步骤,包括:
根据多个开放物体类别的类别名称和预设特征向量提取算法,得到每个开放物体类别的物体类别特征向量;
计算每个物体类别特征向量与所述图像块特征向量之间的相似度,将相似度最高的物体类别特征向量对应的开放物体类别作为该图像块的类别。
10.一种服务于机器人场景的开放物体类别感知装置,其特征在于,包括:
获取模块,用于获取点云序列与对应的图像序列;
预处理模块,用于针对所述点云序列中的每个点云,根据预设数据预处理方法将该点云中的每个点云点投射到对应的图像帧中得到点云投射点;
图像分割模块,用于针对所述图像序列中的每个图像帧,根据预设图像分割方法以及该图像帧中的所有点云投射点对该图像帧进行分割,得到该图像帧的图像分割结果;
图优化模块,用于针对所述点云序列中的每个点云,将该点云中的每个点云点作为图的节点,基于该点云对应的图像帧的图像分割结果确定所述图中包含的几何边与语义边;
聚类模块,用于根据预设聚类方法、所述几何边和所述语义边进行聚类,得到所述图中物体的聚类结果;
投射模块,用于针对所述聚类结果中的每个物体,将该物体投射到所述图像序列中得到该物体对应的图像块;
类别感知模块,用于针对每个图像块,将该图像块输入至预设图像分类网络中,得到该图像块对应的特征图,将该图像块对应的物体的点云点投射到该图像块上得到图像块特征向量,获得多个开放物体类别的物体类别特征向量,基于所述图像块特征向量和所述物体类别特征向量确定该图像块的类别,并将该图像块的类别作为该图像块对应的物体的类别。
11.如权利要求10所述的装置,其特征在于,所述预处理模块,包括:
获取子模块,用于获取拍摄所述图像序列的相机的内参和外参以及采集所述点云序列的激光雷达的位姿信息;
投射子模块,用于针对所述点云序列中的每个点云,根据采集该点云时的所述激光雷达的位姿信息以及所述相机的内参和外参,将该点云中的每个点云点投射到对应的图像帧中得到点云投射点。
12.如权利要求10所述的装置,其特征在于,所述预设图像分割方法为分割任意模型SAM或者Mask2Former图像分割模型。
13.如权利要求10所述的装置,其特征在于,所述图优化模块,具体用于:
将属于同一时刻且属于同一个图像分割结果的点云投射点对对应的点云点对作为一条语义边,计算所述图中的每两个点云点之间的欧式距离,将属于不同时刻且欧式距离小于预设距离阈值的点云点对作为一条几何边。
14.如权利要求10所述的装置,其特征在于,所述预设聚类方法为谱聚类方法。
15.如权利要求11所述的装置,其特征在于,所述投射模块,具体用于:
根据采集该物体对应的点云时的所述激光雷达的位姿信息以及所述相机的内参和外参,将该物体投射到所述图像序列中,确定该物体在各图像帧中对应的最小外接矩形区域,并基于所述最小外接矩形区域确定该物体对应的图像块。
16.如权利要求10所述的装置,其特征在于,所述预设图像分类网络为对比语言-图像预训练CLIP网络或者开放对比语言-图像预训练OpenCLIP网络。
17.如权利要求16所述的装置,其特征在于,所述对比语言-图像预训练CLIP网络中文本编码器的Transformer的计算方式为:
AttnVV=softmax(V*VT)*V
其中,AttnVV为VV注意力权重矩阵,V为值,T为转置,softmax为归一化函数。
18.如权利要求10所述的装置,其特征在于,所述类别感知模块,包括:
特征提取子模块,用于根据多个开放物体类别的类别名称和预设特征向量提取算法,得到每个开放物体类别的物体类别特征向量;
计算子模块,用于计算每个物体类别特征向量与所述图像块特征向量之间的相似度,将相似度最高的物体类别特征向量对应的开放物体类别作为该图像块的类别。
CN202311330745.XA 2023-10-13 2023-10-13 一种服务于机器人场景的开放物体类别感知方法及装置 Pending CN117392638A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311330745.XA CN117392638A (zh) 2023-10-13 2023-10-13 一种服务于机器人场景的开放物体类别感知方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311330745.XA CN117392638A (zh) 2023-10-13 2023-10-13 一种服务于机器人场景的开放物体类别感知方法及装置

Publications (1)

Publication Number Publication Date
CN117392638A true CN117392638A (zh) 2024-01-12

Family

ID=89464212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311330745.XA Pending CN117392638A (zh) 2023-10-13 2023-10-13 一种服务于机器人场景的开放物体类别感知方法及装置

Country Status (1)

Country Link
CN (1) CN117392638A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117765482A (zh) * 2024-02-22 2024-03-26 交通运输部天津水运工程科学研究所 基于深度学习的海岸带垃圾富集区的垃圾识别方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117765482A (zh) * 2024-02-22 2024-03-26 交通运输部天津水运工程科学研究所 基于深度学习的海岸带垃圾富集区的垃圾识别方法及系统
CN117765482B (zh) * 2024-02-22 2024-05-14 交通运输部天津水运工程科学研究所 基于深度学习的海岸带垃圾富集区的垃圾识别方法及系统

Similar Documents

Publication Publication Date Title
Min et al. A new approach to track multiple vehicles with the combination of robust detection and two classifiers
US10706330B2 (en) Methods and systems for accurately recognizing vehicle license plates
Satzoda et al. Multipart vehicle detection using symmetry-derived analysis and active learning
US20180307911A1 (en) Method for the semantic segmentation of an image
Khammari et al. Vehicle detection combining gradient analysis and AdaBoost classification
US20170213080A1 (en) Methods and systems for automatically and accurately detecting human bodies in videos and/or images
CN106599832A (zh) 一种基于卷积神经网络的多类障碍物检测与识别方法
Doungmala et al. Helmet wearing detection in Thailand using Haar like feature and circle hough transform on image processing
Romdhane et al. An improved traffic signs recognition and tracking method for driver assistance system
Shukla et al. Moving object tracking of vehicle detection: a concise review
Bedruz et al. Real-time vehicle detection and tracking using a mean-shift based blob analysis and tracking approach
CN112990065B (zh) 一种基于优化的YOLOv5模型的车辆分类检测方法
CN117392638A (zh) 一种服务于机器人场景的开放物体类别感知方法及装置
CN112613434A (zh) 道路目标检测方法、装置及存储介质
Muthalagu et al. Vehicle lane markings segmentation and keypoint determination using deep convolutional neural networks
CN114937248A (zh) 用于跨相机的车辆跟踪方法、装置、电子设备、存储介质
Gad et al. Real-time lane instance segmentation using SegNet and image processing
CN117292338A (zh) 基于视频流解析的车辆事故识别和分析方法
Al Mamun et al. Efficient lane marking detection using deep learning technique with differential and cross-entropy loss.
CN117593685A (zh) 真值数据的构建方法和装置、存储介质
Singh et al. Improved YOLOv5l for vehicle detection: an application to estimating traffic density and identifying over speeding vehicles on highway scenes
Hsu et al. Developing an on-road obstacle detection system using monovision
Singh et al. Smart traffic monitoring through real-time moving vehicle detection using deep learning via aerial images for consumer application
Maharshi et al. A System for Detecting Automated Parking Slots Using Deep Learning
Saranya et al. The Proficient ML method for Vehicle Detection and Recognition in Video Sequence

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination