CN115578707B - 目标识别方法、装置、电子设备及存储介质 - Google Patents
目标识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115578707B CN115578707B CN202211314179.9A CN202211314179A CN115578707B CN 115578707 B CN115578707 B CN 115578707B CN 202211314179 A CN202211314179 A CN 202211314179A CN 115578707 B CN115578707 B CN 115578707B
- Authority
- CN
- China
- Prior art keywords
- projection images
- projection
- point cloud
- cloud data
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/36—Applying a local operator, i.e. means to operate on image points situated in the vicinity of a given point; Non-linear local filtering operations, e.g. median filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Nonlinear Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种目标识别方法、装置、电子设备及存储介质,其中方法包括:确定待识别的点云数据;对所述点云数据进行投影,得到多个第一投影图像;对所述多个第一投影图像进行反采样,得到多个第二投影图像;基于所述多个第二投影图像,以及与所述多个第二投影图像相对应的多个分类提示文本,对所述点云数据进行目标识别,以确定所述多个分类提示文本中与所述多个第二投影图像唯一对应的分类提示文本,其中所述多个分类提示文本是基于多个分类标签以及提示文本而得到的,所述提示文本是基于投影参数和/或反采样参数而构建的。本发明提供的方法、装置、电子设备及存储介质,进一步提高了目标识别的准确率。
Description
技术领域
本发明涉及目标识别技术领域,尤其涉及一种目标识别方法、装置、电子设备及存储介质。
背景技术
近年来,基于点云的目标识别算法成为实现自动驾驶的关键技术之一。传统的基于点云的目标识别算法需要大量的点云数据进行训练,采集训练样本的成本很高且很耗时。而训练好的基于点云的目标识别算法仅适用于同一来源的数据,对于不同条件下采集的点云数据,基于点云的目标识别算法不经过重新训练,因此,预测结果的准确率低。
现有技术中零样本/小样本算法使用CLIP(Contrastive Language-Image Pre-training,)算法实现基于点云的目标识别。而CLIP算法训练采用的是自然图像的点云数据,点云数据是三维数据,需要先将三维点云投影到二维空间,由此产生的二维投影图像中的目标的边缘不连续,产生了噪声,投影图像的分布与自然图像的分布不一致进一步降低了目标识别的准确率。
发明内容
本发明提供一种目标识别方法、装置、电子设备及存储介质,用以解决现有技术中二维图像中的目标的边缘不连续,产生了噪声,进一步降低了目标识别的准确率的缺陷。
本发明提供一种目标识别方法,包括:
确定待识别的点云数据;
对所述点云数据进行投影,得到多个第一投影图像;
对所述多个第一投影图像进行反采样,得到多个第二投影图像;
基于所述多个第二投影图像,以及与所述多个第二投影图像相对应的多个分类提示文本,对所述点云数据进行目标识别,以确定所述多个分类提示文本中与所述多个第二投影图像唯一对应的分类提示文本,其中所述分类提示文本是基于多个分类标签以及提示文本而得到的,所述提示文本是基于投影参数和/或反采样参数而构建的。
根据本发明提供的一种目标识别方法,所述投影参数是对所述点云数据进行投影所应用的参数,所述反采样参数是对所述多个第一投影图像进行反采样所应用的参数。
根据本发明提供的一种目标识别方法,所述投影参数包括投影数量和/或投影方向。
根据本发明提供的一种目标识别方法,所述基于所述多个第二投影图像,以及与所述多个第二投影图像相对应的多个分类提示文本,对所述点云数据进行目标识别,以确定所述多个分类提示文本中与所述多个第二投影图像唯一对应的分类提示文本,包括:
基于图像编码器,对所述多个第二投影图像进行编码,得到图像编码特征;
基于文本编码器,对所述多个分类提示文本进行编码,得到多个文本编码特征;
基于所述图像编码特征和所述多个文本编码特征之间的相似度,确定所述多个分类提示文本中与所述多个第二投影图像唯一对应的分类提示文本。
根据本发明提供的一种目标识别方法,所述相似度至少包括所述图像编码特征和所述文本编码特征的内积。
根据本发明提供的一种目标识别方法,所述对所述多个第一投影图像进行反采样,得到多个第二投影图像,包括:
基于低通滤波器对所述多个第一投影图像进行反采样,得到多个第二投影图像。
根据本发明提供的一种目标识别方法,所述低通滤波器包括至少两个高斯滤波器。
根据本发明提供的一种目标识别方法,所述点云数据是三维数据,所述多个第一投影图像和所述多个第二投影图像是二维数据。
本发明还提供一种目标识别装置,包括:
确定单元,用于确定待识别的点云数据;
投影单元,用于对所述点云数据进行投影,得到多个第一投影图像;
反采样单元,用于对所述多个第一投影图像进行反采样,得到多个第二投影图像;
目标识别单元,用于基于所述多个第二投影图像,以及与所述多个第二投影图像相对应的多个分类提示文本,对所述点云数据进行目标识别,以确定所述多个分类提示文本中与所述多个第二投影图像唯一对应的分类提示文本,其中所述多个分类提示文本是基于多个分类标签以及提示文本而得到的,所述提示文本是基于投影参数和/或反采样参数而构建的。
根据本发明提供的目标识别装置,所述投影参数是对所述点云数据进行投影所应用的参数,所述反采样参数是对所述多个第一投影图像进行反采样所应用的参数。
根据本发明提供的目标识别装置,所述投影参数包括投影数量和/或投影方向。
根据本发明提供的目标识别装置,目标识别单元具体用于:
基于图像编码器,对所述多个第二投影图像进行编码,得到图像编码特征;
基于文本编码器,对所述多个分类提示文本进行编码,得到多个文本编码特征;
基于所述图像编码特征和所述多个文本编码特征之间的相似度,确定所述多个分类提示文本中与所述多个第二投影图像唯一对应的分类提示文本。
根据本发明提供的目标识别装置,所述相似度至少包括所述图像编码特征和所述文本编码特征的内积。
根据本发明提供的目标识别装置,反采样单元具体用于:
基于低通滤波器对所述多个第一投影图像进行反采样,得到多个第二投影图像。
根据本发明提供的目标识别装置,所述低通滤波器包括至少两个高斯滤波器。
根据本发明提供的目标识别装置,所述点云数据是三维数据,所述多个第一投影图像和所述多个第二投影图像是二维数据。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述目标识别方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述目标识别方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述目标识别方法。
本发明提供的目标识别方法、装置、电子设备及存储介质,多个第二投影图像是对多个第一投影图像进行反采样得到的,由此得到的多个第二投影图像中的目标的边缘是连续分布的,从而更接近实际采集的自然图像;基于多个第二投影图像,以及与多个第二投影图像相对应的多个分类提示文本,对点云数据进行目标识别,进一步提高了目标识别的准确率,并且分类提示文本是与多个第二投影图像相对应的,可以进一步提高目标识别的准确率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的目标识别方法的流程示意图之一;
图2是本发明提供的确定多个分类提示文本中与多个第二投影图像唯一对应的分类提示文本的流程示意图;
图3是本发明提供的多个第一投影图像的示意图;
图4是本发明提供的得到多个第二投影图像的流程示意图;
图5是本发明提供的目标识别方法的流程示意图之二;
图6是本发明提供的目标识别装置的结构示意图;
图7是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类。
本发明提供一种目标识别方法,图1是本发明提供的目标识别方法的流程示意图之一,如图1所示,该方法包括:
步骤110,确定待识别的点云数据;
具体地,可以确定待识别的点云数据,此处的待识别的点云数据即后续需要进行目标识别的点云数据。此处的点云数据是指在一个三维坐标系统中的一组向量的集合,可以是基于雷达设备向候选目标实体(即待识别的目标实体)发射雷达信号后采集得到的雷达数据确定。此处的候选目标实体是指后续可能需要进行目标识别的实体。此处的目标识别是指一个特殊目标(或一种类型的目标)从所有目标(或所有类型的目标)中被区分出来的过程。此处的雷达数据也可以通过激光扫描仪确定,还可以通过扫描全站仪确定,本发明实施例对此不作具体限定。
步骤120,对所述点云数据进行投影,得到多个第一投影图像;
具体地,在得到待识别的点云数据后,可以对点云数据进行投影,得到多个第一投影图像。考虑到点云数据是三维(3D)数据,此处对点云数据进行投影是指将三维点云数据投影至二维空间。此处的多个第一投影图像是指对点云数据进行投影,得到的多个二维(2D)图像。
可以理解的是,点云数据不包括方向信息,所以需要对点云数据进行投影,在对点云数据进行投影时,可以寻找最优的投影数量和投影方向,例如,可以从上、下、左、右、前、后等方向对点云数据进行投影,从而提高后续目标识别的准确率。
步骤130,对所述多个第一投影图像进行反采样,得到多个第二投影图像;
具体地,在得到多个第一投影图像后,考虑到多个第一投影图像中的目标的边缘不连续分布。基于此,可以对多个第一投影图像进行反采样,得到多个第二投影图像。此处的反采样是指对多个第一投影图像进行边缘模糊(Edge Blurring)处理,由此得到的多个第二投影图像相较于多个第一投影图像,多个第二投影图像中的目标的边缘是连续分布的,从而更接近实际采集的自然图像,再基于多个第二投影图像进行后续的目标识别,可以进一步提高目标识别的准确率。此处的第一投影图像和第二投影图像中的“第一”、“第二”仅作为不同投影图像的区分。
步骤140,基于所述多个第二投影图像,以及与所述多个第二投影图像相对应的多个分类提示文本,对所述点云数据进行目标识别,以确定所述多个分类提示文本中与所述多个第二投影图像唯一对应的分类提示文本,其中所述分类提示文本是基于多个分类标签以及提示文本而得到的,所述提示文本是基于投影参数和/或反采样参数而构建的。
具体地,在得到多个第二投影图像后,可以基于多个第二投影图像,以及与多个第二投影图像相对应的多个分类提示文本,对点云数据进行目标识别,以确定多个分类提示文本中与多个第二投影图像唯一对应的分类提示文本。此处的多个分类提示文本是基于多个分类标签以及提示文本而得到的,此处的分类标签是指候选目标实体所属的类别的标签,分类标签可以是飞机(plane)、汽车(car)、狗(dog)、鸟(bird)等。此处的提示文本是基于投影参数和/或反采样参数而构建的。此处的提示文本和多个第二投影图像是相对应的,用于提示多个第二投影图像中对候选目标实体处理相关的信息。例如,提示文本可以是基于投影参数构建的,也可以是基于反采样参数构建的,还可以是基于投影参数和反采样参数构建的,本发明实施例对此不作具体限定。
此处的投影参数是对点云数据进行投影所应用的参数,此处的反采样参数是对多个第一投影图像进行反采样所应用的参数。
例如,对点云数据进行投影所应用的参数是“从点云数据的多个方向投影”,对应的提示文本为“从{物体}的点云数据的多个方向投影”,多个分类标签为飞机、汽车、狗和鸟,则基于多个分类标签以及提示文本而得到的多个分类提示文本可以是“从{飞机}的点云数据的多个方向投影”、“从{汽车}的点云数据的多个方向投影”、“从{狗}的点云数据的多个方向投影”以及“从{鸟}的点云数据的多个方向投影”。
又例如,对多个第一投影图像进行反采样所应用的参数是“对多个第一投影图像进行两次高斯滤波处理”,对应的提示文本为“对{物体}的多个第一投影图像进行两次高斯滤波处理”,多个分类标签为飞机、汽车、狗和鸟,则基于多个分类标签以及提示文本而得到的多个分类提示文本可以是“对{飞机}的多个第一投影图像进行两次高斯滤波处理”、“对{汽车}的多个第一投影图像进行两次高斯滤波处理”、“对{狗}的多个第一投影图像进行两次高斯滤波处理”以及“对{鸟}的多个第一投影图像进行两次高斯滤波处理”。
还例如,对点云数据进行投影所应用的参数是“从点云数据的多个方向投影”,并且,对多个第一投影图像进行反采样所应用的参数是“对多个第一投影图像进行两次高斯滤波处理”,对应的提示文本为“从{物体}的点云数据的多个方向投影,得到多个第一投影图像后,再对多个第一投影图像进行两次高斯滤波处理”,多个分类标签为飞机、汽车、狗和鸟,则基于多个分类标签以及提示文本而得到的多个分类提示文本可以是“从{飞机}的点云数据的多个方向投影,得到多个第一投影图像后,再对多个第一投影图像进行两次高斯滤波处理”、“从{汽车}的点云数据的多个方向投影,得到多个第一投影图像后,再对多个第一投影图像进行两次高斯滤波处理”、“从{狗}的点云数据的多个方向投影,得到多个第一投影图像后,再对多个第一投影图像进行两次高斯滤波处理”以及“从{鸟}的点云数据的多个方向投影,得到多个第一投影图像后,再对多个第一投影图像进行两次高斯滤波处理”,本发明实施例对此不作具体限定。
作为示例,点云数据原始的提示文本可以是:point cloud depth map of a{object}(一个{物体}的点云投影图),对点云数据进行六个方向的投影得到的六个第一投影图像的提示文本可以是six point cloud depth map of a{object}(一个{物体}的六个点云投影图),对六个第一投影图像进行反采样得到的六个第二投影图像的提示文本可以是six different blurry views point cloud depth map of a{object}(一个{物体}的六个不同模糊点云投影图)。
例如,对点云数据进行目标识别之后,确定多个分类提示文本中与六个第二投影图像唯一对应的分类提示文本是“six different blurry views point cloud depth mapof a{plane}”,则可以确定目标识别结果为“plane”;又例如,对点云数据进行目标识别之后,确定多个分类提示文本中与六个第二投影图像唯一对应的分类提示文本是“sixdifferent blurry views point cloud depth map of a{car}”,则可以确定目标识别结果为“car”,本发明实施例对此不作具体限定。
此处的候选目标实体是指后续可能需要进行目标识别的目标实体,可以是飞机、狗、猫、人等目标实体,本发明实施例对此不作具体限定。例如,可以将多个第二投影图像进行图像特征编码,得到图像编码特征,可以将与多个第二投影图像相对应的多个分类提示文本进行文本特征编码,得到多个文本编码特征,再基于图像编码特征和多个文本编码特征,对点云数据进行目标识别。
本发明实施例提供的方法,多个第二投影图像是对多个第一投影图像进行反采样得到的,由此得到的多个第二投影图像中的目标的边缘是连续分布的,从而更接近实际采集的自然图像;基于多个第二投影图像,以及与多个第二投影图像相对应的多个分类提示文本,对点云数据进行目标识别,进一步提高了目标识别的准确率,并且分类提示文本是与多个第二投影图像相对应的,可以进一步提高目标识别的准确率。
基于上述实施例,所述投影参数是对所述点云数据进行投影所应用的参数,所述反采样参数是对所述多个第一投影图像进行反采样所应用的参数。
具体地,此处的投影参数是对点云数据进行投影所应用的参数,具体可以包括投影的数量和投影的方向。此处的反采样参数是对多个第一投影图像进行反采样所应用的参数,具体可以包括反采样使用的滤波器的类型以及滤波器的数量,本发明实施例对此不作具体限定。
本发明实施例提供的方法,提示文本中的投影参数是对点云数据进行投影所应用的参数,提示文本中的反采样参数是对多个第一投影图像进行反采样所应用的参数,提示文本中可以涵盖不同维度的参数信息,进一步提高目标识别的准确率。
基于上述实施例,所述投影参数包括投影数量和/或投影方向。
具体地,投影参数可以包括投影数量和/或投影方向,即,投影参数可以仅包括投影数量,也可以仅包括投影方向,还可以包括投影数量和投影方向,本发明实施例对此不作具体限定。
此处的投影数量是指对点云数据进行投影的次数,可以是一次、两次、三次等。此处的投影方向是指对点云数据进行投影的方向,可以从前、后、上、下、左、右方向中的任一方向进行投影。
本发明实施例提供的方法,投影参数包括投影数量和/或投影方向,投影参数可以涵盖不同维度的参数信息,可以提高目标识别的准确率。
基于上述实施例,步骤140包括:
步骤141,基于图像编码器,对所述多个第二投影图像进行编码,得到图像编码特征;
步骤142,基于文本编码器,对所述多个分类提示文本进行编码,得到多个文本编码特征;
步骤143,基于所述图像编码特征和所述多个文本编码特征之间的相似度,确定所述多个分类提示文本中与所述多个第二投影图像唯一对应的分类提示文本。
具体地,在得到多个第二投影图像和多个分类提示文本后,可以基于图像编码器,对多个第二投影图像进行编码,得到图像编码特征,此处的图像编码器可以使用Resnet(Deep Residual Network,深度残差网络),也可以使用级联结构的多层卷积神经网络(Convolutional Neural Network,CNN),还可以使用深度神经网络(Deep NeuralNetworks,DNN)和多层卷积神经网络的组合结构等,本发明实施例对此不作具体限定。
在一些示例中,基于图像编码器,对多个第二投影图像进行编码之前还包括对多个第二投影图像进行链接(concatenate)。例如,对于两个H*W*1的投影图,H为投影图的高度(Height),W为投影图的宽度(Width),投影图的通道数(Channel)为1。两个投影图经链接变为H*W*2的张量,其中张量的通道数为2。然后基于图像编码器对上述张量进行编码,从而得到图像编码特征。
可以基于文本编码器,对多个分类提示文本进行编码,得到多个文本编码特征,此处的文本编码器可以使用Transformer模型,也可以使用BERT(Bidirectional EncoderRepresentations from Transformer)模型,还可以使用CNN和Transformer模型的组合结构等,本发明实施例对此不作具体限定。
图2是本发明提供的确定多个分类提示文本中与多个第二投影图像唯一对应的分类提示文本的流程示意图,如图2所示,该方法包括:
在得到图像编码特征和多个文本编码特征后,可以计算图像编码特征和多个文本编码特征之间的相似度。
可以理解的是,图像编码特征和文本编码特征之间的相似度,可以反映图像编码特征和文本编码特征之间的匹配情况,图像编码特征和文本编码特征之间的相似度越高,图像编码特征和文本编码特征越匹配;图像编码特征和文本编码特征之间的相似度越低,图像编码特征和文本编码特征越不匹配。
在计算得到图像编码特征和多个文本编码特征之间的相似度后,可以基于图像编码特征和多个文本编码特征之间的相似度,确定多个分类提示文本中与多个第二投影图像唯一对应的分类提示文本,从而完成对点云数据的目标识别。
可以理解的是,可以将图像编码特征和文本编码特征之间的相似度作为多个分类提示文本中与多个第二投影图像唯一对应的分类提示文本的确定依据,具体应用时,可以将图像编码特征和文本编码特征之间的最高的相似度所对应的分类提示文本,作为作为多个分类提示文本中与多个第二投影图像唯一对应的分类提示文本。
本发明实施例提供的方法,将图像编码特征和文本编码特征之间的相似度,作为多个分类提示文本中与所述多个第二投影图像唯一对应的分类提示文本的确定依据,能够保证确定的分类提示文本的可靠性和准确性。
基于上述实施例,所述相似度至少包括所述图像编码特征和所述文本编码特征的内积。
具体地,此处的相似度至少包括图像编码特征和文本编码特征的内积,也可以使用余弦相似度,还可以使用杰卡德相似系数(Jaccard),本发明实施例对此不作具体限定。
基于上述实施例,步骤130包括:
基于低通滤波器对所述多个第一投影图像进行反采样,得到多个第二投影图像。
具体地,图3是本发明提供的多个第一投影图像的示意图,如图3所示,在得到多个第一投影图像后,考虑到多个第一投影图像中的目标的边缘不连续分布,影响了后续目标识别的准确率。
图4是本发明提供的得到多个第二投影图像的流程示意图,如图4所示,基于多个第一投影图像中的目标的边缘不连续分布,可以基于低通滤波器对多个第一投影图像进行反采样,得到多个第二投影图像,此处的反采样是指对多个第一投影图像进行边缘模糊处理,此处的边缘模糊处理可以通过低通滤波器实现,此处的低通滤波器是指容许低于截止频率的信号通过,但高于截止频率的信号不能通过的电子滤波装置,可以包括高斯滤波器,也可以包括巴特沃思(Butterworth)低通滤波器,还可以包括理想滤波器,本发明实施例对此不作具体限定。
本发明实施例提供的方法,基于低通滤波器对多个第一投影图像进行反采样,得到多个第二投影图像,多个第二投影图像中的目标的边缘是连续分布的,后续基于多个第二投影图像进行目标识别,进一步提高了目标识别的准确率。
基于上述实施例,所述低通滤波器包括至少两个高斯滤波器。
具体地,低通滤波器可以包括至少两个高斯滤波器,即,低通滤波器可以包括两个高斯滤波器,也可以包括三个以上的高斯滤波器。
在低通滤波器包括两个高斯滤波器时,信号可以先经过第一高斯滤波器后,再经过第二高斯滤波器,也可以先经过第二高斯滤波器后,再经过第一高斯滤波器,本发明实施例对此不作具体限定。
在低通滤波器包括两个高斯滤波器时,第一高斯滤波器的均值kernel1和方差σ1的参数可以设置为kernel1=3×3,σ1=1,第二个高斯滤波器的均值kernel2和方差σ2的参数可以设置为kernel1=3×3,σ2=0.3,本发明实施例对此不作具体限定。
此外,在低通滤波器包括两个高斯滤波器时,第一高斯滤波器和第二高斯滤波器可以合并成一个高斯滤波器,公式如下:
其中,x为自变量,f(x)为第一高斯滤波器的函数,g(x)为第二高斯滤波器的函数,σf为第一高斯滤波器的标准差,σg为第二高斯滤波器的标准差,μf为第一高斯滤波器的均值,μg为第二高斯滤波器的均值,σfg为第一高斯滤波器和第二高斯滤波器合并时的标准差,μfg为第一高斯滤波器和第二高斯滤波器合并时的均值。
此外,第一高斯滤波器和第二高斯滤波器的标准差的范围可以是(0.3,2)本发明实施例对此不作具体限定。
本发明实施例提供的方法,低通滤波器包括至少两个高斯滤波器,可以提高低通滤波器的反采样效果。
基于上述实施例,所述点云数据是三维数据,所述多个第一投影图像和所述多个第二投影图像是二维数据。
具体地,点云数据是三维数据,多个第一投影图像和多个第二投影图像是二维数据,考虑到点云数据是三维数据,因此需要将三维点云数据投影至二维空间,得到多个第一投影图像,再对多个第一投影图像进行反采样,得到多个第二投影图像。
基于上述任一实施例,图5是本发明提供的目标识别方法的流程示意图之二,如图5所示,该方法包括:
第一步,可以确定待识别的点云数据;
第二步,可以对点云数据进行投影,得到多个第一投影图像;
第三步,可以对多个第一投影图像进行反采样,得到多个第二投影图像;其中,可以基于低通滤波器对多个第一投影图像进行反采样,得到多个第二投影图像,此处的低通滤波器可以包括至少两个高斯滤波器。
第四步,可以基于多个第二投影图像,以及与多个第二投影图像相对应的多个分类提示文本,对点云数据进行目标识别,以确定多个分类提示文本中与多个第二投影图像唯一对应的分类提示文本,其中多个分类提示文本是基于多个分类标签以及提示文本而得到的,提示文本是基于投影参数和/或反采样参数而构建的。其中,基于多个第二投影图像,以及与多个第二投影图像相对应的多个分类提示文本,对点云数据进行目标识别,以确定多个分类提示文本中与多个第二投影图像唯一对应的分类提示文本,包括:
可以基于图像编码器,对多个第二投影图像进行编码,得到图像编码特征;可以基于文本编码器,对多个分类提示文本进行编码,得到多个文本编码特征;可以基于图像编码特征和所述多个文本编码特征之间的相似度,确定多个分类提示文本中与多个第二投影图像唯一对应的分类提示文本。
其中,投影参数是对点云数据进行投影所应用的参数,反采样参数是对多个第一投影图像进行反采样所应用的参数。其中,投影参数可以包括投影数量和/或投影方向。
下面对本发明提供的目标识别装置进行描述,下文描述的目标识别装置与上文描述的目标识别方法可相互对应参照。
图6是本发明提供的目标识别装置的结构示意图,如图6所示,目标识别装置包括:
确定单元610,用于确定待识别的点云数据;
投影单元620,用于对所述点云数据进行投影,得到多个第一投影图像;
反采样单元630,用于对所述多个第一投影图像进行反采样,得到多个第二投影图像;
目标识别单元640,用于基于所述多个第二投影图像,以及与所述多个第二投影图像相对应的多个分类提示文本,对所述点云数据进行目标识别,以确定所述多个分类提示文本中与所述多个第二投影图像唯一对应的分类提示文本,其中所述分类提示文本是基于多个分类标签以及提示文本而得到的,所述提示文本是基于投影参数和/或反采样参数而构建的。
本发明实施例提供的装置,多个第二投影图像是对多个第一投影图像进行反采样得到的,由此得到的多个第二投影图像中的目标的边缘是连续分布的,从而更接近实际采集的自然图像;基于多个第二投影图像,以及与多个第二投影图像相对应的多个分类提示文本,对点云数据进行目标识别,进一步提高了目标识别的准确率,并且分类提示文本是与多个第二投影图像相对应的,可以进一步提高目标识别的准确率。
基于上述任一实施例,所述投影参数是对所述点云数据进行投影所应用的参数,所述反采样参数是对所述多个第一投影图像进行反采样所应用的参数。
基于上述任一实施例,所述投影参数包括投影数量和/或投影方向。
基于上述任一实施例,目标识别单元具体包括:
基于图像编码器,对所述多个第二投影图像进行编码,得到图像编码特征;
基于文本编码器,对所述多个分类提示文本进行编码,得到多个文本编码特征;
基于所述图像编码特征和所述多个文本编码特征之间的相似度,确定所述多个分类提示文本中与所述多个第二投影图像唯一对应的分类提示文本。
基于上述任一实施例,所述相似度至少包括所述图像编码特征和所述文本编码特征的内积。
基于上述任一实施例,反采样单元具体包括:
基于低通滤波器对所述多个第一投影图像进行反采样,得到多个第二投影图像。
基于上述任一实施例,所述低通滤波器包括至少两个高斯滤波器。
基于上述任一实施例,所述点云数据是三维数据,所述多个第一投影图像和所述多个第二投影图像是二维数据。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行目标识别方法,该方法包括:确定待识别的点云数据;对所述点云数据进行投影,得到多个第一投影图像;对所述多个第一投影图像进行反采样,得到多个第二投影图像;基于所述多个第二投影图像,以及与所述多个第二投影图像相对应的多个分类提示文本,对所述点云数据进行目标识别,以确定所述多个分类提示文本中与所述多个第二投影图像唯一对应的分类提示文本,其中所述多个分类提示文本是基于多个分类标签以及提示文本而得到的,所述提示文本是基于投影参数和/或反采样参数而构建的。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的目标识别方法,该方法包括:确定待识别的点云数据;对所述点云数据进行投影,得到多个第一投影图像;对所述多个第一投影图像进行反采样,得到多个第二投影图像;基于所述多个第二投影图像,以及与所述多个第二投影图像相对应的多个分类提示文本,对所述点云数据进行目标识别,以确定所述多个分类提示文本中与所述多个第二投影图像唯一对应的分类提示文本,其中所述多个分类提示文本是基于多个分类标签以及提示文本而得到的,所述提示文本是基于投影参数和/或反采样参数而构建的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的目标识别方法,该方法包括:确定待识别的点云数据;对所述点云数据进行投影,得到多个第一投影图像;对所述多个第一投影图像进行反采样,得到多个第二投影图像;基于所述多个第二投影图像,以及与所述多个第二投影图像相对应的多个分类提示文本,对所述点云数据进行目标识别,以确定所述多个分类提示文本中与所述多个第二投影图像唯一对应的分类提示文本,其中所述多个分类提示文本是基于多个分类标签以及提示文本而得到的,所述提示文本是基于投影参数和/或反采样参数而构建的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (16)
1.一种目标识别方法,其特征在于,包括:
确定待识别的点云数据;
对所述点云数据进行投影,得到多个第一投影图像;
对所述多个第一投影图像进行反采样,得到多个第二投影图像;所述反采样是指对所述多个第一投影图像进行边缘模糊处理;
基于所述多个第二投影图像,以及与所述多个第二投影图像相对应的多个分类提示文本,对所述点云数据进行目标识别,其中所述多个分类提示文本是基于多个分类标签以及提示文本而得到的,所述提示文本是基于投影参数和/或反采样参数而构建的;所述目标识别包括将多个分类提示文本中与所述多个第二投影图像唯一对应的分类提示文本中的分类标签确定为目标识别结果;
所述基于所述多个第二投影图像,以及与所述多个第二投影图像相对应的多个分类提示文本,对所述点云数据进行目标识别,以确定所述多个分类提示文本中与所述多个第二投影图像唯一对应的分类提示文本,包括:
基于图像编码器,对所述多个第二投影图像进行编码,得到图像编码特征;
基于文本编码器,对所述多个分类提示文本进行编码,得到多个文本编码特征;
基于所述图像编码特征和所述多个文本编码特征之间的相似度,确定所述多个分类提示文本中与所述多个第二投影图像唯一对应的分类提示文本。
2.根据权利要求1所述的目标识别方法,其特征在于,所述投影参数是对所述点云数据进行投影所应用的参数,所述反采样参数是对所述多个第一投影图像进行反采样所应用的参数。
3.根据权利要求1所述的目标识别方法,其特征在于,所述投影参数包括投影数量和/或投影方向。
4.根据权利要求1所述的目标识别方法,其特征在于,所述相似度至少包括所述图像编码特征和所述文本编码特征的内积。
5.根据权利要求1至4中任一项所述的目标识别方法,其特征在于,所述对所述多个第一投影图像进行反采样,得到多个第二投影图像,包括:
基于低通滤波器对所述多个第一投影图像进行反采样,得到多个第二投影图像。
6.根据权利要求5所述的目标识别方法,其特征在于,所述低通滤波器包括至少两个高斯滤波器。
7.根据权利要求1至4中任一项所述的目标识别方法,其特征在于,所述点云数据是三维数据,所述多个第一投影图像和所述多个第二投影图像是二维数据。
8.一种目标识别装置,其特征在于,包括:
确定单元,用于确定待识别的点云数据;
投影单元,用于对所述点云数据进行投影,得到多个第一投影图像;
反采样单元,用于对所述多个第一投影图像进行反采样,得到多个第二投影图像;所述反采样是指对所述多个第一投影图像进行边缘模糊处理;
目标识别单元,用于基于所述多个第二投影图像,以及与所述多个第二投影图像相对应的多个分类提示文本,对所述点云数据进行目标识别,其中所述多个分类提示文本是基于多个分类标签以及提示文本而得到的,所述提示文本是基于投影参数和/或反采样参数而构建的;所述目标识别包括将所述多个分类提示文本中与所述多个第二投影图像唯一对应的分类提示文本中的分类标签确定为目标识别结果;
目标识别单元具体用于:
基于图像编码器,对所述多个第二投影图像进行编码,得到图像编码特征;
基于文本编码器,对所述多个分类提示文本进行编码,得到多个文本编码特征;
基于所述图像编码特征和所述多个文本编码特征之间的相似度,确定所述多个分类提示文本中与所述多个第二投影图像唯一对应的分类提示文本。
9.根据权利要求8所述的目标识别装置,其特征在于,所述投影参数是对所述点云数据进行投影所应用的参数,所述反采样参数是对所述多个第一投影图像进行反采样所应用的参数。
10.根据权利要求8所述的目标识别装置,其特征在于,所述投影参数包括投影数量和/或投影方向。
11.根据权利要求8所述的目标识别装置,其特征在于,所述相似度至少包括所述图像编码特征和所述文本编码特征的内积。
12.根据权利要求8-11中任一项所述的目标识别装置,其特征在于,反采样单元具体用于:
基于低通滤波器对所述多个第一投影图像进行反采样,得到多个第二投影图像。
13.根据权利要求12所述的目标识别装置,其特征在于,所述低通滤波器包括至少两个高斯滤波器。
14.根据权利要求8-11中任一项所述的目标识别装置,其特征在于,所述点云数据是三维数据,所述多个第一投影图像和所述多个第二投影图像是二维数据。
15.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述目标识别方法。
16.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述目标识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211314179.9A CN115578707B (zh) | 2022-10-25 | 2022-10-25 | 目标识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211314179.9A CN115578707B (zh) | 2022-10-25 | 2022-10-25 | 目标识别方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115578707A CN115578707A (zh) | 2023-01-06 |
CN115578707B true CN115578707B (zh) | 2023-06-27 |
Family
ID=84587355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211314179.9A Active CN115578707B (zh) | 2022-10-25 | 2022-10-25 | 目标识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115578707B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019028509A (ja) * | 2017-07-25 | 2019-02-21 | 株式会社クオンタム | 検出装置、検出システム、画像処理装置、検出方法、画像処理プログラム、画像表示方法、及び画像表示システム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020179065A1 (ja) * | 2019-03-07 | 2020-09-10 | 日本電気株式会社 | 画像処理装置、画像処理方法及び記録媒体 |
CN112860900B (zh) * | 2021-03-23 | 2022-11-04 | 上海壁仞智能科技有限公司 | 文本分类方法、装置、电子设备及存储介质 |
CN113888689A (zh) * | 2021-11-05 | 2022-01-04 | 上海壁仞智能科技有限公司 | 图像渲染模型训练、图像渲染方法及装置 |
CN114239560B (zh) * | 2021-12-03 | 2024-06-07 | 上海人工智能创新中心 | 三维图像分类方法、装置、设备和计算机可读存储介质 |
CN115100472B (zh) * | 2022-06-20 | 2023-06-27 | 北京达佳互联信息技术有限公司 | 展示对象识别模型的训练方法、装置和电子设备 |
-
2022
- 2022-10-25 CN CN202211314179.9A patent/CN115578707B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019028509A (ja) * | 2017-07-25 | 2019-02-21 | 株式会社クオンタム | 検出装置、検出システム、画像処理装置、検出方法、画像処理プログラム、画像表示方法、及び画像表示システム |
Also Published As
Publication number | Publication date |
---|---|
CN115578707A (zh) | 2023-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110163813B (zh) | 一种图像去雨方法、装置、可读存储介质及终端设备 | |
CN109300151B (zh) | 图像处理方法和装置、电子设备 | |
WO2021063476A1 (en) | Method for training a generative adversarial network, modified image generation module and system for detecting features in an image | |
CN114418030A (zh) | 图像分类方法、图像分类模型的训练方法及装置 | |
CN114187441A (zh) | 接触网部件缺陷检测方法、装置、电子设备及存储介质 | |
CN116912257B (zh) | 基于深度学习的混凝土路面裂缝识别方法及存储介质 | |
CN114821196A (zh) | 零样本图像识别方法及其识别装置、介质与计算机终端 | |
CN112489168A (zh) | 一种图像数据集生成制作方法、装置、设备及存储介质 | |
CN115719335A (zh) | 一种脑血管图像-标签两阶段生成方法、装置及存储介质 | |
CN114972016A (zh) | 图像处理方法、装置、计算机设备、存储介质及程序产品 | |
CN114694074A (zh) | 一种使用图像生成视频的方法、装置以及存储介质 | |
CN115578707B (zh) | 目标识别方法、装置、电子设备及存储介质 | |
CN113850151A (zh) | 一种驾驶员分心行为的识别方法、装置、终端及存储介质 | |
CN114708353B (zh) | 图像重建方法、装置、电子设备与存储介质 | |
CN115063789B (zh) | 基于关键点匹配的3d目标检测方法及装置 | |
CN116204804A (zh) | 多视角聚类方法、装置、电子设备及存储介质 | |
CN112446345B (zh) | 一种低质量三维人脸识别方法、系统、设备和存储介质 | |
CN112651329B (zh) | 一种双流特征学习生成对抗网络的低分辨率船舶分类方法 | |
CN111815658B (zh) | 一种图像识别方法及装置 | |
De Giacomo et al. | Guided sonar-to-satellite translation | |
Chen et al. | Single image de-raining using spinning detail perceptual generative adversarial networks | |
CN113223049B (zh) | 轨迹数据处理方法及装置 | |
WO2023148850A1 (en) | Training apparatus, angle estimation apparatus, training method, and angle estimation method | |
CN116883960B (zh) | 目标检测方法、设备、驾驶设备和介质 | |
CN117765492A (zh) | 车道线检测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230724 Address after: Room 3029, Floor 3, Building A, No. 482, Qianmo Road, Xixing Street, Binjiang District, Hangzhou City, Zhejiang Province, 310052 Patentee after: Hangzhou Biren Technology Development Co.,Ltd. Address before: 201114 room 1302, 13 / F, building 16, 2388 Chenhang Road, Minhang District, Shanghai Patentee before: Shanghai Bilin Intelligent Technology Co.,Ltd. |