CN117541810A - 三维特征提取方法、装置、电子设备以及可读存储介质 - Google Patents
三维特征提取方法、装置、电子设备以及可读存储介质 Download PDFInfo
- Publication number
- CN117541810A CN117541810A CN202311540682.0A CN202311540682A CN117541810A CN 117541810 A CN117541810 A CN 117541810A CN 202311540682 A CN202311540682 A CN 202311540682A CN 117541810 A CN117541810 A CN 117541810A
- Authority
- CN
- China
- Prior art keywords
- model
- point cloud
- feature extraction
- dimensional
- cloud model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 69
- 239000013598 vector Substances 0.000 claims abstract description 76
- 230000006870 function Effects 0.000 claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000009877 rendering Methods 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 abstract description 11
- 230000008569 process Effects 0.000 abstract description 6
- 238000013527 convolutional neural network Methods 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013526 transfer learning Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000010923 batch production Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000009021 linear effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000009022 nonlinear effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种三维特征提取方法、装置、电子设备以及可读存储介质,该方法包括获取起始3D模型的点云模型Pi和多视图;使用DGCNN对经预处理后的所述点云模型Pi进行特征提取,得到点云模型Pi的特征向量Zi;使用预设MVCNN模型对所述多视图进行特征提取,得到512维度的特征向量hi;通过SimCLR损失函数和VICREG损失函数控制特征向量的学习。通过获取起始3D模型的点云模型Pi和多视图,通过使用DGCNN和MVCNN神经网络分别对点云模型Pi和多视图进行特征提取,能够更好地提取3D模型的特征向量,通过自监督学习框架对海量无标签3D模型数据的利用,可以很好地解决模型的泛化性问题,而少量分类数据的微调训练能让模型快速习得基于特定任务预设的分类信息,减少人工标定工作量。
Description
技术领域
本发明属于图像处理技术领域,具体涉及三维特征提取方法、装置、电子设备以及可读存储介质。
背景技术
3D智能检索在工业领域具有重要应用价值,而3D模型特征提取是3D智能检索的核心环节。另外,3D模型特征提取也可应用于模型分类、3D模型局部分割等下游任务。
由于3D模型形状各异,对大量的3D模型进行人为标注成本昂贵。此外,现有的针对标注数据的监督学习存在迁移学习困难和泛化性较弱的问题。
发明内容
为了克服现有技术的不足,本发明提供三维特征提取方法、装置、电子设备以及计算机可读存储介质,以解决现有技术中针对标注数据的监督学习存在迁移学习困难和泛化性较弱的问题。
本发明其中一个实施例提供了一种三维特征提取方法,包括以下步骤:
获取起始3D模型的点云模型Pi和若干张多视图;
将经预处理后的所述点云模型Pi输入至预设DGCNN模型中,得到点云模型Pi的特征向量Zi;
将所述若干张多视图输入至预设MVCNN模型中,得到512维度的特征向量hi;
通过SimCLR损失函数和VICREG损失函数控制特征向量的学习。
在本实施例中,通过获取起始3D模型的点云模型Pi和多视图,并通过使用DGCNN和MVCNN神经网络分别对点云模型Pi和多视图进行特征提取,能够更好地提取3D模型的特征向量,并通过自监督学习机制对海量无标签3D模型数据的利用,可以很好地解决模型的泛化性问题,而少量分类数据的微调训练能让模型快速习得基于特定任务预设的分类信息,减少人工标定工作量。以及通过采用VICREG损失函数作为SimCLR损失函数的补充,有效解决了单独SimCLR损失函数控制产生的模型参数膨胀问题。
在其中一个实施例中,获取起始3D模型的点云模型Pi和若干张多视图,包括:
使用open3d开源工具读取三维CAD模型Mi,得到5000×6点云模型Pi;
使用开源渲染工具对三维CAD模型Mi进行渲染,生成所述若干张多视图。
在其中一个实施例中,使用开源渲染工具对三维CAD模型Mi进行渲染,包括:
在三维CAD模型Mi的三个维度切面以及两个极点对模型进行渲染采样;其中,每个维度切面间隔60°方位角,三个切面维度角切面包括45°、90°和135°。
在其中一个实施例中,将经预处理后的所述点云模型Pi输入至预设DGCNN模型中,得到点云模型Pi的特征向量Zi,包括:
从5000×6点云模型Pi中随机采样2个2048×6点云数据;
对2个2048×6点云数据进行增强处理,得到点云模型和点云模型/>
使用DGCNN对点云模型和点云模型/>进行特征提取,分别得到特征向量/>与特征向量/>
根据特征向量与特征向量/>的均值,确定点云模型Pi的特征向量Zi。
在其中一个实施例中,对2个2048×6点云数据进行增强处理,包括:
对2个2048×6点云数据进行随机旋转和/或拉伸处理。
在其中一个实施例中,通过SimCLR损失函数和VICREG损失函数控制特征向量的学习,包括:
使用SimCLR损失函数和VICREG损失函数控制特征向量与特征向量/>趋近;
使用SimCLR损失函数和VICREG损失函数控制特征向量Zi与特征向量hi趋近。
在其中一个实施例中,将所述若干张多视图输入至预设MVCNN模型中,包括:
构建模型分层分类框架,针对每个分类收集若干个三维模型,形成具有分类标签的微调训练数据;
使用经自监督机制预训练的MVCNN模型,并通过微调训练数据进行分层分类微调训练,得到预设MVCNN模型;
使用所述预设MVCNN模型对所述若干张多视图进行特征提取。
本发明其中一个实施例还提供了一种三维特征提取装置,包括:
获取模块,用于获取起始3D模型的点云模型Pi和若干张多视图;
第一输入模块,用于将经预处理后的所述点云模型Pi输入至预设DGCNN模型中,得到点云模型Pi的特征向量Zi;
第二输入模块,用于将所述若干张多视图输入至预设MVCNN模型中,得到512维度的特征向量hi;
控制模块,用于通过SimCLR损失函数和VICREG损失函数控制特征向量的学习。
在本实施例中,三维特征提取方法的优势和有益效果,已在上述进行阐述,在此不再赘述,且由于三维特征提取装置使用三维特征提取方法,其三维特征提取装置同样具有相同的优势和有益效果。
本发明其中一个实施例还提供了一种可读存储介质,可读存储介质中存储有计算机程序,计算机程序包括程序指令,程序指令当被电子设备的处理器执行时,使处理器执行如上任意一种所述的三维特征提取方法的步骤。
本发明其中一个实施例还提供了一种电子设备,包括:处理器和存储器,存储器用于存储计算机程序代码,计算机程序代码包括计算机指令,当处理器执行所述计算机指令时,电子设备执行如上任意一种所述的三维特征提取方法的步骤。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明其中一实施例提供的三维特征提取方法的流程示意图;
图2为图1中S300的子流程示意图;
图3为本发明其中一实施例提供的三维特征提取方法的图像化流程示意图;
图4为本发明其中一实施例提供的三维特征提取方法中的分层分类流程示意图;
图5为本发明其中一实施例提供的电子设备的工作原理示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……),则该方向性指示仅用于解释在某一特定姿态下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,若本发明实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,若全文中出现的“和/或”或者“及/或”,其含义包括三个并列的方案,以“A和/或B”为例,包括A方案、或B方案、或A和B同时满足的方案。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
3D智能检索在工业领域具有重要应用价值,而3D模型特征提取是3D智能检索的核心环节。另外,3D模型特征提取也可应用于模型分类、3D模型局部分割等下游任务。
由于3D模型形状各异,对大量的3D模型进行人为标注成本昂贵。此外,现有的针对标注数据的监督学习存在迁移学习困难,泛化性较弱的问题。并且随着海量三维模型出现,现有的监督学习机制无法充分利用新出现的海量无标签数据,无法满足新形势下三维模型特征提取技术的要求。
自监督学习,是一种由无监督学习通往监督学习的桥梁,通过自动构建数据标签,实现了从无监督学习到监督学习的转化。例如:随机隐藏图像中的局部图块,学习充填图像中的缺失部分。
目前,自监督学习机制被有效应用到图像处理和自然语言处理的任务当中,而在3D模型几何特征提取任务上的自监督机制研究相对较少,主要是基于点云3D模型的随机变换,产生相应数据对。
根据现有的3D模型特征提取技术研究,基于多视图输入的特征提取技术依然领先于其它基于体素、点云输入的特征提取技术。上述自监督学习框架,主要依赖于点云模型进行特征向量提取,单张图片特征提取分支辅助点云模型特征学习。
本发明基于CrossPoint框架提出以多视图输入分支替代现有的单张图片分支,能更加全面地展现3D模型的几何特征。通过本发明提出基于多视图和点云的自监督学习+少量多视图标签数据微调训练的机制能很好地提取3D模型的特征向量;并通过海量无标签3D模型数据的利用,可以很好地解决模型的泛化性问题,而少量分类数据的微调训练能让模型快速习得基于特定任务预设的分类信息,能够极大减少人工标定工作量。基于该类3D模型特征提取方法能有效提升3D模型检索工具的检索的精度。
请参阅图1-图5,本发明其中一个实施例提供了一种三维特征提取方法,包括以下步骤:
S100、获取起始3D模型的点云模型Pi和若干张多视图;
在其中一个实施例中,获取起始3D模型的点云模型Pi和若干张多视图,包括:
S110、使用open3d开源工具读取三维CAD模型Mi,得到5000×6点云模型Pi;
S120、使用开源渲染工具对三维CAD模型Mi进行渲染,生成所述若干张多视图。在其中一个实施例中,使用开源渲染工具对三维CAD模型Mi进行渲染,包括:
S121、在三维CAD模型Mi的三个维度切面以及两个极点进行渲染采样,每个维度切面间隔60°方位角;其中,三个切面维度角包括45°、90°和135°。
基于多视图和点云输入的自监督学习框架:
本发明采用如图3的自监督学习流程框架,包括:点云特征向量提取和多视图特征向量提取2个分支。采用SimCLR损失函数和VICREG损失函数控制,驱使点云特征向量与无限接近,跨模态特征向量Zi与hi无限接近。从而实现在无分类标签的前提下,从三维模型中提取几何特征信息。具体如下:
S200、将经预处理后的所述点云模型Pi输入至预设DGCNN模型中,得到点云模型Pi的特征向量Zi;
在其中一个实施例中,将经预处理后的所述点云模型Pi输入至预设DGCNN模型中,得到点云模型Pi的特征向量Zi,包括:
S210、从5000×6点云模型Pi中随机采样2个2048×6点云数据;
S220、对2个2048×6点云数据进行增强处理,得到点云模型和点云模型/>
在其中一个实施例中,对2个2048×6点云数据进行增强处理,包括:
对2个2048×6点云数据进行随机旋转和/或拉伸处理。
S230、使用DGCNN对点云模型和点云模型/>进行特征提取,分别得到特征向量与特征向量/>
S240、根据特征向量与特征向量/>的均值,确定点云模型Pi的特征向量Zi。
在本实施例中,具体的,点云特征提取神经网络采用动态图卷积神经网络(DGCNN):首先,采用open3d开源工具从起始3D模型中提取5000个点数据,每个点包含:三维坐标和三维法向量信息。再从5000个点数据中分别随机采样2048个点数据,经随机旋转,拉伸处理形成和/>两套点云模型。通过采用DGCNN实现点云模型的特征提取,分别得到特征向量/>与特征向量/>最后根据特征向量/>与特征向量/>的均值,确定点云模型Pi的特征向量Zi。
请参阅图2,S300、将所述若干张多视图输入至预设MVCNN模型中,得到512维度的特征向量hi;
在其中一个实施例中,将所述若干张多视图输入至预设MVCNN模型中,包括:
S310、根据入库模型的功能分类表构建模型分层分类框架,针对每个分类收集若干个三维模型,形成具有分类标签的微调训练数据;
S320、使用经自监督机制预训练的MVCNN模型,并在所述微调训练数据内进行分层分类微调训练,得到预设MVCNN模型;
S330、使用所述预设MVCNN模型对所述若干张多视图进行特征提取。
在本实施例中,为了确保图片分支的输入能够更全面展示三维模型,本方案采用开源渲染工具对起始3D模型进行渲染,生成20张环视图,作为多视图分支的输入信息。本实施例中开源渲染工具,可以采用Blender或者VTK。
多视图数据特征向量提取采用MVCNN神经网络,最终得到512维度的特征向量hi。
基于多视图分层分类任务的微调训练:
本设计发明在实际工业资源库运营过程中,根据入库模型的功能分类表(约3000个二级类),构建一个较精细的模型分层分类框架,每个细分类里面,收集约20个三维模型,形成约6万套具有分类标签的微调训练数据。
装载经自监督机制预训练的MVCNN模型,在微调训练数据内进行分层分类微调训练。
微调好后的MVCNN模型可以用来提取三维模型的512维度特征向量。
其中,使用经自监督机制预训练的MVCNN模型,并在所述微调训练数据内进行分层分类微调训练,得到预设MVCNN模型,具体的,包括以下步骤:
收集大量的多视图数据集:首先,需要收集包含多视图数据的大规模数据集。这些数据通过从不同角度拍摄对象或使用多个相机捕获图像。确保每个样本的不同视角图像以及对应的标签都是可用的。根据需要,对于数据集中的每个样本,需要进行预处理。这可能包括调整图像大小、裁剪、归一化等操作,以便使输入数据适合网络模型的要求。
设计自监督任务:根据需要设计一个自监督任务,该任务可以使神经网络从无标签数据中学习有意义的特征。常用的自监督任务包括图像旋转、颜色变换、对比学习以及通过设计多视图特征提取和点云特征提取2条支路,并通过迫使2条支路学到的特征向量趋近,从而构建出一个跨模态的自监督学习框架等。
构建MVCNN架构:根据数据集和任务需求,构建适合的MVCNN网络架构。通常,MVCNN由多个视图专用的卷积神经网络(CNN)和融合层组成。根据需要,该模型通常还可以由多个卷积层、池化层和全连接层组成,用于从不同视角的图像中提取特征。
构建DGCNN架构:根据数据集和任务需求,构建DGCNN网络架构。通常,DGCNN由多层的边卷积神经网络层(EdgeConv)及后续池化层和全连接层组成。而EdgeConv,通常由KNN图层、池化层和全连接层组成,用于从点云数据模型中提取特征。
进行自监督预训练:使用收集到的多视图、点云数据集和设计好的自监督框架,对MVCNN和DGCNN进行预训练。在预训练阶段,通过最大化自监督任务的目标函数来优化网络参数。
微调和进一步训练:在完成自监督预训练后,可以使用带标签的数据集(即微调训练数据)对MVCNN进行微调和进一步训练。这样可以将网络参数优化到更适合具体任务的状态。
评估和应用:最后,使用测试数据集对训练好的MVCNN模型进行评估,并根据任务需求将其应用于特定的应用场景中。得到预设MVCNN模型。
预测新样本:一旦模型经过充分训练并通过评估,可以使用该模型来预测新的多视角图像样本的类别。将新样本输入到模型中,根据模型输出的概率值或类别标签确定其所属类别。
其中,512维度的特征向量是指一个具有512个元素的向量。在机器学习和深度学习中,特征向量是用来表示数据的重要特征的数值向量。每个元素代表了一个特征的值或权重。
当提到512维度的特征向量时,通常表示该向量包含512个特征,并且每个特征都以某种方式对输入数据进行描述。这些特征可以由模型自动学习,也可以通过人工设计或预定义的方式生成。
特征向量经常用于将高维数据映射到低维空间,从而方便数据处理和分析。例如,在图像识别任务中,可以使用卷积神经网络(CNN)提取图像的特征向量,这些向量可以表示图像的视觉特征。同样,在自然语言处理任务中,可以使用词嵌入模型生成文本的特征向量,这些向量可以表示单词或句子的语义特征。
512维度的特征向量的维度大小可能是根据具体任务、模型设计或数据特性等因素确定的。维度的选择可以影响特征的表达能力和计算效率,需要根据具体应用场景和需求进行权衡和调整。
S400、通过SimCLR损失函数和VICREG损失函数控制特征向量的学习。
在本实施例中,通过获取起始3D模型的点云模型Pi和多视图,并通过使用DGCNN和MVCNN神经网络分别对点云模型Pi和多视图进行特征提取,能够更好地提取3D模型的特征向量,并通过MVCNN神经网络对海量无标签3D模型数据的利用,可以很好地解决模型的泛化性问题,而少量分类数据的微调训练能让模型快速习得基于特定任务预设的分类信息,减少人工标定工作量。以及通过采用VICREG损失函数作为SimCLR损失函数的补充,有效解决了单独SimCLR损失函数控制产生的模型参数膨胀问题。
在其中一个实施例中,通过SimCLR损失函数和VICREG损失函数控制特征向量的学习,包括:
使用SimCLR损失函数和VICREG损失函数控制特征向量与特征向量/>趋近;
使用SimCLR损失函数和VICREG损失函数控制特征向量Zi与特征向量hi趋近。
本方案采用同时采用SimCLR损失函数和VICREG损失函数,来控制特征向量的学习。其中,
SimCLR损失函数确保与/>无限靠近,跨模态特征向量Zi与hi的无限靠近,Zi与同一批次的其它模型的Zj与hj尽量远离。
另外,VICREG损失函数能确保同一学习批次中不同模型的特征向量在相同维度上方差的最大化,防止所有3D模型的特征向量趋同,导致模型训练垮塌。
请参阅图3,主要描述了基于多视图和点云的三维模型特征提取自监督学习流程。
该流程框架包括:点云特征向量提取和多视图特征向量提取2个分支。
自监督学习框架批量处理N=10个三维模型。
点云分支采用open3d开源工具读取三维CAD模型Mi得到5000×6点云模型Pi,再从中随机采样2个2048×6点云数据,经随机旋转、伸缩,形成点云模型和/>采用动态图卷积神经网络DGCNN实现点云模型的特征提取,分别得到特征向量/>与/>求/>与/>的均值,得到代表点云Pi的特征向量Zi。
多视图分支采用开源渲染工具从三维CAD模型Mi渲染生成20张多视图(45°,90°,135°三个纬度切面,每个切面间隔60°方位角进行渲染采样,上、下两极分别设一个采样点,即得到两个极点)。多视图分别经同一VGG11神经网络(预训练)处理,得到20个特征向量,再经view pooling,全连接层处理,得到512维特征向量hi。其中,多个视图分别经过同一个预训练的VGG11神经网络处理后,得到了20个特征向量。然后,通过进行view pooling(视图汇聚)操作,将这些特征向量组合成一个单一的特征表示。最后,通过全连接层处理,将这个汇聚后的特征表示映射为512维的特征向量。
View pooling是将多个视图的特征向量进行汇聚的操作,以获得整体的特征表示。具体的view pooling方法可以根据具体的需求和任务来选择,例如,可以使用maxpooling、mean pooling等常见的操作。
随后,通过全连接层将汇聚后的特征表示映射到512维的特征向量空间。全连接层通常包括一个或多个具有训练参数的线性变换,以及激活函数用于引入非线性性质。这样的全连接层可以进一步处理和提取特征,以生成更高层次的表达能力。
采样SimCLR损失函数和VICREG损失函数控制特征向量与/>趋近,跨模态特征向量Zi与hi趋近,并防止特征参数膨胀。
请参阅图4,主要描述了基于多视图分层分类任务的微调训练流程。
本发明依据现实工业资源库构建的三维模型数据二级分类框架(C1个一级类,C2个二级类),针对每个二级类收集约20个模型,用于模型微调训练。
三维模型渲染生成的20张多视图经自监督预训练的多视图特征提取神经网络提取512维特征向量h,经2个全连接层分支,分别得到一级类向量分布C1和二级类向量分布C2。采用类似深度分层分类模型(DHC)的分层损失函数,驱使多视图特征提取神经网络习得人工标定的分层分类信息。
本发明的优点如下:
(1)在图片分支中采用20张多视图替代单张图片,让图片分支尽可能全面地表征三维模型,提升整体流程框架所学三维模型特征向量的有效性。
(2)采用VICREG损失函数作为SimCLR损失函数的补充,有效的解决了单独SimCLR损失函数控制产生的模型参数膨胀问题。
(3)本发明提出了基于分层分类的微调训练机制,适用于工业背景下,分类标签种类多(>1000类)且具有分层特性的分类任务,能够有效提升模型微调训练的效果。
(4)本发明采用少量标签数据微调模型,能有效提升三维模型提取特征向量的检索精度,验证了技术路线的有效性。
本发明其中一个实施例还提供了一种三维特征提取装置,包括:
获取模块,用于获取起始3D模型的点云模型Pi和多视图;
第一输入模块,用于将经预处理后的所述点云模型Pi输入至预设DGCNN模型中,得到点云模型Pi的特征向量Zi;
第二输入模块,用于将所述若干张多视图输入至预设MVCNN模型中,得到512维度的特征向量hi;
控制模块,用于通过SimCLR损失函数和VICREG损失函数控制特征向量的学习。
在本实施例中,三维特征提取方法的优势和有益效果,已在上述进行阐述,在此不再赘述,且由于三维特征提取装置使用三维特征提取方法,其三维特征提取装置同样具有相同的优势和有益效果。
本发明其中一个实施例还提供了一种可读存储介质,可读存储介质中存储有计算机程序,计算机程序包括程序指令,程序指令当被电子设备的处理器执行时,使处理器执行如上任意一种所述的三维特征提取方法的步骤。
本发明其中一个实施例还提供了一种电子设备,包括:处理器和存储器,存储器用于存储计算机程序代码,计算机程序代码包括计算机指令,当处理器执行所述计算机指令时,电子设备执行如上任意一种所述的三维特征提取方法的步骤。
请参阅图5,图5为本发明实施例提供的一种电子设备的硬件结构示意图。
该电子设备2包括处理器21,存储器22,输入装置23,输出装置24。该处理器21、存储器22、输入装置23和输出装置24通过连接器相耦合,该连接器包括各类接口、传输线或总线等等,本发明实施例对此不作限定。应当理解,本发明的各个实施例中,耦合是指通过特定方式的相互联系,包括直接相连或者通过其他设备间接相连,例如可以通过各类接口、传输线、总线等相连。
处理器21可以是一个或多个图形处理器(graphics processing unit,GPU),在处理器21是一个GPU的情况下,该GPU可以是单核GPU,也可以是多核GPU。可选的,处理器21可以是多个GPU构成的处理器组,多个处理器之间通过一个或多个总线彼此耦合。可选的,该处理器还可以为其他类型的处理器等等,本发明实施例不作限定。
存储器22可用于存储计算机程序指令,以及用于执行本发明方案的程序代码在内的各类计算机程序代码。可选地,存储器包括但不限于是随机存储记忆体(random accessmemory,RAM)、只读存储器(read-only memory,ROM)、可擦除可编程只读存储器(erasableprogrammable read only memory,EPROM)、或便携式只读存储器(compact disc read-only memory,CD-ROM),该存储器用于相关指令及数据。
输入装置23用于输入数据和/或信号,以及输出装置24用于输出数据和/或信号。输出装置23和输入装置24可以是独立的器件,也可以是一个整体的器件。
可理解,本发明实施例中,存储器22不仅可用于存储相关指令,本发明实施例对于该存储器中具体所存储的数据不作限定。
可以理解的是,图5仅仅示出了一种电子设备的简化设计。在实际应用中,电子设备还可以分别包含必要的其他元件,包含但不限于任意数量的输入/输出装置、处理器、存储器等,而所有可以实现本发明实施例的视频解析装置都在本发明的保护范围之内。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。所属领域的技术人员还可以清楚地了解到,本发明各个实施例描述各有侧重,为描述的方便和简洁,相同或类似的部分在不同实施例中可能没有赘述,因此,在某一实施例未描述或未详细描述的部分可以参见其他实施例的记载。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序待封口件的形式实现。所述计算机程序待封口件包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,数字通用光盘(digitalversatiledisc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:只读存储器(read-only memory,ROM)或随机存储存储器(random access memory,RAM)、磁碟或者光盘等各种可存储程序代码的介质。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。
Claims (10)
1.一种三维特征提取方法,其特征在于,包括以下步骤:
获取起始3D模型的点云模型Pi和若干张多视图;
将经预处理后的所述点云模型Pi输入至预设DGCNN模型中,得到点云模型Pi的特征向量Zi;
将所述若干张多视图输入至预设MVCNN模型中,得到512维度的特征向量hi;
通过SimCLR损失函数和VICREG损失函数控制特征向量的学习。
2.如权利要求1所述的三维特征提取方法,其特征在于,获取起始3D模型的点云模型Pi和若干张多视图,包括:
使用open3d开源工具读取三维CAD模型Mi,得到5000×6点云模型Pi;
使用开源渲染工具对三维CAD模型Mi进行渲染,生成所述若干张多视图。
3.如权利要求2所述的三维特征提取方法,其特征在于,使用开源渲染工具对三维CAD模型Mi进行渲染,包括:
在三维CAD模型Mi的三个维度切面以及两个极点进行渲染采样;其中,每个维度切面间隔60°方位角,三个切面维度角包括45°、90°和135°。
4.如权利要求2所述的三维特征提取方法,其特征在于,将经预处理后的所述点云模型Pi输入至预设DGCNN模型中,得到点云模型Pi的特征向量Zi,包括:
从5000×6点云模型Pi中随机采样2个2048×6点云数据;
对2个2048×6点云数据进行增强处理,得到点云模型和点云模型/>
使用DGCNN对点云模型和点云模型/>进行特征提取,分别得到特征向量/>与特征向量/>
根据特征向量与特征向量/>的均值,确定点云模型Pi的特征向量Zi。
5.如权利要求4所述的三维特征提取方法,其特征在于,所述对2个2048×6点云数据进行增强处理,包括:
对2个2048×6点云数据进行随机旋转和/或拉伸处理。
6.如权利要求4所述的三维特征提取方法,其特征在于,所述通过SimCLR损失函数和VICREG损失函数控制特征向量的学习,包括:
使用SimCLR损失函数和VICREG损失函数控制特征向量与特征向量/>趋近;
使用SimCLR损失函数和VICREG损失函数控制特征向量Zi与特征向量hi趋近。
7.如权利要求1所述的三维特征提取方法,其特征在于,将所述若干张多视图输入至预设MVCNN模型中,包括:
构建模型分层分类框架,针对每个分类收集若干个三维模型,形成具有分类标签的微调训练数据;
使用经自监督机制预训练的MVCNN模型,并通过微调训练数据进行分层分类微调训练,得到预设MVCNN模型;
使用所述预设MVCNN模型对所述若干张多视图进行特征提取。
8.一种三维特征提取装置,其特征在于,包括:
获取模块,用于获取起始3D模型的点云模型Pi和若干张多视图;
第一输入模块,用于将经预处理后的所述点云模型Pi输入至预设DGCNN模型中,得到点云模型Pi的特征向量Zi;
第二输入模块,用于将所述若干张多视图输入至预设MVCNN模型中,得到512维度的特征向量hi;
控制模块,用于通过SimCLR损失函数和VICREG损失函数控制特征向量的学习。
9.一种电子设备,包括:处理器和存储器,其特征在于,存储器用于存储计算机程序代码,计算机程序代码包括计算机指令,当处理器执行所述计算机指令时,电子设备执行如权利要求1-7任意一种所述的三维特征提取方法的步骤。
10.一种可读存储介质,可读存储介质中存储有计算机程序,其特征在于,计算机程序包括程序指令,程序指令当被电子设备的处理器执行时,使处理器执行如权利要求1-7任意一种所述的三维特征提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311540682.0A CN117541810A (zh) | 2023-11-17 | 2023-11-17 | 三维特征提取方法、装置、电子设备以及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311540682.0A CN117541810A (zh) | 2023-11-17 | 2023-11-17 | 三维特征提取方法、装置、电子设备以及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117541810A true CN117541810A (zh) | 2024-02-09 |
Family
ID=89782044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311540682.0A Pending CN117541810A (zh) | 2023-11-17 | 2023-11-17 | 三维特征提取方法、装置、电子设备以及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117541810A (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111695494A (zh) * | 2020-06-10 | 2020-09-22 | 上海理工大学 | 一种基于多视角卷积池化的三维点云数据分类方法 |
CN112270762A (zh) * | 2020-11-18 | 2021-01-26 | 天津大学 | 一种基于多模态融合的三维模型检索方法 |
CN112347932A (zh) * | 2020-11-06 | 2021-02-09 | 天津大学 | 一种点云-多视图融合的三维模型识别方法 |
CN113128591A (zh) * | 2021-04-14 | 2021-07-16 | 中山大学 | 基于自监督学习的旋转鲁棒的点云分类方法 |
CN114579737A (zh) * | 2021-12-29 | 2022-06-03 | 航天信息股份有限公司 | 一种建立短文本多层级分类模型的方法和系统 |
CN115599910A (zh) * | 2022-09-02 | 2023-01-13 | 三螺旋大数据科技(昆山)有限公司(Cn) | 一种企业三级行业多标签分类方法 |
CN115731451A (zh) * | 2022-11-29 | 2023-03-03 | 上海高德威智能交通系统有限公司 | 模型训练方法、装置、电子设备及存储介质 |
CN115757857A (zh) * | 2023-01-09 | 2023-03-07 | 吉林大学 | 一种水下三维跨模态联合检索方法、存储介质和电子设备 |
CN115953586A (zh) * | 2022-10-11 | 2023-04-11 | 香港中文大学(深圳)未来智联网络研究院 | 跨模态知识蒸馏的方法、系统、电子装置和存储介质 |
CN116188894A (zh) * | 2022-12-23 | 2023-05-30 | 上海人工智能创新中心 | 基于神经渲染的点云预训练方法、系统、设备及介质 |
WO2023160312A1 (zh) * | 2022-02-23 | 2023-08-31 | 厦门市美亚柏科信息股份有限公司 | 基于自监督学习的行人重识别方法、装置、设备及存储介质 |
CN116958957A (zh) * | 2023-07-27 | 2023-10-27 | 网易(杭州)网络有限公司 | 多模态特征提取网络的训练方法及三维特征表示方法 |
-
2023
- 2023-11-17 CN CN202311540682.0A patent/CN117541810A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111695494A (zh) * | 2020-06-10 | 2020-09-22 | 上海理工大学 | 一种基于多视角卷积池化的三维点云数据分类方法 |
CN112347932A (zh) * | 2020-11-06 | 2021-02-09 | 天津大学 | 一种点云-多视图融合的三维模型识别方法 |
CN112270762A (zh) * | 2020-11-18 | 2021-01-26 | 天津大学 | 一种基于多模态融合的三维模型检索方法 |
CN113128591A (zh) * | 2021-04-14 | 2021-07-16 | 中山大学 | 基于自监督学习的旋转鲁棒的点云分类方法 |
CN114579737A (zh) * | 2021-12-29 | 2022-06-03 | 航天信息股份有限公司 | 一种建立短文本多层级分类模型的方法和系统 |
WO2023160312A1 (zh) * | 2022-02-23 | 2023-08-31 | 厦门市美亚柏科信息股份有限公司 | 基于自监督学习的行人重识别方法、装置、设备及存储介质 |
CN115599910A (zh) * | 2022-09-02 | 2023-01-13 | 三螺旋大数据科技(昆山)有限公司(Cn) | 一种企业三级行业多标签分类方法 |
CN115953586A (zh) * | 2022-10-11 | 2023-04-11 | 香港中文大学(深圳)未来智联网络研究院 | 跨模态知识蒸馏的方法、系统、电子装置和存储介质 |
CN115731451A (zh) * | 2022-11-29 | 2023-03-03 | 上海高德威智能交通系统有限公司 | 模型训练方法、装置、电子设备及存储介质 |
CN116188894A (zh) * | 2022-12-23 | 2023-05-30 | 上海人工智能创新中心 | 基于神经渲染的点云预训练方法、系统、设备及介质 |
CN115757857A (zh) * | 2023-01-09 | 2023-03-07 | 吉林大学 | 一种水下三维跨模态联合检索方法、存储介质和电子设备 |
CN116958957A (zh) * | 2023-07-27 | 2023-10-27 | 网易(杭州)网络有限公司 | 多模态特征提取网络的训练方法及三维特征表示方法 |
Non-Patent Citations (2)
Title |
---|
QINGLAI WEI 等: "EiHi Net: Out-of-Distribution Generalization Paradigm", 《ARXIV:2209.14946V2》, 15 November 2022 (2022-11-15) * |
杨军 等: "采用深度级联卷积神经网络的三维点云识别与分割", 《光学精密工程》, no. 05, 13 May 2020 (2020-05-13), pages 196 - 208 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7373554B2 (ja) | クロスドメイン画像変換 | |
US11810326B2 (en) | Determining camera parameters from a single digital image | |
CN112085840B (zh) | 语义分割方法、装置、设备及计算机可读存储介质 | |
CN115222896B (zh) | 三维重建方法、装置、电子设备及计算机可读存储介质 | |
Zhao et al. | PCA dimensionality reduction method for image classification | |
CN114037699B (zh) | 一种病理图像分类方法、设备、系统及存储介质 | |
CN117218300B (zh) | 三维模型的构建方法、三维构建模型的训练方法及装置 | |
CN114187506A (zh) | 视点意识的动态路由胶囊网络的遥感图像场景分类方法 | |
CN114283152A (zh) | 图像处理、图像处理模型的训练方法、装置、设备及介质 | |
CN109615577A (zh) | 基于卷积网络的高光谱图像超分辨处理方法 | |
Yin et al. | [Retracted] Virtual Reconstruction Method of Regional 3D Image Based on Visual Transmission Effect | |
CN116188396A (zh) | 一种图像分割方法、装置、设备及介质 | |
CN117541810A (zh) | 三维特征提取方法、装置、电子设备以及可读存储介质 | |
CN113408651B (zh) | 基于局部判别性增强的无监督三维物体分类方法 | |
CN116258937A (zh) | 基于注意力机制的小样本分割方法、装置、终端及介质 | |
CN113763315B (zh) | 玻片图像的信息获取方法、装置、设备及介质 | |
CN112132743B (zh) | 可自适应光照的视频换脸方法 | |
Guan et al. | Synthetic region screening and adaptive feature fusion for constructing a flexible object detection database | |
CN116758318A (zh) | 基于隐式神经表征的无监督新类别发现方法、装置及设备 | |
CN118071676A (zh) | 基于改进Yolov8的输电线路红外目标检测方法及系统 | |
Tang et al. | Furniture-based system for extracting segmentation and fast reconstruction of single photo | |
CN116309098A (zh) | 一种基于对称特征保留的真实场景点云补全方法 | |
Zhang | Geometry-Aided 3D Image Processing | |
CN114898092A (zh) | 一种用于空间目标同步检测与分割的方法 | |
DE102023117605A1 (de) | Mehrdimensionale Bildbearbeitung aus einem Eingabebild |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |