CN116152608A - 基于点云多模态的对比学习预训练方法、装置及介质 - Google Patents
基于点云多模态的对比学习预训练方法、装置及介质 Download PDFInfo
- Publication number
- CN116152608A CN116152608A CN202310332012.3A CN202310332012A CN116152608A CN 116152608 A CN116152608 A CN 116152608A CN 202310332012 A CN202310332012 A CN 202310332012A CN 116152608 A CN116152608 A CN 116152608A
- Authority
- CN
- China
- Prior art keywords
- point cloud
- cloud
- feature set
- similarity
- dimensional point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及人工智能技术领域,提供了一种基于点云多模态的对比学习预训练方法、装置及介质,其中,方法包括:通过获取预训练模型的训练集,并对所述三维点云添加噪声以获取到对比模态,以提取所述对比模态的第二云空间特征集,再根据预设的相似度算法计算所述第一云空间特征集与所述第二云空间特征集的相似度,最后根据所述相似度调整所述预训练模型中的参数,并重新计算相似度,直至得到的相似度大于预设相似度值,从而得到目标模型。本发明的有益效果:实现了利用三维点云的数据对比训练神经网络模型,使用点云模态的对比学习空间感知的视觉表示,可以进一步提高神经网络模型在三维点云上的识别精度,适用于电子交易的网络视频的场景识别中。
Description
技术领域
本发明涉及人工智能技术领域,特别涉及一种基于点云多模态的对比学习预训练方法、装置及介质。
背景技术
对比学习属于无监督或者自监督学习,最近在许多半监督计算机视觉应用中取得了显著进步,可以用于金融领域的电子商务的场景识别,包括图像分类、对象检测和分割等,目前无监督或者自监督学习模型的效果已超过了有监督模型。
然而,现有的对比学习预训练方法主要是基于二维图像域进行训练,由于二维图像和三维点云空间之间的差异,大多数预训练模型无法感知空间信息,无法将三维点云的数据进行对比训练,进而导致无法利用三维点云的数据训练神经网络模型。
发明内容
本发明的主要目的为提供一种基于点云多模态的对比学习预训练方法、装置及介质,旨在解决现有的对比学习预训练方法无法利用三维点云的数据训练神经网络模型的问题。
本发明提供了一种基于点云多模态的对比学习预训练方法,包括:
获取预训练模型的训练集,所述训练集包括多个三维点云,并提取各个所述三维点云的第一云空间特征集;
对所述三维点云添加噪声以获取到对比模态;
提取所述对比模态的第二云空间特征集;
根据预设的相似度算法计算所述第一云空间特征集与所述第二云空间特征集的相似度;
根据所述相似度调整所述预训练模型中的参数,并重新计算相似度,直至得到的相似度大于预设相似度值,从而得到目标模型。
进一步地,所述对所述三维点云添加噪声以获取到对比模态的步骤,包括:
对所述三维点云进行刚性变换,得到对比模态;其中,所述刚性变换包括对所述三维点云进行平移、旋转以及放缩中的一种或者多种变换。
进一步地,所述提取所述对比模态的第二云空间特征集的步骤,包括:
通过预设的匈牙利算法对所述对比模态以及所述三维点云进行位置的匹配;
基于匹配的位置,采用提取三维点云的第一云空间特征集对应的编码器,提取所述对比模态的第二云空间特征集。
进一步地,所述对所述三维点云添加噪声以获取到对比模态的步骤,包括:
将所述三维点云按照预设投影方向进行投影,得到所述三维点云中对应的点云图像;其中,所述点云图像为所述对比模态。
进一步地,所述提取所述对比模态的第二云空间特征集的步骤,包括:
通过预设图片特征提取器提取所述点云图像中的第一图像特征集;
根据公式fr=f<proj(lα,Ct)>计算所述第一图像特征集与所述第一云空间特征集中各个特征的匹配关系;其中,fr表示第一图像特征集中的第r个特征,Ct表示三维点云中第t个特征的投影矩阵,lα表示第一云空间特征集,proj(lα,Ct)表示第一云空间特征集中第t个特征的投影矩阵的各个点分别对应的坐标,<.>代表插值函数;
根据所述匹配关系对所述第一图像特征集中的各个图像特征进行排序,得到第二云空间特征。
进一步地,所述根据预设的相似度算法计算所述第一云空间特征集与所述第二云空间特征集的相似度的步骤,包括:
根据公式:
本发明还提供了一种基于点云多模态的对比学习预训练装置,包括:
获取模块,用于获取预训练模型的训练集,所述训练集包括多个三维点云,并提取各个所述三维点云的第一云空间特征集;
添加模块,用于对所述三维点云添加噪声以获取到对比模态;
提取模块,用于提取所述对比模态的第二云空间特征集;
计算模块,用于根据预设的相似度算法计算所述第一云空间特征集与所述第二云空间特征集的相似度;
调整模块,用于根据所述相似度调整所述预训练模型中的参数,并重新计算相似度,直至得到的相似度大于预设相似度值,从而得到目标模型。
进一步地,所述添加模块,包括:
变换子模块,用于对所述三维点云进行刚性变换,得到对比模态;其中,所述刚性变换包括对所述三维点云进行平移、旋转以及放缩中的一种或者多种变换。
本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本发明的有益效果:通过获取预训练模型的训练集,并对所述三维点云添加噪声以获取到对比模态,以提取所述对比模态的第二云空间特征集,再根据预设的相似度算法计算所述第一云空间特征集与所述第二云空间特征集的相似度,最后根据所述相似度调整所述预训练模型中的参数,并重新计算相似度,直至得到的相似度大于预设相似度值,从而得到目标模型。从而实现了利用三维点云的数据对比训练神经网络模型,使用点云模态的对比学习空间感知的视觉表示,可以进一步提高神经网络模型在三维点云上的识别精度。
附图说明
图1是本发明一实施例的一种基于点云多模态的对比学习预训练方法的流程示意图;
图2是本发明一实施例的一种基于点云多模态的对比学习预训练装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变,所述的连接可以是直接连接,也可以是间接连接。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参照图1,本发明提出一种基于点云多模态的对比学习预训练方法,包括:
S1:获取预训练模型的训练集,所述训练集包括多个三维点云,并提取各个所述三维点云的第一云空间特征集;
S2:对所述三维点云添加噪声以获取到对比模态;
S3:提取所述对比模态的第二云空间特征集;
S4:根据预设的相似度算法计算所述第一云空间特征集与所述第二云空间特征集的相似度;
S5:根据所述相似度调整所述预训练模型中的参数,并重新计算相似度,直至得到的相似度大于预设相似度值,从而得到目标模型。
如上述步骤S1所述,获取预训练模型的训练集,所述训练集包括多个三维点云,并提取各个所述三维点云的第一云空间特征集。其中,三维点云为一个三维图像的点云,其是通过点云编码器对三维图像进行下采样得到的三维点云;训练集中含有多个三维点云,需要说明的是,预训练模型为预先根据训练集进行初步训练后得到的模型,预训练模型具体为神经网络模型。另外第一云空间特征集可以通过编码器,编码器具体可以是PointNet++,其使用set abstraction结构逐层提取特征,采样后的点融合了邻域点的特征信息,同时每次采样只保留一半的点云,后续网络层的感受野逐渐扩大,最后通过聚合函数得到紧密的全局点云特征表示,即得到的全局特征也可以被视为多个特征的结合,即得到第一云空间特征集。
如上述步骤S2所述,对所述三维点云添加噪声以获取到对比模态,对所述三维点云添加噪声以获取到对比模态,其中添加噪声的方式可以是对三维点云进行刚性变化,也可以是将其选取一个方向进行投影,得到二维图像,需要说明的是,转换为二维图像已经变换了模态的种类,属于模态间多模态对比学习,而进行刚性变化,其实际上还是三维点云,属于模态内的多模态对比学习。
如上述步骤S3所述,提取所述对比模态的第二云空间特征集。其中第二云空间特征集的提取方式与对比模态对应的模态种类相关,例如若其依然为三维点云,则可以此案用与第一云空间特征集相同的提取方式,若为二维图像,则可以采用预设的图像特征提取器进行提取。
如上述步骤S4所述,根据预设的相似度算法计算所述第一云空间特征集与所述第二云空间特征集的相似度,计算相似度的方式可以是WMD算法(word mover’s distance)、simhash算法、基于余弦相似度的算法、基于SVM向量模型进行计算等,本申请对此不作限定。
如上述步骤S5所述,根据所述相似度调整所述预训练模型中的参数,并重新计算相似度,直至得到的相似度大于预设相似度值,从而得到目标模型。即根据所述相似度调整所述预训练模型中的参数,并重新计算相似度,其中调整的方式为根据相似度值的大小进行调整,可以预先构建相似度值与参数调整幅度的对应关系,当相似度值越大,其对应的参数调整幅度也就越大,当相似度值越小,其对应的参数调整幅度也就越小,然后重新计算相似度,并再一次进行相似度值的判断,当得到的相似度大于预设相似度值时,可以认为调整的参数满足训练要求,并将此时的模型记为目标模型,当得到的相似度小于或等于预设相似度值时,则需要继续调整参数,直至最终的相似度值大于预设相似度值,预设相似度值为预先设置的一个固定值,当大于该相似度值时,可以认为模型训练完成,其具体的取值由相关人员进行人工设定。从而实现了利用三维点云的数据对比训练神经网络模型,使用点云模态的对比学习空间感知的视觉表示,可以进一步提高神经网络模型在三维点云上的识别精度,从而可以实现在电子商务中对视频中人物的场景进行精确识别。
在一个实施例中,所述对所述三维点云添加噪声以获取到对比模态的步骤S2,包括:
S201:对所述三维点云进行刚性变换,得到对比模态;其中,所述刚性变换包括对所述三维点云进行平移、旋转以及放缩中的一种或者多种变换。
如上述步骤S201所述,对所述三维点云进行刚性变换,得到对比模态;其中,所述刚性变换包括对所述三维点云进行平移、旋转以及放缩中的一种或者多种变换。需要说明的是,对其进行了刚性的变换,但是对于一些提取的特征,与原来的三维点云相比,二者的特征应该是相近的,因此采用刚性变化,来实现多模态的变化,从而为实现自监督学习提供了数据的支撑,从而可以实现对特殊场景的识别,由于部分特殊场景的训练数据较少,因此,通过刚性变换可以提高训练数据的数据量,从而提高对特殊场景的识别效果。
在一个实施例中,所述提取所述对比模态的第二云空间特征集的步骤S3,包括:
S301:通过预设的匈牙利算法对所述对比模态以及所述三维点云进行位置的匹配;
S302:基于匹配的位置,采用提取三维点云的第一云空间特征集对应的编码器,提取所述对比模态的第二云空间特征集。
如上述步骤S301所述,通过预设的匈牙利算法对所述对比模态以及所述三维点云进行位置的匹配,匈牙利算法(Hungarian Algorithm)是一种组合优化算法(combinatorial optimization algorithm),用于求解指派问题(assignment problem),具体地,先筛选平均距离以下的点得到二分图的连线,再使用匈牙利算法得到最大匹配,再筛选出匹配之后的连线中最小的N个点。
如上述步骤S302所述,基于匹配的位置,采用提取三维点云的第一云空间特征集对应的编码器,提取所述对比模态的第二云空间特征集,即采集该N个点构成的点云图像中的特征,从而实现第二云空间特征集的采集,从而可以实现对特殊场景的识别,由于部分特殊场景的训练数据较少,因此,通过刚性变换可以提高训练数据的数据量,从而提高对特殊场景的识别效果。
在一个实施例中,所述对所述三维点云添加噪声以获取到对比模态的步骤S2,包括:
S211:将所述三维点云按照预设投影方向进行投影,得到所述三维点云中对应的点云图像;其中,所述点云图像为所述对比模态。
如上述步骤S211所述,将所述三维点云按照预设投影方向进行投影,得到所述三维点云中对应的点云图像;其中,所述点云图像为所述对比模态。其中,预设的投影方向可以是任意的投影方向,本申请对此不作限定,优选投影之后所占面积最大的一个投影方向,这样可以尽可能包括多的特征,从而得到点云图像,来实现多模态种类的变化,从而为实现自监督学习提供了数据的支撑,从而可以实现对特殊场景的识别,由于部分特殊场景的训练数据较少,因此,通过刚性变换可以提高训练数据的数据量,从而提高对特殊场景的识别效果。
在一个实施例中,所述提取所述对比模态的第二云空间特征集的步骤S3,包括:
S311:通过预设图片特征提取器提取所述点云图像中的第一图像特征集;
S312:根据公式fr=f<proj(lα,Ct)>计算所述第一图像特征集与所述第一云空间特征集中各个特征的匹配关系;其中,fr表示第一图像特征集中的第r个特征,Ct表示三维点云中第t个特征的投影矩阵,lα表示第一云空间特征集,proj(lα,Ct)表示第一云空间特征集中第t个特征的投影矩阵的各个点分别对应的坐标,<.>代表插值函数;
S313:根据所述匹配关系对所述第一图像特征集中的各个图像特征进行排序,得到第二云空间特征。
如上述步骤S311-S312所述,预设图片特征提取器具体的型号可以是ResNet50,从而得到图像特征集,即第一图像特征集,根据公式fr=f<proj(lα,Ct)>计算所述第一图像特征集与所述第一云空间特征集中各个特征的匹配关系,由于其投影的位置关系含有第一图像特征集中的特征与第一云空间特征集中各个特征的匹配关系,因此,可以采用公式进行计算,即公式fr=f<proj(lα,Ct)>可以计算根据投影关系得到的特征,然后与预设图片特征提取器提取到的特征进行比较,进而得到所述第一图像特征集与所述第一云空间特征集中各个特征的匹配关系,然后利用根据所述匹配关系对所述第一图像特征集中的各个图像特征进行排序,得到第二云空间特征。即将电子商务进行视频中各帧视频帧的数据进行特征提取,把进行特征的比对,即计算第一图像特征集与所述第一云空间特征集中各个特征的匹配关系,从而可以使其中的特征进行匹配,便于后续模型的训练,从而提高识别精度。
在一个较佳的实施例中,可以采用刚性变化和投影相结合,以获取多个对比模态,然后为各个对比模态赋予对应的权重,进行综合训练,从而得到同时使用点云模态内的对比学习与跨模态的对比学习来学习空间感知的视觉表示,可以进一步提高模型在下游任务中的性能,将对比学习由二维拓展到三维。模态内使用点云学习空间感知表示,跨模态对比学习将提取空间感知表示的能力转移到图像特征提取器。
另外,因为点云分支中仅仅使用了编码器,即得到了全局的空间信息,所以可以直接应用简单的图像编码器获得图像域中对齐的特征,这避免了额外的解码器设计,保证了模型的泛化能力。
在一个实施例中,所述根据预设的相似度算法计算所述第一云空间特征集与所述第二云空间特征集的相似度的步骤S4,包括:
S401:根据公式:
如上述步骤S401所述,需要说明的是,第一云空间特征集X=(x1,x2,...,xi,…xn),其中X也可以视为一个全局向量,同理,第二云空间特征集Y=(y1,y2,...,yi,…yn),Y也可以视为一个全局向量,其中余弦值cosθ值越大,相似度越高,根据所述相似度调整所述预训练模型中的参数,并重新计算相似度,直至得到的相似度大于预设相似度值,从而得到目标模型,在电子商务中,由于训练数据以及特征的变化会导致忽略了部分特征数据,因此导致模型的识别效果较差,因此可以计算相似度来实现特征的匹配,从而便于模型的训练,提高识别精度。。
在一个实施例中,所述对所述三维点云添加噪声以获取到对比模态的步骤S2包括:
S221:通过预设的哈希值算法对所述三维点云进行哈希计算,得到所述三维点云对应的第一哈希序列;
S222:通过预设的混沌映射方法将所述第一哈希序列进行映射,得到第二哈希序列;
S223:将所述第二哈希序列分为n个哈希子序列;
S224:对每个所述哈希子序列进行整数小波变换,得到各个哈希子序列分别对应的整数值;
S225:根据公式对各个整数值进行处理,从而得到每个三维点云对应的目标数值,从而得到目标数值序列;其中,/>表示异或算法,E(.)表示加密函数,Xt表示第t个所述整数值,Yt表示第t个目标数值,r表示常数,t=1、2、...、n;
S226:基于所述目标数值序列按照预设的转换方法转化为对比模态。
如上述步骤S221-S226所述,如上述步骤S1201所述,通过预设的哈希值算法对所述三维点云进行哈希计算,得到所述三维点云对应的第一哈希序列,其中,哈希值算法具体可以是SHA2-256算法,目的是将三维点云进行修饰。
如上述步骤S1202所述,通过预设的混沌映射方法将所述第一哈希序列进行映射,得到第二哈希序列。其中,预设的混沌映射方法具体为Logisitc混沌映射成一个伪随机的序列,即得到第二哈希序列。
如上述步骤S1203所述,将所述第二哈希序列分为n个哈希子序列,其目的在于对各个第二哈希序列进行划分,以便于后续进行单个特征的转换。
如上述步骤S1204所述,对每个所述哈希子序列进行整数小波变换,得到各个哈希子序列分别对应的整数值。整数小波变换是可以将数字哈希子序列中的整数的数字信号经过小波变换后可以得到整数的变换结果,从而可以得到哈希子序列,进而使变换后的整数值可以对应与原来的三维点云语义相近的内容。
如上述步骤S1205所述,根据公式对各个整数值进行加密,从而得到每个整数值对应的目标数值,从而得到目标数值序列;其中,/>表示异或算法,E(.)表示加密函数,Xt表示第t个所述整数值,Yt表示第t个目标数值,r表示常数,t=1、2、...、n;其中/>表示,若Xt与r的值不同,则异或结果为1,若Xt与r的值相同,则异或结果为0,r具体为设置的整数,此处可以便于进一步地脱敏。
如上述步骤S1206所述,基于所述目标数值序列按照预设的转换方法转化为对比模态,其中,预设的转换方法为预先设定的转换方法,将目标数据序列可以转化为对比模态,预设的转换方法具体可以是BASE64的解密算法,从而可以得到对应的对比模态,从而可以实现对特殊场景的识别,由于部分特殊场景的训练数据较少,因此,通过刚性变换可以提高训练数据的数据量,从而提高对特殊场景的识别效果。
本发明的有益效果:通过获取预训练模型的训练集,并对所述三维点云添加噪声以获取到对比模态,以提取所述对比模态的第二云空间特征集,再根据预设的相似度算法计算所述第一云空间特征集与所述第二云空间特征集的相似度,最后根据所述相似度调整所述预训练模型中的参数,并重新计算相似度,直至得到的相似度大于预设相似度值,从而得到目标模型。从而实现了利用三维点云的数据对比训练神经网络模型,使用点云模态的对比学习空间感知的视觉表示,可以进一步提高神经网络模型在三维点云上的识别精度。
参照图2,本发明还提供了一种基于点云多模态的对比学习预训练装置,包括:
获取模块10,用于获取预训练模型的训练集,所述训练集包括多个三维点云,并提取各个所述三维点云的第一云空间特征集;
添加模块20,用于对所述三维点云添加噪声以获取到对比模态;
提取模块30,用于提取所述对比模态的第二云空间特征集;
计算模块40,用于根据预设的相似度算法计算所述第一云空间特征集与所述第二云空间特征集的相似度;
调整模块50,用于根据所述相似度调整所述预训练模型中的参数,并重新计算相似度,直至得到的相似度大于预设相似度值,从而得到目标模型。
在一个实施例中,所述添加模块20,包括:
变换子模块,用于对所述三维点云进行刚性变换,得到对比模态;其中,所述刚性变换包括对所述三维点云进行平移、旋转以及放缩中的一种或者多种变换。
在一个实施例中,提取模块30,包括:
匹配子模块,用于通过预设的匈牙利算法对所述对比模态以及所述三维点云进行位置的匹配;
提取子模块,用于基于匹配的位置,采用提取三维点云的第一云空间特征集对应的编码器,提取所述对比模态的第二云空间特征集。
在一个实施例中,添加模块20,包括:
投影子模块,用于将所述三维点云按照预设投影方向进行投影,得到所述三维点云中对应的点云图像;其中,所述点云图像为所述对比模态。
在一个实施例中,提取模块30,包括:
提取子模块,用于通过预设图片特征提取器提取所述点云图像中的第一图像特征集;
匹配关系计算子模块,用于根据公式fr=f<proj(lα,Ct)>计算所述第一图像特征集与所述第一云空间特征集中各个特征的匹配关系;其中,fr表示第一图像特征集中的第r个特征,Ct表示三维点云中第t个特征的投影矩阵,lα表示第一云空间特征集,proj(lα,Ct)表示第一云空间特征集中第t个特征的投影矩阵的各个点分别对应的坐标,<.>代表插值函数;
排序子模块,用于根据所述匹配关系对所述第一图像特征集中的各个图像特征进行排序,得到第二云空间特征。
在一个实施例中,计算模块40,包括:
计算子模块,用于根据公式:
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储各种三维点云等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时可以实现上述任一实施例所述的基于点云多模态的对比学习预训练方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时可以实现上述任一实施例所述的基于点云多模态的对比学习预训练方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM一多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (10)
1.一种基于点云多模态的对比学习预训练方法,其特征在于,包括:
获取预训练模型的训练集,所述训练集包括多个三维点云,并提取各个所述三维点云的第一云空间特征集;
对所述三维点云添加噪声以获取到对比模态;
提取所述对比模态的第二云空间特征集;
根据预设的相似度算法计算所述第一云空间特征集与所述第二云空间特征集的相似度;
根据所述相似度调整所述预训练模型中的参数,并重新计算相似度,直至得到的相似度大于预设相似度值,从而得到目标模型。
2.如权利要求1所述的基于点云多模态的对比学习预训练方法,其特征在于,所述对所述三维点云添加噪声以获取到对比模态的步骤,包括:
对所述三维点云进行刚性变换,得到对比模态;其中,所述刚性变换包括对所述三维点云进行平移、旋转以及放缩中的一种或者多种变换。
3.如权利要求2所述的基于点云多模态的对比学习预训练方法,其特征在于,所述提取所述对比模态的第二云空间特征集的步骤,包括:
通过预设的匈牙利算法对所述对比模态以及所述三维点云进行位置的匹配;
基于匹配的位置,采用提取三维点云的第一云空间特征集对应的编码器,提取所述对比模态的第二云空间特征集。
4.如权利要求1所述的基于点云多模态的对比学习预训练方法,其特征在于,所述对所述三维点云添加噪声以获取到对比模态的步骤,包括:
将所述三维点云按照预设投影方向进行投影,得到所述三维点云中对应的点云图像;其中,所述点云图像为所述对比模态。
5.如权利要求4所述的基于点云多模态的对比学习预训练方法,其特征在于,所述提取所述对比模态的第二云空间特征集的步骤,包括:
通过预设图片特征提取器提取所述点云图像中的第一图像特征集;
根据公式fr=f<proj(lα,Ct)>计算所述第一图像特征集与所述第一云空间特征集中各个特征的匹配关系;其中,fr表示第一图像特征集中的第r个特征,Ct表示三维点云中第t个特征的投影矩阵,lα表示第一云空间特征集,proj(lα,Ct)表示第一云空间特征集中第t个特征的投影矩阵的各个点分别对应的坐标,<.>代表插值函数;
根据所述匹配关系对所述第一图像特征集中的各个图像特征进行排序,得到第二云空间特征。
7.如权利要求1所述的基于点云多模态的对比学习预训练方法,其特征在于,所述对所述三维点云添加噪声以获取到对比模态的步骤包括:
通过预设的哈希值算法对所述三维点云进行哈希计算,得到所述三维点云对应的第一哈希序列;
通过预设的混沌映射方法将所述第一哈希序列进行映射,得到第二哈希序列;
将所述第二哈希序列分为n个哈希子序列;
对每个所述哈希子序列进行整数小波变换,得到各个哈希子序列分别对应的整数值;
根据公式对各个整数值进行处理,从而得到每个三维点云对应的目标数值,从而得到目标数值序列;其中,/>表示异或算法,E(.)表示加密函数,Xt表示第t个所述整数值,Yt表示第t个目标数值,r表示常数,t=1、2、...、n;
基于所述目标数值序列按照预设的转换方法转化为对比模态。
8.一种基于点云多模态的对比学习预训练装置,其特征在于,包括:
获取模块,用于获取预训练模型的训练集,所述训练集包括多个三维点云,并提取各个所述三维点云的第一云空间特征集;
添加模块,用于对所述三维点云添加噪声以获取到对比模态;
提取模块,用于提取所述对比模态的第二云空间特征集;
计算模块,用于根据预设的相似度算法计算所述第一云空间特征集与所述第二云空间特征集的相似度;
调整模块,用于根据所述相似度调整所述预训练模型中的参数,并重新计算相似度,直至得到的相似度大于预设相似度值,从而得到目标模型。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310332012.3A CN116152608A (zh) | 2023-03-24 | 2023-03-24 | 基于点云多模态的对比学习预训练方法、装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310332012.3A CN116152608A (zh) | 2023-03-24 | 2023-03-24 | 基于点云多模态的对比学习预训练方法、装置及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116152608A true CN116152608A (zh) | 2023-05-23 |
Family
ID=86339104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310332012.3A Pending CN116152608A (zh) | 2023-03-24 | 2023-03-24 | 基于点云多模态的对比学习预训练方法、装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116152608A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117786234A (zh) * | 2024-02-28 | 2024-03-29 | 云南师范大学 | 一种基于两阶段对比学习的多模态资源推荐方法 |
-
2023
- 2023-03-24 CN CN202310332012.3A patent/CN116152608A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117786234A (zh) * | 2024-02-28 | 2024-03-29 | 云南师范大学 | 一种基于两阶段对比学习的多模态资源推荐方法 |
CN117786234B (zh) * | 2024-02-28 | 2024-04-26 | 云南师范大学 | 一种基于两阶段对比学习的多模态资源推荐方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111523414B (zh) | 人脸识别方法、装置、计算机设备和存储介质 | |
JP6798183B2 (ja) | 画像解析装置、画像解析方法およびプログラム | |
US20200272806A1 (en) | Real-Time Tracking of Facial Features in Unconstrained Video | |
CN109858333B (zh) | 图像处理方法、装置、电子设备及计算机可读介质 | |
WO2022156622A1 (zh) | 脸部图像的视线矫正方法、装置、设备、计算机可读存储介质及计算机程序产品 | |
CN111047548A (zh) | 姿态变换数据处理方法、装置、计算机设备和存储介质 | |
CN111507333B (zh) | 一种图像矫正方法、装置、电子设备和存储介质 | |
CN111968064B (zh) | 一种图像处理方法、装置、电子设备及存储介质 | |
EP4181079A1 (en) | Method and apparatus with multi-modal feature fusion | |
US20230326173A1 (en) | Image processing method and apparatus, and computer-readable storage medium | |
CN112907569B (zh) | 头部图像区域的分割方法、装置、电子设备和存储介质 | |
Elmahmudi et al. | A framework for facial age progression and regression using exemplar face templates | |
US20230153965A1 (en) | Image processing method and related device | |
CN115631112B (zh) | 一种基于深度学习的建筑轮廓矫正方法及装置 | |
CN116152608A (zh) | 基于点云多模态的对比学习预训练方法、装置及介质 | |
CN112733672A (zh) | 基于单目相机的三维目标检测方法、装置和计算机设备 | |
CN112464798A (zh) | 文本识别方法及装置、电子设备、存储介质 | |
CN113192162A (zh) | 语音驱动图像的方法、系统、装置及存储介质 | |
JP2023502653A (ja) | 人工知能ニューラルネットワークの推論または訓練に対する、故意に歪みを制御する撮像装置の利用 | |
CN115457492A (zh) | 目标检测方法、装置、计算机设备及存储介质 | |
CN114972016A (zh) | 图像处理方法、装置、计算机设备、存储介质及程序产品 | |
CN114359361A (zh) | 深度估计方法、装置、电子设备和计算机可读存储介质 | |
CN113902789A (zh) | 图像特征处理、深度图像生成方法及装置、介质和设备 | |
CN111652245B (zh) | 车辆轮廓检测方法、装置、计算机设备及存储介质 | |
JP6202938B2 (ja) | 画像認識装置および画像認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |