CN117392402A - 一种自监督学习方法、装置、计算机设备及存储介质 - Google Patents
一种自监督学习方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN117392402A CN117392402A CN202311377222.0A CN202311377222A CN117392402A CN 117392402 A CN117392402 A CN 117392402A CN 202311377222 A CN202311377222 A CN 202311377222A CN 117392402 A CN117392402 A CN 117392402A
- Authority
- CN
- China
- Prior art keywords
- image
- self
- training
- model
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 90
- 239000013598 vector Substances 0.000 claims abstract description 65
- 238000013210 evaluation model Methods 0.000 claims abstract description 20
- 238000004590 computer program Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000013140 knowledge distillation Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例涉及一种自监督学习方法、装置、计算机设备及存储介质。其中,方法包括:获取预训练图像和待识别图像;将预训练图像送入自监督学习的训练模型中,训练模型的多个教师网络分支;将待识别图像送入自监督学习的评估模型中,定义多个模型分别用来加载多个教师网络的知识作为它们的预训练权重并获取图像的特征向量;在评估模型中根据所述特征向量组,从图像信息库中各图像对应的编码中,确定出与所述特征向量相似度最高的目标编码;将所述目标编码对应的图像确定为目标图像。本方案在自监督学习模型中添加了多教师知识蒸馏和掩码去噪思想使得模型的性能和效率都得到了提升。此外,还可以达到节省存储空间的目的。
Description
技术领域
本发明实施例涉及机器学习领域,特别涉及一种自监督学习方法、装置、计算机设备和存储介质。
背景技术
随着机器学习技术的快速发展,在图像识别领域也广泛采用了机器学习方法。在现代网络技术的影响下,人们越来越重视以自监督学习为主体的图像识别技术。基于网络技术的支持和图像识别的快速发展,自监督学习模型得到了人们的广泛认可,企业非常迫切地需要针对自监督学习精度高、速度快的算法。
机器学习中有两种最基本的学习范式即监督学习和无监督学习。监督学习在模型训练的时候需要使用到大量的已标注数据,在计算模型预测值和数据标签两者的损失函数后进行反向传播,然后模型通过进行不断的学习最终获得了识别新样本的能力。经典任务的模型在数据充足的情况下已经可以取得很好的成果。但是当数据匮乏或者标签匮乏时,监督学习的模型会受到很大的影响,模型的效果会非常受限。
那么,对于监督学习受到数据集大小和数据标注这些限制而言,如何提高模型在小样本无标注数据集上的性能,注重模型的准确性和泛化性,是一个亟待解决的问题。
发明内容
针对现有技术的以上缺陷或改进需求,本发明实施例提供了一种自监督学习方法、装置、计算机设备及存储介质,以改善上述问题。为实现上述目的,本发明采取的技术方案如下:
第一方面,本发明实施例提供了一种自监督学习方法,所述方法包括:
设置图像识别的图像类别数,构建包含所有图像的图像信息库,对所述图像信息库中各图像进行图像编码;
获取预训练图像和待识别图像,将预训练图像送入自监督学习的训练模型中,训练模型的多个教师网络分支,使用多个教师模型来获取不同的知识来源并对多个教师模型分配平均权重;将待识别图像送入自监督学习的评估模型中,定义多个模型分别用来加载多个教师网络的知识作为它们的预训练权重并获取待识别图像的特征向量,其中,待识别图像的所述特征向量的维度和图像信息库中图像编码长度相等,所述特征向量的各元素为上述编码中的每一类别的概率值;在评估模型中根据每张待识别图像的所述特征向量,从所述图像信息库中各图像对应的编码中,确定出与所述特征向量相似度最高的目标编码;将所述目标编码对应的待识别图像确定为目标图像。
第二方面,本发明实施例提供一种自监督学习装置,包括:获取单元,用于获取预训练图像和待识别图像;提取单元,将预训练图像送入自监督学习的训练模型中,训练模型的多个教师网络分支,使用多个教师模型来获取不同的知识来源并对多个教师模型分配平均权重;将待识别图像送入自监督学习的评估模型中,定义多个模型分别用来加载多个教师网络的知识作为它们的预训练权重并获取待识别图像的特征向量,其中,待识别图像的所述特征向量的维度和图像信息库中图像编码的长度相等,所述特征向量的各元素为上述编码中的每一类别的概率值;确定单元,用于针对所述提取单元提取出的每个所述特征向量,在评估模型中根据每张待识别图像的所述特征向量,从所述图像信息库中各图像对应的编码中,确定出与所述特征向量相似度最高的目标编码;识别单元,用于将所述确定单元确定出的所述目标编码对应的待识别图像确定为目标图像。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时,实现本说明书任一实施例所的方法;
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行本说明书任一实施例所述的方法。
在本发明实施例提供了一种自监督学习方法、装置、计算机设备及存储介质,在上述技术方案中,获取到预训练图像和待识别图像后,首先获取上述图像特征向量;接下来,针对上述特征向量,从图像信息库中各图像对应的编码中,确定出与该特征向量相似度最高的目标编码;然后,将该目标编码对应的图像确定为图像识别结果。由于图像信息库中对所有图像的编码长度远远小于该图像信息库中的图像总数,这样,各特征向量的维度相对较低。可以减少确定特征向量时的计算工作量,并使得目标编码的获取更加快捷,从而提高了图像识别的效率。此外,还可以达到节省存储空间的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种自监督学习方法流程图。
图2是本发明一实施例提供的一种自监督学习模型的示意图。
图3是本发明一实施例提供的一种获取自监督学习方法的流程图。
图4是本发明一实施例提供的一种自监督学习装置结构图。
图5是本发明一实施例提供的一种模型训练装置的结构图。
图6是本发明一实施例提供的一种电子设备的硬件架构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种自监督学习方法,可以解决监督学习的缺陷,包含如图1所示的以下实现步骤
步骤100:获取预训练图像与待识别图像;
需要说明的是,本步骤中的预训练图像和待识别的图像可以是通过联机的摄像设备采集,也可以是已保存的场景图像,具体可以根据实际应用场景而定,在此不做具体限定。
步骤101:将预训练图像送入自监督学习的训练模型中,训练模型中的多个教师网络分支,使用多个教师模型来获取不同的知识来源并对多个教师模型分配平均权重。
步骤102:将待识别图像送入自监督学习的评估模型中,定义多个模型分别用来加载多个教师网络的知识作为它们的预训练权重,并获取图像的特征向量组。
在本实施例中,举例来说,预训练图像和待识别图像的尺寸为W*H(W为图像宽度,H为图像高度),且通道数为3,首先对预训练图像和待识别图像进行数据增强、掩码去噪操作,然后输入到基于多教师知识蒸馏的自监督学习模型中,自监督学习模型如图2所示,模型通过对给定的输入图像x(b,c,h,w)进行N+1种完全不同的数据增强方式来获取不同的视图。在这一过程中产生了不同views的集合V,这个集合中包含了2×N个global views(例如: ),其大小为(b,c,224,224)和8个local views,其大小为(b,c,96,96)。其中global views需要传递到教师网络中,例如:/>和/>传递到第一个教师Transformer网络中,/>和/>传递到第二个教师Transformer网络中,所有的local views和N个教师网络都没有接收的global views传递到学生Transformer网络中。这一方法可以让架构进一步学习图像的局部特征和全局表示。我们为学生网络和每个教师网络设置了不同的随机MASK概率P,均匀分布可以防止潜在的重心偏差。模型输出该待识别图像对应的W*H*C的特征张量,其中C为通道数,通道数与图像编码的长度相等,最终对于所有图像都能得到一个一维的特征向量,得到的特征向量维度为(C,1);
另外,上述自监督学习模型中的多教师知识蒸馏系统中可以使用两个教师网络分支,也可以使用三个教师网络分支,对此,在本发明中不作具体限定。另外,可以通过图3中所示的步骤301~步骤303来获取自监督学习模型。
在步骤301中,获取多个预训练样本图像数据集。
在本发明实施例中,可以通过多种方式来获取该预训练样本图像数据集。在一种实施方式中,可以通过人工标记获取,即通过拍摄等方式获取到多个训练样本图像,对每个训练样本图像进行人工标记。然而,由于训练过程通常需要大量的训练样本图像,人工标记的方式往往效率很低,并且人力成本较高。因此,为了提高效率并且减少人力成本,在另一种实施方式中,可以从图像信息库中抽取一个或多个图像,根据该一个或多个图像生成预训练样本图像数据集,其中,每个图像可以包括一个或多个内容。
在步骤302中,将所述多个预训练样本图像输入到自监督学习模型中,得到所述自监督学习模型的输出结果。
在本发明实施例中,上述自监督学习模型中至少一层卷积层的卷积核数量根据上述编码的长度确定,编码的长度等于上述特征向量的维度,并且特征向量的各元素与上述编码中的每一位一一对应。另外上述自监督学习模型的层数量、层中的节点结构以及进行卷积运算所使用的卷积核可以是适应于上述编码而构建。示例地,对于最后一层卷积层的节点数量和卷积核数量等参数,可以参考上述编码的长度而设定。例如,可以将自监督学习模型的最后一层卷积层的节点数量对应设置为该编码的长度。
在通过上述步骤301获取到多个预训练样本图像数据集后,可以将该多个预训练样本图像数据集作为自监督学习训练模型的训练数据,而将该多个预训练样本图像对应的识别正确的特征向量作为标记数据,从而对上述自监督学习模型进行训练。其中,对自监督学习模型进行训练是为了训练模型中的多个教师网络分支,使用多个教师模型来获取不同的知识来源,获得该自监督学习训练模型中的相关参数,例如随机掩码率的大小、学习率的大小等等。
在步骤303中,根据输出结果和标记数据的比对结果,对自监督学习的训练模型进行训练,得到自监督学习评估模型。
在通过上述步骤302得到自监督学习训练模型的输出结果后,可以将该输出结果和标记数据进行比对,例如,通过余弦距离或欧式距离来衡量二者之间的相似度,利用输出结果和标记结果之间的差异对网络收敛程度进行衡量,在上述差异大于或等于预设差异阈值时,对上述模型进行反复训练,直到上述差异小于预设差异阈值时,停止训练,从而得到自监督学习评估模型。其中,上述预设差异阈值可以是用户设定的值,也可以是默认的经验值,在本发明中不作具体限定。
返回图1,步骤103:针对待识别图像的特征向量,所述特征向量的维数与上述编码的长度相等,针对每个特征向量计算其与图像信息库中各图像对应的编码之间的相似度,并将图像信息库中各图像对应的编码中与该特征向量相似度最高的编码确定为目标编码,然后投票选出该图像上票数最高的目标编码。示例地,可以通过欧式距离或余弦距离来衡量上述特征向量与图像信息库中各图像对应的编码之间相似度。
具体来说,在一种实施方式中,可以根据各非零元素与特征向量中所有非零元素的平均值之间的比对结果来实现特征向量组中的非零元素的转化。具体来说,针对特征向量中的每个非零元素,若该非零元素大于上述平均值,则可以将该非零元素置1;若该非零元素小于或等于上述平均值,则可以将该非零元素置0。
在另一种实施方式中,可以根据非零元素与预设阈值之间的比对结果来实现特征向量中非零元素的转化,针对特征向量中的每个非零元素,若该非零元素大于预设阈值,则可以将该非零元素置1,若该非零元素小于或等于上述预设阈值,则可以将该非零元素置0,需要说明的是,上述预设阈值可以是设定的值,也可以是默认的经验值(例如,0.7),在本公开中不作具体限定;
其中,在一种实施方式中,针对所述图像信息库中的每个图像,获取图像信息库中各图像,将所述图像二值化处理,直接将二值化后的图像展开,得到图像信息库中所有图像的图像编码;示例地,图像的尺寸为32*32,展开后编码长度为1024;
在另一种实施方式中,针对所述图像信息库中的每个图像,采用one_hot编码对每个图像进行编码,编码长度为图像信息库中所有图像类别总数;
在另一种实施方式中,针对所述图像信息库中的每个图像,训练自编码网络,自编码中间的输出作为特征,对每个图像提取特征,得到特征矩阵,然后采用k-means算法对每个图像特征进行聚类,聚类结束后,图像信息库中所有图像都得到一个二进制图像编码;
步骤104:将目标编码对应的待识别图像确定为目标图像。
在本公开中,图像信息库中存储有各图像对应的编码,因此,在通过上述步骤103获取到目标编码后,通过访问图像信息库中相应存储模块即可查找到与该目标编码对应的图像类别,即目标图像。由此,可以得到待识别图像中的目标类别。
在上述技术方案中,获取到待识别图像后,首先确定上述待识别图像的特征向量;接下来,针对上述特征向量,从图像信息库中各图像对应的编码中,确定出与该特征向量相似度最高的目标编码;然后,将该目标编码对应的图像类别确定为目标图像类别。由于本公开中提供了图像编码方法使得所有图像的编码长度远远小于该图像信息库中的图像总数,这样各特征向量的维度相对较低,可以减少确定特征向量时的计算工作量,并使得目标编码的获取更加快捷,从而提高了图像识别的效率。此外,还可以达到节省存储空间的目的。
如图4所示,本发明实施例提供了一种自监督学习装置。该装置400包括:获取单元401,用于获取预训练图像和待识别图像;提取单元402,将预训练图像送入自监督学习的训练模型中,训练模型的多个教师网络分支,使用多个教师模型来获取不同的知识来源并对多个教师模型分配平均权重;将待识别图像送入自监督学习的评估模型中,定义多个模型分别用来加载多个教师网络的知识作为它们的预训练权重并获取待识别图像的特征向量,其中,待识别图像的所述特征向量的维度和图像信息库中图像编码的长度相等,所述特征向量的各元素为上述编码中的每一类别的概率值;确定单元403,用于针对所述提取单元提取出的每个所述特征向量,在评估模型中根据每张待识别图像的所述特征向量,从所述图像信息库中各图像对应的编码中,确定出与所述特征向量相似度最高的目标编码;识别单元404,用于将将所述确定单元确定出的所述目标编码对应的待识别图像确定为目标图像。
如图5所示,本发明实施例提供了一种模型训练装置。该装置500包括:获取单元501,用于获取多个预训练样本图像数据集;提取单元502,用于将所述获取单元501获取到的所述多个预训练样本图像数据集输入到自监督学习的训练模型中,得到所述自监督学习训练模型的输出结果,其中,所述自监督学习两个模型中采用了随机掩码思想,对学生网络和多个教师网络的输入图像进行随机MASK,然后将随机掩码图像的表示和未掩码图像的表示进行匹配,通过网络对每一个图像的结构进行预测使得模型可以学习到上下文的关系,并且自监督学习模型中至少一层的卷积核数量根据所述编码的长度确定,所述最少一层包括最后一层,所述长度等于所述维度;训练单元503,用于根据所述提取单元502获取到的所述输出结果和标记数据的比对结果,对所述自监督学习的训练模型进行训练,然后得到自监督学习的评估模型,其中,所述标记数据为与所述多个预训练样本图像数据集分别对应的识别正确的特征向量。
另外,需要说明的是,该模型训练装置可以与上述自监督学习装置相互独立,也可以集成于该自监督学习装置内,在本公开中不作具体限定。
可以理解的是,本发明实施例示意的结构并不构成对一种自监督学习装置的具体限定。在本发明的另一些实施例中,一种自监督学习装置可以包括比图示更多或者更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。
上述装置内的各模块之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明实施例提供的自监督学习方法,可以适用于如图6所示的计算机设备。该计算机设备包括通过系统总线连接的处理器、存储器,该存储器中存储有计算机程序,处理器执行该计算机程序时可以执行下述方法实施例的步骤。可选的,该计算机设备还可以包括网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器,该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。可选的,该计算机设备可以是服务器,可以是个人计算机,还可以是个人数字助理,还可以是其他的终端设备,例如平板电脑、手机等等,还可以是云端或者远程服务器,本申请实施例对计算机设备的具体形式并不做限定。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序在被处理器执行时,使所述处理器执行本发明任一实施例中的一种自监督学习方法。
具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展模块中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展模块上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个...”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种自监督学习方法,其特征在于,包括:
设置预训练图像和待识别图像的图像类别数,构建包含所有图像的图像信息库,对所述图像信息库中各图像进行图像编码;
获取预训练图像和待识别图像,将预训练图像送入自监督学习的训练模型中,训练模型的多个教师网络分支,使用多个教师模型来获取不同的知识来源对多个教师模型分配平均权重;将待识别图像送入自监督学习的评估模型中,定义多个模型分别用来加载多个教师网络的知识作为它们的预训练权重并获取图像的特征向量,其中,待识别图像的所述特征向量的维度和图像信息库中图像编码的长度相等,所述特征向量的各元素为上述编码中的每一类别的概率值;
在评估模型中根据每张待识别图像的所述特征向量,从所述图像信息库中各图像对应的编码中,确定出与所述特征向量相似度最高的目标编码;将所述目标编码对应的待识别图像确定为目标图像。
2.根据权利要求1所述的方法,其特征在于,获取每张待识别图像的所述特征向量,包括:
将所述预训练图像输入自监督学习的训练模型中,将所述待识别图像输入自监督学习的评估模型中,在两个模型中添加了掩码去噪思想,对学生网络和多个教师网络的输入图像进行随机MASK,然后将随机掩码图像的表示和未掩码图像的表示进行匹配,通过网络对每一个图像的结构进行预测使得模型可以学习到上下文的关系,评估模型对训练模型中的多个教师网络进行知识提取并获取所述待识别图像的特征向量,其中,所述自监督学习评估模型根据所述图像信息库中各图像对应的编码构建。
3.根据权利要求2所述的方法,其特征在于,所述自监督学习模型通过以下步骤来构建,包括:
获取预训练样本图像数据集;
将所述多个预训练样本图像输入到自监督学习的训练模型中,得到所述自监督学习训练模型的输出结果。其中,所述自监督学习模型中至少一层卷积层的卷积核数量根据所述编码的长度确定,编码的长度等于所述特征向量的维度,并且特征向量的各元素与上述编码中的每一位一一对应;
根据所述输出结果和标记数据的比对结果,对所述自监督学习的训练模型进行训练,得到自监督学习的评估模型,其中,所述标记数据为与所述多个预训练样本图像分别对应的识别正确的特征向量。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述图像信息库中各图像对应的编码通过以下方式来确定:
针对所述图像信息库中的每个图像,获取图像信息库中各图像,将所述图像二值化处理,直接将二值化后的图像展开,得到图像信息库中所有图像的图像编码;
针对所述图像信息库中的每个图像,采用one_hot编码对每个图像进行编码,编码长度为图像信息库中所有图像类别总数;
针对所述图像信息库中的每个图像,训练自编码网络,自编码中间的输出作为特征,对每个图像提取特征,得到特征矩阵,然后采用k-means算法对每个图像特征进行聚类,聚类结束后,图像信息库中所有图像都得到一个二进制图像编码。
5.一种自监督学习装置,其特征在于,包括:
获取单元,用于获取预训练图像和待识别图像;
提取单元,将预训练图像送入自监督学习的训练模型中,训练模型的多个教师网络分支,使用多个教师模型来获取不同的知识来源并对多个教师模型分配平均权重;将待识别图像送入自监督学习的评估模型中,定义多个模型分别用来加载多个教师网络的知识作为它们的预训练权重并获取待识别图像的特征向量,其中,待识别图像的所述特征向量的维度和图像信息库中图像编码的长度相等,所述特征向量的各元素为上述编码中的每一类别的概率值;
确定单元,用于针对所述提取单元提取出的每个所述特征向量,在评估模型中根据每张待识别图像的所述特征向量,从所述图像信息库各图像对应的编码中,确定出与所述特征向量相似度最高的目标编码;
识别单元,用于将所述确定单元确定出的所述目标编码对应的待识别图像确定为目标图像。
6.根据权利要求5所述的装置,其特征在于,所述自监督学习模型是通过模型训练装置根据图像信息库中各图像对应的编码构建的,其中,所述模型训练装置包括:
获取单元,用于获取多个预训练样本图像数据集;
提取单元,用于将所述获取单元获取到的多个预训练样本图像数据集输入到自监督学习的训练模型中,得到所述自监督学习模型的输出结果,其中,所述自监督学习模型中采用了随机掩码思想,对学生网络和多个教师网络的输入图像进行随机MASK,然后将随机掩码图像的表示和未掩码图像的表示进行匹配,通过网络对每一个图像的结构进行预测使得模型可以学习到上下文的关系,并且自监督学习模型中至少一层的卷积核数量根据所述编码的长度确定,所述最少一层包括最后一层,所述长度等于所述维度;
训练单元,用于根据所述提取单元获取到的所述输出结果和标记数据的比对结果,对所述自监督学习的训练模型进行训练,然后得到自监督学习的评估模型,其中,所述标记数据为与所述多个预训练样本图像数据集分别对应的识别正确的特征向量。
7.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现权利要求1-6中任一项所述方法的步骤。
8.一种电子设备,其特征在于,包括:
存储装置,其上存储有计算机程序;处理装置,用于执行所述存储装置中的所述计算机程序,以实现权利要求1-6中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311377222.0A CN117392402A (zh) | 2023-10-23 | 2023-10-23 | 一种自监督学习方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311377222.0A CN117392402A (zh) | 2023-10-23 | 2023-10-23 | 一种自监督学习方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117392402A true CN117392402A (zh) | 2024-01-12 |
Family
ID=89466198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311377222.0A Pending CN117392402A (zh) | 2023-10-23 | 2023-10-23 | 一种自监督学习方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117392402A (zh) |
-
2023
- 2023-10-23 CN CN202311377222.0A patent/CN117392402A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108280477B (zh) | 用于聚类图像的方法和装置 | |
CN111275038A (zh) | 图像文本识别方法、装置、计算机设备及计算机存储介质 | |
CN109948735B (zh) | 一种多标签分类方法、系统、装置及存储介质 | |
CN111582409A (zh) | 图像标签分类网络的训练方法、图像标签分类方法及设备 | |
CN111753863A (zh) | 一种图像分类方法、装置、电子设备及存储介质 | |
CN112149754B (zh) | 一种信息的分类方法、装置、设备及存储介质 | |
CN112883990A (zh) | 数据分类方法及装置、计算机存储介质、电子设备 | |
Lee et al. | Feature alignment by uncertainty and self-training for source-free unsupervised domain adaptation | |
CN111898675A (zh) | 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备 | |
CN111062440B (zh) | 一种样本选择方法、装置、设备及存储介质 | |
CN113435499B (zh) | 标签分类方法、装置、电子设备和存储介质 | |
CN108830302B (zh) | 一种图像分类方法、训练方法、分类预测方法及相关装置 | |
CN116629423A (zh) | 用户行为预测方法、装置、设备及存储介质 | |
CN116029760A (zh) | 消息推送方法、装置、计算机设备和存储介质 | |
CN117392402A (zh) | 一种自监督学习方法、装置、计算机设备及存储介质 | |
CN114398482A (zh) | 一种词典构造方法、装置、电子设备及存储介质 | |
CN114255381A (zh) | 图像识别模型的训练方法、图像识别方法、装置及介质 | |
CN113627514A (zh) | 知识图谱的数据处理方法、装置、电子设备和存储介质 | |
CN112507912A (zh) | 一种识别违规图片的方法及装置 | |
US20220156618A1 (en) | Ensemble classification algorithms having subclass resolution | |
CN115563289B (zh) | 行业分类标签生成方法、装置、电子设备和可读介质 | |
US20240184860A1 (en) | Methods and arrangements for providing impact imagery | |
CN113239226A (zh) | 一种图像检索方法、装置、设备及存储介质 | |
CN117391713A (zh) | 信息推送方法及装置、电子设备和存储介质 | |
CN117037165A (zh) | 一种汉字识别方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |