CN114387454A - 一种基于区域筛选模块和多层次对比的自监督预训练方法 - Google Patents
一种基于区域筛选模块和多层次对比的自监督预训练方法 Download PDFInfo
- Publication number
- CN114387454A CN114387454A CN202210018471.XA CN202210018471A CN114387454A CN 114387454 A CN114387454 A CN 114387454A CN 202210018471 A CN202210018471 A CN 202210018471A CN 114387454 A CN114387454 A CN 114387454A
- Authority
- CN
- China
- Prior art keywords
- map
- block
- enhancement
- local
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012549 training Methods 0.000 title claims abstract description 41
- 238000012216 screening Methods 0.000 title claims abstract description 38
- 238000001514 detection method Methods 0.000 claims abstract description 10
- 238000013136 deep learning model Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 29
- 239000013598 vector Substances 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 25
- 238000010586 diagram Methods 0.000 claims description 18
- 241000282326 Felis catus Species 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 2
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims 2
- 238000005192 partition Methods 0.000 claims 1
- 238000011160 research Methods 0.000 abstract description 4
- 230000006872 improvement Effects 0.000 abstract description 2
- 238000002372 labelling Methods 0.000 abstract description 2
- 238000012360 testing method Methods 0.000 description 6
- 239000012855 volatile organic compound Substances 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000000691 measurement method Methods 0.000 description 2
- 101100153586 Caenorhabditis elegans top-1 gene Proteins 0.000 description 1
- 101100370075 Mus musculus Top1 gene Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006386 neutralization reaction Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于区域筛选模块和多层次对比的自监督预训练方法,由于对数据集图片进行人工标注既昂贵又费时,采用无标签的自监督方法对图像分类和目标检测的深度学习模型进行预训练在计算机视觉领域中有着不可或缺的研究意义,为了在这一类数据集中直接进行有效的自监督预训练,本发明提出基于实例区域筛选模块来预训练模型,其功能是在用于对比学习的图片生成两个增强图中筛选出特定数量最可能包含实例信息的块图,并将他们进行匹配,本发明提出了一种对全局、局部以及全局局部综合信息进行多层次对比学习的模块。这种方法用多实例数据集预训练出的模型在图片识别、目标检测等下游任务中取得了良好的精度提升。
Description
技术领域
本申请涉及计算机视觉技术领域,特别涉及一种基于区域筛选模块和多层次对比的自监督预训练方法。
背景技术
自监督预训练方法是指利用辅助任务从没有人工标注的数据中挖掘自身的监督信息,通过这种方式构造有效的监督信息对深度学习神经网络模型进行预训练,以学习到对图片识别、目标检测和语义分割等下游任务有价值的特征提取器。由于在大规模数据集中进行人工的数据标注是既昂贵又费时的,采用无标签训练方式的自监督方法计算机视觉领域具有非常重要的研究价值,已受到了越加广泛的关注。
目前自监督预训练方法的辅助任务多采用了对比学习,它通过对比损失函数来最大化同一图像两个不同增强图之间的相似性,从而在数据集中学习模型的特征表示。通过对比学习,现有的自监督学习方法在ImageNet这一类单实例数据集中取得有效的进展。ImageNet是一个以实例为中心的数据集,它不仅只包含了单个实例,而且还将与实例无关的背景区域进行了最大限度的裁剪。自监督对比学习方法的关键步骤是使同一实例中不同增强表示的相似度最大化,这在很大程度上依赖于整个图像中实例信息的比例,所以目前的对比学习研究在ImageNet上易取得较高的准确度。然而,针对目前常用在目标检测的多实例数据集,如COCO和PASCAL VOC,进行自监督预训练的研究则一直很难取得有效的进展,因为这一类数据集不仅并没有以实例信息为中心,而且也没有裁剪图片中大量无关的背景噪声。
现有的多数自监督预训练方法,只是对图像增强的全局信息进行了对比学习。为了通过多尺度预测来提高密集特征提取器的性能,一些方法将全局和局部信息结合的对比引入到预训练中。然而,它们不能保证对比的局部信息能有效包含实例信息。这说明现有的自监督方法很难适用于多实例数据集的预训练任务。所以一种基于区域筛选模块和多层次对比的自监督预训练方法是迫切需求的。
发明内容
发明目的:为了解决现有技术存在的问题,实现基于多实例数据集也能有效的训练自监督模型。本发明提供了一种基于区域筛选模块和多层次对比的自监督预训练方法。它能够有效地筛选出数据集中局部实例信息块图,并设置了全局、局部、“全局—局部”三种层次对比损失函数来最大限度的利用筛选出的实例信息,从而有效提升预训练出的特征提取器的准确性。
技术方案:一种基于区域筛选模块和多层次对比的自监督预训练方法,其特征在于,包括以下步骤:
步骤1):建立初始深度学习神经网络;
步骤2):将不带标签的训练输入数据输入神经网络,并基于无监督数据筛选出其中包含实例特征的局部块图;
步骤3):训练步骤,通过多层次对比学习的损失函数,基于无监督数据筛选出的局部块图训练深度学习神经网络模型。
作为本发明的一种改进,步骤2)中生成数据集图片的增强图,对于一张给定的数据集RGB图片x,随机生成它的两个增强图v和v′,其中增强图的生成方式包括随机大小裁剪、颜色抖动、随机灰度值变换、灰度图像转换和随机水平翻转五种方法;
图片的两个RGB增强图生成后,将其按照网格化的方式分割为整齐排列的多个块图{P1,P2,…,Pn},其中n表示增强图包含块图的总数;
采用图像RGB信息熵来初步筛选实例块图,对于一个增强图的块图P,其依据RGB的三个不同颜色通道划分为[Pr:Pg:Pb],红色通道Pr的图像信息熵计算方式如下:
其中p(ri)表示像素值i在红色通道Pr中的比例,像素值的范围为[0,255]。绿色通道Pg和蓝色通道Pb图像信息熵和计算方式与上述红色通道Pr类似。接下来,计算块图总RGB信息熵HP,图像总RGB信息熵计算方式表示为:
在整个增强图v中,将所有的网格化切分的块图{P1,P2,…,Pn}按照图像RGB信息熵HP大小从高到低排序,筛选出图像信息熵前kH高的块图进入步骤五的进一步筛选;
因图像RGB信息熵仅能对增强图中块图的局部信息进行计算,故采用衡量全局信息的LC显著性检测值筛选方法对块图进行二次筛选,在增强图中,使用像素与图中其他灰度值所在像素之间的距离之来度量像素属于实例区域的概率,假设Ik表示增强图中一个像素点,则Ik的显著值计算方式如下:
其中,g(Ik)表示像素Ik的灰度值,fn表示灰度值n在整个增强图中的出现频率,Dist(.)代表两个灰度值之间的欧式距离,对于一个增强图v,将其转化为灰度图Vg,对于所有的像素点Ik,计算其显著值在Vg中的值;
根据像素点的显著值来计算块图的显著值SP,其计算方式表示为:
对于在步骤四中筛选出块图,根据块图的显著值SP从高到底排序,进一步筛选出显著值SP最高的前k个(k<kH)小块,作为实例区域筛选模块的筛选结果,对于增强图v,筛选出的所有块图表示为P(v);
由于增强图的生成方式包括能够改变位置特征的随机大小裁剪方法,所以不能保证在步骤七中筛选出的块图在一个图像的两个增强图v和v′中的位置是对应一致的,故采用互信息度量的方法对两个增强图v和v′中筛选的块图进行匹配,以将其准确用于步骤十和步骤十二的对比学习中,给定两个块图X,Y,他们的互信息值M(X,Y)的计算方式如下:
H(X,Y)=-∑a,b pXY(a,b)log2pXY(a,b)
M(X,Y)=HX+HY-H(X,Y)
其中pXY(a,b)表示两个像素值a,b在两个块图X,Y中的联合概率分布,接下来,对于一个块图,在另一个增强图中选择与其互信息值最高的作为匹配块图;
计算用于对比学习的全局和局部特征,本发明的深度学习模型依次包含一个主干网络fθ和两个MLP头,主干网络选择残差网络Resnet50,MLP头包含一个线性层,归一化算子和ReLu层,对于多实例数据集中一个图像的两个增强图v和v′与它们在步骤七中筛选出的块图P(v)和P(v′),将其首先放入主干网络fθ中进行计算,输出得到它们对应的嵌入特征向量,其中通过整个增强图得到全局特征向量Iy,Iy′,块图视为局部特征向量,记为Py,Py′,它们经过第一个MLP头之后,得到对应的投影特征Iz,Iz′和Pz,Pz′,对于第一个增强图v,还需要将其投影特征投入第二个MLP头的计算,得到预测特征Iq和Pq;
作为本发明的一种改进,步骤3)中:采用多层次的对比学习来最大限度地利用从步骤七中筛选出块图的实例信息,首先进行局部对比学习,对于增强图v中的一个块图,其预测特征记为Pq,在步骤八中计算得到该块图来自增强图v′的匹配块图,该匹配块图的投影特征记为Pz′,为了提升上述匹配块图间的特征相似性,设立局部对比损失函数Llocal,其计算方式表示如下:
其中‖·‖表示L-2范数函数,<·>表示向量的内积;
接下来进行全局对比学习,对于数据集中一个图像的两个增强图v和v′,设定增强图v的预测特征为Iq,增强图v′的投影特征记为Iz′,则全局对比损失函数Lglobal的计算方式为:
其中‖·‖表示L-2范数函数,<·>表示向量的内积。
由于局部实例块图的位置在下游任务中也是十分重要的潜在信息,本发明设立一种全新的“全局—局部”的对比损失函数其将全局和局部的特征表示及局部块图的位置编码综合应用于对比学习,该位置编码设定为POS,表示一个筛选出的局部实例块图在整个增强图中的定位信息,对于一个像素大小为224×224的增强图,POS设定为初始值均为0的的一维向量,其长度为408,假定某块图左上角的像素点在增强图中的位置坐标为[a,b],其位置编码POC设置方式则是将向量下标为a和224+b的元素值设为1,对于一个增强图v,设立其综合对比学习连接表示Cq,其计算方式表示如下:
Cq=cat(Iq,Pq,POSP,v)
其中cat(·)表示向量的拼接操作,POSP,v代表块图P在增强图v中的位置编码,对于相对应的增强图v′的综合对比学习连接表示Cz′,具有类似的计算方式,接下来,计算“全局—局部”的对比损失函数:
步骤十三:接下来设置总损失函数,其表示为上述全局、局部、“全局—局部”三种层次对比损失函数的结合:
其中α,β,γ表示平衡这三种对比损失函数的权重;
将步骤十三中的基于区域筛选模块和多层次对比的模型应用于多实例数据集进行无监督的预训练,然后根据对应的下游任务,训练模型的线性分类层,最后使用数据集的测试集进行准确率的测试。
进一步的,所述步骤一中的图片增强图生成方式还包括随机填充和仿射变换。
进一步的,所述步骤一中使用图片随机大小裁剪增强时,将裁剪的范围设置为[0.08,0.75]。
进一步的,所述步骤二中块图网格化分割设置为实际数据集中图片切分为32×32块的标准。
进一步的,所述步骤三中信息熵的求平均运算是基于RGB图像进行的,若是基于灰度图像的数据集则直接计算灰度值的信息熵。
进一步的,所述步骤七中对于在每个增强中筛选块图的块数k的设置,根据实际数据集中实例区域平均信息量的含量来衡定,在COCO2017数据集预训练中设置为24。
进一步的,所述步骤九中主干网络fθ设置为Resnet18,Resnet34,Transformer特征提取网络。
进一步的,所述步骤十四中下游任务包括图像分类和目标检测。
有益效果:本发明提供了一种基于区域筛选模块和多层次对比的自监督预训练方法,在多实例数据集的环境下进行预训练时,相比较现有方法可以获得更高的模型准确度。该方法能筛选出数据集中局部实例信息块图,并设置多层次对比损失函数来最大限度的利用筛选出的实例信息,有效地解决了基于多实例数据集的对比学习中难以获得有效的实例信息并加以利用的问题。
附图说明
图1为本发明的方法流程图;
图2为本发明对PASCAL VOC 2007数据集图片进行实例区域筛选后的筛选结果图;
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细说明:
本实施例提供基于区域筛选模块和多层次对比的自监督预训练方法,并将其应用于PASCAL VOC中和COCO数据集中进行图像分类和目标检测。
该方法的流程如图1所示:
步骤一:生成数据集图片的增强图,对于一张给定的数据集RGB图片x,随机生成它的两个增强图v和v′,其中增强图的生成方式包括随机大小裁剪、颜色抖动、随机灰度值变换、灰度图像转换和随机水平翻转五种方法;
步骤二:图片的两个RGB增强图生成后,将其按照网格化的方式分割为整齐排列的多个块图{P1,P2,…,Pn},其中n表示增强图包含块图的总数;
步骤三:采用图像RGB信息熵来初步筛选实例块图,对于一个增强图的块图P,其依据RGB的三个不同颜色通道划分为[Pr:Pg:Pb],红色通道Pr的图像信息熵计算方式如下:
其中p(ri)表示像素值i在红色通道Pr中的比例,像素值的范围为[0,255]。绿色通道Pg和蓝色通道Pb图像信息熵和计算方式与上述红色通道Pr类似。接下来,计算块图总RGB信息熵HP,图像总RGB信息熵计算方式表示为:
步骤四:在整个增强图v中,将所有的网格化切分的块图{P1,P2,…,Pn}按照图像RGB信息熵HP大小从高到低排序,筛选出图像信息熵前kH高的块图进入步骤五的进一步筛选;
步骤五:因图像RGB信息熵仅能对增强图中块图的局部信息进行计算,故采用衡量全局信息的LC显著性检测值筛选方法对块图进行二次筛选,在增强图中,使用像素与图中其他灰度值所在像素之间的距离之来度量像素属于实例区域的概率,假设Ik表示增强图中一个像素点,则Ik的显著值计算方式如下:
其中,g(Ik)表示像素Ik的灰度值,fn表示灰度值n在整个增强图中的出现频率,Dist(.)代表两个灰度值之间的欧式距离,对于一个增强图v,将其转化为灰度图Vg,对于所有的像素点Ik,计算其显著值在Vg中的值;
步骤六:根据像素点的显著值来计算块图的显著值SP,其计算方式表示为:
步骤七:对于在步骤四中筛选出块图,根据块图的显著值SP从高到底排序,进一步筛选出显著值SP最高的前k个(k<kH)小块,作为实例区域筛选模块的筛选结果,对于增强图v,筛选出的所有块图表示为P(v);
图2展示了步骤七方法对PASCAL VOC 2007数据集中一张图片进行实例区域筛选的结果。可以看出在没有标签的情况下,本发明筛选出的区域很大概率都包含了图像中最关键的实例信息,所以将该模块筛选出的块图视为局部实例信息进行对比学习是有效的。
步骤八:由于增强图的生成方式包括能够改变位置特征的随机大小裁剪方法,所以不能保证在步骤七中筛选出的块图在一个图像的两个增强图v和v′中的位置是对应一致的,故采用互信息度量的方法对两个增强图v和v′中筛选的块图进行匹配,以将其准确用于步骤十和步骤十二的对比学习中,给定两个块图X,Y,他们的互信息值M(X,Y)的计算方式如下:
H(X,Y)=-∑a,b pXY(a,b)log2pXY(a,b)
M(X,Y)=HX+HY-H(X,Y)
其中pXY(a,b)表示两个像素值a,b在两个块图X,Y中的联合概率分布,接下来,对于一个块图,在另一个增强图中选择与其互信息值最高的作为匹配块图;
步骤九:计算用于对比学习的全局和局部特征,本发明的深度学习模型依次包含一个主干网络fθ和两个MLP头,主干网络选择残差网络Resnet50,MLP头包含一个线性层,归一化算子和ReLu层,对于多实例数据集中一个图像的两个增强图v和v′与它们在步骤七中筛选出的块图P(v)和P(v′),将其首先放入主干网络fθ中进行计算,输出得到它们对应的嵌入特征向量,其中通过整个增强图得到全局特征向量Iy,Iy′,块图视为局部特征向量,记为Py,Py′,它们经过第一个MLP头之后,得到对应的投影特征Iz,Iz′和Pz,Pz′,对于第一个增强图v,还需要将其投影特征投入第二个MLP头的计算,得到预测特征Iq和Pq;
步骤十:采用多层次的对比学习来最大限度地利用从步骤七中筛选出块图的实例信息,首先进行局部对比学习,对于增强图v中的一个块图,其预测特征记为Pq,在步骤八中计算得到该块图来自增强图v′的匹配块图,该匹配块图的投影特征记为Pz′,为了提升上述匹配块图间的特征相似性,设立局部对比损失函数Llocal,其计算方式表示如下:
其中‖·‖表示L-2范数函数,<·>表示向量的内积;
步骤十一:接下来进行全局对比学习,对于数据集中一个图像的两个增强图v和v′,设定增强图v的预测特征为Iq,增强图v′的投影特征记为Iz′,则全局对比损失函数Lglobal的计算方式为:
其中‖·‖表示L-2范数函数,<·>表示向量的内积。
步骤十二:由于局部实例块图的位置在下游任务中也是十分重要的潜在信息,本发明设立一种全新的“全局—局部”的对比损失函数其将全局和局部的特征表示及局部块图的位置编码综合应用于对比学习,该位置编码设定为POS,表示一个筛选出的局部实例块图在整个增强图中的定位信息,对于一个像素大小为224×224的增强图,POS设定为初始值均为0的的一维向量,其长度为408,假定某块图左上角的像素点在增强图中的位置坐标为[a,b],其位置编码POC设置方式则是将向量下标为a和224+b的元素值设为1,对于一个增强图v,设立其综合对比学习连接表示Cq,其计算方式表示如下:
Cq=cat(Iq,Pq,POSP,v)
其中cat(·)表示向量的拼接操作,POSP,v代表块图P在增强图v中的位置编码,对于相对应的增强图v′的综合对比学习连接表示Cz′,具有类似的计算方式,接下来,计算“全局—局部”的对比损失函数:
步骤十三:接下来设置总损失函数,其表示为上述全局、局部、“全局—局部”三种层次对比损失函数的结合:
其中α,β,γ表示平衡这三种对比损失函数的权重;
步骤十四:将步骤十三中的基于区域筛选模块和多层次对比的模型应用于多实例数据集进行无监督的预训练,然后根据对应的下游任务,训练模型的线性分类层,最后使用数据集的测试集进行准确率的测试。
本实例中,首先基于了COCO2017进行了自监督预训练,然后在PASCAL VOC 2007的测试集上进行了测试,本发明提出的模型获得了86.2%的top-1图像分类准确率和AP:52.9AP50:79.5AP75:58.0的目标检测结果,相较于以前的自监督预训练方法,这是一个极具竞争力的结果。除此之外,也基于了多实例数据集PASCAL VOC2007+2012的训练和验证集进行预训练,在PASCAL VOC 2007的测试集上能得到66.1%的图像分类准确率,相比于之前的自监督方法在同样数据集上的结果也有一定的效果提升。这些结果有力地证明了本发明提出的基于区域筛选模块和多层次对比的自监督模型针对多实例数据集的预训练具有优异的效果。
Claims (8)
1.一种基于区域筛选模块和多层次对比的自监督预训练方法,其特征在于:所述方法包括以下步骤:
步骤1):建立初始深度学习神经网络;
步骤2):将不带标签的训练输入数据输入神经网络,并基于无监督数据筛选出其中包含实例特征的局部块图;
步骤3):训练步骤,通过多层次对比学习的损失函数,基于无监督数据筛选出的局部块图训练深度学习神经网络模型。
2.根据权利要求1所述的一种基于区域筛选模块和多层次对比的自监督预训练方法,其特征在于,所述步骤2)具体包括:
图片的两个RGB增强图生成后,将其按照网格化的方式分割为整齐排列的多个块图{P1,P2,…,Pn},其中n表示增强图包含块图的总数;
采用图像RGB信息熵来初步筛选实例块图,对于一个增强图的块图P,其依据RGB的三个不同颜色通道划分为[Pr:Pg:Pb],红色通道Pr的图像信息熵计算方式如下:
其中p(ri)表示像素值i在红色通道Pr中的比例,像素值的范围为[0,255],接下来,计算块图总RGB信息熵HP,图像总RGB信息熵计算方式表示为:
在整个增强图v中,将所有的网格化切分的块图{P1,P2,…,Pn}按照图像RGB信息熵HP大小从高到低排序,筛选出图像信息熵前kH高的块图;
因图像RGB信息熵仅能对增强图中块图的局部信息进行计算,故采用衡量全局信息的LC显著性检测值筛选方法对块图进行二次筛选,在增强图中,使用像素与图中其他灰度值所在像素之间的距离之来度量像素属于实例区域的概率,假设Ik表示增强图中一个像素点,则Ik的显著值计算方式如下:
其中,g(Ik)表示像素Ik的灰度值,fn表示灰度值n在整个增强图中的出现频率,Dist(.)代表两个灰度值之间的欧式距离,对于一个增强图v,将其转化为灰度图Vg,对于所有的像素点Ik,计算其显著值在Vg中的值;
根据像素点的显著值来计算块图的显著值SP,其计算方式表示为:
根据块图的显著值SP从高到底排序,进一步筛选出显著值SP最高的前k个(k<kH)小块,作为实例区域筛选模块的筛选结果,对于增强图v,筛选出的所有块图表示为P(v);
计算用于对比学习的全局和局部特征,本发明的深度学习模型依次包含一个主干网络fθ和两个MLP头,主干网络选择残差网络Resnet50,MLP头包含一个线性层,归一化算子和ReLu层,
对于多实例数据集中一个图像的两个增强图v和v′与筛选出的块图P(v)和P(v′),将其首先放入主干网络fθ中进行计算,输出得到它们对应的嵌入特征向量,其中通过整个增强图得到全局特征向量Iy,Iy′,块图视为局部特征向量,记为Py,Py′,它们经过第一个MLP头之后,得到对应的投影特征Iz,Iz′和Pz,Pz′,对于第一个增强图v,还需要将其投影特征投入第二个MLP头的计算,得到预测特征Iq和Pq。
3.根据权利要求1所述的一种基于区域筛选模块和多层次对比的自监督预训练方法,其特征在于,所述步骤3)具体包括:
采用多层次的对比学习来最大限度地利用筛选出块图的实例信息,首先进行局部对比学习,对于增强图v中的一个块图,其预测特征记为Pq,计算得到该块图来自增强图v′的匹配块图,该匹配块图的投影特征记为Pz′,为了提升上述匹配块图间的特征相似性,设立局部对比损失函数Llocal,其计算方式表示如下:
其中‖·‖表示L-2范数函数,<·>表示向量的内积;
进行全局对比学习,对于数据集中一个图像的两个增强图v和v′,设定增强图v的预测特征为Iq,增强图v′的投影特征记为Iz′,则全局对比损失函数Lglobal的计算方式为:
其中‖·‖表示L-2范数函数,<·>表示向量的内积,
将全局和局部的特征表示及局部块图的位置编码综合应用于对比学习,该位置编码设定为POS,表示一个筛选出的局部实例块图在整个增强图中的定位信息,对于一个像素大小为224×224的增强图,POS设定为初始值均为0的的一维向量,其长度为408,假定某块图左上角的像素点在增强图中的位置坐标为[a,b],其位置编码POC设置方式则是将向量下标为a和224+b的元素值设为1,对于一个增强图v,设立其综合对比学习连接表示Cq,其计算方式表示如下:
Cq=cat(Iq,Pq,POSP,v)
其中cat(·)表示向量的拼接操作,POSP,v代表块图P在增强图v中的位置编码,对于相对应的增强图v′的综合对比学习连接表示Cz′,具有类似的计算方式,接下来,计算“全局—局部”的对比损失函数:
设置总损失函数,其表示为上述全局、局部、“全局—局部”三种层次对比损失函数的结合:
其中α,β,γ表示平衡这三种对比损失函数的权重。
4.根据权利要求2所述的基于区域筛选模块和多层次对比的自监督预训练方法,其特征在于,图片增强图生成方式还包括随机大小裁剪、颜色抖动、随机灰度值变换、灰度图像转换和随机水平翻转、随机填充和仿射变换。
5.根据权利要求4所述的基于区域筛选模块和多层次对比的自监督预训练方法,其特征在于,使用图片随机大小裁剪增强时,将裁剪的范围设置为[0.08,0.75]。
6.根据权利要求2所述的基于区域筛选模块和多层次对比的自监督预训练方法,其特征在于,块图网格化分割设置为实际数据集中图片切分为32×32块的标准。
7.根据权利要求2所述的基于区域筛选模块和多层次对比的自监督预训练方法,其特征在于,信息熵的求平均运算是基于RGB图像进行的,若是基于灰度图像的数据集则直接计算灰度值的信息熵。
8.根据权利要求2所述的基于区域筛选模块和多层次对比的自监督预训练方法,其特征在于,所述对于在每个增强中筛选块图的块数k的设置,根据实际数据集中实例区域平均信息量的含量来衡定,在COCO2017数据集预训练中设置为24。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210018471.XA CN114387454A (zh) | 2022-01-07 | 2022-01-07 | 一种基于区域筛选模块和多层次对比的自监督预训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210018471.XA CN114387454A (zh) | 2022-01-07 | 2022-01-07 | 一种基于区域筛选模块和多层次对比的自监督预训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114387454A true CN114387454A (zh) | 2022-04-22 |
Family
ID=81200511
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210018471.XA Pending CN114387454A (zh) | 2022-01-07 | 2022-01-07 | 一种基于区域筛选模块和多层次对比的自监督预训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114387454A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115019039A (zh) * | 2022-05-26 | 2022-09-06 | 湖北工业大学 | 一种结合自监督和全局信息增强的实例分割方法及系统 |
CN115131361A (zh) * | 2022-09-02 | 2022-09-30 | 北方健康医疗大数据科技有限公司 | 目标分割模型的训练、病灶分割方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019104767A1 (zh) * | 2017-11-28 | 2019-06-06 | 河海大学常州校区 | 基于深度卷积神经网络与视觉显著性的织物缺陷检测方法 |
CN110334705A (zh) * | 2019-06-25 | 2019-10-15 | 华中科技大学 | 一种结合全局和局部信息的场景文本图像的语种识别方法 |
US20210027098A1 (en) * | 2019-07-22 | 2021-01-28 | Shenzhen Malong Technologies Co., Ltd. | Weakly Supervised Image Segmentation Via Curriculum Learning |
CN112308860A (zh) * | 2020-10-28 | 2021-02-02 | 西北工业大学 | 基于自监督学习的对地观测图像语义分割方法 |
-
2022
- 2022-01-07 CN CN202210018471.XA patent/CN114387454A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019104767A1 (zh) * | 2017-11-28 | 2019-06-06 | 河海大学常州校区 | 基于深度卷积神经网络与视觉显著性的织物缺陷检测方法 |
CN110334705A (zh) * | 2019-06-25 | 2019-10-15 | 华中科技大学 | 一种结合全局和局部信息的场景文本图像的语种识别方法 |
US20210027098A1 (en) * | 2019-07-22 | 2021-01-28 | Shenzhen Malong Technologies Co., Ltd. | Weakly Supervised Image Segmentation Via Curriculum Learning |
CN112308860A (zh) * | 2020-10-28 | 2021-02-02 | 西北工业大学 | 基于自监督学习的对地观测图像语义分割方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115019039A (zh) * | 2022-05-26 | 2022-09-06 | 湖北工业大学 | 一种结合自监督和全局信息增强的实例分割方法及系统 |
CN115019039B (zh) * | 2022-05-26 | 2024-04-16 | 湖北工业大学 | 一种结合自监督和全局信息增强的实例分割方法及系统 |
CN115131361A (zh) * | 2022-09-02 | 2022-09-30 | 北方健康医疗大数据科技有限公司 | 目标分割模型的训练、病灶分割方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108564085B (zh) | 一种自动读取指针式仪表读数的方法 | |
CN111523553A (zh) | 一种基于相似度矩阵的中心点网络多目标检测方法 | |
CN112287941B (zh) | 一种基于自动字符区域感知的车牌识别方法 | |
CN112633382A (zh) | 一种基于互近邻的少样本图像分类方法及系统 | |
CN111652213A (zh) | 一种基于深度学习的船舶水尺读数识别方法 | |
CN113205026A (zh) | 一种基于Faster RCNN深度学习网络改进的车型识别方法 | |
CN114820655B (zh) | 可靠区域作为注意力机制监督的弱监督建筑物分割方法 | |
CN103020265A (zh) | 图像检索的方法和系统 | |
CN114387454A (zh) | 一种基于区域筛选模块和多层次对比的自监督预训练方法 | |
CN111652240A (zh) | 一种基于cnn的图像局部特征检测与描述方法 | |
CN111260645A (zh) | 基于分块分类深度学习的篡改图像检测方法及系统 | |
CN116342894A (zh) | 基于改进YOLOv5的GIS红外特征识别系统及方法 | |
CN113988147A (zh) | 基于图网络的遥感图像场景多标签分类方法及装置、多标签检索方法及装置 | |
CN113343989A (zh) | 一种基于前景选择域自适应的目标检测方法及系统 | |
CN115410258A (zh) | 基于注意力图像的人脸表情识别方法 | |
CN112070714B (zh) | 一种基于局部三元计数特征的翻拍图像检测方法 | |
CN116912184B (zh) | 一种基于篡改区域分离和区域约束损失的弱监督深度修复图像篡改定位方法及系统 | |
CN112418262A (zh) | 车辆再识别的方法、客户端及系统 | |
CN111476226A (zh) | 一种文本定位方法、装置及模型训练方法 | |
CN114898417B (zh) | 一种基于协调注意力深度神经网络的菊头蝠识别方法 | |
CN109886325A (zh) | 一种非线性颜色空间分类的模板选择与加速匹配方法 | |
CN115223033A (zh) | 一种合成孔径声呐图像目标分类方法及系统 | |
Sánchez et al. | Robust multiband image segmentation method based on user clues | |
CN115937540A (zh) | 基于Transformer编码器的图像匹配方法 | |
CN109740618B (zh) | 基于fhog特征的试卷分数自动统计方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |