CN112613527A - 一种基于无监督学习的最小量化特征检测方法 - Google Patents

一种基于无监督学习的最小量化特征检测方法 Download PDF

Info

Publication number
CN112613527A
CN112613527A CN202011502512.XA CN202011502512A CN112613527A CN 112613527 A CN112613527 A CN 112613527A CN 202011502512 A CN202011502512 A CN 202011502512A CN 112613527 A CN112613527 A CN 112613527A
Authority
CN
China
Prior art keywords
image
clustering
classification
pixels
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011502512.XA
Other languages
English (en)
Other versions
CN112613527B (zh
Inventor
周明全
刘喆
田琦
耿国华
冯龙
王小凤
邓胡承
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern University
Original Assignee
Northwestern University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern University filed Critical Northwestern University
Priority to CN202011502512.XA priority Critical patent/CN112613527B/zh
Publication of CN112613527A publication Critical patent/CN112613527A/zh
Application granted granted Critical
Publication of CN112613527B publication Critical patent/CN112613527B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于无监督学习的最小量化特征检测方法,首先对碎片数据集使用VGG16网络进行分类,再采用多通道特征叠加加权平均的方法消除图片中存在的噪声,获取叠加特征图,再使用k‑means聚类算法二分类分离出物体与背景,然后使用Otsu算法将物体本身剥离出来,再通过仿射变换得到第一级注意力机制图,即碎片图;将碎片图输入VGG16网络中再次训练,重复上述步骤,最终获得可量化分类指标图;解决了兵马俑海量碎片分类时碎片大小不一,无法进行准确标注的问题,大大增加文物工作者对文物复原的效率。

Description

一种基于无监督学习的最小量化特征检测方法
技术领域
本发明属于文物保护领域,涉及计算机深度学习及图形处理技术,具体涉及一种基于无监督学习的最小量化特征检测方法。
背景技术
兵马俑挖掘出土的文物现在有很多件,但是文物都是残缺不全的,面对发掘出土的如此多的碎片,使用人工进行复原就势必会花费大量的人力物力,而且也需要付出非常多的时间。因此基于深度学习的卷积神经网络在兵马俑碎片分类中起到了至关重要的作用,使用深度卷积神经网络进行兵马俑碎片部位拼接可以大幅提升分类速度与分类精度。但是使用卷积神经网络进行分类也存在着碎片部位大小不一,有的碎片过小无法进行分类的问题,因此,检测出兵马俑碎片部位可分类量化指标是筛选兵马俑碎片的关键。通常使用人工分拣来对碎片进行筛选,花费大量的人力和时间。
但是这种碎片拼接的方式,虽然在一定程度上可以减少分类的时间,但是由于人工分拣并不足够精准,势必会出现分拣出的碎片过小导致模型无法分类或分类错误,为复原兵马俑的后续工作带来困难。
发明内容
针对现有技术的缺点或不足,本发明的目的在于提供一种基于无监督学习的最小量化特征检测方法,使用分类量化指标将小尺度的碎片进行人工筛选,大尺度的碎片进行深度学习分类,有效地提升分类精度。
为实现上述目的,本发明所采用的技术方案是:
一种基于无监督学习的最小量化特征检测方法,包括以下步骤:
步骤一,为得到显著特征区域,使用VGG16预训练模型和兵马俑碎片数据集进行迁移学习,得到一个碎片分类模型,通过对最后一层卷积层的特征提取,将最后一层卷积特征使用加权平均的方法可视化出来,得到可视化特征图;
步骤二,将步骤一得到的可视化特征图进行二分类聚类消除噪声,使用 K-Means聚类算法做二分类,分出背景和轮廓特征,得到聚类特征图;
步骤三,使用Otsu算法将步骤二中得到的聚类特征图做二值化分割,得到二值化图像;
步骤四,对步骤三中的二值化图像进行标注框标注,然后通过仿射变换映射回原图;
需要做特征图标注框二维坐标(x,y)到二维坐标(u,v)的线性变换,其数学表达式形式如下:
Figure BDA0002843876600000021
对应的齐次坐标矩阵表示形式为:
Figure BDA0002843876600000022
其中,取h20、h21为0,h22为1;
坐标变换:
Figure BDA0002843876600000023
Figure BDA0002843876600000024
步骤五,将步骤四中通过仿射变换映射回原图的区域的进行切割,得到去除背景噪声后的物体图,作为第一级注意力机制物体图;
步骤六,在确定提取到的图像有良好的分类性能后,将步骤五中第一级注意力机制提取到的物体图像再次进行特征提取到的图像再通过预训练后的 VGG16进行第二次特征提取与聚类,使用k-means聚类算法对可视化后的特征图进行三分类聚类,分出最小量化特征与轮廓,得到三分类聚类图;
步骤七,将步骤六中得到的三分类聚类图使用Otsu算法确定聚类特征图二值化分割阈值,得到二值化图像;
步骤八,查找步骤七中二值化图像的轮廓,用标注框标注后通过仿射变换映射回原图;
步骤九,将经过放射变换后的局部图像切割下来,即为可量化分类指标。
进一步,所述步骤二具体过称为:
将通过卷积层的特征图融合为一张特征图后,随机选取k个聚类质心点为μ1,μ2,……,μk∈Rn
重复下面过程直到收敛:
对于每一个样例i,计算其应该属于的类
Figure BDA0002843876600000031
对于每一个类j,重新计算该类的质心
Figure BDA0002843876600000032
k是事先给定的聚类数,c(i)代表样例i与k个类中距离最近的那个类,c(i)的值是1到k中的一个,质心μj代表对属于同一个类的样本中心点的猜测,拿星团模型来解释就是要将所有的星星聚成k个星团,首先随机选取k个宇宙中的点作为k个星团的质心,然后第一步对于每一个星星计算其到k个质心中每一个的距离,然后选取距离最近的那个星团作为c(i),这样经过第一步每一个星星都有了所属的星团;第二步对于每一个星团,重新计算它的质心μj,重复迭代第一步和第二步直到质心不变或者变化很小,得到一张聚类后的特征图。
进一步,所述步骤三具体过程为:
假设存在阈值TH将图像所有像素分为小于TH的C1和大于TH的C2 两类,则这两类像素各自的均值就为m1、m2,图像全局均值为mG,同时像素被分为C1和C2类的概率分别为p1、p2,则有:
p1*m1+p2*m2=mG (1)
p1+p2=1 (2)
根据方差的概念,类间方差表达式为:
/sigma2=p1(m1-mG)2+p2(m2-mG)2(3)
把上式化简,将式(1)代入式(3),可得:
/sigma2=p1p2(m1-m2)2
使得上式最大化的灰度级k就是OTSU阈值了;
其中:
Figure BDA0002843876600000041
根据公式,遍历0~255个灰度级,求出上式最大的k即为阈值,使用阈值k过滤所有符合要求的像素,得到二值化图像。
进一步,所述步骤六中采用k-means聚类算法对可视化后的特征图进行三分类聚类,具体过程为:
6.1)选择K个聚类的初始中心;
6.2)对任意一个样本点,求其到K个聚类中心的距离,将样本点归类到距离最小的中心的聚类,如此迭代n次;
6.3)每次迭代过程中,利用均值等方法更新各个聚类的中心点;
6.4)对K个聚类中心,通过步骤6.2)-步骤6.3)迭代更新后,如果位置点变化很小,则认为达到稳定状态,迭代结束,对不同的聚类块和聚类中心可选择不同的颜色标注,最终得到三分类聚类图。
进一步,所述步骤七具体过程为:
对于图像I(x,y),前景和背景的分割阈值记作T,属于前景的像素点数占整幅图像的比例记为ω0,平均灰度为μ0;背景像素点数占整幅图像的比例为ω1,平均灰度为μ1;整幅图像的平均灰度记为μ,类间方差记为g;
假设图像大小为M×N,图像中像素的灰度值小于阈值T的像素个数为N0,像素灰度大于阈值T的像素个数为N1,那么:
ω0=N0/M×N
ω1=N1/M×N
N0+N1=M×N
ω01=1
μ=ω0×μ01×μ1
g=ω00-μ)211-μ)2
g=ω0ω101)2
采用遍历的方法使得类间方差g最大的阈值T,使用阈值T过滤所有符合要求的像素,得到二值化图像。
本发明基于无监督学习的最小量化特征检测方法,首先对碎片数据集使用 VGG16网络进行分类,在得到不错的分类结果(98.6%)后,即可认为VGG16 是可以充分提取到兵马俑碎片特征,再采用多通道特征叠加加权平均的方法消除图片中存在的噪声,获取叠加特征图。再使用k-means聚类算法二分类分离出物体与背景,然后使用Otsu算法将物体本身剥离出来,再通过仿射变换得到第一级注意力机制图,即碎片图。将碎片图输入VGG16网络中再次训练,重复上述步骤,最终获得可量化分类指标图。
本发明找到深度卷积神经网络的可分类量化训练指标,使用这个分类量化指标将小于该尺度的碎片进行人工筛选,大于该尺度的碎片进行深度学习分类,可以有效地提升分类精度;用于在图片中标注物体可训练显著特征区域,其特征在于无监督学习自动分类,无需人工标注信息,有着很好的泛化能力;通过无监督学习的方法实现图片物体标注及可训练特征检测。其解决了兵马俑海量碎片分类时碎片大小不一,无法进行准确标注的问题,大大增加文物工作者对文物复原的效率。
附图说明
图1为兵马俑碎片数据集部分截图;
图2是通过VGG16后的兵马俑碎片特征叠加图;
图3为聚类效果图;
图4为Otus算法选取阈值图;
图5为第一次通过仿射变换后获取的整体碎片图;
图6为通过第二次VGG16特征提取后特征叠加图;
图7为通过聚类计算后的特征分类图;
图8为经过Otus算法二值化后图像;
图9为经过聚类与放射变换后的可分类量化指标;
图10为cub200-2011数据集;
图11为本方法在该数据集上测试图。
具体实施方式
一种基于无监督学习的最小量化特征检测方法,包括以下步骤:
步骤一,首先为得到显著特征区域,使用VGG16预训练模型和兵马俑碎片数据集进行迁移学习,得到一个分类模型。
通过对最后一层卷积层的特征提取,将最后一层卷积特征使用加权平均的方法可视化出来,当很多通道都在同一区域激活的话,那么这个区域是目标物体的概率较高。
所以可以将所有channel相加。那么feature map就h*w*d变成了h*w。
Figure BDA0002843876600000061
然后计算A的平均值a那么就可以得到
Mi,j=Ai,j/n
其中I,j代表不同的位置。然后使用bicubic差值方法,将M resize成和原图相同大小。然后将M覆盖到原图之上,会发现虽然激活区域以目标物体为主,但是依然有一些噪音和背景被激活。
步骤二,将步骤一得到的可视化特征图进行二分类聚类,以达到消除噪声的目的,使用K-Mea聚类算法做二分类,分出背景,轮廓特征。
将通过卷积层的特征图融合为一张特征图后,随机选取k个聚类质心点(clustercentroids)为μ1,μ2,……,μk∈Rn
重复下面过程直到收敛:
对于每一个样例i,计算其应该属于的类
Figure BDA0002843876600000071
对于每一个类j,重新计算该类的质心
Figure BDA0002843876600000072
K是事先给定的聚类数,c(i)代表样例i与k个类中距离最近的那个类,c(i)的值是1到k中的一个。质心μj代表对属于同一个类的样本中心点的猜测,拿星团模型来解释就是要将所有的星星聚成k个星团,首先随机选取k个宇宙中的点(或者k个星星)作为k个星团的质心,然后第一步对于每一个星星计算其到k个质心中每一个的距离,然后选取距离最近的那个星团作为c(i),这样经过第一步每一个星星都有了所属的星团;第二步对于每一个星团,重新计算它的质心μj(对里面所有的星星坐标求平均)。重复迭代第一步和第二步直到质心不变或者变化很小。最后可以得到一张聚类后的特征图。
步骤三,使用Otsu算法将步骤二中得到的聚类特征图做二值化分割。
假设存在阈值TH将图像所有像素分为两类C1(小于TH)和C2(大于TH),则这两类像素各自的均值就为m1、m2,图像全局均值为mG。同时像素被分为C1和C2类的概率分别为p1、p2。因此就有:
p1*m1+p2*m2=mG
p1+p2=1
根据方差的概念,类间方差表达式为:
/sigma2=p1(m1-mG)2+p2(m2-mG)2
把上式化简,将式(1)代入式(3),可得:
/sigma2=p1p2(m1-m2)2
使得上式最大化的灰度级k就是OTSU阈值了。其中:
Figure BDA0002843876600000081
Figure BDA0002843876600000082
Figure BDA0002843876600000083
根据公式,遍历0~255个灰度级,求出上式最大的k即为阈值。
步骤四,对步骤三中的二值化图像进行标注框标注,然后通过仿射变换映射回原图,如图5所示。
需要做特征图标注框二维坐标(x,y)到二维坐标(u,v)的线性变换,其数学表达式形式如下:
Figure BDA0002843876600000084
对应的齐次坐标矩阵表示形式为:
Figure BDA0002843876600000085
其中,取h20、h21为0,h22为1。
坐标变换:
Figure BDA0002843876600000086
Figure BDA0002843876600000087
步骤五,将步骤四中通过仿射变换映射回原图的区域的进行切割,得到去除背景噪声后的物体图,作为第一级注意力机制物体图。
使用VGG16模型进行训练,验证其可训练性。
使用预训练网络得到一个可分类的深度卷积神经网络,证明缩小后的图片具备良好的特征可以使用深度学习进行训练。
步骤六,在确定提取到的图像有良好的分类性能后,将步骤五中第一级注意力机制提取到的物体图像再次进行特征提取到的图像再通过预训练后的 VGG16进行第二次特征提取与聚类,使用k-means聚类算法对可视化后的特征图进行三分类聚类,分出最小量化特征与轮廓,如图6所示。
具体实施过程如下:
(随机)选择K个聚类的初始中心;
对任意一个样本点,求其到K个聚类中心的距离,将样本点归类到距离最小的中心的聚类,如此迭代n次;
每次迭代过程中,利用均值等方法更新各个聚类的中心点(质心);
对K个聚类中心,利用2,3步迭代更新后,如果位置点变化很小(可以设置阈值),则认为达到稳定状态,迭代结束,对不同的聚类块和聚类中心可选择不同的颜色标注,最终得到三分类聚类图。
步骤七,将步骤六中得到的三分类聚类图使用Otsu算法确定聚类特征图二值化分割阈值。
对于图像I(x,y),前景(即目标)和背景的分割阈值记作T,属于前景的像素点数占整幅图像的比例记为ω0,平均灰度为μ0;背景像素点数占整幅图像的比例为ω1,平均灰度为μ1;整幅图像的平均灰度记为μ,类间方差记为g。
假设图像大小为M×N,图像中像素的灰度值小于阈值T的像素个数为N0,像素灰度大于阈值T的像素个数为N1,那么:
ω0=N0/M×N
ω1=N1/M×N
N0+N1=M×N
ω01=1
μ=ω0×μ01×μ1
g=ω00-μ)211-μ)2
g=ω0ω101)2
采用遍历的方法使得类间方差g最大的阈值T,使用阈值T过滤所有符合要求的像素,得到一个二值化图。
步骤八,查找步骤七中二值化图像的轮廓,用标注框标注后通过仿射变换映射回原图。
仿射变换(Affine Transformation或Affine Map)是一种二维坐标(x,y)到二维坐标(u,v)的线性变换,其数学表达式形式如下:
Figure BDA0002843876600000101
对应的齐次坐标矩阵表示形式为:
Figure BDA0002843876600000102
仿射变换保持了二维图形的“平直性”(直线经仿射变换后依然为直线)和“平行性”(直线之间的相对位置关系保持不变,平行线经仿射变换后依然为平行线,且直线上点的位置顺序不会发生变化)。非共线的三对对应点确定一个唯一的仿射变换。
步骤九,将经过放射变换后的局部图像切割下来,即为可量化分类指标。
下面结合具体实施例对本发明作进一步详细描述,但不作为对本发明的限定。
兵马俑碎片照片预处理与数据增强的方法:
首先对兵马俑碎片数据进行三维扫描,采取阿泰克三维扫描仪对兵马俑模型进行扫描;
其次在Geomagic软件中对兵马俑模型进行模型简化工作;
最后将处理好的模型转化为多张2维图片。
将处理过的二维兵马俑数据集通过tensorflow中的数据集制作方法制作成tfrecords格式数据集方便后续训练中载入。将数据集通过一个预训练后的 VGG16深度卷积神经网络进行分类,并使用权值加权的方法将所有特征图叠加,消除噪声与背景对物体本身特征的影响。使用两级注意力机制对兵马俑部位碎片与兵马俑部位碎片可分类量化指标进行两级提取。
针对兵马俑碎片轮廓特征,使用第一级注意力提取机制,具体步骤如下:
步骤一,使用在imagenet上经过预训练后的VGG16模型(Very DeepConvolutional Networks for Large-Scale Image Recognition,ICLR,2015)和兵马俑碎片数据集(参考图1所示)进行迁移学习,得到一个分类效果良好(98.6%)的碎片分类模型。
这一步的目的主要为了验证VGG16分类网络对兵马俑碎片特征的敏感性,采用与训练模型可以很好地避免过拟合带来的特征提取不充分。
步骤二,在通过步骤一验证了兵马俑数据集可以得到良好的分类结果后,将第五层卷积层的所有通道叠加后一张特征叠加图,对特征叠加图使用加权平均的方法消除背景噪声后可视化出来。该步骤结果示例如图2所示
步骤三,使用聚类算法对步骤二中可视化后的特征图进行二分类聚类,目的是进一步过滤噪声,分出背景,轮廓特征。该步骤结果示例如图3所示
给定特征图是{x(1),……,x(m)}每一个x(i)∈Rn,即每一个样本元素都是n维向量。
随机选取k个聚类质心点为μ1,μ2,……,μk∈Rn。
重复下面过程直到收敛,
Figure BDA0002843876600000111
对于每一个样本i计算其应该属于的类
对于每一个类μj,重新计算该类的质心
其中,k是给定的聚类数,c(i)代表样例i与k个类中距离最近的那个类, c(i)的值是1到k中的一个。质心μj代表属于同一个类的样本中心点的猜测,将所有的星星聚成k个星团,首先随机选取k个宇宙中的点作为k个星团的质心,然后第一步对于每一个星星计算其到k个质心中每一个的距离,然后选取距离最近的那个星团作为c(i),这样经过第一步每一个星星都有了所属的星团;第二步对于每一个星团,重新计算它的质心μj。重复迭代第一步和第二步直到质心不变或者变化很小。
至此,得到一个二分类的背景碎片分割图。
步骤四,使用Otsu算法确定步骤三中聚类特征图二值化分割阈值,此阈值为最小物体包裹框,主要目的是为了初步缩小图片尺寸,消除不必要的背景,并使用仿射变换映射回原图并分割,获取第一级注意力图像。该步骤结果示例如图4所示。
聚类图像大小为M×N,图像中像素的灰度值小于阈值T的像素个数为N0,像素灰度大于阈值T的像素个数为N1,那么:
ω0=N0/M×N
ω1=N1/M×N
ω01=1
μ=ω0×μ01×μ1
g=ω00-μ)211-μ)2
g=ω0ω101)2
采用遍历的方法使得类间方差g最大的阈值T,即为所求。
仿射变换公式和操作:
Figure BDA0002843876600000131
第二级注意力提取机制主要步骤如下:
步骤一,在确定第一级注意力机制提取到的图像有良好的分类性能后,将第一级注意力机制提取到的图像再次进行特征提取到的图像再通过预训练后的VGG16进行第二次特征提取与聚类,使用k-means聚类算法对可视化后的特征图进行二分类聚类,分出最小量化特征与轮廓,该步骤结果示例如图7所示。
具体实施过程如下:
1.1)(随机)选择K个聚类的初始中心;
1.2)对任意一个样本点,求其到K个聚类中心的距离,将样本点归类到距离最小的中心的聚类,如此迭代n次;
1.3)每次迭代过程中,利用均值等方法更新各个聚类的中心点(质心);
对K个聚类中心,利用1.2,1.3步迭代更新后,如果位置点变化很小(可以设置阈值),则认为达到稳定状态,迭代结束,对不同的聚类块和聚类中心可选择不同的颜色标注。
步骤二,使用Otsu算法确定步骤一中聚类特征图二值化分割阈值。
对于图像I(x,y),前景(即目标)和背景的分割阈值记作T,属于前景的像素点数占整幅图像的比例记为ω0,平均灰度为μ0;背景像素点数占整幅图像的比例为ω1,平均灰度为μ1;整幅图像的平均灰度记为μ,类间方差记为g。
假设图像大小为M×N,图像中像素的灰度值小于阈值T的像素个数为 N0,像素灰度大于阈值T的像素个数为N1,那么:
ω0=N0/M×N
ω1=N1/M×N
N0+N1=M×N
ω0+ω1=1
μ=ω0*μ0+ω1*μ1
g=ω0(μ0-μ)^2+ω1(μ1-μ)^2
g=ω0ω1(μ0-μ1)^2
采用遍历的方法使得类间方差g最大的阈值T,即为所求。Ostu方法可以形象地理解为:求取直方图有两个峰值的图像中那两个峰值之间的低谷值T。
步骤三,查找步骤二中二值化图像的轮廓,用标注框标注后通过仿射变换映射回原图,该步骤结果示例如图8所示。
仿射变换(Affine Transformation或Affine Map)是一种二维坐标(x,y)到二维坐标(u,v)的线性变换,其数学表达式形式如下:
Figure BDA0002843876600000141
对应的齐次坐标矩阵表示形式为:
Figure BDA0002843876600000142
仿射变换保持了二维图形的“平直性”(直线经仿射变换后依然为直线)和“平行性”(直线之间的相对位置关系保持不变,平行线经仿射变换后依然为平行线,且直线上点的位置顺序不会发生变化)非共线的三对对应点确定一个唯一的仿射变换。
步骤四,将步骤三中经过放射变换后的局部图像切割下来,即为可量化分类指标。该步骤结果示例如图9所示,可以看出只需要胳膊大臂或小臂即可进行分类,因此在兵马俑碎片中可以收集长度小于20cm的柱状碎片分类;该分类量化指标为原图像物体最小可训练尺寸,如图1中兵马俑胳膊碎片,通过该算法后得到图9手腕与大臂两个可分类量化指标,因此在进行俑坑碎片筛选时就可以根据这个指标将体积大于图9的碎片进行训练分类,小于该尺度的碎片不具备分类能力。
兵马俑数据集背景噪声较小,作为对比使用复杂背景数据集cub200-2011 鸟类细粒度分类数据集为基准测试,如图10所示,由于本发明的算法是无需任何监督的,因此采用了SCDA方法(Selective Convolutional Descriptor Aggregation for Fine-GrainedImage Retrieval,IEEE,June 2017)作为基准,该方法采用了pool5输出的512个通道做加和后筛选出大于一定阈值的通道作为消除噪声的方法,并未使用目标图像细粒度数据集对与训练模型进行微调, SCDA可以找到有用的深度卷积特征,从而有效地将图像中的主要对象定位在适当的位置并丢弃无关且嘈杂的图像区域。这种方法对于简单背景下的物体可以很好地起到定位的作用,但是因为预训练的深度卷积网络本身对所有事物(花,云,草)都具有敏感性,因此在cub200-2011上表现不没有本方法好。本发明提出的最小量化特征检测网络可以根据卷积核响应区域对每一个通道进行选择,一定程度上消除了事物对物体本身的影响,因此在性能上要由于SCDA。如图11所示,SCDA算法不能标注出图中三只鸟,但是最小量化特征监测网络可以很好地标注出三只鸟的轮廓。
参照上述实施例对本发明进行了详细说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本权利要求范围当中。

Claims (5)

1.一种基于无监督学习的最小量化特征检测方法,其特征在于包括以下步骤:
步骤一,为得到显著特征区域,使用VGG16预训练模型和兵马俑碎片数据集进行迁移学习,得到一个碎片分类模型,通过对最后一层卷积层的特征提取,将最后一层卷积特征使用加权平均的方法可视化出来,得到可视化特征图;
步骤二,将步骤一得到的可视化特征图进行二分类聚类消除噪声,使用K-Means聚类算法做二分类,分出背景和轮廓特征,得到聚类特征图;
步骤三,使用Otsu算法将步骤二中得到的聚类特征图做二值化分割,得到二值化图像;
步骤四,对步骤三中的二值化图像进行标注框标注,然后通过仿射变换映射回原图;
需要做特征图标注框二维坐标(x,y)到二维坐标(u,v)的线性变换,其数学表达式形式如下:
Figure FDA0002843876590000011
对应的齐次坐标矩阵表示形式为:
Figure FDA0002843876590000012
其中,取h20、h21为0,h22为1;
坐标变换:
Figure FDA0002843876590000013
Figure FDA0002843876590000014
步骤五,将步骤四中通过仿射变换映射回原图的区域的进行切割,得到去除背景噪声后的物体图,作为第一级注意力机制物体图;
步骤六,在确定提取到的图像有良好的分类性能后,将步骤五中第一级注意力机制提取到的物体图像再次进行特征提取到的图像再通过预训练后的VGG16进行第二次特征提取与聚类,使用k-means聚类算法对可视化后的特征图进行三分类聚类,分出最小量化特征与轮廓,得到三分类聚类图;
步骤七,将步骤六中得到的三分类聚类图使用Otsu算法确定聚类特征图二值化分割阈值,得到二值化图像;
步骤八,查找步骤七中二值化图像的轮廓,用标注框标注后通过仿射变换映射回原图;
步骤九,将经过放射变换后的局部图像切割下来,即为可量化分类指标。
2.根据权利要求1所述的基于无监督学习的最小量化特征检测方法,其特征在于:所述步骤二具体过称为:
将通过卷积层的特征图融合为一张特征图后,随机选取k个聚类质心点为μ1,μ2,……,μk∈Rn
重复下面过程直到收敛:
对于每一个样例i,计算其应该属于的类
Figure FDA0002843876590000021
对于每一个类j,重新计算该类的质心
Figure FDA0002843876590000022
k是事先给定的聚类数,c(i)代表样例i与k个类中距离最近的那个类,c(i)的值是1到k中的一个,质心μj代表对属于同一个类的样本中心点的猜测,拿星团模型来解释就是要将所有的星星聚成k个星团,首先随机选取k个宇宙中的点作为k个星团的质心,然后第一步对于每一个星星计算其到k个质心中每一个的距离,然后选取距离最近的那个星团作为c(i),这样经过第一步每一个星星都有了所属的星团;第二步对于每一个星团,重新计算它的质心μj,重复迭代第一步和第二步直到质心不变或者变化很小,得到一张聚类后的特征图。
3.根据权利要求1所述的基于无监督学习的最小量化特征检测方法,其特征在于:所述步骤三具体过程为:
假设存在阈值TH将图像所有像素分为小于TH的C1和大于TH的C2两类,则这两类像素各自的均值就为m1、m2,图像全局均值为mG,同时像素被分为C1和C2类的概率分别为p1、p2,则有:
p1*m1+p2*m2=mG (1)
p1+p2=1 (2)
根据方差的概念,类间方差表达式为:
/sigma2=p1(m1-mG)2+p2(m2-mG)2 (3)
把上式化简,将式(1)代入式(3),可得:
/sigma2=p1p2(m1-m2)2
使得上式最大化的灰度级k就是OTSU阈值了;
其中:
Figure FDA0002843876590000031
根据公式,遍历0~255个灰度级,求出上式最大的k即为阈值,使用阈值k过滤所有符合要求的像素,得到二值化图像。
4.根据权利要求1所述的基于无监督学习的最小量化特征检测方法,其特征在于:所述步骤六中采用k-means聚类算法对可视化后的特征图进行三分类聚类,具体过程为:
6.1)选择K个聚类的初始中心;
6.2)对任意一个样本点,求其到K个聚类中心的距离,将样本点归类到距离最小的中心的聚类,如此迭代n次;
6.3)每次迭代过程中,利用均值等方法更新各个聚类的中心点;
6.4)对K个聚类中心,通过步骤6.2)-步骤6.3)迭代更新后,如果位置点变化很小,则认为达到稳定状态,迭代结束,对不同的聚类块和聚类中心可选择不同的颜色标注,最终得到三分类聚类图。
5.根据权利要求1所述的基于无监督学习的最小量化特征检测方法,其特征在于:所述步骤七具体过程为:
对于图像I(x,y),前景和背景的分割阈值记作T,属于前景的像素点数占整幅图像的比例记为ω0,平均灰度为μ0;背景像素点数占整幅图像的比例为ω1,平均灰度为μ1;整幅图像的平均灰度记为μ,类间方差记为g;
假设图像大小为M×N,图像中像素的灰度值小于阈值T的像素个数为N0,像素灰度大于阈值T的像素个数为N1,那么:
ω0=N0/M×N
ω1=N1/M×N
N0+N1=M×N
ω01=1
μ=ω0×μ01×μ1
g=ω00-μ)211-μ)2
g=ω0ω101)2
采用遍历的方法使得类间方差g最大的阈值T,使用阈值T过滤所有符合要求的像素,得到二值化图像。
CN202011502512.XA 2020-12-17 2020-12-17 一种基于无监督学习的最小量化特征检测方法 Active CN112613527B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011502512.XA CN112613527B (zh) 2020-12-17 2020-12-17 一种基于无监督学习的最小量化特征检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011502512.XA CN112613527B (zh) 2020-12-17 2020-12-17 一种基于无监督学习的最小量化特征检测方法

Publications (2)

Publication Number Publication Date
CN112613527A true CN112613527A (zh) 2021-04-06
CN112613527B CN112613527B (zh) 2023-07-28

Family

ID=75241051

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011502512.XA Active CN112613527B (zh) 2020-12-17 2020-12-17 一种基于无监督学习的最小量化特征检测方法

Country Status (1)

Country Link
CN (1) CN112613527B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150371111A1 (en) * 2014-06-20 2015-12-24 Qualcomm Incorporated Systems and methods for obtaining structural information from a digital image
CN106295710A (zh) * 2016-08-18 2017-01-04 晶赞广告(上海)有限公司 基于非几何约束的图像局部特征匹配方法、装置及终端
CN111161229A (zh) * 2019-12-23 2020-05-15 大连理工大学 一种基于几何主动轮廓模型和稀疏自编码的变化检测方法
CN111161292A (zh) * 2019-11-21 2020-05-15 合肥合工安驰智能科技有限公司 一种矿石尺度测量方法及应用系统
US20200234137A1 (en) * 2017-08-18 2020-07-23 Intel Corporation Efficient neural networks with elaborate matrix structures in machine learning environments
CN112085024A (zh) * 2020-09-21 2020-12-15 江苏理工学院 一种罐表面字符识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150371111A1 (en) * 2014-06-20 2015-12-24 Qualcomm Incorporated Systems and methods for obtaining structural information from a digital image
CN106295710A (zh) * 2016-08-18 2017-01-04 晶赞广告(上海)有限公司 基于非几何约束的图像局部特征匹配方法、装置及终端
US20200234137A1 (en) * 2017-08-18 2020-07-23 Intel Corporation Efficient neural networks with elaborate matrix structures in machine learning environments
CN111161292A (zh) * 2019-11-21 2020-05-15 合肥合工安驰智能科技有限公司 一种矿石尺度测量方法及应用系统
CN111161229A (zh) * 2019-12-23 2020-05-15 大连理工大学 一种基于几何主动轮廓模型和稀疏自编码的变化检测方法
CN112085024A (zh) * 2020-09-21 2020-12-15 江苏理工学院 一种罐表面字符识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HASELJIC H ET AL: "《A review of the image segmentation and registration methods in liver motion correction in C-arm perfusion imaging》", 《IEEE》 *
吕琳: "《机器视觉在设备显示信息检测中的应用》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Also Published As

Publication number Publication date
CN112613527B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
CN108562589B (zh) 一种对磁路材料表面缺陷进行检测的方法
CN107169956B (zh) 基于卷积神经网络的色织物疵点检测方法
CN105930815B (zh) 一种水下生物检测方法和系统
CN109410238B (zh) 一种基于PointNet++网络的枸杞识别计数方法
CN112347970B (zh) 一种基于图卷积神经网络的遥感影像地物识别方法
CN111582294A (zh) 一种构建用于表面缺陷检测的卷积神经网络模型的方法及其利用
CN108629286B (zh) 一种基于主观感知显著模型的遥感机场目标检测方法
Prasad et al. An efficient classification of flower images with convolutional neural networks
CN111611972B (zh) 基于多视图多任务集成学习的作物叶片种类识别方法
CN107944459A (zh) 一种rgb‑d物体识别方法
CN113379833B (zh) 一种基于神经网络的图像可见水印的定位和分割方法
CN111914902B (zh) 一种基于深度神经网络的中药识别与表面缺陷检测方法
CN111161213B (zh) 一种基于知识图谱的工业产品缺陷图像分类方法
CN111369526B (zh) 基于半监督深度学习的多类型旧桥裂痕识别方法
CN113988147B (zh) 基于图网络的遥感图像场景多标签分类方法及装置、多标签检索方法及装置
CN114170511A (zh) 基于Cascade RCNN的路面裂缝病害识别方法
CN113362277A (zh) 一种基于深度学习的工件表面缺陷检测和分割方法
CN115294377A (zh) 一种道路裂缝的识别系统及方法
CN109740607B (zh) 字符图像的残缺区域检测和残缺字符图像恢复方法
Varkentin et al. Development of an application for car license plates recognition using neural network technologies
Ayazi et al. Comparison of traditional and machine learning base methods for ground point cloud labeling
CN112613527B (zh) 一种基于无监督学习的最小量化特征检测方法
CN105844299A (zh) 一种基于词袋模型的图像分类方法
CN112364844B (zh) 一种基于计算机视觉技术的数据采集方法及系统
Fadlil et al. Butterfly Image Identification Using Multilevel Thresholding Segmentation and Convolutional Neural Network Classification with Alexnet Architecture

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant