CN112613527A

CN112613527A - 一种基于无监督学习的最小量化特征检测方法

Info

Publication number: CN112613527A
Application number: CN202011502512.XA
Authority: CN
Inventors: 周明全; 刘喆; 田琦; 耿国华; 冯龙; 王小凤; 邓胡承
Original assignee: Northwestern University
Current assignee: Northwestern University
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2021-04-06
Anticipated expiration: 2040-12-17
Also published as: CN112613527B

Abstract

本发明公开一种基于无监督学习的最小量化特征检测方法，首先对碎片数据集使用VGG16网络进行分类，再采用多通道特征叠加加权平均的方法消除图片中存在的噪声，获取叠加特征图，再使用k‑means聚类算法二分类分离出物体与背景，然后使用Otsu算法将物体本身剥离出来，再通过仿射变换得到第一级注意力机制图，即碎片图；将碎片图输入VGG16网络中再次训练，重复上述步骤，最终获得可量化分类指标图；解决了兵马俑海量碎片分类时碎片大小不一，无法进行准确标注的问题，大大增加文物工作者对文物复原的效率。

Description

一种基于无监督学习的最小量化特征检测方法

技术领域

本发明属于文物保护领域，涉及计算机深度学习及图形处理技术，具体涉及一种基于无监督学习的最小量化特征检测方法。

背景技术

兵马俑挖掘出土的文物现在有很多件，但是文物都是残缺不全的，面对发掘出土的如此多的碎片，使用人工进行复原就势必会花费大量的人力物力，而且也需要付出非常多的时间。因此基于深度学习的卷积神经网络在兵马俑碎片分类中起到了至关重要的作用，使用深度卷积神经网络进行兵马俑碎片部位拼接可以大幅提升分类速度与分类精度。但是使用卷积神经网络进行分类也存在着碎片部位大小不一，有的碎片过小无法进行分类的问题，因此，检测出兵马俑碎片部位可分类量化指标是筛选兵马俑碎片的关键。通常使用人工分拣来对碎片进行筛选，花费大量的人力和时间。

但是这种碎片拼接的方式，虽然在一定程度上可以减少分类的时间，但是由于人工分拣并不足够精准，势必会出现分拣出的碎片过小导致模型无法分类或分类错误，为复原兵马俑的后续工作带来困难。

发明内容

针对现有技术的缺点或不足，本发明的目的在于提供一种基于无监督学习的最小量化特征检测方法，使用分类量化指标将小尺度的碎片进行人工筛选，大尺度的碎片进行深度学习分类，有效地提升分类精度。

为实现上述目的，本发明所采用的技术方案是：

一种基于无监督学习的最小量化特征检测方法，包括以下步骤：

步骤一，为得到显著特征区域，使用VGG16预训练模型和兵马俑碎片数据集进行迁移学习，得到一个碎片分类模型，通过对最后一层卷积层的特征提取，将最后一层卷积特征使用加权平均的方法可视化出来，得到可视化特征图；

步骤二，将步骤一得到的可视化特征图进行二分类聚类消除噪声，使用 K-Means聚类算法做二分类，分出背景和轮廓特征，得到聚类特征图；

步骤三，使用Otsu算法将步骤二中得到的聚类特征图做二值化分割，得到二值化图像；

步骤四，对步骤三中的二值化图像进行标注框标注，然后通过仿射变换映射回原图；

需要做特征图标注框二维坐标(x，y)到二维坐标(u，v)的线性变换，其数学表达式形式如下：

对应的齐次坐标矩阵表示形式为：

其中，取h₂₀、h₂₁为0，h₂₂为1；

坐标变换：

步骤五，将步骤四中通过仿射变换映射回原图的区域的进行切割，得到去除背景噪声后的物体图，作为第一级注意力机制物体图；

步骤六，在确定提取到的图像有良好的分类性能后，将步骤五中第一级注意力机制提取到的物体图像再次进行特征提取到的图像再通过预训练后的 VGG16进行第二次特征提取与聚类，使用k-means聚类算法对可视化后的特征图进行三分类聚类，分出最小量化特征与轮廓，得到三分类聚类图；

步骤七，将步骤六中得到的三分类聚类图使用Otsu算法确定聚类特征图二值化分割阈值，得到二值化图像；

步骤八，查找步骤七中二值化图像的轮廓，用标注框标注后通过仿射变换映射回原图；

步骤九，将经过放射变换后的局部图像切割下来，即为可量化分类指标。

进一步，所述步骤二具体过称为：

将通过卷积层的特征图融合为一张特征图后，随机选取k个聚类质心点为μ₁，μ₂，……，μ_k∈Rⁿ；

重复下面过程直到收敛：

对于每一个样例i，计算其应该属于的类

对于每一个类j，重新计算该类的质心

k是事先给定的聚类数，c⁽ⁱ⁾代表样例i与k个类中距离最近的那个类，c⁽ⁱ⁾的值是1到k中的一个，质心μ_j代表对属于同一个类的样本中心点的猜测，拿星团模型来解释就是要将所有的星星聚成k个星团，首先随机选取k个宇宙中的点作为k个星团的质心，然后第一步对于每一个星星计算其到k个质心中每一个的距离，然后选取距离最近的那个星团作为c⁽ⁱ⁾，这样经过第一步每一个星星都有了所属的星团；第二步对于每一个星团，重新计算它的质心μ_j，重复迭代第一步和第二步直到质心不变或者变化很小，得到一张聚类后的特征图。

进一步，所述步骤三具体过程为：

假设存在阈值TH将图像所有像素分为小于TH的C1和大于TH的C2 两类，则这两类像素各自的均值就为m1、m2，图像全局均值为mG，同时像素被分为C1和C2类的概率分别为p1、p2，则有：

p1*m1+p2*m2＝mG (1)

p1+p2＝1 (2)

根据方差的概念，类间方差表达式为：

/sigma²＝p1(m1-mG)²+p2(m2-mG)²(3)

把上式化简，将式(1)代入式(3)，可得：

/sigma²＝p1p2(m1-m2)²

使得上式最大化的灰度级k就是OTSU阈值了；

其中：

根据公式，遍历0～255个灰度级，求出上式最大的k即为阈值，使用阈值k过滤所有符合要求的像素，得到二值化图像。

进一步，所述步骤六中采用k-means聚类算法对可视化后的特征图进行三分类聚类，具体过程为：

6.1)选择K个聚类的初始中心；

6.2)对任意一个样本点，求其到K个聚类中心的距离，将样本点归类到距离最小的中心的聚类，如此迭代n次；

6.3)每次迭代过程中，利用均值等方法更新各个聚类的中心点；

6.4)对K个聚类中心，通过步骤6.2)-步骤6.3)迭代更新后，如果位置点变化很小，则认为达到稳定状态，迭代结束，对不同的聚类块和聚类中心可选择不同的颜色标注，最终得到三分类聚类图。

进一步，所述步骤七具体过程为：

对于图像I(x，y)，前景和背景的分割阈值记作T，属于前景的像素点数占整幅图像的比例记为ω₀，平均灰度为μ₀；背景像素点数占整幅图像的比例为ω₁，平均灰度为μ₁；整幅图像的平均灰度记为μ，类间方差记为g；

假设图像大小为M×N，图像中像素的灰度值小于阈值T的像素个数为N₀，像素灰度大于阈值T的像素个数为N₁，那么：

ω₀＝N₀/M×N

ω₁＝N₁/M×N

N₀+N₁＝M×N

ω₀+ω₁＝1

μ＝ω₀×μ₀+ω₁×μ₁

g＝ω₀(μ₀-μ)²+ω₁(μ₁-μ)²

g＝ω₀ω₁(μ₀-μ₁)²

采用遍历的方法使得类间方差g最大的阈值T，使用阈值T过滤所有符合要求的像素，得到二值化图像。

本发明基于无监督学习的最小量化特征检测方法，首先对碎片数据集使用 VGG16网络进行分类，在得到不错的分类结果(98.6％)后，即可认为VGG16 是可以充分提取到兵马俑碎片特征，再采用多通道特征叠加加权平均的方法消除图片中存在的噪声，获取叠加特征图。再使用k-means聚类算法二分类分离出物体与背景，然后使用Otsu算法将物体本身剥离出来，再通过仿射变换得到第一级注意力机制图，即碎片图。将碎片图输入VGG16网络中再次训练，重复上述步骤，最终获得可量化分类指标图。

本发明找到深度卷积神经网络的可分类量化训练指标，使用这个分类量化指标将小于该尺度的碎片进行人工筛选，大于该尺度的碎片进行深度学习分类，可以有效地提升分类精度；用于在图片中标注物体可训练显著特征区域，其特征在于无监督学习自动分类，无需人工标注信息，有着很好的泛化能力；通过无监督学习的方法实现图片物体标注及可训练特征检测。其解决了兵马俑海量碎片分类时碎片大小不一，无法进行准确标注的问题，大大增加文物工作者对文物复原的效率。

附图说明

图1为兵马俑碎片数据集部分截图；

图2是通过VGG16后的兵马俑碎片特征叠加图；

图3为聚类效果图；

图4为Otus算法选取阈值图；

图5为第一次通过仿射变换后获取的整体碎片图；

图6为通过第二次VGG16特征提取后特征叠加图；

图7为通过聚类计算后的特征分类图；

图8为经过Otus算法二值化后图像；

图9为经过聚类与放射变换后的可分类量化指标；

图10为cub200-2011数据集；

图11为本方法在该数据集上测试图。

具体实施方式

步骤一，首先为得到显著特征区域，使用VGG16预训练模型和兵马俑碎片数据集进行迁移学习，得到一个分类模型。

通过对最后一层卷积层的特征提取，将最后一层卷积特征使用加权平均的方法可视化出来，当很多通道都在同一区域激活的话，那么这个区域是目标物体的概率较高。

所以可以将所有channel相加。那么feature map就h*w*d变成了h*w。

然后计算A的平均值a那么就可以得到

M_i，j＝A_i，j/n

其中I，j代表不同的位置。然后使用bicubic差值方法，将M resize成和原图相同大小。然后将M覆盖到原图之上，会发现虽然激活区域以目标物体为主，但是依然有一些噪音和背景被激活。

步骤二，将步骤一得到的可视化特征图进行二分类聚类，以达到消除噪声的目的，使用K-Mea聚类算法做二分类，分出背景，轮廓特征。

将通过卷积层的特征图融合为一张特征图后，随机选取k个聚类质心点(clustercentroids)为μ₁，μ₂，……，μ_k∈Rⁿ。

重复下面过程直到收敛：

对于每一个样例i，计算其应该属于的类

对于每一个类j，重新计算该类的质心

K是事先给定的聚类数，c⁽ⁱ⁾代表样例i与k个类中距离最近的那个类，c⁽ⁱ⁾的值是1到k中的一个。质心μ_j代表对属于同一个类的样本中心点的猜测，拿星团模型来解释就是要将所有的星星聚成k个星团，首先随机选取k个宇宙中的点(或者k个星星)作为k个星团的质心，然后第一步对于每一个星星计算其到k个质心中每一个的距离，然后选取距离最近的那个星团作为c⁽ⁱ⁾，这样经过第一步每一个星星都有了所属的星团；第二步对于每一个星团，重新计算它的质心μ_j(对里面所有的星星坐标求平均)。重复迭代第一步和第二步直到质心不变或者变化很小。最后可以得到一张聚类后的特征图。

步骤三，使用Otsu算法将步骤二中得到的聚类特征图做二值化分割。

假设存在阈值TH将图像所有像素分为两类C1(小于TH)和C2(大于TH)，则这两类像素各自的均值就为m1、m2，图像全局均值为mG。同时像素被分为C1和C2类的概率分别为p1、p2。因此就有：

p1*m1+p2*m2＝mG

p1+p2＝1

根据方差的概念，类间方差表达式为：

/sigma²＝p1(m1-mG)²+p2(m2-mG)²

把上式化简，将式(1)代入式(3)，可得：

/sigma²＝p1p2(m1-m2)²

使得上式最大化的灰度级k就是OTSU阈值了。其中：

根据公式，遍历0～255个灰度级，求出上式最大的k即为阈值。

步骤四，对步骤三中的二值化图像进行标注框标注，然后通过仿射变换映射回原图，如图5所示。

对应的齐次坐标矩阵表示形式为：

其中，取h20、h21为0，h22为1。

坐标变换：

步骤五，将步骤四中通过仿射变换映射回原图的区域的进行切割，得到去除背景噪声后的物体图，作为第一级注意力机制物体图。

使用VGG16模型进行训练，验证其可训练性。

使用预训练网络得到一个可分类的深度卷积神经网络，证明缩小后的图片具备良好的特征可以使用深度学习进行训练。

步骤六，在确定提取到的图像有良好的分类性能后，将步骤五中第一级注意力机制提取到的物体图像再次进行特征提取到的图像再通过预训练后的 VGG16进行第二次特征提取与聚类，使用k-means聚类算法对可视化后的特征图进行三分类聚类，分出最小量化特征与轮廓，如图6所示。

具体实施过程如下：

(随机)选择K个聚类的初始中心；

对任意一个样本点，求其到K个聚类中心的距离，将样本点归类到距离最小的中心的聚类，如此迭代n次；

每次迭代过程中，利用均值等方法更新各个聚类的中心点(质心)；

对K个聚类中心，利用2，3步迭代更新后，如果位置点变化很小(可以设置阈值)，则认为达到稳定状态，迭代结束，对不同的聚类块和聚类中心可选择不同的颜色标注，最终得到三分类聚类图。

步骤七，将步骤六中得到的三分类聚类图使用Otsu算法确定聚类特征图二值化分割阈值。

对于图像I(x，y)，前景(即目标)和背景的分割阈值记作T，属于前景的像素点数占整幅图像的比例记为ω0，平均灰度为μ0；背景像素点数占整幅图像的比例为ω1，平均灰度为μ1；整幅图像的平均灰度记为μ，类间方差记为g。

假设图像大小为M×N，图像中像素的灰度值小于阈值T的像素个数为N0，像素灰度大于阈值T的像素个数为N1，那么：

ω₀＝N₀/M×N

ω₁＝N₁/M×N

N₀+N₁＝M×N

ω₀+ω₁＝1

μ＝ω₀×μ₀+ω₁×μ₁

g＝ω₀(μ₀-μ)²+ω₁(μ₁-μ)²

g＝ω₀ω₁(μ₀-μ₁)²

采用遍历的方法使得类间方差g最大的阈值T，使用阈值T过滤所有符合要求的像素，得到一个二值化图。

步骤八，查找步骤七中二值化图像的轮廓，用标注框标注后通过仿射变换映射回原图。

仿射变换(Affine Transformation或Affine Map)是一种二维坐标(x，y)到二维坐标(u，v)的线性变换，其数学表达式形式如下：

对应的齐次坐标矩阵表示形式为：

仿射变换保持了二维图形的“平直性”(直线经仿射变换后依然为直线)和“平行性”(直线之间的相对位置关系保持不变，平行线经仿射变换后依然为平行线，且直线上点的位置顺序不会发生变化)。非共线的三对对应点确定一个唯一的仿射变换。

下面结合具体实施例对本发明作进一步详细描述，但不作为对本发明的限定。

兵马俑碎片照片预处理与数据增强的方法：

首先对兵马俑碎片数据进行三维扫描，采取阿泰克三维扫描仪对兵马俑模型进行扫描；

其次在Geomagic软件中对兵马俑模型进行模型简化工作；

最后将处理好的模型转化为多张2维图片。

将处理过的二维兵马俑数据集通过tensorflow中的数据集制作方法制作成tfrecords格式数据集方便后续训练中载入。将数据集通过一个预训练后的 VGG16深度卷积神经网络进行分类，并使用权值加权的方法将所有特征图叠加，消除噪声与背景对物体本身特征的影响。使用两级注意力机制对兵马俑部位碎片与兵马俑部位碎片可分类量化指标进行两级提取。

针对兵马俑碎片轮廓特征，使用第一级注意力提取机制，具体步骤如下：

步骤一，使用在imagenet上经过预训练后的VGG16模型(Very DeepConvolutional Networks for Large-Scale Image Recognition，ICLR，2015)和兵马俑碎片数据集(参考图1所示)进行迁移学习，得到一个分类效果良好(98.6％)的碎片分类模型。

这一步的目的主要为了验证VGG16分类网络对兵马俑碎片特征的敏感性，采用与训练模型可以很好地避免过拟合带来的特征提取不充分。

步骤二，在通过步骤一验证了兵马俑数据集可以得到良好的分类结果后，将第五层卷积层的所有通道叠加后一张特征叠加图，对特征叠加图使用加权平均的方法消除背景噪声后可视化出来。该步骤结果示例如图2所示

步骤三，使用聚类算法对步骤二中可视化后的特征图进行二分类聚类，目的是进一步过滤噪声，分出背景，轮廓特征。该步骤结果示例如图3所示

给定特征图是{x(1)，……，x(m)}每一个x(i)∈Rn，即每一个样本元素都是n维向量。

随机选取k个聚类质心点为μ1，μ2，……，μk∈Rn。

重复下面过程直到收敛，

对于每一个样本i计算其应该属于的类

对于每一个类μj，重新计算该类的质心

其中，k是给定的聚类数，c⁽ⁱ⁾代表样例i与k个类中距离最近的那个类， c⁽ⁱ⁾的值是1到k中的一个。质心μ_j代表属于同一个类的样本中心点的猜测，将所有的星星聚成k个星团，首先随机选取k个宇宙中的点作为k个星团的质心，然后第一步对于每一个星星计算其到k个质心中每一个的距离，然后选取距离最近的那个星团作为c⁽ⁱ⁾，这样经过第一步每一个星星都有了所属的星团；第二步对于每一个星团，重新计算它的质心μ_j。重复迭代第一步和第二步直到质心不变或者变化很小。

至此，得到一个二分类的背景碎片分割图。

步骤四，使用Otsu算法确定步骤三中聚类特征图二值化分割阈值，此阈值为最小物体包裹框，主要目的是为了初步缩小图片尺寸，消除不必要的背景，并使用仿射变换映射回原图并分割，获取第一级注意力图像。该步骤结果示例如图4所示。

聚类图像大小为M×N，图像中像素的灰度值小于阈值T的像素个数为N₀，像素灰度大于阈值T的像素个数为N₁，那么：

ω₀＝N₀/M×N

ω₁＝N₁/M×N

ω₀+ω₁＝1

μ＝ω₀×μ₀+ω₁×μ₁

g＝ω₀(μ₀-μ)²+ω₁(μ₁-μ)²

g＝ω₀ω₁(μ₀-μ₁)²

采用遍历的方法使得类间方差g最大的阈值T，即为所求。

仿射变换公式和操作：

第二级注意力提取机制主要步骤如下：

步骤一，在确定第一级注意力机制提取到的图像有良好的分类性能后，将第一级注意力机制提取到的图像再次进行特征提取到的图像再通过预训练后的VGG16进行第二次特征提取与聚类，使用k-means聚类算法对可视化后的特征图进行二分类聚类，分出最小量化特征与轮廓，该步骤结果示例如图7所示。

具体实施过程如下：

1.1)(随机)选择K个聚类的初始中心；

1.2)对任意一个样本点，求其到K个聚类中心的距离，将样本点归类到距离最小的中心的聚类，如此迭代n次；

1.3)每次迭代过程中，利用均值等方法更新各个聚类的中心点(质心)；

对K个聚类中心，利用1.2，1.3步迭代更新后，如果位置点变化很小(可以设置阈值)，则认为达到稳定状态，迭代结束，对不同的聚类块和聚类中心可选择不同的颜色标注。

步骤二，使用Otsu算法确定步骤一中聚类特征图二值化分割阈值。

假设图像大小为M×N，图像中像素的灰度值小于阈值T的像素个数为 N0，像素灰度大于阈值T的像素个数为N1，那么：

ω0＝N0/M×N

ω1＝N1/M×N

N0+N1＝M×N

ω0+ω1＝1

μ＝ω0*μ0+ω1*μ1

g＝ω0(μ0-μ)^2+ω1(μ1-μ)^2

g＝ω0ω1(μ0-μ1)^2

采用遍历的方法使得类间方差g最大的阈值T，即为所求。Ostu方法可以形象地理解为：求取直方图有两个峰值的图像中那两个峰值之间的低谷值T。

步骤三，查找步骤二中二值化图像的轮廓，用标注框标注后通过仿射变换映射回原图，该步骤结果示例如图8所示。

对应的齐次坐标矩阵表示形式为：

仿射变换保持了二维图形的“平直性”(直线经仿射变换后依然为直线)和“平行性”(直线之间的相对位置关系保持不变，平行线经仿射变换后依然为平行线，且直线上点的位置顺序不会发生变化)非共线的三对对应点确定一个唯一的仿射变换。

步骤四，将步骤三中经过放射变换后的局部图像切割下来，即为可量化分类指标。该步骤结果示例如图9所示，可以看出只需要胳膊大臂或小臂即可进行分类，因此在兵马俑碎片中可以收集长度小于20cm的柱状碎片分类；该分类量化指标为原图像物体最小可训练尺寸，如图1中兵马俑胳膊碎片，通过该算法后得到图9手腕与大臂两个可分类量化指标，因此在进行俑坑碎片筛选时就可以根据这个指标将体积大于图9的碎片进行训练分类，小于该尺度的碎片不具备分类能力。

兵马俑数据集背景噪声较小，作为对比使用复杂背景数据集cub200-2011 鸟类细粒度分类数据集为基准测试，如图10所示，由于本发明的算法是无需任何监督的，因此采用了SCDA方法(Selective Convolutional Descriptor Aggregation for Fine-GrainedImage Retrieval，IEEE，June 2017)作为基准，该方法采用了pool5输出的512个通道做加和后筛选出大于一定阈值的通道作为消除噪声的方法，并未使用目标图像细粒度数据集对与训练模型进行微调， SCDA可以找到有用的深度卷积特征，从而有效地将图像中的主要对象定位在适当的位置并丢弃无关且嘈杂的图像区域。这种方法对于简单背景下的物体可以很好地起到定位的作用，但是因为预训练的深度卷积网络本身对所有事物(花，云，草)都具有敏感性，因此在cub200-2011上表现不没有本方法好。本发明提出的最小量化特征检测网络可以根据卷积核响应区域对每一个通道进行选择，一定程度上消除了事物对物体本身的影响，因此在性能上要由于SCDA。如图11所示，SCDA算法不能标注出图中三只鸟，但是最小量化特征监测网络可以很好地标注出三只鸟的轮廓。

参照上述实施例对本发明进行了详细说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本权利要求范围当中。