CN104680178B

CN104680178B - 基于迁移学习多吸引子细胞自动机的图像分类方法

Info

Publication number: CN104680178B
Application number: CN201510100218.9A
Authority: CN
Inventors: 方敏; 刘心元; 刘彦勋; 王彤
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2015-03-06
Filing date: 2015-03-06
Publication date: 2017-11-21
Anticipated expiration: 2035-03-06
Also published as: CN104680178A

Abstract

本发明公开了一种基于迁移学习多吸引子细胞自动机的图像分类方法，主要解决现有基于迁移的图像分类方法无法避免空盆出现，计算源域样本和目标域样本相似性不准确，源域样本到目标域的迁移效果差，分类准确性低的问题。其步骤是：(1)图像数据预处理；(2)训练源域空间中的多吸引子细胞自动机MACA树；(3)划分目标域训练集；(4)构造局部模式空间训练集；(5)训练局部模式空间中的多吸引子细胞自动机MACA树；(6)生成目标域多吸引子细胞自动机MACA树。本发明具有泛化能力强，分类准确性高的优点，有效克服了现有图像分类方法无法避免空盆出现和迁移效果差的问题。

Description

基于迁移学习多吸引子细胞自动机的图像分类方法

技术领域

本发明属于图像处理技术领域，更进一步涉及机器学习技术领域中的一种基于迁移学习多吸引子细胞自动机的图像分类方法。本发明利用迁移学习方法，将源域图像知识迁移到目标域用于辅助分类器的学习，提高图像的分类准确性。

背景技术

随着数字图像的使用数量正在急剧增长，在人们生活中起着越来越重要的作用。在许多图像的模式分类问题中，收集带有类别标签的训练样本是昂贵和费时的，同时，基于有限的标记图像数据难以训练出有效的预测器。迁移学习借助源域数据潜在的对目标域具有辅助作用的知识，以辅助目标域分类器的学习。目前，迁移学习方法的研究已经成为机器学习研究热点之一。通过利用来自其他领域的图像数据知识，结合目标域有限数量图像数据训练出鲁棒分类器。迁移学习方法已成功地应用于许多现实世界中，如情绪分类，自然语言处理，文本分类，信息提取，无线本地化，视觉概念分类等等。

Min Fang，WenKe Niu，XiaoSong Zhang在文章An Improved Multiple AttractorCellular Automata Classifier with Tree Frame Based on CART(Computers andMathematics with Applications.66(12),2013,Pages 1836–1844)中提出一种基于分类回归树的多吸引子细胞自动机分类算法，该算法对模式空间分布不均匀的问题会有很好的分类效果，因此在图像分类识别中被使用。该方法根据样本集S与适应度函数，搜索最优分支的多吸引子细胞自动机MACA，根据得到的多吸引子细胞自动机MACA将样本集S划分为n个子集，对于n个子集分别调用该分类算法，得到关于每个子集的树T_i，根据T_i构造最终的分类回归树T。该方法的不足之处是：无法避免空盆出现,空盆代表的类别无法确定，测试时，导致落在空盆中的样本被拒识，影响分类模型的泛化能力。

哈尔滨工程大学提出的专利申请“一种基于半监督聚类的迁移学习方法”(申请号：201210464867.3，公开号：103020122A)公开了一种基于半监督聚类的迁移学习方法。该方法通过基于聚类的方法选择具有迁移能力的样本，可用于迁移学习中图像样本的选择，该方法使用的距离测度采用的是余弦距离测度。多吸引子细胞自动机MACA分类器学习方法对二进制编码后的样本进行优化求解伪用完域所在比特位，根据样本的伪用完域训练分类器。伪用完域在距离测度中起着更关键的作用。该方法的不足之处是：用余弦距离测度无法反映二进制编码后的样本在不同位上取值的统计特性，使得计算源域样本和目标域样本相似性不准确，从而导致图像分类准确性下降。

Joseph J.Lim在文章Transfer learning by borrowing examples formulticlass object detection(Massachusetts Institute of Technology,2012.)中提出了基于迁移的图像分类方法。在迁移学习过程中，通常假设少量带标签目标域样本能代表整个目标域样本的分布情况。该方法的不足之处是：在目标域少量带标签样本无法反映目标域的整体分布时，源域样本到目标域的迁移效果很差，从而影响图像分类器的分类准确性。

发明内容

本发明的目的在于克服上述现有技术的不足，提出一种基于迁移学习多吸引子细胞自动机的图像分类方法。

实现本发明的思路是，使用一种带有空盆判定的细胞自动机分类方法来生成多吸引子细胞自动机MACA树，避免空盆的出现，提高图像分类器的泛化性能；同时，提出新的模式距离测度用来计算图像的源域样本和目标域样本的相似度，使得计算图像的源域样本和目标域样本的相似性更准确，改善了源域样本的可迁移性；最后，对于少量目标域带标签样本无法反映目标域样本整体分布的问题，将源域训练集和目标域训练集分别划分到局部模式空间，然后在局部模式空间进行迁移学习，这样使得在只有少量目标域带标签样本的情况下，也能取得较好的迁移效果，从而提高分类器的分类准确性。

实现本发明目的的具体步骤如下：

(1)图像数据预处理：

(1a)输入源域已标记图像集合和目标域已标记图像集合，每一个已标记图像对应一个类别；

(1b)提取源域和目标域已标记图像集合中图像的特征，分别形成源域特征向量和目标域特征向量；

(1c)采用离散化处理公式，分别对源域特征向量和目标域特征向量的每一维图像特征进行离散化处理；

(1d)对离散化处理后的每一维图像特征进行二进制编码，将所有源域图像特征的二进制编码组成源域样本，将所有目标域图像特征的二进制编码组成源域样本；

(1e)将获得的源域样本和目标域样本分别组成源域训练集和目标域训练集；

(2)训练源域空间多吸引子细胞自动机MACA树：

使用源域分支停止准则，将源域训练集作为训练样本集，调用带有空盆判定的细胞自动机分类方法，训练初步多吸引子细胞自动机MACA树；

(3)划分目标域训练集：

将目标域训练集中一个目标域样本的伪用完域值与初步多吸引子细胞自动机MACA树的叶节点吸引子盆的伪用完域值进行对比，将目标域样本划分到伪用完域值相同的吸引子盆中，每个吸引子盆对应一个子集，形成b个子集{N₁,N₂,…,N_b}，b表示初步多吸引子细胞自动机MACA树的叶节点吸引子盆数目；

(4)构造局部模式空间训练集：

(4a)判断每个吸引子盆对应的子集中是否包含多个类别的目标域样本，若是，则执行步骤(4b)；否则，执行步骤(4d)；

(4b)按如下步骤，计算吸引子盆对应的子集中源域样本每一类的模式距离：

第一步，将吸引子盆对应的子集中目标域样本的0值位的值设置为-1，1值位的值位保持不变，得到重编码目标域样本，并对重编码目标域样本按照类别进行划分；

第二步，利用下式，对同一类别的重编码目标域样本，构造重编码目标域样本和向量：

其中，S_j表示重编码目标域样本和向量在第j位上的值，n表示吸引子盆对应的子集中某一类别重编码目标域样本的个数，表示吸引子盆对应的子集中属于某一类别的第i个重编码目标域样本在第j位上的值；

第三步，利用下式，构造模式代表：

其中，P_j表示模式代表在第j位的值，S_j表示重编码目标域样本和向量在第j位上值；

第四步，利用下式，构造模式代表的位权重：

其中，W_j表示模式代表在第j位的权重，S_j表示重编码目标域样本和向量在第j位上的值，m表示源域样本的二进制比特位数，|·|表示取绝对值操作；

第五步，利用下式，构造源域样本与模式代表的比较向量：

其中，y_ij表示子集中第i个源域样本与模式代表的比较向量在第j位的值，表示子集中第i个源域样本在第j位的值，P_j表示模式代表在第j位的值；

第六步，利用下式，计算源域样本与模式代表的距离：

其中，D表示源域样本与模式代表的距离，W_j表示模式代表在第j位的权值，y_ij表示子集中第i源域样本与模式代表的比较向量在第j位的值，m表示源域样本的二进制比特位数；

(4c)选择模式距离最小的类别作为源域样本的新类别，比较源域样本的新类别与原类别，将新类别与原类别相同的源域样本添加到子集中的目标域训练集，得到局部模式空间训练集；将新类别与原类别不相同的源域样本丢弃；

(4d)将吸引子盆对应的子集中源域训练集和目标域训练集合并成局部模式空间训练集；

(5)训练局部模式空间多吸引子细胞自动机MACA树：

使用局部空间分支停止准则，将局部模式空间训练集作为训练样本集，调用带有空盆判定的细胞自动机分类方法，训练局部模式空间多吸引子细胞自动机MACA树；

(6)生成目标域多吸引子细胞自动机MACA树：

将局部模式空间多吸引子细胞自动机MACA树作为初步多吸引子细胞自动机MACA树的新叶节点，生成目标域多吸引子细胞自动机MACA树。

本发明与现有方法相比具有如下优点：

第一，本发明由于使用带有空盆判定的细胞自动机分类方法，在训练多吸引子细胞自动机MACA树的过程中动态调整伪用完域最大比特数npef，克服了现有技术无法避免空盆出现的问题，使得本发明提高了图像分类模型的泛化能力。

第二，本发明由于使用了新的模式距离测度取代现有技术的余弦距离测度来计算源域样本和目标域样本的相似度，从而克服现有技术无法反映二进制编码后的样本在不同位上取值的统计特性的问题，使得本发明计算源域样本和目标域样本相似性更加准确，从而提高了图像分类准确性。

第三步，本发明分别将源域训练集和目标域训练集划分到局部模式空间并在局部模式空间训练多吸引子细胞自动机MACA树，克服了现有技术在目标域少量带标签样本无法反映目标域整体分布的情况下迁移效果很差的问题，使得本发明提高了图像分类的准确性。

附图说明

图1是本发明的流程图。

具体实施方式

下面结合附图1，对本发明实现的步骤作进一步的详细描述。

步骤1，图像数据预处理。

输入源域已标记图像集合和目标域已标记图像集合，每一个已标记图像对应一个类别。

源域已标记图像取自和目标域已标记图像不同类别但具有一定可迁移性的图像。

提取源域和目标域已标记图像集合中图像的特征，分别形成源域特征向量和目标域特征向量。

对于图像数据可使用的特征提取方法还有很多，我们这里使用bag-of-words方法来进行图像特征提取。

采用离散化处理公式，分别对源域特征向量和目标域特征向量的每一维图像特征进行离散化处理，离散化处理公式如下：

其中，x′_i表示图像特征向量中特征值x_i对应的离散值，x_i表示图像特征向量中第i维特征值，x_max表示每个图像特征向量第i维特征值中的最大值，x_min表示每个图像特征向量第i维特征值中的最小值，p表示图像特征向量第i维特征值的有效位最小单位值，表示向上取整操作。

上式中的p表示精度，其实就是样本属性值的有效最小单位值，是依据样本属性的最大最小差值范围来确定的。

对离散化处理后的每一维图像特征进行二进制编码，将所有源域图像特征的二进制编码组成源域样本，将所有目标域图像特征的二进制编码组成源域样本。

将获得的源域样本和目标域样本分别组成源域训练集和目标域训练集。

步骤2，训练源域空间多吸引子细胞自动机MACA树。

使用源域分支停止准则，将源域训练集作为训练样本集，调用带有空盆判定的细胞自动机分类方法，训练初步多吸引子细胞自动机MACA树。

源域分支停止准则是指，如果吸引子盆中源域训练集训练正确率大于70％，或者吸引子盆中源域样本个数小于20时，则停止源域分支；否则，继续进行源域分支。

分类回归树细胞自动机学习算法生成树型结构的分类器。树的每个节点是一个MACA，由最优MACA构成的规避了零盆的分类树，形成了初步分类回归树细胞自动机分类器。在实际实验中，可以根据输入样本的个数等因素，依据经验来调整源域分支停止准则，所生成的多吸引子细胞自动机MACA树只是用于源域样本和目标域样本的初步划分，所以对源域分支停止准则的要求较低。

带有空盆判定的细胞自动机分类方法如下：

第一步，输入初始伪用完域最大比特数npef，种群数k；

第二步，随机生成多吸引子细胞自动机MACA种群，其中多吸引子细胞自动机MACA的个数等于种群数k，每个多吸引子细胞自动机MACA的伪用完域比特数小于等于伪用完域最大比特数npef；

第三步，根据当前伪用完域最大比特数npef，使用遗传算法，搜索最优的多吸引子细胞自动机MACA，使得训练样本集的分类正确率最大，将该多吸引子细胞自动机MACA作为树根节点，形成树T；

第四步，对训练样本集中的每个样本，当该样本的伪用完域值与某个多吸引子的伪用完域值相同时，将该样本添加到该多吸引子对应的子集中，每个多吸引子对应一个子集，形成a个子集{N₁,N₂,...,N_i,...N_a}，a表示多吸引子的个数，N_i表示第i个吸引子对应的子集；

第五步，如果存在吸引子对应的子集N_i为空，并且当前伪用完域最大比特数npef大于1时，则将当前伪用完域最大比特数npef减1，执行第三步操作；否则，执行第六步操作；

第六步，对每个吸引子对应的子集N_i，执行第一步操作，形成子树T_i，将子树T_i作为叶节点扩展树T；

第七步，判断当前树T的叶节点是否满足分支停止准则，若不满足，则执行第四步；否则，输出当前树T。

多吸引子细胞自动机MACA种群中的每个多吸引子细胞自动机MACA是一个固定长度的[01]串，它的长度等于经过预处理后的图像样本的长度；随机生成多吸引子细胞自动机MACA种群是指，在伪用完域最大比特数npef一定时，生成k个固定长度的[01]串，每个[01]串中值为1的位数，也就是伪用完域的比特数，是小于等于伪用完域最大比特数npef的随机数，并且每个[01]串中值为1的位置，也就是伪用完域位也是随机生成的。

步骤3，划分目标域训练集。

利用上步得到的MACA树，把源域训练集和目标域训练集划分到当前叶节点对应的吸引子盆中。

划分方法为是，将目标域训练集中一个目标域样本的伪用完域值与初步多吸引子细胞自动机MACA树的叶节点吸引子盆的伪用完域值进行对比，将目标域样本划分到伪用完域值相同的吸引子盆中，每个吸引子盆对应一个子集，形成b个子集{N₁,N₂,…,N_b}，b表示初步多吸引子细胞自动机MACA树的叶节点吸引子盆数目。

划分到局部模式空间中的目标域样本反映该局部模式空间中目标域样本的分布情况。

步骤4，构造局部模式空间训练集。

(4a)判断每个吸引子盆对应的子集中是否包含多个类别的目标域样本，若是，则执行步骤(4b)；否则，执行步骤(4d)。

第一步，将吸引子盆对应的子集中目标域样本的0值位的值设置为-1，1值位的值位保持不变，得到重编码目标域样本，并对重编码目标域样本按照类别进行划分。

第二步，利用下式，对同一个类别的重编码目标域样本，构造重编码目标域样本和向量：

其中，S_j表示重编码目标域样本和向量在第j位上的值，n表示吸引子盆对应的子集中某一类别重编码目标域样本的个数，表示吸引子盆对应的子集中属于某一类别的第i个重编码目标域样本在第j位上的值。

第三步，利用下式，构造模式代表：

其中，P_j表示模式代表在第j位的值，S_j表示重编码目标域样本和向量在第j位上值。

第四步，利用下式，构造模式代表的位权重：

其中，W_j表示模式代表在第j位的权重，S_j表示重编码目标域样本和向量在第j位上的值，m表示样本的二进制比特位数，|·|表示取绝对值操作。

第五步，利用下式，构造源域样本与模式代表的比较向量：

其中，y_ij表示子集中第i个源域样本与模式代表的比较向量在第j位的值，表示子集中第i个源域样本在第j位的值，P_j表示模式代表在第j位的值。

第六步，利用下式，计算源域样本与模式代表的距离：

其中，D表示源域样本与模式代表的距离，W_j表示模式代表在第j位的权值，y_ij表示子集中第i源域样本与模式代表的比较向量在第j位的值，m表示样本的二进制比特位数。

在局部模式空间中，对于每一类别的重编码目标域样本，都会构造一个模式代表，及其对应的位权重，因此对于模式空间中的每一个源域样本都会计算与每一个模式代表的距离，形成多个模式距离。

(4c)选择模式距离最小的类别作为源域样本的新类别，比较源域样本的新类别与原类别，将新类别与原类别相同的源域样本添加到子集中的目标域训练集，得到局部模式空间训练集；将新类别与原类别不相同的源域样本丢弃。

(4d)将吸引子盆对应的子集中源域训练集和目标域训练集合并成局部模式空间训练集。

步骤5，训练局部模式空间多吸引子细胞自动机MACA树。

局部空间分支停止准则是指，如果吸引子盆中局部模式空间训练集的训练正确率大于90％，或者多吸引子盆中局部模式空间样本个数小于10时，则停止局部空间分支；否则，继续进行局部空间分支。

此步骤中调用的带有空盆判定的细胞自动机分类方法同步骤2中调用的带有空盆判定的细胞自动机分类方法是相同的。

局部空间分支分支停止准则比源域分支停止准则的要求高，利用较高要求的局部空间分支分支停止准则是为了对生成的初步MACA树在局部模式空间中进行更精确的分支操作。同源域分支停止准则一样，在实际中，局部空间分支分支停止准则也是根据经验来调整的。

步骤6，生成目标域多吸引子细胞自动机MACA树。

最终生成的目标域MACA树是对初步的MACA树在局部模式空间中进行更精确的分支后得到的，它只需要目标域少量带标签样本，在局部模式空间中引导对源域中可迁移样本的选取，反映目标域数据的分布情况，就能取得较好的模式分类能力。

本发明的效果可以通过以下仿真实验做进一步的说明。

1.仿真条件：

本发明的仿真实验是在CPU为Pentium(R)Dual-Core T43002.10GHZ、内存2G、WINDOWS 7系统上进行了仿真。

2.仿真内容：

本发明的仿真实验使用Caltech-256数据集。Caltech-256数据集包含256类图像的图像数据集，共选取了8类图像进行实验。使用bag-of-words方法提取1000维特征，对该数据集进行二进制编码，编码后样本的码长为532位。在组织实验数据时，源域图像取自和目标域图像不同类别但具有一定可迁移性的图像。从左至右图像所属类别是：005.baseball-glove、019.boxing-glove、015.bonsai-101、025.cactus、044.comet、073.fireworks、065.elk、085.goat。取每组数据中图像类别的首字母作为该组数据的缩写名称。如，“fc_cb”表示源域图像训练数据正、负样本集分别取自073.fireworks、025.cactus，而目标域图像训练数据正、负样本集分别取自044.comet和015.bonsai-101。本发明的仿真实验数据组织方式见表1。

采用遗传算法训练最优多吸引子细胞自动机MACA。遗传算法取种群数为50，最大迭代次数为100，选择操作得到最优染色体10个传到下一代。遗传算法停止条件为最好的10个染色体的平均适应度的变化连续3次小于0.001。

多吸引子细胞自动机MACA树的参数设置为：源域分支停止准则均为吸引子盆中训练集正确率大于70％或者盆中训练集样本数小于20时，停止分支；局部空间分支停止准则为吸引子盆中训练集正确率大于90％或者盆中训练集样本数小于10时，停止分支；伪用完域比特数为3。

表1 Caltech-256数据集

本发明的仿真实验中少量目标域带标签样本分别取目标域样本集的5％与10％进行实验，每个实验都是重复10次实验，取平均值作为结果。

本发明在公平的实验设置和实验环境下与现有的直接迁移学习方法TMACA和全局样本选择迁移学习方法GMACA进行仿真比较。具体实验结果如表2所示。

表2 Caltech-256数据集上的实验结果

从表2可知，本发明所采用的算法经仿真证明效果优于无样本选择的直接迁移学习方法与全局样本选择迁移学习方法。

本发明生成的多吸引子细胞自动机MACA树结构如表3所示，表中给出了“fc_cb”数据在一次使用本发明进行实验时生成的一棵MACA树。其中的“源”代表该分支使用的是源域分支停止准则，“局”代表该分支使用的是局部空间分支停止准则。从表中可以看出，本发明先使用源域分支停止准则生成初步多吸引子细胞自动机MACA树，再由局部空间分支停止准则对初步多吸引子细胞自动机MACA树进行更精确的分支。

表3 fc_cb数据上使用本发明时生成的树结构

Claims

1.一种基于迁移学习多吸引子细胞自动机的图像分类方法，包括如下步骤：

(1)图像数据预处理：

(2)训练源域空间多吸引子细胞自动机MACA树：

(3)划分目标域训练集：

(4)构造局部模式空间训练集：

其中，S_j表示重编码目标域t样本和向量在第j位上的值，n表示吸引子盆对应的子集中某一类别重编码目标域样本的个数，表示吸引子盆对应的子集中属于某一类别的第i个重编码目标域样本在第j位上的值；

第三步，利用下式，构造模式代表：

其中，P_j表示模式代表在第j位的值，S_j表示重编码目标域样本和向量在第j位上的值；

第四步，利用下式，构造模式代表的位权重：

第五步，利用下式，构造源域样本与模式代表的比较向量：

其中，y_ij表示子集中第i个源域样本与模式代表的比较向量在第j位的值，表示子集中第i个源域s样本在第j位的值，P_j表示模式代表在第j位的值；

第六步，利用下式，计算源域样本与模式代表的距离：

(4c)选择模式距离最小的类别作为源域样本的新类别，比较源域样本的新类别与原类别，将新类别与原类别相同的源域样本添加到子集中的目标域训练集，得到局部模式空间训练集；将新类别与原类别不相同的源域样本丢弃后执行步骤(5)；

(5)训练局部模式空间多吸引子细胞自动机MACA树：

(6)生成目标域多吸引子细胞自动机MACA树：

2.根据权利要求1所述的基于迁移学习多吸引子细胞自动机的图像分类方法，其特征在于：步骤(1c)所述的离散化处理公式如下：

其中，x’_i表示图像特征向量中特征值x_i对应的离散值，x_i表示图像特征向量中第i维特征值，x_max表示每个图像特征向量第i维特征值中的最大值，x_min表示每个图像特征向量第i维特征值中的最小值，p表示图像特征向量第i维特征值的有效位最小单位值，表示向上取整操作。

3.根据权利要求1所述的基于迁移学习多吸引子细胞自动机的图像分类方法，其特征在于：步骤(2)所述源域分支停止准则是指，如果吸引子盆中源域训练集训练正确率大于70％，或者吸引子盆中源域样本个数小于20时，则停止源域分支；否则，继续进行源域分支。

4.根据权利要求1所述的基于迁移学习多吸引子细胞自动机的图像分类方法，其特征在于：步骤(2)、步骤(5)所述的带有空盆判定的细胞自动机分类方法如下：

第一步，输入初始伪用完域最大比特数npef，种群数k；

第四步，对训练样本集中的每个样本，当该样本的伪用完域值与某个多吸引子的伪用完域值相同时，将该样本添加到该多吸引子对应的子集中，每个多吸引子对应一个子集，形成a个子集{N₁,N₂,...,N_i,...N_a}，a表示当前多吸引子细胞自动机MACA的多吸引子的个数，N_i表示第i个吸引子对应的子集；

5.根据权利要求1所述的基于迁移学习多吸引子细胞自动机的图像分类方法，其特征在于：步骤(5)所述局部空间分支停止准则是指，如果吸引子盆中局部模式空间训练集的训练正确率大于90％，或者多吸引子盆中局部模式空间样本个数小于10时，则停止局部空间分支；否则，继续进行局部空间分支。