CN104615679A

CN104615679A - 一种基于人工免疫网络的多智能体数据挖掘方法

Info

Publication number: CN104615679A
Application number: CN201510029881.4A
Authority: CN
Inventors: 林小煌; 骆炎民
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2015-01-21
Filing date: 2015-01-21
Publication date: 2015-05-13

Abstract

本发明公开了一种将多智能体技术和人工免疫网络相结合的数据挖掘方法，将多智能体技术的典型策略融入到免疫网络中。算法引入了邻域克隆选择，操作过程从局部到整体，能够更加全面地模拟免疫网络的自然进化模型；同时在网络训练过程中增加了抗体间的竞争和协作操作，提高了网络的动态分析能力。该算法在数据挖掘中，既能提高数据聚类的准确性，也能够提高数据分类的精确度。

Description

一种基于人工免疫网络的多智能体数据挖掘方法

技术领域

本发明涉及数据挖掘领域，具体是涉及一种基于人工免疫网络的多智能体数据挖掘方法。

背景技术

随着大数据时代的来临，从大量数据中抽取或发现有用的关系或模式、知识成为时下研究的热点，这个过程也称为数据挖掘。其中，聚类和分类是数据挖掘的主要任务。将人工免疫系统算法引入到数据挖掘领域是近年来的研究热点。目前，关于人工免疫系统在数据挖掘领域应用的算法都是以de castro的经典免疫网络算法aiNet为框架进行改进和变型的，主要技术都是克隆选择、变异、网络抑制。然而，生物免疫系统是一个复杂的动态自适应系统，要完全模拟出生物免疫系统的机制是很困难的。目前，众多的免疫网络算法模型都只是从单一角度模拟了免疫系统某一部分的功能，对自然机理还没能很好的描述。而且，目前众多的免疫网络算法都是基于随机概率操作，缺乏对人工免疫网络的动态行为分析，导致数据的分类和聚类效果不佳。

发明内容

本发明的目的在于克服现有技术之不足，通过将多智能体技术融合至人工免疫网络算法中以适用于数据挖掘中的聚类、分类以及数据压缩。

本发明解决其技术问题所采用的技术方案是提供一种基于人工免疫网络的多智能体数据挖掘方法，具体包括以下步骤：

(1)将原始数据分为训练数据和测试数据，于训练数据中随机抽取一部分作为抗体，其他作为抗原；将抗体排列成网格矩阵并对每个抗体在网格中进行编号；

(2)输入一抗原至网格矩阵中，依次计算其与网格矩阵中各抗体的亲和度和自信值，并进行邻域克隆选择，生成一抗体集；

(3)对该抗体集进行邻域协作操作和/或领域竞争操作；

(4)重复步骤(2)—(3)，直到每个抗原都和网格矩阵中每个抗体进行操作，所有抗原训练完毕，得到记忆细胞集M’；

(5)对记忆细胞集M’进行网络抑制操作，得到记忆细胞集M，其中记忆细胞集M中每一抗体生成属于自己的类别标签；

(6)运用记忆细胞集M对测试数据进行聚类和分类。

优选的，所述每一个输入的抗原是跟抗体在邻域内进行操作，对于网格矩阵中某一抗体A_mn的邻域定义为：Loc.A_mn＝(A_m-n,A_m-n,A_m+n,A_m+n)，其中，

m - = \{\begin{matrix} m - 1, m &NotEqual; 1 \\ Ls, m = 1 \end{matrix}, n - = \{\begin{matrix} n - 1, n &NotEqual; 1 \\ Ls, n = 1 \end{matrix}, m + = \{\begin{matrix} m + 1, m &NotEqual; Ls \\ 1, m = Ls \end{matrix}, n + = \{\begin{matrix} n + 1, n &NotEqual; Ls \\ 1, n = Ls \end{matrix}

Ls是所述网格矩阵的阶数。

优选的，步骤(2)进一步包括以下子步骤：

(2a)计算输入抗原与某一抗体邻域内各抗体的欧式距离为初始亲和度；

(2b)以各个抗体初始亲和度的平均值为阈值，选择与输入抗原距离小于该阈值的抗体作为待克隆抗体集；

(2c)对待克隆抗体集中的每个抗体进行克隆增殖；

(2d)对克隆增殖后的抗体进行变异；

(2e)重新计算输入抗原与变异后各抗体的亲和度，以输入抗原与各变异抗体亲和度的平均值为阈值，选取距离小于该阈值的抗体生成所述抗体集。

优选的，所述克隆增值是3倍克隆增值。

优选的，所述邻域协作包括赋予每个抗体一个自信度的属性并对抗体的自信度属性进行调整和迭代的步骤。

优选的，所述邻域竞争操作具体为：

(3a)计算输入抗原与某一抗体邻域内各抗体的亲和度，并选择亲和度最高和最低的抗体；

(3b)对亲和度最高的抗体进行克隆并放入所述抗体集，重新计算抗原与所述抗体集内的抗体的亲和度；

(3c)选择重新计算和亲和度最高的抗体替代(3a)中亲和度最低的抗体。

优选的，步骤(6)具体是通过计算所述记忆细胞集M’中抗体两两之间的距离的平均值，当记忆细胞集M’中两个抗体间的距离小于该平均值则删除其中亲和度较小的一个的方法获得所述记忆细胞集M。

本发明的有益效果是：引入了邻域克隆选择，操作过程从局部到整体，更好的模拟了免疫网络的自然进化模型。同时在网络训练过程中增加了抗体间的竞争和协作操作，提高了网络动态分析能力，适用于数据挖掘中的聚类、分类以及数据压缩。本发明的算法既能够提高数据的聚类准确度，也能够提高数据的分类精度，同时也能提高数据处理的速度。

以下结合附图及实施例对本发明作进一步详细说明；但本发明的一种基于人工免疫网络的多智能体数据挖掘方法不局限于实施例。

附图说明

图1为本发明的算法流程图。

具体实施方式

实施例，参考图1，一种基于人工免疫网络的多智能体数据挖掘方法，是将多智能体技术中三个典型的策略融入到免疫网络的进化过程中，通过免疫网络的进化得到一个表示原始数据特征的记忆细胞集，最终运用生成的记忆细胞集对待分析的数据进行分类和聚类，具体包括以下步骤：

1、以需要进行挖掘处理的数据为原始数据，对原始数据进行归一化，使其特征在[0,1]之间，摒除特征值取值范围对距离度量的影响。

X_{i} = \frac{X_{i} - {Min}_{i}}{{Max}_{i} - {Min}_{i}}

式中Xi为样本的特征值，Mini为此特征值所在样本中的最小值，Maxi为此特征值所在样本中的最大值。

将原始数据分为训练数据和测试数据两部分，从训练数据中随机选取一小部分作为抗体，剩下的作为抗原。将抗体排列成一个矩阵网格L，矩阵L的大小为size(L)＝Ls*Ls，并对每个抗体从A₁₁开始编号直到A_kk，网格中某个抗体A_mn的邻域定义为：Loc.A_mn＝(A_m-n,A_m-n,A_m+ _n,A_m+n)，其中，

m - = \{\begin{matrix} m - 1, m &NotEqual; 1 \\ Ls, m = 1 \end{matrix}, n - = \{\begin{matrix} n - 1, n &NotEqual; 1 \\ Ls, n = 1 \end{matrix}, m + = \{\begin{matrix} m + 1, m &NotEqual; Ls \\ 1, m = Ls \end{matrix}, n + = \{\begin{matrix} n + 1, n &NotEqual; Ls \\ 1, n = Ls \end{matrix}

2、对每一个输入抗原，从A₁₁到A_kk进行以下操作：

2.1计算与抗体的亲和度并进行邻域克隆选择；

首先计算输入抗原与当前抗体邻域内各个抗体的欧式距离并以此初始亲和度。计算克隆选择阈值T1，T1为输入抗原各个抗体初始亲和度的平均值，选择与输入抗原距离小于T1的抗体作为待克隆抗体集。对待克隆抗体集中的每个抗体进行三倍的克隆增殖，并对克隆增殖后的抗体进行变异。设原抗体为ab_i＝{ab_i1,ab_i2,…ab_iN}，变异后的抗体为ab_i’，ab_i’按如下方式产生：随机从ab_i’中选取少数若干个属性，对选中的属性ab_ik(k＝1…N_f)进行如下操作：

ab_ik′＝ab_ik-α(ab_ik-ag_jk)，其中，

表示抗体ab_i受到抗原ab_j的刺激后新产生的抗体的变异率。A表示学习因子，rand表示[0,1]之间的均匀分布随机值。最后，重新计算输入抗原与克隆变异后抗体集的亲和度，并计算阈值T2，T2为抗原与各个抗体亲和度的平均值，选取距离小于T2的抗体构成抗体集。

2.2进行邻域协作；

邻域中的抗体通过交换自信度、竞争力信息，促进协作，权衡局部与全局搜索能力。赋予每个抗体一个自信度的属性B(A_m,n)，初始自信度等于它的亲和度。抗体A_m,n经过协作后进化为A^T _m,n,具体是在A_m,n邻域中选择亲和度最大以及自信度最高、最低的抗体进行如下操作得到A^T _m,n：

A_{m, n}^{T} = A_{\max, mn}^{C} + 0.5 (A_{\max, mn}^{B} - A_{\min, mn}^{B})

其中，A^C _max,mn为A_m,n邻域中亲和度最大的抗体，A^B _max,mn,A^B _min,mn分别为A_m,n邻域中自信度最大和最小的抗体。

对抗体的自信度属性进行调整(自激励操作)，如果子代的亲和度大于父代，则自信度作正反馈调节，否则作负反馈调节，表示为：

这里：B(A_m,n)为抗体A_m,n的自信度，λ为激励系数，C(A^T,1 _m,n),C(A^T _m,n)为子代和父代的抗体亲和度。

2.3进行邻域竞争操作；

①对每一个抗原计算A_mn邻域内的亲和度，并选择亲和度最高和最低的抗体；②对亲和度最高的抗体进行克隆变异并放入抗体集，重新计算抗原与抗体集里面所有抗体的亲和度；③根据重新计算后抗体集里面每个抗体亲和度大小的排名情况，选择亲和度最高的抗体替代步骤①中亲和度最低的抗体。

3、进行网络抑制操作

对每个输入抗原都和网格中每个抗体进行上述操作，直到所有训练抗原都训练完毕，抗原集生成记忆细胞集M’。计算记忆细胞集M’中抗体两两之间的距离的平均值T3，如果M’中两个抗体间的距离小于T3，则删除其中亲和度较小的一个，通过网络训练得到最终记忆细胞集M，此时M中每个抗体都已生成属于自己的类别标签。

4、对待处理数据进行分类或压缩聚类

运用记忆细胞集M对待处理数据进行分类。

对每个输入的待处理数据，计算其与记忆细胞集M中每个抗体的欧式距离，选出与M中距离最小的那个抗体，待处理数据的类别就是距离最小抗体的类别标签，重复此过程直到待处理数据中每个数据都分类完毕。

运用记忆细胞集M对原始数据进行压缩聚类。

训练生成的记忆细胞集M是对原始数据的压缩表示，对记忆细胞集M中的数据进行聚类的结果就可以表示原始数据的聚类结果，过程如下：经过网络训练后得到的记忆细胞集M中的抗体都有其各自的特征，运用生成树规则计算记忆细胞集M中抗体间的距离，将距离相近的抗体聚集在一起，聚类后的抗体数据分布情况就是记忆细胞集M的网络结构，网络结构中的簇数就是原始数据的聚类数。

上述实施例仅用来进一步说明本发明的一种基于人工免疫网络的多智能体数据挖掘方法,但本发明并不局限于实施例，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均落入本发明技术方案的保护范围内。

Claims

1.一种基于人工免疫网络的多智能体数据挖掘方法，其特征在于包括以下步骤：

(3)对该抗体集进行邻域协作操作和/或邻域竞争操作；

(6)运用记忆细胞集M对测试数据进行聚类和分类。

2.根据权利要求1所述的基于人工免疫网络的多智能体数据挖掘方法，其特征在于：所述每一个输入的抗原是跟抗体在邻域内进行操作，对于网格矩阵中某一抗体A_mn的邻域定义为：Loc.A_mn＝(A_m _n-,A_m-n,A_m+n,A_m _n+)，其中，

m - = \{\begin{matrix} m - 1, m &NotEqual; 1 \\ Ls, m = 1 \end{matrix}, n - = \{\begin{matrix} n - 1, n &NotEqual; 1 \\ Ls, n = 1 \end{matrix}, m + = \{\begin{matrix} m + 1, m &NotEqual; Ls \\ 1, m = Ls \end{matrix}, n + = \{\begin{matrix} n + 1, n &NotEqual; Ls \\ 1, n = Ls \end{matrix}

Ls是所述网格矩阵的阶数。

3.根据权利要求2所述的基于人工免疫网络的多智能体数据挖掘方法，其特征在于：步骤(2)进一步包括以下子步骤：

(2c)对待克隆抗体集中的每个抗体进行克隆增殖；

(2d)对克隆增殖后的抗体进行变异；

4.根据权利要求3所述的基于人工免疫网络的多智能体数据挖掘方法，其特征在于：所述克隆增值是3倍克隆增值。

5.根据权利要求1所述的基于人工免疫网络的多智能体数据挖掘方法，其特征在于：所述邻域协作包括赋予每个抗体一个自信度的属性并对抗体的自信度属性进行调整和迭代的步骤。

6.根据权利要求1所述的基于人工免疫网络的多智能体数据挖掘方法，其特征在于：所述邻域竞争操作具体为：

(3c)根据重新计算后抗体集里面每个抗体亲和度大小的排名情况，选择亲和度最高的抗体替代步骤①中亲和度最低的抗体。

7.根据权利要求1所述的基于人工免疫网络的多智能体数据挖掘方法，其特征在于：步骤(6)具体是通过计算所述记忆细胞集M’中抗体两两之间的距离的平均值，当记忆细胞集M’中两个抗体间的距离小于该平均值则删除其中亲和度较小的一个的方法获得所述记忆细胞集M。