CN104615679A - 一种基于人工免疫网络的多智能体数据挖掘方法 - Google Patents
一种基于人工免疫网络的多智能体数据挖掘方法 Download PDFInfo
- Publication number
- CN104615679A CN104615679A CN201510029881.4A CN201510029881A CN104615679A CN 104615679 A CN104615679 A CN 104615679A CN 201510029881 A CN201510029881 A CN 201510029881A CN 104615679 A CN104615679 A CN 104615679A
- Authority
- CN
- China
- Prior art keywords
- antibody
- affinity
- antigen
- collection
- neighborhood
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Bioethics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Peptides Or Proteins (AREA)
Abstract
本发明公开了一种将多智能体技术和人工免疫网络相结合的数据挖掘方法,将多智能体技术的典型策略融入到免疫网络中。算法引入了邻域克隆选择,操作过程从局部到整体,能够更加全面地模拟免疫网络的自然进化模型;同时在网络训练过程中增加了抗体间的竞争和协作操作,提高了网络的动态分析能力。该算法在数据挖掘中,既能提高数据聚类的准确性,也能够提高数据分类的精确度。
Description
技术领域
本发明涉及数据挖掘领域,具体是涉及一种基于人工免疫网络的多智能体数据挖掘方法。
背景技术
随着大数据时代的来临,从大量数据中抽取或发现有用的关系或模式、知识成为时下研究的热点,这个过程也称为数据挖掘。其中,聚类和分类是数据挖掘的主要任务。将人工免疫系统算法引入到数据挖掘领域是近年来的研究热点。目前,关于人工免疫系统在数据挖掘领域应用的算法都是以de castro的经典免疫网络算法aiNet为框架进行改进和变型的,主要技术都是克隆选择、变异、网络抑制。然而,生物免疫系统是一个复杂的动态自适应系统,要完全模拟出生物免疫系统的机制是很困难的。目前,众多的免疫网络算法模型都只是从单一角度模拟了免疫系统某一部分的功能,对自然机理还没能很好的描述。而且,目前众多的免疫网络算法都是基于随机概率操作,缺乏对人工免疫网络的动态行为分析,导致数据的分类和聚类效果不佳。
发明内容
本发明的目的在于克服现有技术之不足,通过将多智能体技术融合至人工免疫网络算法中以适用于数据挖掘中的聚类、分类以及数据压缩。
本发明解决其技术问题所采用的技术方案是提供一种基于人工免疫网络的多智能体数据挖掘方法,具体包括以下步骤:
(1)将原始数据分为训练数据和测试数据,于训练数据中随机抽取一部分作为抗体,其他作为抗原;将抗体排列成网格矩阵并对每个抗体在网格中进行编号;
(2)输入一抗原至网格矩阵中,依次计算其与网格矩阵中各抗体的亲和度和自信值,并进行邻域克隆选择,生成一抗体集;
(3)对该抗体集进行邻域协作操作和/或领域竞争操作;
(4)重复步骤(2)—(3),直到每个抗原都和网格矩阵中每个抗体进行操作,所有抗原训练完毕,得到记忆细胞集M’;
(5)对记忆细胞集M’进行网络抑制操作,得到记忆细胞集M,其中记忆细胞集M中每一抗体生成属于自己的类别标签;
(6)运用记忆细胞集M对测试数据进行聚类和分类。
优选的,所述每一个输入的抗原是跟抗体在邻域内进行操作,对于网格矩阵中某一抗体Amn的邻域定义为:Loc.Amn=(Am-n,Am-n,Am+n,Am+n),其中,
Ls是所述网格矩阵的阶数。
优选的,步骤(2)进一步包括以下子步骤:
(2a)计算输入抗原与某一抗体邻域内各抗体的欧式距离为初始亲和度;
(2b)以各个抗体初始亲和度的平均值为阈值,选择与输入抗原距离小于该阈值的抗体作为待克隆抗体集;
(2c)对待克隆抗体集中的每个抗体进行克隆增殖;
(2d)对克隆增殖后的抗体进行变异;
(2e)重新计算输入抗原与变异后各抗体的亲和度,以输入抗原与各变异抗体亲和度的平均值为阈值,选取距离小于该阈值的抗体生成所述抗体集。
优选的,所述克隆增值是3倍克隆增值。
优选的,所述邻域协作包括赋予每个抗体一个自信度的属性并对抗体的自信度属性进行调整和迭代的步骤。
优选的,所述邻域竞争操作具体为:
(3a)计算输入抗原与某一抗体邻域内各抗体的亲和度,并选择亲和度最高和最低的抗体;
(3b)对亲和度最高的抗体进行克隆并放入所述抗体集,重新计算抗原与所述抗体集内的抗体的亲和度;
(3c)选择重新计算和亲和度最高的抗体替代(3a)中亲和度最低的抗体。
优选的,步骤(6)具体是通过计算所述记忆细胞集M’中抗体两两之间的距离的平均值,当记忆细胞集M’中两个抗体间的距离小于该平均值则删除其中亲和度较小的一个的方法获得所述记忆细胞集M。
本发明的有益效果是:引入了邻域克隆选择,操作过程从局部到整体,更好的模拟了免疫网络的自然进化模型。同时在网络训练过程中增加了抗体间的竞争和协作操作,提高了网络动态分析能力,适用于数据挖掘中的聚类、分类以及数据压缩。本发明的算法既能够提高数据的聚类准确度,也能够提高数据的分类精度,同时也能提高数据处理的速度。
以下结合附图及实施例对本发明作进一步详细说明;但本发明的一种基于人工免疫网络的多智能体数据挖掘方法不局限于实施例。
附图说明
图1为本发明的算法流程图。
具体实施方式
实施例,参考图1,一种基于人工免疫网络的多智能体数据挖掘方法,是将多智能体技术中三个典型的策略融入到免疫网络的进化过程中,通过免疫网络的进化得到一个表示原始数据特征的记忆细胞集,最终运用生成的记忆细胞集对待分析的数据进行分类和聚类,具体包括以下步骤:
1、以需要进行挖掘处理的数据为原始数据,对原始数据进行归一化,使其特征在[0,1]之间,摒除特征值取值范围对距离度量的影响。
式中Xi为样本的特征值,Mini为此特征值所在样本中的最小值,Maxi为此特征值所在样本中的最大值。
将原始数据分为训练数据和测试数据两部分,从训练数据中随机选取一小部分作为抗体,剩下的作为抗原。将抗体排列成一个矩阵网格L,矩阵L的大小为size(L)=Ls*Ls,并对每个抗体从A11开始编号直到Akk,网格中某个抗体Amn的邻域定义为:Loc.Amn=(Am-n,Am-n,Am+ n,Am+n),其中,
2、对每一个输入抗原,从A11到Akk进行以下操作:
2.1计算与抗体的亲和度并进行邻域克隆选择;
首先计算输入抗原与当前抗体邻域内各个抗体的欧式距离并以此初始亲和度。计算克隆选择阈值T1,T1为输入抗原各个抗体初始亲和度的平均值,选择与输入抗原距离小于T1的抗体作为待克隆抗体集。对待克隆抗体集中的每个抗体进行三倍的克隆增殖,并对克隆增殖后的抗体进行变异。设原抗体为abi={abi1,abi2,…abiN},变异后的抗体为abi’,abi’按如下方式产生:随机从abi’中选取少数若干个属性,对选中的属性abik(k=1…Nf)进行如下操作:
abik′=abik-α(abik-agjk),其中,
表示抗体abi受到抗原abj的刺激后新产生的抗体的变异率。A表示学习因子,rand表示[0,1]之间的均匀分布随机值。最后,重新计算输入抗原与克隆变异后抗体集的亲和度,并计算阈值T2,T2为抗原与各个抗体亲和度的平均值,选取距离小于T2的抗体构成抗体集。
2.2进行邻域协作;
邻域中的抗体通过交换自信度、竞争力信息,促进协作,权衡局部与全局搜索能力。赋予每个抗体一个自信度的属性B(Am,n),初始自信度等于它的亲和度。抗体Am,n经过协作后进化为AT m,n,具体是在Am,n邻域中选择亲和度最大以及自信度最高、最低的抗体进行如下操作得到AT m,n:
其中,AC max,mn为Am,n邻域中亲和度最大的抗体,AB max,mn,AB min,mn分别为Am,n邻域中自信度最大和最小的抗体。
对抗体的自信度属性进行调整(自激励操作),如果子代的亲和度大于父代,则自信度作正反馈调节,否则作负反馈调节,表示为:
这里:B(Am,n)为抗体Am,n的自信度,λ为激励系数,C(AT,1 m,n),C(AT m,n)为子代和父代的抗体亲和度。
2.3进行邻域竞争操作;
①对每一个抗原计算Amn邻域内的亲和度,并选择亲和度最高和最低的抗体;②对亲和度最高的抗体进行克隆变异并放入抗体集,重新计算抗原与抗体集里面所有抗体的亲和度;③根据重新计算后抗体集里面每个抗体亲和度大小的排名情况,选择亲和度最高的抗体替代步骤①中亲和度最低的抗体。
3、进行网络抑制操作
对每个输入抗原都和网格中每个抗体进行上述操作,直到所有训练抗原都训练完毕,抗原集生成记忆细胞集M’。计算记忆细胞集M’中抗体两两之间的距离的平均值T3,如果M’中两个抗体间的距离小于T3,则删除其中亲和度较小的一个,通过网络训练得到最终记忆细胞集M,此时M中每个抗体都已生成属于自己的类别标签。
4、对待处理数据进行分类或压缩聚类
运用记忆细胞集M对待处理数据进行分类。
对每个输入的待处理数据,计算其与记忆细胞集M中每个抗体的欧式距离,选出与M中距离最小的那个抗体,待处理数据的类别就是距离最小抗体的类别标签,重复此过程直到待处理数据中每个数据都分类完毕。
运用记忆细胞集M对原始数据进行压缩聚类。
训练生成的记忆细胞集M是对原始数据的压缩表示,对记忆细胞集M中的数据进行聚类的结果就可以表示原始数据的聚类结果,过程如下:经过网络训练后得到的记忆细胞集M中的抗体都有其各自的特征,运用生成树规则计算记忆细胞集M中抗体间的距离,将距离相近的抗体聚集在一起,聚类后的抗体数据分布情况就是记忆细胞集M的网络结构,网络结构中的簇数就是原始数据的聚类数。
上述实施例仅用来进一步说明本发明的一种基于人工免疫网络的多智能体数据挖掘方法,但本发明并不局限于实施例,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均落入本发明技术方案的保护范围内。
Claims (7)
1.一种基于人工免疫网络的多智能体数据挖掘方法,其特征在于包括以下步骤:
(1)将原始数据分为训练数据和测试数据,于训练数据中随机抽取一部分作为抗体,其他作为抗原;将抗体排列成网格矩阵并对每个抗体在网格中进行编号;
(2)输入一抗原至网格矩阵中,依次计算其与网格矩阵中各抗体的亲和度和自信值,并进行邻域克隆选择,生成一抗体集;
(3)对该抗体集进行邻域协作操作和/或邻域竞争操作;
(4)重复步骤(2)—(3),直到每个抗原都和网格矩阵中每个抗体进行操作,所有抗原训练完毕,得到记忆细胞集M’;
(5)对记忆细胞集M’进行网络抑制操作,得到记忆细胞集M,其中记忆细胞集M中每一抗体生成属于自己的类别标签;
(6)运用记忆细胞集M对测试数据进行聚类和分类。
2.根据权利要求1所述的基于人工免疫网络的多智能体数据挖掘方法,其特征在于:所述每一个输入的抗原是跟抗体在邻域内进行操作,对于网格矩阵中某一抗体Amn的邻域定义为:Loc.Amn=(Am n-,Am-n,Am+n,Am n+),其中,
Ls是所述网格矩阵的阶数。
3.根据权利要求2所述的基于人工免疫网络的多智能体数据挖掘方法,其特征在于:步骤(2)进一步包括以下子步骤:
(2a)计算输入抗原与某一抗体邻域内各抗体的欧式距离为初始亲和度;
(2b)以各个抗体初始亲和度的平均值为阈值,选择与输入抗原距离小于该阈值的抗体作为待克隆抗体集;
(2c)对待克隆抗体集中的每个抗体进行克隆增殖;
(2d)对克隆增殖后的抗体进行变异;
(2e)重新计算输入抗原与变异后各抗体的亲和度,以输入抗原与各变异抗体亲和度的平均值为阈值,选取距离小于该阈值的抗体生成所述抗体集。
4.根据权利要求3所述的基于人工免疫网络的多智能体数据挖掘方法,其特征在于:所述克隆增值是3倍克隆增值。
5.根据权利要求1所述的基于人工免疫网络的多智能体数据挖掘方法,其特征在于:所述邻域协作包括赋予每个抗体一个自信度的属性并对抗体的自信度属性进行调整和迭代的步骤。
6.根据权利要求1所述的基于人工免疫网络的多智能体数据挖掘方法,其特征在于:所述邻域竞争操作具体为:
(3a)计算输入抗原与某一抗体邻域内各抗体的亲和度,并选择亲和度最高和最低的抗体;
(3b)对亲和度最高的抗体进行克隆并放入所述抗体集,重新计算抗原与所述抗体集内的抗体的亲和度;
(3c)根据重新计算后抗体集里面每个抗体亲和度大小的排名情况,选择亲和度最高的抗体替代步骤①中亲和度最低的抗体。
7.根据权利要求1所述的基于人工免疫网络的多智能体数据挖掘方法,其特征在于:步骤(6)具体是通过计算所述记忆细胞集M’中抗体两两之间的距离的平均值,当记忆细胞集M’中两个抗体间的距离小于该平均值则删除其中亲和度较小的一个的方法获得所述记忆细胞集M。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510029881.4A CN104615679A (zh) | 2015-01-21 | 2015-01-21 | 一种基于人工免疫网络的多智能体数据挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510029881.4A CN104615679A (zh) | 2015-01-21 | 2015-01-21 | 一种基于人工免疫网络的多智能体数据挖掘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104615679A true CN104615679A (zh) | 2015-05-13 |
Family
ID=53150121
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510029881.4A Pending CN104615679A (zh) | 2015-01-21 | 2015-01-21 | 一种基于人工免疫网络的多智能体数据挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104615679A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066833A (zh) * | 2016-11-25 | 2017-08-18 | 安徽奥里奥克科技股份有限公司 | 基于虚拟力导向和细胞分化的免疫网络分类系统及方法 |
CN108182288A (zh) * | 2018-01-23 | 2018-06-19 | 南京航空航天大学 | 一种基于人工免疫的推荐方法 |
CN110618607A (zh) * | 2018-06-20 | 2019-12-27 | 陕西师范大学 | 一种基于行为的多uuv自组织协调控制方法 |
CN112699911A (zh) * | 2020-06-03 | 2021-04-23 | 武汉市教云慧智信息技术有限公司 | 一种基于克隆选择算法的智能营销模型库方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1873661A (zh) * | 2006-06-29 | 2006-12-06 | 武汉大学 | 一种遥感影像的人工免疫非监督分类方法 |
CN101478534A (zh) * | 2008-12-02 | 2009-07-08 | 广东海洋大学 | 一种基于人工免疫原理的网络异常检测方法 |
US8429148B1 (en) * | 2005-11-01 | 2013-04-23 | At&T Intellectual Property Ii, L.P. | Method and apparatus for automatically generating headlines based on data retrieved from a network and for answering questions related to a headline |
-
2015
- 2015-01-21 CN CN201510029881.4A patent/CN104615679A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8429148B1 (en) * | 2005-11-01 | 2013-04-23 | At&T Intellectual Property Ii, L.P. | Method and apparatus for automatically generating headlines based on data retrieved from a network and for answering questions related to a headline |
CN1873661A (zh) * | 2006-06-29 | 2006-12-06 | 武汉大学 | 一种遥感影像的人工免疫非监督分类方法 |
CN101478534A (zh) * | 2008-12-02 | 2009-07-08 | 广东海洋大学 | 一种基于人工免疫原理的网络异常检测方法 |
Non-Patent Citations (1)
Title |
---|
史旭华: "基于多Agent系统的人工免疫网络及其应用研究", 《中国博士学位论文全文数据库 (电子期刊)》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066833A (zh) * | 2016-11-25 | 2017-08-18 | 安徽奥里奥克科技股份有限公司 | 基于虚拟力导向和细胞分化的免疫网络分类系统及方法 |
CN108182288A (zh) * | 2018-01-23 | 2018-06-19 | 南京航空航天大学 | 一种基于人工免疫的推荐方法 |
CN110618607A (zh) * | 2018-06-20 | 2019-12-27 | 陕西师范大学 | 一种基于行为的多uuv自组织协调控制方法 |
CN110618607B (zh) * | 2018-06-20 | 2022-03-01 | 陕西师范大学 | 一种基于行为的多uuv自组织协调控制方法 |
CN112699911A (zh) * | 2020-06-03 | 2021-04-23 | 武汉市教云慧智信息技术有限公司 | 一种基于克隆选择算法的智能营销模型库方法 |
CN112699911B (zh) * | 2020-06-03 | 2022-04-29 | 武汉市教云慧智信息技术有限公司 | 一种基于克隆选择算法的智能营销模型库方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108121999A (zh) | 基于混合蝙蝠算法的支持向量机参数选择方法 | |
CN106096727A (zh) | 一种基于机器学习的网络模型构造方法及装置 | |
CN105868775A (zh) | 基于pso算法的不平衡样本分类方法 | |
CN106228183A (zh) | 一种半监督学习分类方法与装置 | |
CN103838820B (zh) | 基于近邻传播的进化多目标优化社区检测方法 | |
CN108596268A (zh) | 一种数据分类方法 | |
CN104615679A (zh) | 一种基于人工免疫网络的多智能体数据挖掘方法 | |
CN103279793A (zh) | 一种确定环境下的无人飞行器编队任务分配方法 | |
CN106777449A (zh) | 基于二进制粒子群算法的配电网络重构方法 | |
CN106411572A (zh) | 一种结合节点信息和网络结构的社区发现方法 | |
CN104573720A (zh) | 一种无线传感器网络中核分类器的分布式训练方法 | |
CN111209192A (zh) | 一种基于双混沌鲸鱼优化算法的测试用例自动生成方法 | |
CN102200981A (zh) | 面向多层文本分类的特征选择方法和装置 | |
CN105162654A (zh) | 一种基于局部社团信息的链路预测方法 | |
CN115525038A (zh) | 一种基于联邦分层优化学习的设备故障诊断方法 | |
CN103440275A (zh) | 一种基于普利姆的k均值聚类方法 | |
CN115659807A (zh) | 一种基于贝叶斯优化模型融合算法对人才表现预测的方法 | |
CN105160598A (zh) | 一种基于改进em算法的电网业务分类方法 | |
CN107276093B (zh) | 基于场景削减的电力系统概率潮流计算方法 | |
CN104392317A (zh) | 一种基于遗传文化基因算法的项目调度方法 | |
CN102799940B (zh) | 基于遗传算法和先验知识的网络社区划分方法 | |
CN106682729A (zh) | 基于局部收敛权阵进化的BP神经网络MapReduce训练方法 | |
CN105701591A (zh) | 一种基于神经网络的电网业务分类方法 | |
CN105843971A (zh) | 一种基于rlid3的增量集成学习的数据分类方法 | |
CN105512726A (zh) | 基于免疫遗传优化的可靠性分配方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150513 |