CN101706883A - 数据挖掘方法和装置 - Google Patents

数据挖掘方法和装置 Download PDF

Info

Publication number
CN101706883A
CN101706883A CN200910237276A CN200910237276A CN101706883A CN 101706883 A CN101706883 A CN 101706883A CN 200910237276 A CN200910237276 A CN 200910237276A CN 200910237276 A CN200910237276 A CN 200910237276A CN 101706883 A CN101706883 A CN 101706883A
Authority
CN
China
Prior art keywords
attribute
information table
gene position
decision information
variation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200910237276A
Other languages
English (en)
Other versions
CN101706883B (zh
Inventor
高强
宋双
刘翼光
黄昭婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN 200910237276 priority Critical patent/CN101706883B/zh
Publication of CN101706883A publication Critical patent/CN101706883A/zh
Application granted granted Critical
Publication of CN101706883B publication Critical patent/CN101706883B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种数据挖掘方法和装置,其中,该数据挖掘方法,包括:对由初始群体编码得到的决策信息表进行属性约简,获得所述决策信息表的属性约简集合;根据所述属性约简集合确定的遗传算法,对所述初始群体进行选择、交叉和变异运算,获取最优数据。本发明对初始群体编码得到的决策信息表进行属性约简后,根据得到的属性约简集合可以确定遗传算法,采用该遗传算法对初始群体进行选择、交叉和变异运算,能够加快遗传算法的收敛速度,克服遗传算法的早熟,快速准确地得到最优数据。

Description

数据挖掘方法和装置
技术领域
本发明涉及通信技术领域,特别涉及一种数据挖掘方法和装置。
背景技术
数据挖掘技术是近年来对人类生活影响最大的几项信息技术(Information Technology;简称:IT)技术之一。数据挖掘技术的目的是从大量的数据中快速、有效地挖掘出对预测趋势和决策行为有用的信息,因此数据挖掘技术需要高效的搜索算法。
遗传算法由于其运算简单和有效的解决问题的能力而被广泛应用到数据挖掘领域。理论上,遗传算法可以从概率的意义上以随机的方式寻求到问题的最优数据。遗传算法的主要算子包括:选择算子、交叉算子和变异算子。遗传算法使用交叉算子可以从全局的角度出发找到一些较好的个体(染色体),它们有助于接近问题的最优解。但仅使用交叉算子无法对搜索空间的细节进行局部搜索,这时使用变异算子来调整个体编码串中的部分基因,可以从局部的角度出发使个体更加逼近最优解。其中变异算子用于增加遗传算法的局部搜索能力,变异操作是对种群模式的扰动,有利于增加种群的多样性。但是,如果变异概率太小很难产生新模式,变异概率太大则会使遗传算法成为随机搜索算法。基本遗传算法使用基本位变异算子,即对个体编码串中以变异概率P随机指定某一位或某几位基因进行变异,由于一般变异概率都很小,在现有的遗传算法运算过程中以固定的变异概率变异所有基因位,在遗传算法运算前期的全局搜索阶段,不易产生新的个体,使算法易陷于早熟;在遗传算法运算后期的局部搜索阶段,变异概率小,发挥作用慢,局部搜索能力差。
综上所述,现有遗传算法出现的主要问题是:早熟、收敛速度慢,也存在局部寻优能力较差的问题。
发明内容
本发明提供一种数据挖掘方法和装置,目的是解决现有的数据挖掘采用的遗传算法存在的早熟、收敛速度慢差等缺点,以减缓早熟,提高遗传算法的收敛速度,快速准确地得到最优数据。
本发明提供一种数据挖掘方法,包括:
对由初始群体编码得到的决策信息表进行属性约简,获得所述决策信息表的属性约简集合;
根据所述属性约简集合确定的遗传算法,对所述初始群体进行选择、交叉和变异运算,获取最优数据。
本发明又提供一种数据挖掘装置,包括:
属性约简模块,用于对由初始群体编码得到的决策信息表进行属性约简,获得所述决策信息表的属性约简集合;
遗传算法模块,用于根据所述属性约简集合确定的遗传算法,对所述初始群体进行选择、交叉和变异运算,获取最优数据。
本发明提供的数据挖掘方法和装置,对初始群体编码得到的决策信息表进行属性约简后,根据得到的属性约简集合可以确定遗传算法,采用该遗传算法对初始群体进行选择、交叉和变异运算,能够加快遗传算法的收敛速度,克服遗传算法的早熟,快速准确地得到最优数据。
附图说明
图1为本发明数据挖掘方法第一实施例的流程图;
图2为本发明数据挖掘方法第二实施例的流程图;
图3为本发明数据挖掘方法第三实施例的流程图;
图4为本发明数据挖掘方法第三实施例中最优解查找部分的流程图;
图5为本发明数据挖掘方法第三实施例中变异运算的流程图;
图6为本发明数据挖掘装置第一实施例的结构示意图;
图7为本发明数据挖掘装置第二实施例的结构示意图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
图1为本发明数据挖掘方法第一实施例的流程图,如图1所示,该数据挖掘方法包括以下步骤:
步骤101、对由初始群体编码得到的决策信息表进行属性约简,获得所述决策信息表的属性约简集合。
对初始群体编码得到的决策信息表后,采用粗糙集的属性约简算法,可以对决策信息表进行属性约简,获得决策信息表的属性约简集合,其中属性约简集合可以是决策信息表的最小属性约简集合。
步骤102、根据所述属性约简集合确定的遗传算法,对所述初始群体进行选择、交叉和变异运算,获取最优数据。
将决策信息表的属性约简集合包括的条件属性作为关键基因位,决策信息表的除了属性约简集合以外的其它条件属性作为非关键基因位,可以确定遗传算法,设定遗传算法中各个基因位的变异概率,例如:将关键基因位的变异概率设定为P1,非关键基因位的变异概率设定为P2。然后,根据确定的遗传算法,对初始群体进行选择、交叉和变异运算后,可以将得到数据进行解码后输出最优数据。
本实施例对初始群体编码得到的决策信息表进行属性约简后,根据得到的属性约简集合可以确定遗传算法,采用该遗传算法对初始群体进行选择、交叉和变异运算,能够加快遗传算法的收敛速度,克服遗传算法的早熟,快速准确地得到最优数据。
图2为本发明数据挖掘方法第二实施例的流程图,如图2所示,在数据挖掘方法第一实施例的基础上,在步骤101之前,该数据挖掘方法还可以包括:
步骤100、对每个初始群体中的染色体按照设定位数进行二进制编码,得到所述决策信息表,每个初始群体中的染色体在所述决策信息表中对应为一个样本,所有初始群体中的染色体经二进制编码得到的相同基因位的数据在所述决策信息表中对应为一个条件属性子集,所述决策信息表中所有的条件属性子集构成条件属性集合,每个样本在所述决策信息表中对应一个决策属性,所有样本的决策属性在所述决策信息表中对应为一个决策属性集合.
对每个初始群体中的染色体进行二进制编码,可以得到决策信息系统S={U,Q,V,f},直观表示为决策信息表的形式。其中,U为样本的有限集合,在决策信息表中可以表示为{X1,X2,X3,X4,X5......},每一个样本对应一个初始群体中的染色体。Q为属性的有限集合,Q=C∪D,C是条件属性集合,在决策信息表中可以按照二进制编码对应表示为{C1,C2,C3,C4,C5,......},条件属性集合C对应着所有初始群体中的染色体经二进制编码得到的相同基因位的数据。D是决策属性集合,在决策信息表中可以表示为{d},C和D都是Q的子集。V为属性的值域,对应着每个基因位的取值范围,例如:在二进制中V={0,1}。f可以表示为U×Q→V的映射,为U中各样本的属性指定惟一值,使每个样本的属性(Xi∈U,q∈Q),满足f(Xi,q)∈V,例如:样本X1在条件属性C1上的取值为0,则可以得到f(X1,C1)=0;样本X1在决策属性d1上的取值为1,则可以得到f(X1,d1)=1。
属性约简(Attribute Reduction)是指:在一个信息系统中,经过属性约简后的属性约简集合具有同原始属性集合相同的分类质量,最小属性约简集合是指含有属性个数最少的属性约简集合。因此,步骤101具体可以包括:
步骤201、从所述决策信息表的辨别矩阵中,获取所述决策信息表的核心条件属性子集。
首先计算决策信息表的核心条件属性子集CORE也称为核,具体方法如下公式(1):
CORE={c∈C:mij={c},1≤j≤i≤n}        (1)
公式(1)中c为从可辨识矩阵M中选取的核心条件属性,C为条件属性集合;mij为可辨识矩阵M的元素。可以从可辨识矩阵M中选取具有单一条件属性子集的元素作为核心条件属性子集;如果M中没有单一条件属性子集的元素,也可以选取出现频率最多的条件属性子集作为核心条件属性子集;n为自然数,表示初始种群中染色体的个数。
步骤202、判断所述决策信息表的决策属性集合对所述核心条件属性子集的依赖程度是否等于所述决策属性集合对条件属性集合的依赖程度,如果是,则将所述核心条件属性作为属性约简集合;否则,执行步骤203。
决策信息表决策属性集合D对任意一个条件属性子集P的依赖程度(也称相关程度)满足公式(2):
γ ( P , D ) = card ( PO S P ( D ) ) card ( U ) - - - ( 2 )
公式(2)中,γ(P,D)为D对P的依赖程度,0≤γ(P,D)≤1;card(POSP(D))为POSP(D)中元素的个数;POSP(D)为P关于D的“正区域”,表示根据P能够正确分入的所有样本。
步骤203、判断所述决策信息表的决策属性集合对条件属性集合中至少一个非核心条件属性子集与所述核心条件属性子集的并集的依赖程度是否等于所述决策属性集合对条件属性集合的依赖程度,如果是,则将所述至少一个非核心条件属性子集与所述核心条件属性子集的并集作为属性约简集合。
得到决策信息表的属性约简集合后,还可以验证该属性约简集合是否是该决策信息表的最小属性约简集合,验证的方法是:
从属性约简集合RED(U)取出任意一个非核心条件属性子集{a};如果决策属性集合D对从属性约简集合取出任意一个{a}剩余的数据RED(U)-{a}的依赖程度都不等于D对条件属性集合C的依赖程度,则该属性约简集合为最小属性约简集合;否则,如果D对RED(U)-{a}的依赖程度等于D对C的依赖程度,则将属性约简集合RED(U)替换为RED(U)-{a},再继续循环执行上述的验证步骤,直到属性约简集合为最小属性约简集合为止。可以采用最小属性约简集合作为后续确定遗传算法的依据,能够减少遗传算法的运算量。
再进一步地,步骤102可以包括选择、交叉和变异运算,具体为:
步骤204、根据每个初始群体中的染色体的适应度计算所述初始群体对应的遗传概率,按照所述遗传概率选择第一数量个染色体。
可以采用如下公式(3)计算初始群体中每个初始群体中的染色体被选中遗传到下一代群体的遗传概率,然后按照遗传概率选择第一数量个染色体。
P i = F ( X i ) / Σ i = 1 M F ( X i ) - - - ( 3 )
在公式(3)中,Pi为初始群体中第i个染色体的遗传概率,Fi为初始群体中第i个染色体的适应度,本实施例中,假设染色体适应度计算满足函数F(Xi)=Xi 2,M为初始群体中染色体的个数。可以分M次从M个初始种群中选定M个染色体。
步骤205、随机选取交叉点,根据设定的交叉概率从所述第一数量个染色体中选取第二数量个染色体,根据交叉点对所述第二数量个染色体上的基因位进行交叉运算。
采用最优保存策略,保留适应度最大的一个染色体,对剩余的第二数量个染色体进行交叉运算。例如:交叉点为3时,可以按照交叉概率将决策信息表的第3个基因位及其右端的基因位进行交叉。
步骤206、根据设定的关键基因位的第一变异概率和非关键基因位的第二变异概率,对所述染色体的基因位进行变异运算,所述关键基因位为所述决策信息表的属性约简集合包括的基因位,所述非关键基因位为所述决策信息表的非属性约简集合包括的基因位,所述第一变异概率的初始值大于所述第二变异概率的初始值。
其中,步骤206具体可以包括:
步骤2061、根据所述关键基因位的第一变异概率和非关键基因位的第二变异概率,随机选取变异点;
步骤2062、判断所述变异点的基因位所属的子代染色体的适应度是否大于父代染色体的适应度,如果是,则所述变异点的基因位变异,使所述变异点的基因位所属的子代染色体替换父代染色体;否则,所述变异点的基因位不变异,使所述变异点的基因位所属的父代染色体保持不变;
步骤2063、将所述第一变异概率减去设定的第一差值、所述第二变异概率加上设定的第二差值、循环次数累加后,判断所述循环次数是否达到设定的迭代次数,如果是,则获取当前适应度最高的染色体;否则,可以返回执行步骤204。
步骤2061到步骤2063是变异运算的过程,变异运算可以分为全局搜索和局部搜索,在全局搜索时可以设定一个全局搜索次数,例如假设迭代次数为N,可以将全局搜索次数设定为2N/3;当循环次数达到全局搜索次数时,结束全局搜索,开始局部搜索。然后,对当前适应度最高的染色体进行二进制解码后,可以得到并输出最优数据。
在本实施例中,交叉概率、迭代次数、第一变异概率的初始值、第二变异概率的初始值、第一差值、第二差值等都可以预先设定,还可以预先设定第一变异概率减小到的阈值和第二变异概率增加到的阈值。
本实施例采用粗糙集算法得到决策信息表的属性约简集合后,将属性约简结合包括的关键基因位作为确定遗传算法的依据,将关键基因位的第一变异概率初始值设定为大于非关键基因位的第二变异概率初始值,能够加快遗传算法的收敛速度;在全局搜索阶段可以提高种群的多样性,在局部搜索阶段可以提高局部搜索能力;增加了遗传算法的全局搜索能力和局部搜索能力,从而可以减缓早熟,提高收敛速度,快速准确地得到最优数据。
图3为本发明数据挖掘方法第三实施例的流程图,如图3所示,在数据挖掘方法第一、第二实施例的基础上,本实施例中以具体的数值为例对该数据挖掘方法进行说明,具体过程分为数据预处理部分301、属性约简部分302、最优解查找部分303和数据展现部分304。
一、数据预处理部分301,对应上述实施例中的步骤100。
随机取几个位于[0,31]之间的值,例如取值为{7,15,2,24,16,1},初始种群个数为M=6,对这6个初始种群的染色体进行二进制编码后,得到的决策信息表可以如下表1。
表1决策信息表
  C1   C2   C3   C4   C5   d
  X1   1   1   1   0   0   0
  X2   1   1   1   1   0   1
  X3   0   1   0   0   0   0
  X4   0   0   0   1   1   1
  X5   0   0   0   0   1   1
  X6   1   0   0   0   0   0
其中,表1对应的决策信息系统为S={U,Q,V,f},U={X1,X2,X3,X4,X5,X6}为样本集合;Q为属性集合,Q=C∪D,C={C1,C2,C3,C4,C5}为条件属性集合,D={d}是决策属性集合;{C1}到{C5}是条件属性子集。
表1中样本的生成方法例如:样本X4=24,进行二进制转换后为11000,则样本X4的各个位的数值按照从低位到高位的顺序进行排列对应为:{C1,C2,C3,C4,C5}={0,0,0,1,1},其它样本依次类推,得到如表1所示的决策信息表中各个样本对应的各个位上的数值.并且,根据如下的公式(4),可以得到决策信息表中各个样本对应的决策属性d的取值fd(Xi)。
f d ( X i ) = 1 , f ( X i ) &GreaterEqual; f ( X ) &OverBar; 0 , f ( X i ) < f ( X ) &OverBar; , f ( X ) &OverBar; = 1 n &Sigma; i = 1 n f ( X i ) - - - ( 4 )
在公式(4)中,fd(Xi)是某个样本对应的第i位的数值,n为决策信息表中的样本个数。
另外,样本在决策信息表中的排列顺序也可以为从高位到低位,例如:样本X4的各个位的数值也可以按照{C5,C4,C3,C2,C1}={1,1,0,0,0}的排列顺序生成决策信息表,如下表2:
表2决策信息表
  C5   C4   C3   C2   C1   d
  X1   0   0   1   1   1   0
  X2   0   1   1   1   1   1
  X3   0   0   0   1   0   0
  X4   1   1   0   0   0   1
  X5   1   0   0   0   0   1
  X6   0   0   0   0   1   0
二、属性约简部分302,对应上述实施例中的步骤101。
利用粗糙集算法对6个初始种群中的染色体进行属性约简,可以得到关键基因位,这一过程实际上是对数据预处理后得到的决策信息表进行属性约简,得到该决策信息表的属性约简集合的过程。
第一步,计算决策信息表的核心条件属性子集CORE:
需要计算决策信息表的辨别矩阵M,M中的元素mi,j的计算公式,参照如下公式(5):
在公式(5)中,Xi,Xj∈U,U={X1,X2,X3,X4,X5,X6},因此1≤i≤6,1≤j≤6,辨别矩阵M为一个6*6的矩阵;f(c,Xi)为决策信息表中样本Xi与在条件属性集合C中的各个属性的数值,其中c属于{C5,C4,C3,C2,C1};φ为空集。
其中,辨识矩阵M的生成方法的示例如下:
(I)计算m1,1
由于i=j=1,样本X1=X1,从表1可知:X1,X1在决策属性集合D上对应的取值均为0;可以得出:Xi,Xj是D的同一等价类,所以m1,1=φ;同理M对角线上所有的元素都等于φ。
(II)计算m2,3
由于i=2,j=3,从表1可知:X2在D上对应的取值为1,X3在决策属性集合D上对应的取值为0;因此,X2,X3是D的不同等价类。
并且,在表1中:f(C1,X2)≠f(C1,X3)、f(C2,X2)=f(C2,X3)、f(C3,X2)≠f(C3,X3)、f(C4,X2)≠f(C4,X3)、f(C5,X2)=f(C5,X3),因此,在辨识矩阵中,元素m2,3={C1,C3,C4}。同理可得元素m3,2={C1,C3,C4}。
(III)计算m2,5
由于i=2,j=5,从表1可知:X2在D上对应的取值为1,X5在D上对应的取值为1,所以X2,X5是D的同一等价类,m2,5=φ。m2,5=φ,同理可得,m5,2=φ。综上可得:可辨别矩阵M为对称矩阵。根据表1得到的可辨识矩阵M的(仅包括上三角元素)为如下公式(6):
M = &phi; { C 4 } &phi; { C 1 , C 2 , C 3 , C 4 , C 5 } { C 1 , C 2 , C 3 , C 5 } &phi; &phi; { C 1 , C 3 , C 4 } &phi; &phi; { C 2 , C 3 , C 4 } &phi; { C 2 , C 4 , C 5 } { C 2 , C 5 } &phi; &phi; &phi; { C 1 , C 4 , C 5 } &phi; { C 1 , C 5 } &phi; - - - ( 6 )
对所有的属性c∈C,c∈CORE(C,D)的充要条件是:存在i,j(1≤i<j≤6),使得mi,j={c},即从可辨识矩阵M中选取具有单一条件属性子集的元素作为核心条件属性子集,因此从公式(6)可得CORE={C4}。如果M中没有单一条件属性子集的元素,也可以选取出现频率最高的条件属性子集最为核心条件属性子集。
此时,核心条件属性子集RED(U)=CORE={C4},C’=C-RED(U)={C1,C2,C3,C5}。
第二步,计算决策属性集合D对核心条件属性子集RED(U)的依赖程度,以及D对条件属性集合的依赖程度:γ=(RED(U),D)和γ(C,D)。
(I)γ(C,D)的计算方法满足如下公式(7):
&gamma; ( C , D ) = card ( PO S C ( D ) ) card ( U ) - - - ( 7 )
在公式(7)中,POSC(D)=={P∈U/CI U/D,且P∈U/C}。其中,条件属性等价类U/C表示样本集合U在条件属性集合C上的分类;从表1可知:U/C为按C={C1,C2,C3,C4,C5}的取值对U={X1,X2,X3,X4,X5,X6}进行分类,由于{7,15,2,24,16,1}都不相等,可以得到:U/C={{X1},{X2},{X3},{X4},{X5},{X6}}。决策属性等价类U/D表示样本集合U在决策属性集合D上的分类,按D={d}的取值对U={X1,X2,X3,X4,X5,X6}进行分类,由于{X1,X3,X6}在D上的取值为0,{X2,X4,X5}在D上的取值为1,因此U/D={{X1,X3,X6},{X2,X4,X5}}。
因此POSC(D)=={P∈U/CI U/D,且P∈U/C}={{X1},{X2},{X3},{X4},{X5},{X6}},从而得到POSC(D)中元素的个数card(POSC(D))=6。而样本集合U中元素的个数card(U)=6,所以γ(C,D)=1。
(II)γ=(RED(U),D)的计算方法满足如下公式(8):
&gamma; ( RED ( U ) , D ) = card ( POS RED ( U ) ( D ) ) card ( U ) - - - ( 8 )
在公式(8)中,POSRED(U)(D)={P∈U/{C4}I U/D,且P∈U/{C4}}。其中条件属性等价类U/{C4}表示U在核心条件属性子集RED(U)={C4}上的分类,U/{C4}={{X2,X4},{X1,X3,X5,X6}};决策属性等价类U/D={{X1,X3,X6},{X2,X4,X5}}。
因此,POSRED(U)(D)={P∈U/{C4}I U/D,且P∈U/{C4}}={{X2,X4}}。从而得到:card(POSRED(U)(D))=2,card(U)=6,所以γ=(RED(U),D)=2/6。
(I I工)由于γ=(RED(U),D)≠γ(C,D),此时令C’=C-RED(U)={C1,C2,C3,C5}
从C’中选择一个非核心条件属性子集{α}(α∈C’),使得SGF(α,RED(U),D)=max(SGF(αi,RED(U),D))。
其中,SGF的计算方法满足如下公式(9):
SGF ( p , P , D ) = r ( P , D ) - r ( P - { p } , D ) = card ( POS P ( D ) ) - card ( POS P - { p } ( D ) ) card ( U ) - - - ( 9 )
假设从C’随机选择{α}=C5,将C5的取值代入公式(8)中,计算结果满足如下公式(10):
SGF ( C 5 , RED ( U ) , D ) = &gamma; ( C 5 + RED ( U ) , D ) - &gamma; ( RED ( U ) , D )
= card ( POS RED ( U ) + C 5 ( D ) ) - card ( POS RED ( U ) ( D ) ) card ( U ) - - - ( 10 )
由于U在RED(U)+C5={C4,C5}上的分类U/{C4,C5}={{X2},{X4},{X1,X3,X6},{X5}};U在决策属性D上的分类U/D={{X1,X3,X6},{X2,X4,X5}};因此,
Figure G2009102372760D0000115
且P∈U/{C4,C5}}={{X1,X3,X6},{X2},{X4},{X5}}。
从而得到card
Figure G2009102372760D0000116
并且由于card(POSRED(U)(D))=2,代入公式(10)可以得出:
根据上述方法计算,同理可得:
Figure G2009102372760D0000118
SGF ( C 3 , RED ( U ) , D ) = 2 6 , SGF ( C 1 , RED ( U ) , D ) = 2 6 .
此外,由于SGF(C5,RED(U),D)的值最大,所以将非核心条件属性子集{C5}与核心条件属性子集RED(U)进行并集运算,得到RED(U)Y{C5}=RED(U)+C5={C4,C5}。
此时,D对该并集的依赖程度为:
Figure G2009102372760D0000123
所以可以得到该决策信息表的属性约简集合为{C4,C5}。
第三步,验证属性约简集合是否是该决策信息表的最小属性约简集合。
先计算属性约简集合中元素的个数|{C4,C5}|=2,从属性约简集合中取出一个非核心条件属性子集{C5},然后计算D对剩余的数据的依赖程度:
由于γ({C4},D)=γ(RED(U),D)=2/6,与γ(C,D)不相等,经过属性约简后的属性约简集合{C4,C5}具有同原始属性集合相同的分类质量,而则取出{C5}后则达不到原始属性集合的分类质量,所以最小属性约简集是{C4,C5}。
三、最优解查找部分303和数据展现部分304,对应上述实施例中的步骤102。
将属性约简集合中的各个属性作为关键基因位,可以确定遗传算法,其中该属性约简集合可以是最小属性约简集合,也可以不是最小属性约简集合。根据最小属性约简集合确定,可以使遗传算法的运算量较小,本实施例中以属性约简集合为最小属性约简集合为例进行说明。采用属性约简集合确定的遗传算法,进行最优解查找的过程包括选择运算、交叉运算和变异运算。
遗传算法中的迭代次数和交叉概率等参数可以预先设定,本实施例中假设预先设定的迭代次数N=20,交叉概率PC=75%。
图4为本发明数据挖掘方法第三实施例中最优解查找部分的流程图,如图4所示,该最优解查找部分包括以下步骤:
步骤401、计算每个初始群体中的染色体的适应度Fi。
步骤402、进行比例选择运算。
利用比例选择算子,计算每个初始群体中的染色体被选中遗传到下一代群体的概率,即遗传概率。其中,比例选择算子是指:染色体被选中并遗传到下一代群体中的概率与该染色体的适应度大小成正比。比例选择实际上是一种有退还随机选择,也叫做赌盘选择(Roulette Wheel),具体是:先计算群体种所有染色体的适应度的总和;再计算出每个染色体的相对适应度的大小,即各染色体被遗传到下一代群体中的概率;最后再使用模拟赌盘操作(即0到1之间的随机数)来确定各个染色体被选中的次数。
遗传概率满足前述的公式(3)
Figure G2009102372760D0000131
具体地计算结果示例:
当{X1,X2,X3,X4,X5,X6}={7,15,2,24,16,1}时,每个初始群体中的染色体的适应度分别为F(X1)=X1 2=49,F(X2)=X2 2=225,F(X3)=4,F(X4)=576,F(X5)=256,F(X6)=1,遗传到下一代的概率分别是:
p1=49/(49+225+4+576+256+1)=0.044
p2=225/(49+225+4+576+256+1)=0.202
p3=4/(49+225+4+576+256+1)=0.004
p4=576/(49+225+4+576+256+1)=0.518
p5=256/(49+225+4+576+256+1)=0.231
p6=1/(49+225+4+576+256+1)=0.001
对初始种群个数为M的所有染色体,按照遗传概率pi所决定的遗传概率,分M次从M个初始种群中随机选定M个染色体。
假设本次选择运算后,选择的染色体分别为:X1’=11110(X2),X2’=00001(X5),X3’=11110(X2),X4’=00011(X4),X5’=00011(X4),X6’=00011(X4)。本实施例中的二进制编码数值取自表1,皆为逆序表达。
采用最优保存策略,保留适应度最大的染色体X6’(X6’不进行交叉和变异操作,X4’和X5’的适应度与X6’相同,也可以保留X4’或X5’),对其余的{X1’,X2’,X3’,X4’,X5’}进行后续的交叉和变异操作;
步骤403、进行单点交叉运算。
在本实施例中采用的交叉运算是:采用单点交叉算子,随机选择交叉点,并将交叉点右端的基因进行交叉。
因为设定的交叉概率PC=75%,所以随机对{X1’,X2’,X3’,X4’,X5’}中的4染色体进行交叉,例如:X1’和X2’交叉,X3’和X4’进行交叉。
如果随机选择交叉点为第3位,对X3’和X4’进行交叉的过程如下:
X3’=15,二进制编码
Figure G2009102372760D0000141
X4’=24,二进制编码
Figure G2009102372760D0000142
将二者虚线后的三位进行交换,就是从交叉点第3位开始交叉。交叉运算后,X3”=11011,X4”=00110。
同理,X1’和X2’交叉后得到:X1”=11001,X2”=00110;此外,其他的染色体数值不变,此时X5”=X5’=00011,X6”=X6’=00011。其中X6’适应度最高,因此没有参加交叉运算,而X5’虽然参加了交叉运算,但未被选中。
404、根据最小约简集进行变异运算。
其中,如图5所示,为本发明数据挖掘方法第三实施例中变异运算的流程图,该变异运算可以包括以下步骤:
步骤501、预先设定各个基因位的变异概率,假设将关键基因位的第一变异概率设定为P1=0.08,非关键基因位的第二变异概率设定为P2=0.01,其中,P1的初始值大于P2的初始值,第一变异概率减小到的阈值设定为P1m=0.005,第二变异概率增加到的阈值设定为P2m=0.05。
步骤502、判断循环次数是否达到设定的迭代次数,是则结束遗传算法,否则执行步骤503。
步骤503、判断是否是全局搜索阶段,是则执行步骤504,否则执行步骤505。
遗传算法的变异运算的过程可以分为全局搜索阶段和局部搜索阶段,可以根据迭代次数划分.这是由于遗传算法是启发式搜索算法,需要搜索一定的解空间以找到最优解,而全局搜索阶段就是在大范围内找最优解,但遗传算法最终要收敛,则必须缩小搜索范围,进入局部搜索阶段,即在某个解附近找最优解.假设循环次数在2N/3次之前的变异运算属于全局搜索阶段,则当循环次数小于2N/3时,在全局搜索阶段;大于或等于2N/3时,在局部搜索阶段.
步骤504、在全局搜索阶段,对于最小属性约简集合决定的关键基因位以较大的第一变异概率P1变异,对于其他的非关键基因位以较小的第二变异概率P2变异,在搜索过程中不断调整各个基因位的变异概率,即关键基因位的P1逐渐降低,其他基因位的P2逐渐增加,执行步骤506。
步骤505、在局部搜索阶段,关键基因位的变异率P1一直降低到阈值P1m=0.005,非关键基因位的变异率P2一直增加到阈值P2m=0.05,执行步骤506。
步骤506、在变异的过程中采用“精英保留策略”,即对计算变异后的子代染色体的适应度,判断子代染色体的适应度是否高于父代染色体的适应度,则执行步骤507,否则执行步骤508。
步骤507、用子代染色体取代父代染色体,返回执行步骤502。
步骤508、沿用父代的染色体,返回执行步骤502。
例如:全局搜索阶段开始时,P1=0.08,在最小属性约简集合决定的关键基因位共有:6(染色体数量)*2(关键基因位数量)*0.08=0.96(约等于1)个基因位变异;P2=0.01,在其他非关键基因位共有:6*4*0.01=0.24(四舍五入)不足1位基因位变异,因此非关键基因位基本不变异。
根据P1和P2随机选取变异点,例如在X1”中的第4位(C4在最小属性约简集合内)由“0”变异为“1”,则X1”’=11011(27)。
由于,X1”’适应度为27*27=729,大于X1”=11001的适应度15*15=225,所以采用X1”’=11011替代X1’=11110。替换后的X1”’适应度大于原适应度最高的染色体X6”,所将X1”’作为适应度最高的染色体不参与下一次的交叉和变异操作。
由于关键基因位对应的是{C4,C5},因此,在全局搜索阶段主要变异的是染色体的第4基因位和第5基因位。所有染色体的所有基因位中每次只变异1个基因位,每次变异结束后,可以将P1减去一个设定的第一差值(例如:(P1m-P1)/N)和P2加上一个设定的第二差值(例如:(P2m-P2)/N),并将循环次数加1(假设循环次数初始为0)。
对变异后的新一代染色体,需要重新进行选择和交叉运算后,再进行下一次变异。在全局搜索阶段,循环进行2N/3次选择、交叉、变异运算后,假设得到的染色体为:X1”’=11011(27)、X2”’=00111(28)、X3”’=11011(27)、X4”’=00111(28)、X5”’=00011(24)和X6=00011(24)。其中,X2”’适应度最高。
在局部搜索阶段(假设为循环次数在后N/3次的变异运算属于局部搜索阶段),关键基因位的变异率P1一直降低到阈值P1m=0.005,非关键基因位的变异率P2一直增加到阈值P2m=0.05。假设P1=P1m=0.005,则在最小属性集决定的关键基因位共有6(染色体数量)*2(关键基因位数量)*0.005=0.06,不足1位,关键基因位基本不变异;P2=P2m=0.05,在非关键基因位共有6*4*0.05=1.2,有1个基因位变异。
根据当前的P1和P2随机选取变异点,例如将X1”’中的第3位由“0”变异为“1”,则X1””=11111(31)。此时X1””的适应度为31*13=961大于X1”’的适应度27*27=729,所以用X1””=11111替代X1”’=11011。替换后X1””的适应度大于原适应度最高的染色体X2”’,所以X1””作为适应度最高的染色体不参与下一次的交叉和变异操作。
由于关键基因位对应的是{C1,C2,C3},因此,在局部搜索阶段主要变异的是染色体的第1、2、3基因位。所有染色体的所有基因位中在局部搜素阶段,每次变异运算时也只变异1个基因位。
步骤405、判断循环次数是否达到设定的迭代次数N,循环次数达到N后,结束遗传算法,得到适应度最高的染色体,否则返回执行步骤401。本例中,X1””=11111为该遗传算法得到的适应度最高的染色体。
数据展现部分具体为:将X1””=11111解码后,从二进制转化为十进制,得到X1””=11111=31(逆序计算),最后输出的最优数据为31。
下面举例说明该数据挖掘方法在一个具体数据库中的应用。
假设,企业为了招聘到满足一定需要的员工,在网上海量存储各应聘人员的简历,并将这些简历中的关键信息存入数据库,在需要招聘时,筛选这些简历可以得到合适的人选。根据本发明数据挖掘方法,可以按照企业招聘的标准,快速从数据库中查找到所需的信息,具体说明如下:
从如表3所示的存储的雇佣历史中,可以获取相关的招聘标准,根据各个人员(X1到X6,相当于本发明实施例中的染色体)的具体信息,可以生成如表4所示的决策信息表。
表3招聘历史信息表
 学历(m)   实习经验(w)  英语水平(e)  计算机等级(C)   结论(c)
  X1   博士   国家级项目   六级   3级   雇用
  X2   硕士   企业级项目   六级   2级   不雇用
  X3   本科   企业级项目   四级   3级   不雇用
  X4   本科   国家级项目   四级   2级   不雇用
  X5   本科   无   四级   无   不雇用
  X6   硕士   企业级项目   六级   3级   雇用
表4决策信息表
博士(C1) 硕士(C2) 本科(C3)   国家级项目(C4)   企业级项目(C5) 英语六级(C6) 英语四级(C7)   计算机三级(C8)   计算机二级(C9) 结论(d)
  X1   1   1   1   1   0   1   1   1   1   1
  X2   0   1   1   0   1   1   1   0   1   0
博士(C1) 硕士(C2) 本科(C3)   国家级项目(C4)   企业级项目(C5) 英语六级(C6) 英语四级(C7)   计算机三级(C8)   计算机二级(C9) 结论(d)
  X3   0   0   1   0   1   0   1   1   1   0
  X4   0   0   1   1   0   0   1   0   1   0
  X5   0   0   1   0   0   0   1   0   0   0
  X6   0   1   1   0   1   1   1   1   1   1
将表4中的数据代入本实施例中的粗糙集算法,可得:该决策信息表的核心条件属性子集CORE={C8},属性约简集为{C1,C2,C8}。根据表3中历史招聘信息可得,企业招聘时比较关注的是学历和计算机等级(对应属性约简集中的关键基因位)。
然后根据属性约简集确定的遗传算法,求解该企业的招聘标准,具体过程如下:
先确定各个员工在表4中对应的适应度函数,由于适应度函数需要综合考虑表4中每个条件属性子集对决策属性集合的依赖程度,则转化为求解适应度函数的最大值的过程。根据不同的应用实例,选取的适应度函数可以不同。例如:可以假设本例中各个染色体的适应度函数满足如下F(X):
F(X)=C1*γ({c1},D)+C2*γ({c2},D)+C3*γ({c3},D)+C4*γ({c4},D)+C5*γ({c5},D)+C6*γ({c6},D)+C7*γ({c7},D)+C8*γ({c8},D)+C9*γ({c9},D)
变异后的染色体的决策属性d的取值按上述的公式(4)计算。
然后,根据此适应度函数进行选择,交叉和变异运算,假设迭代次数为10次,使用比例选择算子、单点交叉算子,且变异概率P1=0.08、P2=0.01、P1m=0.005、P2m=0.05,用matlab仿真可得最优数据是:011011110,即历史招聘信息显示历史的招聘标准是:学历硕士、项目经验是企业级项目、英语水平达六级、计算机等级到三级,符合此标准的可考虑录用。
本实施例采用粗糙集算法得到决策信息表的属性约简集合后,将属性约简结合包括的关键基因位作为确定遗传算法的依据,将关键基因位的第一变异概率初始值设定为大于非关键基因位的第二变异概率初始值,能够加快遗传算法的收敛速度;在全局搜索阶段可以提高种群的多样性,在局部搜索阶段可以提高局部搜索能力;增加了遗传算法的全局搜索能力和局部搜索能力,从而可以减缓早熟,提高收敛速度,快速准确地得到最优数据。
图6为本发明数据挖掘装置第一实施例的结构示意图,如图6所示,该数据挖掘装置包括:属性约简模块61和遗传算法模块62。
其中,属性约简模块61,用于对由初始群体编码得到的决策信息表进行属性约简,获得所述决策信息表的属性约简集合;
遗传算法模块62,用于根据所述属性约简集合确定的遗传算法,对所述初始群体进行选择、交叉和变异运算,获取最优数据。
具体地,属性约简模块61采用粗糙计算法对由初始群体编码得到的决策信息表进行属性约简后,可以得到决策信息表的属性约简集合,该属性约简集合可以是决策信息表的最小属性约简集合,也可以不是决策信息表的最小属性约简集合.遗传算法模块62根据属性约简集合中包括的关键基因位,可以确定遗传算法,例如:将关键基因位的变异概率的初始值设定为大于非关键基因位的变异概率的初始值,然后遗传算法模块62对该初始群体进行选择、交叉和变异运算后,可以得到并编码输出最优数据.
本实施例属性约简模块对初始群体编码得到的决策信息表进行属性约简后,遗传算法模块根据得到的属性约简集合可以确定遗传算法,采用该遗传算法对初始群体进行选择、交叉和变异运算,能够加快遗传算法的收敛速度,克服遗传算法的早熟,快速准确地得到最优数据。
图7为本发明数据挖掘装置第二实施例的结构示意图,如图7所示,在本发明数据挖掘装置第一实施例的基础上,该数据挖掘装置还可以包括:编码模块63,用于对每个初始群体中的染色体按照设定位数进行二进制编码,得到所述决策信息表,每个初始群体中的染色体在所述决策信息表中对应为一个样本,所有初始群体中的染色体经二进制编码得到的相同基因位的数据在所述决策信息表中对应为一个条件属性子集,所述决策信息表中所有的条件属性子集构成条件属性集合,每个样本在所述决策信息表中对应一个决策属性,所有样本的决策属性在所述决策信息表中对应为一个决策属性集合。编码模块63对每个初始群体中的染色体进行二进制编码,可以得到决策信息系统S={U,Q,V,f},直观表示为决策信息表的形式。具体可以参照本发明数据挖掘方法第二、第三实施例中的相关描述及表1、表2。
进一步地,属性约简模块61可以包括:核心子模块611和判断子模块612。
其中,核心子模块611,用于从所述决策信息表的辨别矩阵中,获取所述决策信息表的核心条件属性子集;
判断子模块612,用于判断所述决策信息表的决策属性集合对所述核心条件属性子集的依赖程度是否等于所述决策属性集合对条件属性集合的依赖程度,如果是,则将所述核心条件属性作为属性约简集合;否则,判断所述决策信息表的决策属性集合对条件属性集合中至少一个非核心条件属性子集与所述核心条件属性子集的并集的依赖程度是否等于所述决策属性集合对条件属性集合的依赖程度,如果是,则所述将至少一个非核心条件属性子集与所述核心条件属性子集的并集作为属性约简集合。
具体地,核心子模块611采用粗糙计算法从决策信息表的辨别矩阵中获取核心条件属性子集后,判断子模块612根据依赖程度进行属性约简集合的判断,最终得到决策信息表的属性约简集合,具体过程可以参照本发明第二实施例中的步骤201到步骤203,以及第三实施例中的属性约简部分的相关描述。
此外,遗传算法模块62可以包括:选择子模块621、交叉子模块622和变异子模块623。
其中,选择子模块621,用于根据每个初始群体中的染色体的适应度计算所述初始群体对应的遗传概率,按照所述遗传概率选择第一数量个染色体;
交叉子模块622,用于随机选取交叉点,根据设定的交叉概率从所述第一数量个染色体中选取第二数量个染色体,根据交叉点对所述第二数量个染色体上的基因位进行交叉运算;
变异子模块623,用于根据设定的关键基因位的第一变异概率和非关键基因位的第二变异概率,对所述染色体的基因位进行变异运算,所述关键基因位为所述决策信息表的属性约简集合包括的基因位,所述非关键基因位为所述决策信息表的非属性约简集合包括的基因位,所述第一变异概率的初始值大于所述第二变异概率的初始值。
再进一步地,变异子模块623可以包括:变异点选取单元、适应度判断单元和获取单元。
其中,变异点选取单元,用于根据所述关键基因位的第一变异概率和非关键基因位的第二变异概率,随机选取变异点;
适应度判断单元,用于判断所述变异点的基因位所属的子代染色体的适应度是否大于父代染色体的适应度,如果是,则所述变异点的基因位变异,使所述变异点的基因位所属的子代染色体替换父代染色体;否则,所述变异点的基因位不变异,使所述变异点的基因位所属的父代染色体保持不变;
获取单元,用于将所述第一变异概率减去设定的第一差值、所述第二变异概率加上设定的第二差值、循环次数累加后,判断所述循环次数是否达到设定的迭代次数,如果是,则获取当前适应度最高的染色体。
具体地,选择子模块621采用比例选择算子,计算出初始群体对应的遗传概率,按照遗传概率选择第一数量个染色体;交叉子模块622采用单点交叉算子,随机选取交叉点后,根据设定的交叉概率将第二数量个染色体上的基因位进行交叉运算;然后变异子模块623根据设定的关键基因位的第一变异概率和非关键基因位的第二变异概率,对染色体的基因位进行变异运算。在变异运算的过程中,变异点选取单元根据第一变异概率和第二变异概率,随机选取变异点;适应度判断单元判断选取的变异点的基因位所属的子代染色体的适应度是否大于父代染色体的适应度,是则该变异点的基因位变异,使所述变异点的基因位所属的子代染色体替换父代染色体;否则,该变异点的基因位不变异,使该变异点的基因位所属的父代染色体保持不变。最后,循环次数达到设定的迭代次数后,获取单元获取当前适应度最高的染色体。最后,遗传算法模块62可以将当前适应度最高的染色体进行二进制解码,输出最优数据。
本实施例属性约简模块的各个子模块采用粗糙集算法得到决策信息表的属性约简集合后,遗传算法模块将属性约简结合包括的关键基因位作为确定遗传算法的依据,变异子模块根据设定的关键基因位的第一变异概率和非关键基因位的第二变异概率初始值进行变异运算,能够加快遗传算法的收敛速度;在全局搜索阶段可以提高种群的多样性,在局部搜索阶段可以提高局部搜索能力;增加了遗传算法的全局搜索能力和局部搜索能力,从而可以减缓早熟,提高收敛速度,快速准确地得到最优数据。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种数据挖掘方法,其特征在于,包括:
对由初始群体编码得到的决策信息表进行属性约简,获得所述决策信息表的属性约简集合;
根据所述属性约简集合确定的遗传算法,对所述初始群体进行选择、交叉和变异运算,获取最优数据。
2.根据权利要求1所述的数据挖掘方法,其特征在于,在所述对由初始群体编码得到的决策信息表进行属性约简,获得所述决策信息表的属性约简集合之前,还包括:
对每个初始群体中的染色体按照设定位数进行二进制编码,得到所述决策信息表,每个初始群体中的染色体在所述决策信息表中对应为一个样本,所有初始群体中的染色体经二进制编码得到的相同基因位的数据在所述决策信息表中对应为一个条件属性子集,所述决策信息表中所有的条件属性子集构成条件属性集合,每个样本在所述决策信息表中对应一个决策属性,所有样本的决策属性在所述决策信息表中对应为一个决策属性集合。
3.根据权利要求2所述的数据挖掘方法,其特征在于,所述对由初始群体编码得到的决策信息表进行属性约简,获得所述决策信息表的属性约简集合,包括:
从所述决策信息表的辨别矩阵中,获取所述决策信息表的核心条件属性子集;
判断所述决策信息表的决策属性集合对所述核心条件属性子集的依赖程度是否等于所述决策属性集合对条件属性集合的依赖程度,如果是,则将所述核心条件属性作为属性约简集合;
否则,判断所述决策信息表的决策属性集合对条件属性集合中至少一个非核心条件属性子集与所述核心条件属性子集的并集的依赖程度是否等于所述决策属性集合对条件属性集合的依赖程度,如果是,则将所述至少一个非核心条件属性子集与所述核心条件属性子集的并集作为属性约简集合。
4.根据权利要求1所述的数据挖掘方法,其特征在于,所述根据所述属性约简集合确定的遗传算法,对所述初始群体进行选择、交叉和变异运算,包括:
根据每个初始群体中的染色体的适应度计算所述初始群体对应的遗传概率,按照所述遗传概率选择第一数量个染色体;
随机选取交叉点,根据设定的交叉概率从所述第一数量个染色体中选取第二数量个染色体,根据交叉点对所述第二数量个染色体上的基因位进行交叉运算;
根据设定的关键基因位的第一变异概率和非关键基因位的第二变异概率,对所述染色体的基因位进行变异运算,所述关键基因位为所述决策信息表的属性约简集合包括的基因位,所述非关键基因位为所述决策信息表的非属性约简集合包括的基因位,所述第一变异概率的初始值大于所述第二变异概率的初始值。
5.根据权利要求4所述的数据挖掘方法,其特征在于,所述根据设定的关键基因位的第一变异概率和非关键基因位的第二变异概率,对所述染色体的基因位进行变异运算,包括:
根据所述关键基因位的第一变异概率和非关键基因位的第二变异概率,随机选取变异点;
判断所述变异点的基因位所属的子代染色体的适应度是否大于父代染色体的适应度,如果是,则所述变异点的基因位变异,使所述变异点的基因位所属的子代染色体替换父代染色体;否则,所述变异点的基因位不变异,使所述变异点的基因位所属的父代染色体保持不变;
将所述第一变异概率减去设定的第一差值、所述第二变异概率加上设定的第二差值、循环次数累加后,判断所述循环次数是否达到设定的迭代次数,如果是,则获取当前适应度最高的染色体。
6.一种数据挖掘装置,其特征在于,包括:
属性约简模块,用于对由初始群体编码得到的决策信息表进行属性约简,获得所述决策信息表的属性约简集合;
遗传算法模块,用于根据所述属性约简集合确定的遗传算法,对所述初始群体进行选择、交叉和变异运算,获取最优数据。
7.根据权利要求6所述的数据挖掘装置,其特征在于,还包括:
编码模块,用于对每个初始群体中的染色体按照设定位数进行二进制编码,得到所述决策信息表,每个初始群体中的染色体在所述决策信息表中对应为一个样本,所有初始群体中的染色体经二进制编码得到的相同基因位的数据在所述决策信息表中对应为一个条件属性子集,所述决策信息表中所有的条件属性子集构成条件属性集合,每个样本在所述决策信息表中对应一个决策属性,所有样本的决策属性在所述决策信息表中对应为一个决策属性集合。
8.根据权利要求7所述的数据挖掘装置,其特征在于,所述属性约简模块包括:
核心子模块,用于从所述决策信息表的辨别矩阵中,获取所述决策信息表的核心条件属性子集;
判断子模块,用于判断所述决策信息表的决策属性集合对所述核心条件属性子集的依赖程度是否等于所述决策属性集合对条件属性集合的依赖程度,如果是,则将所述核心条件属性作为属性约简集合;否则,判断所述决策信息表的决策属性集合对条件属性集合中至少一个非核心条件属性子集与所述核心条件属性子集的并集的依赖程度是否等于所述决策属性集合对条件属性集合的依赖程度,如果是,则将所述至少一个非核心条件属性子集与所述核心条件属性子集的并集作为属性约简集合。
9.根据权利要求6所述的数据挖掘装置,其特征在于,所述遗传算法模块包括:
选择子模块,用于根据每个初始群体中的染色体的适应度计算所述初始群体对应的遗传概率,按照所述遗传概率选择第一数量个染色体;
交叉子模块,用于随机选取交叉点,根据设定的交叉概率从所述第一数量个染色体中选取第二数量个染色体,根据交叉点对所述第二数量个染色体上的基因位进行交叉运算;
变异子模块,用于根据设定的关键基因位的第一变异概率和非关键基因位的第二变异概率,对所述染色体的基因位进行变异运算,所述关键基因位为所述决策信息表的属性约简集合包括的基因位,所述非关键基因位为所述决策信息表的非属性约简集合包括的基因位,所述第一变异概率的初始值大于所述第二变异概率的初始值。
10.根据权利要求9所述的数据挖掘装置,其特征在于,所述变异子模块包括:
变异点选取单元,用于根据所述关键基因位的第一变异概率和非关键基因位的第二变异概率,随机选取变异点;
适应度判断单元,用于判断所述变异点的基因位所属的子代染色体的适应度是否大于父代染色体的适应度,如果是,则所述变异点的基因位变异,使所述变异点的基因位所属的子代染色体替换父代染色体;否则,所述变异点的基因位不变异,使所述变异点的基因位所属的父代染色体保持不变;
获取单元,用于将所述第一变异概率减去设定的第一差值、所述第二变异概率加上设定的第二差值、循环次数累加后,判断所述循环次数是否达到设定的迭代次数,如果是,则获取当前适应度最高的染色体。
CN 200910237276 2009-11-09 2009-11-09 数据挖掘方法和装置 Expired - Fee Related CN101706883B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200910237276 CN101706883B (zh) 2009-11-09 2009-11-09 数据挖掘方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200910237276 CN101706883B (zh) 2009-11-09 2009-11-09 数据挖掘方法和装置

Publications (2)

Publication Number Publication Date
CN101706883A true CN101706883A (zh) 2010-05-12
CN101706883B CN101706883B (zh) 2013-01-23

Family

ID=42377106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200910237276 Expired - Fee Related CN101706883B (zh) 2009-11-09 2009-11-09 数据挖掘方法和装置

Country Status (1)

Country Link
CN (1) CN101706883B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915423A (zh) * 2012-09-11 2013-02-06 中国电力科学研究院 一种基于粗糙集和基因表达式的电力业务数据过滤系统及方法
CN103313263A (zh) * 2013-04-25 2013-09-18 中山大学 基于遗传算法的无线传感器网络节点分层调度方法
CN103995873A (zh) * 2014-05-22 2014-08-20 长春工业大学 一种数据挖掘方法及数据挖掘系统
CN108062363A (zh) * 2017-12-05 2018-05-22 南京邮电大学 一种面向有源配电网的数据过滤方法及系统
CN108280520A (zh) * 2018-02-24 2018-07-13 北京爱尔达电子设备有限公司 大气廓线计算方法及装置
CN109697619A (zh) * 2017-10-20 2019-04-30 中移(苏州)软件技术有限公司 一种数据分析方法及装置
CN109800384A (zh) * 2018-12-28 2019-05-24 西安交通大学 一种基于粗糙集信息决策表的基本概率赋值计算方法
CN111984704A (zh) * 2020-08-20 2020-11-24 支付宝(杭州)信息技术有限公司 数据筛选方法及装置
CN115375456A (zh) * 2022-08-26 2022-11-22 广东工业大学 用于信贷风险评估的数据处理方法、装置、设备及介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101344902B (zh) * 2008-07-15 2010-07-28 北京科技大学 一种基于关联分析与关联分类的蛋白质二级结构预测方法
CN101344519B (zh) * 2008-08-21 2012-08-22 上海交通大学 用于优化结直肠癌诊断的肿瘤标志物多分割点设置系统

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915423B (zh) * 2012-09-11 2016-01-20 中国电力科学研究院 一种基于粗糙集和基因表达式的电力业务数据过滤系统及方法
CN102915423A (zh) * 2012-09-11 2013-02-06 中国电力科学研究院 一种基于粗糙集和基因表达式的电力业务数据过滤系统及方法
CN103313263A (zh) * 2013-04-25 2013-09-18 中山大学 基于遗传算法的无线传感器网络节点分层调度方法
CN103995873A (zh) * 2014-05-22 2014-08-20 长春工业大学 一种数据挖掘方法及数据挖掘系统
CN103995873B (zh) * 2014-05-22 2017-03-15 长春工业大学 一种数据挖掘方法及数据挖掘系统
CN109697619A (zh) * 2017-10-20 2019-04-30 中移(苏州)软件技术有限公司 一种数据分析方法及装置
CN108062363A (zh) * 2017-12-05 2018-05-22 南京邮电大学 一种面向有源配电网的数据过滤方法及系统
CN108280520A (zh) * 2018-02-24 2018-07-13 北京爱尔达电子设备有限公司 大气廓线计算方法及装置
CN108280520B (zh) * 2018-02-24 2020-07-17 陈书驰 大气廓线计算方法及装置
CN109800384A (zh) * 2018-12-28 2019-05-24 西安交通大学 一种基于粗糙集信息决策表的基本概率赋值计算方法
CN111984704A (zh) * 2020-08-20 2020-11-24 支付宝(杭州)信息技术有限公司 数据筛选方法及装置
CN115375456A (zh) * 2022-08-26 2022-11-22 广东工业大学 用于信贷风险评估的数据处理方法、装置、设备及介质
CN115375456B (zh) * 2022-08-26 2023-08-08 广东工业大学 用于信贷风险评估的数据处理方法、装置、设备及介质

Also Published As

Publication number Publication date
CN101706883B (zh) 2013-01-23

Similar Documents

Publication Publication Date Title
CN101706883B (zh) 数据挖掘方法和装置
Paithankar et al. Open pit mine production schedule optimization using a hybrid of maximum-flow and genetic algorithms
Sayyad et al. On the value of user preferences in search-based software engineering: A case study in software product lines
Yamin Review on methods of generation scheduling in electric power systems
US8250007B2 (en) Method of generating precedence-preserving crossover and mutation operations in genetic algorithms
Shao et al. A novel multi-objective discrete water wave optimization for solving multi-objective blocking flow-shop scheduling problem
CN104798043A (zh) 一种数据处理方法和计算机系统
Singh et al. Optimum oil production planning using infeasibility driven evolutionary algorithm
CN104636834B (zh) 一种改进的联合概率规划模型系统优化方法
CN115600774A (zh) 一种装配式建筑构件产线的多目标生产调度优化方法
Sedeh et al. Optimization of bidding strategy in the day-ahead market by consideration of seasonality trend of the market spot price
CN110390491A (zh) 一种公路工程多目标施工计划确定方法
CN107704985A (zh) 一种动态策略的差分进化柔性车间优化调度方法
Liu et al. An integrated fuzzy multi-energy transaction evaluation approach for energy internet markets considering judgement credibility and variable rough precision
Miebs et al. Heuristic algorithms for aggregation of incomplete rankings in multiple criteria group decision making
CN103353895A (zh) 一种配电网线损数据的预处理方法
CN109919688B (zh) 一种考虑市场因素的电子烟产品线规划方法
Elkabalawy et al. Optimized resource-constrained method for project schedule compression
CN107180286A (zh) 基于改进型花粉算法的制造服务供应链优化方法及系统
Xu et al. Two sided disassembly line balancing problem with rest time of works: A constraint programming model and an improved NSGA II algorithm
CN111428938A (zh) 一种基于功能差异与全寿命周期的输电网方案优选方法
CN117273427A (zh) 一种装配式项目全过程风险管理评估方法
CN110175702A (zh) 确定跨区互联电网项目的规划方案的方法、计算设备
Ermoliev et al. Linking distributed sectorial and regional optimization models under asymmetric information: towards robust food-water-energy-environmental nexus
Lv et al. Scenario-based modeling approach and scatter search algorithm for the stochastic slab allocation problem in steel industry

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130123

Termination date: 20131109