CN102262682B - 基于粗糙分类知识发现的快速属性约简方法 - Google Patents

基于粗糙分类知识发现的快速属性约简方法 Download PDF

Info

Publication number
CN102262682B
CN102262682B CN201110239348.2A CN201110239348A CN102262682B CN 102262682 B CN102262682 B CN 102262682B CN 201110239348 A CN201110239348 A CN 201110239348A CN 102262682 B CN102262682 B CN 102262682B
Authority
CN
China
Prior art keywords
attribute
core
centerdot
classification
decision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110239348.2A
Other languages
English (en)
Other versions
CN102262682A (zh
Inventor
徐宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Institute of Technology
Original Assignee
Shanghai Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Institute of Technology filed Critical Shanghai Institute of Technology
Priority to CN201110239348.2A priority Critical patent/CN102262682B/zh
Publication of CN102262682A publication Critical patent/CN102262682A/zh
Application granted granted Critical
Publication of CN102262682B publication Critical patent/CN102262682B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

一种基于粗糙分类知识发现的快速属性约简方法,涉及数据处理技术领域,所解决的是简化约简原理,最快压缩冗余数据的技术问题。该方法的具体步骤如下:1)在条件属性集中找出核属性组成核属性集,余下的条件属性组成待选属性集;2)判断核属性集是否为数据集的约简解,如果是则属性约简即告完成;3)以决策属性集的分类知识为标准评价各待选属性的分类能力,找出与核属性集组合后的分类知识相对决策属性集的分类知识一致性最高的待选属性移至核属性集;4)判断已选属性集是否为数据集的约简解,如果是则属性约简即告完成,如果不是则转至步骤3。本发明提供的方法,特别适用于高维数据集。

Description

基于粗糙分类知识发现的快速属性约简方法
技术领域
本发明涉及数据处理技术,特别是涉及一种基于粗糙分类知识发现的快速属性约简方法的技术。
背景技术
发现大数据集中潜藏知识的方法主要有以下两种:1)数据统计方法,该方法具有局限性明显的缺陷,在数据集庞大、数据稀疏的情况下其算时较长,而且当数据集属性较多时,其算时会呈指数式上升;2)粗糙理论,该理论提出在保持系统分类知识不变的情况下,可约简不需要的属性和数据,这改进了数据的压缩处理,但该理论在属性数量较多时,仍存在计算量问题。
为了克服发现大数据集中潜藏知识时因属性数量多而产生的计算量问题,产生了多种以粗糙理论为基础的启发式方法来选择数据集需要的属性,这些方法中又以属性重要性启发式方法为最多,即按照某种评价标准排序属性再依次选择。这些启发式方法的启发式规则多要借助其他理论:如信息论、生物计算、矩阵方法等,因此其约简属性的方法原理解释很复杂,一次约简后仍会存在冗余属性,不能确定距最小属性集的距离,具有对数据集适应性不强的缺陷。
发明内容
针对上述现有技术中存在的缺陷,本发明所要解决的技术问题是提供一种能有效克服了大计算量问题,且约简原理明确简单,能使运算快速逼近最小属性组合,最快压缩冗余数据的基于粗糙分类知识发现的快速属性约简方法。
为了解决上述技术问题,本发明所提供的一种基于粗糙分类知识发现的快速属性约简方法,包括待进行属性约简的数据集,所述数据集包含有多个属性,并根据数据集中各个对象的各个属性取值,对数据集中所有对象进行分类,同一属性的取值相同的各个对象,归在该属性分类的同一类,数据集中的属性分为两种,分别为决策属性、条件属性,所述决策属性是整个数据集分类的一种分类标准,各决策属性组成一个决策属性集,各条件属性组成一个条件属性集,其特征在于,该方法的具体步骤如下:
1)在条件属性集中找出必不可少的各个条件属性作为核属性,余下的各个条件属性作为待选属性,各核属性组成一个核属性集,各待选属性组成一个待选属性集;
2)判断核属性集的分类知识与数据集的分类知识是否一致,如果一致则表明核属性集为数据集的约简解,对数据集的属性约简即告完成,如果不一致则转至步骤3;
3)以决策属性集的分类知识为标准评价各待选属性的分类能力,找出与核属性集组合后的分类知识相对决策属性集的分类知识一致性最高的待选属性,并将所找出的待选属性从待选属性集移至核属性集;
其中,待选属性分类能力评价时,先将待选属性集与核属性集进行交运算,再根据该交运算子集对数据集中所有对象进行分类,并将其每个分类,与根据决策属性集对数据集中所有对象进行分类后的每个分类进行比较,一个分类中相同的对象数越多,则表明该交运算子集的分类知识与决策属性集的分类知识一致性越高,反之则表明该交运算子集的分类知识与决策属性集的分类知识一致性越低;
4)判断核属性集的分类知识与数据集的分类知识是否一致,如果一致则表明核属性集为数据集的约简解,对数据集的属性约简即告完成,如果不一致则转至步骤3。
进一步的,所述步骤3中待选属性分类能力评价时,先将待选属性集与核属性集进行交运算,再根据该交运算子集对数据集中所有对象进行分类,并将其每个分类,与根据决策属性集对数据集中所有对象进行分类后的每个分类进行比较,一个分类中相同的对象数越多,则表明该交运算子集的分类知识与决策属性集的分类知识一致性越高,反之则表明该交运算子集的分类知识与决策属性集的分类知识一致性越低。
进一步的,所述步骤3中的待选属性分类能力评价步骤如下:
3.1)将数据集记为:S={U,A,V,f};
其中,S为数据集,U为对象的非空集合,A=CDC为对象的条件属性集,D为对象的决策属性集,V为属性取值集合,fUA间值域的映射函数,有f=U×aVaC
将核属性集记为R,待选属性记为c,有cC-R
3.2)根据决策属性集对数据集中的所有对象进行分类,得到决策属性分类集为:
π D =U/ind(D)={Y 1Y 2,…,Y d };
其中,π D 为决策属性分类集,Y 1Y d 为决策属性分类集中的对象;
3.3)根据核属性集对数据集中的所有对象进行分类,得到核属性分类集为:
π R =U/ind(R)={U 1U 2,…,U r };
其中,π R 为核属性划分类集,U 1U r 为核属性分类集中的对象;
3.4)得到决策属性分类集与核属性分类集的交运算子集为:
π=π R ·π D =U/ind(RD)=
其中,
3.5)根据待选属性集对数据集中的所有对象进行分类,得到待选属性分类集为:
π c =U/c={B 1B 2,…,B q };
其中,π c 为待选属性分类集,B 1B q 为待选属性分类集中的对象;
3.6)用π c 对π R 进行交运算,得到:
π c ·=
其中,
3.7)得到待选择属性集的分类积分为:
sig(c)=
=
其中,sig(c)为待选择属性集的分类积分;
3.8)将待选属性集中分类积分值最高的待选属性移至核属性集;
3.9)根据核属性集对U中的所有对象进行分类,并将独立为一个对象的分类中的对象从U中减去。
本发明提供的基于粗糙分类知识发现的快速属性约简方法,采用了基于粗糙理论的启发式方法,能有效克服大计算量问题,而且其启发规则是完全基于数据集的分类知识建立的,选择属性不仅从个体独立的分类知识,而且考虑选择后的集合分类知识,以及分类的标准以决策分类知识本身为标准,其约简原理明确,符合粗糙约简理论的分类知识不变思想,并根据约简过程和启发式特点,优化处理方法,能使运算快速逼近最小属性组合,最快压缩冗余数据。
附图说明
图1是本发明实施例的基于粗糙分类知识发现的快速属性约简方法的属性约简流程图。
具体实施方式
以下结合附图说明对本发明的实施例作进一步详细描述,但本实施例并不用于限制本发明,凡是采用本发明的相似结构及其相似变化,均应列入本发明的保护范围。
如图1所示,本发明实施例所提供的一种基于粗糙分类知识发现的快速属性约简方法,包括待进行属性约简的数据集,所述数据集包含有多个属性,并根据数据集中各个对象的各个属性取值,对数据集中所有对象进行分类,同一属性的取值相同的各个对象,归在该属性分类的同一类,数据集中的属性分为两种,分别为决策属性、条件属性,所述决策属性是整个数据集分类的一种分类标准,各决策属性组成一个决策属性集,各条件属性组成一个条件属性集,其特征在于,该方法的具体步骤如下:
1)在条件属性集中找出必不可少的各个条件属性作为核属性,余下的各个条件属性作为待选属性,各核属性组成一个核属性集,各待选属性组成一个待选属性集;
2)判断核属性集的分类知识与数据集的分类知识是否一致,如果一致则表明核属性集为数据集的约简解,对数据集的属性约简即告完成,如果不一致则转至步骤3;
3)以决策属性集的分类知识为标准评价各待选属性的分类能力,找出与核属性集组合后的分类知识相对决策属性集的分类知识一致性最高的待选属性,并将所找出的待选属性从待选属性集移至核属性集;
其中,待选属性分类能力评价时,先将待选属性集与核属性集进行交运算,再根据该交运算子集对数据集中所有对象进行分类,并将其每个分类,与根据决策属性集对数据集中所有对象进行分类后的每个分类进行比较,一个分类中相同的对象数越多,则表明该交运算子集的分类知识与决策属性集的分类知识一致性越高,反之则表明该交运算子集的分类知识与决策属性集的分类知识一致性越低;
4)判断核属性集的分类知识与数据集的分类知识是否一致,如果一致则表明核属性集为数据集的约简解,对数据集的属性约简即告完成,如果不一致则转至步骤3。
本发明实施例中,所述步骤3中的待选属性分类能力评价步骤如下:
3.1)将数据集记为:S={U,A,V,f};
其中,S为数据集,U为对象的非空集合,A=CDC为对象的条件属性集,D为对象的决策属性集,V为属性取值集合,fUA间值域的映射函数,有f=U×aVaC
将核属性集记为R,待选属性记为c,有cC-R
3.2)根据决策属性集对数据集中的所有对象进行分类,得到决策属性分类集为:
π D =U/ind(D)={Y 1Y 2,…,Y d };
其中,π D 为决策属性分类集,Y 1Y d 为决策属性分类集中的对象;
3.3)根据核属性集对数据集中的所有对象进行分类,得到核属性分类集为:
π R =U/ind(R)={U 1U 2,…,U r };
其中,π R 为核属性划分类集,U 1U r 为核属性分类集中的对象;
3.4)得到决策属性分类集与核属性分类集的交运算子集为:
π=π R ·π D =U/ind(RD)=
其中,
3.5)根据待选属性集对数据集中的所有对象进行分类,得到待选属性分类集为:
π c =U/c={B 1B 2,…,B q };
其中,π c 为待选属性分类集,B 1B q 为待选属性分类集中的对象;
3.6)用π c 对π R 进行交运算,得到:
π c ·=
其中,
3.7)得到待选择属性集的分类积分为:
sig(c)=
=
其中,sig(c)为待选择属性集的分类积分;
3.8)将待选属性集中分类积分值最高的待选属性移至核属性集;
3.9)根据核属性集对U中的所有对象进行分类,并将独立为一个对象的分类中的对象从U中减去,使U中只留下需要继续分类的对象,使分类知识的评价更为准确。
本发明实施例特别适用于高维数据集。

Claims (2)

1.一种基于粗糙分类知识发现的快速属性约简方法,包括待进行属性约简的数据集,所述数据集包含有多个属性,并根据数据集中各个对象的各个属性取值,对数据集中所有对象进行分类,同一属性的取值相同的各个对象,归在该属性分类的同一类,数据集中的属性分为两种,分别为决策属性、条件属性,所述决策属性是整个数据集分类的一种分类标准,各决策属性组成一个决策属性集,各条件属性组成一个条件属性集,其特征在于,该方法的具体步骤如下:
1)在条件属性集中找出必不可少的各个条件属性作为核属性,余下的各个条件属性作为待选属性,各核属性组成一个核属性集,各待选属性组成一个待选属性集;
2)判断核属性集的分类知识与数据集的分类知识是否一致,如果一致则表明核属性集为数据集的约简解,对数据集的属性约简即告完成,如果不一致则转至步骤3;
3)以决策属性集的分类知识为标准评价各待选属性的分类能力,找出与核属性集组合后的分类知识相对决策属性集的分类知识一致性最高的待选属性,并将所找出的待选属性从待选属性集移至核属性集;
其中,待选属性分类能力评价时,先将待选属性集与核属性集进行交运算,再根据该交运算子集对数据集中所有对象进行分类,并将其每个分类,与根据决策属性集对数据集中所有对象进行分类后的每个分类进行比较,一个分类中相同的对象数越多,则表明该交运算子集的分类知识与决策属性集的分类知识一致性越高,反之则表明该交运算子集的分类知识与决策属性集的分类知识一致性越低;
4)判断核属性集的分类知识与数据集的分类知识是否一致,如果一致则表明核属性集为数据集的约简解,对数据集的属性约简即告完成,如果不一致则转至步骤3。
2.根据权利要求1所述的方法,其特征在于,所述步骤3中的待选属性分类能力评价步骤如下:
2.1)将数据集记为:S={U,A,V,f};
其中,S为数据集,U为对象的非空集合,A=C∪D,C为对象的条件属性集,D为对象的决策属性集,V为属性取值集合,f为U与A间值域的映射函数,有f=U×a→V,a∈C;
将核属性集记为R,待选属性记为c,有c∈C-R;
2.2)根据决策属性集对数据集中的所有对象进行分类,得到决策属性分类集为:
πD=U/ind(D)={Y1,Y2,…,Yd};
其中,πD为决策属性分类集,Y1至Yd为决策属性分类集中的对象;
2.3)根据核属性集对数据集中的所有对象进行分类,得到核属性分类集为:
πR=U/ind(R)={U1,U2,…,Ur};
其中,πR为核属性划分类集,U1至Ur为核属性分类集中的对象;
2.4)得到决策属性分类集与核属性分类集的交运算子集为:
π = π R · π D = U / i n d ( R ∩ D ) = A 11 A 1 2 ... A 1 d A 2 1 A 22 ... A 2 d · · · · · · · · · A γ 1 A γ 2 ... A γ d ;
其中,Aij=Ui∩Yj,i=1,2,...,r,j=1,2,...,d, U i = ∪ j = 1 d A i j , Y i = ∪ i = 1 γ A i j ;
2.5)根据待选属性集对数据集中的所有对象进行分类,得到待选属性分类集为:
πc=U/c={B1,B2,…,Bq};
其中,πc为待选属性分类集,B1至Bq为待选属性分类集中的对象;
2.6)用πc对πR的Ui进行交运算,得到:
π c · U i = A i 1 1 A i 2 1 ... A i d 1 A i 1 2 A i 2 2 ... A i d 2 · · · · · · · · · A i 1 q A i 2 q ... A i d q ;
其中, A i j k = B k ∩ A i j , i=1,2,…,r,j=1,2,…,d,k=1,2,…,q, B k ⊇ ∪ j = 1 d A i j k , A i j = ∪ k = 1 q A i j k ;
2.7)得到待选择属性集的分类积分为:
s i g ( c ) = Σ k = 1 q Σ i = 1 γ Σ j = 1 d d ( B k , A i j , U i ) ;
d ( B k , A i j , U i ) = | B k ∩ A i j | × | A ‾ i j - A ‾ i j ∩ B k | , A ‾ i j = U i - A i j ;
i=1,2,…,r,j=1,2,…,d,k=1,2,…,q;
其中,sig(c)为待选择属性集的分类积分;
2.8)将待选属性集中分类积分值最高的待选属性移至核属性集;
2.9)根据核属性集对U中的所有对象进行分类,并将独立为一个对象的分类中的对象从U中减去。
CN201110239348.2A 2011-08-19 2011-08-19 基于粗糙分类知识发现的快速属性约简方法 Expired - Fee Related CN102262682B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110239348.2A CN102262682B (zh) 2011-08-19 2011-08-19 基于粗糙分类知识发现的快速属性约简方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110239348.2A CN102262682B (zh) 2011-08-19 2011-08-19 基于粗糙分类知识发现的快速属性约简方法

Publications (2)

Publication Number Publication Date
CN102262682A CN102262682A (zh) 2011-11-30
CN102262682B true CN102262682B (zh) 2016-01-20

Family

ID=45009310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110239348.2A Expired - Fee Related CN102262682B (zh) 2011-08-19 2011-08-19 基于粗糙分类知识发现的快速属性约简方法

Country Status (1)

Country Link
CN (1) CN102262682B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104111965B (zh) * 2014-03-17 2017-06-20 南京邮电大学 基于差别矩阵的ogc地理信息服务描述词汇约简方法
CN104036022A (zh) * 2014-06-26 2014-09-10 东南大学成贤学院 一种基于变精度容差关系扩展粗糙集的个性化推荐方法
CN106228173A (zh) * 2015-06-02 2016-12-14 武汉纺织大学 一种基于空间统计的取证数据约简方法
CN106886519A (zh) * 2015-12-15 2017-06-23 中国移动通信集团公司 一种属性处理方法及服务器
CN106599049B (zh) * 2016-11-09 2019-08-27 中南大学 一种决策表数据约简方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101025729A (zh) * 2007-03-29 2007-08-29 复旦大学 基于粗糙支持矢量机的模式分类识别方法
CN102142031A (zh) * 2011-03-18 2011-08-03 南京邮电大学 一种基于粗糙集的海量数据分割方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030130991A1 (en) * 2001-03-28 2003-07-10 Fidel Reijerse Knowledge discovery from data sets

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101025729A (zh) * 2007-03-29 2007-08-29 复旦大学 基于粗糙支持矢量机的模式分类识别方法
CN102142031A (zh) * 2011-03-18 2011-08-03 南京邮电大学 一种基于粗糙集的海量数据分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于粗糙集属性变分区的属性约简;邓九英等;《华南理工大学学报》;20060930;第50-55页 *

Also Published As

Publication number Publication date
CN102262682A (zh) 2011-11-30

Similar Documents

Publication Publication Date Title
TWI691930B (zh) 基於神經網路的分類方法及其分類裝置
CN102262682B (zh) 基于粗糙分类知识发现的快速属性约简方法
CN108509425A (zh) 一种基于新颖度的中文新词发现方法
CN102081655B (zh) 基于贝叶斯分类算法的信息检索方法
CN104794221B (zh) 一种基于业务对象的多维数据分析系统
CN102902826B (zh) 一种基于基准图像索引的图像快速检索方法
CN104933130A (zh) 评论信息的标注方法及装置
CN103617157A (zh) 基于语义的文本相似度计算方法
Bui et al. Scalable sketch-based image retrieval using color gradient features
CN106156145A (zh) 一种地址数据的管理方法和装置
CN104572645A (zh) 兴趣点数据关联方法及装置
CN103559191A (zh) 基于隐空间学习和双向排序学习的跨媒体排序方法
CN104252507B (zh) 一种企业数据匹配方法和装置
CN105893380A (zh) 一种改良的文本分类特征选择方法
CN103020321B (zh) 近邻搜索方法与系统
CN102646198B (zh) 具有层次结构的混合线性svm分类器的模式识别方法
CN109493333A (zh) 基于卷积神经网络的超声甲状腺结节钙化点提取算法
CN111291779A (zh) 一种车辆信息识别方法、系统、存储器及处理器
CN108021878B (zh) 一种等高线负向地貌智能识别方法
US20120117090A1 (en) System and method for managing digital contents
CN104834891A (zh) 一种中文图像型垃圾邮件过滤方法及系统
CN104598887B (zh) 用于非规范格式手写中文地址的识别方法
CN108984711A (zh) 一种基于分层嵌入的个性化app推荐方法
CN102722732A (zh) 一种基于数据二阶统计量建模的图像集合匹配方法
CN104636492A (zh) 一种基于模糊积分特征融合的动态数据分级方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160120

Termination date: 20180819

CF01 Termination of patent right due to non-payment of annual fee