CN113052268A - 区间集数据类型下基于不确定性度量的属性约简算法 - Google Patents
区间集数据类型下基于不确定性度量的属性约简算法 Download PDFInfo
- Publication number
- CN113052268A CN113052268A CN202110471932.4A CN202110471932A CN113052268A CN 113052268 A CN113052268 A CN 113052268A CN 202110471932 A CN202110471932 A CN 202110471932A CN 113052268 A CN113052268 A CN 113052268A
- Authority
- CN
- China
- Prior art keywords
- attribute
- interval set
- interval
- reduction
- attributes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 91
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 34
- 238000005259 measurement Methods 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 14
- 238000013507 mapping Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 description 11
- 238000012360 testing method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 206010028980 Neoplasm Diseases 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000011946 reduction process Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 208000019622 heart disease Diseases 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种区间集数据类型下基于不确定性度量的属性约简算法,包括以下步骤:(1)输入区间集数据,建立区间集型数据表下的粗糙集模型;(2)在区间集数据表的粗糙集模型下建立不确定性度量准则;(3)通过不确定性度量准则,计算全体条件属性的不确定性、区间集数据表的核属性和每个条件属性的属性重要度;(4)依次选择属性重要度最大的属性与核属性作为约简候选属性;(5)从约简候选属性中删除部分添加的冗余属性即可得到约简后的属性结合。本发明算法首次应用在区间集型数据表中,利用条件信息熵等准则构建一种不确定性度量作为度量指标的约简方法,约简后的数据比原本的数据有更低的维度,降低了数据量,提升了分类精度。
Description
技术领域
本发明涉及数据处理,特别涉及一种区间集数据类型下基于不确定性度量的属性约简算法。
背景技术
粗糙集理论作为一种处理不确定和模糊信息的有效数学工具,已经成功地被应用到数据分析、数据挖掘、知识获取和聚类分析等众多研究领域。在经典的粗糙集模型中,数据是以信息系统的形式存在的。一般情况下,信息系统中每个对象在属性集合上的值都是唯一的、完备的。然而在实际获取数据的过程中,由于获取方式的不同或不当导致数据缺失、数据错误以及数据本身并不完整等,很难直接得到完备的信息系统,因此普通的单值型信息系统不再适合表示这种类型的数据。为了更有效地表示这一类数据,本文采用区间集作为对象的属性值,构造了区间集信息系统。相对于单值型的表示方式,这种模糊的表示方式能更完整、更有效地保存原有的信息。
随着科技的进步和发展,人们获取的数据不仅对象的个数庞大,而且描述对象的属性个数也在不停地增加。这些大规模的数据严重影响了数据的处理效率,消耗了更多的时间和空间。这就要求我们对庞大的数据进行降维处理。通常情况下,降维的方法可以分为属性约简和特征抽取。属性约简的本质就是找到一组最小的属性集合来保持原有属性全集的某种性质不变。属性约简能够提高数据处理的效率,对数据挖掘起到积极的作用。通过属性约简,能够有效地降低问题的复杂度,提高分类学习算法的预测精度和可解释性。与特征抽取相比,属性约简方法不改变属性值本身,仅利用一定的评价函数从原本全集属性空间获取一组最佳的属性子集,从而降低属性空间的维数。
属性约简从提出到现在已经有了近三十年的发展,目前国内外学者对数据表的属性约简算法有了诸多的研究和改进。例如,Pawlak最早提出了在普通数据表下基于正域不变的属性约简算法。该算法采用粗糙集理论中的正域的大小作为约简的评价标准,旨在对约简前后的数据表的分类能力保持一致。该方法简单,计算复杂度较低,但很难提高约简后数据表的分类正确率,约简的长度不稳定。(Pawlak Z.Rough sets[J].InternationalJournal of Computer and Information Sciences,1982,11(5):341–356.)
考虑到数据表中属性值的缺失,普通的属性约简方法不能应用在不完备数据表中。Dai等人将条件决策熵扩展到不完备数据表中,并根据三种不同的策略设计了三种属性约简算法。该算法为我们提供了解决不完备数据表属性约简问题的思路,为不同类型的数据表的约简问题奠定了基础。(Jianhua Dai,Wentao Wang,Haowei Tian,et al.Attributeselection based on a new conditional entropy for incomplete decision systems[J].Knowledge Based Systems,2013,39:207–213.)
在处理不完备数据表时,通常对缺失的属性进行补全处理。然而,在补全属性值的过程中,使用单一的数值来表示某一不确定的信息往往会造成对象精度的缺失。因此,使用区间值或区间集的形式表示缺失的属性值更合适。Dai等人分析了区间值数据表的不确定性,给出了一种基于条件信息熵的属性约简算法。该算法能够很好的对区间值型的数据进行特征抽取,有效地降低原有数据的维度。但其算法不能用来处理区间集型的数据。(Jianhua Dai,Wentao Wang,Qing Xu,et al.Uncertainty measurement for interval-valued decision systems based on extended conditional entropy[J].Knowledge-Based Systems,2012,27:443–450.)
目前,大部分的属性约简算法的研究都是针对单值数据表和区间值数据表,然而,并没有人研究区间集数据表的属性约简算法,究其原因主要在于区间集型数据的属性值并不是单值的,而是一个区间集,以往的各种经典粗糙集模型或者拓展粗糙集模型不能直接地用在区间集数据表中,如何有效地定义对象之间的不可分辨关系和不确定性度量成为构造属性约简算法的基础。
发明内容
发明目的:本发明提供一种能够度量区间集数据类型的不确定性度量及基于该度量的属性约简算法。
技术方案:区间集数据类型下基于不确定性度量的属性约简算法,包括以下步骤:
(1)输入区间集数据,建立区间集型数据表下的粗糙集模型;
(2)在区间集数据表的粗糙集模型下建立不确定性度量准则;
(3)通过不确定性度量准则,计算全体条件属性的不确定性、区间集数据表的核属性和每个条件属性的属性重要度;
(4)依次选择属性重要度最大的属性与核属性作为约简候选属性;
(5)从约简候选属性中删除部分添加的冗余属性即可得到约简后的属性集合。
进一步的,步骤(1)中,所述建立区间集型数据表下的粗糙集模型,根据粗糙集理论,区间集数据表可以一个四元组组成其中U是一个非空有限的对象集,表示非空有限的条件属性集,D表示决策属性,即类标, 是条件属性a所有可能取值(每个值都是一个区间集),f是一个映射函数满足f:U→2ν。
进一步的,步骤(2)中,所述建立不确定性度量准则需要评价区间集数据中任意两个对象的不可分辨关系。在此之前,需要给出任意两个区间集的相似性。
根据公式一可以得到任意两个对象在一个条件属性上相似度。
根据公式二可以得到区间集数据表中对象的二元相似关系。
根据公式三和公式四可以得到区间集数据表中每个对象的相似类。
其中,δ为判别对象在每个属性上的相似程度的阈值。所述δ取值为0.3-0.5,δ取值越高,则表示对象在每个属性上的差异容忍度越小,每个对象相似类的大小越小;δ取值越低,则表示对象在每个属性上的差异容忍度越大,每个对象相似类的大小越大。
根据公式五可以得到区间集数据表的下、上近似集合,分别用以表示确定属于决策类的对象的集合和可能属于决策类的对象的集合。在粗糙集理论中,通常使用下近似集合和上近似集合的比来表示确定的程度。
区间近似粗糙度能够度量由上近似集带来的不确定性,而由粒度划分的不确定性需要条件信息熵来解决。
其中,dj∈U/D。
根据公式八和九可以得到区间集数据表的不确定性度量
用此不确定性度量既能够解决由上近似集合产生的不确定性,又能够解决由粒度划分产生的不确定性。同时该度量关于属性集合的大小单调,因此可以用来简化属性约简的过程,降低约简的时间复杂度。
进一步的,步骤(3)中,所述计算区间集数据表中约简所需的核属性和每个条件属性的属性重要度。
公式十二:SIG(a,R)=IDHδ(D|R)-IDHδ(D|R-{a})
进一步的,步骤(4)中,所述依次选择属性重要度最大的属性与核属性作为约简候选属性,对原有的属性进行添加操作。当候选属性的不确定性值与全体属性的不确定性值相等时,则终止添加属性。
进一步的,步骤(5)中,所述从约简候选属性中删除部分添加的冗余属性即可得到约简后的属性结合,对候选属性进行删除操作,依次删除任意一个属性,若删除后不确定性值不变,则该属性为冗余的;否则该属性为约简属性。
有益效果:与现有技术相比,本发明具有以下显著效果:本发明定义了区间集数据表上对象的不可分辨关系,提出了一种不确定性度量,能同时度量由上近似集和粒度划分产生的不确定性。基于该不确定性度量,本发明提出的约简算法的约简结果能够减少属性个数的同时有效地提升分类精度。
附图说明
图1为本发明算法的流程示意图;
图2为相似率θ对约简长度的影响结果图;
图3为相似率θ对约简结果在KNN分类器下的影响结果图;
图4为相似率θ对约简结果在PNN分类器下的影响结果图。
具体实施方式
下面结合实施例对本发明做详细说明。
如图1所示,区间集数据类型下基于不确定性度量的属性约简算法,包括以下步骤:
(1)输入区间集数据,建立区间集型数据表下的粗糙集模型。
在粗糙集理论中,一个区间集数据表可以表示为四元组 其中U是一个非空有限的对象集,即论域;表示非空有限的条件属性集,且属性值都是区间集;D表示决策属性且即类标, 是条件属性a所有可能取值(每个值都是一个区间集),f是一个映射函数满足f:U→2v。
相似类是由区间集数据表中相似的对象组成的一簇,是粗糙集理论中表示信息的最小单位。
从定义1可以看出,在粗糙集理论中,一个未知的目标集合可以用一个下近似集合和一个上近似集合来表示。其中,下近似集合表示确定属于目标集合的相似类的集合,上近似集合表示可能属于目标集合的相似类的集合。
(2)在区间集数据表的粗糙集模型下建立不确定性度量准则;
在粗糙集理论中,当下近似集与上近似集不相等时,不能用当前的相似类来准确的描述目标集合,此时区间集数据表的不确定性是由上近似集合产生的。根据公式四和公式五可以用如下定义所示的区间近似粗糙度来描述该不确定性。
根据公式六可以看出,下、上近似集合的比值表示确定属于目标集合占可能属于目标集合的百分比,能够有效地反应由上近似集合带来的不确定性。然而,当属性集合发生变化时,相似类的大小也会发生变化,描述目标集合的精确程度也会发生变化。这就需要使用条件信息熵来解决由粒度变化而产生的不确定性。
根据公式七可以得出,当粒度变小时,δ-条件信息熵会随着条件属性子集的增加(或随着阈值的减小)而减小,反之依然;也就是说,当条件属性子集增加时,需要的特征信息增加,区间集决策信息表中的粒度会减小,分类更准确,从而导致不确定性会减小,因此熵值变小。特别的所有的对象都分类正确时,即都有使得当前的区间集决策信息表是确定度,熵值为0;反之,当所有的分类都是错误的,且满足 |dj|=1,此时的区间集决策信息表的不确定性达到最大,熵值为log|U|。
根据公式六和公式七,可以得出新的不确定性度量。
(3)通过不确定性度量准则,计算全体条件属性的不确定性、区间集数据表的核属性和每个条件属性的属性重要度;
在属性约简的过程中,计算核属性和属性的重要度是一个不可或缺的步骤。核属性是所有约简属性的集合,是不可或缺的属性的集合。核属性的计算能够减少算法的搜索空间,属性重要度的计算能够更有效地选择出冗余的属性。
公式十:SIG(a,R)=IDHδ(d|R)-IDHδ(d|R-{a})
(4)依次选择属性重要度最大的属性与核属性作为约简候选属性;
属性约简是粗糙集理论中的一个重要内容,它是保持当前决策表中某种性质的最小独立属性子集。这个性质可以根据用户自己的偏好或者要求的数据结果来灵活地定义。本发明将使用区间决策熵来定义区间集决策表的属性约简。
IDHδ(D|B)=IDHδ(D|C)
在定义7中,条件1称为充要条件,条件2称为必要条件。充要条件保证了在条件属性子集B下保持着条件属性全集C下决策表的不确定性,必要条件保证了B的任意属性子集都不能保持C下决策表的不确定性,即该约简是最小条件属性子集。由于公式(8)保证了区间决策熵关于粒度划分的变化单调,所以必要条件中不需要对条件属性集合B的所有子集进行检查,而只需要对所有a∈B检查一遍子集B-{a},即对于都有IDHδ(D|B-{a})≠IDHδ(D|C)。这就大大的减少了计算的复杂性,这也是区间决策熵度量可以用来进行属性约简的合理性之一。
根据公式十可以得到每个属性的重要度,将属性重要度从大到小排列,依次添加到核属性中。若在当前属性集合下,不确定性值与区间集数据表的初始不确定性值相等时,则停止添加属性;否则直到添加完所有的属性为止。
(5)从约简候选属性中删除部分添加的冗余属性即可得到约简后的属性集合。
在添加属性的过程中,存在添加冗余属性的可能。因此需要对候选属性进行检测。对于任意一个属性a,当IDHδ(D|R′-{a})≠IDHδ(D|C)时,则该属性a是冗余的,需要删除该属性,其中R′时候选属性;反之,则说明该属性是约简属性,不可删除,直到遍历所有的属性。
根据上述步骤,算法1构建了一种区间集数据类型下基于不确定性度量的属性约简算法。
为了验证上述方法中所提出的区间决策熵约简的有效性,本发明选取了UCI数据集上的10个数据进行试验。相关数据的详细信息由表1所示,其中,|U|为论域中对象的个数,|C|为条件属性的个数,|Vd|为决策类的个数。在UCI数据中,数据的属性值都是单值型,在实验之前需要将其转化为区间集决策表。本次实验主要分为两个部分:第一部分为基于区间决策熵的属性约简的结果与原始数据在约简长度和分类正确率上的对比实验,以及基于三个不同的二元相似关系得到的约简结果的对比实验;第二部分为相似率对约简结果的影响实验。
表1UCI数据集
编号 | 数据集 | |U| | |C| | |V<sub>d</sub>| |
1 | Credit | 690 | 15 | 2 |
2 | Breast Cancer | 286 | 9 | 2 |
3 | Lymphography | 148 | 18 | 4 |
4 | Unbalance | 856 | 32 | 2 |
5 | Ecoli | 336 | 7 | 8 |
6 | Chess | 3196 | 36 | 2 |
7 | Tic-tac-toe | 958 | 9 | 2 |
8 | Heart Disease | 294 | 13 | 2 |
9 | Primary tumor | 339 | 17 | 21 |
10 | Audiology | 226 | 69 | 24 |
第一部分:约简结果的对比实验。
实验采用了10倍交叉验证的方法,即将实验数据中的对象平均分成10份,分别为U1,U2,…,U10。当第一次运行时,使用U1∪U2∪U3…∪U9作为训练集求的约简结果,U10作为测试集用来测试分类器的分类正确率;第二次使用U1∪U2∪U3…∪U10作为训练集求的约简结果,U9作为测试集用来测试分类器的分类正确率;以此类推,第十次使用U2∪U3∪U4…∪U10作为训练集求的约简结果,U1作为测试集用来测试分类器的分类正确率。本次实验采用KNN分类器和PNN分类器对区间集数据表表进行分类正确率的计算。实验中,我们设置相似率阈值θ=0.4,KNN分类器中参数k=5,PNN分类器的高斯函数中参数σ=0.1。
实验结果由表2所示。表中分别显示的是原始数据约简之前和约简之后属性的长度(Length),在KNN分类器下的分类正确率(KNN Acc)和在PNN分类器下的分类正确率(PNNAcc)。对于表中约简后的属性的长度,以及约简前后的分类正确率都采用记录平均值和标准差的方法。一方面考虑了约简的平均性能,另一方面考虑了约简结果的稳定性。
表2基于不确定性度量的约简结果的比较
由表2的约简结果可以看出,约简后的属性长度在不同的数据集上都有所减少,在Lymphography、Unbalance和Audiology等三个数据集上,属性长度的约简率达到了28%、36%和20%,大大地减少了属性的个数。不仅如此,约简后的数据在KNN分类器和PNN分类器的分类正确率与原始数据的相比,都有一定程度的提高。其中,约简后的数据在KNN分类器上的分类正确率比所有的原始数据的分类正确率都高,而约简后的数据在PNN分类器上的分类正确率也比9个原始数据的分类正确率高。由此可见,使用本发明的算法得到在约简后的分类正确率比约简之前的分类正确率都要高,这表明了约简的有效性。
第二部分:参数对约简结果的影响。
实验为测试相似率θ对约简结果的影响。在实验的过程中,设置相似率的范围为θ∈[0.2,0.7],且依次增加0.1。
实验结果分别由图2、图3和图4所示。由图2所示,随着相似率θ的增加,约简的长度在各个数据集上的变化并不明显,只有在Unbalance数据集上,约简的长度有下降的趋势。而约简后的结果在大部分数据集上的分类正确率的变化是比较明显的。由图3-4所示,在KNN和PNN分类器上,数据集Brest cancer,和Lymphography的分类正确率随着相似率的增加变化是最大的。导致该结果的原因在于KNN和PNN分类器中,重定义的距离与相似率θ有关。任意两个对象在同样的属性下,相似率θ不同,这两个对象的距离是不同的。因此,分类正确率是会发生改变的。
由此可见,本发明的算法能够很好的处理区间集数据表的约简问题,约简后的属性个数减少,而分类正确率却比原始数据更高,验证了算法的有效性。
Claims (6)
1.一种区间集数据类型下基于不确定性度量的属性约简算法,其特征在于:包括以下步骤:
(1)输入区间集数据,建立区间集型数据表下的粗糙集模型;
(2)在区间集数据表的粗糙集模型下建立不确定性度量准则;
(3)通过不确定性度量准则,计算全体条件属性的不确定性、区间集数据表的核属性和每个条件属性的属性重要度;
(4)依次选择属性重要度最大的属性与核属性作为约简候选属性;
(5)从约简候选属性中删除部分添加的冗余属性即可得到约简后的属性集合。
5.根据权利要求1所述的区间集数据类型下基于不确定性度量的属性约简算法,其特征在于:步骤(4)中,所述依次选择属性重要度最大的属性与核属性作为约简候选属性,若对于每个非核属性a,满足如下公式:
IDHδ(d|R)≠IDHδ(d|C)
则将该属性添加到核属性中,否则不添加该属性。
6.根据权利要求1所述的区间集数据类型下基于不确定性度量的属性约简算法,其特征在于:步骤(5)中,所述从约简候选属性中删除部分添加的冗余属性,若删除其中一个属性时满足如下公式:
IDHδ(d|R-{a})=IDHδ(d|C)
则该属性为冗余属性,并删除属性,否则继续选择下一属性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110471932.4A CN113052268A (zh) | 2021-04-29 | 2021-04-29 | 区间集数据类型下基于不确定性度量的属性约简算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110471932.4A CN113052268A (zh) | 2021-04-29 | 2021-04-29 | 区间集数据类型下基于不确定性度量的属性约简算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113052268A true CN113052268A (zh) | 2021-06-29 |
Family
ID=76517794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110471932.4A Withdrawn CN113052268A (zh) | 2021-04-29 | 2021-04-29 | 区间集数据类型下基于不确定性度量的属性约简算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113052268A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113919763A (zh) * | 2021-12-13 | 2022-01-11 | 国网江西省电力有限公司电力科学研究院 | 一种基于模糊评判矩阵的电网灾害分析方法及装置 |
CN114023063A (zh) * | 2021-11-02 | 2022-02-08 | 大连理工大学 | 一种基于认知网络的智能交通系统协同决策方法 |
-
2021
- 2021-04-29 CN CN202110471932.4A patent/CN113052268A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114023063A (zh) * | 2021-11-02 | 2022-02-08 | 大连理工大学 | 一种基于认知网络的智能交通系统协同决策方法 |
CN113919763A (zh) * | 2021-12-13 | 2022-01-11 | 国网江西省电力有限公司电力科学研究院 | 一种基于模糊评判矩阵的电网灾害分析方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108846259B (zh) | 一种基于聚类和随机森林算法的基因分类方法及系统 | |
CN110222745B (zh) | 一种基于相似性学习及其增强的细胞类型鉴定方法 | |
US6532305B1 (en) | Machine learning method | |
Cowell | Conditions under which conditional independence and scoring methods lead to identical selection of Bayesian network models | |
Antunes et al. | Knee/elbow estimation based on first derivative threshold | |
CN106250442A (zh) | 一种网络安全数据的特征选择方法及系统 | |
Iorio et al. | Parsimonious time series clustering using p-splines | |
CN113052268A (zh) | 区间集数据类型下基于不确定性度量的属性约简算法 | |
Li et al. | Linear time complexity time series classification with bag-of-pattern-features | |
CN113344019A (zh) | 一种决策值选取初始聚类中心改进的K-means算法 | |
CN107247873A (zh) | 一种差异甲基化位点识别方法 | |
US20230029947A1 (en) | Medical disease feature selection method based on improved salp swarm algorithm | |
CN107992722A (zh) | 基于对称不确定性和信息交互增益的特征选择方法 | |
Dai et al. | Feature selection via max-independent ratio and min-redundant ratio based on adaptive weighted kernel density estimation | |
CN112967755A (zh) | 一种面向单细胞rna测序数据的细胞类型识别方法 | |
Gooljar et al. | Performance evaluation and comparison of a new regression algorithm | |
CN117892209A (zh) | 一种基于支持向量机和进化计算的过采样方法 | |
CN111488903A (zh) | 基于特征权重的决策树特征选择方法 | |
CN117056761A (zh) | 一种基于x-dbscan算法的客户细分方法 | |
Peignier et al. | Data-driven gene regulatory networks inference based on classification algorithms | |
Wang et al. | Fuzzy C-means clustering algorithm for automatically determining the number of clusters | |
CN113269217A (zh) | 基于Fisher准则的雷达目标分类方法 | |
CN112906751A (zh) | 一种非监督学习识别异常值的方法 | |
Kuzudisli et al. | Effect of recursive cluster elimination with different clustering algorithms applied to gene expression data | |
CN113205124A (zh) | 一种基于密度峰值的高维真实场景下的聚类方法、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210629 |
|
WW01 | Invention patent application withdrawn after publication |