CN109828996A - 一种不完备数据集快速属性约简方法 - Google Patents

一种不完备数据集快速属性约简方法 Download PDF

Info

Publication number
CN109828996A
CN109828996A CN201811574927.0A CN201811574927A CN109828996A CN 109828996 A CN109828996 A CN 109828996A CN 201811574927 A CN201811574927 A CN 201811574927A CN 109828996 A CN109828996 A CN 109828996A
Authority
CN
China
Prior art keywords
attribute
red
incomplete
condition
reduction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811574927.0A
Other languages
English (en)
Inventor
闫涛
韩崇昭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202110722842.8A priority Critical patent/CN113345588A/zh
Priority to CN201811574927.0A priority patent/CN109828996A/zh
Publication of CN109828996A publication Critical patent/CN109828996A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Pathology (AREA)
  • Computational Linguistics (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Artificial Intelligence (AREA)

Abstract

本发明公开了一种不完备数据集快速属性约简方法,本发明采用了IFSPA算法和IFSPA‑IVPR算法,使本方法针对不完备数据集在保持其原有特征属性分辨能力的情况下,能够更高效的完成属性约简。本方法在时间复杂度、稳定性等方面均优于现有算法。同时使用该方法处理大规模数据集时的改进效果也十分明显。

Description

一种不完备数据集快速属性约简方法
技术领域
本发明涉及数据挖掘技术领域,具体涉及一种不完备数据集快速属性约简方法。
背景技术
特征选择,或者我们称之为属性约简的数据处理方法是模式识别、数据挖掘以及机器学习等领域的一个共同的重要研究课题。近些年来,数据集中的元素的数量与维度都有了明显的增长。例如,数量达到上百甚至上千的条件属性存储于许多现实应用中的数据库当中。众所周知,与识别或者分类任务无关的很多条件属性会明显降低相关算法的性能。换而言之,存储和处理所有的条件属性,包括相关的重要的以及不相关的不重要的属性会带来巨大的空间存储成本与计算时间成本。为了解决这一问题,一些学者提出的方案是删除那些不影响识别或者分类精度的条件属性。因此,删除部分条件属性不仅是容许的,对于相关降低计算时间复杂度而言甚至是十分必要的。
在众多的属性约简方法中,主要有两种相关的策略,即包装与过滤。前者使用一个学习算法对条件属性子集进行评价和选择,后者则根据一些重要性度量,如信息增益、一致性、距离、依赖性等量测量对条件属性进行选择。这些量测量可以分成两个主要类别,即基于距离的度量与基于一致性的度量。粗糙集理论中的属性约简方法为基于一致性的属性约简方法提供了系统的理论框架,其目的并非是要将类的可分性最大化,而是试图保证所选择的条件属性子集与原始的条件属性全集具有相同的可分辨能力。
总的来说,我们通常会碰到两类数据,即数值型数据和符号型数据。其中,对数值型数据而言,有两种方法。一种是使用模糊粗糙集理论,另一种则是对数值型的条件属性值进行离散化处理。为了处理混合型的条件属性值,相关学者也提出过很多方法。在经典粗糙集理论中,属性约简算法将所有的属性值作为符号型数据予以考虑。在对原始数据进行过数据预处理过之后,我们可以使用经典粗糙集理论选择出条件属性中最适合于识别或者分类任务的子集。
基于粗糙集理论的属性约简开始于一个数据表,我们也称之为信息系统。它包含了关于我们感兴趣的对象的所有数据,这些数据由一个有限的条件属性集来描述。根据其是否存在缺失数据或者空数据,信息系统可以分为完备信息系统和不完备信息系统。一般来说,我们提到不完备信息系统,也就意味着该系统中间存在缺失数据或者空数据。对一个不完备信息系统而言,如果条件属性与决策属性彼此之间相互区分,则我们称之为不完备决策系统或者不完备决策表。对不完备数据进行属性约简通常开始于不完备决策表。
在近二十年里,关于粗糙集理论出现了很多新的属性约简方法。其中,具有代表性的就是Skowron提出的旨在获取一个数据集的所有属性约简的可分辨矩阵方法。然而,该方法在处理大规模数据时会产生巨大的时间消耗。为了使属性约简变的更为高效,众多学者根据粗糙集理论提出了各种不同的启发式属性约简算法。这些算法各自都保留了给定信息系统的某种具体性质。为了完成不完备决策表的属性约简任务,Kryszkiewicz将Skowron提出的可分辨矩阵方法扩展为与其相似的广义可分辨矩阵方法,以获取不完备决策表的全部属性约简。Yang和Shu针对不完备决策表提出了一种应用正区域属性约简思想的启发式属性约简算法,该算法能够保证目标决策表的正区域在属性约简处理过后维持不变。Yan等人定义了一种新的信息熵以度量不完备信息系统的不确定性,并通过应用对应的条件信息熵减少冗余的条件属性。正如通过引入Shannon的信息熵来寻找经典粗糙集模型中的属性约简一样,该方法通过引入条件信息熵的扩展可以计算得出不完备决策表的相关属性约简。
但是,上述所有方法都不同程度存在处理速度慢,无法应对处理大规模不完备数据时所产生的巨大时间消耗等问题。
发明内容
本发明的目的在于克服上述不足,提供一种不完备数据集快速属性约简方法,针对不完备数据集在保持其原有特征属性分辨能力的情况下,能够更高效的完成属性约简。
为了达到上述目的,一种不完备数据集快速属性约简方法,基于正近似集的方法包括以下步骤:
步骤一,输入不完备决策表S=(U,C∪D),U为全空间,C为条件属性全集,D为决策属性;
步骤二,将red初始化为空集其中,red为已选择的条件属性集合;
步骤三,计算Siginner(ak,C,D,U),其中k≤|C|,ak为第k个条件属性,Siginner()为条件属性全集C中所含的第k个条件属性ak的属性重要性;
步骤四,将ak加入到red之中,其中Siginner(ak,C,D,U)>0;
步骤五,使i←1,R1=red,P1={R1},U1←U;
步骤六,判断是否成立,为目标对象子集U1的评价函数;
若都成立,则循环寻找并添加red之外的部分所含具有最大属性重要性的条件属性至red中,直至满足
若有一条不成立,则转至步骤七;
步骤七,Ri←Ri∪{a0},Pi←{R1,R2,...,Ri};
步骤八,返回条件属性约简结果red并结束。
步骤六的具体方法如下:
第一步,计算正近似集中的正区域
第二步,
第三步,i←i+1;
第四步,red←red∪{a0},其中,Sigouter(a0,red,D,Ui)=max{Sigouter(ak,red,D,Ui)},ak∈C-red;
第五步,判断是否成立:
若都成立,则转至第一步;否则,跳出循环结束步骤六,进行步骤七。
步骤一中,不完备决策表的快速容许类获取算法的复杂度为其中,表示条件属性ak之下具有缺失属性值*的所有对象的数量,而则表示条件属性ak之下具有非缺失属性值,即属性值不为*的所有对象的数量。
一种不完备数据集快速属性约简方法,基于变精度正近似集的方法包括以下步骤:
步骤一:输入不完备决策表S=(U,C∪D)以及阈值β≤0.5;
步骤二:将red初始化为空集其中,red为已选择的条件属性集合;
步骤三:计算其中k≤|C|;
步骤四:将ak加入到red之中,其中
步骤五:i←1,R1=red,P1={R1},U1←U;
步骤六:判断是否成立:
若都成立,则循环寻找并添加red之外的部分所含具有最大属性重要性的条件属性至red中,直至满足
若有一条不成立,则转至步骤七;
步骤七:Ri←Ri∪{a0},Pi←{R1,R2,...,Ri};
步骤八:返回条件属性约简结果red并结束。
步骤六的具体方法如下:
第一步,计算正近似集中的正区域
第二步,计算
第三步,使i←i+1;
第四步,使red←red∪{a0},其中,ak∈C-red;
第五步,判断是否成立:
若都成立,则转至第一步继续循环;否则,跳出循环结束步骤六,进入步骤七。
步骤一中,不完备决策表的快速容许类获取算法的复杂度为其中,表示条件属性ak之下具有缺失属性值*的所有对象的数量,而则表示条件属性ak之下具有非缺失属性值,即属性值不为*的所有对象的数量。
与现有技术相比,本发明使用QAATC算法来估计其时间复杂度,并分别在不完备粗糙集模型和变精度不完备粗糙集模型下进行计算,使本方法针对不完备数据集和变精度不完备粗糙集在保持其原有特征属性分辨能力的情况下,能够更高效的完成属性约简。本方法在时间复杂度、稳定性等方面均优于现有算法,同时使用该方法处理大规模数据集时的改进效果也十分明显,提高了计算效率,并且具有更低的平均计算时间及标准差,即具有更好的鲁棒性。
附图说明
图1为本发明中IFSPA算法流程图;
图2为本发明中IFSPA-IVPR算法流程图;
图3为仿真实验数据集的统计结果;其中,(a)为样本个数与数据集的统计图;(b)为条件属性个数与数据集的统计图;(c)为缺失属性值个数与数据集的统计图;(d)为决策类个数与数据集的统计图;(e)为不完全率与数据集的统计图;
图4为IPR和IFSPA-IPR算法的计算时间与数据规模的关系图;其中,(a)为采用Audiology-standardized数据集时;(b)为采用Soybean-large数据集时;(c)为采用Dermatology数据集时;(d)为采用Breast-cancer-wisconsin数据集时;
图5为ILCE和IFSPA-ILCE算法的计算时间与数据规模的关系图;其中,(a)为采用Audiology-standardized数据集时;(b)为采用Soybean-large数据集时;(c)为采用Dermatology数据集时;(d)为采用Breast-cancer-wisconsin数据集时;
图6为IVPR和IFSPA-IVPR算法的计算时间与数据规模的关系图;其中,(a)为β=0时;(b)为β=0.1时;(c)为β=0.2时;
图7为IVPR和IFSPA-IVPR算法的计算时间与数据规模的关系图;其中,(a)为β=0时;(b)为β=0.1时;(c)为β=0.2时;
图8为IVPR和IFSPA-IVPR算法的计算时间与数据规模的关系图;其中,(a)为β=0时;(b)为β=0.1时;(c)为β=0.2时;
图9为IVPR和IFSPA-IVPR算法的计算时间与数据规模的关系图;其中,(a)为β=0时;(b)为β=0.1时;(c)为β=0.2时。
具体实施方式
下面结合附图对本发明做进一步说明。
给定一个不完备决策表IDT=(U,C∪D),得到所有对象关于条件属性全集C的分类U/SIM(C)={SC(u1),SC(u2),...,SC(uU)},以及全空间U关于决策属性D的划分U/D={X1,X2,...,Xr}。实际上,把决策属性的划分U/D表示成全空间U上每个对象所对应的容许类的形式,亦即U/SIM(D)={SD(u1),SD(u2),...,SD(uU)}。为了保证其一般性,令其中则U/D与U/SIM(D)相互之间的关系表示如下。
根据这个关系,通过如下形式来等价的重新定义一个不完备决策表的正区域。
根据以上的表述,接下来重点关注两种类型的条件属性重要性。
现有技术中提出了一种启发式条件属性约简算法,称为正区域属性约简方法,即Positive-region Reduction,PR。这种方法能够保证在属性约简过程中,目标决策属性所对应的正区域保持不变。运用正区域属性约简方法的思想,现有技术提出了另一种称为IPR的针对不完备决策表的启发式条件属性约简算法。该算法也可以保证目标决策属性所对应的正区域不变。在该算法中,条件属性的重要性定义如下。
定义1,令IDT=(U,C∪D)为一个不完备决策表,且有条件属性子集子集B中所含的条件属性a的重要性定义如下。
式中,γB(D)=|POSB(D)|/|U|。
定义2,令IDT=(U,C∪D)为一个不完备决策表,且有条件属性子集子集B之外的部分所含的条件属性a的重要性定义如下。
定义一种信息熵,通过该信息熵对不完备信息系统中的不确定性进行度量并且同时运用信息熵删减冗余的条件属性。这种属性约简算法记为ILCE,算法中的条件信息熵被定义如下。
式中,SC(ui)∈U/SIM(C),SD(ui)∈U/SIM(D)。下面依次列举其他各种重要性的定义。
定义3,令IDT=(U,C∪D)为一个不完备决策表,且有条件属性子集子集B中所含的条件属性a的重要性定义如下。
定义4,令IDT=(U,C∪D)为一个不完备决策表,且有条件属性子集子集B之外的部分所含的条件属性a的重要性定义如下。
在不完备变精度粗糙集模型中,使用对应的重要性来设计一个能够使目标决策属性所对应的β正区域保持不变的算法,从而寻找所需要的条件属性约简结果。
定义5,令IDT=(U,C∪D)为一个不完备决策表,且有条件属性子集子集B中所含的条件属性a的重要性定义如下。
式中,
定义6,令IDT=(U,C∪D)为一个不完备决策表,且有条件属性子集子集B之外的部分所含的条件属性a的重要性定义如下。
在一个基于粗糙集理论的属性约简算法中,需要计算不完备决策表中由条件属性生成的容许类。这一处理过程很大程度影响着属性约简算法的整体计算时间。为了设计出一种有效的条件属性约简算法,首先给出一种应用于不完备决策表的快速容许类获取算法。这种算法主要基于基数排序算法的思想,其时间复杂度为其中表示条件属性ak之下具有缺失属性值*的所有对象的数量,而则表示条件属性ak之下具有非缺失属性值,即属性值不为*的所有对象的数量。众所周知,粗糙集理论的一个主要应用就是针对符号型数据的知识发现,这其中每种条件属性所对应的属性值个数都非常小,以至于可以将其看做是一个常数。因此,该算法的时间复杂度并没有受到的影响。此外,每个条件属性之下具有缺失属性值*的对象数量通常也比较少。在最差的情况下,一个条件属性之下的所有属性值全部缺失,即在该属性上含有缺失属性值*的对象数量达到了最大值|U|,这意味着该条件属性无法提供任何有用的分类信息。所以,可以把属性约简算法的时间复杂度进一步降低至如下程度。
因此,该算法在处理大规模不完备数据并计算其容许类时能够显示出其优越性,即大规模不完备数据的维数比起对象的数量对计算时间长度的影响更小一些。在此,并不讨论该算法的具体流程及其工作原理。
根据上述讨论,得到了一种基于正近似集的改进前向搜索算法以及一种获取容许类的快速算法。在这一算法框架之下,可以将评价函数或者结束条件表示为EFU(B,D)=EFU(C,D)。例如,当采用条件熵方法时,对应的评价函数即为ENU(B,D)=ENU(C,D)。这也就是说,当EFU(B,D)=EFU(C,D)满足时,B即为一个条件属性约简结果。
参见图1,本发明采用IFSPA算法,包括以下步骤:
步骤一,输入不完备决策表S=(U,C∪D),U为全空间,C为条件属性全集,D为决策属性;
步骤二,将red初始化为空集其中,red为已选择的条件属性集合;
步骤三,计算Siginner(ak,C,D,U),其中k≤|C|,ak为第k个条件属性,Siginner()为条件属性全集C中所含的第k个条件属性ak(关于决策属性D和全空间U)的属性重要性;
步骤四,将ak加入到red之中,其中Siginner(ak,C,D,U)>0;
步骤五,使i←1,R1=red,P1={R1},U1←U;
步骤六,判断是否成立,为目标对象子集U1的评价函数;
若都成立,则循环寻找并添加red之外的部分所含具有最大属性重要性的条件属性至red中,直至满足
若有一条不成立,则转至步骤七;
步骤七,Ri←Ri∪{a0},Pi←{R1,R2,...,Ri};
步骤八,返回条件属性约简结果red并结束。
步骤六的具体方法如下:
第一步,计算正近似集中的正区域
第二步,
第三步,i←i+1;
第四步,red←red∪{a0},其中,Sigouter(a0,red,D,Ui)=max{Sigouter(ak,red,D,Ui)},ak∈C-red;
第五步,判断是否成立:
若都成立,则转至第一步;否则,跳出循环结束步骤六,进行步骤七。
参见图2,本发明采用IFSPA-IVPR算法,包括以下步骤:
步骤一:输入不完备决策表S=(U,C∪D)以及阈值β≤0.5;
步骤二:将red初始化为空集其中,red为已选择的条件属性集合;
步骤三:计算其中k≤|C|;
步骤四:将ak加入到red之中,其中
步骤五:i←1,R1=red,P1={R1},U1←U;
步骤六:判断是否成立:
若都成立,则循环寻找并添加red之外的部分所含具有最大属性重要性的条件属性至red中,直至满足
若有一条不成立,则转至步骤七;
步骤七:Ri←Ri∪{a0},Pi←{R1,R2,...,Ri};
步骤八:返回条件属性约简结果red并结束。
步骤六的具体方法如下:
第一步,计算正近似集中的正区域
第二步,计算
第三步,使i←i+1;
第四步,使red←red∪{a0},其中,ak∈C-red;
第五步,判断是否成立:
若都成立,则转至第一步继续循环;否则,跳出循环结束步骤六,进入步骤七。
表1 IFSPA算法与经典算法的时间复杂度比较
表2仿真实验数据集基本信息
表3 IPR算法与IFSPA-IPR算法的计算时间与稳定性比较
表4 ILCE算法与IFSPA-ILCE算法的计算时间与稳定性比较
表5 IVPR算法与IFSPA-IVPR算法的计算时间与稳定性比较
表5(续)
本发明使用四组UCI数据库中的真实数据,即表2所示的四组带缺失数据的不完备数据集来验证所提出方法所带来的算法时间复杂度的降低。为了方便计算与比较,使用QAATC算法来估计其时间复杂度。在整个实验过程中,分别在不完备粗糙集模型和变精度不完备粗糙集模型条件下比较原有方法和新方法的时间复杂度,具体如图4至图11所示。其中在图4至图9中,x轴表示所使用的不完备数据子集的大小,即让每个不完备数据集中的20个等分的数据片段从1到20依次增加,而y轴则表示算法所需的计算时间。在图6至图11中,为了保证仿真实验的精确性并同时表现出改进算法所带来的计算性能的提升,将阈值β分别设定为β=0,0.1,0.2。此外,还通过十折交叉验证方法对所选条件属性子集的相关稳定性进行评价,如表3至表5所示。仿真实验结果表明本发明所提出的新方法能够明显降低现有不完备属性约简算法的时间复杂度,提高其计算效率。同时该方法与现有其他算法相比在保持算法稳定性相同的基础上具有更低的平均计算时间及标准差,即具有更好的鲁棒性。
在现代社会中,随着网络与传感器等信息技术的飞速发展,人们从各个领域获取的信息和数据急剧膨胀。由于信息数据本身所限以及人的参与,使得信息数据中所包含的不确定性显著增加,也使得信息与数据的关系变得错综复杂。通过使用本方法,可以让我们更加快速高效的对海量模糊的、不完整的、不精确的信息和数据进行有效处理,并提取其中所蕴涵的有用知识,为智能决策提供良好的依据。

Claims (6)

1.一种不完备数据集快速属性约简方法,其特征在于,基于正近似集的方法包括以下步骤:
步骤一,输入不完备决策表S=(U,C∪D),U为全空间,C为条件属性全集,D为决策属性;
步骤二,将red初始化为空集其中,red为已选择的条件属性集合;
步骤三,计算Siginner(ak,C,D,U),其中k≤|C|,ak为第k个条件属性,Siginner()为条件属性全集C中所含的第k个条件属性ak的属性重要性;
步骤四,将ak加入到red之中,其中Siginner(ak,C,D,U)>0;
步骤五,使i←1,R1=red,P1={R1},U1←U;
步骤六,判断是否成立,为目标对象子集U1的评价函数;
若都成立,则循环寻找并添加red之外的部分所含具有最大属性重要性的条件属性至red中,直至满足
若有一条不成立,则转至步骤七;
步骤七,Ri←Ri∪{a0},Pi←{R1,R2,...,Ri};
步骤八,返回条件属性约简结果red并结束。
2.根据权利要求1所述的一种不完备数据集快速属性约简方法,其特征在于,步骤六的具体方法如下:
第一步,计算正近似集中的正区域
第二步,
第三步,i←i+1;
第四步,red←red∪{a0},其中,Sigouter(a0,red,D,Ui)=max{Sigouter(ak,red,D,Ui)},ak∈C-red;
第五步,判断是否成立:
若都成立,则转至第一步;否则,跳出循环结束步骤六,进行步骤七。
3.根据权利要求1所述的一种不完备数据集快速属性约简方法,其特征在于,步骤一中,不完备决策表的快速容许类获取算法的复杂度为其中,表示条件属性ak之下具有缺失属性值*的所有对象的数量,而则表示条件属性ak之下具有非缺失属性值,即属性值不为*的所有对象的数量。
4.一种不完备数据集快速属性约简方法,其特征在于,基于变精度正近似集的方法包括以下步骤:
步骤一:输入不完备决策表S=(U,C∪D)以及阈值β≤0.5;
步骤二:将red初始化为空集其中,red为已选择的条件属性集合;
步骤三:计算其中k≤|C|;
步骤四:将ak加入到red之中,其中
步骤五:i←1,R1=red,P1={R1},U1←U;
步骤六:判断是否成立:
若都成立,则循环寻找并添加red之外的部分所含具有最大属性重要性的条件属性至red中,直至满足
若有一条不成立,则转至步骤七;
步骤七:Ri←Ri∪{a0},Pi←{R1,R2,..,Ri};
步骤八:返回条件属性约简结果red并结束。
5.根据权利要求4所述的一种不完备数据集快速属性约简方法,其特征在于,步骤六的具体方法如下:
第一步,计算正近似集中的正区域
第二步,计算
第三步,使i←i+1;
第四步,使red←red∪{a0},其中,ak∈C-red;
第五步,判断是否成立:
若都成立,则转至第一步继续循环;否则,跳出循环结束步骤六,进入步骤七。
6.根据权利要求4所述的一种不完备数据集快速属性约简方法,其特征在于,步骤一中,不完备决策表的快速容许类获取算法的复杂度为其中,表示条件属性ak之下具有缺失属性值*的所有对象的数量,而则表示条件属性ak之下具有非缺失属性值,即属性值不为*的所有对象的数量。
CN201811574927.0A 2018-12-21 2018-12-21 一种不完备数据集快速属性约简方法 Pending CN109828996A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110722842.8A CN113345588A (zh) 2018-12-21 2018-12-21 一种不完备数据集快速属性约简方法
CN201811574927.0A CN109828996A (zh) 2018-12-21 2018-12-21 一种不完备数据集快速属性约简方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811574927.0A CN109828996A (zh) 2018-12-21 2018-12-21 一种不完备数据集快速属性约简方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202110722842.8A Division CN113345588A (zh) 2018-12-21 2018-12-21 一种不完备数据集快速属性约简方法

Publications (1)

Publication Number Publication Date
CN109828996A true CN109828996A (zh) 2019-05-31

Family

ID=66859919

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202110722842.8A Pending CN113345588A (zh) 2018-12-21 2018-12-21 一种不完备数据集快速属性约简方法
CN201811574927.0A Pending CN109828996A (zh) 2018-12-21 2018-12-21 一种不完备数据集快速属性约简方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202110722842.8A Pending CN113345588A (zh) 2018-12-21 2018-12-21 一种不完备数据集快速属性约简方法

Country Status (1)

Country Link
CN (2) CN113345588A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221674A (zh) * 2021-04-25 2021-08-06 广东电网有限责任公司东莞供电局 基于粗糙集约简和sift的视频流关键帧提取系统及方法
CN115392582A (zh) * 2022-09-01 2022-11-25 广东工业大学 基于增量模糊粗糙集属性约简的作物产量预测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763529A (zh) * 2010-01-14 2010-06-30 中山大学 基于遗传算法的粗糙集属性约简方法
CN103336790B (zh) * 2013-06-06 2015-02-25 湖州师范学院 基于Hadoop的邻域粗糙集快速属性约简方法
CN103336791B (zh) * 2013-06-06 2015-02-25 湖州师范学院 基于Hadoop的粗糙集快速属性约简方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221674A (zh) * 2021-04-25 2021-08-06 广东电网有限责任公司东莞供电局 基于粗糙集约简和sift的视频流关键帧提取系统及方法
CN113221674B (zh) * 2021-04-25 2023-01-24 广东电网有限责任公司东莞供电局 基于粗糙集约简和sift的视频流关键帧提取系统及方法
CN115392582A (zh) * 2022-09-01 2022-11-25 广东工业大学 基于增量模糊粗糙集属性约简的作物产量预测方法
CN115392582B (zh) * 2022-09-01 2023-11-14 广东工业大学 基于增量模糊粗糙集属性约简的作物产量预测方法

Also Published As

Publication number Publication date
CN113345588A (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
CN115018021B (zh) 基于图结构与异常注意力机制的机房异常检测方法及装置
CN109634924B (zh) 基于机器学习的文件系统参数自动调优方法及系统
CN110188225B (zh) 一种基于排序学习和多元损失的图像检索方法
CN112732883A (zh) 基于知识图谱的模糊匹配方法、装置和计算机设备
CN114281809B (zh) 一种多源异构数据清洗方法及装置
CN110442618B (zh) 融合专家信息关联关系的卷积神经网络评审专家推荐方法
CN110598061A (zh) 一种多元图融合的异构信息网嵌入方法
Bhute et al. Content based image indexing and retrieval
CN112765362B (zh) 基于改进自编码器的知识图谱实体对齐方法及相关设备
CN109828996A (zh) 一种不完备数据集快速属性约简方法
Hamza et al. Incremental classification of invoice documents
Chen et al. Nas-bench-zero: A large scale dataset for understanding zero-shot neural architecture search
Honest A survey on feature selection techniques
CN110990383A (zh) 一种基于工业大数据集的相似度计算方法
CN116401212A (zh) 一种基于数据分析的人事文书档案快速查找系统
CN108763261B (zh) 一种图形检索方法
CN116304213A (zh) 基于图神经网络的rdf图数据库子图匹配查询优化方法
CN114997360A (zh) 神经架构搜索算法的演化参数优化方法、系统及存储介质
CN104978729A (zh) 一种基于数据感知的图像哈希方法
CN112738724B (zh) 一种区域目标人群的精准识别方法、装置、设备和介质
CN114547286A (zh) 一种信息搜索方法、装置及电子设备
Yang et al. Adaptive density peak clustering for determinging cluster center
CN110502660B (zh) 一种弱监督下的多距离度量图像检索方法
Liu et al. Based on multiple time series affinity propagation algorithm
CN109558907A (zh) 非独立同分布下基于k均值算法的数据分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190531

RJ01 Rejection of invention patent application after publication