CN103559303A - 一种对数据挖掘算法的评估与选择方法 - Google Patents
一种对数据挖掘算法的评估与选择方法 Download PDFInfo
- Publication number
- CN103559303A CN103559303A CN201310570978.7A CN201310570978A CN103559303A CN 103559303 A CN103559303 A CN 103559303A CN 201310570978 A CN201310570978 A CN 201310570978A CN 103559303 A CN103559303 A CN 103559303A
- Authority
- CN
- China
- Prior art keywords
- data mining
- mining algorithm
- data
- value
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007418 data mining Methods 0.000 title claims abstract description 65
- 238000011156 evaluation Methods 0.000 title claims abstract description 16
- 238000010187 selection method Methods 0.000 title abstract 3
- 238000012360 testing method Methods 0.000 claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000011160 research Methods 0.000 description 5
- 238000013499 data model Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种对数据挖掘算法的评估与选择方法,包括:选取测试基准数据集;选取数据挖掘算法的评价标准;得到算法在这些基准数据集上的属性值;使用多属性决策的方法计算每一个候选算法在不同基准数据集上的效用值;计算用户给定数据集与每一个基准数据集的相似程度;再次使用多属性决策的方法得到每一个候选算法的质量值;选择质量值较高的算法,并推荐给用户。本发明在海量数据的背景下,保证数据挖掘服务的服务质量。
Description
技术领域
本发明涉及一种对数据挖掘算法的评估与选择方法,具体是一种基于数据模型以及用户需求的数据挖掘服务的评估与选择方法,核心技术是多属性决策(MADM)。
背景技术
在云计算以及海量数据的背景下,数据挖掘任务也作为一种服务被发布在云端。同时,数据挖掘服务也同其他的计算机软硬件服务一样,需要保证较高的服务质量(QoS),而影响数据挖掘服务的QoS主要有以下两个因素:1)数据挖掘算法本身的性能;2)数据挖掘算法在用户特定的需求下,即用户特定的数据集以及用户对于数据挖掘算法不同属性的偏好的前提下,数据挖掘算法的表现情况。
对于数据挖掘算法的评估问题,现有的研究主要是针对于将用于评价数据挖掘算法性能的多个指标,例如准确度,训练时间等综合起来考虑,并形成一个统一的评价指标。这一类的问题是可以被描述在多属性决策(MADM)问题的框架之下,而对于多属性决策问题本身,现在已经有相当成熟的技术来解决。另外,数据挖掘算法在不同的数据集上性能差异很明显,也就是说数据集也应该是评估数据挖掘算法性能的一个重要因素,但是现有的研究并没有对数据集本身的模型进行研究与探讨。同时现有的研究工作并没有考虑到用户对于数据挖掘服务特定的需求,也就是说,对于用户的需求模型用于数据挖掘算法的评估方面目前还没有系统的研究工作。
发明内容
发明目的:针对上述现有技术存在的问题和不足,本发明的目的是提供一种新的数据挖掘算法的评估与选择方法。该方法在海量数据的背景下,考虑到数据集的信息以及用户的需求,以保证数据挖掘服务的服务质量。
技术方案:为实现上述发明目的,本发明采用的技术方案为一种基于数据模型以及用户需求的数据挖掘算法的评估与选择方法,包括如下步骤:
(1)选取多个测试基准数据集;
(2)选取对待评估的数据挖掘算法的评价指标;
(3)将待评估的数据挖掘算法在测试基准数据集上进行测试,得到所述数据挖掘算法在不同测试基准数据集上所有评价指标的属性值;
(4)根据用户对于算法不同评价指标的偏好信息,使用多属性决策的方法计算每个所述数据挖掘算法分别在不同测试基准数据集上的评估值;
(5)计算用户给定的数据集与测试基准数据集的相似度;
(6)将每个评估值作为所述数据挖掘算法的属性,使用多属性决策的方法得到每个数据挖掘算法在多个测试基准数据集上的综合评估值;
(7)对所述综合评估值进行排序,选择综合评估值高的数据挖掘算法推荐给用户。
进一步的,所述步骤(4)包括:
1)为数据挖掘算法的每一个属性分配一个权重值;
2)得到每一个属性的权重值后,使用多属性决策的方法得到数据挖掘算法的综合属性值。
进一步的,所述步骤(5)包括:
1)选取一组数据集的特征;
2)计算测试基准数据集与用户给定的数据集的特征值;
3)根据用户给定的数据集的特征与所有测试基准数据集的特征的差异来计算所述数据集与测试基准数据集的相似度。
进一步的,所述步骤(6)包括:
1)为数据挖掘算法的每一个评估值分配一个权重值;该权重值使用某种权值估计的方法计算;
2)得到所述权重值后,使用多属性决策的方法得到数据挖掘算法在不同测试基准数据集上的综合评估值。
有益效果:本发明旨在预测出候选数据挖掘算法中,在用户特定的数据挖掘任务,特定的数据挖掘属性偏好以及用户指定的数据集上性能最好的算法。使用的方法框架为多属性决策(MADM),根据本发明的方法推荐给用户的数据挖掘算法在用户特定的数据挖掘任务中的性能要好于候选数据挖掘算法中的其他算法。
附图说明
图1为本发明方法的组成结构图;
图2为本发明方法的流程图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本发明方法包含数据挖掘算法评估和数据挖掘算法选择两个模块。
本发明方法流程如图2所示,下面详细说明:
步骤1,选定多个数据集,并得到这些数据集的特征描述(简单的特征例如属性维度,数据集样本个数等等)。这些数据集称为测试基准数据集。
步骤2,选取一组用于评估数据挖掘算法(简称“算法”)的评价指标,例如分类精度,训练时间等等。
步骤3,将待评估的算法在测试基准数据集上进行测试,并得到这些算法在不同的测试基准数据集上所有评价指标的具体数值。
步骤4,根据用户对于数据挖掘算法的各个评价指标的偏好,使用多属性决策的方法的一种(例如Simple Additive Weighting),得到算法分别在每个测试基准数据集上的评估值,这个评估值称为算法在特定测试基准数据集上的“效用”。
步骤5,计算用户给定的数据集与测试基准数据集的相似度,并做归一化处理将这个相似度的值作为步骤6中进行多属性决策时每一个测试基准数据集的权重值。
步骤6,步骤4所计算的效用值是算法在一个测试基准数据集上的综合属性,而对于多个测试基准数据集,我们可以得到算法综合属性的列表。这时我们需要再次使用多属性决策(MADM)的方法(例如TOPSIS方法),而此时多属性决策所需要的算法在每一个测试基准数据集上综合属性的权重值则使用步骤5所计算出来的对应测试基准数据集与用户数据集的相似度。最终得到数据挖掘算法在多个测试基准数据集上的综合评估值,这个综合评估值称为算法的“质量”。
步骤7,对按照此法所计算出来的候选数据挖掘算法的“质量”值进行排序,得到“质量”最高的那几个算法,并推荐这些算法给用户的特定数据挖掘任务。
所述步骤4的多属性决策过程如下:
1)为数据挖掘算法的每一个属性分配一个权重值。权值估计的方法使用Nakhaeizadeh教授在其1997年的文章“Development of Multi-Criteria Metrics for Evaluation of Data Mining Algorithms”中所提到的方法;
2)得到每一个属性的权重值后,将所有属性值的加权和作为算法的“效用”。
步骤5的相似度计算如下:
1)选取一组数据集的特征;
2)计算测试基准数据集每个特征的值。所有的特征值将构成一个向量。同时计算用户给定的数据集的特征值;
3)计算用户数据集特征向量与所有测试基准数据集的特征向量之间的欧氏距离,该距离作为所述数据集与测试基准数据集的相似度。
Claims (4)
1.一种对数据挖掘算法的评估与选择方法,包括如下步骤:
(1)选取多个测试基准数据集;
(2)选取对待评估的数据挖掘算法的评价指标;
(3)将待评估的数据挖掘算法在测试基准数据集上进行测试,得到所述数据挖掘算法在不同测试基准数据集上所有评价指标的属性值;
(4)根据用户对于算法不同评价指标的偏好信息,使用多属性决策的方法计算每个所述数据挖掘算法分别在不同测试基准数据集上的评估值;
(5)计算用户给定的数据集与测试基准数据集的相似度;
(6)将每个评估值作为所述数据挖掘算法的属性,使用多属性决策的方法得到每个数据挖掘算法在多个测试基准数据集上的综合评估值;
(7)对所述综合评估值进行排序,选择综合评估值高的数据挖掘算法推荐给用户。
2.根据权利要求1所述一种对数据挖掘算法的评估与选择方法,其特征在于:所述步骤(4)包括:
1)为数据挖掘算法的每一个属性分配一个权重值;
2)得到每一个属性的权重值后,使用多属性决策的方法得到数据挖掘算法的综合属性值。
3.根据权利要求1所述一种对数据挖掘算法的评估与选择方法,其特征在于:所述步骤(5)包括:
1)选取一组数据集的特征;
2)计算测试基准数据集与用户给定的数据集的特征值;
3)根据用户给定的数据集的特征与所有测试基准数据集的特征的差异来计算所述数据集与测试基准数据集的相似度。
4.根据权利要求1所述一种对数据挖掘算法的评估与选择方法,其特征在于:所述步骤(6)包括:
1)为数据挖掘算法的每一个评估值分配一个权重值;该权重值使用某种权值估计的方法计算;
2)得到所述权重值后,使用多属性决策的方法得到数据挖掘算法在不同测试基准数据集上的综合评估值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310570978.7A CN103559303A (zh) | 2013-11-15 | 2013-11-15 | 一种对数据挖掘算法的评估与选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310570978.7A CN103559303A (zh) | 2013-11-15 | 2013-11-15 | 一种对数据挖掘算法的评估与选择方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103559303A true CN103559303A (zh) | 2014-02-05 |
Family
ID=50013549
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310570978.7A Pending CN103559303A (zh) | 2013-11-15 | 2013-11-15 | 一种对数据挖掘算法的评估与选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103559303A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104504011A (zh) * | 2014-12-10 | 2015-04-08 | 华南师范大学 | 一种查存算法的比较方法 |
CN105787663A (zh) * | 2016-02-26 | 2016-07-20 | 江苏大学 | 一种基于数据挖掘技术的手持移动终端评估方法及系统 |
CN106202310A (zh) * | 2016-07-01 | 2016-12-07 | 中国科学院重庆绿色智能技术研究院 | 一种建立数据挖掘自动回馈系统的方法 |
CN106447144A (zh) * | 2015-08-07 | 2017-02-22 | 阿里巴巴集团控股有限公司 | 一种目标对象的评估方法及装置 |
CN106599230A (zh) * | 2016-12-19 | 2017-04-26 | 北京天元创新科技有限公司 | 一种分布式数据挖掘模型评估的方法与系统 |
CN106817296A (zh) * | 2017-01-12 | 2017-06-09 | 微梦创科网络科技(中国)有限公司 | 信息推荐的测试方法、装置以及电子设备 |
CN107203467A (zh) * | 2016-03-18 | 2017-09-26 | 阿里巴巴集团控股有限公司 | 一种分布式环境下监督学习算法的基准测试方法和装置 |
CN107491992A (zh) * | 2017-08-25 | 2017-12-19 | 哈尔滨工业大学(威海) | 一种基于云计算的智能服务推荐算法 |
CN107784111A (zh) * | 2017-11-06 | 2018-03-09 | 北京锐安科技有限公司 | 数据挖掘方法、装置、设备及存储介质 |
CN110858176A (zh) * | 2018-08-24 | 2020-03-03 | 西门子股份公司 | 代码质量评估方法、装置、系统及存储介质 |
CN112395328A (zh) * | 2020-05-22 | 2021-02-23 | 南京大学 | 一种基于注意力机制的关键属性挖掘方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006095174A2 (en) * | 2005-03-11 | 2006-09-14 | Qinetiq Limited | Multiple criteria decision making (mcdm) method for maintaining complex technology |
CN103108382A (zh) * | 2012-11-20 | 2013-05-15 | 南京邮电大学 | 一种基于网络层次分析法的异构网络多属性决策方法 |
-
2013
- 2013-11-15 CN CN201310570978.7A patent/CN103559303A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006095174A2 (en) * | 2005-03-11 | 2006-09-14 | Qinetiq Limited | Multiple criteria decision making (mcdm) method for maintaining complex technology |
CN103108382A (zh) * | 2012-11-20 | 2013-05-15 | 南京邮电大学 | 一种基于网络层次分析法的异构网络多属性决策方法 |
Non-Patent Citations (3)
Title |
---|
NAKHAEIZADEH, G.ETC: "Development of Multi-Criteria Metrics for Evaluation of Data Mining Algorithms", 《KDD》, 31 August 1991 (1991-08-31) * |
梁竹: "支持数据挖掘算法选择的数据集特征提取研究", 《数字技术与应用》, 16 August 2011 (2011-08-16) * |
章玲等: "基于Choquet积分的层次多属性决策方法研究", 《南京航空航天大学学报》, 10 April 2008 (2008-04-10) * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104504011A (zh) * | 2014-12-10 | 2015-04-08 | 华南师范大学 | 一种查存算法的比较方法 |
CN104504011B (zh) * | 2014-12-10 | 2018-05-15 | 华南师范大学 | 一种查存算法的比较方法 |
CN106447144A (zh) * | 2015-08-07 | 2017-02-22 | 阿里巴巴集团控股有限公司 | 一种目标对象的评估方法及装置 |
CN105787663A (zh) * | 2016-02-26 | 2016-07-20 | 江苏大学 | 一种基于数据挖掘技术的手持移动终端评估方法及系统 |
CN107203467A (zh) * | 2016-03-18 | 2017-09-26 | 阿里巴巴集团控股有限公司 | 一种分布式环境下监督学习算法的基准测试方法和装置 |
CN106202310A (zh) * | 2016-07-01 | 2016-12-07 | 中国科学院重庆绿色智能技术研究院 | 一种建立数据挖掘自动回馈系统的方法 |
CN106599230A (zh) * | 2016-12-19 | 2017-04-26 | 北京天元创新科技有限公司 | 一种分布式数据挖掘模型评估的方法与系统 |
CN106817296A (zh) * | 2017-01-12 | 2017-06-09 | 微梦创科网络科技(中国)有限公司 | 信息推荐的测试方法、装置以及电子设备 |
CN107491992A (zh) * | 2017-08-25 | 2017-12-19 | 哈尔滨工业大学(威海) | 一种基于云计算的智能服务推荐算法 |
CN107784111A (zh) * | 2017-11-06 | 2018-03-09 | 北京锐安科技有限公司 | 数据挖掘方法、装置、设备及存储介质 |
CN107784111B (zh) * | 2017-11-06 | 2020-08-25 | 北京锐安科技有限公司 | 数据挖掘方法、装置、设备及存储介质 |
CN110858176A (zh) * | 2018-08-24 | 2020-03-03 | 西门子股份公司 | 代码质量评估方法、装置、系统及存储介质 |
CN110858176B (zh) * | 2018-08-24 | 2024-04-02 | 西门子股份公司 | 代码质量评估方法、装置、系统及存储介质 |
CN112395328A (zh) * | 2020-05-22 | 2021-02-23 | 南京大学 | 一种基于注意力机制的关键属性挖掘方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103559303A (zh) | 一种对数据挖掘算法的评估与选择方法 | |
Tardioli et al. | Data driven approaches for prediction of building energy consumption at urban level | |
CN110070117B (zh) | 一种数据处理方法及装置 | |
CN106845717B (zh) | 一种基于多模型融合策略的能源效率评价方法 | |
CN111324642A (zh) | 一种面向电网大数据分析的模型算法选型与评价方法 | |
CN110019396A (zh) | 一种基于分布式多维分析的数据分析系统及方法 | |
CN109034562B (zh) | 一种社交网络节点重要性评估方法及系统 | |
CN105678590A (zh) | 一种面向社交网络基于云模型的topN推荐方法 | |
CN103530347A (zh) | 一种基于大数据挖掘的互联网资源质量评估方法及系统 | |
CN104794221A (zh) | 一种基于业务对象的多维数据分析系统 | |
Cassell et al. | EGTAOnline: An experiment manager for simulation-based game studies | |
Alinezhad et al. | Sensitivity Analysis in the QUALIFLEX and VIKOR Methods | |
CN111177216A (zh) | 综合能源消费者行为特征的关联规则生成方法及装置 | |
CN108038734B (zh) | 基于点评数据的城市商业设施空间分布探测方法及系统 | |
CN105488598A (zh) | 一种基于模糊聚类的中长期电力负荷预测方法 | |
CN115081515A (zh) | 能效评价模型构建方法、装置、终端及存储介质 | |
CN103353895A (zh) | 一种配电网线损数据的预处理方法 | |
CN113962477A (zh) | 一种产业电量关联聚集预测方法、装置、设备及存储介质 | |
Xiao et al. | Enhancement of K-nearest neighbor algorithm based on weighted entropy of attribute value | |
CN118313676A (zh) | 一种智慧社区参与式规划智能辅助决策的方法和装置 | |
CN113850346B (zh) | Mec环境下多维属性感知的边缘服务二次聚类方法及系统 | |
CN104090813B (zh) | 一种云数据中心的虚拟机cpu使用率的分析建模方法 | |
Yu et al. | Analysis and prediction of the temporal and spatial evolution of carbon emissions in China’s eight economic regions | |
CN107291722B (zh) | 一种描述词的分类方法及设备 | |
CN105335385A (zh) | 一种基于项目的协同过滤推荐方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140205 |