CN111210023B - 数据集分类学习算法自动选择系统及方法 - Google Patents
数据集分类学习算法自动选择系统及方法 Download PDFInfo
- Publication number
- CN111210023B CN111210023B CN202010031991.5A CN202010031991A CN111210023B CN 111210023 B CN111210023 B CN 111210023B CN 202010031991 A CN202010031991 A CN 202010031991A CN 111210023 B CN111210023 B CN 111210023B
- Authority
- CN
- China
- Prior art keywords
- algorithm
- data set
- classification
- meta
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 243
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012549 training Methods 0.000 claims abstract description 86
- 238000012545 processing Methods 0.000 claims abstract description 26
- 238000010801 machine learning Methods 0.000 claims abstract description 25
- 238000007635 classification algorithm Methods 0.000 claims description 32
- 238000005457 optimization Methods 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 17
- 238000007637 random forest analysis Methods 0.000 claims description 11
- 238000012706 support-vector machine Methods 0.000 claims description 11
- 238000007477 logistic regression Methods 0.000 claims description 9
- 238000003672 processing method Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 abstract description 2
- 238000012795 verification Methods 0.000 description 16
- 238000011160 research Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 13
- 230000000694 effects Effects 0.000 description 10
- 238000011156 evaluation Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 238000010187 selection method Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000007418 data mining Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种数据集分类学习算法自动选择系统及方法,属于机器学习技术领域。本发明针对现有数据处理中涉及到的学习算法的选择方式不具有通用性,若逐个进行尝试则计算量过大的问题。系统包括训练特征选择模块:选择各分类问题数据集,对每个分类问题数据集进行处理,获得相应的分类元知识;抉择器模块:从分类元知识中选择有效特征作为元特征,形成抉择器训练集,对元知识训练抉择器进行训练;算法选择模块:对待处理数据集进行处理,获得待处理元特征;再采用元知识训练抉择器进行分析,获得待处理数据集的最优学习算法;知识库模块,获得包括不同分类问题数据集与其对应学习算法一一对应关系的算法选择训练集。本发明可为数据集预测最优的学习算法。
Description
技术领域
本发明涉及数据集分类学习算法自动选择系统及方法,属于机器学习技术领域。
背景技术
近年来机器学习技术蓬勃发展的趋势尤为显著,不断促使着IT互联网、金融、教育、医学等行业颠覆传统的运行方式,开启创新型AI发展模式。例如研发人工智能芯片,数据挖掘与金融分析,甚至推出个体化医疗方案及智能助理等AI服务,可见机器学习技术与其他领域相结合能够展现出巨大的应用前景和商业价值。
在机器学习领域,分类(classification)问题作为最基础且最重要的研究方向,其它的很多AI应用都可以从分类问题演变而来,同时许多问题也可以转化成分类问题。例如计算机视觉中自然场景的图像分割可以转化为对每个像素点进行分类后赋予相应的标签。随着研究的深入,众多分类算法应运而生,它们被证明能有效地提取数据中隐藏的有效信息来解决实际问题。而对于任何给定的数据集,首要的问题是如何选择合适的机器学习算法。基本的策略是尝试执行多种算法进行实验比较,或从机器学习专家处获得建议。但这两者均存在一定的弊端,且选择一个不合适的算法可能会导致结果收敛很慢,甚至陷入局部最优解而只能得到次优解。因此,为没有经验的非专业人士及研究人员解决算法选择的问题极为必要。
现有进行算法自动选择的相关方案一定程度上会涉及机器学习自动化工程的模型选择,但自动化机器学习仍然处于测试阶段,绝大多数研究成果还不能实现模型的自动选择。此前,对模型自动选择的研究主要有解析法和人工智能法。其中解析法普遍应用于统计学习中选择单一模型和组合模型,它基于目标线性规划模型的方法容易计算且具有良好的理论基础,可依靠模型使用的历史信息来选择最优模型;人工智能法相关的研究包括使用回归树或KNN模型进行预测评估,或对图片识别问题使用的不同复杂度的神经网络进行选择。
模型自动选择中的解析法最早由Klein等人提出,用于选择单一模型和组合模型。这种基于目标线性规划模型的方法,依靠模型使用的历史信息来选择模型。其模型选择的过程是:1)对于某个特定的问题,排除不可能用到的模型;2)排除后剩余的模型,根据用户提出的问题特征定出线性规划表达式;3)对每个模型进行线性目标规划,以求出该模型与问题特征之间的距离;4)选择具有最短距离的模型。这些研究都在一定程度上实现了模型的自动选择。但此方案应用范围受限,不适合模型库的扩展,且多数算法仅限于理论的研究,具体实现存在很大困难。
基于神经网络的模型选择方法旨在使用回归树模型进行预测,也可采用KNN模型。该方法最大的缺陷是,对算力与时间的巨大消耗导致其不能对充分多的数据集的特征进行实验,且一般选择的特征都是统计学中的部分数据,如中位数,均值,方差等,不能明确地通过实验证明这些属性的选择对实验结果的影响的大小与好坏。此外该类研究也没有进行更大范围的尝试,执行预测的算法较少,主要解决的实际情景也仅限于图片识别问题,即对不同复杂度的神经网络进行选择。另有相关研究仅以某种直觉上的联系对比几类可行算法得出结论,这将严重导致研究结果不够系统,且一定程度上缺乏问题的可迁移性。
机器学习技术的研究与使用已持续多年,研究者们为解决实际问题已花费大量时间和精力创造出许多精妙可行的学习算法,而这些算法虽在解决某些特定问题上大放光彩,但其本身却又像大数据一样急剧增加。对于刚刚踏入机器学习研究的经验不足者来说,在众多功能和目的相似的算法中选择最合适的一个则极具挑战性。纷繁多样的算法似乎不再是人们解决问题的帮手,而成为人们选择时的阻碍。
截止目前被创造出的分类算法数不胜数,例如支持向量机,决策树,KNN,AdaBoost算法及逻辑回归等,经验不足的从业者面对新的实际问题时往往束手无策,不知选择哪个算法最合适,倘若尝试所有的分类算法则耗时耗力又不切实际,咨询相关专家或许也无济于事,因此急需一种方法可以实现数据集处理中对分类学习算法的自动选择。
发明内容
针对现有数据处理中涉及到的学习算法的选择方式不具有通用性,若逐个进行尝试则计算量过大的问题,本发明提供一种数据集分类学习算法自动选择系统及方法。
本发明提供的一种数据集分类学习算法自动选择系统,包括:
训练特征选择模块:用于从UCI机器学习数据库和Kaggle数据集中选择各分类问题数据集,对每个分类问题数据集进行处理,获得相应的分类元知识;同时由知识库模块获得每个分类问题数据集对应的最优算法编号;
抉择器模块:用于使用贝叶斯优化算法从所述分类元知识中选择有效特征作为元特征;采用所有所述元特征与其对应的最优算法编号构成抉择器训练集,对元知识训练抉择器进行训练,训练后的元知识训练抉择器针对每种元特征获取其最优算法编号;
算法选择模块:用于对待处理数据集进行处理,获得待处理元特征;对待处理元特征采用元知识训练抉择器进行分析,获得待处理数据集的最优学习算法;
知识库模块:用于获得各分类算法论文的有效信息,并进行知识处理,获得包括不同分类问题数据集与其对应学习算法一一对应关系的算法选择训练集;同时存储分类元特征与分类问题数据集的对应关系。
根据本发明所述的数据集分类学习算法自动选择系统,
所述抉择器模块获得抉择器训练集的过程包括:
所述抉择器模块的分类问题数据集输入信息Records=(数据集编号,21个备选特征值A1,...,A21,最优算法编号),输出为训练特征列表;训练特征列表中的元特征包括采用贝叶斯优化算法从21个备选特征值中选择的有效特征;所述21个备选特征值包含数据在特征空间的分布结构;所述21个备选特征值包括的统计特征为连续、离散属性的方差,比例及最大值。
根据本发明所述的数据集分类学习算法自动选择系统,
所述知识库模块获得算法选择训练集的过程包括:
将每篇论文的有效信息形成论文信息集{p1,p2,…,pn},其中pi表示第i篇论文的有效信息,i=1,2,3,……,n;计算每篇论文pi的可信度其中,ci表示论文pi的引用量,year是当年年份,yi则是论文pi的发表年份;
获取每篇论文对应的分类问题数据集的数据集编号di,使用所述分类问题数据集的论文的可信度sj,j=1,2,3,……,n;以及所述分类问题数据集在每篇论文中的学习算法性能排名rij;
对每个分类问题数据集的数据集编号di,通过学习算法性能排名rij找到最优算法aij;
比较相同数据集编号di对应的分类问题数据集的论文的可信度sj,得到最大的可信度sj对应的最优算法aij作为数据集编号di对应的分类问题数据集的最优目标算法;
输出算法选择训练集(di,max(aij))。
根据本发明所述的数据集分类学习算法自动选择系统,所述论文的有效信息包括:
论文名称、论文发表年份、论文的引用量、论文使用的数据集及论文使用的数据集对应的算法性能排名列表。
根据本发明所述的数据集分类学习算法自动选择系统,所述分类问题数据集对应的最优算法包括11种算法:岭回归、感知机、被动攻击算法、最近邻算法、随机森林、L2惩罚项的支持向量机、L2惩罚项的逻辑回归、L1惩罚项的支持向量机、L1惩罚项的逻辑回归、最近中心算法及弹性网络。
本发明还提供了一种数据集分类学习算法自动选择方法,包括:
从UCI机器学习数据库和Kaggle数据集中选择各分类问题数据集,对每个分类问题数据集进行处理,获得相应的分类元知识;同时由知识库获得每个分类问题数据集对应的最优算法编号的步骤;
使用贝叶斯优化算法从所述分类元知识中选择有效特征作为元特征;采用所有所述元特征与其对应的最优算法编号构成抉择器训练集,对元知识训练抉择器进行训练的步骤;训练后的元知识训练抉择器针对每种元特征获取其最优算法编号;
对待处理数据集进行处理,获得待处理元特征;对待处理元特征采用元知识训练抉择器进行分析,获得待处理数据集的最优学习算法的步骤;以及
获得各分类算法论文的有效信息,并进行知识处理,获得包括不同分类问题数据集与其对应学习算法一一对应关系的算法选择训练集;同时存储分类元特征与分类问题数据集的对应关系,获得知识库的步骤。
本发明的有益效果:本发明用于解决机器学习自动化工程中的算法选择问题,为机器学习研究者及欠缺经验的非专家人士提供了良好的模型算法,从而节省时间和精力,提高了解决问题的效率与准确性。
本发明旨在解决数据挖掘中隶属于监督学习的分类问题,可用于自动分析具体问题的数据集,获取数据集的元知识特征,通过对特征的分析,预测一个最优的学习算法。本发明的技术方案对学习算法的选择具有通用性,既可节省时间,又能提高选择结果的准确度,进而促进数据挖掘与机器学习的发展与应用。
附图说明
图1是本发明所述数据集分类学习算法自动选择系统的示例性框图;
图2是贝叶斯优化流程图;
图3是本发明的实验验证结果曲线图;
图4是采用人工方式获得的数据集预测算法与所述最优目标算法的比较图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
具体实施方式一、结合图1所示,本发明的第一方面,提供了一种数据集分类学习算法自动选择系统,包括:
训练特征选择模块100:用于从UCI机器学习数据库和Kaggle数据集中选择各分类问题数据集,对每个分类问题数据集进行处理,获得相应的分类元知识;同时由知识库模块获得每个分类问题数据集对应的最优算法编号;
抉择器模块200:用于使用贝叶斯优化算法从所述分类元知识中选择有效特征作为元特征;采用所有所述元特征与其对应的最优算法编号构成抉择器训练集,对元知识训练抉择器进行训练,训练后的元知识训练抉择器针对每种元特征获取其最优算法编号;
算法选择模块300:用于对待处理数据集进行处理,获得待处理元特征;对待处理元特征采用元知识训练抉择器进行分析,获得待处理数据集的最优学习算法;
知识库模块400:用于获得各分类算法论文的有效信息,并进行知识处理,获得包括不同分类问题数据集与其对应学习算法一一对应关系的算法选择训练集;同时存储分类元特征与分类问题数据集的对应关系。
进一步,所述抉择器模块获得抉择器训练集的过程包括:
所述抉择器模块的分类问题数据集输入信息Records=(数据集编号,21个备选特征值A1,...,A21,最优算法编号),输出为训练特征列表;训练特征列表中的元特征包括采用贝叶斯优化算法从21个备选特征值中选择的有效特征;所述21个备选特征值包含数据在特征空间的分布结构;所述21个备选特征值包括的统计特征为连续、离散属性的方差,比例及最大值。
再进一步,在知识库建立部分,首先应翻阅与分类算法相关的论文,根据其中的实验结果总结出训练抉择器的相关知识,然后在所构建的知识库中进行知识处理,具体流程为:
所述知识库模块获得算法选择训练集的过程包括:
将每篇论文的有效信息形成论文信息集{p1,p2,…,pn},其中pi表示第i篇论文的有效信息,i=1,2,3,……,n;计算每篇论文pi的可信度其中,ci表示论文pi的引用量,year是当年年份,yi则是论文pi的发表年份;
获取每篇论文对应的分类问题数据集的数据集编号di,使用所述分类问题数据集的论文的可信度sj,j=1,2,3,……,n;以及所述分类问题数据集在每篇论文中的学习算法性能排名rij;
对每个分类问题数据集的数据集编号di,通过学习算法性能排名rij找到最优算法aij;所述最优算法aij在本发明的11个备选算法中;
比较相同数据集编号di对应的分类问题数据集的论文的可信度sj,得到最大的可信度sj对应的最优算法aij作为数据集编号di对应的分类问题数据集的最优目标算法;
输出算法选择训练集(di,max(aij))。
综上,知识库的建立可将论文中得到的知识转化为本申请所需使用的数据的算法,具有很好的扩展性,从论文中获得的数据越多,知识库发挥的作用也越大。
作为示例,所述论文的有效信息包括:
论文名称、论文发表年份、论文的引用量、论文使用的数据集及论文使用的数据集对应的算法性能排名列表。
本实施方式可以为输入的数据集在备选的11种分类算法中选择一个较优或最优的分类算法,所涉及的11种算法包括:(1)岭回归(Ridge Regression);(2)感知机(Perception);(3)被动攻击算法(Passive Aggressive);(4)最近邻算法(k-NearestNeighbor);(5)随机森林(Random Froest);(6)L2惩罚项的支持向量机(Support VectorMachine-L2);(7)L2惩罚项的逻辑回归(Logistic Regression-L2);(8)L1惩罚项的支持向量机(Support Vector Machine-L1);(9)L1惩罚项的逻辑回归(Logistic Regression-L1);(10)最近中心算法(Nearest Centroid);(11)弹性网络(Elastic Net)。相比于神经网络等深度学习方法,上述11种算法均为发展较为成熟的经典算法,其设计思想深邃精巧,稳定性好效益高,更利于满足工业发展的需求。本发明主要采用元学习的思想设计,通过收集、处理、应用以往研究论文中的实验结果构建知识库以作为监督学习的元知识,然后利用元知识训练抉择器进行分类算法的选择,该抉择器能为各种结构化数据高效地挑选合适的算法。此外本发明中采用特征选择的技术从多个特征中选择最有意义的特征作为抉择器训练的元特征,又在保证系统准确率的情况下提高了系统的运行效率。
本实施方式在知识库建立及元特征的选择基础上,还可以进行系统实验的验证。由于现有算法选择问题需要处理大量的分类问题数据集,一个普通的数据集只是训练抉择器的一条数据,因而数据集处理过程相当繁琐,且将所有算法在所有数据集上运行后选择最优算法既耗时又耗力。鉴于之前众多论文的研究结果,本发明旨在从论文中提取有效信息构成知识库,并从UCI和Kaggle上选择135个分类问题的数据集将其处理成模型训练的元知识。其次,模型中的特征(参数)也是影响其性能表现的重要因素,针对本发明中的11种备选分类算法,每个算法都有各自的适用能力,其表现也与数据集在特征空间的分布结构有关。因此,本发明系统所提取的数据集的特征应尽可能与数据集本身的分布有关,即能够直接从数据集得到数据在特征空间的分布结构,之后又经过贝叶斯优化算法选择真正有效的特征用于抉择器的训练。最后环节可以是系统实验验证,实现11个分类算法并将其在每个数据集上进行训练和测试,得到每个算法的准确率,准确率最高的算法作为该数据集的目标算法,即为该数据集对应的标签。
与现有技术相比,本实施方式可实验性强,准确率高,具有良好的拓展性,且从先前研究论文中提取有效知识构建知识库后训练抉择器体现了元学习的巨大优越性,一定程度上弥补了利用目标线性规划模型进行模型自动选择的解析法所存在的缺点,即扩大了应用范围,增强了模型库的拓展性,且将绝大部分理论研究与实际问题相结合,降低了算法选择系统实现的难度。
本实施方式还可以增加系统实验验证的环节,进一步证明其算法选择的准确性。验证中使用了UCI和Kaggle上的120个数据集训练系统中的抉择器,并在10个数据集上进行测试,依次计算人为选择的分类算法和11个单一算法在10个数据集上的准确率,而后对比最优算法与期望算法,证明本发明中分类算法的选择系统可以为分类问题选择足够优秀的算法以解决相关问题。同时,本发明也具有一定的启发性,可尝试应用于其他的非结构化数据集,也可将其思想迁移至机器学习的其他问题,如回归或非监督学习等。
在备选特征选择环节,已知各种分类算法的表现与数据集在特征空间的分布结构有关。针对不同的数据集选择合适的算法,则需从数据集得到数据在特征空间的分布结构,因此,本系统所提取的数据集特征都应尽可能与数据集本身的分布有关。以此为基准,从数据集中提取出如表1所示的21个特征:
表1
表1中为本发明在特征选择时所提取的21个与数据集相关的特征,旨在直接从数据集得到数据在特征空间的分布结构,然后采用随机森林与贝叶斯优化算法从21个备选特征中选择真正有效的特征进行分类算法系统选择。21个特征包括连续,离散属性的方差,比例,最大值等统计特征,可充分考察不同数据集的特点,提高特征提取的准确性与可信度。
然后在备选特征中选择真正有效的特征。具体选择方法为:设定输入为Records=(数据集编号,21个特征值A1,...,A21,最优算法编号),分类模型列表Mlist;输出为有用特征列表;将相关参数按表2进行分组,设计评估函数F(参数1,…,参数8)=SVM使用参数1,…,参数7选择的特征拟合数据的效果,因此将特征选择问题转化为(参数1,…,参数8)取何值时F最大。然后根据参数1,…,参数7的值从Records中提取特征构成新的数据集RecordsNew,将其划分为三份进行三折教程验证,即验证SVM在数据集上的拟合效果(取三次准确率的平均值为最终拟合效果,值越高,拟合效果越好)。相应地,针对评估函数最大化问题,采用贝叶斯优化算法,进行参数调优,测试部分参数组合,即可在有限时间内得到较优的参数组合。
表2
参数 | 参数含义 | 参数取值 |
参数1 | A1A2A3 | 000,001,010,011,100,101,110,111 |
参数2 | A4A5A6 | 000,001,010,011,100,101,110,111 |
参数, | A7A8A9 | 000,001,010,011,100,101,110,111 |
参数4 | A10A11A12 | 000,001,010,011,100,101,110,111 |
参数5 | A13A14A15 | 000,001,010,011,100,101,110,111 |
参数6 | A16A17A18 | 000,001,010,011,100,101,110,111 |
参数7 | A19A20A21 | 000,001,010,011,100,101,110,111 |
参数8 | 抉择器使用的备选模型 | SVM |
表2中,考虑到所选21个特征的全排列数据庞大,且进行所有尝试不切实际,因此本发明将其分为7组,每一组AiAjAk的参数取值按位考虑存在3种情况:000,001,010,011,100,101,110,111,对应位为1则视为使用该特征,0代表不使用该特征。然后设置评估函数F(参数1,…,参数8)=SVM使用参数1,…,参数7选择的特征拟合数据的效果,将问题转化为(参数1,…,参数8)取什么值时使F最大。
具体贝叶斯优化流程图见附图2。图2为解决评估函数最大化问题时所使用的贝叶斯优化算法的流程图,由于对f(x)的分布一无所知,则猜想一个分布模型M,如高斯分布;然后选择一个新的xi,计算f(xi),得到新的点(xi,f(xi)),该点应该能使得模型M经过修正后更接近真正的目标函数,或者优于备选点;最后判断xi是否为所需最优解,若不是则进行模型M的修正。
最后,可以对本实施方式所述系统进行实验验证,使用通过贝叶斯优化算法得到的参数进行抉择器的训练,然后抉择器使用随机森林算法进行最优算法选择。系统验证中本发明使用120个数据集训练抉择器,在10个数据集上进行测试,依次计算人为对数据集选择的分类算法和每个单一算法在10个数据集上的准确率,而后得到图3和图4的结果,继而证明本实施方式所述系统可以为分类问题选择足够优秀的算法以解决相关问题。
附图3为分类算法自动选择系统实验验证的结果,使用由贝叶斯优化算法得到的参数进行抉择器的训练,然后抉择器使用随机森林算法进行最优算法选择。其中贝叶斯优化算法选择的参数1-7分别取值为:100,001,001,101,000,101,011;所选取的特征序号为:1,6,9,10,12,16,18,20,21。本发明使用120个数据集训练抉择器,在10个数据集上进行测试,依次计算人为对数据集选择的分类算法(横坐标为0)和每个单一算法在10个数据集上的准确率。
由图4在10个数据集上实验验证的结果发现,抉择器使用的算法相比于备选算法中最合适的算法性能相近。则可知本发明所设计的自动选择系统可以为分类问题选择足够优秀的算法以解决相关问题。
具体实施方式二、本发明的另一方面还提供了一种数据集分类学习算法自动选择方法,包括:
从UCI机器学习数据库和Kaggle数据集中选择各分类问题数据集,对每个分类问题数据集进行处理,获得相应的分类元知识;同时由知识库获得每个分类问题数据集对应的最优算法编号的步骤;
使用贝叶斯优化算法从所述分类元知识中选择有效特征作为元特征;采用所有所述元特征与其对应的最优算法编号构成抉择器训练集,对元知识训练抉择器进行训练的步骤;训练后的元知识训练抉择器针对每种元特征获取其最优算法编号;
对待处理数据集进行处理,获得待处理元特征;对待处理元特征采用元知识训练抉择器进行分析,获得待处理数据集的最优学习算法的步骤;以及
获得各分类算法论文的有效信息,并进行知识处理,获得包括不同分类问题数据集与其对应学习算法一一对应关系的算法选择训练集;同时存储分类元特征与分类问题数据集的对应关系,获得知识库的步骤。
进一步,获得抉择器训练集的过程包括:
使分类问题数据集输入信息Records=(数据集编号,21个备选特征值A1,...,A21,最优算法编号),输出为训练特征列表;训练特征列表中的元特征包括采用贝叶斯优化算法从21个备选特征值中选择的有效特征;所述21个备选特征值包含数据在特征空间的分布结构;所述21个备选特征值包括的统计特征为连续、离散属性的方差,比例及最大值。
再进一步,在知识库建立部分,首先应翻阅与分类算法相关的论文,根据其中的实验结果总结出训练抉择器的相关知识,然后在所构建的知识库中进行知识处理,具体流程为:
所述知识库获得算法选择训练集的过程包括:
将每篇论文的有效信息形成论文信息集{p1,p2,…,pn},其中pi表示第i篇论文的有效信息,i=1,2,3,……,n;计算每篇论文pi的可信度其中,ci表示论文pi的引用量,year是当年年份,yi则是论文pi的发表年份;
获取每篇论文对应的分类问题数据集的数据集编号di,使用所述分类问题数据集的论文的可信度sj,j=1,2,3,……,n;以及所述分类问题数据集在每篇论文中的学习算法性能排名rij;
对每个分类问题数据集的数据集编号di,通过学习算法性能排名rij找到最优算法aij;所述最优算法aij在本发明的11个备选算法中;
比较相同数据集编号di对应的分类问题数据集的论文的可信度sj,得到最大的可信度sj对应的最优算法aij作为数据集编号di对应的分类问题数据集的最优目标算法;
输出算法选择训练集(di,max(aij))。
综上,知识库的建立可将论文中得到的知识转化为本申请所需使用的数据的算法,具有很好的扩展性,从论文中获得的数据越多,知识库发挥的作用也越大。
作为示例,所述论文的有效信息包括:
论文名称、论文发表年份、论文的引用量、论文使用的数据集及论文使用的数据集对应的算法性能排名列表。
作为示例,所述分类问题数据集对应的最优算法包括11种算法:岭回归、感知机、被动攻击算法、最近邻算法、随机森林、L2惩罚项的支持向量机、L2惩罚项的逻辑回归、L1惩罚项的支持向量机、L1惩罚项的逻辑回归、最近中心算法及弹性网络。
本实施方式在知识库建立及元特征的选择基础上,还可以进行方法实验的验证。由于现有算法选择问题需要处理大量的分类问题数据集,一个普通的数据集只是训练抉择器的一条数据,因而数据集处理过程相当繁琐,且将所有算法在所有数据集上运行后选择最优算法既耗时又耗力。鉴于之前众多论文的研究结果,本发明旨在从论文中提取有效信息构成知识库,并从UCI和Kaggle上选择135个分类问题的数据集将其处理成模型训练的元知识。其次,模型中的特征(参数)也是影响其性能表现的重要因素,针对本发明中的11种备选分类算法,每个算法都有各自的适用能力,其表现也与数据集在特征空间的分布结构有关。因此,本发明系统所提取的数据集的特征应尽可能与数据集本身的分布有关,即能够直接从数据集得到数据在特征空间的分布结构,之后又经过贝叶斯优化算法选择真正有效的特征用于抉择器的训练。最后环节可以是系统实验验证,实现11个分类算法并将其在每个数据集上进行训练和测试,得到每个算法的准确率,准确率最高的算法作为该数据集的目标算法,即为该数据集对应的标签。
与现有技术相比,本实施方式可实验性强,准确率高,具有良好的拓展性,且从先前研究论文中提取有效知识构建知识库后训练抉择器体现了元学习的巨大优越性,一定程度上弥补了利用目标线性规划模型进行模型自动选择的解析法所存在的缺点,即扩大了应用范围,增强了模型库的拓展性,且将绝大部分理论研究与实际问题相结合,降低了算法选择系统实现的难度。
本实施方式还可以增加系统实验验证的环节,进一步证明其算法选择的准确性。验证中使用了UCI和Kaggle上的120个数据集训练系统中的抉择器,并在10个数据集上进行测试,依次计算人为选择的分类算法和11个单一算法在10个数据集上的准确率,而后对比最优算法与期望算法,证明本发明中分类算法的选择系统可以为分类问题选择足够优秀的算法以解决相关问题。同时,本发明也具有一定的启发性,可尝试应用于其他的非结构化数据集,也可将其思想迁移至机器学习的其他问题,如回归或非监督学习等。
在备选特征选择环节,已知各种分类算法的表现与数据集在特征空间的分布结构有关。针对不同的数据集选择合适的算法,则需从数据集得到数据在特征空间的分布结构,因此,本系统所提取的数据集特征都应尽可能与数据集本身的分布有关。以此为基准,从数据集中提取出如具体实施方式一中表1所示的21个特征:
表1中为本发明在特征选择时所提取的21个与数据集相关的特征,旨在直接从数据集得到数据在特征空间的分布结构,然后采用随机森林与贝叶斯优化算法从21个备选特征中选择真正有效的特征进行分类算法系统选择。21个特征包括连续,离散属性的方差,比例,最大值等统计特征,可充分考察不同数据集的特点,提高特征提取的准确性与可信度。
然后在备选特征中选择真正有效的特征。具体选择方法为:设定输入为Records=(数据集编号,21个特征值A1,...,A21,最优算法编号),分类模型列表Mlist;输出为有用特征列表;将相关参数按具体实施一中表2进行分组,设计评估函数F(参数1,…,参数8)=SVM使用参数1,…,参数7选择的特征拟合数据的效果,因此将特征选择问题转化为(参数1,…,参数8)取何值时F最大。然后根据参数1,…,参数7的值从Records中提取特征构成新的数据集RecordsNew,将其划分为三份进行三折教程验证,即验证SVM在数据集上的拟合效果(取三次准确率的平均值为最终拟合效果,值越高,拟合效果越好)。相应地,针对评估函数最大化问题,采用贝叶斯优化算法,进行参数调优,测试部分参数组合,即可在有限时间内得到较优的参数组合。
表2中,考虑到所选21个特征的全排列数据庞大,且进行所有尝试不切实际,因此本发明将其分为7组,每一组AiAjAk的参数取值按位考虑存在3种情况:000,001,010,011,100,101,110,111,对应位为1则视为使用该特征,0代表不使用该特征。然后设置评估函数F(参数1,…,参数8)=SVM使用参数1,…,参数7选择的特征拟合数据的效果,将问题转化为(参数1,…,参数8)取什么值时使F最大。
具体贝叶斯优化流程图见附图2。图2为解决评估函数最大化问题时所使用的贝叶斯优化算法的流程图,由于对f(x)的分布一无所知,则猜想一个分布模型M,如高斯分布;然后选择一个新的xi,计算f(xi),得到新的点(xi,f(xi)),该点应该能使得模型M经过修正后更接近真正的目标函数,或者优于备选点;最后判断xi是否为所需最优解,若不是则进行模型M的修正。
最后,可以对本实施方式所述系统进行实验验证,使用通过贝叶斯优化算法得到的参数进行抉择器的训练,然后抉择器使用随机森林算法进行最优算法选择。系统验证中本发明使用120个数据集训练抉择器,在10个数据集上进行测试,依次计算人为对数据集选择的分类算法和每个单一算法在10个数据集上的准确率,而后得到图3和图4的结果,继而证明本实施方式所述方法可以为分类问题选择足够优秀的算法以解决相关问题。
附图3为分类算法自动选择系统实验验证的结果,使用由贝叶斯优化算法得到的参数进行抉择器的训练,然后抉择器使用随机森林算法进行最优算法选择。其中贝叶斯优化算法选择的参数1-7分别取值为:100,001,001,101,000,101,011;所选取的特征序号为:1,6,9,10,12,16,18,20,21。本发明使用120个数据集训练抉择器,在10个数据集上进行测试,依次计算人为对数据集选择的分类算法(横坐标为0)和每个单一算法在10个数据集上的准确率。
由图4在10个数据集上实验验证的结果发现,抉择器使用的算法相比于备选算法中最合适的算法性能相近。则可知本发明所设计的自动选择系统可以为分类问题选择足够优秀的算法以解决相关问题。
虽然在本文中参照了特定的实施方式来描述本发明,但是应该理解的是,这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是,可以对示例性的实施例进行许多修改,并且可以设计出其他的布置,只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是,可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是,结合单独实施例所描述的特征可以使用在其他所述实施例中。
Claims (8)
1.一种数据集分类学习算法自动选择系统,其特征在于包括:
训练特征选择模块:用于从UCI机器学习数据库和Kaggle数据集中选择各分类问题数据集,对每个分类问题数据集进行处理,获得相应的分类元知识;同时由知识库模块获得每个分类问题数据集对应的最优算法编号;
抉择器模块:用于使用贝叶斯优化算法从所述分类元知识中选择有效特征作为元特征;采用所有所述元特征与其对应的最优算法编号构成抉择器训练集,对元知识训练抉择器进行训练,训练后的元知识训练抉择器针对每种元特征获取其最优算法编号;
算法选择模块:用于对待处理数据集进行处理,获得待处理元特征;对待处理元特征采用元知识训练抉择器进行分析,获得待处理数据集的最优学习算法;
知识库模块:用于获得各分类算法论文的有效信息,并进行知识处理,获得包括不同分类问题数据集与其对应学习算法一一对应关系的算法选择训练集;同时存储分类元特征与分类问题数据集的对应关系;
所述知识库模块获得算法选择训练集的过程包括:
将每篇论文的有效信息形成论文信息集{p1,p2,...,pn},其中pi表示第i篇论文的有效信息,i=1,2,3,……,n;计算每篇论文pi的可信度其中,ci表示论文pi的引用量,year是当年年份,yi则是论文pi的发表年份;
获取每篇论文对应的分类问题数据集的数据集编号di,使用所述分类问题数据集的论文的可信度sj,j=1,2,3,……,n;以及所述分类问题数据集在每篇论文中的学习算法性能排名rij;
对每个分类问题数据集的数据集编号di,通过学习算法性能排名rij找到最优算法aij;
比较相同数据集编号di对应的分类问题数据集的论文的可信度sj,得到最大的可信度sj对应的最优算法aij作为数据集编号di对应的分类问题数据集的最优目标算法;
输出算法选择训练集(di,max(aij))。
2.根据权利要求1所述的数据集分类学习算法自动选择系统,其特征在于,
所述抉择器模块获得抉择器训练集的过程包括:
所述抉择器模块的分类问题数据集输入信息Records=(数据集编号,21个备选特征值A1,...,A21,最优算法编号),输出为训练特征列表;训练特征列表中的元特征包括采用贝叶斯优化算法从21个备选特征值中选择的有效特征;所述21个备选特征值包含数据在特征空间的分布结构;所述21个备选特征值包括的统计特征为连续、离散属性的方差,比例及最大值。
3.根据权利要求2所述的数据集分类学习算法自动选择系统,其特征在于,所述论文的有效信息包括:
论文名称、论文发表年份、论文的引用量、论文使用的数据集及论文使用的数据集对应的算法性能排名列表。
4.根据权利要求3所述的数据集分类学习算法自动选择系统,其特征在于,
所述分类问题数据集对应的最优算法包括11种算法:岭回归、感知机、被动攻击算法、最近邻算法、随机森林、L2惩罚项的支持向量机、L2惩罚项的逻辑回归、L1惩罚项的支持向量机、L1惩罚项的逻辑回归、最近中心算法及弹性网络。
5.一种数据集分类学习算法自动选择方法,其特征在于包括:
从UCI机器学习数据库和Kaggle数据集中选择各分类问题数据集,对每个分类问题数据集进行处理,获得相应的分类元知识;同时由知识库获得每个分类问题数据集对应的最优算法编号的步骤;
使用贝叶斯优化算法从所述分类元知识中选择有效特征作为元特征;采用所有所述元特征与其对应的最优算法编号构成抉择器训练集,对元知识训练抉择器进行训练的步骤;训练后的元知识训练抉择器针对每种元特征获取其最优算法编号;
对待处理数据集进行处理,获得待处理元特征;对待处理元特征采用元知识训练抉择器进行分析,获得待处理数据集的最优学习算法的步骤;以及
获得各分类算法论文的有效信息,并进行知识处理,获得包括不同分类问题数据集与其对应学习算法一一对应关系的算法选择训练集;同时存储分类元特征与分类问题数据集的对应关系,获得知识库的步骤;
所述知识库获得算法选择训练集的过程包括:
将每篇论文的有效信息形成论文信息集{p1,p2,...,pn},其中pi表示第i篇论文的有效信息,i=1,2,3,……,n;计算每篇论文pi的可信度其中,ci表示论文pi的引用量,year是当年年份,yi则是论文pi的发表年份;
获取每篇论文对应的分类问题数据集的数据集编号di,使用所述分类问题数据集的论文的可信度sj,j=1,2,3,……,n;以及所述分类问题数据集在每篇论文中的学习算法性能排名rij;
对每个分类问题数据集的数据集编号di,通过学习算法性能排名rij找到最优算法aij;
比较相同数据集编号di对应的分类问题数据集的论文的可信度sj,得到最大的可信度sj对应的最优算法aij作为数据集编号di对应的分类问题数据集的最优目标算法;
输出算法选择训练集(di,max(aij))。
6.根据权利要求5所述的数据集分类学习算法自动选择方法,其特征在于,
获得抉择器训练集的过程包括:
使分类问题数据集输入信息Records=(数据集编号,21个备选特征值A1,...,A21,最优算法编号),输出为训练特征列表;训练特征列表中的元特征包括采用贝叶斯优化算法从21个备选特征值中选择的有效特征;所述21个备选特征值包含数据在特征空间的分布结构;所述21个备选特征值包括的统计特征为连续、离散属性的方差,比例及最大值。
7.根据权利要求6所述的数据集分类学习算法自动选择方法,其特征在于,所述论文的有效信息包括:
论文名称、论文发表年份、论文的引用量、论文使用的数据集及论文使用的数据集对应的算法性能排名列表。
8.根据权利要求7所述的数据集分类学习算法自动选择方法,其特征在于,
所述分类问题数据集对应的最优算法包括11种算法:岭回归、感知机、被动攻击算法、最近邻算法、随机森林、L2惩罚项的支持向量机、L2惩罚项的逻辑回归、L1惩罚项的支持向量机、L1惩罚项的逻辑回归、最近中心算法及弹性网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010031991.5A CN111210023B (zh) | 2020-01-13 | 2020-01-13 | 数据集分类学习算法自动选择系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010031991.5A CN111210023B (zh) | 2020-01-13 | 2020-01-13 | 数据集分类学习算法自动选择系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111210023A CN111210023A (zh) | 2020-05-29 |
CN111210023B true CN111210023B (zh) | 2023-04-11 |
Family
ID=70790086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010031991.5A Active CN111210023B (zh) | 2020-01-13 | 2020-01-13 | 数据集分类学习算法自动选择系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111210023B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114443831A (zh) * | 2020-10-30 | 2022-05-06 | 第四范式(北京)技术有限公司 | 应用机器学习的文本分类方法、装置和电子设备 |
JP2024516440A (ja) * | 2021-04-30 | 2024-04-15 | インディアン インスティテュート オブ テクノロジー マドラス (アイアイティー マドラス) | データ分類のためのシステム及び方法 |
CN113299388B (zh) * | 2021-05-12 | 2023-09-29 | 吾征智能技术(北京)有限公司 | 基于发热伴皮疹的跨模态医学生物特征认知疾病的系统 |
CN113255765B (zh) * | 2021-05-25 | 2024-03-19 | 南京航空航天大学 | 一种基于大脑机理的认知学习方法 |
CN113392642B (zh) * | 2021-06-04 | 2023-06-02 | 北京师范大学 | 一种基于元学习的育人案例自动标注系统及方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101782976A (zh) * | 2010-01-15 | 2010-07-21 | 南京邮电大学 | 一种云计算环境下机器学习自动选择方法 |
CN102880593A (zh) * | 2012-09-05 | 2013-01-16 | 哈尔滨工业大学 | 基于曲率预测的流形学习自适应邻域选择算法 |
CN105393264A (zh) * | 2013-07-12 | 2016-03-09 | 微软技术许可有限责任公司 | 人机交互学习中的交互区段提取 |
CN105512686A (zh) * | 2015-12-14 | 2016-04-20 | 深圳大学 | 一种集成特征选择方法及系统 |
CN105808524A (zh) * | 2016-03-11 | 2016-07-27 | 江苏畅远信息科技有限公司 | 一种基于专利文献摘要的专利自动分类方法 |
CN108009643A (zh) * | 2017-12-15 | 2018-05-08 | 清华大学 | 一种机器学习算法自动选择方法和系统 |
CN110009111A (zh) * | 2019-03-29 | 2019-07-12 | 电子科技大学 | 一种机器学习逆过程中生成最优训练集的方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016061283A1 (en) * | 2014-10-14 | 2016-04-21 | Skytree, Inc. | Configurable machine learning method selection and parameter optimization system and method |
US20160358099A1 (en) * | 2015-06-04 | 2016-12-08 | The Boeing Company | Advanced analytical infrastructure for machine learning |
US11023818B2 (en) * | 2016-06-23 | 2021-06-01 | 3M Innovative Properties Company | Personal protective equipment system having analytics engine with integrated monitoring, alerting, and predictive safety event avoidance |
-
2020
- 2020-01-13 CN CN202010031991.5A patent/CN111210023B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101782976A (zh) * | 2010-01-15 | 2010-07-21 | 南京邮电大学 | 一种云计算环境下机器学习自动选择方法 |
CN102880593A (zh) * | 2012-09-05 | 2013-01-16 | 哈尔滨工业大学 | 基于曲率预测的流形学习自适应邻域选择算法 |
CN105393264A (zh) * | 2013-07-12 | 2016-03-09 | 微软技术许可有限责任公司 | 人机交互学习中的交互区段提取 |
CN105512686A (zh) * | 2015-12-14 | 2016-04-20 | 深圳大学 | 一种集成特征选择方法及系统 |
CN105808524A (zh) * | 2016-03-11 | 2016-07-27 | 江苏畅远信息科技有限公司 | 一种基于专利文献摘要的专利自动分类方法 |
CN108009643A (zh) * | 2017-12-15 | 2018-05-08 | 清华大学 | 一种机器学习算法自动选择方法和系统 |
CN110009111A (zh) * | 2019-03-29 | 2019-07-12 | 电子科技大学 | 一种机器学习逆过程中生成最优训练集的方法 |
Non-Patent Citations (1)
Title |
---|
王宏志等.工业大数据分析综述:模型与算法.大数据.2018,第4卷(第4期),第62-79页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111210023A (zh) | 2020-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111210023B (zh) | 数据集分类学习算法自动选择系统及方法 | |
Singh et al. | A review of studies on machine learning techniques | |
US7672915B2 (en) | Method and system for labelling unlabeled data records in nodes of a self-organizing map for use in training a classifier for data classification in customer relationship management systems | |
Tang et al. | Multi-label patent categorization with non-local attention-based graph convolutional network | |
US20050100209A1 (en) | Self-optimizing classifier | |
CN106779087A (zh) | 一种通用机器学习数据分析平台 | |
CN111652291A (zh) | 一种基于组稀疏融合医院大数据建立学生成长画像的方法 | |
EP1903479B1 (en) | Method and system for data classification using a self-organizing map | |
Huang et al. | Exploiting local coherent patterns for unsupervised feature ranking | |
CN109902192B (zh) | 基于无监督深度回归的遥感图像检索方法、系统、设备及介质 | |
CN109902823B (zh) | 一种基于生成对抗网络的模型训练方法及设备 | |
CN112182221B (zh) | 一种基于改进随机森林的知识检索优化方法 | |
CN109165672A (zh) | 一种基于渐进式学习的集成分类方法 | |
KR102695698B1 (ko) | 정보 처리장치, 정보 처리방법 및 컴퓨터 판독가능한 기록매체 | |
CN114564573A (zh) | 基于异构图神经网络的学术合作关系预测方法 | |
CN113032367A (zh) | 面向动态负载场景的大数据系统跨层配置参数协同调优方法和系统 | |
CN108737429B (zh) | 一种网络入侵检测方法 | |
CN110738245A (zh) | 一种面向科学数据分析的自动聚类算法选择系统及方法 | |
Bazzaz et al. | Active learning for classifying 2d grid-based level completability | |
Ramalingam et al. | Efficient Player Prediction and Suggestion using Machine Learning for IPL Tournament | |
Toghraee et al. | The impact of feature selection on meta-heuristic algorithms to data mining methods | |
Zhou et al. | Research on personalized e-learning based on decision tree and RETE algorithm | |
Czarnowski et al. | Instance reduction approach to machine learning and multi-database mining | |
Zhang et al. | Plant leaf classification using plant leaves based on rough set | |
CN113642701A (zh) | 一种基于截断重要性采样的模型与样本双重主动选择方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |