CN110880007A - 一种机器学习算法自动选择方法和系统 - Google Patents

一种机器学习算法自动选择方法和系统 Download PDF

Info

Publication number
CN110880007A
CN110880007A CN201811038211.9A CN201811038211A CN110880007A CN 110880007 A CN110880007 A CN 110880007A CN 201811038211 A CN201811038211 A CN 201811038211A CN 110880007 A CN110880007 A CN 110880007A
Authority
CN
China
Prior art keywords
algorithm
training
algorithms
resource consumption
consumption value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811038211.9A
Other languages
English (en)
Inventor
张云霄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201811038211.9A priority Critical patent/CN110880007A/zh
Publication of CN110880007A publication Critical patent/CN110880007A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种机器学习算法自动选择方法和系统。包括:基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,确定所述待选算法集合中的每一待选算法的训练测试次序;按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的与所述多个历史参数对应的多个综合评分参数;将综合评分最高的一个或多个待选算法作为机器学习算法选择结果。本发明能够具有很强的学习分析能力,实现极其简单,能够得到效果很好的结果。由于使用算法选择知识库中的决策树,能够快速选取待选算法集合。

Description

一种机器学习算法自动选择方法和系统
技术领域
本发明涉及的是计算机数据处理领域,具体涉及一种机器学习算法自动选择方法和系统。
背景技术
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。机器学习最近在许多应用领域取得了长足的进步,这促成了在各领域中全面普及机器学习方法的需求。相应地,越来越多的商业企业正在满足这一需求(例如,BigML .com, Wise .io,SkyTree .com,RapidMiner .com,Dato .com,Prediction.io,DataRobot .com,微软的Azure机器学习和亚马逊机器学习)。机器学习的核心是每一个有效的机器学习服务都需要解决决定在给定数据集上使用哪种机器学习算法,是否并且如何对其特征进行预处理以及如何设置所有超参数。
机器学习经过很长时间的发展,算法的数量也越来越来越多,每个算法都有各自的特点和优劣,所以对于很多的机器学习算法初学者来说,如何快速的选择一个合适的机器学习算法成为了一个有待解决的问题。
综上所述,本发明设计了一种机器学习算法自动选择方法和系统。
发明内容
针对现有技术上存在的不足,本发明目的是在于提供一种机器学习算法自动选择方法和系统,能够具有很强的学习分析能力,实现极其简单,能够得到效果很好的结果。由于使用算法选择知识库中的决策树,能够快速选取待选算法集合。
为了实现上述目的,本发明是通过如下的技术方案来实现:一种机器学习算法自动选择方法,包括:基于算法选择知识库,通过决策树选择法,确定待选算法集合;基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,确定所述待选算法集合中的每一待选算法的训练测试次序;按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的与所述多个历史参数对应的多个综合评分参数;基于所述多个综合评分参数以及所述多个预设系数,获取所述待选算法集合中每一待选算法的综合评分;将综合评分最高的一个或多个待选算法作为机器学习算法选择结果。
作为优选,所述基于算法选择知识库,通过决策树选择法,确定待选算法集合之前还包括:确定所述待选算法的所处最大类别,所述所处最大类别包括:监督学习类、半监督学习类和无监督学习类;相应地,所述基于算法选择知识库,通过决策树选择法,确定待选算法集合进一步包括:基于算法选择知识库中的决策树,通过确定的所述待选算法的所处最大类别,逐层选取所述待选算法,逐层选取的一个或多个所述待选算法作为所述待选算法集合。
作为优选,所述基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,确定所述待选算法集合中的每一待选算法的训练测试次序进一步包括:基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,通过下式获取任一待选算法的历史评分:
F ′=aI ′+bO ′+cS′+dT ′+eA ′;
其中,F′为任一待选算法的历史评分,a为预设的数据输入资源消耗值系数,I′为历史数据输入资源消耗值,b为预设的数据输出资源消耗值系数,O′为历史数据输出资源消耗值,c为预设的训练预测内存系数,S ′为历史训练预测内存,d为预设的训练预测时间系数,T′为历史训练预测时间,e为预设的预测准确度系数,A′为历史预测准确度;将所有的待选算法的历史评分按照分数由高至低排列,将排列好的待选算法的次序作为待选算法的训练测试次序。
作为优选,所述按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的与所述多个历史参数对应的多个综合评分参数进一步包括:所述按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,并获取每一待选算法的训练数据输入资源消耗值、训练数据输出资源消耗值、训练时间和训练内存;基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的预测数据输入资源消耗值、预测数据输出资源消耗值、预测时间、预测内存和预测准确度;对所述训练数据输入资源消耗值和所述预测数据输入资源消耗值加权求和,获取数据输入资源消耗值;对所述训练数据输出资源消耗值和所述预测数据输出资源消耗值加权求和,获取数据输出资源消耗值;对所述训练时间和所述预测时间加权求和,获取训练预测时间;对所述训练内存和所述预测内存加权求和,获取训练预测内存;将所述数据输入资源消耗值、所述数据输出资源消耗值、所述训练预测时间、所述训练预测内存和所述预测准确度作为所述多个综合评分参数。
一种机器学习算法自动选择系统,包括:确定待选算法集合模块,用于基于算法选择知识库,通过决策树选择法,确定待选算法集合;确定优先级模块,用于基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,确定所述待选算法集合中的每一待选算法的训练测试次序;训练测试模块,用于按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的与所述多个历史参数对应的多个综合评分参数;获取综合评分模块,用于基于所述多个综合评分参数以及所述多个预设系数,获取所述待选算法集合中每一待选算法的综合评分;获取选择结果模块,用于将综合评分最高的一个或多个待选算法作为机器学习算法选择结果。
本发明具有以下有益效果:通过设置对决策树选择出的集合中的待选算法进行训练和预测,并获取综合评分最终确定选择结果,能够具有很强的学习分析能力,实现极其简单,能够得到效果很好的结果。由于使用算法选择知识库中的决策树,能够快速选取待选算法集合。
附图说明
下面结合附图和具体实施方式来详细说明本发明;
图1为本发明的方法流程图;
图2为本发明的决策树示例图;
图3为本发明的流程框图;
图4为本发明的系统的模块图
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
参照图1-图4,本具体实施方式采用以下技术方案:一种机器学习算法自动选择方法,包括:基于算法选择知识库,通过决策树选择法,确定待选算法集合;基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,确定所述待选算法集合中的每一待选算法的训练测试次序;按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的与所述多个历史参数对应的多个综合评分参数;基于所述多个综合评分参数以及所述多个预设系数,获取所述待选算法集合中每一待选算法的综合评分;将综合评分最高的一个或多个待选算法作为机器学习算法选择结果。
具体地,算法选择知识库中包括多种算法。图2为本发明实施例中的一种决策树示例图,基于图2所示的决策树,确定待选算法集合。算法选择知识库中各类算法包含分层次的具体算法,决策树的选择层次也与其对应。需要说明的是,本发明实施例中的算法均为机器学习算法。进一步地,对于确定待选算法集合,确定的待选算法集合中的算法大致的目标和方法相同,但是在训练速度、精确度上各有优劣,这些算法都可以作为候选算法。
例如一个预测西瓜好坏的任务,即可根据条件“有标签”、“预测类别”、“两个种类”确定属于“二元分类”节点,选取二元分类节点下包含的算法作为候选算法。对于部分已经使用了元学习来辅助选择算法的项目,候选的算法集合需要包含的算法。
本发明提供的一种机器学习算法自动选择方法,通过设置对决策树选择出的集合中的待选算法进行训练和预测,并获取综合评分最终确定选择结果,能够具有很强的学习分析能力,实现极其简单,能够得到效果很好的结果。由于使用算法选择知识库中的决策树,能够快速选取待选算法集合。
基于上述实施例,所述基于算法选择知识库,通过决策树选择法,确定待选算法集合之前还包括:确定所述待选算法的所处最大类别,所述所处最大类别包括:监督学习类、半监督学习类和无监督学习类;相应地,所述基于算法选择知识库,通过决策树选择法,确定待选算法集合进一步包括:基于算法选择知识库中的决策树,通过确定的所述待选算法的所处最大类别,逐层选取所述待选算法,逐层选取的一个或多个所述待选算法作为所述待选算法集合。
具体地,下面对监督学习类算法做出进一步地说明,监督学习类算法基于一组样本对作出预测。例如,以往销售业绩可以用来预测未来的价格走势。借助监督学习,会有一组由标注训练数据组成的输入变量和一组希望预测的输出变量。可以使用算法分析训练数据来学习一个将输入映射到输出的函数。算法推断的函数可通过概括训练数据预测未知情景中的结果进而预测未知的新实例。
分类:当数据被用于预测类别时,监督学习也可处理这类分类任务。给一张图片贴上猫或狗的标签就是这种情况。当分类标签只有两个时,这就是二元分类;超过两个则是多元分类。
回归:当预测为连续数值型时,这就是一个回归问题。这是一个基于过去和现在的数据预测未来的过程,其最大应用是趋势分析。一个典型实例是根据今年和前年的销售业绩以预测下一年的销售业绩。
异常检测:有时,目标是识别仅仅不寻常的数据点。例如,在欺诈行为检测中,任何极不寻常的信用卡消费模式都是可疑的。欺诈行为可能的变体很多,但定型示例却很少,因此无法了解欺骗性活动的外表形式。异常情况检测采用的方法就是仅了解正常活动的形式(使用非欺诈性交易历史记录),并确定任何有很大不同的活动。
进一步地,下面对半监督学习类算法做出进一步地说明,监督学习的主要挑战是标注数据价格昂贵且非常耗时。如果标签有限,可以使用非标注数据来提高监督学习。由于在这一情况中机器并非完全有监督,所以称之为半监督。通过半监督学习,可以使用只包含少量标注数据的非标注实例提升学习精确度。
进一步地,下面对无监督学习类算法做出进一步地说明,在无监督学习之中,机器完全采用非标注数据,其被要求发现隐藏在数据之下的内在模式,比如聚类结构、低维流形或者稀疏树和图。
聚类:把一组数据实例归为一类,从而一个类(一个集群)之中的实例与其他该类之中的实例更相似(根据一些指标) ,其经常被用于把整个数据集分割为若干个类。这种分析可在每一分类之中进行,从而帮助用户。
降维:减少考虑的变量数量。在很多应用中,原始数据有非常高的特征维度,并且一些特征是多余的且与任务不相关。降维将有助于发现真实、潜在的关系。
基于上述实施例,所述基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,确定所述待选算法集合中的每一待选算法的训练测试次序进一步包括:基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,通过下式获取任一待选算法的历史评分:
F ′=aI ′+bO ′+cS′+dT ′+eA ′;
其中,F′为任一待选算法的历史评分,a为预设的数据输入资源消耗值系数,I′为历史数据输入资源消耗值,b为预设的数据输出资源消耗值系数,O′为历史数据输出资源消耗值,c为预设的训练预测内存系数,S ′为历史训练预测内存,d为预设的训练预测时间系数,T′为历史训练预测时间,e为预设的预测准确度系数,A′为历史预测准确度;将所有的待选算法的历史评分按照分数由高至低排列,将排列好的待选算法的次序作为待选算法的训练测试次序。
具体地,每一系数可取0。
本发明提供的一种机器学习算法自动选择方法,通过设置预设系数,且提出了五种不同的维度,能够更有利于获取最优最合适的算法。
基于上述实施例,所述按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的与所述多个历史参数对应的多个综合评分参数进一步包括:所述按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,并获取每一待选算法的训练数据输入资源消耗值、训练数据输出资源消耗值、训练时间和训练内存;基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的预测数据输入资源消耗值、预测数据输出资源消耗值、预测时间、预测内存和预测准确度;对所述训练数据输入资源消耗值和所述预测数据输入资源消耗值加权求和,获取数据输入资源消耗值;对所述训练数据输出资源消耗值和所述预测数据输出资源消耗值加权求和,获取数据输出资源消耗值;对所述训练时间和所述预测时间加权求和,获取训练预测时间;对所述训练内存和所述预测内存加权求和,获取训练预测内存;将所述数据输入资源消耗值、所述数据输出资源消耗值、所述训练预测时间、所述训练预测内存和所述预测准确度作为所述多个综合评分参数。
基于上述实施例,所述基于所述多个综合评分参数以及所述多个预设系数,通过下式获取所述待选算法集合中每一待选算法的综合评分:
F=aI+bO+cS+dT+eA;
其中,F为任一待选算法的综合评分,a为预设的数据输入资源消耗值系数,I为数据输入资源消耗值,b为预设的数据输出资源消耗值系数,O为数据输出资源消耗值,c为预设的训练预测内存系数,S为训练预测内存,d为预设的训练预测时间系数,T为训练预测时间,e为预设的预测准确度系数,A为预测准确度。
具体地,训练数据输入资源消耗值、训练数据输出资源消耗值、训练时间和训练内存对应的训练资源消耗参数不是具体参数的绝对值,而是选取一个标准做参考,给出其相对值,以方便下面的计算。算法训练中需要的超参数可预设也可以使用另外的超参数优化工具,最后的第一资源消耗参数值为最优超参数情况下的;相似地,预测数据输入资源消耗值、预测数据输出资源消耗值、预测时间、预测内存和预测准确度对应的预测资源消耗参数亦是如此。
基于上述实施例,所述基于算法选择知识库,通过决策树选择法,确定待选算法集合,和所述基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,确定所述待选算法集合中的每一待选算法的训练测试次序之间还包括:对确定的数据集中的每一数据进行特征提取和特征选择,获取每一数据的特征;基于每一数据的特征和所有算法的类别,将所述确定的数据集中的数据划分为所述确定的训练集和所述确定的测试集,其中,所述所有算法来自于所述算法选择知识库。
具体地,特征提取和特征选择都是从原始特征中找出最有效(同类样本的不变性、不同样本的鉴别性、对噪声的鲁棒性)的特征。
进一步地,特征提取:将原始特征转换为一组具有明显物理意义(Gabor、几何特征[角点、不变量]、纹理[LBP HOG])或者统计意义或核的特征。
特征选择:从特征集合中挑选一组最具统计意义的特征。
特征提取和特征选择二者都可以减少数据存储和输入数据带宽、减少冗余、能发现更有意义的潜在的变量,帮助对数据产生更深入的了解。
例如对图像来说,SIFT(Scale-invariant feature transform)是一种检测局部特征的方法,它在空间尺度中对一幅图寻找极值点,并提取出其位置、尺度、旋转不变量等描述子,得到特征并进行图像特征点匹配,可用来侦测与描述影像中的局部性特征。它是基于物体上的一些局部特征,其对旋转、尺度缩放、亮度变化保持不变性,对视角变化、仿射变换、噪声也保持一定程度的稳定性。
然后按照算法的类型和数据特征将数据划分为训练集S和测试集T。此步骤可以使用多种方法,如留出法、交叉验证法、自助法。
例如某项目的数据无法转化为N维欧氏空间中的向量,只能提供数据之间的相似度矩阵,此时便需要剔除K-means等算法,优先选择谱聚类(Spectral clustering)等算法。
基于上述实施例,所述对确定的数据集中的每一数据进行特征提取和特征选择,获取每一数据的特征之后还包括:基于每一数据的特征,获取不适宜算法,并将所述不适宜算法从所述待选算法集合中删除。
基于上述实施例,基于每一数据的特征和所有算法的类别,通过留出法、交叉验证法和自助法中的任一种,将所述确定的数据集中的数据划分为所述确定的训练集和所述确定的测试集,其中,所述所有算法来自于所述算法选择知识库。
基于上述实施例,所述基于算法选择知识库,通过决策树选择法,确定待选算法集合之前还包括:通过贝叶斯优化和元学习方法,辅助所述机器学习算法热启动。
领域专家从以前的任务中获取知识:他们学习机器学习算法的性能特点,元学习通过推理跨数据集的学习算法的性能来模拟这种策略。在这项工作中,应用元学习来选择算法,这些算法可能在新数据集上表现良好。更具体地说,对于大量数据集,收集性能数据和一组元数据特征,即可以有效计算的数据集的特征,并有助于确定在新数据集上使用哪种算法。
这种元学习方法与贝叶斯优化相辅相成,可以优化机器学习框架。元学习可以很快地提出机器学习框架的一些算法实例,这些实例可能表现得相当好,但是不能提供关于性能的细粒度信息。
基于上述实施例,所述预测准确率为查准率、查全率、AUC值等指标中的任一种。
作为一个优选实施例,图3为本发明实施例中的一种机器学习算法自动选择方法的流程框图。本实施例请参见图3。
首先,确定所述待选算法的所处最大类别,所述所处最大类别包括:监督学习类、半监督学习类和无监督学习类。
进一步地,通过贝叶斯优化和元学习方法,辅助所述机器学习算法热启动。
进一步地,基于算法选择知识库,通过决策树选择法,确定待选算法集合。
进一步地,对确定的数据集中的每一数据进行特征提取和特征选择,获取每一数据的特征;基于每一数据的特征和所有算法的类别,将所述确定的数据集中的数据划分为所述确定的训练集和所述确定的测试集,其中,所述所有算法来自于所述算法选择知识库。
进一步地,基于每一数据的特征,获取不适宜算法,并将所述不适宜算法从所述待选算法集合中删除。
进一步地,基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,确定所述待选算法集合中的每一待选算法的训练测试次序。
进一步地,按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的与所述多个历史参数对应的多个综合评分参数。
进一步地,基于所述多个综合评分参数以及所述多个预设系数,获取所述待选算法集合中每一待选算法的综合评分。
最后,将综合评分最高的一个或多个待选算法作为机器学习算法选择结果。
基于上述实施例,图4为本发明实施例中的一种机器学习算法自动选择系统的模块图,如图4所示,包括:确定待选算法集合模块,基于算法选择知识库,通过决策树选择法,确定待选算法集合;确定优先级模块,用于基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,确定所述待选算法集合中的每一待选算法的训练测试次序;训练测试模块,用于按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的与所述多个历史参数对应的多个综合评分参数;获取综合评分模块,用于基于所述多个综合评分参数以及所述多个预设系数,获取所述待选算法集合中每一待选算法的综合评分;获取选择结果模块,用于将综合评分最高的一个或多个待选算法作为机器学习算法选择结果。
本发明提供的一种机器学习算法自动选择方法和系统,通过设置对决策树选择出的集合中的待选算法进行训练和预测,并获取综合评分最终确定选择结果,能够具有很强的学习分析能力,实现极其简单,能够得到效果很好的结果。由于使用算法选择知识库中的决策树,能够快速选取待选算法集合。通过设置预设系数,且提出了五种不同的维度,能够更有利于获取最优最合适的算法。在使用本发明提供的算法选择知识库与工具进行机器学习算法选择时,选择的算法基本上和专家选取的算法一致或较为相似,实验结果有力地证明了本发明提供的选择方法的有效性。本发明提供的选择方法有很强的适应性,能够适应于多种机器学习框架与系统。本发明提供的选择方法能够有效地达到自动选择合适机器学习算法的目的,方法直观有效、便于使用。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (5)

1.一种机器学习算法自动选择方法和系统,其特征在于,包括:基于算法选择知识库,通过决策树选择法,确定待选算法集合;基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,确定所述待选算法集合中的每一待选算法的训练测试次序;按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的与所述多个历史参数对应的多个综合评分参数;基于所述多个综合评分参数以及所述多个预设系数,获取所述待选算法集合中每一待选算法的综合评分;将综合评分最高的一个或多个待选算法作为机器学习算法选择结果。
2.根据权利要求1所述的一种机器学习算法自动选择方法和系统,其特征在于,所述基于算法选择知识库,通过决策树选择法,确定待选算法集合之前还包括:确定所述待选算法的所处最大类别,所述所处最大类别包括:监督学习类、半监督学习类和无监督学习类;相应地,所述基于算法选择知识库,通过决策树选择法,确定待选算法集合进一步包括:基于算法选择知识库中的决策树,通过确定的所述待选算法的所处最大类别,逐层选取所述待选算法,逐层选取的一个或多个所述待选算法作为所述待选算法集合。
3.根据权利要求1所述的一种机器学习算法自动选择方法和系统,其特征在于,所述基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,确定所述待选算法集合中的每一待选算法的训练测试次序进一步包括:基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,通过下式获取任一待选算法的历史评分:
F′=aI′+bO′+cS′+dT′+eA′;
其中,F′为任一待选算法的历史评分,a为预设的数据输入资源消耗值系数,I′为历史数据输入资源消耗值,b为预设的数据输出资源消耗值系数,O′为历史数据输出资源消耗值,c为预设的训练预测内存系数,S′为历史训练预测内存,d为预设的训练预测时间系数,T′为历史训练预测时间,e为预设的预测准确度系数,A′为历史预测准确度;将所有的待选算法的历史评分按照分数由高至低排列,将排列好的待选算法的次序作为待选算法的训练测试次序。
4.根据权利要求1所述的一种机器学习算法自动选择方法和系统,其特征在于,所述按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的与所述多个历史参数对应的多个综合评分参数进一步包括:所述按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,并获取每一待选算法的训练数据输入资源消耗值、训练数据输出资源消耗值、训练时间和训练内存;基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的预测数据输入资源消耗值、预测数据输出资源消耗值、预测时间、预测内存和预测准确度;对所述训练数据输入资源消耗值和所述预测数据输入资源消耗值加权求和,获取数据输入资源消耗值;对所述训练数据输出资源消耗值和所述预测数据输出资源消耗值加权求和,获取数据输出资源消耗值;对所述训练时间和所述预测时间加权求和,获取训练预测时间;对所述训练内存和所述预测内存加权求和,获取训练预测内存;将所述数据输入资源消耗值、所述数据输出资源消耗值、所述训练预测时间、所述训练预测内存和所述预测准确度作为所述多个综合评分参数。
5.一种机器学习算法自动选择系统,其特征在于,包括:确定待选算法集合模块,用于基于算法选择知识库,通过决策树选择法,确定待选算法集合;确定优先级模块,用于基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数,确定所述待选算法集合中的每一待选算法的训练测试次序;训练测试模块,用于按照所述训练测试次序,基于确定的训练集,依次对所述待选算法集合中的待选算法进行训练,获取每一待选算法对应的训练模型,基于每一待选算法对应的训练模型,对确定的测试集进行预测,获取每一待选算法的与所述多个历史参数对应的多个综合评分参数;获取综合评分模块,用于基于所述多个综合评分参数以及所述多个预设系数,获取所述待选算法集合中每一待选算法的综合评分;获取选择结果模块,用于将综合评分最高的一个或多个待选算法作为机器学习算法选择结果。
CN201811038211.9A 2018-09-06 2018-09-06 一种机器学习算法自动选择方法和系统 Pending CN110880007A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811038211.9A CN110880007A (zh) 2018-09-06 2018-09-06 一种机器学习算法自动选择方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811038211.9A CN110880007A (zh) 2018-09-06 2018-09-06 一种机器学习算法自动选择方法和系统

Publications (1)

Publication Number Publication Date
CN110880007A true CN110880007A (zh) 2020-03-13

Family

ID=69727407

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811038211.9A Pending CN110880007A (zh) 2018-09-06 2018-09-06 一种机器学习算法自动选择方法和系统

Country Status (1)

Country Link
CN (1) CN110880007A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111582498A (zh) * 2020-04-30 2020-08-25 重庆富民银行股份有限公司 基于机器学习的qa辅助决策方法及系统
CN111813870A (zh) * 2020-06-01 2020-10-23 武汉大学 基于统一描述表达的机器学习算法资源共享方法及系统
CN112669816A (zh) * 2020-12-24 2021-04-16 北京有竹居网络技术有限公司 模型的训练方法、语音识别方法、装置、介质及设备
US20210342998A1 (en) * 2020-05-01 2021-11-04 Samsung Electronics Co., Ltd. Systems and methods for quantitative evaluation of optical map quality and for data augmentation automation
CN114492214A (zh) * 2022-04-18 2022-05-13 支付宝(杭州)信息技术有限公司 利用机器学习的选择算子确定、策略组合优化方法及装置
CN114819400A (zh) * 2022-05-24 2022-07-29 上海壹佰米网络科技有限公司 一种资源量预估方法、装置、设备及存储介质
TWI817237B (zh) * 2021-11-04 2023-10-01 關貿網路股份有限公司 風險預測方法、系統及其電腦可讀媒介

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111582498A (zh) * 2020-04-30 2020-08-25 重庆富民银行股份有限公司 基于机器学习的qa辅助决策方法及系统
US20210342998A1 (en) * 2020-05-01 2021-11-04 Samsung Electronics Co., Ltd. Systems and methods for quantitative evaluation of optical map quality and for data augmentation automation
US11847771B2 (en) * 2020-05-01 2023-12-19 Samsung Electronics Co., Ltd. Systems and methods for quantitative evaluation of optical map quality and for data augmentation automation
CN111813870A (zh) * 2020-06-01 2020-10-23 武汉大学 基于统一描述表达的机器学习算法资源共享方法及系统
CN111813870B (zh) * 2020-06-01 2024-03-12 武汉大学 基于统一描述表达的机器学习算法资源共享方法及系统
CN112669816A (zh) * 2020-12-24 2021-04-16 北京有竹居网络技术有限公司 模型的训练方法、语音识别方法、装置、介质及设备
WO2022134968A1 (zh) * 2020-12-24 2022-06-30 北京有竹居网络技术有限公司 模型的训练方法、语音识别方法、装置、介质及设备
CN112669816B (zh) * 2020-12-24 2023-06-02 北京有竹居网络技术有限公司 模型的训练方法、语音识别方法、装置、介质及设备
TWI817237B (zh) * 2021-11-04 2023-10-01 關貿網路股份有限公司 風險預測方法、系統及其電腦可讀媒介
CN114492214A (zh) * 2022-04-18 2022-05-13 支付宝(杭州)信息技术有限公司 利用机器学习的选择算子确定、策略组合优化方法及装置
CN114819400A (zh) * 2022-05-24 2022-07-29 上海壹佰米网络科技有限公司 一种资源量预估方法、装置、设备及存储介质
CN114819400B (zh) * 2022-05-24 2024-06-21 上海壹佰米网络科技有限公司 一种资源量预估方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108009643B (zh) 一种机器学习算法自动选择方法和系统
CN110880007A (zh) 一种机器学习算法自动选择方法和系统
Hu et al. A survey on online feature selection with streaming features
Galleguillos et al. Context based object categorization: A critical survey
Azadi et al. Auxiliary image regularization for deep cnns with noisy labels
Rani et al. Three dimensional objects recognition & pattern recognition technique; related challenges: A review
Ju et al. Fish species recognition using an improved AlexNet model
Data Machine learning
Raza et al. Understanding and using rough set based feature selection: concepts, techniques and applications
Qian et al. A survey on multi-label feature selection from perspectives of label fusion
Li et al. Outlier detection using structural scores in a high-dimensional space
Xu et al. Multi-component transfer metric learning for handling unrelated source domain samples
Golge et al. Conceptmap: Mining noisy web data for concept learning
Yeh et al. Multilabel deep visual-semantic embedding
Bouchakwa et al. A review on visual content-based and users’ tags-based image annotation: methods and techniques
Pinjarkar et al. Deep cnn combined with relevance feedback for trademark image retrieval
Ma et al. Graph based semi-supervised classification with probabilistic nearest neighbors
Jha E-commerce product image classification using transfer learning
Jain Convolutional neural network based advertisement classification models for online English newspapers
Ebrahimi et al. Integration of deep learning model and feature selection for multi-label classification
Sunitha et al. Novel content based medical image retrieval based on BoVW classification method
Xiang et al. Wool fabric image retrieval based on soft similarity and listwise learning
Yao et al. Feature selection and pedestrian detection based on sparse representation
Li Introduction and Perspective of Deep Metric Learning
Blandon et al. An enhanced and interpretable feature representation approach to support shape classification from binary images

Legal Events

Date Code Title Description
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200313