CN109871809A - 一种基于语义网的机器学习流程智能组装方法 - Google Patents
一种基于语义网的机器学习流程智能组装方法 Download PDFInfo
- Publication number
- CN109871809A CN109871809A CN201910131216.4A CN201910131216A CN109871809A CN 109871809 A CN109871809 A CN 109871809A CN 201910131216 A CN201910131216 A CN 201910131216A CN 109871809 A CN109871809 A CN 109871809A
- Authority
- CN
- China
- Prior art keywords
- data
- machine learning
- training
- model
- learning process
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明涉及一种基于语义网的机器学习流程智能组装方法,首先将不同格式的数据根据其数据类型和问题类型来进行预处理;接着将预处理好的数据根据其数据类型和问题类型进行多种分类模型、回归模型的训练;然后对训练完成的模型进行测试和评估;将算子进行统一的封装;最后根据用户描述的所要使用的机器学习方法以及要进行处理的数据的格式,组装一条以上的机器学习工作流路径。本发明能够快速有效地定制和调优可复用的机器学习流程,从而能够高效的进行数据挖掘工作。
Description
技术领域
本发明涉及数据分析领域,特别是一种基于语义网的机器学习流程智能组装方法。
背景技术
如今人类社会每天产生和存储的数据量越来越庞大,同时还伴随着用户越来多样化的数据分析需求。如何简单、快速、有效地构建一个能够处理大规模数据的机器学习流程,已经成为一个目前亟待解决的需求。sklearn是机器学习中一个常用的python第三方模块,里面对一些常用的机器学习方法进行了封装,在进行机器学习任务时,并不需要每个人都实现所有的算法,只需要简单的调用sklearn里的模块就可以实现大多数机器学习任务。支持包括分类、回归、降维和聚类四大机器学习算法。还包含了特征提取、数据处理和模型评估三大模块。利用这几大模块的优势,可以大大提高机器学习的效率。
但由于sklearn提供的机器学习算法众多,每个算法又拥有少则几个多则数十个的可调整参数,所以使用sklearn进行数据挖掘仍需要非常高的学习成本。
发明内容
有鉴于此,本发明的目的是提出一种基于语义网的机器学习流程智能组装方法,能够快速有效地定制和调优可复用的机器学习流程,从而能够高效的进行数据挖掘工作。
本发明采用以下方案实现:一种基于语义网的机器学习流程智能组装方法,包括以下步骤:
步骤S1:将不同格式的数据根据其数据类型和问题类型来进行预处理;
步骤S2:将预处理好的数据根据其数据类型和问题类型进行多种分类模型、回归模型的训练;
步骤S3:对训练完成的模型进行测试和评估;
步骤S4:步骤S1、步骤S2及步骤S3使用到的算子进行统一的封装;
步骤S5:根据用户描述的所要使用的机器学习方法以及要进行处理的数据的格式,组装一条以上的机器学习工作流路径。
进一步地,还包括步骤S6:将用户已经选定的机器学习工作流存储到知识库中,以供该用户或者具有相似需求的用户在此之后复用。
进一步地,步骤S1中,所述预处理包括但不限于:特征抽取Dicvectorizer,特征选择VarianceThreshold、SelectFromModel,降维PCA、LDA、Spetral_Embedding、Isomap、Kernel_approximation、LLE,归一化和标准化StandarScalar。
较佳的,步骤S2中的回归模型包括采用DecisionTreeRegressor、RidgeRegression、SVR 、linear_regression、Logistic regression、linear_regression_regressor、ridge_regression_regressor、SGD_regressor,lasso_regressor、elastic_net_regressor、SVR_rbf_regressor、SVR_linear_regresso、bagging_regressor、gradient_boosting_regressor、 extra_trees_regressor。
较佳的,步骤S2中的分类模型包括采用Logistic Regression Classifier、Random Forest Classifier、Decision Tree Classifier、KNN Classifier、linear_svc_classifier、ada_boost_classifier、bagging_classifier、gradient_boosting_classifier、extra_trees_classifier、rbf_sampler、additive_chi2_sampler、nystroem等一系列模型。
进一步地,步骤S3具体为:对训练完成的回归模型采用r2决定系数进行评估;对训练完成的分类模型采用正确率进行评估。
与现有技术相比,本发明有以下有益效果:本发明能够快速有效地定制和调优可复用的机器学习流程,从而能够高效的进行数据挖掘工作。
附图说明
图1为本发明实施例的方法流程示意图。
图2为本发明实施例的分类模型流程图。
图3为本发明实施例的回归模型流程图。
图4为本发明实施例的封装的算子所能组装出的机器学习工作流的全貌示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1至图3所示,本实施例提供了一种基于语义分析的机器学习服务自动组装方法,包括以下步骤:
步骤S1:将不同格式的数据根据其数据类型和问题类型来进行预处理;具体表现为:通过样本数据集的大小来选择预处理的算子;
步骤S2:将预处理好的数据根据其数据类型和问题类型进行多种分类模型、回归模型的训练;具体表现为:通过样本数据集的大小来选择分类或者回归的算子,操作者还可以自主选择少量特征是否是重要的,然后该组装方法据此选择更加适合的机器学习工作流路径;
步骤S3:对训练完成的模型进行测试和评估;
步骤S4:步骤S1、步骤S2及步骤S3使用到的算子进行统一的封装;
步骤S5:根据用户描述的所要使用的机器学习方法以及要进行处理的数据的格式,组装一条以上的机器学习工作流路径。
在本实施例中,还包括步骤S6:将用户已经选定的机器学习工作流存储到知识库中,以供该用户或者具有相似需求的用户在此之后复用。
在本实施例中,步骤S1中,所述预处理包括但不限于:特征抽取Dicvectorizer,特征选择VarianceThreshold、SelectFromModel,降维PCA、LDA、Spetral_Embedding、Isomap、Kernel_approximation、LLE,归一化MinMaxScaler和标准化StandarScalar。
其中,特征抽取Dicvectorizer算子处理对象是符号化(非数字化)的但是具有一定结构的特征数据,如字典等,将符号转成数字0/1表示。DictVectorizer对非数字化的处理方式是,借助原特征的名称,组合成新的特征,并采用0/1的方式进行量化,而数值型的特征转化比较方便,一般情况维持原值即可。该算子功能十分强大。
其中,特征选择VarianceThreshold算子可作为特征选择的预处理,先去掉那些取值变化小的特征,然后再从接下来提到的的特征选择方法中选择合适的进行进一步的特征选择。假设某特征的特征值只有0和1,并且在所有输入样本中,95%的实例的该特征取值都是1,那就可以认为这个特征作用不大。如果100%都是1,那这个特征就没意义了。当特征值都是离散型变量的时候这种方法才能用,如果是连续型变量,就需要将连续变量离散化之后才能用,而且实际当中,一般不太会有95%以上都取某个值的特征存在。该算子可作为特征选择的预处理,先去掉那些取值变化小的特征,然后再从接下来提到的的特征选择方法中选择合适的进行进一步的特征选择。
其中, 特征选择之SelectFromModel算子是一种元转换器,可以与那些有coef_或者feature_importances_属性的模型一起使用。如果coef_或者feature_importances_小于阈值,本实施例就认为特征是不重要的。除了指定阈值以外,也可以使用启发式的方式。有效的启发式方法包括均值、中位数或者乘以系数,比如 0.1*均值。使用L1范数的线性模型有一个稀疏解:许多估计系数都为0。当降维的目的是为了使用其他分类器,他们能和feature_selection.SelectFromModel一起使用选择非零系数。
其中,降维PCA(Principal Component Analysis,主成分分析)。该算子致力于解决三类问题。第一,降维可以缓解维度灾难问题。第二,降维可以在压缩数据的同时让信息损失最小化。第三,理解几百个维度的数据结构很困难,两三个维度的数据通过可视化更容易理解。)该算子参数n_components:这个参数可以指定希望PCA降维后的特征维度数目。最常用的做法是直接指定降维到的维度数目,此时n_components是一个大于等于1的整数。当然,本实施例也可以指定主成分的方差和所占的最小比例阈值,让PCA类自己去根据样本特征方差来决定降维到的维度数,此时n_components是一个(0,1]之间的数。当然,本实施例还可以将参数设置为"mle", 此时PCA类会用MLE算法根据特征的方差分布情况自己去选择一定数量的主成分特征来降维。本实施例也可以用默认值,即不输入n_components,此时n_components=min(样本数,特征数)。
其中,降维LDA算子:Linear Discriminant Analysis (也有叫做Fisher LinearDiscriminant)。与PCA一样,是一种线性降维算法。不同于PCA只会选择数据变化最大的方向,由于LDA是有监督的(分类标签),所以LDA会主要以类别为思考因素,使得投影后的样本尽可能可分。它通过在k维空间选择一个投影超平面,使得不同类别在该超平面上的投影之间的距离尽可能近,同时不同类别的投影之间的距离尽可能远。从而试图明确地模拟数据类之间的差异。
其中降维Isomap算子是一种非线性的降维算法。一种非迭代的全局优化算法。它是一种等距映射算法,也就是说降维后的点,两两之间距离不变,这个距离是测地距离。测地距离,例如在地球上,要从南极到北极,欧式距离就是两点之间直线最短,测地距离则是曲线的长度,更符合实际情况。Isomap算法是在MDS算法的基础上衍生出的一种算法,MDS算法是保持降维后的样本间距离不变,Isomap算法引进了邻域图,离得很近的点可以用欧氏距离来代替,较远的点可通过最短路径算出距离,在此基础上进行降维保距。
其中,降维LLE属于流形学习(ManifoldLearning)的一种。流形学习是一大类基于流形的框架。数学意义上的流形比较抽象,不过可以认为LLE中的流形是一个不闭合的曲面。这个流形曲面有数据分布比较均匀,且比较稠密的特征,有点流水的味道,基于流行的降维算法就是将流形从高维到低维的降维过程,在降维的过程中本实施例希望流形在高维的一些特征可以得到保留。
其中,归一化MinMaxScaler算子默认将每种特征的值都归一化到[0,1]之间,归一化后的数值大小范围是可调的(根据MinMaxScaler的参数feature_range调整)由于数据存在不同的评价指标,其量纲或量纲单位不同,处于不同的数量级。解决特征指标之间的可比性,经过归一化算子处理后,各指标处于同一数量级,便于综合对比。求最优解的过程会变得平缓,更容易正确收敛。即能提高梯度下降求最优解时的速度,归一化算子可提高计算精度。
其中,标准化StandarScalar算子对原始数据进行缩放处理,限制在一定的范围内。一般指正态化,即均值为0,方差为1。即使数据不符合正态分布,也可以采用这种方式方法,标准化后的数据有正有负。由于信用指标体系的各个指标度量单位是不同的,为了能够将指标参与评价计算,需要对指标进行规范化处理,通过函数变换将其数值映射到某个数值区间数据同趋化处理:解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果;无量纲化处理:要解决数据的可比性;一般采用Z-score规范化:即均值为0,方差为1的正态分布。
较佳的,在本实施例中,步骤S2中的回归模型包括采用DecisionTreeRegressor、Ridge Regression、SVR 、linear_regression、Logistic regression、ridge_regression_regressor、SGD_regressor,lasso_regressor、elastic_net_regressor、SVR_rbf_regressor、SVR_linear_regresso、bagging_regressor、gradient_boosting_regressor、extra_trees_regressor。
其中,Logistic regression (逻辑回归)是当前业界比较常用的机器学习方法,用于估计某种事物的可能性,也用来进行分类。LR分类器,即Logistic RegressionClassifier。在分类情形下,经过学习后的LR分类器是一组权值,当测试样本的数据输入时,这组权值与测试数据按照线性加和得到 ,这里是每个样本的个特征。按照sigmoid函数的形式求出,其中sigmoid函数的定义域为(−∞,+∞),值域为(−1,1),因此最基本的LR分类器适合对两类目标进行分类。所以Logistic回归最关键的问题就是研究如何求得这组权值。这个问题是用极大似然估计来做的。
其中,Ridge Regression(岭回归)是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。
其中,关于SVR,对于一般的回归问题,给定训练样本D={(x1,y1),(x2,y2),...,(xn,yn)},yi€R,本实施例希望学习到一个f(x)使得其与y尽可能的接近,w,b是待确定的参数。在这个模型中,只有当f(x)与y完全相同时,损失才为零,而支持向量回归假设我们能容忍的f(x)与y之间最多有ε的偏差,当且仅当f(x)与y的差别绝对值大于ε时,才计算损失,此时相当于以f(x)为中心,构建一个宽度为2ε的间隔带,若训练样本落入此间隔带,则认为是被预测正确的。(间隔带两侧的松弛程度可有所不同)。
其中,linear_regression(线性回归)是机器学习的一种回归模型,同时也是统计学中的回归模型。此回归模型主要被用来预测真实值,相反分类问题主要被用来预测离散的数值,任何机器学习模型都有输入、输出、学习算法和损失函数。线性回归的输入可以有1或多个输入变量或者说是特征,输出只允许有一个 (也就是本实施例的预测值),其公式比较类似于多元一次函数。
其中,Logistic regression回归是在线性回归基础上,针对线性回归的缺陷(误差统计独立假设,从属关系函数非概率)进行改进后的算法。它将目标变量进行转换后,在此基础上建立线性模型。变换过程为logit transformation:logit(pro)=log(pro)/(1-log(pro))。其逆变换为sigmoid transformation:sigm(x)=1/(1+e^(-x)),以及结果模型。之后确定下估价函数x中线性表达到参数即可:x=sigma(w[i] * a[i]),其中w为带确定权值,a为属性值。对于给定的训练样例,或者是待预测样例,通过估价函数给出估值,再经过sigmoid变换将R上到估值转换为[0, 1]上到概率值。
其中,SGD_regressor的基本思路是利用训练样本数据建模,得到参数和建立预测函数针对新的数据进行预测。使用SGD思想进行回归分析使用SGDRegressor类,该类支持不同的损失函数。该类的特点是对于样本数较大的问题效果更好。
其中,lasso_regressor、elastic_net_regressor与岭回归类似,lasso_regressor也是通过增加惩罚函数来判断、消除特征间的共线性。为了防止过拟合的现象出现,引入以上优化方法。(正则化)岭回归就是引入L2正则化项。lasso回归就是引入L1正则化项。elasticNet回归就是引入L1和L2正则化项(lasso和ridge回归组合)。
其中,DecisionTree Regressor是一个非参数的监督式学习方法,主要用于分类和回归。算法的目标是通过推断数据特征,学习决策规则从而创建一个预测目标变量的模型。决策树算法优点在于简单易懂,原理清晰,决策树可以实现可视化,数据准备简单。其他的方法需要实现数据归一化,创建虚拟变量,删除空白变量。使用决策树的代价是数据点的对数级别。能够处理数值和分类数据。能够处理多路输出问题可以通过统计学检验验证模型。这也使得模型的可靠性计算变得可能。即使模型假设违反产生数据的真实模型,表现性能依旧很好。
其中,对于给定的训练样本S, bagging_regressor每轮从训练样本S中采用有放回抽样(Booststraping)的方式抽取M个训练样本,共进行n轮,得到了n个样本集合,需要注意的是这里的n个训练集之间是相互独立的。在获取了样本集合之后,每次使用一个样本集合得到一个预测模型,对于n个样本集合来说,我们总共可以得到n个预测模型。对于回归问题来说,我们可以采用计算模型均值的方法来作为最终预测的结果。
其中,gradient_boosting_regressor 是一种迭代的决策树算法,由多棵决策树组成,所有树的结论累加起来作为最终答案,gradient_boosting_regressor使用了Adaboost模型的融合方式。Adaboost模型主要强调模型在每一次做决策的时候都会调整模型对于每一笔资料的权重(给予犯错误的资料更大的权重,减小正确资料的权重)。这样训练出了每一个模型最后融合起来。GBRT是对任意的可微损失函数的提升算法的泛化,即可回归亦可分(sai)类(ting)。 优点:1. 对混合数据的的天然处理能力 2. 强大的预测能力(主要指算法本身的能力强大,一般性能好)3. 在输出空间中对异常点的鲁棒性(通过具有鲁棒性的损失函数来实现的) 缺点: 1. 难以并行计算。
其中,extra_trees_regressor(是由PierreGeurts等人于2006年提出。该算法与随机森林算法十分相似,都是由许多决策树构成。而extra_trees是使用所有的训练样本得到每棵决策树,也就是每棵决策树应用的是相同的全部训练样本;而extra_trees是完全随机的得到分叉值,从而实现对决策树进行分叉的。对于某棵决策树,由于它的最佳分叉属性是随机选择的,因此用它的预测结果往往是不准确的,但多棵决策树组合在一起,就可以达到很好的预测效果。当extra_trees构建好了以后,我们也可以应用全部的训练样本来得到该extra_trees的预测误差。这是因为尽管构建决策树和预测应用的是同一个训练样本集,但由于最佳分叉属性是随机选择的,所以我们仍然会得到完全不同的预测结果,用该预测结果就可以与样本的真实响应值比较,从而得到预测误差。
较佳的,在本实施例中,步骤S2中的分类模型包括采用Logistic RegressionClassifier、Random Forest Classifier、Decision Tree Classifier、KNN Classifier、linear_svc_classifier、ada_boost_classifier、bagging_classifier、gradient_boosting_classifier、extra_trees_classifier、rbf_sampler、additive_chi2_sampler、nystroem等一系列模型。
其中,Random Forest Classifier算子(随机森林或随机决策森林算法)是用于分类,回归和其他任务的整体学习方法,其通过在训练时构建多个决策树并输出作为类的模式(分类)或平均预测的类(回归 )的单棵树。随机决策森林纠正了决策树过度适应他们的训练集的问题。随机森林是一个元估计器,它适合数据集的各个子样本上的多个决策树分类器,并使用平均值来提高预测精度和控制过度拟合。子样本大小始终与原始输入样本大小相同,但如果bootstrap = True(默认值),则会使用替换来绘制样本。
其中,Decision Tree Classifier决策树算法是一个非参数的监督式学习方法,主要用于分类和回归。算法的目标是通过推断数据特征,学习决策规则从而创建一个预测目标变量的模型。决策树算法优点在于简单易懂,原理清晰,决策树可以实现可视化 ,数据准备简单。其他的方法需要实现数据归一化,创建虚拟变量,删除空白变量。使用决策树的代价是数据点的对数级别。能够处理数值和分类数据。能够处理多路输出问题可以通过统计学检验验证模型。这也使得模型的可靠性计算变得可能。即使模型假设违反产生数据的真实模型,表现性能依旧很好。
其中,KNN Classifier(k-近邻算法)采用测量不同特征值之间的距离方法进行分类。该算子精度高、对异常值不敏感、无数据输入假定,该算法存在一个训练样本集,并且每个样本都存在标签(有监督学习)。输入没有标签的新样本数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取出与样本集中特征最相似的数据(最近邻)的分类标签。一般来说,本实施例只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,而且k通常不大于20。最后选择k个最相似数据中出现次数最多的分类,作为新数据的分类。
其中,ada_boost_classifier能够自适应(addaptive)地调整样本的权值分布,将分错的样本的权重设高、分对的样本的权重设低;所以被称为“Adaptive Boosting”。
其中,bagging_classifier通过降低基分类器的方差,改善了泛化误差,其性能依赖于基分类器的稳定性;如果基分类器不稳定,bagging有助于降低训练数据的随机波动导致的误差;如果稳定,则集成分类器的误差主要由基分类器的偏倚引起。由于每个样本被选中的概率相同,因此bagging并不侧重于训练数据集中的任何特定实例。
其中,extra_trees_classifier(Extremely randomized trees,极端随机树)是由PierreGeurts等人于2006年提出。该算法与随机森林算法十分相似,都是由许多决策树构成。但该算法与随机森林有两点主要的区别:1、随机森林应用的是Bagging模型,而ET是使用所有的训练样本得到每棵决策树,也就是每棵决策树应用的是相同的全部训练样本;2、随机森林是在一个随机子集内得到最佳分叉属性,而ET是完全随机的得到分叉值,从而实现对决策树进行分叉的。
其中,gradient_boosting_classifier在迭代的时候选择梯度下降的方向来保证最后的结果最好。损失函数用来描述模型的“靠谱”程度,假设模型没有过拟合,损失函数越大,模型的错误率越高。如果本实施例的模型能够让损失函数持续的下降,则说明本实施例的模型在不停的改进,而最好的方式就是让损失函数在其梯度方向上下降。
在本实施例中,步骤S3具体为:对训练完成的回归模型采用r2决定系数进行评估;对训练完成的分类模型采用正确率进行评估。
本实施例将机器学习过程区分成数据预处理、模型训练和模型评估三个阶段,每个阶段在sklearn算法库里都有属于该阶段的一系列算子。最后将上述算子进行封装,在封装成具有统一调用规范的服务之后,就能使用它们进行服务组装,生成一个完整的机器学习工作流全图。如图4所示,就是本实施例封装的算子所能组装出的机器学习工作流的全貌。图中的圆圈表示删除该步骤算子集。连线表示算子执行的次序和流程。方块表示的是算子执行的判断条件,矩形表示经过多步算子处理后得到的处理好的中间结果或者最终结果。该模块只是为了工作流图的整体美观,不代表可运行的具体任务。本实施例将机器学习过程区分成数据预处理、模型训练和模型评估三个阶段。
在本实施例中使用1/10 kddcup99数据集。它在机器学习研究领域中被广泛使用。该数据集是从一个模拟的美国空军局域网上采集来的9个星期的网络连接数据,分成具有标识的训练数据和未加标识的测试数据。测试数据和训练数据有着不同的概率分布,测试数据包含了一些未出现在训练数据中的攻击类型,这使得入侵检测更具有现实性。在训练数据集中包含了1种正常的标识类型normal和22种训练攻击类型,另外有14种攻击仅出现在测试数据集中。在开始本实例研究前已经事先将它们处理成了csv文档。
在本实施例中,在实例中,对于分类过程本实施例发现软件自动生成了一条路径:Dicvectorizer——DoingNothing——DothingNothing——Standardization——LinearSVC 。其准确率达到了0.985273 。接下来本实施例做了没有基于语义分析选择,而是每一个步骤的算子随意组合的情况分类结果,本实施例选出了其中准确率的top3 发现其中包含了本实施例基于分析选择的那一条工作路径。如下表所示。
Dicvectorizer | DoingNothing | DothingNothing | Standardization | LinearSVC | 0.9852735 |
Dicvectorizer | Chi2 | PCA | Standardization | gradient_boosting | 0.9511387 |
Dicvectorizer | Chi2 | PCA | Standardization | Extratree | 0.9494493 |
对于回归过程本实施例也是如此操作,软件自动生成了一条路径(少量特征重要):Dicvectorizer——SelectFromModel——DoingNothing——DoingNothing——Lasso。其r2拟合系数值达到了0.00393。接下来本实施例做了没有基于语义分析选择,而是每一个步骤的算子随意组合的情况回归结果,本实施例选出了其中准确率的top3发现其中包含了本实施例基于分析选择的那一条工作路径。如下表所示。
Dicvectorizer | SelectFromModel | DoingNothing | DoingNothing | elastic_net | 0.0004352 |
Dicvectorizer | SelectFromModel | DoingNothing | DoingNothing | Lasso | 0.0003927 |
Dicvectorizer | Chi2 | DoingNothing | DoingNothing | elastic_net | 0.0004062 |
对于回归过程本实施例再次如此操作,软件自动生成了一条路径(非少量特征重要):Dicvectorizer——Chi2——DoingNothing——DoingNothing——SVR_linear。其r2拟合系数值达到了0.0004141。接下来本实施例做了没有基于语义分析选择,而是每一个步骤的算子随意组合的情况回归结果,本实施例选出了其中准确率的top3发现其中包含了本实施基于分析选择的那一条工作路径。如下表所示。
Dicvectorizer | Chi2 | DoingNothing | DoingNothing | SVR_linear | 0.0004141 |
Dicvectorizer | DoingNothing | DoingNothing | DoingNothing | SVR_linear | 0.0016925 |
Dicvectorizer | VarianceThreshold | PCA | Standardization | SVR_linear | 0.0064841 |
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
Claims (4)
1.一种基于语义网的机器学习流程智能组装方法,其特征在于:包括以下步骤:
步骤S1:将不同格式的数据根据其数据类型和问题类型来进行预处理;
步骤S2:将预处理好的数据根据其数据类型和问题类型进行多种分类模型、回归模型的训练;
步骤S3:对训练完成的模型进行测试和评估;
步骤S4:步骤S1、步骤S2及步骤S3使用到的算子进行统一的封装;
步骤S5:根据用户描述的所要使用的机器学习方法以及要进行处理的数据的格式,组装一条以上的机器学习工作流路径。
2.根据权利要求1所述的一种基于语义网的机器学习流程智能组装方法,其特征在于:还包括步骤S6:将用户已经选定的机器学习工作流存储到知识库中,以供该用户或者具有相似需求的用户在此之后复用。
3.根据权利要求1所述的一种基于语义网的机器学习流程智能组装方法,其特征在于:步骤S1中,所述预处理包括但不限于:特征抽取、特征选择、降维、归一化和标准化。
4.根据权利要求1所述的一种基于语义网的机器学习流程智能组装方法,其特征在于:步骤S3具体为:对训练完成的回归模型采用r2决定系数进行评估;对训练完成的分类模型采用正确率进行评估。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910131216.4A CN109871809A (zh) | 2019-02-22 | 2019-02-22 | 一种基于语义网的机器学习流程智能组装方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910131216.4A CN109871809A (zh) | 2019-02-22 | 2019-02-22 | 一种基于语义网的机器学习流程智能组装方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109871809A true CN109871809A (zh) | 2019-06-11 |
Family
ID=66919083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910131216.4A Pending CN109871809A (zh) | 2019-02-22 | 2019-02-22 | 一种基于语义网的机器学习流程智能组装方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109871809A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489344A (zh) * | 2019-08-02 | 2019-11-22 | Oppo广东移动通信有限公司 | 引擎测试方法及相关产品 |
CN111553386A (zh) * | 2020-04-07 | 2020-08-18 | 哈尔滨工程大学 | 一种基于AdaBoost和CNN的入侵检测方法 |
CN111582498A (zh) * | 2020-04-30 | 2020-08-25 | 重庆富民银行股份有限公司 | 基于机器学习的qa辅助决策方法及系统 |
CN112162734A (zh) * | 2020-10-23 | 2021-01-01 | 福州大学 | 集成化的机器学习算法库与统一编程框架(面向深度学习) |
CN112183768A (zh) * | 2020-10-23 | 2021-01-05 | 福州大学 | 一种基于语义网的机器学习流程智能组装方法(面向深度学习) |
CN113098832A (zh) * | 2019-12-23 | 2021-07-09 | 四川大学 | 一种基于机器学习的远程缓冲区溢出攻击检测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170178310A1 (en) * | 2015-12-18 | 2017-06-22 | Ricoh Co., Ltd. | Linear Grouping of Recognized Items in an Image |
CN107169572A (zh) * | 2016-12-23 | 2017-09-15 | 福州大学 | 一种基于Mahout的机器学习服务组装方法 |
CN107423823A (zh) * | 2017-08-11 | 2017-12-01 | 成都优易数据有限公司 | 一种基于r语言的机器学习建模平台架构设计方法 |
CN107818344A (zh) * | 2017-10-31 | 2018-03-20 | 上海壹账通金融科技有限公司 | 用户行为进行分类和预测的方法和系统 |
CN108960264A (zh) * | 2017-05-19 | 2018-12-07 | 华为技术有限公司 | 分类模型的训练方法及装置 |
CN109299785A (zh) * | 2018-09-17 | 2019-02-01 | 浪潮软件集团有限公司 | 一种机器学习模型的实现方法及装置 |
-
2019
- 2019-02-22 CN CN201910131216.4A patent/CN109871809A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170178310A1 (en) * | 2015-12-18 | 2017-06-22 | Ricoh Co., Ltd. | Linear Grouping of Recognized Items in an Image |
CN107169572A (zh) * | 2016-12-23 | 2017-09-15 | 福州大学 | 一种基于Mahout的机器学习服务组装方法 |
CN108960264A (zh) * | 2017-05-19 | 2018-12-07 | 华为技术有限公司 | 分类模型的训练方法及装置 |
CN107423823A (zh) * | 2017-08-11 | 2017-12-01 | 成都优易数据有限公司 | 一种基于r语言的机器学习建模平台架构设计方法 |
CN107818344A (zh) * | 2017-10-31 | 2018-03-20 | 上海壹账通金融科技有限公司 | 用户行为进行分类和预测的方法和系统 |
CN109299785A (zh) * | 2018-09-17 | 2019-02-01 | 浪潮软件集团有限公司 | 一种机器学习模型的实现方法及装置 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489344A (zh) * | 2019-08-02 | 2019-11-22 | Oppo广东移动通信有限公司 | 引擎测试方法及相关产品 |
CN113098832A (zh) * | 2019-12-23 | 2021-07-09 | 四川大学 | 一种基于机器学习的远程缓冲区溢出攻击检测方法 |
CN111553386A (zh) * | 2020-04-07 | 2020-08-18 | 哈尔滨工程大学 | 一种基于AdaBoost和CNN的入侵检测方法 |
CN111553386B (zh) * | 2020-04-07 | 2022-05-20 | 哈尔滨工程大学 | 一种基于AdaBoost和CNN的入侵检测方法 |
CN111582498A (zh) * | 2020-04-30 | 2020-08-25 | 重庆富民银行股份有限公司 | 基于机器学习的qa辅助决策方法及系统 |
CN112162734A (zh) * | 2020-10-23 | 2021-01-01 | 福州大学 | 集成化的机器学习算法库与统一编程框架(面向深度学习) |
CN112183768A (zh) * | 2020-10-23 | 2021-01-05 | 福州大学 | 一种基于语义网的机器学习流程智能组装方法(面向深度学习) |
CN112162734B (zh) * | 2020-10-23 | 2022-03-08 | 福州大学 | 一种面向深度学习的模型生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Neelakandan et al. | RETRACTED ARTICLE: An automated exploring and learning model for data prediction using balanced CA-SVM | |
CN109871809A (zh) | 一种基于语义网的机器学习流程智能组装方法 | |
Lundberg et al. | An unexpected unity among methods for interpreting model predictions | |
Xiao et al. | Feature-selection-based dynamic transfer ensemble model for customer churn prediction | |
CN110070117B (zh) | 一种数据处理方法及装置 | |
Liu et al. | Graph pooling for graph neural networks: Progress, challenges, and opportunities | |
CN111667022A (zh) | 用户数据处理方法、装置、计算机设备和存储介质 | |
He et al. | Ensemble multiboost based on ripper classifier for prediction of imbalanced software defect data | |
Li et al. | RTCRelief-F: an effective clustering and ordering-based ensemble pruning algorithm for facial expression recognition | |
Dai et al. | Da-nas: Data adapted pruning for efficient neural architecture search | |
CN110097098A (zh) | 基于基分类器的数据分类方法及装置、介质和电子设备 | |
Zhu et al. | A classification algorithm of CART decision tree based on MapReduce attribute weights | |
Zotov et al. | Towards a digital twin with generative adversarial network modelling of machining vibration | |
Krawczyk et al. | Incremental weighted one-class classifier for mining stationary data streams | |
Zhou et al. | Software defect prediction model based on KPCA-SVM | |
US20150134306A1 (en) | Creating understandable models for numerous modeling tasks | |
Xu et al. | Research on context-aware group recommendation based on deep learning | |
CN110389932A (zh) | 电力文件自动分类方法及装置 | |
Li et al. | IRFAM: Integrated rule-based fuzzy adaptive resonance theory mapping system for watershed modeling | |
CN115035966A (zh) | 基于主动学习和符号回归的超导体筛选方法、装置及设备 | |
Li et al. | A study on customer churn of commercial banks based on learning from label proportions | |
Kochurov et al. | Are hyperbolic representations in graphs created equal? | |
Parvin et al. | Classification ensemble by genetic algorithms | |
Shi et al. | Power missing data filling based on improved k-means algorithm and rbf neural network | |
Kakkad et al. | A role of machine learning algorithm in educational data mining using predictive models: A review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190611 |
|
RJ01 | Rejection of invention patent application after publication |