CN109783633B

CN109783633B - 数据分析服务流程模型推荐方法

Info

Publication number: CN109783633B
Application number: CN201811510295.1A
Authority: CN
Inventors: 王伟; 曹健
Original assignee: Jiangyin Zhuri Information Technology Co ltd
Current assignee: Jiangyin Zhuri Information Technology Co ltd
Priority date: 2018-12-11
Filing date: 2018-12-11
Publication date: 2023-03-24
Anticipated expiration: 2038-12-11
Also published as: CN109783633A

Abstract

本发明一种数据分析服务流程模型推荐方法，其特征在于，其包括：从OpenML下载数据集、模型及模型运行信息，其中数据集中可用于模型推荐的信息有数据集的数据信息和数据集的文本描述信息；对数据集进行预处理；提取预处理后的数据集的数据特征；基于预处理后的数据集的文本描述信息提取数据集文本描述特征；利用预处理后的数据集的数据特征和文本描述特征构建SVM模型类型分类器，得到模型类型；利用协同过滤算法计算预处理后的数据集的数据特征和文本描述特征的相似性，根据相似性和模型类型推荐模型。本发明数据分析服务流程模型其拥有丰富的数据集信息，通过数据集信息的特征比较挖掘，往往能使得模型推荐拥有更好的效果。

Description

数据分析服务流程模型推荐方法

技术领域

本发明涉及数据分析服务技术领域，特别是涉及一种数据分析服务流程模型推荐方法。

背景技术

工作流(服务流程)模型推荐，现有主要分为传统的业务工作流模型推荐和随着数据挖掘、大数据兴起的数据分析工作流模型推荐。

对于传统的业务工作流模型推荐，各种研究已较为完善，算法已较为成熟。目前主流的算法主要分为：分类(Classification)、概率图模型(Probabilistic GraphicalModels)。其中分类又主要分为：聚类(Clustering methods)、决策树(Decision trees)。概率图模型又分为贝叶斯网络(Bayesian networks)、马尔科夫链(Markov Chains)。它们都能较好的进行业务工作流模型的推荐。

而对于数据分析工作流模型推荐，一开始研究者们纷纷借鉴了业务工作流模型推荐的方法。在用户设计模型时，对模型进行解析，与数据库中模型进行比较，为用户推荐模型下一步构建步骤。常见的方法有：上下文感知的KNN方法(A Context-Aware kNNMethod)、上下文感知共现方法(A Context-Aware Co-Occurrence Method)、基于链接的方法(A Linked-Based Method)、基于链的方法(A Chain-Based Method)等等。

以上方法将传统的模型推荐算法结合上下文信息，应用于数据服务流程模型推荐上，确实提高了推荐的准确率，但其同时也存在一些问题：只考虑了模型的信息，但是数据分析工作流与传统的业务工作流不同，还需要考虑数据的特征。

发明内容

本发明针对现有技术存在的问题和不足，提供一种新型的数据分析服务流程模型推荐方法。

本发明是通过下述技术方案来解决上述技术问题的：

本发明提供一种数据分析服务流程模型推荐方法，其特点在于，其包括以下步骤：

S1、从OpenML下载数据集、模型及模型运行信息，其中数据集中可用于模型推荐的信息有数据集的数据信息和数据集的文本描述信息；

S2、对数据集进行预处理；

S3、提取预处理后的数据集的数据特征；

S4、基于预处理后的数据集的文本描述信息提取数据集文本描述特征；

S5、利用预处理后的数据集的数据特征和文本描述特征构建SVM模型类型分类器，得到模型类型；

S6、利用协同过滤算法计算预处理后的数据集的数据特征和文本描述特征的相似性，根据相似性和模型类型推荐模型。

较佳地，步骤S2包括：

S21、过滤数据集信息，对于数据集在模型中运行次数少于100次的数据集进行排除；

S22、标注各个数据集上的最佳模型，最佳模型主要有两方面影响因子：数据集在模型中运行得到的准确率accuracy和模型被用户运行次数runTime，根据如下公式进行归一化处理，并得到评分最高的最佳模型scor：

其中，A为准确率，R为单个模型运行次数，R'为数据集上所有模型总运行次数，α和β为归一化因子。

较佳地，步骤S3包括：对预处理后的数据集进行统计分析以分析出数据集的数据特征，如数据集实例数目、数据集属性数目、数字属性数目、文本属性数目等。

较佳地，步骤S4包括：

S41、对于文本信息进行分词，英文按照空格分词，中文使用分词工具来进行分词；

S42、将分词后的文本数据转换为TF-IDF特征向量或NLP特征向量。

较佳地，在步骤S6中，利用TF-IDF向量和数据集特征值进行协同过滤，得到数据集集合中与该数据集的相似矩阵，判断其数据集的最佳模型是否属于由SVM所得的模型类型，得到相似性最高的k个数据集的最佳模型。

在符合本领域常识的基础上，上述各优选条件，可任意组合，即得本发明各较佳实例。

本发明的积极进步效果在于：

本发明相比起传统的业务工作流模型，数据分析服务流程模型其拥有丰富的数据集信息，通过数据集信息的特征比较挖掘，往往能使得模型推荐拥有更好的效果。

本发明对于数据分析服务流程，其文本描述信息常常包含着其设计者所需达到的目标或是偏好，如其可能更加偏向非误率等，这些信息对于模型推荐的结果有很大的影响，需将其考虑在内，用以提高模型推荐的准确率。

附图说明

图1为本发明较佳实施例的数据分析服务流程模型推荐方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

当前数据分析服务在许多领域已经变得至关重要。但同时，由于数据和方法的多样性，执行数据分析可能是一项非常复杂的任务。例如数据分析中经典的案例——尝试预测数据内存在异常情况时的信用风险，其模型便十分复杂。一般这些数据分析服务工作流模型都是由专业的数据分析人员进行建立的，对于经验不足的人员来说，建立此数据分析服务工作流模型是一件具有挑战性的任务。而对于经验丰富的专业人员来说，这项任务同时也是十分费时费力的。

与此同时，由于数据分析模型的多样性，用户想找到相似的模型进行借鉴或者复用时，也往往十分困难。如在流行的数据分析服务平台OpenML上，用户在上面上传数据集，对数据集创建相应的数据分析任务，构建模型，并挑选模型在数据集上运行、分析。但在OpenML上其存在着20,000左右用户上传的数据集，针对这些数据集用户创建了68,000左右的数据分析任务，并且构建约6,000个左右模型，在这些数据集上共运行了9,000,000次模型。用户如果想要通过数据集的相似性或者模型的运行记录来人工挑出一个符合当前数据集的模型，过程将十分困难并浪费精力。

因此对于数据分析人员进行专业和符合需求的数据分析工作流模型推荐是十分必要的。其一方面可以节省分析人员的时间，另一方面可以复用过去已建立的模型，无需用户自己从头构建模型，对建好的模型重复使用，节省成本。当前研究和市场上，也已经存在有相关的产品，如Microsoft的Azure机器学习平台和德国的RapidMiner数据挖掘平台。但它们都或多或少存在一些不足之处或者可改进的地方，如RapidMiner通过用户在设计数据分析工作流模型的过程中，针对用户当前所设计完成的步骤，通过算法和库中存在的模型进行比较，然后为用户推荐模型下一步的设计方案。但是，其没将数据的上下文信息考虑在内，即数据的特征和用户的对分析结果的偏好(如非误率等)，而这些信息对于模型推荐的准确率的影响是十分之大的。比如，两个数据集如果具有相似的特征，那么他们的数据分析工作流模型就有可能是相似的，可以复用的。同时，对于模型而言，其一般存在着文本语义标签，用以对于模型进行描述。因此在设计模型时，同样可以通过文本语义进行推荐，提高准确率和效率。

本发明对于数据分析服务模型推荐，从每个用户最基本的上传信息入手，即数据集数据和文本描述信息。相比传统的在用户建模过程中推荐下一步应该如何构建，本发明通过数据集数据和文本描述信息在一开始为用户进行推荐，其一方面节省用户的时间，不需要从头开始构建自己的数据分析服务流程模型，另一方面也可和传统的建模过程中模型推荐相互补充。

如图1所示，本实施例提供一种数据分析服务流程模型推荐方法，其包括以下步骤：

步骤101、从OpenML下载数据集、模型及模型运行信息，其中数据集中可用于模型推荐的信息有数据集的数据信息和数据集的文本描述信息；

步骤102、对数据集进行预处理。

具体地，首先过滤数据集信息，对于数据集在模型中运行次数少于100次的数据集，因为其信息不足，进行排除。然后标注各个数据集上的“最佳模型”，在此考虑最佳模型主要有两方面影响因子：数据集在模型中运行得到的准确率accuracy和模型被用户运行次数runTime。可以根据如下公式进行归一化处理，并得到评分最高的最佳模型scor。

当然定义模型运行好坏与否不一定只取决于运行得到的准确率，还有模型的ROC曲线等，其也可以类比带入公式，并将其扩展。

一般为取最佳运行效果或最多运行次数，故根据各个模型取出此两种评价因子，然后计算评分，即可得到各个数据集对应的最佳模型。

步骤103、提取预处理后的数据集的数据特征。

对预处理后的数据集进行统计分析，参考OpenML可得到119个特征。利用这些特性可以得知数据集的一些特性，如数据集实例数目，数据集属性数目，数字属性数目，文本属性数目等。同时，这些特征本身也都属于数字特征，故可以很直接的用于后面的协同过滤推荐中。

步骤104、基于预处理后的数据集的文本描述信息提取数据集文本描述特征。

对于同类数据集的文本描述信息，其往往隐藏着相似的信息，如数据集来源、用户偏好等等。对于文本信息挖掘，其第一步便是进行分词。对于英文，其天然有空格隔开，可以按照空格分词。而对于中文则需要使用相应的算法来进行分词，可以使用现成的分词工具jieba等。由于本实验采用基于OpenML的数据集，其文本描述信息英文直接分词便可，但需要处理无用的介词，如on等，将其筛选掉，减少无用信息。

第二步便是特征工程。在这一步，将分词后的文本数据转换为特征向量。为了从文本数据中选出重要的特征，有以下几种方式：计数向量作为特征，TF-IDF向量作为特征，词嵌入作为特征，基于文本NLP的特征，主题模型作为特征等等。

本文推荐采用TF-IDF向量或NLP。TF-IDF(Term Frequency-Inverse DocumentFrequency,词频-逆文件频率)是一种常用于资讯检索与资讯探勘的加权技术。TF-IDF采用统计方法，用以表示字词在文件集中的一份文件的重要程度，当该字词在本文件出现频率越高，同时在整个文件集中出现频率越低，该字词就越加重要，越能代表该文件。即TF-IDF与一个词语在一篇文章中出现次数成正相关，与在所有文章中出现次数成负相关。

其中，TF(term frequency，词频)指的是某一个给定的词语在给定的该文件中出现的频率。IDF(inverse document frequency，逆向文件频率)指的是如果包含词条t的文件总数越少,IDF越大，说明词条具有很好的类别区分能力。其公式可表示如下：

TF-IDF＝TF*IDF (4)

并且，由于一般分词后词语数量较多，如果取所有词语进行TF-IDF向量计算，则一是特征值过多，后面协同过滤计算也较慢；二是特征过于稀疏，故一般取TF-IDF值前M个词语进行代表该文本的TF-IDF值。

步骤105、利用预处理后的数据集的数据特征和文本描述特征构建SVM模型类型分类器，得到模型类型。

利用之前创建的数据集数据和文本特征可以训练一个分类器，用来判断数据集属于哪种类型的问题。常用的方法有SVM，KNN，LLSF，NNet等。其中，用SVM算法来进行分类器的训练能取得较好的结果。

SVM算法有很坚实的理论基础，SVM算法的本质是解决一个二次规划问题(Quadruple Programming)，用其进行文本分类效果很好，是最好的分类器之一。同时SVM算法可以使用核函数将原始的样本空间向高维空间进行变换，进而能够解决原始样本线性不可分的问题。

通过SVM训练特征为TF-IDF向量的文本，预测数据集所属的模型类型，一般有分类、回归、聚类、子集划分等几种模型类型。

步骤106、利用协同过滤算法计算预处理后的数据集的数据特征和文本描述特征的相似性，根据相似性和模型类型推荐模型。

通过利用以上的文本分析所得的数据集所属模型类型，TF-IDF文本特征向量，数据集特征值进行协同过滤得到推荐模型。即先利用TF-IDF向量和数据集特征值进行协同过滤，然后得到数据集集合中与该数据集的相似矩阵，然后判断其数据集的最佳模型是否属于由SVM所得的模型类型，然后得到相似性最高的k个数据集的最佳模型。

其中，文本相似性的公式可以由如下表示：

common(A,B)是描述文本A和B的共性信息，description(A,B)是描述A和B的全部信息,从公式(1)可以看出相似度与文本共性成正相关。

而对于协同过滤而言，协同过滤是利用集体智慧的一个典型方法，其主要目的便是预测和推荐。协同过滤算法的核心思想便是：人以类聚，物以群分。其通过对用户历史行为数据进行挖掘，发现用户的偏好，基于用户不同的偏好为用户进行群组划分，并且为各个群组推荐符合用户偏好的商品。

协同过滤算法主要可以分为两类：基于用户的协同过滤算法(user-basedcollaborative filtering)和基于用户的协同过滤算法(item-based collaborativefiltering)。

其中，协同过滤算法最重要的便是相似度的度量。相似性的度量的方法有很多种，不同的度量方法适用于不同的应用。相似性度量方法的设计也是机器学习算法设计中很重要的一部分，尤其是对于聚类算法，推荐系统这类算法。

相似性的度量方法必须满足拓扑学中的度量空间的基本条件：

假设d是度量空间M上的度量：d：M×M→R，其中度量d满足：

非负性：d(x，y)≥0，当且仅当x＝y时取等号；

对称性：d(x，y)＝d(y，x)；

三角不等性：d(x，z)≤d(x，y)+d(y，z)

协同过滤主要有三种相似性的度量方法：欧式距离、皮尔逊相关系数和余弦相似度。

欧式距离，即欧几里德距离(Euclidean Distance)最初用于计算欧几里德空间中两个点的直线距离。假设点x和y是n维空间的两个点，它们之间的欧几里德距离计算公式为：

可以看出，当n＝2时，欧几里德距离即为平面上两个点的直线距离。用欧几里德距离表示相似度时，一般采用公式(3)进行转换：

由公式可以看出，当x，y间距离越小，它们的相似度便越大。

皮尔逊相关系数(Pearson Correlation Coefficient)则一般用于计算两个定距变量间联系的紧密程度，它的取值在[-1，+1]之间。在欧氏距离的计算中，不同特征之间的量级对欧氏距离的影响比较大，例如A＝(0.05，1)，B＝(1，1)和C＝(0.05，4)，我们就不能很好的利用欧式距离判A和B，A和C之间的相似性的大小。而皮尔逊相似性的度量就对量级不敏感：

s_x，s_y是x和y的样品标准差。

余弦相似性(Cosine Similarity)则为计算两个向量的夹角，有着与皮尔逊相似度同样的性质，对量级不敏感，被广泛应用于计算文档数据的相似度：

以OpenML上数据集anneal(id＝2)进行验证并进行模型推荐为例子。

对其数据集数据特征提取，可得到所示：数据集名称为Credit-g，实例数目为898，属性数目为39，数字属性数目为6，文本属性数目为33等等。

对其文本描述信息进行特征提取，转化为TF-IDF向量，可分别得到单词坐标和对应的TF-IDF值：(0，2340)，0.0804；(0，869)，0.1040；(0，745)，0.088；(0，2326)，0.2317。

然后通过代入SVM分类器，得到模型类型为有监督分类(SupervisedClassification)。

最后，利用欧氏距离处理TF-IDF向量，利用余弦相似度处理数据集数据特征，协同过滤得到推荐模型Top1为：weka.J48(1)。Top5为：weka.J48(1),weka.SMO_RBFKernel,weka.ZeroR(1),weka.RandomForest(1),wek a.weka.NaiveBayes(1)。而通过分析任务运行信息得出的定义最佳模型为：weka.J48(1)，故通过模型推荐结果符合实际情况。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种数据分析服务流程模型推荐方法，其特征在于，其包括以下步骤：

S1、从OpenML下载数据集、模型及模型运行信息，其中数据集中用于模型推荐的信息有数据集的数据信息和数据集的文本描述信息；

S2、对数据集进行预处理；

S3、提取预处理后的数据集的数据特征；

S6、利用协同过滤算法计算预处理后的数据集的数据特征和文本描述特征的相似性，根据相似性和模型类型推荐模型；

在步骤S6中，利用TF-IDF向量和数据集特征值进行协同过滤，得到数据集集合中与该数据集的相似矩阵，判断其数据集的最佳模型是否属于由SVM所得的模型类型，得到相似性最高的k个数据集的最佳模型。

2.如权利要求1所述的数据分析服务流程模型推荐方法，其特征在于，步骤S2包括：

α+β＝1

3.如权利要求1所述的数据分析服务流程模型推荐方法，其特征在于，步骤S3包括：对预处理后的数据集进行统计分析以分析出数据集的数据特征，所述数据集的数据特征包括：数据集实例数目、数据集属性数目、数字属性数目、文本属性数目。

4.如权利要求1所述的数据分析服务流程模型推荐方法，其特征在于，步骤S4包括：