CN111476274A

CN111476274A - 一种大数据预测分析的方法、系统、装置及存储介质

Info

Publication number: CN111476274A
Application number: CN202010182908.4A
Authority: CN
Inventors: 王永斌; 张忠平; 刘廉如; 傅宇; 曾汉; 毛志慧
Original assignee: Eastone Century Technology Co ltd
Current assignee: Eastone Century Technology Co ltd
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2020-07-31
Anticipated expiration: 2040-03-16
Also published as: CN111476274B

Abstract

本发明公开了一种大数据预测分析的方法、系统、装置及存储介质；所述方法包括采集数据，得到数据集；利用规则拟合算法生成相应规则；对所述数据集中数据的原始属性进行正则化处理；根据所述相应规则和原始属性生成预测模型；计算所述预测模型的参数；根据所述参数获取所述预测模型的权重值集合；根据所述权重值集合计算得出相应的预测分析结果。本发明根据行业数据集的特点，为各行业分析数据集提供一种统一有效的预测分析方法；通过大数据分析方法发现数据中存在的关系和规则，预测事物未来的发展趋势，从而能够提高决策的科学性；同时，能够帮助企业分析未来的数据信息，有效规避风险。本发明广泛应用于数据挖掘技术领域。

Description

一种大数据预测分析的方法、系统、装置及存储介质

技术领域

本发明涉及数据挖掘技术领域，尤其是一种大数据预测分析的方法、系统、装置及存储介质。

背景技术

预测分析是数据挖掘中的一种常用方法，其目的是使用已知属性预测未知值。预测分析也可以评估数据集中某些属性对某些数值属性变化的影响，一般是通过预测目标数值属性的变化趋势，确定其他属性对变化趋势的加权因子来评估影响力。

目前，对行业大数据的预测分析主要有两类方法，一类是遵循专家知识与统计学相结合的经典研究方法，另一类是基于机器学习的研究方法。

对于经典方法，就是根据专家知识和随机输入来确定每次分析的变量，然后使用统计算法进行推断。经典方法都有一些固有的缺陷需要解决：(1)经典方法的研究是费时的，需要很多专家的努力；(2)由于数据集普遍包含大量相互关联、相互作用的数据属性，传统的统计算法不够智能，无法充分挖掘数据属性之间的相关性和交互作用，因此，预测的结果可能是简单和有限的；(3)如果数据来源于问卷调查，这意味着调查表格是由调查者自己设计的，因此数据集中的数据属性可能不足以让研究者根据他们的知识和推论创建模型。

对于机器学习的方法，大多数模型(如神经网络)都无法解释，对于可解释的模型(如决策树)，分析精度一般无法保证，另外从模型中提取模式(我们需要的知识)需要人工进行，这需要很多专业人员的努力。例如线性回归算法假设预测值y和属性x＝(x₁,x₂…x_n)之间的关系是线性的，预测值y可以计算为y＝a₀+a₁x₁+a₂x₂+…+a_nx_n，其中，a₀是除属性x以外影响变量y的所有其他因素的误差项，然而线性回归模型不考虑特征之间的相互作用。

一般的行业调查大数据作为一种经过大量专业设计的权威调查数据集，具有以下特点：(1)数据维数高：一个数据集包含数百个数据属性，对应数百个调查问题；(2)数据质量高：数据发布前过滤异常数据和低质量数据样本(如缺失值)；(3)异构数据：数据集包含连续值属性、离散值属性和枚举值属性；(4)信息丰富：数据集中的数据属性从不同角度描述样本个体的状态和状况。

发明内容

针对上述至少一个技术问题，本发明的目的在于提供一种大数据预测分析的方法、系统、装置及存储介质。

本发明所采取的技术方案是：一方面，本发明实施例包括一种大数据预测分析的方法，包括：

采集数据，得到数据集；

对所述数据集进行预处理，获取所述数据集中数据的原始属性之间的交互作用；

根据所述交互作用，构造决策树模型；

利用所述决策树模型对大数据进行预测分析。

进一步地，所述方法还包括对所述决策树模型进行训练，包括：

构建训练样本集；

获取所述训练样本集以对所述决策树模型进行训练。

进一步地，所述方法还包括对训练好的决策树模型进行优化处理，包括：

采用剪枝处理，以缩小决策树模型的结构规模，缓解过拟合；

或者，

采用手工划分法，以提高决策树模型的预测分析效率。

进一步地，所述原始属性包括数值属性和分类属性。

进一步地，在构造所述决策树模型之前，还包括对所述数据集中数据的原始属性进行正则化处理，所述正则化处理通过以下公式执行：

式中，l_i是个函数，表示对x_i进行最大和最小值限制，x_i表示原始属性，

和

表示每个原始属性x_i的数据分布的δ分位数。

进一步地，所述利用所述决策树模型对大数据进行预测分析这一步骤，具体包括：

计算所述决策树模型的参数；

根据所述参数获取所述预测模型的权重值集合；

根据所述权重值集合中的权重值计算得出数据的预测分析结果。

进一步地，所述决策树模型表述为：

式中，x表示预测的输入，是个P维的向量；F(x)是函数，表示预测的结果；a₀和a_m为模型参数，总共有M+1个；b_i也是模型参数，共有P个；r(x)表示已知的规则，有m条规则，根据每条规则，依据输入的数据x可以得到一个结果。

另一方面，本发明实施例还包括一种大数据预测分析系统，包括：

数据采集模块，用于采集数据，得到数据集；

数据预处理模块，用于对所述数据集进行预处理，获取所述数据集中数据的原始属性之间的交互作用；

模型构造模块，用于根据所述交互作用，构造决策树模型；

预测分析模块，用于利用所述决策树模型对大数据进行预测分析。

另一方面，本发明实施例还包括一种大数据预测分析装置，包括存储器和处理器，所述存储器用于存储至少一个程序，所述处理器用于加载所述至少一个程序以执行所述的一种大数据预测分析方法。

另一方面，本发明实施例还包括一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行所述的一种大数据预测分析方法。

本发明的有益效果是：本发明根据行业数据集的特点，提出了一种适用于大数据挖掘的决策树模型，能够适用于对多种不同类型数据的挖掘，且所述决策树模型构造过程时间短，能够将数据规则可视化，输出的结果容易理解，精度较高；同时，所述模型的学习和分类速度快，对数据原始属性进行正则化处理，提高了模型中输入变量异常值的鲁棒性，本发明通过大数据预测分析方法发现数据中存在的关系和规则，预测事物未来的发展趋势，从而能够提高决策的科学性；同时，能够帮助企业分析未来的数据信息，有效规避风险；在通过大数据的预测性分析之后，无论是个人还是企业，都可以比之前更好地理解和管理大数据。

附图说明

图1为实施例中所述大数据预测分析的方法步骤示意；

图2为具体实施例2所述的决策树模型图。

具体实施方式

如图所示，本实施例包括一种大数据预测分析的方法，该方法包括以下步骤：

S1.采集数据，得到数据集；

S2.对所述数据集进行预处理，获取所述数据集中数据的原始属性之间的交互作用；

S3.根据所述交互作用，构造决策树模型；

S4.利用所述决策树模型对大数据进行预测分析。

所述步骤S1，也就是采集数据这一过程，可通过搭建数据仓库，把数据通过前端埋点，接口日志等调用流数据，利用数据库抓取，也可用户自己上传数据，然后把这些信息基础数据的各种维度保存起来。在数据采集过程中，数据源会影响大数据质量的真实性、完整性、一致性、准确性和安全性，对于web数据，多采用网络爬虫方式进行数据采集，在此过程中需要对爬虫软件进行时间设置以保障采集到的数据的实效性质量。

同时，为了保证大数据分析与预测结果的准确性和价值性，需要进一步地对采集得到的数据进行预处理，也就是步骤S2，大数据的预处理环节主要包括数据清理、数据集成、数据归约与数据转换等内容，可以大大提高大数据的总体质量，是大数据过程质量的体现。数据清理技术包括对数据的不一致检测、噪声数据的识别、数据过滤与修正等方面，有利于提高大数据的一致性、准确性、真实性和可用性等方面的质量。该步骤作为构建决策树模型的数据准备过程，通过对收集到的数据进行清理、相关系分析及数据变换等过程，得到一个适合于决策树处理的数据集，此数据集中即可包含名称型属性，也可包含数值型属性。

所述步骤S3,也就是构造决策树模型的过程，基于决策树的理论，通过选择一个合适的树结构，在每个非终止节点上选择合适的决策规则来构造决策树，例如，本实施例中，根据捕捉到的数据原始属性之间的交互作用，可以提取出对应的规则，例如：r(x)＝ifx₁∈{1,2,3}andx₂<4then 1else 0，从决策树结构中可以转换成多个规则，到树中节点的任何路径都可被视为决策规则，提取到的规则可表述为：

式中，r_m(x)是从原始属性生成一组新的属性的规则，x_i表示原始属性，S_i是原始属性x_i的所有可能值的集合，s_im是S_i的子集，n表示规则中使用的原始属性的数量，I(x_i∈s_im)是一个指示函数，当原始属性x_i位于第i个原始属性的子集中时为1，否则为0。本实施例中，根据所述规则r_m(x)生成的新的属性是二元的，即r_m(x)∈{0,1}。所述原始属性一般包括数值属性和分类属性；对于数值属性，s_im是一个区间，比如属性年龄20≤x_age≤30；对于分类属性，s_im是某些特定类别的子集，比如属性投资x_investment∈{stock,fund}。

作为可选的实施方式，本实施例中还包括对所述决策树模型进行训练，包括：

构建训练样本集；

获取所述训练样本集以对所述决策树模型进行训练。

本实施例中，将整个训练样本集中的训练数据作为所述决策树模型的根节点，如果所有的样本数据都属于同一类，(属性相同)，则所属节点称为树叶，并用该类属性标记；如果样本数据不属于同一类，则选择能够最好将样本数据分类的属性(测试属性)，并对所属测试属性的每个已知的值，创建一个分支，并据此划分样本数据；按照这种方式，递归形成每个划分上的样本数据判定树，所述递归划分步骤仅当下列条件之一成立时停止，条件：(1)给定节点的所有样本数据属于同一类；(2)没有剩余属性可以用来进一步划分样本数据；(3)分枝的测试属性没有样本数据。训练好的决策树预测模型，代表的是对象属性与对象值之间的一种映射关系，树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，而每个叶节点则对应从根节点到该叶节点所经历的路径所表示的对象的值，决策树模型仅有单一输出，若欲有复数输出，可以建立独立的决策树模型以处理不同输出。

进一步地，作为可选的实施方式，本实施例还包括对训练好的决策树模型进行优化处理，包括：

或者，

采用手工划分法，以提高决策树模型的预测分析效率。

由于在构造决策树模型的过程中，处理过的数据可能依然存在着噪声，或者构造的决策树模型中存在着重复的子树等原因，会导致构造的决策树模型过于复杂或难以理解，因此，需要再保证正确率的前提下对构造的决策树模型进行优化处理，以得到一个构造尽量简单的决策树模型，本实施例中，可采用剪枝处理或者手工划分法对所述决策树模型进行优化。本实施例中采用后剪枝的方法，将一些不必要的子树删除而用叶子节点来代替。同时，如果构造的决策树模型过于复杂，且效率低下，可以采用手工划分法来选择某一个或某几个特别感兴趣的属性。

本实施例中，为了提高决策树模型中输入变量异常值的鲁棒性，在构造所述决策树模型之前，还包括对所述数据集中数据的原始属性进行正则化处理，所述正则化处理通过以下公式执行：

l_i是个函数，表示对x_i进行最大和最小值限制，x_i表示原始属性，

和

表示每个原始属性x_i的数据分布的δ分位数，对数据集中的某个属性的值进行排序(就是数据集的对应列)，考虑到数据值有可能异常(不能太大或太小)，一般可以认为中间的一部分是有效的(比如中间的90％是有效的)，如果数值大的部分和数值小的部分各占5％，一般就叫

分位数和

分位数，

和

的值就是中间那90％的上下限。也就是说大于

的数占全部数据的5％，小于的也是。

计算所述决策树模型的参数；

根据所述参数获取所述预测模型的权重值集合；

本实施例中，所述决策树模型可表述为：

式中，x表示预测的输入，是个P维的向量；F(x)是函数，表示预测的结果；a₀和a_m为模型参数，总共有M+1个；b_i也是模型参数，共有P个；r(x)表示已知的规则，有m条规则，根据每条规则，依据输入的数据x可以得到一个结果，其结果一般非0即1。

所述决策树模型的参数可根据模型中损失函数和正则化函数的具体形式直接计算，也可以采用梯度下降法逐渐逼近模型参数，得到模型参数

和

的数值，最终可表示为：θ＝(a₀,a₁,…a_M,b₁,b₂…b_p)，所述θ为描述其他属性对目标属性影响力的权重值集合。最后，根据所述模型权重值集合中的数值可计算出新数据的预测结果。

同时，本实施例中还提供一个评估函数，对所述决策树模型进行预测性能评估，所述评估函数为：

其中N表示训练数据的数量，Y_n是真值，X_n是输入变量的联合值；评估函数中的第一项使用损失函数

测量训练样本的预测风险，是2个数的误差，是个正数，可以采用差的绝对值，或者差的平方和，类似一范数和二范数。第二项R()和第三项R()是正则化项，以模型参数做惩罚，可以是模型参数的某范数(一范数即为参数的绝对值和，二范数为参数的平方和)。λ₁和λ₂是正则化参数，λ₁决定了保持预测模型简单相对于减少训练误差的相对重要性，λ₂平衡与决策规则相同的先验重要性。

本发明基于规则拟合的决策树模型类似于线性模型，不同之处在于，本模型生成了从决策规则派生的新的二元属性，模型的输出包含了所有原始属性和规则及其各自的系数，这些系数表示属性中单位增量的预测值的变化；如公式

所示，如果属性x_i改变一个单位并且其他属性保持不变，则预测的输出改变b_i；类似地，如果决策规则r_m(x)的所有条件都适用，则预测的输出按学习的权重a_m变化。

综上所述，本发明实施例中的一种大数据预测分析的方法具有以下优点：

本发明实施例根据行业数据集的特点，提出了一种适用于大数据挖掘的决策树模型，能够适用于对多种不同类型数据的挖掘，且所述决策树模型构造过程时间短，能够将数据规则可视化，输出的结果容易理解，精度较高；同时，所述模型的学习和分类速度快，对数据原始属性进行正则化处理，提高了模型中输入变量异常值的鲁棒性，本发明通过大数据预测分析方法发现数据中存在的关系和规则，预测事物未来的发展趋势，从而能够提高决策的科学性；同时，能够帮助企业分析未来的数据信息，有效规避风险；在通过大数据的预测性分析之后，无论是个人还是企业，都可以比之前更好地理解和管理大数据。

具体实施例1：

具体地，本实施例提供了一种针对中国综合社会调查(CGSS)数据集的数据预测分析方法。CGSS旨在系统地监测中国社会结构与生活质量之间的关系，本实施例通过探索个人收入与其他因素之间的关系来评估预测分析的有效性。

本实施例选择分析2015年CGSS数据集，其中包含从10968个人收集的10968个数据样本。本实施例从CGSS数据集中选择了45个可能与个人收入相关的属性。

在对采集到的数据进行预处理后，利用规则拟合算法生成相应规则，假设生成以下4个规则：

规则1，个人受教育程度与年收入的相关性最为明显；

规则2，至少接受过中学教育并居住在城市的人口可能有更高的收入；

规则3，至少获得学士学位、年龄在27岁以上的人口可能有更高的收入；

规则4，认为自己的社会阶层高于平均水平、年龄在25岁以上的人口可能有更高的收入。进一步，对所述数据集中数据的原始属性进行正则化处理，每个原始属性x_i正则化后的值l_i(x_i)可以计算为：

式中，x_i表示原始属性，

和

示每个原始属性x_i的数据分布的δ分位数，对数据集中的某个属性的值进行排序(就是数据集的对应列)，考虑到数据值有可能异常(不能太大或太小)，一般可以认为中间的一部分是有效的(比如中间的90％是有效的)，如果数值大的部分和数值小的部分各占5％，一般就叫

分位数和

分位数，

和

的值就是中间那90％的上下限。也就是说大于

的数占全部数据的5％，小于的也是。本实施例取2.5％的最低值和2.5％的最高值，分别设置x_i的2.5％和97.5％的分位数。

进一步，以个人年收入为因变量，其他正则化属性和已有规则均为自变量生成预测模型，生成的预测模型表述为：

此时，对应的评估函数为：

其中，正则化参数λ为经验参数。

进一步，计算所述预测模型的参数，令θ＝(a₀,a₁,…a₄,b₁,b₂…b₄₅)，评估函数对θ求偏导数：

……

……

运用最小二乘法即可获得模型参数。根据模型参数值即可计算出新数据的预测结果，即个人收入。

具体实施例2：

在工程装备发展专家推理系统中，利用所述大数据的预测分析方法对某8种不同型号的战斗工程作业车进行数据采集和分析。依次为：

A1代表耗油量{多、少}；

A2代表作业量{大、中、小}；

A3代表防护能力{强、弱}；

A4代表战斗综合性能评估指数，分别用0、1表示决策属性低、高。

信息表如表1所示。

表l信息表

型号	A1	A2	A3	A4
					1	多	中	弱	0
2	多	大	强	1
					3	多	小	弱	0
4	多	中	强	1
					5	多	小	强	0
6	少	中	强	1
					7	少	小	强	0
8	少	中	弱	0

简要对其进行分析，方法如下：

设训练例子集U含有p个正例和n个反例，则一个例子属于正例集PE的概率为

属于反例集NE的概率为

构造的决策树模型可以看作正、反例集的消息源，产生这些消息所需要的期望信息为：

设属性A取值{A₁,A₂,…，A_r}，它们将U分成r个子集{PN₁,PN₂,…,PN_r}

又设PN_r含有p_r个正例，n_r反例，则尸Ⅳ，则PN_r子数所需要的期望信息为H(p_r,n_r)，而以A为根的树所需要的期望信息为其各个子树所需要的期望信息的加权平均值，即：

按A分支的信息增益为：

gain(A)＝H(p,n)-E(A)。

选择增益最大的属性作为根节点，形成树；然后对子树PN₁，PN₂，…，PN_r以同样的方法处理，递归的形成决策树模型，在这里p＝3,n＝5，则：

H(p,n)＝-(3/8)log₂(3/8)-(5/8)log₂(5/8)＝0.954，

对A1的值分别有：

所以得出：

E(A1)＝(5/8)×0.971+(3/8)×0.918＝0.951，

gain(A1)＝H(p,n)-E(A1)＝0.954-0.952＝0.003；

同理可得：

gain(A2)＝H(p,n)-E(A2)＝0.454，

gain(A3)＝H(p,n)-E(A3)＝0.347，

由此得出本具体实施例中的决策树模型如图2所示，从图2中可以看出在反映该工程作业车的综合性能的时候，作业量是主要影响因素，其次是防护能力，耗油量多少影响最小，所以为了提高该工程作业车的综合作战性能应该在作业量的大小，防护能力的强弱上重点研究发展。

具体实施例3：

我们还可将所述决策树模型应用于交通领域，通过对关于道路与交叉口条件、交通条件、交通负荷以及交通控制与管理等的数据进行分析，来预测城市交叉口的行车延误情况与服务水平，用观测得到的有关绿信比、饱和度、通行能力及服务水平等数据作为训练样本来训练决策树模型，并利用训练好的模型来对道路交叉口的服务水平进行预测分析。

具体地，其实施方式如下：

P1.采集数据，得到数据集；我们可以采集得到关于道路与交叉口条件、交通条件、交通负荷以及交通控制与管理等的数据，并将其整体成数据集。

P2.对所述数据集进行预处理，获取所述数据集中数据的原始属性之间的交互作用；比如，从采集得到的数据集中提取出包括绿信比、饱和度、通行能力等数值型的属性，这些属性可用于评价道路交叉口的服务水平。

P3.根据所述交互作用，构造决策树模型；也就是根据提取得到的数据的原始属性之间的关系，可进一步构造出合适的决策树模型。在此过程中，通过车辆通行过程中存在的延误程度来评估道路交叉口的服务水平。

P4.利用所述决策树模型对大数据进行预测分析；构建好模型之后，利用构建好的决策树模型获取新的输入数据，并对新的数据进行预测分析。

在用训练样本来构造决策树模型的过程中，由于绿信比、饱和度、通行能力等都是数值型的属性，我们把每个数值型属性的最大值和最小值所形成的的值域空间划分成若干个子集，子集的数目可以根据需要设定，在一般情况下，将值域划分为2至3个区间，同时可以用每个区间的中点值来代表相应的子集。

表1给出了用于训练决策树模型的训练样本集的情况，表2给出了使用所述决策树模型进行预测的样本情况及其预测结果。

表1训练样本分布表

服务水平	延误	样本数目
			A	3.1～9.3	5
B	10.7～19.5	53
			C	21.2～29.3	67
D	36.3～47.2	34
			E	57.5～62.4	10
F	80.1～90.7	2

表2预测样本情况及结果

周期时间	绿信比	饱和度	通行能力	实际服务水平	预测服务水平
						134	0.58	0.337	680	B	B
134	0.58	0.061	865	B	B
						134	1	0.13	1488	A	A
110	0.48	0.52	750	E	E
						82	0.54	0.47	784	D	D
124	0.58	0.37	900	B	B

根据表2可知，得到的预测结果与实际的服务水平非常接近，可知所述决策树模型具有较好的预测效果。

本实施例中，还包括一种大数据预测分析系统，包括：

数据采集模块，用于采集数据，得到数据集；

规则生成模块，用于利用规则拟合算法生成相应规则；

正则化处理模块，用于对所述数据集中数据的原始属性进行正则化处理；

模型生成模块，用于根据所述相应规则和原始属性生成预测模型；

参数计算模块，用于计算所述预测模型的参数；

获取模块，用于根据所述参数获取所述预测模型的权重值集合；

结果计算模块，用于根据所述权重值集合计算得出相应的预测分析结果。

所述一种大数据预测分析系统可以是服务器或者个人计算机等设备，通过将所述一种大数据预测分析的方法编写成计算机程序并写入服务器或者个人计算机中，可以得到所述一种大数据预测分析的系统，通过运行该系统，可以实现与所述一种大数据预测分析的方法相同的技术效果。

另一方面，本发明实施例还包括一种大数据预测分析装置，包括存储器和处理器，所述存储器用于存储至少一个程序，所述处理器用于加载所述至少一个程序以执行实施例所述的一种大数据预测分析方法。

所述存储器还可以单独生产出来，并用于存储与所述一种大数据预测分析方法相应的计算机程序。当这个存储器与处理器连接时，其存储的计算机程序将被处理器读取出来并执行，从而实施所述一种大数据预测分析的方法，达到实施例中所述的技术效果。

另一方面，本发明实施例还包括一种存储介质，其中存储有处理器可执行的指令，其特征在于，所述处理器可执行的指令在由处理器执行时用于执行如实施例所述的一种大数据预测分析方法。

需要说明的是，如无特殊说明，当某一特征被称为“固定”、“连接”在另一个特征，它可以直接固定、连接在另一个特征上，也可以间接地固定、连接在另一个特征上。此外，本公开中所使用的上、下、左、右等描述仅仅是相对于附图中本公开各组成部分的相互位置关系来说的。在本公开中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。此外，除非另有定义，本实施例所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本实施例说明书中所使用的术语只是为了描述具体的实施例，而不是为了限制本发明。本实施例所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本实施例描述的过程的操作，除非本实施例另外指示或以其他方式明显地与上下文矛盾。本实施例描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本实施例所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。

计算机程序能够应用于输入数据以执行本实施例所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

以上所述，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同的手段达到本发明的技术效果，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

Claims

1.一种大数据预测分析的方法，其特征在于，包括：

采集数据，得到数据集；

根据所述交互作用，构造决策树模型；

利用所述决策树模型对大数据进行预测分析。

2.根据权利要求1所述的一种大数据预测分析的方法，其特征在于，还包括对所述决策树模型进行训练，包括：

构建训练样本集；

获取所述训练样本集以对所述决策树模型进行训练。

3.根据权利要求2所述的一种大数据预测分析的方法，其特征在于，还包括对训练好的决策树模型进行优化处理，包括：

或者，

采用手工划分法，以提高决策树模型的预测分析效率。

4.根据权利要求1所述的一种大数据预测分析的方法，其特征在于，所述原始属性包括数值属性和分类属性。

5.根据权利要求1所述的一种大数据预测分析的方法，其特征在于，在构造所述决策树模型之前，还包括对所述数据集中数据的原始属性进行正则化处理，所述正则化处理通过以下公式执行：

和

表示每个原始属性x_i的数据分布的δ分位数。

6.根据权利要求1所述的一种大数据预测分析的方法，其特征在于，所述利用所述决策树模型对大数据进行预测分析这一步骤，具体包括：

计算所述决策树模型的参数；

根据所述参数获取所述预测模型的权重值集合；

7.根据权利要求6所述的一种大数据预测分析的方法，其特征在于，所述决策树模型表述为：

8.一种大数据预测分析系统，其特征在于，包括：

数据采集模块，用于采集数据，得到数据集；

模型构造模块，用于根据所述交互作用，构造决策树模型；

9.一种大数据预测分析装置，其特征在于，包括储器和处理器，所述存储器用于存储至少一个程序，所述处理器用于加载所述至少一个程序以执行权利要求1-7任一项所述的方法。

10.一种存储介质，其中存储有处理器可执行的指令，其特征在于，所述处理器可执行的指令在由处理器执行时用于执行如权利要求1-7任一项所述的方法。