CN105354198A

CN105354198A - 一种数据处理方法及装置

Info

Publication number: CN105354198A
Application number: CN201410409716.7A
Authority: CN
Inventors: 廖振松; 熊胜; 吴勤华; 杨晶蕾; 冯文仲; 黄艳; 沈力; 伍丹
Original assignee: China Mobile Group Hubei Co Ltd
Current assignee: China Mobile Group Hubei Co Ltd
Priority date: 2014-08-19
Filing date: 2014-08-19
Publication date: 2016-02-24
Anticipated expiration: 2034-08-19
Also published as: CN105354198B

Abstract

本发明公开了一种数据处理方法，确定模型库中存在与输入数据对应的应用模型时，对输入数据进行数据筛选；依据所述应用模型对应的组合分类算法对数据的要求，对筛选后的数据进行数据变换；依据所述组合分类算法对变换后的数据进行数据处理。本发明还同时公开了一种数据处理装置。

Description

一种数据处理方法及装置

技术领域

本发明涉及互联网领域中的数据处理技术，尤其涉及一种数据处理方法及装置。

背景技术

随着信息技术的迅猛发展以及人们获取信息手段的多样化，社会各行各业都拥有大量的信息数据。电信运营商的数据仓库中已经累积大量原始数据未得以利用，运营商在经营过程中，已经出现了大量客户流失和业务收入下滑的现象。在使用现有业务支撑系统外，更多的只能是通过相关报表看到这些现象发生的结果，再采取相应的措施，并不能有一个事先的预警，以至于不能及时采取相应的战略调整。而且，目前的业务支撑系统的数据处理速度和响应时间较慢，因此，也导致管理层和决策层都不能及时地得到数据结果。

综上所述，提供一种通用性强、能够高效处理海量数据的大数据处理方法是目前亟待解决的问题。

发明内容

有鉴于此，本发明实施例期望提供一种数据处理方法及装置，能够迅速地处理海量数据的丰富信息，通用性强、可靠性高。

为达到上述目的，本发明的技术方案是这样实现的：

本发明实施例提供了一种数据处理方法，所述方法包括：

确定模型库中存在与输入数据对应的应用模型时，对输入数据进行数据筛选；

依据所述应用模型对应的组合分类算法对数据的要求，对筛选后的数据进行数据变换；

依据所述组合分类算法对变换后的数据进行数据处理。

上述方案中，所述确定模型库中存在与输入数据对应的应用模型包括：对输入数据进行抽样，确定样本数据的关键字，将样本数据的关键字与模型库中关键字进行匹配，匹配成功时，确定存在与所述输入数据对应的应用模型。

上述方案中，所述对输入数据进行数据筛选包括：依据所述应用模型对应的关键字对输入数据进行数据提取，并对提取的数据进行数据清洗及数据审核，直至审核通过。

上述方案中，对筛选后的数据进行数据变换包括：

依据所述应用模型对应的组合分类算法对数据的要求，对筛选后的数据进行对象聚焦及降维处理，对降维后的连续数据进行等距离散化及变量变换，确定变量变换后的数据不满足预设条件时，重复上述处理过程，直至变量变换后的数据满足预设条件。

本发明实施例还提供了一种数据处理装置，所述装置包括：第一筛选模块、第一数据变换模块、第一处理模块及第一模型库；其中，

所述第一筛选模块，用于在确定模型库中存在与输入数据对应的应用模型时，对输入数据进行数据筛选；

所述第一数据变换模块，用于对筛选后的数据进行数据变换；

所述第一处理模块，用于依据所述应用模型对应的组合分类算法对数据变换后的数据进行数据处理；

所述第一模型库，用于存储不同应用类型的应用模型。

上述方案中，所述装置还包括第一匹配模块，用于对输入数据进行抽样，确定样本数据的关键字，将所述关键字与模型库中关键字进行匹配，确定是否存在与所述输入数据对应的应用模型。

上述方案中，所述第一筛选模块对输入数据进行数据筛选包括：

所述第一筛选模块依据所述应用模型对应的关键字对输入数据进行数据提取，并对提取的数据进行数据清洗及数据审核，直至审核通过。

上述方案中，所述第一数据变换模块对筛选后的数据进行数据变换包括：

所述第一数据变换模块对筛选后的数据进行对象聚焦及降维处理，对降维后的连续数据进行等距离散化及变量变换，确定变量变换后的数据不满足预设条件时，重复上述处理过程，直至变量变换后的数据满足预设条件。

本发明实施例还提供了一种数据处理方法，所述方法包括：

确定模型库中不存在与输入数据对应的应用模型时，对输入数据进行数据筛选；

获取所述输入数据对应的近似最优组合分类算法；

依据所述近似最优组合分类算法进行模型训练，并对输入数据进行模型实施，直至获取满足要求的组合分类算法模型；

对所述组合分类算法模型进行模型评估，评估通过时，将所述组合分类算法模型加入模型库；

其中，所述组合分类算法模型用于对后续输入数据进行处理。

上述方案中，所述对输入数据进行数据筛选包括：依据样本数据的关键字对输入数据进行数据提取，并对提取的数据进行数据清洗及数据审核，直至审核通过。

上述方案中，所述依据所述近似最优组合分类算法进行模型训练之前，所述方法还包括：依据所述近似最优组合分类算法对数据的要求，对筛选后的数据进行数据变换。

上述方案中，所述获取所述输入数据对应的近似最优组合分类算法包括：

依据输入数据的统计特性及字段属性在算法库中选择满足要求的分类算法，并依据遗传算法确定所述输入数据对应的近似最优组合分类算法。

本发明实施例还提供了一种数据处理装置，所述装置包括第二筛选模块、获取模块、第二处理模块、评估模块及第二模型库；其中，

所述第二筛选模块，用于确定模型库中不存在与输入数据对应的应用模型时，对输入数据进行数据筛选；

所述获取模块，用于获取所述输入数据对应的近似最优组合分类算法；

所述第二处理模块，用于依据所述近似最优组合分类算法进行模型训练，并对输入数据进行模型实施，直至获取满足要求的组合分类算法模型；

所述评估模块，用于对所述组合分类算法模型进行模型评估，评估通过时，将所述组合分类算法模型加入模型库；

所述第二模型库，用于存储不同应用类型的应用模型；

上述方案中，所述第二筛选模块对输入数据进行数据筛选包括：所述第二筛选模块依据样本数据的关键字对输入数据进行数据提取，并对提取的数据进行数据清洗及数据审核，直至审核通过。

上述方案中，所述装置还包括第二数据变换模块，依据所述近似最优组合分类算法对数据的要求，对筛选后的数据进行数据变换。

上述方案中，所述获取模块获取所述输入数据对应的近似最优组合分类算法包括：所述获取模块依据输入数据的统计特性及字段属性在算法库中选择满足要求的分类算法，并依据遗传算法确定所述输入数据对应的近似最优组合分类算法。

本发明实施例所提供的数据处理方法及装置，确定模型库中存在与输入数据对应的应用模型时，对输入数据进行数据筛选；依据所述应用模型对应的组合分类算法对数据的要求，对筛选后的数据进行数据变换；依据所述组合分类算法对变换后的数据进行数据处理；或者，确定模型库中不存在与输入数据对应的应用模型时，对输入数据进行数据筛选；获取所述输入数据对应的近似最优组合分类算法；依据所述近似最优组合分类算法对数据的要求，对所述输入数据进行数据变换；并依据所述近似最优组合分类算法对变换后的数据进行模型训练及模型实施，直至获取满足要求的组合分类算法模型；对所述组合分类算法模型进行模型评估，评估通过时，将所述组合分类算法模型加入模型库，并依据所述组合分类算法对后续输入数据进行处理。如此，能够提高海量数据处理的准确性，短时间内高效的处理海量数据，可靠性高、通用性强。

附图说明

图1为本发明实施例一数据处理方法流程示意图；

图2为本发明实施例二数据处理方法流程示意图；

图3为本发明实施例三数据处理方法流程示意图；

图4为本发明实施例四数据处理方法流程示意图；

图5为本发明实施例一数据处理装置组成结构示意图；

图6为本发明实施例二数据处理装置组成结构示意图。

具体实施方式

在本发明实施例中，确定模型库中存在与输入数据对应的应用模型时，对输入数据进行数据筛选；依据所述应用模型对应的组合分类算法对数据的要求，对筛选后的数据进行数据变换；依据所述组合分类算法对变换后的数据进行数据处理；或者，确定模型库中不存在与输入数据对应的应用模型时，对输入数据进行数据筛选；获取所述输入数据对应的近似最优组合分类算法；依据所述近似最优组合分类算法对数据的要求，对所述输入数据进行数据变换；并依据所述近似最优组合分类算法对变换后的数据进行模型训练及模型实施，直至获取满足要求的组合分类算法模型；对所述组合分类算法模型进行模型评估，评估通过时，将所述组合分类算法模型加入模型库，并依据所述组合分类算法对后续输入数据进行处理。

图1为本发明实施例一数据处理方法流程示意图，如图1所示，本实施例数据处理方法流程包括：

步骤101：确定模型库中存在与输入数据对应的应用模型时，对输入数据进行数据筛选；

这里，所述确定模型库中存在与输入数据对应的应用模型包括：对输入数据进行抽样，确定样本数据的关键字，将样本数据的关键字与模型库中关键字进行匹配，匹配成功时，确定存在与所述输入数据对应的应用模型；

这里，所述模型库中包括不同应用类型的应用模型，如换机应用类型包括：换机推荐模型、安全预警模型等。

具体的，所述对输入数据进行抽样，确定样本数据的关键字包括：

先采用自适应渐进抽样法对输入数据进行抽样，得到n维样本数据X＝{x₁,x₂,...,x_n}；

再依据公式对样本数据进行主成分分析，当S矩阵的特征值λ₁≥λ₂≥...≥λ_m≥...≥λ_n的前m个特征值之和占总特征值之和的比率达到预设条件时，选择与前m个特征值对应的字段为关键字；

这里，其中，S_ij为x_i和x_j的协方差，i∈[1，n]，j∈[1，n]，n为样本数据的个数，为正整数，优选的，n小于100；所述预设条件可以为前m个特征值之和占总特征值之和的比率达到90％以上。

所述将样本数据的关键字与模型库中关键字进行匹配包括：按照特征值由大到小的顺序，依次为模型库中每个应用模型对应的关键字分配权值；将样本数据的关键字与模型库中关键字进行匹配，并记录匹配关键字的权值之和Q；若Q超过阈值T，则匹配成功，即确定模型库中存在与所述输入数据对应的应用模型为所述匹配成功的关键字对应的应用模型；这里，所述T的大小可以依据多次试验确定。

所述对输入数据进行数据筛选包括：依据所述应用模型对应的关键字对输入数据进行数据提取，并对提取的数据进行数据清洗及数据审核，直至审核通过；

其中，所述对提取的数据进行数据清洗及数据审核，直至审核通过包括：

对提取的数据进行K均值聚类，根据聚类结果判断出明显离群点和重复数据点，将离群点和重复数据点删除；对于不一致数据点以及缺失数据点，以所述不一致数据点的样本均值及所述缺失数据点的样本均值进行估计，完成数据清洗；随机抽取部分清洗过的数据作为检测数据，利用切比雪夫定理利用检测数据的均值，标准差和置信区间识别异常数据，当检测数据错误率低于阈值T₀时，审核通过；否则重复进行数据清洗及审核，直至审核通过；这里，所述部分清洗过的数据可以为占总体1/4的清洗过的数据；所述阈值T₀可以为0.5％；

进一步的，对输入数据进行数据筛选之后，所述方法还包括：

确定磁盘空间满足存储要求时，将筛选后的数据存储至所述磁盘；确定磁盘空间不满足存储要求时，对筛选后的数据进行分片，将分片数据进行分布式发送至指定终端；

这里，所述对筛选后的数据进行分片，将分片数据进行分布式发送至指定终端包括：依据用户标识和时间对筛选后的数据进行分片，并将分片数据进行分布式发送至指定终端进行存储及处理。

步骤102：依据所述应用模型对应的组合分类算法对数据的要求，对筛选后的数据进行数据变换；

这里，所述应用模型与组合分类算法为一一对应关系；

本步骤具体包括：依据所述应用模型对应的组合分类算法对数据的要求，对筛选后的数据进行对象聚焦及降维处理，对降维后的连续数据进行等距离散化并进行变量变换，以满足所述组合分类算法对数据格式的要求，确定变量变换后的数据无效时，重复上述处理过程，直至确定变量变换后的数据有效；

这里，所述应用模型对应的组合分类算法对数据的要求包括：数据的输入输出格式完全相同；

所述组合分类算法可以为将逻辑回归、决策树和人工神经网络算法进行的组合；

所述对筛选后的数据进行降维处理包括：依据协方差矩阵对筛选后的数据进行降维处理；

所述确定变量变换后的数据有效包括：随机抽取部分离散化后的数据，计算所述数据离散化前后的信息增益，如果所得信息增益小于阈值T₁，确定变量变换后的数据有效；否则，确定变量变换后的数据无效；其中，所述部分离散化后的数据可以为1/3离散化后的数据；所述阈值T₁可通过多次试验确定；

所述变量变换可以包括：变量的标准化变换及相似度转换等。

步骤103：依据所述组合分类算法对变换后的数据进行数据处理；

这里，所述对变换后的数据进行数据处理具体为：对变换后的数据进行分类数据处理；

本步骤之后，所述方法还包括：发布数据分析结果，并将所述分析结果发送至数据输入端；其中，所述数据分析结果可以包括：换机推荐用户、安全警示信息等。

图2为本发明实施例数据处理方法流程示意图，如图2所示，本实施例数据处理方法流程包括：

步骤201：确定模型库中不存在与输入数据对应的应用模型时，对输入数据进行数据筛选；

这里，所述确定模型库中不存在与输入数据对应的应用模型包括：对输入数据进行抽样，确定样本数据的关键字，将所述关键字与模型库中关键字进行匹配，匹配不成功时，确定存在与所述输入数据对应的应用模型；

其中，所述模型库中包括不同应用类型的应用模型，如换机应用类型包括：换机推荐模型、安全预警模型等。

所述将样本数据的关键字与模型库中关键字进行匹配包括：按照特征值由大到小的顺序，依次为模型库中每个应用模型对应的关键字分配权值；将样本数据的关键字与模型库中关键字进行匹配，并记录匹配关键字的权值之和Q；若Q超过阈值T，则匹配成功，即确定模型库中存在与所述输入数据对应的应用模型为所述匹配成功的关键字对应的应用模型；这里，所述阈值T的大小可以依据多次试验确定。

所述对输入数据进行数据筛选包括：依据所述样本数据的关键字对输入数据进行数据提取，并对提取的数据进行数据清洗及数据审核，直至审核通过；

步骤202：获取所述输入数据对应的近似最优组合分类算法；

本步骤具体包括：依据输入数据的统计特性及字段属性在算法库中选择满足要求的分类算法，并依据遗传算法确定所述输入数据对应的近似最优组合分类算法；

这里，所述统计特性可以为：概率分布或均值或方差等；

所述字段属性可以为：数值型或布尔型或文本型等；

所述算法库中包含不同的数据分类算法；

所述依据遗传算法确定所述输入数据对应的近似最优组合分类算法包括：

利用选择的满足要求的分类算法对筛选后的数据进行分类，并计算分类的准确率，利用一元线性回归方程作为适应度函数f(x)描述分类的准确率，根据比例选择原则选择染色体产生下一代，通过染色体的交叉和变异产生下一代，直到达到第M代，获得所述输入数据对应的近似最优组合分类算法；

其中，M为正整数，通过多次测试确定；

所述利用一元线性回归方程作为适应度函数f(x)描述分类的准确率，以使适应度函数值与每个分类算法的分类准确率成正比；

所述根据比例选择原则选择染色体，即算法x_i被选中的概率为f(x_i)/(f(x₁)+f(x₂)+...+f(x_n))。

步骤203：依据所述近似最优组合分类算法进行模型训练，并对输入数据进行模型实施，直至获取满足要求的组合分类算法模型；

本步骤之前，所述方法还包括：依据所述近似最优组合分类算法对数据的要求，对筛选后的数据进行数据变换；具体包括：依据所述近似最优组合分类算法对数据的要求，对筛选后的数据进行对象聚焦及降维处理，对降维后的连续数据进行等距离散化并进行变量变换，以满足所述组合分类算法对数据格式的要求，确定变量变换后的数据无效时，重复上述处理过程，直至确定变量变换后的数据有效；

这里，所述对筛选后的数据进行降维处理包括：依据协方差矩阵对筛选后的数据进行降维处理；

本步骤具体包括：采用随机简单抽样法对数据变换后的数据抽样，样本总数为N，将抽样数据作为训练集，对所述近似最优组合分类算法进行初始参数配置，初始参数Pi设置为1/k；对训练集数据进行模型训练，直至模型训练所得的分类误差率小于阈值T₂；利用训练后的模型对输入数据进行分类数据处理，直至数据处理结果的误差率小于阈值T₂，获取满足要求的组合分类算法模型；这里所述阈值T₂可以为0.5％；k为选中的分类算法个数，为正整数。

步骤204：对所述组合分类算法模型进行模型评估，评估通过时，将所述组合分类算法模型加入模型库；

这里，所述对所述组合分类算法模型进行模型评估包括：

令数据集合D＝{(x₁,y₁),(x₂,y₂),...,(x_n,y_n)}是由输入向量和目标值对偶组成的，依据误分类率公式作为评分函数对所述组合分类算法模型进行评估，当a不等于b时，I(a，b)＝1，否则，I(a，b)＝0；S_v(θ)为误分类率，当S_v(θ)不超过阈值T₃时，评估通过；超过阈值T₃时，评估不通过；其中，f(x(i),θ)为模型使用参数值θ对个体i作出的预测，1≤i≤n，y(i)为训练数据集合中第i个实体的实际观测值；N为样本总数；

对所述组合分类算法模型进行模型评估，当评估不通过时，重复执行步骤202至步骤204；

所述组合分类算法模型用于对后续输入数据进行分类处理；

图3为本发明实施例三数据处理方法流程示意图，如图3所示，本实施例数据处理方法流程包括：

步骤301：确定模型库中存在与输入数据对应的应用模型时，对输入数据进行数据筛选；

本步骤具体包括：对输入数据进行抽样，确定样本数据的关键字，将样本数据的关键字与模型库中关键字进行匹配，匹配成功时，确定存在与所述输入数据对应的应用模型；

再依据公式对样本数据进行主成分分析，当S矩阵的特征值λ₁≥λ₂≥...≥λ_n的前m个特征值之和占总特征值之和的比率达到预设条件时，选择与前m个特征值对应的字段为关键字；

对提取的数据进行K均值聚类，根据聚类结果判断出明显离群点和重复数据点，将离群点和重复数据点删除；对于不一致数据点以及缺失数据点，以所述不一致数据点的样本均值及所述缺失数据点的样本均值进行估计，完成数据清洗；随机抽取部分清洗过的数据作为检测数据，利用切比雪夫定理利用检测数据的均值，标准差和置信区间识别异常数据，当检测数据错误率低于阈值时，审核通过；否则重复进行数据清洗及审核，直至审核通过；

这里，所述部分清洗过的数据可以为占总体1/4的清洗过的数据；所述阈值可以为0.5％。

步骤302：判断磁盘空间是否满足存储要求，如果满足，执行步骤303；如果不满足，执行步骤307。

步骤303：将筛选后的数据存储至所述磁盘。

步骤304：依据所述应用模型对应的组合分类算法对数据的要求，对筛选后的数据进行数据变换，并判断变换后的数据是否有效，如果有效，执行步骤305；如果无效，执行步骤304；

所述确定变量变换后的数据有效包括：随机抽取部分离散化后的数据，计算所述数据离散化前后的信息增益，如果所得信息增益小于阈值T₁，确定变量变换后的数据有效；否则，确定变量变换后的数据无效；其中，所述部分离散化后的数据可以为1/3离散化后的数据；所述阈值T₁可通过多次试验确定。

步骤305：依据所述组合分类算法对变换后的数据进行数据处理；

这里，所述对变换后的数据进行数据处理具体为：对变换后的数据进行分类数据处理。

步骤306：发布数据分析结果，并将所述分析结果发送至数据输入端。

步骤307：对筛选后的数据进行分片，将分片数据进行分布式发送至指定终端；

步骤308：结束本次处理流程。

图4为本发明实施例四数据处理方法流程示意图，如图4所示，本实施例数据处理方法流程包括：

步骤401：确定模型库中不存在与输入数据对应的应用模型时，对输入数据进行数据筛选；

步骤402：判断磁盘空间是否满足存储要求，如果满足，执行步骤403；如果不满足，执行步骤410。

步骤403：将筛选后的数据存储至磁盘。

步骤404：获取所述输入数据对应的近似最优组合分类算法；

这里，所述统计特性可以为：概率分布或均值或方差等；

所述字段属性可以为：数值型或布尔型或文本型等；

所述算法库中包含不同的数据分类算法；

其中，M为正整数，通过多次测试确定；

步骤405：依据所述近似最优组合分类算法对数据的要求，对筛选后的数据进行数据变换，并判断变换后的数据是否有效，如果有效执行步骤406；如果无效，执行步骤405；

本步骤具体包括：依据所述近似最优组合分类算法对数据的要求，对筛选后的数据进行对象聚焦及降维处理，对降维后的连续数据进行等距离散化并进行变量变换，以满足所述组合分类算法对数据格式的要求，确定变量变换后的数据无效时，重复上述处理过程，直至确定变量变换后的数据有效；

步骤406：依据所述近似最优组合分类算法进行模型训练，并判断训练所得的分类误差率是否小于阈值T₂，如果小于T₂，执行步骤407；否则，执行步骤406；

这里，所述依据所述近似最优组合分类算法进行模型训练包括：采用随机简单抽样法对变换后的数据抽样，样本总数为N，将抽样数据作为训练集，对所述近似最优组合分类算法进行初始参数配置，初始参数Pi设置为1/k，k为选中的分类算法个数；对训练集数据进行模型训练。

步骤407：利用训练后的模型对输入数据进行处理，并判断数据处理结果的误差率是否小于阈值T₂，如果小于，执行步骤408；否则，执行步骤406；

这里，所述对输入数据进行处理具体为对输入数据进行分类处理。

步骤408：对所述组合分类算法模型进行模型评估，并判断评估是否通过，如果评估通过，执行步骤409；如果评估不通过，执行步骤404；

这里，所述对所述组合分类算法模型进行模型评估包括：

令数据集合D＝{(x₁,y₁),(x₂,y₂),...,(x_n,y_n)}是由输入向量和目标值对偶组成的，f(x(i),θ)为模型使用参数值θ对个体i作出的预测，1≤i≤n，y(i)为训练数据集合中第i个实体的实际观测值，依据误分类率公式作为评分函数对所述组合分类算法模型进行评估，当a不等于b时，I(a，b)＝1，否则，I(a，b)＝0；S_v(θ)为误分类率，当S_v(θ)不超过阈值T₃时，评估通过；超过阈值T₃时，评估不通过；其中，T₃可通过多次测试确定，N为样本总数。

步骤409：将所述组合分类算法模型加入模型库，发布数据分析结果，并将所述分析结果发送至数据输入端；

这里，所述组合分类算法模型用于对后续输入数据进行分类处理；

所述数据分析结果可以包括：换机推荐用户、安全警示信息等。

步骤410：对筛选后的数据进行分片，将分片数据进行分布式发送至指定终端；

步骤411：结束本次处理流程。

图5为本发明实施例一数据处理装置组成结构示意图，如图5所示，本实施例数据处理装置组成结构包括：第一筛选模块51、第一数据变换模块52、第一处理模块53及第一模型库54；其中，

所述第一筛选模块51，用于在确定模型库54中存在与输入数据对应的应用模型时，对输入数据进行数据筛选；

所述第一数据变换模块52，用于对筛选后的数据进行数据变换；

所述第一处理模块53，用于依据所述应用模型对应的组合分类算法对数据变换后的数据进行数据处理；

所述第一模型库54，用于存储不同应用类型的应用模型。

进一步的，所述装置还包括第一匹配模块55，用于对输入数据进行抽样，确定样本数据的关键字，并将所述关键字与模型库54中关键字进行匹配，确定是否存在与所述输入数据对应的应用模型；

这里，所述第一匹配模块55将所述关键字与模型库54中关键字进行匹配，匹配成功时，确定存在与所述输入数据对应的应用模型；匹配不成功时，确定不存在与所述输入数据对应的应用模型；

所述应用模型可以为：换机推荐模型或安全预警模型等。

所述第一匹配模块55对输入数据进行抽样，确定样本数据的关键字包括：所述第一匹配模块55先采用自适应渐进抽样法对输入数据进行抽样，得到n维样本数据X＝{x₁,x₂,...,x_n}；

然后依据公式对样本数据进行主成分分析，当S矩阵的特征值λ₁≥λ₂≥...≥λ_m≥...≥λ_n的前m个特征值之和占总特征值之和的比率达到预设条件时，选择与前m个特征值对应的字段为关键字；

所述第一匹配模块55将样本数据的关键字与模型库中关键字进行匹配包括：所述第一匹配模块55按照特征值由大到小的顺序，依次为模型库中每个应用模型对应的关键字分配权值；将样本数据的关键字与模型库中关键字进行匹配，并记录匹配关键字的权值之和Q；若Q超过阈值T，则匹配成功，即确定模型库中存在与所述输入数据对应的应用模型为所述匹配成功的关键字对应的应用模型；这里，所述T的大小可以依据多次试验确定。

进一步的，所述第一筛选模块51对输入数据进行数据筛选包括：

所述第一筛选模块51依据所述应用模型对应的关键字对输入数据进行数据提取，并对提取的数据进行数据清洗及数据审核，直至审核通过；其中，

所述第一筛选模块51对提取的数据进行数据清洗及数据审核，直至审核通过包括：

所述第一筛选模块51对提取的数据进行K均值聚类，根据聚类结果判断出明显离群点和重复数据点，将离群点和重复数据点删除；对于不一致数据点以及缺失数据点，以所述不一致数据点的样本均值及所述缺失数据点的样本均值进行估计，完成数据清洗；随机抽取部分清洗过的数据作为检测数据，利用切比雪夫定理利用检测数据的均值，标准差和置信区间识别异常数据，当检测数据错误率低于阈值时，审核通过；否则重复进行数据清洗及审核，直至审核通过；这里，所述部分清洗过的数据可以为占总体1/4的清洗过的数据；所述阈值可以为0.5％。

进一步的，所述装置还包括第一确定模块56，用于确定磁盘空间满足存储要求时，将筛选后的数据存储至所述磁盘；确定磁盘空间不满足存储要求时，对筛选后的数据进行分片，将分片数据进行分布式发送至指定终端；

这里，所述第一确定模块56对筛选后的数据进行分片，将分片数据进行分布式发送至指定终端包括：所述第一确定模块56依据用户标识和时间对筛选后的数据进行分片，并将分片数据进行分布式发送至指定终端进行存储及处理。

进一步的，所述第一数据变换模块52对筛选后的数据进行数据变换包括：所述第一数据变换模块52依据所述应用模型对应的组合分类算法对数据的要求，对筛选后的数据进行对象聚焦及降维处理，对降维后的连续数据进行等距离散化并进行变量变换，以满足所述组合分类算法对数据格式的要求，确定变量变换后的数据无效时，重复上述处理过程，直至确定变量变换后的数据有效；

这里，所述第一数据变换模块52对筛选后的数据进行降维处理包括：所述第一数据变换模块52依据协方差矩阵对筛选后的数据进行降维处理；

所述第一数据变换模块52确定变量变换后的数据有效包括：所述第一数据变换模块52随机抽取部分离散化后的数据，计算所述数据离散化前后的信息增益，如果所得信息增益小于阈值T₁，确定变量变换后的数据有效；否则，确定变量变换后的数据无效；其中，所述部分离散化后的数据可以为1/3离散化后的数据；所述阈值T₁可通过多次试验确定。

进一步的，所述装置还包括第一发布模块57，用于发布数据分析结果，并将所述分析结果发送至数据输入端；

这里，所述数据分析结果可以包括：换机推荐用户、安全警示信息等。

图6为本发明实施例二数据处理装置组成结构示意图，如图6所示，本实施例数据处理装置组成结构包括：第二筛选模块61、获取模块62、第二处理模块63、评估模块64及第二模型库65；其中，

所述第二筛选模块61，用于确定模型库65中不存在与输入数据对应的应用模型时，对输入数据进行数据筛选；

所述获取模块62，用于获取所述输入数据对应的近似最优组合分类算法；

所述第二处理模块63，用于依据所述近似最优组合分类算法进行模型训练，并对输入数据进行模型实施，直至获取满足要求的组合分类算法模型；

所述评估模块64，用于对所述组合分类算法模型进行模型评估，评估通过时，将所述组合分类算法模型加入模型库；

所述第二模型库65，用于存储不同应用类型的应用模型；

这里，所述组合分类算法模型对后续输入数据进行处理。

进一步的，所述装置还包括第二匹配模块66，用于对输入数据进行抽样，确定样本数据的关键字，将所述关键字与模型库中关键字进行匹配，确定是否存在与所述输入数据对应的应用模型；

这里，将所述关键字与模型库中关键字进行匹配，匹配成功时，确定存在与所述输入数据对应的应用模型；匹配不成功时，确定不存在与所述输入数据对应的应用模型；

所述应用模型可以为换机推荐模型或安全预警模型等；

所述第二匹配模块66对输入数据进行抽样，确定样本数据的关键字包括：

所述第二匹配模块66先采用自适应渐进抽样法对输入数据进行抽样，得到n维样本数据X＝{x₁,x₂,...,x_n}；

这里，其中，S_ij为x_i和x_j的协方差，i∈[1，n]，j∈[1，n]，n为样本数据的个数，为正整数，优选的，n小于100；其中，所述预设条件可以为前m个特征值之和占总特征值之和的比率达到90％以上。

所述第二匹配模块66将样本数据的关键字与模型库中关键字进行匹配包括：所述第二匹配模块66按照特征值由大到小的顺序，依次为模型库中每个应用模型对应的关键字分配权值；将样本数据的关键字与模型库中关键字进行匹配，并记录匹配关键字的权值之和Q；若Q超过阈值T，则匹配成功，即确定模型库中存在与所述输入数据对应的应用模型为所述匹配成功的关键字对应的应用模型；这里，所述阈值T的大小可以依据多次试验确定。

进一步的，所述第二筛选模块61对输入数据进行数据筛选包括：所述第二筛选模块61依据所述样本数据的关键字对输入数据进行数据提取，并对提取的数据进行数据清洗及数据审核，直至审核通过；其中，

所述第二筛选模块61对提取的数据进行数据清洗及数据审核，直至审核通过包括：

所述第二筛选模块61对提取的数据进行K均值聚类，根据聚类结果判断出明显离群点和重复数据点，将离群点和重复数据点删除；对于不一致数据点以及缺失数据点，以所述不一致数据点的样本均值及所述缺失数据点的样本均值进行估计，完成数据清洗；随机抽取部分清洗过的数据作为检测数据，利用切比雪夫定理利用检测数据的均值，标准差和置信区间识别异常数据，当检测数据错误率低于阈值时，审核通过；否则重复进行数据清洗及审核，直至审核通过；这里，所述部分清洗过的数据可以为占总体1/4的清洗过的数据；所述阈值可以为0.5％。

进一步的，所述装置还包括第二确定模块67，用于确定磁盘空间满足存储要求时，将筛选后的数据存储至所述磁盘；确定磁盘空间不满足存储要求时，对筛选后的数据进行分片，将分片数据进行分布式发送至指定终端；

这里，所述第二确定模块67对筛选后的数据进行分片，将分片数据进行分布式发送至指定终端包括：所述第二确定模块67依据用户标识和时间对筛选后的数据进行分片，并将分片数据进行分布式发送至指定终端进行存储及处理。

进一步的，所述装置还包括算法库68，用于存储不同的数据分类算法；

相应的，所述获取模块62获取所述输入数据对应的近似最优组合分类算法包括：

所述获取模块62依据输入数据的统计特性及字段属性在算法库68中选择满足要求的分类算法，并依据遗传算法确定所述输入数据对应的近似最优组合分类算法；

这里，所述统计特性可以为：概率分布或均值或方差等；

所述字段属性可以为：数值型或布尔型或文本型等；

所述算法库中包含不同的数据分类算法；

所述获取模块62依据遗传算法确定所述输入数据对应的近似最优组合分类算法包括：

所述获取模块62利用选择的满足要求的分类算法对筛选后的数据进行分类，并计算分类的准确率，利用一元线性回归方程作为适应度函数f(x)描述分类的准确率，根据比例选择原则选择染色体产生下一代，通过染色体的交叉和变异产生下一代，直至达到第M代，获得所述输入数据对应的近似最优组合分类算法；

其中，M为正整数，通过多次测试确定；

进一步的，所述装置还包括第二数据变换模块69，用于依据所述近似最优组合分类算法对数据的要求，对筛选后的数据进行数据变换；具体包括：第二数据变换模块69依据所述近似最优组合分类算法对数据的要求，对筛选后的数据进行对象聚焦及降维处理，对降维后的连续数据进行等距离散化并进行变量变换，以满足所述组合分类算法对数据格式的要求，确定变量变换后的数据无效时，重复上述处理过程，直至确定变量变换后的数据有效；

这里，所述第二数据变换模块69对筛选后的数据进行降维处理包括：第二数据变换模块69依据协方差矩阵对筛选后的数据进行降维处理；

所述第二数据变换模块69确定变量变换后的数据有效包括：第二数据变换模块69随机抽取部分离散化后的数据，计算所述数据离散化前后的信息增益，如果所得信息增益小于阈值T₁，确定变量变换后的数据有效；否则，确定变量变换后的数据无效；其中，所述部分离散化后的数据可以为1/3离散化后的数据；所述阈值T₁可通过多次试验确定。

进一步的，所述第二处理模块63依据所述近似最优组合分类算法进行模型训练，并对输入数据进行模型实施，直至获取满足要求的组合分类算法模型包括：

所述第二处理模块63采用随机简单抽样法对变换后的数据抽样，将抽样数据作为训练集，对所述近似最优组合分类算法进行初始参数配置，初始参数Pi设置为1/k，k为选中的分类算法个数；对训练集数据进行模型训练，直至模型训练所得的分类误差率小于阈值T₂；利用训练后的模型对输入数据进行数据处理，直至数据处理结果的误差率小于阈值T₂，获取满足要求的组合分类算法模型；这里所述阈值T₂可以为0.5％；所述样本的总数为N。

进一步的，所述评估模块64对所述组合分类算法模型进行模型评估包括：

所述评估模块64令数据集合D＝{(x₁,y₁),(x₂,y₂),...,(x_n,y_n)}是由输入向量和目标值对偶组成的，f(x(i),θ)为模型使用参数值θ对个体i作出的预测，1≤i≤n，y(i)为训练数据集合中第i个实体的实际观测值，依据误分类率公式作为评分函数对所述组合分类算法模型进行评估，当a不等于b时，I(a，b)＝1，否则，I(a，b)＝0；当S_v(θ)不超过阈值T₃时，评估通过；超过阈值T₃时，评估不通过；其中，S_v(θ)为误分类率，N为样本总数。

进一步的，所述装置还包括第二发布模块70，用于发布数据分析结果，并将所述分析结果发送至数据输入端；

在实际应用中，所述第一筛选模块51、第一数据变换模块52、第一处理模块53、第一匹配模块55、第一确定模块56、第一发布模块57及第二筛选模块61、获取模块62、第二处理模块63、评估模块64、第二匹配模块66、第二确定模块67、第二数据变换模块69、第二发布模块70既可由软件实现，也可由服务器中的中央处理器(CPU，CentralProcessingUnit)、或数字信号处理器(DSP，DigitalSignalProcessor)、或现场可编程门阵列(FPGA，FieldProgrammableGateArray)实现。

以上所述，仅为本发明较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

依据所述组合分类算法对变换后的数据进行数据处理。

2.根据权利要求1所述方法，其特征在于，所述确定模型库中存在与输入数据对应的应用模型包括：对输入数据进行抽样，确定样本数据的关键字，将样本数据的关键字与模型库中关键字进行匹配，匹配成功时，确定存在与所述输入数据对应的应用模型。

3.根据权利要求2所述方法，其特征在于，所述对输入数据进行数据筛选包括：依据所述应用模型对应的关键字对输入数据进行数据提取，并对提取的数据进行数据清洗及数据审核，直至审核通过。

4.根据权利要求1或2所述方法，其特征在于，对筛选后的数据进行数据变换包括：

5.一种数据处理装置，其特征在于，所述装置包括：第一筛选模块、第一数据变换模块、第一处理模块及第一模型库；其中，

所述第一模型库，用于存储不同应用类型的应用模型。

6.根据权利要求5所述装置，其特征在于，所述装置还包括第一匹配模块，用于对输入数据进行抽样，确定样本数据的关键字，将所述关键字与模型库中关键字进行匹配，确定是否存在与所述输入数据对应的应用模型。

7.根据权利要求6所述装置，其特征在于，所述第一筛选模块对输入数据进行数据筛选包括：

8.根据权利要求5或6所述装置，其特征在于，所述第一数据变换模块对筛选后的数据进行数据变换包括：

9.一种数据处理方法，其特征在于，所述方法包括：

获取所述输入数据对应的近似最优组合分类算法；

10.根据权利要求9所述方法，其特征在于，所述对输入数据进行数据筛选包括：依据样本数据的关键字对输入数据进行数据提取，并对提取的数据进行数据清洗及数据审核，直至审核通过。

11.根据权利要求9或10所述方法，其特征在于，所述依据所述近似最优组合分类算法进行模型训练之前，所述方法还包括：依据所述近似最优组合分类算法对数据的要求，对筛选后的数据进行数据变换。

12.根据权利要求9或10所述方法，其特征在于，所述获取所述输入数据对应的近似最优组合分类算法包括：

13.一种数据处理装置，其特征在于，所述装置包括第二筛选模块、获取模块、第二处理模块、评估模块及第二模型库；其中，

所述第二模型库，用于存储不同应用类型的应用模型；

14.根据权利要求13所述装置，其特征在于，所述第二筛选模块对输入数据进行数据筛选包括：所述第二筛选模块依据样本数据的关键字对输入数据进行数据提取，并对提取的数据进行数据清洗及数据审核，直至审核通过。

15.根据权利要求14所述装置，其特征在于，所述装置还包括第二数据变换模块，依据所述近似最优组合分类算法对数据的要求，对筛选后的数据进行数据变换。

16.根据权利要求13或14所述装置，其特征在于，所述获取模块获取所述输入数据对应的近似最优组合分类算法包括：所述获取模块依据输入数据的统计特性及字段属性在算法库中选择满足要求的分类算法，并依据遗传算法确定所述输入数据对应的近似最优组合分类算法。