CN105468770A

CN105468770A - 一种数据处理方法及系统

Info

Publication number: CN105468770A
Application number: CN201510900399.3A
Authority: CN
Inventors: 雷龙艳; 章岑; 杨田; 周盛; 潘柏宇; 王冀
Original assignee: 1Verge Internet Technology Beijing Co Ltd
Current assignee: 1Verge Internet Technology Beijing Co Ltd
Priority date: 2015-12-09
Filing date: 2015-12-09
Publication date: 2016-04-06

Abstract

本申请公开了一种数据处理方法及系统，所述方法包括：从数据源采集原始数据，并对所述原始数据进行数据清洗；将所述清洗之后的原始数据，输入到spark平台下的转换模块，以利用所述转换模块内置的数据转换机制进行数据转换，得到样本数据；将所述样本数据，输入到spark平台下的测算模块，以利用所述测算模块内置的训练算法进行数据训练，得到逻辑回归模型。

Description

一种数据处理方法及系统

技术领域

本申请涉及信息技术领域，具体地说，涉及一种数据处理方法及系统。

背景技术

在信息化快速发展的当代，信息数据的数量级发生了爆炸式的增长。海量的大数据为很多行业领域的发展提供了新的机遇。另一方面，如何对海量的数据进行管理和有效的利用，也成为了信息领域中需要不断完善的课题。

例如在线视频的巨大流量，会随之带来了丰富多样的广告数据。如何充分的利用这些数据来得到良好的广告效果，就是一项非常困难的事情。目前往往依靠数据流管道架构(即pipeline架构)，对线下的原始日志数据进行数据清洗、特征抽取、特征格式化、模型训练等一系列的处理过程。而在现有技术中，所述的pipeline架构一般基于分布式文件系统(HadoopDistributedFileSystem，简称HDFS)来实现，然后通过MapReduce程序完成执行。

基于HDFS系统的特点，致使现有的pipeline架构存在的缺陷是：HDFS系统在多次迭代数据处理的过程中，每次迭代结果都要落磁盘，导致大量的磁盘读写，严重影响执行的效率；同时数据的也共享必须依赖于HDFS，这使得数据在节点间复制和存储过程都十分低效。

发明内容

有鉴于此，本申请所要解决的技术问题是提供了一种数据处理方法及系统，将pipeline移植到spark平台，实现基于内存完成pipeline架构的数据处理过程，提高了数据处理的效率。

为了解决上述技术问题，本申请有如下技术方案：

一种数据处理方法，所述方法包括：

从数据源采集原始数据，并对所述原始数据进行数据清洗；

将所述清洗之后的原始数据，输入到spark平台下的转换模块，以利用所述转换模块内置的数据转换机制进行数据转换，得到样本数据；

将所述样本数据，输入到spark平台下的测算模块，以利用所述测算模块内置的训练算法进行数据训练，得到逻辑回归模型。

所述spark平台下的转换模块具体为：

将数据流管道架构中的原始转换模块进行第一具化，得到spark平台下的转换模块。

所述转换模块包括：

若干有序的转换单元，每个转换单元用于完成特定数据类型的转换；

所述完成特定数据类型的转换具体为，利用第二具化完成数据类型的转换。

所述spark平台下的测算模块具体为：

将数据流管道架构中的原始测算模块进行第一具化，得到spark平台下的测算模块。

所述测算模块包括：

若干无序的测算单元，每个测算单元用于利用特定的逻辑回归算法，进行相应的数据训练；

所述完成相应的数据训练具体为，利用第二具化完成相应的数据训练。

一种数据处理系统，所述系统包括转换模块和测算模块，所述转换模块和测算模块置于spark平台下，具体为：

采集模块，用于采集原始数据；

转换模块，用于对所述原始数据进行数据清洗；利用内置的数据转换机制进行数据转换，得到样本数据；

测算模块，用于利用内置的训练算法进行数据训练，得到逻辑回归模型。

所述转换模块置于spark平台下的具体为：

所述转换模块包括：

所述测算模块置于spark平台下的具体为：

所述测算模块包括：

与现有技术相比，本申请所述的方法和系统，达到了如下效果：

基于spark平台的特点，实现在内存中完成多次迭代的数据处理，计算过程无需落磁盘，由此提高了数据处理的执行效率。

当然，实施本申请的任一产品必不一定需要同时达到以上所述的所有技术效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例所述方法流程图；

图2为本申请实施例所述系统结构示意图。

具体实施方式

如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语，故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内，本领域技术人员能够在一定误差范围内解决所述技术问题，基本达到所述技术效果。此外，“耦接”一词在此包含任何直接及间接的电性耦接手段。因此，若文中描述一第一装置耦接于一第二装置，则代表所述第一装置可直接电性耦接于所述第二装置，或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本申请的较佳实施方式，然所述描述乃以说明本申请的一般原则为目的，并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。

传统的pipeline架构，包括原始转换模块(transformers)和原始测算模块(estimators)。所述原始转换模块，用于进行数据清洗以及数据格式的转换，输出特定格式的样本数据。所述原始测算模块，用于利用所述样本数据训练建模。

前述已知，基于HDFS系统的pipeline架构，存在大量的磁盘读写，执行效率低的缺陷，在当前亟待改善。相比之下，spark平台作为统一数据处理方案的基础框架，基于弹性分布式数据集RDD计算；在内存充足的情况下，运算结果可以完全保存在内存中，在内存不充足的情况下也可通过序列化等方法使数据高效存储与读取。因此特别适合做多次迭代操作。并且，spark平台又可以与pipeline架构无缝连接。所以本申请，将提供一种数据处理的解决方案，将pipeline架构一直到spark平台之下。

参见图1所示，为本申请所述数据处理方法的具体实施例。本实施例中，所述方法包括以下步骤：

步骤101、从数据源采集原始数据，并对所述原始数据进行数据清洗。

首先从各类业务资源中，采集原始数据，以作为后续处理和训练建模的基础。并且在得到原始数据之后，还需利用transformers对原始数据进行必要的数据清洗。

步骤102、将所述清洗之后的原始数据，输入到spark平台下的转换模块，以利用所述转换模块内置的数据转换机制进行数据转换，得到样本数据。

为将pipeline架构移植到spark平台下，需将pipeline架构原始转换模块进行第一具化，得到spark平台下的转换模块。所述第一具化，即将相关的操作具体化到spark平台。所述转换模块包括若干有序的转换单元，每个转换单元用于完成特定数据类型的转换。

例如，所述转换单元可以包括PlainText2DataInstanceTransformer、DataInstance2SampleTransformer、Sample2LabeledPointTransformer几种类型。以PlainText类型数据作为数据，则按照转换单元的顺序，执行PlainText-DataInstance-Sample-LabeledPoint的数据格式转换。最终得到LabeledPoint格式的样本数据。

spark平台下所述完成特定数据类型的转换具体为，利用第二具化完成数据类型的转换。所述第二具化，即将操作从spark平台具体化到具体的业务上来。

步骤103、将所述样本数据，输入到spark平台下的测算模块，以利用所述测算模块内置的训练算法进行数据训练，得到逻辑回归模型。

对于测算模块的处理，与转换模块比较类似。为将pipeline架构移植到spark平台下，需将pipeline架构原始测算模块进行第一具化，得到spark平台下的测算模块。所述第一具化，即将相关的操作具体化到spark平台。不同在于，所述测算模块包括若干无序的测算单元，每个测算单元用于利用特定的逻辑回归算法，进行相应的数据训练。

根据需求的不同，对于模型的训练方式也有所区别。所以所述测算单元并没有特定的顺序，具体使用过程中能够根据需求选取并组合，以训练得到相应的逻辑回归模型。

例如，所述测算单元可以包括LogisticEstimator、SGBTEstimator等，所述完成相应的数据训练具体为，利用第二具化完成相应的数据训练。所述第二具化，即将操作从spark平台具体化到具体的业务上来。

由此，本申请中即实现了将pipeline架构移植到spark平台下。通过以上技术方案可知，本实施例存在的有益效果是：基于spark平台的特点，实现在内存中完成多次迭代的数据处理，计算过程无需落磁盘，由此提高了数据处理的执行效率。

本申请进一步公开一个具体实施例，本实施例将在图1所示实施例所述的整体技术方案之下，以点击率预估模型的生成作为应用场景进行说明。具体如下：

本实施例中，使用品牌广告的显示日志和点击日志作为原始数据，并利用转换模块进行数据清洗。具体来说，此处的数据清洗即是提取包含后续流程所需字段的对象，比如包含设备类型，观看时间等特定字段的对象。

在这一过程中，需要使用到转换模块中包括的转换单元PlainText2DataInstanceTransformer，用于将纯文本PlainText变成包含特定字段的DataInstance对象。

然后对得到的DataInstance对象进行特征抽取与格式化操作得到样本数据。在这一过程中，需要使用到转换模块中包括的转换单元DataInstance2SampleTransformer，用于将DataInstance对象变成Sample格式的样本数据。

最后利用所述测算模块内置的训练算法对这些样本数据进行训练，得到相应的逻辑回归模型，即点击率预估模型。在这一过程中，需要使用到转换模块中包括的测算单元LogisticEstimator。用于接收Sample格式的样本数据并进行模型训练。

本申请中进一步公开一个具体实施例，本实施例将在图1所示实施例所述的整体技术方案之下，以性别预测模型的生成作为应用场景进行说明。具体如下：

本实施例中，使用用户注册信息以及用户观看视频历史行为数据作为原始原始数据，并利用转换模块进行数据清洗。具体来说，此处的数据清洗同样是提取包含后续流程所需字段的对象，比如包含视频标签，观看时长等字段的对象。

最后利用所述测算模块内置的朴素贝叶斯算法对样本数据进行训练，相应的性别预测模型。在这一过程中，需要使用到转换模块中包括的测算单元BayesEstimator，用于接收Sample格式的样本数据，并应用朴素贝叶斯算法对模型进行训练得到贝叶斯模型。

参见图2所示，为本申请实施例所述系统的结构示意图。本实施例中，所述即是将pipeline架构移植到spark平台下得到的数据处理系统，用于实现图1所示实施例中所述的方法。所以本实施例中，所述系统的技术方案本质上与图1所示实施例一致，图1所示实施例中的相应描述，同样适用于本实施例中。本实施例中所述系统包括：

采集模块201，用于采集原始数据。

转换模块202，用于对所述原始数据进行数据清洗；利用内置的数据转换机制进行数据转换，得到样本数据。

所述转换模块202置于spark平台下的具体为：将数据流管道架构中的原始转换模块进行第一具化，得到spark平台下的转换模块202。

所述转换模块202包括：若干有序的转换单元，每个转换单元用于完成特定数据类型的转换；所述完成特定数据类型的转换具体为，利用第二具化完成数据类型的转换。

测算模块203，用于利用内置的训练算法进行数据训练，得到逻辑回归模型。

所述测算模块203置于spark平台下的具体为：将数据流管道架构中的原始测算模块进行第一具化，得到spark平台下的测算模块203。

所述测算模块203包括：若干无序的测算单元，每个测算单元用于利用特定的逻辑回归算法，进行相应的数据训练；所述完成相应的数据训练具体为，利用第二具化完成相应的数据训练。

通过以上技术方案可知，本实施例存在的有益效果是：基于spark平台的特点，实现在内存中完成多次迭代的数据处理，计算过程无需落磁盘，由此提高了数据处理的执行效率。

本领域内的技术人员应明白，本申请的实施例可提供为方法、装置、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

上述说明示出并描述了本申请的若干优选实施例，但如前所述，应当理解本申请并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围，则都应在本申请所附权利要求的保护范围内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

从数据源采集原始数据，并对所述原始数据进行数据清洗；

2.根据权利要求1所述方法，其特征在于，所述spark平台下的转换模块具体为：

3.根据权利要求2所述方法，其特征在于，所述转换模块包括：

4.根据权利要求1所述方法，其特征在于，所述spark平台下的测算模块具体为：

5.根据权利要求4所述方法，其特征在于，所述测算模块包括：

6.一种数据处理系统，其特征在于，所述系统包括转换模块和测算模块，所述转换模块和测算模块置于spark平台下，具体为：

采集模块，用于采集原始数据；

7.根据权利要求6所述系统，其特征在于，所述转换模块置于spark平台下的具体为：

8.根据权利要求7所述系统，其特征在于，所述转换模块包括：

9.根据权利要求6所述系统，其特征在于，所述测算模块置于spark平台下的具体为：

10.根据权利要求9所述系统，其特征在于，所述测算模块包括：