CN107526794A

CN107526794A - 数据处理方法和装置

Info

Publication number: CN107526794A
Application number: CN201710702205.8A
Authority: CN
Inventors: 宋雨伦
Original assignee: Nine Fangda Data Information Group Co Ltd
Current assignee: Nine Fangda Data Information Group Co Ltd
Priority date: 2017-08-16
Filing date: 2017-08-16
Publication date: 2017-12-29

Abstract

本发明公开了一种数据处理方法和装置。其中，该方法包括：从一个数据集中获取由不同主机的样本构成的至少一个样本集；对样本集进行观测，得到观测集；根据观测集建立回归模型。本发明解决了现有技术中针对分布式数据还没有建模方法的技术问题。

Description

数据处理方法和装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种数据处理方法和装置。

背景技术

近年来，随着技术的进步，通信和计算机科学领域取得了极大的发展，包括数据传输的速度和数量方面以及数据的产生方面。很多公司都面临如何应对激增的海量大数据的问题，包括国外的大公司如亚马逊、FaceBook和Google，国内的如阿里巴巴、腾讯和百度，其中谷歌自2008年以来每天需要处理的数据量已经超过20PB。除此之外，政府也是这场大数据论战中的重要一员。

由于带宽成本的下降以及计算和数据存储能力的进步，可以预见，大数据处理必将成为未来通信和计算机科学领域发展的一个趋势，这就必然需要更优的工具和框架来满足这样的需求。因此，怎样设计更好的算法来实现数据挖掘、统计和机器学习算法成为关键问题。在该领域中常用的方法有聚类、降维、滤波、分类和回归模型，其中针对回归模型，更具体地说，针对半参数回归模型的典型方法是在分析数据之前收集所有的数据，并将所有的数据存储在一台机器上，但是将所有的数据存储在一个中央节点的服务器上对于当前的海量大数据集而言，是非常不现实而且不可行的。因此，大数据的分布式存储及处理方法应运而生，其中，Google公司设计并实现了一个可扩展的分布式文件系统来满足存储需求，与此同时，谷歌还提出了一种开源实现的理念，它们在世界范围内都得到了广泛的应用，并衍生出很多新的版本。在该技术的支持下，数据可以分布在各地的数据中心，分属于不同的机构，各机构可以结合自身潜在的非分布式数据集来发现新的知识，提高决策效率，但是对于分布式的数据而言，目前还没有建模方法。

对于现有技术中针对分布式数据还没有建模方法的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种数据处理方法和装置，以至少解决现有技术中针对分布式数据还没有建模方法的技术问题。

本发明实施例一方面，提供了一种数据处理方法，包括：通过从一个数据集中获取由不同主机的样本构成的至少一个样本集；对样本集进行观测，得到观测集；根据观测集建立回归模型。

本发明实施例另一个方面，提供了一种数据处理装置，包括：获取模块，通过从一个数据集中获取由不同主机的样本构成的至少一个样本集；观测模块，用于对样本集进行观测，得到观测集；建立模块，用于根据观测集建立回归模型。

在本发明实施例中，通过从一个数据集中获取由不同主机的样本构成的至少一个样本集；对样本集进行观测，得到观测集；根据观测集建立回归模型，达到了对分布式数据建模的目的。针对大规模分布式数据集，本发明既能对非线性关系进行建模，也能同时解决在数据汇总后进行数据分析和实时设置的批量处理问题，进一步实现了提高分析分布式数据精度的技术效果，进而解决了现有技术中针对分布式数据还没有建模方法的技术问题。

附图说明

此处所说明的附图用于对本发明进行进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种数据处理方法的示意图；

图2是根据本发明实施例的一种可选的数据处理方法的示意图；

图3是根据本发明实施例的一种可选的数据处理方法的示意图；以及

图4是根据本发明实施例的一种数据处理装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

本发明实施例，提供了一种数据处理方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是本发明实施例的数据处理方法，如图1所示，该方法包括如下步骤：

步骤S102，从一个数据集中获取由不同主机的样本构成的至少一个样本集。

步骤S104，对样本集进行观测，得到观测集。

步骤S106，根据观测集建立回归模型。

在本发明实施例中，通过从一个数据集中获取由不同主机的样本构成的至少一个样本集；对样本集进行观测，得到观测集；根据观测集建立回归模型，达到了对分布式数据建模的目的，针对大规模分布式数据集，本发明既能对非线性关系进行建模，也能同时解决在数据汇总后进行数据分析和实时设置的批量处理问题，进一步实现了提高分析分布式数据精度的技术效果，进而解决了现有技术中针对分布式数据还没有建模方法的技术问题。

此处需要说明的是，本发明实施例适用于持续变化的应用场景，对于此类场景，模型中的参数会随着时间推进进行调整。

在一种可选的实施例中，在数据集为多个时，步骤S106中根据观测集建立回归模型之后，还包括：

步骤S202，根据所有数据集的回归模型构建回归模型矩阵。

步骤S204，计算回归模型矩阵的拟合值。

在一种可选的实施例中，步骤S102中从一个数据集中获取由不同主机的样本构成的至少一个样本集之后，方法还包括：步骤S302，对样本集进行去除干扰以及去除无效数据的操作。

在一种可选的实施例中，步骤S106，根据观测集建立回归模型，包括：步骤S402，使用最小二乘法对回归模型的常系数进行估计。

在一种可选的实施例中，步骤S104中对样本集进行观测，得到观测集，包括：步骤S502，根据样本集随时间变化的移动序列和平滑系数得到观测集，其中，平滑系数通过权函数获取。

在一种具体的实施例中，包括如下步骤：

步骤1:初始化部分，采用一个数据集中的n个样本集，并且对样本集进行规范化处理，去除干扰和无效数据。样本数据来自不同的主机，将从每台主机每次采集的数据作为一个样本，多次采集的数据组成一个样本集，满足数据分布式需求。用h表示样本集中样本，样本集构成移动序列C₁，C₂…，C_T,并且存在平滑系数μ。

步骤2:依次观测各样本集，得到观测集，取观测集记为其中n表示当前观测集，μ值使用权函数获取。其中权函数为：

其中v_i为估计值，d_ij为估计值的参数距离，θ>0为实验参数，可以通过交叉证实法确定。

步骤3:根据样本数量分别建立回归模型。初次估计表达式为：

其中，β₁…β_n为常系数。

步骤4:使用最小二乘法来对常系数β₁＝(β₀,β₁,…,β₀)^T进行估计。解得：

其中

为n阶方针，I为n阶单位矩阵。

步骤5:对所有样本数据集的回归模型矩阵进行运算。使用算法并结合模型，得到全部数据集拟合值。

在一种具体的实施例中，可以将本发明实施例与某物业租赁数据相结合，采用如下公式计算拟合值：

其中，weekly rent_i为每周租金数量的第i个属性分量，house_i为第i个影响因素的变量。如图2所示，通过将回归拟合和某物业租赁数据相结合的例子，拟合后验概率密度函数，可以发现在95％可信区间内。图2中第一列显示的是房子与近似后验密度的关系，其他三列是卧室、浴室和公共停车位的数量对每周公寓租金的影响的可视化的影响。最上面一行的结果是基于来自某房地产机构的数据，而底行显示的结果基于来自1447个房地产机构托管的数据，在实际操作中，可以基于1447台主机数据的计算结果对某区划地图进行着色，以展示某地一周内的住房信息变更记录，实际中，使用本发明方法的耗时为42.51秒，可见耗时短。

图3为使用本发明中新的算法与之前传统算法耗时及计算精度的对比。左侧数据为新的算法阴影区域为拟合数据范围和消耗时间，右侧为传统算法数据范围和耗时时间，根据图3可以看到，新算法在精度和耗时上均优于传统算法。

在一种可选的实施例中，步骤S106中根据观测集建立回归模型时，在回归模型建立过程中使用MapReduce框架。

具体而言，MapReduce编程模型在互联网技术公司谷歌公司对大数据集的分布式处理中得到广泛应用。面对巨大的计算任务，谷歌公司决定构建一个分布式的计算环境，在那里，成千上万的商品计算机的大集群被连接在一起。这样的设置需要一个系统来照顾分区的输入数据，调度在商品计算机上执行的任务、处理计算机故障、管理机器之间的通信问题。MapReduce框架提供了一个方便的方式来处理这些任务，使在并行和分布式系统方面没有任何经验的程序员，利用分布式系统的资源成为可能。从本质上讲，MapReduce和各种架构一起使用。

一个MapReduce任务由map阶段和reduce阶段组成，并且用户必须指定相应的 map和reduce函数。map函数处理键值对并会输出一组中间键值对。通常情况下，map 任务可以分布在多个机器上，每台机器可并行运行总数据集的小子集。然后，reduce 函数处理所有共享相同中间键的中间值，并输出最终结果。从本质上说，reduce任务结合了从map函数中输出的的中间键值对结果。或者，是在reduce任务开始之前，形成一个组合函数。组合函数的功能通常是与reduce函数是相同的，但它是在每台执行 map任务的计算机上执行的，当存在显著重复的中间键时，它具有降低耗时的优点。

MapReduce得到大范围推广使用，源于被称作Hadoop的一个开源实现系统的发展。而Hadoop源自谷歌公司的MapReduce和谷歌文件系统，一系列与之相关的项目近几年已经开始出现了。例如，Mahout项目关注的是如何使得分布式或其他可扩展的机器学习算法在Hadoop平台上自由地实现。大多数在Mahout实现的算法，涉及聚类或者分类分析。在这里，当数据被存储在一个分布式文件系统时，map和reduce函数在批次半参数回归中被提出(算法4)。Map函数基于总数据集的子集D_g基本上能计算出汇总统计数据(执行算法1时需要)。首先，从D_g提起出C_g、y_g和n_g，然后基于该样本子集的汇总统计数据与相应的中间密钥一起被输出。Reduce函数简单地将汇总统计数据与相同的中间密钥相加在一起，并输出此结果。

相比之下，本发明实例的重点是利用数据集构建半参数回归模型，这些数据集是在多个主机上进行水平分割的，并且使用2个平均场变分贝叶斯(MFVB)进行近似推理。在图形模型方面解释半参数回归提供了一种优雅和统一的处理方式，例如广义加法模型、地统计模型、小波非参数回归模型及各种模型的组合。此外，MFVB还为马可夫链蒙特卡罗(MCMC)提供了一个快速替代方案，用于拟合这些模型，同时它也对本文处理的模型表现出极高的准确性。该方法还能够处理分组数据、主题内相关性、自动正则化参数推理和各种(等级)先验问题。重要的是，除了点估计之外，还可以以直观的方式对不确定性进行度量。

本发明实例提出了当样本分布在多个数据主机上时的半参数回归分析方法。针对由于样本数据大规模的性质或由于机密性问题而无法移动原始数据的问题，为此，本发明实例设置了平均场变分贝叶斯半参数回归算法，从而允许以批量或在线方式处理数据，本发明的实施例结合的是汇总统计数据而不是实际数据，与现有的分布式数据集回归模型相比，本发明实施例支持非线性关系的建模，并使得平滑参数的全自动推理成为可能，并提供了不确定性的度量方式。此外，本发明实例所提出的模型处理了分组数据的复杂性问题，并且贝叶斯方法还允许其扩展为更多种类的模型。分析分布式流媒体数据的一个重要方面是适应目标随着时间的推移产生的变化。本发明实例可以使用两种方法来处理不断变化的环境问题，并且两种方法均体现在对样本集的选择上，第一种方法是使用时间窗口让实时回归估计仅取决于最近的样本。这需要定义窗口宽度并存储对应于时间窗口的摘要统计信息。第二种方法通过重新加权旧数据和新数据的汇总统计来处理不断变化的环境问题，使用衰减窗口，这种方法需要选择学习率。为了说明所提出的方法的实际相关性，本发明实例讨论了两种类型的应用：当存在需要多方安全计算的多个数据所有者时以及在MapReduce编程模型中使用半参数回归时。

实施例2

本发明实施例是提供了一种数据处理装置的产品实施例，图4是根据本发明实施例做出的数据处理装置，该装置包括获取模块、观测模块和建立模块，其中，获取模块，用于从一个数据集中获取由不同主机的样本构成的至少一个样本集；观测模块，用于对样本集进行观测，得到观测集；建立模块，用于根据观测集建立回归模型。

在本发明实施例中，通过获取模块从一个数据集中获取由不同主机的样本构成的至少一个样本集；观测模块对样本集进行观测，得到观测集；建立模块根据观测集建立回归模型，达到了对分布式数据建模的目的，针对大规模分布式数据集，本发明既能对非线性关系进行建模，也能同时解决在数据汇总后进行数据分析和实时设置的批量处理问题，进一步实现了提高分析分布式数据精度的技术效果，进而解决了现有技术中针对分布式数据还没有建模方法的技术问题。

此处需要说明的是，上述获取模块、观测模块和建立模块对应于实施例1中的步骤S102至步骤S106，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在一种可选的实施例中，在数据集为多个时，装置还包括构建模块和计算模块，其中，构建模块，用于根据观测集建立回归模型之后，根据所有数据集的回归模型构建回归模型矩阵；计算模块，用于计算回归模型矩阵的拟合值。

此处需要说明的是，上述构建模块和计算模块对应于实施例1中的步骤S202至步骤S204，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例 1所公开的内容。需要说明的是，上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在一种可选的实施例中，装置还包括筛选模块，用于在获取模块从一个数据集中获取由不同主机的样本构成的至少一个样本集之后，对样本集进行去除干扰以及去除无效数据的操作。

此处需要说明的是，上述筛选模块对应于实施例1中的步骤S302，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在一种可选的实施例中，建立模块还用于使用最小二乘法对回归模型的常系数进行估计。

在一种可选的实施例中，观测模块还用于根据样本集随时间变化的移动序列和平滑系数得到观测集，其中，平滑系数通过权函数获取。

实施例3

本发明实施例，提供了一种存储介质的产品实施例，该存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述数据处理方法。

实施例4

本发明实施例，提供了一种处理器的产品实施例，该处理器用于运行程序，其中，程序运行时执行上述数据处理方法。

实施例5

根据本发明实施例，提供了一种终端的产品实施例，该终端包括获取模块、观测模块、建立模块和处理器，其中，获取模块，用于从一个数据集中获取由不同主机的样本构成的至少一个样本集；观测模块，用于对样本集进行观测，得到观测集；建立模块，用于根据观测集建立回归模型；处理器，处理器运行程序，其中，程序运行时对于从获取模块、观测模块和建立模块输出的数据执行如下处理步骤：第一个步骤，从一个数据集中获取由不同主机的样本构成的至少一个样本集；第二个步骤，对样本集进行观测，得到观测集；第三个步骤，根据观测集建立回归模型。

实施例6

本发明实施例，提供了一种终端的产品实施例，该终端包括获取模块、观测模块、建立模块和存储介质，其中，获取模块，用于从一个数据集中获取由不同主机的样本构成的至少一个样本集；观测模块，用于对样本集进行观测，得到观测集；建立模块，用于根据观测集建立回归模型；存储介质，用于存储程序，其中，程序在运行时对于从获取模块、观测模块和建立模块输出的数据执行如下处理步骤：第一个步骤，从一个数据集中获取由不同主机的样本构成的至少一个样本集；第二个步骤，对样本集进行观测，得到观测集；第三个步骤，根据观测集建立回归模型。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其他的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，也可以是电性或其他的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独的物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

当所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM， Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种数据处理方法，其特征在于，包括：

从一个数据集中获取由不同主机的样本构成的至少一个样本集；

对所述样本集进行观测，得到观测集；

根据所述观测集建立回归模型。

2.根据权利要求1所述的方法，其特征在于，在所述数据集为多个时，根据所述观测集建立回归模型之后，还包括：

根据所有所述数据集的所述回归模型构建回归模型矩阵；

计算所述回归模型矩阵的拟合值。

3.根据权利要求1所述的方法，其特征在于，从一个数据集中获取由不同主机的样本构成的至少一个样本集之后，所述方法还包括：

对所述样本集进行去除干扰以及去除无效数据的操作。

4.根据权利要求1所述的方法，其特征在于，根据所述观测集建立回归模型，包括：

使用最小二乘法对所述回归模型的常系数进行估计。

5.根据权利要求1所述的方法，其特征在于，对所述样本集进行观测，得到观测集，包括：

根据所述样本集随时间变化的移动序列和平滑系数得到所述观测集，其中，所述平滑系数通过权函数获取。

6.一种数据处理装置，其特征在于，包括：

获取模块，用于从一个数据集中获取由不同主机的样本构成的至少一个样本集；

观测模块，用于对所述样本集进行观测，得到观测集；

建立模块，用于根据所述观测集建立回归模型。

7.根据权利要求6所述的装置，其特征在于，在所述数据集为多个时，所述装置还包括：

构建模块，用于在所述建立模块根据所述观测集建立回归模型之后，根据所有所述数据集的所述回归模型构建回归模型矩阵；

计算模块，用于计算所述回归模型矩阵的拟合值。

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：

筛选模块，用于在所述获取模块从一个数据集中获取由不同主机的样本构成的至少一个样本集之后，对所述样本集进行去除干扰以及去除无效数据的操作。

9.根据权利要求6所述的装置，其特征在于，所述建立模块还用于使用最小二乘法对所述回归模型的常系数进行估计。

10.根据权利要求6所述的装置，其特征在于，所述观测模块还用于根据所述样本集随时间变化的移动序列和平滑系数得到所述观测集，其中，所述平滑系数通过权函数获取。