CN107784195A

CN107784195A - 数据处理方法及装置

Info

Publication number: CN107784195A
Application number: CN201711239275.0A
Authority: CN
Inventors: 楼浩盛
Original assignee: New H3C Big Data Technologies Co Ltd
Current assignee: New H3C Big Data Technologies Co Ltd
Priority date: 2017-11-30
Filing date: 2017-11-30
Publication date: 2018-03-09

Abstract

本发明实施例涉及一种数据处理方法及装置，包括获取数据列及用于对所述数据列进行分割的第一分片数N；其中，所述N为大于0的整数；按照所述第一分片数N，对所述数据列进行分片处理，得到N个第一数据分片；判断所述N个第一数据分片中的每个第一数据分片是否满足预设的切分规则，对满足所述切分规则的所述第一数据分片再次进行分片处理，得到第二数据分片；在所述第二数据分片不满足所述切分规则时，对未满足所述切分规则的所述第一数据分片及所述第二数据分片进行数据处理。根据本发明实施例的一种数据处理方法及装置，能够缓解局部热点的问题，提高数据的采集效率。

Description

数据处理方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据处理方法及装置。

背景技术

随着网络技术(物联网、云计算、云存储等)的发展，伴随而来的是，产生海量的数据，以及如何对数据进行处理的问题。

由于数据量过于庞大，因此在数据采集的过程中，往往采用分布式采集方式进行数据采集，以提高数据的采集效率。但是分布式的采集方式存在数据分布不均匀所导致的部分任务数据量大，部分任务数据量小的局部热点问题，进而导致资源利用率低和降低数据采集效率等问题。

为了使得数据分布均匀，在数据采集前或者数据采集过程中，可以为待采集数据的源表添加递增的id列，每一个id对应一行数据，以人为使得数据分布均匀。

但是一般在数据采集的过程中，用户的数据不允许增加无关字段，另外，上述方案中，增加id列会导致数据量增加，造成存储空间的增加，这样一来，不仅造成资源浪费，还会降低数据的采集效率。

发明内容

有鉴于此，本发明提出了一种数据处理方法及装置，以缓解局部热点的问题，提高数据的采集效率。

在第一方面，本发明提供了一种数据处理方法，所述方法包括：

获取数据列及用于对所述数据列进行分割的第一分片数N；其中，所述N为大于0的整数；

按照所述第一分片数N，对所述数据列进行分片处理，得到N个第一数据分片；

判断所述N个第一数据分片中的每个第一数据分片是否满足预设的切分规则，对满足所述切分规则的所述第一数据分片再次进行分片处理，得到第二数据分片；

在所述第二数据分片不满足所述切分规则时，对未满足所述切分规则的所述第一数据分片及所述第二数据分片进行数据处理。

结合第一方面，在第一种可能的实现方式中，所述判断所述N个第一数据分片中的每个第一数据分片是否满足预设的切分规则，包括：

根据所述数据列对应的总数据量及所述第一分片数N，得到数据量均值；

根据所述第一数据分片对应的数据量与所述数据量均值，确定所述第一数据分片是否满足切分规则。

结合第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述根据所述第一数据分片对应的数据量与所述数据量均值，确定所述第一数据分片是否满足切分规则，包括：

将所述第一数据分片对应的数据量与所述数据量均值进行运算处理，得到运算值；

在所述运算值大于第一阈值时，确定所述第一数据分片满足切分规则。

结合第一方面的第一种、第二种可能的实现方式，在第三种可能的实现方式中，所述对满足所述切分规则的所述第一数据分片再次进行分片处理，包括：

确定第二分片数M；

按照所述第二分片数M对所述第一数据分片进行分片处理，得到对应的第二数据分片。

结合第一方面的第三种可能的实现方式，在第四种可能的实现方式中，所述确定第二分片数M，包括：

根据所述第一数据分片对应的数据量与所述数据量均值确定所述第二分片数M。

在第二方面，本发明提供了一种数据处理装置，所述装置包括：

获取模块，用于获取数据列及用于对所述数据列进行分割的第一分片数N；其中，所述N为大于0的整数；

第一切分模块，用于按照所述第一分片数N，对所述数据列进行分片处理，得到N个第一数据分片；

第二切分模块，用于判断所述N个第一数据分片中的每个第一数据分片是否满足预设的切分规则，对满足所述切分规则的所述第一数据分片再次进行分片处理，得到第二数据分片；

数据处理模块，用于在所述第二数据分片不满足所述切分规则时，对未满足所述切分规则的所述第一数据分片及所述第二数据分片进行数据处理。

结合第二方面，在第一种可能的实现方式中，所述第二切分模块包括：

第一处理子模块，用于根据所述数据列对应的总数据量及所述第一分片数N，得到数据量均值；

第一确定子模块，用于根据所述第一数据分片对应的数据量与所述数据量均值，确定所述第一数据分片是否满足切分规则。

结合第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述第一确定子模块，还用于将所述第一数据分片对应的数据量与所述数据量均值进行运算处理，得到运算值；

结合第一方面的第一种、第二种可能的实现方式，在第三种可能的实现方式中，所述第二切分模块，包括：

第二确定子模块，用于确定第二分片数M；

第二处理子模块，用于按照所述第二分片数M对所述第一数据分片进行分片处理，得到对应的第二数据分片。

结合第二方面的第三种可能的实现方式，在第四种可能的实现方式中，所述第二确定子模块，还用于根据所述第一数据分片对应的数据量与所述数据量均值确定所述第二分片数M。

这样一来，数据处理设备在获取数据列及第一分片数N后，可以根据第一分片数N对数据列进行切分处理，得到N个第一数据分片。数据处理设备对N个第一数据分片中满足切分规则的第一数据分片再次进行切分处理，以得到对应的第二数据分片。在第二数据分片不满足切分规则时，数据处理设备对N个第一数据分片中未满足切分规则的第一数据分片及切分得到的第二数据分片进行数据处理。这样一来，由于数据处理设备对满足切分规则的第一数据分片进行了二次切分，故能够使得最终切分得到的第一数据分片及第二数据分片中的数据量处于一种均匀状态，根据本发明的数据处理方法及装置可以在不对用户的数据进行修改的前提下缓解局部热点的问题，进一步的能够缓解资源浪费的问题，提高数据的采集效率。

根据下面参考附图对示例性实施例的详细说明，本发明的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本发明的示例性实施例、特征和方面，并且用于解释本发明的原理。

图1示出根据本发明一实施例的数据处理方法的流程图；

图2示出本发明一种示例的数据分布示意图；

图3示出根据本发明一实施例的数据处理方法的流程图；

图4示出根据本发明一实施例的数据处理方法的流程图；

图5示出根据本发明一实施例的数据处理装置的结构框图；

图6示出根据本发明一实施例的数据处理装置的结构框图；

图7是根据一示例性实施例示出的一种数据处理装置的硬件结构框图。

具体实施方式

以下将参考附图详细说明本发明的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本发明，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本发明同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本发明的主旨。

本发明实施例可以应用于数据采集的应用场景中。为了解决分布式采集方式中存在的局部热点问题，本发明实施例通过数据处理设备对待采集数据进行切分处理，得到对应的数据分片，并对切分处理得到的数据分片中满足切分规则的数据分片再次进行切分处理，直至得到的数据分片不满足切分规则为止，以解决局部热点问题。

实施例1

图1示出根据本发明一实施例的数据处理方法的流程图。如图1所示，该数据处理方法可应用在数据处理设备。数据处理设备可具体为搭载了数据采集、处理平台的终端设备，例如，台式电脑、个人电脑等等。本发明实施例中数据处理方法包括以下步骤：

步骤101、获取数据列及用于对所述数据列进行分割的第一分片数N；其中，所述N为大于0的整数。

举例来说，数据列可以为能够表示一类数据的特征，例如：数据为存储在数据表中待进行数据分析的数据，数据列可以为数据表中的字段，示例性的，在对某省人口年龄分布数据进行采集时，数据列可以为年龄；或者，在对某省人口职业分布数据进行采集时，数据列可以为职业。第一分片数N可以为数据列对应的分片数。例如：假设第一分片数N为5，则数据列对应可以分为5个分片。

其中，第一分片数N可以由本领域技术人员根据数据处理需求设置。举例来说；本领域技术人员根据经验值设置第一分片数N，或者根据数据处理设备的处理能力及数据量设置第一分片数N，本发明实施例对上述数据列及第一分片数N的确定方式不作限定。

举例来说，数据处理设备响应于用户通过命令行输入的数据列或者第一分片数N，或者数据处理设备响应于用户在对应的输入框输入的数据列或者第一分片数N，以获取对应的数据列或者第一分片数N。

步骤102、按照所述第一分片数N，对所述数据列进行分片处理，得到N个第一数据分片。

数据处理设备根据第一分片数N，对数据列进行分片处理。即，数据处理设备将数据列分成N份，得到N个第一数据分片。其中，每个第一数据分片均对应一定的数据量。

数据处理设备可以根据第一分片数N对上述数据列进行均匀切分。

图2示出本发明一种示例的数据分布示意图。

示例性的，参照图2，示出了一种人口年龄分布示意图。其中，年龄分布为0至100岁。假设当前数据列确定为年龄，第一分片数N为5，则数据处理设备对上述年龄均匀切分成5份，得到五个第一数据分片。即，0-20、20-40、40-60、60-80、80-100各对应一个第一数据分片。数据处理设备统计每个第一数据分片所对应的数据量分别为：100万、310万、130万、50万、4万。

实际上，数据处理设备还可以对数据列进行随机切分。举例来说，数据处理设备可以采用数据取样的方式对数据列对应的数据进行随机取样，并根据取样结果确定数据列对应的数据分布情况，再根据数据分布情况对数据列进行切分。例如：数据处理设备根据第一数值对数据分布密集的区域进行切分，得到第一数值个第一数据分片；根据第二数值对数据分布稀疏的区域进行切分，得到第二数值个第一数据分片；或者，数据处理设备不对数据分布稀疏的区域进行切分。其中，第一数值与第二数值的和为第一分片数N，且第一数值大于第二数值。

步骤103、判断所述N个第一数据分片中的每个第一数据分片是否满足预设的切分规则，对满足所述预设的切分规则的所述第一数据分片再次进行分片处理，得到第二数据分片。

其中，预设的切分规则是判断数据分片(包括第一数据分片及第二数据分片)是否进行再次切分的规则。

举例来说，预设的切分规则可以为：数据分片对应的数据量达到阈值时，则对该数据分片进行再次切分。

数据处理设备根据预设的切分规则，判断N个第一数据分片中的每个第一数据分片是否需要再次进行切分。数据处理设备对满足切分规则的第一数据分片进行分片处理，得到对应的第二数据分片。

举例来说，以上述图2所示的示例为例，假设20-40对应的第一数据分片满足切分规则，则数据处理设备对该第一数据分片进行再次切分。例如：将该第一数据分片切分成两个第二数据分片：20-30对应的第二数据分片及30-40对应的第二数据分片。

步骤104、在所述第二数据分片不满足所述预设的切分规则时，对未满足切分规则的所述第一数据分片及所述第二数据分片进行数据处理。

在对满足预设的切分规则的第一数据分片进行切分后，若得到的第二数据分片仍满足切分规则，则数据处理设备对满足切分规则的第二数据分片继续进行切分。若得到的第二数据分片均不满足切分规则，则数据处理设备停止对第二数据分片的切分。此时，数据处理设备获取未满足切分规则的第一数据分片(即未进行切分的第一数据分片)和第二数据分片，对未满足切分规则的第一数据分片及切分得到的所有第二数据分片进行数据处理(例如：数据分析处理)。

仍以上述图2对应的示例为例，当前未满足切分规则的第一数据分片包括：0-20、40-60、60-80、80-100对应的第一数据分片。第二数据分片包括：20-30对应的第二数据分片及30-40对应的第二数据分片。数据处理设备对上述第一数据分片及第二数据分片进行数据处理。

这样一来，数据处理设备在获取数据列及第一分片数N后，可以根据第一分片数N对数据列进行切分处理，得到N个第一数据分片。数据处理设备对N个第一数据分片中满足切分规则的第一数据分片再次进行切分处理，以得到对应的第二数据分片。在第二数据分片不满足切分规则时，数据处理设备对N个第一数据分片中未满足切分规则的第一数据分片及切分得到的第二数据分片进行数据处理。这样一来，由于数据处理设备对满足切分规则的第一数据分片进行了二次切分，故能够使得最终切分得到的第一数据分片及第二数据分片中的数据量处于一种均匀状态，根据本发明实施例的数据处理方法及装置可以在不对用户的数据进行修改的前提下缓解局部热点的问题，进一步的能够缓解资源浪费的问题，提高数据的采集效率。

图3示出根据本发明一实施例的数据处理方法的流程图，其中步骤301、步骤302、及步骤306分别与前述步骤101、步骤102、及步骤104相类似，本发明实施例在此不再赘述。在一种可能的实现方式中，参照图3，前述步骤103中的判断所述N个第一数据分片中的每个第一数据分片是否满足预设的切分规则，可以包括以下步骤303及步骤304。

步骤301、获取数据列及用于对所述数据列进行分割的第一分片数N；其中，所述N为大于0的整数。

步骤302、按照所述第一分片数N，对所述数据列进行分片处理，得到N个第一数据分片。

步骤303、根据所述数据列对应的总数据量及所述第一分片数N，得到数据量均值。

上述数据量均值表示在数据分布均匀的情况下，数据分片中应对应的数据量。举例来说，可以确定上述数据列对应的总数据量及第一分片数N的比值为数据量均值。仍以图2对应的示例为例，数据列年龄对应的人口总数据量为594万，第一分片数N为5，可以确定上述数据量均值为118万，也就是说每一个数据分片中包含118万人口时，数据分布均匀，不存在局部热点的问题。

步骤304、根据所述第一数据分片对应的数据量与所述数据量均值，确定所述第一数据分片是否满足切分规则。

数据处理设备统计第一数据分片对应的数据量，并将第一数据分片对应的数据量与数据量均值进行比较或者运算处理。数据处理设备根据比较结果或者运算处理结果确定第一数据分片是否满足切分规则。

步骤305、对满足所述切分规则的所述第一数据分片继续进行分片处理，得到第二数据分片。

步骤306、在所述第二数据分片不满足所述预设的切分规则时，对未满足所述切分规则的所述第一数据分片及所述第二数据分片进行数据处理。

可选地，在一种可能的实现方式中，前述步骤304中根据所述第一数据分片对应的数据量与所述数据量均值，确定所述第一数据分片是否满足切分规则的过程，可以包括以下步骤：

其中，作为示例而非限定，数据处理设备对第一数据分片对应的数据量与数据量均值进行相除运算，得到对应的运算值。在运算值满足第一阈值时，数据处理设备确定该第一数据分片满足切分规则，即第一数据分片需再次进行切分处理。其中第一阈值可以由本领域技术人员根据数据处理需求设置的数值，该第一阈值大于1。

举例来说，第一阈值设置为2。在第一数据分片对应的数据量为数据量均值的3倍时，经过相除运算，数据处理设备确定运算值为3。运算值大于第一阈值，故数据处理设备确定第一数据分片满足切分条件。

实际上，也可以在第一数据分片对应的数据量大于数据量均值时，对该第一数据分片进行切分处理，得到对应的第二数据分片。本发明实施例对切分规则不做具体限定。

图4示出根据本发明一实施例的数据处理方法的流程图，其中步骤401、步骤402、及步骤406分别与前述步骤101、步骤102、及步骤104相类似，本发明实施例在此不再赘述。在一种可能的实现方式中，参照图4，前述步骤103中所述对满足所述切分规则的所述第一数据分片再次进行分片处理的过程，可以包括以下步骤404及步骤405。

步骤401、获取数据列及用于对所述数据列进行分割的第一分片数N；其中，所述N为大于0的整数。

步骤402、按照所述第一分片数N，对所述数据列进行分片处理，得到N个第一数据分片。

步骤403、判断所述N个第一数据分片中的每个第一数据分片是否满足预设的切分规则。

步骤404、确定第二分片数M。

步骤405、按照所述第二分片数M对所述第一数据分片进行分片处理，得到对应的第二数据分片。

举例来说，第二分片数M可以与第一分片数N相同。在第一数据分片满足切分条件时，数据处理设备继续将第一数据分片切分成N份，得到N个第二数据分片。

或者，第二分片数M为本领域技术人员预置的数值。例如：预置第二分片数M预置为2，在第一数据分片满足切分条件时，数据处理设备继续将第一数据分片切分成2份，得到2个第二数据分片。

步骤406、在所述第二数据分片不满足所述预设的切分规则时，对未满足所述切分规则的所述第一数据分片及所述第二数据分片进行数据处理。

可选地，在一种可能的实现方式中，数据处理设备确定第二分片数M，可以包括以下步骤：

根据所述运算值，确定所述第二分片数M。

第一数据分片满足切分条件时，数据处理设备确定第一数据分片对应的数据量与数据量均值的比值，也即上述运算值。在上述运算值为整数时，可以将运算值确定为第二分片数M。在上述运算值为非整数时，可以对运算值进行四舍五入处理，将处理后的运算值确定为第二分片数M。数据处理设备按照第二分片数M对第一数据分片进行切分。

举例来说，仍以图2对应的示例为例。数据列中年龄20-40岁对应的第一数据分片的数据量为310万，而数据量均值为118万。将第一数据分片的数据量310万及数据量均值118万进行相除运算，得到运算值为2.62。将运算值进行四舍五入处理后，数据处理设备确定第二分片数M为3。数据处理设备根据第二分片数M对第一数据分片再次进行切分处理，得到3个第二数据分片。

这样一来，数据处理设备得到7个数据分片(包括4个第一数据分片，3个第二数据分片)。数据处理设备对7个数据分片进行数据处理。数据处理设备按照运算值对第一数据分片再次进行切分的方式，可以保证数据列中各数据分片的数据量均匀，以缓解局部热点的问题。

实际上，还可以采用数据取样的方式对第一数据分片内的数据进行随机取样，并根据取样结果确定第一数据分片的数据分布情况，以根据数据分布情况对第一数据分片进行切分，例如：根据第一数值对数据分布密集的区域进行切分，得到第一数值个第二数据分片；根据第二数据对数据分布稀疏的区域进行切分，得到第二数值个第二数据分片，或者不对数据分布稀疏的区域进行切分；其中，第一数值大于第二数值，第二数值可以为0。这样一来，能够缓解局部热点的问题。

图5示出根据本发明一实施例的数据处理装置的结构框图，该数据处理装置可应用在数据处理设备。数据处理设备可具体为移动终端。参照图5，本发明实施例中数据处理装置可以包括：获取模块501、第一切分模块502、第二切分模块503及数据处理模块504。其中，

获取模块501，可以用于获取数据列及用于对所述数据列进行分割的第一分片数N；其中，所述N为大于0的整数；

第一切分模块502，可以用于按照所述第一分片数N，对所述数据列进行分片处理，得到N个第一数据分片；

第二切分模块503，可以用于判断所述N个第一数据分片中的每个第一数据分片是否满足预设的切分规则，对满足所述切分规则的所述第一数据分片再次进行分片处理，得到第二数据分片；

数据处理模块504，可以用于在所述第二数据分片不满足所述切分规则时，对未满足所述切分规则的所述第一数据分片及所述第二数据分片进行数据处理。

图6示出根据本发明一实施例的数据处理装置的结构框图，本发明实施例中数据处理装置可以包括：获取模块601、第一切分模块602、第二切分模块603及数据处理模块604。其中，上述获取模块601、第一切分模块602、第二切分模块603及数据处理模块604与前述获取模块501、第一切分模块502、第二切分模块503及数据处理模块504相类似，本发明实施例在此不再赘述。

在一种可能的实现方式中，参照图6。第二切分模块603可以包括：

第一处理子模块6031，可以用于根据所述数据列对应的总数据量及所述第一分片数N，得到数据量均值；

第一确定子模块6032，可以用于根据所述第一数据分片对应的数据量与所述数据量均值，确定所述第一数据分片是否满足切分规则。

在一种可能的实现方式中，所述第一确定子模块6032，还可以用于将所述第一数据分片对应的数据量与所述数据量均值进行运算处理，得到运算值；

在一种可能的实现方式中，参照图6。上述第二切分模块603可以包括：

第二确定子模块6033，可以用于确定第二分片数M；

第二处理子模块6034，可以用于按照所述第二分片数M对所述第一数据分片进行分片处理，得到对应的第二数据分片。

在一种可能的实现方式中，上述第二确定子模块6034，还可以用于根据所述第一数据分片对应的数据量与所述数据量均值确定所述第二分片数M。

图7是根据一示例性实施例示出的一种数据处理装置的硬件结构框图。在实际应用中，该装置可通过服务器实现。参照图7，该装置700可包括处理器701、存储有机器可执行指令的机器可读存储介质702。处理器701与机器可读存储介质702可经由系统总线703通信。并且，处理器701通过读取机器可读存储介质702中与数据处理方法逻辑对应的机器可执行指令以执行上文所述的数据处理方法。

本文中提到的机器可读存储介质702可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：随机存取存储器(英文：Radom Access Memory，简称：RAM)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述判断所述N个第一数据分片中的每个第一数据分片是否满足预设的切分规则，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一数据分片对应的数据量与所述数据量均值，确定所述第一数据分片是否满足切分规则，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述对满足所述切分规则的所述第一数据分片再次进行分片处理，包括：

确定第二分片数M；

5.根据权利要求4所述的方法，其特征在于，所述确定第二分片数M，包括：

6.一种数据处理装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述第二切分模块包括：

8.根据权利要求7所述的装置，其特征在于，所述第一确定子模块，还用于将所述第一数据分片对应的数据量与所述数据量均值进行运算处理，得到运算值；

9.根据权利要求7或8所述的装置，其特征在于，所述第二切分模块，包括：

第二确定子模块，用于确定第二分片数M；

10.根据权利要求9所述的装置，其特征在于，所述第二确定子模块，还用于根据所述第一数据分片对应的数据量与所述数据量均值确定所述第二分片数M。