CN103336844A

CN103336844A - 大数据rd分割方法

Info

Publication number: CN103336844A
Application number: CN2013103066063A
Authority: CN
Inventors: 张师超
Original assignee: Guangxi Normal University
Current assignee: Guangxi Normal University
Priority date: 2013-07-22
Filing date: 2013-07-22
Publication date: 2013-10-02
Anticipated expiration: 2033-07-22
Also published as: CN103336844B

Abstract

本发明的大数据的RD分割方法，先按数据相关的划分选择数据，再用数据无关的划分将选择的数据分类，然后，采用动态的方式完成该数据无关的划分，最后，根据数据无关划分下的统计量对各类数据计算权重值，并建立数据划分下的数学模型。该方法避免了数据分割存储无序导致数据查询困难等问题，兼顾数据分割的速度和质量，且易于实施，编写代码时只涉及到一些简单的数学模型。通过提取热数据作为处理/挖掘对象，能发现用户感兴趣的模式；利用热数据作为挖掘对象，可以存放在内存，极大地提高了数据存取速度；挖掘热数据具有算法的输入量小，可以解决某些挖掘应用中大数据的4V特性之一的“数据量大”问题；动态生成大数据划分，考虑了用户感兴趣的变化以及数据的演变，体现出挖掘模式的非线性迁移，可以用于控制模式向有益的方向发展。

Description

大数据 RD 分割方法

技术领域

本发明涉及信息技术，特别是大数据的处理，具体是一种大数据的分割方法。

背景技术

今天，人们正面对海量数据，期望发现更完美的知识、做出更精确的求解、推断或者预测。这就是所谓的大数据（Big Data）时代(也称为PB时代)，它正在激起对大数据处理与知识获取研究和投资的一次空前大热潮！

大数据是指没有办法在现有物理条件和允许的时间里用常规的软件工具对内容进行抓取、管理和处理的数据集合。大数据有四大特点：Volume（数据量大）、Variety（数据类型繁多）、Value（价值密度低）、Velocity（处理速度快），被简称为4V。大数据处理包括：大数据划分、大数据聚类、大数据在线学习和大数据检索。

在大数据划分方面，不同于目前常见的大数据处理方法，为了快速和有效的划分，利用从高斯回归过程得到的后验在大数据上贯彻采用active learning技术，已经取得非常好的划分效果。也可以通过设置trace-norm-type正则化因子实现多类大数据的划分问题。

然而，大数据分析与处理是一个极为挑战性的问题，从何入手、怎么利用大数据进行智能活动，等等一系列亟待解决的基本问题。例如，如何从大数据学习知识、发现规则和规律是数据挖掘与机器学习领域必须面对的基本问题。其实，大数据的4V特性就是大数据处理困难的关键所在，需要研究新一代数据分析与处理理论、方法和技术。从国内外学术论文和专利看，尚没有与本专利类似的成果发表。

发明内容

在大数据的4V特性中，巨量的输入是大数据处理算法必须要面对的第一个难关。随着数据量的剧增和网络应用对大数据挖掘需求的提高，使得我们必须抛弃以往保存数据在内存的做法，即，将必需的数据(Requisite Data, 简称为RD)尽可能约简至能保存在内存中，剩下的数据有序地存放内存之外。本发明针对Volume（数据量大）特性提供一种大数据RD划分方法，不仅是支持新一代数据分析与处理的核心理论基础，而且尽可能适用于传统数据挖掘/机器学习算法的升级改良，或者说，数据划分新策略是独立于任何数据分析与挖掘任务的，即，是应用无关的。有了RD划分方法，大数据处理算法的输入可以是仅仅能反映应用需求的数据部分，便于升级使用传统的数据处理的经典算法。

本发明为了实现发明目的，采用的技术方案为先按数据相关的划分选择数据，再用数据无关的划分将选择的数据分类，然后，采用动态的方式完成该数据无关的划分，最后，根据数据无关划分下的统计量对各类数据计算权重值，并建立数据划分下的数学模型。

所述的数据相关的划分采用C1～C5之一，或者C1～C5任意的混合；

其中，C1：表示按照访问次数将数据分成频繁访问的数据，罕见的或无访问数据，和其它数据；C2：表示按照观察结果将数据分成已知或标记的数据，和未知的或未标记的数据；C3：表示按照类标记的量将数据分成多数类样本，少数类的数据，和其它数据；C4：表示按照时间顺序将数据分成最新数据，过时的数据，和其它数据；C5：表示按照典型案例将数据分成代表性数据和其它数据。

之后还进一步细分和／或加权处理。例如，对于C1，通过统计数据访问/使用的情况，抽取需求模型、数据利用特性，建立用户数据模型，提供高质量、快速服务，是一种绿色、环保的服务（节能减排、节约成本等）。因此，我们可以进一步将访问操作做如下处理：

– 有效访问

l 各种应用性访问

– 平凡访问

l 例行维护性访问

– 访问分级

l 区别不同权重的访问顾客

所述的数据无关的划分采用TOP-K划分，分成前K个数据和其它数据两类；或采用三段划分，将数据分成热数据、温数据和冷数据3类。

所述的动态的方式包括对应TOP-K划分的动态方式和对应三段划分的动态方式；

其中，对应TOP-K划分的动态方式：初始时，任选K个数据为D_K组，其它的为D_rest组；当数据被使用一段时间或一个窗口宽的次数后，根据数据被访问的次数更新数据利用划分，保持该划分至少在一个窗口内处于一个稳定状态；

对应三段划分的动态方式：初始时，任选T_１%、T_２%、T_３%个数据，形成一个数据划分D_T1%、D_T2%和D_T3%；当数据被使用一段时间或一个窗口宽的次数后，根据数据被访问的次数更新数据利用划分，保持该划分至少在一个窗口内处于一个稳定状态；

上述，T₁+T₂ +T₃ =100。一般可以采取，例如，T₁ = 5，T₂ = 30和T₃ = 65，或T₁ = 2，T₂ = 27和T₃ = 71。

所述的对各类数据计算权重值包括对应TOP-K划分的计算和对应三段划分的计算；

其中，对应TOP-K划分的计算：w₁ = p₁/|D_K|，w₂ = p₂/|D_rest|；

对应三段划分的计算：w₃ = p₃/|D_T1%|，w₄ = p₄/|D_T2%|，w₅ = p₅/|D_T3%|；

上述，p₁、p₂、p₃、p₄ 、p₅分别为数据划分D_K _、D_rest、D_T1%、 D_T2%、D_T3%的使用比率； w₁ 、w₂、w₃ 、w₄ 、w₅分别为数据划分D_K、D_rest、D_T1%、 D_T2%、D_T3%中数据的权重值。

所述的数据划分下的数学模型包括对应TOP-K划分的数学模型和对应三段划分的数学模型；

其中，对应TOP-K划分的数学模型为w₁*D_K

Figure 2013103066063100002DEST_PATH_IMAGE001

w₂*D_rest, w₁ >> w₂ ；对应三段划分的数学模型为w₃* D_T1%

w₄* D_T2%

w₅* D_T3%, w₃ >> w₄> w₅。这里，

：表示数据融合的某种可能的运算，例如，“+”、“Max”。

本发明的大数据RD划分可以定义为数据相关的和数据无关的数据划分方法的有机组合。具体地说，就是采用数据相关的划分方法完成数据无关的划分的一个过程。

本方法的具体步骤又可以解释为如下：

（1）选择或者建立一种数据相关的划分规则。

（2）建立数据无关的划分方法，包括数据的TOP-K划分和三段划分。

其中，TOP-K划分（第一种用户数据模型）：

l 数据单位：记录/关系表/数据库之一为单位，也可以根据需要定义数据量的单位。如果不做特别说明，本发明中的介绍以记录为单位。

l 分成两组：被用户使用/存取的频率最高的前K个数据为一组(D_K)，其它的为一组(D_rest)。

三段划分（第二种用户数据模型）：

l 取数据量单位的方式与上面相同。

l 访问频率最高的前Ｔ_１%数据为一组(D_T1%)，访问频率次高的前Ｔ_２%数据为一组(D_T2%)，其它的Ｔ_３%为一组(D_T3%)。如果取T₁ = 5，T₂ = 30和T₃ = 65，则有，访问频率最高的前5%数据为一组(D_5%)，访问频率次高的前30%数据为一组(D_30%)，其它的65%为一组(D_65%)。本发明将这三组数据分别称为热数据、温数据和冷数据，

本发明的优点是：与现有技术相比，具有如下显而易见的突出实质性特点和显著进步：本发明将大数据分割成两部分或者三部分，提取热数据作为处理/挖掘对象，能发现用户感兴趣的数据中的模式，即，用户感兴趣的模式；利用热数据作为挖掘对象，通常可以存放在内存，极大地提高了数据存取速度；挖掘热数据具有算法的输入量小，可以解决某些挖掘应用中大数据的4V特性之一的“数据量大”问题；动态生成大数据划分，考虑了用户感兴趣的变化以及数据的演变，体现出挖掘模式的非线性迁移，可以用于控制模式向有益的方向发展。

具体实施方式

实施例 1

（1）选择C1划分规则。即把所有的访问次数进行降序排序，访问次数在前5%的为频繁访问数据集，访问次数排在5%至30%的数据为较少访问数据集，访问次数排在30%之后的为无访问数据集。对得到的这三个数据集单独进行数据无关的划分。

（2）动态产生数据无关的TOP-K数据划分：

i 初始时，任选K个数据为D_K组，其它的为D_rest组；

ii 当数据被使用一段时间/次数（一个窗口宽）时，根据数据被访问的次数更新数据利用划分，保持该划分至少在一个窗口内处于一个稳定状态。

实施例 2

（1）选择C2划分规则。即按照观察结果划分，把数据分成标记数据集和未标记数据集。对得到的数据集单独进行数据无关的划分。

（2）动态产生数据无关的三段数据划分：

i 初始时，任选5%、30%、65%个数据，形成一个数据划分D_5%、D_30%和D_65%；

上述实施例子，仅为对本发明的目的、技术方案和有益效果进一步详细说明的具体个例，本发明并非限定于此。凡在本发明的公开的范围之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围之内。

Claims

1.大数据RD分割方法，其特征在于：先按数据相关的划分选择数据，再用数据无关的划分将选择的数据分类，然后，采用动态的方式完成该数据无关的划分，最后，根据数据无关划分下的统计量对各类数据计算权重值，并建立数据划分下的数学模型。

2.根据权利要求1所述的大数据RD分割方法，其特征在于：数据相关的划分采用C1～C5之一，或者C1～C5任意的混合；

3.根据权利要求2所述的大数据RD分割方法，其特征在于：还进一步细分和/或加权处理。

4.根据权利要求１所述的大数据RD分割方法，其特征在于：数据无关的划分采用TOP-K划分，分成前K个数据和其它数据两类；或采用三段划分，将数据分成热数据、温数据和冷数据3类。

5.根据权利要求１所述的大数据RD分割方法，其特征在于：动态的方式包括对应TOP-K划分的动态方式和对应三段划分的动态方式；

上述，T₁+T₂ +T₃ =100。

6.根据权利要求5所述的大数据RD分割方法，其特征在于：T₁ = 5，T₂ = 30和T₃ = 65，或T₁ = 2，T₂ = 27和T₃ = 71。

7.根据权利要求１所述的大数据RD分割方法，其特征在于：对各类数据计算权重值包括对应TOP-K划分的计算和对应三段划分的计算；

对应三段划分的计算：w₃ = p₃/| D_T1%|，w₄ = p₄/| D_T2%|，w₅ = p₅/| D_T3%|；

上述，p₁、p₂、p₃、p₄ 、p₅分别为数据划分D_K _、D_rest、D_T1%、 D_T2%、D_T3%的使用比率； w₁ 、w₂、w₃ 、w₄ 、w₅分别为数据划分D_K _、D_rest、D_T1%、 D_T2%、D_T3%中数据的权重值。

8.根据权利要求１所述的大数据RD分割方法，其特征在于：数据划分下的数学模型包括对应TOP-K划分的数学模型和对应三段划分的数学模型；

其中，对应TOP-K划分的数学模型为w₁*D_K Å w₂*D_rest, w₁ >> w₂ ；对应三段划分的数学模型为w₃* D_T1% Å w₄* D_T2% Å w₅* D_T3%, w₃ >> w₄> w₅； Å：表示数据融合的某种可能运算，例如，+或者Max。