CN103336844A - 大数据rd分割方法 - Google Patents
大数据rd分割方法 Download PDFInfo
- Publication number
- CN103336844A CN103336844A CN2013103066063A CN201310306606A CN103336844A CN 103336844 A CN103336844 A CN 103336844A CN 2013103066063 A CN2013103066063 A CN 2013103066063A CN 201310306606 A CN201310306606 A CN 201310306606A CN 103336844 A CN103336844 A CN 103336844A
- Authority
- CN
- China
- Prior art keywords
- data
- division
- big
- divided
- divisions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的大数据的RD分割方法,先按数据相关的划分选择数据,再用数据无关的划分将选择的数据分类,然后,采用动态的方式完成该数据无关的划分,最后,根据数据无关划分下的统计量对各类数据计算权重值,并建立数据划分下的数学模型。该方法避免了数据分割存储无序导致数据查询困难等问题,兼顾数据分割的速度和质量,且易于实施,编写代码时只涉及到一些简单的数学模型。通过提取热数据作为处理/挖掘对象,能发现用户感兴趣的模式;利用热数据作为挖掘对象,可以存放在内存,极大地提高了数据存取速度;挖掘热数据具有算法的输入量小,可以解决某些挖掘应用中大数据的4V特性之一的“数据量大”问题;动态生成大数据划分,考虑了用户感兴趣的变化以及数据的演变,体现出挖掘模式的非线性迁移,可以用于控制模式向有益的方向发展。
Description
技术领域
本发明涉及信息技术,特别是大数据的处理,具体是一种大数据的分割方法。
背景技术
今天,人们正面对海量数据,期望发现更完美的知识、做出更精确的求解、推断或者预测。这就是所谓的大数据(Big Data)时代(也称为PB时代),它正在激起对大数据处理与知识获取研究和投资的一次空前大热潮!
大数据是指没有办法在现有物理条件和允许的时间里用常规的软件工具对内容进行抓取、管理和处理的数据集合。大数据有四大特点:Volume(数据量大)、Variety(数据类型繁多)、Value(价值密度低)、Velocity(处理速度快),被简称为4V。大数据处理包括:大数据划分、大数据聚类、大数据在线学习和大数据检索。
在大数据划分方面,不同于目前常见的大数据处理方法,为了快速和有效的划分,利用从高斯回归过程得到的后验在大数据上贯彻采用active
learning技术,已经取得非常好的划分效果。也可以通过设置trace-norm-type正则化因子实现多类大数据的划分问题。
然而,大数据分析与处理是一个极为挑战性的问题,从何入手、怎么利用大数据进行智能活动,等等一系列亟待解决的基本问题。例如,如何从大数据学习知识、发现规则和规律是数据挖掘与机器学习领域必须面对的基本问题。其实,大数据的4V特性就是大数据处理困难的关键所在,需要研究新一代数据分析与处理理论、方法和技术。从国内外学术论文和专利看,尚没有与本专利类似的成果发表。
发明内容
在大数据的4V特性中,巨量的输入是大数据处理算法必须要面对的第一个难关。随着数据量的剧增和网络应用对大数据挖掘需求的提高,使得我们必须抛弃以往保存数据在内存的做法,即,将必需的数据(Requisite
Data, 简称为RD)尽可能约简至能保存在内存中,剩下的数据有序地存放内存之外。本发明针对Volume(数据量大)特性提供一种大数据RD划分方法,不仅是支持新一代数据分析与处理的核心理论基础,而且尽可能适用于传统数据挖掘/机器学习算法的升级改良,或者说,数据划分新策略是独立于任何数据分析与挖掘任务的,即,是应用无关的。有了RD划分方法,大数据处理算法的输入可以是仅仅能反映应用需求的数据部分,便于升级使用传统的数据处理的经典算法。
本发明为了实现发明目的,采用的技术方案为先按数据相关的划分选择数据,再用数据无关的划分将选择的数据分类,然后,采用动态的方式完成该数据无关的划分,最后,根据数据无关划分下的统计量对各类数据计算权重值,并建立数据划分下的数学模型。
所述的数据相关的划分采用C1~C5之一,或者C1~C5任意的混合;
其中,C1:表示按照访问次数将数据分成频繁访问的数据,罕见的或无访问数据,和其它数据;C2:表示按照观察结果将数据分成已知或标记的数据,和未知的或未标记的数据;C3:表示按照类标记的量将数据分成多数类样本,少数类的数据,和其它数据;C4:表示按照时间顺序将数据分成最新数据,过时的数据,和其它数据;C5:表示按照典型案例将数据分成代表性数据和其它数据。
之后还进一步细分和/或加权处理。例如,对于C1,通过统计数据访问/使用的情况,抽取需求模型、数据利用特性,建立用户数据模型,提供高质量、快速服务,是一种绿色、环保的服务(节能减排、节约成本等)。因此,我们可以进一步将访问操作做如下处理:
– 有效访问
l 各种应用性访问
– 平凡访问
l 例行维护性访问
– 访问分级
l 区别不同权重的访问顾客
所述的数据无关的划分采用TOP-K划分,分成前K个数据和其它数据两类;或采用三段划分,将数据分成热数据、温数据和冷数据3类。
所述的动态的方式包括对应TOP-K划分的动态方式和对应三段划分的动态方式;
其中,对应TOP-K划分的动态方式:初始时,任选K个数据为DK组,其它的为Drest组;当数据被使用一段时间或一个窗口宽的次数后,根据数据被访问的次数更新数据利用划分,保持该划分至少在一个窗口内处于一个稳定状态;
对应三段划分的动态方式:初始时,任选T1%、T2%、T3%个数据,形成一个数据划分DT1%、DT2%和DT3%;当数据被使用一段时间或一个窗口宽的次数后,根据数据被访问的次数更新数据利用划分,保持该划分至少在一个窗口内处于一个稳定状态;
上述,T1+T2 +T3
=100。一般可以采取,例如,T1 = 5,T2 = 30和T3
= 65,或T1 = 2,T2 = 27和T3
= 71。
所述的对各类数据计算权重值包括对应TOP-K划分的计算和对应三段划分的计算;
其中,对应TOP-K划分的计算:w1
= p1/|DK|,w2 =
p2/|Drest|;
对应三段划分的计算:w3 = p3/|DT1%|,w4 = p4/|DT2%|,w5 = p5/|DT3%|;
上述,p1、p2、p3、p4 、p5分别为数据划分DK 、Drest、DT1%、 DT2%、DT3%的使用比率; w1
、w2、w3 、w4
、w5分别为数据划分DK、Drest、DT1%、 DT2%、DT3%中数据的权重值。
所述的数据划分下的数学模型包括对应TOP-K划分的数学模型和对应三段划分的数学模型;
其中,对应TOP-K划分的数学模型为w1*DK w2*Drest,
w1 >> w2 ; 对应三段划分的数学模型为w3* DT1% w4*
DT2% w5*
DT3%, w3 >> w4> w5。 这里,:表示数据融合的某种可能的运算,例如,“+”、“Max”。
本发明的大数据RD划分可以定义为数据相关的和数据无关的数据划分方法的有机组合。具体地说,就是采用数据相关的划分方法完成数据无关的划分的一个过程。
本方法的具体步骤又可以解释为如下:
(1)选择或者建立一种数据相关的划分规则。
(2)建立数据无关的划分方法,包括数据的TOP-K划分和三段划分。
其中,TOP-K划分(第一种用户数据模型):
l 数据单位:记录/关系表/数据库之一为单位,也可以根据需要定义数据量的单位。如果不做特别说明,本发明中的介绍以记录为单位。
l
分成两组:被用户使用/存取的频率最高的前K个数据为一组(DK),其它的为一组(Drest)。
三段划分(第二种用户数据模型):
l 取数据量单位的方式与上面相同。
l
访问频率最高的前T1%数据为一组(DT1%),访问频率次高的前T2%数据为一组(DT2%),其它的T3%为一组(DT3%)。如果取T1
= 5,T2 = 30和T3 = 65,则有,访问频率最高的前5%数据为一组(D5%),访问频率次高的前30%数据为一组(D30%),其它的65%为一组(D65%)。本发明将这三组数据分别称为热数据、温数据和冷数据,
本发明的优点是:与现有技术相比,具有如下显而易见的突出实质性特点和显著进步:本发明将大数据分割成两部分或者三部分,提取热数据作为处理/挖掘对象,能发现用户感兴趣的数据中的模式,即,用户感兴趣的模式;利用热数据作为挖掘对象,通常可以存放在内存,极大地提高了数据存取速度;挖掘热数据具有算法的输入量小,可以解决某些挖掘应用中大数据的4V特性之一的“数据量大”问题;动态生成大数据划分,考虑了用户感兴趣的变化以及数据的演变,体现出挖掘模式的非线性迁移,可以用于控制模式向有益的方向发展。
具体实施方式
实施例
1
(1)选择C1划分规则。即把所有的访问次数进行降序排序,访问次数在前5%的为频繁访问数据集,访问次数排在5%至30%的数据为较少访问数据集,访问次数排在30%之后的为无访问数据集。对得到的这三个数据集单独进行数据无关的划分。
(2)动态产生数据无关的TOP-K数据划分:
i 初始时,任选K个数据为DK组,其它的为Drest组;
ii 当数据被使用一段时间/次数(一个窗口宽)时,根据数据被访问的次数更新数据利用划分,保持该划分至少在一个窗口内处于一个稳定状态。
实施例
2
(1)选择C2划分规则。即按照观察结果划分,把数据分成标记数据集和未标记数据集。对得到的数据集单独进行数据无关的划分。
(2)动态产生数据无关的三段数据划分:
i 初始时,任选5%、30%、65%个数据,形成一个数据划分D5%、D30%和D65%;
ii 当数据被使用一段时间/次数(一个窗口宽)时,根据数据被访问的次数更新数据利用划分,保持该划分至少在一个窗口内处于一个稳定状态。
上述实施例子,仅为对本发明的目的、技术方案和有益效果进一步详细说明的具体个例,本发明并非限定于此。凡在本发明的公开的范围之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围之内。
Claims (8)
1.大数据RD分割方法,其特征在于:先按数据相关的划分选择数据,再用数据无关的划分将选择的数据分类,然后,采用动态的方式完成该数据无关的划分,最后,根据数据无关划分下的统计量对各类数据计算权重值,并建立数据划分下的数学模型。
2.根据权利要求1所述的大数据RD分割方法,其特征在于:数据相关的划分采用C1~C5之一,或者C1~C5任意的混合;
其中,C1:表示按照访问次数将数据分成频繁访问的数据,罕见的或无访问数据,和其它数据;C2:表示按照观察结果将数据分成已知或标记的数据,和未知的或未标记的数据;C3:表示按照类标记的量将数据分成多数类样本,少数类的数据,和其它数据;C4:表示按照时间顺序将数据分成最新数据,过时的数据,和其它数据;C5:表示按照典型案例将数据分成代表性数据和其它数据。
3.根据权利要求2所述的大数据RD分割方法,其特征在于:还进一步细分和/或加权处理。
4.根据权利要求1所述的大数据RD分割方法,其特征在于:数据无关的划分采用TOP-K划分,分成前K个数据和其它数据两类;或采用三段划分,将数据分成热数据、温数据和冷数据3类。
5.根据权利要求1所述的大数据RD分割方法,其特征在于:动态的方式包括对应TOP-K划分的动态方式和对应三段划分的动态方式;
其中,对应TOP-K划分的动态方式:初始时,任选K个数据为DK组,其它的为Drest组;当数据被使用一段时间或一个窗口宽的次数后,根据数据被访问的次数更新数据利用划分,保持该划分至少在一个窗口内处于一个稳定状态;
对应三段划分的动态方式:初始时,任选T1%、T2%、T3%个数据,形成一个数据划分DT1%、DT2%和DT3%;当数据被使用一段时间或一个窗口宽的次数后,根据数据被访问的次数更新数据利用划分,保持该划分至少在一个窗口内处于一个稳定状态;
上述,T1+T2
+T3 =100。
6.根据权利要求5所述的大数据RD分割方法,其特征在于:T1 = 5,T2 = 30和T3 = 65,或T1 = 2,T2 = 27和T3 = 71。
7.根据权利要求1所述的大数据RD分割方法,其特征在于:对各类数据计算权重值包括对应TOP-K划分的计算和对应三段划分的计算;
其中,对应TOP-K划分的计算:w1 = p1/|DK|,w2 = p2/|Drest|;
对应三段划分的计算:w3
= p3/| DT1%|,w4 = p4/| DT2%|,w5 = p5/| DT3%|;
上述,p1、p2、p3、p4 、p5分别为数据划分DK 、Drest、DT1%、 DT2%、DT3%的使用比率; w1 、w2、w3 、w4 、w5分别为数据划分DK 、Drest、DT1%、 DT2%、DT3%中数据的权重值。
8.根据权利要求1所述的大数据RD分割方法,其特征在于:数据划分下的数学模型包括对应TOP-K划分的数学模型和对应三段划分的数学模型;
其中,对应TOP-K划分的数学模型为w1*DK
Å w2*Drest, w1 >> w2
;
对应三段划分的数学模型为w3*
DT1% Å w4* DT2% Å w5* DT3%,
w3 >> w4> w5; Å:表示数据融合的某种可能运算,例如,+或者Max。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310306606.3A CN103336844B (zh) | 2013-07-22 | 2013-07-22 | 大数据rd分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310306606.3A CN103336844B (zh) | 2013-07-22 | 2013-07-22 | 大数据rd分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103336844A true CN103336844A (zh) | 2013-10-02 |
CN103336844B CN103336844B (zh) | 2016-12-28 |
Family
ID=49245009
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310306606.3A Active CN103336844B (zh) | 2013-07-22 | 2013-07-22 | 大数据rd分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103336844B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104506494A (zh) * | 2014-12-08 | 2015-04-08 | 索心 | 移动互联网云计算、大数据、安全系统 |
CN106096224A (zh) * | 2016-05-10 | 2016-11-09 | 深圳前海信息技术有限公司 | 对无序分类变量信息无损分组的方法及装置 |
WO2016184159A1 (zh) * | 2015-05-18 | 2016-11-24 | 中兴通讯股份有限公司 | 大数据计算的方法及系统 |
CN109002840A (zh) * | 2018-06-26 | 2018-12-14 | 北京纵目安驰智能科技有限公司 | 一种基于级联的语义分割方法、系统、终端和存储介质 |
CN109919193A (zh) * | 2019-01-31 | 2019-06-21 | 中国科学院上海光学精密机械研究所 | 一种大数据的智能分级方法、系统及终端 |
WO2019169619A1 (zh) * | 2018-03-09 | 2019-09-12 | 深圳大学 | 大数据随机采样数据子块的划分方法及装置 |
CN110968564A (zh) * | 2018-09-28 | 2020-04-07 | 阿里巴巴集团控股有限公司 | 一种数据处理方法及数据状态预测模型的训练方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101595459A (zh) * | 2006-12-01 | 2009-12-02 | 美国日本电气实验室公司 | 用于快速且有效数据管理和/或处理的方法和系统 |
US20120121166A1 (en) * | 2010-11-12 | 2012-05-17 | Texas Instruments Incorporated | Method and apparatus for three dimensional parallel object segmentation |
CN103077221A (zh) * | 2012-12-29 | 2013-05-01 | 深圳先进技术研究院 | 一种海量数据自动放置装置和方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8868838B1 (en) * | 2008-11-21 | 2014-10-21 | Nvidia Corporation | Multi-class data cache policies |
CN102364474B (zh) * | 2011-11-17 | 2014-08-20 | 中国科学院计算技术研究所 | 用于机群文件系统的元数据存储系统和管理方法 |
-
2013
- 2013-07-22 CN CN201310306606.3A patent/CN103336844B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101595459A (zh) * | 2006-12-01 | 2009-12-02 | 美国日本电气实验室公司 | 用于快速且有效数据管理和/或处理的方法和系统 |
US20120121166A1 (en) * | 2010-11-12 | 2012-05-17 | Texas Instruments Incorporated | Method and apparatus for three dimensional parallel object segmentation |
CN103077221A (zh) * | 2012-12-29 | 2013-05-01 | 深圳先进技术研究院 | 一种海量数据自动放置装置和方法 |
Non-Patent Citations (2)
Title |
---|
DYDIA DELYSER ET AL.: "Crossing the qualitative-quantitative divide II: Inventive approaches to big data, mobile methods, and rhythm analysis", 《PROGRESS IN HUMAN GEOGRAPHY》, vol. 37, no. 2, 30 April 2013 (2013-04-30), pages 293 - 305 * |
李伏等: "混合MapReduce环境下大数据划分的查询优化", 《计算机科学与探索》, vol. 6, no. 10, 30 December 2012 (2012-12-30), pages 877 - 887 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104506494A (zh) * | 2014-12-08 | 2015-04-08 | 索心 | 移动互联网云计算、大数据、安全系统 |
WO2016184159A1 (zh) * | 2015-05-18 | 2016-11-24 | 中兴通讯股份有限公司 | 大数据计算的方法及系统 |
CN106096224A (zh) * | 2016-05-10 | 2016-11-09 | 深圳前海信息技术有限公司 | 对无序分类变量信息无损分组的方法及装置 |
WO2019169619A1 (zh) * | 2018-03-09 | 2019-09-12 | 深圳大学 | 大数据随机采样数据子块的划分方法及装置 |
CN109002840A (zh) * | 2018-06-26 | 2018-12-14 | 北京纵目安驰智能科技有限公司 | 一种基于级联的语义分割方法、系统、终端和存储介质 |
CN110968564A (zh) * | 2018-09-28 | 2020-04-07 | 阿里巴巴集团控股有限公司 | 一种数据处理方法及数据状态预测模型的训练方法 |
CN110968564B (zh) * | 2018-09-28 | 2023-04-25 | 阿里巴巴集团控股有限公司 | 一种数据处理方法及数据状态预测模型的训练方法 |
CN109919193A (zh) * | 2019-01-31 | 2019-06-21 | 中国科学院上海光学精密机械研究所 | 一种大数据的智能分级方法、系统及终端 |
Also Published As
Publication number | Publication date |
---|---|
CN103336844B (zh) | 2016-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103336844A (zh) | 大数据rd分割方法 | |
CN103324724B (zh) | 数据处理方法及装置 | |
Ma et al. | Measurement and decomposition of energy efficiency of Northeast China—based on super efficiency DEA model and Malmquist index | |
CN107066476A (zh) | 一种基于物品相似度的实时推荐方法 | |
CN104461389B (zh) | 一种混合存储器中数据迁移的自学习的方法 | |
CN105808358B (zh) | 一种用于众核系统的数据相关性线程分组映射方法 | |
CN103500213B (zh) | 基于预读取的页面热点资源更新方法和装置 | |
CN107533511A (zh) | 使用假想高速缓存的实时高速缓存行为预报 | |
CN104156811A (zh) | 一种基于云海os的账单生成方法 | |
CN103324765A (zh) | 一种基于列存储的多核并行数据查询优化方法 | |
CN103699534B (zh) | 系统目录中数据对象的显示方法及装置 | |
JP6696062B2 (ja) | Hadoopに基づいて、複数の2MB以下のファイルをキャッシュする方法 | |
CN103324577B (zh) | 基于最小化io访问冲突和文件分条的大规模分条文件分配系统 | |
CN115858719B (zh) | 一种基于大数据分析的sim卡活跃度预测方法及系统 | |
CN204406303U (zh) | 一种计算机用内存条固定装置 | |
CN103684877B (zh) | 一种为网络内容服务选取基础设施的方法和装置 | |
CN204680034U (zh) | 指纹识别处理系统 | |
CN106354433A (zh) | 分布式内存存储系统的热点数据挖掘方法及装置 | |
Wen et al. | Water consumption analysis system based on data mining | |
CN104050180B (zh) | 文件指纹处理方法及装置 | |
Yang et al. | Clues: a unified framework supporting interactive exploration of density-based clusters in streams | |
Rong et al. | Direct out-of-memory distributed parallel frequent pattern mining | |
Wu et al. | Study on the relationship between agglomeration of service industry and economic growth in Yangtze River Delta based on spatial econometric models | |
CN109558905A (zh) | 一种基于K-means的能耗感知的数据分类方法 | |
CN111523634B (zh) | 一种基于类粒子群正态优化算法的skinny算法组件优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |