CN106372077A - 基于数据使用频率建立数据分区的方法及设备 - Google Patents

基于数据使用频率建立数据分区的方法及设备 Download PDF

Info

Publication number
CN106372077A
CN106372077A CN201510433889.7A CN201510433889A CN106372077A CN 106372077 A CN106372077 A CN 106372077A CN 201510433889 A CN201510433889 A CN 201510433889A CN 106372077 A CN106372077 A CN 106372077A
Authority
CN
China
Prior art keywords
data
usage frequency
rank
value
record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510433889.7A
Other languages
English (en)
Inventor
孙明
王威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201510433889.7A priority Critical patent/CN106372077A/zh
Publication of CN106372077A publication Critical patent/CN106372077A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供一种基于数据使用频率建立数据分区的方法,包括:设置数据监测周期以及数据使用频率的级别信息,所述级别信息包括指定数量的级别,每个级别均对应一个数据使用频率的数值范围;在所述数据监测周期内,统计数据记录中关注数据项的每个数据值的使用频率,所述数据记录包含时间信息;根据每个数据值的使用频率对应的数据使用频率的数值范围确定该数据值的级别;按照所述关注数据项的各数据值的级别建立分区。根据本发明的技术方案,能够根据数据的使用频率对数据进行冷热度分级,提高了对常用数据分析的查询效率。

Description

基于数据使用频率建立数据分区的方法及设备
技术领域
本发明涉及数据分区(big data partition),具体涉及一种基于数据使用频率建立数据分区的方法及设备。
背景技术
随着信息技术的发展,企业信息系统产生了大量的数据,如何从这些海量数据中快速提取所需数据是我们面临的重要难题。如何在这些日益增长的庞大的数据中快速查询出有价值的数据,是我们要解决的问题。
目前绝大部分解决提升数据查询的方法是基于时间分区的处理方法,即按天、月等时间频度进行数据拆分,以提升数据检索范围,提升查询速度。但是,此种方式存在以下缺陷:
通过时间分区技术进行性能提升,要求用户查询规则中必须带有时间条件,对于不带时间查询条件的,仍需全表扫描,对查询性能没有任何提升。
发明内容
有鉴于此,本发明提供一种基于数据使用频率建立数据分区的方法及设备,能够根据数据的使用频率对数据进行冷热度分级,提高了对常用数据分析的查询效率。
为实现上述目的,根据本发明的一个方面,提供了一种基于数据使用频率建立数据分区的方法,包括:设置数据监测周期以及数据使用频率的级别信息,所述级别信息包括指定数量的级别,每个级别均对应一个数据使用频率的数值范围;在所述数据监测周期内,统计数据记录中关注数据项的每个数据值的使用频率,所述数据记录包含时间信息;根据每个数据值的使用频率对应的数据使用频率的数值范围确定该数据值的级别;按照所述关注数据项的各数据值的级别建立分区。
可选地,所述数据监测周期为自然日、自然周或自然月。
可选地,所述指定数量是5,所述级别包括1-5级。
可选地,所述数据记录是按时间先后次序排序,所述统计的步骤进一步包括:
(a)获取数据记录;
(b)判断该数据记录的时间是否落入所述数据监测周期,若该数据记录的时间超出所述数据监测周期,则转(d);
(c)提取该数据记录中的所述关注数据项的数据值,并相应更新该数据值在所述数据检测周期内的数据使用频率,转(a);
(d)统计结束。
可选地,所述方法用于Hadoop集群,并且利用Hql获得所述数据记录。
可选地,通过脚本来建立分区。
根据本发明的另一个方面,提供了一种基于数据使用频率建立数据分区的设备,包括:用于设置数据监测周期以及数据使用频率的级别信息的装置,所述级别信息包括指定数量的级别,每个级别均对应一个数据使用频率的数值范围;用于在所述数据监测周期内,统计关注数据项的每个数据值的使用频率,并根据所述各个级别对应的数据使用频率的数值范围确定各数据值的级别的装置;用于按照所述关注数据项的各数据值的级别建立分区的装置。
可选地,所述数据监测周期为自然日、自然周或自然月。
可选地,所述指定数量是5,所述级别包括1-5级。
根据本发明的技术方案,能够根据数据的使用频率对数据进行冷热度分级,提高了对常用数据分析的查询效率;能够通过解析Hql自动实现数据的分级规则识别,并按预制频率进行规则自动调整;保证了按数据的使用频率分级后的数据的完整性;能够自动建立基于Hql分析的数据冷热度分区。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明的一种基于数据使用频率建立数据分区的方法的主要步骤的示意图;
图2是根据本发明的统计步骤的主要步骤的示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本发明提供的一种基于数据使用频率建立数据分区的方法。根据数据在特定时段内的使用频率,把数据区分为热数据和冷数据。在指定的时间周期内,使用频率高的数据为热数据,反之为冷数据。
例如在电商的顾客数据中,比如顾客A经常网购,则顾客A相关联的网购相关数据就会比较活跃,因此是热数据;顾客B不常网购,则他相关的数据需求就会非常少,因此相对是冷数据。电商可能需要对顾客A的网购相关数据进行特殊处理,希望这部分数据在检索中会比顾客B的网购相关数据要快。把顾客A和顾客B的数据划分到不同的分区是一种解决这种特殊检索需求的手段。
在这里,电商的客户数据中,所关注的实际是数据记录中的数据项“客户名”,该数据项称为关注数据项。而A和B是该数据项“客户名”的具体数据值。
可根据在设定时间段内统计的关注数据项的各数据值的出现次数来确定相应数据的冷热级别。例如,把数据的冷热级别分为1-5级,当一数据的关注数据项的数据值在设定时段内出现次数在10以上,则相应数据被确定为第1级,当出现次数在7-9,则被确定为第2级,当出现次数在4-6,则为第3级,当出现次数在2-3,则为第4级,当出现次数不超过1,则为第5级。
如图1示出本发明的基于数据使用频率建立数据分区的方法,该方法主要包括如下步骤:
S10:设置数据监测周期以及数据使用频率的级别信息,所述级别信息包括指定数量的级别,每个级别均对应一个数据使用频率的数值范围。所述数据监测周期可以为自然日、自然周或自然月。所述指定数量是5,所述级别可以包括从冷到热的1-5级,并设置相应阀值信息。
S20:在所述数据监测周期内,统计数据记录中关注数据项的每个数据值的使用频率,所述数据记录包含时间信息;
S30:根据每个数据值的使用频率对应的数据使用频率的数值范围确定该数据值的级别;
S40:按照所述关注数据项的各数据值的级别建立分区。所述建立分区是指:按照所述数据监测周期以及数据使用频率的级别信息,将关注数据项的数据值分别存储到不同的文件夹中。
如图2所示,所述数据记录是按时间先后次序排序,所述统计的步骤进一步包括:
(a)获取数据记录;
(b)判断该数据记录的时间是否落入所述数据监测周期,若该数据记录的时间超出所述数据监测周期,则转(d);
(c)提取该数据记录中的所述关注数据项的数据值,并相应更新该数据值在所述数据检测周期内的数据使用频率,转(a);
(d)统计结束。
所述方法用于Hadoop集群,并且利用Hql获得所述数据记录。根据本发明的实施例,在获取数据记录时,具体实施时可以是分析Hadoop集群的Hql,并按照<表、列>,<列值>解析数据。
根据本发明的实施例,按数据使用频率的级别信息,组织分区的脚本,以便于建立分区的执行。
根据本发明,还提供一种基于数据使用频率建立数据分区的设备。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (9)

1.一种基于数据使用频率建立数据分区的方法,其特征在于,包括:
设置数据监测周期以及数据使用频率的级别信息,所述级别信息包括指定数量的级别,每个级别均对应一个数据使用频率的数值范围;
在所述数据监测周期内,统计数据记录中关注数据项的每个数据值的使用频率,所述数据记录包含时间信息;
根据每个数据值的使用频率对应的数据使用频率的数值范围确定该数据值的级别;
按照所述关注数据项的各数据值的级别建立分区。
2.根据权利要求1所述的方法,其特征在于,所述数据监测周期为自然日、自然周或自然月。
3.根据权利要求1所述的方法,其特征在于,所述指定数量是5,所述级别包括1-5级。
4.根据权利要求1所述的方法,其中所述数据记录是按时间先后次序排序,所述统计的步骤进一步包括:
(a)获取数据记录;
(b)判断该数据记录的时间是否落入所述数据监测周期,若该数据记录的时间超出所述数据监测周期,则转(d);
(c)提取该数据记录中的所述关注数据项的数据值,并相应更新该数据值在所述数据检测周期内的数据使用频率,转(a);
(d)统计结束。
5.根据权利要求4所述的方法,其中,所述方法用于Hadoop集群,并且利用Hql获得所述数据记录。
6.根据权利要求4所述的方法,通过脚本来建立分区。
7.一种基于数据使用频率建立数据分区的设备,其特征在于,包括:
用于设置数据监测周期以及数据使用频率的级别信息的装置,所述级别信息包括指定数量的级别,每个级别均对应一个数据使用频率的数值范围;
用于在所述数据监测周期内,统计数据记录中关注数据项的每个数据值的使用频率,所述数据记录包含时间信息的装置;
用于根据每个数据值的使用频率对应的数据使用频率的数值范围确定该数据值的级别的装置;
用于按照所述关注数据项的各数据值的级别建立分区的装置。
8.根据权利要求7所述的基于数据使用频率建立数据分区的设备,其特征在于,所述数据监测周期为自然日、自然周或自然月。
9.根据权利要求7所述的基于数据使用频率建立数据分区的设备,其特征在于,所述指定数量是5,所述级别包括1-5级。
CN201510433889.7A 2015-07-22 2015-07-22 基于数据使用频率建立数据分区的方法及设备 Pending CN106372077A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510433889.7A CN106372077A (zh) 2015-07-22 2015-07-22 基于数据使用频率建立数据分区的方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510433889.7A CN106372077A (zh) 2015-07-22 2015-07-22 基于数据使用频率建立数据分区的方法及设备

Publications (1)

Publication Number Publication Date
CN106372077A true CN106372077A (zh) 2017-02-01

Family

ID=57880607

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510433889.7A Pending CN106372077A (zh) 2015-07-22 2015-07-22 基于数据使用频率建立数据分区的方法及设备

Country Status (1)

Country Link
CN (1) CN106372077A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992409A (zh) * 2018-01-02 2019-07-09 中国移动通信有限公司研究院 数据存储区域的切分方法、装置、系统、电子设备和介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6324620B1 (en) * 1998-07-23 2001-11-27 International Business Machines Corporation Dynamic DASD data management and partitioning based on access frequency utilization and capacity
US20110153687A1 (en) * 2009-12-23 2011-06-23 International Business Machines Corporation Determining a storage location based on frequency of use
CN102541475A (zh) * 2012-03-12 2012-07-04 成都市华为赛门铁克科技有限公司 数据存储方法和数据存储装置
CN102902628A (zh) * 2012-09-18 2013-01-30 记忆科技(深圳)有限公司 一种基于闪存实现的冷热数据自动分离方法、系统及闪存
CN104536904A (zh) * 2014-12-29 2015-04-22 杭州华为数字技术有限公司 一种数据管理的方法、设备与系统
CN104731864A (zh) * 2015-02-26 2015-06-24 国家计算机网络与信息安全管理中心 一种海量非结构化数据的数据存储方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6324620B1 (en) * 1998-07-23 2001-11-27 International Business Machines Corporation Dynamic DASD data management and partitioning based on access frequency utilization and capacity
US20110153687A1 (en) * 2009-12-23 2011-06-23 International Business Machines Corporation Determining a storage location based on frequency of use
CN102541475A (zh) * 2012-03-12 2012-07-04 成都市华为赛门铁克科技有限公司 数据存储方法和数据存储装置
CN102902628A (zh) * 2012-09-18 2013-01-30 记忆科技(深圳)有限公司 一种基于闪存实现的冷热数据自动分离方法、系统及闪存
CN104536904A (zh) * 2014-12-29 2015-04-22 杭州华为数字技术有限公司 一种数据管理的方法、设备与系统
CN104731864A (zh) * 2015-02-26 2015-06-24 国家计算机网络与信息安全管理中心 一种海量非结构化数据的数据存储方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992409A (zh) * 2018-01-02 2019-07-09 中国移动通信有限公司研究院 数据存储区域的切分方法、装置、系统、电子设备和介质
CN109992409B (zh) * 2018-01-02 2021-07-30 中国移动通信有限公司研究院 数据存储区域的切分方法、装置、系统、电子设备和介质

Similar Documents

Publication Publication Date Title
CN107273409B (zh) 一种网络数据采集、存储及处理方法及系统
CN103020281B (zh) 一种基于空间数据数值索引的数据存储与检索方法
CN103778148B (zh) Hadoop分布式文件系统数据文件的生命周期管理方法和设备
CN106372113A (zh) 新闻内容的推送方法及系统
CN103577593B (zh) 一种基于微博热门话题的视频聚合方法及系统
CN103377200A (zh) 用户偏好信息采集方法和装置
CN102831220A (zh) 一种面向主题定制的新闻情报提取系统
US20140207820A1 (en) Method for parallel mining of temporal relations in large event file
CN104714984A (zh) 一种数据库优化的方法和装置
CN102811371A (zh) 智能电视应用程序推荐的方法、系统及装置
CN110321383A (zh) 大数据平台数据同步方法、装置、计算机设备及存储介质
CN106682012A (zh) 商品对象信息搜索方法及装置
CN103593371A (zh) 推荐搜索关键词的方法和装置
CN104636468A (zh) 数据查询分析方法和系统
CN103838754A (zh) 信息搜索装置及方法
CN106709851A (zh) 大数据检索方法及装置
CN102521374A (zh) 基于关系型联机分析处理的智能数据聚集方法及其系统
CN103688256A (zh) 基于评论信息确定视频质量参数的方法、装置和系统
CN106372077A (zh) 基于数据使用频率建立数据分区的方法及设备
CN107301203B (zh) 一种海量数据的比对方法及系统
CN101770474A (zh) 一种基于历史检索记录检索的方法和装置
CN105956069A (zh) 一种网络资讯的采集和分析方法及系统
CN105653674A (zh) 智能终端的文件管理方法及系统
CN107818145A (zh) 一种基于动态爬虫的用户行为分类标签提取方法
CN104298739A (zh) 一种数据处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170201