CN110008199A - 一种基于访问热度的数据迁移部署方法 - Google Patents

一种基于访问热度的数据迁移部署方法 Download PDF

Info

Publication number
CN110008199A
CN110008199A CN201910227339.8A CN201910227339A CN110008199A CN 110008199 A CN110008199 A CN 110008199A CN 201910227339 A CN201910227339 A CN 201910227339A CN 110008199 A CN110008199 A CN 110008199A
Authority
CN
China
Prior art keywords
data
access
field
data set
indicates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910227339.8A
Other languages
English (en)
Other versions
CN110008199B (zh
Inventor
杨灿
刘宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201910227339.8A priority Critical patent/CN110008199B/zh
Publication of CN110008199A publication Critical patent/CN110008199A/zh
Application granted granted Critical
Publication of CN110008199B publication Critical patent/CN110008199B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/214Database migration support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于访问热度的数据迁移部署方法,本发明对于已迁移部署于分布式平台的列式数据集,根据其运行时用户访问日志信息,使用预测算法预测下一时段的访问量分布;根据预测得到的访问量分布计算出各个字段的访问次数排序;对预测访问次数最高的一列的字段的数据值的分布重新划分数据子区域,使得该字段的访问次数被均匀分配到新的数据子区域内;系统再根据访问次数最高的列重新划分的数据区域切分数据并在分布式平台上更新其数据部署。本发明结合用户对数据集的实际访问行为实现面向分布式平台的数据迁移部署,使得原始数据集访问热度最高列的访问热度被负载均衡到各个数据节点上,以实现数据集在分布式平台上的综合访问性能最佳。

Description

一种基于访问热度的数据迁移部署方法
技术领域
本发明涉及数据处理领域,具体涉及一种基于访问热度的数据迁移部署方法。
背景技术
随着计算机与信息技术的广泛普及应用,数据信息规模在迅猛增大,有大部分企业因其各业务产生的各式各样的数据仍存储在关系型数据库中。随着数据规模的高速增长,对于传统关系型数据库来说,海量数据带来的存储瓶颈问题以及数据分析处理性能低下问题显得尤为突出,已成为企业亟待解决的问题。在云计算与大数据领域中,有突出性意义并且产生实际应用价值的当属其领域内的分布式平台架构。将海量数据向分布式平台迁移,利用分布式平台提供的资源共享和协同计算的能力,可以很好地解决大规模数据的分析处理问题。在将海量数据迁移至分布式平台后,平台提供给用户的对数据的访问性能对企业来说是一个重要考量指标。在大数据迁移领域,传统的数据迁移算法没有考虑到用户对数据集的实际访问行为,只是单一的根据数据字段划分数据区域,进而切分数据,将数据迁移并部署到分布式平台的各个节点。然而,对于一个实际运行的数据系统,人们对于其数据集的查询访问热度其实是动态变化的,为了实现数据的部署方案与用户访问行为的最优匹配,提升数据系统运行性能。
发明内容
为了克服现有技术存在的缺点与不足,本发明提供一种基于访问热度的数据迁移部署方法。本发明优化传统的数据迁移部署算法,结合用户对数据集的实际访问行为实现面向分布式平台的数据迁移和部署,使得原始数据集中访问热度最高列的访问热度被负载均衡到多个数据节点上,可大大优化数据集在分布式平台上的综合访问性能。
本发明采用如下技术方案:
一种基于访问热度的数据迁移部署方法,包括:
S1在分布式平台中获取待迁移数据集的访问日志数据集,并指定待迁移数据集的切分段数及在分布式平台上的部署更新周期,设定n个在该数据集中最关注的访问字段;
S2通过预测算法对下一时段的访问量分布进行预测,得到n个字段的总访问次数排序;
S3根据得到的访问次数排序,通过基于日志的访问热度负载均衡数据切分算法,对访问次数最大的列重新划分数据区域;
S4根据重新划分的数据区域对待迁移数据集进行切分,并根据切分结果更新数据集在分布式平台的部署。
所述S2还包括判断下一时段的访问量分布与前一段访问量分布是否相同,如果相同,则用户指定日志统计的时间周期,通过原始数据切分算法对n个字段划分数据区域;
统计指定时间周期内的n个字段在各自的数据区域的访问次数;
将访问次数存储在一张访问详情表中,进一步得到n个字段在指定统计时间周期内的总访问次数排序。
所述S2还包括判断下一时段的访问量分布与前一段访问量分布是否相同,如果不同,则用户指定日志预测时长,根据预测时长内的日志数据,通过预测算法预测下一个预测时长内的n个字段的访问量分布,生成访问详情表;
根据访问详情表中的数据得到n个字段的总问次数排序。
所述S3中基于日志访问热度负载均衡数据切分算法,具体为:
S3.1设在一个统计时间周期内访问次数最高的字段列为Hot_Col,访问次数为Hits,数据集被切分成N个区间,将访问次数最高的字段列的访问次数均匀分配给N个区间,每个区间的平均访问量为Hitsarvg;Hot_Col列数据总个数为valnum
S3.2设vali为Hot_col列中第i个值,则落在vali上的访问次数为:
其中,i=0,1,2,...,valnum-1;
S3.3统计求解访问次数最高的字段列的访问次数:
数据集被切分成N个区间时,每个区间的平均访问量为
S3.4顺序搜索:在i=0,1,2,...,Valnum-1上求解满足下式的c(x)个数组成的区间:
这里x=0,1,...,N-1;c(x)为区间内数的个数;
满足c(x)值,其起始和终止位置为求解的数据区间的切分边界,且有
kx+1-kx=c(x)
kx,kx+1为数据区间的起始边界和终止边界,并且为该列中数的绝对位置索引,则:
且:
S3.5根据上述步骤求得各个区间的划分边界,对数据集进行切分。
所述预测算法采用一元线性回归预测法、多元线性回归预测法或非线性回归预测法。
所述本发明按照访问次数最高的列切分数据并更新数据部署,其中部署方法中的关键元素可以抽象为一个十一元组,元祖定义及元素约束内容如下:
Component={DataSet,DataSetAccessLog,DurationPredict,n,LogStatisticalTime,
SegmentNum,Ri,Ci,RiCj(tk),NLogStatisticalRi,Deploy_cycle}
1)DataSet表示用户待迁移的数据集,其又可以定义为一个三元组:DataSet={DScolNum,DScolType,DScolContent}。
其中:
a)DScolNum表示数据集包含的字段个数,DScolNum≥2。
b)DScolType表示数据集中包含的数据类型。取值包括以下:
i.数值数据类型
ii.字符数据类型
iii.二进制数据类型
iv.日期和时间数据类型
v.Unicode数据类型
vi.货币数据类型
vii.特殊数据类型
其中除数值数据类型必须包含外,其他字段类型均可选择性包含。
c)DScolContent表示数据集中包含的字段内容信息。
2)DataSetAccessLog表示DataSet的访问日志数据集,其可以定义为一个三元组:DataSetAccessLog={DSALcolNum,DSALcolType,DSALcolContent}
其中:
a)DSALcolNum表示数据集包含的字段个数,DSALcolNum≥3。
b)DSALcolType表示数据集中包含的数据类型。取值必须包含如下:
i.日期和时间数据类型
ii.字符数据类型
c)DSALcolContent表示数据集包含的字段内容信息。取值必须包含如下:
i.访问时间
ii.访问字段
iii.访问字段具体值
3)DurationPredict表示用户指定的预测时长。其中,预测时长单位可为年、季度、月、周、天。
4)n表示用户指定的DataSet中最关注的访问字段的个数,且n≥2。
5)LogStatisticalTime表示用户指定的日志统计时间周期。其中,时间周期单位可为年、季度、月、周、天;统计单位可为天、小时、分钟;
根据用户指定的时间周期单位以及统计单位,可换算出该时间周期内的统计单位总数为LogStatisticalTime_num。
(例:若用户指定LogStatisticalTime=2/周,统计单位为天,则LogStatisticalTime_num=14)
6)SegmentNum表示用户指定的数据集切分段数。其中SegmentNum>0,默认值为1。
7)Ri表示针对数据集DataSet使用原始数据切分算法为其划分出的第i个数据区域,其中i∈{1,2,...,SegmentNum}。
8)Cj表示用户指定的第j个访问字段。所述访问字段的字段类型必须为数值数据类型,且j∈{1,2,...,n}。
9)RiCj(tk)表示k个统计单位时长内落在用户指定的第j个高频访问字段的第i个数据区域的访问次数,其中i∈{1,2,...,SegmentNum},j∈{1,2,...,n},k∈{1,2,...,LogStatisticalTime_num}。
10)NLogStatisticalTimeRi表示针对DataSet数据集在LogStatisticalTime周期内的访问热度情况,使用基于日志的访问热度负载均衡数据切分算法为其重新划分出的第i个数据区域,其中i∈{1,2,...,SegmentNum}。
11)Deploy_cycle表示用户指定的DataSet数据集的部署更新周期,周期单位可为年、季度、月、周、天。
本发明的有益效果:
目前,分布式大数据处理平台对大数据的查询分析处理仍然具有较大的技术挑战,在数据量规模比较庞大的情况下,即便是采用分布式数据存储管理以及并行化查询分析计算,也仍然难以达到传统关系型数据库处理中小规模数据时那样的秒级响应性能。本发明从数据部署方面着手,结合用户对分布式平台中数据集的实际访问行为来动态调整数据部署方式,可实现平台中数据集的查询性能优化,进而提升分布式大数据处理平台在大数据集查询分析方面的处理性能。
附图说明
图1是本发明的工作流程图;
图2是本发明实施例的具体工作流程图。
具体实施方式
下面结合实施例及附图,对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例
如图1及图2所示,一种基于访问热度的数据迁移部署方法,主要包括面向分布式平台的大数据迁移部署控制系统,基于数据集访问日志统计分析访问热度,并按照该访问次数最高的列切分数据并更新数据部署的工作步骤,集中基于日志的访问热度负载均衡数据切分算法及一张用于存储周期内访问信息的访问详情表。
本发明具体步骤如下:
S1用户在数据迁移部署控制系统中指定需要迁移部署的数据集DataSet。
S2数据迁移部署控制系统在分布式平台中获取数据集DataSet的访问日志数据集DataSetAccessLog。
S3用户在数据迁移部署控制系统中指定DataSet数据集的切分段数SegmentNum;
S4用户在数据迁移部署控制系统中指定DataSet数据集在分布式平台上的部署更新周期Deploy_cycle;
S5用户在数据迁移部署控制系统中从DataSet的所有字段中指定n个最关注的访问字段
S6数据迁移部署控制系统通过预测算法对下一时段的访问量分布进行预测。如果使用简单预测算法(即下一时段访问量分布与前一时段访问量分布一致),则转入S7;否则转入S10;
S7用户在数据迁移部署控制系统中指定日志统计的时间周期LogStatisticalTime;
S8数据迁移部署控制系统中通过原始数据切分算法对指定的DataSet的n个字段分别划分数据区间Ri
S9根据S2中获取的DataSetAccessLog,统计指定时间周期LogStatisticalTime内的n个字段在各自的数据区间Ri的访问次数RiCj(tLogStatisticalTime_num),并存储在一张访问详情表中。根据访问详情表中的数据得到该周期内各个字段的总访问次数排序。此时转入S12;
S10用户在数据迁移部署控制系统中指定预测时长DurationPredict
S11数据迁移部署控制系统根据DataSetAccessLog数据集中预测时长DurationPredict内的日志数据,通过预测算法对下一个预测时长内的n个字段的访问量进行预测,并生成访问详情表。根据访问详情表中的数据统计各个字段的访问次数,得到访问次数排序。
S12数据迁移部署控制系统中根据以上过程得到的访问次数排序,使用基于日志的访问热度负载均衡数据切分算法对访问次数最大的列重新划分数据区域NLogStatisticalTimeRi,使得该列的访问次数被均匀分配在各个新的数据区域内。
S13数据迁移部署控制系统根据S12中重新划分的数据区域对对DataSet进行数据切分并根据切分结果更新数据集在分布式平台上的部署。
S14根据用户在S4中指定的DataSet数据集的部署更新周期Deploy_cycle,数据迁移部署控制系统在间隔该周期时长后,检测RDBMS中原始数据集是否新增数据。如果有新增数据,则转入S16,否则转入S15;
S15数据迁移部署控制系统重新从分布式平台中获取在Deploy_cycle时长内DataSet数据集的访问日志数据集,重新执行S3至S14。
S16通过数据迁移部署控制系统将RDBMS中的原始数据集重新迁移部署至分布式平台中。重新执行S1至S14。
所述S8中原始数据切分算法,其具体为:
假设数据集根据Col字段切分,数据集被切分成N个区间
(1)遍历Col字段列的所有数据,求得数据值域为[minVal,maxVal]
(2)计算数据区间间隔interval=(maxVal-minVal)/N
(3)由2)中得到的区间间隔按序划分出N个数据区间,如下:[minVal,minVal+interval],...,(minval+(N-1)*interval,maxval]
(4)根据3)中划分的区间对数据集进行切分。
所述基于日志的访问热度负载均衡数据切分算法,具体为:
假设在一个统计时间周期内访问次数最高的字段列为Hot_Col,其访问次数为Hits,数据集被切分成N个区间。将Hot_Col列的访问次数均匀分配给N个区间,每个区间的平均访问量为Hitsarvg;Hot_Col列数据总个数为valnum。为使得访问量均匀化,对数据集划分区间可按照以下步骤求解:
设在一个统计时间周期内访问次数最高的字段列为Hot_Col,访问次数为Hits,数据集被切分成N个区间,将访问次数最高的字段列的访问次数均匀分配给N个区间,每个区间的平均访问量为Hitsarvg;Hot_Col列数据总个数为valnum
设vali为Hot_col列中第i个值,则落在vali上的访问次数为:
其中,i=0,1,2,...,valnum-1;
统计求解访问次数最高的字段列的访问次数:
数据集被切分成N个区间时,每个区间的平均访问量为
顺序搜索:在i=0,1,2,...,Valnum-1上求解满足下式的c(x)个数组成的区间:
这里x=0,1,...,N-1;c(x)为区间内数的个数;
满足c(x)值,其起始和终止位置为求解的数据区间的切分边界,且有
kx+1-kx=c(x)
kx,kx+1为数据区间的起始边界和终止边界,并且为该列中数的绝对位置索引,则:
且:
根据上述步骤求得各个区间的划分边界,对数据集进行切分。
所述本发明按照访问次数最高的列切分数据并更新数据部署,其中部署方法中的关键元素可以抽象为一个十一元组,元祖定义及元素约束内容如下:
Component={DataSet,DataSetAccessLog,DurationPredict,n,LogStatisticalTime,
SegmentNum,Ri,Cj,RiCj(tk),NLogStatisticalRi,Deploy_cycle}
1)DataSet表示用户待迁移的数据集,其又可以定义为一个三元组:DataSet={DScolNum,DScolType,DScolContent}。
其中:
a)DScolNum表示数据集包含的字段个数,DScolNum≥2。
b)DScolType表示数据集中包含的数据类型。取值包括以下:
i.数值数据类型
ii.字符数据类型
iii.二进制数据类型
iv.日期和时间数据类型
v.Unicode数据类型
vi.货币数据类型
vii.特殊数据类型
其中除数值数据类型必须包含外,其他字段类型均可选择性包含。
c)DScolContent表示数据集中包含的字段内容信息。
2)DataSetAccessLog表示DataSet的访问日志数据集,其可以定义为一个三元组:DataSetAccessLog={DSALcolNum,DSALcolType,DSALcolContent}
其中:
a)DSALcolNum表示数据集包含的字段个数,DSALcolNum≥3。
b)DSALcolType表示数据集中包含的数据类型。取值必须包含如下:
i.日期和时间数据类型
ii.字符数据类型
c)DSALcolContent表示数据集包含的字段内容信息。取值必须包含如下:
i.访问时间
ii.访问字段
iii.访问字段具体值
3)DurationPredict表示用户指定的预测时长。其中,预测时长单位可为年、季度、月、周、天。
4)n表示用户指定的DataSet中最关注的访问字段的个数,且n≥2。
5)LogStatisticalTime表示用户指定的日志统计时间周期。其中,时间周期单位可为年、季度、月、周、天;统计单位可为天、小时、分钟;
根据用户指定的时间周期单位以及统计单位,可换算出该时间周期内的统计单位总数为LogStatisticalTime_num。
(例:若用户指定LogStatisticalTime=2/周,统计单位为天,则LogStatisticalTime_num=14)
6)SegmentNum表示用户指定的数据集切分段数。其中SegmentNum>0,默认值为1。
7)Ri表示针对数据集DataSet使用原始数据切分算法为其划分出的第i个数据区域,其中i∈{1,2,...,SegmentNum}。
8)Cj表示用户指定的第j个访问字段。所述访问字段的字段类型必须为数值数据类型,且j∈{1,2,...,n}。
9)RiCj(tk)表示k个统计单位时长内落在用户指定的第j个高频访问字段的第i个数据区域的访问次数,其中i∈{1,2,...,SegmentNum},j∈{1,2,...,n},k∈{1,2,...,LogStatisticalTime_num}。
10)NLogStatisticalTimeRi表示针对DataSet数据集在LogStatisticalTime周期内的访问热度情况,使用基于日志的访问热度负载均衡数据切分算法为其重新划分出的第i个数据区域,其中i∈{1,2,...,SegmentNum}。
11)Deploy_cycle表示用户指定的DataSet数据集的部署更新周期,周期单位可为年、季度、月、周、天。
本发明使用的访问详情表,为一张为一张i行j列的表格。假设统计单位为天,以k天内的日志统计数据为例,其访问详情表如表1所示:
表1
C<sub>1</sub> C<sub>2</sub> C<sub>3</sub> ... C<sub>j</sub>
R<sub>1</sub> R<sub>1</sub>C<sub>1</sub>(t<sub>k</sub>)
R<sub>2</sub>
R<sub>3</sub> R<sub>3</sub>C<sub>1</sub>(t<sub>k</sub>) R<sub>3</sub>C<sub>3</sub>(t<sub>k</sub>)
...
R<sub>i</sub> R<sub>i</sub>C<sub>j</sub>(t<sub>k</sub>)
其中:
1)i∈{1,2,...,SegmentNum}
2)k天内Cj字段的值val的访问次数可表示为以下函数:
Access_times=f(k,Cj,val)
k∈{1,2,...,LogStatisticalTime_num},j∈{1,2,...,n}
3)2)中Access_times的所有取值情况均记录在访问详情表中
所述S6中的预测方法可使用如下模型:
1)一元线性回归预测法
2)多元线性回归预测法
3)非线性回归预测法。
本发明对于已迁移部署于分布式平台的列式数据集,根据其运行时用户访问日志信息,使用预测算法预测下一时段的访问量分布;根据预测得到的访问量分布计算出各个字段的访问次数排序;对预测访问次数最高的一列的字段的数据值的分布重新划分数据子区域,使得该字段的访问次数被均匀分配到新的数据子区域内;系统再根据访问次数最高的列重新划分的数据区域切分数据并在分布式平台上更新其数据部署。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (5)

1.一种基于访问热度的数据迁移部署方法,其特征在于,包括:
S1在分布式平台中获取待迁移数据集的访问日志数据集,并指定待迁移数据集的切分段数及在分布式平台上的部署更新周期,设定n个在该数据集中最关注的访问字段;
S2通过预测算法对下一时段的访问量分布进行预测,得到n个字段的总访问次数排序;
S3根据得到的访问次数排序,通过基于日志的访问热度负载均衡数据切分算法,对访问次数最大的列重新划分数据区域;
S4根据重新划分的数据区域对待迁移数据集进行切分,并根据切分结果更新数据集在分布式平台的部署。
2.根据权利要求1所述一种基于访问热度的数据迁移部署方法,其特征在于,所述S2还包括判断下一时段的访问量分布与前一段访问量分布是否相同,如果相同,则用户指定日志统计的时间周期,通过原始数据切分算法对n个字段划分数据区域;
统计指定时间周期内的n个字段在各自的数据区域的访问次数;
将访问次数存储在一张访问详情表中,进一步得到n个字段在指定统计时间周期内的总访问次数排序。
3.根据权利要求1所述的一种基于访问热度的数据迁移部署方法,其特征在于,所述S2还包括判断下一时段的访问量分布与前一段访问量分布是否相同,如果不同,则用户指定日志预测时长,根据预测时长内的日志数据,通过预测算法预测下一个预测时长内的n个字段的访问量分布,生成访问详情表;
根据访问详情表中的数据得到n个字段的总问次数排序。
4.根据权利要求1所述的一种基于访问热度的数据迁移部署方法,其特征在于,所述S3中基于日志访问热度负载均衡数据切分算法,具体为:
S3.1设在一个统计时间周期内访问次数最高的字段列为Hot_Col,访问次数为Hits,数据集被切分成N个区间,将访问次数最高的字段列的访问次数均匀分配给N个区间,每个区间的平均访问量为Hitsarvg;Hot_Col列数据总个数为valnum
S3.2设vali为Hot_col列中第i个值,则落在vali上的访问次数为:
其中,i=0,1,2,...,valnum-1;
S3.3统计求解访问次数最高的字段列的访问次数:
数据集被切分成N个区间时,每个区间的平均访问量为
S3.4顺序搜索:在i=0,1,2,...,Valnum-1上求解满足下式的c(x)个数组成的区间:
这里x=0,1,...,N-1;c(x)为区间内数的个数;
满足c(x)值,其起始和终止位置为求解的数据区间的切分边界,且有
kx+1-kx=c(x)
kx,kx+1为数据区间的起始边界和终止边界,并且为该列中数的绝对位置索引,则:
且:
S3.5根据上述步骤求得各个区间的划分边界,对数据集进行切分。
5.根据权利要求1所述一种基于访问热度的数据迁移部署方法,其特征在于,所述S4中根据切分结果更新数据集在分布式平台的部署,在部署过程中的关键元素为十一元组,元组定义及元素约束内容如下:
Component={DataSet,DataSetAccessLog,DurationPredict,n,LogStatisticalTime,
SegmentNum,Ri,Cj,RiCj(tk),NLogStatisticalRi,Deploy_cycle}
(1)DataSet表示用户待迁移的数据集,其定义为一个三元组:DataSet={DScolNum,DScolType,DScolContent};
其中:
(a)DScolNum表示数据集包含的字段个数,DScolNum≥2;
(b)DScolType表示数据集中包含的数据类型,取值包括以下:数值数据类型,字符数据类型,二进制数据类型,日期和时间数据类型,Unicode数据类型,货币数据类型及特殊数据类型;
其中除数值数据类型必须包含外,其他字段类型均可选择性包含;
(c)DScolContent表示数据集中包含的字段内容信息;
(2)DataSetAccessLog表示DataSet的访问日志数据集,其可以定义为一个三元组:DataSetAccessLog={DSALcolNum,DSALcolType,DSALcolContent}
其中:
(a)DSALcolNum表示数据集包含的字段个数,DSALcolNum≥3;
(b)DSALcolType表示数据集中包含的数据类型,取值必须包含如下:
i.日期和时间数据类型
ii.字符数据类型
(c)DSALcolContent表示数据集包含的字段内容信息,取值必须包含如下:访问时间
i.访问字段
ii.访问字段具体值
(3)DurationPredict表示用户指定的预测时长,其中,预测时长单位可为年、季度、月、周、天;
(4)n表示用户指定的DataSet中最关注的访问字段的个数,且n≥2;
(5)LogStatisticalTime表示用户指定的日志统计时间周期,其中,时间周期单位可为年、季度、月、周、天;统计单位可为天、小时、分钟;
根据用户指定的时间周期单位以及统计单位,可换算出该时间周期内的统计单位总数为LogStatisticalTime_num;
(6)SegmentNum表示用户指定的数据集切分段数,其中SegmentNum>0,默认值为1;
(7)Ri表示针对数据集DataSet使用原始数据切分算法为其划分出的第i个数据区域,其中i∈{1,2,...,SeentNum};
(8)Cj表示用户指定的第j个访问字段,所述访问字段的字段类型必须为数值数据类型,且j∈{1,2,...,n};
(9)RiCj(tk)表示k个统计单位时长内落在用户指定的第j个高频访问字段的第i个数据区域的访问次数,其中i∈{1,2,...,SegmentNum},j∈{1,2,...,n},k∈{1,2,...,LogStatisticalTime_num};
(10)NLogstatisticalTimeRi表示针对DataSet数据集在LogStatisticalTime周期内的访问热度情况,使用基于日志的访问热度负载均衡数据切分算法为其重新划分出的第i个数据区域,其中i∈{1,2,...,SegmentNum};
(11)Deploy_cycle表示用户指定的DataSet数据集的部署更新周期,周期单位可为年、季度、月、周、天。
CN201910227339.8A 2019-03-25 2019-03-25 一种基于访问热度的数据迁移部署方法 Active CN110008199B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910227339.8A CN110008199B (zh) 2019-03-25 2019-03-25 一种基于访问热度的数据迁移部署方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910227339.8A CN110008199B (zh) 2019-03-25 2019-03-25 一种基于访问热度的数据迁移部署方法

Publications (2)

Publication Number Publication Date
CN110008199A true CN110008199A (zh) 2019-07-12
CN110008199B CN110008199B (zh) 2023-02-14

Family

ID=67167987

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910227339.8A Active CN110008199B (zh) 2019-03-25 2019-03-25 一种基于访问热度的数据迁移部署方法

Country Status (1)

Country Link
CN (1) CN110008199B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110381153A (zh) * 2019-07-24 2019-10-25 深圳市网心科技有限公司 一种文件部署方法、部署设备、系统及介质
CN111782702A (zh) * 2020-06-29 2020-10-16 北京金山云网络技术有限公司 一种元数据热度排序方法、装置、设备及存储介质
CN112749004A (zh) * 2019-10-30 2021-05-04 中国移动通信集团安徽有限公司 基于节点访问热度的数据存储方法及装置
CN114237501A (zh) * 2021-12-09 2022-03-25 北京美信时代科技有限公司 一种快速识别冷数据的方法及计算机可读存储介质
CN114461369A (zh) * 2022-04-12 2022-05-10 山东省计算中心(国家超级计算济南中心) 一种面向复杂应用场景的自适应数据调度系统及方法
CN117194907A (zh) * 2023-11-08 2023-12-08 国能(北京)商务网络有限公司 数据中台的低价值数据主题识别方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2378435A1 (en) * 2010-04-14 2011-10-19 Spotify Ltd Method of setting up a redistribution scheme of a digital storage system
WO2016165441A1 (zh) * 2015-09-06 2016-10-20 中兴通讯股份有限公司 迁移策略调整方法、容量变更建议方法及装置
CN106294757A (zh) * 2016-08-11 2017-01-04 上海交通大学 一种基于超图划分的分布式数据库及其集群分区方法
WO2017036428A2 (zh) * 2015-09-06 2017-03-09 中兴通讯股份有限公司 容量变更建议方法及装置
CN106937092A (zh) * 2017-04-11 2017-07-07 北京邮电大学 一种分布式计算平台中视频数据迁移方法及装置
CN107276781A (zh) * 2016-04-07 2017-10-20 中国科学院声学研究所 一种带存储的路由器扩展内容分发网络的预部署方法
WO2018000993A1 (zh) * 2016-06-29 2018-01-04 华为技术有限公司 一种分布式存储的方法和系统
CN107728952A (zh) * 2017-10-31 2018-02-23 郑州云海信息技术有限公司 一种预测式数据迁移方法及系统
WO2018047250A1 (ja) * 2016-09-07 2018-03-15 株式会社日立製作所 データベース移行支援装置および方法
WO2018076791A1 (zh) * 2016-10-31 2018-05-03 华为技术有限公司 一种资源负载均衡控制方法及集群调度器
US20190079988A1 (en) * 2017-09-13 2019-03-14 International Business Machines Corporation Distributed data storage

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2378435A1 (en) * 2010-04-14 2011-10-19 Spotify Ltd Method of setting up a redistribution scheme of a digital storage system
WO2016165441A1 (zh) * 2015-09-06 2016-10-20 中兴通讯股份有限公司 迁移策略调整方法、容量变更建议方法及装置
WO2017036428A2 (zh) * 2015-09-06 2017-03-09 中兴通讯股份有限公司 容量变更建议方法及装置
CN107276781A (zh) * 2016-04-07 2017-10-20 中国科学院声学研究所 一种带存储的路由器扩展内容分发网络的预部署方法
WO2018000993A1 (zh) * 2016-06-29 2018-01-04 华为技术有限公司 一种分布式存储的方法和系统
CN106294757A (zh) * 2016-08-11 2017-01-04 上海交通大学 一种基于超图划分的分布式数据库及其集群分区方法
WO2018047250A1 (ja) * 2016-09-07 2018-03-15 株式会社日立製作所 データベース移行支援装置および方法
WO2018076791A1 (zh) * 2016-10-31 2018-05-03 华为技术有限公司 一种资源负载均衡控制方法及集群调度器
CN106937092A (zh) * 2017-04-11 2017-07-07 北京邮电大学 一种分布式计算平台中视频数据迁移方法及装置
US20190079988A1 (en) * 2017-09-13 2019-03-14 International Business Machines Corporation Distributed data storage
CN107728952A (zh) * 2017-10-31 2018-02-23 郑州云海信息技术有限公司 一种预测式数据迁移方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CAN YANG ET,AL: "Personalized Channel Recommendation Deep Learning From a Switch Sequence", 《IEEE ACCESS》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110381153A (zh) * 2019-07-24 2019-10-25 深圳市网心科技有限公司 一种文件部署方法、部署设备、系统及介质
CN112749004A (zh) * 2019-10-30 2021-05-04 中国移动通信集团安徽有限公司 基于节点访问热度的数据存储方法及装置
CN112749004B (zh) * 2019-10-30 2023-09-05 中国移动通信集团安徽有限公司 基于节点访问热度的数据存储方法及装置
CN111782702A (zh) * 2020-06-29 2020-10-16 北京金山云网络技术有限公司 一种元数据热度排序方法、装置、设备及存储介质
CN111782702B (zh) * 2020-06-29 2024-05-03 北京金山云网络技术有限公司 一种元数据热度排序方法、装置、设备及存储介质
CN114237501A (zh) * 2021-12-09 2022-03-25 北京美信时代科技有限公司 一种快速识别冷数据的方法及计算机可读存储介质
CN114237501B (zh) * 2021-12-09 2024-02-27 北京美信时代科技有限公司 一种快速识别冷数据的方法及计算机可读存储介质
CN114461369A (zh) * 2022-04-12 2022-05-10 山东省计算中心(国家超级计算济南中心) 一种面向复杂应用场景的自适应数据调度系统及方法
CN114461369B (zh) * 2022-04-12 2022-08-19 山东省计算中心(国家超级计算济南中心) 一种面向复杂应用场景的自适应数据调度系统及方法
CN117194907A (zh) * 2023-11-08 2023-12-08 国能(北京)商务网络有限公司 数据中台的低价值数据主题识别方法
CN117194907B (zh) * 2023-11-08 2024-02-06 国能(北京)商务网络有限公司 数据中台的低价值数据主题识别方法

Also Published As

Publication number Publication date
CN110008199B (zh) 2023-02-14

Similar Documents

Publication Publication Date Title
CN110008199A (zh) 一种基于访问热度的数据迁移部署方法
US20180196828A1 (en) Split elimination in mapreduce systems
CN104718542B (zh) 利用索引串匹配的上下文盲数据转换
CN103186566B (zh) 一种数据分级存储方法、装置及系统
US8909615B2 (en) System and method of managing capacity of search index partitions
Qian et al. Dynamic author name disambiguation for growing digital libraries
WO2016183105A1 (en) Dynamic aggregate generation and updating for high performance querying of large datasets
GB2541231A (en) Hybrid data storage system and method and program for storing hybrid data
CN105159971B (zh) 一种云平台数据检索方法
CN101133388A (zh) 基于多索引的信息检索系统
McKnight Information management: strategies for gaining a competitive advantage with data
US20200342030A1 (en) System and method for searching chains of regions and associated search operators
Li et al. ASLM: Adaptive single layer model for learned index
CN110825526B (zh) 基于er关系的分布式调度方法及装置、设备以及存储介质
CN105824892A (zh) 一种数据池对数据同步和处理的方法
Ramdane et al. Building a novel physical design of a distributed big data warehouse over a Hadoop cluster to enhance OLAP cube query performance
CN104462462A (zh) 基于业务变化频度的数据仓库建模方法和建模装置
Reis et al. An evaluation of data model for NoSQL document-based databases
Barkhordari et al. Atrak: a MapReduce-based data warehouse for big data
Doherr Disambiguation by namesake risk assessment
CN111241176A (zh) 一种数据治理管理系统
Bakaev et al. Prospects and challenges in online data mining: experiences of three-year labour market monitoring project
US20180107702A1 (en) Automatically identifying synonyms within a token-based database management system
Guo et al. An adaptive data partitioning scheme for accelerating exploratory spark sql queries
Senapati et al. A survey on data warehouse architecture

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant