CN110008199A

CN110008199A - 一种基于访问热度的数据迁移部署方法

Info

Publication number: CN110008199A
Application number: CN201910227339.8A
Authority: CN
Inventors: 杨灿; 刘宇
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-03-25
Filing date: 2019-03-25
Publication date: 2019-07-12
Anticipated expiration: 2039-03-25
Also published as: CN110008199B

Abstract

本发明公开了一种基于访问热度的数据迁移部署方法，本发明对于已迁移部署于分布式平台的列式数据集，根据其运行时用户访问日志信息，使用预测算法预测下一时段的访问量分布；根据预测得到的访问量分布计算出各个字段的访问次数排序；对预测访问次数最高的一列的字段的数据值的分布重新划分数据子区域，使得该字段的访问次数被均匀分配到新的数据子区域内；系统再根据访问次数最高的列重新划分的数据区域切分数据并在分布式平台上更新其数据部署。本发明结合用户对数据集的实际访问行为实现面向分布式平台的数据迁移部署，使得原始数据集访问热度最高列的访问热度被负载均衡到各个数据节点上，以实现数据集在分布式平台上的综合访问性能最佳。

Description

一种基于访问热度的数据迁移部署方法

技术领域

本发明涉及数据处理领域，具体涉及一种基于访问热度的数据迁移部署方法。

背景技术

随着计算机与信息技术的广泛普及应用，数据信息规模在迅猛增大，有大部分企业因其各业务产生的各式各样的数据仍存储在关系型数据库中。随着数据规模的高速增长，对于传统关系型数据库来说，海量数据带来的存储瓶颈问题以及数据分析处理性能低下问题显得尤为突出，已成为企业亟待解决的问题。在云计算与大数据领域中，有突出性意义并且产生实际应用价值的当属其领域内的分布式平台架构。将海量数据向分布式平台迁移，利用分布式平台提供的资源共享和协同计算的能力，可以很好地解决大规模数据的分析处理问题。在将海量数据迁移至分布式平台后，平台提供给用户的对数据的访问性能对企业来说是一个重要考量指标。在大数据迁移领域，传统的数据迁移算法没有考虑到用户对数据集的实际访问行为，只是单一的根据数据字段划分数据区域，进而切分数据，将数据迁移并部署到分布式平台的各个节点。然而，对于一个实际运行的数据系统，人们对于其数据集的查询访问热度其实是动态变化的，为了实现数据的部署方案与用户访问行为的最优匹配，提升数据系统运行性能。

发明内容

为了克服现有技术存在的缺点与不足，本发明提供一种基于访问热度的数据迁移部署方法。本发明优化传统的数据迁移部署算法，结合用户对数据集的实际访问行为实现面向分布式平台的数据迁移和部署，使得原始数据集中访问热度最高列的访问热度被负载均衡到多个数据节点上，可大大优化数据集在分布式平台上的综合访问性能。

本发明采用如下技术方案：

一种基于访问热度的数据迁移部署方法，包括：

S1在分布式平台中获取待迁移数据集的访问日志数据集，并指定待迁移数据集的切分段数及在分布式平台上的部署更新周期，设定n个在该数据集中最关注的访问字段；

S2通过预测算法对下一时段的访问量分布进行预测，得到n个字段的总访问次数排序；

S3根据得到的访问次数排序，通过基于日志的访问热度负载均衡数据切分算法，对访问次数最大的列重新划分数据区域；

S4根据重新划分的数据区域对待迁移数据集进行切分，并根据切分结果更新数据集在分布式平台的部署。

所述S2还包括判断下一时段的访问量分布与前一段访问量分布是否相同，如果相同，则用户指定日志统计的时间周期，通过原始数据切分算法对n个字段划分数据区域；

统计指定时间周期内的n个字段在各自的数据区域的访问次数；

将访问次数存储在一张访问详情表中，进一步得到n个字段在指定统计时间周期内的总访问次数排序。

所述S2还包括判断下一时段的访问量分布与前一段访问量分布是否相同，如果不同，则用户指定日志预测时长，根据预测时长内的日志数据，通过预测算法预测下一个预测时长内的n个字段的访问量分布，生成访问详情表；

根据访问详情表中的数据得到n个字段的总问次数排序。

所述S3中基于日志访问热度负载均衡数据切分算法，具体为：

S3.1设在一个统计时间周期内访问次数最高的字段列为Hot_Col，访问次数为Hits，数据集被切分成N个区间，将访问次数最高的字段列的访问次数均匀分配给N个区间，每个区间的平均访问量为Hits_arvg；Hot_Col列数据总个数为val_num；

S3.2设val_i为Hot_col列中第i个值，则落在val_i上的访问次数为：

其中，i＝0，1，2，...，val_num-1；

S3.3统计求解访问次数最高的字段列的访问次数：

数据集被切分成N个区间时，每个区间的平均访问量为

S3.4顺序搜索：在i＝0，1，2，...，Val_num-1上求解满足下式的c(x)个数组成的区间：

这里x＝0，1，...，N-1；c(x)为区间内数的个数；

满足c(x)值，其起始和终止位置为求解的数据区间的切分边界，且有

k_x+1-k_x＝c(x)

k_x，k_x+1为数据区间的起始边界和终止边界，并且为该列中数的绝对位置索引，则：

且：

S3.5根据上述步骤求得各个区间的划分边界，对数据集进行切分。

所述预测算法采用一元线性回归预测法、多元线性回归预测法或非线性回归预测法。

所述本发明按照访问次数最高的列切分数据并更新数据部署，其中部署方法中的关键元素可以抽象为一个十一元组，元祖定义及元素约束内容如下：

Component＝{DataSet，DataSetAccessLog，Duration_Predict，n，LogStatisticalTime，

SegmentNum，R_i，C_i，R_iC_j(t_k)，N_{LogStatistical}R_i，Deploy_cycle}

1)DataSet表示用户待迁移的数据集，其又可以定义为一个三元组：DataSet＝{DScolNum，DScolType，DScolContent}。

其中：

a)DScolNum表示数据集包含的字段个数，DScolNum≥2。

b)DScolType表示数据集中包含的数据类型。取值包括以下：

i.数值数据类型

ii.字符数据类型

iii.二进制数据类型

iv.日期和时间数据类型

v.Unicode数据类型

vi.货币数据类型

vii.特殊数据类型

其中除数值数据类型必须包含外，其他字段类型均可选择性包含。

c)DScolContent表示数据集中包含的字段内容信息。

2)DataSetAccessLog表示DataSet的访问日志数据集，其可以定义为一个三元组：DataSetAccessLog＝{DSALcolNum，DSALcolType，DSALcolContent}

其中：

a)DSALcolNum表示数据集包含的字段个数，DSALcolNum≥3。

b)DSALcolType表示数据集中包含的数据类型。取值必须包含如下：

i.日期和时间数据类型

ii.字符数据类型

c)DSALcolContent表示数据集包含的字段内容信息。取值必须包含如下：

i.访问时间

ii.访问字段

iii.访问字段具体值

3)Duration_Predict表示用户指定的预测时长。其中，预测时长单位可为年、季度、月、周、天。

4)n表示用户指定的DataSet中最关注的访问字段的个数，且n≥2。

5)LogStatisticalTime表示用户指定的日志统计时间周期。其中，时间周期单位可为年、季度、月、周、天；统计单位可为天、小时、分钟；

根据用户指定的时间周期单位以及统计单位，可换算出该时间周期内的统计单位总数为LogStatisticalTime_num。

(例：若用户指定LogStatisticalTime＝2/周，统计单位为天，则LogStatisticalTime_num＝14)

6)SegmentNum表示用户指定的数据集切分段数。其中SegmentNum＞0，默认值为1。

7)R_i表示针对数据集DataSet使用原始数据切分算法为其划分出的第i个数据区域，其中i∈{1，2，...，SegmentNum}。

8)C_j表示用户指定的第j个访问字段。所述访问字段的字段类型必须为数值数据类型，且j∈{1，2，...，n}。

9)R_iC_j(t_k)表示k个统计单位时长内落在用户指定的第j个高频访问字段的第i个数据区域的访问次数，其中i∈{1，2，...，SegmentNum}，j∈{1，2，...，n}，k∈{1，2，...，LogStatisticalTime_num}。

10)N_{LogStatisticalTime}R_i表示针对DataSet数据集在LogStatisticalTime周期内的访问热度情况，使用基于日志的访问热度负载均衡数据切分算法为其重新划分出的第i个数据区域，其中i∈{1，2，...，SegmentNum}。

11)Deploy_cycle表示用户指定的DataSet数据集的部署更新周期，周期单位可为年、季度、月、周、天。

本发明的有益效果：

目前，分布式大数据处理平台对大数据的查询分析处理仍然具有较大的技术挑战，在数据量规模比较庞大的情况下，即便是采用分布式数据存储管理以及并行化查询分析计算，也仍然难以达到传统关系型数据库处理中小规模数据时那样的秒级响应性能。本发明从数据部署方面着手，结合用户对分布式平台中数据集的实际访问行为来动态调整数据部署方式，可实现平台中数据集的查询性能优化，进而提升分布式大数据处理平台在大数据集查询分析方面的处理性能。

附图说明

图1是本发明的工作流程图；

图2是本发明实施例的具体工作流程图。

具体实施方式

下面结合实施例及附图，对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例

如图1及图2所示，一种基于访问热度的数据迁移部署方法，主要包括面向分布式平台的大数据迁移部署控制系统，基于数据集访问日志统计分析访问热度，并按照该访问次数最高的列切分数据并更新数据部署的工作步骤，集中基于日志的访问热度负载均衡数据切分算法及一张用于存储周期内访问信息的访问详情表。

本发明具体步骤如下：

S1用户在数据迁移部署控制系统中指定需要迁移部署的数据集DataSet。

S2数据迁移部署控制系统在分布式平台中获取数据集DataSet的访问日志数据集DataSetAccessLog。

S3用户在数据迁移部署控制系统中指定DataSet数据集的切分段数SegmentNum；

S4用户在数据迁移部署控制系统中指定DataSet数据集在分布式平台上的部署更新周期Deploy_cycle；

S5用户在数据迁移部署控制系统中从DataSet的所有字段中指定n个最关注的访问字段

S6数据迁移部署控制系统通过预测算法对下一时段的访问量分布进行预测。如果使用简单预测算法(即下一时段访问量分布与前一时段访问量分布一致)，则转入S7；否则转入S10；

S7用户在数据迁移部署控制系统中指定日志统计的时间周期LogStatisticalTime；

S8数据迁移部署控制系统中通过原始数据切分算法对指定的DataSet的n个字段分别划分数据区间R_i；

S9根据S2中获取的DataSetAccessLog，统计指定时间周期LogStatisticalTime内的n个字段在各自的数据区间R_i的访问次数R_iC_j(t_{LogStatisticalTime_num})，并存储在一张访问详情表中。根据访问详情表中的数据得到该周期内各个字段的总访问次数排序。此时转入S12；

S10用户在数据迁移部署控制系统中指定预测时长Duration_Predict；

S11数据迁移部署控制系统根据DataSetAccessLog数据集中预测时长Duration_Predict内的日志数据，通过预测算法对下一个预测时长内的n个字段的访问量进行预测，并生成访问详情表。根据访问详情表中的数据统计各个字段的访问次数，得到访问次数排序。

S12数据迁移部署控制系统中根据以上过程得到的访问次数排序，使用基于日志的访问热度负载均衡数据切分算法对访问次数最大的列重新划分数据区域N_{LogStatisticalTime}R_i，使得该列的访问次数被均匀分配在各个新的数据区域内。

S13数据迁移部署控制系统根据S12中重新划分的数据区域对对DataSet进行数据切分并根据切分结果更新数据集在分布式平台上的部署。

S14根据用户在S4中指定的DataSet数据集的部署更新周期Deploy_cycle，数据迁移部署控制系统在间隔该周期时长后，检测RDBMS中原始数据集是否新增数据。如果有新增数据，则转入S16，否则转入S15；

S15数据迁移部署控制系统重新从分布式平台中获取在Deploy_cycle时长内DataSet数据集的访问日志数据集，重新执行S3至S14。

S16通过数据迁移部署控制系统将RDBMS中的原始数据集重新迁移部署至分布式平台中。重新执行S1至S14。

所述S8中原始数据切分算法，其具体为：

假设数据集根据Col字段切分，数据集被切分成N个区间

(1)遍历Col字段列的所有数据，求得数据值域为[minVal，maxVal]

(2)计算数据区间间隔interval＝(maxVal-minVal)/N

(3)由2)中得到的区间间隔按序划分出N个数据区间，如下：[minVal，minVal+interval]，...，(minval+(N-1)*interval，maxval]

(4)根据3)中划分的区间对数据集进行切分。

所述基于日志的访问热度负载均衡数据切分算法，具体为：

假设在一个统计时间周期内访问次数最高的字段列为Hot_Col，其访问次数为Hits，数据集被切分成N个区间。将Hot_Col列的访问次数均匀分配给N个区间，每个区间的平均访问量为Hits_arvg；Hot_Col列数据总个数为val_num。为使得访问量均匀化，对数据集划分区间可按照以下步骤求解：

设在一个统计时间周期内访问次数最高的字段列为Hot_Col，访问次数为Hits，数据集被切分成N个区间，将访问次数最高的字段列的访问次数均匀分配给N个区间，每个区间的平均访问量为Hits_arvg；Hot_Col列数据总个数为val_num；

设val_i为Hot_col列中第i个值，则落在val_i上的访问次数为：

其中，i＝0，1，2，...，val_num-1；

统计求解访问次数最高的字段列的访问次数：

数据集被切分成N个区间时，每个区间的平均访问量为

顺序搜索：在i＝0，1，2，...，Val_num-1上求解满足下式的c(x)个数组成的区间：

这里x＝0，1，...，N-1；c(x)为区间内数的个数；

k_x+1-k_x＝c(x)

且：

根据上述步骤求得各个区间的划分边界，对数据集进行切分。

SegmentNum，R_i，C_j，R_iC_j(t_k)，N_{LogStatistical}R_i，Deploy_cycle}

其中：

a)DScolNum表示数据集包含的字段个数，DScolNum≥2。

b)DScolType表示数据集中包含的数据类型。取值包括以下：

i.数值数据类型

ii.字符数据类型

iii.二进制数据类型

iv.日期和时间数据类型

v.Unicode数据类型

vi.货币数据类型

vii.特殊数据类型

c)DScolContent表示数据集中包含的字段内容信息。

其中：

a)DSALcolNum表示数据集包含的字段个数，DSALcolNum≥3。

i.日期和时间数据类型

ii.字符数据类型

i.访问时间

ii.访问字段

iii.访问字段具体值

本发明使用的访问详情表，为一张为一张i行j列的表格。假设统计单位为天，以k天内的日志统计数据为例，其访问详情表如表1所示：

表1

	C<sub>1</sub>	C<sub>2</sub>	C<sub>3</sub>	...	C<sub>j</sub>
						R<sub>1</sub>	R<sub>1</sub>C<sub>1</sub>(t<sub>k</sub>)
R<sub>2</sub>
						R<sub>3</sub>	R<sub>3</sub>C<sub>1</sub>(t<sub>k</sub>)	R<sub>3</sub>C<sub>3</sub>(t<sub>k</sub>)
...
						R<sub>i</sub>			R<sub>i</sub>C<sub>j</sub>(t<sub>k</sub>)

其中：

1)i∈{1，2，...，SegmentNum}

2)k天内C_j字段的值val的访问次数可表示为以下函数：

Access_times＝f(k，C_j，val)

k∈{1，2，...，LogStatisticalTime_num}，j∈{1，2，...，n}

3)2)中Access_times的所有取值情况均记录在访问详情表中

所述S6中的预测方法可使用如下模型：

1)一元线性回归预测法

2)多元线性回归预测法

3)非线性回归预测法。

本发明对于已迁移部署于分布式平台的列式数据集，根据其运行时用户访问日志信息，使用预测算法预测下一时段的访问量分布；根据预测得到的访问量分布计算出各个字段的访问次数排序；对预测访问次数最高的一列的字段的数据值的分布重新划分数据子区域，使得该字段的访问次数被均匀分配到新的数据子区域内；系统再根据访问次数最高的列重新划分的数据区域切分数据并在分布式平台上更新其数据部署。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于访问热度的数据迁移部署方法，其特征在于，包括：

2.根据权利要求1所述一种基于访问热度的数据迁移部署方法，其特征在于，所述S2还包括判断下一时段的访问量分布与前一段访问量分布是否相同，如果相同，则用户指定日志统计的时间周期，通过原始数据切分算法对n个字段划分数据区域；

3.根据权利要求1所述的一种基于访问热度的数据迁移部署方法，其特征在于，所述S2还包括判断下一时段的访问量分布与前一段访问量分布是否相同，如果不同，则用户指定日志预测时长，根据预测时长内的日志数据，通过预测算法预测下一个预测时长内的n个字段的访问量分布，生成访问详情表；

根据访问详情表中的数据得到n个字段的总问次数排序。

4.根据权利要求1所述的一种基于访问热度的数据迁移部署方法，其特征在于，所述S3中基于日志访问热度负载均衡数据切分算法，具体为：

S3.2设val_i为Hot_col列中第i个值，则落在val_i上的访问次数为：

其中，i＝0，1，2，...，val_num-1；

S3.3统计求解访问次数最高的字段列的访问次数：

数据集被切分成N个区间时，每个区间的平均访问量为

这里x＝0，1，...，N-1；c(x)为区间内数的个数；

k_x+1-k_x＝c(x)

且：

5.根据权利要求1所述一种基于访问热度的数据迁移部署方法，其特征在于，所述S4中根据切分结果更新数据集在分布式平台的部署，在部署过程中的关键元素为十一元组，元组定义及元素约束内容如下：

SegmentNum，R_i，C_j，R_iC_j(t_k)，N_{LogStatistical}R_i，Deploy_cycle}

(1)DataSet表示用户待迁移的数据集，其定义为一个三元组：DataSet＝{DScolNum，DScolType，DScolContent}；

其中：

(a)DScolNum表示数据集包含的字段个数，DScolNum≥2；

(b)DScolType表示数据集中包含的数据类型，取值包括以下：数值数据类型，字符数据类型，二进制数据类型，日期和时间数据类型，Unicode数据类型，货币数据类型及特殊数据类型；

其中除数值数据类型必须包含外，其他字段类型均可选择性包含；

(c)DScolContent表示数据集中包含的字段内容信息；

(2)DataSetAccessLog表示DataSet的访问日志数据集，其可以定义为一个三元组：DataSetAccessLog＝{DSALcolNum，DSALcolType，DSALcolContent}

其中：

(a)DSALcolNum表示数据集包含的字段个数，DSALcolNum≥3；

(b)DSALcolType表示数据集中包含的数据类型，取值必须包含如下：

i.日期和时间数据类型

ii.字符数据类型

(c)DSALcolContent表示数据集包含的字段内容信息，取值必须包含如下：访问时间

i.访问字段

ii.访问字段具体值

(3)Duration_Predict表示用户指定的预测时长，其中，预测时长单位可为年、季度、月、周、天；

(4)n表示用户指定的DataSet中最关注的访问字段的个数，且n≥2；

(5)LogStatisticalTime表示用户指定的日志统计时间周期，其中，时间周期单位可为年、季度、月、周、天；统计单位可为天、小时、分钟；

根据用户指定的时间周期单位以及统计单位，可换算出该时间周期内的统计单位总数为LogStatisticalTime_num；

(6)SegmentNum表示用户指定的数据集切分段数，其中SegmentNum＞0，默认值为1；

(7)R_i表示针对数据集DataSet使用原始数据切分算法为其划分出的第i个数据区域，其中i∈{1，2，...，SeentNum}；

(8)C_j表示用户指定的第j个访问字段，所述访问字段的字段类型必须为数值数据类型，且j∈{1，2，...，n}；

(9)R_iC_j(t_k)表示k个统计单位时长内落在用户指定的第j个高频访问字段的第i个数据区域的访问次数，其中i∈{1，2，...，SegmentNum}，j∈{1，2，...，n}，k∈{1，2，...，LogStatisticalTime_num}；

(10)N_{LogstatisticalTime}R_i表示针对DataSet数据集在LogStatisticalTime周期内的访问热度情况，使用基于日志的访问热度负载均衡数据切分算法为其重新划分出的第i个数据区域，其中i∈{1，2，...，SegmentNum}；

(11)Deploy_cycle表示用户指定的DataSet数据集的部署更新周期，周期单位可为年、季度、月、周、天。