CN108170846B

CN108170846B - 基于弹性表模型的大规模多源异构数据持久化方法

Info

Publication number: CN108170846B
Application number: CN201810045677.5A
Authority: CN
Inventors: 王建民; 黄向东; 龙明盛
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-01-17
Filing date: 2018-01-17
Publication date: 2018-12-11
Anticipated expiration: 2038-01-17
Also published as: CN108170846A

Abstract

本发明提供一种大规模多源异构数据的存储方法及装置，所述方法包括：基于内存中的待存储数据对象构建弹性表模型；遍历所述弹性表模型的每个刻面，在每个刻面对应的文件夹下创建数据文件，将每个刻面对应的所有待存储数据对象中的每一待存储数据对象作为一个目标数据对象；遍历所有目标数据对象中的每个目标数据对象，将每个目标数据对象的所有属性进行排序，并存储于所述数据文件中。本发明提供的大规模多源异构数据的存储方法及装置，以构建出的弹性表模型进行数据的存储和查询，适用于大规模多源异构数据的弹性表模型持久化。

Description

基于弹性表模型的大规模多源异构数据持久化方法

技术领域

本发明涉及计算机数据管理技术领域，尤其涉及一种基于弹性表模型的大规模多源异构数据持久化方法。

背景技术

随着大数据应用的普及，人们需要管理数据的种类和数量在不断增长，这些数据不仅包括传统的结构化数据，还包括文本、图像、视频等非结构化数据，以及基于这些数据提取和挖掘的二次加工数据等。此外，数据的来源也变得更加多样，例如对于一个设备工作状况的描述信息既包括设备上的传感器采集到的时序数据，还包括用户录入系统的巡查、检修等数据。这些多源异构数据的使用对现有的数据管理系统提出了巨大挑战，其中主要的问题就在于，现有的以关系模型为主的数据管理系统无法应对这些多源异构数据的两大特性：(1)同一对象的具有多种异构数据，且在不断演化；(2)一个对象的一种数据的属性值在不断演化。

现有技术中，没有针对大规模多源异构数据持久化方法，故而现在亟须提供一种针对大规模多源异构数据持久化方法。

发明内容

(一)要解决的技术问题

本发明的目的是提供一种基于弹性表模型的大规模多源异构数据持久化方法，解决了现有技术中没有针对大规模多源异构数据持久化方法的技术问题。

(二)技术方案

为了解决上述技术问题，一方面，本发明提供一种基于弹性表模型的大规模多源异构数据持久化方法，包括：

基于内存中的待存储数据对象构建弹性表模型，所述弹性表模型包含多个刻面，所述多个刻面包括多个数据刻面和一个辅助刻面，并为每个刻面构建一个对应的文件夹，每个数据刻面表示一类多源异构数据，所述辅助刻面对应的文件夹下保存有每个待存储数据对象包含的数据刻面名，每个待存储数据对象对应至少一个数据刻面；

遍历所述弹性表模型的每个刻面，在每个刻面对应的文件夹下创建数据文件，将每个刻面对应的所有待存储数据对象中的每一待存储数据对象作为一个目标数据对象；

遍历所有目标数据对象中的每个目标数据对象，将每个目标数据对象的所有属性进行排序，并存储于所述数据文件中。

进一步地，所述并存储于所述数据文件中之后，还包括：

清空所述内存中的所有待存储数据对象；

当内存中产生新的待存储数据对象时，更新所述弹性表模型，并存储所述新的待存储数据对象。

进一步地，所述并存储于所述数据文件中之后，还包括：

创建每个数据文件的索引文件，所述索引文件用于存储每个待存储数据对象在对应的数据文件中的起始位置。

进一步地，所述创建每个数据文件的索引文件之后，还包括：

遍历所述弹性表模型中的所述辅助刻面对应的文件夹下的每个数据文件，检查所述辅助刻面对应的文件夹下是否包含与每个数据文件对应的索引文件；

若判断获知所述辅助刻面对应的文件夹下包含与每个数据文件对应的索引文件，则根据每个数据文件对应的索引文件，查找待查找数据对象在每个数据文件中的起始位置；

若判断获知所述辅助刻面对应的文件夹下不包含与每个数据文件对应的索引文件，则直接查找所述待查找数据对象在每个数据文件中的起始位置；

根据所述待查找数据对象在每个数据文件中的起始位置，读取所述待查找数据对象的全部数据。

遍历所述弹性表模型中的每个数据刻面对应的文件夹下的每个数据文件，检查每个数据刻面对应的文件夹下是否包含与每个数据文件对应的索引文件；

若判断获知每个数据刻面对应的文件夹下包含与每个数据文件对应的索引文件，则根据每个数据文件对应的索引文件，查找待查找数据对象在每个数据文件中的起始位置；

若判断获知每个数据刻面对应的文件夹下不包含与每个数据文件对应的索引文件，则直接查找所述待查找数据对象在每个数据文件中的起始位置；

从所述待查找数据对象在每个数据文件中的起始位置开始，读取所述待查找数据对象的属性。

另一方面，本发明提供一种基于弹性表模型的大规模多源异构数据持久化装置，其特征在于，包括：

构建模块，用于基于内存中的待存储数据对象构建弹性表模型，所述弹性表模型包含多个刻面，所述多个刻面包括多个数据刻面和一个辅助刻面，并为每个刻面构建一个对应的文件夹，每个数据刻面表示一类多源异构数据，所述辅助刻面对应的文件夹下保存有每个待存储数据对象包含的数据刻面名，每个待存储数据对象对应至少一个数据刻面；

存储模块，用于遍历所述弹性表模型的每个刻面，在每个刻面对应的文件夹下创建数据文件，将每个刻面对应的所有待存储数据对象中的每一待存储数据对象作为一个目标数据对象；

再一方面，本发明提供一种用于存储大规模多源异构数据的电子设备，包括：

存储器和处理器，所述处理器和所述存储器通过总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行上述的方法。

又一方面，本发明提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述的方法。

又一方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法。

(三)有益效果

本发明提供的大规模多源异构数据的存储方法及装置，以构建出的弹性表模型进行数据的存储和查询，适用于大规模多源异构数据的弹性表模型持久化。

附图说明

图1为依照本发明实施例的大规模多源异构数据的存储方法示意图；

图2为依照本发明实施例的弹性表模型的刻面在磁盘上的组织方式示意图；

图3为依照本发明实施例的大规模多源异构数据的存储装置示意图；

图4为本发明实施例提供的用于大规模多源异构数据持久化的电子设备的结构示意图。

具体实施方式

为了使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

图1为依照本发明实施例的，如图1所示，本发明实施例提供一种基于弹性表模型的大规模多源异构数据持久化方法，包括：

步骤S10、基于内存中的待存储数据对象构建弹性表模型，所述弹性表模型包含多个刻面，所述多个刻面包括多个数据刻面和一个辅助刻面，并为每个刻面构建一个对应的文件夹，每个数据刻面表示一类多源异构数据，所述辅助刻面对应的文件夹下保存有每个待存储数据对象包含的数据刻面名，每个待存储数据对象对应至少一个数据刻面；

步骤S20、根据所述弹性表模型将待存储数据对象存储到磁盘中，具体按照如下步骤存储：

进一步地，所述并存储于所述数据文件中之后，还包括：

清空所述内存中的所有待存储数据对象；

进一步地，所述并存储于所述数据文件中之后，还包括：

具体的步骤如下：

(1)设弹性表模型包含多个刻面，所述多个刻面用集合F表示，F＝{F₀,F₁,F₂,…,F_n}∪{SF}，所述多个刻面包括多个数据刻面和一个辅助刻面，SF为所述弹性表模型的辅助刻面，为所述弹性表模型的多个数据刻面，每个数据刻面对应一类多元异构数据，且每个数据刻面的排序函数为{Sort₀,Sort₁,Sort₂,…,Sort_n}，并为每个刻面构建一个对应的文件夹，文件夹名字依次是F₀,F₁,F₂,…,F_n。

图2为依照本发明实施例的弹性表模型的刻面在磁盘上的组织方式示意图，如图2所示，刻面F₁对应的文件夹下包括文件1和文件2，刻面F₂对应的文件夹下包括文件1，刻面F₁对应的文件1中存储有数据对象O₁的四个属性P₁、P₂、P₃和P₄，对象O₂的三个属性P₁、P₂和P₃，对象O₃的五个属性P₁、P₂、P₃、P₄和P₅。

需要说明的是，上述各数据对象之间的刻面的类型和数量可以各不相同，每个刻面的属性的数量可以各不相同，刻面的数量可以动态增减，同时刻面内的属性数量也可以动态增减。

(2)SF中的属性按照字典序排序；

(3)将SF扩展到系统后续出现的每个对象数据上，对于对象O_i，其拥有的每个数据刻面作为SF中的属性保存；

(4)当内存中有一批待存储数据对象，每个待存储数据对象均包含若干数据刻面时，依次遍历弹性表模型每个刻面，对于弹性表模型的任一刻面F_i，F_i∈{F₀,F₁,F₂,…,F_n}∪{SF}。

(4-1)在文件夹F_i下创建数据文件f，文件名为当前系统时间戳；

(4-2)将拥有该刻面F_i的所有待存储数据对象按照对象名排序；

(4-2)依次遍历每个待存储数据对象，对于任一待存储数据对象O_j：

(4-3)将待存储数据对象O_j在刻面F_i上的所有属性按该刻面的属性排序算法进行排序，并依次存储在数据文件f中；

(5)关闭数据文件f；

(6)为加速查询，可为数据文件f创建索引文件fI，该文件指明每个存储数据对象在数据文件f中的起始位置；

(7)清空内存中的所有对象；

(8)当出现弹性表模型的刻面间或刻面内扩展时，内存中将产生对象O_i，则对所述弹性表模型进行更新，并存储所述新的待存储数据对象，具体进行如下操作：

(8-1)将O_i的数据按刻面分为两个集合：属于{F₀,F₁,…,F_n}的集合F1和不属于该集合的刻面集合F2；

(8-2)对于对于集合F2中每一个刻面，依次创建文件夹，文件夹名字与F2中的刻面名字相同；

(8-3)对于集合F1和F2中的每个刻面，依次执行步骤(4-1)-步骤(6)，将所述新的待存储数据对象存储到磁盘中；

(8-4)清空内存中的对象O_i；

当多次出现步骤(8)时，任意刻面F_i∈{F₀,F₁,F₂,…,F_n}∪{SF}下都可能出现多个数据文件，即文件夹F_i中可能存在数据文件{f_i0,f_i1,f_i2,…,f_in}以及相应的索引文件{fI_i0,fI_i1,fI_i2,…,fI_in}。

在上述持久化基础上，基于弹性表模型的查询的实现方法如下：

(9)对于查询对象O_i的刻面列表操作，实现方法是：

(9-1)遍历SF文件夹下的所有数据文件，对于每个数据文件sf，检查其是否有索引文件；

(9-2)若有索引文件，则首先遍历索引文件，寻找数据对象O_i在数据文件sf中的起始位置；

(9-3)若无索引文件，则直接在数据文件sf中寻找数据对象O_i的起始位置；

(9-4)从数据对象O_i的在数据文件中的起始位置开始读取数据，读取数据对象O_i的全部数据，反序列化后返回；

(10)对于查询数据对象O_i的刻面F_j的属性列表操作，实现方法是：将步骤(9-1)中遍历文件夹SF改为遍历文件夹F_j，执行(9-1)至(9-4)；

(11)对于查询数据对象O_i的刻面F_j的单一属性P_k的操作，实现方法是：

(11-1)将步骤(9-1)中遍历文件夹SF改为遍历文件夹F_j，执行(9-1)至(9-3)；

(11-2)从数据对象O_i在文件中的起始位置开始读取数据，采用二分查找算法读取数据对象O_i的属性，直到找到P_k为止；

(12)为加速查询，可以定时进行如下任务：

(12-1)遍历每个文件夹，针对一个文件夹内的所有数据文件，采用多路归并算法，将所有文件内的数据进行归并，产生一个满足文件内对象按字典序排序、对象的属性按刻面的排序策略排序的数据文件，然后删除原有数据文件和相应的索引文件，并对新产生的这个数据文件建立索引文件。

本发明提供的大规模多源异构数据的存储方法，以构建出的弹性表模型进行数据的存储和查询，适用于大规模多源异构数据的弹性表模型持久化。

实施例2：

图3为依照本发明实施例的大规模多源异构数据的存储装置示意图，如图3所示，本发明实施例提供一种基于弹性表模型的大规模多源异构数据持久化装置，用于完成上述实施例中所述的方法，具体包括构建模块10和存储模块20，其中，

构建模块10用于基于内存中的待存储数据对象构建弹性表模型，所述弹性表模型包含多个刻面，所述多个刻面包括多个数据刻面和一个辅助刻面，并为每个刻面构建一个对应的文件夹，每个数据刻面表示一类多源异构数据，所述辅助刻面对应的文件夹下保存有每个待存储数据对象包含的数据刻面名，每个待存储数据对象对应至少一个数据刻面；

存储模块20用于遍历所述弹性表模型的每个刻面，在每个刻面对应的文件夹下创建数据文件，将每个刻面对应的所有待存储数据对象中的每一待存储数据对象作为一个目标数据对象；

本发明实施例提供一种基于弹性表模型的大规模多源异构数据持久化装置，用于完成上述实施例中所述的方法，通过本实施例提供的持久化装置完成上述实施例中所述的方法的具体步骤与上述实施例相同，此处不再赘述。

本发明提供的大规模多源异构数据的存储装置，以构建出的弹性表模型进行数据的存储和查询，适用于大规模多源异构数据的弹性表模型持久化。

实施例3：

图4为本发明实施例提供的用于大规模多源异构数据持久化的电子设备的结构示意图，如图4所示，所述设备包括：处理器801、存储器802和总线803；

其中，处理器801和存储器802通过所述总线803完成相互间的通信；

处理器801用于调用存储器802中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：

实施例4：

本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：

实施例5：

本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置及设备等实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于弹性表模型的大规模多源异构数据持久化方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述并存储于所述数据文件中之后，还包括：

清空所述内存中的所有待存储数据对象；

3.根据权利要求1所述的方法，其特征在于，所述并存储于所述数据文件中之后，还包括：

4.根据权利要求3所述的方法，其特征在于，所述创建每个数据文件的索引文件之后，还包括：

5.根据权利要求3所述的方法，其特征在于，所述创建每个数据文件的索引文件之后，还包括：

6.一种基于弹性表模型的大规模多源异构数据持久化装置，其特征在于，包括：

7.一种用于大规模多源异构数据持久化的电子设备，其特征在于，包括：

存储器和处理器，所述处理器和所述存储器通过总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至5任一所述的方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一所述的方法。