CN107273443A

CN107273443A - 一种基于大数据模型元数据的混合索引方法

Info

Publication number: CN107273443A
Application number: CN201710384489.0A
Authority: CN
Inventors: 林劼; 张译权; 李年华; 王芷若; 王勇
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2017-05-26
Filing date: 2017-05-26
Publication date: 2017-10-20
Anticipated expiration: 2037-05-26
Also published as: CN107273443B

Abstract

本发明公开了一种基于大数据模型元数据的混合索引方法，包括以下步骤，S1：提取混合索引元数据，根据大数据模型元数据、模型解释和运行特征提取出混合索引的元数据，根据元数据的属性值将元数据赋值为1或0；S2：构建或更新混合索引，利用全域哈希函数构建或更新混合索引；S3:储存混合索引，根据混合索引特点，将混合索引的各个部分存储于内存、缓存和磁盘上，并根据查询要求依次并行检索索引内容；S4：检索混合索引，根据大数据模型的特点和混合索引特征，构建检索算法同时检索混合索引的不同部分。本发明紧密结合了大数据模型的元数据和模型特征，提供了一种高效准确的模型索引技术，提高了检索速度，增加大数据模型使用的便捷性。

Description

一种基于大数据模型元数据的混合索引方法

技术领域

本发明涉及一种混合索引方法，尤其是一种基于大数据模型元数据的混合索引方法。

背景技术

伴随着云计算、分布式集群和大数据研究的出现，原有的关系型数据库和索引逐渐不能满足现在的网络和计算要求，尤其是关系型数据库的一致性已经显得没有那么重要，这就需要新的数据存储方式和索引方式的出现。2009年，一场关于开源分布式数据库的讨论使得NoSQL应运而生，随着Google的分布式文件系统和BigTable的开源化，非关系型数据库得到国内外的重视、研究和运用。

与关系型数据库不同的是，非关系型数据库提出另一种记录的存储和管理方式，例如，以键值对存储，且结构不固定，每一个存储记录-元组既可以有补一样的字段，也可以根据需要添加键值对，这样就不会局限于固定的结构，可以减少一些时间和空间开销。同时为了获取不同的信息，不需要像关系型数据库对表进行关联查询，只需要根据ID取出相应的value即可。非关系型数据库的颠覆性结构和存储使得其索引变得更加困难，同时也引起了更多的研究机构和学者的注意。从针对全局索引到分布式环境中局部索引的改进，从支持唯一索引到哈希索引的引进，非关系型数据库和其索引在大数据研究中发挥的作用越来越大。

无论是在关系型数据库还是在非关系型数据库中，研究人员均发现了单一的索引方式在某些特定场合发挥的作用低下，尤其是在空间数据和局部微小数据的查询上。于是，混合索引和多级索引结构伴随着不同的索引需求出现了，尤其是通过内存、缓存和外存的存储方式加上哈希树(表)、B树(B+树、B*树)、R树(R相关树)和倒排表在搜索引擎、文档的全文搜索和空间位置方面的运用尤为突出。混合索引的突出特点在大数据研究方面也作用显著，在健康(医疗)大数据、交通大数据和能源大数据的某些数据源上得到了很好的使用。

并行混合索引，即是在分布式集群上构建一个混合索引实现并行检索。由于大数据模型数量多，体积小，分布广泛，易扩展和易改变等特点，当前的关系型数据库已不太适合进行模型管理和存储；又因为分布式集群动态扩展和大数据模型动态运行特征等因素，故选择非关系型数据库-MongoDB进行大数据模型的存储和管理。因此本发明提出了一种基于大数据模型元数据，针对大数据模型的的并行混合索引方法。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于大数据模型元数据的混合索引方法，能够解决在大数据模型综合分析平台下的模型检索和管理问题。

本发明是通过以下技术方案来实现的：一种基于大数据模型元数据的混合索引结构，包括以下步骤：

S1：提取混合索引元数据，根据大数据模型元数据和模型解释、运行特征，提取得到构建混合索引的元数据，并根据元数据的属性值为元数据赋值为1或0；

S2：构建或更新混合索引，根据提取得到的元数据和元数据值，利用全域哈希函数，对大数据模型记录的提交构建或者更新混合索引；

S3：储存混合索引，根据混合索引的特点，将混合索引的各个部分分别存储于内存、缓存和磁盘上，根据查询要求依次可并行检索索引中内容；

S4：检索混合索引，根据大数据模型的特点和混合索引特征构建检索算法并行检索混合索引的不同部分。

所述提取混合索引元数据包括以下子步骤：

S11：基于大数据模型元数据，根据大数据模型在设计、解释和调度执行中的元数据属性更新情况，提取得到构建大数据模型混合索引使用的16个元数据，分别为：并行特征，输入格式，输出格式，数据输入量，数据输出量，输出可视化，用户自定义特征，模型模式，解释时间，解释约束，解释工作状态，执行环境，调度类型，执行时间，调度控制和同步/异步调度；

S12：根据大数据模型在设计、解释和调度执行的生命周期内的元数据属性值更新，为元数据属性值设置阈值，从而可以直接为元数据赋值为1或者0。当大数据模型在整个生命周期内不存在相应的元数据值，则为相应的元数据赋值为2并严格控制一个模型的元数据值出现2的个数小于等于5，包含1/0和2的元数据属性值严格限制了大数据模型的元数据序列结构。

所述构建或更新混合索引包括以下子步骤：

S21：由S1得到的元数据值均为1或者0，基于元数据和其属性值构建决策字典树获取大数据模型的序列值。每个模型有且仅有一条从根节点到树末端节点的路径，此路径由0、1和2组成，也就是说每个大数据模型通过决策字典树可以得到唯一一个包含0、1和2的有序序列值；

S22：根据雪崩效应思想，选取改进的BKDRHash算法实现大数据模型与哈希隐射地址的对应关系。由于数字序列值的唯一性和序列的顺序性，根据BKDRHash算法让每个字符权值相加的特性，得到大数据模型的

即可得到

所以BKDRHash函数选取的系数跟大数据模型的路径序列和序列大小有关，可指定p＝2¹⁶-1＝65535，又因为65535不是质数，则p＝65533。根据模型序列可得到模型的自然数值；

S23:根据S22得到每个大数据模型的自然数值后，通过“除数取余”散列法得到余数散列至各集群的的主机上，“除数取余”散列法的除数选取跟集群的逻辑地址有关，然后根据模型记录的更新情况构建混合索引。

所述储存混合索引中，混合索引中包含哈希节点、桶缓存、溢出页和B+树四部分，其中哈希节点和桶缓存是在保留缓冲区(内存中)，溢出页是在缓存(或内存)中，B+树存储在外存(磁盘)上，在使用时进入集群内存。

所述检索混合索引中根据混合索引不同部分的存储介质和不同部分检索速度，可以得到检索顺序为：哈希节点>桶缓冲≥溢出页≥B+树；又根据混合索引的更新特征treeflag，构建检索算法。

本发明的有益效果是：为现有的大数据模型综合分析平台提供了一种高效准确的模型索引技术，此混合索引紧密结合了大数据模型的元数据和模型特征，提高了检索速度，增加了大数据模型使用的便捷性。

附图说明

图1为本发明流程图；

图2为本发明-改进的BKDRHash算法构建哈希隐射图；

图3为本发明-检索算法图；

图4为本发明的混合索引结构图；

图5为本发明的混合索引方法流程图。

具体实施方式

下面结合具体实施例进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

实施例1

如图1和图4所示，一种基于大数据模型元数据的混合索引结构，包括以下步骤：

S1：提取混合索引元数据，根据大数据模型元数据和模型解释、运行特征，提取得到构建混合索引的元数据，并根据大数据模型的解释和运行特征为元数据属性赋值为1或0；

S2：构建或更新混合索引，根据提取得到的元数据和元数据属性值，通过构造全域哈希函数，对大数据模型记录的提交构建或者更新混合索引；

S3：储存混合索引，根据混合索引的特点，将混合索引的各个部分分别存储于内存、缓存和外存(磁盘)上，根据查询要求依次可并行检索索引中内容；

所述提取混合索引元数据包括以下子步骤：

所述构建或更新混合索引包括以下子步骤：

S22：根据雪崩效应思想，选取改进的BKDRHash算法实现大数据模型与哈希隐射地址的对应关系。如图2，由于数字序列值的唯一性和序列的顺序性，根据BKDRHash算法让每个字符权值相加的特性，得到大数据模型的

即可得到

S23：在S22得到每个大数据模型的自然数值后，通过“除数取余”散列法得到余数散列至各集群的主机上，“除数取余”散列法的除数选取跟集群的逻辑地址有关，然后根据模型记录的更新情况构建混合索引。

所述储存混合索引中，混合索引中包含哈希节点、桶缓存、溢出页和B+树四部分，其中哈希节点和桶缓存是在保留缓冲区(内存中)，溢出页是在缓存(或内存)中，B+树存储在外存(磁盘)上，在使用时进入集群内存；

如图3，所述的检索混合索引包括两种情况：

(1)检索桶、桶缓存和溢出页获取精确的模型结果集；

(2)检索B+树获取精确结果集或者结果范围集。

所述的混合索引中包含哈希节点、桶缓存、溢出页和B+树四部分，其中哈希节点和桶缓存是在保留缓冲区，溢出页是在缓存区，B+树存储在磁盘区；所述的检索混合索引会根据不同部分的存储介质和不同部分的检索速度，得到混合索引的更新特征。

如图5，所述的检索混合索引是通过检索桶得到结果集，然后根据结果集获取匹配桶缓存的指针q1和B+树指针树q2，使用树标记判断；若真，则根据指针检索B+树，得到结果集P4；若假，检索桶缓存得到结果集P2，检索溢出页得到结果集P3，合并结果集P1、P2、P3得到结果集P；随后判断P值，若P为空集，则根据指针检索B+树得到结果集P4；若P不为空，则返还P值；最后合并P1、P2、P3、P4得到最终结果R，返还R，得到检索结果。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于大数据模型元数据的混合索引方法，其特征在于，它包括以下步骤：

S1：提取混合索引元数据，根据大数据模型元数据、模型解释和运行特征提取混合索引元数据，并根据元数据的属性值将元数据赋值为1或0；

S2：构建或更新混合索引，根据提取的元数据和元数据值，利用全域哈希函数构建或更新混合索引；

S3：储存混合索引，根据混合索引特点，将混合索引的各个部分分别存储于内存、缓存和磁盘上，根据查询要求依次可并行检索索引中内容；

S4：检索混合索引，根据大数据模型的特点和混合索引特征，构建检索算法同时检索混合索引的不同部分。

2.根据权利要求1所述的一种基于大数据模型元数据的混合索引方法，其特征在于，所述的提取混合索引元数据包括以下子步骤：

S11：提取混合索引元数据，基于大数据模型，利用大数据模型元数据的属性更新情况，提取大数据模型混合索引使用的16个元数据；

S12：元数据赋值，利用大数据模型在设计、解释和调度执行的生命周期内的元数据属性更新情况，为元数据属性值设置阈值，将元数据赋值为1或者0。

3.根据权利要求2所述的提取混合索引元数据，其特征在于，所述的16个元数据分别是：并行特征，输入格式，输出格式，数据输入量，数据输出量，输出可视化，用户自定义特征，模型模式，解释时间，解释约束，解释工作状态，执行环境，调度类型，执行时间，调度控制和同步/异步调度；所述的元数据赋值，当大数据模型在整个生命周期内不存在相应的元数据值时，将元数据赋值为2，同时严格控制一个模型的元数据值出现2的个数小于等于5，严格限制包含0、1和2的元数据值的大数据模型元数据序列结构。

4.根据权利要求1所述的一种基于大数据模型元数据的混合索引方法，其特征在于，所述的储存混合索引包括以下子步骤：

S21：根据元数据和元数据值构建决策字典树，并获取大数据模型的序列值；

S22：根据雪崩效应，选取改进的BKDRHash算法实现大数据模型和哈希隐射地址的对应关系，得到模型的自然数值；

S23：利用“除数取余”散列法得到余数散列，根据集群的逻辑地址、模型记录的更新情况构建混合索引。

5.根据权利要求4所述的储存混合索引，其特征在于，所述的构建决策字典树时，每个模型有且只有一条从跟节点到树末端节点的路径，此路径由0、1和2组成，即每个大数据模型通过决策字典树可以得到唯一一个包含0、1和2的有序序列值；所述的改进的BKDRHash算法是根据大数据模型的路径序列和序列大小，将每个字符权值相加，得到

6.根据权利要求1所述的一种基于大数据模型元数据的混合索引方法，其特征在于，所述的检索混合索引包括两种情况：

(1)检索桶、桶缓存和溢出页获取精确的模型结果集；

(2)检索B+树获取精确结果集或者结果范围集。

7.根据权利要求6所述的检索混合索引，其特征在于，所述的混合索引中包含哈希节点、桶缓存、溢出页和B+树四部分，其中哈希节点和桶缓存是在保留缓冲区，溢出页是在缓存区，B+树存储在磁盘区；所述的检索混合索引会根据不同部分的存储介质和不同部分的检索速度，得到混合索引的更新特征。