CN108681577A

CN108681577A - 一种新型的库结构数据索引方法

Info

Publication number: CN108681577A
Application number: CN201810434059.XA
Authority: CN
Inventors: 怀化
Original assignee: Bozhou Traditional Chinese Medicine Commodity Trading Center Co Ltd
Current assignee: Bozhou Traditional Chinese Medicine Commodity Trading Center Co Ltd
Priority date: 2018-05-08
Filing date: 2018-05-08
Publication date: 2018-10-19

Abstract

一种新型的库结构数据索引方法，包括竖结构数据库中建立的哈希索引，哈希索引的索引方法包括：根据查找内容在竖结构数据库的映射竖表范围内生成查找表；对待查找关键字进行哈希处理，获得待查找关键字的哈希索引值；根据待查找关键字的哈希索引值在查找表中查找到匹配的待查找内容。本发明的有益效果是：解决了现有的计算机平台系统在处理数据时，提取漏掉的数据需要重新提取所有的数据的问题；提高了数据处理的速度及平台系统的可靠性；通过竖存储技术节省了存储空间。

Description

一种新型的库结构数据索引方法

技术领域

本发明涉及数据处理领域，尤其涉及一种新型的库结构数据索引方法。

背景技术

随着智慧中国战略的实施，大数据对于各行业影响深远。基于交易商细分和交易商精细化营销的需求已逐渐成为中药材市场变革的主要手段。目前针对大宗交易平台的数据管理和市场营销需求，通常由业务部门对各类经营指标进行分析，筛选出需要关注的业务指标，然后提交技术部门采集相关业务字段的具体清单，最后由技术部门依据业务部门所提的方案，对相关数据进行手工分析，输出结果。基于目前的数据分析流程，要经常应对下竖事件：

1、业务部门所提的需求多样，通常需要跨越多系统采集数据，才能够满足业务部门的分析需求；

2、针对多系统采集的数据，技术部门需要重新构建多系统关联的检索指标和属性后方可联机查询，输出业务部门需要的报表结果；

3、针对业务部门的大数据需求，技术部门需要将输出后的报表结果转化为直观图形予以体现。

现有技术中专利号：201610889114.5，公布了一种关系型数据库的数据集成结构，提供的一种关系型数据库的数据集成结构，实现了方便、快捷的从MySQL数据库到MySQL数据库、从Oracle数据库到MySQL数据库的数据集成减少了导入导出数据的工作量，使得数据同步工作更加简便、可控；专利号：201410818000.2，公布了一种数据库中的数据混合存储方法，为在复杂应用场景下的列存数据库提供了一种有效解决select*应用模型物化效率低下的方法，提高了列存数据库对于select*类型的查询效率，扩展了列存数据库的适用范围；减小了现有行列混合存储方式占用的空间，同时数据的压缩效率与列存储相差不多。现有技术对于关系型数据仍通过行存储存储数据并进行处理，仍需要跨越多系统进行采集，数据导入导出效率较低。

发明内容

本发明的目的是为了解决现有技术中存在的缺点，而提出的一种新型的库结构数据索引方法。

为了实现上述目的，本发明采用了如下技术方案：一种新型的库结构数据索引方法，包括竖结构数据库中建立的哈希索引，哈希索引的索引方法包括：

根据查找内容在竖结构数据库的映射竖表范围内生成查找表；

对待查找关键字进行哈希处理，获得待查找关键字的哈希索引值；

根据待查找关键字的哈希索引值在查找表中查找到匹配的待查找内容。

优选的，竖结构数据库的构建方法包括：

步骤一：建立至少一个关键字及至少一个分类标识的映射竖表；

步骤二：将用户数据写入用户数据的分类标识在数据库中所对应的数据字段。

优选的，映射竖表包括至少一个关键字及至少一个分类标识。

优选的，，映射竖表的建立方法为：获取至少一个关键字及至少一个分类标识，按照一个分类标识对应一个关键字的规则建立映射竖表。

优选的，至少一个关键字包括预设关键字，至少一个分类标识包括预设分类标识，预设位置是分类标识在数据字段中的存储位置。

优选的，竖结构数据库中的写入数据包括：根据用户数据的关键字在映射竖表中查找到用户数据的关键字对应的用户数据的分类标识，根据用户数据的分类标识将用户数据写入用户数据的分类标识在数据库中所对应的数据字段，并在用户数据的分类标识对应的数据字段的预设位置添加用户数据的分类标识。

优选的，根据待查找关键字的哈希索引值在查找表中查找到匹配的查找内容为：将待查找关键字的哈希索引值作为地址，在查找表中查找到对应的分类标识，根据待查找关键字的键值确定与待查找关键字匹配的查找关键字在分类标识中映射竖表的位置，在所确定的位置查找到与所述待查找关键字具有相等键值的查找关键字，执行所述查找关键字对应的待查找内容。

优选的，在确定的位置查找到与所述待查找关键字具有相等键值的查找关键字，执行查找关键字对应的查找内容为：将待查找关键字的键值与分类标识中映射竖表的节点内查找关键字的键值进行对比，当待查找关键字的键值与节点内查找关键字的键值相等时，节点的查找关键字与待查找关键字相同，读取查找关键字对应的待查找内容。

优选的，哈希索引方法还包括多哈希映射索引方法。

优选的，多哈希索引方法为正交多哈希映射索引方法，包括：

在竖结构数据库上做第一层哈希映射，通过分类标识将所

有的写入数据经过第一层哈希函数映射后都被分配到特定的哈希桶中；

2)在第一层哈希的值空间上建立B+树，原线性搜索时间复杂度为O(n)，优化为树搜索，树搜索时间复杂度为O(log n)，优化对哈希映射值的搜索；

3)通过第二层哈希函数对第一层哈希桶进行再次哈希映射，即把第一层哈希桶进行再次划分，以降低哈希桶内数据容量；

4)在相邻两层哈希桶之间建立指针连接，下一层哈希是对上一层哈希桶的再次划分，多次的正交哈希形成树状的索引层次结构，哈希桶是否再划分取决于哈希桶目前的数据量，当哈希桶个数超过指定的预警阈值后就停止划分，正交多哈希索引建立完成。

优选的，竖结构数据库中采用双执行引擎和双存储引擎，双存储引擎包括竖存储引擎和行存储引擎，双执行引擎包括竖执行引擎和行执行引擎。

本发明的有益效果是：

1、解决了现有的计算机平台系统在处理数据时，提取漏掉的数据需要重新提取所有的数据的问题；

2、提高了数据处理的速度及平台系统的可靠性；

3、通过竖存储技术节省了存储空间。

附图说明

图1是本发明一种新型的库结构数据索引方法的索引方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

参照图1，一种新型的库结构数据索引方法，包括竖结构数据库中建立的哈希索引，哈希索引的索引方法包括：

优选的，竖结构数据库的构建方法包括：

一种新型的库结构数据索引方法，映射竖表包括至少一个关键字及至少一个分类标识。

一种新型的库结构数据索引方法，映射竖表的建立方法为：获取至少一个关键字及至少一个分类标识，按照一个分类标识对应一个关键字的规则建立映射竖表。

一种新型的库结构数据索引方法，至少一个关键字包括预设关键字，至少一个分类标识包括预设分类标识，预设位置是分类标识在数据字段中的存储位置。

一种新型的库结构数据索引方法，竖结构数据库中的写入数据包括：根据用户数据的关键字在映射竖表中查找到用户数据的关键字对应的用户数据的分类标识，根据用户数据的分类标识将用户数据写入用户数据的分类标识在数据库中所对应的数据字段，并在用户数据的分类标识对应的数据字段的预设位置添加用户数据的分类标识。

一种新型的库结构数据索引方法，根据待查找关键字的哈希索引值在查找表中查找到匹配的查找内容为：将待查找关键字的哈希索引值作为地址，在查找表中查找到对应的分类标识，根据待查找关键字的键值确定与待查找关键字匹配的查找关键字在分类标识中映射竖表的位置，在所确定的位置查找到与所述待查找关键字具有相等键值的查找关键字，执行所述查找关键字对应的待查找内容。

一种新型的库结构数据索引方法，在确定的位置查找到与所述待查找关键字具有相等键值的查找关键字，执行查找关键字对应的查找内容为：将待查找关键字的键值与分类标识中映射竖表的节点内查找关键字的键值进行对比，当待查找关键字的键值与节点内查找关键字的键值相等时，节点的查找关键字与待查找关键字相同，读取查找关键字对应的待查找内容。

一种新型的库结构数据索引方法，哈希索引方法还包括多哈希映射索引方法。

一种新型的库结构数据索引方法，多哈希索引方法为正交多哈希映射索引方法，包括：

在竖结构数据库上做第一层哈希映射，通过分类标识将所

一种新型的库结构数据索引方法，竖结构数据库中采用双执行引擎和双存储引擎，双存储引擎包括竖存储引擎和行存储引擎，双执行引擎包括竖执行引擎和行执行引擎。

一种新型的库结构数据索引方法，竖结构数据库的应用方法包括：

C1：通过竖存存储技术构建竖结构数据库，竖结构数据库作为业务部门的共享数据库；

C2：在竖结构数据库上选取预设关键字，通过预设关键字在竖结构数据库中提取数据处理结果。

一种新型的库结构数据索引方法，竖结构数据库的应用方法还包括漏选下的补充方法，补充方法为：重新勾选补充关键字，重新输出需要的数据处理结果或清单，添加至上一数据处理结果或清单。

一种新型的库结构数据索引方法，竖结构数据库的构建方法包括：

步骤二：将用户数据写入用户数据的分类标识在数据库中所对应的数据字段；

步骤三：根据预设关键字在已经存储的映射竖表中查找到预设关键字对应的预设分类标识；

步骤四：根据预设分类标识在数据库中读取预设数据字段；

步骤五：根据预设算法将预设数据字段中包含的数据进行计算并得到输出结果。

一种新型的库结构数据索引方法，步骤二中获取用户数据及用户数据的关键字，根据用户数据的关键字在映射竖表中查找到用户数据的关键字对应的用户数据的分类标识，根据用户数据的分类标识将用户数据写入用户数据的分类标识在数据库中所对应的数据字段，并在用户数据的分类标识对应的数据字段的预设位置添加用户数据的分类标识。

一种新型的库结构数据索引方法，数据库中存储的数据按照竖存储的方式进行存储。

一种新型的库结构数据索引方法，预设算法包括数学模型、数学函数、数学建模中的一种或多种。

一种新型的库结构数据索引方法，步骤二中还包括对写入的用户数据的筛选合并，合并方法包括：对分类标识所对应的值使用二进制格式存储；针对每个分类标识栏内的数据再细分为数据包，将栏位中重复的值打包进行再存储为新的分类标识。

一种新型的库结构数据索引方法，步骤二中用户数据写入用户数据的分类标识在数据库中所对应的数据字段前还包括用户数据的预处理，预处理包括数据清洗和去除冗杂数据，数据清洗用于去除无效数据。竖结构数据库中还包括数据清理，清理方法包括：

获取清理条件和数据清理时间，数据清理时间为历史接收到数据清理请求时记录的时间，数据清理请求用于清理竖结构数据库中满足清理条件的数据；

获取竖结构数据库中不满足清理条件的数据，以及满足清理条件但数据存储时间晚于所述数据清理时间的数据；

在竖结构数据库中合并获取到的数据。

一种新型的库结构数据索引方法，清理条件的属性为分类标识。

实施例1

一种新型的库结构数据索引方法，构建“竖结构数据库”，采用最新的竖存存储技术。竖结构数据库将作为业务部门的共享数据库分析人员只需要构思相关思路，在“竖结构数据库上”选取自己需要的关键字，即可进行相关数据汇总。如果忽然发现漏选了一些字段或某些字段不需要，只需要重新勾选相关字段。由于竖存数据库的高效性，重新选取字段进行处理的过程非常迅速，可在很短时间内重新输出需要的数据或清单。

步骤一、建立至少一个关键字及至少一个分类标识的映射竖表。

获取至少一个关键字及至少一个分类标识，按照一个分类标识对应一个关键字的规则建立映射竖表，其中，至少一个关键字包括预设关键字，至少一个分类标识包括预设分类标识。例如，关键字是DP(decoction pieces，中药饮片)手机，预设分类标识为DP，那么在数据库中数据字段的预设位置如果包含DP，则代表该数据字段所包含的数据与关键字中药饮片有关。预设位置是分类标识在数据字段中的存储位置。

步骤二、将用户数据写入用户数据的分类标识在数据库中所对应的数据字段。

具体的，获取用户数据及用户数据的关键字，根据用户数据的关键字在映射竖表中查找到用户数据的关键字对应的用户数据的分类标识，根据用户数据的分类标识将用户数据写入用户数据的分类标识在数据库中所对应的数据字段，并在用户数据的分类标识对应的数据字段的预设位置添加用户数据的分类标识。例如，当数据处理装置获取到的用户数据为交易商的交易价格，则可以交易价格作为用户数据的关键字，将交易价格对应的分类标识设为P，将用户数据写入分类标识P对应的数据字段中，并在该数据字段的预设位置写入分类标识P。

当需要从数据库中提取数据进行数据分析时，该数据处理方法，还包括：

步骤三、根据预设关键字在已经存储的映射竖表中查找到预设关键字对应的预设分类标识。

步骤四、根据预设分类标识在数据库中读取预设数据字段。

其中，预设数据字段为数据库中预设位置包含预设分类标识的数据字段，预设位置为预设

分类标识在预设数据字段中的位置。可选的，数据库中存储的数据按照竖存储的方式进行存储。

步骤五、根据预设算法将预设数据字段中包含的数据进行计算并得到输出结果。

可选的，预设算法可以是常用的数学模型，数学函数等，可以多种算法。

对比传统方案，传统的数据处理方案是按照步骤来进行的，如果发现某一步骤存在问题，在必须回溯到上一步来重新进行，例如分析人员在提数完毕后，忽然发现漏提了一个字段，会导致清单输出的不准确性。使用本发明的方法，这种情况发生，只需修改需求后重新提数，添加至之前的数据结果即可。

实施例2

一种新型的库结构数据索引方法，构建“竖结构数据库”，采用最新的竖存存储技术。竖结构数据库将作为业务部门的共享数据库分析人员只需要构思相关思路，在“竖结构数据库上”选取自己需要的关键字，即可进行相关数据汇总。如果忽然发现漏选了一些字段或某些字段不需要，只需要重新勾选相关字段。由于竖存数据库的高效性，重新选取字段进行处理的过程非常迅速，可在很短时间内重新输出需要的数据或清单。竖结构数据库的数据筛选合并方法包括：

S1：对一级分类标识所对应的一级值使用存储格式存储；

S2：针对每个分类标识栏内的数据再细分为数据包，将栏位中重复的一级值打包进行再存储为二级分类标识。存储格式通过关键字存储并设有存储位数限制，存储位数限制为一个关键字。

依据数据类型提取各类关键字，并进行分级处理，形成关键字层级表。多级关键字对应多级多级分类标识，分级数为N级，N>1，依次为一级分类标识、二级分类标识…N级分类标识。

一级分类标识为预设标识，二级分类标识包含一级分类标识，三级分类标识包含二级分类标识…N级分类标识包含N-1级分类标识，N级分类标识包括N个关键字。

S2后还包括S3,S3：将二级分类标识所对应的二级值使用存储格式存储；针对每个分类标识栏内的数据再细分为数据包，将栏位中重复的二级值打包进行再存储为三级分类标识。

S3后还包括SN，SN：将N-1级分类标识所对应的N-1级值使用存储格式存储；针对每个分类标识栏内的数据再细分为数据包，将栏位中重复的N-1级值打包进行再存储为N级分类标识。

依据筛选合并后的数据库进行数据处理，包括：

预设关键字为多级关键字且不少于一级。

步骤四、根据预设分类标识在数据库中读取预设数据字段。

通过分级关键字及对应的分级删选合并方法，适用于多级关联关系下的重复数据处理，加快了数据库的处理速度的同时数据处理更为准确，并且避免了单一级层的关键字下数据处理负载量过大引起的系统崩溃现象，分级筛选合并和分级处理数据适用范围更广。

实施例3

一种新型的库结构数据索引方法，竖结构数据库中的哈希索引方法还包括多哈希映射索引方法，包括：

1)在竖结构数据库上做第一层哈希映射，通过分类标识将所有的写入数据经过第一层哈希函数映射后都被分配到特定的哈希桶中；

采用最新的竖存存储技术。竖结构数据库将作为业务部门的共享数据库分析人员只需要构思相关思路，在“竖结构数据库上”选取自己需要的关键字，即可进行相关数据汇总。如果忽然发现漏选了一些字段或某些字段不需要，只需要重新勾选相关字段。由于竖存数据库的高效性，重新选取字段进行处理的过程非常迅速，可在很短时间内重新输出需要的数据或清单。

步骤四、根据预设分类标识在数据库中读取预设数据字段。

其中，预设数据字段为数据库中预设位置包含预设分类标识的数据字段，预设位置为预设分类标识在预设数据字段中的位置。可选的，数据库中存储的数据按照竖存储的方式进行存储。

通过多哈希映射索引方法改变了数据的物理存储，可以兼容多种类型的数据存储形式，如关系型数据库、大数据文件系统、以键值对模型存储的海量数据等，在大数据上建立高效的基于哈希映射的非聚簇索引，同时对大数据上的哈希索引存在的哈希桶严重不平衡和溢出现象提出正交多哈希的优化策略，从而提高了大数据上复杂查询的性能，提高了数据的查询效率。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种新型的库结构数据索引方法，包括竖结构数据库中建立的哈希索引，其特征在于，哈希索引的索引方法包括：

根据查找内容在竖结构数据库的映射竖表范围内生成查找表；对待查找关键字进行哈希处理，获得待查找关键字的哈希索引值；根据待查找关键字的哈希索引值在查找表中查找到匹配的待查找内容；

竖结构数据库的构建方法包括：

2.根据权利要求1所述的一种新型的库结构数据索引方法，其特征在于，映射竖表包括至少一个关键字及至少一个分类标识。

3.根据权利要求2所述的一种新型的库结构数据索引方法，其特征在于，映射竖表的建立方法为：获取至少一个关键字及至少一个分类标识，按照一个分类标识对应一个关键字的规则建立映射竖表。

4.根据权利要求2所述的一种新型的库结构数据索引方法，其特征在于，至少一个关键字包括预设关键字，至少一个分类标识包括预设分类标识，预设位置是分类标识在数据字段中的存储位置。

5.根据权利要求2所述的一种新型的库结构数据索引方法，其特征在于，竖结构数据库中的写入数据包括：根据用户数据的关键字在映射竖表中查找到用户数据的关键字对应的用户数据的分类标识，根据用户数据的分类标识将用户数据写入用户数据的分类标识在数据库中所对应的数据字段，并在用户数据的分类标识对应的数据字段的预设位置添加用户数据的分类标识。

6.根据权利要求5所述的一种新型的库结构数据索引方法，其特征在于，根据待查找关键字的哈希索引值在查找表中查找到匹配的查找内容为：将待查找关键字的哈希索引值作为地址，在查找表中查找到对应的分类标识，根据待查找关键字的键值确定与待查找关键字匹配的查找关键字在分类标识中映射竖表的位置，在所确定的位置查找到与所述待查找关键字具有相等键值的查找关键字，执行所述查找关键字对应的待查找内容。

7.根据权利要求6所述的一种新型的库结构数据索引方法，其特征在于，在确定的位置查找到与所述待查找关键字具有相等键值的查找关键字，执行查找关键字对应的查找内容为：将待查找关键字的键值与分类标识中映射竖表的节点内查找关键字的键值进行对比，当待查找关键字的键值与节点内查找关键字的键值相等时，节点的查找关键字与待查找关键字相同，读取查找关键字对应的待查找内容。

8.根据权利要求5所述的一种新型的库结构数据索引方法，其特征在于，哈希索引方法还包括多哈希映射索引方法。

9.根据权利要求8所述的一种新型的库结构数据索引方法，其特征在于，多哈希索引方法为正交多哈希映射索引方法，包括：

10.根据权利要求2所述的一种新型的库结构数据索引方法，其特征在于，竖结构数据库中采用双执行引擎和双存储引擎，双存储引擎包括竖存储引擎和行存储引擎，双执行引擎包括竖执行引擎和行执行引擎。