CN117289872A

CN117289872A - 一种计算机大数据存储系统

Info

Publication number: CN117289872A
Application number: CN202311305873.9A
Authority: CN
Inventors: 赵萌; 栾国明; 关宇光; 王雄飞; 周健
Original assignee: Beijing Sanbo Brain Hospital Co ltd
Current assignee: Beijing Sanbo Brain Hospital Co ltd
Priority date: 2023-10-10
Filing date: 2023-10-10
Publication date: 2023-12-26

Abstract

本发明涉及大数据存储技术领域，且公开了一种计算机大数据存储系统，首先通过需求分析模块对需要存储以及获取的数据进行了解和期望，然后通过数据采集模块对相关需要存储的数据进行采集处理，然后数据预处理模块对采集的数据进行相关预处理便于后续的分类以及压缩，然后通过数据分区模块将数据划分成具有逻辑的数据块最后将数据存储至大数据存储模块中，设置了数据分区模块，根据存储数据的某个范围属性，例如根据数据的字符串分区，根据数据的字符串的字典序以及特定的规则进行划分，方便后续的对数据进行快速的定点访问以及快速筛选查看，大大的提高了数据查询和分析的效率。

Description

一种计算机大数据存储系统

技术领域

本发明涉及大数据存储技术领域，具体为一种计算机大数据存储系统。

背景技术

随着数字化时代的到来，大量的数据被生成、收集和存储，从生活中的数据、社交媒体数据到企业交易数据，以及科学研究中的实验数据，数据规模呈现爆发式增长的趋势。大数据存储系统需要能够处理不同种类和格式的数据，包括结构化数据(如关系数据库)、半结构化数据(如XML和JSON)以及非结构化数据(如图像、音频和视频数据)。传统关系型数据库在处理非结构化和半结构化数据方面存在局限性，因此需要新的存储系统来应对这些挑战，并且传统的存储系统无法满足这种海量数据的存储和处理需求，因此需要开发更为高效和可扩展的大数据存储系统，所以，在此提出了一种计算机大数据存储系统。

目前，计算机大数据存储系统在进行海量数据存储的时候，为了方便数据的存储和调用，都会将存储的数据进行分类并且存储在不同的数据存储区中，在调用的时候访问对应的存储区，但是对于海量的数据来说，每一个存储区中的数据量依然非常巨大，需要占用大量的存储空间，影响存储效果，对此，我们提出了一种计算机大数据存储系统能够有效的利用当前有限的存储空间，将存储的数据有规律的进行压缩，在调用的时候，有条理的进行数据的访问，达到有限的存储空间中存储更多的数据，可以广泛的应用在医疗数据等大数据存储的平台中，大大的提高了数据的存储效率。

发明内容

针对现有技术中存储系统存储数据时占用存储空间非常大的不足，本发明提供了一种计算机大数据存储系统，具备将存储的数据有规律的进行压缩，在调用的时候，有条理的进行数据的访问的优点。

为实现上述目的，本发明提供如下技术方案：.一种计算机大数据存储系统，包括用于了解对数据存储的需求和期望，了解系统所需的存储容量、数据分类方式的需求分析模块；

用于采集存储系统需要进行分类存储的数据的数据采集模块；

用于在存储数据之前对数据进行清洗以及填补缺失值等操作的数据预处理模块；

用于将需要存储的数据进行分区和分桶更便于数据有序存储的数据分区模块；

用于存储海量数据的大数据存储模块；

用于对数据进行保护防止出现意外导致数据损失的数据备份与恢复模块；

首先通过需求分析模块对需要存储以及获取的数据进行了解和期望，然后通过数据采集模块对相关需要存储的数据进行采集处理，然后数据预处理模块对采集的数据进行相关预处理便于后续的分类以及压缩，然后通过数据分区模块将数据划分成具有逻辑的数据块最后将数据存储至大数据存储模块中。

所述需求分析模块首先会对需要存储的相关数据信息进行需求分收集，例如对需要存储的数据的期望以及需求，然后需求分析模块会对其进行需求整理，将需要存储的数据需求分析完成后将数据需求进行分级排序，根据存储需求的优先级向数据采集模块传输采集指令。

所述数据采集模块接收到需求分析模块传输的采集指令后，数据采集模块根据需求分析分析的存储数据优先级对数据进行采集，数据采集模块通常采用API调用技术，如果采集的目标数据源提供了API接口，就能够通过数据采集模块API调用来采集数据，在数据采集模块获取完数据后会将其传输至数据预处理模块。

所述数据预处理模块对数据采集模块采集的相关数据进行预处理操作，具体包括对数据的清洗以及数据转换，同时填补数据的缺失值，保证数据的一致性和有效性，同时数据预处理模块还会对数据状态进行异常检测与处理，通过采用数据挖掘算法等方法，对数据进行挖掘的同时发现其中的异常数据，例如存在离群点、异常值的数据，将原始的数据预处理成便于后续分析以及分类的数据，同时数据采集模块将预处理完成后的数据传输至数据分区模块。

所述数据分区模块包括了数据的范围分区，具体为根据数据的某个范围属性，例如数据的时间范围分区，根据数据的属性将数据按照时间进行分区，以及字符串分区，字符串分区是根据数据的字符串的字典序以及特定的规则进行划分数据分区模块提高了数据查询和分析的效率，方便对数据进行快速的定点访问，数据分区模块将数据分区完成之后会将数据存储至大数据存储模块中。

所述大数据存储模块接收到数据分区模块处理完成后的数据之后，将数据进行存储，同时大数据存储模块中设置了数据分段分级存储技术、列存储技术以及数据牵引技术，这些技术分别对应了数据分段分级存储模块、列存储技术模块和数据牵引模块。

所述数据分段分级存储模块将大数据存储模块中存储的数据分成不同的段并按照不同的存储级别进行存储，所述列存储技术模块对大数据存储模块存储的数据进行压缩处理，同时列存储技术模块还可以对具有相似的特征的同一列数据进行连续压缩，从而获得更高的压缩率，减少空间的占用以及便于管理，所述数据牵引模块用于构建和维护有效的索引结构，以便大数据存储模块快速的定位和访问存储压缩的数据，常见的索引结构包括B+树、哈希索引、位图索引等。

所述数据备份与恢复模块会定期的对大数据存储模块中的压缩数据进行备份处理，将数据数据复制到其他的位置，从而保护了数据的完整性，同时数据备份与恢复模块还具有数据恢复的功能，当原始数据出现了损坏或者丢失的情况时，通过数据备份与恢复模块在其他位置或者介质中备份的数据对原有的数据进行恢复，数据的恢复可以是整体的数据恢复，也可以是选择性的恢复。

有益效果：

1、该计算机大数据存储系统，通过设置了数据分区模块，根据存储数据的某个范围属性，例如根据数据的字符串分区，根据数据的字符串的字典序以及特定的规则进行划分，方便后续的对数据进行快速的定点访问以及快速筛选查看，大大的提高了数据查询和分析的效率。

2、该计算机大数据存储系统，通过在存储模块中设置了数据分段分级存储模块、列存储技术模块和数据牵引模块，在将大数据存储模块中存储的数据分成不同的段并按照不通的存储级别进行存储的同时还可以对具有相似的特征的同一列数据进行连续压缩，以及构建和维护有效的索引结构，以便大数据存储模块快速的定位和访问存储压缩的数据，常见的索引结构包括B+树、哈希索引、位图索引等，在提高了压缩效率的同时，还减少空间的占用，更高效的对海量数据进行分类和存储。

附图说明

图1为本发明结构示意图。

图中：1、需求分析模块；2、数据采集模块；3、数据预处理模块；4、数据分区模块；5、大数据存储模块；6、数据备份与回复；7、数据分段分级存储模块；8、列存储技术模块；9、数据牵引模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

请参阅图1，一种计算机大数据存储系统，包括用于了解对数据存储的需求和期望，了解系统所需的存储容量、数据分类方式的需求分析模块1；

用于采集存储系统需要进行分类存储的数据的数据采集模块2；

用于在存储数据之前对数据进行清洗以及填补缺失值等操作的数据预处理模块3；

用于将需要存储的数据进行分区和分桶更便于数据有序存储的数据分区模块4；

用于存储海量数据的大数据存储模块5；

用于对数据进行保护防止出现意外导致数据损失的数据备份与恢复模块6；

首先通过需求分析模块1对需要存储以及获取的数据进行了解和期望，然后通过数据采集模块2对相关需要存储的数据进行采集处理，然后数据预处理模块3对采集的数据进行相关预处理便于后续的分类以及压缩，然后通过数据分区模块4将数据划分成具有逻辑的数据块最后将数据存储至大数据存储模块5中。

需求分析模块1首先会对需要存储的相关数据信息进行需求分收集，例如对需要存储的数据的期望以及需求，然后需求分析模块1会对其进行需求整理，将需要存储的数据需求分析完成后将数据需求进行分级排序，根据存储需求的优先级向数据采集模块2传输采集指令。

数据采集模块2接收到需求分析模块1传输的采集指令后，数据采集模块2根据需求分析1分析的存储数据优先级对数据进行采集，数据采集模块2通常采用API调用技术，如果采集的目标数据源提供了API接口，就能够通过数据采集模块2API调用来采集数据，在数据采集模块2获取完数据后会将其传输至数据预处理模块3。

数据预处理模块3对数据采集模块2采集的相关数据进行预处理操作，具体包括对数据的清洗以及数据转换，同时填补数据的缺失值，保证数据的一致性和有效性，同时数据预处理模块3还会对数据状态进行异常检测与处理，通过采用数据挖掘算法等方法，对数据进行挖掘的同时发现其中的异常数据，例如存在离群点、异常值的数据，将原始的数据预处理成便于后续分析以及分类的数据，同时数据采集模块2将预处理完成后的数据传输至数据分区模块4。

数据分区模块4包括了数据的范围分区，具体为根据数据的某个范围属性，例如数据的时间范围分区，根据数据的属性将数据按照时间进行分区，以及字符串分区，字符串分区是根据数据的字符串的字典序以及特定的规则进行划分数据分区模块4提高了数据查询和分析的效率，方便对数据进行快速的定点访问，数据分区模块4将数据分区完成之后会将数据存储至大数据存储模块5中。

其中：首先通过需求分析模块1对需要存储的数据类型以及需求进行分析，了解对数据存储的需求和期望，了解系统所需的存储容量、数据分类方式，然后即可通过数据采集模块2对存储的数据进行采集，数据预处理模块3会使用数据挖掘及时将采集完成的数据进行缺失值筛查以及对数据的状态进行挖掘，防止存在离群点、异常值的数据，数据预处理模块3之后的数据分区模块4会根据存储数据的某个范围属性，例如根据数据的字符串分区，数据分区模块4会根据数据的字符串的字典序以及特定的规则进行划分，方便后续对存储的数据进行快速的定点访问以及快速筛选查看，大大的提高了数据查询和分析的效率。

实施例二

请参阅图1，在实施例一基础上进一步的，大数据存储模块5接收到数据分区模块4处理完成后的数据之后，将数据进行存储，同时大数据存储模块5中设置了数据分段分级存储技术、列存储技术以及数据牵引技术，这些技术分别对应了数据分段分级存储模块7、列存储技术模块8和数据牵引模块9。

数据分段分级存储模块7将大数据存储模块5中存储的数据分成不同的段并按照不同的存储级别进行存储，列存储技术模块8对大数据存储模块5存储的数据进行压缩处理，同时列存储技术模块8还可以对具有相似的特征的同一列数据进行连续压缩，从而获得更高的压缩率，减少空间的占用以及便于管理，数据牵引模块9用于构建和维护有效的索引结构，以便大数据存储模块5快速的定位和访问存储压缩的数据，常见的索引结构包括B+树、哈希索引、位图索引等。

数据备份与恢复模块6会定期的对大数据存储模块5中的压缩数据进行备份处理，将数据数据复制到其他的位置，从而保护了数据的完整性，同时数据备份与恢复模块6还具有数据恢复的功能，当原始数据出现了损坏或者丢失的情况时，通过数据备份与恢复模块6在其他位置或者介质中备份的数据对原有的数据进行恢复，数据的恢复可以是整体的数据恢复，也可以是选择性的恢复。

其中：通过在大数据存储模块5中设置了数据分段分级存储模块7、列存储技术模块8和数据牵引模块9，数据分段分级存储模块7会将大数据存储模块中存储的数据分成不同的段并按照不通的存储级别进行存储，列存储技术模块8对数据进行压缩处理，节省存储空间，同时列存储技术模块8还可以对具有相似的特征的同一列数据进行连续压缩，配合数据牵引模块9使用的索引结构例如B+树、哈希索引、位图索引等来构建和维护有效的索引结构，以便大数据存储模块快速的定位和访问存储压缩的数据，在提高了压缩效率的同时，还减少空间的占用，更高效的对海量数据进行分类和存储。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种计算机大数据存储系统，包括用于了解对数据存储的需求和期望，了解系统所需的存储容量、数据分类方式的需求分析模块(1)；

用于采集存储系统需要进行分类存储的数据的数据采集模块(2)；

用于在存储数据之前对数据进行清洗以及填补缺失值等操作的数据预处理模块(3)；

用于将需要存储的数据进行分区和分桶更便于数据有序存储的数据分区模块(4)；

用于存储海量数据的大数据存储模块(5)；

用于对数据进行保护防止出现意外导致数据损失的数据备份与恢复模块(6)；

其特征在于：首先通过需求分析模块(1)对需要存储以及获取的数据进行了解和期望，然后通过数据采集模块(2)对相关需要存储的数据进行采集处理，然后数据预处理模块(3)对采集的数据进行相关预处理便于后续的分类以及压缩，然后通过数据分区模块(4)将数据划分成具有逻辑的数据块最后将数据存储至大数据存储模块(5)中。

2.根据权利要求1所述的一种计算机大数据存储系统，其特征在于：所述需求分析模块(1)首先会对需要存储的相关数据信息进行需求分收集，例如对需要存储的数据的期望以及需求，然后需求分析模块(1)会对其进行需求整理，将需要存储的数据需求分析完成后将数据需求进行分级排序，根据存储需求的优先级向数据采集模块(2)传输采集指令。

3.根据权利要求1所述的一种计算机大数据存储系统，其特征在于：所述数据采集模块(2)接收到需求分析模块(1)传输的采集指令后，数据采集模块(2)根据需求分析(1)分析的存储数据优先级对数据进行采集，数据采集模块(2)通常采用API调用技术，如果采集的目标数据源提供了API接口，就能够通过数据采集模块(2)API调用来采集数据，在数据采集模块(2)获取完数据后会将其传输至数据预处理模块(3)。

4.根据权利要求1所述的一种计算机大数据存储系统，其特征在于：所述数据预处理模块(3)对数据采集模块(2)采集的相关数据进行预处理操作，具体包括对数据的清洗以及数据转换，同时填补数据的缺失值，保证数据的一致性和有效性，同时数据预处理模块(3)还会对数据状态进行异常检测与处理，通过采用数据挖掘算法等方法，对数据进行挖掘的同时发现其中的异常数据，例如存在离群点、异常值的数据，将原始的数据预处理成便于后续分析以及分类的数据，同时数据采集模块(2)将预处理完成后的数据传输至数据分区模块(4)。

5.根据权利要求1所述的一种计算机大数据存储系统，其特征在于：所述数据分区模块(4)包括了数据的范围分区，具体为根据数据的某个范围属性，例如数据的时间范围分区，根据数据的时间属性将数据按照时间进行分区，以及字符串分区，字符串分区是根据数据的字符串的字典序以及特定的规则进行划分数据分区模块(4)提高了数据查询和分析的效率，方便对数据进行快速的定点访问，数据分区模块(4)将数据分区完成之后会将数据存储至大数据存储模块(5)中。

6.根据权利要求1所述的一种计算机大数据存储系统，其特征在于：所述大数据存储模块(5)接收到数据分区模块(4)处理完成后的数据之后，将数据进行存储，同时大数据存储模块(5)中设置了数据分段分级存储技术、列存储技术以及数据牵引技术，这些技术分别对应了数据分段分级存储模块(7)、列存储技术模块(8)和数据牵引模块(9)。

7.根据权利要求1所述的一种计算机大数据存储系统，其特征在于：所述数据分段分级存储模块(7)将大数据存储模块(5)中存储的数据分成不同的段并按照不同的存储级别进行存储，所述列存储技术模块(8)对大数据存储模块(5)存储的数据进行压缩处理，同时列存储技术模块(8)还可以对具有相似的特征的同一列数据进行连续压缩，从而获得更高的压缩率，减少空间的占用以及便于管理，所述数据牵引模块(9)用于构建和维护有效的索引结构，以便大数据存储模块(5)快速的定位和访问存储压缩的数据，常见的索引结构包括B+树、哈希索引、位图索引等。

8.根据权利要求1所述的一种计算机大数据存储系统，其特征在于：所述数据备份与恢复模块(6)会定期的对大数据存储模块(5)中的压缩数据进行备份处理，将数据数据复制到其他的位置，从而保护了数据的完整性，同时数据备份与恢复模块(6)还具有数据恢复的功能，当原始数据出现了损坏或者丢失的情况时，通过数据备份与恢复模块(6)在其他位置或者介质中备份的数据对原有的数据进行恢复，数据的恢复可以是整体的数据恢复，也可以是选择性的恢复。