CN117289872A - 一种计算机大数据存储系统 - Google Patents

一种计算机大数据存储系统 Download PDF

Info

Publication number
CN117289872A
CN117289872A CN202311305873.9A CN202311305873A CN117289872A CN 117289872 A CN117289872 A CN 117289872A CN 202311305873 A CN202311305873 A CN 202311305873A CN 117289872 A CN117289872 A CN 117289872A
Authority
CN
China
Prior art keywords
data
module
storage
stored
big
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311305873.9A
Other languages
English (en)
Inventor
赵萌
栾国明
关宇光
王雄飞
周健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sanbo Brain Hospital Co ltd
Original Assignee
Beijing Sanbo Brain Hospital Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sanbo Brain Hospital Co ltd filed Critical Beijing Sanbo Brain Hospital Co ltd
Priority to CN202311305873.9A priority Critical patent/CN117289872A/zh
Publication of CN117289872A publication Critical patent/CN117289872A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0608Saving storage space on storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9014Indexing; Data structures therefor; Storage structures hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9027Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0644Management of space entities, e.g. partitions, extents, pools
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及大数据存储技术领域,且公开了一种计算机大数据存储系统,首先通过需求分析模块对需要存储以及获取的数据进行了解和期望,然后通过数据采集模块对相关需要存储的数据进行采集处理,然后数据预处理模块对采集的数据进行相关预处理便于后续的分类以及压缩,然后通过数据分区模块将数据划分成具有逻辑的数据块最后将数据存储至大数据存储模块中,设置了数据分区模块,根据存储数据的某个范围属性,例如根据数据的字符串分区,根据数据的字符串的字典序以及特定的规则进行划分,方便后续的对数据进行快速的定点访问以及快速筛选查看,大大的提高了数据查询和分析的效率。

Description

一种计算机大数据存储系统
技术领域
本发明涉及大数据存储技术领域,具体为一种计算机大数据存储系统。
背景技术
随着数字化时代的到来,大量的数据被生成、收集和存储,从生活中的数据、社交媒体数据到企业交易数据,以及科学研究中的实验数据,数据规模呈现爆发式增长的趋势。大数据存储系统需要能够处理不同种类和格式的数据,包括结构化数据(如关系数据库)、半结构化数据(如XML和JSON)以及非结构化数据(如图像、音频和视频数据)。传统关系型数据库在处理非结构化和半结构化数据方面存在局限性,因此需要新的存储系统来应对这些挑战,并且传统的存储系统无法满足这种海量数据的存储和处理需求,因此需要开发更为高效和可扩展的大数据存储系统,所以,在此提出了一种计算机大数据存储系统。
目前,计算机大数据存储系统在进行海量数据存储的时候,为了方便数据的存储和调用,都会将存储的数据进行分类并且存储在不同的数据存储区中,在调用的时候访问对应的存储区,但是对于海量的数据来说,每一个存储区中的数据量依然非常巨大,需要占用大量的存储空间,影响存储效果,对此,我们提出了一种计算机大数据存储系统能够有效的利用当前有限的存储空间,将存储的数据有规律的进行压缩,在调用的时候,有条理的进行数据的访问,达到有限的存储空间中存储更多的数据,可以广泛的应用在医疗数据等大数据存储的平台中,大大的提高了数据的存储效率。
发明内容
针对现有技术中存储系统存储数据时占用存储空间非常大的不足,本发明提供了一种计算机大数据存储系统,具备将存储的数据有规律的进行压缩,在调用的时候,有条理的进行数据的访问的优点。
为实现上述目的,本发明提供如下技术方案:.一种计算机大数据存储系统,包括用于了解对数据存储的需求和期望,了解系统所需的存储容量、数据分类方式的需求分析模块;
用于采集存储系统需要进行分类存储的数据的数据采集模块;
用于在存储数据之前对数据进行清洗以及填补缺失值等操作的数据预处理模块;
用于将需要存储的数据进行分区和分桶更便于数据有序存储的数据分区模块;
用于存储海量数据的大数据存储模块;
用于对数据进行保护防止出现意外导致数据损失的数据备份与恢复模块;
首先通过需求分析模块对需要存储以及获取的数据进行了解和期望,然后通过数据采集模块对相关需要存储的数据进行采集处理,然后数据预处理模块对采集的数据进行相关预处理便于后续的分类以及压缩,然后通过数据分区模块将数据划分成具有逻辑的数据块最后将数据存储至大数据存储模块中。
所述需求分析模块首先会对需要存储的相关数据信息进行需求分收集,例如对需要存储的数据的期望以及需求,然后需求分析模块会对其进行需求整理,将需要存储的数据需求分析完成后将数据需求进行分级排序,根据存储需求的优先级向数据采集模块传输采集指令。
所述数据采集模块接收到需求分析模块传输的采集指令后,数据采集模块根据需求分析分析的存储数据优先级对数据进行采集,数据采集模块通常采用API调用技术,如果采集的目标数据源提供了API接口,就能够通过数据采集模块API调用来采集数据,在数据采集模块获取完数据后会将其传输至数据预处理模块。
所述数据预处理模块对数据采集模块采集的相关数据进行预处理操作,具体包括对数据的清洗以及数据转换,同时填补数据的缺失值,保证数据的一致性和有效性,同时数据预处理模块还会对数据状态进行异常检测与处理,通过采用数据挖掘算法等方法,对数据进行挖掘的同时发现其中的异常数据,例如存在离群点、异常值的数据,将原始的数据预处理成便于后续分析以及分类的数据,同时数据采集模块将预处理完成后的数据传输至数据分区模块。
所述数据分区模块包括了数据的范围分区,具体为根据数据的某个范围属性,例如数据的时间范围分区,根据数据的属性将数据按照时间进行分区,以及字符串分区,字符串分区是根据数据的字符串的字典序以及特定的规则进行划分数据分区模块提高了数据查询和分析的效率,方便对数据进行快速的定点访问,数据分区模块将数据分区完成之后会将数据存储至大数据存储模块中。
所述大数据存储模块接收到数据分区模块处理完成后的数据之后,将数据进行存储,同时大数据存储模块中设置了数据分段分级存储技术、列存储技术以及数据牵引技术,这些技术分别对应了数据分段分级存储模块、列存储技术模块和数据牵引模块。
所述数据分段分级存储模块将大数据存储模块中存储的数据分成不同的段并按照不同的存储级别进行存储,所述列存储技术模块对大数据存储模块存储的数据进行压缩处理,同时列存储技术模块还可以对具有相似的特征的同一列数据进行连续压缩,从而获得更高的压缩率,减少空间的占用以及便于管理,所述数据牵引模块用于构建和维护有效的索引结构,以便大数据存储模块快速的定位和访问存储压缩的数据,常见的索引结构包括B+树、哈希索引、位图索引等。
所述数据备份与恢复模块会定期的对大数据存储模块中的压缩数据进行备份处理,将数据数据复制到其他的位置,从而保护了数据的完整性,同时数据备份与恢复模块还具有数据恢复的功能,当原始数据出现了损坏或者丢失的情况时,通过数据备份与恢复模块在其他位置或者介质中备份的数据对原有的数据进行恢复,数据的恢复可以是整体的数据恢复,也可以是选择性的恢复。
有益效果:
1、该计算机大数据存储系统,通过设置了数据分区模块,根据存储数据的某个范围属性,例如根据数据的字符串分区,根据数据的字符串的字典序以及特定的规则进行划分,方便后续的对数据进行快速的定点访问以及快速筛选查看,大大的提高了数据查询和分析的效率。
2、该计算机大数据存储系统,通过在存储模块中设置了数据分段分级存储模块、列存储技术模块和数据牵引模块,在将大数据存储模块中存储的数据分成不同的段并按照不通的存储级别进行存储的同时还可以对具有相似的特征的同一列数据进行连续压缩,以及构建和维护有效的索引结构,以便大数据存储模块快速的定位和访问存储压缩的数据,常见的索引结构包括B+树、哈希索引、位图索引等,在提高了压缩效率的同时,还减少空间的占用,更高效的对海量数据进行分类和存储。
附图说明
图1为本发明结构示意图。
图中:1、需求分析模块;2、数据采集模块;3、数据预处理模块;4、数据分区模块;5、大数据存储模块;6、数据备份与回复;7、数据分段分级存储模块;8、列存储技术模块;9、数据牵引模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
请参阅图1,一种计算机大数据存储系统,包括用于了解对数据存储的需求和期望,了解系统所需的存储容量、数据分类方式的需求分析模块1;
用于采集存储系统需要进行分类存储的数据的数据采集模块2;
用于在存储数据之前对数据进行清洗以及填补缺失值等操作的数据预处理模块3;
用于将需要存储的数据进行分区和分桶更便于数据有序存储的数据分区模块4;
用于存储海量数据的大数据存储模块5;
用于对数据进行保护防止出现意外导致数据损失的数据备份与恢复模块6;
首先通过需求分析模块1对需要存储以及获取的数据进行了解和期望,然后通过数据采集模块2对相关需要存储的数据进行采集处理,然后数据预处理模块3对采集的数据进行相关预处理便于后续的分类以及压缩,然后通过数据分区模块4将数据划分成具有逻辑的数据块最后将数据存储至大数据存储模块5中。
需求分析模块1首先会对需要存储的相关数据信息进行需求分收集,例如对需要存储的数据的期望以及需求,然后需求分析模块1会对其进行需求整理,将需要存储的数据需求分析完成后将数据需求进行分级排序,根据存储需求的优先级向数据采集模块2传输采集指令。
数据采集模块2接收到需求分析模块1传输的采集指令后,数据采集模块2根据需求分析1分析的存储数据优先级对数据进行采集,数据采集模块2通常采用API调用技术,如果采集的目标数据源提供了API接口,就能够通过数据采集模块2API调用来采集数据,在数据采集模块2获取完数据后会将其传输至数据预处理模块3。
数据预处理模块3对数据采集模块2采集的相关数据进行预处理操作,具体包括对数据的清洗以及数据转换,同时填补数据的缺失值,保证数据的一致性和有效性,同时数据预处理模块3还会对数据状态进行异常检测与处理,通过采用数据挖掘算法等方法,对数据进行挖掘的同时发现其中的异常数据,例如存在离群点、异常值的数据,将原始的数据预处理成便于后续分析以及分类的数据,同时数据采集模块2将预处理完成后的数据传输至数据分区模块4。
数据分区模块4包括了数据的范围分区,具体为根据数据的某个范围属性,例如数据的时间范围分区,根据数据的属性将数据按照时间进行分区,以及字符串分区,字符串分区是根据数据的字符串的字典序以及特定的规则进行划分数据分区模块4提高了数据查询和分析的效率,方便对数据进行快速的定点访问,数据分区模块4将数据分区完成之后会将数据存储至大数据存储模块5中。
其中:首先通过需求分析模块1对需要存储的数据类型以及需求进行分析,了解对数据存储的需求和期望,了解系统所需的存储容量、数据分类方式,然后即可通过数据采集模块2对存储的数据进行采集,数据预处理模块3会使用数据挖掘及时将采集完成的数据进行缺失值筛查以及对数据的状态进行挖掘,防止存在离群点、异常值的数据,数据预处理模块3之后的数据分区模块4会根据存储数据的某个范围属性,例如根据数据的字符串分区,数据分区模块4会根据数据的字符串的字典序以及特定的规则进行划分,方便后续对存储的数据进行快速的定点访问以及快速筛选查看,大大的提高了数据查询和分析的效率。
实施例二
请参阅图1,在实施例一基础上进一步的,大数据存储模块5接收到数据分区模块4处理完成后的数据之后,将数据进行存储,同时大数据存储模块5中设置了数据分段分级存储技术、列存储技术以及数据牵引技术,这些技术分别对应了数据分段分级存储模块7、列存储技术模块8和数据牵引模块9。
数据分段分级存储模块7将大数据存储模块5中存储的数据分成不同的段并按照不同的存储级别进行存储,列存储技术模块8对大数据存储模块5存储的数据进行压缩处理,同时列存储技术模块8还可以对具有相似的特征的同一列数据进行连续压缩,从而获得更高的压缩率,减少空间的占用以及便于管理,数据牵引模块9用于构建和维护有效的索引结构,以便大数据存储模块5快速的定位和访问存储压缩的数据,常见的索引结构包括B+树、哈希索引、位图索引等。
数据备份与恢复模块6会定期的对大数据存储模块5中的压缩数据进行备份处理,将数据数据复制到其他的位置,从而保护了数据的完整性,同时数据备份与恢复模块6还具有数据恢复的功能,当原始数据出现了损坏或者丢失的情况时,通过数据备份与恢复模块6在其他位置或者介质中备份的数据对原有的数据进行恢复,数据的恢复可以是整体的数据恢复,也可以是选择性的恢复。
其中:通过在大数据存储模块5中设置了数据分段分级存储模块7、列存储技术模块8和数据牵引模块9,数据分段分级存储模块7会将大数据存储模块中存储的数据分成不同的段并按照不通的存储级别进行存储,列存储技术模块8对数据进行压缩处理,节省存储空间,同时列存储技术模块8还可以对具有相似的特征的同一列数据进行连续压缩,配合数据牵引模块9使用的索引结构例如B+树、哈希索引、位图索引等来构建和维护有效的索引结构,以便大数据存储模块快速的定位和访问存储压缩的数据,在提高了压缩效率的同时,还减少空间的占用,更高效的对海量数据进行分类和存储。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种计算机大数据存储系统,包括用于了解对数据存储的需求和期望,了解系统所需的存储容量、数据分类方式的需求分析模块(1);
用于采集存储系统需要进行分类存储的数据的数据采集模块(2);
用于在存储数据之前对数据进行清洗以及填补缺失值等操作的数据预处理模块(3);
用于将需要存储的数据进行分区和分桶更便于数据有序存储的数据分区模块(4);
用于存储海量数据的大数据存储模块(5);
用于对数据进行保护防止出现意外导致数据损失的数据备份与恢复模块(6);
其特征在于:首先通过需求分析模块(1)对需要存储以及获取的数据进行了解和期望,然后通过数据采集模块(2)对相关需要存储的数据进行采集处理,然后数据预处理模块(3)对采集的数据进行相关预处理便于后续的分类以及压缩,然后通过数据分区模块(4)将数据划分成具有逻辑的数据块最后将数据存储至大数据存储模块(5)中。
2.根据权利要求1所述的一种计算机大数据存储系统,其特征在于:所述需求分析模块(1)首先会对需要存储的相关数据信息进行需求分收集,例如对需要存储的数据的期望以及需求,然后需求分析模块(1)会对其进行需求整理,将需要存储的数据需求分析完成后将数据需求进行分级排序,根据存储需求的优先级向数据采集模块(2)传输采集指令。
3.根据权利要求1所述的一种计算机大数据存储系统,其特征在于:所述数据采集模块(2)接收到需求分析模块(1)传输的采集指令后,数据采集模块(2)根据需求分析(1)分析的存储数据优先级对数据进行采集,数据采集模块(2)通常采用API调用技术,如果采集的目标数据源提供了API接口,就能够通过数据采集模块(2)API调用来采集数据,在数据采集模块(2)获取完数据后会将其传输至数据预处理模块(3)。
4.根据权利要求1所述的一种计算机大数据存储系统,其特征在于:所述数据预处理模块(3)对数据采集模块(2)采集的相关数据进行预处理操作,具体包括对数据的清洗以及数据转换,同时填补数据的缺失值,保证数据的一致性和有效性,同时数据预处理模块(3)还会对数据状态进行异常检测与处理,通过采用数据挖掘算法等方法,对数据进行挖掘的同时发现其中的异常数据,例如存在离群点、异常值的数据,将原始的数据预处理成便于后续分析以及分类的数据,同时数据采集模块(2)将预处理完成后的数据传输至数据分区模块(4)。
5.根据权利要求1所述的一种计算机大数据存储系统,其特征在于:所述数据分区模块(4)包括了数据的范围分区,具体为根据数据的某个范围属性,例如数据的时间范围分区,根据数据的时间属性将数据按照时间进行分区,以及字符串分区,字符串分区是根据数据的字符串的字典序以及特定的规则进行划分数据分区模块(4)提高了数据查询和分析的效率,方便对数据进行快速的定点访问,数据分区模块(4)将数据分区完成之后会将数据存储至大数据存储模块(5)中。
6.根据权利要求1所述的一种计算机大数据存储系统,其特征在于:所述大数据存储模块(5)接收到数据分区模块(4)处理完成后的数据之后,将数据进行存储,同时大数据存储模块(5)中设置了数据分段分级存储技术、列存储技术以及数据牵引技术,这些技术分别对应了数据分段分级存储模块(7)、列存储技术模块(8)和数据牵引模块(9)。
7.根据权利要求1所述的一种计算机大数据存储系统,其特征在于:所述数据分段分级存储模块(7)将大数据存储模块(5)中存储的数据分成不同的段并按照不同的存储级别进行存储,所述列存储技术模块(8)对大数据存储模块(5)存储的数据进行压缩处理,同时列存储技术模块(8)还可以对具有相似的特征的同一列数据进行连续压缩,从而获得更高的压缩率,减少空间的占用以及便于管理,所述数据牵引模块(9)用于构建和维护有效的索引结构,以便大数据存储模块(5)快速的定位和访问存储压缩的数据,常见的索引结构包括B+树、哈希索引、位图索引等。
8.根据权利要求1所述的一种计算机大数据存储系统,其特征在于:所述数据备份与恢复模块(6)会定期的对大数据存储模块(5)中的压缩数据进行备份处理,将数据数据复制到其他的位置,从而保护了数据的完整性,同时数据备份与恢复模块(6)还具有数据恢复的功能,当原始数据出现了损坏或者丢失的情况时,通过数据备份与恢复模块(6)在其他位置或者介质中备份的数据对原有的数据进行恢复,数据的恢复可以是整体的数据恢复,也可以是选择性的恢复。
CN202311305873.9A 2023-10-10 2023-10-10 一种计算机大数据存储系统 Pending CN117289872A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311305873.9A CN117289872A (zh) 2023-10-10 2023-10-10 一种计算机大数据存储系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311305873.9A CN117289872A (zh) 2023-10-10 2023-10-10 一种计算机大数据存储系统

Publications (1)

Publication Number Publication Date
CN117289872A true CN117289872A (zh) 2023-12-26

Family

ID=89244252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311305873.9A Pending CN117289872A (zh) 2023-10-10 2023-10-10 一种计算机大数据存储系统

Country Status (1)

Country Link
CN (1) CN117289872A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110231403A1 (en) * 2010-03-19 2011-09-22 Microsoft Corporation Scalable index build techniques for column stores
CN110704431A (zh) * 2019-09-20 2020-01-17 倪亚晖 一种海量数据的分级存储管理方法
CN111339381A (zh) * 2020-03-06 2020-06-26 昆明理工大学 一种字典序分区双数组的字符串批量查询方法及装置
CN115168319A (zh) * 2022-05-27 2022-10-11 清华大学 一种数据库系统、数据处理方法及电子设备
CN116342230A (zh) * 2023-05-31 2023-06-27 深圳洽客科技有限公司 一种基于大数据分析的电商数据存储平台
CN116719822A (zh) * 2023-08-10 2023-09-08 深圳市连用科技有限公司 一种海量结构化数据的存储方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110231403A1 (en) * 2010-03-19 2011-09-22 Microsoft Corporation Scalable index build techniques for column stores
CN110704431A (zh) * 2019-09-20 2020-01-17 倪亚晖 一种海量数据的分级存储管理方法
CN111339381A (zh) * 2020-03-06 2020-06-26 昆明理工大学 一种字典序分区双数组的字符串批量查询方法及装置
CN115168319A (zh) * 2022-05-27 2022-10-11 清华大学 一种数据库系统、数据处理方法及电子设备
CN116342230A (zh) * 2023-05-31 2023-06-27 深圳洽客科技有限公司 一种基于大数据分析的电商数据存储平台
CN116719822A (zh) * 2023-08-10 2023-09-08 深圳市连用科技有限公司 一种海量结构化数据的存储方法及系统

Similar Documents

Publication Publication Date Title
US9405790B2 (en) System, method and data structure for fast loading, storing and access to huge data sets in real time
CN110019218B (zh) 数据存储与查询方法及设备
US8838593B2 (en) Method and system for storing, organizing and processing data in a relational database
US7418544B2 (en) Method and system for log structured relational database objects
EP3812915A1 (en) Big data statistics at data-block level
US10783163B2 (en) Instance-based distributed data recovery method and apparatus
Su et al. Taming massive distributed datasets: data sampling using bitmap indices
US11468031B1 (en) Methods and apparatus for efficiently scaling real-time indexing
CN113901279B (zh) 一种图数据库的检索方法和装置
CN111949710A (zh) 数据存储方法、装置、服务器及存储介质
CN111581056B (zh) 基于人工智能的软件工程数据库维护与预警系统
US10430383B1 (en) Efficiently estimating data compression ratio of ad-hoc set of files in protection storage filesystem with stream segmentation and data deduplication
CN114610708A (zh) 一种向量数据处理方法及装置、电子设备及存储介质
EP3683696A1 (en) System and method of bloom filter for big data
CN116821053B (zh) 数据上报方法、装置、计算机设备和存储介质
CN108334532B (zh) 一种基于Spark的Eclat并行化方法、系统及装置
CN109886318B (zh) 一种信息处理方法、装置及计算机可读存储介质
US10877881B2 (en) In-place garbage collection of a sharded, replicated distributed state machine based on mergeable operations
CN117289872A (zh) 一种计算机大数据存储系统
CN114546886A (zh) 一种值日志系统的空间回收方法
CN113282568A (zh) 一种iot大数据实时时序流分析应用技术方法
US20190034280A1 (en) Performant Process for Salvaging Renderable Content from Digital Data Sources
US20240086362A1 (en) Key-value store and file system
CN117112609B (zh) 一种使用关键元素矩阵提高监控历史数据检索效率的方法
CN115827653B (zh) 一种用于htap和海量数据的纯列式更新方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination