CN112597348A

CN112597348A - 一种大数据存储优化的方法及装置

Info

Publication number: CN112597348A
Application number: CN202011479930.1A
Authority: CN
Inventors: 李瑞芳; 何怀文; 肖涛; 程东; 黄敏
Original assignee: University of Electronic Science and Technology of China Zhongshan Institute
Current assignee: University of Electronic Science and Technology of China Zhongshan Institute
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-04-02

Abstract

一种大数据存储优化的方法，包括以下步骤：S1、获取存储内存并对其进行分割；S2、生成相应的存储规则，依据存储规则对各存储单元的存储属性进行设定；S3、采集待存储数据并对其进行初步处理；S4、对数据进行规范化再处理；S5、对处理后的待存储数据进行封装处理以形成对象数据，按照对象数据的文件属性来写入其存储属性；S6、根据对象数据的数据类型对数据进行分类；S7、将各数据分类包存储到对应的存储单元中；本发明还提出了一种大数据存储优化的装置。本发明提高了存储数据的质量，保证数据的准确性、一致性和完整性，并且将数据归类，使得数据可扩展性得到提高，增加了存储方式的灵活性，具有良好的可靠性、安全性。

Description

一种大数据存储优化的方法及装置

技术领域

本发明涉及大数据存储技术领域，尤其涉及一种大数据存储优化的方法及装置。

背景技术

随着移动互联网、物联网等应用的飞速发展，全球数据量出现了爆炸式增长。数据量的飞速增长预示着现在已经进入了大数据时代；数据按类型分为结构化数据、半结构化数据和非结构化数据，其中结构化数据是指能够以二维结构表示的一种数据类型，能通过关系型数据库存储；半结构化数据是指具有一定结构，但语义不够明确的一种数据类型，如邮件、HTML网页等，它们有些字段是确定的，也有些字段是不确定的；非结构化数据是指无法用二维结构表示的一种数据类型，主要包括办公文档、文本、图片、音视频文件等，无法采用关系型数据库进行处理；

伴随社交网络的兴起和发展，产生了大量数据，如何科学管理和合理应用这些数据显得日益重要，现有技术中对大数据的处理采用基于Hadoop的平台。Hadoop是一个开源分布式计算平台，其核心包括HDFS，HDFS的众多优点允许用户将Hadoop部署在低廉的硬件上，搭建分布式集群，构成分布式系统，主流大数据并行计算系统在设计与实现的过程中通常只重点考虑某类大数据应用的共性问题，这些系统在处理具有其他特性的大数据分析应用问题时，存在性能优化的空间，系统处理能力不佳，难以对数据进行有效优化，使用效果有待进行改善。

发明内容

(一)发明目的

为解决背景技术中存在的技术问题，本发明提出一种大数据存储优化的方法及装置，通过对数据进行初步处理和再处理以提高存储数据的质量，保证数据的准确性、一致性和完整性，并且将数据归类，使得数据可扩展性得到提高，增加了存储方式的灵活性，具有良好的可靠性、安全性。

(二)技术方案

本发明提出了一种大数据存储优化的方法，包括以下步骤：

S1、获取存储内存并对其进行分割，以形成多个存储单元；

S2、生成相应的存储规则，依据存储规则对各存储单元的存储属性进行设定，使得待存储数据只有在相同的存储属性下才能被分配到对应的存储单元下；

S3、采集待存储数据并对其进行初步处理，将数据分为轻量级数据和多媒体数据，提取多媒体数据的特征信息作为描述多媒体数据的轻量级数据，提取多媒体数据的特征信息进行数据清理，删除数据清理后的冗余数据；

其中，轻量级数据包括数字和字符串，多媒体数据包括图片、音频和视频；

S4、对数据进行规范化再处理，采用RCFile进行压缩处理，通过CCIndex将数据随机遍历转化为按行索引遍历，以及采用CCT进行记录并完成数据增量备份，并行计算组件完成HDFS文件系统和Map/Reduce计算模型配置类优化；

S5、对处理后的待存储数据进行封装处理以形成对象数据，解码和编译对象数据，根据对象数据的属性信息来确定对象数据的数据类型，按照对象数据的文件属性来写入其存储属性；

S6、根据对象数据的数据类型对数据进行分类，并形成多个数据分类包，以及对各分类数据包进行标识；

S7、依据标识信息、存储规则和存储属性将各数据分类包存储到对应的存储单元中；

S8、对各存储单元中的数据进行同步，其中，同步是指客户端的对象数据与服务器端的对象数据之间的同步。

优选的，在S2中，还需记录各存储单元的存储容量和存储位置，并依据各存储单元的存储属性来对存储单元进行命名。

优选的，在S3中，多媒体数据的特征信息包括兴趣值、摘要值和原始值，其中，兴趣值用于表示该数据的应用领域，摘要值用于简要描述多媒体数据，原始值用于存储原始多媒体数据在磁盘阵列中存放的位置。

优选的，在S4中，还包括多源数据组织与汇聚，具体操作如下：

从信息源、信息体、用户需求等多个视角，分析多源海量信息的可用性特征，并对多源数据进行汇聚。

优选的，当新增文件进行汇聚存储时，先计算出新文件的摘要值并判断该摘要值是否已存在于存储系统中，若不存在，则允许汇聚存储数据和新建此文件，若摘要值已存在，则新建该文件及对应的属性信息，文件数据直接引用存储系统内已有的数据内容。

优选的，在S5中，还需将存储属性按照时间顺序存入封装层的数据结构中，封装层的数据结构在写入节点码时，形成写入节点码数据信息的字头段。

优选的，对象数据的数据类型包括结构化数据、半结构化数据和非结构化数据，存储单元包括HDFS分布式单元、HBase数据库单元和关系数据库单元；

其中，HDFS分布式单元对非结构化数据进行存储，HBase数据库单元对半结构化数据进行存储，关系数据库对结构化数据进行存储。

优选的，在S8中，在进行同步时包括全部同步方式和增量同步方式两种；

其中，全部同步方式用于将全部对象数据进行同步，不用考虑单个对象数据是否需要同步；增量同步方式仅同步需要同步的对象数据。

优选的，在同步操作时，通过同步方式判断来决定采用增量同步方式或全部同步方式，具体判断方法如下：

判断所有对象数据的最早同步时间，当最早同步时间与当前时间的差值大于所设定的阈值，则采用全部同步方式。

本发明还提出了一种大数据存储优化的装置，包括中央处理器、数据采集模块、分割模块、存储模块、初步处理模块、再处理模块、解码模块、编译模块、封装模块和分类模块；

中央处理器通讯连接数据采集模块、分割模块、存储模块、初步处理模块、再处理模块、解码模块、编译模块、封装模块和分类模块；

其中，数据采集模块用于待存储数据的采集，分割模块用于对存储内存进行分割，存储模块用于对数据进行存储，初步处理模块用于对数据进行初步处理，再处理模块用于对数据进行再处理，解码模块用于对数据进行解码，编译模块用于对数据进行编译，封装模块用于对数据进行封装操作，分类模块用于对数据进行分类。

本发明的上述技术方案具有如下有益的技术效果：

分割模块对存储内存进行分割以形成多个存储单元，生成相应的存储规则，依据存储规则对各存储单元的存储属性进行设定；数据采集模块采集待存储数据，初步处理模块对数据进行初步处理；再处理模块对数据进行规范化再处理；封装模块对处理后的待存储数据进行封装处理以形成对象数据，解码和编译对象数据，根据对象数据的属性信息来确定对象数据的数据类型，按照对象数据的文件属性来写入其存储属性；分类模块根据对象数据的数据类型对数据进行分类，以形成多个数据分类包，依据标识信息、存储规则和存储属性将各数据分类包存储到对应的存储单元中；

本发明通过对数据进行初步处理和再处理以提高存储数据的质量，保证数据的准确性、一致性和完整性，并且将数据归类，使得数据可扩展性得到提高，增加了存储方式的灵活性，具有良好的可靠性、安全性。

附图说明

图1为本发明提出的一种大数据存储优化的方法的流程图。

图2为本发明提出的一种大数据存储优化的方法中新增文件汇聚的流程图。

图3为本发明提出的一种大数据存储优化的方法中数据类型和存储单元的框图。

图4为本发明提出的一种大数据存储优化的方法中存储单元分析的流程图。

图5为本发明提出的一种大数据存储优化的装置的框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1-4所示，本发明提出的一种大数据存储优化的方法，包括以下步骤：

S1、获取存储内存并对其进行分割，以形成多个存储单元；

在一个可选的实施例中，在S2中，还需记录各存储单元的存储容量和存储位置，并依据各存储单元的存储属性来对存储单元进行命名。

在一个可选的实施例中，在S3中，多媒体数据的特征信息包括兴趣值、摘要值和原始值，其中，兴趣值用于表示该数据的应用领域，摘要值用于简要描述多媒体数据，原始值用于存储原始多媒体数据在磁盘阵列中存放的位置。

在一个可选的实施例中，在S4中，还包括多源数据组织与汇聚，具体操作如下：从信息源、信息体、用户需求等多个视角，分析多源海量信息的可用性特征，并对多源数据进行汇聚；当新增文件进行汇聚存储时，先计算出新文件的摘要值并判断该摘要值是否已存在于存储系统中，若不存在，则允许汇聚存储数据和新建此文件，若摘要值已存在，则新建该文件及对应的属性信息，文件数据直接引用存储系统内已有的数据内容。

在一个可选的实施例中，在S5中，还需将存储属性按照时间顺序存入封装层的数据结构中，封装层的数据结构在写入节点码时，形成写入节点码数据信息的字头段。

在一个可选的实施例中，对象数据的数据类型包括结构化数据、半结构化数据和非结构化数据，存储单元包括HDFS分布式单元、HBase数据库单元和关系数据库单元；其中，HDFS分布式单元对非结构化数据进行存储，HBase数据库单元对半结构化数据进行存储，关系数据库对结构化数据进行存储。

在一个可选的实施例中，在S8中，在进行同步时包括全部同步方式和增量同步方式两种；其中，全部同步方式用于将全部对象数据进行同步，不用考虑单个对象数据是否需要同步；增量同步方式仅同步需要同步的对象数据；在同步操作时，通过同步方式判断来决定采用增量同步方式或全部同步方式，具体判断方法如下：判断所有对象数据的最早同步时间，当最早同步时间与当前时间的差值大于所设定的阈值，则采用全部同步方式。

如图5所示，本发明还提出了一种大数据存储优化的装置，包括中央处理器、数据采集模块、分割模块、存储模块、初步处理模块、再处理模块、解码模块、编译模块、封装模块和分类模块；

本发明中，使用时，首先获取存储内存，分割模块对其进行分割以形成多个存储单元；然后生成相应的存储规则，依据存储规则对各存储单元的存储属性进行设定，使得待存储数据只有在相同的存储属性下才能被分配到对应的存储单元下；数据采集模块采集待存储数据，初步处理模块对数据进行初步处理，将数据分为轻量级数据和多媒体数据，提取多媒体数据的特征信息作为描述多媒体数据的轻量级数据，提取多媒体数据的特征信息进行数据清理，删除数据清理后的冗余数据，轻量级数据包括数字和字符串，多媒体数据包括图片、音频和视频；

再处理模块对数据进行规范化再处理，采用RCFile进行压缩处理，通过CCIndex将数据随机遍历转化为按行索引遍历，以及采用CCT进行记录并完成数据增量备份，并行计算组件完成HDFS文件系统和Map/Reduce计算模型配置类优化；封装模块对处理后的待存储数据进行封装处理以形成对象数据，解码和编译对象数据，根据对象数据的属性信息来确定对象数据的数据类型，按照对象数据的文件属性来写入其存储属性；最后，分类模块根据对象数据的数据类型对数据进行分类，并形成多个数据分类包，以及对各分类数据包进行标识，依据标识信息、存储规则和存储属性将各数据分类包存储到对应的存储单元中；

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种大数据存储优化的方法，其特征在于，包括以下步骤：

S1、获取存储内存并对其进行分割，以形成多个存储单元；

2.根据权利要求1所述的一种大数据存储优化的方法，其特征在于，在S2中，还需记录各存储单元的存储容量和存储位置，并依据各存储单元的存储属性来对存储单元进行命名。

3.根据权利要求1所述的一种大数据存储优化的方法，其特征在于，在S3中，多媒体数据的特征信息包括兴趣值、摘要值和原始值，其中，兴趣值用于表示该数据的应用领域，摘要值用于简要描述多媒体数据，原始值用于存储原始多媒体数据在磁盘阵列中存放的位置。

4.根据权利要求1所述的一种大数据存储优化的方法，其特征在于，在S4中，还包括多源数据组织与汇聚，具体操作如下：

5.根据权利要求4所述的一种大数据存储优化的方法，其特征在于，当新增文件进行汇聚存储时，先计算出新文件的摘要值并判断该摘要值是否已存在于存储系统中，若不存在，则允许汇聚存储数据和新建此文件，若摘要值已存在，则新建该文件及对应的属性信息，文件数据直接引用存储系统内已有的数据内容。

6.根据权利要求1所述的一种大数据存储优化的方法，其特征在于，在S5中，还需将存储属性按照时间顺序存入封装层的数据结构中，封装层的数据结构在写入节点码时，形成写入节点码数据信息的字头段。

7.根据权利要求1所述的一种大数据存储优化的方法，其特征在于，对象数据的数据类型包括结构化数据、半结构化数据和非结构化数据，存储单元包括HDFS分布式单元、HBase数据库单元和关系数据库单元；

8.根据权利要求1所述的一种大数据存储优化的方法，其特征在于，在S8中，在进行同步时包括全部同步方式和增量同步方式两种；

9.根据权利要求8所述的一种大数据存储优化的方法，其特征在于，在同步操作时，通过同步方式判断来决定采用增量同步方式或全部同步方式，具体判断方法如下：

10.一种大数据存储优化的装置，其特征在于，包括中央处理器、数据采集模块、分割模块、存储模块、初步处理模块、再处理模块、解码模块、编译模块、封装模块和分类模块；