CN111338576A

CN111338576A - 一种大数据存储系统及方法

Info

Publication number: CN111338576A
Application number: CN202010105265.3A
Authority: CN
Inventors: 冷迪
Original assignee: Shenzhen Power Supply Bureau Co Ltd
Current assignee: Shenzhen Power Supply Bureau Co Ltd
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2020-06-26

Abstract

本发明提供一种大数据存储系统及方法，包括，数据建立模块，用以计算机的扇区存储容量为预设值的硬盘中建立一个硬盘根目录，并在扇区存储容量不为该预设值的硬盘中建立一个数据记录表；数据存储模块，用以存储数据中的最小组成单位；数据读取模块，用以访问并读取数据存储模块在数据建立模块中所存储的数据。本发明可实现，保证数据仅仅占用最少数目的最小存取单位，从而获得最佳的写入速度；仅占用最少数目的最小存取单位，所以可以以最快速度读出该数据，使系统效率更高。

Description

一种大数据存储系统及方法

技术领域

本发明涉及大数据技术领域，特别是涉及一种大数据存储系统及方法。

背景技术

近年来，随着计算机技术的发展，例如智能手机、多媒体播放器、个人数字助理、便携式计算机、平板式计算机、个人计算机等各种电子设备被广泛应用。在这样电子设备中，处理单元的处理能力不断增强，同时存储装置的存储容量和存储速度也得到了相应的提高。

随着人们对数据存取需求的增加，诸如传统硬盘之类的机械结构存储装置已经无法满足要求。取而代之的，提出了诸如固态硬盘之类的数字存储装置。数字存储装置具有极高的数据存取速度，然而其存取寿命目前仍然受到技术限制。

在传统的硬盘中，使用逻辑块寻址模式来查找到硬盘上存储的内容。在LBA模式下，硬盘上的一个数据区域由它所在的磁头、柱面和扇区所唯一确定。然而，数字存储装置没有物理的LBA，所采用的芯片结构也不是螺旋的磁道。替代地，数字存储装置基于逻辑地址和物理地址的映射来提供访问服务，也就是说，其向外部电子设备提供逻辑地址进行访问，而在内部通过逻辑地址和物理地址的映射来实现逻辑地址和物理地址转换，然后提供物理地址内的实际数据访问服务。

随着数字存储装置的大量进入市场，为了使得电子设备能够适应这些数字存储装置，各个操作系统都做了一些修改。例如，在微软公司的操作系统Windows7中就禁止了针对传统硬盘所设计的磁盘碎片整理功能。在传统硬盘的碎片整理过程中，由于Windows的逻辑地址和传统硬盘的物理地址是完全相同的，即两者都是以一个扇区为最小的数据存取单位，所以该功能可以容易地将碎片数据集中到连续地址，以便加快文件的读取速度。

然而，对于数字存储装置而言，如上，Windows的逻辑地址和数字存储装置的物理地址并不一样，两者之间只是映射关系。Windows以一个扇区为最小的数据存取单位；而数字存储装置以一个页为最小的数据存取单位。故此，由于在Windows中现有的磁盘碎片整理功能无法直接处理数字存储装置中的物理地址，所以该功能非但对于数字存储装置无效，反而可能由于无意义的读写操作而加快其寿命消耗。

发明内容

本发明实施例所要解决的技术问题在于，提供一种大数据存储系统及方法，解决数据存储过程中读写速度不佳，效率低的技术问题。

本发明的一方面，提供一种大数据存储系统，包括：

数据建立模块，用以计算机的扇区存储容量为预设值的硬盘中建立一个硬盘根目录，并在扇区存储容量不为该预设值的硬盘中建立一个数据记录表；

数据存储模块，用以存储数据中的最小组成单位；

数据读取模块，用以访问并读取数据存储模块在数据建立模块中所存储的数据；

带宽扩展接口，耦接数据交换单元与数据网络控制单元，用以增加数据交换单元与数据网络控制单元之间数据传输的带宽。

进一步，所述数据记录表为二维表或链表，用以记录各个源数据在该硬盘中存储区域的数据ID号，所述数据ID号包括:

第一数据ID号，用以表示源数据在硬盘中的位置；

第二数据ID号，用以表示数据单元在源数据中的位置；

其中，数据单元为源数据的最小组成单位，源数据包括至少一个数据单元。

进一步，所述源数据为由字符组成的句子或词组，当字符为汉字时，列表包括汉字的列表、汉字的拼音首字母的列表、两两相邻的汉字的拼音首字母的列表，且将输入的信息与源数据进行匹配。

进一步，所述数据存储模块包括：

数据交换单元，用以存储数据地址信息表，耦接数据存储单元；

主控单元，耦接数据交换单元，包括数据网络控制单元、网络接口单元；

网络交换单元，耦接数据存储单元；

数据存储单元，用以对应存取数据地址信息，经数据交换单元、数据网络控制单元、网络接口单元及网络交换单元执行与远端客户端的数据存取。

进一步，所述网络交换单元将自远端客户端接收的数据存取请求经网络接口单元发送至数据网络控制单元，数据网络控制单元依据数据存取请求生成包含存取数据地址信息的数据存取指令并将其发送至数据交换单元，数据交换单元依据数据地址信息表将数据存取指令发送至对应存取数据地址信息的数据存储单元，数据存储单元。

进一步，所述数据读取模块获取数据存储模块在数据建立模块中所存储数据的数据ID号，根据数据ID号在数据记录表中查询该数据在硬盘中的存储区域，将该数据转移到硬盘根目录中，或者根据该存储区域在硬盘中找到并删除该数据，同时删除该数据在数据记录表中的所有记录。

相应的，本发明的又一方面还提供一种大数据存储方法，依靠如上所述的系统进行实现，包括以下步骤；

步骤S1，数据建立模块在计算机的扇区存储容量为预设值的硬盘中建立一个硬盘根目录，并在扇区存储容量不为该预设值的硬盘中建立一个数据记录表；

步骤S2,数据存储模块存储最小组成单位；

步骤S3，数据读取模块获取数据ID号，在数据记录表中查询该数据在硬盘中的存储区域，根据第一数据ID号及第二数据ID号，确定源数据在硬盘中的具体位置同时读取该数据，并将该数据转移到硬盘根目录中，供用户对该数据进行访问并读取；

步骤S4，数据读取模块根据数据的数据ID号在数据记录表中查询该数据在硬盘中的存储区域，根据该存储区域在硬盘中找到并删除该数据，同时删除该数据在数据记录表中的所有记录。

进一步，在步骤S1中，所述数据记录表记录各个源数据在该硬盘中存储区域的数据ID号。

进一步，在步骤S2中，所述储最小组成单位具体包括：确定开始存储数据的起始地址；判断起始地址是否是一个最小组成单位的起始地址，如果是，则从起始地址开始将数据对齐并存储到整数倍的最小组成单位中，如果不是，对起始地址进行偏移，将起始地址作为一个最小组成单位的起始地址，并且从起始地址开始将数据对齐并存储到整数倍的最小组成单位中。

综上，实施本发明的实施例，具有如下的有益效果：

本发明提供的这种大数据存储系统及方法，根据最小存取单位的尺寸来将数据对齐地存储到存储装置中，由于数据被对齐地存储到存储装置中，所以在写入过程中可以保证数据仅仅占用最少数目的最小存取单位，从而获得最佳的写入速度；当需要对数据进行读取时，与数据分散在大量的最小存取单位相比，由于数据仅仅占用最少数目的最小存取单位，所以可以以最快速度读出该数据，使系统效率更高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，根据这些附图获得其他的附图仍属于本发明的范畴。

图1为本发明提供的大数据存储系统的结构图。

图2为本发明提供的大数据存储系统的一个实施例的数据存储模块的示意图。

图3为本发明提供的大数据存储方法的主流程示意图。

图4为本发明提供的大数据存储方法的逻辑流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

如图1所示，为本发明提供的一种大数据存储系统的一个实施例的示意图。在该实施例中，一种大数据存储系统，包括：

具体一个实施例中，所述数据记录表为二维表或链表，用以记录各个源数据在该硬盘中存储区域的数据ID号，所述数据ID号包括:

第一数据ID号，用以表示源数据在硬盘中的位置；

第二数据ID号，用以表示数据单元在源数据中的位置；

具体的，所述源数据为由字符组成的句子或词组，当字符为汉字时，列表包括汉字的列表、汉字的拼音首字母的列表、两两相邻的汉字的拼音首字母的列表，且将输入的信息与源数据进行匹配。

数据存储模块，用以存储数据中的最小组成单位；

具体一个实施例中，如图2所示，所述数据存储模块包括：

网络交换单元，耦接数据存储单元；

具体的，所述网络交换单元将自远端客户端接收的数据存取请求经网络接口单元发送至数据网络控制单元，数据网络控制单元依据数据存取请求生成包含存取数据地址信息的数据存取指令并将其发送至数据交换单元，数据交换单元依据数据地址信息表将数据存取指令发送至对应存取数据地址信息的数据存储单元，数据存储单元。

具体一个实施例中，所述数据读取模块获取数据存储模块在数据建立模块中所存储数据的数据ID号，根据数据ID号在数据记录表中查询该数据在硬盘中的存储区域，将该数据转移到硬盘根目录中，或者根据该存储区域在硬盘中找到并删除该数据，同时删除该数据在数据记录表中的所有记录。

相应地，如图3所示，本发明的又一方面还提供一种大数据存储方法，依靠如上任一所述的系统进行实现，该方法包括以下步骤：

具体一个实施例中，所述数据记录表记录各个源数据在该硬盘中存储区域的数据ID号。

步骤S2,数据存储模块存储最小组成单位；

具体一个实施例中，如图4所示，所述储最小组成单位具体包括：确定开始存储数据的起始地址；判断起始地址是否是一个最小组成单位的起始地址，如果是，则从起始地址开始将数据对齐并存储到整数倍的最小组成单位中，如果不是，对起始地址进行偏移，将起始地址作为一个最小组成单位的起始地址，并且从起始地址开始将数据对齐并存储到整数倍的最小组成单位中；

设定最小组成单位的起始地址为ABCD，开始存储数据的起始地址为WXYZ，地址偏移量为HIJK；其中，H＝W-A，I＝X-B，J＝Y-C，K＝Z-D；若H、I、J和K均为0，则从起始地址开始将数据对齐地存储到整数倍的最小组成单位中；若H、I、J或K任一个不均为0，则对起始地址进行偏移HIJK，使得起始地址成为一个最小组成单位的起始地址，并且从起始地址开始将数据对齐地存储到整数倍的最小组成单位中。

其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

综上，实施本发明的实施例，具有如下的有益效果：

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种大数据存储系统，其特征在于，包括：

数据存储模块，用以存储数据中的最小组成单位；

数据读取模块，用以访问并读取数据存储模块在数据建立模块中所存储的数据。

2.如权利要求1所述的系统，其特征在于，该系统还包括带宽扩展接口，耦接数据存储模块，用以增加数据存储模块内各单元之间数据传输的带宽。

3.如权利要求2所述的系统，其特征在于，所述数据记录表为二维表或链表，用以记录各个源数据在该硬盘中存储区域的数据ID号，所述数据ID号包括:

第一数据ID号，用以表示源数据在硬盘中的位置；

第二数据ID号，用以表示数据单元在源数据中的位置；

4.如权利要求3所述的系统，其特征在于，所述源数据为由字符组成的句子或词组，当字符为汉字时，列表包括汉字的列表、汉字的拼音首字母的列表、两两相邻的汉字的拼音首字母的列表，且将输入的信息与源数据进行匹配。

5.如权利要求2所述的系统，其特征在于，所述数据存储模块包括：

网络交换单元，耦接数据存储单元；

6.如权利要求5所述的系统，其特征在于，所述网络交换单元将自远端客户端接收的数据存取请求经网络接口单元发送至数据网络控制单元，数据网络控制单元依据数据存取请求生成包含存取数据地址信息的数据存取指令并将其发送至数据交换单元，数据交换单元依据数据地址信息表将数据存取指令发送至对应存取数据地址信息的数据存储单元，数据存储单元。

7.如权利要求2所述的系统，其特征在于，所述数据读取模块获取数据存储模块在数据建立模块中所存储数据的数据ID号，根据数据ID号在数据记录表中查询该数据在硬盘中的存储区域，将该数据转移到硬盘根目录中，或者根据该存储区域在硬盘中找到并删除该数据，同时删除该数据在数据记录表中的所有记录。

8.一种大数据存储方法，基于如权利要求1-7所述的系统进行实现，其特征在于，包括以下步骤：

步骤S2,数据存储模块存储最小组成单位；

9.如权利要求8所述的方法，其特征在于，在步骤S1中，所述数据记录表记录各个源数据在该硬盘中存储区域的数据ID号。

10.如权利要求8所述的方法，其特征在于，在步骤S2中，所述储最小组成单位具体包括：确定开始存储数据的起始地址；判断起始地址是否是一个最小组成单位的起始地址，如果是，则从起始地址开始将数据对齐并存储到整数倍的最小组成单位中，如果不是，对起始地址进行偏移，将起始地址作为一个最小组成单位的起始地址，并且从起始地址开始将数据对齐并存储到整数倍的最小组成单位中。