CN112883016B

CN112883016B - 一种数据存储的优化方法及其系统

Info

Publication number: CN112883016B
Application number: CN202110463394.4A
Authority: CN
Inventors: 孙利国
Original assignee: Ruizhi Technology Group Co ltd
Current assignee: Ruizhi Technology Group Co ltd
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-07-20
Anticipated expiration: 2041-04-28
Also published as: CN112883016A

Abstract

本申请公开了一种数据存储的优化方法及其系统，其中数据存储的优化方法具体包括以下步骤：接收数据，对数据进行检索；响应于完成数据检索，判断数据是否能够正常存储在系统节点中；若数据不能正常存储在系统节点中，进行节点的增加，同时对节点进行检测处理；对传输链路进行检测，同时进行数据的存储。本申请能够对接收的数据进行有效的存储，在存储过程中，不断对存储节点进行检测，实现了数据在存储过程中的优化，同时也能够最大程度上降低系统的能耗。

Description

一种数据存储的优化方法及其系统

技术领域

本申请涉及数据处理领域，具体地，涉及一种数据存储的优化方法及其系统。

背景技术

随着数据的爆炸式增长，分布式存储系统如何对海量数据有效的进行查询、写入等处理成为了数据存储领域的研究重点。目前数据存储的方式主要是，通过设置一大型数据库来专用的存储海量数据，这种数据存储方式，虽然可通过大型数据库满足海量数据的高存储量要求，但从大型数据库中查询、写入某一数据的效率大幅的降低，牺牲了数据处理效率。

因此如何在兼顾数据处理效率，和海量数据的高存储量要求的情况下，实现数据的存储和处理，成为本领域技术人员急需解决的问题。

发明内容

本申请提供了一种数据存储的优化方法，其特征在于，具体包括以下步骤：接收数据，对数据进行检索；响应于完成数据检索，判断数据是否能够正常存储在系统节点中；若数据不能正常存储在系统节点中，进行节点的增加，同时对节点进行检测处理；对传输链路进行检测，同时进行数据的存储。

如上的，其中，若数据能正常存储在系统节点中，将接收的数据依次存储在存储节点中。

如上的，其中，对数据进行检索包括对数据进行聚合检索以及对数据进行连续检索。

如上的，其中，具体检索数据是否具有标称属性、二元属性、序数属性、数值属性以及离散属性与连续属性中的至少一种属性。

如上的，其中，多个系统节点中包含一个源节点、多个中间节点和多个存储节点；源节点连接中间节点和存储节点，中间节点将数据由源节点传输至存储节点，并随机分布存储在若干存储节点中，当存储节点被存储数据后，该存储节点变为活跃节点。

如上的，其中，在判断数据能够正常存储在系统节点之前，还包括，选择有效的中间节点。

如上的，其中，响应于完成有效的中间节点的选择，判断系统节点的容量是否能够满足接收的数据的数据量，若接收数据的数据量M满足

，则数据不能够正常存储在系统节点；其中，k表示系统的节点个数，d表示存储数据能够实现存储的存储节点个数，

表示系统节点的存储容量，

表示每个存储节点中的数据的数据量，i为活跃节点个数。

如上的，其中，进行节点的增加，同时对节点进行检测处理具体包括以下子步骤：确定在存储过程中系统节点的最小带宽开销；根据系统节点的最小带宽开销，进行多个新节点的增加。

如上的，其中，在增加新节点后，还包括，将多个新节点划分为忙碌节点和空闲节点。

一种数据存储的优化系统，包括检索单元、判断单元、节点检测单元以及链路检测单元；检索单元，用于接收数据，对数据进行检索；判断单元，用于响应于完成数据检索，判断数据是否能够正常存储在系统节点中；节点检测单元，用于若数据不能够正常存储在系统节点中，进行节点的增加，同时对节点进行检测处理；链路检测单元，用于对传输链路进行检测，同时进行数据的存储。

本申请具有以下有益效果：

本申请提供的数据存储的优化方法及其系统能够对接收的数据进行有效的存储，在存储过程中，不断对存储节点进行检测，实现了数据在存储过程中的优化，同时也能够最大程度上降低系统的能耗。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例提供的数据存储的优化方法流程图；

图2是根据本申请实施例提供的数据存储的优化系统的内部结构图。

具体实施方式

下面结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请涉及一种数据存储的优化方法及其系统。根据本申请，能够有效识别数据传输过程中存在的风险，并且对数据存储进行了良好的优化。

实施例一

如图1所示，是本申请提供的一种数据存储的优化方法，具体包括以下步骤：

步骤S110：接收数据，对数据进行检索。

具体地，在本实施例中，可使用已有的工具进行数据的检索，例如使用HBase平台进行数据的有效检索，HBase是一个分布式数据库，可以实时读写大规模数据，在读取数据的过程中，可以进行数据的聚合检索以及数据的连续检索。

其中，对数据进行聚合检索是指对指定时间段内接收的数据进行统一检索，连续检索是指接收一段数据后就对该数据进行实时检索。

具体地，其中数据一般具有标称属性、二元属性、序数属性、数值属性以及离散属性与连续属性等，因此数据的聚合检索以及数据的连续检索实质是进行数据属性检索。

其中若接收的数据满足以上属性的至少一种，则执行步骤S120。

步骤S120：响应于完成数据检索，判断数据是否能够正常存储在系统节点中。

其中数据存储具体是将数据存储在多个系统节点的节点中，多个系统节点中的一个或多个节点分别对应不同的服务器，例如服务器A负责存储节点1、2的数据，服务器B负责存储节点2、3的数据。

多个系统节点中包含一个源节点、多个中间节点和多个存储节点，源节点连接中间节点和存储节点，其中中间节点起到传输数据的作用，通过中间节点将数据由源节点传输至存储节点，并随机分布存储在若干存储节点中。当存储节点被存储数据后，该存储节点变为活跃节点。

因此在判断数据能够正常存储在系统节点之前，还包括，选择有效的中间节点。

具体地，在选择有效的中间节点时，避免选择CPU利用率高的节点。一方面，CPU使用率搞得节点往往正在频繁的读取或计算数据，向这样的节点传输数据，将会导致数据编码和传输进程处于等待状态，影响整个数据的传输过程，另一方面，CPU使用率高非常有可能是硬件设备异常造成的，例如出现病毒入侵。在这种情况下，硬件设备随时处于不可用状态，此时向该节点传输数据是不合适的，可能会造成传输数据的浪费或者导致数据的泄露。因此选择CPU使用率较低的节点作为中间节点进行数据的传输，可以在一定程度上保证传输数据的可靠性。

进一步地，响应于完成有效的中间节点的选择，判断系统节点的容量是否能够满足接收的数据的数据量。

具体地，若接收数据的数据量M满足，

（公式一）

则说明此时系统节点的容量不能够容纳接收的数据量的，数据不能够正常存储在系统节点，则执行步骤S130，否则执行步骤S150。

其中，k表示系统的节点个数，d表示存储数据能够实现存储的存储节点个数，

表示系统节点的存储容量，

表示每个存储节点中的数据的数据量，i为活跃节点个数。

步骤S130：进行节点的增加，同时对节点进行检测处理。

具体地，其中由于在步骤S120中，系统节点的容量不能够容纳接收数据的数据量，因此需要增加节点，其中增加的新节点在满足怎样的条件下才能够加入到系统节点中，具体通过判断计算最小存储开销和最小带宽开销来确定，其中步骤S130具体包括以下子步骤：

步骤S1301：确定在存储过程中系统节点的最小带宽开销。

具体地，其中引入系统节点的最小存储开销，系统节点的最小存储开销是预先设定的数值，根据系统的最小存储开销与系统节点的最小带宽开销，获取数据能够存储在系统节点中的关系等式，即：

（公式二）

其中，M表示接收数据的数据量，k表示系统的节点个数，d表示存储数据能够实现存储的存储节点个数，i为活跃节点个数，

表示系统的最小存储开销，

表示系统节点的最小带宽开销，i为自然数。

根据上述公式可求解出带宽开销

的最小值，即：

（公式三）

其中

，

，M表示接收数据的数据量，k表示系统的节点个数，i为活跃节点个数，

表示系统的最小存储开销，d表示存储数据能够实现存储的存储节点个数。

步骤S1302：根据系统节点的最小带宽开销，进行多个新节点的增加。

其中通过上述公示可以看出，活跃节点的个数增加，则带宽开销将减小，因此当加入新节点后，新节点作为新活跃节点，令总的活跃节点i达到指定数量从而使带宽开销达到最小，则停止新节点的增加。否则继续进行新节点的增加。

其中带宽开销小于指定阈值时，则认为带宽开销达到最小。

步骤S1303：将多个新节点划分为忙碌节点和空闲节点。

具体地，其中可根据新增节点的数量来将部分新节点作为忙碌节点，将剩余新节点作为空闲节点。

步骤S1304：确定活跃节点中是否存在失效节点。

具体地，由于节点之间可以进行数据的传输，因此在传输过程中，中间节点可以累积传输数据，因此可以通过判断在传输信息的过程中累积的传输数据的数量是否超过指定的累积阈值，如果超过指定的累积阈值，则说明该节点累积了过多的需要传输的数据，则该活跃节点被判定为失效节点。

若存在失效节点，则执行步骤S1305：使用忙碌节点从失效节点中拷贝数据。

步骤S1306：检测存储节点是否传输其他未进行存储的数据。

其中若存储节点中还传输其他未进行存储的新数据，则执行步骤S1307：使用空闲节点存储未进行存储的新数据。

步骤S140：对传输链路进行检测，同时进行数据的存储。

其中在步骤S130中，是对单个的节点进行检测，在步骤S140中，则是对整个传输链路中的传输进行检测。

其中传输链路的检测具体是检测中间节点

与忙碌节点

之间的传输代价

，传输代价具体表示为：

（公式四）

其中

表示检测中间节点

与忙碌节点

的传输带宽，

表示中间节点随机故障的概率。

当传输代价小于指定阈值时，则认为该忙碌节点可以作为存储节点进行数据的存储，即可以将该忙碌节点拷贝的数据或其他忙碌节点拷贝的数据传输至忙碌节点

中进行数据的存储。

步骤S150：将接收的数据依次存储在存储节点中。

具体地，可优先对存储节点进行排序，例如可根据节点中剩余的存储量等规则进行存储节点的排序，并将接收的数据依次存储在排序后的存储节点中。

通过上述步骤，能够在数据存储的过程中，不断对节点和传输链路进行检测，其目的是不断对数据的存储位置是否合适进行检测，实现了数据在存储过程中的优化，同时也能够最大程度上降低系统的能耗。

实施例二

如图2所示，本申请提供一种数据存储的优化系统，具体包括：检索单元210、判断单元220、节点检测单元230、链路检测单元240以及存储单元250。

检索单元210用于接收数据，对数据进行检索。

优选地，检索单元210实质为HBase平台，从而进行数据的有效检索。

判断单元220与检索单元210连接，用于响应于完成数据检索，判断数据是否能够正常存储在系统节点中。

节点检测单元230与判断单元220连接，用于若数据不能够正常存储在系统节点中，进行节点的增加，同时对节点进行检测处理。

链路检测单元240与节点检测单元230连接，用于对传输链路进行检测，同时进行数据的存储。

存储单元250与判断单元220连接，用于若数据能够正常存储在系统节点中，将数据依次存储在存储节点中。

本申请具有以下有益效果：

虽然当前申请参考的示例被描述，其只是为了解释的目的而不是对本申请的限制，对实施方式的改变，增加和/或删除可以被做出而不脱离本申请的范围。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种数据存储的优化方法，其特征在于，具体包括以下步骤：

接收数据，对数据进行检索；

响应于完成数据检索，判断数据是否能够正常存储在系统节点中；

若数据不能正常存储在系统节点中，进行节点的增加，同时对节点进行检测处理；

对传输链路进行检测，同时进行数据的存储；

其中进行节点的增加，同时对节点进行检测处理，包括以下子步骤：

确定在存储过程中系统节点的最小带宽开销；

引入系统节点的最小存储开销，系统节点的最小存储开销是预先设定的数值，根据系统的最小存储开销与系统节点的最小带宽开销，获取数据能够存储在系统节点中的关系等式，即：

表示系统节点的最小存储开销，

表示系统节点的最小带宽开销；

根据上述关系等式可求解出带宽开销

的最小值，即：

其中

，

表示系统节点的最小存储开销，d表示存储数据能够实现存储的存储节点个数；

根据系统节点的最小带宽开销，进行多个新节点的增加；

将多个新节点划分为忙碌节点和空闲节点；

其中根据新增节点的数量来将部分新节点作为忙碌节点，将剩余新节点作为空闲节点；

确定活跃节点中是否存在失效节点；

通过判断在传输信息的过程中累积的传输数据的数量是否超过指定的累积阈值，如果超过指定的累积阈值，则说明该节点累积了过多的需要传输的数据，则该活跃节点被判定为失效节点；

若存在失效节点，则使用忙碌节点从失效节点中拷贝数据；

检测存储节点是否传输其他未进行存储的数据；

其中若存储节点中还传输其他未进行存储的新数据，则使用空闲节点存储未进行存储的新数据。

2.如权利要求1所述的数据存储的优化方法，其特征在于，若数据能正常存储在系统节点中，将接收的数据依次存储在存储节点中。

3.如权利要求1所述的数据存储的优化方法，其特征在于，对数据进行检索包括对数据进行聚合检索以及对数据进行连续检索。

4.如权利要求3所述的数据存储的优化方法，其特征在于，检索的数据具有标称属性、二元属性、序数属性、数值属性以及离散属性与连续属性中的至少一种属性。

5.如权利要求1所述的数据存储的优化方法，其特征在于，多个系统节点中包含一个源节点、多个中间节点和多个存储节点；源节点连接中间节点和存储节点，中间节点将数据由源节点传输至存储节点，并随机分布存储在若干存储节点中，当存储节点被存储数据后，该存储节点变为活跃节点。

6.如权利要求1所述的数据存储的优化方法，其特征在于，在判断数据能够正常存储在系统节点之前，还包括，选择有效的中间节点。

7.如权利要求6所述的数据存储的优化方法，其特征在于，响应于完成有效的中间节点的选择，判断系统节点的容量是否能够满足接收的数据的数据量，若接收数据的数据量M满足

表示系统节点的存储容量，

表示每个存储节点中的数据的数据量，i为活跃节点个数。

8.一种数据存储的优化系统，其特征在于，包括检索单元、判断单元、节点检测单元以及链路检测单元；

检索单元，用于接收数据，对数据进行检索；

判断单元，用于响应于完成数据检索，判断数据是否能够正常存储在系统节点中；

节点检测单元，用于若数据不能够正常存储在系统节点中，进行节点的增加，同时对节点进行检测处理；

链路检测单元，用于对传输链路进行检测，同时进行数据的存储；

节点检测单元中，还执行以下子步骤：

确定在存储过程中系统节点的最小带宽开销；

表示系统节点的最小存储开销，

表示系统节点的最小带宽开销；

根据上述关系等式可求解出带宽开销

的最小值，即：

其中

，

根据系统节点的最小带宽开销，进行多个新节点的增加；

将多个新节点划分为忙碌节点和空闲节点；

确定活跃节点中是否存在失效节点；

若存在失效节点，则使用忙碌节点从失效节点中拷贝数据；

检测存储节点是否传输其他未进行存储的数据；