CN116304257B

CN116304257B - 一种基于大数据的分类存储方法及系统

Info

Publication number: CN116304257B
Application number: CN202310566751.9A
Authority: CN
Inventors: 郑惠
Original assignee: Tianyun Rongchuang Data Science & Technology Beijing Co ltd
Current assignee: Tianyun Rongchuang Data Science & Technology Beijing Co ltd
Priority date: 2023-05-19
Filing date: 2023-05-19
Publication date: 2023-08-08
Anticipated expiration: 2043-05-19
Also published as: CN116304257A

Abstract

本申请公开了一种基于大数据的分类存储方法及系统，其中基于大数据的分类存储方法包括以下步骤：接收多个存储请求；根据多个存储请求确定是否需要进行存储扩展；若不需要进行存储扩展，则对多个存储请求进行分类，将分类后的存储请求进行特定存储；若需要进行存储扩展，则根据多个存储请求进行存储扩展，并在进行存储扩展后，对多个存储请求进行分类，将分类后的存储请求进行特定存储。本申请能够在数据存储之前，首先对能否进行数据存储的能力进行衡量，以保证能够正常完成数据存储，在确定具有数据存储能力后，又根据数据的类型进行分类，并将分类后的数据同时存储在不同的存储通道中，即完成数据的快速存储，又完成了数据的准确存储。

Description

一种基于大数据的分类存储方法及系统

技术领域

本申请涉及数据处理领域，具体地，涉及一种基于大数据的分类存储方法及系统。

背景技术

随着科技的发展，大数据平台和技术已经成为越来越多用户的选择，大数据具有更强的决策力、洞察发现力和流程优化能力来适应处理海量、高增长率和多样化的数据，在大数据的数据处理过程中，对于数据存储也往往更期待与更快更准确的存储。在现有技术中，基于大数据进行数据存储过程中却往往表现得不尽如人意，在存储过程中的存在诸多的缺点，例如不能同时进行数据的快速分类与快速存储。

因此，如何提供一种能同时进行数据的快速分类和快速存储成为本领域急需解决的问题。

发明内容

本申请提供了一种基于大数据的分类存储方法，包括以下步骤：接收多个存储请求；根据多个存储请求确定是否需要进行存储扩展；若不需要进行存储扩展，则对多个存储请求进行分类，将分类后的存储请求进行特定存储；若需要进行存储扩展，则根据多个存储请求进行存储扩展，并在进行存储扩展后，对多个存储请求进行分类，将分类后的存储请求进行特定存储。

如上的，其中，根据多个存储请求确定是否需要进行存储扩展包括：确定存储请求的数量；若获取的存储请求个数小于M个，则对多个存储请求进行分类，将分类后的存储请求进行特定存储。

如上的，其中，还包括：若获取的存储请求个数大于M个，根据存储请求的数量确定是否需要进行存储扩展。

如上的，其中，对多个存储请求进行分类，将分类后的存储请求进行特定存储包括以下子步骤：对多个存储请求中包含的数据进行分类；根据每类数据确定每类存储通道；确定每类存储通道中的存储距离；根据每类存储通道中的存储距离，对分类后的存储数据进行特定存储。

如上的，其中，将获取的多个存储请求进行整合，将多个存储请求中的同类型数据分为同一类，形成多类数据。

一种基于大数据的分类存储系统，包括存储请求接收单元、存储扩展判断单元、存储扩展单元、特定存储单元；存储请求接收单元用于接收多个存储请求；存储扩展判断单元根据多个存储请求确定是否需要进行存储扩展；若不需要进行存储扩展，则特定存储单元对多个存储请求进行分类，将分类后的存储请求进行特定存储；若需要进行存储扩展，则存储扩展单元根据多个存储请求进行存储扩展，并在进行存储扩展后，特定存储单元对多个存储请求进行分类，将分类后的存储请求进行特定存储。

如上的，其中，存储扩展判断单元根据多个存储请求确定是否需要进行存储扩展包括：确定存储请求的数量；若获取的存储请求个数小于M个，则对多个存储请求进行分类，将分类后的存储请求进行特定存储。

如上的，其中，存储扩展判断单元还包括：若获取的存储请求个数大于M个，根据存储请求的数量确定是否需要进行存储扩展。

如上的，其中，特定存储单元对多个存储请求进行分类，将分类后的存储请求进行特定存储包括以下子步骤：对多个存储请求中包含的数据进行分类；根据每类数据确定每类存储通道；确定每类存储通道中的存储距离；根据每类存储通道中的存储距离，对分类后的存储数据进行特定存储。

如上的，其中，特定存储单元将获取的多个存储请求进行整合，将多个存储请求中的同类型数据分为同一类，形成多类数据。

本申请具有以下有益效果：

本申请能够在数据存储之前，首先对能否进行数据存储的能力进行衡量，以保证能够正常完成数据存储，在确定具有数据存储能力后，又根据数据的类型进行分类，并将分类后的数据同时存储在不同的存储通道中，即完成数据的快速存储，又完成了数据的准确存储。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例提供的基于大数据的分类存储方法的流程图；

图2是根据本申请实施例提供的基于大数据的分类存储系统的内部结构示意图。

具体实施方式

下面结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例一

如图1所示，为本实施例提供的一种基于大数据的分类存储方法，具体包括以下子步骤：

步骤S110：接收多个存储请求。

其中可在大数据平台中获取多个存储请求。

步骤S120：根据多个存储请求确定是否需要进行存储扩展。

其中假设有多个存储请求需要处理，每一个存储请求中包含多类对应的存储数据，默认一个计算机正常可以处理K个数据请求，则首先需要判断一个计算机是否能再正常时间内完全处理这些存储请求，其中判断存储请求中的存储数据是否需要进行分类具体包括以下子步骤：

步骤S1201：确定存储请求的数量。

其中若获取的存储请求个数小于M个，则认为计算机能够正常处理这些存储请求，执行步骤S140。

若获取的存储请求个数大于K个，则执行步骤S1202。

步骤S1202：根据存储请求的数量确定是否需要进行存储扩展。

其中若存储请求有个，但是M个存储请求可能会被计算机正常处理，也可能不会被正常处理，因此需要针对M个存储请求进行具体判断。

将M个存储请求分别定义为，假设第m个存储请求中包含的数据量分别为/>，/>表示第m个存储请求中包含的第n个数据的数据量大小。

进一步地，为不同的数据量赋予不同的权重，其中权重表示了该类数据的重要程度。

其中赋予权重的标准为：当该类数据的数据量大于指定阈值，则为其分配较大的权重，当该类存储数据的数据量小于指定语句，则为其分配较小的权重，其中为数据量分配的权重分别为/>，，/>表示第m个存储请求中包含的第n个数据的权重值。

上述赋予权重是有工作人员预先设置，具体权重数值在此不进行限定。

其中根据上述参数确定分类值Q：

其中表示获取第m个存储请求成功的次数，/>表示获取第m个存储请求失败的次数，N表示第m个存储请求中所包含的数据的数量。

当Q大于指定阈值时，说明此时该计算机已经不能完全处理获取的M个存储请求了，则执行步骤S130。

步骤S130：根据多个存储请求进行存储扩展。

根据多个存储请求进行存储扩展包括：引入其他计算机。

当一个计算机已经不能处理获取的M个存储请求，则引入其他计算机，使引入的计算机与正在处理存储请求的计算机共同处理获取的M个存储请求。

具体地，将引入的计算机定义为“未来计算机”，将正在处理存储请求的计算机定义为“已有计算机”，首先通过已有计算机进行存储请求的处理，将已有计算机未能处理的存储请求交付给未来计算机进行处理，完成存储扩展。

完成存储扩展后，执行步骤S140。

步骤S140：对多个存储请求进行分类，将分类后的存储请求进行特定存储。

其中一个或多个计算机同时对存储请求进行处理，在进行处理的过程中，为了保证存储的准确以及快速存储，因此本实施例提出了对存储请求进行分类，将分类后的存储请求进行特定存储。

其中对存储请求进行分类，将分类后的存储请求进行特定存储包括以下子步骤：

步骤S1401：对多个存储请求中包含的数据进行分类。

其中将获取的多个存储请求进行整合，具体将多个存储请求中的同类型数据分为同一类，从而形成多类数据。

其中同类型数据表示该数据的属性相同。

步骤S1402：根据每类数据确定每类存储通道。

其中每类存储通道包含一个或多个节点，每类存储通道存储一类同类型的数据，这样即可将多类数据存储在不同存储通道中。

将多类数据存储在不同存储通道中可同时运行，从而能够快速进行数据存储。

其中可利用现有技术中将多个节点形成传输链路的模式，一个或多个节点之间进行连接，例如树杈型。根据该模式可以进行节点的传输。

在上述传输链路中，确定多个数据存储收集点，以及多个数据传输点，一个或多个数据传输点与一个或多个不同的数据传输点进行连接，一个或多个数据传输点与一个或多个数据存储收集点之间连接，形成传输链路的形式。

一般来讲，数据传输点会将数据传输至数据存储收集点中进行存储。因此在本实施例中，需要再多个数据收集点中进行特定数据收集点的选取，从而将数据存储在特定数据收集点中。

步骤S1403：确定每类存储通道中的存储距离。

其中在每类存储通道中，将多个数据存储收集点分别作为圆心，将每个数据传输点到数据收集点的传输范围均为半径。作为举例，多个数据存储收集点为（1,2，...u...U)，多个数据传输点为（1,2...v...V），则数据传输点（1,2...v...V）到数据收集点1的传输范围为半径，数据传输点（1,2...v...V）到数据存储收集点2的传输范围为半径，依次类推，数据传输点（1,2...v...V）到数据存储收集点U的传输范围为半径。

在确定上述半径后，两节点之间的距离为存储距离。即任意一个数据传输点和数据存储收集点之间的距离，均为存储距离。

步骤S1404：根据每类存储通道中的存储距离，对分类后的存储数据进行特定存储。

其中在任意存储通道中，在确定存储距离后，对分类后的存储数据进行特定存储具体包括以下子步骤：

步骤S14041：在多个存储距离中选取最短存储距离。

其中在多个存储距离中，比较多个存储距离的大小，选取存储距离最小的作为最短存储距离。

步骤S14042：判断最短存储距离是否唯一。

其中若存在多个存储距离值相同且最小的情况，则最短存储距离不唯一，则执行步骤S14044。若唯一，则执行步骤S14043。

步骤S14043：在最短存储距离对应的数据收集点中进行数据的特定存储。

其中在最短距离对应的数据存储收集点中进行数据的存储。

步骤S14044：在多个最短存储距离中确定最终的数据存储收集点进行数据的特定存储。

其中多个最短存储距离中对应的多个数据存储收集点中，选取最合适的数据存储收集点作为存储数据的节点。

具体地，其中每个数据存储收集点都只有有限的能量和存储空间，因此根据数据存储收集点的性能值T进行最终数据存储收集点的选取，其中每个数据存储收集点的性能值T表示为：

，

其中表示数据存储收集点u的初始能量，/>表示在时间t后数据存储收集点u的能量，/>表示在传输链路中，数据存储收集点u所在路径的最大跳数，表示在传输链路中，数据存储收集点u所在路径的传输时延，其中，/>分别表示为节点能量，节点跳数以及传输时延分配的权重，其表示上述参数在整体计算中的重要程度，具体数值由工作人员提前设置完成，例如将/>设置为0.5，/>设置为0.3，/>设置为0.2。

在每个数据存储收集点的性能值T中，选取T值最大的作为最终数据存储收集点进行数据的存储。

其中根据上述方式，可在每个存储通道中，确定最终的数据存储收集点。

实施例二

如图2所示，本申请提供了一种基于大数据的分类存储系统，其中具体包括：存储请求接收单元210、存储扩展判断单元220、存储扩展单元230、特定存储单元240。

其中存储请求接收单元210用于接收多个存储请求。

存储扩展判断单元220用于根据存储请求确定是否需要进行存储扩展。

其中假设有多个存储请求需要处理，每一个存储请求中包含多类对应的存储数据，默认一个计算机正常可以处理K个数据请求，则首先需要判断一个计算机是否能再正常时间内完全处理这些存储请求。

其中存储扩展判断单元220包括以下模块：存储请求数量确定模块、存储扩展判断模块。

存储请求数量确定模块用于确定存储请求的数量。

其中若获取的存储请求个数小于M个，则认为计算机能够正常处理这些存储请求，则特定存储单元240对存储请求进行分类，将分类后的存储请求进行特定存储。

若获取的存储请求个数大于K个，则存储扩展判断模块根据存储请求的数量确定是否需要进行存储扩展。

其中存储请求有个，但是M个存储请求可能会被计算机正常处理，也可能不会被正常处理，因此需要针对M个存储请求进行具体判断。

其中根据上述参数确定分类值Q：

当Q大于指定阈值时，说明此时该计算机已经不能完全处理获取的M个存储请求了，则存储扩展单元230根据存储请求进行存储扩展。

在存储扩展单元230进行存储扩展包括：引入其他计算机。

具体地，将引入的计算机定义为“未来计算机”，将正在处理存储请求的计算机定义为“已有计算机”，首先通过已有计算机进行存储请求的处理，将已有计算机未能处理的存储请求交付给未来计算机进行处理，完成存储扩展。完成存储扩展后，特定存储单元240对存储请求进行分类，将分类后的存储请求进行特定存储。

其中特定存储单元240包括以下模块：分类模块、存储通道确定模块、存储距离确定模块、特定存储模块。

分类模块用于对存储请求中包含的数据进行分类。

其中将获取的存储请求进行整合，具体将多个存储请求中的同类型数据分为同一类，从而形成多类数据。其中同类型数据表示该数据的属性相同。

存储通道确定模块用于根据每类数据确定每类存储通道。

存储距离确定模块用于确定每类存储通道中的存储距离。

特定存储模块用于根据每类存储通道中的存储距离，对分类后的存储数据进行特定存储。

其中特定存储模块还包括以下子模块：最短存储距离确定子模块、最短距离唯一判断子模块、第一数据特定存储子模块、第二数据特定存储子模块。

最短存储距离确定子模块用于在多个存储距离中选取最短存储距离。

最短距离唯一判断子模块用于判断最短存储距离是否唯一。

其中若存在多个存储距离值相同且最小的情况，则最短存储距离唯一，则第一数据特定存储子模块在最短存储距离对应的数据收集点中进行数据的特定存储。

其中在最短距离对应的数据存储收集点中进行数据的存储。

若最短存储距离不唯一，则第二数据特定存储子模块第二数据特定存储模块。

本申请具有以下有益效果：

虽然当前申请参考的示例被描述，其只是为了解释的目的而不是对本申请的限制，对实施方式的改变，增加和/或删除可以被做出而不脱离本申请的范围。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于大数据的分类存储方法，其特征在于，包括以下步骤：

接收多个存储请求；

根据多个存储请求确定是否需要进行存储扩展；

若不需要进行存储扩展，则对多个存储请求进行分类，将分类后的存储请求进行特定存储；

若需要进行存储扩展，则根据多个存储请求进行存储扩展，并在进行存储扩展后，对多个存储请求进行分类，将分类后的存储请求进行特定存储；

对多个存储请求进行分类，将分类后的存储请求进行特定存储包括以下子步骤：

对多个存储请求中包含的数据进行分类；

根据每类数据确定每类存储通道；

确定每类存储通道中的存储距离；

根据每类存储通道中的存储距离，对分类后的存储数据进行特定存储；

其中根据每类存储通道中的存储距离，对分类后的存储数据进行特定存储包括以下子步骤：

在多个存储距离中选取最短存储距离；

判断最短存储距离是否唯一；

若不唯一，在多个最短存储距离中确定最终的数据存储收集点进行数据的特定存储；

根据数据存储收集点的性能值T进行最终数据存储收集点的选取，其中每个数据存储收集点的性能值T表示为：

，

其中表示数据存储收集点u的初始能量，/>表示在时间t后数据存储收集点u的能量，/>表示在传输链路中，数据存储收集点u所在路径的最大跳数，表示在传输链路中，数据存储收集点u所在路径的传输时延，其中，/>分别表示为节点能量，节点跳数以及传输时延分配的权重；

2.如权利要求1所述的基于大数据的分类存储方法，其特征在于，根据多个存储请求确定是否需要进行存储扩展包括：

确定存储请求的数量；

若获取的存储请求个数小于M个，则对多个存储请求进行分类，将分类后的存储请求进行特定存储。

3.如权利要求2所述的基于大数据的分类存储方法，其特征在于，还包括：

若获取的存储请求个数大于M个，根据存储请求的数量确定是否需要进行存储扩展。

4.如权利要求1所述的基于大数据的分类存储方法，其特征在于，将获取的多个存储请求进行整合，将多个存储请求中的同类型数据分为同一类，形成多类数据。

5.一种基于大数据的分类存储系统，其特征在于，包括存储请求接收单元、存储扩展判断单元、存储扩展单元、特定存储单元；

存储请求接收单元用于接收多个存储请求；

存储扩展判断单元根据多个存储请求确定是否需要进行存储扩展；

若不需要进行存储扩展，则特定存储单元对多个存储请求进行分类，将分类后的存储请求进行特定存储；

若需要进行存储扩展，则存储扩展单元根据多个存储请求进行存储扩展，并在进行存储扩展后，特定存储单元对多个存储请求进行分类，将分类后的存储请求进行特定存储；

对多个存储请求中包含的数据进行分类；

根据每类数据确定每类存储通道；

确定每类存储通道中的存储距离；

在多个存储距离中选取最短存储距离；

判断最短存储距离是否唯一；

，

6.如权利要求5所述的基于大数据的分类存储系统，其特征在于，存储扩展判断单元根据多个存储请求确定是否需要进行存储扩展包括：

确定存储请求的数量；

7.如权利要求5所述的基于大数据的分类存储系统，其特征在于，存储扩展判断单元还包括：

8.如权利要求7所述的基于大数据的分类存储系统，其特征在于，特定存储单元将获取的多个存储请求进行整合，将多个存储请求中的同类型数据分为同一类，形成多类数据。