CN113254505B

CN113254505B - 分布式数据存储方法、检索方法、系统及可读存储介质

Info

Publication number: CN113254505B
Application number: CN202110669259.5A
Authority: CN
Inventors: 夏东
Original assignee: Hunan Vision Miracle Intelligent Technology Co ltd
Current assignee: Hunan Vision Miracle Intelligent Technology Co ltd
Priority date: 2021-06-17
Filing date: 2021-06-17
Publication date: 2021-10-08
Anticipated expiration: 2041-06-17
Also published as: CN113254505A

Abstract

本发明涉及分布式存储技术领域，公开了一种分布式数据存储方法、检索方法、系统及可读存储介质，目标节点接收传感器发送的目标数据，在目标节点对应的第一索引表中检索是否包括K对应的目标索引项，在第一索引表中包括目标索引项的情况下，将V追加存储至目标索引项中，并生成目标数据对应的目标数据来源，将目标数据来源与V关联存储；在第一索引表中不包括目标索引的情况下，在第一索引表中创建索引项K，并将目标数据来源与V关联存储至索引项K，可以解决现有的分布式存储方法存在成本较高，不能灵活满足不同作业需求的问题。

Description

分布式数据存储方法、检索方法、系统及可读存储介质

技术领域

本发明涉及分布式存储技术领域，尤其涉及一种分布式数据存储方法、检索方法、系统及可读存储介质。

背景技术

随着信息化与工业化的不断融合，在生产过程中，越来越多的部署传感器对生产过程数据进行感知，这些生产数据对研判生产状态、交货周期有非常重要的意义。因此对这些数据的存储通常可以利用就近的存储设备进行预先存储，然后对预先存储的数据经加工后传输至后台。可见，这些感知数据对生产过程的回溯具有重要的作用。由于物联网技术改变了传统互联网的思维，将物-物相连，通过部署传感器自动感知数据，对于存储来说一般都是先存储在本地，因此会形成多个对等（P2P）的存储中心，形成对等式的存储网络。

目前，大部分的存储仅仅是分散式的存储，并没有考虑如何安全可靠冗余的分布式存储，即使有的工作已经考虑了冗余副本式的分布式存储，但其方法过于死板，在系统启动时就要设置好相关冗余参数，运行时不能随着作业环境的需求而发生改变，可见，现有的分布式存储方法存在成本较高，不能灵活满足不同作业需求的问题。

发明内容

本发明提供了一种分布式数据存储方法、检索方法、系统及可读存储介质，以解决现有的分布式存储方法存在成本较高，不能灵活满足不同作业需求的问题。

为了实现上述目的，本发明通过如下的技术方案来实现：

第一方面，本发明提供一种分布式数据存储方法，应用于目标网络，所述目标网络包括M个节点，M为正整数，所述方法包括：

目标节点接收传感器发送的目标数据，其中，所述目标数据的数据格式为预设的第一格式，所述第一格式包括第一部分和第二部分，所述第一部分为属性部分K，所述第二部分为属性值部分V；所述目标节点为目标网络中M个节点中的任意一个节点；

在所述目标节点对应的第一索引表中检索是否包括K对应的目标索引项，在所述第一索引表中包括所述目标索引项的情况下，将V追加存储至所述目标索引项中，并生成所述目标数据对应的目标数据来源，将所述目标数据来源与V关联存储；

在所述第一索引表中不包括所述目标索引的情况下，在所述第一索引表中创建索引项K，并将所述目标数据来源与V关联存储至所述索引项K。

可选地，所述方法还包括：

所述目标节点将所述目标数据复制为N份目标数据；

确定所述目标节点的N个邻居节点；

所述目标节点向每一邻居节点发送一份目标数据；

所述N个邻居节点中的每一邻居节点在接收到目标数据的情况下，存储所述目标数据，并在存储成功后，向所述目标节点发送通知信息，所述通知信息用于指示邻居节点成功存储目标数据；

所述目标节点在接收到所述通知信息的情况下，生成目标数据对应的第一标记信息，所述第一标记信息用于指示所述目标数据被成功复制存储到邻居节点中。

可选地，所述N个邻居节点中的每一邻居节点在接收到目标数据的情况下，存储所述目标数据，包括：

所述N个邻居节点中的每一邻居节点在接收到目标数据的情况下，基于预设方式存储所述目标数据，并生成所述目标数据对应的第二标记信息，所述第二标记信息用于指示所述目标数据对应的原始节点；

将所述第二标记信息和所述目标数据关联存储。

可选地，所述方法还包括：

确定所述目标网络中的节点数量、存储规模以及平均连接度；

在满足第一预设条件的情况下，目标节点基于所述节点数量、存储规模以及平均连接度构建向量IV；

基于所述向量IV和预设的第一网络模型计算向量RV；

基于所述向量RV中的冗余参数Q和邻居参数P调整目标网络中存储的目标数据对应的冗余参数。

可选地，所述第一预设条件包括所述目标节点对所述目标网络中的节点数量、存储规模以及所述平均连接度执行第一动作，直至所述节点数量对应的第一平均值、所述存储规模对应的第二平均值以及所述平均连接度对应的第三平均值的变化程度小于预设的阈值；

其中，所述第一动作包括：

所述目标节点将所述目标网络中的节点数量、存储规模以及所述平均连接度转发至所述目标网络中除所述目标节点以外的其余节点，且，所述目标节点接收其余节点转发的节点数量、存储规模以及平均连接度，并计算节点数量对应的所述第一平均值，存储规模对应的第二平均值以及平均连接度对应的第三平均值。

第二方面，本发明提供一种分布式数据检索方法，包括：

采用上述第一方面所述的分布式数据存储方法存储目标数据；

目标节点接收传感器发送的查询请求，所述查询请求携带查询请求对应的目标数据来源和属性部分K；

目标节点检索第一索引表中是否包括属性部分K，在第一索引表中包括属性部分K，且属性部分K对应的目标索引项还包括目标数据来源的情况下，获取目标索引项中存储的V，并将V和目标节点的地址信息作为查询结果返回至查询请求对应的传感器；

在第一索引表中不包括属性部分K的情况下，所述目标节点获取目标网络中包括属性部分K的节点；

所述目标节点将所述查询请求发送至包括属性部分K的节点，由包括属性部分K的节点在对应的索引表中确定查询结果，并将查询结果返回至查询请求对应的传感器。

第三方面，本发明提供一种分布式数据存储系统，应用于目标网络，所述目标网络包括M个节点，M为正整数，包括：

目标节点，用于接收传感器发送的目标数据，其中，所述目标数据的数据格式为预设的第一格式，所述第一格式包括第一部分和第二部分，所述第一部分为属性部分K，所述第二部分为属性值部分V；所述目标节点为目标网络中M个节点中的任意一个节点；

第四方面，本发明提供一种分布式数据检索系统，包括：

目标节点，用于采用上述第一方面所述的分布式数据存储方法存储目标数据；

目标节点，还用于接收用户发送的查询请求，所述查询请求携带查询请求对应的目标数据来源和属性部分K；

目标节点检索第一索引表中是否包括属性部分K，在第一索引表中包括属性部分K，且属性部分K对应的目标索引项还包括目标数据来源的情况下，获取目标索引项中存储的V，并将V和目标节点的地址信息作为查询结果返回至查询请求对应的用户；

所述目标节点将所述查询请求发送至包括属性部分K的节点，由包括属性部分K的节点在对应的索引表中确定查询结果，并将查询结果返回至查询请求对应的用户。

第五方面，本发明提供一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的分布式数据存储方法的步骤，或者，实现如第二方面所述的分布式数据检索方法的步骤。

有益效果：

本发明实施例中，目标节点接收传感器发送的目标数据；在目标节点对应的第一索引表中检索是否包括K对应的目标索引项，在第一索引表中包括目标索引项的情况下，将V追加存储至目标索引项中，并生成目标数据对应的目标数据来源，将目标数据来源与V关联存储；在第一索引表中不包括目标索引的情况下，在第一索引表中创建索引项K，并将目标数据来源与V关联存储至索引项K。这样，可以快速实现分布式冗余存储，节约了存储成本。此外，本申请中，在进行分布式数据检索时，利用存储时目标数据对应的原始节点，将查询时的消息转发降低，即，有目的性的转发确实有可能有结果的节点，这很大的提高了网络查询速度，缩短了查询时间。

附图说明

图1为本发明优选实施例的一种分布式数据存储方法的流程图；

图2为本发明优选实施例的一种分布式数据检索方法的流程图。

具体实施方式

下面对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获取的所有其他实施例，都属于本发明保护的范围。

除非另作定义，本发明中使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“一个”或者“一”等类似词语也不表示数量限制，而是表示存在至少一个。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

如图1所示，本发明提供了一种分布式数据存储方法，应用于目标网络，目标网络包括M个节点，M为正整数，方法包括：

步骤101、目标节点接收传感器发送的目标数据，其中，目标数据的数据格式为预设的第一格式，第一格式包括第一部分和第二部分，第一部分为属性部分K，第二部分为属性值部分V；目标节点为目标网络中M个节点中的任意一个节点。

在该步骤中，M个节点之间是可以通信连接的，且各节点可以用于存储传感器采集的感知数据。其中，数据格式可以是K-V形式的数据格式，例如格式为Key-Value，也即键-值的格式，也可以理解为属性-属性值的格式。其中，第一部分为属性部分K，第二部分为属性值部分V。

目标节点为目标网络中M个节点中的任意一个节点，换言之，M个节点中的每一个节点都可以执行存储传感器的感知数据的步骤，此处，以目标节点为节点P为例对本实施方式中的各步骤进行示例说明。

在该步骤中，节点P接收传感器S发送的数据d：K-V。

步骤102、目标节点在目标节点对应的第一索引表中检索是否包括K对应的目标索引项，在第一索引表中包括目标索引项的情况下，将V追加存储至目标索引项中，并生成目标数据对应的目标数据来源，将目标数据来源与V关联存储。

在该步骤中，节点P检查自己的索引表IN，若IN中有K这个索引项，则直接将V追加到此索引项的后面，并标记来源为S。

步骤103、在第一索引表中不包括目标索引的情况下，在第一索引表中创建索引项K，并将目标数据来源与V关联存储至索引项K。

在该步骤中，若IN中没有K这个索引项，节点P在IN中增加索引项K，并填写值为V，并标记来源为S。这样，完成传感器S发送的数据d：K-V在节点P上的存储。

上述的分布式数据存储方法，目标节点接收传感器发送的目标数据；在目标节点对应的第一索引表中检索是否包括K对应的目标索引项，在第一索引表中包括目标索引项的情况下，将V追加存储至目标索引项中，并生成目标数据对应的目标数据来源，将目标数据来源与V关联存储；在第一索引表中不包括目标索引的情况下，在第一索引表中创建索引项K，并将目标数据来源与V关联存储至索引项K。这样，可以快速实现分布式冗余存储，节约了存储成本。

可选的，上述的分布式数据存储方法还包括：

目标节点将目标数据复制为N份目标数据；

确定目标节点的N个邻居节点；

目标节点向每一邻居节点发送一份目标数据；

N个邻居节点中的每一邻居节点在接收到目标数据的情况下，存储目标数据，并在存储成功后，向目标节点发送通知信息，通知信息用于指示邻居节点成功存储目标数据；

目标节点在接收到通知信息的情况下，生成目标数据对应的第一标记信息，第一标记信息用于指示目标数据被成功复制存储到邻居节点中。

在本可选的实施方式中，节点P将d复制N份，进一步地，节点P根据自己的路由表中邻居节点的物理跳数的远近关系，分别选择1跳、1+s跳、1+2s跳，s为常数，以此类推，若超过邻居节点数量，则从头重复选择，直至选择N个邻居节点；节点P将复制得到的N份目标数据发送给所选定的N个邻居节点，其中，每一份目标数据发送至一个邻居节点。

进一步地，节点P的N个邻居节点对接收的目标数据进行存储，并在存储成功之后，向节点P发送已成功存储目标数据的通知信息，节点P接收到通知信息之后，标记该目标数据被复制到邻居节点上。

可选地，N个邻居节点中的每一邻居节点在接收到目标数据的情况下，存储目标数据，包括：

N个邻居节点中的每一邻居节点在接收到目标数据的情况下，基于预设方式存储目标数据，并生成目标数据对应的第二标记信息，第二标记信息用于指示目标数据对应的原始节点；

将第二标记信息和目标数据关联存储。

在本可选的实施方式中，节点P将N份目标数据发送给所选定的N个邻居节点之后，收到复制的目标数据的邻居节点检查自己的索引表IN，若IN中有K这个索引项，则直接将V追加到此索引项的后面，并标记此值的原始节点为P；否则，邻居节点在IN中增加索引项K，并填写值为V，并标记此值的原始节点为P。这样，邻居节点基于上述目标节点一致的存储方式，将接收到的目标数据进行存储。可以快速有效的对目标数据进行存储。

可选地，上述的分布式数据存储方法还包括：

确定目标网络中的节点数量、存储规模以及平均连接度；

在满足第一预设条件的情况下，目标节点基于节点数量、存储规模以及平均连接度构建向量IV；

基于向量IV和预设的第一网络模型计算向量RV；

基于向量RV中的冗余参数Q和邻居参数P调整目标网络中存储的目标数据对应的冗余参数。

在本可选的实施方式中，目标节点不断收集网络上节点总数量，归一化为节点数量；目标节点不断收集存储总量，归一化为存储规模；目标节点不断收集自身的邻居数量，然后转发此数量，通过不断收集求得平均连接度。需要说明的是，目标节点可以是N个存储节点中的任意一个节点，也即，M个节点中的各节点都执行本可选实施方式中的转发步骤。

可选地，第一预设条件包括：目标节点对目标网络中的节点数量、存储规模以及平均连接度执行第一动作，直至节点数量对应的第一平均值、存储规模对应的第二平均值以及平均连接度对应的第三平均值的变化程度小于预设的阈值；

其中，第一动作包括：目标节点将目标网络中的节点数量、存储规模以及平均连接度转发至目标网络中除目标节点以外的其余节点，且，目标节点接收其余节点转发的节点数量、存储规模以及平均连接度，并计算节点数量对应的第一平均值，存储规模对应的第二平均值以及平均连接度对应的第三平均值。

各个节点将自身收集到的节点数量、存储规模、平均连接度不断转发；收到其他节点发来的节点数量、存储规模、平均连接度，节点将此消息记录，并不断求各个值的平均值，直到各个平均值趋于稳定；其中节点数量对应的第一平均值、存储规模对应的第二平均值以及平均连接度对应的第三平均值的变化程度小于预设的阈值，可以表示各个平均值趋于稳定。节点构建IV向量，并调用预设的第一网络模型，计算RV值。

需要说明的是，预设的第一网络模型可以是AR模型，其中，该AR模型的预设训练过程可以包括如下步骤。

选取节点数量、存储规模、平均连接度为考核指标，进行归一化处理，并构建向量IV；针对不同的节点数量、存储规模、平均连接度，采集最让用户满意的冗余参数N 和分发邻居参数m，进行归一化处理，形成向量RV；构建样本IV→RV之间的映射规则；将样本带入自回归（Autoregressive model，AR）模型进行训练；训练完毕后，将模型参数AR进行保存。

值得说明的是，IV向量表示指标向量（Index Vector），在本申请中，指标向量包括节点数量、存储规模以及平均连接度，RV向量冗余参数Q和邻居参数P，其中，本申请构建了一对一对的向量映射，这些映射作为模型训练的输入。此处与现有机器学习模型一致，不做赘述。

进一步地，节点根据RV中的冗余参数N和分发邻居参数m，对存储的数据进行冗余参数调整，从而满足变化的作业场景。具体地，最初的冗余参数（即，最初的参数N和m）可取一个系统默认值。随着节点不断对节点数量、存储规模、平均连接度的采集和计算，得到IV，将该IV输入训练好的AR模型计算出RV，RV中就包含了对应于这个网络的节点数量、存储规模、平均连接度这个3个参数的最优的冗余参数和分发邻居参数。这样，可以针对工业互联网作业环境随时变化的需求，通过不断收集环境参数，并结合之前训练的模型对冗余度做出调整，这极大的适应了作业环境的变化，节约的存储的开销，提高了网络利用率。

请参见图2，本申请实施例提供一种分布式数据检索方法，包括：

步骤201、采用上述的分布式数据存储方法存储目标数据；

步骤202、目标节点接收用户发送的查询请求，查询请求携带查询请求对应的目标数据来源和属性部分K；

步骤203、目标节点检索第一索引表中是否包括属性部分K，在第一索引表中包括属性部分K，且属性部分K对应的目标索引项还包括目标数据来源的情况下，获取目标索引项中存储的V，并将V和目标节点的地址信息作为查询结果返回至查询请求对应的用户；

步骤204、在第一索引表中不包括属性部分K的情况下，目标节点获取目标网络中包括属性部分K的节点；

步骤205、目标节点将查询请求发送至包括属性部分K的节点，由包括属性部分K的节点在对应的索引表中确定查询结果，并将查询结果返回至查询请求对应的用户。

在该实施方式中，继续以目标节点为P节点为例进行分布式数据检索方法的步骤说明。例如，用户给节点P发出查询请求，查询请求携带传感器S的K属性的值。节点P收到此查询请求后，检查本地IN表；若IN中有K属性，检查K属性的标记是否有S；若有S，则取出对应的值V并将V和V的原有存储节点IP返回给用户；若无S，节点P将查询请求转发给自己标有K属性的原有节点；K属性原有节点收到查询后继续查询自身对应的本地IN表，直至返回结果。

可选地，本申请实施例还提供一种分布式数据存储系统，应用于目标网络，所述目标网络包括M个节点，M为正整数，包括：

上述的分布式数据存储系统能实现上述分布式数据存储方法的各个实施例的步骤，且能达到相同的有益效果，此处，不做赘述。

可选地，本申请实施例还提供一种分布式数据检索系统，包括：

目标节点，用于采用上述的分布式数据存储方法存储目标数据；

目标节点，还用于接收传感器发送的查询请求，所述查询请求携带查询请求对应的目标数据来源和属性部分K；

上述的分布式数据检索系统能实现上述分布式数据检索方法的各个实施例的步骤，且能达到相同的有益效果，此处，不做赘述。

可选地，本申请实施例还提供一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如上所述的分布式数据存储方法的步骤，或者，实现如上所述的分布式数据检索方法。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种分布式数据存储方法，应用于目标网络，所述目标网络包括M个节点，M为正整数，其特征在于，所述方法包括：

在所述第一索引表中不包括所述目标索引的情况下，在所述第一索引表中创建索引项K，并将所述目标数据来源与V关联存储至所述索引项K；

所述方法还包括：

所述目标节点将所述目标数据复制为N份目标数据；

确定所述目标节点的N个邻居节点；

所述目标节点向每一邻居节点发送一份目标数据；

所述目标节点在接收到所述通知信息的情况下，生成目标数据对应的第一标记信息，所述第一标记信息用于指示所述目标数据被成功复制存储到邻居节点中；

所述方法还包括：

将所述向量IV输入预设的第一网络模型计算向量RV，所述第一网络模型为AR模型，所述向量IV包括节点数量、存储规模以及平均连接度；

基于所述向量RV中的冗余参数Q和邻居参数P调整目标网络中存储的目标数据对应的冗余参数直至满足作业场景的需求，所述冗余参数Q和邻居参数P用于表示所述目标网络的节点数量、存储规模、平均连接度这3个参数的最优冗余参数和邻居参数。

2.根据权利要求1所述的分布式数据存储方法，其特征在于，所述N个邻居节点中的每一邻居节点在接收到目标数据的情况下，存储所述目标数据，包括：

将所述第二标记信息和所述目标数据关联存储。

3.根据权利要求1所述的分布式数据存储方法，其特征在于，所述第一预设条件包括所述目标节点对所述目标网络中的节点数量、存储规模以及所述平均连接度执行第一动作，直至所述节点数量对应的第一平均值、所述存储规模对应的第二平均值以及所述平均连接度对应的第三平均值的变化程度小于预设的阈值；

其中，所述第一动作包括：

4.一种分布式数据检索方法，其特征在于，包括：

采用上述权利要求1-3中任一项所述的分布式数据存储方法存储目标数据；

目标节点接收用户发送的查询请求，所述查询请求携带查询请求对应的目标数据来源和属性部分K；

5.一种分布式数据存储系统，应用于目标网络，所述目标网络包括M个节点，M为正整数，其特征在于，包括：

所述目标节点将所述目标数据复制为N份目标数据；

确定所述目标节点的N个邻居节点；

所述目标节点向每一邻居节点发送一份目标数据；

6.一种分布式数据检索系统，其特征在于，包括：

目标节点，用于采用上述权利要求1-3中任一项所述的分布式数据存储方法存储目标数据；

7.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-3中任一所述的分布式数据存储方法的步骤，或者，实现如权利要求4所述的分布式数据检索方法的步骤。