CN115617279A

CN115617279A - 分布式云数据的处理方法、装置及存储介质

Info

Publication number: CN115617279A
Application number: CN202211592583.2A
Authority: CN
Inventors: 马虹哲; 任风伟; 詹晶晶; 杨扬
Original assignee: Beijing Zhongdian Derui Electronic Technology Co ltd
Current assignee: Beijing Zhongdian Derui Electronic Technology Co ltd
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2023-01-17
Anticipated expiration: 2042-12-13
Also published as: CN115617279B

Abstract

本发明提出了一种分布式云数据的处理方法、装置及存储介质，涉及数据处理技术领域，获取初始云数据，对获取到的初始云数据进行预处理，得到初始云数据的最小云团；计算最小云团的中心数据点；将最小云团中的数据点的数据进行分类；对分类后的所有数据组中的数据在分布式存储系统中进行分布式存储；在时间窗Δt内将接收到的数据写入请求的多个数据部署到分布式存储系统中的多个分布域，利用多分布域协作实现分布域间负载平衡资源代价最小化，降低了分布式云数据服务系统的资源消耗，提高了数据处理效率。

Description

分布式云数据的处理方法、装置及存储介质

技术领域

本发明涉及数据处理技术领域，具体涉及分布式云数据的处理方法、装置及存储介质。

背景技术

云数据往往表现为大规模的离散数据，而传统的关系型数据存储系统性能不足、容错性差，无法适应海量非结构化数据管理。对于海量点云数据存储，一般包含3个方面的需求:1、数据的可靠存储对于大规模点云数据的存储，若放置在单个节点上，不仅效率慢，而且节点故障会引起致命的后果；2、存储的可扩展性当点云数据持续增加或者有补充时，存储的可扩展性显得尤为重要；3、为并行计算服务大数据环境下的存储功能要满足数据并行处理的需求。

分布式存储是大数据管理的关键技术之一，在分布式存储技术中，每台计算机都可以进行存储和计算，因此服务器功能不需要特别强大，从而极大降低了硬件成本；并且基于大数据的分布式存储系统具有灵活的体系结构，具有较好的扩展性，很适合管理海量点云数据，可以最大限度地利用现有的存储空间，实现资源的最优化配置。

海量点云数据的分布式存储可分为基于分布式文件系统和基于分布式数据库系统：1、分布式文件系统是指文件系统管理的物理存储资源通过计算机网络与节点相连；2、分布式数据库是用计算机网络将物理上分散的多个数据库单元连接起来组成一个逻辑上统一的数据库。

近年来，为了满足海量数据存储的扩展性和灵活性需求，提出了非关系型数据存储，也称为NoSQL数据库。NoSQL数据库支持水平扩展，可以扩展部署到大量的服务器节点，适合海量非结构化数据，比如海量点云数据的高效存储和访问。基于海量数据的分布式非关系数据库平台，例如MongoDB、HBase等，其突出特点是将分布式数据库与非关系数据库进行融合，用以存储和管理海量数据信息。分布式非关系数据库的优点主要有:成本低、扩容能力强、可靠性好、计算效率高等。

现有技术中，例如专利文献CN108885173A提供了用于利用时间分辨光谱法进行体内或离体实时表征生物样品的装置、系统和方法。光源生成光脉冲或连续光波并激发该生物样品，从而诱导响应荧光信号。多路信号分离器将该信号分解成光谱带，并向该光谱带施加时间延迟，以便利用检测器从来自单次激发脉冲的多个光谱带来捕获数据。通过对该光谱带的荧光强度大小和/或衰减进行分析而表征该生物样品。该样品可包含一种或多种外源或内源的荧光团。该系统可将荧光光谱法与其他光学光谱法或成像模式相结合，该光脉冲可聚焦在单个焦点处或在整个区域上进行扫描或图案化，但是该技术方案的生物特征信息提取手段仍费时费力。

发明内容

为了解决上述技术问题，本发明提出了分布式云数据的处理方法，包括如下步骤：

步骤S1、获取初始云数据，对获取到的初始云数据进行预处理，得到初始云数据的最小云团；

步骤S2、计算最小云团的中心数据点；

步骤S3、将最小云团中的数据点的数据进行分类；

步骤S4、对分类后的所有数据组中的数据在分布式存储系统中进行分布式存储；

步骤S5、在时间窗Δt内将接收到的数据写入请求的多个数据部署到分布式存储系统中的多个分布域，利用多分布域协作实现分布域间负载平衡资源代价最小化。

进一步地，所述步骤S3包括：

步骤S31、将最小云团的中心数据点P₀(X₀,Y₀,Z₀)作为原始中心点，并为该原始中心点的类别定义为1；

步骤S32、计算最小云团中的每个数据点与原始中心点的距离值，将距离值小于距离阈值的所有点的数据作为目标数据集；

步骤S33、将目标数据集中每一个数据保存到数据组，同时，将数据组中的每一个数据的数据点与原始中心点的距离值保存到距离组；

步骤S34、查询距离组中距离值最大的数据点，将该数据点作为新中心点，并为该新中心点的类别定义为2，返回执行步骤S32，直至最小云团中的所有数据点全部被分类，最终类别定义为M。

进一步地，所述步骤S5包括：

步骤S51、定义一个五元组

，其中，PN表示一组可用的n个域节点的集合，TS表示在Δt时间窗口内数据写入请求的集合，C_C是PN中n个域节点当前剩余的CPU资源的集合，C_m是PN中n个域节点当前剩余的内存资源的集合，C₁表示n个域节点中域节点i与其相邻域节点i’之间通信的带宽资源的集合；

步骤S52、n个域节点构成节点网络，所述节点网络用加权无向图G=(PN,C_l)来表示；构建数据写入请求网络，用加权无向图G_V=(PN_V,CL_V)来表示，PN_V代表数据写入请求节点集合，CL_V代表写入请求节点之间通信的带宽资源集合；

步骤S53、将数据写入请求网络映射到n个域节点构成节点网络的过程表示为M:G_V=(PN_V,CL_V)

G=(PN,C_l)，其中PN_V

PN, CL_V

C_l；

步骤S54、设第一负载均衡目标，采用负载均衡度来度量多域环境下的负载均衡效果；

步骤S55、将负载平衡度ω最小化，实现负载均衡目标。

进一步地，所述步骤S54包括：在基于虚拟网络映射完成所有任务请求的部署后，域内的第i个域节点的负载

表示如下:

,

与

分别表示根据解向量p完成任务部署后的第i个域节点的CPU资源和内存资源的利用率，第i个节点的资源利用率

表示为如下:

；

资源总量

表示为：

；

与

分别表示第i个域节点的CPU资源总量和内存资源总量。

进一步地，利用资源利用率的标准差来度量负载平衡度ω，

表示第i个节点当前资源利用率，n表示域节点的数量，某一时间段内平均资源利用率公式如下:

；

由此得到负载平衡度ω公式，其形式如下:

；

将负载平衡度ω最小化，实现负载均衡目标。

本发明还提出了分布式云数据的处理装置，用于实现分布式云数据的处理方法，包括：

云数据获取单元，用于获取初始云数据；

预处理单元，用于对获取到的初始云数据进行预处理，得到初始云数据的最小云团；

计算单元，用于计算最小云团的中心数据点；

分类单元，用于将最小云团中的数据点的数据进行分类，对分类后的所有数据组中的数据在分布式存储系统中进行分布式存储；

分布式存储系统，用于分类存储所有数据组中的数据。

进一步地，该分布存储系统包括多个分布域，每个分布域均具有一个存储中间层。每个分布域用于全量存储对应类别的数据组中的数据，各个分布域同时通过存储中间层接收对应类别的数据组中的数据写入请求。

本发明还提出了一种存储介质，用于实现分布式云数据的处理方法的计算机指令。

相比于现有技术，本申请具有如下有益技术效果：

获取初始云数据，对获取到的初始云数据进行预处理，得到初始云数据的最小云团；计算最小云团的中心数据点；将最小云团中的数据点的数据进行分类，实现了数据分类的快速和便利性；对分类后的所有数据组中的数据在分布式存储系统中进行分布式存储；在时间窗Δt内将接收到的数据写入请求的多个数据部署到分布式存储系统中的多个分布域，利用多分布域协作实现分布域间负载平衡资源代价最小化，降低了分布式云数据服务系统的资源消耗，提高了数据处理效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的分布式云数据的处理方法流程示意图；

图2为本发明的将最小云团中的数据点的数据进行分类的流程示意图；

图3为本发明的利用多分布域协作实现分布域间负载平衡资源代价最小化的流程示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本发明的具体实施例附图中，为了更好、更清楚的描述系统中的各元件的工作原理，表现所述装置中各部分的连接关系，只是明显区分了各元件之间的相对位置关系，并不能构成对元件或结构内的信号传输方向、连接顺序及各部分结构大小、尺寸、形状的限定。

如图1所示，为本发明的分布式云数据的处理方法流程示意图，该处理方法包括如下步骤：

步骤S1：获取初始云数据，对获取到的初始云数据进行预处理，得到初始云数据的最小云团。

为了提升对云数据的后续处理速率，本实施例采用滤波法保持初始云数据之间的数据特征。

统计初始云数据的总体数量，得到初始云数据的最小云团，选出最小云团中数据点的坐标值在X、Y、Z在3个方向上的最大值X_max、Y_max、Z_max，最小值X_min、Y_min、Z_min、利用最大值减去最小值算出最小云团的包围边长Lx、Ly、Lz：

Lx=X_max-X_min；

Ly=Y_max-Y_min；

Lz=Z_max-Z_min。

步骤S2：计算最小云团的中心数据点。

设P_i(X_i,Y_i,Z_i)为最小云团中的数据点的坐标，k为数据点总数，计算最小云团的中心数据点P₀(X₀,Y₀,Z₀)。

；

；

。

步骤S3、将最小云团中的数据点的数据进行分类。如图2所示，为将最小云团中的数据点的数据进行分类的流程示意图。

步骤S31：将最小云团的中心数据点P₀(X₀,Y₀,Z₀)作为原始中心点，并为该原始中心点的类别定义为1。

步骤S32：计算最小云团中的每个数据点与原始中心点的距离值，将距离值小于距离阈值的所有点的数据作为目标数据集。

步骤S33：将目标数据集中每一个数据保存到数据组，同时，将数据组中的每一个数据的数据点与原始中心点的距离值保存到距离组。

步骤S34：查询距离组中距离值最大的数据点，将该数据点作为新中心点，并为该新中心点的类别定义为2，返回执行步骤S32，直至最小云团中的所有数据点全部被分类，最终类别定义为M。

步骤S4：对分类后的所有数据组中的数据在分布式存储系统中进行分布式存储。

该分布式存储系统包括多个分布域，每个分布域均具有一个存储中间层。每个分布域用于全量存储对应类别的数据组中的数据，各个分布域同时通过存储中间层接收对应类别的数据组中的数据写入请求。

步骤S5：在时间窗Δt内将接收到的数据写入请求的多个数据部署到分布式存储系统中的多个分布域，利用多分布域协作实现分布域间负载平衡资源代价最小化。

如图3所示为本发明的利用多分布域协作实现分布域间负载平衡资源代价最小化的流程示意图，包括如下步骤：

步骤S51、定义一个五元组

，其中，PN表示一组可用的n个域节点

的集合，

，t表示数据部署的起始时间，TS表示在时间窗Δt内m个数据写入请求

的集合，

，C_C是PN中n个域节点当前剩余的CPU资源

的集合，

，C_m是PN中n个域节点当前剩余的内存资源

的集合，

，C₁表示n个域节点中域节点i与相邻域节点i’之间通信的带宽资源

的集合，

。

步骤S52、n个域节点构成节点网络，该节点网络用加权无向图G=(PN,C_l)来表示。构建一个数据写入请求网络，用加权无向图G_V=(PN_V,CL_V)来表示。PN_V代表数据写入请求节点集合，CL_V代表数据写入请求节点之间通信的带宽资源集合。

步骤S53、将数据写入请求网络映射到n个域节点构成节点网络的过程表示为，Q:G_V=(PN_V,CL_V)

G=(PN,C_l)，其中PN_V

PN, CL_V

C_l。

根据映射约束条件，如节点和剩余的内存资源、数据写入请求节点之间的相对位置之间距离等，能够求得将用于映射的候选节点集合。利用最小权重路由算法来计算n个域节点构成节点网络中候选节点之间的最小权重路径，由此得到候选节点路径集合。

步骤S54、设第一负载均衡目标，采用负载均衡度来度量多域环境下的负载均衡效果，在基于虚拟网络映射完成所有任务请求的部署后，域内的第i个域节点的负载

表示如下:

,

与

分别表示第i个域节点的CPU资源和内存资源的利用率。由此，第i个域节点的资源利用率

表示为如下:

；

资源总量

表示为：

；

与

分别表示第i个域节点的CPU资源总量和内存资源总量。

步骤S55、将负载平衡度ω最小化，实现负载均衡目标。利用资源利用率的标准差来度量负载平衡度ω，而负载均衡效果可以通过负载均衡度反映出来。

表示第i个节点当前资源利用率，n表示域节点的数量。某一时间段内平均资源利用率公式如下:

；

由此得到负载平衡度ω公式，其形式如下:

；

将负载平衡度ω最小化，实现负载均衡目标。

分布式云数据的处理装置，用于实现分布式云数据的处理方法，包括：

云数据获取单元，用于获取初始云数据。

预处理单元，用于对获取到的初始云数据进行预处理，得到初始云数据的最小云团。

计算单元，用于计算最小云团的中心数据点。

分类单元，用于将最小云团中的数据点的数据进行分类，对分类后的所有数据组中的数据在分布式存储系统中进行分布式存储。

分布式存储系统，用于分类存储所有数据组中的数据。

该分布存储系统包括多个分布域，每个分布域均具有一个存储中间层。每个分布域用于全量存储对应类别的数据组中的数据，各个分布域同时通过存储中间层接收对应类别的数据组中的数据写入请求。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如，固态硬盘(solid state disk，SSD))等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。