CN115617279A - 分布式云数据的处理方法、装置及存储介质 - Google Patents

分布式云数据的处理方法、装置及存储介质 Download PDF

Info

Publication number
CN115617279A
CN115617279A CN202211592583.2A CN202211592583A CN115617279A CN 115617279 A CN115617279 A CN 115617279A CN 202211592583 A CN202211592583 A CN 202211592583A CN 115617279 A CN115617279 A CN 115617279A
Authority
CN
China
Prior art keywords
data
domain
cloud
distributed
minimum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211592583.2A
Other languages
English (en)
Other versions
CN115617279B (zh
Inventor
马虹哲
任风伟
詹晶晶
杨扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongdian Derui Electronic Technology Co ltd
Original Assignee
Beijing Zhongdian Derui Electronic Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongdian Derui Electronic Technology Co ltd filed Critical Beijing Zhongdian Derui Electronic Technology Co ltd
Priority to CN202211592583.2A priority Critical patent/CN115617279B/zh
Publication of CN115617279A publication Critical patent/CN115617279A/zh
Application granted granted Critical
Publication of CN115617279B publication Critical patent/CN115617279B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0625Power saving in storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0629Configuration or reconfiguration of storage systems
    • G06F3/0631Configuration or reconfiguration of storage systems by allocating resources to storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5016Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种分布式云数据的处理方法、装置及存储介质,涉及数据处理技术领域,获取初始云数据,对获取到的初始云数据进行预处理,得到初始云数据的最小云团;计算最小云团的中心数据点;将最小云团中的数据点的数据进行分类;对分类后的所有数据组中的数据在分布式存储系统中进行分布式存储;在时间窗Δt内将接收到的数据写入请求的多个数据部署到分布式存储系统中的多个分布域,利用多分布域协作实现分布域间负载平衡资源代价最小化,降低了分布式云数据服务系统的资源消耗,提高了数据处理效率。

Description

分布式云数据的处理方法、装置及存储介质
技术领域
本发明涉及数据处理技术领域,具体涉及分布式云数据的处理方法、装置及存储介质。
背景技术
云数据往往表现为大规模的离散数据,而传统的关系型数据存储系统性能不足、容错性差,无法适应海量非结构化数据管理。对于海量点云数据存储,一般包含3个方面的需求:1、数据的可靠存储对于大规模点云数据的存储,若放置在单个节点上,不仅效率慢,而且节点故障会引起致命的后果;2、存储的可扩展性当点云数据持续增加或者有补充时,存储的可扩展性显得尤为重要;3、为并行计算服务大数据环境下的存储功能要满足数据并行处理的需求。
分布式存储是大数据管理的关键技术之一,在分布式存储技术中,每台计算机都可以进行存储和计算,因此服务器功能不需要特别强大,从而极大降低了硬件成本;并且基于大数据的分布式存储系统具有灵活的体系结构,具有较好的扩展性,很适合管理海量点云数据,可以最大限度地利用现有的存储空间,实现资源的最优化配置。
海量点云数据的分布式存储可分为基于分布式文件系统和基于分布式数据库系统:1、分布式文件系统是指文件系统管理的物理存储资源通过计算机网络与节点相连;2、分布式数据库是用计算机网络将物理上分散的多个数据库单元连接起来组成一个逻辑上统一的数据库。
近年来,为了满足海量数据存储的扩展性和灵活性需求,提出了非关系型数据存储,也称为NoSQL数据库。NoSQL数据库支持水平扩展,可以扩展部署到大量的服务器节点,适合海量非结构化数据,比如海量点云数据的高效存储和访问。基于海量数据的分布式非关系数据库平台,例如MongoDB、HBase等,其突出特点是将分布式数据库与非关系数据库进行融合,用以存储和管理海量数据信息。分布式非关系数据库的优点主要有:成本低、扩容能力强、可靠性好、计算效率高等。
现有技术中,例如专利文献CN108885173A提供了用于利用时间分辨光谱法进行体内或离体实时表征生物样品的装置、系统和方法。光源生成光脉冲或连续光波并激发该生物样品,从而诱导响应荧光信号。多路信号分离器将该信号分解成光谱带,并向该光谱带施加时间延迟,以便利用检测器从来自单次激发脉冲的多个光谱带来捕获数据。通过对该光谱带的荧光强度大小和/或衰减进行分析而表征该生物样品。该样品可包含一种或多种外源或内源的荧光团。该系统可将荧光光谱法与其他光学光谱法或成像模式相结合,该光脉冲可聚焦在单个焦点处或在整个区域上进行扫描或图案化,但是该技术方案的生物特征信息提取手段仍费时费力。
发明内容
为了解决上述技术问题,本发明提出了分布式云数据的处理方法,包括如下步骤:
步骤S1、获取初始云数据,对获取到的初始云数据进行预处理,得到初始云数据的最小云团;
步骤S2、计算最小云团的中心数据点;
步骤S3、将最小云团中的数据点的数据进行分类;
步骤S4、对分类后的所有数据组中的数据在分布式存储系统中进行分布式存储;
步骤S5、在时间窗Δt内将接收到的数据写入请求的多个数据部署到分布式存储系统中的多个分布域,利用多分布域协作实现分布域间负载平衡资源代价最小化。
进一步地,所述步骤S3包括:
步骤S31、将最小云团的中心数据点P0(X0,Y0,Z0)作为原始中心点,并为该原始中心点的类别定义为1;
步骤S32、计算最小云团中的每个数据点与原始中心点的距离值,将距离值小于距离阈值的所有点的数据作为目标数据集;
步骤S33、将目标数据集中每一个数据保存到数据组,同时,将数据组中的每一个数据的数据点与原始中心点的距离值保存到距离组;
步骤S34、查询距离组中距离值最大的数据点,将该数据点作为新中心点,并为该新中心点的类别定义为2,返回执行步骤S32,直至最小云团中的所有数据点全部被分类,最终类别定义为M。
进一步地,所述步骤S5包括:
步骤S51、定义一个五元组
Figure 79388DEST_PATH_IMAGE001
,其中,PN表示一组可用的n个域节点的集合,TS表示在Δt时间窗口内数据写入请求的集合,CC是PN中n个域节点当前剩余的CPU资源的集合,Cm是PN中n个域节点当前剩余的内存资源的集合,C1表示n个域节点中域节点i与其相邻域节点i’之间通信的带宽资源的集合;
步骤S52、n个域节点构成节点网络,所述节点网络用加权无向图G=(PN,Cl)来表示;构建数据写入请求网络,用加权无向图GV=(PNV,CLV)来表示,PNV代表数据写入请求节点集合,CLV代表写入请求节点之间通信的带宽资源集合;
步骤S53、将数据写入请求网络映射到n个域节点构成节点网络的过程表示为M:GV=(PNV,CLV)
Figure 855583DEST_PATH_IMAGE002
G=(PN,Cl),其中PNV
Figure 104162DEST_PATH_IMAGE003
PN, CLV
Figure 233792DEST_PATH_IMAGE003
Cl
步骤S54、设第一负载均衡目标,采用负载均衡度来度量多域环境下的负载均衡效果;
步骤S55、将负载平衡度ω最小化,实现负载均衡目标。
进一步地,所述步骤S54包括:在基于虚拟网络映射完成所有任务请求的部署后,域内的第i个域节点的负载
Figure 641639DEST_PATH_IMAGE004
表示如下:
Figure 198522DEST_PATH_IMAGE005
,
Figure 199977DEST_PATH_IMAGE006
Figure 490887DEST_PATH_IMAGE007
分别表示根据解向量p完成任务部署后的第i个域节点的CPU资源和内存资源的利用率,第i个节点的资源利用率
Figure 894187DEST_PATH_IMAGE008
表示为如下:
Figure 621971DEST_PATH_IMAGE009
资源总量
Figure 235355DEST_PATH_IMAGE010
表示为:
Figure 441209DEST_PATH_IMAGE011
Figure 699015DEST_PATH_IMAGE012
Figure 987913DEST_PATH_IMAGE013
分别表示第i个域节点的CPU资源总量和内存资源总量。
进一步地,利用资源利用率的标准差来度量负载平衡度ω,
Figure 963960DEST_PATH_IMAGE008
表示第i个节点当前资源利用率,n表示域节点的数量,某一时间段内平均资源利用率公式如下:
Figure 707925DEST_PATH_IMAGE014
由此得到负载平衡度ω公式,其形式如下:
Figure 210450DEST_PATH_IMAGE015
将负载平衡度ω最小化,实现负载均衡目标。
本发明还提出了分布式云数据的处理装置,用于实现分布式云数据的处理方法,包括:
云数据获取单元,用于获取初始云数据;
预处理单元,用于对获取到的初始云数据进行预处理,得到初始云数据的最小云团;
计算单元,用于计算最小云团的中心数据点;
分类单元,用于将最小云团中的数据点的数据进行分类,对分类后的所有数据组中的数据在分布式存储系统中进行分布式存储;
分布式存储系统,用于分类存储所有数据组中的数据。
进一步地,该分布存储系统包括多个分布域,每个分布域均具有一个存储中间层。每个分布域用于全量存储对应类别的数据组中的数据,各个分布域同时通过存储中间层接收对应类别的数据组中的数据写入请求。
本发明还提出了一种存储介质,用于实现分布式云数据的处理方法的计算机指令。
相比于现有技术,本申请具有如下有益技术效果:
获取初始云数据,对获取到的初始云数据进行预处理,得到初始云数据的最小云团;计算最小云团的中心数据点;将最小云团中的数据点的数据进行分类,实现了数据分类的快速和便利性;对分类后的所有数据组中的数据在分布式存储系统中进行分布式存储;在时间窗Δt内将接收到的数据写入请求的多个数据部署到分布式存储系统中的多个分布域,利用多分布域协作实现分布域间负载平衡资源代价最小化,降低了分布式云数据服务系统的资源消耗,提高了数据处理效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的分布式云数据的处理方法流程示意图;
图2为本发明的将最小云团中的数据点的数据进行分类的流程示意图;
图3为本发明的利用多分布域协作实现分布域间负载平衡资源代价最小化的流程示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本发明的具体实施例附图中,为了更好、更清楚的描述系统中的各元件的工作原理,表现所述装置中各部分的连接关系,只是明显区分了各元件之间的相对位置关系,并不能构成对元件或结构内的信号传输方向、连接顺序及各部分结构大小、尺寸、形状的限定。
如图1所示,为本发明的分布式云数据的处理方法流程示意图,该处理方法包括如下步骤:
步骤S1:获取初始云数据,对获取到的初始云数据进行预处理,得到初始云数据的最小云团。
为了提升对云数据的后续处理速率,本实施例采用滤波法保持初始云数据之间的数据特征。
统计初始云数据的总体数量,得到初始云数据的最小云团,选出最小云团中数据点的坐标值在X、Y、Z在3个方向上的最大值Xmax、Ymax、Zmax,最小值Xmin、Ymin、Zmin、利用最大值减去最小值算出最小云团的包围边长Lx、Ly、Lz:
Lx=Xmax-Xmin
Ly=Ymax-Ymin
Lz=Zmax-Zmin
步骤S2:计算最小云团的中心数据点。
设Pi(Xi,Yi,Zi)为最小云团中的数据点的坐标,k为数据点总数,计算最小云团的中心数据点P0(X0,Y0,Z0)。
Figure 280038DEST_PATH_IMAGE016
Figure 743380DEST_PATH_IMAGE017
Figure 917135DEST_PATH_IMAGE018
步骤S3、将最小云团中的数据点的数据进行分类。如图2所示,为将最小云团中的数据点的数据进行分类的流程示意图。
步骤S31:将最小云团的中心数据点P0(X0,Y0,Z0)作为原始中心点,并为该原始中心点的类别定义为1。
步骤S32:计算最小云团中的每个数据点与原始中心点的距离值,将距离值小于距离阈值的所有点的数据作为目标数据集。
步骤S33:将目标数据集中每一个数据保存到数据组,同时,将数据组中的每一个数据的数据点与原始中心点的距离值保存到距离组。
步骤S34:查询距离组中距离值最大的数据点,将该数据点作为新中心点,并为该新中心点的类别定义为2,返回执行步骤S32,直至最小云团中的所有数据点全部被分类,最终类别定义为M。
步骤S4:对分类后的所有数据组中的数据在分布式存储系统中进行分布式存储。
该分布式存储系统包括多个分布域,每个分布域均具有一个存储中间层。每个分布域用于全量存储对应类别的数据组中的数据,各个分布域同时通过存储中间层接收对应类别的数据组中的数据写入请求。
步骤S5:在时间窗Δt内将接收到的数据写入请求的多个数据部署到分布式存储系统中的多个分布域,利用多分布域协作实现分布域间负载平衡资源代价最小化。
如图3所示为本发明的利用多分布域协作实现分布域间负载平衡资源代价最小化的流程示意图,包括如下步骤:
步骤S51、定义一个五元组
Figure 149533DEST_PATH_IMAGE019
,其中,PN表示一组可用的n个域节点
Figure 655600DEST_PATH_IMAGE020
的集合,
Figure 340660DEST_PATH_IMAGE021
,t表示数据部署的起始时间,TS表示在时间窗Δt内m个数据写入请求
Figure 82220DEST_PATH_IMAGE022
的集合,
Figure 903545DEST_PATH_IMAGE023
,CC是PN中n个域节点当前剩余的CPU资源
Figure 580514DEST_PATH_IMAGE024
的集合,
Figure 877503DEST_PATH_IMAGE025
,Cm是PN中n个域节点当前剩余的内存资源
Figure 766962DEST_PATH_IMAGE026
的集合,
Figure 973952DEST_PATH_IMAGE027
,C1表示n个域节点中域节点i与相邻域节点i’之间通信的带宽资源
Figure 946456DEST_PATH_IMAGE028
的集合,
Figure 606108DEST_PATH_IMAGE029
步骤S52、n个域节点构成节点网络,该节点网络用加权无向图G=(PN,Cl)来表示。构建一个数据写入请求网络,用加权无向图GV=(PNV,CLV)来表示。PNV代表数据写入请求节点集合,CLV代表数据写入请求节点之间通信的带宽资源集合。
步骤S53、将数据写入请求网络映射到n个域节点构成节点网络的过程表示为,Q:GV=(PNV,CLV)
Figure 564837DEST_PATH_IMAGE002
G=(PN,Cl),其中PNV
Figure 741781DEST_PATH_IMAGE003
PN, CLV
Figure 494974DEST_PATH_IMAGE003
Cl
根据映射约束条件,如节点和剩余的内存资源、数据写入请求节点之间的相对位置之间距离等,能够求得将用于映射的候选节点集合。利用最小权重路由算法来计算n个域节点构成节点网络中候选节点之间的最小权重路径,由此得到候选节点路径集合。
步骤S54、设第一负载均衡目标,采用负载均衡度来度量多域环境下的负载均衡效果,在基于虚拟网络映射完成所有任务请求的部署后,域内的第i个域节点的负载
Figure 641921DEST_PATH_IMAGE030
表示如下:
Figure 528975DEST_PATH_IMAGE031
,
Figure 179399DEST_PATH_IMAGE032
Figure 103493DEST_PATH_IMAGE033
分别表示第i个域节点的CPU资源和内存资源的利用率。由此,第i个域节点的资源利用率
Figure 862370DEST_PATH_IMAGE034
表示为如下:
Figure 897322DEST_PATH_IMAGE035
资源总量
Figure 933411DEST_PATH_IMAGE010
表示为:
Figure 887461DEST_PATH_IMAGE036
Figure 9001DEST_PATH_IMAGE037
Figure 473742DEST_PATH_IMAGE038
分别表示第i个域节点的CPU资源总量和内存资源总量。
步骤S55、将负载平衡度ω最小化,实现负载均衡目标。利用资源利用率的标准差来度量负载平衡度ω,而负载均衡效果可以通过负载均衡度反映出来。
Figure 98759DEST_PATH_IMAGE034
表示第i个节点当前资源利用率,n表示域节点的数量。某一时间段内平均资源利用率公式如下:
Figure 630234DEST_PATH_IMAGE039
由此得到负载平衡度ω公式,其形式如下:
Figure 832545DEST_PATH_IMAGE040
将负载平衡度ω最小化,实现负载均衡目标。
分布式云数据的处理装置,用于实现分布式云数据的处理方法,包括:
云数据获取单元,用于获取初始云数据。
预处理单元,用于对获取到的初始云数据进行预处理,得到初始云数据的最小云团。
计算单元,用于计算最小云团的中心数据点。
分类单元,用于将最小云团中的数据点的数据进行分类,对分类后的所有数据组中的数据在分布式存储系统中进行分布式存储。
分布式存储系统,用于分类存储所有数据组中的数据。
该分布存储系统包括多个分布域,每个分布域均具有一个存储中间层。每个分布域用于全量存储对应类别的数据组中的数据,各个分布域同时通过存储中间层接收对应类别的数据组中的数据写入请求。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如,固态硬盘(solid state disk,SSD))等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (8)

1.分布式云数据的处理方法,其特征在于,包括如下步骤:
步骤S1、获取初始云数据,对获取到的初始云数据进行预处理,得到初始云数据的最小云团;
步骤S2、计算最小云团的中心数据点;
步骤S3、将最小云团中的数据点的数据进行分类;
步骤S4、对分类后的所有数据组中的数据在分布式存储系统中进行分布式存储;
步骤S5、在时间窗Δt内将接收到的数据写入请求的多个数据部署到分布式存储系统中的多个分布域,利用多分布域协作实现分布域间负载平衡资源代价最小化。
2.根据权利要求1所述的分布式云数据的处理方法,其特征在于,所述步骤S3包括:
步骤S31、将最小云团的中心数据点P0(X0,Y0,Z0)作为原始中心点,并为该原始中心点的类别定义为1;
步骤S32、计算最小云团中的每个数据点与原始中心点的距离值,将距离值小于距离阈值的所有点的数据作为目标数据集;
步骤S33、将目标数据集中每一个数据保存到数据组,同时,将数据组中的每一个数据的数据点与原始中心点的距离值保存到距离组;
步骤S34、查询距离组中距离值最大的数据点,将该数据点作为新中心点,并为该新中心点的类别定义为2,返回执行步骤S32,直至最小云团中的所有数据点全部被分类,最终类别定义为M。
3.根据权利要求1所述的分布式云数据的处理方法,其特征在于,所述步骤S5包括:
步骤S51、定义一个五元组
Figure DEST_PATH_IMAGE001
,其中,PN表示一组n个域节点的集合,TS表示在Δt时间窗口内数据写入请求的集合,CC是PN中n个域节点当前剩余的CPU资源的集合,Cm是PN中n个域节点当前剩余的内存资源的集合,C1表示n个域节点中域节点i与其相邻域节点i’之间通信的带宽资源的集合;
步骤S52、n个域节点构成节点网络,所述节点网络用加权无向图G=(PN,Cl)来表示;构建数据写入请求网络,用加权无向图GV=(PNV,CLV)来表示,PNV代表数据写入请求节点集合,CLV代表写入请求节点之间通信的带宽资源集合;
步骤S53、将数据写入请求网络映射到n个域节点构成节点网络的过程表示为M:GV=(PNV,CLV)
Figure 481289DEST_PATH_IMAGE002
G=(PN,Cl),其中PNV
Figure DEST_PATH_IMAGE003
PN,CLV
Figure 601692DEST_PATH_IMAGE003
Cl
步骤S54、设第一负载均衡目标,采用负载均衡度来度量多域环境下的负载均衡效果;
步骤S55、将负载平衡度ω最小化,实现负载均衡目标。
4.根据权利要求3所述的分布式云数据的处理方法,其特征在于,所述步骤S54包括:在基于虚拟网络映射完成所有任务请求的部署后,域内的第i个域节点的负载
Figure 240484DEST_PATH_IMAGE004
表示如下:
Figure DEST_PATH_IMAGE005
,
Figure 838955DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
分别表示第i个域节点的CPU资源和内存资源的利用率,第i个节点的资源利用率
Figure 246803DEST_PATH_IMAGE008
表示为如下:
Figure DEST_PATH_IMAGE009
资源总量
Figure 538107DEST_PATH_IMAGE010
表示为:
Figure DEST_PATH_IMAGE011
Figure 133036DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
分别表示第i个域节点的CPU资源总量和内存资源总量。
5.根据权利要求4所述的分布式云数据的处理方法,其特征在于,利用资源利用率的标准差来度量负载平衡度ω,
Figure 423947DEST_PATH_IMAGE008
表示第i个节点当前资源利用率,n表示域节点的数量,某一时间段内平均资源利用率公式如下:
Figure 561667DEST_PATH_IMAGE014
由此得到负载平衡度ω公式,其形式如下:
Figure DEST_PATH_IMAGE015
将负载平衡度ω最小化,实现负载均衡目标。
6.分布式云数据的处理装置,其特征在于,用于实现如权利要求1-5任意一项所述的分布式云数据的处理方法,包括:
云数据获取单元,用于获取初始云数据;
预处理单元,用于对获取到的初始云数据进行预处理,得到初始云数据的最小云团;
计算单元,用于计算最小云团的中心数据点;
分类单元,用于将最小云团中的数据点的数据进行分类,对分类后的所有数据组中的数据在分布式存储系统中进行分布式存储;
分布式存储系统,用于分类存储所有数据组中的数据。
7.根据权利要求6所述的处理装置,其特征在于,该分布式存储系统包括多个分布域,每个分布域均具有一个存储中间层,每个分布域用于全量存储对应类别的数据组中的数据,各个分布域同时通过存储中间层接收对应类别的数据组中的数据写入请求。
8.一种存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-5任意一项所述的分布式云数据的处理方法的计算机指令。
CN202211592583.2A 2022-12-13 2022-12-13 分布式云数据的处理方法、装置及存储介质 Active CN115617279B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211592583.2A CN115617279B (zh) 2022-12-13 2022-12-13 分布式云数据的处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211592583.2A CN115617279B (zh) 2022-12-13 2022-12-13 分布式云数据的处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN115617279A true CN115617279A (zh) 2023-01-17
CN115617279B CN115617279B (zh) 2023-03-31

Family

ID=84879630

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211592583.2A Active CN115617279B (zh) 2022-12-13 2022-12-13 分布式云数据的处理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN115617279B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116074324A (zh) * 2023-03-30 2023-05-05 清华大学 一种供水管网独立计量分区系统及方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011128731A (ja) * 2009-12-15 2011-06-30 Nippon Telegr & Teleph Corp <Ntt> 認証連携負荷分散システム、認証連携負荷分散装置、サービス提供装置、認証連携負荷分散方法及びそのプログラム
JP2013025425A (ja) * 2011-07-19 2013-02-04 Nec Corp 分散データ管理システム、分散データ管理方法、および分散データ管理プログラム
CN104104621A (zh) * 2013-04-07 2014-10-15 中国科学院声学研究所 一种基于非线性降维的虚拟网络资源动态自适应调节方法
CN104270402A (zh) * 2014-08-25 2015-01-07 浪潮电子信息产业股份有限公司 一种异构集群存储自适应数据负载的方法
CN104731796A (zh) * 2013-12-19 2015-06-24 北京思博途信息技术有限公司 数据存储计算方法和系统
CN106970831A (zh) * 2017-05-15 2017-07-21 金航数码科技有限责任公司 一种面向云平台的虚拟机资源动态调度系统及方法
CN107066328A (zh) * 2017-05-19 2017-08-18 成都四象联创科技有限公司 大规模数据处理平台的构建方法
CN109918198A (zh) * 2019-02-18 2019-06-21 中国空间技术研究院 一种基于用户特征预测的仿真云平台负载调度系统及方法
CN109981438A (zh) * 2019-03-22 2019-07-05 大连大学 一种面向sdn和nfv协同部署框架的卫星网络负载均衡方法
CN110928878A (zh) * 2019-11-19 2020-03-27 国网通用航空有限公司 基于hdfs的点云数据处理方法及装置
CN113762310A (zh) * 2021-01-26 2021-12-07 北京京东乾石科技有限公司 一种点云数据分类方法、装置、计算机存储介质及系统
CN113946436A (zh) * 2021-07-29 2022-01-18 西北大学 一种基于负载均衡的资源预调度方法
CN114443284A (zh) * 2021-12-29 2022-05-06 苏州浪潮智能科技有限公司 一种集群资源负载均衡方法、装置、电子设备和介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011128731A (ja) * 2009-12-15 2011-06-30 Nippon Telegr & Teleph Corp <Ntt> 認証連携負荷分散システム、認証連携負荷分散装置、サービス提供装置、認証連携負荷分散方法及びそのプログラム
JP2013025425A (ja) * 2011-07-19 2013-02-04 Nec Corp 分散データ管理システム、分散データ管理方法、および分散データ管理プログラム
CN104104621A (zh) * 2013-04-07 2014-10-15 中国科学院声学研究所 一种基于非线性降维的虚拟网络资源动态自适应调节方法
CN104731796A (zh) * 2013-12-19 2015-06-24 北京思博途信息技术有限公司 数据存储计算方法和系统
CN104270402A (zh) * 2014-08-25 2015-01-07 浪潮电子信息产业股份有限公司 一种异构集群存储自适应数据负载的方法
CN106970831A (zh) * 2017-05-15 2017-07-21 金航数码科技有限责任公司 一种面向云平台的虚拟机资源动态调度系统及方法
CN107066328A (zh) * 2017-05-19 2017-08-18 成都四象联创科技有限公司 大规模数据处理平台的构建方法
CN109918198A (zh) * 2019-02-18 2019-06-21 中国空间技术研究院 一种基于用户特征预测的仿真云平台负载调度系统及方法
CN109981438A (zh) * 2019-03-22 2019-07-05 大连大学 一种面向sdn和nfv协同部署框架的卫星网络负载均衡方法
CN110928878A (zh) * 2019-11-19 2020-03-27 国网通用航空有限公司 基于hdfs的点云数据处理方法及装置
CN113762310A (zh) * 2021-01-26 2021-12-07 北京京东乾石科技有限公司 一种点云数据分类方法、装置、计算机存储介质及系统
CN113946436A (zh) * 2021-07-29 2022-01-18 西北大学 一种基于负载均衡的资源预调度方法
CN114443284A (zh) * 2021-12-29 2022-05-06 苏州浪潮智能科技有限公司 一种集群资源负载均衡方法、装置、电子设备和介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116074324A (zh) * 2023-03-30 2023-05-05 清华大学 一种供水管网独立计量分区系统及方法

Also Published As

Publication number Publication date
CN115617279B (zh) 2023-03-31

Similar Documents

Publication Publication Date Title
WO2018171412A1 (zh) 一种行人检索方法及装置
CN107528904B (zh) 用于数据分布式异常检测的方法与设备
US11100073B2 (en) Method and system for data assignment in a distributed system
CN108446692A (zh) 人脸比对方法、装置和系统
CN113094746B (zh) 基于本地化差分隐私的高维数据发布方法及相关设备
TWI805476B (zh) 用於領域特定類神經網路刪減之系統及方法
CN115617279A (zh) 分布式云数据的处理方法、装置及存储介质
CN108805174A (zh) 聚类方法及装置
US10614034B2 (en) Crowd sourced data sampling at the crowd
CN111062431A (zh) 图像聚类方法、图像聚类装置、电子设备及存储介质
JP7192645B2 (ja) 情報処理装置、分散処理システム及び分散処理プログラム
US10938783B2 (en) Cluster-based determination of signatures for detection of anomalous data traffic
CN110110736A (zh) 增量聚类方法和装置
Yan et al. Automatic virtual network embedding based on deep reinforcement learning
CN113362090A (zh) 一种用户行为数据处理方法和装置
Luo et al. Partial bundle adjustment for accurate three‐dimensional reconstruction
CN114500290A (zh) 云平台网关节点探测拓扑生成的方法、装置、设备及介质
CN113873025A (zh) 数据处理方法及装置、存储介质及电子设备
Muhuri et al. An edge contribution-based approach to identify influential nodes from online social networks
CN113656046A (zh) 一种应用部署方法和装置
CN108156011B (zh) 一种进行无线接入点聚类的方法与设备
Zehnalova et al. Local representativeness in vector data
CN117370471B (zh) 基于修剪平均的全局预测方法、装置、设备及存储介质
CN109256774A (zh) 一种基于电压等级的电网子图划分方法及装置
CN116304253B (zh) 数据存储方法、数据检索方法和识别相似视频的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant