CN111708812A - 一种分布式数据处理方法 - Google Patents

一种分布式数据处理方法 Download PDF

Info

Publication number
CN111708812A
CN111708812A CN202010477369.7A CN202010477369A CN111708812A CN 111708812 A CN111708812 A CN 111708812A CN 202010477369 A CN202010477369 A CN 202010477369A CN 111708812 A CN111708812 A CN 111708812A
Authority
CN
China
Prior art keywords
data processing
target data
distributed
sub
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010477369.7A
Other languages
English (en)
Inventor
王军平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Saibo Yunrui Intelligent Technology Co ltd
Original Assignee
Beijing Saibo Yunrui Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Saibo Yunrui Intelligent Technology Co ltd filed Critical Beijing Saibo Yunrui Intelligent Technology Co ltd
Priority to CN202010477369.7A priority Critical patent/CN111708812A/zh
Publication of CN111708812A publication Critical patent/CN111708812A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分布式数据处理方法,包括:通过主控制节点获取数据处理任务,建立数据处理任务的第一排队队列;根据第一预设规则获取第一排队队列中数据处理任务的第一优先级信息;根据所述第一优先级信息按照第二预设规则选取第一目标数据处理任务;通过第一分布式节点对所述第一目标数据处理任务进行分片处理,得到多个子第一目标数据处理任务;获取多个子第一目标数据处理任务的标识信息,根据所述多个子第一目标数据处理任务的标识信息对执行所述多个子第一目标数据处理任务的第二分布式节点进行分配,得到第一分配方式。对数据处理要求高的数据处理任务进行及时处理,保证该数据处理任务的时效性及准确性,提高数据处理效率。

Description

一种分布式数据处理方法
技术领域
本发明涉及计算机技术领域,特别涉及一种分布式数据处理方法。
背景技术
分布式数据处理系统(Distributed Data Stream Management System,DDSMS)是可以对数据进行分布式处理的系统。DDSMS可以极大地缩短数据处理时间,提高响应速度,在实际生活中具有极其广泛的用途。在现有分布式数据处理系统中,在获取数据处理任务后进行无差别的处理这些数据,对一些处理要求高的数据处理任务不能及时处理,分布式数据处理效率还有待提高。
发明内容
本发明旨在至少一定程度上解决上述技术中的技术问题之一。为此,本发明的目的在于提出一种分布式数据处理方法,对数据处理要求高的数据处理任务进行及时处理,保证该数据处理任务的时效性及准确性,提高数据处理效率。
为达到上述目的,本发明实施例提出了一种分布式数据处理方法,包括:
通过主控制节点获取数据处理任务,建立数据处理任务的第一排队队列;根据第一预设规则获取第一排队队列中数据处理任务的第一优先级信息;
根据所述第一优先级信息按照第二预设规则选取第一目标数据处理任务;
通过第一分布式节点对所述第一目标数据处理任务进行分片处理,得到多个子第一目标数据处理任务;
获取多个子第一目标数据处理任务的标识信息,根据所述多个子第一目标数据处理任务的标识信息对执行所述多个子第一目标数据处理任务的第二分布式节点进行分配,得到第一分配方式。
根据本发明实施例提出了一种分布式数据处理方法,根据数据处理任务的具体处理要求,获取数据处理任务的第一优先级信息,根据第一优先级信息优先处理要求高的数据处理任务,使数据处理要求高的数据处理任务进行及时完成,保证该数据处理任务的时效性及准确性。在主控制节点根据第一优先级信息选取第一目标数据处理任务、在第一分布式节点将第一目标数据处理任务进行分片处理,得到多个子第一目标数据处理任务、按照合理的分配方式,在第二分布式节点上处理子第一目标数据处理任务,这样设置可以提高数据进行并行处理,提高数据的处理效率。
根据本发明的一些实施例,在一个第二分布式节点处理多个子第一目标数据处理任务时,创建相应数量的处理进程并行处理多个子第一目标数据处理任务。
根据本发明的一些实施例,在第二分布式节点处理子目标数据处理任务,还包括:
判断是否有新增的数据处理任务;
在确定有新增的数据处理任务时,建立数据处理任务的第二排队队列;根据第一预设规则获取第二排队队列中数据处理任务的第二优先级信息;
根据所述第二优先级信息按照第二预设规则选取第二目标数据处理任务;
通过第一分布式节点对所述第二目标数据处理任务进行分片处理,得到多个子第二目标数据处理任务;
获取多个子第二目标数据处理任务的标识信息,根据所述多个子第二目标数据处理任务的标识信息对执行所述多个子第二目标数据处理任务的第二分布式节点进行分配,得到第二分配方式。
根据本发明的一些实施例,还包括:
第一分布式节点向主控制节点发送第一心跳包;
所述主控制节点根据所述第一心跳包判断第一分布式节点在对第一目标数据处理任务进行分片处理时是否出现异常,在确定第一分布式节点在对第一目标数据处理任务进行分片处理出现异常时,将第一目标数据处理任务作为待数据处理任务,建立数据处理任务的第三排队队列。
根据本发明的一些实施例,还包括:
第二分布式节点向主控制节点发送第二心跳包;
所述主控制节点根据所述第二心跳包判断第二分布式节点在处理子第一目标数据处理任务时是否出现异常,在确定第二分布式节点在处理子第一目标数据处理任务时出现异常时,将子第一目标数据处理任务作为待数据处理任务,建立数据处理任务的第四排队队列。
根据本发明的一些实施例,获取多个子第一目标数据处理任务的处理结果并存储在分布式文件系统中,所述处理结果包括第一处理结果和第二处理结果,包括:
激活分布式文件系统的存储主节点;
基于第一处理结果的第一写入请求和第二处理结果的第二写入请求,判断第一写入请求和第二写入请求是否具有相同的写入类型;
在判断第一写入请求和第二写入请求具有相同的写入类型时,将第一写入请求和第二写入请求合并为一个写入请求,得到第一联合写入请求;
根据第一联合写入请求,将第一处理结果和第二处理结果写入存储主节点。
根据本发明的一些实施例,还包括:
获取存储主节点在运行过程中产生的元数据;
在存储主节点出现故障时,启用分布式文件系统的备用节点,备用节点在获取存储主节点在运行过程中产生的元数据后实现数据写入功能。
根据本发明的一些实施例,多个子第一目标数据处理任务的处理结果被划分为多个数据块进行存储,所述数据块包括多个副本;根据用户的查询需求进行数据块存储数据进行访问,获取对数据块副本的预估访问频率,算法包括:
计算下一周期数据块的预估访问频率:
Si+1=aSi+Si-1-aSi-1
Figure BDA0002516246320000041
其中,a为权值系数,a∈[0,1],Si为当前周期数据块的访问频率,Si-1为上一周期数据块的访问频率;m为当前周期数据块的访问次数,T为周期。
下一周期数据块副本的预估访问频率:
Figure BDA0002516246320000042
其中,k为副本数量。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是根据本发明一个实施例的一种分布式数据处理方法的流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1是根据本发明一个实施例的一种分布式数据处理方法的流程图;如图1所示,本发明实施例提出了一种分布式数据处理方法,包括步骤S1-S4:
S1、通过主控制节点获取数据处理任务,建立数据处理任务的第一排队队列;根据第一预设规则获取第一排队队列中数据处理任务的第一优先级信息;
S2、根据所述第一优先级信息按照第二预设规则选取第一目标数据处理任务;
S3、通过第一分布式节点对所述第一目标数据处理任务进行分片处理,得到多个子第一目标数据处理任务;
S4、获取多个子第一目标数据处理任务的标识信息,根据所述多个子第一目标数据处理任务的标识信息对执行所述多个子第一目标数据处理任务的第二分布式节点进行分配,得到第一分配方式。
上述技术方案的工作原理:通过主控制节点获取数据处理任务,数据类型包括:文档数据、视频数据、图像数据、音频数据、结构化数据、半结构化数据。建立数据处理任务的第一排队队列,根据第一预设规则获取第一排队队列中数据处理任务的第一优先级信息。第一预设规则包括根据数据处理任务要求完成的截止时间将数据处理任务分成高级数据处理任务、中级数据处理任务、低级数据处理任务。具体的,优先处理高级数据处理任务、次之处理中级数据处理任务,最后处理低级数据处理任务。主控制节点根据第一优先级信息按照第二预设规则选取第一目标数据处理任务,第二预设规则可以是将高级数据处理任务作为第一目标数据处理任务。通过第一分布式节点对第一目标数据处理任务进行分片处理,得到多个子第一目标数据处理任务,分片处理时划分的依据可以是根据第一目标数据处理任务的文件大小、类型、数量等。进行分片处理有利于提高数据处理的效率及数据的传输效率。获取多个子第一目标数据处理任务的标识信息,标识信息包括子第一目标数据处理任务的编号、类型等。根据所述多个子第一目标数据处理任务的标识信息对执行所述多个子第一目标数据处理任务的第二分布式节点进行分配,得到第一分配方式。
上述技术方案的有益效果:根据数据处理任务的具体处理要求,获取数据处理任务的第一优先级信息,根据第一优先级信息优先处理要求高的数据处理任务,使数据处理要求高的数据处理任务进行及时完成,保证该数据处理任务的时效性及准确性。在主控制节点根据第一优先级信息选取第一目标数据处理任务、在第一分布式节点将第一目标数据处理任务进行分片处理,得到多个子第一目标数据处理任务、按照合理的分配方式,在第二分布式节点上处理子第一目标数据处理任务,这样设置可以提高数据进行并行处理,提高数据的处理效率。
根据本发明的一些实施例,在一个第二分布式节点处理多个子第一目标数据处理任务时,创建相应数量的处理进程并行处理多个子第一目标数据处理任务。
上述技术方案的工作原理:在一个第二分布式节点分配有3个子第一目标数据处理任务时,在第二分布式节点上设置3个处理进程,并行处理子第一目标数据处理任务。
上述技术方案的有益效果:提高对数据的处理效率。
根据本发明的一些实施例,在第二分布式节点处理子目标数据处理任务,还包括:
判断是否有新增的数据处理任务;
在确定有新增的数据处理任务时,建立数据处理任务的第二排队队列;根据第一预设规则获取第二排队队列中数据处理任务的第二优先级信息;
根据所述第二优先级信息按照第二预设规则选取第二目标数据处理任务;
通过第一分布式节点对所述第二目标数据处理任务进行分片处理,得到多个子第二目标数据处理任务;
获取多个子第二目标数据处理任务的标识信息,根据所述多个子第二目标数据处理任务的标识信息对执行所述多个子第二目标数据处理任务的第二分布式节点进行分配,得到第二分配方式。
上述技术方案的工作原理:在第二分布式节点处理子目标数据处理任务,主控制节点还判断是否有新增的数据处理任务,在确定有新增数据处理任务时,建立数据处理任务的第二排队队列;根据第一预设规则获取第二排队队列中数据处理任务的第二优先级信息;根据所述第二优先级信息按照第二预设规则选取第二目标数据处理任务;通过第一分布式节点对所述第二目标数据处理任务进行分片处理,得到多个子第二目标数据处理任务;获取多个子第二目标数据处理任务的标识信息,根据多个子第二目标数据处理任务的标识信息对执行所述多个子第二目标数据处理任务的第二分布式节点进行分配,得到第二分配方式。
上述技术方案的有益效果:可以实现对数据处理任务分配的动态调整,有利于优先处理处理要求高的数据处理任务,保证及时效性及准确性。
根据本发明的一些实施例,还包括:
第一分布式节点向主控制节点发送第一心跳包;
所述主控制节点根据所述第一心跳包判断第一分布式节点在对第一目标数据处理任务进行分片处理时是否出现异常,在确定第一分布式节点在对第一目标数据处理任务进行分片处理出现异常时,将第一目标数据处理任务作为待数据处理任务,建立数据处理任务的第三排队队列。
上述技术方案的工作原理:第一心跳包中包括各第一分布式节点的状态信息,状态信息包括:第一分布式节点进行分片处理的进度信息、与主控制节点的连接信息等。主控制节点根据第一心跳包判断第一分布式节点在对第一目标数据处理任务进行分片处理时是否出现异常,在确定第一分布式节点在对第一目标数据处理任务进行分片处理出现异常时,将第一目标数据处理任务作为待数据处理任务,建立数据处理任务的第三排队队列。
上述技术方案的有益效果:将出现异常的第一分布式节点及时筛选出来,将在该第一分布式节点处理的第一目标数据处理任务及时记录及提取出现,作为待数据处理任务,重新建立数据处理任务的排队队列,进行及时处理。
根据本发明的一些实施例,还包括:
第二分布式节点向主控制节点发送第二心跳包;
所述主控制节点根据所述第二心跳包判断第二分布式节点在处理子第一目标数据处理任务时是否出现异常,在确定第二分布式节点在处理子第一目标数据处理任务时出现异常时,将子第一目标数据处理任务作为待数据处理任务,建立数据处理任务的第四排队队列。
上述技术方案的工作原理:第二心跳包中包括各第二分布式节点的状态信息,状态信息包括:第二分布式节点在处理子第一目标数据处理任务的进度信息、与主控制节点的连接信息等。主控制节点根据第二心跳包判断第二分布式节点在处理子第一目标数据处理任务时是否出现异常,在确定第二分布式节点在处理子第一目标数据处理任务时出现异常时,将子第一目标数据处理任务作为待数据处理任务,建立数据处理任务的第四排队队列。
上述技术方案的有益效果:将出现异常的第二分布式节点及时筛选出来,将在该第二分布式节点处理的子第一目标数据处理任务及时记录及提取出现,作为待数据处理任务,重新建立数据处理任务的排队队列,进行及时处理。
根据本发明的一些实施例,获取多个子第一目标数据处理任务的处理结果并存储在分布式文件系统中,所述处理结果包括第一处理结果和第二处理结果,包括:
激活分布式文件系统的存储主节点;
基于第一处理结果的第一写入请求和第二处理结果的第二写入请求,判断第一写入请求和第二写入请求是否具有相同的写入类型;
在判断第一写入请求和第二写入请求具有相同的写入类型时,将第一写入请求和第二写入请求合并为一个写入请求,得到第一联合写入请求;
根据第一联合写入请求,将第一处理结果和第二处理结果写入存储主节点。
上述技术方案的工作原理:获取多个子第一目标数据处理任务的处理结果并存储在分布式文件系统,激活分布式文件系统的存储主节点,用于实现读写功能。处理结果包括第一处理结果和第二处理结果,基于第一处理结果的第一写入请求和第二处理结果的第二写入请求,判断第一写入请求和第二写入请求是否具有相同的写入类型;在判断第一写入请求和第二写入请求具有相同的写入类型时,将第一写入请求和第二写入请求合并为一个写入请求,得到第一联合写入请求;根据第一联合写入请求,将第一处理结果和第二处理结果写入存储主节点。
上述技术方案的有益效果:将具有相同写入类型的第一写入请求和第二写入请求合并为一个写入请求,可以降低对写入请求信息的存储量,提高数据写入分布式文件存储系统的效率,实现快速存储。
根据本发明的一些实施例,还包括:
获取存储主节点在运行过程中产生的元数据;
在存储主节点出现故障时,启用分布式文件系统的备用节点,备用节点在获取存储主节点在运行过程中产生的元数据后实现数据写入功能。
上述技术方案的有益效果:冗余设计,提高了分布式文件系统的可靠性,保证存储数据的安全性与完整性。
根据本发明的一些实施例,多个子第一目标数据处理任务的处理结果被划分为多个数据块进行存储,所述数据块包括多个副本;根据用户的查询需求进行数据块存储数据进行访问,获取对数据块副本的预估访问频率,算法包括:
计算下一周期数据块的预估访问频率:
Si+1=aSi+Si-1-aSi-1
Figure BDA0002516246320000091
其中,a为权值系数,a∈[0,1],Si为当前周期数据块的访问频率,Si-1为上一周期数据块的访问频率;m为当前周期数据块的访问次数,T为周期。
下一周期数据块副本的预估访问频率:
Figure BDA0002516246320000092
其中,k为副本数量。
上述技术方案的有益效果:计算出对数据块副本的预估访问频率,对数据块副本下一周的访问情况进行预测,有利于动态调整副本数量,提高用户的访问效率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种分布式数据处理方法,其特征在于,包括:
通过主控制节点获取数据处理任务,建立数据处理任务的第一排队队列;根据第一预设规则获取第一排队队列中数据处理任务的第一优先级信息;
根据所述第一优先级信息按照第二预设规则选取第一目标数据处理任务;
通过第一分布式节点对所述第一目标数据处理任务进行分片处理,得到多个子第一目标数据处理任务;
获取多个子第一目标数据处理任务的标识信息,根据所述多个子第一目标数据处理任务的标识信息对执行所述多个子第一目标数据处理任务的第二分布式节点进行分配,得到第一分配方式。
2.如权利要求1所述的分布式数据处理方法,其特征在于,在一个第二分布式节点处理多个子第一目标数据处理任务时,创建相应数量的处理进程并行处理多个子第一目标数据处理任务。
3.如权利要求1所述的分布式数据处理方法,其特征在于,在第二分布式节点处理子目标数据处理任务,还包括:
判断是否有新增的数据处理任务;
在确定有新增的数据处理任务时,建立数据处理任务的第二排队队列;根据第一预设规则获取第二排队队列中数据处理任务的第二优先级信息;
根据所述第二优先级信息按照第二预设规则选取第二目标数据处理任务;
通过第一分布式节点对所述第二目标数据处理任务进行分片处理,得到多个子第二目标数据处理任务;
获取多个子第二目标数据处理任务的标识信息,根据所述多个子第二目标数据处理任务的标识信息对执行所述多个子第二目标数据处理任务的第二分布式节点进行分配,得到第二分配方式。
4.如权利要求1所述的分布式数据处理方法,其特征在于,还包括:
第一分布式节点向主控制节点发送第一心跳包;
所述主控制节点根据所述第一心跳包判断第一分布式节点在对第一目标数据处理任务进行分片处理时是否出现异常,在确定第一分布式节点在对第一目标数据处理任务进行分片处理出现异常时,将第一目标数据处理任务作为待数据处理任务,建立数据处理任务的第三排队队列。
5.如权利要求1所述的分布式数据处理方法,其特征在于,还包括:
第二分布式节点向主控制节点发送第二心跳包;
所述主控制节点根据所述第二心跳包判断第二分布式节点在处理子第一目标数据处理任务时是否出现异常,在确定第二分布式节点在处理子第一目标数据处理任务时出现异常时,将子第一目标数据处理任务作为待数据处理任务,建立数据处理任务的第四排队队列。
6.如权利要求1所述的分布式数据处理方法,其特征在于,获取多个子第一目标数据处理任务的处理结果并存储在分布式文件系统中,所述处理结果包括第一处理结果和第二处理结果,包括:
激活分布式文件系统的存储主节点;
基于第一处理结果的第一写入请求和第二处理结果的第二写入请求,判断第一写入请求和第二写入请求是否具有相同的写入类型;
在判断第一写入请求和第二写入请求具有相同的写入类型时,将第一写入请求和第二写入请求合并为一个写入请求,得到第一联合写入请求;
根据第一联合写入请求,将第一处理结果和第二处理结果写入存储主节点。
7.如权利要求6所述的分布式数据处理方法,其特征在于,还包括:
获取存储主节点在运行过程中产生的元数据;
在存储主节点出现故障时,启用分布式文件系统的备用节点,备用节点在获取存储主节点在运行过程中产生的元数据后实现数据写入功能。
8.如权利要求7所述的分布式数据处理方法,其特征在于,多个子第一目标数据处理任务的处理结果被划分为多个数据块进行存储,所述数据块包括多个副本;根据用户的查询需求进行数据块存储数据进行访问,获取对数据块副本的预估访问频率,算法包括:
计算下一周期数据块的预估访问频率:
Si+1=aSi+Si-1-aSi-1
Figure FDA0002516246310000031
其中,a为权值系数,a∈[0,1],Si为当前周期数据块的访问频率,Si-1为上一周期数据块的访问频率;m为当前周期数据块的访问次数,T为周期。
下一周期数据块副本的预估访问频率:
Figure FDA0002516246310000032
其中,k为副本数量。
CN202010477369.7A 2020-05-29 2020-05-29 一种分布式数据处理方法 Pending CN111708812A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010477369.7A CN111708812A (zh) 2020-05-29 2020-05-29 一种分布式数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010477369.7A CN111708812A (zh) 2020-05-29 2020-05-29 一种分布式数据处理方法

Publications (1)

Publication Number Publication Date
CN111708812A true CN111708812A (zh) 2020-09-25

Family

ID=72538362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010477369.7A Pending CN111708812A (zh) 2020-05-29 2020-05-29 一种分布式数据处理方法

Country Status (1)

Country Link
CN (1) CN111708812A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112416562A (zh) * 2020-12-11 2021-02-26 深圳市思迪信息技术股份有限公司 一种分布式任务调度引擎的方法及装置
CN113672379A (zh) * 2021-07-07 2021-11-19 四川大学锦城学院 一种基于分布式处理的数据智能分析方法
CN116991609A (zh) * 2023-09-26 2023-11-03 珠海星云智联科技有限公司 队列公平处理方法、设备以及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140122429A1 (en) * 2012-10-31 2014-05-01 International Business Machines Corporation Data processing method and apparatus for distributed systems
CN107172149A (zh) * 2017-05-16 2017-09-15 成都四象联创科技有限公司 大数据即时调度方法
CN110704536A (zh) * 2019-09-27 2020-01-17 北京迈格威科技有限公司 分布式数据处理方法、装置、系统及电子设备
CN110958154A (zh) * 2019-11-06 2020-04-03 长沙理工大学 一种基于节点热度的心跳间隔动态调整方法、装置及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140122429A1 (en) * 2012-10-31 2014-05-01 International Business Machines Corporation Data processing method and apparatus for distributed systems
CN107172149A (zh) * 2017-05-16 2017-09-15 成都四象联创科技有限公司 大数据即时调度方法
CN110704536A (zh) * 2019-09-27 2020-01-17 北京迈格威科技有限公司 分布式数据处理方法、装置、系统及电子设备
CN110958154A (zh) * 2019-11-06 2020-04-03 长沙理工大学 一种基于节点热度的心跳间隔动态调整方法、装置及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112416562A (zh) * 2020-12-11 2021-02-26 深圳市思迪信息技术股份有限公司 一种分布式任务调度引擎的方法及装置
CN112416562B (zh) * 2020-12-11 2024-06-04 深圳市思迪信息技术股份有限公司 一种分布式任务调度引擎的方法及装置
CN113672379A (zh) * 2021-07-07 2021-11-19 四川大学锦城学院 一种基于分布式处理的数据智能分析方法
CN116991609A (zh) * 2023-09-26 2023-11-03 珠海星云智联科技有限公司 队列公平处理方法、设备以及可读存储介质
CN116991609B (zh) * 2023-09-26 2024-01-16 珠海星云智联科技有限公司 队列公平处理方法、设备以及可读存储介质

Similar Documents

Publication Publication Date Title
CN111708812A (zh) 一种分布式数据处理方法
US8782649B2 (en) Real-time scheduling of task sets and determination of task sets based on verified weight, cache hit radio of the tasks and available processing cores
WO2024119763A1 (zh) 一种容器集群算力调度方法及相关装置
WO2022062833A1 (zh) 内存分配方法及相关设备
TW201734859A (zh) 資料表連接方式處理方法及裝置
US20200026427A1 (en) System and method for handling data storage on storage devices
CN106899654A (zh) 一种序列值生成方法、装置及系统
US8458710B2 (en) Scheduling jobs for execution on a computer system
CN109343859A (zh) 一种信息处理方法、装置及存储介质
CN111831408A (zh) 异步任务处理方法、装置、电子设备及介质
CN113626399B (zh) 数据同步方法、装置、服务器及存储介质
EP3264254B1 (en) System and method for a simulation of a block storage system on an object storage system
CN116301644B (zh) 基于多硬盘协调的数据存储方法、系统、终端及介质
CN107145303B (zh) 一种用于在分布式存储系统中执行文件写入的方法与设备
CN112631994A (zh) 数据迁移方法及系统
CN106528876A (zh) 分布式系统的信息处理方法及分布式信息处理系统
CN107958414B (zh) 一种清除cics系统长交易的方法及系统
CN111324668B (zh) 数据库数据同步处理方法、装置及存储介质
CN109783717B (zh) 查询任务处理方法、系统、服务器集群及装置、计算机可读存储介质
CN113608847A (zh) 任务处理方法、装置、设备及存储介质
CN114157717A (zh) 一种微服务动态限流的系统及方法
CN113986846A (zh) 数据处理方法、系统、设备及存储介质
CN110618863A (zh) 一种基于Raft算法的作业调度方法
CN116701410B (zh) 数联网数据语用内存状态数据的存储方法及系统
CN112346667B (zh) 一种ceph存储osd读均衡方法及其系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200925