CN111475305B - 一种基于云平台多线程的大数据处理方法及系统 - Google Patents

一种基于云平台多线程的大数据处理方法及系统 Download PDF

Info

Publication number
CN111475305B
CN111475305B CN202010371110.4A CN202010371110A CN111475305B CN 111475305 B CN111475305 B CN 111475305B CN 202010371110 A CN202010371110 A CN 202010371110A CN 111475305 B CN111475305 B CN 111475305B
Authority
CN
China
Prior art keywords
fragmentation
parameter information
data
data group
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010371110.4A
Other languages
English (en)
Other versions
CN111475305A (zh
Inventor
梁成敏
梁燕露
杨乐忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Smart Co., Ltd. (Beijing) Technology Co., Ltd
Original Assignee
Smart Co Ltd Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Smart Co Ltd Beijing Technology Co Ltd filed Critical Smart Co Ltd Beijing Technology Co Ltd
Priority to CN202010371110.4A priority Critical patent/CN111475305B/zh
Publication of CN111475305A publication Critical patent/CN111475305A/zh
Application granted granted Critical
Publication of CN111475305B publication Critical patent/CN111475305B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5017Task decomposition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5018Thread allocation

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及云平台大数据处理技术领域,涉及一种基于云平台多线程的大数据处理方法及系统。具体地,该数据处理系统中的管理节点接收数据包后,由管理节点对该数据包进行切片处理,从而获得多个分片数据组以及为每个分片数据组配置对应的数据表处理策略;然后由管理节点确定出目标数值后,启用与目标数值对应的多个目标线程,并为每一目标线程分配至少一个对应的分片数据组,从而使每一目标线程能够接收各自对应的分片数据组,并按照该对应的分片数据组相对应的数据表处理策略,对该对应的分片数据组进行处理,相比于现有技术,能够避免不同的数据间相互干扰渗透,提高了数据的可靠性。

Description

一种基于云平台多线程的大数据处理方法及系统
技术领域
本发明涉及云平台大数据处理技术领域,具体而言,涉及一种基于云平台多线程的大数据处理方法及系统。
背景技术
在例如工业企业中,由于涉及到的工业数据较多,数据的来源多种多样,从而使得在利用统一的数据处理系统对所有的数据进行处理时,可能会存在不同的数据相互渗透,而使得数据被污染,导致数据的可靠性降低。
发明内容
本申请的目的在于提供一种基于云平台多线程的大数据处理方法及系统,能够避免不同的数据间相互干扰渗透,提高了数据的可靠性。
为了实现上述目的,本申请采用的技术方案如下:
第一方面,本申请提供一种基于云平台多线程的大数据处理方法,应用于数据处理系统,所述数据处理系统配置有管理节点以及多个线程;所述方法包括:
所述管理节点接收数据包;
所述管理节点对所述数据包进行切片处理,获得多个分片数据组,并为每个分片数据组配置对应的数据表处理策略;
所述管理节点根据当前可启用的线程数量以及所述多个分片数据组的数量,确定出目标数值;其中,所述目标数值表征当前需要启用的线程数量;
所述管理节点启用与所述目标数值对应的多个目标线程,并为每一所述目标线程分配至少一个对应的分片数据组;其中,每一所述目标线程均为所述多个线程中未被启用的线程;
每一所述目标线程接收各自对应的分片数据组,并按照所述对应的分片数据组相对应的数据表处理策略,对该对应的分片数据组进行处理。
可选地,作为一种可能的实现方式,所述管理节点对所述数据包进行切片处理,获得多个分片数据组的步骤,包括:
所述管理节点读取所述数据包中每一数据各自对应的设备标签、时间标签以及数据校验码;其中,所述设备标签用于标识对应数据所属的终端设备,所述时间标签用于标识对应数据的生产时间;
所述管理节点将所述数据包中具有相同数据标签的各个数据进行打包,得到多个初始分组;
所述管理节点利用当前时间标签对每一所述初始分组中包含的所有数据的时间标签进行校验,将每一所述初始分组中对应的时间标签与所述当前时间不匹配的数据进行剔除,以获得多个中间分组;
所述管理节点对每一所述中间分组中包含的所有数据的数据校验码进行聚类分析,将不属于该中间分组的数据进行剔除,以得到所述多个分片数据组。
可选地,作为一种可能的实现方式,所述管理节点为每一所述目标线程分配至少一个对应的分片数据组的步骤,包括:
所述管理节点按照配置的顺序策略,获得每一所述分片数据组的初始顺序参数;其中,所述配置的顺序策略记录有多个设备标签各自对应的顺序参数;
所述管理节点根据每一所述分片数据组各自包含的数量大小,对每一所述分片数据组各自的初始顺序参数进行更新,得到每一所述分片数据组各自的中间顺序参数;
所述管理节点统计每一所述分片数据组各自包含的所有数据的时间标签,得到每一所述分片数据组各自对应的平均时间参数,并根据每一所述分片数据组各自对应的平均时间参数,生成每一所述分片数据组各自对应的时间顺序参数;
所述管理节点对每一所述分片数据组各自对应的中间顺序参数以及时间顺序参数进行加权求和,生成每一所述分片数据组各自对应的优先级参数;其中,每一所述优先级参数用于表征对应分片数据组的优先级顺序;
所述管理节点按照每一所述分片数据组各自对应的优先级参数,依次将优先级顺序靠前的分片数据组分配一对应的目标线程,并将剩余未分配的分片数据组加入至等待队列,直至存在空闲的目标线程时,将所述等待队列中的每一剩余未分配的分片数据组按照优先级顺序依次分配给空闲的目标线程。
可选地,作为一种可能的实现方式,所述管理节点根据每一所述分片数据组各自对应的平均时间参数,生成每一所述分片数据组各自对应的时间顺序参数的步骤,包括:
所述管理节点根据每一所述分片数据组各自对应的平均时间参数,按照平均时间参数的先后顺序,为每一所述分片数据组分配对应的初始时间参数;
所述管理节点对每一所述分片数据组各自所包含的所有数据进行聚类分析,得到每一所述分片数据组各自对应的数据聚合程度,并根据每一所述分片数据组各自对应的数据聚合程度,确定出每一所述分片数据组各自对应的聚合时间参数;
所述管理节点利用每一所述分片数据组各自所包含的数据的数量,确定出每一所述分片数据组各自对应的分片策略;
所述管理节点利用每一所述分片数据组各自对应的分片策略对各自所对应的聚合时间参数进行调整,并将每一所述分片数据组调整后的聚合时间参数,与对应的初始时间参数进行加权求和,得到每一所述分片数据组各自对应的时间顺序参数。
可选地,作为一种可能的实现方式,所述管理节点利用每一所述分片数据组各自所包含的数据的数量,确定出每一所述分片数据组各自对应的分片策略的步骤,包括:
所述管理节点按照每一所述分片数据组各自所包含的数据的数量,占所有所述分片数据组所包含的数据的数量之和的比例,确定出每一所述分片数据组各自对应的第一分片参数信息;
所述管理节点根据配置的调节策略以及每一所述分片数据组对应的设备标签,获得每一所述分片数据组对应的第二分片参数信息;其中,所述配置的调节策略记录有多个设备标签各自对应的第二分片参数信息;
所述管理节点将每一所述分片数据组对应的第一分片参数信息和第二分片参数信息进行处理,获得每一所述分片数据组各自对应的分片策略;
所述管理节点将每一所述分片数据组对应的第一分片参数信息和第二分片参数信息进行处理,获得每一所述分片数据组各自对应的分片策略的步骤,具体包括:
根据所述第一分片参数信息的第一参数特征向量及所述第二分片参数信息的第二参数特征向量,确定所述第一分片参数信息相对于所述第二分片参数信息的第一分片单元以及所述第二分片参数信息相对于所述第一分片参数信息的第二分片单元;
基于所述第一分片单元以及所述第一参数特征向量所表征的所述第一分片参数信息向所述第二分片参数信息关联的分片过程节点的第一分片过程参数信息,对所述第一分片参数信息中的第一分片过程节点和第一分片位置进行调整,得到第一目标分片参数信息;
基于所述第二分片单元以及所述第二参数特征向量所表征的所述第二分片参数信息向所述第一分片参数信息关联的分片过程节点的第二分片过程参数信息,对所述第二分片参数信息中的第二分片过程节点和第二分片位置进行调整,得到第二目标分片参数信息;
根据所述第一目标分片参数信息和所述第二目标分片参数信息确定所述对所述第一参数特征向量和所述第二参数特征向量进行融合的融合特征向量;其中,所述融合特征向量用于表征采用所述第一目标分片参数信息对所述第一参数特征向量进行融合的第一融合行为与采用所述第二目标分片参数信息对所述第二参数特征向量进行融合的第二融合行为相同;
在所述融合特征向量所指示的融合范围内采用所述第一目标分片参数信息确定所述第一参数特征向量的第一融合区间,并根据所述第一融合区间以及预存的所述第二分片参数信息与预先设定的其他分片参数信息之间的关联映射关系中包括的所述第二分片参数信息与所述第一分片参数信息之间的第一融合结果,得到第一分片策略,所述第一融合结果是所述第二分片参数信息作为融合对象且所述第一分片参数信息作为待融合对象对应的融合结果;
在所述融合特征向量内采用所述第二目标分片参数信息确定所述第二参数特征向量的第二融合区间,并根据所述第二融合区间以及预存的所述第一分片参数信息与预先设定的其他分片参数信息之间的关联映射关系中包括的所述第一分片参数信息与所述第二分片参数信息之间的第二融合结果,得到第二分片策略,所述第二融合结果是所述第一分片参数信息作为融合对象且所述第二分片参数信息作为待融合对象对应的融合结果;
根据所述第一分片策略和所述第二分片策略获得每一所述分片数据组各自对应的分片策略。
第二方面,本申请提供一种基于云平台多线程的大数据处理系统,该数据处理系统配置有管理节点以及多个线程;其中:
所述管理节点用于,接收数据包;
所述管理节点还用于,对所述数据包进行切片处理,获得多个分片数据组,并为每个分片数据组配置对应的数据表处理策略;
所述管理节点还用于,根据当前可启用的线程数量以及所述多个分片数据组的数量,确定出目标数值;其中,所述目标数值表征当前需要启用的线程数量;
所述管理节点还用于,启用与所述目标数值对应的多个目标线程,并为每一所述目标线程分配至少一个对应的分片数据组;其中,每一所述目标线程均为所述多个线程中未被启用的线程;
每一所述目标线程用于接收各自对应的分片数据组,并按照所述对应的分片数据组相对应的数据表处理策略,对该对应的分片数据组进行处理。
可选地,作为一种可能的实现方式,所述管理节点在对所述数据包进行切片处理,获得多个分片数据组时,具体包括:
所述管理节点读取所述数据包中每一数据各自对应的设备标签、时间标签以及数据校验码;其中,所述设备标签用于标识对应数据所属的终端设备,所述时间标签用于标识对应数据的生产时间;
所述管理节点将所述数据包中具有相同数据标签的各个数据进行打包,得到多个初始分组;
所述管理节点利用当前时间标签对每一所述初始分组中包含的所有数据的时间标签进行校验,将每一所述初始分组中对应的时间标签与所述当前时间不匹配的数据进行剔除,以获得多个中间分组;
所述管理节点对每一所述中间分组中包含的所有数据的数据校验码进行聚类分析,将不属于该中间分组的数据进行剔除,以得到所述多个分片数据组。
可选地,作为一种可能的实现方式,所述管理节点在为每一所述目标线程分配至少一个对应的分片数据组时,具体包括:
所述管理节点按照配置的顺序策略,获得每一所述分片数据组的初始顺序参数;其中,所述配置的顺序策略记录有多个设备标签各自对应的顺序参数;
所述管理节点根据每一所述分片数据组各自包含的数量大小,对每一所述分片数据组各自的初始顺序参数进行更新,得到每一所述分片数据组各自的中间顺序参数;
所述管理节点统计每一所述分片数据组各自包含的所有数据的时间标签,得到每一所述分片数据组各自对应的平均时间参数,并根据每一所述分片数据组各自对应的平均时间参数,生成每一所述分片数据组各自对应的时间顺序参数;
所述管理节点对每一所述分片数据组各自对应的中间顺序参数以及时间顺序参数进行加权求和,生成每一所述分片数据组各自对应的优先级参数;其中,每一所述优先级参数用于表征对应分片数据组的优先级顺序;
所述管理节点按照每一所述分片数据组各自对应的优先级参数,依次将优先级顺序靠前的分片数据组分配一对应的目标线程,并将剩余未分配的分片数据组加入至等待队列,直至存在空闲的目标线程时,将所述等待队列中的每一剩余未分配的分片数据组按照优先级顺序依次分配给空闲的目标线程。
可选地,作为一种可能的实现方式,所述管理节点在根据每一所述分片数据组各自对应的平均时间参数,生成每一所述分片数据组各自对应的时间顺序参数时,具体包括:
所述管理节点根据每一所述分片数据组各自对应的平均时间参数,按照平均时间参数的先后顺序,为每一所述分片数据组分配对应的初始时间参数;
所述管理节点对每一所述分片数据组各自所包含的所有数据进行聚类分析,得到每一所述分片数据组各自对应的数据聚合程度,并根据每一所述分片数据组各自对应的数据聚合程度,确定出每一所述分片数据组各自对应的聚合时间参数;
所述管理节点利用每一所述分片数据组各自所包含的数据的数量,确定出每一所述分片数据组各自对应的分片策略;
所述管理节点利用每一所述分片数据组各自对应的分片策略对各自所对应的聚合时间参数进行调整,并将每一所述分片数据组调整后的聚合时间参数,与对应的初始时间参数进行加权求和,得到每一所述分片数据组各自对应的时间顺序参数。
可选地,作为一种可能的实现方式,所述管理节点在利用每一所述分片数据组各自所包含的数据的数量,确定出每一所述分片数据组各自对应的分片策略时,具体包括:
所述管理节点按照每一所述分片数据组各自所包含的数据的数量,占所有所述分片数据组所包含的数据的数量之和的比例,确定出每一所述分片数据组各自对应的第一分片参数信息;
所述管理节点根据配置的调节策略以及每一所述分片数据组对应的设备标签,获得每一所述分片数据组对应的第二分片参数信息;其中,所述配置的调节策略记录有多个设备标签各自对应的第二分片参数信息;
所述管理节点将每一所述分片数据组对应的第一分片参数信息和第二分片参数信息进行处理,获得每一所述分片数据组各自对应的分片策略;
所述管理节点将每一所述分片数据组对应的第一分片参数信息和第二分片参数信息进行处理,获得每一所述分片数据组各自对应的分片策略的步骤,具体包括:
根据所述第一分片参数信息的第一参数特征向量及所述第二分片参数信息的第二参数特征向量,确定所述第一分片参数信息相对于所述第二分片参数信息的第一分片单元以及所述第二分片参数信息相对于所述第一分片参数信息的第二分片单元;
基于所述第一分片单元以及所述第一参数特征向量所表征的所述第一分片参数信息向所述第二分片参数信息关联的分片过程节点的第一分片过程参数信息,对所述第一分片参数信息中的第一分片过程节点和第一分片位置进行调整,得到第一目标分片参数信息;
基于所述第二分片单元以及所述第二参数特征向量所表征的所述第二分片参数信息向所述第一分片参数信息关联的分片过程节点的第二分片过程参数信息,对所述第二分片参数信息中的第二分片过程节点和第二分片位置进行调整,得到第二目标分片参数信息;
根据所述第一目标分片参数信息和所述第二目标分片参数信息确定所述对所述第一参数特征向量和所述第二参数特征向量进行融合的融合特征向量;其中,所述融合特征向量用于表征采用所述第一目标分片参数信息对所述第一参数特征向量进行融合的第一融合行为与采用所述第二目标分片参数信息对所述第二参数特征向量进行融合的第二融合行为相同;
在所述融合特征向量所指示的融合范围内采用所述第一目标分片参数信息确定所述第一参数特征向量的第一融合区间,并根据所述第一融合区间以及预存的所述第二分片参数信息与预先设定的其他分片参数信息之间的关联映射关系中包括的所述第二分片参数信息与所述第一分片参数信息之间的第一融合结果,得到第一分片策略,所述第一融合结果是所述第二分片参数信息作为融合对象且所述第一分片参数信息作为待融合对象对应的融合结果;
在所述融合特征向量内采用所述第二目标分片参数信息确定所述第二参数特征向量的第二融合区间,并根据所述第二融合区间以及预存的所述第一分片参数信息与预先设定的其他分片参数信息之间的关联映射关系中包括的所述第一分片参数信息与所述第二分片参数信息之间的第二融合结果,得到第二分片策略,所述第二融合结果是所述第一分片参数信息作为融合对象且所述第二分片参数信息作为待融合对象对应的融合结果;
根据所述第一分片策略和所述第二分片策略获得每一所述分片数据组各自对应的分片策略。
本申请提供的一种基于云平台多线程的大数据处理方法及系统,由数据处理系统中的管理节点接收数据包后,由管理节点对该数据包进行切片处理,从而获得多个分片数据组以及为每个分片数据组配置对应的数据表处理策略;然后由管理节点确定出目标数值后,启用与目标数值对应的多个目标线程,并为每一目标线程分配至少一个对应的分片数据组,从而使每一目标线程能够接收各自对应的分片数据组,并按照该对应的分片数据组相对应的数据表处理策略,对该对应的分片数据组进行处理,相比于现有技术,能够避免不同的数据间相互干扰渗透,提高了数据的可靠性。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。
图1示出本申请提供的基于云平台多线程的大数据处理方法的一种示意性流程框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请的一些实施例中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请选定的一些实施例。基于本申请中的一部分实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,图1示出本申请提供的基于云平台多线程的大数据处理方法的一种示意性流程框图,该数据处理方法可以应用于一数据处理系统(图未示),该数据处理系统配置有管理节点以及多个线程;其中,示例性地,该数据处理方法可以包括以下步骤:
步骤201,管理节点接收数据包;
步骤203,管理节点对数据包进行切片处理,获得多个分片数据组,并为每个分片数据组配置对应的数据表处理策略;
步骤205,管理节点根据当前可启用的线程数量以及多个分片数据组的数量,确定出目标数值;
步骤207,管理节点启用与目标数值对应的多个目标线程,并为每一目标线程分配至少一个对应的分片数据组;
步骤209,每一目标线程接收各自对应的分片数据组,并按照对应的分片数据组相对应的数据表处理策略,对该对应的分片数据组进行处理。
在一实施例中,该数据处理系统在对数据进行维护时,可以设置一中间转发节点,该中间转发节点负责与每一终端设备建立通信,并接收所有终端设备各自发送的数据后,按照一定的周期,将所有接收的数据进行压缩打包为一数据包,然后将该数据包发送给管理节点。
然后,管理节点在接收到该数据包后,可以对该数据包进行解压,并对数据包进行切片处理,获得多个分片数据组,并为每个分片数据组配置对应的数据表处理策略。
比如,作为一种可能的实现方式,该数据包中的每一数据均可以包含有是设备标签、时间标签以及数据校验码,该设备标签可以用于标识对应数据所属的终端设备,该时间标签可以用于标识对应数据的生产时间。
如此,管理节点在对所述数据包进行切片处理,获得多个分片数据组时,可以先读取该数据包中每一数据各自对应的设备标签、时间标签以及数据校验码,并将该数据包中具有相同数据标签的各个数据进行打包,得到多个初始分组。也就是说,控制节点可以先按照每一数据各自所属的不同终端设备进行初始分组,从而将产生于同一终端设备的数据归为一个分组,使得将数据包中的所有数据进行分组完成后,得到多个初始分组。
接下来,管理节点可以利用当前时间标签对每一初始分组中包含的所有数据的时间标签进行校验,将每一初始分组中对应的时间标签与当前时间不匹配的数据进行剔除,以获得多个中间分组;比如,管理节点可以以当前时刻的日期(具体到天即可)作为当前时间标签,从而以天为单位,对所有的数据进行筛选,以剔除不是当天的数据,即剔除错误的历史数据。
然后,管理节点可以对每一中间分组中包含的所有数据的数据校验码进行聚类分析,将不属于该中间分组的数据进行剔除,以得到所述多个分片数据组;其中,该数据校验码可以是终端设备在产生数据时生成,同一终端设备在产生数据时,可以按照相同的规则,生成相似的数据校验码,而不同的终端设备则由产生数据校验码的规则不同,生成的数据校验码则不具有相似性;如此,管理节点即可通过聚类分析,将中间分组中不属于同一分组的干扰数据进行剔除,从而得到分片数据组。
另外,作为一种可能的实现方式,管理节点还可以预先配置有处理策略表,该处理策略表中可以记录有多个设备标签与多个数据表处理策略的对应关系,其中,示意性地,前述的数据表处理策略可以是合并所有表项、取证处理、归一化处理等等;如此,管理节点在为每个分片数据组配置对应的数据表处理策略时,可以通过读取该处理策略表,从而为每一分片数据组配置对应的数据表处理策略。
接下来,当管理节点获得多个分片数据组后,管理节点可以根据当前剩余的物理资源,确定出当前可启用的线程数量,并结合当前可启用的线程数据以及上述的多个分片数据组的数量,确定出一目标数值,该目标数值表征当前需要启用的线程数量;比如,管理节点可以将当前可启用的线程数量与多个分片数据组的数量两者中的较小者,作为目标数值,使得管理节点最后启用的线程的数量所占用的物理资源,不超过剩余的物理资源。
于是,当管理节点确定出目标数值后,管理节点可以按照该目标数值,将为数据处理系统配置的多个线程中未被启用的线程作为目标线程,启用与该目标数值对应的多个目标线程,并为每一目标线程分配至少一个对应的分片数据组。
如此,当管理节点分配完成后,每一启用的目标线程可以接收各自对应的分片数据组,并按照该对应的分片数据组相对应的数据表处理策略,对该对应的分片数据组进行处理,从而避免了不同的数据间相互干扰渗透,提高了数据的可靠性。
其中,作为一种可能的实现方式,管理节点在为每一目标线程分配至少一个对应的分片数据组时,可以先按照配置的顺序策略,获得每一分片数据组的初始顺序参数;其中,该配置的顺序策略可以记录有多个设备标签各自对应的顺序参数。
然后,管理节点可以根据每一分片数据组各自包含的数量大小,对每一分片数据组各自的初始顺序参数进行更新,得到每一分片数据组各自的中间顺序参数;比如,管理节点可以将每一分片数据组各自包括的数量占所有分片数据组包含的数量总和的比值作为分片参数信息,乘以每一分片数据组的初始顺序参数,从而得到每一分片数据组各自的中间顺序参数。
接下来,管理节点可以统计每一分片数据组各自包含的所有数据的时间标签,得到每一分片数据组各自对应的平均时间参数,并根据每一分片数据组各自对应的平均时间参数,生成每一分片数据组各自对应的时间顺序参数。
接下来,管理节点可以对每一分片数据组各自对应的中间顺序参数以及时间顺序参数进行加权求和,生成每一分片数据组各自对应的优先级参数;其中,每一优先级参数用于表征对应分片数据组的优先级顺序;比如,可以预先为中间顺序参数和时间顺序参数设置对应的加权参数,从而使管理节点可以利用中间顺序参数和时间顺序参数设置对应的加权参数,对求得的中间顺序参数和时间顺序参数进行加权求和。
最后,管理节点可以按照每一分片数据组各自对应的优先级参数,依次将优先级顺序靠前的分片数据组分配一对应的目标线程,并将剩余未分配的分片数据组加入至等待队列,直至在先分配的分片数据组处理完成后,存在空闲的目标线程时,管理节点再将等待队列中的每一剩余未分配的分片数据组按照优先级顺序依次分配给空闲的目标线程,直至所有的分片数据组均被处理。
另外,作为另一种可能的实现方式,管理节点在根据每一分片数据组各自对应的平均时间参数,生成每一分片数据组各自对应的时间顺序参数时,可以先根据每一分片数据组各自对应的平均时间参数,按照平均时间参数的先后顺序,为每一分片数据组分配对应的初始时间参数。
比如,管理节点可以根据每一分片数据组包含的所有数据各自的生产时间,进行求和平均,从而得到每一分片数据组各自对应平均生产时间作为平均时间参数;然后,管理节点可以按照每一平均时间参数的先后排序,分别赋值1、2、3、···作为每一分片数据组对应的初始时间参数。
然后,管理节点可以对每一分片数据组各自所包含的所有数据进行聚类分析,得到每一分片数据组各自对应的数据聚合程度,并根据每一分片数据组各自对应的数据聚合程度,确定出每一分片数据组各自对应的聚合时间参数。
比如,参照上述获得初始时间参数的方式,管理节点在对每一分片数据组进行聚类分析后,可以将每一分片数据组中属于同一类的数据占对应分片数据组包含的数据总量的比例,作为每一分片数据组各自对应的数据聚合程度;然后,管理节点可以按照每一分片数据组各自对应的数据聚合程度的大小进行排序,并按照从小到大的顺序,依次赋值1、2、3、···作为每一分片数据组对应的聚合时间参数。
接下来,管理节点可以利用每一分片数据组各自所包含的数据的数量,确定出每一分片数据组各自对应的分片策略。
如此,管理节点可以利用每一分片数据组各自对应的分片策略对各自所对应的聚合时间参数进行调整,并将每一分片数据组调整后的聚合时间参数,与对应的初始时间参数进行加权求和,从而得到每一分片数据组各自对应的时间顺序参数。
比如,管理节点可以利用每一分片数据组各自对应的分片策略,乘以各自所对应的聚合时间参数,从而对聚合时间参数进行调整;并利用预先为聚合时间参数和初始时间参数配置的加权参数,对每一分片数据组调整后的聚合时间参数和对应的初始时间参数进行加权求和,从而得到每一分片数据组各自对应的时间顺序参数,从而使得到的时间顺序参数更加精准可靠。
另外,作为一种可能的实现方式,管理节点在利用每一分片数据组各自所包含的数据的数量,确定出每一分片数据组各自对应的分片策略时,可以先按照每一分片数据组各自所包含的数据的数量,占所有分片数据组所包含的数据的数量之和的比例,确定出每一分片数据组各自对应的第一分片参数信息。
然后,管理节点可以根据配置的调节策略以及每一分片数据组对应的设备标签,获得每一分片数据组对应的第二分片参数信息;其中,该配置的调节策略记录有多个设备标签各自对应的第二分片参数信息。
接下来,管理节点可以将每一分片数据组对应的第一分片参数信息和第二分片参数信息进行处理,以获得每一分片数据组各自对应的分片策略。
其中,作为一种可能的实现方式,管理节点将每一分片数据组对应的第一分片参数信息和第二分片参数信息进行处理,获得每一分片数据组各自对应的分片策略的步骤,具体可以包括:
根据第一分片参数信息的第一参数特征向量及第二分片参数信息的第二参数特征向量,确定第一分片参数信息相对于第二分片参数信息的第一分片单元以及第二分片参数信息相对于第一分片参数信息的第二分片单元。
基于第一分片单元以及第一参数特征向量所表征的第一分片参数信息向第二分片参数信息关联的分片过程节点的第一分片过程参数信息,对第一分片参数信息中的第一分片过程节点和第一分片位置进行调整,得到第一目标分片参数信息。
基于第二分片单元以及第二参数特征向量所表征的第二分片参数信息向第一分片参数信息关联的分片过程节点的第二分片过程参数信息,对第二分片参数信息中的第二分片过程节点和第二分片位置进行调整,得到第二目标分片参数信息。
根据第一目标分片参数信息和第二目标分片参数信息确定对第一参数特征向量和第二参数特征向量进行融合的融合特征向量。其中,融合特征向量用于表征采用第一目标分片参数信息对第一参数特征向量进行融合的第一融合行为与采用第二目标分片参数信息对第二参数特征向量进行融合的第二融合行为相同。
在融合特征向量所指示的融合范围内采用第一目标分片参数信息确定第一参数特征向量的第一融合区间,并根据第一融合区间以及预存的第二分片参数信息与预先设定的其他分片参数信息之间的关联映射关系中包括的第二分片参数信息与第一分片参数信息之间的第一融合结果,得到第一分片策略,第一融合结果是第二分片参数信息作为融合对象且第一分片参数信息作为待融合对象对应的融合结果。
在融合特征向量内采用第二目标分片参数信息确定第二参数特征向量的第二融合区间,并根据第二融合区间以及预存的第一分片参数信息与预先设定的其他分片参数信息之间的关联映射关系中包括的第一分片参数信息与第二分片参数信息之间的第二融合结果,得到第二分片策略,第二融合结果是第一分片参数信息作为融合对象且第二分片参数信息作为待融合对象对应的融合结果。
根据第一分片策略和第二分片策略获得每一分片数据组各自对应的分片策略。
另外,基于与本申请提供的上述基于云平台多线程的大数据处理方法相同的发明构思,本申请还提供一针基于云平台多线程的大数据处理系统(图未示),该数据处理系统配置有管理节点以及多个线程;其中:
管理节点用于,接收数据包;
管理节点还用于,对数据包进行切片处理,获得多个分片数据组,并为每个分片数据组配置对应的数据表处理策略;
管理节点还用于,根据当前可启用的线程数量以及多个分片数据组的数量,确定出目标数值;其中,目标数值表征当前需要启用的线程数量;
管理节点还用于,启用与目标数值对应的多个目标线程,并为每一目标线程分配至少一个对应的分片数据组;其中,每一目标线程均为多个线程中未被启用的线程;
每一目标线程用于接收各自对应的分片数据组,并按照对应的分片数据组相对应的数据表处理策略,对该对应的分片数据组进行处理。
可选地,作为一种可能的实现方式,管理节点在对数据包进行切片处理,获得多个分片数据组时,具体包括:
管理节点读取数据包中每一数据各自对应的设备标签、时间标签以及数据校验码;其中,设备标签用于标识对应数据所属的终端设备,时间标签用于标识对应数据的生产时间;
管理节点将数据包中具有相同数据标签的各个数据进行打包,得到多个初始分组;
管理节点利用当前时间标签对每一初始分组中包含的所有数据的时间标签进行校验,将每一初始分组中对应的时间标签与当前时间不匹配的数据进行剔除,以获得多个中间分组;
管理节点对每一中间分组中包含的所有数据的数据校验码进行聚类分析,将不属于该中间分组的数据进行剔除,以得到多个分片数据组。
可选地,作为一种可能的实现方式,管理节点在为每一目标线程分配至少一个对应的分片数据组时,具体包括:
管理节点按照配置的顺序策略,获得每一分片数据组的初始顺序参数;其中,配置的顺序策略记录有多个设备标签各自对应的顺序参数;
管理节点根据每一分片数据组各自包含的数量大小,对每一分片数据组各自的初始顺序参数进行更新,得到每一分片数据组各自的中间顺序参数;
管理节点统计每一分片数据组各自包含的所有数据的时间标签,得到每一分片数据组各自对应的平均时间参数,并根据每一分片数据组各自对应的平均时间参数,生成每一分片数据组各自对应的时间顺序参数;
管理节点对每一分片数据组各自对应的中间顺序参数以及时间顺序参数进行加权求和,生成每一分片数据组各自对应的优先级参数;其中,每一优先级参数用于表征对应分片数据组的优先级顺序;
管理节点按照每一分片数据组各自对应的优先级参数,依次将优先级顺序靠前的分片数据组分配一对应的目标线程,并将剩余未分配的分片数据组加入至等待队列,直至存在空闲的目标线程时,将等待队列中的每一剩余未分配的分片数据组按照优先级顺序依次分配给空闲的目标线程。
可选地,作为一种可能的实现方式,管理节点在根据每一分片数据组各自对应的平均时间参数,生成每一分片数据组各自对应的时间顺序参数时,具体包括:
管理节点根据每一分片数据组各自对应的平均时间参数,按照平均时间参数的先后顺序,为每一分片数据组分配对应的初始时间参数;
管理节点对每一分片数据组各自所包含的所有数据进行聚类分析,得到每一分片数据组各自对应的数据聚合程度,并根据每一分片数据组各自对应的数据聚合程度,确定出每一分片数据组各自对应的聚合时间参数;
管理节点利用每一分片数据组各自所包含的数据的数量,确定出每一分片数据组各自对应的分片策略;
管理节点利用每一分片数据组各自对应的分片策略对各自所对应的聚合时间参数进行调整,并将每一分片数据组调整后的聚合时间参数,与对应的初始时间参数进行加权求和,得到每一分片数据组各自对应的时间顺序参数。
可选地,作为一种可能的实现方式,管理节点在利用每一分片数据组各自所包含的数据的数量,确定出每一分片数据组各自对应的分片策略时,具体包括:
管理节点按照每一分片数据组各自所包含的数据的数量,占所有分片数据组所包含的数据的数量之和的比例,确定出每一分片数据组各自对应的第一分片参数信息;
管理节点根据配置的调节策略以及每一分片数据组对应的设备标签,获得每一分片数据组对应的第二分片参数信息;其中,配置的调节策略记录有多个设备标签各自对应的第二分片参数信息;
管理节点将每一分片数据组对应的第一分片参数信息和第二分片参数信息进行处理,获得每一分片数据组各自对应的分片策略。
其中,作为一种可能的实现方式,管理节点将每一分片数据组对应的第一分片参数信息和第二分片参数信息进行处理,获得每一分片数据组各自对应的分片策略的步骤,具体可以包括:
根据第一分片参数信息的第一参数特征向量及第二分片参数信息的第二参数特征向量,确定第一分片参数信息相对于第二分片参数信息的第一分片单元以及第二分片参数信息相对于第一分片参数信息的第二分片单元。
基于第一分片单元以及第一参数特征向量所表征的第一分片参数信息向第二分片参数信息关联的分片过程节点的第一分片过程参数信息,对第一分片参数信息中的第一分片过程节点和第一分片位置进行调整,得到第一目标分片参数信息。
基于第二分片单元以及第二参数特征向量所表征的第二分片参数信息向第一分片参数信息关联的分片过程节点的第二分片过程参数信息,对第二分片参数信息中的第二分片过程节点和第二分片位置进行调整,得到第二目标分片参数信息。
根据第一目标分片参数信息和第二目标分片参数信息确定对第一参数特征向量和第二参数特征向量进行融合的融合特征向量。其中,融合特征向量用于表征采用第一目标分片参数信息对第一参数特征向量进行融合的第一融合行为与采用第二目标分片参数信息对第二参数特征向量进行融合的第二融合行为相同。
在融合特征向量所指示的融合范围内采用第一目标分片参数信息确定第一参数特征向量的第一融合区间,并根据第一融合区间以及预存的第二分片参数信息与预先设定的其他分片参数信息之间的关联映射关系中包括的第二分片参数信息与第一分片参数信息之间的第一融合结果,得到第一分片策略,第一融合结果是第二分片参数信息作为融合对象且第一分片参数信息作为待融合对象对应的融合结果。
在融合特征向量内采用第二目标分片参数信息确定第二参数特征向量的第二融合区间,并根据第二融合区间以及预存的第一分片参数信息与预先设定的其他分片参数信息之间的关联映射关系中包括的第一分片参数信息与第二分片参数信息之间的第二融合结果,得到第二分片策略,第二融合结果是第一分片参数信息作为融合对象且第二分片参数信息作为待融合对象对应的融合结果。
根据第一分片策略和第二分片策略获得每一分片数据组各自对应的分片策略。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的一些实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。
也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。
也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请的一些实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请的一些实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的部分实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (6)

1.一种基于云平台多线程的大数据处理方法,其特征在于,应用于数据处理系统,所述数据处理系统配置有管理节点以及多个线程;所述方法包括:
所述管理节点接收数据包;
所述管理节点对所述数据包进行切片处理,获得多个分片数据组,并为每个分片数据组配置对应的数据表处理策略;
所述管理节点根据当前可启用的线程数量以及所述多个分片数据组的数量,确定出目标数值;其中,所述目标数值表征当前需要启用的线程数量;
所述管理节点启用与所述目标数值对应的多个目标线程,并为每一所述目标线程分配至少一个对应的分片数据组;其中,每一所述目标线程均为所述多个线程中未被启用的线程;
每一所述目标线程接收各自对应的分片数据组,并按照所述对应的分片数据组相对应的数据表处理策略,对该对应的分片数据组进行处理;其中,所述管理节点对所述数据包进行切片处理,获得多个分片数据组的步骤,包括:
所述管理节点读取所述数据包中每一数据各自对应的设备标签、时间标签以及数据校验码;其中,所述设备标签用于标识对应数据所属的终端设备,所述时间标签用于标识对应数据的生产时间;
所述管理节点将所述数据包中具有相同设备标签的各个数据进行打包,得到多个初始分组;
所述管理节点利用当前时间标签对每一所述初始分组中包含的所有数据的时间标签进行校验,将每一所述初始分组中对应的时间标签与所述当前时间不匹配的数据进行剔除,以获得多个中间分组;
所述管理节点对每一所述中间分组中包含的所有数据的数据校验码进行聚类分析,将不属于该中间分组的数据进行剔除,以得到所述多个分片数据组;所述管理节点为每一所述目标线程分配至少一个对应的分片数据组的步骤,包括:
所述管理节点按照配置的顺序策略,获得每一所述分片数据组的初始顺序参数;其中,所述配置的顺序策略记录有多个设备标签各自对应的顺序参数;
所述管理节点根据每一所述分片数据组各自包含的数量大小,对每一所述分片数据组各自的初始顺序参数进行更新,得到每一所述分片数据组各自的中间顺序参数;
所述管理节点统计每一所述分片数据组各自包含的所有数据的时间标签,得到每一所述分片数据组各自对应的平均时间参数,并根据每一所述分片数据组各自对应的平均时间参数,生成每一所述分片数据组各自对应的时间顺序参数;
所述管理节点对每一所述分片数据组各自对应的中间顺序参数以及时间顺序参数进行加权求和,生成每一所述分片数据组各自对应的优先级参数;其中,每一所述优先级参数用于表征对应分片数据组的优先级顺序;
所述管理节点按照每一所述分片数据组各自对应的优先级参数,依次将优先级顺序靠前的分片数据组分配一对应的目标线程,并将剩余未分配的分片数据组加入至等待队列,直至存在空闲的目标线程时,将所述等待队列中的每一剩余未分配的分片数据组按照优先级顺序依次分配给空闲的目标线程。
2.如权利要求1所述的方法,其特征在于,所述管理节点根据每一所述分片数据组各自对应的平均时间参数,生成每一所述分片数据组各自对应的时间顺序参数的步骤,包括:
所述管理节点根据每一所述分片数据组各自对应的平均时间参数,按照平均时间参数的先后顺序,为每一所述分片数据组分配对应的初始时间参数;
所述管理节点对每一所述分片数据组各自所包含的所有数据进行聚类分析,得到每一所述分片数据组各自对应的数据聚合程度,并根据每一所述分片数据组各自对应的数据聚合程度,确定出每一所述分片数据组各自对应的聚合时间参数;
所述管理节点利用每一所述分片数据组各自所包含的数据的数量,确定出每一所述分片数据组各自对应的分片策略;
所述管理节点利用每一所述分片数据组各自对应的分片策略对各自所对应的聚合时间参数进行调整,并将每一所述分片数据组调整后的聚合时间参数,与对应的初始时间参数进行加权求和,得到每一所述分片数据组各自对应的时间顺序参数。
3.如权利要求2所述的方法,其特征在于,所述管理节点利用每一所述分片数据组各自所包含的数据的数量,确定出每一所述分片数据组各自对应的分片策略的步骤,包括:
所述管理节点按照每一所述分片数据组各自所包含的数据的数量,占所有所述分片数据组所包含的数据的数量之和的比例,确定出每一所述分片数据组各自对应的第一分片参数信息;
所述管理节点根据配置的调节策略以及每一所述分片数据组对应的设备标签,获得每一所述分片数据组对应的第二分片参数信息;其中,所述配置的调节策略记录有多个设备标签各自对应的第二分片参数信息;
所述管理节点将每一所述分片数据组对应的第一分片参数信息和第二分片参数信息进行处理,获得每一所述分片数据组各自对应的分片策略;
其中,所述管理节点将每一所述分片数据组对应的第一分片参数信息和第二分片参数信息进行处理,获得每一所述分片数据组各自对应的分片策略的步骤,具体包括:
根据所述第一分片参数信息的第一参数特征向量及所述第二分片参数信息的第二参数特征向量,确定所述第一分片参数信息相对于所述第二分片参数信息的第一分片单元以及所述第二分片参数信息相对于所述第一分片参数信息的第二分片单元;
基于所述第一分片单元以及所述第一参数特征向量所表征的所述第一分片参数信息向所述第二分片参数信息关联的分片过程节点的第一分片过程参数信息,对所述第一分片参数信息中的第一分片过程节点和第一分片位置进行调整,得到第一目标分片参数信息;
基于所述第二分片单元以及所述第二参数特征向量所表征的所述第二分片参数信息向所述第一分片参数信息关联的分片过程节点的第二分片过程参数信息,对所述第二分片参数信息中的第二分片过程节点和第二分片位置进行调整,得到第二目标分片参数信息;
根据所述第一目标分片参数信息和所述第二目标分片参数信息确定对所述第一参数特征向量和所述第二参数特征向量进行融合的融合特征向量;其中,所述融合特征向量用于表征采用所述第一目标分片参数信息对所述第一参数特征向量进行融合的第一融合行为与采用所述第二目标分片参数信息对所述第二参数特征向量进行融合的第二融合行为相同;
在所述融合特征向量所指示的融合范围内采用所述第一目标分片参数信息确定所述第一参数特征向量的第一融合区间,并根据所述第一融合区间以及预存的所述第二分片参数信息与预先设定的其他分片参数信息之间的关联映射关系中包括的所述第二分片参数信息与所述第一分片参数信息之间的第一融合结果,得到第一分片策略,所述第一融合结果是所述第二分片参数信息作为融合对象且所述第一分片参数信息作为待融合对象对应的融合结果;
在所述融合特征向量内采用所述第二目标分片参数信息确定所述第二参数特征向量的第二融合区间,并根据所述第二融合区间以及预存的所述第一分片参数信息与预先设定的其他分片参数信息之间的关联映射关系中包括的所述第一分片参数信息与所述第二分片参数信息之间的第二融合结果,得到第二分片策略,所述第二融合结果是所述第一分片参数信息作为融合对象且所述第二分片参数信息作为待融合对象对应的融合结果;
根据所述第一分片策略和所述第二分片策略获得每一所述分片数据组各自对应的分片策略。
4.一种基于云平台多线程的大数据处理系统,其特征在于,该数据处理系统配置有管理节点以及多个线程;其中:
所述管理节点用于,接收数据包;
所述管理节点还用于,对所述数据包进行切片处理,获得多个分片数据组,并为每个分片数据组配置对应的数据表处理策略;
所述管理节点还用于,根据当前可启用的线程数量以及所述多个分片数据组的数量,确定出目标数值;其中,所述目标数值表征当前需要启用的线程数量;
所述管理节点还用于,启用与所述目标数值对应的多个目标线程,并为每一所述目标线程分配至少一个对应的分片数据组;其中,每一所述目标线程均为所述多个线程中未被启用的线程;
每一所述目标线程用于接收各自对应的分片数据组,并按照所述对应的分片数据组相对应的数据表处理策略,对该对应的分片数据组进行处理;所述管理节点在对所述数据包进行切片处理,获得多个分片数据组时,具体包括:
所述管理节点读取所述数据包中每一数据各自对应的设备标签、时间标签以及数据校验码;其中,所述设备标签用于标识对应数据所属的终端设备,所述时间标签用于标识对应数据的生产时间;
所述管理节点将所述数据包中具有相同设备标签的各个数据进行打包,得到多个初始分组;
所述管理节点利用当前时间标签对每一所述初始分组中包含的所有数据的时间标签进行校验,将每一所述初始分组中对应的时间标签与所述当前时间不匹配的数据进行剔除,以获得多个中间分组;
所述管理节点对每一所述中间分组中包含的所有数据的数据校验码进行聚类分析,将不属于该中间分组的数据进行剔除,以得到所述多个分片数据组;所述管理节点在为每一所述目标线程分配至少一个对应的分片数据组时,具体包括:
所述管理节点按照配置的顺序策略,获得每一所述分片数据组的初始顺序参数;其中,所述配置的顺序策略记录有多个设备标签各自对应的顺序参数;
所述管理节点根据每一所述分片数据组各自包含的数量大小,对每一所述分片数据组各自的初始顺序参数进行更新,得到每一所述分片数据组各自的中间顺序参数;
所述管理节点统计每一所述分片数据组各自包含的所有数据的时间标签,得到每一所述分片数据组各自对应的平均时间参数,并根据每一所述分片数据组各自对应的平均时间参数,生成每一所述分片数据组各自对应的时间顺序参数;
所述管理节点对每一所述分片数据组各自对应的中间顺序参数以及时间顺序参数进行加权求和,生成每一所述分片数据组各自对应的优先级参数;其中,每一所述优先级参数用于表征对应分片数据组的优先级顺序;
所述管理节点按照每一所述分片数据组各自对应的优先级参数,依次将优先级顺序靠前的分片数据组分配一对应的目标线程,并将剩余未分配的分片数据组加入至等待队列,直至存在空闲的目标线程时,将所述等待队列中的每一剩余未分配的分片数据组按照优先级顺序依次分配给空闲的目标线程。
5.如权利要求4所述的系统,其特征在于,所述管理节点在根据每一所述分片数据组各自对应的平均时间参数,生成每一所述分片数据组各自对应的时间顺序参数时,具体包括:
所述管理节点根据每一所述分片数据组各自对应的平均时间参数,按照平均时间参数的先后顺序,为每一所述分片数据组分配对应的初始时间参数;
所述管理节点对每一所述分片数据组各自所包含的所有数据进行聚类分析,得到每一所述分片数据组各自对应的数据聚合程度,并根据每一所述分片数据组各自对应的数据聚合程度,确定出每一所述分片数据组各自对应的聚合时间参数;
所述管理节点利用每一所述分片数据组各自所包含的数据的数量,确定出每一所述分片数据组各自对应的分片策略;
所述管理节点利用每一所述分片数据组各自对应的分片策略对各自所对应的聚合时间参数进行调整,并将每一所述分片数据组调整后的聚合时间参数,与对应的初始时间参数进行加权求和,得到每一所述分片数据组各自对应的时间顺序参数。
6.如权利要求5所述的系统,其特征在于,所述管理节点在利用每一所述分片数据组各自所包含的数据的数量,确定出每一所述分片数据组各自对应的分片策略时,具体包括:
所述管理节点按照每一所述分片数据组各自所包含的数据的数量,占所有所述分片数据组所包含的数据的数量之和的比例,确定出每一所述分片数据组各自对应的第一分片参数信息;
所述管理节点根据配置的调节策略以及每一所述分片数据组对应的设备标签,获得每一所述分片数据组对应的第二分片参数信息;其中,所述配置的调节策略记录有多个设备标签各自对应的第二分片参数信息;
所述管理节点将每一所述分片数据组对应的第一分片参数信息和第二分片参数信息进行处理,获得每一所述分片数据组各自对应的分片策略;
其中,所述管理节点将每一所述分片数据组对应的第一分片参数信息和第二分片参数信息进行处理,获得每一所述分片数据组各自对应的分片策略,具体根据所述第一分片参数信息的第一参数特征向量及所述第二分片参数信息的第二参数特征向量,确定所述第一分片参数信息相对于所述第二分片参数信息的第一分片单元以及所述第二分片参数信息相对于所述第一分片参数信息的第二分片单元;
基于所述第一分片单元以及所述第一参数特征向量所表征的所述第一分片参数信息向所述第二分片参数信息关联的分片过程节点的第一分片过程参数信息,对所述第一分片参数信息中的第一分片过程节点和第一分片位置进行调整,得到第一目标分片参数信息;
基于所述第二分片单元以及所述第二参数特征向量所表征的所述第二分片参数信息向所述第一分片参数信息关联的分片过程节点的第二分片过程参数信息,对所述第二分片参数信息中的第二分片过程节点和第二分片位置进行调整,得到第二目标分片参数信息;
根据所述第一目标分片参数信息和所述第二目标分片参数信息确定对所述第一参数特征向量和所述第二参数特征向量进行融合的融合特征向量;其中,所述融合特征向量用于表征采用所述第一目标分片参数信息对所述第一参数特征向量进行融合的第一融合行为与采用所述第二目标分片参数信息对所述第二参数特征向量进行融合的第二融合行为相同;
在所述融合特征向量所指示的融合范围内采用所述第一目标分片参数信息确定所述第一参数特征向量的第一融合区间,并根据所述第一融合区间以及预存的所述第二分片参数信息与预先设定的其他分片参数信息之间的关联映射关系中包括的所述第二分片参数信息与所述第一分片参数信息之间的第一融合结果,得到第一分片策略,所述第一融合结果是所述第二分片参数信息作为融合对象且所述第一分片参数信息作为待融合对象对应的融合结果;
在所述融合特征向量内采用所述第二目标分片参数信息确定所述第二参数特征向量的第二融合区间,并根据所述第二融合区间以及预存的所述第一分片参数信息与预先设定的其他分片参数信息之间的关联映射关系中包括的所述第一分片参数信息与所述第二分片参数信息之间的第二融合结果,得到第二分片策略,所述第二融合结果是所述第一分片参数信息作为融合对象且所述第二分片参数信息作为待融合对象对应的融合结果;
根据所述第一分片策略和所述第二分片策略获得每一所述分片数据组各自对应的分片策略。
CN202010371110.4A 2020-05-06 2020-05-06 一种基于云平台多线程的大数据处理方法及系统 Active CN111475305B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010371110.4A CN111475305B (zh) 2020-05-06 2020-05-06 一种基于云平台多线程的大数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010371110.4A CN111475305B (zh) 2020-05-06 2020-05-06 一种基于云平台多线程的大数据处理方法及系统

Publications (2)

Publication Number Publication Date
CN111475305A CN111475305A (zh) 2020-07-31
CN111475305B true CN111475305B (zh) 2020-11-17

Family

ID=71757242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010371110.4A Active CN111475305B (zh) 2020-05-06 2020-05-06 一种基于云平台多线程的大数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN111475305B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732700B (zh) * 2021-01-25 2023-03-14 中冶赛迪信息技术(重庆)有限公司 一种轧钢生产数据切片方法、系统、介质及电子终端

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699495A (zh) * 2013-12-27 2014-04-02 乐视网信息技术(北京)股份有限公司 数据切分的传输装置与系统
CN105700938A (zh) * 2016-01-15 2016-06-22 浪潮通用软件有限公司 一种多线程处理数据的方法及装置
US10069766B2 (en) * 2015-07-07 2018-09-04 TransferSoft, Inc. Accelerated data transfer using thread pool for parallel operations
CN109753354A (zh) * 2018-11-26 2019-05-14 平安科技(深圳)有限公司 基于多线程的流媒体任务的处理方法、装置及计算机设备
CN110719228A (zh) * 2019-08-27 2020-01-21 中国船舶重工集团公司第七0九研究所 基于实时数据分发服务的大数据包传输方法及装置
CN110716813A (zh) * 2019-09-17 2020-01-21 贝壳技术有限公司 数据流处理方法、装置、可读存储介质及处理器

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9298707B1 (en) * 2011-09-30 2016-03-29 Veritas Us Ip Holdings Llc Efficient data storage and retrieval for backup systems
CN110995784B (zh) * 2019-11-05 2022-05-10 北京奇艺世纪科技有限公司 数据传输方法、系统及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699495A (zh) * 2013-12-27 2014-04-02 乐视网信息技术(北京)股份有限公司 数据切分的传输装置与系统
US10069766B2 (en) * 2015-07-07 2018-09-04 TransferSoft, Inc. Accelerated data transfer using thread pool for parallel operations
CN105700938A (zh) * 2016-01-15 2016-06-22 浪潮通用软件有限公司 一种多线程处理数据的方法及装置
CN109753354A (zh) * 2018-11-26 2019-05-14 平安科技(深圳)有限公司 基于多线程的流媒体任务的处理方法、装置及计算机设备
CN110719228A (zh) * 2019-08-27 2020-01-21 中国船舶重工集团公司第七0九研究所 基于实时数据分发服务的大数据包传输方法及装置
CN110716813A (zh) * 2019-09-17 2020-01-21 贝壳技术有限公司 数据流处理方法、装置、可读存储介质及处理器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《智能传感器节点的数据处理方案设计》;周小利 等;《单片机与嵌入式系统应用》;20111231;第2011年卷(第12期);第29-32页 *

Also Published As

Publication number Publication date
CN111475305A (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
US10977256B2 (en) System for aggregation and prioritization of IT asset field values from real-time event logs and method thereof
US8543615B1 (en) Auction-based service selection
US20190042659A1 (en) Data writing and reading and apparatus and cloud storage system
US20180181911A1 (en) Data object allocation method and apparatus and electronic device
CN109669776B (zh) 检测任务的处理方法、装置和系统
CN107729135B (zh) 按序进行并行数据处理的方法和装置
US11250166B2 (en) Fingerprint-based configuration typing and classification
CN106844055B (zh) 一种任务的执行方法和装置
CN105550175A (zh) 恶意账户识别方法及装置
CN104869048A (zh) 微博数据的分组处理方法、装置及系统
CN111475305B (zh) 一种基于云平台多线程的大数据处理方法及系统
CN112367345A (zh) 数据处理方法、服务端设备及计算机可读存储介质
CN111177489A (zh) 对象数据的展示方法及系统
CN111651667A (zh) 数据推送分流控制方法、装置及计算机可读存储介质
US20160055035A1 (en) Multiple simultaneous request resource management
CN108399175B (zh) 一种数据存储、查询方法及其装置
CN106789147B (zh) 一种流量分析方法及装置
CN112860416A (zh) 标注任务分派策略方法、装置
CN110971544A (zh) 一种数据发送方法及装置
US20210064593A1 (en) Unsupervised anomaly detection
CN108259214B (zh) 一种配置命令管理方法、装置和机器可读存储介质
WO2023091215A1 (en) Mapping an application signature to designated cloud resources
CN105868220B (zh) 数据处理方法和装置
CN112817689A (zh) 对虚拟机进行分类排序的方法、装置和电子设备
CN108418848B (zh) 一种航班数据推送、处理方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20201028

Address after: Room 313-2360, 3rd floor, Shanshui building, No.3 Gulou East Street, Miyun District, Beijing

Applicant after: Smart Co., Ltd. (Beijing) Technology Co., Ltd

Address before: 510700 Room 601, No.16, Kehui 1st Street, Huangpu District, Guangzhou City, Guangdong Province

Applicant before: Zhiboyun information technology (Guangzhou) Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant