CN114780253A - 一种大数据智能分析系统 - Google Patents

一种大数据智能分析系统 Download PDF

Info

Publication number
CN114780253A
CN114780253A CN202210675105.1A CN202210675105A CN114780253A CN 114780253 A CN114780253 A CN 114780253A CN 202210675105 A CN202210675105 A CN 202210675105A CN 114780253 A CN114780253 A CN 114780253A
Authority
CN
China
Prior art keywords
data processing
task
data
processing task
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210675105.1A
Other languages
English (en)
Other versions
CN114780253B (zh
Inventor
林立磐
彭子非
潘仲毅
刘智国
李伟
陈朝晖
严伟雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Information & Engineering Co ltd
Original Assignee
Guangdong Information & Engineering Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Information & Engineering Co ltd filed Critical Guangdong Information & Engineering Co ltd
Priority to CN202210675105.1A priority Critical patent/CN114780253B/zh
Publication of CN114780253A publication Critical patent/CN114780253A/zh
Application granted granted Critical
Publication of CN114780253B publication Critical patent/CN114780253B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5016Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5021Priority
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种大数据智能分析系统,涉及大数据技术领域,包括计算机设备、数据收集模块、数据处理模块以及任务队列模块;通过综合了每个数据处理任务占用的内存、算力以及执行时间,获得每个数据处理任务的优先级;进一步的,将多个数据处理任务作为一组,综合考虑每组数据处理任务需要的内存、算力大小以及每个任务的优先级,计算每组数据处理任务的综合优先级;解决了处理大数据任务时,服务器的内存、处理器的效率最大化以及任务队列分配不均衡的问题。

Description

一种大数据智能分析系统
技术领域
本发明属于大数据领域,涉及内存管理技术,具体是一种大数据智能分析系统。
背景技术
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯;
大数据的处理往往依赖于具有良好存储及运算能力的计算机服务器,但在大数据任务量巨大的情况下,计算机服务器的运算及存储能力依然是不足够的;而现有的在大数据智能分析系统搭建方案往往存在以下问题:
1、对于计算机的内存以及算力分配并未考虑到利用效率的问题;
2、对于任务队列中的数据处理任务运行优先级往往采用简单的先进先出或最短时间优先的方式,导致内存以及算力使用效率低下或出现部分数据处理任务无限等待的问题;
因此,提出一种大数据智能分析系统。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种大数据智能分析系统,该一种大数据智能分析系统通过综合了每个数据处理任务占用的内存、算力以及执行时间,获得每个数据处理任务的优先级;进一步的,将多个数据处理任务作为一组,综合考虑每组数据处理任务需要的内存、算力大小以及每个任务的优先级,计算每组数据处理任务的综合优先级;解决了大数据处理中,服务器的内存、处理器的效率最大化以及任务队列分配不均衡的问题。
为实现上述目的,根据本发明的第一方面的实施例提出一种大数据智能分析系统,包括计算机设备、数据收集模块、数据处理模块以及任务队列模块;
所述计算机设备主要为计算机硬件设备,包括但不限于主板、处理器、内存条、硬盘、显示屏、GPU以及电源等;
所述计算机设备与数据收集模块以电气方式连接;
所述数据收集模块主要用于收集待处理数据;
数据处理模块主要用于对数据进行处理;
数据处理模块可以是安装在计算机设备中操作系统中的一款软件;所述软件具有对收集的数据进行处理的能力;
根据用户收集的数据类型不同,处理目的的不同,所述数据处理模块对数据的处理方式也不同;具体的,对于图片智能分析任务,可以使用CNN模型进行处理;对于语音文字智能分析,可以使用RNN模型进行处理;对于大量数据的计算任务,可以使用Spark系统进行处理;
可以理解的是,根据数据处理任务需处理的数据量以及处理任务类型,可估算出数据处理任务需要占用的内存空间大小、处理器算力大小以及处理时长;
数据处理模块与任务队列模块以电气方式连接;
数据处理模块实时发送当前正在处理的数据处理任务占用的内存、处理器算力大小以及预计剩余时长,以及正在任务队列中的数据处理任务估算的占用内存、处理器算力大小以及估算处理时长至任务队列模块;其中,预计剩余时长为预估处理时长减去已处理时长;
其中,任务队列模块主要用于对处于任务队列中的数据处理任务进行分配。
与现有技术相比,本发明的有益效果是:
本发明通过综合了每个数据处理任务占用的内存、算力以及执行时间,获得每个数据处理任务的优先级;进一步的,将多个数据处理任务作为一组,综合考虑每组数据处理任务需要的内存、算力大小以及每个任务的优先级,计算每组数据处理任务的综合优先级;解决了大数据处理中,服务器的内存、处理器的效率最大化以及任务队列分配不均衡的问题。
附图说明
图1为本发明的原理图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,一种大数据智能分析系统,包括计算机设备、数据收集模块、数据处理模块以及任务队列模块;
其中,所述计算机设备主要为计算机硬件设备,包括但不限于主板、处理器、内存条、硬盘、显示屏、GPU以及电源等;
可以理解的是,所述计算机设备应当经过技术组装,才可以对计算机设备进行使用;进一步的,为了更便利的使用所述计算机设备,还需在硬盘中保存一个可视化操作系统,在电源启动时,处理器将可视化操作系统调入内存,并执行操作系统程序,在显示屏中展示;所述操作系统可以为Windows或Linux系统;
所述计算机设备与数据收集模块以电气方式连接;
其中,所述数据收集模块主要用于收集数据;
可以理解的是,在大数据处理任务中,针对不同的数据处理任务,需要收集的数据也具有多样性;例如,对应政务数据的分析、报表、绩效计算、数据查询以及财务分析等任务,所需要收集的数据不尽相同;因此用户对于数据收集的手段为不受限制的,所述数据收集模块主要用于将用户收集的数据进行汇总,并发送至计算机设备中保存;
其中,数据处理模块主要用于对大数据任务进行处理;
在一个优选的实施例中,数据处理模块可以是安装在计算机设备中操作系统中的一款预设软件;所述预设软件具有对收集的数据进行处理的能力;
可以理解的是,根据用户收集的数据类型不同,处理目的的不同,所述数据处理模块对数据的处理方式也不同;具体的,对于图片智能分析任务,可以使用CNN模型进行处理;对于语音文字智能分析,可以使用RNN模型进行处理;对于分布式大数据计算任务,使用Spark系统进行处理;
可以理解的是,数据处理模块处理数据需要占用计算机设备的内存空间以及处理器的算力;而内存空间以及处理器算力是有限的,因此会出现新的数据处理任务生成时,内存空间不足或计算机算力不足的情况;此时,新任务将会处于任务队列中;
可以理解的是,根据数据处理任务需处理的数据量以及处理任务类型,可估算出数据处理任务需要占用的内存空间大小、处理器算力大小以及处理时长;将占用的内存空间大小标记为mi,将占用处理器算力大小标记为ci,将处理时长标记为ti;将数据处理任务生成的时间标记为si;将计算机设备总的内存空间标记为M,将计算机设备处理器总算力大小标记为C;其中,i表示数据处理任务;
数据处理模块与任务队列模块以电气方式连接;
数据处理模块实时发送当前正在处理的数据处理任务占用的内存、处理器算力大小以及预计剩余时长,以及正在任务队列中的数据处理任务估算的占用内存、处理器算力大小以及估算处理时长至任务队列模块;其中,预计剩余时长为预估处理时长减去已处理时长;
其中,任务队列模块主要用于对处于任务队列中的数据处理任务进行分配;
将处在队列中的数据处理任务集合标记为I,集合I中的数据处理任务标记为i;
将正在运行的数据处理任务集合标记为J,集合J中的数据处理任务标记为j;
具体的,所述任务队列模块对数据处理任务进行分配包括以下步骤:
步骤S1:计算集合I中数据处理任务i的等待时长;其中,所述等待时长为当前时间减去数据处理任务i的生成时间,将等待时长标记为wi;
步骤S2:计算数据处理任务的优先级pi;所述优先级pi的计算公式为
Figure 439796DEST_PATH_IMAGE001
; 其中,可以理解的是,优先级pi与等待时长wi为指数级关系,即,等待时间越长,优先级越 高,且优先级呈指数级增长,保证了不存在数据处理任务一直处于等待状态的问题;
步骤S3:集合J中,每个数据处理任务j处理完成时,释放出占用的内存以及处理器算力;计算释放后的内存剩余空间以及处理器剩余算力大小;将剩余的内存空间大小标记为MR;将剩余的处理器算力大小标记为CR;
步骤S4:在集合I中查找所有可执行的数据处理任务方案;所述数据处理任务方案为若干个数据处理任务集合,将每个方案的数据处理任务集合标记为F;将所有可执行的数据处理任务方案的集合标记为G;且每个数据处理任务集合F需满足以下条件:
条件1:数据处理任务集合F内所有数据处理任务的预估占用总的内存大小不大于内存剩余大小MR;且预估占用的总算力不大于处理器剩余算力CR;
条件2:在集合I中不存在任何一个数据处理任务k,能满足:k不在集合F中,且将k添加至集合F中后,依然能保证集合F中预估占用总的内存大小不大于内存剩余大小MR;且预估占用的总算力不大于处理器剩余算力CR;
步骤S5:方案集合G中,计算运行每个方案的数据处理任务集合F后,内存的剩余空间Mf以及处理器算力的剩余大小Cf;
计算数据处理任务集合F的综合优先级pf;其中,综合优先级pf的计算方式为
Figure 731100DEST_PATH_IMAGE002
步骤S6:从方案集合G中选择综合优先级pf最大的数据处理任务集合F发送至数据处理模块;数据处理模块对数据处理任务集合F中的数据处理任务进行处理。
本发明的工作原理:
计算机设备用于承载数据处理模块,保证数据处理模块可对用户上传的数据处理任务进行处理;
数据收集模块用于收集待处理数据;
数据处理模块主要用于对数据进行处理;
任务队列模块主要用于对处于任务队列中的数据处理任务进行分配。
上述公式均是去除量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最接近真实情况的一个公式,公式中的预设参数和预设阈值由本领域的技术人员根据实际情况设定或者大量数据模拟获得。
以上实施例仅用以说明本发明的技术方法而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方法进行修改或等同替换,而不脱离本发明技术方法的精神和范围。

Claims (4)

1.一种大数据智能分析系统,其特征在于,包括:计算机设备、数据收集模块、数据处理模块以及任务队列模块;
所述计算机设备为计算机硬件设备;
所述计算机设备与数据收集模块以电气方式连接;
所述数据收集模块用于收集待处理数据;
所述数据处理模块用于对数据进行处理;
所述数据处理模块与任务队列模块以电气方式连接;
所述任务队列模块用于对处于任务队列中的数据处理任务进行分配;
所述数据处理模块实时发送当前正在处理的数据处理任务占用的内存、处理器算力大小以及预计剩余时长,以及正在任务队列中的数据处理任务估算的占用内存、处理器算力大小以及估算处理时长至任务队列模块;其中,预计剩余时长为预估处理时长减去已处理时长;
所述数据处理模块根据数据处理任务需处理的数据量以及处理任务类型,估算出数据处理任务需要占用的内存空间大小、处理器算力大小以及处理时长;将占用的内存空间大小标记为mi,将占用处理器算力大小标记为ci,将处理时长标记为ti;将数据处理任务生成的时间标记为si;将计算机设备总的内存空间标记为M,将计算机设备处理器总算力大小标记为C;其中,i表示数据处理任务;
所述任务队列模块对数据处理任务进行分配包括以下步骤:
步骤S1:将处在队列中的数据处理任务集合标记为I,集合I中的数据处理任务标记为i;
将正在运行的数据处理任务集合标记为J,集合J中的数据处理任务标记为j;
计算集合I中数据处理任务i的等待时长;其中,所述等待时长为当前时间减去数据处理任务i的生成时间,将等待时长标记为wi;
步骤S2:计算数据处理任务的优先级pi;所述优先级pi的计算公式为
Figure 26311DEST_PATH_IMAGE001
优先级pi与等待时长wi为指数级关系,即,等待时间越长,优先级越高,且优先级呈指数级增长,保证了不存在数据处理任务一直处于等待状态的问题;
步骤S3:集合J中,每个数据处理任务j处理完成时,释放出占用的内存以及处理器算力;计算释放后的内存剩余空间以及处理器剩余算力大小;将剩余的内存空间大小标记为MR;将剩余的处理器算力大小标记为CR;
步骤S4:在集合I中查找所有可执行的数据处理任务方案;所述数据处理任务方案为若干个数据处理任务集合,将每个方案的数据处理任务集合标记为F;将所有可执行的数据处理任务方案的集合标记为G;且每个数据处理任务集合F满足效率最大化条件:
步骤S5:方案集合G中,计算运行每个方案的数据处理任务集合F后,内存的剩余空间Mf以及处理器算力的剩余大小Cf;
计算数据处理任务集合F的综合优先级pf;其中,综合优先级pf的计算方式为
Figure 624783DEST_PATH_IMAGE002
步骤S6:从方案集合G中选择综合优先级pf最大的数据处理任务集合F发送至数据处理模块;数据处理模块对数据处理任务集合F中的数据处理任务进行处理;
所述效率最大化条件为:
条件1:数据处理任务集合F内所有数据处理任务的预估占用总的内存大小不大于内存剩余大小MR;且预估占用的总算力不大于处理器剩余算力CR;
条件2:在集合I中不存在任何一个数据处理任务k,能满足:k不在集合F中,且将k添加至集合F中后,依然能保证集合F中预估占用总的内存大小不大于内存剩余大小MR;且预估占用的总算力不大于处理器剩余算力CR。
2.根据权利要求1所述的一种大数据智能分析系统,其特征在于,所述计算机设备包括主板、处理器、内存条、硬盘、显示屏、GPU以及电源。
3.根据权利要求1所述的一种大数据智能分析系统,其特征在于,所述计算机设备硬盘中保存一个可视化操作系统,在电源启动时,处理器将可视化操作系统调入内存,并执行操作系统程序,在显示屏中展示;所述操作系统为Windows或Linux系统。
4.根据权利要求1所述的一种大数据智能分析系统,其特征在于,所述数据处理模块是安装在计算机设备操作系统中的预设软件;对于数据为图片时,使用CNN模型进行处理;对于数据为语音时,使用RNN模型进行处理;对于分布式大数据计算任务,使用Spark系统进行处理。
CN202210675105.1A 2022-06-15 2022-06-15 一种大数据智能分析系统 Active CN114780253B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210675105.1A CN114780253B (zh) 2022-06-15 2022-06-15 一种大数据智能分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210675105.1A CN114780253B (zh) 2022-06-15 2022-06-15 一种大数据智能分析系统

Publications (2)

Publication Number Publication Date
CN114780253A true CN114780253A (zh) 2022-07-22
CN114780253B CN114780253B (zh) 2022-08-30

Family

ID=82421811

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210675105.1A Active CN114780253B (zh) 2022-06-15 2022-06-15 一种大数据智能分析系统

Country Status (1)

Country Link
CN (1) CN114780253B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115686801A (zh) * 2023-01-03 2023-02-03 融科联创(天津)信息技术有限公司 一种基于云计算的工业大数据处理系统
CN117435025A (zh) * 2023-12-20 2024-01-23 深圳市光速时代科技有限公司 一种基于多源数据的智能穿戴设备数据处理方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1595362A (zh) * 2004-06-30 2005-03-16 清华大学深圳研究生院 流媒体服务器资源的自调节调度方法
CN112231081A (zh) * 2020-10-14 2021-01-15 山东大学 云环境下基于pso-ahp的单调速率资源调度方法及系统
CN112363821A (zh) * 2021-01-12 2021-02-12 湖南大学 一种计算资源调度方法、装置及计算机设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1595362A (zh) * 2004-06-30 2005-03-16 清华大学深圳研究生院 流媒体服务器资源的自调节调度方法
CN112231081A (zh) * 2020-10-14 2021-01-15 山东大学 云环境下基于pso-ahp的单调速率资源调度方法及系统
CN112363821A (zh) * 2021-01-12 2021-02-12 湖南大学 一种计算资源调度方法、装置及计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张浩为等: ""基于目标威胁度的相控阵雷达自适应调度方法"", 《火 力 与 指 挥 控 制》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115686801A (zh) * 2023-01-03 2023-02-03 融科联创(天津)信息技术有限公司 一种基于云计算的工业大数据处理系统
CN117435025A (zh) * 2023-12-20 2024-01-23 深圳市光速时代科技有限公司 一种基于多源数据的智能穿戴设备数据处理方法及系统
CN117435025B (zh) * 2023-12-20 2024-03-12 深圳市光速时代科技有限公司 一种基于多源数据的智能穿戴设备数据处理方法及系统

Also Published As

Publication number Publication date
CN114780253B (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
CN114780253B (zh) 一种大数据智能分析系统
WO2021179462A1 (zh) 基于改进量子蚁群算法的Spark平台任务调度方法
CN108874640B (zh) 一种集群性能的评估方法和装置
US10552287B2 (en) Performance metrics for diagnosing causes of poor performing virtual machines
CN108776934B (zh) 分布式数据计算方法、装置、计算机设备及可读存储介质
US7685251B2 (en) Method and apparatus for management of virtualized process collections
US9389916B1 (en) Job scheduling management
CN108491255B (zh) 自助式MapReduce数据优化分配方法及系统
CN113010576A (zh) 云计算系统容量评估的方法、装置、设备和存储介质
CN110708369B (zh) 设备节点的文件部署方法、装置、调度服务器及存储介质
CN110618867A (zh) 一种预测资源使用量的方法和装置
CN110321364A (zh) 信用卡管理系统的交易数据查询方法、装置及终端
CN110727508A (zh) 一种任务调度系统和调度方法
CN111813573A (zh) 管理平台与机器人软件的通信方法及其相关设备
CN107861878A (zh) Java应用程序性能问题定位的方法、装置和设备
CN115237566A (zh) 批量任务执行方法、装置、设备、介质及产品
CN103729417A (zh) 一种数据扫描的方法及装置
CN113961610A (zh) 一种数据处理方法、装置、设备及存储介质
CN109144666A (zh) 一种跨云平台的资源处理方法及系统
CN115471215B (zh) 一种业务流程处理方法及装置
CN105468494A (zh) 一种i/o密集型应用识别方法
CN110502495A (zh) 一种应用服务器的日志收集方法及装置
CN116069618A (zh) 一种面向应用场景的国产化系统评估方法
CN115529188A (zh) 数据处理方法、装置、存储介质及电子设备
CN114201369A (zh) 一种服务器集群管理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant