CN116909712A - 基于机器学习的智能任务调度系统及其方法 - Google Patents

基于机器学习的智能任务调度系统及其方法 Download PDF

Info

Publication number
CN116909712A
CN116909712A CN202310950307.7A CN202310950307A CN116909712A CN 116909712 A CN116909712 A CN 116909712A CN 202310950307 A CN202310950307 A CN 202310950307A CN 116909712 A CN116909712 A CN 116909712A
Authority
CN
China
Prior art keywords
feature vector
time sequence
system resource
task
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310950307.7A
Other languages
English (en)
Inventor
羊美华
宋庆
朱希辰
张瑜昊
方晓芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Longview Video Technology Co ltd
Original Assignee
Hangzhou Longview Video Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Longview Video Technology Co ltd filed Critical Hangzhou Longview Video Technology Co ltd
Priority to CN202310950307.7A priority Critical patent/CN116909712A/zh
Publication of CN116909712A publication Critical patent/CN116909712A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • G06F9/5088Techniques for rebalancing the load in a distributed system involving task migration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Probability & Statistics with Applications (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种基于机器学习的智能任务调度系统及其方法,其通过监测任务执行过程中的系统资源使用数据,并在后端引入数据处理和分析算法来进行数据分析以检测任务执行过程中的异常情况,如任务失败、资源故障等,通过这样的方式,能够及时识别出异常情况并触发相应的处理机制,如重新分配任务或请求故障恢复,从而保证系统的稳定性和可靠性。

Description

基于机器学习的智能任务调度系统及其方法
技术领域
本申请涉及智能分析领域,且更为具体地,涉及一种基于机器学习的智能任务调度系统及其方法。
背景技术
任务调度是指在计算机系统中,对于多个任务的安排和分配,以实现资源的合理利用、任务的高效执行和系统的整体性能优化。任务调度在各种计算环境中都扮演着重要的角色,包括操作系统、分布式系统、云计算平台等。
然而,传统的任务调度系统通常使用固定的规则和优先级来进行任务调度,这种刚性的方式无法适应多变的任务环境。随着任务来源和种类的增多,以及任务形式的多样化,传统系统往往无法灵活地根据实际情况进行任务分配和调度。
因此,期望一种优化的智能任务调度系统。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基于机器学习的智能任务调度系统及其方法,其通过监测任务执行过程中的系统资源使用数据,并在后端引入数据处理和分析算法来进行数据分析以检测任务执行过程中的异常情况,如任务失败、资源故障等,通过这样的方式,能够及时识别出异常情况并触发相应的处理机制,如重新分配任务或请求故障恢复,从而保证系统的稳定性和可靠性。
根据本申请的一个方面,提供了一种基于机器学习的智能任务调度系统,其包括:
任务接收模块,用于接收用户任务;
自适应调度模块,用于根据系统状态和环境变化,调整任务调度策略;
实时监测和调整模块,用于实时监测所述用户任务的执行和资源利用情况,并自动检测所述用户任务执行过程中的异常情况;
分析和优化模块,用于收集所述用户任务被执行时的数据并进行分析和优化;以及
强化学习模块,用于基于从所述分析和优化模块中提取到的数据进行强化学习。
根据本申请的另一个方面,提供了一种基于机器学习的智能任务调度方法,其包括:
接收用户任务;
根据系统状态和环境变化,调整任务调度策略;
实时监测所述用户任务的执行和资源利用情况,并自动检测所述用户任务执行过程中的异常情况;
收集所述用户任务被执行时的数据并进行分析和优化;以及
基于从所述分析和优化模块中提取到的数据进行强化学习。
与现有技术相比,本申请提供的一种基于机器学习的智能任务调度系统及其方法,其通过监测任务执行过程中的系统资源使用数据,并在后端引入数据处理和分析算法来进行数据分析以检测任务执行过程中的异常情况,如任务失败、资源故障等,通过这样的方式,能够及时识别出异常情况并触发相应的处理机制,如重新分配任务或请求故障恢复,从而保证系统的稳定性和可靠性。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为根据本申请实施例的基于机器学习的智能任务调度系统的框图;
图2为根据本申请实施例的基于机器学习的智能任务调度系统的系统架构图;
图3为根据本申请实施例的基于机器学习的智能任务调度系统中实时监测和调整模块的框图;
图4为根据本申请实施例的基于机器学习的智能任务调度系统中系统资源数据时序关联编码单元的框图;
图5为根据本申请实施例的基于机器学习的智能任务调度系统中任务执行异常检测单元的框图;
图6为根据本申请实施例的基于机器学习的智能任务调度方法的流程图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用,然而,任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的,并且所述系统和方法的不同方面可以使用不同模块。
本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,根据需要,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
传统的任务调度系统通常使用固定的规则和优先级来进行任务调度,这种刚性的方式无法适应多变的任务环境。随着任务来源和种类的增多,以及任务形式的多样化,传统系统往往无法灵活地根据实际情况进行任务分配和调度。因此,期望一种优化的智能任务调度系统。
在本申请的技术方案中,提出了一种基于机器学习的智能任务调度系统。图1为根据本申请实施例的基于机器学习的智能任务调度系统的框图。如图1所示,根据本申请的实施例的基于机器学习的智能任务调度系统300,包括:任务接收模块310,用于接收用户任务;自适应调度模块320,用于根据系统状态和环境变化,调整任务调度策略;实时监测和调整模块330,用于实时监测所述用户任务的执行和资源利用情况,并自动检测所述用户任务执行过程中的异常情况;分析和优化模块340,用于收集所述用户任务被执行时的数据并进行分析和优化;以及,强化学习模块350,用于基于从所述分析和优化模块中提取到的数据进行强化学习。
特别地,根据本申请的实施例的基于机器学习的智能任务调度系统300的运行过程中,所述任务接收模块310,用于接收用户任务。应可以理解,所述任务接收模块主要承担着用户任务请求的接收、验证、解析和存储过程,使智能任务调度系统能够接收、存储和管理任务信息,包括任务的描述、表达形式、优先级、截止日期和其他相关属性。
值得注意的是,所述任务接收模块,包括:任务提交接口:任务提交模块提供一种接口或界面,可以是API、Web界面、命令行等多种形式,允许用户或者其它系统组件提交任务请求,任务接收模块接收到任务请求后,对任务进行验证、解析和存储,为后续的智能调度和执行做好准备。任务请求验证:对任务提交接口提交的请求进行验证,确保请求的合法性和完整性。检查任务请求的格式、参数、权限等,以确保请求的有效性,并防止非法或恶意请求的入侵。任务请求解析:经过验证的任务请求将其中的信息提取出来,包括任务名称、参数、优先级需求、资源要求等。解析过程涉及任务描述语言的解析、数据格式的解析等,以获取任务的相关信息。任务属性设置:根据任务请求中的信息设置任务的属性,如优先级、任务形式、任务种类、截止时间、依赖关系等。这些属性将影响后续的任务调度和执行策略。任务存储与管理:将解析后的任务信息存储到任务管理数据库,任务信息包括任务的标识符、属性、状态等。系统可以使用数据库管理系统来实现任务的持久化存储和高效检索。异常处理与通知:任务提交过程中出现的异常情况,如请求格式错误、权限不足、资源故障等,可以返回相应的错误信息给请求者,并在必要时发送通知,告知请求者任务提交失败的原因,也可以根据预定义的策略进行异常处理。安全性保护:任务提交模块需要考虑任务提交过程的安全性,采用身份验证、加密传输等机制,确保任务请求的机密性和完整性。此外,系统还实施访问控制策略,限制任务提交的权限和范围。
特别地,根据本申请的实施例的基于机器学习的智能任务调度系统300的运行过程中,所述自适应调度模块320,用于根据系统状态和环境变化,调整任务调度策略。应可以理解,所述自适应调度模块能够根据监测到的系统状态和环境变化,动态调整任务调度策略,以适应不同的情况和需求,并和监测模块形成双向驱动,完成任务的自适应调整。
值得注意的是,所述自适应调度模块,包括:状态分析与建模,分析收到的任务信息和收集到的状态信息,建立任务调度的模型,分析状态数据、提取特征、找到状态之间的关联和影响,然后根据预定义的策略库,选择合适的调度策略满足当前的需求。负载感知:根据系统的负载情况动态调整任务的调度策略。当系统负载较高时,优先调度轻量级任务或分散任务到多个资源节点,以平衡负载。当系统负载较低时,可以增加任务并行度以提高资源利用率。优先级感知:为任务分配不同的优先级,并根据实时情况动态调整任务的执行顺序。通过监测任务的紧急程度、重要性或其他指标,自适应地调整任务的优先级,以确保高优先级任务的及时执行。资源感知:根据实时资源利用情况和可用性调整任务的调度策略。当某个资源过载或故障时,系统重新评估资源的可用性,并重新分配任务或调整任务的执行顺序,以最大程度地利用可用资源。环境感知:根据排队任务的来源、种类、形式以及当前网络情况,动态调整任务的调度策略。例如当网络带宽有限、时延较高时,可以优先调度对时延不敏感的本地任务,以降低任务的响应时间。学习型自适应调度模块具备学习能力,通过分析历史数据和执行结果,学习和优化调度策略,例如对排队任务的相关状态和信息进行分析,匹配历史数据,对高频目标进行预定义策略优化和适应性调整,不断提升调度的效果和性能。
特别地,根据本申请的实施例的基于机器学习的智能任务调度系统300的运行过程中,所述实时监测和调整模块330,用于实时监测所述用户任务的执行和资源利用情况,并自动检测所述用户任务执行过程中的异常情况。具体地,所述实时监测和调整模块可以实时监测任务执行和资源利用情况,并根据需要进行调整,自动检测和处理任务执行中的异常情况,如任务失败或资源故障,及时重启任务和资源重分配,以实现更高的性能和效率。
值得注意的是,所述实时监测和调整模块,包括:异常检监测调整:检测任务执行过程中的异常情况,如任务失败、资源故障等。它可以通过监测任务执行状态、资源利用率等指标,识别出异常并触发相应的处理机制,如重新分配任务或请求故障恢复。资源监测调整:根据实时资源利用情况进行动态调整,以优化资源的分配和利用。例如,当某个资源过载或空闲时,系统可以根据需求和可用性自动调整资源的分配方式,以提高整体性能。环境监测调整:在任务执行过程中,根据实时监测到的系统状态和任务执行情况,动态地重新分配任务。例如,当某个任务执行时间过长或资源需求变化时,系统可以重新评估任务的优先级和分配方案,并进行任务重分配,以实现更好的性能和效率。负载均衡调整:平衡系统中各个资源的负载,以避免资源过载或资源闲置。通过监测资源的利用率和任务的执行情况,可以根据需要动态调整任务的分配和调度策略,以实现负载均衡。自适应动态调整:结合实时监测和反馈,根据当前系统状态和任务特性与自适应调度模块双向互动触发动态调度策略。例如,当实时监测和调整模块发现出现一小部分资源即将空闲,它可以实时通知自适应调度模块,修正预定义调度策略,优先调度一条适合该资源情况的任务优先处理。
特别地,在本申请的一个具体示例中,如图2和图3所示,所述实时监测和调整模块330,包括:系统资源数据采集单元331,用于获取所述用户任务被执行过程中的多个预定时间点的系统资源使用数据,其中 ,所述系统资源使用数据包括CPU利用率、内存使用量和磁盘空间;系统资源数据时序关联编码单元332,用于将所述多个预定时间点的系统资源使用数据进行时序关联分析以得到系统资源多参数融合特征;任务执行异常检测单元333,用于基于所述系统资源多参数融合特征,确定用户任务被执行的过程中是否存在异常。
具体地,所述系统资源数据采集单元331,用于获取所述用户任务被执行过程中的多个预定时间点的系统资源使用数据,其中,所述系统资源使用数据包括CPU利用率、内存使用量和磁盘空间。应可以理解,所述系统资源的使用情况可以提供关于任务执行环境的重要信息,例如所述CPU利用率可以反映出任务对CPU资源的需求以及系统的负载情况;所述内存使用量反映了任务对内存资源的需求以及内存的利用情况;所述磁盘空间反映了任务对存储资源的需求以及磁盘空间的利用情况。通过对于这些数据进行时序关联分析有利于更准确地监测和检测任务执行过程中的异常情况。
相应的,在一种可能的实现方式中,可通过以下步骤获取所述用户任务被执行过程中的多个预定时间点的系统资源使用数据,其中,所述系统资源使用数据包括CPU利用率、内存使用量和磁盘空间,例如:确定您希望获取系统资源使用数据的多个时间点。这些时间点可以是任务执行的关键阶段或特定时间间隔内的时间点;使用操作系统提供的工具或编程接口获取CPU利用率数据。具体方法取决于您使用的操作系统。例如,在Windows系统中,可以使用性能监视器、任务管理器或WMI(Windows Management Instrumentation)接口来获取CPU利用率。在Linux系统中,可以使用命令行工具如top、sar、mpstat等来获取CPU利用率。还可以使用编程语言提供的库或接口来获取CPU利用率数据,如Python的psutil库;使用操作系统提供的工具或编程接口获取内存使用量数据。具体方法与获取总内存使用量的步骤相似。在Windows系统中,可以使用任务管理器或性能监视器来查看内存使用量。在Linux系统中,可以使用命令行工具如free、top、htop等来获取内存使用量。还可以使用编程语言提供的库或接口来获取内存使用量数据;使用操作系统提供的工具或编程接口获取磁盘空间数据。具体方法与获取磁盘空间使用量的步骤相似。在Windows系统中,可以使用资源管理器或命令行工具如dir、fsutil等来查看磁盘空间。在Linux系统中,可以使用命令行工具如df、du等来获取磁盘空间。还可以使用编程语言提供的库或接口来获取磁盘空间数据;在每个预定时间点,获取CPU利用率、内存使用量和磁盘空间的数据,并记录下来。可以将这些数据保存在文件中或存储在数据库中,以便后续分析和比较。
具体地,所述系统资源数据时序关联编码单元332,用于将所述多个预定时间点的系统资源使用数据进行时序关联分析以得到系统资源多参数融合特征。特别地,在本申请的一个具体示例中,如图4所示,所述系统资源数据时序关联编码单元332,包括:资源数据参数时序排列子单元3321,用于将所述多个预定时间点的系统资源使用数据按照时间维度进行数据整理以得到CPU利用率时序输入向量、内存使用量时序输入向量和磁盘空间时序输入向量;资源数据时序变化特征提取子单元3322,用于通过基于深度神经网络模型的时序特征提取器分别对所述CPU利用率时序输入向量、所述内存使用量时序输入向量和所述磁盘空间时序输入向量进行特征提取以得到CPU利用率时序特征向量、内存使用量时序特征向量和磁盘空间时序特征向量;资源数据时序关联特征提取子单元3323,用于对所述CPU利用率时序特征向量、所述内存使用量时序特征向量和所述磁盘空间时序特征向量进行关联编码以得到系统资源时序关联特征向量;资源数据时序特征融合子单元3324,用于融合所述CPU利用率时序特征向量、所述内存使用量时序特征向量、所述磁盘空间时序特征向量和所述系统资源时序关联特征向量以得到系统资源多参数融合特征向量作为所述系统资源多参数融合特征。
更具体地,所述资源数据参数时序排列子单元3321,用于将所述多个预定时间点的系统资源使用数据按照时间维度进行数据整理以得到CPU利用率时序输入向量、内存使用量时序输入向量和磁盘空间时序输入向量。考虑到考虑到由于所述CPU利用率、所述内存使用量和所述磁盘空间都在时间维度上有着动态性的时序变化规律,并且这些数据之间还具有着时序的协同关联关系,共同表示着系统资源的使用特征。因此,在本申请的技术方案中,为了能够有效对于任务执行过程中的系统资源进行监测,以此来及时发现异常情况,需要进一步将所述多个预定时间点的系统资源使用数据按照时间维度进行数据整理以得到CPU利用率时序输入向量、内存使用量时序输入向量和磁盘空间时序输入向量,以此来分别整合所述CPU利用率、所述内存使用量和所述磁盘空间在时间维度上的时序分布信息。
更具体地,所述资源数据时序变化特征提取子单元3322,用于通过基于深度神经网络模型的时序特征提取器分别对所述CPU利用率时序输入向量、所述内存使用量时序输入向量和所述磁盘空间时序输入向量进行特征提取以得到CPU利用率时序特征向量、内存使用量时序特征向量和磁盘空间时序特征向量。特别地,在本申请的技术方案中,所述深度神经网络模型为一维卷积神经网络模型。也就是,将所述CPU利用率时序输入向量、所述内存使用量时序输入向量和所述磁盘空间时序输入向量分别通过基于一维卷积神经网络模型的时序特征提取器中进行特征挖掘,以分别提取出所述CPU利用率、所述内存使用量和所述磁盘空间在时间维度上的时序关联特征信息,即所述系统资源使用数据中的各个数据项在时间维度上的时序变化特征,从而得到CPU利用率时序特征向量、内存使用量时序特征向量和磁盘空间时序特征向量。具体地,使用所述基于一维卷积神经网络模型的时序特征提取器的各层在层的正向传递中分别对输入数据进行:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行基于特征矩阵的池化以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述基于一维卷积神经网络模型的时序特征提取器的最后一层的输出为所述CPU利用率时序特征向量、所述内存使用量时序特征向量和所述磁盘空间时序特征向量,所述基于一维卷积神经网络模型的时序特征提取器的第一层的输入为所述CPU利用率时序输入向量、所述内存使用量时序输入向量和所述磁盘空间时序输入向量。
值得注意的是,一维卷积神经网络(1D CNN)是一种用于处理一维序列数据的神经网络模型。与传统的卷积神经网络(CNN)用于图像处理不同,1D CNN主要应用于时间序列数据、信号处理和自然语言处理等领域。1D CNN利用卷积层和池化层来提取输入序列数据的局部特征,并通过全连接层进行分类或回归任务。以下是1D CNN的基本组件和工作流程:输入层:1D CNN的输入是一维的序列数据,可以是时间序列、文本序列等。输入数据的形状通常为(样本数,序列长度,特征维度);卷积层:卷积层是1D CNN的核心组件,通过卷积操作提取输入序列的局部特征。卷积操作使用一个可学习的滤波器(也称为卷积核)在输入序列上进行滑动,并计算滤波器与输入序列的点积。这样可以捕捉到输入序列中的局部模式和特征。卷积层通常包括多个滤波器,每个滤波器提取一种特征;激活函数:在卷积操作后,通常会应用激活函数来引入非线性。常用的激活函数包括ReLU(Rectified Linear Unit)、sigmoid和tanh等;池化层:池化层用于减少卷积层输出的维度,并保留重要的特征。常用的池化操作包括最大池化(Max Pooling)和平均池化(Average Pooling)。池化操作通过对局部区域进行聚合操作,例如取最大值或平均值,从而减少数据量并提高计算效率;全连接层:在经过一系列的卷积层和池化层后,可以使用全连接层将提取的特征映射到输出类别或回归目标。全连接层将输入的特征向量与权重矩阵相乘,并通过激活函数输出最终的结果;输出层:输出层根据任务的不同选择适当的激活函数,如softmax用于多类别分类任务,线性激活函数用于回归任务。
更具体地,所述资源数据时序关联特征提取子单元3323,用于对所述CPU利用率时序特征向量、所述内存使用量时序特征向量和所述磁盘空间时序特征向量进行关联编码以得到系统资源时序关联特征向量。特别地,在本申请的技术方案中,所述资源数据时序关联特征提取子单元3323,包括:将所述CPU利用率时序输入向量、所述内存使用量时序输入向量和所述磁盘空间时序输入向量排列为系统资源时序关联矩阵后通过基于二维卷积神经网络模型的系统资源关联特征提取器以得到所述系统资源时序关联特征向量。考虑到由于所述CPU利用率、所述内存使用量和所述磁盘空间之间在时间维度上的时序协同关联特征反映了系统资源使用的时序变化情况。因此,为了能够从多个系统资源的时序数据中提取出更为有意义的特征,以便更好地描述任务执行过程中的系统行为和异常情况,在本申请的技术方案中,进一步将所述CPU利用率时序输入向量、所述内存使用量时序输入向量和所述磁盘空间时序输入向量排列为系统资源时序关联矩阵,以此有利于捕捉到不同系统资源之间的相互影响和依赖关系,有助于更全面地描述任务执行过程中的系统状态。接着,再将所述系统资源时序关联矩阵通过基于二维卷积神经网络模型的系统资源关联特征提取器中进行特征挖掘,以此来提取出所述CPU利用率、所述内存使用量和所述磁盘空间之间在时间维度上的时序协同关联特征信息,从而得到系统资源时序关联特征向量。
值得注意的是,二维卷积神经网络(2D CNN)是一种用于处理二维图像数据的神经网络模型。它在计算机视觉领域中得到广泛应用,可以有效地提取图像的空间特征并用于分类、目标检测、图像生成等任务。2D CNN的基本组件和工作流程如下:输入层:2D CNN的输入是二维图像数据,通常表示为高度、宽度和通道数(例如RGB图像具有3个通道)。输入数据的形状通常为(图像数量,高度,宽度,通道数);卷积层:卷积层是2D CNN的核心组件,通过卷积操作提取图像的局部特征。卷积操作使用一个可学习的滤波器(也称为卷积核)在输入图像上进行滑动,并计算滤波器与输入图像的点积。这样可以捕捉到图像中的局部模式和特征。卷积层通常包括多个滤波器,每个滤波器提取一种特征;激活函数:在卷积操作后,通常会应用激活函数来引入非线性;池化层:池化层用于减少卷积层输出的维度,并保留重要的特征。池化操作通过对局部区域进行聚合操作,例如取最大值或平均值,从而减少数据量并提高计算效率;全连接层:在经过一系列的卷积层和池化层后,可以使用全连接层将提取的特征映射到输出类别或回归目标。全连接层将输入的特征向量与权重矩阵相乘,并通过激活函数输出最终的结果;输出层:输出层根据任务的不同选择适当的激活函数,如softmax用于多类别分类任务,线性激活函数用于回归任务。
更具体地,所述资源数据时序特征融合子单元3324,用于融合所述CPU利用率时序特征向量、所述内存使用量时序特征向量、所述磁盘空间时序特征向量和所述系统资源时序关联特征向量以得到系统资源多参数融合特征向量作为所述系统资源多参数融合特征。应可以理解,为了能够综合考虑到任务执行过程中有关于系统资源的不同特征的信息,以便于更全面地描述任务执行过程中的系统状态,并为后续的分类任务提供更有表现力的特征表示,在本申请的技术方案中,进一步融合所述CPU利用率时序特征向量、所述内存使用量时序特征向量、所述磁盘空间时序特征向量和所述系统资源时序关联特征向量以得到系统资源多参数融合特征向量,从而能够利用所述系统资源使用数据中的各个数据项的时序变化特征信息和时序协同关联特征信息来综合进行系统资源的监测,以便于及时发现并处理异常。
相应的,在一种可能的实现方式中,可通过以下步骤融合所述CPU利用率时序特征向量、所述内存使用量时序特征向量、所述磁盘空间时序特征向量和所述系统资源时序关联特征向量以得到系统资源多参数融合特征向量作为所述系统资源多参数融合特征,例如:通过监测系统的CPU利用率,以时间为序列的方式记录CPU利用率的变化情况,并将其表示为一个时序特征向量;通过监测系统的内存使用量,以时间为序列的方式记录内存使用量的变化情况,并将其表示为一个时序特征向量;通过监测系统的磁盘空间占用情况,以时间为序列的方式记录磁盘空间的变化情况,并将其表示为一个时序特征向量;除了单独收集CPU利用率、内存使用量和磁盘空间的时序特征向量外,还可以考虑系统资源之间的关联性。例如,可以计算CPU利用率与内存使用量之间的相关性,并将相关性作为系统资源时序关联特征向量的一部分;对收集到的各个特征向量进行归一化处理,以消除不同特征的量纲差异,确保它们具有相同的重要性;将CPU利用率时序特征向量、内存使用量时序特征向量、磁盘空间时序特征向量和系统资源时序关联特征向量进行融合。可以使用简单的拼接操作将它们连接成一个更大的特征向量,形成系统资源多参数融合特征向量;根据具体任务的需求,可以使用特征选择方法从融合的特征向量中选择最具有代表性和相关性的特征子集,以减少冗余和噪声;将系统资源多参数融合特征向量应用于系统资源的分析、预测或其他任务中。可以使用机器学习算法对特征向量进行训练和建模,以实现对系统资源行为的理解和预测。
值得一提的是,在本申请的其他具体示例中,还可以通过其他方式将所述多个预定时间点的系统资源使用数据进行时序关联分析以得到系统资源多参数融合特征,例如:在多个预定时间点,收集系统资源使用数据,包括CPU利用率、内存使用量、磁盘空间等。确保数据的准确性和一致性;对收集到的系统资源使用数据进行预处理,以确保数据的质量和一致性。可能的预处理步骤包括数据清洗、缺失值处理、异常值处理等;使用适当的时序关联分析方法,将多个时间点的系统资源使用数据进行关联分析。常用的时序关联分析方法包括自相关分析、互相关分析、灰色关联分析等。这些方法可以帮助您发现不同系统资源之间的关联性和影响程度;基于时序关联分析的结果,提取系统资源的多参数融合特征。这些特征可以是统计特征(如均值、方差、最大值、最小值等)、频域特征(如频谱分析、功率谱密度等)或时域特征(如自回归模型、滑动窗口等)。根据具体情况选择适合的特征提取方法;将提取的系统资源多参数融合特征进行融合,生成综合的特征向量或特征矩阵。可以使用简单的特征融合方法,如将特征按时间点连接成向量或矩阵。还可以使用更复杂的特征融合方法,如主成分分析(PCA)、因子分析等;对生成的系统资源多参数融合特征进行分析和应用。可以使用机器学习算法、统计分析方法或领域知识来分析特征的重要性、相关性和对系统性能的影响。这些特征可以用于系统性能预测、异常检测、决策支持等应用。
具体地,所述任务执行异常检测单元333,用于基于所述系统资源多参数融合特征,确定用户任务被执行的过程中是否存在异常。特别地,在本申请的一个具体示例中,如图5所示,所述任务执行异常检测单元333,包括:特征分布优化子单元3331,用于对所述系统资源多参数融合特征向量进行特征分布优化以得到优化系统资源多参数融合特征向量;以及,异常分类子单元3332,用于将所述优化系统资源多参数融合特征向量通过分类器以得到分类结果,所述分类结果用于表示用户任务被执行的过程中是否存在异常。
更具体地,所述特征分布优化子单元3331,用于对所述系统资源多参数融合特征向量进行特征分布优化以得到优化系统资源多参数融合特征向量。特别地,在本申请的一个具体示例中,所述特征分布优化子单元3331,包括:特征分布优化二级子单元,用于基于所述系统资源多参数融合特征向量,分别对所述CPU利用率时序特征向量、所述内存使用量时序特征向量、所述磁盘空间时序特征向量和所述系统资源时序关联特征向量进行特征分布优化以得到优化CPU利用率时序特征向量、优化内存使用量时序特征向量、优化磁盘空间时序特征向量和优化系统资源时序关联特征向量;以及,优化特征融合二级子单元,用于融合所述优化CPU利用率时序特征向量、所述优化内存使用量时序特征向量、所述优化磁盘空间时序特征向量和所述优化系统资源时序关联特征向量以得到所述优化系统资源多参数融合特征向量。
所述特征分布优化二级子单元,用于基于所述系统资源多参数融合特征向量,分别对所述CPU利用率时序特征向量、所述内存使用量时序特征向量、所述磁盘空间时序特征向量和所述系统资源时序关联特征向量进行特征分布优化以得到优化CPU利用率时序特征向量、优化内存使用量时序特征向量、优化磁盘空间时序特征向量和优化系统资源时序关联特征向量。特别地,在本申请的一个具体示例中,所述特征分布优化二级子单元,包括:加权因数计算三级子单元,用于基于所述系统资源多参数融合特征向量,分别计算所述CPU利用率时序特征向量、所述内存使用量时序特征向量、所述磁盘空间时序特征向量和所述系统资源时序关联特征向量的可转移特征的量化的可转移性感知因数以得到第一至第四加权因数;以及,加权优化三级子单元,用于将所述第一至第四加权因数作为加权系数对所述系统资源多参数融合特征向量,分别计算所述CPU利用率时序特征向量、所述内存使用量时序特征向量、所述磁盘空间时序特征向量和所述系统资源时序关联特征向量进行加权优化以得到所述优化CPU利用率时序特征向量、所述优化内存使用量时序特征向量、所述优化磁盘空间时序特征向量和所述优化系统资源时序关联特征向量。
所述加权因数计算三级子单元,用于基于所述系统资源多参数融合特征向量,分别计算所述CPU利用率时序特征向量、所述内存使用量时序特征向量、所述磁盘空间时序特征向量和所述系统资源时序关联特征向量的可转移特征的量化的可转移性感知因数以得到第一至第四加权因数。特别地,在本申请的技术方案中,融合所述CPU利用率时序特征向量、所述内存使用量时序特征向量、所述磁盘空间时序特征向量和所述系统资源时序关联特征向量得到所述系统资源多参数融合特征向量,并将所述系统资源多参数融合特征向量通过分类器进行分类时,考虑到所述CPU利用率时序特征向量、所述内存使用量时序特征向量、所述磁盘空间时序特征向量分别表达CPU利用率、内存使用量和磁盘空间的时序局部关联特征,而所述系统资源时序关联特征向量表达CPU利用率、内存使用量和磁盘空间的时序-样本交叉维度局部关联特征,由于源数据和特征表示上的差异,各个特征向量在特征融合并分类时,需要考虑域转移差异来进行特征融合,从而提升特征融合效果。基于此,本申请的申请人对于所述CPU利用率时序特征向量、所述内存使用量时序特征向量、所述磁盘空间时序特征向量和所述系统资源时序关联特征向量中的每个特征向量,例如记为,其中,以及所述系统资源多参数融合特征向量,例如记为/>,计算其可转移特征的量化的可转移性感知因数:/>其中/>是所述CPU利用率时序特征向量、所述内存使用量时序特征向量、所述磁盘空间时序特征向量和所述系统资源时序关联特征向量中的第/>个特征向量,/>是所述系统资源多参数融合特征向量,/>是所述CPU利用率时序特征向量、所述内存使用量时序特征向量、所述磁盘空间时序特征向量和所述系统资源时序关联特征向量中的第/>个特征向量的第/>个位置的特征值,/>是所述系统资源多参数融合特征向量的第/>个位置的特征值,/>表示以2为底的对数函数值,且/>是加权超参数,/>是所述第一至第四加权因数中的第/>个加权因数。这里,所述可转移特征的量化的可转移性感知因数通过域转移下的不确定性度量来估计特征空间域到分类目标域的域不确定性,且由于该域不确定性估计可以用于标识已经在域间转移的特征表示,因此通过以该因数来作为权重分别对所述CPU利用率时序特征向量、所述内存使用量时序特征向量、所述磁盘空间时序特征向量和所述系统资源时序关联特征向量进行加权,就可以通过特征空间域到分类目标域的跨域对齐来鉴别特征映射是否在域间有效转移,从而量化地感知不同特征向量中的可转移特征的可转移性,以实现所述CPU利用率时序特征向量、所述内存使用量时序特征向量、所述磁盘空间时序特征向量和所述系统资源时序关联特征向量的域间自适应的特征融合。这样,能够对于系统资源的使用情况进行实时监测,以便于及时识别检测出任务执行的异常情况,并触发相应的处理机制,从而保证系统的稳定性和可靠性。
所述加权优化三级子单元,用于将所述第一至第四加权因数作为加权系数对所述系统资源多参数融合特征向量,分别计算所述CPU利用率时序特征向量、所述内存使用量时序特征向量、所述磁盘空间时序特征向量和所述系统资源时序关联特征向量进行加权优化以得到所述优化CPU利用率时序特征向量、所述优化内存使用量时序特征向量、所述优化磁盘空间时序特征向量和所述优化系统资源时序关联特征向量。应可以理解,通过加权优化的方式,可以根据实际需求和对系统资源的关注重点,调整各个特征的权重,以更准确地反映系统资源的行为和变化情况。这样可以提高模型对系统资源的建模能力和预测准确性,从而支持更有效的系统管理和资源调度决策。
值得一提的是,在本申请的其他具体示例中,还可以通过其他方式基于所述系统资源多参数融合特征向量,分别对所述CPU利用率时序特征向量、所述内存使用量时序特征向量、所述磁盘空间时序特征向量和所述系统资源时序关联特征向量进行特征分布优化以得到优化CPU利用率时序特征向量、优化内存使用量时序特征向量、优化磁盘空间时序特征向量和优化系统资源时序关联特征向量,例如:CPU利用率时序特征向量的特征分布优化:进行特征分析和理解,了解CPU利用率时序特征的含义和重要性;进行特征预处理,如特征缩放、平滑化等;进行特征分布分析,观察CPU利用率时序特征、内存使用量时序特征、磁盘空间时序特征的分布情况、异常值和离群点;根据特征分布情况进行特征转换,如对数转换、指数转换等;对特征进行标准化,消除特征之间的量纲差异;可根据特征的重要性和相关性选择最具代表性的特征子集;可根据领域知识和经验生成新的特征;可对高维特征进行降维,减少特征的数量和复杂度。
所述优化特征融合二级子单元,用于融合所述优化CPU利用率时序特征向量、所述优化内存使用量时序特征向量、所述优化磁盘空间时序特征向量和所述优化系统资源时序关联特征向量以得到所述优化系统资源多参数融合特征向量。
相应的,在一种可能的实现方式中,可通过以下步骤融合所述优化CPU利用率时序特征向量、所述优化内存使用量时序特征向量、所述优化磁盘空间时序特征向量和所述优化系统资源时序关联特征向量以得到所述优化系统资源多参数融合特征向量,例如:对优化的CPU利用率时序特征向量、优化的内存使用量时序特征向量、优化的磁盘空间时序特征向量和优化的系统资源时序关联特征向量进行标准化,确保它们具有相似的尺度和范围;将每个特征向量乘以对应的加权因数,得到加权优化的特征向量。对于优化的CPU利用率时序特征向量,将其每个分量乘以第一加权因数;对于优化的内存使用量时序特征向量,将其每个分量乘以第二加权因数;对于优化的磁盘空间时序特征向量,将其每个分量乘以第三加权因数;对于优化的系统资源时序关联特征向量,将其每个分量乘以第四加权因数;将加权优化的特征向量按照某种方式进行融合。常见的融合方法包括简单的加权求和、特征串联、特征平均等。选择适当的融合方法取决于具体的应用场景和模型需求;对融合后的特征向量进行必要的降维处理,以减少特征的维度和复杂度。常用的降维方法包括主成分分析(PCA)、线性判别分析(LDA)等;最终得到优化的系统资源多参数融合特征向量,该特征向量综合考虑了CPU利用率、内存使用量、磁盘空间和系统资源时序关联等多个方面的信息,并经过加权优化和融合处理,具有更好的表达能力和代表性。
值得一提的是,在本申请的其他具体示例中,还可以通过其他方式对所述系统资源多参数融合特征向量进行特征分布优化以得到优化系统资源多参数融合特征向量,例如:对系统资源多参数融合特征向量进行分析和理解,了解每个特征的含义和重要性。这可以通过可视化、统计分析和领域专家的知识来实现;在进行特征分布优化之前,对特征向量进行预处理。常见的预处理方法包括特征缩放、特征编码(如独热编码)、特征平滑化、特征降维等;对每个特征进行分布分析,包括观察特征的直方图、密度图、箱线图等。这有助于了解特征的分布情况、异常值和离群点等;根据特征分布的情况,考虑对特征进行转换,使其更符合优化的要求。常见的特征转换方法包括对数转换、指数转换、平方根转换、Box-Cox转换等;对特征进行标准化,以消除特征之间的量纲差异。常见的标准化方法包括Z-score标准化和最小-最大标准化;根据特征的重要性和相关性,选择最具有代表性的特征子集。可以使用特征选择算法(如相关系数、方差阈值、L1正则化等)来确定最佳特征子集;根据特征的领域知识和经验,生成新的特征。这可以通过特征组合、特征交互、特征衍生等方式实现;对高维特征进行降维,以减少特征的数量和复杂度。常见的降维方法包括主成分分析(PCA)、线性判别分析(LDA)、因子分析等;根据前面的步骤,对系统资源多参数融合特征向量进行优化。这包括对特征分布进行调整、特征选择和生成、特征降维等操作,以得到优化后的特征向量;使用优化后的系统资源多参数融合特征向量进行模型训练和评估。可以使用机器学习算法或其他相关方法来构建模型,并使用交叉验证等技术评估模型的性能。
更具体地,所述异常分类子单元3332,用于将所述优化系统资源多参数融合特征向量通过分类器以得到分类结果,所述分类结果用于表示用户任务被执行的过程中是否存在异常。也就是,将所述CPU利用率、所述内存使用量和所述磁盘空间分别在时间维度上的时序变化特征信息以及所述系统资源使用数据中各数据项的时序协同关联特征信息的融合特征来进行分类处理,以此来综合监测任务执行过程中的异常,如任务失败、资源故障等,并触发相应的处理机制,如重新分配任务或请求故障恢复,从而保证系统的稳定性和可靠性。具体地,使用所述分类器的多个全连接层对所述优化系统资源多参数融合特征向量进行全连接编码以得到编码分类特征向量;以及,将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。
分类器(Classifier)是指一种机器学习模型或算法,用于将输入数据分为不同的类别或标签。分类器是监督学习的一部分,它通过学习从输入数据到输出类别的映射关系来进行分类任务。
全连接层(Fully Connected Layer)是神经网络中常见的一种层类型。在全连接层中,每个神经元都与上一层的所有神经元相连接,每个连接都有一个权重。这意味着全连接层中的每个神经元都接收来自上一层所有神经元的输入,并通过权重对这些输入进行加权求和,然后将结果传递给下一层。
Softmax分类函数是一种常用的激活函数,用于多分类问题。它将输入向量的每个元素转化为一个介于0和1之间的概率值,并且这些概率值的和等于1。Softmax函数常用于神经网络的输出层,特别适用于多分类问题,因为它能够将网络输出映射为各个类别的概率分布。在训练过程中,Softmax函数的输出可以用于计算损失函数,并通过反向传播算法来更新网络参数。值得注意的是,Softmax函数的输出并不会改变元素之间的相对大小关系,只是对其进行了归一化处理。因此,Softmax函数并不改变输入向量的特性,只是将其转化为概率分布形式。
值得一提的是,在本申请的其他具体示例中,还可以通过其他方式基于所述系统资源多参数融合特征,确定用户任务被执行的过程中是否存在异常,例如:获得系统资源多参数融合特征向量,该特征向量综合考虑了CPU利用率、内存使用量、磁盘空间和系统资源关联特征的信息;选择适当的异常检测算法来建立模型。常用的异常检测方法包括基于统计的方法(如均值-方差模型、离群点检测等)、基于机器学习的方法(如支持向量机、随机森林、神经网络等)和基于深度学习的方法(如自编码器、变分自编码器等)。根据具体情况选择适合的模型;将收集到的系统资源多参数融合特征向量划分为训练集和测试集。训练集用于模型的训练,而测试集用于评估模型的性能;使用训练集对异常检测模型进行训练。根据所选的异常检测算法,通过优化模型参数来拟合训练数据,使模型能够识别正常的系统资源行为;使用训练好的模型对测试集中的系统资源多参数融合特征进行异常检测。模型将根据训练数据中的模式来判断测试数据是否与正常行为相符,如果与正常行为不符,则被视为异常;根据实际需求和模型性能,可以设定一个异常阈值,用于决定何时将系统资源的行为标记为异常。超过该阈值的特征向量将被判定为异常;根据异常检测的结果,对被判定为异常的系统资源行为进行处理。可能的处理方式包括发出警报、记录异常事件、自动化修复等;使用测试集评估异常检测模型的性能,包括准确率、召回率、精确率等指标。根据评估结果,对模型进行优化,如调整异常阈值、调整模型参数等。
值得一提的是,在本申请的其他具体示例中,还可以通过其他方式实时监测所述用户任务的执行和资源利用情况,并自动检测所述用户任务执行过程中的异常情况,例如:确定监测的关键指标,如CPU利用率、内存使用量、磁盘空间等。这些指标应该与用户任务的性能和资源需求相关;确定监测的频率,即多久获取一次系统资源使用数据。根据任务的特性和要求,可以选择不同的监测频率,如每秒、每分钟或每小时;使用操作系统提供的工具、编程接口或第三方库来实时获取系统资源使用数据。根据您选择的监测指标,获取CPU利用率、内存使用量和磁盘空间等数据;将获取的系统资源使用数据进行分析和比较,以确定是否存在异常情况。可以使用阈值或规则来定义异常情况,例如,当CPU利用率超过某个阈值、内存使用量超过某个百分比或磁盘空间低于某个阈值时,被视为异常情况;当检测到异常情况时,可以自动发出警报通知相关人员或系统管理员。警报可以通过电子邮件、短信、即时消息或日志记录等方式发送。此外,还可以采取自动化措施来应对异常情况,如自动清理无效文件、增加资源分配、启动故障转移等;保持持续监测用户任务的执行和资源利用情况,并及时反馈监测结果。定期检查监测系统的性能和准确性,并根据需要进行调整和优化。
特别地,根据本申请的实施例的基于机器学习的智能任务调度系统300的运行过程中,所述分析和优化模块340,用于收集所述用户任务被执行时的数据并进行分析和优化。应可以理解,所述分析和优化模块收集任务执行时的数据,并进行分析和优化,加以外部其它调整信息的注入,如人工复审结果信息等,使之识别出瓶颈和优化机会,提供改进建议,通过强化学习模块对实时监测和调整模块形成闭环的机器学习机制。
值得注意的是,所述分析和优化模块,包括:数据收集:收集系统中的各种数据,包括任务执行数据、资源利用数据、系统负载数据、历史任务状态等、这些数据可能来自监控系统、日志记录、以及外部调整信息注入等。数据分析:数据分析模块应用聚类分析、关联规则挖掘、时间序列分析、异常检测等各种数据分析算法来发现数据中的模式、关联和规律,帮助识别任务执行的模式、资源利用的规律,以及系统性能的瓶颈和优化潜力。机器学习:数据分析模块利用数机器学习技术来发现隐藏在数据中的知识和规律。构建预测模型、分类模型或回归模型,以预测任务的执行时间、资源需求等,并帮助优化任务调度和资源分配决策。数据优化:优化模块利用线性规划、整数规划、遗传算法等方式来对任务执行时间、资源利用率、能耗等进行优化,提高系统的性能和效率。优化与验证:数据分析和优化模块需要评估和验证建立的模型和算法的准确性和有效性。使用交叉验证、指标评估、实验验证等方法来评估模型的性能,并根据评估结果进行模型调整和优化。
特别地,根据本申请的实施例的基于机器学习的智能任务调度系统300的运行过程中,所述强化学习模块350,用于基于从所述分析和优化模块中提取到的数据进行强化学习。应可以理解,所述强化学习模块是一种机器学习方法,提取分析和优化模块中的数据,利用价值函数算法和策略梯度法建立学习模型,对实时监测和调整模块施加有效影响,形成目标学习闭环机制。
值得注意的是,所述强化学习模块将数据分析和优化模块的分析结果、结合实时监测和调整模块的系统运行状态、资源利用情况,以及自适应调度模块的感知信息、预定义调度策略进行适当的状态表示,由于三个模块的数据表现方式是离散的,高维的,所以需要统一降维进行特征值的提取来获得统一的状态表达,才能用于更新策略和做出决策。强化学习模块是根据当前的状态选择动作空间,其动作并不一定是连续性的,例如可以根据数据分析和优化模块的数据,选择对不同的任务调度策略和资源分配方案进行触发学习。也可以是连续性的,例如根据实时监测和调整模块输出的状态对资源分配的参数连续性调节。对动作和行为空间进行评估和反馈是这个模块的关键所在,根据系统的目标和任务需求,设定的奖励函数,使强化学习模块对每一个动作和状态进行评估,对其中有效的动作价值给予梯度性奖励,从而帮助智能任务调度系统快速学习到优秀的调度策略。
如上所述,根据本申请实施例的基于机器学习的智能任务调度系统300可以实现在各种无线终端中,例如具有基于机器学习的智能任务调度算法的服务器等。在一种可能的实现方式中,根据本申请实施例的基于机器学习的智能任务调度系统300可以作为一个软件模块和/或硬件模块而集成到无线终端中。例如,该基于机器学习的智能任务调度系统300可以是该无线终端的操作系统中的一个软件模块,或者可以是针对于该无线终端所开发的一个应用程序;当然,该基于机器学习的智能任务调度系统300同样可以是该无线终端的众多硬件模块之一。
替换地,在另一示例中,该基于机器学习的智能任务调度系统300与该无线终端也可以是分立的设备,并且该基于机器学习的智能任务调度系统300可以通过有线和/或无线网络连接到该无线终端,并且按照约定的数据格式来传输交互信息。
进一步地,还提供一种基于机器学习的智能任务调度方法。
图6为根据本申请实施例的基于机器学习的智能任务调度方法的流程图。如图6所述,根据本申请的实施例的基于机器学习的智能任务调度方法,包括步骤:S1,接收用户任务;S2,根据系统状态和环境变化,调整任务调度策略;S3,实时监测所述用户任务的执行和资源利用情况,并自动检测所述用户任务执行过程中的异常情况;S4,收集所述用户任务被执行时的数据并进行分析和优化;以及,S5,基于从所述分析和优化模块中提取到的数据进行强化学习。
综上,根据本申请实施例的基于机器学习的智能任务调度方法被阐明,其通过监测任务执行过程中的系统资源使用数据,并在后端引入数据处理和分析算法来进行数据分析以检测任务执行过程中的异常情况,如任务失败、资源故障等,通过这样的方式,能够及时识别出异常情况并触发相应的处理机制,如重新分配任务或请求故障恢复,从而保证系统的稳定性和可靠性。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (10)

1.一种基于机器学习的智能任务调度系统,其特征在于,包括:
任务接收模块,用于接收用户任务;
自适应调度模块,用于根据系统状态和环境变化,调整任务调度策略;
实时监测和调整模块,用于实时监测所述用户任务的执行和资源利用情况,并自动检测所述用户任务执行过程中的异常情况;
分析和优化模块,用于收集所述用户任务被执行时的数据并进行分析和优化;以及
强化学习模块,用于基于从所述分析和优化模块中提取到的数据进行强化学习。
2.根据权利要求1所述的基于机器学习的智能任务调度系统,其特征在于,所述实时监测和调整模块,包括:
系统资源数据采集单元,用于获取所述用户任务被执行过程中的多个预定时间点的系统资源使用数据,其中 ,所述系统资源使用数据包括CPU利用率、内存使用量和磁盘空间;
系统资源数据时序关联编码单元,用于将所述多个预定时间点的系统资源使用数据进行时序关联分析以得到系统资源多参数融合特征;
任务执行异常检测单元,用于基于所述系统资源多参数融合特征,确定用户任务被执行的过程中是否存在异常。
3.根据权利要求2所述的基于机器学习的智能任务调度系统,其特征在于,所述系统资源数据时序关联编码单元,包括:
资源数据参数时序排列子单元,用于将所述多个预定时间点的系统资源使用数据按照时间维度进行数据整理以得到CPU利用率时序输入向量、内存使用量时序输入向量和磁盘空间时序输入向量;
资源数据时序变化特征提取子单元,用于通过基于深度神经网络模型的时序特征提取器分别对所述CPU利用率时序输入向量、所述内存使用量时序输入向量和所述磁盘空间时序输入向量进行特征提取以得到CPU利用率时序特征向量、内存使用量时序特征向量和磁盘空间时序特征向量;
资源数据时序关联特征提取子单元,用于对所述CPU利用率时序特征向量、所述内存使用量时序特征向量和所述磁盘空间时序特征向量进行关联编码以得到系统资源时序关联特征向量;
资源数据时序特征融合子单元,用于融合所述CPU利用率时序特征向量、所述内存使用量时序特征向量、所述磁盘空间时序特征向量和所述系统资源时序关联特征向量以得到系统资源多参数融合特征向量作为所述系统资源多参数融合特征。
4.根据权利要求3所述的基于机器学习的智能任务调度系统,其特征在于,所述深度神经网络模型为一维卷积神经网络模型。
5.根据权利要求4所述的基于机器学习的智能任务调度系统,其特征在于,所述资源数据时序关联特征提取子单元,用于:将所述CPU利用率时序输入向量、所述内存使用量时序输入向量和所述磁盘空间时序输入向量排列为系统资源时序关联矩阵后通过基于二维卷积神经网络模型的系统资源关联特征提取器以得到所述系统资源时序关联特征向量。
6.根据权利要求5所述的基于机器学习的智能任务调度系统,其特征在于,所述任务执行异常检测单元,包括:
特征分布优化子单元,用于对所述系统资源多参数融合特征向量进行特征分布优化以得到优化系统资源多参数融合特征向量;以及
异常分类子单元,用于将所述优化系统资源多参数融合特征向量通过分类器以得到分类结果,所述分类结果用于表示用户任务被执行的过程中是否存在异常。
7.根据权利要求6所述的基于机器学习的智能任务调度系统,其特征在于,所述特征分布优化子单元,包括:
特征分布优化二级子单元,用于基于所述系统资源多参数融合特征向量,分别对所述CPU利用率时序特征向量、所述内存使用量时序特征向量、所述磁盘空间时序特征向量和所述系统资源时序关联特征向量进行特征分布优化以得到优化CPU利用率时序特征向量、优化内存使用量时序特征向量、优化磁盘空间时序特征向量和优化系统资源时序关联特征向量;以及
优化特征融合二级子单元,用于融合所述优化CPU利用率时序特征向量、所述优化内存使用量时序特征向量、所述优化磁盘空间时序特征向量和所述优化系统资源时序关联特征向量以得到所述优化系统资源多参数融合特征向量。
8.根据权利要求7所述的基于机器学习的智能任务调度系统,其特征在于,所述特征分布优化二级子单元,包括:
加权因数计算三级子单元,用于基于所述系统资源多参数融合特征向量,分别计算所述CPU利用率时序特征向量、所述内存使用量时序特征向量、所述磁盘空间时序特征向量和所述系统资源时序关联特征向量的可转移特征的量化的可转移性感知因数以得到第一至第四加权因数;以及
加权优化三级子单元,用于将所述第一至第四加权因数作为加权系数对所述系统资源多参数融合特征向量,分别计算所述CPU利用率时序特征向量、所述内存使用量时序特征向量、所述磁盘空间时序特征向量和所述系统资源时序关联特征向量进行加权优化以得到所述优化CPU利用率时序特征向量、所述优化内存使用量时序特征向量、所述优化磁盘空间时序特征向量和所述优化系统资源时序关联特征向量。
9.根据权利要求8所述的基于机器学习的智能任务调度系统,其特征在于,所述加权因数计算三级子单元,用于:基于所述系统资源多参数融合特征向量,分别计算所述CPU利用率时序特征向量、所述内存使用量时序特征向量、所述磁盘空间时序特征向量和所述系统资源时序关联特征向量的可转移特征的量化的可转移性感知因数以得到所述第一至第四加权因数;
其中,所述优化公式为:其中/>是所述CPU利用率时序特征向量、所述内存使用量时序特征向量、所述磁盘空间时序特征向量和所述系统资源时序关联特征向量中的第/>个特征向量,/>是所述系统资源多参数融合特征向量,/>是所述CPU利用率时序特征向量、所述内存使用量时序特征向量、所述磁盘空间时序特征向量和所述系统资源时序关联特征向量中的第/>个特征向量的第/>个位置的特征值,/>是所述系统资源多参数融合特征向量的第/>个位置的特征值,/>表示以2为底的对数函数值,且/>是加权超参数,/>是所述第一至第四加权因数中的第/>个加权因数。
10.一种基于机器学习的智能任务调度方法,其特征在于,包括:
接收用户任务;
根据系统状态和环境变化,调整任务调度策略;
实时监测所述用户任务的执行和资源利用情况,并自动检测所述用户任务执行过程中的异常情况;
收集所述用户任务被执行时的数据并进行分析和优化;以及
基于从所述分析和优化模块中提取到的数据进行强化学习。
CN202310950307.7A 2023-07-31 2023-07-31 基于机器学习的智能任务调度系统及其方法 Pending CN116909712A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310950307.7A CN116909712A (zh) 2023-07-31 2023-07-31 基于机器学习的智能任务调度系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310950307.7A CN116909712A (zh) 2023-07-31 2023-07-31 基于机器学习的智能任务调度系统及其方法

Publications (1)

Publication Number Publication Date
CN116909712A true CN116909712A (zh) 2023-10-20

Family

ID=88350933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310950307.7A Pending CN116909712A (zh) 2023-07-31 2023-07-31 基于机器学习的智能任务调度系统及其方法

Country Status (1)

Country Link
CN (1) CN116909712A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117388893A (zh) * 2023-12-11 2024-01-12 深圳市移联通信技术有限责任公司 一种基于gps的多设备定位系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117388893A (zh) * 2023-12-11 2024-01-12 深圳市移联通信技术有限责任公司 一种基于gps的多设备定位系统
CN117388893B (zh) * 2023-12-11 2024-03-12 深圳市移联通信技术有限责任公司 一种基于gps的多设备定位系统

Similar Documents

Publication Publication Date Title
US20220255817A1 (en) Machine learning-based vnf anomaly detection system and method for virtual network management
US20190180379A1 (en) Life insurance system with fully automated underwriting process for real-time underwriting and risk adjustment, and corresponding method thereof
US11762752B2 (en) Facilitating detection of anomalies in data center telemetry
CN112800116A (zh) 一种业务数据的异常检测方法及装置
KR102330423B1 (ko) 이미지 인식 딥러닝 알고리즘을 이용한 온라인 부도 예측 시스템
CN117041017B (zh) 数据中心的智能运维管理方法及系统
JP6210867B2 (ja) データ関連性解析システムおよびデータ管理装置
Saxena et al. Performance evaluation for fleet-based and unit-based prognostic methods
CN114297036A (zh) 数据处理方法、装置、电子设备及可读存储介质
KR102359090B1 (ko) 실시간 기업정보시스템 이상행위 탐지 서비스를 제공하는 방법과 시스템
CN116909712A (zh) 基于机器学习的智能任务调度系统及其方法
CN116881744B (zh) 一种基于物联网的运维数据分发方法、装置、设备及介质
Gupta et al. A supervised deep learning framework for proactive anomaly detection in cloud workloads
CN111949496B (zh) 一种数据检测方法及装置
CN115983497A (zh) 一种时序数据预测方法和装置、计算机设备、存储介质
KR101960755B1 (ko) 미취득 전력 데이터 생성 방법 및 장치
US20200311597A1 (en) Automatic weibull reliability prediction and classification
Magableh et al. A deep recurrent Q network towards self‐adapting distributed microservice architecture
CN117422181A (zh) 一种基于模糊标签的代发客户流失预警方法及系统
Casimiro et al. A probabilistic model checking approach to self-adapting machine learning systems
US20170109637A1 (en) Crowd-Based Model for Identifying Nonconsecutive Executions of a Business Process
CN116804964A (zh) 数据处理方法、装置、电子设备及可读存储介质
CN109978038B (zh) 一种集群异常判定方法及装置
CN110990236A (zh) 一种基于隐马尔科夫随机场的SaaS软件性能问题识别方法
Jehangiri et al. Distributed predictive performance anomaly detection for virtualised platforms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination