CN109271301A - 一种学习任务的监控方法和设备 - Google Patents

一种学习任务的监控方法和设备 Download PDF

Info

Publication number
CN109271301A
CN109271301A CN201811027318.3A CN201811027318A CN109271301A CN 109271301 A CN109271301 A CN 109271301A CN 201811027318 A CN201811027318 A CN 201811027318A CN 109271301 A CN109271301 A CN 109271301A
Authority
CN
China
Prior art keywords
learning tasks
information
monitoring information
monitoring
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811027318.3A
Other languages
English (en)
Inventor
张�浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201811027318.3A priority Critical patent/CN109271301A/zh
Publication of CN109271301A publication Critical patent/CN109271301A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Alarm Systems (AREA)

Abstract

本发明公开了一种学习任务的监控方法和设备,该方法包括:当创建一个学习任务后,获取所创建的学习任务的标识;在所述学习任务的生命周期内,利用所述学习任务的标识从所采集并存储的资源的监控信息中,读取与所述学习任务相关的信息;对所读取的信息进行处理,得到所述学习任务的监控信息,并存储到所述数据库中;其中,所述学习任务的监控信息包括学习任务的实时信息和统计信息;所述学习任务的生命周期指由所述学习任务启动到所述学习任务结束运行的时间段。本发明实施例的学习任务的监控方法可以有效地对任务进行监控,更直观地观察任务的运行情况,有利于系统的运维。

Description

一种学习任务的监控方法和设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种学习任务的监控方法和设备。
背景技术
在人工智能时代,机器学习应用于越来越多的领域,学习任务往往需要大量的计算,使用分布式的学习任务使得计算时间大大缩短。一种具体的实现方法是使用kubernetes(容器集群的管理平台)管理集群,创建分布式的学习任务。具体的,创建学习任务时会建立一个kubernetes的Job(kubernetes编排容器的一种方式)任务。
运行的Job任务会在多个节点上创建容器,这些容器承担计算任务并且运行完后就会消失掉。目前,监控kubernetes集群的方法,只能监控单个节点的节点信息,和节点上运行的容器的信息,但并不能从任务的层面进行监控,对于Job这种会消失的任务更难监控。
发明内容
本发明的主要目的在于提供一种学习任务的监控方法和设备,可以有效地对任务进行监控,更直观地观察任务的运行情况,有利于系统的运维。
为了解决上述技术问题,本发明提供了一种学习任务的监控方法,包括:
当创建一个学习任务后,获取所创建的学习任务的标识;
在所述学习任务的生命周期内,利用所述学习任务的标识从所采集并存储的资源的监控信息中,读取与所述学习任务相关的信息;对所读取的信息进行处理,得到所述学习任务的监控信息,并存储到所述数据库中;
其中,所述学习任务的监控信息包括学习任务的实时信息和统计信息;所述学习任务的生命周期指由所述学习任务启动到所述学习任务结束运行的时间段。
可选地,所述对所述读取的信息进行处理包括:
对所述读取的信息进行以下操作中的至少一项:
加法运算、减法运算、乘法运算、除法运算、数学进制的转换、数据的拼接、幂运算、数值的比较。
可选地,所述利用所述学习任务的标识从所采集并存储的资源的监控信息中,读取与所述学习任务相关的信息包括:
在所采集并存储的资源的监控信息中,查找所处理的任务对应的任务标识为所述学习任务的标识的容器,读取所查找到的容器的监控信息,或所查找到的容器以及所述容器所在节点的监控信息。
可选地,所述在所述学习任务的生命周期内,利用所述学习任务的标识从所采集并存储的资源的监控信息中,读取与所述学习任务相关的信息;对所读取的信息进行处理,得到所述学习任务的监控信息,并存储到所述数据库中包括:
在所述学习任务的生命周期内,以预设的周期利用所述学习任务的标识从所采集并存储的资源的监控信息中读取与所述学习任务相关的信息;并对所述读取的信息进行处理,得到所述学习任务的监控信息,并存储到所述数据库中;其中,所述预设的周期是创建所述学习任务时设置的。
可选地,在所述学习任务的生命周期内,利用所述学习任务的标识从所采集并存储的资源的监控信息中,读取与所述学习任务相关的信息;对所读取的信息进行处理,得到所述学习任务的监控信息,并存储到所述数据库中之后,所述方法还包括:
在所述学习任务的生命周期结束之后,按照预设的规则对存储到所述数据库的所述学习任务的监控信息执行以下操作之一:
删除全部的所述学习任务的监控信息;
删除所述学习任务的监控信息中的实时信息,保留所述监控信息中的统计信息;
保留所述学习任务的监控信息中指定保留的信息,删除所述监控信息中的其余信息;
保留全部的所述学习任务的监控信息;
对所述学习任务的监控信息以预定的处理方式进行处理,保留处理后的所述深度学习任务的监控信息。
为了解决上述问题,本发明还提供了一种学习任务的监控设备,包括:存储器和处理器;其中:
所述存储器,用于存储用于学习任务的监控的程序;
所述处理器,用于读取执行所述用于学习任务的监控的程序,执行如下操作:
当创建一个学习任务后,获取所创建的学习任务的标识;
在所述学习任务的生命周期内,利用所述学习任务的标识从所采集并存储的资源的监控信息中,读取与所述学习任务相关的信息;对所读取的信息进行处理,得到所述学习任务的监控信息,并存储到所述数据库中;
其中,所述学习任务的监控信息包括学习任务的实时信息和统计信息;所述学习任务的生命周期指由所述学习任务启动到所述学习任务结束运行的时间段。
可选地,所述对所述读取的信息进行处理包括:
对所述读取的信息进行以下操作中的至少一项:
加法运算、减法运算、乘法运算、除法运算、数学进制的转换、数据的拼接、幂运算、数值的比较。
可选地,所述利用所述学习任务的标识从所采集并存储的资源的监控信息中,读取与所述学习任务相关的信息包括:
在所采集并存储的资源的监控信息中,查找所处理的任务对应的任务标识为所述学习任务的标识的容器,读取所查找到的容器的监控信息,或所查找到的容器以及所述容器所在节点的监控信息。
可选地,所述在所述学习任务的生命周期内,利用所述学习任务的标识从所采集并存储的资源的监控信息中,读取与所述学习任务相关的信息;对所读取的信息进行处理,得到所述学习任务的监控信息,并存储到所述数据库中包括:
在所述学习任务的生命周期内,以预设的周期利用所述学习任务的标识从所采集并存储的资源的监控信息中读取与所述学习任务相关的信息;并对所述读取的信息进行处理,得到所述学习任务的监控信息,并存储到所述数据库中;其中,所述预设的周期是创建所述学习任务时设置的。
可选地,所述处理器读取执行所述用于学习任务的监控的程序,还执行如下操作:
在所述学习任务的生命周期内,利用所述学习任务的标识从所采集并存储的资源的监控信息中,读取与所述学习任务相关的信息;对所读取的信息进行处理,得到所述学习任务的监控信息,并存储到所述数据库中之后,
在所述学习任务的生命周期结束之后,按照预设的规则对存储到所述数据库的所述学习任务的监控信息执行以下操作之一:
删除全部的所述学习任务的监控信息;
删除所述学习任务的监控信息中的实时信息,保留所述监控信息中的统计信息;
保留所述学习任务的监控信息中指定保留的信息,删除所述监控信息中的其余信息;
保留全部的所述学习任务的监控信息;
对所述学习任务的监控信息以预定的处理方式进行处理,保留处理后的所述深度学习任务的监控信息。
综上,根据本发明实施例提出的学习任务的监控方法和设备,当创建一个学习任务后,获取所创建的学习任务的标识;在所述学习任务的生命周期内,利用所述学习任务的标识从所采集并存储的资源的监控信息中,读取与所述学习任务相关的信息;对所读取的信息进行处理,得到所述学习任务的监控信息,并存储到所述数据库中;其中,所述学习任务的监控信息包括学习任务的实时信息和统计信息;所述学习任务的生命周期指由所述学习任务启动到所述学习任务结束运行的时间段。本发明实施例的学习任务的监控方法可以有效地对任务进行监控,更直观地观察任务的运行情况,有利于系统的运维。
附图说明
图1为本发明实施例的学习任务的监控方法的流程图。
图2为本发明实施例的学习任务的监控设备的结构示意图。
图3为本发明的应用示例的学习任务的监控设备的具体的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
图1是本发明实施例的学习任务的监控方法的流程图。根据图1的流程图,本实施例的学习任务的监控方法包括以下步骤:
步骤S1:当创建一个学习任务后,获取所创建的学习任务的标识。
步骤S2:在所述学习任务的生命周期内,利用所述学习任务的标识从所采集并存储的资源的监控信息中,读取与所述学习任务相关的信息;对所读取的信息进行处理,得到所述学习任务的监控信息,并存储到所述数据库中。
在上述步骤S2中,所述学习任务的监控信息包括学习任务的实时信息和统计信息;所述学习任务的生命周期指由所述学习任务启动到所述学习任务结束运行的时间段。
在一个示例性的实施例中,资源的监控信息是定时采集并存储的。
可选地,所述对所述读取的信息进行处理包括:
对所述读取的信息进行以下操作中的至少一项:
加法运算、减法运算、乘法运算、除法运算、数学进制的转换、数据的拼接、幂运算、数值的比较。
可选地,所述利用所述学习任务的标识从所采集并存储的资源的监控信息中,读取与所述学习任务相关的信息包括:
在所采集并存储的资源的监控信息中,查找所处理的任务对应的任务标识为所述学习任务的标识的容器,读取所查找到的容器的监控信息,或所查找到的容器以及所述容器所在节点的监控信息。
在一个示例性的实施例中,上述的学习任务是分布式的学习任务,该学习任务可以在多个节点上创建多个容器。
在另一个示例性的实施例中,在学习任务创建容器时,可以将该学习任务的标识下发给容器。其中,在定时采集资源的监控信息时,若该资源是容器时,需要采集容器所处理的任务对应的任务标识。
可选地,所述在所述学习任务的生命周期内,利用所述学习任务的标识从所采集并存储的资源的监控信息中,读取与所述学习任务相关的信息;对所读取的信息进行处理,得到所述学习任务的监控信息,并存储到所述数据库中包括:
在所述学习任务的生命周期内,以预设的周期利用所述学习任务的标识从所采集并存储的资源的监控信息中读取与所述学习任务相关的信息;并对所述读取的信息进行处理,得到所述学习任务的监控信息,并存储到所述数据库中;其中,所述预设的周期是创建所述学习任务时设置的。
在一个示例性的实施例中,在创建学习任务时,可以根据学习任务的计算量和系统的负载情况估计该学习任务的最小的生命周期,并根据学习任务的重要程度和该学习任务的最小的生命周期为学习任务设置预设的周期。其中,预设的周期小于学习任务的最小的生命周期。
在另一个示例性的实施例中,可以在创建所述学习任务时设置监控次数的阈值。在学习任务的监控过程中,可以记录读取与学习任务相关的信息,得到学习任务的监控信息的次数;若记录的次数超过预设的阈值,则不再执行如下操作:
以预设的周期利用所述学习任务的标识从所采集并存储的资源的监控信息中读取与学习任务相关的信息;并对所述读取的信息进行处理,得到所述学习任务的监控信息,并存储到所述数据库中。
设置监控次数的阈值是为了避免在任务出现异常时,无限次数地读取与学习任务相关的信息,以及对所述读取的信息进行处理,得到所述学习任务的监控信息,并存储到所述数据库中,导致资源被严重浪费的情况的发生。在极端情况下,数据库的空间可能会被完全占满,导致系统出现其他问题。
在另一个示例性的实施例中,还可以通过输入命令去触发单次的如下操作:
利用所述学习任务的标识从所采集并存储的资源的监控信息中读取与所述学习任务相关的信息;并对所述读取的信息进行处理,得到所述学习任务的监控信息,并存储到所述数据库中。
在另一个示例性的实施例中,还可以通过输入命令去触发停止如下操作:
以预设的周期利用所述学习任务的标识从所采集并存储的资源的监控信息中读取与学习任务相关的信息;并对所述读取的信息进行处理,得到所述学习任务的监控信息,并存储到所述数据库中。
在另一个示例性的实施例中,还可以在学习任务的生命周期内,通过输入命令改变预设的周期。当然,输入的命令还可以输入监控的次数,输入对监控信息进行显示等等,本申请对此并不做限定。
在一个示例性的实施例中,可以根据运维或客户的要求,针对学习任务的监控信息为告警策略提供任务层面的告警项。得到所述学习任务的监控信息后,检测学习任务的监控信息是否满足任务层面的告警条件,若满足,则上报相应的告警。
在一个示例性的实施例中,可以提供接口展示学习任务的监控信息。
可选地,在所述学习任务的生命周期内,利用所述学习任务的标识从所采集并存储的资源的监控信息中,读取与所述学习任务相关的信息;对所读取的信息进行处理,得到所述学习任务的监控信息,并存储到所述数据库中之后,所述方法还包括:
在所述学习任务的生命周期结束之后,按照预设的规则对存储到所述数据库的所述学习任务的监控信息执行以下操作之一:
删除全部的所述学习任务的监控信息;
删除所述学习任务的监控信息中的实时信息,保留所述监控信息中的统计信息;
保留所述学习任务的监控信息中指定保留的信息,删除所述监控信息中的其余信息;
保留全部的所述学习任务的监控信息;
对所述学习任务的监控信息以预定的处理方式进行处理,保留处理后的所述深度学习任务的监控信息。
在一个示例性的实施例中,上述预设的规则可以按照学习任务的特点为不同的学习任务制定不同的规则。该学习任务的特点可以包括学习任务的生命周期的长短、学习任务的重要程度、学习任务的运算量或学习任务的类别等等。
综上,本发明实施例提出的学习任务的监控方法可以有效地对任务进行监控,更直观地观察任务的运行情况,有利于系统的运维。
图2是本发明实施例的学习任务的监控方法的结构示意图。根据图2所示的示意图,本实施例的学习任务的监控方法,包括存储器100和处理器200。其中:
所述存储器100,用于存储用于学习任务的监控的程序;
所述处理器200,用于读取执行所述用于学习任务的监控的程序,执行如下操作:
当创建一个学习任务后,获取所创建的学习任务的标识;
在所述学习任务的生命周期内,利用所述学习任务的标识从所采集并存储的资源的监控信息中,读取与所述学习任务相关的信息;对所读取的信息进行处理,得到所述学习任务的监控信息,并存储到所述数据库中;
其中,所述学习任务的监控信息包括学习任务的实时信息和统计信息;所述学习任务的生命周期指由所述学习任务启动到所述学习任务结束运行的时间段。
在一个示例性的实施例中,资源的监控信息是定时采集并存储的。
可选地,所述对所述读取的信息进行处理包括:
对所述读取的信息进行以下操作中的至少一项:
加法运算、减法运算、乘法运算、除法运算、数学进制的转换、数据的拼接、幂运算、数值的比较。
可选地,所述利用所述学习任务的标识从所采集并存储的资源的监控信息中,读取与所述学习任务相关的信息包括:
在所采集并存储的资源的监控信息中,查找所处理的任务对应的任务标识为所述学习任务的标识的容器,读取所查找到的容器的监控信息,或所查找到的容器以及所述容器所在节点的监控信息。
在一个示例性的实施例中,上述的学习任务是分布式的学习任务,该学习任务可以在多个节点上创建多个容器。
在另一个示例性的实施例中,在学习任务创建容器时,可以将该学习任务的标识下发给容器。其中,在定时采集资源的监控信息时,若该资源是容器时,需要采集容器所处理的任务对应的任务标识。
可选地,所述在所述学习任务的生命周期内,利用所述学习任务的标识从所采集并存储的资源的监控信息中,读取与所述学习任务相关的信息;对所读取的信息进行处理,得到所述学习任务的监控信息,并存储到所述数据库中包括:
在所述学习任务的生命周期内,以预设的周期利用所述学习任务的标识从所采集并存储的资源的监控信息中读取与所述学习任务相关的信息;并对所述读取的信息进行处理,得到所述学习任务的监控信息,并存储到所述数据库中;其中,所述预设的周期是创建所述学习任务时设置的。
在一个示例性的实施例中,在创建学习任务时,可以根据学习任务的计算量和系统的负载情况估计该学习任务的最小的生命周期,并根据学习任务的重要程度和该学习任务的最小的生命周期为学习任务设置预设的周期。其中,预设的周期小于学习任务的最小的生命周期。
在另一个示例性的实施例中,可以在创建所述学习任务时设置监控次数的阈值。在学习任务的监控过程中,可以记录读取与学习任务相关的信息,得到学习任务的监控信息的次数;若记录的次数超过预设的阈值,则不再执行如下操作:
以预设的周期利用所述学习任务的标识从所采集并存储的资源的监控信息中读取与学习任务相关的信息;并对所述读取的信息进行处理,得到所述学习任务的监控信息,并存储到所述数据库中。
设置监控次数的阈值是为了避免在任务出现异常时,无限次数地读取与学习任务相关的信息,以及对所述读取的信息进行处理,得到所述学习任务的监控信息,并存储到所述数据库中,导致资源被严重浪费的情况的发生。在极端情况下,数据库的空间可能会被完全占满,导致系统出现其他问题。
在另一个示例性的实施例中,还可以通过输入命令去触发单次的如下操作:
利用所述学习任务的标识从所采集并存储的资源的监控信息中读取与所述学习任务相关的信息;并对所述读取的信息进行处理,得到所述学习任务的监控信息,并存储到所述数据库中。
在另一个示例性的实施例中,所述处理器读取执行所述用于学习任务的监控的程序,还可以执行如下操作:
通过输入命令去触发停止如下操作:
以预设的周期利用所述学习任务的标识从所采集并存储的资源的监控信息中读取与学习任务相关的信息;并对所述读取的信息进行处理,得到所述学习任务的监控信息,并存储到所述数据库中。
在另一个示例性的实施例中,还可以在学习任务的生命周期内,通过输入命令改变预设的周期。当然,输入的命令还可以输入监控的次数,输入对监控信息进行显示等等,本申请对此并不做限定。
在一个示例性的实施例中,可以根据运维或客户的要求,针对学习任务的监控信息为告警策略提供任务层面的告警项。所述处理器读取执行所述用于学习任务的监控的程序,还可以执行如下操作:
得到所述学习任务的监控信息后,检测学习任务的监控信息是否满足任务层面的告警条件,若满足,则上报相应的告警。
在一个示例性的实施例中,可以提供接口展示学习任务的监控信息。
可选地,所述处理器读取执行所述用于学习任务的监控的程序,还执行如下操作:
在所述学习任务的生命周期内,利用所述学习任务的标识从所采集并存储的资源的监控信息中,读取与所述学习任务相关的信息;对所读取的信息进行处理,得到所述学习任务的监控信息,并存储到所述数据库中之后,
在所述学习任务的生命周期结束之后,按照预设的规则对存储到所述数据库的所述学习任务的监控信息执行以下操作之一:
删除全部的所述学习任务的监控信息;
删除所述学习任务的监控信息中的实时信息,保留所述监控信息中的统计信息;
保留所述学习任务的监控信息中指定保留的信息,删除所述监控信息中的其余信息;
保留全部的所述学习任务的监控信息;
对所述学习任务的监控信息以预定的处理方式进行处理,保留处理后的所述深度学习任务的监控信息。
在一个示例性的实施例中,上述预设的规则可以按照学习任务的特点为不同的学习任务制定不同的规则。该学习任务的特点可以包括学习任务的生命周期的长短、学习任务的重要程度、学习任务的运算量或学习任务的类别等等。
下面以具体应用示例对上述学习任务的监控方法做进一步的说明。该具体的应用示例的学习任务的监控设备具有如图3所示的具体的结构示意图,包括采集装置、处理装置、数据库和可视化装置。其中,采集装置位于节点上,数据库、可视化装置和处理装置位于某个节点上,如图3所示,位于节点1上。该具体的应用示例包括如下步骤:
步骤一:节点上的采集装置定时采集监控资源的信息,并存储到数据库中。
在本应用示例中,监控资源包括节点以及节点上的容器(图中未示出)。
步骤二:创建学习任务A,得到学习任务A的标识。
步骤三:启动学习任务A,学习任务A在多个节点上创建多个容器。其中,在学习任务A创建容器时,将该学习任务A的标识下发给其所创建的容器。
步骤四:在学习任务A的生命周期内,处理装置利用学习任务A的标识从数据库中,读取与学习任务A相关的信息;对所读取的信息进行处理,得到学习任务A的监控信息。
其中,在步骤四中,在数据库中,查找所处理的任务对应的任务标识为学习任务A的标识的容器,读取所查找到的容器的监控信息。
步骤五:处理装置将学习任务A的监控信息存储到数据库中。
在步骤五中,处理装置还可以检测学习任务A的监控信息是否满足任务层面的告警条件,若满足,则上报相应的告警;若不满足,则不上报告警;之后,再将学习任务A的监控信息存储到数据库中。
步骤六:使用可视化装置展示学习任务A的监控信息。
上述具体应用示例中的步骤之间并没有严格的先后顺序关系,在符合逻辑关系的条件下,上述步骤之间还可以以不同于此处的顺序被执行。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
以上仅为本发明的优选实施例,当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (10)

1.一种学习任务的监控方法,包括:
当创建一个学习任务后,获取所创建的学习任务的标识;
在所述学习任务的生命周期内,利用所述学习任务的标识从所采集并存储的资源的监控信息中,读取与所述学习任务相关的信息;对所读取的信息进行处理,得到所述学习任务的监控信息,并存储到所述数据库中;
其中,所述学习任务的监控信息包括学习任务的实时信息和统计信息;所述学习任务的生命周期指由所述学习任务启动到所述学习任务结束运行的时间段。
2.如权利要求1所述的方法,其特征在于,所述对所述读取的信息进行处理包括:
对所述读取的信息进行以下操作中的至少一项:
加法运算、减法运算、乘法运算、除法运算、数学进制的转换、数据的拼接、幂运算、数值的比较。
3.如权利要求1所述的方法,所述利用所述学习任务的标识从所采集并存储的资源的监控信息中,读取与所述学习任务相关的信息包括:
在所采集并存储的资源的监控信息中,查找所处理的任务对应的任务标识为所述学习任务的标识的容器,读取所查找到的容器的监控信息,或所查找到的容器以及所述容器所在节点的监控信息。
4.如权利要求1所述的方法,所述在所述学习任务的生命周期内,利用所述学习任务的标识从所采集并存储的资源的监控信息中,读取与所述学习任务相关的信息;对所读取的信息进行处理,得到所述学习任务的监控信息,并存储到所述数据库中包括:
在所述学习任务的生命周期内,以预设的周期利用所述学习任务的标识从所采集并存储的资源的监控信息中读取与所述学习任务相关的信息;并对所述读取的信息进行处理,得到所述学习任务的监控信息,并存储到所述数据库中;其中,所述预设的周期是创建所述学习任务时设置的。
5.如权利要求1至4中任一项所述的方法,其特征在于,在所述学习任务的生命周期内,利用所述学习任务的标识从所采集并存储的资源的监控信息中,读取与所述学习任务相关的信息;对所读取的信息进行处理,得到所述学习任务的监控信息,并存储到所述数据库中之后,所述方法还包括:
在所述学习任务的生命周期结束之后,按照预设的规则对存储到所述数据库的所述学习任务的监控信息执行以下操作之一:
删除全部的所述学习任务的监控信息;
删除所述学习任务的监控信息中的实时信息,保留所述监控信息中的统计信息;
保留所述学习任务的监控信息中指定保留的信息,删除所述监控信息中的其余信息;
保留全部的所述学习任务的监控信息;
对所述学习任务的监控信息以预定的处理方式进行处理,保留处理后的所述深度学习任务的监控信息。
6.一种学习任务的监控设备,包括:存储器和处理器;其中:
所述存储器,用于存储用于学习任务的监控的程序;
所述处理器,用于读取执行所述用于学习任务的监控的程序,执行如下操作:
当创建一个学习任务后,获取所创建的学习任务的标识;
在所述学习任务的生命周期内,利用所述学习任务的标识从所采集并存储的资源的监控信息中,读取与所述学习任务相关的信息;对所读取的信息进行处理,得到所述学习任务的监控信息,并存储到所述数据库中;
其中,所述学习任务的监控信息包括学习任务的实时信息和统计信息;所述学习任务的生命周期指由所述学习任务启动到所述学习任务结束运行的时间段。
7.如权利要求6所述的装置,其特征在于,所述对所述读取的信息进行处理包括:
对所述读取的信息进行以下操作中的至少一项:
加法运算、减法运算、乘法运算、除法运算、数学进制的转换、数据的拼接、幂运算、数值的比较。
8.如权利要求6所述的装置,其特征在于,所述利用所述学习任务的标识从所采集并存储的资源的监控信息中,读取与所述学习任务相关的信息包括:
在所采集并存储的资源的监控信息中,查找所处理的任务对应的任务标识为所述学习任务的标识的容器,读取所查找到的容器的监控信息,或所查找到的容器以及所述容器所在节点的监控信息。
9.如权利要求6所述的装置,其特征在于,所述在所述学习任务的生命周期内,利用所述学习任务的标识从所采集并存储的资源的监控信息中,读取与所述学习任务相关的信息;对所读取的信息进行处理,得到所述学习任务的监控信息,并存储到所述数据库中包括:
在所述学习任务的生命周期内,以预设的周期利用所述学习任务的标识从所采集并存储的资源的监控信息中读取与所述学习任务相关的信息;并对所述读取的信息进行处理,得到所述学习任务的监控信息,并存储到所述数据库中;其中,所述预设的周期是创建所述学习任务时设置的。
10.如权利要求6至9中任一项所述的装置,其特征在于,所述处理器读取执行所述用于学习任务的监控的程序,还执行如下操作:
在所述学习任务的生命周期内,利用所述学习任务的标识从所采集并存储的资源的监控信息中,读取与所述学习任务相关的信息;对所读取的信息进行处理,得到所述学习任务的监控信息,并存储到所述数据库中之后,
在所述学习任务的生命周期结束之后,按照预设的规则对存储到所述数据库的所述学习任务的监控信息执行以下操作之一:
删除全部的所述学习任务的监控信息;
删除所述学习任务的监控信息中的实时信息,保留所述监控信息中的统计信息;
保留所述学习任务的监控信息中指定保留的信息,删除所述监控信息中的其余信息;
保留全部的所述学习任务的监控信息;
对所述学习任务的监控信息以预定的处理方式进行处理,保留处理后的所述深度学习任务的监控信息。
CN201811027318.3A 2018-09-04 2018-09-04 一种学习任务的监控方法和设备 Pending CN109271301A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811027318.3A CN109271301A (zh) 2018-09-04 2018-09-04 一种学习任务的监控方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811027318.3A CN109271301A (zh) 2018-09-04 2018-09-04 一种学习任务的监控方法和设备

Publications (1)

Publication Number Publication Date
CN109271301A true CN109271301A (zh) 2019-01-25

Family

ID=65188302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811027318.3A Pending CN109271301A (zh) 2018-09-04 2018-09-04 一种学习任务的监控方法和设备

Country Status (1)

Country Link
CN (1) CN109271301A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641549A (zh) * 2021-03-08 2021-11-12 万翼科技有限公司 任务监控方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180006886A1 (en) * 2016-06-29 2018-01-04 International Business Machines Corporation Automatically tuning middleware in a mobilefirst platform running in a docker container infrastructure
CN107918556A (zh) * 2016-10-11 2018-04-17 北京京东尚科信息技术有限公司 一种定时任务在多个服务器的并行执行方法和装置
CN108388472A (zh) * 2018-03-01 2018-08-10 吉林大学 一种基于Docker集群的弹性任务调度系统及方法
CN108427641A (zh) * 2018-01-29 2018-08-21 中国互联网络信息中心 一种基于Docker容器的多任务调度自动化测试方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180006886A1 (en) * 2016-06-29 2018-01-04 International Business Machines Corporation Automatically tuning middleware in a mobilefirst platform running in a docker container infrastructure
CN107918556A (zh) * 2016-10-11 2018-04-17 北京京东尚科信息技术有限公司 一种定时任务在多个服务器的并行执行方法和装置
CN108427641A (zh) * 2018-01-29 2018-08-21 中国互联网络信息中心 一种基于Docker容器的多任务调度自动化测试方法及系统
CN108388472A (zh) * 2018-03-01 2018-08-10 吉林大学 一种基于Docker集群的弹性任务调度系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641549A (zh) * 2021-03-08 2021-11-12 万翼科技有限公司 任务监控方法、装置、电子设备和存储介质
CN113641549B (zh) * 2021-03-08 2024-05-17 万翼科技有限公司 任务监控方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
Burattin et al. Online discovery of declarative process models from event streams
JP6875179B2 (ja) システム分析装置、及びシステム分析方法
Maggi et al. Monitoring business constraints with linear temporal logic: An approach based on colored automata
EP0413485B1 (en) Performance improvement tool for rule based expert systems
US11847130B2 (en) Extract, transform, load monitoring platform
Maggi et al. Online process discovery to detect concept drifts in ltl-based declarative process models
EP2685380A1 (en) Operations management unit, operations management method, and program
CN107111799A (zh) 作业调度和监测
CN107004185A (zh) 用于数据流促动的控制的管线生成
US11928716B2 (en) Recommendation non-transitory computer-readable medium, method, and system for micro services
JP2007328712A (ja) 時系列パターン生成システム及び時系列パターン生成方法
CA2784572A1 (en) Process mining for anomalous cases
US9304991B2 (en) Method and apparatus for using monitoring intent to match business processes or monitoring templates
US20110191128A1 (en) Method and Apparatus for Creating a Monitoring Template for a Business Process
JP2017091113A (ja) イベント解析装置、イベント解析システム、イベント解析方法、およびイベント解析プログラム
Ribeiro et al. Event cube: another perspective on business processes
EP2806383A1 (en) Device and method for collecting and managing information of equipment
CN109189675A (zh) 大数据架构软件测试方法、装置、计算机设备和存储介质
US20130232192A1 (en) Operations task management system and method
CN115380294A (zh) 针对工业机器学习的数据处理
CN109271301A (zh) 一种学习任务的监控方法和设备
US20150024358A1 (en) Stress assessment device, stress assessment method and recording medium
Chang et al. Defect prevention in software processes: An action-based approach
CN114327963A (zh) 一种异常检测方法及装置
CN111737233A (zh) 数据监控方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190125