CN110750423A

CN110750423A - 机器学习平台的运维方法和运维系统

Info

Publication number: CN110750423A
Application number: CN201910987740.1A
Authority: CN
Inventors: 青飞; 黄缨宁; 王昱森; 张俊; 万超; 罗伟锋
Original assignee: 4Paradigm Beijing Technology Co Ltd
Current assignee: 4Paradigm Beijing Technology Co Ltd
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2020-02-04

Abstract

提供了一种机器学习平台的运维方法和运维系统。所述运维方法包括：响应于检测到用于配置机器学习平台的运维数据展示界面的用户操作，显示运维数据展示配置界面；响应于用户在运维数据展示配置界面上执行的配置操作，对运维数据展示界面的显示方式进行配置；响应于检测到用于查看运维数据展示界面的用户操作，按照配置的运维数据展示界面的显示方式显示运维数据展示界面，其中，运维数据展示界面中包括多个展示区域，其中，每个展示区域中可视化地显示与机器学习平台的运维有关的至少一种运维数据。

Description

机器学习平台的运维方法和运维系统

技术领域

本公开总体说来涉及人工智能数据处理技术领域，更具体地讲，涉及一种机器学习平台的运维方法和运维系统。

背景技术

随着人工智能技术的发展，已经能够开发出提供机器学习相关功能的产品以供企业或个人利用提供的产品执行机器学习和机器学习相关应用操作。无论机器学习平台产品被实现为是ToB产品还是ToC产品，提供良好的运维功能将有助于保证平台产品的平稳健康运行，并且有助于提高产品竞争力。然而，目前的机器学习平台很少提供运维功能，即使能够提供运维功能，也无法使用户清晰地获知各个运维数据项的情况，并且运维数据项无法个性化地进行可视化展示。鉴于此，需要能够提供较好运维功能的机器学习平台的运维方法和运维系统。

发明内容

根据本公开的示例性实施例，提供了一种机器学习平台的运维方法，所述运维方法可包括：响应于检测到用于配置机器学习平台的运维数据展示界面的用户操作，显示运维数据展示配置界面；响应于用户在运维数据展示配置界面上执行的配置操作，对运维数据展示界面的显示方式进行配置；响应于检测到用于查看运维数据展示界面的用户操作，按照配置的运维数据展示界面的显示方式显示运维数据展示界面，其中，运维数据展示界面中包括多个展示区域，其中，每个展示区域中可视化地显示与机器学习平台的运维有关的至少一种运维数据。

可选地，对运维数据展示界面的显示方式进行配置可包括对以下项中的至少一项进行配置：运维数据展示界面中展示区域本身的设置情况、以及每个展示区域中期望展示的运维数据的情况。

可选地，运维数据展示界面中展示区域的设置情况可包括展示区域的数量、大小、颜色和布局中的至少一个；每个展示区域中期望展示的运维数据的情况可包括：运维数据的类型、运维数据的名称、运维数据的数量、运维数据的展示时间段、运维数据的标签、运维数据的采集时间、运维数据的刷新时间、运维数据的计算方式、用于展示运维数据的图表类型、关于运维数据的自定义描述中的至少一个。

可选地，所述运维方法还可包括：响应于用于设置运维异常规则的用户操作，显示运维异常规则设置界面；响应于在运维异常规则设置界面上的用户设置操作，设置运维异常规则，其中，设置运维异常规则包括设置以下项中的至少一项：运维异常规则的名称、运维异常规则的优先级别或重要性级别、关于运维异常规则的描述、运维异常规则所涉及的运维数据、运维异常规则所涉及的运维数据的标签、运维异常规则的标签、执行运维异常规则的判断的时间周期、运维异常规则的表达式、确定运维异常需要运维异常规则被满足的持续时间、运维异常规则所涉及的运维数据的阈值相关信息、以及是否启用运维异常通知。

可选地，所述运维方法还可包括：根据设置的运维异常规则，确定是否存在运维异常以及是否需要通知运维异常；响应于确定存在运维异常，产生与运维异常相应的异常通知信息；响应于需要通知运维异常，根据预先设置的异常通知发送策略将异常通知信息发送给相应的接收对象，并且/或者，可视化地向用户展示异常通知信息。

可选地，所述运维方法还可包括：响应于用于设置异常通知发送策略的用户操作，显示异常通知发送策略配置界面；响应于用户在异常通知发送策略配置界面上的设置操作，设置异常通知发送策略，其中，设置异常通知发送策略包括设置以下项中的至少一项：异常通知发送策略的名称、异常通知的发送方式、异常通知的接收对象、异常通知的接收地址、异常通知的格式、异常通知重复发送间隔时间、以及标签列表。

可选地，根据预先设置的异常通知发送策略将异常通知信息发送给相应的接收对象可包括：将异常通知策略中设置的标签列表中包括的标签与该异常通知信息对应的运维异常规则中设置的标签进行匹配；仅当发送策略中设置的标签列表中包括的标签与运维异常规则中设置的标签相同时，根据预先设置的异常通知发送策略将该异常通知信息发送给相应的接收对象。

可选地，可视化地向用户展示异常通知信息可包括：按照用户设置的时间区间，将该时间区间内的所有异常通知信息和/或相关运维数据，可视化地展示给用户，并接收用户的查询请求，以根据查询请求来展示特定异常通知信息和/或相关运维数据。

可选地，可视化地向用户展示异常通知信息包括：按照预定规则将产生的异常通知信息进行整合，并可视化地展示整合后的异常通知信息，其中，按照预定规则将产生的异常通知信息进行整合包括以下操作中的至少一个：按照预定过滤规则将产生的异常通知信息进行过滤；按照预定去重规则将产生的异常通知信息进行去重；以及按照预定合并规则将产生的异常通知信息进行合并。

可选地，按照预定合并规则将产生的异常通知信息进行合并可包括：将由于同一原因引起的多个异常通知信息合并为一个异常通知信息。

可选地，所述运维方法还可包括：响应于用于检索异常通知信息的检索操作，输出与该检索操作相应的异常通知信息，其中，异常通知信息包括异常通知所涉及的运维数据、异常通知时间、异常发生的位置、和异常通知信息的摘要。

可选地，可视化地显示与机器学习平台的运维有关的至少一种运维数据可包括：将与机器学习平台的运维有关的至少一种运维数据与所述至少一个运维数据涉及的运维异常规则融合地进行可视化展示。

可选地，将与机器学习平台的运维有关的至少一种运维数据与所述至少一个运维数据涉及的运维异常规则融合地进行可视化展示可包括：将运维数据与运维异常规则中设置的运维数据的阈值相关信息融合地进行可视化展示；或者将运维数据与预测出的运维数据的阈值相关信息融合地进行可视化展示。

可选地，预测出的运维数据的阈值相关信息可包括预测出的运维数据在下一展示时间段中的各个展示时刻的正常阈值或正常阈值区间，其中，所述运维方法还包括：根据对历史上预定时间段内获得的运维数据的历史信息进行统计分析来预测运维数据在下一展示时间段中的各个展示时刻的正常阈值或正常阈值区间；或者，利用预先训练的机器学习模型，基于历史上预定时间段内获得的运维数据的历史信息来预测运维数据在下一展示时间段中的各个展示时刻的正常阈值或正常阈值区间。

可选地，可视化地显示与机器学习平台的运维有关的至少一种运维数据可包括：可视化地显示所述至少一种运维数据的预测值，其中，利用预设的规则和/或第一机器学习模型，基于先前时刻的所述至少一种运维数据的历史值和/或机器学习平台的状态信息来得到所述预测值。

可选地，可视化地显示与机器学习平台的运维有关的至少一种运维数据可包括：可视化地将所述至少一种运维数据的实际值以及所述至少一种运维数据的预测值进行对比显示。

可选地，所述运维方法还可包括：响应于检测到用于配置运维异常处理流程的用户操作，配置与运维异常对应的异常处理流程；并且在确定存在运维异常的情况下，按照配置的异常处理流程自动处理该运维异常；或者，预先构建关于运维异常处理的知识库；在确定存在运维异常的情况下，基于预先构建的知识库向用户推荐与该运维异常对应的异常处理流程。

可选地，所述运维方法还可包括：利用第二机器学习模型，基于所述至少一种运维数据的预测值以及机器学习平台当前的状态信息，预测下一时间段内可能会出现的运维异常；根据预测出的运维异常，执行对应的运维操作。

可选地，所述至少一种运维数据可以通过以下至少一种方式获得：获取与运维数据有关的日志数据，并根据日志数据获得运维数据；通过预先设置的采集运维数据的接口直接采集运维数据；从外部导入运维数据。

可选地，所述运维方法还可包括：获取并保存与运维数据有关的日志数据；响应于检测到用于检索日志数据的检索操作，可视化地显示与该检索操作相应的日志数据。

可选地，所述运维方法还可包括：响应于用于查看机器学习平台中的应用系统的运维情况的用户操作，显示与该应用系统对应的运维拓扑图，其中，在该运维拓扑图中示出该应用系统的各个节点；响应于用户选择该运维拓扑图中的特定节点，可视化地显示该节点的运维数据和/或与该节点的运维数据有关的信息。

根据本公开另一示例性实施例，提供了一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行如上所述的运维方法。

根据本公开另一示例性实施例，提供了一种包括至少一个计算装置和存储指令的至少一个存储装置的系统，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行如上所述的运维方法。

根据本公开另一示例性实施例，提供了一种机器学习平台的运维系统，所述运维系统包括：显示装置，被配置为响应于检测到用于配置机器学习平台的运维数据展示界面的用户操作，显示运维数据展示配置界面；配置装置，被配置为响应于用户在运维数据展示配置界面上执行的配置操作，对运维数据展示界面的显示方式进行配置，其中，显示装置还被配置为：响应于检测到用于查看运维数据展示界面的用户操作，按照配置的运维数据展示界面的显示方式显示运维数据展示界面，其中，运维数据展示界面中包括多个展示区域，其中，每个展示区域中可视化地显示与机器学习平台的运维有关的至少一种运维数据。

可选地，显示装置还可被配置为响应于用于设置运维异常规则的用户操作，显示运维异常规则设置界面，并且配置装置还被配置为响应于在运维异常规则设置界面上的用户设置操作，设置运维异常规则，其中，设置运维异常规则包括设置以下项中的至少一项：运维异常规则的名称、运维异常规则的优先级别或重要性级别、关于运维异常规则的描述、运维异常规则所涉及的运维数据、运维异常规则所涉及的运维数据的标签、运维异常规则的标签、执行运维异常规则的判断的时间周期、运维异常规则的表达式、确定运维异常需要运维异常规则被满足的持续时间、运维异常规则所涉及的运维数据的阈值相关信息、以及是否启用运维异常通知。

可选地，所述运维系统还可包括：异常通知装置，被配置为：根据设置的运维异常规则，确定是否存在运维异常以及是否需要通知运维异常；响应于确定存在运维异常，产生与运维异常相应的异常通知信息；响应于需要通知运维异常，根据预先设置的异常通知发送策略将异常通知信息发送给相应的接收对象，并且/或者，可视化地向用户展示异常通知信息。

可选地，显示装置还可被配置为响应于用于设置异常通知发送策略的用户操作，显示异常通知发送策略配置界面，并且配置装置还可被配置为响应于用户在异常通知发送策略配置界面上的设置操作，设置异常通知发送策略，其中，设置异常通知发送策略包括设置以下项中的至少一项：异常通知发送策略的名称、异常通知的发送方式、异常通知的接收对象、异常通知的接收地址、异常通知的格式、异常通知重复发送间隔时间、以及标签列表。

可选地，可视化地向用户展示异常通知信息可包括：按照预定规则将产生的异常通知信息进行整合，并可视化地展示整合后的异常通知信息，其中，按照预定规则将产生的异常通知信息进行整合包括以下操作中的至少一个：按照预定过滤规则将产生的异常通知信息进行过滤；按照预定去重规则将产生的异常通知信息进行去重；以及按照预定合并规则将产生的异常通知信息进行合并。

可选地，显示装置还可被配置为响应于用于检索异常通知信息的检索操作，输出与该检索操作相应的异常通知信息，其中，异常通知信息包括异常通知所涉及的运维数据、异常通知时间、异常发生的位置、和异常通知信息的摘要。

可选地，预测出的运维数据的阈值相关信息可包括预测出的运维数据在下一展示时间段中的各个展示时刻的正常阈值或正常阈值区间，其中，所述运维系统还可包括：预测装置，被配置为：根据对历史上预定时间段内获得的运维数据的历史信息进行统计分析来预测运维数据在下一展示时间段中的各个展示时刻的正常阈值或正常阈值区间；或者，利用预先训练的机器学习模型，基于历史上预定时间段内获得的运维数据的历史信息来预测运维数据在下一展示时间段中的各个展示时刻的正常阈值或正常阈值区间。

可选地，所述运维系统还可包括：异常处理装置；其中，配置装置还被配置为响应于检测到用于配置运维异常处理流程的用户操作，配置与运维异常对应的异常处理流程，并且异常处理装置被配置为在确定存在运维异常的情况下，按照配置的异常处理流程自动处理该运维异常；或者，异常处理装置被配置为：预先构建关于运维异常处理的知识库；在确定存在运维异常的情况下，基于预先构建的知识库向用户推荐与该运维异常对应的异常处理流程。

可选地，所述运维系统还可包括：预测装置，被配置为利用第二机器学习模型，基于所述至少一种运维数据的预测值以及机器学习平台当前的状态信息，预测下一时间段内可能会出现的运维异常；异常处理装置，被配置为根据预测出的运维异常，执行对应的运维操作。

可选地，所述至少一种运维数据可通过以下至少一种方式获得：获取与运维数据有关的日志数据，并根据日志数据获得运维数据；通过预先设置的采集运维数据的接口直接采集运维数据；从外部导入运维数据。

可选地，所述运维系统还可包括：日志数据获取装置，被配置为获取并保存与运维数据有关的日志数据；其中，显示装置还被配置为响应于检测到用于检索日志数据的检索操作，可视化地显示与该检索操作相应的日志数据。

可选地，显示装置还可被配置为：响应于用于查看机器学习平台中的应用系统的运维情况的用户操作，显示与该应用系统对应的运维拓扑图，其中，在该运维拓扑图中示出该应用系统的各个节点；响应于用户选择该运维拓扑图中的特定节点，可视化地显示该节点的运维数据和/或与该节点的运维数据有关的信息。

根据本公开实施例的运维方法和运维系统能够实现可视化显示运维数据以便于运维人员直观地了解机器学习平台的情况，并且还可以在出现运维异常时及时通知相关运维人员处理异常，或者自动处理异常。此外，所述运维方法和所述运维系统还可以进行运维异常的智能预测，从而可便于相关人员在异常出现之前就采取必要措施来防止异常发生，进而能够避免异常可能给企业或平台带来的损失。另外，所述运维方法和所述运维系统还能够便于用户直观地查看整个机器学习平台的各应用系统的各个节点的运维情况。

附图说明

从下面结合附图对本公开实施例的详细描述中，本公开的这些和/或其他方面和优点将变得更加清楚且更容易理解，其中：

图1是示出根据本公开示例性实施例的机器学习平台的运维系统的框图；

图2是根据本公开示例性实施例的运维数据展示界面的示例性示图；

图3是根据本公开示例性实施例的运维异常规则设置界面的示例性示图；

图4是根据本公开示例性实施例的用于创建运维异常规则的界面的示例性示图；

图5是根据本公开示例性实施例的显示创建的运维异常规则的列表的示例性示图；

图6是根据本公开示例性实施例的展示运维异常规则的详细信息的示例性示图；

图7是根据本公开示例性实施例的将运维数据与运维数据涉及的运维异常规则融合地进行可视化展示的示例；

图8是根据本公开示例性实施例的用于查看和创建异常通知发送策略的界面的示例性示图；

图9是根据本公开示例性实施例的异常通知发送策略配置界面的示例性示图；

图10是根据本公开示例性实施例的用于显示异常通知信息的界面的示例性示图；

图11是示出根据本公开示例性实施例的机器学习平台的运维方法的流程图。

具体实施方式

为了使本领域技术人员更好地理解本公开，下面结合附图和具体实施方式对本公开的示例性实施例作进一步详细说明。

图1是示出根据本公开示例性实施例的机器学习平台的运维系统(以下，为描述方便，将其简称为“运维系统”)100的框图。如图1所示，运维系统100可包括显示装置110和配置装置120。

具体地，显示装置110可响应于检测到用于配置机器学习平台的运维数据展示界面的用户操作，显示运维数据展示配置界面。例如，这里的用户操作可以是用户利用鼠标或手指点击或触摸显示装置110所显示的页面上的用于配置机器学习平台的运维数据展示界面的菜单、按钮或图标的操作，或者还可以是用户选择预先设置的快捷键的操作，但不限于此。配置装置120可响应于用户在运维数据展示配置界面上执行的配置操作，对运维数据展示界面的显示方式进行配置。

作为示例，对运维数据展示界面的显示方式进行配置可包括对以下项中的至少一项进行配置：运维数据展示界面中展示区域本身的设置情况、以及每个展示区域中期望展示的运维数据的情况。例如，运维数据展示界面中展示区域的设置情况可包括展示区域的数量、大小、颜色和布局中的至少一个，但不限于此。相应地，作为示例，运维数据展示配置界面可包括用于对展示区域的设置情况进行配置的界面，在该界面上，用户可通过菜单选择或手动输入等方式对展示区域的数量、大小、颜色和布局等进行设置。

作为示例，以上提及的每个展示区域中期望展示的运维数据的情况可包括：运维数据的类型(例如，用户定义的运维数据的分类，诸如，计数类运维数据、时序图展示类运维数据等)、运维数据的名称、运维数据的数量、运维数据的展示时间段、运维数据的标签(可以是用户人为定义的运维数据的标识)、运维数据的采集时间、运维数据的刷新时间(即，每多长时间更新运维数据)、运维数据的计算方式、用于展示运维数据的图表类型(诸如，条形图、饼图、环形图、数据表等)、关于运维数据的自定义描述中的至少一个，但不限于此。相应地，作为示例，运维数据展示配置界面可包括用于配置每个展示区域中期望展示的运维数据的情况的界面。例如，运维数据展示配置界面可包括多个与展示区域相应的配置区域，并且用户可分别通过在每个配置区域上的操作来设置每个展示区域中期望展示的运维数据的情况。然而，本领域技术人员清楚的是，对每个展示区域中期望展示的运维数据的情况进行设置的方式不限于分别通过每个配置区域进行设置，例如，也可统一对多个展示区域中期望展示的运维数据的情况进行统一设置，等等。

此外，需要说明的是，尽管以上提及对运维数据展示界面中展示区域的设置情况以及每个展示区域中期望展示的运维数据的情况进行分别配置，但是，为方便用户操作，还可提供运维数据展示界面的模板，以便于用户在原有模板基础上通过添加、删除和/或修改操作来对运维数据展示界面的显示方式进行配置。

作为示例，以上提及的运维数据可以是用于衡量机器学习平台或机器学习平台中的节点、应用或服务的运行状况的参数、指标或监控项，例如，平台节点状态/性能、系统组件状态/性能、应用服务状态/性能以及模型表现等等，并且运维数据可通过各种收集方式获得。例如，运维数据可以是通过以下至少一种方式获得的：获取与运维数据有关的日志数据，并根据日志数据获得运维数据；通过预先设置的采集运维数据的接口直接采集运维数据；从外部导入运维数据。如果根据日志数据来获得运维数据，则运维系统100还可包括日志数据获取装置(未示出)，具体地，日志数据获取装置可被配置为获取并保存与运维数据有关的日志数据。此外，可选地，根据本公开另一示例性实施例，显示装置110还可被配置为响应于检测到用于检索日志数据的检索操作，可视化地显示与该检索操作相应的日志数据。这里，检索操作可以是用户在显示装置110所显示的页面上的检索框中输入相应的检索条件，具体地，检索操作可以是通过输入关键词而执行检索的操作，或者可以是通过输入日志数据的特定字段或特定组合字段而执行检索的操作，或者还可以是通过输入检索语句(例如，SQL语句等)而执行检索的操作，等等。这里，可视化地显示日志数据可以是例如基于日志的属性信息(例如，日志的产生时间)以时间轴展示方式显示日志数据，但不限于此。例如，可按照各种图形(例如，直方图、饼图、折线图、散点图)和列表中的至少一个对日志数据进行可视化显示。此外，响应于用户点击图形中的特定点或列表中的特定字段，显示装置110还可显示与该特定点或特定字段相关的日志的详细信息。

在配置装置120对运维数据展示界面的显示方式进行配置之后，显示装置110可响应于检测到用于查看运维数据展示界面的用户操作，按照配置的运维数据展示界面的显示方式显示运维数据展示界面。这里，运维数据展示界面中可包括多个展示区域，并且每个展示区域中可视化地显示与机器学习平台的运维有关的至少一种运维数据。

图2是示出根据本公开示例性实施例的运维数据展示界面的示图。如图2所示，运维数据展示界面可包括两个展示区域。例如，第一个展示区域中可以可视化地展示与应用请求有关的运维数据，其中，可以以数字的形式可视化地展示总请求数、平均并发的请求数、最高并发的请求数和异常请求数并且可以以曲线图和柱状图两者结合的方式可视化地展示请求耗时和请求个数。此外，展示区域中还可包括用于选择运维数据统计时段的选项，例如，响应于用户选择第一展示区域中的“今日”，显示装置110可在第一展示区域中显示今日所发生的应用的总请求数、平均并发请求数、最高并发请求数、异常请求数以及今日各个时段的请求个数和请求耗时。或者，响应于用户通过日历等设置了特定统计时段(例如，2015-10-02～2015-10-10)，显示装置110可在第一展示区域中显示该特定统计时段所发生的应用的总请求数、平均并发请求数、最高并发请求数、异常请求数以及该特定统计时段的各个分时段的请求个数和请求耗时。第二展示区域中可以可视化地展示与资源监控有关的运维数据，例如，可以以曲线图的形式分别展示CPU监控项、GPU监控项、磁盘监控项和网络监控项这四种运维数据。另外，如图2所示，响应于用户移动图形下方的滚动条，显示装置110可显示当前未展示时段的运维数据的情况，以便于用户查看。需要说明的是，图2仅是运维数据展示界面的一个示例，无论是可以展示的运维数据，还是运维数据的具体展示方式均不限于

图2所示的示例。

机器学习平台的每种运维数据对用户都可能是有价值的，并且每个运维数据的改变都应该可被监控，当运维数据出现异常的时候，应第一时间告知用户，方便让用户及时处理。为此，在本公开中，用户可利用运维系统100预先根据业务需求设置运维异常规则，并且运维系统100可根据运维异常规则进行异常通知，以便于用户及时发现并处理异常。

根据示例性实施例，显示装置110还可响应于用于设置运维异常规则的用户操作，显示运维异常规则设置界面，并且配置装置120可响应于在运维异常规则设置界面上的用户设置操作，设置运维异常规则。这里，运维异常规则可以是与运维异常有关的规则，设置运维异常规则可以是设置与运维异常有关的事项，例如，设置运维异常规则可包括设置以下项中的至少一项：运维异常规则的名称、运维异常规则的优先级别或重要性级别、关于运维异常规则的描述、运维异常规则所涉及的运维数据、运维异常规则所涉及的运维数据的标签、运维异常规则的标签、执行运维异常规则的判断的时间周期、运维异常规则的表达式、确定运维异常需要运维异常规则被满足的持续时间、运维异常规则所涉及的运维数据的阈值相关信息、以及是否启用运维异常通知，但不限于此。

图3是根据本公开示例性实施例的运维异常规则设置界面的示例性示图。例如，响应于用户选择显示装置110所显示的页面上的用于创建或添加运维异常规则的菜单或图标(例如，图4中用红色标记圈出的图标、或图5中所示的“创建告警规则”按钮)，显示装置110可如图3所示的运维异常规则设置界面。根据示例性实施例，运维系统100可在机器学习平台的每个页面上均显示用于创建或添加运维异常规则的菜单或图标，使得用户无论在哪个页面，均可通过点击操作来显示运维异常规则设置界面，进而方便地设置运维异常规则。例如，用户在点击图4中用红色标记圈出的图标后，可进一步通过鼠标快速选择需要告警的运维数据，在用户选择了需要告警的运维数据之后，显示装置110可显示例如图3所示的运维异常规则设置界面。

如图3所示，用户可在运维异常规则设置界面中填写运维异常规则(在图3中简称为“告警规则”)的各个事项，例如，运维异常规则的名称(即，图3中简称为“规则名称”)、运维异常规则的表达式(图3中简称为“告警表达式”)、运维异常规则的优先级别或重要性级别(图3中简称为“告警级别”)、执行运维异常规则的判断的时间周期(图3中简称为“执行周期”，如10s、1m、2m、3h等)、确定运维异常需要运维异常规则被满足的持续时间(图3中简称为“持续时间”，也就是说超过该持续时间长度才触发告警，如10s、1m、2m、3h)、关于运维规则的描述(图3中简称为“告警描述”)、自定义信息和运维异常规则的标签(图3中简称为“自定义标签”)。这里，运维异常规则的名称不可以重复，并且可包含字母、数字、横杠等。运维异常规则的表达式可通过灵活的函数表达式来定义，可以灵活的对监控项进行各种逻辑运算、算术运算、聚合操作和阈值判断，例如，如果用户期望设置“当10％以上的节点停止工作”就进行运维异常通知，则运维异常规则的表达式可表示为：100*(count(up＝＝0)BY(job)/count(up)BY(job))>10；如果用户期望设置“当任意实例的请求延迟时间的中位数大于1S”就进行运维异常通知，则表达式可表示为：api_http_request_latencies_second{quantile＝"0.5"}>1。此外，用户可在运维异常规则设置界面上自定义对运维异常规则的描述以方便其他用户了解当前运维异常规则的含义，并且用户还可添加其他自定义的信息组，例如，用多条键值对(key-value)为运维异常规则的信息进行记录，如添加该条运维异常规则的业务信息方便监控运维人员能更加简单直接的了解当前规则的含义(例如，自定义信息中的“名称”可以是“运维异常规则的业务信息”，而自定义信息中的“值”可以是具体的业务信息描述)，或者添加该条运维异常规则的表达式的描述可让专业人员更加清晰监控的内容。通过选择“添加”按钮，用户可添加多条自定义信息。用户还可以为运维异常规则自定义标签或标签组，例如，可以用多条key-value对为运维异常规则进行标记，后续在设置异常通知发送策略时可填写该处的标签，只有发送策略中的标签匹配上运维异常规则的标签时，满足该运维异常规则的异常通知信息才能按照设置的异常通知发送策略被发送。

尽管图3中仅示出填写上面的一些事项，但是也可以在运维异常规则设置界面上设置运维异常规则的其他事项，例如，运维异常规则所涉及的运维数据、运维异常规则所涉及的运维数据的标签、运维异常规则所涉及的运维数据的阈值相关信息、以及是否启用运维异常通知等。这里，运维数据的标签可以是人为定义的指示运维数据的标识，也可以以键值对的形式表示。运维数据的阈值相关信息可以是与运维数据的阈值有关的任何信息，例如，可以设置运维数据异常需要依据静态阈值进行判断还是依据动态阈值进行判断；如果选择静态阈值，则可设置静态阈值的上界和/或下界；如果选择动态阈值，则可设置动态阈值的计算方式以及与该计算方式有关的事项，例如，计算动态阈值所依据的历史数据、历史数据的统计时间范围等。

在设置了运维异常规则之后，响应于用于查看已经创建或设置的运维异常规则的用户操作，显示装置110可如图5所示显示已经创建或设置的运维异常规则的列表，并且用户可根据业务需要启动、禁用或删除已经创建或设置的运维异常规则。此外，响应于用于查看运维异常规则(告警规则)的详细信息的用户操作，例如，响应于用户选择图5中的告警规则之后的“查看”，显示装置110可如图6所示进一步显示选择查看的告警规则的详细信息，包括告警规则的基本信息、自定义信息和自定义标签等。

如以上所提及的，显示装置110可以可视化地显示与机器学习平台的运维有关的至少一种运维数据。然而，可视化地显示与机器学习平台的运维有关的至少一种运维数据既可以包括可视化地显示至少一种运维数据本身，也可包括可视化地显示所述至少一种运维数据的预测值，进而展示运维数据的发展趋势。可选地，显示装置110也可以可视化地将所述至少一种运维数据的实际值以及所述至少一种运维数据的预测值进行对比显示。

具体地，可利用预设的规则和/或第一机器学习模型，基于先前时刻的所述至少一种运维数据的历史值和/或机器学习平台的状态信息来得到所述预测值。例如，可根据预设的规则将先前时刻(例如，当前时刻之前的n个统计时段，其中，n大于或等于1)的所述至少一种运维数据的历史值的中位数、平均值或加权平均值作为当前时刻的运维数据的预测值。或者，例如，可利用适于处理时序数据的机器学习模型(例如，长短期记忆网络模型(LSTM)等)，基于先前时刻(例如，当前时刻之前的n个统计时段，其中，n大于或等于1)的所述至少一种运维数据的历史值来得到运维数据的预测值，或者，还可在此基础上进一步结合机器学习平台的历史状态信息来得到预测值，或者，也可以利用机器学习模型，直接基于机器学习平台的当前的状态信息来得到运维数据的预测值。此外，在后续获得运维数据的实际值之后，可利用其对以上提及的机器学习模型进行更新，以便于保证模型预测效果。

根据本公开示例性实施例，可视化地显示与机器学习平台的运维有关的至少一种运维数据不仅包括可视化地显示至少一种运维数据本身，而且可包括可视化地显示所述至少一种运维数据涉及的运维异常规则。也就是说，在本公开中，可视化地显示与机器学习平台的运维有关的至少一种运维数据可包括：将与机器学习平台的运维有关的至少一种运维数据与所述至少一个运维数据涉及的运维异常规则融合地进行可视化展示。

作为示例，显示装置110可将运维数据与运维异常规则中设置的运维数据的阈值相关信息融合地进行可视化展示。图7是根据本公开示例性实施例的将运维数据与运维数据涉及的运维异常规则融合地进行可视化展示的示例。如图7所示，在可视化地显示运维数据“请求耗时”和运维数据“请求个数”的同时，显示装置110可以融合地可视化展示“请求耗时”涉及的运维异常规则和“请求个数”涉及的运维异常规则，例如，可以融合地可视化显示“请求耗时”的最大阈值(诸如，以红色横线的形式可视化地显示出“请求耗时”的最大阈值是50，但显示形式不限于此)以及“请求个数”的最大阈值(诸如，以黄色横线的形式可视化地显示出“请求个数”的最大阈值是40，但显示形式不限于此)。

作为将与机器学习平台的运维有关的至少一种运维数据与所述至少一个运维数据涉及的运维异常规则融合地进行可视化展示的另一示例，显示装置110也可将运维数据与预测出的运维数据的阈值相关信息融合地进行可视化展示。这里，预测出的运维数据的阈值相关信息可包括预测出的运维数据在下一展示时间段中的各个展示时刻的正常阈值或正常阈值区间。也就是说，在融合展示过程中，既可以融合地显示在运维异常规则中设置的静态阈值，也可以融合地显示运维数据的预测的动态阈值或动态阈值区间。

为此，根据本公开示例性实施例的运维系统100还可包括预测装置(未示出)。作为示例，预测装置可根据对历史上预定时间段内获得的运维数据的历史信息进行统计分析来预测运维数据在下一展示时间段中的各个展示时刻的正常阈值或正常阈值区间。例如，所述预定时间段可以是最近n个(n大于1)展示时段或统计时段。作为示例，当获得了最近n个统计时段内运维数据的历史值时，可提取最近n个统计时段的同一统计时刻的运维数据的历史值，并对获得的同一统计时刻的历史值进行统计分析来获得下一展示时段中相应统计时刻的运维数据的正常阈值或正常阈值区间。例如，对获得的同一统计时刻的历史值进行统计分析来获得下一展示时段中相应统计时刻的运维数据的正常阈值或正常阈值区间可以是：对获得的同一统计时刻的历史值进行统计以获得它们的中位数，并将该中位数或历史上各统计时刻的中位数的平均值上调和/或下调预设值来获得下一展示时段中相应统计时刻的运维数据的正常阈值或正常阈值区间。这里，可基于运维数据的历史值通过各种方式获得相应统计时刻需上调和/或下调的预设值，例如，可将获得的所述同一统计时刻的历史值的平均值与最近n个统计时段中该统计时刻的历史值之间的差的平均值作为相应统计时刻需上调和/或下调的预设值。

或者，根据本公开另一示例性实施例，预测装置可利用预先训练的机器学习模型，基于历史上预定时间段内获得的运维数据的历史信息来预测运维数据在下一展示时间段中的各个展示时刻的正常阈值或正常阈值区间。例如，如上所述，可利用预先训练的机器学习模型得到运维数据的在各个展示时刻的预测值，在此基础上预测装置可以以该预测值为参考进行预设幅度的上调和/或下调来得到运维数据在各个展示时刻的正常阈值或正常阈值区间。

根据本公开示例性实施例，除了可以可视化显示运维数据以便于运维人员直观地了解机器学习平台的情况之外，还可以在出现运维异常时通知相关运维人员以便于其及时处理异常，从而避免异常带来的损失。

为此，根据示例性实施例的运维系统100还可包括异常通知装置(未示出)。异常通知装置可根据设置的运维异常规则，确定是否存在运维异常以及是否需要通知运维异常。例如，异常通知装置可将当前运维数据与运维异常规则中设置的阈值信息或与预测出的阈值信息进行比较来确定是否存在运维异常，并且可根据运维异常规则中设置的是否启用运维异常通知的信息来确定是否需要通知运维异常。异常通知装置还可响应于确定存在运维异常，产生与运维异常相应的异常通知信息。异常通知信息可包括与异常通知有关的任何信息，例如，异常通知所涉及的运维数据、异常通知时间、异常发生的位置、和异常通知信息的摘要，但不限于此。此外，异常通知装置还可响应于需要通知运维异常，根据预先设置的异常通知发送策略将异常通知信息发送给相应的接收对象(例如，相关运维人员或运维实体等)，并且/或者，可视化地向用户展示异常通知信息。

根据本公开示例性实施例，运维系统100可使用户能够自由地预先设置异常通知发送策略。具体地，显示装置110还可以响应于用于设置异常通知发送策略的用户操作，显示异常通知发送策略配置界面，并且配置装置120还可响应于用户在异常通知发送策略配置界面上的设置操作，设置异常通知发送策略。这里，设置异常通知发送策略可包括设置以下项中的至少一项：异常通知发送策略的名称(可简称为“策略名称”)、异常通知的发送方式(例如，以邮件、短信或语音等方式通知异常)、异常通知的接收对象(例如，接收人或接收装置等)、异常通知的接收地址(例如，邮件地址、终端号码、Webhook地址等)、异常通知的格式、异常通知重复发送间隔时间、以及标签列表，但不限于此。

例如，响应于用户点击如图8所示的页面上的“创建发送策略”按钮，显示装置110可显示如图9所示的异常通知发送策略配置界面。响应于用户在该异常通知发送策略配置界面上填写各个设置项的操作，配置装置120可设置异常通知发送策略。在图9中，通道沉默时间可以指以上提及的异常通知重复发送间隔时间，即，异常发生后如果没有被处理或恢复，需间隔多久后重新发送异常通知。另外，图9中的Webhook地址可以是用户自定义的异常通知接收URL，可以以“http://”开头。

如以上所提及的，异常通知装置可响应于需要通知运维异常，根据预先设置的异常通知发送策略将异常通知信息发送给相应的接收对象。作为示例，异常通知装置可将异常通知策略中设置的标签列表中包括的标签与该异常通知信息对应的运维异常规则中设置的标签进行匹配，并且仅当发送策略中设置的标签列表中包括的标签与运维异常规则中设置的标签相同时，根据预先设置的异常通知发送策略将该异常通知信息发送给相应的接收对象。例如，图9中的标签列表中的标签可以被设置为具有键值对的形式，并且这里填写的标签需要是在运维异常规则设置中已经添加的标签中的一个。运维系统100可将异常通知发送策略中设置的标签与运维异常规则中的标签进行匹配，而只有匹配成功(例如，异常通知规则中设置的标签出现在了异常通知发送策略中的标签之中)，满足异常通知规则的异常通知才可按照异常通知发送策略被发送给相应的接收对象。如图9所示，响应于用户点击“确认”按钮，可完成异常通知发送策略的设置或添加，并且新设置或新添加的发送策略可以在异常通知发送策略列表中查看。

如上所述，异常通知装置还可响应于需要通知运维异常，可视化地向用户展示异常通知信息。例如，可视化地向用户展示异常通知信息可以包括：按照用户设置的时间区间，将该时间区间内的所有异常通知信息和/或相关运维数据，可视化地展示给用户，并接收用户的查询请求，以根据查询请求来展示特定异常通知信息和/或相关运维数据。这里，相关运维数据可以是导致异常通知产生的运维数据或与该异常通知的产生密切相关的运维数据。

图10是根据本公开示例性实施例的用于显示异常通知信息的界面的示例性示图。如图10所示，可以向用户展示异常通知信息的列表，并且每条异常通知信息可包括异常通知名称(在图10中简称为“告警名称”)、异常通知等级(在图10中简称为“告警等级”)、异常通知状态(在图10中简称为“告警状态”)、异常通知发出时间(在图10中简称为“开始时间”)、异常通知接收对象(图10中简称为“接收人”)。此外，每条异常通知信息之后可包括用于查看该异常通知信息的细节的查看按钮，响应于用户点击查看按钮，显示装置110可显示该异常通知信息的更多细节。另外，异常通知信息显示界面中还可以包括用于查询或检索特定异常通知信息的检索界面，例如，通过选择告警名称或开始时间(或设置时间区间)，或者在搜索框中输入异常通知信息的关键词等可以实现对异常通信信息的查询或检索。

此外，根据本公开另一示例性实施例，在可视化地向用户展示异常通知信息时，异常通知装置可以按照预定规则将产生的异常通知信息进行整合，并可视化地展示整合后的异常通知信息。例如，按照预定规则将产生的异常通知信息进行整合可包括以下操作中的至少一个：按照预定过滤规则将产生的异常通知信息进行过滤；按照预定去重规则将产生的异常通知信息进行去重；以及按照预定合并规则将产生的异常通知信息进行合并。预定过滤规则例如可以是过滤掉非工作时间内出现的异常通知信息，但不限于此，并且预定过滤规则可以是一条过滤规则或者多条过滤规则的组合。预定去重规则例如可以是去除预定时间范围内重复出现的异常通知信息，但不限于此，并且预定去重规则可以是一条去重规则或者多条去重规则的组合。根据本公开示例性实施例，按照预定合并规则将产生的异常通知信息进行合并可包括将由于同一原因引起的多个异常通知信息合并为一个异常通知信息，从而可减轻运维人员的工作量。例如，异常通知装置可将均由于特定运维数据超出其预定阈值这一原因导致的多个异常通知合并为一个异常通知信息。

此外，在本公开中，在可视化地向用户展示异常通知信息后，显示装置110可响应于用于检索异常通知信息的检索操作，输出与该检索操作相应的异常通知信息。这里，输出的异常通知信息可包括异常通知所涉及的运维数据、异常通知时间、异常发生的位置、和异常通知信息的摘要，但不限于此。例如，可视化显示异常通知信息的界面上可提供用于输入检索条件的检索框，用户可在检索框中输入关键字或者异常通知发生的时间范围。响应于接收到用户对检索框中输入的检索条件的确认，显示装置110可相应地输出与检索条件对应的异常通知信息。

根据本公开示例性实施例，运维系统100不仅可以可视化地显示运维数据，向用户通知运维异常，而且可以自动处理发生的异常或向用户推荐处理异常的解决方案。

为此，配置装置120还可被配置为响应于检测到用于配置运维异常处理流程的用户操作，配置与运维异常对应的异常处理流程。例如，用户可在配置了异常通知发送策略之后配置与运维异常对应的异常处理流程。如上所述，运维系统100还可包括异常处理装置。异常处理装置可在确定存在运维异常的情况下，按照配置的异常处理流程自动处理该运维异常。例如，用户设置的异常处理流程可以是在特定异常的情况下强制下线特定用户、自定义暂停AI模型等。比如，配置的异常处理流程可以是：如果CPU利用率(运维数据的一种)超过85％，则自动暂停正在训练的AI模型数量的50％。或者，异常处理装置可预先构建关于运维异常处理的知识库，并且在确定存在运维异常的情况下，基于预先构建的知识库向用户推荐与该运维异常对应的异常处理流程。这里，预先构建的知识库中可包括与每种运维异常对应的异常处理流程。响应于用户接受了推荐的异常处理流程，异常处理装置可进一步按照该异常处理流程处理异常。根据本公开，运维系统100除了可以可视化显示运维数据以便于运维人员直观地了解机器学习平台的情况并且在出现运维异常时通知相关运维人员以便于其即使处理异常之外，还可以进行智能预警(即，可进行异常预测，实现异常的未卜先知)，从而可便于相关人员在异常出现之前就能够采取必要措施将异常扼杀在摇篮里，进而能够避免异常可能给企业或平台带来的损失。

为此，根据本公开示例性实施例，运维系统100还可包括预测装置(未示出)和异常处理装置(未示出)。预测装置可利用第二机器学习模型，基于至少一种运维数据的预测值以及机器学习平台当前的状态信息，预测下一时间段内可能会出现的运维异常。如上所述，预测装置可利用预设的规则和/或第一机器学习模型，基于先前时刻的所述至少一种运维数据的历史值和/或机器学习平台的状态信息来得到至少一种运维数据的预测值。作为示例，运维数据的预测值本身的异常(例如，超出正常阈值或正常阈值区间)可指示运维异常。作为另一示例，可综合考虑至少一种运维数据的预测值以及机器学习平台当前的状态信息来预测可能会出现的运维异常，例如，当CPU使用率超出阈值时，可进一步结合机器学习平台当前的状态信息(诸如，当前在线的应用或服务的数量)来预测可能会出现的运维异常。随后，异常处理装置可根据预测出的运维异常，执行对应的运维操作。例如，异常处理装置可根据先前配置的与该运维异常对应的运维异常处理流程来执行对应的运维操作，或者异常处理装置可根据预先构建的关于运维异常处理的知识库来执行与预测出的运维异常对应的运维操作。

根据本公开示例性实施例，为了更直观地展示机器学习平台中的应用系统的整体运维情况，从而实现应用系统的全链路运维监控，显示装置110还可响应于用于查看机器学习平台中的应用系统的运维情况的用户操作，显示与该应用系统对应的运维拓扑图。在该运维拓扑图中可示出该应用系统的各个节点。此外，响应于用户选择该运维拓扑图中的特定节点，显示装置110可以可视化地显示该节点的运维数据和/或与该节点的运维数据有关的信息。例如，显示装置110可以以各种列表和/或图形来显示该节点的运维数据和/或与该节点的运维数据有关的信息。作为示例，与节点的运维数据有关的信息可以是与该节点的运维数据有关的异常通知信息和/或日志信息，但不限于此。

以上，已经参照图1至图10详细描述了根据本公开示例性实施例的运维系统。利用该运维系统不仅可实现可视化显示运维数据以便于运维人员直观地了解机器学习平台的情况，而且可以在出现运维异常时及时通知相关运维人员处理异常或自动处理异常。此外，利用该运维系统还可以进行运维异常的智能预测，从而可在异常出现之前就能够采取必要措施来防止异常发生，进而能够避免异常可能给企业或平台带来的损失。另外，利用该运维系统还可以直观地查看整个机器学习平台的各应用系统的各个节点的运维情况。

需要说明的是，运维系统100不仅可以是面向B端企业的软件系统中的一部分，也可以是面向C端用户的软件系统中的一部分，本公开对此并无限制。而且，运维系统100也并不仅限于包括以上描述的装置，而是还可根据需要增加一些其他装置，例如，存储装置、数据处理装置、用户交互接口(诸如，键盘、鼠标、触摸输入装置等)等，或者数据处理装置与以上提及的配置装置、预测装置、异常通知装置或异常处理装置可被组合为一个装置。另外，运维系统的所有组件可经由总线和/或网络而彼此连接。此外，本公开中提及的用户操作均既可以是借助一定的输入工具来实现，也可以是直接通过用户的触摸输入实现，或者可通过以上两者的组合来实现。

这里，作为示例，图11所示的运维方法可由图1所示的运维系统100来执行，也可完全通过计算机程序或指令以软件方式实现，还可通过特定配置的计算系统或计算装置来执行，例如，可通过包括至少一个计算装置和至少一个存储指令的存储装置的系统来执行，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行上述运维方法。为了描述方便，假设图11所示的运维方法由图1所示的运维系统100来执行，并假设运维系统100可具有图1所示的配置。

参照图11，在步骤S1110，响应于检测到用于配置机器学习平台的运维数据展示界面的用户操作，显示装置110可显示运维数据展示配置界面。接下来，在步骤S1120，响应于用户在运维数据展示配置界面上执行的配置操作，配置装置120可对运维数据展示界面的显示方式进行配置。例如，对运维数据展示界面的显示方式进行配置可包括对以下项中的至少一项进行配置：运维数据展示界面中展示区域本身的设置情况、以及每个展示区域中期望展示的运维数据的情况。这里，运维数据展示界面中展示区域的设置情况包括展示区域的数量、大小、颜色和布局中的至少一个，但不限于此。每个展示区域中期望展示的运维数据的情况可包括：运维数据的类型、运维数据的名称、运维数据的数量、运维数据的展示时间段、运维数据的标签、运维数据的采集时间、运维数据的刷新时间、运维数据的计算方式、用于展示运维数据的图表类型、关于运维数据的自定义描述中的至少一个，但不限于此。

在步骤S1130，响应于检测到用于查看运维数据展示界面的用户操作，显示装置110可按照配置的运维数据展示界面的显示方式显示运维数据展示界面。这里，运维数据展示界面中可包括多个展示区域，其中，每个展示区域中可视化地显示与机器学习平台的运维有关的至少一种运维数据。所述至少一种运维数据可通过以下至少一种方式获得的：获取与运维数据有关的日志数据，并根据日志数据获得运维数据；通过预先设置的采集运维数据的接口直接采集运维数据；从外部导入运维数据。

如上所述，运维系统100还可包括日志数据获取装置，因此，根据本发明另一示例性实施例，上述运维方法还可包括以下操作(未示出)：日志数据获取装置获取并保存与运维数据有关的日志数据；显示装置110响应于检测到用于检索日志数据的检索操作，可视化地显示与该检索操作相应的日志数据。

由于以上已经参照图1至图10描述了运维数据、以及可视化地显示与机器学习平台的运维有关的至少一种运维数据等的相关细节，因此，为简洁起见，相关内容可参见以上关于图1至图10的描述，这里不再赘述。

根据另一示例性实施例，上述运维方法还可包括以下操作(未示出)：响应于用于设置运维异常规则的用户操作，显示装置110显示运维异常规则设置界面；响应于在运维异常规则设置界面上的用户设置操作，配置装置120设置运维异常规则.具体地，设置运维异常规则可包括设置以下项中的至少一项：运维异常规则的名称、运维异常规则的优先级别或重要性级别、关于运维异常规则的描述、运维异常规则所涉及的运维数据、运维异常规则所涉及的运维数据的标签、运维异常规则的标签、执行运维异常规则的判断的时间周期、运维异常规则的表达式、确定运维异常需要运维异常规则被满足的持续时间、运维异常规则所涉及的运维数据的阈值相关信息、以及是否启用运维异常通知，但不限于此。

如以上参照图1至图10的描述中所提及的，运维系统100还可包括异常通知装置。相应地，根据另一示例性实施例，上述运维方法还可包括由异常通知装置执行的以下操作(未示出)：根据设置的运维异常规则，确定是否存在运维异常以及是否需要通知运维异常；响应于确定存在运维异常，产生与运维异常相应的异常通知信息；响应于需要通知运维异常，根据预先设置的异常通知发送策略将异常通知信息发送给相应的接收对象，并且/或者，可视化地向用户展示异常通知信息。关于以上操作的细节描述(例如，关于异常通知信息的描述、与可视化地项用户展示通知信息有关的描述等)可参见图1至图10描述的相应部分，这里为简洁起见不再赘述。

根据另一示例性实施例，上述运维方法还可包括以下操作(未示出)：响应于用于设置异常通知发送策略的用户操作，显示装置110显示异常通知发送策略配置界面；响应于用户在异常通知发送策略配置界面上的设置操作，配置装置120设置异常通知发送策略。这里，设置异常通知发送策略包括设置以下项中的至少一项：异常通知发送策略的名称、异常通知的发送方式、异常通知的接收对象、异常通知的接收地址、异常通知的格式、异常通知重复发送间隔时间、以及标签列表，但不限于此。

如以上参照图1至图10的描述中所提及的，运维系统100还可包括异常处理装置。相应地，根据另一示例性实施例，上述运维方法还可包括以下操作(未示出)：配置装置120响应于检测到用于配置运维异常处理流程的用户操作，配置与运维异常对应的异常处理流程，并且异常处理装置在确定存在运维异常的情况下，按照配置的异常处理流程自动处理该运维异常；或者，异常处理装置预先构建关于运维异常处理的知识库，并且在确定存在运维异常的情况下，基于预先构建的知识库向用户推荐与该运维异常对应的异常处理流程。

如以上参照图1至图10的描述中所提及的，运维系统100还可包括预测装置。相应地，根据另一示例性实施例，上述运维方法还可包括以下操作(未示出)：预测装置利用机器学习模型，基于至少一种运维数据的预测值以及机器学习平台当前的状态信息，预测下一时间段内可能会出现的运维异常；异常处理装置根据预测出的运维异常，执行对应的运维操作。

根据另一示例性实施例，上述运维方法还可包括以下操作(未示出)：响应于用于查看机器学习平台中的应用系统的运维情况的用户操作，显示装置110显示与该应用系统对应的运维拓扑图(该运维拓扑图中示出该应用系统的各个节点)；响应于用户选择该运维拓扑图中的特定节点，显示装置110可视化地显示该节点的运维数据和/或与该节点的运维数据有关的信息。

关于图11中未示出的以上所有操作的细节描述可参见图1至图10的相应描述，这里为简洁起见均不再赘述。

根据本公开的运维方法不仅可实现可视化显示运维数据以便于运维人员直观地了解机器学习平台的情况，而且可以在出现运维异常时通知相关运维人员以便于其即使处理异常，或者可自动处理异常。此外，根据本公开的运维方法还可以进行运维异常的智能预测，从而可方便运维人员在异常出现之前就采取必要措施来防止异常发生，进而能够避免异常可能给企业或平台带来的损失。另外，根据本公开的运维方法还可以方便用户直观地查看整个机器学习平台的各应用系统的各个节点的运维情况。

以上已参照图1至图11描述了根据本公开示例性实施例的运维方法和运维系统。然而，应理解的是：附图中示出的装置和系统可被分别配置为包括执行特定功能的软件、硬件、固件或上述项的任意组合。例如，这些系统、装置可对应于专用的集成电路，还可对应于软件与硬件相结合的模块。此外，这些系统或装置所实现的一个或多个功能也可由物理实体设备(例如，处理器、客户端或服务器等)中的组件来统一执行。

此外，上述运维方法可通过记录在计算机可读存储介质上的指令来实现，例如，根据本公开的示例性实施例，可提供一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行以下步骤：响应于检测到用于配置机器学习平台的运维数据展示界面的用户操作，显示运维数据展示配置界面；响应于用户在运维数据展示配置界面上执行的配置操作，对运维数据展示界面的显示方式进行配置；响应于检测到用于查看运维数据展示界面的用户操作，按照配置的运维数据展示界面的显示方式显示运维数据展示界面，其中，运维数据展示界面中包括多个展示区域，其中，每个展示区域中可视化地显示与机器学习平台的运维有关的至少一种运维数据。

上述计算机可读存储介质中存储的指令可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，应注意，所述指令还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理，这些附加步骤和进一步处理的内容已经在参照图11的描述过程中或参照图1至图10的描述过程中提及，因此这里为了避免重复将不再进行赘述。

应注意，根据本公开示例性实施例的运维系统可完全依赖计算机程序或指令的运行来实现相应的功能，即，各个装置在计算机程序的功能架构中与各步骤相应，使得整个系统通过专门的软件包(例如，lib库)而被调用，以实现相应的功能。

另一方面，当图1所示的系统和装置通过软件、固件、中间件或微代码实现其功能时，用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中，使得至少一个处理器或至少一个计算装置可通过读取并运行相应的程序代码或者代码段来执行相应的操作。

例如，根据本公开示例性实施例，可提供一种包括至少一个计算装置和至少一个存储指令的存储装置的系统，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行下述步骤：响应于检测到用于配置机器学习平台的运维数据展示界面的用户操作，显示运维数据展示配置界面；响应于用户在运维数据展示配置界面上执行的配置操作，对运维数据展示界面的显示方式进行配置；响应于检测到用于查看运维数据展示界面的用户操作，按照配置的运维数据展示界面的显示方式显示运维数据展示界面，其中，运维数据展示界面中包括多个展示区域，其中，每个展示区域中可视化地显示与机器学习平台的运维有关的至少一种运维数据。

具体说来，上述运维系统可以部署在服务器或客户端中，也可以部署在分布式网络环境中的节点上。此外，所述系统可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。

这里，所述运维系统并非必须是单个系统，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。所述运维系统还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子装置。

在所述运维系统中，所述至少一个计算装置可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器、显示装置等。作为示例而非限制，所述至少一个计算装置还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。计算装置可运行存储在存储装置之一中的指令或代码，其中，所述存储装置还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，所述网络接口装置可采用任何已知的传输协议。

存储装置可与计算装置集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储装置可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储装置和计算装置可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得计算装置能够读取存储在存储装置中的指令。

以上描述了本公开的各示例性实施例，应理解，上述描述仅是示例性的，并非穷尽性的，本公开不限于所披露的各示例性实施例。在不偏离本公开的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此，本公开的保护范围应该以权利要求的范围为准。

Claims

1.一种机器学习平台的运维方法，包括：

响应于检测到用于配置机器学习平台的运维数据展示界面的用户操作，显示运维数据展示配置界面；

响应于用户在运维数据展示配置界面上执行的配置操作，对运维数据展示界面的显示方式进行配置；

响应于检测到用于查看运维数据展示界面的用户操作，按照配置的运维数据展示界面的显示方式显示运维数据展示界面，其中，运维数据展示界面中包括多个展示区域，其中，每个展示区域中可视化地显示与机器学习平台的运维有关的至少一种运维数据。

2.如权利要求1所述的方法，其中，对运维数据展示界面的显示方式进行配置包括对以下项中的至少一项进行配置：运维数据展示界面中展示区域本身的设置情况、以及每个展示区域中期望展示的运维数据的情况。

3.如权利要求2所述的方法，其中，运维数据展示界面中展示区域的设置情况包括展示区域的数量、大小、颜色和布局中的至少一个；

每个展示区域中期望展示的运维数据的情况包括：运维数据的类型、运维数据的名称、运维数据的数量、运维数据的展示时间段、运维数据的标签、运维数据的采集时间、运维数据的刷新时间、运维数据的计算方式、用于展示运维数据的图表类型、关于运维数据的自定义描述中的至少一个。

4.如权利要求1所述的方法，还包括：

响应于用于设置运维异常规则的用户操作，显示运维异常规则设置界面；

响应于在运维异常规则设置界面上的用户设置操作，设置运维异常规则，

其中，设置运维异常规则包括设置以下项中的至少一项：运维异常规则的名称、运维异常规则的优先级别或重要性级别、关于运维异常规则的描述、运维异常规则所涉及的运维数据、运维异常规则所涉及的运维数据的标签、运维异常规则的标签、执行运维异常规则的判断的时间周期、运维异常规则的表达式、确定运维异常需要运维异常规则被满足的持续时间、运维异常规则所涉及的运维数据的阈值相关信息、以及是否启用运维异常通知。

5.如权利要求4所述的方法，还包括：

根据设置的运维异常规则，确定是否存在运维异常以及是否需要通知运维异常；

响应于确定存在运维异常，产生与运维异常相应的异常通知信息；

响应于需要通知运维异常，根据预先设置的异常通知发送策略将异常通知信息发送给相应的接收对象，并且/或者，可视化地向用户展示异常通知信息。

6.如权利要求5所述的方法，还包括：

响应于用于设置异常通知发送策略的用户操作，显示异常通知发送策略配置界面；

响应于用户在异常通知发送策略配置界面上的设置操作，设置异常通知发送策略，

其中，设置异常通知发送策略包括设置以下项中的至少一项：异常通知发送策略的名称、异常通知的发送方式、异常通知的接收对象、异常通知的接收地址、异常通知的格式、异常通知重复发送间隔时间、以及标签列表。

7.如权利要求6所述的方法，其中，根据预先设置的异常通知发送策略将异常通知信息发送给相应的接收对象包括：将异常通知策略中设置的标签列表中包括的标签与该异常通知信息对应的运维异常规则中设置的标签进行匹配；仅当发送策略中设置的标签列表中包括的标签与运维异常规则中设置的标签相同时，根据预先设置的异常通知发送策略将该异常通知信息发送给相应的接收对象。

8.一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行如权利要求1至7中的任一权利要求所述的方法。

9.一种包括至少一个计算装置和存储指令的至少一个存储装置的系统，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行如权利要求1至7中的任一权利要求所述的方法。

10.一种机器学习平台的运维系统，包括：

显示装置，被配置为响应于检测到用于配置机器学习平台的运维数据展示界面的用户操作，显示运维数据展示配置界面；

配置装置，被配置为响应于用户在运维数据展示配置界面上执行的配置操作，对运维数据展示界面的显示方式进行配置，

其中，显示装置还被配置为：响应于检测到用于查看运维数据展示界面的用户操作，按照配置的运维数据展示界面的显示方式显示运维数据展示界面，其中，运维数据展示界面中包括多个展示区域，其中，每个展示区域中可视化地显示与机器学习平台的运维有关的至少一种运维数据。