CN113313280B

CN113313280B - 云平台的巡检方法、电子设备及非易失性存储介质

Info

Publication number: CN113313280B
Application number: CN202110352756.2A
Authority: CN
Inventors: 刘贵阳; 胡文杰
Original assignee: Alibaba Singapore Holdings Pte Ltd
Current assignee: Alibaba Innovation Co
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2023-09-19
Anticipated expiration: 2041-03-31
Also published as: CN113313280A

Abstract

本申请公开了一种云平台的巡检方法、电子设备及非易失性存储介质。其中，该方法包括：获取对云平台执行巡检任务时所需的配置信息；基于该配置信息获取云平台中与不同作业类型对应的多种检测数据；采用获取的多种检测数据对无监督学习模型进行训练，得到目标模型；获取来自目标数据源的数据流；将数据流输入至目标模型中进行分析，得到数据流的巡检结果。本申请解决了无法对云平台的使用情况和稳定性进行有效检测的技术问题。

Description

云平台的巡检方法、电子设备及非易失性存储介质

技术领域

本申请涉及机器学习领域，具体而言，涉及一种云平台的巡检方法、电子设备及非易失性存储介质。

背景技术

现在云计算已经像水和电等基础设施一样成为日常生活中的一部分。随着越来越多的公司(无论互联网公司、传统制造业公司、零售行业等)逐步将服务部署到云上，云计算服务的服务质量也必须达到较高的水准，来满足客户的需求。

云计算的底层是大量的分布式系统和微服务系统。随着云计算的不断发展，相关的服务和组件越来越多，导致依靠传统的运维方法无法快速准确的发现问题。往往都是已经严重影响到用才会有工单反馈，再有对应的工程师去排查，使得处理效率很低，降低了服务的可用性。另外，如果底层研发人员设置很多告警，当某个底层模块发生了异常时，沿着异常在系统中的传播路径会在瞬间产生海量的告警信息，运维和研发人员在处理这些告警信息时需要耗费大量的经历将对应的内容从排序和筛选，才能定位出对应的问题，也会大大降低问题的修复时间。具体而言，企业在使用云计算服务的过程中会遇到以下问题：在IT基础设施的使用规模逐步扩大的过程中对无法实现对基础IaaS层资源的使用情况和稳定性的有效检测。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种云平台的巡检方法、电子设备及非易失性存储介质，以至少解决无法对云平台的使用情况和稳定性进行有效检测的技术问题。

根据本申请实施例的一个方面，提供了一种云平台的巡检方法，包括：获取对云平台执行巡检任务时所需的配置信息，其中，配置信息中至少包括不同任务类型的检测数据；基于该配置信息获取云平台中与不同作业类型对应的多种检测数据；采用获取的多种检测数据对无监督学习模型进行训练，得到目标模型；获取来自目标数据源的数据流；将数据流输入至目标模型中进行分析，得到数据流的巡检结果，其中，该巡检结果用于指示数据流所对应事件的事件类型。

根据本申请实施例的另一方面，还提供了一种模型训练方法，包括：获取对云平台执行巡检任务时所需的配置信息，其中，配置信息中至少包括不同任务类型的检测数据；基于该配置信息获取云平台中与不同作业类型对应的多种检测数据；采用获取的多种检测数据对无监督学习模型进行训练，得到目标模型。

根据本申请实施例的另一方面，还提供了一种云平台的巡检装置，包括：第一获取模块，获取对云平台执行巡检任务时所需的配置信息，其中，配置信息中至少包括不同任务类型的检测数据；第二获取模块，基于该配置信息获取云平台中与不同作业类型对应的多种检测数据；训练模块，采用获取的多种检测数据对无监督学习模型进行训练，得到目标模型；数据接收模块，获取来自目标数据源的数据流；分析模块，将数据流输入至目标模型中进行分析，得到数据流的巡检结果，其中，该巡检结果用于指示数据流所对应事件的事件类型。

根据本申请实施例的另一方面，还提供了一种非易失性存储介质，包括存储的程序，其中，程序运行时控制非易失性存储介质所在设备执行云平台的巡检方法。

根据本申请实施例的另一方面，还提供了一种电子设备，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取对云平台执行巡检任务时所需的配置信息，其中，配置信息中至少包括不同任务类型的检测数据；基于该配置信息获取云平台中与不同作业类型对应的多种检测数据；采用获取的多种检测数据对无监督学习模型进行训练，得到目标模型；获取来自目标数据源的数据流；将数据流输入至目标模型中进行分析，得到数据流的巡检结果，其中，该巡检结果用于指示数据流所对应事件的事件类型。

根据本申请实施例的另一方面，还提供了一种云平台的巡检系统，包括：第一数据系统，用于获取模块用于获取对云平台执行巡检任务时所需的配置信息，其中，配置信息中至少包括不同任务类型的检测数据；以及基于该配置信息获取云平台中与不同任务类型对应的多种检测数据；训练系统，用于采用获取的多种检测数据对无监督学习模型进行训练，得到目标模型；第二数据系统，用于获取来自目标数据源的数据流；应用系统，用于将数据流输入至目标模型中进行分析，得到数据流的巡检结果，其中，该巡检结果用于指示数据流所对应的事件类型。

在本申请实施例中，采用获取对云平台执行巡检任务时所需的配置信息；基于该配置信息获取云平台中与不同作业类型对应的多种检测数据；采用获取的多种检测数据对无监督学习模型进行训练，得到目标模型；获取来自目标数据源的数据流；将数据流输入至目标模型中进行分析，得到数据流的巡检结果的方式，通过训练好的无监督学习模型，达到了对数据流巡检的目的，从而实现了对云平台高效可靠巡检的技术效果，进而解决了无法对云平台的使用情况和稳定性进行有效检测的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种计算机终端的结构示意图；

图2是根据本申请实施例的一种云平台巡检方法的流程示意图；

图3是根据本申请实施例的一种模型训练方法的流程示意图；

图4是根据本申请实施例的一种用户告警反馈学习的流程示意图；

图5是根据本申请实施例的一种数据流转的流程示意图；

图6是根据本申请实施例的一种算法节点处理流程图；

图7a是根据本申请实施例的一种云平台巡检系统的结构示意图；

图7b是根据本申请实施例的一种系统架构图；

图8是根据本申请实施例的一种任务调度流转的流程示意图；

图9是根据本申请实施例的一种云平台巡检装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

智能运维(Algorithmic IT Operations，简称为AIOps)：让运维具备机器学习和算法的能力。

主动学习：也叫查询学习，它要求算法在每轮学习迭代中能够基于某种策略，从当前样本集中选择出“最不确定的一个或一组样本”。例如isolation forest孤立森林算法，每一轮迭代中，通过不断将isolation tree当前不确定的数据(无监督模型发现的异常数据)，也即最浅路径叶节点输出给外部反馈者并接受feedback label(正例or负例)，以此获得一批打标样本。

无监督方法：无监督学习中，想要预测的东西一般不被关心，也不会出现。无监督学习的目的是探索并发现各种X(及输入的样本数据)之间的关系。

时序巡检：通过程序化的方法，对所关注对象的观测特征进行检测。

实施例1

根据本申请实施例，还提供了一种云平台巡检方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现云平台巡检方法的计算机终端的硬件结构框图。如图1所示，计算机终端10可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的云平台巡检方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的漏洞检测方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输模块106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10的用户界面进行交互。

在上述运行环境下，本申请提供了如图2所示的云平台巡检方法。图2是根据本申请实施例一的云平台巡检方法的流程图，包括：

S202，获取对云平台执行巡检任务时所需的配置信息；

其中，所述配置信息至少包括不同任务类型的检测数据，例如数据源地址、访问数据源的密钥、数据的schema(组织和结构)配置、任务的调度配置等。

S204，基于该配置信息获取云平台中与不同作业类型对应的多种检测数据；

在本申请的一些实施例中，所述不同作业类型至少包括以下的任务类型：对于时序数据处理的异常检测任务，对于时序处理的指标预测任务，对文本的模版抽取任务、对文本的无监督聚类任务。所述检测数据至少包括数据源地址、访问数据源的密钥、数据的schema(组织和结构)配置、任务的调度配置等。

S206，采用获取的多种检测数据对无监督学习模型进行训练，得到目标模型；

在本申请的一些实施例中，得到目标模型的具体步骤包括：采用所述无监督学习模型对获取的多种检测数据进行分类，得到分类结果；接收来自目标对象的标注信息，该标注信息用于对所述分类结果进行打标，需要说明的是，该分类结果可以包括多个类型的数据集；基于所述分类结果对所述无监督学习模型进行评估，得到评估指标；基于所述标注信息对所述分类结果进行调整，并基于调整后的分类结果和所述评估指标中的至少之一对所述无监督学习模型的模型参数进行调整，得到所述目标模型。

具体地，采用所述无监督学习模型得到分类结果的过程为模型按照不同类型的数据的特征，将具有相同或相似特征的数据分为一类。这样异常数据也会被单独归为一类或几类。

在本申请的一些实施例中，得到分类结果后，依据标注信息对分类结果进行打标并得到评估指标的具体方法为：依据标注信息确定分类结果中是否准确的将所有的异常数据归为一类或几类，且是否有其他非异常数据混入。若最终的结果为所有异常数据均被准确归类且没有非异常数据混入，则评估指标为满足标准；若存在异常数据为被准确归类或其他非异常数据混入，则当归类失败的数据数量超过预设数量阈值时，评估指标为不满足标准。

在本申请的一些实施例中，当发现分类结果中存在误分类的数据时，还需要基于标注信息对分类结果进行调整。

在本申请的一些实施例中，当所述模型在实际应用的过程中发现存在异常数据时，用户会收到相应的告警推送，并可以反馈本次识别过程是否准确。用户的反馈结果可以用来对模型的评价指标以及训练数据的标注信息进行调整。如图4所示，图4的左半部分为模型训练过程，右半部分为实际工作过程。

S208，获取来自目标数据源的数据流；

在本申请的一些实施例中，数据流的获取及处理过程如图5所示。图5中的程序日志数据、组件日志数据、机器检测数据和作业流事件数据为目标数据源，log(文本)、metrictrance(指标追踪)、event(事件)为数据流的不同类型。可以理解的，所述数据流的类型也可以为其他常见的数据类型。所述数据流经过ETL(数据加工)和QTL(数据整合)后，可以同时进行以下两个步骤：对不同类型的数据，如文本数据和指标数据进行Dynamic Relation(联合关联)，并将关联后的数据传递给控制节点；将不同类型的数据分别存储到LogStore(文本存储器)和MetricStore(指标存储器)中，然后对LogStore中的数据进行文本分析，对MetricStore中的数据进行时序巡检，并将分析结果和巡检结果传递给控制节点。然后控制节点根据接收到的信息发出警告通知。同时，控制节点也可以接收来自用户的反馈。

具体地，对文本数据进行文本分析以及对指标数据进行时序巡检的过程如图6所示。其中，图6的左半部分为模型的训练过程。首先对系统中存量的数据进行加工和分化，得到文本数据和指标数据。其中，对文本数据，需要通过无监督事件算法进行事件抽取，然后自适应进行事件聚类，其中，进行事件抽取时可以参考用户标注和领域知识库辅助；对于指标数据，需要使用自适应巡检算法进行巡检。然后将巡检结果和聚类结果发送到执行节点，并由执行节点实时更新模型参数和规则，并将更新后的参数发送给系统。图6的右半部分为模型的实际工作过程。需要说明的是，图6的右半部分中的实时数据可以为一定预设时间周期内所有的数据。其中预设时间周期可以由用户自行确定，如一分钟。

S210，将数据流输入至所述目标模型中进行分析，得到数据流的巡检结果。

其中，上述巡检结果用于指示所述数据流所对应事件的事件类型。

在本申请的一些实施例中，当所述巡检结果指示所述数据流所对应的事件类型为异常事件时，确定所述数据流所对应的事件信息；确定所述云平台中与所述事件信息对应的任务节点；依据所述任务节点确定预设拓扑图中与所述任务节点关联的目标节点，其中，所述预设拓扑图用于指示所述云平台中各个节点之间的关联关系，其中所述关联关系至少包括各个节点之间的数据调用关系；向所述任务节点和所述目标节点中的至少之一发送用于提示所述数据流所对应事件类型为异常事件的告警信息。

具体地，当数据流为时间序列数据流时，可以基于数据流统计的方法进行异常点(跳变点、突刺点、波动率变化点等)的实时检测，将相对正常时偏移程度进行归一化，得到异常程度的分数，并将异常程度的分数以及异常数据存储在中间存储中。

当数据流为文本数据流时，有两种方式分析数据流是否为异常数据流：针对常见的linux系统版本的系统、标准的系统组件(hadoop、es、presto等)日志，可以通过相关的规则，将系统日志进行分类，采用流式消费事件的形式将判定结果写入到中间存储中去；对于程序日志(用户自定义打印出来的日志)，可以采集日志模版抽取并聚类的方式，将文本数据按照整分钟聚合，计算出这一分钟内不同日志模板的数量，通过时序的方法去分析每分钟日志模板数据的变化，将产生的事件写入到中间存储中去。

在本申请的一些实施例中，所述配置信息中还包括：数据源地址信息，其中包括多个数据源地址；采用获取的所述多种检测数据对无监督学习模型进行训练之前，所述方法还包括：从所述数据源地址信息所对应的数据源中获取日志信息,例如，可以从；对所述日志信息对应的事件进行分类。

所述日志信息包括：系统日志和/或程序日志；对所述日志信息对应的事件进行分类，包括：对所述系统日志中的操作系统日志和系统组件日志按照预设规则进行分类；和/或对于所述程序日志，获取用于提取日志信息的日志模板；基于所述日志模板从所述程序日志中提取信息，并将提取的日志信息添加至所述日志模板中，得到目标日志模板；基于所述日志信息模板中在预设时间间隔内模板中的数据变化信息确定与所述程序日志对应的事件以及相应的事件类型。

为了便于理解图2所述的方法，本申请还提供了如图7b所示的云平台巡检系统结构图和图8所示的云平台巡检系统任务调度和流转图。其中，图7b中各部分的含义及作用如下：变更事件、程序日志、中间键日志、操作系统日志和云产品日志以及性能指标等表示数据流中的部分数据的类型；数据接入层可以接收上述各种类型的数据，并进一步对这些数据进行加工和聚合，然后存储；数据消费层会对存储的数据进行进一步地处理，为上述数据增加标签；算法组件指的是本申请实施例中涉及到的模型训练过程中利用了统计算法，深度学习算法和机器学习算法；算法应用表示本申请实施例中涉及到的云平台巡检方法和装置所能提供的功能，包括异常检测、文本挖掘、告警聚合、时序预测和根因分析等。

图8中各个部件的含义如下：SLS：Log Service,日志服务；RDS：RelationalDatabase Service，相关数据库服务；OSS：Object Storage Service,对象存储服务；Inception:系统实际工作时的过程；Model build service：模型训练过程。

图8各个步骤的含义如下：①提交巡检任务配置；②经过验证后将结果写入RDS中；③同时将任务注册到模型定时生成和实时监测服务中；④将注册服务的消息通知到Controller；⑤模型定时巡检启动，将模型写入到OSS中⑥将模型训练结果同步到controller；⑦将模型更新信息同步到相应节点⑧拉取最近一分钟数据进行检测(可以理解的，此处的1分钟仅为举例，并不等同于必须拉取最近1分钟的数据，例如，也可以是拉取最近两分钟的)；⑨将模型的检测结果写入到SLS中；1各个模块上传自己的心跳信息和指标信息。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

实施例2

根据本申请实施例，还提供了一种模型训练方法，如图3所示，该方法包括：

S202，获取对云平台执行巡检任务时所需的配置信息；

其中，所述配置信息至少包括不同任务类型的检测数据。

S206，基于该配置信息获取云平台中与不同作业类型对应的多种检测数据；

S208，采用获取的多种检测数据对无监督学习模型进行训练，得到目标模型。

在本申请的一些实施例中，得到目标模型的具体步骤包括：采用所述无监督学习模型对获取的多种检测数据进行分类，得到分类结果；接收来自目标对象的标注信息，该标注信息用于对所述分类结果进行打标；基于所述分类结果对所述无监督学习模型进行评估，得到评估指标；基于所述标注信息对所述分类结果进行调整，并基于调整后的分类结果和所述评估指标中的至少之一对所述无监督学习模型的模型参数进行调整，得到所述目标模型。

实施例3

根据本申请的实施例，还提供了一种云平台巡检装置，如图9所示，包括：第一获取模块90，获取对云平台执行巡检任务时所需的配置信息，其中，配置信息中至少包括不同任务类型的检测数据；第二获取模块92，基于该配置信息获取云平台中与不同作业类型对应的多种检测数据；训练模块94，采用获取的多种检测数据对无监督学习模型进行训练，得到目标模型；数据接收模块96，获取来自目标数据源的数据流；分析模块98，将数据流输入至目标模型中进行分析，得到数据流的巡检结果，其中，该巡检结果用于指示数据流所对应事件的事件类型。

在本申请的一些实施例中，第二获取模块92获取的所述不同作业类型至少包括以下的任务类型：对于时序数据处理的异常检测任务，对于时序处理的指标预测任务，对文本的模版抽取任务、对文本的无监督聚类任务。所述检测数据至少包括数据源地址、访问数据源的密钥、数据的schema(组织和结构)配置、任务的调度配置等。

在本申请的一些实施例中，训练模块94得到目标模型的过程如下：在本申请的一些实施例中，得到目标模型的具体步骤包括：采用所述无监督学习模型对获取的多种检测数据进行分类，得到分类结果；接收来自目标对象的标注信息，该标注信息用于对所述分类结果进行打标；基于所述分类结果对所述无监督学习模型进行评估，得到评估指标；基于所述标注信息对所述分类结果进行调整，并基于调整后的分类结果和所述评估指标中的至少之一对所述无监督学习模型的模型参数进行调整，得到所述目标模型。

在本申请的一些实施例中，数据接收模块获取及处理数据流的过程如图5所示，图5中的程序日志数据、组件日志数据、机器检测数据和作业流事件数据为目标数据源，log(文本)、metric trance(指标追踪)、event(事件)为数据流的不同类型。可以理解的，所述数据流的类型也可以为其他常见的数据类型。所述数据流经过ETL(数据加工)和QTL(数据整合)后，可以同时进行以下两个步骤：对不同类型的数据，如文本数据和指标数据进行Dynamic Relation(联合关联)，并将关联后的数据传递给控制节点；将不同类型的数据分别存储到LogStore(文本存储器)和MetricStore(指标存储器)中，然后对LogStore中的数据进行文本分析，对MetricStore中的数据进行时序巡检，并将分析结果和巡检结果传递给控制节点。然后控制节点根据接收到的信息发出警告通知。同时，控制节点也可以接收来自用户的反馈。

实施例4

本申请的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备，至少包括处理器及存储器。

其中，存储器可用于存储软件程序，如本申请实施例中的云平台的巡检方法，处理器通过运行存储在存储器内的软件程序，从而执行各种功能应用以及数据处理，即实现上述的云平台的巡检方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取对云平台执行巡检任务时所需的配置信息，其中，所述配置信息中至少包括不同任务类型的检测数据；基于该配置信息获取云平台中与所述不同作业类型对应的多种检测数据；采用获取的所述多种检测数据对无监督学习模型进行训练，得到目标模型；获取来自目标数据源的数据流；将所述数据流输入至所述目标模型中进行分析，得到所述数据流的巡检结果，其中，该巡检结果用于指示所述数据流所对应事件的事件类型。

实施例5

根据本申请实施例，还提供了一种如图7a云平台的巡检系统，包括：第一数据系统70，用于获取模块用于获取对云平台执行巡检任务时所需的配置信息，其中，配置信息中至少包括不同任务类型的检测数据；以及基于该配置信息获取云平台中与不同任务类型对应的多种检测数据；训练系统72，用于采用获取的多种检测数据对无监督学习模型进行训练，得到目标模型；第二数据系统74，用于获取来自目标数据源的数据流；应用系统76，用于将数据流输入至目标模型中进行分析，得到数据流的巡检结果，其中，该巡检结果用于指示数据流所对应的事件类型。

在本申请的一些实施例中，还提供了一种如图7b所示的巡检系统架构方式。如图7b所示，所述第一数据系统70包括：数据接入层，用于获取不同任务类型的检测数据；数据加工和数据聚合层，用于对获取的所述检测数据进行初步处理，得到目标数据；数据存储层，用于存储所述目标数据；所述训练系统72包括：数据消费层，用于对所述目标数据加工，得到训练数据，其中，所述训练数据包括所述目标数据和所述目标数据对应的标签；算法组件层，用于依据所述训练数据对所述无监督学习模型进行训练，得到所述目标模型；所述应用系统76包括：算法应用层，用于应用所述目标模型对所述数据流进行分析，得到所述数据流的巡检结果。

采用本申请实施例，提供了一种云平台巡检的方案。通过获取对云平台执行巡检任务时所需的配置信息；基于该配置信息获取云平台中与不同作业类型对应的多种检测数据；采用获取的多种检测数据对无监督学习模型进行训练，得到目标模型；获取来自目标数据源的数据流；将数据流输入至目标模型中进行分析，得到数据流的巡检结果的方式，从而达到了对目标数据源的数据流巡检的目的，进而解决了无法对云平台的使用情况和稳定性进行有效检测的技术问题。

本领域普通技术人员可以理解，图1所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图1并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图1所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

本申请的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的云平台的巡检方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取对云平台执行巡检任务时所需的配置信息，其中，所述配置信息中至少包括不同任务类型的检测数据；基于该配置信息获取云平台中与所述不同作业类型对应的多种检测数据；采用获取的所述多种检测数据对无监督学习模型进行训练，得到目标模型；获取来自目标数据源的数据流；将所述数据流输入至所述目标模型中进行分析，得到所述数据流的巡检结果，其中，该巡检结果用于指示所述数据流所对应事件的事件类型。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种云平台的巡检方法，包括：

获取对云平台执行巡检任务时所需的配置信息，其中，所述配置信息中至少包括不同任务类型的检测数据；

基于该配置信息获取云平台中与所述不同任务类型对应的多种检测数据；

采用获取的所述多种检测数据对无监督学习模型进行训练，得到目标模型；

获取来自目标数据源的数据流；

将所述数据流输入至所述目标模型中进行分析，得到所述数据流的巡检结果，其中，该巡检结果用于指示所述数据流所对应的事件类型；

在所述巡检结果指示所述数据流所对应的事件类型为异常事件时，确定所述数据流所对应的事件信息；确定所述云平台中与所述事件信息对应的任务节点；依据所述任务节点确定预设拓扑图中与所述任务节点关联的目标节点，其中，所述预设拓扑图用于指示所述云平台中各个节点之间的关联关系；向所述任务节点和所述目标节点中的至少之一发送用于提示所述数据流所对应事件类型为异常事件的告警信息。

2.根据权利要求1所述的方法，其中，采用获取的所述多种检测数据对无监督学习模型进行训练，得到目标模型，包括：

采用所述无监督学习模型对获取的所述多种检测数据进行分类，得到分类结果；

接收来自目标对象的标注信息，该标注信息用于对所述分类结果进行打标；

基于所述分类结果对所述无监督学习模型进行评估，得到评估指标；

基于所述标注信息对所述分类结果进行调整，并基于调整后的分类结果和所述评估指标中的至少之一对所述无监督学习模型的模型参数进行调整，得到所述目标模型。

3.根据权利要求1所述的方法，其中，所述关联关系包括：各个节点之间的数据调用关系。

4.根据权利要求1至3中任意一项所述的方法，其中，所述配置信息中还包括：数据源地址信息；采用获取的所述多种检测数据对无监督学习模型进行训练之前，所述方法还包括：

从所述数据源地址信息所对应的数据源中获取日志信息；

对所述日志信息对应的事件进行分类。

5.根据权利要求4所述的方法，其中，所述日志信息包括：系统日志和/或程序日志；

对所述日志信息对应的事件进行分类，包括：

对所述系统日志中的操作系统日志和系统组件日志按照预设规则进行分类；和/或

对于所述程序日志，获取用于提取日志信息的日志模板；基于所述日志模板从所述程序日志中提取信息，并将提取的日志信息添加至所述日志模板中，得到目标日志模板；基于所述日志信息模板中在预设时间间隔内模板中的数据变化信息确定与所述程序日志对应的事件以及相应的事件类型。

6.根据权利要求4所述的方法，其中，所述数据源地址信息中包括多个数据源地址。

7.一种云平台的巡检装置，包括:

第一获取模块，获取对云平台执行巡检任务时所需的配置信息，其中，所述配置信息中至少包括不同任务类型的检测数据；

第二获取模块，基于该配置信息获取云平台中与不同作业类型对应的多种检测数据；

训练模块，采用获取的所述多种检测数据对无监督学习模型进行训练，得到目标模型；

数据接收模块，获取来自目标数据源的数据流；

分析模块，将所述数据流输入至所述目标模型中进行分析，得到所述数据流的巡检结果，其中，该巡检结果用于指示所述数据流所对应事件的事件类型；在所述巡检结果指示所述数据流所对应的事件类型为异常事件时，确定所述数据流所对应的事件信息；确定所述云平台中与所述事件信息对应的任务节点；依据所述任务节点确定预设拓扑图中与所述任务节点关联的目标节点，其中，所述预设拓扑图用于指示所述云平台中各个节点之间的关联关系；向所述任务节点和所述目标节点中的至少之一发送用于提示所述数据流所对应事件类型为异常事件的告警信息。

8.一种非易失性存储介质，所述非易失性存储介质包括存储的程序，其中，在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至6中任意一项所述的云平台的巡检方法。

9.一种电子设备，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：

基于该配置信息获取云平台中与不同作业类型对应的多种检测数据；

获取来自目标数据源的数据流；

将所述数据流输入至所述目标模型中进行分析，得到所述数据流的巡检结果，其中，该巡检结果用于指示所述数据流所对应事件的事件类型；

10.一种云平台的巡检系统，包括：

第一数据系统，用于获取模块用于获取对云平台执行巡检任务时所需的配置信息，其中，所述配置信息中至少包括不同任务类型的检测数据；以及基于该配置信息获取云平台中与所述不同任务类型对应的多种检测数据；

训练系统，用于采用获取的所述多种检测数据对无监督学习模型进行训练，得到目标模型；

第二数据系统，用于获取来自目标数据源的数据流；

应用系统，用于将所述数据流输入至所述目标模型中进行分析，得到所述数据流的巡检结果，其中，该巡检结果用于指示所述数据流所对应的事件类型；在所述巡检结果指示所述数据流所对应的事件类型为异常事件时，确定所述数据流所对应的事件信息；确定所述云平台中与所述事件信息对应的任务节点；依据所述任务节点确定预设拓扑图中与所述任务节点关联的目标节点，其中，所述预设拓扑图用于指示所述云平台中各个节点之间的关联关系；向所述任务节点和所述目标节点中的至少之一发送用于提示所述数据流所对应事件类型为异常事件的告警信息。