CN113835973A

CN113835973A - 一种模型训练方法及相关装置

Info

Publication number: CN113835973A
Application number: CN202111416769.8A
Authority: CN
Inventors: 黄涛; 李瑞鹏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2021-12-24
Anticipated expiration: 2041-11-26
Also published as: WO2023093431A1; CN113835973B; US20230316078A1

Abstract

本申请实施例公开了一种人工智能领域的模型训练方法及相关装置，其中该方法包括：获取目标业务场景中的至少一个待检测指标数据；针对每个待检测指标数据，通过深度神经网络模型确定该待检测指标数据对应的检测结果的不确定性；不确定性用于表征检测结果的可靠程度，检测结果是通过深度神经网络模型根据待检测指标数据确定的；根据至少一个待检测指标数据各自对应的检测结果的不确定性，从至少一个待检测指标数据中选出参考指标数据，并获取参考指标数据对应的标注检测结果；基于参考指标数据及其对应的标注检测结果训练深度神经网络模型，得到适用于目标业务场景的目标指标检测模型。该方法能够降低指标检测模型的训练成本。

Description

一种模型训练方法及相关装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种模型训练方法及相关装置。

背景技术

随着云原生技术的普及，大型在线系统的微服务架构有效地促进了网络应用的高效实现和独立部署。通常情况下，微服务架构下的微服务之间具有复杂的调用关系，任一微服务发生故障都可能引发故障雪崩，进而影响该微服务架构所提供的服务质量。为了避免这种情况发生，运维人员需要密切地监控各微服务的各项关键指标（Key PerformanceIndicator，KPI），一旦检测到KPI出现异常，立即介入并排除故障。

近年来，相关技术中涌现出了大量的指标检测方法，例如，基于概率（probabilistic-based）的指标检测方法、基于距离（distance-based）的指标检测方法、基于领域（domain-based）的指标检测方法、基于重构（reconstruction-based）的指标检测方法等。这些指标检测方法需要采用机器学习算法，训练用于检测指标是否异常的模型，进而利用训练得到的模型对当前观测的指标数据进行分析处理，以检测该指标数据是否存在异常。

然而，上述指标检测方法普遍存在缺失标注样本的问题，即在很多情况下，实际生产环境中所需检测的指标的数据量极为庞大，对如此大规模的指标进行标注需要耗费极高的标注成本，难以落地实现；而如果仅对小规模的指标进行标注，并利用标注数据训练指标检测模型，又难以保证训练得到的指标检测模型对于所有指标的检测准确性。可见，如何训练得到具备较优性能的指标检测模型，已成为目前亟待解决的问题。

发明内容

本申请实施例提供了一种模型训练方法及相关装置，能够在仅耗费较低标注成本的情况下，训练得到具备较优性能的指标检测模型。

有鉴于此，本申请第一方面提供了一种模型训练方法，所述方法包括：

获取目标业务场景中的至少一个待检测指标数据；

针对每个所述待检测指标数据，通过深度神经网络模型，根据所述待检测指标数据，确定所述待检测指标数据对应的检测结果的不确定性；所述不确定性用于表征所述检测结果的可靠程度，所述检测结果是通过所述深度神经网络模型根据所述待检测指标数据确定的；

根据所述至少一个待检测指标数据各自对应的检测结果的不确定性，从所述至少一个待检测指标数据中选出参考指标数据，并获取所述参考指标数据对应的标注检测结果；

基于所述参考指标数据及其对应的标注检测结果，对所述深度神经网络模型进行训练，得到适用于所述目标业务场景的目标指标检测模型。

本申请第二方面提供了一种模型训练装置，所述装置包括：

数据获取模块，用于获取目标业务场景中的至少一个待检测指标数据；

检测模块，用于针对每个所述待检测指标数据，通过深度神经网络模型，根据所述待检测指标数据，确定所述待检测指标数据对应的检测结果的不确定性；所述不确定性用于表征所述检测结果的可靠程度，所述检测结果是通过所述深度神经网络模型根据所述待检测指标数据确定的；

样本筛选模块，用于根据所述至少一个待检测指标数据各自对应的检测结果的不确定性，从所述至少一个待检测指标数据中选出参考指标数据，并获取所述参考指标数据对应的标注检测结果；

训练模块，用于基于所述参考指标数据及其对应的标注检测结果，对所述深度神经网络模型进行训练，得到适用于所述目标业务场景的目标指标检测模型。

本申请第三方面提供了一种计算机设备，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序，执行如上述第一方面所述的模型训练方法的步骤。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述第一方面所述的模型训练方法的步骤。

本申请第五方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面所述的模型训练方法的步骤。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例提供了一种模型训练方法，该方法创新性地提出了融合深度学习和主动学习训练指标检测模型的方式。在该模型训练方法中，可以通过预先训练的深度神经网络模型，针对目标业务场景中的待检测指标数据，确定其对应的检测结果以及该检测结果的不确定性；然后，根据至少一个待检测指标数据各自对应的检测结果的不确定性，从这些待检测指标数据中选出参考指标数据，并获取参考指标数据对应的标注检测结果；进而，基于参考指标数据及其对应的标注检测结果，对上述深度神经网络模型进行主动学习，以得到适用于目标业务场景的目标指标检测模型。在上述方法中，深度神经网络模型产出的待检测指标数据对应的检测结果的不确定性，能够反映该检测结果的可靠程度，也即反映深度神经网络模型对该待检测指标数据的处理能力，若不确定性较高，则说明深度神经网络模型对于该待检测指标数据的处理能力较差，难以准确地检测其是否异常；因此，本申请实施例可以根据至少一个待检测指标数据各自对应的检测结果的不确定性，从这些待检测指标数据中选出深度神经网络模型难以准确检测的指标数据，利用这些指标数据及其对应的标注检测结果作为优化训练样本；此类优化训练样本的质量较高，仅利用少量的此类优化训练样本对深度神经网络模型进行训练，即可快速地提高该深度神经网络模型在目标业务场景中的性能，如此实现了在耗费较低标注成本的情况下，训练得到具备较优性能的指标检测模型的效果。

附图说明

图1为本申请实施例提供的模型训练方法的应用场景示意图；

图2为本申请实施例提供的模型训练方法的流程示意图；

图3为本申请实施例提供的一种数据分布示意图；

图4为本申请实施例提供的另一种数据分布示意图；

图5为本申请实施例提供的模型训练方法的实现架构示意图；

图6为本申请实施例提供的测试结果示意图；

图7为本申请实施例提供的一种模型训练装置的结构示意图；

图8为本申请实施例提供的另一种模型训练装置的结构示意图；

图9为本申请实施例提供的终端设备的结构示意图；

图10为本申请实施例提供的服务器的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

机器学习（Machine Learning，ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例提供的方案涉及人工智能的机器学习技术，具体通过如下实施例进行说明：

相关技术中，若要训练得到某业务场景下具备较优性能的指标检测模型，通常需要针对该业务场景下所有类型的指标数据均进行标注处理，进而，基于这些标注数据训练模型。然而，在实际应用中，大多数业务场景中所需监测的指标类型是非常多的，针对所有类型的指标数据进行标注需要耗费极高的标注成本，难以落地实现；而仅对小规模的指标数据进行标注，并利用标注数据训练模型，又难以保证训练得到的模型对于所有指标的检测准确性。

为了解决上述相关技术存在的问题，本申请实施例提供了一种模型训练方法，该方法能够在仅耗费较低标注成本的情况下，保证所训练的指标检测模型在特定业务场景中具有较优的性能。

具体的，在本申请实施例提供的模型训练方法中，先获取目标业务场景中的至少一个待检测指标数据。然后，针对每个待检测指标数据，通过深度神经网络模型，根据该待检测指标数据，确定该待检测指标数据对应的检测结果的不确定性；该不确定性用于表征该检测结果的可靠程度，该检测结果是通过深度神经网络模型根据待检测指标数据确定的。进而，根据这至少一个待检测指标数据各自对应的检测结果的不确定性，从这至少一个待检测指标数据中选出参考指标数据，并获取参考指标数据对应的标注检测结果。最终，基于参考指标数据及其对应的标注检测结果，对深度神经网络模型进行优化训练，得到适用于目标业务场景的目标指标检测模型。

上述模型训练方法，创新性地提出了融合深度学习和主动学习训练指标检测模型的方式。具体的，该方法先利用通过深度学习训练得到的深度神经网络模型，确定各待检测指标数据各自对应的检测结果的不确定性；然后，再根据各待检测指标数据各自对应的检测结果的不确定性，从各待检测指标数据中选出用于主动学习的反馈样本；进而，利用所选出的反馈样本对深度神经网络模型进行主动学习，得到适用于目标业务场景的目标指标检测模型。由于深度神经网络模型产出的待检测指标数据对应的检测结果的不确定性，能够反映该检测结果的可靠程度，也即反映深度神经网络模型对该待检测指标数据的处理能力，若不确定性较高，则说明深度神经网络模型对于该待检测指标数据的处理能力较差，难以准确地检测其是否异常；基于此，本申请实施例可以根据至少一个待检测指标数据各自对应的检测结果的不确定性，从这些待检测指标数据中选出深度神经网络模型难以准确检测的指标数据，利用这些指标数据及其对应的标注检测结果作为反馈样本；此类反馈样本的质量较高，仅利用少量的此类反馈样本对深度神经网络模型进行训练，即可快速地提高该深度神经网络模型在目标业务场景中的性能，如此实现了在耗费较低标注成本的情况下，训练得到具备较优性能的指标检测模型的效果。

需要说明的是，本申请实施例中的深度神经网络模型是具备基础的指标检测能力的模型，训练该深度神经网络模型时，可以使用任意用于训练指标检测模型的样本对其进行训练。通常情况下，为了降低该深度神经网络模型的训练成本，可以采用获取成本较低的训练样本对其进行训练，例如，采用目前已有的通用训练样本集（即通用于训练指标检测模型的基础训练样本集）训练该深度神经网络，又例如，采用业务场景中的历史指标数据及其对应的历史检测结果作为训练样本，训练该深度神经网络，等等。换言之，本申请实施例中的深度神经网络模型是所需训练的目标指标检测模型的训练基础，在实际应用中，对于该深度神经网络模型的处理性能要求较低，因此，无需耗费过多的训练成本对该深度神经网络模型进行训练，只需保证该深度神经网络模型具备对于指标数据的检测能力，且能够产出其确定的检测结果的不确定性即可。

应理解，本申请实施例提供的模型训练方法可以由具备数据处理能力的计算机设备执行，该计算机设备可以是终端设备或服务器。其中，终端设备具体可以为计算机、智能手机、平板电脑、个人数字助理（Personal Digital Assistant，PDA）等；服务器具体可以为应用服务器或Web服务器，在实际部署时，可以为独立服务器，也可以为由多个物理服务器构成的集群服务器或云服务器。本申请实施例涉及的指标数据、指标数据的检测结果等，可以保存于区块链上。

为了便于理解本申请实施例提供的模型训练方法，下面以该模型训练方法的执行主体为服务器为例，对该模型训练方法的应用场景进行示例性介绍。

参见图1，图1为本申请实施例提供的模型训练方法的应用场景示意图。如图1所示，该应用场景中包括服务器110和数据库120，服务器110可以通过网络从数据库120中调取数据，或者数据库120也可以集成在服务器110中。其中，服务器110可以为目标业务场景中的后台服务器，其用于执行本申请实施例提供的模型训练方法，以训练得到用于检测该目标业务场景中的指标数据是否异常的目标指标检测模型；数据库120用于存储目标业务场景中的待检测指标数据。

在实际应用中，服务器110可以从数据库120中调取目标业务场景中的至少一个待检测指标数据。此处的目标业务场景可以是任一种存在指标检测需求的场景，如微服务监测场景、物理实体（例如机房中的实体设备等）监测场景、逻辑实体（例如后台部署的处理模块等）监测场景、网络拓扑监测场景、日志数据监测场景等等。此处所获取的待检测指标数据可以为目标业务场景中任一种所需监测的指标的数据，例如，在微服务监测场景中，待检测指标数据可以为服务器的中央处理器（central processing unit，CPU）监控数据等；当服务器110所获取的待检测指标数据包括多个时，这多个待检测指标数据可以为同一种指标下的数据，也可以为多种指标下的数据，本申请对此不做任何限定。

服务器110获取到目标业务场景中的至少一个待检测指标数据后，针对每个待检测指标数据，服务器110可以通过预先训练好的深度神经网络模型111，对该待检测指标数据进行处理，以得到该待检测指标数据对应的检测结果以及该检测结果的不确定性。需要说明的是，该深度神经网络模型111是预先通过深度学习的方式训练得到的用于检测指标是否异常的模型，其具备基础的指标检测能力，但是产出的检测结果的准确度在目标业务场景中可能不高，即该深度神经网络模型在目标业务场景中的适用度可能较低；此外，该深度神经网络模型还能够产出其生成的检测结果的不确定性，该不确定性能够反映检测结果的可靠程度，也即反映该深度神经网络模型对该待检测指标数据的处理能力，该深度神经网络模型能否准确地检测该待检测指标数据。

服务器110通过上述处理，针对所获取的各个待检测指标数据完成检测处理，确定出各个待检测指标数据各自对应的检测结果的不确定性后，可以根据各个待检测指标数据各自对应的检测结果的不确定性，从这些待检测指标数据中选取出不确定性较高的检测结果对应的待检测指标数据，作为参考指标数据，并获取参考指标数据对应的标注检测结果，该标注检测结果能够准确地反映该其对应的参考指标数据是否异常。

进而，服务器110可以基于各参考指标数据及其各自对应的标注检测结果，对上述深度神经网络模型进行主动学习，即利用该深度神经网络模型难以准确检测的指标数据对其进行优化训练，从而得到适用于目标业务场景的目标指标检测模型112，该目标指标检测模型112能够准确地检测目标业务场景中的指标数据是否存在异常。所选出的参考指标数据均是深度神经网络模型难以准确检测的指标数据，此类指标数据对于提升深度神经网络的模型性能来说能够起到较大的帮助作用，即其对于深度神经网络模型的优化训练具有较高的价值；在实际应用中，仅利用少量此类指标数据及其对应的标注结果优化训练深度神经网络模型，即可快速地提高该深度神经网络模型的性能，使其适用于目标业务场景中的指标检测。

应理解，图1所示的应用场景仅为示例，在实际应用中，本申请实施例提供的模型训练方法还可以应用于其它场景，例如，服务器110可以直接从目标业务场景中的相关监测点采集待检测指标数据，在此不对本申请实施例提供的模型训练方法适用的应用场景做任何限定。

下面通过方法实施例对本申请提供的模型训练方法进行详细介绍。

参见图2，图2为本申请实施例提供的模型训练方法的流程示意图。为了便于描述，下述实施例仍以该模型训练方法的执行主体为服务器为例进行介绍。如图2所示，该模型训练方法包括以下步骤：

步骤201：获取目标业务场景中的至少一个待检测指标数据。

服务器训练用于监测目标业务场景中的指标数据是否异常的目标指标检测模型之前，需要先获取该目标业务场景中的至少一个待检测指标数据，以从所获取的至少一个待检测指标数据中选出适用于训练目标指标检测模型的训练样本；应理解，通常情况下，为了能够对目标指标检测模型进行更充分地训练，服务器可以获取多个（即至少两个）待检测指标数据。

需要说明的是，本申请实施例中的目标业务场景可以为任一种存在指标监测需求的场景，即如若需要针对某业务场景监测其中的指标数据是否存在异常，则可以将该业务场景视为目标业务场景。

示例性的，本申请实施例中的目标业务场景可以包括以下任一种：微服务监测场景、物理实体监测场景、逻辑实体监测场景、网络拓扑监测场景、日志数据监测场景。其中，微服务监测场景是指对微服务架构下的各微服务的各项KPI进行监测的应用场景；物理实体监测场景是指对机房中硬件设备的各项指标进行监测的应用场景；逻辑实体监测场景是指对软件架构中的虚拟功能模块的各项指标进行监测的应用场景；网络拓扑监测场景是指对网络通信架构中的各项通信指标进行监测的应用场景；日志数据监测场景是指对生产过程中产生的各项日志数据进行监测的应用场景。在上述目标业务场景中监测指标数据是否异常，通常是为了及时地判断业务场景中是否存在故障，进而便于相关运维人员及时介入并解决故障。

应理解，本申请实施例中的目标业务场景除了可以包括上述场景外，还可以包括其它任一种需要进行指标监测的场景，例如任一种AIOps智能运维场景，在此不对本申请实施例中的目标业务场景做任何限定。

需要说明的是，本申请实施例中的待检测指标数据可以是目标业务场景中任一种所需监测的指标的观测数据，例如，当目标业务场景为微服务监测场景时，该待检测指标数据可以为微服务的任一项KPI值。在本申请实施例中，当服务器所获取的待检测指标数据包括多个时，这多个待检测指标数据可以是目标业务场景中同一种指标的多个观测数据，也可以为目标业务场景中多种指标的多个观测数据，本申请在此不对所获取的各待检测指标数据各自所属的指标做任何限定。

在实际应用中，服务器获取目标业务场景中的待检测指标数据时，可以直接从目标业务场景的相关节点处采集该待检测指标数据；例如，当目标业务场景为物理实体监测场景时，服务器可以直接从各所需监测的硬件设备处采集所需监测的指标的数据。此外，服务器也可以从与目标业务场景相关的数据库中采集该待检测指标数据；例如，目标业务场景中的各项待检测指标数据可以被传输至对应的数据库中，相应地，服务器可以从该数据库中采集待检测指标数据。当然，在实际应用中，服务器也可以采用其它方式获取该目标业务场景中的多个待检测指标数据，本申请在此不对服务器获取待检测指标数据的方式做任何限定。

可选的，在一些情况下，本申请实施例提供的方法还可以应用于跨业务场景中，即本申请实施例可以用于训练同时适用于多种业务场景的目标指标检测模型。相关技术中，基于无监督学习的方式训练得到的指标检测模型，通常难以具备跨业务场景的扩展能力；例如，如图3所示，云服务器A和云服务器B的CPU数据分布模式存在差异，在该种情况下，基于无监督学习的方式训练得到的用于监测云服务器A的CPU数据的模型，难以用于监测云服务器B的CPU数据是否存在异常。而本申请实施例借助深度学习模型具备丰富的表征能力的特点，可以训练出具备跨业务场景扩展能力的目标指标检测模型。

服务器训练具备跨业务场景扩展能力的目标指标检测模型时，可以确定多个（即至少两个）目标业务场景；进而，针对每个目标业务场景，获取该目标业务场景中的至少一个待检测指标数据。示例性的，假设服务器需要训练可以同时用于监测云服务器A的CPU数据和云服务器B的CPU数据的目标指标检测模型，则服务器可以将监测云服务器A的CPU数据的场景和监测云服务器B的CPU数据的场景，均视为目标业务场景；进而，在每个目标业务场景中，均获取至少一个待检测指标数据。

应理解，服务器所确定的目标业务场景的数量可以为任意数量（需大于或等于2），服务器针对每个目标业务场景获取的待检测指标数据的数量也可以为任意数量（需大于或等于1），本申请在此不对所确定的目标业务场景的数量做任何限定，也不对所获取的待检测指标数据的数量做任何限定。

步骤202：针对每个所述待检测指标数据，通过深度神经网络模型，根据所述待检测指标数据，确定所述待检测指标数据对应的检测结果的不确定性；所述不确定性用于表征所述检测结果的可靠程度，所述检测结果是通过所述深度神经网络模型根据所述待检测指标数据确定的。

服务器获取到目标业务场景中的多个待检测指标数据后，可以利用预先训练的深度神经网络模型对每个待检测指标数据进行检测处理，得到该待检测指标数据对应的检测结果以及该检测结果的不确定性。具体的，针对每个待检测指标数据，服务器可以将该待检测指标数据输入预先训练的深度神经网络模型，该深度神经网络模型通过对该待检测指标数据进行分析处理，将相应地输出该待检测指标数据对应的检测结果，并且还可以确定该检测结果对应的不确定性。

需要说明的是，上述深度神经网络（Deep Neural Network，DNN）模型是预先采用深度学习算法，基于冷启动样本训练得到的神经网络模型，该深度神经网络模型具备基础的检测指标数据是否异常的能力，并且还能够产出其检测结果的不确定性。此处的冷启动样本可以是任意可用于训练指标检测模型的样本，例如，冷启动样本可以为目前已有的通用的指标检测模型训练样本，又例如，冷启动样本可以为历史指标数据及其对应的历史检测结果，该历史指标数据具体可以是目标业务场景中历史产生的指标数据，也可以是其它业务场景中历史产生的指标数据，本申请在此不对其做任何限定；通常情况下，为了降低模型训练成本，可以选择获取成本较低的指标检测模型训练样本作为上述冷启动样本，从而在深度学习阶段尽可能地节约深度神经网络模型的训练成本。

需要说明的是，上述待检测指标数据对应的检测结果是用于表征待检测指标数据是否异常的结果；示例性的，待检测指标数据对应的检测结果可以为该待检测指标数据的异常得分，异常得分越高，则表明该待检测指标数据异常的可能性越大；当然，该待检测指标数据对应的检测结果还可以表现为其它形式，本申请在此不对该待检测指标数据对应的检测结果的表现形式做任何限定。

此外，待检测指标数据对应的检测结果的不确定性用于表征该检测结果的可靠程度，该可靠程度也可以理解为可信程度，检测结果的不确定性越高，则说明该检测结果越不可信。相应地，该不确定性也能够表征深度神经网络模型对于该待检测指标数据的处理能力；若不确定性较高，则说明深度神经网络模型对于该待检测指标数据的处理能力较差，难以准确地检测其是否异常；反之，若不确定性较低，则说明深度神经网络模型对于该待检测指标数据的处理能力较强，能够较准确地检测其是否异常。

需要说明的是，本申请实施例的核心思想在于将深度学习的优势和主动学习的优势结合起来，基于融合深度学习和主动学习的思想训练适用于特定业务场景的指标检测模型。其中，深度学习的优势在于，只要存在标注样本，基于有监督学习方式训练的深度神经网络模型即可以表示不同业务场景中的异常偏好，本申请实施例通过预先训练深度神经网络模型，将深度学习的优势引入本申请的方案中；主动学习的优势在于，基于少量带有标签的训练样本学习和更新模型，即可快速地提高所训练的模型的模型性能，本申请实施例通过从所获取的待检测指标数据中筛选参考指标数据，并利用所筛选出的参考指标数据对深度神经网络模型进行主动学习，将主动学习的优势引入本申请的方案中。

然而，从实际技术实现上来看，在主动学习的环境中使用深度学习模型是存在困难的。具体的，主动学习的采集函数（Acquisition Function）需要依赖模型不确定性（Model Uncertainty），而在多数情况下，深度学习模型难以表示这种模型不确定性。针对上述困难本申请实施例提出了一种解决方式；即通过随机剔除神经元连接来模拟高斯过程，进而，基于高斯过程对深度学习模型的检测结果和检测结果的不确定性进行估计。下面将对该种解决方式分别进行详细介绍。

在上述种解决方式中，上述深度神经网络模型为随机失活神经网络模型，该随机失活神经网络模型在本申请实施例中也可以被称为基于随机剔除神经元连接（McDropout）的深度神经网络模型，该随机失活神经网络模型运行时会基于预设剔除比率随机剔除其内部的神经元连接。基于该随机失活神经网络模型确定待检测指标数据对应的检测结果的不确定性时，可以通过该随机失活神经网络模型，对待检测指标数据执行多次神经网络正向传播，得到多次正向传播各自对应的检测结果；进而，根据这多次正向传播各自对应的检测结果，确定该待检测指标数据对应的检测结果的不确定性。

对于一个具有任意深度和非线性激活函数的神经网络，在每个加权层之间应用McDropout，在数学上等价于深度高斯过程的近似。更详细地，给定一个L层的深度神经网络模型，其中第i层的神经元连接权重矩阵可以记为W_i，该权重矩阵的大小为K_i×K_i-1，本申请实施例可以用ω={W_i|i=1，2，……，L}代表L层深度神经网络模型的参数，该深度神经网络模型的输入集和输出集分别记为X和Y，对于输入集X中的每个输入元素x_i，其对应的观测输出为y_i。对于新输入元素x，基于高斯过程模型计算其对应的观测输出y的预测概率分布的公式如下式（1）所示：

（1）

其中，

是模型参数的真实后验分布，该分布实际是难以获取的，本申请实施例随机剔除神经网络内部的神经元连接，如此使得参数ω服从伯努利分布q(ω)，基于此近似估计模型参数的真实后验分布

，q(ω)的公式定义如下式（2）所示：

（2）

其中，p_i是第i层神经元连接被随机剔除的概率，矩阵M_i是权重大小，当z_{i, j}的取值为0时，表示第i-1层的第j个神经元的连接被剔除。

基于深度高斯模型，本申请实施例需要使得估计的参数后验分布q(ω)尽可能地贴近真实的参数后验分布

，即深度高斯模型的优化函数为最小化

，具体的推导公式如下所示：

其中，λ是常量，θ是神经网络的参数权重。通过上述公式可以发现，基于高斯过程的优化过程等价于损失函数为交叉熵与L2正则化的Dropout深度神经网络。也就是说，一个具有任意深度和非线性激活函数的神经网络，在每个加权层之间应用Mc Dropout等价于深度高斯过程的近似。

在证明得到上述结论的基础上，本申请实施例可以进一步证明模型不确定性可以从基于Mc Dropout深度神经网络模型中获取。对于新输入x*，本申请实施例估计的预测输出分布为q(y*|x*)，基于Mc Dropout深度神经网络模型先验的预测输出分布为p(y*|x*,ω)，由贝叶斯推演可知其服从正态分布，详细公式如下式（3）和式（4）所示：

（3）

（4）

其中，ω是深度神经网络模型的参数，

是深度神经网络模型的准确率参数，D是输出y*的维度大小。基于上述分布，可以通过如下式（5）计算输入x*的预测均值：

（5）

其中，T是基于伯努利分布的一组向量{z^t| t=1,2,…,T}。经实践证明，新的输入预测分布的均值等同于执行T次神经网络正向传播的平均结果，所谓神经网络正向传播即为神经网络模型根据输入确定输出的正向处理过程。即如式（6）所示，此外，该新输入x*预测方差的计算公式如下式（7）所示：

（6）

（7）

通过实践可以发现，新输入预测分布的方差等价于执行T次神经网络正向传播的方差与模型准确率的倒数之和。也就是说，在实际应用中，在不改变基于Mc Dropout的深度神经网络模型的训练方式的情况下，可以直接通过执行多次神经网络正向传播，来估计该神经网络模型对于输入的预测均值和该预测均值的不确定性。

通过上述理论推导可知，为了引入主动学习所需的模型不确定性，本申请实施例可以使用基于Mc Dropout的深度神经网络模型，作为用于检测指标数据是否异常的深度神经网络模型。通过该基于Mc Dropout的深度神经网络模型确定待检测指标数据对应的检测结果、以及该检测结果的不确定性时，服务器可以利用该Mc Dropout的深度神经网络模型，对待检测指标数据进行多次神经网络正向传播，进而，根据多次正向传播各自对应的检测结果，确定该待检测指标数据对应的检测结果、以及该检测结果的不确定性。

作为一种示例，服务器可以根据多次正向传播各自对应的检测结果，确定检测结果均值；进而，基于该检测结果均值，确定该待检测指标数据对应的检测结果。

为了便于理解上述确定检测结果的实现过程，下面对该实现过程进行举例说明。假设服务器使用的深度神经网络模型为三层的深度神经网络模型，每层网络结构中神经元的数量为50，神经元连接的随机剔除比率为0.02；对于待检测指标数据x*，服务器可以利用该深度神经网络模型，对待检测指标数据x*执行1000次神经网络正向传播，每执行一次正向传播将得到一个对应的异常得分；由于深度神经网络模型执行正向传播的过程中会随机剔除内部的神经元连接，因此，对待检测指标数据x*执行的各次正向传播得到的异常得分会有所区别。进而，服务器可以计算1000次正向传播各自对应的异常得分的均值，该得分均值即可被视为待检测指标数据x*对应的检测结果；如果该得分均值超过预设的得分阈值，则可以认为待检测指标数据x*存在异常。

应理解，在实际应用中，服务器除了可以直接将检测结果均值作为待检测指标数据对应的检测结果外，还可以对该检测结果均值进行特定的处理，进而将处理得到的数据作为待检测指标数据对应的检测结果，本申请在此不对基于检测结果均值确定待检测指标数据对应的检测结果的方式做任何限定。

作为一种示例，服务器可以根据多次正向传播各自对应的检测结果，确定检测结果分布方差和检测结果分布标准差中的至少一种；进而，基于检测结果分布方差和检测结果分布标准差中的至少一种，确定该待检测数据对应的检测结果的不确定性。

为了便于理解上述确定检测结果的不确定性的实现过程，下面对该实现过程进行举例说明。仍假设服务器使用的深度神经网络模型为三层的深度神经网络模型，每层网络结构中神经元的数量为50，神经元连接的随机剔除比率为0.02；对于待检测指标数据x*，服务器可以利用该深度神经网络模型，对待检测指标数据x*执行1000次神经网络正向传播后，将得到1000次正向传播各自对应的异常得分；进而，服务器可以计算这1000次正向传播各自对应的异常得分的方差，作为待检测指标数据x*对应的检测结果的不确定性，或者，服务器也可以计算这1000次正向传播各自对应的异常得分的标准差，作为待检测指标数据x*对应的检测结果的不确定性。

应理解，在实际应用中，服务器除了可以直接将检测结果分布方差或者检测结果分布标准差，作为待检测指标数据对应的检测结果的不确定性外，还可以对检测结果分布方差或者检测结果分布标准差进行特定的处理，进而将处理得到的数据作为待检测指标数据对应的检测结果的不确定性，本申请在此不对基于检测结果分布方差或者检测结果分布标准差确定检测结果的不确定性方式做任何限定。

需要说明的是，在实际应用中，上述基于Mc Dropout的深度神经网络模型具体可以是深度贝叶斯神经网络模型，也可以是卷积神经网络模型，本申请在此不对该基于McDropout的深度神经网络模型的选型做任何限定。

如此，通过上述基于Mc Dropout的深度神经网络模型，确定待检测指标数据对应的检测结果以及该检测结果的不确定性；可以将深度学习模型更好地融入主动学习过程中，为融合深度学习和主动学习的实现提供可靠的理论基础，提供了使深度学习模型产出模型不确定性的实现方式。

步骤203：根据所述至少一个待检测指标数据各自对应的检测结果的不确定性，从所述至少一个待检测指标数据中选出参考指标数据，并获取所述参考指标数据对应的标注检测结果。

服务器通过深度神经网络模型，确定出所获取的至少一个待检测指标数据各自对应的检测结果的不确定性后，可以根据至少一个待检测指标数据各自对应的检测结果的不确定性，从这至少一个待检测指标数据中选出不确定性较高的检测结果对应的待检测指标数据，作为参考指标数据，并获取所选出的参考指标数据对应的标注检测结果。通常情况下，服务器所获取的待检测指标数据可以包括多个，相应地，服务器此时需要从这多个待检测指标数据中选出参考指标数据。

需要说明的是，所选出的参考指标数据是所对应的检测结果的不确定性较高的待检测指标数据，深度神经网络模型对于此类参考指标数据难以准确地检测其是否异常，即深度神经网络模型目前对于此类参考指标数据的检测能力较差。参考指标数据对应的标注检测结果是该参考指标数据对应的标准的检测结果，例如，可以通过人工标注的方式获得参考指标数据对应的标注检测结果。

在一种可能的实现方式中，服务器可以通过以下方式选取参考指标数据：针对每个待检测指标数据，判断该待检测指标数据对应的检测结果的不确定性是否超过预设阈值，若是，则确定该待检测指标数据为参考指标数据。即，服务器可以预先设定用于衡量不确定性高低的预设阈值，进而，针对每个待检测指标数据，判断其对应的检测结果的不确定性是否超过该预设阈值；若是，则说明该待检测指标数据对应的检测结果比较不可靠，深度神经网络模型对于该待检测指标数据的处理能力较差，相应地，服务器可以将该待检测指标数据作为参考指标数据；若否，则说明待检测指标数据对应的检测结果比较可靠，深度神经网络模型对于该待检测指标数据的处理能力较强，该待检测指标数据对于优化训练该深度神经网络模型难以起到较大的帮助作用，因此不必将该待检测指标数据作为参考指标数据。

在另一种可能的实现方式中，服务器也可以通过以下方式选取参考指标数据：按照所对应的检测结果的不确定性从大到小的顺序，对至少一个待检测指标数据进行排序；进而，确定排序靠前的预设数量的待检测指标数据，作为参考指标数据。即，为了避免主动学习过程耗费较高的训练成本，服务器可以按照所对应的检测结果的不确定性从大到小的顺序，排列多个待检测指标数据，进而，选取深度神经网络模型最难准确处理的若干个待检测指标数据，作为后续优化训练该深度神经网络模型的参考指标数据。

当然，在实际应用中，服务器也可以采用其它方式，从所获取的至少一个待检测指标数据中选取参考指标数据，本申请在此不对选取参考指标数据的实现方式做任何限定。

正如上文所介绍的，本申请实施例提供的方法可以用于训练具备跨业务场景能力的目标指标检测模型，在该种情况下，服务器获取待检测指标数据时，需要从多个目标业务场景中获取至少一个待检测指标数据，即针对每个目标业务场景均获取至少一个待检测指标数据。相应地，服务器生成待检测指标数据对应的检测结果以及检测结果的不确定性时，也会针对每个目标业务场景中的每个待检测指标数据确定其对应的检测结果的不确定性。相应地，服务器选取参考指标数据时，也需要平等对待来自各个目标业务场景的各个待检测指标数据，即根据各目标业务场景中的多个待检测数据各自对应的检测结果的不确定性，从各目标业务场景中的至少一个待检测数据中选出参考指标数据。

即，在训练具备跨业务场景能力的目标指标检测模型的场景中，服务器从待检测指标数据中选取参考指标数据时，会平等地对待每个目标业务场景中的待检测指标数据，将各个目标业务场景中的各个待检测指标数据混合在一起，根据各待检测指标数据各自对应的检测结果的不确定性，从混合在一起的待检测指标数据中选取参考指标数据，而不会刻意区分业务场景。

步骤204：基于所述参考指标数据及其对应的标注检测结果，对所述深度神经网络模型进行训练，得到适用于所述目标业务场景的目标指标检测模型。

服务器从所有待检测指标数据中选出参考指标数据，并获取到参考指标数据对应的标注检测结果后，可以将参考指标数据及其对应的标注检测结果作为反馈样本，进而利用该反馈样本对步骤202中使用的深度神经网络模型进行主动学习（也即优化训练），以得到用于监测目标业务场景中的指标数据的目标指标检测模型。

需要说明的是，目标指标检测模型是利用所选出的反馈样本对深度神经网络模型进行主动学习得到的模型，该目标指标检测模型在目标业务场景中具有较好的效果，即能够较准确地检测目标业务场景中的指标数据是否异常。该目标指标检测模型的模型结构与深度神经网络模型的模型结构相同，但是该目标指标检测模型的模型参数与深度神经网络模型的模型参数不同。

服务器具体对深度神经网络模型进行主动学习时，可以将反馈样本中的参考指标数据输入所训练的深度神经网络模型中，该深度神经网络模型通过对该参考指标数据进行分析处理，将相应地输出对于该参考指标数据的预测检测结果；进而，服务器可以基于该预测检测结果和反馈样本中的标注检测结果之间的差异，构建用于训练该深度神经网络模型的损失函数，并以最小化该损失函数为目标，调整该深度神经网络模型的模型参数。服务器可以基于多个反馈样本迭代执行多轮对于该深度神经网络模型的训练，直至该深度神经网络模型满足训练结束条件为止，满足训练结束条件的深度神经网络模型即可被视为目标指标检测模型。

应理解，上述训练结束条件可以为深度神经网络模型的模型性能达到预设要求，如模型的检测准确度达到预设准确度阈值、模型的检测准确度不再有明显提升等等，上述训练结束条件也可以为对于深度神经网络模型的迭代训练次数达到预设次数，本申请在此不对该训练结束条件做任何限定。

应理解，当本申请实施例提供的方法用于训练具备跨业务场景能力的目标指标检测模型时，服务器基于其通过步骤203选出的参考指标数据及其对应的标注检测结果，对步骤202中使用的深度神经网络模型进行训练，将得到适用于多个目标业务场景的目标指标检测模型，这多个目标业务场景即为步骤201所获取的待检测指标数据所来源的业务场景。如此，训练得到的目标指标检测模型可以用于检测多个目标业务场景中的指标数据是否存在异常，即使得目标指标检测模型具备较大的应用范围，扩展了目标指标检测模型所适用的业务场景。

可选的，本申请实施例提供的方法对于概念漂移（Concept Drifts）问题，也提出了一种有效的解决方式。所谓概念漂移是指因业务场景中的工作模式发生变化，而导致该业务场景中所需监测的指标数据的分布情况发生变化；如图4所示，随着云服务器C的工作模式发生变化，该云服务器C的CPU利用率的分布情况也发生了变化。相关技术中，基于无监督学习的方式训练得到的指标检测模型通常难以解决上述概念漂移的问题，而本申请实施例借助自主学习能够在较少标注样本的情况下快速地优化模型性能这一特点，可以有效地应对上述概念漂移问题。

具体的，服务器检测到目标业务场景中的工作模式发生变化时，可以获取工作模式变化后的该目标业务场景中的至少一个更新待检测指标数据；然后，针对每个更新待检测指标数据，通过目标指标检测模型，根据该更新待检测指标数据，确定该更新待检测指标数据对应的检测结果的不确定性；进而，根据至少一个更新待检测指标数据各自对应的检测结果的不确定性，从至少一个更新待检测指标数据中选出更新参考指标数据，并获取更新参考指标数据对应的标注检测结果；最终，基于更新参考指标数据及其对应的标注检测结果，对该目标指标检测模型进行训练，得到适用于工作模式变化后的目标业务场景的更新目标指标检测模型。

本申请实施例应对概念漂移问题的解决思想，与本申请实施例训练适用于目标业务场景的目标指标检测模型的思想基本类似。即从工作模式变化后的目标业务场景中的更新待检测指标数据中，选出当前的目标指标检测模型难以准确检测的更新参考指标数据，进而，利用所选出的更新参考指标数据及其对应的标注检测结果，对当前的目标指标检测模型进行优化训练，以使该目标指标检测模型对于工作模式变化后的目标业务场景中的指标数据也能准确检测。对目标指标检测模型进行优化训练的具体实现过程可以参见步骤201至步骤204的相关介绍内容，对于该目标指标检测模型进行优化训练与对深度神经网络模型进行优化训练的实现方式基本相同，此处不再赘述。

如此，本申请实施例将融合深度学习与主动学习的思想进一步用于解决概念漂移的问题，在目标业务场景中的工作模式发生变化的情况下，可以快速地对当前已有的目标指标检测模型进行优化训练，得到适用于工作模式变化后的目标业务场景的更新目标指标检测模型，提高了指标检测的灵活性。

为了便于进一步理解本申请实施例提供的模型训练方法，下面以通过该模型训练方法训练适用于游戏业务场景的目标指标检测模型为例，对该模型训练方法进行整体示例性介绍。

参见图5，图5为本申请实施例提供的模型训练方法的实现架构示意图。如图5所示，本申请实施例提供的模型训练方法的实现分为两个阶段，一个是离线阶段，另一个是线上阶段。在离线阶段，服务器可以基于冷启动样本训练深度贝叶斯网络模型，该深度贝叶斯网络模型可以用于检测观测的指标数据是否异常，即检测观测的指标数据对应的异常得分，并且可以产出该检测结果的不确定性；该深度贝叶斯网络模型具体可以为图2所示实施例中的随机失活神经网络模型。在线上阶段，服务器可以利用深度贝叶斯网络模型对游戏业务场景中的待检测指标数据进行检测，并根据待检测指标数据对应的检测结果的不确定性，从这些待检测指标数据中选出具有高度不确定性的检测结果对应的待检测指标数据，作为反馈样本，进而通过主动学习的方式，利用反馈样本优化该深度贝叶斯网络模型。

假设服务器在离线阶段使用游戏业务A涉及的指标数据及其对应的标注检测结果，训练得到用于检测指标的深度贝叶斯网络模型；在线上阶段，服务器欲利用该深度贝叶斯网络模型对游戏业务B涉及的指标数据进行检测。此时，服务器可以利用该深度贝叶斯网络模型对该游戏业务B中待检测的指标数据进行检测处理，得到所检测的指标数据对应的检测结果以及该检测结果的不确定性，进而，服务器可以基于各指标数据各自对应的检测结果的不确定性，从各指标数据中筛选出少量的高度不确定性样本，并利用这部分样本优化深度贝叶斯网络模型，使得该深度贝叶斯网络模型在游戏业务B上具有较优的检测性能。

更具体的，在检测指标是否异常时，服务器可以选择三层的深度贝叶斯网络模型，每层神经元的数量为50，神经元连接的随机剔除比率为0.02。对于游戏业务B中每个待检测的指标数据x*，服务器可以利用深度贝叶斯网络模型执行1000次神经网络正向传播，并计算这1000次正向传播的检测结果的均值作为该指标数据x*的异常得分；如果该异常得分超过预设得分阈值，则可以认为该指标数据x*存在异常。与相关技术中的DONUT、DevNet相比，本申请的异常检测结果具有更好的F1-score，即本发明的指标检测方法的效果优于业内已有的其它算法。

在提取深度贝叶斯网络模型的预测不确定性时，服务器可以使用1000次正向传播的检测结果的方差，作为指标数据x*对应的检测结果的不确定性，服务器可以使用该不确定性作为主动学习的采集函数，并选择不确定性最高的200个检测结果对应的指标数据作为主动学习的反馈样本。进而，利用所选择的反馈样本对深度贝叶斯网络模型进行优化训练，得到适用于检测游戏业务B涉及的指标数据的模型。

本申请发明人在上述场景中对本申请的深度贝叶斯网络模型进行了测试，一个测试的实现条件是使用游戏业务A涉及的指标数据构建深度贝叶斯网络模型的训练样本，进而，利用该深度贝叶斯网络模型检测游戏业务B涉及的指标数据，以及基于本申请实施例的方法对该深度贝叶斯网络模型进行优化训练，利用该优化训练得到的模型检测游戏业务B涉及的指标数据；另一个测试的实现条件是使用游戏业务B涉及的指标数据构建深度贝叶斯网络模型的训练样本，进而，利用该深度贝叶斯网络模型检测游戏业务A涉及的指标数据，以及基于本申请实施例的方法对该深度贝叶斯网络模型进行优化训练，利用该优化训练得到的模型检测游戏业务A涉及的指标数据。

图6示出了两种测试情况下，深度神经网络模型初始的检测效果、以及使用反馈样本优化训练深度神经网络模型后的检测效果，使用两种模型分别对周期性KPI（Periodic）、平稳型KPI（Stationary）、稀疏型KPI（Sparse）和通用型KPI（General）进行检测，发现优化训练后得到的深度神经网络模型的性能明显提高，并且通过实践发现200个反馈样本即可有效地提高深度神经网络模型在线上的检测结果。

针对上文描述的模型训练方法，本申请还提供了对应的模型训练装置，以使上述模型训练方法在实际中得以应用及实现。

参见图7，图7是与上文图2所示的模型训练方法对应的一种模型训练装置700的结构示意图。如图7所示，该模型训练装置700包括：

数据获取模块701，用于获取目标业务场景中的至少一个待检测指标数据；

检测模块702，用于针对每个所述待检测指标数据，通过深度神经网络模型，根据所述待检测指标数据，确定所述待检测指标数据对应的检测结果的不确定性；所述不确定性用于表征所述检测结果的可靠程度，所述检测结果是通过所述深度神经网络模型根据所述待检测指标数据确定的；

样本筛选模块703，用于根据所述至少一个待检测指标数据各自对应的检测结果的不确定性，从所述至少一个待检测指标数据中选出参考指标数据，并获取所述参考指标数据对应的标注检测结果；

训练模块704，用于基于所述参考指标数据及其对应的标注检测结果，对所述深度神经网络模型进行训练，得到适用于所述目标业务场景的目标指标检测模型。

可选的，在图7所示的模型训练装置的基础上，所述深度神经网络模型为随机失活神经网络模型，所述随机失活神经网络模型运行时会基于预设剔除比率随机剔除内部的神经元连接；则所述检测模块702具体用于：

通过所述随机失活神经网络模型，对所述待检测指标数据执行多次神经网络正向传播，得到所述多次正向传播各自对应的检测结果；

根据所述多次正向传播各自对应的检测结果，确定所述待检测指标数据对应的检测结果的不确定性。

可选的，所述检测模块702具体用于：

根据所述多次正向传播各自对应的检测结果，确定检测结果分布方差和检测结果分布标准差中的至少一种；

基于所述检测结果分布方差和所述检测结果分布标准差中的至少一种，确定所述待检测指标数据对应的检测结果的不确定性。

可选的，所述检测模块702还用于：

根据所述多次正向传播各自对应的检测结果，确定检测结果均值；

基于所述检测结果均值，确定所述待检测指标数据对应的检测结果。

可选的，在图7所示的模型训练装置的基础上，所述样本筛选模块703具体用于通过以下任一种方式选出参考指标数据：

针对每个所述待检测指标数据，判断所述待检测指标数据对应的检测结果的不确定性是否超过预设阈值，若是，则确定所述待检测指标数据为所述参考指标数据；

按照所对应的检测结果的不确定性从大到小的顺序，对所述至少一个待检测指标数据进行排序；确定排序靠前的预设数量的所述待检测指标数据，作为所述参考指标数据。

可选的，在图7所示的模型训练装置的基础上，参见图8，图8为本申请实施例提供的另一种模型训练装置800的结构示意图。如图8所示，该模型训练装置还包括：优化训练模块801，所述优化训练模块801用于：

检测到所述目标业务场景中的工作模式发生变化时，获取工作模式变化后的所述目标业务场景中的至少一个更新待检测指标数据；

针对每个所述更新待检测指标数据，通过所述目标指标检测模型，根据所述更新待检测指标数据，确定所述更新待检测指标数据对应的检测结果的不确定性；

根据所述至少一个更新待检测指标数据各自对应的检测结果的不确定性，从所述至少一个更新待检测指标数据中选出更新参考指标数据，并获取所述更新参考指标数据对应的标注检测结果；

基于所述更新参考指标数据及其对应的标注检测结果，对所述目标指标检测模型进行训练，得到适用于工作模式变化后的所述目标业务场景的更新目标指标检测模型。

可选的，在图7所示的模型训练装置的基础上，所述数据获取模块701具体用于：

确定多个所述目标业务场景；并针对每个所述目标业务场景，获取所述目标业务场景中的至少一个待检测指标数据；

所述样本筛选模块703具体用于：

根据各所述目标业务场景中的所述至少一个待检测指标数据各自对应的检测结果的不确定性，从各所述目标业务场景中的所述至少一个待检测指标数据中选出所述参考指标数据；

所述训练模块704具体用于：

基于所述参考指标数据及其对应的标注检测结果，对所述深度神经网络模型进行训练，得到适用于所述多个目标业务场景的目标指标检测模型。

可选的，在图7所示的模型训练装置的基础上，所述目标业务场景包括以下任一种：微服务监测场景、物理实体监测场景、逻辑实体监测场景、网络拓扑监测场景、日志数据监测场景。

上述模型训练装置，创新性地提出了融合深度学习和主动学习训练指标检测模型的方式。由于深度神经网络模型产出的待检测指标数据对应的检测结果的不确定性，能够反映该检测结果的可靠程度，也即反映深度神经网络模型对该待检测指标数据的处理能力，若不确定性较高，则说明深度神经网络模型对于该待检测指标数据的处理能力较差，难以准确地检测其是否异常；基于此，本申请实施例可以根据至少一个待检测指标数据各自对应的检测结果的不确定性，从这些待检测指标数据中选出深度神经网络模型难以准确检测的指标数据，利用这些指标数据及其对应的标注检测结果作为反馈样本；此类反馈样本的质量较高，仅利用少量的此类反馈样本对深度神经网络模型进行训练，即可快速地提高该深度神经网络模型在目标业务场景中的性能，如此实现了在耗费较低标注成本的情况下，训练得到具备较优性能的指标检测模型的效果。

本申请实施例还提供了一种用于训练模型的计算机设备，该设备具体可以是终端设备或者服务器，下面将从硬件实体化的角度对本申请实施例提供的终端设备和服务器进行介绍。

参见图9，图9是本申请实施例提供的终端设备的结构示意图。如图9所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理、销售终端（Point ofSales，POS）、车载电脑等任意终端设备，以终端为计算机为例：

图9示出的是与本申请实施例提供的终端相关的计算机的部分结构的框图。参考图9，计算机包括：射频（Radio Frequency，RF）电路910、存储器920、输入单元930（其中包括触控面板931和其他输入设备932）、显示单元940（其中包括显示面板941）、传感器950、音频电路960（其可以连接扬声器961和传声器962）、无线保真（wireless fidelity，WiFi）模块970、处理器980、以及电源990等部件。本领域技术人员可以理解，图9中示出的计算机结构并不构成对计算机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器920可用于存储软件程序以及模块，处理器980通过运行存储在存储器920的软件程序以及模块，从而执行计算机的各种功能应用以及数据处理。存储器920可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据计算机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器920可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器980是计算机的控制中心，利用各种接口和线路连接整个计算机的各个部分，通过运行或执行存储在存储器920内的软件程序和/或模块，以及调用存储在存储器920内的数据，执行计算机的各种功能和处理数据，从而对计算机进行整体监控。可选的，处理器980可包括一个或多个处理单元；优选的，处理器980可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器980中。

在本申请实施例中，该终端所包括的处理器980还具有以下功能：

获取目标业务场景中的至少一个待检测指标数据；

可选的，所述处理器980还用于执行本申请实施例提供的模型训练方法的任意一种实现方式的步骤。

参见图10，图10为本申请实施例提供的一种服务器1000的结构示意图。该服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（central processing units，CPU）1022（例如，一个或一个以上处理器）和存储器1032，一个或一个以上存储应用程序1042或数据1044的存储介质1030（例如一个或一个以上海量存储设备）。其中，存储器1032和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1022可以设置为与存储介质1030通信，在服务器1000上执行存储介质1030中的一系列指令操作。

服务器1000还可以包括一个或一个以上电源1026，一个或一个以上有线或无线网络接口1050，一个或一个以上输入输出接口1058，和/或，一个或一个以上操作系统，例如Windows Server^TM，Mac OS X^TM，Unix^TM, Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于该图10所示的服务器结构。

其中，CPU 1022用于执行如下步骤：

获取目标业务场景中的至少一个待检测指标数据；

可选的，CPU 1022还可以用于执行本申请实施例提供的模型训练方法的任意一种实现方式的步骤。

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行前述各个实施例所述的一种模型训练方法中的任意一种实施方式。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前述各个实施例所述的一种模型训练方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储计算机程序的介质。

应当理解，在本申请中，“至少一个（项）”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项（个）或复数项（个）的任意组合。例如，a，b或c中的至少一项（个），可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

获取目标业务场景中的至少一个待检测指标数据；

2.根据权利要求1所述的方法，其特征在于，所述深度神经网络模型为随机失活神经网络模型，所述随机失活神经网络模型运行时会基于预设剔除比率随机剔除内部的神经元连接；

所述通过深度神经网络模型，根据所述待检测指标数据，确定所述待检测指标数据对应的检测结果的不确定性，包括：

通过所述随机失活神经网络模型，对所述待检测指标数据执行多次神经网络正向传播，得到多次正向传播各自对应的检测结果；

3.根据权利要求2所述的方法，其特征在于，所述根据所述多次正向传播各自对应的检测结果，确定所述待检测指标数据对应的检测结果的不确定性，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述至少一个待检测指标数据各自对应的检测结果的不确定性，从所述至少一个待检测指标数据中选出参考指标数据，包括以下任一种：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述获取目标业务场景中的至少一个待检测指标数据，包括：

所述根据所述至少一个待检测指标数据各自对应的检测结果的不确定性，从所述至少一个待检测指标数据中选出参考指标数据，包括：

所述基于所述参考指标数据及其对应的标注检测结果，对所述深度神经网络模型进行训练，得到适用于所述目标业务场景的目标指标检测模型，包括：

基于所述参考指标数据及其对应的标注检测结果，对所述深度神经网络模型进行训练，得到适用于多个所述目标业务场景的目标指标检测模型。

8.根据权利要求1所述的方法，其特征在于，所述目标业务场景包括以下任一种：微服务监测场景、物理实体监测场景、逻辑实体监测场景、网络拓扑监测场景、日志数据监测场景。

9.一种模型训练装置，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，所述深度神经网络模型为随机失活神经网络模型，所述随机失活神经网络模型运行时会基于预设剔除比率随机剔除内部的神经元连接；则所述检测模块具体用于：

11.根据权利要求10所述的装置，其特征在于，所述检测模块具体用于：

12.根据权利要求10或11所述的装置，其特征在于，所述检测模块还用于：

13.一种计算机设备，其特征在于，所述设备包括处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行权利要求1至8中任一项所述的模型训练方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1至8中任一项所述的模型训练方法。

15.一种计算机程序产品，包括计算机程序或者指令，其特征在于，所述计算机程序或者所述指令被处理器执行时，实现权利要求1至8中任一项所述的模型训练方法。