CN113051452B

CN113051452B - 运维数据特征选择方法和装置

Info

Publication number: CN113051452B
Application number: CN202110390727.5A
Authority: CN
Inventors: 裴丹; 成逸然
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2022-04-26
Anticipated expiration: 2041-04-12
Also published as: CN113051452A

Abstract

本发明提出一种运维数据特征选择方法和装置，其中，方法包括：获取原始数据样本；对原始数据样本进行预处理，获取多维数据样本；通过预设算法对多维数据样本进行计算，获取代价表达式计算数值最小时，输出每维数据特征权重；根据每维数据特征权重和预设权重阈值，从多维数据样本中筛选出目标数据集合。由此，提出能够适应实际运维环境的特征选择方法，不依赖于运维人员的经验、大量历史数据和人工标注，同时不依赖于一个算法来检测自身的效果，因此能够适应多种下游预警算法或分析算法，以及结合了有监督算法和无监督算法的优势，既能够学习历史故障的特征，定位高频异常维度，又能对历史上没有故障的维度进行有效的判断。

Description

运维数据特征选择方法和装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种运维数据特征选择方法和装置。

背景技术

通常，运维是现代互联网产业的基石，是互联网服务高效稳定运行的保证。在运维中，很多系统会产生复杂的数据信息，这些数据信息通常可以用多个固定的字段和对应的值来描述，将这类数据称为多维数据，数据中的字段就是多维数据的维度。

在实际生产环境中，多维数据是运维中出现频率很高的一种数据，因此对多维数据的分析也是运维工作的重中之重。为了更好地利用多维数据，运维人员会应用多种算法，依据多维数据进行故障预警、业务分析、事件复盘等等。由于多维数据的复杂性，这些算法常常有维度爆炸的问题，即算法的时空复杂度随着数据维度数量指数上升，使得算法很快就变得不再实用。

为了解决这个问题，通常需要对多维数据中的维度进行筛选，只将数据中价值更高的维度交给位于下游的算法(以下称为下游算法)。这样的过程类似于机器学习中的特征选择过程，对运维中的多维数据进行特征选择为关注的问题。

针对关注运维中的特征选择问题，由于其实际应用环境，这类数据有值为离散值、维度间相互有大量冗余、数据分布不平衡(通常表现为正例数量极少)、标注不完全等等特征，给特征选择过程带来了不小的挑战。

相关技术中，在接入系统较少时，可以由运维人员直接对接入的特征进行手工配置。这种情况下，通常需要运维人员依据经验进行选择，并在系统在线运行期间反复调整。然而，运维人员的经验不一定总是可靠，而且全部人工配置的人力成本也不可忽视。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

本发明提出一种运维数据特征选择方法和装置，提出能够适应实际运维环境的特征选择方法，不依赖于运维人员的经验、大量历史数据和人工标注，同时不依赖于一个算法来检测自身的效果，因此能够适应多种下游预警算法或分析算法，以及结合了有监督算法和无监督算法的优势，既能够学习历史故障的特征，定位高频异常维度，又能对历史上没有故障的维度进行有效的判断。

本发明第一方面实施例提出了一种运维数据特征选择方法，包括：

获取原始数据样本；

对所述原始数据样本进行预处理，获取多维数据样本；

通过预设算法对所述多维数据样本进行计算，获取代价表达式计算数值最小时，输出每维数据特征权重；

根据所述每维数据特征权重和预设权重阈值，从所述多维数据样本中筛选出目标数据集合。

本发明实施例的运维数据特征选择方法，通过获取原始数据样本；对原始数据样本进行预处理，获取多维数据样本；通过预设算法对多维数据样本进行计算，获取代价表达式计算数值最小时，输出每维数据特征权重；根据每维数据特征权重和预设权重阈值，从多维数据样本中筛选出目标数据集合。由此，提出能够适应实际运维环境的特征选择方法，不依赖于运维人员的经验、大量历史数据和人工标注，同时不依赖于一个算法来检测自身的效果，因此能够适应多种下游预警算法或分析算法，以及结合了有监督算法和无监督算法的优势，既能够学习历史故障的特征，定位高频异常维度，又能对历史上没有故障的维度进行有效的判断。

可选地，在本发明的一个实施例中，所述对所述原始数据样本进行预处理，获取多维数据样本，包括：

根据所述原始数据样本中的数据类型确定待填充字段数据，并对所述待填充字段数据进行填充处理；

识别所述原始数据样本中的时间戳字段，并对所述时间戳字段进行屏蔽处理，获取所述多维数据样本。

可选地，在本发明的一个实施例中，所述通过预设算法对所述多维数据样本进行计算，获取代价表达式计算数值最小时，输出每维数据特征权重，包括：

获取代价表达式，根据所述代价表达式对所述多维数据样本进行训练；其中，训练目标包括：在目标特征权重下使得异常数据和正常数据之间的边界距离大于预设第一阈值，所述异常数据之间的距离和所述正常数据之间的距离分别小于预设第二阈值；其中，所述预设第一阈值大于所述第二阈值，训练目标各部分的权重由给定的超参数决定；以及每次迭代计算过程中，目标特征权重的取值维持在特定范围之内。

可选地，在本发明的一个实施例中，所述代价表达式为：

其中，w为所求的每维数据特征权重，x_n为第nn条数据的向量表示，α、β、p₀为超参数，d为距离函数；

其中，M_n为x_n的非同类别近似数据集，H_n为x_n的同类别近似数据集，P(x_i＝NM(x_n)|w)、P(x_i＝NH(x_n)|w)、P(x_i＝N(x_n)|w)为三个核函数，代表了两个数据向量在权重w下为近似数据的概率，超参数α表示无监督学习部分的权重，超参数β_n表示数据的放大倍数，若数据x_n为异常数据，则β_n取大于1的数值，否则β_n＝1)，超参数λ表示对特征权重w的限制权重；

可选地，在本发明的一个实施例中，所述的方法，还包括：

获取在线待处理数据；

根据所述目标数据集合对所述在线待处理数据筛选，获取目标数据。

本发明第二方面实施例提出了一种运维数据特征选择装置，包括：

第一获取模块，用于获取原始数据样本；

预处理模块，用于对所述原始数据样本进行预处理，获取多维数据样本；

计算模块，用于通过预设算法对所述多维数据样本进行计算，获取代价表达式计算数值最小时，输出每维数据特征权重；

筛选模块，用于根据所述每维数据特征权重和预设权重阈值，从所述多维数据样本中筛选出目标数据集合。

本发明实施例的运维数据特征选择装置，通过获取原始数据样本；对原始数据样本进行预处理，获取多维数据样本；通过预设算法对多维数据样本进行计算，获取代价表达式计算数值最小时，输出每维数据特征权重；根据每维数据特征权重和预设权重阈值，从多维数据样本中筛选出目标数据集合。由此，提出能够适应实际运维环境的特征选择方法，不依赖于运维人员的经验、大量历史数据和人工标注，同时不依赖于一个算法来检测自身的效果，因此能够适应多种下游预警算法或分析算法，以及结合了有监督算法和无监督算法的优势，既能够学习历史故障的特征，定位高频异常维度，又能对历史上没有故障的维度进行有效的判断。

可选地，在本发明的一个实施例中，所述预处理模块，具体用于：

可选地，在本发明的一个实施例中，所述计算模块，具体用于：

可选地，在本发明的一个实施例中，所述代价表达式为：

其中，w为所求的数据特征权重向量，x_n为第nn条数据的向量表示，α、β、p₀为超参数，d为距离函数；

可选地，在本发明的一个实施例中，所述的装置，还包括：

第二获取模块，用于获取在线待处理数据；

处理模块，用于根据所述目标数据集合对所述在线待处理数据筛选，获取目标数据。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例一所提供的运维数据特征选择方法的流程示意图；

图2为本发明实施例二所提供的运维数据特征选择方法的流程示意图；

图3为本发明实施例三所提供的运维数据特征选择装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

本发明选择了基于有监督的Logistic I-Relief算法的技术方案，并对其进行了多处改进，设计了一个结合有监督学习和无监督学习，并且可以适应运维环境中的不平衡数据的特征选择算法。其中主要的改进有两点：引入无监督代价表达式和放大异常数据。

下面参考附图描述本发明实施例的运维数据特征选择方法和装置。

图1为本发明实施例一所提供的运维数据特征选择方法的流程示意图。

如图1所示，该运维数据特征选择方法可以包括以下步骤：

步骤101，获取原始数据样本。

步骤102，对原始数据样本进行预处理，获取多维数据样本。

本发明实施例中，对原始数据样本进行预处理，获取多维数据样本，包括：根据原始数据样本中的数据类型确定待填充字段数据，并对待填充字段数据进行填充处理；识别原始数据样本中的时间戳字段，并对时间戳字段进行屏蔽处理，获取多维数据样本。

具体地，在运维中，很多系统会产生复杂的数据信息，这些数据信息通常可以用多个固定的字段和对应的值来描述，将这类数据称为多维数据，数据中的字段就是多维数据的维度，获取原始数据样本。

进一步地，首先对样本数据进行预处理，对于样本中的每一条数据，为了防止其字段不一致，算法将会找到字段的全集，并对字段缺失的数据填补缺省值(在实现中，缺省值为空串)。然后，算法将分析出代表数据时间戳字段，并在后续处理中不对它进行处理，因为认为时间戳对于大部分算法都是不可或缺的，因此总是会保留时间字段。

具体地，算法会分析数据中的数字值，并尝试将其替换为离散值。在实际运维环境中，有一些数字值已经是离散值，例如ID(身份标识)、编号、返回码等，对于这类情况，算法将不再进行处理。对于数字值确实是连续值的情况，算法会将其分桶，并用桶的编号来替换这些数字值。经过这部分处理后，所有的字段都将是离散值，可以进行训练操作。

步骤103，通过预设算法对多维数据样本进行计算，获取代价表达式计算数值最小时，输出每维数据特征权重。

步骤104，根据每维数据特征权重和预设权重阈值，从多维数据样本中筛选出目标数据集合。

本发明实施例中，获取代价表达式，根据所述代价表达式对所述多维数据样本进行训练，训练目标包括：在目标特征权重下使得异常数据和正常数据之间的边界距离尽可能地大，即大于预设第一阈值。所述异常数据之间的距离和所述正常数据之间的距离尽可能地小，即分别小于预设第二阈值；其中，预设第一阈值大于所述第二阈值，训练目标各部分的权重由给定的超参数决定；以及每次迭代计算过程中，目标特征权重的取值维持在特定范围之内。

代价表达式为：

其中，M_n为x_n的非同类别近似数据集，H_n为x_n的同类别近似数据集，P(x_i＝NM(x_n)|w)、P(x_i＝NH(x_n)|w)、P(x_i＝N(x_n)|w)为三个核函数，代表了两个数据向量在权重w下为近似数据的概率，超参数α表示无监督学习部分的权重，超参数β_n表示数据的放大倍数(若数据x_n为异常数据，则β_n取一个较大的数值，否则β_n＝1)，超参数λ表示对特征权重w的限制权重；

具体地，训练过程是一次逻辑回归过程。在逻辑回归过程中，代价表达式为公式(1)。

在

的表达式中，

和

是算法的有监督学习部分，根据这两个式子，w的迭代将会试图将异常数据和正常数据之间的边界用权重w尽可能地放大，而实现对特征选择效果的评估，而

是无监督学习的部分，在这里对w的迭代将会使得算法在权重w下仍然尽可能地保留原本的相互距离关系，从而实现对无历史故障维度的保留价值判断。此外，对λ||w||₁的迭代可以限制w的取值范围，使得权重w相互竞争，从而消除冗余维度。

综上，运用逻辑回归对w进行训练，迭代地让权重wW按代价表达式的偏导方向移动，最终使得代价表达式的值最小，就能得到特征选择的权重结果。

在本发明实施例中，如图2所示，获取在线待处理数据，根据目标数据集合对在线待处理数据筛选，获取目标数据。

具体地，在训练结束后，就可以给出所有维度的评价分数，已经可以根据分数的阈值进行维度选择，供下游算法使用。不过，在实际的运维场景中，经常期望算法能够持续学习，改进效果。为了实现这样的效果，本发明算法也可以持续接受线上数据，根据最新的数据进行训练后给出最新的特征选择结果，保证了特征选择结构不与数据情况脱节。

与上述图1至图2实施例提供的运维数据特征选择方法相对应，本发明还提供一种运维数据特征选择装置，由于本发明实施例提供的运维数据特征选择装置与上述图1至图2实施例提供的运维数据特征选择方法相对应，因此在运维数据特征选择方法的实施方式也适用于本发明实施例提供的运维数据特征选择装置，在本发明实施例中不再详细描述。

如图3所示，该运维数据特征选择装置300应用于电子设备，包括：第一获取模块301、预处理模块302、计算模块303和筛选模块304。

第一获取模块301，用于获取原始数据样本。

预处理模块302，用于对所述原始数据样本进行预处理，获取多维数据样本。

计算模块303，用于通过预设算法对所述多维数据样本进行计算，获取代价表达式计算数值最小时，输出每维数据特征权重。

筛选模块304，用于根据所述每维数据特征权重和预设权重阈值，从所述多维数据样本中筛选出目标数据集合。

进一步地，在本发明实施例的一种可能的实现方式中，预处理模块302，具体用于：根据所述原始数据样本中的数据类型确定待填充字段数据，并对所述待填充字段数据进行填充处理；识别所述原始数据样本中的时间戳字段，并对所述时间戳字段进行屏蔽处理，获取所述多维数据样本。

进一步地，在本发明实施例的一种可能的实现方式中，计算模块303，具体用于：获取代价表达式，根据所述代价表达式对所述多维数据样本进行训练，训练目标包括：在目标特征权重下使得异常数据和正常数据之间的边界距离尽可能地大，即大于预设第一阈值，所述异常数据之间的距离和所述正常数据之间的距离尽可能地小，即分别小于预设第二阈值；其中，预设第一阈值大于第二阈值，训练目标各部分的权重由给定的超参数决定；以及每次迭代计算过程中，目标特征权重的取值维持在特定范围之内。

进一步地，在本发明实施例的一种可能的实现方式中，代价表达式为：

其中，w为所求的每维数据特征权重，x_n为第n条数据的向量表示，α、β、p₀为超参数，d为距离函数；

进一步地，在本发明实施例的一种可能的实现方式中，该运维数据特征选择装置300还可以包括：

第二获取模块，用于获取在线待处理数据。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种运维数据特征选择方法，其特征在于，包括以下步骤：

获取原始数据样本；

对所述原始数据样本进行预处理，获取多维数据样本；

根据所述每维数据特征权重和预设权重阈值，从所述多维数据样本中筛选出目标数据集合；

其中，所述通过预设算法对所述多维数据样本进行计算，获取代价表达式计算数值最小时，输出每维数据特征权重，包括：

获取代价表达式，根据所述代价表达式对所述多维数据样本进行训练；其中，训练目标包括：在目标特征权重下使得异常数据和正常数据之间的边界距离大于预设第一阈值，所述异常数据之间的距离和所述正常数据之间的距离分别小于预设第二阈值；其中，所述预设第一阈值大于所述第二阈值，训练目标各部分的权重由给定的超参数决定；以及每次迭代计算过程中，目标特征权重的取值维持在特定范围之内；

所述代价表达式为：

其中，w为所求的每维数据特征权重，x_n为第nn条数据的向量表示，α、β、p₀、λ为超参数，d为距离函数；

其中，M_n为x_n的非同类别近似数据集，H_n为x_n的同类别近似数据集，P(x_i＝NM(x_n)|w)、P(x_i＝NH(x_n)|w)、P(x_i＝N(x_n)|w)为三个关于x_i和x_n的核函数，代表了两个数据向量在特征权重w下为近似数据的概率，超参数α表示无监督学习部分的权重，超参数β_n表示数据的放大倍数，若数据x_n为异常数据，则β_n取大于1的数值，否则β_n＝1，超参数λ表示对特征权重w的限制权重，L表示待训练的数据样本数量。

2.如权利要求1所述的方法，其特征在于，所述对所述原始数据样本进行预处理，获取多维数据样本，包括：

3.如权利要求1所述的方法，其特征在于，还包括：

获取在线待处理数据；

4.一种运维数据特征选择装置，其特征在于，包括：

第一获取模块，用于获取原始数据样本；

筛选模块，用于根据所述每维数据特征权重和预设权重阈值，从所述多维数据样本中筛选出目标数据集合；

其中，所述计算模块，具体用于：

所述代价表达式为：

5.如权利要求4所述的装置，其特征在于，所述预处理模块，具体用于：

6.如权利要求4所述的装置，其特征在于，还包括：

第二获取模块，用于获取在线待处理数据；