CN111931861A

CN111931861A - 一种异质性数据集的异常检测方法及计算机可读存储介质

Info

Publication number: CN111931861A
Application number: CN202010938256.2A
Authority: CN
Inventors: 巩国栋; 严朝豪; 薛野; 宋洋; 孙凯
Original assignee: Beijing Zhixiang Technology Co Ltd
Current assignee: Beijing Zhixiang Technology Co Ltd
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2020-11-13
Anticipated expiration: 2040-09-09
Also published as: CN111931861B

Abstract

本发明公开了一种异质性数据集的异常检测方法及计算机可读存储介质，本发明是从预设分类指标集合内选取几个未使用的分类指标，基于选取的分类指标对异质性数据集进行指标阈值切分处理，生成所选取的分类指标下切分分类后的数据子集，并对各个数据子集进行异常检测，也就是说，本发明是基于选取的分类指标来对分类指标下的数据进行指标阈值切分处理，得到该选取的分类指标下的多个数据子集，通过对该数据子集进行异常检测，以实现准确的对高维度无标签的异质性数据集进行异常检测。

Description

一种异质性数据集的异常检测方法及计算机可读存储介质

技术领域

本发明涉及计算机技术领域，特别是涉及一种异质性数据集的异常检测方法及计算机可读存储介质。

背景技术

现有主要是通过统计假设检验和孤立森林法来对数据集进行异常检测，具体地，统计假设检验需要假设数据服从某一特定分布，其仅适用于一维数据，而孤立森林需要每次随机选择维度和阈值来对数据集进行切分，直到最后每个集合都只有一个数据，构成一棵孤立树，切分次数越少的数据异常值打分越高。但是由于异质性数据集的异常检测阈值是不同的，所以现有的统计假设检验和孤立森林法都无法对异质性数据集进行异常检测。

发明内容

本发明提供了一种异质性数据集的异常检测方法及计算机可读存储介质，以解决现有技术中不能很好地对异质性数据集进行异常检测的问题。

第一方面，本发明提供了一种异质性数据集的异常检测方法，该方法包括：从预设分类指标集合内选取预设数量的未使用的分类指标，基于所选取的分类指标的指标阈值对异质性数据集进行切分处理，生成所述分类指标下切分分类后的数据子集，并对所述数据子集进行异常检测；

重新执行上述步骤，直到所述预设分类指标集合内的所有分类指标均已用于对异质性数据集进行切分处理，并对切分后生成的各个数据子集进行异常检测。

可选地，从预设分类指标集合内选取预设数量的未使用的分类指标之前，该方法还包括：基于所述异质性数据集的数据特征及预设专家知识库来确定所述预设分类指标集合。

可选地，所述基于所选取的分类指标的指标阈值对异质性数据集进行切分处理，生成所述分类指标下切分分类后的数据子集，包括：

对所选取的每一种分类指标下的数据均按照相邻两个数据的平均值进行切分处理，得到该分类指标下的数据分组；

将所选取的分类指标下的数据分组进行跨分类指标的组合，得到所选的分类指标下切分分类后的数据子集。

可选地，对任一种分类指标下的数据均按照相邻两个数据的平均值进行切分处理，得到该分类指标下的数据分组，包括：

设定该任一种分类指标下包括m个数据，依次计算该m个数据中每两个相邻数据的平均值，得到m-1个平均值，通过每个平均值对该分类指标下的m数据进行分组，即每一个平均值都将m个数据切分为：数值小于平均值的数据形成的一个数据分组以及数值大于平均值的数据形成的另一个数据分组，因此总共得到2*（m-1）个数据分组。

可选地，将所选的分类指标切分处理后得到的数据分组进行跨分类指标的组合，得到所选的分类指标下切分分类后的数据子集，包括：

将所选的分类指标切分处理后得到的数据分组进行跨分类指标的组合，得到所选的分类指标下切分分类后的数据子集；

其中，所述数据子集中均包括所选的每个分类指标下的一个数据分组，且所述数据子集中各个分类指标下的数据分组的组合均是唯一的。

可选地，生成所述分类指标下切分分类后的数据子集之后，对所述数据子集进行异常检测之前，该方法还包括：判断所生成的数据子集是否满足预设的子集数据量限制条件，如果是则对该数据子集进行异常检测。

可选地，所述对所述数据子集进行异常检测，包括：通过四分位距法IQR对所述数据子集进行异常检测。

可选地，所述对所述数据子集进行异常检测，包括：通过计算机集群上的不同节点并行地对各个数据子集进行异常检测。

可选地，所述通过计算机集群上的不同节点来并行地对各个数据子集进行异常检测之后，该方法还包括：判断预设分类指标集合中的各分类指标下的异常检测结果是否优于历史分类指标下的异常检测结果，如果是，则基于优于历史分类指标的分类指标，对所述历史分类指标进行更新，以供后续根据该更新后的历史分类指标直接进行异常检测。

第二方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储有信号映射的计算机程序，所述计算机程序被至少一个处理器执行时，以实现上述任一种所述的异质性数据集的异常检测方法。

本发明有益效果如下：

本发明是从预设分类指标集合内选取几个未使用的分类指标，基于选取的分类指标对异质性数据集进行指标阈值切分处理，生成所选取的分类指标下切分分类后的数据子集，并对各个数据子集进行异常检测，也就是说，本发明是基于选取的分类指标来对分类指标下的数据进行指标阈值切分处理，得到该选取的分类指标下的多个数据子集，通过对该数据子集进行异常检测，以实现准确的对高维度无标签的异质性数据集进行异常检测。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明第一实施例提供的一种异质性数据集的异常检测方法的流程示意图；

图2是本发明第一实施例提供的另一种异质性数据集的异常检测方法的流程示意图。

具体实施方式

本发明实施例针对现有无法准确地对高维度无标签的异质性数据集进行异常检测的问题，通过从预设分类指标集合内选取几个未使用的分类指标，基于选取的分类指标对异质性数据集进行指标阈值切分处理，生成各个分类指标下切分分类后的数据子集，并对各个数据子集进行异常检测，从而实现准确的对高维度无标签的异质性数据集进行检测。以下结合附图以及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。

本发明第一实施例提供了一种异质性数据集的异常检测方法，参见图1，该方法包括：

S101、从预设分类指标集合内选取预设数量的未使用的分类指标；

本发明实施例所述的异质性数据集为包括多种类的数据，并且每种类的数据的异常检测阈值是不同的，而由于异质性数据集存在不同的类别，且不同类别下的异常检测阈值的不同，所以对异质性数据集的异常检测成为目前业界比较困难的问题。

本发明实施例中所述预设分类指标集合是基于所述异质性数据集的数据特征及预设专家知识库来确定的，例如，在用电数据领域，该预设分类指标集合内可以包括城市用电数据、农村用电数据、电表数据、电表间距等等。

需要说明的是，本发明实施例中所述预设数量为2-5个，优选地可以选择为2或3个，具体实施时，本领域技术人员可以根据实际需要进行任意设定，本发明对此不作具体限定。

S102、基于所选取的分类指标的指标阈值对异质性数据集进行切分处理，生成所述分类指标下切分分类后的数据子集；

具体实施时，本发明实施例是对所选取的每一种分类指标下的数据均按照相邻两个数据的平均值进行切分处理，并将各个分类指标切分处理后的数据进行一一组合，得到所选的分类指标下切分分类后的数据子集。

具体来说，本发明实施例是将每一种类的分类指标所对应数据，按顺序选择两个数据取平均值，即每一次通过平均值的切分，都会将该分类指标所对应数据分割为两组，而通过不同的数据的平均值会得到不同的分组，最后将各个分类指标下的分组进行一一组合，就得到了上述的数据子集。

例如，从预设分类指标集合内选择了两个分类指标，分别是第一分类指标和第二分类指标，将第一分类指标下所对应数据按照从小到大的顺序进行排队，然后取相邻两个数据的平均值进行切分处理，每一次切分都会将第二分类指标下的数据分割为两组，而通过不同的数据的平均值会得到不同的分组，同理，对第二分类指标也进行分组，最后将第一分类指标下的各个分组与第二分类指标下的各个分组进行一一对应，如果第一分类指标下得到4中切分的分组，而第二种分类指标下得到6中切分的分组，则本次的数据子集的个数为4*6=24个，即本次所要检测的数据子集为24个。

S103、对所述数据子集进行异常检测；

在具体实施时，本发明实施例在对所述数据子集进行异常检测后，需要将异常检测的结果与预设阈值进行比较，以判断该异常是否在容许范围内，如果在则忽略，如果查出容许范围内，则进行报警灯处理。

S104、重新执行步骤S101，直到所述预设分类指标集合内的所有分类指标均已用于对异质性数据集进行切分处理，并对切分后生成的各个数据子集进行异常检测。

也就是说，本发明实施例通过从预设分类指标集合内选取几个未使用的分类指标，基于选取的分类指标对异质性数据集进行指标阈值切分处理，生成所选取的分类指标切分分类后的数据子集，并对各个数据子集进行异常检测，从而实现准确的对高维度无标签的异质性数据集进行检测。

需要说明的是，本发明实施例所述的异质性数据集为高维度、无标签的异质性数据集。由于高维度、无标签的异质性数据集中不同类别的数据异常检测阈值的不同，所以现有的统计假设检验和孤立森林法无法对其进行准确的异常检测。针对该问题，本发明实施例通过确定待检测的数据特征维度，比如台区用电数据中的台区线损率，等等，通过对不同维度下的各个分类指标对应的数据进行切分，得到相应的数据子集，并对通过对数据子集进行异常检测，从而确定待检测数据集的异常情况。

由于本发明实施例的分类数目，即所选择的分类指标的数量可调，所以本发明实施例所述的方法可以适用于异质性数据的异常检测，并可以很好的适用于数据集中包含不同分类的情况。同时，由于数据子集的分类是通过指标阈值进行划分，也避免了对于数据集分布情况的前提假设，适用范围广，数据预处理及数据类型要求限制较低。

具体实施时，本发明实施例中，从预设分类指标集合内选取预设数量的未使用的分类指标之前，该方法还包括：确定所述异质性数据集的预设分类指标集合。

具体来说，本发明实施例是基于所述异质性数据集的数据特征及预设专家知识库来确定所述预设分类指标集合。

也就是说，对于异质性数据，本发明实施例先在不同的维度组合上先进行分类，对不同的分类单独进行异常检测，来使得整体的异常检测符合专家知识库。

进一步地，本发明实施例中，所述基于所选取的分类指标的指标阈值对异质性数据集进行切分处理，生成所述分类指标下切分分类后的数据子集，包括：对所选取的任一种分类指标下的数据均按照相邻两个数据的平均值进行切分处理，得到该分类指标下的数据分组，并将各个分类指标切分处理后得到的数据分组进行跨分类指标的组合，得到所选的分类指标下切分分类后的数据子集。

其中，本发明实施例设定该任一种分类指标下包括m个数据，依次计算该m个数据中每两个相邻数据的平均值，得到m-1个平均值，通过每个平均值对该分类指标下的m数据进行分组，即每一个平均值都将m个数据切分为：数值小于平均值的数据形成的一个数据分组以及数值大于平均值的数据形成的另一个数据分组，因此总共得到2*（m-1）个数据分组。

具体实施时，本发明实施例中，所述将各个分类指标切分处理后得到的数据分组进行跨分类指标的组合，得到所选的分类指标下切分分类后的数据子集，包括：将各个分类指标切分处理后得到的数据分组进行跨分类指标的一一组合，得到所选的分类指标下切分分类后的数据子集；其中，所述数据子集中均包括所选的每个分类指标下的一个数据分组，且所述数据子集中各个分类指标下的数据分组内的分组组合是唯一的，即每个数据子集都是不同的，唯一存在的。

具体实施时，本发明实施例是从所述预设分类指标集合内选取预设数量的未使用的分类指标，对每个分类指标下的数据按照一定顺序，如从大到小，或者从小到大，进行排序，并按照相邻两个数据的平均值进行指标阈值切分处理，生成各个分类指标下切分分类后的数据子集。

下面将结合表1，通过一个具体的例子来对本发明的切分处理进行详细的解释和说明：

如表1所示，表1中的用户个数和区域面积为指标，线路损耗为异常检测需要检测的数。

基于表中的数据，首先将用户个数从小到大排列：15、25、31、32、34、76和108，相邻两个数值的平均值，即上述的指标阈值，分别为：20、28、31.5、33、55、92，根据不同的指标阈值即可将用户切分为不同的分组，例如，设定划分值是31.5，那就是说，划分后的数据分别是：第一类为15 25 31，第二类为32 34 76 108，以此类推，根据用户个数可以有6种切分方式；

同理，根据区域面积（去重后）从小到大排列：500m²、0.5km²、1km² 1.5km²、3.5km²，而区域面积具有4种切分方式，例如，设定划分值是1，则：第一类数据包括500m²、0.5km²和1km²，第二类数据包括：1.5km² 和3.5km²；

进行两两组合，并对每一个组合设定相应的阈值，在两者结合以后有 4*6=24种切分方式。

表1 某小区的数据情况表

区域	用户个数	区域面积	线路损耗
				小区1	32	0.5平方公里	10%
小区2	108	1平方公里	32%
				小区3	31	500平方米	5.8%
小区4	25	500平方米	3.1%
				小区5	15	1平方公里	0.5%
小区6	76	3.5平方公里	9.5%
				小区7	34	1.5平方公里	23%

通过枚举这24种切分方式，每一种切分方式都可以将小区1到小区7分成两部分，然后对这两个部分分别检测异常数据，计算异常数据的比例是否在容许的范围内。

例如，选择一种切分方式：用户个数25，面积1平方公里, 这样切分得到的第一类为：小区4，小区5；第二类为剩余的所有小区，然后对第一类、第二类分别使用专利中所述的异常检测方式，如果异常比例在容许范围内，则认为该切分为合理的切分，如果异常比例不对，则继续枚举下一个切分方式。

具体实施时，本发明实施例从预设分类指标集合内选取预设数量的未使用的分类指标，基于所述分类指标对异质性数据集进行指标阈值切分处理，生成各个分类指标下切分分类后的数据子集之后，对所述数据子集进行异常检测之前，该方法还包括：判断某一分类指标下的切分分类后的数据子集是否满足预设的子集限制条件，如果是则对该数据子集进行异常检测，否则，继续判断其他数据子集是否满足预设的子集限制条件。

即，本发明实施例在对数据子集进行异常检测之前，需要先判断该数据子集是否满足预设的子集数据量限制条件，因为在数据量过少或者数据过多的情况下，对该数据子集进行异常检测的意义不大，所以本发明首先通过该子集限制条件对数据子集进行筛选，以尽量减少异常检测给系统带来的运算负担，并且在具体实施时，本发明实施例是通过设置最小数量阈值和最大数据量阈值来设置子集数据量限制条件，以对数据子集实现判断，且，本发明实施例优选设置最小数量阈值的集数据量限制条件，以更好且高效地实现异常检测。

具体来说，本发明实施例在，所述对所述数据子集进行异常检测，包括：

通过四分位距IQR对所述数据子集进行异常检测。

也就是说，本发明实施例是通过四分位距IQR对所述数据子集进行异常检测，从而避免偏态严重的分类对异常检测的影响。

具体来对，本发明实施例对于偏态较为严重的分类，需要进行修正，具体是根据数据子集的数据分布情况，计算分布偏度，并根据偏度线性平移四分位距所在区间，从而得到较为合理的异常值。

并且在具体实施时，本发明实施例是通过计算机集群上的不同节点来并行地地对切分后的数据子集进行异常检测。即，通过不同的节点来分别对数据子集进行异常检测，具体可以是一个节点对应一个数据子集的异常检测，也可以根据当前情况，将一定数量的数据子集分配给同一个节点进行异常检测。

并且，本发明实施例所述通过计算机集群上的不同节点来并行地对各个数据子集进行异常检测之后，该方法还包括：判断预设分类指标集合中的各分类指标下的异常检测结果是否优于历史分类指标下的异常检测结果，如果是，则基于优于历史分类指标的分类指标，对所述历史分类指标进行更新，以使后续根据该更新后的历史分类指标进行异常检测。

也就是说，本发明实施例是判断当前分类指标下的异常检测结果是否优于历史分类指标下的异常检测结果，即当前的分类指标更符合预设专家知识库，如果是，则将历史分类指标中对应该当前分类指标的部分，更新为该当前分类指标，并记录当前的分类指标所对应的指标阈值。

换句话来说，本发明实施例是在计算机集群的节点对所有数据子集进行异常检测完成以后，判断当前分类指标下的异常检测结果是否更符合预设专家知识库，并在判断当前分类指标下的异常检测结果更符合预设专家知识库时，根据该当前分类指标来更新所述异质性数据集对应的分类结果，并记录当前的分类指标的指标阈值。

即，本发明实施例通过引入分布式计算框架，直接对所有的数据集切分组合进行分布式计算，采用进程池或Ray分布式计算框架进行计算，也即将每一个切分的异常检测计算过程分散到计算集群的各个节点上进行计算，所有节点异常检测计算完成以后，汇总并得到最优分类。

通过上述内容可知，由于本发明的数据集组合切分之后的异常检测计算之间不存在相互依赖的关系，可以很好的利用分布式计算进行并行优化，从而使得本发明实施例所述的方法可以很好的适用于大数据应用场景，计算效率高。

另外，本发明实施例的异常检测过程中结合了已有专家数据库，并根据已有指标进行分类，使得异常检测的结果的可解释性较好。

下面将结合图2，通过一个具体的例子对本发明所述的方法进行详细的解释和说明：

由于数据集的异质性，数据集中可能存在多个不同的类别，不同的类别下异常检测的阈值存在差异，因此数据分类是本发明的重要内容。

对于高维度数据集，本发明首先根据数据特征及专家知识库来确定分类指标集合（比如台区用电数据中的农村用电占比，或者电表与电表间的平均距离等指标），集合内的指标均为连续指标（不包含离散指标）。

数据集分类搜索分多轮进行，具体搜索流程如下：

步骤1：选取1个到2个未使用的分类指标，进行指标阈值切分的排列组合，生成所有可能的数据集切分分类组合；

步骤2：枚举所有可能的数据集切分组合，对当前数据集进行切分，对于切分得到的一个子集，对于每次切分得到的子集，判断是否满足子集的限制条件（比如包含的数据样本个数的数量等）；

步骤3：对于切分得到并满足基本限制条件的数据子集，使用异常检测模块进行异常检测，得到当前数据集子集的异常统计信息，与预先定义的异常统计进行比较（专家知识库），如果不符合预先定义的异常样本的信息（比如某一个指标在专家知识库的正常合理范围内，但是被判定为异常），则返回到步骤3，继续枚举；如果得到符合预定义的异常样本信息的分类，则进入步骤4；如果所有切分组合枚举完毕，则进入步骤5；

步骤4：将步骤3中得到的数据子集记为一个单独的分类，记录当前切分阈值及当前异常检测结果，如果优于当前分类指标下的异常检测结果（更符合专家知识库），则更新当前分类指标的最优结果，并记录分类阈值。

步骤5：将当前分类指标的最优分类从数据集中剔除，得到剩余数据集，将当前选择的分类指标（组合）标记为已使用，并重复步骤1-5，直到分类数达到预设上限或者无法得到更多的分类（比如步骤2中无法得到有效的切分）；

步骤6：判断最终剩余数据是否满足要求，如果满足要求则输出分类结果及异常检测结果，如果不满足要求，则标记为无效分类搜索结果，需要调整参数（比如数据子集限制条件，异常样本信息等），重新进行搜索；

通过步骤6可知，本发明实施例在对所有数据子集进行异常检测之后，还要进一步判断最后剩余的数据是否满足预设数据剩余条件，如果满足则结束，否则，则需要调整参数，重新确定预设分类指标集合，并进行切分处理以及异常检测等处理。通过该步骤，本发明实施例可以有效且准确的对异质性数据进行异常检测。

总体来说，本发明实施例通过从预设分类指标集合内选取几个未使用的分类指标，基于选取的分类指标对异质性数据集进行指标阈值切分处理，生成各个分类指标下切分分类后的数据子集，并对各个数据子集进行异常检测，从而实现准确的对高维度无标签的异质性数据集进行检测。

本发明第二实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有信号映射的计算机程序，所述计算机程序被至少一个处理器执行时，以实现本发明第一实施例中任一种所述的异质性数据集的异常检测方法。

本发明实施例的相关内容可参见本发明第一实施例进行理解，在此不做详细论述。

尽管为示例目的，已经公开了本发明的优选实施例，本领域的技术人员将意识到各种改进、增加和取代也是可能的，因此，本发明的范围应当不限于上述实施例。

Claims

1.一种异质性数据集的异常检测方法，其特征在于，包括：

步骤一、从预设分类指标集合内选取预设数量的未使用的分类指标；

步骤二、基于所选取的分类指标的指标阈值对异质性数据集进行切分处理，生成所述分类指标下切分分类后的数据子集；

步骤三、对所述数据子集进行异常检测；

重新执行步骤一，直到所述预设分类指标集合内的所有分类指标均已用于对异质性数据集进行切分处理，并对切分后生成的各个数据子集进行异常检测。

2.根据权利要求1所述的方法，其特征在于，从预设分类指标集合内选取预设数量的未使用的分类指标之前，该方法还包括：

基于所述异质性数据集的数据特征及预设专家知识库来确定所述预设分类指标集合。

3.根据权利要求1所述的方法，其特征在于，所述基于所选取的分类指标的指标阈值对异质性数据集进行切分处理，生成所述分类指标下切分分类后的数据子集，包括：

4.根据权利要求3所述的方法，其特征在于，对任一种分类指标下的数据均按照相邻两个数据的平均值进行切分处理，得到该分类指标下的数据分组，包括：

5.根据权利要求3所述的方法，其特征在于，将所选的分类指标切分处理后得到的数据分组进行跨分类指标的组合，得到所选的分类指标下切分分类后的数据子集，包括：

6.根据权利要求1-5中任意一项所述的方法，其特征在于，生成所述分类指标下切分分类后的数据子集之后，对所述数据子集进行异常检测之前，该方法还包括：

判断所生成的数据子集是否满足预设的子集数据量限制条件，如果是则对该数据子集进行异常检测。

7.根据权利要求1-5中任意一项所述的方法，其特征在于，所述对所述数据子集进行异常检测，包括：

通过四分位距法IQR对所述数据子集进行异常检测。

8.根据权利要求1-5中任意一项所述的方法，其特征在于，所述对所述数据子集进行异常检测，包括：

通过计算机集群上的不同节点并行地对各个数据子集进行异常检测。

9.根据权利要求8所述的方法，其特征在于，所述通过计算机集群上的不同节点来并行地对各个数据子集进行异常检测之后，该方法还包括：

判断预设分类指标集合中的各分类指标下的异常检测结果是否优于历史分类指标下的异常检测结果，如果是，则基于优于历史分类指标的分类指标，对所述历史分类指标进行更新，以供后续根据该更新后的历史分类指标直接进行异常检测。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有信号映射的计算机程序，所述计算机程序被至少一个处理器执行时，以实现权利要求1-9中任意一项所述的异质性数据集的异常检测方法。