CN109492936A

CN109492936A - 一种预测方法和装置

Info

Publication number: CN109492936A
Application number: CN201811452777.6A
Authority: CN
Inventors: 贺建章; 乔治; 张沛
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2019-03-19

Abstract

本发明的实施例提供了一种预测方法和装置，涉及电力技术领域，解决了如何预测电力系统小概率事件的问题。该方法包括，根据K近邻算法，确定运行数据中每个第一正样本归属的数据集以及第一正样本的近邻样本；根据预设条件，在数据集中筛选满足预设条件的第一正样本；根据任意两个满足预设条件的第一正样本对应的特征变量的差值，确定第二正样本；根据随机森林的分类预测模型，确定每个第二正样本的决策树分类模型；根据简单多数投票法，确定每个第二正样本的决策树分类模型的票数；根据每个第二正样本的决策树分类模型的票数，确定数据集的分类结果；根据每个数据集的分类结果，确定分类结果中出现次数最多的分类结果为运行数据的预测结果。

Description

一种预测方法和装置

技术领域

本发明涉及电力技术领域，尤其涉及一种预测方法和装置。

背景技术

在电力系统中，小概率事件虽然出现次数较少，但是对整个电力系统的危害却很大。因此，预测电力系统小概率事件的发生可以有效的防范危害，保护电力系统的安全。

由上述可知，如何预测电力系统小概率事件成为了一个亟待解决的问题。

发明内容

本发明的实施例提供一种预测方法和装置，解决了，如何预测电力系统小概率事件的问题。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面、本发明的实施例提供一种预测方法，包括：获取电力系统的运行数据；根据K近邻算法，确定运行数据中每个第一正样本归属的数据集以及第一正样本的近邻样本；根据预设条件，在数据集中筛选满足预设条件的第一正样本；其中，预设条件包括第一正样本与第一正样本的每个近邻样本的距离的平均值均小于近邻允许阈值；根据任意两个满足预设条件的第一正样本对应的特征变量的差值，确定第二正样本；根据随机森林的分类预测模型，确定每个第二正样本的决策树分类模型；其中，每个决策树对应一个分类结果，分类结果包括小概率事件；根据简单多数投票法，确定每个第二正样本的决策树分类模型的票数；根据每个第二正样本的决策树分类模型的票数，确定数据集的分类结果；根据每个数据集的分类结果，确定分类结果中出现次数最多的分类结果为运行数据的预测结果。

由上述方案可知，本发明的实施例提供的预测方法，通过K近邻算法确定电力系统的运行数据中每个第一正样本归属的数据集以及第一正样本的近邻样本；然后在数据集中筛选满足预设条件的第一正样本，由于电力系统的运行数据中满足预设条件的第一正样本的数量有限，因此需要根据任意两个满足预设条件的第一正样本对应的特征变量的差值，确定第二正样本，从而可以得到更多的正样本；进一步地根据随机森林的分类预测模型，确定每个第二正样本的决策树分类模型，并根据简单多数投票法，确定每个第二正样本的决策树分类模型的票数；根据每个第二正样本的决策树分类模型的票数，确定数据集的分类结果；根据每个数据集的分类结果，确定分类结果中出现次数最多的分类结果为运行数据的预测结果；当该预测结果为小概率事件时，说明根据当前电力系统存在发生小概率事件的风险，因此用户可以根据该预测结果提前有效的防范，从而可以保护电力系统的安全，解决了如何预测电力系统小概率事件的问题。

第二方面、本发明的实施例提供一种预测装置，包括：获取单元，用于获取电力系统的运行数据；处理单元，用于根据K近邻算法，确定获取单元获取的运行数据中每个第一正样本归属的数据集以及第一正样本的近邻样本；处理单元，还用于根据预设条件，在数据集中筛选满足预设条件的第一正样本；其中，预设条件包括第一正样本与第一正样本的每个近邻样本的距离的平均值均小于近邻允许阈值；处理单元，还用于根据任意两个满足预设条件的第一正样本对应的特征变量(比如用电类型，用电客户类型，天气，日期等变量)的差值，确定第二正样本；处理单元，还用于根据随机森林的分类预测模型，确定每个第二正样本的决策树分类模型；其中，每个决策树对应一个分类结果，分类结果包括小概率事件；处理单元，还用于根据简单多数投票法，确定每个第二正样本的决策树分类模型的票数；处理单元，还用于根据每个第二正样本的决策树分类模型的票数，确定数据集的分类结果；处理单元，还用于根据每个数据集的分类结果，确定运行数据的预测结果。

第三方面，本发明的实施例提供一种预测装置，包括：通信接口、处理器、存储器、总线；存储器用于存储计算机执行指令，处理器与存储器通过总线连接，当预测装置运行时，处理器执行存储器存储的计算机执行指令，以使预测装置执行如上述第一方面提供的方法。

第四方面，本发明的实施例提供一种计算机存储介质，包括指令，当其在计算机上运行时，使得计算机执行如上述第一方面提供的方法。

可以理解地，上述提供的任一种预测装置用于执行上文所提供的第一方面对应的方法，因此，其所能达到的有益效果可参考上文第一方面的方法以及下文具体实施方式中对应的方案的有益效果，此处不再赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的实施例提供的一种预测方法的流程示意图；

图2为本发明的实施例提供的一种预测装置的结构示意图之一；

图3为本发明的实施例提供的一种预测装置的结构示意图之二。

附图标记：

预测装置-10；

获取单元-101；处理单元-102。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了便于清楚描述本发明实施例的技术方案，在本发明的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分，本领域技术人员可以理解“第一”、“第二”等字样并不是在对数量和执行次序进行限定。

在本发明实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

在本发明实施例的描述中，除非另有说明，“多个”的含义是指两个或两个以上。例如，多个网络是指两个或两个以上的网络。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本文中符号“/”表示关联对象是或者的关系，例如A/B表示A或者B。

在大数据、数据挖掘、机器学习研究领域中，概率预测是一个很有趣的话题。传统的预测理论例如神经网络，模糊理论，灰色理论等技术在在各个行业的突发事件预测中都达到了很好的效果。目前，电力系统中经常使用决策树算法来对事件进行预测。决策树是一种归纳分类算法，它通过对训练集的学习，挖掘出有用的规则，用于对新集进行预测。对于传统的电力事件预测，例如负荷特性、用电分布等，使用历史数据对决策树算法训练构造出较高精度的分类模型即可对预期负荷量进行预测。但是对于电力系统中的小概率事件，由于其样本数量较少使得输入数据不平衡。在对分类模型进行训练时，分类模型为了全局正确率会将正样本预测为负样本，无法达到分类模型预测正样本的目的。因此，本专利提出了一种预测方法，通过对电力系统的运行数据中的第一正样本进行数据处理，从而可以构造不同的第二正样本，从而可以对电力系统中的小概率事件进行预测，具体的实现方式如下：

实施例一

本发明的实施例提供一种预测方法，如图1所示包括：

S101、获取电力系统的运行数据。

S102、根据K近邻算法(英文全称：k-Nearest Neighbour，简称：KNN)，确定运行数据中每个第一正样本归属的数据集以及第一正样本的近邻样本。

需要说明的是，电力系统的运行数据中存在正常数据和异常数据，由于发生小概率事件时，相应的会产生异常数据，因此我们可以规定该运行数据中的每个异常数据为一个正样本数据，每一个正常数据为一个负样本数据；示例性的，该数据集包括数值类数据集和标签类数据集，数值类数据集包括电流，电压等运行参数，标签类数据集包括设备型号、设备名称和设备类型等参数；对于数值类数据集包含第一正样本和第一正样本的近邻样本，而标签类数据集中仅包含第一正样本，不包含第一正样本的近邻样本；具体的，第一正样本的近邻样本是指数据集中，距离该第一正样本规定距离的正样本；在实际的应用中电力系统的运行数据中，如果多个运行数据之间存在一定的最相似(即特征空间中最邻近)，因此可以根据K近邻算法将运行数据中的第一正样本分为多类(每一类相当于一个数据集)，计算每类数据集中样本的数量。

S103、根据预设条件，在数据集中筛选满足预设条件的第一正样本；其中，预设条件包括第一正样本与第一正样本的每个近邻样本的距离的平均值均小于近邻允许阈值。

需要说明的是，近邻允许阈值用于防止过拟合。

可选的，在数据集中筛选满足预设条件的第一正样本前，该方法还包括：

S109、获取数据集中正样本的总数K、数据集中近邻样本的数量N，以及每个第一正样本与第一正样本的每个近邻样本的距离的平均值d(i，k)，K大于或等于0；

S110、根据第一公式、总数K、数量N和平均值d(i，k)，确定近邻允许阈值；其中，第一公式包括：

需要说明的是，获取数据集中正样本的总数K、数据集中近邻样本的数量N，以及每个第一正样本与第一正样本的每个近邻样本的距离的平均值d(i，k)，这里的数据集是指同一个数据集；其中，thre表示近邻允许阈值，近邻允许阈值等于所有平均值d(i，k)的平均值，i∈[1，N]，k∈[1，K]，i为大于或等于1的整数，k为大于或等于1的整数。

S104、根据任意两个满足预设条件的第一正样本对应的特征变量的差值，确定第二正样本。

可选的，根据任意两个满足预设条件的第一正样本对应的特征变量的差值，确定第二正样本，包括：

S1040、根据第二公式和任意两个满足预设条件的第一正样本对应的特征变量的差值，确定新特征变量f_mj；其中，第二公式包括：

f_mj＝x_mj+diff_j×rand[0,1]；

diff_j＝x_nj-x_mj；

其中，x_nj表示满足预设条件的第一正样本n的第j个特征变量，x_mj表示满足预设条件的第一正样本m的第j个特征变量，n＞m，且n∈[0，K]，m∈[0，K]，K表示数据集中正样本的总数，K≥0。

S1041、根据满足预设条件的第一正样本m的每个新特征变量f_mj，确定第二正样本；其中，第二正样本包括[f_m1，…，f_mj，...，f_my]，y表示第一正样本m包含的特征变量的总数，y为大于或等于1的整数，j∈[1，y]。

示例性的，假设经过步骤S102分类后的每个数据集中每个第一正样本具有m个特征变量，其中第一正样本记为x_k，k∈[1，K]，K为该数据集中第一正样本的总数，样本x_k的第j个特征变量为x_kj，j∈[1，m]，负样本为y_a，a∈[1，M]，M为负样本的总数，负样本y_a的第j个特征变量为y_aj。假设任一数据集中第一正样本x_k的同类K-近邻集合为NE_P_i(即该第一正样本的所有近邻样本的集合)，x_k的异类K-近邻集合为NE_N_i(即任一负样本的所有近邻样本的集合)，那么样本x_k的近邻候选集合为CAND_i。

(1)、首先根据公式(1)定义近邻允许阈值，其中K表示数据集中第一正样本的总数，N表示第一正样本归属的数据集中近邻样本的数量，d(i，k)表示第一正样本x_k与其N个近邻样本中的每个近邻样本之间的距离的平均值。

(2)、当第一正样本x_k与其N个近邻样本中的每个近邻样本之间的距离的平均值小于近邻允许阈值thre时，第一正样本的同类K-近邻集合NE_P_i中的所有近邻样本才被允许进入近邻候选集合CAND_i中；否则，数据集同类K-近邻集合NE_P_i中的所有近邻本均无法进入近邻候选集合CAND_i。

在进入近邻候选集合CAND_i中的任选两个正样本x_m和正样本x_n，则正样本x_m和正样本x_n对应的特征变量j上的差值为diff_j＝x_nj-x_mj。使用公式(2)将差值diff_i与一个[0,1]内的随机数相乘之后，同原始特征变量中对应的特征变量值x_mj相加，生成一个新的特征变量值f_mj。类似地我们可以得到m个特征变量值[f_m1，…，f_mj，...，f_my]组合，从而能产生一个新的第二正样本f_m。

f_mj＝x_mj+diff_j×rand[0,1]，公式(2)。

通过上述步骤，由于上述步骤中确定新的第二正样本f_m是根据任选两个正样本x_m和正样本x_n对应的特征变量j上的差值确定的；因此，可以通过遍历该近邻候选集合CAND_i中所有的正样本x_m和正样本x_n对应的特征变量j上的差值，可以确定出更多的第二正样本f_m(理论上可以使得正样本的数量翻倍，但是如果存在相同的正样本则需要剔除重复的正样本)，即可以使得正样本达到一定的比例，从而可以提高预测精度。

S105、根据随机森林的分类预测模型，确定每个第二正样本的决策树分类模型。

需要说明的是，在实际的应用中，随机森林算法(即随机森林的分类预测模型)是利用随机的方式建立一个决策树森林，该森林由多个相互独立的决策树构成在随机森林算法过程中，输入新的样本数据，每一个决策树将进行独立分别判断，判断样本数据属于哪一种类别(即每个类别对应一个分类结果)。最后判断所有决策树中哪一个类别被选择的最多，则该样本属于这种类别。

具体的，随机森林算法(RFC)是由很多决策树分类模型{h(X,θ_k),k∈[1，N]}组成的组合分类模型，且参数θ_k是独立同分布的随机向量(每个随机向量对应一个数值)；因此，在给定自变量集合X下(该自变量集合X中包含数据集中根据任意两个满足预设条件的第一正样本对应的特征变量的差值确定的第二正样本)，每个第二正样本均对应一个决策树分类模型。

S106、根据简单多数投票法，确定每个第二正样本的决策树分类模型的票数。

S107、根据每个第二正样本的决策树分类模型的票数，确定数据集的分类结果；其中，分类结果包括小概率事件。

可选的，根据每个第二正样本的决策树分类模型的票数，确定数据集的分类结果，包括：

S1070、根据组合分类模型和每个第二正样本的决策树分类模型的票数，确定数据集的分类结果H(a)；其中，组合分类模型包括：

其中，H(a)表示数据集a的分类结果，t表示第二正样本的总数，h_i(x)表示第二正样本x的决策树分类模型，Y表示输出变量，I(h_i(x)＝Y)表示示性函数。

需要说明的是，组合分类模型统计的是该数据集中所有的第二正样本对应的决策树分类模型的票数最多的决策树分类模型，由于每个决策树分类模型对应一个分类结果；因此，可以将该票数最多的决策树分类模型对应的分类结果作为该数据集的分类结果。

S108、根据每个数据集的分类结果，确定分类结果中出现次数最多的分类结果为运行数据的预测结果。

需要说明的是，在实际的应用中，该电力系统的运行数据经过步骤S102后可以确定至少一个数据集(每个数据集包含至少一个正样本)；因此，需要确定该电力系统的运行数据中每个数据集的分类结果后，才能根据每个数据集的分类结果，确定分类结果中出现次数最多的分类结果为运行数据的预测结果。

具体的，在实际的应用中，为了保证本发明的实施例提供的预测方法的准确性，可以对运行数据中每个第一正样本归属的数据集进行更加细致的划分(即不断的进行训练)，使得得到的分类结果更多，从而保证预测的结果的准确度。

具体的，目前现有的决策树预测方法中，预测精度仅与输入数据的整体预测正确率有关。但是对于数据集中的正样本比例较低的数据集，由于正样本数量较少，而预测正样本正确和负样本正确对于分类器的全局准确度的贡献是等量的，因此会出现全局正确率较高但正样本预测准确率却很低，无法达到分类预测的效果。例如，利用分类器在医学中的应用来预测潜在的癌症患者，假设100个人中有10个人有较大可能患有癌症，但是分类器为了提高全局预测准确率，将10个潜在患者全部预测为健康，这样准确率有90％，但是却没有发挥分类器的作用。

在数据挖掘领域中，使用决策树分类器对输入数据进行二元分类时，如果输入数据本身就是正样本，分类器也将它预测为正样本，则我们称之为正确正类，记为TP；如果输入数据是负样本，而分类器将其预测为正样本，则将其称为错误正类FP；类似的是，如果输入数据为正样本，分类器预测为负样本，则记为TN，如果输入数据为负样本，分类器预测为负样本，则记为FN。如表1所示：

	输入为正样本	输入为负样本
			预测结果为正样本	TP	FP
预测结果为负样本	FN	TN

表1分类问题四种预测结果

通过以上的明确定义，我们可以用以下指标来度量单位来分析正样本分类器的预测精度。正样本预测正确率P，即正确预测正样本的准确率，如公式(3)所示：

全局正确率R，即所有样本通过分类器的预测正确率，如公式(4)所示：

错误率F，即将负样本预测为正样本的概率，如公式(5)所示：

在实际的应用中，我们可以通过输入电力系统在指定时间内的运行数据，来测试本发明的实施例提供的预测方法的预测精度，从而可以更加准确的预测出电力系统是否会发生小概率事件，进而可以根据该预测结果提前有效的防范，从而可以保护电力系统的安全，解决了如何预测电力系统小概率事件的问题。

实施例二

本发明的实施例提供一种预测装置10，如图2所示包括：

获取单元101，用于获取电力系统的运行数据。

处理单元102，用于根据K近邻算法，确定获取单元101获取的运行数据中每个第一正样本归属的数据集以及第一正样本的近邻样本。

处理单元102，还用于根据预设条件，在数据集中筛选满足预设条件的第一正样本；其中，预设条件包括第一正样本与第一正样本的每个近邻样本的距离的平均值均小于近邻允许阈值。

处理单元102，还用于根据任意两个满足预设条件的第一正样本对应的特征变量的差值，确定第二正样本。

处理单元102，还用于根据随机森林的分类预测模型，确定每个第二正样本的决策树分类模型。

处理单元102，还用于根据简单多数投票法，确定每个第二正样本的决策树分类模型的票数。

处理单元102，还用于根据每个第二正样本的决策树分类模型的票数，确定数据集的分类结果；其中，分类结果包括小概率事件。

处理单元102，还用于根据每个数据集的分类结果，确定运行数据的预测结果。

可选的，获取单元101，还用于获取数据集中正样本的总数K、数据集中近邻样本的数量N，以及每个第一正样本与第一正样本的每个近邻样本的距离的平均值d(i，k)，K大于或等于0。

处理单元102，还用于根据第一公式、获取单元101获取的总数K、获取单元101获取的数量N和获取单元101获取的平均值d(i，k)，确定近邻允许阈值；其中，第一公式包括：

可选的，处理单元102，具体用于根据第二公式和任意两个满足预设条件的第一正样本对应的特征变量的差值，确定新特征变量f_mj；其中，第二公式包括：

f_mj＝x_mj+diff_j×rand[0,1]；

diff_j＝x_nj-x_mj；

处理单元102，具体用于根据满足预设条件的第一正样本m的每个新特征变量f_mj，确定第二正样本；其中，第二正样本包括[f_m1，…，f_mj，...，f_my]，y表示第一正样本m包含的特征变量的总数，y为大于或等于1的整数，j∈[1，y]。

可选的，处理单元102，具体用于根据组合分类模型和每个第二正样本的决策树分类模型的票数，确定数据集的分类结果H(a)；其中，组合分类模型包括：

其中，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，其作用在此不再赘述。

在采用集成的模块的情况下，预测装置包括：存储单元、处理单元以及获取单元。处理单元用于对预测装置的动作进行控制管理，例如，处理单元用于支持预测装置执行图1中的过程S101、S102、S103、S104、S105、S106、S107和S108；获取单元用于支持预测装置与其他设备的信息交互。存储单元，用于存储预测装置的程序代码和数据。

其中，以处理单元为处理器，存储单元为存储器，获取单元为通信接口为例。其中，预测装置参照图3中所示，包括通信接口501、处理器502、存储器503和总线504，通信接口501、处理器502通过总线504与存储器503相连。

处理器502可以是一个通用中央处理器(Central Processing Unit，CPU)，微处理器，特定应用集成电路(Application-Specific Integrated Circuit，ASIC)，或一个或多个用于控制本申请方案程序执行的集成电路。

存储器503可以是只读存储器(Read-Only Memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(Random Access Memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器503用于存储执行本申请方案的应用程序代码，并由处理器502来控制执行。通讯接口501用于与其他设备进行信息交互，例如与遥控器的信息交互。处理器502用于执行存储器503中存储的应用程序代码，从而实现本申请实施例中所述的方法。

此外，还提供一种计算存储媒体(或介质)，包括在被执行时进行上述实施例中的预测装置执行的方法操作的指令。另外，还提供一种计算机程序产品，包括上述计算存储媒体(或介质)。

应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：read-only memory，英文简称：ROM)、随机存取存储器(英文全称：random access memory，英文简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

可以理解地，上述提供的任一种预测装置用于执行上文所提供的实施例一对应的方法，因此，其所能达到的有益效果可参考上文实施例一的方法以及下文具体实施方式中对应的方案的有益效果，此处不再赘述。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种预测方法，其特征在于，包括：

获取电力系统的运行数据；

根据K近邻算法，确定所述运行数据中每个第一正样本归属的数据集以及所述第一正样本的近邻样本；

根据预设条件，在所述数据集中筛选满足所述预设条件的第一正样本；其中，所述预设条件包括第一正样本与所述第一正样本的每个近邻样本的距离的平均值均小于近邻允许阈值；

根据任意两个满足所述预设条件的第一正样本对应的特征变量的差值，确定第二正样本；

根据随机森林的分类预测模型，确定每个所述第二正样本的决策树分类模型；

根据简单多数投票法，确定每个所述第二正样本的决策树分类模型的票数；

根据每个所述第二正样本的决策树分类模型的票数，确定所述数据集的分类结果；其中，所述分类结果包括小概率事件；

根据每个所述数据集的分类结果，确定所述分类结果中出现次数最多的分类结果为所述运行数据的预测结果。

2.根据权利要求1所述的预测方法，其特征在于，所述根据预设条件，在所述数据集中筛选满足所述预设条件的第一正样本前，所述方法还包括：

获取所述数据集中正样本的总数K、所述数据集中近邻样本的数量N，以及每个所述第一正样本与所述第一正样本的每个近邻样本的距离的平均值d(i，k)，K大于或等于0；

根据第一公式、所述总数K、所述数量N和所述平均值d(i，k)，确定所述近邻允许阈值；其中，所述第一公式包括：

3.根据权利要求1所述的预测方法，其特征在于，所述根据任意两个满足所述预设条件的第一正样本对应的特征变量的差值，确定第二正样本，包括：

根据第二公式和任意两个满足所述预设条件的第一正样本对应的特征变量的差值，确定新特征变量f_mj；其中，所述第二公式包括：

f_mj＝x_mj+diff_j×rand[0,1]；

diff_j＝x_nj-x_mj；

其中，x_nj表示满足所述预设条件的第一正样本n的第j个特征变量，x_mj表示满足所述预设条件的第一正样本m的第j个特征变量，n＞m，且n∈[0，K]，m∈[0，K]，K表示所述数据集中正样本的总数，K≥0；

根据满足所述预设条件的第一正样本m的每个所述新特征变量f_mj，确定第二正样本；其中，所述第二正样本包括[f_m1，…，f_mj，...，f_my]，y表示第一正样本m包含的特征变量的总数，y为大于或等于1的整数，j∈[1，y]。

4.根据权利要求1所述的预测方法，其特征在于，所述根据每个所述第二正样本的决策树分类模型的票数，确定所述数据集的分类结果，包括：

根据组合分类模型和每个所述第二正样本的决策树分类模型的票数，确定所述数据集的分类结果H(a)；其中，所述组合分类模型包括：

5.一种预测装置，其特征在于，包括：

获取单元，用于获取电力系统的运行数据；

处理单元，用于根据K近邻算法，确定所述获取单元获取的所述运行数据中每个第一正样本归属的数据集以及所述第一正样本的近邻样本；

所述处理单元，还用于根据预设条件，在所述数据集中筛选满足所述预设条件的第一正样本；其中，所述预设条件包括第一正样本与所述第一正样本的每个近邻样本的距离的平均值均小于近邻允许阈值；

所述处理单元，还用于根据任意两个满足所述预设条件的第一正样本对应的特征变量的差值，确定第二正样本；

所述处理单元，还用于根据随机森林的分类预测模型，确定每个所述第二正样本的决策树分类模型；

所述处理单元，还用于根据简单多数投票法，确定每个所述第二正样本的决策树分类模型的票数；

所述处理单元，还用于根据每个所述第二正样本的决策树分类模型的票数，确定所述数据集的分类结果；其中，所述分类结果包括小概率事件；

所述处理单元，还用于根据每个所述数据集的分类结果，确定所述运行数据的预测结果。

6.根据权利要求5所述的预测装置，其特征在于，所述获取单元，还用于获取所述数据集中正样本的总数K、所述数据集中近邻样本的数量N，以及每个所述第一正样本与所述第一正样本的每个近邻样本的距离的平均值d(i，k)，K大于或等于0；

所述处理单元，还用于根据第一公式、所述总数K、所述数量N和所述平均值d(i，k)，确定所述近邻允许阈值；其中，所述第一公式包括：

7.根据权利要求5所述的预测装置，其特征在于，所述处理单元，具体用于根据第二公式和任意两个满足所述预设条件的第一正样本对应的特征变量的差值，确定新特征变量f_mj；其中，所述第二公式包括：

f_mj＝x_mj+diff_j×rand[0,1]；

diff_j＝x_nj-x_mj；

所述处理单元，具体用于根据满足所述预设条件的第一正样本m的每个所述新特征变量f_mj，确定第二正样本；其中，所述第二正样本包括[f_m1，…，f_mj，...，f_my]，y表示第一正样本m包含的特征变量的总数，y为大于或等于1的整数，j∈[1，y]。

8.根据权利要求5所述的预测装置，其特征在于，所述处理单元，具体用于根据组合分类模型和每个所述第二正样本的决策树分类模型的票数，确定所述数据集的分类结果H(a)；其中，所述组合分类模型包括：

9.一种计算机存储介质，包括指令，当其在计算机上运行时，使得计算机执行如上述权利要求1-4任一项所述的预测方法。

10.一种预测装置，包括：通信接口、处理器、存储器、总线；存储器用于存储计算机执行指令，处理器与存储器通过总线连接，当预测装置运行时，处理器执行存储器存储的计算机执行指令，以使预测装置执行如上述权利要求1-4任一项所述的预测方法。