CN108021937B

CN108021937B - 基于成本关联的数据变动识别网络及其分类器布点方法

Info

Publication number: CN108021937B
Application number: CN201711214855.4A
Authority: CN
Inventors: 周小明; 袁骏; 刘爱民; 苏安龙; 崔万里; 齐伟夫; 李小兰; 周兵兵; 王大维; 李广翱; 张佳鑫; 李广野; 王丽霞; 田小蕾; 温鑫; 刘树森; 毛春亮
Original assignee: State Grid Corp of China SGCC; State Grid Liaoning Electric Power Co Ltd; Shenyang Power Supply Co of State Grid Liaoning Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Liaoning Electric Power Co Ltd; Shenyang Power Supply Co of State Grid Liaoning Electric Power Co Ltd
Priority date: 2017-11-28
Filing date: 2017-11-28
Publication date: 2022-06-14
Anticipated expiration: 2037-11-28
Also published as: CN108021937A

Abstract

本发明涉及企业数据分析、用户用电行为识别技术，属于市场化负荷预测领域，尤其涉及基于成本关联的数据变动识别网络及其分类器布点方法。由企业数据生成与使用中的数据流中数据变动识别网络的各分类器将安置于数据项上，包括原始数据、中间生成数据以及决策数据；每个数据项均有可能被安置分类器；分类器及其安置位置构成数据变动的识别网络；直接从外部或物理传感器获得的数据称为原始数据，存放在众多不同的原始数据库中；依据企业各流程环节和中间决策需要，企业生成众多中间生成数据；企业的决策层再统计计算生成决策数据。在保证识别精度前提下，最小化数据异动识别网络的布点成本，为企业明细数据识别提供精确性保证，降低运营监控成本。

Description

基于成本关联的数据变动识别网络及其分类器布点方法

技术领域

本发明涉及企业数据分析、用户用电行为识别技术，属于市场化负荷预测领域，尤其涉及一种基于成本关联的数据变动识别网络及其分类器布点方法。

背景技术

企业运营的决策数据是由众多的原始数据和中间生成数据经过复杂的统计计算得来，以表征企业运营状况的各个侧面。由于机器学习技术的发展，使得当企业运营决策者面向决策数据异动时，可通过机器学习模型判断相关的原始数据和中间生成数据的变化状况，以此定位导致决策数据异动的根因所在。目前，常用的方法是直接在决策数据生成的位置安置分类器，并通过历史数据的训练学习，促使分类器识别出不同决策数据变动情况下原始数据和中间数据的变化情况。该分类器的输入为一个或多个决策数据，输出为全体原始数据的异动逻辑判断。然而，由于企业数据量极大，只在决策数据层安放分类器的判断精度不高；同时，为每个数据项安装分类器又会增大判断的成本(每个分类器需要安装单独的数据汇总服务器和训练计算云)。因此，亟需一种面向“既能保证识别精度，又能采用较低成本”的分类器安置方法。

发明内容

为克服上述现有技术中存在的问题，本发明提供了一种基于成本关联的数据变动识别网络及其分类器布点方法，目的是为了面向企业数据分析中的原始数据检测问题，提出一种新型的数据变动识别网络，并考虑分类器识别能力和分类器构建成本，提出一种面向该网络的新型分类器布点方法。该方法辅助决策者利用最优的性价比设置网络中的分类器，达到监测原始数据和关键数据变动的目的。

为了实现上述发明目的，本发明是通过以下方式实现的：

基于成本关联的数据变动识别网络，是由企业数据生成与使用中的数据流中数据变动识别网络的各分类器将安置于数据项上，包括原始数据、中间生成数据以及决策数据；每个数据项均有可能被安置分类器；这些分类器以及其安置位置构成了数据变动的识别网络；直接从外部或物理传感器所获得的数据称为原始数据，存放在众多不同的原始数据库中；依据企业各流程环节和中间决策的需要，企业生成了众多的中间生成数据；企业的决策层依据中间生成数据和原始数据进一步统计计算生成决策数据。

所述中间数据包括企业管理生成的统计数据、企业生产生成的统计数据、企业营销生成的统计数据，如流程数据、依据原始数据计算所得的部分运营统计数据、核心资源属性数据、主营业务属性数据。

所述中间数据，每个中间数据都由多个原始数据直接或间接计算获得；每个决策数据都由多个中间生成数据和多个原始数据直接或间接计算获得。

所述原始数据，为识别出原始数据的异样波动，需要在网络中布多个分类器点；该分类器点坐落于某个数据项上，可以是原始数据、中间数据或者是决策数据，以坐落数据项为分类器输入；每个分类器负责用于分类满足如下要求的数据项：“所有可通过一个或多个箭头指向最终到达分类器坐落数据项，且所有指向过程中不存在其他分类器的数据项”；因此，各数据项变动将由不同的分类器判断获得。

所述分类器点包括分类器点C1，分类器点C2和分类器点C3。

所述分类器的分类模型如公式(1)所示：

式(1)中，分类器Ci包含五个元素，C_i.num表示分类器位置所在的数据项编号；C_i.fea表示目标分类器的特征空间；C_i.dat表示分类器所需识别的目标数据项序号向量；C_i.acc表示分类器辖下数据项异动识别精度向量，其中每个元素表示对应数据项异动识别的准确率；C_i.mod表示分类器的数学模型。

所述分类器的特征空间必定属于全特征空间的一个子空间，如公式(2)所示；该子空间的选择由布点方法确定，全特征空间中典型的特征包括：近期数据期望、近期数据波动方差、近期数据集多级谐波特征、数据导数；

公式(2)中，Fea表示全特征空间。

所述C_i.acc由分类器经过已有的历史数据训练获得；典型的分类器数学模型包括支持向量机、随机森林、径向基网络。

基于成本关联的数据变动识别分类器布点方法，包括：以数据流网络为基础，不放分类器时的数据流网络，通过判断每个数据项位置是否放置分类器、每个分类器的特征选择，计算获得成本最优的分类器放置办法，同时保证数据项全涵盖、和数据变动识别精度符合要求；其中，该方法的目标函数如公式(3)所示：

式(3)中，函数inv()接收分类器的特征空间，输出该特征空间所需的构建费用；该费用具体由该分类器所需的传感器数量、服务器运行环境成本确定；Size(C)表示全网络中分类器的总数；cost表示安置单个分类器的成本，这个成本包括单个分类器辖下数据传输的成本、单个分类器模型训练学习所需要的服务器成本和服务器安置空间成本；保证同一个数据项不被超过2个分类器所识别，保证所有数据项均被分类器覆盖，所有数据项异动识别的平均精度需要高于决策者给定的精度要求阈值。

所述保证同一个数据项不被超过2个分类器所识别，满足上述要求的约束条件，如公式(4)所示：

Const 1：

式(4)中，i1和i2表示任意两个分类器序号；Ci1.dat表示分类器i1所需识别的目标数据项序号向量，Ci2.dat表示分类器i2所需识别的目标数据项序号向量； Const是数学上的一个说法，在所有的优化问题中，数学上统一规定用Min:或者Max:表示目标函数，用Const表示约束；Const1表示优化中第一个约束；同时，该方法需要保证所有数据项均被分类器覆盖；因此，公式(5)给出了满足上述要求的约束条件；

Const 2:Ci1.dat∪Ci2.dat∪…∪Cin.dat＝DAT (5)；

式(5)中，DAT表示全数据项编号所组成的集合，Cin.dat表示分类器i1所需识别的目标数据项序号向量；Const2表示优化中第二个约束；同时，所有数据项异动识别的平均精度需要高于决策者给定的精度要求阈值；因此，公式(6)给出了满足上述要求的约束条件：

Const 3:

式(6)中，Acc表示决策者给定的精度要求阈值；Const3表示优化中第三个约束；同时，所有数据项异动识别的最低精度需要高于决策者给定的最低精度要求阈值；因此，公式(7)给出了满足上述要求的约束条件：

Const 5：{min V_i|V_i＝min(C_i.acc)}＞Lcc (7)；

式(7)中，Lcc表示决策者给定的最低精度要求阈值；Const5表示优化中第五个约束；

用于计算以公式(3)为目标函数，公式(4)-(7)为约束条件的优化问题，可采用多种优化方法，典型的优化方法包括遗传算法、粒子群算法、人工蜂群算法。

本发明的优点及有益效果是：

本发明以成本最优的算法安置数据异动识别网络的分类器布点，实现了“在保证识别精度的前提下，最小化数据异动识别网络的布点成本”，为企业明细数据识别提供精确性保证的同时，降低其运营监控的成本。

下面结合附图和具体实施例，对本发明作进一步详细的说明，但不受本实施例所限。

附图说明

图1为本发明企业数据生成与使用中的数据流。

具体实施方式

本发明是一种基于成本关联的数据变动识别网络及其分类器布点方法。其中，一种基于成本关联的数据变动识别网络如图1所示，图1是企业数据生成与使用中的数据流。数据变动识别网络的各分类器将安置于图1中的数据项上，包括原始数据、中间生成数据以及决策数据。每个数据项均有可能被安置分类器。这些分布在图1中的分类器以及其安置位置构成了数据变动的识别网络。其中，直接从外部或物理传感器所获得的数据称为原始数据，存放在众多不同的原始数据库中。依据企业各流程环节和中间决策的需要，企业生成了众多的中间生成数据，包括企业管理生成的统计数据、企业生产生成的统计数据、企业营销生成的统计数据等，如流程数据、依据原始数据计算所得的部分运营统计数据、核心资源属性数据、主营业务属性数据等。企业的决策层依据中间生成数据和原始数据进一步统计计算生成决策数据。图1中的箭头表示被指向的数据项由指向数据参与计算获得，此时被指向的数据项称为被指数据项，指向数据称为原发数据项。

在图1中，每个中间数据都由多个原始数据直接或间接计算获得；每个决策数据都由多个中间生成数据和多个原始数据直接或间接计算获得。为识别出原始数据的异样波动，需要在图1网络中布多个分类器点，例如图1中的分类器点C1，分类器点C2 和分类器点C3。该分类器点坐落于某个数据项上，可以是原始数据、中间生成数据或者是决策数据，以坐落数据项为分类器输入。每个分类器负责用于分类满足如下要求的数据项：“所有可通过一个或多个箭头指向最终到达分类器坐落数据项，且所有指向过程中不存在其他分类器的数据项”。因此，各数据项变动将由不同的分类器判断获得。

每个分类器的分类模型如公式(1)所示：

同时，分类器的特征空间必定属于全特征空间的一个子空间，如公式(2)所示。该子空间的选择由布点方法确定。全特征空间中典型的特征包括：近期数据期望、近期数据波动方差、近期数据集多级谐波特征等。

公式(2)中，Fea表示全特征空间。

同时，C_i.acc由分类器经过已有的历史数据训练获得。典型的分类器数学模型包括支持向量机、随机森林、径向基网络等.

本发明基于成本关联的数据变动识别分类器布点方法如下：

以图1中的数据流网络为基础，即图1中不放分类器时的数据流网络，通过判断每个数据项位置是否放置分类器、每个分类器的特征选择，计算获得成本最优的分类器放置办法，同时保证数据项全涵盖、和数据变动识别精度符合要求。

其中，该方法的目标函数如公式(3)所示：

式(3)中，函数inv()接收分类器的特征空间，输出该特征空间所需的构建费用。该费用具体由该分类器所需的传感器数量、服务器运行环境成本确定。Size(C)表示全网络中分类器的总数。cost表示安置单个分类器的成本，这个成本包括单个分类器辖下数据传输的成本、单个分类器模型训练学习所需要的服务器成本和服务器安置空间成本。

同时，该方法需要保证同一个数据项不被超过2个分类器所识别。因此，公式(4)给出了满足上述要求的约束条件。

Const 1：

式(4)中，i1和i2表示任意两个分类器序号。Ci1.dat表示分类器i1所需识别的目标数据项序号向量，Ci2.dat表示分类器i2所需识别的目标数据项序号向量。 Const是数学上的一个说法，在所有的优化问题中，数学上统一规定用Min:或者Max:表示目标函数，用Const表示约束。Const1表示优化中第一个约束。

同时，该方法需要保证所有数据项均被分类器覆盖。因此，公式(5)给出了满足上述要求的约束条件。

Const 2：Ci1.dat∪Ci2.dat∪…∪Cin.dat＝DAT (5)；

式(5)中，DAT表示全数据项编号所组成的集合，Cin.dat表示分类器i1所需识别的目标数据项序号向量。Const2表示优化中第二个约束。

同时，所有数据项异动识别的平均精度需要高于决策者给定的精度要求阈值。因此，公式(6)给出了满足上述要求的约束条件。

Const 3:

式(6)中，Acc表示决策者给定的精度要求阈值。mean表示求数学期望的函数。Const3 表示优化中第三个约束。

同时，所有数据项异动识别的最低精度需要高于决策者给定的最低精度要求阈值。因此，公式(7)给出了满足上述要求的约束条件。

Const 5：{min V_i|V_i＝min(C_i.acc)}＞Lcc (7)；

式(7)中，Lcc表示决策者给定的最低精度要求阈值。Const5表示优化中第五个约束。

用于计算以公式(3)为目标函数，公式(4)-(7)为约束条件的优化问题，可采用多种优化方法。典型的优化方法包括遗传算法、粒子群算法、人工蜂群算法等。

Claims

1.基于成本关联的数据变动识别网络，其特征是：企业数据生成与使用中的数据流中数据变动识别网络的各分类器将安置于数据项上，包括原始数据、中间生成数据以及决策数据；每个数据项均有可能被安置分类器；这些分类器以及其安置位置构成了数据变动的识别网络；直接从外部或物理传感器所获得的数据称为原始数据，存放在众多不同的原始数据库中；依据企业各流程环节和中间决策的需要，企业生成了众多的中间生成数据；企业的决策层依据中间生成数据和原始数据进一步统计计算生成决策数据；

所述中间生成数据包括企业管理生成的统计数据、企业生产生成的统计数据、企业营销生成的统计数据，如流程数据、依据原始数据计算所得的部分运营统计数据、核心资源属性数据、主营业务属性数据；

所述中间生成数据，每个中间生成数据都由多个原始数据直接或间接计算获得；每个决策数据都由多个中间生成数据和多个原始数据直接或间接计算获得；

所述原始数据，为识别出原始数据的异样波动，需要在网络中布多个分类器点；该分类器点坐落于某个数据项上，可以是原始数据、中间生成数据或者是决策数据，以坐落数据项为分类器输入；每个分类器负责用于分类满足如下要求的数据项：“所有可通过一个或多个箭头指向最终到达分类器坐落数据项，且所有指向过程中不存在其他分类器的数据项”；因此，各数据项变动将由不同的分类器判断获得；

所述分类器点包括分类器点C1，分类器点C2和分类器点C3；

所述分类器的分类模型如公式(1)所示：

式(1)中，分类器Ci包含五个元素，C_i.num表示分类器位置所在的数据项编号；C_i.fea表示目标分类器的特征空间；C_i.dat表示分类器所需识别的目标数据项序号向量；C_i.acc表示分类器辖下数据项异动识别精度向量，其中每个元素表示对应数据项异动识别的准确率；C_i.mod表示分类器的数学模型；

公式(2)中，Fea表示全特征空间；

2.基于成本关联的数据变动识别分类器布点方法，其特征是：包括：

以权利要求1中所述的识别网络为基础，不放分类器时的识别网络，通过判断每个数据项位置是否放置分类器、每个分类器的特征选择，计算获得成本最优的分类器放置办法，同时保证数据项全涵盖、和数据变动识别精度符合要求；

其中，该方法的目标函数如公式(3)所示：

式(3)中，函数inv()接收分类器的特征空间，输出该特征空间所需的构建费用；该费用具体由该分类器所需的传感器数量、服务器运行环境成本确定；Size(C)表示全网络中分类器的总数；cost表示安置单个分类器的成本，这个成本包括单个分类器辖下数据传输的成本、单个分类器模型训练学习所需要的服务器成本和服务器安置空间成本；

保证同一个数据项不被超过2个分类器所识别，保证所有数据项均被分类器覆盖，所有数据项异动识别的平均精度需要高于决策者给定的精度要求阈值。

3.根据权利要求2所述的基于成本关联的数据变动识别分类器布点方法，其特征是：所述保证同一个数据项不被超过2个分类器所识别，满足上述要求的约束条件，如公式(4)所示：

式(4)中，i1和i2表示任意两个分类器序号；Ci1.dat表示分类器i1所需识别的目标数据项序号向量，Ci2.dat表示分类器i2所需识别的目标数据项序号向量；Const是数学上的一个说法，在所有的优化问题中，数学上统一规定用Min:或者Max:表示目标函数，用Const表示约束；Const1表示优化中第一个约束；

同时，该方法需要保证所有数据项均被分类器覆盖；因此，公式(5)给出了满足上述要求的约束条件；

Const 2：Ci1.dat∪Ci2.dat∪…∪Cin.dat＝DAT (5)；

式(5)中，DAT表示全数据项编号所组成的集合，Cin.dat表示分类器i1所需识别的目标数据项序号向量；Const2表示优化中第二个约束；

同时，所有数据项异动识别的平均精度需要高于决策者给定的精度要求阈值；因此，公式(6)给出了满足上述要求的约束条件：

式(6)中，Acc表示决策者给定的精度要求阈值；Const3表示优化中第三个约束；

同时，所有数据项异动识别的最低精度需要高于决策者给定的最低精度要求阈值；因此，公式(7)给出了满足上述要求的约束条件：

Const 5：{min V_i|V_i＝min(C_i.acc)}＞Lcc (7)；