CN108021937B - 基于成本关联的数据变动识别网络及其分类器布点方法 - Google Patents
基于成本关联的数据变动识别网络及其分类器布点方法 Download PDFInfo
- Publication number
- CN108021937B CN108021937B CN201711214855.4A CN201711214855A CN108021937B CN 108021937 B CN108021937 B CN 108021937B CN 201711214855 A CN201711214855 A CN 201711214855A CN 108021937 B CN108021937 B CN 108021937B
- Authority
- CN
- China
- Prior art keywords
- data
- classifier
- cost
- enterprise
- decision
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及企业数据分析、用户用电行为识别技术,属于市场化负荷预测领域,尤其涉及基于成本关联的数据变动识别网络及其分类器布点方法。由企业数据生成与使用中的数据流中数据变动识别网络的各分类器将安置于数据项上,包括原始数据、中间生成数据以及决策数据;每个数据项均有可能被安置分类器;分类器及其安置位置构成数据变动的识别网络;直接从外部或物理传感器获得的数据称为原始数据,存放在众多不同的原始数据库中;依据企业各流程环节和中间决策需要,企业生成众多中间生成数据;企业的决策层再统计计算生成决策数据。在保证识别精度前提下,最小化数据异动识别网络的布点成本,为企业明细数据识别提供精确性保证,降低运营监控成本。
Description
技术领域
本发明涉及企业数据分析、用户用电行为识别技术,属于市场化负荷预测领域,尤其涉及一种基于成本关联的数据变动识别网络及其分类器布点方法。
背景技术
企业运营的决策数据是由众多的原始数据和中间生成数据经过复杂的统计计算得来,以表征企业运营状况的各个侧面。由于机器学习技术的发展,使得当企业运营决策者面向决策数据异动时,可通过机器学习模型判断相关的原始数据和中间生成数据的变化状况,以此定位导致决策数据异动的根因所在。目前,常用的方法是直接在决策数据生成的位置安置分类器,并通过历史数据的训练学习,促使分类器识别出不同决策数据变动情况下原始数据和中间数据的变化情况。该分类器的输入为一个或多个决策数据,输出为全体原始数据的异动逻辑判断。然而,由于企业数据量极大,只在决策数据层安放分类器的判断精度不高;同时,为每个数据项安装分类器又会增大判断的成本(每个分类器需要安装单独的数据汇总服务器和训练计算云)。因此,亟需一种面向“既能保证识别精度,又能采用较低成本”的分类器安置方法。
发明内容
为克服上述现有技术中存在的问题,本发明提供了一种基于成本关联的数据变动识别网络及其分类器布点方法,目的是为了面向企业数据分析中的原始数据检测问题,提出一种新型的数据变动识别网络,并考虑分类器识别能力和分类器构建成本,提出一种面向该网络的新型分类器布点方法。该方法辅助决策者利用最优的性价比设置网络中的分类器,达到监测原始数据和关键数据变动的目的。
为了实现上述发明目的,本发明是通过以下方式实现的:
基于成本关联的数据变动识别网络,是由企业数据生成与使用中的数据流中数据变动识别网络的各分类器将安置于数据项上,包括原始数据、中间生成数据以及决策数据;每个数据项均有可能被安置分类器;这些分类器以及其安置位置构成了数据变动的识别网络;直接从外部或物理传感器所获得的数据称为原始数据,存放在众多不同的原始数据库中;依据企业各流程环节和中间决策的需要,企业生成了众多的中间生成数据;企业的决策层依据中间生成数据和原始数据进一步统计计算生成决策数据。
所述中间数据包括企业管理生成的统计数据、企业生产生成的统计数据、企业营销生成的统计数据,如流程数据、依据原始数据计算所得的部分运营统计数据、核心资源属性数据、主营业务属性数据。
所述中间数据,每个中间数据都由多个原始数据直接或间接计算获得;每个决策数据都由多个中间生成数据和多个原始数据直接或间接计算获得。
所述原始数据,为识别出原始数据的异样波动,需要在网络中布多个分类器点;该分类器点坐落于某个数据项上,可以是原始数据、中间数据或者是决策数据,以坐落数据项为分类器输入;每个分类器负责用于分类满足如下要求的数据项:“所有可通过一个或多个箭头指向最终到达分类器坐落数据项,且所有指向过程中不存在其他分类器的数据项”;因此,各数据项变动将由不同的分类器判断获得。
所述分类器点包括分类器点C1,分类器点C2和分类器点C3。
所述分类器的分类模型如公式(1)所示:
式(1)中,分类器Ci包含五个元素,Ci.num表示分类器位置所在的数据项编号;Ci.fea表示目标分类器的特征空间;Ci.dat表示分类器所需识别的目标数据项序号向量;Ci.acc表示分类器辖下数据项异动识别精度向量,其中每个元素表示对应数据项异动识别的准确率;Ci.mod表示分类器的数学模型。
所述分类器的特征空间必定属于全特征空间的一个子空间,如公式(2)所示;该子空间的选择由布点方法确定,全特征空间中典型的特征包括:近期数据期望、近期数据波动方差、近期数据集多级谐波特征、数据导数;
公式(2)中,Fea表示全特征空间。
所述Ci.acc由分类器经过已有的历史数据训练获得;典型的分类器数学模型包括支持向量机、随机森林、径向基网络。
基于成本关联的数据变动识别分类器布点方法,包括:以数据流网络为基础,不放分类器时的数据流网络,通过判断每个数据项位置是否放置分类器、每个分类器的特征选择,计算获得成本最优的分类器放置办法,同时保证数据项全涵盖、和数据变动识别精度符合要求;其中,该方法的目标函数如公式(3)所示:
式(3)中,函数inv()接收分类器的特征空间,输出该特征空间所需的构建费用;该费用具体由该分类器所需的传感器数量、服务器运行环境成本确定;Size(C)表示全网络中分类器的总数;cost表示安置单个分类器的成本,这个成本包括单个分类器辖下数据传输的成本、单个分类器模型训练学习所需要的服务器成本和服务器安置空间成本;保证同一个数据项不被超过2个分类器所识别,保证所有数据项均被分类器覆盖,所有数据项异动识别的平均精度需要高于决策者给定的精度要求阈值。
所述保证同一个数据项不被超过2个分类器所识别,满足上述要求的约束条件,如公式(4)所示:
式(4)中,i1和i2表示任意两个分类器序号;Ci1.dat表示分类器i1所需识别的目标数据项序号向量,Ci2.dat表示分类器i2所需识别的目标数据项序号向量; Const是数学上的一个说法,在所有的优化问题中,数学上统一规定用Min:或者Max:表示目标函数,用Const表示约束;Const1表示优化中第一个约束;同时,该方法需要保证所有数据项均被分类器覆盖;因此,公式(5)给出了满足上述要求的约束条件;
Const 2:Ci1.dat∪Ci2.dat∪…∪Cin.dat=DAT (5);
式(5)中,DAT表示全数据项编号所组成的集合,Cin.dat表示分类器i1所需识别的目标数据项序号向量;Const2表示优化中第二个约束;同时,所有数据项异动识别的平均精度需要高于决策者给定的精度要求阈值;因此,公式(6)给出了满足上述要求的约束条件:
式(6)中,Acc表示决策者给定的精度要求阈值;Const3表示优化中第三个约束;同时,所有数据项异动识别的最低精度需要高于决策者给定的最低精度要求阈值;因此,公式(7)给出了满足上述要求的约束条件:
Const 5:{min Vi|Vi=min(Ci.acc)}>Lcc (7);
式(7)中,Lcc表示决策者给定的最低精度要求阈值;Const5表示优化中第五个约束;
用于计算以公式(3)为目标函数,公式(4)-(7)为约束条件的优化问题,可采用多种优化方法,典型的优化方法包括遗传算法、粒子群算法、人工蜂群算法。
本发明的优点及有益效果是:
本发明以成本最优的算法安置数据异动识别网络的分类器布点,实现了“在保证识别精度的前提下,最小化数据异动识别网络的布点成本”,为企业明细数据识别提供精确性保证的同时,降低其运营监控的成本。
下面结合附图和具体实施例,对本发明作进一步详细的说明,但不受本实施例所限。
附图说明
图1为本发明企业数据生成与使用中的数据流。
具体实施方式
本发明是一种基于成本关联的数据变动识别网络及其分类器布点方法。其中,一种基于成本关联的数据变动识别网络如图1所示,图1是企业数据生成与使用中的数据流。数据变动识别网络的各分类器将安置于图1中的数据项上,包括原始数据、中间生成数据以及决策数据。每个数据项均有可能被安置分类器。这些分布在图1中的分类器以及其安置位置构成了数据变动的识别网络。其中,直接从外部或物理传感器所获得的数据称为原始数据,存放在众多不同的原始数据库中。依据企业各流程环节和中间决策的需要,企业生成了众多的中间生成数据,包括企业管理生成的统计数据、企业生产生成的统计数据、企业营销生成的统计数据等,如流程数据、依据原始数据计算所得的部分运营统计数据、核心资源属性数据、主营业务属性数据等。企业的决策层依据中间生成数据和原始数据进一步统计计算生成决策数据。图1中的箭头表示被指向的数据项由指向数据参与计算获得,此时被指向的数据项称为被指数据项,指向数据称为原发数据项。
在图1中,每个中间数据都由多个原始数据直接或间接计算获得;每个决策数据都由多个中间生成数据和多个原始数据直接或间接计算获得。为识别出原始数据的异样波动,需要在图1网络中布多个分类器点,例如图1中的分类器点C1,分类器点C2 和分类器点C3。该分类器点坐落于某个数据项上,可以是原始数据、中间生成数据或者是决策数据,以坐落数据项为分类器输入。每个分类器负责用于分类满足如下要求的数据项:“所有可通过一个或多个箭头指向最终到达分类器坐落数据项,且所有指向过程中不存在其他分类器的数据项”。因此,各数据项变动将由不同的分类器判断获得。
每个分类器的分类模型如公式(1)所示:
式(1)中,分类器Ci包含五个元素,Ci.num表示分类器位置所在的数据项编号;Ci.fea表示目标分类器的特征空间;Ci.dat表示分类器所需识别的目标数据项序号向量;Ci.acc表示分类器辖下数据项异动识别精度向量,其中每个元素表示对应数据项异动识别的准确率;Ci.mod表示分类器的数学模型。
同时,分类器的特征空间必定属于全特征空间的一个子空间,如公式(2)所示。该子空间的选择由布点方法确定。全特征空间中典型的特征包括:近期数据期望、近期数据波动方差、近期数据集多级谐波特征等。
公式(2)中,Fea表示全特征空间。
同时,Ci.acc由分类器经过已有的历史数据训练获得。典型的分类器数学模型包括支持向量机、随机森林、径向基网络等.
本发明基于成本关联的数据变动识别分类器布点方法如下:
以图1中的数据流网络为基础,即图1中不放分类器时的数据流网络,通过判断每个数据项位置是否放置分类器、每个分类器的特征选择,计算获得成本最优的分类器放置办法,同时保证数据项全涵盖、和数据变动识别精度符合要求。
其中,该方法的目标函数如公式(3)所示:
式(3)中,函数inv()接收分类器的特征空间,输出该特征空间所需的构建费用。该费用具体由该分类器所需的传感器数量、服务器运行环境成本确定。Size(C)表示全网络中分类器的总数。cost表示安置单个分类器的成本,这个成本包括单个分类器辖下数据传输的成本、单个分类器模型训练学习所需要的服务器成本和服务器安置空间成本。
同时,该方法需要保证同一个数据项不被超过2个分类器所识别。因此,公式(4)给出了满足上述要求的约束条件。
式(4)中,i1和i2表示任意两个分类器序号。Ci1.dat表示分类器i1所需识别的目标数据项序号向量,Ci2.dat表示分类器i2所需识别的目标数据项序号向量。 Const是数学上的一个说法,在所有的优化问题中,数学上统一规定用Min:或者Max:表示目标函数,用Const表示约束。Const1表示优化中第一个约束。
同时,该方法需要保证所有数据项均被分类器覆盖。因此,公式(5)给出了满足上述要求的约束条件。
Const 2:Ci1.dat∪Ci2.dat∪…∪Cin.dat=DAT (5);
式(5)中,DAT表示全数据项编号所组成的集合,Cin.dat表示分类器i1所需识别的目标数据项序号向量。Const2表示优化中第二个约束。
同时,所有数据项异动识别的平均精度需要高于决策者给定的精度要求阈值。因此,公式(6)给出了满足上述要求的约束条件。
式(6)中,Acc表示决策者给定的精度要求阈值。mean表示求数学期望的函数。Const3 表示优化中第三个约束。
同时,所有数据项异动识别的最低精度需要高于决策者给定的最低精度要求阈值。因此,公式(7)给出了满足上述要求的约束条件。
Const 5:{min Vi|Vi=min(Ci.acc)}>Lcc (7);
式(7)中,Lcc表示决策者给定的最低精度要求阈值。Const5表示优化中第五个约束。
用于计算以公式(3)为目标函数,公式(4)-(7)为约束条件的优化问题,可采用多种优化方法。典型的优化方法包括遗传算法、粒子群算法、人工蜂群算法等。
Claims (3)
1.基于成本关联的数据变动识别网络,其特征是:企业数据生成与使用中的数据流中数据变动识别网络的各分类器将安置于数据项上,包括原始数据、中间生成数据以及决策数据;每个数据项均有可能被安置分类器;这些分类器以及其安置位置构成了数据变动的识别网络;直接从外部或物理传感器所获得的数据称为原始数据,存放在众多不同的原始数据库中;依据企业各流程环节和中间决策的需要,企业生成了众多的中间生成数据;企业的决策层依据中间生成数据和原始数据进一步统计计算生成决策数据;
所述中间生成 数据包括企业管理生成的统计数据、企业生产生成的统计数据、企业营销生成的统计数据,如流程数据、依据原始数据计算所得的部分运营统计数据、核心资源属性数据、主营业务属性数据;
所述中间生成 数据,每个中间生成 数据都由多个原始数据直接或间接计算获得;每个决策数据都由多个中间生成数据和多个原始数据直接或间接计算获得;
所述原始数据,为识别出原始数据的异样波动,需要在网络中布多个分类器点;该分类器点坐落于某个数据项上,可以是原始数据、中间生成 数据或者是决策数据,以坐落数据项为分类器输入;每个分类器负责用于分类满足如下要求的数据项:“所有可通过一个或多个箭头指向最终到达分类器坐落数据项,且所有指向过程中不存在其他分类器的数据项”;因此,各数据项变动将由不同的分类器判断获得;
所述分类器点包括分类器点C1,分类器点C2和分类器点C3;
所述分类器的分类模型如公式(1)所示:
式(1)中,分类器Ci包含五个元素,Ci.num表示分类器位置所在的数据项编号;Ci.fea表示目标分类器的特征空间;Ci.dat表示分类器所需识别的目标数据项序号向量;Ci.acc表示分类器辖下数据项异动识别精度向量,其中每个元素表示对应数据项异动识别的准确率;Ci.mod表示分类器的数学模型;
所述分类器的特征空间必定属于全特征空间的一个子空间,如公式(2)所示;该子空间的选择由布点方法确定,全特征空间中典型的特征包括:近期数据期望、近期数据波动方差、近期数据集多级谐波特征、数据导数;
公式(2)中,Fea表示全特征空间;
所述Ci.acc由分类器经过已有的历史数据训练获得;典型的分类器数学模型包括支持向量机、随机森林、径向基网络。
2.基于成本关联的数据变动识别分类器布点方法,其特征是:包括:
以权利要求1中所述的识别网络为基础,不放分类器时的识别网络,通过判断每个数据项位置是否放置分类器、每个分类器的特征选择,计算获得成本最优的分类器放置办法,同时保证数据项全涵盖、和数据变动识别精度符合要求;
其中,该方法的目标函数如公式(3)所示:
式(3)中,函数inv()接收分类器的特征空间,输出该特征空间所需的构建费用;该费用具体由该分类器所需的传感器数量、服务器运行环境成本确定;Size(C)表示全网络中分类器的总数;cost表示安置单个分类器的成本,这个成本包括单个分类器辖下数据传输的成本、单个分类器模型训练学习所需要的服务器成本和服务器安置空间成本;
保证同一个数据项不被超过2个分类器所识别,保证所有数据项均被分类器覆盖,所有数据项异动识别的平均精度需要高于决策者给定的精度要求阈值。
3.根据权利要求2所述的基于成本关联的数据变动识别分类器布点方法,其特征是:所述保证同一个数据项不被超过2个分类器所识别,满足上述要求的约束条件,如公式(4)所示:
式(4)中,i1和i2表示任意两个分类器序号;Ci1.dat表示分类器i1所需识别的目标数据项序号向量,Ci2.dat表示分类器i2所需识别的目标数据项序号向量;Const是数学上的一个说法,在所有的优化问题中,数学上统一规定用Min:或者Max:表示目标函数,用Const表示约束;Const1表示优化中第一个约束;
同时,该方法需要保证所有数据项均被分类器覆盖;因此,公式(5)给出了满足上述要求的约束条件;
Const 2:Ci1.dat∪Ci2.dat∪…∪Cin.dat=DAT (5);
式(5)中,DAT表示全数据项编号所组成的集合,Cin.dat表示分类器i1所需识别的目标数据项序号向量;Const2表示优化中第二个约束;
同时,所有数据项异动识别的平均精度需要高于决策者给定的精度要求阈值;因此,公式(6)给出了满足上述要求的约束条件:
式(6)中,Acc表示决策者给定的精度要求阈值;Const3表示优化中第三个约束;
同时,所有数据项异动识别的最低精度需要高于决策者给定的最低精度要求阈值;因此,公式(7)给出了满足上述要求的约束条件:
Const 5:{min Vi|Vi=min(Ci.acc)}>Lcc (7);
式(7)中,Lcc表示决策者给定的最低精度要求阈值;Const5表示优化中第五个约束;
用于计算以公式(3)为目标函数,公式(4)-(7)为约束条件的优化问题,可采用多种优化方法,典型的优化方法包括遗传算法、粒子群算法、人工蜂群算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711214855.4A CN108021937B (zh) | 2017-11-28 | 2017-11-28 | 基于成本关联的数据变动识别网络及其分类器布点方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711214855.4A CN108021937B (zh) | 2017-11-28 | 2017-11-28 | 基于成本关联的数据变动识别网络及其分类器布点方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108021937A CN108021937A (zh) | 2018-05-11 |
CN108021937B true CN108021937B (zh) | 2022-06-14 |
Family
ID=62077359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711214855.4A Active CN108021937B (zh) | 2017-11-28 | 2017-11-28 | 基于成本关联的数据变动识别网络及其分类器布点方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108021937B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109656969B (zh) * | 2018-11-16 | 2024-08-23 | 北京奇虎科技有限公司 | 数据异动分析方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709449A (zh) * | 2016-12-22 | 2017-05-24 | 深圳市深网视界科技有限公司 | 一种基于深度学习和强化学习的行人重识别方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030204368A1 (en) * | 2002-03-29 | 2003-10-30 | Emre Ertin | Adaptive sequential detection network |
-
2017
- 2017-11-28 CN CN201711214855.4A patent/CN108021937B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709449A (zh) * | 2016-12-22 | 2017-05-24 | 深圳市深网视界科技有限公司 | 一种基于深度学习和强化学习的行人重识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
大数据推动营销服务创新;肖世杰;《国家电网》;20170505(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108021937A (zh) | 2018-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kuo et al. | Integration of particle swarm optimization and genetic algorithm for dynamic clustering | |
Wu et al. | Case-based reasoning with optimized weight derived by particle swarm optimization for software effort estimation | |
US20190317812A1 (en) | Guaranteed quality of service in cloud computing environments | |
CN111324642A (zh) | 一种面向电网大数据分析的模型算法选型与评价方法 | |
CN117539726B (zh) | 绿色智算中心能效优化方法及系统 | |
Gupta et al. | Clustering-Classification based prediction of stock market future prediction | |
CN105589806A (zh) | 一种基于SMOTE+Boosting算法的软件缺陷倾向预测方法 | |
Zowid et al. | Multi-criteria inventory ABC classification using Gaussian Mixture Model | |
CN113420804B (zh) | 数据处理方法、装置、网络设备及存储介质 | |
US20190213475A1 (en) | Reducing machine-learning model complexity while maintaining accuracy to improve processing speed | |
Li | RETRACTED ARTICLE: Optimal design of transportation distance in logistics supply chain model based on data mining algorithm | |
CN107038833B (zh) | 一种山火火点二次甄别方法及系统 | |
AU2020392948A1 (en) | Machine learning device, demand control system, and air-conditioner control system | |
CN108021937B (zh) | 基于成本关联的数据变动识别网络及其分类器布点方法 | |
Lu et al. | Personalized federated learning on long-tailed data via adversarial feature augmentation | |
Cao et al. | A loan default discrimination model using cost-sensitive support vector machine improved by PSO | |
Jiang et al. | Supplier's Efficiency and Performance Evaluation using DEA-SVM Approach. | |
Zhao | Research on e-commerce customer churning modeling and prediction | |
Alborz et al. | Using Genetic Algorithm in optimizing decision trees for credit scoring of banks customers | |
CN114004513B (zh) | 一种需求预测方法、系统及存储介质 | |
Saeh et al. | Artificial neural network for power system static security assessment: a survey | |
Maciel et al. | An enhanced approach for evolving participatory learning fuzzy modeling | |
Lee et al. | A new artificial bee colony based clustering method and its application to the business failure prediction | |
Zhang | An Approach to Multi-attribute Group Decision Making and Its Application to Project Risk Assessment. | |
CN110532418A (zh) | 一种高净值行业ai智能设计系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |