CN110955811A - 基于朴素贝叶斯算法的电力数据分类方法及系统 - Google Patents
基于朴素贝叶斯算法的电力数据分类方法及系统 Download PDFInfo
- Publication number
- CN110955811A CN110955811A CN201910865149.9A CN201910865149A CN110955811A CN 110955811 A CN110955811 A CN 110955811A CN 201910865149 A CN201910865149 A CN 201910865149A CN 110955811 A CN110955811 A CN 110955811A
- Authority
- CN
- China
- Prior art keywords
- data
- subset
- class
- classification
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012360 testing method Methods 0.000 claims description 22
- 230000003993 interaction Effects 0.000 claims description 5
- 238000013079 data visualisation Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 abstract description 3
- 238000003066 decision tree Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Marketing (AREA)
- Probability & Statistics with Applications (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Water Supply & Treatment (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及计算机领域,尤其涉及基于朴素贝叶斯算法的电力数据分类方法及系统,包括:S1:从电力公司的电力系统中获取数据并生成数据集;S2:从数据集中取数据子集,并作增量式训练;S3:对于每一个类别,计算各类别在数据子集中的频率;S4:将数据子集划分成K个子数据子集,分别对属于Ck的子数据子集进行计算,计算出其中第j个特征的概率;S5:针对待预测样本,计算其对于每个类别Ck的后验概率,概率值最大的类别即为待预测样本的预测类别;S6:在数据集中去掉当前数据子集,并判断数据集是否为空,若非空则进入步骤S2,若空则结束分类。本发明能够迅速准确的实现数据的分类,分类性能不会因为数据的不同而展现差异,具有良好的健壮性。
Description
技术领域
本发明涉及计算机领域,尤其涉及基于朴素贝叶斯算法的电力数据分类方法及系统。
背景技术
为研究供电企业业务的风险现状,规范供电企业业务管理,提升生产经营效率,切实保障电力安全可靠供应和优质服务,国家电网需要对电力系统中的数据进行分析。
在对电力系统中的数据进行分析之前,需要对这些数据进行合理有效的分类,以便于更好的分析。现有的分类方式时根据数据的来源进行人工分类,这种数据分类的方法误差较大,因此会对最终的数据分析造成较大的影响。
发明内容
为解决上述问题,本发明提出基于朴素贝叶斯算法的电力数据分类方法及系统。
基于朴素贝叶斯算法的电力数据分类方法,包括:
S1:从电力公司的电力系统中获取数据并生成数据集;
其中,m表示有m个样本,n表示有n个特征,Y={yi|i=1,2,…,m}表示样本所属类别,取值为{C1,C2,…,Ck},k表示有k个样本类别;
S3:对于每一个类别Y=Ck,计算各类别Ck在数据子集中的频率P(Y=Ck);
S4:将数据子集划分成K个子数据子集,分别对属于Ck的子数据子集进行计算,计算出其中第j个特征Xj=ajl的概率P(Xj=ajl|Y=Ck);
S5:针对待预测样本xtest,计算其对于每个类别Ck的后验概率P(Y=Ck|X=xtest),概率值最大的类别即为待预测样本的预测类别;
S6:在数据集中去掉当前数据子集,并判断数据集是否为空,若非空则进入步骤S2,若空则结束分类。
优选的,所述对于每一个类别Y=Ck,计算各类别Ck在数据子集中的频率P(Y=Ck)包括:
优选的,所述将数据子集划分成K个子数据子集,分别对属于Ck的子数据子集进行计算,计算出其中第j个特征Xj=ajl的概率P(Xj=ajl|Y=Ck)包括:
其中,ajl为第j个特征的取值之一,第j个特征的取值为{aj1,aj2,...,ajh},h表示第j个特征的取值的个数。
优选的,所述针对待预测样本xtest,计算其对于每个类别Ck的后验概率P(Y=Ck|X=xtest)包括:
基于朴素贝叶斯算法的电力数据分类系统,包括:分类模块,所述分类模块用于:从电力公司的电力系统中获取业务数据并生成数据集;从数据集中取数据子集,并作增量式训练,所述数据子集其中,m表示有m个样本,n表示有n个特征,Y={yi|i=1,2,…,m}表示样本所属类别,取值为{C1,C2,…,Ck},k表示有k个样本类别;对于每一个类别Y=Ck,计算各类别Ck在数据子集中的频率P(Y=Ck);将数据子集划分成K个子数据子集,分别对属于Ck的子数据子集进行计算,计算出其中第j个特征Xj=ajl的概率P(Xj=ajl|Y=Ck);针对待预测样本xtest,计算其对于每个类别Ck的后验概率P(Y=Ck|X=xtest),概率值最大的类别即为待预测样本的预测类别;在数据集中去掉当前数据子集,并判断数据集是否为空,若非空则针对下一数据子集进行分类,若空则结束分类。
优选的,所述对于每一个类别Y=Ck,计算各类别Ck在数据子集中的频率P(Y=Ck)包括:
优选的,所述将数据子集划分成K个子数据子集,分别对属于Ck的子数据子集进行计算,计算出其中第j个特征Xj=ajl的概率P(Xj=ajl|Y=Ck)包括:
其中,ajl为第j个特征的取值之一,第j个特征的取值为{aj1,aj2,...,ajh},h表示第j个特征的取值的个数。
优选的,所述针对待预测样本xtest,计算其对于每个类别Ck的后验概率P(Y=Ck|X=xtest)包括:
优选的,还包括:用户交互模块,用于数据可视化展示、Web界面配置以及应用程序配置。
本发明具备以下有益效果:
1.从电力公司的电力系统中获取需要分类的数据,针对各种特征采用极大似然估计来表示各种分类的概率,再选取概率值最大的类别即为待预测样本的预测类别,能够迅速准确的实现数据的分类;
2.朴素贝叶斯算法也比较简单,算法稳定性强,分类性能不会因为数据的不同而展现差异,具有良好的健壮性。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明实施例一种基于朴素贝叶斯算法的电力数据分类方法的流程图;
图2是本发明实施例一种基于朴素贝叶斯算法的电力数据分类系统的结构图。
具体实施方式
以下结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
本发明的基本思想是从电力公司的电力系统中获取需要分类的数据,针对各种特征采用极大似然估计来表示各种分类的概率,再选取概率值最大的类别即为待预测样本的预测类别。
基于以上构思,本实施例提出一种基于朴素贝叶斯算法的电力数据分类方法,如图1所示,包括:
S1:从电力公司的电力系统中获取数据并生成数据集。
从营销系统、电力管理系统、招投标系统、财务系统等系统中获取相关业务的数据,获取的数据包括电力的销售数据、电力的销售数据等等。
在获取数据之后,对获取的数据根据获取的顺序进行排列生成数据集。
其中,m表示有m个样本,n表示有n个特征,Y={yi|i=1,2,…,m}表示样本所属类别,取值为{C1,C2,…,Ck},k表示有k个样本类别。
在实际获取数据的过程中,数据量往往是逐渐增加的。在面临新的数据时,对一个训练好的模型进行修改的时间代价通常低于重新训练一个模型所需的代价。因此,在本实施例中,采用增量式训练的方法:每当新增数据时,并不需要重建所有的知识库,而是在原有知识库的基础上,仅对由于新增数据所引起的变化进行更新训练,从而提高了训练效率。
S3:对于每一个类别Y=Ck,计算各类别Ck在数据子集中的频率P(Y=Ck)。
S4:将数据子集划分成K个子数据子集,分别对属于Ck的子数据子集进行计算,计算出其中第j个特征Xj=ajl的概率P(Xj=ajl|Y=Ck)。
其中,ajl为第j个特征的取值之一,第j个特征的取值为{aj1,aj2,...,ajh},h表示第j个特征的取值的个数。
S5:针对待预测样本xtest,计算其对于每个类别Ck的后验概率P(Y=Ck|X=xtest),概率值最大的类别即为待预测样本的预测类别;
其中,ajl为第j个特征的取值之一,第j个特征的取值为{aj1,aj2,...,ajh},h表示第j个特征的取值的个数。
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive BayesianModel,NBM)。和决策树模型相比,朴素贝叶斯分类器(Naive Bayes Classifier,或NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单,算法稳定性强,分类性能不会因为数据的不同而展现差异,具有良好的健壮性。
S6:在数据集中去掉当前数据子集,并判断数据集是否为空,若非空则进入步骤S2,若空则结束分类。
对当前的数据子集分类完之后则需要在数据集中剔除,避免对当前的数据子集进行重复的分类,若数据集为空,则说明数据子集已经全部分类,若数据集不为空,则说明数据子集还未全部分类,选取其中的数据子集继续进行分类。
基于上述一种基于朴素贝叶斯算法的电力数据分类方法,相应的,本实施例还提出一种基于朴素贝叶斯算法的电力数据分类系统,如图2所示,包括:分类模块,所述分类模块用于:从电力公司的电力系统中获取业务数据并生成数据集;从数据集中取数据子集,并作增量式训练,所述数据子集其中,m表示有m个样本,n表示有n个特征,Y={yi|i=1,2,…,m}表示样本所属类别,取值为{C1,C2,…,Ck},k表示有k个样本类别;对于每一个类别Y=Ck,计算各类别Ck在数据子集中的频率P(Y=Ck);将数据子集划分成K个子数据子集,分别对属于Ck的子数据子集进行计算,计算出其中第j个特征Xj=ajl的概率P(Xj=ajl|Y=Ck);针对待预测样本xtest,通过朴素贝叶斯算法计算其对于每个类别Ck的后验概率P(Y=Ck|X=xtest),概率值最大的类别即为待预测样本的预测类别;在数据集中去掉当前数据子集,并判断数据集是否为空,若非空则针对下一数据子集进行分类,若空则结束分类。
具体的,对于每一个类别Y=Ck,计算各类别Ck在数据子集中的频率P(Y=Ck)为:
具体的,将数据子集划分成K个子数据子集,分别对属于Ck的子数据子集进行计算,计算出其中第j个特征Xj=ajl的概率P(Xj=ajl|Y=Ck)为:
其中,ajl为第j个特征的取值之一,第j个特征的取值为{aj1,aj2,...,ajh},h表示第j个特征的取值的个数。
具体的,针对待预测样本xtest,通过朴素贝叶斯算法计算其对于每个类别Ck的后验概率P(Y=Ck|X=xtest)为:
需要说明的是,分类模块所实现对数据的分类已经在实施例一种基于朴素贝叶斯算法的电力数据分类方法中详细描述,因此在系统实施例中不再重复说明。
在本实施例中,本系统还包括:用户交互模块,用于数据可视化展示、Web界面配置以及应用程序配置。
在数据实现获取之后,根据实际的需求进行不同的方式进行可视化展示,例如可以生成曲线图、柱状图、条形图、饼图、地图等形式。通过对数据的可视化展示,便于用于的分析、理解,最终让数据变得更加简单,方便交流。
除了上述数据可视化展示之外,用户还可以根据自己的实际需求对用户交互模块的界面进行设定。同时,用户还可以根据自己的实际需求对用户交互模块的应用程序进行配置。
本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (9)
1.基于朴素贝叶斯算法的电力数据分类方法,其特征在于,包括:
S1:从电力公司的电力系统中获取数据并生成数据集;
其中,m表示有m个样本,n表示有n个特征,Y={yi|i=1,2,…,m}表示样本所属类别,取值为{C1,C2,…,Ck},k表示有k个样本类别;
S3:对于每一个类别Y=Ck,计算各类别Ck在数据子集中的频率P(Y=Ck);
S4:将数据子集划分成K个子数据子集,分别对属于Ck的子数据子集进行计算,计算出其中第j个特征Xj=ajl的概率P(Xj=ajl|Y=Ck);
S5:针对待预测样本xtest,计算其对于每个类别Ck的后验概率P(Y=Ck|X=xtest),概率值最大的类别即为待预测样本的预测类别;
S6:在数据集中去掉当前数据子集,并判断数据集是否为空,若非空则进入步骤S2,若空则结束分类。
5.基于朴素贝叶斯算法的电力数据分类系统,其特征在于,包括:分类模块,所述分类模块用于:从电力公司的电力系统中获取业务数据并生成数据集;从数据集中取数据子集,并作增量式训练,所述数据子集其中,m表示有m个样本,n表示有n个特征,Y={yi|i=1,2,…,m}表示样本所属类别,取值为{C1,C2,…,Ck},k表示有k个样本类别;对于每一个类别Y=Ck,计算各类别Ck在数据子集中的频率P(Y=Ck);将数据子集划分成K个子数据子集,分别对属于Ck的子数据子集进行计算,计算出其中第j个特征Xj=ajl的概率P(Xj=ajl|Y=Ck);针对待预测样本xtest,计算其对于每个类别Ck的后验概率P(Y=Ck|X=xtest),概率值最大的类别即为待预测样本的预测类别;在数据集中去掉当前数据子集,并判断数据集是否为空,若非空则针对下一数据子集进行分类,若空则结束分类。
9.根据权利要求6~8任一项所述的基于朴素贝叶斯算法的电力数据分类系统,其特征在于,还包括:用户交互模块,用于数据可视化展示、Web界面配置以及应用程序配置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910865149.9A CN110955811B (zh) | 2019-09-12 | 2019-09-12 | 基于朴素贝叶斯算法的电力数据分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910865149.9A CN110955811B (zh) | 2019-09-12 | 2019-09-12 | 基于朴素贝叶斯算法的电力数据分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110955811A true CN110955811A (zh) | 2020-04-03 |
CN110955811B CN110955811B (zh) | 2023-09-22 |
Family
ID=69976293
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910865149.9A Active CN110955811B (zh) | 2019-09-12 | 2019-09-12 | 基于朴素贝叶斯算法的电力数据分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110955811B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111539657A (zh) * | 2020-05-30 | 2020-08-14 | 国网湖南省电力有限公司 | 结合用户日用电量曲线的典型用电行业负荷特性分类与综合方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180047395A (ko) * | 2016-10-31 | 2018-05-10 | 성균관대학교산학협력단 | 선택 속성의 사전 확률 평가에 기반한 나이브 베이지안 분류기 |
CN108062331A (zh) * | 2016-11-08 | 2018-05-22 | 南京理工大学 | 基于终生学习的增量式朴素贝叶斯文本分类方法 |
CN110070118A (zh) * | 2019-04-10 | 2019-07-30 | 广东电网有限责任公司 | 一种多时空数据融合方法 |
-
2019
- 2019-09-12 CN CN201910865149.9A patent/CN110955811B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180047395A (ko) * | 2016-10-31 | 2018-05-10 | 성균관대학교산학협력단 | 선택 속성의 사전 확률 평가에 기반한 나이브 베이지안 분류기 |
CN108062331A (zh) * | 2016-11-08 | 2018-05-22 | 南京理工大学 | 基于终生学习的增量式朴素贝叶斯文本分类方法 |
CN110070118A (zh) * | 2019-04-10 | 2019-07-30 | 广东电网有限责任公司 | 一种多时空数据融合方法 |
Non-Patent Citations (1)
Title |
---|
胡为成;胡学钢;: "基于遗传算法的朴素贝叶斯分类", 计算机技术与发展, no. 01 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111539657A (zh) * | 2020-05-30 | 2020-08-14 | 国网湖南省电力有限公司 | 结合用户日用电量曲线的典型用电行业负荷特性分类与综合方法 |
CN111539657B (zh) * | 2020-05-30 | 2023-11-24 | 国网湖南省电力有限公司 | 结合用户日用电量曲线的典型用电行业负荷特性分类与综合方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110955811B (zh) | 2023-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657805B (zh) | 超参数确定方法、装置、电子设备及计算机可读介质 | |
CN112639843A (zh) | 使用机器学习模型来抑制偏差数据 | |
CN110796159A (zh) | 基于k-means算法的电力数据分类方法及系统 | |
WO2020154885A1 (zh) | 单细胞类型检测方法、装置、设备和存储介质 | |
CN110502277B (zh) | 一种基于bp神经网络的代码坏味检测方法 | |
CN112990330B (zh) | 用户用能异常数据检测方法及设备 | |
CN107392259B (zh) | 构建不均衡样本分类模型的方法和装置 | |
CN111610407A (zh) | 基于朴素贝叶斯的电缆老化状态评估方法和装置 | |
CN112053223A (zh) | 一种基于ga-svm算法的互联网金融欺诈行为检测方法 | |
CN111046930A (zh) | 一种基于决策树算法的供电服务满意度影响因素识别方法 | |
CN110738232A (zh) | 一种基于数据挖掘技术的电网电压越限成因诊断方法 | |
US20230342606A1 (en) | Training method and apparatus for graph neural network | |
JP2016194914A (ja) | 混合モデル選択の方法及び装置 | |
Chen et al. | Probability distributions for wind speed volatility characteristics: A case study of Northern Norway | |
CN110955811A (zh) | 基于朴素贝叶斯算法的电力数据分类方法及系统 | |
CN106778252B (zh) | 基于粗糙集理论与waode算法的入侵检测方法 | |
CN111221915B (zh) | 基于CWK-means的在线学习资源质量分析方法 | |
Parker et al. | Nonlinear time series classification using bispectrum‐based deep convolutional neural networks | |
CN116825192A (zh) | 一种ncRNA基因突变的解读方法、存储介质及终端 | |
Gajawada et al. | Vinayaka: A semi-supervised projected clustering method using differential evolution | |
CN116227939A (zh) | 基于图卷积神经网络和em算法的企业信用评级方法和装置 | |
CN111274123A (zh) | 基于软件基因的安全防护软件测试集自动生成方法、架构 | |
CN112860531B (zh) | 基于深度异构图神经网络的区块链广泛共识性能评测方法 | |
CN112463964B (zh) | 文本分类及模型训练方法、装置、设备及存储介质 | |
CN115081515A (zh) | 能效评价模型构建方法、装置、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20200930 Address after: 310000, No. 219, Jianguo Middle Road, Shangcheng District, Zhejiang, Hangzhou Applicant after: HANGZHOU POWER SUPPLY COMPANY, STATE GRID ZHEJIANG ELECTRIC POWER Co.,Ltd. Applicant after: ZHEJIANG ZHONGXIN ELECTRIC POWER ENGINEERING CONSTRUCTION Co.,Ltd. Address before: 310000, No. 219, Jianguo Middle Road, Shangcheng District, Zhejiang, Hangzhou Applicant before: HANGZHOU POWER SUPPLY COMPANY, STATE GRID ZHEJIANG ELECTRIC POWER Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |