CN114912548B - 一种利用电力人工智能的大气污染用户识别系统及方法 - Google Patents

一种利用电力人工智能的大气污染用户识别系统及方法 Download PDF

Info

Publication number
CN114912548B
CN114912548B CN202210807370.0A CN202210807370A CN114912548B CN 114912548 B CN114912548 B CN 114912548B CN 202210807370 A CN202210807370 A CN 202210807370A CN 114912548 B CN114912548 B CN 114912548B
Authority
CN
China
Prior art keywords
algorithm
user
fusion
training
cnn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210807370.0A
Other languages
English (en)
Other versions
CN114912548A (zh
Inventor
秦余
李强
张晓航
邱镇
黄晓光
白景坡
王兴涛
卢大玮
李文璞
靳敏
李小宁
徐凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Siji Location Service Co ltd
State Grid Information and Telecommunication Co Ltd
Original Assignee
State Grid Information and Telecommunication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Information and Telecommunication Co Ltd filed Critical State Grid Information and Telecommunication Co Ltd
Priority to CN202210807370.0A priority Critical patent/CN114912548B/zh
Publication of CN114912548A publication Critical patent/CN114912548A/zh
Application granted granted Critical
Publication of CN114912548B publication Critical patent/CN114912548B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Emergency Alarm Devices (AREA)

Abstract

本申请公开了一种利用电力人工智能的大气污染用户识别系统及方法,主要涉及人工智能技术领域,用以解决现有的方法对大气污染用户误判率较高、特征无法充分表征数据中信息量等问题。包括:数据预处理模块,用于进行原始用户用电数据的缺失补全;获得离散特征和连续特征;获得最终用户用电数据;污染预测模块,用于将最终用户用电数据分为训练集和验证集,并转化成深度网络训练输入格式;完成CNN算法和LightGBM算法的训练;获得融合算法;通过融合算法,获得用户是污染用户的概率。本申请通过上述方法提升了大气污染用户预测精度,降低了误报率,并且在不同验证集上具有鲁棒性。

Description

一种利用电力人工智能的大气污染用户识别系统及方法
技术领域
本申请涉及人工智能技术领域,尤其涉及一种利用电力人工智能的大气污染用户识别系统及方法。
背景技术
随着工业技术的快速发展,环境污染问题引发社会关注。加强污染防治和生态建设,需要坚持以数据化创新驱动环境质量改善。随着电力全覆盖和碳排放在线实时监视终端的部署与推进,开始利用电力大数据进行大气污染排放用户识别。
现阶段,利用电力大数据进行大气污染用户识别的方法主要有:(1)基于污染企业的用电规律进行用电阈值设定以违规生产研判的方案,但是由于使用时存在日常非生产用电数据干扰,导致误判率较高;(2)利用负荷预测进行大气污染排放预测的方案不能直接识别超限排放用户,但是还需要通过污染排放预测结果进一步识别用户;(3)利用机器学习算法,但从用户用电信息中构建特征时,无法解决使特征可以充分表征数据中信息量,但又不对算法造成误导这一问题。
发明内容
针对现有技术的上述不足,本发明提供一种利用电力人工智能的大气污染用户识别系统及方法,以解决上述技术问题。
第一方面,本申请提供了一种利用电力人工智能的大气污染用户识别系统,系统包括:数据预处理模块,用于将原始用户用电数据导入训练好的SMOTE算法,基于预设Over-sampling少数类和预设Under-sampling多数类,进行原始用户用电数据的缺失补全;将补全好的用户用电数据导入随机森林算法进行特征排序,以获得离散特征和连续特征;对离散特征进行one-hot编码处理,对连续特征进行归一化处理,以获得最终用户用电数据;污染预测模块,用于将最终用户用电数据分为训练集和验证集,并转化成深度网络训练输入格式;基于训练集和验证集,完成CNN算法和LightGBM算法的训练;完成训练好的CNN算法和LightGBM算法的算法融合,以获得融合算法;通过融合算法,获得用户是污染用户的概率。
进一步地,污染预测模型包含CNN算法单元;CNN算法单元,用于将训练集导入CNN算法,以通过CNN算法中四个卷积核大小为3的卷积层、预设激活函数、两个全连接层,输出训练集对应的预测数据;确定预测数据的准确率,当准确率大于预设阈值时,确定CNN算法训练完成。
进一步地,卷积层的通道数分别为32、64、128、128,且每个卷积层后连接一个池化层。
进一步地,污染预测模块包括第一融合单元;第一融合单元,用于通过Bagging算法完成训练好的CNN算法和LightGBM算法的算法融合。
进一步地,污染预测模块包括第二融合单元;第二融合单元,用于通过Boostin算法完成训练好的CNN算法和LightGBM算法的算法融合。
第二方面,本申请提供了一种利用电力人工智能的大气污染用户识别方法,方法包括:将原始用户用电数据导入训练好的SMOTE算法,基于预设Over-sampling少数类和预设Under-sampling多数类,进行原始用户用电数据的缺失补全;将补全好的用户用电数据导入随机森林算法进行特征排序,以获得离散特征和连续特征;对离散特征进行one-hot编码处理,对连续特征进行归一化处理,以获得最终用户用电数据;将最终用户用电数据分为训练集和验证集,并转化成深度网络训练输入格式;基于训练集和验证集,完成CNN算法和LightGBM算法的训练;完成训练好的CNN算法和LightGBM算法的算法融合,以获得融合算法;通过融合算法,获得用户是污染用户的概率。
进一步地,基于训练集和验证集,完成CNN算法和LightGBM算法的训练,具体包括:将训练集导入CNN算法,以通过CNN算法中四个卷积核大小为3的卷积层、预设激活函数、两个全连接层,输出训练集对应的预测数据;确定预测数据的准确率,当准确率大于预设阈值时,确定CNN算法训练完成。
进一步地,完成训练好的CNN算法和LightGBM算法的算法融合,具体包括:通过Bagging算法完成训练好的CNN算法和LightGBM算法的算法融合;或,通过Boostin算法完成训练好的CNN算法和LightGBM算法的算法融合。
本领域技术人员能够理解的是,本申请至少具有如下有益效果:本申请提出一种利用电力人工智能的大气污染用户识别系统及方法,包括数据预处理模块、污染预测模块,主要采用了LightGBM机器算法和CNN深度学习算法,然后通过Boosting算法或Boostin算法进行算法融合。在测试数据上进行测试,验证了现有方案相较于现有方案大大提升了大气污染用户预测精度,降低了误报率,并且在不同验证集上具有鲁棒性。本申请将机器学习算法和深度学习算法的结果进行线性加权融合,多模型融合大大提升了单一算法的准确性。机器学习擅长对分类数据进行建模,深度学习可以自主充分地挖掘连续数据中的特征,本申请创新性地对不同类型的数据采用不同的建模方式,综合利用机器学习算法和深度学习算法,充分了解挖掘数据中的有用信息。
附图说明
下面参照附图来描述本公开的部分实施例,附图中:
图1是本申请实施例提供的一种利用电力人工智能的大气污染用户识别系统内部结构示意图。
图2是本申请实施例提供的一种利用电力人工智能的大气污染用户识别方法流程图。
具体实施方式
本领域技术人员应当理解的是,下文所描述的实施例仅仅是本公开的优选实施例,并不表示本公开仅能通过该优选实施例实现,该优选实施例仅仅是用于解释本公开的技术原理,并非用于限制本公开的保护范围。基于本公开提供的优选实施例,本领域普通技术人员在没有付出创造性劳动的情况下所获得的其它所有实施例,仍应落入到本公开的保护范围之内。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
下面通过附图对本申请实施例提出的技术方案进行详细的说明。
图1为本申请实施例提供的一种利用电力人工智能的大气污染用户识别系统。如图1所示,本申请实施例提供的系统,主要包括:数据预处理模块110、污染预测模块120。
其中,数据预处理模块110,用于将原始用户用电数据导入训练好的SMOTE算法,基于预设Over-sampling少数类和预设Under-sampling多数类,进行原始用户用电数据的缺失补全;将补全好的用户用电数据导入随机森林算法进行特征排序,以获得离散特征和连续特征;对离散特征进行one-hot编码处理,对连续特征进行归一化处理,以获得最终用户用电数据。
其中,污染预测模块120,用于将最终用户用电数据分为训练集和验证集,并转化成深度网络训练输入格式;基于训练集和验证集,完成CNN算法和LightGBM算法的训练;完成训练好的CNN算法和LightGBM算法的算法融合,以获得融合算法;通过融合算法,获得用户是污染用户的概率。
污染预测模型120包含CNN算法单元121;CNN算法单元121,用于将训练集导入CNN算法,以通过CNN算法中四个卷积核大小为3的卷积层、预设激活函数、两个全连接层,输出训练集对应的预测数据;确定预测数据的准确率,当准确率大于预设阈值时,确定CNN算法训练完成。其中,卷积层的通道数可以分别为32、64、128、128,且每个卷积层后连接一个池化层。
完成训练好的CNN算法和LightGBM算法的算法融合,可以为任意可行的方法:
作为示例一地,污染预测模块120包括第一融合单元122;第一融合单元122,用于通过Bagging算法完成训练好的CNN算法和LightGBM算法的算法融合。
作为示例二地,污染预测模块120包括第二融合单元123;第二融合单元123,用于通过Boostin算法完成训练好的CNN算法和LightGBM算法的算法融合。
除此之外,本申请实施例还提供了一种利用电力人工智能的大气污染用户识别方法,如图2所示,本申请实施例提供的方法,主要包括以下步骤:
步骤210、将原始用户用电数据导入训练好的SMOTE算法,基于预设Over-sampling少数类和预设Under-sampling多数类,进行原始用户用电数据的缺失补全;将补全好的用户用电数据导入随机森林算法进行特征排序,以获得离散特征和连续特征;对离散特征进行one-hot编码处理,对连续特征进行归一化处理,以获得最终用户用电数据。
作为示例地,基于训练集和验证集,完成CNN算法和LightGBM算法的训练,具体包括:将训练集导入CNN算法,以通过CNN算法中四个卷积核大小为3的卷积层、预设激活函数、两个全连接层,输出训练集对应的预测数据;确定预测数据的准确率,当准确率大于预设阈值时,确定CNN算法训练完成。
步骤220、将最终用户用电数据分为训练集和验证集,并转化成深度网络训练输入格式;基于训练集和验证集,完成CNN算法和LightGBM算法的训练;完成训练好的CNN算法和LightGBM算法的算法融合,以获得融合算法;通过融合算法,获得用户是污染用户的概率。
作为示例地,完成训练好的CNN算法和LightGBM算法的算法融合,具体包括:通过Bagging算法完成训练好的CNN算法和LightGBM算法的算法融合;或,通过Boostin算法完成训练好的CNN算法和LightGBM算法的算法融合。
至此,已经结合前文的多个实施例描述了本公开的技术方案,但是,本领域技术人员容易理解的是,本公开的保护范围并不仅限于这些具体实施例。在不偏离本公开技术原理的前提下,本领域技术人员可以对上述各个实施例中的技术方案进行拆分和组合,也可以对相关技术特征作出等同的更改或替换,凡在本公开的技术构思和/或技术原理之内所做的任何更改、等同替换、改进等都将落入本公开的保护范围之内。

Claims (5)

1.一种利用电力人工智能的大气污染用户识别系统,其特征在于,所述系统包括:
数据预处理模块,用于将原始用户用电数据导入训练好的SMOTE算法,基于预设Over-sampling少数类和预设Under-sampling多数类,进行原始用户用电数据的缺失补全;将补全好的用户用电数据导入随机森林算法进行特征排序,以获得离散特征和连续特征;对离散特征进行one-hot编码处理,对连续特征进行归一化处理,以获得最终用户用电数据;
污染预测模块,用于将最终用户用电数据分为训练集和验证集,并转化成深度网络训练输入格式;基于训练集和验证集,完成CNN算法和LightGBM算法的训练;完成训练好的CNN算法和LightGBM算法的算法融合,以获得融合算法;通过所述融合算法,获得用户是污染用户的概率;其中,污染预测模块包括第一融合单元;所述第一融合单元,用于通过Bagging算法完成训练好的CNN算法和LightGBM算法的算法融合;污染预测模块还包括第二融合单元;所述第二融合单元,用于通过Boostin算法完成训练好的CNN算法和LightGBM算法的算法融合。
2.根据权利要求1所述的利用电力人工智能的大气污染用户识别系统,其特征在于,污染预测模型包含CNN算法单元;
所述CNN算法单元,用于将训练集导入CNN算法,以通过CNN算法中四个卷积核大小为3的卷积层、预设激活函数、两个全连接层,输出训练集对应的预测数据;确定所述预测数据的准确率,当所述准确率大于预设阈值时,确定CNN算法训练完成。
3.根据权利要求2所述的利用电力人工智能的大气污染用户识别系统,其特征在于,
所述卷积层的通道数分别为32、64、128、128,且每个卷积层后连接一个池化层。
4.一种利用电力人工智能的大气污染用户识别方法,其特征在于,所述方法包括:
将原始用户用电数据导入训练好的SMOTE算法,基于预设Over-sampling少数类和预设Under-sampling多数类,进行原始用户用电数据的缺失补全;将补全好的用户用电数据导入随机森林算法进行特征排序,以获得离散特征和连续特征;对离散特征进行one-hot编码处理,对连续特征进行归一化处理,以获得最终用户用电数据;
将最终用户用电数据分为训练集和验证集,并转化成深度网络训练输入格式;基于训练集和验证集,完成CNN算法和LightGBM算法的训练;完成训练好的CNN算法和LightGBM算法的算法融合,以获得融合算法;通过所述融合算法,获得用户是污染用户的概率;
其中,完成训练好的CNN算法和LightGBM算法的算法融合,具体包括:通过Bagging算法完成训练好的CNN算法和LightGBM算法的算法融合;或,通过Boostin算法完成训练好的CNN算法和LightGBM算法的算法融合。
5.根据权利要求4所述的利用电力人工智能的大气污染用户识别方法,其特征在于,基于训练集和验证集,完成CNN算法和LightGBM算法的训练,具体包括:
将训练集导入CNN算法,以通过CNN算法中四个卷积核大小为3的卷积层、预设激活函数、两个全连接层,输出训练集对应的预测数据;确定所述预测数据的准确率,当所述准确率大于预设阈值时,确定CNN算法训练完成。
CN202210807370.0A 2022-07-11 2022-07-11 一种利用电力人工智能的大气污染用户识别系统及方法 Active CN114912548B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210807370.0A CN114912548B (zh) 2022-07-11 2022-07-11 一种利用电力人工智能的大气污染用户识别系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210807370.0A CN114912548B (zh) 2022-07-11 2022-07-11 一种利用电力人工智能的大气污染用户识别系统及方法

Publications (2)

Publication Number Publication Date
CN114912548A CN114912548A (zh) 2022-08-16
CN114912548B true CN114912548B (zh) 2022-10-25

Family

ID=82772049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210807370.0A Active CN114912548B (zh) 2022-07-11 2022-07-11 一种利用电力人工智能的大气污染用户识别系统及方法

Country Status (1)

Country Link
CN (1) CN114912548B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298369A (zh) * 2018-03-21 2019-10-01 中国电力科学研究院有限公司 一种电力系统不良数据的辨识方法及系统
CN110426996A (zh) * 2019-07-12 2019-11-08 张鹏 基于大数据及人工智能的环境污染监测方法
CN113902166A (zh) * 2021-09-07 2022-01-07 南方电网大数据服务有限公司 大数据融合碳排放治理、预测分析模型方法
CN114169424A (zh) * 2021-12-03 2022-03-11 国网浙江省电力有限公司杭州供电公司 基于k近邻回归算法和用电数据的排污量预测方法
CN114202179A (zh) * 2021-11-30 2022-03-18 国网北京市电力公司 目标企业的识别方法以及装置
CN114298381A (zh) * 2021-12-08 2022-04-08 甘肃同兴智能科技发展有限责任公司 一种基于电力数据的能源行业碳排放预测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298369A (zh) * 2018-03-21 2019-10-01 中国电力科学研究院有限公司 一种电力系统不良数据的辨识方法及系统
CN110426996A (zh) * 2019-07-12 2019-11-08 张鹏 基于大数据及人工智能的环境污染监测方法
CN113902166A (zh) * 2021-09-07 2022-01-07 南方电网大数据服务有限公司 大数据融合碳排放治理、预测分析模型方法
CN114202179A (zh) * 2021-11-30 2022-03-18 国网北京市电力公司 目标企业的识别方法以及装置
CN114169424A (zh) * 2021-12-03 2022-03-11 国网浙江省电力有限公司杭州供电公司 基于k近邻回归算法和用电数据的排污量预测方法
CN114298381A (zh) * 2021-12-08 2022-04-08 甘肃同兴智能科技发展有限责任公司 一种基于电力数据的能源行业碳排放预测方法

Also Published As

Publication number Publication date
CN114912548A (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
CN111967512B (zh) 一种异常用电检测方法、系统和存储介质
CN103076547B (zh) 基于支持向量机的gis局部放电故障类型模式识别方法
CN106940679A (zh) 数据处理方法及装置
CN107835496A (zh) 一种垃圾短信的识别方法、装置和服务器
CN110909224B (zh) 一种基于人工智能的敏感数据自动分类识别方法及系统
CN109165275B (zh) 基于深度学习的智能变电站操作票信息智能搜索匹配方法
CN109446804B (zh) 一种基于多尺度特征连接卷积神经网络的入侵检测方法
CN111970400B (zh) 骚扰电话识别方法及装置
CN110837874B (zh) 基于时间序列分类的业务数据异常检测方法
CN110751191A (zh) 一种图像的分类方法及系统
CN115222303B (zh) 基于大数据的行业风险数据分析方法、系统及存储介质
CN114760172A (zh) 射频基带综合特征信号识别方法与装置
CN110390440B (zh) 一种基于聚类和深度神经网络的智能电表用户聚合负荷预测方法
CN115758151A (zh) 联合诊断模型建立方法、光伏组件故障诊断方法
CN113628043B (zh) 基于数据分类的投诉有效性判断方法、装置、设备及介质
CN114912548B (zh) 一种利用电力人工智能的大气污染用户识别系统及方法
CN113033089B (zh) 用电量异常用户识别方法和装置
CN116756225B (zh) 一种基于计算机网络安全的态势数据信息处理方法
CN110349050B (zh) 一种基于电网参数关键特征抽取的智能窃电判据方法及装置
CN114723554B (zh) 异常账户识别方法及装置
CN115879030A (zh) 一种针对配电网的网络攻击分类方法和系统
CN114707174A (zh) 一种数据处理方法、装置、电子设备和存储介质
CN110650130B (zh) 基于多分类GoogLeNet-LSTM模型的工控入侵检测方法
CN112966296A (zh) 基于规则配置和机器学习的敏感信息过滤方法和系统
CN111967577A (zh) 一种基于变分自编码器的能源互联网场景生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230823

Address after: 102211 State Grid Park of Beiqijia future science and Technology City, Changping District, Beijing

Patentee after: STATE GRID INFORMATION & TELECOMMUNICATION GROUP Co.,Ltd.

Patentee after: State Grid Siji Location Service Co.,Ltd.

Address before: 102211 Beijing Changping District Future Science and Technology City North District State Grid Smart Grid Research Institute C Block 4 Layer

Patentee before: STATE GRID INFORMATION & TELECOMMUNICATION GROUP Co.,Ltd.

TR01 Transfer of patent right