一种利用电力人工智能的大气污染用户识别系统及方法
技术领域
本申请涉及人工智能技术领域,尤其涉及一种利用电力人工智能的大气污染用户识别系统及方法。
背景技术
随着工业技术的快速发展,环境污染问题引发社会关注。加强污染防治和生态建设,需要坚持以数据化创新驱动环境质量改善。随着电力全覆盖和碳排放在线实时监视终端的部署与推进,开始利用电力大数据进行大气污染排放用户识别。
现阶段,利用电力大数据进行大气污染用户识别的方法主要有:(1)基于污染企业的用电规律进行用电阈值设定以违规生产研判的方案,但是由于使用时存在日常非生产用电数据干扰,导致误判率较高;(2)利用负荷预测进行大气污染排放预测的方案不能直接识别超限排放用户,但是还需要通过污染排放预测结果进一步识别用户;(3)利用机器学习算法,但从用户用电信息中构建特征时,无法解决使特征可以充分表征数据中信息量,但又不对算法造成误导这一问题。
发明内容
针对现有技术的上述不足,本发明提供一种利用电力人工智能的大气污染用户识别系统及方法,以解决上述技术问题。
第一方面,本申请提供了一种利用电力人工智能的大气污染用户识别系统,系统包括:数据预处理模块,用于将原始用户用电数据导入训练好的SMOTE算法,基于预设Over-sampling少数类和预设Under-sampling多数类,进行原始用户用电数据的缺失补全;将补全好的用户用电数据导入随机森林算法进行特征排序,以获得离散特征和连续特征;对离散特征进行one-hot编码处理,对连续特征进行归一化处理,以获得最终用户用电数据;污染预测模块,用于将最终用户用电数据分为训练集和验证集,并转化成深度网络训练输入格式;基于训练集和验证集,完成CNN算法和LightGBM算法的训练;完成训练好的CNN算法和LightGBM算法的算法融合,以获得融合算法;通过融合算法,获得用户是污染用户的概率。
进一步地,污染预测模型包含CNN算法单元;CNN算法单元,用于将训练集导入CNN算法,以通过CNN算法中四个卷积核大小为3的卷积层、预设激活函数、两个全连接层,输出训练集对应的预测数据;确定预测数据的准确率,当准确率大于预设阈值时,确定CNN算法训练完成。
进一步地,卷积层的通道数分别为32、64、128、128,且每个卷积层后连接一个池化层。
进一步地,污染预测模块包括第一融合单元;第一融合单元,用于通过Bagging算法完成训练好的CNN算法和LightGBM算法的算法融合。
进一步地,污染预测模块包括第二融合单元;第二融合单元,用于通过Boostin算法完成训练好的CNN算法和LightGBM算法的算法融合。
第二方面,本申请提供了一种利用电力人工智能的大气污染用户识别方法,方法包括:将原始用户用电数据导入训练好的SMOTE算法,基于预设Over-sampling少数类和预设Under-sampling多数类,进行原始用户用电数据的缺失补全;将补全好的用户用电数据导入随机森林算法进行特征排序,以获得离散特征和连续特征;对离散特征进行one-hot编码处理,对连续特征进行归一化处理,以获得最终用户用电数据;将最终用户用电数据分为训练集和验证集,并转化成深度网络训练输入格式;基于训练集和验证集,完成CNN算法和LightGBM算法的训练;完成训练好的CNN算法和LightGBM算法的算法融合,以获得融合算法;通过融合算法,获得用户是污染用户的概率。
进一步地,基于训练集和验证集,完成CNN算法和LightGBM算法的训练,具体包括:将训练集导入CNN算法,以通过CNN算法中四个卷积核大小为3的卷积层、预设激活函数、两个全连接层,输出训练集对应的预测数据;确定预测数据的准确率,当准确率大于预设阈值时,确定CNN算法训练完成。
进一步地,完成训练好的CNN算法和LightGBM算法的算法融合,具体包括:通过Bagging算法完成训练好的CNN算法和LightGBM算法的算法融合;或,通过Boostin算法完成训练好的CNN算法和LightGBM算法的算法融合。
本领域技术人员能够理解的是,本申请至少具有如下有益效果:本申请提出一种利用电力人工智能的大气污染用户识别系统及方法,包括数据预处理模块、污染预测模块,主要采用了LightGBM机器算法和CNN深度学习算法,然后通过Boosting算法或Boostin算法进行算法融合。在测试数据上进行测试,验证了现有方案相较于现有方案大大提升了大气污染用户预测精度,降低了误报率,并且在不同验证集上具有鲁棒性。本申请将机器学习算法和深度学习算法的结果进行线性加权融合,多模型融合大大提升了单一算法的准确性。机器学习擅长对分类数据进行建模,深度学习可以自主充分地挖掘连续数据中的特征,本申请创新性地对不同类型的数据采用不同的建模方式,综合利用机器学习算法和深度学习算法,充分了解挖掘数据中的有用信息。
附图说明
下面参照附图来描述本公开的部分实施例,附图中:
图1是本申请实施例提供的一种利用电力人工智能的大气污染用户识别系统内部结构示意图。
图2是本申请实施例提供的一种利用电力人工智能的大气污染用户识别方法流程图。
具体实施方式
本领域技术人员应当理解的是,下文所描述的实施例仅仅是本公开的优选实施例,并不表示本公开仅能通过该优选实施例实现,该优选实施例仅仅是用于解释本公开的技术原理,并非用于限制本公开的保护范围。基于本公开提供的优选实施例,本领域普通技术人员在没有付出创造性劳动的情况下所获得的其它所有实施例,仍应落入到本公开的保护范围之内。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
下面通过附图对本申请实施例提出的技术方案进行详细的说明。
图1为本申请实施例提供的一种利用电力人工智能的大气污染用户识别系统。如图1所示,本申请实施例提供的系统,主要包括:数据预处理模块110、污染预测模块120。
其中,数据预处理模块110,用于将原始用户用电数据导入训练好的SMOTE算法,基于预设Over-sampling少数类和预设Under-sampling多数类,进行原始用户用电数据的缺失补全;将补全好的用户用电数据导入随机森林算法进行特征排序,以获得离散特征和连续特征;对离散特征进行one-hot编码处理,对连续特征进行归一化处理,以获得最终用户用电数据。
其中,污染预测模块120,用于将最终用户用电数据分为训练集和验证集,并转化成深度网络训练输入格式;基于训练集和验证集,完成CNN算法和LightGBM算法的训练;完成训练好的CNN算法和LightGBM算法的算法融合,以获得融合算法;通过融合算法,获得用户是污染用户的概率。
污染预测模型120包含CNN算法单元121;CNN算法单元121,用于将训练集导入CNN算法,以通过CNN算法中四个卷积核大小为3的卷积层、预设激活函数、两个全连接层,输出训练集对应的预测数据;确定预测数据的准确率,当准确率大于预设阈值时,确定CNN算法训练完成。其中,卷积层的通道数可以分别为32、64、128、128,且每个卷积层后连接一个池化层。
完成训练好的CNN算法和LightGBM算法的算法融合,可以为任意可行的方法:
作为示例一地,污染预测模块120包括第一融合单元122;第一融合单元122,用于通过Bagging算法完成训练好的CNN算法和LightGBM算法的算法融合。
作为示例二地,污染预测模块120包括第二融合单元123;第二融合单元123,用于通过Boostin算法完成训练好的CNN算法和LightGBM算法的算法融合。
除此之外,本申请实施例还提供了一种利用电力人工智能的大气污染用户识别方法,如图2所示,本申请实施例提供的方法,主要包括以下步骤:
步骤210、将原始用户用电数据导入训练好的SMOTE算法,基于预设Over-sampling少数类和预设Under-sampling多数类,进行原始用户用电数据的缺失补全;将补全好的用户用电数据导入随机森林算法进行特征排序,以获得离散特征和连续特征;对离散特征进行one-hot编码处理,对连续特征进行归一化处理,以获得最终用户用电数据。
作为示例地,基于训练集和验证集,完成CNN算法和LightGBM算法的训练,具体包括:将训练集导入CNN算法,以通过CNN算法中四个卷积核大小为3的卷积层、预设激活函数、两个全连接层,输出训练集对应的预测数据;确定预测数据的准确率,当准确率大于预设阈值时,确定CNN算法训练完成。
步骤220、将最终用户用电数据分为训练集和验证集,并转化成深度网络训练输入格式;基于训练集和验证集,完成CNN算法和LightGBM算法的训练;完成训练好的CNN算法和LightGBM算法的算法融合,以获得融合算法;通过融合算法,获得用户是污染用户的概率。
作为示例地,完成训练好的CNN算法和LightGBM算法的算法融合,具体包括:通过Bagging算法完成训练好的CNN算法和LightGBM算法的算法融合;或,通过Boostin算法完成训练好的CNN算法和LightGBM算法的算法融合。
至此,已经结合前文的多个实施例描述了本公开的技术方案,但是,本领域技术人员容易理解的是,本公开的保护范围并不仅限于这些具体实施例。在不偏离本公开技术原理的前提下,本领域技术人员可以对上述各个实施例中的技术方案进行拆分和组合,也可以对相关技术特征作出等同的更改或替换,凡在本公开的技术构思和/或技术原理之内所做的任何更改、等同替换、改进等都将落入本公开的保护范围之内。