CN116484289A - 一种碳排放异常数据检测方法、终端及存储介质 - Google Patents

一种碳排放异常数据检测方法、终端及存储介质 Download PDF

Info

Publication number
CN116484289A
CN116484289A CN202310371066.0A CN202310371066A CN116484289A CN 116484289 A CN116484289 A CN 116484289A CN 202310371066 A CN202310371066 A CN 202310371066A CN 116484289 A CN116484289 A CN 116484289A
Authority
CN
China
Prior art keywords
data
abnormal
carbon emission
distance
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310371066.0A
Other languages
English (en)
Inventor
程锦闽
汪惟源
胡伟
刘柏良
俞天
刘海璇
刘瑜俊
孙檬檬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Branch Of China Electric Power Research Institute Co ltd
State Grid Jiangsu Electric Power Co Ltd
Original Assignee
Nanjing Branch Of China Electric Power Research Institute Co ltd
State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Branch Of China Electric Power Research Institute Co ltd, State Grid Jiangsu Electric Power Co Ltd filed Critical Nanjing Branch Of China Electric Power Research Institute Co ltd
Priority to CN202310371066.0A priority Critical patent/CN116484289A/zh
Publication of CN116484289A publication Critical patent/CN116484289A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/80Management or planning
    • Y02P90/84Greenhouse gas [GHG] management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种碳排放异常数据检测方法、终端及存储介质,对碳排系统的数据处理后训练一个基于场景的支持向量机,用于对碳排系统监测的实时数据进行分析,检测是否存在异常数据。本发明构造了用于碳排放异常数据检测的SVM分类器模型,采集碳排放历史数据,通过步骤S2对数据标注正常或异常的标签,训练构建的SVM模型,最后用训练好的SVM对实时产生的碳排数据进行异常分类检测,有利于对海量碳排放数据进行有效控制,检测出异常数据。

Description

一种碳排放异常数据检测方法、终端及存储介质
技术领域
本发明属于数据处理技术领域,涉及碳排放数据的分析处理,为一种碳排放异常数据检测方法。
背景技术
由于碳排放,尤其是城市碳排放的复杂性,导致现有技术手段无法准确量化城市碳排放水平,同时也缺乏对碳排放数据异常分析的能力,无法精准地从宏观微观层面进行碳排放异常分析。
近年来,对于碳排放异常数据的检测问题引起了很大的重视,目前应用较多的方法包括神经网络算法、支持向量机算法、随机森林算法、基于数据挖掘的数据异常识别算法等等,以上这些算法都具有一定的局限性,无法同时实现检测精度和效率的双重目标。在数据量确定的情况下,这些算法尚能完成识别,但是在实际应用中,数据的长度都是不同的,且数据具有极高的流动性和多样性,历史数据具有的可依赖性极低,因此传统算法获得的数据判断阈值存在较大误差,导致传统算法存在严重误报和漏报情况。针对上述情况,本发明提出一种基于Condition-Based SVM(基于场景的支持向量机)的碳排放异常数据检测算法。
发明内容
本发明要解决的问题是:为了对海量异构碳排放数据进行检测出异常数据,提出一种碳排放异常数据检测方法。
本发明的技术方案为:一种碳排放异常数据检测方法,采用基于场景的支持向量机,对碳排系统监测的数据进行分析,检测是否存在异常数据,包括以下步骤:
步骤S1:数据预处理,对碳排系统监测得到的数据进行归一化处理;
步骤S2:根据三个存在递归关系的场景对预处理后的数据进行特征向量提取,三个场景依次为基于数据取值特性、变量间相关性、以及数据变化特性,递归关系如下:
第一级特征向量判断为:设定数据的取值范围,判断数据是否包含该取值范围或在特定的时间段内有该取值范围,若无,确定为异常数据;若有,则进入第二级特征向量判断,利用距离度量学习来进一步筛选异常数据,求解出正常数据集的度量矩阵,所述经过第一级判断,具有特定取值范围的数据集合,利用度量矩阵计算测试样本的距离,取正常数据的最远距离为阈值,若样本距离超过阈值,则确定为异常数据;若小于阈值,则进入第三级特征向量判断,此时,监测数据为时间间隔相等的时间序列,若前后时刻数据存在突变,则确定为异常数据;若前后数据变化相同,则确定为正常数据;
步骤S3:选取训练样本和预测样本:根据步骤S2对选取的检测样本标注标签,将其划分为训练样本集和测试样本集;
步骤S4:模型选择:选择RBF作为核函数,利用网格搜索和交叉验证方法来选取核参数c和惩罚因子g;
步骤S5:构造SVM分类器模型;利用步骤S4选取的核函数和最佳参数对选取的训练样本集进行训练,构造碳排放异常数据检测的SVM分类器模型;
步骤S6:用训练后的SVM分类器模型对预测样本数据进行识别分类,即将数据分类两类:异常数据或正常数据,从而实现异常数据检测。
本发明还提供一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征是所述处理器执行所述计算机程序时实现上述的碳排放异常数据检测方法。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征是所述计算机程序被处理器执行时实现上述的碳排放异常数据检测方法。
本发明的有益效果为:本发明构造了用于碳排放异常数据检测的SVM分类器模型,采集碳排放历史数据,通过步骤S2对数据标注正常或异常的标签,训练构建的SVM模型,最后用训练好的SVM对实时产生的碳排数据进行异常分类检测,有利于对海量碳排放数据进行有效控制,检测出异常数据。
附图说明
图1为本发明碳排放异常数据检测方法的流程图。
图2为本发明方法中特征向量提取的流程图。
具体实施方式
如图1所示,采用基于场景的支持向量机,对碳排系统监测的数据进行分析,检测是否存在异常数据,包括以下步骤。
步骤S1:数据预处理;以碳排监测得到的数据作为检测样本,对检测样本进行归一化处理。
步骤S2:进行特征提取;基于数据取值特性、变量间相关性、数据变化特性三个场景进行特征值提取。三个场景依次存在递归关系。
表1数据特征向量描述
如图2所示,本发明特征向量的提取流程如下。
(1)第一级特征向量为(特定时间段)数据的取值范围,即阈值m,取样本数据的阈值,判断数据本身是否在该特定取值范围内或在特定的时间段内是否在该取值范围内。若否,可确定为异常数据。
(2)若是,则进入第二级特征向量值判断。利用距离度量学习来筛选异常数据。通过学习得到一个能够有效反映数据样本间的距离或者相似度的度量矩阵,用于衡量个体在空间上存在的距离,距离越远说明个体间的差异越大。
本发明利用基于最大化分类边际的非成对约束距离度量学习算法,在正常数据样本中使用类别或三元组等非成对约束信息作为先验知识,利用最大化不同类别边际距离的思想,来学习度量矩阵的一类距离度量学习算法。
具体算法如下:表示n个样本组成的训练集,其中输入xi对应的类别标签为yi。使用标量yij∈{0,1}表示类别标签yi和yj是否匹配,且需要学习一个线性转换L:Rd→Rd进行如下距离度量:
dM(xi,xj)=(xi-xj)TM(xi-xj)=||L(xi-xj)||2 (3-1)
其中,M=LTL。
对任一输入样本xi,其目标邻居定义为符合下列条件的输入样本:1)与xi存在着相同类别标签yi;2)通过式(3-1)计算与xi有着最小距离的输入样本。对于样本xi,可以指定k个目标邻居。采用标量ηi,j∈{0,1},当ηi,j=1时,表示xj是xi的目标邻居;yi,j=1时,表示xi与xj属于同一类。二元组yi,j和ηi,j均是固定的,即在学习过程中不会改变。
根据最大化分类编辑思想得到目标函数:
ε(L)=∑ijηi,j||L(xi-xj)||2+c∑ijl(1-yil)×[1+||L(xi-xj)||2-||L(xi-xl)||2]+ (3-2)
其中,[z]+=max(z,0)且c是某个正常数。
式(3-2)中等号右边第1项调整所有输入样本与目标邻居间距离,通过最小化该项是的输入样本与目标邻居间距离尽可能小;第2项调整不同类别间的边际距离,通过最小化该项使得边际距离最大化。
为了便于在更大的可行域内求解,引入松弛变量ξijl,式(3-2)转化为求解下列半正定规划问题:
M≥0 (3-3)
通过标准求解半正定规划算法求解上式得到度量矩阵M。利用得到的度量矩阵计算样本间的距离。取正常数据集的最远距离为阈值。若大于该阈值,可确认为异常数据。
(3)若在该阈值内,则进入第三级特征向量判断。此时,监测数据,即经过第一二级判断,都没有判为异常的数据,为时间间隔相等的时间序列,计算监测得到的时间序列V={v1,…,vt-1,vt,vt+1,…,vT}中每个点的数据变化程度,用I表示,取第三级特征向量为数据变化程度I:
表征当前时刻与前后两时刻的数据变化绝对值的平均值。若前后时刻数据变化超过允许的最大阈值,则可确定为异常数据。
(4)若前后数据变化基本相同,则确定为正常数据。
步骤S3:选取训练样本和预测样本;对选取的检测样本进行划分,将其划分为训练样本集和测试样本集。
步骤S4:构造SVM分类器模型。选择高斯核函数RBF,对训练样本进行训练。
将二维空间的点映射到三维甚至更高维的空间中,将低维空间中的问题转化为高维空间的问题。从低维映射到高维采用的是映射函数Φ(x),为简化映射到高维空间后的向量内积运算,引入高斯核函数使得K(xi,yi)=[Φ(xi)·Φ(xj)],来解决非线性分割下的分类问题,目标函数表达式为:
因此分界面的决策函数为:
利用网格搜索法和交叉验证法来选取核参数g和惩罚系数C,构造本次的SVM分类器模型。目前的方法是取c和g的值在一定范围内,将训练集作为原始数据集,使用K折交叉验证(k-fold Cross Validation,K-CV)方法获得在c和g的组合下验证集的分类精度,最后使用网格搜索法取使得训练集验证分类精度最高的那组c和g作为最佳参数。
步骤S5:利用上一步选取的核函数和最佳参数对对选取的训练样本集,训练构造的碳排放异常数据检测的SVM分类器模型;
步骤S6:用训练后的SVM分类器模型对预测样本数据进行识别分类,判断数据属于异常数据或是正常数据,输出分类结果。

Claims (5)

1.一种碳排放异常数据检测方法,其特征是采用基于场景的支持向量机,对碳排系统监测的数据进行分析,检测是否存在异常数据,包括以下步骤:
步骤S1:数据预处理,对碳排系统监测得到的数据进行归一化处理;
步骤S2:根据三个存在递归关系的场景对预处理后的数据进行特征向量提取,三个场景依次为基于数据取值特性、变量间相关性、以及数据变化特性,递归关系如下:
第一级特征向量判断为:设定数据的取值范围,判断数据是否包含该取值范围或在特定的时间段内有该取值范围,若无,确定为异常数据;若有,则进入第二级特征向量判断,利用距离度量学习来进一步筛选异常数据,求解出正常数据集的度量矩阵,所述经过第一级判断,具有特定取值范围的数据集合,利用度量矩阵计算测试样本的距离,取正常数据的最远距离为阈值,若样本距离超过阈值,则确定为异常数据;若小于阈值,则进入第三级特征向量判断,此时,监测数据为时间间隔相等的时间序列,若前后时刻数据存在突变,则确定为异常数据;若前后数据变化相同,则确定为正常数据;
步骤S3:选取训练样本和预测样本:根据步骤S2对选取的检测样本标注标签,将其划分为训练样本集和测试样本集;
步骤S4:模型选择:选择RBF作为核函数,利用网格搜索和交叉验证方法来选取核参数c和惩罚因子g;
步骤S5:构造SVM分类器模型;利用步骤S4选取的核函数和最佳参数对选取的训练样本集进行训练,构造碳排放异常数据检测的SVM分类器模型;
步骤S6:用训练后的SVM分类器模型对预测样本数据进行识别分类,即将数据分类两类:异常数据或正常数据,从而实现异常数据检测。
2.根据权利要求1所述的一种碳排放异常数据检测方法,其特征是步骤S2中,对于正常数据的度量矩阵的求解基于最大化分类边际的非成对约束距离度量学习算法,在正常数据样本中使用非成对约束信息作为先验知识,利用最大化不同类别边际距离的思想,来学习度量矩阵,具体如下:
表示n个样本组成的训练集,其中输入xi对应的类别标签为yi,使用标量yij∈{0,1}表示类别标签yi和yj是否匹配,且需要学习一个线性转换L:Rd→Rd进行如下距离度量:
dM(xi,xj)=(xi-xj)TM(xi-xj)=||L(xi-xj)||2 (3-1)
其中,M=LTL;
对任一输入样本xi,其目标邻居定义为符合下列条件的输入样本:1)与xi存在着相同类别标签yi;2)通过式(3-1)计算与xi有最小距离的输入样本;
对于样本xi,指定k个目标邻居,采用标量ηi,j∈{0,1},当ηi,j=1时,表示xj是xi的目标邻居;yi,j=1时,表示xi与xj属于同一类,二元组yi,j和ηi,j均是固定的;
根据最大化分类编辑思想得到目标函数:
ε(L)=∑ijηi,j||L(xi-xj)||2+c∑ijl(1-yil)×[1+||L(xi-xj)||2-||L(xi-xl)||2]+ (3-2)其中,[z]+=max(z,0),c是一个正常数;
式(3-2)中等号右边第1项调整所有输入样本与目标邻居间距离,通过最小化该项使得输入样本与目标邻居间距离尽可能小;第2项用于调整不同类别间的边际距离,通过最小化该项使得边际距离最大化;
引入松弛变量ξijl,式(3-2)转化为求解下列半正定规划问题:
通过标准求解半正定规划算法求解上式得到度量矩阵M,利用得到的度量矩阵计算样本间的距离,取正常数据集的最远距离为阈值。
3.根据权利要求1所述的所述的一种碳排放异常数据检测方法,其特征是步骤S2中,第三级特征向量判断时,监测数据为时间间隔相等的时间序列,计算监测得到的时间序列V={v1,…,vt-1,vt,vt+1,…,vT}中每个点的数据变化程度,用I表示,取第三级特征向量为数据变化程度I:
表征当前时刻与前后两时刻的数据变化绝对值的平均值,若前后时刻数据变化超过允许的最大阈值,则确定为异常数据。
4.一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征是所述处理器执行所述计算机程序时实现如权利要求1-3中任一项所述的碳排放异常数据检测方法。
5.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征是所述计算机程序被处理器执行时实现如权利要求1-3中任一项所述的碳排放异常数据检测方法。
CN202310371066.0A 2023-04-07 2023-04-07 一种碳排放异常数据检测方法、终端及存储介质 Pending CN116484289A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310371066.0A CN116484289A (zh) 2023-04-07 2023-04-07 一种碳排放异常数据检测方法、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310371066.0A CN116484289A (zh) 2023-04-07 2023-04-07 一种碳排放异常数据检测方法、终端及存储介质

Publications (1)

Publication Number Publication Date
CN116484289A true CN116484289A (zh) 2023-07-25

Family

ID=87222441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310371066.0A Pending CN116484289A (zh) 2023-04-07 2023-04-07 一种碳排放异常数据检测方法、终端及存储介质

Country Status (1)

Country Link
CN (1) CN116484289A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116738151A (zh) * 2023-08-09 2023-09-12 广东电网有限责任公司广州供电局 基于大数据的企业能耗碳排放监测核算方法及系统
CN117251816A (zh) * 2023-10-26 2023-12-19 南方电网能源发展研究院有限责任公司 碳排放数据的验证方法、装置、计算机设备和存储介质
CN117808497A (zh) * 2024-03-01 2024-04-02 清华四川能源互联网研究院 基于距离和方向特征的电力碳排放异常检测模块和方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116738151A (zh) * 2023-08-09 2023-09-12 广东电网有限责任公司广州供电局 基于大数据的企业能耗碳排放监测核算方法及系统
CN116738151B (zh) * 2023-08-09 2023-11-17 广东电网有限责任公司广州供电局 基于大数据的企业能耗碳排放监测核算方法及系统
CN117251816A (zh) * 2023-10-26 2023-12-19 南方电网能源发展研究院有限责任公司 碳排放数据的验证方法、装置、计算机设备和存储介质
CN117808497A (zh) * 2024-03-01 2024-04-02 清华四川能源互联网研究院 基于距离和方向特征的电力碳排放异常检测模块和方法
CN117808497B (zh) * 2024-03-01 2024-05-14 清华四川能源互联网研究院 基于距离和方向特征的电力碳排放异常检测模块和方法

Similar Documents

Publication Publication Date Title
CN110263846B (zh) 基于故障数据深度挖掘及学习的故障诊断方法
CN116484289A (zh) 一种碳排放异常数据检测方法、终端及存储介质
Jian et al. Support vector machine for recognition of cucumber leaf diseases
CN107465664B (zh) 基于并行多人工蜂群算法和支持向量机的入侵检测方法
CN111708343B (zh) 一种面向制造业行业现场工艺行为异常行为检测方法
CN111275198B (zh) 一种轴承异常检测方法及系统
Kazemi et al. A hybrid method for estimating the process change point using support vector machine and fuzzy statistical clustering
CN112560596A (zh) 一种雷达干扰类别识别方法及系统
CN117611015B (zh) 一种建筑工程质量实时监测系统
US20230385699A1 (en) Data boundary deriving system and method
CN110084301B (zh) 一种基于隐马尔可夫模型的多工况过程工况辨识方法
Kim et al. AnoGAN-based anomaly filtering for intelligent edge device in smart factory
CN117155706B (zh) 网络异常行为检测方法及其系统
CN117485842A (zh) 门式斗轮机轮斗横梁姿态实时监测方法及其系统
CN116758482A (zh) 基于无人机的农业种植管理系统及其方法
CN116383747A (zh) 基于多时间尺度深度卷积生成对抗网络的异常检测方法
CN110675382A (zh) 基于CNN-LapsELM的铝电解过热度识别方法
Wu et al. Low-Dimensional Gradient Helps Out-of-Distribution Detection
CN106803080B (zh) 一种基于形状玻尔兹曼机的补全式行人检测方法
Ugrenovic et al. Designing out-of-distribution data detection using anomaly detectors: Single model vs. ensemble
Mahdavi et al. Informed Decision-Making through Advancements in Open Set Recognition and Unknown Sample Detection
CN117708602B (zh) 基于物联网的楼宇安全监控方法及系统
Krishna et al. Machine Learning-based Citrus Plant Disease Detection and Management System using Computer Vision
CN117826771B (zh) 基于ai分析的冷轧机控制系统异常检测方法及系统
CN117544021B (zh) 无刷直流电机的转速控制方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination