CN112150036A - 一种基于数据驱动的锅炉用气用户偷盗气检测方法及装置 - Google Patents
一种基于数据驱动的锅炉用气用户偷盗气检测方法及装置 Download PDFInfo
- Publication number
- CN112150036A CN112150036A CN202011101852.1A CN202011101852A CN112150036A CN 112150036 A CN112150036 A CN 112150036A CN 202011101852 A CN202011101852 A CN 202011101852A CN 112150036 A CN112150036 A CN 112150036A
- Authority
- CN
- China
- Prior art keywords
- gas
- data
- boiler room
- boiler
- normal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 58
- 230000002159 abnormal effect Effects 0.000 claims abstract description 50
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000007781 pre-processing Methods 0.000 claims abstract description 21
- 238000004458 analytical method Methods 0.000 claims abstract description 20
- 230000006399 behavior Effects 0.000 claims description 46
- 238000009826 distribution Methods 0.000 claims description 21
- 238000001914 filtration Methods 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 8
- 238000000354 decomposition reaction Methods 0.000 claims description 6
- 230000002688 persistence Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 14
- 238000007689 inspection Methods 0.000 description 12
- 238000003860 storage Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000010438 heat treatment Methods 0.000 description 6
- 206010000117 Abnormal behaviour Diseases 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000007418 data mining Methods 0.000 description 3
- 101100202589 Drosophila melanogaster scrib gene Proteins 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012946 outsourcing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06311—Scheduling, planning or task assignment for a person or group
- G06Q10/063114—Status monitoring or status determination for a person or group
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Operations Research (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Educational Administration (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Game Theory and Decision Science (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measuring Volume Flow (AREA)
Abstract
本发明提供了一种基于数据驱动的锅炉用气用户偷盗气检测方法及装置,其中方法包括:获取原始用气数据,对原始用气数据进行预处理,得到待检测数据;利用基于温度形变分析的正常用气检测算法,对待检测数据进行检测,得到无异常用气行为的正常锅炉房;获取多源数据的不同类型特征,将无异常用气行为的正常用气锅炉房的特征输入OC‑SVM模型,得到预测结果,其中,不同类型特征包括:锅炉房属性特征、用气统计特征和温度与用气特征,预测结果包括:正常锅炉房和偷盗气锅炉房。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于数据驱动的锅炉用气用户偷盗气检测方法及装置。
背景技术
燃气用户的偷盗气现象十分普遍,且冬季采暖用户(锅炉房)的偷盗气行为尤其严重。在燃气使用过程中,锅炉房客户以减少计量气量和降低缴纳气费为目的,采用破坏计量设备,连接旁通等手段进行燃气盗窃。该行为不仅给供气公司造成巨大的经济损失,而且还带来一系列的用气安全隐患和社会问题。及时有效地打击偷盗气,不仅可以降低燃气企业的经济损失,从而切实保障国有资产的安全,还可以减少不规范用气造成的安全问题。
现有的锅炉房用户用气异常检测方法存在如下问题:
1)用户异常行为的辨别主要依赖业务人员的经验:人工实地巡查,需要查表员核查仪表仪器的外观、铅封和表底数等,依据经验进行分析判断;测算台账供销差后,需要查表员对差额较大的用户通过设备检测和线路普查进行判断;
2)用户用气量指标无法及时、全面地反映用户用气真实情况:提取指标所用的系统和手工台账数据时间粒度较粗(年度或月度),且数据更新不及时。
3)待查用户群体针对性不强导致工作量较大:对管辖范围内的所有用气单位,业务主管单位进行拉网式的逐户现场稽核,工作量大但收效甚微。
发明内容
本发明旨在提供一种克服上述问题或者至少部分地解决上述问题的基于数据驱动的锅炉用气用户偷盗气检测方法及装置。
为达到上述目的,本发明的技术方案具体是这样实现的:
本发明的一个方面提供了一种基于数据驱动的锅炉用气用户偷盗气检测方法,包括:获取原始用气数据,对原始用气数据进行预处理,得到待检测数据;利用基于温度形变分析的正常用气检测算法,对待检测数据进行检测,得到无异常用气行为的正常锅炉房;获取多源数据的不同类型特征,将无异常用气行为的正常用气锅炉房的特征输入OC-SVM模型,得到预测结果,其中,不同类型特征包括:锅炉房属性特征、用气统计特征和温度与用气特征,预测结果包括:正常锅炉房和偷盗气锅炉房。
其中,对原始用气数据进行预处理包括:对原始用气数据进行数据滤噪,清除错误数据,其中,错误数据包括:负值、超出正常读表范围之外的极大正值和同义锅炉房在同一时刻的多个读数;剔除数据缺失严重的锅炉房,给出数据缺失告警;以及剔除零值严重的锅炉房,给出大量零值告警。
其中,利用基于温度形变分析的正常用气检测算法,对待检测数据进行检测,得到无异常用气行为的正常锅炉房包括:确定用气模式,其中,用气模式包括:将合理的用气低谷数据置空,使锅炉房用户在用气低谷期间减少用气的波动行为不被误判为异常;利用软阈值小波滤噪对待检测数据进行小波变换分解,将小于小波阈值的小波系数置零,将大于小波阈值的小波系数减去阈值以向零收缩,非线性地剔除待检测数据中小范围的波动与噪声;以及计算日均气温数据和锅炉房日用气量数据的形变量,依据偷盗气事件对应锅炉房的形变量设定形变阀值,筛选出形变量小于形变阀值的正常用气锅炉房用户,形变量大于等于形变阀值的用气异常的用户。
其中,获取多源数据的不同类型特征包括:根据锅炉房用户属性数据,提取描述特征,将描述特征进行One-Hot编码,其中,描述特征至少包括:经营模式、建筑类型和行业类型,每个描述特征的维数等于它的可能取值个数;计算如下统计型特征:日用气量置信区间的分布,关停天数比值分布,关停小时数比值分布,用气持续性,日用气量均值,单位面积日用气量均值,归一化日用气量均值和归一化日用气量标准差;以及结合用气数据与气温数据,计算如下温度与用气特征:日用气量曲线偏离参照线的幅度和频率,日用气量与日均气温一阶差分比值的均值和方差,日用气量曲线与参照线的相似度,和形变量标准差。
其中,将无异常用气行为的正常用气锅炉房的特征输入OC-SVM模型,得到预测结果包括:OC-SVM求解出包含无异常用气行为的正常用气锅炉房的特征的最紧凑决策边界,确定落在边界内的为正常锅炉房,落在边界外的为偷盗气锅炉房。
本发明另一方面提供了一种基于数据驱动的锅炉用气用户偷盗气检测方法,包括:预处理模块,用于获取原始用气数据,对原始用气数据进行预处理,得到待检测数据;检测模块,用于利用基于温度形变分析的正常用气检测算法,对待检测数据进行检测,得到无异常用气行为的正常锅炉房;预测模块,用于获取多源数据的不同类型特征,将无异常用气行为的正常用气锅炉房的特征输入OC-SVM模型,得到预测结果,其中,不同类型特征包括:锅炉房属性特征、用气统计特征和温度与用气特征,预测结果包括:正常锅炉房和偷盗气锅炉房。
其中,预处理模块通过如下方式对原始用气数据进行预处理:预处理模块,具体用于对原始用气数据进行数据滤噪,清除错误数据,其中,错误数据包括:负值、超出正常读表范围之外的极大正值和同义锅炉房在同一时刻的多个读数;剔除数据缺失严重的锅炉房,给出数据缺失告警;以及剔除零值严重的锅炉房,给出大量零值告警。
其中,检测模块通过如下方式利用基于温度形变分析的正常用气检测算法,对待检测数据进行检测,得到无异常用气行为的正常锅炉房:检测模块,具体用于确定用气模式,其中,用气模式包括:将合理的用气低谷数据置空,使锅炉房用户在用气低谷期间减少用气的波动行为不被误判为异常;利用软阈值小波滤噪对待检测数据进行小波变换分解,将小于小波阈值的小波系数置零,将大于小波阈值的小波系数减去阈值以向零收缩,非线性地剔除待检测数据中小范围的波动与噪声;以及计算日均气温数据和锅炉房日用气量数据的形变量,依据偷盗气事件对应锅炉房的形变量设定形变阀值,筛选出形变量小于形变阀值的正常用气锅炉房用户,形变量大于等于形变阀值的用气异常的用户。
其中,预测模块通过如下方式获取多源数据的不同类型特征:预测模块,具体用于根据锅炉房用户属性数据,提取描述特征,将描述特征进行One-Hot编码,其中,描述特征至少包括:经营模式、建筑类型和行业类型,每个描述特征的维数等于它的可能取值个数;计算如下统计型特征:日用气量置信区间的分布,关停天数比值分布,关停小时数比值分布,用气持续性,日用气量均值,单位面积日用气量均值,归一化日用气量均值和归一化日用气量标准差;以及结合用气数据与气温数据,计算如下温度与用气特征:日用气量曲线偏离参照线的幅度和频率,日用气量与日均气温一阶差分比值的均值和方差,日用气量曲线与参照线的相似度,和形变量标准差。
其中,预测模块通过如下方式将无异常用气行为的正常用气锅炉房的特征输入OC-SVM模型,得到预测结果:预测模块,具体用于OC-SVM求解出包含无异常用气行为的正常用气锅炉房的特征的最紧凑决策边界,确定落在边界内的为正常锅炉房,落在边界外的为偷盗气锅炉房。
由此可见,通过本发明提供的基于数据驱动的锅炉用气用户偷盗气检测方法及装置,使得用户用气异常行为的判别不再强依赖于业务人员的经验,而是基于通过数据挖掘所得出的客观规律。本发明融合了锅炉房用户用气数据(小时用气量)、锅炉房用户属性数据(供暖面积、用户行业类型、所在建筑类型等)和气温数据(日均气温)等多源数据,既可对用户当前的用气行为进行分析,又综合考虑了用户的历史用气特征,做到了及时且全面的用气检测。同时,根据系统的检测结果,将大量用气行为正常的锅炉房排除于进一步检查的范围之外,使燃气公司工作人员的稽查工作可以有的放矢,不仅大大减少了实地核查的工作量,而且有效地提高了查验效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的基于数据驱动的锅炉用气用户偷盗气检测方法的流程图;
图2为本发明实施例提供的日用气量与日均气温示意图;
图3为本发明实施例提供的基于温度形变的正常用气检测方法示意图;
图4为本发明实施例提供的基于OC-SVM的偷盗气检测示意图;
图5为本发明实施例提供的OC-SVM算法示意图;
图6为本发明实施例提供的基于数据驱动的锅炉用气用户偷盗气检测装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了本发明实施例提供的基于数据驱动的锅炉用气用户偷盗气检测方法的流程图,参见图1,本发明实施例提供的基于数据驱动的锅炉用气用户偷盗气检测方法,包括:
S1,获取原始用气数据,对原始用气数据进行预处理,得到待检测数据。
具体地,本步骤为基于数据预处理的快速检测步骤,其统计锅炉房用户的用气数据,可快速区分出数据缺失的锅炉房和长期关停的锅炉房。
由于仪表故障或人为破坏等原因,通过仪表读数获取的原始用气数据存在一定程度上的数据质量和数据缺失问题,这会对发明的整体分析结果造成错误影响。同时,部分锅炉房存在长期零用气的现象,这是一种只需对用气数据进行简单的统计分析即可发现的异常。因此,本发明首先进行数据预处理:在具体数据的层面上,剔除各个锅炉房不符合客观常识的错误用气数据;在锅炉房用户的层面上,剔除数据缺失严重或零值严重的锅炉房。从而得到高质量、可分析性强的数据,同时完成了对锅炉房用户用气异常的快速初步检测。
数据预处理具体时,作为本发明实施例的一个可选实施方式,对原始用气数据进行预处理包括:对原始用气数据进行数据滤噪,清除错误数据,其中,错误数据包括:负值、超出正常读表范围之外的极大正值和同义锅炉房在同一时刻的多个读数;剔除数据缺失严重的锅炉房,给出数据缺失告警;以及剔除零值严重的锅炉房,给出大量零值告警。
具体地包括:
(1)数据滤噪:原始用气数据中主要存在以下三种需要被清除的错误数据:1)负值;2)明显超出正常读表范围之外的极大正值。如,某锅炉房在某一小时的用气量为1499999.9999,但其余小时用气量的量级均不超过103;3)同一锅炉房在同一时刻有多个读数。如,同一锅炉房有以下两条记录:“2018-11-30 08:00:00,1357.0”“2018-11-30 08:00:00,1048.0”。此时,本发明可以取最大值作为该时刻的预处理后读数。
(2)剔除数据缺失严重的锅炉房,并在模型分析结果中给出“数据缺失”告警:由于可用于分析的历史数据不足会导致本发明检测的准确度大幅降低,因此需要剔除数据缺失较多(缺失率>10%),进而造成可分析性较差的锅炉房;此外,由于一些偷盗气手段会导致仪表缺少读数,因此用气数据缺失本身也是偷盗气的特征之一。
(3)剔除零值严重的锅炉房,并在预测结果中给出“大量零值”告警:部分锅炉房的用气量长期为零(零值率>70%),不具备可分析性。且由于用气数据大量为零本身就是一种明显且易查出的异常,这些锅炉房的偷盗气嫌疑度比较高,直接告警。
S2,利用基于温度形变分析的正常用气检测算法,对待检测数据进行检测,得到无异常用气行为的正常锅炉房。
具体地,本步骤为基于温度形变的正常用气检测步骤,其根据日均气温与日均用气量的负相关特性,区分出用气完全正常的锅炉房和用气异常的锅炉房。
通过综合分析用户用气数据和气象数据,如图2所示,可以发现在供暖季内,正常用气锅炉房的日用气量整体走势与日均气温变化趋势的相反数呈高度正相关。据此本发明提出基于温度形变分析的正常用气检测算法,该算法可以将无异常用气行为的正常锅炉房检测出来,使下一个模块只需分析剩余的锅炉房,从而降低后续建模分析的复杂性。
作为本发明实施例的一个可选实施方式,利用基于温度形变分析的正常用气检测算法,对待检测数据进行检测,得到无异常用气行为的正常锅炉房包括:确定用气模式,其中,用气模式包括:将合理的用气低谷数据置空,使锅炉房用户在用气低谷期间减少用气的波动行为不被误判为异常;利用软阈值小波滤噪对待检测数据进行小波变换分解,将小于小波阈值的小波系数置零,将大于小波阈值的小波系数减去阈值以向零收缩,非线性地剔除待检测数据中小范围的波动与噪声;以及计算日均气温数据和锅炉房日用气量数据的形变量,依据偷盗气事件对应锅炉房的形变量设定形变阀值,筛选出形变量小于形变阀值的正常用气锅炉房用户,形变量大于等于形变阀值的用气异常的用户。
具体地,如图3所示,基于温度形变分析的检测算法主要包括如下3个步骤:
(1)用气模式分析:通过将合理的用气低谷数据置空,使锅炉房用户在用气低谷期间减少用气的波动行为不被误判为异常。合理用气低谷包括:法定节假日,工作日用气模式下的周末。其中,通过计算工作日与周末的日用气量比,可以区分出工作日用气(周末用气量较工作日明显减小)和每日用气这两种用气模式;
(2)小波滤噪与相位校准:软阈值小波滤噪对原始数据进行小波变换分解,将小于阈值的小波系数(分散着噪声)置零,而使大于阈值的小波系数(集中着有用信号)减去阈值以向零收缩,从而可以非线性地剔除数据中小范围的波动与噪声,在保留趋势性等信息的同时,去除陡变数据的影响。相位校准则将日均气温相反数数据向后平移2天,从而消除用户用气相对于气温变化的1-2天延迟效应;
(3)形变量检测:首先,对日均气温数据和锅炉房日用气量数据分别进行Min-Max归一化,使它们根据自己的取值范围缩放到[0,1]内,以同时消除用气量与温度之间量纲的差异和不同锅炉房之间用气规模的差异。然后,按如下公式计算形变量Vart:
Vart=|1-CORTt(Gt,Tt)|×Difft(Gt,Tt)
形变量综合考虑了归一化后温度与用气的差值,以及温度一阶差分序列与用气一阶差分序列之间的余弦相关性。接着,基于计算所得的形变量,依据偷盗气事件对应锅炉房的形变量来设定阀值,筛选出形变量小于阀值的正常用气锅炉房用户,形变量大于等于阀值则为用气异常的用户(其中包括偷盗气用户)。
S3,获取多源数据的不同类型特征,将无异常用气行为的正常用气锅炉房的特征输入OC-SVM模型,得到预测结果,其中,不同类型特征包括:锅炉房属性特征、用气统计特征和温度与用气特征,预测结果包括:正常锅炉房和偷盗气锅炉房。
具体地,本步骤为基于OC-SVM的偷盗气检测步骤,其从多源数据中提取不同类型的特征,并使用第二步筛选出的正常用气锅炉房的特征作为训练OC-SVM模型的正样本,从而区分出用气不规律的锅炉房和偷盗气的锅炉房。
由于偷盗气的方式多种多样,偷盗气锅炉房的用气特征差异也非常大,无法对偷盗气行为进行统一建模;同时,已被查出并记录在历史数据中的偷盗气锅炉房非常有限,不足以提供建模所需的信息。但是,正常用气的锅炉房数量众多,且具有高度相似的用气特征,即:正常用气锅炉房的日用气量整体走势与日均气温变化趋势的相反数呈高度正相关。并且,经由上述基于温度形变的正常用气检测方法,可以筛选出上述的正常用气的锅炉房。
因此,如图4所示,本发明可以从多源数据中抽取很多不同类别的特征并加以融合,并将正常用气锅炉房的特征作为正样本来训练OC-SVM模型,这样就可以求出可区分正常用气锅炉房和偷盗气锅炉房之间最紧凑的决策边界。同时,通过调节温度形变的正常判断阈值,可使正样本带有适当的噪声(在正常用气的基础上带有一定的用气波动),从而使OC-SVM的正样本决策边界对细微波动有一定的包容性,来优化OC-SVM的检测性能。综上,本发明可以使用OC-SVM进行偷盗气检测,进一步区分出偷盗气的锅炉房用户和用气不规律的锅炉房用户。
作为本发明实施例的一个可选实施方式,获取多源数据的不同类型特征包括:根据锅炉房用户属性数据,提取描述特征,将描述特征进行One-Hot编码,其中,描述特征至少包括:经营模式、建筑类型和行业类型,每个描述特征的维数等于它的可能取值个数;计算如下统计型特征:日用气量置信区间的分布,关停天数比值分布,关停小时数比值分布,用气持续性,日用气量均值,单位面积日用气量均值,归一化日用气量均值和归一化日用气量标准差;以及结合用气数据与气温数据,计算如下温度与用气特征:日用气量曲线偏离参照线的幅度和频率,日用气量与日均气温一阶差分比值的均值和方差,日用气量曲线与参照线的相似度,和形变量标准差。
具体地,通过从多源数据中抽取不同类型的特征,本发明可以从多种不同的角度对用户的用气行为进行分析。这些特征主要分为以下三类:具体示例可以参见表1。
(1)锅炉房属性特征:根据锅炉房用户属性数据,可以提取经营模式(是否外包)、建筑类型和行业类型等描述性特征,并将这些特征进行One-Hot编码,每个特征的维数等于它的可能取值个数;
(2)用气统计特征:根据用气数据,可以计算如下统计型特征:日用气量置信区间的分布,即日用气量在各个用气量置信区间的取值的概率;关停天数比值分布,即在不同日关停阈值下的天数比;关停小时数比值分布,即在不同小时关停阈值下的小时数比;用气持续性,即若一天24小时各小时的关停比无明显波动且趋于零,则为持续用气,否则为非持续用气;日用气量均值,即对所有有数据的日期取日用气量的均值;单位面积日用气量均值,即“日用气量均值/锅炉房供暖面积”;归一化日用气量均值,即对Min-Max归一化后的日用气量取均值;归一化日用气量标准差,即对Min-Max归一化后的日用气量取标准差;
(3)温度与用气特征:结合用气数据与气温数据,可以计算如下温度与用气特征:日用气量曲线偏离参照线(日均气温相反数曲线)的幅度和频率,即气温形变量超过不同阈值的天数比;日用气量与的均值和方差;日用气量曲线与参照线的相似度,即用气曲线与气温相反数曲线的DTW距离;形变量标准差。
表1从多源数据中提取的特征
作为本发明实施例的一个可选实施方式,将无异常用气行为的正常用气锅炉房的特征输入OC-SVM模型,得到预测结果包括:OC-SVM求解出包含无异常用气行为的正常用气锅炉房的特征的最紧凑决策边界,确定落在边界内的为正常锅炉房,落在边界外的为偷盗气锅炉房。
具体地,提取上述特征后,将正样本(基于温度形变的正常用气检测所筛选出的正常用气锅炉房)的特征输入OC-SVM模型。参见图5,OC-SVM求解出包含正样本的最紧凑决策边界,预测时,落在边界内的为正样本(正常锅炉房),之外则为非正样本(偷盗气锅炉房)。求解过程依赖于通过非线性核函数φ(如高斯核函数),把在原始空间中线性不可分的多维数据投影到更高维的特征空间,在特征空间中,正样本与非正样本可被一个超平面区分,该超平面再投影回原始空间,即为决策边界。
由此可见,通过本发明提供的基于数据驱动的锅炉用气用户偷盗气检测方法,使得用户用气异常行为的判别不再强依赖于业务人员的经验,而是基于通过数据挖掘所得出的客观规律。本发明融合了锅炉房用户用气数据(小时用气量)、锅炉房用户属性数据(供暖面积、用户行业类型、所在建筑类型等)和气温数据(日均气温)等多源数据,既可对用户当前的用气行为进行分析,又综合考虑了用户的历史用气特征,做到了及时且全面的用气检测。同时,根据系统的检测结果,将大量用气行为正常的锅炉房排除于进一步检查的范围之外,使燃气公司工作人员的稽查工作可以有的放矢,不仅大大减少了实地核查的工作量,而且有效地提高了查验效率。
图6示出了本发明实施例提供的基于数据驱动的锅炉用气用户偷盗气检测装置的结构示意图,该基于数据驱动的锅炉用气用户偷盗气检测装置应用上述方法,以下仅对基于数据驱动的锅炉用气用户偷盗气检测装置的结构进行简单说明,其他未尽事宜,请参照上述基于数据驱动的锅炉用气用户偷盗气检测方法中的相关描述,参见图6,本发明实施例提供的基于数据驱动的锅炉用气用户偷盗气检测装置,包括:
预处理模块,用于获取原始用气数据,对原始用气数据进行预处理,得到待检测数据;
检测模块,用于利用基于温度形变分析的正常用气检测算法,对待检测数据进行检测,得到无异常用气行为的正常锅炉房;
预测模块,用于获取多源数据的不同类型特征,将无异常用气行为的正常用气锅炉房的特征输入OC-SVM模型,得到预测结果,其中,不同类型特征包括:锅炉房属性特征、用气统计特征和温度与用气特征,预测结果包括:正常锅炉房和偷盗气锅炉房。
作为本发明实施例的一个可选实施方式,预处理模块通过如下方式对原始用气数据进行预处理:预处理模块,具体用于对原始用气数据进行数据滤噪,清除错误数据,其中,错误数据包括:负值、超出正常读表范围之外的极大正值和同义锅炉房在同一时刻的多个读数;剔除数据缺失严重的锅炉房,给出数据缺失告警;以及剔除零值严重的锅炉房,给出大量零值告警。
作为本发明实施例的一个可选实施方式,检测模块通过如下方式利用基于温度形变分析的正常用气检测算法,对待检测数据进行检测,得到无异常用气行为的正常锅炉房:检测模块,具体用于确定用气模式,其中,用气模式包括:将合理的用气低谷数据置空,使锅炉房用户在用气低谷期间减少用气的波动行为不被误判为异常;利用软阈值小波滤噪对待检测数据进行小波变换分解,将小于小波阈值的小波系数置零,将大于小波阈值的小波系数减去阈值以向零收缩,非线性地剔除待检测数据中小范围的波动与噪声;以及计算日均气温数据和锅炉房日用气量数据的形变量,依据偷盗气事件对应锅炉房的形变量设定形变阀值,筛选出形变量小于形变阀值的正常用气锅炉房用户,形变量大于等于形变阀值的用气异常的用户。
作为本发明实施例的一个可选实施方式,预测模块通过如下方式获取多源数据的不同类型特征:预测模块,具体用于根据锅炉房用户属性数据,提取描述特征,将描述特征进行One-Hot编码,其中,描述特征至少包括:经营模式、建筑类型和行业类型,每个描述特征的维数等于它的可能取值个数;计算如下统计型特征:日用气量置信区间的分布,关停天数比值分布,关停小时数比值分布,用气持续性,日用气量均值,单位面积日用气量均值,归一化日用气量均值和归一化日用气量标准差;以及结合用气数据与气温数据,计算如下温度与用气特征:日用气量曲线偏离参照线的幅度和频率,日用气量与日均气温一阶差分比值的均值和方差,日用气量曲线与参照线的相似度,和形变量标准差。
作为本发明实施例的一个可选实施方式,预测模块通过如下方式将无异常用气行为的正常用气锅炉房的特征输入OC-SVM模型,得到预测结果:预测模块,具体用于OC-SVM求解出包含无异常用气行为的正常用气锅炉房的特征的最紧凑决策边界,确定落在边界内的为正常锅炉房,落在边界外的为偷盗气锅炉房。
由此可见,通过本发明提供的基于数据驱动的锅炉用气用户偷盗气检测装置,使得用户用气异常行为的判别不再强依赖于业务人员的经验,而是基于通过数据挖掘所得出的客观规律。本发明融合了锅炉房用户用气数据(小时用气量)、锅炉房用户属性数据(供暖面积、用户行业类型、所在建筑类型等)和气温数据(日均气温)等多源数据,既可对用户当前的用气行为进行分析,又综合考虑了用户的历史用气特征,做到了及时且全面的用气检测。同时,根据系统的检测结果,将大量用气行为正常的锅炉房排除于进一步检查的范围之外,使燃气公司工作人员的稽查工作可以有的放矢,不仅大大减少了实地核查的工作量,而且有效地提高了查验效率。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种基于数据驱动的锅炉用气用户偷盗气检测方法,其特征在于,包括:
获取原始用气数据,对所述原始用气数据进行预处理,得到待检测数据;
利用基于温度形变分析的正常用气检测算法,对所述待检测数据进行检测,得到无异常用气行为的正常锅炉房;
获取多源数据的不同类型特征,将所述无异常用气行为的正常用气锅炉房的特征输入OC-SVM模型,得到预测结果,其中,所述不同类型特征包括:锅炉房属性特征、用气统计特征和温度与用气特征,所述预测结果包括:正常锅炉房和偷盗气锅炉房。
2.根据权利要求1所述的方法,其特征在于,所述对所述原始用气数据进行预处理包括:
对所述原始用气数据进行数据滤噪,清除错误数据,其中,所述错误数据包括:负值、超出正常读表范围之外的极大正值和同义锅炉房在同一时刻的多个读数;
剔除数据缺失严重的锅炉房,给出数据缺失告警;以及
剔除零值严重的锅炉房,给出大量零值告警。
3.根据权利要求1所述的方法,其特征在于,所述利用基于温度形变分析的正常用气检测算法,对所述待检测数据进行检测,得到无异常用气行为的正常锅炉房包括:
确定用气模式,其中,所述用气模式包括:将合理的用气低谷数据置空,使锅炉房用户在用气低谷期间减少用气的波动行为不被误判为异常;
利用软阈值小波滤噪对所述待检测数据进行小波变换分解,将小于小波阈值的小波系数置零,将大于小波阈值的小波系数减去阈值以向零收缩,非线性地剔除所述待检测数据中小范围的波动与噪声;以及
计算日均气温数据和锅炉房日用气量数据的形变量,依据偷盗气事件对应锅炉房的形变量设定形变阀值,筛选出形变量小于所述形变阀值的正常用气锅炉房用户,形变量大于等于所述形变阀值的用气异常的用户。
4.根据权利要求1所述的方法,其特征在于,所述获取多源数据的不同类型特征包括:
根据锅炉房用户属性数据,提取描述特征,将所述描述特征进行One-Hot编码,其中,所述描述特征至少包括:经营模式、建筑类型和行业类型,每个所述描述特征的维数等于它的可能取值个数;
计算如下统计型特征:日用气量置信区间的分布,关停天数比值分布,关停小时数比值分布,用气持续性,日用气量均值,单位面积日用气量均值,归一化日用气量均值和归一化日用气量标准差;以及
结合用气数据与气温数据,计算如下温度与用气特征:日用气量曲线偏离参照线的幅度和频率,日用气量与日均气温一阶差分比值的均值和方差,日用气量曲线与参照线的相似度,和形变量标准差。
5.根据权利要求1或4所述的方法,其特征在于,所述将所述无异常用气行为的正常用气锅炉房的特征输入OC-SVM模型,得到预测结果包括:
所述OC-SVM求解出包含所述无异常用气行为的正常用气锅炉房的特征的最紧凑决策边界,确定落在边界内的为所述正常锅炉房,落在边界外的为所述偷盗气锅炉房。
6.一种基于数据驱动的锅炉用气用户偷盗气检测方法,其特征在于,包括:
预处理模块,用于获取原始用气数据,对所述原始用气数据进行预处理,得到待检测数据;
检测模块,用于利用基于温度形变分析的正常用气检测算法,对所述待检测数据进行检测,得到无异常用气行为的正常锅炉房;
预测模块,用于获取多源数据的不同类型特征,将所述无异常用气行为的正常用气锅炉房的特征输入OC-SVM模型,得到预测结果,其中,所述不同类型特征包括:锅炉房属性特征、用气统计特征和温度与用气特征,所述预测结果包括:正常锅炉房和偷盗气锅炉房。
7.根据权利要求6所述的装置,其特征在于,所述预处理模块通过如下方式对所述原始用气数据进行预处理:
所述预处理模块,具体用于对所述原始用气数据进行数据滤噪,清除错误数据,其中,所述错误数据包括:负值、超出正常读表范围之外的极大正值和同义锅炉房在同一时刻的多个读数;剔除数据缺失严重的锅炉房,给出数据缺失告警;以及剔除零值严重的锅炉房,给出大量零值告警。
8.根据权利要求6所述的装置,其特征在于,所述检测模块通过如下方式利用基于温度形变分析的正常用气检测算法,对所述待检测数据进行检测,得到无异常用气行为的正常锅炉房:
所述检测模块,具体用于确定用气模式,其中,所述用气模式包括:将合理的用气低谷数据置空,使锅炉房用户在用气低谷期间减少用气的波动行为不被误判为异常;利用软阈值小波滤噪对所述待检测数据进行小波变换分解,将小于小波阈值的小波系数置零,将大于小波阈值的小波系数减去阈值以向零收缩,非线性地剔除所述待检测数据中小范围的波动与噪声;以及计算日均气温数据和锅炉房日用气量数据的形变量,依据偷盗气事件对应锅炉房的形变量设定形变阀值,筛选出形变量小于所述形变阀值的正常用气锅炉房用户,形变量大于等于所述形变阀值的用气异常的用户。
9.根据权利要求6所述的装置,其特征在于,所述预测模块通过如下方式获取多源数据的不同类型特征:
所述预测模块,具体用于根据锅炉房用户属性数据,提取描述特征,将所述描述特征进行One-Hot编码,其中,所述描述特征至少包括:经营模式、建筑类型和行业类型,每个所述描述特征的维数等于它的可能取值个数;计算如下统计型特征:日用气量置信区间的分布,关停天数比值分布,关停小时数比值分布,用气持续性,日用气量均值,单位面积日用气量均值,归一化日用气量均值和归一化日用气量标准差;以及结合用气数据与气温数据,计算如下温度与用气特征:日用气量曲线偏离参照线的幅度和频率,日用气量与日均气温一阶差分比值的均值和方差,日用气量曲线与参照线的相似度,和形变量标准差。
10.根据权利要求6或9所述的装置,其特征在于,所述预测模块通过如下方式将所述无异常用气行为的正常用气锅炉房的特征输入OC-SVM模型,得到预测结果:
所述预测模块,具体用于所述OC-SVM求解出包含所述无异常用气行为的正常用气锅炉房的特征的最紧凑决策边界,确定落在边界内的为所述正常锅炉房,落在边界外的为所述偷盗气锅炉房。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011101852.1A CN112150036B (zh) | 2020-10-15 | 2020-10-15 | 一种基于数据驱动的锅炉用气用户偷盗气检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011101852.1A CN112150036B (zh) | 2020-10-15 | 2020-10-15 | 一种基于数据驱动的锅炉用气用户偷盗气检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112150036A true CN112150036A (zh) | 2020-12-29 |
CN112150036B CN112150036B (zh) | 2023-05-09 |
Family
ID=73952044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011101852.1A Active CN112150036B (zh) | 2020-10-15 | 2020-10-15 | 一种基于数据驱动的锅炉用气用户偷盗气检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112150036B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108256752A (zh) * | 2018-01-02 | 2018-07-06 | 北京市燃气集团有限责任公司 | 一种燃气用户用气行为的分析方法 |
CN109583680A (zh) * | 2018-09-30 | 2019-04-05 | 国网浙江长兴县供电有限公司 | 一种基于支持向量机的窃电辨识方法 |
-
2020
- 2020-10-15 CN CN202011101852.1A patent/CN112150036B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108256752A (zh) * | 2018-01-02 | 2018-07-06 | 北京市燃气集团有限责任公司 | 一种燃气用户用气行为的分析方法 |
CN109583680A (zh) * | 2018-09-30 | 2019-04-05 | 国网浙江长兴县供电有限公司 | 一种基于支持向量机的窃电辨识方法 |
Non-Patent Citations (3)
Title |
---|
张中秀等: "冬半年城市燃气日负荷规律研究", 《煤气与热力》 * |
王世礼: "基于新阈值函数的小波阈值去噪算法", 《传感器与微系统》 * |
舒漫: "XGBoost算法在成都市燃气负荷预测分析中的应用", 《中国优秀硕士学位论文全文数据库(工程科技Ⅱ辑)》 * |
Also Published As
Publication number | Publication date |
---|---|
CN112150036B (zh) | 2023-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110223196B (zh) | 基于典型行业特征库和反窃电样本库的反窃电分析方法 | |
CN111080502B (zh) | 一种区域企业数据异常行为的大数据识别方法 | |
CN112084229A (zh) | 一种识别城镇燃气用户异常用气行为的方法及装置 | |
CN109934268B (zh) | 异常交易检测方法及系统 | |
CN112101635A (zh) | 一种用电异常的监测方法和系统 | |
CN111008193B (zh) | 一种数据清洗与质量评价方法及系统 | |
CN110990393A (zh) | 一种行业企业数据异常行为的大数据识别方法 | |
CN110750786B (zh) | 一种账号异常访问敏感数据行为的检测方法及系统 | |
CN116066343A (zh) | 一种输油泵机组故障模型的智能预警方法及系统 | |
CN112270596A (zh) | 基于用户画像构建的风险控制系统及方法 | |
CN112132210A (zh) | 一种基于客户用电行为的窃电概率预警分析方法 | |
CN113962320A (zh) | 地下水监测数据处理方法及装置 | |
CN112417371A (zh) | 配网台区智能电能表运行状态监测方法 | |
CN117216801A (zh) | 一种基于人工智能的企业财务数据安全管理系统及方法 | |
CN116597939A (zh) | 基于大数据的药品质量控制管理分析系统及方法 | |
CN112581291B (zh) | 风险测评异动检测方法、装置、设备及存储介质 | |
CN113343056A (zh) | 一种用户用气量异常检测方法及装置 | |
CN116051185B (zh) | 广告位数据的异常检测与筛选方法 | |
CN112150036B (zh) | 一种基于数据驱动的锅炉用气用户偷盗气检测方法及装置 | |
CN115166625A (zh) | 智能电表误差估计方法及装置 | |
CN115578188A (zh) | 基于用电数据的企业经营异常评估方法和系统 | |
CN115310982A (zh) | 一种防窃电预警数据分析方法 | |
CN113298642B (zh) | 一种订单检测方法、装置、电子设备及存储介质 | |
CN112734208B (zh) | 燃煤验收监测装置、方法、设备以及可读存储介质 | |
CN114626863A (zh) | 出口骗税企业的检测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |