CN117113248A - 基于数据驱动的燃气气量数据异常检测方法 - Google Patents
基于数据驱动的燃气气量数据异常检测方法 Download PDFInfo
- Publication number
- CN117113248A CN117113248A CN202311001523.3A CN202311001523A CN117113248A CN 117113248 A CN117113248 A CN 117113248A CN 202311001523 A CN202311001523 A CN 202311001523A CN 117113248 A CN117113248 A CN 117113248A
- Authority
- CN
- China
- Prior art keywords
- abnormal
- data
- pipeline
- gas
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 49
- 230000002159 abnormal effect Effects 0.000 claims abstract description 238
- 239000011159 matrix material Substances 0.000 claims description 42
- 230000003595 spectral effect Effects 0.000 claims description 39
- 230000005856 abnormality Effects 0.000 claims description 22
- 238000004458 analytical method Methods 0.000 claims description 18
- 238000013523 data management Methods 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000009825 accumulation Methods 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 claims description 4
- 238000012544 monitoring process Methods 0.000 abstract description 4
- 238000012545 processing Methods 0.000 abstract description 3
- 239000007789 gas Substances 0.000 description 146
- 239000002737 fuel gas Substances 0.000 description 6
- 238000011835 investigation Methods 0.000 description 6
- 238000007621 cluster analysis Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000000034 method Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000567 combustion gas Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01F—MEASURING VOLUME, VOLUME FLOW, MASS FLOW OR LIQUID LEVEL; METERING BY VOLUME
- G01F1/00—Measuring the volume flow or mass flow of fluid or fluent solid material wherein the fluid passes through a meter in a continuous flow
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/22—Fuels; Explosives
- G01N33/225—Gaseous fuels, e.g. natural gas
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2323—Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Chemical & Material Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Oil, Petroleum & Natural Gas (AREA)
- Pathology (AREA)
- Immunology (AREA)
- General Health & Medical Sciences (AREA)
- Biochemistry (AREA)
- Analytical Chemistry (AREA)
- Medicinal Chemistry (AREA)
- Food Science & Technology (AREA)
- General Chemical & Material Sciences (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Probability & Statistics with Applications (AREA)
- Discrete Mathematics (AREA)
- Software Systems (AREA)
- Fluid Mechanics (AREA)
- Pipeline Systems (AREA)
Abstract
本发明涉及数据处理技术领域,尤其涉及基于数据驱动的燃气气量数据异常检测方法。将同一时间段内所有用户的燃气气量以不同级别主管道为节点建立第一图形数据结构;基于第一图形数据结构计算各个主管道的异常概率值,并进一步定位异常管道;计算与每个异常管道直连的用户的异常值;基于异常值完成燃气气量数据异常检测。本发明通过构建图形数据结构,实现较为准确的异常管道定位,并基于主管道的异常程度确定用户的异常程度,有效地提高了监测范围,防止偷气漏气的异常检测。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及基于数据驱动的燃气气量数据异常检测方法。
背景技术
随着社会的发展,燃气作为一种重要的能源被广泛应用,燃气在能源结构中所占的比重与日俱增,燃气应用场景越来越多元化,对燃气输送的安全性提出了更高的要求。
然而,随着燃气应用越来越广泛,燃气安全问题也愈演愈烈,出现了多起燃气泄漏等燃气事故。燃气事故的有效预防成了行业内重点关注的问题。为此,关注燃气运行数据,对燃气数据进行准确、高效的异常检测对于提高能源利用率和防止资源浪费具有重要意义。
现有技术主要采用聚类分析的方式进行异常检测,在处理大量用户燃气数据时,可能存在漏报等问题。
发明内容
本发明要解决的技术问题在于,现有技术主要采用聚类分析的方式进行异常检测,在处理大量用户燃气数据时,可能存在漏报等问题。针对现有技术中的缺陷,提供一种基于数据驱动的燃气气量数据异常检测方法。
为了解决上述技术问题,本发明提供了基于数据驱动的燃气气量数据异常检测方法,包括:
获取待检测区域内所有用户在不同时间段内的燃气气量;
将同一时间段内所有用户的燃气气量以不同级别主管道为节点建立第一图形数据结构;
基于所述第一图形数据结构计算各个主管道的异常概率值;
将各个主管道的所述异常概率值以不同级别主管道为节点建立第二图形数据结构;
基于对所述第二图形数据结构的聚类从主管道中定位异常管道;
计算与每个所述异常管道直连的用户的异常值;
基于所述异常值完成待检测区域的燃气气量数据异常检测。
可选地,获取待检测区域内所有用户在不同时间段内的燃气气量,包括:
通过燃气气量数据管理平台,获取待检测区域内所有用户在不同时间段内的燃气气量;每个时间段的时长为3分钟。
可选地,将同一时间段内所有用户的燃气气量以不同级别主管道为节点建立第一图形数据结构,包括:
将不同级别的主管道作为节点建立基础图结构;
以每一用户与对应主管道之间、不同级别主管道之间的连接性作为所述基础图结构中的边,以燃气流向作为各条所述边的方向;
各条所述边的边权为下一级主管道或用户对应的燃气气量。
可选地,基于所述第一图形数据结构计算各个主管道的异常概率值,包括:
获取所述第一图形数据结构的邻接矩阵;
基于所述邻接矩阵计算各个主管道的异常概率值。
可选地,基于所述邻接矩阵计算各个主管道的异常概率值,包括:
统计所述邻接矩阵的每个数据组中有值数据点的个数;其中,将所述邻接矩阵中的一行数据或一列数据作为一个所述数据组;有值数据点的个数等于1的所述数据组属于用户数据组,有值数据点的个数大于1的所述数据组属于管道数据组;
计算每个所述管道数据组中除邻接矩阵对角线数据的数据累计和;
计算每个所述管道数据组中所述数据累计和与所述邻接矩阵对角线数据的差值绝对值;
获取各个所述管道数据组对应的所述差值绝对值的单高斯函数模型;
获取所述单高斯函数模型的峰值导数,并将所述峰值导数与所述单高斯函数模型相乘得到管道异常概率分布;
取所述管道异常概率分布的一半,计算所述管道异常概率分布中各个管道异常概率的概率均值,将小于所述概率均值的所述管道异常概率重置为1;
用1减所述管道异常概率得到各个所述管道数据组对应的主管道的异常概率值。
可选地,将各个主管道的所述异常概率值以不同级别主管道为节点建立第二图形数据结构,包括:
将不同级别的主管道作为节点建立基础图结构;
以每一用户与对应主管道之间、不同级别主管道之间的连接性作为所述基础图结构中的边,以燃气流向作为各条所述边的方向;
各条所述边的边权为下一级主管道对应的异常概率值。
可选地,基于对所述第二图形数据结构的聚类从主管道中定位异常管道,包括:
利用谱聚类对所述第二图形数据结构的节点进行分类,得到N个谱聚类类别;
计算每个所述谱聚类类别内所述异常概率值的均值,得到各个所述谱聚类类别对应的谱聚类均值;
利用k-means算法对所有所述谱聚类均值进行二分类,得到两个二分类类别;
计算两个所述二分类类别对应的所述异常概率值的均值;
选择所述异常概率值的均值最大的所述二分类类别所包含的所述谱聚类类别作为异常分析类别;
根据燃气流向将每个所述异常分析类别所包含的最后一级节点对应的主管道定位为异常管道。
可选地,计算与每个所述异常管道直连的用户的异常值,包括:
计算与每个所述异常管道直连的用户的燃气气量与对应的主管道的燃气气量之间的相关性系数;
基于所述异常管道的异常概率值和用户对应的所述相关性系数计算用户的异常值。
可选地,根据以下公式计算用户的异常值:
Ym=Xj*exp(-Gm)
式中,Ym为第m个用户的所述异常值,Xj为第j个所述异常管道对应的所述异常概率值,Gm为与第j个所述异常管道直连的第m个用户的燃气气量与第j个所述异常管道在同一时间段内燃气气量变化的所述相关性系数。
可选地,基于所述异常值完成待检测区域的燃气气量数据异常检测,包括:
通过燃气气量数据管理平台查询与每个所述异常管道直连的用户是否具有燃气停止使用申报;
若具有燃气停止使用申报,则消除该用户的所述异常值;
若不具有燃气停止使用申报,则将所述异常值大于异常阈值的用户作为异常用户;其中,所述异常阈值取值为0.8。
实施本发明的基于数据驱动的燃气气量数据异常检测方法,具有以下有益效果:通过构建图形数据结构,实现较为准确的异常管道定位,并基于主管道的异常程度确定用户的异常程度,有效地提高了监测范围,防止偷气漏气的异常检测。
附图说明
图1是本发明实施例的基于数据驱动的燃气气量数据异常检测方法的主要步骤的示意图;
图2是本发明实施例的基于数据驱动的燃气气量数据异常检测方法的整体逻辑的示意图;
图3是本发明一个可参考实施例的基于数据驱动的燃气气量数据异常检测方法的应用示意图;
图4是本发明一个可参考实施例的基于数据驱动的燃气气量数据异常检测方法的根据燃气气量数据定位异常管道的示意图;
图5是本发明一个可参考实施例的基于数据驱动的燃气气量数据异常检测方法的基于异常值完成燃气气量数据异常检测的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供的基于数据驱动的燃气气量数据异常检测方法主要包括如下步骤:
步骤101、获取待检测区域内所有用户在不同时间段内的燃气气量。
本发明实施例的燃气气量为燃气用气量,表示在一定时间段内所消耗的燃气量。基于每个用户在一个时间段的燃气气量能够完成待检测区域的燃气气量数据异常检测。
在本发明实施例中,步骤101可以采用如下方式实现:通过燃气气量数据管理平台,获取待检测区域内所有用户在不同时间段内的燃气气量。
燃气气量数据管理平台是一种燃气综合管理平台,本发明实施例主要借助燃气气量数据管理平台的记录用户燃气使用和监控主管道的功能,通过燃气气量数据管理平台,获取得到当前待检测区域内所有用户的燃气气量数据。
作为一种优选的实施方式,每个时间段的时长可以根据需要确定,优选为3分钟,同时,时间段的起始或终止点也可以根据需要确定。则从燃气气量数据管理平台获取的燃气气量数据是每个用户在某个3分钟内所消耗的燃气量。
步骤102、将同一时间段内所有用户的燃气气量以不同级别主管道为节点建立第一图形数据结构。
步骤101得到的数据用于异常数据分析,先建立图形数据结构,通过图形数据结构表述主管道与燃气气量之间的相关关系。图形数据结构是图形几何信息-拓扑信息的组织、构造和处理的形式,主要研究形状和图形数据元素之间的关系。图形数据结构与一般数据结构不同,它必须要反映数据所对应元素之间的几何关系和拓扑关系。本发明实施例以每个用户在一个时间段内的燃气气量作为一个数据点,以不同级别主管道为节点建立第一图形数据结构。
在本发明实施例中,步骤102可以采用如下方式实现:将不同级别的主管道作为节点建立基础图结构;以每一用户与对应主管道之间、不同级别主管道之间的连接性作为基础图结构中的边,以燃气流向作为各条边的方向;各条边的边权为下一级主管道或用户对应的燃气气量。
将各个主管道作为节点按不同级别建立基础图结构,各个用户与对应主管道之间的连接性、燃气线路中各个主管道的连接性作为边连接各个节点,各节点之间的边权为下一级主管道或者直连用户对应的燃气气量,从而完成第一图形数据结构的构建。并且,本步骤建立的第一图形数据结构为有向图形数据结构,其中每条边的方向为燃气流向。
需要注意的是,作为节点的主管道其自身的燃气气量为0,对于与用户直连的主管道,其对应的燃气气量为用户对应的燃气气量,对于未与用户直连的主管道,其对应的燃气气量为下一级的各个主管道对应的燃气气量之和。因此,用户和与用户直连的主管道对应节点之间的边权为用户对应的燃气气量;未与用户直连的主管道对应节点与下一级节点之间的边权为下一级各个节点对应的主管道所对应的燃气气量之和。
步骤103、基于第一图形数据结构计算各个主管道的异常概率值。
对第一图形数据结构进行数据异常分析,可以得到每个主管道的异常概率值。
在本发明实施例中,步骤103可以采用如下方式实现:获取第一图形数据结构的邻接矩阵;基于邻接矩阵计算各个主管道的异常概率值。
为了快速获取找到存在异常数据的部分,本发明实施例先获取第一图形数据结构对应的邻接矩阵,再通过对邻接矩阵的分析可以进一步计算出异常概率值。其中,邻接矩阵表示顶点之间相邻关系的矩阵。
由于邻接矩阵为对称矩阵,所以可以按行或者按列分析,本发明实施例将邻接矩阵中的一行数据或一列数据作为一个数据组。只有未与用户直连的主管道对应的节点才会具有多个节点同时与其进行连接(即有多条边),而与用户直连的主管道对应的节点不存在与其相连接的其他用户(即仅有一条边)。基于此,在对称矩阵中,每个数据组代表一个节点,每个有值数据点表示当前节点的一条边,若数据组中有值数据点的个数为1则表示当前节点只有一条边,该数据组属于用户数据组,对应的主管道是与用户直连的;若数据组中有值数据点的个数大于1则表示当前节点至少有两条边,该数据组属于管道数据组,对应的主管道是未与用户直连的。
在本发明实施例中,基于邻接矩阵计算各个主管道的异常概率值,可以采用如下方式实现:统计邻接矩阵的每个数据组中有值数据点的个数;计算每个管道数据组中除邻接矩阵对角线数据的数据累计和;计算每个管道数据组中数据累计和与邻接矩阵对角线数据的差值绝对值;获取各个管道数据组对应的差值绝对值的单高斯函数模型;获取单高斯函数模型的峰值导数,并将峰值导数与单高斯函数模型相乘得到管道异常概率分布;取管道异常概率分布的一半,计算管道异常概率分布中各个管道异常概率的概率均值,将小于概率均值的管道异常概率重置为1;用1减管道异常概率得到各个管道数据组对应的主管道的异常概率值。
对于管道数据组,如果对应的主管道不存在偷气漏气行为,则在该管道数据组中邻接矩阵对角线数据应当与其余数据值的累加和相等,如果不相等则表示当前列对应管道的燃气气量数据异常。但是燃气气量在获取时可能存在一定的误差,所以获取邻接矩阵中每个管道数据组中除邻接矩阵对角线数据的数据累计和,计算每个管道数据组中数据累计和与邻接矩阵对角线数据的差值绝对值,差值绝对值越大表示当前管道数据组对应主管道越可能存在漏气情况。虽然差值绝对值越大表示可能存在漏气的概率值越大,但是由于测量必然会存在一定的误差,且漏气偷气为少数行为,因此,进一步获取这些差值绝对值的单高斯函数模型,单高斯函数模型为对称结构,为了使得单高斯函数模型更好地表示管道异常概率,获取单高斯函数模型的峰值导数,将峰值导数与单高斯函数模型相乘,所得到的管道异常概率分布中的最大值(即峰值)为1。进而取管道异常概率分布的一半,计算管道异常概率的均值得到概率均值,将小于概率均值的管道异常概率重置为1,而大于等于概率均值的管道异常概率则保留原值,最后进而用1减去管道异常概率得到主管道的异常概率值,使得大于等于概率均值的管道异常概率对应的主管道的异常概率值越接近于1。
步骤104、将各个主管道的异常概率值以不同级别主管道为节点建立第二图形数据结构。
由于主管道具有一定的连接属性,所以其异常概率存在一定的传播,为了有效地定位管道异常源,则本发明实施例额外生成了一个图形数据结构,额外生成的第二图形数据结构与第一图形数据结构相比,节点、连接关系和边的方向均不变,但是边权全部由燃气气量置换为异常概率值,其中,各边权对应的异常概率值为按边的方向指向的后一个节点对应的异常概率值,而与直连用户的主管道对应的节点所对应的边权为0。
在本发明实施例中,步骤104可以采用如下方式实现:将不同级别的主管道作为节点建立基础图结构;以每一用户与对应主管道之间、不同级别主管道之间的连接性作为基础图结构中的边,以燃气流向作为各条边的方向;各条边的边权为下一级主管道对应的异常概率值。
本步骤得到各个主管道对应的异常概率值,异常概率值越大则表示对应的主管道的异常概率越高。
步骤105、基于对第二图形数据结构的聚类从主管道中定位异常管道。
对其第二图形数据结构进行聚类分析从而定位异常管道。
在本发明实施例中,步骤105可以采用如下方式实现:利用谱聚类对第二图形数据结构的节点进行分类,得到N个谱聚类类别;计算每个谱聚类类别内异常概率值的均值,得到各个谱聚类类别对应的谱聚类均值;对所有谱聚类均值利用k-means算法进行二分类,得到两个二分类类别;计算两个二分类类别对应的异常概率值的均值;选择异常概率值的均值最大的二分类类别所包含的谱聚类类别作为异常分析类别;根据燃气流向将每个异常分析类别对应的最后一级节点对应的主管道定位为异常管道。
先利用谱聚类将第二图形数据结构中的节点按照无向图(不考虑方向)进行分类,将不同数量的节点分为一类,其中异常概率值近似且邻近的节点会被分为一类,得到N个谱聚类类别,获取所有谱聚类类别内所有节点对应的异常概率值的均值,得到各个谱聚类类别对应的谱聚类均值,对所有的谱聚类均值利用k-means算法进行二分类,进而获取二分类结果中两个二分类类别对应的异常概率值的均值,选择二分类结果中异常概率值的均值较大的二分类类别所包含谱聚类类别作为需要进行异常分析类别,获取异常分析类别中对应节点之间的方向性,进而根据各主管道对应节点之间的方向性(即根据燃气的走向)将最后一级节点对应的主管道定位为异常管道。
谱聚类是由给定的样本数据集定义一个数据点对相似度的矩阵,并计算相关矩阵的特征值和特征向量,选择合适的特征向量来聚类不同的数据点的方法。谱聚类的具体实现可以根据参考现有技术方案或已有计算机程序,本发明实施例不予赘述。
K-means算法即k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是:预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。本发明实施例中将K设定为2,而K-means算法的其它具体参数可以根据实际需要或历史经验设置,以及K-means算法的具体实现可以根据参考现有技术方案或已有计算机程序,本发明实施例不予赘述。
步骤106、计算与每个异常管道直连的用户的异常值。
在确定出异常管道后,则需要对其下级所连接的用户进行异常排查,计算这些用户的异常值。
在本发明实施例中,步骤106可以采用如下方式实现:计算与每个异常管道直连的用户的燃气气量与对应的主管道的燃气气量之间的相关性系数;基于异常管道的异常概率值和用户对应的相关性系数计算用户的异常值。
由于主管道和用户之间具有连通性,异常管道的燃气气量和与其直连的各用户的燃气气量之间的相关性应该较强,因此如果相关性较弱则表示对应的风险较大。相关性系数是表示变量之间线性相关程度的量,相关系数有多种定义方式,可以根据需要选择,且相关性系数的具体计算可以根据参考现有技术方案或已有计算机程序,本发明实施例不予赘述。
作为一种优选的实施方式,可以根据以下公式计算用户的异常值:
Ym=Xj*exp(-Gm)
式中,Ym为第m个用户的异常值,Xj为第j个异常管道对应的异常概率值,Gm为与第j个异常管道直连的第m个用户的燃气气量与第j个异常管道在同一时间段内燃气气量变化的相关性系数。
其中,Gm越大表示第m个用户的燃气气量变化与第j个异常管道在同一时间段内的燃气气量变化的相关性系数越大,则异常风险越低,但是由于可能存在部分用户无使用情况,所以利用exp(-())函数进行负相关映射,使得Gm的值越小Ym的值越大。Xj越大表示当前主管道的异常越严重,越可能存在多个偷气漏气情况,通过将各用户的相关性系数与该主管道的异常概率值相乘,表示扩大异常概率检测范围。
步骤107、基于异常值完成待检测区域的燃气气量数据异常检测。
在进行用户异常排查时,由于偷气行为或者漏气时,无法进行有效数据的测量,只能通过筛选异常值结合燃气停止使用申报,完成对用户的燃气气量异常检测。
在本发明实施例中,步骤107可以采用如下方式实现:通过燃气气量数据管理平台查询与每个异常管道直连的用户是否具有燃气停止使用申报;若具有燃气停止使用申报,则消除该用户的异常值;若不具有燃气停止使用申报,则将异常值大于异常阈值的用户作为异常用户。
在对与每个异常管道直连的用户进行异常排查时,需要排查该用户是否具有燃气停止使用申报,如果存在有燃气停止使用申报,则消除该用户的异常概率值,否则根据其异常值进行燃气气量数据异常检测,当异常值大于异常阈值时,认为当前用户存在较高的风险,其燃气气量数据为异常,应当对其进行燃气使用排查,反之则认为无风险。
异常阈值为超参数,可以根据实际需要或历史经验设置,优选地,将异常阈值设置为0.8。
如图2所示,本发明实施例的基于数据驱动的燃气气量数据异常检测方法的整体逻辑主要包括以下部分:
一、采集当前燃气气量数据,建立燃气气量数据的图形数据结构。
通过燃气气量数据管理平台,可以得到当前待进行燃气气量异常检测的待检测区域内所有用户的燃气气量数据。燃气气量数据包括了每个用户在不同时间段的燃气气量。基于燃气气量数据构建第一图形数据结构,通过第一图形数据结构表述主管道与燃气气量之间的相关关系,以用于数据异常分析。
二、根据图形数据结构,完成异常管道的定位。
对第一图形数据结构进行数据异常分析,可以得到每个主管道的异常概率值。由于主管道具有一定的连接属性,所以其异常概率存在一定的传播,进而为了有效地定位管道异常源,再基于异常概率值构建第二图形数据结构。对其第二图形数据结构进行聚类分析从而定位异常管道。
具体地,为了快速获取找到存在异常数据的部分,首先获取第一图形数据结构对应的邻接矩阵,其次通过对邻接矩阵的分析可以进一步计算出异常概率值,然后基于异常概率值构建第二图形数据结构,再利用谱聚类将第二图形数据结构中的节点按照无向图(不考虑方向)进行分类,将不同数量的节点分为一类,其中异常概率值近似且邻近的节点会被分为一类,得到N个谱聚类类别,之后获取所有谱聚类类别内所有节点对应的异常概率值的均值,得到各个谱聚类类别对应的谱聚类均值,对所有的谱聚类均值利用k-means算法进行二分类,进而获取二分类结果中两个二分类类别对应的异常概率值的均值,选择二分类结果中异常概率值的均值较大的二分类类别所包含谱聚类类别作为需要进行异常分析类别,最后获取异常分析类别中对应节点之间的方向性,进而根据各主管道对应节点之间的方向性(即根据燃气的走向)将最后一级节点对应的主管道定位为异常管道。
三、根据定位的异常管道,进行燃气气量数据异常检测。
在确定出存在异常的管道后,需要对其下级所连接的用户的燃气气量进行异常检测,其中在进行用户的异常检测时,由于偷气行为或者漏气时无法进行有效数据的测量,故只能通过筛选掉低异常值的用户,再结合燃气停止使用申报,完成对用户的异常检测。
由于主管道和用户之间具有连通性,异常管道的燃气气量和与其直连的各用户的燃气气量之间的相关性应该较强,如果相关性较弱则表示对应的风险较大。因此,结合异常管道的异常概率值和用户对应的与对应的主管道之间的相关性系数计算用户的异常值,基于燃气停止使用申报和异常值找出当前存在较高风险的用户,对其进行燃气使用排查。
如图3所示,在应用本发明实施例的基于数据驱动的燃气气量数据异常检测方法时,可参考以下流程:
301、通过燃气气量数据管理平台,获取待检测区域内所有用户在不同时间段内的燃气气量。
302、将同一时间段内所有用户的燃气气量构建为第一图形数据结构。
303、获取第一图形数据结构的邻接矩阵。
304、基于邻接矩阵计算各个主管道的异常概率值。
305、将各个主管道的异常概率值构建为第二图形数据结构。
306、对第二图形数据结构进行聚类分析,结合燃气流向定位出异常管道。
307、计算与每个异常管道直连的用户的燃气气量与对应的主管道的燃气气量之间的相关性系数。
308、基于异常管道的异常概率值和用户对应的相关性系数计算用户的异常值。
309、结合异常值和燃气停止使用申报,完成对用户的燃气气量异常检测。
如图4所示,在应用本发明实施例的基于数据驱动的燃气气量数据异常检测方法时,根据燃气气量数据定位异常管道可参考以下流程:
401、将同一时间段内所有用户的燃气气量构建为第一图形数据结构;
402、获取第一图形数据结构的邻接矩阵,并在邻接矩阵中划分出管道数据组;
403、计算每个管道数据组中除邻接矩阵对角线数据的数据累计和与邻接矩阵对角线数据的差值绝对值;
404、获取各个管道数据组对应的差值绝对值的单高斯函数模型;
405、基于单高斯函数模型计算各个管道数据组对应的主管道的异常概率值;
406、将各个主管道的异常概率值构建为第二图形数据结构;
407、利用谱聚类将第二图形数据结构的节点划分为N个谱聚类类别;
408、计算每个谱聚类类别内异常概率值的均值,得到各个谱聚类类别对应的谱聚类均值;
409、利用k-means算法对所有谱聚类均值进行二分类,并计算得到的两个二分类类别对应的异常概率值的均值;
410、选择异常概率值的均值最大的二分类类别所包含的谱聚类类别作为异常分析类别;
411、根据燃气流向将每个异常分析类别所包含的最后一级节点对应的主管道定位为异常管道。
如图5所示,在应用本发明实施例的基于数据驱动的燃气气量数据异常检测方法时,基于异常值完成燃气气量数据异常检测可参考以下流程:
501、通过燃气气量数据管理平台查询与每个异常管道直连的用户是否具有燃气停止使用申报;
若具有燃气停止使用申报,则执行502;若不具有燃气停止使用申报,则执行503;
502、消除该用户的异常值;
503、将每个用户的异常值与异常阈值进行比较:
若异常值大于异常阈值,则将用户划分为异常用户,对其进行燃气使用排查;若异常值小于等于异常阈值,则将用户划分为无风险用户。
综上所述,本发明实施例的基于数据驱动的燃气气量数据异常检测方法,通过构建图形数据结构,实现较为准确的异常管道定位,并基于主管道的异常程度确定用户的异常程度,有效地提高了监测范围,防止偷气漏气的异常检测。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于数据驱动的燃气气量数据异常检测方法,其特征在于,包括:
获取待检测区域内所有用户在不同时间段内的燃气气量;
将同一时间段内所有用户的燃气气量以不同级别主管道为节点建立第一图形数据结构;
基于所述第一图形数据结构计算各个主管道的异常概率值;
将各个主管道的所述异常概率值以不同级别主管道为节点建立第二图形数据结构;
基于对所述第二图形数据结构的聚类从主管道中定位异常管道;
计算与每个所述异常管道直连的用户的异常值;
基于所述异常值完成待检测区域的燃气气量数据异常检测。
2.根据权利要求1所述的基于数据驱动的燃气气量数据异常检测方法,其特征在于,获取待检测区域内所有用户在不同时间段内的燃气气量,包括:
通过燃气气量数据管理平台,获取待检测区域内所有用户在不同时间段内的燃气气量;每个时间段的时长为3分钟。
3.根据权利要求1所述的基于数据驱动的燃气气量数据异常检测方法,其特征在于,将同一时间段内所有用户的燃气气量以不同级别主管道为节点建立第一图形数据结构,包括:
将不同级别的主管道作为节点建立基础图结构;
以每一用户与对应主管道之间、不同级别主管道之间的连接性作为所述基础图结构中的边,以燃气流向作为各条所述边的方向;
各条所述边的边权为下一级主管道或用户对应的燃气气量。
4.根据权利要求1所述的基于数据驱动的燃气气量数据异常检测方法,其特征在于,基于所述第一图形数据结构计算各个主管道的异常概率值,包括:
获取所述第一图形数据结构的邻接矩阵;
基于所述邻接矩阵计算各个主管道的异常概率值。
5.根据权利要求4所述的基于数据驱动的燃气气量数据异常检测方法,其特征在于,基于所述邻接矩阵计算各个主管道的异常概率值,包括:
统计所述邻接矩阵的每个数据组中有值数据点的个数;其中,将所述邻接矩阵中的一行数据或一列数据作为一个所述数据组;有值数据点的个数等于1的所述数据组属于用户数据组,有值数据点的个数大于1的所述数据组属于管道数据组;
计算每个所述管道数据组中除邻接矩阵对角线数据的数据累计和;
计算每个所述管道数据组中所述数据累计和与所述邻接矩阵对角线数据的差值绝对值;
获取各个所述管道数据组对应的所述差值绝对值的单高斯函数模型;
获取所述单高斯函数模型的峰值导数,并将所述峰值导数与所述单高斯函数模型相乘得到管道异常概率分布;
取所述管道异常概率分布的一半,计算所述管道异常概率分布中各个管道异常概率的概率均值,将小于所述概率均值的所述管道异常概率重置为1;
用1减所述管道异常概率得到各个所述管道数据组对应的主管道的异常概率值。
6.根据权利要求1所述的基于数据驱动的燃气气量数据异常检测方法,其特征在于,将各个主管道的所述异常概率值以不同级别主管道为节点建立第二图形数据结构,包括:
将不同级别的主管道作为节点建立基础图结构;
以每一用户与对应主管道之间、不同级别主管道之间的连接性作为所述基础图结构中的边,以燃气流向作为各条所述边的方向;
各条所述边的边权为下一级主管道对应的异常概率值。
7.根据权利要求1所述的基于数据驱动的燃气气量数据异常检测方法,其特征在于,基于对所述第二图形数据结构的聚类从主管道中定位异常管道,包括:
利用谱聚类对所述第二图形数据结构的节点进行分类,得到N个谱聚类类别;
计算每个所述谱聚类类别内所述异常概率值的均值,得到各个所述谱聚类类别对应的谱聚类均值;
利用k-means算法对所有所述谱聚类均值进行二分类,得到两个二分类类别;
计算两个所述二分类类别对应的所述异常概率值的均值;
选择所述异常概率值的均值最大的所述二分类类别所包含的所述谱聚类类别作为异常分析类别;
根据燃气流向将每个所述异常分析类别所包含的最后一级节点对应的主管道定位为异常管道。
8.根据权利要求1所述的基于数据驱动的燃气气量数据异常检测方法,其特征在于,计算与每个所述异常管道直连的用户的异常值,包括:
计算与每个所述异常管道直连的用户的燃气气量与对应的主管道的燃气气量之间的相关性系数;
基于所述异常管道的异常概率值和用户对应的所述相关性系数计算用户的异常值。
9.根据权利要求8所述的基于数据驱动的燃气气量数据异常检测方法,其特征在于,根据以下公式计算用户的异常值:
Ym=Xj*exp(-Gm)
式中,Ym为第m个用户的所述异常值,Xj为第j个所述异常管道对应的所述异常概率值,Gm为与第j个所述异常管道直连的第m个用户的燃气气量与第j个所述异常管道在同一时间段内燃气气量变化的所述相关性系数。
10.根据权利要求1所述的基于数据驱动的燃气气量数据异常检测方法,其特征在于,基于所述异常值完成待检测区域的燃气气量数据异常检测,包括:
通过燃气气量数据管理平台查询与每个所述异常管道直连的用户是否具有燃气停止使用申报;
若具有燃气停止使用申报,则消除该用户的所述异常值;
若不具有燃气停止使用申报,则将所述异常值大于异常阈值的用户作为异常用户;其中,所述异常阈值取值为0.8。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311001523.3A CN117113248B (zh) | 2023-08-10 | 2023-08-10 | 基于数据驱动的燃气气量数据异常检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311001523.3A CN117113248B (zh) | 2023-08-10 | 2023-08-10 | 基于数据驱动的燃气气量数据异常检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117113248A true CN117113248A (zh) | 2023-11-24 |
CN117113248B CN117113248B (zh) | 2024-06-11 |
Family
ID=88795728
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311001523.3A Active CN117113248B (zh) | 2023-08-10 | 2023-08-10 | 基于数据驱动的燃气气量数据异常检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117113248B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019237492A1 (zh) * | 2018-06-13 | 2019-12-19 | 山东科技大学 | 一种基于半监督学习的异常用电用户检测方法 |
WO2020155755A1 (zh) * | 2019-01-28 | 2020-08-06 | 平安科技(深圳)有限公司 | 基于谱聚类的异常点比例优化方法、装置及计算机设备 |
CN115374851A (zh) * | 2022-08-19 | 2022-11-22 | 北京市燃气集团有限责任公司 | 一种燃气数据异常检测方法及装置 |
CN115713095A (zh) * | 2022-11-28 | 2023-02-24 | 南京工程学院 | 基于混合深度神经网络的天然气管道异常检测方法和系统 |
US20230079768A1 (en) * | 2022-10-08 | 2023-03-16 | Chengdu Qinchuan Iot Technology Co., Ltd. | Methods and internet of things (iot) systems for processing abnormality of smart gas pipeline network |
CN116011633A (zh) * | 2022-12-23 | 2023-04-25 | 浙江苍南仪表集团股份有限公司 | 区域燃气用量预测方法、系统、设备及物联网云平台 |
CN116257811A (zh) * | 2023-05-16 | 2023-06-13 | 天津新科成套仪表有限公司 | 一种基于燃气流量检测深度学习的异常处理方法 |
CN116485041A (zh) * | 2023-06-14 | 2023-07-25 | 天津生联智慧科技发展有限公司 | 一种燃气数据的异常检测方法及装置 |
-
2023
- 2023-08-10 CN CN202311001523.3A patent/CN117113248B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019237492A1 (zh) * | 2018-06-13 | 2019-12-19 | 山东科技大学 | 一种基于半监督学习的异常用电用户检测方法 |
WO2020155755A1 (zh) * | 2019-01-28 | 2020-08-06 | 平安科技(深圳)有限公司 | 基于谱聚类的异常点比例优化方法、装置及计算机设备 |
CN115374851A (zh) * | 2022-08-19 | 2022-11-22 | 北京市燃气集团有限责任公司 | 一种燃气数据异常检测方法及装置 |
US20230079768A1 (en) * | 2022-10-08 | 2023-03-16 | Chengdu Qinchuan Iot Technology Co., Ltd. | Methods and internet of things (iot) systems for processing abnormality of smart gas pipeline network |
CN115713095A (zh) * | 2022-11-28 | 2023-02-24 | 南京工程学院 | 基于混合深度神经网络的天然气管道异常检测方法和系统 |
CN116011633A (zh) * | 2022-12-23 | 2023-04-25 | 浙江苍南仪表集团股份有限公司 | 区域燃气用量预测方法、系统、设备及物联网云平台 |
CN116257811A (zh) * | 2023-05-16 | 2023-06-13 | 天津新科成套仪表有限公司 | 一种基于燃气流量检测深度学习的异常处理方法 |
CN116485041A (zh) * | 2023-06-14 | 2023-07-25 | 天津生联智慧科技发展有限公司 | 一种燃气数据的异常检测方法及装置 |
Non-Patent Citations (2)
Title |
---|
PENG ZHANG等: ""Anomalous State Detection of Dissolved Gases in Transformer Oil Based on the Canopy Hyper Sphere Model"", 《2018 IEEE ELECTRICAL INSULATION CONFERENCE (EIC)》, 31 December 2018 (2018-12-31), pages 228 - 231 * |
朱炼;赵勇;张海军;蒋中宇;吴峻;: "燃气用户端气量监控系统", 城市燃气, no. 10, 15 October 2019 (2019-10-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN117113248B (zh) | 2024-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11748227B2 (en) | Proactive information technology infrastructure management | |
US20210041862A1 (en) | Malfunction early-warning method for production logistics delivery equipment | |
Antunes et al. | Knee/elbow estimation based on first derivative threshold | |
CN107256237A (zh) | 基于动态网格优化的lof聚类数据异常点检测方法和检测系统 | |
WO1997002528A1 (en) | Method and system for an architecture based analysis of software quality | |
CN109947815B (zh) | 一种基于离群点算法的窃电辨识方法 | |
CN111898647A (zh) | 一种基于聚类分析的低压配电设备误告警识别方法 | |
CN112906738B (zh) | 一种水质检测及处理方法 | |
CN113298162A (zh) | 一种基于K-means算法的桥梁健康监测方法及系统 | |
CN112949735A (zh) | 一种基于离群数据挖掘的液态危化品挥发浓度异常发现方法 | |
CN108038211A (zh) | 一种基于上下文的无监督关系数据异常检测方法 | |
CN114266289A (zh) | 一种复杂装备健康状态评估方法 | |
CN104376078A (zh) | 一种基于知识熵的异常数据检测方法 | |
CN100465997C (zh) | 基于元胞自动机的图像边缘检测算法 | |
CN117113248B (zh) | 基于数据驱动的燃气气量数据异常检测方法 | |
US20080091715A1 (en) | Method and system of creating health operating envelope for dynamic systems by unsupervised learning of a sequence of discrete event codes | |
CN116365519A (zh) | 一种电力负荷预测方法、系统、存储介质及设备 | |
CN116415836A (zh) | 一种面向智能电网信息系统的安全性评价方法 | |
CN114565031A (zh) | 基于经纬度的车队识别方法、装置及计算机设备 | |
CN112884167B (zh) | 一种基于机器学习的多指标异常检测方法及其应用系统 | |
Shao et al. | A quantitative measurement method of code quality evaluation indicators based on data mining | |
CN116956638B (zh) | 一种设备寿命数据联合拟合检验分析方法 | |
CN111626586B (zh) | 数据质量检测方法、装置、计算机设备和存储介质 | |
CN115270140B (zh) | 一种软件安全漏洞管理方法及系统 | |
CN109474445B (zh) | 一种分布式系统根源故障定位方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |