CN114861788A - 一种基于dbscan聚类的负荷异常检测方法及系统 - Google Patents
一种基于dbscan聚类的负荷异常检测方法及系统 Download PDFInfo
- Publication number
- CN114861788A CN114861788A CN202210460694.1A CN202210460694A CN114861788A CN 114861788 A CN114861788 A CN 114861788A CN 202210460694 A CN202210460694 A CN 202210460694A CN 114861788 A CN114861788 A CN 114861788A
- Authority
- CN
- China
- Prior art keywords
- clustering
- load
- data
- abnormal
- core object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 36
- 230000002159 abnormal effect Effects 0.000 claims abstract description 46
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000012360 testing method Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000011156 evaluation Methods 0.000 claims abstract description 4
- 230000005856 abnormality Effects 0.000 claims description 13
- 238000000691 measurement method Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 7
- 230000008901 benefit Effects 0.000 abstract description 4
- 238000000354 decomposition reaction Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于DBSCAN聚类的负荷异常检测方法及系统,方法包括:步骤1,采集负荷异常数据;步骤2,对负荷异常数据进行预处理后得到可靠数据集;将可靠数据集划分为训练集和测试集;步骤3,搭建DBSCAN聚类模型,以训练集为输入,以异常类型聚类簇为输出,对聚类模型进行训练;步骤4,使用训练好的聚类模型对测试集进行聚类,以轮廓系数作为聚类结果评价指标,以获得负荷异常的多个辨识类型簇。本发明在经过数据预处理后,充分利用DBSCAN聚类算法的聚类优势,聚类结果的精确度得到进一步提升,聚类过程中,无需预设聚类簇数,通过寻找数据内在规律、及时发现数据异常点,从而实现对负荷异常数据的聚类,根据聚类结果准确辨识负荷异常类型。
Description
技术领域
本发明属于电力系统负荷的检测技术领域,具体涉及一种基于DBSCAN聚类的负荷异常检测方法及系统。
背景技术
配电网在整个电力系统中发挥着至关重要的作用,配电网中精准可靠的负荷数据有助于负荷预测、调度生产等工作需求。因此,如何准确地辨识配电网中的异常负荷数据成为最需要解决的问题之一。
电力负荷量测数据在采集、传递、交换等过程中,常因设备、网络或者天气等原因导致有些数据出现错误,从而影响电力负荷的预测、调度等工作,数据质量会直接影响数据关联以及整合结果。因此,对负荷异常数据进行检测就显得尤为重要。
机器学习的发展使得对负荷异常辨识的方法变得更多且准确,借助机器学习中的无监督学习可以为负荷异常数据进行分簇,再人为地定义每个簇的异常类型,即可做到负荷异常辨识。现有技术1(CN109492048A)“一种电力用户用电特性的提取方法、系统及终端设备”,对样本数据进行处理获得目标用电数据集;通过DBSCAN聚类算法(Density-BasedSpatial Clustering of Applications with Noise,具有噪声的基于密度的聚类算法)和聚类有效性指标,计算目标用电数据集的负荷模式聚类数;通过DBSCAN聚类算法,将目标用电数据集按照负荷模式聚类数聚类,得到电力用户用电特性曲线。现有技术1通过将DBSCAN聚类算法和聚类有效性指标相结合,先确定负荷模式聚类数,再提取电力用户用电特性。现有技术2(CN109583763A)“分行业用户电力负荷增长特征挖掘算法”,包括:汇集电力用户基础信息,搭建营配大数据汇集仓库;计算电力用户增长特性参数,应用Logsitic模型拟合用户负荷数据,识别用户的负荷成长模式,将多维度的历史负荷数据转换为三个维度;采用参数自适应的DBSCAN聚类分析算法,对用户增长特性参数进行聚类,分不同行业、不同用电规模搜索典型组团;统计所有行业类别的负荷增长参数典型值,根据典型参数值形成行业典型负荷成长曲线,并应用参数标准差值来判断规律强弱程度。现有技术2能够用于分析海量电力用户负荷数据,识别电力用户的负荷成长模式,提炼各级行业的用户电力负荷增长特征。现有技术3(CN113326296A)“一种适用于工商业用户的负荷分解的方法及系统”,按照固定时间周期提取波形数据的特征,形成特征时序序列;基于DBSCAN聚类,对预处理后的特征时序序列进行聚类操作,获得聚类结果,根据聚类结果提取预处理后的特征时序序列的序列点,重新组建特征差值时序序列,确定优化特征差值时序序列;对优化特征差值时序序列进行差值匹配,确定差值匹配结果;对归属于同一种设备的启停状态事件进行映射,优化特征维度,辨识设备的电气类型,确定负荷辨识结果,建立工商业用户的专属模型特征库;对于待分析的一段时间的总线侧波形数据,根据负荷辨识结果,得到一段时间的各类设备负荷功耗占比,实现工商业用户总线负荷的分解。
现有技术1至3均使用DBSCAN聚类算法对具有凸样本特性的负荷集合进行聚类,然而负荷异常集合具有非凸样本特性,以现有技术1至3为代表的相关研究均未涉及使用DBSCAN聚类算法对负荷异常数据的聚类分析。此外,现有技术1的缺点在于尽管采用DBSCAN对负荷模式进行聚类,但是未对数据进行预处理,而DBSCAN的聚类精度容易受到噪声数据的影响。
本发明相对于技术1不同的创新点有采用拉格朗日插值法去除负荷数据中的间断点,同时采用改进小波阈值去噪算法去除负荷数据中的噪声点。本发明相对于现有技术1具有排除由于数据采集过程中由于噪声点及间断点造成的影响,将聚类过程聚焦于发现电网异常时的负荷情况的有益效果。
发明内容
为解决现有技术中存在的不足,本发明的目的在于,提供一种基于DBSCAN聚类的负荷异常检测方法及系统,直接采集负荷异常数据进行DBSCAN聚类,通过聚类异常类型的个数并定义每个异常类型,从而提升负荷异常检测的准确性和可靠性。
本发明采用如下的技术方案。
本发明一方面提出一种基于DBSCAN聚类的负荷异常检测方法,包括:
步骤1,采集负荷异常数据;
步骤2,对负荷异常数据进行预处理后得到可靠数据集;将可靠数据集划分为训练集和测试集;
步骤3,搭建DBSCAN聚类模型,以训练集为输入,以异常类型聚类簇为输出,对聚类模型进行训练;
步骤4,使用训练好的聚类模型对测试集进行聚类,以轮廓系数作为聚类结果评价指标,以获得负荷异常的多个辨识类型簇。
步骤1中,负荷数据包括:有功功率和无功功率。异常数据主要包括两种类型:一种是由于数据缺损导致负荷数据波形中产生尖峰,另一种就是由于冲击负荷和信道噪声使得负荷数据波形中出现大量的毛刺。
步骤2包括:
步骤2.1,采用拉格朗日插值法去除负荷异常数据中的间断点;
步骤2.2,采用改进小波阈值去噪算法去除负荷异常数据中的噪声点;
步骤2.3,经过步骤2.1和2.2处理后得到可靠数据集,对可靠数据集按2:1的比例划分为训练集和测试集。
步骤3包括:
步骤3.1,建立输入集合D={x1,x2,…,xm}和邻域∈,j=1,2,…,m;
步骤3.2,初始化核心对象集合,即令Ω=Φ;初始化聚类簇数,即令k=0;初始化未访问样本集合,即令Γ=D;初始化异常类型聚类簇,即令C=Φ;
步骤3.3,每次迭代寻找时令k=k+1;利用距离度量方法,迭代寻找全部的核心对象;
步骤3.4,若核心对象集合Ω=Φ,则迭代结束,进入步骤3.8;若核心对象集合Ω≠Φ,则进入步骤3.5;
步骤3.5,在核心对象集合Ω中,随机选择第一个核心对象o,初始化当前簇核心对象队列,即令Ωcur={o},初始化当前簇样本集合,即令Ck={o},更新未访问样本集合,即令Γ=Γ-{o};
步骤3.6,如果当前簇核心对象队列则当前聚类簇Ck生成完毕,更新簇划分集合C={C1,C2,...,Ck},更新核心对象集合,即令Ω=Ω-Ck,并转入步骤3.3;否则更新核心对象集合,即令Ω=Ω-Ck;
步骤3.7,在当前簇核心对象队列Ωcur中取出第二个核心对象o′,通过邻域距离阈值找出第二个核心对象在邻域∈中中对应的子样本集N∈(o′),令Δ=N∈(o′)∩Γ,更新当前簇样本集合,即令Ck=Ck∪Δ,更新未访问样本集合,即令Γ=Γ-Δ,更新当前簇核心对象队列,即令Ωcur=Ωcur∪(Δ∩Ω)-o′,并转入步骤3.3;
步骤3.8,输出异常类型聚类簇C={C1,C2,...,Ck}。
步骤3.1中,对于第j个样本xj在邻域∈中对应的子样本集N∈(xj)至少包含MinPts个样本,MinPts=5。
步骤3.3中,距离度量方法包括KD树实现法;
从训练集中提取W维特征以获得KD树模型;其中,计算W维特征的取值的方差,用方差最大的第w维特征作为根节点,并选取第w维特征的取值的中位数对应的样本作为划分点;对特征的取值小于第w维特征的取值的中位数的样本均划入左子树,对特征的取值大于第w维特征的取值的中位数的样本均划入右子树;对于左子树和右子树,再采用用方差最大的第v维特征作为父节点,递归生成KD树模型;
利用KD树模型在测试集中预测样本目标点的最近邻;其中,对于一个样本目标点,首先在KD树模型里面找到包含样本目标点的叶子节点,以样本目标点为圆心,以样本目标点到叶子节点的距离为半径,得到一个超球体;返回叶子节点的父节点,检查父节点对应的另一个子节点包含的超矩形体是否和超球体相交,如果相交,则进入叶子节点寻找是否有更加接近的近邻;如果不相交;返回父节点的父节点,在另一个子树搜索最近邻;当回溯到根节点时,算法结束,此时保存的最近邻节点就是预测得到的样本目标点的最近邻。
步骤3.4中,如果子样本集N∈(xj)中样本个数满足|N∈(xj)|≥MinPts,将第j个样本xj加入核心对象集合,即令Ω=Ω∪{xj}。
步骤4中,根据轮廓系数公式计算出轮廓系数值。
本发明另一方面提出一种基于DBSCAN聚类的负荷异常检测系统,用于实现一种基于DBSCAN聚类的负荷异常检测方法。
负荷异常检测系统包括存储器、处理器、无线通讯模块;所述存储器存储有计算机程序,处理器调用计算机程序执行一种基于DBSCAN聚类的负荷异常检测方法的各个步骤,以负荷异常数据为负荷异常检测系统的输入数据,以负荷异常的多个辨识类型簇为负荷异常检测系统的输出数据。
本发明的有益效果在于,与现有技术相比,本发明在经过数据预处理后,充分利用DBSCAN聚类算法的聚类优势,聚类结果的精确度得到进一步提升,聚类过程中,无需预设聚类簇数,通过寻找数据内在规律、及时发现数据异常点,从而实现对负荷异常数据的聚类,根据聚类结果准确辨识负荷异常类型。
DBSCAN聚类算法既可以适用于凸样本集,也可以适用于非凸样本集,因此能够对直接采集的负荷异常数据进行DBSCAN聚类,通过聚类异常类型的个数并定义每个异常类型,从而提升负荷异常检测的准确性和可靠性。
附图说明
图1是本发明提出的一种基于DBSCAN聚类的负荷异常检测方法的流程框图。
具体实施方式
下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
如图1,本发明一方面提出一种基于DBSCAN聚类的负荷异常检测方法,包括:
步骤1,采集负荷异常数据。
步骤1中,负荷数据包括:有功功率和无功功率。异常数据主要包括两种类型:一种是由于数据缺损导致负荷数据波形中产生尖峰,另一种就是由于冲击负荷和信道噪声使得负荷数据波形中出现大量的毛刺。
步骤2,对负荷异常数据进行预处理后得到可靠数据集;将可靠数据集划分为训练集和测试集。
步骤2包括:
步骤2.1,采用拉格朗日插值法去除负荷异常数据中的间断点;
步骤2.2,采用改进小波阈值去噪算法去除负荷异常数据中的噪声点;
步骤2.3,经过步骤2.1和2.2处理后得到可靠数据集,对可靠数据集按2:1的比例划分为训练集和测试集。
本优选实施例中,将所有异常的负荷数据进行预处理,通过插值法去除间断点,获得可靠数据,通过改进小波阈值去噪算法去除噪声点。
去除间断点时,考虑到数据在采集过程中可能存在连续多个间断点,为了简化计算,采用牛顿插值法。
小波阈值去噪时,首先确定阈值,阈值设置越大,则有用信息保留越多,同时噪声保留也越多。采用固定阈值门限规则计算阈值T:
式中,N是信号的尺寸,σ表示噪声标准。
确定好阈值T后再确定阈值函数。
最后对负荷数据进行小波分解得到原始信号,设置合理的阈值进行M层分解求得小波系数组,利用小波系数组进行小波信号重构。
步骤3,搭建DBSCAN聚类模型,以训练集为输入,以异常类型聚类簇为输出,对聚类模型进行训练。
步骤3包括:
步骤3.1,建立输入集合D={x1,x2,…,xm}和邻域∈,j=1,2,…,m;
优选地,步骤3.1中,对于第j个样本xj在邻域∈中对应的子样本集N∈(xj)至少包含MinPts个样本,MinPts=5。
值得注意的是,本优选实施例中子样本集至少包含样本的个数MinPts取值为5,是一种非限制性的较优选择。
步骤3.2,初始化核心对象集合,即令Ω=Φ;初始化聚类簇数,即令k=0;初始化未访问样本集合,即令Γ=D;初始化异常类型聚类簇,即令C=Φ;
步骤3.3,每次迭代寻找时令k=k+1;利用距离度量方法,迭代寻找全部的核心对象;
优选地,步骤3.3中,距离度量方法包括KD树实现法;
从训练集中提取W维特征以获得KD树模型;其中,计算W维特征的取值的方差,用方差最大的第w维特征作为根节点,并选取第w维特征的取值的中位数对应的样本作为划分点;对特征的取值小于第w维特征的取值的中位数的样本均划入左子树,对特征的取值大于第w维特征的取值的中位数的样本均划入右子树;对于左子树和右子树,再采用用方差最大的第v维特征作为父节点,递归生成KD树模型;
利用KD树模型在测试集中预测样本目标点的最近邻;其中,对于一个样本目标点,首先在KD树模型里面找到包含样本目标点的叶子节点,以样本目标点为圆心,以样本目标点到叶子节点的距离为半径,得到一个超球体;返回叶子节点的父节点,检查父节点对应的另一个子节点包含的超矩形体是否和超球体相交,如果相交,则进入叶子节点寻找是否有更加接近的近邻;如果不相交;返回父节点的父节点,在另一个子树搜索最近邻;当回溯到根节点时,算法结束,此时保存的最近邻节点就是预测得到的样本目标点的最近邻。
值得注意的是,本优选实施例中距离度量方法包括但不限于KD树实现法,本领域技术人员可以根据需要选择不同的距离度量方法。
优选地,步骤3.3中,距离度量方法包括欧氏距离法;即采用欧氏距离确定每个数据点与其它数据点之间的距离。
步骤3.4,若核心对象集合Ω=Φ,则迭代结束,进入步骤3.8;若核心对象集合Ω≠Φ,则进入步骤3.5;
优选地,步骤3.4中,如果子样本集N∈(xj)中样本个数满足|N∈(xj)|≥MinPts,将第j个样本xj加入核心对象集合,即令Ω=Ω∪{xj}。
步骤3.5,在核心对象集合Ω中,随机选择第一个核心对象o,初始化当前簇核心对象队列,即令Ωcur={o},初始化当前簇样本集合,即令Ck={o},更新未访问样本集合,即令Γ=Γ-{o};
步骤3.6,如果当前簇核心对象队列则当前聚类簇Ck生成完毕,更新簇划分集合C={C1,C2,...,Ck},更新核心对象集合,即令Ω=Ω-Ck,并转入步骤3.3;否则更新核心对象集合,即令Ω=Ω-Ck;
步骤3.7,在当前簇核心对象队列Ωcur中取出第二个核心对象o′,通过邻域距离阈值找出第二个核心对象在邻域∈中中对应的子样本集N∈(o′),令Δ=N∈(o′)∩Γ,更新当前簇样本集合,即令Ck=Ck∪Δ,更新未访问样本集合,即令Γ=Γ-Δ,更新当前簇核心对象队列,即令Ωcur=Ωcur∪(Δ∩Ω)-o′,并转入步骤3.3;
步骤3.8,输出异常类型聚类簇C={C1,C2,...,Ck}。
步骤4,使用训练好的聚类模型对测试集进行聚类,以轮廓系数作为聚类结果评价指标,以获得负荷异常的多个辨识类型簇。
步骤4中,根据轮廓系数公式计算出轮廓系数值。
以如下关系式计算轮廓系数s(i):
式中,
a(i)为第i个样本到同簇其他样本的平均距离,a(i)越小说明第i个样本越应该被聚类到该簇;
b(i)为第i个样本到其它异常类型聚类簇Cj的平均距离,称为第i个样本与簇Cj的不相似度;
s(i)接近1,则说明第i个样本的聚类合理;s(i)接近-1,则说明第i个样本更应该分类到另外的簇,通过修改参数重新进行聚类。
本发明另一方面提出一种基于DBSCAN聚类的负荷异常检测系统,用于实现一种基于DBSCAN聚类的负荷异常检测方法。
负荷异常检测系统包括存储器、处理器、无线通讯模块;所述存储器存储有计算机程序,处理器调用计算机程序执行一种基于DBSCAN聚类的负荷异常检测方法的各个步骤,以负荷异常数据为负荷异常检测系统的输入数据,以负荷异常的多个辨识类型簇为负荷异常检测系统的输出数据。
本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。
Claims (9)
1.一种基于DBSCAN聚类的负荷异常检测方法,其特征在于,
所述方法包括:
步骤1,采集负荷异常数据;
步骤2,对负荷异常数据进行预处理后得到可靠数据集;将可靠数据集划分为训练集和测试集;
步骤3,搭建DBSCAN聚类模型,以训练集为输入,以异常类型聚类簇为输出,对聚类模型进行训练;
步骤4,使用训练好的聚类模型对测试集进行聚类,以轮廓系数作为聚类结果评价指标,以获得负荷异常的多个辨识类型簇。
2.根据权利要求1所述的一种基于DBSCAN聚类的负荷异常检测方法,其特征在于,
步骤1中,负荷数据包括:有功功率和无功功率;异常数据主要包括两种类型:一种是由于数据缺损导致负荷数据波形中产生尖峰,另一种就是由于冲击负荷和信道噪声使得负荷数据波形中出现大量的毛刺。
3.根据权利要求1所述的一种基于DBSCAN聚类的负荷异常检测方法,其特征在于,
步骤2包括:
步骤2.1,采用拉格朗日插值法去除负荷异常数据中的间断点;
步骤2.2,采用改进小波阈值去噪算法去除负荷异常数据中的噪声点;
步骤2.3,经过步骤2.1和2.2处理后得到可靠数据集,对可靠数据集按2:1的比例划分为训练集和测试集。
4.根据权利要求1所述的一种基于DBSCAN聚类的负荷异常检测方法,其特征在于,
步骤3包括:
步骤3.1,建立输入集合D={x1,x2,…,xm}和邻域∈,j=1,2,…,m;
步骤3.2,初始化核心对象集合,即令Ω=Φ;初始化聚类簇数,即令k=0;初始化未访问样本集合,即令Γ=D;初始化异常类型聚类簇,即令C=Φ;
步骤3.3,每次迭代寻找时令k=k+1;利用距离度量方法,迭代寻找全部的核心对象;
步骤3.4,若核心对象集合Ω=Φ,则迭代结束,进入步骤3.8;若核心对象集合Ω≠Φ,则进入步骤3.5;
步骤3.5,在核心对象集合Ω中,随机选择第一个核心对象o,初始化当前簇核心对象队列,即令Ωcur={o},初始化当前簇样本集合,即令Ck={o},更新未访问样本集合,即令Γ=Γ-{o};
步骤3.6,如果当前簇核心对象队列则当前聚类簇Ck生成完毕,更新簇划分集合C={C1,C2,...,Ck},更新核心对象集合,即令Ω=Ω-Ck,并转入步骤3.3;否则更新核心对象集合,即令Ω=Ω-Ck;
步骤3.7,在当前簇核心对象队列Ωcur中取出第二个核心对象o′,通过邻域距离阈值找出第二个核心对象在邻域∈中中对应的子样本集N∈(o′),令Δ=N∈(o′)∩Γ,更新当前簇样本集合,即令Ck=Ck∪Δ,更新未访问样本集合,即令Γ=v-Δ,更新当前簇核心对象队列,即令Ωcur=Ωcur∪(Δ∩Ω)-o′,并转入步骤3.3;
步骤3.8,输出异常类型聚类簇C={C1,C2,...,Ck}。
5.根据权利要求4所述的一种基于DBSCAN聚类的负荷异常检测方法,其特征在于,
步骤3.1中,对于第j个样本xj在邻域∈中对应的子样本集N∈(xj)至少包含MinPts个样本,MinPts=5。
6.根据权利要求4所述的一种基于DBSCAN聚类的负荷异常检测方法,其特征在于,
步骤3.3中,距离度量方法包括KD树实现法;
从训练集中提取W维特征以获得KD树模型;其中,计算W维特征的取值的方差,用方差最大的第w维特征作为根节点,并选取第w维特征的取值的中位数对应的样本作为划分点;对特征的取值小于第w维特征的取值的中位数的样本均划入左子树,对特征的取值大于第w维特征的取值的中位数的样本均划入右子树;对于左子树和右子树,再采用用方差最大的第v维特征作为父节点,递归生成KD树模型;
利用KD树模型在测试集中预测样本目标点的最近邻;其中,对于一个样本目标点,首先在KD树模型里面找到包含样本目标点的叶子节点,以样本目标点为圆心,以样本目标点到叶子节点的距离为半径,得到一个超球体;返回叶子节点的父节点,检查父节点对应的另一个子节点包含的超矩形体是否和超球体相交,如果相交,则进入叶子节点寻找是否有更加接近的近邻;如果不相交;返回父节点的父节点,在另一个子树搜索最近邻;当回溯到根节点时,算法结束,此时保存的最近邻节点就是预测得到的样本目标点的最近邻。
7.根据权利要求5所述的一种基于DBSCAN聚类的负荷异常检测方法,其特征在于,
步骤3.4中,如果子样本集N∈(xj)中样本个数满足|N∈(xj)|≥MinPts,将第j个样本xj加入核心对象集合,即令Ω=Ω∪{xj}。
8.根据权利要求1所述的一种基于DBSCAN聚类的负荷异常检测方法,其特征在于,
步骤4中,根据轮廓系数公式计算出轮廓系数值。
9.一种基于DBSCAN聚类的负荷异常检测系统,用于实现权利要求1至7中任一项所述的一种基于DBSCAN聚类的负荷异常检测方法,其特征在于,
所述负荷异常检测系统包括存储器、处理器、无线通讯模块;所述存储器存储有计算机程序,处理器调用所述计算机程序执行权利要求1-7所述的各个步骤,以负荷异常数据为负荷异常检测系统的输入数据,以负荷异常的多个辨识类型簇为负荷异常检测系统的输出数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210460694.1A CN114861788A (zh) | 2022-04-28 | 2022-04-28 | 一种基于dbscan聚类的负荷异常检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210460694.1A CN114861788A (zh) | 2022-04-28 | 2022-04-28 | 一种基于dbscan聚类的负荷异常检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114861788A true CN114861788A (zh) | 2022-08-05 |
Family
ID=82634080
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210460694.1A Pending CN114861788A (zh) | 2022-04-28 | 2022-04-28 | 一种基于dbscan聚类的负荷异常检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114861788A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115791887A (zh) * | 2023-02-08 | 2023-03-14 | 北京汉飞航空科技有限公司 | 一种涡轮叶片基于六点测具的自适应测量算法 |
CN116128124A (zh) * | 2023-01-09 | 2023-05-16 | 北京建筑大学 | 一种基于异常用能值处理和时序分解的建筑能耗预测方法 |
CN116821833A (zh) * | 2023-08-29 | 2023-09-29 | 好林(威海)新材料有限公司 | 一种机器滤布粘连的数据异常检测方法 |
CN117056913A (zh) * | 2023-10-10 | 2023-11-14 | 北京点聚信息技术有限公司 | 一种电子印章授权智能管理方法 |
CN117118810A (zh) * | 2023-10-25 | 2023-11-24 | 利国智能科技(昆山)有限公司 | 一种网络通信异常预警方法及系统 |
CN117997652A (zh) * | 2024-04-03 | 2024-05-07 | 江西师范大学 | 一种基于集成学习的车辆入侵检测方法及装置 |
-
2022
- 2022-04-28 CN CN202210460694.1A patent/CN114861788A/zh active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116128124A (zh) * | 2023-01-09 | 2023-05-16 | 北京建筑大学 | 一种基于异常用能值处理和时序分解的建筑能耗预测方法 |
CN115791887A (zh) * | 2023-02-08 | 2023-03-14 | 北京汉飞航空科技有限公司 | 一种涡轮叶片基于六点测具的自适应测量算法 |
CN116821833A (zh) * | 2023-08-29 | 2023-09-29 | 好林(威海)新材料有限公司 | 一种机器滤布粘连的数据异常检测方法 |
CN116821833B (zh) * | 2023-08-29 | 2023-11-14 | 好林(威海)新材料有限公司 | 一种机器滤布粘连的数据异常检测方法 |
CN117056913A (zh) * | 2023-10-10 | 2023-11-14 | 北京点聚信息技术有限公司 | 一种电子印章授权智能管理方法 |
CN117056913B (zh) * | 2023-10-10 | 2023-12-22 | 北京点聚信息技术有限公司 | 一种电子印章授权智能管理方法 |
CN117118810A (zh) * | 2023-10-25 | 2023-11-24 | 利国智能科技(昆山)有限公司 | 一种网络通信异常预警方法及系统 |
CN117118810B (zh) * | 2023-10-25 | 2023-12-29 | 利国智能科技(昆山)有限公司 | 一种网络通信异常预警方法及系统 |
CN117997652A (zh) * | 2024-04-03 | 2024-05-07 | 江西师范大学 | 一种基于集成学习的车辆入侵检测方法及装置 |
CN117997652B (zh) * | 2024-04-03 | 2024-06-07 | 江西师范大学 | 一种基于集成学习的车辆入侵检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114861788A (zh) | 一种基于dbscan聚类的负荷异常检测方法及系统 | |
CN112115306B (zh) | 用于执行高维传感器数据中的异常事件的自动根本原因分析的方法和系统 | |
CN110990461A (zh) | 大数据分析模型算法选型方法、装置、电子设备及介质 | |
CN110335168B (zh) | 基于gru优化用电信息采集终端故障预测模型的方法及系统 | |
CN112084237A (zh) | 一种基于机器学习和大数据分析的电力系统异常预测方法 | |
CN112116198B (zh) | 数据驱动的流程工业状态感知网络关键节点筛选方法 | |
EP1958034B1 (en) | Use of sequential clustering for instance selection in machine condition monitoring | |
Jiang et al. | A family of joint sparse PCA algorithms for anomaly localization in network data streams | |
CN116416884B (zh) | 一种显示器模组的测试装置及其测试方法 | |
CN117078048A (zh) | 基于数字孪生的智慧城市资源管理方法及系统 | |
CN117273489A (zh) | 光伏状态评估方法及装置 | |
CN114416423A (zh) | 一种基于机器学习的根因定位方法和系统 | |
CN117236656B (zh) | 工程项目的信息化管理方法及系统 | |
CN115034278A (zh) | 性能指标异常检测方法、装置、电子设备和存储介质 | |
CN113420506A (zh) | 掘进速度的预测模型建立方法、预测方法及装置 | |
CN116365519A (zh) | 一种电力负荷预测方法、系统、存储介质及设备 | |
CN116451081A (zh) | 数据漂移的检测方法、装置、终端及存储介质 | |
US20230237371A1 (en) | Systems and methods for providing predictions with supervised and unsupervised data in industrial systems | |
CN110502669A (zh) | 基于n边dfs子图的轻量级无监督图表示学习方法及装置 | |
Aljibawi et al. | A survey on clustering density based data stream algorithms | |
CN115616408A (zh) | 电池热管理数据处理方法及系统 | |
CN114386485A (zh) | 一种建筑光纤光栅应力传感器的应力曲线聚类方法 | |
CN117539920B (zh) | 基于房产交易多维度数据的数据查询方法及系统 | |
CN117151934B (zh) | 一种配电网不停电作业项目多维聚类分析方法及装置 | |
CN117951695B (zh) | 一种工业未知威胁检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |