CN112990330A - 用户用能异常数据检测方法及设备 - Google Patents
用户用能异常数据检测方法及设备 Download PDFInfo
- Publication number
- CN112990330A CN112990330A CN202110326391.6A CN202110326391A CN112990330A CN 112990330 A CN112990330 A CN 112990330A CN 202110326391 A CN202110326391 A CN 202110326391A CN 112990330 A CN112990330 A CN 112990330A
- Authority
- CN
- China
- Prior art keywords
- detected
- sample
- data
- isolated
- height
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 131
- 238000001514 detection method Methods 0.000 title description 43
- 238000012549 training Methods 0.000 claims abstract description 94
- 238000000034 method Methods 0.000 claims abstract description 64
- 238000005265 energy consumption Methods 0.000 claims abstract description 48
- 238000012360 testing method Methods 0.000 claims description 43
- 238000004590 computer program Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 description 14
- 230000005611 electricity Effects 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000007547 defect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本申请提供了一种用户用能异常数据检测方法及设备,该方法包括:获取待检测样本,其中,待检测样本由待检测用户的用能数据生成;将待检测样本遍历孤立森林模型中的每棵孤立树,以确定待检测样本落在每棵孤立树中的子节点的高度,以及待检测样本与每棵孤立树的根节点中训练样本之间的距离;根据高度,确定待检测样本的高度异常分值;根据距离,确定待检测样本的密度异常分值;在高度异常分值和密度异常分值满足预设条件时,确定待检测用户的用能数据为异常数据。本申请能够提高用户用能异常数据的检测速度和精度。
Description
技术领域
本申请属于异常数据检测技术领域,更具体地说,是涉及一种用 户用能异常数据检测方法及设备。
背景技术
在电网实际运行过程中,电力用户用能数据的质量对电力数据分 析挖掘、用电客户准确定位、电网稳定运行都有着决定性的影响。为 确保电力用户用能数据的准确性与完整性,需要对用能数据中的异常 数据进行检测。
异常数据检测作为数据挖掘的重要环节,在电力大数据领域有着 广泛而重要的应用。传统的异常检测算法依据数据分布进行异常点判 断,如N-σ检测方法,其缺点在于需要构建合适的数据分布且无法 满足海量数据检测的要求。近年来,基于机器学习方法的异常检测应 用发展迅速,部分行业采用孤立森林(Isolation Forest,iForest)算法 来解决异常数据检测问题,然而此类方法对数据局部异常不敏感、异 常检测精度较低,不适用于10kV专变用户用能数据。
发明内容
本申请的目的在于提供一种用户用能异常数据检测方法及设备, 以解决用户用能异常数据检测的精度低的问题。
本申请实施例的第一方面,提供了一种用户用能异常数据检测方 法,包括:
获取待检测样本,其中,待检测样本由待检测用户的用能数据生 成;
将待检测样本遍历孤立森林模型中的每棵孤立树,以确定待检测 样本落在每棵孤立树中的子节点的高度,以及待检测样本与每棵孤立 树的根节点中各训练样本之间的距离;其中,孤立森林模型经由多个 选定用户的用能数据生成的训练样本训练,孤立森林模型包括多棵孤 立树,每棵孤立树的根节点包括多个训练样本;
根据高度,确定待检测样本的高度异常分值;
根据距离,确定待检测样本的密度异常分值;
在高度异常分值和密度异常分值满足预设条件时,确定待检测用 户的用能数据为异常数据。
本申请实施例的第二方面,提供了一种用户用能异常数据检测装 置,包括:
数据获取模块,用于获取待检测样本和用户用能数据,并基于用 户用能数据,生成原始数据集。
数据训练模块,用于基于原始数据集中的训练样本构建孤立森林 模型。
数据处理模块,用于将待检测样本遍历孤立森林模型中的孤立树, 并计算待检测样本的高度异常分值和密度异常分值。
数据判断模块,用于判断高度异常分值和密度异常分值是否满足 预设条件,若是,则判断所述待检测用户的用能数据为异常数据,若 否,则判断所述待检测用户的用能数据为正常数据。
本申请实施例的第三方面,提供了一种电子设备,包括存储器、 处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理 器执行计算机程序时实现上述用户用能异常数据检测方法的步骤。
本申请实施例的第四方面,提供了一种计算机可读存储介质,计 算机存储介质存储有计算机程序,计算机程序被处理器执行时实现上 述的用户用能异常数据检测方法的步骤。
本申请实施例提供的用户用能异常数据检测方法及设备的有益 效果在于:通过将待检测样本遍历孤立森林模型中的每棵孤立树,得 到待检测样本落在每棵孤立树中的子节点的高度,以及检测样本与每 棵孤立树的根节点中训练样本之间的距离;其中,孤立森林模型经由 多个选定用户的用能数据生成的训练样本训练,孤立森林模型中包括 多棵孤立树,每棵孤立树的根节点包括多个训练样本;根据高度,确 定待检测样本的高度异常分值;根据距离,确定待检测样本的密度异 常分值;在高度异常分值和密度异常分值满足预设条件时,确定待检 测用户的用能数据为异常数据。本申请相对于现有技术,考虑了异常 数据点所处位置的密度,以及异常数据点周围的数据点的平均密度; 将高度异常分值和密度异常分值相结合,对用户用能异常数据进行检 测,改善了孤立森林算法检测局部异常点易失效的缺点,提高了用户 用能异常数据检测的精度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例 或现有技术描述中所需要的使用的附图作简单地介绍,显而易见地, 下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员 来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它 的附图。
图1为本申请一实施提供的用户用能异常数据检测方法的应用 环境图;
图2为本申请一实施例提供的用户用能异常数据检测方法的流 程图;
图3为本申请另一实施例提供的用户用能异常数据检测方法的 流程图;
图4为本申请另一实施例提供的用户用能异常数据检测方法的 流程图;
图5为本申请再一实施例提供的用户用能异常数据检测方法的 流程图;
图6为本申请再一实施例提供的用户用能异常数据检测方法的 流程图;
图7为本申请又一实施例提供的用户用能异常数据检测方法的 流程图;
图8为本申请又一实施例提供的用户用能异常数据检测方法的 流程图;
图9为本申请一实施例义工的用户用能异常数据检测装置的结 构框图;
图10为本申请一实施例提供的电子设备的示意框图;
图11为本申请一实施示例中平均高度归一化的图像。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清 楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应 当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限 定本发明。
异常数据检测作为数据挖掘的重要环节,在电力大数据领域有着 广泛而重要的应用。在电力系统中,通过对用户用能异常数据分析, 可以对偷电漏电等用户异常行为进行有效检测,同时也可以帮助排查 电力系统运行故障,保证系统稳定安全运行。
用电信息采集系统采集并存储有大量专变用户的电量、负荷、电 压、电流数据,不同用户同类型的数据量级差距大,常用的异常数据 检测算法在识别10kV专变用户用能异常数据方面难以取得令人满意 的效果。目前,部分行业采用孤立森林(iForest)算法来解决此类 异常数据检测问题,然而,孤立森林算法对局部异常点不敏感,且 10kV专变用户用能数据的数据簇密度分布不均匀,应用孤立森林算 法对该数据集进行异常点检测时,会出现某类用户数据簇中的异常点 被临近正常数据点覆盖的情况,从而导致对10kV专变用户用能数据 的异常检测失败。此外,工业还采用基于密度的LOF异常检测算法对 局部异常点进行识别,但是此类算法需要遍历整个数据集以计算每个 点的LOF值,不适用于数据量庞大的10kV专变用户用能数据。
本申请实施例通过将待检测样本遍历孤立森林模型中的每棵孤 立树,得到待检测样本落在每棵孤立树中的子节点的高度,以及检测 样本与每棵孤立树的根节点中训练样本之间的距离;其中,孤立森林 模型经由多个选定用户的用能数据生成的训练样本训练,孤立森林模 型中包括多棵孤立树,每棵孤立树的根节点包括多个训练样本;根据 高度,确定待检测样本的高度异常分值;根据距离,确定待检测样本 的密度异常分值;在高度异常分值和密度异常分值满足预设条件时, 确定待检测用户的用能数据为异常数据。本申请相对于现有技术,考 虑了异常数据点所处位置的密度,以及异常数据点周围的数据点的平 均密度;将高度异常分值和密度异常分值相结合,对用户用能异常数 据进行检测,改善了孤立森林算法检测局部异常点易失效的缺点,提 高了用户用能异常数据检测的精度。
图1为本申请一实施提供的用户用能异常数据检测方法的应用 环境图。本申请提供的用户用能异常数据检测方法,可以但不限于应 用于如图1所示的应用环境中的电力系统。该电力系统包括电能表 11、用电信息存储设备12、电子设备13和终端14。
每个电能表11用于采集相应用户的用能数据,将用户的用能数 据发送至用电信息存储设备12。用电信息存储设备12用于存储各用 户的用能数据,例如。将各用户的用能数据存储到数据库中。电子设 备13从用电信息存储设备12中获取用能数据,以得到待检测样本。 电子设备13将待检测样本遍历孤立森林模型中的每棵孤立树,以确 定待检测样本落在每棵孤立树中的子节点的高度,以及待检测样本与 每棵孤立树的根节点中各训练样本之间的距离。其中,电子设备13 中的孤立森林模型经由多个选定用户的用能数据生成的训练样本训 练,孤立森林模型包括多棵孤立树,每棵孤立树的根节点包括多个训 练样本。电子设备13根据高度,确定待检测样本的高度异常分值; 根据距离,确定所述待检测样本的密度异常分值。电子设备13在高 度异常分值和密度异常分值满足预设条件时,确定待检测用户的用能 数据为异常数据。电子设备13向用电信息存储设备12和/或终端14 发送异常提示消息,以提示用电信息存储设备12和/或终端14的用 户,如电力系统的工作人员,对异常数据进行处理。其中,异常提示 消息可以包括异常数据的用户标识、异常的用能数据等,不作限定。
其中,用电信息存储设备12和电子设备13可以为同一设备,也 可以为不同的设备,在此不作限定。用电信息存储设备12和电子设 备13可以包括但不限于独立服务器、多个服务器组成的服务器集群、 台式计算机等。终端14可以包括但不限于台式计算机、笔记本电脑、 平板电脑、手机、车载终端等。
在本申请的一个实施例中,如图2提供了一种用户用能异常数据 检测方法的流程示意图。该方法包括:
S201:获取待检测样本,其中,待检测样本由待检测用户的用能 数据生成。
在本实施例中,可以通过用电信息存储设备获取待检测样本,也 可以直接通过用户电能表用电信息获取待检测样本,在此不作限定。 其中待检测样本可以包括用户用电量和/或用电功率,待检测样本的 个数可以是根据实际需求设定,在此均不做限定。
S202:将待检测样本遍历孤立森林模型中的每棵孤立树,以确定 待检测样本落在每棵孤立树中的子节点的高度,以及待检测样本与每 棵孤立树的根节点中各训练样本之间的距离。
在本实施例中,待检测样本与每棵孤立树的根节点中训练样本之 间的距离可以为欧式距离、曼哈顿距离等,在此不做限定。
S203:根据高度,确定待检测样本的高度异常分值,根据距离, 确定待检测样本的密度异常分值。
在本实施例中,待检测样本的高度异常分值的类型及计算方式, 和待检测样本的密度异常分值的类型及计算方式,在此均不做限定。 例如,可以通过计算待检测样本的高度平均值,作为其高度异常分值, 也可以通过将待检测样本的高度按大小进行排序,取中间值作为其高 度异常分值;可以通过计算待检测样本的距离平均值,作为其密度异 常分值,也可以通过将待检测样本的距离按大小进行排序,取中间值 作为其密度异常分值,还可以根据待检测样本的距离的倒数,计算其 相对密度,通过相对密度计算其密度异常分值。
S204:在高度异常分值和密度异常分值满足预设条件时,确定待 检测用户的用能数据为异常数据。
在本实施例中,预设条件的个数和类型可以根据实际需求进行选 择,在此不作限定。例如,可以选择若高度异常分值和密度异常分值 之和大于阈值,则确定待检测用户的用能数据为异常数据,也可以选 择若高度异常分值小于阈值,同时密度异常分值大于阈值,则确定待 检测用户的用能数据为异常数据。
本申请实施例通过将由待检测用户的用能数据生成的待检测样 本遍历孤立森林模型中的每棵孤立树,确定待检测样本落在每棵孤立 树中的子节点的高度,以及待检测样本与每棵孤立树的根节点中各训 练样本之间的距离;根据高度,确定待检测样本的高度异常分值,根 据距离,确定待检测样本的密度异常分值;当高度异常分值和密度异 常分值满足预设条件时,确定待检测用户的用能数据为异常数据。本 申请的实施例不仅考虑了待检测样本的高度,还考虑了待检测样本与 各训练样本之间的距离,进一步增加了待检测样本的筛选条件,结合 高度异常分值和密度异常分值,根据实际需求选择预设条件,能够更 加灵活准确地判断出待检测用户的用能数据是否为异常数据。
图3为本申请另一实施例提供的用户用能异常数据检测方法流 程示意图。在上述图2所示实施例的基础上,根据距离,确定待检测 样本的密度异常分值,可以包括:
S301:针对每棵孤立树,从该孤立树的根节点中所有训练样本中, 选取与待检测样本距离最近的k个训练样本,其中k为正整数,计算 待检测样本与k个训练样本之间的平均距离的倒数,作为待检测样本 在该孤立树中的相对密度。
在本实施例中,可以采用内部排序方法对上述距离进行排序并选 取k个训练样本,也可以采用外部排序方法对上述距离进行排序并选 取k个训练样本,在此不作限定。
S302:计算待检测样本在每棵孤立树中的相对密度的平均值,作 为待检测样本的密度异常分值。
在已知待检测样本在该孤立树中的相对密度的基础上,使其遍历 孤立森林模型中的每棵孤立树,计算相对密度的平均值,该平均值作 为待检测样本的密度异常分值。
本实施例通过计算待检测样本与该孤立树中k个最近邻的训练 样本之间的平均距离的倒数,作为待检测样本在该孤立树中的相对密 度,使其遍历孤立森林模型中的每棵孤立树并计算相对密度的平均值, 求取相对密度平均值可以直观反应相对密度的整体水平,使用能数据 异常检测更加准确。
图4为本申请另一实施例提供的用户用能异常数据检测方法流 程示意图。在上述图3所示实施例的基础上,根据待检测样本在每棵 孤立树中的相对密度,确定检测样本的密度异常分值可以包括:
S401:计算待检测样本在该孤立树中的多个临近点的相对密度。
在本实施例中,临近点是指与待检测样本距离最近的或者距离小 于预设阈值的训练样本。临近点的个数在此不作限定。每个临近点的 相对密度的计算方式与S301至S302计算待检测样本的计算方式类似, 在此不再赘述。
S402:基于多个临近点的相对密度,对待检测样本在该孤立树中 的相对密度进行修正。
在本实施例中,对待检测样本的相对密度进行修正可以描述为
其中,D*(Xtest)代表修正后的相对密度,D(Xtest)代表修正前的相对 密度,D(Xi)代表第i个临近点的相对密度,j代表临近点的个数。
S403:计算待检测样本在每棵孤立树中的修正后的相对密度的平 均值,作为待检测样本的密度分值。
本实施例通过利用待检测样本临近点的相对密度对待检测样本 的相对密度进行修正,充分考虑了训练样本密度不均匀的情况,对待 检测样本的相对密度进行修正,使计算结果更加精准。
图5为本申请再一实施例提供的用户用能异常数据检测方法流 程示意图,在上述任一实施例的基础上,在所述高度异常分值和所述 密度异常分值满足预设条件时,确定待检测用户的用能数据是否为异 常数据,可以包括:
S501:基于预设权重,计算密度异常分值和高度异常分值的加权 和,作为待检测样本的综合异常分值。
在本实施例中,预设权重数值的选取及选取标准随实际需求进行 选择,在此不作限定。
S502:在综合异常分值小于或等于预设阈值时,确定待检测用户 的用能数据为异常数据。
在本实施例中,预设阈值的大小及选取标准随实际需求进行选择, 在此不作限定。
本实施例综合考虑待检测样本的密度异常分值和高度异常分值, 根预设权重,计算密度异常分值和高度异常分值的加权和,根据实际 情况,针对密度异常分值和高度异常分值选择不同的权重,因此能够 使判断过程更加灵活,判断结果更加准确。
图6为本申请再一实施例提供的用户用能异常数据检测方法流 程示意图,在上述任一实施例的基础上,根据高度,确定待检测样本 的高度异常分值可以包括:
S601:将待检测样本落在每棵孤立树中的子节点的高度求均值, 以得到待检测样本的平均高度。
S602:对平均高度进行归一化处理,以得到待检测样本的高度异 常分值。
在基于平均高度已知的前提下,可以通过下述公式对平均高度进 行归一化:
其中,S(Xtest)为待检测样本的高度异常分值,E(H(Xtest))为待检测 样本的平均高度,c(n)为孤立森林模型中孤立树深度的平均值,n为每棵孤立树的根节点中训练样本的数量, H(i)为调和数。
在本实施例中,通过对待检测样本的平均高度进行归一化处理, 可以使数据结果更容易地收敛到最优解,提高了数据结果的精准度。
图7为本申请再一实施例提供的用户用能异常数据检测方法流 程示意图,在上述任一实施例的基础上,该方法还可以包括:
S701:获取多个用户的用能数据。
在本实施例中,可以根据需求,选择不同的方法来获取用户的用 能数据,在此不作限定。例如可以通过用电信息存储设备获取用户的 用能数据,也可以通过直接测量用户电能表来获取用户的用能数据, 还可以与主站建立通信,实时传输用电信息。
可选地,用能数据可以包括但不限于下述至少一项特征数据:用 户用电量、有功功率、正向有功总电量、尖峰平谷时刻电量、ABC 三相有功功率、无功功率、ABC三相无功功率。
S702:基于多个用户的用能数据生成多个样本,以构成原始数据 集,其中,样本与特征数据一一对应,每个样本包含一个特征数据。
在本实施例中,基于多个用户的用能数据生成多个样本后,可以 通过规整数据格式、数据归一化处理、向量标准化处理等中的一项或 多项进行预处理,构成原始数据集,在此不作限定。
样本与特征数据一一对应,一个特征数据即为一个样本。多个特 征数据可以隶属于同一类型,例如:A户用电量和B户用电量均属于 类型x,其中,A户用电量为一个特征数据,B户用电量为一个特征 数据;又如,A户有功功率和B户有功功率以及C户用功功率均属于类型y,其中,A户用功功率和B户有功功率以及C户有功功率分 别为一个特征数据。
S703:从原始数据集中随机选取同一类型的训练样本,根据选取 到的训练样本生成t棵孤立树,以构建孤立森林模型,其中,t为正 整数。
在本实施例中,可以采用并行处理的方式,一次生成t棵孤立树, 也可以一次生成一棵孤立树,t次后得到t棵孤立树,其中,每棵孤 立树中的训练样本可以相同也可以不同,在此均不做限定。
图8为本申请又一实施例提供的用户用能异常数据检测方法流 程示意图,在上述图7所示的实施例基础上,每棵孤立树的生成过程 可以包括:
S801:从原始数据集中随机选取n个同一类型的训练样本构成该 孤立树的根节点。
在本实施例中,该孤立树根节点中包含的训练样本可以与其它孤 立树的根节点中包含的训练样本相同也可以不同,在此不作限定。
S802:在该同一类型的特征数据x(q)的值域范围内随机选择一个 分割值p。
在本实施例中,x(q)的值域范围可以依据全体训练样本中最大值 与最小值的关系确定。
S803:根据分割值p对该孤立树的根节点中的n个训练样本进行 划分,将满足x(q)≤p的训练样本划分至根节点的左子节点,将满足 x(q)>p的训练样本划分至根节点的右子节点。
在本实施例中,在根节点的基础上生成子节点,若训练样本中的 特征数据x(q)满足x(q)≤p,则将该训练样本划分至根节点的左子节 点,若训练样本中的特征数据x(q)满足x(q)>p,则将该训练样本划 分至根节点的右子节点。
S804:对每个子节点进行迭代划分,若迭代划分后的孤立树高度 达到预设高度,或迭代划分后新生成的子节点中只有一个训练样本或 数值相同的多个训练样本时,停止迭代划分,以生成该孤立树。
在本实施例中,在上述步骤已完成的基础上,对子节点进行迭代 划分:在该同一类型的特征数据的阈值范围内重新选取分割值,再次 对已获得的子节点进行划分,当孤立树高度达到预设高度或迭代划分 后新生成的子节点中只有一个训练样本或数值相同的多个训练样本 时,停止迭代划分,生成该孤立树。
下面通过一个实施示例对上述的用户用能异常数据检测方法进 行说明。在该实施示例中,孤立树及孤立森林模型的构建过程以及将 待检测数据遍历孤立森林并确定出异常数据的过程如下所示,图11 所示部分为归一化函数S(Xtest)的曲线图。该实施示例包括以下步骤:
步骤1、获取用电信息采集系统中10kV专变用户的各项用能数 据,主要包括正向有功总电量、尖峰平谷时刻电量、有功功率、ABC 三相有功功率、无功功率、ABC三相无功功率,对采集到的用能数 据进行预处理,包括规整数据格式、数据归一化处理,得到本申请需要的原始数据集。
其中,归一化方法采用Z-score方法,具体表达式为:
式中,X为处理后的样本,X'为采集到的原始样本,μ为X'的均值,σ 为X'的标准差。
步骤2、训练阶段。此阶段主要目的为从全体样本中随机采样构 建孤立树及孤立森林。本申请的实施示例中用户用能异常数据检测方 法训练阶段如下所示。具体包括:
步骤2.1、从原始数据集中随机抽取n个同一类型的训练样本 {X1,X2,…,Xn}作为孤立树的根节点,样本与特征一一对应,一个特征 即为一个样本在该同一类型的特征数据x(q)的值域范围内随机选择分 割值p。
步骤2.11对选择的n个样本进行划分,将满足x(q)≤p的样本放入 根节点的左孩子节点,将x(q)>p的样本放入右孩子节点。
步骤2.12对每个子节点进行迭代划分,当树的高度达到限定高 度或新生成的子结点中只有一个样本或数值相同的多个样本时终止 迭代,生成一棵完整的孤立树,其高度的最小值为log2n最大值为n- 1。由于异常样本的分布显著不同于正常的大多数样本分布差异,因 此异常样本在分割过程易于被更早的划分,有更高概率位于高度更小 的叶子节点中。
步骤2.2、重新随机抽取n个与步骤2.1类型相同的训练样本, 按步骤2.11至2.12构建孤立树,重复该过程t次,得到含有t棵孤立 树的孤立森林,每棵树之间相互独立,不含交叉节点。
步骤3、检测阶段。此阶段主要目的为将待检测的样本带入已训 练好的模型中,结合高度异常分值与密度异常分值对待检测样本进行 检测,并输出检测结果。本申请的实施示例中用户用能异常数据检测 方法检测阶段如下所示。具体包括:
步骤3.1、将待测试样本Xtest带入一棵孤立树中,按训练阶段得 到的树的结构对样本进行划分,记录Xtest经划分后落到的叶子节点高 度H(Xtest)。
步骤3.2、计算待检测样本Xtest与该树根节点中n个训练样本的距 离l(Xtest,Xi)。步骤3.21、取距离Xtest最近的k个点X1,X2,…Xk,定义 Xtest的相对密度为:
步骤3.22、考虑到训练集样本密度不均匀,使用Xtest临近点的相 对密度对Xtest的密度进行修正,具体表达式为:
其中D*(Xtest)为修正后的相对密度。
步骤3.3、将待检测样本Xtest遍历孤立森林中所有孤立树,得到t 个高度值与密度值,并计算其均值得到E(H(Xtest))与E(D*(Xtest)), 具体表达式为:
步骤3.4、E(D*(Xtest))作为样本Xtest最终的密度异常分值,对 E(H(Xtest))进行归一化处理后作为样本Xtest最终的高度异常分值,具 体表达式为:
其中c(n)为给定样本数n时,孤立树深度的平均值,用来标准待 检测样本的划分深度,具体表达式为:
其中H(i)为调和数,该值可以被估计为ln(i)+γ,γ为欧拉常数, γ≈0.57721。
归一化函数S(Xtest)的图像如图11所示,当E(H(Xtest))→n-1 时,此时Xtest具有最长划分深度,S(Xtest)→0,Xtest被判定为正常; 当E(H(Xtest))→0时,Xtest具有最短划分深度,S(Xtest)→1,Xtest被 划分为异常。
步骤3.5、对于待检测样本Xtest,其综合异常分值为:
Score(Xtest)=ω1S(Xtest)+ω2E(D*(Xtest)) (10)
其中ω1、ω2为组合权重。
步骤3.6、设置异常检测阈值ε,若Score(Xtest)<ε,则判断Xtest为 异常样本;若Score(Xtest)≥ε,则判断Xtest为正常样本。
综上,本申请实施示例改善了传统方法针对10kV专变电力用户 用能数据无法同时满足检测局部异常点与拥有较快运行时间的局限 性,实现对一种10kV电力专变用户用能异常数据的准确高效检测; 本申请提供的技术方案改善了孤立森林算法检测局部异常点易失效 的缺点,提高了异常数据检测的准确率;本申请提供的技术方案改善 了异常检测-局部异常因子(LocalOutlierFactor,LOF)算法及深度学 习计算量大,需要计算资源多的缺点,在保证检测准确度的前提下, 优化算法复杂度,减小所需要处理的数据规模,使本申请在电力系统 中具有良好的适用性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序 的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本 发明实施例的实施过程构成任何限定。
图9为本申请一实施例提供的用户用能异常数据检测装置的结 构框图。为了便于说明,仅示出了与本申请实施例相关的部分。如图 9,该装置包括:
数据获取模块100,用于获取待检测样本和用户用能数据,并基 于用户用能数据,生成原始数据集。
数据训练模块200,用于基于原始数据集中的训练样本构建孤立 森林模型。
数据处理模块300,用于将待检测样本遍历孤立森林模型中的孤 立树,并计算待检测样本的高度异常分值和密度异常分值。
数据判断模块400,用于判断高度异常分值和密度异常分值是否 满足预设条件,若是,则判断所述待检测用户的用能数据为异常数据, 若否,则判断所述待检测用户的用能数据为正常数据。
本申请实施例通过获取待检测样本,其中,待检测样本由待检测 用户的用能数据生成;将待检测样本遍历孤立森林模型中的每棵孤立 树,以确定待检测样本落在每棵孤立树中的子节点的高度,以及待检 测样本与每棵孤立树的根节点中各训练样本之间的距离;其中,孤立 森林模型经由多个选定用户的用能数据生成的训练样本训练,孤立森 林模型包括多棵孤立树,每棵孤立树的根节点包括多个训练样本;根 据高度,确定待检测样本的高度异常分值;根据距离,确定待检测样 本的密度异常分值;在高度异常分值和密度异常分值满足预设条件时, 确定待检测用户的用能数据为异常数据。本发明实施例通过计算待检 测样本与每棵孤立树的根节点中各训练样本之间的距离,从而确定待 检测样本的密度异常分值,密度异常分值与高度异常分值结合,最终 确定待检测用户的用能数据是否为异常数据,充分考虑了待检测样本 与孤立树的根节点中各训练样本之间的关系,再与高度异常分值相结 合,提高了检测结果的准确度。
可选的,可以利用待检测样本与孤立树的根节点中各训练样本之 间距离倒数作为待检测样本的相对密度;
数据处理模块300,用于:
针对每棵孤立树,从该孤立树的根节点中所有训练样本中,选取 与待检测样本距离最近的k个训练样本,其中,k为正整数,计算待 检测样本与k个根节点之间的平均距离的倒数,作为待检测样本在该 孤立树中的相对密度。
可选的,待检测样本的距离为包括欧式距离,数据处理模块300, 用于:
计算待检测样本在该孤立树中的多个临近点的相对密度;
基于多个临近点的相对密度,对待检测样本在该孤立树中的相对 密度进行修正;
计算待检测样本在每棵孤立树中的相对密度的平均值,作为待检 测样本的密度分值,包括:计算待检测样本在每棵孤立树中的修正后 的相对密度的平均值,作为待检测样本的密度分值。
可选的,对待检测样本的平均高度进行归一化处理;
数据处理模块300,用于:
通过对待检测样本的平均高度进行数据归一化处理,得到待检测 样本的高度异常分值,其中,数据归一化可以表述为:
其中,S(Xtest)为所述待检测样本的高度异常分值,E(H(Xtest))为 所述待检测样本的平均高度,c(n)为所述孤立森林模型中孤立树深度 的平均值,n为每棵孤立树的根节点中训 练样本的数量,H(i)为调和数。
可选的,基于用户的用能数据生成多个样本以构成原始数据集, 从原始数据集中选取训练样本,根据训练样本,生成孤立树:
数据获取模块100,用于:
获取多个用户的用能数据;其中,用能数据包括下述至少一项: 用户用电量、有功功率、正向有功总电量、尖峰平谷时刻电量、ABC 三相有功功率、无功功率、ABC三相无功功率等;
基于多个用户的用能数据生成多个样本,以构成原始数据集,其 中,样本与所述用户一一对应,每个样本包含m个特征,特征与用 能数据的类型一一对应;
从原始数据集中随机选取训练样本,根据选取到的训练样本生成 t棵孤立树,以构建孤立森林模型,其中,t为正整数;
从原始数据集中选取待检测样本。
可选的,孤立森林模型经由多个选定用户的用能数据生成的训练 样本训练,孤立森林模型包括多棵孤立树,每棵孤立树的根节点包括 多个训练样本;
数据训练模块200,用于:
从原始数据集中随机选取n个训练样本构成该孤立树的根节点;
在m个特征随机选择一个特征记为特征x(q),并在特征x(q)的值 域范围内随机选择一个分割值p;
根据分割值p对该孤立树的根节点中的n个训练样本进行划分, 将满足x(q)≤p的训练样本划分至根节点中的左子节点,将满足 x(q)>p的训练样本划分至根节点的右子节点;
对每个子节点进行迭代划分,若迭代划分后的孤立树高度达到预 设高度,或迭代划分后新生成的子节点中只有一个训练样本或数值相 同的多个训练样本时,停止迭代划分,以生成该孤立树。
本实施例提供的用户用能异常数据检测装置,可用于执行上述的 方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
参见图10,图10为本发明一实施例提供的电子设备的示意框图。 如图10所示的本实施例中的电子设备1000可以包括但不限于下述至 少一项:一个或多个处理器1001、一个或多个输入设备1002、一个 或多个输出设备1003及一个或多个存储器1004。上述处理器1001、 输入设备1002、则输出设备1003及存储器1004通过通信总线1005 完成相互间的通信。存储器1004用于存储计算机程序,计算机程序 包括程序指令。处理器1001用于执行存储器1004存储的程序指令。
应当理解,在本发明实施例中,所称处理器1001可以是中央处 理单元(CentralProcessing Unit,CPU),该处理器还可以是其他 通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、 专用集成电路(Application Specific Integrated Circuit,ASIC)、 现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者 其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。 通用处理器可以是微处理器或者该处理器也可以是任何常规的处理 器等。
输入设备1002可以包括触控板、指纹采传感器(用于采集用户 的指纹信息和指纹的方向信息)、麦克风等,输出设备1003可以包括 显示器(LCD等)、扬声器等。
该存储器1004可以包括只读存储器和随机存取存储器,并向处 理器1001提供指令和数据。存储器1004的一部分还可以包括非易失 性随机存取存储器。例如,存储器1004还可以存储设备类型的信息。
具体实现中,本发明实施例中所描述的处理器1001、输入设备 1002、输出设备1003可执行本发明实施例提供的方法实施例所描述 的实现方式,在此不再赘述。
在本发明的另一实施例中提供一种计算机可读存储介质,计算机 可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指 令被处理器执行时实现上述实施例方法中的全部或部分流程,也可以 通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计 算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述 各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计 算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些 中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的 任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机 存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM, Random AccessMemory)、电载波信号、电信信号以及软件分发介质 等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区 内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区, 根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信 号。
计算机可读存储介质可以是前述任一实施例的终端的内部存储 单元,例如终端的硬盘或内存。计算机可读存储介质也可以是终端的 外部存储设备,例如终端上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,计算机可读存储介质还可以既包括终端的内部 存储单元也包括外部存储设备。计算机可读存储介质用于存储计算机 程序及终端所需的其他程序和数据。计算机可读存储介质还可以用于 暂时地存储已经输出或者将要输出的数据。
本领域技术人员可以意识到,结合本文中所公开的实施例描述的 各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的 结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中 已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以 硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条 件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描 述的功能,但是这种实现不应认为超出本发明的范围。
Claims (10)
1.一种用户用能异常数据检测方法,其特征在于,包括:
获取待检测样本,所述待检测样本由待检测用户的用能数据生成;将所述待检测样本遍历孤立森林模型中的每棵孤立树,以确定所述待检测样本落在每棵孤立树中的子节点的高度,以及所述待检测样本与每棵孤立树的根节点中各训练样本之间的距离;所述孤立森林模型经由多个选定用户的用能数据生成的训练样本训练,所述孤立森林模型包括多棵孤立树,每棵孤立树的根节点包括多个训练样本;根据所述高度,确定所述待检测样本的高度异常分值;根据所述距离,确定所述待检测样本的密度异常分值;在所述高度异常分值和所述密度异常分值满足预设条件时,确定所述待检测用户的用能数据为异常数据。
2.如权利要求1所述的一种用户用能异常数据检测方法,其特征在于,所述根据所述距离,确定所述待检测样本的密度分值,包括:
针对每棵孤立树,从该孤立树的根节点中所有训练样本中,选取与所述待检测样本距离最近的k个训练样本,其中所述k为正整数,计算所述待检测样本与k个训练样本之间的平均距离的倒数,作为所述待检测样本在该孤立树中的相对密度;
计算所述待检测样本在每棵孤立树中的相对密度的平均值,作为所述待检测样本的密度异常分值。
3.如权利要求2所述的一种用户用能异常数据检测方法,其特征在于,在计算所述待检测样本在该孤立树中的相对密度之后,所述方法还包括:
计算所述待检测样本在该孤立树中的多个临近点的相对密度;
基于所述多个临近点的相对密度,对所述待检测样本在该孤立树中的相对密度进行修正;
计算所述待检测样本在每棵孤立树中的修正后的相对密度的平均值,作为所述待检测样本的密度分值。
4.如权利要求1所述的一种用户用能异常数据检测方法,其特征在于,所述在所述高度异常分值和所述密度异常分值满足预设条件时,确定所述待检测用户的用能数据为异常数据,包括:
基于预设权重,计算所述密度异常分值和所述高度异常分值的加权和,作为所述待检测样本的综合异常分值;
在所述综合异常分值小于或等于预设阈值时,确定所述待检测用户的用能数据为异常数据。
5.如权利要求1所述的一种用户用能异常数据检测方法,其特征在于,所述根据所述高度,确定所述待检测样本的高度异常分值,包括:
将所述待检测样本落在每棵孤立树中的子节点的高度求均值,以得到所述待检测样本的平均高度;
对所述平均高度进行归一化处理,以得到所述待检测样本的高度异常分值。
7.如权利要求1-6任一项所述的一种用户用能异常数据检测方法,其特征在于,所述方法还包括:
获取多个用户的用能数据;其中,所述用能数据包括下述至少一项特征数据:用户用电量、有功功率、正向有功总电量、尖峰平谷时刻电量、ABC三相有功功率、无功功率、ABC三相无功功率;
基于所述多个用户的用能数据生成多个样本,以构成原始数据集,其中,所述样本与所述特征数据一一对应,每个样本包含一个特征数据;
从所述原始数据集中随机选取同一类型的训练样本,根据选取到的训练样本生成t棵孤立树,以构建所述孤立森林模型,其中,t为正整数;
所述获取待检测样本,包括:
从所述原始数据集中选取所述待检测样本,所述待检测样本与所述训练样本的类型相同。
8.如权利要求7所述的一种用户用能异常数据检测方法,其特征在于,每棵孤立树的生成过程包括:
从所述原始数据集中随机选取n个同一类型的训练样本构成该孤立树的根节点;
在该同一类型的特征数据x(q)的值域范围内随机选择一个分割值p;
根据所述分割值p对该孤立树的根节点中的n个训练样本进行划分,将满足x(q)≤p的训练样本划分至根节点中的左子节点,将满足x(q)>p的训练样本划分至根节点的右子节点;
对每个子节点进行迭代划分,若迭代划分后的孤立树高度达到预设高度,或迭代划分后新生成的子节点中只有一个训练样本或数值相同的多个训练样本时,停止迭代划分,以生成该孤立树。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述方法步骤。
10.一种计算可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110326391.6A CN112990330B (zh) | 2021-03-26 | 2021-03-26 | 用户用能异常数据检测方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110326391.6A CN112990330B (zh) | 2021-03-26 | 2021-03-26 | 用户用能异常数据检测方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112990330A true CN112990330A (zh) | 2021-06-18 |
CN112990330B CN112990330B (zh) | 2022-09-20 |
Family
ID=76333874
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110326391.6A Active CN112990330B (zh) | 2021-03-26 | 2021-03-26 | 用户用能异常数据检测方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112990330B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113469235A (zh) * | 2021-06-24 | 2021-10-01 | 珠海卓邦科技有限公司 | 用水波动异常识别方法及装置、计算机装置及存储介质 |
CN113723477A (zh) * | 2021-08-16 | 2021-11-30 | 同盾科技有限公司 | 一种基于孤立森林的跨特征联邦异常数据检测方法 |
CN114580580A (zh) * | 2022-05-07 | 2022-06-03 | 深圳索信达数据技术有限公司 | 一种智能运维异常检测方法及装置 |
CN116451168A (zh) * | 2023-06-15 | 2023-07-18 | 北京国电通网络技术有限公司 | 异常电力信息生成方法、装置、电子设备和可读介质 |
CN116911806A (zh) * | 2023-09-11 | 2023-10-20 | 湖北华中电力科技开发有限责任公司 | 基于互联网+的电力企业能源信息管理系统 |
CN117786587A (zh) * | 2024-02-28 | 2024-03-29 | 深圳市福山自动化科技有限公司 | 基于数据分析的电网数据质量异常诊断方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1698067A (zh) * | 2003-04-28 | 2005-11-16 | 索尼株式会社 | 图像识别设备、方法和机器人设备 |
CN105279761A (zh) * | 2015-11-18 | 2016-01-27 | 山东大学 | 一种基于样本局部密度离群点检测的背景建模方法 |
CN108764527A (zh) * | 2018-04-23 | 2018-11-06 | 中国科学院南京土壤研究所 | 一种土壤有机碳库时空动态预测最优环境变量筛选方法 |
CN108777873A (zh) * | 2018-06-04 | 2018-11-09 | 江南大学 | 基于加权混合孤立森林的无线传感网络异常数据检测方法 |
CN109345137A (zh) * | 2018-10-22 | 2019-02-15 | 广东精点数据科技股份有限公司 | 一种基于农业大数据的异常值检测方法 |
CN109684311A (zh) * | 2018-12-06 | 2019-04-26 | 中科恒运股份有限公司 | 异常数据检测方法及装置 |
CN109783884A (zh) * | 2018-12-25 | 2019-05-21 | 河海大学 | 基于面雨量和模型参数同时校正的实时洪水预报误差修正方法 |
CN109948669A (zh) * | 2019-03-04 | 2019-06-28 | 腾讯科技(深圳)有限公司 | 一种异常数据检测方法及装置 |
CN110046665A (zh) * | 2019-04-17 | 2019-07-23 | 成都信息工程大学 | 基于孤立森林二分类异常点检测方法、信息数据处理终端 |
CN110149258A (zh) * | 2019-04-12 | 2019-08-20 | 北京航空航天大学 | 一种基于孤立森林的汽车can总线网络数据异常检测方法 |
CN110162970A (zh) * | 2019-01-08 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种程序处理方法、装置以及相关设备 |
CN110334085A (zh) * | 2019-05-30 | 2019-10-15 | 广州供电局有限公司 | 配电网数据监测和修正方法、装置、计算机及存储介质 |
CN111061620A (zh) * | 2019-12-27 | 2020-04-24 | 福州林科斯拉信息技术有限公司 | 一种混合策略的服务器异常智能检测方法及检测系统 |
-
2021
- 2021-03-26 CN CN202110326391.6A patent/CN112990330B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1698067A (zh) * | 2003-04-28 | 2005-11-16 | 索尼株式会社 | 图像识别设备、方法和机器人设备 |
CN105279761A (zh) * | 2015-11-18 | 2016-01-27 | 山东大学 | 一种基于样本局部密度离群点检测的背景建模方法 |
CN108764527A (zh) * | 2018-04-23 | 2018-11-06 | 中国科学院南京土壤研究所 | 一种土壤有机碳库时空动态预测最优环境变量筛选方法 |
CN108777873A (zh) * | 2018-06-04 | 2018-11-09 | 江南大学 | 基于加权混合孤立森林的无线传感网络异常数据检测方法 |
CN109345137A (zh) * | 2018-10-22 | 2019-02-15 | 广东精点数据科技股份有限公司 | 一种基于农业大数据的异常值检测方法 |
CN109684311A (zh) * | 2018-12-06 | 2019-04-26 | 中科恒运股份有限公司 | 异常数据检测方法及装置 |
CN109783884A (zh) * | 2018-12-25 | 2019-05-21 | 河海大学 | 基于面雨量和模型参数同时校正的实时洪水预报误差修正方法 |
CN110162970A (zh) * | 2019-01-08 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种程序处理方法、装置以及相关设备 |
CN109948669A (zh) * | 2019-03-04 | 2019-06-28 | 腾讯科技(深圳)有限公司 | 一种异常数据检测方法及装置 |
CN110149258A (zh) * | 2019-04-12 | 2019-08-20 | 北京航空航天大学 | 一种基于孤立森林的汽车can总线网络数据异常检测方法 |
CN110046665A (zh) * | 2019-04-17 | 2019-07-23 | 成都信息工程大学 | 基于孤立森林二分类异常点检测方法、信息数据处理终端 |
CN110334085A (zh) * | 2019-05-30 | 2019-10-15 | 广州供电局有限公司 | 配电网数据监测和修正方法、装置、计算机及存储介质 |
CN111061620A (zh) * | 2019-12-27 | 2020-04-24 | 福州林科斯拉信息技术有限公司 | 一种混合策略的服务器异常智能检测方法及检测系统 |
Non-Patent Citations (1)
Title |
---|
巫朝星: "基于孤立森林模型的企业用水异常检测研究", 《企业科技与发展》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113469235A (zh) * | 2021-06-24 | 2021-10-01 | 珠海卓邦科技有限公司 | 用水波动异常识别方法及装置、计算机装置及存储介质 |
CN113469235B (zh) * | 2021-06-24 | 2024-04-26 | 珠海卓邦科技有限公司 | 用水波动异常识别方法及装置、计算机装置及存储介质 |
CN113723477A (zh) * | 2021-08-16 | 2021-11-30 | 同盾科技有限公司 | 一种基于孤立森林的跨特征联邦异常数据检测方法 |
CN113723477B (zh) * | 2021-08-16 | 2024-04-30 | 同盾科技有限公司 | 一种基于孤立森林的跨特征联邦异常数据检测方法 |
CN114580580A (zh) * | 2022-05-07 | 2022-06-03 | 深圳索信达数据技术有限公司 | 一种智能运维异常检测方法及装置 |
CN114580580B (zh) * | 2022-05-07 | 2022-08-16 | 深圳索信达数据技术有限公司 | 一种智能运维异常检测方法及装置 |
CN116451168A (zh) * | 2023-06-15 | 2023-07-18 | 北京国电通网络技术有限公司 | 异常电力信息生成方法、装置、电子设备和可读介质 |
CN116451168B (zh) * | 2023-06-15 | 2023-09-12 | 北京国电通网络技术有限公司 | 异常电力信息生成方法、装置、电子设备和可读介质 |
CN116911806A (zh) * | 2023-09-11 | 2023-10-20 | 湖北华中电力科技开发有限责任公司 | 基于互联网+的电力企业能源信息管理系统 |
CN116911806B (zh) * | 2023-09-11 | 2023-11-28 | 湖北华中电力科技开发有限责任公司 | 基于互联网+的电力企业能源信息管理系统 |
CN117786587A (zh) * | 2024-02-28 | 2024-03-29 | 深圳市福山自动化科技有限公司 | 基于数据分析的电网数据质量异常诊断方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112990330B (zh) | 2022-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112990330B (zh) | 用户用能异常数据检测方法及设备 | |
CN108520357B (zh) | 一种线损异常原因的判别方法、装置及服务器 | |
CN109891508B (zh) | 单细胞类型检测方法、装置、设备和存储介质 | |
CN106803799B (zh) | 一种性能测试方法和装置 | |
CN113049963A (zh) | 一种基于局部离群因子的锂电池组一致性检测方法及装置 | |
CN115422788B (zh) | 一种配电网线损分析管理方法、装置、存储介质及系统 | |
CN103957116A (zh) | 一种云故障数据的决策方法及系统 | |
CN115408925A (zh) | 用于隧道施工的岩体参数预测方法和装置 | |
CN114978877B (zh) | 一种异常处理方法、装置、电子设备及计算机可读介质 | |
CN114548199A (zh) | 一种基于深度迁移网络的多传感器数据融合方法 | |
CN115526258A (zh) | 基于Spearman相关系数特征提取的电力系统暂稳评估方法 | |
CN115793590A (zh) | 适用于系统安全运维的数据处理方法及平台 | |
CN114169460A (zh) | 样本筛选方法、装置、计算机设备和存储介质 | |
CN113538063A (zh) | 基于决策树的电费异常数据分析方法、装置、设备及介质 | |
CN117407665A (zh) | 一种基于生成对抗网络的退役电池时序数据缺失值填充方法 | |
CN116400266A (zh) | 基于数字孪生模型的变压器故障检测方法、装置及介质 | |
CN115392715A (zh) | 一种用电数据风险评估方法、装置、设备及存储介质 | |
CN115204501A (zh) | 企业评估方法、装置、计算机设备和存储介质 | |
CN114462294A (zh) | 一种两阶段代理模型辅助参数估计方法以及系统 | |
CN110108239B (zh) | 极片质量信息获取方法、系统及设备 | |
CN113656354A (zh) | 日志分类方法、系统、计算机设备和可读存储介质 | |
CN113139673A (zh) | 一种预测空气质量的方法、装置、终端及存储介质 | |
CN116611267B (zh) | 一种物探数据正则化反演中先验边界结构全约束配置方法 | |
CN117435870B (zh) | 一种负荷数据实时填充方法、系统、设备和介质 | |
CN116860562B (zh) | 一种用于数据中台数据质量的监控方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |