CN113469235B - 用水波动异常识别方法及装置、计算机装置及存储介质 - Google Patents
用水波动异常识别方法及装置、计算机装置及存储介质 Download PDFInfo
- Publication number
- CN113469235B CN113469235B CN202110706936.6A CN202110706936A CN113469235B CN 113469235 B CN113469235 B CN 113469235B CN 202110706936 A CN202110706936 A CN 202110706936A CN 113469235 B CN113469235 B CN 113469235B
- Authority
- CN
- China
- Prior art keywords
- user
- data
- water consumption
- anomaly
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 title claims abstract description 240
- 230000005856 abnormality Effects 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000012549 training Methods 0.000 claims abstract description 95
- 238000010586 diagram Methods 0.000 claims abstract description 69
- 238000007781 pre-processing Methods 0.000 claims abstract description 23
- 230000002159 abnormal effect Effects 0.000 claims description 102
- 230000015654 memory Effects 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 15
- 238000010801 machine learning Methods 0.000 claims description 8
- 238000007619 statistical method Methods 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2193—Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Game Theory and Decision Science (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本发明提供一种用水波动异常识别方法及装置、计算机装置及存储介质,其包括对获取到的用水数据进行预处理,基于预处理后的数据对孤立森林异常识别模型进行训练并结合正态分布和箱线图确定异常值的临界值,根据训练结果确定异常识别模型,基于异常识别模型对用户进行用水波动异常识别。该装置用于实现上述的用水波动异常识别方法。本发明还提供实现上述方法的计算机装置以及存储介质。本发明可以准确识别出用户的用水波动异常,能够更加精确地判断用水是否出现异常,避免对用户的正常用水造成影响,保障用户的用水安全,有效的提高了用户用水时的准确性与稳定性。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种用水波动异常识别方法以及实现这种方法的装置,还涉及一种实现上述方法的计算机装置以及存储介质。
背景技术
对于一些用户用水异常超量、用水异常减少等情况会危及用户的用水安全,目前对用户用水波动异常进行识别的准确率也较低。
发明内容
本发明的第一目的是提供一种可准确、快速的识别出用水波动异常的用户的用水波动异常识别方法。
本发明的第二目的是提供一种可准确、快速的识别出用水波动异常的用户的用水波动异常识别装置。
本发明的第三目的是提供一种能够实现上述用水波动异常识别方法的计算机装置。
本发明的第四目的是提供一种被处理器读取并执行时能够实现上述用水波动异常识别方法的存储介质。
为了实现上述第一目的,本发明提供的一种用水波动异常识别方法,包括对获取到的用水数据进行预处理;基于预处理后的数据对孤立森林异常识别模型进行训练并结合正态分布和箱线图确定异常值的临界值;根据训练结果确定异常识别模型;基于异常识别模型对用户进行用水波动异常识别。
进一步的方案中,所述对获取到的用水数据进行预处理,包括:缺失值处理:使用上一次抄表周期内的用水量对用户用水数据缺失值进行填充,其他特征维度缺失值使用该特征维度的众数进行填充;异常数据处理:对异常数据采用该特征维度的平均值进行替换,其中,该异常数据为在业务上已经标识为异常的数据。
更进一步的方案中,所述基于预处理后的数据对孤立森林异常识别模型进行训练并结合正态分布和箱线图确定异常值的临界值,包括:对预处理后的数据按用户户号进行分割,将分割后的数据分别输入孤立森林算法和正态分布、箱线图模型中,为每个用户分别训练出孤立森林异常识别模型和正态分布、箱线图异常识别模型,并确定用水数据异常值的上、下临界值。
更进一步的方案中,所述根据训练结果确定异常识别模型,包括:使用训练好的孤立森林异常识别模型和正态分布、箱线图异常识别模型同时对用户用水波动异常进行识别,当识别并输出最终异常值时,根据异常识别准确率确定异常识别模型。
更进一步的方案中,孤立森林异常识别模型的训练包括:数据预处理结束后,按每个用户都训练一个异常识别模型的方式,将每个用户的特征维度数据包括用户用水量、用水性质、用户类别、抄表周期等输入到孤立森林算法中,使用网格搜索、交叉验证方法对算法参数进行优化,选取准确率最高的参数作为孤立森林的最终参数,然后使用设置为该参数的算法进行训练,并保存模型。
更进一步的方案中,正态分布、箱线图异常识别模型的训练包括:对每个用户的用水数据的分布进行分析,按正态分布的标准差方法和箱线图的分位数方法对用水数据进行异常识别,并确定用水数据异常值的上、下临界值。
更进一步的方案中,所述基于异常识别模型对用户进行用水波动异常识别,包括:将预处理后的各个维度特征数据输入到孤立森林异常识别模型中进行训练,使用孤立森林异常识别模型识别异常值;将预处理后的各个维度特征数据输入到正态分布、箱线图异常识别模型中进行训练,使用正态分布标准差和箱线图中分位数方法对用户用水数据进行异常识别,并结合统计方法和机器学习方法识别出用水数据异常值,确定用水数据异常值的上、下临界值;当上述两种模型同时识别用户为用水数据异常值时,输出该用户为用水波动异常,并对识别为用水波动异常的数据进行标识。
为了实现上述的第二目的,本发明提供的一种用水波动异常识别装置,包括:预处理单元,用于对获取到的用水数据进行预处理;模型训练单元,用于基于预处理后的数据对孤立森林异常识别模型进行训练并结合正态分布和箱线图确定异常值的临界值;模型确定单元,用于根据训练结果确定异常识别模型;异常识别单元,用于基于异常识别模型对用户进行用水波动异常识别。
进一步的方案是,所述预处理单元对获取到的用水数据进行预处理,包括:缺失值处理:使用上一次抄表周期内的用水量对用户用水数据缺失值进行填充,其他特征维度缺失值使用该特征维度的众数进行填充;异常数据处理:对异常数据采用该特征维度的平均值进行替换,其中,该异常数据为在业务上已经标识为异常的数据。
更进一步的方案中,所述模型训练单元基于预处理后的数据对孤立森林异常识别模型进行训练并结合正态分布和箱线图确定异常值的临界值,包括:对预处理后的数据按用户户号进行分割,将分割后的数据分别输入孤立森林算法和正态分布、箱线图模型中,为每个用户分别训练出孤立森林异常识别模型和正态分布、箱线图异常识别模型,并确定用水数据异常值的上、下临界值。
更进一步的方案中,所述模型确定单元根据训练结果确定异常识别模型,包括:使用训练好的孤立森林异常识别模型和正态分布、箱线图异常识别模型同时对用户用水波动异常进行识别,当识别并输出最终异常值时,根据异常识别准确率确定异常识别模型。
更进一步的方案中,孤立森林异常识别模型的训练包括:数据预处理结束后,按每个用户都训练一个异常识别模型的方式,将每个用户的特征维度数据包括用户用水量、用水性质、用户类别、抄表周期等输入到孤立森林算法中,使用网格搜索、交叉验证方法对算法参数进行优化,选取准确率最高的参数作为孤立森林的最终参数,然后使用设置为该参数的算法进行训练,并保存模型。
更进一步的方案中,正态分布、箱线图异常识别模型的训练包括:对每个用户的用水数据的分布进行分析,按正态分布的标准差方法和箱线图的分位数方法对用水数据进行异常识别,并确定用水数据异常值的上、下临界值。
更进一步的方案中,所述异常识别单元基于异常识别模型对用户进行用水波动异常识别,包括:将预处理后的各个维度特征数据输入到孤立森林异常识别模型中进行训练,使用孤立森林异常识别模型识别异常值;将预处理后的各个维度特征数据输入到正态分布、箱线图异常识别模型中进行训练,使用正态分布标准差和箱线图中分位数方法对用户用水数据进行异常识别,并结合统计方法和机器学习方法识别出用水数据异常值,确定用水数据异常值的上、下临界值;当上述两种模型同时识别用户为用水数据异常值时,输出该用户为用水波动异常,并对识别为用水波动异常的数据进行标识。
由此可见,本发明首先对用户的用水量、用水性质、用户类别、抄表周期等维度特征数据进行预处理,并按用户户号对数据进行分割;再使用预处理好的数据训练孤立森林算法模型和正态分布、箱线图模型,同时使用两种模型识别异常值;当两种模型同时识别用户用水波动异常时输出最终异常值,根据异常识别准确率确定整个异常识别模型,从而通过确定好的异常识别模型对用户进行用水波动异常识别。
所以,本发明填补了目前水务领域没有用户用水波动异常识别的方法,通过该方案可以准确识别出用户的用水波动异常,能够更加精确地判断用水是否出现异常,避免对用户的正常用水造成影响,保障用户的用水安全,有效的提高了用户用水时的准确性与稳定性。
为了实现上述的第三目的,本发明提供的计算机装置包括处理器,处理器用于执行存储器中存储的计算机程序时实现上述用水波动异常识别方法的各个步骤。
为了实现上述的第四目的,本发明提供的存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述用水波动异常识别方法的各个步骤。
由此可见,本发明提供了一种计算机装置以及存储介质,其包括:一个或多个存储器,一个或多个处理器。存储器用于存储程序代码和程序运行过程中产生的中间数据、模型输出结果的储存和模型及模型参数的储存;处理器用于代码运行所占用的处理器资源和训练模型时占用的多个处理器资源。
附图说明
图1是本发明用水波动异常识别方法实施例的流程图。
图2是本发明用水波动异常识别方法实施例中某地区10000个用户3年平均用水按从小到大排列后的折线图。
图3是图2的正态分布图。
图4是本发明用水波动异常识别方法实施例中算法1的原理图。
图5是本发明用水波动异常识别方法实施例中算法2的原理图。
图6是本发明用水波动异常识别方法实施例中正态分布的标准差方法的原理图。
图7是本发明用水波动异常识别方法实施例中箱线图的分位数方法的原理图。
图8是本发明用水波动异常识别装置实施例的原理图。
图9是本发明用水波动异常识别系统实施例的原理图。
以下结合附图及实施例对本发明作进一步说明。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
用水波动异常识别方法实施例:
参见图1,本发明的用水波动异常识别方法,包括以下步骤:
步骤S1,对获取到的用水数据进行预处理。其中,对获取到的用水数据进行预处理包括:
缺失值处理:使用上一次抄表周期内的用水量对用户用水数据缺失值进行填充,其他特征维度缺失值使用该特征维度的众数进行填充;
异常数据处理:对异常数据采用该特征维度的平均值进行替换,其中,该异常数据为在业务上已经标识为异常的数据,例如漏水、水表故障、水表遮挡估抄等数据。
步骤S2,基于预处理后的数据对孤立森林异常识别模型进行训练并结合正态分布和箱线图确定异常值的临界值。其中,基于预处理后的数据对孤立森林异常识别模型进行训练并结合正态分布和箱线图确定异常值的临界值,包括:对预处理后的数据按用户户号进行分割,将分割后的数据分别输入孤立森林算法和正态分布、箱线图模型中,为每个用户分别训练出孤立森林异常识别模型和正态分布、箱线图异常识别模型,并确定用水数据异常值的上、下临界值。
步骤S3,根据训练结果确定异常识别模型。其中,根据训练结果确定异常识别模型,包括:使用训练好的孤立森林异常识别模型和正态分布、箱线图异常识别模型同时对用户用水波动异常进行识别,当识别并输出最终异常值时,根据异常识别准确率确定异常识别模型。
在本实施例中,孤立森林异常识别模型的训练包括:数据预处理结束后,按每个用户都训练一个异常识别模型的方式,将每个用户的特征维度数据包括用户用水量、用水性质、用户类别、抄表周期等输入到孤立森林算法中,使用网格搜索、交叉验证方法对算法参数进行优化,选取准确率最高的参数作为孤立森林的最终参数,然后使用设置为该参数的算法进行训练,并保存模型。
在本实施例中,正态分布、箱线图异常识别模型的训练包括:对每个用户的用水数据的分布进行分析,按正态分布的标准差方法和箱线图的分位数方法对用水数据进行异常识别,并确定用水数据异常值的上、下临界值。
步骤S4,基于异常识别模型对用户进行用水波动异常识别。其中,基于异常识别模型对用户进行用水波动异常识别,包括:将预处理后的各个维度特征数据输入到孤立森林异常识别模型中进行训练,使用孤立森林异常识别模型识别异常值;将预处理后的各个维度特征数据输入到正态分布、箱线图异常识别模型中进行训练,使用正态分布标准差和箱线图中分位数方法对用户用水数据进行异常识别,并结合统计方法和机器学习方法识别出用水数据异常值,确定用水数据异常值的上、下临界值;当上述两种模型同时识别用户为用水数据异常值时,输出该用户为用水波动异常,并对识别为用水波动异常的数据进行标识。
在上述步骤S1中,对用户用水数据进行预处理后,随机取部分用户用水数据进行分析,结果如图2所示,图2为某地区10000个用户3年平均用水按从小到大排列后的折线图,从中可以看出右侧存在少量用水量极大的用户,该值可能为异常值,将其去除后,取前9000个正常用户用水数据,其数据分布如图3所示。
从图3可以看出,由于用水量大于0,用水量分布为右拖尾状态,为方便处理,可以近似为正态分布,可以使用正态分布的σ(标准差)方法确定异常值的临界值,为保证准确率,同时使用箱线图的分位数方法进行确定。
对于正态分布σ(标准差)方法:首先计算每个用户用水量的平均值,然后计算其标准差,然后根据3σ(标准差)法则计算上、下异常值的临界值,如公式(1):
max=avg+3σ
min = avg - 3σ (1)
式中,avg代表用户用水量的平均值,σ代表用户用水量的标准差。
对于箱线图的分位数方法:首先计算每个用户用水量的四分之一分位数、二分之一分位数和四分之三分位数,然后,然后根据分位数方法计算上、下异常值的临界值,如公式(2):
max=Q3+k(Q3-Q1)
min = Q1 - k(Q3-Q1) (2)
式中,Q3代表用户用水量四分之三分位数,Q1代表用户用水量四分之一分位数,k=1.5时表示中度异常,k=3时表示极度异常,根据情况选择。
在上述步骤S2中,模型训练和参数确定包括孤立森林异常识别模型和正态分布、箱线图模型的训练和参数确定。
对于孤立森林异常识别模型训练:
当数据预处理结束后,按每个用户都训练一个异常识别模型的方式,将每个用户的特征维度数据包括用户用水量、用水性质、用户类别、抄表周期等输入到孤立森林算法中,使用网格搜索、交叉验证方法对算法参数进行优化,选取准确率最高的参数作为孤立森林的最终参数,然后使用设置为该参数的算法进行训练,并保存模型。
具体的,孤立森林算法如下:
异常的两个特点:异常数据只占很少量、异常数据特征值和正常数据差别很大。
基于iForest的异常检测包括两个步骤:训练阶段,基于训练集的子样本来建立孤立树;测试阶段,用孤立树为每一个测试样本计算异常分数。
用户各个特征维度数据如下表(1):
对数据进行处理:用水量平均值、当前用水量计算,离散值用数值进行表示等,结果如下表(2):
当用水数据输入孤立森林算法训练时,根据情况选择两种训练数据集:一种是将上述用水平均值、当前月用水量、用户类型、抄表周期、用水性质等所有维度数据输入到孤立森林算法中进行训练,另一种是仅使用用水量数据输入到孤立森林中进行训练,最后根据模型评估的准确性进行选择。
训练阶段:
iTree的建立是通过对训练集的递归分隔来建立的,直到所有的样本被孤立,或者树达到了指定的高度。树的高度限制l与子样本数量ψ的关系为l=ceiling(log2(ψ)),它近似等于树的平均高度。树只生长到平均高度,而不继续生长的原因是,本发明只关注路径长度较小的那些点,它们更有可能是异常点,并不关心路径很长的正常点。详细的训练过程如算法1和算法2,如图4和图5所示。
算法1:整个孤立森林训练过程,算法输入为训练集X、孤立森林中孤立树的数量t,训练孤立树的子样本数量Ψ。从训练数据中随机选择Ψ个点作为子样本,放入一棵孤立树的根节点,参照算法2训练孤立树,集合所有训练的孤立树为孤立森林。
算法2:算法输入为子样本数据集X、当前树的高度e和数据的高度限制(树的最大高度)L,训练孤立树时,当满足以下条件时,则终止树的生长,如公式(3):
e>=L
or |X| <= 1 (节点的样本数量<= 1) (3)
测试阶段:
每一个测试样本的异常分数由期望路径长度E(h(x))得到,E(h(x))是将样本通过孤立森林中的每一棵树得到的。具体过程见算法3,如图6所示。
当正常点倾向于在树的较深端隔离,而异常点由于其奇异性而更靠近树的根部。平均路径长度越短,出现异常的机会就越大。因此,异常分数s定义为公式(4):
其中,n是数据集中的样本数,E(h(x))是一组路径长度h(x)的平均值,c(n)是给定n的h(x)的平均值,用于归一化路径长度。
对于正态分布和箱线图训练:
对每个用户用水量数据的分布进行分析,按正态分布的标准差方法和箱线图的分位数方法对用水数据进行异常识别,并确定用水量异常值的上、下临界值。
正态分布的标准差方法:
计算平均值和标准差,如公式(5):
avg=6.368421
std = 4.361581 (5)
计算上、下临界值,如公式(6):
max=6.368421+3*4.361581=19.453164
min = 6.368421 - 3 * 4.361581 = -6.716322 (6)
由于用户用水量正常情况下不可能为负数,故下临界值min取0,最终该用户异常值的临界值表示为表(3):
上临界值(max) | 下临界值(min) |
19.453164 | 0 |
(3)
由此可识别出该用户用水量的异常值,数据分布如图6所示:
箱线图的分位数方法:
计算出四分之一和四分之三分位数:Q1=3.5,Q3=8.5。
计算上、下临界值,如公式(7):
max=Q3+(Q3-Q1)=8.5+5=13.5
min = Q1 - (Q3 - Q1)= 3.5 - 5 = -1.5 (7)
由于用户用水量正常情况下不可能为负数,故下临界值min取0,最终该用户异常值的临界值为表(4):
上临界值(max) | 下临界值(min) |
13.5 | 0 |
(4)
由此可识别出该用户用水量的异常值,数据分布如图7所示:
综上所述,将孤立森林异常识别模型和正态分布、箱线图模型训练后,对用户数据进行分析预测,将孤立森林异常识别模型和正态分布、箱线图模型均识别为异常值作为最终的用户用水波动异常。
由此可见,本实施例提供了一种用户用水波动异常识别的方法,包括:对水务企业提供的用户用水量、用水性质、用户类别、抄表周期等维度数据进行预处理,包括缺失值的填充、业务上已标识为异常数据的替换,防止这些异常值对数据分布产生影响等。
上述维度特征通过业务专家根据业务进行分析,选择对用户用水影响较大的特征数据作为模型的训练集和测试集数据。
对预处理完的数据按用户户号进行分割,对每个用户训练一个用水波动异常识别模型,每个用户的特征数据采用统计异常识别方法正态分布、箱线图等和机器学习方法孤立森林(Isolation Forest)等算法模型进行异常值识别,并对识别为用水波动异常的数据进行标识。
优选地,异常识别算法模型包括正态分布、箱线图、孤立森林等,最终采用正态分布、箱线图、孤立森林相结合的方式,将预处理后的各个维度特征数据输入到孤立森林异常识别模型中进行训练,使用孤立森林异常识别模型识别异常值;再使用正态分布标准差和箱线图中分位数方法对用户用水数据进行异常识别;最后结合统计方法和机器学习方法识别出的异常值,当两种方法同时识别为异常值时输出该用户为用水波动异常。
由此可见,本发明首先对用户的用水量、用水性质、用户类别、抄表周期等维度特征数据进行预处理,并按用户户号对数据进行分割;再使用预处理好的数据训练孤立森林算法模型和正态分布、箱线图模型,同时使用两种模型识别异常值;当两种模型同时识别用户用水波动异常时输出最终异常值,根据异常识别准确率确定整个异常识别模型,从而通过确定好的异常识别模型对用户进行用水波动异常识别。
所以,本发明填补了目前水务领域没有用户用水波动异常识别的方法,通过该方案可以准确识别出用户的用水波动异常,能够更加精确地判断用水是否出现异常,避免对用户的正常用水造成影响,保障用户的用水安全,有效的提高了用户用水时的准确性与稳定性。
用水波动异常识别装置实施例:
如图8所示,本发明提供的一种用水波动异常识别装置,包括:
预处理单元10,用于对获取到的用水数据进行预处理。
模型训练单元20,用于基于预处理后的数据对孤立森林异常识别模型进行训练并结合正态分布和箱线图确定异常值的临界值。
模型确定单元30,用于根据训练结果确定异常识别模型。
异常识别单元40,用于基于异常识别模型对用户进行用水波动异常识别。
进一步的,预处理单元10对获取到的用水数据进行预处理,包括:缺失值处理:使用上一次抄表周期内的用水量对用户用水数据缺失值进行填充,其他特征维度缺失值使用该特征维度的众数进行填充;异常数据处理:对异常数据采用该特征维度的平均值进行替换,其中,该异常数据为在业务上已经标识为异常的数据。
进一步的,模型训练单元20基于预处理后的数据对孤立森林异常识别模型进行训练并结合正态分布和箱线图确定异常值的临界值,包括:对预处理后的数据按用户户号进行分割,将分割后的数据分别输入孤立森林算法和正态分布、箱线图模型中,为每个用户分别训练出孤立森林异常识别模型和正态分布、箱线图异常识别模型,并确定用水数据异常值的上、下临界值。
进一步的,模型确定单元30根据训练结果确定异常识别模型,包括:使用训练好的孤立森林异常识别模型和正态分布、箱线图异常识别模型同时对用户用水波动异常进行识别,当识别并输出最终异常值时,根据异常识别准确率确定异常识别模型。
进一步的,孤立森林异常识别模型的训练包括:数据预处理结束后,按每个用户都训练一个异常识别模型的方式,将每个用户的特征维度数据包括用户用水量、用水性质、用户类别、抄表周期等输入到孤立森林算法中,使用网格搜索、交叉验证方法对算法参数进行优化,选取准确率最高的参数作为孤立森林的最终参数,然后使用设置为该参数的算法进行训练,并保存模型。
进一步的,正态分布、箱线图异常识别模型的训练包括:对每个用户的用水数据的分布进行分析,按正态分布的标准差方法和箱线图的分位数方法对用水数据进行异常识别,并确定用水数据异常值的上、下临界值。
进一步的,异常识别单元40基于异常识别模型对用户进行用水波动异常识别,包括:将预处理后的各个维度特征数据输入到孤立森林异常识别模型中进行训练,使用孤立森林异常识别模型识别异常值;将预处理后的各个维度特征数据输入到正态分布、箱线图异常识别模型中进行训练,使用正态分布标准差和箱线图中分位数方法对用户用水数据进行异常识别,并结合统计方法和机器学习方法识别出用水数据异常值,确定用水数据异常值的上、下临界值;当上述两种模型同时识别用户为用水数据异常值时,输出该用户为用水波动异常,并对识别为用水波动异常的数据进行标识。
因此,本发明实施例提供了一种用户用水波动异常识别的装置,包括:
预处理单元10,用于对用户用水量、用水性质、用户类别、抄表周期等数据的预处理,并对预处理后的数据按用户户号进行分割。
模型训练单元20,用于将分割后的数据分别输入孤立森林算法和正态分布、箱线图模型中,为每个用户分别训练出正态分布、箱线图异常识别模型和孤立森林异常识别模型,通过对算法参数的优化来提升算法异常识别的准确性。
模型确定单元30,用于根据每个用户异常识别的准确率保存模型和模型参数;
异常识别单元40,用于根据确定好的异常识别模型对用户进行用水波动异常识别。
如图9所示。本实施例还提供的一种用水波动异常识别系统,包括预处理单元10、模型训练单元20、模型确定单元30、异常识别单元40、模型优化单元50以及模型评估单元60。
其中,在将每个用户的特征维度数据包括用户用水量、用水性质、用户类别、抄表周期等输入到孤立森林算法中,模型优化单元50用于使用网格搜索、交叉验证方法对算法参数进行优化,选取准确率最高的参数作为孤立森林的最终参数,然后使用设置为该参数的算法进行训练,并保存模型。
其中,在数据输入孤立森林训练时,根据情况选择两种训练数据集:一种是将上述用水平均值、当前月用水量、用户类型、抄表周期、用水性质等所有维度数据输入到孤立森林算法中进行训练,另一种是仅使用用水量数据输入到孤立森林中进行训练,最后通过模型评估单元60对模型评估进行评估,根据模型评估的准确性进行选择。
计算机装置实施例:
本实施例的计算机装置包括处理器,处理器执行计算机程序时实现上述用水波动异常识别方法实施例中的步骤。
例如,计算机程序可以被分割成一个或多个模块,一个或者多个模块被存储在存储器中,并由处理器执行,以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机装置中的执行过程。
计算机装置可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,计算机装置可以包括更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机装置还可以包括输入输出设备、网络接入设备、总线等。
例如,处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。处理器是计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现计算机装置的各种功能。例如,存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(例如声音接收功能、声音转换成文字功能等)等;存储数据区可存储根据手机的使用所创建的数据(例如音频数据、文本数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
存储介质实施例:
终端设备集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个用水波动异常识别方法的各个步骤。
其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
由此可见,本发明提供了一种计算机装置以及存储介质,其包括:一个或多个存储器,一个或多个处理器。存储器用于存储程序代码和程序运行过程中产生的中间数据、模型输出结果的储存和模型及模型参数的储存;处理器用于代码运行所占用的处理器资源和训练模型时占用的多个处理器资源。
需要说明的是,以上仅为本发明的优选实施例,但发明的设计构思并不局限于此,凡利用此构思对本发明做出的非实质性修改,也均落入本发明的保护范围之内。
Claims (4)
1.用水波动异常识别方法,其特征在于,包括:
对获取到的用水数据进行预处理;其包括:缺失值处理:使用上一次抄表周期内的用水量对用户用水数据缺失值进行填充,其他特征维度缺失值使用该特征维度的众数进行填充;异常数据处理:对异常数据采用该特征维度的平均值进行替换,其中,该异常数据为在业务上已经标识为异常的数据;
基于预处理后的数据对孤立森林异常识别模型进行训练并结合正态分布和箱线图确定异常值的临界值;其中,对预处理后的数据按用户户号进行分割,将分割后的数据分别输入孤立森林算法和正态分布、箱线图模型中,为每个用户分别训练出孤立森林异常识别模型和正态分布、箱线图异常识别模型,并确定用水数据异常值的上、下临界值;具体的,对于正态分布σ方法:首先计算每个用户用水量的平均值,然后计算其标准差,然后根据3σ法则计算上、下异常值的临界值,如公式(1):
max=avg+3σ
min = avg - 3σ (1)
式中,avg代表用户用水量的平均值,σ代表用户用水量的标准差;
对于箱线图的分位数方法:首先计算每个用户用水量的四分之一分位数、四分之三分位数,然后根据分位数方法计算上、下异常值的临界值,如公式(2):
max=Q3+k(Q3-Q1)
min = Q1 - k(Q3-Q1) (2)
式中,Q3代表用户用水量四分之三分位数,Q1代表用户用水量四分之一分位数,k=1.5时表示中度异常,k=3时表示极度异常,k根据情况选择;
根据训练结果确定异常识别模型;其中,使用训练好的孤立森林异常识别模型和正态分布、箱线图异常识别模型同时对用户用水波动异常进行识别,当识别并输出最终异常值时,根据异常识别准确率确定异常识别模型;孤立森林异常识别模型的训练包括:数据预处理结束后,按每个用户都训练一个异常识别模型的方式,将每个用户的特征维度数据包括用户用水量、用水性质、用户类别、抄表周期输入到孤立森林算法中,使用网格搜索、交叉验证方法对算法参数进行优化,选取准确率最高的参数作为孤立森林的最终参数,然后使用设置为该参数的算法进行训练,并保存模型;
基于异常识别模型对用户进行用水波动异常识别,包括:
将预处理后的各个维度特征数据输入到孤立森林异常识别模型中进行训练,使用孤立森林异常识别模型识别异常值;
将预处理后的各个维度特征数据输入到正态分布、箱线图异常识别模型中进行训练,使用正态分布标准差和箱线图中分位数方法对用户用水数据进行异常识别,并结合统计方法和机器学习方法识别出用水数据异常值,确定用水数据异常值的上、下临界值;
当上述两种模型同时识别用户为用水数据异常值时,输出该用户为用水波动异常,并对识别为用水波动异常的数据进行标识。
2.用水波动异常识别装置,其特征在于,包括:
预处理单元,用于对获取到的用水数据进行预处理;其包括:缺失值处理:使用上一次抄表周期内的用水量对用户用水数据缺失值进行填充,其他特征维度缺失值使用该特征维度的众数进行填充;异常数据处理:对异常数据采用该特征维度的平均值进行替换,其中,该异常数据为在业务上已经标识为异常的数据;
模型训练单元,用于基于预处理后的数据对孤立森林异常识别模型进行训练并结合正态分布和箱线图确定异常值的临界值;其中,对预处理后的数据按用户户号进行分割,将分割后的数据分别输入孤立森林算法和正态分布、箱线图模型中,为每个用户分别训练出孤立森林异常识别模型和正态分布、箱线图异常识别模型,并确定用水数据异常值的上、下临界值;具体的,对于正态分布σ方法:首先计算每个用户用水量的平均值,然后计算其标准差,然后根据3σ法则计算上、下异常值的临界值,如公式(1):
max=avg+3σ
min = avg - 3σ (1)
式中,avg代表用户用水量的平均值,σ代表用户用水量的标准差;
对于箱线图的分位数方法:首先计算每个用户用水量的四分之一分位数、四分之三分位数,然后根据分位数方法计算上、下异常值的临界值,如公式(2):
max=Q3+k(Q3-Q1)
min = Q1 - k(Q3-Q1) (2)
式中,Q3代表用户用水量四分之三分位数,Q1代表用户用水量四分之一分位数,k=1.5时表示中度异常,k=3时表示极度异常,k根据情况选择;
模型确定单元,用于根据训练结果确定异常识别模型;其中,使用训练好的孤立森林异常识别模型和正态分布、箱线图异常识别模型同时对用户用水波动异常进行识别,当识别并输出最终异常值时,根据异常识别准确率确定异常识别模型;孤立森林异常识别模型的训练包括:数据预处理结束后,按每个用户都训练一个异常识别模型的方式,将每个用户的特征维度数据包括用户用水量、用水性质、用户类别、抄表周期输入到孤立森林算法中,使用网格搜索、交叉验证方法对算法参数进行优化,选取准确率最高的参数作为孤立森林的最终参数,然后使用设置为该参数的算法进行训练,并保存模型;
异常识别单元,用于基于异常识别模型对用户进行用水波动异常识别,包括:
将预处理后的各个维度特征数据输入到孤立森林异常识别模型中进行训练,使用孤立森林异常识别模型识别异常值;
将预处理后的各个维度特征数据输入到正态分布、箱线图异常识别模型中进行训练,使用正态分布标准差和箱线图中分位数方法对用户用水数据进行异常识别,并结合统计方法和机器学习方法识别出用水数据异常值,确定用水数据异常值的上、下临界值;
当上述两种模型同时识别用户为用水数据异常值时,输出该用户为用水波动异常,并对识别为用水波动异常的数据进行标识。
3.一种计算机装置,其特征在于:所述计算机装置包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1所述用水波动异常识别方法的步骤。
4.一种存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1所述用水波动异常识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110706936.6A CN113469235B (zh) | 2021-06-24 | 2021-06-24 | 用水波动异常识别方法及装置、计算机装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110706936.6A CN113469235B (zh) | 2021-06-24 | 2021-06-24 | 用水波动异常识别方法及装置、计算机装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113469235A CN113469235A (zh) | 2021-10-01 |
CN113469235B true CN113469235B (zh) | 2024-04-26 |
Family
ID=77872807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110706936.6A Active CN113469235B (zh) | 2021-06-24 | 2021-06-24 | 用水波动异常识别方法及装置、计算机装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113469235B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109308306A (zh) * | 2018-09-29 | 2019-02-05 | 重庆大学 | 一种基于孤立森林的用户用电异常行为检测方法 |
CN111259334A (zh) * | 2020-01-14 | 2020-06-09 | 杭州电子科技大学 | 一种工业企业大用户用水异常监测预警方法 |
CN112711577A (zh) * | 2020-12-17 | 2021-04-27 | 航天信息股份有限公司 | 一种异常交易企业识别方法及装置 |
CN112990330A (zh) * | 2021-03-26 | 2021-06-18 | 国网河北省电力有限公司营销服务中心 | 用户用能异常数据检测方法及设备 |
CN113011530A (zh) * | 2021-04-29 | 2021-06-22 | 国网新疆电力有限公司营销服务中心(资金集约中心、计量中心) | 一种基于多分类器融合的智能电表故障预测方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9595006B2 (en) * | 2013-06-04 | 2017-03-14 | International Business Machines Corporation | Detecting electricity theft via meter tampering using statistical methods |
EP3112959B1 (en) * | 2015-06-29 | 2021-12-22 | SUEZ Groupe | Method for detecting anomalies in a water distribution system |
US11144835B2 (en) * | 2016-07-15 | 2021-10-12 | University Of Connecticut | Systems and methods for outage prediction |
US10838433B2 (en) * | 2016-11-22 | 2020-11-17 | Wint Wi Ltd | Abnormal consumption detection during normal usage |
-
2021
- 2021-06-24 CN CN202110706936.6A patent/CN113469235B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109308306A (zh) * | 2018-09-29 | 2019-02-05 | 重庆大学 | 一种基于孤立森林的用户用电异常行为检测方法 |
CN111259334A (zh) * | 2020-01-14 | 2020-06-09 | 杭州电子科技大学 | 一种工业企业大用户用水异常监测预警方法 |
CN112711577A (zh) * | 2020-12-17 | 2021-04-27 | 航天信息股份有限公司 | 一种异常交易企业识别方法及装置 |
CN112990330A (zh) * | 2021-03-26 | 2021-06-18 | 国网河北省电力有限公司营销服务中心 | 用户用能异常数据检测方法及设备 |
CN113011530A (zh) * | 2021-04-29 | 2021-06-22 | 国网新疆电力有限公司营销服务中心(资金集约中心、计量中心) | 一种基于多分类器融合的智能电表故障预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113469235A (zh) | 2021-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019214248A1 (zh) | 一种风险评估方法、装置、终端设备及存储介质 | |
CN109598095B (zh) | 评分卡模型的建立方法、装置、计算机设备和存储介质 | |
CN110910982A (zh) | 自编码模型训练方法、装置、设备及存储介质 | |
WO2021174699A1 (zh) | 用户筛选方法、装置、设备及存储介质 | |
CN112685324B (zh) | 一种生成测试方案的方法及系统 | |
CN107818824A (zh) | 一种用于健康评估的健康模型构建方法及终端 | |
CN110009012B (zh) | 一种风险样本识别方法、装置及电子设备 | |
CN111090780A (zh) | 可疑交易信息的确定方法及装置、存储介质、电子设备 | |
CN109242363B (zh) | 一种基于多种质量控制模型的全生命周期测试管理平台 | |
WO2019223104A1 (zh) | 确定事件影响因素的方法、装置、终端设备及可读存储介质 | |
CN110147926A (zh) | 一种业务类型的风险等级计算方法、存储介质及终端设备 | |
CN116383742B (zh) | 基于特征分类的规则链设置处理方法、系统及介质 | |
CN115357764A (zh) | 一种异常数据检测方法及装置 | |
CN112766427A (zh) | 图像识别模型的训练方法、装置及设备 | |
CN113360416B (zh) | 测试数据批量生成方法及装置 | |
CN112529172B (zh) | 数据处理方法和数据处理设备 | |
CN113469235B (zh) | 用水波动异常识别方法及装置、计算机装置及存储介质 | |
CN106874286B (zh) | 一种筛选用户特征的方法及装置 | |
CN110795308A (zh) | 一种服务器检验方法、装置、设备及存储介质 | |
CN110796178A (zh) | 决策模型训练方法及样本特征选择方法、装置和电子设备 | |
Blonder et al. | Package ‘hypervolume’ | |
CN114493279A (zh) | 一种工作流任务预测方法、装置、存储介质及电子设备 | |
CN114170000A (zh) | 信用卡用户风险类别识别方法、装置、计算机设备和介质 | |
CN113052706A (zh) | 基金风险等级预测方法及装置 | |
CN113760864A (zh) | 数据模型的生成方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |