CN116304962B

CN116304962B - 一种用于水表计量数据的智能异常监测方法

Info

Publication number: CN116304962B
Application number: CN202310594034.7A
Authority: CN
Inventors: 石英春; 周志强; 许茂村
Original assignee: Hunan Dongrun Intelligent Instrument Co ltd
Current assignee: Hunan Dongrun Intelligent Instrument Co ltd
Priority date: 2023-05-25
Filing date: 2023-05-25
Publication date: 2023-08-04
Anticipated expiration: 2043-05-25
Also published as: CN116304962A

Abstract

本发明涉及电数字数据处理技术领域，具体涉及一种用于水表计量数据的智能异常监测方法。该方法包括：获取历史水表数据，确定每日历史水表数据的第一趋势因子和第二趋势因子；将历史水表数据映射至年度数据范围内，得到映射水表数据，根据映射水表数据确定第一熵值和第二熵值；进而确定第一选取权重和第二选取权重，根据第一选取权重、第二选取权重、第一趋势因子和第二趋势因子，确定不同时间点的数据权重；根据历史水表数据构建孤立决策树，计算得到加权异常分数，根据加权异常分数从历史水表数据中确定异常数据。本发明能够提升异常检测的检测精度，增强异常检测准确性。

Description

一种用于水表计量数据的智能异常监测方法

技术领域

本发明涉及电数字数据处理技术领域，具体涉及一种用于水表计量数据的智能异常监测方法。

背景技术

伴随着智慧城市的发展，无线物联网监测设备的广泛部署和电子水表自动抄表的普及，使得采集的用水数据在异常监测和数据挖掘过程中起到广泛作用，实现用水数据的异常监测，有利于用水预警、输送管理、管道探漏等场景。

相关技术中，基于决策树iTree搭建异常监测模型，但是由于用水量在不同时期均会产生变化，导致用水量的趋势和周期性的变化，造成不同时间存在不同的波动区间，例如白天用水比夜晚多，夏天用水比冬季多。这种方式下，易使得判断模型在学习过程中发生概念偏移，在决策树iTree选择随机数据训练模型时导致数据异常检测精度降低，异常检测准确性不足。

发明内容

为了解决数据异常检测精度较低，异常检测准确性不足技术问题，本发明提供一种用于水表计量数据的智能异常监测方法，所采用的技术方案具体如下：

本发明提出了一种用于水表计量数据的智能异常监测方法，方法包括：

获取历史水表数据，计算每日不同时间点历史水表数据的均值作为每日数据均值，根据所述每日数据均值确定每日历史水表数据的第一趋势因子，计算每日不同时间点历史水表数据的波动情况，根据所述波动情况确定每日历史水表数据的第二趋势因子；

计算一年内所述历史水表数据的年度数据均值，根据所述每日数据均值和年度数据均值将所述历史水表数据映射至年度数据范围内，得到映射水表数据，根据所述映射水表数据在一天内不同数据的频次分布确定第一熵值，根据所述映射水表数据在一年内不同数据的频次分布确定第二熵值；

根据所述第一熵值和所述第二熵值确定所述映射水表数据在每日内的第一选取权重和一年内的第二选取权重，根据所述第一选取权重、所述第二选取权重、所述第一趋势因子和所述第二趋势因子，确定不同时间点的数据权重；

根据所述历史水表数据构建孤立决策树，根据所述数据权重对所述孤立决策树中历史水表数据对应叶子节点与根节点间的层级距离进行调整，得到加权距离，根据所述加权距离计算得到加权异常分数，根据所述加权异常分数进行异常点检测，从所述历史水表数据中确定异常数据。

进一步地，所述根据所述每日数据均值确定每日历史水表数据的第一趋势因子，包括：

按照时序顺序对不同天数的所述每日数据均值进行排序，得到均值序列，基于STL时序分解方法对所述均值序列进行时序分解，得到趋势项的斜率作为第一趋势因子。

进一步地，所述计算每日不同时间点历史水表数据的波动情况，根据所述波动情况确定每日的第二趋势因子，包括：

确定一天内不同时间点历史水表数据和所述每日数据均值的差值绝对值的最大值作为最大差异，计算所述最大差异和预设差异系数的乘积作为波动系数；

按照时序顺序对每日的波动系数进行排序得到波动序列，基于STL时序分解方法对所述波动序列进行时序分解，得到趋势项的斜率作为第二趋势因子。

进一步地，所述根据所述每日数据均值和年度数据均值将所述历史水表数据映射至年度数据范围内，得到映射水表数据，包括：

将所述每日数据均值和预设常数系数的和值作为分母，所述年度数据均值作为分子，得到映射系数；

计算不同时间点的所述历史水表数据和所述映射系数的乘积作为对应时间点的映射水表数据。

进一步地，所述根据所述映射水表数据在一天内不同数据的频次分布确定第一熵值，包括：

确定一天内不同映射水表数据的数据频次，计算不同映射水表数据在一天内所有映射水表数据的第一频次占比；

基于信息熵计算公式对所述第一频次占比进行信息熵计算，得到对应映射水表数据的第一熵值。

进一步地，所述根据所述映射水表数据在一年内不同数据的频次分布确定第二熵值，包括：

确定一年内不同映射水表数据的数据频次，计算不同映射水表数据在一年内所有映射水表数据的第二频次占比；

基于信息熵计算公式对所述第二频次占比进行信息熵计算，得到对应映射水表数据的第二熵值。

进一步地，所述第一熵值和所述第一选取权重呈负相关关系，所述第二熵值和所述第二选取权重呈负相关关系。

进一步地，所述根据所述第一选取权重、所述第二选取权重、所述第一趋势因子和所述第二趋势因子，确定不同时间点的数据权重，包括：

根据所述第一趋势因子和所述第二趋势因子确定趋势影响系数，其中，所述第一趋势因子和所述趋势影响系数呈正相关关系，所述第二趋势因子和所述趋势影响系数呈正相关关系，所述趋势影响系数的取值为归一化的数值；

计算所述趋势影响系数、所述第一选取权重和所述第二选取权重的乘积归一化值作为所述数据权重。

进一步地，所述根据所述数据权重对所述孤立决策树中历史水表数据对应叶子节点与根节点间的层级距离进行调整，得到加权距离，包括：

计算所述数据权重和所述层级距离的乘积作为加权距离。

进一步地，所述根据所述加权距离计算得到加权异常分数，包括：

基于异常分数计算公式，对所述加权距离进行异常分数计算处理，得到加权异常分数。

本发明具有如下有益效果：

本发明通过每日数据均值确定每日历史水表数据的第一趋势因子，并根据波动情况确定每日历史水表数据的第二趋势因子，能够有效根据数据均值和波动情况对趋势因子进行分析，从而能够保证对历史水表数据的数据变化趋势进行准确获取，通过每日数据均值和年度数据均值，对历史水表数据进行映射处理，得到映射水表数据，能够消除不同时间不同季节中用水量的客观差异，从而保证异常数据的提取能够避免正常用水变化的影响，由于是根据一天内的数据频次确定第一熵值，根据一年内的数据频次确定第二熵值，能够对对应天数和对应年数的数据进行有效分析，从而能够根据熵值计算确定对应数据的选取权重，计算得到第一选取权重和第二选取权重，便于结合第一选取权重、第二选取权重、第一趋势因子和第二趋势因子确定数据权重，其中数据权重则可以表示对应数据的异常情况的影响权重，根据数据权重结合层级距离得到加权距离，根据加权距离得到自适应的加权异常分数，从而能够使得加权异常分数能够有效表征对应历史水表数据的异常情况，进而提升异常检测的检测精度，增强异常检测准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的一种用于水表计量数据的智能异常监测方法流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种用于水表计量数据的智能异常监测方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种用于水表计量数据的智能异常监测方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种用于水表计量数据的智能异常监测方法流程图，该方法包括：

S101：获取历史水表数据，计算每日不同时间点历史水表数据的均值作为每日数据均值，根据每日数据均值确定每日历史水表数据的第一趋势因子，计算每日不同时间点历史水表数据的波动情况，根据波动情况确定每日历史水表数据的第二趋势因子。

其中，历史水表数据，为智慧城市所对应各区域内的水表数据，可以使用智慧城市系统获取不同区域在一年内的水表数据，作为历史水表数据，可以理解的是，在获取历史水表数据时，由于水表读数的获取过程可以为周期性的获取过程，也即是说，可以设置获取周期为1小时或者6小时等，以获取对应的水表读数数据得到历史水表数据。

则对应的以获取周期为1小时为例，每日可以获取24次水表读数，得到对应24个时间点的历史水表数据，本发明实施例中，可以计算每日不同时间点历史水表数据的均值作为每日数据均值，也即是说，将一天之内24次水表读数的均值作为对应的每日数据均值。

可以理解的是，由于不同时间点用水情况会产生差异，例如白天比晚上用水量多，夏天比冬天用水量多等，但用水量整体会呈现趋势性变化，因此，对每一天内的用水趋势进行分析，也即根据每日数据均值确定每日历史水表数据的第一趋势因子，计算每日不同时间点历史水表数据的波动情况，根据波动情况确定每日历史水表数据的第二趋势因子。

可选地，本发明实施例中，根据每日数据均值确定每日历史水表数据的第一趋势因子，包括：按照时序顺序对不同天数的每日数据均值进行排序，得到均值序列，基于STL时序分解方法对均值序列进行时序分解，得到趋势项的斜率作为第一趋势因子。

其中，时序分解(Seasonal and Trend decomposition using Loess，STL)方法，是以鲁棒局部加权回归作为平滑方法的时间序列分解方法，将时序序列分解为对应的趋势项、季节项和残差项，STL时序分解方法为本领域所熟知的时序分解方式，对此不再赘述。

本发明实施例中，通过将均值序列进行STL时序分解，得到对应的趋势项曲线，而后，将趋势项的斜率作为第一趋势因子，由于趋势项可以表征对应时序序列总体趋势，则趋势项的斜率可以表征对应不同天数的每日数据均值的变化趋势，也即是说，第一趋势因子可以表征不同天数的每日数据均值的变化趋势。

可选地，本发明实施例中，计算每日不同时间点历史水表数据的波动情况，根据波动情况确定每日的第二趋势因子，包括：确定一天内不同时间点历史水表数据和每日数据均值的差值绝对值的最大值作为最大差异，计算最大差异和预设差异系数的乘积作为波动系数；按照时序顺序对每日的波动系数进行排序得到波动序列，基于STL时序分解方法对波动序列进行时序分解，得到趋势项的斜率作为第二趋势因子。

本发明实施例中，在一天内不同时间点历史水表数据和每日数据均值的差值绝对值越大，越可以表示对应在该天不同时间点的用水差异越大，也即是说，在该天内的用水波动较大，更易存在异常数据导致用水波动发生变化，如异常大和异常小的用水量数据，因此，计算最大差异和预设差异系数的乘积作为波动系数，其中，预设差异系数为对最大差异进行调整的预设值，可选地，预设差异系数取值为2/3，本发明实施例中可以使用正态分布的方式对一天内不同时间点的历史水表数据进行分析，则通过设置预设差异系数对最大差异进行调整，以使波动系数在正常的波动区间内。

本发明实施例中，按照时序顺序对每日的波动系数进行排序得到波动序列，基于STL时序分解方法对波动序列进行时序分解，得到趋势项的斜率作为第二趋势因子，该步骤对于波动序列的时序分解与上文中对于均值序列的STL时序分解方式相似，对此不再赘述，由此，得到第二趋势因子。

S102：计算一年内历史水表数据的年度数据均值，根据每日数据均值和年度数据均值将历史水表数据映射至年度数据范围内，得到映射水表数据，根据映射水表数据在一天内不同数据的频次分布确定第一熵值，根据映射水表数据在一年内不同数据的频次分布确定第二熵值。

本发明实施例中，可以统计一年内历史水表数据的均值作为年度数据均值，而后，将历史水表数据映射至年度数据范围内，其中，映射过程包括：将每日数据均值和预设常数系数的和值作为分母，年度数据均值作为分子，得到映射系数；计算不同时间点的历史水表数据和映射系数的乘积作为对应时间点的映射水表数据。对应的计算公式为：

式中，表示第年第天第个时间点的映射水表数据，表示年度的索引，表示日期的索引，表示时间点的索引，表示第年第天第个时间点的历史水表数据，表示第年的年度数据均值，表示第年第天的每日数据均值，表示预设常数系数，其中，预设常数系数为防止分母为0所设置的常数值，可选地，预设常数系数为0.01，对此不做限制，表示映射系数。

本发明实施例中，通过将历史水表数据进行映射，得到映射水表数据，保留历史水表数据中波动相关的因子，且将不同日期的历史水表数据映射至同一空间中，从而对不同日期的历史水表数据进行标准化处理，消除不同时间日期正常用水量对波动情况的影响，从而保证映射水表数据能够一致可靠地表征用水量的波动情况。

进一步地，本发明的一些实施例中，根据映射水表数据在一天内不同数据的频次分布确定第一熵值，包括：确定一天内不同映射水表数据的数据频次，计算不同映射水表数据在一天内所有映射水表数据的第一频次占比；基于信息熵计算公式对第一频次占比进行信息熵计算，得到对应映射水表数据的第一熵值。

经计算得到对应的映射水表数据，而后，统计不同数值的映射水表数据在一天中所有映射水表数据的频次的占比作为第一频次占比，举例而言，以一天之内有12个映射水表数据为例，在映射水表数据为a的频次为3次时，则对应的映射水表数据为a的第一频次占比为0.25。

本发明在计算所有映射水表数据的第一频次占比之后，基于信息熵计算公式对第一频次占比进行信息熵处理，得到对应映射水表数据的第一熵值，其中，信息熵计算公式为本领域所熟知的计算公式，对此不作赘述。由信息熵公式可知，第一熵值越大，越可以表示对应的一天内映射水表数据的分布更为均匀离散，对应的越不可能为异常监测数据，在进行异常检测时的效果越差，而第一熵值越小，则可以表示对应分布频次越少，也即对应的一天内映射水表数据的分布在构建决策树能区分异常数据的可能性越大，即效果越好。

进一步地，本发明的一些实施例中，根据映射水表数据在一年内不同数据的频次分布确定第二熵值，包括：确定一年内不同映射水表数据的数据频次，计算不同映射水表数据在一年内所有映射水表数据的第二频次占比；基于信息熵计算公式对第二频次占比进行信息熵计算，得到对应映射水表数据的第二熵值。

第二熵值的计算与第一熵值的计算相类似，通过统计一年内所有映射水表数据的数据频次，而后计算对应的第二频次占比，以便于根据第二频次占比计算得到第二熵值，可以理解的是，第二熵值能够表征一年内对应映射水表数据的信息熵，则第二熵值越小，越可以表示一年内对应的分布差异越大。

S103：根据第一熵值和第二熵值确定映射水表数据在每日内的第一选取权重和一年内的第二选取权重，根据第一选取权重、第二选取权重、第一趋势因子和第二趋势因子，确定不同时间点的数据权重。

本发明实施例中，可以根据第一熵值确定第一选取权重，其中，第一熵值和第一选取权重呈负相关关系，也即是说，第一熵值越大，对应的第一选取权重越小，其中，正相关关系表示因变量会随着自变量的增大而增大，因变量会随着自变量的减小而减小，具体关系可以为相乘关系、相加关系、指数函数的幂等，由实际应用进行确定；负相关关系表示因变量会随着自变量的增大而减小，因变量会随着自变量的减小而增大，可以为相减关系、相除关系等，由实际应用进行确定。

则对应的，本发明实施例中，可以根据第二熵值确定第二选取权重，其中，第二熵值和第二选取权重呈负相关关系，也即是说，第二熵值越小，对应的第二选取权重越大。

本发明实施例中，在映射水表数据的第一选取权重和第二选取权重越小时，可以表示映射水表数据的数据波动越有序，即在选取映射水表数据对应的历史水表数据构建决策树时，计算根节点到叶子结点的距离长度的值参考性较小，而在映射水表数据的第一选取权重和第二选取权重越大时，构建决策树计算平均路径长度计算异常分数时参考性越大。

进一步地，本发明的一些实施例中，根据第一选取权重、第二选取权重、第一趋势因子和第二趋势因子，确定不同时间点的数据权重，包括：根据第一趋势因子和第二趋势因子确定趋势影响系数，其中，第一趋势因子和趋势影响系数呈正相关关系，第二趋势因子和趋势影响系数呈正相关关系，趋势影响系数的取值为归一化的数值；计算趋势影响系数、第一选取权重和第二选取权重的乘积归一化值作为数据权重。

其中，第一趋势因子和趋势影响系数呈正相关关系，第二趋势因子和趋势影响系数呈正相关关系，则可以直接计算第一趋势因子和第二趋势因子的乘积的归一化值作为趋势影响系数，当然，在本发明的另一些实施例中，也可以根据实际需求对第一趋势因子和第二趋势因子进行数据变换得到趋势影响系数，对此不做限制。

其中，数据权重对应的计算公式可以具体例如为：

式中，表示第年第天第个时间点的映射水表数据的数据权重，表示年度的索引，表示日期的索引，表示时间点的索引，表示趋势影响系数，该趋势影响系数为通过第一趋势因子和第二趋势因子计算得到，表示对应映射水表数据在第年第天映射水表数据的第一选取权重，表示对应映射水表数据在第年所有映射水表数据的第二选取权重。

可以理解的是，数据权重可以表征数据的在构建决策树时的可靠程度，映射水表数据的第一选取权重和第二选取权重越大时，构建决策树计算平均路径长度计算异常分数时参考性越大，则第一选取权重和第二选取权重与数据权重呈正相关关系；而趋势影响系数越大，对应该数据在构建决策树时越不容易造成统计概念偏移，也即可靠程度越大，对应的数据权重越大，趋势影响系数与数据权重呈正相关关系，由此，计算得到数据权重。

S104：根据历史水表数据构建孤立决策树，根据数据权重对孤立决策树中历史水表数据对应叶子节点与根节点间的层级距离进行调整，得到加权距离，根据加权距离计算得到加权异常分数，根据加权异常分数进行异常点检测，从历史水表数据中确定异常数据。

其中，孤立决策树iTree的构建为本领域所熟知的技术，对此不再赘述，可以理解的是，由于孤立决策树的构建为随机选取的不放回策略，而又由于历史水表数据在不同天数的不同时间点可能具有较大的变化差异，用水量在不同时间周期的数据波动与合理区间不同，造成判断模型在学习过程中发生概念偏移，从而使得异常检测精度降低。

本发明通过数据权重对孤立决策树中历史水表数据对应叶子节点与根节点间的层级距离进行调整，得到加权距离，包括：计算数据权重和层级距离的乘积作为加权距离。

可以理解的是，由于概念偏移影响最终结果的可靠性，则本发明基于数据权重对叶子节点与根节点间的层级距离进行调整，从而使得所有周期的历史水表数据能够进行适应性的调整，使其更能突出数据异常程度，举例而言，在层级距离为3，对应数据权重为0.7时，对应的加权距离为2.1，由此，通过数据权重对层级距离进行调整，以保证加权距离的可靠性。

进一步地，本发明实施例中，根据加权距离计算得到加权异常分数，包括：基于异常分数计算公式，对加权距离进行异常分数计算处理，得到加权异常分数。

其中，异常分数计算公式可以具体例如为：

式中，表示在历史水表数据的集合中数据值的加权异常分数，表示第年第天第个时间点的历史水表数据，表示年度的索引，表示日期的索引，表示时间点的索引，表示第年第天第个时间点的映射水表数据的数据权重，表示第年第天第个时间点的历史水表数据对应叶子节点与根节点间的层级距离，表示第年第天第个时间点的历史水表数据对应的加权距离，表示历史水表数据的集合中的总数量，为所有历史水表数据对应层级距离的平均值，为取平均函数。

可以理解的是，异常分数计算公式为决策树算法对应的计算公式，本发明通过将其中的层级距离使用数据权重进行加权得到加权距离进行加权异常分数的计算，从而能够保证加权异常分数的参考性更强，能够更为准确地表征各历史水表数据的异常情况。

在确定加权异常分数之后，根据加权异常分数进行异常点检测，从历史水表数据中确定异常数据，对应的检测过程可以具体包括：在加权异常分数趋近于1时，对应时间点的历史水表数据为异常数据的可能性越大，在加权异常分数越趋近于0时，对应时间点的历史水表数据为异常数据的可能性越小。则本发明可以设置对应的预设加权异常分数阈值进行异常数据的筛选，举例而言，可以设置预设加权异常分数阈值为0.85，将加权异常分数大于0.85的历史水表数据作为异常数据，对此不做限制。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

Claims

1.一种用于水表计量数据的智能异常监测方法，其特征在于，所述方法包括：

根据所述历史水表数据构建孤立决策树，根据所述数据权重对所述孤立决策树中历史水表数据对应叶子节点与根节点间的层级距离进行调整，得到加权距离，根据所述加权距离计算得到加权异常分数，根据所述加权异常分数进行异常点检测，从所述历史水表数据中确定异常数据；

其中，所述第一熵值和所述第一选取权重呈负相关关系，所述第二熵值和所述第二选取权重呈负相关关系；所述根据所述第一选取权重、所述第二选取权重、所述第一趋势因子和所述第二趋势因子，确定不同时间点的数据权重，包括：

2.如权利要求1所述的一种用于水表计量数据的智能异常监测方法，其特征在于，所述根据所述每日数据均值确定每日历史水表数据的第一趋势因子，包括：

3.如权利要求1所述的一种用于水表计量数据的智能异常监测方法，其特征在于，所述计算每日不同时间点历史水表数据的波动情况，根据所述波动情况确定每日的第二趋势因子，包括：

4.如权利要求1所述的一种用于水表计量数据的智能异常监测方法，其特征在于，所述根据所述每日数据均值和年度数据均值将所述历史水表数据映射至年度数据范围内，得到映射水表数据，包括：

5.如权利要求1所述的一种用于水表计量数据的智能异常监测方法，其特征在于，所述根据所述映射水表数据在一天内不同数据的频次分布确定第一熵值，包括：

6.如权利要求1所述的一种用于水表计量数据的智能异常监测方法，其特征在于，所述根据所述映射水表数据在一年内不同数据的频次分布确定第二熵值，包括：

7.如权利要求1所述的一种用于水表计量数据的智能异常监测方法，其特征在于，所述根据所述数据权重对所述孤立决策树中历史水表数据对应叶子节点与根节点间的层级距离进行调整，得到加权距离，包括：

计算所述数据权重和所述层级距离的乘积作为加权距离。

8.如权利要求1所述的一种用于水表计量数据的智能异常监测方法，其特征在于，所述根据所述加权距离计算得到加权异常分数，包括：