CN113191409A - 标签数据扩充与深度学习的居民异常用电行为检测方法 - Google Patents

标签数据扩充与深度学习的居民异常用电行为检测方法 Download PDF

Info

Publication number
CN113191409A
CN113191409A CN202110426806.7A CN202110426806A CN113191409A CN 113191409 A CN113191409 A CN 113191409A CN 202110426806 A CN202110426806 A CN 202110426806A CN 113191409 A CN113191409 A CN 113191409A
Authority
CN
China
Prior art keywords
data
label
electricity consumption
sample
expansion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110426806.7A
Other languages
English (en)
Inventor
周玉
蔡奇新
李悦
邵雪松
张德进
穆卓文
高凡
崔高颖
陈飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Jiangsu Electric Power Co ltd Marketing Service Center
State Grid Jiangsu Electric Power Co Ltd
Original Assignee
State Grid Jiangsu Electric Power Co ltd Marketing Service Center
State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Jiangsu Electric Power Co ltd Marketing Service Center, State Grid Jiangsu Electric Power Co Ltd filed Critical State Grid Jiangsu Electric Power Co ltd Marketing Service Center
Priority to CN202110426806.7A priority Critical patent/CN113191409A/zh
Publication of CN113191409A publication Critical patent/CN113191409A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

标签数据扩充与深度学习的居民异常用电行为检测方法,包括:步骤1,采集居民用电数据,并进行预处理;步骤2,对预处理用电数据进行标签管理;将标签管理后的用电数据划分为不同的标签样本;步骤3,对不同的标签样本进行扩充,以获得不同的标签样本扩充数据集,再合并为有标签新数据集;步骤4,有标签新数据集输入至训练好的卷积神经网络模型中,由模型识别并输出居民用户异常用电数据,以检测居民异常用电。通过对异常用电与正常用电数据进行扩充,构建有标签用电扩充数据集,大大增加了标签样本的数据量;通过搭建深度学习神经网络模型对异常用电行为进行判别,相比较传统方法能够获取更多数据特征,判别准确率更高。

Description

标签数据扩充与深度学习的居民异常用电行为检测方法
技术领域
本发明涉及电力数据分析领域,更具体地,涉及标签数据扩充与深度学习的 居民异常用电行为检测方法。
背景技术
异常用电是电网公司重点关注的行为,给国民经济的发展造成了一定影响。 及时识别用户的异常用电行为,对规范居民用电、维持经济稳定具有重要的意义。
传统的防窃电力系统中的非技术性损失,通常由窃电、计量故障、私搭乱接、 私自改变用电性质等异常用电行为造成。一方面,作为未被纳入计费或未被正确 计费的电能消费,异常用电给电力部门带来了巨大的经济损失。另一方面,未被 监管的异常用电行为,如变更居民用电为商业用电、私接电动汽车充电桩等,严 重威胁到电力系统的正常运行。这些异常用电行为的长期存在,通常伴随着供电 设备的过载、超压带来的电气设备超负荷、系统动态不确定性及负载信息不足引 发的电能调度不足等等,是电力系统的一个重大安全隐患。
降低异常用电行为造成的损失,是世界各国电网长期以来亟待解决的重要问 题之一,众多的科研人员投入其中。现有技术中,智能电表的普及和用电信息采 集系统功能的不断完善,为反窃电工作带来新的进展,目前供电企业已经实现采 集系统的全覆盖以及电力营销数据的全采集,并且采集异常处理已经趋于日常化。 但是,目前低压居民用户异常用电案例数据严重不足,造成低压居民用户异常用 电识别准确率不高且不稳定。
发明内容
为解决现有技术中存在的不足,本发明的目的在于,提供一种标签数据扩充 与深度学习的居民异常用电行为检测方法,在居民用户标签用电数据样本数量小 的基础上,扩充标签用电数据,并采用深度学习方法进行异常用电行为判别,大 大提高异常用电行为的判别准确率。
本发明采用如下的技术方案。
标签数据扩充与深度学习的居民异常用电行为检测方法的步骤如下:
步骤1,采集居民用户的用电数据,并对用电数据进行预处理;
步骤2,对预处理后的用电数据进行标签管理;将标签管理后的用电数据划 分为不同的标签样本;
步骤3,对不同的标签样本进行扩充,以获得不同的标签样本扩充数据集; 不同的标签样本扩充数据集合并为有标签新数据集;将有标签新数据集划分为训 练数据集和测试数据集;
步骤4,以有标签新数据集作为输入数据集,输入至训练好的卷积神经网络 模型中;其中,卷积神经网络模型,是基于深度学习算法对训练数据集进行训练、 对测试数据集进行测试后得到的神经网络模型;由卷积神经网络模型识别并输出 居民用户异常用电数据,以检测居民异常用电行为。
优选地,
步骤1包括:
步骤1.1,以一天为一个采样周期,利用智能电表,采集目标地区内居民用 户的24个整点时刻的用电电流数值,这24个整点时刻的用电电流数值构成一组 用电数据;
步骤1.2,对任一组用电数据进行预处理,包括:
步骤1.2.1,删除无效用电数据;无效用电数据是指,一天24个整点时刻的 用电电流数值中有8个及以上的用电电流数值为0的用电数据;
步骤1.2.2,填补非无效用电数据中的缺失值;对于同一用户,根据非无效用 电数据中缺失值的对应整点时刻,提取当前采样周期的前一采样周期内该整点时 刻的用电电流数值和后一采样周期内该整点时刻的用电电流数值,并计算这两个 用电电流数值的平均值,利用该平均值填补非无效用电数据中的缺失值。
优选地,
步骤2中,标签管理,是根据异常用电用户名单对预处理后的用电数据进行 贴标签处理;其中,非异常用电用户的用电数据标签为0,异常用电用户的用电 数据标签为1;
步骤2还包括,剔除未被贴上标签的用电数据,将标签为0的用电数据划分 为第一标签样本,将标签为1的用电数据划分为第二标签样本。
优选地,
步骤3中,基于过采样算法对不同的标签样本进行扩充的步骤如下:
步骤3.1,从目标标签样本中,随机选取一个中心样本xh;目标标签样本是 待扩充生成新样本的现有标签样本;设置中心样本选取指针b的初始值为1,且b 的数值不大于目标标签样本的总数;
步骤3.2,利用距离算法,在目标标签样本中找到与中心样本xh距离最近的 m个近邻样本xh(n),其中n∈{1,2,…,m};其中,m为预设参数,根据目标标签 样本的数据量进行选择;
步骤3.3,设置扩充次数指针a的初始值为1,且a≤m;从m个近邻样本 xh(n)中随机选取一个扩充样本xh(nn),并以如下关系式生成新样本
Figure BDA0003029827440000031
Figure BDA0003029827440000032
式中,
rand为0到1之间的随机数;
步骤3.4,设置扩充次数指针a=a+1,并且返回步骤3.3;当a>m时,进 入步骤3.5;
步骤3.5,设置中心样本选取指针b=b+1,并且返回步骤3.1;当b的数值 大于目标标签样本的总数时,结束扩充。
优选地,
步骤3还包括,在进行样本扩充前,先基于聚类分析算法剔除第一标签样本 中的异常值;其中,聚类分析算法的步骤如下:
步骤3.1.1,将Davies-Bouldin指数作为聚类数目选取的依据,对第一标签样 本进行聚类;其中,Davies-Bouldin指数满足如下关系式:
Figure BDA0003029827440000033
式中,
Di为所有相似度Rij的最大值,
N为所有相似度Rij的最大值的总数;
选取DBI指数最小的聚类数目,对第一标签样本进行聚类;
步骤3.1.2,删除第一标签样本中的离群样本,离群样本是不在距离聚类簇 心90%范围以内的数据样本。
优选地,步骤3.1.1中,相似度Rij满足如下关系式:
Figure BDA0003029827440000041
式中,
Rij为第i类与第j类的相似度;
Si为第i类的分散度值,Sj为第j类的分散度值;
Mij为第i类与第j类的距离,满足如下关系式:
Figure BDA0003029827440000042
式中,
aki为第i类的中心点的第k个属性的值,akj为第j类的中心点的第k个属 性的值,其中,k=1,2,…,N,N表示属性的总数量;
q通常取1或2;q取1表示采用各点到中心的距离均值来衡量分散程度,q 取2表示采用各点到中心的距离标准差来衡量分散程度。
第i类的分散度值Si满足如下关系式:
Figure BDA0003029827440000043
式中,
Xj为第i类中第j个数据点,
Ai为第i类的中心,
Ti为第i类中数据点的个数。
优选地,步骤3中,训练数据集和测试数据集中,标签为0的样本和标签为 1的样本的比例与未基于过采样算法进行扩充的数据集中两者的比例保持一致。
优选地,
步骤4中,卷积神经网络模型采用监督学习算法,对有标签新数据集中标签 为0的样本进行识别;
卷积神经网络模型包括输入层、第一卷积层、第一池化层、第二卷积层、第 二池化层、数据压平层、全连接层以及输出层;其中,
输入层用于输入1×24维度的用电数据;第一卷积层为1维度卷积层,卷积 核数目为64,尺寸为2;第二卷积层为1维度卷积层,卷积核数目为128,尺寸 为2;全连接层中神经元数量为300;输出层用于输出异常用电数据的标签检测 结果。
本发明的有益效果在于,与现有技术相比:
1、通过对异常用电与正常用电数据进行扩充,构建有标签用电扩充数据集, 大大增加了标签样本的数据量;
2、通过搭建深度学习神经网络模型对异常用电行为进行判别,相比较传统 机器学习方法能够获取更多数据特征,判别准确率更高。
附图说明
图1为本发明标签数据扩充与深度学习的居民异常用电行为检测方法的流 程框图;
图2为本发明标签数据扩充与深度学习的居民异常用电行为检测方法中,居 民用户用电数据预处理结果图;
图3为本发明标签数据扩充与深度学习的居民异常用电行为检测方法中,正 常用电数据聚类数目的DBI指标图;
图4为本发明标签数据扩充与深度学习的居民异常用电行为检测方法中,居 民用户正常用电聚类结果图;
图5为本发明标签数据扩充与深度学习的居民异常用电行为检测方法中,正 常用电扩充数据集示意图;
图6为本发明标签数据扩充与深度学习的居民异常用电行为检测方法中,异 常用电扩充数据集示意图;
图7为本发明标签数据扩充与深度学习的居民异常用电行为检测方法中,实 施例中搭建的卷积神经网络模型;
图8为不采用本发明标签数据扩充与深度学习的居民异常用电行为检测方 法的测试集ROC曲线与训练集准确率、测试集准确率、测试集召回率、F2分数 图;
图9为采用本发明标签数据扩充与深度学习的居民异常用电行为检测方法 的测试集ROC曲线与训练集准确率、测试集准确率、测试集召回率、F2分数结 果图。
具体实施方式
下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本 发明的技术方案,而不能以此来限制本申请的保护范围。
如图1,标签数据扩充与深度学习的居民异常用电行为检测方法的步骤如下:
步骤1,采集居民用户的用电数据,并对用电数据进行预处理。
具体地,
步骤1包括:
步骤1.1,以一天为一个采样周期,利用智能电表,采集目标地区内居民用 户的24个整点时刻的用电电流数值,这24个整点时刻的用电电流数值构成一组 用电数据;
步骤1.2,对任一组用电数据进行预处理,包括:
步骤1.2.1,删除无效用电数据;无效用电数据是指,一天24个整点时刻的 用电电流数值中有8个及以上的用电电流数值为0的用电数据;
步骤1.2.2,填补非无效用电数据中的缺失值;对于同一用户,根据非无效用 电数据中缺失值的对应整点时刻,提取当前采样周期的前一采样周期内该整点时 刻的用电电流数值和后一采样周期内该整点时刻的用电电流数值,并计算这两个 用电电流数值的平均值,利用该平均值填补非无效用电数据中的缺失值。
本优选实施例中,如图2,采集88个用户在2017-2020年间间断日期每日 24个整点时刻的电流数据,并对电流数据缺失值进行填补、对无效数据进行删 除。经初步筛选,发现其中有一户所有日期均用电数据均为零,对其作删除处理。 对剩余87户用电数据中,去除其中每日缺失值大于8个点的数据条目,得到预 处理后的数据为:共计87个用户,2192条数据。
步骤2,对预处理后的用电数据进行标签管理;将标签管理后的用电数据划 分为不同的标签样本。
具体地,
步骤2中,标签管理,是根据异常用电用户名单对预处理后的用电数据进行 贴标签处理;其中,非异常用电用户的用电数据标签为0,异常用电用户的用电 数据标签为1。
步骤2还包括,剔除未被贴上标签的用电数据,将标签为0的用电数据划分 为第一标签样本,将标签为1的用电数据划分为第二标签样本。
本优选实施例中,根据供电公司窃电用户名单对居民用户用电数据进行贴标 签处理,其中标签为0的正常用电数据共计2056条,标签为1的异常用电数据 共计136条,不存在无标签数据。
步骤3,对不同的标签样本进行扩充,以获得不同的标签样本扩充数据集; 不同的标签样本扩充数据集合并为有标签新数据集;将有标签新数据集划分为训 练数据集和测试数据集。
具体地,步骤3中,训练数据集和测试数据集中,标签为0的样本和标签为 1的样本的比例与未基于过采样算法进行扩充的数据集中两者的比例保持一致。
具体地,
步骤3中,基于过采样算法对不同的标签样本进行扩充的步骤如下:
步骤3.1,从目标标签样本中,随机选取一个中心样本xh;目标标签样本是 待扩充生成新样本的现有标签样本;设置中心样本选取指针b的初始值为1,且b 的数值不大于目标标签样本的总数。
具体地,
步骤3还包括,在进行样本扩充前,先基于聚类分析算法剔除第一标签样本 中的异常值;其中,聚类分析算法的步骤如下:
步骤3.1.1,将Davies-Bouldin指数作为聚类数目选取的依据,对第一标签样 本进行聚类;其中,Davies-Bouldin指数满足如下关系式:
Figure BDA0003029827440000071
式中,
Di为所有相似度Rij的最大值,
N为所有相似度Rij的最大值的总数;
选取DBI指数最小的聚类数目,对第一标签样本进行聚类;
优选地,步骤3.1.1中,相似度Rij满足如下关系式:
Figure BDA0003029827440000081
式中,
Rij为第i类与第j类的相似度;
Si为第i类的分散度值,Sj为第j类的分散度值;
Mij为第i类与第j类的距离,满足如下关系式:
Figure BDA0003029827440000082
式中,
aki为第i类的中心点的第k个属性的值,akj为第j类的中心点的第k个属 性的值,其中,k=1,2,…,N,N表示属性的总数量;
q通常取1或2;q取1表示采用各点到中心的距离均值来衡量分散程度,q 取2表示采用各点到中心的距离标准差来衡量分散程度。
第i类的分散度值Si满足如下关系式:
Figure BDA0003029827440000083
式中,
Xj为第i类中第j个数据点,
Ai为第i类的中心,
Ti为第i类中数据点的个数,
q通常取1或2;q取1表示采用各点到中心的距离均值来衡量分散程度,q 取2表示采用各点到中心的距离标准差来衡量分散程度。
步骤3.1.2,删除第一标签样本中的离群样本,离群样本是不在距离聚类簇 心90%范围以内的数据样本。
步骤3.2,利用距离算法,在目标标签样本中找到与中心样本xh距离最近的 m个近邻样本xh(n),其中n∈{1,2,…,m};其中,m为预设参数,根据目标标签 样本的数据量进行选择;
步骤3.3,设置扩充次数指针a的初始值为1,且a≤m;从m个近邻样本 xh(n)中随机选取一个扩充样本xh(nn),并以如下关系式生成新样本
Figure BDA0003029827440000091
Figure BDA0003029827440000092
式中,
rand为0到1之间的随机数;
步骤3.4,设置扩充次数指针a=a+1,并且返回步骤3.3;当a>m时,进 入步骤3.5;
步骤3.5,设置中心样本选取指针b=b+1,并且返回步骤3.1;当b的数值 大于目标标签样本的总数时,结束扩充。
如图3和图4,本优选实施例中,选取正常用电数据,选用DBI指标确定最 优聚类数为5,本实施例运用kmeans聚类算法进行聚类。进行离群值的样本删 除,剩余1850条数据。
如图5和图6,运用过采样算法生成共计25000组标签0样本进行样本扩 充,构建标签0样本扩充数据集共计26850组。选取异常用电数据,运用过采样 算法生成异常用电数据8000组进行样本扩充,构建异常用电扩充数据集共计 8136组。
如图5和图6,基于标签0样本扩充数据集与标签1样本扩充数据集构建有 标签新数据集共计34986组,进行训练集和测试集的划分;其中训练集数量24490 组,其中标签0样本18795组,标签1样本5695组。训练集包含测试集10496 组。其中标签0样本8055组,标签1样本2441组。
步骤4,以有标签新数据集作为输入数据集,输入至训练好的卷积神经网络 模型中;其中,卷积神经网络模型,是基于深度学习算法对训练数据集进行训练、 对测试数据集进行测试后得到的神经网络模型;由卷积神经网络模型识别并输出 居民用户异常用电数据,以检测居民异常用电行为。
具体地,
步骤4中,如图7,卷积神经网络模型采用监督学习算法,对有标签新数据 集中标签为0的样本进行识别;
卷积神经网络模型包括输入层、第一卷积层、第一池化层、第二卷积层、第 二池化层、数据压平层、全连接层以及输出层;其中,
输入层用于输入1×24维度的用电数据;第一卷积层为1维度卷积层,卷积 核数目为64,尺寸为2;第二卷积层为1维度卷积层,卷积核数目为128,尺寸 为2;全连接层中神经元数量为300;输出层用于输出异常用电数据的标签检测 结果。
如图8和图9,基于包含测试集准确率和F2分数这两个指标的ROC曲线与 AUC值,对标签数据扩充与深度学习的居民异常用电行为检测方法的检测效果 进行评价,其中:
测试集准确率满足如下关系式:
Figure BDA0003029827440000101
F2分数满足如下关系式:
Figure BDA0003029827440000102
式中,
TP表示所有正确预测为异常用电的样本数目;
TN表示所有正确预测为正常用电的样本数目;
FP表示预测为异常用电但实际为正常用电的样本数目;
FN表示预测为正常用电但实际为异常用电的样本数目。
ROC曲线是通过将真阳率作为X轴、假阳率作为Y轴绘制两个变量而成 的,其中真阳率就是召回率,假阳率定义为:
Figure BDA0003029827440000103
AUC值通过计算ROC曲线下的面积得到。
其中,准确率表征模型对于两类样本正确分类的能力,其值范围为0-1,并 且越高越好。但在本优选实施例中,用电数据两类样本数目不均衡的情况下,准 确率不能作为唯一的评判标准,因为异常用电数量很少,若模型将所有样本判定 为正常用电结果的准确率也很高,因此需要综合考虑F2分数指标,并将F2分数 作为主要的评判标准。F2分数表征模型对于异常用电样本的查全能力,为尽可 能的检测出多的异常用电用本,其值范围为0-1,并且越高越好。ROC曲线与 AUC值表征模型对于样本正确分类的能力,ROC曲线越接近左上角证明模型分 类效果越好,AUC值范围为0-1,越高越好。
从图8和图9的结果对比看出,采用本发明提出的标签数据扩充与深度学习 的居民异常用电行为检测方法,对于标签1异常用电测试准确率达到93%,F2 分数达到80%。
本发明的有益效果在于,与现有技术相比:
1、通过对异常用电与正常用电数据进行扩充,构建有标签用电扩充数据集, 大大增加了标签样本的数据量;
2、通过搭建深度学习神经网络模型对异常用电行为进行判别,相比较传统 机器学习方法能够获取更多数据特征,判别准确率更高。
本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述, 但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽 的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限 制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明 的保护范围之内。

Claims (9)

1.标签数据扩充与深度学习的居民异常用电行为检测方法,其特征在于,
所述检测方法的步骤如下:
步骤1,采集居民用户的用电数据,并对用电数据进行预处理;
步骤2,对预处理后的用电数据进行标签管理;将标签管理后的用电数据划分为不同的标签样本;
步骤3,对不同的标签样本进行扩充,以获得不同的标签样本扩充数据集;不同的标签样本扩充数据集合并为有标签新数据集;将有标签新数据集划分为训练数据集和测试数据集;
步骤4,以有标签新数据集作为输入数据集,输入至训练好的卷积神经网络模型中;其中,所述卷积神经网络模型,是基于深度学习算法对训练数据集进行训练、对测试数据集进行测试后得到的神经网络模型;由卷积神经网络模型识别并输出居民用户异常用电数据,以检测居民异常用电行为。
2.根据权利要求1所述的标签数据扩充与深度学习的居民异常用电行为检测方法,其特征在于,
步骤1包括:
步骤1.1,以一天为一个采样周期,利用智能电表,采集目标地区内居民用户的24个整点时刻的用电电流数值,24个整点时刻的用电电流数值构成一组用电数据;
步骤1.2,对任一组用电数据进行预处理,包括:
步骤1.2.1,删除无效用电数据;所述无效用电数据是指,一天24个整点时刻的用电电流数值中有8个及以上的用电电流数值为0的一组用电数据;
步骤1.2.2,填补非无效用电数据中的缺失值;对于同一用户,根据非无效用电数据中缺失值的对应整点时刻,提取当前采样周期的前一采样周期内该整点时刻的用电电流数值和后一采样周期内该整点时刻的用电电流数值,并计算这两个用电电流数值的平均值,利用该平均值填补所述非无效用电数据中的缺失值。
3.根据权利要求1所述的标签数据扩充与深度学习的居民异常用电行为检测方法,其特征在于,
步骤2中,所述标签管理,是根据异常用电用户名单对预处理后的用电数据进行贴标签处理;其中,非异常用电用户的用电数据标签为0,异常用电用户的用电数据标签为1;
步骤2还包括,剔除未被贴上标签的用电数据,将标签为0的用电数据划分为第一标签样本,将标签为1的用电数据划分为第二标签样本。
4.根据权利要求1所述的标签数据扩充与深度学习的居民异常用电行为检测方法,其特征在于,
步骤3中,基于过采样算法对不同的标签样本进行扩充的步骤如下:
步骤3.1,从目标标签样本中,随机选取一个中心样本xh;所述目标标签样本是待扩充生成新样本的现有标签样本;设置中心样本选取指针b的初始值为1,且b的数值不大于目标标签样本的总数;
步骤3.2,利用距离算法,在目标标签样本中找到与中心样本xh距离最近的m个近邻样本xh(n),其中n∈{1,2,…,m};其中,m为预设参数,根据目标标签样本的数据量进行选择;
步骤3.3,设置扩充次数指针a的初始值为1,且a≤m;从m个近邻样本xh(n)中随机选取一个扩充样本xh(nn),并以如下关系式生成新样本
Figure FDA0003029827430000021
Figure FDA0003029827430000022
式中,
rand为0到1之间的随机数;
步骤3.4,设置扩充次数指针a=a+1,并且返回步骤3.3;当a>m时,进入步骤3.5;
步骤3.5,设置中心样本选取指针b=b+1,并且返回步骤3.1;当b的数值大于目标标签样本的总数时,结束扩充。
5.根据权利要求3所述的标签数据扩充与深度学习的居民异常用电行为检测方法,其特征在于,
步骤3还包括,在进行样本扩充前,先基于聚类分析算法剔除第一标签样本中的异常值;其中,聚类分析算法的步骤如下:
步骤3.1.1,将Davies-Bouldin指数作为聚类数目选取的依据,对第一标签样本进行聚类;其中,Davies-Bouldin指数满足如下关系式:
Figure FDA0003029827430000023
式中,
Di为所有相似度Rij的最大值,
N为所有相似度Rij的最大值的总数;
选取DBI指数最小的聚类数目,对第一标签样本进行聚类;
步骤3.1.2,删除第一标签样本中的离群样本,所述离群样本是不在距离聚类簇心90%范围以内的数据样本。
6.根据权利要求5所述的标签数据扩充与深度学习的居民异常用电行为检测方法,其特征在于,
步骤3.1.1中,所述相似度Rij满足如下关系式:
Figure FDA0003029827430000031
式中,
Rij为第i类与第j类的相似度;
Si为第i类的分散度值,Sj为第j类的分散度值;
Mij为第i类与第j类的距离,满足如下关系式:
Figure FDA0003029827430000032
式中,
aki为第i类的中心点的第k个属性的值,akj为第j类的中心点的第k个属性的值,其中,k=1,2,…,N,N表示属性的总数量;
q通常取1或2;q取1表示采用各点到中心的距离均值来衡量分散程度,q取2表示采用各点到中心的距离标准差来衡量分散程度。
7.根据权利要求6所述的标签数据扩充与深度学习的居民异常用电行为检测方法,其特征在于,
所述第i类的分散度值Si满足如下关系式:
Figure FDA0003029827430000033
式中,
Xj为第i类中第j个数据点,
Ai为第i类的中心,
Ti为第i类中数据点的总数。
8.根据权利要求3所述的标签数据扩充与深度学习的居民异常用电行为检测方法,其特征在于,
所述步骤3中,所述训练数据集和测试数据集中,标签为0的样本和标签为1的样本的比例与未基于过采样算法进行扩充的数据集中两者的比例保持一致。
9.根据权利要求3所述的标签数据扩充与深度学习的居民异常用电行为检测方法,其特征在于,
所述步骤4中,卷积神经网络模型采用监督学习算法,对有标签新数据集中标签为0的样本进行识别;
卷积神经网络模型包括输入层、第一卷积层、第一池化层、第二卷积层、第二池化层、数据压平层、全连接层以及输出层;其中,
所述输入层用于输入1×24维度的用电数据;所述第一卷积层为1维度卷积层,卷积核数目为64,尺寸为2;所述第二卷积层为1维度卷积层,卷积核数目为128,尺寸为2;所述全连接层中神经元数量为300;所述输出层用于输出异常用电数据的标签检测结果。
CN202110426806.7A 2021-04-20 2021-04-20 标签数据扩充与深度学习的居民异常用电行为检测方法 Pending CN113191409A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110426806.7A CN113191409A (zh) 2021-04-20 2021-04-20 标签数据扩充与深度学习的居民异常用电行为检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110426806.7A CN113191409A (zh) 2021-04-20 2021-04-20 标签数据扩充与深度学习的居民异常用电行为检测方法

Publications (1)

Publication Number Publication Date
CN113191409A true CN113191409A (zh) 2021-07-30

Family

ID=76977760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110426806.7A Pending CN113191409A (zh) 2021-04-20 2021-04-20 标签数据扩充与深度学习的居民异常用电行为检测方法

Country Status (1)

Country Link
CN (1) CN113191409A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI819436B (zh) * 2021-12-15 2023-10-21 緯創資通股份有限公司 預測模型建構方法、狀態預測方法及其裝置

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977771A (zh) * 2017-11-07 2018-05-01 国家电网公司 一种基于多元聚类模型与两阶段聚类修正算法的变电站特性分析方法
CN109344753A (zh) * 2018-09-21 2019-02-15 福州大学 一种基于深度学习的航拍图像输电线路细小金具识别方法
CN110309884A (zh) * 2019-07-05 2019-10-08 国网四川省电力公司经济技术研究院 基于泛在电力物联网体系的用电数据异常识别系统
CN110503136A (zh) * 2019-07-31 2019-11-26 国家电网有限公司 台区线损异常分析方法、计算机可读存储介质及终端设备
CN111145042A (zh) * 2019-12-31 2020-05-12 国网北京市电力公司 一种采用全连接神经网络的配电网电压异常诊断方法
CN111161740A (zh) * 2019-12-31 2020-05-15 中国建设银行股份有限公司 意图识别模型训练方法、意图识别方法以及相关装置
CN111223006A (zh) * 2019-12-25 2020-06-02 国网冀北电力有限公司信息通信分公司 一种异常用电检测方法及装置
CN111369339A (zh) * 2020-03-02 2020-07-03 深圳索信达数据技术有限公司 一种基于过采样改进svdd的银行客户交易行为异常识别方法
CN111710150A (zh) * 2020-05-14 2020-09-25 国网江苏省电力有限公司南京供电分公司 一种基于对抗自编码网络的异常用电数据检测方法
CN112087443A (zh) * 2020-09-04 2020-12-15 浙江大学 一种大规模工业传感网络信息物理攻击下传感数据异常智能化检测方法
CN112200160A (zh) * 2020-12-02 2021-01-08 成都信息工程大学 基于深度学习的直读水表读数识别方法
CN112215406A (zh) * 2020-09-23 2021-01-12 国网甘肃省电力公司营销服务中心 一种基于时间卷积神经网络的非侵入式居民用电负荷分解方法
CN112580684A (zh) * 2020-11-17 2021-03-30 平安科技(深圳)有限公司 基于半监督学习的目标检测方法、装置及存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977771A (zh) * 2017-11-07 2018-05-01 国家电网公司 一种基于多元聚类模型与两阶段聚类修正算法的变电站特性分析方法
CN109344753A (zh) * 2018-09-21 2019-02-15 福州大学 一种基于深度学习的航拍图像输电线路细小金具识别方法
CN110309884A (zh) * 2019-07-05 2019-10-08 国网四川省电力公司经济技术研究院 基于泛在电力物联网体系的用电数据异常识别系统
CN110503136A (zh) * 2019-07-31 2019-11-26 国家电网有限公司 台区线损异常分析方法、计算机可读存储介质及终端设备
CN111223006A (zh) * 2019-12-25 2020-06-02 国网冀北电力有限公司信息通信分公司 一种异常用电检测方法及装置
CN111161740A (zh) * 2019-12-31 2020-05-15 中国建设银行股份有限公司 意图识别模型训练方法、意图识别方法以及相关装置
CN111145042A (zh) * 2019-12-31 2020-05-12 国网北京市电力公司 一种采用全连接神经网络的配电网电压异常诊断方法
CN111369339A (zh) * 2020-03-02 2020-07-03 深圳索信达数据技术有限公司 一种基于过采样改进svdd的银行客户交易行为异常识别方法
CN111710150A (zh) * 2020-05-14 2020-09-25 国网江苏省电力有限公司南京供电分公司 一种基于对抗自编码网络的异常用电数据检测方法
CN112087443A (zh) * 2020-09-04 2020-12-15 浙江大学 一种大规模工业传感网络信息物理攻击下传感数据异常智能化检测方法
CN112215406A (zh) * 2020-09-23 2021-01-12 国网甘肃省电力公司营销服务中心 一种基于时间卷积神经网络的非侵入式居民用电负荷分解方法
CN112580684A (zh) * 2020-11-17 2021-03-30 平安科技(深圳)有限公司 基于半监督学习的目标检测方法、装置及存储介质
CN112200160A (zh) * 2020-12-02 2021-01-08 成都信息工程大学 基于深度学习的直读水表读数识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI819436B (zh) * 2021-12-15 2023-10-21 緯創資通股份有限公司 預測模型建構方法、狀態預測方法及其裝置

Similar Documents

Publication Publication Date Title
CN110097297A (zh) 一种多维度窃电态势智能感知方法、系统、设备及介质
CN106022528B (zh) 一种基于密度峰值层次聚类的光伏电站短期功率预测方法
CN107145966A (zh) 基于逻辑回归概率分析优化模型的反窃电分析预警方法
CN104408667A (zh) 一种电能质量综合评估的方法和系统
CN105488628A (zh) 一种面向电力大数据可视化的数据挖掘方法
CN105005711A (zh) 获取统计线损的方法及装置
CN110244099A (zh) 基于用户电压的窃电检测方法
CN112257784A (zh) 一种基于梯度提升决策树的窃电检测方法
CN113191409A (zh) 标签数据扩充与深度学习的居民异常用电行为检测方法
CN106651093A (zh) 一种用于低压集抄系统的智能复核管控方法
CN113688870B (zh) 一种采用混合算法的基于用户用电行为的群租房识别方法
CN114818849A (zh) 基于大数据信息的卷积神经网络和遗传算法的反窃电方法
CN114048200A (zh) 一种计及缺失数据补齐的用户用电行为分析方法
Fang et al. Identification of Abnormal Electricity Consumption Behavior Based on Bi-LSTM Recurrent Neural Network
CN113723497A (zh) 基于混合特征提取及Stacking模型的异常用电检测方法、装置、设备及存储介质
CN113435494A (zh) 低压居民用户异常用电识别方法及仿真模拟系统
Song et al. Research on clustering algorithm of user electricity behavior for identification of typical should scene
Dong et al. The research on user short-term electricity load forecasting for judging electric theft
CN112884000A (zh) 一种基于数据挖掘的用电检查智能诊断方法及诊断系统
Poudel et al. Artificial intelligence for energy fraud detection: a review
Yan et al. Cross-domain feature extraction-based household characteristics identification approach using smart meter data
Chen et al. Research on power consumption behavior analysis based on power big data
Lu et al. Anomaly Recognition Method for Massive Data of Power Internet of Things Based on Bayesian Belief Network
Dhingra et al. A Comparative Study of Various Machine Learning Algorithms to Detect Power Plant Stability
CN113190595B (zh) 一种小样本驱动的异常用电数据集的构建方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210730

RJ01 Rejection of invention patent application after publication