CN110020747A

CN110020747A - 一种负荷释放特性的影响因素分析方法

Info

Publication number: CN110020747A
Application number: CN201910193881.6A
Authority: CN
Inventors: 宋珂; 张博; 蔡之飞; 李妍; 张旭军; 祝智杭; 刘一鸣; 王标; 刘安迪
Original assignee: Huazhong University of Science and Technology; Xuchang Power Supply Co of Henan Electric Power Co
Current assignee: Huazhong University of Science and Technology; Xuchang Power Supply Co of Henan Electric Power Co
Priority date: 2019-03-14
Filing date: 2019-03-14
Publication date: 2019-07-16

Abstract

本发明涉及一种负荷释放特性的影响因素分析方法，包括：采集供电区域的第一电力数据及其多个影响因素，多个影响因素构成第一影响因素组；基于Python语言，对第一电力数据和第一影响因素组进行清洗处理，得到第二电力数据和第二影响因素组；基于粗糙集理论，从第二影响因素组中确定第二电力数据的主要影响因素。本发明基于大数据研究，利用粗糙集理论研究各小区相关指标数据对其用电负荷变化的影响。一方面，收集所研究区域的各项数据指标，利用python语言对数据进行清洗，得到大数据汇总，提高了大数据挖掘的灵活性以及数据处理效率；另一方面，基于粗糙集理论从各因素中选出主要影响因素，精确度高，具有良好的应用前景。

Description

一种负荷释放特性的影响因素分析方法

技术领域

本发明涉及负荷释放特性技术领域，特别是涉及一种负荷释放特性的影响因素分析方法。

背景技术

空间负荷预测是指对供电区域内未来电力负荷的大小和位置的预测，或者说是对指定区域内电力负荷时空分布的预测。空间负荷预测是电力系统规划的基础性工作之一，根据预测的结果来确定供电设备应当配置的容量及其最佳位置，可提高电力系统建设的经济性、高效性、可靠性。其中，负荷释放特性的的研究是空间负荷预测的研究内容之一。

负荷释放特性是指用电小区在投入使用到负荷趋于稳定过程中，负荷随时间的变化关系。而负荷的变化不仅仅与时间有关，区域负荷每年的增量与用电小区的各项电力指标和非电力指标都有关联。收集并挖掘各项相关数据对各小区负荷的影响对于负荷释放特性的研究是十分必要的。而数据指标的种类繁多、数据量大是目前负荷释放特性研究的难点。因此，如何区分各相关因素对负荷发展的影响程度并剔除冗余因素是目前的技术难点。

发明内容

本发明提供一种负荷释放特性的影响因素分析方法，用以解决现有负荷释放特性影响因素分析中因数据量大导致的低数据处理效率的技术问题。

本发明解决上述技术问题的技术方案如下：一种负荷释放特性的影响因素分析方法，包括：

步骤1、采集供电区域的第一电力数据及其影响因素信息，所述影响因素信息构成第一影响因素组；

步骤2、采用Python语言对所述第一电力数据和所述第一影响因素组进行清洗处理，得到第二电力数据和第二影响因素组；

步骤3、基于粗糙集理论，从所述第二影响因素组中确定所述第二电力数据的主要影响因素。

本发明的有益效果是：本发明基于大数据研究，利用粗糙集理论研究各小区相关指标数据对其用电负荷变化的影响。一方面，收集所研究区域的各项数据指标，利用python语言对数据进行清洗，得到大数据汇总，提高了大数据挖掘的灵活性以及数据处理效率；另一方面，基于粗糙集理论从各因素中选出主要影响因素，精确度高，在研究负荷释放特性方面具有良好的应用前景。

进一步，所述第二电力数据包括：年用电负荷，年用电量，以及公用变压器容量；

所述第二影响因素组中的影响因素包括供电区域的位置、建成时间、占地总面积、建筑总面积、容积率、不同面积户型套数、周边配套信息、商住面积比例、居民人员构成信息和建设级别。

本发明的进一步有益效果是：全面考虑与供电区域的用电直接或间接相关的因素，提高确定供电区域的用电量的主要影响因素的精确度，提高负荷释放特性的研究效率。

进一步，所述步骤1包括：

步骤1.1、从供电区域的用电数据系统获取第一电力数据；

步骤1.2、采用所述Python语言，通过网络爬虫的方式，从开源网站采集所述第一电力数据的影响因素信息。

本发明的进一步有益效果是：网络开源数据收集技术运用于居民小区电力负荷影响因素数据的收集，使得数据来源更加广泛。与传统数据收集方法相结合，使得数据的可靠度更高。另外，利用网络爬虫技术所获取到的数据比较全面和准确，同时，由于Python语言的自身特点，其使用比较灵活，可根据实际需要，更改该语言的参数，因此，Python语言的利用可增加确定影响因素的效率和准确度。

进一步，所述步骤1.2包括：

获取所述供电区域的售楼网站信息，并基于所述售楼网址信息，获取所述供电区域的网址信息；

采用所述Python语言中的应用程序测试工具，模拟浏览所述网址信息对应的网页，并采用所述python语言的网页数据抓取工具，动态选择网页内容；

采用所述Python语言中的正则匹配工具，从所述网页内容中筛选得到所述供电区域中所述第一电力数据的影响因素信息。

进一步，所述用电数据系统包括：电力营销管理信息系统，用户用电信息采集系统，智能电网调度技术支持系统基础平台，以及电力生产管理系统。

进一步，所述步骤3包括：

步骤3.1、采用所述Python语言中的正则匹配工具，从所述第二电力数据中提取预设时间段对应的第三电力数据，并基于所述第三电力数据，计算所述预设时间段的总负荷功率；

步骤3.2、基于熵相关系数，计算所述第二影响因素组中每个影响因素与所述总负荷功率之间的第一熵相关系数值，并将大于第一预设值的n个所述第一熵相关系数值一一对应的所述影响因素确定为候选影响因素，n大于1；

步骤3.3、基于所述熵相关系数，计算每两个所述候选影响因素之间的第二熵相关系数值，判断该第二熵相关系数值是否小于第二预设值，若是，将该两个候选影响因素确定为主要影响因素，否则，将该两个候选影响因素构成一对候选影响因素组；

步骤3.4、将每个所述候选影响因素组中所述第一熵相关系数值较大的候选影响因素，确定为主要影响因素，完成负荷释放特性的影响因素分析。

进一步，所述熵相关系数的计算公式为：

式中，P和Q分别为所述负荷功率值和每个所述影响因素或者任意两个所述候选影响因素，I(P；Q)为P和Q的互信息，H(P)为P的信息熵，H(Q)为Q的信息熵。

本发明的进一步有益效果是：基于粗糙集理论计算各影响因素与负荷之间熵相关系数的大小，通过与阈值进行对比选出其中主要影响因素，同时比较各主要因素间的熵相关系数的大小，去除冗余因素，得到最终的相关因素，可有效地用于确定影响负荷释放特性的相关因素，具有良好的应用前景。

进一步，当所述供电区域包括多个子区域时，则所述步骤2之前，所述方法还包括：

步骤4、基于所述多个子区域，将所述第一电力数据和所述第一影响因素组进行分区分块保存至Oracle数据库；

则所述步骤2包括：

采用Python语言依次对所述Oracle数据库中每个子区域的所述第一电力数据和所述第一影响因素组进行清洗处理，得到第二电力数据和第二影响因素组；

所述步骤3包括：

依次从所述Oracle数据库中获取每个子区域的所述第二电力数据和所述第二影响因素组，并基于粗糙集理论，从所述第二影响因素组中确定所述第二电力数据的主要影响因素。

进一步，所述步骤2包括：

采用python语言的数据清洗工具，对所述供电区域的所述第一影响因素组中的多个影响因素去重，得到第二影响因素组，并对所述供电区域的所述第一电力数据进行畸变数据剔除及缺失数据补充，得到第二电力数据。

本发明的进一步有益效果是：数据库分区存储是将不同的数据存于不同的文件组下，而不同的文件组存于不同的磁盘分区下，这样将数据分散开，减小磁盘I/O，减小了系统负荷，提高数据处理速度。

本发明还提供了一种存储介质，所述存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行上述任一种负荷释放特性的影响因素分析方法。

附图说明

图1为本发明一个实施例提供的一种负荷释放特性的影响因素分析方法的流程框图；

图2为本发明另一个实施例提供的一种负荷释放特性的影响因素分析方法的流程框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

实施例一

一种负荷释放特性的影响因素分析方法100，如图1所示，包括：

步骤110、采集供电区域的第一电力数据及其影响因素信息，影响因素信息构成第一影响因素组；

步骤120、采用Python语言对第一电力数据和第一影响因素组进行清洗处理，得到第二电力数据和第二影响因素组；

步骤130、基于粗糙集理论，从第二影响因素组中确定第二电力数据的主要影响因素。

需要说明的是，可从居民小区所处地理位置、建成时间、容积率、入住率、商住比例、居民构成、建筑面积等7个维度选取城市具有代表性的小区样本若干，作为待研究的供电区域，通过对各数据系统平台和网络开源数据进行收集得到大量相关数据，包括上述第一电力数据及其多个影响因素。

本实施例基于大数据研究，利用粗糙集理论研究各小区相关指标数据对其用电负荷变化的影响。一方面，收集所研究区域的各项数据指标，利用python语言对数据进行清洗，得到大数据汇总，提高了大数据挖掘的灵活性；另一方面，基于粗糙集理论从各因素中选出主要影响因素，精确度高，具有良好的应用前景。

优选的，第二电力数据包括：年用电负荷，年用电量，以及公用变压器容量；第二影响因素组中的影响因素包括供电区域的位置、建成时间、占地总面积、建筑总面积、容积率、不同面积户型套数、周边配套信息、商住面积比例、居民人员构成信息和建设级别。

全面考虑与供电区域的用电直接或间接相关的因素，提高确定供电区域的用电量的主要影响因素的精确度，提高负荷释放特性的研究效率。

优选的，步骤110包括：

步骤111、从供电区域的用电数据系统获取第一电力数据；

步骤112、采用所述Python语言，通过网络爬虫的方式，从开源网站采集所述第一电力数据的影响因素信息。

需要说明的是，还可以基于城市总体规划书和住建局房屋预售文件，进行人工筛选影响因素。

网络开源数据收集技术运用于居民小区电力负荷影响因素数据的收集，使得数据来源更加广泛。与传统数据收集方法相结合，使得数据的可靠度更高。另外，利用网络爬虫技术所获取到的数据比较全面和准确，同时，由于Python语言的自身特点，其使用比较灵活，可根据实际需要，更改该语言的参数，因此，Python语言的利用可增加确定影响因素的效率和准确度。

优选的，步骤110中，基于Python语言，通过网络爬虫技术，从开源网站采集第一电力数据的多个影响因素，包括：

访问房地产租售服务平台的HTML源代码，从HTML源代码中获取供电区域对应的售楼网站信息；基于售楼网址信息，获取供电区域对应的网址信息；采用Python语言中的selenium模块，基于网址信息进行模拟浏览网页操作，并基于python语言的BeautifulSoup函数，动态选择网页内容；基于Python语言中的正则匹配函数，从网页内容中筛选得到供电区域中第一电力数据的多个影响因素。

具体的开源信息收集，需要通过访问国内房地产租售服务平台的HTML源代码，选取带有小区相关信息的售楼网站，在小区汇总页面中爬取各小区详情所在网址，通过调用selenium模块(基于Web应用程序测试工具)驱动并模拟浏览器的操作。运用python的BeautifulSoup函数，动态选择网页内容，获取网址中详细内容后，使用正则表达式筛选得到小区信息中与电力负荷相关的信息，批量获得研究范围内的小区详情。该方法获取的数据比较全面、准确、可靠。

优选的，用电数据系统包括：电力营销管理信息系统，用户用电信息采集系统，智能电网调度技术支持系统基础平台D5000，以及电力生产管理系统PMS。

优选的，步骤130包括：

步骤131、采用Python语言中的正则匹配工具，从第二电力数据中提取预设时间段对应的第三电力数据，并基于第三电力数据，计算预设时间段的总负荷功率；

步骤132、基于熵相关系数，计算第二影响因素组中每个影响因素与总负荷功率之间的第一熵相关系数值，并将大于第一预设值的n个所述第一熵相关系数值一一对应的影响因素确定为候选影响因素，n大于1；

步骤133、基于熵相关系数，计算每两个候选影响因素之间的第二熵相关系数值，判断该第二熵相关系数值是否小于第二预设值，若是，将该两个候选影响因素确定为主要影响因素，否则，将该两个候选影响因素构成一对候选影响因素组；

步骤134、将每个候选影响因素组中第一熵相关系数值较大的候选影响因素，确定为主要影响因素，完成负荷释放特性的影响因素分析。

需要说明的是，基于居民小区数据集，利用正则匹配函数提取居民小区在特定年份或特定月份或某一典型日的负荷数据，此时K为设定的年份或月份或典型日期，X为Oracle数据库中的时间序列数据，如果函数re.findall(K,X)返回1，则筛选留用与X对应的整例数据；进而根据筛选结果进行加和运算得到居民小区的年负荷功率、月负荷功率和日负荷功率。例如，由于居民小区每15分钟的有功功率已知，一天中96个时间段的负荷数据已知，因此，将关键词K设置为某典型时段，X仍为时间序列数据，可提取居民小区在一天中典型时段的负荷数据。

优选的，熵相关系数的计算公式为：

式中，P和Q分别为负荷功率值和每个影响因素或者任意两个候选影响因素，I(P；Q)为P和Q的互信息，H(P)为P的信息熵，H(Q)为Q的信息熵。

粗糙集理论是一种对离散属性进行数据挖掘的很有效的工具，能够有效地分析各种不完备信息，从中发现大量数据背后隐含的知识，揭示条件属性对决策属性的重要性，删除冗余或不相关属性。粗糙集理论是以不可分辨关系为基础的。给定论域U和U上的一等价关系S，若且则∩P仍是论域U的一等价关系，称作P的不可分辨关系，记为IND(P)，而且

那么表示与等价关系IND(P)相关的知识。令P和Q在论域U上的划分分别为X和Y，其中：

X＝U/IND(P)＝{X₁,X₂,...,X_n}

Y＝U/IND(Q)＝{Y₁,Y₂,...,Y_m}

定义知识P的信息熵H(P)：

定义知识Q相对于知识P的条件熵H(Q|P)：

定义知识P和Q的互信息I(P；Q)：

I(P；Q)＝H(Q)-H(Q|P)

为了比较不同变量间的相关程度，采用基于归一化互信息的广义相关系数概念——熵相关系数，定义如下：

当I_PQ＝1，表示P和Q完全相关；当I_PQ＝0时，表示P和Q完全独立。

例如，首先对许昌地区居民小区进行相关数据收集，数据来源于企业内部五大数据平台和企业外部数据。内部数据平台主要包括营销MIS、用户用电信息采集系统、D5000、PMS四大系统，收集的数据主要包括用户年用电负荷、电量、公(专)变容量等信息；电力企业外部数据一方面来源于《许昌市城市总体规划》(2015-2030)、许昌市2005-2017年统计年鉴、相关小区控制性详规、许昌市住建局房屋预售文件及相关存档资料等，另一方面来源于开源网络地图及开源网站，主要通过离线方式获取，前一数据源中的数据通过人工筛选获取，后一数据源中的数据基于网络爬虫技术自动采集，获取到的外部数据主要包括小区位置、占地总面积、建筑总面积、容积率、不同面积户型套数、周边配套情况、商住面积比例、小区建成时间、小区居民人员构成、小区建设级别等。

获得原始数据之后，需要对异常数据进行处理。本项目采用Oracle数据库通过分区分块技术对数据进行存储，并用Python语言对异常数据进行检测、过滤和清洗。利用python提供的pandas.DataFrame模块中的duplicated方法或drop_duplicates方法，对整个数据集去重或针对某一类数据属性去重；利用模式识别知识或聚类算法识别并剔除坏数据；用某个变量的样本均值、中位数或众数代替缺失值以完成对缺失值的补充，将含有较多缺失值的样本删除，得到数据集。

基于许昌居民小区数据集，利用正则匹配函数提取居民小区在特定年份或特定月份或某一典型日的负荷数据，此时K为设定的年份或月份或典型日期，X为Oracle数据库中的时间序列数据，如果函数re.findall(K,X)返回1，则筛选留用与X对应的整例数据；进而根据筛选结果进行加和运算得到居民小区的年负荷功率、月负荷功率和日负荷功率。同理，由于居民小区每15分钟的有功功率已知，一天中96个时间段的负荷数据已知，因此，将关键词K设置为某典型时段，X仍为时间序列数据，可提取居民小区在一天中典型时段的负荷数据。

从数据中整理出决策表，包括2个决策属性：负荷与容量的比值(Y1)、负荷密度(Y2，MW/km²)，以及7个条件属性：地理位置(X1)、建成年限(X2，年)、容积率(X3)，入住率(X4，％)，商业比例(X5，％)，居民构成(X6)，建筑面积(X7，km²)。

使用粗糙集信息熵理论分析，计算各条件属性Xi(i＝1，2，…，14)与决策属性Y1、Y2之间的相关系数，结果如下表1所示。

表1各条件属性与决策属性间的相关系数值

从结果可以看出，由于地理位置(X1)和居民构成(X6)之间的熵相关系数超过0.8，表明这两个因素之间存在冗余，且与决策属性的熵相关系数大小为X1>X6，因此筛除相对冗余的条件属性居民构成(X6)。

综上，由Y1与影响因素的相关性可知，小区建成年限、小区地理位置、容积率与其相关性较强；由负荷密度Y2与影响因素的相关性可知，小区建成年限、地理位置、商业比例、建筑面积与其相关性较强。综合考虑两种负荷相关指标，可认为小区建成年限、小区位置为影响该小区负荷释放特性的主要因素。

基于粗糙集理论计算各影响因素与负荷之间熵相关系数的大小，通过与阈值进行对比选出其中主要影响因素，同时比较各主要因素间的熵相关系数的大小，去除冗余因素，得到最终的相关因素，可有效地用于确定影响负荷释放特性的相关因素，具有良好的应用前景。

优选的，当供电区域包括多个子区域时，则如图2所示，步骤120之前，方法100还包括：

步骤140、基于多个子区域，将第一电力数据和第一影响因素组进行分区分块保存至Oracle数据库；

则步骤120包括：

采用Python语言，依次对Oracle数据库中每个子区域的第一电力数据和第一影响因素组进行清洗处理，得到第二电力数据和第二影响因素组；

步骤130包括：

依次从Oracle数据库中获取每个子区域的第二电力数据和第二影响因素组，并基于粗糙集理论，从第二影响因素组中确定第二电力数据的主要影响因素。

分区分块可以为按照供电区域的每个小区进行存储，且分别将每个小区的电力数据和影响因素分块存储。在需要研究某个小区的负荷释放特性时，只需要从Oracle数据库中获取该小区对应的数据，减少磁盘I/O，提高数据处理速度。

优选的，步骤120具体包括：

采用python语言的pandas.DataFrame模块，对Oracle数据库中每个子区域的第一影响因素组中的多个影响因素去重，得到第二影响因素组；

利用模式识别知识和/或聚类算法，识别并剔除该子区域的所述第一电力数据中的畸变数据，并基于所述第一电力数据的均值、中位数或众数，对所述第一电力数据中的缺失值进行补充，得到第二电力数据。

需要说明的是，坏数据由系统故障产生，其主要表现为缺失值、极大极小值、负荷毛刺、持续定值；畸变数据通常是在采集系统正常的情况下由特殊事件引起的，表现形式为待补足数据和待还原数据。如果这些异常数据得不到修正，会影响数据挖掘的精确度及可靠性。例如，在进行缺失值补充时，可获取一天之内各时刻的负荷时，其中某一时刻缺失，可以用相邻时刻的均值代替。

对数据库中的重复数据、坏数据和畸变数据进行预处理：利用python提供的pandas.DataFrame模块中的duplicated方法或drop_duplicates方法，对整个数据集去重或针对某一类数据属性去重；利用模式识别知识或聚类算法识别并剔除坏数据；用某个变量的样本均值、中位数或众数代替缺失值以完成对缺失值的补充，将含有较多缺失值的样本删除。然后可以以居民小区名称为关键词，基于python语言调用正则匹配函数re.findall(K,X)挖掘居民小区数据，筛选出与居民小区相关的数据，完成大数据汇总。

数据库分区存储是将不同的数据存于不同的文件组下，而不同的文件组存于不同的磁盘分区下，这样将数据分散开，减小磁盘I/O，减小了系统负荷，提高数据处理速度。

综上，实施例一以大数据概念方法为依托，将所研究区域内的各负荷相关数据进行采集、筛选和清洗，从而构建出数据样本集合；再从大数据中提取出所研究区域的小区位置、容积率、入住率等易对负荷发展造成影响的因素，对上述因素运用粗糙集理论进行相关性分析：首先计算各因素与负荷指标间熵相关系数的大小，通过比对关联度阈值，选取其中与负荷释放性指标的熵相关系数超过关联度阈值的因素作为主要因素；然后计算这些主要因素之间的熵相关系数，根据设定的主要因素间关联度阈值，筛去其中冗余的因素。最终得到影响负荷增长的相关因素及其相关系数。该发明从用户相关的大数据中分析出影响负荷增长的主要相关因素，为空间负荷预测工作提供了负荷发展相关因素的研究方法，具有良好的应用前景。

实施例二

一种存储介质，存储介质中存储有指令，当计算机读取指令时，使计算机执行实施例一中任一种负荷释放特性的影响因素分析方法。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种负荷释放特性的影响因素分析方法，其特征在于，包括：

2.根据权利要求1所述的一种负荷释放特性的影响因素分析方法，其特征在于，所述第二电力数据包括：年用电负荷，年用电量，以及公用变压器容量；

3.根据权利要求1所述的一种负荷释放特性的影响因素分析方法，其特征在于，所述步骤1包括：

步骤1.1、从供电区域的用电数据系统获取第一电力数据；

4.根据权利要求3所述的一种负荷释放特性的影响因素分析方法，其特征在于，所述步骤1.2包括：

采用所述Python语言的正则匹配工具，从所述网页内容中筛选得到所述供电区域中所述第一电力数据的影响因素信息。

5.根据权利要求3所述的一种负荷释放特性的影响因素分析方法，其特征在于，所述用电数据系统包括：电力营销管理信息系统，用户用电信息采集系统，智能电网调度技术支持系统基础平台，以及电力生产管理系统。

6.根据权利要求1所述的一种负荷释放特性的影响因素分析方法，其特征在于，所述步骤3包括：

步骤3.1、采用所述Python语言的正则匹配工具，从所述第二电力数据中提取预设时间段对应的第三电力数据，并基于所述第三电力数据，计算所述预设时间段的总负荷功率；

7.根据权利要求6所述的一种负荷释放特性的影响因素分析方法，其特征在于，所述熵相关系数的计算公式为：

8.根据权利要求1至7任一项所述的一种负荷释放特性的影响因素分析方法，其特征在于，当所述供电区域包括多个子区域时，则所述步骤2之前，所述方法还包括：

则所述步骤2包括：

所述步骤3包括：

9.根据权利要求1至7任一项所述的一种负荷释放特性的影响因素分析方法，其特征在于，所述步骤2包括：

10.一种存储介质，其特征在于，所述存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如权利要求1至9中任一项所述的一种负荷释放特性的影响因素分析方法。