CN108898311A - 一种面向智能配电网抢修调度平台的数据质量检测方法 - Google Patents
一种面向智能配电网抢修调度平台的数据质量检测方法 Download PDFInfo
- Publication number
- CN108898311A CN108898311A CN201810687958.0A CN201810687958A CN108898311A CN 108898311 A CN108898311 A CN 108898311A CN 201810687958 A CN201810687958 A CN 201810687958A CN 108898311 A CN108898311 A CN 108898311A
- Authority
- CN
- China
- Prior art keywords
- data
- evaluation index
- distribution network
- assessed
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/20—Administration of product repair or maintenance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/06—Electricity, gas or water supply
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种面向智能配电网抢修调度平台的数据质量检测方法,包括:获取待评估对象的配电网数据以及质量评估模型;获取待评估对象的配电网数据在每个评估指标下的合格百分比;根据质量评估模型中待评估对象下每个评估指标的权重、期望值及每个评估指标下的合格百分比计算出评估标准值、综合评估值以及相对差值;根据综合评估值、相对差值以及每个评估指标下的合格百分比对待评估对象的配电网数据进行质量检测;综合评估值的值越大则数据整体质量越佳;相对差值为正则数据整体质量比预期更优;评估指标下的合格百分比越高则在对应评估指标下数据质量越佳。通过上述方法实现对电力大数据的质量检测,为提高智能配电网主动抢修效率提供基础。
Description
技术领域
本发明属于电力大数据信息处理技术领域,具体涉及一种面向智能配电网抢修调度平台的数据质量检测方法。
背景技术
电力行业面临着正在形成的大数据环境,大数据时代对电力行业发展提出新的挑战,但也带来新的发展机遇。面对这种海量数据的增加,多数电力部门仅使用传统的数据分析和简单的传统统计方法进行数据分析,由于受到人力、物力、财力的限制,数据背后隐藏的深层次知识无法有效得以理解使用,相反却带来了“数据灾难”和“数据荒废”。传统配电网已逐渐从被动模式向主动模式转变,提出了基于配电自动化的配网故障智能抢修和主动服务模式,传统的数据处理方式已明显无法满足所需的服务质量,因此,通过配电网数据质量评估为配电网故障的智能抢修提供良好的数据前提,就显得尤为重要。
地区配网每日产生上万的停上电事件,而对这些事件的处理通常通过人为订的规则进行。在这一过程中,由于配网运行的复杂性,相关数据的多样性,会导致虚假信号的产生。这些虚假,冗杂的信号会严重影响到对配网进行抢修调度的效率。
因此,针对上述数据质量问题,需要提供一种基于应用的层面,利用数据分析的理论,对配网抢修调度平台出现的异常数据进行识别和处理的方法,来解决数据质量检测问题。
发明内容
本发明的目的是提供一种面向智能配电网抢修调度平台的数据质量检测方法,实现对电力大数据的质量检测,建立规范化的实时数据检测规则,通过数据层面的分析为提高智能配电网主动抢修效率提供数据基础。
本发明提供一种面向智能配电网抢修调度平台的数据质量检测方法,包括如下步骤:
步骤1:获取待评估对象的配电网数据以及预设的质量评估模型;
其中,所述预设的质量评估模型包括每类评估对象的评估指标以及每类评估对象下每个评估指标对应的权重、期望值以及评估规则;
所述评估指标至少包括完整性、唯一性、一致性、准确性,所述评估指标还包括时效性、正确性、有效性中一个或多个指标;
步骤2:根据预设的质量评估模型中所述待评估对象下每个评估指标的评估规则获取所述待评估对象的配电网数据在所述每个评估指标下的合格百分比;
步骤3:根据所述预设的质量评估模型中所述待评估对象下每个评估指标的权重、期望值以及步骤2计算出的每个评估指标下的合格百分比计算出评估标准值、综合评估值以及相对差值;
其中,所述综合评估值、评估标准值以及相对差值的计算公式:
SR=SA-SC
式中,SA为所述待评估对象的配电网数据的综合评估值,SC为所述待评估对象的配电网数据的综合标准值,SR为相对差值,Wi为所述待评估对象的第i个评估指标对应的权重,Si为所述待评估对象的配电网数据在第i个评估指标下的合格百分比,Ei为所述待评估对象的第i个评估指标对应的期望,n为所述待评估对象的评估指标的数量;
步骤4:根据所述综合评估值、相对差值以及每个评估指标下的合格百分比对所述待评估对象的配电网数据进行质量检测;
所述综合评估值的值越大,所述待评估对象的配电网数据整体质量越佳;
所述相对差值为正,所述待评估对象的配电网数据整体质量比预期更优;所述相对差值为负,所述待评估对象的配电网数据整体质量比预期差;
所述待评估对象的配电网数据在评估指标下的合格百分比越高,表示在对应评估指标下配电网数据质量越佳。
本发明基于配电网的数据特性选择正确性、完整性、唯一性、一致性、准确性、时效性、有效性作为评估指标,有效地对配电网数据进行质量检测。具体的,针对配电网数据中明显计算有误的数据,防止将其录入,故设置正确性的评估指标;针对抢修数据中常有缺项漏项的情况,要保证数据不因存在异常缺失,而产生大量无效主动工单,影响后续抢修工作和数据处理,故设置完整性的评估指标;为了保证数据的录入正确,便于整理和分析,设置一致性和准确性的评估指标;针对数据冗余情况,且在抢修平台中既要保证事件编号唯一,不发生一号多事,同时也防止多号一事,即防止重复录入两次同一地点同一时间的同样事件的数据以及防止误录造成的其他错误,比如整行重复或整列重复录入的错误,故设置唯一性的评估指标;针对事件的时效问题设置时效性的评估指标;针对配电网数据中明显不符合客观规律的,为了防止将其录入,故设置有效性的评估指标,例如线损电量为负数,则明显不符合客观规律。通过依据配电网的数据特性而相匹配的设置评估指标,可以提高质量检测结果的可靠性。
本发明基于质量评估模型对待评估对象的配电网数据进行质量检测,得到每个评估指标下的合格百分比、评估标准值、综合评估值以及相对差值,进而得出待评估对象的数据质量结果,既考虑到数据整体的质量水平,同时还考虑到数据在各个指标下的质量水平。其中待评估对象至少包括一类配电网数据。
进一步优选,根据配电网数据质量检测结果提取待评估对象的配电网数据中的误报数据,再基于回归方程构建和采用残差分析识别误报数据中的异常数据;
其中,所述误报数据是依据配电网数据质量检测结果以及配电网数据的质量水平等级划分规则来提取的,所述划分规则如下所示:
所述综合评估值、所述合格百分比分别位于(95,100]范围时,所述待评估对象的配电网数据整体质量水平和所述合格百分比对应评估指标下的数据质量水平分别为优;
所述综合评估值、所述合格百分比分别位于(90,95]范围时,所述待评估对象的配电网数据整体质量水平和所述合格百分比对应评估指标下的数据质量水平分别为良;
所述综合评估值、所述合格百分比分别位于(85,90]范围时,所述待评估对象的配电网数据整体质量水平和所述合格百分比对应评估指标下的数据质量水平分别为中;
所述综合评估值、所述合格百分比分别位于(0,85]范围时,所述待评估对象的配电网数据整体质量水平和所述合格百分比对应评估指标下的数据质量水平分别为差;
其中,配电网数据整体质量水平、合格百分比对应评估指标下的数据质量水平为中或差时,对应的配电网数据为误报数据。
属于中差水平的配电网数据中出现异常数据的可能性更高,因此,需要对其进行进一步识别,以识别出其中的异常数据。其中,针对每类误报数据采用回归分析,即先确定每类误报数据的解释变量,再通过散点图确定回国模型建立回归方程,然后再对回归方程进行检测以及利用残差分析探测出误报数据中异常值,所使用的残差分析如标准化残差、学生化残差、剔除残差。
进一步优选,所述评估指标包括完整性、唯一性、一致性、准确性、时效性。
进一步优选,所述完整性为数据属性值非空,所述唯一性为数据属性值唯一,所述一致性为数据属性值的表达格式正确,所述准确性为数据属性值的精度正确,所述时效性为数据属性值通过时效检测。
正确性主要是针对可以通过公式计算来判断是否有误的配电网数据,其为数据属性值计算无误,即参数间存在直接联系可用计算获取的参数,比如总销售额与日销售额;唯一性主要考虑数据统计表中是否存在两个相同的时间变量,是否存在两个相同的统计指标名,不同行或列对应的数值数据是否完全一致或相同个数是否超过预设阈值N,若满足上述三个条件之一在,则认为其存在重复嫌疑,需用户利用领域知识进行分析判断确定其是否确实重复了。一致性是针对数据的表达格式,如均为小数、“%”或“/”。时效性是用于衡量历史数据是否可用,本发明采用t检验,即验证数据属性均值与已知样本均值是否差异不显著,若不显著,则满足时效性;若显著或非常显著,则不满足时效性。所述有效性为数据属性值有效。
进一步优选,所述质量评估模型中每类评估对象下的每个评估指标对应的权重为采用层析分析法得出的;
其中,先确定所述评估对象的两两评估指标之间的标度关系,并基于标度关系形成判断矩阵;再基于所述判断矩阵采用规范列平均法计算出每个评估指标的权重。
进一步优选,所述待评估对象的配电网数据包括故障抢修工单信息、抢修班组、用户、台区、线路、气象信息。
进一步优选,所述待评估对象的配电网数据包括线损率、供电量、线损电量、平均用电负荷率、本网最高发电负荷、全社会用户个数。
有益效果
与现有技术相比,本发明的优点有:
本发明提供的一种面向智能配电网抢修调度平台的数据质量检测方法,针对配电网的数据特性选择正确性、完整性、唯一性、一致性、准确性、时效性、有效性作为评估指标,有效地对配电网数据进行质量检测,具体是基于质量评估模型对待评估对象的配电网数据进行质量检测,得到每个评估指标下的合格百分比、评估标准值、综合评估值以及相对差值,进而得出待评估对象的数据质量结果,其既考虑了数据整体的质量水平,还考虑了数据在单个评估指标下的质量水平,此外,所计算的评估标准值、综合评估值以及相对差值是综合了多个评估指标而来的结果,其更能反映数据整体的质量水平,完成提高配网抢修平台产生数据的准确性,为更高效,更主动性的配电网抢修调度平台建设提供理论参考。
本发明还基于质量检测结果提取出配电网中的误报数据,再基于回归分析识别出异常数据,为后续抢修平台的配电网数据分析提供数据基础。
附图说明
图1是本发明提供的一种面向智能配电网抢修调度平台的数据质量检测方法的流程示意图。
具体实施方式
下面将结合实施例对本发明做进一步的说明。
本发明的质量检测是基于构建的质量评估模型进行的,质量评估模型包括每类评估对象的评估指标以及每类评估对象下每个评估指标对应的权重、期望值以及评估规则。其中,待评估对象至少包括一类配电网数据,评估指标以及评估规则均是依据所选择的待评估对象而设定的,例如涉及有计算公式的参数可以设置正确性的评估指标,涉及小数点的参数可以设置正确性的评估指标,涉及时间特性的参数可以设置时效性的评估指标,涉及特殊表达格式的参数可以设置一致性,因此,本发明的评估指标是依据数据类型进行选定的,通过对配电网数据的特性研究,本发明提供的评估指标至少包括完整性、唯一性、一致性、准确性,同时评估指标还包括时效性、正确性、有效性中一个或多个指标。
1、正确性。主要是针对可以由公式计算而来的数据即参数间存在直接联系可用计算获取的参数,例如线损率=线损电量/供电量,通过计算来判断线损率的数据是否有误。
2、完整性。主要是针对数据是否为非完整数据集,即存在缺失。
3、唯一性。由于配网抢修调度平台统计数据表中的数据绝大部分都是时间数据和数值数据,而时间数据可以转化为数值数据,且不同时间段的统计数据通常具有类似的变化规律,距离也非常接近,因此,对于电网统计数据的唯一性检测需从以下三个方面进行分析:统计表中是否存在两个相同的时间变量;统计表中是否存在两个相同的统计指标名;不同行或列对应的数值数据是否完全一致或相同个数是否超过某一阀值N。统计表数据一旦满足以上三点中的任意一点,则认为其存在重复数据或有重复嫌疑。对于初步检测出的重复数据,还需利用领域知识进行分析判断,才能最终确定其是否为“真”重复。
4、一致性。一致性分析针对的是数据的表达格式,即要求同一属性下的数据使用相同的表达格式。配网统计数据大多都是数值数据且基本上都以阿拉伯形式进行描述,故一致性分析可缩减为针对比率类数据。对于比率类数据,其有小数、“%”和“/”三种表达格式。由此可见,一致性可按以下原理进行分析:预先设定一种参考格式,然后通过扫描该属性下的所有数据,将每一个案的表达格式与参考格式进行对比分析,以考察两者是否一致,若存在差异,则认为该个案的格式不符合要求。
5、准确性。准确性分析时,我们主要是考察数据记录的精度是否满足要求。其检测原理与一致性类似,同样需要预先定义记录的参考精度值,然后再考察数据集中各数据记录的精度是否满足这一要求。其中,针对不满足准确性的数据可以采用下述方法进行修正:首先,我们将所有的数值记录作为字符串看待,然后通过计算“.”后的字符个数以得到个案的精度,而对于不存在“.”的个案,则直接将精度置为0,最后再将个案的精度与参考精度进行对比,对于不满足参考精度的个案,还可对其进行相应的精度转换:若个案的精度大于参考精度,则可按“四舍五入”原则进行精度缩减;若个案的精度小于参考精度,则可直接在记录末尾添加若干个字符“0”;若个案为整数而参考精度不为0,则应在记录末尾补充一个字符“.”及若干个字符“0”,以使个案满足准确性要求。
6、时效性。所谓时效性,是指由于时间的推移和行业发展的日新月异,历史数据能否体现出最新数据的全部本质特征,并能对最新数据进行描述或替代,而不被历史所淘汰。它所衡量的是一种历史数据的可用性和有效性,主要是针对于时间相关性强,其针对所得到的数据的均值校验。
本发明采用t检测来实现时效检测,即通过单总体检测或双总体检测来完成时效检测。先计算统计量t值,再计算出自由度并查找t值表得到理论t值,再比较计算的t值与理论t值,推断发生的概率得到差异显著程序。如下表1所示:
表1
其中,差异非常显著和差异显著时,表示不符合时效性检测,不具有时效性;差异不显著时符合时效性检测,具有时效性。
7、有效性。针对配电网数据中明显不符合客观规律的。例如,数据应当是正数的,但出现的数据为负数。
基于评估指标的含义,本发明提供的质量评估模型M为:M=<D,I,R,W,E>,其中:
D表示待评估对象。
I表示待评估对象D的评估指标的集合,记为I={I1,I2,…In},其中Ii表示第i个评估指标,n表示所选择评估指标的数量。
R表示与评估指标相对应的评估规则集合,记为Ri={Ri,r},(1≤r≤|R|),Ri,r表示评估指标Ii的第r个规则,|R|表示评估规则集合Ri中评估规则的数量,此时一个评估指标包括|R|个评估规则。
W表示与评估指标集合I相对应的权重集合,记为W={Wi},(1≤i≤n),Wi表示评估指标Ii的权重,每个评估指标Ii对应一个权重Wi。
E表示与评估指标集合I相对应的期望集合,记为E={Ei},(1≤i≤n),Ei表示评估指标Ii的期望,每个评估指标Ii对应一个期望Ei,期望Ei的取值范围为[0,100]。
S表示在每个评估指标下待评估对象的配电网数据基于评估规则进行数据质量评估得出的合格百分比;
其中Si表示在评估指标Ii下待评估对象的配电网数据基于评估规则进行数据质量评估得出的合格百分比,Sr,s(Ii)表示配电网数据在评估指标Ii下第r个评估规则的合格百分比。合格百分比Si的取值范围为[0,100]。
其中,每个评估指标对应的权重是通过层析分析法得出,对应的期望值是经验值,对应的合格百分比是将待评估对象按照质量评估模型所设置的评估指标的评估规则统计而来的,是在质量检测过程求解的,而权重和期望是预先计算或设定的。
实施例1
基于上述质量评估模型,本发明实施例中所选用的待评估对象的配电网数据包括线损率、供电量、线损电量、平均用电负荷率、本网最高发电负荷、全社会用户个数,所选用的待评估对象的评估指标包括正确性、完整性、唯一性、一致性、准确性、有效性。其他可行的实施例中,待评估对象的配电网数据可以是包括其他类型数据,如设备信息、气象信息、生产管理信息、厂侧信息、运行信息、二次系统信息等,同理,对应的评估指标也可以是正确性、完整性、唯一性、一致性、准确性、时效性、有效性其他组合。
本实施例中获取的待评估对象的配电网数据如下表2所示:
表2
其中,所选用的配电网数据为12个月的数据。预设的质量评估模型中待评估对象的评估指标及其评估规则是通过结合数据类型以及评估指标的实际意义所设计的,如下表3所示:
表3
从表2可看出,本实施例中每个评估指标中对应了多个评估规则,其评估规则是依据待评估对象的配电网数据类型而设定的,例如,一致性主要是针对线损率和平均用电负荷率。
为了确定每个评估指标对应权重,本发明采用层析分析法。具体如下所示:
首先,确定所述评估对象的两两评估指标之间的标度关系,并基于标度关系形成判断矩阵。其中,标度关系是用户依据经验或者实验研究所得出的,如图表4所示:
表4
然后,基于判断矩阵采用规范列平均法计算出每个评估指标的权重。即对判断矩阵中的数据进行列归一化(列数据/列数据之和)),然后计算归一化后的矩阵中每一行的平均值得到各个评估指标权重。如图表5所示:
表5
因此,本实施例的质量评估模型中所述待评估对象的评估指标、评估规则、权重和期望均视为已知。下述将基于质量评估模型对待评估对象的配电网数据进行质量检测,其中如图1所示,包括如下步骤:
步骤1:获取待评估对象的配电网数据以及预设的质量评估模型;
步骤2:根据预设的质量评估模型中所述待评估对象下每个评估指标的评估规则获取所述待评估对象的配电网数据在所述每个评估指标下的合格百分比。
具体的,根据表1和表2的数据分析可得,统计指标线损率10月份的数据应为6.22(线损率=线损电量/供电量);统计指标平均用电负荷率6月份的数据为空缺值;统计指标本网最高发电负荷3,7,10,11月份的数据精度为0,统计指标全社会用电量6,9月份的数据精度为2,不符合评估指标准确性的评估规则要求;统计指标线损率和线损电量2,9月份的数据为负数,不符和评估指标有效性的评估规则要求,因此,统计出每个评估指标下的合格百分比,如下表6所示:
表6
步骤3:根据所述预设的质量评估模型中所述待评估对象下每个评估指标的权重、期望值以及步骤2计算出的每个评估指标下的合格百分比计算出评估标准值、综合评估值以及相对差值。
具体的,根据如下公式计算出综合评估值、评估标准值以及相对差值:
SR=SA-SC
其中,将综合评估值、评估标准值结合起来得到相对差值,更加清晰显示数据质量的真实情况。基于上述公式以及表5的数据计算出评估标准值为98.29063,综合评估值为97.3815,相对差值为-0.90913。
步骤4:根据所述综合评估值、相对差值以及每个评估指标下的合格百分比对所述待评估对象的配电网数据进行质量检测。
本发明针对质量检测还设置了检测标准,如下:
所述综合评估值、所述合格百分比分别位于(95,100]范围时,所述待评估对象的配电网数据整体质量水平和所述合格百分比对应评估指标下的数据质量水平分别为优;
所述综合评估值、所述合格百分比分别位于(90,95]范围时,所述待评估对象的配电网数据整体质量水平和所述合格百分比对应评估指标下的数据质量水平分别为良;
所述综合评估值、所述合格百分比分别位于(85,90]范围时,所述待评估对象的配电网数据整体质量水平和所述合格百分比对应评估指标下的数据质量水平分别为中;
所述综合评估值、所述合格百分比分别位于(0,85]范围时,所述待评估对象的配电网数据整体质量水平和所述合格百分比对应评估指标下的数据质量水平分别为差;
因此,从上述计算结果分析可得到如下结论:
结论一、被评估电网统计指标数据在正确性、完整性、唯一性和一致性四个评估指标的评估得分在98分以上,评估档次都属于“优”,但其中唯一性和一致性的优秀程度最后(得分最高,满分);在准确性和有效性的评估得分在90到95之间,评估档次属于“良”。
结论二、被评估电网统计指标数据的综合评估值为97.3815,而评估标准值在98以上,因此其整体的数据质量水平属于“优”。
结论三、综合评估值比评估标准值小0.90913,说明被评估数据的质量水平比预期的要差,但差距不大。
基于上述步骤实现了本实施例中对配电网的数据质量检测。其他可行的实施例中,若根据配电网数据质量检测结果发现其中部分数据的质量水平为中或差时,且将该部分数据视为误报数据,其存在异常数据的可能性最大,因此还需要对该部分数据进行进一步的分析以提取出异常数据,其中按照如下步骤5提取异常数据。
步骤5:根据配电网数据质量检测结果提取待评估对象的配电网数据中的误报数据,再基于回归方程构建和采用残差分析识别误报数据中的异常数据。
其中,通过回归分析,得出数据之间的多重线性方程,再分析预测值与实际值之间的差距,得出异常值。其针对每一类异常数据的处理过程如下:
第一步,确定回归方程中的解释变量和被解释变量。
由于回归分析用于分析一个事物如何随其他事物的变化而变化,因此回归分析的第一步应确定哪个事物需要被解释的,即哪个变量是被解释变量(记为y);哪些事物是用于解释其他变量的,即哪些变量是解释变量(记为x)。回归分析正是要建立y关于x的回归方程,并在x给定的条件下,通过回归方程预测y的平均值。本发明中选择解释变量的方式可以是依据经验选取,还可以是采用主成分分析法来确定解释变量,即以计算的主成分作为解释变量。
第二步,确定回归模型。
通过观察散点图确定应通过哪种数学模型来概括回归线。如果被解释变量与解释变量之间存在线性关系,则应进行线性回归分析,建立线性回归模型;反之,如果被解释变量与解释变量之间存在非线性关系,则应进行非线性回归分析,建立非线性回归模型。
第三步,建立回归方程。
根据收集到的样本数据以及第二步所确定的回归模型,在一定的统计拟合准则下估计模型中的各个参数,得到一个确定的回归方程。
第四步,对回归方程进行各种检验。
由于回归方程是在样本数据的基础上得到的,因此回归方程是否真实地反映了事物总体间的统计关系以及回归方程能否用于预测等都需要进行检验,主要包括回归方程的拟合优度检验、回归方程的显著性检验、回归系数的显著性检验、残差分析、多重共线性检验等。
第五步,探测样本中的异常值。
可以利用残差分析探测样本中的异常值。所谓残差是指由回归方程计算所得的预测值与实际样本值之间的差距,即:
式中,ei为残差,yi为实际样本值,为预测值。
借助残差分析进行异常数据检测主要包括以下几种方法:
标准化残差:由于残差是服从均值为0的正态分布,因此可以根据3σ准则进行判断,即首先对残差进行标准化( 为回归方程的标准误差),然后观察ZREi。绝对值大于3对应的观察值为异常值。
学生化残差:在异方差时可使用学生化残差对异常值进行判断,即首先计算学生化残差(hii为第i个样本的杠杆值),然后观察。绝对值大于3对应的观察值为异常值。
剔除残差:剔除残差的构造思想是:在计算第i个样本残差时,用剔除该样本后剩余n-1个样本拟合回归方程,并计算第i个样本的预测值和相应的残差。这个残差与第i个样本无关,不受第i个样本y值是否为异常值的影响,称为剔除残差。剔除残差较上述残差更能如实反映第i个样本y的异常性。剔除学生化残差的绝对值大于3对应的观察值为异常值。
例如,针对平均用电负荷的数据,通过历史数据构建出回归模型,再基于回归模型计算预测值,再计算平均用电负荷数据与对应预测值的残差,以找出平均用电负荷数据中的异常数据。
进一步地,若识别出异常数据,还可以采用人机交互修正或自动修正,修正后还可以采用上述方法重新对修正后的数据进行检测。例如针对完整性缺陷,可以采用最大期望算法(EM算法)来对缺失值进行填补。
需要强调的是,本发明所述的实例是说明性的,而不是限定性的,因此本发明不限于具体实施方式中所述的实例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,不脱离本发明宗旨和范围的,不论是修改还是替换,同样属于本发明的保护范围。
Claims (7)
1.一种面向智能配电网抢修调度平台的数据质量检测方法,其特征在于:包括如下步骤:
步骤1:获取待评估对象的配电网数据以及预设的质量评估模型;
其中,所述预设的质量评估模型包括每类评估对象的评估指标以及每类评估对象下每个评估指标对应的权重、期望值以及评估规则;
所述评估指标至少包括完整性、唯一性、一致性、准确性,所述评估指标还包括时效性、正确性、有效性中一个或多个指标;
步骤2:根据预设的质量评估模型中所述待评估对象下每个评估指标的评估规则获取所述待评估对象的配电网数据在所述每个评估指标下的合格百分比;
步骤3:根据所述预设的质量评估模型中所述待评估对象下每个评估指标的权重、期望值以及步骤2计算出的每个评估指标下的合格百分比计算出评估标准值、综合评估值以及相对差值;
其中,所述综合评估值、评估标准值以及相对差值的计算公式:
SR=SA-SC
式中,SA为所述待评估对象的配电网数据的综合评估值,SC为所述待评估对象的配电网数据的综合标准值,SR为相对差值,Wi为所述待评估对象的第i个评估指标对应的权重,Si为所述待评估对象的配电网数据在第i个评估指标下的合格百分比,Ei为所述待评估对象的第i个评估指标对应的期望,n为所述待评估对象的评估指标的数量;
步骤4:根据所述综合评估值、相对差值以及每个评估指标下的合格百分比对所述待评估对象的配电网数据进行质量检测;
所述综合评估值的值越大,所述待评估对象的配电网数据整体质量越佳;
所述相对差值为正,所述待评估对象的配电网数据整体质量比预期更优;所述相对差值为负,所述待评估对象的配电网数据整体质量比预期差;
所述待评估对象的配电网数据在评估指标下的合格百分比越高,表示在对应评估指标下配电网数据质量越佳。
2.根据权利要求1所述的方法,其特征在于:还包括:根据配电网数据质量检测结果提取待评估对象的配电网数据中的误报数据,再基于回归方程构建和采用残差分析识别误报数据中的异常数据;
其中,所述误报数据是依据配电网数据质量检测结果以及配电网数据的质量水平等级划分规则来提取的,所述划分规则如下所示:
所述综合评估值、所述合格百分比分别位于(95,100]范围时,所述待评估对象的配电网数据整体质量水平和所述合格百分比对应评估指标下的数据质量水平分别为优;
所述综合评估值、所述合格百分比分别位于(90,95]范围时,所述待评估对象的配电网数据整体质量水平和所述合格百分比对应评估指标下的数据质量水平分别为良;
所述综合评估值、所述合格百分比分别位于(85,90]范围时,所述待评估对象的配电网数据整体质量水平和所述合格百分比对应评估指标下的数据质量水平分别为中;
所述综合评估值、所述合格百分比分别位于(0,85]范围时,所述待评估对象的配电网数据整体质量水平和所述合格百分比对应评估指标下的数据质量水平分别为差;
其中,配电网数据整体质量水平、合格百分比对应评估指标下的数据质量水平为中或差时,对应的配电网数据为误报数据。
3.根据权利要求1所述的方法,其特征在于:所述评估指标包括完整性、唯一性、一致性、准确性、时效性。
4.根据权利要求3所述的方法,其特征在于:所述完整性为数据属性值非空,所述唯一性为数据属性值唯一,所述一致性为数据属性值的表达格式正确,所述准确性为数据属性值的精度正确,所述时效性为数据属性值满足时效检测。
5.根据权利要求1所述的方法,其特征在于:所述质量评估模型中每类评估对象下的每个评估指标对应的权重为采用层析分析法得出的;
其中,先确定所述评估对象的两两评估指标之间的标度关系,并基于标度关系形成判断矩阵;再基于所述判断矩阵采用规范列平均法计算出每个评估指标的权重。
6.根据权利要求1所述的方法,其特征在于:所述待评估对象的配电网数据包括故障抢修工单信息、抢修班组、用户、台区、线路、气象信息。
7.根据权利要求1所述的方法,其特征在于:所述待评估对象的配电网数据包括线损率、供电量、线损电量、平均用电负荷率、本网最高发电负荷、全社会用户个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810687958.0A CN108898311A (zh) | 2018-06-28 | 2018-06-28 | 一种面向智能配电网抢修调度平台的数据质量检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810687958.0A CN108898311A (zh) | 2018-06-28 | 2018-06-28 | 一种面向智能配电网抢修调度平台的数据质量检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108898311A true CN108898311A (zh) | 2018-11-27 |
Family
ID=64346786
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810687958.0A Pending CN108898311A (zh) | 2018-06-28 | 2018-06-28 | 一种面向智能配电网抢修调度平台的数据质量检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108898311A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110011847A (zh) * | 2019-03-29 | 2019-07-12 | 广州大学 | 一种传感云环境下的数据源质量评估方法 |
CN110147935A (zh) * | 2019-04-18 | 2019-08-20 | 红云红河烟草(集团)有限责任公司 | 一种烟草卷包车间质量综合决策模型的建立方法 |
CN111143763A (zh) * | 2019-12-13 | 2020-05-12 | 广东电网有限责任公司 | 电力设备状态的评估方法、装置及其存储介质 |
CN111210033A (zh) * | 2020-01-07 | 2020-05-29 | 云南电网有限责任公司信息中心 | 一种基于配网抢修态势的分布式分析方法 |
CN111552686A (zh) * | 2020-05-08 | 2020-08-18 | 国网四川省电力公司信息通信公司 | 一种电力数据质量评估方法及其装置 |
CN111639850A (zh) * | 2020-05-27 | 2020-09-08 | 中国电力科学研究院有限公司 | 多源异构数据的质量评估方法与系统 |
CN111797079A (zh) * | 2019-04-09 | 2020-10-20 | Oppo广东移动通信有限公司 | 数据处理方法、装置、存储介质及电子设备 |
CN112463773A (zh) * | 2019-09-06 | 2021-03-09 | 佛山市顺德区美的电热电器制造有限公司 | 数据质量确定方法及装置 |
CN113376469A (zh) * | 2021-06-29 | 2021-09-10 | 四川大学 | 一种电能质量扰动数据的分析方法 |
CN113434485A (zh) * | 2020-11-27 | 2021-09-24 | 北京三维天地科技股份有限公司 | 一种基于多维分析技术的数据质量健康度分析方法及系统 |
CN117290351A (zh) * | 2023-11-24 | 2023-12-26 | 山东省国土空间数据和遥感技术研究院(山东省海域动态监视监测中心) | 一种基于大数据的数据质量评估方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103247008A (zh) * | 2013-05-07 | 2013-08-14 | 国家电网公司 | 一种电力统计指标数据的质量评估方法 |
-
2018
- 2018-06-28 CN CN201810687958.0A patent/CN108898311A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103247008A (zh) * | 2013-05-07 | 2013-08-14 | 国家电网公司 | 一种电力统计指标数据的质量评估方法 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110011847B (zh) * | 2019-03-29 | 2022-03-25 | 广州大学 | 一种传感云环境下的数据源质量评估方法 |
CN110011847A (zh) * | 2019-03-29 | 2019-07-12 | 广州大学 | 一种传感云环境下的数据源质量评估方法 |
CN111797079A (zh) * | 2019-04-09 | 2020-10-20 | Oppo广东移动通信有限公司 | 数据处理方法、装置、存储介质及电子设备 |
CN110147935A (zh) * | 2019-04-18 | 2019-08-20 | 红云红河烟草(集团)有限责任公司 | 一种烟草卷包车间质量综合决策模型的建立方法 |
CN110147935B (zh) * | 2019-04-18 | 2022-07-05 | 红云红河烟草(集团)有限责任公司 | 一种烟草卷包车间质量综合决策模型的建立方法 |
CN112463773A (zh) * | 2019-09-06 | 2021-03-09 | 佛山市顺德区美的电热电器制造有限公司 | 数据质量确定方法及装置 |
CN111143763A (zh) * | 2019-12-13 | 2020-05-12 | 广东电网有限责任公司 | 电力设备状态的评估方法、装置及其存储介质 |
CN111143763B (zh) * | 2019-12-13 | 2021-09-17 | 广东电网有限责任公司 | 电力设备状态的评估方法、装置及其存储介质 |
CN111210033A (zh) * | 2020-01-07 | 2020-05-29 | 云南电网有限责任公司信息中心 | 一种基于配网抢修态势的分布式分析方法 |
CN111210033B (zh) * | 2020-01-07 | 2022-04-26 | 云南电网有限责任公司信息中心 | 一种基于配网抢修态势的分布式分析方法 |
CN111552686A (zh) * | 2020-05-08 | 2020-08-18 | 国网四川省电力公司信息通信公司 | 一种电力数据质量评估方法及其装置 |
CN111552686B (zh) * | 2020-05-08 | 2023-05-16 | 国网四川省电力公司信息通信公司 | 一种电力数据质量评估方法及其装置 |
CN111639850A (zh) * | 2020-05-27 | 2020-09-08 | 中国电力科学研究院有限公司 | 多源异构数据的质量评估方法与系统 |
CN113434485B (zh) * | 2020-11-27 | 2021-12-07 | 北京三维天地科技股份有限公司 | 一种基于多维分析技术的数据质量健康度分析方法及系统 |
CN113434485A (zh) * | 2020-11-27 | 2021-09-24 | 北京三维天地科技股份有限公司 | 一种基于多维分析技术的数据质量健康度分析方法及系统 |
CN113376469A (zh) * | 2021-06-29 | 2021-09-10 | 四川大学 | 一种电能质量扰动数据的分析方法 |
CN117290351A (zh) * | 2023-11-24 | 2023-12-26 | 山东省国土空间数据和遥感技术研究院(山东省海域动态监视监测中心) | 一种基于大数据的数据质量评估方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108898311A (zh) | 一种面向智能配电网抢修调度平台的数据质量检测方法 | |
CN106779505B (zh) | 一种基于大数据驱动的输电线路故障预警方法及系统 | |
CN103247008B (zh) | 一种电力统计指标数据的质量评估方法 | |
CN106651169A (zh) | 基于模糊综合评价的配电自动化终端状态评价方法及系统 | |
CN106327062A (zh) | 一种配电网设备的状态评估方法 | |
CN111537939A (zh) | 一种基于多指标融合的电压互感器状态评估方法及装置 | |
CN106447205A (zh) | 一种基于层次分析法的配电自动化终端状态评价方法 | |
CN109359894A (zh) | 一种基于rpn的电力计量设备风险评价方法及装置 | |
CN206312210U (zh) | 一种配电网设备的状态评估系统 | |
CN111999692B (zh) | 一种多表误差的校准方法和装置 | |
CN111126759B (zh) | 一种基于异常事件故障关联度的电能表状态评估方法 | |
CN115018384A (zh) | 一种建筑工地安全风险评估方法及系统 | |
CN112417627A (zh) | 一种基于四维指标体系配电网运行可靠性分析方法 | |
CN113657747B (zh) | 一种企业安全生产标准化级别智能评定系统 | |
CN113435759B (zh) | 一种基于深度学习的一次设备风险智能评估方法 | |
CN111999691A (zh) | 一种计量传感器装置的误差校准方法和误差校准装置 | |
CN111401784B (zh) | 一种消防安全等级评估方法 | |
CN113128707A (zh) | 一种配电自动化终端态势风险评估方法 | |
CN111552686B (zh) | 一种电力数据质量评估方法及其装置 | |
CN116011827B (zh) | 一种用于重点小区的停电监测分析与预警系统及方法 | |
CN113283881B (zh) | 一种远动信息源的自动审核方法及系统 | |
CN112561231B (zh) | 一种开关柜质量判定方法及系统 | |
CN110873857B (zh) | 基于多源数据融合的智能电能表运行状态评价方法及系统 | |
CN114760332A (zh) | 一种高效的设备监测分析方法 | |
CN104731955A (zh) | 风电机组油液监测诊断标准建立及智能诊断方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181127 |
|
RJ01 | Rejection of invention patent application after publication |