CN109670526A - 一种电网的干扰源类型辨识方法、装置、设备及存储介质 - Google Patents
一种电网的干扰源类型辨识方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN109670526A CN109670526A CN201811333872.4A CN201811333872A CN109670526A CN 109670526 A CN109670526 A CN 109670526A CN 201811333872 A CN201811333872 A CN 201811333872A CN 109670526 A CN109670526 A CN 109670526A
- Authority
- CN
- China
- Prior art keywords
- feature
- collection
- power grid
- data
- random forest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012850 discrimination method Methods 0.000 title claims abstract description 23
- 238000007637 random forest analysis Methods 0.000 claims abstract description 88
- 238000012544 monitoring process Methods 0.000 claims abstract description 46
- 238000013480 data collection Methods 0.000 claims abstract description 32
- 239000012141 concentrate Substances 0.000 claims abstract description 26
- 230000002159 abnormal effect Effects 0.000 claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000004422 calculation algorithm Methods 0.000 claims description 27
- 238000006243 chemical reaction Methods 0.000 claims description 18
- 238000003066 decision tree Methods 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 14
- 230000007246 mechanism Effects 0.000 claims description 10
- 230000009467 reduction Effects 0.000 claims description 10
- 239000000203 mixture Substances 0.000 claims description 8
- 238000000513 principal component analysis Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 description 9
- 230000005611 electricity Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000013467 fragmentation Methods 0.000 description 3
- 238000006062 fragmentation reaction Methods 0.000 description 3
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000011248 coating agent Substances 0.000 description 1
- 238000000576 coating method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012252 genetic analysis Methods 0.000 description 1
- 238000012880 independent component analysis Methods 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005086 pumping Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种电网的干扰源类型辨识方法、装置、设备及存储介质,其中,电网的干扰源类型辨识方法包括如下步骤:获取电网的历史监测数据中的异常片段;将异常片段中多次同时出现的若干个特征作为一个特征组,并将若干个特征组的集合作为第一特征集;获取预设时间内样本特征集中各特征的数据,形成样本数据集;样本特征集为第一特征集;根据样本数据集构建随机森林;使用随机森林对电网的待识别监测数据集进行干扰源类型识别。根据电网的样本数据集构建随机森林,而随机森林能够对电网的待识别监测数据集进行多干扰源类型的分类识别,并且随机森林的构建运算量小,构建速度快,能够解决现有技术中的电网干扰源的识别方法的运算量较大的问题。
Description
技术领域
本发明涉及电力系统技术领域,尤其涉及到一种电网的干扰源类型辨识方法、电网的干扰源类型辨识装置、辨识设备和计算机可读存储介质。
背景技术
随着高铁、新能源发电等干扰源越来越多,导致电能质量问题日趋复杂,严重影响电网可靠运行,因此,建立电能质量干扰源特征库成为电能质量问题分析治理的前提。而实现电能质量干扰源特征库的建立,需要依托在线监测数据提取特征和干扰源的类型辨识。
近年来,国家电网公司运用成熟的电能质量监测技术积累建设了覆盖27省/市的全网电能质量监测系统,实现上万个监测点电压偏差、频率偏差、三相不平衡、谐波和间谐波、闪变、电压暂降/暂升等全部电能质量指标的实时同步监测,重点覆盖电气化铁路、直流换流站、风电场、光伏电站等主要干扰源类型,而基于电能质量监测数据的干扰源分析主要依赖模式识别技术,常用的模式识别方法为神经网络或者支持向量机等。其中,基于向量机实现多标签分类的识别方法对单分类具有较高的分类准确率,但是若要用于多分类则需设计实现多个支持向量机,间接增加了计算量;神经网络方法具有较高的识别率,但需要选择合适的小波基进行变换并需要进行多次迭代,运算量也较大。
发明内容
因此,本发明要解决的技术问题在于解决现有技术中的电网干扰源的识别方法的运算量较大的问题,提供一种基于随机森林的电网的干扰源类型辨识方法。
为此,根据第一方面,本发明提供了一种电网的干扰源类型辨识方法,包括如下步骤:获取电网的历史监测数据中的异常片段;将异常片段中多次同时出现的若干个特征作为一个特征组,并将若干个特征组的集合作为第一特征集;获取预设时间内样本特征集中各特征的数据,形成样本数据集;样本特征集为第一特征集;根据样本数据集构建随机森林;使用随机森林对电网的待识别监测数据集进行干扰源类型识别;待识别监测数据集为一个待识别周期内样本特征集中各特征对应的数据组成的数据集。
可选地,电网的干扰源类型辨识方法还包括如下步骤:对电网的各类干扰源进行机理分析,得到由各类干扰源的特征组成的第二特征集;样本特征集为第一特征集和第二特征集的并集。
可选地,获取预设时间内样本特征集中各特征的数据,形成样本数据集,包括如下步骤:获取预设时间内样本特征集中各特征的数据,形成原始数据集;使用特征转换算法对原始数据集进行降维处理,得到样本数据集;待识别监测数据集为使用特征转换算法降维后的数据集。
可选地,特征转换算法为主成分分析算法。
可选地,根据样本数据集构建随机森林,包括如下步骤:根据样本数据集构建若干个原始随机森林;各个原始随机森林的参数不同;计算各个原始随机森林的袋外数据误分率,并将袋外数据误分率最低的原始随机森林作为随机森林。
可选地,原始随机森林的参数包括原始随机森林中的决策树的数量、决策树的节点分裂标准和生成一颗决策树的数据对应的特征数量。
根据第二方面,本发明提供了一种电网的干扰源类型辨识装置,包括:数据获取模块,用于获取电网的历史监测数据中的异常片段;第一特征集形成模块,用于将异常片段中多次同时出现的若干个特征作为一个特征组,并将若干个特征组的集合作为第一特征集;样本数据集形成模块,用于获取预设时间内样本特征集中各特征的数据,形成样本数据集;样本特征集为第一特征集;随机森立构建模块,用于根据样本数据集构建随机森林;干扰源辨识模块,用于使用随机森林对电网的待识别监测数据集进行干扰源类型识别;待识别监测数据集为一个待识别周期内样本特征集中各特征的数据组成的数据集。
可选地,电网的干扰源类型辨识装置还包括:第二特征集形成模块,用于对电网的各类干扰源进行机理分析,得到由各类干扰源的特征组成的第二特征集;样本特征集为第一特征集和第二特征集的并集。
根据第三方面,本发明提供了一种辨识设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器执行上述第一方面的全部或部分方法。
根据第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现上述第一方面的全部或部分方法的步骤。
本发明实施例提供的技术方案,具有如下优点:
1、本发明提供的电网的干扰源类型辨识方法,包括如下步骤:获取电网的历史监测数据中的异常片段;将异常片段中多次同时出现的若干个特征作为一个特征组,并将若干个特征组的集合作为第一特征集;获取预设时间内样本特征集中各特征的数据,形成样本数据集;样本特征集为第一特征集;根据样本数据集构建随机森林;使用随机森林对电网的待识别监测数据集进行干扰源类型识别;待识别监测数据集为一个待识别周期内样本特征集中各特征对应的数据组成的数据集。通过对出现异常的电网检测数据进行频繁项挖掘,将相同时间上频繁出现的指标组视为某一干扰源造成电能质量扰动的特征指标,从而得到包含电网中多种干扰源的特征的样本特征集,然后再采集预设时间内样本特征集中各特征的数据形成样本数据集,并根据该样本数据集构建随机森林,而随机森林作为利用多棵树对样本进行训练并预测的一种分类器,在使用样本数据集训练后能够对电网的待识别监测数据集进行多干扰源类型的分类识别,并且随机森林的构建运算量小,构建速度快,能够解决现有技术中的电网干扰源的识别方法的运算量较大的问题。
2、本发明提供的电网的干扰源类型辨识方法,还包括如下步骤:对电网的各类干扰源进行机理分析,得到由各类干扰源的特征组成的第二特征集;样本特征集为第一特征集和第二特征集的并集。通过对电网中的各类干扰源进行机理分析,得到由各类干扰源的特征组成的第二特征集,并将第一特征集和第二特征集的并集作为样本特征集,能够减小仅使用第一特征集或者第二特征集作为样本特征集时,特征遗漏的问题出现的可能性,提高样本特征集中的特征的全面性,从而能够提高基于样本特征集中各特征的数据构建的随机森林对干扰源类型进行识别的准确性。
3、本发明提供的电网的干扰源类型辨识方法,根据样本数据集构建随机森林,包括如下步骤:根据样本数据集构建若干个原始随机森林;各个原始随机森林的参数不同;计算各个原始随机森林的袋外数据误分率,并将袋外数据误分率最低的原始随机森林作为随机森林。通过构建若干个参数不同的原始随机森林,并将其中最优的原始随机森林(袋外数据误分率最低的原始随机森林)作为随机森林,对待识别监测数据集进行干扰源类型识别,能够进一步提高随机森林对干扰源类型进行识别的准确性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为实施例1提供的一种电网的干扰源类型辨识方法的方法流程图;
图2为步骤S200中异常片段中的特征组选取的示意图;
图3为图1中步骤S300的具体步骤流程图;
图4为图1中步骤S400的具体步骤流程图;
图5为实施例2提供的一种电网的干扰源类型辨识装置的结构示意图;
图6为实施例3提供的一种辨识设备的硬件结构示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
实施例1
本实施例提供了一种电网的干扰源类型辨识方法,如图1所示。需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。该流程包括如下步骤:
步骤S100,获取电网的历史监测数据中的异常片段。在本实施例中,首先抽取一段时间内电网的监测数据,再通过国标越限对该历史检测数据进行异常判断,并提取异常片段,完成电网的历史监测数据中的异常片段的获取。在具体实施例中,电网的监测数据的抽取时间可以为一个月、两个月或者三个月等,此外,抽取时间的长度还可以根据电网的具体情况进行选择,例如可以将关注的所有干扰源都至少出现过一次的时间作为抽取时间,当然,也可以将所有干扰源都至少出现过两次、三次或者四次等的时间作为抽取时间。需要说明的是,上述具体数据均是为了方便本领域技术人员对本实施例的技术方案的理解而举的具体示例,不应当被理解为本实施例的技术方案构成的限制。
步骤S200,将异常片段中多次同时出现的若干个特征作为一个特征组,并将若干个特征组的集合作为第一特征集。在本实施例中,首先比对所有异常片段的时间轴,将在相同时间上同时频繁出现的特征作为一个特征组,则该特征组为一种干扰源的特征指标,如图2所示,高水平的3次、5次谐波电流值在t2、t3、t4、t5时刻均共同出现,则将电能质量指标3次、5次谐波电流作为一个特征组,即作为一组反应干扰源类型的特征指标。
步骤S300,获取预设时间内样本特征集中各特征的数据,形成样本数据集。在本实施例中,样本特征集为第一特征集。在本实施例中,由于由于随机森林训练集的特征向量中每个特征仅对应一个值,因此,获取的预设时间内样本特征集中各特征的数据均为一个值,因而,样本数据集中的数据为预设时间内获取的各特征原始的数据集进行聚合后的数据,即将样本特征集中各特征在预设时间内的时间序列数据求均值,从而得到样本数据集中的数据。在具体实施例中,预设周期可以为1天或者2天等时间段,具体地,预设时间的长短可以根据具体应用场景的需要进行设置,在此不做任何限制。
步骤S400,根据样本数据集构建随机森林。在本实施例中,随机森林的构建过程为:首先,设置随机森林的参数,其中,设置的参数包括:决策树颗数k,随机选取的特征数量F以及决策树节点分裂标准;然后,设置i=1,开始构造第一颗决策树的训练集Di,其中,Di的具体构造过程如下:从样本数据集T中随机选取F个特征,采用有放回随机抽样方式从T中选取F个特征的数据集构造数据子集Di,同时记录样本数据集T中未被抽到的袋外数据Oi;然后,基于数据子集Di,使用设定的节点分裂准则生成决策树Treei;通过i是否大于k来判断是否生成足够数量的决策树,如果不足够,则设置i取值加1并构造下一棵树,如果足够,则一个随机森林构建完成。在具体实施例中,决策树颗数k可以取100,200或者500等值,随机选取的特征数量F可以取1,2,3或者log2N(N为样本特征集T中的特征数量)等值,决策树节点分裂标准可以为CART算法、C5.0算法或者C4.5算法等。
在本实施例中,还需要计算构建的随机森林的袋外数据(Out of bag,OOB)误分率的值,用以作为评价指标对随机森林的分类准确性进行评价,具体地,使用Oi估算OOB误分率的值,即使用生成的Treei对相对应的袋外数据集Oi进行干扰源类型识别,并计算其误分率,然后取所有树的袋外数据误分率的平均值作为随机森林的OOB误分率的估计值。
步骤S500,使用随机森林对电网的待识别监测数据集进行干扰源类型识别。在本实施例中,待识别监测数据集为一个待识别周期内样本特征集中各特征对应的数据组成的数据集。在本实施例中,待识别监测数据集也为待识别周期内获取的样本特征集中各特征原始的数据集进行聚合后的数据,例如,为样本特征集中各特征某一日数据的日平均值。
本实施例提供的电网的干扰源类型辨识方法,通过对出现异常的电网检测数据进行频繁项挖掘,将相同时间上频繁出现的指标组视为某一干扰源造成电能质量扰动的特征指标,从而得到包含电网中多种干扰源的特征的样本特征集,然后再采集预设时间内样本特征集中各特征的数据形成样本数据集,并根据该样本数据集构建随机森林,而随机森林作为利用多棵树对样本进行训练并预测的一种分类器,在使用样本数据集训练后能够对电网的待识别监测数据集进行多干扰源类型的分类识别,并且随机森林的构建运算量小,构建速度快,能够解决现有技术中的电网干扰源的识别方法的运算量较大的问题。
在可选的实施例中,如图1所示,电网的干扰源类型辨识方法还包括如下步骤:
步骤S600,对电网的各类干扰源进行机理分析,得到由各类干扰源的特征组成的第二特征集。在本实施例中,样本特征集为第一特征集和第二特征集的并集。在具体实施例中,以关注的干扰源包括风电、光伏、换流站、高铁、普铁以及其他为例,通过对上述干扰源进行机理分析建立的干扰源与电能质量指标的关联表如表1所示:
根据表1可以得到,风电的特征包括2,3,5,7,11,13,17次谐波电流、闪变、功率电能质量指标,光伏的特征包括17,5,3,7,11,13次谐波电流、功率电能质量指标,其他个干扰源的特征也均可以从表1中得到,在此不一一陈述,合并所有干扰源的特征的合集即可得到第二特征集。
本实施例提供的电网的干扰源类型辨识方法,通过对电网中的各类干扰源进行机理分析,得到由各类干扰源的特征组成的第二特征集,并将第一特征集和第二特征集的并集作为样本特征集,能够减小仅使用第一特征集或者第二特征集作为样本特征集时,特征遗漏的问题出现的可能性,提高样本特征集中的特征的全面性,从而能够提高基于样本特征集中各特征的数据构建的随机森林对干扰源类型进行识别的准确性。
在可选的实施例中,如图3所示,步骤S300包括如下步骤:
步骤S301,获取预设时间内样本特征集中各特征的数据,形成原始数据集。在本实施例中,如在步骤S300中所述,原始数据集中的数据也应为预设时间内获取的各特征原始的数据集进行聚合后的数据,即将样本特征集中各特征在预设时间内的时间序列数据求均值,从而得到原始数据集中的数据。
步骤S302,使用特征转换算法对原始数据集进行降维处理,得到样本数据集。在本实施例中,特征转换算法可以为线性降维、主成因分析、relief算法、自动编码机、限制玻尔兹曼机、典型关联分析、线性判别分析、独立元分析或者流形学习算法等。在具体实施例中,以特征转换算法为主成分分析算法为例,首先通过对原始数据集进行标准化处理,得到协方差矩阵的特征向量ωi,并计算该特征向量对应的特征值λi,其中,λi从大到小排列,即λ1≥λ2≥…≥λi≥0。需要说明的是,使用主成分分析算法对数据进行降维处理过程中的对数据集进行标准化处理的具体过程以及特征值的具体计算过程均属于现有技术,在此不再赘述。
在本实施例中,如将原始n维数据降为k维,一般至少保留80%的信息量,此时ωi(i=1,2…k)组成的特征矩阵ω即为使用主成分分析算法构造的转换模型,即:
在本实施例中,将特征转换模型与原始数据集相乘,即可得到降维的样本数据集。在本实施例中,需要说明的是,降维后的样本数据集内的各特征并无具体物理含义,以原始数据集中有90个特征,降维保留80%信息量后,得到的样本数据集中的特征数量降为30个为例,此处样本数据集中的30特征并无具体物理含义,也不是原始数据集中的90个特征的子集。
在本实施例中,由于用以构建随机森林的样本数据集为使用特征转换算法降维后的数据集,因此,待识别监测数据集也应为使用特征转换算法降维后的数据集,在本实施例中,首先获取待识别周期内的样本特征集中各特征原始的数据集,并进行聚合得到原始的待识别监测数据集,然后,将上述特征转换模型与原始的待识别监测数据集相乘,得到待识别监测数据集。
在可选的实施例中,由于样本特征集中各特征在预设时间内的时间序列数据可能集体量不平衡,容易产生数据稀缺、极端值和噪声等问题,从而造成最终构建的随机森林的分类效果具有很大的偏向性,因此,在对样本特征集中各特征在预设时间内的时间序列数据求均值之前,可以使用SMOTE算法对样本特征集中各特征在预设时间内的时间序列数据进行数据不平衡处理。在本实施例中,由于当在多维空间中欧式距离较近的负类样本之间虚拟数据点时,可将虚拟的数据仍作为该负类的数据,因此,可以使用以下公式构造新样本:
NPi=xi+rand(0,1)×(yij-xi),
其中,xi为某种负类样本,yij为xi相邻的同类样本,NPi为新构造的同类样本,在本实施例中,xi是指样本特征中数据较少的一个特征的数据,yij为xi相邻的同类特征数据,NPi为新构造的特征数据。
在可选的实施例中,如图4所示,步骤S400包括如下步骤:
步骤S401,根据样本数据集构建若干个原始随机森林。在本实施例中,各个原始随机森林的参数不同。在本实施例中,首先构建随机森林各参数的取值集合,再采用枚举方式,按笛卡尔积顺序排列取值,得到一个随机森林的参数取值,具体地,如决策树颗数的取值集合为{100,500,1000,5000},随机选取特征数量F的取值集合为{1,log2N,N}(N为样本特征集中的特征数量),决策树节点分裂标准取值集合为{CART,C5.0}时,采用枚举方式按采用笛卡尔积顺序排列取值可得到表2所示的参数取值表:
在本实施例中,首先取参数取值表中的一组参数完成随机森林的构造,然后,判断参数取值表中的随机森林参数是否已全部取出试验,如果没有,则按参数表取下一组参数继续构造随机森林,直至参数取值表中的随机森林参数被全部取出试验。需要说明的是,上述各参数的取值集合以及参数取值表均是为了方便本领域技术人员对本实施例的技术方案的理解而举的具体示例,不应当被理解为本实施例的技术方案构成的限制。
步骤S402,计算各个原始随机森林的袋外数据误分率,并将袋外数据误分率最低的原始随机森林作为随机森林。
本实施例提供的电网的干扰源类型辨识方法,通过构建若干个参数不同的原始随机森林,并将其中最优的原始随机森林(袋外数据误分率最低的原始随机森林)作为随机森林,对待识别监测数据集进行干扰源类型识别,能够进一步提高随机森林对干扰源类型进行识别的准确性。
实施例2
在本实施例中提供了一种电网的干扰源类型辨识装置,该装置用于实现上述实施例1及其优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种动态验证码生成装置,如图5所示,包括:数据获取模块100,第一特征集形成模块200,样本数据集形成模块300,随机森立构建模块400和干扰源辨识模块500。
其中,数据获取模块100用于获取电网的历史监测数据中的异常片段;第一特征集形成模块200用于将异常片段中多次同时出现的若干个特征作为一个特征组,并将若干个特征组的集合作为第一特征集;样本数据集形成模块300用于获取预设时间内样本特征集中各特征的数据,形成样本数据集;样本特征集为第一特征集;随机森立构建模块400用于根据样本数据集构建随机森林;干扰源辨识模块500用于使用随机森林对电网的待识别监测数据集进行干扰源类型识别;待识别监测数据集为一个待识别周期内样本特征集中各特征的数据组成的数据集。
在可选的实施例中,电网的干扰源类型辨识装置还包括:第二特征集形成模块,用于对电网的各类干扰源进行机理分析,得到由各类干扰源的特征组成的第二特征集。在本实施例中,样本特征集为第一特征集和第二特征集的并集。
在可选的实施例中,样本数据集形成模块300包括:原始数据集形成单元和样本数据集形成单元。
其中,原始数据集形成单元用于获取预设时间内样本特征集中各特征的数据,形成原始数据集;样本数据集形成单元用于使用特征转换算法对原始数据集进行降维处理,得到样本数据集。在本实施例中,待识别监测数据集为使用特征转换算法降维后的数据集。
在可选的实施例中,随机森立构建模块400包括:原始随机森林构建单元和随机森林选取单元。
其中,原始随机森林构建单元用于根据样本数据集构建若干个原始随机森林;各个原始随机森林的参数不同;随机森林选取单元用于计算各个原始随机森林的袋外数据误分率,并将袋外数据误分率最低的原始随机森林作为随机森林。
实施例3
本发明实施例提供了一种辨识设备,如图6所示,该辨识设备可以包括:至少一个处理器601,例如CPU(Central Processing Unit,中央处理器),至少一个通信接口603,存储器604,至少一个通信总线602。其中,通信总线602用于实现这些组件之间的连接通信。其中,通信接口603可以包括显示屏(Display)、键盘(Keyboard),可选通信接口603还可以包括标准的有线接口、无线接口。存储器604可以是高速RAM存储器(Random Access Memory,易挥发性随机存取存储器),也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器604可选的还可以是至少一个位于远离前述处理器601的存储装置。其中存储器604中存储应用程序,且处理器601调用存储器604中存储的程序代码,以用于执行实施例1中的任一方法步骤,即用于执行以下操作:
获取电网的历史监测数据中的异常片段;将异常片段中多次同时出现的若干个特征作为一个特征组,并将若干个特征组的集合作为第一特征集;获取预设时间内样本特征集中各特征的数据,形成样本数据集;样本特征集为第一特征集;根据样本数据集构建随机森林;使用随机森林对电网的待识别监测数据集进行干扰源类型识别;待识别监测数据集为一个待识别周期内样本特征集中各特征对应的数据组成的数据集。
本发明实施例中,处理器601调用存储器604中的程序代码,还用于执行以下操作:对电网的各类干扰源进行机理分析,得到由各类干扰源的特征组成的第二特征集;样本特征集为第一特征集和第二特征集的并集。
本发明实施例中,处理器601调用存储器604中的程序代码,还用于执行以下操作:获取预设时间内样本特征集中各特征的数据,形成原始数据集;使用特征转换算法对原始数据集进行降维处理,得到样本数据集;待识别监测数据集为使用特征转换算法降维后的数据集。
本发明实施例中,处理器601调用存储器604中的程序代码,还用于执行以下操作:特征转换算法为主成分分析算法。
本发明实施例中,处理器601调用存储器604中的程序代码,还用于执行以下操作:根据样本数据集构建若干个原始随机森林;各个原始随机森林的参数不同;计算各个原始随机森林的袋外数据误分率,并将袋外数据误分率最低的原始随机森林作为随机森林。
其中,通信总线602可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。通信总线602可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条线表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器604可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写:HDD)或固态硬盘(英文:solid-state drive,缩写:SSD);存储器604还可以包括上述种类的存储器的组合。
其中,处理器601可以是中央处理器(英文:central processing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
其中,处理器601还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:ASIC),可编程逻辑器件(英文:programmable logic device,缩写:PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:FPGA),通用阵列逻辑(英文:generic arraylogic,缩写:GAL)或其任意组合。
实施例4
本发明实施例还提供了一种非暂态计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行实施例1的任一方法步骤。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccess Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (10)
1.一种电网的干扰源类型辨识方法,其特征在于,包括如下步骤:
获取所述电网的历史监测数据中的异常片段;
将所述异常片段中多次同时出现的若干个特征作为一个特征组,并将若干个所述特征组的集合作为第一特征集;
获取预设时间内样本特征集中各特征的数据,形成样本数据集;所述样本特征集为所述第一特征集;
根据所述样本数据集构建随机森林;
使用所述随机森林对所述电网的待识别监测数据集进行干扰源类型识别;所述待识别监测数据集为一个待识别周期内所述样本特征集中各特征对应的数据组成的数据集。
2.根据权利要求1所述的电网的干扰源类型辨识方法,其特征在于,还包括如下步骤:
对所述电网的各类干扰源进行机理分析,得到由所述各类干扰源的特征组成的第二特征集;
所述样本特征集为所述第一特征集和所述第二特征集的并集。
3.根据权利要求1或2所述的电网的干扰源类型辨识方法,其特征在于,获取预设时间内所述样本特征集中各特征的数据,形成样本数据集,包括如下步骤:
获取预设时间内所述样本特征集中各特征的数据,形成原始数据集;
使用特征转换算法对所述原始数据集进行降维处理,得到所述样本数据集;
所述待识别监测数据集为使用所述特征转换算法降维后的数据集。
4.根据权利要求3所述的电网的干扰源类型辨识方法,其特征在于,所述特征转换算法为主成分分析算法。
5.根据权利要求1-4任一项所述的电网的干扰源类型辨识方法,其特征在于,根据所述样本数据集构建随机森林,包括如下步骤:
根据所述样本数据集构建若干个原始随机森林;各个所述原始随机森林的参数不同;
计算各个所述原始随机森林的袋外数据误分率,并将所述袋外数据误分率最低的原始随机森林作为所述随机森林。
6.根据权利要求5所述的电网的干扰源类型辨识方法,其特征在于,所述原始随机森林的参数包括所述原始随机森林中的决策树的数量、所述决策树的节点分裂标准和生成一颗所述决策树的数据对应的特征数量。
7.一种电网的干扰源类型辨识装置,其特征在于,包括:
数据获取模块,用于获取所述电网的历史监测数据中的异常片段;
第一特征集形成模块,用于将所述异常片段中多次同时出现的若干个特征作为一个特征组,并将若干个所述特征组的集合作为第一特征集;
样本数据集形成模块,用于获取预设时间内样本特征集中各特征的数据,形成样本数据集;所述样本特征集为所述第一特征集;
随机森立构建模块,用于根据所述样本数据集构建随机森林;
干扰源辨识模块,用于使用所述随机森林对所述电网的待识别监测数据集进行干扰源类型识别;所述待识别监测数据集为一个待识别周期内所述样本特征集中各特征的数据组成的数据集。
8.根据权利要求7所述的电网的干扰源类型辨识装置,其特征在于,还包括:
第二特征集形成模块,用于对所述电网的各类干扰源进行机理分析,得到由所述各类干扰源的特征组成的第二特征集;所述样本特征集为所述第一特征集和所述第二特征集的并集。
9.一种辨识设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述权利要求1-6中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现上述权利要求1-6中任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811333872.4A CN109670526A (zh) | 2018-11-09 | 2018-11-09 | 一种电网的干扰源类型辨识方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811333872.4A CN109670526A (zh) | 2018-11-09 | 2018-11-09 | 一种电网的干扰源类型辨识方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109670526A true CN109670526A (zh) | 2019-04-23 |
Family
ID=66142075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811333872.4A Pending CN109670526A (zh) | 2018-11-09 | 2018-11-09 | 一种电网的干扰源类型辨识方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109670526A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348683A (zh) * | 2019-06-06 | 2019-10-18 | 全球能源互联网研究院有限公司 | 电能质量扰动事件主成因分析方法、装置设备及存储介质 |
CN113159129A (zh) * | 2021-03-24 | 2021-07-23 | 国网上海市电力公司 | 一种电力用户的分类方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2844131A1 (en) * | 2012-05-03 | 2015-03-11 | Medial Research Ltd. | Methods and systems of evaluating a risk of a gastrointestinal cancer |
CN107478926A (zh) * | 2017-07-14 | 2017-12-15 | 宁波三星医疗电气股份有限公司 | 一种用电监视装置及方法 |
-
2018
- 2018-11-09 CN CN201811333872.4A patent/CN109670526A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2844131A1 (en) * | 2012-05-03 | 2015-03-11 | Medial Research Ltd. | Methods and systems of evaluating a risk of a gastrointestinal cancer |
CN107478926A (zh) * | 2017-07-14 | 2017-12-15 | 宁波三星医疗电气股份有限公司 | 一种用电监视装置及方法 |
Non-Patent Citations (2)
Title |
---|
石文江等: "铁磁谐振在调度端的典型特征", 《电力系统自动化》 * |
罗娜等: "衡水冀16井水位异常变化调查与分析", 《防灾减灾学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348683A (zh) * | 2019-06-06 | 2019-10-18 | 全球能源互联网研究院有限公司 | 电能质量扰动事件主成因分析方法、装置设备及存储介质 |
CN113159129A (zh) * | 2021-03-24 | 2021-07-23 | 国网上海市电力公司 | 一种电力用户的分类方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106443244B (zh) | 用电设备类型辨识方法和系统 | |
CN106909933A (zh) | 一种三阶段多视角特征融合的窃电分类预测方法 | |
CN111368904B (zh) | 一种基于电力指纹的电器设备识别方法 | |
CN106228398A (zh) | 基于c4.5决策树算法的特定用户挖掘系统及其方法 | |
CN109784388A (zh) | 窃电用户识别方法和装置 | |
CN109190672A (zh) | 电力系统运行工况无监督聚类方法及装置 | |
Guo et al. | Improved adversarial learning for fault feature generation of wind turbine gearbox | |
CN109409444B (zh) | 一种基于先验概率的多元电网故障类型的判别方法 | |
CN110445939B (zh) | 容量资源的预测方法及装置 | |
CN113987190B (zh) | 一种数据质量校验规则提取方法及系统 | |
CN114386537A (zh) | 基于CatBoost的锂电池故障诊断方法、装置及电子设备 | |
CN109670526A (zh) | 一种电网的干扰源类型辨识方法、装置、设备及存储介质 | |
CN112367273A (zh) | 基于知识蒸馏的深度神经网络模型的流量分类方法及装置 | |
CN108647729A (zh) | 一种用户画像获取方法 | |
CN106845990A (zh) | 一种规则处理方法和设备 | |
CN110348683A (zh) | 电能质量扰动事件主成因分析方法、装置设备及存储介质 | |
CN113887912A (zh) | 一种深度学习下面向嵌入式设备的非侵入式负荷识别方法 | |
CN116362785A (zh) | 大数据环境下的电力用户用电异常诊断方法及装置 | |
CN106354803A (zh) | 基于特性指标的电力输变电设备负荷坏数据检测算法 | |
CN110348540A (zh) | 基于聚类的电力系统暂态功角稳定故障筛选方法及装置 | |
CN112287674B (zh) | 企业间同名大节点识别方法、系统、电子设备及存储介质 | |
CN114021425A (zh) | 电力系统运行数据建模与特征选择方法、装置、电子设备和存储介质 | |
CN113627289A (zh) | 一种基于深度学习的电力设备识别方法及其装置 | |
CN104077524A (zh) | 用于病毒鉴定的训练方法和病毒鉴定方法及装置 | |
CN106897328A (zh) | 一种图像检索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190423 |
|
RJ01 | Rejection of invention patent application after publication |