一种配电网二次设备类型识别方法及系统
技术领域
本发明涉及电力系统自动化分析技术领域,具体涉及一种配电网二次设备类型识别方法及系统。
背景技术
电网规模不断扩大,各配电网采用不同厂家、不同类型的电气二次设备,使配电网中二次设备种类繁多且数量巨大,在实际应用中,二次设备类型信息往往缺失,使二次设备类别区分不明确。这使得目前电网信息化以及能源互联网构建过程中所要求的电网设备运行状态监视评估遇到很大困难,包括设备的分类统计、设备仿真等实际需求。经调研,目前还未存在一种基于实际运行监控数据的专门针对配电网二次设备类型的智能识别方法。
频繁模式挖掘是数据挖掘领域的一种典型的关联规则产生方法,将大量数据作为候选项集,通过特定的自学习算法发现频繁项集并产生关联规则。针对配电网二次设备识别与分类工作,通过对运行监控数据进行频繁模式挖掘,产生设备与其类型的关联规则,从而利用此规则进行设备智能识别与分类。采用此种自学习的方式进行配电网设备识别,可以依据不同地区的运行监控数据集产生具有该地区特色的设备类型关联规则,从而实现地区个性化设备智能识别分类。
发明内容
本发明提供一种配电网二次设备类型识别方法及系统,其目的是应用频繁模式挖掘方法对大规模指定范围的配电网运行监控数据进行关联规则挖掘,产生二次设备分类规则,利用此规则对设备进行明确归类,实现海量种类繁多的配电网二次设备的归类统计,为配电网设备运行状态监视评估奠定基础。
本发明的目的是采用下述技术方案实现的:
一种配电网二次设备类型识别方法,其改进之处在于,包括:
对运行监控数据进行预处理;
对预处理后的运行监控数据进行分词和词频统计,获取候选1-项集;
用Apriori算法处理所述候选1-项集,获取强关联规则;
根据所述强关联规则识别配电网二次设备的类型。
优选的,所述对运行监控数据进行预处理包括:
应用CEP引擎,对所述运行监控数据的名称和格式进行关键词提取和与所述运行监控数据无关信息的剔除;
应用CEP引擎,对所述运行监控数据的各信号进行信号内关键词剔除、信号内含有的装置名称剔除、信号内关键词的替换和关键词组的模糊匹配。
优选的,所述对处理后运行监控数据进行分词和词频统计包括:
配置ElasticSearch,将预处理后的运行监控数据加载入ElasticSearch,获取运行监控信号的分词集合和词频统计数,并将所述分词集合作为候选1-项集。
优选的,所述用Apriori算法处理所述候选1-项集,获取强关联规则包括步骤:
a.根据最小支持度对当前候选i-项集进行剪枝,剪掉小于所述最小支持度的项集,获取频繁i-项集,并判断所述频繁i-项集是否为空集,若是,则执行步骤c,若否,则执行步骤b;
b.将所述频繁i-项集进行自然连接,获取候选(i+1)-项集,扫描信号分词集合,统计所述候选(i+1)-项集的词频统计数,并返回步骤a,其中,所述自然连接为任意两项进行组合;
c.设置最小置信度阈值,将上述步骤生成的全部频繁项集进行置信度验证,获取强关联规则。
优选的,所述根据所述强关联规则识别配电网二次设备的类型包括:遍历所述配电网二次设备的运行监控数据,将所述配电网二次设备的运行监控数据与所述强关联规则进行匹配,获取所述配电网二次设备的类型。
一种配电网二次设备类型识别系统,其改进之处在于,所述系统包括:
预处理模块,用于对运行监控数据进行预处理;
分词模块,用于对预处理后的运行监控数据进行分词和词频统计,获取候选1-项集;
Apriori算法处理模块,用于用Apriori算法处理所述候选1-项集,获取强关联规则;
识别模块,用于根据所述强关联规则识别配电网二次设备的类型。
优选的,所述预处理模块包括:
第一预处理单元,用于应用CEP引擎,对所述运行监控数据的名称和格式进行关键词提取和与所述运行监控数据无关信息的剔除;
第二预处理单元,用于应用CEP引擎,对所述运行监控数据的各信号进行信号内关键词剔除、信号内含有的装置名称剔除、信号内关键词的替换和关键词组的模糊匹配。
优选的,所述分词模块包括:
分词单元,用于配置ElasticSearch,将预处理后的运行监控数据加载入ElasticSearch,获取运行监控信号的分词集合和词频统计数,并将所述分词集合作为候选1-项集。
优选的,所述Apriori算法处理模块包括:
第一处理单元,用于根据最小支持度对当前候选i-项集进行剪枝,剪掉小于所述最小支持度的项集,获取频繁i-项集,并判断所述频繁i-项集是否为空集,若是,则执行第三处理单元,若否,则执行第二处理单元;
第二处理单元,用于将所述频繁i-项集进行自然连接,获取候选(i+1)-项集,扫描信号分词集合,统计所述候选(i+1)-项集的词频统计数,并返回步骤a,其中,所述自然连接为任意两项进行组合;
第三处理单元,用于设置最小置信度阈值,将上述步骤生成的全部频繁项集进行置信度验证,获取强关联规则。
优选的,所述识别模块包括:识别单元,用于遍历所述配电网二次设备的运行监控数据,将所述配电网二次设备的运行监控数据与所述强关联规则进行匹配,获取所述配电网二次设备的类型。
本发明的有益效果:
本发明提供的一种配电网二次设备类型识别方法及系统,提出了一种针对不同地区的大规模配电网运行监控数据频繁模式挖掘的电网设备智能识别方法,利用CEP数据预处理技术、ElasticSearch分词技术和Apriori频繁项集挖掘技术进行数据处理及规则自学习,从而利用关联规则进行设备识别和类型匹配。可以自动将指定范围的海量杂乱的配电网设备及运行监控信号进行有效的归类处理,是配电网设备运行状态监视评估必要的数据准备,为配电网二次设备运行状态监视系统及其他基于设备分析的应用系统奠定了数据基础。
附图说明
图1是本发明一种配电网二次设备类型识别方法的流程图;
图2是本发明实施例中Apriori算法的实现过程流程图;
图3是本发明一种配电网二次设备类型识别系统的结构示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作详细说明。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明提供的一种配电网二次设备类型识别方法,如图1所示,包括:
101.对运行监控数据进行预处理;
102.对预处理后的运行监控数据进行分词和词频统计,获取候选1-项集;
103.用Apriori算法处理所述候选1-项集,获取强关联规则;
104.根据所述强关联规则识别配电网二次设备的类型。
具体的,配电网运行监控数据的预处理方法。采用复杂事件处理引擎,将输入的原始数据通过既定的规则库(包括切分、提取、替换、匹配等)进行预处理,产生所需格式的熟数据,所述步骤101包括:
应用CEP引擎,对所述运行监控数据的名称和格式进行关键词提取和与所述运行监控数据无关信息的剔除;
应用CEP引擎,对所述运行监控数据的各信号进行信号内关键词剔除、信号内含有的装置名称剔除、信号内关键词的替换和关键词组的模糊匹配。
例如,取清洗后的运行监控信号样本为:
{直流电源空开投非电量投非全相投检修态重瓦斯有载瓦斯油温1油温2绕组温高压力释放压力突变冷却故障跳主变高压侧开关二A相1跳主变高压侧开关二B相1跳主变高压侧开关二C相1闭锁重合投高压侧强切1母投高压侧强切2母};
{投直流电源空开投交流电压空开投充电保护压板投过流压板跳闸出口1A跳闸出口1B跳闸出口1C失灵跳相邻开关I失灵跳相邻开关Ⅱ失灵启动1母差1失灵启动1母差2失灵启动远传1失灵启动远传2失灵联跳主变A相跟跳动作B相跟跳动作C相跟跳动作A相跳闸B相跳闸}{投直流电源空开投交流电压空开投重合闸压板投过流投检修过流保护动作过流Ⅰ段动作过流Ⅱ段动作过流Ⅲ段动作低压减载动作低周减载动作重合闸动作后加速动作TA断线TV断线装置异常直流电源消失装置闭锁A网通信中断B网通信中断};
进一步的,利用ElasticSearch对海量运行监控数据进行文本划分和词频统计,生成原始项集,所述步骤102包括:
配置ElasticSearch,将预处理后的运行监控数据加载入ElasticSearch,获取运行监控信号的分词集合和词频统计数,并将所述分词集合作为候选1-项集。
例如:对其进行分词操作,得到部分结果如下,作为初始事务数据库:
{直流,电源,空开,投,电量,全相,检修,瓦斯,油温,绕组,压力,释放,突变,冷却,故障,主变,高压侧,开关,相,闭锁,重合,强切};
{直流,电源,空开,投,开关,相,交流,充电,保护,压板,过流,跳闸,出口,失灵,相邻,启动,母差,远传,联跳,跟跳,动作};
{直流,电源,空开,投,交流,重合闸,压板,过流,检修,保护,动作,Ⅰ段,Ⅱ段,Ⅲ段,低压,减载,低周,后加速,TA,TV,断线,装置,异常,消失,闭锁,A网,B网,通信,中断};
扫描初始事务数据库,对所有项进行支持度计数统计,生成候选项集:
{跳闸,1}{后加速,1}{断线,1}{异常,1}{消失,1}{远传,1}{出口,1}{故障,1}{重合,1}{过流,2}{Ⅰ段,1}{装置,1}{动作,2}{压板,2}{重合闸,1}{瓦斯,1}{强切,1}{全相,1}{跟跳,1}{减载,1}{保护,2}{启动,1}{压力,1}{闭锁,2}{联跳,1}{Ⅱ段,1}{B网,1}{通信,1}{主变,1}{TV,1}{A网,1}{开关,2}{直流,3}{冷却,1}{高压侧,1}{突变,1}{Ⅲ段,1}{释放,1}{中断,1}{交流,2}{电源,3}{相邻,1}{TA,1}{空开,3}{检修,2}{绕组,1}{电量,1}{充电,1}{低压,1}{母差,1}{失灵,1}{低周,1}{相,2}{油温,1}{投,3};
如图2所示,在原始项集的基础上,利用Apriori方法发现所有设备频繁项集,从而产生设备与类型关联规则,进一步的,所述步骤103,包括步骤:
a.根据最小支持度对当前候选i-项集进行剪枝,剪掉小于所述最小支持度的项集,获取频繁i-项集,并判断所述频繁i-项集是否为空集,若是,则执行步骤c,若否,则执行步骤b;
b.将所述频繁i-项集进行自然连接,获取候选(i+1)-项集,扫描信号分词集合,统计所述候选(i+1)-项集的词频统计数,并返回步骤a,其中,所述自然连接为任意两项进行组合;
c.设置最小置信度阈值,将上述步骤生成的全部频繁项集进行置信度验证,获取强关联规则。
例如:设最小支持度计数为1,筛选候选项集,得到出现次数大于等于1的项集,即频繁1-项集,并对频繁项集中所有项进行自然连接组合,形成候选2-项集;
扫描初始事务数据库,对候选2-项集中所有项进行支持度计数,筛选出支持度计数大于等于1的所有项,形成频繁2-项集,对频繁2-项集中所有项进行组合,形成候选3项集,再通过扫描初始事务数据库进行筛选,依次类推,直至形成的频繁k-项集为空集。
通过产生的关联规则对配电网设备进行类型识别,输出分类处理后的设备数据,所述步骤104包括:遍历所述配电网二次设备的运行监控数据,将所述配电网二次设备的运行监控数据与所述强关联规则进行匹配,获取所述配电网二次设备的类型。
一种配电网二次设备类型识别系统,如图3所示,所述系统包括:
预处理模块,用于对运行监控数据进行预处理;
分词模块,用于对预处理后的运行监控数据进行分词和词频统计,获取候选1-项集;
Apriori算法处理模块,用于用Apriori算法处理所述候选1-项集,获取强关联规则;
识别模块,用于根据所述强关联规则识别配电网二次设备的类型。
具体的,所述预处理模块包括:
第一预处理单元,用于应用CEP引擎,对所述运行监控数据的名称和格式进行关键词提取和与所述运行监控数据无关信息的剔除;
第二预处理单元,用于应用CEP引擎,对所述运行监控数据的各信号进行信号内关键词剔除、信号内含有的装置名称剔除、信号内关键词的替换和关键词组的模糊匹配。
所述分词模块包括:
分词单元,用于配置ElasticSearch,将预处理后的运行监控数据加载入ElasticSearch,获取运行监控信号的分词集合和词频统计数,并将所述分词集合作为候选1-项集。
所述Apriori算法处理模块包括:
第一处理单元,用于根据最小支持度对当前候选i-项集进行剪枝,剪掉小于所述最小支持度的项集,获取频繁i-项集,并判断所述频繁i-项集是否为空集,若是,则执行第三处理单元,若否,则执行第二处理单元;
第二处理单元,用于将所述频繁i-项集进行自然连接,获取候选(i+1)-项集,扫描信号分词集合,统计所述候选(i+1)-项集的词频统计数,并返回步骤a,其中,所述自然连接为任意两项进行组合;
第三处理单元,用于设置最小置信度阈值,将上述步骤生成的全部频繁项集进行置信度验证,获取强关联规则。
所述识别模块包括:识别单元,用于遍历所述配电网二次设备的运行监控数据,将所述配电网二次设备的运行监控数据与所述强关联规则进行匹配,获取所述配电网二次设备的类型。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。