CN115564071A - 一种电力物联网设备数据标签生成方法及系统 - Google Patents
一种电力物联网设备数据标签生成方法及系统 Download PDFInfo
- Publication number
- CN115564071A CN115564071A CN202211282369.7A CN202211282369A CN115564071A CN 115564071 A CN115564071 A CN 115564071A CN 202211282369 A CN202211282369 A CN 202211282369A CN 115564071 A CN115564071 A CN 115564071A
- Authority
- CN
- China
- Prior art keywords
- label
- data
- rule
- tag
- equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 92
- 238000004458 analytical method Methods 0.000 claims abstract description 91
- 238000006243 chemical reaction Methods 0.000 claims abstract description 88
- 238000012545 processing Methods 0.000 claims abstract description 66
- 238000010801 machine learning Methods 0.000 claims abstract description 27
- 238000012423 maintenance Methods 0.000 claims abstract description 13
- 238000013499 data model Methods 0.000 claims abstract description 12
- 230000008569 process Effects 0.000 claims description 53
- 238000004422 calculation algorithm Methods 0.000 claims description 32
- 230000008859 change Effects 0.000 claims description 28
- 238000010276 construction Methods 0.000 claims description 23
- 230000006399 behavior Effects 0.000 claims description 16
- 230000001186 cumulative effect Effects 0.000 claims description 15
- 230000006698 induction Effects 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000007547 defect Effects 0.000 claims description 14
- 230000000694 effects Effects 0.000 claims description 14
- 238000011068 loading method Methods 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 11
- 230000001939 inductive effect Effects 0.000 claims description 9
- 230000006872 improvement Effects 0.000 claims description 7
- 230000009191 jumping Effects 0.000 claims description 6
- 238000007476 Maximum Likelihood Methods 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 239000010453 quartz Substances 0.000 claims description 5
- VYPSYNLAJGMNEJ-UHFFFAOYSA-N silicon dioxide Inorganic materials O=[Si]=O VYPSYNLAJGMNEJ-UHFFFAOYSA-N 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 230000007717 exclusion Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 2
- 238000011049 filling Methods 0.000 claims description 2
- 230000006855 networking Effects 0.000 claims 1
- 238000012544 monitoring process Methods 0.000 abstract description 10
- 238000003745 diagnosis Methods 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 description 13
- 238000009826 distribution Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000003860 storage Methods 0.000 description 7
- 238000011161 development Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000005065 mining Methods 0.000 description 5
- 230000004927 fusion Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000008713 feedback mechanism Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/20—Administration of product repair or maintenance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Public Health (AREA)
- Operations Research (AREA)
- Primary Health Care (AREA)
- Entrepreneurship & Innovation (AREA)
- General Health & Medical Sciences (AREA)
- Water Supply & Treatment (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种电力物联网设备数据标签生成方法及系统,所述方法包括以下步骤:获取选定类型电力设备的数据模型、数据表和文档类数据,构建设备统一ID并进行数据质量处理;按照数据内容增加数据类型字段,字段值包括属性数据、运行数据和状态数据,形成原始数据集;定义标签信息格式和类型,采用单句形式构建标签业务规则库和规则转换库,采用机器学习构建分析标签模型库;调用标签任务调度引擎,基于标签业务规则库和规则转换库处理原始数据集,生成基础标签;调用标签任务调度引擎和分析标签模型库,利用模型分析结果生成分析标签。本发明可解决电力物联网设备故障诊断的技术瓶颈,提升电网设备的监控运维智能化水平。
Description
技术领域
本发明属于电力数据智能处理技术领域,特别涉及一种电力物联网设备数据标签生成方法及系统。
背景技术
随着电力物联网规模的快速发展,各类智能设备的不断接入使得电网的结构日益复杂,设备数据量也随之急剧增长。当电网运行发生异常或故障时,海量的设备上报事件会大量涌入监控系统并随着时间快速变化,给设备运维人员准确定位故障原因和全面评估运行状态带来沉重的工作负担。另外,电力设备涉及到多个业务领域,包括调控云、PMS、OMS、保信子站、D5000、输变电在线监测等多个系统,不同系统采集设备数据的侧重点不尽相同;例如,调度领域重点采集设备运行状态数据,输变配电领域重点采集设备台账、量测和缺陷故障数据等,不同的设备数据在结构上差异很大。
近年来,电力企业围绕设备数据贯通、故障智能诊断构建了一系列应用、模型和方法,但随着电力设备智能监控需求日趋增强,仍面临着以下问题:
1)设备数据融合不彻底:电网各专业针对重点关注的设备数据,围绕自身业务开展设计了专用的数据模型;在跨专业的场景分析过程中,往往是针对特定范围内的数据构建专用的映射表来满足需求,缺乏全业务角度的融合数据结构和编码规范;
2)设备全面评估的准确性难以保证:由于电力设备状态参量众多,设备数据规模巨大,数据质量质量参差不齐,设备运维人员需要投入大量复杂的人工干预操作,极难确定能够有效反映设备状态的关键特征指标;
3)数据处理性能存在瓶颈:电网设备规模已经达到亿级,设备数据涉及PB级的文本、关系表、文档等多种格式,在故障全面诊断的数据处理过程中,需要进行大量的数据转换整合、复杂关联及算法调用,而当前基于大数据技术建立电力数据处理体系尚不足以完全满足上述需求,数据处理所需计算资源和时间成本极高。
综上所述,为了充分挖掘设备数据价值,提高电力物联网设备全生命周期状态监控能力,有必要提供一种电力物联网设备数据标签智能生成方法。
发明内容
本发明的目的在于提供一种电力物联网设备数据标签生成方法及系统,以解决上述存在的一个或多个技术问题。本发明提供的方法中,通过多源异构数据处理、标签生成规则构建、基础标签自动生成、分析标签自动生成过程,能够将海量、高维、离散的设备台账、量测、运行及告警等数据提炼成能够反映设备运行状态的有效信息,可解决电力物联网设备故障诊断的技术瓶颈,大幅提升电网设备的监控运维智能化水平。
为达到上述目的,本发明采用以下技术方案:
本发明提供的一种电力物联网设备数据标签生成方法,包括以下步骤:
获取选定类型电力设备的数据模型、数据表和文档类数据,构建设备统一ID并进行数据质量处理;按照数据内容增加数据类型字段,字段值包括属性数据、运行数据和状态数据,形成原始数据集;
定义标签信息格式和类型,采用单句形式构建标签业务规则库和规则转换库,采用机器学习构建分析标签模型库;
调用标签任务调度引擎,基于所述标签业务规则库和规则转换库处理原始数据集,生成基础标签;调用标签任务调度引擎和所述分析标签模型库,利用模型分析结果生成分析标签。
本发明的进一步改进在于,所述获取选定类型电力设备的数据模型、数据表和文档类数据,构建设备统一ID并进行数据质量处理的过程中,
数据表数据处理,包括:
(1)根据各系统已定义的数据模型,获取不同系统设备的数据表主键、外键以及关键属性信息;通过SQL进行主外键关联匹配,对于成功匹配的设备,将设备ID设置为生成该ID的源系统主键;对于未匹配的设备,采用层次聚类算法进行关键属性匹配,并结合主键出现的次数确定设备ID;最后,将具有相同ID的数据行进行去重合并;
(2)对于数据表中的数值类数据,采用孤立森林算法对异常值进行清洗,利用线性插值填补缺失值;
文档类数据处理,包括:
将具有结构的文档类数据转换成结构化数据,然后采用所述数据表数据处理中的步骤(1)进行操作;将不具备结构的文档类数据,统一按所属设备分别转换成仅包含文字、字母、标点符号的文本格式,在首行增加所属设备ID;
将文档转换后的结构化数据进行正则化过滤,然后获取数据表中标准的设备、异常和缺陷名称信息,基于名称的相似度进行分组,通过文本相似特征、基本特征和互斥特征共同进行相似度计算,将相似度计算结果符合要求的名称替换成数据表中对应的设备或缺陷名称。
本发明的进一步改进在于,所述定义标签信息格式和类型,采用单句形式构建标签业务规则库和规则转换库,采用机器学习构建分析标签模型库的步骤包括:
根据标签的加工程度,将设备标签分为基础标签和分析标签两类;其中,所述基础标签是在处理后的设备数据上,利用单句业务规则生成的标签;所述分析标签则是基于多个数据表或利用基础标签通过一系列单句业务规则或机器学习算法模型生成的包含隐藏价值的深度标签;
其中,针对基础标签任务,构建过程为:
根据设备分类从业务规则库中获取业务规则描述信息;其中,所述设备分类是指设备大类、设备专业和设备分类;
基于业务规则描述信息,判断业务规则是否满足要求;若满足,则设置为选定;若不满足,则新增业务规则并选定,然后将规则推送至规则转换库;其中,所述规则转换库用于将业务规则描述信息转换成计算机可执行的通用判定规则;若业务规则信息已存在,则通过规则信息编号获取转换规则,设置为待执行状态;若业务规则信息为新增,则解析转换;
其中,针对分析标签任务,构建过程为:
根据任务使用的数据源确定任务细类;其中,所述细类包括基于多数据表的复杂规则分析标签生成任务和基于基础标签的自动化机器学习标签生成任务;
针对复杂规则分析标签生成任务,由业务知识规则引擎分解成一系列单句业务规则,并从业务规则库里面获取对应转换规则;若业务规则不存在,则跳转执行规则新增;将所有转换规则加载到复杂规则文件,设置为待执行状态;
针对自动化机器学习标签生成任务,分为聚类标签、加权预测标签和模型标签;调用基于密度的聚类算法进行分组处理,获得聚类分组;对于聚类效果达到预设要求的聚类分组,归纳生成新标签;对于聚类效果未达到预设要求的聚类分组,标签种类及标签量较小时,则从设备寿命、异常、故障、检修周期方面分别获取基础标签里的特征参量并计算关联概率,对特征参量设置权重并通过特征参量归一化和加权求和得到预测概率值,归纳生成新标签;对于聚类效果未达到预设要求的聚类分组,标签种类及标签量较大时,将标签生成过程等价为有监督学习过程,对预设比例的基础标签进行标注,导入AutoML工具自动标注和选取最优分类器,进行模型训练与测试,将测试符合要求的模型设置为待执行状态;
采用QuartZ Cron表达式,设置标签生成任务执行周期。
本发明的进一步改进在于,所述设备标签T表示为T=<t,K,N,S,D,L>的六元组;
其中,t为标签生成时间;K为标签所属设备ID;N为标签名;S为标签变化趋势,取-1,0,1三个值,-1表示变差,0表示不变,1表示变好;D为标签出现累计数;L为行为状态,取-1,1两个值,-1表示不可用,1表示可用。
本发明的进一步改进在于,所述调用标签任务调度引擎,基于所述标签业务规则库和规则转换库处理原始数据集,生成基础标签的步骤包括:
根据业务转换规则获取原始数据,若为属性标签,则获取数据类型为属性数据的数据集;若为运行标签,则获取数据类型为属性数据和运行数据的数据集;若为状态标签,则获取数据类型为属性数据和状态数据的数据集;
标签任务调度引擎获取待执行转换规则和标签生成任务周期,封装成可执行程序处理数据集,生成新的标签名;
根据设备统一ID、标签主键获取已存最新标签信息,对比标签名变化,设置标签变化趋势值、标签累计数和行为状态,标签日期为当前时间,形成标签信息为<当前时间,设备统一ID,标签名,标签变化趋势值,标签累计数+1,行为状态>,写入标签库;若生成标签为新增标签,则标签信息设置<当前时间,设备统一ID,标签名,0,1,1>,写入标签库。
本发明的进一步改进在于,所述调用标签任务调度引擎和所述分析标签模型库,利用模型分析结果生成分析标签的步骤具体包括:
1)标签任务调度引擎获取基础标签集,标签生成任务类型和标签生成任务周期,编排聚类标签任务、加权预测标签和模型标签任务;若标签种类和数量符合聚类任务,则将基础标签集加载到基于密度的聚类算法模型处理,聚类结果如果大于标签种类的预设比例,则跳转执行步骤2);若标签种类和数量符合模型标签任务,则跳转执行步骤3);将聚类结果以文件形式存入标签库,经归纳建立新的标签信息,触发新标签生成任务,写入标签库,将生成规则写入规则转换库;
2)计算基础标签集所有标签的发生概率、关联概率,获取标签权重,则预期分析标签发生概率计算表达式为,
在Pl计算结束后,采用极大似然估计算法和朴素贝叶斯公式对各概率进行分组,将聚类结果以文件形式存入标签库,经归纳建立新的标签信息,触发新标签生成任务,写入标签库,将生成规则写入规则转换库;
3)将待处理基础标签随机分成多个子数据集,调用待执行的标签模型处理各子数据集,生成标签分组,对比各数据集运算结果;若生成分组数相同,且相同组内基础标签数量差不超过预设阈值比例,则调用标签模型处理原基础标签集,将子数据集和原基础标签集生成分组结果分别以文件形式存入标签库,经归纳建立新的标签信息,触发新标签生成任务,写入标签库,将生成规则写入规则转换库;若不相同,则执行步骤4);
4)将相似度最低的数据集加入模型训练集重新训练模型,然后跳转至步骤3)重新执行;若重复次数达到预设次数阈值仍不满足,则在原基础标签集上增加预设百分比的数据量,然后跳转至步骤3)重新执行,增加数据量的操作次数超过预设次数阈值仍不满足时,则仅调用标签模型处理原基础标签集,将生成分组结果以文件形式存入标签库。
本发明提供的一种电力物联网设备数据标签生成系统,包括:
原始数据集获取模块,用于获取选定类型电力设备的数据模型、数据表和文档类数据,构建设备统一ID并进行数据质量处理;按照数据内容增加数据类型字段,字段值包括属性数据、运行数据和状态数据,形成原始数据集;
数据库获取模块,用于定义标签信息格式和类型,采用单句形式构建标签业务规则库和规则转换库,采用机器学习构建分析标签模型库;
标签生成模块,用于调用标签任务调度引擎,基于所述标签业务规则库和规则转换库处理原始数据集,生成基础标签;调用标签任务调度引擎和所述分析标签模型库,利用模型分析结果生成分析标签。
本发明的进一步改进在于,所述定义标签信息格式和类型,采用单句形式构建标签业务规则库和规则转换库,采用机器学习构建分析标签模型库的步骤包括:
根据标签的加工程度,将设备标签分为基础标签和分析标签两类;其中,所述基础标签是在处理后的设备数据上,利用单句业务规则生成的标签;所述分析标签则是基于多个数据表或利用基础标签通过一系列单句业务规则或机器学习算法模型生成的包含隐藏价值的深度标签;
其中,针对基础标签任务,构建过程为:
根据设备分类从业务规则库中获取业务规则描述信息;其中,所述设备分类是指设备大类、设备专业和设备分类;
基于业务规则描述信息,判断业务规则是否满足要求;若满足,则设置为选定;若不满足,则新增业务规则并选定,然后将规则推送至规则转换库;其中,所述规则转换库用于将业务规则描述信息转换成计算机可执行的通用判定规则;若业务规则信息已存在,则通过规则信息编号获取转换规则,设置为待执行状态;若业务规则信息为新增,则解析转换;
其中,针对分析标签任务,构建过程为:
根据任务使用的数据源确定任务细类;其中,所述细类包括基于多数据表的复杂规则分析标签生成任务和基于基础标签的自动化机器学习标签生成任务;
针对复杂规则分析标签生成任务,由业务知识规则引擎分解成一系列单句业务规则,并从业务规则库里面获取对应转换规则;若业务规则不存在,则跳转执行规则新增;将所有转换规则加载到复杂规则文件,设置为待执行状态;
针对自动化机器学习标签生成任务,分为聚类标签、加权预测标签和模型标签;调用基于密度的聚类算法进行分组处理,获得聚类分组;对于聚类效果达到预设要求的聚类分组,归纳生成新标签;对于聚类效果未达到预设要求的聚类分组,标签种类及标签量较小时,则从设备寿命、异常、故障、检修周期方面分别获取基础标签里的特征参量并计算关联概率,对特征参量设置权重并通过特征参量归一化和加权求和得到预测概率值,归纳生成新标签;对于聚类效果未达到预设要求的聚类分组,标签种类及标签量较大时,将标签生成过程等价为有监督学习过程,对预设比例的基础标签进行标注,导入AutoML工具自动标注和选取最优分类器,进行模型训练与测试,将测试符合要求的模型设置为待执行状态;
采用QuartZ Cron表达式,设置标签生成任务执行周期。
本发明的进一步改进在于,所述设备标签T表示为T=<t,K,N,S,D,L>的六元组;
其中,t为标签生成时间;K为标签所属设备ID;N为标签名;S为标签变化趋势,取-1,0,1三个值,-1表示变差,0表示不变,1表示变好;D为标签出现累计数;L为行为状态,取-1,1两个值,-1表示不可用,1表示可用。
本发明的进一步改进在于,所述调用标签任务调度引擎,基于所述标签业务规则库和规则转换库处理原始数据集,生成基础标签的步骤包括:
根据业务转换规则获取原始数据,若为属性标签,则获取数据类型为属性数据的数据集;若为运行标签,则获取数据类型为属性数据和运行数据的数据集;若为状态标签,则获取数据类型为属性数据和状态数据的数据集;
标签任务调度引擎获取待执行转换规则和标签生成任务周期,封装成可执行程序处理数据集,生成新的标签名;
根据设备统一ID、标签主键获取已存最新标签信息,对比标签名变化,设置标签变化趋势值、标签累计数和行为状态,标签日期为当前时间,形成标签信息为<当前时间,设备统一ID,标签名,标签变化趋势值,标签累计数+1,行为状态>,写入标签库;若生成标签为新增标签,则标签信息设置<当前时间,设备统一ID,标签名,0,1,1>,写入标签库;
所述调用标签任务调度引擎和所述分析标签模型库,利用模型分析结果生成分析标签的步骤具体包括:
1)标签任务调度引擎获取基础标签集,标签生成任务类型和标签生成任务周期,编排聚类标签任务、加权预测标签和模型标签任务;若标签种类和数量符合聚类任务,则将基础标签集加载到基于密度的聚类算法模型处理,聚类结果如果大于标签种类的预设比例,则跳转执行步骤2);若标签种类和数量符合模型标签任务,则跳转执行步骤3);将聚类结果以文件形式存入标签库,经归纳建立新的标签信息,触发新标签生成任务,写入标签库,将生成规则写入规则转换库;
2)计算基础标签集所有标签的发生概率、关联概率,获取标签权重,则预期分析标签发生概率计算表达式为,
在Pl计算结束后,采用极大似然估计算法和朴素贝叶斯公式对各概率进行分组,将聚类结果以文件形式存入标签库,经归纳建立新的标签信息,触发新标签生成任务,写入标签库,将生成规则写入规则转换库;
3)将待处理基础标签随机分成多个子数据集,调用待执行的标签模型处理各子数据集,生成标签分组,对比各数据集运算结果;若生成分组数相同,且相同组内基础标签数量差不超过预设阈值比例,则调用标签模型处理原基础标签集,将子数据集和原基础标签集生成分组结果分别以文件形式存入标签库,经归纳建立新的标签信息,触发新标签生成任务,写入标签库,将生成规则写入规则转换库;若不相同,则执行步骤4);
4)将相似度最低的数据集加入模型训练集重新训练模型,然后跳转至步骤3)重新执行;若重复次数达到预设次数阈值仍不满足,则在原基础标签集上增加预设百分比的数据量,然后跳转至步骤3)重新执行,增加数据量的操作次数超过预设次数阈值仍不满足时,则仅调用标签模型处理原基础标签集,将生成分组结果以文件形式存入标签库。
与现有技术相比,本发明具有以下有益效果:
本发明具体提供了一种电力物联网设备数据标签智能生成方法,形成了针对选定设备类型的设备属性、运行和状态数据的基础标签和分析标签的自动化构建流程,可提升输变配电领域设备数据价值挖掘和设备智能运维水平;提供定制化规则引擎和基于机器学习的标签模型自动化构建技术,以精确的业务规则和科学的模型分析双驱动自更新方式,建立设备标签的深层次关联推理逻辑,有效解决了大量基础标签表达能力不足,导致设备状态诊断及预测精度和性能问题。
本发明中,建立基于业务规则与标签算法模型互反馈机制,利用现有可枚举的业务规则作为标签算法模型的数据处理核心逻辑,将生成的分析标签包含的业务规则增加到业务规则库,通过持续的互反馈建立良性自循环,设备标签的精度和丰富度会不断提升。
本发明中,提出设备标签信息六元组存储定义,将常用的业务规则直接量化处理,可兼容数据表、文本数据,有效提升了标签的自表述能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面对实施例或现有技术描述中所需要使用的附图做简单的介绍;显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种电力物联网设备数据标签智能生成方法的流程示意图;
图2是本发明实施例提供的一种电力物联网设备数据标签智能生成系统的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面结合附图对本发明做进一步详细描述:
学术论文《基于文本挖掘的电力设备缺陷用户画像构建》提出了一种基于OMS日志数据的设备缺陷画像构建方法,采用定义好格式的日志文件进行缺陷文本数据标注,运用改进的K-means算法对缺陷标注数据进行定义与归类,结合构建的文本预处理模型和卷积神经网络分类器,对设备缺陷数据进行分类,形成设备缺陷用户画像信息。该方法仅使用了日志文本数据,未考虑设备台账、运行数据表及文档数据,模型的专用性很强,并不能良好地支持预测型标签和模型标签挖掘与生成。学术论文《用户画像和标签在电力服务系统中的应用研究》提出了一种基于用户行为大数据构建用户画像方案,采用Hadoop、Hive及网络爬虫技术来实现海量结构化数据的批量标签生成。该方案整合了用户及设备足够多的数据,采用通用的MapReduce编程模式,可以灵活地实现不同层次的标签生成逻辑。但是开发工作量过大且对计算资源要求较高,目前仅在客户标签领域有较丰富的应用,尚未在设备标签领域进行验证。综上所述,目前电力物联网领域的设备标签智能生成技术研究及应用较少,现有的电力设备监控技术主要基于采集的事件数据,通过分类、统计和阈值判定来实现;这些方法能够对当前设备异常或故障研判提供较高的准确率,但是由于数据范围较小,并不能全面评估和预测设备运行状态;一些设备故障诊断应用借鉴了客户标签构建方法,但主要针对设备固有属性和运行数据进行人工打标和生成量化的阈值标签,对人员的业务知识储备能力要求高,耗时耗力,自动化维护能力差;另一种较为常用的基于大数据的标签生成技术,能够在海量的设备融合数据上实现标签提取,具有速度快、灵活性高、针对性强的特点,但是处理逻辑简单,定制化开发要求高,无法适用于生成某些规则更复杂的设备标签。
本发明实施例中,为了充分挖掘设备数据价值,提高电力物联网设备全生命周期状态监控能力,具体提供了一种电力物联网设备数据标签智能生成方法,建立多维度设备标签自动化管理流程,通过对多领域全量设备数据融合及业务知识提炼,实现关键数据的快速识别、提取和深度加工,形成电力设备基本属性、运行状态和关联分析方面的精准化标签描述体系,促进基于标签的设备数据共享和价值挖掘技术发展,在电力物联网设备智能运维监控的应用创新中发挥重要作用。
术语解释:
数据标签,是通过对数据的统计分析获取简明扼要信息来描述对象的技术手段,具有短文本、语义化、可重复标记等特点。
电力物联网,是应用于电力领域的工业级物联网,是实现能源互联网数字化、智能化的基础和载体,是围绕电力系统各个环节,充分利用传感技术、网络互联技术、平台技术等现代信息技术和先进通信技术,实现电力系统各个环节设备、网架、人员万物互联、人机交互,促进电网全面感知、泛在互联、信息融合、应用智能。
设备标签,是通过对电力物联网设备台账、运行状态、缺陷、告警等数据综合分析提取的能够反映设备运行状态,刻画设备画像的数值或知识信息。
规则引擎:由推理引擎发展而来,采用预定义的语义模块设置业务规则,利用接受数据输入解释业务规则,并根据业务规则做出业务决策。
请参阅图1,本发明实施例提供的一种电力物联网设备数据标签智能生成方法,其技术框架包括多源异构数据处理、标签生成规则构建、基础标签自动生成和分析标签自动生成,具体步骤包括:
步骤S01,多源异构数据处理:选定输变配电领域的一类电力设备,将相关历史数据导入电网数据中台,按照数据表和文档类数据分区存储,进行设备统一ID构建和数据质量处理;按照数据内容增加数据类型字段,字段值包括“属性数据”、“运行数据”和“状态数据”,形成原始数据集。
1)数据表数据处理,包括:
1.1)设备统一ID构建:根据各系统已定义的数据模型,获取不同系统设备的数据表主键、外键以及关键属性信息;通过SQL进行主外键关联匹配,对于成功匹配的设备,将设备ID设置为生成该ID的源系统主键;对于未匹配的设备,采用层次聚类算法进行关键属性匹配,并结合主键出现的次数确定设备ID;最后,将具有相同ID的数据行进行去重合并;
1.2)数据质量处理:主要针对数据表中的数值类数据,包括设备运行数据类和在线监测数据类等,采用孤立森林算法对异常值进行清洗,利用线性插值填补缺失值。
2)文档类数据处理,包括:
2.1)设备统一ID处理:针对本身具有结构的文档类数据,通过数据中台的ETL工具转换成结构化数据,然后采用步骤1)数据表数据处理方法进行操作;针对不具备结构的文档类数据,统一按所属设备分别转换成仅包含文字、字母、标点符号的文本格式,在首行增加所属设备ID。
2.2)数据质量处理:主要针对文档中设备名称、缺陷名称不规范记录进行处理;将文档转换后的结构化数据进行正则化过滤,然后获取数据表中标准的设备、异常和缺陷名称信息,基于名称的相似度进行粗分组,通过文本相似特征、基本特征和互斥特征共同进行相似度计算,将相似度符合要求的名称替换成数据表中对应的设备或缺陷名称。
步骤S02,标签生成规则构建,包括:根据标签的加工程度,将设备标签分为基础标签和分析标签两类;其中,基础标签是在处理后的设备数据上,利用单句业务规则生成的标签;分析标签则是基于多个数据表或利用基础标签,通过一系列单句业务规则或机器学习算法模型生成的包含隐藏价值的深度标签。
本发明实施例中,设备标签T定义为一个T=<t,K,N,S,D,L>的六元组,其中,t为标签生成时间;K为标签所属设备ID;N为标签名;S为标签变化趋势,取-1,0,1三个值,-1表示变差,0表示不变,1表示变好;D为标签出现累计数;L为行为状态,取-1,1两个值,-1表示不可用,1表示可用。
本发明实施例中,标签生成规则构建过程具体如下:
根据标签生成类型,确定标签任务类型;任务类型包括基础标签任务和分析标签任务;
其中,针对基础标签任务,构建过程如下:
(1)根据设备分类从业务规则库中获取规则描述信息,设备分类是指“设备大类/设备专业/设备分类”,以立体卷铁心配电变压器为例,业务规则库中的设备分类为“变压器/配电/立体卷铁心”;业务规则描述信息以油温为例,描述为:立体卷铁心配电变压器油温不超过60℃为正常,60℃~75℃为油温略高,75℃以上为油温过高;
(2)由业务人员判断业务规则是否满足要求,若满足,则设置为选定;若不满足,则新增业务规则并选定,然后将规则推送至规则转换库;
(3)规则转换库用于将业务规则信息转换成计算机可执行的通用判定规则;若业务规则信息已存在,则通过规则信息编号获取转换规则,设置为待执行状态;若业务规则信息为新增,则解析转换;以上述立体卷铁心配电变压器油温业务规则信息为例,转换后的规则为“if t<=60then“Normal”;if t>60and t<=75then“Slightly High”;else“High””。
其中,针对分析标签任务,构建过程如下:
(1)根据任务使用的数据源确定任务细类,分为基于多数据表的复杂规则分析标签生成任务和基于基础标签的自动化机器学习标签生成任务;
(2)针对复杂规则分析标签生成任务,由业务知识规则引擎分解成一系列单句业务规则,并从业务规则库里面获取对应转换规则;若业务规则不存在,则跳转至上述针对基础标签任务的步骤(2)执行规则新增;将所有转换规则加载到复杂规则文件,设置为待执行状态;
(3)针对自动化机器学习标签生成任务,分为聚类标签、加权预测标签和模型标签;考虑到基础标签存在由于源数据错误造成的误差,首先,调用标签算法库集成的基于密度的聚类算法(DBSCAN)进行分组处理,对于效果良好的聚类分组,由业务专家结合业务经验来归纳生成新标签;其次,若聚类效果不明显,当标签种类少于50或者标签量少于1000时,则从设备寿命、异常、故障、检修周期方面分别获取基础标签里的特征参量,计算关联概率,基于业务专家经验,对特征参量设置权重,通过特征参量归一化和加权求和得到预测概率值,并由业务专家归纳生成新标签;其中,关联概率是根据历史数据中该标签值发生时,预测结果发生的次数,与该标签值出现次数的比例;最后,当标签种类大于50且标签量大于1000时,将标签生成过程等价为有监督学习过程,通过业务专家对30%的基础标签进行标注,导入AutoML工具自动标注和选取最优分类器,进行模型训练与测试,将测试符合要求的模型设置为待执行状态;
(4)采用QuartZ Cron表达式,设置标签生成任务执行周期。
步骤S03,基础标签自动生成,包括:
1)根据业务转换规则获取原始数据,若为属性标签,则仅获取数据类型为“属性数据”的数据集;若为运行标签,则获取数据类型为“属性数据”和“运行数据”的数据集;若为状态标签,则获取数据类型为“属性数据”和“状态数据”的数据集;
2)标签任务调度引擎获取待执行转换规则和标签生成任务周期,封装成可执行程序处理数据集,生成新的标签名;标签任务调度引擎是由数据中台提供的转换规则解析、匹配、优化、编码、算法调用和任务编排工具;
3)根据设备统一ID、标签主键获取已存最新标签信息,对比标签名变化,设置标签变化趋势值、标签累计数和行为状态,标签日期为当前时间,形成标签信息为<当前时间,设备统一ID,标签名,标签变化趋势值,标签累计数+1,行为状态>,写入标签库;
4)若生成标签为新增标签,则标签信息设置<当前时间,设备统一ID,标签名,0,1,1>,写入标签库。
步骤S04,分析标签自动生成,包括:
1)标签任务调度引擎获取基础标签集,标签生成任务类型和标签生成任务周期,编排聚类标签任务、加权预测标签和模型标签任务;
2)若标签种类和数量符合聚类任务,将基础标签集加载到DBSCAN算法模型处理,聚类结果如果大于标签种类的60%,则执行下述步骤3);若标签种类和数量符合模型标签任务,则执行下述步骤4);将聚类结果以文件形式存入标签库,经专家归纳建立新的标签信息,触发新标签生成任务,写入标签库,将生成规则写入规则转换库;
3)计算基础标签集所有标签的发生概率、关联概率,获取标签权重,则预期分析标签发生概率计算如下:
其中,Pl表示预期分析标签的发生概率,Pi表示基础标签i的发生概率,Pj表示基础标签i发生时,标签j发生的概率,wij表示标签j关联的基础标签i的权重;
在Pl计算结束后,采用极大似然估计算法和朴素贝叶斯公式对各概率进行分组,将聚类结果以文件形式存入标签库,经专家归纳建立新的标签信息,触发新标签生成任务,写入标签库,将生成规则写入规则转换库;
4)将待处理基础标签随机分成n(n≤3)个子数据集,调用待执行的标签模型处理各子数据集,生成标签分组,对比各数据集运算结果,若生成分组数相同,且相同组内基础标签数量差不超过20%,则调用标签模型处理原基础标签集,将子数据集和原基础标签集生成分组结果分别以文件形式存入标签库,经专家归纳建立新的标签信息,触发新标签生成任务,写入标签库,将生成规则写入规则转换库;若不相似,则执行下述步骤5);
5)将相似度最低的数据集加入模型训练集重新训练模型,然后跳转至步骤4)重新执行;若重复次数达到5次仍不满足,则在原基础标签集上增加5%的数据量,然后跳转至步骤4)重新执行,增加数据量操作不超过4次;若仍不满足,则仅调用标签模型处理原基础标签集,将生成分组结果以文件形式存入标签库,由业务专家分析原因,结束。
综上所述,本发明实施例提供了一种电力物联网设备数据标签智能生成方法,包括:多源异构数据处理,获取选定类型电力设备的数据模型、数据表和文档类数据,构建设备统一ID,进行数据质量处理;标签生成规则构建,定义标签信息格式和类型,采用单句形式构建标签业务规则库和规则转换库,采用机器学习构建分析标签模型库;基础标签生成,调用标签任务调度引擎,利用规则转换代码处理原始数据集,并生成标签;分析标签生成,调用标签任务调度引擎和标签模型库,利用模型分析结果生成分析标签。本发明实施例提供的技术方案形成针对选定设备类型的设备属性、运行和状态数据的基础标签和分析标签的自动化构建流程,提升了输变配电领域设备数据价值挖掘和设备智能运维水平。系统的分析标签生成模块,提供定制化规则引擎和基于机器学习的标签模型自动化构建技术,以精确的业务规则和科学的模型分析双驱动自更新方式,建立设备标签的深层次关联推理逻辑,有效解决了大量基础标签表达能力不足,导致设备状态诊断及预测精度和性能问题。
下述为本发明的装置实施例,可以用于执行本发明方法实施例。对于装置实施例中未纰漏的细节,请参照本发明方法实施例。
请参阅图2,针对上述提出的电力物联网设备数据标签智能生成方法,本发明还实现了面向电力物联网设备数据标签智能生成系统,具体包括数据处理模块、业务规则模块、规则转换模块、标签模型模块、标签任务模块(规则引擎和模型调用处理)、标签存储模块;下面以配电领域变压器为例,阐述本系统开展设备标签生成等工作过程。
(1)数据处理模块,用于获取配电变压器在数据中台存储的关系表和文档数据,将数据转换成计算机支持的标准的数据结构;该模块提供常用的关系数据库和文档数据调用接口,支持数据ETL和数据质量处理工具;
(2)业务规则模块,用于存储和提供基础标签和分析标签的具体加工过程描述,具备复杂业务描述分句化处理功能;
(3)规则转换模块,用于将业务规则按照分句进行代码逻辑转化处理,提供业务关键动词、名词映射关系表功能,支持Java、C、C++、Python等多种语言的代码生成;
(4)标签模型模块,用于提供常用的聚类模型和参数管理工作,集成AutoML工具,支持分析标签模型构建、训练和测试功能;
(5)标签任务模块,用于设备标签任务的配置、执行与管理工作,根据生成标签类型,将任务推送至普通任务、规则引擎任务或标签模型任务调度队列,按照调度周期规则将任务加载至相应的计算逻辑进行处理;
(6)标签存储模块,以键值对格式存储生成的设备标签六元组数据,以文本文件格式存储模型处理结果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (10)
1.一种电力物联网设备数据标签生成方法,其特征在于,包括以下步骤:
获取选定类型电力设备的数据模型、数据表和文档类数据,构建设备统一ID并进行数据质量处理;按照数据内容增加数据类型字段,字段值包括属性数据、运行数据和状态数据,形成原始数据集;
定义标签信息格式和类型,采用单句形式构建标签业务规则库和规则转换库,采用机器学习构建分析标签模型库;
调用标签任务调度引擎,基于所述标签业务规则库和规则转换库处理原始数据集,生成基础标签;调用标签任务调度引擎和所述分析标签模型库,利用模型分析结果生成分析标签。
2.根据权利要求1所述的一种电力物联网设备数据标签生成方法,其特征在于,所述获取选定类型电力设备的数据模型、数据表和文档类数据,构建设备统一ID并进行数据质量处理的过程中,
数据表数据处理,包括:
(1)根据各系统已定义的数据模型,获取不同系统设备的数据表主键、外键以及关键属性信息;通过SQL进行主外键关联匹配,对于成功匹配的设备,将设备ID设置为生成该ID的源系统主键;对于未匹配的设备,采用层次聚类算法进行关键属性匹配,并结合主键出现的次数确定设备ID;最后,将具有相同ID的数据行进行去重合并;
(2)对于数据表中的数值类数据,采用孤立森林算法对异常值进行清洗,利用线性插值填补缺失值;
文档类数据处理,包括:
将具有结构的文档类数据转换成结构化数据,然后采用所述数据表数据处理中的步骤(1)进行操作;将不具备结构的文档类数据,统一按所属设备分别转换成仅包含文字、字母、标点符号的文本格式,在首行增加所属设备ID;
将文档转换后的结构化数据进行正则化过滤,然后获取数据表中标准的设备、异常和缺陷名称信息,基于名称的相似度进行分组,通过文本相似特征、基本特征和互斥特征共同进行相似度计算,将相似度计算结果符合要求的名称替换成数据表中对应的设备或缺陷名称。
3.根据权利要求1所述的一种电力物联网设备数据标签生成方法,其特征在于,所述定义标签信息格式和类型,采用单句形式构建标签业务规则库和规则转换库,采用机器学习构建分析标签模型库的步骤包括:
根据标签的加工程度,将设备标签分为基础标签和分析标签两类;其中,所述基础标签是在处理后的设备数据上,利用单句业务规则生成的标签;所述分析标签则是基于多个数据表或利用基础标签通过一系列单句业务规则或机器学习算法模型生成的包含隐藏价值的深度标签;
其中,针对基础标签任务,构建过程为:
根据设备分类从业务规则库中获取业务规则描述信息;其中,所述设备分类是指设备大类、设备专业和设备分类;
基于业务规则描述信息,判断业务规则是否满足要求;若满足,则设置为选定;若不满足,则新增业务规则并选定,然后将规则推送至规则转换库;其中,所述规则转换库用于将业务规则描述信息转换成计算机可执行的通用判定规则;若业务规则信息已存在,则通过规则信息编号获取转换规则,设置为待执行状态;若业务规则信息为新增,则解析转换;
其中,针对分析标签任务,构建过程为:
根据任务使用的数据源确定任务细类;其中,所述细类包括基于多数据表的复杂规则分析标签生成任务和基于基础标签的自动化机器学习标签生成任务;
针对复杂规则分析标签生成任务,由业务知识规则引擎分解成一系列单句业务规则,并从业务规则库里面获取对应转换规则;若业务规则不存在,则跳转执行规则新增;将所有转换规则加载到复杂规则文件,设置为待执行状态;
针对自动化机器学习标签生成任务,分为聚类标签、加权预测标签和模型标签;调用基于密度的聚类算法进行分组处理,获得聚类分组;对于聚类效果达到预设要求的聚类分组,归纳生成新标签;对于聚类效果未达到预设要求的聚类分组,标签种类及标签量较小时,则从设备寿命、异常、故障、检修周期方面分别获取基础标签里的特征参量并计算关联概率,对特征参量设置权重并通过特征参量归一化和加权求和得到预测概率值,归纳生成新标签;对于聚类效果未达到预设要求的聚类分组,标签种类及标签量较大时,将标签生成过程等价为有监督学习过程,对预设比例的基础标签进行标注,导入AutoML工具自动标注和选取最优分类器,进行模型训练与测试,将测试符合要求的模型设置为待执行状态;
采用QuartZ Cron表达式,设置标签生成任务执行周期。
4.根据权利要求3所述的一种电力物联网设备数据标签生成方法,其特征在于,所述设备标签T表示为T=<t,K,N,S,D,L>的六元组;
其中,t为标签生成时间;K为标签所属设备ID;N为标签名;S为标签变化趋势,取-1,0,1三个值,-1表示变差,0表示不变,1表示变好;D为标签出现累计数;L为行为状态,取-1,1两个值,-1表示不可用,1表示可用。
5.根据权利要求4所述的一种电力物联网设备数据标签生成方法,其特征在于,所述调用标签任务调度引擎,基于所述标签业务规则库和规则转换库处理原始数据集,生成基础标签的步骤包括:
根据业务转换规则获取原始数据,若为属性标签,则获取数据类型为属性数据的数据集;若为运行标签,则获取数据类型为属性数据和运行数据的数据集;若为状态标签,则获取数据类型为属性数据和状态数据的数据集;
标签任务调度引擎获取待执行转换规则和标签生成任务周期,封装成可执行程序处理数据集,生成新的标签名;
根据设备统一ID、标签主键获取已存最新标签信息,对比标签名变化,设置标签变化趋势值、标签累计数和行为状态,标签日期为当前时间,形成标签信息为<当前时间,设备统一ID,标签名,标签变化趋势值,标签累计数+1,行为状态>,写入标签库;若生成标签为新增标签,则标签信息设置<当前时间,设备统一ID,标签名,0,1,1>,写入标签库。
6.根据权利要求5所述的一种电力物联网设备数据标签生成方法,其特征在于,所述调用标签任务调度引擎和所述分析标签模型库,利用模型分析结果生成分析标签的步骤具体包括:
1)标签任务调度引擎获取基础标签集,标签生成任务类型和标签生成任务周期,编排聚类标签任务、加权预测标签和模型标签任务;若标签种类和数量符合聚类任务,则将基础标签集加载到基于密度的聚类算法模型处理,聚类结果如果大于标签种类的预设比例,则跳转执行步骤2);若标签种类和数量符合模型标签任务,则跳转执行步骤3);将聚类结果以文件形式存入标签库,经归纳建立新的标签信息,触发新标签生成任务,写入标签库,将生成规则写入规则转换库;
2)计算基础标签集所有标签的发生概率、关联概率,获取标签权重,则预期分析标签发生概率计算表达式为,
在Pl计算结束后,采用极大似然估计算法和朴素贝叶斯公式对各概率进行分组,将聚类结果以文件形式存入标签库,经归纳建立新的标签信息,触发新标签生成任务,写入标签库,将生成规则写入规则转换库;
3)将待处理基础标签随机分成多个子数据集,调用待执行的标签模型处理各子数据集,生成标签分组,对比各数据集运算结果;若生成分组数相同,且相同组内基础标签数量差不超过预设阈值比例,则调用标签模型处理原基础标签集,将子数据集和原基础标签集生成分组结果分别以文件形式存入标签库,经归纳建立新的标签信息,触发新标签生成任务,写入标签库,将生成规则写入规则转换库;若不相同,则执行步骤4);
4)将相似度最低的数据集加入模型训练集重新训练模型,然后跳转至步骤3)重新执行;若重复次数达到预设次数阈值仍不满足,则在原基础标签集上增加预设百分比的数据量,然后跳转至步骤3)重新执行,增加数据量的操作次数超过预设次数阈值仍不满足时,则仅调用标签模型处理原基础标签集,将生成分组结果以文件形式存入标签库。
7.一种电力物联网设备数据标签生成系统,其特征在于,包括:
原始数据集获取模块,用于获取选定类型电力设备的数据模型、数据表和文档类数据,构建设备统一ID并进行数据质量处理;按照数据内容增加数据类型字段,字段值包括属性数据、运行数据和状态数据,形成原始数据集;
数据库获取模块,用于定义标签信息格式和类型,采用单句形式构建标签业务规则库和规则转换库,采用机器学习构建分析标签模型库;
标签生成模块,用于调用标签任务调度引擎,基于所述标签业务规则库和规则转换库处理原始数据集,生成基础标签;调用标签任务调度引擎和所述分析标签模型库,利用模型分析结果生成分析标签。
8.根据权利要求7所述的一种电力物联网设备数据标签生成系统,其特征在于,所述定义标签信息格式和类型,采用单句形式构建标签业务规则库和规则转换库,采用机器学习构建分析标签模型库的步骤包括:
根据标签的加工程度,将设备标签分为基础标签和分析标签两类;其中,所述基础标签是在处理后的设备数据上,利用单句业务规则生成的标签;所述分析标签则是基于多个数据表或利用基础标签通过一系列单句业务规则或机器学习算法模型生成的包含隐藏价值的深度标签;
其中,针对基础标签任务,构建过程为:
根据设备分类从业务规则库中获取业务规则描述信息;其中,所述设备分类是指设备大类、设备专业和设备分类;
基于业务规则描述信息,判断业务规则是否满足要求;若满足,则设置为选定;若不满足,则新增业务规则并选定,然后将规则推送至规则转换库;其中,所述规则转换库用于将业务规则描述信息转换成计算机可执行的通用判定规则;若业务规则信息已存在,则通过规则信息编号获取转换规则,设置为待执行状态;若业务规则信息为新增,则解析转换;
其中,针对分析标签任务,构建过程为:
根据任务使用的数据源确定任务细类;其中,所述细类包括基于多数据表的复杂规则分析标签生成任务和基于基础标签的自动化机器学习标签生成任务;
针对复杂规则分析标签生成任务,由业务知识规则引擎分解成一系列单句业务规则,并从业务规则库里面获取对应转换规则;若业务规则不存在,则跳转执行规则新增;将所有转换规则加载到复杂规则文件,设置为待执行状态;
针对自动化机器学习标签生成任务,分为聚类标签、加权预测标签和模型标签;调用基于密度的聚类算法进行分组处理,获得聚类分组;对于聚类效果达到预设要求的聚类分组,归纳生成新标签;对于聚类效果未达到预设要求的聚类分组,标签种类及标签量较小时,则从设备寿命、异常、故障、检修周期方面分别获取基础标签里的特征参量并计算关联概率,对特征参量设置权重并通过特征参量归一化和加权求和得到预测概率值,归纳生成新标签;对于聚类效果未达到预设要求的聚类分组,标签种类及标签量较大时,将标签生成过程等价为有监督学习过程,对预设比例的基础标签进行标注,导入AutoML工具自动标注和选取最优分类器,进行模型训练与测试,将测试符合要求的模型设置为待执行状态;
采用QuartZ Cron表达式,设置标签生成任务执行周期。
9.根据权利要求8所述的一种电力物联网设备数据标签生成系统,其特征在于,所述设备标签T表示为T=<t,K,N,S,D,L>的六元组;
其中,t为标签生成时间;K为标签所属设备ID;N为标签名;S为标签变化趋势,取-1,0,1三个值,-1表示变差,0表示不变,1表示变好;D为标签出现累计数;L为行为状态,取-1,1两个值,-1表示不可用,1表示可用。
10.根据权利要求9所述的一种电力物联网设备数据标签生成系统,其特征在于,所述调用标签任务调度引擎,基于所述标签业务规则库和规则转换库处理原始数据集,生成基础标签的步骤包括:
根据业务转换规则获取原始数据,若为属性标签,则获取数据类型为属性数据的数据集;若为运行标签,则获取数据类型为属性数据和运行数据的数据集;若为状态标签,则获取数据类型为属性数据和状态数据的数据集;
标签任务调度引擎获取待执行转换规则和标签生成任务周期,封装成可执行程序处理数据集,生成新的标签名;
根据设备统一ID、标签主键获取已存最新标签信息,对比标签名变化,设置标签变化趋势值、标签累计数和行为状态,标签日期为当前时间,形成标签信息为<当前时间,设备统一ID,标签名,标签变化趋势值,标签累计数+1,行为状态>,写入标签库;若生成标签为新增标签,则标签信息设置<当前时间,设备统一ID,标签名,0,1,1>,写入标签库;
所述调用标签任务调度引擎和所述分析标签模型库,利用模型分析结果生成分析标签的步骤具体包括:
1)标签任务调度引擎获取基础标签集,标签生成任务类型和标签生成任务周期,编排聚类标签任务、加权预测标签和模型标签任务;若标签种类和数量符合聚类任务,则将基础标签集加载到基于密度的聚类算法模型处理,聚类结果如果大于标签种类的预设比例,则跳转执行步骤2);若标签种类和数量符合模型标签任务,则跳转执行步骤3);将聚类结果以文件形式存入标签库,经归纳建立新的标签信息,触发新标签生成任务,写入标签库,将生成规则写入规则转换库;
2)计算基础标签集所有标签的发生概率、关联概率,获取标签权重,则预期分析标签发生概率计算表达式为,
在Pl计算结束后,采用极大似然估计算法和朴素贝叶斯公式对各概率进行分组,将聚类结果以文件形式存入标签库,经归纳建立新的标签信息,触发新标签生成任务,写入标签库,将生成规则写入规则转换库;
3)将待处理基础标签随机分成多个子数据集,调用待执行的标签模型处理各子数据集,生成标签分组,对比各数据集运算结果;若生成分组数相同,且相同组内基础标签数量差不超过预设阈值比例,则调用标签模型处理原基础标签集,将子数据集和原基础标签集生成分组结果分别以文件形式存入标签库,经归纳建立新的标签信息,触发新标签生成任务,写入标签库,将生成规则写入规则转换库;若不相同,则执行步骤4);
4)将相似度最低的数据集加入模型训练集重新训练模型,然后跳转至步骤3)重新执行;若重复次数达到预设次数阈值仍不满足,则在原基础标签集上增加预设百分比的数据量,然后跳转至步骤3)重新执行,增加数据量的操作次数超过预设次数阈值仍不满足时,则仅调用标签模型处理原基础标签集,将生成分组结果以文件形式存入标签库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211282369.7A CN115564071A (zh) | 2022-10-19 | 2022-10-19 | 一种电力物联网设备数据标签生成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211282369.7A CN115564071A (zh) | 2022-10-19 | 2022-10-19 | 一种电力物联网设备数据标签生成方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115564071A true CN115564071A (zh) | 2023-01-03 |
Family
ID=84747250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211282369.7A Pending CN115564071A (zh) | 2022-10-19 | 2022-10-19 | 一种电力物联网设备数据标签生成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115564071A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116882591A (zh) * | 2023-09-05 | 2023-10-13 | 北京国网信通埃森哲信息技术有限公司 | 信息生成方法、装置、电子设备和计算机可读介质 |
CN117707098A (zh) * | 2024-02-06 | 2024-03-15 | 水发科技信息(山东)有限公司 | 一种智能化工业互联网服务系统 |
CN117910850A (zh) * | 2023-12-18 | 2024-04-19 | 北京宇信科技集团股份有限公司 | 一种指标数据分析引擎、指标数据计算装置和计算方法 |
CN118094234A (zh) * | 2024-04-26 | 2024-05-28 | 广东电网有限责任公司 | 一种基于多源电力数据的自动数据标注方法及装置 |
-
2022
- 2022-10-19 CN CN202211282369.7A patent/CN115564071A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116882591A (zh) * | 2023-09-05 | 2023-10-13 | 北京国网信通埃森哲信息技术有限公司 | 信息生成方法、装置、电子设备和计算机可读介质 |
CN116882591B (zh) * | 2023-09-05 | 2023-11-24 | 北京国网信通埃森哲信息技术有限公司 | 信息生成方法、装置、电子设备和计算机可读介质 |
CN117910850A (zh) * | 2023-12-18 | 2024-04-19 | 北京宇信科技集团股份有限公司 | 一种指标数据分析引擎、指标数据计算装置和计算方法 |
CN117707098A (zh) * | 2024-02-06 | 2024-03-15 | 水发科技信息(山东)有限公司 | 一种智能化工业互联网服务系统 |
CN117707098B (zh) * | 2024-02-06 | 2024-05-07 | 水发科技信息(山东)有限公司 | 一种智能化工业互联网服务系统 |
CN118094234A (zh) * | 2024-04-26 | 2024-05-28 | 广东电网有限责任公司 | 一种基于多源电力数据的自动数据标注方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115564071A (zh) | 一种电力物联网设备数据标签生成方法及系统 | |
CN103336790B (zh) | 基于Hadoop的邻域粗糙集快速属性约简方法 | |
US9280739B2 (en) | Computer implemented system for automating the generation of a business decision analytic model | |
CN103336791B (zh) | 基于Hadoop的粗糙集快速属性约简方法 | |
CN114416855A (zh) | 一种基于电力大数据的可视化平台及方法 | |
CN112181960B (zh) | 一种基于AIOps的智能运维框架系统 | |
CN112100506B (zh) | 信息推送方法、系统、设备及存储介质 | |
Ilkhani et al. | Extraction test cases by using data mining; reducing the cost of testing | |
CN115034278A (zh) | 性能指标异常检测方法、装置、电子设备和存储介质 | |
CN115982646B (zh) | 一种基于云平台的多源测试数据的管理方法及系统 | |
CN112416904A (zh) | 电力数据规范化处理方法及装置 | |
CN116302835A (zh) | 一种运维数据异常检测装置、方法及存储介质 | |
CN115952914A (zh) | 一种基于大数据的电力计量运维工作判别规划方法 | |
Jirkovský et al. | Semi-automatic ontology matching approach for integration of various data models in automotive | |
Shouaib et al. | Survey on iot-based big data analytics | |
CN114238045A (zh) | 一种电网多源量测数据完整性判断及自动修复系统和方法 | |
Wu et al. | Application of Improved Feature Pre-processing Method in Prevention and Control of Electricity Charge Risk | |
CN112508276B (zh) | 一种电网快速诊断与优化系统及优化方法 | |
Wang et al. | An intelligent DevOps platform research and design based on machine learning | |
US20240211973A1 (en) | Technology stack modeler engine for a platform signal modeler | |
CN117436444B (zh) | 基于标签的数据处理方法、设备及计算机可读存储介质 | |
CN117934209B (zh) | 一种基于知识图谱的区域电力系统碳排放大数据分析方法 | |
WO2024065776A1 (en) | Method for data processing, apparatus for data processing, electronic device, and storage medium | |
CN117973566B (zh) | 训练数据处理方法、装置及相关设备 | |
Sneha et al. | Big Data Analysis and Machine Learning for Green Computing: Concepts and Applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |