CN113377745A - 一种统一标准的试验数据结构体系的构建方法 - Google Patents

一种统一标准的试验数据结构体系的构建方法 Download PDF

Info

Publication number
CN113377745A
CN113377745A CN202110747606.1A CN202110747606A CN113377745A CN 113377745 A CN113377745 A CN 113377745A CN 202110747606 A CN202110747606 A CN 202110747606A CN 113377745 A CN113377745 A CN 113377745A
Authority
CN
China
Prior art keywords
test data
template
data
standard
data structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110747606.1A
Other languages
English (en)
Inventor
赵超
文屹
吕黔苏
张迅
王冕
黄军凯
范强
陈沛龙
李欣
吴建蓉
丁江桥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Power Grid Co Ltd
Original Assignee
Guizhou Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Power Grid Co Ltd filed Critical Guizhou Power Grid Co Ltd
Priority to CN202110747606.1A priority Critical patent/CN113377745A/zh
Publication of CN113377745A publication Critical patent/CN113377745A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Factory Administration (AREA)

Abstract

本发明公开了一种统一标准的试验数据结构体系的构建方法,该方法为:提取文本要素数据特征,结合并行计算技术,基于各类设备建立标准数据结构模型,形成数据标准体系,构建新的标准试验数据库。本发明基于统一标准的试验数据结构体系,提取要素数据特征,结合并行计算技术,基于各类设备建立标准数据结构模型,形成数据标准体系,构建新的标准试验数据库,为后续进行的智能数据诊断分析与策略制定提供充分的数据支撑。

Description

一种统一标准的试验数据结构体系的构建方法
技术领域
本发明涉及试验数据结构构建技术领域,具体涉及一种统一标准的试验数据结构体系的构建方法。
背景技术
电力设备预防性试验是电力设备运行和维护工作中一个重要环节,是保证电力设备安全运行的有效手段之一。多年来,电力企业的高压电力设备基本上都是按照标准DL/T596—1996《电力设备预防性试验规程》的要求进行试验的,目前南网已发布最新新的《电力设备检修试验规程》CSG-2017006,它能够准确地诊断出电气设备的运行状况,对及时发现、诊断设备风险起到重要作用。
由于目前6+1生产管理系统的作业指导书模块可任意定制,并且省电网公司、地市局、班组各不相同,同时旧数据结构存储多样,与新的试验数据结构差异大,难以转换并统一,总体造成易录入难取出的问题。
发明内容
本发明要解决的技术问题是:提供一种统一标准的试验数据结构体系的构建方法,以解决现有技术中存在的技术问题。
本发明采取的技术方案为:一种统一标准的试验数据结构体系的构建方法,该方法为:提取文本要素数据特征,结合并行计算技术,基于各类设备建立标准数据结构模型,形成数据标准体系,构建新的标准试验数据库。
上述一种统一标准的试验数据结构体系的构建方法包括以下具体步骤:
步骤1:从生产管理系统获取试验数据结构体系模型:梳理所有设备在做预防性试验相关的作业指导书,从生产系统获取梳理出来的作业指导书模板和预防性试验数据;
步骤2:构建基于统一标准的试验数据结构体系模型:从生产系统获取的作业指导书模板和预防性试验数据,构成作业指导书模板;分析从生产系统获取的作业指导书模板,并根据实际需要对模板进行完善,形成统一标准模板;同时对于设备出厂交接的试验数据模板,从厂商获取(在做出厂交接试验的时候,厂商会有一个出厂交接试验word模板,同时模板中填写设备出厂交接试验数据)试验数据模板并在系统中生成交接试验版本模板,最终由作业指导书模板、统一标准模板和试验数据模板构建基于统一标准的试验数据结构体系模型。
步骤3:试验数据补录:对于外部系统缺失的试验数据需要在试验数据挖掘智能作业管控系统中进行补录,补录是在基于统一标准的试验数据结构体系模型中选择相应的作业指导书模板,根据已定制的模板在系统中实现试验数据补录功能。
上述文本数据特征提取方法为:从基于统一标准的试验数据机构体系模型中通过数据接口获取文本数据,采用文档频数特征选择算法技术,找到出现次数较多的字段,形成数据标准体系。
上述文档频数特征选择算法为:在训练文本集中对每个特征计算它的文档频数,若该项的DF 值小于某个阈值则将其删除,若其DF值大于某个阈值也将其去掉。
上述并行计算技术为:用多个处理器来协同求解同一问题,即将被求解的问题分解成若干个部分,各部分均由一个独立的处理机来并行计算。
本发明的有益效果:与现有技术相比,本发明基于统一标准的试验数据结构体系,提取要素数据特征,结合并行计算技术,基于各类设备建立标准数据结构模型,形成数据标准体系,构建新的标准试验数据库,为后续进行的智能数据诊断分析与策略制定提供充分的数据支撑。
附图说明
图1是本发明的流程图。
具体实施方式
下面结合具体的实施例对本发明进行进一步介绍。
实施例1:一种统一标准的试验数据结构体系的构建方法,该方法为:提取文本要素数据特征,结合并行计算技术,基于各类设备建立标准数据结构模型,形成数据标准体系,构建新的标准试验数据库。
上述一种统一标准的试验数据结构体系的构建方法包括以下具体步骤:
步骤1:从生产管理系统获取试验数据结构体系模型:梳理所有设备在做预防性试验相关的作业指导书,从生产系统获取梳理出来的作业指导书模板和预防性试验数据;
步骤2:构建基于统一标准的试验数据结构体系模型:从生产系统获取的作业指导书模板和预防性试验数据,构成作业指导书模板;分析从生产系统获取的作业指导书模板,并根据实际需要对模板进行完善,形成统一标准模板;同时对于设备出厂交接的试验数据模板,从厂商获取(在做出厂交接试验的时候,厂商会有一个出厂交接试验word模板,同时模板中填写设备出厂交接试验数据)试验数据模板并在系统中生成交接试验版本模板,最终由作业指导书模板、统一标准模板和试验数据模板构建基于统一标准的试验数据结构体系模型。
步骤3:试验数据补录:试验数据挖掘智能作业管控系统中的试验数据源头有两个:
1)对于外部系统已经存在的试验数据直接通过接口从外部系统获取,主要包括从以前旧系统中一次性拿到历史试验数据,从生产系统中每天获取实时试验数据。
2)对于外部系统缺失的试验数据需要在试验数据挖掘智能作业管控系统中进行补录,补录是在基于统一标准的试验数据结构体系模型中选择相应的作业指导书模板,根据已定制的模板在系统中实现试验数据补录功能。
上述文本数据特征提取方法为:从基于统一标准的试验数据机构体系模型中通过数据接口获取文本数据,采用文档频数特征选择算法技术,找到出现次数较多的字段,形成数据标准体系。
文档频数(Document Frequency, DF)是最为简单的一种特征选择算法,它指的是在整个数据集中有多少个文本包含这个单词。在训练文本集中对每个特征计一算它的文档频次,并且根据预先设定的阑值去除那些文档频次特别低和特别高的特征。文档频次通过在训练文档数量中计算线性近似复杂度来衡量巨大的文档集,计算复杂度较低,能够适用于任何语料,因此是特征降维的常用方法。
在训练文本集中对每个特征计算它的文档频数,若该项的DF 值小于某个阈值则将其删除,若其DF值大于某个阈值也将其去掉。因为他们分别代表了“没有代表性”和“没有区分度”2 种极端的情况。DF 特征选取使稀有词要么不含有用信息,要么太少而不足以对分类产生影响,要么是噪音,所以可以删去。DF 的优点在于计算量很小,而在实际运用中却有很好的效果。缺点是稀有词可能在某一类文本中并不稀有,也可能包含着重要的判断信息,简单舍弃,可能影响分类器的精度。
文档频数最大的优势就是速度快,它的时间复杂度和文本数量成线性关系,所以非常适合于超大规模文本数据集的特征选择。不仅如此,文档频数还非常地高效,在有监督的特征选择应用中当删除90%单词的时候其性能与信息增益和x2 统计的性能还不相上下。DF 是最简单的特征项选取方法,而且该方法的计算复杂度低, 能够胜任大规模的分类任务。
但如果某一稀有词条主要出现在某类训练集中,却能很好地反映类别的特征,而因低于某个设定的阈值而滤除掉,这样就会对分类精度有一定的影响。
并行计算(Parallel Computing)是指同时使用多种计算资源解决计算问题的过程,是提高计算机系统计算速度和处理能力的一种有效手段。它的基本思想是用多个处理器来协同求解同一问题,即将被求解的问题分解成若干个部分,各部分均由一个独立的处理机来并行计算。并行计算系统既可以是专门设计的、含有多个处理器的超级计算机,也可以是以某种方式互连的若干台的独立计算机构成的集群。通过并行计算集群完成数据的处理,再将处理的结果返回给用户。
并行计算可分为时间上的并行和空间上的并行。
时间上的并行:是指流水线技术,比如说工厂生产食品的时候步骤分为:
(1)清洗:将食品冲洗干净。
(2)消毒:将食品进行消毒处理。
(3)切割:将食品切成小块。
(4)包装:将食品装入包装袋。
如果不采用流水线,一个食品完成上述四个步骤后,下一个食品才进行处理,耗时且影响效率。但是采用流水线技术,就可以同时处理四个食品。这就是并行算法中的时间并行,在同一时间启动两个或两个以上的操作,大大提高计算性能。
空间上的并行:是指多个处理机并发的执行计算,即通过网络将两个以上的处理机连接起来,达到同时计算同一个任务的不同部分,或者单个处理机无法解决的大型问题。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内,因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (8)

1.一种统一标准的试验数据结构体系的构建方法,其特征在于:该方法为:提取文本要素数据特征,结合并行计算技术,基于各类设备建立标准数据结构模型,形成数据标准体系,构建新的标准试验数据库。
2.根据权利要求1所述的一种统一标准的试验数据结构体系的构建方法,其特征在于:该方法包括以下具体步骤:
步骤1:从生产管理系统获取试验数据结构体系模型:梳理所有设备在做预防性试验相关的作业指导书,从生产系统获取梳理出来的作业指导书模板和预防性试验数据;
步骤2:构建基于统一标准的试验数据结构体系模型:从生产系统获取的作业指导书模板和预防性试验数据,构成作业指导书模板;分析从生产系统获取的作业指导书模板,并根据实际需要对模板进行完善,形成统一标准模板;同时对于设备出厂交接的试验数据模板,从厂商获取试验数据模板并在系统中生成交接试验版本模板,最终由作业指导书模板、统一标准模板和试验数据模板构建基于统一标准的试验数据结构体系模型;
步骤3:试验数据补录:对于外部系统缺失的试验数据需要在试验数据挖掘智能作业管控系统中进行补录,补录是在基于统一标准的试验数据结构体系模型中选择相应的作业指导书模板,根据已定制的模板在系统中实现试验数据补录功能。
3.根据权利要求1所述的一种统一标准的试验数据结构体系的构建方法,其特征在于:文本数据特征提取方法为:从基于统一标准的试验数据机构体系模型中通过数据接口获取文本数据,采用文档频数特征选择算法技术,找到出现次数较多的字段,形成数据标准体系。
4.根据权利要求3所述的一种统一标准的试验数据结构体系的构建方法,其特征在于:文档频数特征选择算法为:在训练文本集中对每个特征计算它的文档频数,若该项的DF 值小于某个阈值则将其删除,若其DF值大于某个阈值也将其去掉。
5.根据权利要求1所述的一种统一标准的试验数据结构体系的构建方法,其特征在于:并行计算技术为:用多个处理器来协同求解同一问题,即将被求解的问题分解成若干个部分,各部分均由一个独立的处理机来并行计算。
6.根据权利要求1所述的一种统一标准的试验数据结构体系的构建方法,其特征在于:并行计算的系统既为含有多个处理器的超级计算机或互连的若干台的独立计算机构成的集群,通过并行计算集群完成数据的处理,再将处理的结果返回给用户。
7.根据权利要求1所述的一种统一标准的试验数据结构体系的构建方法,其特征在于:并行计算包括时间上的并行计算和空间上的并行计算。
8.根据权利要求1所述的一种统一标准的试验数据结构体系的构建方法,其特征在于:空间上的并行:是指多个处理机并发的执行计算,即通过网络将两个以上的处理机连接起来,达到同时计算同一个任务的不同部分。
CN202110747606.1A 2021-07-02 2021-07-02 一种统一标准的试验数据结构体系的构建方法 Pending CN113377745A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110747606.1A CN113377745A (zh) 2021-07-02 2021-07-02 一种统一标准的试验数据结构体系的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110747606.1A CN113377745A (zh) 2021-07-02 2021-07-02 一种统一标准的试验数据结构体系的构建方法

Publications (1)

Publication Number Publication Date
CN113377745A true CN113377745A (zh) 2021-09-10

Family

ID=77580758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110747606.1A Pending CN113377745A (zh) 2021-07-02 2021-07-02 一种统一标准的试验数据结构体系的构建方法

Country Status (1)

Country Link
CN (1) CN113377745A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577944A (zh) * 2013-11-29 2014-02-12 国家电网公司 一种设备管理系统和方法
CN106570105A (zh) * 2016-11-01 2017-04-19 广西电网有限责任公司电力科学研究院 一种电力设备试验报告的结构化处理方法
CN107368957A (zh) * 2017-07-04 2017-11-21 广西电网有限责任公司电力科学研究院 一种设备状态监测数据质量评测体系的构建方法
CN108920609A (zh) * 2018-06-28 2018-11-30 南方电网科学研究院有限责任公司 基于多维度分析的电力实验数据挖掘方法
CN110910283A (zh) * 2019-10-18 2020-03-24 平安科技(深圳)有限公司 生成法律文书的方法、装置、设备和存储介质
CN111241812A (zh) * 2020-01-09 2020-06-05 内蒙古工业大学 基于并行改进的K-means算法的大数据文本聚类试验方法及系统
CN111709668A (zh) * 2020-07-07 2020-09-25 广西电网有限责任公司 基于数据挖掘技术的电网设备参数风险识别方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577944A (zh) * 2013-11-29 2014-02-12 国家电网公司 一种设备管理系统和方法
CN106570105A (zh) * 2016-11-01 2017-04-19 广西电网有限责任公司电力科学研究院 一种电力设备试验报告的结构化处理方法
CN107368957A (zh) * 2017-07-04 2017-11-21 广西电网有限责任公司电力科学研究院 一种设备状态监测数据质量评测体系的构建方法
CN108920609A (zh) * 2018-06-28 2018-11-30 南方电网科学研究院有限责任公司 基于多维度分析的电力实验数据挖掘方法
CN110910283A (zh) * 2019-10-18 2020-03-24 平安科技(深圳)有限公司 生成法律文书的方法、装置、设备和存储介质
CN111241812A (zh) * 2020-01-09 2020-06-05 内蒙古工业大学 基于并行改进的K-means算法的大数据文本聚类试验方法及系统
CN111709668A (zh) * 2020-07-07 2020-09-25 广西电网有限责任公司 基于数据挖掘技术的电网设备参数风险识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李兆廷等: "《云计算导论》", 31 August 2020 *

Similar Documents

Publication Publication Date Title
Aminifar et al. Probabilistic multistage PMU placement in electric power systems
CN108764984A (zh) 一种基于大数据的电力用户画像构建方法及系统
CN112287504B (zh) 一种配电网离线/在线一体化仿真系统和方法
CN103577605A (zh) 基于数据融合和数据挖掘的数据仓库及其应用方法
CN103825755A (zh) 电力二次系统的建模方法与系统
EP3871120A1 (en) Apparatus and method for detecting an anomaly among successive events and computer program product therefor
CN111178587A (zh) 一种基于spark框架的短期电力负荷快速预测方法
CN105224434A (zh) 使用机器学习识别软件阶段
CN111259073A (zh) 基于日志、流量和业务访问的业务系统运行状态智能研判系统
Trindade et al. Data analytics in smart distribution networks: Applications and challenges
Liu et al. Evolving graph based power system EMS real time analysis framework
CN109658006A (zh) 一种大规模风电场群辅助调度方法及装置
Raspopov et al. Development of methods and algorithms for identification of a type of electric energy consumers using artificial intelligence and machine learning models for Smart Grid Systems
CN114021425B (zh) 电力系统运行数据建模与特征选择方法、装置、电子设备和存储介质
CN113377745A (zh) 一种统一标准的试验数据结构体系的构建方法
Liu et al. An electric power sensor data oriented data cleaning solution
CN107194529B (zh) 基于挖掘技术的配电网可靠性经济效益分析方法及装置
CN115203873A (zh) 应用于配电网的拓扑关系构建方法、装置、设备及介质
CN114168662A (zh) 一种基于多数据源的配电网问题梳理分析方法及系统
Guo et al. Influencing Factors and Forecasting Statistics of Enterprise Market Sales Based on Big Data and Intelligent IoT
CN103425476B (zh) 用于为性能监控的用户界面提供数据的方法和系统
Carmona et al. Glasso model for electric load and wind power and monte carlo scenario generation
CN111475548A (zh) 一种基于大数据挖掘技术的用电异常分析决策系统
Hu et al. Research on complex data analysis model based on distribution automation data
Wang et al. An intelligent DevOps platform research and design based on machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210910

RJ01 Rejection of invention patent application after publication