CN105550940A - 一种电网设备标准指标数据的挖掘提取方法 - Google Patents
一种电网设备标准指标数据的挖掘提取方法 Download PDFInfo
- Publication number
- CN105550940A CN105550940A CN201510834351.7A CN201510834351A CN105550940A CN 105550940 A CN105550940 A CN 105550940A CN 201510834351 A CN201510834351 A CN 201510834351A CN 105550940 A CN105550940 A CN 105550940A
- Authority
- CN
- China
- Prior art keywords
- index
- grid equipment
- standard
- extracting method
- excavation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000005065 mining Methods 0.000 title claims abstract description 9
- 238000013467 fragmentation Methods 0.000 claims abstract description 22
- 238000006062 fragmentation reaction Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000007418 data mining Methods 0.000 claims abstract description 4
- 238000009412 basement excavation Methods 0.000 claims description 14
- 238000005194 fractionation Methods 0.000 claims description 4
- 238000012790 confirmation Methods 0.000 claims description 2
- 238000012795 verification Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract description 6
- 239000000284 extract Substances 0.000 abstract description 4
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 238000012423 maintenance Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种电网设备标准指标数据的挖掘提取方法,它包括如下步骤:(1)根据电网设备标准体例结构对电网设备标准进行碎片化加工标引;(2)对碎片化加工标引得到的电网设备标准进行数据挖掘,并分析出指标体系;(3)根据指标体系抽取指标值;(4)对同种设备不同标准之间的指标体系和指标值进行比对分析。本发明实现了电网设备标准指标的自动提取和比对,能够结合设备关键词及碎片化以后的标准体例结构自动挖掘和发现指标并提取指标属性性,在提高正确率的同时提高了自动化程度,从而提高效率,可以在业务应用中实时动态提取。
Description
技术领域
本发明涉及电力数据的挖掘技术,更具体地说,涉及一种电网设备标准指标数据的挖掘提取方法。
背景技术
随着知识经济时代的到来,信息和知识已经成为人类社会取得可持续发展的重要基础。在这一背景下,网络信息技术的迅猛发展改变了人们使用信息的习惯,传统基于文献服务方式的信息获取已经不能满足用户的需求,用户需要更加精准的信息服务,针对不同的业务应用如何实现细粒度的内容提取和知识标引是提供细粒度精准服务的关键。无论是专业内容服务商还是搜索引擎都纷纷对原始内容进行深度标引的内容提取,进而提供面向问题的知识服务,这是整个信息服务领域的发展方向。
信息服务和知识服务方式的改变对标准化工作及标准服务的形式、方式都产生了巨大影响,标准服务的模式也内传统的文献服务转向碎片化的知识服务,同时基于深度标引的标准内容揭示和深度利用已经成为企业标准化工作的重点,无论是标准化工作人员、工程技术人员还是企业管理人员都迫切需要一种面向未来的全新标准服务模式和内容深度利用模式。对于电网公司各种大型电力设备除了各厂商自己的企业标准以外还有国家标准及行业标准对设备的各项功能和性能指标进行规范,充分利用这些标准及指标对于电网设备的维护、检修具有十分重要的意义。
发明内容
本发明的目的在于:提供一种电网设备标准指标数据的挖掘提取方法,对设备的各项功能和性能指标进行规范,以及利用这些标准及指标对于电网设备的维护、检修。
为了实现上述目的,本发明提供了一种电网设备标准指标数据的挖掘提取方法,它包括如下步骤:(1)根据电网设备标准体例结构对电网设备标准进行碎片化加工标引;(2)对碎片化加工标引得到的电网设备标准进行数据挖掘,并分析出指标体系;(3)根据指标体系抽取指标值;(4)对同种设备不同标准之间的指标体系和指标值进行比对分析。
作为本发明的一种改进,在步骤(1)中,所述碎片化加工包括标准章节拆分、术语识别和图表拆分。
作为本发明的一种改进,步骤(1)还包括:将碎片化加工后的电网设备标准保存为XML文件。
作为本发明的一种改进,在步骤(1)中还包括:在保存为XML文件之前进行人工审核确认。
作为本发明的一种改进,步骤(2)包括:根据电网设备体系和业务应用关键词表对碎片化的XML内容进行挖掘分析,发现设备指标并建立初步的指标框架体系,再通过对企标、行标、国标的挖掘结果进行横向对比,从中找到所有可能的指标列表,并在基础上建立多层级的设备指标体系。
作为本发明的一种改进,步骤(3)包括:对具体的标准内容进行挖掘分析,通过模式匹配、句法分析识别具体指标内容单元,然后提取指标属性值,并用XML进行表示和存储,形成指标知识单元。
作为本发明的一种改进,步骤(4)包括:对同种设备不同标准的指标体系框架进行对比分析,通过主题关联、相似分析以及模式匹配,将不同标准之间的指标体系进行映射和关联,并就具体的指标值和属性值进行比对,分析其差异性,为设备的运维提供保障。
与现有技术相比,本发明实现了电网设备标准指标的自动提取和比对,能够结合设备关键词及碎片化以后的标准体例结构自动挖掘和发现指标并提取指标属性性,在提高正确率的同时提高了自动化程度,从而提高效率,可以在业务应用中实时动态提取。
附图说明
下面结合附图和具体实施方式,对本发明的结构及其有益技术效果进行详细说明。
图1为本发明电网设备标准指标数据的挖掘提取方法的流程框图。
图2为本发明的电网设备标准碎片化加工标引流程图。
图3为本发明的指标体系挖掘及指标提取流程图。
图4为本发明的电网设备标准指标提取示例示意图。
具体实施方式
为了使本发明的发明目的、技术方案及其有益技术效果更加清晰,以下结合附图和具体实施方式,对本发明进行进一步详细说明。应当理解的是,本说明书中描述的具体实施方式仅仅是为了解释本发明,并非为了限定本发明。
请参阅图1,本发明电网设备标准指标数据的挖掘提取方法包括如下步骤:(1)根据电网设备标准体例结构对电网设备标准进行碎片化加工标引,对于本系统碎片化主要是指对电网设备标准根据其体例结构和目录层次进行拆分,形成一个个的内容单元,并对标准正文中出现的图片、表格等内容单元进行单独提取和保存;(2)对碎片化加工标引得到的电网设备标准进行数据挖掘,并分析出指标体系;(3)根据指标体系抽取指标值;(4)对同种设备不同标准之间的指标体系和指标值进行比对分析。
请参阅图2,在步骤(1)中,根据电网设备标准体例结构结合标准的章节目录进行碎片化拆分,然后保存成xml格式,本发明在碎片化加工过程中实现了自动拆分功能,系统通过版面分析技术结合标准本身的目录结构自动拆分,再通过加工人员的少量修正达到理想的拆分标引效果。
请参阅图3,在步骤(2)中,本发明是在对标准内容按结构进行碎片化的基础上进行,因此本发明首先根据电网设备体系和业务应用关键词表对碎片化的XML内容进行挖掘分析,从中发现设备指标,建立初步的指标框架体系,再通过对企标、行标、国标的挖掘结果进行横向对比,从中找到所有可能的指标列表,并在基础上建立多层级的设备指标体系;在步骤(3)中,建立设备指标体系框架以后,对具体的标准内容进行挖掘分析,通过模式匹配、句法分析等技术手段识别具体指标内容单元,然后提取指标属性值,并用XML进行表示和存储,形成指标知识单元;对同种设备不同标准的指标体系框架进行对比分析,通过主题关联、相似分析以及模式匹配,将不同标准之间的指标体系进行映射和关联,并就具体的指标值和属性值进行比对,分析其差异性,为设备的运维提供保障。
请参阅图4,本发明电网设备标准指标数据的挖掘提取方法实施过程中对电网设备标准的版面识别、划分等过程进行的标注。
根据上述说明书的揭示和教导,本发明所属领域的技术人员还可以对上述实施方式进行适当的变更和修改。因此,本发明并不局限于上面揭示和描述的具体实施方式,对本发明的一些修改和变更也应当落入本发明的权利要求的保护范围内。此外,尽管本说明书中使用了一些特定的术语,但这些术语只是为了方便说明,并不对本发明构成任何限制。
Claims (7)
1.一种电网设备标准指标数据的挖掘提取方法,其特征在于,它包括如下步骤:
(1)根据电网设备标准体例结构对电网设备标准进行碎片化加工标引;
(2)对碎片化加工标引得到的电网设备标准进行数据挖掘,并分析出指标体系;
(3)根据指标体系抽取指标值;
(4)对同种设备不同标准之间的指标体系和指标值进行比对分析。
2.根据权利要求1所述的电网设备标准指标数据的挖掘提取方法,其特征在于,在步骤(1)中,所述碎片化加工包括标准章节拆分、术语识别和图表拆分。
3.根据权利要求1所述的电网设备标准指标数据的挖掘提取方法,其特征在于,步骤(1)还包括:将碎片化加工后的电网设备标准保存为XML文件。
4.根据权利要求3所述的电网设备标准指标数据的挖掘提取方法,其特征在于,在步骤(1)中还包括:在保存为XML文件之前进行人工审核确认。
5.根据权利要求3所述的电网设备标准指标数据的挖掘提取方法,其特征在于,步骤(2)包括:根据电网设备体系和业务应用关键词表对碎片化的XML内容进行挖掘分析,发现设备指标并建立初步的指标框架体系,再通过对企标、行标、国标的挖掘结果进行横向对比,从中找到所有可能的指标列表,并在基础上建立多层级的设备指标体系。
6.根据权利要求5所述的电网设备标准指标数据的挖掘提取方法,其特征在于,步骤(3)包括:对具体的标准内容进行挖掘分析,通过模式匹配、句法分析识别具体指标内容单元,然后提取指标属性值,并用XML进行表示和存储,形成指标知识单元。
7.根据权利要求5所述的电网设备标准指标数据的挖掘提取方法,其特征在于,步骤(4)包括:对同种设备不同标准的指标体系框架进行对比分析,通过主题关联、相似分析以及模式匹配,将不同标准之间的指标体系进行映射和关联,并就具体的指标值和属性值进行比对,分析其差异性,为设备的运维提供保障。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510834351.7A CN105550940A (zh) | 2015-11-25 | 2015-11-25 | 一种电网设备标准指标数据的挖掘提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510834351.7A CN105550940A (zh) | 2015-11-25 | 2015-11-25 | 一种电网设备标准指标数据的挖掘提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105550940A true CN105550940A (zh) | 2016-05-04 |
Family
ID=55830118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510834351.7A Pending CN105550940A (zh) | 2015-11-25 | 2015-11-25 | 一种电网设备标准指标数据的挖掘提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105550940A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021393A (zh) * | 2016-05-11 | 2016-10-12 | 南方电网科学研究院有限责任公司 | 面向移动设备的电网设备标准信息检索方法和系统 |
CN107491505A (zh) * | 2017-07-31 | 2017-12-19 | 北京市天元网络技术股份有限公司 | 一种通用指标处理方法及系统 |
CN109086449A (zh) * | 2018-08-21 | 2018-12-25 | 同方知网数字出版技术股份有限公司 | 一种基于xml碎片化技术进行文献学习的方法 |
CN109885658A (zh) * | 2019-02-19 | 2019-06-14 | 安徽省泰岳祥升软件有限公司 | 指标数据提取方法、装置和计算机设备 |
CN113468377A (zh) * | 2021-07-01 | 2021-10-01 | 同方知网(北京)技术有限公司 | 一种视频与文献关联整合方法 |
CN113962519A (zh) * | 2021-09-10 | 2022-01-21 | 中国计量大学 | 一种企业产品标准技术指标风险识别方法及其系统 |
-
2015
- 2015-11-25 CN CN201510834351.7A patent/CN105550940A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021393A (zh) * | 2016-05-11 | 2016-10-12 | 南方电网科学研究院有限责任公司 | 面向移动设备的电网设备标准信息检索方法和系统 |
CN107491505A (zh) * | 2017-07-31 | 2017-12-19 | 北京市天元网络技术股份有限公司 | 一种通用指标处理方法及系统 |
CN109086449A (zh) * | 2018-08-21 | 2018-12-25 | 同方知网数字出版技术股份有限公司 | 一种基于xml碎片化技术进行文献学习的方法 |
CN109885658A (zh) * | 2019-02-19 | 2019-06-14 | 安徽省泰岳祥升软件有限公司 | 指标数据提取方法、装置和计算机设备 |
CN109885658B (zh) * | 2019-02-19 | 2021-10-26 | 安徽省泰岳祥升软件有限公司 | 指标数据提取方法、装置和计算机设备 |
CN113468377A (zh) * | 2021-07-01 | 2021-10-01 | 同方知网(北京)技术有限公司 | 一种视频与文献关联整合方法 |
CN113962519A (zh) * | 2021-09-10 | 2022-01-21 | 中国计量大学 | 一种企业产品标准技术指标风险识别方法及其系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105550940A (zh) | 一种电网设备标准指标数据的挖掘提取方法 | |
CN105159822A (zh) | 一种基于文本词性和程序调用关系的软件缺陷定位方法 | |
CN105373590A (zh) | 知识数据的处理方法及装置 | |
CN104331437A (zh) | 生成图片描述信息的方法和装置 | |
CN104252531A (zh) | 一种文件类型识别方法及装置 | |
CN103077277A (zh) | 基于标准土层的岩土工程勘察图形化分层及数据处理方法 | |
CN104077727A (zh) | 变电站电气设备台账智能录入方法与系统 | |
CN103294820A (zh) | 基于语义扩展的web页面归类方法和系统 | |
CN105426379A (zh) | 基于词语位置的关键字权值计算方法 | |
CN102737045B (zh) | 一种相关度计算方法和装置 | |
Sevara et al. | Image-based modeling of the present past: building 3D models of archaeological environments from digital photographs | |
CN105718441B (zh) | 一种查找不同平台间功能相似ui组件的方法和装置 | |
CN117171296A (zh) | 信息获取方法、装置和电子设备 | |
CN111723297B (zh) | 一种面向网格社情研判的双重语义相似度判别方法 | |
CN104298786B (zh) | 一种图像检索方法及装置 | |
CN104636324B (zh) | 话题溯源方法和系统 | |
CN102200966A (zh) | 一种版面信息提取和加工的方法 | |
CN105528341A (zh) | 具有领域定制功能的术语译文挖掘系统及方法 | |
CN102831151B (zh) | 电子文档的生成方法和装置 | |
CN107741925B (zh) | 地下管线勘测数据自动转换方法、装置 | |
CN103902905B (zh) | 基于软件结构聚类的恶意代码生成器识别方法及系统 | |
CN105740253A (zh) | 一种地址信息的处理方法及装置 | |
Chang et al. | Technology for forensic analysis of synchronized smartphone backup data | |
Wang et al. | Research on Analysis and Visualization of The DataTransformation Interface Based on Logging While Drilling (LWD) | |
CN105224312A (zh) | 一种基于公式解析的石油测井模型处理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160504 |