CN103927296A - 输变电工程word文档段落内容中工程特性指标的智能提取方法 - Google Patents
输变电工程word文档段落内容中工程特性指标的智能提取方法 Download PDFInfo
- Publication number
- CN103927296A CN103927296A CN201410081102.0A CN201410081102A CN103927296A CN 103927296 A CN103927296 A CN 103927296A CN 201410081102 A CN201410081102 A CN 201410081102A CN 103927296 A CN103927296 A CN 103927296A
- Authority
- CN
- China
- Prior art keywords
- paragraph
- outline
- rank
- content
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了输变电工程word文档段落内容中工程特性指标的智能提取方法,该方法依次包括创建工程特性指标的指标库、工程特性指标的大纲级别提取和工程特性指标的段落内容提取,其中,创建的指标库作为工程特性指标提取的基础数据库,在对输变电工程特性指标进行提取时,首先进行大纲级别提取,然后进行段落内容提取,提取后得到所需的输变电工程特性指标。该提取方法能够从设计文件中,自动提取所需的输变电工程特性指标信息,提高专家在设计评审中的工作效率。
Description
技术领域
本发明涉及输变电工程word文档中工程特性指标的提取方法,具体是指输变电工程word文档段落内容中工程特性指标的智能提取方法。
背景技术
在输变电工程评审工作中,评审专家需要反复的阅读评审报告才能从大量的文字和表格中提炼出评审指标内容,然后再综合给出评审意见。该过程中专家需要对文档内容进行反复的搜索,并记录相关指标内容,这些都需要专家手动完成,大大影响专家的工作效率和准确性。
工程特性指标信息主要存在工程设计报告中,不同的特性指标分布在不同的章节用正段文字描述说明或者采用表格方式说明。查看工程报告、模糊查找工程特性指标信息,效率低下。
发明内容
本发明的目的是提供输变电工程word文档段落内容中工程特性指标的智能提取方法,该提取方法能够从设计文件中,自动提取所需的输变电工程特性指标信息,提高专家在设计评审中的工作效率。
本发明的上述目的通过如下技术方案来实现的:
输变电工程word文档段落内容中工程特性指标的智能提取方法,其特征在于:该方法依次包括创建工程特性指标的指标库、工程特性指标的大纲级别提取和工程特性指标的段落内容提取,其中,创建的指标库作为工程特性指标提取的基础数据库,在对输变电工程特性指标进行提取时,首先进行大纲级别提取,然后进行段落内容提取;
所述的大纲级别提取依次包括如下步骤:
(1)初始化word文档,记录每一个表格所占用的段落数量;
(2)遍历word文档中的每一个段落,解析段落属性信息,记录每一个段落数;
(3)判断段落属性是否在表格中,若段落在表格中,则跳过该表格所占的段落数量,同时记录该表格在文档中出现的顺序号和所在的大纲标题,返回上述步骤(2);若段落不在表格中,则继续下述步骤(4);
(4)判断段落属性,如果段落属性值不是正文文本,直接取出段落大纲级别值并记录所在的级别;如果段落属性值是正文文本,则把大纲级别设置为正文文本,返回上述步骤(2);
(5)判断大纲级别为正文文本,使用正则表达式对段落内容进行解析,解析规则如下:
a.自定义大纲段落的特征是以数字和字母开头,大纲编号之间用“.”进行分割,并且若大纲后为数字开始内容则他们之间必定有空格进行区分;
b.过滤掉以数字开头,并非大纲的段落;
c.根据数字、字母使用正则表达式解析段落的大纲级别;
所述的段落内容提取依次包括如下步骤:
(1)通过创建的指标库获取工程特性指标所在章节标题、内容提取的关键字以及近义词、内容提取方式;
(2)匹配大纲级别提取的结果,获取对应大纲标题以及下面子节点大纲的段落内容;
(3)利用关键字以及近义词、内容提取方式,对段落内容进行提取,提取后得到所需的输变电工程特性指标。
与现有技术相比,本发明能够对输变电工程word文档段落内容中工程特性指标进行提取,提高专家在设计评审中的工作效率。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细说明。
图1为本发明智能提取方法的整体流程框图;
图2为本发明智能提取方法中大纲级别提取的流程框图;
图3为本发明智能提取方法中段落内容提取的流程框图;
图4为本发明智能提取方法中创建的指标库的示意图;
图5为本发明智能提取方法的提取结果示意图。
具体实施方式
如图1至图5所示,本发明输变电工程word文档段落内容中工程特性指标的智能提取方法,该方法依次包括创建工程特性指标的指标库、工程特性指标的大纲级别提取和工程特性指标的段落内容提取,其中,创建的指标库作为工程特性指标提取的基础数据库,在对输变电工程特性指标进行提取时,首先进行大纲级别提取,然后进行段落内容提取。
首先对工程特性指标信息进行定义,然后把工程设计报告进行矢量化,提取报告中大纲标题,划分报告中文字描述和表格描述,采用多种方式对工程特性信息进行提取并综合展示,方便评审专家查看工程特性指标信息,提高评审专家的评审效率。智能提取的操作流程图如图1所示:
指标库的创建
指标库是组织和存储工程特性指标单元,工程特性指标采用树形结构方式组织和存储,每个工程指标包含基础信息和提取方法信息,一个指标可以多种提取方法。指标基础特性信息主要有:指标名称、所属专业、所属工程类型、电压等级、指标单位等信息,提取方法信息:评审阶段、章节标题、是否表格提取、行标题、列标题、表达式、关键字、提取方法等。指标库是智能提取的基础数据,评审专家可以自定义工程特性指标数据。创建的指标库如图4所示。
文档预处理提取大纲级别
在word中,每一个段落都有大纲级别属性:正文文本或者是具体级别,如1级、2级、3级……,在编辑一篇word文档时,人们可以使用word自带的段落标题、项目符号等统称“大纲级别”,word中自带的大纲级别时一个种树形结构的数据;同时,也可以直接编写段落编号,通过设置一些常用的数字和字母标识来区分不同的段落标题,这些标题称为“自定义大纲级别”,如“1标题1”或“a标题a”,自定义大纲级别是word文档本身不能识别的。因此,在对word文档的大纲级别进行提取时需要考虑word自身大纲级别和自定义大纲级别进行提取。
在提取文档大纲级别时,需要同时记录大纲级别的再文档中段落号、大纲所在级别以及表格所在大纲级别。大纲级别提取流程图如图2所示:
对word文档中大纲级别提取依次包括如下步骤:
1.初始化word文档,记录每一个表格所占用的段落数量;
2.遍历word文档中的每一个段落,解析段落属性信息,记录每一个段落数;
3.判断段落属性是否在表格中,若段落在表格中,则跳过该表格所占的段落数量,同时记录该表格在文档中出现的顺序号和所在的大纲标题,返回上述步骤2若段落不在表格中,则继续下述步骤4;
4.判断段落属性,如果段落属性值不是正文文本,直接取出段落大纲级别值并记录所在的级别;如果段落属性值是正文文本,则把大纲级别设置为正文文本,返回上述步骤2;
5.判断大纲级别为正文文本,使用正则表达式对段落内容进行解析,解析规则如下:
a.自定义大纲段落的特征是以数字和字母开头,大纲编号之间用“.”进行分割,并且若大纲后为数字开始内容则他们之间必定有空格进行区分,如“1110kV配电装置”;
b.过滤掉以数字开头,并非大纲的段落,如“220千伏尾塘变电站主要供电范围为惠城区西南部地区”开始的段落,这种方式通过正则表达式过滤数字后面是“kV、mA、千伏、回”等特定字符;
c.根据数字、字母使用正则表达式解析段落的大纲级别。
段落内容提取
段落内容提取流程图如图3所示,段落内容提取依次包括如下步骤:
1.通过创建的指标库获取工程特性指标所在章节标题、内容提取的关键字以及近义词、内容提取方式;
2.匹配大纲级别提取的结果,获取对应大纲标题以及下面子节点大纲的段落内容;
3.利用关键字以及近义词、内容提取方式,对段落内容进行提取,提取后得到所需的输变电工程特性指标,如图5所示。
上述步骤3中,对段落内容进行提取,可以采用如下的提取方式:
表达式:在相关标题中提取内容,按照配置正则表达式提取指标信息;
断句法:在相关标题中提取内容,按照配置关键字信息及其近义词,提取指标所在的语句;
完全匹配法:在相关标题中提取内容,按照配置关键字及其近义词,利用柔性匹配算法中的BPD算法进行快速提取;
提取章节内容:提取出大纲标题所在章节下的段落内容。
工程特性信息展示
将提取出的工程对应的技术指标进行按照工程数和表格的方式展示,供专家评审查阅,同时专家可以直接对所提取的指标值进行修改、文档定位高亮显示。
本发明的上述实施例并不是对本发明保护范围的限定,本发明的实施方式不限于此,凡此种种根据本发明的上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本发明上述基本技术思想前提下,对本发明上述结构做出的其它多种形式的修改、替换或变更,均应落在本发明的保护范围之内。
Claims (1)
1.输变电工程word文档段落内容中工程特性指标的智能提取方法,其特征在于:该方法依次包括创建工程特性指标的指标库、工程特性指标的大纲级别提取和工程特性指标的段落内容提取,其中,创建的指标库作为工程特性指标提取的基础数据库,在对输变电工程特性指标进行提取时,首先进行大纲级别提取,然后进行段落内容提取;
所述的大纲级别提取依次包括如下步骤:
(1)初始化word文档,记录每一个表格所占用的段落数量;
(2)遍历word文档中的每一个段落,解析段落属性信息,记录每一个段落数;
(3)判断段落属性是否在表格中,若段落在表格中,则跳过该表格所占的段落数量,同时记录该表格在文档中出现的顺序号和所在的大纲标题,返回上述步骤(2);若段落不在表格中,则继续下述步骤(4);
(4)判断段落属性,如果段落属性值不是正文文本,直接取出段落大纲级别值并记录所在的级别;如果段落属性值是正文文本,则把大纲级别设置为正文文本,返回上述步骤(2);
(5)判断大纲级别为正文文本,使用正则表达式对段落内容进行解析,解析规则如下:
a.自定义大纲段落的特征是以数字和字母开头,大纲编号之间用“.”进行分割,并且若大纲后为数字开始内容则他们之间必定有空格进行区分;
b.过滤掉以数字开头,并非大纲的段落;
c.根据数字、字母使用正则表达式解析段落的大纲级别;
所述的段落内容提取依次包括如下步骤:
(1)通过创建的指标库获取工程特性指标所在章节标题、内容提取的关键字以及近义词、内容提取方式;
(2)匹配大纲级别提取的结果,获取对应大纲标题以及下面子节点大纲的段落内容;
(3)利用关键字以及近义词、内容提取方式,对段落内容进行提取,提取后得到所需的输变电工程特性指标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410081102.0A CN103927296A (zh) | 2014-03-06 | 2014-03-06 | 输变电工程word文档段落内容中工程特性指标的智能提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410081102.0A CN103927296A (zh) | 2014-03-06 | 2014-03-06 | 输变电工程word文档段落内容中工程特性指标的智能提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103927296A true CN103927296A (zh) | 2014-07-16 |
Family
ID=51145519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410081102.0A Pending CN103927296A (zh) | 2014-03-06 | 2014-03-06 | 输变电工程word文档段落内容中工程特性指标的智能提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103927296A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105389302A (zh) * | 2015-10-19 | 2016-03-09 | 广东电网有限责任公司电网规划研究中心 | 一种电网设计评审指标结构信息识别方法 |
CN108062295A (zh) * | 2016-11-09 | 2018-05-22 | 北京国双科技有限公司 | 内容处理方法和装置 |
CN108564997A (zh) * | 2018-04-19 | 2018-09-21 | 北京深度智耀科技有限公司 | 一种临床研究报告生成方法和装置 |
CN110427598A (zh) * | 2019-07-30 | 2019-11-08 | 吴昌议 | 一种继承工厂已有word操作规程实现作业信息化的方法 |
CN113361256A (zh) * | 2021-06-24 | 2021-09-07 | 上海真虹信息科技有限公司 | 一种基于Aspose技术的Word文档快速解析方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101221530A (zh) * | 2008-01-22 | 2008-07-16 | 中兴通讯股份有限公司 | 一种测试用例自动导入方法 |
EP2291010A1 (en) * | 2008-06-05 | 2011-03-02 | Peking University Founder Group Co., Ltd | Structure processing method and apparatus for layout file |
CN102103573A (zh) * | 2009-12-17 | 2011-06-22 | 北大方正集团有限公司 | 一种快速生成开放格式文档的方法及系统 |
CN102486769A (zh) * | 2010-12-02 | 2012-06-06 | 北大方正集团有限公司 | 文档目录处理方法和装置 |
CN102841886A (zh) * | 2011-06-21 | 2012-12-26 | 北大方正集团有限公司 | 拆分文档的方法和装置 |
CN103440232A (zh) * | 2013-09-10 | 2013-12-11 | 青岛大学 | 一种科技论文标准化自动检测编辑方法 |
-
2014
- 2014-03-06 CN CN201410081102.0A patent/CN103927296A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101221530A (zh) * | 2008-01-22 | 2008-07-16 | 中兴通讯股份有限公司 | 一种测试用例自动导入方法 |
EP2291010A1 (en) * | 2008-06-05 | 2011-03-02 | Peking University Founder Group Co., Ltd | Structure processing method and apparatus for layout file |
CN102103573A (zh) * | 2009-12-17 | 2011-06-22 | 北大方正集团有限公司 | 一种快速生成开放格式文档的方法及系统 |
CN102486769A (zh) * | 2010-12-02 | 2012-06-06 | 北大方正集团有限公司 | 文档目录处理方法和装置 |
CN102841886A (zh) * | 2011-06-21 | 2012-12-26 | 北大方正集团有限公司 | 拆分文档的方法和装置 |
CN103440232A (zh) * | 2013-09-10 | 2013-12-11 | 青岛大学 | 一种科技论文标准化自动检测编辑方法 |
Non-Patent Citations (1)
Title |
---|
刘力: ""科技文档信息抽取与格式化技术研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105389302A (zh) * | 2015-10-19 | 2016-03-09 | 广东电网有限责任公司电网规划研究中心 | 一种电网设计评审指标结构信息识别方法 |
CN105389302B (zh) * | 2015-10-19 | 2017-11-28 | 广东电网有限责任公司电网规划研究中心 | 一种电网设计评审指标结构信息识别方法 |
CN108062295A (zh) * | 2016-11-09 | 2018-05-22 | 北京国双科技有限公司 | 内容处理方法和装置 |
CN108564997A (zh) * | 2018-04-19 | 2018-09-21 | 北京深度智耀科技有限公司 | 一种临床研究报告生成方法和装置 |
CN110427598A (zh) * | 2019-07-30 | 2019-11-08 | 吴昌议 | 一种继承工厂已有word操作规程实现作业信息化的方法 |
CN113361256A (zh) * | 2021-06-24 | 2021-09-07 | 上海真虹信息科技有限公司 | 一种基于Aspose技术的Word文档快速解析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103914440A (zh) | 输变电工程word文档表格内容中工程特性指标的智能提取方法 | |
CN103927296A (zh) | 输变电工程word文档段落内容中工程特性指标的智能提取方法 | |
CN102156711B (zh) | 一种基于云存储的电力全文检索方法及系统 | |
CN102930031B (zh) | 由网页中提取双语平行正文的方法和系统 | |
CN104331446B (zh) | 一种基于内存映射的海量数据预处理方法 | |
CN106066866A (zh) | 一种英文文献关键短语自动抽取方法与系统 | |
CN103927358A (zh) | 文本检索方法及系统 | |
CN104063519B (zh) | 基于excel的bpa电网数据解析及管理方法及系统 | |
CN103123650B (zh) | 一种基于整数映射的xml数据库全文索引方法 | |
CN104063365B (zh) | 在pdf文档中插入对象的方法 | |
CN101794307A (zh) | 基于互联网分词思想的车载导航poi搜索引擎 | |
CN104915449A (zh) | 一种基于水利对象分类标签的分面检索系统及方法 | |
CN107766433A (zh) | 一种基于Geo‑BTree的范围查询方法及装置 | |
CN101930481A (zh) | 生成描述指定时间段内电网变化的cim模型的方法和系统 | |
CN105335488A (zh) | 一种知识库构建方法 | |
Kumar et al. | Discovering knowledge landscapes: an epistemic analysis of business and management field in Malaysia | |
CN103970842A (zh) | 一种面向防洪减灾领域的水利大数据存取系统及方法 | |
CN102508901A (zh) | 基于内容的海量图像检索方法和系统 | |
CN107463711A (zh) | 一种数据的标签匹配方法及装置 | |
CN103150632B (zh) | 基于水利云平台的防汛防旱简报生成系统的构建方法 | |
CN103699555A (zh) | 一种适用于调度与变电站一体化系统的多源数据实时库数据生成方法 | |
CN103020283B (zh) | 一种基于背景知识的动态重构的语义检索方法 | |
CN103455964B (zh) | 一种基于案件信息的案件线索分析系统及方法 | |
CN104408128B (zh) | 一种基于b+树异步更新索引的读优化方法 | |
CN106649879A (zh) | 一种图书馆专业书籍智能推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140716 |