CN105389302B - 一种电网设计评审指标结构信息识别方法 - Google Patents

一种电网设计评审指标结构信息识别方法 Download PDF

Info

Publication number
CN105389302B
CN105389302B CN201510680028.9A CN201510680028A CN105389302B CN 105389302 B CN105389302 B CN 105389302B CN 201510680028 A CN201510680028 A CN 201510680028A CN 105389302 B CN105389302 B CN 105389302B
Authority
CN
China
Prior art keywords
index
chapters
sections
information
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510680028.9A
Other languages
English (en)
Other versions
CN105389302A (zh
Inventor
陈锟
陈清财
邓小玉
汤步洲
吴小蕙
曾兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Power Grid Program Research Center of Guangdong Power Grid Co Ltd
Original Assignee
Power Grid Program Research Center of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Power Grid Program Research Center of Guangdong Power Grid Co Ltd filed Critical Power Grid Program Research Center of Guangdong Power Grid Co Ltd
Priority to CN201510680028.9A priority Critical patent/CN105389302B/zh
Publication of CN105389302A publication Critical patent/CN105389302A/zh
Application granted granted Critical
Publication of CN105389302B publication Critical patent/CN105389302B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Water Supply & Treatment (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种电网工程设计评审指标结构信息识别方法,该结构信息识别方法包括如下步骤:抽取文档章节段落结构信息、抽取分工程信息、抽取指标对应属性信息,抽取指标对应所属方案信息。本发明能够从电网设计评审报告中将技术指标的文档结构信息进行抽取,包括使用结构信息识别将文本中使用的分工程的简称或别称与分工程的完整规范名称进行匹配的方法,并准确识别每个分工程的作用域;识别每个方案的作用域并识别文档作者推荐的方案的方法;识别复杂指标值的属性的方法。识别指标结构信息能够精确指标的描述对象,并有助于提高指标抽取的效果。

Description

一种电网设计评审指标结构信息识别方法
技术领域
本发明涉及数据处理领域和电力系统设计领域,尤其涉及一种电网设计评审指标结构信息识别方法。
背景技术
一直以来,在电网工程设计评审应用领域,存在无法从电网工程设计文档中准确提取关键技术指标供评审的问题。导致评审专家需要现场获取大量关键技术指标信息,评审标准不统一、评审效率低、评审效果差。通过机器学习方法,可以利用专家知识对电网工程设计评审报告文档中的有意义的指标值(如新建变电站主变的功率、新建线路工程的曲折系数)进行抽取。然而,由于电网工程设计评审文档中需要抽取的指标不仅存在通过电网工程和指标名称可唯一确定的简单指标,而且大量存在电网工程设计评审体系中的复杂指标需要综合考虑各种文档结构信息才能够有效识别,例如对于可行性研究报告中存在多个线路工程的情况,任何一个线路指标均需要确定其所对应的线路工程。对于电力设计评审报告文档的指标识别,需要解析其文档描述对应指标的结构信息。
经过研究发现,电网工程初步设计文档和电网工程可行性研究报告文档作为指导电网工程建设的设计文档,具有较为复杂的文档结构,有以下几大特点:
(1)文档段落结构复杂,不同研究院或不同编写团队提交的文档段落结构不一致,但是一般每个章节或小章节只涉及一类或部分类别指标。文档章节段落结构信息能够有效的排除或初筛一部分指标,提高识别效率和性能。
(2)部分复杂指标具有层级结构,如“接线方式”,其属性有“工期”和“电压等级”。对于该类复杂指标,需要确定其各个层级属性的取值。
(3)往往在电网工程文档会同时罗列几套方案供对比参考,只有一套方案被推荐采用,而推荐采用的方案内的指标通常是更应该被关注的内容。
(4)对于电网工程可行性研究报告,每份报告中会同时提及几个分工程,一个报告文档中可能获得多个不同取值的指标,这些指标分别对应不同的分工程,需要将分工程提及的指标分别对应至相应的分工程。
发明内容
为解决现有技术的问题,本发明的目的在于提供一种电网设计评审指标结构信息识别方法。
本发明的目的可通过以下的技术措施来实现:
一种电网设计评审指标结构信息识别方法,包括如下步骤:
段落信息识别:识别文章段落结构,对文本切分并按照切分后的段落所涉及的类别归并;
指标对应属性识别:匹配每个待识别所对应属性的指标的多个属性值;
指标可选方案匹配:匹配每个指标的所对应的备选方案,并确定何种候选方案为推荐方案;
电网分工程识别与指标对应:识别分工程的作用域,匹配每个指标对应的分工程信息。
所述段落信息识别包括如下步骤:
文档归一化处理:将文档转换为以行为单位的文本流,同时修正因转换格式带来的错误;
章节识别与去噪:识别正确的章节目录信息,去掉错误的噪音信息;
章节标题抽取:抽取得到正确的章节标题和文档结构;
章节信息识别:提供对每一个章节标题进行分类、关键词抽取、上下文结构对应的功能。
所述章节信息识别步骤包括如下步骤:
章节分类:对章节按照章节标题进行文本分类,分成六类章节;
章节关键词抽取:对章节抽取最能体现章节信息的关键词;
上下为结构对应:提供任意章节的父章节、子章节列表和兄弟章节列表。
所述指标对应属性识别步骤包括如下步骤:
属性归并:分析指标体系结构,将同类指标的同类属性进行合并;
属性抽取:将对属性按照归并后的指标体系进行抽取;
指标属性对应:确定指标和属性的对应关系。
所述指标可选方案匹配包括如下步骤:
方案作用域确定:通过查找方案描述关键词,确定方案作用域;
指标方案匹配:确定指标和方案的匹配关系;
推荐方案确定:识别电网设计评审报告中描述推荐方案的语句,确定推荐方案。
所述电网分工程识别与指标对应中包括如下步骤:
电网分工程名称识别:从电网设计评审报告中抽取其描述的分工程名称;
电网分工程链接对应:通过给定的标注分工程名称,模糊匹配对应到电网设计评审报告抽取的分工程名称;
电网分工程作用域识别:确定任意指标其所对应的电网评审设计报告抽取的分工程名称;
指标分工程对应:确定任意指标其所对应的规范的工程名称。
本发明对比现有技术,有如下优点:
本发明能够从电网设计评审报告中将技术指标的文档结构信息进行抽取,包括使用结构信息识别将文本中使用的分工程的简称或别称与分工程的完整规范名称进行匹配的方法,并准确识别每个分工程的作用域;识别每个方案的作用域并识别文档作者推荐的方案的方法;识别复杂指标值的属性的方法。识别指标结构信息能够精确指标的描述对象,并有助于提高指标抽取的效果。
附图说明
图1是本发明的电网设计评审指标结构信息识别方法的流程图;
图2是本发明方法的段落信息识别流程图;
图3是本发明方法的章节信息识别流程图;
图4是本发明方法的指标对应属性识别流程图;
图5是本发明方法的指标可选方案匹配流程图;
图6是本发明方法的电网分工程识别与指标对应流程图。
具体实施方式
如图1所示,本发明公开了一种电网设计评审指标结构信息识别方法,包括如下步骤:
步骤100:段落信息识别,准确识别文章段落结构,将可以实现文本切分并按照切分后的段落所涉及的类别归并。如图2所示,在段落信息识别中,包括如下步骤:
步骤110:文档归一化处理:将文档转换为以行为单位的文本流,同时修正因转换格式带来的错误。
步骤120:章节识别与去噪:识别正确的章节目录信息,去掉错误的噪音信息。
步骤130:章节标题抽取:从文档中抽取得到正确的章节标题和文档结构。
步骤140:章节信息识别:提供对每一个章节标题进行分类、关键词抽取、上下文结构对应的功能。
如图3所示,在章节信息识别中,包括如下步骤:
步骤141:章节分类:对章节按照章节标题进行文本分类,分成六类(变电二次、变电一次、电缆信息、建设规模、土建、线路工程)章节。
步骤142:章节关键词抽取:对章节抽取最能体现章节信息的关键词。
步骤143:上下文结构对应:提供任意章节的父章节、子章节列表和兄弟章节列表。
步骤200:指标对应属性识别:准确匹配每个待识别所对应属性的指标的多个属性值。如图4所示,指标对应属性识别包括如下步骤:
步骤210:属性归并:分析指标体系结构,将同类指标的同类属性进行合并。
步骤220:属性抽取:将对属性按照归并后的指标体系进行抽取。
步骤230:指标属性对应:确定技术指标和属性的对应关系。
步骤300:指标可选方案匹配:准确匹配每个指标的所对应的备选方案,并确定何种候选方案为推荐方案。如图5所示,指标可选方案匹配包括如下步骤:
步骤310:方案作用域确定:通过查找方案描述关键词,确定方案作用域。
步骤320:指标方案匹配:确定指标和方案的匹配关系。
步骤330:推荐方案确定:识别电网设计评审报告中描述推荐方案的语句,确定推荐方案。
步骤400:电网分工程识别与指标对应:准确识别分工程的作用域,匹配每个指标对应的分工程信息。如图6所示,电网分工程识别与指标对应包括如下步骤:
步骤410:电网分工程名称识别:从电网设计评审报告中抽取其描述的分工程名称。
步骤420:电网分工程链接对应:通过给定的标注分工程名称,模糊匹配对应到电网设计评审报告抽取的分工程名称;
步骤430:电网分工程作用域识别:确定任意指标其所对应的电网评审设计报告抽取的分工程名称。
步骤440:指标分工程对应:确定任意指标其所对应的规范的工程名称。
下面结合具体实例说明本发明方法的具体流程及其效果。
通过以下文本片段为例说明步骤100段落信息识别的实施效果:“第五章输电线路路径及工程设想
5.1概况
5.1.1系统及变电站站址简述
根据我院前期……交通较为便利。
5.1.2设计规模与范围
根据系统专业提资,500kV回隆(阳西)站220kV最终出线14回,本期出线7回:
现状漠南站至登高站方向220kV双回路出线为220k漠登、漠镍同塔双回路线路,在本工程建成前,由220kV翌川用户站配套工程中,解口220k漠镍入登高站,形成220kV漠登甲乙线路。
①220kV回隆至漠南甲乙线路(以下简称:C线)
C线、新建220kV回隆站至漠登甲乙线漠南站侧解口点(JC50)线路长19.4km,导线截面2×630mm2。本工程投产后,形成220kV回隆~漠南双回线路全长约19.9km。
②220kV回隆至登高乙丙线路(以下简称:D线)
D线、新建220kV回隆站至漠登甲乙线登高站侧解口点(JD45)线路长17.7km,导线截面2×630mm2。本工程投产后,形成220kV回隆~登高双回线路全长约29.4km。
③220kV回隆至登高甲(同塔双回架设、备用一回)线路(以下简称:F线)
F线、新建220kV回隆站至登高站同塔双回路(备用1回)线路25.3km,导线截面2×630mm2。”
经过步骤110将上述文档归一化处理,将文档转换为以行为单位的文本流,同时修正因转换格式带来的错误,经过该步骤得到归一化文档如下:
“[[1]]5输电线路路径及工程设想
[[2]]5.1概况
[[3]]5.1.1系统及变电站站址简述
[[4]]根据我院前期……交通较为便利。
[[5]]5.1.2设计规模与范围
[[6]]根据系统专业提资,500kV回隆(阳西)站220kV最终出线14回,本期出线7回:
[[7]]现状漠南站至登高站方向220kV双回路出线为220k漠登、漠镍同塔双回路线路,在本工程建成前,由220kV翌川用户站配套工程中,解口220k漠镍入登高站,形成220kV漠登甲乙线路。
[[8]]1)220kV回隆至漠南甲乙线路(以下简称:C线)
[[9]]C线、新建220kV回隆站至漠登甲乙线漠南站侧解口点(JC50)线路长19.4km,导线截面2×630mm2。本工程投产后,形成220kV回隆~漠南双回线路全长约19.9km。
[[10]]2)220kV回隆至登高乙丙线路(以下简称:D线)
[[11]]D线、新建220kV回隆站至漠登甲乙线登高站侧解口点(JD45)线路长17.7km,导线截面2×630mm2。本工程投产后,形成220kV回隆~登高双回线路全长约29.4km。
[[12]]3)220kV回隆至登高甲(同塔双回架设、备用一回)线路(以下简称:F线)
[[13]]F线、新建220kV回隆站至登高站同塔双回路(备用1回)线路25.3km,导线截面2×630mm2。”
再经过步骤120章节识别与去噪步骤,对步骤110中所有抽取出来的句子,抽取其首的数字并计算其章节号的置信度,去除低置信度的章节号,得到正确的章节号和其对应的行号。结果如下表1所示:
章节号 行号 是否是正确的章节 置信度
5 1 1.0
5.1 2 1.0
5.1.1 3 1.0
5.1.2 5 1.0
表1
接着,经过步骤130章节标题抽取,得道章节标题结果如下表2所示:
章节号 行号 章节标题
5 1 输电线路路径及工程设想
5.1 2 概况
5.1.1 3 系统及变电站站址简述
5.1.2 5 设计规模与范围
表2
经过步骤140章节信息识别,得到章节分类信息、章节关键词、章节上下文结构信息结果如下表3所示:
表3
通过以下文本片段为例说明步骤200指标对应属性识别步骤的实施效果:
“电气一次系统
根据接入系统方案结果,解口220kV龙门站至110kV下桥站110kV线路接入110kV英利站,形成110kV英利站至220kV龙门站1回、110kV英利站至110kV下桥站1回。
110kV英利站最终规模按3台40MVA主变压器考虑,分期建设,本期先上2台。
110kV出线终期为4回,本期上2回(其中1回线路由110kV下桥输变电工程建设),采用架空出线,向西面方向出线;10kV出线终期为24回,本期上16回,采用电缆出线;10kV无功补偿终期为3×2×4008kVar电容器组,本期先上2×2×2004kVar。
……
电气总平面
水平接地体采用-50×5的热镀锌扁钢,垂直接地极采用63×63×6mm的热镀锌角钢。”
在步骤210属性归并中,给定如下表4指标体系结构:
表4
得到归并后的属性,如表5所示:
属性 属性取值范围 对应指标类型
工期 本期、终期 主变数量、出线回路、无功补偿
电压 10kV、110kV 出线
表5
在步骤220属性抽取中,得道属性信息,如表6所示:
属性值 属性 属性偏移量
终期(最终) 工期 104-106
本期 工期 128-130
终期 工期 143-145
本期 工期 149-151
110kV 电压等级 135-140
终期 工期 200-202
本期 工期 207-209
10kV 电压等级 193-197
终期 工期 230-232
本期 工期 251-253
表6
在步骤230指标属性对应中,给定指标值、指标类型和指标位置,属性值、属性类型和属性位置,如表7所示:
表7
得到指标和属性对应关系,如表8所示:
表8
通过以下文本片段为例说明步骤300方案作用域步骤的实施效果:
“[[2529]]2.6.1.1方案概述
[[2530]](1)方案一(推荐方案)
[[2531]]最终出线14回,本期出线7回:
[[2532]]1)双解口220kV漠南~登高双回线路进本站,形成本站至漠南站、登高站各2回,解口段导线截面建议采用2×630mm2;
……
[[2545]]回隆站220kV接入系统方案(方案一)示意图详见图。
[[2546]](2)方案二
[[2547]]最终出线14回,本期出线6回:
[[2548]]1)双解口220kV漠南~登高双回线路进本站,形成本站至漠南站、登高站各2回,解口段导线截面建议采用2×630mm2;
……
[[2561]]回隆站220kV接入系统方案(方案二)示意图详见图。
[[2563]](3)方案三
[[2564]]最终出线14回,本期出线6回:
[[2565]]1)将220kV漠南~阳江单回线路漠南侧改接进本站,同时从本站新建1回线路至漠南站,形成本站至漠南站、阳江站各1回,解口段导线截面建议采用2×630mm2;
……
[[2580]]回隆站220kV接入系统方案(方案三)示意图详见图”
根据步骤310方案作用域确定,得到如下结果:
方案一作用范围:2530至2545行;方案二作用范围:2546至2561行;方案三作用范围:2563至2580行。
根据步骤320,指定指标值和指标位置(行数),确定指标和方案的匹配关系的结果如下表9所示:
表9
根据步骤330,识别“(1)方案一(推荐方案)”中描述方案一为推荐方案,得到如下表10结果:
指标值 指标行数 指标类型(属性)
14 2531 出线规模(终期)
7 2531 出线规模(本期)
2 2532 回路
2×630 2532 导线截面
表10
通过以下文本片段为例说明步骤400电网分工程识别与指标对应步骤的实施效果:
“[[6611]]6.1.2设计规模及范围
[[6612]]根据系统专业提资,220kV诚信站220kV最终出线6回,本期出线6回:
[[6613]]1)解口220kV金源~湖滨、金源~汝湖线路进本站、并新建本站至汝湖站、湖滨站第二回线路(在本工程建成前,由220kV汝湖站线路工程中,汝湖工程新建220kV线路接通220kV河金线金源站方向线路至金源站,而河源站方向停运,形成220kV汝湖~金源单回线路),形成
[[6614]]①220kV诚信~金源甲乙线路(以下简称:A线)
[[6615]]新建220kV诚信至金源甲乙线路长2×5.7km,其中出线段沿规划金石二路北侧走线段杆塔类型均采用钢管杆架设,线路长度为2×1.5km,利用原220kV金湖线、汝金线(现状为河金线)改造段使用双回路铁塔架设,改造段为2×4.2km;拆除原旧双回线路4.2km。
[[6616]]220kV新建线路导线截面拟采用2×630mm2
[[6617]]②220kV诚信~湖滨甲乙线路(以下简称:B线)
[[6618]]新建220kV诚信至湖滨甲乙线线路,新建双回线路长度为2×4.1千米,四回线路4×1.2km;其中出线段沿平行规划金石二路段南侧走线段杆塔类型均采用钢管杆架设,该段长度为2×1.5km,利用原220kV金湖线改造段使用双回路和四回路铁塔架设,改造段为2×3.0km和4×1.2km;拆除旧双回线路2×2.8km,拆除单回线路2.6km。
[[6619]]220kV新建线路导线截面拟采用2×630mm2
[[6620]]2)220kV诚信~汝湖甲乙线路(以下简称:C线)
[[6621]]新建220kV诚信站至汝金线汝湖站侧跳通点同塔双回路线路2×7.7m,其中利用规划走线段采用钢管杆型式架设,其余段利用双回路铁塔型式架设,钢管杆段长度为2×5.2km,双回路铁塔段线路长度为2×2.5km。并且根据城区规划要求,拆除现状河金线单回路线路7.0km和拆除10kV绿委线2.7km。
[[6622]]220kV新建线路导线截面拟采用2×630mm2。”
通过步骤410电网分工程名称识别,得到如下表11结果:
识别分工程名称 位置
诚信站 6612
220kV金源~湖滨、金源~汝湖线 6613
汝湖站 6613
湖滨站 6613
220kV诚信~金源甲乙线路 6614
220kV诚信~湖滨甲乙线路 6617
220kV诚信~汝湖甲乙线路 6620
220kV诚信至金源甲乙线路 6615
220kV诚信至湖滨甲乙线线路 6618
220kV诚信站至汝金线汝湖站侧 6621
表11
通过步骤420电网分工程链接对应,给定标准分工程名称如下:220kV江北变电站工程;220kV诚信~湖滨甲乙线路工程;220kV诚信~金源甲乙线路工程;220kV诚信~汝湖甲乙线路工程。得到对应结果,如表12所示:
识别分工程名称 对应给定分工程名称 位置
诚信站 220kV江北变电站工程 6612
220kV金源~湖滨、金源~汝湖线 / 6613
汝湖站 / 6613
湖滨站 / 6613
220kV诚信~金源甲乙线路 220kV诚信~金源甲乙线路工程 6614
220kV诚信~湖滨甲乙线路 220kV诚信~湖滨甲乙线路工程 6617
220kV诚信~汝湖甲乙线路 220kV诚信~汝湖甲乙线路工程 6620
220kV诚信至金源甲乙线路 220kV诚信~金源甲乙线路工程 6615
220kV诚信至湖滨甲乙线线路 220kV诚信~湖滨甲乙线路工程 6618
220kV诚信站至汝金线汝湖站侧 220kV诚信~汝湖甲乙线路工程 6621
表12
通过步骤430电网分工程作用域识别得到各个分工程的作用域,如表13所示:
给定标准分工程 作用域
220kV江北变电站工程 6612-6613
220kV诚信~金源甲乙线路工程 6614-6616
220kV诚信~湖滨甲乙线路工程 6617-6619
220kV诚信~汝湖甲乙线路工程 6620-6622
表13
通过步骤440指标分工程对应得到指标所对应的规范工程名称,最终得到如下表14结果:
指标值 指标类型 指标位置 指标所对应规范工程名称
6 出线规模(终期) 6612 220kV江北变电站工程
6 出线规模(本期) 6612 220kV江北变电站工程
2×5.7 线路长度 6615 220kV诚信~金源甲乙线路工程
2×4.1 线路长度 6618 220kV诚信~湖滨甲乙线路工程
2×4.1 线路长度 6621 220kV诚信~汝湖甲乙线路工程
表14
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (5)

1.一种电网设计评审指标结构信息识别方法,其特征在于包括如下步骤:
段落信息识别:识别文章段落结构,对文本切分并按照切分后的段落所涉及的类别归并;
指标对应属性识别:匹配每个待识别所对应属性的指标的多个属性值;
指标可选方案匹配:匹配每个指标的所对应的备选方案,并确定何种候选方案为推荐方案;
电网分工程识别与指标对应:识别分工程的作用域,匹配每个指标对应的分工程信息;
所述指标对应属性识别步骤包括如下步骤:
属性归并:分析指标体系结构,将同类指标的同类属性进行合并;
属性抽取:将对属性按照归并后的指标体系进行抽取;
指标属性对应:确定指标和属性的对应关系。
2.根据权利要求1所述的方法,其特征在于:所述段落信息识别包括如下步骤:
文档归一化处理:将文档转换为以行为单位的文本流,同时修正因转换格式带来的错误;
章节识别与去噪:识别正确的章节目录信息,去掉错误的噪音信息;
章节标题抽取:抽取得到正确的章节标题和文档结构;
章节信息识别:提供对每一个章节标题进行分类、关键词抽取、上下文结构对应的功能。
3.根据权利要求2所述的方法,其特征在于:所述章节信息识别步骤包括如下步骤:
章节分类:对章节按照章节标题进行文本分类,分成六类章节;
章节关键词抽取:对章节抽取最能体现章节信息的关键词;
上下为结构对应:提供任意章节的父章节、子章节列表和兄弟章节列表。
4.根据权利要求1所述的方法,其特征在于:所述指标可选方案匹配包括如下步骤:
方案作用域确定:通过查找方案描述关键词,确定方案作用域;
指标方案匹配:确定指标和方案的匹配关系;
推荐方案确定:识别电网设计评审报告中描述推荐方案的语句,确定推荐方案。
5.根据权利要求1所述的方法,其特征在于:所述电网分工程识别与指标对应中包括如下步骤:
电网分工程名称识别:从电网设计评审报告中抽取其描述的分工程名称;
电网分工程链接对应:通过给定的标注分工程名称,模糊匹配对应到电网设计评审报告抽取的分工程名称;
电网分工程作用域识别:确定任意指标其所对应的电网评审设计报告抽取的分工程名称;
指标分工程对应:确定任意指标其所对应的规范的工程名称。
CN201510680028.9A 2015-10-19 2015-10-19 一种电网设计评审指标结构信息识别方法 Active CN105389302B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510680028.9A CN105389302B (zh) 2015-10-19 2015-10-19 一种电网设计评审指标结构信息识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510680028.9A CN105389302B (zh) 2015-10-19 2015-10-19 一种电网设计评审指标结构信息识别方法

Publications (2)

Publication Number Publication Date
CN105389302A CN105389302A (zh) 2016-03-09
CN105389302B true CN105389302B (zh) 2017-11-28

Family

ID=55421599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510680028.9A Active CN105389302B (zh) 2015-10-19 2015-10-19 一种电网设计评审指标结构信息识别方法

Country Status (1)

Country Link
CN (1) CN105389302B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484920A (zh) * 2016-11-21 2017-03-08 北京恒华伟业科技股份有限公司 一种评审文档指标的抽取方法
CN111221976A (zh) * 2019-11-14 2020-06-02 北京京航计算通讯研究所 基于bert算法模型的知识图谱构建方法
CN110866125A (zh) * 2019-11-14 2020-03-06 北京京航计算通讯研究所 基于bert算法模型的知识图谱构建系统
CN113379313B (zh) * 2021-07-02 2023-06-20 贵州电网有限责任公司 一种具有智能化的预防性试验作业管控系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375827A (zh) * 2010-08-16 2012-03-14 北京国科恒通电气自动化科技有限公司 一种对版本化的电网模型数据库进行快速加载的方法
US8335649B1 (en) * 2011-07-25 2012-12-18 Clean Power Research, L.L.C. Computer-implemented system and method for estimating photovoltaic power generation for use in photovoltaic fleet operation
CN103324840A (zh) * 2013-06-06 2013-09-25 江苏大学 一种电力需求侧用电质量综合评估方法
CN103914440A (zh) * 2014-03-06 2014-07-09 广东电网公司电网规划研究中心 输变电工程word文档表格内容中工程特性指标的智能提取方法
CN103927296A (zh) * 2014-03-06 2014-07-16 广东电网公司电网规划研究中心 输变电工程word文档段落内容中工程特性指标的智能提取方法
CN104504221A (zh) * 2015-01-13 2015-04-08 北京恒华伟业科技股份有限公司 一种评审数据处理方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375827A (zh) * 2010-08-16 2012-03-14 北京国科恒通电气自动化科技有限公司 一种对版本化的电网模型数据库进行快速加载的方法
US8335649B1 (en) * 2011-07-25 2012-12-18 Clean Power Research, L.L.C. Computer-implemented system and method for estimating photovoltaic power generation for use in photovoltaic fleet operation
CN103324840A (zh) * 2013-06-06 2013-09-25 江苏大学 一种电力需求侧用电质量综合评估方法
CN103914440A (zh) * 2014-03-06 2014-07-09 广东电网公司电网规划研究中心 输变电工程word文档表格内容中工程特性指标的智能提取方法
CN103927296A (zh) * 2014-03-06 2014-07-16 广东电网公司电网规划研究中心 输变电工程word文档段落内容中工程特性指标的智能提取方法
CN104504221A (zh) * 2015-01-13 2015-04-08 北京恒华伟业科技股份有限公司 一种评审数据处理方法和系统

Also Published As

Publication number Publication date
CN105389302A (zh) 2016-03-09

Similar Documents

Publication Publication Date Title
CN105389302B (zh) 一种电网设计评审指标结构信息识别方法
CN104820629B (zh) 一种智能的舆情突发事件应急处理系统及方法
CN107291783A (zh) 一种语义匹配方法及智能设备
CN103810999B (zh) 基于分布式神经网络的语言模型训练方法及其系统
CN100573506C (zh) 一种自然语言表达动态交通信息的时空融合方法
CN106777275A (zh) 基于多粒度语义块的实体属性和属性值提取方法
CN104252507B (zh) 一种企业数据匹配方法和装置
CN106875264A (zh) 订单信息管理方法、装置和订单分拣系统
CN111260413A (zh) 一种基于矢量图形的电力主网工程施工图造价速算方法
CN106250934A (zh) 一种缺陷数据的分类方法及装置
CN107798435A (zh) 一种基于文本信息抽取的电力物资需求预测方法
CN102169591B (zh) 一种制图中文本注记分行方法以及绘制方法
US20220138193A1 (en) Conversion method and systems from natural language to structured query language
CN106528526A (zh) 一种基于贝叶斯分词算法的中文地址语义标注方法
CN108334493A (zh) 一种基于神经网络的题目知识点自动提取方法
CN107741999B (zh) 一种基于图计算及机器学习的电网拓扑结构跨系统自动匹配与构建的方法
CN103886080A (zh) 一种从互联网非结构化文本提取道路交通信息方法
CN110046391A (zh) 基于监控信息表的变电站一次接线图自动生成方法
CN109344187A (zh) 一种司法判决书案情信息结构化处理系统
CN109710647A (zh) 一种基于关键字搜索的电网台账数据融合方法及装置
CN107577744A (zh) 非标地址自动匹配模型、匹配方法以及模型建立方法
CN111177323B (zh) 基于人工智能的停电计划非结构化数据提取与识别方法
CN105740395B (zh) 一种基于模糊去噪与模糊拼接的公交轨迹提取方法
CN109830954B (zh) 适用于电网可视化仿真模型自动生成的拓扑分层识别方法
CN106886517A (zh) 业务选址方法、装置以及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant