CN112446203A - 一种建筑变电可研规范条文结构生成方法 - Google Patents

一种建筑变电可研规范条文结构生成方法 Download PDF

Info

Publication number
CN112446203A
CN112446203A CN202011340385.8A CN202011340385A CN112446203A CN 112446203 A CN112446203 A CN 112446203A CN 202011340385 A CN202011340385 A CN 202011340385A CN 112446203 A CN112446203 A CN 112446203A
Authority
CN
China
Prior art keywords
standard
morphemes
generating
transformation
splitting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011340385.8A
Other languages
English (en)
Inventor
韦波
符国晖
马彬
朱丹龙
郭祝帆
游旺
李文沛
叶敏
黄湘东
华栋
陆启明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Power Supply Bureau Co Ltd
Original Assignee
Shenzhen Power Supply Bureau Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Power Supply Bureau Co Ltd filed Critical Shenzhen Power Supply Bureau Co Ltd
Priority to CN202011340385.8A priority Critical patent/CN112446203A/zh
Publication of CN112446203A publication Critical patent/CN112446203A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/08Construction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Primary Health Care (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Water Supply & Treatment (AREA)
  • Public Health (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种建筑变电可研规范条文结构生成方法,包括:步骤S1,提取规范条文;步骤S2,对规范条文进行语法拆分,以产生语素;步骤S3,调用数据库对拆分后的语素进行类别判断;步骤S4,对进行类别判断后的语句进行初步结构化处理;步骤S5,调用数据库对所述初步结构化的条文进行整体结构化处理;步骤S6,生成具有整体结构化的构建筑信息变电可研规范条文。实施本发明,可以提高生成变电可研规范条文结构的效率,并提高了正确率。

Description

一种建筑变电可研规范条文结构生成方法
技术领域
本发明涉及建筑信息规范技术领域,具体为一种建筑变电可研规范条文结构生成方法。
背景技术
规范条文自动结构化是指将自然语言编写的规范条文自动转换为计算机可理解并执行的格式。规范条文的自动结构化可以减少规范条文处理的过程中的人工参与。规范条文自动结构化的研究是针对自然语言的处理研究,而中文相较于英文、韩文等自然语言,其语法结构,表达模式更为复杂。
近年来,我国在建筑变电可研信息审查自动审查领域也获得了一些成果,而规范条文的结构化却一直停留在人工处理或半自动化阶段。人工提取过程效率低且容易出错。
发明内容
本发明的目的在于提供一种建筑变电可研规范条文结构生成方法,可以实现人工智能建筑信息审查,并提高了效率以及成功率。
为实现上述目的,本发明提供一种建筑变电可研规范条文结构生成方法,其包括如下步骤:
步骤S1,提取建筑变电相关的规范条文;
步骤S2,对建筑变电相关的规范条文进行语法拆分,以产生语素;
步骤S3,根据数据库中预存的语法与语素的对应关系,对拆分后的语素进行类别判断;
步骤S4,对进行类别判断后的语句进行初步结构化处理;
步骤S5,根据数据库中的预存的处理模型,对所述初步结构化的条文进行整体结构化处理;
步骤S6,生成具有整体结构化的构建筑信息变电可研规范条文。
优选地,在所述步骤S1中,所述规范条文为采用规范技术的用于建筑信息变电可研规范条文。
优选地,在所述步骤S2进一步包括:
对规范条文的语法进行分析处理,根据规范条文中的名词短语、动词短语、助动词、名词、动词、情态词、比较词和形容词对条文进行拆分处理,拆分后产生语素。
优选地,所述步骤S2进一步包括:
根据规范条文中存在的约束、类别约束、数量约束、位置约束、距离约束和属性约束对条文进行拆分处理,拆分后产生语素。
优选地,所述步骤S3进一步包括:
根据建筑信息变电的专业领域词库,以及语法规则的基础上形成的数据库对语素进行分析处理,实现语素的类别判断。
优选地,所述步骤S4进一步包括:
对判断出类别的语素进行分类初步结构化。
优选地,所述步骤S5进一步包括:
步骤S50,通过调用语素库,与输入的自然语言规范条文中的语素匹配,根据语素的数量自动判别输入自然语言规范条文的类别;
步骤S51,调用方法库中的方法函数,根据类别调用方法库中相对应的规则表达式;
步骤S52,实现语素到规则表达式的映射,使自然语言建筑信息变电可研规范条文自动结构化,并输出结构化的规则。
优选地,所述步骤S6进一步包括:
将生成的建筑信息变电可研规范条文结构从该系统中进行导出,获得符合审查结构的文本。
实现本发明实施例,具有如下的有益效果:
本发明提供一种建筑变电可研规范条文结构生成方法,可以减少了规范条文处理的过程中的人工参与,减少了人们的劳动力,提高了工作效率。
在本发明实施例中,减了人工提取建筑信息变电可研规范条文时因疏忽或者其他原因产生的错误,提高了正确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,根据这些附图获得其他的附图仍属于本发明的范畴。
图1为本发明提供的一种建筑变电可研规范条文结构生成方法的一个实施例的主流程示意图;
图2为图1中步骤S5的更详细的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
为使本领域的普通技术人员更加清楚地理解发明的目的、技术方案和优点,以下结合附图和实施例对发明做进一步的阐述。
如图1所示,本发明提供的一种建筑变电可研规范条文结构生成方法的一个实施例的主流程示意图;一并结合图2所示,在本实施例中,所述建筑变电可研规范条文结构生成方法包括如下步骤:
步骤S1,提取建筑变电相关的规范条文;
步骤S2,对建筑变电相关的规范条文进行语法拆分,以产生语素;
步骤S3,根据数据库中预存的语法与语素的对应关系,对拆分后的语素进行类别判断;
步骤S4,对进行类别判断后的语句进行初步结构化处理;
步骤S5,根据数据库中的预存的处理模型,对所述初步结构化的条文进行整体结构化处理;
步骤S6,生成具有整体结构化的构建筑信息变电可研规范条文。
进一步的,所述步骤S1中,规范条文为采用规范技术用于的建筑信息变电可研规范条文。
进一步的,所述步骤S2中,首先对规范条文的语法进行分析处理,根据规范条文中的名词短语、动词短语、助动词、名词、动词、情态词、比较词和形容词对条文进行拆分处理,拆分后产生语素。
进一步的,所述步骤S2中,根据规范条文中存在的约束、类别约束、数量约束、位置约束、距离约束和属性约束对条文进行拆分处理,拆分后产生语素。
进一步的,所述步骤S3中,根据建筑信息变电的专业领域词库,以及语法规则的基础上形成的数据库对语素进行分析处理,实现语素的类别判断。
数据库的产生是根据审查要点研究进行规范选取生成规范条文,之后根据规范条文进行预处理,将预处理的规范条文进行语法分析和语素分析,根据建筑信息变电可研规范作为研究基础,设定规则利用ICTCLAS分词系统(Institute of Computing Technology,Chinese Lexical Analysis System)实现规范条文的自动预处理,使每个句子中仅含有一个设计规则,以便于后续的分析处理,在完成规范条文的预处理后,使用上下文无关文法对规范条文进行语法分析,得出规范条文结构化所需的对象和方法,并总结规范条文计算机可理解的知识内容。对语素进行分析,根据动词所表达的关系的不同,将所有规范分为存在约束、类别约束、数量约束、位置约束、距离约束、属性约束六类,并推理出六类规范的结构化规则表达式。之后,其将上下文无关文法分解产生的语素进行详细分析,包括名词、情态词、比较词、形容词和动词,将名词、情态词、比较词、形容词进一步分析及分类,并与其结构化表达一一对应构建语素库。根据每类规范中元素、空间、属性、比较词、数值的个数自动判定规范的类别,构建数据库。
进一步的,所述步骤S4中,对判断出类别的语素进行分类初步结构化。
进一步的,所述步骤S5进一步包括:
步骤S50,通过调用语素库,与输入的自然语言规范条文中的语素匹配,根据语素的数量自动判别输入自然语言规范条文的类别;
步骤S51,调用方法库中的方法函数,根据类别调用方法库中相对应的规则表达式;
步骤S52,实现语素到规则表达式的映射,使自然语言建筑信息变电可研规范条文自动结构化,并输出结构化的规则。
进一步的,所述步骤S6中,生成的建筑信息变电可研规范条文结构从该系统中进行导出,实现符合审查结构的文本。
实现本发明实施例,具有如下的有益效果:
本发明提供一种建筑变电可研规范条文结构生成方法,可以减少了规范条文处理的过程中的人工参与,减少了人们的劳动力,提高了工作效率。
在本发明实施例中,减了人工提取建筑信息变电可研规范条文时因疏忽或者其他原因产生的错误,提高了正确率。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (8)

1.一种建筑变电可研规范条文结构生成方法,其特征在于,包括如下步骤:
步骤S1,提取建筑变电相关的规范条文;
步骤S2,对建筑变电相关的规范条文进行语法拆分,以产生语素;
步骤S3,根据数据库中预存的语法与语素的对应关系,对拆分后的语素进行类别判断;
步骤S4,对进行类别判断后的语句进行初步结构化处理;
步骤S5,根据数据库中的预存的处理模型,对所述初步结构化的条文进行整体结构化处理;
步骤S6,生成具有整体结构化的构建筑信息变电可研规范条文。
2.根据权利要求1所述的方法,其特征在于,在所述步骤S1中,所述规范条文为采用规范技术的用于建筑信息变电可研规范条文。
3.根据权利要求2所述的方法,其特征在于,在所述步骤S2进一步包括:
对规范条文的语法进行分析处理,根据规范条文中的名词短语、动词短语、助动词、名词、动词、情态词、比较词和形容词对条文进行拆分处理,拆分后产生语素。
4.根据权利要求3所述的方法,其特征在于,所述步骤S2进一步包括:
根据规范条文中存在的约束、类别约束、数量约束、位置约束、距离约束和属性约束对条文进行拆分处理,拆分后产生语素。
5.根据权利要求4所述的方法,其特征在于,所述步骤S3进一步包括:
根据建筑信息变电的专业领域词库,以及语法规则的基础上形成的数据库对语素进行分析处理,实现语素的类别判断。
6.根据权利要求5所述方法,其特征在于,所述步骤S4进一步包括:
对判断出类别的语素进行分类初步结构化。
7.根据权利要求6所述的方法,其特征在于,所述步骤S5进一步包括:
步骤S50,通过调用语素库,与输入的自然语言规范条文中的语素匹配,根据语素的数量自动判别输入自然语言规范条文的类别;
步骤S51,调用方法库中的方法函数,根据类别调用方法库中相对应的规则表达式;
步骤S52,实现语素到规则表达式的映射,使自然语言建筑信息变电可研规范条文自动结构化,并输出结构化的规则。
8.根据权利要求7所述的方法,其特征在于,所述步骤S6进一步包括:
将生成的建筑信息变电可研规范条文结构从该系统中进行导出,获得符合审查结构的文本。
CN202011340385.8A 2020-11-25 2020-11-25 一种建筑变电可研规范条文结构生成方法 Pending CN112446203A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011340385.8A CN112446203A (zh) 2020-11-25 2020-11-25 一种建筑变电可研规范条文结构生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011340385.8A CN112446203A (zh) 2020-11-25 2020-11-25 一种建筑变电可研规范条文结构生成方法

Publications (1)

Publication Number Publication Date
CN112446203A true CN112446203A (zh) 2021-03-05

Family

ID=74738153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011340385.8A Pending CN112446203A (zh) 2020-11-25 2020-11-25 一种建筑变电可研规范条文结构生成方法

Country Status (1)

Country Link
CN (1) CN112446203A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312880A (zh) * 2021-04-02 2021-08-27 飞诺门阵(北京)科技有限公司 文本形式转换方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423289A (zh) * 2017-07-19 2017-12-01 东华大学 一种跨类型乳腺肿瘤临床文档的结构化处理方法
CN109214642A (zh) * 2018-07-10 2019-01-15 华中科技大学 一种建筑施工工序约束的自动抽取和分类方法及系统
CN111814434A (zh) * 2020-07-06 2020-10-23 清华大学 建筑规范结构化规则自动生成装置及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423289A (zh) * 2017-07-19 2017-12-01 东华大学 一种跨类型乳腺肿瘤临床文档的结构化处理方法
CN109214642A (zh) * 2018-07-10 2019-01-15 华中科技大学 一种建筑施工工序约束的自动抽取和分类方法及系统
CN111814434A (zh) * 2020-07-06 2020-10-23 清华大学 建筑规范结构化规则自动生成装置及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
舒赛: "支持图审的消防设计规范条文自动结构化方法", 《中国优秀硕士学位论文全文数据库工程科技Ⅰ辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312880A (zh) * 2021-04-02 2021-08-27 飞诺门阵(北京)科技有限公司 文本形式转换方法、装置及电子设备
CN113312880B (zh) * 2021-04-02 2024-01-26 飞诺门阵(北京)科技有限公司 文本形式转换方法、装置及电子设备

Similar Documents

Publication Publication Date Title
Jiang et al. Natural language processing and its applications in machine translation: A diachronic review
Rashel et al. Building an Indonesian rule-based part-of-speech tagger
CN103314369B (zh) 机器翻译装置和方法
CN110991180A (zh) 一种基于关键词和Word2Vec的命令识别方法
Abidin et al. Computer-aided Translation Based on Lampung Language as Low Resource Language
CN112446203A (zh) 一种建筑变电可研规范条文结构生成方法
CN103164398A (zh) 汉维电子辞典及其自动转译汉维语的方法
CN103164396A (zh) 汉维哈柯电子辞典及其自动转译汉维哈柯语的方法
CN114996387A (zh) 一种基于索引数据的自然语言处理方法和系统
Khysru et al. A Tibetan language model that considers the relationship between suffixes and functional words
Seresangtakul et al. Thai-Isarn dialect parallel corpus construction for machine translation
Singh et al. GA-based machine translation system for Sanskrit to Hindi language
Samir et al. Training and evaluation of TreeTagger on Amazigh corpus
Zhao Design of Intelligent Proofreading System Based on Artificial Intelligence
Tsai et al. Applying an NVEF Word-Pair Identifier to the Chinese Syllable-to-Word Conversion Problem
Gondal et al. No Sql-Not Obligatory Sql (Natural Language To Sql Conversion)
JP3903820B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Fu Construction on Parallel Corpus System for English Translation of Liaoning Dialect
CN113033187B (zh) 一种可迭代语料库的建立方法
Khedkar et al. A survey of machine translation and parts of speech tagging for indian languages
Rautaray et al. A Naive approach: Translation of Natural Language to Structured Query Language
JP2004326584A (ja) 対訳固有表現抽出装置及び方法、対訳固有表現抽出プログラム
Tsai Using word support model to improve chinese input system
Abaidulla et al. Progress on Construction Technology of Uyghur Knowledge Base
Yang Design and Implementation of Automatic Examination Scoring System Based on Natural Language Processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210305

RJ01 Rejection of invention patent application after publication