CN117077778A - 基于行业规范和现有本体的建筑运维知识图谱构建方法 - Google Patents
基于行业规范和现有本体的建筑运维知识图谱构建方法 Download PDFInfo
- Publication number
- CN117077778A CN117077778A CN202311101294.2A CN202311101294A CN117077778A CN 117077778 A CN117077778 A CN 117077778A CN 202311101294 A CN202311101294 A CN 202311101294A CN 117077778 A CN117077778 A CN 117077778A
- Authority
- CN
- China
- Prior art keywords
- maintenance
- knowledge
- standard
- building operation
- building
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012423 maintenance Methods 0.000 title claims abstract description 163
- 238000010276 construction Methods 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 claims abstract description 35
- 230000014509 gene expression Effects 0.000 claims abstract description 31
- 230000011218 segmentation Effects 0.000 claims abstract description 18
- 238000013519 translation Methods 0.000 claims abstract description 18
- 238000004458 analytical method Methods 0.000 claims abstract description 12
- 230000009471 action Effects 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000012800 visualization Methods 0.000 claims description 4
- 230000033228 biological regulation Effects 0.000 description 21
- 230000014616 translation Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 9
- 238000007726 management method Methods 0.000 description 8
- 238000013461 design Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 239000000047 product Substances 0.000 description 5
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000010438 heat treatment Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000007689 inspection Methods 0.000 description 3
- 230000002969 morbid Effects 0.000 description 3
- 230000001105 regulatory effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 239000004566 building material Substances 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000006698 induction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000009435 building construction Methods 0.000 description 1
- 238000009960 carding Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000013618 particulate matter Substances 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- PNVNVHUZROJLTJ-UHFFFAOYSA-N venlafaxine Chemical compound C1=CC(OC)=CC=C1C(CN(C)C)C1(O)CCCCC1 PNVNVHUZROJLTJ-UHFFFAOYSA-N 0.000 description 1
- 238000009423 ventilation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
基于行业规范和现有本体的建筑运维知识图谱构建方法,涉及知识图谱构建领域,包括:现有建筑本体复用,获取IfcOWL本体;通过规范分析,对规范条文进行分类,同时对规范条文进行分词和实体识别,构建规范知识表达式,获取建筑运维规范本体;对规范知识表达式进行结构化,实现基于OWL语言的规范转译,建立建筑运维规范本体;将建筑运维规范本体与IfcOWL本体相融合,构建绿色建筑运维知识本体;基于自顶向下和自底向上相结合的方法构建绿色建筑运维知识图谱。本发明构建了基于行业规范的绿色建筑运维知识图谱,对于充分发挥规范知识的作用以及提升绿色建筑运维管理水平都有较大的意义。提升了领域知识图谱的构建效率和科学性。
Description
技术领域
本发明涉及知识图谱构建技术领域,具体涉及一种基于行业规范和现有本体的建筑运维知识图谱构建方法。
背景技术
建筑运维是确保建筑设施持续高效运行的必要手段。其中,绿色建筑领域长期存在“重设计、轻运维”的问题,而且运维管理的智能化程度也有待提升。知识图谱作为一种结构化和关联性的语义网络图,可以整合和管理与建筑运维相关的数据和信息,实现智能运维。朱庆等提出了模式层自上而下和数据层自下而上的构建方式,将铁路隧道施工建设过程中与安全质量进度关联的关键要素概念与语义关系融入知识图谱(朱庆,王所智,丁雨淋,等.铁路隧道钻爆法施工智能管理的安全质量进度知识图谱构建方法[J].武汉大学学报(信息科学版),2022,47(8):1155-1164.)。杨小霞等针对桥梁检测报告中数据抽取融合不充分以及管养决策过程中知识问答服务不足的问题,提出一种桥梁检测领域知识图谱构建与知识问答方法(杨小霞,杨建喜,李韧,等.桥梁检测领域知识图谱构建与知识问答方法[J].计算机应用,2022,42(S1):28-36.)。刘玥针对目前消防设计审查工作中出现的问题,提出了面向BIM模型消防审查的规范语义模型构建方法(刘玥.面向BIM消防审查的规范语义模型构建方法发明[D].北京建筑大学,2022.)。陈远等通过对规范中的条文进行知识分析,并总结了规范知识表达式,完成了合规性检查的过程(陈远,张雨,康虹.基于知识管理的BIM模型建筑设计合规性自动检查系统发明[J].图学学报,2020,41(3):490-499.)。
通过对现有建筑领域知识图谱的构建方法进行梳理后发现,虽然目前知识图谱在建筑领域的应用已日渐丰富,但仍有一些不足需要改进:
(1)知识图谱在绿色建筑运维领域的应用仍待探索。现有的知识图谱和建筑本体中缺少绿色建筑运维领域的知识,而另一方面目前绿色建筑亟待借助数字技术实现运维目标。利用数字技术解决绿色建筑运维问题时,大多仅关注于节水、节能以及管理等单一视角,缺乏对运维问题全周期的技术支持。
(2)构建模式层时没有充分复用现有建筑本体。部分现有技术没有复用现有建筑本体或仅对其中的小部分进行了参考。虽然很多领域知识图谱的构建方法中,模式层的层次结构和逻辑关系并没有相对统一的参考标准,但是现有建筑本体的设计通常涉及多个专家的参与和领域知识的综合,可以从多个专家的角度和经验中汲取最佳的知识和共识。因此构建模式层应优先考虑对现有建筑本体进行复用或扩展。
(3)构建模式层时忽视了行业规范知识。行业规范是基于多年的实践和经验总结而形成,代表了行业内专业人士的共识,并且为相关领域确立了一套统一的方法和标准。目前模式层的构建主要基于某些特定的方法,往往将行业规范知识和其它来源的知识放在同等地位进行抽取,没有对行业规范知识进行充分利用。
另外,通过对建筑运维规范知识本体的相关文献进行综述,发现目前在基于本体的合规性审查方面已经取得了阶段性的进展,但是在规范知识建模和建筑本体应用方面仍存在以下难点和问题:
(1)大部分规范条文难以结构化表达。现有的规范知识建模只针对易于结构化表达的条文,这些条文一般具有明确的属性值或是包含关系和空间关系。但是规范中还包含大量计算机难以识别的条文。这些条文作为建筑行业的知识资产,承载了丰富的专业知识和经验,如果缺失很大程度上会影响领域知识图谱的完备性。
(2)知识建模的过程中部分信息缺失。规范条文的主要信息通常包括建筑构件、构件属性、比较词和属性值等等,现有方法也都是针对主要信息进行知识建模。但是规范条文还包括规范编号和表示严格程度的情态词,这些信息作为规范知识的一部分通常在知识建模过程中被忽略。而将这些次要信息存储到知识图谱中去,有利于提高规范转译的准确性以及进一步开展相关领域的知识推理。
(3)规范转译和现有建筑本体扩展具有一定开发难度。目前的规范转译一般采用SWRL(Semantic Web Rule Language)规则对规范条文进行形式化表达,但定义繁杂的SWRL规则,大大增加了本体构建的开发成本。
此外,针对IfcOWL(IfcOWL定义了一个建筑信息模型IFC本体,可以通过OWL语言表进行表示)的扩展大多数学者选择基于EXPRESS语言扩展IFC标准的自定义属性集,随后建立EXPRESS和OWL语言的映射框架,进而构建出含有相关领域知识的IfcOWL本体。但这种扩展路径较为繁琐且扩展内容严格限制在IFC标准的自身框架下。
发明内容
为了解决如何以现有建筑本体为基础、以行业规范为知识来源构建适用于建筑运维领域的知识图谱,本发明提供了一种基于行业规范和现有本体的建筑运维知识图谱构建方法,构建基于行业规范的绿色建筑运维知识图谱对于建筑运维问题的解决具有现实意义,同时也为建筑领域知识图谱的构建提供了理论基础。
本发明为解决技术问题所采用的技术方案如下:
本发明的基于行业规范和现有本体的建筑运维知识图谱构建方法,包括以下步骤:
步骤一、现有建筑本体复用,获取IfcOWL本体;
步骤二、通过规范分析,对规范条文进行分类,同时对规范条文进行分词和实体识别,构建规范知识表达式,获取建筑运维规范本体;
步骤三、对规范知识表达式进行结构化,实现基于OWL语言的规范转译,建立建筑运维规范本体;将建筑运维规范本体与IfcOWL本体相融合,构建绿色建筑运维知识本体;
步骤四、基于自顶向下和自底向上相结合的方法构建绿色建筑运维知识图谱。
进一步的,步骤一中,所述现有建筑本体复用方法为:
(1)新增节点与现有节点含义相同时,直接使用在IfcOWL中的现有节点;
(2)新增节点是现有节点的子类时,需扩展现有节点。
进一步的,步骤一中,采用ChatGPT辅助进行现有建筑本体复用。
进一步的,步骤二中,对规范条文进行分类的具体操作流程如下:
(1)从规范转译角度,将规范条文分成易结构化和难结构化;结构化是将自然语言表达的规范条文转换成计算机可读的语句;知识图谱中的知识采用(实体)-[关系]-(实体)或(实体)-{属性:属性值}的结构表示,若规范条文拆分后可由知识图谱的三元组结构表示,则称为易结构化;反之则称为难结构化;
(2)从约束内容角度,将规范条文分为六种类型:属性约束、关系约束、规范约束、行动约束、状态约束和非约束;
(3)从约束形式角度,将有明确规定值的规范条文称为可形式化规范条文,其含义通过OWL语言中的数据属性进行表达;其它没有明确规定值的规范条文称为非形式化条文或半形式化条文,其含义通过对象属性进行表达。
进一步的,步骤二中,对规范条文进行分词和实体识别的具体操作流程如下:
对规范条文进行处理,将复杂的长句拆分为短句,对这些短句进行进一步拆分,将其拆分成单个词语;规范分词后对各类词语进行实体识别,包括:运维对象、运维属性、运维行动、运维状态、前提条件、情态词、数量比较词、关系词、属性值、规范名称、规范编号和条文编号。
进一步的,步骤二中,完成规范分词和实体识别后,每个规范条文都被拆分成多个词义元素的集合。
进一步的,步骤三中,利用Neo4j图数据库存储绿色建筑运维知识本体。
进一步的,步骤三的具体操作流程如下:
步骤3.1采用在Protégé平台上基于OWL语言直接对IfcOWL进行扩展;
步骤3.2利用Protégé平台和WebVOWL可视化工具进行规范转译实现本体建模,建立建筑运维规范本体;
步骤3.3将建筑运维规范本体与IfcOWL本体相融合,构建绿色建筑运维知识本体。
进一步的,步骤3.2的具体操作流程如下:
①前提条件通过语义解读将其定义为某个对象或属性的子类;
②规范中存在句子成分明显缺失的规范条文时,利用人工对规范条文缺失的成分进行补充;
③规范中存在集合运算词且、或、非时,交并补这类集合运算,在Protégé中用and、or和not来描述;
④部分规范条文中存在隐含的量词约束和数量约束时,采用存在性量词some而不是全称量词only,规范名称和规范编号是一一对应的,这是一种数量约束,通过Exactly 1的形式进行约束。
进一步的,步骤四的具体操作流程如下:
所述自顶向下是先进行领域特征分析,基于现有建筑本体的框架进行现有建筑本体复用,通过本体编辑器或其他方式构建知识图谱的模式层,最后进行层次关系定义、属性关系定义和语义关系定义,从而完成绿色建筑运维知识本体的构建;所述自底向上是针对绿色建筑运维领域的多源多模态数据,通过原始数据获取,采用知识抽取算法提取其实体及关系,利用规范知识对模式层进行补充和优化;最后对不同来源的规范知识进行对齐、合并和消歧,将抽取的规范知识按照模式层的框架进行知识存储和应用,形成模式层到数据层的映射,构建出完整的绿色建筑运维知识图谱。
本发明的有益效果是:
目前建筑运维领域与知识图谱构建相关的发明仍处于起步阶段,还有许多问题需要解决。因此,本发明针对基于行业规范和现有本体的建筑运维知识图谱,提出了一套完善且可复制的构建方法。
与现有技术相比,本发明具有以下优点:
(1)本发明基于行业规范构建建筑运维知识图谱,行业规范高度凝结了领域专家知识,能够对全周期的运维问题进行指导;知识图谱技术可以抽取行业规范知识,实现对建筑运维领域知识的融合和推理。
(2)本发明基于规范知识完善现有建筑本体。现有的建筑领域本体都缺乏绿色建筑和建筑运维相关的知识,而行业规范中包含的大量知识可以很好地补充建筑领域本体的知识体系。同时前者的知识体系有利于对繁冗复杂的规范知识进行梳理,借助本体技术也可以将规范知识转换为计算机可识别的形式。
(3)本发明提出了针对建筑运维规范中大量的难结构化规范条文的知识表达式和规范转译方法,补充了规范编号和情态词等经常被忽视的信息,构建出完整度较高的建筑运维规范本体。
(4)在构建知识图谱模式层的过程中,本发明充分利用现有建筑本体和建筑运维规范知识,从构建方法上提升了领域知识图谱的构建效率和科学性。
(5)应用Protégé、WebVOWL、ChatGPT和Neo4j平台辅助知识图谱构建,较好地构建并呈现了绿色建筑运维知识图谱,为绿色建筑的智能运维奠定基础。本发明构建了基于行业规范的绿色建筑运维知识图谱,对于充分发挥规范知识的作用以及提升绿色建筑运维管理水平都有较大的意义。
附图说明
图1为本发明的一种基于行业规范和现有本体的建筑运维知识图谱构建方法流程图。
图2为规范条文分类示意图。
图3为绿色建筑运维知识本体构建流程。
图4为前提条件的可视化示例。
图5为集合运算词的转译方法。
图6为集合运算与量词约束的可视化示例。
图7为绿色建筑运维知识图谱构建流程。
图8为行动约束查询结果。
图9为关联路径查询结果。
图10为规范内容查询结果。
具体实施方式
以下结合附图对本发明做进一步详细说明。
参见图1进行说明,本发明的一种基于行业规范和现有本体的建筑运维知识图谱构建方法,在构建绿色建筑运维知识图谱之前,首先要构建绿色建筑运维知识本体。在构建本体之前,需完成现有建筑本体复用和规范知识结构设计两项基础工作。因此,本发明主要包括以下步骤:
步骤一、现有建筑本体复用,获取IfcOWL本体;
本发明是在IfcOWL本体的基础上融合建筑运维规范本体,因此在通过规范知识新增节点的过程中首先要考虑现有节点复用。节点复用是指在本体工程中重复使用已存在的节点,以便加快本体开发过程、提高本体质量并促进知识共享和互操作性。节点复用包括两种情况:一是新增节点与现有节点含义相同,直接使用在IfcOWL中的现有节点,部分示例如表1;二是新增节点是现有节点的子类,需要扩展现有节点,部分示例如表2。
表1同义情况示例
新增节点 | 同义节点 | 新增节点 | 同义节点 |
传感器 | IfcSensor | 建筑 | IfcBuilding |
加热器 | IfcSpaceHeater | 系统 | IfcSystem |
加湿器 | IfcHumidifier | 区域 | IfcSpatialZone |
变压器 | IfcTransformer | 建筑负荷 | IfcStructuralLoad |
执行器 | IfcActuator | 人员 | IfcActor |
表2扩展情况示例
但是,通过人工对IfcOWL节点进行复用,需要了解上千个节点的含义和继承关系。因此本发明采用ChatGPT辅助进行节点复用。在IfcOWL中,与太阳能集热系统相关的类可能包括以下几个:1、IfcSolarDevice:表示太阳能设备,可以用于描述太阳能集热器、太阳能电池板等太阳能系统的组成部分。2、IfcSolarCollector:表示太阳能集热器,用于收集太阳能并转化为热能。可以描述集热器的类型、尺寸、材质等属性。3、IfcSolarPanel:表示太阳能电池板,用于将太阳能转化为电能,可以描述电池板的类型、功率、效率等特征。4、IfcSolarHeatingDevice:表示太阳能加热设备,用于利用太阳能进行加热。可以描述加热设备的类型、工作原理、热效率等属性。这些类可以用于描述太阳能集热系统的组成部分和特征。通过定义对象属性和属性值,可以进一步详细描述太阳能集热系统的参数、性能和运行情况。请注意,具体的类和属性可能根据不同的数据模型和应用需求而有所变化。通过简单的训练,ChatGPT基本能够将复用范围缩小到4-5个节点之内,进一步查询buildingSMART的定义可以确定最终的节点。
步骤二、规范知识结构设计,获取建筑运维规范本体;
步骤2.1规范分析和规范条文分类;
通过对《绿色建筑运行维护技术规范》JGJ/T391-2016特点的分析,发现建筑运维规范条文(以下简称规范条文)在内容和结构上具有一定复杂性,无法建立适用于全文的统一的规范知识表达式。因此本发明从规范转译、约束内容、约束形式三个维度出发对规范条文进行分类。
如图2所示,首先,从规范转译的角度,规范条文可分成易结构化和难结构化。结构化是将自然语言表达的规范条文转换成计算机可读的语句。知识图谱中的知识通常采用(实体)-[关系]-(实体)或(实体)-{属性:属性值}的结构表示,所以如果规范条文拆分后可由知识图谱的三元组结构表示,则称为易结构化。反之则称为难结构化,比如规范条文的第二章术语部分是对绿色建筑运维领域术语的定义,但是没有完整的可识别的语句结构,因此难以用三元组结构去表示。
其次,由于规范条文的内容大多是针对建筑领域中的活动的约束,因此可以从约束内容的角度出发,将规范条文分为六种类型:属性约束、关系约束、规范约束、行动约束、状态约束和非约束。表3对这六类规范条文进行了举例说明。
表3六类规范条文约束内容示例
其中,属性约束是指规范条文中包含“运维属性”且有明确的属性值限制,例如规范条文6.1.5明确规定了“绿色建筑设备系统设备完好率不应小于98%”。关系约束描述了“运维对象”之间、“运维属性”之间或“运维对象”与“运维属性”之间存在的某种关系约束,这类关系可能包括上下位关系、时间关系、空间关系或包含关系等语义关联关系,规范条文3.0.1表达了一种包含关系的约束:“绿色建筑运行维护应包括综合效能调适、交付、运行维护和运行维护管理等环节”。一般来说,属性约束和关系约束都能直接用三元组的形式进行表示。例如规范条文6.1.5可拆分为2个三元组:
(绿色建筑设备系统)-[有属性]-(设备完好率)
(设备完好率)-{有限值:98%}
而其余规范条文约束条件的描述不够明晰或直接,相较于前面的属性约束、关系约束而言,缺少明确的执行方案,需要领域专家进一步归纳、整理和分析,才能使计算机理解规范条文所包含的知识。其中,规范约束指规范条文间的相互引用,这类规范条文通常不做具体的规范描述,而是采用“应符合XX规范XX条例”的方式表述,例如规范条文3.0.3明确规定了“绿色建筑能效实测评估应符合现行行业标准《建筑能效标识技术标准》JGJ/T288-2012的有关规定”。状态约束主要基于钟雪妍等人提出的基于本体的建筑工程质量隐患信息知识建模(钟雪妍,沈罗昕,潘杏,等.基于本体的建筑工程质量隐患信息知识建模[J].土木建筑工程信息技术:1-12.)引入“运维状态”的概念,主要用以处理规范条文中出现的语义模糊的形容词,例如规范条文5.3.5明确规定了“用水计量装置功能应完好,数据记录应完整”,“完好”和“完整”被视为是“用水计量装置”和“用水计量装置”状态的约束。此外,有一类规范条文不是“运维对象”和“运维属性”之间关系的约束,而是针对某个对象或属性的具体措施,例如规范条文6.2.6明确规定了“风能量回收系统,宜定期检查及清洗”,借助IfcOWL中IfcActionRequest的定义,引入“运维行动”的概念对此类规范条文进行归纳。《绿色建筑运行维护技术规范》中还有少部分规范条文不包含约束含义,如规范条文1.0.2明确规定了“本规范适用于新建、扩建和改建的绿色建筑的运行维护”,这类规范条文通常在《绿色建筑运行维护技术规范》的总则和术语章节。
此外,一般将有明确规定值的规范条文称为可形式化规范条文,如属性约束即为数据属性约束,即能够判断建筑工程项目的实际参数是否符合规定值的规定范围。这类规范条文基本可以认为等同于属性约束类型,这种约束形式需要通过OWL语言中的数据属性进行表达。而其它没有明确规定值的规范条文称为非形式化条文或半形式化条文即为项目属性约束,如规范约束、状态约束、行动约束和非约束等,则需要通过对象属性来表达计算机可理解的约束含义。
步骤2.2规范分词和实体识别;
在进行规范知识的语义表达之前,需要对规范语料进行分词处理。实际上每个自然语言表达的规范语句都可以划分为多个词语序列的组合。首先对规范条文进行处理,将复杂的长句拆分为短句,目的是最终能以三元组的形式进行知识表示。然后对这些短句进行进一步的拆分,通常将其拆分成一个个的词语,以更好地分析句子的特性,这个过程就是规范分词。
规范分词后需要对各类词语进行实体识别,目的是提出抽象的词义元素对某一类词语进行归纳整理。实体识别可以帮助理解文本中的重要信息和关系,为后续的信息提取、知识图谱构建等任务提供基础。如表4所示,具体可梳理出如下几类:运维对象、运维属性、运维行动、运维状态、前提条件、情态词、数量比较词、关系词、属性值、规范名称、规范编号和条文编号。其中,情态词根据严格程度可以划分为严禁/必须、不应/不得/应、不宜/宜、不可/可四类,分别对应英文中的Must、Should、May、Could。以规范条文5.4.2为例,在“配电系统的三相负载不平衡度不应大于15%”中,“配电系统”属于运维对象,“三相负载不平衡度”属于运维属性,“不应”是情态词,“大于”是数量比较词,“15%”是属性值。此外,表4中还给出了各类词义元素在OWL语言中可以通过什么实体类型或实体描述进行表示,这为之后的规范转译打下了基础。
表4词义元素的实体识别
词义元素 | 部分示例 | 实体表示 | 数量 |
运维对象 | 制冷设备机组、建筑再调试计划 | 类 | 268 |
运维属性 | 室内颗粒物浓度、建筑负荷特性 | 类 | 140 |
运维行动 | 及时维修、定期检查 | 类 | 49 |
运维状态 | 齐全、完备 | 类 | 16 |
前提条件 | 改造时、运行前 | 对应的对象或属性的子类 | 66 |
规范名称 | 绿色建筑评价标准 | 类 | 15 |
规范编号 | GB/T50378 | 类 | 12 |
情态词 | 必须、不宜 | 对象属性/数据属性命名前缀 | 153 |
关系词 | 加大、根据…调节 | 对象属性 | 126 |
条文编号 | 5.4.2 | 对象属性/数据属性命名后缀 | 124 |
数量比较词 | 大于、不等于 | 数据属性对类的约束 | 8 |
属性值 | 15%、0.93~0.98 | 数据属性对类的约束 | 9 |
集合运算词 | 且、或、除…以外 | 类的描述 | 10 |
步骤2.3规范知识表达式构建;
完成规范分词和实体识别后,每个规范条文都被拆分成多个词义元素的集合。实际上,如果将词义元素视为某类词义信息的抽象概念,那么由多个词义元素组合而成的规范知识表达式,就是某条语义信息的抽象表达。通过构建规范知识表达式,可以将《绿色建筑运行维护技术规范》中的要求和规定以结构化的形式进行表达,使规范条文中的知识便于计算机理解。以属性约束类型为例,规范条文“低压侧电力系统功率因数宜为0.93~0.98”的规范分词和实体识别分别如下:
规范分词:低压侧+电力系统+功率因数+宜+为+0.93~0.98;
实体识别:前提条件+运维对象+运维属性+情态词+数量比较词+属性值;
第二行即是属性约束类型的规范知识表达式。由于规范知识表达式是该约束类型中词义元素组合最丰富的形式,不是所有的规范条文都完全符合规范知识表达式。但是同种约束类型的规范条文可以使用同一个规范知识表达式,某项词义元素的缺失不影响后期的规范转译。表5列举了状态约束知识表达式及部分示例。
表5状态约束知识表达式及部分示例
非约束类型规范条文由于数量较少、形式简单,不再单独设计规范知识表达式。此外,集合运算词出现频率低,如果出现可使用∩(交)、∪(并)和(补)三种符号进行表示。《绿色建筑运行维护技术规范》中包括7个属性约束规范条文、72个关系约束规范条文、12个规范约束规范条文、9个状态约束规范条文和30个行动约束规范条文。需要说明的是,一条规范条文可能会覆盖多种约束类型,例如规范条文5.2.2“采用集中空调且人员密集的区域,运行过程中的新风量应根据实际室内人员需求进行调节,并应符合现行国家标准《民用建筑供暖通风与空气调节设计规范》GB 50736的有关规定”。
现有建筑本体复用和规范知识结构设计是构建绿色建筑运维知识本体的研究基础。基于ChatGPT对IfcOWL本体的58个节点实现了包含同义和扩展两种情况的复用。通过建筑运维规范分析,主要按照约束内容对《绿色建筑运行维护技术规范》的规范条文进行了分类,并且对124个规范条文进行规范分词和实体识别,总结了13种词义元素和5种规范知识表达式,实现了规范语义知识的结构化表达。
步骤三、绿色建筑运维知识本体构建;
《绿色建筑运行维护技术规范》以自然语言的方式进行表示,然而这种方式只能帮助人类理解规范。为了让计算机理解规范条文所包含的知识,需要对规范条文进行结构化转化。如图3所示,步骤一和步骤二通过对《绿色建筑运行维护技术规范》(图3中运维规范)进行规范分析实现了原始规范(5.2.6变频设备的频率不宜低于30Hz)的分类处理,并且通过规范分词(5.2.6/变频设备/的/频率/不宜/低于/30Hz)和实体识别(编号/对象/属性/情态词/比较值/属性值)设计了各类规范知识表达式(编号+条件+对象+属性+情态词+比较值+属性值),为计算机理解规范条文所包含的知识描述奠定基础。
下面将基于Protégé平台参照表6的实体表示方法对规范知识表达式进行结构化,实现基于OWL语言的规范转译,进一步建立建筑运维规范本体;最后,将建筑运维规范本体与IfcOWL本体相融合,构建绿色建筑运维知识本体。具体操作流程如下:
步骤3.1 IfcOWL本体扩展;
IFC标准包括三种扩展机制:新增实体的扩展、IfcProxy实体的扩展和自定义属性集的扩展。但是三种扩展机制存在着扩展成本和扩展意义之间的矛盾,如表6所示。而且无论哪种扩展机制都需要基于EXPRESS语言扩展IFC标准,再建立EXPRESS到OWL的映射框架,才能得到扩展后的IfcOWL本体。但是IFC模式对于不太熟悉EXPRESS语言的操作人员不容易进行扩展。
表6 IFC扩展机制对比
对比项目 | IfcProxy实体扩展 | 新增实体扩展 | 属性集扩展 |
操作性 | 易 | 难 | 较易 |
兼容性 | 优 | 差 | 良 |
运行效率 | 低 | 高 | 一般 |
扩展意义 | 小 | 大 | 较大 |
绿色建筑运维领域包含建筑的方方面面,因此无法避免要针对性地新增实体。因此,本发明采用在Protégé平台上基于OWL语言直接对IfcOWL进行扩展。使用OWL语言对IfcOWL进行扩展可以满足特定领域的需求,可以根据具体的领域要求自定义概念、属性和关系,使得本体能够更好地适应不同的应用场景和需求。同时,基于OWL语言进行扩展的本体具有良好的可理解性,使得后续的维护和演化工作更加容易。如果有新的需求或变化出现,可以相对轻松地对扩展进行修改和调整,而不需要对整个系统进行大规模改动。此外,OWL语言具有丰富的推理和查询功能,可以帮助开发人员快速验证扩展定义的正确性和一致性。更重要的是,OWL语言提供了丰富的工具和资源,可以加快扩展的开发进程,减少开发人员的工作量和开发周期。
步骤3.2利用Protégé平台和WebVOWL可视化工具进行规范转译实现本体建模,建立计算机可以理解的建筑运维规范本体;
①“前提条件”通过语义解读将其定义为某个对象或属性的子类。如图4所示,例如规范条文6.1.4明确规定了“修补、翻新、改造时,(建筑产品)宜优先选用本地生产的建筑材料”,其中“修补、翻新、改造时”作为“前提条件”并不直接定义为类,而是以“建筑产品”为父类,添加“修补时的建筑产品”、“翻新时的建筑产品”和“改造时的建筑产品”三个子类。
②规范中存在句子成分明显缺失的规范条文。如规范条文6.3.1中的“应制定并公示绿化管理制度,并严格执行”、规范条文6.1.4中的“修补、翻新、改造时,宜优先选用本地生产的建筑材料”以及规范条文6.2.11中的“卫生器具更换时,不应采用较低用水效率等级的卫生器具”。针对这类规范条文,本发明参考了《绿色建筑运行维护技术规范实施指南》和《绿色建筑运行维护技术规范条文说明》,人工对规范条文缺失的成分进行了补充。
③规范中还存在集合运算词“且”、“或”、“非”。例如“采用集中空调且人员密集的区域,新风量应符合现行国家标准”,即这种区域要同时满足使用集中空调区域和人员密集区域两个条件。如图5和图6所示,交并补这类集合运算,一般在Protégé中用and、or和not来描述。
④部分规范条文中存在隐含的量词约束和数量约束。如图6所示,例如“新风量”是“区域”的属性,但是“区域”不仅只有这一个属性,因此采用存在性量词some而不是全称量词only。此外,规范名称和规范编号是一一对应的,这是一种数量约束,可以通过Exactly 1(基数)的形式进行约束。
步骤3.3将建筑运维规范本体与IfcOWL本体相融合,构建绿色建筑运维知识本体。
本体对于知识图谱定义和组织知识具有重要作用,利用Protégé建模工具和WebVOWL可视化工具实现本体建模,基于多种建模技术的规范转译,构建了计算机可理解的建筑运维规范本体,并与IfcOWL本体进行融合后,获得包括1937个类、2043个对象属性、25个数据属性以及24624条公理的绿色建筑运维知识本体,同时利用Neo4j图数据库存储绿色建筑运维知识本体。
步骤四、绿色建筑运维知识图谱构建;
由于知识图谱在绿色建筑运维领域的实践和发明比较有限,需要领域专家介入自顶向下构建知识图谱的基本数据架构。但同时《绿色建筑运行维护技术规范》是行业内高质量的知识资源,应充分收集和整理规范知识数据,并逐步构建和发现知识图谱的结构和关系。因此,本发明基于自顶向下和自底向上相结合的构建方法,进一步提出了基于行业规范和现有建筑本体的建筑运维知识图谱构建方法。
如图7所示,自顶向下是先进行领域特征分析,基于现有建筑本体的框架进行现有建筑本体复用,通过本体编辑器或其他方式构建知识图谱的模式层,最后进行层次关系定义、属性关系定义和语义关系定义,从而完成绿色建筑运维知识本体的构建。通过定义上下位关系、类属关系、语义关联关系等,能够形成清晰明确的概念层次结构。自底向上则是针对绿色建筑运维领域的多源多模态数据,如专业文献资料、专家经验知识、建筑运维数据库和网络资源等,通过原始数据获取,采用合适的知识抽取算法提取其实体及关系,其中,重点利用规范知识对模式层进行补充和优化;最后,对不同来源的规范知识进行对齐、合并和消歧,将抽取的规范知识按照模式层的框架进行知识存储和应用,形成模式层到数据层的映射,构建出完整的绿色建筑运维知识图谱。
基于《绿色建筑运行维护技术规范》和现有建筑本体,本发明对自顶向下和自底向上相结合的领域知识图谱构建方法进行了改进。利用Neo4j图数据库存储绿色建筑运维知识本体,初步构建并应用了绿色建筑运维知识图谱,为大规模存储多源异构数据奠定了基础。
利用本发明的一种基于行业规范和现有建筑本体的建筑运维知识图谱构建方法获得了一种绿色建筑运维知识图谱。利用Neo4j图数据库的Cypher查询语句功能,实现了基于绿色建筑运维知识图谱约束内容、关联路径和规范内容三种查询的应用。具体如下:
1、约束内容查询。《绿色建筑运行维护技术规范》所提供的知识主要是对某种对象或属性的约束,因此该功能支持运维人员快速查询现有规范对该节点的全部约束内容。此外,该功能可进一步对比不同规范对同一节点的约束内容,有利于发现规范条文的冲突和重合。图8呈现了行动约束的内容和互斥类的查询结果。
2、关联路径查询。建筑运维领域涉及到大量的建筑实体,各建筑实体相互关联形成了复杂的关系网络。因此节点间的关联路径查询将为辅助运维决策打下基础,有利于运维人员从多方面考虑对单一节点的管理措施。以配电系统和三相负载不平衡度为例,通过图9说明了两个节点之间的关联路径为所属关系。
3、规范内容查询。该功能一方面可以满足用户查阅规范的需求,另一方面由于对象属性和数据属性以条文编号为后缀,因此可进一步查询约束内容来源于哪个规范条文。图10以《绿色建筑运行维护技术规范》为例,初步呈现了《绿色建筑运行维护技术规范》具有的章节和属性,继续展开相关章节可查看具体的规范条文。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.基于行业规范和现有本体的建筑运维知识图谱构建方法,其特征在于,包括以下步骤:
步骤一、现有建筑本体复用,获取IfcOWL本体;
步骤二、通过规范分析,对规范条文进行分类,同时对规范条文进行分词和实体识别,构建规范知识表达式,获取建筑运维规范本体;
步骤三、对规范知识表达式进行结构化,实现基于OWL语言的规范转译,建立建筑运维规范本体;将建筑运维规范本体与IfcOWL本体相融合,构建绿色建筑运维知识本体;
步骤四、基于自顶向下和自底向上相结合的方法构建绿色建筑运维知识图谱。
2.根据权利要求1所述的基于行业规范和现有本体的建筑运维知识图谱构建方法,其特征在于,步骤一中,所述现有建筑本体复用方法为:
(1)新增节点与现有节点含义相同时,直接使用在IfcOWL中的现有节点;
(2)新增节点是现有节点的子类时,需扩展现有节点。
3.根据权利要求1所述的基于行业规范和现有本体的建筑运维知识图谱构建方法,其特征在于,步骤一中,采用ChatGPT辅助进行现有建筑本体复用。
4.根据权利要求1所述的基于行业规范和现有本体的建筑运维知识图谱构建方法,其特征在于,步骤二中,对规范条文进行分类的具体操作流程如下:
(1)从规范转译角度,将规范条文分成易结构化和难结构化;结构化是将自然语言表达的规范条文转换成计算机可读的语句;知识图谱中的知识采用(实体)-[关系]-(实体)或(实体)-{属性:属性值}的结构表示,若规范条文拆分后可由知识图谱的三元组结构表示,则称为易结构化;反之则称为难结构化;
(2)从约束内容角度,将规范条文分为六种类型:属性约束、关系约束、规范约束、行动约束、状态约束和非约束;
(3)从约束形式角度,将有明确规定值的规范条文称为可形式化规范条文,其含义通过OWL语言中的数据属性进行表达;其它没有明确规定值的规范条文称为非形式化条文或半形式化条文,其含义通过对象属性进行表达。
5.根据权利要求1所述的基于行业规范和现有本体的建筑运维知识图谱构建方法,其特征在于,步骤二中,对规范条文进行分词和实体识别的具体操作流程如下:
对规范条文进行处理,将复杂的长句拆分为短句,对这些短句进行进一步拆分,将其拆分成单个词语;规范分词后对各类词语进行实体识别,包括:运维对象、运维属性、运维行动、运维状态、前提条件、情态词、数量比较词、关系词、属性值、规范名称、规范编号和条文编号。
6.根据权利要求1所述的基于行业规范和现有本体的建筑运维知识图谱构建方法,其特征在于,步骤二中,完成规范分词和实体识别后,每个规范条文都被拆分成多个词义元素的集合。
7.根据权利要求1所述的基于行业规范和现有本体的建筑运维知识图谱构建方法,其特征在于,步骤三中,利用Neo4j图数据库存储绿色建筑运维知识本体。
8.根据权利要求1所述的基于行业规范和现有本体的建筑运维知识图谱构建方法,其特征在于,步骤三的具体操作流程如下:
步骤3.1采用在Protégé平台上基于OWL语言直接对IfcOWL进行扩展;
步骤3.2利用Protégé平台和WebVOWL可视化工具进行规范转译实现本体建模,建立建筑运维规范本体;
步骤3.3将建筑运维规范本体与IfcOWL本体相融合,构建绿色建筑运维知识本体。
9.根据权利要求8所述的基于行业规范和现有本体的建筑运维知识图谱构建方法,其特征在于,步骤3.2的具体操作流程如下:
①前提条件通过语义解读将其定义为某个对象或属性的子类;
②规范中存在句子成分明显缺失的规范条文时,利用人工对规范条文缺失的成分进行补充;
③规范中存在集合运算词且、或、非时,交并补这类集合运算,在Protégé中用and、or和not来描述;
④部分规范条文中存在隐含的量词约束和数量约束时,采用存在性量词some而不是全称量词only,规范名称和规范编号是一一对应的,这是一种数量约束,通过Exactly 1的形式进行约束。
10.根据权利要求1所述的基于行业规范和现有本体的建筑运维知识图谱构建方法,其特征在于,步骤四的具体操作流程如下:
所述自顶向下是先进行领域特征分析,基于现有建筑本体的框架进行现有建筑本体复用,通过本体编辑器或其他方式构建知识图谱的模式层,最后进行层次关系定义、属性关系定义和语义关系定义,从而完成绿色建筑运维知识本体的构建;所述自底向上是针对绿色建筑运维领域的多源多模态数据,通过原始数据获取,采用知识抽取算法提取其实体及关系,利用规范知识对模式层进行补充和优化;最后对不同来源的规范知识进行对齐、合并和消歧,将抽取的规范知识按照模式层的框架进行知识存储和应用,形成模式层到数据层的映射,构建出完整的绿色建筑运维知识图谱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311101294.2A CN117077778A (zh) | 2023-08-30 | 2023-08-30 | 基于行业规范和现有本体的建筑运维知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311101294.2A CN117077778A (zh) | 2023-08-30 | 2023-08-30 | 基于行业规范和现有本体的建筑运维知识图谱构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117077778A true CN117077778A (zh) | 2023-11-17 |
Family
ID=88716918
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311101294.2A Pending CN117077778A (zh) | 2023-08-30 | 2023-08-30 | 基于行业规范和现有本体的建筑运维知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117077778A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117271622A (zh) * | 2023-11-21 | 2023-12-22 | 中铁建设集团有限公司 | 一种建筑施工方案的审核知识要点挖掘方法与装置 |
-
2023
- 2023-08-30 CN CN202311101294.2A patent/CN117077778A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117271622A (zh) * | 2023-11-21 | 2023-12-22 | 中铁建设集团有限公司 | 一种建筑施工方案的审核知识要点挖掘方法与装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jiang et al. | Combining BIM and ontology to facilitate intelligent green building evaluation | |
CN111444351A (zh) | 一种行业工艺领域知识图谱构建方法及装置 | |
CN112784345A (zh) | 基于知识图谱的图模一致性审查方法、系统、终端及介质 | |
CN112434532B (zh) | 一种支持人机双向理解的电网环境模型及建模方法 | |
CN117077778A (zh) | 基于行业规范和现有本体的建筑运维知识图谱构建方法 | |
CN102930479A (zh) | 一种用于电力系统规程知识的形式化方法及其形式化系统 | |
Krek et al. | European lexicographic infrastructure (elexis) | |
Fan et al. | How to construct a power knowledge graph with dispatching data? | |
Malherbe et al. | Bridge the terminology gap between recruiters and candidates: A multilingual skills base built from social media and linked data | |
CN115757810A (zh) | 一种知识图谱标准本体构建方法 | |
CN114911893A (zh) | 基于知识图谱的自动化构建知识库的方法及系统 | |
Su et al. | Automatic knowledge graph construction based on relational data of power terminal equipment | |
Jiang et al. | Construction of substation engineering design knowledge graph based on “ontology seven-step method” | |
Wang et al. | An algorithm for transforming design text ROM diagram into FBS model | |
Li et al. | Analysis of customer satisfaction from chinese reviews using opinion mining | |
Arndt et al. | Smart grid terminology development—crossing the boundaries of terminology standardization | |
Gao et al. | Modular policy evaluation system: A policy evaluation framework based on text mining | |
Chen | Dynamic Modeling and Analysis of Micro-Video Teaching System Based on Cloud Computing in College English Teaching | |
Liu et al. | Knowledge Graph Construction and Application of Spatial Arrangement of Underground Powerhouse | |
Zhang | Field composition and development trend of research hotspots of translation technology in China-based on co-word visualization analysis of relevant academic journals from CNKI published from 1999 to 2017 | |
Zhu et al. | Review on knowledge graph and its application in power dispatching | |
Zhu et al. | Construction of transformer substation fault knowledge graph based on a depth learning algorithm | |
Luo et al. | An ontology construction method for educational domain | |
Wang et al. | An ontology-based query system for university domain | |
CN114090790B (zh) | 一种人机友好的数据逻辑融合电力知识图谱及其构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |