CN108416124B - 一种基于谓词逻辑的规范重构表示方法 - Google Patents
一种基于谓词逻辑的规范重构表示方法 Download PDFInfo
- Publication number
- CN108416124B CN108416124B CN201810149481.0A CN201810149481A CN108416124B CN 108416124 B CN108416124 B CN 108416124B CN 201810149481 A CN201810149481 A CN 201810149481A CN 108416124 B CN108416124 B CN 108416124B
- Authority
- CN
- China
- Prior art keywords
- predicate
- individual
- words
- clause
- subject
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims description 3
- 230000009469 supplementation Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 abstract description 12
- 238000001816 cooling Methods 0.000 description 4
- 238000009423 ventilation Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/10—Geometric CAD
- G06F30/18—Network design, e.g. design based on topological or interconnect aspects of utility systems, piping, heating ventilation air conditioning [HVAC] or cabling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2113/00—Details relating to the application field
- G06F2113/14—Pipes
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Geometry (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computer Networks & Wireless Communication (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于谓词逻辑的规范重构表示方法,具体包括如下步骤:步骤1,将规范条目分割为多个子句;步骤2,对步骤1得到的子句进行归一化处理;步骤3,对经步骤2处理后的子句成分进行符号化处理,并将处理后的结果存入计算机中。本发明能够将中文建筑规范条目进行数字化表达,解决了目前设计规范的计算机存储及识别问题。
Description
技术领域
本发明属于建筑规范智能化处理技术领域,涉及一种基于谓词逻辑的规范重构表示方法。
背景技术
在信息技术的出现不断推动着行业信息化,随着计算机科学技术的不断发展,行业领域知识不能仅仅以文本的形式出现,将其处理成计算机可识别的形式是行业领域知识智能化发展的前提。而在地铁综合管线的设计上,规范条文是一项非常重要的约束,涉及到公共交通和人身的安全,稍有不慎,会酿成重大事故。设计人员在设计时除了会对地铁设计规范进行参考,也要对建筑方面的规范进行参考;地下管线图纸审查时,要通过规范条文核对管线设计。而一张地下管线的图纸涉及到的规范条文是很难全部审查到位的。而现行规范条文通常是以文本的形式流通,计算机很难识别。
国外对于规范的智能化处理已经相对成熟,已经将其应用于多方面领域,如设计审查、施工进度审查等,但其大部分方法都不能应用于中文的设计规范。在规范条文智能化处理的进程中,建立一套中文规范智能化处理的方法是当下研究的重点。中文规范中,尤其是地铁设计规范,由于编写者众多,具有非结构化、文本形式复杂和数量巨大等特点。计算机现阶段只能识别结构化文本和人工处理过的文本,对于规范的识别还需人工处理,且处理过的文本须形式统一,计算机可识别。
发明内容
本发明的目的是提供一种基于谓词逻辑的规范重构表示方法,能够将中文建筑规范条目进行数字化表达,解决了目前设计规范的计算机存储及识别问题。
本发明所采用的技术方案是,一种基于谓词逻辑的规范重构表示方法,具体包括如下步骤:
步骤1,将规范条目分割为多个子句;
步骤2,对步骤1得到的子句进行归一化处理;
步骤3,对经步骤2处理后的子句成分进行符号化处理,并将处理后的结果存入计算机中。
本发明的特点还在于,
步骤1的具体过程如下:
步骤1.1,取出一条规范,先根据句中的逗号、分号和句号将句子断句,将该条规范表示为包含多个短句的短句集,并对断句后缺失主语的短句进行主语补充,并对每个短句进行编号;
步骤1.2,对步骤1.1所得短句中个体词数大于1个的主语或宾语进行子句抽取和谓语补充;
步骤1.3,对经步骤1.2处理后的每个子句进行编号,并提取子句的主语和宾语作为前置个体集和后置个体集。
其中步骤1.2的具体过程为:
若主语或宾语由2个及2以上的个体词构成,判断各个体词之间是平行关系、从所属关系、属性关系或关联关系;
若各个体词之间为从所属关系、属性关系、关联关系,应将主语或宾语提取出来作为单独的子句,并根据其语义为其添加谓语。
步骤2的具体过程如下:
步骤2.1:对子句中的谓语进行抽取,其中有否定含义谓语的,将其转化为肯定含义,组成谓语集合;
步骤2.2,将步骤2.1所得的谓语集合中的词项通过语义判断进行分类排序,将表达一类意思的词组成类别谓语集合;
步骤2.3,对步骤2.2所得的类别谓语集合进行聚类,即将一类词用一个词语表达出来作为集合名。
步骤3的具体过程如下:
步骤3.1,将步骤2.2中的类别谓语集合的集合名称作为谓词,修饰性谓语化为一元谓词,表示为根据关系谓语性质,将关系谓语化为二元谓词和多元谓词,二元谓词表示为多元谓词表示为其中P是集合名称;xi是谓词变元,i为正整数,xi取值为前置个体集和后置个体集;n为类别谓语集合下标,下标数字对应集合中的同义谓语词;m为程度词集合下标,
步骤3.4,根据谓词逻辑等价公式和量词否定等值式求步骤3.3所得的合式谓词公式的前束范式,使得规范条目逻辑表达格式统一;
步骤3.5,根据步骤3.4统一后的规范条目逻辑表达式,列出谓词变元的取值集合,以条目编号为标记,最终可以存入计算机中。
本发明的有益效果是,本发明提供的一种基于谓词逻辑的规范重构表示方法,通过将规范条目进行分割成多个子句,并对分割后的子句中有缺失成分的进行补充,再对子句进行归一化处理,再将子句经符号化处理后,最终输出由多个谓词逻辑组成的条目规范逻辑集合,最终可以存入计算机中,本发明能够将中文建筑规范条目进行数字化表达。解决了目前设计规范的计算机存储及识别问题。
具体实施方式
下面结合具体实施方式对本发明进行详细说明。
本发明一种基于谓词逻辑的规范重构表示方法,具体包括如下步骤:
步骤1,将规范条目分割为多个子句;最终分割为多个子句组成的形式,每个子句应由单个个体或平行关系个体组成的主语或宾语和一个谓语组成。
步骤1的具体过程如下:
步骤1.1,取出一条规范,先根据句中的逗号、分号和句号将句子断句,将该条规范表示为包含多个短句的短句集,并对断句后缺失主语的短句进行主语补充,并对每个短句进行编号;
步骤1.2,对步骤1.1所得短句中个体词数大于1个的主语或宾语进行子句抽取和谓语补充;
其中步骤1.2的具体过程为:
若主语或宾语由2个及2以上的个体词构成,判断各个体词之间是平行关系(个体词之间无关联)、从所属关系、属性关系或关联关系;
若各个体词之间为从所属关系、属性关系、关联关系,应将主语或宾语提取出来作为单独的子句,并根据其语义为其添加谓语(如AttributeOf、SubClassOf、UserOf等)。
从子句中提取关键个体词作为父级短句的主语或宾语个体词,并列为子句。
步骤1.3,对经步骤1.2处理后的每个子句进行编号,并提取子句的主语和宾语作为前置个体集和后置个体集。
步骤2,对步骤1得到的子句进行归一化处理;
步骤2的具体过程如下:
步骤2.1,对子句中的谓语进行抽取,其中有否定含义谓语的,将其转化为肯定含义,组成谓语集合;谓语通常与程度词(应、宜等)连接,将规范中的程度词提取出来组成程度词集合,集合内按程度从小到大排序。
步骤2.2,将步骤2.1所得的谓语集合中的词项通过语义判断进行分类排序,将表达一类意思的词组成类别谓语集合;
步骤2.3,对步骤2.2所得的类别谓语集合进行聚类,即将一类词用一个词语表达出来作为集合名。
步骤3,对经步骤2处理后的子句成分进行符号化处理,并将处理后的结果存入计算机中。
步骤3的具体过程如下:
步骤3.1,将步骤2.2中的类别谓语集合的集合名称作为谓词,修饰性谓语化为一元谓词,表示为根据关系谓语性质,将关系谓语化为二元谓词和多元谓词,二元谓词表示为多元谓词表示为其中P是集合名称;xi是谓词变元,i为正整数,xi取值为前置个体集和后置个体集;n为类别谓语集合下标,下标数字对应集合中的同义谓语词;m为程度词集合下标,
步骤3.4:根据谓词逻辑等价公式和量词否定等值式求步骤3.3所得的合式谓词公式的前束范式,使得规范条目逻辑表达格式统一;
步骤3.5,根据步骤3.4统一后的规范条目逻辑表达式,列出谓词变元的取值集合,以条目编号为标记,最终可以存入计算机中。
以《GB 50157-2013地铁设计规范》第13章通风、空调与供暖中第13.2.47条规范为例。
13.2.47地下车站的出入口通道和长通道的连续长度大于60m时,应采取通风或其他降温措施。
步骤1,将13.2.47的规范条目分割成多个子句,具体步骤如下:
对该条目规范进行断句,以逗号为分割点,该条目被分为2个短句,对其进行编号,分别为13.2.47.1和13.2.47.2。对2个短句进行成分补充。短句13.2.47.1:地下车站的出入口通道和长通道的连续长度大于60m;短句13.2.47.2:地下车站的出入口通道和长通道应采取通风或其他降温措施;
对短句中的个体词进行判别,根据语义,短句集中存在从所属关系和属性关系,为短句集主语部分补充谓语SubClassOf、AttributeOf。以短句13.2.47.1为例,短句13.2.47.1中有两个子句,分别为13.2.47.1.1(出入口通道、长通道+SubClassOf+地下车站);13.2.47.1.2(连续长度+AttributeOf+出入口通道、长通道);13.2.47.1.3(连续长度+大于+60m);
对子句进行编号,列出每个子句的前后置个体集,以短句13.2.47.2为例,其子句有两个,编号分别为13.2.47.2.1和13.2.47.2.2,其中子句13.2.47.2.2的后置个体集为:降温措施{1.通风;2.其他};
步骤2,对步骤1得到的子句进行归一化处理;
抽取短句及其子句中的谓语“大于”、“采取”、SubClassOf、AttributeOf,置于谓语集中,程度词“应”为程度词集中下标为2的程度词;
针对本实施例中《GB 50157-2013地铁设计规范》的第13.2.47条规范,大于是谓语集合Exceed中的词项,下标为1;采取是谓语集合Use中的词项,下标为2;SubClassOf、AttributeOf同集合名,且集合中只有本身。
步骤3,将规范条目中的成分进行符号化处理,并将处理后的结果存入计算机中,步骤3的具体过程如下:
短句1中的子句1表示为:SubClassOf1 0(x,y);子句2:AttributeOf1 0(x,y);短句1:短句2:(谓词上标为0表示无程度词)。添加量词,以子句1为例:其中x为SubClassOf的前置个体集{出入口通道、长通道},y为后置个体集{地下车站}。
合式谓词公式为:
统一规范条目逻辑表达式:
上述前束范式中,x是{1.出入口通道2.长通道},y是{地下通道},z是{连续长度},n是{60m},t是降温措施{1.通风2.其他},以条目编号13.2.47为标记,存入Excel中。
Claims (2)
1.一种基于谓词逻辑的规范重构表示方法,其特征在于:具体包括如下步骤:
步骤1,将规范条目分割为多个子句;
所述步骤1的具体过程如下:
步骤1.1,取出一条规范,先根据句中的逗号、分号和句号将句子断句,将该条规范表示为包含多个短句的短句集,并对断句后缺失主语的短句进行主语补充,并对每个短句进行编号;
步骤1.2,对步骤1.1所得短句中个体词数大于1个的主语或宾语进行子句抽取和谓语补充;
步骤1.3,对经步骤1.2处理后的每个子句进行编号,并提取子句的主语和宾语作为前置个体集和后置个体集;
步骤2,对步骤1得到的子句进行归一化处理;
所述步骤2的具体过程如下:
步骤2.1,对子句中的谓语进行抽取,其中有否定含义谓语的,将其转化为肯定含义,组成谓语集合;
步骤2.2,将步骤2.1所得的谓语集合中的词项通过语义判断进行分类排序,将表达一类意思的词组成类别谓语集合;
步骤2.3,对步骤2.2所得的类别谓语集合进行聚类,即将一类词用一个词语表达出来作为集合名;
步骤3,对经步骤2处理后的子句成分进行符号化处理,并将处理后的结果存入计算机中;
所述步骤3的具体过程如下:
其中P是集合名称;xi是谓词变元,i为正整数,xi取值为前置个体集和后置个体集;n为类别谓语集合下标,下标数字对应集合中的同义谓语词;m为程度词集合下标,
步骤3.4,根据谓词逻辑等价公式和量词否定等值式求步骤3.3所得的合式谓词公式的前束范式,使得规范条目逻辑表达格式统一;
步骤3.5,根据步骤3.4统一后的规范条目逻辑表达式,列出谓词变元的取值集合,以条目编号为标记,最终存入计算机中。
2.根据权利要求1所述的一种基于谓词逻辑的规范重构表示方法,其特征在于:所述步骤1.2的具体过程为:
若主语或宾语由2个及2个以上的个体词构成,判断各个体词之间是平行关系、从所属关系、属性关系或关联关系;
若各个体词之间为从所属关系、属性关系、关联关系,应将主语或宾语提取出来作为单独的子句,并根据其语义为其添加谓语。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810149481.0A CN108416124B (zh) | 2018-02-13 | 2018-02-13 | 一种基于谓词逻辑的规范重构表示方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810149481.0A CN108416124B (zh) | 2018-02-13 | 2018-02-13 | 一种基于谓词逻辑的规范重构表示方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108416124A CN108416124A (zh) | 2018-08-17 |
CN108416124B true CN108416124B (zh) | 2022-03-25 |
Family
ID=63128687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810149481.0A Expired - Fee Related CN108416124B (zh) | 2018-02-13 | 2018-02-13 | 一种基于谓词逻辑的规范重构表示方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108416124B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111444349B (zh) * | 2020-03-06 | 2023-09-12 | 深圳追一科技有限公司 | 信息抽取方法、装置、计算机设备和存储介质 |
CN111915010B (zh) * | 2020-06-19 | 2024-02-02 | 西安理工大学 | 一种基于组合结构的规范知识存储方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622295A (zh) * | 2012-02-17 | 2012-08-01 | 北京航空航天大学 | 一种基于谓词执行信息分析的自适应软件缺陷定位方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9189501B2 (en) * | 2001-08-31 | 2015-11-17 | Margaret Runchey | Semantic model of everything recorded with UR-URL combination identity-identifier-addressing-indexing method, means, and apparatus |
US7146361B2 (en) * | 2003-05-30 | 2006-12-05 | International Business Machines Corporation | System, method and computer program product for performing unstructured information management and automatic text analysis, including a search operator functioning as a Weighted AND (WAND) |
CN102609687B (zh) * | 2012-01-31 | 2013-03-13 | 华中科技大学 | 一种地铁施工图纸及工程参数自动识别方法 |
CN102750419B (zh) * | 2012-06-27 | 2015-03-25 | 西安理工大学 | 一种地铁综合管线辅助设计系统及设计方法 |
CN103761398A (zh) * | 2014-01-26 | 2014-04-30 | 北京仿真中心 | 一种基于知识本体的知识体系的建模方法 |
-
2018
- 2018-02-13 CN CN201810149481.0A patent/CN108416124B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622295A (zh) * | 2012-02-17 | 2012-08-01 | 北京航空航天大学 | 一种基于谓词执行信息分析的自适应软件缺陷定位方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108416124A (zh) | 2018-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107480125B (zh) | 一种基于知识图谱的关系链接方法 | |
CN109508459B (zh) | 一种从新闻中提取主题和关键信息的方法 | |
CN108334495A (zh) | 短文本相似度计算方法及系统 | |
CN109271626A (zh) | 文本语义分析方法 | |
CN106598940A (zh) | 基于全局优化关键词质量的文本相似度求解算法 | |
CN110362819B (zh) | 基于卷积神经网络的文本情感分析方法 | |
CN106610951A (zh) | 改进的基于语义分析的文本相似度求解算法 | |
CN104933027A (zh) | 一种利用依存分析的开放式中文实体关系抽取方法 | |
CN107133212B (zh) | 一种基于集成学习和词句综合信息的文本蕴涵识别方法 | |
CN105302794A (zh) | 一种中文同指事件识别方法及系统 | |
CN108416124B (zh) | 一种基于谓词逻辑的规范重构表示方法 | |
CN106598941A (zh) | 一种全局优化文本关键词质量的算法 | |
CN106446147A (zh) | 一种基于结构化特征的情感分析方法 | |
CN111597349B (zh) | 一种基于人工智能的轨道交通规范实体关系自动补全方法 | |
CN109933781A (zh) | 基于sao结构的中文专利文本实体关系抽取方法 | |
Chang et al. | A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING. | |
CN106610954A (zh) | 基于统计学的文本特征词汇提取方法 | |
Cao et al. | Tibetan text classification based on the feature of position weight | |
CN106021225B (zh) | 一种基于汉语简单名词短语的汉语最长名词短语识别方法 | |
CN107622047A (zh) | 一种设计决策知识的提取和表达方法 | |
CN112084778A (zh) | 基于新型关系注意力机制的实体关系抽取方法及设备 | |
Nayal et al. | KerMinSVM for imbalanced datasets with a case study on arabic comics classification | |
CN108763487B (zh) | 一种基于Mean Shift的融合词性和句子信息的词表示方法 | |
CN115146031B (zh) | 一种基于深度学习和辅助特征的短文本立场检测方法 | |
Atanassova | Beyond Metadata: the New Challenges in Mining Scientific Papers. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220325 |
|
CF01 | Termination of patent right due to non-payment of annual fee |