CN108416124B - 一种基于谓词逻辑的规范重构表示方法 - Google Patents

一种基于谓词逻辑的规范重构表示方法 Download PDF

Info

Publication number
CN108416124B
CN108416124B CN201810149481.0A CN201810149481A CN108416124B CN 108416124 B CN108416124 B CN 108416124B CN 201810149481 A CN201810149481 A CN 201810149481A CN 108416124 B CN108416124 B CN 108416124B
Authority
CN
China
Prior art keywords
predicate
individual
words
clause
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810149481.0A
Other languages
English (en)
Other versions
CN108416124A (zh
Inventor
赵钦
赵雅倩
余梁蜀
黑新宏
朱磊
杨明松
刘尧尧
李亚杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN201810149481.0A priority Critical patent/CN108416124B/zh
Publication of CN108416124A publication Critical patent/CN108416124A/zh
Application granted granted Critical
Publication of CN108416124B publication Critical patent/CN108416124B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/18Network design, e.g. design based on topological or interconnect aspects of utility systems, piping, heating ventilation air conditioning [HVAC] or cabling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2113/00Details relating to the application field
    • G06F2113/14Pipes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Geometry (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于谓词逻辑的规范重构表示方法,具体包括如下步骤:步骤1,将规范条目分割为多个子句;步骤2,对步骤1得到的子句进行归一化处理;步骤3,对经步骤2处理后的子句成分进行符号化处理,并将处理后的结果存入计算机中。本发明能够将中文建筑规范条目进行数字化表达,解决了目前设计规范的计算机存储及识别问题。

Description

一种基于谓词逻辑的规范重构表示方法
技术领域
本发明属于建筑规范智能化处理技术领域,涉及一种基于谓词逻辑的规范重构表示方法。
背景技术
在信息技术的出现不断推动着行业信息化,随着计算机科学技术的不断发展,行业领域知识不能仅仅以文本的形式出现,将其处理成计算机可识别的形式是行业领域知识智能化发展的前提。而在地铁综合管线的设计上,规范条文是一项非常重要的约束,涉及到公共交通和人身的安全,稍有不慎,会酿成重大事故。设计人员在设计时除了会对地铁设计规范进行参考,也要对建筑方面的规范进行参考;地下管线图纸审查时,要通过规范条文核对管线设计。而一张地下管线的图纸涉及到的规范条文是很难全部审查到位的。而现行规范条文通常是以文本的形式流通,计算机很难识别。
国外对于规范的智能化处理已经相对成熟,已经将其应用于多方面领域,如设计审查、施工进度审查等,但其大部分方法都不能应用于中文的设计规范。在规范条文智能化处理的进程中,建立一套中文规范智能化处理的方法是当下研究的重点。中文规范中,尤其是地铁设计规范,由于编写者众多,具有非结构化、文本形式复杂和数量巨大等特点。计算机现阶段只能识别结构化文本和人工处理过的文本,对于规范的识别还需人工处理,且处理过的文本须形式统一,计算机可识别。
发明内容
本发明的目的是提供一种基于谓词逻辑的规范重构表示方法,能够将中文建筑规范条目进行数字化表达,解决了目前设计规范的计算机存储及识别问题。
本发明所采用的技术方案是,一种基于谓词逻辑的规范重构表示方法,具体包括如下步骤:
步骤1,将规范条目分割为多个子句;
步骤2,对步骤1得到的子句进行归一化处理;
步骤3,对经步骤2处理后的子句成分进行符号化处理,并将处理后的结果存入计算机中。
本发明的特点还在于,
步骤1的具体过程如下:
步骤1.1,取出一条规范,先根据句中的逗号、分号和句号将句子断句,将该条规范表示为包含多个短句的短句集,并对断句后缺失主语的短句进行主语补充,并对每个短句进行编号;
步骤1.2,对步骤1.1所得短句中个体词数大于1个的主语或宾语进行子句抽取和谓语补充;
步骤1.3,对经步骤1.2处理后的每个子句进行编号,并提取子句的主语和宾语作为前置个体集和后置个体集。
其中步骤1.2的具体过程为:
若主语或宾语由2个及2以上的个体词构成,判断各个体词之间是平行关系、从所属关系、属性关系或关联关系;
若各个体词之间为从所属关系、属性关系、关联关系,应将主语或宾语提取出来作为单独的子句,并根据其语义为其添加谓语。
步骤2的具体过程如下:
步骤2.1:对子句中的谓语进行抽取,其中有否定含义谓语的,将其转化为肯定含义,组成谓语集合;
步骤2.2,将步骤2.1所得的谓语集合中的词项通过语义判断进行分类排序,将表达一类意思的词组成类别谓语集合;
步骤2.3,对步骤2.2所得的类别谓语集合进行聚类,即将一类词用一个词语表达出来作为集合名。
步骤3的具体过程如下:
步骤3.1,将步骤2.2中的类别谓语集合的集合名称作为谓词,修饰性谓语化为一元谓词,表示为
Figure BDA0001579607700000031
根据关系谓语性质,将关系谓语化为二元谓词和多元谓词,二元谓词表示为
Figure BDA0001579607700000032
多元谓词表示为
Figure BDA0001579607700000033
其中P是集合名称;xi是谓词变元,i为正整数,xi取值为前置个体集和后置个体集;n为类别谓语集合下标,下标数字对应集合中的同义谓语词;m为程度词集合下标,
步骤3.2,对步骤3.1中的谓词进行量化及符号表示,将短句中的全称量词
Figure BDA0001579607700000034
存在量词
Figure BDA0001579607700000035
和存在唯一量词
Figure BDA0001579607700000036
提取出来并提前,表示为
Figure BDA0001579607700000037
Figure BDA0001579607700000038
步骤3.3,使用联结词将步骤3.2量化后的谓词连接起来组成合式谓词公式,根据量词和句意使用联结词,其中全称量词
Figure BDA0001579607700000039
后跟条件式,存在量词
Figure BDA00015796077000000310
后跟合取式;
步骤3.4,根据谓词逻辑等价公式和量词否定等值式求步骤3.3所得的合式谓词公式的前束范式,使得规范条目逻辑表达格式统一;
步骤3.5,根据步骤3.4统一后的规范条目逻辑表达式,列出谓词变元的取值集合,以条目编号为标记,最终可以存入计算机中。
本发明的有益效果是,本发明提供的一种基于谓词逻辑的规范重构表示方法,通过将规范条目进行分割成多个子句,并对分割后的子句中有缺失成分的进行补充,再对子句进行归一化处理,再将子句经符号化处理后,最终输出由多个谓词逻辑组成的条目规范逻辑集合,最终可以存入计算机中,本发明能够将中文建筑规范条目进行数字化表达。解决了目前设计规范的计算机存储及识别问题。
具体实施方式
下面结合具体实施方式对本发明进行详细说明。
本发明一种基于谓词逻辑的规范重构表示方法,具体包括如下步骤:
步骤1,将规范条目分割为多个子句;最终分割为多个子句组成的形式,每个子句应由单个个体或平行关系个体组成的主语或宾语和一个谓语组成。
步骤1的具体过程如下:
步骤1.1,取出一条规范,先根据句中的逗号、分号和句号将句子断句,将该条规范表示为包含多个短句的短句集,并对断句后缺失主语的短句进行主语补充,并对每个短句进行编号;
步骤1.2,对步骤1.1所得短句中个体词数大于1个的主语或宾语进行子句抽取和谓语补充;
其中步骤1.2的具体过程为:
若主语或宾语由2个及2以上的个体词构成,判断各个体词之间是平行关系(个体词之间无关联)、从所属关系、属性关系或关联关系;
若各个体词之间为从所属关系、属性关系、关联关系,应将主语或宾语提取出来作为单独的子句,并根据其语义为其添加谓语(如AttributeOf、SubClassOf、UserOf等)。
从子句中提取关键个体词作为父级短句的主语或宾语个体词,并列为子句。
步骤1.3,对经步骤1.2处理后的每个子句进行编号,并提取子句的主语和宾语作为前置个体集和后置个体集。
步骤2,对步骤1得到的子句进行归一化处理;
步骤2的具体过程如下:
步骤2.1,对子句中的谓语进行抽取,其中有否定含义谓语的,将其转化为肯定含义,组成谓语集合;谓语通常与程度词(应、宜等)连接,将规范中的程度词提取出来组成程度词集合,集合内按程度从小到大排序。
步骤2.2,将步骤2.1所得的谓语集合中的词项通过语义判断进行分类排序,将表达一类意思的词组成类别谓语集合;
步骤2.3,对步骤2.2所得的类别谓语集合进行聚类,即将一类词用一个词语表达出来作为集合名。
步骤3,对经步骤2处理后的子句成分进行符号化处理,并将处理后的结果存入计算机中。
步骤3的具体过程如下:
步骤3.1,将步骤2.2中的类别谓语集合的集合名称作为谓词,修饰性谓语化为一元谓词,表示为
Figure BDA0001579607700000051
根据关系谓语性质,将关系谓语化为二元谓词和多元谓词,二元谓词表示为
Figure BDA0001579607700000052
多元谓词表示为
Figure BDA0001579607700000053
其中P是集合名称;xi是谓词变元,i为正整数,xi取值为前置个体集和后置个体集;n为类别谓语集合下标,下标数字对应集合中的同义谓语词;m为程度词集合下标,
步骤3.2,对步骤3.1中的谓词进行量化及符号表示,将短句中的全称量词
Figure BDA0001579607700000061
存在量词
Figure BDA0001579607700000062
和存在唯一量词
Figure BDA0001579607700000063
提取出来并提前,表示为
Figure BDA0001579607700000064
Figure BDA0001579607700000065
步骤3.3,使用联结词将步骤3.2量化后的谓词连接起来组成合式谓词公式,根据量词和句意使用联结词,其中全称量词
Figure BDA0001579607700000066
后跟条件式,存在量词
Figure BDA0001579607700000067
后跟合取式;
步骤3.4:根据谓词逻辑等价公式和量词否定等值式求步骤3.3所得的合式谓词公式的前束范式,使得规范条目逻辑表达格式统一;
步骤3.5,根据步骤3.4统一后的规范条目逻辑表达式,列出谓词变元的取值集合,以条目编号为标记,最终可以存入计算机中。
以《GB 50157-2013地铁设计规范》第13章通风、空调与供暖中第13.2.47条规范为例。
13.2.47地下车站的出入口通道和长通道的连续长度大于60m时,应采取通风或其他降温措施。
步骤1,将13.2.47的规范条目分割成多个子句,具体步骤如下:
对该条目规范进行断句,以逗号为分割点,该条目被分为2个短句,对其进行编号,分别为13.2.47.1和13.2.47.2。对2个短句进行成分补充。短句13.2.47.1:地下车站的出入口通道和长通道的连续长度大于60m;短句13.2.47.2:地下车站的出入口通道和长通道应采取通风或其他降温措施;
对短句中的个体词进行判别,根据语义,短句集中存在从所属关系和属性关系,为短句集主语部分补充谓语SubClassOf、AttributeOf。以短句13.2.47.1为例,短句13.2.47.1中有两个子句,分别为13.2.47.1.1(出入口通道、长通道+SubClassOf+地下车站);13.2.47.1.2(连续长度+AttributeOf+出入口通道、长通道);13.2.47.1.3(连续长度+大于+60m);
对子句进行编号,列出每个子句的前后置个体集,以短句13.2.47.2为例,其子句有两个,编号分别为13.2.47.2.1和13.2.47.2.2,其中子句13.2.47.2.2的后置个体集为:降温措施{1.通风;2.其他};
步骤2,对步骤1得到的子句进行归一化处理;
抽取短句及其子句中的谓语“大于”、“采取”、SubClassOf、AttributeOf,置于谓语集中,程度词“应”为程度词集中下标为2的程度词;
针对本实施例中《GB 50157-2013地铁设计规范》的第13.2.47条规范,大于是谓语集合Exceed中的词项,下标为1;采取是谓语集合Use中的词项,下标为2;SubClassOf、AttributeOf同集合名,且集合中只有本身。
步骤3,将规范条目中的成分进行符号化处理,并将处理后的结果存入计算机中,步骤3的具体过程如下:
短句1中的子句1表示为:SubClassOf1 0(x,y);子句2:AttributeOf1 0(x,y);短句1:
Figure BDA0001579607700000071
短句2:
Figure BDA0001579607700000072
(谓词上标为0表示无程度词)。添加量词,以子句1为例:
Figure BDA0001579607700000073
其中x为SubClassOf的前置个体集{出入口通道、长通道},y为后置个体集{地下车站}。
合式谓词公式为:
Figure BDA0001579607700000074
统一规范条目逻辑表达式:
Figure BDA0001579607700000081
上述前束范式中,x是{1.出入口通道2.长通道},y是{地下通道},z是{连续长度},n是{60m},t是降温措施{1.通风2.其他},以条目编号13.2.47为标记,存入Excel中。

Claims (2)

1.一种基于谓词逻辑的规范重构表示方法,其特征在于:具体包括如下步骤:
步骤1,将规范条目分割为多个子句;
所述步骤1的具体过程如下:
步骤1.1,取出一条规范,先根据句中的逗号、分号和句号将句子断句,将该条规范表示为包含多个短句的短句集,并对断句后缺失主语的短句进行主语补充,并对每个短句进行编号;
步骤1.2,对步骤1.1所得短句中个体词数大于1个的主语或宾语进行子句抽取和谓语补充;
步骤1.3,对经步骤1.2处理后的每个子句进行编号,并提取子句的主语和宾语作为前置个体集和后置个体集;
步骤2,对步骤1得到的子句进行归一化处理;
所述步骤2的具体过程如下:
步骤2.1,对子句中的谓语进行抽取,其中有否定含义谓语的,将其转化为肯定含义,组成谓语集合;
步骤2.2,将步骤2.1所得的谓语集合中的词项通过语义判断进行分类排序,将表达一类意思的词组成类别谓语集合;
步骤2.3,对步骤2.2所得的类别谓语集合进行聚类,即将一类词用一个词语表达出来作为集合名;
步骤3,对经步骤2处理后的子句成分进行符号化处理,并将处理后的结果存入计算机中;
所述步骤3的具体过程如下:
步骤3.1,将步骤2.2中的类别谓语集合的集合名称作为谓词,修饰性谓语化为一元谓词,表示为
Figure FDA0003475307190000021
根据关系谓语性质,将关系谓语化为二元谓词和多元谓词,二元谓词表示为
Figure FDA0003475307190000022
多元谓词表示为
Figure FDA0003475307190000023
其中P是集合名称;xi是谓词变元,i为正整数,xi取值为前置个体集和后置个体集;n为类别谓语集合下标,下标数字对应集合中的同义谓语词;m为程度词集合下标,
步骤3.2,对步骤3.1中的谓词进行量化及符号表示,将短句中的全称量词
Figure FDA0003475307190000024
存在量词
Figure FDA0003475307190000025
和存在唯一量词
Figure FDA0003475307190000026
提取出来并提前,表示为
Figure FDA0003475307190000027
Figure FDA0003475307190000028
步骤3.3,使用联结词将步骤3.2量化后的谓词连接起来组成合式谓词公式,根据量词和句意使用联结词,其中全称量词
Figure FDA0003475307190000029
后跟条件式,存在量词
Figure FDA00034753071900000210
后跟合取式;
步骤3.4,根据谓词逻辑等价公式和量词否定等值式求步骤3.3所得的合式谓词公式的前束范式,使得规范条目逻辑表达格式统一;
步骤3.5,根据步骤3.4统一后的规范条目逻辑表达式,列出谓词变元的取值集合,以条目编号为标记,最终存入计算机中。
2.根据权利要求1所述的一种基于谓词逻辑的规范重构表示方法,其特征在于:所述步骤1.2的具体过程为:
若主语或宾语由2个及2个以上的个体词构成,判断各个体词之间是平行关系、从所属关系、属性关系或关联关系;
若各个体词之间为从所属关系、属性关系、关联关系,应将主语或宾语提取出来作为单独的子句,并根据其语义为其添加谓语。
CN201810149481.0A 2018-02-13 2018-02-13 一种基于谓词逻辑的规范重构表示方法 Expired - Fee Related CN108416124B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810149481.0A CN108416124B (zh) 2018-02-13 2018-02-13 一种基于谓词逻辑的规范重构表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810149481.0A CN108416124B (zh) 2018-02-13 2018-02-13 一种基于谓词逻辑的规范重构表示方法

Publications (2)

Publication Number Publication Date
CN108416124A CN108416124A (zh) 2018-08-17
CN108416124B true CN108416124B (zh) 2022-03-25

Family

ID=63128687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810149481.0A Expired - Fee Related CN108416124B (zh) 2018-02-13 2018-02-13 一种基于谓词逻辑的规范重构表示方法

Country Status (1)

Country Link
CN (1) CN108416124B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444349B (zh) * 2020-03-06 2023-09-12 深圳追一科技有限公司 信息抽取方法、装置、计算机设备和存储介质
CN111915010B (zh) * 2020-06-19 2024-02-02 西安理工大学 一种基于组合结构的规范知识存储方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622295A (zh) * 2012-02-17 2012-08-01 北京航空航天大学 一种基于谓词执行信息分析的自适应软件缺陷定位方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9189501B2 (en) * 2001-08-31 2015-11-17 Margaret Runchey Semantic model of everything recorded with UR-URL combination identity-identifier-addressing-indexing method, means, and apparatus
US7146361B2 (en) * 2003-05-30 2006-12-05 International Business Machines Corporation System, method and computer program product for performing unstructured information management and automatic text analysis, including a search operator functioning as a Weighted AND (WAND)
CN102609687B (zh) * 2012-01-31 2013-03-13 华中科技大学 一种地铁施工图纸及工程参数自动识别方法
CN102750419B (zh) * 2012-06-27 2015-03-25 西安理工大学 一种地铁综合管线辅助设计系统及设计方法
CN103761398A (zh) * 2014-01-26 2014-04-30 北京仿真中心 一种基于知识本体的知识体系的建模方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622295A (zh) * 2012-02-17 2012-08-01 北京航空航天大学 一种基于谓词执行信息分析的自适应软件缺陷定位方法

Also Published As

Publication number Publication date
CN108416124A (zh) 2018-08-17

Similar Documents

Publication Publication Date Title
CN107480125B (zh) 一种基于知识图谱的关系链接方法
CN109508459B (zh) 一种从新闻中提取主题和关键信息的方法
CN108334495A (zh) 短文本相似度计算方法及系统
CN109271626A (zh) 文本语义分析方法
CN106598940A (zh) 基于全局优化关键词质量的文本相似度求解算法
CN110362819B (zh) 基于卷积神经网络的文本情感分析方法
CN106610951A (zh) 改进的基于语义分析的文本相似度求解算法
CN104933027A (zh) 一种利用依存分析的开放式中文实体关系抽取方法
CN107133212B (zh) 一种基于集成学习和词句综合信息的文本蕴涵识别方法
CN105302794A (zh) 一种中文同指事件识别方法及系统
CN108416124B (zh) 一种基于谓词逻辑的规范重构表示方法
CN106598941A (zh) 一种全局优化文本关键词质量的算法
CN106446147A (zh) 一种基于结构化特征的情感分析方法
CN111597349B (zh) 一种基于人工智能的轨道交通规范实体关系自动补全方法
CN109933781A (zh) 基于sao结构的中文专利文本实体关系抽取方法
Chang et al. A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING.
CN106610954A (zh) 基于统计学的文本特征词汇提取方法
Cao et al. Tibetan text classification based on the feature of position weight
CN106021225B (zh) 一种基于汉语简单名词短语的汉语最长名词短语识别方法
CN107622047A (zh) 一种设计决策知识的提取和表达方法
CN112084778A (zh) 基于新型关系注意力机制的实体关系抽取方法及设备
Nayal et al. KerMinSVM for imbalanced datasets with a case study on arabic comics classification
CN108763487B (zh) 一种基于Mean Shift的融合词性和句子信息的词表示方法
CN115146031B (zh) 一种基于深度学习和辅助特征的短文本立场检测方法
Atanassova Beyond Metadata: the New Challenges in Mining Scientific Papers.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220325

CF01 Termination of patent right due to non-payment of annual fee