CN111915010B

CN111915010B - 一种基于组合结构的规范知识存储方法

Info

Publication number: CN111915010B
Application number: CN202010565742.4A
Authority: CN
Inventors: 黑新宏; 杨明松; 李宇超; 赵钦; 贾博; 王媞霖; 朱磊
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2024-02-02
Anticipated expiration: 2040-06-19
Also published as: CN111915010A

Abstract

本发明公开了一种基于组合结构的规范知识存储方法，包括构建规范基本信息抽取表、规范文本信息抽取表和规范语义信息抽取表，从规范非具体条文部分的版面中识别并抽取规范知识，完成规范基本信息抽取表的填写；从规范正文中识别并抽取规范文本信息抽取表中所需的信息，完成规范文本信息抽取表的填写；从规范文本中得到符号化的可计算语义信息，分析并抽取规范语义信息抽取表所需信息，完成规范语义信息抽取表的填写；使用图数据库和关系数据库对规范基本信息抽取表、规范文本信息抽取表和规范语义信息抽取表中信息进行存储。采用本发明规范知识存储方法能够用于构建大规模规范领域知识库，覆盖面广。

Description

一种基于组合结构的规范知识存储方法

技术领域

本发明属于知识工程中的知识智能存储技术领域，涉及一种基于组合结构的规范知识存储方法。

背景技术

人工智能为新时代的高质量发展赋能，各传统行业都在数据化、信息化、自动化、智能化的赛道上加速发展。建设提速增量的同时，也应确保精准化设计、精益化施工、智能化管控。

行业规范作为设计、施工以及运维管控时的执行依据和知识抽象，针对各个阶段的操作过程以及产出成果提出了具体的约束要求和解释说明。构建规范领域知识库是促进建筑行业智能化发展的基础工作。同时领域知识的集成和管理也是人工智能在解决感知问题后向认知智能转变时面临的一大挑战，构建领域大规模知识库并基于知识进行推理和应用是现阶段领域人工智能的研究重点之一。

规范知识库的构建分为规范知识表示和规范知识存储两个大的部分。规范表示的方法多种多样，但是存储方法却大同小异。现有的规范知识存储方法分为三类：1)通过对规范知识硬编码，采用内置规则集的形式，实现存储。该方法将知识表示与知识存储绑定在一起，导致了规范知识的使用灵活度差、且难以更新维护等缺点；2)基于语义标记文件的形式进行存储，如XML文件、RDF文件或HTML文件等。基于标记文件的存储方法大多是针对少量的数据(如：某本规范中具体的某一章节)，该方法用于海量的规范知识时需要借助关系数据库等数据管理系统进行优化。3)使用关系数据库进行存储。考虑到规范知识结构的高相关性和高复杂性，在关系结构存储模型中需要建立大量的数据表来进行知识存储，除了数据表设计难度高之外，大部分的表结构层级复杂且数据稀疏。该方法在进行基于知识的查询时，涉及多表联查，需要使用大量join操作，并且SQL优化难度高，查询效率低下。除上述问题之外，现有的规范知识存储模型仅关注蕴含在具体条文中的知识，忽略了蕴含在规范体系分类模式中和非具体条文部分的版面中所包含的领域知识，存在知识缺失问题。

发明内容

本发明的目的是提供一种基于组合结构的规范知识存储方法，解决了现有规范知识存储方法覆盖面不全，对大批量关联数据存储难度大的问题。

本发明所采用的技术方案是，一种基于组合结构的规范知识存储方法，包括建立规范基本信息抽取表、规范文本信息抽取表和规范语义信息抽取表，从规范非具体条文部分的版面中识别并抽取规范知识，完成规范基本信息抽取表的填写；从规范正文中识别并抽取规范文本信息抽取表中所需的信息，完成规范文本信息抽取表的填写；从规范文本中得到符号化的可计算语义信息，分析并抽取规范语义信息抽取表所需信息，完成规范语义信息抽取表的填写；使用图数据库和关系数据库对规范基本信息抽取表、规范文本信息抽取表和规范语义信息抽取表中信息进行存储。

本发明的技术特征还在于，

具体包括以下步骤：

步骤1，建立规范基本信息抽取表；

步骤2，从规范非具体条文部分的版面中识别并抽取所包含的规范知识，使用步骤1中建立的规范基本信息抽取表进行记录；

步骤3，建立规范文本信息抽取表；

步骤4，从规范正文中识别并抽取规范文本信息抽取表中所需的信息，完成规范文本信息抽取表的填写；

步骤5，对规范基本信息抽取表中抽取到的数据，采用属性图结构实现存储管理，依次建立规范节点、时间节点、单位节点和人员节点及其属性和关系，实现规范基本信息知识库的构建和存储；

步骤6，对规范文本信抽取表中抽取到的数据，采用关系型结构进行存储管理，分别建立规范原文数据表和规范简单句数据表，实现规范文本信息知识库的构建和存储；

步骤7，建立规范语义信息抽取表；

步骤8，通过基于数理逻辑的规范表示方法从规范文本中得到符号化的可计算语义信息，分析并抽取规范语义信息抽取表所需信息，完成规范语义信息抽取表的填写；

步骤9，对规范语义信息抽取表中抽取到的数据，采用标签属性图结构进行存储；

步骤10，使用图数据库和关系数据库将步骤5、步骤6和步骤9中提出的存储模型和构建方法转化为代码，即完成规范知识库的构建。

步骤1中，建立规范基本信息抽取表，包括编制信息表BITable_1、发布信息表BITable_2、出版信息表BITable_3和引证信息表BITable_4，采用规范编号作为每一条信息的唯一标识，将基本数据内部关联起来。

步骤2具体按照以下步骤实施：

步骤2.1，从规范封面页识别并抽取规范编号、规范名称、发布时间、实施时间和发布单位的值，将抽取的规范编号和规范名称的值填入编制信息表BITable_1中，将抽取的规范编号、发布时间、实施时间和发布单位的值填入发布信息表BITable_2中；

步骤2.2，从规范封面页的扉页正面识别并抽取出批准部门信息，填入发布信息表BITable_2中，从扉页反面识别并抽取出版信息，填入出版信息表BITable_3中；

步骤2.3，从公告中识别并抽取强制条文编号，进行预处理拆分后填入发布信息表BITable_2中。

步骤2.4，从前言中的非结构化自然语言描述部分识别并抽取出通讯单位、强制条文解释权和技术内容解释权的信息，完成发布信息表BITable_2的填写；

步骤2.5，从前言中的半结构化自然语言描述部分识别并抽取出主编单位、参编单位、起草人员和审查人员的信息，完成编制信息表BITable_1的填写；

步骤2.6，从“引用标准名录”页面中识别并抽取出被引规范编号和被引规范名称的信息，并填入到引证信息表BITable_4中。

规范文本信息抽取表中，规范编号的值作为与基本信息连接的标识，将规范编号、章编号、节编号、条文编号和二级编号的值依次连接，形成目次编号，使用目次编号的值作为每一条规范文本信息的唯一标识。

步骤4具体按照以下步骤实施：

步骤4.1，若规范正文是只有文字的文本或包含公式的文本，直接进行识别抽取并完成规范文本信息抽取表的填写；

步骤4.2，若规范正文中包含图表和公式，将图表、公式单独保存为文件，并将保存路径填入规范文本信息抽取表的条目原文中；

步骤4.3，若识别到规范正文中具有‘…应符合/应满足《…规范》GB…’的描述，则将当前规范的目次编号作为引用目标编号填入引证信息表BITabl e_4中。

步骤5具体按照以下步骤实施：

步骤5.1，读取规范基本信息抽取表中的数据，将<规范编号:bh_k>作为节点属性，新建规范节点；将<发布时间:sj_k>作为节点属性，新建时间节点；将<单位名称:dw_k>作为节点属性，新建单位节点；将<人员姓名:ry_k>作为节点属性，新建人员节点；

步骤5.2，按照节点的规范编号属性值，在编制信息表BITable_1中读取对应‘规范编号’的‘规范名称’值，或在引证信息表BITable_4中读取对应‘被引规范编号’的‘被引规范名称’值nameValue，将<规范名称：nameValue>这一键值对添加为当前规范节点的属性；在发布信息表BITable_2中读取对应‘规范编号’的‘强制条文编号’值SCNValue，将<强制条文编号：SCValue>这一键值对添加为当前规范节点的属性；在出版信息表BITable_3中读取对应‘规范编号’的‘开本’值kbValue、‘印张’值yzValue、‘字数’值zsValue、‘定价’值djValue和‘统一书号’值snValue，将<开本:kbValue>、<印张:yzValue>、<字数:zsValue>、<定价:djValue>和<统一书号:snValue>键值对添加为当前规范节点的属性；

步骤5.3，为已建的节点建立关系，包括建立规范节点和时间节点间的关系、规范节点和单位节点间的关系、规范节点和人员节点间的关系和规范节点和规范节点间的关系。

规范节点和规范节点间的关系按照规范节点CNode的规范编号属性值，在引证信息表BITable_4中读取对应‘规范编号’的‘被引标准编号’值bh_被引和‘引用目次编号’值RCNValue，在已建立的规范节点中，找到规范编号属性值为bh_被引的规范节点CNode_i，建立引用规范关系<CNode，引用规范，CNode_i>，连接对应规范节点CNode和规范节点CNode_i，同时，将<引用目次编号:RCNValue>这一键值对添加为引用规范关系的属性，即完成规范节点和规范节点间多对多关系的建立。

规范语义信息抽取表中包括规范名称、规范编号、章名、章编号、节名、节编号、条文编号、二级编号、命题公式、简单句编号、语义标签、简单句、前置个体、程度词、动词、谓语、谓词函数、实体值、实体单位和后置个体，表中，规范编号作为与基本信息连接的标识，由规范编号、章编号、节编号、条文编号和二级编号组合的目次编号作为与文本信息连接的标识，同时也作为每一条规范语义信息的唯一标识。

步骤9具体包括分别建立命题公式节点、谓词函数节点、论域个体节点、程度词节点和单位节点及其属性和关系，实现规范语义信息知识库的构建和存储。

本发明的有益效果是，通过建立并填写规范基本信息抽取表、规范文本信息抽取表和规范语义信息抽取表，使用图数据库和关系数据库对规范基本信息抽取表、规范文本信息抽取表和规范语义信息抽取表中信息进行存储；该规范知识存储方法能够用于构建大规模规范领域知识库，覆盖面广，能全面高效的存储规范领域知识；构建的大规模知识库和知识开放共享平台将推动土木工程领域知识进一步提升，为下一阶段学术理论探索和产业技术创新聚能蓄力；该方法对采用哪种规范知识表示方法没有具体约束，适用范围广泛。

附图说明

图1是本发明实施例中《地铁设计规范》基本信息存储示意图；

图2是本发明实施例中规范文本数据存储结构示意图；

图3是本发明实施例中《地铁设计规范》GB50157-9.7.3语义信息存储示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种基于组合结构的规范知识存储方法，包括建立规范基本信息抽取表、规范文本信息抽取表和规范语义信息抽取表，从规范非具体条文部分的版面中识别并抽取规范知识，完成规范基本信息抽取表的填写；从规范正文中识别并抽取规范文本信息抽取表中所需的信息，完成规范文本信息抽取表的填写；从规范文本中得到符号化的可计算语义信息，分析并抽取规范语义信息抽取表所需信息，完成规范语义信息抽取表的填写；使用图数据库和关系数据库对规范基本信息抽取表、规范文本信息抽取表和规范语义信息抽取表中信息进行存储。

具体包括以下步骤：

步骤1，建立规范基本信息抽取表(Basic Information Table，BITable)，包括编制信息表BITable_1、发布信息表BITable_2、出版信息表BITable_3和引证信息表BITable_4。其中‘规范编号’列的值作为每一条信息的唯一标识，将基本数据内部关联起来；

步骤2.1，从规范封面页识别并抽取规范编号、规范名称、发布时间、实施时间和发布单位的值分别填入BITable_1和BITable_2。

步骤2.2，从扉页的正面识别并抽取出批准部门信息填入BITable_2中，从扉页的反面识别并抽取出版单位、发行单位等出版信息，完成BITable_3的填写。

步骤2.3，从公告中识别并抽取强制条文编号，进行预处理(17.4.9(1、2)拆分为17.4.9.1、17.4.9.2)后填入BITable_2中。

步骤2.4，从前言中的非结构化自然语言描述部分识别并抽取出通讯单位、强制条文解释权和技术内容解释权的信息，然后完成BITable_2的填写

步骤2.5，从前言中的半结构化自然语言描述部分识别并抽取出主编单位、参编单位、起草人员和审查人员的信息，然后完成BITable_1的填写。

步骤2.6，从“引用标准名录”部分的页面，识别并抽取被引标准编号和被引标准名称的信息，并填入到BITable_4中。

步骤3，建立规范文本信息抽取表(Code Clause Text Information Table,CCTI_Table)，其中‘规范编号’列的值作为与基本信息连接的标识。并将‘规范编号、章编号、节编号、条文编号和二级编号’各列的值依次连接(规范编号的值与章编号的值通过‘-’连接，其他的值通过‘.’连接)称为‘目次编号’，使用目次编号的值作为每一条规范文本信息的唯一标识。

步骤4，从规范正文中识别并抽取规范文本信息抽取表CCTI_Table中所需的信息，完成规范文本信息抽取表CCTI_Table的填写；

其中，对于识别和抽取方法没有限制，只对抽取结果提出约束；简单句编号’和‘简单句’两列是采用前期提出的规范知识表示方法《一种基于命题逻辑的规范拆解方法》(公开号:108446267A)产生的过程值。若不采用该方法，忽略这两项即可。

步骤4.1，若规范条文是文本或包含公式的文本，直接进行识别抽取并完成表CCTI_Table的填写即可。

步骤4.2，若规范条文中包含图表、公式，将图表、公式单独保存为文件，并将其路径填入CCTI_Table的条目原文中。

步骤4.3若识别到‘…应符合/应满足《…规范》GB…’的描述，则将当前规范的目次编号填入表BITable_4中与‘被引标准编号为’值为‘GB…’所对应的‘引用目次编号’列，完成BITable_4的填写。

步骤5，对规范基本信息抽取表BITable_1、BITable_2、BITable_3和BITable_4中抽取到的数据，采用属性图结构实现存储管理，依次建立规范节点、时间节点、单位节点和人员节点及其属性和关系，实现规范基本信息知识库的构建和存储，具体方法如下：

步骤5.1，新建节点。读取表BITable_1、BITable_2、BITable_3和BITable_4中的数据，执行如下操作，完成新建节点的任务。

步骤5.1.1，读取BITable_1和BITable_4表中‘规范编号’列和‘被引规范编号’列的值bh_i，其中i＝1,2,……，n。将bh_i放入集合NumSet＝{bh₁，bh₂…，bh_n}中，去除集合NumSet中重复的元素，然后遍历取出NumSet集合中的每一个值，将<规范编号:bh_k>作为节点属性，新建规范节点，其中k＝1，2，……，N。

步骤5.1.2，读取BITable_2中‘发布时间’列和‘实施时间’列的值sj_i，其中i＝1,2,……，n。将sj_i放入集合DateSet＝{sj₁，sj₂，…，sj_n}中，去除集合DateSet中重复的元素，接着遍历取出DateSet中每一个值，将<时间:sj_k>作为节点属性，新建时间节点，其中k＝1，2，……，N。

步骤5.1.3，读取BITable_1、2、3中的‘通讯单位’列、‘主编单位’列、‘参编单位’列、‘发布单位’列、‘批准部门’列、‘强制内容解释权’列、‘技术内容解释权’列、‘出版单位’列、‘发行单位’列、‘经销单位’列、‘制版单位’列和‘印刷单位’列的值，按分割符(‘、’或‘’)进行切分，并将切分后的值dw_i放入集合UnitSet＝{dw₁，dw₂，…dw_n}中，去除集合UnitSet中重复的元素，其中i＝1,2,……，n。接着遍历取出UnitSet中的每一个值，将<单位名称:dw_k>作为节点属性，新建单位节点，其中k＝1，2，……，N。

步骤5.1.4，读取BITable_1中的‘起草人员’列和‘审查人员’列的值，按分割符(‘、’或‘’)进行切分，并将切分后的值ry_i放入集合StaffSet＝{ry₁，ry₂，…ry_n}中，其中i＝1,2,……，n，去除集合StaffSet中重复的元素。接着遍历取出StaffSet中的每一个值，将<人员姓名:ry_k>作为节点属性，新建人员节点，其中k＝1，2，……，N。

步骤5.2，为已建的节点添加属性。遍历每个规范节点，执行如下操作，完成添加属性的任务。

步骤5.2.1，按照节点的规范编号属性值，在表BITable_1中读取对应‘规范编号’的‘规范名称’值nameValue，或在表BITable_4中读取对应‘被引规范编号’的‘被引规范名称’值nameValue。将<规范名称，nameValue>这一键值对添加为当前规范节点的属性。

步骤5.2.2，按照节点的规范编号属性值，在表BITable_2中读取对应‘规范编号’的‘强制条文编号’值SCNValue。将<强制条文编号:SCValue>这一键值对添加为当前规范节点的属性。

步骤5.2.3，按照节点的规范编号属性值，在表BITable_3中读取对应‘规范编号’的‘开本’值kbValue、‘印张’值yzValue、‘字数’值zsValue、‘定价’值djValue和‘统一书号’值snValue。将<开本:kbValue>、<印张:yzValue>、<字数:zsValue>、<定价:djValue>和<统一书号:snValue>键值对添加为当前规范节点的属性。

步骤5.3，为已建的节点建立关系。遍历每个规范节点，执行如下操作，完成新建关系的任务。

步骤5.3.1，建立规范节点和时间节点间的关系。按照规范节点CNode的规范编号属性值，在表BITable_2中读取对应‘规范编号’的‘发布时间’值sj_发布和‘实施时间’值sj_实施。在已建立的时间节点中，找到时间属性值为sj_发布或sj_实施的时间节点TNode_i，分别建立发布时间关系<CNode，发布时间，TNode_i>和实施时间关系<CNode，实施时间，TNode_i>，连接对应规范节点CNode和时间节点TNode_i。完成规范节点和时间节点间多对一关系的建立任务。

步骤5.3.2，建立规范节点和单位节点间的关系。按照规范节点CNode的规范编号属性值，在表BITable_1、BITable_2、和BITable_3中读取对应‘规范编号’的‘通讯单位’值dw_通讯、‘主编单位’值dw_主编、‘参编单位’值dw_参编、‘发布单位’值dw_发布、‘批准部门’值dw_批准、‘强制条文解释权’值dw_强制、‘技术内容解释权’值dw_技术、‘出版单位’值dw_出版、‘发行单位’值dw_发行、‘经销单位’值dw_经销、‘制版单位’值dw_制版和‘印刷单位’值dw_印刷。在已建立的单位节点中，找到单位名称属性值为dw_通讯、dw_主编、dw_参编、dw_发布、dw_批准、dw_强制、dw_技术、dw_出版、dw_发行、dw_经销、dw_制版或dw_印刷的单位节点UNode_i，分别建立关系<CNode，通讯单位，UNode_i>、关系<CNode，主编单位，UNode_i>、关系<CNode，参编单位，UNode_i>、关系<CNode，发布单位，UNode_i>、关系<CNode，批准部门，UNode_i>、关系<CNode，强制条文解释权，UNode_i>、关系<CNode，技术内容解释权，UNode_i>、关系<CNode，出版单位，UNode_i>、关系<CNode，发行单位，UNode_i>、关系<CNode，经销单位，UNode_i>、关系<CNode，制版单位，UNode_i>和关系<CNode，印刷单位，UNode_i>，连接对应规范节点CNode和单位节点UNode_i。完成规范节点和单位节点间多对多关系的建立任务。

步骤5.3.3，建立规范节点和人员节点间的关系。按照规范节点CNode的规范编号属性值，在表BITable_1中读取对应‘规范编号’的‘起草人员’值ry_起草和‘审查人员’值ry_审查。在已建立的人员节点中，找到人员姓名属性值为ry_起草或ry_审查的人员节点PNode_i，分别建立起草人员关系<CNode，起草人员，PNode_i>和审查人员关系<CNode，审查人员，PNode_i>，连接对应规范节点CNode和人员节点PNode_i。完成规范节点和人员节点间多对多关系的建立任务。

步骤5.3.4，建立规范节点和规范节点间的关系。按照规范节点CNode的规范编号属性值，在表BITable_4中读取对应‘规范编号’的‘被引标准编号’值bh_被引和‘引用目次编号’值RCNValue。在已建立的规范节点中，找到规范编号属性值为bh_被引的规范节点CNode_i，建立引用规范关系<CNode，引用规范，CNode_i>，连接对应规范节点CNode和规范节点CNode_i。同时，将<引用目次编号:RCNValue>这一键值对添加为引用规范关系的属性。完成规范节点和规范节点间多对多关系的建立任务。

步骤6，对规范文本信抽取表CCTI_Table中抽取到的数据，采用关系型结构进行存储管理，分别建立规范原文数据表和规范简单句数据表，实现规范文本信息知识库的构建和存储；具体方法如下：

步骤6.1，建立规范原文数据表，读取文本信抽取表CCTI_Table中的数据，存储到规范原文数据表对应的字段中。

步骤6.2，若采用《一种基于命题逻辑的规范拆解方法》(公开号:108446267A)方法，则建立规范简单句表，读取文本信抽取表CCTI_Table中的数据，存储到规范原文数据表对应的字段中。若不采用，则跳过此步骤。

步骤6.3，主外键设置。在规范原文数据表中，将字段‘规范编号’、‘章编号’、‘节编号’、‘条目编号’、‘二级编号’设置为联合主键。在规范简单句表中，将字段‘目次编号’和‘简单句编号’设置为联合主键。同时，将‘目次编号’设置为外键，建立起规范原文数据表和规范简单句表之间的一对多关系。

步骤7，建立规范语义信息抽取表(Code Clause Semantic Information Table,CCSI_Table)；规范语义信息抽取表中包括规范名称、规范编号、章名、章编号、节名、节编号、条文编号、二级编号、命题公式、简单句编号、语义标签、简单句、前置个体、程度词、动词、谓语、谓词函数、实体值、实体单位和后置个体，表中，规范编号作为与基本信息连接的标识。由规范编号、章编号、节编号、条文编号、二级编号，按照“规范编号-章编号.节编号.条文编号.二级编号”的结构进行组合，得到对应的目次编号，使用目次编号作为与文本信息连接的标识，同时也作为每一条规范语义信息的唯一标识。

步骤8，通过基于数理逻辑的规范表示方法从规范文本中得到符号化的可计算语义信息，分析并抽取规范语义信息抽取表所需信息，完成规范语义信息抽取表CCSI_Table的填写；其中，对于知识表示方法、分析方法和抽取方法没有限制，只对抽取结果提出约束；获取语义信息的规范知识表达方法可以采用，但不限于前期提出的两个方法《一种基于命题逻辑的规范拆解方法》(公开号:108446267A)《一种基于谓词逻辑的规范重构表示方法》(公开号:108416124A)。

步骤9，对规范语义信息抽取表CCSI_Table中抽取到的数据，采用标签属性图结构进行存储；分别建立命题公式节点、谓词函数节点、论域个体节点、程度词节点和单位节点及其属性和关系，实现规范语义信息知识库的构建和存储。具体方法如下：

步骤9.1，新建节点并添加属性和标签。读取表CSSI_Table中的数据，执行如下操作，完成新建节点并添加属性和标签的任务。

步骤9.1.1，读取表CSSI_Table中的‘命题公式’列，去除重复后的值pro_f放入集合ProFSet＝{pro_f₁，pro_f₂，…，pro_f_n}中，接着遍历取出ProFSet集合中的每一个值，在表CSSI_Table中查找pro_f_i对应的‘目次编号’值CNValue_j(按照步骤3中的描述得到)并用放入集合CNSet_i＝{CNValue₁，CNValue₂，…，CNValue_n}(其中，i＝1，2，3，…，N；N为ProFSet集合的元素个数)。将<命题公式:pro_f_i>和<目次编号集合:CNSet_i>作为节点属性，将[命题公式层]作为节点标签，新建命题公式节点并添加属性和标签。

步骤9.1.2，读取表CCSI_Table中的‘谓词函数’列，去除重复后的值pre_f放入集合PreFSet＝{pre_f₁，pre_f₂，…，pre_f_n}中，接着遍历取出PreFSet集合中的每一个值，将<谓词函数:pre_f_k>(其中，k＝1，2，3，…，N；N为PreFSet集合的元素个数)作为节点属性，将[谓词函数层]作为标签，新建谓词函数节点并添加属性和标签。

步骤9.1.3，读取表CCSI_Table中的‘前置个体’列和‘实体/值’列，合并且去除重复后的值ent放入集合EntSet＝{ent₁，ent₂，…，ent_n}中，接着遍历取出EntSet集合中的值，将<个体名:ent_k>(其中，k＝1，2，3，…，N；N为EntSet集合的元素个数)作为节点属性，将[论域层]作为标签，新建论域个体节点并添加属性和标签。

步骤9.1.4，读取CCSI_Table中的‘程度词’列，去除重复后的值mw放入集合MWSet＝{mw₁，mw₂，…，mw_n}中，接着遍历取出MWSet集合中的每一个值，将<程度词:mw_k>(其中，k＝1，2，3，…，N；N为MWSet集合的元素个数)作为节点属性，将[程度词]和[论域层]作为标签，新建程度词节点并添加属性和标签。

步骤9.1.5，读取CCSI_Table中的‘单位’列，去除重复后的值un放入集合UnitSet＝{un₁，un₂，…，un_n}中，接着遍历取出UnitSet集合中的每一个值，将<单位:un_k>(其中，k＝1，2，3，…，N；N为UnitSet集合的元素个数)作为节点属性，将[单位]和[补充描述层]作为标签，新建单位节点并添加属性和标签。

步骤9.2，为已建的节点建立关系。遍历每个命题公式节点，执行如下操作，完成部分新建关系的任务。

步骤9.2.1，取出命题公式节点ProFNode的目次编号集合属性值CNSet，遍历CNSet取出一个目次编号CNValue_i。将CNValue_i拆分(按步骤3的描述处理)后，在表CCSI_Table中读取该CNValue_i拆分结果对应的‘语义标签’列，将每个读取结果从右向左截取两位得到的值sl放入集合SLSet_i＝{sl₁，sl₂，…，sl_n}中(其中，i＝1，2，3，…，N；N为命题公式节点的个数，也就是ProFSet集合的元素个数)。

步骤9.2.2，遍历SLSet_i，在表CCSI_Table中读取由CNValue_i和sl_k的值唯一对应的‘谓词函数’值pre_f_j。在已建立的谓词函数节点中，找到谓词函数属性值为pre_f_j的谓词函数节点PreFNode_j。建立CNValue_i关系<ProFNode，CNValue_i，PreFNode_j>，连接对应的命题公式节点ProFNode和谓词函数节点PreFNode_j。同时，将<位置:sl_k>这一键值对添加为当前CNValue关系的属性，完成从命题公式节点出发的关系建立任务。

步骤9.2.3，按照步骤9.2.2中找到的谓词函数节点PreFNode_j的谓词函数属性值pre_f_j，在表CCSI_Table中读取对应‘谓词函数’的‘前置个体’值gx_前置、‘实体/值’值hx_后置和‘程度词’值mw_程度。然后在已建立的论域个体节点中找到个体名属性值为gx_前置或hx_后置的论域个体节点ENode_前或ENode_后，在已建立的程度词节点中找到程度词属性值为mw_程度的程度词节点MWNode。对于ENode_前节点，建立CNValue_i关系<PreFNode_j，CNValue_i，ENode_前>，将<sl_k:前置个体>这一键值对添加为当前CNValue_i关系的属性，若PreFNode_j和ENode_前节点间已经存在CNValue_i关系，则只添加属性<sl_k:前置个体>；对于ENode_后节点，建立CNValue_i关系<PreFNode_j，CNValue_i，ENode_后>，将<sl_k:后置个体>这一键值对添加为当前CNValue_i关系的属性，若PreFNode_j和ENode_后节点间已经存在CNValue_i关系，则只添加属性<sl_k:后置个体>；对于MWNode节点，建立CNValue_i关系<PreFNode_j，CNValue_i，MWNode>,同时，将<sl_k:程度词>这一键值对添加为当前CNValue_i关系的属性，若PreFNode_j和MWNode节点间已经存在CNValue_i关系，则只添加属性<sl_k:程度词>。分别连接对应的谓词函数节点PreFNode_j和论域个体节点ENode以及程度词节点MWNode，完成从谓词函数节点出发的关系建立任务。

步骤9.2.4，遍历步骤9.2.1中得到的SLSet_i，在表CCSI_Table中读取由CNValue_i和sl_k的值唯一对应的‘单位’列的值un_单位。若un_单位值为空，则跳过当前sl_k。若un_单位值不为空，在表CCSI_Table中读取当前单位值所对应的‘实体/值’值hx_后。在已建立的单位节点中，找到单位属性值为un_单位的单位节点UNNode，在已建立的论域个体节点中，找到个体名属性值为hx_后的节点ENode_后。建立CNValue_i关系<ENode_后，CNValue_i，UNNode>,同时，将<位置:sl_k>这一键值对添加为当前CNValue_i关系的属性。连接对应的论域个体节点ENode_后和单位节点UNNode，完成从论域个体节点出发的关系建立任务。

实施例

以《地铁设计规范》GB50157的部分信息为例详细说明规范基本信息存储方法。

以《地铁设计规范》GB50157中第9章“车站建筑”第7节“楼梯、自动扶梯、电梯和站台门”中第3条“车站出入口自动扶梯的倾斜角度不应大于30°，站台至站厅自动扶梯的倾斜角度应为30°。”为例详细说明规范文本信息和语义信息存储方法。

步骤1～步骤2.6，建立表BITable_1、BITable_2和BITable_3和BITable_4，并从《地铁设计规范》中识别、抽取并完成规范基本信息抽取表的填写，其结果如表1-4所示：

表1编制信息表BITable_1

表2发布信息表BITable_2

表3出版信息表BITable_3

表4引证信息表BITable_4

步骤3～步骤4.3，建立表CCTI_Table，并从《地体设计规范》中识别、抽取并完成规范文本信息抽取表的填写，其结果如表5所示：

表5规范文本信息抽取表CCTI_Table

步骤5～步骤5.1.1，对规范基本信息抽取表BITable_1、BITable_2、BITable_3和BITable_4中抽取到的数据，采用属性图结构实现存储管理，依次建立规范节点、时间节点、单位节点和人员节点及其属性和关系，实现规范基本信息知识库的构建和存储；获得《地铁设计规范》基本信息存储图(见图1)，具体操作方法如下：

读取BITable_1和BITable_4表中的‘规范编号’列和‘被引规范编号’列。将去除重复后的值bh_i放入集合NumSet中，得到NumSet＝{GB50157,GB50009,GB50010,GB50011}。接着遍历取出NumSet集合中的每一个值，将<规范编号:bh_k>(其中，k＝1，2，3，4)作为节点属性，新建四个规范节点。

步骤5.1.2，读取BITable_2中的‘发布时间’列和‘实施时间’列，将去除重复后的值sj_i放入集合DateSet中，得到DateSet＝{2013-08-08，2014-03-01}。接着遍历取出每一个值，将<时间:sj_k>(其中，k＝1，2)作为节点属性，新建两个时间节点。

步骤5.1.3，读取BITable_1、2、3中的对应列。将按分割符(‘、’或‘’)切分并去除重复后的值dw_i放入集合UnitSet中，得到UnitSet＝{北京城建设计研究总院有限责任公司，上海市隧道工程轨道交通设计研究院，广州地铁设计研究院有限公司，中华人民共和国住房和城乡建设部，中华人民共和国国家质量监督检验检疫总局，中国建筑工业出版社，新华书店，北京红光制版公司，北京市密东印刷有限公司}。接着遍历取出每一个值，将<单位名称:dw_k>(其中，k＝1，2，3，…，10)作为节点属性，新建九个单位节点。

步骤5.1.4，读取BITable_1中的‘起草人员’列和‘审查人员’列。将按分割符(‘、’或‘’)切分并去除重复后的值ry_i放入集合StaffSet中，得到StaffSet＝{施仲衡，杨秀仁，周干峙，焦桐善}。接着遍历取出每一个值，将<人员姓名:ry_k>(其中，k＝1，2，3，4)作为节点属性，新建四个人员节点。

步骤5.2～步骤5.2.2，读取表BITable_1、BITable_2、BITable_3和BITable_4，给规范编号属性值为’GB50157’的规范节点添加<规范名称:地铁设计规范>、<强制条文编号:1.0.12、1.0.17、1.0.19、1.0.20、……>、<开本:850mm*1168mm 1/32>、<印张:20.125>、<字数:540千字>、<定价:100.00元>和<统一书号:15112·23816>的属性；给规范编号属性值为’GB50009’的规范节点添加<规范名称:建筑结构荷载规范>的属性；给规范编号属性值为GB50010的规范节点添加<规范名称:混凝土结构设计规范>的属性；给规范编号属性值为GB50011的规范节点添加<规范名称:建筑抗震设计规范>的属性。

步骤5.3，遍历四个规范节点，执行如下操作。由于在表格中仅对《地铁设计规范》的基本信息进行了部分填写。因此此处的遍历四个节点，实际为仅对地铁设计规范节点添加关系。

步骤5.3.1，按照地铁设计规范节点CNode的规范编号属性值’GB50157’，在表BITable_2中读取对应的‘发布时间’值’2013-08-08’和‘实施时间’值’2013-08-08’。在已建立的时间节点中，找到相应时间节点TNode1和TNode2，分别建立发布时间关系<CNode，发布时间，TNode1>和实施时间关系<CNode，实施时间，TNode2>。

步骤5.3.2，按照CNode的规范编号属性值’GB50157’，读取表BITable_1、BITable_2、和BITable_3中对应的单位信息，在已建的单位节点中找到对应节点UNode_i，建立相应关系，以主编单位为例:建立关系<CNode，主编单位，UNode_i>。

步骤5.3.3，按照CNode的规范编号属性值’GB50157’，读取表BITable_1中对应的人员信息，在已建的人员节点中找到对应节点PNode_i，建立相应的关系，以起草人员为例:建立关系<CNode，起草人员，PNode₁><CNode，起草人员，PNode₂>。

步骤5.3.4，按照CNode的规范编号属性值’GB50157’，读取表BITable_4中对应的被引规范编号信息，在已建立的规范节点中找到对应节点CNode_i，建立关系<CNode，引用规范，CNode_i>，同时将<引用目次编号:>这一键值对添加为当前关系的属性。

步骤6～步骤6.3，按照图2所示的结构，在MySQL关系数据库中建立对应的数据表，设立相应的主、外键，实现表CCTI_Table中的规范文本信息进行存储管理。

步骤7～步骤8，建立表CCSI_Table，并从《地体设计规范》中识别、抽取并完成规范语义信息抽取表的填写，其结果如表6所示：

表6规范语义信息抽取表CCSI_Table

步骤9，《地铁设计规范》GB50157-9.7.3语义信息存储示意图如图3所示，具体操作过程如下。

步骤9.1.1，新建一个命题公式节点，并为该节点添加<命题公式: >和<目次编号集合:[GB50157-9.7.3]>属性键值对，添加[命题公式层]标签。

步骤9.1.2，新建四个谓词函数节点，每个节点分别添加<谓词函数:连接(g,h)>、<谓词函数:属性(g,h)>、<谓词函数:大于(g,x,h)>、<谓词函数:等于(g,x,h)>属性键值对，同时给每一个谓词函数节点添加[谓词函数层]标签。

步骤9.1.3，新建六个论域个体节点，每个节点分别添加<个体名:自动扶梯)>、<个体名:车站出入口>、<个体名:倾斜角度>、<个体名:站台)>、<个体名:站厅)>、<个体名:30)>属性键值对，同时给每一个谓词函数节点添加[论域层]标签。

步骤9.1.4，新建两个程度词节点，每个节点分别添加<程度词:不应)>、<程度词:应>属性键值对，同时给每一个谓词函数节点添加[论域层]标签。

步骤9.1.5，新建一个单位节点，并为该节点添加<单位:度>这一属性键值对，添加[单位]和[补充描述层]两个标签。

步骤9.2～步骤9.2.1，得到当前命题公式节点ProFNode和目次编号为GB50157-9.7.3对应的SLSet＝{T1，T2，G2，T3，T4，T5，G5}。

步骤9.2.2，遍历SLSet(现以T1为例)，找到谓词函数属性值为‘连接(g,h)’的谓词函数节点PreFNode_j，建立关系<ProFNode,GB50157-9.7.3,PreFNode_j>，并对该关系添加属性<位置:T1>

步骤9.2.3，读取CCSI_Table表中信息，基于谓词函数‘连接(g,h)’建立其对应谓词函数节点PreFNode_j与前置个体‘自动扶梯’对应论域个体节点ENode_前的关系<PreFNode_j，GB50157-9.7.3，ENode_前>，并对该关系添加属性<T1:前置个体>；以及其与实体\值‘车站出入口’对应论域个体节点ENode_后的关系<PreFNode_j，GB50157-9.7.3，ENode_后>，并对该关系添加属性<T1:后置个体>。

步骤9.2.4，遍历SLSet(现以G2为例)，在表CCSI_Table中读取由‘GB50157-9.7.3’和‘G2’的唯对一应的‘单位’列的值‘度’。在已建立的单位节点中，找到单位属性值为‘度’的单位节点UNNode。在已建立的论域个体节点中，找到个体名属性值为‘30’的节点ENode_后。建立关系<ENode_后，GB50157-9.7.3，UNNode>,同时，将<位置:G2>这一键值对添加为当前关系的属性。

Claims

1.一种基于组合结构的规范知识存储方法，其特征在于，包括建立规范基本信息抽取表、规范文本信息抽取表和规范语义信息抽取表，从规范非具体条文部分的版面中识别并抽取规范知识，完成规范基本信息抽取表的填写；从规范正文中识别并抽取规范文本信息抽取表中所需的信息，完成规范文本信息抽取表的填写；从规范文本中得到符号化的可计算语义信息，分析并抽取规范语义信息抽取表所需信息，完成规范语义信息抽取表的填写；使用图数据库和关系数据库对规范基本信息抽取表、规范文本信息抽取表和规范语义信息抽取表中信息进行存储；

具体包括以下步骤：

步骤1，建立规范基本信息抽取表；

步骤1中，建立规范基本信息抽取表，包括编制信息表BITable_1、发布信息表BITable_2、出版信息表BITable_3和引证信息表BITable_4，采用规范编号作为每一条信息的唯一标识，将基本数据内部关联起来；

步骤2具体按照以下步骤实施：

步骤2.3，从公告中识别并抽取强制条文编号，进行预处理拆分后填入发布信息表BITable_2中；

步骤2.6，从“引用标准名录”页面中识别并抽取出被引规范编号和被引规范名称的信息，并填入到引证信息表BITable_4中；

步骤3，建立规范文本信息抽取表；

步骤4具体按照以下步骤实施：

步骤4.3，若识别到规范正文中具有‘…应符合/应满足《…规范》GB…’的描述，则将当前规范的目次编号作为引用目标编号填入引证信息表BITable_4中；步骤5，对规范基本信息抽取表中抽取到的数据，采用属性图结构实现存储管理，依次建立规范节点、时间节点、单位节点和人员节点及其属性和关系，实现规范基本信息知识库的构建和存储；

步骤5具体按照以下步骤实施：

步骤5.3，为已建的节点建立关系，包括建立规范节点和时间节点间的关系、规范节点和单位节点间的关系、规范节点和人员节点间的关系和规范节点和规范节点间的关系；

规范节点和规范节点间的关系按照规范节点CNode的规范编号属性值，在引证信息表BITable_4中读取对应‘规范编号’的‘被引标准编号’值bh_被引和‘引用目次编号’值RCNValue，在已建立的规范节点中，找到规范编号属性值为bh_被引的规范节点CNode_i，建立引用规范关系<CNode，引用规范，CNode_i>，连接对应规范节点CNode和规范节点CNode_i，同时，将<引用目次编号:RCNValue>这一键值对添加为引用规范关系的属性，即完成规范节点和规范节点间多对多关系的建立；

步骤7，建立规范语义信息抽取表；

规范语义信息抽取表中包括规范名称、规范编号、章名、章编号、节名、节编号、条文编号、二级编号、命题公式、简单句编号、语义标签、简单句、前置个体、程度词、动词、谓语、谓词函数、实体值、实体单位和后置个体，表中，规范编号作为与基本信息连接的标识，由规范编号、章编号、节编号、条文编号和二级编号组合的目次编号作为与文本信息连接的标识，同时也作为每一条规范语义信息的唯一标识；

规范文本信息抽取表中，规范编号的值作为与基本信息连接的标识，将规范编号、章编号、节编号、条文编号和二级编号的值依次连接，形成目次编号，使用目次编号的值作为每一条规范文本信息的唯一标识；

步骤9具体包括分别建立命题公式节点、谓词函数节点、论域个体节点、程度词节点和单位节点及其属性和关系，实现规范语义信息知识库的构建和存储；