CN112084329B

CN112084329B - 一种针对实体识别和关系抽取任务的语义分析方法

Info

Publication number: CN112084329B
Application number: CN202010762584.1A
Authority: CN
Inventors: 张彤; 姚燕妮; 朱磊; 黑新宏; 王一川; 姬文江; 孟海宁; 姜琨
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2024-02-02
Anticipated expiration: 2040-07-31
Also published as: CN112084329A

Abstract

本发明提供了一种针对实体识别和关系抽取任务的语义分析方法，包含三个模块的内容，建立地铁设计规范领域的概念分层体系和语义关系分类体系，分析规范文本的语言特点，以及获取细分领域任务的实体和关系类别信息。第一个模块，借助本体论的思想，和映射对标UMLS，得到概念分层体系和语义关系分类体系。第二个模块，通过规范文本的来源和构成、数据形式和所具备的子语言特性三个部分，由浅及深地分析规范文本的语言特性，以补充实体识别和关系抽取任务的规则提取。最后一个模块，将本体分类的思想渗入这一领域的研究任务细分过程中，实现任务和实体关系类别的对应，从而提高信息抽取的效率。

Description

一种针对实体识别和关系抽取任务的语义分析方法

技术领域

本发明属于计算机自然语言处理技术技术领域，具体涉及一种针对实体识别和关系抽取任务的语义分析方法。

背景技术

在现代城市公共基础建设中，地铁以其运量大、速度快、安全可靠、准点舒适的技术优势，成为众多国家城市交通的主要手段。随着我国城市化水平大幅度提升，地铁建设在城市经济发展中占据重要地位。为了确保建筑的安全、经济、适用，建筑设计过程中需要按照国家相关规范和标准。因此，对信息量巨大的规范进行信息化处理的需求非常迫切，本文以地铁设计规范中的实体识别和关系抽取为目标，提出了一种针对该领域的语义分析方法。首先，借助本体论的思想，建立了地铁设计规范领域的知识概念分层体系，同时，对已成熟的统一医学语言系统(UMLS)进行分析，通过概念的映射和对标，得到最终的概念分层体系。同样地，将这一过程应用于语义关系的分析中，得到语义关系分类体系。接着，从规范文本的来源和构成、数据形式以及所具备的子语言特性，三个部分对规范文本的语言特性进行分析，为实体识别和关系抽取任务提供一定的规则依据。最后，通过细化地铁设计规范领域的研究任务，确定出不同任务所需要的实体和关系类别信息。

建筑规范是建筑设计必须遵循的各种国家文件的统称，包括面积定额、卫生标准、防火措施、技术规定等。2014年3月1日开始施行的，由中华人民共和国住房和城乡建设部批准的《地铁设计规范》中，针对地铁工程的建设给出了相关设计的规范约束，以保证和提高工程质量、加快建设进度、节约建设材料、降低工程造价、推广先进技术和提高劳动生产率。这些文本信息虽然可以方便地表达概念和事件，但是同时也为搜索、统计分析、设计审查等研究制造了障碍。

发明内容

本发明的目的是提供一种针对实体识别和关系抽取任务的语义分析方法，解决了现有技术中地铁设计规范领域信息抽取效率低的问题。

本发明所采用的技术方案是，一种针对实体识别和关系抽取任务的语义分析方法，具体包括以下步骤：

步骤1，利用归纳和参照相结合的方式，获取地铁设计规范领域的概念分层体系和语义关系分类体系；

步骤2，按照由浅及深的步骤，分析规范文本的语言特点；

步骤3，根据本体的分类方法，结合实体和关系的不同类别，进一步确定出实体识别和关系抽取任务所需要的类别信息，以提升地铁设计规范领域信息抽取的效率。

步骤1中所述获取地铁设计规范领域的概念分层体系和语义关系

分类体系的方法具体包括以下步骤：

步骤1.1，明确运用的领域范畴为地铁设计规范文本的语义分析，领域为地铁设计规范领域，范畴是规范文本所涉及的专业；

步骤1.2，对照“建筑信息模型分类”，查找现有的分类体系，收集建筑信息模型分类；

步骤1.3，梳理领域重要概念，上述建筑信息模型分类标准适用于民用建筑及通用工业厂房建筑信息模型中信息的分类和编码，但是由于同属建筑领域，于是将分类体系进行局部改动，并且对存在重复和交叉的概念进行剔除，最终确定出地铁设计规范领域的概念；

步骤1.4，定义类和类的等级体系，根据概念梳理的结果，结合人工阅读规范条文的方式，归纳创建实体类别；在归纳创建的实体类别基础上，本文自顶向下通过映射和对标UMLS完善实体类别；

步骤1.5，梳理类之间的关系，提取类等级体系中已确立的关系，并且分析概念间是否存在横向关系；在步骤4中可以得到类之间的层级关系，即上、下位概念；分析概念之间的横向关系；

步骤1.6，确定抽取的实体及实体之间的关系，将不可再分的对象作为实体添加到对应的类中，并且在实体分类的基础上，从规范条文语义出发，分析两两实体类别之间可能存在的关系。

步骤1.3中地铁设计规范领域的四个基本概念为建设成果、建设进程、建设资源和建设属性。

步骤1.4中通过映射完善实体类别的具体步骤为：

地铁设计规范领域映射上三层的概念，更深层次的概念分类需要通过分析和对标的方式，进行采纳或剔除，并且含义相同的概念名称采用地铁设计领域专业术语。

步骤2中分析语言特点的方法具体为：

规范文本语言特点分析，由浅及深包含三个部分：规范文本的来源和构成、数据形式以及所具备的子语言特性。地铁设计规范数据的形式主要由表格、自由文本、图像构成，其中自由文本形式的非结构化数据是地铁设计规范中非常重要的数据，是地铁设计规范信息抽取的重点。

所述语言特性包括：

1)忽略隐含信息，导致句子语法成分不完整，比如缺少主语；

2)包含一些以数字和字母表示的属性值；

3)包含英文缩写词；

4)符号在地铁设计领域的特殊意义；

5)表达模式化并且不同的模式可能等价；

6)包含大量专业术语

7)存在固定的语义类型

8)建筑设计习惯用语大量出现

9)为了表达清晰，用半结构化的方式组织各部分内容

步骤3中本体的分类方法具体为：

按照领域依赖度的本体层次可以分为四类：顶层本体、领域本体、任务本体和应用本体；根据本体层次，从领域本体开始，将地铁设计规范领域的研究任务进行细分；实体识别和关系抽取是该领域信息抽取研究的主要任务。

顶层本体是指通用概念及关系，领域本体是指特定领域概念及关系，任务本体是指领域内的指定问题概念及关系，应用本体是指特定任务的概念及关系。

本发明的有益效果是：

一种针对实体识别和关系抽取任务的语义分析方法，用以建立地铁设计规范领域的概念分层体系和语义关系分类体系，并且提升这一领域信息抽取效率。具体地，包含三个模块的内容，建立地铁设计规范领域的概念分层体系和语义关系分类体系，分析规范文本的语言特点，以及获取细分领域任务的实体和关系类别信息。第一个模块，借助本体论的思想，和映射对标UMLS，得到概念分层体系和语义关系分类体系。第二个模块，通过规范文本的来源和构成、数据形式和所具备的子语言特性三个部分，由浅及深地分析规范文本的语言特性，以补充实体识别和关系抽取任务的规则提取。最后一个模块，将本体分类的思想渗入这一领域的研究任务细分过程中，实现任务和实体关系类别的对应，从而提高信息抽取的效率。

附图说明

图1为本发明一种针对实体识别和关系抽取任务的语义分析方法地铁设计规范领域语义分析流程图；

图2为本发明一种针对实体识别和关系抽取任务的语义分析方法语义分析和本体构建七步法的关系图；

图3为本发明一种针对实体识别和关系抽取任务的语义分析方法地铁设计规范领域的概念图；

图4为本发明一种针对实体识别和关系抽取任务的语义分析方法UMLS的部分语义类型图；

图5为本发明一种针对实体识别和关系抽取任务的语义分析方法地铁设计规范领域的实体类别图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种针对实体识别和关系抽取任务的语义分析方法，具体

包括以下步骤：

步骤2，按照由浅及深的步骤，分析规范文本的语言特点；

步骤1中所述获取地铁设计规范领域的概念分层体系和语义关系分类体系的方法具体包括以下步骤：

步骤1.4中通过映射完善实体类别的具体步骤为：

步骤2中分析语言特点的方法具体为：

所述语言特性包括：

2)包含一些以数字和字母表示的属性值；

3)包含英文缩写词；

4)符号在地铁设计领域的特殊意义；

5)表达模式化并且不同的模式可能等价；

6)包含大量专业术语

7)存在固定的语义类型

8)建筑设计习惯用语大量出现

9)为了表达清晰，用半结构化的方式组织各部分内容

步骤3中本体的分类方法具体为：

实体及其关系是地铁设计规范知识的主要载体，通过抽取规范中的实体和关系，并形成结构化的数据，可以实现信息化管理和约束地铁的建设和运营。但是，目前实体识别和关系抽取的研究多面向通用领域，特定领域的研究主要集中在生物医学、法律、军事等领域，对于地铁领域的研究基本还没有起步，可参考的文献和资料也鲜少存在，没有公开权威的语料库可供使用。而实体识别和关系抽取任务中一个核心的内容是实体和关系类别的判定，因此本文从语义分析的角度建立地铁设计规范领域的概念分层体系和语义关系分类体系，为确定该领域的实体类别和关系类别提供理论支持。

在自然语言文本处理中，语义分析旨在运用各种方法，学习与理解一段文本所表达的语义内容，语义内容则包括概念和语义关系，概念是语义的基本单元，语义关系则是不同概念之间有意义的关联。语义分析涉及语言学、逻辑学、计算语言学、机器学习、认知语言等多个学科内容。根据理解对象的不同，包括词、句子和段落，语义分析可以进一步分解为词汇级语义分析、句子级语义分析以及篇章级语义分析。语义分析的方法，包括基于语言学领域的句法分析来表征各个语义成分之间的关系，基于文本之间相似度的概率统计方法来描述文本的潜在语义关系，和基于本体构建过程的语义分析方法。

基于句法分析方法主要依赖句法规则来进行语言语义的处理，因此需要有高效的语法分析器和丰富的词典，而这些都是目前地铁设计规范领域研究所不具备的。而基于相似度计算的语义分析方法，依靠概率统计的相关算法挖掘词与词之间的潜在语义结构，这类方法虽然自动化程度高，但是缺乏必要的语义逻辑基础，抽取的概念关系松散，一定程度上很难保证语义分析的质量，而实体和关系类别对于领域知识至关重要。因此，利用自动化程度低，但描述能力更全面的，基于本体构建的语义分析方法，分析和抽取概念分层体系和语义关系分类体系是更好的选择。

本体作为一种在语义和知识层次上描述信息的领域概念建模工具，其构建过程统一了对概念、属性、关系集合的描述，一般包括这几个步骤：本体需求分析、本体构建规划、本体信息获取、确定本体概念及关系、本体形式化编码和本体评价与进化。其中，本体需求分析和本体构建规划可以确定出领域的语义范围，本体信息获取对应于语义信息的获取，本体概念及关系等同于语义梳理的过程。因此，可以借助本体构建的过程完成语义分析，本文将借鉴斯坦福大学提出的领域本体构建七步法，对实体类别和关系类别的确定提出具体步骤。

基于本体构建过程的语义分析是从归纳的角度，自底向上梳理实体和关系类别，为了进一步完善得到的结果，本文还通过映射和对标已成熟的医学领域概念模型，自顶向下地使得到的分类结果更加系统化和规范化。同时，从归纳梳理的过程中，发现地铁设计规范文本所表现出的子语言特性，即区别于开放领域，该领域描述文本特有的语言特点。例如，描述地铁设计领域知识的专业词汇，习惯性的用语等。充分利用这些子语言特性，有利于该领域文本信息抽取的研究。

最后，通过细分地铁设计规范领域的研究任务，使该领域的相关知识通过不同的实体类别和关系类别进行描述，即获得不同任务对应的实体和关系类别信息。综上，本文通过语义分析的三个步骤，得到了开展实体识别和关系抽取任务之前所需的实体和关系类别，并且为后续自动化信息抽取提供了一定的规则依据。

地铁设计规范文本的语义分析如图1所示，包含三个部分，(1) 利用归纳和参照相结合的方式，获取地铁设计规范领域的概念分层体系和语义关系分类体系；(2)按照一定的步骤，由浅及深地分析规范文本的语言特点；(3)根据本体的分类思想，结合实体和关系的不同类别，将实体识别和关系抽取过程融入该领域不同的研究任务中。

2.1概念分层体系和语义关系分类体系

本文采用基于本体构建的语义分析方法，以归纳的方式提取地铁设计规范领域的概念。具体地，借鉴了斯坦福大学提出的领域本体构建七步法，二者的对应关系如图2所示。

从图2可知，本体构建的步骤与语义分析的过程几乎一一对应，由于本文的研究对象是实体识别和关系抽取任务，且属性和概念之间没有明显的界限，因此本文将既可属于概念又可属于属性的对象进行明确界定，分离出概念。

语义分析的六个步骤为：

1)明确研究的领域范畴，本文研究的是地铁设计规范文本的语义分析，领域为地铁设计规范领域，范畴是规范文本所涉及的专业；

2)对照“建筑信息模型分类”，查找现有的分类体系，发现建筑信息模型分类可作为参考。

3)梳理领域重要概念，上述建筑信息模型分类标准适用于民用建筑及通用工业厂房建筑信息模型中信息的分类和编码，但是由于同属建筑领域，于是将分类体系进行局部改动，并且对存在重复和交叉的概念进行剔除，最终确定出地铁设计规范领域的概念，如图3所示。

通过对地铁设计规范的分析，确定地铁设计规范领域的四个基本概念延用建筑信息模型的顶层分类，即建设成果、建设进程、建设资源和建设属性。下面一层的分类则做地铁设计规范的适配改动。

建设成果中的建筑物和建筑空间，是地铁设计最基本和最关键的建设成果，是一种最终形态；工作成果是在新建建筑的施工阶段和既有建筑的改建、扩建、维修、拆除活动中创造的阶段性或临时性成果。建设进程行为是工程相关方在工程建设中表现出的工作，包括机器行为和人类行为；专业领域是建筑工程领域内的专业分支。

建设资源中的施工元素是建筑主体中独立或与其他部分结合，满足建筑主体主要功能的部分；组织角色指在整个工程项目生命期中任意过程和工序的专业领域的参与者，包括团体和个人；工具是工程项目生命期中使用的软件、仪器、物品等，不参与组成建筑；信息则是创建和维护建设环境过程中供参考和利用的数据，包括抽象数据和具体数值。建设属性中的材质是指用于工程建设或制造建筑产品的基本物质；属性则是用于描述建筑实体或者活动的特征。

4)定义类和类的等级体系，根据概念梳理的结果，结合人工阅读规范条文的方式，归纳创建实体类别。如图1所示，在归纳创建的实体类别基础上，本文自顶向下通过映射和对标UMLS(Unified Medical Language System，统一医学语言系统)，完善实体类别，部分UMLS语义类型(概念)如图4所示。

从图4可知，第三层之后的概念划分开始包含了医疗领域的具体概念，因此地铁设计规范领域映射上三层的概念，更深层次的概念分类需要通过分析和对标的方式，进行采纳或剔除，并且含义相同的概念名称采用地铁设计领域相关术语，例如组织结构和组织角色的对标。综上，得到24种实体类别如图5所示。

5)梳理类之间的关系，提取类等级体系中已确立的关系，并且分析概念间是否存在横向关系。在步骤4中可以得到类之间的层级关系，即上、下位概念。分析概念之间的横向关系，同样参考UMLS 中已定义的53种语义关系。

6)确定抽取的实体及实体之间的关系，将不可再分的对象作为实体添加到对应的类中，并且在实体分类的基础上，从规范条文语义出发，分析两两实体类别之间可能存在的关系。以步骤4实体分类中概念实体的文件名类别为例，该类别下包含具体的各种标准，规范和条目，综合实体类别和步骤5中UMLS的语义关系，得到地铁设计规范领域的19种语义关系。部分语义关系的限制说明如下表1所示。

表1地铁设计规范领域部分语义关系

2.2规范文本语言特点分析

如图1所示，规范文本语言特点分析，由浅及深包含三个部分：规范文本的来源和构成、数据形式以及所具备的子语言特性。

建筑领域中，建筑法规体系分为法律、规范和标准三个层次，法律主要涉及行政和组织管理，规范侧重于综合技术要求，标准则侧重于单项技术要求。建筑规范是由政府授权机构所提出的建筑物安全、质量、功能等方面的最低要求，这些要求以文件的方式存在就形成了建筑规范设计文本。本文研究的《地铁设计规范》是2014年3月1 日开始施行的，其中包含了近年来我国地铁工程建设和运营管理方面积累的许多新经验和引入的诸多技术系统，以及对于国外当代地铁有关成功经验和先进技术的借鉴。

地铁设计规范包含前言、正文和附录三部分。其中正文是核心内容，包括总则、术语和规范条文三部分，总则说明了规范的编制目的和适用范围，术语中定义了规范中的重要概念，规范条文阐明了对规范适用对象的各类要求。规范中以黑体字标志的条文为强制性条文，必须严格执行，其余条文为建议性条文。同时，规范对要求严格程度不同的条文用词不同，具体地，如下表2所示。

表2地铁设计规范条文不同严格程度的用词

地铁设计规范数据的形式主要由表格、自由文本、图像构成，其中自由文本形式的非结构化数据是地铁设计规范中非常重要的数据，是地铁设计规范信息抽取和文本挖掘关注的重点。同时，文本内容由多个公司和有关单位共同修订，并且征求了全国城市轨道交通方面有关专家的意见，相较于编辑良好且严格符合语法的语言文本，语言习惯更为自由，语言结构较为多样。

地铁设计规范表现出的子语言特性包括：

1)忽略隐含信息，导致句子语法成分不完整，比如缺少主语(“为使地铁工程设计达到安全可靠，功能合理，经济适用，节能环保，技术先进，制定本规范”)；

2)包含一些以数字和字母表示的属性值(“前照灯在车辆前端紧急制停距离处照度不应小于2lx”)；

3)包含英文缩写词(“信号系统应包括ATC系统及车辆基地信号系统”)；

4)符号在地铁设计领域的特殊意义(“车轮直径应为 840+4-0mm”)；

5)表达模式化并且不同的模式可能等价；(“地铁工程设计应采取防火灾、水淹、地震、风暴、冰雪、雷击等灾害的措施。”和“车辆应采取减振与防噪措施。”)

6)包含大量专业术语(“安全标志”)和受控词汇(“人字排水坡”)；

7)存在固定的语义类型(比如“总体要求”属于“文件工作成果”实体类别，“数据通道”属于“抽象施工元素”类别等)；

8)建筑设计习惯用语大量出现(“不可”、“可”、“宜”、“应”、“必须”等)；

9)为了表达清晰，用半结构化的方式组织各部分内容(分章节描述、术语解释等)。

地铁设计规范的知识融合于描述性的自由文本中，为计算机自动处理制造了障碍，因而自然语言处理、信息抽取等相关技术在规范的分析和挖掘中将发挥重要的作用，同时规范文本的语言特点也给自然语言处理技术的应用带来新的挑战和机遇。

2.3地铁设计规范领域的研究任务

《地铁设计规范》从总体设计、运输组织、土建工程、机电工程、系统工程、乘客服务、安全防灾等工程设计所涵盖的专业对地铁设计进行了规定,共29章183节。内容包括总则、术语、运营组织、车辆、限界、线路、轨道、路基、车站建筑、高架结构、地下结构、工程防水、通风空调与供暖、给水与排水、供电、通信、信号、自动售检票系统、火灾自动报警系统、综合监控系统、环境与设备监控系统、乘客信息系统、门禁、运营控制中心、站内客运设备、站台门、车辆基地、防灾及环境保护等,并给出了相应的条文说明。

综合上述地铁设计规范涉及专业多，情况多变，关系复杂的特点，有必要将这一领域的研究任务细分，使实体类别和关系类别从不同角度描述该领域的相关知识。具体地，本文按照本体分类的思想进行任务细分的过程描述。

按照领域依赖度的本体层次可以分为四类：顶层本体、领域本体、任务本体和应用本体，具体地，如下表3所示。

表3本体分类

本体分类	说明
		顶层本体	通用概念及关系
领域本体	特定领域概念及关系
		任务本体	领域内的指定问题概念及关系
应用本体	特定任务的概念及关系

根据本体层次，从领域本体开始，将地铁设计规范领域的研究任务进行细分。领域本体，围绕地铁设计规范文本展开的该领域的本体构建，实体识别和关系抽取是该领域信息抽取研究的主要任务，包含上述2.1小节分析得到的24种实体和19种语义关系。

任务本体，例如地铁单专业设计合规性检查和多专业协同一致性检查，实体识别和关系抽取覆盖一定范围的规范文本，并且需要确定这一范围内所包含的实体类别和语义关系类别；应用本体，例如地铁设计中施工图的合规性检查，针对这一具体任务，需要在规范中抽取可用于检查的实体类别和语义关系类别，判断标准为施工图中可以提取出来的信息。

综上，根据一步步细化地铁设计规范领域的研究任务，可以进一步确定出实体识别和关系抽取任务所需要的类别信息，以提升地铁设计规范领域信息抽取的。

Claims

1.一种针对实体识别和关系抽取任务的语义分析方法，其特征在于，具体包括以下步骤：

步骤1，利用归纳和参照相结合的方式，获取地铁设计规范领域的概念分层体系和语义关系分类体系，具体包括以下步骤：

步骤1.3中地铁设计规范领域的四个基本概念为建设成果、建设进程、建设资源和建设属性；

步骤1.4中通过映射完善实体类别的具体步骤为：

地铁设计规范领域映射上三层的概念，更深层次的概念分类需要通过分析和对标的方式，进行采纳或剔除，并且含义相同的概念名称采用地铁设计领域专业术语；

步骤1.5，梳理类之间的关系，提取类等级体系中已确立的关系，并且分析概念间是否存在横向关系；在步骤1.4中得到类之间的层级关系，即上、下位概念；分析概念之间的横向关系；

步骤1.6，确定抽取的实体及实体之间的关系，将不可再分的对象作为实体添加到对应的类中，并且在实体分类的基础上，从规范条文语义出发，分析两两实体类别之间可能存在的关系；

步骤2，按照由浅及深的步骤，分析规范文本的语言特点；

步骤2中分析语言特点的方法具体为：

规范文本语言特点分析，由浅及深包含三个部分：规范文本的来源和构成、数据形式以及所具备的子语言特性；地铁设计规范数据的形式主要由表格、自由文本、图像构成，其中自由文本形式的非结构化数据是地铁设计规范中非常重要的数据，是地铁设计规范信息抽取的重点；

所述语言特性包括：

1)忽略隐含信息，导致句子语法成分不完整，缺少主语；

2)包含一些以数字和字母表示的属性值；

3)包含英文缩写词；

4)符号在地铁设计领域的特殊意义；

5)表达模式化并且不同的模式可能等价；

6)包含大量专业术语；

7)存在固定的语义类型；

8)建筑设计习惯用语大量出现；

9)为了表达清晰，用半结构化的方式组织各部分内容；

2.根据权利要求1所述的一种针对实体识别和关系抽取任务的语义分析方法，其特征在于，所述步骤3中本体的分类方法具体为：

按照领域依赖度的本体层次分为四类：顶层本体、领域本体、任务本体和应用本体；根据本体层次，从领域本体开始，将地铁设计规范领域的研究任务进行细分；实体识别和关系抽取是该领域信息抽取研究的主要任务。

3.根据权利要求2所述的一种针对实体识别和关系抽取任务的语义分析方法，其特征在于，所述顶层本体是指通用概念及关系，领域本体是指特定领域概念及关系，任务本体是指领域内的指定问题概念及关系，应用本体是指特定任务的概念及关系。