CN113626596B

CN113626596B - 基于深度学习的地铁设计规范文本分析和语料库构建方法

Info

Publication number: CN113626596B
Application number: CN202110816598.1A
Authority: CN
Inventors: 朱磊; 徐俊豪; 黑新宏; 杨智超; 黄渭涵; 崔育荣
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2024-02-06
Anticipated expiration: 2041-07-20
Also published as: CN113626596A

Abstract

本发明提供了基于深度学习的地铁设计规范文本分析和语料库构建方法，属于自然语言处理技术领域。首先进行文本分析，主要包括实体关系梳理和文本特点两个方面，从而得到命名实体识别和实体关系抽取任务所需的实体类别和关系类别，并梳理出分类标准。其次，从数据来源、标注模式、标注环境和数据分析与矫正等四个方面描述构建语料库的原则和过程，最终得到基于地铁设计规范的标注语料库。构建针对地铁设计规范的语料库；地铁设计领域抽取出统一、完整、高效的实体关系将有助于地铁设计领域的智能化建设。

Description

基于深度学习的地铁设计规范文本分析和语料库构建方法

技术领域

本发明属于人工智能领域的一个重要方向，是地铁设计领域实现信息化、智能化的关键工作，具体涉及基于深度学习的地铁设计规范文本分析和语料库构建方法。

背景技术

伴随着信息技术发展的突飞猛进，人工智能技术已经延伸到各行各业，并与许多传统行业有效地结合到一起。现代城市公共基础建设中，地铁已经成为不可或缺的轨道工具。地铁工程建设包括规划、设计、建设和试运行等多个环节，其中设计环节是保证工程建设质量的关键，也是确保地铁安全、经济、适用的重要前提。

地铁设计规范是约束这一环节的重要文件，是我国经过多年经验沉淀和反复论证研究的成果。地铁设计规范文本内容涉及专业多，情况多变，专业词汇广，关系复杂，且各章节描述风格不统一，为抽取统一、完整、高效的实体关系带来了困难；目前针对地铁设计领域的实体识别和实体关系抽取的研究处于起步阶段，同时现有研究尚未提出和发布该领域的信息抽取语料库，针对地铁设计规范的语料库构建。本文对规范文本进行分析，构建了基于该规范的信息抽取语料库。

发明内容

本发明的目的是提供基于深度学习的地铁设计规范文本分析和语料库构建方法，解决了现有技术中存在的地铁设计规范风格不统一，关系不清楚的问题，构建针对地铁设计规范的语料库；地铁设计领域抽取出统一、完整、高效的实体关系将有助于地铁设计领域的智能化建设。

本发明所采用的技术方案是，基于深度学习的地铁设计规范文本分析和语料库构建方法，包括以下步骤：

步骤1，针对实体关系抽取任务，进行实体及实体间的关系的语义分析；

步骤2，根据地铁设计文本规范梳理实体分类体系；

步骤3，基于对实体间语义关系分析的基础上，对分类体系进行合并和定义，形成6类实体；

步骤4，进行语义关系的梳理和定义，得到13类关系的分类标准；

步骤5，依据实体和实体间关系分类标准对从《地铁设计规范》GB2017-2013的文本部分摘出的1000条规范进行数据标注；

步骤6，对步骤5中标注得到的数据分析与矫正；

步骤1中针对实体关系抽取任务，进行语义分析过程具体为：

步骤1.1，首先进行需求调研和分析，确定出研究的领域范畴。

步骤1.2，第二步对照“建筑信息模型分类”到第三步梳理领域重要概念的过程中，根据建筑信息模型分类得到地铁设计领域的上层概念。

步骤1.3，定义类和类的等级体系并得到底层20种实体类别。

步骤1.4，在20种实体类别的基础上，借鉴UMLS的语义关系定义，得到地铁设计规范中的19种实体关系类别。

步骤2中对地铁设计规范文本进行了分析；地铁设计规范数据的形式主要由表格、自由文本、图像构成，其中自由文本形式的非结构化数据是地铁设计规范中非常重要的数据，地铁设计规范文本除了具有自然语言文本本身的层次性、递归性、序列性等特点，还具备一些独有的子语言特性，主要包括：

1)缺失主要成分信息；

2)特殊符号表达的独特含义；

3)不同的表达模式具备相同的含义；

4)掺杂口语化表达；

5)包含大量专业术语；

6)建筑设计习惯用语大量出现；

7)语义类型相对固定；

8)为了表达清晰，用半结构化的方式组织各部分内容。

步骤4中，采用了Semeval-Task8中的9种关系分类标准，进行语义关系的梳理和定义，得到13类关系的分类标准。

步骤5中，本文语料库的数据来源是《地铁设计规范》GB2017-2013；

步骤5.1首先对文本进行必要的预处理工作，摘出规范中的文本部分，针对摘出来的文本中1000条规范进行人工标注，共36457个字符，包含5244个实体。标注模式采用团体标注的方式，依据步骤4中得到的实体和关系分类标准，利用jieba分词抽取关键词来完成标注。

步骤5.2其次本文在实验阶段使用了80W土木建筑信息文本语料进行了领域深度预训练，以缓解标注数据有限，并提高预训练模型对土木建筑信息领域知识的学习能力，借助非地铁设计相关的规范减轻模型的过拟合问题，进一步提升下游任务微调时的效果，在此，本专利采用基于生成式模型的半监督学习方法，该类方法通常是把未标记样本属于每个类别的概率看成一组缺失参数，然后采用EM算法对生成式模型的参数进行极大似然估计；文本来源是国家建表库网站和规范文本集，包括建筑专业、城市规划、结构专业的数十本国家规范。

步骤6中，语料库构建不是一次性成型的，它是一个迭代的过程，这个过程采用了“生成数据集-训练基准模型-分析预测错误-制定数据更新策略-更新数据集”的基准模型预测，结合人工交叉验证的半人工闭环方式；其中，基准模型尽量选择对超参数不是很敏感的模型；从数据分析和任务角度出发，进行数据集矫正，使得数据集满足两个基本条件：在不断迭代构建过程中，尽力减轻由于多人标注产生的不一致性；最终版本数据集符合一定的统计学分布特征，同时具备代表性和平衡性；在构建语料库的时候需要尽力确保语料库能够代表规范文本最大范围内的变化性。

本发明的有益效果在于：

首先进行文本分析，主要包括实体关系梳理和文本特点两个方面，从而得到命名实体识别和实体关系抽取任务所需的实体类别和关系类别，并梳理出分类标准。其次，从数据来源、标注模式、标注环境和数据分析与矫正等四个方面描述构建语料库的原则和过程，最终得到基于地铁设计规范的标注语料库，地铁设计领域抽取出统一、完整、高效的实体关系将有助于地铁设计领域的智能化建设。

附图说明

图1是本发明基于深度学习的地铁设计规范文本分析和语料库构建流程图。

图2是本发明基于深度学习的地铁设计规范文本分析和语料库构建方法语义分析和本体构建七步法的对应关系。

图3是本发明基于深度学习的地铁设计规范文本分析和语料库构建方法地铁设计规范领域的上层概念。

图4是本发明基于深度学习的地铁设计规范文本分析和语料库构建方法实体类别。

图5是本发明基于深度学习的地铁设计规范文本分析和语料库构建方法实体间的关系类别。

图6是本发明基于深度学习的地铁设计规范文本分析和语料库构建方法实体分类标准。

图7是本发明基于深度学习的地铁设计规范文本分析和语料库构建方法实体关系分类标准。、

图8是本发明基于深度学习的地铁设计规范文本分析和语料库构建方法EM算法的步骤图。

具体实施方式

基于深度学习的地铁设计规范文本分析和语料库构建方法，包括以下步骤：

步骤2，根据地铁设计文本规范梳理实体分类体系；

步骤6，对步骤5中标注得到的数据分析与矫正；

步骤1中针对实体关系抽取任务，进行语义分析过程具体为：

步骤1.3，定义类和类的等级体系并得到底层20种实体类别。

1)缺失主要成分信息；

2)特殊符号表达的独特含义；

3)不同的表达模式具备相同的含义；

4)掺杂口语化表达；

5)包含大量专业术语；

6)建筑设计习惯用语大量出现；

7)语义类型相对固定；

8)为了表达清晰，用半结构化的方式组织各部分内容。

步骤5.2其次本文在实验阶段使用了80W土木建筑信息文本语料进行了领域深度预训练，以缓解标注数据有限，并提高预训练模型对土木建筑信息领域知识的学习能力，借助非地铁设计相关的规范减轻模型的过拟合问题，进一步提升下游任务微调时的效果，在此，本专利采用基于生成式模型的半监督学习方法，该类方法通常是把未标记样本属于每个类别的概率看成一组缺失参数，然后采用EM算法对生成式模型的参数进行极大似然估计；文本来源是国家建表库网站和规范文本集，包括建筑专业、城市规划、结构专业的数十本国家规范。步骤6中，语料库构建不是一次性成型的，它是一个迭代的过程，这个过程采用了“生成数据集-训练基准模型-分析预测错误-制定数据更新策略-更新数据集”的基准模型预测，结合人工交叉验证的半人工闭环方式；其中，基准模型尽量选择对超参数不是很敏感的模型；从数据分析和任务角度出发，进行数据集矫正，使得数据集满足两个基本条件：在不断迭代构建过程中，尽力减轻由于多人标注产生的不一致性；最终版本数据集符合一定的统计学分布特征，同时具备代表性和平衡性；在构建语料库的时候需要尽力确保语料库能够代表规范文本最大范围内的变化性。

步骤2，根据地铁设计文本规范梳理实体分类体系；

步骤3，基于对实体间语义关系分析的基础上，对分类体系进行合并和定义，形成6类实体，如图6所示；

步骤4，进行语义关系的梳理和定义，得到13类关系的分类标准，如图7所示；

步骤6，对步骤5标注得到的数据分析与矫正；

步骤1中为了保证地铁设计领域知识的质量和专业性，本发明借鉴了由斯坦福大学提出的领域本体构建七步法，如图1所示，针对实体关系抽取任务，进行语义分析过程的定义。

步骤1.2，第二步对照“建筑信息模型分类”到第三步梳理领域重要概念的过程中，根据建筑信息模型分类得到地铁设计领域的上层概念，如图2所示。

步骤1.3，定义类和类的等级体系并得到底层20种实体类别，如图3所示。

步骤1.4，在20种实体类别的基础上，借鉴UMLS的语义关系定义，得到地铁设计规范中的19种实体关系类别，如图5所示。

步骤2中对地铁设计规范文本进行了分析。地铁设计规范数据的形式主要由表格、自由文本、图像构成，其中自由文本形式的非结构化数据是地铁设计规范中非常重要的数据，包含着我国地铁工程建设过程中积累的宝贵经验，以及对国外优秀技术的借鉴。同时，地铁设计规范是由多个公司和有关单位共同修订，包含多方意见，因此其文本相较于编辑良好且严格符合语法的语言文本，语言习惯更为自由，语言结构较为多样。

地铁设计规范文本除了具有自然语言文本本身的层次性、递归性、序列性等特点，还具备一些独有的子语言特性，主要包括：1)缺失主要成分信息，比如缺少主语(“为使…达到…的要求，制定本规范”)；2)特殊符号表达的独特含义(“不应小于2lx”)；3)不同的表达模式具备相同的含义；4)掺杂口语化表达；5)包含大量专业术语(“安全标志”)；6)建筑设计习惯用语大量出现(“不可”、“可”、“宜”、“应”、“必须”)；7)语义类型相对固定(比如“总体要求”属于“文件工作成果”实体类别，“数据通道”属于“抽象施工元素”类别等)；8)为了表达清晰，用半结构化的方式组织各部分内容(分章节描述、术语解释等)。

步骤4中，参考了Semeval-Task8中的9种关系分类标准，并且同样经过科研团队中建筑领域专业人员的指导，进行语义关系的梳理和定义，得到13类关系的分类标准。

步骤5中，本文语料库的数据来源是《地铁设计规范》GB2017-2013。

步骤5.1首先对文本进行必要的预处理工作，主要是摘出规范中的文本部分，针对摘出来的文本中1000条规范进行人工标注，共36457个字符，包含5244个实体。标注模式采用团体标注的方式，依据步骤4中得到的实体和关系分类标准，利用jieba分词抽取关键词来完成标注。

步骤5.2其次，本文在实验阶段使用了80W土木建筑信息文本语料进行了领域深度预训练，以缓解标注数据有限，并提高预训练模型对土木建筑信息领域知识的学习能力，借助非地铁设计相关的规范减轻模型的过拟合问题，进一步提升下游任务微调时的效果，在此，本专利采用基于生成式模型的半监督学习方法，该类方法通常是把未标记样本属于每个类别的概率看成一组缺失参数，然后采用EM(expectation-maximization)算法对生成式模型的参数进行极大似然估计。避免了当模型假设与数据分布不一致时，使用大量的未标记数据来估计模型参数反而降低学得模型的泛化能力的问题。文本来源是国家建表库网站和规范文本集，包括建筑专业、城市规划、结构专业等类别的数十本国家规范。

步骤6中，语料库构建不是一次性成型的，它是一个迭代的过程，这个过程采用了“生成数据集-训练基准模型-分析预测错误-制定数据更新策略-更新数据集”的基准模型预测，结合人工交叉验证的半人工闭环方式。其中，基准模型尽量选择对超参数不是很敏感的模型。从数据分析和任务角度出发，进行数据集矫正，使得数据集满足两个基本条件：在不断迭代构建过程中，尽力减轻由于多人标注产生的不一致性；最终版本数据集符合一定的统计学分布特征，同时具备代表性和平衡性。后者是因为基于机器学习的自然语言处理方式是基于统计学的思想，因此构建的数据集本身要更大限度地符合任务适配的统计学规律。

语料库只是地铁设计规范文本的选择性子集，不可能包含该规范所有可能的例子。因此，需要尽力确保语料库能够代表规范文本最大范围内的变化性。

Claims

1.基于深度学习的地铁设计规范文本分析和语料库构建方法，其特征在于：包括以下步骤：

步骤2，根据地铁设计文本规范梳理实体分类体系；

步骤2中对地铁设计规范文本进行了分析；地铁设计规范数据的形式主要由表格、自由文本、图像构成，其中自由文本形式的非结构化数据是地铁设计规范中非常重要的数据，地铁设计规范文本除了具有自然语言文本本身的层次性、递归性、序列性的特点，还具备一些独有的子语言特性，主要包括：

1)缺失主要成分信息；

2)特殊符号表达的独特含义；

3)不同的表达模式具备相同的含义；

4)掺杂口语化表达；

5)包含大量专业术语；

6)建筑设计习惯用语大量出现；

7)语义类型相对固定；

8)为了表达清晰，用半结构化的方式组织各部分内容；

步骤5.1，首先对文本进行必要的预处理工作，摘出规范中的文本部分，针对摘出来的文本中1000条规范进行人工标注，共36457个字符，包含5244个实体；标注模式采用团体标注的方式，依据步骤4中得到的实体和关系分类标准，利用jieba分词抽取关键词来完成标注；

步骤5.2其次本文在实验阶段使用了80W土木建筑信息文本语料进行了领域深度预训练，以缓解标注数据有限，并提高预训练模型对土木建筑信息领域知识的学习能力，借助非地铁设计相关的规范减轻模型的过拟合问题，进一步提升下游任务微调时的效果，在此，本文采用基于生成式模型的半监督学习方法，该类方法通常是把未标记样本属于每个类别的概率看成一组缺失参数，然后采用EM算法对生成式模型的参数进行极大似然估计；文本来源是国家建表库网站和规范文本集，包括建筑专业、城市规划、结构专业的国家规范；

步骤6，对步骤5中标注得到的数据分析与矫正。

2.如权利要求1所述的基于深度学习的地铁设计规范文本分析和语料库构建方法，其特征在于，步骤1中针对实体关系抽取任务，进行语义分析过程具体为：

步骤1.3，定义类和类的等级体系并得到底层20种实体类别。

3.如权利要求1所述的基于深度学习的地铁设计规范文本分析和语料库构建方法，其特征在于，步骤4中，采用了Semeval-Task8中的9种关系分类标准，进行语义关系的梳理和定义，得到13类关系的分类标准。

4.如权利要求1所述的基于深度学习的地铁设计规范文本分析和语料库构建方法，其特征在于，步骤6中，语料库构建不是一次性成型的，它是一个迭代的过程，这个过程采用了“生成数据集-训练基准模型-分析预测错误-制定数据更新策略-更新数据集”的基准模型预测，结合人工交叉验证的半人工闭环方式；其中，基准模型尽量选择对超参数不是很敏感的模型；从数据分析和任务角度出发，进行数据集矫正，使得数据集满足两个基本条件：在不断迭代构建过程中，尽力减轻由于多人标注产生的不一致性；最终版本数据集符合一定的统计学分布特征，同时具备代表性和平衡性；在构建语料库的时候需要尽力确保语料库能够代表规范文本最大范围内的变化性。