CN113191148B

CN113191148B - 一种基于半监督学习和聚类的轨道交通实体识别方法

Info

Publication number: CN113191148B
Application number: CN202110482650.4A
Authority: CN
Inventors: 黑新宏; 董林靖; 朱磊
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2024-05-28
Anticipated expiration: 2041-04-30
Also published as: CN113191148A

Abstract

本发明是基于半监督学习和聚类的实体识别方法。通过本体库预定义实体类别对轨道交通规范非结构化数据进行标注；对标签数据使用word2vec进行向量化表示，然后对带标签的实体词向量进行层次聚类算法；接着将实体类别与聚类结果联合分析，校对实体类别定义，最终确定轨道交通领域本体库实体类型；最后重新整理数据集，生成的词向量输入到BiLSTM‑CRF深度学习模型中训练命名实体识别模型，使用Softmax函数对识别的实体特征进行标签分类，评估实体标签分类结果。本发明能提高轨道交通规范中实体抽取速度和准确率，从而缩短自动问答统和语义网标注对轨道交通规范的处理时间，提高建筑领域从业人员对轨道交通规范的查询速率，提高了用户体验度。

Description

一种基于半监督学习和聚类的轨道交通实体识别方法

技术领域

本发明属于人工智能自然语言处理技术领域，涉及一种基于半监督学习和聚类的轨道交通实体识别方法。

背景技术

近几年，人工智能的发展成为了行业重要的发展方向，其中自然语言处理作为该领域的重要研究方向，其研究成果已经应用于医疗、法律、金融等行业中，大大提高了领域智能化水平。但是，轨道交通领域中也存在大量的文本信息，针对此领域的相关研究少之又少。在现有的自然语言处理研究领域，现存涉及到轨道交通规范信息提取的相关方法主要是针对英文的轨道交通法规，而对中文轨道交通设计规范的研究处于起步阶段。因此，人们急需要找到一种能够对中文轨道交通设计规范进行信息化处理的方法，构建轨道交通领域知识图谱，实现利用计算机去思考语义并且推理预测，提升轨道交通设计阶段的信息化水平，提高设计阶段的生产效率。

命名实体识别和关系抽取是自然语言处理的重要子任务，直接影响自然语言处理后续工作的性能。其主要的目的是从非结构化文本中识别实体并抽取实体间的语义关系。将关系抽取技术应用到轨道交通领域，对此领域的非结构化知识进行结构化处理与存储，通过对非结构化数据信息的抽取，可以自动分析提取有用信息，从而提高搜索引擎的速度与智能问答系统的准确性，即提高建筑领域从业人员的对轨道交通规范的查询速率，极大地简化了工作的复杂程度，提高了轨道交通领域智能化水平。

发明内容

本发明的目的是提供一种基于半监督和聚类的轨道交通实体识别方法，能够解决现有轨道交通规范实体识别方法需要标记大量数据，以及专家构建本体库时细粒度实体分类与标注样本有限导致实体识别结果准确率较低的问题。

本发明所采用的技术方案是，

一种基于半监督和聚类的轨道交通规范命名实体识别方法，通过专家构建轨道交通领域本体库，人工标注部分数据；首先采用word2vec和BiLSTM-CRF预训练模型分别对带标签实体进行向量化表示；其次利用层次聚类方法对实体词向量进行聚类，与专家定义的实体类别校对，最终确定的实体类别；对训练数据重新进行数据预处理和数据与训练，将生成的词向量输入到BiLSTM-CRF算法训练命名实体识别模型，使用Softmax函数对提取的实体特征迭代训练优化实体识别模型；设置深度学习模型作为服务端测试实体识别模型效果，将测试数据集输入模型可输出测试数据的实体类别，并根据评价指标判断其效果的好坏。

具体包括以下步骤：

步骤1：获取轨道交通规范语料；

步骤2：对获取的道交通规范语料进行数据清洗，删除规范语料中多余信息，包括多余的符号，对规范语料进行规范化处理；

步骤3：构建轨道交通领域本体库，然后预定义实体类别；

步骤4：从规范化处理的语料库中，选取1000条规范进行人工标注，标注每条规范中的实体与实体类别；

步骤5，利用标注过实体的规范语料构建训练数据，生成用于命名实体识别任务的轨道交通数据集；采用BIO标注模式，数据集中只包含两列信息，实体和标签；

步骤5.1 我们通过标注工具标注的数据生成json文件，从json文件中提取出标注的实体类型和实体的起始位置和结束位置信息；

步骤5.2 将采用BIO标注策略与位置信息相结合的方式对原始规范文本进行序列标注，其中B（Begin）、 I（Intermediate）、 O（Other）的缩写，其Begin 指所识别对象开始位置上的字符，Intermediate 指所识别对象最中间的字符，Other 指所识别对象中的非实体字符；

步骤5.3 序列标注后将其处理为深度学习模型规定的数据格式，数据文件中每个字符占一行，共包含实体和实体标签两列信息，生成轨道交通数据集；

步骤6：将步骤5中得到的轨道交通数据集输入到word2vec词向量训练模型中，生成实体文本特征向量；

步骤7：将文本特征向量进行层次聚类，初始参数为专家预定义实体类别数，引入BiLSTM-CRF命名实体识别模型验证实体聚类效果，根据实验表现依次调整阈值条件，将每次聚类结果输入到BiLSTM-CRF命名实体识别模型中对比验证其聚类效果，重复实验，选取命名实体识别实验结果中F1值最高的聚类参数，保存此参数下的聚类结果；

步骤8：将步骤2中构建本体库预定义的实体类别与步骤7中层次聚类结果对比校对，合并，拆分预定义类别，人工定义与聚类联合，确定轨道交通领域本体类别；

步骤9：根据步骤5中确定的实体类别，对本组构建的轨道交通数据集进行修正，得到新的轨道交通实体数据集，目的减少细粒度实体分类数量，适用于少样本学习；

步骤10：将步骤9中新的实体数据集划分为三个数据集文件，分别为训练集，测试集和验证集，占比为8:1:1;

步骤11：将实体训练集输入到BERT模型中进行预训练，生成文本特征向量；将文本特征向量输入到BiLSTM-CRF 模型中，生成实体识别模型；

步骤12：将步骤7中待测试轨道交通规范语料训练集输入到更新后的实体识别模型中，即输出待测试轨道交通规范中实体类别标签。

步骤7中，对人工标注数据进行层次聚类，为预定义其实体类别作为参考条件。

步骤8的具体过程如下：

步骤8.1：针对步骤7生成的聚类结果进行分析，统计每簇中标签的比例，设定一个阈值，规定占比在阈值之上的标签为本簇的实际类别；

步骤8.2：将簇中不同标签占比相差较小，则可将专家预定义的类别合并；

步骤8.3：将独立的簇并且特征比较明显，在专家预定义的类别中可以拆分成一个单独的类别；

步骤 8.4：对比word2vec和BERT生成的词向量聚类结果的差别，最终确定轨道交通领域本体库的实体类别。

步骤9的具体过程如下：

步骤 9.1：遵照步骤5中确定的实体类别，定义标签类型；

步骤9.2：根据对聚类结果进行命名实体识别对比实验，确定的聚类参数和实体类别，对本组构建的轨道交通数据集中原始实体类别进行合并或拆分操作，得到新的轨道交通实体数据集。

步骤11的具体过程如下：

步骤11.1：将实体训练集输入到BERT模型中进行预训练，BERT模型按行读取实体训练集，输出每个字符串的字向量；

步骤11.2：BERT模型将实体训练集中每一个字转化为一维向量，得到一个句子的段向量位置向量，再将段向量位置向量作为深度学习模型的输入，最后输出融合全文语义信息的文本特征向量。

实体识别模型采用Softmax作为损失函数，Softmax用于预测出实体属于每一类别的概率并且能够给其标记上概率较大的标签。

本发明的有益效果是：

本发明针对人工标注轨道交通规范实体工作量大以及细粒度实体分类与标注样本有限产生的矛盾导致实体识别结果准确率较低的问题，提出了一种基于半监督学习和聚类的实体识别方法。通过专家构建本体库预定义实体类别对轨道交通规范非结构化数据进行标注；对标签数据使用word2vec进行向量化表示，然后对带标签的实体词向量进行层次聚类算法；接着将专家构建的实体类别与聚类结果联合分析，校对实体类别定义，最终确定轨道交通领域本体库实体类型；最后重新整理数据集，将训练集输入到BERT模型中，生成的词向量输入到BiLSTM-CRF深度学习模型中训练命名实体识别模型，使用Softmax函数对识别的实体特征进行标签分类，评估实体标签分类结果。采用本发明基于深度学习的轨道交通规范关系抽取方法能够从轨道交通规范语料中快速识别领域实体，将该轨道交通规范实体识别方法应用于轨道交通领域中的自动问答统、语义网标注、知识系图谱构建等方面，能提高轨道交通规范中实体抽取速度和准确率，从而缩短自动问答统和语义网标注对轨道交通规范的处理时间，提高建筑领域从业人员对轨道交通规范的查询速率，提高了用户体验度。

附图说明

图1是本发明基于半监督和聚类的轨道交通设计规范实体识别方法总框架图；

图2是本发明基于基于半监督和聚类的轨道交通规范实体识别方法的总流程图；

图3是本发明一种基于半监督学习和聚类的轨道交通实体识别方法word2vec预训练模型流程示意图；

图4是本发明一种基于半监督学习和聚类的轨道交通实体识别方法中BERT预训练模型的流程示意图；

图5是本发明一种基于半监督学习和聚类的轨道交通实体识别方法中层次聚类算法模型的流程示意图；

图6是本发明一种基于半监督学习和聚类的轨道交通实体识别方法中BERT-BiLSTM-CRF实体识别模型流程示意图；

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

基于半监督和聚类的轨道交通实体识别方法。通过专家构建本体库对轨道交通规范非结构化数据进行标注，专家确定实体类别总共为20类；接着将文本数据转换成只包含实体与标签的词典，对带标签的实体进行数值化表示，训练词向量模型；这里对实体词典的数值化表示分为两种方式：1.word2vec词向量训练模型：静态向量表示，不考虑语义的词向量表示，每一个词只对应一个词向量表示，同一个词得到的词向量是不变的。2.BERT词向量训练模型：动态词向量的表示，考虑语义的词向量表示，同一个词根据上下文信息的不同，得到不同的向量化表示。然后对带标签的实体词向量进行层次聚类算法，通过对每个簇内实体的标签数量进行统计，使每个簇内实体标签所占比例决定簇名称，规定占比较大的标签为本簇的实际类别；最后将专家构建的实体类别与聚类结果联合分析，校对实体类别定义，最终确定轨道交通领域本体库实体类型；对数据进行处理，转化为词向量输入到BiLSTM-CRF深度学习模型中训练命名实体识别模型，通过准确率验证聚类方法对实体识别的有效性。

本发明的技术特征在于：

目前还未存在已经整理好的较大规模的轨道交通设计语料库。本发明中的语料来源于小组的采集，数据来源主要是国家建筑标准设计网站《建标库》地铁设计规范[附条文说明]GB 50157-2013，使用爬虫技术获取网站地铁设计规范数据。爬取的数据存在以下问题：1.文档中存在一些冗余的html标签和符号等。2.文档中存在一些数字，字母，条目信息缺失，残句等情况；3.规范形式多样，序列，图表，公式，嵌套等复杂的文本格式。因此，对数据进行了相应的预处理，数据清洗，人工对缺失数据查漏补缺等操作。针对复杂数据形式和较长的设计规范，采取人工选取1000条可处理以及语法较简单的规范作为预训练数据集。

目前还未有针对轨道交通语料的命名实体标注方法的研究，因此，小组对原始轨道交通语料库建立了一套本领域的实体标注体系。参考国标库对整个建筑领域的实体类别定义，以及人工分析讨论，共预定义了20类实体类别。对涉及的20类实体分别进行标注，小组开发了一套针对轨道交通规范的数据标注平台。具体标注方式为：以@为每条规范的开始标识；实体标注格式为<e1:类别>，通过划词选取预定义实体类别的标注形式生成json文件；实体关系标注格式为：<e1,关系类别，e2>,通过将实体与实体连线选取预定义关系类别的标注形式，生成json文件；通过解析json文件获取实体与实体标签，实体间关系三元组的数据格式。在标注过程中，如若遇到不明确的实体，则将其进行文档记录，通过小组讨论确定最终标注结论，统一标注规则。待标注任务完成后，标注人员相互交换标注语料，互相核对，针对有冲突和矛盾的语料记录文档小组讨论确定最终结论，统一标注规则。最后邀请建筑领域专家对标注后的轨道交通规范语料集进行质量评估，对标注的实体和关系进行总体的检查、修正和整理，得到本研究的轨道交通规范语料库。

基于半监督和聚类的轨道交通实体识别方法，具体包括以下步骤：

步骤1：本文的实验语料使用的是国家建筑标准设计网站《建标库》地铁设计规范[附条文说明]GB 50157-2013。采用网络爬虫技术从官方网站建标库爬取轨道交通规范语料。

步骤3：专家构建轨道交通领域本体库，人工预定义实体类别；

步骤5：利用标注过实体的规范语料构建训练数据，生成用于命名实体识别任务的轨道交通数据集。采用BIO标注模式，数据集中只包含两列信息，实体和标签；

步骤6：将步骤5中得到的轨道交通数据集输入到word2vec词向量训练模型中，生成实体文本特征向量，

步骤7：将文本特征向量进行层次聚类，重复实验，直到得到合适的聚类结果；

步骤8：将步骤2中专家构建本体库预定义的实体类别与层次聚类结果对比校对，合并、拆分预定义类别，人工定义与聚类联合确定轨道交通领域本体类别；

步骤9：根据步骤5中确定的实体类别，对本组构建的轨道交通数据集进行修正，得到新的轨道交通实体数据集，目的减少细粒度实体分类数量，适用于少样本学习。

步骤8的具体过程如下：

步骤8.1：针对步骤7生成的聚类结果进行分析，统计每簇中标签的比例，给定一个阈值，规定占比较大并且在阈值之上的标签为本簇的实际类别；

步骤8.2：将簇中不同标签占比相差较小，则考虑是否可将专家预定义的类别合并；

步骤8.3：将独立的簇并且特征比较明显，检查在专家预定义的类别中是否可以拆分成一个单独的类别；

步骤8.4：对比word2vec和BERT生成的词向量聚类结果的差别，最终确定轨道交通领域本体库的实体类别；

步骤9的具体过程如下：

步骤9.1：遵照步骤5中确定的实体类别，定义标签类型；

步骤11的具体过程如下：

步骤11.2：BERT模型将实体训练集中每一个字转化为一维向量，得到一个句子的段向量位置向量，再将段向量位置向量作为深度学习模型的输入，最后输出融合全文语义信息的文本特征向量；

步骤11.3：将文本特征向量输入到BiLSTM-CRF模型中，生成实体识别模型。

实施例

本发明的目的提供一种基于半监督和聚类的轨道交通规范命名实体识别方法，具体框架如图1所示。通过专家构建轨道交通领域本体库，人工标注部分数据；采用word2vec和BERT预训练模型分别对带标签实体进行向量化表示；其次利用层次聚类方法对实体词向量进行聚类，与专家定义的实体类别校对，最终确定的实体类别；对训练数据重新进行数据预处理和数据与训练，将生成的词向量输入到BiLSTM-CRF算法训练命名实体识别模型，使用Softmax函数对提取的实体特征迭代训练优化实体识别模型；设置深度学习模型作为服务端测试实体识别模型效果，将测试数据集输入模型可输出测试数据的实体类别，根据评价指标判断其效果的好坏。

本发明一种基于深度学习的轨道交通规范关系抽取方法，参照图2，具体包括以下步骤：

步骤1，本文的实验语料使用的是国家建筑标准设计网站《建标库》地铁设计规范[附条文说明]GB 50157-2013。采用网络爬虫技术从官方网站建标库爬取轨道交通规范语料。

步骤2，对获取的道交通规范语料进行数据清洗，删除规范语料中多余信息，包括多余的符号，对规范语料进行规范化处理；

步骤3，专家构建轨道交通领域本体库，人工预定义实体类别；如表1所示：

表1 实体类型

步骤4，从规范化处理的语料库中，选取1000条规范进行人工标注，标注每条规范中的实体类别和实体间关系；

例如，《地铁设计规范[附条文说明]GB 50157-2013》第9.1.6条规范，人工标注格式为：

Source:9．1．6 车站应设置无障碍设施。

TotalSentence:9．1．6<e1>车站<e1>应设置<e2>无障碍设施<e2>。

TotalSentence实体:e1:ec1, e2:ec6

TotalSentence关系:<e1, rc4 ,e2>

例如，《地铁设计规范[附条文说明]GB 50157-2013》第9.7.13条规范，人工标注格式为：

Source:9．7．13 站台门应设置安全标志和使用标志。

TotalSentence:9．7．13<e1>站台门<e1>应设置<e2>安全标志<e2>和<e3>使用标志<e3>。

TotalSentence实体:e1:ec5, e2:ec5,e3:ec5,

TotalSentence关系:<e1, rc4 ,e2>,<e1, rc4 ,e3>,

例如，《地铁设计规范[附条文说明]GB 50157-2013》第14.1.6条规范，人工标注格式为：

Source:14．1．6 给水与排水系统宜按自动化管理设计。

TotalSentence:14．1．6<e1>给水与排水系统<e1>宜按<e2>自动化管理<e2>设计。

TotalSentence实体:e1:ec6, e2:ec10

TotalSentence关系:<e1, rc5 ,e2>

其中，Source为规范原文本，TotalSentence为整条规范标注，TotalSentence实体为本条规范体梳理，TotalSentence关系为本条规范关系梳理。

步骤5，利用标注过实体的规范语料构建训练数据，生成用于命名实体识别任务的轨道交通数据集。采用BIO标注模式，数据集中只包含两列信息，实体和标签；

步骤5.1 我们通过标注工具标注的数据生成json文件，从json文件中提取出标注的实体类型和实体的起始位置和结束位置信息。

步骤5.2 将采用BIO标注策略与位置信息相结合的方式对原始规范文本进行序列标注，其中B（Begin）、 I（Intermediate）、 O（Other）的缩写，其Begin 指所识别对象开始位置上的字符，Intermediate 指所识别对象最中间的字符， Other 指所识别对象中的非实体字符。将预定义的20类实体类型转化为待预测标签具体如表2所示。

表2待预测标签

步骤5.3 序列标注后将其处理为深度学习模型规定的数据格式，数据文件中每个字符占一行，共包含实体和实体标签两列信息，生成轨道交通数据集，具体数据集格式如表3所示。

表3BIO标注数据集格式

步骤6，如图3所示，将步骤5中得到的轨道交通数据集输入到word2vec词向量训练模型中，生成实体文本特征向量，伪代码如下：

步骤7：将文本特征向量进行层次聚类，初始参数为专家预定义实体类别数，引入BiLSTM-CRF命名实体识别模型验证实体聚类效果，根据实验表现依次调整阈值条件，重复实验，选取命名实体识别实验结果中F1值最高的聚类参数，保存此参数下的聚类结果，伪代码如下：

步骤8：联合确定实体类别

步骤9：数据集整理

步骤9.1：遵照步骤5中确定的实体类别，定义标签类型；

步骤9.2：重新处理步骤3中的轨道交通数据集，对数据集实体类别进行合并或拆分操作，得到新的轨道交通实体数据集。

步骤11：构建实体识别模型，具体流程如图6所示。

伪代码如下：

步骤11.3：将文本特征向量输入到 BiLSTM-CRF 模型中，生成实体识别模型。伪代码如下：

实例：

对轨道交通规范语料进行实体标记，具体步骤如下：

步骤11.3.1，以地铁设计规范“9.1.6车站应设置无障碍设施”为例，将BERT模型输出的训练集向量化表示，将“车站应设置无障碍设施”中的每一个词都训练得到一个768维向量，得到每个词的初始化向量，然后将结果作为深度学习模型的输入。

步骤11.3.2，使用深度学习中的BiLSTM-CRF算法，双向LSTM同时考虑了过去的特征和未来的特征，一个正向输入序列，一个反向输入序列，预测词在上下文中的语义。比如输入“车站”后BiLSTM会预测下一个词是“应”的概率，然后输入“车站应”预测下一个词“设置”出现的概率，这是正向输入。当反向输入序列时，预测“设置”一词前可能出现“应”的概率，再将两者的输出结合起来作为最终的结果输入到下一层。

步骤11.3.3，将步骤4.3.2得到的特征矩阵作为CRF的输入，CRF通过添加特征函数和BiLSTM得到的特征矩阵进行序列标注，生成实体识别模型，过程如下表所示，该模型能够识别轨道交通规范的实体。

Claims

1.一种基于半监督和聚类的轨道交通规范命名实体识别方法，其特征在于，通过专家构建轨道交通领域本体库，人工标注部分数据；首先采用word2vec和BiLSTM-CRF预训练模型分别对带标签实体进行向量化表示；其次利用层次聚类方法对实体词向量进行聚类，与专家定义的实体类别校对，最终确定的实体类别；对训练数据重新进行数据预处理和数据预训练，将生成的词向量输入到BiLSTM-CRF算法训练命名实体识别模型，使用Softmax函数对提取的实体特征迭代训练优化实体识别模型；设置深度学习模型作为服务端测试实体识别模型效果，将测试数据集输入模型可输出测试数据的实体类别，并根据评价指标判断其效果的好坏；

具体包括以下步骤：

步骤1：获取轨道交通规范语料；

步骤2：对获取的轨道交通规范语料进行数据清洗，删除规范语料中多余信息，包括多余的符号，对规范语料进行规范化处理；

步骤3：构建轨道交通领域本体库，然后预定义实体类别；

步骤5.1我们通过标注工具标注的数据生成json文件，从json文件中提取出标注的实体类型和实体的起始位置和结束位置信息；

步骤5.2将采用BIO标注策略与位置信息相结合的方式对原始规范文本进行序列标注，其中B(Begin)、(IIntermediate)、O(Other)的缩写，其Begin指所识别对象开始位置上的字符，Intermediate指所识别对象最中间的字符，Other指所识别对象中的非实体字符；

步骤5.3序列标注后将其处理为深度学习模型规定的数据格式，数据文件中每个字符占一行，共包含实体和实体标签两列信息，生成轨道交通数据集；

步骤9：根据步骤5中确定的实体类别，对本组构建的轨道交通数据集进行修正，得到新的轨道交通实体数据集，目的减少细粒度实3体分类数量，适用于少样本学习；

步骤10：将步骤9中新的实体数据集划分为三个数据集文件，分别为训练集，测试集和验证集，占比为8:1:1；

步骤11：将实体训练集输入到BERT模型中进行预训练，生成文本特征向量；将文本特征向量输入到BiLSTM-CRF模型中，生成实体识别模型；

2.根据权利要求1所述的基于半监督和聚类的轨道交通规范的实体识别方法，其特征在于，所述步骤7中，对人工标注数据进行层次聚类，为预定义其实体类别作为参考条件。

3.根据权利要求1所述的基于半监督和聚类的轨道交通规范的实体识别方法，其特征在于，所述步骤8的具体过程如下：

步骤8.4：对比word2vec和BERT生成的词向量聚类结果的差别，最终确定轨道交通领域本体库的实体类别。

4.根据权利要求1所述的基于半监督和聚类的轨道交通规范的实体识别方法，其特征在于，所述步骤9的具体过程如下：

步骤9.1：遵照步骤5中确定的实体类别，定义标签类型；

5.根据权利要求1所述的基于半监督和聚类的轨道交通规范的实体识别方法，其特征在于，所述步骤11的具体过程如下：

6.根据权利要求1所述的基于深度学习的轨道交通规范关系抽取方法，其特征在于，所述实体识别模型采用Softmax作为损失函数，Softmax用于预测出实体属于每一类别的概率并且能够给其标记上概率较大的标签。