CN111597420A

CN111597420A - 基于深度学习的轨道交通规范关系抽取方法

Info

Publication number: CN111597420A
Application number: CN202010355573.1A
Authority: CN
Inventors: 黑新宏; 董林靖; 朱磊; 赵钦; 王一川; 姚燕妮; 焦瑞; 方潇颖; 彭伟
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2020-08-28
Anticipated expiration: 2040-04-29
Also published as: CN111597420B

Abstract

本发明基于深度学习的轨道交通规范关系抽取方法，包括获取带有人工标注的有标签数据，对标签数据进行规范向量表示，将向量化数据输入到GRU模型中进行实体和实体间关系特征提取，对提取的实体和实体间关系进行训练，生成实体识别模型和实体间关系抽取模型，使用Softmax和Cross‑Entropy函数结合的方式对提取的实体间关系特征进行关系分类，评估关系分类结果，根据未分类成功的实体间关系优化实体间关系抽取模型，将待检测轨道交通规范语料输入实体间关系抽取模型中，即输出待检测轨道交通规范语料中的实体间关系。采用本方法能够抽取中文轨道交通设计规范中实体间关系，从而提高建筑领域从业人员对轨道交通规范的查询速率。

Description

基于深度学习的轨道交通规范关系抽取方法

技术领域

本发明属于人工智能自然语言处理技术领域，涉及一种基于深度学习的轨道交通规范关系抽取方法。

背景技术

伴随着我国社会生产力的发展、科学技术的进步以及产业结构的调整，城镇化进程不断推进，城市的基础设施尤其是城市轨道交通设施与城镇化发展密切相关。建设城市轨道交通系统将成为我国城镇化过程中城市公共交通的发展方向，是符合城镇化发展需要的。城市轨道交通工程设计规范是国内第一部关于轨道交通工程设计的地方标准，该规范注重“人文、绿色、科技”三大理念，落实“安全型、服务型、环境友好型、节能型、快捷高效型、网络化、国产化、标准化”等八项要求，较全面的对城市轨道交通建设提供了标准要求。在轨道建设过程中，为了保证施工符合要求，需要建筑者不断查阅相应轨道交通规范，但是，轨道交通设计涉及了近百本标准设计规范，并且规范的种类繁多且内容信息量巨大，同一标准可能在不同的规范中出现，也可能不同的规范中要求存在异同，人工翻阅效率较低。

近几年，人工智能的发展成为了行业重要的发展方向，其中自然语言处理作为该领域的重要研究方向，其研究成果已经应用于医疗、法律、金融等行业中，大大提高了领域智能化水平。但是，轨道交通领域中也存在大量的文本信息，针对此领域的相关研究少之又少。在现有的自然语言处理研究领域，现存涉及到轨道交通规范信息提取的相关方法主要是针对英文的轨道交通法规，而对中文轨道交通设计规范的研究处于起步阶段。因此，人们急需要找到一种能够对中文轨道交通设计规范进行信息化处理的方法，构建轨道交通领域知识图谱，实现利用计算机去思考语义并且推理预测，提升轨道交通设计阶段的信息化水平，提高设计阶段的生产效率。

发明内容

本发明的目的是提供一种基于深度学习的轨道交通规范关系抽取方法，能够抽取中文轨道交通设计规范中实体间关系，提高建筑领域从业人员的对轨道交通规范的查询速率。

本发明所采用的技术方案是，基于深度学习的轨道交通规范关系抽取方法，包括获取带有人工标注的有标签数据，对标签数据进行规范向量表示，将向量化数据输入到GRU模型中进行实体和实体间关系特征提取，对提取的实体和实体间关系进行训练，生成实体识别模型和实体间关系抽取模型，使用Softmax和Cross-Entropy函数结合的方式对提取的实体间关系特征进行关系分类，评估关系分类结果，根据未分类成功的实体间关系优化实体间关系抽取模型，将待检测轨道交通规范语料输入实体间关系抽取模型中，即输出待检测轨道交通规范语料中的实体间关系。

本发明的技术特征还在于，

有标签数据为标注有实体与实体间关系的轨道交通规范语料。

基于深度学习的轨道交通规范关系抽取方法，具体包括以下步骤：

步骤1：采用网络爬虫技术获取轨道交通规范语料，删除规范语料中多余信息，对规范语料进行规范化处理；

步骤2：从规范化处理后的规范语料中选出多个随机样本，标注每个随机样本中实体与实体间关系；

步骤3：对标注过实体的规范语料进行预处理，生成实体训练集；对标注的实体进行聚类处理，定义实体类型，生成实体词典；

步骤4：将实体训练集输入到Bert模型中进行预训练，生成文本特征向量，将文本特征向量输入到Bi-LSTM+CRF模型中，生成实体识别模型；

步骤5：对标注过实体间关系的规范语料进行预处理，生成实体间关系抽取训练集；对标记过的实体间关系进行聚类处理，生成关系词典；

步骤6：将实体间关系抽取训练集输入到Bert+GRU+CRF模型中进行训练，生成实体间关系抽取模型；

步骤7：将步骤1获取的所有轨道交通规范语料输入到GRU神经网络模型中，对轨道交通规范语料进行实体标记，两两组成实体对，对实体对进行关系抽取，得到原始轨道交通规范语料中的实体和实体间关系；

步骤8：对未分类成功的实体和未抽取成功的实体间关系进行判断，更新实体词典、关系词典和实体间关系抽取模型；

步骤9：将待测试轨道交通规范语料输入到更新后的实体间关系抽取模型中，即输出待测试轨道交通规范中实体间关系。

步骤2中，人工标注每个随机样本中实体与实体间关系。

步骤3中，人为定义实体类型，生成实体词典。

步骤4的具体过程如下：

步骤4.1：将实体训练集输入到Bert模型中，Bert模型按行读取实体训练集，并输出每个字符串的字向量；

步骤4.2：Bert模型将实体训练集中每一个字转化为一维向量，得到一个句子的段向量位置向量，再将段向量位置向量作为深度学习模型的输入，最后输出融合全文语义信息的文本特征向量；

步骤4.3：将文本特征向量输入到Bi-LSTM+CRF模型中，生成实体识别模型。

步骤6的具体过程如下：

步骤6.1：将实体间关系抽取训练集输入到Bert模型进行预训练，生成训练集向量；

步骤6.2：将训练集向量输入到GRU模型中进行神经网络训练，生成特征矩阵；

步骤6.3：将特征矩阵输入到CRF模型中，CRF模型通过识别标签之间的相邻关系得到概率最大的标签序列，生成实体间关系抽取模型。

步骤6.2中，将向量化表示的实体和训练集向量一并输入到GRU模型中进行神经网络训练，生成特征矩阵；向量化表示的实体为向量化表示的步骤1中轨道交通规范语料中实体，步骤1中轨道交通规范语料中实体通过实体识别模型获得。

实体间关系抽取模型采用交叉熵Cross-Entropy函数作为Softmax层的损失函数，Softmax用于预测出实体属于每一类别的概率，Cross-Entropy函数能预测出实体间关系的最大概率类别。

步骤8中，更新实体词典，包括在实体词典中增加或修改实体类别；更新关系词典，包括在关系词典中增加或修改实体间关系的类别；更新实体间关系抽取模型，即增加或修改实体间关系抽取模型中的实体间关系类别。

本发明的有益效果是，对标签数据进行规范向量表示，将向量化数据输入到GRU模型中进行实体和实体间关系特征提取，利用Bi-LSTM+CRF对提取的实体和实体间关系进行训练，生成实体识别模型和实体间关系抽取模型，使用Softmax和Cross-Entropy函数结合的方式对提取的实体间关系特征进行关系分类，评估关系分类结果，根据未分类成功的实体间关系优化实体间关系抽取模型，提高了实体间关系抽取模型识别的准确率，将待检测轨道交通规范语料输入实体间关系抽取模型中，即输出待检测轨道交通规范语料中的实体间关系。采用本发明基于深度学习的轨道交通规范关系抽取方法能够从轨道交通规范语料中快速抽取出实体间关系，将该轨道交通规范关系抽取方法应用于轨道交通领域中的自动问答统、语义网标注、知识系图谱构建等方面，能提高轨道交通规范中实体关系抽取速度和准确率，从而缩短自动问答统和语义网标注对轨道交通规范的处理时间，提高建筑领域从业人员对轨道交通规范的查询速率，提高了用户体验度。

附图说明

图1是本发明基于深度学习的轨道交通规范关系抽取方法的总框架图；

图2是本发明基于深度学习的轨道交通规范关系抽取方法的总流程图；

图3是本发明中Bert模型预训练的流程示意图；

图4是本发明中Bi-LSTM+CRF模型进行实体识别的流程示意图；

图5是本发明中GRU+CRF模型进行实体关系抽取的流程示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种基于深度学习的轨道交通规范关系抽取方法，参照图1，包括获取带有人工标注的有标签数据，采用Bert预训练对标签数据进行规范向量表示，将向量化数据输入到GRU模型中进行实体和实体间关系特征提取，采用CRF模型对提取的实体和实体间关系进行训练，生成实体识别模型和实体间关系抽取模型，使用Softmax和Cross-Entropy函数结合的方式对提取的实体间关系特征进行关系分类，评估关系分类结果，根据未分类成功的实体间关系优化实体间关系抽取模型，将待检测轨道交通规范语料输入实体间关系抽取模型中，即可输出待检测轨道交通规范语料中的实体间关系。

命名实体识别和关系抽取是自然语言处理的重要子任务，直接影响自然语言处理后续工作的性能。其主要的目的是从非结构化文本中识别实体并抽取实体间的语义关系。将关系抽取技术应用到轨道交通领域，对此领域的非结构化知识进行结构化处理与存储，通过对非结构化数据信息的抽取，可以自动分析提取有用信息，从而提高搜索引擎的速度与智能问答系统的准确性，即提高建筑领域从业人员的对轨道交通规范的查询速率，极大地简化了工作的复杂程度，提高了轨道交通领域智能化水平。

本发明一种基于深度学习的轨道交通规范关系抽取方法，参照图2，具体包括以下步骤：

步骤1：采用网络爬虫技术从官方网站建标库爬取轨道交通规范语料，对获取的道交通规范语料进行数据清洗，删除规范语料中多余信息，包括多余的符号，对规范语料进行规范化处理；

步骤2：从规范化处理后的规范语料中选出多个随机样本，人工标注每个随机样本中实体与实体间关系；

步骤3：对标注过实体的规范语料进行预处理，生成实体训练集；对标注的实体进行聚类处理，人为定义实体类型，生成实体词典；

步骤4：构建实体识别模型

步骤4.1：将实体训练集输入到Bert模型中进行预训练，Bert模型按行读取实体训练集，输出每个字符串的字向量；

步骤5：对标注过实体间关系的规范语料进行预处理，生成实体间关系抽取训练集；对标注的实体间关系进行聚类处理，人为定义实体间关系类型，生成关系词典；

步骤6：构建实体间关系抽取模型

步骤6.1：将实体间关系抽取训练集输入到Bert预训练模型中进行预训练，生成训练集向量；

步骤6.2：将步骤1获取的所有轨道交通规范语料(即轨道交通规范数据集)输入到实体识别模型中，对轨道交通规范进行实体识别，生成轨道交通规范的实体库(即实体集合)，对实体库中实体进行向量化表示；

步骤6.3：将向量化表示的实体和训练集向量输入到GRU模型中进行神经网络训练，生成特征矩阵；

步骤6.4：将特征矩阵输入到CRF模型中，CRF模型通过识别实体之间的相邻关系得到概率最大的实体序列，生成实体间关系抽取模型；

步骤6.5：使用交叉熵Cross-Entropy函数优化实体间关系抽取模型，包括将概率最大的实体序列输入到softmax层进行分类，softmax能够预测出实体属于每一类别的概率，Cross-Entropy函数能使实体间关系抽取模型输出实体间关系的最大概率类别，输出结果形式设置为三元组形式：<实体1,关系，实体2>；交叉熵Cross-Entropy函数计算公式如下：

上式中，i为样本的下标，y⁽ⁱ⁾是样本i的真实样本标签，

是预测输出即softmax函数的输出表征了当前样本标签为1的概率；

是预测输出即softmax函数的输出表征了当前样本标签为0的概率；将softmax得到的结果输入到L中，交叉熵损失函数越小越好，表明预测输出与真实样本标签之间的偏差越小，预测结果越准确。

步骤7：将步骤1获取的所有轨道交通规范语料输入到训练好的GRU神经网络模型中进行实验，对轨道交通规范语料进行实体标记，并两两组合形成实体对，对实体对进行关系抽取，得到原始轨道交通规范语料中的实体和实体间关系，以三元组形式<实体1，关系，实体2>输出结果；

步骤8：对未分类成功的实体和未抽取成功的实体间关系进行判断，更新实体词典、关系词典和实体间关系抽取模型；更新实体词典，包括在实体词典中增加或修改实体类别；更新关系词典，包括在关系词典中增加或修改实体间关系的类别；更新实体间关系抽取模型，即增加或修改实体间关系抽取模型中的实体间关系类别。

步骤9：将待测试轨道交通规范语料输入到更新后的实体间关系抽取模型中，即输出待测试轨道交通规范中的实体间关系。

实施例

一种基于深度学习的轨道交通规范关系抽取方法，包括以下步骤：

步骤1，采用网络爬虫技术从官方网站建标库爬取《地铁设计规范[附条文说明]GB50157-2013》这本规范，并存储于文档中；对获取的规范语料进行数据清洗工作，删除其中不需要的信息以及多余的符号，对规范语料规范化处理，便于后期工作开展；

步骤2，从轨道交通设计规范语料选出部分随机样本进行人工标注，根据条目信息标注每一条规范中的实体以及实体间关系；

例如，《地铁设计规范[附条文说明]GB 50157-2013》第9.1.6条规范，人工标注格式为：

Source:9.1.6车站应设置无障碍设施。

TotalSentence:9.1.6<e1>车站<e1>应设置<e2>无障碍设施<e2>。

TotalSentence实体:e1:ec1,e2:ec6

TotalSentence关系:<e1,rc4,e2>

例如，《地铁设计规范[附条文说明]GB 50157-2013》第9.7.13条规范，人工标注格式为：

Source:9.7.13站台门应设置安全标志和使用标志。

TotalSentence:9.7.13<e1>站台门<e1>应设置<e2>安全标志<e2>和<e3>使用标志<e3>。

TotalSentence实体:e1:ec5,e2:ec5,e3:ec5,

TotalSentence关系:<e1,rc4,e2>,<e1,rc4,e3>,

例如，《地铁设计规范[附条文说明]GB 50157-2013》第14.1.6条规范，人工标注格式为：

Source:14.1.6给水与排水系统宜按自动化管理设计。

TotalSentence:14.1.6<e1>给水与排水系统<e1>宜按<e2>自动化管理<e2>设计。

TotalSentence实体:e1:ec6,e2:ec10

TotalSentence关系:<e1,rc5,e2>

其中，Source为规范原文本，TotalSentence为整条规范标注。

TotalSentence实体为本条规范体梳理，TotalSentence关系为本条规范关系梳理。

步骤3，将步骤2中已标注实体的语料通过预处理，生成实体训练集；对实体进行聚类操作，人为定义实体类型，生成实体词典，如表1所示。

表1 实体类型

步骤4，构建实体识别模型，具体步骤如下：

步骤4.1：参照图3，将步骤3中得到的实体训练集输入到Bert模型进行预训练，以标签为分隔符，按行读取，将Bert模型作为深度学习模型的embeddings层，预训练的输入嵌入，输出每个字符串的字向量；

步骤4.2，Bert模型通过查询字向量表将实体训练集中的每一个字转化为一维向量，得到一个句子的段向量位置向量，再将段向量位置向量作为深度学习模型的输入，Bert模型最后输出字符串融合全文语义信息后的文本特征向量。过程如下表所示：

步骤4.3，参照图4，将带有语义信息的文本特征向量作为Bi-LSTM+CRF模型的输入，进行实体识别模型训练，对轨道交通规范语料进行实体标记，具体步骤如下：

步骤4.3.1，以地铁设计规范“9.1.6车站应设置无障碍设施”为例，将Bert模型输出的训练集向量化表示，将“车站应设置无障碍设施”中的每一个词都训练得到一个768维向量，得到每个词的初始化向量，然后将结果作为深度学习模型的输入。

步骤4.3.2，使用深度学习中的Bi-LSTM+CRF算法，双向LSTM同时考虑了过去的特征和未来的特征，一个正向输入序列，一个反向输入序列，预测词在上下文中的语义。比如输入“车站”后Bi-LSTM会预测下一个词是“应”的概率，然后输入“车站应”预测下一个词“设置”出现的概率，这是正向输入。当反向输入序列时，预测“设置”一词前可能出现“应”的概率，再将两者的输出结合起来作为最终的结果输入到下一层。

步骤4.3.3，将步骤4.3.2得到的特征矩阵作为CRF的输入，CRF通过添加特征函数和Bi-LSTM得到的特征矩阵进行序列标注，生成实体识别模型，过程如下表所示，该模型能够识别轨道交通规范的实体。

步骤5，将标注实体间关系的语料通过预处理，生成实体间关系抽取训练集，对标注的实体间关系进行聚类处理，人为定义实体间关系类型，生成关系词典，如表2所示：

表2 实体间关系类型

序号	关系类型	序号	实体类型
				rc1	1.集合(X,Y)	rc8	8.具有(X,Y)
rc2	2.修饰限定(X,Y)	rc9	9.数值限定(X,Y)
				rc3	3.领属(X,Y)	rc10	10.位置(X,Y)
rc4	4.设置(X,Y)	rc11	11.实体-起源(X,Y)
				rc5	5.满足(X,Y)	rc12	12.实体-目的地(X,Y)
rc6	6.为(X,Y)	rc13	13.实体条件(X,Y)
				rc7	7.利用(X,Y)

步骤6：构建实体间关系抽取模型

步骤6.3：参照图5，将向量化表示的实体和训练集向量输入到GRU模型中进行神经网络训练，生成特征矩阵；

具体步骤如下：

以地铁设计规范“9.1.6车站应设置无障碍设施”为例，人工标记后为“9.1.6<e1>车站<e1>应设置<e2>无障碍设施<e2>”。

将规范9.1.6输入到Bert模型进行预训练，生成训练集向量；

将生成的训练集中规范9.1.6的向量输入到GRU神经网络训练，GRU对预训练后的文本语料进行特征提取，通过前向传播得到正向隐状态，反向传播得到反向隐状态，各个位置输出的隐状态按位置拼接得到完整的隐状态，从而自动提取句子特征。模型学习“车站/应/设置/无障碍设施/”句中标注的实体间关系<e1，rc4，e2>，将提取的特征生成句子的特征矩阵。

GRU网络模型的状态和输出的公式如下：

Z_t＝σ(W_z·[h_t-1，x_t]) (1)

r_t＝σ(W_r·[h_t-1，x_t]) (2)

上式中，z_t是更新门，r_t是重置门，W是两个门的权重系数，x_t是当前时刻的输入，h_t-1是前一时刻的隐藏层状态，h_t是当前时刻的隐藏层状态。在GRU模型中，我们先决定从细胞中丢弃什么信息，这个操作由更新门层z_t完成，；如公式(1)所示，该层读取当前输入x和前神经元信息h_t-1，由z_t决定丢弃的信息；输出结果为1表示“完全保留”，0表示“完全舍弃”。如公式(2)，r_t决定将要更新的值；tanh层来创建一个新的候选值向量

加入到状态中，在语言模型的例子中，我们希望增加新的信息到细胞状态中，来替代旧的需要忘记的信息。最后，我们更新旧细胞的状态，将h_t-1更新为h_t，经过多次训练不断丢弃更新信息生成特征矩阵。

将生成的特征矩阵输入到CRF中，CRF层能通过考虑标签之间的相邻关系得到概率最大的标签序列，使规范原句能保持初始序列“车站/应/设置/无障碍设施/”。

生成关系抽取模型，该模型可以对轨道交通规范关系进行提取，将测试集语料直接输入到此模型，输出关系抽取结果。过程如下表所示：

将向量化表示的所有轨道交通规范语料中实体输入到GRU+CRF模型中进行学习，辅助实体间关系抽取模型的构建，增强模型识别的准确度，加强模型的可靠性，使实体关系抽取结果较准确。

步骤6.5，模型使用交叉熵Cross-Entropy函数作为Softmax层的损失函数，提高实体间关系多分类的效率。

将CRF生成的带有序列特征的向量输入到softmax层进行分类。softmax能够预测出实体属于每一类别的概率，用Cross-Entropy函数使模型输出预测出的最大概率类别，输出结果形式设置为三元组形式：<实体1,关系。实体2>。

步骤7，将步骤1获取的所有轨道交通规范语料输入到训练好的GRU神经网络模型中进行实验，对原始文本实体标记并两两组合形成实体对，然后进行关系抽取，输出实体与实体间关系。

在例句中“车站”实体与“无障碍设施”实体之间的关系为“设置关系”，在代码中统一模型输出结果格式为：<e1,rc4,e2>。

步骤8，将未分类成功的实体和实体关系进行人为干预，对结果进行校对或者增加实体关系类别，更新实体词典、关系词典和实体间关系抽取模型，更新实体词典，包括在实体词典中增加或修改实体类别；更新关系词典，包括在关系词典中增加或修改实体间关系的类别；更新实体间关系抽取模型，即将更新的关系词典输入实体间关系抽取模型中，使模型学习新的特征，增加或修改实体间关系抽取模型中的实体间关系类别，提高模型识别实体间关系的准确率。

Claims

1.基于深度学习的轨道交通规范关系抽取方法，其特征在于，包括获取带有人工标注的有标签数据，对标签数据进行规范向量表示，将向量化数据输入到GRU模型中进行实体和实体间关系特征提取，对提取的实体和实体间关系进行训练，生成实体识别模型和实体间关系抽取模型，使用Softmax和Cross-Entropy函数结合的方式对提取的实体间关系特征进行关系分类，评估关系分类结果，根据未分类成功的实体间关系更新实体间关系抽取模型，将待检测轨道交通规范语料输入实体间关系抽取模型中，即输出待检测轨道交通规范语料中的实体间关系。

2.根据权利要求1所述的基于深度学习的轨道交通规范关系抽取方法，其特征在于，所述有标签数据为标注有实体与实体间关系的轨道交通规范语料。

3.根据权利要求1所述的基于深度学习的轨道交通规范关系抽取方法，其特征在于，具体包括以下步骤：

4.根据权利要求3所述的基于深度学习的轨道交通规范关系抽取方法，其特征在于，所述步骤2中，人工标注每个随机样本中实体与实体间关系。

5.根据权利要求3所述的基于深度学习的轨道交通规范关系抽取方法，其特征在于，所述步骤3中，人为定义实体类型，生成实体词典。

6.根据权利要求3所述的基于深度学习的轨道交通规范关系抽取方法，其特征在于，所述步骤4的具体过程如下：

7.根据权利要求3所述的基于深度学习的轨道交通规范关系抽取方法，其特征在于，所述步骤6的具体过程如下：

8.根据权利要求7所述的基于深度学习的轨道交通规范关系抽取方法，其特征在于，所述步骤6.2中，将向量化表示的实体和训练集向量一并输入到GRU模型中进行神经网络训练，生成特征矩阵；向量化表示的实体为向量化表示的步骤1中轨道交通规范语料中实体，步骤1中轨道交通规范语料中实体通过实体识别模型获得。

9.根据权利要求8所述的基于深度学习的轨道交通规范关系抽取方法，其特征在于，所述实体间关系抽取模型采用交叉熵Cross-Entropy函数作为Softmax层的损失函数，Softmax用于预测出实体属于每一类别的概率，Cross-Entropy函数能预测出实体间关系的最大概率类别。

10.根据权利要求3所述的基于深度学习的轨道交通规范关系抽取方法，其特征在于，所述步骤8中，更新实体词典，包括在实体词典中增加或修改实体类别；更新关系词典，包括在关系词典中增加或修改实体间关系的类别；更新实体间关系抽取模型，即增加或修改实体间关系抽取模型中的实体间关系类别。