CN116432645A

CN116432645A - 一种基于预训练模型的交通事故命名实体识别方法

Info

Publication number: CN116432645A
Application number: CN202310059343.4A
Authority: CN
Inventors: 陈娇娜; 张静; 王鹏; 陶伟俊
Original assignee: Xian Shiyou University
Current assignee: Xian Shiyou University
Priority date: 2023-01-17
Filing date: 2023-01-17
Publication date: 2023-07-14

Abstract

本发明涉及命名实体识别方法，公开了一种基于预训练模型的交通事故命名实体识别方法，首先运用BIO标记法对文本数据集进行标注，定义实体类别标签，其次采用RoBERTa预训练语言模型对文本数据进行训练，完成文本序列的向量化表达，然后将训练得到的向量表示作为深度学习模型BiLSTM层的输入，BiLSTM层会自动学习上下文的依赖关系，将正向输出和反向输出的向量进行拼接，再进行输出，最后将输出后的序列送入CRF层，得到具有最大概率的合理预测序列，实现交通事故的命名实体识别。

Description

一种基于预训练模型的交通事故命名实体识别方法

技术领域

本发明涉及命名实体识别方法，更具体地说是涉及一种面向交通事故领域的命名实体识别，特别是一种基于预训练模型的交通事故命名实体识别方法。

背景技术

随着人们生活水平提高，出行逐渐的有了多样化的交通工具，交通事故的发生也屡见不鲜，人民的生命安全以及财产安全遭受了严重威胁。所以，交通安全也逐渐地引起了大众的广泛关注。根据目前已经存在的数据以及信息，分析出交通事故发生的规律、原因等，对于有效的降低交通事故发生率、保护人民的生命财产安全有非常大的帮助。在信息化发展的大数据时代，互联网中也存在了大量的交通事故领域的非结构化文本数据，对于后期数据的处理以及分析造成了很大的困难，所以将非结构化的数据转化为结构化数据，使机器能够有效识别，并且提取出对后期数据分析有用的关键信息，可以降低交通事故的发生率，提升紧急救援的效率，受伤人员得到及时的治疗，优化应急处置流程，制定更加详细的应急预案，提高应急效率。

命名实体识别方法刚开始是被应用在英文领域，中文领域的命名实体识别方法研究起步较晚。中文的命名实体识别与英文的命名实体识别相比，具有更大的挑战性，需要解决的难题更多。英文实体单词之间就是空格，实体中的每个词的第一个字母是大写，具有明显的形式标志，所以对实体边界的识别相对容易。中文命名实体识别所面临的难点主要有：

1.中文文本没有类似英文文本中空格之类的显式标示词的边界标示符，命名实体识别的第一步就是确定词的边界，即中文分词。

2.不同的命名实体具有不同的内部特征，不能用统一的模型刻画所有的实体内部特征。

中文命名实体识别目前研究更多的领域是航空安全、金融、煤矿事故安全、网络安全等领域，在交通领域的研究较少，且每个领域的数据集由于专业领域都有自己独特的特点，对于之前所使用的方法以及模型不一定适用于交通事故领域。现有的命名实体识别方法主要是基于传统的规则与词典方法、基于深度学习方法，基于传统的规则与词典方法，虽然在特定的领域也达到了比较好的效果，但是此种方法也存在一定的缺陷，例如：

(1)需要人工设计规则模板和知识词典库，比较繁琐。

(2)耗时比较久，耗费人力比较大。

(3)泛化能力比较差，维护比较困难。

发明内容

针对现有技术存在的上述不足，本发明的目的在于提供一种基于预训练模型的交通事故命名实体识别方法。

为实现以上目的，本发明采用如下技术方案：

一种基于预训练模型的交通事故命名实体识别方法，包括以下步骤：

步骤1.选取交通事故文本数据作为数据集，并对数据集进行初步的预处理；

步骤2.针对经过步骤1预处理的数据集，采用BIO标记法对数据集进行标注，定义实体类别标签，构建交通事故实体词典,得到标注后的数据；

步骤3.构建预训练语言模型，针对经过步骤2标注后的数据集对预训练模型进行微调，完成对标注后文本序列的数据集的向量化表达。

步骤4.构建BiLSTM神经网络模型，将预训练语言模型输出后生成的交通事故文本词向量输入到BiLSTM模型，进行特征提取；

步骤5.对特征提取的结果进行优化，运用CRF也即条件随机场对基于BiLSTM输出的序列进行编码和制约，得到具有最大概率的合理预测。

进一步地，所述步骤1中，采用爬虫技术来获取交通事故文本数据。

进一步地，所述步骤1对数据集进行初步的预处理，具体包括以下过程：清洗掉无效数据得到所需要的文本数据集，然后将获得的文本数据以7：2：1的比例分成三份，将其中的70％的数据作为训练数据集，20％的数据作为验证数据集，10％的数据作为测试数据集。

进一步地，所述步骤2中，定义城市、高速公路、收费站等实体类别标签。

进一步地，所述步骤3中，采用RoBERTa预训练语言模型完成交通事故文本序列的向量化表达。

进一步地，所述步骤5具体包括以下过程：

CRF是将BiLSTM层训练后的特征向量作为输入，它的作用是对于一个文本向量给定的输入序列为X(x₁，x₂....x_n)，经过CRF条件随机场预测得到输出标签序列为Y(y₁，y₂......y_n)，得到的预测分数计算公式：

其中W表示状态转移矩阵，

表示标签的状态转移分数，/>

为对应位置i+1的输入输出序列的分数值，则输出y的概率公式为：

在上式中，Y_x为所有可能的标签序列集合，最终的模型目标是使P(y|X)最大化，通过最大似然估计法得到P(y|X)的最大值，在训练时，根据公式最大化得分结果为：

与现有技术相比，本发明具有以下有益效果：

本发明方法从获取的交通事故非结构化文本数据中提取到了目前交通事故领域还没有提取的关于处置信息的实体，采用RoBERTa预训练语言模型进行词向量生成，相比较目前已经使用在交通事故领域的BERT预训练语言模型，它可以使用更大规模的语料库进行预训练，使其在后续的命名实体识别任务中提供更强的基准。建立基于RoBERTa预训练语言模型的BiLSTM-CRF深度学习模型，深度学习BiLSTM模型能够自动学习双向上下文的语义信息，能够在提取特征时有效的依赖上下文关系，将正向输出和反向输出的向量进行拼接，再进行输出，最后将输出后的序列送入CRF层，CRF层对基于BiLSTM输出的序列标注进行编码和制约，得到具有最大概率的合理预测，实现交通事故命名实体识别模型指标的提升。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明方法流程示意图；

图2为BERT模型的结构示意图；

图3为交通事故文本数据输入BERT模型，可以生成融合字向量、句向量以及位置向量的特征向量组合示意图；

图4为BiLSTM的网络模型结构图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

如图1所示，一种基于预训练模型的交通事故命名实体识别方法，包括以下步骤：

步骤1.采用爬虫技术来获取交通事故文本数据，并对采集到的数据集进行初步的预处理；

利用爬虫技术获取大量交通事故文本数据。对于获取的大量文本数据集，进行初步的预处理，清洗掉无效数据得到包含丰富实体的文本数据集，然后将获得的文本数据以7:2:1的比例分成三份，将其中的70％的数据作为训练数据集，20％的数据作为验证数据集，10％的数据作为测试数据集。

训练集(Training Set)：用来训练模型，通过训练集的数据确定过拟合曲线的参数。

验证集(Validation Set)：用来做模型选择，即做模型的最终优化及确定，用来辅助模型的构建。

测试集(Test Set)：评价最终筛选出来的模型的泛化能力。

步骤2.针对获取的交通事故事件数据集，采用BIO标记法对数据集进行标注，根据交通事故文本中包含的事故城市、高速公路、收费站等实体类别，构建交通事故实体词典；

BIO标记法的方法是，B(Begin)表示命名实体在文中的起始字符，I(Internal)表示命名实体的中间字符，O(Other)表示非命名实体字符。

步骤3.构建预训练语言模型，将通过BIO标记法得到的文本标注序列输入到预训练语言模型，完成文本序列的向量化表达。

在基于深度学习的命名实体识别任务中，需要将文本数据抽象表示为词向量，才能被计算机识别、读取，因此，对经过标记的交通事故的文本序列，要对其进行词向量化表达，转化为词嵌入模型，才能作为深度神经网络的输入。

文本序列向量化表达就是将获取的文本数据从自然语言文本转换到机器语言，也就是将非结构化的文本数据进行结构化表达，使机器能够有效识别，进而达到目的，它的核心是将非结构化的文本数据映射到向量空间中，转化为词嵌入模型，符合深度学习模型的输入预料标准。传统的词向量表达是基于静态的词向量表达，但是该模型对于上下文语义信息，没有更好的考虑上下文的语义信息，解决一词多义的问题，之后，预训练语言模型就开始逐步被应用到命名实体识别领域，预训练语言模型是一种深层的网络架构，采用“预训练+微调”的两段式主流模式，采用网络上已经训练好的预训练语言模型，输入已经获取的交通事故文本数据，然后根据数据对下载的网络模型进行微调，使得该模型更好的在命名实体识别发挥作用。目前，在文本挖掘领域有代表性的是BERT预训练语言模型及其扩展模型。

BERT模型使用双向的深层Transformer编码结构，利用大规模的语料数据进行自我监督学习的训练，使得模型能够获取输入文本数据中的语义信息，该模型的具体结构如图2。BERT预训练语言模型中首先会对在文本的开头和句子之间分别插入[CLS]和[SEP],其次，该模型将字向量、句子向量和位置向量进行叠加作为输入，其中字向量是输入序列中每个字符本身的子字向量，句子向量在模型训练过程中自动学习，可以用来刻画文本的全局信息，并且它与单字的语义信息相融合帮助很好的结合上下文信息，由于文本不同位置所携带的语义信息存在差异，结合位置向量可以很好的区分，针对交通事故文本数据的输入，可以生成融合字向量、句向量以及位置向量的特征向量组合例子如图3所示。

BERT预训练任务有两个：第一个是掩码语言模型，第二个是预测任务。掩码语言模型就相当于在空格里填入缺少的词，在将文本序列输入BERT模型之前，随机选择部分的词进行掩码操作，用[MASK]掩码字符替换选择的部分词，然后模型根据其他没有被掩盖的词来预测被掩盖的词。在替换的时候，并不是每次都用掩码标记来替换选中的掩码词，这样可能会导致模型将掩码序列作为被替换的词，一般情况下，替换策略为在文本数据中随机抽取15％的掩码词后，对80％的样本用掩码标记[MASK]替换掩码词，对另外10％的样本不做任何替换，对最后10％的样本从模型词表中随机抽取单词来替换掩码词。第二个预测任务可以构建两个文本之间的关系，判断两个句子之间是否有承接关系，很好的结合上文下文的语义信息，对于后期准确抽取命名实体有很好的帮助。

虽然BERT预训练语言模型在一些领域已经表现出了它的模型优异性能，但是在一些方面还是存在一定的缺陷，比如，参数量是比较大的，研究者逐渐将研究方向转向了BERT的延申模型，XLNet就是它的一种延申模型，是一种基于Transformer-XL的自回归语言模型，它使用双流自注意力机制实现自己的目标，双流自注意力机制就类似于掩码语言模型中的掩码过程，引入Query流对输入文本序列的部分词进行遮盖，不同于BERT模型中显式地对输入序列中的部分词进行随机掩码操作，和BERT相比，只是掩码的实现方式不同。但是在一些方面也做出了提升，使用排列语言模型通过对标记序列的所有排列组合进行建模兼顾上下文信息。使用更大、更高质量的数据进行预训练，有效的减小了后期建模过程中的误差；ALBERT也是BERT预训练语言模型的延申模型的一种。ALBERT也叫A LITE BERT,是一种轻量级的BERT预训练语言模型，也是基于Transformer的双向编码器结构，不仅能够有效的捕捉词级特征，还能有效捕捉到句子级别特征。它的网络结构与BERT的结构相同，但是和BERT模型相比较，ALBERT模型采用了词向量参数因式分解和跨层参数共享两项技术，动态的获取文本词向量，降低了模型的内存消耗，提高了模型的训练速度；RoBERTa也是一种基于BERT提出的预训练语言模型，它取消了BERT模型的第二个预测任务，引入了动态掩码技术，同时，它可以使用更大规模的语料库进行预训练，增加了预训练的步数，放大了预训练的批次，能够充分训练进而提高模型性能，其次预训练数据规模的增大也使其在后续的命名实体识别任务中提供更强的基准。本申请采用RoBERTa预训练语言模型完成交通事故文本序列的向量化表达。

步骤4.构建BiLSTM(双向长短时记忆网络)神经网络模型，将预训练语言模型输出后生成的交通事故文本字向量输入到BiLSTM模型，进行特征提取；

BiLSTM是Bi-directional Long Short-Term Memory的缩写,由前向LSTM(长短时记忆网络)网络和后向LSTM网络组成。LSTM属于一种特殊的循环神经网络，与传统的循环神经网路相比，LSTM增加了门机制和记忆单元，能够很好的的解决在模型使用中的梯度消失和梯度爆炸问题。每一个LSTM单元是由输入门、遗忘门、单元状态、输出门组成。输入门的作用是更新单元状态，遗忘门确定应该丢弃或者保留哪些信息，单元状态充当了传递信息的通道，可以看作网络的记忆单元，输出门能决定下个隐藏状态的值，隐藏状态中包含了先前输入的相关信息。

单向的LSTM对输入序列进行特征提取时，只能结合上文信息，无法有效结合下文信息，而双向LSTM结构的BiLSTM网络模型可以有效的解决这一问题，对输入的文本信息进行前向和后向计算得到不同的结果，再通过向量拼接输出具有上下文特征的字符序列概率。BiLSTM层在得到预训练模型输出的文本词向量之后，将文本词向量作为各个时间的输入，自动提取语义特征，BiLSTM的网络模型结构图4所示。

步骤5.对特征提取的结果进行优化，使用BiLSTM提取的特征结果，有可能会出现输出不合理的现象，运用CRF(条件随机场)对基于BiLSTM输出的序列进行编码和制约，得到具有最大概率的合理预测。

基于BiLSTM模型输出的提取到的交通事故文本特征，虽然BiLSTM模型可以结合上下文信息对交通事故文本进行特征提取)，但是输出的标签序列也有可能是错误的或者是不合理的，CRF层可以在数据集中有效学习标签的依赖关系，对BiLSTM层的输出结果进行修正得到特征提取出来结果的最优标签序列。

CRF也叫条件随机场，是一个序列化标注的算法，对从BiLSTM层输出的标签序列进行约束，可以确保最终预测序列的准确输出。CRF是将BiLSTM层训练后的特征向量作为输入，对于一个文本向量给定的输入序列为X(x₁，x₂....x_n)，经过CRF条件随机场预测得到输出标签序列为Y(y₁，y₂......y_n)，得到的预测分数计算公式：

其中W表示状态转移矩阵，

表示标签的状态转移分数，/>

评价模型的三个指标：准确率、召回率和F1值，都能够体现模型的效率，计算方法如下：

准确率：

召回率：

F1：

其中TP为识别正确的实体数量，FP为识别错误的实体数量，FN表示未能识别出来的实体数量，TP+FP为预测结果中的实体总数，TP+FN为标准结果中的实体总数。

将BERT、RoBERTa、XLNET、ALBERT四种预训练语言模型在交通事故命名实体识别领域的使用进行比较，观测四种预训练语言模型模型的三个指标，得出RoBERTa预训练语言模型比其他三种模型的F1值有显著的提升，且RoBERTa采用更大规模的语料库进行预训练，在后续的命名实体识别任务中可提供更强的基准，所以本发明采用RoBERTa预训练语言模型去训练模型。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于预训练模型的交通事故命名实体识别方法，其特征在于，包括以下步骤：

步骤2.针对经过步骤1预处理的数据集，采用BIO标记法对数据集进行标注，定义实体类别标签，构建交通事故实体词典,得到标注后的数据集；

步骤3.构建预训练语言模型，针对经过步骤2标注后的数据集对预训练模型进行微调，完成对标注后文本序列的数据集的向量化表达；

2.根据权利要求1所述的基于预训练模型的交通事故命名实体识别方法，其特征在于，所述步骤1中，采用爬虫技术来获取交通事故文本数据。

3.根据权利要求1所述的基于预训练模型的交通事故命名实体识别方法，其特征在于，所述步骤1对数据集进行初步的预处理，具体包括以下过程：清洗掉无效数据得到所需要的文本数据集，然后将获得的文本数据以7:2:1的比例分成三份，将其中的70％的数据作为训练数据集，20％的数据作为验证数据集，10％的数据作为测试数据集。

4.根据权利要求1所述的基于预训练模型的交通事故命名实体识别方法，其特征在于，所述步骤2中，定义城市、高速公路、收费站实体类别标签。

5.根据权利要求1所述的基于预训练模型的交通事故命名实体识别方法，其特征在于，所述步骤3中，采用RoBERTa预训练语言模型完成交通事故文本序列的向量化表达。

6.根据权利要求1所述的基于预训练模型的交通事故命名实体识别方法，其特征在于，所述步骤5具体包括以下过程：

CRF是将BiLSTM层训练后的特征向量作为输入，它的作用是对于一个文本向量给定的输入序列为X(x₁，x₂....x_n),经过CRF条件随机场预测得到输出标签序列为Y(y₁，y₂......y_n),得到的预测分数计算公式：

其中W表示状态转移矩阵，Wy_i，y_i+1表示标签的状态转移分数，