CN117521882B

CN117521882B - 基于集成学习模型预测城市轨道交通事故后果的方法

Info

Publication number: CN117521882B
Application number: CN202311449164.8A
Authority: CN
Inventors: 刘杰; 李欣垚; 何明卫; 刘尉艺; 李文新; 税文兵; 谢俊平
Original assignee: Kunming University of Science and Technology; Hubei University of Arts and Science
Current assignee: Kunming University of Science and Technology; Hubei University of Arts and Science
Priority date: 2023-11-02
Filing date: 2023-11-02
Publication date: 2024-05-24
Anticipated expiration: 2043-11-02
Also published as: CN117521882A

Abstract

本发明涉及城市轨道交通技术领域，涉及一种基于集成学习模型预测城市轨道交通事故后果的方法，其建立了基于卷积神经网络CNN和BERT模型的集成学习模型(EMBC)；EMBC中，CNN用于提取数值类数据(如列车行驶速度、列车所在线路等)的有效信息，BERT用于学习事故文本描述中的复杂关系，使用基于自学习参数的Bagging方法聚合BERT和CNN的分类结果，获得最终的城市轨道交通事故后果预测结果。本发明具有更高的预测准确性与更广泛的适用场景。

Description

基于集成学习模型预测城市轨道交通事故后果的方法

技术领域

本发明涉及城市轨道交通技术领域，具体地说，涉及一种基于集成学习模型预测城市轨道交通事故后果的方法。

背景技术

城市轨道交通在缓解城市交通拥堵和促进绿色出行方面发挥着至关重要的作用。城市轨道交通以其安全、高效和环保等特点，迅速成为城市居民的主要出行方式。然而，日常运营中，不可避免的运营事故导致了列车延误或取消，甚至可能造成整个城市轨道交通运行中断，对乘客出行和城市运转产生了严重负面影响。面对这一挑战，深入分析和挖掘历史事故数据，不仅能精准地理解事故产生的机制，还能准确地预测事故产生的后果。然而，历史事故数据中存在大量的异构数据，例如：时间、文本、数值等，增加了数据挖掘和事故结果预测的复杂性。因此，迫切需要开发一种先进的城市轨道交通事故后果预测方法，充分挖掘和利用城市轨道交通历史事故数据中的异构信息以准确预测事故后果。

发明内容

本发明内容提供了一种基于集成学习模型预测城市轨道交通事故后果的方法，其预测准确性和有效性更高。

根据本发明的基于集成学习模型预测城市轨道交通事故后果的方法，其建立了基于卷积神经网络CNN和BERT模型的集成学习模型(EMBC)；EMBC中，CNN用于捕获事故数据中的空间模式，BERT用于学习事故文本描述中的复杂关系；使用Bagging方法聚合BERT和CNN的分类结果，最终获得城市轨道交通事故后果的预测结果。

作为优选，在CNN中，使用具有7个单元的完全连接层，然后使用softmax函数生成事故后果的预测概率；CNN使用二元交叉熵损失函数进行训练，并利用Adam优化算法对其进行优化。

作为优选，在BERT中，在每个Transformer层中，使用自注意力机制来学习不同标记之间的关系；并使用多头注意力机制来使模型能够同时关注不同位置的不同标记子空间中的信息：

MultiHead(Q，K，V)＝Concat(head₁，...，head_n)W^O

head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V)

其中Q，K，V分别表示查询嵌入、键值嵌入和实值嵌入；W_i ^Q，W_i ^K，W_i ^V，W_i ^O是可学习参数矩阵；

BERT的输出来自顶部transformer编码器，[CLS]标记作为放置在文本开头的特殊符号，被用作分类任务的聚合序列用来表示其最终表达，然后将此[CLS]标记传递给分类层；BERT使用softmax层划分城市轨道交通事故的后果类型。

作为优选，EMBC在训练时，输入为三元组D(S，T，L)，其中S是一个n*d的矢量集，n表示事故统计数据的记录总数，d表示事故特征的数量；T表示事故描述字符串集；表示事故后果标签集；

为了更好地表示不同类别的统计数据，本实施例对每个S_i使用了独热编码，并生成一个向量，表示为S_Oi；面对高维度数据，使用主成分分析方法进行降维处理，降维后的维度记为β，并作为模型中的基数超参数；维度缩减后的向量表示为S_ri；因此，该数据处理与降维的过程表示为：

S_ri＝PCA_β(ONEH OT(S_i))

其中ONEHOT函数为独热编码函数，PCA为主成分分析降维函数；S_i∈Rⁿ，S_ri∈{0，1}^β。

作为优选，集成学习Bagging方法选择加权聚合方法，因此，EMBC的输出定义为：

Y＝softmax(η₁*F_CNN(S_r)+η₂*F_BERT(T))

其中F_CNN表示训练后CNN的输出，F_BERT代表训练后BERT的输出，η₁和η₂是与模型输出相关的权重；Y是一个n维向量；Softmax函数将每个类的聚合值转为0-1之间。

为了有效解决城市轨道交通历史事故数据的异质性问题，本发明提供了一个新颖的方法EMBC，以提升使用历史运营事故数据预测事故后果的准确性；EMBC旨在充分利用数字数据和描述性文本提供全面的分析能力。此外，本发明加强了传统的bagging方法促进不同模型的集成，以满足异构数据集的特定需求。通过实验表明，本发明提出的方法EMBC比其他模型(如多层感知机、支持向量机和贝叶斯模型)具有更高的预测准确性和有效性。

附图说明

图1为实施例中EMBC预测城市轨道交通事故后果的流程图；

图2为实施例中BERT的框架图；

图3为实施例中不同类型事故数量和不同时间段事故数量的统计示意图；

图4为实施例中不同时期事故数量的示意图；

图5为实施例中模型测试的ROC曲线示意图；

图6为实施例中EMBC中基模型比例参数调整精度曲线示意图；

图7为实施例中不同模型预测性能的对比示意图。

具体实施方式

为进一步了解本发明的内容，结合附图和实施例对本发明作详细描述。应当理解的是，实施例仅仅是对本发明的解释而并非限定。

实施例

如图1所示，本实施例提供了一种基于集成学习模型预测城市轨道交通事故后果的方法，建立基于卷积神经网络CNN和BERT模型的集成学习模型(EMBC)；EMBC中，CNN用于捕获事故数据中的空间模式，通过CNN，从事故数据中提取关键特征，并确定与特定事故后果相关的空间模式。BERT用于学习事故文本描述中的复杂关系，运用BERT训练事故描述，可以从文本中提取重要的语义信息。使用Bagging方法聚合BERT和CNN的分类结果，即可获得最终的城市轨道交通事故后果预测结果。

历史城市轨道交通事故日志通常包含异构数据(例如速度、线路、天气条件、事故描述)。本实施例中使用的城市轨道交通事故日志摘要见表1。然而，传统的机器学习模型只能处理一种类型的数据，例如，CNN只能处理车辆速度、线路类型、温度、时间等数值数据，而BERT只能处理事故描述等文本数据。因此，异构数据中存在的大量宝贵信息无法完全用于预测。因此，建立基于卷积神经网络CNN和BERT模型的集成学习模型(EMBC)，它可以充分利用同质数据进行事故后果预测。

表1异构城市轨道交通事故日志摘要

城市轨道交通事故数据集先经过数据处理后，然后进入EMBC进行训练。数据处理包括数据清理、特征编码、标签编码等。

CNN

本实施例用来提取数值数据的基学习器是CNN。CNN可以使用卷积滤波器有效地从输入数据中提取特征，并学习检测输入数据中的重要模式和关系。因此，CNN已被应用于交通领域，如交通流预测和交通事故预测，并显示出良好的性能。

在CNN中，卷积层将一组卷积滤波器应用于输入数据，以生成一组输出特征图。每个滤波器都是在训练过程中学习的一个小权重矩阵，它以滑动窗口的方式应用于输入数据，在每个位置产生一个新的值。当滤波器的大小为p*q时，前向传播可以表示如下：

其中定义为第l层大小为h*w的输出特征图。w^l是l层上滤波器的权重矩阵。b^l是l层的偏差，f()表示激活函数。

池化层用于缩小输出的特征映射，从而降低数据的维数，提高模型的计算效率。完全连接层用于生成模型的最终输出，例如分类或回归预测。

链式法则通过以下方程来推导单个权重的梯度：

求和部分可以表示为：

本实施例使用的CNN架构遵循ResNet18，该架构从7x7卷积层开始，然后是最大池化。它由四个残差块组成，每个块都有两组3x3卷积、批归一化和ReLU激活。这些区块的滤波器数量分别为64、128、256和512，后三个块的第一层通过2步进行降采样。为了解决本实施例的问题，本实施例使用了具有7个单元的完全连接层，然后使用softmax函数来生成事故后果预测的概率。CNN通过使用二元交叉熵损失函数进行训练，并利用Adam优化算法对其进行优化。

BERT

BERT是谷歌人工智能研究院在2018年推出的用于自然语言处理任务的预训练深度学习模型。鉴于BERT在各种NLP任务中的出色表现，本实施例将BERT作为基学习器之一，从事故描述中提取语义信息。

BERT可以被认为由一系列Transformer层堆叠构成。与基于循环神经网络或CNN的传统深度学习模型不同，Transformer模型完全基于注意力机制。它由一个多头自注意力子层和一个完全连接的子层组成。每个多头注意力块都试图通过线性变换同时捕获每对位置之间的依赖关系。由于自注意力机制基于线性投影，因此引入了全连接的子层来学习非线性相关性和依赖性。

在每个Transformer层中，使用自注意力机制来学习不同标记之间的关系；通过将查询和一组键值对映射到输出，注意力机制使模型能够专注于输入数据的特定特征，从而能够更细致地理解复杂的模式。最常用的两种注意力函数是加型注意力和点积型注意力。在实践中，点积注意力快速且节省空间，因此这里应用了常见的缩放点积注意力函数：

其中Q是查询矩阵，K是关键矩阵，V是值矩阵。当点积变大时，softmax函数具有极小的梯度，因此点积由缩放，以抵消这种效应。

此外，本实施例使用多头注意力允许模型共同处理来自不同位置不同标记子空间的信息：

MultiHead(Q，K，V)＝Concat(head₁，...，head_n)W^O

head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V)

其中W_i ^Q，W_i ^K，W_i ^V，W_i ^O是可学习参数矩阵；就像起源BERT一样，本实施例使用h＝8，d_k＝d_v＝d/h＝64。

BERT的输出来自顶部Transformer编码器，本实施例专注于[CLS]标记的最终表示，[CLS]标记作为放置在文本开头的特殊符号，被用作分类任务的聚合序列用来表示其最终表达，然后将此[CLS]标记传递给分类层；BERT使用softmax层对城市轨道交通事故后果的类别进行分类。本实施例的BERT架构如图2所示。

基于BERT和CNN的集成模型(EMBC)

在训练阶段，EMBC的输入可以定义为三元组D(S，T，L)，其中S是一个n*d的矢量集，n表示事故统计数据的记录总数，d表示事故特征的数量。s_i表示S中第i个记录向量。T表示事故描述字符串集合号，t_i是第i个记录的描述。表示后果标签集。同时，l_i是第i个记录向量的标签。具体来说，本实施例使用元组D(S，L)来训练本实施例的CNN，使用元组D(T，L)来训练BERT。

为了更好地表示不同类别的统计数据，本实施例在每个S_i上使用了独热编码，并生成一个向量，表示为S_Oi。面对过高的维度，使用主成分分析方法来降低维度。降低后的维度记为β，并作为该模型的基数超参数。维度缩减后的向量表示为S_ri。因此，这个过程可以表示为：

S_ri＝PCA_β(ONEH OT(S_i))

本实施例用Adam优化法对CNN进行训练，学习率设置为0.0001。本实施例使用dropout来防止过拟合，丢失率设置为0.0005。在预测阶段，CNN和BERT可以被视为集成学习模型中的基模型。由于这两个模型是异构的，该算法可以被视为bagging算法的集成学习。在传统的Bagging中，每个基学习器通过投票机制为最终决策做出同等贡献。在本实施例中，选择加权汇总方法，而不是决策投票。因此，模型的输出为：

Y＝softmax(η₁*F_CNN(S_r)+η₂*F_BERT(T))

其中F_CNN表示训练后CNN的输出，F_BERT代表训练后BERT的输出，η₁和η₂是与这些模型输出相关的权重，Y是一个n维向量。Softmax函数用于将每个类的聚合值转换为0到1之间的值，并可将这些值解释为概率。

本实施例发现加权聚合方法更适合合成和组合这些不同类型的信息。首先，由于集成仅由两个基学习器组成，一个简单的投票计划是无效的，因为模型之间的任何分歧都会导致平局。其次，加权聚合使本实施例能够利用每个异构模型的独特优势，从而提供更准确和更可靠的预测。根据每个模型的性能或模型与任务的相关性，为模型分配不同的权重，确保最终输出为每个模型输入的细微组合。

实验

本实施例使用重庆城市轨道交通2017年1月至2018年6月的事故记录数据。原始数据包括事故发生时间、事故发生地点、事故详细过程和事故后果。根据事故数据，本实施例在表2中列出了与事故后果相关的十一个特征。这些特征被选作输入变量，用于模拟事故后果分类预测模型。

表2事故特征

在使用原始数据训练模型前，对原始数据进行整理、标准化和变量分类的预处理。在原始数据处理后，得到997个样本。不同事故类型的事故数量如图3(1)所示。结果表明，代表车辆设备和设施故障的事故类型2发生了362次，占总样本的36.3％。代表通信信号设备故障的事故类型3发生了259次，约占总样本的27％。因此，城市轨道交通的维修和检修人员应注意车辆设备和通信信号设备的维护，这样可有效降低轨道交通事故的发生频率。事故类型7为人为原因引起的事故，发生了124次，占所有事故的12.4％。这些事故是由乘客不安全行为所引发的。因此，在乘客中推广和开展安全意识宣传和教育活动，可有效降低人为原因引发的事故概率。

图3(2)展示了城市轨道交通事故的发生时间，揭示了事故主要发生在早晚高峰时段(7:00至9:00和17:00至19:00)。具体而言，早高峰时段的事故发生数量高于晚高峰时段的数量。此外，从图3(2)可以看出，工作日的事故呈现出明显的高峰特征，而周末事故发生数量的分布较均匀。由此可见，运营时间对城市轨道交通事故的发生具有显著影响。为了提高城市轨道交通的运营安全性，在早晚高峰时段(尤其是7:00至9:00和17:00至19:00之间)，加强防范城市轨道交通事故的措施至关重要。例如，加强高峰时段车站和列车的监控和检查。此外，在周末和非高峰时段，应加强对城市轨道交通设备的维护。

图4显示了发生在不同线路上的各种事故类型。其中，1号线发生通信信号设备故障的次数最多，其次是车辆设备故障和设施故障。2号线、3号线和6号线多发生与车辆设备和设施故障相关的事故。2号线和3号线容易出现人为影响、电力设备相关的问题和信号故障。6号线经常遇到通信信号设备和车辆设备故障。为此，针对不同线路，有针对性地采取预防措施可有效减少城市轨道交通事故的发生频率。例如，对经常发生通信信号设备故障的1号线和6号线，应加强信号设备检查和故障排除。对于人为影响事故、电力设备问题和信号故障频发的2号线和3号线，应加强乘客安全意识培养，提高员工专业知识和技能。

预测性能评估

如上所述，用于城市轨道交通系统事故后果预测的历史事故数据存在不平衡的情况。由于AUC(曲线下面积)对不平衡样本不敏感，所以本实施例使用四个指标来评估所提出模型的性能：真阳性率(TPR)、假阳性率(FPR)、接收者操作特征曲线(ROC)和曲线下面积(AUC)。

ROC曲线是模型性能的图形表示，纵轴表示TPR，横轴表示FPR。AUC代表ROC曲线下的面积，其值范围在0.5到1之间。较高的AUC值表示较好的预测性能。TPR和FPR的计算如下：

TPR＝TP/(TP+FN)

FPR＝FP/(FP+TN)

其中，TP表示真正例的数量(模型预测为正例且实际上为正例)，FN表示假反例的数量(模型预测为负例但实际上为正例)，FP表示假正例的数量(FP表示假正例的数量，TN表示真反例的数量)，TN表示真反例的数量(FP表示假正例的数量，TN表示真反例的数量)。

预测结果

参考轨道交通运营公司对事故后果严重程度的分类，将重庆市轨道交通系统运营事故的后果分为7类，如表3所示。依据历史轨道交通事故数据，运用提出的EMBC模型预测轨道交通的事故后果。

表3事故后果类别

序号	事故后果类别
		1	列车过标
2	清客
		3	列车延误2至5分钟
4	列车延误5至15分钟
		5	列车延误15至30分钟
6	列车下线并停止运营
		7	其他事故情况

为了评估提出的EMBC集成学习方法预测事故后果的有效性，本实施例应用BERT、CNN和EMBC来学习和预测事故后果。图5(1)、(2)和(3)分别显示了三个模型的ROC曲线。总体而言，CNN模型的ROC曲线下面积(AUC)始终高于0.70。然而，在预测事故后果类别1时，其准确率较低，AUC为0.49。相反，CNN预测其他事故后果类别的表现较好。BERT在预测事故后果类别3、4和7时准确率较低，比CNN差。然而，在预测其他事故后果类别时，BERT的表现超过了CNN。与CNN和BERT相比，EMBC的精度更高，EMBC预测结果的涵盖范围更广，正确率曲线显著高于标准对角线。综上所述，预测结果表明，在预测城市轨道交通事故后果分类方面，EMBC在精度和覆盖度方面优于BERT和CNN。

在EMBC集成学习中，本实施例采用投票方法，对BERT和CNN的预测结果进行加权求和以生成最终的预测输出结果。两个模型预测结果在最终结果中所占的权重显著影响了预测的准确性。本实施例通过不断调整两个模型的权重，以明确最高预准确率下两个模型的权重。

BERT与CNN各自的权重之和为1，图6展示了BERT权重与模型预测准确率之间的关系。图6显示，BERT权重对集成学习模型EMBC预测结果的准确性有显著影响。随着BERT权重增加，精度开始上升，当BERT比例继续增加时，预测精度会下降。当BERT权重达到0.64时，预测精度稳定在0.73左右。这一发现表明，在EMBC中，BERT权重设置为0.64，CNN权值设置为0.36时，提出的EMBC模型预测城市轨道交通事故后果的性能最佳。

对不同模型的性能进行比较对于选择最准确和最合适的模型至关重要。在本研究中，本实施例使用相同的城市轨道交通事故数据集对模型的性能进行评估。其中80％的数据集用于训练，20％的数据集用于测试。图7展示了EMBC和其他传统机器学习模型的训练和测试结果。图7显示，多层感知器模型和贝叶斯网络模型具有类似的预测精度。然而，与其他模型相比，支持向量机模型的准确性最低。这种性能上的差异主要由数据的异质性导致。相比之下，所提出的EMBC模型表现出了出色的预测性能，在测试集上达到了0.829的准确率。与其他传统模型相比，具有显著的进步。本实施例提出的EMBC高准确率，主要原因为模型中引入了BERT，可有效处理文本数据中的语义信息，解决数据异质性带来的挑战。

结论

在大数据技术和数据分析方法的支持下，交通事故预测建模研究不断深入。根据重庆轨道交通的历史事故数据，本实施例分析了不同时间段的事故分布以及不同线路发生的事故数量。根据分析结果，提出了减小事故影响和降低事故发生频率的措施和建议。为了分析和预测轨道交通事故后果，本实施例提出了一种基于BERT和CNN的集成学习方法(EMBC)，选择了事故类型、事故发生时间、事故地点等10个特征作为输入变量。为了充分解决历史文本数据的异构性问题，本实施例应用BERT来学习文本数据的含义并提高学习能力，采用CNN来捕捉事故数据中的空间模式。最后，在集成学习部分，通过投票方法将BERT和CNN的结果结合起来，以增强模型的泛化能力并提高预测精度。实验结果表明，提出的EMBC方法可有效预测城市轨道交通的事故后果，其准确率达到82.9％。相比多层感知器、支持向量机、贝叶斯等传统机器学习模型，提出的EMBC模型预测准确率至少高出20％。本发明建立了一个准确可靠的预测模型，有助于提前识别潜在风险和隐患，准确预测事故将引发的后果，为降低城市轨道交通事故发生频率和减弱事故影响提供了新方法。

以上示意性的对本发明及其实施方式进行了描述，该描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。所以，如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

1.基于集成学习模型预测城市轨道交通事故后果的方法，其特征在于：建立基于卷积神经网络CNN和BERT模型的集成学习模型(EMBC)；EMBC中，CNN用于捕获数值类的事故信息，BERT用于学习事故文本描述中的复杂关系，使用基于自学习参数的Bagging方法聚合BERT和CNN的分类结果，获得最终的城市轨道交通事故后果预测结果；

在CNN中，使用具有7个单元的完全连接层，然后使用softmax函数来生成事故后果预测的概率；CNN使用二元交叉熵损失函数进行训练，并利用Adam优化算法对其进行优化；

在BERT中，在每个Transformer层中，使用自注意力机制学习不同嵌入表示之间的关系；并使用多头注意力使模型能够同时关注不同位置的不同标记子空间中的信息：

MultiHead(Q,K,V)＝Concat(head₁,…,head_n)W^O

其中Q,K,V分别表示查询嵌入、键值嵌入和实值嵌入；为可学习参数矩阵；

BERT的输出来自顶部transformer编码器，[CLS]标记作为放置在文本开头的特殊符号，重点被放在[CLS]标记的最终表示上，该标记位于文本的开头，被用作分类任务的聚合序列用来表示其最终表达，然后将此[CLS]标记表示传递给分类层；BERT使用softmax层对城市轨道交通事故后果的类别进行分类。

2.根据权利要求1所述的基于集成学习模型预测城市轨道交通事故后果的方法，其特征在于：EMBC在训练时，输入为三元组D(S,T,L)，其中S是一个n*d的矢量集，n表示事故统计数据的记录总数，d表示事故特征的数量；T表示事故描述字符串集；表示事故后果的标签集；

为了更好地表示不同类别的统计数据，对每个S_i使用了独热编码，并生成一个向量，表示为S_Oi；面对高维度数据，使用主成分分析方法进行降维处理，降维后的维度记为β，并作为模型中的基数超参数；降维后的向量表示为S_ri；因此，该数据处理与降维的过程表示为：

S_ri＝PCA_β(ONEH OT(S_i))

其中ONEHOT函数为独热编码函数，PCA为主成分分析降维函数。

3.根据权利要求2所述的基于集成学习模型预测城市轨道交通事故后果的方法，其特征在于：集成学习Bagging方法选择加权聚合方法，因此，EMBC的输出定义为：

Y＝softmax(η₁*F_CNN(S_r)+η₂*F_BERT(T)

其中F_CNN表示训练后CNN的输出，F_BERT代表训练后BERT的输出；符号η₁和η₂是与模型输出相关的权重；Y是一个n维向量；Softmax函数将每个类的聚合值转换至0～1之间。