CN111368879A

CN111368879A - 一种基于深半监督神经网络的轨迹数据挖掘方法

Info

Publication number: CN111368879A
Application number: CN202010095537.6A
Authority: CN
Inventors: 张登银; 杨小润; 丁飞; 张敏
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-02-17
Filing date: 2020-02-17
Publication date: 2020-07-03

Abstract

本发明公开了交通数据信息挖掘技术领域的一种基于深半监督神经网络的轨迹数据挖掘方法，旨在解决现有技术中从车辆轨迹数据中挖掘驾驶员的驾驶风格时，由于标记的数据量少、标记数据成本高昂的缘故，使得数据挖掘算法建立的模型鲁棒性偏低的技术问题。所述方法包括如下步骤：对目标车辆轨迹数据进行分段处理；将处理后的目标车辆轨迹数据输入预先训练好的深半监督神经网络，获取目标车辆轨迹数据所对应的驾驶风格，所述深半监督神经网络基于CNN分类器和卷积反卷积自动编码器构建而成。

Description

一种基于深半监督神经网络的轨迹数据挖掘方法

技术领域

本发明涉及一种基于深半监督神经网络的轨迹数据挖掘方法，属于交通数据信息挖掘技术领域。

背景技术

随着中国社会迈入全面小康时代，居民收入水平迅速提高，与此同时道路私家车保有量不断增加，驾驶员规模也不断上升，汽车产业服务以及为围绕着驾驶员需求的服务业发展愈发迅猛。然而在庞大的驾驶员规模中，驾驶员的行为习惯、驾驶能力存在着巨大差异，汽车服务相关产业界发现通过对驾驶员进行精细化建模分析，可以为驾驶人员提供更舒适的服务、为商业车队运营商提供更精细的管理、为车辆保险业提供更经济的运营。

驾驶员的驾驶行为，是独立于车辆硬件状态而影响交通事故的重要因素。目前，通常采用视频摄像头或惯导传感器等采集驾驶员的驾驶行为，进而分析其驾驶风格。由于采集设备需要独立安装并供电，该方案投入成本较大，不利于全面推广应用。车辆轨迹分析旨在通过车辆轨迹数据评估和分析驾驶员的驾驶行为。随着车载定位系统以及车联网通信技术的迅速发展，车辆位置信息的获取与数据传输变得更为容易。运用车辆轨迹数据进行安全驾驶行为分析，具有位置实时性、轨迹连续性等重要优势。

然而由于从传感器直接获取到的定位信息不具有直接的自我解释性，需要结合定位坐标的地图可视化以及驾驶员的相关信息才能理解并获取到的车辆轨迹的驾驶风格，车辆轨迹数据中绝大部分的轨迹可能没有标记的，即没有提供产生车辆轨迹的驾驶员与驾驶员行为的相关数据。因为与获得未标记的数据相比，获取标记的数据是一项更昂贵和费力的任务。因此充分利用未标记的数据并与标记的数据相结合可以捕获更多的数据特征或者将特征表达的更准确，以此进一步增强模型的泛化能力，是当前该领域模型进一步的努力方向。

发明内容

针对现有技术的不足，本发明的目的在于提供一种基于深半监督神经网络的轨迹数据挖掘方法，以解决现有技术中从车辆轨迹数据中挖掘驾驶员的驾驶风格时，由于标记的数据量少、标记数据成本高昂的缘故，使得数据挖掘算法建立的模型鲁棒性偏低的技术问题。

为解决上述技术问题，本发明所采用的技术方案是：

一种基于深半监督神经网络的轨迹数据挖掘方法，包括如下步骤：

对目标车辆轨迹数据进行分段处理；

将处理后的目标车辆轨迹数据输入预先训练好的深半监督神经网络，获取目标车辆轨迹数据所对应的驾驶风格，所述深半监督神经网络基于CNN分类器和卷积反卷积自动编码器构建而成。

进一步地，所述卷积反卷积自动编码器包括卷积网络编码器和与其相对应的反卷积网络解码器，卷积网络编码器的输出端与反卷积网络解码器的输入端连接，卷积网络编码器与CNN分类器共享卷积层。

进一步地，所述深半监督神经网络的训练方法，包括：

以深半监督神经网络的损失函数最小为目标，对卷积网络编码和CNN分类器进行联合训练。

进一步地，所述深半监督神经网络的损失函数，其表达式如下：

l^code+cls＝αl^code+βl^cls，

式中，l^code+cls为深半监督神经网络的损失函数，l^code为卷积网络编码器的损失函数，l^cls为CNN分类器的损失函数，α和β为深半监督神经网络的损失函数的超参数。

进一步地，所述联合训练，包括：

先设定α等于β，对深半监督神经网络进行训练，直至深半监督神经网络的测试集准确率的平均波动小于1％；

再设定α大于β，对深半监督神经网络进行训练，直至深半监督神经网络的测试集准确率的平均波动小于1％。

进一步地，当设定α等于β时，令α＝β＝1；

当设定α大于β时，令α∈[1,1.5]，β＝0.1。

进一步地，在将处理后的目标车辆轨迹数据输入预先训练好的深半监督神经网络之前，还包括：

基于历史或/和实时车辆轨迹数据构建训练样本集；

对训练样本集中的车辆轨迹数据进行分段处理；

利用处理后的训练样本集对预构建的深半监督神经网络进行训练。

进一步地，在利用处理后的训练样本集对预构建的深半监督神经网络进行训练之前，还包括：对训练样本集中的部分车辆轨迹数据进行标签化处理。

进一步地，所述标签化处理包括利用时域分析法或/和违章分析法对训练样本集中车辆轨迹数据进行标签化处理，所述时域分析法包括：

对训练样本集中车辆轨迹数据的轨迹点进行时域分析，获取所述轨迹点中急加速或/和急减速的轨迹点数；

基于所述急加速或/和急减速的轨迹点数以及车辆轨迹数据的轨迹点总数，获取所述车辆轨迹数据对应的车辆驾驶安全性评分；

基于车辆驾驶安全性评分值大小，确立所述车辆轨迹数据对应的车辆轨迹数据标签。

进一步地，所述车辆驾驶安全性评分，其计算公式如下：

式中，ρ为车辆驾驶安全性评分，a_neg为车辆轨迹数据的轨迹点中急减速的轨迹点数，a_pos为车辆轨迹数据的轨迹点中急加速的轨迹点数，a_all为车辆轨迹数据的轨迹点总数。

与现有技术相比，本发明所达到的有益效果：

(1)本发明方法基于由CNN分类器和卷积反卷积自动编码器构建而成的深半监督神经网络，能够利用现实世界中大量的、未被标注的轨迹数据来训练驾驶风格分类器模型，扩大了模型能够训练得到的轨迹数据的产生的场景，能够有效的增强分类器的模型的鲁棒性；

(2)基于深半监督神经网络，在对其训练时能够有效减少使用标注的数据样本的数量，降低因标记大量数据样本所产生的费用；

(3)利用联合训练策略对深半监督神经网络进行训练，能够有效的提升模型的速度，并在一定程度上提升模型的精度。

附图说明

图1是本发明实施例的流程示意图；

图2是本发明实施例所述CNN输入结构图；

图3是本发明实施例所述深半监督神经网络的结构示意图；

图4是本发明实施例所述联合训练策略示意图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

步骤1、车辆位置数据收集和处理

从车载GPS定位系统获取历史(或实时)车辆轨迹数据，其中包括车辆历史(或实时)轨迹点的时间位置信息序列，设定车辆行驶轨迹如下：

x＝(x₁,x₂,…,x_t),x_i＝(lat_i,long_i)，

式中，x为车辆行驶轨迹，x_i为第i个轨迹点，lat_i是第i个轨迹点的纬度，long_i是第i个轨迹点的经度。进一步对所获取的轨迹数据进行路网绑定处理，在绑定时完成数据纠偏，提高轨迹数据的精度。纠偏处理可以调用百度或者高德地图的路网绑定与纠偏处理API。所述的车载GPS定位系统可以是车辆部署的定位终端或车内手机导航终端等，用以收集的车辆位置信息。

步骤2、车辆轨迹数据标签化处理

车辆轨迹数据标签化处理，目前主要采用两类方法：一类是以车辆位置信息为基础，联合车辆违章和事故数据，建立该车辆轨迹数据标签，本方法也称作违章分析法。另一类是以车联网位置信息为基础，联合车辆驾驶过程中的急加减速行为及频次和频率等，建立车辆轨迹数据标签，本方法也称作时域分析法，其中急加速可定义为加速度大于0.3g，急减速可定义为加速度小于－0.3g，其中g＝9.8m/s²。

违章分析法所需的车辆违章、事故信息通常需有偿获取，而且对于大多数驾驶员来说，样本数据量偏少，且样本数据缺乏连续性。通过时域分析法建立车辆轨迹数据标签，该方案所需数据存储于车载终端以及业务平台，数据具有连续性，且获取成本低，存储和管理更方便。本实施例使用后一方法，具体如下：

(1)对车辆轨迹数据的轨迹点进行时域分析，获取所有轨迹点中急加速和急减速的轨迹点数；

(2)计算获取车辆轨迹数据对应的车辆驾驶安全性评分，其计算公式如下：

式中，ρ为车辆驾驶安全性评分，a_neg为车辆轨迹数据的轨迹点中急减速的轨迹点数，a_pos为车辆轨迹数据的轨迹点中急加速的轨迹点数，a_all为车辆轨迹数据的轨迹点总数；

(3)根据车辆驾驶安全性评分对车辆轨迹数据进行标签化处理，获取不同车辆驾驶安全性评分所对应的车辆轨迹数据标签，所述车辆轨迹数据标签即驾驶员所属类别标签，ρ值与驾驶员所属类别标签对应表如表1所示。需要说明的是，在现实应用中，对车辆轨迹数据进行标签化处理是由数据提供者负责完成的，且成本较高。对于数据应用者来说，往往没法保证所有数据均是经过标签化处理的，很多车辆轨迹数据并无标签。

表1：ρ值与驾驶员所属类别标签对应表

序号	ρ值范围	驾驶员所属类别标签
			1	[0,0.6％)	安全
2	[0.6％,1％)	低风险
			3	[1％,4％)	高风险
4	[4％,1]	危险

步骤3、车辆轨迹分段处理

将某一位司机的一次行驶轨迹截取为长度各为M的轨迹段，其中M为司机单次行程轨迹点个数的中位数。对轨迹进行定长分段的目的，是为了能够符合CNN对数据的输入要求，同时轨迹切割可以增加样本的数量，降低CNN模型的过拟合的可能性。此外，分段也为步骤7组合轨迹段分类结果预测司机的驾驶轨迹特征类型提供数据样本。

步骤4、将数据处理成卷积神经网络(Convolutional Neural Networks,CNN)的输入

车辆轨迹数据本质上是一种二维的时间序列，由于其经纬度数据形式存在人为定义的知识概念，直接将其输入CNN难以提取其中的有效信息。因此，通过如下的处理步骤对输入数据进行处理，从而降低CNN学习的难度，提高学习效率：

步骤(1)，利用Vincenty公式来计算两个轨迹点x₁、x₂之间的距离，并利用x₁、x₂之间的时间间隔ΔT计算轨迹点x₁的速度

加速度

加加速度

与转向角的速率

公式如下：

式中，Vinceny(x₁,x₂)为轨迹点x₁与x₂之间的相对距离，

为轨迹点x₂的速度，

为轨迹点x₂的加加速度。

步骤(2)，利用公式(5)－公式(8)通过经纬度计算轨迹点与磁北(或真北)之间的夹角，计算两个轨迹点与磁北(或真北)之间的差。同时计算两个轨迹点之间的转向角变化率，用以表征车辆转变方向的幅度与变化率。

y＝sin[x₂(long)-x₁(long)]*cos[x₂(lat)] (5)

x＝cos[x₁(lat)]*sin[x₂(lat)]-sin[x₁(lat)]*cos[x₂(lat)]*cos[x₂(long)-x₁(long)] (6)

式中，y为横向位移，x为纵向位移，x₂(long)为轨迹点x₂的经度，x₁(long)为轨迹点x₁的经度，x₂(lat)为轨迹点x₂的纬度，x₁(lat)为轨迹点x₁的纬度，

为轨迹点x₁的转向角，

为轨迹点x₂的转向角。

步骤(3)，进一步设计CNN的输入。由于CNN的输入要求输入的尺寸都是相同的，本实施例将车辆轨迹序列切割成固定长度为M的段。对于切割后长度L＜M的轨迹段，如果L＜α*M，则舍弃此段；如果L＞α*M，则对该段进行末尾补零操作，式中，α为[0,1]之间可调节的系数，本实施例中，α＝0.7。

将混合了多个维度的轨迹序列信息制作成为CNN的输入层，如图2所示，是本发明实施例所述CNN输入结构图。CNN的输入层每一个输入样本由M个时刻的轨迹点组成，每个轨迹点数据是一个N维的向量。每个时刻的向量包含如下信息：距前一个时刻点位置的位移距离S、当前时刻瞬时速度V、瞬时加速度A、瞬时加速度的加速度J、瞬时转向角变化率B、当前时刻的时间点属于交通潮汐的状态T、当前时刻的位置属于城市分区的分区C、当前时刻的位置属于的道路的限速情况L。在此说明，向量中包含的属性根据数据集情况、实验效果进行增减。

步骤5、深半监督卷积神经网络的设计与训练

本发明方法所采用的深半监督卷积神经网络，基于CNN分类器和卷积反卷积自动编码器构建而成，如图3所示，是本发明实施例所述深半监督神经网络的结构示意图，深半监督神经网络基于CNN分类器和卷积反卷积自动编码器构建而成，其中卷积反卷积自动编码器由卷积网络编码器f和反卷积网络解码器g组成，卷积网络编码器f的输出端与反卷积网络解码器g的输入端连接，卷积网络编码器f与CNN分类器共享卷积层。其中，CNN分类器只接收标记的轨迹样本X_l，而卷积反卷积自动编码器同时接收标记的轨迹样本X_l和未标记的轨迹样本X_u，即X_comb＝X_l+X_u。前述标记的轨迹样本是指具有标签的车辆轨迹数据，前述未标记的轨迹样本是指不具有标签的车辆轨迹数据。

本实施例中，卷积网络编码器f由两组层组成，每组有两个卷积层，后跟一个最大池化层。卷积网络编码器f的输入是X_comb，由于输入样本X_comb的尺寸在该模型中较小，因而所有卷积层可使用较小的卷积核(1*3)并选择步幅等于1。在每两个卷积层之间设置最大池化层，以保证在每次卷积操作后，数据空间的尺寸不至于增长过快。最大池化层的滤波器大小是(1*2)和步长为2。根据上述设置，在添加最大池化层之后，在不损失学习到的特征的情况下，参数空间的参数数量会减小到前一层的一半。其中，卷积层中的神经元使用线性激活函数(Relu函数)激活，卷积网络编码器f的最后一层输出隐藏特征h。

反卷积网络解码器g具有与卷积网络编码器f相同的层数，并执行反向操作(即反池化和反卷积)，各反卷积层生成的输出，与卷积网络编码器f相应层的输入大小相同。除最后一层外，所有反卷积层的激活函数均为Relu函数。按照相同的操作，最后一个反卷积层产生与原始输入X_comb形状相同的输出X′_comb。由于输入层X_comb数据已经归一化为范围[0，1]，因此将sigmoid函数部署为最后一个反卷积层的激活函数。

由于X_comb和X′_comb由连续值特征组成，因而可使用平方欧几里德距离作为卷积反卷积自动编码器的损失函数。每个样本的重建误差如下：

其中x_i′和x_i分别是输入样本X_comb与重构后的输入样本X′_comb对应位置的元素。此损失值将在每次训练迭代过程中不断被计算，并借助其最小化的过程训练编码器的权重，使编码器能够更准确的提取输入样本数据的特征。

CNN分类器由一个全连接层与几个堆叠的卷积层组成，其中，卷积部分与卷积网络编码器f的结构及参数完全相同。CNN分类器仅接收经过标注的样本X_l作为其输入，因而将隐藏特征h直接送入全连接层使其转换为一维特征，并使用softmax激活函数让输入样本产生在标注集上的概率分布，表示为：

P_l＝{p_l,1,p_l,2,...p_l,i...,p_l,k}，

式中，k为标注类别的数量(即分类的类别数)。使用被广泛认可的分类交叉熵作为CNN分类器的损失函数，多分类的交叉熵损失函数公式如下：

式中，y_l,i∈Y_l，是取值只能为0或1的二进制指示符，如果预测类别i是样本X_l的真实类别，则y_l,i＝1，否则y_l,i＝0，即y_l,i表示独热编码。p_l,i为分类器模型预测输入样本X_l为i类的概率。与卷积反卷积自动编码器类似，此损失值将在每次训练迭代过程中不断被计算，并借助其最小化的过程训练CNN分类器的参数，使CNN分类器能够更准确地提取输入样本数据中表示其类别信息的特征。

步骤6、两阶段模型训练方法

本发明方法提出的训练策略，是同时训练卷积网络编码器f和CNN分类器。这种联合训练策略的基本原理，是通过卷积反卷积自动编码器从输入数据的底层分布中提取有用的特征，同时使用CNN分类器提高模型的分类识别能力。如图4所示，是本发明实施例所述联合训练策略示意图，具有相同结构的卷积反卷积自动编码器部分和CNN分类器的卷积部分共享相同的权重。因此，在每次迭代的参数更新过程中，由编码器输出的隐藏特征h与分类器中卷积部分的输出等价。本章提出的网络的无监督和有监督部分是通过最小化以下的总损失函数来共同学习的，总损失函数是自动编码器与分类器损失函数的线性组合：

l^code+cls＝αl^code+βl^cls，

其中α和β是模型损失函数的两个超参数，用于平衡等式中两个损失函数的相对重要性。通过调节超参数α、β分两阶段训练模型，具体如下：

1、设置α＝1和β＝1：在第一步中，编码器和分类器的损失函数在具有相同权重的情况下同时进行训练。训练过程通过不断迭代，迭代持续至模型性能稳定后的两次迭代后停止训练。本阶段训练的目标是获得尽可能好的性能，即尽快使模型达到一个相对较优的状态，为下一个阶段进一步的参数优化建立良好的初始位置。本实施例中，需要训练至深半监督神经网络的测试集准确率的平均波动小于1％。在此过程中，不必在自动编码器的特征重建误差与和分类器交叉熵误差之间进行权衡。

2、设置α∈[1,1.5]和β＝0.1：前一阶段的训练过程模型性能不再提升，主要原因是由于过度拟合问题或陷入局部极小值。在本阶段通过超参数β降低有监督学习分类器的影响可以起到对模型参数产生剧烈扰动的作用，并优化模型使其脱离局部极小值。在本阶段，无监督组件自动编码器损失函数的权重α可以根据实验情况将其设置在[1,1.5]区间内，进一步增强特征提取部分的参数扰动。在本训练阶段使用新设置继续进行训练，为模型优化提供再一次机会，以便向更好的全局最优值移动。与第一阶段相同，在连续两次迭代后模型性能未提高后停止训练。本实施例中，需要训练至深半监督神经网络的测试集准确率的平均波动小于1％。最后使用测试集数据对本阶段训练完成的模型进行性能验证。

步骤7、驾驶行为特征判断

在步骤2中，为了达到适应CNN的输入与扩大CNN网络的数量的目的，将每位司机的轨迹数据切割为w个长度为M的小轨迹。训练完成的CNN为验证集中的被分割的轨迹生成预测结果。在本步骤环节，利用被分割的轨迹的预测结果来预测为被分割前轨迹的分类结果。具体计算过程如下：

式中，S为分类得分，即轨迹数据的车辆驾驶安全性评分；k为车辆轨迹数据标签类别数，a₁为分割后的定长轨迹被预测为第1类驾驶风格(即对应第1类车辆轨迹数据标签)所占比例，a₂为分割后的定长轨迹被预测为第2类驾驶风格(即对应第2类车辆轨迹数据标签)所占比例，a_k为分割后的定长轨迹被预测为第k类驾驶风格(即对应第k类车辆轨迹数据标签)占总被分割数量的比例；

式中，n为第n类驾驶风格(即对应第n类车辆轨迹数据标签)，N为正整数。当S落入公式(10)所示区间中，则该司机即被分入第n类驾驶风格中。本实施例中，k＝4。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于深半监督神经网络的轨迹数据挖掘方法，其特征是，包括如下步骤：

对目标车辆轨迹数据进行分段处理；

2.根据权利要求1所述的基于深半监督神经网络的轨迹数据挖掘方法，其特征是，所述卷积反卷积自动编码器包括卷积网络编码器和与其相对应的反卷积网络解码器，卷积网络编码器的输出端与反卷积网络解码器的输入端连接，卷积网络编码器与CNN分类器共享卷积层。

3.根据权利要求2所述的基于深半监督神经网络的轨迹数据挖掘方法，其特征是，所述深半监督神经网络的训练方法，包括：

4.根据权利要求3所述的基于深半监督神经网络的轨迹数据挖掘方法，其特征是，所述深半监督神经网络的损失函数，其表达式如下：

l^code+cls＝αl^code+βl^cls，

5.根据权利要求4所述的基于深半监督神经网络的轨迹数据挖掘方法，其特征是，所述联合训练，包括：

6.根据权利要求5所述的基于深半监督神经网络的轨迹数据挖掘方法，其特征是，当设定α等于β时，令α＝β＝1；

当设定α大于β时，令α∈[1,1.5]，β＝0.1。

7.根据权利要求1所述的基于深半监督神经网络的轨迹数据挖掘方法，其特征是，在将处理后的目标车辆轨迹数据输入预先训练好的深半监督神经网络之前，还包括：

基于历史或/和实时车辆轨迹数据构建训练样本集；

对训练样本集中的车辆轨迹数据进行分段处理；

8.根据权利要求7所述的基于深半监督神经网络的轨迹数据挖掘方法，其特征是，在利用处理后的训练样本集对预构建的深半监督神经网络进行训练之前，还包括：对训练样本集中的部分车辆轨迹数据进行标签化处理。

9.根据权利要求8所述的基于深半监督神经网络的轨迹数据挖掘方法，其特征是，所述标签化处理包括利用时域分析法或/和违章分析法对训练样本集中车辆轨迹数据进行标签化处理，所述时域分析法包括：

10.根据权利要求9所述的基于深半监督神经网络的轨迹数据挖掘方法，其特征是，所述车辆驾驶安全性评分，其计算公式如下：