CN112101427A

CN112101427A - 交通模式识别方法、设备及存储介质

Info

Publication number: CN112101427A
Application number: CN202010872434.6A
Authority: CN
Inventors: 余剑峤; 宋晓壮
Original assignee: Southern University of Science and Technology
Current assignee: Southern University of Science and Technology
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2020-12-18
Anticipated expiration: 2040-08-26
Also published as: CN112101427B

Abstract

本发明公开了一种交通模式识别方法、设备及存储介质。涉及计算机识别技术。其中交通模式识别方法包括：获取轨迹数据并进行预处理获得第一轨迹数据特征；对第一轨迹数据特征进行离群值删除，获得第二轨迹数据特征；对第二轨迹数据特征进行行程分段，形成第三轨迹数据特征；将第三轨迹数据特征输入到交通模式识别模型训练后输出交通模式识别结果。本发明通过获取轨迹数据，并且将轨迹数据进行预处理获得第一轨迹数据特征，并且将第一轨迹数据特征中离群值删除后得到第二轨迹数据特征，对第二轨迹数据特征又进行了行程分段，形成第三轨迹数据特征，并且将第三轨迹数据特征输入到模型中训练，从而能够提高了模型的精度和准确度。

Description

交通模式识别方法、设备及存储介质

技术领域

本发明涉及计算机识别技术领域，尤其是涉及一种交通模式识别方法、设备及存储介质。

背景技术

模式识别就是用计算的方法根据样本的特征将样本划分到一定的类别中去，来研究模式的自动处理和判读，把环境与客体统称为“模式”。例如交通模式识别，交通模式识别是通过分析用户的移动数据来推理其出行方式，通过交通模式识别可以改善现代城市面临的许多重要问题，例如交通事故、交通拥堵和环境污染等。

目前的交通模式识别存在识别精度低的问题，无法为用户提供更好的服务。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种交通模式识别方法，能够提高交通模式识别的精度。

本发明还提出一种交通模式识别设备。

本发明还提出一种计算机可读存储介质。

根据本发明的第一方面实施例的交通模式识别方法，包括：获取轨迹数据；对所述轨迹数据预处理，获得第一轨迹数据特征；对所述第一轨迹数据特征进行离群值删除，获得第二轨迹数据特征；对所述第二轨迹数据特征进行行程分段，形成第三轨迹数据特征；将所述第三轨迹数据特征输入到交通模式识别模型训练后输出交通模式识别结果。

根据本发明实施例的交通模式识别方法，至少具有如下有益效果：能够获取到轨迹数据，并且将轨迹数据进行预处理获得第一轨迹数据特征，并且将第一轨迹数据特征中离群值删除后得到第二轨迹数据特征，为了使交通模式识别模型识别效果更佳精确，对所述第二轨迹数据特征又进行了行程分段，对第二轨迹数据特征进行了有效的切分，形成第三轨迹数据特征，并且将第三轨迹数据特征输入到模型中，从而提高了模型的精度和准确度。

根据本发明的一些实施例，所述第三轨迹数据特征包括：带标签轨迹数据特征、无标签轨迹数据特征、合成轨迹数据特征；所述将所述第三轨迹数据特征输入到交通模式识别模型训练后输出交通模式识别结果，包括：根据所述带标签轨迹数据特征进行交通模式识别模型训练后获得带标签轨迹数据特征损失函数；根据所述无标签轨迹数据特征进行交通模式识别模型训练后获得无标签轨迹数据特征损失函数；根据所述合成轨迹数据特征进行交通模式识别模型训练后获得合成轨迹数据特征损失函数；根据所述带标签轨迹数据特征损失函数、无标签轨迹数据特征损失函数、合成轨迹数据特征损失函数获得所述交通模式识别模型的损失函数；根据所述交通模式识别模型的损失函数确定所述交通模式识别模型的收敛状态；根据所述收敛状态，将所述第三轨迹数据特征输入到交通模式识别模型训练后输出交通模式识别结果。

根据本发明的一些实施例，所述根据所述带标签轨迹数据特征进行交通模式识别模型训练后获得带标签轨迹数据特征损失函数，包括：将所述带标签轨迹数据特征在交通模式识别模型中进行多次卷积以及多次池化处理后获得带标签轨迹数据特征损失函数。

根据本发明的一些实施例，所述根据所述无标签轨迹数据特征进行交通模式识别模型训练后获得无标签轨迹数据特征损失函数，包括：将所述无标签轨迹数据特征在交通模式识别模型中进行多次卷积、多次池化、多次反卷积和多次反池化处理后获得无标签轨迹数据特征损失函数。

根据本发明的一些实施例，所述根据所述第二轨迹数据特征进行行程分段后形成第三轨迹数据特征，包括：将所述第二轨迹数据特征拆分为设定长度的特征。

根据本发明的一些实施例，所述设定长度为大于等于20小于248个轨迹数据特征长度的正整数。

根据本发明的一些实施例，所述轨迹数据包括GPS轨迹数据，所述GPS轨迹数据为包括时间戳、纬度、经度的三元组序列。

根据本发明的一些实施例，所述第一轨迹数据特征、所述第二轨迹数据特征和第三轨迹数据特征均包括：相对距离、速度、加速度和加加速度。

根据本发明的第三方面实施例的电子设备，包括：至少一个处理器，以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行所述指令时实现如第一方面述的交通模式识别方法。

根据本发明的第四方面实施例的计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如第一方面所述的交通模式识别方法。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明实施例的交通模式识别方法流程图；

图2是根据本发明另一实施例的交通模式识别方法流程图；

图3是根据本发明实施例的交通模式识别模型示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

模式识别的问题就是用计算的方法根据样本的特征将样本划分到一定的类别中去，来研究模式的自动处理和判读，把环境与客体统称为“模式”。例如交通模式识别，交通模式识别是通过分析用户的移动数据来推理其出行方式，通过交通模式识别可以改善现代城市面临的许多重要问题，例如交通事故、交通拥堵和环境污染等。目前，交通模式识别存在精度低的问题，无法满足用户对高精度的要求。

本发明实施例中交通模式识别的目的在于识别出具体的交通模式，例如交通模式为汽车、自行车、飞机、步行等。

参照图1，是根据本发明实施例的交通模式识别方法流程图。

在一些实施例中，交通模式识别方法包括如下步骤：

S100：获取轨迹数据

S200：对轨迹数据预处理，获得第一轨迹数据特征；

S300：对第一轨迹数据特征进行离群值删除，获得第二轨迹数据特征；

S400：对第二轨迹数据特征进行行程分段，形成第三轨迹数据特征；

S500：将第三轨迹数据特征输入到交通模式识别模型训练后输出交通模式识别结果。

具体的，步骤S100中获取的轨迹数据就是在时空环境下，通过对一个或多个移动对象运动过程的采样所获得的数据信息，包括采样点位置、采样时间、速度等，这些采样点数据信息根据采样先后顺序构成了轨迹数据。例如具有定位功能的汽车，轨迹数据反映了汽车某一时间段的行动状况，移动互联网络可以通过无线信号定位手汽车所在位置，进而采样记录，通过连接采样点形成汽车的运动轨迹数据，记录了汽车所在位置的时间、经度、纬度信息，通过无线网络将数据收集到服务器上，可以随时获取到轨迹数据进行相关的应用。

具体的，轨迹数据本身不适合本实施例中的交通模式识别模型训练，所以需要经过S200步骤将轨迹数据进行预处理后获得第一轨迹数据特征，例如：速度、加速度等都属于第一轨迹数据特征。

具体的，由于第一轨迹数据特征会受到各种因素的影响，例如，交通设备靠近隧道灯处，会使获取到的轨迹数据并不准确，进而使第一轨迹数据特征并不准确，这就需要去除掉一些异常数据，也可以称之为离群值，将这些异常数据删除后才获得的步骤S300中的第二轨迹数据特征比步骤S200中的第一轨迹数据特征的精确度大大提高。

具体的，步骤S300中设置了每种行驶模式的速度和加速度阈值，不满足这些阈值的所有数据将被删除。对于无标签的数据，由于不了解其相应的行驶模式，在本实施例中选择删除速度或加速度超出或小于阈值的第一四分位数与第三四分位数之间的四分位数间距的1.5倍的数据，并且，丢弃所有乱序的GPS数据点，即时间戳超过下一个点的点。

具体的，本实施例中的交通模式识别模型需要固定大小的输入，所以需要通过步骤S400将第二轨迹数据特征进行行程分段后形成第三轨迹数据特征，才可以进行模型训练，将任意长度的第二轨迹数据特征分为固定大小的切分，例如每M个轨迹数据特征作为一个切分单元，以便于本实施例中交通模式识别模型能够准确训练轨迹数据特征，输出更精确的模式识别结果。

具体的，在实际应用场景中不完全是理想化的一种交通模式，有可能存在两种或者两种以上的交通模式，在对第二轨迹数据特征进行切分之前，会在第二轨迹数据特征中加入噪声，再进行步骤S400和步骤S500的运行，提高本实施例中交通模式识别模型具有更好的鲁棒性。

在一些实施例中，上述交通模式识别模型包括基于神经网络模型的数据混合多任务学习方法。

具体的，数据混合多任务学习方法能够结合各种轨迹数据特征进行综合训练，这些轨迹数据特征包括了带标签轨迹数据特征、无标签轨迹数据特征、合成轨迹数据特征，一方面，避免只使用带标签轨迹数据特征时因为需要标注而消耗的大量的时间和人力，另一方面，避免了因为标注错误而产生标注污染数据集，第三方面，未标注和标注的轨迹数据特征数量相同，只选用带标签轨迹数据特征进行训练就意味着造成了资源浪费。而本实施例把全部轨迹数据特征都进行了合理训练，从而提高了资源的利用率以及模式识别结果的精确性。

具体的，神经网络模型能够进行高速并行处理，并且具有更强的自学性、自组织性、容错性、高的鲁棒性，应用到本实施例中可以增强交通模式识别模型的鲁棒性和容错性，使交通模式识别模型训练的结果更加精确。

参照图2，是根据本发明另一实施例的交通模式识别方法流程图。

在一些实施例中，第三轨迹数据特征包括带标签轨迹数据特征、无标签轨迹数据特征、合成轨迹数据特征；

步骤S500包括：

S510：根据带标签轨迹数据特征进行交通模式识别模型训练后获得带标签轨迹数据特征损失函数；

S520：根据无标签轨迹数据特征进行交通模式识别模型训练后获得无标签轨迹数据特征损失函数；

S530：根据合成轨迹数据特征进行交通模式识别模型训练后获得合成轨迹数据特征损失函数；

S540：根据带标签轨迹数据特征损失函数、无标签轨迹数据特征损失函数、合成轨迹数据特征损失函数获得交通模式识别模型的损失函数；

S550：根据交通模式识别模型的损失函数确定交通模式识别模型的收敛状态；

S560：根据收敛状态，将第三轨迹数据特征输入到交通模式识别模型训练后输出交通模式识别结果。

具体的，步骤S510中的带标签轨迹数据特征是带有出行方式的标签的轨迹数据特征，例如，轨迹数据特征为步行特征，则标签为步行。同理，步骤S520 无标签轨迹数据特征为没有上述标签的轨迹数据特征，合成轨迹数据特征是通过合成了带标签轨迹数据特征和无标签轨迹数据特征的轨迹数据特征。

假设x_l为带有对应标签y_l的样本，x_u是未标记样本，y_u为x_u样本的伪标签，并且将此y_u设置为模型输出中最大softmax值的类索引。

x_s＝λx_u+(1-λ)x_l

y_s＝λy_u+(1-λ)y_l

y_u＝P_Classifier(y/x_u；θ)

此输出是交通模式识别模型的预测分布y_u＝P_Classifier(y/x_u；θ)，其中θ表示交通模式识别模型的学习参数，即层权重和偏差。通过将数据混合进行训练模型的决策边界会更加准确，同时这样的线性建模减少了在预测样本以外的数据时的不确定性。使得交通模式识别模型预测和梯度模值相对更稳定，泛化能力更强。

图3是根据本发明实施例的交通模式模型示意图。

在一些实施例中，S510包括：

S511：将带标签轨迹数据特征在交通模式识别模型中进行多次卷积以及多次池化处理后获得带标签轨迹数据特征损失函数。

具体的，S520包括：

S521：将所述无标签轨迹数据特征在交通模式识别模型中进行多次卷积、多次池化、多次反卷积和多次反池化处理后获得无标签轨迹数据特征损失函数。

本实施例中交通模式识别模型中的神经网络模型的组成包括了卷积层、最大池化层和全连接层。每两个卷积层和一个池化层的组合都可以视为一个模块。网络的主要结构包括三个这样的模块。输入层的尺寸为(1，M，4)，其中M行程段分割数据特征的大小，次数选为248，每个卷积层中的卷积核尺寸为1×3，步幅为单位1。我们将第一个模块中的卷积核数量设置为32，随后的每个模块的卷积核数量加倍。同时，在卷积时，使用补零的方法来确保通道高度和宽度不会因卷积操作而改变。在每个模块中，池化层会与两个卷积层连接。池化层的卷积核大小为1×2，步幅为2。最后一个模块连接到一个全连接层，该层的输出在最终馈入最终的softmax层之前先经过一个dropout层。dropout层在类上生成概率分布，即P＝{P₁,......,P_N}，其中N是行驶模式的数量；在这项工作中，N＝5。带标签轨迹数据特征损失函数即标记的数据分类器使用分类交叉熵损失函数：

其中y_l是对应数据特征的标签值，i是数据特征对应的交通模式，P是模型对该数据特征属于交通模式i的概率预测值。

可以理解的，softmax层是对神经网络输出结果进行一次换算，将输出结果用概率的形式表现出来；dropout层加在全连接层，防止过拟合，提升神经网络模型泛化能力，将dropout层和softmax层应用到神经网络上能够很好提高模型训练的准确性。

在一些实施例中，S520中根据无标签轨迹数据特征进行交通模式识别模型训练后获得无标签轨迹数据特征损失函数。

具体的，为了整合无标签轨迹数据特征，本实施例中使用自编码器模型进行无监督训练。自编码器是一种可以重建其输入的神经网络模型。自编码器包括两个对称部分，编码器和解码器。编码器是输出输入的潜在表示，解码器是尝试使用潜在表示重建神经网络模型的原始输入。

更为具体的，本实施例中采用的编码器由连续的卷积和最大池化层组成，而解码器则具有反卷积和反池化层。在模型训练过程中，自动编码器会收到未标记也即无标签轨迹数据特征x_u，而其损失函数定义为：

loss_AE＝(OAE-x_u)²

其中，OAE指的是自动编码器的输出，即对神经网络模型输入的重构。

在一些实施例中，S530：根据合成轨迹数据特征进行交通模式识别模型训练后获得合成轨迹数据特征损失函数；

具体的，合成轨迹特征数据分类器使用与带标签轨迹特征数据分类器完全相同的结构，并且共享交通模式识别模型的参数。综合轨迹数据特征分类器还使用分类交叉熵损失函数：

其中y_s是对应数据特征的标签值，i是数据特征对应的交通模式，P是模型对该数据特征属于交通模式i的概率预测值。

在一些实施例中，S540根据带标签轨迹数据特征损失函数、无标签轨迹数据特征损失函数、合成轨迹数据特征损失函数获得交通模式识别模型的损失函数；

具体的，本实施例中提出的方法同时训练带标签特征数据分类器，合成轨迹数据特征分类器和自动编码器。它们的模型参数在训练期间共享，在多任务学习中，称为硬件参数共享。混合多任务学习方法主要是通过最小化这三个损失函数的组合来实现的。合成轨迹数据特征损失函数：

loss_total＝αloss_l+βloss_s+γloss_AE

其中超参数α，β和γ分别用于平衡loss_l，loss_s和loss_AE之间的强度。

具体的，将轨迹数据特征输入交通模式识别模型后，损失函数(在本实施例中使用交叉熵作为损失函数，熵值越大则差异越大)在每一次训练迭代时做梯度下降计算，在实际的实验中，使用Adam优化器进行梯度下降的计算。当损失函数达到相应的收敛条件时训练结束。可以理解的，根据交叉熵的定义，此时训练集上数据的模型预测标签与其真实标签达到一个非常高的匹配度，即模型被训练成一个相对可靠的数据分类器。

本实施例能够通过交通模式识别模型损失函数的确定，从而提高了模型的可靠性，使输入到模型中训练的轨迹数据特征训练后输出的识别结果具有更高可靠性，提高了交通模式识别模型的识别精度。

具体的，通过将带标签轨迹数据特征与合成轨迹数据特征共同训练分类器，模型的泛化能力得到了提升，本实施例能够在原始只有带标签轨迹数据特征的情况下，通过合成轨迹数据特征和伪标签(无标签轨迹数据特征)的模式成功向模型训练中引入了无标签数据的知识，且这样的线性建模减少了在预测样本以外的数据特征的不确定性。同时，通过使用无标签数据自动编码器，我们可以看到模型的识别准确率得到了进一步的提升，可以理解的，由于自编码器提取原始数据潜在表达的训练目标与轨迹数据的卷积特征提取的训练目标存在重合。所以通过对上述三种轨迹数据特征共同训练并共享部分参数使得模型的泛化能力得到了进一步的提升。

在一些实施例中，步骤S400包括：

S410：将第二轨迹数据特征拆分为设定长度的特征。

在一些实施例中，上述设定长度为大于等于20小于248个轨迹数据特征长度的正整数。

具体的，上述GPS轨迹数据特征进一步拆分为每个包含M个点的切分。对于长度小于M的线段，使用0填充增加点数。鉴于只有很少点的行程路段可能不足以识别相应的交通模式，因此在此还设置了一个最小阈值。如果零填充之前的段长度小于此最小阈值，则将该段丢弃。在本实施例中上述阈值设置为20点，而M设置为248，例如存在一个行程路段的GPS轨迹数据特征点为18个，小于最小阈值的20点，则会将此行程路段丢弃。

更为具体的，在将可用的GPS轨迹划分为固定长度的切分之前，按照运输方式将其划分。根据可用的标签，通过在交通模式发生变化的GPS点处分割标签轨迹来对标签轨迹进行预处理。该过程将产生长度可变的GPS段，在这里我们表示为序列seg＝<p₁,.......,p_n>，根据前面的描述，对其中每个pi∈seg都具有和行程段相同的标签，即lable(pi)＝lable(seg)。

具体的，为了满足本实施例中交通模式识别模型输入特征个数或者片段为的固定大小的要求，本实施例中对轨迹数据特征进行去噪和切分，使得本实施例中的交通模式识别训练模型在训练中尽量避免被噪音和极端值干扰，从而使得模型的精度和准确率更高。

在一些实施例中，轨迹数据包括GPS轨迹数据，GPS轨迹数据为包括时间戳、纬度、经度的三元组序列。

具体的，本实施例中GPS轨迹数据点表示为：

p_i＝(lat_i,long_i,t_i)

其中，t_i表示时间戳，lat_i表示t_i时间戳下的经度，long_i表示t_i时间戳下的纬度。

本实施例能够实现交通模式的GPS轨迹数据点的序列，其中序列中包含了经度、纬度和时间，使GPS轨迹数据点更加可靠和精确，为交通模式识别模型提供最基础的数据来源，从而为交通模式识别模型训练的精确性以及输出识别结果的准确性提供基础数据保障。

在一些实施例中，第一轨迹数据特征、第二轨迹数据特征和第三轨迹数据特征均包括：相对距离、速度、加速度和加加速度。

具体的，为了是模型训练更加精确，对上述GPS轨迹数据点转换成轨迹数据特征，其中时间表示为：

Δt_j＝t_j+1-t_j

其中，Δt_j是j点和j+1点之间的时间间隔，t_j+1为j+1点时间，t_j为j点时间。

相对距离表示为：

RD_j＝Vincenty(lat_j,long_j,lat_j+1,long_j+1)

其中，Vincenty表示两点经纬度间的距离，lat_j为j点纬度，long_j是j点经度，lat_j+1为j+1点纬度，long_j+1为j+1点处经度。

速度表示为：

V_j＝RD_j/Δt_j

加速度表示为：

A_j＝(V_j+1-V_j)/Δt_j

加加速度表示为：

J_j＝(A_j+1-A_j)/Δt_j

本实施例能够实现将GPS轨迹数据点转换成轨迹数据特征，从而为后续模型训练提供轨迹数据特征来源，为上述实施例中的行程分段提供轨迹数据特征来源，可以理解的，由GPS轨迹数据点转换成GPS轨迹数据特征是重要的中间环节，直接决定了交通模式识别模型的轨迹数据特征输入所需要的特征，GPS轨迹数据特征精确性直接决定了模型训练输出结果的精确度。

在一些实施例中，交通模式识别装置包括：

数据获取模块、特征提取模块、模型训练模块；其中，数据获取模块用于获取轨迹数据，特征提取模块根据轨迹数据获得第一轨迹运动特征，对第一轨迹运动特征进行离群值删除后获得第二轨迹运动特征；对第二轨迹运动特征进行行程分段后形成第三轨迹运动特征；模型训练模块将第三轨迹运动特征输入到交通模式识别模型训练后输出交通模式识别结果。

在一些实施例中，为了更好的验证和理解本发明实施例的效果，本实施例中通过实验方式进行验证。

具体的，由于基于数据混合的多任务学习方法的交通模式识别模型结合了多种组件，本实施例中采用消融实验来评估它们对所选性能指标的影响。

具体的，本实施例中采用在Microsoft的Geolife数据集上评估数据混合的多任务学习方法，数据集中包含17,621个GPS轨迹数据，其中只有一小部分具有交通模式标签。其中交通模式包括“步行”、“自行车”、“公共汽车”、“驾驶”和“火车”。

具体的，将上述17,621个GPS轨迹数据进行预处理之后，获得了14,424个带标签的轨迹数据特征片段和135,573个无标签的轨迹数据特征片段。同时使用 K折交叉验证方法以获得更加客观无偏的实验结果，为了使本实施例更准确，本实施例中设定K为5。

具体的，本实施例中分别选择80％和20％的带标签轨迹数据特征片段作为训练集和测试集。提取训练集的10％，并且将提取训练集的10％作超参数调整的验证集。训练期间所有无标签的轨迹数据特征片段都会被使用。除了交通模式识别模型的最终softmax层外，所有其他网络层都使用了线性整流函数作为其激活函数，其中线性整流函数选用的为ReLU函数，softmax之前全连接层使用0.4 的drop率(每次调用随机选择40％的神经单元不工作)来避免过度拟合。

具体的，在训练时，我们根据经验将超参数α、β、γ和λ分别设置为1.0、0.5、1.0和0.8；可以理解的，超参数为在机器学习的上下文中，在开始学习过程之前设置值的参数，而不是通过训练得到的参数数据，这些参数在单独的验证集上以最佳形式出现。

具体的，本实施例中还采用了Adam优化器将交通模式识别模型的总损失降到最低，并每次最多训练50个epoch；可以理解的，epoch可以称之为一代训练，使用训练集的全部数据对模型进行一次完整训练，使用与上述相同的验证集时，训练通常会在大约20个epoch内收敛。

具体的，本实施例中实验的硬件配置如下表：

表1硬件配置表

CPU	Intel Xeon Silver 4210
		GPU服务器	8个NVIDIA RTX 2080Ti
仿真工具	Python
		建模平台	TensorFlow平台

在表1中对本实施例中实验的主控制器CPU、服务器GPU、仿真工具以及建模平台进行了定义，为用实验方式验证交通模式识别模型的精确度提供了硬件基础。

在一些实施例中，本实施例中引入了七种方法验证本发明实施例中交通模式识别模型的可靠性，上述七种方法分别为：

K近邻法(KNN)、支持向量机(SVM)、决策树(DT)、长短期记忆递归神经网络(RNN)、卷积神经网络(CNN)、半监督方法Semi-Two-Steps、半监督卷积自动编码器(SECA)，其中半监督方法Semi-Two-Steps和半监督卷积自动编码器(SECA)是使用相同的卷积自编码器实现的。

表2选用算法识别准确率

具体的，表2中列举了不同算法下的准确度。如表2所示，当使用任何百分比的标记数据(带标签轨迹数据特征)时，基于数据混合的多任务学习方法的准确性均高于上述七种评估的基准。仅对标记数据(带标签轨迹数据特征)的1％或5％进行训练时，所有监督方法的效果都较差。本发明实施例中采用的交通模式识别模型识别出模式的准确度为66.2％，为最高。当使用所有带标签的轨迹数据特征时，基于数据混合的多任务学习方法仍以84.8％的准确度获得了更好的效果。

在一些实施例中，基于数据混合的多任务学习方法的性能取决于多种因素。首先，它包含带标签轨迹数据特征和无标签轨迹数据特征生成的合成样本。其次，它通过优化三个损失之和来训练轨迹数据特征样本。为了评估上述因素对模式分类准确性的影响，本实施例中使用消融方法陆续移除其中一个结构，保留其余部分，并使用1％、10％、25％和100％的可用带标签轨迹数据特征训练基于交通模式识别模型。这些移除部分结构的模型定义如下：

·A：仅使用带标签的轨迹数据特征x_l，y_l生成合成数据特征。

·B：仅使用无标签的轨迹数据特征x_u生成合成数据特征。

·C：从loss_total中除去合成数据特征分类器的损失loss_s。

·D：从loss_total中减去自编码器的损失loss_AE。

·E：从loss_total中删除带标签轨迹数据特征分类器的损失loss_l。

其上述五种结构的交通模式识别模型的准确率如下表3。

表3消融试验准确率

具体的，如表3，结果显示仅从标记的或未标记的数据中生成合成数据会导致所有百分比的标记数据的准确性下降。

具体的，在消融方法A和B之间，A导致了较大的精度降低，例如，1％可用带标签轨迹数据特征时，A的准确率为64.2％，B的准确率为65.4％，和本实施例中基于数据混合的多任务学习方法的准确率66.2％相比，A的准确率有较大的降低。

更为具体的，例如使用各个比例的带标签轨迹数据特征时，B的准确率是A、 B、C、D、E中最高的，因此对所有可用数据中生成合成数据的准确率是最高的。

具体的，本实施例还从移除部分损失函数对准确性的影响进行了实验，根据实验结果，这也造成了不同程度的精度降低。从表中可以看出，C和D的准确率下降远远低于E的准确率的下降，可以理解的，C是去除了损失函数loss_s，D是去除了损失函数loss_AE，本实施例中基于数据混合的多任务学习方法对于loss_s和 loss_AE最健壮，同时对loss_l非常敏感。更为具体的，忽略训练集中的所有带标签轨迹数据特征(即消融方法E)会导致该模型产生随机猜测的结果，因此，所有 loss_s、loss_AE和loss_l这三个的损失函数都对本发明实施例中的交通模式识别模型的性能起到了关键作用，尤其是在带标签轨迹数据特征很少的情况下。

本发明实施例实现了以较少的带标签轨迹数据特征(标记数据特征)对用户的出行方式进行分类的问题，基于神经网络的数据混合的多任务学习方法通过最小化三个相应损失函数的加权和，使用混合批次的标记、未标记和合成数据进行了训练。在Geolife数据集上,它仅使用1％的可用标记数据即可达到66.2％的准确性。此外，利用所有标签数据时，其准确性达到84.8％。从而更一次证明本发明实施例中的交通模式识别模型具有对于交通模式的识别具有更高的可靠性和精度。

在一些实施例中，提供了一种电子设备，包括：至少一个处理器，以及，与至少一个处理器通信连接的存储器；其中，存储器存储有指令，指令被至少一个处理器执行，以使至少一个处理器执行指令时实现上述实施例中的交通模式识别方法。

在一些实施例中，提供了一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令用于使计算机执行上述实施例中的交通模式识别方法。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.交通模式识别方法，其特征在于，包括：

获取轨迹数据；

对所述轨迹数据预处理，获得第一轨迹数据特征；

对所述第一轨迹数据特征进行离群值删除，获得第二轨迹数据特征；

对所述第二轨迹数据特征进行行程分段，形成第三轨迹数据特征；

将所述第三轨迹数据特征输入到交通模式识别模型训练后输出交通模式识别结果。

2.根据权利要求1所述的方法，其特征在于，所述第三轨迹数据特征包括

带标签轨迹数据特征、无标签轨迹数据特征、合成轨迹数据特征；

所述将所述第三轨迹数据特征输入到交通模式识别模型训练后输出交通模式识别结果，包括：

根据所述带标签轨迹数据特征进行交通模式识别模型训练后获得带标签轨迹数据特征损失函数；

根据所述无标签轨迹数据特征进行交通模式识别模型训练后获得无标签轨迹数据特征损失函数；

根据所述合成轨迹数据特征进行交通模式识别模型训练后获得合成轨迹数据特征损失函数；

根据所述带标签轨迹数据特征损失函数、无标签轨迹数据特征损失函数、合成轨迹数据特征损失函数获得所述交通模式识别模型的损失函数；

根据所述交通模式识别模型的损失函数确定所述交通模式识别模型的收敛状态；

根据所述收敛状态，将所述第三轨迹数据特征输入到交通模式识别模型训练后输出交通模式识别结果。

3.根据权利要求2所述的方法，其特征在于，所述根据所述带标签轨迹数据特征进行交通模式识别模型训练后获得带标签轨迹数据特征损失函数，包括：

将所述带标签轨迹数据特征在交通模式识别模型中进行多次卷积以及多次池化处理后获得带标签轨迹数据特征损失函数。

4.根据权利要求2所述的方法，其特征在于，所述根据所述无标签轨迹数据特征进行交通模式识别模型训练后获得无标签轨迹数据特征损失函数，包括：

将所述无标签轨迹数据特征在交通模式识别模型中进行多次卷积、多次池化、多次反卷积和多次反池化处理后获得无标签轨迹数据特征损失函数。

5.根据权利要求1所述的方法，其特征在于，所述根据所述第二轨迹数据特征进行行程分段后形成第三轨迹数据特征，包括：

将所述第二轨迹数据特征拆分为设定长度的特征。

6.根据权利要求5所述的方法，其特征在于，所述设定长度为大于等于20小于248个轨迹数据特征长度的正整数。

7.根据权利要求1所述的方法，其特征在于，所述轨迹数据包括GPS轨迹数据，所述GPS轨迹数据为包括时间戳、纬度、经度的三元组序列。

8.根据权利要求1所述的方法，其特征在于，所述第一轨迹数据特征、所述第二轨迹数据特征和第三轨迹数据特征均包括：

相对距离、速度、加速度和加加速度。

9.电子设备，其特征在于，包括：

至少一个处理器，以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行所述指令时实现如权利要求1至8任一项所述的交通模式识别方法。

10.计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1至8任一项所述的交通模式识别方法。