CN115130599A

CN115130599A - 时间序列gan数据增强下露天矿卡状态识别的半监督方法

Info

Publication number: CN115130599A
Application number: CN202210791397.5A
Authority: CN
Inventors: 刘佰龙; 田玉赛; 张磊; 梁志贞
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2022-07-05
Filing date: 2022-07-05
Publication date: 2022-09-30
Anticipated expiration: 2042-07-05
Also published as: CN115130599B

Abstract

一种时间序列GAN数据增强下露天矿卡状态识别的半监督方法，属于露天矿卡车状态识别技术领域。该方法采用端到端的方法；收集露天矿现有的卡车轨迹数据；卡车轨迹数据分为两种：一种是已经人工标记过卡车运行状态的轨迹，称为有标签数据；另一种则是原始GPS轨迹，称为无标签数据；设计并训练时间序列GAN模型对有标签数据进行保真增强，平衡有标签数据；利用半监督框架，嵌入通道注意力，联合平衡之后的有标签数据和无标签数据，训练得到最终的卡车状态识别模型；将实际测试数据输入到卡车状态识别模型，得到最终识别结果。优点：在半监督联合模型中嵌入通道注意力量化不同特征之间的差异，进一步提高了模型总体识别精度，轨迹数据更具有保真性。

Description

时间序列GAN数据增强下露天矿卡状态识别的半监督方法

技术领域

本发明涉及露天矿卡车状态识别技术领域，特别是一种时间序列GAN数据增强下露天矿卡状态识别的半监督方法。

背景技术

露天矿区开采环境恶劣，卡车运行状态(等待装车、正在装车、重车运行、空车运行、正在卸车)还需现场工作人员记录每个状态对应的时间段，耗费大量的人力和时间成本。利用卡车GPS信号产生的轨迹数据对卡车状态进行识别，可以高效的分析每辆车各种运行状态花费的时间，从而对卡车工作效率进行分析并且可以提高露天矿开采效率。但是，由于矿区信号质量差，卡车携带的终端设备收集轨迹数据时并不能完整的收集到卡车所有的运行轨迹，导致采集到的数据集都存在数据不平衡问题(不同卡车运行状态对应的轨迹条数不同)。数据不平衡对造成的数据稀疏会导致分类器对稀疏样本所属类别的学习能力不足，难以有效的对相应类别进行分类。

矿区卡车状态识别对应交通领域中的交通模式识别。随着深度学习的发展，交通模式识别领域对轨迹运动有了更深入的研究。生成对抗网络(GAN)从数据增强方向出发，通过生成器和鉴别器共同训练生成轨迹数据来平衡数据集，但是轨迹数据本质上是时序数据，使用原始的生成对抗网络会丢失轨迹数据的时间依赖特性。还有许多技术通过增加更多的运动数据或是提高轨迹采样点的频率会提高模型准确性，但是会增加采集工作的任务量，提高采样频率会使智能终端面临的负荷成倍增加。

发明内容

为解决现有技术的不足，本发明提供一种时间序列GAN数据增强下露天矿卡状态识别的半监督方法，解决卡车状态识别技术领域中轨迹数据集不平衡造成的识别准确率不高以及没有考虑特征之间差异导致难以提高总体精确率的问题。

本发明的目的是这样实现的：时间序列GAN数据增强下露天矿卡状态识别的半监督方法采用端到端的方法；首先，收集露天矿现有的卡车轨迹数据；卡车轨迹数据分为两种：一种是已经人工标记过卡车运行状态的轨迹，称为有标签数据；另一种则是原始GPS轨迹，称为无标签数据；然后，设计并训练时间序列GAN模型对有标签数据进行保真增强，平衡有标签数据；再则，利用半监督框架，嵌入通道注意力，联合平衡之后的有标签数据和无标签数据，训练得到最终的卡车状态识别模型；最后，将实际测试数据输入到卡车状态识别模型，得到最终识别结果。

具体步骤如下：

步骤1：收集一定时段内的卡车轨迹数据，将卡车轨迹数据分为有标签数据和无标签数据。所述的有标签数据，包括组成该类轨迹数据的轨迹点的经纬度、时间戳和运行状态；所述的无标签数据，包括组成该类轨迹数据的轨迹点的经纬度和时间戳；将有标签数据按照其对应的卡车运行状态类别标签分割成具有单一运行状态的轨迹段集合，称为有标签轨迹段；无标签数据按照Pruned Exact Linear Time算法分割得到尽可能只有一种运行状态的轨迹段集合，称为无标签轨迹段，二者合并最终得到露天矿卡车轨迹数据集；

所述的Pruned Exact Linear Time算法是一种现有的序列数据的最优划分方法，用于检测序列数据中的突变点，进而将无标签数据按照突变点分割。

步骤2：利用步骤1中卡车轨迹数据集中的有标签轨迹段作为时间序列GAN模型的输入数据，设计损失函数训练该模型，同时使用训练好的模型生成带有标签的轨迹段，对有标签轨迹段进行增强，使得有标签轨迹段中各种卡车运行状态的轨迹段数量相同；所述的时间序列GAN模型，包括：标签生成器、边界生成器、特征序列生成器、元数据鉴别器和特征序列鉴别器；

步骤3：综合步骤2得到有标签轨迹段和原有的无标签轨迹段，根据所得轨迹段所包含轨迹点的经纬度、时间戳，计算所有轨迹序列的相对距离、速度、加速度、方向角序列得到轨迹数据多运动特征序列。同样，来自不同轨迹段的多运动特征序列分为有标签和无标签特征序列两部分；

步骤4：基于步骤3得到的多运动特征序列，设计半监督联合模型用于车辆状态识别。该模型分为监督组件和无监督组件；监督组件的输入数据为带标签的多运动特征序列，无监督组件的输入数据为无标签的多运动特征序列；为了在模型训练过程中量化不同特征之间的差异，提升识别准确率，将通道注意力网络嵌入到模型之中；

步骤5：采用联合损失函数对基于步骤4所述的半监督联合模型进行训练，得到最优模型参数。

步骤6：基于步骤5所得到的最终模型，输入露天矿生产实际卡车轨迹数据，识别卡车工作状态。

进一步的，步骤1中，任意一条有标签轨迹段定义为

n是轨迹段的长度；每个轨迹点p_i＝{lon_i，lat_i，t_i}包含经纬度和时间戳三种数据。

表示有标签轨迹段

与其标签y_i的二元组；任意一条无标签轨迹段定义为

长度也为n。

进一步的，步骤2中，所述的时间序列GAN模型：

所述的标签生成器G₁，用于生成标签，时间序列GAN模型利用G₁生成的标签，同时约束特征序列生成器G₃；使用多层感知器来生成one-hot编码格式的标签。

所述的边界生成器G₂，为了生成具有保真性的轨迹段，利用网络结构为多层感知器的G₂生成经度、纬度和时间间隔的max和min边界，该边界同样用于约束特征序列生成器G₃的轨迹点序列。

所述的元数据鉴别器D₁，采用多层感知器网络结构，与G₁、G₂相互对抗。所述元数据meta由G₁和G₂生成的标签、max和min边界组成，将G₁、G₂生成元数据的操作用

表示，

为标签、max和min边界的高斯分布随机数据。D₁用于鉴别生成的元数据，并利用其损失函数将差异反馈给G₁和G₂，从而对G₁和G₂参数进行优化；

所述的特征序列生成器G₃，采用长短期记忆网络，其输入数据Z^f包含两部分，所述的长短期记忆网络的英文缩写为LSTM：元数据以及若干随机高斯噪声；Z^f为长度为n，n对应G₃中长短期记忆网络单元的个数，空间大小为

则表示生成特征序列的操作。

所述特征序列鉴别器D₂，采用多层感知器网络结构，用于同G₃相互对抗；D₂用于鉴别生成的元数据，并利用其损失函数将差异反馈给G₃，从而对G₃参数进行优化。

所述时间序列GAN的总体损失函数为：

其中α＝1；G₁、G₂和D₁应实现如下损失函数

其中

表示G₁、G₂的元数据分布，

是元数据的数据分布，GP_A表示对随机样本

的梯度范数实施软性约束，λ的取值一般为10，t～Unif[0，1]；G₃和D₂应实现损失函数

其中，

表示G₃的特征序列分布，p_Xf是特征序列的数据分布，GP_B表示对随机样本

的梯度范数实施软性约束，λ的取值一般为10，t～Unif[0，1]。

所述的步骤2中，所述训练时间序列GAN的步骤如下：通过总体目标函数对时间序列GAN模型进行多轮交替训练直至达到纳什均衡时训练停止，其中生成器和鉴别器的单次训练轮数都为1时模型可以稳定训练；当达到纳什均衡时时间序列GAN模型中的生成器和鉴别器都达到最优状态；利用G₃生成有标签轨迹段，使得有标签轨迹段中不同卡车运行状态的轨迹段数据量相同，用于半监督联合模型的输入。

进一步的，步骤3中，时间序列GAN生成的有标签轨迹段和原有的无标签轨迹段只包括轨迹点的经纬度信息和时间戳，无法有效地表示出轨迹段的运动特征；通过计算轨迹两点之间的相对距离和每个点的速度、加速度和方向角运动特征作为半监督联合模型的输入数据；

所述不同轨迹段多运动特征计算方法如下：

对于任意一条轨迹段

或是

利用如下公式计算出对应的运动特征，

其中，

分别表示相对距离、时间间隔、距离、加速度和方向角；Vincenty()为计算两点之间的地理距离，Head()为计算两点之间的方向角；多个点组成序列，叠加这些特征序列构造成多运动特征序列，即运动特征矩阵x_i＝{x_i1，x_i2，...x_ih，...，x_in}，n是序列长度，x_ih＝(RD_h，S_h，A_h，J_h，Head_h)，

d为运动特征数。

进一步的，步骤4中，监督组件由一维卷积网络构成、通道注意力和分类器组成；无监督组件分为编码器部分和解码器部分；

所述监督组件中的一维卷积网络学习有标签多运动特征序列

的深度特征；一维卷积网络由三块组成，其中每块有两个卷积层，后跟一个最大池化层；其中卷积层中滤波器尺寸为(1×W)，滤波器核大小为d，滤波器参数

d表示运动特征数；给定任意x_i既可以指

也可以指

将其转化为张量数据格式

第k个滤波器的输出表示为：

其中，relu(.)为激活函数，*表示卷积操作，

为偏置项；将若干滤波器的输出连接起来，得到

其中n为每层卷积层滤波器的数量。接着对输出数据

进行最大池化操作得到

池化操作的感受野为(1×P)，步长为S；同理，第二组和第三组卷积层进行相同操作；只是每层滤波器个数不同，分别为C、2C和4C，C表示第一块滤波器的数量；最后，得到一维卷积网络的输出

所述监督组件中的通道注意力可以感知多运动特征序列中的特征差异，并对其进行量化处理。首先通过批归一化处理输入数据

所述的批归一化英文缩写为BN，公式如下：

和

分别是最小批

的均值和标准差；参数∈是一个很小的实数值，避免分母等于0，γ和β是可学习参数，γ是BN中的方差，方差越大表示该通道的变化越剧烈，那么该通道中包含的信息会越丰富，重要性也越大；利用如下公式来计算每个通道的权重Wi，

4C为

具有的通道数量。通过权重W_j来量化不同通道的差异，最终将得到的权重W_j分别乘以对应的通道值，同时利用sigmoid激活函数进一步抑制不显著通道，使得模型训练更加高效，如公式所示：

代表输出的特征数据，与

维度相同。卷积池化操作之后的通道与不同的运动特征产生了关联，通过对量化不同通道的差异进而量化不同特征之间的差异。

所述监督组件中的分类器为softmax分类函数。任意

经过全连接层之后利用softmax生成标签的概率分布P_i＝{p₁，p₂，...，p_c}，其中c为标签的种类，与之对应的是原始轨迹段的标签y_i；选择交叉熵作为分类器的损失函数；则监督组件的任意批次的有标签轨迹段的损失函数

如下所示：

其中，m为训练时批次大小。

所述步骤4中，所述无监督组件中的编码器部分与监督组件中的一维卷积网络和通道注意力相同，输入数据为任意无标签多运动特征序列

卷积编码之后得到深度特征矩阵

之后同样经过通道注意力之后变成

所述的解码器部分进一步提取

中的数据特征，最终得到

在无监督组件中的潜在表示

两者都是由连续特征值组成的，则使用平方欧氏距离作为无监督部分的损失函数；

无监督组件的无标记轨迹段的误差

计算公式如下：

其中m为训练时批次大小，x_i和

分别属于

和

n为序列的长度。

进一步的，步骤5中，所述联合损失函为：

并利用梯度下降法结合联合损失函数loss^total训练半监督联合模型，并更新模型参数，直到收敛。

进一步的，步骤6中，输入露天矿生产实际卡车轨迹数据，识别卡车工作状态。所述露天矿卡车状态包括：等待装车、正在装车、重车运行、空车运行、正在卸车。

有益效果由于采用了上述技术方案，利用时间序列GAN模型增强轨迹数据，生成具有保真性的标签轨迹段数据，丰富轨迹多样性的同时实现了数据集平衡以及有标签轨迹段各种卡车运行状态数据量相同；在此基础上，在半监督联合模型中嵌入通道注意力量化不同特征之间的差异，使得不同特征得到针对处理，使得模型识别轨迹段准确率高，完成对卡车状态的识别。

该方法通过生成具有保真性的轨迹数据平衡数据集并且利用注意力机制量化不同的特征之间的差异，从而提取轨迹数据中的有效特征，解决了由于矿区信号质量差，卡车携带的终端设备收集的轨迹数据不完整以及车辆行为不均衡导致轨迹数据不平衡，而造成识别精度较低的问题，同时，通过量化运动特征之间的差异，提升了模型识别精度，在露天矿卡车状态识别中取得显著效果。

优点：本发明设计了时间序列GAN模型用于增强轨迹数据，通过捕获轨迹数据的时序特征，并在学习轨迹数据分布特征时保持长期依赖关系，使得生成的轨迹数据比常规GAN生成的轨迹数据具有保真性，并解决了数据不平衡问题。在此基础上，在半监督联合模型中嵌入通道注意力量化不同特征之间的差异，进一步提高了模型总体识别精度。

解决了常规GAN生成轨迹数据的低保真性，以及需要增加运动数据或是提高轨迹采样点的频率才能达到提高模型识别率的问题，达到了本发明的目的。

附图说明：

图1为本发明的步骤流程图。

图2为本发明的方法架构图。

图3为本发明的时间序列GAN模型结构图。

图4为本发明的半监督联合模型结构图。

图5为本发明的注意力机制结构图。

具体实施方式

时间序列GAN数据增强下露天矿卡状态识别的半监督方法采用端到端的方法；

首先，收集露天矿现有的卡车轨迹数据；卡车轨迹数据分为两种：一种是已经人工标记过卡车运行状态的轨迹，称为有标签数据；另一种则是原始GPS轨迹，称为无标签数据；

然后，设计并训练时间序列GAN模型对有标签数据进行保真增强，平衡有标签数据；

第三，利用半监督框架，嵌入通道注意力，联合平衡之后的有标签数据和无标签数据，训练得到最终的卡车状态识别模型；

最后，将实际测试数据输入到卡车状态识别模型，得到最终识别结果。

具体步骤如下：

步骤1：收集一定时段内的卡车轨迹数据，将卡车轨迹数据分为有标签数据和无标签数据。所述的有标签数据，包括组成该类轨迹数据的轨迹点的经纬度、时间戳和运行状态；所述的无标签数据，包括组成该类轨迹数据的轨迹点的经纬度和时间戳；将有标签数据按照其对应的卡车运行状态类别标签分割成具有单一运行状态的轨迹段集合，称为有标签轨迹段；无标签数据按照Pruned Exact Linear Time算法分割得到尽可能只有一种运行状态的轨迹段集合，称为无标签轨迹段，二者合并最终得到露天矿卡车轨迹数据集。

进一步的，步骤1中，任意一条有标签轨迹段定义为

表示有标签轨迹段

与其标签y_i的二元组；任意一条无标签轨迹段定义为

长度也为n。

进一步的，步骤2中，所述的时间序列GAN模型：

表示，

所述的特征序列生成器G₃，采用长短期记忆网络(LSTM)，其输入数据Z^f包含两部分：元数据以及若干随机高斯噪声；Z^f为长度为n，n对应G₃中长短期记忆网络(LSTM)单元的个数，空间大小为

则表示生成特征序列的操作；所述的长短期记忆网络英文缩写为LSTM。

所述特征序列鉴别器D₂，采用多层感知器网络结构，用于同G₃相互对抗。D₂用于鉴别生成的元数据，并利用其损失函数将差异反馈给G₃，从而对G₃参数进行优化；

所述时间序列GAN的总体损失函数为：

其中α＝1；G₁、G₂和D₁应实现如下损失函数

其中

表示G₁、G₂的元数据分布，

是元数据的数据分布，GP_A表示对随机样本

其中，

表示G₃的特征序列分布，

是特征序列的数据分布，GP_B表示对随机样本

的梯度范数实施软性约束，λ的取值一般为10，t～Unif[0，1]；

进一步的，步骤3中，时间序列GAN生成的有标签轨迹段和原有的无标签轨迹段只包括轨迹点的经纬度位置信息和时间戳，无法有效地表示出轨迹段的运动特征；通过计算轨迹两点之间的相对距离和每个点的速度、加速度和方向角运动特征作为半监督联合模型的输入数据；

所述不同轨迹段多运动特征计算方法如下：

对于任意一条轨迹段

或是

利用如下公式计算出对应的运动特征，

其中，

d为运动特征数。

所述监督组件中的一维卷积网络学习有标签多运动特征序列

d表示运动特征数；给定任意x_i既可以指

也可以指

将其转化为张量数据格式

第k个滤波器的输出表示为：

其中，relu(.)为激活函数，*表示卷积操作，

为偏置项；将若干滤波器的输出连接起来，得到

其中n为每层卷积层滤波器的数量。接着对输出数据

进行最大池化操作得到

所述监督组件中的通道注意力可以感知多运动特征序列中的特征差异，并对其进行量化处理。首先通过批归一化(BN)处理输入数据

公式如下：

和

分别是最小批

4C为

代表输出的特征数据，与

准度相同；卷积池化操作之后的通道与不同的运动特征产生了关联，通过对量化不同通道的差异进而量化不同特征之间的差异。

所述监督组件中的分类器为softmax分类函数；任意

加下所示：

其中，m为训练时批次大小。

卷积编码之后得到深度特征矩阵

之后同样经过通道注意力之后变成

所述的解码器部分进一步提取

中的数据特征，最终得到

在无监督组件中的潜在表示

无监督组件的无标记轨迹段的误差

计算公式如下：

其中m为训练时批次大小，x_i和

分别属于

和

n为序列的长度；

进一步的，步骤5中，所述联合损失函为：

进一步的，步骤6中，输入露天矿生产实际卡车轨迹数据利用训练好的模型识别卡车工作状态。露天矿卡车状态包括：等待装车、正在装车、重车运行、空车运行、正在卸车。

Claims

1.一种时间序列GAN数据增强下露天矿卡状态识别的半监督方法，其特征是：时间序列GAN数据增强下露天矿卡状态识别的半监督方法采用端到端的方法；

再则，利用半监督框架，嵌入通道注意力，联合平衡之后的有标签数据和无标签数据，训练得到最终的卡车状态识别模型；

2.根据权利要求1所述的时间序列GAN数据增强下露天矿卡状态识别的半监督方法，其特征是：具体步骤如下：

步骤1：收集一定时段内的卡车轨迹数据，将卡车轨迹数据分为有标签数据和无标签数据；所述的有标签数据，包括组成该类轨迹数据的轨迹点经纬度、时间戳和运行状态；所述的无标签数据，包含组成该类轨迹数据的轨迹点经纬度和时间戳；将有标签数据按照其对应的卡车运行状态类别标签分割成具有单一运行状态的轨迹段集合，称为有标签轨迹段；无标签数据按照Pruned Exact Linear Time算法分割得到尽可能只有一种运行状态的轨迹段集合，称为无标签轨迹段，二者合并最终得到露天矿卡车轨迹数据集；

步骤5：采用联合损失函数对基于步骤4所述的半监督联合模型进行训练，得到最优模型参数；

3.根据权利要求2所述的一种时间序列GAN数据增强下露天矿卡状态识别的半监督方法，其特征是：步骤1中，任意一条有标签轨迹段定义为

n是轨迹段的长度；每个轨迹点p_i＝{lon_i,lat_i,t_i}包含经纬度和时间戳三种数据。

表示有标签轨迹段

与其标签y_i的二元组；任意一条无标签轨迹段定义为

长度也为n。

4.根据权利要求2所述的一种时间序列GAN数据增强下露天矿卡状态识别的半监督方法，其特征是：步骤2中，所述的时间序列GAN模型：

所述的标签生成器G₁，用于生成标签，时间序列GAN模型利用G₁生成的标签，同时约束特征序列生成器G₃；使用多层感知器来生成one-hot编码格式的标签；

所述的边界生成器G₂，为了生成具有保真性的轨迹段，利用网络结构为多层感知器的G₂生成经度、纬度和时间间隔的max和min边界，该边界同样用于约束特征序列生成器G₃的轨迹点序列；

所述的元数据鉴别器D₁，采用多层感知器网络结构，与G₁、G₂相互对抗；所述元数据meta由G₁和G₂生成的标签、max和min边界组成，将G₁、G₂生成元数据的操作用

表示，

所述的特征序列生成器G₃，采用长短期记忆网络，其输入数据Z^f包含两部分：元数据以及若干随机高斯噪声；Z^f为长度为n，n对应G₃中长短期记忆网络单元的个数，空间大小为

则表示生成特征序列的操作；

5.根据权利要求2所述的一种时间序列GAN数据增强下露天矿卡状态识别的半监督方法，其特征是：步骤2中，所述时间序列GAN的总体损失函数为：

其中α＝1；G₁、G₂和D₁应实现如下损失函数

其中

表示G₁、G₂的元数据分布，

是元数据的数据分布，GP_A表示对随机样本

的梯度范数实施软性约束，λ的取值一般为10，t～Unif[0,1]；G₃和D₂应实现损失函数

其中，

表示G₃的特征序列分布，

是特征序列的数据分布，GP_B表示对随机样本

的梯度范数实施软性约束，λ的取值一般为10，t～Unif[0,1]。

6.根据权利要求2所述的一种时间序列GAN数据增强下露天矿卡状态识别的半监督方法，其特征是：步骤2中，所述训练时间序列GAN的步骤如下：通过总体目标函数对时间序列GAN模型进行多轮交替训练直至达到纳什均衡时训练停止，其中生成器和鉴别器的单次训练轮数都为1时模型可以稳定训练；当达到纳什均衡时时间序列GAN模型中的生成器和鉴别器都达到最优状态；利用G₃生成有标签轨迹段，使得有标签轨迹段中不同卡车运行状态的轨迹段数据量相同，用于半监督联合模型的输入。

7.根据权利要求2所述的一种时间序列GAN数据增强下露天矿卡状态识别的半监督方法，其特征是：步骤3中，时间序列GAN生成的有标签轨迹段和原有的无标签轨迹段只包括轨迹点的经纬度位置信息和时间戳，无法有效地表示出轨迹段的运动特征；通过计算轨迹两点之间的相对距离和每个点的速度、加速度和方向角运动特征作为半监督联合模型的输入数据；

所述不同轨迹段多运动特征计算方法如下：

对于任意一条轨迹段

或是

利用如下公式计算出对应的运动特征，

其中，

分别表示相对距离、时间间隔、距离、加速度和方向角；Vincenty()为计算两点之间的地理距离，Head()为计算两点之间的方向角；多个点组成序列，叠加这些特征序列构造成多运动特征序列，即运动特征矩阵x_i＝{x_i1,x_i2,…x_ih,…,x_in}，n是序列长度，x_ih＝(RD_h,S_h,A_h,J_h,Head_h)，