CN112925782B

CN112925782B - 一种基于lstm预测和平滑分析思想的轨迹数据压缩方法

Info

Publication number: CN112925782B
Application number: CN202110271860.9A
Authority: CN
Inventors: 陈雪松; 杨智应
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2024-01-23
Anticipated expiration: 2041-03-12
Also published as: CN112925782A

Abstract

一种基于LSTM预测和平滑分析思想的轨迹数据压缩方法，基于LSTM预测的移动对象轨迹数据压缩方法，将深度学习模型应用到传统的轨迹压缩领域，使用神经网络预测得到距离误差和方向误差，并采用平滑分析的思想确定压缩阈值，不需要人为设定误差阈值，并且本发明同时考虑距离和方向，充分保留了原始轨迹的重要信息，相比于传统的轨迹压缩算法，本发明根据压缩轨迹自身的特点得到误差和确定误差阈值，能够更好的适用于具有不同特点的轨迹数据，解决了传统的轨迹压缩算法压缩效果差，人为寻找误差和设定误差阈值实验繁琐的问题。

Description

一种基于LSTM预测和平滑分析思想的轨迹数据压缩方法

技术领域

本发明涉及一种基于LSTM预测和平滑分析思想的轨迹数据压缩方法。

背景技术

随着GPS、RFID、无线传感器等技术设备的普及应用，产生了大量的移动对象轨迹数据，轨迹数据量以指数暴涨，对这些数据所蕴含的丰富信息进行提取成为了当下较为火热的研究方向之一。然而，轨迹数据的日益增加给现有的研究和存储设备都带来了巨大的挑战：数据量巨大、查询时间增长，数据冗余，因此对移动对象轨迹数据进行压缩成为当务之急。解决这三个问题可以通过使用减少轨迹数据的算法来解决。连续移动的物体采集到的轨迹数据是包含位置信息的离散轨迹点，越是以较高频率采集的运动物体的位置信息，越是接近原始物体真实的运动情况。因此，如何设计更好的轨迹压缩算法是解决问题的关键。

大规模轨迹数据的不断增加的同时，许多研究者提出了大量的轨迹压缩算法，用来减少冗余，保留对轨迹位置特征贡献大的轨迹点。传统的轨迹数据的压缩算法主要分为以下三类：

1、轨迹的线段压缩：轨迹的线段压缩通过设定误差阈值，在允许的误差阈值范围内用更少的点来表示原来的轨迹，需要关注的是算法的准确率和压缩比，删除了误差较小的点，保留误差较大即对轨迹贡献较大的点，它的主要目的就是输入一条轨迹曲线，用一条包含更少的轨迹点的曲线来近似的代替原来的曲线，并且要保证这条曲线与原始的曲线之间的误差较小。轨迹数据相比于普通的曲线，轨迹数据包含位置信息的同时，还包括了时间、速度和方向信息。轨迹的线段压缩误差阈值需要人为设定，需要不断尝试不同的误差阈值来查看实验效果，找到对应轨迹相对较优的误差阈值，操作过程十分繁琐。

轨迹的线段压缩又分为离线压缩和在线压缩两种。离线压缩算法是在获得完整的轨迹数据后进行压缩；在线压缩是随着移动对象的移动实时的对采集到的轨迹点进行取舍。

2、基于路网的轨迹压缩：移动对象的运动在一定地理空间范围内要受到路网结构的约束，路网结构是有限的，对那些空间信息相同的轨迹点只选择保留一份；在原始的轨迹数据中加入路网结构可以保证轨迹落在路段上，路网结构的不随意更改又使其具有稳定性。因为路网结构具有有限性和稳定性的优势，因此比较适合处理车辆轨迹，将车辆轨迹数据序列匹配成相对应的路段序列之后再进行压缩，基于路网的轨迹压缩因为路网的稳定性，局限于车辆的轨迹压缩，应用对象相对单一。

3、基于语义的轨迹压缩：人们不能理解原始轨迹和路网轨迹，但是可以理解语义轨迹，语义轨迹压缩是将一条轨迹进行拆分，拆分的各个事件，通过阅读语义轨迹，可以清楚地理解所阅读轨迹的起点、终点以及行驶的路段，这种轨迹压缩方法对原始轨迹提取了概要，不仅压缩了数据量，而且也使得轨迹的行为便于理解，输入一条原始轨迹就可以输出一段描述性文字，大体描述轨迹的行驶特征以及经过的重要位置。这种压缩方法在一定程度上减少了空间开销，但同时也丢失了具体的位置信息。

发明内容

本发明的目的在于提供一种基于LSTM预测和平滑分析思想的轨迹数据压缩方法，基于LSTM预测的移动对象轨迹数据压缩方法，将深度学习模型应用到传统的轨迹压缩领域，使用神经网络预测得到距离误差和方向误差，并采用平滑分析的思想确定压缩阈值，不需要人为设定误差阈值，同时考虑距离和方向，充分保留了原始轨迹的重要信息，根据压缩轨迹自身的特点得到误差和确定误差阈值，能够更好的适用于具有不同特点的轨迹数据。

为了达到上述目的，本发明提供一种基于LSTM预测和平滑分析思想的轨迹数据压缩方法，包含以下步骤：

步骤S1、对采集的原始轨迹数据进行数据清洗；

步骤S2、制作网络模型输入的数据集格式，将数据清洗后的数据归一化，划分数据集后制作多维多步网络输入数据集；

步骤S3、处理后的轨迹作为网络输入，输入基于LSTM的预测网络模型得到预测轨迹，保存预测得到的轨迹数据；

步骤S4、恢复轨迹数据格式，多维多步数据格式恢复为最初的数据格式；

步骤S5、预测得到的数据集反归一化；

步骤S6、采用平滑分析的思想确定压缩所选取的误差阈值的范围，在随机产生的邻域半径内计算预测轨迹与数据清洗后的轨迹的距离和方向误差，得到压缩阈值SED误差和角度阈值Angle-Deviation；

步骤S7、根据确定的误差阈值压缩原始轨迹，保留大于误差阈值的原始轨迹点，保留点即为压缩后的轨迹。

所述步骤S1中对采集的原始轨迹数据进行数据清洗的方法包含：

缺失值的处理：删除某个特征的缺失值大于50％的轨迹，对于小于50％的轨迹使用均值填充；

去除异常点：去除速度大于25米每秒的轨迹点；

去除重复点：去除经纬度和高度重复的轨迹点。

所述步骤S2中制作网络模型输入的数据集格式的方法包含：

数据归一化：使用min—max标准化，让所有的轨迹数据最终落在[0,1]之间；

分割数据集大小：按照4:1划分处理后的轨迹数据为训练集train和测试集test；

制作网络输入所需多维多步的数据集格式：数据特征维度使用轨迹数据中的经度longitude、纬度latitude和海拔高度altitude三个维度数据，数据量维度设置为使用前3个时刻的轨迹数据，时间步长维度设置为3，预测后3个时刻步长的轨迹状态，定义轨迹集制作函数的回滚参数look_back为3，预测轨迹步长predict_n为3，依次添加到制作的数据集中，训练集train和测试集test使用数据集制作函数得到训练集train_X、train_Y和测试集test_X、test_Y。

所述步骤S3中的设计基于LSTM的预测网络模型的方法包含：

预测网络模型包含4层LSTM网络和1层全连接层Dense；

在每一层的LSTM网络设置Dropout层；

误差函数使用均方误差MSE；

优化器为ADam。

所述步骤S4中恢复轨迹数据格式的方法包含：

预测得到的数据是多维多步的三维数组形式数据，三维数组数据中每一个元素是一个二维数组，读取到的二维数组形式为(3,3)；

提取每一个读取到的二维数组的首行元素，所有提取到的首行元素合并为新的二维数组；

最终提取到的二维数组为最初的数据格式。

所述步骤S6中采用平滑分析的思想确定压缩所选取的误差阈值的范围的方法包含：

计算预测轨迹与数据清洗后的轨迹之间对应轨迹点的空间距离d；

随机产生随机半径k，k为正整数；

从预测轨迹的第k+1个点p_k开始选取其前k个点与后k个点，寻其与数据清洗后的轨迹所对应的空间距离d，寻找2k+1个点的最大空间距离值d_max，并记下当前点的索引值i，再从k+2个点继续此操作，以此类推，寻找后续点在邻域K内的最大空间距离d的索引值；

去掉索引数组中的重复索引值；

计算数据清洗后的轨迹在对应索引值点的同步欧氏距离误差sederror，选择所有同步欧氏距离误差sederror中的最大值和最小值记为sederror_max，sederror_min，计算sederror_max，sederror_min的平均误差sederror_mean，sederror_mean即为压缩算法的同步距离误差阈值；

分别计算预测轨迹与数据清洗后的轨迹各自的角度偏差Angle-Deviation；

从预测轨迹的第k+1个点p_k开始选取其前k个点与后k个点，寻其与数据清洗后的轨迹所对应的角度偏差Angle-Deviation之差的绝对值，计算2k+1个点的平均误差值angleerror_k，记为当前点p_k的平均误差，以此类推，计算后续点在邻域K的平均误差；

选取在随机半径k下平均误差的最大值和最小值记为angleerror_max，angleerror_min，计算angleerror_max，angleerror_min的平均误差angleerror_mean，angleerror_mean即为压缩算法的同步距离误差阈值。

计算同步欧氏距离sed的方法包含：

原始轨迹中的一个点p_i，p_i在某个轨迹段内存在一个与之时间属性一致的对应点p_i′，同步欧式距离就是指p_i与p_i′之间的距离，对应点p_i′(x_i,y_i)坐标位置的具体计算公式如下：

Δe＝t_e-t_s

Δi＝t_i-t_s

由此可得，同步欧式距离的计算公式如下：

计算角度偏差Angle-Deviation的方法包含：

设定轨迹点的索引值i为整数a，b，m，n，其中a>b，m>n，则得到两个轨迹段用和/>表示，规定方向用θ表示，θ的范围为[0,2π]，两个轨迹段/>和/>的方向为和/>则轨迹段/>和/>的角度差定义为/>

移动点P_m在P_m的角度偏移量定义为轨迹点P_m的角度偏差，使用符号P_m.εd表示，其中，角度差为修正角度差为角度偏差：当Δθ≤—π时，P_m.εd＝Δθ+2π；当π＞Δθ＞—π时，P_m.εd＝Δθ；当π≤Δθ时，P_m.εd＝Δθ-2π。

所述步骤S7中根据确定的误差阈值压缩原始轨迹的方法包含：

设定压缩距离误差阈值为sederror_mean，角度误差阈值为angleerror_mean；

从数据清洗后的第一个轨迹点p₀开始选取保留的轨迹点，若p_i的欧式距离sed误差大于sederror_mean或者角度偏差Angle-Deviation大于angleerror_mean，p_i被保留，否则p_i将从原轨迹中被删除；

最终保留的轨迹点集合为最终的压缩轨迹。

本发明解决了传统的轨迹压缩算法压缩效果差，人为寻找误差和设定误差阈值实验繁琐的问题。本发明提出基于LSTM预测的移动对象轨迹数据压缩方法，将深度学习模型应用到传统的轨迹压缩领域，使用神经网络预测得到距离误差和方向误差，并采用平滑分析的思想确定压缩阈值，不需要人为设定误差阈值，并且本发明同时考虑距离和方向，充分保留了原始轨迹的重要信息，相比于传统的轨迹压缩算法，本发明根据压缩轨迹自身的特点得到误差和确定误差阈值，能够更好的适用于具有不同特点的轨迹数据。

附图说明

图1是本发明实施例中提供的一种轨迹数据压缩方法的流程图。

图2是本发明实施例中的数据集格式图。

图3是本发明实施例中涉及到的LSTM神经网络原理图。

图4是本发明实施例中的LSTM预测网络模型图。

图5是本发明实施例中的同步欧氏距离SED误差原理图。

图6是本发明实施例中的角度偏差Angle-Deviation计算原理图。

图7是本发明实施例中的角度偏差Angle-Deviation修正范围图。

具体实施方式

以下根据图1～图7，具体说明本发明的较佳实施例。

本实施例中提供了一种基于LSTM预测和平滑分析思想的轨迹数据压缩方法，把深度学习模型运用到传统的轨迹压缩领域，并同时考虑角度误差Angle-Deviation和同步欧氏距离SED误差，采用平滑分析的思想确定压缩算法的阈值范围，压缩数据量较大的轨迹数据。

如图1所示，本实施例中提供的一种基于LSTM预测和平滑分析思想的轨迹数据压缩方法包含以下步骤：

步骤S1、对采集的原始轨迹数据进行数据清洗；

步骤S5、预测得到的数据集反归一化，便于后续计算；

进一步，所述步骤S1中对采集的原始轨迹数据进行数据清洗的具体步骤包含：

去除异常点：去除速度过大的轨迹点，设定速度上限值为25米每秒；

去除重复点：去除经纬度和高度重复的轨迹点。

所述步骤S2中制作网络模型输入的数据集格式的具体步骤包含：

数据归一化：使用min—max标准化，让所有的轨迹数据最终落在[0,1]之间，避免不同维度量纲不同影响实验效果，有利于后续数据的处理；

制作网络输入所需多维多步的数据集格式：本发明设计多维多步的网络预测模型，数据特征维度使用轨迹数据中的经度longitude、纬度latitude和海拔高度altitude三个维度数据，数据量维度设置为使用前3个时刻的轨迹数据，时间步长维度设置为3，预测后3个时刻步长的轨迹状态，定义轨迹集制作函数的回滚参数look_back为3，预测轨迹步长predict_n为3，依次添加到制作的数据集中，训练集train和测试集test使用数据集制作函数得到训练集train_X、train_Y和测试集test_X、test_Y。

图2所示是本发明技术方案的数据集格式图，数据特征维度为3，分别为经度longitude，纬度latitude，海拔高度altitude；数据量维度为3，表示每次使用前3个时刻数据预测未来的位置；时间步维度为3，每次使用历史时刻轨迹数据预测未来3个时刻位置的轨迹点。

所述步骤S3中的设计基于LSTM的预测网络模型的具体步骤包含：

图3所示是LSTM的原理图，LSTM包括输入门，遗忘门和输出门，LSTM能够避免梯度消失和梯度爆炸的问题。C_t-1是上一时刻的单元状态，h_t-1是上一时刻LSTM的输出值，σ是sigmoid函数，f_t与C_t-1计算决定要丢弃的历史信息，W_f为遗忘门的权重，W_i为输入门的权重，W_o为输出门的权重，X_t是当前网络的输入值，i_t是要保留下来的新信息即输入门，O_t是计算的输出门，C_t是当前时刻的单元状态即新数据形成的控制参数，h_t是当前时刻LSTM的输出值即利用新的控制参数产生输出，b_f是遗忘门偏差，b_i是输入门偏差，b_o是输出门偏差。利用sigmoid函数将网络的记忆状态作为输入计算，如果输出结果达到阈值则将该门输出与当前层计算结果相乘作为下一层输入，如果没有达到阈值则将输出结果遗忘掉。

LSTM的记忆单元在预测某个时刻的输出时会忘记一些不重要的历史信息，记住一些重要的历史信息，遗忘门的输出公式如下：

f_t＝σ(W_f·[h_t-1,X_t]+b_f)

输入门是用来控制输入进出多少或者是否允许进出的门控设备，输入门的计算公式如下：

i_t＝σ(W_i·[h_t-1,X_t]+b_i)

输出门是用来控制时刻状态值C_t中有多少输出到当前时刻LSTM的输出值h_t中，输出门的计算公式为：

O_t＝σ(W_o·[h_t-1,X_t]+b_o)

图4所示是本发明设计的预测网络模型，包括4层LSTM网络加1层全连接层Dense；

为防止网络模型过拟合，在每一层的LSTM设置Dropout层，Dropout层在前向传播的过程中让神经元以一定的概率p停止工作，增强模型的泛化性；最后输出层使用全连接层Dense；激活函数使用relu；输入层shape设置为(3,3)输出维度为3

误差函数使用均方误差MSE；

优化器为Adam。

所述步骤S4具体包含以下步骤：

最终提取到的二维数组为最初的数据格式。

所述步骤S6中，采用平滑分析的思想确定压缩所选取的误差阈值的范围的具体步骤包含：

随机产生随机半径k，k为正整数；

去掉索引数组中的重复索引值；

计算数据清洗后的轨迹在对应索引值点的同步欧氏距离误差sederror，选择所有sederror中的最大值和最小值记为sederror_max，sederror_min，计算sederror_max，sederror_min的平均误差sederror_mean，sederror_mean即为压缩算法的同步距离误差阈值；

从预测轨迹的第k+1个点p_k开始选取其前k个点与后k个点，寻其与数据清洗后的轨迹所对应的角度偏差Angle-Deviation之差的绝对值，计算2+1个点的平均误差值angleerror_k，记为当前点p_k的平均误差，以此类推，计算后续点在邻域K的平均误差；

所述步骤S7中，根据确定的误差阈值压缩原始轨迹的具体步骤包含：

最终保留的轨迹点集合为最终的压缩轨迹。

图5所示是同步欧氏距离sed的计算原理图，原始轨迹中的一个点p_i，p_i在某个轨迹段内存在一个与之时间属性一致的对应点p_i′，同步欧式距离就是指p_i与p_i′之间的距离，图5其中对应点p_i′(x_i,y_i)坐标位置的具体计算公式如下：

Δe＝t_e-t_s

Δi＝t_i-t_s

由此可得，同步欧式距离的计算公式如下：

图6所示是角度偏差Angle-Deviation的计算原理图，设定轨迹点的索引值i为整数a，b，m，n，其中a>b，m>n，则得到两个轨迹段用和/>表示，规定方向用θ表示，θ的范围为[0,2π]，两个轨迹段/>和/>的方向为/>和/>则轨迹段/>和的角度差定义为/>

移动点P_m在P_m的角度偏移量定义为轨迹点P_m的角度偏差，使用符号P_m.εd表示，其中，角度差为在图7中将修正角度差为角度偏差：当Δθ≤—π时，P_m.εd＝Δθ+2π；当π＞Δθ＞—π时，P_m.εd＝Δθ；当π≤Δθ时，P_m.εd＝Δθ-2π。

需要说明的是，在本发明的实施例中，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述实施例，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种基于LSTM预测和平滑分析思想的轨迹数据压缩方法，其特征在于，包含以下步骤：

步骤S1、对采集的原始轨迹数据进行数据清洗；

步骤S5、预测得到的数据集反归一化；

步骤S6、采用平滑分析的思想确定压缩所选取的误差阈值的范围，在随机产生的邻域半径内计算预测轨迹与数据清洗后的轨迹的距离和方向误差，得到压缩距离误差阈值sederror_mean和角度误差阈值angleerror_mean；

随机产生随机半径k，k为正整数；

去掉索引数组中的重复索引值；

计算数据清洗后的轨迹在对应索引值点的同步欧氏距离误差sederror，选择所有同步欧氏距离误差sederror中的最大值和最小值记为sederror_max，sederror_min，计算sederror_max，sederror_min的平均误差sederror_mean，sederror_mean即为压缩算法的压缩距离误差阈值；

选取在随机半径k下平均误差的最大值和最小值记为angleerrOr_max，angleerror_min，计算angleerror_max，angleerror_min的平均误差angleerror_mean，angleerror_mean即为压缩算法的角度误差阈值。

2.如权利要求1所述的基于LSTM预测和平滑分析思想的轨迹数据压缩方法，其特征在于，所述步骤S1中对采集的原始轨迹数据进行数据清洗的方法包含：

去除异常点：去除速度大于25米每秒的轨迹点；

去除重复点：去除经纬度和高度重复的轨迹点。

3.如权利要求2所述的基于LSTM预测和平滑分析思想的轨迹数据压缩方法，其特征在于，所述步骤S2中制作网络模型输入的数据集格式的方法包含：

数据归一化：使用min-max标准化，让所有的轨迹数据最终落在[0，1]之间；

分割数据集大小：按照4∶1划分处理后的轨迹数据为训练集train和测试集test；

4.如权利要求3所述的基于LSTM预测和平滑分析思想的轨迹数据压缩方法，其特征在于，所述步骤S3中的设计基于LSTM的预测网络模型的方法包含：

预测网络模型包含4层LSTM网络和1层全连接层Dense；

在每一层的LSTM网络设置Dropout层；

误差函数使用均方误差MSE；

优化器为Adam。

5.如权利要求4所述的基于LSTM预测和平滑分析思想的轨迹数据压缩方法，其特征在于，所述步骤S4中恢复轨迹数据格式的方法包含：

预测得到的数据是多维多步的三维数组形式数据，三维数组数据中每一个元素是一个二维数组，读取到的二维数组形式为(3，3)；

最终提取到的二维数组为最初的数据格式。

6.如权利要求1所述的基于LSTM预测和平滑分析思想的轨迹数据压缩方法，其特征在于，计算同步欧氏距离sed的方法包含：

原始轨迹中的一个点p_i，p_i在某个轨迹段内存在一个与之时间属性一致的对应点p_i′，同步欧式距离就是指p_i与p_i′之间的距离，对应点p_i′(x_i，y_i)坐标位置的具体计算公式如下：

Ae＝t_e-t_s

Δi＝t_i-t_s

由此可得，同步欧式距离的计算公式如下：

7.如权利要求1所述的基于LSTM预测和平滑分析思想的轨迹数据压缩方法，其特征在于，计算角度偏差Angle-Deviation的方法包含：

设定轨迹点的索引值i为整数a，b，m，n，其中a>b，m>n，则得到两个轨迹段用和表示，规定方向用θ表示，θ的范围为[0，2π]，两个轨迹段/>和/>的方向为和/>则轨迹段/>和/>的角度差定义为/>

移动点P_m的角度偏移量定义为轨迹点P_m的角度偏差，使用符号P_m.εd表示，其中，角度差为修正角度差为角度偏差：当Δθ≤-π时，P_m.εd＝Δθ+2π；当π>Δθ>-π时，P_m.εd＝Δθ；当ο≤Δθ时，P_m.εd＝Δθ-2π。

8.如权利要求6或7所述的基于LSTM预测和平滑分析思想的轨迹数据压缩方法，其特征在于，所述步骤S7中根据确定的误差阈值压缩原始轨迹的方法包含：

从数据清洗后的第一个轨迹点p₀开始选取保留的轨迹点，若p_i的欧氏距离sed误差大于sederror_mean或者角度偏差Angle-Deviation大于angleerror_mean，p_i被保留，否则p_i将从原轨迹中被删除；

最终保留的轨迹点集合为最终的压缩轨迹。