CN112183576B

CN112183576B - 一种基于不均衡数据集的Time-LSTM分类方法

Info

Publication number: CN112183576B
Application number: CN202010864581.9A
Authority: CN
Inventors: 曹坤; 徐文波; 杨瑞; 许文俊; 秦垒垒; 吴涛
Original assignee: Longwen Huafeng Beijing Technology Co ltd; Beijing University of Posts and Telecommunications
Current assignee: Longwen Huafeng Beijing Technology Co ltd; Beijing University of Posts and Telecommunications
Priority date: 2020-08-25
Filing date: 2020-08-25
Publication date: 2022-12-27
Anticipated expiration: 2040-08-25
Also published as: CN112183576A

Abstract

本发明公开了一种基于不均衡数据集的Time‑LSTM分类方法，包括：获取移动终端的原始数据集；对所述原始数据集进行数据预处理；根据预处理之后的数据集使用Time‑LSTM模型对移动终端的类别进行识别；输出移动终端的预测类别。本发明提供的数据均衡方法能够在很大程度上消除各类别数据集不均衡给分类带来的不良影响，从而较为准确地识别移动终端的类型。另外，本发明采用的Time‑LSTM模型能够利用时间间隔控制当前输入对分类结果的影响，从而捕捉到更多的潜在分类特征，提高了整体分类准确率。

Description

一种基于不均衡数据集的Time-LSTM分类方法

技术领域

本发明涉及类型识别的技术领域，尤其涉及一种基于不均衡数据集的Time-LSTM分类方法。

背景技术

如今，深度学习已经在图像、语音、自然语言处理、大数据特征提取等方面应用广泛，成为大数据时代的算法利器。其中，传统RNN结构中的记忆单元能够存储输入信息，处理时间序列问题，但不能解决长期依赖问题。由传统RNN演变而来的长短时记忆网络LSTM能够对有价值的信息进行长期记忆，但未考虑输入序列的时间间隔，忽略了时间间隔这一重要特征。因此，将输入序列的时间间隔作为LSTM建模和网络参数更新的重要因素，是提高模型性能的关键。

另一方面，分类技术的实际应用场景中往往存在数据集不均衡的现象，即可以获得的某一类数据远远多于另一类数据。基于这一不均衡数据集进行分类器的训练，势必得到具有偏向性的分类器，严重影响分类结果。因此，如何处理实际场景中的不均衡数据集，提高分类器的普适性，具有重要的研究意义。

发明内容

为解决现有技术存在的局限和缺陷，本发明提供一种基于不均衡数据集的Time-LSTM分类方法，包括：

获取移动终端的原始数据集，所述原始数据集包括多行数据，每行数据代表一个时间点的测量样本，每个样本包括ID、测量时间、场强、终端类别标签，ID相同的样本属于一个ID数据ID_sample；

对所述原始数据集进行数据筛选；

对数据筛选之后的数据集进行数据分布均衡和样本扩充；

根据日期和时间计算每个样本的时间间隔；

随机选取A类ID_sample的70％和B类ID_sample的70％，所述选取的ID_sample作为训练集，其余的ID_sample作为测试集；

根据数据集之中的场强对数据集进行归一化处理；

使用归一化之后的数据集对Time-LSTM模型进行训练；

根据移动终端的场强信息和时间间隔信息，使用训练之后的Time-LSTM模型识别移动终端的类别；

输出移动终端的预测类别。

可选的，所述根据数据集之中的场强对数据集进行归一化处理的步骤包括：

场强为0的样本归一化处理之后的场强仍为0；

场强非零的样本归一化处理之后的场强的最小值为0.1；

场强非零的样本归一化处理之后的场强的最大值为1。

可选的，所述Time-LSTM模型设置有时间门T₁和时间门T₂，所述时间门T₁根据时间间隔捕捉当前输入的特点，所述时间门T₂根据时间间隔捕捉移动终端在整个移动阶段的特点。

可选的，所述对所述原始数据集进行数据筛选的步骤包括：

剔除A类ID_sample和B类ID_sample之中样本数量为1的数据，以保证每个ID_sample具有预设的时间间隔信息。

可选的，所述对数据筛选之后的数据集进行数据分布均衡和样本扩充的步骤包括：

对数据筛选之后的数据集进行等间隔采样；

对B类ID_sample之中各个样本的时间段分布进行均衡处理；

扩大B类ID_sample之中各个样本的时间间隔，同时扩充B类数据集。

可选的，还包括：

使用评价指标loss对Time-LSTM模型进行评价，所述评价指标loss为交叉熵损失函数，所述评价指标loss的计算公式如下：

其中，y_t为ID_sample的类别，y_p为Time-LSTM模型的输出；

若输出y_p最大值的索引与实际值y_t最大值的索引相同，判断分类正确；

若输出y_p最大值的索引与实际值y_t最大值的索引不同，判断分类错误。

本发明具有下述有益效果：

本发明提供的一种基于不均衡数据集的Time-LSTM分类方法，包括：获取移动终端的原始数据集；对所述原始数据集进行数据预处理；根据预处理之后的数据集使用Time-LSTM模型对移动终端的类别进行识别；输出移动终端的预测类别。本发明提供的数据均衡方法能够在很大程度上消除各类别数据集不均衡给分类带来的不良影响，从而较为准确地识别移动终端的类型。本发明采用的Time-LSTM模型能够利用时间间隔控制当前输入对分类结果的影响，从而捕捉到更多的潜在分类特征，提高了整体分类准确率。

附图说明

图1为本发明实施例一提供的基于不均衡数据集的Time-LSTM分类方法的总框图。

图2为本发明实施例一提供的基于不均衡数据集的Time-LSTM分类方法的原始数据结构示意图。

图3为本发明实施例一提供的基于不均衡数据集的Time-LSTM分类方法的B类ID_sample划分示例图。

图4为本发明实施例一提供的基于不均衡数据集的Time-LSTM分类方法的Time-LSTM模型结构示意图。

图5为本发明实施例一提供的第一方案之中loss随着epoch变化图。

图6为本发明实施例一提供的第一方案之中acc随着epoch变化图。

图7为本发明实施例一提供的第一方案之中A类终端与B类终端的分类准确率。

图8为本发明实施例一提供的第二方案之中acc随着epoch变化图。

图9为本发明实施例一提供的第二方案之中A类终端与B类终端的分类准确率。

图10为本发明实施例一提供的第三方案之中loss随着epoch变化图。

图11为本发明实施例一提供的第三方案之中acc随着epoch变化图。

图12为本发明实施例一提供的第三方案之中A类终端与B类终端的分类准确率。

具体实施方式

为使本领域的技术人员更好地理解本发明的技术方案，下面结合附图对本发明提供的基于不均衡数据集的Time-LSTM分类方法进行详细描述。

实施例一

本实施例的任务是识别移动终端的类型，不失一般性，假设待分类的终端有两种：A类终端和B类终端。这两类终端的所在高度和移动速度有明显的差异。由于终端在移动过程中连续不断地发出信号，可以将终端看作信号源，用多个接收节点AP₁,AP₂,…AP_n不断检测信号源场强。其中，场强是终端到相应接收点距离的函数，场强变化程度是终端移动速度的函数。对于每一类终端，数据采集环境中都可能存在多个不同ID的终端个体。

由于两类终端的高度和速度存在差别，而且终端在检测过程中处于移动状态，体现为多个接收节点在不同时间点接收到的场强大小(F₁,F₂,…F_n)及时间间隔信息Δt具有不同的潜在特性，可作为识别终端的特征。并且，由于实际场景中往往存在不同类型终端的数据数量不均衡的情况，即分类器能够获取的某类终端数据远多于另一类终端数据，本实施例提供的技术方案针对这一情况进行研究，研究的总体思想如图1所示。图1为本发明实施例一提供的基于不均衡数据集的Time-LSTM分类方法的总框图。

本实施例假设B类终端的ID个数较少，与A类ID数相差较大。并且本实施例考虑更具有挑战性的场景，即B类终端所对应数据的获取时间分布不均匀(本实施例提供的分类方法同样适用于时间分布均匀的情况)。一方面，接收节点AP₁,AP₂,…AP_n不断地检测信号源，并记录信号源的相关信息，每条数据包含所采集信号源的ID、n个接收节点的接收场强大小和测量时间。另一方面，对于同一个ID的信号源，会在不同时间点采集到多条数据。本实施例定义：一个时间点的数据(包含：场强信息和时间信息)是一个样本，ID相同的样本属于同一个ID数据ID_sample，即一个ID对应于一个ID_sample，每个ID_sample包含若干样本。当A类终端的信号源数远大于B类终端的信号源数时，会出现两类终端的ID_sample数极不均衡。这一不均衡的现象会严重影响分类结果，如果不进行任何处理，常见的分类器会将测试数据大概率判为A类终端。因此，本实施例采用间隔采样的方式扩大B类终端ID_sample中各个样本的时间间隔，并以此扩充ID_sample数，解决ID个数少的问题。

由于终端处于移动状态，接收设备能够在多个时间点检测到该终端，每个时间点测的数据为一个样本，可得到多个样本，可以将其看作一个序列。由于场强随时间的变化是一个动态过程，每个样本的数据均影响类型的判定，传统RNN虽然适合处理序列，但不能解决长期依赖问题。因此，需要采用长短期记忆网络(Long Short-Term Memory，LSTM)对有价值的信息进行长期记忆。另外，由于同一ID_sample的不同样本之间的时间间隔不均匀，该时间间隔可以作为分类的关键特征，而LSTM并不能有效利用该时间间隔信息，因此本实施例提供的技术方案采用了能够利用不等时间间隔的Time-LSTM网络进行分类。

为了验证本实施例提供的技术方案的合理性和有效性，本实施例还对比了两种不同的方案：第一，传统LSTM对该问题的分类性能；第二，不对B类数据进行间隔采样和数据集扩充时，Time-LSTM的分类性能。

图2为本发明实施例一提供的基于不均衡数据集的Time-LSTM分类方法的原始数据结构示意图。如图2所示，数据集中共包含若干行数据，各个ID对应的数据行数不尽相同，每一行代表一个时间点的测量数据。本实施例将每一行的数据看作一个样本，每个样本包含在某个时间测得的14种信息，依次为：ID、测量时间Time(格式为yyyy-mm-dd-hh:mm:ss)、场强F₁,F₂,…F_n、标签label(A类为1，B类为0)。ID相同的样本被划分到同一个ID_sample中，即一个ID_sample由多个样本构成。

在按照ID划分ID_sample时，会将具有相同ID的不同采集时间的两批数据划分在同一个ID数据ID_sample中。然而对于实际测量数据，如果同一终端的测量日期间隔太久(例如，对于同一个ID的终端，测量的第一批数据的日期均在2月份，第二批数据的日期均在5月份)，那么这两批数据的时间间隔过大，可能会具有不同的特性。为了解决这个问题，对第二批数据的ID进行人为修改，虽然这两批数据具有相同的物理ID，但本实施例仍强制将它们归入不同的ID进行后续处理。

由于分类是基于多个时间点的数据进行的，需要充足的时间信息。因此，训练模型前需要对数据进行筛选处理，首先进行数据筛选，剔除两类ID_sample中样本个数为1的数据，以保证每个ID_sample具有足够的时间间隔信息。然后进行数据集的均衡和样本扩充，B类终端的ID很少，每个ID_sample对应的样本数只有上百个，且B类ID_sample中各样本的时间段分布不均匀。因此为了扩大B类ID_sample中各样本的时间间隔，同时扩充B类数据集，采用了对原始数据进行等间隔采样的方法。为了避免样本个数对分类结果的不良影响，等间隔采样的间隔在一定范围内随机产生，同时保证等间隔采样后的B类数据集包含ID_sample对应的样本数较少的情况，且ID_sample中各样本测量时间的分布与A类ID_sample样本测量时间的分布相近。

本实施例通过实验可以得出：ID_sample包含的样本越多，其类别特征越明显，分类效果越好。同时，为了保证B类ID_sample数量充足，对某一个ID_sample的时间样本进行采样，得到新ID’_sample数据集及其样本。具体处理方式为：假设原来一个B类ID_sample包含的样本数为M，记各个样本为t₀,t₁,…,t_M-1。设定新的B类ID’_sample所包含样本个数在[k₁,k₂]范围内随机产生，记为数字k。定义

则某一个ID_sample能够产生的新ID’_sample个数为N，而同一个新ID’_sample的两个相邻样本的采样间隔为Δt＝N。例如：原始ID_sample产生的第一个新ID’_sample包含样本t₀、t_N、t_2N、t_3N、…、t_(k-1)N；原始ID_sample产生的第二个新ID’_sample包含样本t₁、t_N+1、t_2N+1、t_3N+1、……、t_(k-1)N+1；以此类推。这N个ID’_sample数据被赋予新的ID号，以进行后续处理(ID仅作为划分ID’_sample的标志，无实际意义)。其中，个别新ID’_sample的样本数是k-1，而不是k，这是因为原ID_sample的样本总数不是k的整数倍，如图3所示。图3为本发明实施例一提供的基于不均衡数据集的Time-LSTM分类方法的B类ID_sample划分示例图。其他B类ID_sample也采用类似的处理方式。

本实施例对每个ID_sample中的各样本，根据日期和时间计算时间间隔。将每一个样本的第一个时间间隔设置为0，其余为当前时刻与上一时刻的差值，单位为秒。即把时间特征转换为时间间隔特征。本实施例进行测试集和训练集划分，为保证测试集和训练集中两类ID数目均衡，随机选取A类ID_sample和B类处理后得到ID’_sample的70％，合在一起作为训练集(定义为ID_tr)，其余作为测试集。

输入网络前需要对场强归一化，这里将n个接收节点的场强一起归一化处理。由于n个接收节点与源端距离不同，每次有部分节点可以接收到信号，具有接收场强。对于一个有m个样本的ID_sample(或ID’_sample)来说，每个样本包含n个场强信息，则该ID_sample(或ID’_sample)的场强矩阵维度为m×n。由于具有很多0值的接收场强，相当于一个稀疏矩阵。中心化稀疏数据将会破坏数据的稀疏性，为了维持稀疏矩阵中为0的数据，需要对场强缩放到一定范围内。采取的归一化措施为：0场强仍为0场强，而非零场强最小值归一化为0.1，非零场强最大值归一化为1。

设置接收节点AP₁,AP₂,…AP_n在终端移动过程中会测得多组数据，每组数据包含的信息为终端ID、测量时间t、场强F₁,F₂,…F_n。终端各个时间点的数据共同反映了终端的移动特点，因此时间间隔信息对模型建立十分关键，能够显著提升分类效果。通常情况下，LSTM模型由输入门、遗忘门和输出门控制，本实施例提供的Time-LSTM模型建立了两个时间门T₁和T₂，T₁利用时间间隔捕捉当前输入的特点，T₂利用时间间隔捕捉终端在整个移动阶段的特点，并耦合输入和忘记门以减少参数数量。Time-LSTM模型的结构如图4所示，图4为本发明实施例一提供的基于不均衡数据集的Time-LSTM分类方法的Time-LSTM模型结构示意图。

图中各符号的含义为：x_t表示输入的场强数据；Δt表示时间间隔数据；I_t为输入门，控制输入信息x_t和h_t-1有多少加入到cell中；O_t为输出门；T_1t和T_2t分别表示时间门1和时间门2；C_t-1和C_t分别表示前(t-1)个时间片积累的信息和前t个时间片积累的信息；C～_t用于存储时间间隔信息；h_t-1和h_t分别表示前(t-1)个时间片和前t个时间片后的cell输出。

本实施例的任务是根据终端在一段时间内的场强、时间间隔信息，识别其类型。数据输入网络前，还需要对label进行one-hot编码处理：A类ID_tr的目标输出值label为01，B类为10。经过上述的数据预处理及上述处理，将处理后的数据作为深度学习代码的输入，用于训练和测试。

在训练阶段，每次输入batch_size个ID_tr数据到Time-LSTM模型，输入信息为ID_tr各个样本的n个场强F₁,F₂,…F_n以及当前测量时间点与上一个时间点的时间间隔信息，一个ID_tr对应一个输出。隐含层节点数128，且在模型中进行BN处理，以加快网络收敛速度，防止梯度消失或爆炸。最后，通过全连接层(节点数为2)和softmax计算，得到预测的两位输出y_p，维度为(batch_size,2)。

训练过程中，网络采用AdaGrad算法，根据训练阶段的梯度自动计算合适的学习率，随着迭代次数增加，学习率不断下降。one-hot标签y_t表示ID_tr的类型(01表示A类，10表示B类)。网络的评价指标loss为交叉熵损失函数categorical_crossentropy，acc为分类的准确率。根据y_t和y_p计算loss：

判断分类是否正确的准则是：网络输出y_p最大值的索引是否与实际值y_t最大值的索引相同。

本实施例采用的数据由11个接收节点测量而来，即n＝11，B类数据的测量日期为十天左右。将经过2.1节处理后的原始数据整合到一个文件中，文件共包含17598行数据，其中9630行属于A类终端，7968行属于B类终端。A类终端ID数为819，B类终端ID数为12，每个ID对应若干行行数不等的数据。

本实施例进行以下三种方案的研究：第一方案：对B类数据进行间隔采样和扩充数据集处理，并采用Time-LSTM模型进行分类，即本实施例提出的方案；第二方案：不对B类数据进行间隔采样和扩充数据集处理，即输入Time-LSTM网络的两类ID_sample数相差较大；第三方案：对B类数据进行间隔采样和扩充数据集处理，采用传统LSTM模型进行分类。

在第一方案中，本实施例对B类数据均衡数据并扩充ID_sample数，设定间隔取样的间隔k∈[2,15]，最终得到划分后的新ID’_sample的样本数量取值为：6、2、7、7、8、10、5、10、12、12、15、7。根据ID划分ID数据ID_sample，得到B类ID’_sample数941、A类ID_sample数819，共1760个ID数据。随机取其中的70％作为训练集，30％作为测试集，并对其进行归一化等处理。

图5为本发明实施例一提供的第一方案之中loss随着epoch变化图。图6为本发明实施例一提供的第一方案之中acc随着epoch变化图。图7为本发明实施例一提供的第一方案之中A类终端与B类终端的分类准确率。设置batch_size＝64，初始学习率lr＝0.005，每轮训练结束后，将测试集输入模型检验。图5和图6分别表示loss和acc随训练轮次epoch变化的情况，红色曲线表示测试集，蓝色曲线表示训练集；图7表示了测试集中A、B两类数据准确度随epoch的变化趋势。

结果显示：测试集的整体准确率可以达到98.8％，其中，A类终端分类准确率可达99％以上，B类终端分类准确率可达98％以上，即能够较为准确地识别终端类型。

图8为本发明实施例一提供的第二方案之中acc随着epoch变化图。图9为本发明实施例一提供的第二方案之中A类终端与B类终端的分类准确率。直接根据终端ID划分ID_sample，得到A类ID_sample数819，B类ID_sample数12。将预处理后的数据输入Time-LSTM网络，实验参数为：batch_size＝64，初始学习率lr＝0.005，每轮训练结束后，将测试集输入模型检验。图8给出了训练集和测试集分类准确度随训练轮次变化的趋势，图9为测试集中A、B两类终端的分类准确率。

结合图8和图9可知，网络将A、B类终端均判定为A类，即ID_sample数量不均衡造成了整体分类准确度高的假象。

第三方案采用与第一方案相同的方式进行数据处理，不同之处在于：传统LSTM没有时间门，因此，将时间间隔与11个场强一起作为分类特征输入网络。同样，在输入LSTM前，需要对时间间隔数据进行归一化。

图10为本发明实施例一提供的第三方案之中loss随着epoch变化图。图11为本发明实施例一提供的第三方案之中acc随着epoch变化图。图12为本发明实施例一提供的第三方案之中A类终端与B类终端的分类准确率。设置batch_size＝64，初始学习率lr＝0.005，每轮训练结束后，将测试集输入模型检验。图10和图11分别表示loss和acc随训练轮次epoch变化的情况，红色曲线表示测试集，蓝色曲线表示训练；图12表示测试集中A、B两类终端准确度随epoch的变化趋势。

结果显示：采用传统LSTM模型，测试集的整体分类准确率为95％。其中，A类终端分类准确率在93％左右，B类终端分类准确率在97％左右。

对比第一方案和第三方案的仿真结果可知，在同样使用Time-LSTM模型的情况下，本实施例提出的数据均衡方法能够在很大程度上消除ID_sample数不均衡给分类带来的不良影响，从而较为准确地识别终端的类型。

对比第一方案和第三方案的仿真结果可知，在同样使用间隔采样和数据集扩充处理B类数据的情况下，Time-LSTM能够利用时间间隔控制当前输入对分类结果的影响，从而捕捉到更多的潜在分类特征。整体分类准确度可以达到98.8％，A类终端分类准确率可达99％以上，B类终端分类准确率可达98％以上，均高于传统LSTM的结果，即提高了分类的准确度。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种基于不均衡数据集的Time-LSTM分类方法，其特征在于，包括：

对所述原始数据集进行数据筛选；

对数据筛选之后的数据集进行数据分布均衡和样本扩充；

根据日期和时间计算每个样本的时间间隔；

根据数据集之中的场强对数据集进行归一化处理；

使用归一化之后的数据集对Time-LSTM模型进行训练；

输出移动终端的预测类别；

所述对所述原始数据集进行数据筛选的步骤包括：剔除A类ID_sample和B类ID_sample之中样本数量为1的数据，以保证每个ID_sample具有预设的时间间隔信息；

所述对数据筛选之后的数据集进行数据分布均衡和样本扩充的步骤包括：

对数据筛选之后的数据集进行等间隔采样；

对B类ID_sample之中各个样本的时间段分布进行均衡处理；

2.根据权利要求1所述的基于不均衡数据集的Time-LSTM分类方法，其特征在于，所述根据数据集之中的场强对数据集进行归一化处理的步骤包括：

场强为0的样本归一化处理之后的场强仍为0；

场强非零的样本归一化处理之后的场强的最小值为0.1；

场强非零的样本归一化处理之后的场强的最大值为1。

3.根据权利要求1所述的基于不均衡数据集的Time-LSTM分类方法，其特征在于，所述Time-LSTM模型设置有时间门T₁和时间门T₂，所述时间门T₁根据时间间隔捕捉当前输入的特点，所述时间门T₂根据时间间隔捕捉移动终端在整个移动阶段的特点。

4.根据权利要求1所述的基于不均衡数据集的Time-LSTM分类方法，其特征在于，还包括：

其中，y_t为ID_sample的类别，y_p为Time-LSTM模型的输出；