CN112183576B - 一种基于不均衡数据集的Time-LSTM分类方法 - Google Patents

一种基于不均衡数据集的Time-LSTM分类方法 Download PDF

Info

Publication number
CN112183576B
CN112183576B CN202010864581.9A CN202010864581A CN112183576B CN 112183576 B CN112183576 B CN 112183576B CN 202010864581 A CN202010864581 A CN 202010864581A CN 112183576 B CN112183576 B CN 112183576B
Authority
CN
China
Prior art keywords
sample
time
data
data set
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010864581.9A
Other languages
English (en)
Other versions
CN112183576A (zh
Inventor
曹坤
徐文波
杨瑞
许文俊
秦垒垒
吴涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Longwen Huafeng Beijing Technology Co ltd
Beijing University of Posts and Telecommunications
Original Assignee
Longwen Huafeng Beijing Technology Co ltd
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Longwen Huafeng Beijing Technology Co ltd, Beijing University of Posts and Telecommunications filed Critical Longwen Huafeng Beijing Technology Co ltd
Priority to CN202010864581.9A priority Critical patent/CN112183576B/zh
Publication of CN112183576A publication Critical patent/CN112183576A/zh
Application granted granted Critical
Publication of CN112183576B publication Critical patent/CN112183576B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于不均衡数据集的Time‑LSTM分类方法,包括:获取移动终端的原始数据集;对所述原始数据集进行数据预处理;根据预处理之后的数据集使用Time‑LSTM模型对移动终端的类别进行识别;输出移动终端的预测类别。本发明提供的数据均衡方法能够在很大程度上消除各类别数据集不均衡给分类带来的不良影响,从而较为准确地识别移动终端的类型。另外,本发明采用的Time‑LSTM模型能够利用时间间隔控制当前输入对分类结果的影响,从而捕捉到更多的潜在分类特征,提高了整体分类准确率。

Description

一种基于不均衡数据集的Time-LSTM分类方法
技术领域
本发明涉及类型识别的技术领域,尤其涉及一种基于不均衡数据集的Time-LSTM分类方法。
背景技术
如今,深度学习已经在图像、语音、自然语言处理、大数据特征提取等方面应用广泛,成为大数据时代的算法利器。其中,传统RNN结构中的记忆单元能够存储输入信息,处理时间序列问题,但不能解决长期依赖问题。由传统RNN演变而来的长短时记忆网络LSTM能够对有价值的信息进行长期记忆,但未考虑输入序列的时间间隔,忽略了时间间隔这一重要特征。因此,将输入序列的时间间隔作为LSTM建模和网络参数更新的重要因素,是提高模型性能的关键。
另一方面,分类技术的实际应用场景中往往存在数据集不均衡的现象,即可以获得的某一类数据远远多于另一类数据。基于这一不均衡数据集进行分类器的训练,势必得到具有偏向性的分类器,严重影响分类结果。因此,如何处理实际场景中的不均衡数据集,提高分类器的普适性,具有重要的研究意义。
发明内容
为解决现有技术存在的局限和缺陷,本发明提供一种基于不均衡数据集的Time-LSTM分类方法,包括:
获取移动终端的原始数据集,所述原始数据集包括多行数据,每行数据代表一个时间点的测量样本,每个样本包括ID、测量时间、场强、终端类别标签,ID相同的样本属于一个ID数据IDsample
对所述原始数据集进行数据筛选;
对数据筛选之后的数据集进行数据分布均衡和样本扩充;
根据日期和时间计算每个样本的时间间隔;
随机选取A类IDsample的70%和B类IDsample的70%,所述选取的IDsample作为训练集,其余的IDsample作为测试集;
根据数据集之中的场强对数据集进行归一化处理;
使用归一化之后的数据集对Time-LSTM模型进行训练;
根据移动终端的场强信息和时间间隔信息,使用训练之后的Time-LSTM模型识别移动终端的类别;
输出移动终端的预测类别。
可选的,所述根据数据集之中的场强对数据集进行归一化处理的步骤包括:
场强为0的样本归一化处理之后的场强仍为0;
场强非零的样本归一化处理之后的场强的最小值为0.1;
场强非零的样本归一化处理之后的场强的最大值为1。
可选的,所述Time-LSTM模型设置有时间门T1和时间门T2,所述时间门T1根据时间间隔捕捉当前输入的特点,所述时间门T2根据时间间隔捕捉移动终端在整个移动阶段的特点。
可选的,所述对所述原始数据集进行数据筛选的步骤包括:
剔除A类IDsample和B类IDsample之中样本数量为1的数据,以保证每个IDsample具有预设的时间间隔信息。
可选的,所述对数据筛选之后的数据集进行数据分布均衡和样本扩充的步骤包括:
对数据筛选之后的数据集进行等间隔采样;
对B类IDsample之中各个样本的时间段分布进行均衡处理;
扩大B类IDsample之中各个样本的时间间隔,同时扩充B类数据集。
可选的,还包括:
使用评价指标loss对Time-LSTM模型进行评价,所述评价指标loss为交叉熵损失函数,所述评价指标loss的计算公式如下:
Figure GDA0003934959190000021
其中,yt为IDsample的类别,yp为Time-LSTM模型的输出;
若输出yp最大值的索引与实际值yt最大值的索引相同,判断分类正确;
若输出yp最大值的索引与实际值yt最大值的索引不同,判断分类错误。
本发明具有下述有益效果:
本发明提供的一种基于不均衡数据集的Time-LSTM分类方法,包括:获取移动终端的原始数据集;对所述原始数据集进行数据预处理;根据预处理之后的数据集使用Time-LSTM模型对移动终端的类别进行识别;输出移动终端的预测类别。本发明提供的数据均衡方法能够在很大程度上消除各类别数据集不均衡给分类带来的不良影响,从而较为准确地识别移动终端的类型。本发明采用的Time-LSTM模型能够利用时间间隔控制当前输入对分类结果的影响,从而捕捉到更多的潜在分类特征,提高了整体分类准确率。
附图说明
图1为本发明实施例一提供的基于不均衡数据集的Time-LSTM分类方法的总框图。
图2为本发明实施例一提供的基于不均衡数据集的Time-LSTM分类方法的原始数据结构示意图。
图3为本发明实施例一提供的基于不均衡数据集的Time-LSTM分类方法的B类IDsample划分示例图。
图4为本发明实施例一提供的基于不均衡数据集的Time-LSTM分类方法的Time-LSTM模型结构示意图。
图5为本发明实施例一提供的第一方案之中loss随着epoch变化图。
图6为本发明实施例一提供的第一方案之中acc随着epoch变化图。
图7为本发明实施例一提供的第一方案之中A类终端与B类终端的分类准确率。
图8为本发明实施例一提供的第二方案之中acc随着epoch变化图。
图9为本发明实施例一提供的第二方案之中A类终端与B类终端的分类准确率。
图10为本发明实施例一提供的第三方案之中loss随着epoch变化图。
图11为本发明实施例一提供的第三方案之中acc随着epoch变化图。
图12为本发明实施例一提供的第三方案之中A类终端与B类终端的分类准确率。
具体实施方式
为使本领域的技术人员更好地理解本发明的技术方案,下面结合附图对本发明提供的基于不均衡数据集的Time-LSTM分类方法进行详细描述。
实施例一
本实施例的任务是识别移动终端的类型,不失一般性,假设待分类的终端有两种:A类终端和B类终端。这两类终端的所在高度和移动速度有明显的差异。由于终端在移动过程中连续不断地发出信号,可以将终端看作信号源,用多个接收节点AP1,AP2,…APn不断检测信号源场强。其中,场强是终端到相应接收点距离的函数,场强变化程度是终端移动速度的函数。对于每一类终端,数据采集环境中都可能存在多个不同ID的终端个体。
由于两类终端的高度和速度存在差别,而且终端在检测过程中处于移动状态,体现为多个接收节点在不同时间点接收到的场强大小(F1,F2,…Fn)及时间间隔信息Δt具有不同的潜在特性,可作为识别终端的特征。并且,由于实际场景中往往存在不同类型终端的数据数量不均衡的情况,即分类器能够获取的某类终端数据远多于另一类终端数据,本实施例提供的技术方案针对这一情况进行研究,研究的总体思想如图1所示。图1为本发明实施例一提供的基于不均衡数据集的Time-LSTM分类方法的总框图。
本实施例假设B类终端的ID个数较少,与A类ID数相差较大。并且本实施例考虑更具有挑战性的场景,即B类终端所对应数据的获取时间分布不均匀(本实施例提供的分类方法同样适用于时间分布均匀的情况)。一方面,接收节点AP1,AP2,…APn不断地检测信号源,并记录信号源的相关信息,每条数据包含所采集信号源的ID、n个接收节点的接收场强大小和测量时间。另一方面,对于同一个ID的信号源,会在不同时间点采集到多条数据。本实施例定义:一个时间点的数据(包含:场强信息和时间信息)是一个样本,ID相同的样本属于同一个ID数据IDsample,即一个ID对应于一个IDsample,每个IDsample包含若干样本。当A类终端的信号源数远大于B类终端的信号源数时,会出现两类终端的IDsample数极不均衡。这一不均衡的现象会严重影响分类结果,如果不进行任何处理,常见的分类器会将测试数据大概率判为A类终端。因此,本实施例采用间隔采样的方式扩大B类终端IDsample中各个样本的时间间隔,并以此扩充IDsample数,解决ID个数少的问题。
由于终端处于移动状态,接收设备能够在多个时间点检测到该终端,每个时间点测的数据为一个样本,可得到多个样本,可以将其看作一个序列。由于场强随时间的变化是一个动态过程,每个样本的数据均影响类型的判定,传统RNN虽然适合处理序列,但不能解决长期依赖问题。因此,需要采用长短期记忆网络(Long Short-Term Memory,LSTM)对有价值的信息进行长期记忆。另外,由于同一IDsample的不同样本之间的时间间隔不均匀,该时间间隔可以作为分类的关键特征,而LSTM并不能有效利用该时间间隔信息,因此本实施例提供的技术方案采用了能够利用不等时间间隔的Time-LSTM网络进行分类。
为了验证本实施例提供的技术方案的合理性和有效性,本实施例还对比了两种不同的方案:第一,传统LSTM对该问题的分类性能;第二,不对B类数据进行间隔采样和数据集扩充时,Time-LSTM的分类性能。
图2为本发明实施例一提供的基于不均衡数据集的Time-LSTM分类方法的原始数据结构示意图。如图2所示,数据集中共包含若干行数据,各个ID对应的数据行数不尽相同,每一行代表一个时间点的测量数据。本实施例将每一行的数据看作一个样本,每个样本包含在某个时间测得的14种信息,依次为:ID、测量时间Time(格式为yyyy-mm-dd-hh:mm:ss)、场强F1,F2,…Fn、标签label(A类为1,B类为0)。ID相同的样本被划分到同一个IDsample中,即一个IDsample由多个样本构成。
在按照ID划分IDsample时,会将具有相同ID的不同采集时间的两批数据划分在同一个ID数据IDsample中。然而对于实际测量数据,如果同一终端的测量日期间隔太久(例如,对于同一个ID的终端,测量的第一批数据的日期均在2月份,第二批数据的日期均在5月份),那么这两批数据的时间间隔过大,可能会具有不同的特性。为了解决这个问题,对第二批数据的ID进行人为修改,虽然这两批数据具有相同的物理ID,但本实施例仍强制将它们归入不同的ID进行后续处理。
由于分类是基于多个时间点的数据进行的,需要充足的时间信息。因此,训练模型前需要对数据进行筛选处理,首先进行数据筛选,剔除两类IDsample中样本个数为1的数据,以保证每个IDsample具有足够的时间间隔信息。然后进行数据集的均衡和样本扩充,B类终端的ID很少,每个IDsample对应的样本数只有上百个,且B类IDsample中各样本的时间段分布不均匀。因此为了扩大B类IDsample中各样本的时间间隔,同时扩充B类数据集,采用了对原始数据进行等间隔采样的方法。为了避免样本个数对分类结果的不良影响,等间隔采样的间隔在一定范围内随机产生,同时保证等间隔采样后的B类数据集包含IDsample对应的样本数较少的情况,且IDsample中各样本测量时间的分布与A类IDsample样本测量时间的分布相近。
本实施例通过实验可以得出:IDsample包含的样本越多,其类别特征越明显,分类效果越好。同时,为了保证B类IDsample数量充足,对某一个IDsample的时间样本进行采样,得到新ID’sample数据集及其样本。具体处理方式为:假设原来一个B类IDsample包含的样本数为M,记各个样本为t0,t1,…,tM-1。设定新的B类ID’sample所包含样本个数在[k1,k2]范围内随机产生,记为数字k。定义
Figure GDA0003934959190000071
则某一个IDsample能够产生的新ID’sample个数为N,而同一个新ID’sample的两个相邻样本的采样间隔为Δt=N。例如:原始IDsample产生的第一个新ID’sample包含样本t0、tN、t2N、t3N、…、t(k-1)N;原始IDsample产生的第二个新ID’sample包含样本t1、tN+1、t2N+1、t3N+1、……、t(k-1)N+1;以此类推。这N个ID’sample数据被赋予新的ID号,以进行后续处理(ID仅作为划分ID’sample的标志,无实际意义)。其中,个别新ID’sample的样本数是k-1,而不是k,这是因为原IDsample的样本总数不是k的整数倍,如图3所示。图3为本发明实施例一提供的基于不均衡数据集的Time-LSTM分类方法的B类IDsample划分示例图。其他B类IDsample也采用类似的处理方式。
本实施例对每个IDsample中的各样本,根据日期和时间计算时间间隔。将每一个样本的第一个时间间隔设置为0,其余为当前时刻与上一时刻的差值,单位为秒。即把时间特征转换为时间间隔特征。本实施例进行测试集和训练集划分,为保证测试集和训练集中两类ID数目均衡,随机选取A类IDsample和B类处理后得到ID’sample的70%,合在一起作为训练集(定义为IDtr),其余作为测试集。
输入网络前需要对场强归一化,这里将n个接收节点的场强一起归一化处理。由于n个接收节点与源端距离不同,每次有部分节点可以接收到信号,具有接收场强。对于一个有m个样本的IDsample(或ID’sample)来说,每个样本包含n个场强信息,则该IDsample(或ID’sample)的场强矩阵维度为m×n。由于具有很多0值的接收场强,相当于一个稀疏矩阵。中心化稀疏数据将会破坏数据的稀疏性,为了维持稀疏矩阵中为0的数据,需要对场强缩放到一定范围内。采取的归一化措施为:0场强仍为0场强,而非零场强最小值归一化为0.1,非零场强最大值归一化为1。
设置接收节点AP1,AP2,…APn在终端移动过程中会测得多组数据,每组数据包含的信息为终端ID、测量时间t、场强F1,F2,…Fn。终端各个时间点的数据共同反映了终端的移动特点,因此时间间隔信息对模型建立十分关键,能够显著提升分类效果。通常情况下,LSTM模型由输入门、遗忘门和输出门控制,本实施例提供的Time-LSTM模型建立了两个时间门T1和T2,T1利用时间间隔捕捉当前输入的特点,T2利用时间间隔捕捉终端在整个移动阶段的特点,并耦合输入和忘记门以减少参数数量。Time-LSTM模型的结构如图4所示,图4为本发明实施例一提供的基于不均衡数据集的Time-LSTM分类方法的Time-LSTM模型结构示意图。
图中各符号的含义为:xt表示输入的场强数据;Δt表示时间间隔数据;It为输入门,控制输入信息xt和ht-1有多少加入到cell中;Ot为输出门;T1t和T2t分别表示时间门1和时间门2;Ct-1和Ct分别表示前(t-1)个时间片积累的信息和前t个时间片积累的信息;C~t用于存储时间间隔信息;ht-1和ht分别表示前(t-1)个时间片和前t个时间片后的cell输出。
本实施例的任务是根据终端在一段时间内的场强、时间间隔信息,识别其类型。数据输入网络前,还需要对label进行one-hot编码处理:A类IDtr的目标输出值label为01,B类为10。经过上述的数据预处理及上述处理,将处理后的数据作为深度学习代码的输入,用于训练和测试。
在训练阶段,每次输入batch_size个IDtr数据到Time-LSTM模型,输入信息为IDtr各个样本的n个场强F1,F2,…Fn以及当前测量时间点与上一个时间点的时间间隔信息,一个IDtr对应一个输出。隐含层节点数128,且在模型中进行BN处理,以加快网络收敛速度,防止梯度消失或爆炸。最后,通过全连接层(节点数为2)和softmax计算,得到预测的两位输出yp,维度为(batch_size,2)。
训练过程中,网络采用AdaGrad算法,根据训练阶段的梯度自动计算合适的学习率,随着迭代次数增加,学习率不断下降。one-hot标签yt表示IDtr的类型(01表示A类,10表示B类)。网络的评价指标loss为交叉熵损失函数categorical_crossentropy,acc为分类的准确率。根据yt和yp计算loss:
Figure GDA0003934959190000091
判断分类是否正确的准则是:网络输出yp最大值的索引是否与实际值yt最大值的索引相同。
本实施例采用的数据由11个接收节点测量而来,即n=11,B类数据的测量日期为十天左右。将经过2.1节处理后的原始数据整合到一个文件中,文件共包含17598行数据,其中9630行属于A类终端,7968行属于B类终端。A类终端ID数为819,B类终端ID数为12,每个ID对应若干行行数不等的数据。
本实施例进行以下三种方案的研究:第一方案:对B类数据进行间隔采样和扩充数据集处理,并采用Time-LSTM模型进行分类,即本实施例提出的方案;第二方案:不对B类数据进行间隔采样和扩充数据集处理,即输入Time-LSTM网络的两类IDsample数相差较大;第三方案:对B类数据进行间隔采样和扩充数据集处理,采用传统LSTM模型进行分类。
在第一方案中,本实施例对B类数据均衡数据并扩充IDsample数,设定间隔取样的间隔k∈[2,15],最终得到划分后的新ID’sample的样本数量取值为:6、2、7、7、8、10、5、10、12、12、15、7。根据ID划分ID数据IDsample,得到B类ID’sample数941、A类IDsample数819,共1760个ID数据。随机取其中的70%作为训练集,30%作为测试集,并对其进行归一化等处理。
图5为本发明实施例一提供的第一方案之中loss随着epoch变化图。图6为本发明实施例一提供的第一方案之中acc随着epoch变化图。图7为本发明实施例一提供的第一方案之中A类终端与B类终端的分类准确率。设置batch_size=64,初始学习率lr=0.005,每轮训练结束后,将测试集输入模型检验。图5和图6分别表示loss和acc随训练轮次epoch变化的情况,红色曲线表示测试集,蓝色曲线表示训练集;图7表示了测试集中A、B两类数据准确度随epoch的变化趋势。
结果显示:测试集的整体准确率可以达到98.8%,其中,A类终端分类准确率可达99%以上,B类终端分类准确率可达98%以上,即能够较为准确地识别终端类型。
图8为本发明实施例一提供的第二方案之中acc随着epoch变化图。图9为本发明实施例一提供的第二方案之中A类终端与B类终端的分类准确率。直接根据终端ID划分IDsample,得到A类IDsample数819,B类IDsample数12。将预处理后的数据输入Time-LSTM网络,实验参数为:batch_size=64,初始学习率lr=0.005,每轮训练结束后,将测试集输入模型检验。图8给出了训练集和测试集分类准确度随训练轮次变化的趋势,图9为测试集中A、B两类终端的分类准确率。
结合图8和图9可知,网络将A、B类终端均判定为A类,即IDsample数量不均衡造成了整体分类准确度高的假象。
第三方案采用与第一方案相同的方式进行数据处理,不同之处在于:传统LSTM没有时间门,因此,将时间间隔与11个场强一起作为分类特征输入网络。同样,在输入LSTM前,需要对时间间隔数据进行归一化。
图10为本发明实施例一提供的第三方案之中loss随着epoch变化图。图11为本发明实施例一提供的第三方案之中acc随着epoch变化图。图12为本发明实施例一提供的第三方案之中A类终端与B类终端的分类准确率。设置batch_size=64,初始学习率lr=0.005,每轮训练结束后,将测试集输入模型检验。图10和图11分别表示loss和acc随训练轮次epoch变化的情况,红色曲线表示测试集,蓝色曲线表示训练;图12表示测试集中A、B两类终端准确度随epoch的变化趋势。
结果显示:采用传统LSTM模型,测试集的整体分类准确率为95%。其中,A类终端分类准确率在93%左右,B类终端分类准确率在97%左右。
对比第一方案和第三方案的仿真结果可知,在同样使用Time-LSTM模型的情况下,本实施例提出的数据均衡方法能够在很大程度上消除IDsample数不均衡给分类带来的不良影响,从而较为准确地识别终端的类型。
对比第一方案和第三方案的仿真结果可知,在同样使用间隔采样和数据集扩充处理B类数据的情况下,Time-LSTM能够利用时间间隔控制当前输入对分类结果的影响,从而捕捉到更多的潜在分类特征。整体分类准确度可以达到98.8%,A类终端分类准确率可达99%以上,B类终端分类准确率可达98%以上,均高于传统LSTM的结果,即提高了分类的准确度。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

Claims (4)

1.一种基于不均衡数据集的Time-LSTM分类方法,其特征在于,包括:
获取移动终端的原始数据集,所述原始数据集包括多行数据,每行数据代表一个时间点的测量样本,每个样本包括ID、测量时间、场强、终端类别标签,ID相同的样本属于一个ID数据IDsample
对所述原始数据集进行数据筛选;
对数据筛选之后的数据集进行数据分布均衡和样本扩充;
根据日期和时间计算每个样本的时间间隔;
随机选取A类IDsample的70%和B类IDsample的70%,所述选取的IDsample作为训练集,其余的IDsample作为测试集;
根据数据集之中的场强对数据集进行归一化处理;
使用归一化之后的数据集对Time-LSTM模型进行训练;
根据移动终端的场强信息和时间间隔信息,使用训练之后的Time-LSTM模型识别移动终端的类别;
输出移动终端的预测类别;
所述对所述原始数据集进行数据筛选的步骤包括:剔除A类IDsample和B类IDsample之中样本数量为1的数据,以保证每个IDsample具有预设的时间间隔信息;
所述对数据筛选之后的数据集进行数据分布均衡和样本扩充的步骤包括:
对数据筛选之后的数据集进行等间隔采样;
对B类IDsample之中各个样本的时间段分布进行均衡处理;
扩大B类IDsample之中各个样本的时间间隔,同时扩充B类数据集。
2.根据权利要求1所述的基于不均衡数据集的Time-LSTM分类方法,其特征在于,所述根据数据集之中的场强对数据集进行归一化处理的步骤包括:
场强为0的样本归一化处理之后的场强仍为0;
场强非零的样本归一化处理之后的场强的最小值为0.1;
场强非零的样本归一化处理之后的场强的最大值为1。
3.根据权利要求1所述的基于不均衡数据集的Time-LSTM分类方法,其特征在于,所述Time-LSTM模型设置有时间门T1和时间门T2,所述时间门T1根据时间间隔捕捉当前输入的特点,所述时间门T2根据时间间隔捕捉移动终端在整个移动阶段的特点。
4.根据权利要求1所述的基于不均衡数据集的Time-LSTM分类方法,其特征在于,还包括:
使用评价指标loss对Time-LSTM模型进行评价,所述评价指标loss为交叉熵损失函数,所述评价指标loss的计算公式如下:
Figure FDA0003934959180000021
其中,yt为IDsample的类别,yp为Time-LSTM模型的输出;
若输出yp最大值的索引与实际值yt最大值的索引相同,判断分类正确;
若输出yp最大值的索引与实际值yt最大值的索引不同,判断分类错误。
CN202010864581.9A 2020-08-25 2020-08-25 一种基于不均衡数据集的Time-LSTM分类方法 Active CN112183576B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010864581.9A CN112183576B (zh) 2020-08-25 2020-08-25 一种基于不均衡数据集的Time-LSTM分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010864581.9A CN112183576B (zh) 2020-08-25 2020-08-25 一种基于不均衡数据集的Time-LSTM分类方法

Publications (2)

Publication Number Publication Date
CN112183576A CN112183576A (zh) 2021-01-05
CN112183576B true CN112183576B (zh) 2022-12-27

Family

ID=73924393

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010864581.9A Active CN112183576B (zh) 2020-08-25 2020-08-25 一种基于不均衡数据集的Time-LSTM分类方法

Country Status (1)

Country Link
CN (1) CN112183576B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764460A (zh) * 2018-05-16 2018-11-06 华中科技大学 一种基于时间卷积和lstm的时间序列预测方法
CN108900546A (zh) * 2018-08-13 2018-11-27 杭州安恒信息技术股份有限公司 基于lstm的时间序列网络异常检测的方法与装置
CN109034177A (zh) * 2018-05-24 2018-12-18 东南大学 一种移动智能终端室内外识别方法
CN109359704A (zh) * 2018-12-26 2019-02-19 北京邮电大学 一种基于自适应平衡集成与动态分层决策的多分类方法
WO2020125349A1 (zh) * 2018-12-20 2020-06-25 中兴通讯股份有限公司 一种场强测试方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764460A (zh) * 2018-05-16 2018-11-06 华中科技大学 一种基于时间卷积和lstm的时间序列预测方法
CN109034177A (zh) * 2018-05-24 2018-12-18 东南大学 一种移动智能终端室内外识别方法
CN108900546A (zh) * 2018-08-13 2018-11-27 杭州安恒信息技术股份有限公司 基于lstm的时间序列网络异常检测的方法与装置
WO2020125349A1 (zh) * 2018-12-20 2020-06-25 中兴通讯股份有限公司 一种场强测试方法
CN109359704A (zh) * 2018-12-26 2019-02-19 北京邮电大学 一种基于自适应平衡集成与动态分层决策的多分类方法

Also Published As

Publication number Publication date
CN112183576A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
CN110533631B (zh) 基于金字塔池化孪生网络的sar图像变化检测方法
Campbell et al. Assessing colour-dependent occupation statistics inferred from galaxy group catalogues
CN109784392A (zh) 一种基于综合置信的高光谱图像半监督分类方法
CN108764312B (zh) 基于ds优化多指标大坝缺陷图像检测方法
CN114844840B (zh) 一种基于计算似然比的分布外网络流量数据检测方法
CN112950445B (zh) 图像隐写分析中基于补偿的检测特征选择方法
CN109344695B (zh) 一种基于特征选择卷积神经网络的目标重识别方法和装置
CN110659682A (zh) 一种基于MCWD-KSMOTE-AdaBoost-DenseNet算法的数据分类方法
CN111343147A (zh) 一种基于深度学习的网络攻击检测装置及方法
CN111967535A (zh) 一种储粮管理场景温度传感器故障诊断方法及其诊断装置
CN111144462B (zh) 一种雷达信号的未知个体识别方法及装置
CN115600194A (zh) 一种基于XGBoost和LGBM的入侵检测方法、存储介质及设备
CN113283467B (zh) 一种基于平均损失和逐类选择的弱监督图片分类方法
CN113554716A (zh) 基于知识蒸馏的瓷砖色差检测方法及装置
CN112183576B (zh) 一种基于不均衡数据集的Time-LSTM分类方法
CN115910217B (zh) 一种碱基确定方法、装置、计算机设备及存储介质
CN113065395A (zh) 一种基于生成对抗网络的雷达目标新类检测方法
CN111091194B (zh) 一种基于cavwnb_kl算法的操作系统识别方法
CN116304941A (zh) 一种基于多模型组合的海洋数据质量控制方法及装置
CN107067034B (zh) 一种快速识别红外光谱数据分类的方法及系统
CN112014821B (zh) 一种基于雷达宽带特征的未知车辆目标识别方法
CN114140246A (zh) 模型训练方法、欺诈交易识别方法、装置和计算机设备
CN112633399B (zh) 一种稀疏协同联合表示模式识别方法
CN115841847B (zh) 一种微生物信息测定及提取系统和方法
CN116561685A (zh) 一种基于差异性组件的时序异常检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Cao Kun

Inventor after: Xu Wenbo

Inventor after: Yang Rui

Inventor after: Xu Wenjun

Inventor after: Qin Leilei

Inventor after: Wu Tao

Inventor before: Cao Kun

Inventor before: Xu Wenbo

Inventor before: Yang Rui

Inventor before: Xu Wenjun

Inventor before: Qin Lei

Inventor before: Wu Tao

GR01 Patent grant
GR01 Patent grant