CN108564167B - 一种数据集之中异常数据的识别方法 - Google Patents
一种数据集之中异常数据的识别方法 Download PDFInfo
- Publication number
- CN108564167B CN108564167B CN201810312799.6A CN201810312799A CN108564167B CN 108564167 B CN108564167 B CN 108564167B CN 201810312799 A CN201810312799 A CN 201810312799A CN 108564167 B CN108564167 B CN 108564167B
- Authority
- CN
- China
- Prior art keywords
- seconds
- data
- layer
- data records
- time length
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种数据集之中异常数据的识别方法,该方法将数据集之中的各数据记录划分成长度不等的4类,将已有的数据记录送入设计的神经网络进行训练,训练后的神经网络就可对异常数据记录进行识别。
Description
【技术领域】
本发明属于计算机数据处理领域,尤其涉及一种数据集之中异常数据的识别方法。
【背景技术】
在计算机数据处理领域,有一种数据是时间性的数据,这种数据体现为多个数据记录,每个数据记录为一小段时间内的数据。例如声纳数据,每个数据记录是一段时间内的声音波形数据;又例如心电图数据,每个数据记录是一段时间内的心电数据。在对这种数据进行处理时,一个需求是从大量的数据记录中识别出与异常数据,这种异常数据与多数数据记录的正常模式不同。例如从声纳数据中识别出可能的潜艇噪声,又例如从心电图数据中识别出房颤。现有技术中通常使用模式匹配的方式进行识别,但是现有识别方式的准确率并不高。
【发明内容】
为了解决现有技术中的上述问题,本发明针对提供了一种数据集之中异常数据的识别方法。
本发明采用的技术方案具体如下:
一种数据集之中异常数据的识别方法,所述数据集包括多个数据记录,每个数据记录为一定时间段内的数据,其特征在于,包括以下步骤:
步骤一:对所有数据记录进行处理,划分成时间长度不等的4类,每一类中的数据记录时间长度相同;
步骤二:使用处理后的数据记录,对神经网络进行训练;
步骤三:使用训练后的神经网络识别对输入的数据记录进行异常识别;
其中,所述神经网络按照连接顺序包括输入层、7层卷积结构、Global AveragePooling层、3层全连接结构和输出层,每一层卷积结构按照连接顺序包括卷积层、ReLU激活函数、池化层和Dropout层,每一层全连接结构按照连接顺序包括全连接层、ReLU激活函数和Dropout层;
其中,步骤一对数据记录的处理包括:基于数据记录的时间长度,划分成20秒、30秒、45秒和60秒4类,并且包括
(1)对于时间长度小于20秒的数据记录,在其后续补0,补成20秒的数据记录;
(2)对于时间长度大于20秒小于30秒的数据记录,在其后续补0,补成30秒的数据记录;
(3)对于时间长度大于30秒小于45秒的数据记录,在其后续补0,补成45秒的数据记录;
(4)对于时间长度大于45秒小于60秒的数据记录,在其后续补0,补成60秒的数据记录;
对于时间长度大于60秒的数据记录,按照时间顺序,每60秒切分成一个新的数据记录,最后一个数据记录如果不足60秒,则按照上述(1)-(4)的方法进行处理。
进一步地,所述输入层可以将处理后的数据记录作为训练数据,组合成batch送入神经网络进行训练。
进一步地,输入层随机取某一类里的数据记录组合成batch,使得一个batch里的数据记录的维度保持一致。
进一步地,所有卷积层的过滤器宽度为5,其中第一个卷积层的输入channel为1,输出channel为128,其余卷积层的输入和输出channel均采用128。
进一步地,所述池化层的池化窗口宽度和移动步长均为2,SAME填充,采用了最大池化方法,即从池化窗口中选出最大值作为池化后的值。
进一步地,Dropout层采用了两种防止过拟合的方式,分别是dropout和L2正则化。
进一步地,dropout率为0.5。
进一步地,所述Global Average Pooling对每一条channel上的向量求其平均值,然后作为全局池化后的值。
进一步地,第一个全连接层的神经元数量为256,第二个全连接层的神经元数量为128,第三个全连接层的神经元数量为64。
进一步地,输出层含有4个神经元,对应数据记录的4个分类。
【附图说明】
此处所说明的附图是用来提供对本发明的进一步理解,构成本申请的一部分,但并不构成对本发明的不当限定,在附图中:
图1是本发明神经网络的结构图。
图2是本发明ReLU激活函数的图像。
图3是本发明池化层的最大池化方法。
【具体实施方式】
下面将结合附图以及具体实施例来详细说明本发明,其中的示意性实施例以及说明仅用来解释本发明,但并不作为对本发明的限定。
本发明所针对的数据集由多个数据记录组成,每个数据记录都代表了一定时间段的数据。首先需要对这些数据记录进行分批处理,取20秒、30秒、45秒和60秒作为临界划分长度,将所有数据记录划分成4类。同时为了使每一类里的数据长度相等,可组成batch送入神经网络进行训练,需要进行相应的补0操作。具体地:
(1)对于时间长度小于20秒的数据记录,在其后续补0,补成20秒的数据记录;
(2)对于时间长度大于20秒小于30秒的数据记录,在其后续补0,补成30秒的数据记录;
(3)对于时间长度大于30秒小于45秒的数据记录,在其后续补0,补成45秒的数据记录;
(4)对于时间长度大于45秒小于60秒的数据记录,在其后续补0,补成60秒的数据记录;
(5)对于时间长度大于60秒的数据记录,按照时间顺序,每60秒切分成一个新的数据记录,最后一个数据记录如果不足60秒,则按照上述(1)-(4)的方法进行处理。
通过上述处理,整个数据集被划分成4类:20秒的数据记录,其实际上包括了时间长度在(0,20]秒的数据记录;30秒的数据记录,其实际上包括了时间长度在(20,30]秒内的数据记录;45秒的数据记录,其实际上包括了时间长度在(30,45]秒内的数据记录;60秒的数据记录,其实际上包括了时间长度在(45,60]秒内的数据记录。
处理后的每一条数据记录,都作为一个样例,被送入后续的神经网络进行训练。
参见附图1,其示出了本发明所设计的神经网络,该神经网络对于输入数据,首先经过7层卷积结构,每一层卷积结构包括卷积层(Conv1d)、ReLU激活函数、池化层(MaxPool1d)和Dropout层。每一层在卷积之后,采用ReLU函数去线性化,然后接MaxPooling和Dropout。7层卷积之后接Global Average Pooling,使得输入全连接层的数据在维度上保持一致,然后接3层全连接结构,每一层全连接之后同样采用ReLU函数去线性化,然后接Dropout,最后接输出层,输出层有4个神经元,对应数据记录的4个分类。
下面对该神经网络进行详细介绍:
Input(输入层):该输入层可以将处理后的数据记录作为训练数据,组合成batch送入神经网络进行训练,因为数据记录被分成了长度不一的4类,所以随机取某一类里的数据组合成batch,这样一个batch里的记录的维度才能保持一致。
Conv1d(卷积层):由于数据记录都可看做一维的时间序列,因此采用一维的卷积结构。所有卷积层的过滤器宽度为5,其中第一个卷积层的输入channel为1,输出channel为128,其余卷积层的输入和输出channel均采用128。
过滤器可将当前层神经网络上的一个子节点矩阵转化为下一层神经网络上的一个单位节点矩阵,单位节点矩阵指的是一个长和宽都为1,但深度不限的节点矩阵。
ReLU激活函数:将每一个神经元的输出通过一个非线性函数,那么整个神经网络的模型也就不再是线性的了,理论上可以逼近任何数学模型。本发明采用了ReLU激活函数,其表达式为:f(x)=max(0,x),附图2示出了其相关图像。
相比sigmoid和tanh函数,Relu激活函数的优点在于:
梯度不饱和。梯度计算公式为:1{x>0}。因此在反向传播过程中,减轻了梯度弥散的问题,神经网络前几层的参数也可以很快的更新;
计算速度快。正向传播过程中,sigmoid和tanh函数计算激活值时需要计算指数,而Relu函数仅需要设置阈值。如果x<0,f(x)=0,如果x>0,f(x)=x。加快了正向传播的计算速度。
因此,Relu激活函数可以极大地加快收敛速度,相比tanh函数,收敛速度可以加快6倍。
MaxPool1d(池化层):池化层可以非常有效地缩小矩阵的尺寸,从而减少最后全连接层中的参数。使用池化层既可以加快计算速度也有防止过拟合问题的作用。
如图3所示,本发明的神经网络中池化窗口宽度和移动步长均为2,SAME填充,采用了最大池化方法,即从池化窗口中选出最大值作为池化后的值。
Dropout层:为了防止神经网络的过拟合,以便在未知数据上有更强的泛化能力,本发明在Dropout层采用了两种防止过拟合的方式,分别是dropout和L2正则化。
dropout在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃,每次做完dropout,相当于从原始的网络中找到一个更瘦的网络。优选的,本发明的dropout率采用0.5,原因是0.5的时候dropout随机生成的网络结构最多。
正则化的思想是在损失函数中加入刻画模型复杂程度的指标,L2正则化相关公式为:
通过限制权重大小,使得模型不能任意拟合训练数据中的随机噪音,从而提高泛化能力。
GlobalAveragePooling:训练数据在送入神经网络前被分成了长度不同的4类,所以在经过7层卷积之后它们的长度也不尽相同,为了能连接之后的全连接网络结构,在这一层对卷积结构的输出数据做一下Global Average Pooling,即对每一条channel上的向量求其平均值,然后作为全局池化后的值,这样在输入全连接层之前,每一部分的数据便有了相同的维度。
Dense(全连接层):Global Average Pooling之后,接有3层全连接结构,每层全连接结构包括一个全连接层,第一个全连接层的神经元数量为256,第二个全连接层的神经元数量为128,第三个全连接层的神经元数量为64。在每个全连接层之后,同样采用ReLU函数去线性化,然后经过一个Dropout层。
Output(输出层):输出层含有4个神经元,对应数据记录的4个分类,并且不采用激活函数进行去线性化。每个神经元输出相应数据记录的异常识别结果。
上述神经网络在经过训练数据的训练后,就可获得相应的异常识别模型。训练后的神经网络在输入一个处理后的数据记录时,可以输出相应的异常识别结果。
基于上述神经网络,本发明输入训练数据,进行训练。在实际应用中,训练得到的模型在验证集上的最高正确率为90.33%,达到了比较优秀的识别效果。
以上所述仅是本发明的较佳实施方式,故凡依本发明专利申请范围所述的构造、特征及原理所做的等效变化或修饰,均包括于本发明专利申请范围内。
Claims (10)
1.一种数据集中异常数据的识别方法,所述数据集包括多个数据记录,每个数据记录为一定时间段内的数据,其特征在于,包括以下步骤:
步骤一:对所有数据记录进行处理,划分成时间长度不等的4类,每一类中的数据记录时间长度相同;
步骤二:使用处理后的数据记录,对神经网络进行训练;
步骤三:使用训练后的神经网络识别对输入的数据记录进行异常识别;
其中,所述神经网络按照连接顺序包括输入层、7层卷积结构、Global AveragePooling层、3层全连接结构和输出层,每一层卷积结构按照连接顺序包括卷积层、ReLU激活函数、池化层和Dropout层,每一层全连接结构按照连接顺序包括全连接层、ReLU激活函数和Dropout层;
其中,步骤一对数据记录的处理包括:基于数据记录的时间长度,划分成20秒、30秒、45秒和60秒4类,并且包括
(1)对于时间长度小于20秒的数据记录,在其后续补0,补成20秒的数据记录;
(2)对于时间长度大于20秒小于30秒的数据记录,在其后续补0,补成30秒的数据记录;
(3)对于时间长度大于30秒小于45秒的数据记录,在其后续补0,补成45秒的数据记录;
(4)对于时间长度大于45秒小于60秒的数据记录,在其后续补0,补成60秒的数据记录;
(5)对于时间长度大于60秒的数据记录,按照时间顺序,每60秒切分成一个新的数据记录,最后一个数据记录如果不足60秒,则按照上述(1)-(4)的方法进行处理。
2.根据权利要求1所述的方法,其特征在于,所述输入层可以将处理后的数据记录作为训练数据,组合成batch送入神经网络进行训练。
3.根据权利要求1-2任意一项所述的方法,其特征在于,输入层随机取某一类里的数据记录组合成batch,使得一个batch里的数据记录的维度保持一致。
4.根据权利要求1-2任意一项所述的方法,其特征在于,所有卷积层的过滤器宽度为5,其中第一个卷积层的输入channel为1,输出channel为128,其余卷积层的输入和输出channel均采用128。
5.根据权利要求1-2任意一项所述的方法,其特征在于,所述池化层的池化窗口宽度和移动步长均为2,SAME填充,采用了最大池化方法,即从池化窗口中选出最大值作为池化后的值。
6.根据权利要求1-2任意一项所述的方法,其特征在于,Dropout层采用了两种防止过拟合的方式,分别是dropout和L2正则化。
7.根据权利要求6所述的方法,其特征在于,dropout率为0.5。
8.根据权利要求6所述的方法,其特征在于,所述Global Average Pooling对每一条channel上的向量求其平均值,然后作为全局池化后的值。
9.根据权利要求1所述的方法,其特征在于,第一个全连接层的神经元数量为256,第二个全连接层的神经元数量为128,第三个全连接层的神经元数量为64。
10.根据权利要求1所述的方法,其特征在于,输出层含有4个神经元,对应数据记录的4个分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810312799.6A CN108564167B (zh) | 2018-04-09 | 2018-04-09 | 一种数据集之中异常数据的识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810312799.6A CN108564167B (zh) | 2018-04-09 | 2018-04-09 | 一种数据集之中异常数据的识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108564167A CN108564167A (zh) | 2018-09-21 |
CN108564167B true CN108564167B (zh) | 2020-07-31 |
Family
ID=63534397
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810312799.6A Active CN108564167B (zh) | 2018-04-09 | 2018-04-09 | 一种数据集之中异常数据的识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108564167B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109793511A (zh) * | 2019-01-16 | 2019-05-24 | 成都蓝景信息技术有限公司 | 基于深度学习技术的心电信号噪声检测算法 |
CN110362401A (zh) * | 2019-06-20 | 2019-10-22 | 深圳壹账通智能科技有限公司 | 数据跑批方法、装置、存储介质及集群中的成员主机 |
CN118313564B (zh) * | 2024-06-05 | 2024-08-23 | 生态环境部环境工程评估中心 | 企业排放物监测数据的异常识别方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106411597A (zh) * | 2016-10-14 | 2017-02-15 | 广东工业大学 | 一种网络流量异常检测方法及系统 |
CN107369166A (zh) * | 2017-07-13 | 2017-11-21 | 深圳大学 | 一种基于多分辨率神经网络的目标跟踪方法及系统 |
CN107657318A (zh) * | 2017-11-13 | 2018-02-02 | 成都蓝景信息技术有限公司 | 一种基于深度学习模型的心电图分类方法 |
CN107832737A (zh) * | 2017-11-27 | 2018-03-23 | 乐普(北京)医疗器械股份有限公司 | 基于人工智能的心电图干扰识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101899101B1 (ko) * | 2016-06-01 | 2018-09-14 | 서울대학교 산학협력단 | 인공 신경망 기반 예측 모델 생성 장치 및 방법 |
-
2018
- 2018-04-09 CN CN201810312799.6A patent/CN108564167B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106411597A (zh) * | 2016-10-14 | 2017-02-15 | 广东工业大学 | 一种网络流量异常检测方法及系统 |
CN107369166A (zh) * | 2017-07-13 | 2017-11-21 | 深圳大学 | 一种基于多分辨率神经网络的目标跟踪方法及系统 |
CN107657318A (zh) * | 2017-11-13 | 2018-02-02 | 成都蓝景信息技术有限公司 | 一种基于深度学习模型的心电图分类方法 |
CN107832737A (zh) * | 2017-11-27 | 2018-03-23 | 乐普(北京)医疗器械股份有限公司 | 基于人工智能的心电图干扰识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108564167A (zh) | 2018-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Olatunji et al. | Membership inference attack on graph neural networks | |
CN112699960B (zh) | 基于深度学习的半监督分类方法、设备及存储介质 | |
CN108564167B (zh) | 一种数据集之中异常数据的识别方法 | |
CN111814921B (zh) | 对象特征信息获取、对象分类、信息推送方法及装置 | |
CN111224905B (zh) | 一种大规模物联网中基于卷积残差网络的多用户检测方法 | |
CN112784929B (zh) | 一种基于双元组扩充的小样本图像分类方法及装置 | |
CN111723874B (zh) | 一种基于宽度和深度神经网络的声场景分类方法 | |
CN112580555B (zh) | 一种自发微表情识别方法 | |
CN108009594A (zh) | 一种基于变分组卷积的图像识别方法 | |
Dora et al. | A two stage learning algorithm for a growing-pruning spiking neural network for pattern classification problems | |
KR20210006486A (ko) | 강화학습을 이용한 적응형 뇌파 분석 방법 및 장치 | |
CN113807318B (zh) | 一种基于双流卷积神经网络和双向gru的动作识别方法 | |
KR20200018868A (ko) | 강화학습을 이용한 적응형 뇌파 분석 방법 및 장치 | |
CN116386899A (zh) | 基于图学习的药物疾病关联关系预测方法及相关设备 | |
CN117033985A (zh) | 一种基于ResCNN-BiGRU的运动想象脑电分类方法 | |
CN116229323A (zh) | 一种基于改进的深度残差网络的人体行为识别方法 | |
CN109697511B (zh) | 数据推理方法、装置及计算机设备 | |
CN116070556A (zh) | 一种多级查找表电路、函数求解方法及相关设备 | |
CN114004258A (zh) | 一种半监督的心电异常检测方法 | |
CN113808734A (zh) | 一种基于深度学习的因果医疗诊断方法 | |
CN115860113B (zh) | 一种自对抗神经网络模型的训练方法及相关装置 | |
Cho et al. | Espn: Extremely sparse pruned networks | |
Huang et al. | Flow of renyi information in deep neural networks | |
Sarkar et al. | An incremental pruning strategy for fast training of CNN models | |
Li et al. | Towards efficient deep spiking neural networks construction with spiking activity based pruning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |