CN114579397A

CN114579397A - 一种基于数据挖掘的异常检测方法及系统

Info

Publication number: CN114579397A
Application number: CN202210159702.9A
Authority: CN
Inventors: 海克洪; 陈少成
Original assignee: Hubei Meihe Yisi Education Technology Co ltd
Current assignee: Hubei Meihe Yisi Education Technology Co ltd
Priority date: 2022-02-22
Filing date: 2022-02-22
Publication date: 2022-06-03

Abstract

本发明公开一种基于数据挖掘的异常检测方法及系统，所述方法包括：采集客户端网络用户的历史行为数据，并进行预处理；构建多重GRU神经网络模型，并优化多重GRU神经网络模型的超参数；通过预处理后的历史行为数据训练所述多重GRU神经网络模型，确定多重GRU神经网络中的权重矩阵，得到异常检测模型；接收到客户端的交互请求时，通过异常检测模型对客户端的交互请求进行异常检测。本发明通过线性判别法对网络用户的历史行为数据进行降维处理，在减少数据之间的冗余的同时保留网络用户的关键行为特征，构建了多重GRU神经网络模型，可在合适的时间尺度上分析用户的历史行为数据，提高异常检测可信度。

Description

一种基于数据挖掘的异常检测方法及系统

技术领域

本发明属于网络安全技术领域，具体涉及一种基于数据挖掘的异常检测方法及系统。

背景技术

随着大数据、物联网等技术的迅速发展，用户访问信息也呈现出快速的增长。大量的网络故障、滥用、攻击、盗链等导致恶意后果的异常行为，影响大量正常网络用户的安全。比如非法用户通过技术手段获得它人服务器上的资源地址，绕过别人的资源展示页面，直接在自己的页面上向最终用户提供此内容，盗用本站的资源，这些盗链的间接资源请求，会大大增加服务器及带宽的压力，给正常网络用户带来不便。

作为网络与信息安全领域的一项重要技术，异常检测已经成为网络安全体系的一个重要组成部分。对用户网络行为数据进行异常检测分析是学术界的研究热点之一。通过分析用户网络行为数据中的行为特征，可以识别用户的异常访问请求，从而屏蔽盗链的间接资源请求，防止盗链。

但用户网络行为数据往往数据规模大，直接在原始数据上进行检测分析，检测效率难以保障，往往较为耗时。传统的网络用户异常行为检测是根据已知异常行为为主要特征，将异常行为与正常情况下的行为作比对从而识别异常行为，无论是人工比对还是机器学习分类都是针对用户单个行为数据，忽视了用户网络行为数据的时间顺序特征，降低了异常检测的可信度。

发明内容

有鉴于此，本发明提出了一种基于数据挖掘的异常检测方法及系统，用于解决网络异常检测时忽视用户网络行为数据的时间顺序特征的问题。

本发明第一方面，公开一种基于数据挖掘的异常检测方法，所述方法包括：

采集客户端网络用户的历史行为数据，并进行预处理；

构建多重GRU神经网络模型，并优化多重GRU神经网络模型的超参数；

通过预处理后的历史行为数据训练所述多重GRU神经网络模型，确定多重GRU神经网络中的权重矩阵，得到异常检测模型；

接收到客户端的交互请求时，通过异常检测模型对客户端的交互请求进行异常检测。

在以上技术方案的基础上，优选的，所述采集用户的网络行为数据，并进行预处理具体包括：

获取网络用户与服务器交互过程中的历史行为数据，通过线性判别法对网络用户的历史行为数据进行预处理；

采用元组保存预处理后的历史行为数据，包括<用户标识ID、请求类型、请求时间、请求频次、请求对象>；

将网络用户预处理后的历史行为数据按照时间排序，生成对应的时序行为数据；

根据对应的时序行为数据生成训练样本集。

在以上技术方案的基础上，优选的，所述请求类型包括但不限于多媒体信息查询请求、多媒体播放请求、停止播放请求、播放参数调整请求和广告插入请求。

在以上技术方案的基础上，优选的，所述构建多重GRU神经网络模型具体包括：

构建包括输入层、中间层和输出层的多重GRU神经网络模型，所述中间层由多个GRU单元构成，构成中间层的每个GRU单元均包括重置门、更新门、当前时刻输出、上一时刻输出以及替代隐藏层；输入层分别输入每一个GRU单元，前一个GRU单元的输出作为后一个GRU单元的输入。

在以上技术方案的基础上，优选的，所述优化多重GRU神经网络模型的超参数具体包括：

提取多重GRU神经网络模型中所包括的所有超参数并形成超参数向量；

将超参数向量作为原子搜索算法的一个原子，通过原子搜索算法的种群处初始化对所述超参数向量进行初始化，通过原子相互间的作用力和系统约束力改变所述超参数向量的取值；

评价各种超参数向量的取值下的多重GRU神经网络模型的性能表现并形成对应的评价值，选择评价值最好的一组超参数向量的取值作为所述超参数向量的最终优化值。

在以上技术方案的基础上，优选的，所述通过预处理后的历史行为数据训练所述多重GRU神经网络模型，确定多重GRU神经网络中的权重矩阵，得到异常检测模型具体包括：

将请求类型、请求时间、请求频次、请求对象作为输入层数据；

将输入层数据输入至第一GRU单元得到第一特征数据，将第一特征数据和输入层数据输入至第二GRU单元得到第二特征数据，将第二特征数据和输入层数据输入至第三GRU单元得到预测值；

计算预测值和真实值之间的误差，误差损失函数使用均方误差；

采用Adam优化算法根据损失函数的梯度来更新网络权重和偏差，判断所述多重GRU神经网络模型是否收敛，若是，将第三特征数据通过输出层的Softmax输出分类概率；若否，继续迭代训练直至模型收敛。

在以上技术方案的基础上，优选的，所述方法还包括：

通过异常检测模型对从多个网络用户的客户端收集的交互请求数据进行异常检测，识别出行为正常或作弊的用户，并且根据识别结果将对应用户添加到服务器端的用户白名单或用户黑名单中。

本发明第二方面，公开一种基于数据挖掘的异常检测系统，所述系统包括：

数据获取模块：采集客户端网络用户的历史行为数据，并进行预处理；

模型构建模块：构建多重GRU神经网络模型，并优化多重GRU神经网络模型的超参数；多重GRU神经网络模型的结构具体包括输入层、中间层和输出层，其中，中间层由多个GRU单元构成；

模型训练模块：通过预处理后的历史行为数据训练所述多重GRU神经网络模型，确定多重GRU神经网络中的权重矩阵，得到异常检测模型；

异常检测模块：接收到客户端的交互请求时，通过异常检测模型对客户端的交互请求进行异常检测。

本发明第三方面，公开一种电子设备，包括：至少一个处理器、至少一个存储器、通信接口和总线；

其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令，以实现本发明第一方面所述的方法。

本发明第四方面，公开一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令使计算机实现本发明第一方面所述的方法。

本发明相对于现有技术具有以下有益效果：

1)本发明通过线性判别法对网络用户的历史行为数据进行降维处理，利用不同网络用户历史行为数据的标签信息，在减少数据冗余的同时保留网络用户的关键行为特征，之后将网络用户预处理后的历史行为数据按照时间排序，生成对应的时序行为数据，可以反映与标签相关的关键数据的时序特征，提高特征提取的准确性；

2)本发明采构建了多重GRU神经网络模型，其中间层由多个GRU单元构成，利用GRU单元能自动进行多尺度时间序列分析的特征，使得多重GRU神经网络模型能够自适应的在合适的时间尺度上分析用户的历史行为数据，具有较强的特征选择能力，能够应对历史行为数据中存在噪声的问题，更为合理的表示具有较大随机性的用户行为特征。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的基于数据挖掘的异常检测方法流程图；

图2为本发明的多重GRU神经网络模型的结构示意图。

具体实施方式

下面将结合本发明实施方式，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

请参阅图1，本发明提出一种基于数据挖掘的异常检测方法，所述方法包括：

S1、采集客户端网络用户的历史行为数据，并进行预处理；

步骤S1具体包括如下分步骤：

S11、获取网络用户与服务器交互过程中的历史行为数据，通过线性判别法对网络用户的历史行为数据进行预处理。

先通过大数据获取网络用户与服务器交互过程中的历史行为数据，并根据各个网络用户的历史行为数据的正常或异常情况建立相应的标签。

由于大数据时代下的网络用户行为数据体具有大规模、高维度，冗余度高等特征，本发明通过线性判别法(Linear Discriminant Analysis，LDA)对带有标签的网络用户的历史行为数据进行数据降维，将数据投影到低维空间。利用基于不同网络用户的历史行为数据的标签信息，寻找使样本尽可能好分类的最佳投影方向，尽可能多地保留数据样本的信息。同时，LDA降低大规模数据的维度和非关键数据之间相互的影响，从而保留网络用户的关键行为特征序列，使得投影后的同类样本尽可能近，不同类样本尽可能远。相较于主成分分析法的无监督降维，本发明利用线性判别法的有监督降维，可以更好的保留与标签相关的关键信息。

S12、采用元组保存预处理后的历史行为数据，比如<用户标识ID、请求类型、请求时间、请求频次、请求对象>。

具体的，可以将用户使用的上网设备标识、用户名、网站访问的cookie等作为用户标识ID，请求类型包括但不限于服务器上各类视频、音频、图片等多媒体信息资源的查询请求、多媒体播放请求、停止播放请求、播放参数调整请求和广告插入请求等，然后分别记录每个网络用户的请求时间、请求频次、请求对象。

S13、将网络用户预处理后的历史行为数据按照时间排序，生成对应的时序行为数据；

S14、根据对应的时序行为数据生成训练样本集。

由于通过线性判别法已经提取网络行为数据中的关键行为数据，因此对应的时序行为数据能反应用户的关键行为的时间特点，可以保留关键数据的时序特征，进一步提高用户行为数据提取的准确性。

S2、构建多重GRU神经网络模型，并优化多重GRU神经网络模型的超参数；

如图2所示，多重GRU神经网络模型的结构具体包括输入层、中间层和输出层，其中，中间层由多个GRU单元构成，构成中间层的每个GRU单元均包括重置门、更新门、当前节点输出、上一节点输出以及替代隐藏层；输入层分别输入每一个GRU单元，且前一个GRU单元的输出作为后一个GRU单元的输入的一部分。

构建多重GRU神经网络模型的结构之后，需要设置模型中的超参数，本发明使用原子搜索算法来优化多重GRU神经网络模型的超参数，具体步骤如下：

S21、提取多重GRU神经网络模型中所包括的所有超参数并形成超参数向量；

S22、将超参数向量作为原子搜索算法的一个原子，通过原子搜索算法的种群处初始化对所述超参数向量进行初始化，通过原子相互间的作用力和系统约束力改变所述超参数向量的取值；

S23、评价各种超参数向量的取值下的多重GRU神经网络模型的性能表现并形成对应的评价值，选择评价值最好的一组超参数向量的取值作为所述超参数向量的最终优化值。

S3、通过预处理后的历史行为数据训练所述多重GRU神经网络模型，确定多重GRU神经网络中的权重矩阵，得到异常检测模型；

步骤S3具体包括如下分步骤：

S31、将用户标识ID、请求类型、请求时间、请求频次、请求对象作为输入层数据；

S32、将输入层数据分别输入每一个GRU单元，其中，输入层数据输入至第一GRU单元得到第一特征数据，将第一特征数据和输入层数据输入至第二GRU单元得到第二特征数据，将第二特征数据和输入层数据输入至第三GRU单元得到第预测值；

S33、计算预测值和真实值之间的误差，误差损失函数使用均方误差；

S34、在多重GRU神经网络模型迭代训练的过程中，采用Adam优化算法根据损失函数的梯度来更新网络权重和偏置，判断所述多重GRU神经网络模型是否收敛，若是，通过输出层的Softmax输出分类概率；若否，重复步骤S31～S34继续迭代训练直至模型收敛。

本发明采用多重GRU神经网络模型建立异常检测模型进行网络用户行为识别，由于GRU单元中更新门和重置门机制，可以将前一时刻的状态信息传递至当前时刻，并带入到相同的程度，再结合多层GUR单元进行深度特征融合和特征提取，能充分提取历史行为数据中的时序特征信息，提高异常检测准确率。

S4、接收到客户端的交互请求时，通过异常检测模型对客户端的交互请求进行异常检测。

服务器端在接收到网络用户从客户端发起的交互请求数据时，获取交互请求数据中的用户标识ID、请求类型、请求时间、请求频次、请求对象等数据，对数据进行预处理后输入所述异常检测模型进行行为识别。

作为另一种实施方式，服务器端在接收到网络用户从客户端发起的交互请求数据时，获取该用户最近一段时间以来的行为数据，从最近一段时间以来的行为数据中提取交互请求数据中的用户标识ID、请求类型、请求时间、请求频次、请求对象等数据，通过LDA进行预处理，将与处理后的数据以元组形式保存并按时间先后顺序排序，输入所述异常检测模型进行行为识别，判断该用户行为正常或异常。

S5、通过异常检测模型对从多个网络用户的客户端收集的交互请求数据进行异常检测，识别出行为正常或异常的用户，并且根据识别结果将对应用户标识ID添加到服务器端的用户白名单或用户黑名单中。

通过建立白名单和黑名单可以更方便的管理用户后续的上网行为，同时将白名单和黑名单加入训练样本中扩充训练数据集，根据扩充的训练数据集重新训练多重GRU神经网络模型，更新异常检测模型。

与上述方法实施例相对应，本发明还提出一种基于数据挖掘的异常检测系统，所述系统包括：

以上系统实施例和方法实施例是一一对应的，系统实施例简述之处请参阅方法实施例即可。

本发明还公开一种电子设备，包括：至少一个处理器、至少一个存储器、通信接口和总线；其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令，以实现本发明前述的方法。

本发明还公开一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机实现本发明实施例所述方法的全部或部分步骤。所述存储介质包括：U盘、移动硬盘、只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以分布到多个网络单元上。本领域普通技术人员在不付出创造性的劳动的情况下，可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

以上所述仅为本发明的较佳实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于数据挖掘的异常检测方法，其特征在于，所述方法包括：

采集客户端网络用户的历史行为数据，并进行预处理；

2.根据权利要求1所述基于数据挖掘的异常检测方法，其特征在于，所述采集网络用户的行为数据，并进行预处理具体包括：

获取网络用户与服务器交互过程中的历史行为数据，通过线性判别法分析网络用户的历史行为数据并进行预处理；

采用元组保存预处理后的历史行为数据，包括但不限于用户标识ID、请求类型、请求时间、请求频次、请求对象；

根据对应的时序行为数据生成训练样本集。

3.根据权利要求2所述的基于数据挖掘的异常检测方法，其特征在于，所述请求类型包括但不限于多媒体信息查询请求、多媒体播放请求、停止播放请求、播放参数调整请求和广告插入请求。

4.根据权利要求2所述的基于数据挖掘的异常检测方法，其特征在于，所述构建多重GRU神经网络模型具体包括：

5.根据权利要求4所述的基于数据挖掘的异常检测方法，其特征在于，所述优化多重GRU神经网络模型的超参数具体包括：

6.根据权利要求4所述的基于数据挖掘的异常检测方法，其特征在于，所述通过预处理后的历史行为数据训练所述多重GRU神经网络模型，确定多重GRU神经网络中的权重矩阵，得到异常检测模型具体包括：

采用Adam优化算法根据损失函数的梯度来更新网络权重和偏差，判断所述多重GRU神经网络模型是否收敛，若是，将预测值通过输出层的Softmax输出分类概率；若否，继续迭代训练直至模型收敛。

7.根据权利要求6所述的基于数据挖掘的异常检测方法，其特征在于，所述方法还包括：

8.一种基于数据挖掘的异常检测系统，其特征在于，所述系统包括：

9.一种电子设备，其特征在于，包括：至少一个处理器、至少一个存储器、通信接口和总线；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令，以实现权利要求1～7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机指令，所述计算机指令使计算机实现权利要求1～7任一项所述的方法。