CN107426199B

CN107426199B - 一种网络异常行为检测与分析的方法及系统

Info

Publication number: CN107426199B
Application number: CN201710541775.3A
Authority: CN
Inventors: 陈晓莉; 徐菁; 丁一帆; 刘亭; 林建洪
Original assignee: Zhejiang Ponshine Information Technology Co ltd
Current assignee: Zhejiang Ponshine Information Technology Co ltd
Priority date: 2017-07-05
Filing date: 2017-07-05
Publication date: 2020-10-30
Anticipated expiration: 2037-07-05
Also published as: CN107426199A

Abstract

本发明公开了一种网络异常行为检测与分析的方法及系统，用以解决现有技术中训练数据不平衡影响训练效果并且无法对所有种类的攻击行为和攻击手段进行穷举的问题。该方法包括：S1、统计安全用户的访问行为特征数据；S2、根据所述特征数据构建一类支持向量机模型；S3、利用所述一类支持向量机模型对全网用户的访问行为特征进行预测分析以识别异常访问行为。本发明基于机器学习，更好地检测到网络的异常行为，及时发现不同类型的攻击，利用数据挖掘的特点，研究在线网络异常行为分析与检测，从而能够针对其作出有效的决策响应，提高网络安全性和资源利用率。

Description

一种网络异常行为检测与分析的方法及系统

技术领域

本发明涉及计算机网络领域，尤其涉及一种网络异常行为检测与分析的方法及系统。

背景技术

随着互联网技术的不断发展，网络安全问题也变得日益严峻，网络攻击已逐渐成为一种低成本高收益的产业，黑客组织的攻击手段越来越先进，使得传统的攻击检测技术和防御设备猝不及防，无法及时适应攻击技术的变化，给个人和企业带来巨大的损失。因此如何能够更好地检测到网络上的异常行为，及时发现攻击甚至是新型攻击，从而采取有效的措施，增强网络的安全性，是现代企业面临的一个重要问题。

网络异常行为检测及分析是网络安全管理领域的重要研究内容，也是入侵检测的一个重要分支。网络异常行为是指对网络正常使用造成不良影响的网络流量模式。引起网络行为异常的原因很多，例如网络攻击：如DDoS攻击、DoS攻击、端口查看等，也可能是由网络的错误配置及网络资源耗尽等引起。

从本质上讲，网络异常行为检测是一个有监督的分类问题，常用的分类算法有朴素贝叶斯、逻辑回归与支持向量机等，但利用这些算法进行建模时需要用到带有类别标记的训练样本。然而对于异常行为检测来说具有较大的难度：一方面，正常样本数量远大于异常样本，训练数据出现严重的不平衡性，影响模型的训练效果；另一方面，利用分类模型仅能对已知的异常攻击和正常行为进行划分，而攻击手段不断变化，无法对所有种类的攻击行为和攻击手段进行穷举，因此可将焦点放在正常访问行为上，找到正常访问行为与异常访问行为的边界，对正常行为和异常行为进行划分，再从异常行为中识别常见攻击和新型的未知攻击。

公开号为CN105915555A的专利提供了一种网络异常行为的检测方法及系统。其中方法包括：从网络访问日志中获取网络访问数据集；从网络访问数据集中提取每个特定域名下的网络访问数据，计算网络访问数据中指定字段的统计特性参数；从不同维度检测网络访问数据集中各条网络访问数据的行为特性，生成各条网络访问数据对应的多维特征向量；基于训练数据集中各条训练数据的多维特征向量和各条训练数据的实际类标、以及检测数据集中各条检测数据的多维特征向量，采用机器学习中的分类算法，得到检测数据集中各条检测数据的预测类标。根据该发明提供的方案，得到的检测结果同时具有较高的准确率和召回率。但是该发明仅能对已知的异常攻击和正常行为进行划分，而攻击手段不断变化，无法对所有种类的攻击行为和攻击手段进行穷举。

发明内容

本发明要解决的技术问题目的在于提供一种网络异常行为检测与分析的方法及系统，用以解决现有技术中训练数据不平衡影响训练效果并且无法对所有种类的攻击行为和攻击手段进行穷举的问题。

为了实现上述目的，本发明采用的技术方案为：

一种网络异常行为检测与分析的方法，包括步骤：

S1、统计安全用户的访问行为特征数据；

S2、根据所述特征数据构建一类支持向量机模型；

S3、利用所述一类支持向量机模型对全网用户的访问行为特征进行预测分析以识别异常访问行为。

进一步地，还包括步骤：

S4、判断所述异常访问行为的行为特征是否已知，若是，进行相应的处理；否则，研究所述异常访问行为并制定相应的措施。

进一步地，步骤S2具体包括：

引入松弛变量并最小化关于所述特征数据的目标函数；

构造关于所述特征数据的密度分布二值模型；

判断所述特征数据的密度是否大于预设阈值，若是，判定为安全样本；否则，判定为异常样本。

进一步地，步骤S3具体包括：

判断全网用户的访问行为特征是否大于预设阈值，若是，判定为异常访问用户；否则，判定为安全访问用户。

进一步地，步骤S4具体包括：

对所述异常访问行为的URL进行分词；

通过TF-IDF构建词频向量；

加入对应的访问频率、访问时长、访问URL长度的特征并组成新的异常访问特征向量；

将所述新的异常访问特征向量进行余弦相似度计算以得到各异常访问行为之间的相似度；

判断所述相似度是否大于或等于预设相似度阈值，若是，将所述异常访问行为输出；否则，建立异常访问行为特征库，将未知的异常访问行为入库。

一种网络异常行为检测与分析的系统，包括：

统计模块，用于统计安全用户的访问行为特征数据；

构建模块，用于根据所述特征数据构建一类支持向量机模型；

分析模块，用于利用所述一类支持向量机模型对全网用户的访问行为特征进行预测分析以识别异常访问行为。

进一步地，还包括：

判断模块，用于判断所述异常访问行为的行为特征是否已知，若是，进行相应的处理；否则，研究所述异常访问行为并制定相应的措施。

进一步地，所述构建模块具体包括：

最小化单元，用于引入松弛变量并最小化关于所述特征数据的目标函数；

构造单元，用于构造关于所述特征数据的密度分布二值模型；

识别单元，用于判断所述特征数据的密度是否大于预设阈值，若是，判定为安全样本；否则，判定为异常样本。

进一步地，所述分析模块具体包括：

判定单元，用于判断全网用户的访问行为特征是否大于预设阈值，若是，判定为异常访问用户；否则，判定为安全访问用户。

进一步地，所述判断模块具体包括：

分词单元，用于对所述异常访问行为的URL进行分词；

向量单元，用于通过TF-IDF构建词频向量；

组合单元，用于加入对应的访问频率、访问时长、访问URL长度的特征并组成新的异常访问特征向量；

计算单元，用于将所述新的异常访问特征向量进行余弦相似度计算以得到各异常访问行为之间的相似度；

对比单元，用于判断所述相似度是否大于或等于预设相似度阈值，若是，将所述异常访问行为输出；否则，建立异常访问行为特征库，将未知的异常访问行为入库。

本发明与传统的技术相比，有如下优点：

本发明基于机器学习，更好地检测到网络的异常行为，及时发现不同类型的攻击，利用数据挖掘的特点，研究在线网络异常行为分析与检测，从而能够针对其作出有效的决策响应，提高网络安全性和资源利用率。

附图说明

图1是实施例一提供的一种网络异常行为检测与分析的方法流程图；

图2是实施例一提供的一种网络异常行为检测与分析的系统结构图；

图3是实施例二提供的一种网络异常行为检测与分析的方法流程图；

图4是实例例二提供的一种网络异常行为检测与分析的系统结构图。

具体实施方式

以下是本发明的具体实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

实施例一

本实施例提供了一种网络异常行为检测与分析的方法，如图1所示，包括步骤：

S11：统计安全用户的访问行为特征数据；

S12：根据特征数据构建一类支持向量机模型；

S13：利用一类支持向量机模型对全网用户的访问行为特征进行预测分析以识别异常访问行为。

本实施例首先安全用户的web访问日志，提取用户特征，对特征数据进行预处理转化为特征向量，然后对数据进行一类支持向量机学习，找到安全用户的行为特征的边界，该边界即为安全用户行为与异常用户行为的界限，边界内为安全用户，边界外为异常用户。将构建好的模型对全网所有用户的web访问特征进行分析，识别异常行为与异常IP。

本实施例中，步骤S11为统计安全用户的访问行为特征数据。

具体的，采集安全用户访问的web日志数据，在采集安全用户访问的web日志数据时，用到的主要特征如下：

表1用户访问的web日志数据特征

字段名	字段含义
		time	访问时间
sip	目标ip
		dip	源ip
sport	目标端口
		dport	源端口
method	访问方式
		uri	访问uri
status	访问返回状态
		content-encoding	实体主体的编码方式
content-length	实体主体的大小
		content-location	替代对应资源的uri
proxy-authorization	代理服务器要求客户端的认证信息
		host	请求资源所在服务器
uri-length	访问uri长度
		accessing-time	访问时长
accessing-frequency	主动访问频率

本实施例中，步骤S12为根据特征数据构建一类支持向量机模型。

其中，一类支持向量机即One-class SVM，在机器学习领域，支持向量机是一个有监督的学习模型，通常用来进行模式识别、分类、以及回归分析。

对于网络异常攻击行为的检测，异常样本的规模不成比例，利用传统的支持向量机SVM分类方法，性能往往不尽人意，并且会出现大量误报或漏报的情况。研究人员对支持向量机SVM算法进行了扩展，并且研究出了一种新的支持向量机SVM算法一类支持向量机One-class SVM算法。一类支持向量机One-class SVM算法把统计学习理论引入到无监督学习方面，并取得了很好的效果。它的核心思想是通过支持向量机SVM训练得到具有最大分类间隔的超平面，进而把一分类问题转化为一个特殊的二值分类问题。将异常检测看作是一种单值分类问题，能够在有噪声的数据集中进行训练，降低了对训练集的要求，提高了检测准确性。

本实施例中，步骤S12具体包括：

引入松弛变量并最小化关于特征数据的目标函数；

构造关于特征数据的密度分布的二值模型；

判断特征数据的密度是否大于预设阈值，若是，判定为安全样本；否则，判定为异常样本。

具体的，一类支持向量机One-class SVM算法的核心思想是通过支持向量机SVM训练得到具有最大分类间隔的超平面，进而把一分类问题转化为一个特殊的二值分类问题。

现在已知输入样本的特征数据的集合D＝{x_i}，x∈R^N，1≤i≤n，同样假定有一个从原空间R²到无限维空间χ的映射φ，并且满足φ(x_i)∈χ。问题就转化成找到一个这样的二值分类器，使得在囊括了大多数正常样本点的高密度区域中的样本点类别记作“+1”，而位于这个高密度区域之外的异常样本点类别记作“-1”。

因此上述流程中的构建一类支持向量机的步骤S12还可以进一步细分为：

引入松弛变量

得到的限制条件如下：

其中，

最小化目标函数：

其中，引入常数c的目的是了平衡不被包含的样本的数目和球体的体积。

构造拉格朗日函数：

其中，α_i≥0，β_i≥0。

计算测试样本点y到圆心的距离，记为d：

d＝(y_i-o)(y_i-o)^T；

判断d是否小于R²，即：

d≤R²；

如果d小于R²，样本点y为正常类，否则为非正常类，即为异常样本。

通过构建一类支持向量机模型，找出安全用户的行为特征的边界。

本实施例中，步骤S13为利用一类支持向量机模型对全网用户的访问行为特征进行预测分析以识别异常访问行为。

具体的，步骤S12构建一类支持向量机模型后，将全网用户的访问行为特征输入一类支持向量机模型进行学习，若访问行为特征在边界外，则判定为异常访问行为，若访问行为特征在边界内，则判定为安全访问行为。

本实施例中，步骤S13具体包括：

预设阈值即通过构建一类支持向量机模型找出的边界，若在边界外，则为异常访问行为，若在边界内，则为安全访问行为。

本实施例还提供了一种网路异常行为检测与分析的系统，如图2所示，包括：

统计模块21，用于统计安全用户的访问行为特征数据；

构建模块22，用于根据特征数据构建一类支持向量机模型；

分析模块23，用于利用一类支持向量机模型对全网用户的访问行为特征进行预测分析以识别异常访问行为。

本实施例统计模块21统计安全用户的web访问日志，提取用户特征，对特征数据进行预处理转化为特征向量，构建模块22对数据进行一类支持向量机学习，找到安全用户的行为特征的边界，该边界即为安全用户行为与异常用户行为的界限，边界内为安全用户，边界外为异常用户。分析模块23将构建好的模型对全网所有用户的web访问特征进行分析，识别异常行为与异常IP。

本实施例中，统计模块21用于统计安全用户的访问行为特征数据。

具体的，统计模块21具体用于采集安全用户访问的web日志数据，

本实施例中，构建模块22用于根据特征数据构建一类支持向量机模型。

其中，构建模块22具体包括：

最小化单元，用于引入松弛变量并最小化关于特征数据的目标函数；

构造单元，用于构造关于特征数据的密度分布的二值模型；

识别单元，用于判断特征数据的密度是否大于预设阈值，若是，判定为安全样本；否则，判定为异常样本。

一类支持向量机One-class SVM算法把统计学习理论引入到无监督学习方面，并取得了很好的效果。它的核心思想是通过支持向量机SVM训练得到具有最大分类间隔的超平面，进而把一分类问题转化为一个特殊的二值分类问题。将异常检测看作是一种单值分类问题，能够在有噪声的数据集中进行训练，降低了对训练集的要求，提高了检测准确性。

本实施例中，分析模块23用于利用一类支持向量机模型对全网用户的访问行为特征进行预测分析以识别异常访问行为。

具体的，构建模块22构建一类支持向量机模型后，分析模块23将全网用户的访问行为特征输入一类支持向量机模型进行学习，若访问行为特征在边界外，则判定为异常访问行为，若访问行为特征在边界内，则判定为安全访问行为。

本实施例中，分析模块23具体包括：

其中，预设阈值为构建模块22构建一类支持向量机模型所找出的边界阈值。

采用构建一类支持向量机模型的方法，能对网络异常攻击行为进行实施检测。识别出异常行为，特别是未知的网络新型攻击行为。与传统的技术相比，识别范围更广。

实施例二

本实施例提供了一种网络异常行为检测与分析的方法，如图3所示，包括步骤：

S31：统计安全用户的访问行为特征数据；

S32：根据特征数据构建一类支持向量机模型；

S33：利用一类支持向量机模型对全网用户的访问行为特征进行预测分析以识别异常访问行为；

S34：判断异常访问行为的行为特征是否已知，若是，进行相应的处理；否则，研究异常访问行为并制定相应的措施。

与实施例一不同之处在于，还包括步骤S34。

具体的，识别了异常访问行为与异常IP后，进一步，将异常访问行为划分为常见攻击行为与未知攻击行为。常见攻击行为即行为特征已知的攻击行为；未知攻击行为即行为特征未知的攻击行为。对于常见的攻击行为进行相应的处置，对未知攻击行为建立未知攻击行为特征库，并进行行为特征向量余弦相似度分析，对相似度高的攻击行为进行识别与输出，交予安全专家进行深度分析，判断是否为新型攻击行为并采取相应的防御措施；对相似度低的攻击行为做入库处理，为后续的新型攻击识别进行样例积累。

本实施例中，步骤S34具体包括：

对异常访问行为的URL进行分词；

通过TF-IDF构建词频向量；

将新的异常访问特征向量进行余弦相似度计算以得到各异常访问行为之间的相似度；

判断相似度是否大于或等于预设相似度阈值，若是，将异常访问行为输出；否则，建立异常访问行为特征库，将未知的异常访问行为入库。

具体的，TF-IDF是一种用于信息检索与数据挖掘的常用加权技术。TF词频，IDF逆向文件频率。该算法的作用主要是对URL分词后组成的词向量进行词频统计，得到每条URL的特征向量。

TF即词频，指的是某一个分词在URL中出现的次数。IDF即逆向文件频率，指的是一个分词普遍重要性的度量。TF-IDF主要思想是如果某个分词在一条URL中出现的频率TF高，并且在其他URL中很少出现，则人为该分词具有很好的类别区分能力，适合用来分类。

通过TF-IDF算法将每条URL对应的词向量转化为特征向量，对特征向量进行余弦相似度计算，将相似度高的攻击行为作为类别相似的攻击进行输出，由安全人员通过查看原始日志对是否为新型攻击做出判断。

余弦相似度，又称为余弦相似性。铜鼓哦计算两个向量的夹角余弦值来评估他们的相似度。

假定A和B是两个n维向量，A＝(A1，A2，....，An)，B＝(B1，B2，...，Bn)，则A与B的夹角θ的余弦为：

cosθ的取值范围为-1到1，值越接近于1，代表两个向量的方向越接近，即，相似度越高；值越接近-1，代表他们的方向约相反，呈负相关；值等于0，说明两个向量正交，相似度为0。

判断相似度是否大于或等于预设相似度阈值，将该攻击行为作为类别相似的攻击进行输出；并由安全人员通过查看原始日志对攻击行为进行区分。否则，建立异常行为特征库，并将未知的异常行为做入库处理。

本实施例还提供了一种网络异常行为检测与分析的系统，如图4所示，包括：

统计模块41，用于统计安全用户的访问行为特征数据；

构建模块42，用于根据特征数据构建一类支持向量机模型；

分析模块43，用于利用一类支持向量机模型对全网用户的访问行为特征进行预测分析以识别异常访问行为；

判断模块44，用于判断异常访问行为的行为特征是否已知，若是，进行相应的处理；否则，研究异常访问行为并制定相应的措施。

本实施例中，判断模块44具体包括：

分词单元，用于对异常访问行为的URL进行分词；

向量单元，用于通过TF-IDF构建词频向量；

计算单元，用于将新的异常访问特征向量进行余弦相似度计算以得到各异常访问行为之间的相似度；

对比单元，用于判断相似度是否大于或等于预设相似度阈值，若是，将异常访问行为输出；否则，建立异常访问行为特征库，将未知的异常访问行为入库。

具体的，对于常见的攻击行为进行相应的处置，对未知攻击行为建立未知攻击行为特征库，通过TF-IDF算法将每条URL对应的词向量转化为特征向量，对特征向量进行余弦相似度计算，将相似度高的攻击行为作为类别相似的攻击进行输出，由安全人员通过查看原始日志对是否为新型攻击做出判断。对相似度高的攻击行为进行识别与输出，交予安全专家进行深度分析，判断是否为新型攻击行为并采取相应的防御措施；对相似度低的攻击行为做入库处理，为后续的新型攻击识别进行样例积累。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种网络异常行为检测与分析的方法，其特征在于，包括步骤：

S1、统计安全用户的访问行为特征数据；

S2、根据所述特征数据构建一类支持向量机模型；

步骤S2具体包括：

引入松弛变量并最小化关于所述特征数据的目标函数；

构造关于所述特征数据的密度分布二值模型；

判断所述特征数据的密度是否大于预设阈值，若是，判定为安全样本；否则，判定为异常样本；

S3、利用所述一类支持向量机模型对全网用户的访问行为特征进行预测分析以识别异常访问行为；

步骤S3具体包括：

判断全网用户的访问行为特征是否大于预设阈值，若是，判定为异常访问用户；否则，判定为安全访问用户；

2.根据权利要求1所述的一种网络异常行为检测与分析的方法，其特征在于，步骤S4具体包括：

对所述异常访问行为的URL进行分词；

通过TF-IDF构建词频向量；

3.一种网络异常行为检测与分析的系统，其特征在于，包括：

统计模块，用于统计安全用户的访问行为特征数据；

所述构建模块具体包括：

识别单元，用于判断所述特征数据的密度是否大于预设阈值，若是，判定为安全样本；否则，判定为异常样本；

分析模块，用于利用所述一类支持向量机模型对全网用户的访问行为特征进行预测分析以识别异常访问行为；

所述分析模块具体包括：

判定单元，用于判断全网用户的访问行为特征是否大于预设阈值，若是，判定为异常访问用户；否则，判定为安全访问用户；

4.根据权利要求3所述的一种网络异常行为检测与分析的系统，其特征在于，所述判断模块具体包括：

分词单元，用于对所述异常访问行为的URL进行分词；

向量单元，用于通过TF-IDF构建词频向量；