CN102611714B

CN102611714B - 基于联系发现技术的网络入侵预测方法

Info

Publication number: CN102611714B
Application number: CN201210103325.3A
Authority: CN
Inventors: 朱振国; 王勇; 徐毅; 米波
Original assignee: Chongqing Jiaotong University
Current assignee: Chongqing Jiaotong University
Priority date: 2012-04-10
Filing date: 2012-04-10
Publication date: 2015-12-02
Anticipated expiration: 2032-04-10
Also published as: CN102611714A

Abstract

本发明涉及计算机网络安全技术领域，提供一种基于联系发现的网络入侵预测方法，获取网络基点的网络数据，进行处理生成目标数据；计算网络基点间的相关系数；计算网络基点的加权度；计算网络基点的加权聚集系数；计算各网络基点的加权综合特征值；对各网络基点的加权综合特征值排序，找出关键网络基点；有效地解决了网络数据量大且呈现出流式，不能快速准确找到入侵风险较高的关键网络基点的问题，并且，本发明计算量小、响应速度快、准确率高，能有效提高网络安全防护能力。

Description

基于联系发现技术的网络入侵预测方法

技术领域

本发明涉及计算机网络安全技术领域，特别涉及一种基于联系发现的网络入侵预测方法。

背景技术

现在信息和网络技术广泛而深入地渗透到商业、金融、科研、教育、军事以及人们日常生活的各个领域，根据中国互联网络信息中心(CNNIC)与2011年7月19日发布的《第28次中国互联网络发展状况统计报告》，截止2011年6月31日，中国网民规模达4.85亿人，普及率达到36.2％。网民数量较2010年底增长2770万人。目前，网络游戏、QQ聊天、网上银行和网上炒股等互联网应用曰益流行，用户在这些应用中的账户直接关系到用户在现实世界中的财产，因此网络和信息安全对人们生活甚至国家安全的影响越来越重要。而随着网络技术的发展，网络犯罪活动也日趋猖狂，网站挂马，盗号，服务器攻击等情况屡见不鲜。尤其是网络服务器攻击，攻击者越来越多，攻击工具与手法日趋复杂多样，单纯的防火墙策略已经无法满足对安全高度敏感的部门的需要，网络的防卫必须采用一种纵深的、多样的手段。另一方面，网络环境也越来越复杂，各式各样的、需要不断升级和补漏的系统使得网络管理员的工作量不断加重，不经意的疏忽便有可能造成安全的重大隐患。

网络入侵预测是防火墙的有力补充，帮助系统预先识别网络攻击，扩展了系统管理员的安全管理能力(包括安全审计、监视、进攻识别和响应)，提高了信息安全基础结构的完整性。它从计算机网络系统中不断或者间断的监视用户及系统活动，收集信息，并分析这些信息，然后进行异常模式的统计分析，识别反映已知进攻的活动模式，如有异常则发出警报。但是，由于“大数据时代”的来临，信息量呈现出爆炸式增长，网络数据往往呈现出流式特性，主要体现在以下几个方面：(1)数据是实时非匀速到达的；(2)数据达到次序独立，不受系统控制；(3)数据持续到达，其数量不可预知且原则上只能被访问一次或有限几次。网络攻击行为与以往已经有较大区别，攻击行为往往潜伏在正常的网络活动中，前期不易发觉，一旦爆发后果极其严重，且发起攻击或者被当成“肉鸡”(肉鸡就是被黑客攻破，种植了木马病毒的电脑，黑客可以随意操纵它并利用它做任何事情，就像傀儡。)的网络基点关系错综复杂，传统的数据处理方法已已不能有效地对这类数据进行处理，很难快速准确地找到入侵风险较高的关键网络基点。

发明内容

针对网络数据量大且呈现出流式，不能快速准确找到入侵风险较高的关键网络基点的问题，本发明提出基于联系发现技术的网络入侵预测方法，提供一种新的网络入侵行为预测方法以预测“大数据时代”的网络入侵行为，提前预测出入侵风险较高的关键网络基点。

为实现以上目的，本发明的基于联系发现技术的网络入侵预测方法，包括：

步骤A、获取网络基点的网络数据，进行处理生成目标数据；

步骤B、利用目标数据计算网络基点间的相关系数；

步骤D、计算网络基点的加权度WD_i；

步骤E、计算网络基点的加权聚集系数WC_i；

步骤F、根据网络基点的加权聚集度WD_i及加权聚集系数WC_i计算各网络基点的加权综合特征值WCF_i；

步骤G、对各网络基点的加权综合特征值WCF_i排序，找出关键网络基点；

其中，所述网络基点为受监控的服务器、终端或者路由设备中的任意一种或者任意几种的组合，i为网络基点序号，1≤i≤N，N为网络基点个数。

作为一种优选实施方式，在步骤B之后，包括步骤C、利用网络基点间的相关系数，构建网络基点间的完全加权图。

所述构建网络基点间的完全加权图为，利用相关系数构建网络基点间的加权图边的权值，重复此过程，得到某段时间内所有数据对象所访问的网络基点间的完全加权图。

优选的，还包括对完全加权图进行优化，即设定完全加权图边的权值的阈值，删除权值小于阈值的边，即将小于阈值的完全加权图边的权值设置为0。

作为另一种优选实施方式，在步骤G之后，包括对访问关键网络基点的数据对象自身信息进行分析，判断数据对象是否有入侵倾向。

优选的，步骤A所述获取网络基点的网络数据，进行处理生成目标数据为，首先采集各受监控的网络基点的访问数据，然后对采集的数据进行处理生成目标数据；

所述访问数据包括数据对象在时间段T内所访问的所有网络基点的访问流量、数据的访问行为或者数据对象自身信息的任意一种或任意几种的组合；

所述对采集的数据进行处理生成目标数据，包括数据清洗，数据格式转换，数据集成的任意一种或任意几种的组合；

所述数据对象自身信息，包括访问协议或/和使用端口。

优选的，步骤B所述计算网络基点间的相关系数采用相似度函数：

R = Σ_{i = 1}^{n} β_{i} r_{i}

r_{i} = \frac{Σ_{i = 1}^{n} (x_{i} - m_{x}) (y_{i} - m_{y})}{\sqrt{Σ_{i = 1}^{n} {(x_{i} - m_{x})}^{2}} \sqrt{Σ_{i = 1}^{n} {(y_{i} - m_{y})}^{2}}}

其中，r_i为网络基点间的两个变量间的相关系数，r_i取值范围为[-1，1]，若r_i＞0，表明两个变量是正相关，r_i＜0，表明两个变量是负相关，r_i＝0表明两个变量不相关，n为要计算的变量的总数，x_i、y_i分别为两个变量的统计值，m_x、m_y分别为变量的平均值，β_i为变量相关系数的比例系数，0≤β_i≤1，且

优选的，步骤D所述计算网络基点的加权度WD_i为该网络基点与同一网络环境下的其他网络基点间的相关系数之和，其中，W_ij＝R。

优选的，步骤E所述计算网络基点的加权聚集系数WC_i为，WC_i＝2WD_i/D_i(D_i-1)，其中，D_i是网络基点S_i的度，即S_i与其它网络基点相关联的边数。

优选的，步骤F所述计算被访问网络基点的加权综合特征值WCF_i为，

{WCF}_{i} = ({&PartialD; WC}_{i} + (1 - &PartialD;) {WD}_{i}) / N,

其中，为调节参数，

0 < &PartialD; < 1 .

本发明利用联系发现技术寻找网络基点以及数据对象间的关系，或进一步构造关于网络基点的关系图，找出其中的关键对象并对其活动行为进行分析，有效地解决了网络数据量大且呈现出流式，不能快速准确找到入侵风险较高的关键网络基点的问题，并且，本发明计算量小、响应速度快、准确率高，能有效提高网络安全防护能力，为更好地维护网络秩序和保障网络用户的信息、财产等安全提供了完善的解决方案。

附图说明

图1为现有连接发现技术实现模型流程示意图；

图2为本发明改进的连接发现技术实现模型流程示意图；

图3为本发明实施例构建的网络环境拓扑结构图；

图4为本发明基于联系发现技术的网络入侵预测方法优选实施例流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚，以下结合附图及优选实施例或实施方式，对本发明做进一步详细说明。应当理解，所描述的具体实施方式或者实施例仅用以解释本发明，并不用于限定本发明。

对本发明所出现的几个术语，给出相关定义：

实体：在计算机中表示任何可发送或接收信息的硬件或软件进程，在本专利中指包含一个或多个属性的网络对象，比如本发明中所述的网络基站就是实体，它包含IP地址等多个属性。

变量：指实体的可观测属性。

本发明实施例中N表示实体个数，在具体实例中也即网络基点个数，n表示实体中变量个数。

连接发现技术是对海量数据进行挖掘，找出其中潜在的模式，抽取有用的知识，进而发现有关联的信息的一种方法。由于大多数连接发现的方法可以实时添加、删除、更新数据，所以将连接发现用于网络数据流分析中，可以有效处理网络数据中不断变化的未知模式，发现有价值的关键信息点以及其中的关系。关于联系发现技术，其实现模型流程如图1所示，包括：

步骤101、联系假设，即定义任意两个实体之间的相关性度量函数，

R = Σ_{i = 1}^{n} β_{i} r_{i}

r_{i} = \frac{Σ_{i = 1}^{n} (x_{i} - m_{x}) (y_{i} - m_{y})}{\sqrt{Σ_{i = 1}^{n} {(x_{i} - m_{x})}^{2}} \sqrt{Σ_{i = 1}^{n} {(y_{i} - m_{y})}^{2}}}

其中，r_i为两个实体的两个相同变量(即属性)间的相关系数，r_i取值范围为[-1，1]，若r_i＞0，表明两个变量是正相关，r_i＜0，表明两个变量是负相关，r_i＝0表明两个变量间不相关，n为要计算的变量的总数，x_i，y_i为两个变量的观测值，m_x、m_y分别为变量的平均值，β_i为变量相关系数的比例系数，0≤β_i≤1，且

因为每个实体会包含一个或多个变量，计算其实体间相关系数须先计算其变量间的相关系数，然后对多个变量间的相关系数进行线性加权，既度量函数R所示。

步骤102、联系产生，先求出任意两个实体相关性大小，再把结果表示为一个加权的多边图G(U，E)，其中U表示实体集合，E表示带有权值的边的集合。

步骤103、生成加权图，对产生的多边图G(U，E)进行修剪或者调整，构成一个规范的完全有向图。

步骤104、联系确认，定义一个新的函数或者算法P，并定义阈值。它使用P把完全图G匹配到它的某个子图M，M∈G。该子图中的实体间具有紧密联系。

步骤105、根据相关算法得到数据间的关系图，产生强关联的实体。

步骤106、输出结果，对上述步骤所产生的结果进行更新和维护。

由于网络数据流一般都是与时间有关的数据序列，因此我们采用有向图G来表示数据之间的关系。G＜V，E＞，V表示网络基点，E表示边。

为提高数据处理的效率和准确性，作为一种优选实施方式，本发明采用改进的实现模型，其流程如图2(该模型主要是基于数据挖掘模型，方便原始数据的挖掘分析和最终结果的存储维护)，将原模型分为在线和离线两个部分。其中线框内表示在线部分，主要完成数据关系挖掘，离线部分对在线部分的结果进行维护。由于网络数据具有流式特性，因此在线部分在处理数据的时候需采用增量式更新算法(所谓增量式更新，就在是原有数据计算结果的基础上，仅考虑新来的数据对计算结果的影响，而不需再对所有数据重新计算)，以减少算法的时间和空间消耗。

为便于说明，作为一个特例，构建网络环境拓扑结构如图3所示，图中，包括网络基点1-7(网络基点为受监控的服务器、终端或者路由设备中的任意一种或者任意几种的组合，在本实施例图3示意的网络环境中，这些网络基点处于受监控之中，数量为7个，即N＝7)，网络基点间通过互联网或者局域网直接或间接相连接，各个网络基点都可以监控其自身的网络数据信息，并可将其监控获得的网络数据信息发送或推送给网络监控器，还包括一些网络客户端(网络客户端为不受监控的服务器或者其他终端，有可能是异常行为来源，亦称为数据对象)与网络基点相连接。所述网络监控器为具有收集分析网络基点数据信息功能的网络装置。

典型的，如某银行内部的网络环境、彩票网络环境等，网络基点间通过互联网或者局域网相连接，在各个网络基点上都安装有监控软件，以便监控其自身的网络数据信息并可将其监控获得的网络数据信息发送或推送给网络监控器。

本发明基于联系发现技术的网络入侵预测方法，其总体实现步骤如图4所示。

步骤201、获取网络基点的网络数据，进行处理生成目标数据；

即首先采集各受监控的网络基点的访问数据，包括数据对象在时间段T内所访问的所有网络基点的访问流量、数据的访问行为以及数据对象自身信息；然后对采集的数据进行处理生成目标数据；

所述时间段T为采取数据的周期，例如15-60分钟，本实施例为30分钟，即每30分钟采集一次数据并上传进行处理。

这里的网络数据是指网络客户端访问某网络基点的数据，其中主要包括访问流量、用户的访问行为或者用户信息的任意一种或任意几种的组合。

所述访问流量是指数据对象所访问的网络基点的在某段时间内的总访问量。

所述用户访问行为是指数据对象访问网络基点时停留多长时间，查看了几个页面等信息。

所述用户信息是指数据对象的IP地址，使用的协议(http或者ftp)，使用的网络流量等信息。

所述对采集的数据进行处理生成目标数据，包括数据清洗，数据格式转换，数据集成等操作，这些操作根据数据类型不一样，采用不同的操作，即用于其中任意一种或任意几种操作的组合。

所述数据清洗就是按照规则过滤掉不符合要求的数据，不符合要求的数据主要包括不完整的数据、错误的数据、重复的数据三大类。

所述不完整的数据主要是一些应该有的信息缺失，如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。

所述错误的数据是业务系统不够健全，在接收输入后没有进行判断直接写入后台数据库造成的，比如数值数据输成全角数字字符、字符串数据后面有一个回车操作、曰期格式不正确、日期越界等。

所述重复的数据就是数据的字面量相同的数据(相同值的数字、文字)。

所述数据格式转换主要是对数据进行规格化操作。数据转换包含以下处理内容：

(1)平滑处理，帮助除去数据中的噪声。

(2)合计处理，对数据进行总结或合计操作。

(3)数据泛化处理，所谓泛化处理就是用更抽象(或更高层次)的概念来取代低层次或数据层的数据对象。

(4)规格化，规格化就是将有关属性数据按比例投射到特定小范围之中，以消除数值型属性因大小不一而造成挖掘结果的偏差。

(5)属性构造，根据已有属性集构造新的属性，以帮助数据挖掘过程。

所述数据集成主要考虑以下几个问题：

(1)模式集成(schemaintegration)问题，即如何使来自多个数据源的现实世界的实体互匹配，这其中就涉及到实体识别问题(entityidentificationproblem)。

(2)冗余问题，这是数据集成中经常发生的另一个问题。

(3)数据值冲突检测与消除，对于一个现实世界实体，其来自不同数据源的属性值或许不同。产生这样问题原因可能是表示的差异、比例尺度不同、或编码的差异等。

步骤202、利用目标数据计算网络基点间的相关系数；

所述计算网络基点间的相关系数采用相似度函数；

优选的，相似度函数为：

R = Σ_{i = 1}^{n} β_{i} r_{i}

r_{i} = \frac{Σ_{i = 1}^{n} (x_{i} - m_{x}) (y_{i} - m_{y})}{\sqrt{Σ_{i = 1}^{n} {(x_{i} - m_{x})}^{2}} \sqrt{Σ_{i = 1}^{n} {(y_{i} - m_{y})}^{2}}}

作为一个实例，以网站为例计算两个网站的相关系数，须先计算网站若干关键属性间的相关系数。网站的关键属性包括前台属性和后台属性，前台属性包括网站的关键字，摘要信息，页面布局等，后台属性包括网站所使用服务器类型，需要的访问协议等等。这里，假设仅仅考虑关键字属性，那么公式中的n为关键字个数，x_i，y_i为某两个关键字的观测值，m_x、m_y关键字平均数。

首先对其中一个网站的关键字进行采集统计，以<key，value>输出，比如<′足球′，120>，代表此网站共出现关键字‘足球’120次，取value值最高的前10个关键字(相似度函数R中n＝10)，按照key值从大到小排列，值最大的为x₁，依次类推到x₁₀，假设此处x₁＝120，10个关键字key值之和为1000，则相似度函数R中m_x＝1000/10＝100，即关键字平均数为100。对于另一网站，同样地，经处理也可得到这些数据，然后相似度函数R计算这些关键字的相关系数。

因为此例仅考虑网站的关键字，所以关键字的相关系数就是网站的相关系数。否则的话，要先计算网站多个属性间的相关系数，然后利用公式F得到两个网站的相关系数。

相似度函数R中属性相关系数的比例系数β_i，其值根据属性的重要性来设置，对计算网站相关性来说关键字的重要性远远大于页面布局，其相应的比例系数也就较大。

将基点S_i和S_j间的相关系数记为W_ij＝R，1≤i，j≤N，N为受监控的网络基点个数；

作为一种优选实施方式，包括步骤203、利用被访问网络基点间的相关系数，构建网络基点间的完全加权图；即利用上步相似度函数计算出来的相关系数作为权值构建网络基点间的加权图，将基点S_i和S_j间的相关系数W_ij作为边的权值，例如网络基点1和网络基点2之间的权值为0.1，则表示为W₂₁＝0.1，等等，重复此过程，会得到某段时间内，所有数据对象所访问的网络基点间的基于相关系数的完全加权图。所述完全加权图，以矩阵形式表示为：

特别地，作为一种优选实施方式，还包括对完全加权图进行优化，即设定完全加权图边的权值的阈值，删除权值小于阈值的边，即将小于阈值的完全加权图边的权值设置为0。本实施例中，设定阈值为0.4，则所有权值小于0.4的边都被删除，即将小于阈值的W_ij设置为0，该方式极大地减少计算量；

步骤204、计算网络基点的加权度WD_i

所述网络基点的加权度WD_i为该被访问网络基点与同一网络环境下的其他网络基点间的相关系数之和，该值反映出该被访问网络基点与同一网络环境下的其他网络基点间的关系连接强度；

图3以网络基点2为例，WD₂就是指所有与网络基点2关联的网络基点间的权值(相关系数)之和。即，若W₂₁＝0.1，W₂₃＝0.8，W₂₄＝0.5，W₂₅＝0.4，W₂₆＝0.1，则WD₂＝0.1+0.8+0.5+0.4+0.6+0.3＝2.7。

步骤205、计算网络基点的加权聚集系数WC_i

网络基点的加权聚集系数WC_i则体现了某局部范围内的被访问基点相互连接的密度，WC_i＝2WD_i/D_i(D_i-1)；其中，D_i是网络基点S_i的度，即S_i与其它网络基点相关联的边数。例如，图3中网络基点2的度D_i＝5。对于图3中网络基点2，WC₂＝2×2.7/(5×(5-1))＝0.27。

设S＝{S₁，S₂，…，S_n}为某一数据对象访问过的网络基点集合，无序偶对(S_i，S_j)表示S_i∈S和S_j∈S之间的边。G(S，E)是以网络基点S为基点集合，以

E &Subset; {(S_{i}, S_{j}), S_{i} &Element; S, S_{j} &Element; S}

为联系集合的有向图。

网络基点的聚集系数是指与该基点相连的近邻基点(基点均被同一数据对象访问)互联的比例，即C_i＝2K_i/D_i(D_i-1)，其中，K_i表示访问过基点S_i的数据对象访问的除S_i之外的其他基点个数。

图3中，假设与网络基点2共同被同一数据对象访问过的网络基点1、网络基点3和网络基点4，K₂＝3，则网络基点2的聚集系数C₂＝0.3。

步骤206、根据网络基点的加权聚集度WD_i及加权聚集系数WC_i计算被访问网络基点的加权综合特征值WCF_i；

优选的，所述加权综合特征值WCF_i为，

{WCF}_{i} = ({&PartialD; WC}_{i} + (1 - &PartialD;) {WD}_{i}) / N

其中，为调节参数，根据经验值一般设定为0.4，即加权聚集系数比重为0.4，加权度比重为0.6。

对于图3中网络基点2，WCF₂＝(0.4×0.27+0.6×2.7)/7＝0.25。

所述加权综合特征值体现了被访问网络基点之间的联系频度和强度信息。

至此，得到各个网络基点访问频度与强度的在线结果。

步骤207、对各网络基点的加权综合特征值WCF_i进行从高到低排序，根据排序结果可以迅速得到各被访问网络基点频度与强度序列；找出排序高的网络基点，将其作为风险较高的关键网络基点；

可进一步地，对访问关键网络基点的数据对象自身信息进行分析，判断数据对象是否有入侵倾向。

比如对于某银行内部的网络环境的网络基点，在某段时间内，访问频度最高的是信用卡交易网络基点，其WCF₂＝0.25，在所有的网络基点中值最高。这就要对访问该银行网络基点的数据对象自身信息进一步分析，包括其访问协议，或/和使用端口等情况，从而判断数据对象是否有入侵倾向，防止入侵事件发生。

本发明利用联系发现技术对网络数据进行处理，找出其中的关键网络基点以及对网络环境影响较大的因素，然后对网络活动进行判断，分析其行为，本发明所述入侵预测，即是对网络数据对象进行跟踪，记录其访问行为以及各被访问网络基点的信息，然后对记录的信息进行分析处理，找出其中的规律，并预测其动向，以此预测入侵行为的发生。以预测网络入侵。

本发明所举实施方式或者实施例对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施方式或者实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于联系发现技术的网络入侵预测方法，其特征在于，包括：

步骤A、获取网络基点的网络数据，进行处理生成目标数据；

步骤B、利用目标数据计算网络基点间的相关系数；

步骤C、利用网络基点间的相关系数，构建网络基点间的完全加权图；

步骤D、计算网络基点的加权度WD_i；

步骤E、计算网络基点的加权聚集系数WC_i；

步骤F、根据网络基点的加权度WD_i及加权聚集系数WC_i计算各网络基点的加权综合特征值WCF_i；

步骤G、对各网络基点的加权综合特征值WCF_i排序，找出关键网络基点；对访问关键网络基点的数据对象自身信息进行分析，判断数据对象是否有入侵倾向；

2.如权利要求1所述方法，其特征在于所述构建网络基点间的完全加权图为，利用相关系数构建网络基点间的加权图边的权值，重复此过程，得到某段时间内所有数据对象所访问的网络基点间的完全加权图。

3.如权利要求2所述方法，其特征在于，还包括对完全加权图进行优化，即设定完全加权图边的权值的阈值，删除权值小于阈值的边，即将小于阈值的完全加权图边的权值设置为0。

4.如权利要求1-3任一所述方法，其特征在于，步骤A所述获取网络基点的网络数据，进行处理生成目标数据为，首先采集各受监控的网络基点的访问数据，然后对采集的数据进行处理生成目标数据；

所述对采集的数据进行处理生成目标数据，包括数据清洗、数据格式转换、数据集成的任意一种或任意几种的组合；

所述数据对象自身信息，包括访问协议或/和使用端口。

5.如权利要求1-3所述方法，其特征在于，步骤B所述计算网络基点间的相关系数采用相似度函数：

R = Σ_{i = 1}^{n} β_{i} r_{i}

r_{i} = \frac{Σ_{i = 1}^{n} (x_{i} - m_{x}) (y_{i} - m_{y})}{\sqrt{Σ_{i = 1}^{n} {(x_{i} - m_{x})}^{2}} \sqrt{Σ_{i = 1}^{n} {(y_{i} - m_{y})}^{2}}}

6.如权利要求5所述方法，其特征在于步骤D所述计算网络基点的加权度WD_i为该网络基点与同一网络环境下的其他网络基点间的相关系数之和，其中，W_ij＝R。

7.如权利要求6所述方法，其特征在于，步骤E所述计算网络基点的加权聚集系数WC_i为，WC_i＝2WD_i/D_i(D_i-1)，其中，D_i是网络基点S_i的度，即S_i与其它网络基点相关联的边数。

8.如权利要求7所述方法，其特征在于，步骤F中的所述计算各网络基点的加权综合特征值WCF_i，

{WCF}_{i} = (&PartialD; {WC}_{i} + (1 - &PartialD;) {WD}_{i}) / N,

其中，为调节参数，

0 < &PartialD; < 1 .