CN102063485A

CN102063485A - 一种在线分析网络流中短文本信息聚类的方法

Info

Publication number: CN102063485A
Application number: CN 201010611185
Authority: CN
Inventors: 唐东明; 戚建淮
Original assignee: SHENZHEN RONGDA ELECTRONICS CO Ltd
Current assignee: SHENZHEN RONGDA ELECTRONICS CO Ltd
Priority date: 2010-12-29
Filing date: 2010-12-29
Publication date: 2011-05-18

Abstract

本发明公开了一种在线分析网络流中短文本信息聚类的方法，该方法用于分析大规模的网络流中短文本信息数据。在线聚类算法被设计用来处理数据部分增长可用的情况。和标准的批处理方法(Standard batch approaches)不同它不需要所有数据都可用时才开始对数据进行分析，批处理方法一般对数据在整体上进行全局优化分析，而与此相反，在线方法当新数据可用时对数据进行局部优化分析，进而克服时间耗费的问题，这样一般比批处理方法的运行时间要短。所述方法的主要特征为：(1)所用内存空间和计算代价较小；(2)能自动决定聚类的数量；(3)可以部署在防火墙或网关服务器上，实现边上传边分析网络流中短文本信息。

Description

一种在线分析网络流中短文本信息聚类的方法

技术领域

本发明涉及计算机信息处理技术领域，具体涉及一种在线分析网络流中短文本信息聚类的方法。可以应用于计算机信息处理领域，可用于实现异常入侵检测系统的数据预处理器、自动决定聚类数分类器及检测系统。

背景技术

随着网络技术的不断发展和网络规模的不断扩大，网络入侵的机会也越来越多，网络安全已经成为一个全球性的重要问题。在网络安全问题日益突出的今天，如何迅速、有效地发现各类新的入侵行为，对于保证系统和网络资源的安全显得十分重要。

目前Internet网络是世界上最大的信息网络，是覆盖面最广、规模最大、信息资源最丰富的计算机信息网络。文本信息目前还是Internet网络上的主要信息承载形式，自2003年开始，中国的网页规模基本保持翻番增长，2009年网页数量达到336亿个，年增长率超过100％。网页病毒是利用网页来进行破坏的病毒，它使用一些SCRIPT语言编写的一些恶意代码利用浏览器的漏洞来实现病毒植入。当用户登录某些含有网页病毒的网站时，网页病毒便被悄悄激活，这些病毒一旦激活，可以利用系统的一些资源进行破坏。轻则修改用户的注册表，使用户的首页、浏览器标题改变，重则可以关闭系统的很多功能，装上木马，染上病毒，使用户无法正常使用计算机系统，严重者则可以将用户的系统进行格式化。而这种网页病毒容易编写和修改，使用户防不胜防。因此如何检测网页文本信息中潜在的信息安全威胁成了一个重要的研究课题。

文本聚类是一种集机器学习、模式识别、统计分析和信息检索技术于一体的文本挖掘方法。其特点是在不需要训练集和预定义类别的情况下，即可从给定的文档集合中找到合理的聚类划分。通过文本聚类，可将文档集合划分为若干簇，并使得同一簇中的文档具有尽可能大的相似度，而簇间文档保持尽可能小的相似度，为信息的查询和检索提供了较好的优化和分析方法。

入侵检测技术主要分为两类，即误用检测(misuse detection)和异常检测(abnormal detection)。早期入侵检测技术的研究主要集中在误用检测，它依赖于对训练数据集中标记数据样本的学习，当遇到未知攻击时需要用新的标记数据样本对检测系统重新进行训练。然而，标记大量的网络数据代价是很高的。而异常检测可以不依赖标记数据样本而对入侵进行有效检测。聚类检测是一种异常检测技术，它将相似的数据划分到同一个聚类中，而将不相似的数据划分到不同的聚类中，能够自动地对未知攻击进行检测。

发明内容

在这里，本专利将给出一种在线分析网络流中短文本信息聚类的方法用于分析大规模的网络流中短文本信息数据。在线聚类算法被设计用来处理数据部分增长可用的情况。和标准的批处理方法(Standard batch approaches)不同，它不需要所有数据都可用时才开始对数据进行分析，批处理方法一般对数据在整体上进行全局优化分析，而与此相反，在线方法当新数据可用时对数据进行局部优化分析，进而克服时间耗费的问题，这样一般比批处理方法的运行时间要短。

本发明提供的在线分析网络流中短文本信息聚类的方法包括以下步骤：

在开始分析前定义一当前聚类结果；

获取一条网络流中的短文本信息；

在当前的聚类结果中找到距离前述获取的网络流中短文本信息最近的组；该步骤进一步包括定义针对最近的组的摘要集，并算出两个文本序列之间的相似度值：

如果获得的该最近组的相似度值大于等于第一阈值但小于等于第二阈值，那么认为文本序列的信息对摘要集有贡献；

如果获得的该最近组的相似度值大于第二阈值，那么认为文本序列的信息已经被摘要集摘录了；

如果获得的该最近组的相似度值小于第一阈值，则文本序列被认为是一个未知功能的网络流中短文本信息，因此对应该文本序列产生一个新的孤类；

重复以上过程，直到没有数据读入，输出最后获得的聚类分析结果。

优选的是，为了解决摘要集快速增大的问题，本发明的软件中可设置一个随机选择的过程。

基于在线方法，并结合无比对的相似度方法本申请将给出一种在线的大规模网络流中短文本信息分析方法。该方法的主要技术效果为：(1)所用内存空间和计算代价较小；(2)能自动决定聚类的数量；(3)可以部署在防火墙或网关服务器上，实现边上传边分析网络流中短文本信息。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是依据本发明的一种具体实施方式的数据聚类过程的流程图。

具体实施方式

该方法的基本思想是如果数据距离一个群组的中心点小于一个给定的值，那么认定这个数据属于这个组。当有新数据到来时，那么中心点应该改变。在线聚类分析时显然不能定义物理意义上的中心点，在给出的算法中我们将引入一种组摘要的方式。

图1是本发明本发明一种在线分析网络流中短文本信息聚类的方法的流程图。该方法包括以下步骤：

在开始分析前定义一当前聚类结果；

读取或者是获得一条网络流中短文本信息，表示为x；

在当前的聚类结果C＝{c₁，c₂，...，c_T}中找到距离前述获取的网络流中短文本信息x最近组c_i。该步骤进一步包括定义针对组c_i的摘要集c_ei，即C_e＝{c_e1，c_e2，...，c_eT}，并依照文本序列和组之间的相似度公式1来计算出两个文本序列和组之间的相似度：

S (x, c_{ej}) = \frac{1}{| c_{ej} |} \underset{y &Element; c_{ej}}{Σ} s (x, y)

公式1

式中|c_ej|为组的尺寸，s(x，y)为两个文本序列之间的相似度。

如果上一步获得的最近组c_i满足条件δ≤s(x，c_i)≤λ，其中参数δ和λ是用户根据应用场景自己配置定义的参数，那么认为文本序列x的信息对摘要集c_ei有贡献，则有c_ei＝c_ei∪{x}。

如果一步获得的最近组c_i满足条件λ＜s(x，c_i)那么认为文本序列x的信息已经被摘要集c_ei摘录了。因此此处的主要思想就是当一个网络流中短文本信息和一个组的摘要集c_ei过度相似的话，那么我们认为摘要集里面已经摘录了文本序列的类似信息。换句话说，在摘要集中已经有文本序列和该文本序列非常相似了。

如果c_i满足条件s(x，c_i)＜δ，则文本序列被认为是一个未知功能的网络流中短文本信息，因此产生一个新的孤类c_new＝{x}；

为了解决摘要集快速增大的问题，本发明的软件中可设置一个随机选择的过程。随着不断的处理文本序列，摘要集会变得越来越大，因此算法的计算速度不可避免的将要降低。虽然用户定义的参数可以减缓这个增长过程，但是如果文本序列数据量很大同样难以避免速度变的很慢。在此，为了加快执行速度，算法采用一个简单的随机选择过程来避免计算代价变大，使用简单的选择过程必然带来聚类结果精度上的损失，但是目前还没有更好的解决办法。随机选择的基本过程是当摘要集的文本序列个数大于用户定义的参数￡时，就启动随机选择过程从集合中弹出一个文本序列。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种在线分析网络流中短文本信息聚类的方法，其特征在于：该方法包括以下步骤：

在开始分析前定义一当前聚类结果；

获取一条网络流中的短文本信息；

2.根据权利要求1所述的在线分析网络流中短文本信息聚类的方法，其特征在于：用于实现本方法的软件中设置一个随机选择的过程。