CN102063485A - 一种在线分析网络流中短文本信息聚类的方法 - Google Patents
一种在线分析网络流中短文本信息聚类的方法 Download PDFInfo
- Publication number
- CN102063485A CN102063485A CN 201010611185 CN201010611185A CN102063485A CN 102063485 A CN102063485 A CN 102063485A CN 201010611185 CN201010611185 CN 201010611185 CN 201010611185 A CN201010611185 A CN 201010611185A CN 102063485 A CN102063485 A CN 102063485A
- Authority
- CN
- China
- Prior art keywords
- network flow
- data
- text message
- short
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种在线分析网络流中短文本信息聚类的方法,该方法用于分析大规模的网络流中短文本信息数据。在线聚类算法被设计用来处理数据部分增长可用的情况。和标准的批处理方法(Standard batch approaches)不同它不需要所有数据都可用时才开始对数据进行分析,批处理方法一般对数据在整体上进行全局优化分析,而与此相反,在线方法当新数据可用时对数据进行局部优化分析,进而克服时间耗费的问题,这样一般比批处理方法的运行时间要短。所述方法的主要特征为:(1)所用内存空间和计算代价较小;(2)能自动决定聚类的数量;(3)可以部署在防火墙或网关服务器上,实现边上传边分析网络流中短文本信息。
Description
技术领域
本发明涉及计算机信息处理技术领域,具体涉及一种在线分析网络流中短文本信息聚类的方法。可以应用于计算机信息处理领域,可用于实现异常入侵检测系统的数据预处理器、自动决定聚类数分类器及检测系统。
背景技术
随着网络技术的不断发展和网络规模的不断扩大,网络入侵的机会也越来越多,网络安全已经成为一个全球性的重要问题。在网络安全问题日益突出的今天,如何迅速、有效地发现各类新的入侵行为,对于保证系统和网络资源的安全显得十分重要。
目前Internet网络是世界上最大的信息网络,是覆盖面最广、规模最大、信息资源最丰富的计算机信息网络。文本信息目前还是Internet网络上的主要信息承载形式,自2003年开始,中国的网页规模基本保持翻番增长,2009年网页数量达到336亿个,年增长率超过100%。网页病毒是利用网页来进行破坏的病毒,它使用一些SCRIPT语言编写的一些恶意代码利用浏览器的漏洞来实现病毒植入。当用户登录某些含有网页病毒的网站时,网页病毒便被悄悄激活,这些病毒一旦激活,可以利用系统的一些资源进行破坏。轻则修改用户的注册表,使用户的首页、浏览器标题改变,重则可以关闭系统的很多功能,装上木马,染上病毒,使用户无法正常使用计算机系统,严重者则可以将用户的系统进行格式化。而这种网页病毒容易编写和修改,使用户防不胜防。因此如何检测网页文本信息中潜在的信息安全威胁成了一个重要的研究课题。
文本聚类是一种集机器学习、模式识别、统计分析和信息检索技术于一体的文本挖掘方法。其特点是在不需要训练集和预定义类别的情况下,即可从给定的文档集合中找到合理的聚类划分。通过文本聚类,可将文档集合划分为若干簇,并使得同一簇中的文档具有尽可能大的相似度,而簇间文档保持尽可能小的相似度,为信息的查询和检索提供了较好的优化和分析方法。
入侵检测技术主要分为两类,即误用检测(misuse detection)和异常检测(abnormal detection)。早期入侵检测技术的研究主要集中在误用检测,它依赖于对训练数据集中标记数据样本的学习,当遇到未知攻击时需要用新的标记数据样本对检测系统重新进行训练。然而,标记大量的网络数据代价是很高的。而异常检测可以不依赖标记数据样本而对入侵进行有效检测。聚类检测是一种异常检测技术,它将相似的数据划分到同一个聚类中,而将不相似的数据划分到不同的聚类中,能够自动地对未知攻击进行检测。
发明内容
在这里,本专利将给出一种在线分析网络流中短文本信息聚类的方法用于分析大规模的网络流中短文本信息数据。在线聚类算法被设计用来处理数据部分增长可用的情况。和标准的批处理方法(Standard batch approaches)不同,它不需要所有数据都可用时才开始对数据进行分析,批处理方法一般对数据在整体上进行全局优化分析,而与此相反,在线方法当新数据可用时对数据进行局部优化分析,进而克服时间耗费的问题,这样一般比批处理方法的运行时间要短。
本发明提供的在线分析网络流中短文本信息聚类的方法包括以下步骤:
在开始分析前定义一当前聚类结果;
获取一条网络流中的短文本信息;
在当前的聚类结果中找到距离前述获取的网络流中短文本信息最近的组;该步骤进一步包括定义针对最近的组的摘要集,并算出两个文本序列之间的相似度值:
如果获得的该最近组的相似度值大于等于第一阈值但小于等于第二阈值,那么认为文本序列的信息对摘要集有贡献;
如果获得的该最近组的相似度值大于第二阈值,那么认为文本序列的信息已经被摘要集摘录了;
如果获得的该最近组的相似度值小于第一阈值,则文本序列被认为是一个未知功能的网络流中短文本信息,因此对应该文本序列产生一个新的孤类;
重复以上过程,直到没有数据读入,输出最后获得的聚类分析结果。
优选的是,为了解决摘要集快速增大的问题,本发明的软件中可设置一个随机选择的过程。
基于在线方法,并结合无比对的相似度方法本申请将给出一种在线的大规模网络流中短文本信息分析方法。该方法的主要技术效果为:(1)所用内存空间和计算代价较小;(2)能自动决定聚类的数量;(3)可以部署在防火墙或网关服务器上,实现边上传边分析网络流中短文本信息。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是依据本发明的一种具体实施方式的数据聚类过程的流程图。
具体实施方式
该方法的基本思想是如果数据距离一个群组的中心点小于一个给定的值,那么认定这个数据属于这个组。当有新数据到来时,那么中心点应该改变。在线聚类分析时显然不能定义物理意义上的中心点,在给出的算法中我们将引入一种组摘要的方式。
图1是本发明本发明一种在线分析网络流中短文本信息聚类的方法的流程图。该方法包括以下步骤:
在开始分析前定义一当前聚类结果;
读取或者是获得一条网络流中短文本信息,表示为x;
在当前的聚类结果C={c1,c2,...,cT}中找到距离前述获取的网络流中短文本信息x最近组ci。该步骤进一步包括定义针对组ci的摘要集cei,即Ce={ce1,ce2,...,ceT},并依照文本序列和组之间的相似度公式1来计算出两个文本序列和组之间的相似度:
式中|cej|为组的尺寸,s(x,y)为两个文本序列之间的相似度。
如果上一步获得的最近组ci满足条件δ≤s(x,ci)≤λ,其中参数δ和λ是用户根据应用场景自己配置定义的参数,那么认为文本序列x的信息对摘要集cei有贡献,则有cei=cei∪{x}。
如果一步获得的最近组ci满足条件λ<s(x,ci)那么认为文本序列x的信息已经被摘要集cei摘录了。因此此处的主要思想就是当一个网络流中短文本信息和一个组的摘要集cei过度相似的话,那么我们认为摘要集里面已经摘录了文本序列的类似信息。换句话说,在摘要集中已经有文本序列和该文本序列非常相似了。
如果ci满足条件s(x,ci)<δ,则文本序列被认为是一个未知功能的网络流中短文本信息,因此产生一个新的孤类cnew={x};
重复以上过程,直到没有数据读入,输出最后获得的聚类分析结果。
为了解决摘要集快速增大的问题,本发明的软件中可设置一个随机选择的过程。随着不断的处理文本序列,摘要集会变得越来越大,因此算法的计算速度不可避免的将要降低。虽然用户定义的参数可以减缓这个增长过程,但是如果文本序列数据量很大同样难以避免速度变的很慢。在此,为了加快执行速度,算法采用一个简单的随机选择过程来避免计算代价变大,使用简单的选择过程必然带来聚类结果精度上的损失,但是目前还没有更好的解决办法。随机选择的基本过程是当摘要集的文本序列个数大于用户定义的参数£时,就启动随机选择过程从集合中弹出一个文本序列。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (2)
1.一种在线分析网络流中短文本信息聚类的方法,其特征在于:该方法包括以下步骤:
在开始分析前定义一当前聚类结果;
获取一条网络流中的短文本信息;
在当前的聚类结果中找到距离前述获取的网络流中短文本信息最近的组;该步骤进一步包括定义针对最近的组的摘要集,并算出两个文本序列之间的相似度值:
如果获得的该最近组的相似度值大于等于第一阈值但小于等于第二阈值,那么认为文本序列的信息对摘要集有贡献;
如果获得的该最近组的相似度值大于第二阈值,那么认为文本序列的信息已经被摘要集摘录了;
如果获得的该最近组的相似度值小于第一阈值,则文本序列被认为是一个未知功能的网络流中短文本信息,因此对应该文本序列产生一个新的孤类;
重复以上过程,直到没有数据读入,输出最后获得的聚类分析结果。
2.根据权利要求1所述的在线分析网络流中短文本信息聚类的方法,其特征在于:用于实现本方法的软件中设置一个随机选择的过程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010611185 CN102063485A (zh) | 2010-12-29 | 2010-12-29 | 一种在线分析网络流中短文本信息聚类的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010611185 CN102063485A (zh) | 2010-12-29 | 2010-12-29 | 一种在线分析网络流中短文本信息聚类的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102063485A true CN102063485A (zh) | 2011-05-18 |
Family
ID=43998760
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201010611185 Pending CN102063485A (zh) | 2010-12-29 | 2010-12-29 | 一种在线分析网络流中短文本信息聚类的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102063485A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106547780A (zh) * | 2015-09-21 | 2017-03-29 | 北京国双科技有限公司 | 文章转载量的统计方法及装置 |
CN110442706A (zh) * | 2019-07-17 | 2019-11-12 | 华南师范大学 | 一种文本摘要生成的方法、系统、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1629844A (zh) * | 2003-12-15 | 2005-06-22 | 微软公司 | 动态内容聚类 |
JP2006039970A (ja) * | 2004-07-27 | 2006-02-09 | Kokuritsu Iyakuhin Shokuhin Eisei Kenkyusho | 高次元データを塊に分割する装置 |
CN101059805A (zh) * | 2007-03-29 | 2007-10-24 | 复旦大学 | 基于网络流和分层知识库的动态文本聚类方法 |
CN101178720A (zh) * | 2007-10-23 | 2008-05-14 | 浙江大学 | 一种面向互联网微内容的分布式聚类方法 |
-
2010
- 2010-12-29 CN CN 201010611185 patent/CN102063485A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1629844A (zh) * | 2003-12-15 | 2005-06-22 | 微软公司 | 动态内容聚类 |
JP2006039970A (ja) * | 2004-07-27 | 2006-02-09 | Kokuritsu Iyakuhin Shokuhin Eisei Kenkyusho | 高次元データを塊に分割する装置 |
CN101059805A (zh) * | 2007-03-29 | 2007-10-24 | 复旦大学 | 基于网络流和分层知识库的动态文本聚类方法 |
CN101178720A (zh) * | 2007-10-23 | 2008-05-14 | 浙江大学 | 一种面向互联网微内容的分布式聚类方法 |
Non-Patent Citations (3)
Title |
---|
《北京工业大学学报》 20100531 杨震等 基于字符串相似性聚类的网络短文本舆情热点发现技术 第669-672页 1-2 第36卷, 第5期 2 * |
《同济大学学报(自然科学版)》 20081231 冯少荣 一种提高文本聚类算法质量的方法 第1712-1718页 1-2 第36卷, 第12期 2 * |
《计算机工程与设计》 20080331 郭建永等 基于文本聚类技术的主题发现 第1426-1428,1432页 1-2 第29卷, 第6期 2 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106547780A (zh) * | 2015-09-21 | 2017-03-29 | 北京国双科技有限公司 | 文章转载量的统计方法及装置 |
CN110442706A (zh) * | 2019-07-17 | 2019-11-12 | 华南师范大学 | 一种文本摘要生成的方法、系统、设备及存储介质 |
CN110442706B (zh) * | 2019-07-17 | 2023-02-03 | 华南师范大学 | 一种文本摘要生成的方法、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jerlin et al. | A new malware detection system using machine learning techniques for API call sequences | |
CN109190372B (zh) | 一种基于字节码的JavaScript恶意代码检测方法 | |
CN107391598B (zh) | 一种威胁情报自动生成方法及系统 | |
CN108549814A (zh) | 一种基于机器学习的sql注入检测方法、数据库安全系统 | |
CN103839003A (zh) | 恶意文件检测方法及装置 | |
CN112307473A (zh) | 一种基于Bi-LSTM网络和注意力机制的恶意JavaScript代码检测模型 | |
CN103577755A (zh) | 一种基于支持向量机的恶意脚本静态检测方法 | |
CN103177215A (zh) | 基于软件控制流特征的计算机恶意软件检测新方法 | |
Cabau et al. | Malware classification based on dynamic behavior | |
CN101751530B (zh) | 检测漏洞攻击行为的方法及设备 | |
Phung et al. | Detection of malicious javascript on an imbalanced dataset | |
CN103679030A (zh) | 一种基于动态语义特征的恶意代码分析检测方法 | |
CN113139189B (zh) | 一种挖矿恶意软件的识别方法、系统和存储介质 | |
Liu et al. | A statistical pattern based feature extraction method on system call traces for anomaly detection | |
Mimura et al. | Using LSI to detect unknown malicious VBA macros | |
Xiao et al. | A novel malware classification method based on crucial behavior | |
Okane et al. | Malware detection: program run length against detection rate | |
Mimura | Impact of benign sample size on binary classification accuracy | |
Stiawan et al. | Ransomware detection based on opcode behavior using k-nearest neighbors algorithm | |
CN103646213B (zh) | 一种恶意软件的分类方法和装置 | |
Imran et al. | Malware classification using dynamic features and Hidden Markov Model | |
Kim et al. | Sumav: Fully automated malware labeling | |
CN109284465A (zh) | 一种基于url的网页分类器构建方法及其分类方法 | |
CN102063485A (zh) | 一种在线分析网络流中短文本信息聚类的方法 | |
KR102192196B1 (ko) | Ai 기반 머신러닝 교차 검증 기법을 활용한 악성코드 탐지 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20110518 |