CN106685963B - 一种恶意网络流量词库的建立方法及建立系统 - Google Patents

一种恶意网络流量词库的建立方法及建立系统 Download PDF

Info

Publication number
CN106685963B
CN106685963B CN201611243293.1A CN201611243293A CN106685963B CN 106685963 B CN106685963 B CN 106685963B CN 201611243293 A CN201611243293 A CN 201611243293A CN 106685963 B CN106685963 B CN 106685963B
Authority
CN
China
Prior art keywords
word
malicious
normal
word set
filtering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611243293.1A
Other languages
English (en)
Other versions
CN106685963A (zh
Inventor
陈贞翔
王闪闪
杨波
赵川
孙润元
荆山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Jinan
Original Assignee
University of Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Jinan filed Critical University of Jinan
Priority to CN201611243293.1A priority Critical patent/CN106685963B/zh
Publication of CN106685963A publication Critical patent/CN106685963A/zh
Application granted granted Critical
Publication of CN106685963B publication Critical patent/CN106685963B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/145Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Virology (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种恶意网络流量词库的建立方法及建立系统;获取正常流量的内容,对获取到的正常流量的内容进行分词,得到正常流量的正常词集;获取恶意流量的内容,对获取到的恶意流量的内容进行分词,得到恶意流量的恶意词集;对正常流量的正常词集进行单词过滤,按照自定义的过滤规则过滤掉与恶意软件的检测无关的单词;对恶意流量的恶意词集进行单词过滤,按照自定义的过滤规则过滤掉与恶意软件的检测无关的单词;将正常词集和恶意词集进行汇总得到第一汇总词集,利用每个单词在正常词集和恶意词集中出现的频率,计算卡方值;利用卡方检验对第一汇总词集进行单词过滤,利用卡方值从第一汇总词集中挑选出恶意单词,组成恶意网络流量词库。

Description

一种恶意网络流量词库的建立方法及建立系统
技术领域
本发明涉及一种恶意网络流量词库的建立方法及建立系统。
背景技术
随着移动终端的普及和各种应用的出现,移动平台上的恶意应用也日渐猖狂,几种常见的恶意软件检测方法面临着越来越多的挑战。目前比较常见的恶意应用检测方法有三种,第一种是基于静态代码扫描的方法,第二种是基于动态系统调用的方法,第三种是基于网络流量进行恶意应用识别的方法。这三种方法各有优缺点,其中比较成熟的方法是基于静态代码扫描进行恶意应用识别的方法。采用网络流量进行恶意软件检测的方法是最近几年比较受关注的一种方法,它的实用性也不断地等到了业界专家的证实。然而现在大部分的恶意流量识别方法都是依据提取恶意流量的一些统计特征,如流持续的时间,流的个数等等进行恶意流量的识别。这种方法通过一些统计数据来刻画流的宏观特征,这种刻画是粗粒度的,可能会造成很高的误判。还有一些方法是深入到了流内容的层面,但是这些方法大部分都是仅仅关注网络流量的某些字段,如host,request-uri等。由于这些方法仅仅关注几个特定的字段,会丢失掉很多对恶意流量检测有意义的信息。
基于以上现状,为解决恶意网络流量识别粗粒度和特征不足的问题,迫切需要一个与恶意网络流量相关的特征库,就像静态代码扫描方法使用的恶意代码库一样。当未知的流量到来,只需要拿这个流量的内容与恶意流量特征库进行对比,一旦比对成功,或者某种程度上与恶意流量库中的内容十分相似,就可以认为这条流量为恶意流量。进而产生该恶意流量的APP就可以被认为是恶意应用。
发明内容
本发明的目的就是针对上述问题,提供一种恶意网络流量词库的建立方法及建立系统,用自然语言处理领域的方法来处理网络流量,根据恶意网络流量和正常网络流量的对比性分析结果,创建了一个恶意网络流量词库。这个恶意网络流量词库可以应用到恶意网络流量的检测中,进而通过检测出的恶意流量找到源头APP,则该APP就可以被认定为恶意应用。
为了实现上述目的,本发明采用如下技术方案:
一种恶意网络流量词库的建立方法,包括如下步骤:
步骤(1):获取正常的HTTP网络流量的内容,对获取到的正常的HTTP网络流量的内容进行分词,得到正常的HTTP网络流量的正常词集;进入步骤(3);
步骤(2):获取恶意的HTTP网络流量的内容,对获取到的恶意的HTTP网络流量的内容进行分词,得到恶意的HTTP网络流量的恶意词集;进入步骤(4);
步骤(3):对正常的HTTP网络流量的正常词集进行单词过滤,按照自定义的过滤规则粗粒度地过滤掉与恶意软件的检测无关的单词;进入步骤(2);
步骤(4):对恶意的HTTP网络流量的恶意词集进行单词过滤,按照自定义的过滤规则粗粒度地过滤掉与恶意软件的检测无关的单词;进入步骤(5);
步骤(5):将步骤(3)过滤后得到的正常词集和步骤(4)过滤后得到的恶意词集进行汇总得到第一汇总词集,利用每个单词在步骤(3)过滤后得到的正常词集和步骤(4)过滤后得到的恶意词集中出现的频率,计算卡方值;
步骤(6):利用卡方检验对第一汇总词集进行细粒度地单词过滤,利用卡方值从第一汇总词集中挑选出恶意单词,组成恶意网络流量词库。
所述步骤(1)的步骤为:
步骤(1-1):正常流内容获取,使用T-shark命令将正常网络流量文件中的每一条HTTP网络流的流内容写入到对应的文本文档中;
步骤(1-2):利用特殊符号对文本文档中的内容进行分词处理,得到HTTP网络流量的正常词集。
所述特殊符号,包括:逗号、冒号、分号、&、百分号、等号和空格。
所述T-shark命令是:“tshark–r网络流量文件名–q–z\”follow,tcp,ascii,o\”>文本文档名”。
所述正常网络流量文件是:正常app因为连接网络而产生的网络流量文件。
所述步骤(2)的步骤为:
步骤(2-1):恶意流内容获取,使用T-shark命令将恶意网络流量文件中的每一条HTTP网络流的流内容写入到对应的文本文档中;
步骤(2-2):利用特殊符号将每个保存恶意流内容的文本文件进行分词处理,得到恶意的HTTP网络流量的恶意词集。
所述特殊符号,包括:逗号、冒号、分号、&、百分号、等号和空格。
所述T-shark命令是:“tshark–r网络流量文件名–q–z\”follow,tcp,ascii,o\”>文本文档名”。
所述恶意网络流量文件是:恶意app因为连接网络而产生的网络流量文件。
所述步骤(3)的步骤为:
步骤(3-1):遍历正常的HTTP网络流量的正常词集中的每个单词,过滤掉全部是数字的单词;
步骤(3-2):遍历正常的HTTP网络流量的正常词集中的每个单词,过滤掉在每条流中出现频率超过设定阈值的单词;
步骤(3-3):遍历正常的HTTP网络流量的正常词集中的每个单词,过滤掉停用词。
所述步骤(3-2)中出现频率超过设定阈值的单词包括:host、request-method和request-encoding;
所述步骤(3-3)中停用词包括:the,a,is和this。
所述步骤(4)的步骤为:
步骤(4-1):遍历恶意的HTTP网络流量的恶意词集中的每个单词,过滤掉全部是数字的单词;
步骤(4-2):遍历恶意的HTTP网络流量的恶意词集中的每个单词,过滤掉在每条流中出现频率超过设定阈值的单词;
步骤(4-3):遍历恶意的HTTP网络流量的恶意词集中的每个单词,过滤掉停用词。
所述步骤(4-2)中出现频率超过设定阈值的单词包括:host、request-method和request-encoding;
所述步骤(4-3)中停用词包括:the、a、is和this。
所述步骤(5)的步骤为:
步骤(5-1):将正常的HTTP网络流量的正常词集和恶意的HTTP网络流量的恶意词集进行整合,组合成第一汇总词集;
步骤(5-2):计算第一汇总词集中每个单词的在不同类别下出现的次数:即统计第一汇总词集中每个单词分别在恶意词集中出现的次数和在正常词集中出现的次数;
步骤(5-3):归一化:对步骤(5-2)得到的统计次数进行归一化处理;
步骤(5-4):卡方检验:利用每个单词在不同类别的单词集中出现的归一化之后的数值,根据卡方公式计算每个单词的得分,卡方公式如下:
Figure GDA0002665101960000031
其中,χ2(t,c)指的是特征t(一个单词)和类别c(恶意)之间的卡方值,χ2(t,c)值越大,说明特征t对类别c的表征程度就越大,特征t在类别c中就越有意义。
Figure GDA0002665101960000032
是指特征t和类别c共同出现的次数,
Figure GDA0002665101960000033
是指假设特征t和类别c相互独立时,两者共同出现的期望次数,et和ec的值都属于(0,1)的集合中,即如果类别c或者特征t出现记作1,如果类别c或特征t没有出现记作0。
所述步骤(6)的步骤为:
步骤(6-1):设定分数的阈值或者是设定得分排序排在前K位的K值;
步骤(6-2):遍历第一汇总词集中的每个单词,判断单词遍历是否结束;若是,就结束;若否,就进入步骤(6-3);
步骤(6-3):判断当前单词的得分是否大于阈值或者排在前K位;如果当前单词的得分小于阈值或者没有排在前K位,则忽略这个单词;如果当前单词的得分大于阈值或者排在前K位,进入步骤(6-4);
步骤(6-4):判断当前单词是否存在于恶意词集中;如果当前单词不存在于恶意词集中,则忽略这个单词;如果当前单词存在于恶意词集中,则将当前单词加入到恶意流量词库中;当遍历完所有的单词之后,恶意网络流量词库建立完成。
一种恶意网络流量词库的建立系统,包括:
第一分词单元:获取正常的HTTP网络流量的内容,对获取到的正常的HTTP网络流量的内容进行分词,得到正常的HTTP网络流量的正常词集;进入第一过滤单元;
第二分词单元:获取恶意的HTTP网络流量的内容,对获取到的恶意的HTTP网络流量的内容进行分词,得到恶意的HTTP网络流量的恶意词集;进入第二过滤单元;
第一过滤单元:对正常的HTTP网络流量的正常词集进行单词过滤,按照自定义的过滤规则粗粒度地过滤掉与恶意软件的检测无关的单词;进入第二分词单元;
第二过滤单元:对恶意的HTTP网络流量的恶意词集进行单词过滤,按照自定义的过滤规则粗粒度地过滤掉与恶意软件的检测无关的单词;进入汇总单元;
汇总单元:将第一过滤单元过滤后得到的正常词集和第二过滤单元过滤后得到的恶意词集进行汇总得到第一汇总词集,利用每个单词在第一过滤单元过滤后得到的正常词集和第二过滤单元过滤后得到的恶意词集中出现的次数,计算卡方值;
卡方检验单元:利用卡方检验对第一汇总词集进行细粒度地单词过滤,利用卡方值从第一汇总词集中挑选出恶意单词,组成恶意网络流量词库。
所述汇总单元包括:
整合模块:将正常的HTTP网络流量的正常词集和恶意的HTTP网络流量的恶意词集进行整合,组合成第一汇总词集;
计算模块:计算第一汇总词集中每个单词的词频:即统计第一汇总词集中每个单词分别在恶意词集中出现的次数和在正常词集中出现的次数;
归一化模块:对得到的统计次数进行归一化处理;
卡方检验模块:利用每个单词在不同类别的单词集中出现次数的归一化之后的数值,根据卡方公式计算每个单词的得分。
本发明的有益效果:
(1)本发明对正常HTTP网络流和恶意HTTP网络流的流内容进行分词处理,获取了正常流量产生的词集和和恶意流量产生的词集。
(2)本发明建立的恶意网络流量词库能够应用到恶意软件检测中去,这个恶意网络流量词库可以起到与恶意代码库相似的功能。
(3)这个恶意网络流量词库可以不断更新,不断扩充。
(4)步骤(5-3)的归一化处理能够有效防止因为正常流词集和恶意流词集的规模不一致造成的偏差。
附图说明
图1为本发明的方法流程图;
图2为本发明的详细方法流程图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
一种恶意网络流量词库的建立方法具体工作过程为:
(1)流内容提取,获取正常的HTTP网络流量的流内容和恶意的HTTP网络流量的流内容,并以HTTP流的单位写入到每个txt文件中,即每条流的流内容单独写入一个txt文档,这个txt文档以HTTP流的名字进行命名,便于网络流内容与文档进行关联。
(2)使用特殊字符或者标点符号进行流内容的分词。即将每个txt文档中的流内容变成一个单词集。注意这里的单词可能并不是出现在英语词典中的单词,它可能仅仅是某个英语单词的缩写或者仅仅是几个字母的组合,我们这里都定义为单词。
(3)过滤模块,对所有单词执行过滤操作,移除掉与恶意软件的检测无关或对恶意软件帮助很小的单词。
(4)卡方检验,利用每个单词在两种类型(正常和恶意)的词集中出现的频率,计算卡方值。
(5)利用卡方值,挑选出与恶意类别最相关的单词组成恶意网络流量词库。
为了更好的理解本发明,以下给出了本发明更为详细的说明:
图1为本发明实现一种恶意网络流量词库的建立方法总架构图,包括:
步骤100,获得正常流量的流内容组成的词集;
步骤101,获得恶意流量的流内容组成的词集;
步骤102,使用规则过滤器对正常流量的流内容组成的词集进行过滤;
步骤103,使用规则过滤器对恶意流量的流内容组成的词集分别进行过滤;
步骤104,使用卡方检验对词集进行过滤;
步骤105,最终得到恶意网络流量词库。
图2为本发明实现一种恶意网络流量词库建立方法的流程图,该方法包括:
步骤200,正常流内容获取,利用T-Shark命令“tshark–r网络流量文件名–q–z\”follow,tcp,ascii,o\”>文本文档名”提取正常app产生的流量中的每一条HTTP网络流,并将每条流的流内容写入到一个单独的txt文件中。
步骤201,恶意流内容获取,利用T-Shark命令“tshark–r网络流量文件名–q–z\”follow,tcp,ascii,o\”>文本文档名”提取恶意app产生的流量中的每一条网络流。并将每条流的流内容写入到一个单独的txt文件中。
步骤202,利用特殊符号(,:;&%=空格)对每个txt文件中保存的正常流内容进行分词处理,处理之后每条正常HTTP流将变成一个单词集合。
步骤203,利用特殊符号(,:;&%=空格)对每个txt文件中保存的恶意流内容进行分词处理,处理之后每条恶意HTTP流将变成一个单词集合。
步骤204,全数字过滤器,遍历正常网络流生成的单词集合中的每个单词,过滤掉全数字的单词。
步骤205,高频常见词过滤器,遍历正常网络流生成的单词集合中的每个单词,过滤掉那些高频的但是几乎出现在每条流中的单词,如host,request-method,request-encoding等等。
步骤206,停用词过滤器,遍历正常网络流生成的单词集合中的每个单词,过滤掉停用词,即常见的无意义的词汇,如:the,a,is,this等。
步骤207,全数字过滤器,与步骤204类似,不过处理的是恶意流量产生的单词集合。
步骤208,高频常见词过滤器,与步骤205类似,不过处理的是恶意流量产生的单词集合。
步骤209,停用词过滤器,与步骤206类似,不过处理的是恶意流量产生的单词集合。
步骤210,将正常的HTTP网络流量的正常词集和恶意的HTTP网络流量的恶意词集进行整合,组合成第一汇总词集;
步骤211,计算每个单词的词频:统计第一汇总词集中每个单词分别在恶意词集中出现的次数和在正常词集中出现的次数;
步骤212,归一化,对步骤211得到的统计次数进行归一化处理。防止因为正常流词集和恶意流词集的规模不一致造成的偏差。
步骤213,卡方检验,利用每个单词在不同类别的单词集中出现次数的归一化之后的数值,根据卡方检验公式计算每个单词的得分。
步骤214,设定分数的阈值或者是设定得分排序排在前K位的K值。
步骤215,遍历第一汇总词集合中的每个单词,判断单词遍历条件是否结束,即是否完成了对所有单词的遍历。
步骤216,判断当前单词的得分是否大于阈值或者排在前K位。
步骤217,如果当前单词的得分小于阈值或者没有排在前K位,则忽略这个单词。
步骤218,如果当前单词的得分大于阈值或者排在了前K位,接着判断该单词是否存在于恶意的单词集合中。
步骤219,如果当前单词不存在恶意的单词集合中,即此单词来自正常流单词集合,则忽略这个单词。
步骤220如果当前单词存在恶意的单词集合中,则将该单词加入到恶意网络流量词库中。
当遍历完了所有的单词之后,恶意网络流量词库也建立完成了。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (4)

1.一种恶意网络流量词库的建立方法,其特征是,包括如下步骤:
步骤(1):获取正常的HTTP网络流量的内容,对获取到的正常的HTTP网络流量的内容进行分词,得到正常的HTTP网络流量的正常词集;进入步骤(3);
所述步骤(1)的步骤为:
步骤(1-1):正常流内容获取,使用T-shark命令将正常网络流量文件中的每一条HTTP网络流的流内容写入到对应的文本文档中;
步骤(1-2):利用特殊符号对文本文档中的内容进行分词处理,得到HTTP网络流量的正常词集;
步骤(2):获取恶意的HTTP网络流量的内容,对获取到的恶意的HTTP网络流量的内容进行分词,得到恶意的HTTP网络流量的恶意词集;进入步骤(4);
所述步骤(2)的步骤为:
步骤(2-1):恶意流内容获取,使用T-shark命令将恶意网络流量文件中的每一条HTTP网络流的流内容写入到对应的文本文档中;
步骤(2-2):利用特殊符号将每个保存恶意流内容的文本文件进行分词处理,得到恶意的HTTP网络流量的恶意词集;
步骤(3):对正常的HTTP网络流量的正常词集进行单词过滤,按照自定义的过滤规则粗粒度地过滤掉与恶意软件的检测无关的单词;进入步骤(2);
所述步骤(3)的步骤为:
步骤(3-1):遍历正常的HTTP网络流量的正常词集中的每个单词,过滤掉全部是数字的单词;
步骤(3-2):遍历正常的HTTP网络流量的正常词集中的每个单词,过滤掉在每条流中出现频率超过设定阈值的单词;
步骤(3-3):遍历正常的HTTP网络流量的正常词集中的每个单词,过滤掉停用词;
步骤(4):对恶意的HTTP网络流量的恶意词集进行单词过滤,按照自定义的过滤规则粗粒度地过滤掉与恶意软件的检测无关的单词;进入步骤(5);
所述步骤(4)的步骤为:
步骤(4-1):遍历恶意的HTTP网络流量的恶意词集中的每个单词,过滤掉全部是数字的单词;
步骤(4-2):遍历恶意的HTTP网络流量的恶意词集中的每个单词,过滤掉在每条流中出现频率超过设定阈值的单词;
步骤(4-3):遍历恶意的HTTP网络流量的恶意词集中的每个单词,过滤掉停用词;
步骤(5):将步骤(3)过滤后得到的正常词集和步骤(4)过滤后得到的恶意词集进行汇总得到第一汇总词集,利用每个单词在步骤(3)过滤后得到的正常词集和步骤(4)过滤后得到的恶意词集中出现的频率,计算卡方值;
所述步骤(5)的步骤为:
步骤(5-1):将正常的HTTP网络流量的正常词集和恶意的HTTP网络流量的恶意词集进行整合,组合成第一汇总词集;
步骤(5-2):计算第一汇总词集中每个单词的词频:统计第一汇总词集中每个单词分别在恶意词集中出现的次数和在正常词集中出现的次数;
步骤(5-3):归一化:对步骤(5-2)得到的统计次数进行归一化处理;
步骤(5-4):卡方检验:利用每个单词在不同类别的单词集中出现的归一化之后的数值,根据卡方检验公式计算每个单词的得分;
步骤(6):利用卡方检验对第一汇总词集进行细粒度地单词过滤,利用卡方值从第一汇总词集中挑选出恶意单词,组成恶意网络流量词库;所述步骤(6)的步骤为:
步骤(6-1):设定分数的阈值或者是设定得分排序排在前K位的K值;
步骤(6-2):遍历第一汇总词集中的每个单词,判断单词遍历是否结束;若是,就结束;若否,就进入步骤(6-3);
步骤(6-3):判断当前单词的得分是否大于阈值或者排在前K位;如果当前单词的得分小于阈值或者没有排在前K位,则忽略这个单词;如果当前单词的得分大于阈值或者排在前K位,进入步骤(6-4);
步骤(6-4):判断当前单词是否存在于恶意词集中;如果当前单词不存在于恶意词集中,则忽略这个单词;如果当前单词存在于恶意词集中,则将当前单词加入到恶意流量词库中;当遍历完所有的单词之后,恶意网络流量词库建立完成。
2.如权利要求1所述的方法,其特征是,卡方检验公式如下:
Figure FDA0002665101950000021
其中,χ2(t,c)指的是特征t和类别c之间的卡方值,χ2(t,c)值越大,说明特征t对类别c的表征程度就越大,特征t在类别c中就越有意义;
Figure FDA0002665101950000031
是指特征t和类别c共同出现的次数,
Figure FDA0002665101950000032
是指假设特征t和类别c相互独立时,两者共同出现的期望次数et和ec的值都属于(0,1)的集合中,即如果类别c或者特征t出现记作1,如果类别c或特征t没有出现记作0。
3.如权利要求1所述的一种恶意网络流量词库的建立方法所应用的系统,其特征是,包括:
第一分词单元:获取正常的HTTP网络流量的内容,对获取到的正常的HTTP网络流量的内容进行分词,得到正常的HTTP网络流量的正常词集;进入第一过滤单元;
第二分词单元:获取恶意的HTTP网络流量的内容,对获取到的恶意的HTTP网络流量的内容进行分词,得到恶意的HTTP网络流量的恶意词集;进入第二过滤单元;
第一过滤单元:对正常的HTTP网络流量的正常词集进行单词过滤,按照自定义的过滤规则粗粒度地过滤掉与恶意软件的检测无关的单词;进入第二分词单元;
第二过滤单元:对恶意的HTTP网络流量的恶意词集进行单词过滤,按照自定义的过滤规则粗粒度地过滤掉与恶意软件的检测无关的单词;进入汇总单元;
汇总单元:将第一过滤单元过滤后得到的正常词集和第二过滤单元过滤后得到的恶意词集进行汇总得到第一汇总词集,利用每个单词在第一过滤单元过滤后得到的正常词集和第二过滤单元过滤后得到的恶意词集中出现的频率,计算卡方值;
卡方检验单元:利用卡方检验对第一汇总词集进行细粒度地单词过滤,利用卡方值从第一汇总词集中挑选出恶意单词,组成恶意网络流量词库。
4.如权利要求3所述的系统,其特征是,所述汇总单元包括:
整合模块:将正常的HTTP网络流量的正常词集和恶意的HTTP网络流量的恶意词集进行整合,组合成第一汇总词集;
计算模块:计算第一汇总词集中每个单词的词频:统计第一汇总词集中每个单词分别在恶意词集中出现的次数和在正常词集中出现的次数;
归一化模块:对得到的统计次数进行归一化处理;
卡方检验模块:利用每个单词在不同类别的单词集中出现的归一化之后的数值,根据卡方检验公式计算每个单词的得分。
CN201611243293.1A 2016-12-29 2016-12-29 一种恶意网络流量词库的建立方法及建立系统 Active CN106685963B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611243293.1A CN106685963B (zh) 2016-12-29 2016-12-29 一种恶意网络流量词库的建立方法及建立系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611243293.1A CN106685963B (zh) 2016-12-29 2016-12-29 一种恶意网络流量词库的建立方法及建立系统

Publications (2)

Publication Number Publication Date
CN106685963A CN106685963A (zh) 2017-05-17
CN106685963B true CN106685963B (zh) 2020-10-30

Family

ID=58872085

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611243293.1A Active CN106685963B (zh) 2016-12-29 2016-12-29 一种恶意网络流量词库的建立方法及建立系统

Country Status (1)

Country Link
CN (1) CN106685963B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107437038B (zh) * 2017-08-07 2021-07-06 深信服科技股份有限公司 一种网页篡改的检测方法及装置
CN113163218A (zh) * 2021-02-09 2021-07-23 百果园技术(新加坡)有限公司 直播间内用户的检测方法和系统、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779249A (zh) * 2012-06-28 2012-11-14 奇智软件(北京)有限公司 恶意程序检测方法及扫描引擎
CN103473506A (zh) * 2013-08-30 2013-12-25 北京奇虎科技有限公司 用于识别恶意apk文件的方法和装置
CN104834857A (zh) * 2015-03-27 2015-08-12 清华大学深圳研究生院 批量安卓恶意软件检测方法及装置
CN105740712A (zh) * 2016-03-09 2016-07-06 哈尔滨工程大学 基于贝叶斯网络的Android恶意行为检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10230747B2 (en) * 2014-07-15 2019-03-12 Cisco Technology, Inc. Explaining network anomalies using decision trees

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779249A (zh) * 2012-06-28 2012-11-14 奇智软件(北京)有限公司 恶意程序检测方法及扫描引擎
CN103473506A (zh) * 2013-08-30 2013-12-25 北京奇虎科技有限公司 用于识别恶意apk文件的方法和装置
CN104834857A (zh) * 2015-03-27 2015-08-12 清华大学深圳研究生院 批量安卓恶意软件检测方法及装置
CN105740712A (zh) * 2016-03-09 2016-07-06 哈尔滨工程大学 基于贝叶斯网络的Android恶意行为检测方法

Also Published As

Publication number Publication date
CN106685963A (zh) 2017-05-17

Similar Documents

Publication Publication Date Title
US10095780B2 (en) Automatically mining patterns for rule based data standardization systems
WO2019184217A1 (zh) 热点事件分类方法、装置及存储介质
CN105912514B (zh) 基于指纹特征的文本复制检测系统及方法
US20030014448A1 (en) Method and system for normalizing dirty text in a document
CN106685964B (zh) 基于恶意网络流量词库的恶意软件检测方法及系统
CN106940799A (zh) 文本图像处理方法和装置
US8272051B1 (en) Method and apparatus of information leakage prevention for database tables
CN108170806B (zh) 敏感词检测过滤方法、装置和计算机设备
CN112784009B (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN112364625A (zh) 文本筛选方法、装置、设备及存储介质
CN106685963B (zh) 一种恶意网络流量词库的建立方法及建立系统
CN111858942A (zh) 一种文本抽取方法、装置、存储介质和电子设备
CN113282717B (zh) 文本中实体关系的抽取方法、装置、电子设备及存储介质
WO2023035362A1 (zh) 用于模型训练的污染样本数据的检测方法及装置
WO2024051196A1 (zh) 恶意代码检测方法、装置、电子设备及存储介质
CN108171060A (zh) 基于信息熵识别加密变形脚本的方法、系统及存储介质
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
CN112163217B (zh) 恶意软件变种识别方法、装置、设备及计算机存储介质
CN114707026A (zh) 网络模型训练方法、字符串检测方法、装置及电子设备
CN111159996B (zh) 基于文本指纹算法的短文本集合相似度比较方法及系统
WO2014051015A1 (en) Character recognition apparatus, method and program
US11349856B2 (en) Exploit kit detection
CN113204954A (zh) 基于大数据的数据检测方法、设备及计算机可读存储介质
CN105373598A (zh) 作弊站点识别方法及装置
CN106598936B (zh) 字母词的提取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Chen Zhenxiang

Inventor after: Wang Shanshan

Inventor after: Yang Bo

Inventor after: Zhao Chuan

Inventor after: Sun Runyuan

Inventor after: Jing Shan

Inventor before: Wang Shanshan

Inventor before: Chen Zhenxiang

Inventor before: Yang Bo

Inventor before: Zhao Chuan

Inventor before: Sun Runyuan

Inventor before: Jing Shan

GR01 Patent grant
GR01 Patent grant