CN108768934B - 恶意程序发布检测方法、装置以及介质 - Google Patents

恶意程序发布检测方法、装置以及介质 Download PDF

Info

Publication number
CN108768934B
CN108768934B CN201810322481.6A CN201810322481A CN108768934B CN 108768934 B CN108768934 B CN 108768934B CN 201810322481 A CN201810322481 A CN 201810322481A CN 108768934 B CN108768934 B CN 108768934B
Authority
CN
China
Prior art keywords
malicious
information
suspicious
network
summary information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810322481.6A
Other languages
English (en)
Other versions
CN108768934A (zh
Inventor
胡浩
何小梅
刘青
王明华
叶青青
岑黎光
董冬伟
李冀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Zhongdian Anke Modern Technology Co ltd
Original Assignee
Hangzhou Guyi Network Technology Co ltd
BEIJING LANXUM NEW TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Guyi Network Technology Co ltd, BEIJING LANXUM NEW TECHNOLOGY CO LTD filed Critical Hangzhou Guyi Network Technology Co ltd
Priority to CN201810322481.6A priority Critical patent/CN108768934B/zh
Publication of CN108768934A publication Critical patent/CN108768934A/zh
Application granted granted Critical
Publication of CN108768934B publication Critical patent/CN108768934B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/145Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • H04L63/0236Filtering by address, protocol, port number or service, e.g. IP-address or URL
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1433Vulnerability analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明实施例公开了一种恶意程序发布检测方法、装置以及介质,其中的方法包括:从用于发起文件下载的HTTP请求消息中提取摘要信息,将摘要信息与恶意和安全网站识别库中的识别信息进行匹配,如果匹配不成功,则使用决策分类器对摘要信息进行分类处理,如果确定摘要信息为对于可疑恶意网站的摘要信息,则生成对于此可疑恶意网站的可疑恶意资源的下载连接信息,将多个可疑恶意资源的下载连接信息进行关联,确定可疑恶意资源的网络发布信息。本发明的方法、装置以及介质,通过网络节点图可以更好地描述恶意程序发布网络的活动,关注恶意程序分发网络的机理和网络基础架构的属性,能够检测到以前没有出现过的恶意网络活动,进而增加恶意程序的检出率,提高网络安全。

Description

恶意程序发布检测方法、装置以及介质
技术领域
本发明涉及网络安全技术领域,尤其涉及一种恶意程序发布检测方法、装置以及介质。
背景技术
目前,一般的恶意程序下载攻击过程可以分为三个阶段,在第一阶段,即漏洞利用阶段,攻击者的目标是在受害者的主机上运行一小段代码,为此,攻击者首先准备一个带有下载漏洞利用驱动代码的网站。当受害者访问恶意页面时,浏览器将获取并执行驱动代码。当攻击成功时,它强制浏览器执行注入的壳代码(shellcode)。在随后的第二阶段,即安装阶段,壳代码(shellcode)下载实际的恶意软件二进制文件并启动它。一旦恶意软件程序运行,在第三阶段,即控制阶段,它展现其恶意活动,通常,恶意软件连接回远程命令和控制(C&C)服务器。攻击者使用此连接发出命令,将新的可执行文件“丢弃”到受感染的主机上,以增强恶意软件的功能,并收到被盗的数据。
目前,大多数保护用户免受恶意软件攻击的技术集中在第一和第三阶段。大量工作针对初始漏洞利用阶段,尝试检测包含驱动器下载漏洞的页面,并防止浏览器首先访问恶意页面。例如,蜜罐客户端(honeyclient)抓取网页以快速查找具有漏洞利用代码的页面,并将这些发现转化为域和URL黑名单。攻击者通过恶意域名快速改变,使黑名单永久失效。此外,攻击者已经开始大力识别蜜罐客户端(honeyclient)的指纹(由操作系统、设备类型和主机名等识别客户端的特征),并混淆其代码以规避检测。由于在安装阶段,壳代码(shellcode)通常会发出从远程服务器获取程序的HTTP请求,然后在本地安装并执行恶意软件,这可以通过简单地调用用户浏览器中的可用功能来完成此请求。从网络的角度来看,这种连接几乎不可疑,和不同的下载良性程序的合法请求基本一致。因此,需要一种新的恶意程序发布检测技术。
发明内容
有鉴于此,本发明要解决的一个技术问题是提供一种恶意程序发布检测方法、装置以及介质。
根据本发明的一个方面,提供一种恶意程序发布检测方法,包括:采集用于发起文件下载的HTTP请求消息,从所述HTTP请求消息中提取摘要信息;将所述摘要信息与恶意和安全网站识别库中的识别信息进行匹配;如果所述摘要信息与所述恶意和安全网站识别库中的特征信息匹配成功,则确定所述摘要信息为对于恶意网站或对于可信网站的摘要信息,并将摘要信息按照预设比例分别作为训练样本和测试样本对所述决策分类器进行训练;如果匹配不成功,则使用已经训练好的决策分类器对所述摘要信息进行分类处理,确定所述摘要信息为对于可疑恶意网站的摘要信息或对于可信网站的摘要信息;如果确定所述摘要信息为对于可疑恶意网站的摘要信息,则基于与此摘要信息对应的HTTP请求消息生成对于此可疑恶意网站的可疑恶意资源的下载连接信息;将多个所述可疑恶意资源的下载连接信息进行关联处理,确定可疑恶意资源的网络发布信息。
可选地,从摘要信息中提取识别信息,将所述识别信息分别与所述安全网站识别库中预设的恶意网站识别信息和可信网站识别信息进行匹配;如果所述识别信息与所述恶意网站识别信息或所述可信网站识别信息匹配成功,则确定所述摘要信息为对于恶意网站或对于可信网站的摘要信息;其中,所述识别信息包括:域名、URL、IP地址。
可选地,所述从所述HTTP请求消息中提取摘要信息包括:基于预设的提取规则从所述HTTP请求中提取摘要信息;其中,所述摘要信息包括域名、URL、源IP地址(客户端)、目的IP地址(服务器)、端口号、客户端请求的URI、HTTP头字段中的用户代理(User-agent),以及未压缩下载文件前K个字节内容的哈希值,K为配置参数。
可选地,如果所述摘要信息与所述恶意和安全网站识别库中的特征信息没有匹配成功,则获得与所述摘要信息相关联的用于识别可疑恶意网站的特征信息;将所述摘要信息和所述特征信息输入到所述决策分类器进行分类处理。
可选地,所述获得与所述摘要信息相关联的用于识别可疑恶意网站的特征信息包括:获得与所述摘要信息中同一个的URI相关联的文件下载记录;如果确定与所述文件下载记录对应的不同下载文件的数量大于预设的文件数量阈值,则将所述文件下载记录作为关于文件变异的特征信息。
可选地,所述获得与所述摘要信息相关联的用于识别可疑恶意网站的特征信息包括:统计与所述内容发布网络下载记录相对应的可疑内容发布网络的特征信息,其中,所述关于可疑内容发布网络的特征信息包括:顶级域名数量、URI路径数量、文件数量、文件类型。
可选地,所述获得与所述摘要信息相关联的用于识别可疑恶意网站的特征信息包括:查询历史下载记录,如果确定所述摘要信息中的域名、IP地址和下载了可执行文件仅与一个URI相对应,并且该URI只包括一个HTML网页,则确定此摘要信息为与此摘要信息对应的可疑恶意资源通过专用主机下载的特征信息。
可选地,所述获得与所述摘要信息相关联的用于识别可疑恶意网站的特征信息包括:获取与所述摘要信息中的目的IP地址和用户代理(User-Agent),寻找与同一IP地址联系了一次以上且使用了不同用户代理(User-Agent)的记录,并统计用户代理(User-Agent)相关的可执行文件下载的数量,作为作为关于漏洞利用的特征信息。
可选地,所述基于与此摘要信息对应的HTTP请求消息生成对于此可疑恶意网站的可疑恶意资源的下载连接信息包括:基于与摘要信息对应的HTTP请求消息生成可疑恶意资源的下载连接网络节点图,其中,所述下载连接网络节点图中的节点包括:IP地址、域名、URL路径、文件名和下载文件。
可选地,所述将多个所述可疑恶意资源的下载连接信息进行关联处理、确定可疑恶意下载资源的网络发布信息包括:将多个所述可疑恶意资源的下载连接网络节点图进行叠加处理,并将多个所述可疑恶意资源的下载连接网络节点图中的相同节点进行关联处理,形成可疑资源的分发网络图;其中,多个所述可疑恶意资源的下载连接网络节点图中的相同节点为重叠状态;基于所述可疑资源的分发网络图获取链接到相同的可疑恶意资源的网络路径信息以及可疑恶意资源的发布主机,用以确定发布可疑恶意资源的网络架构。
可选地,采集发起了文件下载的HTTP请求消息的采集点包括:ISP网络的出现点POP、企业网的出口交换机;所述可疑恶意资源包括:可执行程序、程序安装包、脚本文件。
根据本发明的又一方面,提供一种恶意程序发布检测装置,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如上所述的方法。
根据本发明的再一方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现如上所述的方法的步骤。
本发明的恶意程序发布检测方法、装置以及介质,从发起了文件下载的HTTP请求消息中提取摘要信息,将摘要信息与恶意和安全网站识别库中的识别信息进行匹配,如果摘要信息与所述恶意和安全网站识别库中的特征信息匹配成功,则确定摘要信息为对于恶意网站或对于可信网站的摘要信息,并将一定数量的摘要信息按照一定比例分别作为训练样本和测试样本对决策分类器进行训练;如果匹配不成功,则使用已经训练好的决策分类器对摘要信息进行分类处理,如果确定摘要信息为对于可疑恶意网站的摘要信息,则生成对于此可疑恶意网站的可疑恶意资源的下载连接信息,将多个可疑恶意资源的下载连接信息进行关联处理,确定可疑恶意资源的网络发布信息;利用机器学习的方法并基于已知的恶意程序下载不同特征的提取和已知数据集,对分类器进行训练和学习,使之对新的网络流量数据检测出可疑恶意资源,并生成其网络节点图并进行关联,得到恶意程序发布网络的信息和网络基础架构,可以消除误报,并且通过网络节点图可以更好地描述恶意程序发布网络的活动,同时通过忽略攻击者可以轻易改变的特征而关注恶意程序分发网络的机理和网络基础架构的属性,能够检测到以前没有出现过的恶意网络活动,进而增加恶意程序的检出率,提高网络安全。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明的恶意程序发布检测方法的一个实施例的流程示意图;
图2为根据本发明的恶意程序发布检测方法的一个实施例的处理流程示意图;
图3A为根据本发明的恶意程序发布检测方法的一个实施例中的ISP网络数据采集点位置的示意图;
图3B为根据本发明的恶意程序发布检测方法的一个实施例中的企业网数据采集点位置的示意图;
图4A为根据本发明的恶意程序发布检测方法的一个实施例中的单一可疑恶意资源的下载连接网络节点图,图4B为根据本发明的恶意程序发布检测方法的一个实施例中的多个可疑恶意资源的下载连接网络节点图;图4C为根据本发明的恶意程序发布检测方法的一个实施例中的计算机系统实施例示意图;
图5为根据本发明的恶意程序发布检测装置的一个实施例的模块示意图;
图6为根据本发明的恶意程序发布检测装置的另一个实施例的模块示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本发明实施例可以应用于计算机系统/服务器,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于:智能手机、个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
下文中的“第一”、“第二”等仅用于描述上相区别,并没有其它特殊的含义。
图1为根据本发明的恶意程序发布检测方法的一个实施例的流程示意图,如图1所示:
步骤S11,采集HTTP请求消息,从HTTP请求消息中提取摘要信息。
采集发起了文件下载的HTTP请求消息的采集点包括:ISP网络的出现点POP、企业网的出口交换机等。摘要信息可以为HTTP短摘要,基于预设的提取规则从HTTP请求中提取摘要信息,摘要信息包括域名、URL、源IP地址、目的IP地址、端口号、URI、用户代理头字段中的至少一个以及下载文件前K个字节内容的哈希值,K为配置参数。
步骤S12,将摘要信息与恶意和安全网站识别库中的识别信息进行匹配。
步骤S13,如果信息匹配成功,则确定所述摘要信息为对于恶意网站或对于可信网站的摘要信息,并将一定数量的摘要信息按照一定比例分别作为训练样本和测试样本对所述决策分类器进行训练。
步骤S14,如果匹配不成功,则使用训练好的决策分类器对摘要信息进行分类处理,确定摘要信息为对于可疑恶意网站的摘要信息或对于可信网站的摘要信息。
步骤S15,如果确定摘要信息为对于可疑恶意网站的摘要信息,则基于与此摘要信息对应的HTTP请求消息生成对于此可疑恶意网站的可疑恶意资源的下载连接信息。可疑恶意资源包括可执行程序、程序安装包、脚本文件等。
步骤S16,将多个可疑恶意资源的下载连接信息进行关联处理,确定可疑恶意资源的网络发布信息。
可以从摘要信息中提取识别信息,将识别信息分别与安全网站识别库中预设的恶意网站识别信息和可信网站识别信息进行匹配,如果识别信息与恶意网站识别信息或可信网站识别信息匹配成功,则确定摘要信息为对于恶意网站或对于可信网站的摘要信息。识别信息包括:域名、URL、IP地址等。
在一个实施例中,通过对大量的HTTP请求消息进行采集,并进行HTTP短摘要的提取,利用机器学习算法进行恶意程序分发特征分析、获得可疑恶意下载候选连接,生成可疑恶意资源的下载连接网络节点图,通过对包含恶意主机的网络节点图的不断叠加,达到预期规模的恶意程序的分发网络图,利用网络节点图并综合恶意程序下载活动的聚类,获得恶意程序下载网络的基础架构。
图2为根据本发明的恶意程序发布检测方法的一个实施例的处理流程示意图。数据采集预处理模块102从数据采集点获得HTTP请求数据,HTTP请求数据可以是在线数据或之前采集、记录的抓包文件,例如.pacp文件等。数据采集预处理模块102从采集到的在线数据或抓包文件中的HTTP消息提取HTTP短摘要,HTTP短摘要包括源IP地址和目的IP地址、端口号、URI、用户代理(UA)HTTP头字段和前K个字节内容的哈希值等,K为是可配置参数。
已知恶意/良性域记录模块104可以是已知的良性域和恶意域的列表,该列表来源于可信的数据源头,例如一些流行的黑名单的提供者(例如:GOOGLE SAFE BROWSING,Lastline,DNS-BH,PhishTank,ZeusTracker和Ciarmy,等),良性域集从Alexa(世界网站流量排名公司)和一些提供详细的服务器数据所获取的信息组成。
恶意/良性域记录模块104可以为HTTP数据集提供标签,如果HTTP数据中的域名是已知恶意/良性域记录模块104中的恶意或良性域,则该数据就为有标签数据,有标签数据集合108可以按照预设比例分别作为训练集和测试集,由学习模块114训练分类器112时使用,例如,预设比例可以为20%为测试集、80%为测试集等。或者,如果HTTP数据中不包含已知恶意/良性域记录模块104中的恶意域或良性域的URI,则该数据为无标签数据,多个无标签数据形成无标签数据集110。无标签数据集110作为分类器112的输入。
在一个实施例中,HTTP特征匹配模块106从数据采集和预处理模块102获得HTTP短摘要,根据不同特征要求,为每一条HTTP短摘要记录进行处理,形成特征匹配后的数据。如果特征匹配后的数据中的IP地址和/或URI与已知恶意/良性域记录模块104中的记录匹配,则输出到有标签数据,否则为无标签数据。有标签数据按照一定的比例分别作为训练集和测试集,输出到学习模块110根据选定的学习组件进行训练,获得学习后的分类器模型112,分类器模型112根据有学习模块110分类器对无标签的数据进行分类,确定每个HTTP数据代表的是可疑恶意下载的候选连接还是良性连接。
如果当前的HTTP数据被分类器112判定为良性预连接,则完成对当前数据的处理;如果当前的HTTP数据被分类器112判定为可疑恶意下载的候选连接,则根据HTTP数据的原始HTTP短摘要生成可疑恶意下载的候选连接网络节点图120。
在一个实施例中,如果摘要信息与恶意和安全网站识别库中的特征信息没有匹配成功,则获得与摘要信息相关联的用于识别可疑恶意网站的特征信息,将摘要信息和特征信息输入到已经训练好的决策分类器进行分类处理。识别可疑的连接的方法是根据恶意下载程序的行为特征进行的,这些行为特征通常与恶意活动相关联,包括文件名的突变检测、分布式托管和域名变更检测、恶意软件专用主机检测和漏洞利用程序下载主机检测等。
获得与摘要信息中的URI相关联的文件下载记录,如果确定与文件下载记录对应的不同下载文件的数量大于预设的文件数量阈值,则将文件下载记录作为关于文件变异的特征信息。
每一个HTTP短摘要分别被提取恶意程序发布网络特征相关的数据。对于文件变异特征,特征提取模块106从HTTP短摘要中查找与单个URI相关联的下载记录,并且下载超过n个不同文件(由文件的哈希值确定是否为不同文件),n为不同文件个数的阈值,通常在10到50之间。
对于分布主机和域名变换特征,特征提取模块106从HTTP短摘要中查找HTTP请求的同一服务器(IP地址)上是否托管不同的域名、该服务器唯一顶级域名数量、匹配URI路径的数量和匹配文件名的数量、每个域名URI数量、服务文件类型类型和域名变化等数据。首先,利用聚类的方法发现内容发布网络,即如果两个域同时托管了哈希值相同的文件,那么认为这两个域属于统一聚类;如果在两个聚类中分别有至少一个域托管了相同哈希值的文件,则将这两个聚类联系起来;内容分布网络包括两个或两个以上的域的聚类。
然后,统计与此下载记录相对应的可疑内容发布网络的特征信息,其中,所述关于可疑内容发布网络的特征信息包括:顶级域名数量、URI路径数量、文件数量、文件类型。
查询历史下载记录,如果确定摘要信息中的域名、IP地址和下载文件仅与一个URI相对应,则确定与此摘要信息对应的可疑恶意资源通过专用主机下载的特征信息。对于恶意程序专用主机的特征,特征提取模块106从HTTP短摘要中查找域名和IP地址,如果该域名和IP地址包括了一个可执行文件的下载并最多托管了一个HTML网页的URI,则需要提取相关的记录。
对于漏洞利用程序下载主机的特征,特征提取模块106从HTTP短摘要中获取与摘要信息中的目的IP地址和用户代理(User-Agent),寻找与同一IP地址联系了一次以上且使用的不同的用户代理(User-Agent)的记录,并统计User-Agent的数量;将此文件下载记录以及User-Agent的数量作为关于漏洞利用的特征信息。
特征提取模块106可以根据需要添加新的与恶意程序发布相关的其它特征,从HTTP短摘要中提取与新添加的特征相关的数据为进一步的处理分析做准备。
在一个实施例中,基于与摘要信息对应的HTTP请求消息生成可疑恶意资源的下载连接网络节点图,下载连接网络节点图中的节点包括:IP地址、域名、URL路径、文件名和下载文件等。将多个可疑恶意资源的下载连接网络节点图进行叠加处理,并将多个可疑恶意资源的下载连接网络节点图中的相同节点进行关联处理,形成可疑资源的分发网络图;其中,多个可疑恶意资源的下载连接网络节点图中的相同节点为重叠状态;基于可疑资源的分发网络图获取链接到相同的可疑恶意资源的网络路径信息以及可疑恶意资源的发布主机,用以确定发布可疑恶意资源的网络架构。
可疑恶意下载的候选连接网络节点图120叠加到恶意程序发布网络图122。随着HTTP请求消息处理数量的不断增加,恶意程序发布网络图不断叠加,直至图形达到其预设大小的限制,或者知道无法再添加的情况。恶意程序发布网络图经初始化后执行一系列迭代,生成可疑候选主机相关的恶意活动网络图,每次获得一个可疑恶意下载的候选连接网络节点图,就将其添加在恶意程序发布网络图中,直至图形达到其预设大小的限制,或者知道无法再添加的情况。最终,链接到相同文件的不同URI关联在一起的主机、路径和行为形成恶意程序发布网络的机理和网络基础架构。
在一个实施例中,如图3A所示,当目标网络是ISP网络时,数据的采集点为ISP网络的出现点(POP),能够获得广泛和充分的发起了文件下载的HTTP请求数据,有利于恶意主机的发现。如图3B所示,当目标网络是大型企业网络时,数据的采集点为企业网的出口交换机,在企业网的出口可以获得所有企业网对互联网发出的发起了文件下载的HTTP请求数据。
当分类器112确定了一个HTTP记录为可疑恶意候选连接116后,120模块生成可疑恶意下载网络节点图。图4a是单个可疑恶意资源的下载连接网络节点图,在图的左下角是图例,可以看到对于单个可疑恶意资源的下载连接网络节点图包括与连接相关的URL、全程域名、域名、客户端、服务器、URL文件名、URL路径、压缩的有效载荷和解压后的有效载荷,基本上反映了单独一次内容下载的主要特征。
但是,单个可疑恶意资源的下载连接网络节点图不能全面反映恶意下载网络的全貌,它只能反映出一系列恶意下载的步骤之一,并且观察单次下载时,恶意下载和良性下载表现的情况区别不大。因此需要将被判断为可疑恶意资源的下载连接叠加在一起,综合判断恶意程序下载的网络基础架构。如图4b所示,多个可疑恶意资源的下载连接网络节点图叠加后形成的可疑资源的分发网络图。图4b中叠加了5个可疑恶意下载的网络节点图,可以看到尽管5个可疑恶意下载请求的URL并不相同,但是它们最终都指向了两个恶意程序Malware1.exe和Malware2.exe,根据这个线索,可以跟踪下载这两个恶意程序的客户端和服务器之前的行为,最终了解与Malware1.exe和Malware2.exe相关的恶意软件发布网络的原理和基础架构。
图4C描述了本发明的恶意程序发布检测方法的一个实施例中的计算机系统实施例示意图,包括连接到数据采集点的数据采集模块404,存储设备406和主机系统402。数据采集模块404从ISP网络/企业网的数据采集点获取HTTP数据,数据采集模块404在物理上可以是一个单独的模块通过网络与主机系统402相连,也是主机系统402的一部分;主机系统402为运行恶意软件发布网络检测应用408的应用服务器;所有的已知恶意域和良性域列表、采集的HTTP数据或抓包文件、HTTP短摘要、HTTP特征记录等各处理分析环节的所有数据存储在存储设备406上。
如图5所示,本发明提供一种恶意程序发布检测装置50,包括:数据采集模块51、预处理模块52、特征匹配模块53、训练学习模块54、分类处理模块55和发布信息确定模块56。数据采集模块51采集用于发起文件下载的HTTP请求消息。预处理模块52从HTTP请求消息中提取摘要信息。特征匹配模块53将摘要信息与恶意和安全网站识别库中的识别信息进行匹配。
如果信息匹配成功,则确定摘要信息为对于恶意网站或对于可信网站的摘要信息,训练学习模块54将一定数量的摘要信息按照一定比例分别作为训练样本和测试样本对所述决策分类器进行训练。
如果匹配不成功,则分类处理模块55使用训练学习模块54已经训练好的决策分类器对摘要信息进行分类处理,确定摘要信息为对于可疑恶意网站的摘要信息或对于可信网站的摘要信息。如果确定摘要信息为对于可疑恶意网站的摘要信息,则发布信息确定模块56基于与此摘要信息对应的HTTP请求消息生成对于此可疑恶意网站的可疑恶意资源的下载连接信息。发布信息确定模块56将多个可疑恶意资源的下载连接信息进行关联处理,确定可疑恶意资源的网络发布信息。
在一个实施例中,数据采集模块51采集HTTP请求消息的采集点包括:ISP网络的出现点POP、企业网的出口交换机等。可疑恶意资源包括:可执行程序、程序安装包、脚本文件等。预处理模块52基于预设的提取规则从HTTP请求中提取摘要信息;其中,摘要信息包括域名、URL、源IP地址、目的IP地址、端口号、URI、用户代理头字段中的至少一个以及下载文件前K个字节内容的哈希值,K为配置参数。
特征匹配模块53从摘要信息中提取识别信息,将识别信息分别与安全网站识别库中预设的恶意网站识别信息和可信网站识别信息进行匹配。如果识别信息与恶意网站识别信息或可信网站识别信息匹配成功,则特征匹配模块53确定摘要信息为对于恶意网站或对于可信网站的摘要信息;其中,识别信息包括:域名、URL、IP地址等。
在一个实施例中,如果摘要信息与恶意和安全网站识别库中的特征信息没有匹配成功,则特征匹配模块53获得与摘要信息相关联的用于识别可疑恶意网站的特征信息。特征匹配模块53将摘要信息和特征信息输入到决策分类器进行分类处理。
特征匹配模块53获得与摘要信息中的同一个URI相关联的文件下载记录。如果确定与文件下载记录对应的不同下载文件的数量大于预设的文件数量阈值,则特征匹配模块53将文件下载记录作为关于文件变异的特征信息。
特征匹配模块53获取与摘要信息中的IP地址相同但域名不同的文件下载记录。特征匹配模块53首先利用聚类的方法发现内容发布网络,然后统计与此下载记录相对应的可疑内容发布网络的特征信息,其中,所述关于域名变换的特征信息包括:顶级域名数量、URI路径数量、文件数量、文件类型。
特征匹配模块53查询历史下载记录,如果确定摘要信息中的域名、IP地址和下载可执行文件仅与一个URI相对应,并且该URI只包括一个HTML网页,则确定为与此摘要信息对应的可疑恶意资源通过专用主机下载的特征信息。
特征匹配模块53获取与摘要信息中的目的IP地址和用户代理(User-Agent)寻找与同一IP地址联系了一次以上且使用了不同的用户代理(User-Agent)记录,并统计用户代理(User-Agent)相关的可执行文件下载的数量作为关于漏洞利用的特征信息。
发布信息确定模块56基于与摘要信息对应的HTTP请求消息生成可疑恶意资源的下载连接网络节点图,下载连接网络节点图中的节点包括:IP地址、域名、URL路径、文件名和下载文件等。发布信息确定模块56将多个可疑恶意资源的下载连接网络节点图进行叠加处理,并将多个可疑恶意资源的下载连接网络节点图中的相同节点进行关联处理,形成可疑资源的分发网络图;多个可疑恶意资源的下载连接网络节点图中的相同节点为重叠状态。发布信息确定模块56基于可疑资源的分发网络图获取链接到相同的可疑恶意资源的网络路径信息以及可疑恶意资源的发布主机,用以确定发布可疑恶意资源的网络架构。
在一个实施例中,本发明提供一种恶意程序发布网络检测系统,包括如上任一实施例中的恶意程序发布检测装置。
如图6所示,提供一种恶意程序发布检测装置,包括存储器61和处理器62,存储器61用于存储指令,处理器62耦合到存储器61,处理器62被配置为基于存储器61存储的指令执行实现上述的恶意程序发布检测方法。
存储器61可以为高速RAM存储器、非易失性存储器(non-volatile memory)等,存储器61也可以是存储器阵列。存储器61还可能被分块,并且块可按一定的规则组合成虚拟卷。处理器62可以为中央处理器CPU,或专用集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本发明的恶意程序发布检测方法的一个或多个集成电路。
在一个实施例中,本公开还提供一种计算机可读存储介质,其中计算机可读存储介质存储有计算机指令,指令被处理器执行时实现如上任一实施例涉及的恶意程序发布检测方法。本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
至此,已经详细描述了本公开。为了避免遮蔽本发明的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
上述实施例中的恶意程序发布检测方法、装置以及系统,从发起了文件下载的HTTP请求消息中提取摘要信息,将摘要信息与恶意和安全网站识别库中的识别信息进行匹配,匹配成功的记录将按照一定的比例分别作为训练集和测试集训练分类器,如果匹配不成功,则使用已经训练好的决策分类器对摘要信息进行分类处理,如果确定摘要信息为对于可疑恶意网站的摘要信息,则生成对于此可疑恶意网站的可疑恶意资源的下载连接信息,将多个可疑恶意资源的下载连接信息进行关联处理,确定可疑恶意资源的网络发布信息;利用机器学习的方法并基于已知的恶意程序下载不同特征的提取和已知数据集,对分类器进行训练和学习,使之对新的网络流量数据检测出可疑恶意资源,并生成其网络节点图并进行关联,得到恶意程序发布网络的信息和网络基础架构,可以消除误报,并且通过网络节点图可以更好地描述恶意程序发布网络的活动,同时通过忽略攻击者可以轻易改变的特征而关注恶意程序分发网络的机理和网络基础架构的属性,能够检测到以前没有出现过的恶意网络活动,进而增加恶意程序的检出率,提高网络安全。
可能以许多方式来实现本发明的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (10)

1.一种恶意程序发布检测方法,其特征在于,包括:
采集用于发起文件下载的HTTP请求消息,从所述HTTP请求消息中提取摘要信息;
从摘要信息中提取识别信息,将所述识别信息分别与恶意和安全网站识别库中预设的恶意网站识别信息和可信网站识别信息进行匹配,
如果所述摘要信息与所述恶意和安全网站识别库中预设的恶意网站识别信息或可信网站识别信息匹配成功,则确定所述摘要信息为对于恶意网站或对于可信网站的摘要信息,并将此摘要信息按照预设比例作为训练样本和测试样本对决策分类器进行训练;
如果所述摘要信息与所述恶意和安全网站识别库中预设的恶意网站识别信息和可信网站识别信息没有匹配成功,则获得与所述摘要信息相关联的用于识别可疑恶意网站的特征信息,将所述摘要信息和所述特征信息输入到所述决策分类器进行分类处理,确定所述摘要信息为对于可疑恶意网站的摘要信息或对于可信网站的摘要信息;
如果确定所述摘要信息为对于可疑恶意网站的摘要信息,则基于与此摘要信息对应的HTTP请求消息生成对于此可疑恶意网站的可疑恶意资源的下载连接信息;
将多个所述可疑恶意资源的下载连接信息进行关联处理,进行恶意程序分发特征分析、获得可疑恶意下载候选连接,生成可疑恶意资源的下载连接网络节点图,通过对包含恶意主机的网络节点图的叠加,得到恶意程序发布网络的信息和网络基础架构,确定可疑恶意资源的网络发布信息;
其中,所述识别信息包括:域名、URL、IP地址,所述下载连接网络节点图中的节点包括:IP地址、域名、URL路径、文件名和下载文件。
2.如权利要求1所述的方法,其特征在于,所述从所述HTTP请求消息中提取摘要信息包括:
基于预设的提取规则从所述HTTP请求中提取摘要信息;
其中,所述摘要信息包括域名、URL、源IP地址、目的IP地址、端口号、URI、用户代理头字段中的至少一个以及下载文件前K个字节内容的哈希值,K为配置参数。
3.如权利要求1所述的方法,其特征在于,所述获得与所述摘要信息相关联的用于识别可疑恶意网站的特征信息包括:
获得与所述摘要信息中的同一个URI相关联的文件下载记录;
如果确定与所述文件下载记录对应的不同下载文件的数量大于预设的文件数量阈值,则将所述文件下载记录作为关于文件变异的特征信息。
4.如权利要求1所述的方法,其特征在于,所述获得与所述摘要信息相关联的用于识别可疑恶意网站的特征信息包括:
获取与所述摘要信息中的IP地址相同但域名不同的文件下载记录;
利用聚类的方法发现内容发布网络,统计与此下载记录相对应的可疑内容发布网络的特征信息,其中,所述可疑内容发布网络的特征信息包括:顶级域名数量、URI路径数量、文件数量、文件类型。
5.如权利要求1所述的方法,其特征在于,所述获得与所述摘要信息相关联的用于识别可疑恶意网站的特征信息包括:
查询历史下载记录,如果确定所述摘要信息中的域名、IP地址和下载可执行文件仅与一个URI相对应,并且该URI只包括一个HTML网页,则确定此摘要信息为与其对应的可疑恶意资源通过专用主机下载的特征信息。
6.如权利要求1所述的方法,其特征在于,所述获得与所述摘要信息相关联的用于识别可疑恶意网站的特征信息包括:
获取与所述摘要信息中的目的IP地址和用户代理,查找与同一IP地址联系了一次以上且使用了不同的用户代理的记录,并统计用户代理相关的可执行文件下载的数量,作为关于漏洞利用的特征信息。
7.如权利要求1所述的方法,其特征在于,所述将多个所述可疑恶意资源的下载连接信息进行关联处理、确定可疑恶意下载资源的网络发布信息包括:
将多个所述可疑恶意资源的下载连接网络节点图进行叠加处理,并将多个所述可疑恶意资源的下载连接网络节点图中的相同节点进行关联处理,形成可疑资源的分发网络图;其中,多个所述可疑恶意资源的下载连接网络节点图中的相同节点为重叠状态;
基于所述可疑资源的分发网络图获取链接到相同的可疑恶意资源的网络路径信息以及可疑恶意资源的发布主机,用以确定发布可疑恶意资源的网络架构。
8.如权利要求1所述的方法,其特征在于,
采集HTTP请求消息的采集点包括:ISP网络的出现点、企业网的出口交换机;
所述可疑恶意资源包括:可执行程序、程序安装包、脚本文件。
9.一种恶意程序发布检测装置,其特征在于,包括:
存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1至8中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现权利要求1至6任一项所述的方法的步骤。
CN201810322481.6A 2018-04-11 2018-04-11 恶意程序发布检测方法、装置以及介质 Expired - Fee Related CN108768934B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810322481.6A CN108768934B (zh) 2018-04-11 2018-04-11 恶意程序发布检测方法、装置以及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810322481.6A CN108768934B (zh) 2018-04-11 2018-04-11 恶意程序发布检测方法、装置以及介质

Publications (2)

Publication Number Publication Date
CN108768934A CN108768934A (zh) 2018-11-06
CN108768934B true CN108768934B (zh) 2021-09-07

Family

ID=63981458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810322481.6A Expired - Fee Related CN108768934B (zh) 2018-04-11 2018-04-11 恶意程序发布检测方法、装置以及介质

Country Status (1)

Country Link
CN (1) CN108768934B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670317B (zh) * 2018-12-24 2021-02-02 中国科学院软件研究所 一种基于原子控制流图的物联网设备继承性漏洞挖掘方法
CN110012013A (zh) * 2019-04-04 2019-07-12 电子科技大学成都学院 一种基于knn的虚拟平台威胁行为分析方法及系统
CN111177717A (zh) * 2019-06-21 2020-05-19 腾讯科技(深圳)有限公司 一种恶意进程的识别方法、装置、电子设备和存储介质
CN111126440B (zh) * 2019-11-25 2023-12-22 广州大学 一种基于深度学习的一体化工控蜜罐识别系统及方法
CN112565274A (zh) * 2020-12-11 2021-03-26 国家计算机网络与信息安全管理中心江苏分中心 一种智能识别恶意app的方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350053A (zh) * 2007-10-15 2009-01-21 北京瑞星国际软件有限公司 防止网页浏览器被漏洞利用的方法和装置
CN102984162A (zh) * 2012-12-05 2013-03-20 北京奇虎科技有限公司 可信网站的识别方法和收集系统
CN103390129A (zh) * 2012-05-08 2013-11-13 腾讯科技(深圳)有限公司 检测统一资源定位符安全性的方法和装置
CN103701779A (zh) * 2013-12-13 2014-04-02 北京神州绿盟信息安全科技股份有限公司 一种二次访问网站的方法、装置及防火墙设备
CN104067280A (zh) * 2011-10-18 2014-09-24 迈可菲公司 用于检测恶意命令和控制通道的系统和方法
CN106411879A (zh) * 2016-09-23 2017-02-15 北京网康科技有限公司 一种软件识别特征的获取方法和装置
US9888019B1 (en) * 2013-06-28 2018-02-06 Fireeye, Inc. System and method for detecting malicious links in electronic messages

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350053A (zh) * 2007-10-15 2009-01-21 北京瑞星国际软件有限公司 防止网页浏览器被漏洞利用的方法和装置
CN104067280A (zh) * 2011-10-18 2014-09-24 迈可菲公司 用于检测恶意命令和控制通道的系统和方法
CN103390129A (zh) * 2012-05-08 2013-11-13 腾讯科技(深圳)有限公司 检测统一资源定位符安全性的方法和装置
CN102984162A (zh) * 2012-12-05 2013-03-20 北京奇虎科技有限公司 可信网站的识别方法和收集系统
US9888019B1 (en) * 2013-06-28 2018-02-06 Fireeye, Inc. System and method for detecting malicious links in electronic messages
CN103701779A (zh) * 2013-12-13 2014-04-02 北京神州绿盟信息安全科技股份有限公司 一种二次访问网站的方法、装置及防火墙设备
CN106411879A (zh) * 2016-09-23 2017-02-15 北京网康科技有限公司 一种软件识别特征的获取方法和装置

Also Published As

Publication number Publication date
CN108768934A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN108768934B (zh) 恶意程序发布检测方法、装置以及介质
Lashkari et al. Towards a network-based framework for android malware detection and characterization
US10560471B2 (en) Detecting web exploit kits by tree-based structural similarity search
US10855700B1 (en) Post-intrusion detection of cyber-attacks during lateral movement within networks
Rafique et al. Firma: Malware clustering and network signature generation with mixed network behaviors
Zhang et al. Arrow: Generating signatures to detect drive-by downloads
US10721244B2 (en) Traffic feature information extraction method, traffic feature information extraction device, and traffic feature information extraction program
US9178901B2 (en) Malicious uniform resource locator detection
CN109074454B (zh) 基于赝象对恶意软件自动分组
Kim et al. Detecting fake anti-virus software distribution webpages
WO2013130867A1 (en) Method and apparatus for retroactively detecting malicious or otherwise undesirable software
WO2018076697A1 (zh) 僵尸特征的检测方法和装置
Agrawal et al. A survey on android malware and their detection techniques
US20160142432A1 (en) Resource classification using resource requests
CN103618626A (zh) 一种基于日志的安全分析报告生成的方法和系统
Wu et al. Detect repackaged android application based on http traffic similarity
Mohaisen Towards automatic and lightweight detection and classification of malicious web contents
Canfora et al. Detection of malicious web pages using system calls sequences
Su et al. Suspicious URL filtering based on logistic regression with multi-view analysis
Li et al. A method based on statistical characteristics for detection malware requests in network traffic
Gomez et al. Unsupervised detection and clustering of malicious tls flows
Leita et al. Exploiting diverse observation perspectives to get insights on the malware landscape
CN103561076B (zh) 一种基于云的网页挂马实时防护方法及系统
US9160765B1 (en) Method for securing endpoints from onslaught of network attacks
JP2016525750A (ja) 合法的オブジェクトの誤用の識別

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211124

Address after: 310051 building 3, 351 Changhe Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Hangzhou rischen Anke Technology Co.,Ltd.

Address before: 100192 b407, block B, science and technology wealth center, 8 Xueqing Road, Haidian District, Beijing

Patentee before: BEIJING LANXUM NEW TECHNOLOGY Co.,Ltd.

Patentee before: HANGZHOU GUYI NETWORK TECHNOLOGY CO.,LTD.

TR01 Transfer of patent right
CP03 Change of name, title or address

Address after: Room 817-7, Building 1, No. 371, Mingxing Road, Economic and Technological Development Zone, Xiaoshan District, Hangzhou City, Zhejiang Province, 311215

Patentee after: Hangzhou Zhongdian Anke Modern Technology Co.,Ltd.

Address before: 310051 building 3, 351 Changhe Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee before: Hangzhou rischen Anke Technology Co.,Ltd.

CP03 Change of name, title or address
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210907

CF01 Termination of patent right due to non-payment of annual fee