CN106411879B - 一种软件识别特征的获取方法和装置 - Google Patents
一种软件识别特征的获取方法和装置 Download PDFInfo
- Publication number
- CN106411879B CN106411879B CN201610849610.8A CN201610849610A CN106411879B CN 106411879 B CN106411879 B CN 106411879B CN 201610849610 A CN201610849610 A CN 201610849610A CN 106411879 B CN106411879 B CN 106411879B
- Authority
- CN
- China
- Prior art keywords
- address
- network
- software
- identification
- illegal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000004891 communication Methods 0.000 claims abstract description 51
- 238000001514 detection method Methods 0.000 claims description 22
- 230000002155 anti-virotic effect Effects 0.000 claims description 20
- 238000012216 screening Methods 0.000 claims description 14
- 238000012706 support-vector machine Methods 0.000 claims description 13
- 239000003795 chemical substances by application Substances 0.000 claims description 9
- 238000003066 decision tree Methods 0.000 claims description 7
- 238000007637 random forest analysis Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 description 15
- 238000004458 analytical method Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 244000035744 Hura crepitans Species 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 241000700605 Viruses Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/10—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
- G06F21/105—Arrangements for software license management or administration, e.g. for managing licenses at corporate level
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/145—Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Technology Law (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Virology (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明公开了一种软件识别特征的获取方法,根据预设合法网络标识样本和非法网络标识样本,确定所述各合法网络标识和各非法网络标识各自对应的网络标识关联信息的向量值;根据各待检测网络标识关联信息的向量值,以及所述各合法网络标识和各非法网络标识分别对应的网络标识关联信息的向量值,确定所述各待检测网络标识的合法性;获取所述确定合法性的网络标识与关联软件之间的预设通信信息,将不同合法性网络标识对应的所述预设通信信息确定为不同合法性软件对应的识别特征。本发明还公开了一种软件识别特征的获取装置。
Description
技术领域
本发明涉及网络安全技术领域,尤其涉及一种软件识别特征的获取方法和装置。
背景技术
随着互联网的快速发展,网络安全问题逐步凸显,以木马、病毒、后门程序、广告软件等为代表的非法软件,即恶意软件,在数量、更新速度和使用技术等方面较之前也有了突飞猛进的发展,恶意软件给互联网用户造成的影响和损失逐年增加。
目前,主要采用的对恶意软件网络流量中识别特征进行鉴别的方法识别恶意软件,针对恶意软件网络流量的识别特征获取方法主要有两种:
1)针对恶意软件文件的静态及沙盒分析识别方法,如文件软件哈希等;通过反向工程分析恶意软件运行逻辑,并通过沙盒运行获取实际的恶意软件网络行为,获取可用的识别特征;
2)采用传统的互联网协议(IP,Internet Protocol)地址、端口及深度包检测(DPI,Deep Packet Inspection)技术的识别方法,通过对恶意软件网络流量抓包样本进行分析,提取识别特征。
以上两种传统的识别方法存在共同的问题:
1)需要获取到恶意软件样本进行分析,而样本及变种数量庞大,更新迅速;
2)需要投入大量的人力进行样本分析,资源需求量大,效率较低;
3)恶意软件如绑定在正常软件上,流量样本中的包含大量正常流量,造成区分困难;
4)恶意软件变种较多较快,现有方案不能满足及时性需求。
以上情况使得传统的以软件文件哈希及其他静态分析方法为代表的恶意软件检测方法越来越难以应对,建立可以有效识别新型恶意软件的识别和控制体系成为当前网络安全最迫切的工作。
因此,如何在没有非法软件样本的情况下,获取非法软件的识别特征,适应非法软件及其变种过多、变化过快带来的无法及时获取非法软件识别特征的问题,是亟待解决的问题。
发明内容
有鉴于此,本发明实施例期望提供一种软件识别特征的获取方法和装置,能在没有非法软件样本的情况下,获取非法软件的识别特征,适应非法软件及其变种过多、变化过快带来的无法及时获取非法软件识别特征的问题。
为达到上述目的,本发明的技术方案是这样实现的:
本发明实施例提供了一种软件识别特征的获取方法,所述方法包括:
根据预设合法网络标识样本和非法网络标识样本,确定所述各合法网络标识和各非法网络标识各自对应的网络标识关联信息的向量值;
根据各待检测网络标识关联信息的向量值,以及所述各合法网络标识和各非法网络标识分别对应的网络标识关联信息的向量值,确定所述各待检测网络标识的合法性;
获取所述确定合法性的网络标识与关联软件之间的指定通信信息,将不同合法性网络标识对应的所述指定通信信息确定为不同合法性软件对应的识别特征。
上述方案中,所述网络标识,包括:互联网协议IP地址;
所述网络标识关联信息的向量值,包括:IP地址关联信息的向量值。
上述方案中,所述IP地址关联信息的向量值,包括:IP地址关联域名生成算法(DGA,Domain Generation Algorithm)域名所占比例、和/或IP地址关联DGA主域名所占比例、和/或IP地址关联域名集中度、和/或IP地址关联域名数量、和/或IP地址关联主域名数量、和/或IP地址关联统一资源定位器(URL,Uniform Resource Locator)数量、和/或IP地址关联URL类型均值、和/或IP地址关联URL类型方差、和/或已检测为非法的URL检测结果均值;和/或已检测为非法的URL检测结果方差、和/或与所述IP地址通信的样本数量、和/或与所述IP地址通信的样本杀毒软件识别结果均值、和/或与所述IP地址通信的样本杀毒软件识别结果均方差;和/或从所述IP地址下载的样本数量、和/或从所述IP地址下载的样本杀毒软件识别结果均值、和/或从所述IP地址下载的样本杀毒软件识别结果方差。
上述方案中,所述确定所述各待检测网络标识的合法性之前,所述方法还包括,不检测满足预设筛选规则的所述待检测网络标识;所述筛选规则包括:无关联信息的IP地址;无域名关联的IP地址;无软件关联的IP地址;关联知名网站的IP地址。
上述方案中,所述获取所述确定合法性的网络标识与关联软件之间的预设通信信息,包括:获取所述确定合法性的网络标识与关联软件之间的网络通信协议、和/或网络通信端口、和/或超文本传输协议(HTTP,HyperText Transfer Protocol)请求URL、和/或域名、和/或用户代理(User Agent)。
上述方案中,所述确定所述各待检测网络标识的合法性,包括:采用分类器确定所述各待检测网络标识的合法性。
上述方案中,所述采用分类器确定所述各待检测网络标识的合法性,包括:采用支持向量机(SVM,Support Vector Machine)分类器、和/或随机森林、和/或决策树确定所述各待检测网络标识的合法性。
本发明实施例还提供了一种软件识别特征的获取装置,所述装置包括:确定模块、检测模块和获取模块;其中,
所述确定模块,用于根据预设合法网络标识样本和非法网络标识样本,确定所述各合法网络标识和各非法网络标识各自对应的网络标识关联信息的向量值;
所述检测模块,用于根据各待检测网络标识关联信息的向量值,以及所述各合法网络标识和各非法网络标识分别对应的网络标识关联信息的向量值,确定所述各待检测网络标识的合法性;
所述获取模块,用于获取所述确定合法性的网络标识与关联软件之间的指定通信信息,将不同合法性网络标识对应的所述指定通信信息确定为不同合法性软件对应的识别特征。
上述方案中,所述网络标识,包括:IP地址。
所述网络标识关联信息的向量值,包括:IP地址关联信息的向量值。
上述方案中,所述IP地址关联信息的向量值,包括:IP地址关联DGA域名所占比例、和/或IP地址关联DGA主域名所占比例、和/或IP地址关联域名集中度、和/或IP地址关联域名数量、和/或IP地址关联主域名数量、和/或IP地址关联URL数量、和/或IP地址关联URL类型均值、和/或IP地址关联URL类型方差、和/或已检测为非法的URL检测结果均值;和/或已检测为非法的URL检测结果方差、和/或与所述IP地址通信的样本数量、和/或与所述IP地址通信的样本杀毒软件识别结果均值、和/或与所述IP地址通信的样本杀毒软件识别结果均方差;和/或从所述IP地址下载的样本数量、和/或从所述IP地址下载的样本杀毒软件识别结果均值、和/或从所述IP地址下载的样本杀毒软件识别结果方差。
上述方案中,所述检测模块,还用于:不检测满足预设筛选规则的所述待检测网络标识;所述筛选规则包括:无关联信息的IP地址;无域名关联的IP地址;无软件关联的IP地址;关联知名网站的IP地址。
上述方案中,所述获取模块,具体用于:获取所述确定合法性的网络标识与关联软件之间的网络通信协议、和/或网络通信端口、和/或HTTP请求URL、和/或域名、和/或UserAgent。
上述方案中,所述检测模块,具体用于:采用分类器确定所述各待检测网络标识的合法性.
上述方案中,所述检测模块,具体用于:采用SVM分类器、和/或随机森林、和/或决策树确定所述各待检测网络标识的合法性。
本发明实施例所提供的软件识别特征的获取方法和装置,根据预设合法网络标识样本和非法网络标识样本,确定所述各合法网络标识和各非法网络标识各自对应的网络标识关联信息的向量值;根据各待检测网络标识关联信息的向量值,以及所述各合法网络标识和各非法网络标识各自对应的网络标识关联信息的向量值,确定所述各待检测网络标识的合法性;获取所述确定合法性的网络标识与关联软件之间的预设通信信息,将不同合法性网络标识对应的所述预设通信信息确定为不同合法性软件对应的识别特征。这样,先对与非法软件进行通信的基础设施的网络标识进行识别,进而获取非法软件与非法网络标识对应的基础设施的通信信息,即非法软件的识别特征;如此,能在没有非法软件样本的情况下,获取非法软件的识别特征,适应非法软件及其变种过多、变化过快带来的无法及时获取非法软件识别特征的问题。
附图说明
图1为本发明实施例软件识别特征的获取方法的流程示意图;
图2为本发明实施例非法软件网络流量识别系统的组成结构示意图;
图3为本发明实施例非法软件识别特征的获取方法的流程示意图;
图4为本发明实施例软件识别特征的获取装置组成结构示意图。
具体实施方式
本发明实施例中,根据预设合法网络标识和非法网络标识样本,确定所述各合法网络标识和非法网络标识对应的网络标识关联信息的向量值;根据各待检测网络标识关联信息的向量值,以及所述各合法网络标识和非法网络标识对应的网络标识关联信息的向量值,采用分类器确定所述各待检测网络标识的合法性;获取所述确定合法性的网络标识与关联软件之间的通信信息,将不同合法性网络标识的对应的所述通信信息确定为不同合法性软件对应的识别特征。
下面结合实施例对本发明再作进一步详细的说明。
本发明实施例提供的软件识别特征的获取方法,如图1所示,所述方法包括:
步骤101:根据预设合法网络标识样本和非法网络标识样本,确定所述各合法网络标识和各非法网络标识各自对应的网络标识关联信息的向量值;
这里,本发明实施例以收集的大量威胁情报为基础,对海量威胁情报进行过滤及挖掘,对威胁情报进行量化处理,并创建模型,通过合法和非法样本的训练,实现自动化提取准确的非法网络标识情报,进而与非法软件进行关联并生成识别特征,实现对非法软件的网络流量识别;可以预先收集大量网络标识及与所述网络标识关联的信息作为威胁情报;可以在威胁情报中,根据已知合法性的网络标识确定用于作为样本的合法网络标识和非法网络标识,并确定所述各合法网络标识和非法网络标识对应的网络标识关联信息的向量值;其中,所述网络标识包括:IP地址。
也可以以实时获取的网络标识威胁情报为基础进行处理;非法软件通常会将获取的非法信息上传至非法软件预设的一些IP地址等网络标识对应的设备,如服务器等,或从这些设备上获取非法软件更新信息,这些设备通常称为非法软件的基础设施,非法软件的变种仍然是和这些基础设施进行通信,通常非法软件的基础设施在网络中的网络标识是固定的;因此,可以通过先确定非法软件的基础设施的网络标识,再确定与确定出的网络标识进行通信的非法软件。
目前,常用的威胁情报主要是针对IP地址、域名、URL及软件哈希等安全观察对象的情报信息,如IP地址威胁情报中包含以下信息:IP地址的地理信息、自治系统(AS,Autonomous System)信息、IP地址关联过的域名历史、与该IP地址通信过的非法软件及正常软件的文件哈希列表、该IP地址关联的非法网页网址等于IP地址相关联的信息;域名的威胁情报包含:域名的whois(查询域名的IP地址以及所有者等信息的传输协议)信息、域名的工信部备案信息、域名的关联IP地址信息等;软件哈希的威胁情报主要是沙盒运行的结果,包括:软件的静态分析信息,如文件大小、引用库,运行系统、签名、各种哈希算法值,软件运行时的文件操作信息,如创建、读、写、修改等,软件运行时的创建的进程及服务等,软件运行时的的网络行为,如HTTP访问、域名系统(DNS,Domain Name System)查询、传输控制协议(TCP,Transmission Control Protocol)/用户数据报协议(UDP,User DatagramProtocol)连接等;
海量的威胁情报并不能直接作为识别非法软件和网站的识别特征,原因主要包括:非法软件也会与正常的网站、IP地址及DNS等服务器进行连接,此流量不应识别为非法流量;非法软件如绑定在正常软件上,则会产生正常软件的网络流量,需要与非法流量区分处理;同一IP地址上可能关联多个网站及服务,此IP地址的部分流量为非法流量,另一部分则为正常流量,需要区分识别;
对威胁情报中的信息进行处理,可以采用统计学方法计算该IP地址关联信息,得到IP地址关联信息的向量值,包括:
IP地址关联DGA域名所占比例,可以用dga_fqdn_ratio表示;
IP地址关联DGA主域名所占比例,可以用dga_domain_ratio表示;
IP地址关联域名集中度,可以用domain_concentration表示,domain_concentration可以是域名数量除以主域名数量之商;
IP地址关联域名数量,可以用fqdn_count表示;
IP地址关联主域名数量,可以用domain_count表示;
IP地址关联URL数量,可以用urls_count表示;
IP地址关联URL类型均值,可以用urls_type_mean表示,其中,当urls_type_mean为0,可以表示无端口,无文件exe后缀;当urls_type_mean为1,可以表示有exe文件后缀;当urls_type_mean为2,可以表示有端口,有exe文件后缀;
IP地址关联URL类型方差,可以用urls_type_variance表示;
已检测为非法的IP地址关联URL检测结果均值,可以用urls_pos_ratio_mean表示;
已检测为非法的IP地址关联URL检测结果方差,可以用urls_pos_ratio_variance表示;
与IP地址通信的样本数量,可以用communicating_sample_count表示;
与IP地址通信的样本杀毒软件识别结果均值,可以用cs_pos_ratio_mean表示;
与IP地址通信的样本杀毒软件识别结果均方差,可以用cs_pos_ratio_variance表示;
从IP地址下载的样本数量,可以用downloaded_sample_count表示;
从IP地址下载的样本杀毒软件识别结果均值,可以用ds_pos_ratio_mean表示;
从IP地址下载的样本杀毒软件识别结果方差,可以用ds_pos_ratio_variance表示。
步骤102:根据各待检测网络标识关联信息的向量值,以及所述各合法网络标识和各非法网络标识分别对应的网络标识关联信息的向量值,确定所述各待检测网络标识的合法性;
基于以上IP地址关联信息的向量值数据,可以采用其中的一种或多种数据,以合法网络标识关联信息的向量值作为正向样本,以非法网络标识关联信息的向量值作为反向样本,采用机器学习技术训练分类器;机器学习分类器可采用支持向量机(SVM,SupportVector Machine)分类器、随机森林、决策树等;分类器确定后分析各待检测网络标识关联信息的向量值,确定所述各待检测网络标识的合法性;其中所述各待检测网络标识关联信息可以是从已有的威胁情报库中获取,也可以在网络的实时流量中获取,并通过分类器分类;
分类器采用的数据分类是指在已有分类的训练数据的基础上,根据某种原理,经过训练形成一个分类器;然后使用分类器判断没有分类的数据的类别。数据都是以向量形式出现的,如<0.4,0.123,0.323>。如SVM分类器采用一种基于分类边界的方法。其基本原理是:如果训练数据分布在二维平面上的点,它们按照其分类聚集在不同的区域。基于分类边界的分类算法的目标是,通过训练,找到这些分类之间的边界(直线的称为线性划分,曲线的称为非线性划分)。对于多维数据(如N维),可以将它们视为N维空间中的点,而分类边界就是N维空间中的面,称为超面(超面比N维空间少一维)。线性分类器使用超平面类型的边界,非线性分类器使用超曲面;
通过合法网络标识和非法网络标识关联信息向量值样本训练过的分类器,可以对待检测网络标识关联信息向量值进行识别,并确定所述待检测网络标识的合法性,其中所述网络标识包括IP地址。
进一步的,由于并非每个待检测的IP地址的关联信息都是完整的,因此,可以在检测前进行筛选,对满足预设筛选规则的IP地址不进行处理;所述预设规则包括:无关联信息的IP地址;无域名关联IP地址;无软件关联IP地址;关联知名网站网址IP地址等。
步骤103:获取所述确定合法性的网络标识与关联软件之间的指定通信信息,将不同合法性网络标识对应的所述指定通信信息确定为不同合法性软件对应的识别特征;
这里,分类器确定所述待检测网络标识的合法性分类后,可以从已有的威胁情报或实时威胁情报中确定与所述网络标识进行通信的软件,并获取所述网络标识与软件的指定通信信息;如果所述网络标识为非法网络标识,则对应的指定通信信息为用于识别非法软件的识别特征;如果所述网络标识为合法网络标识,则对应的指定通信信息为用于识别合法软件的识别特征;也可以仅获取非法网络标识与软件的指定通信信息。其中所述指定通信信息可以包括:网络通信协议、网络通信端口、HTTP请求URL、域名、用户代理(UserAgent)等;
进一步的,可以对所述指定通信信息进行格式化,成为常用的软件识别特征;其中,对所述指定通信信息进行格式化可以采用Java描述语言对象表示法(JSON,JavaScriptObject Notation)格式输出;可以采用生成的非法软件的识别特征对非法软件及其变种进行识别。
下面结合具体示例对本发明产生的积极效果作进一步详细的描述;
图2为本发明实施例的非法软件网络流量识别系统的组成结构图,所述非法软件网络流量识别系统包括:客户设备21、非法软件流量识别设备22、非法软件识别特征存储单元23、威胁情报挖掘单元24、威胁情报存储单元25和威胁情报收集单元26;其中,
威胁情报收集单元26,用于收集网络威胁情报及本地沙盒运行非法样本获取情报,将收集到的情报存储于威胁情报存储单元25,威胁情报挖掘单元24基于威胁情报存储单元25存储的威胁情报进行过滤和挖掘,生成非法软件识别特征,并将输出的非法软件识别特征存储于非法软件识别特征存储单元23;
客户设备21为用户日常使用的PC、服务器及移动设备等,通过非法软件流量识别设备22与互联网进行网络交互访问;非法软件流量识别设备22读取非法软件识别特征存储单元23中存储的识别特征对客户设备21与互联网之间通信的网络流量进行识别和监控。当非法软件产生的网络流量流经非法软件流量识别设备22时,非法软件流量识别设备22将网络流量与非法软件识别特征存储单元23中的非法软件识别特征进行匹配,以完成非法软件流量的识别。
图3为本发明实施例的非法软件识别特征的获取方法流程图。
首先,建立威胁请报库,并训练分类器,包括:
步骤3001:收集网络威胁情报并存储在威胁情报库D101。
步骤3002:将确认的非法IP地址及合法IP地址的威胁情报分别进行量化处理,获取非法IP地址及合法IP地址关联信息的向量值,形成非法IP地址训练样本D103及合法IP地址训练样本D104,以D103及D104作为训练样本训练机器学习分类器D105,机器学习分类器可采用SVM分类器、随机森林、决策树等。
然后,对威胁请报库中的IP地址进行鉴别并获取与非法IP地址通信的非法软件的识别特征
步骤3101:流程开始;
步骤3102:从威胁情报库读取一条IP地址的威胁情报;
步骤3103:根据预设筛选规则D102对数据进行筛选,如果匹配规则放弃该条IP地址的威胁情报的后续判断逻辑,并进入3109判断情报是否处理完毕;
步骤3104:如果未匹配清洗规则,则对情报进行量化计算,确定IP地址关联信息的向量值;
步骤3105:通过情报分类器D105对量化后的情报进行分类,分类结果为合法IP地址则进入步骤3109判断情报是否处理完毕;
步骤3106:分类结果为非法IP地址,则根据该情报确认该IP地址关联的非法软件;
步骤3107:通过对IP地址关联非法软件情报进行分析,获取非法软件与该IP地址的网络通信细节,数据包括但不限于:网络通信协议;网络通信端口;HTTP请求URL、域名、User-Agent等;
步骤3108:将以上通信细节形成格式化识别特征,以JSON格式输出至非法软件识别特征库D106;
步骤3109:确认是否仍然有未处理的IP地址威胁情报,如果有则进入步骤3102读取并处理下一条情报,如果全部情报处理完成则进入步骤3110结束流程;
步骤3110:流程结束。
本发明实施例提供的软件识别特征的获取装置,如图4所示,所述装置包括:确定模块41、检测模块42和获取模块43;其中,
所述确定模块41,用于根据预设合法网络标识样本和非法网络标识样本,确定所述各合法网络标识和各非法网络标识各自对应的网络标识关联信息的向量值;
这里,本发明实施例以收集的大量威胁情报为基础,对海量威胁情报进行过滤及挖掘,对威胁情报进行量化处理,并创建模型,通过合法和非法样本的训练,实现自动化提取准确的非法网络标识情报,进而与非法软件进行关联并生成识别特征,实现对非法软件的网络流量识别;可以预先收集大量网络标识及与所述网络标识关联的信息作为威胁情报;可以在威胁情报中,根据已知合法性的网络标识确定用于作为样本的合法网络标识和非法网络标识,并确定所述各合法网络标识和非法网络标识对应的网络标识关联信息的向量值;其中,所述网络标识包括:IP地址。
也可以以实时获取的网络标识威胁情报为基础进行处理;非法软件通常会将获取的非法信息上传至非法软件预设的一些IP地址等网络标识对应的设备,如服务器等,或从这些设备上获取非法软件更新信息,这些设备通常称为非法软件的基础设施,非法软件的变种仍然是和这些基础设施进行通信,通常非法软件的基础设施在网络中的网络标识是固定的;因此,可以通过先确定非法软件的基础设施的网络标识,再确定与确定出的网络标识进行通信的非法软件。
目前,常用的威胁情报主要是针对IP地址、域名、URL及软件哈希等安全观察对象的情报信息,如IP地址威胁情报中包含以下信息:IP地址的地理信息、AS信息、IP地址关联过的域名历史、与该IP地址通信过的非法软件及正常软件的文件哈希列表、该IP地址关联的非法网页网址等于IP地址相关联的信息;域名的威胁情报包含:域名的whois(查询域名的IP地址以及所有者等信息的传输协议)信息,域名的工信部备案信息,域名的关联IP地址信息等;软件哈希的威胁情报主要是沙盒运行的结果,包括:软件的静态分析信息,如文件大小、引用库,运行系统、签名、各种哈希算法值,软件运行时的文件操作信息,如创建、读、写、修改等,软件运行时的创建的进程及服务等,软件运行时的的网络行为,如HTTP访问、DNS查询、TCP/UDP连接等;
海量的威胁情报并不能直接作为识别非法软件和网站的识别特征,原因主要包括:非法软件也会与正常的网站、IP地址及DNS等服务器进行连接,此流量不应识别为非法流量;非法软件如绑定在正常软件上,则会产生正常软件的网络流量,需要与非法流量区分处理;同一IP地址上可能关联多个网站及服务,此IP地址的部分流量为非法流量,另一部分则为正常流量,需要区分识别;
对威胁情报中的信息进行处理,可以采用统计学方法计算该IP地址关联信息,得到IP地址关联信息的向量值,包括:
IP地址关联DGA域名所占比例,可以用dga_fqdn_ratio表示;
IP地址关联DGA主域名所占比例,可以用dga_domain_ratio表示;
IP地址关联域名集中度,可以用domain_concentration表示,domain_concentration可以是域名数量除以主域名数量之商;
IP地址关联域名数量,可以用fqdn_count表示;
IP地址关联主域名数量,可以用domain_count表示;
IP地址关联URL数量,可以用urls_count表示;
IP地址关联URL类型均值,可以用urls_type_mean表示,其中,当urls_type_mean为0,可以表示无端口,无文件exe后缀;当urls_type_mean为1,可以表示有exe文件后缀;当urls_type_mean为2,可以表示有端口,有exe文件后缀;
IP地址关联URL类型方差,可以用urls_type_variance表示;
已检测为非法的IP地址关联URL检测结果均值,可以用urls_pos_ratio_mean表示;
已检测为非法的IP地址关联URL检测结果方差,可以用urls_pos_ratio_variance表示;
与IP地址通信的样本数量,可以用communicating_sample_count表示;
与IP地址通信的样本杀毒软件识别结果均值,可以用cs_pos_ratio_mean表示;
与IP地址通信的样本杀毒软件识别结果均方差,可以用cs_pos_ratio_variance表示;
从IP地址下载的样本数量,可以用downloaded_sample_count表示;
从IP地址下载的样本杀毒软件识别结果均值,可以用ds_pos_ratio_mean表示;
从IP地址下载的样本杀毒软件识别结果方差,可以用ds_pos_ratio_variance表示。
所述检测模块42,用于根据各待检测网络标识关联信息的向量值,以及所述各合法网络标识和各非法网络标识分别对应的网络标识关联信息的向量值,确定所述各待检测网络标识的合法性;
基于以上IP地址关联信息的向量值数据,可以采用其中的一种或多种数据,以合法网络标识关联信息的向量值作为正向样本,以非法网络标识关联信息的向量值作为反向样本,采用机器学习技术训练分类器;机器学习分类器可采用支持向量机(SVM,SupportVector Machine)分类器、随机森林、决策树等;分类器确定后分析各待检测网络标识关联信息的向量值,确定所述各待检测网络标识的合法性;其中所述各待检测网络标识关联信息可以是从已有的威胁情报库中获取,也可以在网络的实时流量中获取,并通过分类器分类;
分类器采用的数据分类是指在已有分类的训练数据的基础上,根据某种原理,经过训练形成一个分类器;然后使用分类器判断没有分类的数据的类别。数据都是以向量形式出现的,如<0.4,0.123,0.323>。如SVM分类器采用一种基于分类边界的方法。其基本原理是:如果训练数据分布在二维平面上的点,它们按照其分类聚集在不同的区域。基于分类边界的分类算法的目标是,通过训练,找到这些分类之间的边界(直线的称为线性划分,曲线的称为非线性划分)。对于多维数据(如N维),可以将它们视为N维空间中的点,而分类边界就是N维空间中的面,称为超面(超面比N维空间少一维)。线性分类器使用超平面类型的边界,非线性分类器使用超曲面;
通过合法网络标识和非法网络标识关联信息向量值样本训练过的分类器,可以对待检测网络标识关联信息向量值进行识别,并确定所述待检测网络标识的合法性,其中所述网络标识包括IP地址。
进一步的,由于并非每个待检测的IP地址的关联信息都是完整的,因此,可以在检测前进行筛选,对满足预设筛选规则的IP地址不进行处理;所述预设规则包括:无关联信息的IP地址;无域名关联IP地址;无软件关联IP地址;关联知名网站网址IP地址等;
所述获取模块43,用于获取所述确定合法性的网络标识与关联软件之间的指定通信信息,将不同合法性网络标识对应的所述指定通信信息确定为不同合法性软件对应的识别特征;
这里,分类器确定所述待检测网络标识的合法性分类后,可以从已有的威胁情报或实时威胁情报中确定与所述网络标识进行通信的软件,并获取所述网络标识与软件的指定通信信息;如果所述网络标识为非法网络标识,则对应的指定通信信息为用于识别非法软件的识别特征;如果所述网络标识为合法网络标识,则对应的指定通信信息为用于识别合法软件的识别特征;也可以仅获取非法网络标识与软件的指定通信信息。其中所述指定通信信息可以包括:网络通信协议;网络通信端口;HTTP请求URL、域名、用户代理(UserAgent)等;
进一步的,可以对所述指定通信信息进行格式化,成为常用的非法软件的识别特征;其中,对所述指定通信信息进行格式化可以采用JSON格式输出;可以采用生成的非法软件的识别特征对非法软件及其变种进行识别。
在实际应用中,所述确定模块41、检测模块42和获取模块43均可由网络安全设备中的中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)等实现。
以上所述,仅为本发明的最佳实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (14)
1.一种软件识别特征的获取方法,其特征在于,所述方法包括:
根据预设合法网络标识样本和非法网络标识样本,确定所述各合法网络标识和各非法网络标识各自对应的网络标识关联信息的向量值;
根据各待检测网络标识关联信息的向量值,以及所述各合法网络标识和各非法网络标识分别对应的网络标识关联信息的向量值,确定所述各待检测网络标识的合法性;
获取所述确定合法性的网络标识与关联软件之间的指定通信信息,将不同的合法性网络标识对应的所述指定通信信息确定为不同的合法性软件对应的识别特征。
2.根据权利要求1所述的方法,其特征在于,
所述网络标识,包括:互联网协议IP地址;
所述网络标识关联信息的向量值,包括:IP地址关联信息的向量值。
3.根据权利要求2所述的方法,其特征在于,所述IP地址关联信息的向量值,包括:IP地址关联域名生成算法DGA域名所占比例、和/或IP地址关联DGA主域名所占比例、和/或IP地址关联域名集中度、和/或IP地址关联域名数量、和/或IP地址关联主域名数量、和/或IP地址关联统一资源定位器URL数量、和/或IP地址关联URL类型均值、和/或IP地址关联URL类型方差、和/或已检测为非法的URL检测结果均值;和/或已检测为非法的URL检测结果方差、和/或与所述IP地址通信的样本数量、和/或与所述IP地址通信的样本杀毒软件识别结果均值、和/或与所述IP地址通信的样本杀毒软件识别结果均方差;和/或从所述IP地址下载的样本数量、和/或从所述IP地址下载的样本杀毒软件识别结果均值、和/或从所述IP地址下载的样本杀毒软件识别结果方差。
4.根据权利要求2所述的方法,其特征在于,所述确定所述各待检测网络标识的合法性之前,所述方法还包括,不检测满足预设筛选规则的所述待检测网络标识;所述筛选规则包括:无关联信息的IP地址;无域名关联的IP地址;无软件关联的IP地址;关联知名网站的IP地址。
5.根据权利要求1所述的方法,其特征在于,所述获取所述确定合法性的网络标识与关联软件之间的预设通信信息,包括:获取所述确定合法性的网络标识与关联软件之间的网络通信协议、和/或网络通信端口、和/或超文本传输协议HTTP请求URL、和/或域名、和/或用户代理User Agent。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述确定所述各待检测网络标识的合法性,包括:采用分类器确定所述各待检测网络标识的合法性。
7.根据权利要求6所述的方法,其特征在于,所述采用分类器确定所述各待检测网络标识的合法性,包括:采用支持向量机SVM分类器、和/或随机森林、和/或决策树确定所述各待检测网络标识的合法性。
8.一种软件识别特征的获取装置,其特征在于,所述装置包括:确定模块、检测模块和获取模块;其中,
所述确定模块,用于根据预设合法网络标识样本和非法网络标识样本,确定所述各合法网络标识和各非法网络标识各自对应的网络标识关联信息的向量值;
所述检测模块,用于根据各待检测网络标识关联信息的向量值,以及所述各合法网络标识和各非法网络标识分别对应的网络标识关联信息的向量值,确定所述各待检测网络标识的合法性;
所述获取模块,用于获取所述确定合法性的网络标识与关联软件之间的指定通信信息,将不同的合法性网络标识对应的所述指定通信信息确定为不同的合法性软件对应的识别特征。
9.根据权利要求8所述的装置,其特征在于,
所述网络标识,包括:IP地址;
所述网络标识关联信息的向量值,包括:IP地址关联信息的向量值。
10.根据权利要求9所述的装置,其特征在于,所述IP地址关联信息的向量值,包括:IP地址关联DGA域名所占比例、和/或IP地址关联DGA主域名所占比例、和/或IP地址关联域名集中度、和/或IP地址关联域名数量、和/或IP地址关联主域名数量、和/或IP地址关联URL数量、和/或IP地址关联URL类型均值、和/或IP地址关联URL类型方差、和/或已检测为非法的URL检测结果均值;和/或已检测为非法的URL检测结果方差、和/或与所述IP地址通信的样本数量、和/或与所述IP地址通信的样本杀毒软件识别结果均值、和/或与所述IP地址通信的样本杀毒软件识别结果均方差;和/或从所述IP地址下载的样本数量、和/或从所述IP地址下载的样本杀毒软件识别结果均值、和/或从所述IP地址下载的样本杀毒软件识别结果方差。
11.根据权利要求9所述的装置,其特征在于,所述检测模块,还用于:不检测满足预设筛选规则的所述待检测网络标识;所述筛选规则包括:无关联信息的IP地址;无域名关联的IP地址;无软件关联的IP地址;关联知名网站的IP地址。
12.根据权利要求8所述的装置,其特征在于,所述获取模块,具体用于:获取所述确定合法性的网络标识与关联软件之间的网络通信协议、和/或网络通信端口、和/或HTTP请求URL、和/或域名、和/或User Agent。
13.根据权利要求8至12任一项所述的装置,其特征在于,所述检测模块,具体用于:采用分类器确定所述各待检测网络标识的合法性。
14.根据权利要求13所述的装置,其特征在于,所述检测模块,具体用于:采用SVM分类器、和/或随机森林、和/或决策树确定所述各待检测网络标识的合法性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610849610.8A CN106411879B (zh) | 2016-09-23 | 2016-09-23 | 一种软件识别特征的获取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610849610.8A CN106411879B (zh) | 2016-09-23 | 2016-09-23 | 一种软件识别特征的获取方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106411879A CN106411879A (zh) | 2017-02-15 |
CN106411879B true CN106411879B (zh) | 2019-06-14 |
Family
ID=57997472
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610849610.8A Active CN106411879B (zh) | 2016-09-23 | 2016-09-23 | 一种软件识别特征的获取方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106411879B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108768934B (zh) * | 2018-04-11 | 2021-09-07 | 北京立思辰新技术有限公司 | 恶意程序发布检测方法、装置以及介质 |
CN109522504A (zh) * | 2018-10-18 | 2019-03-26 | 杭州安恒信息技术股份有限公司 | 一种基于威胁情报判别仿冒网站的方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1794645A (zh) * | 2005-08-24 | 2006-06-28 | 上海浦东软件园信息技术有限公司 | 基于程序行为的入侵检测方法与系统 |
CN101944167A (zh) * | 2010-09-29 | 2011-01-12 | 中国科学院计算技术研究所 | 识别恶意程序的方法及系统 |
CN104794398A (zh) * | 2015-04-17 | 2015-07-22 | 天津大学 | 基于机器学习的安卓平台恶意软件检测方法 |
CN104809395A (zh) * | 2015-04-23 | 2015-07-29 | 天津大学 | 一种轻量级安卓恶意软件快速判断方法 |
CN105809035A (zh) * | 2016-03-07 | 2016-07-27 | 南京邮电大学 | 基于安卓应用实时行为的恶意软件检测方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IL226747B (en) * | 2013-06-04 | 2019-01-31 | Verint Systems Ltd | A system and method for studying malware detection |
-
2016
- 2016-09-23 CN CN201610849610.8A patent/CN106411879B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1794645A (zh) * | 2005-08-24 | 2006-06-28 | 上海浦东软件园信息技术有限公司 | 基于程序行为的入侵检测方法与系统 |
CN101944167A (zh) * | 2010-09-29 | 2011-01-12 | 中国科学院计算技术研究所 | 识别恶意程序的方法及系统 |
CN104794398A (zh) * | 2015-04-17 | 2015-07-22 | 天津大学 | 基于机器学习的安卓平台恶意软件检测方法 |
CN104809395A (zh) * | 2015-04-23 | 2015-07-29 | 天津大学 | 一种轻量级安卓恶意软件快速判断方法 |
CN105809035A (zh) * | 2016-03-07 | 2016-07-27 | 南京邮电大学 | 基于安卓应用实时行为的恶意软件检测方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106411879A (zh) | 2017-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107483488B (zh) | 一种恶意Http检测方法及系统 | |
US10721244B2 (en) | Traffic feature information extraction method, traffic feature information extraction device, and traffic feature information extraction program | |
Rafique et al. | Firma: Malware clustering and network signature generation with mixed network behaviors | |
US10284570B2 (en) | System and method to detect threats to computer based devices and systems | |
CN107145779B (zh) | 一种离线恶意软件日志的识别方法和装置 | |
CN102984161B (zh) | 一种可信网站的识别方法和装置 | |
CN107222511B (zh) | 恶意软件的检测方法及装置、计算机装置及可读存储介质 | |
CN108573146A (zh) | 一种恶意url检测方法及装置 | |
CN107395650B (zh) | 基于沙箱检测文件识别木马回连方法及装置 | |
CN107995179B (zh) | 一种未知威胁感知方法、装置、设备及系统 | |
CN107888606B (zh) | 一种域名信誉度评估方法及系统 | |
CN106713335B (zh) | 恶意软件的识别方法及装置 | |
CN111049783A (zh) | 一种网络攻击的检测方法、装置、设备及存储介质 | |
CN110020161B (zh) | 数据处理方法、日志处理方法和终端 | |
CN107209834A (zh) | 恶意通信模式提取装置、恶意通信模式提取系统、恶意通信模式提取方法及恶意通信模式提取程序 | |
CN108768934A (zh) | 恶意程序发布检测方法、装置以及介质 | |
CN106411879B (zh) | 一种软件识别特征的获取方法和装置 | |
CN109309665B (zh) | 一种访问请求处理方法及装置、一种计算设备及存储介质 | |
WO2018047027A1 (en) | A method for exploring traffic passive traces and grouping similar urls | |
CN117041070B (zh) | 一种网络空间测绘节点发现与归属判别方法和装置 | |
CN110472410B (zh) | 识别数据的方法、设备和数据处理方法 | |
CN114172980A (zh) | 一种识别操作系统类型的方法、系统、装置、设备及介质 | |
CN112788065B (zh) | 一种基于蜜罐和沙箱的物联网僵尸网络追踪方法及装置 | |
CN102984162A (zh) | 可信网站的识别方法和收集系统 | |
CN115314271B (zh) | 一种访问请求的检测方法、系统及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |