CN107566376B - 一种威胁情报生成方法、装置及系统 - Google Patents

一种威胁情报生成方法、装置及系统 Download PDF

Info

Publication number
CN107566376B
CN107566376B CN201710811532.7A CN201710811532A CN107566376B CN 107566376 B CN107566376 B CN 107566376B CN 201710811532 A CN201710811532 A CN 201710811532A CN 107566376 B CN107566376 B CN 107566376B
Authority
CN
China
Prior art keywords
domain name
threat
data
target domain
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710811532.7A
Other languages
English (en)
Other versions
CN107566376A (zh
Inventor
胡卫华
田斌
刘遥
阙为涛
张利
易锦
彭勇
刘照辉
偰赓
冯永胜
张鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Information Technology Security Evaluation Center
Original Assignee
China Information Technology Security Evaluation Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Information Technology Security Evaluation Center filed Critical China Information Technology Security Evaluation Center
Priority to CN201710811532.7A priority Critical patent/CN107566376B/zh
Publication of CN107566376A publication Critical patent/CN107566376A/zh
Application granted granted Critical
Publication of CN107566376B publication Critical patent/CN107566376B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供了一种威胁情报生成方法、装置及系统,通过对DNS流量进行分析,得到过滤掉合法域名的目标域名,并利用机器学习方法对目标域名进行聚类,将聚类后的域名过滤后得到恶意域名,将恶意域名和其映射后的IP与预设的网络信息进行关联,生成威胁情报图谱,最后再根据证据链传递算法和威胁情报关联图谱中已标注的威胁情报,对未知威胁数据进行标注,确定出未知威胁数据的属性,并对确定出属性的未知威胁数据进行过滤,得到新的威胁情报。由此,利用了各个数据之间的联系,自动生成了新的威胁情报,并且在一定程度上解决了“数据孤岛”问题。并且本发明实施例提供的威胁情报关联图谱具有良好的可视化威胁追溯取证能力。

Description

一种威胁情报生成方法、装置及系统
技术领域
本发明涉及互联网领域,尤其涉及一种威胁情报生成方法、装置及系统。
背景技术
随着互联网技术的不断发展,网络已经融入了人们生活的方方面面。然而,黑客技术作为网络技术的衍生物,也日益严峻的威胁着网络安全,特别是对于数据价值较高的企业、政府和高校等组织机构。
为了保证信息的安全,需要对原始数据进行分析,但是对大量的数据信息是一个巨大的工程,因此为了帮助组织机构从海量数据、警报和攻击中解脱出来,需要对这些数据进行主次排序,并能够提供可实施性的有价值信息。为满足用户需求,网络威胁情报被提出,并且与之相关的研究越来越备受关注。
Gartner给威胁情报下的定义描述如下:威胁情报是基于证据的知识,包括上下文、机制、指标、隐含和可操作的建议,针对一个现存的或新兴的威胁,可用于做出相应决定的知识。目前,威胁情报主要包括以下几种常见的对象,域名、IP、URL、邮箱地址、文件哈希、文件名、漏洞ID等。其获取方式主要包括检测类设备生成、交换、购买、爬虫等方式。情报的组织和使用方式主要采用黑名单方式,进而从流量中发现已知威胁。
然而,威胁情报在获取、组织和使用的过程中存在“数据孤岛”的问题,也就是说,威胁情报在获取、组织和使用的过程中,往往是以黑名单和白名单的形式存在的,缺少对威胁情报的关联分析。
发明内容
有鉴于此,本发明实施例提供了一种威胁情报生成方法及装置,利用生成的威胁情报关联图谱中各个情报之间的关联性,根据证据链传递算法和已标注的威胁情报对未知威胁数据进行标注。由此,利用了各个数据之间的联系,在一定程度上解决了“数据孤岛”问题。本发明实施例提供的一种威胁情报生成方法,包括:
获取已生成的威胁情报关联图谱;
采用证据链传递算法和所述威胁情报关联图谱中已标注的威胁情报对未知威胁数据进行标注。
可选的,所述采用证据链传递算法和所述威胁情报关联图谱中已标注的威胁情报对未知威胁数据进行标注,包括:
对于所述威胁情报关联图谱中的每一个未知威胁数据,采用已标注的目标威胁情报对所述未知威胁数据进行分析;所述已标注的目标威胁情报为未知威胁数据的关联情报;
获取所述未知威胁数据属于高危的数量;
依据所述未知威胁数据属于高危的数量和所述目标威胁情报的数量,计算所述未知威胁数据属于威胁情报的占比;
将所述占比和预设的阈值进行比较,标注所述未知威胁数据的属性。
可选的,还包括:
确定标注后的未知威胁数据中的合法数据;
过滤掉标注后的未知威胁数据中的合法数据。
可选的,还包括:
生成威胁情报关联图谱;
具体的,包括:
获取网络流量,从所述网络流量中识别出DNS流量;
对所述DNS流量进行预处理,得到目标域名;所述目标域名为DNS流量中过滤掉合法域名后得到的;
从所述目标域名中提取出所述目标域名的特征数据;
依据聚类增量算法和所述目标域名的特征数据,对所述目标域名进行分类;
从分类后的目标域名中过滤掉合法域名,得到分类后的恶意域名;
将分类后的各个恶意域名和预设的网络信息相关联;
将关联后的数据以图的方式进行存储,生成威胁情报关联图谱。
可选的,所述对所述DNS流量进行预处理,得到目标域名,包括:
从所述DNS流量中提取出Passive DNS特征数据;
从所述Passive DNS特征数据中提取域名信息;
过滤掉所述域名信息中的合法域名,得到目标域名。
可选的,所述依据聚类增量算法和所述目标域名的特征数据,对所述目标域名进行分类,包括:
判断是否存在已训练的域名聚类簇;
若不包括已训练的域名聚类簇,基于密度聚类算法进行训练得到预聚类簇;
依据所述预聚类簇、增量聚类算法和所述目标域名的特征数据,对所述目标域名进行分类。
可选的,所述将分类后的各个域名和预设的网络信息相关联,包括:
获取恶意域名的家族类别和各个恶意域名的Passive DNS特征数据;
为所述恶意域名和所述恶意域名映射后的IP补充元数据;
基于威胁情报关联引擎,将所述恶意域名、所述恶意域名映射后的IP以及预设的网络信息进行关联。
本发明实施例提供的一种威胁情报生成装置,包括:
关联图谱获取模块,用于获取已生成的威胁情报关联图谱;
自动标注模块,用于采用证据链传递算法和所述威胁情报关联图谱中已标注的威胁情报对未知威胁数据进行标注。
可选的,还包括:
威胁情报关联图谱生成模块,具体包括:
流量获取子模块,用于获取网络流量,从所述网络流量中识别出DNS流量;
流量处理子模块,用于对DNS流量进行预处理,得到目标域名;所述目标域名为DNS流量中过滤掉合法域名后得到的;
聚类子模块,用于从所述目标域名中提取出所述目标域名的特征数据,并依据聚类增量算法和所述目标域名的特征数据,对所述目标域名进行分类;
过滤子模块,用于从分类后的所述目标域名中过滤掉合法域名,得到分类后的恶意域名;
关联子模块,用于将分类后的各个恶意域名和预设的网络信息相关联;
存储子模块,用于将关联后的数据以图的方式进行存储,生成威胁情报关联图谱。
可选的,所述聚类子模块包括:
预聚类子模块,用于对不同的域名家族的域名进行特征提取,将特征相似的域名归为一个聚类簇,并根据域名的家族标注对聚类簇进行标注,得到预聚类簇;
增量聚类子模块,用于从所述目标域名中提取出所述目标域名的特征数据,并依据聚类增量算法、所述目标域名的特征数据和所述预聚类簇,对所述目标域名进行分类。
本发明实施例中,通过对DNS流量进行分析,得到过滤掉合法域名的目标域名,并利用机器学习方法对目标域名进行聚类,将聚类后的域名过滤后得到恶意域名,将恶意域名和其映射后的IP与预设的网络信息进行关联,生成威胁情报图谱,最后再根据证据链传递算法和威胁情报关联图谱中已标注的威胁情报,对未知威胁数据进行标注,确定出未知威胁数据的属性,并对确定出属性的未知威胁数据进行过滤,得到新的威胁情报。由此,利用了各个数据之间的联系,自动生成了新的威胁情报,并且在一定程度上解决了“数据孤岛”问题。并且本发明实施例提供的威胁情报关联图谱具有良好的可视化威胁追溯取证能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了本发明实施例提供的一种威胁情报生成方法的流程示意图;
图2示出了本发明实施例提供的对威胁情报关联图谱中的未知威胁数据进行标注的流程示意图;
图3示出了本发明实施例提供的威胁情报关联图谱的生成过程示意图;
图4示出了本发明实施例提供的威胁情报关联图谱的存储结构示意图;
图5示出了本发明实施例提供的展示和交互技术主要包括在线交互过程和离线交互过程示意图;
图6示出了本发明实施例提供的一种威胁情报生成装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参考图1,示出了本发明实施例提供的一种威胁情报生成方法的流程示意图,在本实施例中,该方法包括:
S101:获取已生成的威胁情报关联图谱;
S102:采用证据链传递算法和所述威胁情报关联图谱中已标注的威胁情报对未知威胁数据进行标注。
本实施例中,需要说明的是,威胁情报关联图谱中包括的情报,有一些是标注了威胁情报的,同时也有可能存在未标注威胁情报的,本实施的方法,就是将威胁情报关联图谱中的未知威胁数据进行标注,具体的,S102包括:
S201:对于所述威胁情报关联图谱中的每一个未知威胁数据,采用已标注的目标威胁情报对所述未知威胁数据进行分析;所述已标注的目标威胁情报为未知威胁数据的关联情报;
S202:获取所述未知威胁数据属于高危的数量;
S203:依据所述未知威胁数据属于高危的数量和所述目标威胁情报的数量,计算所述未知威胁数据的威胁占比;
S204:将所述威胁占比和预设的阈值进行比较,标注所述未知威胁数据的属性。
本实施例中,S201~S204的步骤,是对威胁情报关联图谱的遍历过程,其中,可以采用广度的遍历也可以采用深度的遍历等,直到该威胁情报关联图谱中所有的未知威胁数据均被标记为止。
本实施例中,未知威胁数据的属性可以包括:合法、低危、中危和高危。若假设未知威胁数据属于高危的数量为n,目标威胁情报的数量为m,未知威胁数据的威胁占比为n≤m。若n/m≤a,则该威胁情报的属性为合法;当a<n/m≤b,则该威胁情报的属性为低危;若b<n/m≤c,则该威胁情报为中危;若c<n/m≤1,则该威胁情报为高危,并且,a<b<c≤1。
其中,威胁情报关联图谱是以图的形式保存的,并且在图数据库中可以被存储为无向图。
举例说明:
使用图分析算法,处理威胁情报关联图谱,获取连通子图集合G={g1,g2,...,gn},该集合包含n个连通子图,令i=1,2,3,…,n;
对于每个连通子图gi,首先访问起始顶点v,接着由v出发,依次访问v的各个未访问过的邻接顶点w1,w2,...,wm。对于v的邻接顶点进行分析,通过该顶点相关的已标注了的威胁情报,确认其威胁属性(高危、中危、低危和合法),并统计威胁占比;
威胁判定过程:若在m个邻接顶点中,存在n个邻接顶点威胁属性为高危,满足n≤m。其中,威胁占比定义为n/m,若n/m≤0.1,节点v的威胁属性标记为合法。若0.1<n/m≤0.3,节点v的威胁属性标记为低危。若0.3<n/m≤0.5,节点v的威胁属性标记为中危。若0.5<n/m≤1,节点v的威胁属性标记为高危。
然后,再依次访问w1,w2,...,wm的所有未被访问过的邻接顶点。在访问过程中,同时进行威胁判定和威胁标记;再从这些访问过的顶点出发,再访问它们所有未被访问过的邻接顶点。在访问过程中,同时进行威胁判定和威胁标记;依次类推,直到连通子图gi中所有顶点都被访问过,完成威胁判定和威胁标记;依次类推,处理其他连通子图,直到处理完n个连通子图。
本实施例中,为了提高被标注的威胁情报的准确性:还包括:
确定标注后的未知威胁数据中的合法数据;
过滤掉标注后的未知威胁数据中的合法数据。
本实施例中,对标注后的未知威胁数据进行过滤时,可以采用白名单的方式,该白名单中可以包括:IP白名单、域名白名单、文件白名单、URL白名单等数据。若标注后的未知威胁数据属于该白名单,则该标注后的情报属于合法数据。
本实施例中,当对标注后的未知威胁数据过滤掉合法数据后,得到的数据为新的威胁情报。其中,生成的新的威胁情报可以用于更新威胁情报关联图谱。
本实施例中,威胁情报关联图谱的来源可以包括多种,在本实施例中,优选的一种包括:
S301:获取网络流量,并从所述网络流量中识别出DNS流量;
本实施例中,可以通过分光或者镜像的方式获取网络流量。
本实施例中,流量分析引擎通过协议识别模块对各种应用层协议进行识别,过滤掉网络流量中其它协议流量,保留DNS协议流量。
S302:从所述DNS流量中提取Passive DNS特征数据;
需要说明的是,在提取了Passive DNS特征数据后,需要将该Passive DNS特征数据进行缓存,以便后续步骤使用。
本实施例中,提取出的Passive DNS特征数据的格式可以描述为:“timestamp||dns-client||dns-server||RRclass||Query||Query Type||Answer||TTL||Count”,“timestamp”为时间戳,“dns-client”为用户主机IP地址(客户端),“dns-server”为DNS服务器IP地址(服务器端),“RR class”为资源记录类型,“Query”为查询域名,“Query Type”为查询类型,“Answer”为域名解析的IP地址或空,“TTL”为生存周期,“Count”为查询次数。
其中,Passive DNS特征数据主要具备以下能力:
1)在过去指定的时间范围内,目标域名都曾经绑定过哪些IP;
2)在过去指定的时间范围内,目标IP都承载了哪些域名;
3)在过去指定的时间范围内,对于一个域名服务器,它负责解析哪些域名;
4)在过去指定的时间范围内,目标域名出现的最早时间或最晚时间;在过去指定的时间范围内,目标域名下有哪些子域名。
S303:从所述Passive DNS特征数据中提取域名信息;
S304:过滤掉所述域名信息中的合法域名,得到目标域名;
本实施例中,对域名信息进行过滤时,可以通过白名单的方式进行,具体的方式在上文中已经进行了介绍,在这里就不再进行赘述。
本实施例中,对于提取的目标域名的特征数据,本实施例提取的特征描述如下:
1)域名长度:通常情况下,合法域名字符串长度较短,而恶意域名字符串长度较长;
2)域名字符分布信息熵:如果在一个域名S中存在一个字符集合E={E1,E2,...,En},每个字符出现的概率分布P={p1,p2,...,pn},则每个字符本身的信息量可表示为Ii=-log2log2pi。域名随机熵是整个域名S的平均信息量,其计算方法可表示如下:
Figure BDA0001404012750000081
3)元音和辅音比重:合法域名为了让人记住,往往会选一些“好读(pronounceable)”的域名,比如baidu、sohu、sina等等有元音字母之类好念的,而C&C域名由于随机生成,通常不太好念,比如sfadfavafadf.cc;
4)长辅音序列:英文字母分布的辅音字母远多于元音字母,C&C更可能连续反复出现辅音字母,而合法域名为了好念多是元音辅音交替;
5)离散度:C&C域名的随机性也表现在连续出现的字母和数字上。一般随机生成的域名都不会出现大段连续的数字或者连续出现相同的字母;
6)对于域名的机器学习,n-gram(unigram(单字)bigram(相邻双字)trigram(相邻三字))常常能提供重要的特征。举例来说,fryjntzfvti.cc的域名的bigram分解是以下10个,“fr,ry,yj,jn,nt,tz,zf,fv,vt,ti”。对于域名分类算法,n-gram特征中,n往往选择3~5更为有效;
7)拼音和英文单词在域名中所占的比例。
S305:从所述目标域名中提取出所述域名的特征数据;
本实施例中,对于过滤掉合法域名后得到的目标域名,可以采用域名特征提取算法处理域名信息,获取目标域名的特征数据。
本实施例中,还需要将目标域名的特征数据和目标域名对应的PassiveDNS特征数据进行保存。
S306:依据聚类增量算法和所述目标域名的特征数据,对所述目标域名进行分类;
具体的,S306包括:
判断是否存在已训练的域名聚类簇;
若不包括已训练的域名聚类簇,基于密度聚类算法进行训练得到预聚类簇;
依据预聚类簇、增量聚类算法和所述目标域名的特征数据,对所述目标域名进行分类。
本实施例中,若之前已经存在训练好的域名聚类簇,则直接根据该训练好的域名聚类簇对新的域名进行聚类,但是若不存在已经存在训练好的域名聚类簇,则需要进行预训练,得到预聚类簇。
其中,对于域名聚类簇预训练过程和增量聚类算法过程,具体描述如下:
输入参数预定义:
1)令D为包含n个域名特征向量的数据集{X1,X2,X3,...,Xn},n为域名特征向量的个数,用于增量聚类算法的预训练;
2)min_clu为聚类簇中包含域名特征对象个数最小的阈值,低于该阈值的聚类簇将被标记为域名离群点聚类簇;
3)eps为聚类簇的半径阈值;
4)C为增量聚类阶段的域名特征向量集合,为集合中的域名特征向量,其中i=1,2,3…;
5)K为预训练结束后,生成的聚类簇;
6)Core为聚类簇聚类中心集合,Corej为第j个聚类簇的聚类中心,其中j=1,2,3…;
7)Outlier为离群点聚类簇集合,即聚类簇的规模小于min_clu记为离群点聚类簇。
输出参数预定义:
1)Clu为聚类簇集合;
2)待检测域名特征向量被分类到的聚类簇ID。
预训练过程描述如下:
运行基于密度的聚类算法,使用eps和min_clu参数,预训练阶段的域名特征集D作为输入,进行聚类,直到将预训练数据集D中所有的域名特征向量都分类到各个聚类簇中;
增量聚类过程:
对于域名特征向量Ci中的每个域名特征向量,计算Ci与Corej之间的距离dis(Ci,Corej);
若满足条件一:若确定出dis(Ci,Corej)为Ci到所有聚类簇的聚类中心的最小距离,Ci位于聚类簇的半径阈值eps内,并且目标聚类簇的规模大于等于min_clu,则将域名特征向量Ci分类到ID为j的聚类簇中;
若不满足条件一,满足条件二:dis(Ci,Corej)不是Ci到所有聚类簇的聚类中心的最小距离,或者Ci位于聚类簇的半径阈值eps之外,或者目标聚类簇的规模小于min_clu,则将域名特征向量Ci分类标记为离群点聚类簇Outlier(Ok);
若离群点聚类簇Outlier(Ok)的规模大于min_clu,则将Outlier(Ok)标记为新的聚类簇;
重复以上增量聚类过程,直到所有域名特征向量Ci都被分类到相关的域名聚类簇类别中。
在预训练过程中,预训练数据集包括合法域名数据集和非法域名数据集。其中,合法域名数据集来自Alex-1M域名数据集、从国家域名注册机构获取的合法域名数据集等。非法域名数据集包括多个僵尸网络C&C家族,主要来自僵尸网络家族DGA域名生成算法生成的C&C域名数据集、沙箱捕获的C&C域名数据集,从公开的、交换或购买的威胁情报机构获取的C&C域名数据集等。对于非法域名数据集,要求对每个C&C域名具有准确的僵尸网络家族标注。
在生成威胁情报图谱库的过程中,在初始阶段,还包括分布式全量关联过程,即将来自威胁事件、交换和购买、情报爬虫和DGA生成算法生成的威胁情报进行分布式关联,生成威胁情报图谱。
S307:从分类后的目标域名中过滤掉合法域名,得到分类后的恶意域名;
本实施例中,本次对目标域名进行过滤,也可以采用白名单的方法,与上文中提到的白名单方法一致,在这里就不再赘述。
S308:将分类后的各个恶意域名的信息和预设的网络信息相关联;
本实施例中,若数据库中包含有已生成的威胁情报图谱,步骤S306相当于将恶意域名的信息和数据库中现有的威胁情报图谱中的数据相关联。
具体的,S308包括:
获取恶意域名的家族类别和各个恶意域名的Passive DNS特征数据;
为所述恶意域名和所述恶意域名映射后的IP补充元数据;
基于威胁情报关联引擎,将所述恶意域名、所述恶意域名映射后的IP以及预设的网络信息进行关联。
其中,补充的元数据包括:whois信息、地理位置信息、威胁属性等,其中,威胁属性设置为高危。
其中,预设的网络信息包括:恶意代码、漏洞、URL邮箱地址、域名、IP等。
需要说明的是,本实施例中,预设的网络信息包括以上信息但是不局限于这些信息。
S309:将关联后的数据以图的方式进行存储,生成威胁情报关联图谱。
本实施例中,将关联后的数据以图的方式进行保存,也就是将关联后的数据以邻接链表数据结构进行存储,将节点和边进行区分,其中存储结构如图4所示。
本实施例中,生成的威胁情报关联图谱可以存储到数据库中,例如可以存储到Key-Value数据库中,除此之外数据库可以是HBase、BerkelryDB等,但是不局限于以上提到的数据库。
本实施例中,当需要使用生成的威胁情报关联图谱时,可以应用数据库引擎从数据库中进行查询,获得威胁情报关联图谱。
若用户需要获取威胁情报关联图谱结构,可以通过客户端进行展示和交互,如图5所示,其展示和交互技术主要包括在线交互过程和离线交互过程;
其中,在线交互过程,通过web提供一键溯源查询,并用Sigma.js作为展示工具。Sigma.js是一个基于Canvas,WebGL优化的前端画图工具,可以很方便地在WEB页面中发布网络图,并可以展示Graph各种形态及交互动作。这使得关联图具有很好的交互性,反应迅速,方便用户追溯。
离线交互过程,通过Gephi支持情报系统离线分析。Gephi是开源网络分析和可视化软件包,主要用于各种网络和复杂系统,动态和分层图的交互可视化与探测。可视化节点可多达一百万个,所有操作(例如布局,过滤器,拖动)都会实时运行。Gephi可以很好地帮助用户基于海量数据做分析,发现关键节点及定位攻击源。
本实施例中,通过对DNS流量进行分析,得到过滤掉合法域名的目标域名,并利用机器学习方法对目标域名进行聚类,将聚类后的域名过滤后得到恶意域名,将恶意域名和其映射后的IP与预设的网络信息进行关联,生成威胁情报图谱,最后再根据证据链传递算法和威胁情报关联图谱中已标注的威胁情报,对未知威胁数据进行标注,确定出未知威胁数据的属性,并对确定出属性的未知威胁数据进行过滤,得到新的威胁情报。由此,利用了各个数据之间的联系,在一定程度上解决了“数据孤岛”问题。并且本发明实施例提供的威胁情报关联图谱具有良好的可视化威胁追溯取证能力。
参考图6,示出了本发明实施例提供的一种威胁情报生成装置的结构示意图,在本实施例中,该装置包括:
关联图谱获取模块600,用于获取已生成的威胁情报关联图谱;
自动标注模块700,用于采用证据链传递算法和所述威胁情报关联图谱中已标注的威胁情报对未知威胁数据进行标注。
可选的,还包括:威胁情报关联图谱生成模块800,具体包括:
流量获取子模块801,用于获取网络流量,从网络流量中识别出DNS流量;
流量处理子模块802,用于对DNS流量进行预处理,得到目标域名;其中,目标域名为DNS流量中过滤掉合法域名后得到的;
聚类子模块803,用于从目标域名中提取出目标域名的特征数据,并依据聚类增量算法和目标域名的特征数据,对目标域名进行分类;
过滤子模块804,用于从分类后的目标域名中过滤掉合法域名,得到分类后的恶意域名;
关联子模块805,用于将分类后的各个恶意域名和预设的网络信息相关联;
存储子模块806,用于将关联后的数据以图的方式进行存储,生成威胁情报关联图谱。
可选的,所述聚类子模块包括:
预聚类子模块,用于对不同的域名家族的域名进行特征提取,将特征相似的域名归为一个聚类簇,并根据域名的家族标注对聚类簇进行标注,得到预聚类簇;
增量聚类子模块,用于从所述目标域名中提取出所述目标域名的特征数据,并依据聚类增量算法、所述目标域名的特征数据和所述预聚类簇,对所述目标域名进行分类。
可选的,关联子模块包括:
分布式全量关联子模块,用于在系统的初始阶段,将来自威胁事件、交换和购买、情报爬虫和DGA生成算法的威胁情报进行分布式关联,生成威胁情报图谱;
增量关联子模块,用于将增量聚类过程处理后,得到的各个恶意域名和预设的网络信息相关联。
通过本实施例的装置,利用生成的威胁情报关联图谱中各个情报之间的关联性,根据证据链传递算法和已标注的威胁情报对未知威胁数据进行标注。由此,利用了各个数据之间的联系,在一定程度上解决了“数据孤岛”问题。并且本发明实施例提供的威胁情报关联图谱具有良好的可视化威胁追溯取证能力。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种威胁情报生成方法,其特征在于,包括:
获取已生成的威胁情报关联图谱;
采用证据链传递算法和所述威胁情报关联图谱中已标注的威胁情报对未知威胁数据进行标注;
所述威胁情报关联图谱的生成过程包括:
获取网络流量,从所述网络流量中识别出DNS流量;
对所述DNS流量进行预处理,得到目标域名;所述目标域名为DNS流量中过滤掉合法域名后得到的;
从所述目标域名中提取出所述目标域名的特征数据;
依据聚类增量算法和所述目标域名的特征数据,对所述目标域名进行分类;
从分类后的目标域名中过滤掉合法域名,得到分类后的恶意域名;
将分类后的各个恶意域名和预设的网络信息相关联;
将关联后的数据以图的方式进行存储,生成威胁情报关联图谱。
2.根据权利要求1所述的方法,其特征在于,所述采用证据链传递算法和所述威胁情报关联图谱中已标注的威胁情报对未知威胁数据进行标注,包括:
对于所述威胁情报关联图谱中的每一个未知威胁数据,采用已标注的目标威胁情报对所述未知威胁数据进行分析;所述已标注的目标威胁情报为未知威胁数据的关联情报;
获取所述未知威胁数据属于高危的数量;
依据所述未知威胁数据属于高危的数量和所述目标威胁情报的数量,计算所述未知威胁数据属于威胁情报的占比;
将所述占比和预设的阈值进行比较,标注所述未知威胁数据的属性。
3.根据权利要求2所述的方法,其特征在于,还包括:
确定标注后的未知威胁数据中的合法数据;
过滤掉标注后的未知威胁数据中的合法数据。
4.根据权利要求1所述的方法,其特征在于,所述对所述DNS流量进行预处理,得到目标域名,包括:
从所述DNS流量中提取出Passive DNS特征数据;
从所述Passive DNS特征数据中提取域名信息;
过滤掉所述域名信息中的合法域名,得到目标域名。
5.根据权利要求1所述的方法,其特征在于,所述依据聚类增量算法和所述目标域名的特征数据,对所述目标域名进行分类,包括:
判断是否存在已训练的域名聚类簇;
若不包括已训练的域名聚类簇,基于密度聚类算法进行训练得到预聚类簇;
依据所述预聚类簇、增量聚类算法和所述目标域名的特征数据,对所述目标域名进行分类。
6.根据权利要求1所述的方法,其特征在于,所述将分类后的各个域名和预设的网络信息相关联,包括:
获取恶意域名的家族类别和各个恶意域名的Passive DNS特征数据;
为所述恶意域名和所述恶意域名映射后的IP补充元数据;
基于威胁情报关联引擎,将所述恶意域名、所述恶意域名映射后的IP以及预设的网络信息进行关联。
7.一种威胁情报生成装置,其特征在于,包括:
关联图谱获取模块,用于获取已生成的威胁情报关联图谱;
自动标注模块,用于采用证据链传递算法和所述威胁情报关联图谱中已标注的威胁情报对未知威胁数据进行标注;还包括:
威胁情报关联图谱生成模块,具体包括:
流量获取子模块,用于获取网络流量,从所述网络流量中识别出DNS流量;
流量处理子模块,用于对DNS流量进行预处理,得到目标域名;所述目标域名为DNS流量中过滤掉合法域名后得到的;
聚类子模块,用于从所述目标域名中提取出所述目标域名的特征数据,并依据聚类增量算法和所述目标域名的特征数据,对所述目标域名进行分类;
过滤子模块,用于从分类后的所述目标域名中过滤掉合法域名,得到分类后的恶意域名;
关联子模块,用于将分类后的各个恶意域名和预设的网络信息相关联;
存储子模块,用于将关联后的数据以图的方式进行存储,生成威胁情报关联图谱。
8.根据权利要求7所述的装置,其特征在于,所述聚类子模块包括:
预聚类子模块,用于对不同的域名家族的域名进行特征提取,将特征相似的域名归为一个聚类簇,并根据域名的家族标注对聚类簇进行标注,得到预聚类簇;
增量聚类子模块,用于从所述目标域名中提取出所述目标域名的特征数据,并依据聚类增量算法、所述目标域名的特征数据和所述预聚类簇,对所述目标域名进行分类。
CN201710811532.7A 2017-09-11 2017-09-11 一种威胁情报生成方法、装置及系统 Active CN107566376B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710811532.7A CN107566376B (zh) 2017-09-11 2017-09-11 一种威胁情报生成方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710811532.7A CN107566376B (zh) 2017-09-11 2017-09-11 一种威胁情报生成方法、装置及系统

Publications (2)

Publication Number Publication Date
CN107566376A CN107566376A (zh) 2018-01-09
CN107566376B true CN107566376B (zh) 2020-05-05

Family

ID=60980658

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710811532.7A Active CN107566376B (zh) 2017-09-11 2017-09-11 一种威胁情报生成方法、装置及系统

Country Status (1)

Country Link
CN (1) CN107566376B (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8826434B2 (en) * 2013-07-25 2014-09-02 Splunk Inc. Security threat detection based on indications in big data of access to newly registered domains
CN108446363B (zh) * 2018-03-13 2021-05-25 北京奇安信科技有限公司 一种kv引擎的数据处理方法及装置
CN110198292B (zh) * 2018-03-30 2021-12-07 腾讯科技(深圳)有限公司 域名识别方法和装置、存储介质及电子装置
CN108737385A (zh) * 2018-04-24 2018-11-02 杭州安恒信息技术股份有限公司 一种基于dns映射ip的恶意域名匹配方法
CN110545250B (zh) * 2018-05-29 2021-12-21 国际关系学院 一种多源攻击痕迹融合关联的溯源方法
CN110602020A (zh) * 2018-06-12 2019-12-20 蓝盾信息安全技术有限公司 一种基于dga域名和周期性网络连接会话行为的僵尸网络检测技术
KR102100393B1 (ko) * 2018-07-09 2020-04-13 한양대학교 산학협력단 악성 도메인을 판단하는 방법, 이를 이용하는 컴퓨팅 장치, 및 프로그램
CN109246083B (zh) * 2018-08-09 2021-08-03 奇安信科技集团股份有限公司 一种dga域名的检测方法及装置
CN109522504A (zh) * 2018-10-18 2019-03-26 杭州安恒信息技术股份有限公司 一种基于威胁情报判别仿冒网站的方法
CN109462578B (zh) * 2018-10-22 2022-01-11 南开大学 基于统计学习的威胁情报利用与繁殖方法
CN109740344B (zh) * 2018-11-28 2024-04-19 奇安信科技集团股份有限公司 威胁情报模型建立方法、装置、电子设备及存储介质
CN111355697B (zh) * 2018-12-24 2022-02-25 深信服科技股份有限公司 僵尸网络域名家族的检测方法、装置、设备及存储介质
CN110866253B (zh) * 2018-12-28 2022-05-27 北京安天网络安全技术有限公司 一种威胁分析方法、装置、电子设备及存储介质
CN109951477B (zh) * 2019-03-18 2021-07-13 武汉思普崚技术有限公司 一种基于威胁情报检测网络攻击的方法和装置
CN110535866B (zh) * 2019-09-02 2022-01-28 杭州安恒信息技术股份有限公司 系统画像的生成方法、装置及服务器
CN110719291B (zh) * 2019-10-16 2022-10-14 杭州安恒信息技术股份有限公司 一种基于威胁情报的网络威胁识别方法及识别系统
CN111224981B (zh) * 2019-12-31 2022-05-17 北京天融信网络安全技术有限公司 一种数据处理方法、装置、电子设备及存储介质
CN113315739A (zh) * 2020-02-26 2021-08-27 深信服科技股份有限公司 一种恶意域名的检测方法及系统
CN111565187B (zh) * 2020-04-30 2022-09-30 深信服科技股份有限公司 一种dns异常检测方法、装置、设备及存储介质
CN111880708A (zh) * 2020-07-31 2020-11-03 北京微步在线科技有限公司 一种网络攻击事件图的交互方法及存储介质
CN111818198B (zh) * 2020-09-10 2020-12-29 腾讯科技(深圳)有限公司 域名检测方法、域名检测装置和设备以及介质
CN114615003B (zh) * 2020-12-07 2024-08-27 中国移动通信有限公司研究院 命令和控制c&c域名的验证方法、装置及电子设备
CN112565283A (zh) * 2020-12-15 2021-03-26 厦门服云信息科技有限公司 一种apt攻击检测方法、终端设备及存储介质
CN112769840B (zh) * 2021-01-15 2023-04-07 杭州安恒信息技术股份有限公司 一种基于强化学习Dyna框架的网络攻击行为识别方法
CN114117160A (zh) * 2021-11-11 2022-03-01 奇安信科技集团股份有限公司 一种基于威胁情报的威胁分析图谱生成、应用方法及装置
CN116112230B (zh) * 2022-12-30 2024-08-20 安天科技集团股份有限公司 一种ip白名单确定方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350822A (zh) * 2008-09-08 2009-01-21 南开大学 一种Internet恶意代码的发现和追踪方法
CN103368976A (zh) * 2013-07-31 2013-10-23 电子科技大学 一种基于攻击图邻接矩阵的网络安全评估装置
CN103914649A (zh) * 2014-04-16 2014-07-09 西安电子科技大学 基于攻击策略图的实时警报综合分析处理方法及其入侵检测系统
CN106897273A (zh) * 2017-04-12 2017-06-27 福州大学 一种基于知识图谱的网络安全动态预警方法
CN106991325A (zh) * 2017-03-02 2017-07-28 北京理工大学 一种软件漏洞的防护方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10447555B2 (en) * 2014-10-09 2019-10-15 Splunk Inc. Aggregate key performance indicator spanning multiple services

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350822A (zh) * 2008-09-08 2009-01-21 南开大学 一种Internet恶意代码的发现和追踪方法
CN103368976A (zh) * 2013-07-31 2013-10-23 电子科技大学 一种基于攻击图邻接矩阵的网络安全评估装置
CN103914649A (zh) * 2014-04-16 2014-07-09 西安电子科技大学 基于攻击策略图的实时警报综合分析处理方法及其入侵检测系统
CN106991325A (zh) * 2017-03-02 2017-07-28 北京理工大学 一种软件漏洞的防护方法和装置
CN106897273A (zh) * 2017-04-12 2017-06-27 福州大学 一种基于知识图谱的网络安全动态预警方法

Also Published As

Publication number Publication date
CN107566376A (zh) 2018-01-09

Similar Documents

Publication Publication Date Title
CN107566376B (zh) 一种威胁情报生成方法、装置及系统
Uwagbole et al. Applied machine learning predictive analytics to SQL injection attack detection and prevention
CN112104677B (zh) 一种基于知识图谱的受控主机检测方法和装置
CN110233849B (zh) 网络安全态势分析的方法及系统
US11799823B2 (en) Domain name classification systems and methods
US20160065534A1 (en) System for correlation of domain names
CN112866023B (zh) 网络检测、模型训练方法、装置、设备及存储介质
US20140040301A1 (en) Real-time and adaptive data mining
CN109905288B (zh) 一种应用服务分类方法及装置
US20180069884A1 (en) Identifying Bulletproof Autonomous Systems
Pevny et al. Discriminative models for multi-instance problems with tree structure
CN111143838A (zh) 数据库用户异常行为检测方法
CN114915468A (zh) 基于知识图谱的网络犯罪智能分析检测方法
CN106446124A (zh) 一种基于网络关系图的网站分类方法
US10521727B2 (en) System, method, and storage medium for generating hypotheses in data sets
CN111277433B (zh) 基于属性网络表征学习的网络服务异常检测方法及装置
Teoh et al. Analyst intuition inspired high velocity big data analysis using PCA ranked fuzzy k-means clustering with multi-layer perceptron (MLP) to obviate cyber security risk
CN115051863B (zh) 异常流量检测的方法、装置、电子设备及可读存储介质
Fei et al. Real-time detection of COVID-19 events from Twitter: A spatial-temporally Bursty-Aware method
Alsaedi et al. Multi-Modal Features Representation-Based Convolutional Neural Network Model for Malicious Website Detection
Henretty et al. Topic modeling for analysis of big data tensor decompositions
CN115694994A (zh) 一种基于多层次信息融合的威胁分析方法及装置
CN111507368B (zh) 一种校园网入侵检测方法和系统
CN110309312B (zh) 一种关联事件获取方法及装置
Kazemian et al. Application of graph-based technique to identity resolution

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant