CN112822153A - 基于dns日志的可疑威胁发现方法和系统 - Google Patents

基于dns日志的可疑威胁发现方法和系统 Download PDF

Info

Publication number
CN112822153A
CN112822153A CN202011500912.7A CN202011500912A CN112822153A CN 112822153 A CN112822153 A CN 112822153A CN 202011500912 A CN202011500912 A CN 202011500912A CN 112822153 A CN112822153 A CN 112822153A
Authority
CN
China
Prior art keywords
abnormal
dns
data
suspicious
domain name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011500912.7A
Other languages
English (en)
Inventor
周昊
李明哲
徐剑
郭晶
严寒冰
丁丽
李志辉
朱天
饶毓
贺铮
吕志泉
韩志辉
马莉雅
雷君
高川
贾世琳
吕卓航
黄亮
刘伟
郝帅
杨云龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chang'an Communication Technology Co ltd
National Computer Network and Information Security Management Center
Original Assignee
Chang'an Communication Technology Co ltd
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chang'an Communication Technology Co ltd, National Computer Network and Information Security Management Center filed Critical Chang'an Communication Technology Co ltd
Priority to CN202011500912.7A priority Critical patent/CN112822153A/zh
Publication of CN112822153A publication Critical patent/CN112822153A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1458Denial of Service
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1466Active attacks involving interception, injection, modification, spoofing of data unit addresses, e.g. hijacking, packet injection or TCP sequence number attacks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于DNS日志的可疑威胁发现方法和系统,该方法包括:从DNS日志数据中抽取统计特征,获得特征数据;可疑域名发现,调用异常检测模型对所述特征数据进行处理,获得可疑域名;异常IP发现,对所述特征数据进行统计研判,发现异常请求IP、异常服务IP和异常解析IP。该系统包括:统计特征抽取单元,可疑域名发现单元,异常IP发现单元。本发明以层次化、插件化形式部署检测模型,能够解决威胁检测中数据量和资源量压力大的问题,有助于实现功能的可扩展性,启用多个具有不同资源特点的运算环境,并集中管理不同类型的模型插件,能够适应资源条件的变化,以便能够发现网络中的安全威胁。

Description

基于DNS日志的可疑威胁发现方法和系统
技术领域
本发明属于计算机网络安全领域,具体涉及一种基于DNS日志的可疑威胁发现方法和系统。
背景技术
威胁(threat)是指对资产或组织可能导致负面结果的一个事件的潜在源(《信息安全术语:GB/T25069-2010》)。例如,网络空间中的恶意域名、有害IP、恶意程序都是一类威胁实体。
威胁狩猎(threat hunting),也称威胁猎杀,就是在网络空间中发现和追踪安全威胁(security threat)的过程。也可称这一过程为威胁检测。被动流量日志(passivetraffic logs)是指网络中各种实体的行为记录,通常由日志采集设备(log collectors)通过对网络的被动观察而收集产生。这种观察过程通常不对网络状态产生影响。从所观察和记录到的行为类型看,被动流量日志包括DNS请求响应日志、流通联日志、HTTP请求日志及文件传输日志等。被动流量日志中蕴含着大量的威胁迹象(signs of threat)。可通过预先在网络主机或网络链路部署被动流量日志采集设施,解析和处理捕获的数据,从而产生被动流量采集日志。
基于被动流量日志可以执行各类数据分析挖掘过程,识别和发现网络中可疑的威胁迹象,形成威胁预警(threat alerts)。此时尚不能确认可疑的威胁迹象源自真正的威胁。威胁预警经专家诊断或同外部威胁情报核验后,可部分地确诊为真正的安全威胁。安全威胁的活动如产生了负面结果,则构成了安全事件(security incident)。以上对于安全威胁进行捕捉和确认的工作构成一类威胁狩猎过程。在确认安全威胁和安全事件的基础上,受害组织机构、网络运营商、安全企业或监管部门对安全事件进行响应,对安全威胁执行消除。
对大量DNS日志进行处理需要消耗大量计算资源,甚至面对海量的DNS日志数据,对其进行处理并发现安全威胁,进行威胁预警变得不可行,此外威胁的种类也在时刻变化,对其检测的模型也在时刻产生中。现有的可疑威胁发现方法及系统无法实现这种情形下的可疑威胁的发现,因此需要提供一种基于DNS日志的可疑威胁发现方法和系统,以层次化插件化部署检测模型,逐步降低分析挖掘的资源开销,且可调用多种检测模型,让整个威胁发现过程具有可行性且具有可扩展性。
发明内容
本发明的目的在于,提供一种基于DNS日志的可疑威胁发现方法和系统,以层次化、插件化形式部署检测模型,能够解决威胁检测中数据量和资源量压力大的问题,有助于实现功能的可扩展性,以便能够发现网络中的安全威胁。
为解决上述技术问题,本发明提供一种基于DNS日志的可疑威胁发现方法,如图1所示,所述方法包括:从DNS日志数据中抽取统计特征,获得特征数据;可疑域名发现,调用异常检测模型对特征数据进行处理,获得可疑域名;异常IP发现,对特征数据进行统计研判,发现异常请求IP、异常服务IP和异常解析IP。
所述可疑域名发现,如图2所示,具体包括:调用若干一级模型对DNS日志各级特征数据进行处理,得到若干第一数据集;调用二级模型对所述若干第一数据集进行处理,得到第二数据集;调用三级模型对所述第二数据集进行处理,得到若干第三数据集;调用四级模型对所述若干第三数据集进行处理,得到第四数据集。
所述一级模型采用简单的规则异常检测算法。
所述二级模型包括集成和过滤;所述集成包括投票集成、阈值集成、并集集成、带权集成和自适应加权集成中的至少一种;所述过滤包括白名单过滤和规模阈值过滤中的至少一种。
所述三级模型采用精细的异常检测算法。
所述四级模型包括排序限流;所述排序包括请求量排序、票数排序和票数-请求量联合排序中的至少一种。
所述异常请求IP包括DNS探测源和DNS反射放大攻击受害者;所述异常解析IP包括用于DNS污染的虚假解析IP、用于sinkhole的虚假解析IP、用于域名劫持的虚假解析IP和CDN/云服务环境下的多租户ICP节点IP;所述异常服务IP包括用于域名劫持的虚假DNS服务器和遭受DDoS攻击的DNS服务器。
本发明还提供一种基于DNS日志的可疑威胁发现系统,其特征在于,所述系统包括:统计特征抽取单元,用于从DNS日志数据中抽取统计特征,获得特征数据;可疑域名发现单元,用于调用异常检测模型对特征数据进行处理,获得可疑域名;异常IP发现单元,用于对特征数据进行统计研判,发现异常请求IP、异常服务IP和异常解析IP。
所述可疑域名发现单元,具体用于:调用若干一级模型对DNS日志各级特征数据进行处理,得到若干第一数据集;调用二级模型对若干第一数据集进行处理,得到第二数据集;调用三级模型对第二数据集进行处理,得到若干第三数据集;调用四级模型对若干第三数据集进行处理,得到第四数据集。
本发明还提供一种计算机可读存储介质,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行如上所述的方法。
在一种或几种具体实施方式中,本发明所提供的基于DNS日志的可疑威胁发现方法和系统具有以下技术效果:以层次化、插件化形式部署检测模型,能够解决威胁检测中数据量和资源量压力大的问题,有助于实现功能的可扩展性,启用多个具有不同资源特点的运算环境,并集中管理不同类型的模型插件,能够适应资源条件的变化,以便能够发现网络中的安全威胁。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
图1为本发明所提供的基于DNS日志的可疑威胁发现方法的流程图;
图2为本发明所提供的方法一个实施例的实现流程图;
图3为本发明所提供的基于DNS日志的可疑域名发现方法一个应用实施例的实现流程图;
图4为本发明所提供的方法另一个实施例的实现流程图;
其中:M1表示一级模型,M2表示二级模型,M3表示三级模型,M4表示四级模型;
M11表示第一个M1模型,M12表示第二个M1模型,M1n表示第n个M1模型,M31表示第一个M3模型,M32表示第二个M3模型,M3m表示第m个M3模型。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明所提供的基于DNS日志的可疑威胁发现方法和系统,以层次化、插件化形式部署检测模型,能够解决威胁检测中数据量和资源量压力大的问题,有助于实现功能的可扩展性,以便能够发现网络中的安全威胁。
在一种具体实施方式中,如图1所示,所述方法包括:从DNS日志数据中抽取统计特征,获得特征数据;可疑域名发现,调用异常检测模型对特征数据进行处理,获得可疑域名;异常IP发现,对特征数据进行统计研判,发现异常请求IP、异常服务IP和异常解析IP。
对DNS日志数据中若干特征字段的联合取值执行分组聚合统计,形成多级特征数据,得到DNS日志统计特征。
对被动流量日志进行挖掘并最终生成威胁预警的过程会产生一系列多层次的中间结果数据,主要是由于降维操作伴随统计值聚合形成。原始的被动流量日志处于最初层次,而中间结果数据大都是由于对上一层的日志记录中若干字段的联合取值执行分组聚合统计而形成的,相当于各分组的统计特征,故称作特征数据。本层分组聚合统计形成的分组值及特征值又构成了下一层分组聚合统计的字段。
不论是原始日志,还是中间结果数据,都视作一组记录的集合,记作R={ri},i=1,2,…,|R|。其中,每条记录包含若干特征字段。记作ri=(ci1,ci2,...,cik)。在{1,2,…,k}中选择一个子集G作为分组元组,而剩余下标集合A={1,2,…,k}-G构成聚合运算元组。RG是R在G上的投影,{RG}是可能出现的所有分组组合值。选择f个特征算子Ψ=(ψ1,…,ψf)。对于
Figure BDA0002843578440000051
Figure BDA0002843578440000052
形成了一个聚合值,作为下一级记录集合的某条记录的第i字段,如此执行分组聚合将构成下一级记录集合:
R'←{(ψ1(g),ψ2(g),…,ψf(g))|g∈RG}。
为简化叙述,原始的被动流量日志为原始日志,如DNS日志就是一种原始日志。原始日志的每个来源记作一个采集源。同一类型的原始日志因不同的采集地点、采集格式而形成的异构的数据生产端的一个实例。一个Kafkatopic或一个Hive表可认为是一个采集源。数据源在离线存储海量数据时,可以周期性地更改存储路径,形成不同的数据时间分区(存储分区)。通常以日期为周期设计分区粒度。对DNS日志进行分组统计所用到的主要字段包括方向(DIRECTION,包括请求/响应两个取值)、请求类型(QTYPE)、响应类型(RTYPE)、客户端IP(请求IP)、DNS服务器IP(服务IP)、TTL时间(TTL)、被请求域名(域名)、被请求域名的主域名(这里指域名后缀连同下一级域名节点,如ustc.edu.cn)、包长(PKTLEN)、应答值(解析值)、附加应答值(ADDVALUE)等实体。其中解析值实体又分为解析IP(解析IP)、解析服务器(NS)、CNAME别名(CNAME)等多种类型,当下文中提及解析值时一般指应答报文中应答区(answer section)资源记录(resource record)中RTYPE和RDATA两个字段的合称。
对于任意分组,可选的特征算子主要包括如下几类:记录数;条件记录数,即求取整个分组中符合给定条件的记录数;某字段的统计值,如求和、求平均、求最大值、去重计数等;某字段的条件统计值,即筛选出符合给定条件的记录后,对筛选后的记录计算某字段聚合统计值。
例如,对分组求取A类型DNS请求数特征,相当于执行一种条件计数,条件为"DIRECTION=请求并且QTYPE=A"。对分组求A类型TTL平均值特征,相当于执行针对TTL字段的条件统计值,条件为"QTYPE=A"。而有些特征的计算更为复杂,不属于上述几种分类。例如,附加值应答IP平均数特征的计算需要解析分组中每条记录的ADDVALUE字段,抽取其中IP地址列表并计算列表长度值,进而在整个分组范围内对该长度值求取平均值。
在一种具体实施方式中,可实现可疑域名和/或异常IP发现功能,如图2所示,具体包括:调用若干一级模型对DNS日志各级特征数据进行处理,得到若干第一数据集;调用二级模型对所述若干第一数据集进行处理,得到第二数据集;调用三级模型对所述第二数据集进行处理,得到若干第三数据集;调用四级模型对所述若干第三数据集进行处理,得到第四数据集。
在一种具体实施方式中,可实现可疑域名发现功能,如图3所示,一个异常检测模型M输入一条记录r,如果判断有异常则M(r)输出1,否则输出0;
基于各级特征数据,调用各类异常检测模型,发现可疑域名。这些异常检测模型表示为一级模型(M1)。记系统中的第i个M1模型为M1i,相关模型标记有异常域名记作M1iDOM(若干第一数据集之一),统称M1DOM。M1面临全量域名数据,资源压力较大,适合采用简单的规则异常检测算法,或者仅针对R的某个子集调用异常检测算法,以降低计算量。子集的选取原则可采用请求量最大原则,即仅保留单位时间内请求量大于一定阈值,且不属于周知域名白名单的域名。
一级模型可选的异常检测模型包括:访问量同比异常,如单日同比访问增长量过大,7日同比访问量增长过大等现象可触发此类异常告警;域名疑似DGA(DomainGeneration Automation),如长度过长,元音所占比例过少,缺少词典单词等现象的组合可被用于构建规则;解析特征异常,包括TTL过低,解析IP过多等现象都会触发此类异常告警。
二级模型集成多个M1iDOM(若干第一数据集)及其他外部信息(如白名单),进一步精准化对恶意域名的研判,过滤一部分域名。经M2模型输出的异常域名及相关特征记作M2DOM(第二数据集)。
M2集成的过程是采用一个模型综合多个上一级模型的结果,给出更为稳妥的判断。
集成的策略可包括:投票集成,如果达到或超过半数的M1模型都认为有异常,则标记为异常,即
Figure BDA0002843578440000071
阈值集成,如果达到某个指定阈值数量的模型认为有异常,则标记为异常,即
Figure BDA0002843578440000072
Figure BDA0002843578440000073
这种方式具有灵活性,代价是需要调整额外的阈值参数;并集集成,如果任意模型判为有异常,则标记为异常,即
Figure BDA0002843578440000074
Figure BDA0002843578440000075
这种集成方式能防止漏报,但不利于后续过滤;带权集成,给n模型的判据结果各赋予一个权重wi,i=1,2,…,n,标记超过总权值过半的异常记录为异常,即M2(r)=I(∑i wi M1i(r)>0.5∑i wi)。这一缺点更强化了阈值集成的优点和缺点;自适应加权集成,采用自适应加权策略
Figure BDA0002843578440000076
Figure BDA0002843578440000077
配合带权集成。
本系统具备功能可扩展性,不限于支持上述几种策略,但优选在M3层面资源充足时使用并集集成,否则使用自适应加权集成。
M2过滤的过程是将M2输出为0的记录从当前记录集中去除,并可进一步采用其他过滤策略,继续收缩当前记录集的空间。候选过滤策略可包括:白名单过滤,事先收集待良性域名名单,如周知网站域名,准确的白名单构造是困难的,通常认为一个持续的大流量网络对象是良性的,但这一简单判断原则容易造成误判,优选白名单尽可能小,以优先保证精准度而非召回率;规模阈值过滤,如果只关注影响范围(如访问IP数,访问地域范围,访问次数等)大于一定阈值的域名,则采取此类策略,这类策略完全取决于具体的业务需求。
由于采用了一定的过滤策略,M2DOM(第二数据集)的存储需求较小。
所述三级模型采用精细的异常检测算法。所述四级模型包括排序限流;所述排序包括请求量排序、票数排序和票数-请求量联合排序中的至少一种。
在M2结果的基础上,采用更精细的异常检测算法,进一步精准化对恶意域名的研判。M3面临的资源压力较小,可以使用更加精细复杂的检测模型。优选地,M1使用简单规则构建模型,M3采用深度学习算法等复杂模型,例如采用LSTM算法监督训练和研判DGA域名。
经M3模型输出的异常域名、域名相关特征及各M3模型对该域名的研判记录称作M3DOM(若干第三数据集之一)。
M4层运算集成M3层各模型的研判结果,按照一定排序原则将经M3研判的记录集进行排序。根据外部环境的资源约束条件,将经排序的记录集进行过滤,只保留排名靠前的记录集。
可选的排序原则包括:请求量排序,将请求量较大的域名对应的记录靠前;票数排序,按诊断有异常的M3模型数作为票数降序排序,票数高的记录靠前;票数-请求量联合排序,先按诊断有异常的M3模型数降序排序,对于模型数相同的,按请求量降序排序。
本系统具备功能可扩展性,不限于支持上述几种策略,优选采用票数-请求量联合排序策略。
统计研判过程完成于M4模型。M4输出的M4DOM(第四数据集)为统计研判系统的最终输出结果,在可疑域名发现方法中也称作可疑域名信息(可疑域名),这一信息包括可疑域名本身、相关特征以及各M3模型的研判结果。
在一个具体实施方式中,实现了异常IP发现功能,从DNS日志中发现有行为异常的请求IP、服务IP、解析IP。这些异常IP被怀疑有恶意,或系恶意行为的受害者。在异常IP研判功能的基础上,安全分析人员可进一步发现这些异常背后的威胁实体。
本功能尝试发现如下类型的请求IP:
DNS探测源,结合DNS日志,DNS探测源可能的特点包括:单位时间内域名请求次数较多;服务IP数量过大;域名请求中ANY/TXT类型的比重较大,发起请求次数远大于收到响应次数。结合FLOWLOG,DNS探测源可能的特点包括:单位时间上行流量过大;流量类型中ICMP、DNS等协议类型的比重较大,远大于HTTP/HTTPs类型;上行流量远大于下行流量。
DNS反射放大攻击受害者,结合DNS日志,DNS反射放大攻击的受害者可能的特点包括,单位时间内收到域名应答次数过多,收到应答次数远超发起响应次数;应答流量的总包长大于请求流量的总包长的10被以上;应答流量的对端IP同请求流量的对端IP交集过低;域名应答类型中ANY的比例过大。结合FLOWLOG,DNS反射放大攻击的受害者可能的特点包括,单位时间下行流量过大;下行流量远大于上行流量;下行流量的源IP数远大于上行流量的目的IP数且交集极低;DNS类型的流量占本IP总流量比重过大。结合FLOWLOG,亦有望检测DNS反射攻击之外的反射放大类DDoS攻击,如NTP、SSDP、ICMP等类型的反射放大攻击。
本功能尝试发现如下类型的解析IP:
用于DNS污染的虚假解析IP,此任务每月选择单个分区执行一次。具体方法是,基于针对根域名服务器的请求,提取响应类型为A的记录对应的解析IP。
用于sinkhole的虚假解析IP,结合DNS日志,用于sinkhole的虚假解析IP可能的特点是,同一个解析IP关联到大量的二级域名(大于1千),但不会包含知名网站域名。
用于域名劫持的虚假解析IP,用于DNS污染的虚假解析IP不属于此类。结合DNS日志,用于域名劫持的虚假解析IP可能的特点是:多个属于不同知名网站(流量排名TOP200以内)的域名解析到同一境外解析IP;将国内知名网站(流量排名TOP1000以内)或gov.cn网站的解析IP解析到境外解析IP;由非周知DNS服务器返回的境外解析IP,其结果与周知DNS服务器返回结果不同。上述条件任意满足一条即可。
CDN/云服务环境下的多租户ICP节点IP,此类IP的特点是:国内知名网站及政府网站的cname别名可解析到此类境内解析IP;同一境内解析IP对应多个能够解析到多个解析IP的CNAME域名。上述条件任意满足一条即可。
本功能尝试发现如下类型的服务IP:
用于域名劫持的虚假DNS服务器,结合DNS日志,虚假DNS服务器可能的特点包括:不属于周知DNS服务器;请求量环比明显增大,从极小(小于500次)到可观(如大于1万次);服务IP归属地在境外;所返回的解析IP中属于用于域名劫持的虚假解析IP的比例超过10%。
遭受DDoS攻击的DNS服务器,结合DNS日志,遭受DDoS攻击的DNS服务器可能的特点包括:属于周知DNS服务器;服务IP归属地在境内;单位时间内请求流量较大(如一小时内大于1Gbps或单日大于500Mbps);流量或请求数出现同比访问量异常(如大于2倍);请求IP发起的平均流量水平较高(如大于1Mbps)。
在一种具体实施方式中,本发明还提供了基于DNS日志的可疑威胁发现系统包括:统计特征抽取单元,用于从DNS日志数据中抽取统计特征,获得特征数据;可疑域名发现单元,用于调用异常检测模型对特征数据进行处理,获得可疑域名;异常IP发现单元,用于对特征数据进行统计研判,发现异常请求IP、异常服务IP和异常解析IP。
可疑域名发现单元,具体用于:调用若干一级模型对DNS日志各级特征数据进行处理,得到若干第一数据集;调用二级模型对若干第一数据集进行处理,得到第二数据集;调用三级模型对第二数据集进行处理,得到若干第三数据集;调用四级模型对若干第三数据集进行处理,得到第四数据集。
在一种具体实施方式中,本发明还提供一种计算机可读存储介质,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行如上所述的方法。
作为本发明的一个具体应用示例,如图4所示,HLion以分层方式实现,上层的功能调用下层提供的服务进行实现。
在最底部的基础资源层,整合汇聚了各类计算、存储资源,如Apache Spark计算引擎,Hadoop分布式文件系统(HDFS),各类关系数据库和图数据库,以及一个提供Linux运行环境的IaaS(Infrastructure-as-a-Service)平台。
中间服务层运行基本的功能组件。大数据分析平台以底层的大数据计算及存储资源为基础,提炼出众多的数据分析算子,供更上层调用。这些算子涵盖了数据导入导出、结构化数据处理、流程控制及简单机器学习等功能,针对海量数据处理场景进行性能优化。由于日常处理海量数据,对计算操作的合法性检查较为严格,也会可疑限制可在本平台执行的算子。可用的算子经进一步封装后形成平台专用的可视化编程接口,研发人员只能通过平台专用的可视化编程接口开发数据分析模型,不得直接调用基础资源层提供的接口。精细分析环境基于IaaS提供的运算环境,相比大数据分析平台其算力较弱,但能提供更丰富灵活编程接口,允许用户直接安装和调用TensorFlow、Keras等开源分析工具,以实现复杂的分析逻辑。资源探测组件提供了探测或订阅威胁情报站的各类常用工具。知识库管理服务针对底层的各类存储进行封装,提供面向知识管理的高级数据访问接口。
基础资源层和中间服务层并非专为HLion系统服务,优选地,将同一个研发机构的IT资源进行整合,同时服务于多个业务系统。
业务功能层调用下层的服务进行实现HLion系统各个功能。
统计特征抽取子系统基于大数据分析平台实现。HLion输入的DNS日志分为C2F和C2R两类采集源。C2R只包含针对周知DNS服务器的流量,C2F则包含其他DNS服务器流量。C2F的数据量远大于C2R。采集源以天为单位对离线日志的存储进行分区,存放于HDFS。统计特征抽取功能以天为时间分区单位周期性执行统计特征抽取,计算过程通过调用大数据分析平台提供的结构化数据处理算子加以实现。
可疑域名发现子系统的M1运算部署于大数据分析平台,通过大数据分析平台提供的各类数据处理和机器学习算子实现。其中,DGA域名检测模型采用随机森林机器算法实现。可疑域名发现子系统的M2集成运算采用自适应加权集成策略,M2过滤运算串行采用了白名单过滤及阈值规模过滤策略。M3和M4运算则工作于精细分析环境。大数据分析平台提供的数据导出功能将M2层的结果导出到精细分析环境,供M3读取。M3层调用TensorFlow工具提供的LSTM算法实现了DGA域名检测模型。
异常IP发现功能工作于大数据分析平台。为节省资源计,异常请求IP统计研判只针对C2F数据源。异常解析IP统计研判仅针对C2R数据源。异常服务IP统计研判针对C2R和C2F数据源。
CTI查询研判功能目前采用VirusTotal作为CTI查询站,但可替换为任意提供威胁情报查询检索功能的站点,如ThreatBook等。从查询站获取的结果按照一个预先设计的本体模型存入知识库。知识库由基础资源层的NoSQL提供存储服务。
CTI订阅聚合功能搜集了上百个开源OSINT站点,自动化地提取恶意域名、恶意IP等信息。此外,还实现了针对一些网络安全资讯网站的爬虫,解析其中一些文章中提供的IoC列表。从各种订阅站获取的信息也按照预先设计的本体模型存入知识库。
SIEM的后台服务深入分析知识库中的威胁实体数据,执行入侵集聚类、入侵集扩线及量化评估等例行计算操作,并将计算结果写回知识库,丰富各类威胁的上下文信息。在知识库的基础上,运行一个可视化交互系统,同人类专家交互,实现诊断管理功能。另外,提供REST接口将知识库信息导出。
本说明书中上述方法的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。相关之处参见方法实施例的部分说明即可。
需要说明的是,尽管在附图中以特定顺序描述了本发明方法的操作,但这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然本申请提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。
上述实施例阐明的单元、装置或模块等,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
以上所述的具体实施例,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施例而已,并不用于限定本申请的保护范围,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于DNS日志的可疑威胁发现方法,其特征在于,所述方法包括:
从DNS日志数据中抽取统计特征,获得特征数据;
可疑域名发现,调用异常检测模型对所述特征数据进行处理,获得可疑域名;
异常IP发现,对所述特征数据进行统计研判,发现异常请求IP、异常服务IP和异常解析IP。
2.根据权利要求1所述的基于DNS日志的可疑威胁发现方法,其特征在于,所述可疑域名发现,具体包括:
调用若干一级模型对DNS日志各级特征数据进行处理,得到若干第一数据集;
调用二级模型对所述若干第一数据集进行处理,得到第二数据集;
调用三级模型对所述第二数据集进行处理,得到若干第三数据集;
调用四级模型对所述若干第三数据集进行处理,得到第四数据集。
3.根据权利要求2所述的基于DNS日志的可疑威胁发现方法,其特征在于,所述一级模型采用简单的规则异常检测算法。
4.根据权利要求2所述的基于DNS日志的可疑威胁发现方法,其特征在于,所述二级模型包括集成和过滤;
所述集成包括投票集成、阈值集成、并集集成、带权集成和自适应加权集成中的至少一种;
所述过滤包括白名单过滤和规模阈值过滤中的至少一种。
5.根据权利要求2所述的基于DNS日志的可疑威胁发现方法,其特征在于,所述三级模型采用精细的异常检测算法。
6.根据权利要求2所述的基于DNS日志的可疑威胁发现方法,其特征在于,所述四级模型包括排序限流;
所述排序包括请求量排序、票数排序和票数-请求量联合排序中的至少一种。
7.根据权利要求1所述的基于DNS日志的可疑威胁发现方法,其特征在于,所述异常请求IP包括DNS探测源和DNS反射放大攻击受害者;
所述异常解析IP包括用于DNS污染的虚假解析IP、用于sinkhole的虚假解析IP、用于域名劫持的虚假解析IP和CDN/云服务环境下的多租户ICP节点IP;
所述异常服务IP包括用于域名劫持的虚假DNS服务器和遭受DDoS攻击的DNS服务器。
8.一种基于DNS日志的可疑威胁发现系统,其特征在于,所述系统包括:
统计特征抽取单元,用于从DNS日志数据中抽取统计特征,获得特征数据;
可疑域名发现单元,用于调用异常检测模型对特征数据进行处理,获得可疑域名;
异常IP发现单元,用于对特征数据进行统计研判,发现异常请求IP、异常服务IP和异常解析IP。
9.根据权利要求8所述的基于DNS日志的可疑威胁发现系统,其特征在于,所述可疑域名发现单元,具体用于:
调用若干一级模型对DNS日志各级特征数据进行处理,得到若干第一数据集;
调用二级模型对若干第一数据集进行处理,得到第二数据集;
调用三级模型对第二数据集进行处理,得到若干第三数据集;
调用四级模型对若干第三数据集进行处理,得到第四数据集。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行如权利要求1-7任一项所述的方法。
CN202011500912.7A 2020-12-18 2020-12-18 基于dns日志的可疑威胁发现方法和系统 Pending CN112822153A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011500912.7A CN112822153A (zh) 2020-12-18 2020-12-18 基于dns日志的可疑威胁发现方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011500912.7A CN112822153A (zh) 2020-12-18 2020-12-18 基于dns日志的可疑威胁发现方法和系统

Publications (1)

Publication Number Publication Date
CN112822153A true CN112822153A (zh) 2021-05-18

Family

ID=75853453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011500912.7A Pending CN112822153A (zh) 2020-12-18 2020-12-18 基于dns日志的可疑威胁发现方法和系统

Country Status (1)

Country Link
CN (1) CN112822153A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113572770A (zh) * 2021-07-26 2021-10-29 清华大学 检测域名生成算法生成的域名的方法及装置
CN113645240A (zh) * 2021-08-11 2021-11-12 中电积至(海南)信息技术有限公司 一种基于图结构的恶意域名群落挖掘方法
CN114362994A (zh) * 2021-11-26 2022-04-15 北京交通大学 多层异粒度智能聚合铁路系统运行行为安全风险识别方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113572770A (zh) * 2021-07-26 2021-10-29 清华大学 检测域名生成算法生成的域名的方法及装置
CN113572770B (zh) * 2021-07-26 2022-09-02 清华大学 检测域名生成算法生成的域名的方法及装置
CN113645240A (zh) * 2021-08-11 2021-11-12 中电积至(海南)信息技术有限公司 一种基于图结构的恶意域名群落挖掘方法
CN114362994A (zh) * 2021-11-26 2022-04-15 北京交通大学 多层异粒度智能聚合铁路系统运行行为安全风险识别方法

Similar Documents

Publication Publication Date Title
Gao et al. A distributed network intrusion detection system for distributed denial of service attacks in vehicular ad hoc network
US12047396B2 (en) System and method for monitoring security attack chains
US12069073B2 (en) Cyber threat defense system and method
CN110431817B (zh) 识别恶意网络设备
Seymour et al. Weaponizing data science for social engineering: Automated E2E spear phishing on Twitter
CN108881265B (zh) 一种基于人工智能的网络攻击检测方法及系统
CN112822153A (zh) 基于dns日志的可疑威胁发现方法和系统
US8762298B1 (en) Machine learning based botnet detection using real-time connectivity graph based traffic features
CN103368979B (zh) 一种基于改进K-means算法的网络安全性验证装置
Tufan et al. Anomaly-based intrusion detection by machine learning: A case study on probing attacks to an institutional network
CN107579956B (zh) 一种用户行为的检测方法和装置
Husain et al. Development of an efficient network intrusion detection model using extreme gradient boosting (XGBoost) on the UNSW-NB15 dataset
US20120011590A1 (en) Systems, methods and devices for providing situational awareness, mitigation, risk analysis of assets, applications and infrastructure in the internet and cloud
CN112738040A (zh) 一种基于dns日志的网络安全威胁检测方法、系统及装置
CN111786950A (zh) 基于态势感知的网络安全监控方法、装置、设备及介质
Krishnaveni et al. Ensemble approach for network threat detection and classification on cloud computing
CN105376193B (zh) 安全事件的智能关联分析方法与装置
CN104246786A (zh) 模式发现中的字段选择
CN106850647B (zh) 基于dns请求周期的恶意域名检测算法
CN115021997B (zh) 一种基于机器学习的网络入侵检测系统
Gonaygunta Machine learning algorithms for detection of cyber threats using logistic regression
CN111934954A (zh) 宽带的检测方法、装置、电子设备及存储介质
Las-Casas et al. A big data architecture for security data and its application to phishing characterization
CN112769755A (zh) 一种面向威胁检测的dns日志统计特征抽取方法
Sharma et al. An overview of flow-based anomaly detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210518

WD01 Invention patent application deemed withdrawn after publication