CN112769755A - 一种面向威胁检测的dns日志统计特征抽取方法 - Google Patents
一种面向威胁检测的dns日志统计特征抽取方法 Download PDFInfo
- Publication number
- CN112769755A CN112769755A CN202011507902.6A CN202011507902A CN112769755A CN 112769755 A CN112769755 A CN 112769755A CN 202011507902 A CN202011507902 A CN 202011507902A CN 112769755 A CN112769755 A CN 112769755A
- Authority
- CN
- China
- Prior art keywords
- grouping
- domain name
- dns
- level
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 24
- 238000000605 extraction Methods 0.000 title claims abstract description 15
- 230000002776 aggregation Effects 0.000 claims abstract description 51
- 238000004220 aggregation Methods 0.000 claims abstract description 51
- 238000000034 method Methods 0.000 claims abstract description 47
- 238000003860 storage Methods 0.000 claims description 55
- 230000004931 aggregating effect Effects 0.000 claims description 27
- 230000004044 response Effects 0.000 claims description 21
- 238000013075 data extraction Methods 0.000 claims description 3
- 238000012109 statistical procedure Methods 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 14
- 230000008569 process Effects 0.000 abstract description 14
- 238000012545 processing Methods 0.000 abstract description 13
- 238000005065 mining Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 22
- 238000005192 partition Methods 0.000 description 19
- 230000002159 abnormal effect Effects 0.000 description 16
- 238000007405 data analysis Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 7
- 230000003321 amplification Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000003199 nucleic acid amplification method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000000977 initiatory effect Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 239000000523 sample Substances 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 206010016803 Fluid overload Diseases 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 101000826116 Homo sapiens Single-stranded DNA-binding protein 3 Proteins 0.000 description 1
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 102100023008 Single-stranded DNA-binding protein 3 Human genes 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000012517 data analytics Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
- G06F16/244—Grouping and aggregation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24554—Unary operations; Data partitioning operations
- G06F16/24556—Aggregation; Duplicate elimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L61/00—Network arrangements, protocols or services for addressing or naming
- H04L61/45—Network directories; Name-to-address mapping
- H04L61/4505—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
- H04L61/4511—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Security & Cryptography (AREA)
- Mathematical Physics (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种面向威胁检测的DNS日志统计特征抽取方法,该方法包括:对DNS日志数据中若干特征字段的联合取值执行分组聚合统计,形成多级特征数据,得到DNS日志统计特征。采用本发明的方法能够解决对大量DNS日志进行处理需要消耗大量计算资源,甚至面对海量的DNS日志数据,对其进行处理并发现安全威胁,进行威胁预警不可行的问题,对海量DNS日志数据层层切片方式逐步降低分析挖掘的资源开销,让整个威胁发现过程具有可行性。
Description
技术领域
本发明属于计算机网络安全领域,具体涉及一种面向威胁检测的DNS日志统计特征抽取方法。
背景技术
威胁(threat)是指对资产或组织可能导致负面结果的一个事件的潜在源(《信息安全术语:GB/T25069-2010》)。例如,网络空间中的恶意域名、有害IP、恶意程序都是一类威胁实体。
威胁狩猎(threathunting),也称威胁猎杀,就是在网络空间中发现和追踪安全威胁(securitythreat)的过程。也可称这一过程为威胁检测。被动流量日志(passivetraffic logs)是指网络中各种实体的行为记录,通常由日志采集设备(log collectors)通过对网络的被动观察而收集产生。这种观察过程通常不对网络状态产生影响。从所观察和记录到的行为类型看,被动流量日志包括DNS请求响应日志、流通联日志、HTTP请求日志及文件传输日志等。被动流量日志中蕴含着大量的威胁迹象(signs ofthreat)。可通过预先在网络主机或网络链路部署被动流量日志采集设施,解析和处理捕获的数据,从而产生被动流量采集日志。
基于被动流量日志可以执行各类数据分析挖掘过程,识别和发现网络中可疑的威胁迹象,形成威胁预警(threat alerts)。此时尚不能确认可疑的威胁迹象源自真正的威胁。威胁预警经专家诊断或同外部威胁情报核验后,可部分地确诊为真正的安全威胁。安全威胁的活动如产生了负面结果,则构成了安全事件(security incident)。以上对于安全威胁进行捕捉和确认的工作构成一类威胁狩猎过程。在确认安全威胁和安全事件的基础上,受害组织机构、网络运营商、安全企业或监管部门对安全事件进行响应,对安全威胁执行消除。
对大量DNS日志进行处理需要消耗大量计算资源,甚至面对海量的DNS日志数据,对其进行处理并发现安全威胁,进行威胁预警变得不可行,因此需要提供一种面向威胁检测的DNS日志统计特征抽取方法,以层层切片方式逐步降低分析挖掘的资源开销,让整个威胁发现过程具有可行性。
发明内容
本发明的目的在于,提供一种面向威胁检测的DNS日志统计特征抽取方法,以便能够发现网络中的安全威胁,并且能够解决威胁发现活动常受制于数据量过载和资源不足的问题。
为解决上述技术问题,本发明提供种面向威胁检测的DNS日志统计特征抽取方法,所述方法包括:
对DNS日志数据中若干特征字段的联合取值执行分组聚合统计,形成多级特征数据,得到DNS日志统计特征。
所述DNS日志数据包括DNS日志和对DNS日志进行分组聚合统计后得到的中间结果数据。
所述DNS日志记录中的特征字段包括方向、请求类型、响应类型、客户端IP、DNS服务器IP、TTL时间、被请求域名、被请求域名的主域名、包长、应答值、附加应答值。
所述分组聚合统计过程如下:将DNS日志数据视作一组记录的集合,记作R={ri},i=1,2,…,|R|,其中,每条记录包含若干特征字段,记作ri=(ci1,ci2,...,cik),在{1,2,…,k}中选择一个子集G作为分组元组,剩余下标集合A={1,2,…,k}-G构成聚合运算元组,RG是R在G上的投影,{RG}是可出现的所有分组组合值,选择f个特征算子Ψ=(ψ1,…,ψf),对于 形成了一个聚合值,作为下一级记录集合的某一记录的第i字段,如此执行分组聚合则得到下一级聚合特征数据集合R′←{(ψ1(g),ψ2(g),…,ψf(g))|g∈RG}。
所述特征算子包括记录数、条件记录数、某字段的统计值、某字段的条件统计值。
所述多级特征数据包括五级特征数据。
所述五级特征数据抽取方法如下:
一级分组聚合;以各个采集源的DNS日志为基础,抽取部分实体作为分组实体,计算响应分组的若干聚合特征,得到“采集源-存储分区-请求IP-域名-服务IP”、“采集源-存储分区-域名-解析值”、“采集源-存储分区-时段-请求IP”一级分组聚合特征数据;
二级分组聚合;在一级分组聚合得到的分组聚合特征数据的基础上,再次分组聚合,得到“存储分区-请求IP-域名-服务IP”、“存储分区-域名-解析值”、“存储分区-时段-请求IP”二级分组聚合特征数据;
三级分组聚合;在二级分组聚合得到的分组聚合特征数据的基础上,再次分组聚合,得到“存储分区-域名”、“存储分区-服务IP”、“存储分区-请求IP”三级分组聚合特征数据;
四级分组聚合;在三级分组聚合得到的分组聚合特征数据的基础上,再次分组聚合,得到“域名-解析值”、“域名”四级分组聚合特征数据;
五级分组聚合;在四级分组聚合特征数据“域名”基础上提炼主域名实体的相关特征,得到“主域名”五级分组聚合特征数据。
本发明还提供一种计算机可读存储介质,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行如上所述的方法。
本发明所提供的面向威胁检测的DNS日志统计特征抽取方法,通过对DNS日志中的若干特征字段执行多级分组聚合统计,得到多层次的中间结果数据,以层层切片方式逐步降低数据计算资源的需求量,让整个威胁发现过程具有可行性。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
图1为本发明所提供的面向威胁检测的DNS日志统计特征抽取方法的流程图;
图2为本发明所提供的方法一个应用实施例的实现流程图;
图3为本发明所提供的方法一个实施例的实现流程图;
图4为本发明所提供的方法另一个实施例的实现流程图;
其中:F1表示一级分组聚合,F2表示二级分组聚合,F3表示三级分组聚合,F4表示四级分组聚合,F5表示五级分组聚合。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明所提供的面向威胁检测的DNS日志统计特征抽取方法,能够发现网络中的安全威胁,并且能够解决威胁发现活动常受制于数据量过载和资源不足的问题。
在一种具体实施方式中,本发明所提供的面向威胁检测的DNS日志统计特征抽取方法,如图1所示,所述方法包括:
对DNS日志数据中若干特征字段的联合取值执行分组聚合统计,形成多级特征数据,得到DNS日志统计特征。
对被动流量日志进行挖掘并最终生成威胁预警的过程会产生一系列多层次的中间结果数据,主要是由于降维操作伴随统计值聚合形成。原始的被动流量日志处于最初层次,而中间结果数据大都是由于对上一层的日志记录中若干字段的联合取值执行分组聚合统计而形成的,相当于各分组的统计特征,故称作特征数据。本层分组聚合统计形成的分组值及特征值又构成了下一层分组聚合统计的字段。
不论是原始日志,还是中间结果数据,都视作一组记录的集合,记作R={ri},i=1,2,…,|R|。其中,每条记录包含若干特征字段。记作ri=(ci1,ci2,...,cik)。在{1,2,…,k}中选择一个子集G作为分组元组,而剩余下标集合A={1,2,…,k}-G构成聚合运算元组。RG是R在G上的投影,{RG}是可能出现的所有分组组合值。选择f个特征算子Ψ=(ψ1,…,ψf)。对于 形成了一个聚合值,作为下一级记录集合的某条记录的第i字段,如此执行分组聚合将构成下一级记录集合:
R′←{(ψ1(g),ψ2(g),…,ψf(g))|g∈RG}。
为简化叙述,原始的被动流量日志为原始日志,如DNS日志就是一种原始日志。原始日志的每个来源记作一个采集源。同一类型的原始日志因不同的采集地点、采集格式而形成的异构的数据生产端的一个实例。一个Kafkatopic或一个Hive表可认为是一个采集源。数据源在离线存储海量数据时,可以周期性地更改存储路径,形成不同的数据时间分区(存储分区)。通常以日期为周期设计分区粒度。对DNS日志进行分组统计所用到的主要字段包括方向(DIRECTION,包括请求/响应两个取值)、请求类型(QTYPE)、响应类型(RTYPE)、客户端IP(请求IP)、DNS服务器IP(服务IP)、TTL时间(TTL)、被请求域名(域名)、被请求域名的主域名(这里指域名后缀连同下一级域名节点,如ustc.edu.cn)、包长(PKTLEN)、应答值(解析值)、附加应答值(ADDVALUE)等实体。其中解析值实体又分为解析IP(解析IP)、解析服务器(NS)、CNAME别名(CNAME)等多种类型,当下文中提及解析值时一般指应答报文中应答区(answer section)资源记录(resource record)中RTYPE和RDATA两个字段的合称。
对于任意分组,可选的特征算子主要包括如下几类:记录数;条件记录数,即求取整个分组中符合给定条件的记录数;某字段的统计值,如求和、求平均、求最大值、去重计数等;某字段的条件统计值,即筛选出符合给定条件的记录后,对筛选后的记录计算某字段聚合统计值。
例如,对分组求取A类型DNS请求数特征,相当于执行一种条件计数,条件为"DIRECTION=请求并且QTYPE=A"。对分组求A类型TTL平均值特征,相当于执行针对TTL字段的条件统计值,条件为"QTYPE=A"。而有些特征的计算更为复杂,不属于上述几种分类。例如,附加值应答IP平均数特征的计算需要解析分组中每条记录的ADDVALUE字段,抽取其中IP地址列表并计算列表长度值,进而在整个分组范围内对该长度值求取平均值。
作为本发明的一个具体示例,如图3所示,对DNS日志进行五级特征数据抽取:
一级特征数据是在DNS日志的各个采集源基础上,抽取部分实体作为分组实体,计算相应分组的若干聚合特征,进行第一级聚合。一级特征数据的提前过程中涉及对原始日志的读取和处理,资源开销较高,应尽可能进行优化,并尽量减少相关计算需求。
按照被分组实体不同,产生了以下几种分组聚合数据:
采集源-存储分区-请求IP-域名-服务IP:即对各采集源的各存储分区,以请求IP-域名-服务IP三元组进行聚合。可选的特征包括:请求数,响应数,若干QTYPE(A类型,CNAME类型,NS类型等)对应的请求数,若干小时时段(如凌晨3时,下午15时)对应的请求数,解析IP去重计数,请求包长总和,应答包长总和,附加值应答IP平均数,平均TTL,最大TTL。
采集源-存储分区-域名-解析值:对各采集源的各存储分区,建立域名和解析值的解析关系对。可选特征包括:记录数。具体实现时,解析值可以实现为RTYPE和RDATA两个字段,也可以将RTYPE和RDATA用一个特殊连接符拼接后存储为单个字段。这两种实现方式均可从解析值中还原RTYPE和RDATA。
采集源-存储分区-时段-请求IP:以分钟级时段(如每个5分钟作一个时段)统计各请求IP的上下行流量特征。这一聚合数据用于监测DDoS等流量异常事件。可选特征:上行流量,下行流量,若干QTYPE对应的上下行流量及请求数等。
在F1特征数据的基础上,进一步分组聚合可产生F2特征数据:
存储分区-请求IP-域名-服务IP:特征值同采集源-存储分区-请求IP-域名-服务IP。
存储分区-域名-解析值:特征值同采集源-存储分区-域名-解析值。
存储分区-时段-请求IP:特征值同采集源-存储分区-时段-请求IP。
F2特征数据普遍是从F1中削去采集源而建立的,其本质实现多源数据的融合。
在F2特征数据的基础上,进一步分组聚合可产生F3特征数据:
存储分区-域名:域名单分区基础特征统计。从存储分区-请求IP-域名-服务IP针对存储分区和域名分组聚合而来,可选的特征除存储分区-请求IP-域名-服务IP的特征外,还包括请求IP去重计数、服务IP去重计数。另外,基于F2层的存储分区-域名-解析值数据,可以获得各个域名值各类型的解析值数量,如解析IP数量(解析IP去重数量)、CNAME去重数量、NS去重数量等,这些统计量也构成了域名的特征。
存储分区-服务IP:服务IP单分区基础特征统计。从存储分区-请求IP-域名-服务IP针对存储分区和域名分组聚合而来,可选的特征除存储分区-请求IP-域名-服务IP的特征外,还包括域名去重计数、请求IP去重计数、服务IP的IP信息(归属地,运营商,网络号,有条件时可包含IP画像信息)。
存储分区-请求IP:请求IP单分区基础特征统计。从存储分区-请求IP-域名-服务IP针对存储分区和域名分组聚合而来,可选的特征除存储分区-请求IP-域名-服务IP的特征外,还包括域名去重计数、服务IP去重计数、请求IP的IP信息(归属地,运营商,网络号,有条件时可包含IP画像信息)。
F3的本质是从多元组中抽取个体。以上分组方式均对应于,在单个时间分区内,将多元组特征聚合为建立对单个对象的区特征。F2出现域名-请求IP-服务IP三元组分组方式的最终目的还是为了从域名、请求IP、服务IP三个维度分别分组。之所以要增加一步间接的三元组分组,是为了减少访问原始日志的次数,为计算性能妥协。
在F3特征数据的基础上,进一步分组聚合可产生F4特征数据:
域名-解析值:形成跨存储分区的域名解析值知识库。可选特征为,记录计数,最早发现日期及最后发现日期。基于最早及最后发现时间这对特征,可实现一种对域名-解析值的老化机制,将长期不活跃的域名-解析值关系对进行淘汰。
域名:域名跨分区特征。针对各个域名值,跨存储分区融合多个存储分区-域名,可得到跨分区高级特征,如访问量环比增速,最早发现日期,最后发现日期。针对该域名值最新的存储分区-域名对应的特征自动继承给域名。
F4数据的本质是建立跨分区高级特征。
在F4特征数据的基础上,进一步分组聚合可产生F5特征数据:
主域名:在域名基础上提炼主域名实体的相关特征。例如,一个主域名的记录计数就是该主域名所对应的所有域名值的记录计数之和。而主域名值各类型的解析值数量,也等于该主域名对应的各域名的各类解析值数量之和。
F5数据的本质是对F4中被统计对象的衍生体进行特征构造。
作为本发明的一个具体应用示例,如图2所示,采用本发明提供的方法对DNS日志数据进行统计特征抽取,得到特征数据,用于可疑域名和异常IP的发现。
可疑域名发现是在统计特征抽取的基础上,对域名记录集及主域名记录集调用各类异常检测模型,发现可疑域名。本发明不限制具体的异常检测算法,仅仅是给出调用异常检测算法的框架。
异常IP发现,从DNS日志中发现有行为异常的请求IP、服务IP、解析IP。这些异常IP被怀疑有恶意,或系恶意行为的受害者。在异常IP研判功能的基础上,安全分析人员可进一步发现这些异常背后的威胁实体。
作为本发明的一个具体应用示例,如图4所示,HLion以分层方式实现,上层的功能调用下层提供的服务进行实现。
在最底部的基础资源层,整合汇聚了各类计算、存储资源,如Apache Spark计算引擎,Hadoop分布式文件系统(HDFS),各类关系数据库和图数据库,以及一个提供Linux运行环境的IaaS(Infrastructure-as-a-Service)平台。
中间服务层运行基本的功能组件。大数据分析平台以底层的大数据计算及存储资源为基础,提炼出众多的数据分析算子,供更上层调用。这些算子涵盖了数据导入导出、结构化数据处理、流程控制及简单机器学习等功能,针对海量数据处理场景进行性能优化。由于日常处理海量数据,对计算操作的合法性检查较为严格,也会可疑限制可在本平台执行的算子。可用的算子经进一步封装后形成平台专用的可视化编程接口,研发人员只能通过平台专用的可视化编程接口开发数据分析模型,不得直接调用基础资源层提供的接口。精细分析环境基于IaaS提供的运算环境,相比大数据分析平台其算力较弱,但能提供更丰富灵活编程接口,允许用户直接安装和调用TensorFlow、Keras等开源分析工具,以实现复杂的分析逻辑。资源探测组件提供了探测或订阅威胁情报站的各类常用工具。知识库管理服务针对底层的各类存储进行封装,提供面向知识管理的高级数据访问接口。
基础资源层和中间服务层并非专为HLion系统服务,我们建议将同一个研发机构的IT资源进行整合,同时服务于多个业务系统。
业务功能层调用下层的服务进行实现HLion系统各个功能。
统计特征抽取子系统基于大数据分析平台实现。HLion输入的DNS日志分为C2F和C2R两类采集源。C2R只包含针对周知DNS服务器的流量,C2F则包含其他DNS服务器流量。C2F的数据量远大于C2R。采集源以天为单位对离线日志的存储进行分区,存放于HDFS。统计特征抽取功能以天为时间分区单位周期性执行统计特征抽取,计算过程通过调用大数据分析平台提供的结构化数据处理算子加以实现。
可疑域名发现子系统的M1运算部署于大数据分析平台,通过大数据分析平台提供的各类数据处理和机器学习算子实现。其中,DGA域名检测模型采用随机森林机器算法实现。可疑域名发现子系统的M2集成运算采用自适应加权集成策略,M2过滤运算串行采用了白名单过滤及阈值规模过滤策略。M3和M4运算则工作于精细分析环境。大数据分析平台提供的数据导出功能将M2层的结果导出到精细分析环境,供M3读取。M3层调用TensorFlow工具提供的LSTM算法实现了DGA域名检测模型。
异常IP发现功能工作于大数据分析平台。为节省资源计,异常请求IP统计研判只针对C2F数据源。异常解析IP统计研判仅针对C2R数据源。异常服务IP统计研判针对C2R和C2F数据源。
CTI查询研判功能目前采用VirusTotal作为CTI查询站,但可替换为任意提供威胁情报查询检索功能的站点,如ThreatBook等。从查询站获取的结果按照一个预先设计的本体模型存入知识库。知识库由基础资源层的NoSQL提供存储服务。
CTI订阅聚合功能搜集了上百个开源OSINT站点,自动化地提取恶意域名、恶意IP等信息。此外,还实现了针对一些网络安全资讯网站的爬虫,解析其中一些文章中提供的IoC列表。从各种订阅站获取的信息也按照预先设计的本体模型存入知识库。
SIEM的后台服务深入分析知识库中的威胁实体数据,执行入侵集聚类、入侵集扩线及量化评估等例行计算操作,并将计算结果写回知识库,丰富各类威胁的上下文信息。在知识库的基础上,运行一个可视化交互系统,同人类专家交互,实现诊断管理功能。另外,提供REST接口将知识库信息导出。
作为本发明的一个具体应用示例,本发明提供的方法可以用于构建异常IP发现系统。
上述异常IP发现系统具有异常请求IP统计研判功能。本功能尝试发现如下类型的请求IP:
DNS探测源。结合DNS日志,DNS探测源可能的特点包括:单位时间内域名请求次数较多;服务IP数量过大;域名请求中ANY/TXT类型的比重较大,发起请求次数远大于收到响应次数。结合FLOWLOG,DNS探测源可能的特点包括:单位时间上行流量过大;流量类型中ICMP、DNS等协议类型的比重较大,远大于HTTP/HTTPs类型;上行流量远大于下行流量;
DNS反射放大攻击受害者。结合DNS日志,DNS反射放大攻击的受害者可能的特点包括,单位时间内收到域名应答次数过多,收到应答次数远超发起响应次数;应答流量的总包长大于请求流量的总包长的10被以上;应答流量的对端IP同请求流量的对端IP交集过低;域名应答类型中ANY的比例过大。结合FLOWLOG,DNS反射放大攻击的受害者可能的特点包括,单位时间下行流量过大;下行流量远大于上行流量;下行流量的源IP数远大于上行流量的目的IP数且交集极低;DNS类型的流量占本IP总流量比重过大。结合FLOWLOG,亦有望检测DNS反射攻击之外的反射放大类DDoS攻击,如NTP、SSDP、ICMP等类型的反射放大攻击。
上述异常IP发现系统具有异常解析IP统计研判功能。本功能尝试发现如下类型的解析IP:
用于DNS污染的虚假解析IP。此任务每月选择单个分区执行一次。具体方法是,基于针对根域名服务器的请求,提取响应类型为A的记录对应的解析IP;
用于sinkhole的虚假解析IP。结合DNS日志,用于sinkhole的虚假解析IP可能的特点是,同一个解析IP关联到大量的二级域名(大于1千),但不会包含知名网站域名(流量排名TOP200以内);
用于域名劫持的虚假解析IP。注意我们认为用于DNS污染的虚假解析IP不属于此类。结合DNS日志,用于域名劫持的虚假解析IP可能的特点是:多个属于不同知名网站(流量排名TOP200以内)的域名解析到同一境外解析IP;将国内知名网站(流量排名TOP1000以内)或gov.cn网站的解析IP解析到境外解析IP;由非周知DNS服务器返回的境外解析IP,其结果与周知DNS服务器返回结果不同。上述条件任意满足一条即可;
CDN/云服务环境下的多租户ICP节点IP。此类IP的特点是:国内知名网站及政府网站的cname别名可解析到此类境内解析IP;同一境内解析IP对应多个能够解析到多个解析IP的CNAME域名。上述条件任意满足一条即可。
上述异常IP发现系统具有异常服务IP统计研判功能。本功能尝试发现如下类型的服务IP:
用于域名劫持的虚假DNS服务器。结合DNS日志,虚假DNS服务器可能的特点包括:不属于周知DNS服务器;请求量环比明显增大,从极小(小于500次)到可观(如大于1万次);服务IP归属地在境外;所返回的解析IP中属于用于域名劫持的虚假解析IP的比例超过10%;
遭受DDoS攻击的DNS服务器。结合DNS日志,遭受DDoS攻击的DNS服务器可能的特点包括:属于周知DNS服务器;服务IP归属地在境内;单位时间内请求流量较大(如一小时内大于1Gbps或单日大于500Mbps);流量或请求数出现同比访问量异常(如大于2倍);请求IP发起的平均流量水平较高(如大于1Mbps)。
本说明书中上述方法的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。相关之处参见方法实施例的部分说明即可。
需要说明的是,尽管在附图中以特定顺序描述了本发明方法的操作,但这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然本申请提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。
上述实施例阐明的单元、装置或模块等,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
以上所述的具体实施例,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施例而已,并不用于限定本申请的保护范围,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (8)
1.一种面向威胁检测的DNS日志统计特征抽取方法,其特征在于,所述方法包括:
对DNS日志数据中若干特征字段的联合取值执行分组聚合统计,形成多级特征数据,得到DNS日志统计特征。
2.根据权利要求1所述的面向威胁检测的DNS日志统计特征抽取方法,其特征在于,所述DNS日志数据包括DNS日志和对DNS日志进行分组聚合统计后得到的中间结果数据。
3.根据权利要求1所述的面向威胁检测的DNS日志统计特征抽取方法,其特征在于,所述DNS日志记录中的特征字段包括方向、请求类型、响应类型、客户端IP、DNS服务器IP、TTL时间、被请求域名、被请求域名的主域名、包长、应答值、附加应答值。
4.根据权利要求1所述的面向威胁检测的DNS日志统计特征抽取方法,其特征在于,所述分组聚合统计过程如下:
5.根据权利要求4所述的面向威胁检测的DNS日志统计特征抽取方法,其特征在于,所述特征算子包括记录数、条件记录数、某字段的统计值、某字段的条件统计值。
6.根据权利要求1所述的面向威胁检测的DNS日志统计特征抽取方法,其特征在于,所述多级特征数据包括五级特征数据。
7.根据权利要求6所述的面向威胁检测的DNS日志统计特征抽取方法,其特征在于,所述五级特征数据抽取方法如下:
一级分组聚合;以各个采集源的DNS日志为基础,抽取部分实体作为分组实体,计算响应分组的若干聚合特征,得到“采集源-存储分区-请求IP-域名-服务IP”、“采集源-存储分区-域名-解析值”、“采集源-存储分区-时段-请求IP”一级分组聚合特征数据;
二级分组聚合;在一级分组聚合得到的分组聚合特征数据的基础上,再次分组聚合,得到“存储分区-请求IP-域名-服务IP”、“存储分区-域名-解析值”、“存储分区-时段-请求IP”二级分组聚合特征数据;
三级分组聚合;在二级分组聚合得到的分组聚合特征数据的基础上,再次分组聚合,得到“存储分区-域名”、“存储分区-服务IP”、“存储分区-请求IP”三级分组聚合特征数据;
四级分组聚合;在三级分组聚合得到的分组聚合特征数据的基础上,再次分组聚合,得到“域名-解析值”、“域名”四级分组聚合特征数据;
五级分组聚合;在四级分组聚合特征数据“域名”基础上提炼主域名实体的相关特征,得到“主域名”五级分组聚合特征数据。
8.一种计算机可读存储介质,其特征在于,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011507902.6A CN112769755A (zh) | 2020-12-18 | 2020-12-18 | 一种面向威胁检测的dns日志统计特征抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011507902.6A CN112769755A (zh) | 2020-12-18 | 2020-12-18 | 一种面向威胁检测的dns日志统计特征抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112769755A true CN112769755A (zh) | 2021-05-07 |
Family
ID=75694967
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011507902.6A Pending CN112769755A (zh) | 2020-12-18 | 2020-12-18 | 一种面向威胁检测的dns日志统计特征抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112769755A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115334039A (zh) * | 2022-08-09 | 2022-11-11 | 北京天融信网络安全技术有限公司 | 一种基于人工智能模型的特征构建方法及装置 |
CN115499166A (zh) * | 2022-08-22 | 2022-12-20 | 中国南方电网有限责任公司超高压输电公司 | 网络空间防护系统 |
-
2020
- 2020-12-18 CN CN202011507902.6A patent/CN112769755A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115334039A (zh) * | 2022-08-09 | 2022-11-11 | 北京天融信网络安全技术有限公司 | 一种基于人工智能模型的特征构建方法及装置 |
CN115334039B (zh) * | 2022-08-09 | 2024-02-20 | 天融信雄安网络安全技术有限公司 | 一种基于人工智能模型的特征构建方法及装置 |
CN115499166A (zh) * | 2022-08-22 | 2022-12-20 | 中国南方电网有限责任公司超高压输电公司 | 网络空间防护系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12047396B2 (en) | System and method for monitoring security attack chains | |
US11750659B2 (en) | Cybersecurity profiling and rating using active and passive external reconnaissance | |
US20220014560A1 (en) | Correlating network event anomalies using active and passive external reconnaissance to identify attack information | |
US20200389495A1 (en) | Secure policy-controlled processing and auditing on regulated data sets | |
CA3028273C (en) | Cybersecurity system | |
CN108881265B (zh) | 一种基于人工智能的网络攻击检测方法及系统 | |
US12058177B2 (en) | Cybersecurity risk analysis and anomaly detection using active and passive external reconnaissance | |
US20180248902A1 (en) | Malicious activity detection on a computer network and network metadata normalisation | |
US20120011590A1 (en) | Systems, methods and devices for providing situational awareness, mitigation, risk analysis of assets, applications and infrastructure in the internet and cloud | |
CN106778253A (zh) | 基于大数据的威胁情景感知信息安全主动防御模型 | |
CN109684052B (zh) | 事务分析方法、装置、设备及存储介质 | |
CN104246786A (zh) | 模式发现中的字段选择 | |
CN112738040A (zh) | 一种基于dns日志的网络安全威胁检测方法、系统及装置 | |
CN112822153A (zh) | 基于dns日志的可疑威胁发现方法和系统 | |
US9961047B2 (en) | Network security management | |
CN112416872A (zh) | 一种基于大数据的云平台日志管理系统 | |
CN112769755A (zh) | 一种面向威胁检测的dns日志统计特征抽取方法 | |
El Arass et al. | Smart SIEM: From big data logs and events to smart data alerts | |
Las-Casas et al. | A big data architecture for security data and its application to phishing characterization | |
Jaaz et al. | Database techniques for resilient network monitoring and inspection | |
Fetjah et al. | Toward a big data architecture for security events analytic | |
Vianello et al. | A scalable SIEM correlation engine and its application to the olympic games IT infrastructure | |
RU180789U1 (ru) | Устройство аудита информационной безопасности в автоматизированных системах | |
CN105493096A (zh) | 分布式模式发现 | |
Xu et al. | [Retracted] Method of Cumulative Anomaly Identification for Security Database Based on Discrete Markov chain |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210507 |