CN111935136A - 基于dns数据分析的域名查询与解析异常检测系统及方法 - Google Patents

基于dns数据分析的域名查询与解析异常检测系统及方法 Download PDF

Info

Publication number
CN111935136A
CN111935136A CN202010789093.6A CN202010789093A CN111935136A CN 111935136 A CN111935136 A CN 111935136A CN 202010789093 A CN202010789093 A CN 202010789093A CN 111935136 A CN111935136 A CN 111935136A
Authority
CN
China
Prior art keywords
domain name
dns
query
data
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010789093.6A
Other languages
English (en)
Other versions
CN111935136B (zh
Inventor
卓子寒
张翀
邢潇
余翔湛
李康
叶麟
史建焘
刘立坤
杨宸
王璞
刘睿
吕欣润
谷杰铭
张奕欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
National Computer Network and Information Security Management Center
Original Assignee
Harbin Institute of Technology
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology, National Computer Network and Information Security Management Center filed Critical Harbin Institute of Technology
Priority to CN202010789093.6A priority Critical patent/CN111935136B/zh
Publication of CN111935136A publication Critical patent/CN111935136A/zh
Application granted granted Critical
Publication of CN111935136B publication Critical patent/CN111935136B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明是基于DNS数据分析的域名查询与解析异常检测,尤其涉及域名解析协议,属于互联网领域,目的是为了解决变化的恶意攻击行为以及DNS的恶意域变化的恶意攻击行为等问题。本发明包括搜索引擎查询主域名地址,收集域名信息,对DNS记录批量查及数据入库和数据分析,提供有关DNS查询和响应方面的客户端的详细信息;对得到的信息数据预处理,通过聚类分析获得时间特征进行解析,从而得到判断网络状态的数据并对数据进行最后的分析处理。域名查询与解析异常检测能寻找出更具描述性的特征,针对当前网络攻击的动态性和复杂性,使DNS的恶意域检测更为清晰,判断准确。

Description

基于DNS数据分析的域名查询与解析异常检测系统及方法
技术领域
本发明是基于DNS数据分析的域名查询与解析异常检测系统及方法,尤其涉及域名解析协议,属于互联网领域。
背景技术
域名解析协议是互联网的重要组成部分,它将难以通信的互联网协议地址映射到易于记忆的域名,从而提供全球性的、分布式的,以及基于关键字的重定向服务。与其他方法相比,通过分析DNS数据来检测恶意域具有许多优点:首先,DNS数据仅构成整个网络流量的一小部分,缓存有助于进一步减少需要分析的数据量,甚至能直接分析进入顶级域名的DNS流量。其次,DNS流量包含大量有意义的特征,可以被用来识别与恶意活动相关的域名。大量的特征和流量数据使得DNS流量成为应用于安全环境的各种机器学习技术的主要候选者。最后,由于恶意攻击行为在DNS数据中遗留了一些痕迹,研究人员能够在早期甚至攻击发生之前就发现恶意活动。
DNS异常检测是动态监视计算机系统或网络中发生的事件的过程,分析它们是否存在可能或已经导致入侵发生的恶意域。由于大多数传统识别技术都无法应对计算机网络上的网络攻击的动态性和复杂性,DNS异常检测通常需要通过自动从各种系统和网络源收集信息,然后分析信息以找到可能存在的安全问题来完成。域名系统是用于计算机、服务或连接到互联网的任何资源的分层分布式命名系统。通过提供全球性的、分布式的重定向服务,DNS成为了互联网的重要组成部分。随着网络流量和网络拓扑的复杂性不断增加,DNS服务中经常会出现问题。
关于DNS异常检测研究现状,Jung等人提出了一种通过DNS查询流量检测SMTP客户端异常的新方法。Lshibashi等人提出了一种通过研究ISP DNS来发现垃圾邮件发件人的方法。但在某种情况下,DNS本身可能是互联网攻击的一部分,如DDoS和DNS缓存中毒。
Wang等人提出了一种数学方法来检测全国范围内对互联网的大规模攻击,通过建立协方差矩阵,记录在不同时间戳处的两个不同省份发生的查询量之间的协方差。平均协方差矩阵表示正常情况,如果当前协方差矩阵显著偏离平均协方差,则可能发生异常事件。此方法适用于全国范围内的攻击,但是未能检测到针对特定域名的攻击。Xu等人改进了RIPPER算法以检测僵尸网络,僵尸网络通常用于恶意活动,例如DDoS、垃圾邮件、网络钓鱼等。该算法在发现访问量较少的域名方面优于传统算法,例如功能匹配或统计方法。
Ji等人提出了一种基于k均值聚类的算法来聚类IP地址和域名的时间行为,最后将域名分为四个聚簇。该方法并非比较不同域名上产生的流量,而是对一组派生变量进行聚类,例如DNS请求总数、源IP数量,以及两个DNS请求之间的平均时间间隔等,最后也得出了有趣的结果。
Cui等人探索了各种现有的数据挖掘方法,并提出了两种新方法,从庞大的DNS日志数据中挖掘出有用的模式。首先,提出了一种频繁情节的挖掘算法,通过预测传入的查询量来检测异常。其次,利用DBSCAN聚类算法将查询量时间序列的数据划分为聚类,并对每个聚类进行进一步分析和研究。最后,提出了一种在查询序列数据库中发现一致情节的方法。
国内外基于DNS的恶意域检测算法非常丰富,不过随着时间的推移,变化的恶意攻击行为迫使研究人员需要寻找更具描述性的特征,即使用从高维数据中自动获取知识的机器学习方法。开发用于检测恶意域的大多数方法都是以数据驱动,其核心是机器学习算法。
发明内容
为了解决DNS的恶意域以及变化的恶意攻击行为等问题,本发明提供一种基于DNS数据分析的域名查询与解析异常检测系统及方法,具体方案如下:
方案一:基于DNS数据分析的域名查询与解析异常检测系统包括DNS数据分析的域名查询异常检测模块和解析异常检测模块两部分;
域名查询异常检测模块用于收集域名信息、DNS记录批量查询和数据入库分析;
解析异常检测模块用于域名异常查询检测、数据预处理、聚类分析和结果分析。
方案二:基于DNS数据分析的域名查询与解析异常检测方法,是基于上述系统实现的,具体方法步骤如下:
步骤一,搜索引擎查询主域名地址,通过全网DNS反解析、全网IP扫描http端口;
步骤二,域名解析异常检测包括收集域名信息,然后对DNS记录批量查及数据入库和数据分析;
步骤三,异常查询检测由于DNS基础结构的分布式特性,考虑多个位置来收集有关DNS查询和回复的信息,通过解析器是访问直接来自客户端计算机的查询的位置,提供有关DNS查询和响应方面的客户端的详细信息;
步骤四,数据预处理为特征提取,从原始数据中提取出能够准确放映用户访问模式的时间行为特征,依次计算每个IP的时间特征,先从流量日志数据中提取出能够准确反映用户访问模式的时间行为特征,将DNS日志中的所有域名信息进行规约处理
步骤五,聚类分析,其中的聚类算法包括基于距离的k-means算法和层次聚类算法,通过算法将获得的时间特征进行解析,从而得到判断网络状态的数据;
步骤六,对上述解析后的数据通过比对分析进行最终的判断。
进一步地,步骤一中所述的子域名收集的方法,是通过进行手工分析,包括Web子域名猜测与实际访问尝试、反查Whois获得关联域名信息,搜索引擎查询主域名地址,然后进行全网DNS反解析和全网IP扫描http端口。
进一步地,所述的子域名收集的方法或者借助子域名爆破工具进行分析,向预定的搜索引擎发送子域名搜索请求,在搜索请求中包含相关联的域名关键字;对返回的响应页面进行正则匹配,从页面中提取出该域名所关联的所有子域名,对于一个域名,至少需要获取前100个搜索页面中包含的子域名;子域名爆破工具subDomainsBrute依赖于dnspython插件,其使用小字典递归地发现三级域名、四级域名,使用114DNS、百度DNS、阿里DNS的Public DNS查询,并且自动去重泛解析的域名。
进一步地,步骤二中域名解析异常检测的中的数据分析包括IP次数分析和泛解析分析,首先准备域名集合keys,针对每一个域名key查询其DNS资源记录,判断查询所得资源记录是否为A类或CNAME类记录,如果是A类或CNAME类记录则资源记录信息保存到数据库中,反之则不做记录,最后针对收集到的所有子域名进行恶意泛解析分析,通过恶意泛解析分析能够找到存在恶意泛解析风险的域,并且能够发现部分受到恶意泛域名解析的网站采取相应的解决方案。
进一步地,步骤三中,异常查询检测由于DNS基础结构的分布式特性,考虑多个位置来收集有关DNS查询和回复的信息;在所涉及的所有服务器中,通过解析器访问直接来自客户端计算机的查询的位置,提供有关DNS查询和响应方面的客户端的详细信息;
关于原始DNS流量日志的处理,先从流量日志数据中提取出能够准确反映用户访问模式的时间行为特征,再提前将DNS日志中的所有域名信息进行规约处理。
进一步地,步骤四中,数据预处理即特征提取,需要从原始数据中提取出能够准确放映用户访问模式的时间行为特征,从日志数据中探寻用户的访问模式,即查询时间、域名、IP地址,每一条DNS查询记录对应一次IP对域名的访问动作,针对每一个IP,需要提取的行为特征为:
查询的次数为一分钟内IP用户向系统提交域名查询的总次数;
查询的域名数为一分钟内IP用户向系统查询的不同域名的总次数;
对同一域名的重复查询最大、最小和平均数值;
查询时间间隔中最大、最小和平均的时间间隔;
最后将DNS日志文件中出现的所有域名信息首先进行统一合并处理,规约为二级域名或CN下的41个类别和行政区的三级域名,以达到压缩数据的目的;
数据预处理中,首先获得IP地址集合,然后对集合中每一个IP地址分别计算其行为特征:获取该IP所对应的原数据集子表,提取子表中的查询时间列,写入文件;获取查询域名列,得到域名列表,去重后的集合大小即为查询域名总数,对域名列表进行统计,即可得到域名重复查询特征,最后统一处理时间查询表,依次计算每个IP的时间查询特征;
并且查询时间序列需要分文件存储,每个IP对应的文件名为该IP网络字节序的哈希值,将不同文件预处理后的数据进行整合得到一个文件,并合并IP相同的数据记录,除时间间隔外的IP行为特征从细粒度进行统计,时间间隔特征从粗粒度进行统计;
其中时间特征提取,包括针对每一个IP地址,找到其查询时间序列所在的文件,遍历该文件后得到该IP的查询时间序列;根据查询时间序列,可以计算相邻查询的时间间隔从而得到时间间隔表;最后通过时间间隔表即可统计出最大、最小、平均时间间隔。
进一步地,步骤五中,所述的聚类分析算法采用k-means算法和层次聚类两种,并设计了两种聚类算法的混合算法;
所述的k-means算法是基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大,该算法认为簇是由距离相近的对象组成的,因此把得到紧凑且独立的簇作为最终目标,给定样本集D={x1,x2,...,xm},k-means算法针对聚类所得簇划分C={C1,C2,...,Cm}最小化平方误差
Figure BDA0002623118420000041
其中
Figure BDA0002623118420000042
是簇Ci的均值向量,E值越小,簇内样本相似度越高;
所述的层次聚类是聚类算法的一种,通过计算不同类别数据点之间的相似度来创建一棵有层次的嵌套聚类树,在聚类树中,不同类别的原始数据点是树的最低层,树的顶层是一个聚类的根节点,创建聚类树有自底向上合并和自顶向下分裂两种方法;层次聚类的合并算法通过计算两类数据点间的相似性,对所有数据点中最为相似的两个数据点进行组合,并反复迭代这一过程,通过计算每一个类别的数据点与所有数据点之间的距离来确定它们之间的相似性,距离越小,相似度越高,并将距离最近的两个数据点或类别进行组合,生成聚类树。
进一步地,聚类算法中计算两个组合数据点间距离的方法有三种,分别为SingleLinkage,Complete Linkage和Average Linkage;
Single Linkage方法是将两个组合数据点中距离最近的两个数据点间的距离作为这两个组合数据点的距离,计算公式如下:
Figure BDA0002623118420000051
Complete Linkag的计算方法将两个组合数据点中距离最远的两个数据点间的距离作为这两个组合数据点的距离,计算公式如下:
Figure BDA0002623118420000052
Average Linkage的计算方法是计算两个组合数据点中的每个数据点与其他所有数据点的距离,将所有距离的均值作为两个组合数据点间的距离,计算公式如下:
Figure BDA0002623118420000053
层次聚类是一种“贪心算法”,算法的可解释性较好,能够产生高质量的聚类;与k均值聚类的不同之处在于,层次聚类的时间复杂度为O(m3),改进后的算法时间复杂度为O(m2logm),其中m为点的个数;
先后使用三种算法对数据集进行训练,首先使用k均值聚类,k值的选取由肘部法则确定,得到最终的簇划分,然后使用层次聚类,k值与k均值聚类所选值相同,并使用三种距离度量分别做对照实验,得到最终的簇划分;最后采用k均值聚类与层次聚类的分步结合,得到最终的簇划分,并对划分结果做进一步分析,得到恶意域特征表现;选用Calinski-Harabasz指标和轮廓系数silhouette对聚类结果进行评估;Calinski-Harabasz(CH)指标的公式表示为:
Figure BDA0002623118420000054
其中,n表示聚类的数目,k表示当前的类,trB(k)表示类间离差矩阵的迹,trW(k)表示类内离差矩阵的迹,CH越大,代表类自身越紧密,类之间越分散,即为更优的聚类结果;
轮廓系数silhouette衡量一个节点与它所属聚类相较于其他聚类的相似程度,取值范围为-1到1,值越大表明这个节点更加匹配其所属聚类,而非其他相邻聚类;如果大多数节点都有很高的silhouette值,说明聚类结果较优;轮廓系数结合了凝聚度和分离度,scikit-learn中的轮廓系数计算的是所有样本的平均值,要求聚类数大于2,小于样本数-1。
进一步地,步骤六中,所述的结果分析包括k-means算法聚类选取k值范围为1-9,通过肘部曲线确定k的最佳选择为4或7;由于数据量较小,所以k选择为4,再次进行聚类,并得到4个聚簇中心点;
当k值选择为4时,CH值为5022,整体轮廓系数为0.59,统计每一个聚簇内点的个数,得到分类数据,对于k-means聚类结果,分析各类特征如下:
类1中IP访问次数非常大,并且重复访问较多,访问时间间隔较短,频率较高;
类2中IP访问次数最少,且均为单次查询,时间间隔较长,并且时间间隔的方差较小;
类3中IP访问次数大于类2,但仍然远小于类1和类4,重复访问较少,时间间隔变化较大;
类4中IP访问次数较大,重复访问较少,时间间隔介于类1和类2之间。
本发明的有益效果体现在:
开发用于检测恶意域的大多数方法都是以数据驱动,其核心是机器学习算法,
由于域名系统的重要作用,恶意活动在DNS查询和响应的生命周期中的不同阶段所反映的独特行为已经成为恶意域识别的主要依据,为了抵御利用恶意域进行的网络攻击行为,考虑到域名系统的重要性,提供更有效的基于DNS数据分析的恶意域检测方法。
基于恶意泛解析分析的域名解析异常检测,利用搜索引擎收集子域名信息,完成DNS记录的批量查询及存储。通过泛解析分析,从大量高价值域名中挖掘到了存在泛解析风险的少量可疑恶意域。
基于聚类分析的域名查询异常检测,针对每一个用户IP,提取其行为特征:查询次数、查询域名数、对同一域名的重复查询数、查询时间间隔。
单独使用k-means聚类效果较好,不同聚簇所反映的特征区别明显,层次聚类不适用于此数据集,容易出现过拟合现象。聚类组合算法中,先后使用层次聚类与k-means聚类对数据集进行处理,评估结果较好,因其具有用户IP短时间内发出大量连续相同请求等恶意行为特征针对划分结果进一步分析可以精准地发现可疑域。
附图说明
图1域名解析异常检测流程图;
图2是子域名收集流程图;
图3是域名查询异常检测流程图;
图4是k-means聚类示例图;
图5是层次聚类示例图;
图6是聚类分析流程图;
图7是肘部曲线k均值聚类图;
图8是肘部曲线聚类组合图。
具体实施方式
具体实施方式一:基于DNS数据分析的域名查询与解析异常检测系统结合图1-图8所述,包括DNS数据分析的域名查询异常检测模块和解析异常检测模块两部分;
域名查询异常检测模块用于收集域名信息、DNS记录批量查询和数据入库分析;
解析异常检测模块用于域名异常查询检测、数据预处理、聚类分析和结果分析。
具体实施方式二:基于DNS数据分析的域名查询与解析异常检测方法结合图1-图8所述,具体实施步骤如下:
步骤一,搜索引擎查询主域名地址,通过全网DNS反解析、全网IP扫描http端口;
步骤二,收集域名信息,然后对DNS记录批量查及数据入库和数据分析;
步骤三,通过解析器是访问直接来自客户端计算机的查询的位置,提供有关DNS查询和响应方面的客户端的详细信息;
步骤四,从原始数据中提取出能够准确放映用户访问模式的时间行为特征,依次计算每个IP的时间特征;
步骤五,聚类算法包括基于距离的k-means算法和层次聚类算法,通过算法将获得的时间特征进行解析,从而得到判断网络状态的数据;
步骤六,对上述解析后的数据通过比对分析进行最终的判断。
具体实施方式三:根据具体实施方式一的步骤一所述,所述的子域名收集的方法还包括进行手工分析,比如Web子域名猜测与实际访问尝试、反查Whois获得关联域名信息、搜索引擎查询主域名地址、全网DNS反解析、全网IP扫描http端口,或者借助子域名爆破工具进行分析,向预定的搜索引擎发送子域名搜索请求,在搜索请求中包含相关联的域名关键字;对返回的响应页面进行正则匹配,从页面中提取出该域名所关联的所有子域名,对于一个域名,至少需要获取前100个搜索页面中包含的子域名;
子域名爆破工具subDomainsBrute依赖于dnspython插件,其使用小字典递归地发现三级域名、四级域名,默认使用114DNS、百度DNS、阿里DNS几个快速且可靠的Public DNS查询,并且自动去重泛解析的域名。
具体实施方式四:根据具体实施方式一的步骤二所述,还包括收集域名信息、DNS记录批量查询及数据入库、数据分析,其中数据分析包括IP次数分析和泛解析分析;
首先准备域名集合keys,针对每一个域名key查询其DNS资源记录,判断查询所得资源记录是否为A类或CNAME类记录,如果是A类或CNAME类记录则资源记录信息保存到数据库中,最后针对收集到的所有子域名进行恶意泛解析分析。通过恶意泛解析分析能够找到存在恶意泛解析风险的域,并且能够发现部分受到恶意泛域名解析的网站采取了相应的解决方案。
资源记录是一个包含了下列字段的4元组:(Name,Value,Type,TTL)。TTL是该记录的生存时间,它决定了资源记录应当从缓存中删除的时间。Name和Value字段的值取决于Type,其中Type有4种:A、NS、CNAME、MX。
如果Type=A,则Name是主机名,Value是该主机名对应的IP地址,例如(relay.example.com,145.37.93.123,A);
如果Type=NS,则Name是个域,而Value是知道如何获得该域中主机IP地址的权威DNS服务器的主机名,例如(example.com,dns.example.com,NS);
如果Type=CNAME,则Value是别名为Name的主机对应的规范主机名,例如(example.com,relay.example.com,CNAME);
如果Type=MX,则Value是别名为Name的邮件服务器的规范主机名,例如(example.com,mail.bar.example.com,MX)。
对于收集到的子域名,进行DNS记录批量查询及数据入库,只需要解析子域名的A类记录和CNAME类记录,忽略无法解析的域名。某些站点被攻击后,域名信息可能被恶意篡改,或被挟持域名。现在很多域名解析平台支持泛解析设置,例如,在添加A类记录时,主机记录若填写“*”就实现了泛解析。一旦域名被挟持,就会快速在域名下生成众多的二级域名、三级域名等。针对开启泛解析的网站,对比正常解析与泛解析结果的差异,从而判断该网站DNS是否被恶意修改。另外,可以根据正常解析与泛解析的地理位置的差异,判断并分析恶意域。较多恶意域解析后的地理位置位于境外。
具体实施方式五:关于异常查询检测,由于DNS基础结构的分布式特性,可以考虑多个位置来收集有关DNS查询和回复的信息。在所涉及的所有服务器中,解析器是唯一可以访问直接来自客户端计算机的查询的位置,提供有关DNS查询和响应方面的客户端的详细信息。这个实验中,主要的数据来源是信息中心某段连续时间内的DNS流量日志数据。
原始的DNS日志数据不能直接用于机器学习算法之中,第一步应该先从流量日志数据中提取出能够准确反映用户访问模式的时间行为特征。另外,域名的种类过多,并且有些的域名长度过长,不利于后面进行的数据分析。为了压缩数据,需要提前将DNS日志中的所有域名信息进行规约处理。聚类算法主要采用k均值聚类和层次聚类两种,并设计了两种聚类算法的混合算法。
具体实施方式六:关于数据预处理,所述的预处理即为特征提取,需要从原始数据中提取出能够准确放映用户访问模式的时间行为特征,特征提取是一项具有挑战性的任务,它对检测方法的质量(准确性和稳健性)有很大的影响。精心设计的特征极大地促进了方法的成功,相反,较差的特征甚至可能会破坏良好的检测算法。因此,成功的检测方法在选择其特征时必须考虑精确性和稳健性之间的平衡。
原始DNS日志数据中,每一条记录有以下特征:
DEVID UPDATE_TIME DOMAIN SOURCE_IP SERVER_IP ACCOUNT POSITION_SRC POSITION_SVR OP_POS_SVR MAC SPORT DPORT
从日志数据中探寻用户的访问模式,需要使用的有效特征为(UPDATE_TIME,DOMAIN,SOURCE_IP),即查询时间、域名、IP地址。每一条DNS查询记录对应一次IP对域名的访问动作,针对每一个IP,需要提取的行为特征为:
查询的次数(一分钟内IP用户向系统提交域名查询的总次数)
查询的域名数(一分钟内IP用户向系统查询的不同域名的总次数)
对同一域名的重复查询数(最大/最小/平均)
查询时间间隔(最大/最小/平均)
将DNS日志文件中出现的所有域名信息首先进行统一合并处理,规约为二级域名或CN下的41个类别和行政区的三级域名,以达到压缩数据的目的。例如,日志中对门户网站新浪的访问www.sina.com.cn、finance.sina.com.cn、mail.sina.com.cn等都被规约为三级域名sina.com.cn。
数据预处理中,首先获得IP地址集合,然后对集合中每一个IP地址分别计算其行为特征:获取该IP所对应的原数据集子表,提取子表中的查询时间列,写入文件;获取查询域名列,得到域名列表,去重后的集合大小即为查询域名总数,对域名列表进行统计,即可得到域名重复查询特征。最后统一处理时间查询表,依次计算每个IP的时间查询特征。
由于总查询次数较大,查询时间序列需要分文件存储。每个IP对应的文件名为该IP网络字节序的哈希值。将不同文件预处理后的数据进行整合得到一个文件,并合并IP相同的数据记录。除时间间隔外的IP行为特征从细粒度进行统计,时间间隔特征从粗粒度进行统计。
时间特征提取步骤为:针对每一个IP地址,找到其查询时间序列所在的文件,遍历该文件后得到该IP的查询时间序列;根据查询时间序列,可以计算相邻查询的时间间隔从而得到时间间隔表;最后通过时间间隔表即可统计出最大、最小、平均时间间隔。
具体实施方式七:针对域名查询与解析异常检测,通过聚类分析,在无监督学习中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础。此类学习任务中,研究最多、应用最广的是“聚类”。在聚类算法中,根据样本之间的相似性,将样本划分到不同的类别中,对于不同的相似度计算方法,会得到不同的聚类结果,常用的相似度计算方法有欧氏距离法。
k-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离相近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。k-means算法是一种“启发式算法”,对于大型数据集具有简单高效、时间复杂度和空间复杂度较低等优点。不过当数据集较大时,结果容易达到局部最优,并且需要预定设置k值,同时对初始的k个点选取很敏感。同时,k-means算法对噪声和离群值非常敏感,不能解决非凸数据。
给定样本集D={x1,x2,...,xm},k-means算法针对聚类所得簇划C={C1,C2,...,Cm}最小化平方误差:
Figure BDA0002623118420000101
其中
Figure BDA0002623118420000102
是簇Ci的均值向量;E值越小,簇内样本相似度越高。
最小化上述公式是一个NP难问题,k均值算法采用了贪心策略,通过迭代优化来近似求解式。该算法是一种“启发式算法”,对于大型数据集具有简单高效、时间复杂度和空间复杂度较低等优点。不过当数据集较大时,结果容易达到局部最优,并且需要预定设置k值,同时对初始的k个点选取很敏感,k-means算法对噪声和离群值非常敏感,不能解决非凸数据。
层次聚类是聚类算法的一种,通过计算不同类别数据点之间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中,不同类别的原始数据点是树的最低层,树的顶层是一个聚类的根节点。创建聚类树有自底向上合并和自顶向下分裂两种方法。层次聚类算法相比划分聚类算法的优点之一是可以在不同尺度上展示数据集的聚类情况。层次聚类的合并算法通过计算两类数据点间的相似性,对所有数据点中最为相似的两个数据点进行组合,并反复迭代这一过程。简单地说层次聚类的合并算法是通过计算每一个类别的数据点与所有数据点之间的距离来确定它们之间的相似性,距离越小,相似度越高。并将距离最近的两个数据点或类别进行组合,生成聚类树。
计算两个组合数据点间距离的方法有三种,分别为Single Linkage,CompleteLinkage和Average Linkage。
Single Linkage方法是将两个组合数据点中距离最近的两个数据点间的距离作为这两个组合数据点的距离。这种方法容易受到极端值的影响。两个很相似的组合数据点可能由于其中的某个极端的数据点距离较近而组合在一起。计算公式如下:
Figure BDA0002623118420000111
Complete Linkage的计算方法与Single Linkage相反,将两个组合数据点中距离最远的两个数据点间的距离作为这两个组合数据点的距离。Complete Linkage的问题也与Single Linkage相反,两个不相似的组合数据点可能由于其中的极端值距离较远而无法组合在一起。计算公式如下:
Figure BDA0002623118420000112
Average Linkage的计算方法是计算两个组合数据点中的每个数据点与其他所有数据点的距离。将所有距离的均值作为两个组合数据点间的距离。这种方法计算量比较大,但结果比前两种方法更合理。计算公式如下:
Figure BDA0002623118420000121
层次聚类是一种“贪心算法”,算法的可解释性较好,能够产生高质量的聚类;与k均值聚类的不同之处在于,层次聚类的时间复杂度为O(m3),改进后的算法时间复杂度为O(m2logm),其中m为点的个数;
先后使用三种算法对数据集进行训练。首先使用k均值聚类,k值的选取由肘部法则确定,得到最终的簇划分。然后使用层次聚类,k值与k均值聚类所选值相同,并使用三种距离度量分别做对照实验,得到最终的簇划分。最后采用k均值聚类与层次聚类的分步结合,得到最终的簇划分,并对划分结果做进一步分析,得到恶意域特征表现。
选用Calinski-Harabasz指标和轮廓系数silhouette对聚类结果进行评估。Calinski-Harabasz(CH)指标的公式表示为:
Figure BDA0002623118420000122
其中,n表示聚类的数目,k表示当前的类,trB(k)表示类间离差矩阵的迹,trW(k)表示类内离差矩阵的迹。CH越大,代表类自身越紧密,类之间越分散,即为更优的聚类结果。
轮廓系数silhouette衡量一个节点与它所属聚类相较于其他聚类的相似程度,取值范围为-1到1,值越大表明这个节点更加匹配其所属聚类,而非其他相邻聚类。如果大多数节点都有很高的silhouette值,说明聚类结果较优。轮廓系数结合了凝聚度和分离度。scikit-learn中的轮廓系数计算的是所有样本的平均值,要求聚类数大于2,小于(样本数-1)。
具体实施方式八:最终得到计算后的各类数据进行结果分析,其中k-means聚类选取k值范围为1-9,通过肘部曲线确定k的最佳选择为4或7。由于数据量较小,所以k选择为4,再次进行聚类,并得到4个聚簇中心点;当k值选择为4时,CH值为5022,整体轮廓系数为0.59。统计每一个聚簇内点的个数,得到下表:
表1聚簇中心点
Figure BDA0002623118420000123
Figure BDA0002623118420000131
对于k-means聚类结果,分析各类特征如下:
类1中IP访问次数非常大,并且重复访问较多,访问时间间隔较短,频率较高;
类2中IP访问次数最少,且均为单次查询,时间间隔较长,并且时间间隔的方差较小;
类3中IP访问次数大于类2,但仍然远小于类1和类4,重复访问较少,时间间隔变化较大;
类4中IP访问次数较大,重复访问较少,时间间隔介于类1和类2之间。
根据聚簇特征的分析,错误数据、病毒或恶意攻击类型的查询位于类1之中,特点是访问次数特别大,重复数量较大,并且是在短时间内连续发出的相同请求。其他类中的查询为正常用户访问记录。
单独采用“自底向上”的层次聚类算法对数据进行聚类,选择多种不同连接标准的情况下,都不能得到较好的结果,会出现过拟合现象或者聚类特征不明显的现象。层次聚类在三种连接标准下的评估结果如下表所示:
表2层次聚类在三种标准下的评估结果
Figure BDA0002623118420000132
将所有IP行为特征的时间粒度都调整到统一的0.5h,首先用层次聚类算法使用时间间隔特征对数据集进行初步划分。对于层次聚类划分结果中的可疑聚簇组成新的数据集,使用k-means算法对查询次数特征进行聚类分析,根据肘部法则,应选择k值为7,分类结果的CH值为227203.47,整体轮廓系数为0.88。
表3聚簇中心点(聚类组合)
Figure BDA0002623118420000133
Figure BDA0002623118420000141
根据聚簇中心点所反映的特征,恶意域可能出现在类2/3/4/5/6中,一共26个源IP。查询并分析这26个源IP用户请求的域名的Whois信息,其中大部分为正常域,发现2个无法查询到Whois信息的可疑恶意域。用户对可疑恶意域的查询时间间隔短,查询频率高,在短时间内发出大量连续相同的请求,疑似错误请求或恶意攻击行为所导致。
以上实施例只是对本专利的示例性说明,并不限定它的保护范围,本领域技术人员还可以对其局部进行改变,只要没有超出本专利的精神实质,都在本专利的保护范围内。

Claims (10)

1.基于DNS数据分析的域名查询与解析异常检测系统,其特征在于:包括DNS数据分析的域名查询异常检测模块和解析异常检测模块两部分;
域名查询异常检测模块用于收集域名信息、DNS记录批量查询和数据入库分析;
解析异常检测模块用于域名异常查询检测、数据预处理、聚类分析和结果分析。
2.基于DNS数据分析的域名查询与解析异常检测方法,是基于权利要求1所述的系统实现的,其特征在于:具体方法步骤如下:
步骤一,搜索引擎查询主域名地址,通过全网DNS反解析、全网IP扫描http端口;
步骤二,域名解析异常检测包括收集域名信息,然后对DNS记录批量查及数据入库和数据分析;
步骤三,异常查询检测由于DNS基础结构的分布式特性,考虑多个位置来收集有关DNS查询和回复的信息,通过解析器是访问直接来自客户端计算机的查询的位置,提供有关DNS查询和响应方面的客户端的详细信息;
步骤四,数据预处理为特征提取,从原始数据中提取出能够准确放映用户访问模式的时间行为特征,依次计算每个IP的时间特征,先从流量日志数据中提取出能够准确反映用户访问模式的时间行为特征,将DNS日志中的所有域名信息进行规约处理
步骤五,聚类分析,其中的聚类算法包括基于距离的k-means算法和层次聚类算法,通过算法将获得的时间特征进行解析,从而得到判断网络状态的数据;
步骤六,对上述解析后的数据通过比对分析进行最终的判断。
3.根据权利要求2所述的基于DNS数据分析的域名查询与解析异常检测方法,其特征在于:步骤一中所述的子域名收集的方法,是通过进行手工分析,包括Web子域名猜测与实际访问尝试、反查Whois获得关联域名信息,搜索引擎查询主域名地址,然后进行全网DNS反解析和全网IP扫描http端口。
4.根据权利要求3所述的基于DNS数据分析的域名查询与解析异常检测方法,其特征在于:所述的子域名收集的方法或者借助子域名爆破工具进行分析,向预定的搜索引擎发送子域名搜索请求,在搜索请求中包含相关联的域名关键字;对返回的响应页面进行正则匹配,从页面中提取出该域名所关联的所有子域名,对于一个域名,至少需要获取前100个搜索页面中包含的子域名;子域名爆破工具subDomainsBrute依赖于dnspython插件,其使用小字典递归地发现三级域名、四级域名,使用114DNS、百度DNS、阿里DNS的Public DNS查询,并且自动去重泛解析的域名。
5.根据权利要求3所述的基于DNS数据分析的域名查询与解析异常检测方法,其特征在于:步骤二中域名解析异常检测的中的数据分析包括IP次数分析和泛解析分析,首先准备域名集合keys,针对每一个域名key查询其DNS资源记录,判断查询所得资源记录是否为A类或CNAME类记录,如果是A类或CNAME类记录则资源记录信息保存到数据库中,反之则不做记录,最后针对收集到的所有子域名进行恶意泛解析分析,通过恶意泛解析分析能够找到存在恶意泛解析风险的域,并且能够发现部分受到恶意泛域名解析的网站采取相应的解决方案。
6.根据权利要求5所述的基于DNS数据分析的域名查询与解析异常检测方法,其特征在于:步骤三中,异常查询检测由于DNS基础结构的分布式特性,考虑多个位置来收集有关DNS查询和回复的信息;在所涉及的所有服务器中,通过解析器访问直接来自客户端计算机的查询的位置,提供有关DNS查询和响应方面的客户端的详细信息;
关于原始DNS流量日志的处理,先从流量日志数据中提取出能够准确反映用户访问模式的时间行为特征,再提前将DNS日志中的所有域名信息进行规约处理。
7.根据权利要求6所述的基于DNS数据分析的域名查询与解析异常检测方法,其特征在于:步骤四中,数据预处理即特征提取,需要从原始数据中提取出能够准确放映用户访问模式的时间行为特征,从日志数据中探寻用户的访问模式,即查询时间、域名、IP地址,每一条DNS查询记录对应一次IP对域名的访问动作,针对每一个IP,需要提取的行为特征为:
查询的次数为一分钟内IP用户向系统提交域名查询的总次数;
查询的域名数为一分钟内IP用户向系统查询的不同域名的总次数;
对同一域名的重复查询最大、最小和平均数值;
查询时间间隔中最大、最小和平均的时间间隔;
最后将DNS日志文件中出现的所有域名信息首先进行统一合并处理,规约为二级域名或CN下的41个类别和行政区的三级域名,以达到压缩数据的目的;
数据预处理中,首先获得IP地址集合,然后对集合中每一个IP地址分别计算其行为特征:获取该IP所对应的原数据集子表,提取子表中的查询时间列,写入文件;获取查询域名列,得到域名列表,去重后的集合大小即为查询域名总数,对域名列表进行统计,即可得到域名重复查询特征,最后统一处理时间查询表,依次计算每个IP的时间查询特征;
并且查询时间序列需要分文件存储,每个IP对应的文件名为该IP网络字节序的哈希值,将不同文件预处理后的数据进行整合得到一个文件,并合并IP相同的数据记录,除时间间隔外的IP行为特征从细粒度进行统计,时间间隔特征从粗粒度进行统计;
其中时间特征提取,包括针对每一个IP地址,找到其查询时间序列所在的文件,遍历该文件后得到该IP的查询时间序列;根据查询时间序列,可以计算相邻查询的时间间隔从而得到时间间隔表;最后通过时间间隔表即可统计出最大、最小、平均时间间隔。
8.根据权利要求7所述的基于DNS数据分析的域名查询与解析异常检测方法,其特征在于:步骤五中,所述的聚类分析算法采用k-means算法和层次聚类两种,并设计了两种聚类算法的混合算法;
所述的k-means算法是基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大,该算法认为簇是由距离相近的对象组成的,因此把得到紧凑且独立的簇作为最终目标,给定样本集D={x1,x2,...,xm},k-means算法针对聚类所得簇划分C={C1,C2,...,Cm}最小化平方误差
Figure FDA0002623118410000031
其中
Figure FDA0002623118410000032
是簇Ci的均值向量,E值越小,簇内样本相似度越高;
所述的层次聚类是聚类算法的一种,通过计算不同类别数据点之间的相似度来创建一棵有层次的嵌套聚类树,在聚类树中,不同类别的原始数据点是树的最低层,树的顶层是一个聚类的根节点,创建聚类树有自底向上合并和自顶向下分裂两种方法;层次聚类的合并算法通过计算两类数据点间的相似性,对所有数据点中最为相似的两个数据点进行组合,并反复迭代这一过程,通过计算每一个类别的数据点与所有数据点之间的距离来确定它们之间的相似性,距离越小,相似度越高,并将距离最近的两个数据点或类别进行组合,生成聚类树。
9.根据权利要求8所述的基于DNS数据分析的域名查询与解析异常检测方法,其特征在于:聚类算法中计算两个组合数据点间距离的方法有三种,分别为Single Linkage,Complete Linkage和Average Linkage;
Single Linkage方法是将两个组合数据点中距离最近的两个数据点间的距离作为这两个组合数据点的距离,计算公式如下:
Figure FDA0002623118410000041
Complete Linkag的计算方法将两个组合数据点中距离最远的两个数据点间的距离作为这两个组合数据点的距离,计算公式如下:
Figure FDA0002623118410000042
Average Linkage的计算方法是计算两个组合数据点中的每个数据点与其他所有数据点的距离,将所有距离的均值作为两个组合数据点间的距离,计算公式如下:
Figure FDA0002623118410000043
层次聚类是一种“贪心算法”,算法的可解释性较好,能够产生高质量的聚类;与k均值聚类的不同之处在于,层次聚类的时间复杂度为O(m3),改进后的算法时间复杂度为O(m2logm),其中m为点的个数;
先后使用三种算法对数据集进行训练,首先使用k均值聚类,k值的选取由肘部法则确定,得到最终的簇划分,然后使用层次聚类,k值与k均值聚类所选值相同,并使用三种距离度量分别做对照实验,得到最终的簇划分;最后采用k均值聚类与层次聚类的分步结合,得到最终的簇划分,并对划分结果做进一步分析,得到恶意域特征表现;选用Calinski-Harabasz指标和轮廓系数silhouette对聚类结果进行评估;Calinski-Harabasz(CH)指标的公式表示为:
Figure FDA0002623118410000044
其中,n表示聚类的数目,k表示当前的类,trB(k)表示类间离差矩阵的迹,trW(k)表示类内离差矩阵的迹,CH越大,代表类自身越紧密,类之间越分散,即为更优的聚类结果;
轮廓系数silhouette衡量一个节点与它所属聚类相较于其他聚类的相似程度,取值范围为-1到1,值越大表明这个节点更加匹配其所属聚类,而非其他相邻聚类;如果大多数节点都有很高的silhouette值,说明聚类结果较优;轮廓系数结合了凝聚度和分离度,scikit-learn中的轮廓系数计算的是所有样本的平均值,要求聚类数大于2,小于样本数-1。
10.根据权利要求2所述的基于DNS数据分析的域名查询与解析异常检测方法,其特征在于:步骤六中,所述的结果分析包括k-means算法聚类选取k值范围为1-9,通过肘部曲线确定k的最佳选择为4或7;由于数据量较小,所以k选择为4,再次进行聚类,并得到4个聚簇中心点;
当k值选择为4时,CH值为5022,整体轮廓系数为0.59,统计每一个聚簇内点的个数,得到分类数据,对于k-means聚类结果,分析各类特征如下:
类1中IP访问次数非常大,并且重复访问较多,访问时间间隔较短,频率较高;
类2中IP访问次数最少,且均为单次查询,时间间隔较长,并且时间间隔的方差较小;
类3中IP访问次数大于类2,但仍然远小于类1和类4,重复访问较少,时间间隔变化较大;
类4中IP访问次数较大,重复访问较少,时间间隔介于类1和类2之间。
CN202010789093.6A 2020-08-07 2020-08-07 基于dns数据分析的域名查询与解析异常检测系统及方法 Active CN111935136B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010789093.6A CN111935136B (zh) 2020-08-07 2020-08-07 基于dns数据分析的域名查询与解析异常检测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010789093.6A CN111935136B (zh) 2020-08-07 2020-08-07 基于dns数据分析的域名查询与解析异常检测系统及方法

Publications (2)

Publication Number Publication Date
CN111935136A true CN111935136A (zh) 2020-11-13
CN111935136B CN111935136B (zh) 2022-05-20

Family

ID=73307060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010789093.6A Active CN111935136B (zh) 2020-08-07 2020-08-07 基于dns数据分析的域名查询与解析异常检测系统及方法

Country Status (1)

Country Link
CN (1) CN111935136B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112910929A (zh) * 2021-03-24 2021-06-04 中国科学院信息工程研究所 基于异质图表示学习的恶意域名检测方法及装置
CN113344059A (zh) * 2021-05-31 2021-09-03 武汉大学 一种基于时间序列的空间分析异常检测方法
CN113676562A (zh) * 2021-08-17 2021-11-19 平安普惠企业管理有限公司 短链请求收敛方法、装置、计算机设备和存储介质
CN114050912A (zh) * 2021-09-30 2022-02-15 中国科学院信息工程研究所 一种基于深度强化学习的恶意域名检测方法和装置
CN114172862A (zh) * 2021-11-30 2022-03-11 杭州安恒信息技术股份有限公司 一种域名筛选方法、系统、装置及计算机可读存储介质
CN114172707A (zh) * 2021-11-29 2022-03-11 北京恒安嘉新安全技术有限公司 Fast-Flux僵尸网络检测方法、装置、设备及存储介质
CN114244590A (zh) * 2021-12-07 2022-03-25 上海观安信息技术股份有限公司 Dns劫持监测方法及装置
CN114791981A (zh) * 2022-06-24 2022-07-26 山东欧通信息科技有限公司 一种基于互联网的档案咨询用数据查询管理系统
CN115001757A (zh) * 2022-05-12 2022-09-02 中国人民解放军国防科技大学 一种基于dns解析的主机异常行为分析方法及装置
CN115412357A (zh) * 2022-09-02 2022-11-29 中国电信股份有限公司 异常设备检测方法、装置、电子设备和存储介质
CN116032887A (zh) * 2023-03-30 2023-04-28 中国工商银行股份有限公司 区块链域名系统的风险行为分析方法及装置
CN116346774A (zh) * 2023-02-16 2023-06-27 北京有元科技有限公司 一种基于dns路由的网络流量数据查询系统
CN116933335A (zh) * 2023-09-13 2023-10-24 北京安信天行科技有限公司 一种基于实时聚合异常检测的安全数据分析方法
CN117574338A (zh) * 2024-01-12 2024-02-20 深圳市吉方工控有限公司 工业计算机的远程授权方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101841435A (zh) * 2010-01-18 2010-09-22 中国科学院计算机网络信息中心 Dns查询流量异常的检测方法、装置和系统
US20130014253A1 (en) * 2011-07-06 2013-01-10 Vivian Neou Network Protection Service
KR20160116415A (ko) * 2015-03-30 2016-10-10 한국전자통신연구원 악성 도메인 클러스터 탐지 장치 및 방법
CN107786575A (zh) * 2017-11-11 2018-03-09 北京信息科技大学 一种基于dns流量的自适应恶意域名检测方法
CN109688236A (zh) * 2018-01-26 2019-04-26 北京微步在线科技有限公司 Sinkhole域名处理方法及服务器

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101841435A (zh) * 2010-01-18 2010-09-22 中国科学院计算机网络信息中心 Dns查询流量异常的检测方法、装置和系统
US20130014253A1 (en) * 2011-07-06 2013-01-10 Vivian Neou Network Protection Service
KR20160116415A (ko) * 2015-03-30 2016-10-10 한국전자통신연구원 악성 도메인 클러스터 탐지 장치 및 방법
CN107786575A (zh) * 2017-11-11 2018-03-09 北京信息科技大学 一种基于dns流量的自适应恶意域名检测方法
CN109688236A (zh) * 2018-01-26 2019-04-26 北京微步在线科技有限公司 Sinkhole域名处理方法及服务器

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张永斌等: "基于组行为特征的恶意域名检测", 《计算机科学》 *
李建: "基于聚类算法的DNS攻击检测", 《计算机时代》 *
李梦玉等: "基于URL的恶意访问检测方法", 《通信学报》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112910929B (zh) * 2021-03-24 2022-01-04 中国科学院信息工程研究所 基于异质图表示学习的恶意域名检测方法及装置
CN112910929A (zh) * 2021-03-24 2021-06-04 中国科学院信息工程研究所 基于异质图表示学习的恶意域名检测方法及装置
CN113344059A (zh) * 2021-05-31 2021-09-03 武汉大学 一种基于时间序列的空间分析异常检测方法
CN113344059B (zh) * 2021-05-31 2022-06-07 武汉大学 一种基于时间序列的空间分析异常检测方法
CN113676562A (zh) * 2021-08-17 2021-11-19 平安普惠企业管理有限公司 短链请求收敛方法、装置、计算机设备和存储介质
CN113676562B (zh) * 2021-08-17 2022-10-14 平安普惠企业管理有限公司 短链请求收敛方法、装置、计算机设备和存储介质
CN114050912A (zh) * 2021-09-30 2022-02-15 中国科学院信息工程研究所 一种基于深度强化学习的恶意域名检测方法和装置
CN114172707A (zh) * 2021-11-29 2022-03-11 北京恒安嘉新安全技术有限公司 Fast-Flux僵尸网络检测方法、装置、设备及存储介质
CN114172707B (zh) * 2021-11-29 2024-04-26 北京恒安嘉新安全技术有限公司 Fast-Flux僵尸网络检测方法、装置、设备及存储介质
CN114172862B (zh) * 2021-11-30 2024-04-19 杭州安恒信息技术股份有限公司 一种域名筛选方法、系统、装置及计算机可读存储介质
CN114172862A (zh) * 2021-11-30 2022-03-11 杭州安恒信息技术股份有限公司 一种域名筛选方法、系统、装置及计算机可读存储介质
CN114244590A (zh) * 2021-12-07 2022-03-25 上海观安信息技术股份有限公司 Dns劫持监测方法及装置
CN115001757A (zh) * 2022-05-12 2022-09-02 中国人民解放军国防科技大学 一种基于dns解析的主机异常行为分析方法及装置
CN115001757B (zh) * 2022-05-12 2023-08-08 中国人民解放军国防科技大学 一种基于dns解析的主机异常行为分析方法及装置
CN114791981A (zh) * 2022-06-24 2022-07-26 山东欧通信息科技有限公司 一种基于互联网的档案咨询用数据查询管理系统
CN115412357B (zh) * 2022-09-02 2024-03-19 中国电信股份有限公司 异常设备检测方法、装置、电子设备和存储介质
CN115412357A (zh) * 2022-09-02 2022-11-29 中国电信股份有限公司 异常设备检测方法、装置、电子设备和存储介质
CN116346774A (zh) * 2023-02-16 2023-06-27 北京有元科技有限公司 一种基于dns路由的网络流量数据查询系统
CN116032887A (zh) * 2023-03-30 2023-04-28 中国工商银行股份有限公司 区块链域名系统的风险行为分析方法及装置
CN116032887B (zh) * 2023-03-30 2024-05-14 中国工商银行股份有限公司 区块链域名系统的风险行为分析方法及装置
CN116933335A (zh) * 2023-09-13 2023-10-24 北京安信天行科技有限公司 一种基于实时聚合异常检测的安全数据分析方法
CN117574338A (zh) * 2024-01-12 2024-02-20 深圳市吉方工控有限公司 工业计算机的远程授权方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111935136B (zh) 2022-05-20

Similar Documents

Publication Publication Date Title
CN111935136B (zh) 基于dns数据分析的域名查询与解析异常检测系统及方法
US10740363B2 (en) Domain classification based on domain name system (DNS) traffic
CN110290116B (zh) 一种基于知识图谱的恶意域名检测方法
Bilge et al. EXPOSURE: Finding Malicious Domains Using Passive DNS Analysis.
US9769035B2 (en) Domain popularity scoring
US9450840B2 (en) Domain classification using domain co-occurrence information
WO2018176874A1 (zh) 一种dns的评价方法和装置
Chen et al. Detection of dns ddos attacks with random forest algorithm on spark
US20140157414A1 (en) Method and system for detecting malicious domain names at an upper dns hierarchy
US20110119268A1 (en) Method and system for segmenting query urls
Liu et al. 6Tree: Efficient dynamic discovery of active addresses in the IPv6 address space
CN102685145A (zh) 一种基于dns数据包的僵尸网络域名发现方法
EP2949110A1 (en) Domain classification based on client request behavior
CN114846462A (zh) 使用图数据结构的资产搜索发现系统
Celik et al. Detection of Fast-Flux Networks using various DNS feature sets
CN114328962A (zh) 一种基于知识图谱的web日志异常行为识别方法
CN115297088A (zh) 一种云计算环境中域名解析系统和方法
CN109995885B (zh) 域名空间结构呈现方法、装置、设备及介质
Wullink et al. ENTRADA: enabling DNS big data applications
WO2024031884A1 (zh) 一种域名同源判定方法、装置、电子设备及存储介质
Burton Unsupervised learning techniques for malware characterization: Understanding certain DNS-based DDoS attacks
CN111885220B (zh) 一种目标单位ip资产主动获取与验证方法
Wickramasinghe et al. Uncovering ip address hosting types behind malicious websites
CN111026829B (zh) 一种基于服务识别和域名关联的街道级地标获取方法
Dolberg et al. Multi-dimensional aggregation for dns monitoring

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant