CN110290116B - 一种基于知识图谱的恶意域名检测方法 - Google Patents

一种基于知识图谱的恶意域名检测方法 Download PDF

Info

Publication number
CN110290116B
CN110290116B CN201910483416.6A CN201910483416A CN110290116B CN 110290116 B CN110290116 B CN 110290116B CN 201910483416 A CN201910483416 A CN 201910483416A CN 110290116 B CN110290116 B CN 110290116B
Authority
CN
China
Prior art keywords
domain name
information
knowledge
data
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910483416.6A
Other languages
English (en)
Other versions
CN110290116A (zh
Inventor
金舒原
张允义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201910483416.6A priority Critical patent/CN110290116B/zh
Publication of CN110290116A publication Critical patent/CN110290116A/zh
Application granted granted Critical
Publication of CN110290116B publication Critical patent/CN110290116B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于知识图谱的恶意域名检测方法,包括以下步骤:S1.根据域名信息特征,提取用于构建域名信誉知识图谱的关键特征;S2.利用获得的已有数据,整合域名所包含信息,为知识图谱的创建提供数据源;数据通过知识图谱构建引擎扩增域名知识;知识图谱构建引擎利用由已得的域名数据构建域名信誉知识图谱;S3.对于给定的特定域名,利用融合多源信息与多种方法判定模型给出预测结果。本发明具有以下优势:1.域名信息维度更丰富,所包含信息更完整;2.可以更好的应对域名数据的爆发式增长,知识图谱的构建可以更快速的处理海量的数据;3.将域名信息和行为模式形成关系网络,利用知识图谱对关系网络的敏感性,深层次挖掘关系网络中的信息。

Description

一种基于知识图谱的恶意域名检测方法
技术领域
本发明涉及网络安全技术领域,更具体地,涉及一种基于知识图谱的恶意域名检测方法。
背景技术
近年来,网络安全成为关注的热点,网络攻击的方式也向着多元化、规模化、复杂化、持续化等趋势发展,域名系统为现代互联网提供域名到IP的解析服务,是网络正常运行的关键基础设施。由于域名系统的关键性和脆弱性所在,域名系统成为众多攻击者的理想攻击目标,面临着十分严峻的安全威胁,尤其是恶意域名作为攻击者的攻击承载体,数量和威胁都在逐渐增加。如钓鱼网站所利用的钓鱼网址,恶意软件之间通信利用的C&C服务器等。为了降低恶意域名的危害,最常用的防御措施是静态黑名单策略,黑名单收录网络上的已知的恶意域名,可以实现一定程度的恶意域名的拦截。但是面对网络空间的进一步扩张和网络技术的发展,静态的黑名单的效果越来越差,主要的原因是:一、在互联网上每天增加的新域名的数量十分庞大,面对如此巨大的数量,黑名单不可能做到恶意域名的完全收录;二、各种新型网络技术的出现,使得攻击者的攻击更加灵活,恶意域名的灵活多变,黑名单的更新速度远远跟不上其变化的速度,导致黑名单效果的下降。
知识图谱在出现是为了应带海量数据下的知识表示和查找,其应用最广泛的方向是专家系统,现在的搜索引擎也多数利用知识图谱做搜索的优化。知识图谱可以很好的表示实体之间的关系,并且通过推理判断得到原本数据中不存在的知识。恶意域名的行为存在的一定关联性,如同一恶意攻击者选择的域名注册商可能相同,绑定IP的ASN可能相同等,通过知识图谱化的恶意域名数据,可以有效的挖掘这些信息。
同时目前海量域名解析数据,恶意域名的检测面临的问题更加严峻,同时也为恶意域名检测提供的新的视角,为构建域名信誉知识图谱提供了可能。不同于传统的黑名单策略,新型的恶意域名检测方法,在庞大数据的支撑下,知识图谱从数据中逐渐完善,从解析数据中推测可能存在恶意行为的域名,实现提前发现,提前防范,降低恶意域名的危害。
发明内容
针对的现有静态黑名单策略无法灵活扩充的问题,本发明提供了一种基于知识图谱的恶意域名检测方法,包括以下步骤:
S1.根据域名信息特征,提取可用于构建域名信誉知识图谱的关键特征;
S2.利用获得的已有数据,最大限度的整合域名所包含信息,为知识图谱的创建提供数据源;数据通过知识图谱构建引擎,从数据挖掘的角度扩增域名知识;知识图谱构建引擎利用由已得到的域名数据构建域名信誉知识图谱;
S3.对于给定的特定域名,利用融合多源信息与多种方法判定模型给出预测结果,同时将信息反馈给知识图谱。
在一种优选方案中,所述的S2包括以下步骤:
S21.获取域名字符串特征包括语义特征度、最长可读字串长度比、域名信息熵、与已知恶意域名的编辑距离、知名域名相似度、域名数字字母比例。语义特征度是对域名的可读可识别性进行计算利用自然语言处理网络对域名进行处理,得出其人类可读性得分。域名字符串特征是从域名语义可识别角度对域名进行测算。域名信息熵从信息论的角度,利用香农熵计算域名所包含的信息值,计算公式为
Figure BDA0002084580850000021
其中,X为输入域名,x为域名X的组成字符,H(X)为计算得到的信息熵,P(x)为x出现的概率。
信息熵可以在一定程度上展示字符串的混乱程度,混乱程度高说明其可读性差,混乱程度低说明可读性高,对于随机生成的恶意域名,其信息熵一般会在一个比较高的数值,而知名域名则数值较低。与已知恶意域名的编辑距离计算目标域名与已知恶意域名的相关性,编辑距离是计算目标字符串经过改变获得指定字符串的最少改变次数,可以衡量两个字符串的差异程度。知名域名相似度针对的是钓鱼域名,其命名方式并非是随机生成域名,而是对知名域名的变形,通过增加个别字符或者是增加子域的方法,假冒知名域名。
S22.获取静态域名相关特征。静态域名相关特征描述的是域名的固有信息,包括域名注册次数、注册人相似度、域名生命周期、废弃时间间隔、注册人性质、注册人组织、注册人城市、注册商、生命周期内平均TTL、生命周期内TTL修改频率、域名使用相对热度、IP更换频率、历史IP、历史IP平均信誉度、历史IP所属ASN、历史ASN信誉度。
S23.获取域名IP特征,域名IP特征解析IP特征,描述域名相关的IP的固有特征信息,包括IP所属ASN、ASN组织、ASN信誉度、ASN组织地址、IP注册时间、IP更换域名频率、IP历史域名、IP历史域名信誉度。
S24.获取域名行为特征。S21-S23中的三种特征是域名的静态特征,可以从流量数据中直接提取获得,而域名行为特征是域名动态行为中所产生的特征模式,分为域名解析行为特征和域名注册行为特征。域名解析行为特征从域名的解析流量入手,分析请求者分布和请求者权重,从用户角度建立域名解析模型;域名注册行为分析从域名注册时所表现出的异常行为入手,分析攻击者的注册行为,从攻击者角度建立恶意域名的注册模型。
S25.利用知识扩增引擎,补足静态域名信息的不完整的部分。知识扩增引擎主要通过两个部分实现,包括搜索引擎和域名情报收集系统。通过搜索引擎的庞大的数据量作为数据支持,通过现有的知识提取技术(自然语言处理,语义推理等)实现对指定信息的抽取,如针对某一域名的查询信息,判断域名热度及评价,从社会信息角度更全面的描述域名信息。域名情报收集系统可以提供更专业的域名威胁相关信息,补足被动数据的不足。知识扩增引擎为知识图谱的构建提供更全面的数据,同时知识图谱也为扩增引擎提供扩增方向。
S26.知识图谱构建。S21-S25完成了知识抽取,将抽取的知识传进知识图谱构建引擎,经过知识融合和知识验证完成知识图谱的构建。
在一种优选方案中,所述S3包括以下步骤:
S31.对域名d提取信息特征,获得域名本体的表示;
S32.利用基于规则的不一致性验证,判定输入本体是否与知识图谱中的知识存在冲突,得到Predict Score1;
S33.利用内容-结构推理方法预测与给定实体具有给定关系的目标实体,得到Predict Score2;
S34.根据混合规则与神经网络的推理,判定本体分别与知识中已知的恶意域名与正常域名的本体的相似度,得到Predict Score3;
S35.最终得分FinalScore=θ1Predict Score1+θ2Predict Score2+θ3PredictScore3;
其中,θ1-3为控制不同推理规则的权重,根据数据偏好或者统计实验得出。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出的技术方案,具有以下优势:第一,域名信息维度更丰富,所包含信息更完整,除了一般的静态域名信息,又加入动态行为分析和图数据挖掘,更容易获得更深层次的信息;第二,可以更好的应对域名数据的爆发式增长,知识图谱的构建可以更快速的处理海量的数据;第三,将域名信息和行为模式形成关系网络,利用知识图谱对关系网络的敏感性,深层次挖掘关系网络中的信息,可以有效的提高恶意域名检测的准确性。
附图说明
图1是本发明提供的基于知识图谱的恶意域名检测方法的域名信誉知识图谱系统结构图;
图2是本发明提供的基于知识图谱的恶意域名检测方法的域名信誉知识图谱构建流程示意图;
图3是本发明提供的基于知识图谱的恶意域名检测方法的域名信誉检测流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,仅用于示例性说明,不能理解为对本专利的限制。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本发明提供了一种基于知识图谱的恶意域名检测方法,如图1所示,包括以下步骤:
S1.根据域名信息特征,提取可用于构建域名信誉知识图谱的关键特征;
S2.域名信息的聚合:利用获得的已有数据,最大限度的整合域名所包含信息,为知识图谱的创建提供数据源;数据通过知识图谱构建引擎,从数据挖掘的角度扩增域名知识;知识图谱构建引擎利用由已得的域名数据构建域名信誉知识图谱;
S3.对于给定的特定域名,利用融合多源信息与多种方法判定模型给出预测结果,同时将信息反馈给知识图谱。
在一种优选方案中,所述的域名信息特征包括:域名字符串特征、静态域名相关特征、域名IP特征和域名行为特征;
域名字符串特征从域名语义可识别角度对域名进行测算,包括:语义特征度、最长可读字串长度比、域名信息熵、与已知恶意域名的编辑距离、知名域名相似度、域名数字字母比例;
静态域名相关特征描述域名的固有信息,包括域名注册次数、注册人相似度、域名生命周期、废弃时间间隔、注册人性质、注册人组织、注册人城市、注册商、生命周期内平均TTL、生命周期内TTL修改频率、域名使用相对热度、IP更换频率、历史IP、历史IP平均信誉度、历史IP所属ASN、历史ASN信誉度;
域名IP特征解析IP特征,描述域名相关的IP的固有特征信息,包括IP所属ASN、ASN组织、ASN信誉度、ASN组织地址、IP注册时间、IP更换域名频率、IP历史域名、IP历史域名信誉度;
域名行为特征是域名动态行为中所产生的特征模式,分为域名解析行为特征和域名注册行为特征;域名解析行为特征对域名的解析流量进行分析,分析请求者分布和请求者权重,从用户角度建立域名解析模型;域名注册行为对域名注册时所表现出的异常行为进行分析,分析攻击者的注册行为,从攻击者角度建立恶意域名的注册模型。
在一种优选方案中,所述的S2包括以下步骤:
S21.获取域名字符串特征包括语义特征度、最长可读字串长度比、域名信息熵、与已知恶意域名的编辑距离、知名域名相似度、域名数字字母比例。域名字符串特征是从域名语义可识别角度对域名进行测算。语义特征度是对域名的可读可识别性进行计算利用自然语言处理网络对域名进行处理,得出其人类可读性得分。域名信息熵从信息论的角度,利用香农熵计算域名所包含的信息值,计算公式为:
Figure BDA0002084580850000051
其中,X为输入域名,x为域名X的组成字符,H(X)为计算得到的信息熵,P(x)为x出现的概率。
信息熵可以在一定程度上展示字符串的混乱程度,混乱程度高说明其可读性差,混乱程度低说明可读性高,对于随机生成的恶意域名,其信息熵一般会在一个比较高的数值,而知名域名则数值较低。与已知恶意域名的编辑距离计算目标域名与已知恶意域名的相关性,编辑距离是计算目标字符串经过改变获得指定字符串的最少改变次数,可以衡量两个字符串的差异程度。知名域名相似度针对的是钓鱼域名,其命名方式并非是随机生成域名,而是对知名域名的变形,通过增加个别字符或者是增加子域的方法,假冒知名域名。
S22.获取静态域名相关特征。静态域名相关特征描述的是域名的固有信息,包括域名注册次数、注册人相似度、域名生命周期、废弃时间间隔、注册人性质、注册人组织、注册人城市、注册商、生命周期内平均TTL、生命周期内TTL修改频率、域名使用相对热度、IP更换频率、历史IP、历史IP平均信誉度、历史IP所属ASN、历史ASN信誉度;
S23.获取域名IP特征。域名IP特征解析IP特征,描述域名相关的IP的固有特征信息,包括IP所属ASN、ASN组织、ASN信誉度、ASN组织地址、IP注册时间、IP更换域名频率、IP历史域名、IP历史域名信誉度;
S24.获取域名行为特征。S21-S23中的三种特征是域名的静态特征,可以从流量数据中直接提取获得,而域名行为特征是域名动态行为中所产生的特征模式,分为域名解析行为特征和域名注册行为特征。域名解析行为特征从域名的解析流量入手,分析请求者分布和请求者权重,从用户角度建立域名解析模型;域名注册行为分析从域名注册时所表现出的异常行为入手,分析攻击者的注册行为,从攻击者角度建立恶意域名的注册模型;
S25.利用知识扩增引擎,补足静态域名信息的不完整的部分。知识扩增引擎主要通过两个部分实现,包括搜索引擎和域名情报收集系统。通过搜索引擎的庞大的数据量作为数据支持,通过现有的知识提取技术实现对指定信息的抽取,如针对某一域名的查询信息,判断域名热度及评价,从社会信息角度更全面的描述域名信息。域名情报收集系统可以提供更专业的域名威胁相关信息,补足被动数据的不足。知识扩增引擎为知识图谱的构建提供更全面的数据,同时知识图谱也为扩增引擎提供扩增方向。
S26.知识图谱构建。步骤S21-S25中完成了知识抽取,将抽取的知识传进知识图谱构建引擎,经过知识融合和知识验证完成知识图谱的构建,如图2所示。
在一种优选方案中,所述S3包括以下步骤:
S31.对域名d提取信息特征,获得域名本体的表示;
S32.利用基于规则的不一致性验证,判定输入本体是否与知识图谱中的知识存在冲突,得到Predict Score1;
S33.利用内容-结构推理方法预测与给定实体具有给定关系的目标实体,得到Predict Score2;
S34.根据混合规则与神经网络的推理,判定本体分别与知识中已知的恶意域名与正常域名的本体的相似度,得到PredictScore3;
S35.最终得分FinalScore=θ1Predict Score1+θ2Predict Score2+θ3PredictScore3;
θ1-3为控制不同推理规则的权重,根据数据偏好或者统计实验得出。
实施例2
本实施例提供了一种基于知识图谱的恶意域名检测方法,本系统的运行需要有域名数据的支持,首先给出数据的来源。从表1的四个方面获取域名数据,可能的数据来源包括地区性互联网注册管理机构、各大因特网服务提供商、域名注册商、域名热度评估网站及开放的恶意域名列表。地区性互联网注册管理机构为系统提供必要的域名和IP静态数据信息;各大因特网服务提供商为系统提供历史及实时的域名解析记录,支持域名解析行为分析;域名注册商为系统提供新域名注册数据,支持域名注册行为分析;域名热度评估网站提供正向的样本数据;开放的恶意域名列表则提供负向的样本数据。
本实施例提供的一种基于知识图谱的恶意域名检测方法,包括以下步骤:
S1.根据域名信息特征,提取可用于构建域名信誉知识图谱的关键特征;
Figure BDA0002084580850000071
Figure BDA0002084580850000081
表1
S2.对S1中表1中的信息特征进行聚合,获取域名字符串特征、静态域名相关特征、域名IP特征和域名行为特征。结合聚合的域名信息特征和知识扩增引擎的数据构建域名信誉知识图谱;
S21.对于域名d,计算其域名字符串特征。域名的语义特征度的计算采用隐马尔可夫模型进行计算,首先用语料库训练得到马尔可夫模型,然后将域名d作为模型输入得到转移概率tp,利用多重阈值threshold,通过将tp与threshold相比较,最终得到域名的语义特征度RA。最长可读字符串描述域名中存在的最长可识别的字符串,首先将域名d进行分割,得到其字串集合sub(d)={sd1,sd2,...sdj,...sdn},sdj为域名d的第j个子串,利用字符串字典计算与sdj的最长公共子序列sdlj,得到LRR=max{sdl1,sdl2,...sdlj,...sdln}。域名信息熵采用香农熵的计算公式,有
Figure BDA0002084580850000091
其中,H(d)为域名d的信息熵,c为域名d的组成字符,P(c)为c在d中出现的概率。
计算域名d与已知恶意域名的相关性,利用获得的开放域名恶意列表中的恶意域名,计算与d的Levenshtein距离,得到域名d与恶意域名的Levenshtein距离的集合LeveSet={l1,l2...ln},取其中的最大值得到MDC=max{LeveSet}。应对针对知名域名存在的钓鱼域名,计算知名域名相似度,首先由域名热度评估网站获得知名域名集合WD,计算域名d与wdj(wdj∈WD)的最长公共子序列,将最长公共子序列在域名d中的比例作为FDS。域名数字字母比例(NSR)由域名d中数字数量与字母数量的比值得到。
S22.域名d的静态域名相关特征,从地区性互联网注册管理机构及因特网服务提供商提供信息中获得。其中注册次数(RN)记录域名d是否被多次注册,并且记录多次注册之间的废弃时间间隔(ET),域名基础信息中存在注册时间和到期时间,由此可以计算域名生命周期(DL),对于知名域名,其注册次数很小且生命周期很长,而恶意域名的注册次数可能会由于不同的攻击手段而增大并且生命周期通常较短;注册人性质(PN)、注册人组织(PO)和注册人城市(PC)从注册者的角度描述域名,知名域名的注册者一般为组织,有明确的注册者组织机构,而恶意域名的注册者一般为个人,没有组织机构;注册商(RE)对域名的监管程度也会影响其管理的域名的使用情况,攻击者通常会选取价格优惠管理不严格的注册商进行注册。域名d的解析中的生存周期设置了网络中对该域名的记忆时间,攻击者会将其设置较大,扩大一次攻击的影响;同时正常情况下TTL的值不会经常性的修改,而攻击者可能需要修改TTL以适应攻击的变化,从历史的解析流量数据中可以计算域名d生命周期内TTL修改频率;排除全网域名的使用排名,可以使用域名使用相对热度展示域名d生命周期内的使用趋势,计算公式为
Figure BDA0002084580850000101
其中,α为控制尖峰次数的参数,根据生命周期进行调节大小,pj为域名d在生命周期内第j个周期内流量的突然增加而出现的流量尖峰,Num(pj)尖峰出现的次数,PeakFlowj为每次出现流量尖峰时的流量最大值,T为一次流量尖峰出现的周期,Fi为T内的流量总和。
域名d所绑定的IP的更换频率、历史IP和历史IP所属ASN(IPs_A)由历史解析流量统计获得;历史IP平均信誉度(IPs_C)由历史上该IP相关联的已知恶意域名数量Num(MD)和该恶意域名的使用相对热度计算获得,
Figure BDA0002084580850000102
Figure BDA0002084580850000103
历史ASN信誉度(ASNs_C)与IPs_C类似,计算该ASN中的已知恶意IP的数量与ASN中总IP的比值,
Figure BDA0002084580850000104
S23.域名d的域名IP特征,记录域名绑定IP的相关信息。IP所属ASN(IP_A)、ASN组织(ASN)、ASN组织地址(AC)、IP注册时间(IPRT)可以从地区性互联网注册管理机构提供的信息中获取;ASN信誉度(ASN_C)与静态域名相关特征中的ASNs_C类似,
Figure BDA0002084580850000105
IP历史域名(HD)由因特网服务提供商提供的解析流量统计获得,而IP更换域名频率(DCT)为IP历史域名数量在生命周期中的比例,
Figure BDA0002084580850000106
IP历史域名信誉度(HDC)计算所包含的已知恶意域名的占比。
S24.域名行为特征分析;
S241.域名解析行为特征分析;
S2411.异常域名解析行为分析;
对DNS解析流量中针对域名dj的请求qj及相应的响应rj,列出四元组QR(d)={T,IPd,d,IPs},T为请求的发出时间,IPd为域名解析的IP地址的集合,IPs为发起请求的IP地址集合。
异常的域名解析描述在一个比较短的时间周期内特定主机对某个域名发起了十分频繁的解析请求,其得分由计算针对单一请求者在时间周期内发出请求的频率与请求者数量的比值得到,
Figure BDA0002084580850000111
其中TMax-TMin表示数据中QR(d)的时间周期跨度,Num(IPs)表示域名d的不同请求者IP数量,|为条件判断。
S2412.请求者多样性分析;
利用步骤B-4-1-1)中的四元组QR(d),这里将T看作是一个时间周期,在不同的周期Tj可以得到关于域名d的一系列的{QRj(d)},从中取出请求者地址{IPsj},计算其AS系统和国家代码(CC)的概率分布,计算其分布的均值和方差。
Score2(d)=βE(AS)+γE(CC)
Score3(d)=δVar(AS)+θVar(CC)
其中,β、γ、δ、θ为权重参数,E(AS)和E(CC)分别为AS系统和国家代码分布的期望,Var(AS)和Var(CC)分别为AS系统和国家代码分布的方差。
S2413.请求者权重分析;
对QRj(d)和请求者地址{IPsj},记Cj,k为qk(qk∈{IPsj})中对应域名集合D中不同的域名数量。定义请求者IP的相关性权重
Figure BDA0002084580850000112
对域名d可以得到请求者的偏好集合QPj(d)={Cj,k},计算其分布律,可得到
Score4(d)=∑jVar(QPj(d))
计算n个周期前的权重ωj-n,k,结合QPj(d),得到WQPj(d)={Cj,kj-n,k},可得到:
Score5(d)=∑jVar(WQPj(d))
S242.域名注册行为分析;
域名注册行为分析仅支持新域名注册实时恶意检测下运行,在一般情况下,这里的特征不起作用。
对时期Tj内注册的域名提取信息四元组RDj={Tj,Dj,REj,RTj,DLj},其中Dj为时期Tj注册域名的集合,REj为注册商集合,RTj为域名d(d∈Dj)的注册时间,DLj为d的生命周期。
计算周期Tj内注册域名相似度(TS),首先计算某个域名在与本周期其他域名的相似度,再求均值。利用域名自身的熵值与周期Tj内其他域名熵值的比值加上与Levenshtein距离的均值获得。
Figure BDA0002084580850000121
TS=E(TS(dj))
其中DE(dj)为域名dj的信息熵,Levenshtein(dj,di)为域名dj,di Levenshtein距离,E(Ts(dj))为TS(dj)的均值。
从域名注册商及因特网服务提供商的数据中提取权威服务器、生命周期、历史注册商、注册时间四个方面特征。
S25.知识扩增引擎,补足静态域名信息的不完整的部分。
知识扩增引擎作为本系统的辅助部分主要功能是通过对搜索引擎和域名情报收集系统的数据进行知识提取,增加域名信息的维度;
以搜索引擎庞大的数据量作为数据支持,通过现有的知识提取技术实现对指定信息的抽取,如针对某一域名的查询信息,通过对搜索引擎返回页面与域名的匹配度、数量,判断域名热度及评价,从社会信息角度更全面的描述域名信息。搜索引擎的返回数据为Page={url,dec,pagenum},计算返回U={url}与指定域名的匹配度(DS),设定阈值ε,计算匹配度大于ε的数量,
DS=|{TS(dj)|TS(dj)>ε}|dj=d,di∈U。对{dec}应用自然语言处理,抽取十个缺省特征。
域名情报收集系统可以提供更专业的域名威胁相关信息,补足被动数据的不足。知识扩增引擎为知识图谱的构建提供更全面的数据,同时知识图谱也为扩增引擎提供扩增方向。
S26.构建知识图谱:完成步骤S21-S25知识获取后,进行知识融合和知识验证完成知识图谱的构建。知识融合第一步是实现相同数据的节点融合,从步骤S21-S25获取的数据可能存在信息重合的部分,对这部分信息进行删减和关系连接。第二步主要实现域名静态信息的融合,包括域名组织名称,城市,注册商,注册人等特征的差异性融合,减少冗余节点。知识图谱的构建是个动态的过程,随着数据的增加,新数据的加入要经过已有知识的验证,对于出现冲突的知识进行选择性的更新。
S3.在训练模式下完成域名信誉知识图谱的构建后,检测模式下可以对指定域名进行恶意检测,图3为检测流程示意图。为实现高准确性的检测,判定引擎采用多方法融合判定。首先对域名d提取信息特征,获得本体d的表示。
第一步利用基于规则的不一致性验证,判定输入本体d是否与知识图谱中的知识存在冲突,得到Predict Score1;
第二步利用内容-结构推理方法(Content-Structural Relation Inference,CSRI),预测与给定实体具有给定关系的目标实体,得到Predict Score2;
第三步混合规则与神经网络的推理,判定本体分别与知识中已知的恶意域名与正常域名的本体的相似度,得到Predict Score3;
其中,最终得分为FinalScore=θ1Predict Score1+θ2Predict Score2+θ3PredictScore3
θ1-3为控制不同推理规则的权重,可以根据数据偏好或者统计实验得出。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (3)

1.一种基于知识图谱的恶意域名检测方法,其特征在于,包括以下步骤:
S1.根据域名信息特征,提取用于构建域名信誉知识图谱的关键特征;
S2.利用获得的已有数据,最大限度的整合域名所包含信息,为知识图谱的创建提供数据源;数据通过知识图谱构建引擎,从数据挖掘的角度扩增域名知识;知识图谱构建引擎利用由已得的域名数据构建域名信誉知识图谱;
S3.对于给定的特定域名,利用融合多源信息与多种方法判定模型给出预测结果,同时将信息反馈给知识图谱;
所述的S2包括以下步骤:
S21.获取域名字符串特征,域名字符串特征从域名语义可识别角度对域名进行测算;
S22.获取静态域名相关特征;
S23.获取域名IP特征;
S24.获取域名行为特征;
S25.知识扩增引擎以搜索引擎的庞大的数据量作为数据支持,通过现有的知识提取技术实现对指定信息的抽取,针对某一域名的查询信息,判断域名热度及评价,从社会信息角度更全面的描述域名信息;域名情报收集系统可以提供更专业的域名威胁相关信息,补足被动数据的不足;
S26.将S21-S25抽取的知识传入知识图谱构建引擎,经过知识融合和知识验证完成知识图谱的构建;
所述S3包括以下步骤:
S31.对域名d提取信息特征,获得域名本体的表示;
S32.利用基于规则的不一致性验证,判定输入本体是否与知识图谱中的知识存在冲突,得到Predict Score1;
S33.利用内容-结构推理方法预测与给定实体具有给定关系的目标实体,得到PredictScore2;
S34.根据混合规则与神经网络的推理,判定本体分别与知识中已知的恶意域名与正常域名的本体的相似度,得到Predict Score3;
S35.最终得分FinalScore=θ1Predict Score1+θ2Predict Score2+θ3PredictScore3;
其中,θ1-3为控制不同推理规则的权重,可以根据数据偏好或者统计实验得出。
2.根据权利要求1所述的基于知识图谱的恶意域名检测方法,其特征在于,所述的域名信息特征包括:域名字符串特征、静态域名相关特征、域名IP特征和域名行为特征;
域名字符串特征从域名语义可识别角度对域名进行测算,包括:语义特征度、最长可读字串长度比、域名信息熵、与已知恶意域名的编辑距离、知名域名相似度、域名数字字母比例;
静态域名相关特征描述域名的固有信息,包括域名注册次数、注册人相似度、域名生命周期、废弃时间间隔、注册人性质、注册人组织、注册人城市、注册商、生命周期内平均TTL、生命周期内TTL修改频率、域名使用相对热度、IP更换频率、历史IP、历史IP平均信誉度、历史IP所属ASN、历史ASN信誉度;
域名IP特征解析IP特征,描述域名相关的IP的固有特征信息,包括IP所属ASN、ASN组织、ASN信誉度、ASN组织地址、IP注册时间、IP更换域名频率、IP历史域名、IP历史域名信誉度;
域名行为特征是域名动态行为中所产生的特征模式,分为域名解析行为特征和域名注册行为特征;域名解析行为特征对域名的解析流量进行分析,分析请求者分布和请求者权重,从用户角度建立域名解析模型;域名注册行为对域名注册时所表现出的异常行为进行分析,分析攻击者的注册行为,从攻击者角度建立恶意域名的注册模型。
3.根据权利要求1所述的基于知识图谱的恶意域名检测方法,其特征在于,所述的S24包括以下步骤:
S241.进行异常域名解析行为特征分析;
S242.进行域名注册行为分析。
CN201910483416.6A 2019-06-04 2019-06-04 一种基于知识图谱的恶意域名检测方法 Active CN110290116B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910483416.6A CN110290116B (zh) 2019-06-04 2019-06-04 一种基于知识图谱的恶意域名检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910483416.6A CN110290116B (zh) 2019-06-04 2019-06-04 一种基于知识图谱的恶意域名检测方法

Publications (2)

Publication Number Publication Date
CN110290116A CN110290116A (zh) 2019-09-27
CN110290116B true CN110290116B (zh) 2021-06-22

Family

ID=68003422

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910483416.6A Active CN110290116B (zh) 2019-06-04 2019-06-04 一种基于知识图谱的恶意域名检测方法

Country Status (1)

Country Link
CN (1) CN110290116B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948638B (zh) * 2019-12-11 2023-09-05 中国移动通信集团海南有限公司 一种图谱构建方法、装置、存储介质和计算机设备
CN111224981B (zh) * 2019-12-31 2022-05-17 北京天融信网络安全技术有限公司 一种数据处理方法、装置、电子设备及存储介质
US11645566B2 (en) * 2020-03-09 2023-05-09 International Business Machines Corporation Methods and systems for graph computing with hybrid reasoning
CN111431939B (zh) * 2020-04-24 2022-03-22 郑州大学体育学院 基于cti的sdn恶意流量防御方法
CN113495999A (zh) * 2020-06-05 2021-10-12 海信集团有限公司 一种智能终端及隐私风险监测的方法
CN112187716B (zh) * 2020-08-26 2021-07-20 中国科学院信息工程研究所 一种网络攻击中恶意代码的知识图谱展示方法
CN114285587B (zh) * 2020-09-17 2023-10-10 中国电信股份有限公司 域名鉴别方法和装置、域名分类模型的获取方法和装置
CN112104677B (zh) * 2020-11-23 2021-03-02 北京金睛云华科技有限公司 一种基于知识图谱的受控主机检测方法和装置
CN112528040B (zh) * 2020-12-16 2024-03-19 平安科技(深圳)有限公司 基于知识图谱的引导教唆语料的检测方法及其相关设备
CN112732935A (zh) * 2021-01-11 2021-04-30 中国互联网络信息中心 域名推荐方法、系统、电子设备及存储介质
CN112887285B (zh) * 2021-01-15 2022-03-11 中国科学院地理科学与资源研究所 一种跨空间图层映射的网络行为智能画像分析方法
CN112835995B (zh) * 2021-02-04 2023-11-07 中国互联网络信息中心 一种基于解析关系的域名图嵌入表示分析方法及装置
CN112948725A (zh) * 2021-03-02 2021-06-11 北京六方云信息技术有限公司 基于机器学习的钓鱼网站url检测方法及系统
CN112995361A (zh) * 2021-04-30 2021-06-18 鹏城实验室 域名知识图谱构建方法、装置、设备及存储介质
CN113595994B (zh) * 2021-07-12 2023-03-21 深信服科技股份有限公司 一种异常邮件检测方法、装置、电子设备及存储介质
CN113609493A (zh) * 2021-08-05 2021-11-05 工银科技有限公司 钓鱼网站的识别方法、装置、设备及介质
CN113645240B (zh) * 2021-08-11 2023-05-23 积至(海南)信息技术有限公司 一种基于图结构的恶意域名群落挖掘方法
CN114124859B (zh) * 2021-08-17 2023-04-07 北京邮电大学 一种网络维护平台智能客户服务机器人及维护方法
CN114448669B (zh) * 2021-12-27 2024-07-02 奇安信科技集团股份有限公司 黑产域名的鉴定方法和装置,电子设备,存储介质,计算机程序产品
CN114124576B (zh) * 2022-01-24 2022-04-22 成都无糖信息技术有限公司 一种基于知识图谱的诈骗网站关联方法及系统
CN118095422B (zh) * 2024-04-19 2024-08-06 成都无糖信息技术有限公司 一种基于知识图谱的网络公害主体挖掘方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107786575A (zh) * 2017-11-11 2018-03-09 北京信息科技大学 一种基于dns流量的自适应恶意域名检测方法
CN108446368A (zh) * 2018-03-15 2018-08-24 湖南工业大学 一种包装产业大数据知识图谱的构建方法及设备
US10218733B1 (en) * 2016-02-11 2019-02-26 Awake Security, Inc. System and method for detecting a malicious activity in a computing environment

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10218733B1 (en) * 2016-02-11 2019-02-26 Awake Security, Inc. System and method for detecting a malicious activity in a computing environment
CN107786575A (zh) * 2017-11-11 2018-03-09 北京信息科技大学 一种基于dns流量的自适应恶意域名检测方法
CN108446368A (zh) * 2018-03-15 2018-08-24 湖南工业大学 一种包装产业大数据知识图谱的构建方法及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Survey on Malicious Domains Detection through DNS;YURY ZHAUNIAROVICH;《ACM Computing Surveys》;20180810;第67:1-67:36页 *
基于知识图谱的网络空间资源关联分析技术研究;刘冰;《知网》;20190501;第1-81页 *

Also Published As

Publication number Publication date
CN110290116A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
CN110290116B (zh) 一种基于知识图谱的恶意域名检测方法
Perito et al. How unique and traceable are usernames?
Cui et al. Malicious URL detection with feature extraction based on machine learning
EP3457661B1 (en) Malicious software detection in a computing system
Bilge et al. EXPOSURE: Finding Malicious Domains Using Passive DNS Analysis.
Ren et al. A DGA domain names detection modeling method based on integrating an attention mechanism and deep neural network
CN105827594A (zh) 一种基于域名可读性及域名解析行为的可疑性检测方法
CN111935136A (zh) 基于dns数据分析的域名查询与解析异常检测系统及方法
CN109905288B (zh) 一种应用服务分类方法及装置
CN107071084A (zh) 一种dns的评价方法和装置
CN102685145A (zh) 一种基于dns数据包的僵尸网络域名发现方法
Zhou et al. CNN-based DGA detection with high coverage
US10911477B1 (en) Early detection of risky domains via registration profiling
Sivaguru et al. Inline detection of DGA domains using side information
CN112333185B (zh) 一种基于dns解析的域名阴影检测方法和装置
CN110572359A (zh) 基于机器学习的钓鱼网页检测方法
Luo et al. Dgasensor: Fast detection for dga-based malwares
Manasrah et al. DGA-based botnets detection using DNS traffic mining
Zang et al. Identifying fast-flux botnet with AGD names at the upper DNS hierarchy
CN115442075A (zh) 一种基于异质图传播网络的恶意域名检测方法和系统
Bao et al. Using passive dns to detect malicious domain name
Liu et al. CCGA: clustering and capturing group activities for DGA-based botnets detection
Paraschiv et al. A unified graph-based approach to disinformation detection using contextual and semantic relations
Phan et al. User identification via neural network based language models
CN111026829B (zh) 一种基于服务识别和域名关联的街道级地标获取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant