CN110855716B - 一种面向仿冒域名的自适应安全威胁分析方法及系统 - Google Patents

一种面向仿冒域名的自适应安全威胁分析方法及系统 Download PDF

Info

Publication number
CN110855716B
CN110855716B CN201911202906.0A CN201911202906A CN110855716B CN 110855716 B CN110855716 B CN 110855716B CN 201911202906 A CN201911202906 A CN 201911202906A CN 110855716 B CN110855716 B CN 110855716B
Authority
CN
China
Prior art keywords
domain name
suspected
credible
domain
counterfeit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911202906.0A
Other languages
English (en)
Other versions
CN110855716A (zh
Inventor
时金桥
关建峰
石瑞生
王东滨
杨金翠
张婉澂
李佳蔚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201911202906.0A priority Critical patent/CN110855716B/zh
Publication of CN110855716A publication Critical patent/CN110855716A/zh
Application granted granted Critical
Publication of CN110855716B publication Critical patent/CN110855716B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供一种面向仿冒域名的自适应安全威胁分析方法及系统,该方法包括:根据已有的可信域名集合,获取每一可信域名的多个疑似域名,每一可信域名和对应的一个疑似域名构成一个域名对;根据每一域名对中两个域名的域名信息及域名网页内容,确定所述域名对的多个核查指标的量化值;根据所述多个核查指标的量化值,以及每个核查指标的预设权重,得到所述域名对中疑似域名的可信度,以表征所述疑似域名对于可信域名的威胁程度。该方法能建立全面的疑似域名评估指标体系,而非事后检测和紧急处置。有利于域名仿冒分析的量化,以表征各疑似域名的威胁程度。可通过网络实时数据流量获得疑似域名,能够实现主动的、持续性的实时威胁检测。

Description

一种面向仿冒域名的自适应安全威胁分析方法及系统
技术领域
本发明涉及网络安全领域,尤其涉及一种面向仿冒域名的自适应安全威胁分析方法及系统。
背景技术
域名用来唯一标识一个网站,可以方便人们识别记忆从而快速地访问网站,然而却被一些别有用心者作为有利可图、违法犯罪的手段。仿冒域名是一种意图混肴著名域名的恶意行为。攻击者一般会提前注册著名商标、名人等相关的域名或者是注册与合法网站相似的域名。犯罪者可以通过贩卖抢注的域名来牟取翻倍利益,或者是利用仿冒域名发布假冒网站来传播虚假信息、盗取个人信息、传播病毒、进行APT攻击等,这不仅造成个人的损失也带来了社会危害。仿冒域名所需的工程技术简单,实现成本较低,传播范围广泛,因此已成为破坏、攻击域名系统的一种主要手段。并且随着技术手段的发展,仿冒域名的生成方法也多种多样,与合法域名也越来越相似。
目前,对于仿冒域名的检测方法,主要有基于域名相似性的检测:该类方法量化仿冒域名造成的危害和各方面特征,根据仿冒域名特征进行建模,利用得到的模型进行检测。
然而,现有的防御措施,对于潜在威胁的主动发现能力不足。很多仿冒域名的网站往往是非法运行了一段时间或被举报后才被发现,同时还有许多潜在的仿冒域名仍旧隐藏在网络中。对于实时威胁的持续性检测手段不够,这些传统检测方式多为被动、触发式的响应,原理多为对已知、历史威胁进行分析来生成处置策略。这种触发式的方式在威胁发生一段时间后才能进行处理,并且对于疑似威胁核查验证的精准性不够,缺少对潜在威胁的综合评估。综合来说,目前的域名检测方法,主要为被动、触发式的检测和紧急处置,处理方式多为被动,从而缺少主动性和持续性。
发明内容
为了解决上述问题,本发明实施例提供一种面向仿冒域名的自适应安全威胁分析方法及系统。
第一方面,本发明实施例提供一种面向仿冒域名的自适应安全威胁分析方法,包括:根据已有的可信域名集合,获取每一可信域名的多个疑似域名,每一可信域名和对应的一个疑似域名构成一个域名对;根据每一域名对中两个域名的域名信息及域名网页内容,确定所述域名对的多个核查指标的量化值;根据所述多个核查指标的量化值,以及每个核查指标的预设权重,得到所述域名对中疑似域名的可信度,以表征所述疑似域名对于可信域名的威胁程度。
进一步地,所述根据所述多个核查指标的量化值,以及每个核查指标的预设权重,得到所述域名对中疑似域名的可信度,包括:确定所述多个核查指标的量化值在希尔伯特空间的坐标表示;根据每个核查指标的预设权重,对所述多个核查指标的希尔伯特空间坐标进行加权,得到所述多个核查指标的希尔伯特子空间坐标;确定所述子空间坐标的范数,得到所述域名对中疑似域名的可信度。
进一步地,所述疑似域名包括潜在疑似域名和/或实时疑似域名;所述潜在疑似域名,根据可信域名进行分析构造得到;所述实时疑似域名,为在可信域名的基础上,根据网络流量数据分析得到。
进一步地,若所述疑似域名包括潜在疑似域名,则获取每一可信域名的多个疑似域名,包括:根据预设的多种构造方法,对可信域名进行变换,生成候选潜在疑似域名;对所述候选潜在疑似域名进行活跃度判断,筛选后得到每一潜在疑似域名。
进一步地,若所述疑似域名包括实时疑似域名,则获取每一可信域名的多个疑似域名,包括:根据互联网流量数据得到候选实时疑似域名集合;将候选实时疑似域名集合和可信域名集合中的元素,分别采用局部敏感哈希函数映射,得到候选实时疑似域名集合和可信域名集合中元素的桶号;确定候选实时疑似域名集合中元素桶号,与可信域名集合中元素桶号相比,小于预设阈值的元素,以得到每一实时疑似域名。
进一步地,所述预设的多种构造方法,包括:基于误植域名、比特错误域名、同音异义域、同形异义域名、缩写仿冒域名和组合仿冒域名的构造方法,以及基于深度学习的构造方法中的任意一种或任意多种。
进一步地,所述获取每一可信域名的多个疑似域名之后,所述根据每一域名对中两个域名的域名信息及域名网页内容,确定所述域名对的多个核查指标的量化值之前,还包括:根据已有的仿冒域名黑名单,对每一可信域名的多个疑似域名进行匹配筛选,剔除已确定为仿冒域名的疑似域名。
进一步地,所述得到所述域名对中疑似域名的可信度之后,还包括:根据所述可信度,判断所述疑似域名为可信域名或仿冒域名;若所述疑似域名为可信域名,则将确定为可信域名的疑似域名,加入至已有的可信域名集合中;若所述疑似域名为仿冒域名,则将确定为仿冒域名的疑似域名,加入至已有的仿冒域名黑名单中。
第二方面,本发明实施例提供一种面向仿冒域名的自适应安全威胁分析装系统,包括:疑似域名获取模块,用于根据已有的可信域名集合,获取每一可信域名的多个疑似域名,每一可信域名和对应的一个疑似域名构成一个域名对;核查指标量化模块,用于根据每一域名对中两个域名的域名信息及域名网页内容,确定所述域名对的多个核查指标的量化值;可信度评估模块,用于根据所述多个核查指标的量化值,以及每个核查指标的预设权重,得到所述域名对中疑似域名的可信度,以表征所述疑似域名对于可信域名的威胁程度。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现本发明第一方面面向仿冒域名的自适应安全威胁分析方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本发明第一方面面向仿冒域名的自适应安全威胁分析方法的步骤。
本发明实施例提供的面向仿冒域名的自适应安全威胁分析方法及系统,根据域名信息及域名网页内容,确定所述域名对的多个核查指标的量化值,能够建立全面的疑似域名评估指标体系,进行主动分析,而非事后检测和紧急处置。利用每个核查指标的预设权重,得到所述域名对中疑似域名的可信度,考虑到了每个指标带来的差异,有利于域名仿冒分析的量化,从而表征各疑似域名的威胁程度。另外,该方法能够对所有疑似域名进行分析,可通过现有可信域名主动预测潜在的疑似域名并通过网络实时数据流量获得实时的疑似域名,能够实现主动的、持续性的实时威胁检测。
附图说明
为了更清楚地说明本发明实施例或的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的面向仿冒域名的自适应安全威胁分析方法流程图;
图2为本发明另一实施例提供的面向仿冒域名的自适应安全威胁分析方法流程图;
图3为本发明又一实施例提供的面向仿冒域名的自适应安全威胁分析方法流程图;
图4为本发明再一实施例提供的面向仿冒域名的自适应安全威胁分析方法流程图;
图5为本发明实施例提供的面向仿冒域名的自适应安全威胁分析系统结构图;
图6为本发明实施例提供的一种电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
自适应安全的概念由美国Gartner公司于2014年提出,并在随后的几年中不断完善改进。2018年,Gartner正式提出了“持续自适应风险信任评估”框架(ContinuousAdaptive Risk and Trust Assessment,CARTA)。自适应安全囊括了预测、防御、检测、响应四个维度,形成四个环节的联动闭环,将传统的被动应急处置转为主动、持续的威胁分析及响应。其中,预测环节是这一框架的核心,其目的在于通过主动学习并识别未知的异常事件来捕捉潜在的安全威胁。而在检测环节,Gartner在近年的趋势预测中则强调了人工智能技术的重要性,利用深度学习进行更隐蔽的风险的挖掘。响应环节重点关注事件的调查取证,并由此形成一套处理类似事件的措施体系。
本发明提供一种面向仿冒域名的自适应安全威胁分析方法,在传统的单一检测和防御基础上,集成主动威胁预测分析和协同防御响应;主动威胁预测分析潜在的仿冒域名,实时检测捕捉网络实时数据中的仿冒域名,再对疑似的仿冒域名进行核查验证及防御处置,防御响应的结果可再用于优化主动预测和实时检测,形成检测、预测、防御的联动闭环,提升仿冒域名发现及处置的主动性、持续性和灵活性。
图1为本发明实施例提供的面向仿冒域名的自适应安全威胁分析方法流程图,如图1所示,本发明实施例提供一种面向仿冒域名的自适应安全威胁分析方法,包括:
101、根据已有的可信域名集合,获取每一可信域名的多个疑似域名,每一可信域名和对应的一个疑似域名构成一个域名对。
首先,可信域名是预先确定的,具体实施过程中,可信域名为多个可信域名构成的集合。可先选定可信域名集合,如Alexa网站排名前十万的流行网站、机构域名等。疑似域名是相对每一个可信域名而言的,待确定是否为可信域名的仿冒域名。为了便于理解,将每个可信域名和对应的疑似域名表示为一个域名对:<可信域名d,疑似域名t>。应当理解的是,每个可信域名都存在多个疑似域名,从而每个可信域名存在多个域名对。域名对只是一种表示,而非对本实施例方法的限制。
102、根据每一域名对中两个域名的域名信息及域名网页内容,确定域名对的多个核查指标的量化值。
域名信息,指可信域名和疑似域名中,与域名相关的信息,包括:域名所有人、域名注册商和域名注册日期。域名网页内容,指该域名对应的页面内容,包括域名打开后的显示页面的全部信息。根据上述信息和内容,确定域名对中两个域名进行仿冒分析的核查指标的量化值。例如核查指标包括,注册所有人的关联性,域名IP归属地、域名的活跃程度和网页视觉相似性,分别记为核查指标1,核查指标2,……,核查指标n,根据域名对的上述信息,对这些指标进行量化,得到对应的量化值。
需要说明的是,指标的选取过程中,还可以加入相关人工经验等其它指标。
103、根据多个核查指标的量化值,以及每个核查指标的预设权重,得到域名对中疑似域名的可信度,以表征疑似域名对于可信域名的威胁程度。
指标的预设权重也是已确定的,如基于目前的层次分析法、德尔菲法等实现。例如,预设权重包括分权重wj和判断矩阵特征值wij两部分,n个指标的预设权重可表示为:
Figure BDA0002296296860000061
基于预设权重,对指标的量化值进行加权后,得到域名对中疑似域名相对于可信域名的可信度。
可以将可信度分级为“非常弱可信”,“弱可信”,“一般可信”,“较可信”,“非常可信”。实际应用检测中,还应对权重算子做进一步分析,分析哪些指标是关键因素,进行动态调整,将进一步分析的结果反馈到主动威胁分析模块和深度对比检测模块,以不断优化算法、模型等,实现持续的检测,提升检测的准确的。
对于计算分析的结果根据各个等级展开不同的响应措施,如“非常弱可信”的域名基本确认为仿冒域名可以加入黑名单;对于“弱可信”、“一般可信”的发出潜在威胁通告,纳入敏感域名列表,“非常可信”的域名可加入可信域名集合,进行持续的保护。
本实施例的面向仿冒域名的自适应安全威胁分析方法,根据域名信息及域名网页内容,确定域名对的多个核查指标的量化值,能够建立全面的疑似域名评估指标体系,进行主动分析,而非事后检测和紧急处置。利用每个核查指标的预设权重,得到域名对中疑似域名的可信度,考虑到了每个指标带来的差异,有利于域名仿冒分析的量化,从而表征各疑似域名的威胁程度。另外,该方法能够对所有疑似域名进行分析,可通过网络实时数据流量获得疑似域名,能够实现主动的、持续性的实时威胁检测。
基于上述实施例的内容,作为一种可选实施例,根据多个核查指标的量化值,以及每个核查指标的预设权重,得到域名对中疑似域名的可信度,包括:确定多个核查指标的量化值在希尔伯特空间的坐标表示;根据每个核查指标的预设权重,对多个核查指标的希尔伯特空间坐标进行加权,得到多个核查指标的希尔伯特子空间坐标;确定子空间坐标的范数,得到域名对中疑似域名的可信度。
首先,建立希尔伯特指标子空间,设Hn为n维希尔伯特指标空间,空间的每个维都为一个核查指标。设e={e1,e2,…,en}是Hn的一组标准正交基。则对Hn中任一元素,每一域名对的核查指标向量y,可以表示为:
Figure BDA0002296296860000071
此时y在Hn中的坐标为:
y=(λ12,…,λn)
假定M为与Hn同构的线性子空间,设x∈M,设指标的预设权重系数为γ=diag(γ12,…,γn),则存在y∈Hn有:
x=γy
则可得到,
x=γy=(γ1λ1e12λ2e2…,γnλnen)
此即为核查评估指标的希尔伯特指标子空间坐标,计算评估体系各项指标的权重算子,并对指标进行量化处理。
指标权重因子为γi,令wjwij为对应的分权重和判断矩阵特征值,则可得:
Figure BDA0002296296860000081
计算仿冒域名的可信度,进行分级分类。用范数||x||来表示仿冒域名的可信度,即对于经过核查验证后的疑似域名对,是否确认为仿冒域名的评分和评级。可以设置为分值越低,可信度越低,可信度评分和分级越低,是仿冒域名对可能性就越大。
Figure BDA0002296296860000082
基于上述实施例的内容,作为一种可选实施例,疑似域名包括潜在疑似域名和/或实时疑似域名;潜在疑似域名,根据可信域名进行分析构造得到;实时疑似域名,为在可信域名的基础上,根据网络流量数据分析得到。
图2为本发明另一实施例提供的面向仿冒域名的自适应安全威胁分析方法流程图,如图2所示。实时疑似域名,即实时威胁疑似域名,该域名已在互联网中产生实时流量数据。例如,通过一些推广链接,木马程序,让用户进行访问。这些域名可以通过互联网数据进行抓取得到。
潜在疑似域名,即潜在风险疑似域名,指那些虽然未在互联网数据中产生实时流量,但是这些域名是存在的,在未来可能激活。可以是一些已经注册的,但是暂未接入用户数据的域名。
本实施例的面向仿冒域名的自适应安全威胁分析方法,通过疑似域名包括潜在疑似域名和/或实时疑似域名,可从已参与仿冒的,和未来可能参与仿冒的,两个角度进行针对性的分析,有利于实现主动的威胁检测。若同时包括潜在疑似域名和实时疑似域名,则可从已参与仿冒的,和未来可能参与仿冒的两个角度,全面的对仿冒域名进行分析。
基于上述实施例的内容,作为一种可选实施例,若疑似域名包括潜在疑似域名,则获取每一可信域名的多个疑似域名,包括根据预设的多种构造方法,对可信域名进行变换,生成候选潜在疑似域名;对候选潜在疑似域名进行活跃度判断,筛选后得到每一潜在疑似域名。
具体实施方案时,可信域名一般是多个可信域名构成的集合。本实施例中,根据接收的可信域名集合,利用各种构造方法对可信域名进行变换,以获得潜在的疑似域名。
首先,以预设的构造方法进行构造,主动生成潜在的疑似域名,得到的是候选潜在疑似域名。也就是说,构造得到的域名中,存在部分并未注册形成域名,或者非恶意用途的域名,从而需要进一步筛选。
其次,对于主动生成候选潜在疑似域名,进一步进行活跃度判定以判断哪些域名已被注册甚至是已被用作恶意用途。活跃度判定的主要方式包括:查询域名的whois信息,与黑名单匹配以及域名关联网页分析。查询的whois信息包括,域名所有人、域名注册商和域名注册日期。此为确定是否是注册域名,在此基础上,再将生成的仿冒域名与黑名单匹配,若匹配成功,则为潜在疑似域名。另外,还可查询与域名关联的网页情况,如网页内容分析,判断网页内容中是否包含售假、钓鱼信息等,可确定是否为潜在疑似域名。
本实施例的面向仿冒域名的自适应安全威胁分析方法,通过对候选潜在疑似域名进行活跃度判断,筛选后得到潜在疑似域名,从构造后的域名中筛选掉没有注册的域名,或者非恶意用途的相似域名,减少可信度分析的疑似域名的数量,降低方法的计算量。
基于上述实施例的内容,作为一种可选实施例,预设的多种构造方法,包括:基于误植域名、比特错误域名、同音异义域、同形异义域名、缩写仿冒域名和组合仿冒域名的构造方法,以及基于深度学习的构造方法中的任意一种或任意多种。
图3为本发明又一实施例提供的面向仿冒域名的自适应安全威胁分析方法流程图,如图3所示,仿冒域名的构造方法可以包括以下几种的任意一种,或者进行组合:
1)误植域名(Typosquatting)。这类域名一般由于键盘误输入而产生;一般有5种构造误植域名的方式:
a.去掉一个“.”符号,一般去掉www后的“.”符号,例如wwwgoogle.com;
b.去掉一个字母,例如twiter.com;
c.交换两个连续字母的顺序,例如googel.com;
d.替换一个字母为键盘相邻的字母,例如baodu.com;
e.插入一个相同的字母,例如googgle.com。
2)比特错误域名(Bitsquatting)。这种域名与原域名的区别是某一位二进制位上的不同,如mic2osoft.com相比microsoft.com,其不同在于r的二进制ASCII码是01110010,而2的二进制ASCII码是00110010。
3)同音异义域名(Soundsquatting),这类域名与目标域名读音近似。如′two′和′too′的读音相似。
4)同形异义域名(Homoglyph),这类域名指的是与目标域名在视觉上近似的域名,如0ffice.com等域名。
5)缩写仿冒域名(Abbrevsquatting)。主要是针对机构域名,如政府机构、教育机构的域名,有八种缩写方式:
a.机构名称所有单词首字母组合,如“tpeh.net”中的“tpeh”是“TianjinPlanning Exhibition Hall”的缩写。
b.部分单词首字母组合,如“cocc.net”中“cocc”是“China Ocean and ClimateChange Information Network”中“China Ocean Climate Change”的首字母组合。
c.部分单词前几位字母组合,如“tianjingwism.com”中的“tianjinswim”是“Tianjin Swimming Center”的缩写。
d.全拼中若干单词组合,如“hanbofood.com”中“hanbofood”是“Taiyuan HanboFood Industry Co Ltd”的缩写。
e.中英文全称的缩写组合。如“nxzwnews.net”中的“nxzwnews”是中文名称“NingXia Zhong Wei Xin Xi Wang”和英文名称“Zhongwei News Network”组成。
f.域名中包含“-”。
g.域名中包含数字。
h.上级机构的子域名。
6)组合仿冒域名(Combosquatting)。该类仿冒域名是指在原有域名的基础上添加一些前后缀形成的新域名,例如yahoo-mail.com。
7)基于深度学习的生成方式,如利用N-gram思想的LSTM网络模型,基于生成网络的生成模型等。
本实施例的面向仿冒域名的自适应安全威胁分析方法,通过多种域名构造方法以及深度学习模型对可信域名进行分析构造,能够全面的分析得出潜在的疑似域名,安全威胁分析能够覆盖到未产生实时访问流量的域名,实现更全面的威胁评估。
基于上述实施例的内容,作为一种可选实施例,若疑似域名包括实时疑似域名,则获取每一可信域名的多个疑似域名,包括:根据互联网流量数据得到候选实时疑似域名集合,同时确定可信域名集合;将候选实时疑似域名集合和可信域名集合中的元素,分别采用局部敏感哈希函数映射,得到候选实时疑似域名集合和可信域名集合中元素的桶号;确定候选实时疑似域名集合中元素桶号,与可信域名集合中元素桶号相比,小于预设阈值的元素,以得到每一实时疑似域名。
图4为本发明再一实施例提供的面向仿冒域名的自适应安全威胁分析方法流程图,如图4所示,本实施例中,输入为可信域名集合和互联网实时流量,可信域名集合是已知的。
作为优选实施例,首先对实时流量进行仿冒域名的初步筛选以减少后续检测的计算开销,再通过二次加速后使用各种恶意域名检测技术判定网络中是否存在对可信域名的仿冒。其中,初步筛选方式包括时间窗、分类器等快速算法。在实时流量的域名和可信域名比对检测的过程中,会有许多重复判定的计算,这尤其受到可信域名集合规模的影响。为此设计二次筛选加速判定,方法包括本实施例提到的局部敏感哈希。在域名加速筛选后,进行确定候选实时疑似域名集合中元素桶号,与可信域名集合中元素桶号相比,是否小于预设阈值的元素检测。在经过二次加速后,进行检测,检测方法可以为基于域名生成机制的检测、基于域名跳变性的检测、基于域名相似性的检测、基于域名互通性安全检测、基于机器学习的域名深度对比等。
将可信域名集合记为S,如果d是根据S中某个元素仿冒的域名,则认为域名d是一个仿冒域名。仿冒域名的检测问题可以形式化定义为:
Figure BDA0002296296860000121
其中,函数F(d,S)若取值为1,表明d是S中至少一个元素的仿冒域名,为0则d不是S中元素的仿冒域名。
当集合S规模较大时,对集合S中的每个元素逐个计算F(d,S)直到出现1为止,这将造成较大的计算开销,因此本发明实施例中采取局部哈希的方法以减小计算次数,提升筛选判定速度。
局部敏感哈希是在高维空间中解决近似最近邻快速查找的一类算法,对于越相似的值局部敏感哈希得到的哈希结果也越相似,局部敏感哈希将原始数据空间变换映射到新的数据空间,得到的新的数据空间较原来小的多。基于局部敏感哈希的仿冒域名检测问题形式化为:
Figure BDA0002296296860000122
其中,
Figure BDA0002296296860000123
H(x)时局部敏感哈希函数得到的桶号。
Figure BDA0002296296860000124
中每个元素在局部敏感哈希后所得的桶号距离域名d的桶号不超过预设阈值θ。
本实施例的面向仿冒域名的自适应安全威胁分析方法,将候选实时疑似域名集合和可信域名集合中的元素,分别采用局部敏感哈希函数映射,得到候选实时疑似域名集合和可信域名集合中元素的桶号,根据二者的桶号和预设阈值进行比较,判定互联网流量中得到的候选实时疑似域名,是否为疑似的仿冒域名,能够大大减少因完整域名比较而带来的计算量。
基于上述实施例的内容,作为一种可选实施例,获取每一可信域名的多个疑似域名之后,根据每一域名对中两个域名的域名信息及域名网页内容,确定域名对的多个核查指标的量化值之前,还包括:根据已有的仿冒域名黑名单,对每一可信域名的多个疑似域名进行匹配筛选,剔除已确定为仿冒域名的疑似域名。
即在上述步骤中,确定了疑似域名后,对实时流量中的疑似域名数据先进行初步的筛选,经过黑名单匹配,得到待判定灰色域名,即上述的疑似域名d。根据已有的仿冒域名黑名单,对每一可信域名的多个疑似域名进行匹配筛选,能够降低多个疑似域名的数量,减少可信度评估的计算量。
基于上述实施例的内容,作为一种可选实施例,得到域名对中疑似域名的可信度之后,还包括:根据可信度,判断疑似域名为可信域名或仿冒域名;若疑似域名为可信域名,则将确定为可信域名的疑似域名,加入至已有的可信域名集合中;若疑似域名为仿冒域名,则将确定为仿冒域名的疑似域名,加入至已有的仿冒域名黑名单中。
根据可信度分析之后,疑似域名为高可信度,则该域名确定为可信域名,加入到可信域名集合中,用于后续的仿冒域名分析。若可信域名确定为仿冒域名,则加入到已有的仿冒域名黑名单中,在后续得到的疑似域名可信度评估值,进行匹配筛选,以避免重复检测,减少计算量。
本实施例的面向仿冒域名的自适应安全威胁分析方法,若疑似域名为可信域名,则将确定为可信域名的疑似域名,加入至已有的可信域名集合中,若疑似域名为仿冒域名,则将确定为仿冒域名的疑似域名,加入至已有的仿冒域名黑名单中,以形成持续性的威胁分析。
图5为本发明实施例提供的面向仿冒域名的自适应安全威胁分析系统结构图,如图5所示,该面向仿冒域名的自适应安全威胁分析系统包括:疑似域名获取模块501、核查指标量化模块模块502和可信度评估模块503。其中501疑似域名获取模块,用于根据已有的可信域名集合,获取每一可信域名的多个疑似域名,每一可信域名和对应的一个疑似域名构成一个域名对;核查指标量化模块,用于根据每一域名对中两个域名的域名信息及域名网页内容,确定域名对的多个核查指标的量化值;可信度评估模块,用于根据多个核查指标的量化值,以及每个核查指标的预设权重,得到域名对中疑似域名的可信度,以表征疑似域名对于可信域名的威胁程度。
基于上述实施例的内容,作为一种可选实施例,疑似域名获取模块包括:潜在疑似域名获取子模块,用于根据预设的多种构造方法,对可信域名进行变换,生成候选潜在疑似域名;对候选潜在疑似域名进行活跃度判断,筛选后得到每一潜在疑似域名。
基于上述实施例的内容,作为一种可选实施例,疑似域名获取模块包括:实时疑似域名获取子模块,根据互联网流量数据得到候选实时疑似域名集合;将候选实时疑似域名集合和可信域名集合中的元素,分别采用局部敏感哈希函数映射,得到候选实时疑似域名集合和可信域名集合中元素的桶号;确定候选实时疑似域名集合中元素桶号,与可信域名集合中元素桶号相比,小于预设阈值的元素,以得到每一实时疑似域名。
本发明实施例提供的系统实施例是为了实现上述各方法实施例的,具体流程和详细内容请参照上述方法实施例,此处不再赘述。
本发明实施例提供的面向仿冒域名的自适应安全威胁分析系统,根据域名信息及域名网页内容,确定域名对的多个核查指标的量化值,能够建立全面的疑似域名评估指标体系,而非事后检测和紧急处置。利用每个核查指标的预设权重,得到域名对中疑似域名的可信度,考虑到了每个指标带来的差异,有利于域名仿冒分析的量化,从而表征各疑似域名的威胁程度。另外,该方法能够对所有疑似域名进行分析,可通过网络实时数据流量获得疑似域名,能够实现主动的、持续性的实时威胁检测。
图6为本发明实施例提供的一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)601、通信接口(Communications Interface)602、存储器(memory)603和总线604,其中,处理器601,通信接口602,存储器603通过总线604完成相互间的通信。通信接口602可以用于电子设备的信息传输。处理器601可以调用存储器603中的逻辑指令,以执行包括如下的方法:根据已有的可信域名集合,获取每一可信域名的多个疑似域名,每一可信域名和对应的一个疑似域名构成一个域名对;根据每一域名对中两个域名的域名信息及域名网页内容,确定域名对的多个核查指标的量化值;根据多个核查指标的量化值,以及每个核查指标的预设权重,得到域名对中疑似域名的可信度,以表征疑似域名对于可信域名的威胁程度。
此外,上述的存储器603中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明上述各方法实施例的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法,例如包括:根据已有的可信域名集合,获取每一可信域名的多个疑似域名,每一可信域名和对应的一个疑似域名构成一个域名对;根据每一域名对中两个域名的域名信息及域名网页内容,确定域名对的多个核查指标的量化值;根据多个核查指标的量化值,以及每个核查指标的预设权重,得到域名对中疑似域名的可信度,以表征疑似域名对于可信域名的威胁程度。
以上所描述的系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种面向仿冒域名的自适应安全威胁分析方法,其特征在于,包括:
根据已有的可信域名集合,获取每一可信域名的多个疑似域名,每一可信域名和对应的一个疑似域名构成一个域名对;
根据每一域名对中两个域名的域名信息及域名网页内容,确定所述域名对的多个核查指标的量化值;
根据所述多个核查指标的量化值,以及每个核查指标的预设权重,得到所述域名对中疑似域名的可信度,以表征所述疑似域名对于可信域名的威胁程度;
所述根据所述多个核查指标的量化值,以及每个核查指标的预设权重,得到所述域名对中疑似域名的可信度,包括:
确定所述多个核查指标的量化值在希尔伯特空间的坐标表示;
根据每个核查指标的预设权重,对所述多个核查指标的希尔伯特空间坐标进行加权,得到所述多个核查指标的希尔伯特子空间坐标;
确定所述子空间坐标的范数,得到所述域名对中疑似域名的可信度。
2.根据权利要求1所述的面向仿冒域名的自适应安全威胁分析方法,其特征在于,所述疑似域名包括潜在疑似域名和/或实时疑似域名;
所述潜在疑似域名,根据可信域名进行分析构造得到;
所述实时疑似域名,为在可信域名的基础上,根据网络流量数据分析得到。
3.根据权利要求2所述的面向仿冒域名的自适应安全威胁分析方法,其特征在于,若所述疑似域名包括潜在疑似域名,则获取每一可信域名的多个疑似域名,包括:
根据预设的多种构造方法,对可信域名进行变换,生成候选潜在疑似域名;
对所述候选潜在疑似域名进行活跃度判断,筛选后得到每一潜在疑似域名。
4.根据权利要求2所述的面向仿冒域名的自适应安全威胁分析方法,其特征在于,若所述疑似域名包括实时疑似域名,则获取每一可信域名的多个疑似域名,包括:
根据互联网流量数据得到候选实时疑似域名集合;
将候选实时疑似域名集合和可信域名集合中的元素,分别采用局部敏感哈希函数映射,得到候选实时疑似域名集合和可信域名集合中元素的桶号;
确定候选实时疑似域名集合中元素桶号,与可信域名集合中元素桶号相比,小于预设阈值的元素,以得到每一实时疑似域名。
5.根据权利要求3所述的面向仿冒域名的自适应安全威胁分析方法,其特征在于,所述预设的多种构造方法,包括:
基于误植域名、比特错误域名、同音异义域、同形异义域名、缩写仿冒域名和组合仿冒域名的构造方法,以及基于深度学习的构造方法中的任意一种或任意多种。
6.根据权利要求1所述的面向仿冒域名的自适应安全威胁分析方法,其特征在于,所述获取每一可信域名的多个疑似域名之后,所述根据每一域名对中两个域名的域名信息及域名网页内容,确定所述域名对的多个核查指标的量化值之前,还包括:
根据已有的仿冒域名黑名单,对每一可信域名的多个疑似域名进行匹配筛选,剔除已确定为仿冒域名的疑似域名。
7.根据权利要求6所述的面向仿冒域名的自适应安全威胁分析方法,其特征在于,所述得到所述域名对中疑似域名的可信度之后,还包括:
根据所述可信度,判断所述疑似域名为可信域名或仿冒域名;
若所述疑似域名为可信域名,则将确定为可信域名的疑似域名,加入至已有的可信域名集合中;
若所述疑似域名为仿冒域名,则将确定为仿冒域名的疑似域名,加入至已有的仿冒域名黑名单中。
8.一种面向仿冒域名的自适应安全威胁分析系统,其特征在于,包括:
疑似域名获取模块,用于根据已有的可信域名集合,获取每一可信域名的多个疑似域名,每一可信域名和对应的一个疑似域名构成一个域名对;
核查指标量化模块,用于根据每一域名对中两个域名的域名信息及域名网页内容,确定所述域名对的多个核查指标的量化值;
可信度评估模块,用于根据所述多个核查指标的量化值,以及每个核查指标的预设权重,得到所述域名对中疑似域名的可信度,以表征所述疑似域名对于可信域名的威胁程度;
所述根据所述多个核查指标的量化值,以及每个核查指标的预设权重,得到所述域名对中疑似域名的可信度,包括:
确定所述多个核查指标的量化值在希尔伯特空间的坐标表示;
根据每个核查指标的预设权重,对所述多个核查指标的希尔伯特空间坐标进行加权,得到所述多个核查指标的希尔伯特子空间坐标;
确定所述子空间坐标的范数,得到所述域名对中疑似域名的可信度。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述面向仿冒域名的自适应安全威胁分析方法的步骤。
CN201911202906.0A 2019-11-29 2019-11-29 一种面向仿冒域名的自适应安全威胁分析方法及系统 Active CN110855716B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911202906.0A CN110855716B (zh) 2019-11-29 2019-11-29 一种面向仿冒域名的自适应安全威胁分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911202906.0A CN110855716B (zh) 2019-11-29 2019-11-29 一种面向仿冒域名的自适应安全威胁分析方法及系统

Publications (2)

Publication Number Publication Date
CN110855716A CN110855716A (zh) 2020-02-28
CN110855716B true CN110855716B (zh) 2020-11-06

Family

ID=69606485

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911202906.0A Active CN110855716B (zh) 2019-11-29 2019-11-29 一种面向仿冒域名的自适应安全威胁分析方法及系统

Country Status (1)

Country Link
CN (1) CN110855716B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111756724A (zh) * 2020-06-22 2020-10-09 杭州安恒信息技术股份有限公司 钓鱼网站的检测方法、装置、设备、计算机可读存储介质
CN114257565B (zh) * 2020-09-10 2023-09-05 中国移动通信集团广东有限公司 挖掘潜在威胁域名的方法、系统和服务器
CN113239155A (zh) * 2021-06-02 2021-08-10 浙江网商银行股份有限公司 数据处理方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571768A (zh) * 2011-12-26 2012-07-11 北京大学 一种钓鱼网站检测方法
CN105119909A (zh) * 2015-07-22 2015-12-02 国家计算机网络与信息安全管理中心 一种基于页面视觉相似性的仿冒网站检测方法和系统
CN106170002A (zh) * 2016-09-08 2016-11-30 中国科学院信息工程研究所 一种中文仿冒域名检测方法及系统
CN108683686A (zh) * 2018-06-21 2018-10-19 中国科学院信息工程研究所 一种随机子域名DDoS攻击检测方法
CN109522504A (zh) * 2018-10-18 2019-03-26 杭州安恒信息技术股份有限公司 一种基于威胁情报判别仿冒网站的方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120089745A1 (en) * 2010-10-06 2012-04-12 Bhavin Turakhia Computer enabled method and system for associating an ip address to a domain name
US20160065534A1 (en) * 2011-07-06 2016-03-03 Nominum, Inc. System for correlation of domain names
US10075384B2 (en) * 2013-03-15 2018-09-11 Advanced Elemental Technologies, Inc. Purposeful computing
CN105975544A (zh) * 2016-04-28 2016-09-28 天津贝德曼科技有限公司 一类大数据挖掘的“特质技法库”构造技术

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571768A (zh) * 2011-12-26 2012-07-11 北京大学 一种钓鱼网站检测方法
CN105119909A (zh) * 2015-07-22 2015-12-02 国家计算机网络与信息安全管理中心 一种基于页面视觉相似性的仿冒网站检测方法和系统
CN106170002A (zh) * 2016-09-08 2016-11-30 中国科学院信息工程研究所 一种中文仿冒域名检测方法及系统
CN108683686A (zh) * 2018-06-21 2018-10-19 中国科学院信息工程研究所 一种随机子域名DDoS攻击检测方法
CN109522504A (zh) * 2018-10-18 2019-03-26 杭州安恒信息技术股份有限公司 一种基于威胁情报判别仿冒网站的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Detection of Malicious Domain Names Based on Hidden Markov Model;Pin Lv,etc.;《2018 IEEE Third International Conference on Data Science in Cyberspace (DSC)》;20180719;全文 *

Also Published As

Publication number Publication date
CN110855716A (zh) 2020-02-28

Similar Documents

Publication Publication Date Title
Zhu et al. OFS-NN: an effective phishing websites detection model based on optimal feature selection and neural network
Gowtham et al. A comprehensive and efficacious architecture for detecting phishing webpages
CN110855716B (zh) 一种面向仿冒域名的自适应安全威胁分析方法及系统
CN109922065B (zh) 恶意网站快速识别方法
CN104217160A (zh) 一种中文钓鱼网站检测方法及系统
Rahim et al. Detecting the Phishing Attack Using Collaborative Approach and Secure Login through Dynamic Virtual Passwords.
CN112073551B (zh) 基于字符级滑动窗口和深度残差网络的dga域名检测系统
Nowroozi et al. An adversarial attack analysis on malicious advertisement url detection framework
Aung et al. URL-based phishing detection using the entropy of non-alphanumeric characters
Mythreya et al. Prediction and prevention of malicious URL using ML and LR techniques for network security: machine learning
CN110958244A (zh) 一种基于深度学习的仿冒域名检测方法及装置
Rasheed et al. Adversarial attacks on featureless deep learning malicious URLs detection
Baballe et al. Management of Vulnerabilities in Cyber Security
Goswami et al. Phishing detection using significant feature selection
Ab Razak et al. Comparative analysis of machine learning classifiers for phishing detection
Noh et al. Phishing Website Detection Using Random Forest and Support Vector Machine: A Comparison
Wang Botnet Detection via Machine Learning Techniques
Almarzooqi et al. Detecting Malicious Domains Using Statistical Internationalized Domain Name Features in Top Level Domains
Wable et al. CheckPhish: Leveraging A Machine Learning Approach for Detecting Phishing Websites
CN114499980A (zh) 一种钓鱼邮件检测方法、装置、设备及存储介质
Chen et al. Attack intent analysis method based on attack path graph
Azeez et al. Approach for Identifying Phishing Uniform Resource Locators (URLs)
Adil et al. A review on phishing website detection
Kodati et al. Ensemble Framework of Artificial immune system based on Network Intrusion Detection System for Network Security Sustainability
Rahim et al. A survey on anti-phishing techniques: From conventional methods to machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant