CN110958244A - 一种基于深度学习的仿冒域名检测方法及装置 - Google Patents

一种基于深度学习的仿冒域名检测方法及装置 Download PDF

Info

Publication number
CN110958244A
CN110958244A CN201911205605.3A CN201911205605A CN110958244A CN 110958244 A CN110958244 A CN 110958244A CN 201911205605 A CN201911205605 A CN 201911205605A CN 110958244 A CN110958244 A CN 110958244A
Authority
CN
China
Prior art keywords
domain name
counterfeit
short term
term memory
suspected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911205605.3A
Other languages
English (en)
Inventor
时金桥
关建峰
王东滨
石瑞生
杨金翠
张婉澂
李佳蔚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201911205605.3A priority Critical patent/CN110958244A/zh
Publication of CN110958244A publication Critical patent/CN110958244A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种基于深度学习的仿冒域名检测方法及装置,该方法包括:从网络数据中,获取多个疑似域名,将每一疑似域名和已有的可信域名集合中的元素构成一个域名对;将每一域名对输入至预设的双向长短期记忆网络模型,根据双向长短期记忆网络模型的输出结果,确定每一域名对中的疑似域名为可信域名仿冒域名的结果;其中,双向长短期记忆网络模型,根据已知仿冒结果作为标签的域名对,作为样本进行训练后得到。该方法能够充分利用域名上下文信息,提升域名检测的精准度,解决了传统基于编辑距离设计检测规则方法的不足。通过神经网络实现,能够改善在处理海量数据性能方面的不足,实现高精度和高鲁棒性的仿冒域名判断。

Description

一种基于深度学习的仿冒域名检测方法及装置
技术领域
本发明涉及网络安全领域,尤其涉及一种基于深度学习的仿冒域名检测方法及装置。
背景技术
域名服务系统(DNS)是互联网运行的重要基础设施,为全球互联网用户提供着大量网站访问、电子邮件等互联网基础性服务。作为互联网重要的核心基础设施,DNS主要提供域名解析功能,完成域名到地址的双向映射,一直为全球互联网的正确运行提供着关键性的基础服务。由于web网站的访问、电子邮件等大量网络服务都需要DNS的支持才能正常运行,因此DNS的安全可靠运行也成为互联网安全稳定运行的重要基础。基于此特点,DNS极易被各种网络攻击行为恶意利用,如僵尸网络、欺骗攻击、误植域名注册等,这使得DNS安全成为互联网安全可靠运行必须要解决的问题之一,受到了诸多国内外相关机构的高度重视。
在针对域名服务系统的各类网络攻击中,仿冒域名攻击由于其工程实现简单,传播范围广泛,被攻击者广泛用于网络钓鱼、恶意软件传播、僵尸网络、盗取个人隐私信息、售卖虚假商品等。仿冒域名攻击是指攻击者抢先一步去注册包含知名商标或与该商标极其相似的互联网域名后,高价出售或进行网络攻击、流量窃取等非法行为。
域名的主要技术特征分类包括域名的生成机制、域名的相似性、跳变性和连通性等,目前的仿冒域名检测算法,主要是针对域名的相似性进行防护。研究者常常先对仿冒域名的伤害进行量化,然后根据其特征建模,进而利用模型检测仿冒域名。
目前的检测方法最大的不足在于,现有方法基本都是以编辑距离为核心进行的,域名生成算法单一,编辑距离虽然计算简单,但从本质上来讲还是基于规则的,并没有充分利用域名字符串的上下文信息,并且对短域名的检测易产生大量的假阳性结果,检测精度和效率有待提升。
发明内容
为了解决上述问题,本发明实施例提供一种基于深度学习的仿冒域名检测方法及装置。
第一方面,本发明实施例提供一种基于深度学习的仿冒域名检测方法,包括:从网络数据中,获取多个疑似域名,将每一疑似域名和已有的可信域名集合中的元素构成一个域名对;将每一域名对输入至预设的双向长短期记忆网络(简称BiLSTM)模型,根据所述双向长短期记忆网络模型的输出结果,确定每一域名对中的疑似域名为可信域名仿冒域名的结果;其中,所述双向长短期记忆网络模型,根据已知仿冒结果作为标签的域名对,作为样本进行训练后得到。
进一步地,所述从网络数据中,获取多个疑似域名之前,还包括:对网数据进行筛选,相应地,从数据筛选后的网络数据中,获取多个疑似域名;其中,对应的筛选方法包括,时间窗方法或分类器方法。
进一步地,所述从网络数据中,获取多个疑似域名,包括:从网络数据中获取多个域名,在已有的可信域名集合的基础上,采用加速判定算法,确定网络数据中的多个疑似域名;其中,所述加速判定算法,包括基于局部敏感哈希的加速判定算法。
进一步地,所述从网络数据中,获取多个疑似域名之后,还包括:根据已有的仿冒域名黑名单,对网络数据中的多个疑似域名进行匹配筛选,剔除已确定为仿冒域名的疑似域名。
进一步地,所述将每一域名对输入至预设的双向长短期记忆网络模型,根据所述双向长短期记忆网络模型的输出结果,确定每一域名对中的疑似域名为可信域名仿冒域名的结果,包括:将每一域名对,经输入层分别输入至双向长短期记忆神经网络模型的正向LSTM(长短期记忆网络)层和反向LSTM层;将正向LSTM层和反向LSTM层的输出结果,共同输入至逻辑回归层,再经输出层得到疑似域名为可信域名仿冒域名的结果。
进一步地,将每一域名对输入至预设的双向长短期记忆网络模型之前,还包括:获取多个可信域名和对应的已知仿冒结果的疑似域名,每一可信域名和已知仿冒结果的疑似域名构成一个样本域名对,并根据仿冒结果设置标签;将每个样本域名对和对应标签的组合作为一个训练样本,从而得到多个训练样本,利用所述多个训练样本对所述双向长短期记忆神经网络模型进行训练。
进一步地,利用所述多个训练样本对所述双向长短期记忆神经网络模型进行训练,包括:将任意一个样本域名对,输入至所述双向长短期记忆神经网络模型,利用前向传播算法,计算所述样本域名对在所述双向长短期记忆神经网络模型的结果数据;基于反向传播算法,更新所述双向长短期记忆神经网络模型的模型参数;根据所述双向长短期记忆神经网络模型的输出与标签的误差,计算所述双向长短期记忆神经网络模型的准确率,若所述准确率大于预设阈值或训练次数达到预设次数,则所述双向长短期记忆神经网络模型训练完成。
第二方面,本发明实施例提供一种基于深度学习的仿冒域名检测装置,包括:疑似域名获取模块,用于从网络数据中,获取多个疑似域名,将每一疑似域名和已有的可信域名集合中的元素构成一个域名对;仿冒域名检测模块,用于将每一域名对输入至预设的双向长短期记忆网络模型,根据所述双向长短期记忆网络模型的输出结果,确定每一域名对中的疑似域名为可信域名仿冒域名的结果;其中,所述双向长短期记忆网络模型,根据已知仿冒结果作为标签的域名对,作为样本进行训练后得到。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现本发明第一方面基于深度学习的仿冒域名检测方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本发明第一方面基于深度学习的仿冒域名检测方法的步骤。
本发明实施例提供的基于深度学习的仿冒域名检测方法及装置,预设的双向长短期记忆网络模型,根据已知仿冒结果作为标签的域名对,作为样本进行训练后得到,能够输出域名对中疑似域名为仿冒域名的计算结果。利用双向LSTM来构建仿冒域名检测的分类器,从而能够充分利用域名上下文信息,提升域名检测的精准度,解决了传统基于编辑距离设计检测规则方法的不足。通过神经网络实现,能够改善在处理海量数据性能方面的不足,实现高精度和高鲁棒性的仿冒域名判断。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于深度学习的仿冒域名检测方法流程图;
图2为本发明实施例提供的基于深度学习的仿冒域名检测装置结构图;
图3为本发明实施例提供的一种电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在实际的高速互联网流量和大数据计算场景中,数据量十分庞大,因此仿冒域名检测需要以快速、有效的方式降低运算处理级别,以提升检测的效率。
图1为本发明实施例提供的基于深度学习的仿冒域名检测方法流程图,如图1所示,本发明实施例提供一种基于深度学习的仿冒域名检测方法,包括:
101,从网络数据中,获取多个疑似域名,将每一疑似域名和已有的可信域名集合中的元素构成一个域名对。
首先,可信域名是预先确定的,具体实施过程中,可信域名为多个可信域名构成的集合。具体地,可采用Alexa排名前一百万的域名和VirusTotal API中验证过的正常域名作为白名单,得到可信域名集合。
在仿冒域名检测问题中,判定一个域名是否为仿冒域名必然是相对一个知名域名或者受保护域名而言的。针对单独给定的一个域名,无法仅依赖该域名判定其是否为仿冒域名。因此,在实际的仿冒域名检测系统中,需要事先存在一个知名域名集合或受保护域名集合,记为S,即本实施例中的可信域名集合。对给定的待判定域名,即疑似域名d,如果d是根据S中某个元素仿冒的域名,则认为域名d是一个仿冒域名。集合S的规模决定了域名d的相对判定范围。集合S的实际选取与具体应用需求密切相关。例如,在可信政务的应用背景下,集合S包含的是政务域名。
为了便于理解,将疑似域名和每个可信域名表示为一个域名对:(可信域名,疑似域名)。应当理解的是,域名对只是一种表示,便于神经网络模型进行分析,而非对本实施例方法的限制,具体也可以是疑似域名d和可信域名集合S中每一元素的比较。
102,将每一域名对输入至预设的双向长短期记忆网络模型,根据双向长短期记忆网络模型的输出结果,确定每一域名对中的疑似域名为可信域名仿冒域名的结果。
在102中,可定义函数F(d,S),如果F(d,S)取值为1,则表明d至少是S中一个域名元素的仿冒域名,如果d不是S中任何域名元素的仿冒域名,则函数取值为0。
双向长短期记忆神经网络由前向的LSTM与后向的LSTM结合而成,LSTM是RNN的一个优秀的变种模型,继承了大部分RNN模型的特性。LSTM非常适合用于处理与时间序列高度相关的问题,例如机器翻译、对话生成、编码、解码等。本实施例中的双向长短期记忆网络模型相当于上述函数,利用双向长短期记忆网络模型的强大学习能力,可以实现疑似域名的检测。
预设的双向长短期记忆网络模型,根据已知仿冒结果作为标签的域名对,作为样本进行训练后得到。样本域名对是预先已经获知仿冒结果的域名,和对应的可信域名组成的,并将对应的已知仿冒结果作为每一样本域名对的标签。建立双向长短期记忆网络模型后,通过大量的此类样本域名对进行训练,从而得到预设的双向长短期记忆网络模型,对于后续需判定的疑似域名和可信域名组成的域名对,输入至预设的双向长短期记忆网络模型,能够快速准确得到相应仿冒结果。
本发明实施例提供的基于深度学习的仿冒域名检测方法,预设的双向长短期记忆网络模型,根据已知仿冒结果作为标签的域名对,作为样本进行训练后得到,能够输出域名对中疑似域名为仿冒域名的计算结果。利用双向长短期记忆网络来构建仿冒域名检测的分类器,从而能够充分利用域名上下文信息,提升域名检测的精准度,解决了传统基于编辑距离设计检测规则方法的不足。通过神经网络实现,能够改善在处理海量数据性能方面的不足,实现高精度和高鲁棒性的仿冒域名判断。
基于上述实施例的内容,作为一种可选实施例,从网络数据中,获取多个疑似域名之前,还包括:对网络数据进行筛选,相应地,从数据筛选后的网络数据中,获取多个疑似域名;其中,对应的筛选方法包括,时间窗方法或分类器方法。
首先,仿冒域名快速筛选是完成对互联网出入口高速流量中仿冒域名的初步筛选,即在进行仿冒域名深度检测前实现运算处理量的降级。其目标是将高速互联网流量和大数据计算场景,以快速、有效的方式降低运算处理级别,以提升检测的效率。目前,快速筛选(即一次加速)主要采用时间窗、分类器的快速算法。
本实施例提供的基于深度学习的仿冒域名检测方法,从数据筛选后的网络数据中,获取每一可信域名的多个疑似域名,能够实现运算处理量的降级。
基于上述实施例的内容,作为一种可选实施例,从网络数据中,获取多个疑似域名,包括:从网络数据中获取多个域名,在已有的可信域名集合的基础上,采用加速判定算法,确定网络数据中的多个疑似域名;其中,所述加速判定算法,包括基于局部敏感哈希的加速判定算法。
在实际应用环境中,仿冒域名的数量与真实域名的数量相比是非常少的,在进行仿冒域名检测比对过程中,大部分情况需要执行数次(受保护域名集合中域名的数量)重复的判定计算。当受保护域名集合规模较大时,整个判定过程的耗时会非常大。因此,在线高速检测模块中设计了仿冒域名判定加速功能(即二次加速)。通常的加速方法有传统哈希。传统哈希算法对于两个数有细小差别时,其计算出的哈希值将产生尽可能大的差异,因此不太适用于仿冒域名的判定加速。本发明实施例中,采用局部敏感哈希,对于越相似的数值会产生相近的哈希值,可在很多需要在大量数据中查找近似数据的场景下应用,如查找网络上的重复网页、相似图像检索等。
局部敏感哈希,常简称为LSH,LSH主要运用到高维海量数据的快速近似查找。近似查找便是比较数据点之间的距离或者是相似度。因此,很明显,LSH是向量空间模型下的东西。一切数据都是以点或者说以向量的形式表现出来的,局部敏感哈希能够实现高维度域名数据的快速查找。本发明实施例中的基于局部敏感哈希加速判定算法包括,基于分词的局部敏感哈希和针对域名的局部敏感哈希。
本实施例提供的基于深度学习的仿冒域名检测方法,在已有的可信域名集合的基础上,采用包括基于局部敏感哈希的检测加速算法在内的加速判定算法,使判定速度大幅提升,并较传统局部哈希方式的筛选率和覆盖率有较大提高。能够实现疑似域名的快速查找,减小计算次数,提升筛选判定速度,节省检测时间。
基于上述实施例的内容,作为一种可选实施例,从网络数据中,获取多个疑似域名之后,还包括:根据已有的仿冒域名黑名单,对网络数据中的多个疑似域名进行匹配筛选,剔除已确定为仿冒域名的疑似域名。
在高速网络流量中,域名的数量是海量的。首先对海量的域名数据进行黑白名单过滤,采用黑白名单匹配的方法对域名进行过滤,形成的灰域名数量可以大大减少,提高系统的性能。采集互联网上公开的域名黑名单列表作为仿冒域名黑名单,然后对黑白名单过滤后的灰域名进行仿冒域名检测。
本实施例提供的基于深度学习的仿冒域名检测方法,根据已有的仿冒域名黑名单,对网络数据中的多个疑似域名进行匹配筛选,剔除已确定为仿冒域名的疑似域名,能够降低多个疑似域名的数量,减少可信度评估的计算量。
基于上述实施例的内容,作为一种可选实施例,将每一域名对输入至预设的双向长短期记忆网络模型,根据双向长短期记忆网络模型的输出结果,确定每一域名对中的疑似域名为可信域名仿冒域名的结果,包括:将每一域名对,经输入层分别输入至双向长短期记忆神经网络模型的正向LSTM层和反向LSTM层;将正向LSTM层和反向LSTM层的输出结果,共同输入至逻辑回归层,再经输出层得到疑似域名为可信域名仿冒域名的结果。
本实施例以双向长短期记忆网络作为检测模型,该双向长短期记忆网络模型的结构主要包括:一个输入层、正向LSTM层、反向LSTM层、逻辑回归层和一个输出层。
相应地,将待检测的域名对,经输入层分别输入至双向长短期记忆神经网络模型的正向LSTM层和反向LSTM层,正向LSTM层和反向LSTM层的输出结果,共同输入至逻辑回归层,通过逻辑回归层的softmax层函数,得到疑似域名对应结果的概率,从输出层输出疑似域名为仿冒域名的结果,如1为仿冒域名,0为非仿冒域名。
基于上述实施例的内容,作为一种可选实施例,将域名对输入至预设的双向长短期记忆网络模型之前,还包括:获取多个可信域名和对应的已知仿冒结果的疑似域名,每一可信域名和已知仿冒结果的疑似域名构成一个样本域名对,并根据仿冒结果设置标签;将每个样本域名对和对应标签的组合作为一个训练样本,从而得到多个训练样本,利用多个训练样本对双向长短期记忆神经网络模型进行训练。
在离线的模型训练阶段,将仿冒域名的判断问题转化为域名对的分类问题。构建一个基于BiLSTM的神经网络分类器供域名判定阶段使用。模型训练是有监督学习的,需要大量带标签的训练样本。每个训练样本是一个三元组<d1,d2,f(d1,d2)>,d1和d2是域名,f(d1,d2)是取值为仿冒域名或非仿冒域名的标签,表明d1是否为d2的仿冒域名。
作为可选实施例,在训练过程中,将域名对<d1,d2>根据域名中各字符的字典编号进行one-hot编码。将两个域名的one-hot编码补齐并拼接,然后输入到神经网络中进行字符向量化表示和双向长短期记忆网络模型训练学习。最后通过Softmax激活函数层转换为0/1分类标签。1表示为仿冒域名,0则表示不是仿冒域名。通过大量样本域名对进行训练,从而得到预设的双向长短期记忆网络模型。
本实施例提供的基于深度学习的仿冒域名检测方法,利用多个训练样本对双向长短期记忆神经网络模型进行训练,从而对于输入该双向长短期记忆神经网络模型进行仿冒域名判定的域名对,能够得到准确的输出结果。
基于上述实施例的内容,作为一种可选实施例,利用多个训练样本对BiLSTM模型进行训练,包括:将任意一个样本域名对,输入至双向长短期记忆神经网络模型,利用前向传播算法,计算样本域名对在双向长短期记忆神经网络模型的结果数据;基于反向传播算法,更新双向长短期记忆神经网络模型的模型参数;根据双向长短期记忆神经网络模型的输出与标签的误差,计算双向长短期记忆神经网络模型的准确率,若准确率大于预设阈值或训练次数达到预设次数,则双向长短期记忆神经网络模型训练完成。
将样本域名对输入至双向长短期记忆神经网络模型,采用前向传播算法计算每个神经元的输出。并根据输出值,采用反向传播算法,更新长短时记忆神经网络模型中的权重值。反向传播中可通过梯度下降算法迭代更新模型中的权重,同时计算每个神经元输出的误差值。其中,BiLSTM的误差项的反向传播包括两个方向:一个是沿时间反向传播,另一个是将误差项向上一层神经元传播。根据相应的误差项,计算每个权重的梯度以更新权重。
由于长短期记忆神经网络模型训练是一个迭代过程,需要对训练出的模型进行验证以确定终止条件。可根据输入的标签数据和输出的结果数据确定模型的输入输出误差后,计算BiLSTM模型的准确率,若准确率大于预设阈值大于或等于预设阈值,则结束上述对模型的训练过程。若准确率小于预设阈值,则继续重复训练过程直至预设训练次数。通过循环训练和验证找出满足预设误差的训练后的模型,则终止对模型的训练。或者,达到一定的训练次数后则终止训练过程。
图2为本发明实施例提供的基于深度学习的仿冒域名检测装置结构图,如图2所示,该基于深度学习的仿冒域名检测装置包括:疑似域名获取模块201和仿冒域名检测模块202。其中,疑似域名获取模块201用于从网络数据中,获取多个疑似域名,将每一疑似域名和已有的可信域名集合中的元素构成一个域名对;仿冒域名检测模块,用于将每一域名对输入至预设的双向长短期记忆网络模型,根据双向长短期记忆网络模型的输出结果,确定每一域名对中的疑似域名为可信域名仿冒域名的结果;其中,双向长短期记忆网络模型,根据已知仿冒结果作为标签的域名对,作为样本进行训练后得到。
基于上述实施例的内容,作为一种可选实施例,疑似域名获取模块201包括疑似域名快速筛选子模块,用于从网络数据中,获取多个疑似域名之前,对网数据进行筛选;其中,对应的筛选方法包括,时间窗方法或分类器方法。
基于上述实施例的内容,作为一种可选实施例,疑似域名获取模块201包括疑似域名判定加速子模块,用于从网络数据中获取多个域名,在已有的可信域名集合的基础上,采用加速判定算法,确定网络数据中获取的多个域名中的每一疑似域名;其中,加速判定算法,包括基于局部敏感哈希的加速判定算法。
基于上述实施例的内容,作为一种可选实施例,疑似域名快速筛选子模块,还用于根据已有的仿冒域名黑名单,对网络数据中的多个疑似域名进行匹配筛选,剔除已确定为仿冒域名的疑似域名。
基于上述实施例的内容,作为一种可选实施例,仿冒域名检测模块202,还用于:将每一域名对,经输入层分别输入至双向长短期记忆神经网络模型的正向LSTM层和反向LSTM层;将正向LSTM层和反向LSTM层的输出结果,共同输入至逻辑回归层,再经输出层得到疑似域名为可信域名仿冒域名的结果。
基于上述实施例的内容,作为一种可选实施例,仿冒域名检测模块202,还用于:获取多个可信域名和对应的已知仿冒结果的疑似域名,每一可信域名和已知仿冒结果的疑似域名构成一个样本域名对,并根据仿冒结果设置标签;将每个样本域名对和对应标签的组合作为一个训练样本,从而得到多个训练样本,利用多个训练样本对双向长短期记忆神经网络模型进行训练。
基于上述实施例的内容,作为一种可选实施例,仿冒域名检测模块202,还用于:将任意一个样本域名对,输入至双向长短期记忆神经网络模型,利用前向传播算法,计算样本域名对在双向长短期记忆神经网络模型的结果数据;基于反向传播算法,更新双向长短期记忆神经网络模型的模型参数;根据双向长短期记忆神经网络模型的输出与标签的误差,计算双向长短期记忆神经网络模型的准确率,若准确率大于预设阈值或训练次数达到预设次数,则双向长短期记忆神经网络模型训练完成。
本发明实施例提供的装置实施例是为了实现上述各方法实施例的,具体流程和详细内容请参照上述方法实施例,此处不再赘述。
本发明实施例提供的基于深度学习的仿冒域名检测装置,仿冒域名检测模块中设有预设的双向长短期记忆网络模型,根据已知仿冒结果作为标签的域名对,作为样本进行训练后得到,能够输出域名对中疑似域名为仿冒域名的计算结果。利用双向长短期记忆网络来构建仿冒域名检测的分类器,从而能够充分利用域名上下文信息,提升域名检测的精准度,解决了传统基于编辑距离设计检测规则方法的不足。通过神经网络实现,能够改善在处理海量数据性能方面的不足,实现高精度和高鲁棒性的仿冒域名判断。
图3为本发明实施例提供的一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303和总线304,其中,处理器301,通信接口302,存储器303通过总线304完成相互间的通信。通信接口302可以用于电子设备的信息传输。处理器301可以调用存储器303中的逻辑指令,以执行包括如下的方法:从网络数据中,获取多个疑似域名,将每一疑似域名和已有的可信域名集合中的元素构成一个域名对;将每一域名对输入至预设的双向长短期记忆网络模型,根据双向长短期记忆网络模型的输出结果,确定每一域名对中的疑似域名为可信域名仿冒域名的结果;其中,双向长短期记忆网络模型,根据已知仿冒结果作为标签的域名对,作为样本进行训练后得到。
此外,上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明上述各方法实施例的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法,例如包括:从网络数据中,获取多个疑似域名,将每一疑似域名和已有的可信域名集合中的元素构成一个域名对;将每一域名对输入至预设的双向长短期记忆网络模型,根据双向长短期记忆网络模型的输出结果,确定每一域名对中的疑似域名为可信域名仿冒域名的结果;其中,双向长短期记忆网络模型,根据已知仿冒结果作为标签的域名对,作为样本进行训练后得到。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于深度学习的仿冒域名检测方法,其特征在于,包括:
从网络数据中,获取多个疑似域名,将每一疑似域名和已有的可信域名集合中的元素构成一个域名对;
将每一域名对输入至预设的双向长短期记忆网络模型,根据所述双向长短期记忆网络模型的输出结果,确定每一域名对中的疑似域名为可信域名仿冒域名的结果;
其中,所述双向长短期记忆网络模型,根据已知仿冒结果作为标签的域名对,作为样本进行训练后得到。
2.根据权利要求1所述的基于深度学习的仿冒域名检测方法,其特征在于,所述从网络数据中,获取多个疑似域名之前,还包括:
对网络数据进行筛选,相应地,从数据筛选后的网络数据中,获取多个疑似域名;
其中,对应的筛选方法包括,时间窗方法或分类器方法。
3.根据权利要求1所述的基于深度学习的仿冒域名检测方法,其特征在于,所述从网络数据中,获取多个疑似域名,包括:
从网络数据中获取多个域名,在已有的可信域名集合的基础上,采用加速判定算法,确定网络数据中的多个疑似域名;
其中,所述加速判定算法,包括基于局部敏感哈希的加速判定算法。
4.根据权利要求1所述的基于深度学习的仿冒域名检测方法,其特征在于,所述从网络数据中,获取多个疑似域名之后,还包括:
根据已有的仿冒域名黑名单,对网络数据中的多个疑似域名进行匹配筛选,剔除已确定为仿冒域名的疑似域名。
5.根据权利要求1所述的基于深度学习的仿冒域名检测方法,其特征在于,所述将每一域名对输入至预设的双向长短期记忆网络模型,根据所述双向长短期记忆网络模型的输出结果,确定每一域名对中的疑似域名为可信域名仿冒域名的结果,包括:
将每一域名对,经输入层分别输入至双向长短期记忆神经网络模型的正向LSTM层和反向LSTM层;
将正向LSTM层和反向LSTM层的输出结果,共同输入至逻辑回归层,再经输出层得到疑似域名为可信域名仿冒域名的结果。
6.根据权利要求1所述的基于深度学习的仿冒域名检测方法,其特征在于,将每一域名对输入至预设的双向长短期记忆网络模型之前,还包括:
获取多个可信域名和对应的已知仿冒结果的疑似域名,每一可信域名和已知仿冒结果的疑似域名构成一个样本域名对,并根据仿冒结果设置标签;
将每个样本域名对和对应标签的组合作为一个训练样本,从而得到多个训练样本,利用所述多个训练样本对所述双向长短期记忆神经网络模型进行训练。
7.根据权利要6所述的基于深度学习的仿冒域名检测方法,其特征在于,利用所述多个训练样本对所述双向长短期记忆神经网络模型进行训练,包括:
将任意一个样本域名对,输入至所述双向长短期记忆神经网络模型,利用前向传播算法,计算所述样本域名对在所述双向长短期记忆神经网络模型的结果数据;
基于反向传播算法,更新所述双向长短期记忆神经网络模型的模型参数;
根据所述双向长短期记忆神经网络模型的输出与标签的误差,计算所述双向长短期记忆神经网络模型的准确率,若所述准确率大于预设阈值或训练次数达到预设次数,则所述双向长短期记忆神经网络模型训练完成。
8.一种基于深度学习的仿冒域名检测装置,其特征在于,包括:
疑似域名获取模块,用于从网络数据中,获取多个疑似域名,将每一疑似域名和已有的可信域名集合中的元素构成一个域名对;
仿冒域名检测模块,用于将每一域名对输入至预设的双向长短期记忆网络模型,根据所述双向长短期记忆网络模型的输出结果,确定每一域名对中的疑似域名为可信域名仿冒域名的结果;
其中,所述双向长短期记忆网络模型,根据已知仿冒结果作为标签的域名对,作为样本进行训练后得到。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于深度学习的仿冒域名检测方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述基于深度学习的仿冒域名检测方法的步骤。
CN201911205605.3A 2019-11-29 2019-11-29 一种基于深度学习的仿冒域名检测方法及装置 Pending CN110958244A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911205605.3A CN110958244A (zh) 2019-11-29 2019-11-29 一种基于深度学习的仿冒域名检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911205605.3A CN110958244A (zh) 2019-11-29 2019-11-29 一种基于深度学习的仿冒域名检测方法及装置

Publications (1)

Publication Number Publication Date
CN110958244A true CN110958244A (zh) 2020-04-03

Family

ID=69979135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911205605.3A Pending CN110958244A (zh) 2019-11-29 2019-11-29 一种基于深度学习的仿冒域名检测方法及装置

Country Status (1)

Country Link
CN (1) CN110958244A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112054967A (zh) * 2020-08-07 2020-12-08 北京邮电大学 网络流量分类方法、装置、电子设备及存储介质
CN112929341A (zh) * 2021-01-22 2021-06-08 网宿科技股份有限公司 一种dga域名的检测方法、系统及装置
WO2022116419A1 (zh) * 2020-12-03 2022-06-09 平安科技(深圳)有限公司 域名侵权的自动化判定方法、装置、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107666490A (zh) * 2017-10-18 2018-02-06 中国联合网络通信集团有限公司 一种可疑域名检测方法及装置
CN108092963A (zh) * 2017-12-08 2018-05-29 平安科技(深圳)有限公司 网页识别方法、装置、计算机设备及存储介质
CN109246074A (zh) * 2018-07-23 2019-01-18 北京奇虎科技有限公司 识别可疑域名的方法、装置、服务器及可读存储介质
CN110138758A (zh) * 2019-05-05 2019-08-16 哈尔滨英赛克信息技术有限公司 基于域名词汇的误植域名检测方法
US10387911B1 (en) * 2012-06-01 2019-08-20 Integral Ad Science, Inc. Systems, methods, and media for detecting suspicious activity
US10491614B2 (en) * 2016-08-25 2019-11-26 Cisco Technology, Inc. Illegitimate typosquatting detection with internet protocol information

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10387911B1 (en) * 2012-06-01 2019-08-20 Integral Ad Science, Inc. Systems, methods, and media for detecting suspicious activity
US10491614B2 (en) * 2016-08-25 2019-11-26 Cisco Technology, Inc. Illegitimate typosquatting detection with internet protocol information
CN107666490A (zh) * 2017-10-18 2018-02-06 中国联合网络通信集团有限公司 一种可疑域名检测方法及装置
CN108092963A (zh) * 2017-12-08 2018-05-29 平安科技(深圳)有限公司 网页识别方法、装置、计算机设备及存储介质
CN109246074A (zh) * 2018-07-23 2019-01-18 北京奇虎科技有限公司 识别可疑域名的方法、装置、服务器及可读存储介质
CN110138758A (zh) * 2019-05-05 2019-08-16 哈尔滨英赛克信息技术有限公司 基于域名词汇的误植域名检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吕品等: ""基于双向LSTM的误植域名滥用检测方法"", 《电子学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112054967A (zh) * 2020-08-07 2020-12-08 北京邮电大学 网络流量分类方法、装置、电子设备及存储介质
WO2022116419A1 (zh) * 2020-12-03 2022-06-09 平安科技(深圳)有限公司 域名侵权的自动化判定方法、装置、电子设备和存储介质
CN112929341A (zh) * 2021-01-22 2021-06-08 网宿科技股份有限公司 一种dga域名的检测方法、系统及装置

Similar Documents

Publication Publication Date Title
CN109510815B (zh) 一种基于有监督学习的多级钓鱼网站检测方法及检测系统
Adebowale et al. Intelligent phishing detection scheme using deep learning algorithms
EP2803031B1 (en) Machine-learning based classification of user accounts based on email addresses and other account information
CN112866023B (zh) 网络检测、模型训练方法、装置、设备及存储介质
US9210189B2 (en) Method, system and client terminal for detection of phishing websites
CN108965245A (zh) 基于自适应异构多分类模型的钓鱼网站检测方法和系统
CN108650260B (zh) 一种恶意网站的识别方法和装置
CN110958244A (zh) 一种基于深度学习的仿冒域名检测方法及装置
CN109831459B (zh) 安全访问的方法、装置、存储介质和终端设备
CN112492059A (zh) Dga域名检测模型训练方法、dga域名检测方法、装置及存储介质
CN113098887A (zh) 一种基于网站联合特征的钓鱼网站检测方法
CN113221032A (zh) 链接风险检测方法、装置以及存储介质
CN112217787A (zh) 一种基于ed-gan的仿冒域名训练数据生成方法及系统
CN110855716B (zh) 一种面向仿冒域名的自适应安全威胁分析方法及系统
Nowroozi et al. An adversarial attack analysis on malicious advertisement url detection framework
CN112948725A (zh) 基于机器学习的钓鱼网站url检测方法及系统
CN114448664B (zh) 钓鱼网页的识别方法、装置、计算机设备及存储介质
CN114826681A (zh) 一种dga域名检测方法、系统、介质、设备及终端
CN115270996A (zh) 一种dga域名检测方法、检测装置及计算机存储介质
Zhu et al. Effective phishing website detection based on improved BP neural network and dual feature evaluation
CN117614644A (zh) 恶意网址识别方法、电子设备及存储介质
CN115001763B (zh) 钓鱼网站攻击检测方法、装置、电子设备及存储介质
Yazhmozhi et al. Natural language processing and Machine learning based phishing website detection system
Zaimi et al. A deep learning approach to detect phishing websites using CNN for privacy protection
EP3694177A1 (en) System for detecting and preventing malware execution in a target system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200403

RJ01 Rejection of invention patent application after publication