CN110781876B

CN110781876B - 一种基于视觉特征的仿冒域名轻量级检测方法及系统

Info

Publication number: CN110781876B
Application number: CN201910977731.4A
Authority: CN
Inventors: 朱怡; 宁振虎; 王小平
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-10-15
Filing date: 2019-10-15
Publication date: 2023-11-24
Anticipated expiration: 2039-10-15
Also published as: CN110781876A

Abstract

本发明公开了一种基于视觉特征的仿冒域名轻量级检测方法及系统，采用仅基于域名字符串的的轻量级检测策略进行仿冒域名检测，减小了计算和存储开销，适合应用在大规模DNS应用环境下的场景检测，此外，提出了域名视觉相似度的计算方法，通过考虑字符的位置、字符相似度、操作种类对于字符串相似度的影响，对它们赋予不同的权重来改进传统的编辑距离算法，一方面能解决传统编辑距离在仿冒域名检测上带来的假阳性问题，另一方面，从视觉角度检测仿冒域名可以很好的处理域名视觉模仿的情况，进而提高仿冒域名的检测精确度。本发明弥补了传统基于编辑距离设计的检测方法带来的不足，提高了仿冒域名的检测效率。

Description

一种基于视觉特征的仿冒域名轻量级检测方法及系统

技术领域

本发明属于信息安全领域，尤其涉及一种基于视觉特征的仿冒域名轻量级检测方法及系统，属于仿冒域名防护技术。

背景技术

作为互联网的基础，域名系统的重要性不言而喻，但近年来域名系统却频繁受到恶意攻击或因故障瘫痪，给网络安全造成极大冲击。域名系统的安全性之所以难以保证主要是由于互联网本质上是一个开放的系统，其结构复杂且缺乏足够的自身安全防护机制。

在DNS遭受的网络攻击中，仿冒域名(Typosquatting)因攻击成本低、危害范围广、盈利手段多样化等特点，已经成为威胁互联网安全运行的重要问题之一。仿冒域名是一种域名抢注行为，指抢先注册网络使用者因输入错误而访问的域名，以期望用户访问仿冒域名而非目标网站域名。仿冒域名通常是与流行的知名域名非常相似的域名。大量的仿冒域名站点被攻击者用来显示广告、将流量重定向到第三方页面、部署钓鱼网站或提供恶意软件而从中获利。例如，攻击者注册facebo0k.com、microsolt.com等域名，当网络使用者不小心错误输入时，就会访问这些网站，攻击者由此牟取非法利益或实现非法目的。

近年来对恶意域名的研究数不胜数，研究者就其检测问题给出了大量方法，可以将目前针对恶意域名的检测方法分为主动和被动的检测方法两种。

主动的恶意域名检测方法一般包括人工判断、网页内容分析和DNS探测的方法。人工判断如PhishTank、OpenDNS等平台可以提供人工举报和在线查询恶意域名的功能，但它需要人工分析域名，这将消耗大量的人力资源对域名进行判断；网页内容分析需要提取大量网页内容信息，匹配关键内容进行判断；DNS探测需要利用DNS递归日志和钓鱼URL历史库查寻高频的钓鱼URL路径，事先还要探测每个URL。

可见，主动检测的方法都需要使用额外的信息辅助分析，需要较高的分析代价，分析效率较低。所以，目前研究者多集中于被动检测方法的研究。被动的恶意域名检测方法可以分为基于匹配、基于机器学习和基于图的方法。

1)基于匹配的方法，是基于建立的黑名单实现的，通过匹配黑名单来阻止访问者对存在于黑名单上的网站的访问，而恶意域名黑名单则主要通过用户举报和网站维护者审查来更新。此方法依赖于黑名单、浪费人力，且对未出现在黑名单上的恶意域名网站不起作用。2)基于机器学习的方法，当今恶意域名检测方法多以该类方法为主，主要包括决策树、支持向量机、聚类等方法。该技术旨在使用算法提取域名特征，构建分类判别模型，把对仿冒域名的检测问题转化成二元模式的分类问题。但此类技术存在不足之处，当应用于DNS大数据环境时仍有许多困难，由于大部分特征比较复杂，在DNS大数据环境下很难及时获取，因此无法保证此类技术在海量数据中的检测准确率。3)基于图的方法，可以检测出新恶意域名。但值得说明的是，该类检测方法有图规模增长很快的问题。

与通常的恶意域名的检测技术相比，针对仿冒域名的安全检测技术相对较少。研究者通常检测仿冒域名和测量仿冒域名现象，以分析背后的盈利策略。Moore等人针对Alexa排名前3264的知名域名得到了938000个疑似仿冒域名。通过手动检查2195个样本，作者发现与编辑距离为1或2的域名很有可能是仿冒域名。仿冒域名检测是相对受保护目标集合进行，相关检测方法分为主动检测和被动检测两类。主动检测方法的基本工作原理如下：首先确定一个受保护目标集合，然后按照一些构造策略得到所有可能的仿冒域名列表，针对这些构造的域名，收集Whois注册信息、DNS解析信息、网页信息，主动分析并发现识别可能已由抢注者注册的仿冒域名，常见的构造策略有缺少字符、字符换位、字符替换等，常见的字符拼写错误如键盘上临近字符击打错误、视觉错误、字符的比特位错误等也会体现在构造策略里。被动检测方法是在网络环境下进行，通过分析流量中仿冒域名的方式并发现与受保护集合中元素编辑距离不超过2的域名。

显然，主动检测方法需要收集域名的相关信息进行判定以提高仿冒域名检测精度，存储和计算开销较大，不适于在线检测。被动检测方法大都以计算域名对之间的编辑距离为基础，但是对短域名的检测易产生大量假阳性结果，即对于顶级域名相同且二级域名字符串长度也为2的域名来说，其编辑距离就永远不会超过2。例如，以检测京东jd.com的仿冒域名为例，所有权威域长度为2的.com域名(如qq.com)与jd.com的编辑距离不会超过2，按照基于编辑距离的方法j就会将其判定为仿冒域名，进而带来大量的错误。Tingwen Liu等人基于编辑距离算法提出的一种反向查找方法TypoPegging，可以快速准确地获得给定域中最相似的热门网站，但是没有很好地处理域名视觉模仿的问题。

基于此，本发明提出了一种基于视觉特征的仿冒域名轻量级检测方法及系统，采用仅基于域名字符串的的轻量级检测策略进行仿冒域名检测，减小了计算和存储开销，适合应用在大规模DNS应用环境下的场景检测，此外，提出了域名视觉相似度的计算方法，通过考虑字符的位置、字符相似度、操作种类对于字符串相似度的影响，对它们赋予不同的权重来改进传统的编辑距离算法，一方面能解决传统编辑距离在仿冒域名检测上带来的假阳性问题，另一方面，从视觉角度检测仿冒域名可以很好的处理域名视觉模仿的情况，进而提高仿冒域名的检测精确度。

发明内容

本发明的目的主要在于提出了一种基于视觉特征的仿冒域名轻量级检测系统，包括目标域名集收集模块、候选仿冒域名集构建模块和仿冒域名检测模块；目标域名集收集模块、候选仿冒域名集构建模块和仿冒域名检测模块顺次连接。

为实现使用加权编辑距离算法对仿冒域名进行检测，首先，通过目标域名集收集模块收集目标域名集，通过Python编程爬取Alexa排名靠前的域名；利用候选仿冒域名集构建模块中的NCC Group在Github上开源的typofinder工具构造得到候选仿冒域名集；为了使仿冒域名检测更符合人的视觉感官以及解决编辑距离带来的假阳性错误，提出复合权重的概念对编辑距离算法进行改进；最后，在收集和构造的数据集的基础上，运用仿冒域名检测模块对仿冒域名进行检测。

本发明所提出的基于视觉特征的仿冒域名轻量级检测方法的流程如下：

S1目标域名集收集

收集来自Alexa排名前500的域名作为目标域名集。由于Alexa根据域名三个月累积的访问信息为排名依据，因此使用这些数据作为白名单。

S2候选仿冒域名集构建

正样本数据构造：对于Alexa排名前500的域名，利用NCC Group在Github上开源的typofinder工具获得其仿冒域名列表。typofinder基于已知常见的仿冒域名构造模式对给定域名构建可能的候选仿冒域名列表，并主动获取每个候选域名的相关信息来判定其是否为真实的仿冒域名，因而准确率相对较高。对这500个域名，限制域名长度为20以内，总计获取了5000个仿冒域名，构成本实验数据的正样本。

负样本数据构造：从Alexa排名前10000个域名中随机选择，域名长度同样限制为不超过20，构造了5000个域名对，为了更好地观察在短域名上的检测效果，限制域名对的编辑距离不超过3。Alexa前10000个域名基本都是访问量比较大的知名域名，因此可以基本判定这其中的任何一个域名都不会是另外一个网站的仿冒域名，由此构成本实验数据的负样本。

S3仿冒域名检测

此步为本发明的核心，将从以下两个部分进行详细说明。

S3.1基于视觉特征的仿冒域名测量机制设计；

通常距离算法中并没有考虑域名字符的位置、字符相似度、操作类型(插入、删除、替换)等因素，统一赋值为相同的权重(设置为1)。从机器的角度考虑，编辑距离能够测量两个字符串的相似度。但是，在面对域名时，人的视觉却与机器的“视觉”不同，字符的位置、字符相似度、操作种类都可能影响该域名是否是仿冒域名的判断。

鉴于此，本发明提出了基于视觉特征的仿冒域名测量方法，主要考虑字符位置、字符相似度、操作种类对字符串相似度的影响，具体说明如下。

S3.1.1、基于字符位置的测量：人往往更能够察觉到位置靠前的字符之间的差异。比如，对于域名nicrosoft.com和microsolt.com，都与正常域名microsoft.com有相同的编辑距离(编辑距离都为1)。但是，nicrosoft.com相对于microsolt.com，人们更容易察觉出nicrosoft.com与microsoft.com的不同。所以，不同的字符位置对于人视觉的影响不同，应该赋予不同的权重。

S3.1.2、基于字符相似度的测量：不同的字符往往给人不同的影响。比如，域名googwe.com和goog1e.com，都与正常域名google.com有相同的编辑距离(编辑距离都为1)。但是，goog1e.com相对于googwe.com更难察觉不同之处。所以，不同的字符对于人视觉的影响不同，应该赋予不同的权重。

S3.1.3、基于操作种类的测量：操作种类不同，人的视觉反应也是不同的。比如，对于“日本之窗”的域名jpwindow.com，当删除其第二和第五个字符时会变换为jwidow.com；若将其第二和第五个字符替换为其他字符则会变换成jqwimdow.com。显然，jpwindow.com和jwidow.com容易区分开，而jpwindow.com和jqwimdow.com却相对困难。但事实上，jwidow.com和jqwimdow.com都与正常域名jpwindow.com有相同的编辑距离(编辑距离为2)。所以，不同的操作对于人视觉的影响不同，应该赋予不同的权重。

本发明通过设计一种加权编辑距离来综合考虑上述三方面对仿冒域名检测的影响，加权编辑距离基于对编辑距离的完善，在编辑距离中加入了对字符位置、字符相似度、操作种类的考虑，对于两个给定的字符串P和Q，记其长度分别为x和y，那么字符串P和Q之间的视觉距离记作CD_P,Q(i,j)，定义的视觉距离递归公式如式(1)：

其中1≤i≤x，1≤j≤y，φ表示空字符，P_i表示字符串P的第i个字符，Q_j表示字符串Q的第j个字符，sub函数的计算公式如式(2)所示，其中，α反映字符位置的影响，M值反映字符相似度和操作种类的影响。

其中，c₁、c₂表示字符串中的某两个字符，l₁、l₂表示此两个字符在对应字符串中的位置，事实上，原编辑距离本质上是加权编辑距离的一种特殊情况，如式(3)：

对于字符“0”(零)和“o”(字母o)，其对应的M值计算方法如图1所示。

M值可以描述为两个字符的视觉相似距离，其计算过程为：

1)将字符转换为黑白二值图片；

2)将字符二值图片转换为一维向量，转换方式如图1所示；

3)计算两个向量直接的视觉相似距离，向量v₁和v₂的视觉相似距离如式(4)所示。

其中，向量v₁和v₂即为要进行比较的两个字符的一维向量。

关于字符相似度，从以下几方面分别进行考虑：

a)单字符与单字符间的相似度。这涉及到“0～9”、“a～z”、“-”(连字符)、“.”(点字符)共计38个单字符，因为域名字符串中只允许使用此38个字符，且不区分大小写。此方面能排除相似单字符带来的视觉干扰，例如“0”(零)与“o”(字母O)、“1”与“l”、“2”与“z”、“i”与“l”、“c”与“o”、“h”与“n”等；

b)两个“窄”字符与一个“宽”字符间的相似度。“窄”字符有“1”、“-”、“.”、“i”、“j”、“l”，除此之外，其余都是“宽”字符。此方面是考虑到了两个“窄”字符与某个“宽”字符相似的情况，例如“ii”与“n”相似；

c)两个“宽”字符与一个“宽”字符间的相似度。此方面考虑到了某两个“宽”字符与某个“宽”字符相似时带来的视觉干扰现象，例如“nn”(两个N)与“m”、“vv”(两个V)与“w”、“rn”(R和N)与“m”相似等；

d)一个“窄”字符加上一个“宽”字符间与其他“宽”字符的相似度。例如“cl”(C和L)与“d”相似；

e)两个“宽”字符与两个“宽”字符间的相似度。例如“nm”与“mn”、“hn”与“nh”相似。

S3.2域名仿冒度评估

在域名仿冒度评估中，判定一个域名是否为仿冒域名是相对一个知名域名或者目标域名而言的，针对单独给定的一个域名，无法仅依赖该域名判定其是否为仿冒域名，因此，在实际的仿冒域名检测系统中，必然事先存在一个目标域名集合。将上述步骤一中所收集的目标域名集记为S，步骤二构建的候选仿冒域名集记为D，此时，对于一个给定的待判定域名即D中一个元素d，如果d是根据S中某个元素仿冒的域名，则认为域名d是一个仿冒域名。

利用上述提出的加权编辑距离算法循环计算候选仿冒域名与目标域名之间的距离，默认将小于阈值θ的候选仿冒域名判定为仿冒域名，将此判定结果与真实情况进行对比，可以计算得到该检测方法的精确度。在实验的过程中将阈值θ设定在(0,2)的区间内，从0开始每次递增0.01得到对应的F₁值，让程序输出选择最大的F₁值，即最高精确度。

综上，对传统编辑距离算法进行改进，综合考虑字符位置、字符相似度、操作种类对人视觉的影响，进一步影响仿冒域名的判定，本发明重新定义了一个加权编辑距离并将其应用于仿冒域名检测，能有效解决传统编辑距离的不足，解决了域名视觉模仿的情况，使得仿冒域名的检测效果更好，准确度更高。

附图说明

图1字符相似距离的计算过程图。

图2仿冒域名检测基本框架图。

图3不同字符位置权重α的评价结果图。

图4本方法与传统方法检测效果对比图。

具体实施方式

为使本发明的目的、技术方案和特点更加清楚明白，以下结合具体实施例子，并参照附图，对本发明进行进一步的细化说明。仿冒域名检测的基本框架如图2所示。各个模块解释如下：

(一)目标域名集收集模块

对Alexa网站全球排行榜上的域名通过Python编程爬取得到。

(二)候选仿冒域名集构建模块

使用NCC Group在Github上开源的typofinder工具对爬取的目标域名构造相应的仿冒域名，构造策略包含：

删减字符：原始"abc"，构造："ab","ac","bc"

复制字符：原始"abc"，构造："aabc","abbc","abcc"

转置字符(交换两个字符的位置)：原始"abc"，构造："acb","bac"

按照键盘上该字符的附近位置的字符替换原字符：原始"abc"，构造：″abd″,″abf″,″abv″,″abx″,″afc″,″agc″,″ahc″,″anc″,″avc″,″qbc″,″sbc″,″wbc″,″xbc″,″zbc″

键入错误的序列：原始"aabcc"，构造：″aabdd″,″aabff″,″aabvv″,″aabxx″,″qqbcc″,″ssbcc″,″wwbcc″,″xxbcc″,″zzbcc″

按照键盘上该字符的附近位置的字符插入字符：原始"abc"，构造：″abcd″,″abcf″,″abcv″,″abcx″,″abfc″,″abgc″,″abhc″,″abnc″,″abvc″,″aqbc″

(三)仿冒域名检测模块

在仿冒域名检测中，利用所提出的加权编辑距离算法循环计算候选仿冒域名与目标域名之间的距离，小于阈值θ的候选仿冒域名就将该域名判定为仿冒域名，通过更新调整阈值θ，输出检测结果，计算检测结果的准确度。

通过与基于编辑距离的判定方法进行对比来验证本发明提出的基于视觉特征的仿冒域名轻量级检测方法及系统的实际效果。试验环境为Windows 10主机，8G内存，512G的SSD，编程软件为JetBrains PyCharm，编程语言为Python，实验数据来源于Alexa排名比较靠前的域名作为目标域名和利用NCC Group在Github上开源的typofinder工具构造的仿冒域名。一共做了10组对比实验，同组对比实验使用同样的数据集，组与组之间使用不同的数据集，这10组对比实验的数据集都是基于上述候选仿冒域名集构建模块中提到的方法构造的正、负样本都为5000总规模为10000的数据集。表1是基于编辑距离的判定方法在θ取值分别为1、2和3时的实验结果。

表1基于编辑距离判定方法的实验结果

对这10次实验结果取平均可以看到，在基于编辑距离的判定方法中，当阈值θ取值为1时，F₁值最大，为0.9037，但是随着阈值θ的增大，F₁值会骤减；当θ取值为2时，F₁值降至0.8436；当θ取值为3时，F₁值更是下降到0.5100，所以用基于编辑距离的方法进行仿冒域名判定时，阈值θ设定为1，即当编辑距离小于1时，就认为该域名为比对域名的仿冒域名。

此外，由表1可以看到基于编辑距离的方法在θ＝2时精确率较低，这是由于存在这样的实际情况：对于jd.com和qq.com这样的域名对，此两个域名之间的编辑距离为2，在阈值(θ＝2)范围内，所以会被判定为仿冒域名，但事实上这两个域名都属于知名域名，并不存在仿冒现象。

在应用本发明方法进行实验时，字符位置的权重α是这样设计的：从域名的首字符开始，权重设定为α的等比递减数值(α,α²,α³,…αⁿ)，这样比较符合域名首字符的影响较大的现实情况。不同α取值得到的实验结果如图3所示，可以看到当α取0.95时的效果最好，所以设定字符位置的权重定为0.95的等比递减值(0.95,0.95²,0.95³,...,0.95ⁿ)。

实验过程中，不再手动设置阈值θ，而是将阈值θ设定在(0，2)的区间内，从0开始每次递增0.01得到对应的F₁值，让程序输出选择最大的F₁值，同样进行10次实验，每次实验所用的数据集都分别与上述基于编辑距离的判定方法的10次实验的数据集保持一致。本发明基于视觉特征的仿冒域名轻量级检测结果如表2所示。

表2基于视觉特征的仿冒域名轻量级检测方法的实验结果

对于基于编辑距离的判定方法和本发明方法在仿冒域名检测上的效果可以通过F₁值进行比对，分别对基于编辑距离判定方法在θ分别取1、2、3的10次结果和本文方法的10次结果的F₁值取平均，可以得到图4的检测效果对比图。

从图4可以得到，本发明方法较基于编辑距离的判定方法在阈值θ＝1和θ＝2时，F₁值分别提高了5.32％和11.33％、，由此可见，本发明对于仿冒域名检测有更高的检测精确率和召回率。

综合上述实验，针对仿冒域名检测问题，本发明提出的这种基于视觉特征的仿冒域名轻量级检测方法及系统从字符的位置、字符相似度、操作种类三个方面改进传统编辑距离算法能解决域名视觉模仿的情况，弥补了传统基于编辑距离设计的检测方法带来的不足，提高了仿冒域名的检测效率。实验表明本发明方法具有良好的检测效果，对于防范仿冒域名攻击具有重要意义。

Claims

1.一种基于视觉特征的仿冒域名轻量级检测方法，实现所述方法的系统包括目标域名集收集模块、候选仿冒域名集构建模块和仿冒域名检测模块；目标域名集收集模块、候选仿冒域名集构建模块和仿冒域名检测模块顺次连接；

首先，通过目标域名集收集模块收集目标域名集，通过Python编程爬取Alexa排名靠前的域名；利用候选仿冒域名集构建模块中的NCC Group在Github上开源的typofinder工具构造得到候选仿冒域名集；

其特征在于：所述方法的流程如下，

S1目标域名集收集；

收集来自Alexa排名前500的域名作为目标域名集；

S2候选仿冒域名集构建；

正样本数据构造：对于Alexa排名前500的域名，利用NCC Group在Github上开源的typofinder工具获得其仿冒域名列表；typofinder基于已知常见的仿冒域名构造模式对给定域名构建可能的候选仿冒域名列表，并主动获取每个候选域名的相关信息来判定其是否为真实的仿冒域名；对500个域名，限制域名长度为20以内，总计获取5000个仿冒域名，构成正样本；

负样本数据构造：从Alexa排名前10000个域名中随机选择，域名长度同样限制为不超过20，构造5000个域名对，限制域名对的编辑距离不超过3；Alexa前10000个域名基本都是访问量比较大的知名域名，判定这其中的任何一个域名都不会是另外一个网站的仿冒域名，构成负样本；

S3仿冒域名检测；

S3.1基于视觉特征的仿冒域名测量机制设计；

考虑字符位置、字符相似度、操作种类对字符串相似度的影响；

S3.2域名仿冒度评估；

对于一个给定的待判定域名即D中一个元素d，如果d是根据S中某个元素仿冒的域名，则认为域名d是一个仿冒域名；

利用提出的加权编辑距离算法循环计算候选仿冒域名与目标域名之间的距离，默认将小于阈值θ的候选仿冒域名判定为仿冒域名，将此判定结果与真实情况进行对比，计算得到该检测方法的精确度；在实验的过程中将阈值θ设定在(0,2)的区间内，从0开始每次递增0.01得到对应的F₁值，让程序输出选择最大的F₁值；

S3.1.1、基于字符位置的测量：位置靠前的字符之间赋予不同的权重；

S3.1.2、基于字符相似度的测量：不同的字符赋予不同的权重；

S3.1.3、基于操作种类的测量：操作种类不同，人的视觉反应也是不同的；不同的操作对于人视觉的影响不同，赋予不同的权重；

通过设计一种加权编辑距离来综合考虑上述三方面对仿冒域名检测的影响，加权编辑距离基于对编辑距离的完善，在编辑距离中加入了对字符位置、字符相似度、操作种类的考虑，对于两个给定的字符串P和Q，记其长度分别为x和y，那么字符串P和Q之间的视觉距离记作CD_P,Q(i,j)，定义的视觉距离递归公式如式(1)：

其中1≤i≤x，1≤j≤y，φ表示空字符，P_i表示字符串P的第i个字符，Q_j表示字符串Q的第j个字符，sub函数的计算公式如式(2)所示，其中，α反映字符位置的影响，M值反映字符相似度和操作种类的影响；

其中，c₁、c₂表示字符串中的某两个字符，l₁、l₂表示此两个字符在对应字符串中的位置，原编辑距离本质上是加权编辑距离的一种特殊情况，如式(3)：

对于字符“0”和“o”，对应的M值描述为两个字符的视觉相似距离，其计算过程为，

1)将字符转换为黑白二值图片；

2)将字符二值图片转换为一维向量；

3)计算两个向量直接的视觉相似距离，向量v₁和v₂的视觉相似距离如式(4)所示；