CN107438053B - 域名识别方法、装置及服务器 - Google Patents
域名识别方法、装置及服务器 Download PDFInfo
- Publication number
- CN107438053B CN107438053B CN201610356505.0A CN201610356505A CN107438053B CN 107438053 B CN107438053 B CN 107438053B CN 201610356505 A CN201610356505 A CN 201610356505A CN 107438053 B CN107438053 B CN 107438053B
- Authority
- CN
- China
- Prior art keywords
- uniform resource
- list
- domain name
- resource locator
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000013138 pruning Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 208000001613 Gambling Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1483—Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请提供一种域名识别方法、装置及服务器,该方法包括:获取第一列表,其中,所述第一列表用于记录待处理的统一资源定位符,所述统一资源定位符与域名对应;计算所述第一列表中记录的每一个统一资源定位符对应的页面文档的页面特征值;将所述第一列表中具有相同页面特征值的统一资源定位符确定为目标统一资源定位符,将所述目标统一资源定位符对应的域名作为识别结果。在本申请的技术方案可以实现不以域名为特征发现不良网站,降低不良网站样本发现的筛选工作量,有效地对抗域名的变异。
Description
技术领域
本申请涉及网络技术领域,尤其涉及一种域名识别方法、装置及服务器。
背景技术
不良网站通过模仿或欺骗用户认为此网页为正常网页,骗取用户的登录账号、隐私信息、钱财等进行谋利,不良网站可以包括钓鱼网站、赌博网站、色情网站等,上述不良网站均会使用相同建站模板,并不断更换域名,以钓鱼网站为例,钓鱼诈骗者通常采用相似的钓鱼网站模板架设钓鱼网站,当钓鱼网站的一个域名被识别为钓鱼网站并被拦截后,由于钓鱼诈骗者拥有大量待更换的域名,钓鱼诈骗者通常会立即更换域名继续诈骗,从而躲避检测。
发明内容
有鉴于此,本申请提供一种新的技术方案,能够有效地对抗域名的变异。
为实现上述目的,本申请提供技术方案如下:
根据本申请的第一方面,提出了一种域名识别方法,包括:
获取第一列表,其中,所述第一列表用于记录待处理的统一资源定位符,所述统一资源定位符与域名对应;
计算所述第一列表记录的每一个统一资源定位符对应的页面文档的页面特征值;
将所述第一列表中具有相同页面特征值的统一资源定位符确定为目标统一资源定位符,将所述目标统一资源定位符对应的域名作为识别结果。
根据本申请的第二方面,提出了一种域名识别装置,包括:
第一获取模块,用于获取第一列表,其中,所述第一列表用于记录待处理的统一资源定位符,所述统一资源定位符与域名对应;
第一计算模块,用于计算所述第一获取模块获取到的所述第一列表记录的每一个统一资源定位符对应的页面文档的页面特征值;
第一确定模块,用于将所述第一计算模块计算得到的所述第一列表中具有相同页面特征值的统一资源定位符确定为目标统一资源定位符,将所述目标统一资源定位符对应的域名作为识别结果。
根据本申请的第三方面,提出了一种服务器,所述服务器包括:
处理器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器,用于获取第一列表,其中,所述第一列表用于记录待处理的统一资源定位符,所述统一资源定位符与域名对应;
计算所述第一列表记录的每一个统一资源定位符对应的页面文档的页面特征值;
将所述第一列表中具有相同页面特征值的统一资源定位符确定为目标统一资源定位符,将所述目标统一资源定位符对应的域名作为识别结果。
由以上技术方案可见,本申请基于第一列表记录的每一个URL对应的页面文档的页面特征值,统计第一列表中具有相同页面特征值的目标URL,将目标URL确定为识别结果,通过以域名对应的页面特征值识别出不良网站的域名,实现了不以域名为特征发现不良网站,降低了不良网站样本发现的筛选工作量,有效地对抗了域名的变异。
附图说明
图1示出了根据本发明示例性实施例一的域名识别方法的流程图;
图2A示出了根据本发明示例性实施例二的域名识别方法的流程图;
图2B示出了根据本发明示例性实施例二的确定可信域名列表的流程图;
图2C示出了根据本发明示例性实施例二的域名识别方法的系统图;
图3A示出了根据本发明示例性实施例三的域名识别方法的流程图;
图3B为图3A所示实施例中的文档对象模型树结构的示意图;
图3C为图3B中的文档对象模型树结构进行剪枝后得到的文档对象模型树结构的示意图;
图4示出了根据本发明示例性实施例四的域名识别方法的流程图;
图5示出了根据本发明示例性实施例五的域名识别方法的流程图;
图6示出了根据本发明的一示例性实施例的服务器的示意结构图;
图7示出了根据本发明示例性实施例一的域名识别装置的结构图;
图8示出了根据本发明示例性实施例二的域名识别装置的结构图;
图9示出了根据本发明示例性实施例三的域名识别装置的结构图;
图10示出了根据本发明示例性实施例四的域名识别装置的结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本申请涉及到的基础定义:
页面文档:指超文本标记语言或超文本链接标示语言HTML(Hyper Text Mark-upLanguage,简称为HTML)文件,通过HTML文件构成网页文档。
页面特征值:指通过哈希算法对页面文档进行计算得到的哈希值,页面特征值可以表示相应的页面文档。
统一资源定位符(Uniform Resource Locator,简称为URL):指对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。
域名(Domain Name):由一串用点分隔的名字组成的因特网(Internet)上一台计算机或计算机组的名称,用于在数据传输时标识计算机的电子方位;域名的目的是便于记忆和沟通的一组服务器的地址(例如,网站、电子邮件、FTP等)。
为对本申请进行进一步说明,提供下列实施例:
图1示出了根据本发明示例性实施例一的域名识别方法的流程图;本实施例可以应用在服务器上,如图1所示,包括如下步骤:
步骤101,获取第一列表,其中,第一列表用于记录待处理的URL,URL与域名对应。
步骤102,计算第一列表记录的每一个URL对应的页面文档的页面特征值。
步骤103,将第一列表中具有相同页面特征值的URL确定为目标URL,将目标URL对应的域名作为识别结果。
上述步骤101中,在一实施例中,第一列表可以用来记录待处理的URL,该待处理的URL可以作为可疑的URL通过对网络设备在一定时间段内的访问历史记录统计得到,第一列表的格式可以参见表1:
表1
URL |
https://sf.aaa1.com/court_list.htm?spm=a213w4dv9.3.mrV49M |
https://sf.aaa2.com/court_list.htm?sM |
https://sf.bbb3.com/court_list.htm?sH |
https://sf.bbb4.com/court_list.htm?13w4dv |
https://sf.ccc5.com/court_list.htm?13w4dv |
https://sf.ddd6.com/court_list.htm?13w4dv |
… |
在一实施例中,每一个URL对应一个域名,例如,上述表1中的“https://sf.aaa1.com/court_list.htm?spm=a213w4dv9.3.mrV49M”对应域名为“https://www.aaa1.com”,每一个域名可以对应多个不同的URL,例如,域名“https://www.aaa1.com”可以对应如下URL:
“https://sf.aaa1.com/court_list.htm?spm=a213w4dv9.3.mrV49M”,
“https://sf.aaa1.com/study_list.htm?spm=a213w4dv9.3.mrV49M”,
“https://sf.aaa1.com/work_list.htm?spm=a213w4dv9.3.mrV49M”,等等;其中,不同的URL对应不同的页面文档。
上述步骤102和步骤103中,在一实施例中,第一列表记录的每一个URL对应的页面文档的页面特征值可以通过哈希算法计算得到,详细说明可以参见图3A所示实施例,本实施例先不详述。以页面特征值为维度,将通过上述步骤101获取到的第一列表中具有相同页面特征值的URL作为目标URL,例如,在表1中,“https://sf.aaa2.com/court_list.htm?sM”与“https://sf.bbb4.com/court_list.htm?13w4dv”的页面特征值均为“123456”,则将这两个URL确定为目标URL,并将这两个URL对应的域名“https://www.aaa2.com”和“https://www.bbb4.com”作为识别结果,识别结果可以以列表的方式记录,识别结果的格式可以参见表2:
表2
域名 |
https://aaa2.com |
https://bbb4.com |
https://ccc5.com |
https://ddd6.com |
… |
本领域技术人员可以理解的是,上述表1和表2仅为第一列表和识别结果的示例性说明,第一列表可以用于记录海量的URL,识别结果可以记录通过本实施例统计得到的目标URL对应的域名。
在一实施例中,可以通过预设的合法域名名单对目标URL对应的域名进行一一验证,当识别结果中存在合法域名名单记录的域名时,将该域名从识别结果中剔除。在一实施例中,合法域名名单可以通过域名管理系统得到。
由上述描述可知,本发明实施例基于第一列表记录的每一个URL对应的页面文档的页面特征值,统计第一列表中具有相同页面特征值的目标URL,将目标URL确定为识别结果,通过以域名对应的页面特征值识别出不良网站的域名,实现了不以域名为特征发现不良网站,降低了不良网站样本发现的筛选工作量,有效地对抗了域名的变异。
图2A示出了根据本发明示例性实施例二的域名识别方法的流程图,图2B示出了根据本发明示例性实施例二的确定可信域名列表的流程图,图2C示出了根据本发明示例性实施例二的域名识别方法的系统图;本实施例可以应用在服务器上,本实施例以如何获取到第一列表为例进行示例性说明,如图2A所示,包括如下步骤:
步骤201,统计第一设定时间周期内未列在可信域名列表的域名,得到第二列表。
步骤202,统计第二列表记录的每一个域名对应的多个URL的第一访问频次。
步骤203,统计第一访问频次低于第一预设阈值的URL确定为待处理的URL,将待处理的URL记录在第一列表中。
上述步骤201中,在一实施例中,第一设定时间周期可以以天或者小时为单位,通过将在该第一设定时间周期内统计到的每一个域名与可信域名列表中记录的域名进行比较,当统计到未出现在可信域名列表中的域名时,将该未出现在可信域名列表中的域名记录在第二列表中。在一实施例中,可信域名列表可以通过域名管理系统得到,也可以由服务器按照图2C所示的方法流程统计得到。
上述步骤202和步骤203中,由于第二列表中记录的域名未出现在可信域名列表中,因此可以确定第二列表中所记录的域名为可疑的非法的域名,由于会不断的有新的合法的域名的产生,因此可信域名列表中可能未记录最新的合法域名,此时可以对第二列表中记录的每一个域名对应的多个URL的第一访问频次进行统计,当其中一个域名对应的多个URL的第一访问频次在第一设定周期内一直低于第一预设阈值(例如,在第一设定时间周期内一直低于100次)时,可以确定该域名为可疑的域名,进而将该可疑的域名对应的多个URL作为待处理的URL记录在第一列表中。
如图2B所示,确定可信域名列表的过程包括如下步骤:
步骤211,在设定时间段内,从网络设备的历史浏览记录中获取网络设备已访问的URL。
步骤212,从网络设备已访问的URL中确定在第一设定时间周期内均会被访问的域名,第一设定时间周期的时间长度小于设定时间段的时间长度。
步骤213,在第一设定时间周期内,确定被访问的域名对应的第二访问频次。
步骤214,将第二访问频次大于第二预设阈值的域名记录在可信域名列表中。
在上述步骤211中,在一示例性场景中,如图2C所示,服务器20可以从PC21、手机22、DNS服务器23、路由器24、网关25、可穿戴设备26、邮件系统27等网络设备中获取最近设定时间范围(例如,一个月)内各自的访问浏览记录,该访问浏览记录可以包括多个不同的域名以及多个不同的域名各自对应的多个URL。通过PC21、手机22、DNS服务器23、路由器24、网关25、可穿戴设备26、邮件系统27等网络设备进行综合性、实时性的拦截,可以减少用户访问不良网站的几率。
在上述步骤212-步骤214中,例如,设定时间段为1个月之内,第一设定时间周期为24小时,统计上述步骤211中得到的域名在每天出现的第二访问频次,将第二访问频次大于第二预设阈值的域名记录在可信域名列表中。
在用户合法并正常使用域名时,该域名以及域名对应的多个URL的访问频次通常会处于一个稳定的状态,本实施例将第二访问频次大于第二预设阈值的域名记录在所述可信域名列表中,可以将百万级别的URL待筛选量降低至千级别左右,极大地提高筛选效率和不良网站的发现速度。
图3A示出了根据本发明示例性实施例三的域名识别方法的流程图,图3B为图3A所示实施例中的文档对象模型树结构的示意图,图3C为图3B中的文档对象模型树结构进行剪枝后得到的文档对象模型树结构的示意图;本实施例以如何计算第一列表中的每一个URL对应的页面特征值为例进行示例性说明,如图3A所示,包括如下步骤:
步骤301,对于第一列表记录的每一个URL,通过每一个URL访问对应的页面,得到该每一个URL对应的页面HTML内容。
步骤302,将页面HTML内容生成文档对象模型树结构。
步骤303,对文档对象模型树结构进行剪枝。
步骤304,遍历文档对象模型树结构的全部路径并对全部路径排序后,将文档对象模型树结构拼接为字符串。
步骤305,通过哈希算法,计算字符串对应的哈希值,得到第一列表记录的每一个URL对应的页面特征值。
在一示例性场景中,通过上述步骤301得到的页面HTML内容生成的Dom树结构如图3B所示,对图3B中所示的Dom树剪枝,相同的分支取一枝,得到剪枝后的Dom树结构如图3C所示。
深度优先遍历图3C所示的剪枝后的Dom树的所有路径并稳定排序,拼接为如下所示的字符串:
通过哈希算法计算上述字符串对应的哈希值,得到该URL对应的页面特征值。
本实施例中,由于一个文档对象模型通过哈希算法(例如,Simhash、MinHash等哈希算法)可以计算得到一个哈希值,当页面文档上的文档对象模型有轻微修改时,该文档对象模型对应的哈希值及也会发生变化,因此本申请通过页面特征值在一定程度上能够识别变异的Dom树,进而可以提高识别非法页面的精度。
图4示出了根据本发明示例性实施例四的域名识别方法的流程图;本实施例以如何通过域名黑名单对不良网站进行拦截为例进行示例性说明,如图4所示,包括如下步骤:
步骤401,获取第一列表,其中,第一列表用于记录待处理的URL,URL与域名对应。
步骤402,计算第一列表记录的每一个URL对应的页面文档的多个页面特征值。
步骤403,将第一列表中具有相同页面特征值的URL确定为目标URL,将该目标URL对应的域名作为识别结果。
步骤404,通过网络爬虫抓取识别结果记录的域名对应的网站样本。
步骤405,将网站样本发送至用于识别不良网站的系统。
步骤406,将识别结果发送至网络设备,以供网络设备对识别结果记录的域名进行拦截。
上述步骤401-步骤403的相关描述可以参见上述图1所示实施例,在此不再详述。
上述步骤404和步骤405中,可以通过现有技术中的网络爬虫技术来抓取识别结果记录的域名对应的网站内容,将该网站内容确定为网站样本。
上述步骤406中,在一实施例中,网络设备可以上述图2C所示的PC21、手机22、DNS服务器23、路由器24、网关25、可穿戴设备26、邮件系统27等。
本实施例中,通过网络爬虫抓取识别结果记录的域名对应的网站样本,将网站样本发送至用于识别不良网站的系统,可以协助用于识别不良网站的系统识别网站;通过将识别结果发送至网络设备,可以协助网络设备对识别结果记录的域名进行拦截,扩大了不良网站的拦截渠道并提高了拦截响应速度。
图5示出了根据本发明示例性实施例五的域名识别方法的流程图;本实施例以如何更新识别结果为例进行示例性说明,如图5所示,包括如下步骤:
步骤501,每隔第二设定时间周期,访问识别结果中记录的域名对应的URL。
步骤502,确定识别结果中被禁止访问的URL对应的域名。
步骤503,将被禁止访问的URL对应的域名从识别结果中删除。
在一示例性场景中,例如,控制服务器访问识别结果中记录的上述表3中的域名“https://aaa2.com”,当域名“https://aaa2.com”返回了禁止访问的响应消息时,可以确定该“https://aaa2.com”对应的域名已经停止使用,从而可以将“https://aaa2.com”从识别结果中删除。
本实施例中,通过每隔第二设定时间周期对识别结果进行更新,可以定期对识别结果进行瘦身,避免识别结果记录无效的域名。
对应于上述的域名识别方法,本申请还提出了图6所示的根据本发明的一示例性实施例的服务器的示意结构图。请参考图6,在硬件层面,该服务器包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成域名识别装置。当然,除了软件实现方式之外,本申请并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以上处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
图7示出了根据本发明示例性实施例一的域名识别装置的结构图;如图7所示,域名识别装置包括:第一获取模块71、第一计算模块72、第一确定模块73;其中,
第一获取模块71,用于获取第一列表,其中,第一列表用于记录待处理的统一资源定位符,统一资源定位符与域名对应;
第一计算模块72,用于计算第一获取模块71获取到的第一列表记录的每一个URL对应的页面文档的多个页面特征值;
第一确定模块73,用于将第一计算模块72计算得到的第一列表中具有相同页面特征值的URL确定为目标URL,将该目标URL对应的域名作为识别结果。
图8示出了根据本发明示例性实施例二的域名识别装置的结构图;如图8所示,在上述图7所示实施例的基础上,在一实施例中,第一获取模块71可包括:
第一统计单元711,用于统计第一设定时间周期内未列在可信域名列表中的域名,得到第二列表;
第二统计单元712,用于统计第一统计单元711统计到的第三列表中记录的域名对应的第一访问频次;
确定单元713,用于将第二统计单元712统计到的第一访问频次低于第一预设阈值的URL确定为待处理的URL,将待处理的URL符记录在第一列表中。
在一实施例中,装置还可包括:
第二获取模块74,用于在设定时间段内,从历史浏览记录中获取已访问的URL;
第二确定模块75,用于从第二获取模块74获取到的已访问的URL中确定在第一设定时间周期内均会被访问的域名,第一设定时间周期的时长小于设定时间段的时长;
第三确定模块76,用于在第一设定时间周期内,确定第二确定模块75确定的被访问的域名对应的第二访问频次;
记录模块77,用于将第三确定模块76确定的第二访问频次大于第二预设阈值的域名记录在第一统计单元711采用的可信域名列表中。
图9示出了根据本发明示例性实施例三的域名识别装置的结构图;如图9所示,在上述图7或图8所示实施例的基础上,在一实施例中,第一计算模块72可包括:
访问单元721,用于对于第一列表记录的每一个URL,通过每一个URL访问对应的页面,得到该每一个URL对应的页面HTML内容;
生成单元722,用于将访问单元721得到的页面HTML内容生成文档对象模型树结构;
处理单元723,用于对生成单元722生成的文档对象模型树结构进行剪枝;
拼接单元724,用于遍历处理单元723剪枝后的文档对象模型树结构的全部路径并对全部路径排序后,将文档对象模型树结构拼接为字符串;
计算单元725,用于通过哈希算法,计算拼接单元724得到的字符串对应的哈希值,得到第一列表记录的每一个URL对应的页面特征值。
图10示出了根据本发明示例性实施例四的域名识别装置的结构图;如图10所示,在上述图7-图9任一所示实施例的基础上,在一实施例中,装置还可包括:
抓取模块78,用于通过网络爬虫抓取第一确定模块73确定的识别结果记录的域名对应的网站样本;
第一发送模块79,用于将抓取模块78得到的网站样本发送至用于识别不良网站的系统。
在一实施例中,装置还包括:
第二发送模块80,用于将第一确定模块73统计得到的识别结果发送至网络设备,以供网络设备对域名黑名单记录的域名进行拦截。
在一实施例中,装置还可包括:
访问模块81,用于每隔第二设定时间周期,访问第一确定模块73确定的识别结果记录的域名对应的URL;
第三确定模块82,用于确定访问模块81得到的识别结果中被禁止访问的URL对应的域名;
删除模块83,用于将第三确定模块82确定的被禁止访问的URL对应的域名从第一确定模块73确定的识别结果中删除。
上述实施例可见,本申请可以结合域名传播、内容传播的统计特征,通过数据挖掘的方法从各种网络设备处的浏览记录中统计出第一列表,进而通过第一列表发现不良网站,从而可以降低网络设备在发现不良网站样本时筛选工作量,并能够发现新类型或变异的不良网站。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
Claims (14)
1.一种域名识别方法,其特征在于,所述方法包括:
获取第一列表,其中,所述第一列表用于记录待处理的统一资源定位符,所述统一资源定位符与域名对应;所述第一列表包括第一访问频次低于第一预设阈值的统一资源定位符,所述第一访问频次为第二列表记录的域名对应的多个统一资源定位符的访问频次,所述第二列表通过统计第一设定时间周期内未列在可信域名列表的域名获得;
计算所述第一列表记录的每一个统一资源定位符对应的页面文档的页面特征值;
将所述第一列表中具有相同页面特征值的统一资源定位符确定为目标统一资源定位符,将所述目标统一资源定位符对应的域名作为识别结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在设定时间段内,从历史浏览记录中获取已访问的统一资源定位符;
从所述已访问的统一资源定位符中确定在所述第一设定时间周期内均会被访问的域名,所述第一设定时间周期的时长小于所述设定时间段的时长;
在所述第一设定时间周期内,确定所述被访问的域名对应的第二访问频次;
将所述第二访问频次大于第二预设阈值的域名记录在所述可信域名列表中。
3.根据权利要求1所述的方法,其特征在于,所述计算所述第一列表记录的每一个统一资源定位符对应的页面文档的页面特征值,包括:
对于所述第一列表记录的每一个统一资源定位符,通过所述每一个统一资源定位符访问对应的页面,得到该每一个统一资源定位符对应的页面超文本标记语言内容;
将所述页面超文本标记语言内容生成文档对象模型树结构;
对所述文档对象模型树结构进行剪枝;
遍历所述文档对象模型树结构的全部路径并对所述全部路径排序后,将所述文档对象模型树结构拼接为字符串;
通过哈希算法,计算所述字符串对应的哈希值,得到所述第一列表记录的每一个统一资源定位符对应的页面特征值。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过网络爬虫抓取所述识别结果记录的域名对应的网站样本;
将所述网站样本发送至用于识别不良网站的系统。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述识别结果发送至网络设备,以供所述网络设备对所述识别结果记录的域名进行拦截。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
每隔第二设定时间周期,访问所述识别结果中记录的域名对应的统一资源定位符;
确定所述识别结果中被禁止访问的统一资源定位符对应的域名;
将所述被禁止访问的统一资源定位符对应的域名从所述识别结果中删除。
7.一种域名识别装置,其特征在于,所述装置包括:
第一获取模块,用于获取第一列表,其中,所述第一列表用于记录待处理的统一资源定位符,所述统一资源定位符与域名对应;所述第一列表包括第一访问频次低于第一预设阈值的统一资源定位符,所述第一访问频次为第二列表记录的域名对应的多个统一资源定位符的访问频次,所述第二列表通过统计第一设定时间周期内未列在可信域名列表的域名获得;
第一计算模块,用于计算所述第一获取模块获取到的所述第一列表记录的每一个统一资源定位符对应的页面文档的页面特征值;
第一确定模块,用于将所述第一计算模块计算得到的所述第一列表中具有相同页面特征值的统一资源定位符确定为目标统一资源定位符,将所述目标统一资源定位符对应的域名作为识别结果。
8.根据权利要求7所述的装置,其特征在于,所述第一获取模块包括:
第一统计单元,用于统计第一设定时间周期内未列在可信域名列表的域名,得到第二列表;
第二统计单元,用于统计所述第一统计单元统计到的所述第二列表中记录的每一个域名对应的多个统一资源定位符的第一访问频次;
确定单元,用于将所述第二统计单元统计到的所述第一访问频次低于第一预设阈值的统一资源定位符确定为待处理的统一资源定位符,将所述待处理的统一资源定位符记录在第一列表中。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于在设定时间段内,从历史浏览记录中获取已访问的统一资源定位符;
第二确定模块,用于从所述第二获取模块获取到的所述已访问的统一资源定位符中确定在所述第一设定时间周期内均会被访问的域名,所述第一设定时间周期的时长小于所述设定时间段的时长;
第三确定模块,用于在所述第一设定时间周期内,确定所述第二确定模块确定的所述被访问的域名对应的第二访问频次;
记录模块,用于将所述第三确定模块确定的所述第二访问频次大于第二预设阈值的域名记录在所述第一统计单元采用的所述可信域名列表中。
10.根据权利要求7所述的装置,其特征在于,所述第一计算模块包括:
访问单元,用于对于第一列表记录的每一个统一资源定位符,通过所述每一个统一资源定位符访问对应的页面,得到该每一个统一资源定位符对应的页面超文本标记语言内容;
生成单元,用于将所述访问单元得到的所述页面超文本标记语言内容生成文档对象模型树结构;
处理单元,用于对所述生成单元生成的所述文档对象模型树结构进行剪枝;
拼接单元,用于遍历所述处理单元剪枝后的所述文档对象模型树结构的全部路径并对所述全部路径排序后,将所述文档对象模型树结构拼接为字符串;
计算单元,用于通过哈希算法,计算所述拼接单元得到的所述字符串对应的哈希值,得到所述第一列表记录的每一个统一资源定位符对应的页面特征值。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括:
抓取模块,用于通过网络爬虫抓取所述第一确定模块确定的所述识别结果记录的域名对应的网站样本;
第一发送模块,用于将所述抓取模块得到的所述网站样本发送至用于识别不良网站的系统。
12.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二发送模块,用于将所述第一确定模块确定的所述识别结果发送至网络设备,以供所述网络设备对所述第一确定模块确定的所述识别结果记录的域名进行拦截。
13.根据权利要求7所述的装置,其特征在于,所述装置还包括:
访问模块,用于每隔第二设定时间周期,访问所述第一确定模块确定的所述识别结果中记录的域名对应的统一资源定位符;
第四确定模块,用于确定所述访问模块得到的所述识别结果中被禁止访问的统一资源定位符对应的域名;
删除模块,用于将所述第四确定模块确定的所述被禁止访问的统一资源定位符对应的域名从所述第一确定模块确定的所述识别结果中删除。
14.一种服务器,其特征在于,所述服务器包括:
处理器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器,用于获取第一列表,其中,所述第一列表用于记录待处理的统一资源定位符,所述统一资源定位符与域名对应;所述第一列表包括第一访问频次低于第一预设阈值的统一资源定位符,所述第一访问频次为第二列表记录的域名对应的多个统一资源定位符的访问频次,所述第二列表通过统计第一设定时间周期内未列在可信域名列表的域名获得;
计算所述第一列表记录的每一个统一资源定位符对应的页面文档的页面特征值;
将所述第一列表中具有相同页面特征值的统一资源定位符确定为目标统一资源定位符,将所述目标统一资源定位符对应的域名作为识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610356505.0A CN107438053B (zh) | 2016-05-25 | 2016-05-25 | 域名识别方法、装置及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610356505.0A CN107438053B (zh) | 2016-05-25 | 2016-05-25 | 域名识别方法、装置及服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107438053A CN107438053A (zh) | 2017-12-05 |
CN107438053B true CN107438053B (zh) | 2020-08-25 |
Family
ID=60453473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610356505.0A Active CN107438053B (zh) | 2016-05-25 | 2016-05-25 | 域名识别方法、装置及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107438053B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109040346B (zh) * | 2018-10-30 | 2021-08-13 | 深信服科技股份有限公司 | 一种泛域名解析中有效域名的筛选方法、装置及设备 |
CN111245973B (zh) * | 2020-01-20 | 2022-06-03 | 烽火通信科技股份有限公司 | 一种基于域名的报文传输方法、报文转发控制方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101630325A (zh) * | 2009-08-18 | 2010-01-20 | 北京大学 | 一种基于脚本特征的网页聚类方法 |
CN101694668A (zh) * | 2009-09-29 | 2010-04-14 | 百度在线网络技术(北京)有限公司 | 网页结构相似性确定方法及装置 |
US9178904B1 (en) * | 2013-09-11 | 2015-11-03 | Symantec Corporation | Systems and methods for detecting malicious browser-based scripts |
CN105245550A (zh) * | 2015-10-29 | 2016-01-13 | 广州酷狗计算机科技有限公司 | 域名劫持判定方法和装置 |
CN105338001A (zh) * | 2015-12-04 | 2016-02-17 | 北京奇虎科技有限公司 | 识别钓鱼网站的方法及装置 |
-
2016
- 2016-05-25 CN CN201610356505.0A patent/CN107438053B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101630325A (zh) * | 2009-08-18 | 2010-01-20 | 北京大学 | 一种基于脚本特征的网页聚类方法 |
CN101694668A (zh) * | 2009-09-29 | 2010-04-14 | 百度在线网络技术(北京)有限公司 | 网页结构相似性确定方法及装置 |
US9178904B1 (en) * | 2013-09-11 | 2015-11-03 | Symantec Corporation | Systems and methods for detecting malicious browser-based scripts |
CN105245550A (zh) * | 2015-10-29 | 2016-01-13 | 广州酷狗计算机科技有限公司 | 域名劫持判定方法和装置 |
CN105338001A (zh) * | 2015-12-04 | 2016-02-17 | 北京奇虎科技有限公司 | 识别钓鱼网站的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107438053A (zh) | 2017-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10491614B2 (en) | Illegitimate typosquatting detection with internet protocol information | |
US9509714B2 (en) | Web page and web browser protection against malicious injections | |
CN107465651B (zh) | 网络攻击检测方法及装置 | |
US9712560B2 (en) | Web page and web browser protection against malicious injections | |
US9680866B2 (en) | System and method for analyzing web content | |
CN107204960B (zh) | 网页识别方法及装置、服务器 | |
US8806622B2 (en) | Fraudulent page detection | |
US8438386B2 (en) | System and method for developing a risk profile for an internet service | |
CN109241733A (zh) | 基于Web访问日志的爬虫行为识别方法及装置 | |
CN111859234A (zh) | 一种非法内容识别方法、装置、电子设备及存储介质 | |
Bhargav et al. | Pattern discovery and users classification through web usage mining | |
Traverso et al. | Benchmark and comparison of tracker-blockers: Should you trust them? | |
CN109145179B (zh) | 一种爬虫行为检测方法及装置 | |
CN107438053B (zh) | 域名识别方法、装置及服务器 | |
US11023590B2 (en) | Security testing tool using crowd-sourced data | |
EP3789890A1 (en) | Fully qualified domain name (fqdn) determination | |
Rizothanasis et al. | Identifying user actions from HTTP (S) traffic | |
Wardman | Assessing the gap: measure the impact of phishing on an organization | |
CN113014601B (zh) | 一种通信检测方法、装置、设备和介质 | |
CN110825976B (zh) | 网站页面的检测方法、装置、电子设备及介质 | |
CN114629875A (zh) | 主动探测的域名品牌保护方法及装置 | |
CN113709265A (zh) | 一种域名识别的方法、装置、系统和计算机可读存储介质 | |
CN112769792A (zh) | 一种isp攻击检测方法、装置、电子设备及存储介质 | |
KR100992069B1 (ko) | 인터넷상의 개인정보 노출대응 시스템 및 방법 | |
CN114679306B (zh) | 一种攻击检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |