CN109040346A - 一种泛域名解析中有效域名的筛选方法、装置及设备 - Google Patents

一种泛域名解析中有效域名的筛选方法、装置及设备 Download PDF

Info

Publication number
CN109040346A
CN109040346A CN201811280245.9A CN201811280245A CN109040346A CN 109040346 A CN109040346 A CN 109040346A CN 201811280245 A CN201811280245 A CN 201811280245A CN 109040346 A CN109040346 A CN 109040346A
Authority
CN
China
Prior art keywords
subdomain
name
domain name
screened
address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811280245.9A
Other languages
English (en)
Other versions
CN109040346B (zh
Inventor
徐奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN201811280245.9A priority Critical patent/CN109040346B/zh
Publication of CN109040346A publication Critical patent/CN109040346A/zh
Application granted granted Critical
Publication of CN109040346B publication Critical patent/CN109040346B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/09Mapping addresses
    • H04L61/10Mapping addresses of different types
    • H04L61/103Mapping addresses of different types across network layers, e.g. resolution of network layer into physical layer addresses or address resolution protocol [ARP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种泛域名解析中有效域名的筛选方法,包括获得泛解析的待筛选子域名后对其进行访问,获取访问返回的内容信息;内容信息包括IP地址;查找所存储的子域名中,是否有与所述待筛选子域名的IP地址相同的子域名的IP地址,若没有,待筛选子域名为有效域名;若有,比对查找到的子域名的内容信息中除IP地址以外的其余部分与待筛选子域名的内容信息中除IP地址以外的其余部分是否相同,若比对结果相同,待筛选子域名为非有效域名,否则,待筛选子域名为有效域名;存储筛选出的有效域名及其内容信息。本发明依据IP地址及内容信息中其他表征访问地址的特征信息进行筛选,筛选的误判率低。本发明还公开了一种基于上述方法的装置及设备。

Description

一种泛域名解析中有效域名的筛选方法、装置及设备
技术领域
本发明涉及域名解析领域,特别是涉及一种泛域名解析中有效域名的筛选方法。本发明还涉及一种基于上述方法的装置及设备。
背景技术
在网站应用中,常会采用一种域名泛解析技术,通常来讲,在泛解析的根域名前添加任何子域名前缀,均可访问到相同的WEB地址。例如,根域名abc.com之下所设的*.abc.com(*指域名可用的任意字符串,eg:12313hdhdhasd)全部都可以访问到同一个WEB地址。
但是,对于泛解析的根域名来说,其下所包含的全部子域名中,可能存在部分子域名能够指向独立的WEB应用目录,举例来说,假如泛解析的根域名abc.com前加上任意的字符串后通常会指向WEB应用目录1,而部分子域名会由于存在独立的WEB应用目录(例如baidu.abc.com),而会指向WEB应用目录2,即本例中会指向百度的网址。这种在泛解析的根域名下,拥有独立的WEB应用目录的子域名称为有效域名。
域名泛解析初衷是好的,网站浏览人员不必担心输入的子域名出错,都可以访问到网站;但是对于安全扫描或者客户做资产排查等业务来说,域名泛解析会导致输入的任意子域名都能得到正常的请求,在做批量扫描和资产盘点时不仅会浪费很多计算资源及网络资源,还会对正常的工作带来巨大的干扰。因此如何从使用泛解析的域名中挑选出有效域名显得尤为重要。
由于有效域名与泛解析根域名之下其他子域名的IP地址通常是不同的,即有效域名通常具有自己的独立IP地址,因此目前筛选有效域名的方案主要是:首先查找到一个泛解析的域名,记录下该域名的IP地址,之后将其他域名的IP地址与该域名的IP进行比对,若不相同,则为有效域名。但是,由于在部分情况下,有效域名可能与普通的泛解析子域名指向相同的WEB地址,但是会访问该WEB地址下不同的应用目录,此时,有效域名与普通的泛解析子域名IP地址相同,但访问内容不同,而目前的筛选方式无法筛选出这类有效域名。可见,目前的筛选方式误判率较高,容易遗漏很多有效域名。
因此,如何提供一种误判率低的泛域名解析中有效域名的筛选方法、装置及设备是本领域技术人员目前需要解决的问题。
发明内容
本发明的目的是提供一种泛域名解析中有效域名的筛选方法,依据IP地址以及子域名访问后返回的内容信息中其他表征访问的WEB应用目录的特征信息进行筛选,从而减小筛选的误判率,尽可能避免有效域名的遗漏;本发明的另一目的是提供一种基于上述方法的装置及设备。
为解决上述技术问题,本发明提供了一种泛域名解析中有效域名的筛选方法,包括:
获得泛解析的待筛选子域名后对其进行访问,获取访问返回的内容信息;所述内容信息包括IP地址;
查找所存储的子域名中,是否有与所述待筛选子域名的IP地址相同的子域名的IP地址,若没有,则所述待筛选子域名为有效域名;
若有,比对查找到的子域名的内容信息中除IP地址以外的其余部分,与所述待筛选子域名的内容信息中除IP地址以外的其余部分是否相同,若比对结果相同,则所述待筛选子域名为非有效域名,若比对结果不同,则所述待筛选子域名为有效域名;
存储筛选出的有效域名及其内容信息。
优选地,所述获得泛解析的待筛选子域名之前,还包括:
接收待筛选的根域名;
判断所述根域名是否存在泛解析行为,若存在,所述根域名为泛解析的根域名,获取所述根域名的子域名列表,从所述子域名列表内选取一个未筛选的子域名作为所述待筛选子域名;若不存在,则获取所述根域名的子域名列表并存储,并结束所述根域名的筛选。
优选地,所述待筛选子域名筛选完毕后,还包括:
继续访问所述子域名列表内未筛选过的下一子域名,重复筛选操作,直至所述子域名列表内的全部子域名均筛选完成。
优选地,所述内容信息还包括HTTP响应状态码;所述内容信息的比对过程具体包括:
比对所述待筛选子域名的HTTP响应状态码与所述查找到的子域名的HTTP响应状态码是否相同,若不同,则所述待筛选子域名为有效域名;若相同,则所述待筛选子域名为非有效域名。
优选地,所述内容信息还包括服务器特征信息;所述内容信息的比对过程具体包括:
比对所述待筛选子域名的服务器特征信息和所述查找到的子域名的服务器特征信息是否相同,若不同,则所述待筛选子域名为有效域名,若相同,则所述待筛选子域名为非有效域名。
优选地,所述内容信息还包括访问页面,所述内容信息的比对过程包括:
对所述访问页面进行特征提取,得到内容标签;
对所述待筛选子域名的内容标签和所述查找到的子域名提取到的内容标签进行余弦相似性计算,得到余弦值;
判断所述余弦值是否大于预设阈值,若大于,则所述待筛选子域名为非有效域名,若不大于,则所述待筛选子域名为有效域名。
优选地,所述内容信息还包括HTTP响应状态码、服务器特征信息和访问页面;所述内容信息的比对过程包括:
分别执行以下三组判断操作,第一组判断操作包括判断所述待筛选子域名的HTTP响应状态码和所述查找到的子域名的HTTP响应状态码是否相同;
第二组判断操作包括判断所述待筛选子域名的服务器特征信息和所述查找到的子域名的服务器特征信息是否相同;
第三组判断操作包括所述访问页面进行特征提取,得到内容标签;对所述待筛选子域名提取到的内容标签和所述查找到的子域名提取到的内容标签之间进行余弦相似性计算,得到余弦值,判断所述余弦值是否大于预设阈值;
当判断所述待筛选子域名的HTTP响应状态码和所述查找到的子域名的HTTP响应状态码相同、所述待筛选子域名的服务器特征信息和所述查找到的子域名的服务器特征信息相同、所述余弦值大于预设阈值时,所述待筛选子域名为非有效域名;否则,所述待筛选子域名为有效域名。
优选地,所述内容信息的比对过程中,首先执行所述第一组判断操作,当判断所述待筛选子域名的HTTP响应状态码和所述查找到的子域名的HTTP响应状态码相同时,触发执行所述第二组判断操作,当判断所述待筛选子域名的服务器特征信息和所述查找到的子域名的服务器特征信息相同时,触发所述第三组判断操作。
为解决上述技术问题,本发明还提供了一种泛域名解析中有效域名的筛选装置,包括:
访问模块,用于获得泛解析的待筛选子域名后对其进行访问,获取访问返回的内容信息;所述内容信息包括IP地址;
IP比对模块,用于查找所存储的子域名中,是否有与所述待筛选子域名的IP地址相同的子域名的IP地址,若没有,则所述待筛选子域名为有效域名;若有,触发详细比对模块;
所述详细比对模块,用于比对查找到的子域名的内容信息中除IP地址以外的其余部分,与所述待筛选子域名的内容信息中除IP地址以外的其余部分是否相同,若比对结果相同,则所述待筛选子域名为非有效域名,若比对结果不同,则所述待筛选子域名为有效域名;
所述预设数据库,用于存储筛选出的有效域名及其内容信息。
为解决上述技术问题,本发明还提供了一种泛域名解析中有效域名的筛选设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如以上任一项所述的泛域名解析中有效域名的筛选方法的步骤。
本发明提供了一种泛域名解析中有效域名的筛选方法,确定泛解析的待筛选子域名后,在对其进行筛选时,首先进行IP地址比对,若当前筛选的子域名的IP地址与已存储的其他子域名的IP地址不同,则确定该子域名为有效域名;若存在与当前筛选的子域名的IP地址相同的子域名,则进一步依据访问子域名时返回的内容信息中除IP地址以外的部分进行比对,在比对结果不同时,确定为有效域名,比对结果相同时,才认为是非有效域名。可见,本发明不仅仅依据IP地址进行筛选,还考虑了访问返回的内容信息中其他表征访问的WEB应用目录的特征信息,在实际应用中,对于泛解析根域名之下的子域名来说,若子域名为有效域名,则多数情况下,有效域名与非有效域名的IP地址不同,因此,初步依据IP地址进行筛选能够快速地筛选出大部分的有效域名;而在有效域名的IP地址与非有效域名的IP地址相同的情况下,由于有效域名与非有效域名访问的WEB应用目录不同,因此非有效域名与非有效域名访问的页面内容不同,即返回的内容信息中其他部分也存在不同,因此,本发明在判断IP地址相同的情况下,进一步比对内容信息,则能够将IP地址与非有效域名的IP地址相同的有效域名筛选出来,从而减小筛选的误判率,尽可能避免有效域名的遗漏。本发明还提供了一种基于上述方法的装置及设备,也具有上述效果,在此不再赘述。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种泛域名解析中有效域名的筛选方法的过程的流程图;
图2为本发明提供的另一种泛域名解析中有效域名的筛选方法的过程的流程图;
图3本发明提供的一种内容信息比对的过程的流程图;
图4为本发明提供的一种泛域名解析中有效域名的筛选装置的结构示意图。
具体实施方式
本发明的核心是提供一种泛域名解析中有效域名的筛选方法,依据IP地址以及子域名访问后返回的内容信息中其他表征访问的WEB应用目录的特征信息进行筛选,从而减小筛选的误判率,尽可能避免有效域名的遗漏;本发明的另一核心是提供一种基于上述方法的装置及设备。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种泛域名解析中有效域名的筛选方法,参见图1所示,图1为本发明提供的一种泛域名解析中有效域名的筛选方法的过程的流程图;该方法包括:
步骤s1:获得泛解析的待筛选子域名后对其进行访问,获取访问返回的内容信息;内容信息包括IP地址;
可以理解的是,仅得知子域名是无法得到子域名对应的IP地址的,需要对该子域名进行访问,而对一个域名进行访问之后,是会得到相应的访问信息的,从这些访问信息中进行信息提取,即可获取到子域名对应的内容信息,该内容信息中包括IP地址以及其他能够表征所访问的WEB应用目录的特征信息。其中,这里的信息提取时通过DNS(Domain NameServer,域名服务器)解析得到的。
步骤s2:查找所存储的子域名中,是否有与待筛选子域名的IP地址相同的子域名的IP地址,若没有,待筛选子域名为有效域名,进入步骤s4;若有,进入步骤s3;
可以理解的是,属于同一根域名的子域名列表内的这些子域名多数情况下会指向相同的网址,即指向根域名对应的网址,而指向相同网址的话,则这些子域名访问的IP地址是相同的。而有效域名指向的对象有两种情况,一种即是指向与泛解析的根域名下普通子域名不同的网址,故此时有效域名访问的IP地址与其他子域名不同,由于这种情况属于大多数情况,因此首先依据IP地址进行筛选及能够筛选出大多数的有效域名,使这部分子域名不再需要进行内容信息的比对,由于进行内容信息的计算量大,故这种筛选方式能够减少筛选时的计算量。而有效域名指向的对象的另一种情况,是指向与泛解析的根域名下普通子域名相同的网址,但是有效域名会与普通子域名指向不同的WEB应用目录(每个网址下包含多个WEB应用目录)。由于这种情况下,有效域名会与其他子域名指向相同的IP地址,因此,仅进行IP地址比对无法筛选出有效域名,需要进一步进行内容信息的比对。
步骤s3:比对查找到的子域名的内容信息中除IP地址以外的其余部分,与所述待筛选子域名的内容信息中除IP地址以外的其余部分是否相同,若比对结果相同,则所述待筛选子域名为非有效域名,若比对结果不同,则所述待筛选子域名为有效域名,并进入步骤s4;
可以理解的是,这里的内容信息表征的是子域名访问的WEB应用目录的内容信息。该内容信息与该WEB应用目录的显示内容、生成该显示内容的服务器的相关信息有关,因此该内容信息唯一对应于该WEB应用目录,因此,通过内容信息的比对,即能够得知之前查找到的子域名与待筛选子域名是否访问的是同一个WEB应用目录。若是同一个,则表明待筛选子域名为非有效域名,其访问的页面属于某个泛解析的根域名对应的WEB应用目录。若不是同一个,则表明该待筛选子域名为有效域名,其访问的页面与其他子域名访问的页面均不同,具有独立性,故该待筛选子域名会指向一个独立的WEB应用目录,因此该待筛选子域名是有效地,属于有效域名。
步骤s4:存储筛选出的有效域名及其内容信息。
可以理解的是,存储筛选出的有效域名及其访问返回的内容信息的目的,是为了给后续筛选的子域名提供比对标准。
由此可见,本发明提供了一种泛域名解析中有效域名的筛选方法,确定泛解析的待筛选子域名后,在对其进行筛选时,首先进行IP地址比对,若当前筛选的子域名的IP地址与已存储的其他子域名的IP地址不同,则确定该子域名为有效域名;若存在与当前筛选的子域名的IP地址相同的子域名,则进一步依据访问子域名时返回的内容信息中除IP地址以外的部分进行比对,在比对结果不同时,确定为有效域名,比对结果相同时,才认为是非有效域名。可见,本发明不仅仅依据IP地址进行筛选,还考虑了访问返回的内容信息中其他表征访问的WEB应用目录的特征信息,在实际应用中,对于泛解析根域名之下的子域名来说,若子域名为有效域名,则多数情况下,有效域名与非有效域名的IP地址不同,因此,初步依据IP地址进行筛选能够快速地筛选出大部分的有效域名;而在有效域名的IP地址与非有效域名的IP地址相同的情况下,由于有效域名与非有效域名访问的WEB应用目录不同,因此非有效域名与非有效域名访问的页面内容不同,即返回的内容信息中其他部分也存在不同,因此,本发明在判断IP地址相同的情况下,进一步比对内容信息,则能够将IP地址与非有效域名的IP地址相同的有效域名筛选出来,从而减小筛选的误判率,尽可能避免有效域名的遗漏。
在一种具体实施例中,参见图2所示,图2为本发明提供的另一种泛域名解析中有效域名的筛选方法的过程的流程图;
在确定待筛选子域名之前,很多情况下,无法直接得知待筛选子域名的内容,这是因为一个子域名的长度一般较长,例如12313hdhdhasd.abc.com,导致很难完全记住整个子域名。而相对子域名来说,根域名的长度则较短,且比较有规律,容易记住。因此,可以首先确定待筛选子域名对应的根域名,之后依据该根域名下的子域名列表,来确定待筛选的子域名。即获得泛解析的待筛选子域名之前,还包括:
步骤s01:接收待筛选的根域名;
其中,这里的根域名指的是不包含子域名前缀的域名部分,例如,若一个完整的域名为123.abc.com,则根域名为abc.com。对于泛解析域名来说,泛解析行为是通过设定根域名来实现的,用户在实际应用过程中,会在每个泛解析的根域名前添加不同的子域名前缀,得到多个子域名,这些子域名即组成了根域名的子域名列表。
步骤s02:判断该根域名是否存在泛解析行为,若不存在,进入步骤s03;若存在,进入步骤s04;
其中,泛解析行为指的是在泛解析的根域名前添加任何子域名前缀,均可访问到相同的WEB地址。由于当前接收的根域名可能存在不是泛解析域名的情况,此时,若直接对根域名的子域名列表进行筛选的话,会浪费时间,因此,需要首先判断一下该根域名是否为泛解析域名。其中,判断根域名是否存在泛解析域名的过程可以是:生成多个随机的字符串,保证这些字符串为乱码,不存在合理含义,之后将这些字符串分别作为子域名前缀带入根域名,得到多个子域名并访问,若这些子域名均访问至同一个网址,则该根域名存在泛解析行为。当然,以上仅为一种具体判断方式,判断是否存在泛解析行为还可采用其他方式,本发明对此不作限定。
步骤s03:获取根域名的子域名列表并存储,并结束根域名的筛选;
步骤s04:该根域名为泛解析的根域名,获取该根域名的子域名列表,从子域名列表内选取一个未筛选的子域名作为待筛选子域名,进入步骤s1。
可以理解的是,一旦确定根域名不存在泛解析行为时,表明该根域名下的整个子域名列表内的子域名均为有效域名,因此,这种情况下直接将该根域名的子域名列表进行存储,并结束筛选。存储该根域名的子域名列表时,也需要依次访问该列表内的每个子域名,之后将子域名与返回的内容信息进行保存。
可见,上述实施例中,首先接收待筛选的根域名,然后获得根域名对应的子域名列表,之后从子域名列表内获取待筛选子域名。这种方式中,由于根域名的长度较短,且内容较为有规律,因此输入根域名的方式相比直接输入待筛选子域名的方式,更加方便了用户操作,用户便利性更强。需要注意的是,在对子域名进行筛选时,虽然通过根域名查找到了子域名列表,但是用户可能并不需要对整个子域名列表内的全部子域名进行筛选,而是仅需要对其中部分子域名进行筛选,因此,此时仅需要对子域名列表内需要筛选的待筛选子域名进行筛选即可,而不需要筛选整个子域名列表,从而避免无谓的筛选导致的时间浪费的问题,节省了时间。
另外,由于子域名列表内通常包含多个待筛选的子域名,若采用多进程并行筛选的话,同时筛选的几个子域名在进行内容信息比对时,均是与之前预先存储的子域名的内容信息进行比对,当前正在筛选的这几个子域名之间则无法进行比对,因此,对于当前正在筛选的这几个子域名来说,这种方式减少了作为其比对对象的子域名的个数,因此降低了筛选的准确性,故为了准确的判断每个子域名是否有效,优选采用串行处理的方式,即同一时间仅能对一个待筛选子域名进行筛选操作。该待筛选子域名筛选完毕后,再对下一个待筛选子域名进行筛选操作。
即在需要对子域名列表内的多个子域名进行筛选时,每当完成当前的待筛选子域名的筛选操作后,则继续访问子域名列表内待筛选的下一子域名,重复上述筛选操作,直至子域名列表内的全部待筛选的子域名均筛选完成。若需要对该子域名列表内的全部子域名进行筛选的话,则采用上述遍历筛选的方式,直至子域名列表内的全部子域名均筛选完毕为止。
可以理解的是,在许多情况下,可能需要对子域名列表中的多个子域名进行筛选,此时若通过从子域名列表内挑选待筛选子域名的方式来进行访问的话,则筛选效率较低,因此,这种情况下,需要采用遍历的方式,对整个子域名列表内全部待筛选过的子域名进行筛选操作,来提高筛选操作的整体效率。
在一种具体实施例中,上述内容信息还包括HTTP(HyperText TransferProtocol,超文本传输协议)响应状态码。此时内容信息的比对过程具体包括:
比对待筛选子域名的HTTP响应状态码与查找到的子域名的HTTP响应状态码是否相同,若不同,则待筛选子域名为有效域名;若相同,则待筛选子域名为非有效域名。
可以理解的是,HTTP响应状态码是用以表示网页服务器HTTP响应状态的3位数字代码,用于反映网页服务器的状态,因此通过HTTP响应状态码,可以得知子域名访问后相应的WEB应用目录下网页的工作情况,由于有效域名与其他普通子域名访问的WEB应用目录不同,故其网页的工作情况也不同,因此会反映在HTTP响应状态码中,即有效域名与其他普通子域名的HTTP响应状态码不同,从而据此筛选有效域名。
在另一种实施例中,内容信息还包括服务器特征信息。内容信息的比对过程具体包括:
比对待筛选子域名的服务器特征信息和查找到的子域名的服务器特征信息是否相同,若不同,则待筛选子域名为有效域名,若相同,则待筛选子域名为非有效域名。
可理解的是,部分WEB应用目录在访问时,DNS服务器解析子域名的访问结果时,会返回支持该WEB应用目录的服务器的特征信息,这里的服务器的特征信息指的是表征该服务器的特征的一些信息,例如包含服务器的类型(如IIS)、服务器的版本号(如IIS6.0)、支持该WEB应用目录的软件类型等。由于有效域名与其他普通子域名访问的WEB应用目录不同,故其网页的工作情况也不同,故待筛选子域名与查找到的子域名所包含的内容信息不一定均包含服务器特征信息,即使均包含,由于访问的是不同的服务器,返回的服务器特征信息也是不同的。因此,通过比对是否存在服务器特征信息以及服务器特征信息是否相同,即可以筛选有效域名。其中,仅有部分服务器会返回上述服务器特征信息,例如APACHE服务器、IIS服务器等,本发明对此不作限定。
在另一实施例中,内容信息还包括访问页面,内容信息的比对过程包括::
对访问页面进行特征提取,得到内容标签;
对待筛选子域名的内容标签和查找到的子域名提取到的内容标签进行余弦相似性计算,得到余弦值;
判断余弦值是否大于预设阈值,若大于,则待筛选子域名为非有效域名,若不大于,则待筛选子域名为有效域名。
可以理解的是,对于域名的访问结果,最直观的判断是否相同的标准,即为访问页面是否相同,但是由于访问页面内存在非常多的特征,直接使用访问页面进行特征比对困难较大,因此需要首先通过特征提取,获取访问页面内的内容标签,来作为比对的对象。其中,这里的特征提取是通过DNS服务器实现的。并且,由于在不同的时间访问时,访问页面可能出现部分变化,这样使得相同的WEB访问目录,内容标签却存在部分区别,若直接比对内容标签的话,会判定为不相同,导致结果出错;为了避免这个问题,本实施例通过余弦相似性计算,得到表征两者相似度程度的余弦值来判断,余弦值越高,表明相似度越高,反之,相似度越低;只要满足一定的相似程度即可判断为相同,这种情况提高了有效域名筛选的准确度。
需要注意的是,以上仅为几种优选实施例,在具体应用时,内容信息可以包含HTTP响应状态码、服务器特征信息以及访问页面(或者内容标签)中的任一种或几种的组合,或者也可以包含其他能够表征访问页面信息的特征。另外,在内容信息包含多项特征时,内容信息的比对过程中,各项特征的比对顺序本发明也不做具体限定。
举例来说,在内容信息同时包括HTTP响应状态码、服务器特征信息和访问页面时,内容信息的比对过程包括:
分别执行以下三组判断操作,第一组判断操作包括判断待筛选子域名的HTTP响应状态码和查找到的子域名的HTTP响应状态码是否相同;
第二组判断操作包括判断待筛选子域名的服务器特征信息和查找到的子域名的服务器特征信息是否相同;
第三组判断操作包括访问页面进行特征提取,得到内容标签;对待筛选子域名提取到的内容标签和查找到的子域名提取到的内容标签之间进行余弦相似性计算,得到余弦值,判断余弦值是否大于预设阈值;
当判断待筛选子域名的HTTP响应状态码和查找到的子域名的HTTP响应状态码相同、待筛选子域名的服务器特征信息和查找到的子域名的服务器特征信息相同、余弦值大于预设阈值时,待筛选子域名为非有效域名;否则,待筛选子域名为有效域名。
即当内容信息包含多种类型的信息时,只有全部类型的信息均与之前查找到的子域名包含的内容信息相同时,才认为待筛选子域名为非有效域名;只要有一个类型的信息不同,则认为待筛选子域名为有效域名。当然,上述三组判断操作可以按照特定的顺序依次进行,也可以由不同的进程并行进行,上述三组判断操作的顺序本发明不作具体限定。即在内容信息包含多种类型的信息时,对各种类型信息的比对判断过程的顺序本发明不作限定,对各种类型信息的比对判断过程可以依据某种顺序进行,也可以并行进行。
可以理解的是,HTTP响应状态码、服务器特征信息和访问页面均属于一个WEB应用目录的典型特征,通过HTTP响应状态码能够反映网页服务器的状态,通过服务器特征信息能够反映网页服务器的类型等,通过访问页面能够直观的反映访问的WEB应用目录是否相同。因此,在内容信息中同时包含上述三种类型的特征,并进行后续比对,能够最大程度上保证最终筛选结果的准确性。
进一步的,在内容信息包含上述三种类型的特征时,由于HTTP响应状态码、服务器特征信息和访问页面具有各自独立的特点,因此优选可采用以下顺序进行:参见图3所示,图3本发明提供的一种内容信息比对的过程的流程图。
上述内容信息的比对过程中,首先执行第一组判断操作,当判断待筛选子域名的HTTP响应状态码和查找到的子域名的HTTP响应状态码相同时,触发执行第二组判断操作,当判断待筛选子域名的服务器特征信息和查找到的子域名的服务器特征信息相同时,触发第三组判断操作。
即步骤s3的过程为:
步骤s31:比对待筛选子域名的HTTP响应状态码和查找到的子域名的HTTP响应状态码是否相同,若不同,则待筛选子域名为有效域名;若相同,进入步骤s32;
步骤s32:比对待筛选子域名的服务器特征信息和查找到的子域名的服务器特征信息是否相同,若不同,则待筛选子域名为有效域名,若相同,进入步骤s33;
步骤s33:对访问页面进行特征提取,得到内容标签,对待筛选子域名的内容标签和查找到的子域名提取到的内容标签进行余弦相似性计算,得到余弦值;
步骤s34:判断余弦值是否大于预设阈值,若大于,则待筛选子域名为非有效域名,若不大于,则待筛选子域名为有效域名。
可以理解的是,在本实施例中,首先比对HTTP响应状态码的原因,是因为很多子域名并不包含服务器特征信息,因此,容易出现待筛选子域名和查找到的子域名的内容信息均不包含服务器特征信息的情况,这种情况下,若先比对服务器特征信息的话,则会进行一步无效比对,最终还是需要由HTTP响应状态码的比对结果进行筛选,而首先进行HTTP响应状态码比对的话,则HTTP响应状态码比对会筛选出大部分有效域名,从而不必再进行服务器特征信息的比对,减少由于无效筛选导致的比对速度慢的问题,尽可能提高筛选效率。
另外,余弦值的相似性计算的计算量很大,若将余弦值比对放在内容信息的比对过程中的前列的话,会导致内容信息的比对过程的整体计算量过大,影响有效域名的筛选速度。因此,在本实施例中,将余弦值的比对放在HTTP响应状态码和服务器特征信息之后,尽可能减少余弦值比对的次数,从而减小内容信息的比对过程的计算量,提高有效域名的筛选速度。当然,这里的预设阈值的具体数值本发明不作限定。
并且,需要注意的是,虽然上述实施例中,步骤s33的内容放置在了步骤s32之后,步骤s34之前,但是在其他实施例中,步骤s33仅需要保证在步骤s34之前即可,即对所述访问页面进行特征提取得到内容标签的操作可以在步骤s32之前的任意时间进行,或者也可以在其他时间进行,计算余弦值的操作也可以在步骤s32之前的任意时间进行(处于减小计算量的考虑,计算余弦值的操作优选设置于步骤s32之后)。并且,提取得到内容标签的操作仅需要保证在计算余弦值之前即可,两者可不连续进行,举例来说,提取得到内容标签的操作在步骤s31之前,计算余弦值的操作在步骤s32之后。具体何时进行提取内容标签以及计算余弦值,本发明不作特别限定。
本发明还提供了一种泛域名解析中有效域名的筛选装置,参见图4所示,图4为本发明提供的一种泛域名解析中有效域名的筛选装置的结构示意图。
该装置包括:
访问模块1,用于获得泛解析的待筛选子域名后对其进行访问,获取访问返回的内容信息;内容信息包括IP地址;
IP比对模块2,用于查找所存储的子域名中,是否有与待筛选子域名的IP地址相同的子域名的IP地址,若没有,则待筛选子域名为有效域名;若有,触发详细比对模块3;
详细比对模块3,用于比对查找到的子域名的内容信息中除IP地址以外的其余部分,与待筛选子域名的内容信息中除IP地址以外的其余部分是否相同,若比对结果相同,则待筛选子域名为非有效域名,若比对结果不同,则待筛选子域名为有效域名;
预设数据库4,用于存储筛选出的有效域名及其内容信息。
本发明提供了一种泛域名解析中有效域名的筛选装置,确定泛解析的待筛选子域名后,在对其进行筛选时,首先进行IP地址比对,若当前筛选的子域名的IP地址与已存储的其他子域名的IP地址不同,则确定该子域名为有效域名;若存在与当前筛选的子域名的IP地址相同的子域名,则进一步依据访问子域名时返回的内容信息中除IP地址以外的部分进行比对,在比对结果不同时,确定为有效域名,比对结果相同时,才认为是非有效域名。可见,本发明不仅仅依据IP地址进行筛选,还考虑了访问返回的内容信息中其他表征访问的WEB应用目录的特征信息,在实际应用中,对于泛解析根域名之下的子域名来说,若子域名为有效域名,则多数情况下,有效域名与非有效域名的IP地址不同,因此,初步依据IP地址进行筛选能够快速地筛选出大部分的有效域名;而在有效域名的IP地址与非有效域名的IP地址相同的情况下,由于有效域名与非有效域名访问的WEB应用目录不同,因此非有效域名与非有效域名访问的页面内容不同,即返回的内容信息中其他部分也存在不同,因此,本发明在判断IP地址相同的情况下,进一步比对内容信息,则能够将IP地址与非有效域名的IP地址相同的有效域名筛选出来,从而减小筛选的误判率,尽可能避免有效域名的遗漏。
本发明还提供了一种泛域名解析中有效域名的筛选设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如以上任一项泛域名解析中有效域名的筛选方法的步骤。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如以上任一项泛域名解析中有效域名的筛选方法的步骤。
以上的几种具体实施方式仅是本发明的优选实施方式,以上几种具体实施例可以任意组合,组合后得到的实施例也在本发明的保护范围之内。应当指出,对于本技术领域的普通技术人员来说,相关专业技术人员在不脱离本发明精神和构思前提下推演出的其他改进和变化,均应包含在本发明的保护范围之内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种泛域名解析中有效域名的筛选方法,其特征在于,包括:
获得泛解析的待筛选子域名后对其进行访问,获取访问返回的内容信息;所述内容信息包括IP地址;
查找所存储的子域名中,是否有与所述待筛选子域名的IP地址相同的子域名的IP地址,若没有,则所述待筛选子域名为有效域名;
若有,比对查找到的子域名的内容信息中除IP地址以外的其余部分,与所述待筛选子域名的内容信息中除IP地址以外的其余部分是否相同,若比对结果相同,则所述待筛选子域名为非有效域名,若比对结果不同,则所述待筛选子域名为有效域名;
存储筛选出的有效域名及其内容信息。
2.根据权利要求1所述的泛域名解析中有效域名的筛选方法,其特征在于,所述获得泛解析的待筛选子域名之前,还包括:
接收待筛选的根域名;
判断所述根域名是否存在泛解析行为,若存在,所述根域名为泛解析的根域名,获取所述根域名的子域名列表,从所述子域名列表内选取一个未筛选的子域名作为所述待筛选子域名;若不存在,则获取所述根域名的子域名列表并存储,并结束所述根域名的筛选。
3.根据权利要求2所述的泛域名解析中有效域名的筛选方法,其特征在于,所述待筛选子域名筛选完毕后,还包括:
继续访问所述子域名列表内未筛选过的下一子域名,重复筛选操作,直至所述子域名列表内的全部子域名均筛选完成。
4.根据权利要求1-3任一项所述的泛域名解析中有效域名的筛选方法,其特征在于,所述内容信息还包括HTTP响应状态码;所述内容信息的比对过程具体包括:
比对所述待筛选子域名的HTTP响应状态码与所述查找到的子域名的HTTP响应状态码是否相同,若不同,则所述待筛选子域名为有效域名;若相同,则所述待筛选子域名为非有效域名。
5.根据权利要求1-3任一项所述的泛域名解析中有效域名的筛选方法,其特征在于,所述内容信息还包括服务器特征信息;所述内容信息的比对过程具体包括:
比对所述待筛选子域名的服务器特征信息和所述查找到的子域名的服务器特征信息是否相同,若不同,则所述待筛选子域名为有效域名,若相同,则所述待筛选子域名为非有效域名。
6.根据权利要求1-3任一项所述的泛域名解析中有效域名的筛选方法,其特征在于,所述内容信息还包括访问页面,所述内容信息的比对过程包括:
对所述访问页面进行特征提取,得到内容标签;
对所述待筛选子域名的内容标签和所述查找到的子域名提取到的内容标签进行余弦相似性计算,得到余弦值;
判断所述余弦值是否大于预设阈值,若大于,则所述待筛选子域名为非有效域名,若不大于,则所述待筛选子域名为有效域名。
7.根据权利要求1-3任一项所述的泛域名解析中有效域名的筛选方法,其特征在于,所述内容信息还包括HTTP响应状态码、服务器特征信息和访问页面;所述内容信息的比对过程包括:
分别执行以下三组判断操作,第一组判断操作包括判断所述待筛选子域名的HTTP响应状态码和所述查找到的子域名的HTTP响应状态码是否相同;
第二组判断操作包括判断所述待筛选子域名的服务器特征信息和所述查找到的子域名的服务器特征信息是否相同;
第三组判断操作包括所述访问页面进行特征提取,得到内容标签;对所述待筛选子域名提取到的内容标签和所述查找到的子域名提取到的内容标签之间进行余弦相似性计算,得到余弦值,判断所述余弦值是否大于预设阈值;
当判断所述待筛选子域名的HTTP响应状态码和所述查找到的子域名的HTTP响应状态码相同、所述待筛选子域名的服务器特征信息和所述查找到的子域名的服务器特征信息相同、所述余弦值大于预设阈值时,所述待筛选子域名为非有效域名;否则,所述待筛选子域名为有效域名。
8.根据权利要求7所述的泛域名解析中有效域名的筛选方法,其特征在于,所述内容信息的比对过程中,首先执行所述第一组判断操作,当判断所述待筛选子域名的HTTP响应状态码和所述查找到的子域名的HTTP响应状态码相同时,触发执行所述第二组判断操作,当判断所述待筛选子域名的服务器特征信息和所述查找到的子域名的服务器特征信息相同时,触发所述第三组判断操作。
9.一种泛域名解析中有效域名的筛选装置,其特征在于,包括:
访问模块,用于获得泛解析的待筛选子域名后对其进行访问,获取访问返回的内容信息;所述内容信息包括IP地址;
IP比对模块,用于查找所存储的子域名中,是否有与所述待筛选子域名的IP地址相同的子域名的IP地址,若没有,则所述待筛选子域名为有效域名;若有,触发详细比对模块;
所述详细比对模块,用于比对查找到的子域名的内容信息中除IP地址以外的其余部分,与所述待筛选子域名的内容信息中除IP地址以外的其余部分是否相同,若比对结果相同,则所述待筛选子域名为非有效域名,若比对结果不同,则所述待筛选子域名为有效域名;
所述预设数据库,用于存储筛选出的有效域名及其内容信息。
10.一种泛域名解析中有效域名的筛选设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至8任一项所述的泛域名解析中有效域名的筛选方法的步骤。
CN201811280245.9A 2018-10-30 2018-10-30 一种泛域名解析中有效域名的筛选方法、装置及设备 Active CN109040346B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811280245.9A CN109040346B (zh) 2018-10-30 2018-10-30 一种泛域名解析中有效域名的筛选方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811280245.9A CN109040346B (zh) 2018-10-30 2018-10-30 一种泛域名解析中有效域名的筛选方法、装置及设备

Publications (2)

Publication Number Publication Date
CN109040346A true CN109040346A (zh) 2018-12-18
CN109040346B CN109040346B (zh) 2021-08-13

Family

ID=64614555

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811280245.9A Active CN109040346B (zh) 2018-10-30 2018-10-30 一种泛域名解析中有效域名的筛选方法、装置及设备

Country Status (1)

Country Link
CN (1) CN109040346B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113810518A (zh) * 2021-09-15 2021-12-17 北京知道未来信息技术有限公司 有效子域名识别方法、装置和电子设备
CN115277636A (zh) * 2022-09-14 2022-11-01 中国科学院大学 一种泛域名解析方法和系统
CN115378905A (zh) * 2022-07-22 2022-11-22 北京华顺信安科技有限公司 一种域名收集方法、装置、设备及计算机可读存储介质
CN117997868A (zh) * 2024-04-01 2024-05-07 北京长亭未来科技有限公司 Cdn场景下有效域名的筛选方法、装置、电子设备和介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104363309A (zh) * 2012-06-28 2015-02-18 北京奇虎科技有限公司 泛域名识别、处理装置及方法
US20150249638A1 (en) * 2009-02-20 2015-09-03 Gary Stephen Shuster Registration and use of patterns defined by expressions as domain names
CN105323290A (zh) * 2014-08-04 2016-02-10 中国移动通信集团公司 一种基于用户流量分布特征的内容调度方法和装置
CN107222365A (zh) * 2017-06-08 2017-09-29 百度在线网络技术(北京)有限公司 数据处理方法、装置及服务器
CN107249049A (zh) * 2017-07-21 2017-10-13 北京亚鸿世纪科技发展有限公司 一种对网络采集的域名数据进行筛选的方法及设备
CN107438053A (zh) * 2016-05-25 2017-12-05 阿里巴巴集团控股有限公司 域名识别方法、装置及服务器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150249638A1 (en) * 2009-02-20 2015-09-03 Gary Stephen Shuster Registration and use of patterns defined by expressions as domain names
CN104363309A (zh) * 2012-06-28 2015-02-18 北京奇虎科技有限公司 泛域名识别、处理装置及方法
CN105323290A (zh) * 2014-08-04 2016-02-10 中国移动通信集团公司 一种基于用户流量分布特征的内容调度方法和装置
CN107438053A (zh) * 2016-05-25 2017-12-05 阿里巴巴集团控股有限公司 域名识别方法、装置及服务器
CN107222365A (zh) * 2017-06-08 2017-09-29 百度在线网络技术(北京)有限公司 数据处理方法、装置及服务器
CN107249049A (zh) * 2017-07-21 2017-10-13 北京亚鸿世纪科技发展有限公司 一种对网络采集的域名数据进行筛选的方法及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BU-SUNG LEE ET: "Availability and effectiveness of root DNS servers: A long term study", 《2010 IEEE NETWORK OPERATIONS AND MANAGEMENT SYMPOSIUM - NOMS 2010》 *
邓诗钊: "DNS域名安全实时检测的研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113810518A (zh) * 2021-09-15 2021-12-17 北京知道未来信息技术有限公司 有效子域名识别方法、装置和电子设备
CN115378905A (zh) * 2022-07-22 2022-11-22 北京华顺信安科技有限公司 一种域名收集方法、装置、设备及计算机可读存储介质
CN115378905B (zh) * 2022-07-22 2023-11-14 北京华顺信安科技有限公司 一种域名收集方法、装置、设备及计算机可读存储介质
CN115277636A (zh) * 2022-09-14 2022-11-01 中国科学院大学 一种泛域名解析方法和系统
CN117997868A (zh) * 2024-04-01 2024-05-07 北京长亭未来科技有限公司 Cdn场景下有效域名的筛选方法、装置、电子设备和介质

Also Published As

Publication number Publication date
CN109040346B (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN109040346A (zh) 一种泛域名解析中有效域名的筛选方法、装置及设备
US11710054B2 (en) Information recommendation method, apparatus, and server based on user data in an online forum
US9613165B2 (en) Autocomplete searching with security filtering and ranking
CN105634855B (zh) 网络地址的异常识别方法及装置
CN111241389B (zh) 一种基于矩阵的敏感词过滤方法、装置、电子设备、存储介质
CN102855309B (zh) 一种基于用户行为关联分析的信息推荐方法及装置
CN103237094B (zh) 一种识别用户的方法及装置
CN104182548B (zh) 网页更新处理方法及装置
CN107046586B (zh) 一种基于类自然语言特征的算法生成域名检测方法
CN101546308B (zh) 一种基于检索过期的网页搜索方法及其系统
CN109635084A (zh) 一种多源数据文档实时快速去重方法及系统
CN108881138A (zh) 一种网页请求识别方法及装置
CN104765882B (zh) 一种基于网页特征字符串的互联网网站统计方法
Prajapati A survey paper on hyperlink-induced topic search (HITS) algorithms for web mining
CN103685606B (zh) 关联域名的获取方法和系统以及网站管理员权限验证方法
CN106230829A (zh) 面向网络威胁发现的虚拟身份知识图谱的构建方法
CN108280102B (zh) 上网行为记录方法、装置及用户终端
CN105808636B (zh) 一种基于app信息数据的超文本链接推送系统
US20110295859A1 (en) Technique For Multi-Dimensionally Determining Strength Of An Item In A Weighted List Based On Tagging
CN108510244A (zh) 一种基于大数据的政策信息服务平台
CN110175289A (zh) 基于余弦相似度协同过滤的混合推荐方法
CN109150819B (zh) 一种攻击识别方法及其识别系统
CN103514237B (zh) 一种获取用户和文档个性化特征的方法和系统
CN110442614A (zh) 元数据的搜索方法及装置、电子设备、存储介质
CN105701232B (zh) 一种基于app信息数据的超文本链接清单推送系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant