CN113709265A - 一种域名识别的方法、装置、系统和计算机可读存储介质 - Google Patents
一种域名识别的方法、装置、系统和计算机可读存储介质 Download PDFInfo
- Publication number
- CN113709265A CN113709265A CN202010440964.3A CN202010440964A CN113709265A CN 113709265 A CN113709265 A CN 113709265A CN 202010440964 A CN202010440964 A CN 202010440964A CN 113709265 A CN113709265 A CN 113709265A
- Authority
- CN
- China
- Prior art keywords
- domain name
- analyzed
- information
- preset
- domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000012216 screening Methods 0.000 claims abstract description 23
- 230000009193 crawling Effects 0.000 claims abstract description 20
- 238000001914 filtration Methods 0.000 claims abstract description 17
- 238000009826 distribution Methods 0.000 claims description 23
- 238000012795 verification Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 12
- 238000007405 data analysis Methods 0.000 abstract description 5
- 230000008520 organization Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 101100261006 Salmonella typhi topB gene Proteins 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 101150032437 top-3 gene Proteins 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L61/00—Network arrangements, protocols or services for addressing or naming
- H04L61/45—Network directories; Name-to-address mapping
- H04L61/4505—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
- H04L61/4511—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/02—Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
- H04L63/0227—Filtering policies
- H04L63/0236—Filtering by address, protocol, port number or service, e.g. IP-address or URL
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了一种域名识别的方法、装置、系统和计算机可读存储介质,获取DNS流量数据;按照预设的域名过滤规则对DNS流量数据进行筛选,得到至少一个待分析域名;通过初步的筛选可以降低无效数据造成的干扰,并且降低了数据分析量。每个待分析域名的处理方式类似,根据设定的数据类型,爬取待分析域名的特征信息。通过爬取不同数据类型的特征信息,可以更加全面的了解待分析域名的特性。利用预先建立的特征校验规则对待分析域名的特征信息进行安全校验,将通过安全校验的目标待分析域名标记为安全域名。特征信息是与待分析域名具有较强关联性的信息,通过对特征信息进行分析,可以有效的提升白域名识别的准确性。
Description
技术领域
本发明涉及网络安全技术领域,特别是涉及一种域名识别的方法、装置、系统和计算机可读存储介质。
背景技术
在企业的业务中,每日进出大量的流量数据。企业需要威胁情报来对进出的流量进行鉴定。尤其是在内容分发网络(Content Delivery Network,CDN)协议防护中,如果企业请求的是白域名,那么该流量可以放行。如果请求的是黑域名,则需要拦截。
其中,白域名(White Domain Name)又称网域,是由一串用点分隔的名字组成的Internet上某一台计算机或计算机组的名称,用于在数据传输时对计算机的定位标识(有时也指地理位置)。白域名并不是由黑客组织所有,对企业不会带来安全问题。
黑客要与僵尸网络主机进行通信时,需要有自己的CC服务器。而CC服务器对外暴露的就是一个域名。所以,只要是涉及到企业对外访问一个域名的情况,都有可能是进行恶意通信。
现有技术中往往通过查询Alexa排名中所包含的域名,来判别当前的域名是否属于白域名。Alexa排名是指网站的世界排名,主要分为综合排名和分类排名,Alexa提供了包括综合排名、到访量排名、页面访问量排名等多个评价指标信息,大多数人把它当作当前较为权威的网站访问量评价指标。Alexa排名在许多公开网站上都可以查到,包含一些TOP的域名,这些域名必然是白域名。但是这种判别方式不够全面,导致判别的结果不准确。
可见,如何提升白域名识别的准确性,是本领域技术人员需要解决的问题。
发明内容
本发明实施例的目的是提供一种域名识别的方法、装置、系统和计算机可读存储介质,可以提升白域名识别的准确性。
为解决上述技术问题,本发明实施例提供一种域名识别的方法,包括:
获取DNS流量数据;
按照预设的域名过滤规则对所述DNS流量数据进行筛选,得到至少一个待分析域名;
根据设定的数据类型,爬取所述待分析域名的特征信息;
利用预先建立的特征校验规则对所述待分析域名的特征信息进行安全校验,将通过安全校验的目标待分析域名标记为安全域名。
可选地,所述按照预设的域名过滤规则对所述DNS流量数据进行筛选,得到至少一个待分析域名包括:
统计预设时间段内所述DNS流量数据中各个域名所对应的访问数以及设备数;
将访问数以及设备数满足预设要求的目标域名作为待分析域名。
可选地,所述访问数包括总访问次数和分布个数;相应的,所述统计预设时间段内所述DNS流量数据中各个域名所对应的访问次数以及访问设备数包括:
统计所述DNS流量数据中包含的各个域名在预设时间段内被访问的总访问次数以及所对应的设备数;
将所述预设时间段划分为预设个数的子时间段,统计同一个域名在所述预设时间段内被访问的子时间段的分布个数;
相应的,所述将访问数以及设备数满足预设要求的目标域名作为待分析域名包括:
将总访问次数大于或等于第一阈值、设备数大于或等于第二阈值并且分布个数大于或等于第三阈值的目标域名划分为待分析域名。
可选地,所述根据设定的数据类型,爬取所述待分析域名的特征信息包括:
爬取每个待分析域名的VT信息、Whois命令信息、DNS请求信息、ICP备案信息和SSL证书信息,并将未爬取到的数据类型标记为空。
可选地,所述利用预先建立的特征校验规则对所述待分析域名的特征信息进行安全校验,将通过安全校验的目标待分析域名标记为安全域名包括:
判断第一待分析域名在开源情报库或者Alexa排名库中是否存在;其中,所述第一待分析域名为所有待分析域名中的任意一个域名;
当第一待分析域名在开源情报库或者Alexa排名库中存在时,则将所述第一待分析域名标记为安全域名;
当第一待分析域名在开源情报库以及Alexa排名库中均不存在时,则判断所述第一待分析域名的VT信息、Whois命令信息、DNS请求信息、ICP备案信息或者SSL证书信息中是否包含符合安全要求的字符信息;
若是,则将所述第一待分析域名标记为安全域名;
若否,则将所述第一待分析域名标记为非安全域名。
本发明实施例还提供了一种域名识别的装置,包括获取单元、筛选单元、爬取单元和校验单元;
所述获取单元,用于获取DNS流量数据;
所述筛选单元,用于按照预设的域名过滤规则对所述DNS流量数据进行筛选,得到至少一个待分析域名;
所述爬取单元,用于根据设定的数据类型,爬取所述待分析域名的特征信息;
所述校验单元,用于利用预先建立的特征校验规则对所述待分析域名的特征信息进行安全校验,将通过安全校验的目标待分析域名标记为安全域名。
可选地,所述筛选单元包括统计子单元和作为子单元;
所述统计子单元,用于统计预设时间段内所述DNS流量数据中各个域名所对应的访问数以及设备数;
所述作为子单元,用于将访问数以及设备数满足预设要求的目标域名作为待分析域名。
可选地,所述访问数包括总访问次数和分布个数;相应的,所述统计子单元具体用于统计所述DNS流量数据中包含的各个域名在预设时间段内被访问的总访问次数以及所对应的设备数;将所述预设时间段划分为预设个数的子时间段,统计同一个域名在所述预设时间段内被访问的子时间段的分布个数;
所述作为子单元具体用于将总访问次数大于或等于第一阈值、设备数大于或等于第二阈值并且分布个数大于或等于第三阈值的目标域名划分为待分析域名。
可选地,所述爬取单元具体用于爬取每个待分析域名的VT信息、Whois命令信息、DNS请求信息、ICP备案信息和SSL证书信息,并将未爬取到的数据类型标记为空。
可选地,所述校验单元包括第一判断子单元、第一标记子单元、第二判断子单元和第二标记子单元;
所述第一判断子单元,用于判断第一待分析域名在开源情报库或者Alexa排名库中是否存在;其中,所述第一待分析域名为所有待分析域名中的任意一个域名;若是,则触发所述第一标记子单元;若否,则触发所述第二判断子单元;
所述第一标记子单元,用于将所述第一待分析域名标记为安全域名;
所述第二判断子单元,用于判断所述第一待分析域名的VT信息、Whois命令信息、DNS请求信息、ICP备案信息或者SSL证书信息中是否包含符合安全要求的字符信息;若是,则触发所述第一标记子单元;若否,则触发所述第二标记子单元;
所述第二标记子单元,用于将所述第一待分析域名标记为非安全域名。
本发明实施例还提供了一种域名识别的系统,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如上述任意一项所述域名识别的方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一项所述域名识别的方法的步骤。
由上述技术方案可以看出,获取DNS流量数据;按照预设的域名过滤规则对DNS流量数据进行筛选,得到至少一个待分析域名;通过初步的筛选可以降低无效数据造成的干扰,并且降低了数据分析量。每个待分析域名的处理方式类似,根据设定的数据类型,爬取待分析域名的特征信息。通过爬取不同数据类型的特征信息,可以更加全面的了解待分析域名的特性。利用预先建立的特征校验规则对待分析域名的特征信息进行安全校验,将通过安全校验的目标待分析域名标记为安全域名。特征信息是与待分析域名具有较强关联性的信息,通过对特征信息进行分析,可以有效的提升白域名识别的准确性。
附图说明
为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种域名识别的方法的流程图;
图2为本发明实施例提供的一种域名安全校验的方法的流程图;
图3为本发明实施例提供的一种域名识别的装置的结构示意图;
图4为本发明实施例提供的一种域名识别的系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
接下来,详细介绍本发明实施例所提供的一种域名识别的方法。图1为本发明实施例提供的一种域名识别的方法的流程图,该方法包括:
S101:获取DNS流量数据。
在具体实现中,可以搜集核心交换机中的全部DNS流量数据。
其中,DNS流量数据中记录了哪台设备什么时间访问了哪个域名。
S102:按照预设的域名过滤规则对DNS流量数据进行筛选,得到至少一个待分析域名。
本发明实施例主要是用于识别DNS流量数据中的白域名。
考虑到DNS流量数据中往往包含有较多的无效数据,为了降低无效数据造成的干扰,并且降低数据的分析量,在对DNS流量数据据分析之前,可以先对明显不属于白域名的数据进行剔除。
域名过滤规则中可以包含白域名的数据特征信息。例如,域名的访问次数、访问域名的设备数等。当DNS流量数据中存在不满足域名过滤规则的域名时,则可以将不满足域名过滤规则的域名过滤掉,只保留满足域名过滤规则的域名。
S103:根据设定的数据类型,爬取待分析域名的特征信息。
待分析域名的个数可以有多个,每个待分析域名的处理方式类似,在本发明实施例中,均以一个待分析域名为例展开介绍。
为了更加全面的了解待分析域名的特性,可以爬取与待分析域名具有较强关联关系的信息。
爬取的特征信息可以包括待分析域名的VT信息、Whois命令信息、DNS请求信息、ICP备案信息和SSL证书信息等。
对于一个待分析域名而言,可能无法爬取到上述提及的所有类型的特征信息,因此在实际应用中,可以并将未爬取到的数据类型标记为空。
S104:利用预先建立的特征校验规则对待分析域名的特征信息进行安全校验,将通过安全校验的目标待分析域名标记为安全域名。
不同类型的特征信息对应的校验方式有所不同,在本发明实施例中,可以预先将各类特征信息的校验方式以特征校验规则的方式存储。
在本发明实施例中,可以先选取出非空的特征信息,然后依赖于该特征信息相对应的特征校验方式对特征信息进行安全校验;也可以同时将一个待分析域名的各类特征信息按照各自相对应的特征校验方式进行安全校验。只要待分析域名中有一类特征信息通过了安全校验,便可以判定该待分析域名为安全域名即白域名。一种可行的域名安全校验的方法可以参见图2,在此不再赘述。
由上述技术方案可以看出,获取DNS流量数据;按照预设的域名过滤规则对DNS流量数据进行筛选,得到至少一个待分析域名;通过初步的筛选可以降低无效数据造成的干扰,并且降低了数据分析量。每个待分析域名的处理方式类似,根据设定的数据类型,爬取待分析域名的特征信息。通过爬取不同数据类型的特征信息,可以更加全面的了解待分析域名的特性。利用预先建立的特征校验规则对待分析域名的特征信息进行安全校验,将通过安全校验的目标待分析域名标记为安全域名。特征信息是与待分析域名具有较强关联性的信息,通过对特征信息进行分析,可以有效的提升白域名识别的准确性。
结合S102的介绍可知,在本发明实施例中可以依赖于域名的访问次数、访问域名的设备数等信息,对DNS流量数据中包含的域名进行筛选。
在具体实现中,可以统计预设时间段内DNS流量数据中各个域名所对应的访问数以及设备数;将访问数以及设备数满足预设要求的目标域名作为待分析域名。
其中,预设时间段的取值可以根据实际需求设定,在此不做限定。例如,可以将预设时间段设置为24小时即1天。在本发明实施例中,可以针对于每天所产生的DNS流量数据进行域名的识别。
访问数反映了域名在预设时间段内被访问的次数。在本发明实施例中,为了更加准确的表征域名被访问的情况,访问数可以包含每个域名在预设时间段内被访问的总访问次数,以及域名在不同的子时间段被访问的分布个数。
设备数反映了同一个域名被多个设备访问的情况。
在实际应用中,可以统计DNS流量数据中包含的各个域名在预设时间段内被访问的总访问次数以及所对应的设备数。
对于分布个数的统计,可以将预设时间段划分为预设个数的子时间段,统计同一个域名在预设时间段内被访问的子时间段的分布个数。
以一个域名A为例,假设预设时间段为24小时,预设个数为24个,则划分的子时间段有24个。分布个数即统计域名A在每个子时间段内是否被访问,当域名A分别在16个子时间段内被访问时,则域名A的分布个数为16。
当统计出域名在预设时间段内对应的总访问次数、设备数以及分布个数之后,可以将总访问次数大于或等于第一阈值、设备数大于或等于第二阈值并且分布个数大于或等于第三阈值的目标域名划分为待分析域名。
在本发明实施例中,对于第一阈值、第二阈值和第三阈值的取值不做限定,可以依据实际需求设定。
当一个域名无法同时满足上述三个要求时,则说明该域名为黑域名的概率较高,此时可以直接将该域名标记为可疑域名,无需做后续分析。
当一个域名同时满足上述三个要求时,则说明该域名为白域名的可能性较高,此时可以将该域名划分为待分析域名,以便于对该域名进行进一步的分析。
按照域名在预设时间段内对应的总访问次数、设备数以及分布个数,可以有效的过滤掉明显不符合白域名的数据,降低了后续域名识别的数据分析量,提升了域名识别的效率。
如图2所示为本发明实施例提供的一种域名安全校验的方法的流程图,方法包括:
S201:判断第一待分析域名在开源情报库或者Alexa排名库中是否存在。
每个待分析域名的处理方式类似,在本发明实施例中,以所有待分析域名中的任意一个域名即第一待分析域名为例展开介绍。
当第一待分析域名在开源情报库或者Alexa排名库中存在时,说明第一待分析域名属于已知的白域名,则执行S202。
当第一待分析域名在开源情报库以及Alexa排名库中均不存在时,则需要对第一待分析域名进行进一步的分析,则执行S203。
S202:将第一待分析域名标记为安全域名。
S203:判断第一待分析域名的VT信息、Whois命令信息、DNS请求信息、ICP备案信息或者SSL证书信息中是否包含符合安全要求的字符信息。
当第一待分析域名的VT信息、Whois命令信息、DNS请求信息、ICP备案信息或者SSL证书信息中有任意一项特征信息包含有符合安全要求的字符信息,则执行S204。
当第一待分析域名的VT信息、Whois命令信息、DNS请求信息、ICP备案信息以及SSL证书信息中均不包含符合安全要求的字符信息,则执行S205。
对于不同类型的特征信息中字符信息的安全校验方式如下:
若VT信息、Whois命令信息或者DNS请求信息中的name server项为已知白域名,且name server域名与本域名是兄弟域名,则认为第一待分析域名是白域名。
例如:www.baidu.com,其name server为ns1.baidu.com。“baidu”属于已知白域名,满足上面的条件,所以www.baidu.com为白域名。
若VT信息或者Whois信息中的organization(包括regist organization,adminorganization,tech organization)属于国内外可以被查询到的企业,则认为第一待分析域名为白域名。
若VT信息或者Whois信息中的email(包括regist email,admin email,techemail)属于知名公司的邮箱,且邮箱关键字在域名中,则第一待分析域名是白域名。
例如:www.sina.com注册邮箱为xxxx@sina.com,则认为www.sina.com为白域名。
若第一待分析域名有ICP备案,且ICP备案是企业备案,且HTTP主页中下方的备案信息与ICP备案信息相同,则认为该域名是白域名。
若HTTPS访问中的SSL证书查询中,发现SSL证书的持有organization是一个国内外可查到的公司,则认为第一待分析域名是白域名。
Google搜索引擎的top3返回信息的URL信息与第一待分析域名吻合,或是其描述文字在分类器结果中呈现白属性,则认为第一待分析域名为白域名。
S204:将第一待分析域名标记为安全域名。
S205:将第一待分析域名标记为非安全域名。
通过对待分析域名相关联的VT信息、Whois命令信息、DNS请求信息、ICP备案信息以及SSL证书信息进行分析,可以更加全面的了解待分析域名的特性,有效的提升了域名识别的准确率。
图3为本发明实施例提供的一种域名识别的装置的结构示意图,包括获取单元31、筛选单元32、爬取单元33和校验单元34;
获取单元31,用于获取DNS流量数据;
筛选单元322,用于按照预设的域名过滤规则对DNS流量数据进行筛选,得到至少一个待分析域名;
爬取单元33,用于根据设定的数据类型,爬取待分析域名的特征信息;
校验单元34,用于利用预先建立的特征校验规则对待分析域名的特征信息进行安全校验,将通过安全校验的目标待分析域名标记为安全域名。
可选地,筛选单元包括统计子单元和作为子单元;
统计子单元,用于统计预设时间段内DNS流量数据中各个域名所对应的访问数以及设备数;
作为子单元,用于将访问数以及设备数满足预设要求的目标域名作为待分析域名。
可选地,访问数包括总访问次数和分布个数;相应的,统计子单元具体用于统计DNS流量数据中包含的各个域名在预设时间段内被访问的总访问次数以及所对应的设备数;将预设时间段划分为预设个数的子时间段,统计同一个域名在预设时间段内被访问的子时间段的分布个数;
作为子单元具体用于将总访问次数大于或等于第一阈值、设备数大于或等于第二阈值并且分布个数大于或等于第三阈值的目标域名划分为待分析域名。
可选地,爬取单元具体用于爬取每个待分析域名的VT信息、Whois命令信息、DNS请求信息、ICP备案信息和SSL证书信息,并将未爬取到的数据类型标记为空。
可选地,校验单元包括第一判断子单元、第一标记子单元、第二判断子单元和第二标记子单元;
第一判断子单元,用于判断第一待分析域名在开源情报库或者Alexa排名库中是否存在;其中,第一待分析域名为所有待分析域名中的任意一个域名;若是,则触发第一标记子单元;若否,则触发第二判断子单元;
第一标记子单元,用于将第一待分析域名标记为安全域名;
第二判断子单元,用于判断第一待分析域名的VT信息、Whois命令信息、DNS请求信息、ICP备案信息或者SSL证书信息中是否包含符合安全要求的字符信息;若是,则触发第一标记子单元;若否,则触发第二标记子单元;
第二标记子单元,用于将第一待分析域名标记为非安全域名。
图3所对应实施例中特征的说明可以参见图1和图2所对应实施例的相关说明,这里不再一一赘述。
由上述技术方案可以看出,获取DNS流量数据;按照预设的域名过滤规则对DNS流量数据进行筛选,得到至少一个待分析域名;通过初步的筛选可以降低无效数据造成的干扰,并且降低了数据分析量。每个待分析域名的处理方式类似,根据设定的数据类型,爬取待分析域名的特征信息。通过爬取不同数据类型的特征信息,可以更加全面的了解待分析域名的特性。利用预先建立的特征校验规则对待分析域名的特征信息进行安全校验,将通过安全校验的目标待分析域名标记为安全域名。特征信息是与待分析域名具有较强关联性的信息,通过对特征信息进行分析,可以有效的提升白域名识别的准确性。
图4为本发明实施例提供的一种域名识别的系统40的结构示意图,包括:
存储器41,用于存储计算机程序;
处理器42,用于执行所述计算机程序以实现如上述任意实施例所述的域名识别的方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意实施例所述的域名识别的方法的步骤。
以上对本发明实施例所提供的一种域名识别的方法、装置、系统和计算机可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
Claims (10)
1.一种域名识别的方法,其特征在于,包括:
获取DNS流量数据;
按照预设的域名过滤规则对所述DNS流量数据进行筛选,得到至少一个待分析域名;
根据设定的数据类型,爬取所述待分析域名的特征信息;
利用预先建立的特征校验规则对所述待分析域名的特征信息进行安全校验,将通过安全校验的目标待分析域名标记为安全域名。
2.根据权利要求1所述的方法,其特征在于,所述按照预设的域名过滤规则对所述DNS流量数据进行筛选,得到至少一个待分析域名包括:
统计预设时间段内所述DNS流量数据中各个域名所对应的访问数以及设备数;
将访问数以及设备数满足预设要求的目标域名作为待分析域名。
3.根据权利要求2所述的方法,其特征在于,所述访问数包括总访问次数和分布个数;相应的,所述统计预设时间段内所述DNS流量数据中各个域名所对应的访问次数以及访问设备数包括:
统计所述DNS流量数据中包含的各个域名在预设时间段内被访问的总访问次数以及所对应的设备数;
将所述预设时间段划分为预设个数的子时间段,统计同一个域名在所述预设时间段内被访问的子时间段的分布个数;
相应的,所述将访问数以及设备数满足预设要求的目标域名作为待分析域名包括:
将总访问次数大于或等于第一阈值、设备数大于或等于第二阈值并且分布个数大于或等于第三阈值的目标域名划分为待分析域名。
4.根据权利要求1所述的方法,其特征在于,所述根据设定的数据类型,爬取所述待分析域名的特征信息包括:
爬取每个待分析域名的VT信息、Whois命令信息、DNS请求信息、ICP备案信息和SSL证书信息,并将未爬取到的数据类型标记为空。
5.根据权利要求4所述的方法,其特征在于,所述利用预先建立的特征校验规则对所述待分析域名的特征信息进行安全校验,将通过安全校验的目标待分析域名标记为安全域名包括:
判断第一待分析域名在开源情报库或者Alexa排名库中是否存在;其中,所述第一待分析域名为所有待分析域名中的任意一个域名;
当第一待分析域名在开源情报库或者Alexa排名库中存在时,则将所述第一待分析域名标记为安全域名;
当第一待分析域名在开源情报库以及Alexa排名库中均不存在时,则判断所述第一待分析域名的VT信息、Whois命令信息、DNS请求信息、ICP备案信息或者SSL证书信息中是否包含符合安全要求的字符信息;
若是,则将所述第一待分析域名标记为安全域名;
若否,则将所述第一待分析域名标记为非安全域名。
6.一种域名识别的装置,其特征在于,包括获取单元、筛选单元、爬取单元和校验单元;
所述获取单元,用于获取DNS流量数据;
所述筛选单元,用于按照预设的域名过滤规则对所述DNS流量数据进行筛选,得到至少一个待分析域名;
所述爬取单元,用于根据设定的数据类型,爬取所述待分析域名的特征信息;
所述校验单元,用于利用预先建立的特征校验规则对所述待分析域名的特征信息进行安全校验,将通过安全校验的目标待分析域名标记为安全域名。
7.根据权利要求6所述的装置,其特征在于,所述筛选单元包括统计子单元和作为子单元;
所述统计子单元,用于统计预设时间段内所述DNS流量数据中各个域名所对应的访问数以及设备数;
所述作为子单元,用于将访问数以及设备数满足预设要求的目标域名作为待分析域名。
8.根据权利要求7所述的装置,其特征在于,所述访问数包括总访问次数和分布个数;相应的,所述统计子单元具体用于统计所述DNS流量数据中包含的各个域名在预设时间段内被访问的总访问次数以及所对应的设备数;将所述预设时间段划分为预设个数的子时间段,统计同一个域名在所述预设时间段内被访问的子时间段的分布个数;
所述作为子单元具体用于将总访问次数大于或等于第一阈值、设备数大于或等于第二阈值并且分布个数大于或等于第三阈值的目标域名划分为待分析域名。
9.一种域名识别的系统,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至5任意一项所述域名识别的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任意一项所述域名识别的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010440964.3A CN113709265A (zh) | 2020-05-22 | 2020-05-22 | 一种域名识别的方法、装置、系统和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010440964.3A CN113709265A (zh) | 2020-05-22 | 2020-05-22 | 一种域名识别的方法、装置、系统和计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113709265A true CN113709265A (zh) | 2021-11-26 |
Family
ID=78646197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010440964.3A Pending CN113709265A (zh) | 2020-05-22 | 2020-05-22 | 一种域名识别的方法、装置、系统和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113709265A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116708034A (zh) * | 2023-08-07 | 2023-09-05 | 北京安天网络安全技术有限公司 | 一种域名的安全属性的确定方法、装置、介质及设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622553A (zh) * | 2012-04-24 | 2012-08-01 | 腾讯科技(深圳)有限公司 | 检测网页安全的方法及装置 |
CN102833262A (zh) * | 2012-09-04 | 2012-12-19 | 珠海市君天电子科技有限公司 | 基于whois信息的钓鱼网站收集、鉴定方法和系统 |
CN103944894A (zh) * | 2014-04-14 | 2014-07-23 | 上海交通大学 | 基于云计算的恶意域名检测系统 |
CN107786575A (zh) * | 2017-11-11 | 2018-03-09 | 北京信息科技大学 | 一种基于dns流量的自适应恶意域名检测方法 |
CN108076041A (zh) * | 2017-10-23 | 2018-05-25 | 中国银联股份有限公司 | 一种dns流量检测方法以及dns流量检测系统 |
CN108270761A (zh) * | 2017-01-03 | 2018-07-10 | 中国移动通信有限公司研究院 | 一种域名合法性检测方法及装置 |
CN108768921A (zh) * | 2018-03-28 | 2018-11-06 | 中国科学院信息工程研究所 | 一种基于特征检测的恶意网页发现方法及系统 |
CN111049816A (zh) * | 2019-12-04 | 2020-04-21 | 北京奇虎科技有限公司 | 域名地址的过滤方法、设备及计算机可读存储介质 |
-
2020
- 2020-05-22 CN CN202010440964.3A patent/CN113709265A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622553A (zh) * | 2012-04-24 | 2012-08-01 | 腾讯科技(深圳)有限公司 | 检测网页安全的方法及装置 |
CN102833262A (zh) * | 2012-09-04 | 2012-12-19 | 珠海市君天电子科技有限公司 | 基于whois信息的钓鱼网站收集、鉴定方法和系统 |
CN103944894A (zh) * | 2014-04-14 | 2014-07-23 | 上海交通大学 | 基于云计算的恶意域名检测系统 |
CN108270761A (zh) * | 2017-01-03 | 2018-07-10 | 中国移动通信有限公司研究院 | 一种域名合法性检测方法及装置 |
CN108076041A (zh) * | 2017-10-23 | 2018-05-25 | 中国银联股份有限公司 | 一种dns流量检测方法以及dns流量检测系统 |
CN107786575A (zh) * | 2017-11-11 | 2018-03-09 | 北京信息科技大学 | 一种基于dns流量的自适应恶意域名检测方法 |
CN108768921A (zh) * | 2018-03-28 | 2018-11-06 | 中国科学院信息工程研究所 | 一种基于特征检测的恶意网页发现方法及系统 |
CN111049816A (zh) * | 2019-12-04 | 2020-04-21 | 北京奇虎科技有限公司 | 域名地址的过滤方法、设备及计算机可读存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116708034A (zh) * | 2023-08-07 | 2023-09-05 | 北京安天网络安全技术有限公司 | 一种域名的安全属性的确定方法、装置、介质及设备 |
CN116708034B (zh) * | 2023-08-07 | 2023-10-27 | 北京安天网络安全技术有限公司 | 一种域名的安全属性的确定方法、装置、介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10560471B2 (en) | Detecting web exploit kits by tree-based structural similarity search | |
CN110431817B (zh) | 识别恶意网络设备 | |
CN109274632B (zh) | 一种网站的识别方法及装置 | |
US9654495B2 (en) | System and method of analyzing web addresses | |
US9692762B2 (en) | Systems and methods for efficient detection of fingerprinted data and information | |
US8438386B2 (en) | System and method for developing a risk profile for an internet service | |
CN106131016A (zh) | 恶意url检测干预方法、系统及装置 | |
CN111052704A (zh) | 网络分析工作流程加速 | |
US9021085B1 (en) | Method and system for web filtering | |
CN102077201A (zh) | 用于网页的动态及实时归类的系统及方法 | |
US20230040895A1 (en) | System and method for developing a risk profile for an internet service | |
RU2722693C1 (ru) | Способ и система выявления инфраструктуры вредоносной программы или киберзлоумышленника | |
CN108023868B (zh) | 恶意资源地址检测方法和装置 | |
CN102394885A (zh) | 基于数据流的信息分类防护自动化核查方法 | |
CN109768992A (zh) | 网页恶意扫描处理方法及装置、终端设备、可读存储介质 | |
US10958684B2 (en) | Method and computer device for identifying malicious web resources | |
CN103905372A (zh) | 一种钓鱼网站去误报的方法和装置 | |
CN112333185B (zh) | 一种基于dns解析的域名阴影检测方法和装置 | |
CN114244564A (zh) | 攻击防御方法、装置、设备及可读存储介质 | |
CN111049837A (zh) | 基于通信运营商网络传送层的恶意网址识别和拦截技术 | |
CN113709265A (zh) | 一种域名识别的方法、装置、系统和计算机可读存储介质 | |
US20170206619A1 (en) | Method for managing violation incident information and violation incident management system and computer-readable recording medium | |
AU2013206427A1 (en) | System and method of analyzing web addresses | |
US9973950B2 (en) | Technique for data traffic analysis | |
CN111625700A (zh) | 防抓取的方法、装置、设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211126 |
|
RJ01 | Rejection of invention patent application after publication |