CN107249049A - 一种对网络采集的域名数据进行筛选的方法及设备 - Google Patents

一种对网络采集的域名数据进行筛选的方法及设备 Download PDF

Info

Publication number
CN107249049A
CN107249049A CN201710599149.XA CN201710599149A CN107249049A CN 107249049 A CN107249049 A CN 107249049A CN 201710599149 A CN201710599149 A CN 201710599149A CN 107249049 A CN107249049 A CN 107249049A
Authority
CN
China
Prior art keywords
domain name
data
address
name data
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710599149.XA
Other languages
English (en)
Inventor
陈维
王钟
彭浩勇
贾士杨
罗干
廖艳云
易永波
林飞
毛俊
赵喜荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Asia Century Technology Development Co Ltd
Original Assignee
Beijing Asia Century Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Asia Century Technology Development Co Ltd filed Critical Beijing Asia Century Technology Development Co Ltd
Priority to CN201710599149.XA priority Critical patent/CN107249049A/zh
Publication of CN107249049A publication Critical patent/CN107249049A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/30Managing network names, e.g. use of aliases or nicknames

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开一种对网络采集的域名数据进行筛选的方法及设备,所述方法包括:从网络中获取至少包含域名与IP地址的对应关系的域名数据;对域名数据进行筛选,并且保存经筛选的域名数据,其中,筛选包括以下步骤中的至少一项:剔除包含异常噪音域名的域名数据;剔除包含需进行IP纠错的域名的域名数据;剔除包含恶意泛域名的域名数据;剔除包含不存在的域名的域名数据;剔除包含不存活域名的域名数据;保留包含属于指定地域的IP地址的域名数据。实现了通过网络采集流量数据获得准确的域名数据。

Description

一种对网络采集的域名数据进行筛选的方法及设备
技术领域
本发明涉及计算机网络的数据处理领域。更具体地,本发明涉及一种对网络采集的域名数据进行筛选的方法及设备。
背景技术
网络上的域名与IP地址之间存在对应关系,使用域名是为了方便人们记忆,但机器之间的通信却需要IP地址,将域名转换为IP地址的工作是由域名系统(DNS)中的解析服务器完成的。
目前,从DNS流量数据中采集域名数据已成为通过互联网进行数据统计和分析的一种重要方法。从海量互联网数据中选择合适的域名数据源,并且形成域名基准表是一项非常有意义的工作,而且,从DNS流量数据中采集的域名数据也最全面。对DNS流量数据进行采集的主要方式是,在DNS解析服务器处部署节点服务器,并且对经由DNS解析服务器的全部域名解析IP进行采集,从而获取域名数据。
此外,除了从DNS流量数据中采集域名IP关系数据外,使用EU(Execution Unit,执行单元)设备也能够获取域名和IP的对应关系。通过在运营商企业处部署EU采集设备,EU设备将采集通过该运营商的全部http get请求和https get请求,将请求的域名和IP的对应关系以及域名的存活状态记录;通过这部分数据可以获取域名和IP的对应关系,并对域名的存活状态进行划分。
然而,由于DNS在设计上存在某些缺陷,使得不法用户能够利用这些缺陷向DNS发起攻击,攻击类型主要包括:直接在域名数据库中修改域名对应的IP地址;通过获取DNS请求包中的序列ID并发送添加了错误信息的应答包而进行DNS欺骗;利用IP欺骗等方法恶意修改DNS解析服务器的缓存中的域名和IP的映射信息。
EU采集的活跃流量数据,由于采集范围小,仅能获取通过当前运营商机房的流量数据,因此数据覆盖度较差,并且活跃数据由于采集的是网络中全部经由机房的请求数据,未经区分,存在大量的噪音数据。而DNS流量数据由于存在前述恶意攻击行为,其中采集到的域名数据中也存在大量的噪音数据,这些噪音数据的形式主要包括:
1.异常噪音域名:包括非法域名、IP格式域名、IP端口格式域名等。
2.需进行IP纠错的域名:拨测的结果为114跳转、无法解析出对应的IP地址且没有提供实际访问内容的域名。
3.恶意泛域名:不正规、量大且杂乱无章、鲜有内容展示、且没有进行统计的意义的域名。
4.不存在的域名:无法解析出接入IP地址、且通过拨测确定其不存在接入IP地址的域名,这部分数据同样能被节点服务器提取,但是这部分域名数据并不存在。
5.不存活域名,对于无法解析出接入IP地址、且通过拨测确定其存在接入IP地址、而通过进一步模拟HTTP/HTTPS请求并且确定其HTTP/HTTPS响应的状态码不在合理范围内的域名。
6.域名地域范围混乱,从DNS流量数据中采集到的域名数据的接入IP地址可能是应分配给世界上的其它地理位置的IP地址,这对于针对某一特定地点生成域名基准表来说是极大的不准确因素。
如果不对带有噪音数据的这些DNS流量数据进行筛选,那么最终获得的域名数据就会带有这些噪音数据,例如,会增加进行DNS查询所需要的时间,从而无法直接使用。
因此,至少需要提出一种技术方案,对网络采集的域名数据进行筛选。
发明内容
本发明的目的是通过以下技术方案实现的。
根据本发明的对网络采集的域名数据进行筛选的方法,包括:
步骤1:从网络中获取至少包含域名与IP地址的对应关系的域名数据;
步骤2:对域名数据进行筛选,并且保存经筛选的域名数据,其中,筛选包括以下步骤中的至少一项:
步骤2-1:剔除包含异常噪音域名的域名数据,异常噪音域名至少包括非法域名、IP格式域名、IP端口格式域名;
步骤2-2:剔除包含需进行IP纠错的域名的域名数据,需进行IP纠错的域名为拨测的结果为114跳转、无法解析出对应的IP地址且没有提供实际访问内容的域名;
步骤2-3:剔除包含恶意泛域名的域名数据,恶意泛域名为不正规、量大且杂乱无章、鲜有内容展示、且没有进行统计的意义的域名;
步骤2-4:剔除包含不存在的域名的域名数据,不存在的域名为无法解析出接入IP地址、且通过拨测确定其不存在接入IP地址的域名;
步骤2-5:剔除包含不存活域名的域名数据,不存活域名为无法解析出接入IP地址、且通过拨测确定其存在接入IP地址、而通过进一步模拟HTTP/HTTPS请求并且确定其HTTP/HTTPS响应的状态码不正确的域名;
步骤2-6:保留包含属于指定地域的IP地址的域名数据。
根据本发明的对网络采集的域名数据进行筛选的方法,在其步骤1之前还包括:
步骤3:在网络中的DNS服务器节点部署能够获取包含(源IP地址,源端口号,解析目标IP地址,端口号,CNAME)的五元组数据的检测设备,以及/或者在网络中部署能够获取包含(域名,源IP,目的IP)的活跃数据的EU采集设备。
根据本发明的对网络采集的域名数据进行筛选的方法,在其步骤2之后还包括:
步骤4:将从人工上报IP地址库或第三方IP地址库和第三方接口查询中获得的域名的地域或归属地属性添加到域名数据中。
根据本发明的对网络采集的域名数据进行筛选的方法,其步骤2-3包括:
步骤2-3-1:针对域名选择下列各项中的至少一项进行统计,并且为所选各项分配权重:短时间内产生的域名的数量、域名访问时间的集中程度与域名访问量的比值、域名访问中的源IP地址的重复数量、该域名的网站返回的内容的一致性、该域名的网站返回空内容的比率;
步骤2-3-2:将所选各项的加权值的求和结果大于设定阈值的域名确定为恶意泛域名,并且剔除包含该恶意泛域名的域名数据。
结合对网络采集的域名数据进行筛选的上述方法,本发明还提出了一种对网络采集的域名数据进行筛选的设备,包括存储器、一个或多个处理器;以及,一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,以完成对网络采集的域名数据进行筛选的上述方法中的步骤。
结合对网络采集的域名数据进行筛选的上述方法,本发明还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序可被处理器执行以完成对网络采集的域名数据进行筛选的上述方法中的步骤。
本发明的优点在于:可以对网络采集的域名数据进行筛选,从而剔除了通过DNS流量数据获得的域名数据中的诸如恶意泛域名数据的噪音数据,能够有效的提升域名数据的质量。实现了通过DNS流量数据获得准确的域名数据。
附图说明
通过阅读下文具体实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出具体实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明实施方式的对网络采集的域名数据进行筛选的方法的示意图。
图2示出了根据本发明实施方式的对网络采集的域名数据进行筛选的方法可以包括的示例步骤的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明实施方式的对网络采集的域名数据进行筛选的方法100的示意图。
如图1所示,对网络采集的域名数据进行筛选的方法100包括以下步骤:
步骤S101:从网络中获取至少包含域名与IP地址的对应关系的域名数据。
步骤S102:对域名数据进行筛选,并且保存经筛选的域名数据。
尽管在图1中未示出,但是步骤S102中的筛选可以包括以下步骤中的至少一项:
步骤S102-1:剔除包含异常噪音域名的域名数据,异常噪音域名至少包括非法域名、IP格式域名、IP端口格式域名。
例如,在针对异常域名噪音数据进行处理的步骤S102-1中,输入数据为初步的DNS流量(域名)数据,这部分数据中存在大量的异常和噪音域名,需要进行严格且有效的处理,将非法域名、IP格式域名、IP端口格式域名进行过滤。其中非法域名是非域名格式的字符串,IP格式域名直接用IP作为域名,IP端口域名则使用IP及端口号作为域名。这些域名都无法进入域名基准表,并且这部分域名没有统计的意义,需要直接进行剔除。
步骤S102-2:剔除包含需进行IP纠错的域名的域名数据,需进行IP纠错的域名为拨测的结果为114跳转、无法解析出对应的IP地址且没有提供实际访问内容的域名。
例如,在针对需进行IP纠错的域名进行处理的步骤S102-2中,建立114IP表,并人工维护该表,经过一定时间的积累后会获得一个完善的114IP表。将去除噪音数据的DNS流量域名数据中的域名对应IP同114表中的IP进行比对,剔除所有的114IP对应的域名。
步骤S102-3:剔除包含恶意泛域名的域名数据,恶意泛域名为不正规、量大且杂乱无章、鲜有内容展示、且没有进行统计的意义的域名。
例如,经初步降噪后的DNS流量域名数据在进行拨测前,需要对其中混杂的大量恶意泛域名数据进行剔除。恶意泛域名往往是用于实施攻击的,因此不仅需要将恶意泛域名从域名中剔除,还需要建表统计恶意泛域名的情况。恶意泛域名的域名是随机的,混杂于大量的合法正常域名中,直接通过观察域名的字符串无法之间判断一个域名是否为恶意泛域名。
步骤S102-4:剔除包含不存在的域名的域名数据,不存在的域名为无法解析出接入IP地址、且通过拨测确定其不存在接入IP地址的域名。
例如,在将恶意泛域名数据剔除后,考虑到剩余的域名数量大量降低,可以进行拨测处理。
例如,通过dig或nslookup等拨测手段对于降噪后的域名数据进行拨测,将没有与域名对应的IP地址的域名数据剔除(即,剔除包含不存在的域名的域名数据)。
步骤S102-5:剔除包含不存活域名的域名数据,不存活域名为无法解析出接入IP地址、且通过拨测确定其存在接入IP地址、而通过进一步模拟HTTP/HTTPS请求并且确定其HTTP/HTTPS响应的状态码不正确的域名。
例如,将拨测获得的域名-IP关系使用socket或curl命令进行http和https拨测,返回值不为200的为不存活域名,将不存活的域名剔除,最终得到存活且存在的域名数据以及域名-IP关系数据。
步骤S102-6:保留包含属于指定地域的IP地址的域名数据。
如上文所述,域名地域范围混乱,从DNS流量数据中采集到的域名数据的接入IP地址可能是应分配给世界上的其它任何一个地理位置的IP地址,这对于针对某一特定地点生成域名基准表来说是极大的不准确因素。
例如,考虑到所获取的域名数据是包含域名-IP地址关系的数据,可以使用接口关联人工上报IP地址库或第三方IP地址库和第三方接口查询来获取域名的地域或归属地属性的方法,来针对采集到的域名数据进行所属真实位置的划分,从而提升域名基准表的准确度。这是因为,通过人工上报IP数据和第三方接口IP数据都能够获得一个已知IP的所属地市以及运营商、企业等信息。这样就能够结合存在且存活的域名IP结果,并且利用域名和IP的对应关系,确定域名数据是否包含属于指定地域的IP地址,从而在某个DNS解析服务器的缓存或数据库中只保存指定区域的域名数据。
可选地,如图1所示,在步骤S101之前,对网络采集的域名数据进行筛选的方法100还包括:
步骤S103:在网络中的DNS服务器节点部署能够获取包含(源IP地址,源端口号,解析目标IP地址,端口号,CNAME)的五元组数据的检测设备,以及/或者在网络中部署能够获取包含(域名,源IP,目的IP)的活跃数据的EU采集设备。
可选地,如图1所示,步骤S102之后,对网络采集的域名数据进行筛选的方法100还包括:
步骤S104:将从人工上报IP地址库或第三方IP地址库中获得的域名的地域或归属地属性添加到域名数据中。
例如,考虑到所获取的域名数据是包含域名-IP地址关系的数据,可以使用接口关联人工上报IP地址库或第三方IP地址库来获取域名的地域或归属地属性的方法,来针对采集到的域名数据进行所属真实位置的划分,从而提升域名基准表的准确度。这是因为,通过人工上报IP数据和第三方接口IP数据都能够获得一个已知IP的所属地市以及运营商、企业等信息。这样就能够结合存在且存活的域名IP结果,并且利用域名和IP的对应关系,对域名的地域及归属等属性进行补充。以提高域名数据的可靠性。
可选地,对网络采集的域名数据进行筛选的方法100,其步骤S102-3包括:
步骤S102-3-1:针对域名选择下列各项中的至少一项进行统计,并且为所选各项分配权重:短时间内产生的域名的数量、域名访问时间的集中程度与域名访问量的比值、域名访问中的源IP地址的重复数量、该域名的网站返回的内容的一致性、该域名的网站返回空内容的比率。
步骤S102-3-2:将所选各项的加权值的求和结果大于设定阈值的域名确定为恶意泛域名,并且剔除包含该恶意泛域名的域名数据。
更具体地,通过采用以下加权算法对一个域名是否是恶意泛域名进行判断。这些恶意泛域名的判断方法以及加权算法如下:
a)短时间内产生的域名的数量:短时间内大量产生的域名,由于恶意泛域名进行攻击的时间集中,所以这部分域名有一定几率为恶意泛域名。加权规则为,在X分钟内同时出现的域名数量大于Y,则给这部分域名一个加权值A。
b)域名访问时间的集中程度与域名访问量的比值:访问量时间集中且访问量小的域名,恶意泛域名只有在进行攻击时才有访问量,且访问量很低,因此满足这部分条件的域名有一定几率为恶意泛域名。加权规则为:在一个周期X天内,仅在Y分钟内出现访问量,且访问量小于Z的域名,给定这部分域名一个加权B。
c)域名访问中的源IP地址的重复数量:大量域名的源IP重复,恶意泛域名的攻击往往从单一IP处开展,因此大量的域名源IP相同,则这部分域名有一定几率为恶意泛域名。加权规则为,超过X的域名的源IP相同,给定这部分域名一个加权值C。
d)该域名的网站返回的内容的一致性:网页返回内容一致的域名,恶意泛域名是机械生产的大量域名,返回的内容会有大量的重复,因此可以判断超过一定量的域名返回内容相同时,这部分域名有一定的几率为恶意泛域名。判断规则为,超过X个域名的返回内容相同(不为空),给这些域名一个加权值D。
e)该域名的网站返回空内容的比率:网页返回内容为空的域名,不提供内容服务的域名有一定几率为恶意泛域名。判断规则为,网页返回内容为空的域名给定一个加权值E。
当域名经过这5种方法判断后,将其获得的加权值进行求和,当这些值的和大于阈值F时,判断该域名为恶意泛域名,否则不为恶意泛域名。可选地,将判断为恶意泛域名的域名数据保存至恶意泛域名库,其他数据进行下一步处理。
为了使本领域的技术人员更清楚地理解本发明的上述技术方案,下面将结合具体的实施例来进行描述。
图2示出了根据本发明实施方式的对网络采集的域名数据进行筛选的方法可以包括的示例步骤的示意图。
如图2所示,对网络采集的域名数据进行筛选的方法可以包括以下步骤:
1.DNS节点部署探针采集五元组信息和执行单元(EU)采集的活跃域名数据(对应步骤S103)。
2.初步降噪过滤,去除噪音数据(对应步骤S102-1)。
3.对降噪后的域名数据进行纠错域名判断,去除114IP域名数据(对应步骤S102-2)。
4.对得到的非114IP域名数据进行恶意泛域名去除,且将恶意泛域名数据保存至泛域名库中(对应步骤S102-3)。
5.从去除恶意泛域名后的域名数据中去除包含不存在域名的域名数据,得到包含存在域名的存在域名数据(对应步骤S102-4)。
6.从包含存在域名的域名数据中去除包含不存活域名的域名数据,得到包含存活域名的存活域名数据(对应步骤S102-5)。
7.使用上报IP数据和第三方接口查询结果数据,依据拨测获得的域名IP关系,对域名的地域及(或)归属情况进行标注(对应步骤S104)。
8.获得域名基准库(对应步骤S102中的保存经筛选的域名数据)。
需要了解的是,本发明的上述技术方案不一定包括图2所示的所有步骤。
如上所述,根据本发明的上述技术方案可以包括不同的域名处理方法,有效且合理的将原从DNS流量数据中获得的域名数据中的异常域名数据、需进行IP纠错的域名数据、恶意泛域名数据、不存在/不存活数据进行剔除,并通过获取的域名IP关系对域名数据进属性补充,获得准确且全面的域名基准表数据。
结合对网络采集的域名数据进行筛选的上述方法,本发明还提出了一种对网络采集的域名数据进行筛选的设备,包括存储器、一个或多个处理器;以及,一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,以完成对网络采集的域名数据进行筛选的上述方法中的步骤。
结合对网络采集的域名数据进行筛选的上述方法,本发明还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序可被处理器执行以完成对网络采集的域名数据进行筛选的上述方法中的步骤。
根据本发明的上述技术方案能够剔除异常噪音数据和恶意泛域名数据、校准域名IP关系、将地域归属属性的域名数据补充录入域名数据基准表中,能够基于对DNS流量数据的处理得到准确且全面的域名数据。
根据本发明的上述技术方案能够提供完善的DNS流量域名处理流程。综合了众多域名有效性判断方法,逐步将异常噪音域名数据、需进行IP纠错的域名数据、恶意泛域名数据、不存在域名数据、不存活域名数据进行剔除,并使用上报IP数据和第三方接口查询结果数据,对于拨测得到的域名IP关系进行所属地域及企业归属情况等属性进行补充,最终获得准确且全面的域名基准表。提供了不同于现有技术的具有创造性的技术方案。
根据本发明的上述技术方案还支持采用加权方式判断恶意泛域名。在进行恶意泛域名判断时,使用了加权判断方式,当一个域名在全部恶意泛域名加权判断中各个判断项的加权值大于阈值时,则判断该域名为恶意泛域名。
根据本发明的上述技术方案还支持组合判断域名是否存在/存活。先判断域名是否存在,将不存在的域名剔除,并使用存在判断中获取的域名IP关系去做存活判断,最终获得存在且存活的域名,以及域名和IP的对应关系。
根据本发明的上述技术方案还能够结合域名的地域及归属属性。使用人工上报和第三方接口数据活跃IP的地域及归属属性,并通过存在存活判断获取的域名IP关系对域名的对应属性进行补充。
根据本发明的上述技术方案能够解决从DNS流量中剔除其中存在的大量的异常噪音数据、恶意泛域名数据、不存在/不存活域名、不准确的域名-IP关系中的至少一种的问题,并且也能够解决从DNS流量中获取的域名数据缺乏域名的地域及归属属性的问题等。
综上所述,根据本发明的上述技术方案通过有效的降噪方式,将噪音数据去除,降低后面的拨测处理数据量,提升了数据处理效率。能够使基准表的域名数据中的恶意泛域名比例大比例降低,使其中的域名数据拥有准确的域名IP关系,使其中的域名数据有地域属性以及归属运营商企业等信息。
以上所述,仅为本发明示例性的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (6)

1.一种对网络采集的域名数据进行筛选的方法,其特征在于,包括:
步骤1:从网络中获取至少包含域名与IP地址的对应关系的域名数据;
步骤2:对域名数据进行筛选,并且保存经筛选的域名数据,其中,筛选包括以下步骤中的至少一项:
步骤2-1:剔除包含异常噪音域名的域名数据,异常噪音域名至少包括非法域名、IP格式域名、IP端口格式域名;
步骤2-2:剔除包含需进行IP纠错的域名的域名数据,需进行IP纠错的域名为拨测的结果为114跳转、无法解析出对应的IP地址且没有提供实际访问内容的域名;
步骤2-3:剔除包含恶意泛域名的域名数据,恶意泛域名为不正规、量大且杂乱无章、鲜有内容展示、且没有进行统计的意义的域名;
步骤2-4:剔除包含不存在的域名的域名数据,不存在的域名为无法解析出接入IP地址、且通过拨测确定其不存在接入IP地址的域名;
步骤2-5:剔除包含不存活域名的域名数据,不存活域名为无法解析出接入IP地址、且通过拨测确定其存在接入IP地址、而通过进一步模拟HTTP/HTTPS请求并且确定其HTTP/HTTPS响应的状态码不正确的域名;
步骤2-6:保留包含属于指定地域的IP地址的域名数据。
2.根据权利要求1所述的对网络采集的域名数据进行筛选的方法,其特征在于,在步骤1之前还包括:
步骤3:在网络中的DNS服务器节点部署能够获取包含(源IP地址,源端口号,解析目标IP地址,端口号,CNAME)的五元组数据的检测设备,以及/或者在网络中部署能够获取包含(域名,源IP,目的IP)的活跃数据的EU采集设备。
3.根据权利要求1所述的对网络采集的域名数据进行筛选的方法,其特征在于,在步骤2之后还包括:
步骤4:将从人工上报IP地址库或第三方IP地址库和第三方接口查询中获得的域名的地域或归属地属性添加到域名数据中。
4.根据权利要求1至3中的任一项所述的对网络采集的域名数据进行筛选的方法,其特征在于,步骤2-3包括:
步骤2-3-1:针对域名选择下列各项中的至少一项进行统计,并且为所选各项分配权重:短时间内产生的域名的数量、域名访问时间的集中程度与域名访问量的比值、域名访问中的源IP地址的重复数量、该域名的网站返回的内容的一致性、该域名的网站返回空内容的比率;
步骤2-3-2:将所选各项的加权值的求和结果大于设定阈值的域名确定为恶意泛域名,并且剔除包含该恶意泛域名的域名数据。
5.一种对网络采集的域名数据进行筛选的设备,包括存储器、一个或多个处理器;以及
一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,以完成根据权利要求1至4中的任一项所述的对网络采集的域名数据进行筛选的方法中的步骤。
6.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序可被处理器执行以完成根据权利要求1至4中的任一项所述的对网络采集的域名数据进行筛选的方法中的步骤。
CN201710599149.XA 2017-07-21 2017-07-21 一种对网络采集的域名数据进行筛选的方法及设备 Pending CN107249049A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710599149.XA CN107249049A (zh) 2017-07-21 2017-07-21 一种对网络采集的域名数据进行筛选的方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710599149.XA CN107249049A (zh) 2017-07-21 2017-07-21 一种对网络采集的域名数据进行筛选的方法及设备

Publications (1)

Publication Number Publication Date
CN107249049A true CN107249049A (zh) 2017-10-13

Family

ID=60015058

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710599149.XA Pending CN107249049A (zh) 2017-07-21 2017-07-21 一种对网络采集的域名数据进行筛选的方法及设备

Country Status (1)

Country Link
CN (1) CN107249049A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108040118A (zh) * 2017-12-22 2018-05-15 北京星河星云信息技术有限公司 访问量统计方法、装置及存储介质
CN108881151A (zh) * 2017-12-29 2018-11-23 哈尔滨安天科技股份有限公司 一种无关节点确定方法、装置及电子设备
CN109040346A (zh) * 2018-10-30 2018-12-18 深信服科技股份有限公司 一种泛域名解析中有效域名的筛选方法、装置及设备
CN109995886A (zh) * 2017-12-30 2019-07-09 中国移动通信集团河北有限公司 域名识别方法、装置、设备及介质
WO2020135233A1 (zh) * 2018-12-26 2020-07-02 中兴通讯股份有限公司 僵尸网络检测方法、系统及存储介质
CN112671747A (zh) * 2020-12-17 2021-04-16 赛尔网络有限公司 境外恶意url的统计方法、装置、电子设备和存储介质
CN114661688A (zh) * 2022-03-25 2022-06-24 马上消费金融股份有限公司 地址纠错方法及装置
CN115190110A (zh) * 2022-07-18 2022-10-14 北京字节跳动科技有限公司 一种地理位置确定方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104836864A (zh) * 2015-05-12 2015-08-12 广东睿江科技有限公司 一种域名访问纠错方法及装置
CN105763664A (zh) * 2015-07-30 2016-07-13 佛山市诚科网络科技有限公司 一种未办理备案网站的探寻方法及系统
CN105791460A (zh) * 2016-03-03 2016-07-20 中国科学院信息工程研究所 基于多维度聚合的dns代理缓存优化方法和系统
CN105959294A (zh) * 2016-06-17 2016-09-21 北京网康科技有限公司 一种恶意域名鉴别方法及装置
CN106375345A (zh) * 2016-10-28 2017-02-01 中国科学院信息工程研究所 一种基于周期性检测的恶意软件域名检测方法及系统
CN106789979A (zh) * 2016-12-07 2017-05-31 北京亚鸿世纪科技发展有限公司 一种idc机房内活跃域名的有效性诊断方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104836864A (zh) * 2015-05-12 2015-08-12 广东睿江科技有限公司 一种域名访问纠错方法及装置
CN105763664A (zh) * 2015-07-30 2016-07-13 佛山市诚科网络科技有限公司 一种未办理备案网站的探寻方法及系统
CN105791460A (zh) * 2016-03-03 2016-07-20 中国科学院信息工程研究所 基于多维度聚合的dns代理缓存优化方法和系统
CN105959294A (zh) * 2016-06-17 2016-09-21 北京网康科技有限公司 一种恶意域名鉴别方法及装置
CN106375345A (zh) * 2016-10-28 2017-02-01 中国科学院信息工程研究所 一种基于周期性检测的恶意软件域名检测方法及系统
CN106789979A (zh) * 2016-12-07 2017-05-31 北京亚鸿世纪科技发展有限公司 一种idc机房内活跃域名的有效性诊断方法和装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108040118A (zh) * 2017-12-22 2018-05-15 北京星河星云信息技术有限公司 访问量统计方法、装置及存储介质
CN108881151A (zh) * 2017-12-29 2018-11-23 哈尔滨安天科技股份有限公司 一种无关节点确定方法、装置及电子设备
CN108881151B (zh) * 2017-12-29 2021-08-03 哈尔滨安天科技集团股份有限公司 一种无关节点确定方法、装置及电子设备
CN109995886A (zh) * 2017-12-30 2019-07-09 中国移动通信集团河北有限公司 域名识别方法、装置、设备及介质
CN109995886B (zh) * 2017-12-30 2022-07-01 中国移动通信集团河北有限公司 域名识别方法、装置、设备及介质
CN109040346A (zh) * 2018-10-30 2018-12-18 深信服科技股份有限公司 一种泛域名解析中有效域名的筛选方法、装置及设备
CN109040346B (zh) * 2018-10-30 2021-08-13 深信服科技股份有限公司 一种泛域名解析中有效域名的筛选方法、装置及设备
WO2020135233A1 (zh) * 2018-12-26 2020-07-02 中兴通讯股份有限公司 僵尸网络检测方法、系统及存储介质
CN112671747A (zh) * 2020-12-17 2021-04-16 赛尔网络有限公司 境外恶意url的统计方法、装置、电子设备和存储介质
CN114661688A (zh) * 2022-03-25 2022-06-24 马上消费金融股份有限公司 地址纠错方法及装置
CN114661688B (zh) * 2022-03-25 2023-09-19 马上消费金融股份有限公司 地址纠错方法及装置
CN115190110A (zh) * 2022-07-18 2022-10-14 北京字节跳动科技有限公司 一种地理位置确定方法和装置
CN115190110B (zh) * 2022-07-18 2024-01-09 北京抖音信息服务有限公司 一种地理位置确定方法和装置

Similar Documents

Publication Publication Date Title
CN107249049A (zh) 一种对网络采集的域名数据进行筛选的方法及设备
CN107579956A (zh) 一种用户行为的检测方法和装置
CN107995030A (zh) 一种网络探测方法、网络故障检测方法及系统
CN108011752A (zh) 故障定位分析方法及装置、计算机可读存储介质
CN110099059A (zh) 一种域名识别方法、装置及存储介质
CN107832210A (zh) 日志埋点接入测试方法、装置及服务器
CN107342913B (zh) 一种cdn节点的探测方法和装置
CN107925701A (zh) 对于应用的事件通知
CN106686020A (zh) 域名安全性的检测方法、装置及系统
CN104378389B (zh) 网站安全检测方法与装置
CN106156055A (zh) 搜索引擎爬虫的识别、处理方法及装置
CN106126551A (zh) 一种Hbase数据库访问日志的生成方法、装置及系统
CN110430226A (zh) 网络攻击检测方法、装置、计算机设备及存储介质
CN108206769A (zh) 过滤网络质量告警的方法、装置、设备和介质
CN107480268A (zh) 数据查询方法及装置
KR101556743B1 (ko) 웹 수집에 기반한 관심 정보 생성 장치 및 그 방법
CN110428368A (zh) 一种算法评价方法、装置、电子设备及可读存储介质
CN106453320A (zh) 恶意样本的识别方法及装置
CN110401552A (zh) 一种cdn业务自动调优方法及装置
CN108810144A (zh) 一种数据传输方法、服务器及存储介质
CN107465686A (zh) 基于网络异质大数据的ip信誉度计算方法及装置
CN112383513A (zh) 基于代理ip地址池的爬虫行为检测方法、装置及存储介质
CN108063811B (zh) 智能设备入网跟踪方法及部件
CN116668080A (zh) 一种流量异常评估方法及装置、电子设备和存储介质
CN115795475A (zh) 软件系统风险的确定方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171013