CN106603734A - Cdn服务ip检测方法和系统 - Google Patents
Cdn服务ip检测方法和系统 Download PDFInfo
- Publication number
- CN106603734A CN106603734A CN201510677263.0A CN201510677263A CN106603734A CN 106603734 A CN106603734 A CN 106603734A CN 201510677263 A CN201510677263 A CN 201510677263A CN 106603734 A CN106603734 A CN 106603734A
- Authority
- CN
- China
- Prior art keywords
- cdn
- cdn service
- address
- service
- response messages
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L61/00—Network arrangements, protocols or services for addressing or naming
- H04L61/45—Network directories; Name-to-address mapping
- H04L61/4505—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
- H04L61/4511—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种CDN服务IP检测方法,包括:向DNS服务器发送域名解析请求,提取DNS服务器返回的DNS应答包中包含的IP地址;向IP地址发送超文本传输协议http请求,获取http应答信息;根据DNS应答包和http应答信息提取CDN标识属性的属性值;以及根据CDN标识属性的属性值,利用根据朴素贝叶斯原理形成的CDN分类器判断IP地址是否是CDN服务IP,并输出判断结果。本发明利用多种CDN标识属性,并通过朴素贝叶斯原理形成的CDN分类器进行分析,相比于传统的只针对一个或多个特征进行简单的判断,更加准确,不会因某个站点不具备某项特征就被误判断。此外,本发明选取的CDN标识属性,是通过大量实际网站数据分析而得出来的,更加真实、可靠。
Description
技术领域
本发明涉及计算机网络技术领域,尤其涉及一种CDN服务IP检测方法和系统。
背景技术
随着互联网用户的爆发式增长,日益拥挤的网络成为用户体验的瓶颈,越来越多的互联网服务提供商为了提高自身的用户粘度,提高用户体验,纷纷购买了CDN(Content Delivery Network,内容分发网络)服务,从而实现了很多的社会和经济效益,CDN行业因此得到了快速发展。
在越来越多的客户使用CDN服务的同时,也给互联网的管理工作也提出了一定的挑战,例如,无法定位CDN的节点服务器信息,无法确定哪些网站做了CDN加速业务,无法对CDN上的违法违规网站进行有效的监管等。
在现有技术中,通常通过以下方法来检测CDN站点的服务IP,例如,当检测到一个IP上的接入的网站数量达到一某个特定值时,则判定这个IP为CDN服务IP;又如判断域名的别名是否带有某些CDN标识,如果有则判定该站点为CDN站点。然而,上述方法都有其局限性,查出来的CDN服务IP有限,并会有误判,例如,虚拟主机就满足一个IP上接入很多网站的特性;有些域名的别名不带有CDN标识一样做了CDN加速,并且由于CDN服务商多且杂,别名的CDN标识不断的增加或改变难以收集和维护。
发明内容
本发明的目的在于提供一种CDN服务IP检测方法和系统以更加准确地判断网站对应的IP地址是否是CDN服务IP,进而判断网站是否应用了CDN加速服务。
本发明为了解决上述技术问题,采用的技术方案是:一种CDN服务IP检测方法,包括:
步骤S1:向DNS服务器发送域名解析请求,提取所述DNS服务器返回的DNS应答包中包含的cname和IP地址;
步骤S2:向所述IP地址发送超文本传输协议http请求,获取http应答信息;
步骤S3:根据所述DNS应答包和所述http应答信息提取CDN标识属性的属性值;以及
步骤S4:根据所述CDN标识属性的属性值,利用根据朴素贝叶斯原理形成的CDN分类器分别计算所述IP地址的CDN服务IP概率和非CDN服务IP概率,若所述CDN服务IP概率大于属于所述非CDN服务IP概率,则判定所述IP地址为CDN服务IP,反之,则判定所述IP地址为非CDN服务IP,并输出判断结果,其中,所述CDN标识属性包括:
所述http应答信息是否包含Domain字段;
所述http应答信息是否包含x-cache字段;
所述http应答信息是否包含cdn信息;
所述http应答信息是否包含via或x-via字段;
所述http应答信息是否包含Hit from或miss from字段;
所述http应答信息中的关键字是否匹配配置文件http_keyword.txt中的关键字或者所述http应答信息中的所述关键字对应的内容的子串是否配置文件http_keyword.txt中的value;
所述DNS应答包里包含的cname后缀是否与关键字列表中的字符串匹配;
所述DNS应答包里是否包含CNAME字段;以及
域名对应的连续的IP数量。
优选地,所述判断结果包括所述IP地址、所述IP地址是否进行了CDN加速服务和所述CDN标识属性的属性值。
优选地,在所述步骤S1之前还包括根据朴素贝叶斯原理形成所述CDN分类器的步骤,包括:
步骤S21:获取训练样本集;
步骤S22:计算所述训练样本集中的CDN服务IP和非CDN服务IP的概率;
步骤S23:分别计算所述CDN服务IP和所述非CDN服务IP类别下所述CDN标识属性的条件概率,形成所述CDN分类器。
优选地,在所述步骤S4之后还包括利用所述判断结果更新所述CDN分类 器的步骤,将所述判断结果增加至所述步骤S21的所述训练样本集,然后重复所述步骤S22和所述步骤S23,计算得到新的CDN分类器。
优选地,当所述DNS应答包包含多个IP地址时,重复所述步骤S2至所述步骤S4,对所述多个IP地址分别进行判断,统计域名的CDN服务IP的节点分布信息。
优选地,通过DNS数据采集或爬虫技术获取网站的域名。
相应地,本发明还提供一种CDN服务IP检测系统,包括:
域名读取模块,用于向DNS服务器发送域名解析请求,提取所示DNS服务器返回的DNS应答包中包含IP地址;
特征分析模块,连接于所述域名读取模块,用于向所述IP地址发送超文本传输协议http请求,获取http应答信息,根据所述DNS应答包和所述http应答信息提取CDN标识属性的属性值;以及
CDN分类器,连接于所述特征分析模块,用于根据所述CDN标识属性的属性值,分别计算IP地址的CDN服务IP概率和非CDN服务IP概率,若CDN服务IP概率大于属于非CDN服务IP概率,则判定IP地址为CDN服务IP,反之,则判定IP地址为非CDN服务IP,并输出判断结果,其中,所述判断结果包括所述IP地址、所述IP地址是否进行了CDN加速服务和所述CDN标识属性的属性值,所述CDN标识属性包括:
所述http应答信息是否包含Domain字段;
所述http应答信息是否包含x-cache字段;
所述http应答信息是否包含cdn信息;
所述http应答信息是否包含via或x-via字段;
所述http应答信息是否包含Hit from或miss from字段;
所述http应答信息中的关键字是否匹配配置文件http_keyword.txt中的关键字或者所述http应答信息中的所述关键字对应的内容的子串是否配置文件http_keyword.txt中的value;
所述DNS应答包里包含的cname的后缀是否与关键字列表中的字符串匹配;
所述DNS应答包里是否包含CNAME字段;以及
域名对应的连续的IP数量。
优选地,所述CDN分类器根据朴素贝叶斯原理形成,包括:
步骤S21:获取训练样本集;
步骤S22:计算所述训练样本集中CDN服务IP和非CDN服务IP的概率;
步骤S23:分别计算所述CDN服务IP和所述非CDN服务IP类别下所述CDN标识属性的条件概率。
优选地,所述CDN服务IP检测系统还包括CDN分类器更新模块,连接于所述CDN分类器,用于根据所述CDN分类器输出的所述判断结果更新所述CDN分类器。
优选地,所述CDN服务IP检测系统还包括域名收集模块,连接于所述域名读取模块,用于通过DNS数据采集或爬虫技术获取网站的域名。
实施本发明实施例,具有如下有益效果:本发明提供的CDN服务IP检测方法和系统利用多种CDN标识属性,并通过朴素贝叶斯原理形成的CDN分类器判断某一IP地址是否是CDN服务IP,在站点对应的多个IP地址中只要存在一个IP地址为CDN服务IP,则即可判定此站点应用了CDN加速服务,相比于传统的只针对一个或多个特征进行简单的判断,更加准确,不会因某个站点不具备某项特征就被误判断。此外,本发明选取的CDN标识属性,是通过大量实际网站数据分析而得出来的,更加真实、可靠。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的CDN服务IP检测方法的流程图;
图2为本发明一实施例提供的根据朴素贝叶斯原理形成CDN分类器的流程图。
图3为本发明一实施例提供的CDN服务IP检测系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明一实施例提供的CDN服务IP检测方法的流程图。如图1所示,CDN服务IP检测方法100包括以下步骤:
步骤S1:向DNS服务器发送域名解析请求,提取DNS服务器返回的DNS应答包中包含的cname和IP地址。
具体地,在本发明一实施例中,用户在通过DNS数据采集或爬虫技术获取网站的域名之后,组装查询此域名的DNS协议包,将要分析的域名向所有DNS服务器发送请求,之后解析DNS服务器返回的DNS应答包,提取其中包含的所有cname和IP地址。
步骤S2:向IP地址发送超文本传输协议http请求,获取http应答信息。
具体地,在本发明一实施例中,在提取完DNS应答包中的内容后,组装http请求包,发送给上一步解析得到的IP地址,获取http应答包头信息。
步骤S3:根据DNS应答包和http应答信息提取CDN标识属性的属性值。
具体地,在本发明一实施例中,从步骤S1和步骤S2得到的数据中,提取每个CDN标识属性所在的值。通过对目前CDN的技术实现原理的研究分析以及对现网大量站点的分析,选取cname或http应答信息里的相关标识为CDN标识属性。优选地,在本发明一实施例中,包括的CDN标识属性和对应的属性值如以下A1到A9所示:
A1:http应答信息里是否有Domain字段,存在时A1的属性值为1,不存在A1的属性值为0;
A2:http应答信息里是否有x-cache字段,存在时A2的属性值为1,不存在A2的属性值为0;
A3:http应答信息里是否含有cdn信息,存在时A3的属性值为1,不存在A3的属性值为0;
A4:http应答信息里是否有via或x-via字段,存在时A4的属性值为1,不存在A4的属性值为0;
A5:http应答信息里是否包含有Hit from或miss from字段,含有时A5的属性值为1,不含有时A5的属性值为0;
A6:http应答信息里关键字是否匹配配置文件http_keyword.txt中的关键字 或者http应答信息里的关键字对应的内容的子串是配置文件http_keyword.txt中的value,是则A6的属性值为1,不是则A6的属性值为0;
A7:DNS应答包里是否有cname后缀与关键字列表中的字符串匹配,是则A7的属性值为1,不是则A7的属性值为0;
A8:DNS应答包里是否含有CNAME字段,含有时A8的属性值为1,不含有时A8的属性值为0;
A9:域名对应的连续IP的数量,A9为1个时A9的属性值为0,1<A9<3个A9的属性值为1,A9>3时A9的属性值为2。
步骤S4:根据CDN标识属性的属性值,利用根据朴素贝叶斯原理形成的CDN分类器分别计算IP地址的CDN服务IP概率和非CDN服务IP概率,若CDN服务IP概率大于属于非CDN服务IP概率,则判定IP地址为CDN服务IP,反之,则判定IP地址为非CDN服务IP,并输出判断结果,其中,判断结果包括IP地址、此IP地址是否是CDN服务IP和对应的CDN标识属性的属性值。
具体地,在本发明一实施例中,将CDN标识属性的属性值带入CDN分类器,分别计算此IP地址属于CDN服务IP和非CDN服务IP的比率,哪个比率大则判断此IP地址为哪个分类。CDN分类器的形成过程如图2所示。
优选地,在本发明一实施例中,当DNS应答包包含多个IP地址时,重复步骤S2至步骤S4,对多个IP地址分别进行判断,统计域名的CDN服务IP的节点分布信息。
优选地,在本发明一实施例中,在步骤S1之前还包括根据朴素贝叶斯原理形成CDN分类器的步骤。图2所示为本发明一实施例提供的根据朴素贝叶斯原理形成CDN分类器的流程图。其中,在现有技术中,朴素贝叶斯分类器的定义如下:
1、设x={a1,a2…,am}为一个待分类项,而每个a为x的一个特征属性。
2、有类别集合C={y1,y2…,yn}。
3、计算P(y1|x),P(y2|x),…P(yn|x)。
4、如果P(yk|x)=max{P(y1|x),P(y2|x),…P(yn|x)},则x∈yk。
根据贝叶斯定理其中P(x)对于所有类别为常数,因此只要分子最大化即可,即最大即可。
根据上述朴素贝叶斯分类器的定义,为了计算条件概率P(y1|x),P(y2|x),…P(yn|x),需要统计得到训练样本集集和各类别下各个特征属性的条件概率估计P(aj|yi)。
因此,由于上述步骤S3中确定的CDN标识属性A1至A9即为待分类项x中的特征属性,即x={A1,A2…,A9},类别集合为C={y1,y2},其中,y1表示CDN服务IP,y2表示非CDN服务IP。如图2所示,根据朴素贝叶斯原理形成CDN分类器包括以下步骤:
步骤S21:获取训练样本集。
具体地,在本发明一实施例中,训练样本集包括多个IP地址和它们各自对应的CDN标识属性A1至A9。
步骤S22:计算训练样本集中CDN服务IP和非CDN服务IP的概率,即计算P(y1)和P(y2)。
步骤S23:分别计算CDN服务IP和非CDN服务IP类别下多个CDN标识属性的条件概率,形成CDN分类器,即计算P(A1|y1)、P(A2|y1)……、P(A9|y1)、P(A1|y1)、P(A2|y2)……、P(A9|y2)。
在使用时,直接根据每个IP地址对应的CDN标识属性的属性值利用上述CDN分类器来计算该IP地址的CDN服务IP概率和非CDN服务IP概率,若属于CDN服务IP概率大于非CDN服务IP概率,则判定该IP地址为CDN服务IP;反之,则判定该IP地址为非CDN服务IP。
优选地,在本发明一实施例中,在步骤S4之后,还包括利用判断结果更新CDN分类器的步骤。具体地,在步骤S4之后,将判断结果增加至步骤S21的训练样本集,然后重复步骤S22和步骤S23,计算得到新的CDN分类器。
有利地,本发明提供的CDN服务IP检测方法利用多种CDN标识属性,并通过朴素贝叶斯原理形成的CDN分类器判断某一IP地址是否是CDN服务IP,在站点对应的多个IP地址中只要存在一个IP地址为CDN服务IP,则即可判定此站点应用了CDN加速服务,相比于传统的只针对一个或多个特征进行简单的判断,更加准确,不会因某个站点不具备某项特征就被误判断。此外,本发明选取的CDN标识属性,是通过大量实际网站数据分析而得出来的,更加真实、可靠。
图3为本发明一实施例提供的CDN服务IP检测系统的结构示意图。如图3 所示,CDN服务IP检测系统300包括域名读取模块310、特征分析模块320以及CDN分类器330。其中,特征分析模块320连接于域名读取模块310,CDN分类器330连接于特征分析模块320。
在本发明一实施例中,域名读取模块310用于向DNS服务器发送域名解析请求,提取DNS服务器返回的DNS应答包中包含的IP地址。
在本发明一实施例中,特征分析模块320用于向IP地址发送超文本传输协议http请求,获取http应答信息,根据DNS应答包和http应答信息提取CDN标识属性的属性值。
在本发明一实施例中,CDN分类器330用于根据CDN标识属性的属性值,分别计算IP地址的CDN服务IP概率和非CDN服务IP概率,若CDN服务IP概率大于属于非CDN服务IP概率,则判定IP地址为CDN服务IP,反之,则判定IP地址为非CDN服务IP,并输出判断结果,其中,判断结果包括IP地址、IP地址是否是CDN服务IP和CDN标识属性的属性值。
优选地,在本发明一实施例中,CDN分类器330根据朴素贝叶斯原理形成,其形成过程如图所示,包括:
步骤S21:获取训练样本集。
步骤S22:计算训练样本集中CDN服务IP和非CDN服务IP的概率。
步骤S23:分别计算CDN服务IP和非CDN服务IP类别下多个CDN标识属性的条件概率,形成CDN分类器。
优选地,在本发明一实施例中,CDN服务IP检测系统300还包括CDN分类器更新模块340,连接于CDN分类器330,用于根据CDN分类器330输出的判断结果更新CDN分类器330。
优选地,在本发明一实施例中,CDN服务IP检测系统300还包括域名收集模块350,连接于域名读取模块310,用于通过DNS数据采集或爬虫技术获取网站的域名。
有利地,本发明提供的CDN服务IP检测系统利用多种CDN标识属性,并通过朴素贝叶斯原理形成的CDN分类器判断某一IP地址是否是CDN服务IP,在站点对应的多个IP地址中只要存在一个IP地址为CDN服务IP,则即可判定此站点应用了CDN加速服务,相比于传统的只针对一个或多个特征进行简单的判断,更加准确,不会因某个站点不具备某项特征就被误判断。此外,本发明 选取的CDN标识属性,是通过大量实际网站数据分析而得出来的,更加真实、可靠。
下面以网站www.163.com为例来具体说明本发明的CDN服务IP检测方法。其中,假设C=0表示CDN服务IP,C=1表示非CDN服务IP。
首选是形成CDN分类器:随机抽取1001个样本来形成训练样本集数,其中,CDN服务IP的数量为114,非CDN服务IP的数量为887,则P(C=0)=114/1001=0.113,P(C=1)=887/1001=0.887。如上文描述,CDN标识属性A1-A9可做如下划分:
A1可划分为{A1=1(http应答信息里包含Domain字段),A1=0(http应答信息里不包含Domain字段)};
A2可划分为{A2=1(http应答信息里包含x-cache字段),A2=0(http应答信息里不包含x-cache字段)};
A3可划分为{A3=1(http应答信息里包含cdn信息),A3=0(http应答信息里不包含cdn信息)};
A4可划分为{A4=1(http应答信息里包含via或x-via字段),A4=0(http应答信息里不包含via或x-via字段)};
A5可划分为{A5=1(http应答信息里包含Hit from或miss from字段),A5=0(http应答信息里不包含Hit from或miss from字段)};
A6可划分为{A6=1(http应答信息里关键字匹配配置文件http_keyword.txt中的关键字或者http应答信息里的关键字对应的内容的子串是配置文件http_keyword.txt中的value),A6=0(http应答信息里关键字不匹配配置文件http_keyword.txt中的关键字或者http应答信息里的关键字对应的内容的子串不是配置文件http_keyword.txt中的value)};
A7可划分为{A7=1(DNS应答包里的cname后缀与关键字列表中的字符串匹配),A7=0((DNS应答包里的cname后缀与关键字列表中的字符串不匹配)};
A8可划分为{A8=1(DNS应答包里含有CNAME字段),A8=0((DNS应答包里不含有CNAME字段)};
A9可划分为{A9=2(连续IP的数量>3),A9=1(连续IP的数量大于1且小于等于3),A9=0((连续IP的数量等于1)}。
随机抽取的1001个样本中各CDN标识属性在CDN服务IP和非CDN服务 IP类别下的条件概率如以下表1至表9所示。如表2所示,P(A2=0|C=0)=0.833,表示在CDN服务IP的类别下,http应答信息里不包含x-cache字段的概率为0.833。
表1
A1=0 | A1=1 | |
C=0 | 1.0 | 0 |
C=1 | 1.0 | 0 |
表2
A2=0 | A2=1 | |
C=0 | 0.833 | 0.167 |
C=1 | 0.996 | 0.004 |
表3
A3=0 | A3=1 | |
C=0 | 0.693 | 0.307 |
C=1 | 0.997 | 0.003 |
表4
A4=0 | A4=1 | |
C=0 | 0.675 | 0.325 |
C=1 | 0.995 | 0.005 |
表5
A5=0 | A5=1 | |
C=0 | 0.298 | 0.702 |
C=1 | 1.0 | 0 |
表6
A6=0 | A6=1 | |
C=0 | 0.263 | 0.737 |
C=1 | 0.998 | 0.002 |
表7
A7=0 | A7=1 | |
C=0 | 0.061 | 0.939 |
C=1 | 0.887 | 0.113 |
表8
A8=0 | A8=1 | |
C=0 | 0.263 | 0.737 |
C=1 | 1.0 | 0 |
表9
A9=0 | A9=1 | A9=2 | |
C=0 | 0.745 | 0.254 | 0.001 |
C=1 | 0.987 | 0.012 | 0.001 |
在形成上述分类器后,以www.163.com为例,dns服务器取两湖北的两个,电信:202.103.24.68,移动:211.137.58.20,分别请求电信和移动的DNS服务器;获取数据如下:
Cname:www.163.com.lxdns.com
Ip:221.235.187.137
219.138.21.63
171.112.96.24
120.202.249.230
向IP地址发送超文本传输协议http请求,获取http应答信息,以120.202.249.230的IP地址为例,获取的http应答信息如下:
Cache-Control:max-age=80
Connection:keep-alive
Content-Encoding:gzip
Content-Length:184178
Content-Type:text/html;charset=GBK
Date:Thu,24Sep 201509:18:02GMT
Expires:Thu,24Sep 201509:19:22GMT
Fw-Via:DISK HIT from ctl-zj-091-099.fcd,MEM HIT from 117.131.204.189
Server:nginx
Vary:Accept
Via:1.1cache.163.com:80(squid)
X-Cache:MISS from cache.163.com
接下来提取CDN标识属性的属性值如下:A1=0(没有domain);A2=1(有x-cache关键字字段);A3=0(无CDN字段);A4=1(有via关键字字段);A5=1(有hit from或miss from);A6=1(有关键字disk-hit);A7=1(cname字段有lxdns.com后缀);A8=1(有CNAME);A9=0(无连续IP)。
将上述提取的属性值和表1到表9,算出此IP地址的CDN服务IP概率和非CDN服务IP分类概率:
由于CDN服务IP分类概率大于非CDN服务IP概率,因此120.202.249.230这个IP地址为CDN服务IP。以此方法判断IP:221.235.187.137、IP:219.138.21.63、IP:171.112.96.24都是CDN服务IP。由此,可以判定www.163.com这个网站进行了CDN加速服务。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (10)
1.一种CDN服务IP检测方法,其特征在于,包括:
步骤S1:向DNS服务器发送域名解析请求,提取DNS服务器返回的DNS应答包中包含的IP地址;
步骤S2:向IP地址发送超文本传输协议http请求,获取http应答信息;
步骤S3:根据DNS应答包和http应答信息提取CDN标识属性的属性值;以及
步骤S4:根据CDN标识属性的属性值,利用根据朴素贝叶斯原理形成的CDN分类器分别计算IP地址的CDN服务IP概率和非CDN服务IP概率,若CDN服务IP概率大于非CDN服务IP概率,则判定IP地址为CDN服务IP,反之,则判定IP地址为非CDN服务IP,并输出判断结果,其中,CDN标识属性包括:
http应答信息是否包含Domain字段;
http应答信息是否包含x-cache字段;
http应答信息是否包含cdn信息;
http应答信息是否包含via或x-via字段;
http应答信息是否包含Hit from或miss from字段;
http应答信息中的关键字是否匹配配置文件http_keyword.txt中的关键字或者http应答信息中的关键字对应的内容的子串是否配置文件http_keyword.txt中的value;
DNS应答包里包含的cname的后缀是否与关键字列表中的字符串匹配;
DNS应答包里是否包含CNAME字段;以及
域名对应的连续的IP数量。
2.根据权利要求1的CDN服务IP检测方法,其特征在于,判断结果包括IP地址、IP地址是否是CDN服务IP和CDN标识属性的属性值。
3.根据权利要求1的CDN服务IP检测方法,其特征在于,在步骤S1之前还包括根据朴素贝叶斯原理形成CDN分类器的步骤,包括:
步骤S21:获取训练样本集;
步骤S22:计算训练样本集中的CDN服务IP和非CDN服务IP的概率;
步骤S23:分别计算CDN服务IP和非CDN服务IP类别下CDN标识属性的条件概率,形成CDN分类器。
4.根据权利要求3的CDN服务IP检测方法,其特征在于,在步骤S4之后还包括利用判断结果更新CDN分类器的步骤,将判断结果增加至步骤S21的训练样本集,然后重复步骤S22和步骤S23,计算得到新的CDN分类器。
5.根据权利要求1的CDN服务IP检测方法,其特征在于,当DNS应答包包含多个IP地址时,重复步骤S2至步骤S4,对多个IP地址分别进行判断,统计域名的CDN服务IP的节点分布信息。
6.根据权利要求1的CDN服务IP检测方法,其特征在于,通过DNS数据采集或爬虫技术获取网站的域名。
7.一种CDN服务IP检测系统,其特征在于,包括:
域名读取模块(310),用于向DNS服务器发送域名解析请求,提取所示DNS服务器返回的DNS应答包中包含和IP地址;
特征分析模块(320),连接于域名读取模块(310),用于向IP地址发送超文本传输协议http请求,获取http应答信息,根据DNS应答包和http应答信息提取CDN标识属性的属性值;以及
CDN分类器(330),连接于特征分析模块(320),用于根据CDN标识属性的属性值,分别计算IP地址的CDN服务IP概率和非CDN服务IP概率,若CDN服务IP概率大于非CDN服务IP概率,则判定IP地址为CDN服务IP,反之,则判定IP地址为非CDN服务IP,并输出判断结果,其中,判断结果包括IP地址、IP地址是否是CDN服务IP和CDN标识属性的属性值,CDN标识属性包括:
http应答信息是否包含Domain字段;
http应答信息是否包含x-cache字段;
http应答信息是否包含cdn信息;
http应答信息是否包含via或x-via字段;
http应答信息是否包含Hit from或miss from字段;
http应答信息中的关键字是否匹配配置文件http_keyword.txt中的关键字或者http应答信息中的关键字对应的内容的子串是否配置文件http_keyword.txt中的value;
DNS应答包里包含的cname的后缀是否与关键字列表中的字符串匹配;
DNS应答包里是否包含CNAME字段;以及
域名对应的连续的IP数量。
8.根据权利要求7的CDN服务IP检测系统,其特征在于,CDN分类器(330)根据朴素贝叶斯原理形成,包括:
步骤S21:获取训练样本集;
步骤S22:计算训练样本集中CDN服务IP和非CDN服务IP的概率;以及
步骤S23:分别计算CDN服务IP和非CDN服务IP类别下CDN标识属性的条件概率。
9.根据权利要求7的CDN服务IP检测系统,其特征在于,CDN服务IP检测系统还包括CDN分类器更新模块(340),连接于CDN分类器(330),用于根据CDN分类器(330)输出的判断结果更新CDN分类器(330)。
10.根据权利要求7的CDN服务IP检测系统,其特征在于,CDN服务IP检测系统还包括域名收集模块(350),连接于域名读取模块(310),用于通过DNS数据采集或爬虫技术获取网站的域名。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510677263.0A CN106603734B (zh) | 2015-10-16 | 2015-10-16 | Cdn服务ip检测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510677263.0A CN106603734B (zh) | 2015-10-16 | 2015-10-16 | Cdn服务ip检测方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106603734A true CN106603734A (zh) | 2017-04-26 |
CN106603734B CN106603734B (zh) | 2019-08-02 |
Family
ID=58554465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510677263.0A Active CN106603734B (zh) | 2015-10-16 | 2015-10-16 | Cdn服务ip检测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106603734B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107342913A (zh) * | 2017-05-24 | 2017-11-10 | 恒安嘉新(北京)科技股份公司 | 一种cdn节点的探测方法和装置 |
CN108090188A (zh) * | 2017-12-18 | 2018-05-29 | 国家计算机网络与信息安全管理中心 | 基于海量数据分析挖掘cdn域名的方法 |
CN108964967A (zh) * | 2018-02-23 | 2018-12-07 | 云智慧(北京)科技有限公司 | 一种对cdn加速服务进行智能监控与分析的方法和系统 |
CN109218457A (zh) * | 2017-07-06 | 2019-01-15 | 腾讯科技(深圳)有限公司 | 网络数据处理方法、装置和系统 |
CN111736926A (zh) * | 2020-05-29 | 2020-10-02 | 北京慧博科技有限公司 | 在Java Web程序中低侵入式使用CDN加速服务的方法以及系统 |
CN111970262A (zh) * | 2020-08-07 | 2020-11-20 | 杭州安恒信息技术股份有限公司 | 网站的第三方服务启用状态的检测方法、装置和电子装置 |
CN112738286A (zh) * | 2020-12-09 | 2021-04-30 | 杭州安恒信息技术股份有限公司 | Ip属性识别方法、系统及计算机设备 |
CN112949768A (zh) * | 2021-04-07 | 2021-06-11 | 苏州瑞立思科技有限公司 | 一种基于lstm的流量分类方法 |
CN112968980A (zh) * | 2021-02-01 | 2021-06-15 | 恒安嘉新(北京)科技股份公司 | 一种概率确定方法、装置、存储介质及服务器 |
CN113411377A (zh) * | 2021-05-14 | 2021-09-17 | 郑州埃文计算机科技有限公司 | 一种基于大型内容网站dns解析的cdn场景判定方法 |
CN115361358A (zh) * | 2022-08-19 | 2022-11-18 | 山石网科通信技术股份有限公司 | Ip的提取方法、装置、存储介质及电子装置 |
CN115442250A (zh) * | 2022-08-11 | 2022-12-06 | 国家计算机网络与信息安全管理中心河北分中心 | 一种获取海量dns服务属性并归类的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102937951A (zh) * | 2011-08-15 | 2013-02-20 | 北京百度网讯科技有限公司 | 建立ip地址分类模型的方法、对用户分类的方法及装置 |
CN103634422A (zh) * | 2013-11-29 | 2014-03-12 | 北京奇虎科技有限公司 | 一种cdn源站的ip地址识别方法及装置 |
CN103716398A (zh) * | 2013-12-30 | 2014-04-09 | 北京奇虎科技有限公司 | Cdn服务器的监控方法和监控系统 |
-
2015
- 2015-10-16 CN CN201510677263.0A patent/CN106603734B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102937951A (zh) * | 2011-08-15 | 2013-02-20 | 北京百度网讯科技有限公司 | 建立ip地址分类模型的方法、对用户分类的方法及装置 |
CN103634422A (zh) * | 2013-11-29 | 2014-03-12 | 北京奇虎科技有限公司 | 一种cdn源站的ip地址识别方法及装置 |
CN103716398A (zh) * | 2013-12-30 | 2014-04-09 | 北京奇虎科技有限公司 | Cdn服务器的监控方法和监控系统 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107342913A (zh) * | 2017-05-24 | 2017-11-10 | 恒安嘉新(北京)科技股份公司 | 一种cdn节点的探测方法和装置 |
CN109218457B (zh) * | 2017-07-06 | 2021-04-13 | 腾讯科技(深圳)有限公司 | 网络数据处理方法、装置和系统 |
CN109218457A (zh) * | 2017-07-06 | 2019-01-15 | 腾讯科技(深圳)有限公司 | 网络数据处理方法、装置和系统 |
CN108090188A (zh) * | 2017-12-18 | 2018-05-29 | 国家计算机网络与信息安全管理中心 | 基于海量数据分析挖掘cdn域名的方法 |
CN108090188B (zh) * | 2017-12-18 | 2021-05-07 | 国家计算机网络与信息安全管理中心 | 基于海量数据分析挖掘cdn域名的方法 |
CN108964967A (zh) * | 2018-02-23 | 2018-12-07 | 云智慧(北京)科技有限公司 | 一种对cdn加速服务进行智能监控与分析的方法和系统 |
CN111736926A (zh) * | 2020-05-29 | 2020-10-02 | 北京慧博科技有限公司 | 在Java Web程序中低侵入式使用CDN加速服务的方法以及系统 |
CN111970262A (zh) * | 2020-08-07 | 2020-11-20 | 杭州安恒信息技术股份有限公司 | 网站的第三方服务启用状态的检测方法、装置和电子装置 |
CN112738286A (zh) * | 2020-12-09 | 2021-04-30 | 杭州安恒信息技术股份有限公司 | Ip属性识别方法、系统及计算机设备 |
CN112968980A (zh) * | 2021-02-01 | 2021-06-15 | 恒安嘉新(北京)科技股份公司 | 一种概率确定方法、装置、存储介质及服务器 |
CN112968980B (zh) * | 2021-02-01 | 2023-04-18 | 恒安嘉新(北京)科技股份公司 | 一种概率确定方法、装置、存储介质及服务器 |
CN112949768A (zh) * | 2021-04-07 | 2021-06-11 | 苏州瑞立思科技有限公司 | 一种基于lstm的流量分类方法 |
CN113411377A (zh) * | 2021-05-14 | 2021-09-17 | 郑州埃文计算机科技有限公司 | 一种基于大型内容网站dns解析的cdn场景判定方法 |
CN113411377B (zh) * | 2021-05-14 | 2023-08-18 | 郑州埃文计算机科技有限公司 | 一种基于大型内容网站dns解析的cdn场景判定方法 |
CN115442250A (zh) * | 2022-08-11 | 2022-12-06 | 国家计算机网络与信息安全管理中心河北分中心 | 一种获取海量dns服务属性并归类的方法 |
CN115361358A (zh) * | 2022-08-19 | 2022-11-18 | 山石网科通信技术股份有限公司 | Ip的提取方法、装置、存储介质及电子装置 |
CN115361358B (zh) * | 2022-08-19 | 2024-02-06 | 山石网科通信技术股份有限公司 | Ip的提取方法、装置、存储介质及电子装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106603734B (zh) | 2019-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106603734B (zh) | Cdn服务ip检测方法和系统 | |
CN100524279C (zh) | 推断无状态通信协议中的服务器状态方法、系统及装置 | |
CN103218431B (zh) | 一种能识别网页信息自动采集的系统 | |
CN102937951B (zh) | 建立ip地址分类模型的方法、对用户分类的方法及装置 | |
CN103593413B (zh) | 基于Agent的元搜索引擎个性化方法 | |
WO2007071143A1 (fr) | Procédé et appareil destinés à émettre des informations réseau | |
CN103595576B (zh) | 一种基于内容提供商标识的互联口icp流量统计系统及方法 | |
CN109905288B (zh) | 一种应用服务分类方法及装置 | |
CN101681340A (zh) | 收集通过网络传输的信息的非介入性方法和系统 | |
US20070214207A1 (en) | Method and system for accurate issuance of data information | |
US9042863B2 (en) | Service classification of web traffic | |
US20150161278A1 (en) | Method and apparatus for identifying webpage type | |
CN105138907B (zh) | 一种主动探测被攻击网站的方法和系统 | |
CN104348642B (zh) | 一种垃圾信息过滤方法和装置 | |
US11880401B2 (en) | Template generation using directed acyclic word graphs | |
CN104951499B (zh) | 一种跨域用户关联方法及信息推送方法 | |
US10887661B2 (en) | System and method for content monitoring and filtering to improve network efficiency | |
CN111882367A (zh) | 一种通过用户上网行为分析进行在线广告监测跟踪的方法 | |
CN108989411B (zh) | 一种基于网络流的Web用户点击目标识别的方法 | |
CN104202418B (zh) | 为内容提供商推荐商业的内容分发网络的方法和系统 | |
KR20090048998A (ko) | 키워드를 통한 부정 여론 알림 방법 및 시스템과 이를 위한기록매체 | |
CN105701224A (zh) | 一种基于大数据的证券资讯个性化服务系统 | |
CN110413861B (zh) | 基于网络爬虫的链接提取方法、装置、设备及存储介质 | |
CN111882368A (zh) | 一种在线广告dpi加密埋点及透传跟踪的方法 | |
CN107094147A (zh) | 一种大规模流量中基于cookieID的NAT识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |