CN113449782B

CN113449782B - 一种基于图半监督分类的cdn托管节点检测方法

Info

Publication number: CN113449782B
Application number: CN202110675285.9A
Authority: CN
Inventors: 郑超; 马小青; 彭宣正; 戚岱杰
Original assignee: Zhongdian Jizhi Hainan Information Technology Co ltd
Current assignee: Jizhi Hainan Information Technology Co ltd
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2022-05-24
Anticipated expiration: 2041-06-18
Also published as: CN113449782A

Abstract

本发明提供一种基于图半监督分类的CDN托管节点检测方法。所述基于图半监督分类的CDN托管节点检测方法包括以下流程：S1进行图构造；S2特征提取后进行顶点标注；S3对步骤S2顶点标注后的特征信息和结构信息进行图顶点分类。本发明提供的基于图半监督分类的CDN托管节点检测方法具有半监督学习过程能够结合利用标注顶点和无标注顶点的特征信息，使得分类结果的评价指标优于多个传统的机器学习分类方法，通过对Alexa前10万个域名的自动浏览抓包获得主动数据并进行实验，证实结果确实高于多个传统模型3％‑18％不等，其中召回率的提升效果表现最好。

Description

一种基于图半监督分类的CDN托管节点检测方法

技术领域

本发明涉及网络安全领域，尤其涉及一种基于图半监督分类的CDN托管节点检测方法。

背景技术

内容分发网络(CDN)是一项由代理服务器和数据中心组成的分布式服务器网络，通过为终端用户从距其空间上最邻近的服务节点进行调度，为用户提供了高性能，可扩展性和低成本的网络内容，作为互联网关键的基础设施，CDN目前被广泛部署，然而，伴随着CDN的广泛应用，一些恶意和滥用的问题也随之发生，因此，从网络流量中识别CDN托管节点对于服务质量(QoS)，恶意软件检测和防火墙规则设置等都至关重要。

当前大多数CDN托管节点检测方法依赖于分析网络流量数据中的明文数据，最常用的方法为主动探测扫描等。同时，被动数据的过滤和分析也是常见的一种方法。此外，也有少数方法根据提取的节点特征信息，利用监督分类或无监督聚类来检测它们。

当前这些方法主要存在三个方面的不足：

首先，随着目前通信加密的趋势加强，利用明文信息进行分析与检测变得越来越不可行；

其次，在CDN托管节点检测的研究领域内主要关注对象为域名和IP地址，它们之间存在着复杂的关联结构，而这些丰富的结构信息一般都被忽略了；

最后，当前的检测方法通常更关注于发现新的CDN托管节点，但是由于非CDN托管节点通常难以被标记，因此很少对检测结果的精准率和召回率进行度量分析。

因此，有必要提供一种基于图半监督分类的CDN托管节点检测方法解决上述技术问题。

发明内容

本发明提供一种基于图半监督分类的CDN托管节点检测方法，解决了现有CDN托管节点检测方法的可用明文信息减少，忽略域名和IP地址的结构信息，以及缺少精准率和召回率等不足的问题。

为解决上述技术问题，本发明提供的基于图半监督分类的CDN托管节点检测方法包括以下流程：

S1进行图构造：利用SSL/TLS握手过程的信息，构建顶点为二元组(domain,IP)的图；

S2特征提取后进行顶点标注：以SSL/TLS握手过程的信息作为主要数据源，以IPWHOIS信息，DomainWHOIS信息和CDN域名与厂商关键字符等作为辅助数据，针对顶点二元组(domain,IP)提取了62个特征属性，并进行顶点是否为CDN托管节点的标注；

S3对步骤S2顶点标注后的特征信息和结构信息进行图顶点分类：在完成图构造、特征提取和顶点标注之后，开始进行图顶点的半监督分类。

优选的，所述S3半监督分类的方法为将有监督和无监督学习任务进行合并，同时添加集成学习和标签传播算法对分类结果进行优化。

优选的，所述步骤S1进行图构造时需要使用到图构造模块，图构造模块核心为利用SSL/TLS握手过程中Client Hello阶段的信息，构建顶点为二元组(domain,IP)的图。

优选的，所述图构造模块的工作内容包括：

从Client Hello信息中提取ServerName Indication(SNI)和server IP字段，作为域名domain和IP；

将域名domain和IP合并为二元组(domain,IP)，以此作为图的顶点；

当两个顶点共享同一个域名或者IP时，进行边的连接。

优选的，所述步骤S2中进行特征提取时需要用到特征提取模块，其核心为对每个顶点(domain,IP)，从SSL/TLS握手过程的Client Hello和Certificate中进行特征提取，提取到的特征属性一共62个，分为五组，具体工作内容包括提取域名domain字符特征、提取域名domain结构特征、提取IP结构特征、提取IP关联域名domain的统计特征和二元组(domain,IP)的特征。

优选的，所述步骤S2顶点标注时需要用到顶点标注模块，其核心为利用IPWHOIS信息，Domain WHOIS信息和CDN域名与厂商关键字符等信息，对二元组(domain,IP)是否涉及托管CDN服务进行标注，具体工作内容如下：

1)对于IP，如果其IP organization或者AS organization中包含CDN关键字符，记录IP托管CDN信号为1，否则为0；

2)对于二元组(domain,IP)，应用https://docs.python.org/3/library/difflib.html中的SequenceMatcher函数，计算域名domain organization和IPorganization二者相似度；如果相似度小于设定阈值(0.10)，记录二元组匹配信号为0，如果大于设定阈值(0.90)，则记录为1；

3)对于二元组(domain,IP)，同时满足IP托管CDN信号为1且匹配信号为0，则标注该二元组为CDN托管节点，记为1；否则，当两个信号依次为0和1时，标注为非托管节点，记为0；

4)如果以上过程中缺少任何信号，则该顶点归为无标注范围。

优选的，所述步骤S3中图定点分类时需要用到图顶点分类模块，其核心为在已构建图上，利用图半监督分类算法，结合已标注和无标注顶点的特征信息和结构信息，对顶点进行分类预测。

优选的，所述图顶点分类模块的具体工作内容如下：

1)对每个顶点，分别计算(一级)邻点和二级邻点的特征值平均值；

2)对顶点特征值，(一级)邻点特征值平均值和二级邻点特征值平均值，分别进行共享学习任务参数的全连接层操作；

3)随后将三类特征值拼接，获得顶点嵌入表示向量；

4)对顶点嵌入表示向量，进行有监督学习任务参数的全连接层操作，以交叉熵作为损失函数，进行反向传播算法的参数更新；

5)对顶点嵌入表示向量，进行无监督学习任务参数的全连接层操作，采用word2vec负采样损失函数，进行反向传播算法的参数更新；

6)将以上五个步骤重复2000次；

7)数据分为训练集，验证集和测试集三部分；

8)添加一次迭代标签传播算法。

优选的，所述验证集中通过准确率作为模型评价标准选择2000次迭代中表现最佳的10次，进行集成操作即：最终每个顶点预测结果以该10次结果中出现次数最多的类别为准。

优选的，所述迭代标签传播算法即：如果一个未标注顶点的邻点中存在标注顶点，则将邻点中出现频率最高的标注类别作为标签传递给该顶点。

与相关技术相比较，本发明提供的基于图半监督分类的CDN托管节点检测方法具有如下有益效果：

本发明提供一种基于图半监督分类的CDN托管节点检测方法，半监督学习过程能够结合利用标注顶点和无标注顶点的特征信息，使得分类结果的评价指标优于多个传统的机器学习分类方法，通过对Alexa前10万个域名的自动浏览抓包获得主动数据并进行实验，证实结果确实高于多个传统模型3％-18％不等，其中召回率的提升效果表现最好。

附图说明

图1为本发明提供的基于图半监督分类的CDN托管节点检测方法的一种较佳实施例的流程图；

图2为本发明中构造图的对比；

图3为本发明提供的CDN托管节点检测时服务器冷却使用的散热设备的三维图；

图4为图3所示整体的俯视图；

图5为图3所示的沉水箱内部的结构示意图；

图6为图5所示A部的放大图。

图中标号：

100、沉水箱；

200、箱盖；

300、接线管；

400、伸缩件；

500、服务器本体；

600、安装架；

700、引流风机；

800、冷循环管；

900、第一密封垫，910、第二密封垫。

具体实施方式

下面结合附图和实施方式对本发明作进一步说明。

请结合参阅图1、图2、图3、图4、图5和图6，其中，图1为本发明提供的基于图半监督分类的CDN托管节点检测方法的一种较佳实施例的流程图；

图2为本发明中构造图的对比；图3为本发明提供的CDN托管节点检测时服务器冷却使用的散热设备的三维图；图4为图3所示整体的俯视图；图5为图3所示的沉水箱内部的结构示意图；图6为图5所示A部的放大图。

一种基于图半监督分类的CDN托管节点检测方法包括以下流程：

所述S3半监督分类的方法为将有监督和无监督学习任务进行合并，同时添加集成学习和标签传播算法对分类结果进行优化。

基于图半监督分类的CDN托管节点检测方法的总体框架由图1中的图构造①，特征提取②，顶点标注③和图的顶端分类④和⑤组成，步骤如图1所示；

图构造模块：

本模块的核心为利用SSL/TLS握手过程中Client Hello阶段的信息，构建顶点为二元组(domain,IP)的图，具体工作内容为：

1)从Client Hello信息中提取ServerName Indication(SNI)和server IP字段，作为域名domain和IP；

2)传统方法是将域名domain和IP作为两类顶点的二部图，本发明将域名domain和IP合并为二元组(domain,IP)，以此作为图的顶点；

3)当两个顶点共享同一个域名或者IP时，进行边的连接；

4)图2为二部图与本发明中构造图的对比。

特征提取模块：

本模块的核心为对每个顶点(domain,IP)，从SSL/TLS握手过程的Client Hello和Certificate中进行特征提取。提取到的特征属性一共62个，分为五组，具体工作内容如下：

1)提取域名domain字符特征，共3个，包括：域名内点“.”,连字符“-”和数字的个数；

2)提取域名domain结构特征，共12个，包括：

i)域名domain的所有和去重的关联IP个数；

ii)域名domain关联IP的去重C类IP地址个数，及其与所有IP个数的比率；

iii)操作同上一条，对象更改为IP的自治系统号(Autonomous System Number，ASN)；

iv)对于每个域名，记录其出现在Client Hello信息中的去重的源IP(客户端IP，client IP)和目的IP(服务端IP，serverIP)的个数，相除获得比率；

v)视上述由同一域名domain关联的源IP和目的IP为顶点，关联关系为边，构建图，计算该图的完全联通子图个数和图密度；

vi)操作同上一条，对象更改为IP的C类IP地址；

3)提取IP结构特征，共4个，包括：

i)IP的所有和去重的关联域名domain个数；

ii)对于IP的所有关联域名domain，利用来自https://publicsuffix.org的公共后缀列表(public suffix list)，提取各个域名的有效顶级域名(effective top-leveldomain，eTLD)及二级域名(second-level domain，SLD)，然后进行去重计数；

4)提取IP关联域名domain的统计特征，共39个，统计方法包括最小值，最大值与中位数，统计对象包括：

i)上述“域名domain字符特征”中的三个特征；

ii)“域名domain结构特征”中去掉前两个的剩余10个特征；

5)二元组(domain,IP)的特征，共4个，包括：

i)SSL/TLS握手过程Certificate阶段中X.509extension中的SubjectAlternative Name(SAN)字段存在与否，去重个数统计，以及去重的SAN的SLD个数统计；

ii)每个顶点(domain,IP)在整体构建的图中的度。

顶点标注模块：

本模块的核心为利用IPWHOIS信息，DomainWHOIS信息和CDN域名与厂商关键字符等信息，对二元组(domain,IP)是否涉及托管CDN服务进行标注，具体工作内容如下：

图顶点分类模块：

本模块的核心为在已构建图上，利用图半监督分类算法，结合已标注和无标注顶点的特征信息和结构信息，对顶点进行分类预测，具体工作内容如下：

2)对顶点特征值，(一级)邻点特征值平均值和二级邻点特征值平均值；分别进行共享学习任务参数的全连接层操作；

3)随后将三类特征值拼接，获得顶点嵌入表示向量；

6)将以上五个步骤重复2000次；

7)数据分为训练集，验证集和测试集三部分。在验证集中，通过准确率作为模型评价标准选择2000次迭代中表现最佳的10次，进行集成操作，即，最终每个顶点预测结果以该10次结果中出现次数最多的类别为准；

8)添加一次迭代标签传播算法，即，如果一个未标注顶点的邻点中存在标注顶点，则将邻点中出现频率最高的标注类别作为标签传递给该顶点。

半监督学习过程能够结合利用标注顶点和无标注顶点的特征信息，使得分类结果的评价指标优于多个传统的机器学习分类方法，通过对Alexa前10万个域名的自动浏览抓包获得主动数据并进行实验，证实结果确实高于多个传统模型3％-18％不等，其中召回率的提升效果表现最好。

CDN托管节点检测过程中，网络服务器的散热控制尤为重要，传统散热主要安装在室内环境中进行自然冷却散热，同样也有采用风扇换气散热，空气直接散热的效率低且受外界环境温度的影响，因此本发明提供一种用于CDN托管节点检测服务器的散热设备，以便于水下安装使用后的工作和散热；

其中散热设备包括沉水箱100和箱盖200，箱盖200的顶端固定连接有接线管300，接线管300的内部与箱盖200的内部相互连通，用于线材的接线和传输，保障沉水箱100内部使用时的稳定性，使用时接线管300的顶端位于水面以上，避免水源的流入；

沉水箱100与箱盖200之间固定连接有伸缩件400，伸缩件400用于对箱盖200的开合进行控制，避免外界的误触而导致箱盖200和沉水箱100之间松动，伸缩件400采用液压伸缩缸，使用时箱盖200连接和压紧的程度更加稳定可靠；

沉水箱100的内部安装有服务器本体500；

沉水箱100的一侧固定连接有安装架600，安装架600的内部与沉水箱100的内部相互连通，安装架600的内侧固定连接有引流风机700，安装架600的外侧固定连接有冷循环管800，冷循环管800的输入端位于引流风机700的输出端，冷循环管800的输出端位于引流风机700的输入端，并且冷循环管800的输出端固定安装在沉水箱100的外表面，引流风机700运行时通过接线管300连接外界的电源，引流风机700运行时能够带动沉水箱100内部的空气输送至冷循环管800的内部，空气经过冷循环管800的内部时与外界的水源进行换热冷却，换热冷却后的风源回流至沉水箱100的内部，使得沉水箱100的内部能够维持连续的冷循环风源，加快服务器本体500作业时表面散热的效率，保障服务器本体500工作的稳定性和安全性。

沉水箱100和箱盖200的连接处设置有第一密封垫900和第二密封垫910，第一密封垫900和第二密封垫910之间纵横交错，增强沉水箱100与箱盖200之间连接后的密封性，从而保障沉水箱100在水下使用时的稳定性，避免出现水源的渗入现象。

将服务器本体500安装在可深入水下使用的沉水箱100的内部，在沉水箱100安装至水下后，接线管300的顶端应位于水面以上，并且避免接线管300的顶端渗水，以保障接线连接的稳定性；

服务器本体500作业时，启动引流风机700，引流风机700扰动沉水箱100内部的空气通过冷循环管800的内部与水源进行换热冷却，冷循环管800设置有至少十组，能够加快空气与水源之间的换热，冷循环管800采用换热管材，在空气流经冷循环管800的内部后，冷循环管800能够将空气中的热量与外界水源之间进行热交换，从而实现对空气的冷却。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于图半监督分类的CDN托管节点检测方法，其特征在于，包括以下流程：

2.根据权利要求1所述的基于图半监督分类的CDN托管节点检测方法，其特征在于，所述S3半监督分类的方法为将有监督和无监督学习任务进行合并，同时添加集成学习和标签传播算法对分类结果进行优化。

3.根据权利要求1所述的基于图半监督分类的CDN托管节点检测方法，其特征在于，所述步骤S1进行图构造时需要使用到图构造模块，图构造模块核心为利用SSL/TLS握手过程中Client Hello阶段的信息，构建顶点为二元组(domain,IP)的图。

4.根据权利要求3所述的基于图半监督分类的CDN托管节点检测方法，其特征在于，所述图构造模块的工作内容包括：

将域名domain和IP合并为二元组(domain,IP)，以此作为图的顶点；

当两个顶点共享同一个域名或者IP时，进行边的连接。

5.根据权利要求1所述的基于图半监督分类的CDN托管节点检测方法，其特征在于，所述步骤S2中进行特征提取时需要用到特征提取模块，其核心为对每个顶点(domain,IP)，从SSL/TLS握手过程的Client Hello和Certificate中进行特征提取，提取到的特征属性一共62个，分为五组，具体工作内容包括提取域名domain字符特征、提取域名domain结构特征、提取IP结构特征、提取IP关联域名domain的统计特征和二元组(domain,IP)的特征。

6.根据权利要求1所述的基于图半监督分类的CDN托管节点检测方法，其特征在于，所述步骤S2顶点标注时需要用到顶点标注模块，其核心为利用IP WHOIS信息，Domain WHOIS信息和CDN域名与厂商关键字符等信息，对二元组(domain,IP)是否涉及托管CDN服务进行标注，具体工作内容如下：

2)对于二元组(domain,IP)，应用https://docs.python.org/3/library/difflib.html中的SequenceMatcher函数，计算域名domain organization和IPorganization二者相似度；如果相似度小于设定阈值0.10，记录二元组匹配信号为0，如果大于设定阈值0.90，则记录为1；

7.根据权利要求1所述的基于图半监督分类的CDN托管节点检测方法，其特征在于，所述步骤S3中图定点分类时需要用到图顶点分类模块，其核心为在已构建图上，利用图半监督分类算法，结合已标注和无标注顶点的特征信息和结构信息，对顶点进行分类预测。

8.根据权利要求7所述的基于图半监督分类的CDN托管节点检测方法，其特征在于，所述图顶点分类模块的具体工作内容如下：

1)对每个顶点，分别计算一级邻点和二级邻点的特征值平均值；

2)对顶点特征值，一级邻点特征值平均值和二级邻点特征值平均值，分别进行共享学习任务参数的全连接层操作；

3)随后将三类特征值拼接，获得顶点嵌入表示向量；

6)将以上五个步骤重复2000次；

7)数据分为训练集，验证集和测试集三部分；

8)添加一次迭代标签传播算法。

9.根据权利要求8所述的基于图半监督分类的CDN托管节点检测方法，其特征在于，所述验证集中通过准确率作为模型评价标准选择2000次迭代中表现最佳的10次，进行集成操作即：最终每个顶点预测结果以该10次结果中出现次数最多的类别为准。

10.根据权利要求8所述的基于图半监督分类的CDN托管节点检测方法，其特征在于，所述迭代标签传播算法即：如果一个未标注顶点的邻点中存在标注顶点，则将邻点中出现频率最高的标注类别作为标签传递给该顶点。