CN115982508B

CN115982508B - 基于异构信息网络的网站检测方法、电子设备及介质

Info

Publication number: CN115982508B
Application number: CN202310273281.7A
Authority: CN
Inventors: 薛鹏飞; 郭兵阳; 许成喜; 李宇薇; 李振汉; 施凡
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2023-03-21
Filing date: 2023-03-21
Publication date: 2023-06-27
Anticipated expiration: 2043-03-21
Also published as: CN115982508A

Abstract

本发明提供一种基于异构信息网络的网站检测方法、电子设备及介质，涉及网络安全技术领域，所述方法包括：构建网站域名系统基础设施依赖关系异构信息网络模型，并描述所述网站域名系统基础设施的交互关系，所述交互关系为构成元路径的基本单元；提取所述网站域名系统基础设施的高级语义关系，获得所述网站域名系统基础设施的依赖关系矩阵；获取所述网站域名系统基础设施的节点特征，获得域名节点特征矩阵；融合所述域名节点特征矩阵和所述网站域名系统基础设施的依赖关系矩阵，并对网站进行分类。本发明所述方法采用异构信息网络的方法，将网站域名系统基础设施依赖关系构建为异构信息网络，能够提高不良网站检测的性能、降低检测开销。

Description

基于异构信息网络的网站检测方法、电子设备及介质

技术领域

本发明属于网络安全技术领域，尤其涉及一种基于异构信息网络的网站检测方法、电子设备及介质。

背景技术

随着信息技术的飞速发展，人们对互联网的依赖程度逐渐加深。网站是互联网上最流行的应用，人们利用网站学习、工作、娱乐和生活，已经成为了人们生产生活的重要基础设施。因此，研究准确高效的不良网站检测方法能够有效减轻不良网站对网络环境的影响。

在实际应用中，不良网站的检测主要依靠人工检查和网民举报，耗时耗力而且效率低下。在学术研究上，主要有基于黑名单的检测方法和基于机器学习的检测方法。基于黑名单的检测方法主要通过收录网站列表来进行匹配和检测。基于机器学习的检测方法主要是通过提取网站的各种特征，如网址中的域名特征、网页上的文字特征、图像特征等特征或者特征的组合，训练机器学习分类器实现对不良网站的识别。

基于黑名单的检测方法简单，检测速度较快，但是这种方法难以检测到最新的不良网站，具有较为明显的滞后性。传统的机器学习方法可以检测到最新的不良网站，对一些具有明显特征的网站具有较高的准确率。然而，一些特征的识别准确度还不是很高，例如图像特征。总得来说，现有最先进的方法大多只考虑了离散的特征，没有从网站的结构和关系上进行挖掘，因此无法提取到高级的语义特征对不良网站进行检测。

发明内容

为解决上述问题，本发明提出一种基于异构信息网络的网站检测方法，旨在提供一种新的不良网站检测方法，解决已有方法中识别准确率不高和难以挖掘到高级特征识别具有一定对抗性的不良网站的问题。

本发明第一方面公开了一种基于异构信息网络的网站检测方法，包括：

步骤S1.通过域名解析和网页爬虫获取网页的原始数据，从获取到的原始数据中提取出网站域名系统基础设施要素实体及其之间的交互关系，所述交互关系为构成元路径的基本单元；

步骤S2.将步骤S1中获取的网站域名系统基础设施实体作为节点，将所述节点之间的交互关系作为边，建模成为包含节点和节点之间交互关系的异构信息网络模型；

步骤S3.从所述异构信息网络模型中抽取出元路径，所述元路径描述了网站域名系统基础设施实体节点在不同关系上的依赖关系；

步骤S4.利用异构信息网络相似性计算方法，计算网站域名系统基础设施实体节点在不同的元路径上的依赖度；

步骤S5.融合步骤S4中获得的元路径上的依赖度，得到网站域名系统基础设施依赖度矩阵；

步骤S6.获取所述网站域名系统基础设施的节点特征，得到域名节点特征矩阵；

步骤S7.利用双层图卷积网络融合所述域名节点特征矩阵和所述网站域名系统基础设施依赖度矩阵，实现对网站的分类。

根据本发明第一方面的方法，所述步骤S6中获取所述网站域名系统基础设施的节点特征具体包括：获取网站域名中的域名长度、信息熵和包含数字的数量作为网站域名系统基础设施的节点特征。

根据本发明第一方面的方法，所述步骤S2具体为：将所述网站域名系统基础设施要素实体作为节点，将所述交互关系作为边，建成包含六种节点，并以六种交互关系为边的异构信息网络模型。

根据本发明第一方面的方法，所述步骤S3具体包括：从所述异构信息网络模型中抽取出六条包含不同语义的元路径。

根据本发明第一方面的方法，所述步骤S4中，计算网站域名系统基础设施实体节点在不同的元路径上的依赖度具体为：引入基于元路径的相似性度量算法来计算基础设施节点之间的依赖度，将两个基础设施节点之间的依赖度ds(x,y)定义为：

其中，

表示不同元路径下依赖度的权重系数，满足/>

，/>

为不同的元路径；s(x,y)表示节点间的相似性度量值。

根据本发明第一方面的方法，所述步骤S6中所述节点特征矩阵X为一个

的矩阵：/>

，N表示节点的数量，矩阵的每行表示一个域名，F1表示该域名长度，F2表示该域名的信息熵，F3表示该域名包含数字的数量。

根据本发明第一方面的方法，步骤S5中网站域名系统基础设施依赖度矩阵DS为

矩阵，N表示节点的数量，矩阵元素为节点之间的依赖度。

根据本发明第一方面的方法，步骤S7中双层图卷积神经网络的输入为异构图，所述异构图包含两部分：网站域名系统基础设施依赖度矩阵DS和节点特征矩阵X，其中：

，N表示节点的数量，m表示节点特征的维度；

所述利用双层图卷积网络融合所述域名节点特征矩阵和所述网站域名系统基础设施依赖度矩阵，实现对网站的分类，具体包括：

步骤71. 计算

，表示网站域名系统基础设施依赖度矩阵增加自连接后形成的矩阵，其中/>

表示N维单位矩阵，DS表示网站域名系统基础设施依赖度矩阵；

步骤72. 计算

,/>

表示对角矩阵，其满足/>

；

选用线性整流函数ReLU作为激活函数，其定义为ReLU(x)=max(0,x)；则，正向传播模型Z可表示为：

其中X表示所述节点特征矩阵，按行用softmax激活函数，数学表示为

；W⁽⁰⁾表示输入层-隐藏层的神经网络权值矩阵，W⁽¹⁾表示隐藏层-输出层的神经网络权值矩阵，两者都使用梯度下降进行训练；

步骤73. 采用交叉熵优化数据真实标签与模型预测的概率分布之间的差异程度H：

其中，H表示交叉熵；N表示数据集中域名基础设施节点的数量；

表示给定域名x_i在各个类别上的概率分布；c_k表示域名基础设施节点的类别标签；

所述双层图卷积神经网络输出N×m矩阵，其中N为域名的数量，m为网站的类别数量，每行表示一个网站，每个元素大小代表预测为某一类别网站的概率大小。

本发明第二方面公开了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时，实现第一方面中的一种基于异构信息网络的网站检测方法中的步骤。

本发明第三方面公开了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现第一方面中的基于异构信息网络的网站检测方法中的步骤。

综上，本发明提出的方案具备如下技术效果：

（1）本发明将网站域名系统基础设施依赖关系构建为异构信息网络，能够从网站域名系统基础设施关系角度对不良网站进行检测，学习到高级语义特征。

（2）本发明利用双层图卷积神经网络融合网站域名节点特征和网站域名系统基础设施依赖关系语义特征，能够提高不良网站检测的性能。

（3）本发明只需提供少量的节点特征，无需直接访问不良网站和手工提取特征，能够降低检测开销。

（4）本发明提出的方法具有较强的可扩展性，后续可以根据需要随时添加节点特征和基础设施依赖关系种类，以进一步提高检测性能。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例的一种基于异构信息网络的网站检测方法的总体流程图；

图2为根据本发明实施例的基于异构信息网络的网站检测方法的网站域名系统基础设施关系网络模型示例图；

图3为根据本发明实施例的模型中抽取的六条不同的元路径示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供一种基于异构信息网络的网站检测方法，如图1所示，其包括：

步骤S1.通过域名解析和网页爬虫获取网页的原始数据，从获取到的原始数据中提取出网站域名系统基础设施要素实体及其之间的交互关系，所述交互关系为构成元路径的基本单元。

访问一个网站，最常见的做法是在浏览器的地址栏输入网址。随后域名系统负责解析域名到网站的IP地址；客户端发送请求报文至网站服务器；最后浏览器解析网站返回的数据，从而完成一次访问。此过程中，网站实际上是搭建在具有某个公网IP地址的服务器上。另外，由于IP地址难以记忆，通常情况下需通过域名系统将容易记忆的域名解析到IP地址上。

所述域名和IP地址即本实施例所研究的网站在互联网上的网站域名系统基础设施。同时，域名和IP地址也有自己的管理规则。具体来说，区域负责配置服务器区域文件来保证区域下的域名能够正常解析。互联网编号分配机构(Internet Assigned NumbersAuthority, IANA)负责分配和规划IP地址。在分配IP地址时，通常将IP地址按照子网(通常是C段)分配到某一具体的国家或地区。因此，同一区域下的域名和同一C段或者国家的IP地址通常存在关联关系。

本实施例考虑网站、域名、IP地址、区域、C段和国家六类节点以及它们之间的六种不同的关系，构成如图2所示的网络模型。不同节点类型和关系类型分别用不同的字母表示，如图2中的网络模型所示。

为了便于后续的研究和计算，采用不同的邻接矩阵表示具体的节点之间是否存在关联关系。详细描述见表1，节点之间的逆关系用相应字母符号的转置表示。（例如，LT表示关系L的逆关系。）

步骤S4.利用异构信息网络相似性计算方法，计算网站域名系统基础设施实体节点在不同的元路径上的依赖度。

异构信息网络中的元路径可以描述不同节点之间的关联关系，不同的元路径包含不同的语义含义，可用于包含语义的数据挖掘工作。

图3所示的元路径DWD表示同一个网站搭建在两个不同的域名之上；元路径ISI表示在同一个C段内的两个IP地址。网站域名系统基础设施异构图中，不同的元路径可从不同的方面描述基础设施节点之间的相关性。为了捕捉网站域名在基础设施方面的依赖关系，从图2中抽取出六条具有不同语义的元路径，如图3所示。

本实施例采用多条元路径捕捉基础设施节点在不同方面的依赖关系，不同的元路径从不同的角度衡量两个基础设施节点之间的依赖度。比单纯使用某一条元路径更加全面；六条元路径的具体描述见表2。

在所述元路径基础上，引入基于元路径的相似性度量方法计算基础设施节点之间的依赖度。

本实施例中，计算异构网中对称元路径下相同类型节点的相似度的方法为：给定一个对称的元路径

，则两个相同类型节点的相似性度量值s(x, y)为：

其中，

分别表示x和x，y和y以及x和y之间的路径实例的数量。

为了有效融合多种元路径，以计算基础设施节点之间的依赖度，不同的元路径在基础设施上的依赖并非同等重要。

例如，域名D1可能通过元路径P5到达域名D2(通过在同一个C段内的两个IP地址)；也可能通过元路径P6到达域名D2(通过在同一个国家内的两个IP地址)。

在同一个C段内的IP地址一般情况下都位于同一个国家，反之则不然。也就是说，C段是比国家更严格的约束条件。

因此，不能简单地将所述元路径同等看待。

本实施例，在PathSim算法的基础上引入了权重系数，以合并所有的元路径，将两个基础设施节点x和y之间的依赖度ds(x,y)定义为：

其中，

表示不同元路径下依赖度的权重系数，其满足/>

，/>

为不同的元路径。

s(x, y)表示计算得到的相似性度量值，即两个相同类型节点x和y之间的相似性度量值。

本实施例，融合六条不同的元路径之后，得到基础设施依赖度矩阵DS，后续将其作为图的邻接矩阵使用。

所述基础设施依赖度矩阵DS为N×N的矩阵，其中N代表检测域名的数量，矩阵的元素ds(x,y)即为上述方法计算得到的依赖度。

步骤S6.获取所述网站域名系统基础设施的节点特征，得到域名节点特征矩阵。

域名是网站的重要基础设施，也是网址的一部分。与大多数恶意域名类似，不良网站的域名在某些属性上与合法网站域名不同的特征。

所述不同的特征和基础设施依赖度的融合，使得本实施例所述分类方法具有更强的检测效果。为此，选择几个常用的域名特征构成节点特征矩阵。

合法网站的域名与不良网站的域名具有特定的一些特点和特征。比如域名长度和域名所采用的字符都会有所不同。根据对网站域名的统计分析，不良网站域名平均长度上一般会大于合法网站的域名长度；不良网站的域名通常会采用一些杂乱无章的字母数字组合，从而导致不良网站域名的信息熵大于良性网站域名的信息熵；此外，某些不良网站域名还多会采用一些谐音数字等。

因此，本实施例中将域名长度、信息熵和包含数字的数量作为节点特征，通过计算得到节点特征矩阵X：

为一个/>

的矩阵，每行表示一个域名，每行的第一个元素表示该域名长度；第二个元素表示该域名的信息熵，第三个元素表示该域名包含数字的数量。

本发明选取三个节点特征；所述节点特征的符号和具体描述见表3。

在从网站域名系统基础设施依赖关系异构信息网络模型中提取出有意义的元路径P并计算出基础设施节点之间依赖度矩阵DS和获取了网站域名特征之后，引入异构图卷积网络方法来识别网站是否是不良网站。

本发明采用双层图卷积网络，其集成基于元路径的基础设施依赖关系和网站域名节点特征，使基础设施节点的描述更加全面。

双层图卷积网络的输入是异构图，包含两部分：连接基础设施依赖度矩阵DS和节点特征矩阵X，其中

，N是节点的数量，m是节点特征的维度。

输出是节点的向量表示，用于实现分类。

输出向量的维度为网站类型标签数，数值大小代表预测为某一类别的概率大小。

步骤71. 计算

步骤72. 计算

,/>

表示对角矩阵，其满足/>

；选用线性整流函数ReLU作为激活函数，其定义为ReLU(x)=max(0,x)；则，正向传播模型Z可表示为：

表示给定域名x_i在各个类别上的概率分布；c_k表示域名基础设施节点的类别标签。

通过上述计算，神经网络将输出一个N×m的矩阵，其中N为域名的数量，m为网站的类别数量。每行表示一个网站，每个元素表示为所在列表示的网站类别的概率。数值最大即概率最大的类别为最有可能的类别，即为最终识别结果。

若识别结果为不良网站，即表明方法检测到了一个新的不良网站。

本发明第二方面公开了一种基于异构信息网络的网站检测系统，所述系统包括：

第一处理模块，被配置为通过域名解析和网页爬虫获取网页的原始数据，从获取到的原始数据中提取出网站域名系统基础设施要素实体及其之间的交互关系，所述交互关系为构成元路径的基本单元；

第二处理模块，被配置为将第一处理模块中获取的网站域名系统基础设施实体作为节点，将所述节点之间的交互关系作为边，建模成为包含节点和节点之间交互关系的异构信息网络模型；

第三处理模块，被配置为从所述异构信息网络模型中抽取出元路径，所述元路径描述了网站域名系统基础设施实体节点在不同关系上的依赖关系；

第四处理模块，被配置为利用异构信息网络相似性计算方法，计算网站域名系统基础设施实体节点在不同的元路径上的依赖度；

第五处理模块，被配置为融合第四处理模块中获得的元路径上的依赖度，得到网站域名系统基础设施依赖度矩阵；

第六处理模块，被配置为获取所述网站域名系统基础设施的节点特征，得到域名节点特征矩阵；

第七处理模块，被配置为利用双层图卷积网络融合所述域名节点特征矩阵和所述网站域名系统基础设施依赖度矩阵，实现对网站的分类。

本发明第三方面公开了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时，实现第一方面中的一种基于异构信息网络的网站检测方法中的步骤。

本发明第四方面公开了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现第一方面中的基于异构信息网络的网站检测方法中的步骤。

综上，本发明提出的方案具备如下技术效果：

本发明将网站域名系统基础设施依赖关系构建为异构信息网络，能够从网站域名系统基础设施关系角度对不良网站进行检测，学习到高级语义特征；利用双层图卷积神经网络融合网站域名节点特征和网站域名系统基础设施依赖关系语义特征，能够提高不良网站检测的性能；只需提供少量的节点特征，无需直接访问不良网站和手工提取特征，能够降低检测开销；具有较强的可扩展性，后续可以根据需要随时添加节点特征和基础设施依赖关系种类，以进一步提高检测性能。

请注意，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。