CN115982508B - 基于异构信息网络的网站检测方法、电子设备及介质 - Google Patents

基于异构信息网络的网站检测方法、电子设备及介质 Download PDF

Info

Publication number
CN115982508B
CN115982508B CN202310273281.7A CN202310273281A CN115982508B CN 115982508 B CN115982508 B CN 115982508B CN 202310273281 A CN202310273281 A CN 202310273281A CN 115982508 B CN115982508 B CN 115982508B
Authority
CN
China
Prior art keywords
domain name
website
matrix
name system
system infrastructure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310273281.7A
Other languages
English (en)
Other versions
CN115982508A (zh
Inventor
薛鹏飞
郭兵阳
许成喜
李宇薇
李振汉
施凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202310273281.7A priority Critical patent/CN115982508B/zh
Publication of CN115982508A publication Critical patent/CN115982508A/zh
Application granted granted Critical
Publication of CN115982508B publication Critical patent/CN115982508B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于异构信息网络的网站检测方法、电子设备及介质,涉及网络安全技术领域,所述方法包括:构建网站域名系统基础设施依赖关系异构信息网络模型,并描述所述网站域名系统基础设施的交互关系,所述交互关系为构成元路径的基本单元;提取所述网站域名系统基础设施的高级语义关系,获得所述网站域名系统基础设施的依赖关系矩阵;获取所述网站域名系统基础设施的节点特征,获得域名节点特征矩阵;融合所述域名节点特征矩阵和所述网站域名系统基础设施的依赖关系矩阵,并对网站进行分类。本发明所述方法采用异构信息网络的方法,将网站域名系统基础设施依赖关系构建为异构信息网络,能够提高不良网站检测的性能、降低检测开销。

Description

基于异构信息网络的网站检测方法、电子设备及介质
技术领域
本发明属于网络安全技术领域,尤其涉及一种基于异构信息网络的网站检测方法、电子设备及介质。
背景技术
随着信息技术的飞速发展,人们对互联网的依赖程度逐渐加深。网站是互联网上最流行的应用,人们利用网站学习、工作、娱乐和生活,已经成为了人们生产生活的重要基础设施。因此,研究准确高效的不良网站检测方法能够有效减轻不良网站对网络环境的影响。
在实际应用中,不良网站的检测主要依靠人工检查和网民举报,耗时耗力而且效率低下。在学术研究上,主要有基于黑名单的检测方法和基于机器学习的检测方法。基于黑名单的检测方法主要通过收录网站列表来进行匹配和检测。基于机器学习的检测方法主要是通过提取网站的各种特征,如网址中的域名特征、网页上的文字特征、图像特征等特征或者特征的组合,训练机器学习分类器实现对不良网站的识别。
基于黑名单的检测方法简单,检测速度较快,但是这种方法难以检测到最新的不良网站,具有较为明显的滞后性。传统的机器学习方法可以检测到最新的不良网站,对一些具有明显特征的网站具有较高的准确率。然而,一些特征的识别准确度还不是很高,例如图像特征。总得来说,现有最先进的方法大多只考虑了离散的特征,没有从网站的结构和关系上进行挖掘,因此无法提取到高级的语义特征对不良网站进行检测。
发明内容
为解决上述问题,本发明提出一种基于异构信息网络的网站检测方法,旨在提供一种新的不良网站检测方法,解决已有方法中识别准确率不高和难以挖掘到高级特征识别具有一定对抗性的不良网站的问题。
本发明第一方面公开了一种基于异构信息网络的网站检测方法,包括:
步骤S1.通过域名解析和网页爬虫获取网页的原始数据,从获取到的原始数据中提取出网站域名系统基础设施要素实体及其之间的交互关系,所述交互关系为构成元路径的基本单元;
步骤S2.将步骤S1中获取的网站域名系统基础设施实体作为节点,将所述节点之间的交互关系作为边,建模成为包含节点和节点之间交互关系的异构信息网络模型;
步骤S3.从所述异构信息网络模型中抽取出元路径,所述元路径描述了网站域名系统基础设施实体节点在不同关系上的依赖关系;
步骤S4.利用异构信息网络相似性计算方法,计算网站域名系统基础设施实体节点在不同的元路径上的依赖度;
步骤S5.融合步骤S4中获得的元路径上的依赖度,得到网站域名系统基础设施依赖度矩阵;
步骤S6.获取所述网站域名系统基础设施的节点特征,得到域名节点特征矩阵;
步骤S7.利用双层图卷积网络融合所述域名节点特征矩阵和所述网站域名系统基础设施依赖度矩阵,实现对网站的分类。
根据本发明第一方面的方法,所述步骤S6中获取所述网站域名系统基础设施的节点特征具体包括:获取网站域名中的域名长度、信息熵和包含数字的数量作为网站域名系统基础设施的节点特征。
根据本发明第一方面的方法,所述步骤S2具体为:将所述网站域名系统基础设施要素实体作为节点,将所述交互关系作为边,建成包含六种节点,并以六种交互关系为边的异构信息网络模型。
根据本发明第一方面的方法,所述步骤S3具体包括:从所述异构信息网络模型中抽取出六条包含不同语义的元路径。
根据本发明第一方面的方法,所述步骤S4中,计算网站域名系统基础设施实体节点在不同的元路径上的依赖度具体为:引入基于元路径的相似性度量算法来计算基础设施节点之间的依赖度,将两个基础设施节点之间的依赖度ds(x,y)定义为:
Figure SMS_1
其中,
Figure SMS_2
表示不同元路径下依赖度的权重系数,满足/>
Figure SMS_3
,/>
Figure SMS_4
为不同的元路径;s(x,y)表示节点间的相似性度量值。
根据本发明第一方面的方法,所述步骤S6中所述节点特征矩阵X为一个
Figure SMS_5
的矩阵:/>
Figure SMS_6
,N表示节点的数量,矩阵的每行表示一个域名,F1表示该域名长度,F2表示该域名的信息熵,F3表示该域名包含数字的数量。
根据本发明第一方面的方法,步骤S5中网站域名系统基础设施依赖度矩阵DS为
Figure SMS_7
矩阵,N表示节点的数量,矩阵元素为节点之间的依赖度。
根据本发明第一方面的方法,步骤S7中双层图卷积神经网络的输入为异构图,所述异构图包含两部分:网站域名系统基础设施依赖度矩阵DS和节点特征矩阵X,其中:
Figure SMS_8
,N表示节点的数量,m表示节点特征的维度;
所述利用双层图卷积网络融合所述域名节点特征矩阵和所述网站域名系统基础设施依赖度矩阵,实现对网站的分类,具体包括:
步骤71. 计算
Figure SMS_9
,表示网站域名系统基础设施依赖度矩阵增加自连接后形成的矩阵,其中/>
Figure SMS_10
表示N维单位矩阵,DS表示网站域名系统基础设施依赖度矩阵;
步骤72. 计算
Figure SMS_11
,/>
Figure SMS_12
表示对角矩阵,其满足/>
Figure SMS_13
选用线性整流函数ReLU作为激活函数,其定义为ReLU(x)=max(0,x);则,正向传播模型Z可表示为:
Figure SMS_14
其中X表示所述节点特征矩阵,按行用softmax激活函数,数学表示为
Figure SMS_15
;W(0)表示输入层-隐藏层的神经网络权值矩阵,W(1)表示隐藏层-输出层的神经网络权值矩阵,两者都使用梯度下降进行训练;
步骤73. 采用交叉熵优化数据真实标签与模型预测的概率分布之间的差异程度H:
Figure SMS_16
其中,H表示交叉熵;N表示数据集中域名基础设施节点的数量;
Figure SMS_17
表示给定域名xi在各个类别上的概率分布;ck表示域名基础设施节点的类别标签;
所述双层图卷积神经网络输出N×m矩阵,其中N为域名的数量,m为网站的类别数量,每行表示一个网站,每个元素大小代表预测为某一类别网站的概率大小。
本发明第二方面公开了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现第一方面中的一种基于异构信息网络的网站检测方法中的步骤。
本发明第三方面公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现第一方面中的基于异构信息网络的网站检测方法中的步骤。
综上,本发明提出的方案具备如下技术效果:
(1)本发明将网站域名系统基础设施依赖关系构建为异构信息网络,能够从网站域名系统基础设施关系角度对不良网站进行检测,学习到高级语义特征。
(2)本发明利用双层图卷积神经网络融合网站域名节点特征和网站域名系统基础设施依赖关系语义特征,能够提高不良网站检测的性能。
(3)本发明只需提供少量的节点特征,无需直接访问不良网站和手工提取特征,能够降低检测开销。
(4)本发明提出的方法具有较强的可扩展性,后续可以根据需要随时添加节点特征和基础设施依赖关系种类,以进一步提高检测性能。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例的一种基于异构信息网络的网站检测方法的总体流程图;
图2为根据本发明实施例的基于异构信息网络的网站检测方法的网站域名系统基础设施关系网络模型示例图;
图3为根据本发明实施例的模型中抽取的六条不同的元路径示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供一种基于异构信息网络的网站检测方法,如图1所示,其包括:
步骤S1.通过域名解析和网页爬虫获取网页的原始数据,从获取到的原始数据中提取出网站域名系统基础设施要素实体及其之间的交互关系,所述交互关系为构成元路径的基本单元。
访问一个网站,最常见的做法是在浏览器的地址栏输入网址。随后域名系统负责解析域名到网站的IP地址;客户端发送请求报文至网站服务器;最后浏览器解析网站返回的数据,从而完成一次访问。此过程中,网站实际上是搭建在具有某个公网IP地址的服务器上。另外,由于IP地址难以记忆,通常情况下需通过域名系统将容易记忆的域名解析到IP地址上。
所述域名和IP地址即本实施例所研究的网站在互联网上的网站域名系统基础设施。同时,域名和IP地址也有自己的管理规则。具体来说,区域负责配置服务器区域文件来保证区域下的域名能够正常解析。互联网编号分配机构(Internet Assigned NumbersAuthority, IANA)负责分配和规划IP地址。在分配IP地址时,通常将IP地址按照子网(通常是C段)分配到某一具体的国家或地区。因此,同一区域下的域名和同一C段或者国家的IP地址通常存在关联关系。
步骤S2.将步骤S1中获取的网站域名系统基础设施实体作为节点,将所述节点之间的交互关系作为边,建模成为包含节点和节点之间交互关系的异构信息网络模型;
步骤S3.从所述异构信息网络模型中抽取出元路径,所述元路径描述了网站域名系统基础设施实体节点在不同关系上的依赖关系;
本实施例考虑网站、域名、IP地址、区域、C段和国家六类节点以及它们之间的六种不同的关系,构成如图2所示的网络模型。不同节点类型和关系类型分别用不同的字母表示,如图2中的网络模型所示。
为了便于后续的研究和计算,采用不同的邻接矩阵表示具体的节点之间是否存在关联关系。详细描述见表1,节点之间的逆关系用相应字母符号的转置表示。(例如,LT表示关系L的逆关系。)
Figure SMS_18
步骤S4.利用异构信息网络相似性计算方法,计算网站域名系统基础设施实体节点在不同的元路径上的依赖度。
异构信息网络中的元路径可以描述不同节点之间的关联关系,不同的元路径包含不同的语义含义,可用于包含语义的数据挖掘工作。
图3所示的元路径DWD表示同一个网站搭建在两个不同的域名之上;元路径ISI表示在同一个C段内的两个IP地址。网站域名系统基础设施异构图中,不同的元路径可从不同的方面描述基础设施节点之间的相关性。为了捕捉网站域名在基础设施方面的依赖关系,从图2中抽取出六条具有不同语义的元路径,如图3所示。
本实施例采用多条元路径捕捉基础设施节点在不同方面的依赖关系,不同的元路径从不同的角度衡量两个基础设施节点之间的依赖度。比单纯使用某一条元路径更加全面;六条元路径的具体描述见表2。
Figure SMS_19
在所述元路径基础上,引入基于元路径的相似性度量方法计算基础设施节点之间的依赖度。
本实施例中,计算异构网中对称元路径下相同类型节点的相似度的方法为:给定一个对称的元路径
Figure SMS_20
,则两个相同类型节点的相似性度量值s(x, y)为:
Figure SMS_21
其中,
Figure SMS_22
分别表示x和x,y和y以及x和y之间的路径实例的数量。
为了有效融合多种元路径,以计算基础设施节点之间的依赖度,不同的元路径在基础设施上的依赖并非同等重要。
例如,域名D1可能通过元路径P5到达域名D2(通过在同一个C段内的两个IP地址);也可能通过元路径P6到达域名D2(通过在同一个国家内的两个IP地址)。
在同一个C段内的IP地址一般情况下都位于同一个国家,反之则不然。也就是说,C段是比国家更严格的约束条件。
因此,不能简单地将所述元路径同等看待。
本实施例,在PathSim算法的基础上引入了权重系数,以合并所有的元路径,将两个基础设施节点x和y之间的依赖度ds(x,y)定义为:
Figure SMS_23
其中,
Figure SMS_24
表示不同元路径下依赖度的权重系数,其满足/>
Figure SMS_25
,/>
Figure SMS_26
为不同的元路径。
s(x, y)表示计算得到的相似性度量值,即两个相同类型节点x和y之间的相似性度量值。
步骤S5.融合步骤S4中获得的元路径上的依赖度,得到网站域名系统基础设施依赖度矩阵;
本实施例,融合六条不同的元路径之后,得到基础设施依赖度矩阵DS,后续将其作为图的邻接矩阵使用。
所述基础设施依赖度矩阵DSN×N的矩阵,其中N代表检测域名的数量,矩阵的元素ds(x,y)即为上述方法计算得到的依赖度。
步骤S6.获取所述网站域名系统基础设施的节点特征,得到域名节点特征矩阵。
域名是网站的重要基础设施,也是网址的一部分。与大多数恶意域名类似,不良网站的域名在某些属性上与合法网站域名不同的特征。
所述不同的特征和基础设施依赖度的融合,使得本实施例所述分类方法具有更强的检测效果。为此,选择几个常用的域名特征构成节点特征矩阵。
合法网站的域名与不良网站的域名具有特定的一些特点和特征。比如域名长度和域名所采用的字符都会有所不同。根据对网站域名的统计分析,不良网站域名平均长度上一般会大于合法网站的域名长度;不良网站的域名通常会采用一些杂乱无章的字母数字组合,从而导致不良网站域名的信息熵大于良性网站域名的信息熵;此外,某些不良网站域名还多会采用一些谐音数字等。
因此,本实施例中将域名长度、信息熵和包含数字的数量作为节点特征,通过计算得到节点特征矩阵X:
Figure SMS_27
为一个/>
Figure SMS_28
的矩阵,每行表示一个域名,每行的第一个元素表示该域名长度;第二个元素表示该域名的信息熵,第三个元素表示该域名包含数字的数量。
本发明选取三个节点特征;所述节点特征的符号和具体描述见表3。
Figure SMS_29
步骤S7.利用双层图卷积网络融合所述域名节点特征矩阵和所述网站域名系统基础设施依赖度矩阵,实现对网站的分类。
在从网站域名系统基础设施依赖关系异构信息网络模型中提取出有意义的元路径P并计算出基础设施节点之间依赖度矩阵DS和获取了网站域名特征之后,引入异构图卷积网络方法来识别网站是否是不良网站。
本发明采用双层图卷积网络,其集成基于元路径的基础设施依赖关系和网站域名节点特征,使基础设施节点的描述更加全面。
双层图卷积网络的输入是异构图,包含两部分:连接基础设施依赖度矩阵DS和节点特征矩阵X,其中
Figure SMS_30
,N是节点的数量,m是节点特征的维度。
输出是节点的向量表示,用于实现分类。
输出向量的维度为网站类型标签数,数值大小代表预测为某一类别的概率大小。
所述利用双层图卷积网络融合所述域名节点特征矩阵和所述网站域名系统基础设施依赖度矩阵,实现对网站的分类,具体包括:
步骤71. 计算
Figure SMS_31
,表示网站域名系统基础设施依赖度矩阵增加自连接后形成的矩阵,其中/>
Figure SMS_32
表示N维单位矩阵,DS表示网站域名系统基础设施依赖度矩阵;
步骤72. 计算
Figure SMS_33
,/>
Figure SMS_34
表示对角矩阵,其满足/>
Figure SMS_35
;选用线性整流函数ReLU作为激活函数,其定义为ReLU(x)=max(0,x);则,正向传播模型Z可表示为:
Figure SMS_36
其中X表示所述节点特征矩阵,按行用softmax激活函数,数学表示为
Figure SMS_37
;W(0)表示输入层-隐藏层的神经网络权值矩阵,W(1)表示隐藏层-输出层的神经网络权值矩阵,两者都使用梯度下降进行训练;
步骤73. 采用交叉熵优化数据真实标签与模型预测的概率分布之间的差异程度H:
Figure SMS_38
其中,H表示交叉熵;N表示数据集中域名基础设施节点的数量;
Figure SMS_39
表示给定域名xi在各个类别上的概率分布;ck表示域名基础设施节点的类别标签。
通过上述计算,神经网络将输出一个N×m的矩阵,其中N为域名的数量,m为网站的类别数量。每行表示一个网站,每个元素表示为所在列表示的网站类别的概率。数值最大即概率最大的类别为最有可能的类别,即为最终识别结果。
若识别结果为不良网站,即表明方法检测到了一个新的不良网站。
本发明第二方面公开了一种基于异构信息网络的网站检测系统,所述系统包括:
第一处理模块,被配置为通过域名解析和网页爬虫获取网页的原始数据,从获取到的原始数据中提取出网站域名系统基础设施要素实体及其之间的交互关系,所述交互关系为构成元路径的基本单元;
第二处理模块,被配置为将第一处理模块中获取的网站域名系统基础设施实体作为节点,将所述节点之间的交互关系作为边,建模成为包含节点和节点之间交互关系的异构信息网络模型;
第三处理模块,被配置为从所述异构信息网络模型中抽取出元路径,所述元路径描述了网站域名系统基础设施实体节点在不同关系上的依赖关系;
第四处理模块,被配置为利用异构信息网络相似性计算方法,计算网站域名系统基础设施实体节点在不同的元路径上的依赖度;
第五处理模块,被配置为融合第四处理模块中获得的元路径上的依赖度,得到网站域名系统基础设施依赖度矩阵;
第六处理模块,被配置为获取所述网站域名系统基础设施的节点特征,得到域名节点特征矩阵;
第七处理模块,被配置为利用双层图卷积网络融合所述域名节点特征矩阵和所述网站域名系统基础设施依赖度矩阵,实现对网站的分类。
本发明第三方面公开了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现第一方面中的一种基于异构信息网络的网站检测方法中的步骤。
本发明第四方面公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现第一方面中的基于异构信息网络的网站检测方法中的步骤。
综上,本发明提出的方案具备如下技术效果:
本发明将网站域名系统基础设施依赖关系构建为异构信息网络,能够从网站域名系统基础设施关系角度对不良网站进行检测,学习到高级语义特征;利用双层图卷积神经网络融合网站域名节点特征和网站域名系统基础设施依赖关系语义特征,能够提高不良网站检测的性能;只需提供少量的节点特征,无需直接访问不良网站和手工提取特征,能够降低检测开销;具有较强的可扩展性,后续可以根据需要随时添加节点特征和基础设施依赖关系种类,以进一步提高检测性能。
请注意,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种基于异构信息网络的网站检测方法,其特征在于,包括:
步骤S1.通过域名解析和网页爬虫获取网页的原始数据,从获取到的原始数据中提取出网站域名系统基础设施要素实体及其之间的交互关系,所述交互关系为构成元路径的基本单元;
步骤S2.将步骤S1中获取的网站域名系统基础设施实体作为节点,将所述节点之间的交互关系作为边,建模成为包含节点和节点之间交互关系的异构信息网络模型;
步骤S3.从所述异构信息网络模型中抽取出元路径,所述元路径描述了网站域名系统基础设施实体节点在不同关系上的依赖关系;
步骤S4.利用异构信息网络相似性计算方法,计算网站域名系统基础设施实体节点在不同的元路径上的依赖度;
其中,所述网站域名系统基础设施实体节点之间的依赖度ds(x,y)定义为:
Figure QLYQS_1
其中,
Figure QLYQS_2
表示不同元路径下依赖度的权重系数,满足/>
Figure QLYQS_3
,/>
Figure QLYQS_4
为不同的元路径;s(x, y)表示节点间的相似性度量值;
步骤S5.融合步骤S4中获得的元路径上的依赖度,得到网站域名系统基础设施依赖度矩阵;
步骤S6.获取所述网站域名系统基础设施的节点特征,得到域名节点特征矩阵;
步骤S7.利用双层图卷积网络融合所述域名节点特征矩阵和所述网站域名系统基础设施依赖度矩阵,实现对网站的分类;
所述双层图卷积神经网络的输入为异构图,所述异构图包含两部分:网站域名系统基础设施依赖度矩阵DS和节点特征矩阵X,其中:
Figure QLYQS_5
,N表示节点的数量,m表示节点特征的维度;
所述对网站的分类,具体包括:
步骤71. 计算
Figure QLYQS_6
,表示网站域名系统基础设施依赖度矩阵增加自连接后形成的矩阵,其中/>
Figure QLYQS_7
表示N维单位矩阵,DS表示网站域名系统基础设施依赖度矩阵;
步骤72. 计算
Figure QLYQS_8
,/>
Figure QLYQS_9
表示对角矩阵,其满足/>
Figure QLYQS_10
选用线性整流函数ReLU作为激活函数,其定义为ReLU(x)=max(0,x);则,正向传播模型Z可表示为:
Figure QLYQS_11
其中X表示所述节点特征矩阵,按行用softmax激活函数,数学表示为
Figure QLYQS_12
W(0)表示输入层-隐藏层的神经网络权值矩阵,W(1)表示隐藏层-输出层的神经网络权值矩阵,两者都使用梯度下降进行训练;
步骤73. 采用交叉熵优化数据真实标签与模型预测的概率分布之间的差异程度H:
Figure QLYQS_13
其中,H表示交叉熵;N表示数据集中域名基础设施节点的数量;
Figure QLYQS_14
表示给定域名xi在各个类别上的概率分布;ck表示域名基础设施节点的类别标签;
所述双层图卷积神经网络输出N×m矩阵,其中N为域名的数量,m为网站的类别数量,每行表示一个网站,每个元素大小代表预测为某一类别网站的概率大小。
2.如权利要求1所述的基于异构信息网络的网站检测方法,其特征在于,所述步骤S6中获取所述网站域名系统基础设施的节点特征具体包括:获取网站域名中的域名长度、信息熵和包含数字的数量作为网站域名系统基础设施的节点特征。
3.如权利要求1所述的基于异构信息网络的网站检测方法,其特征在于,所述步骤S2具体为:将所述网站域名系统基础设施要素实体作为节点,将所述交互关系作为边,建成包含六种节点,并以六种交互关系为边的异构信息网络模型。
4.如权利要求3所述的基于异构信息网络的网站检测方法,其特征在于,所述步骤S3具体包括:从所述异构信息网络模型中抽取出六条包含不同语义的元路径。
5.如权利要求2所述的基于异构信息网络的网站检测方法,其特征在于,所述步骤S6中所述节点特征矩阵X为一个
Figure QLYQS_15
的矩阵:
Figure QLYQS_16
;N表示节点的数量,矩阵的每行表示一个域名,F1表示该域名长度,F2表示该域名的信息熵,F3表示该域名包含数字的数量。
6.如权利要求1所述的基于异构信息网络的网站检测方法,其特征在于,步骤S5中网站域名系统基础设施依赖度矩阵DS为
Figure QLYQS_17
矩阵,N表示节点的数量,矩阵元素为节点之间的依赖度。
7.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现权利要求1至6中任一项所述的一种基于异构信息网络的网站检测方法中的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1至6中任一项所述的基于异构信息网络的网站检测方法中的步骤。
CN202310273281.7A 2023-03-21 2023-03-21 基于异构信息网络的网站检测方法、电子设备及介质 Active CN115982508B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310273281.7A CN115982508B (zh) 2023-03-21 2023-03-21 基于异构信息网络的网站检测方法、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310273281.7A CN115982508B (zh) 2023-03-21 2023-03-21 基于异构信息网络的网站检测方法、电子设备及介质

Publications (2)

Publication Number Publication Date
CN115982508A CN115982508A (zh) 2023-04-18
CN115982508B true CN115982508B (zh) 2023-06-27

Family

ID=85976500

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310273281.7A Active CN115982508B (zh) 2023-03-21 2023-03-21 基于异构信息网络的网站检测方法、电子设备及介质

Country Status (1)

Country Link
CN (1) CN115982508B (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102801709B (zh) * 2012-06-28 2015-03-04 北京奇虎科技有限公司 一种钓鱼网站识别系统及方法
CN106096040B (zh) * 2016-06-29 2019-06-04 中国人民解放军国防科学技术大学 基于搜索引擎的机构网站归属地判别方法及其装置
CN110516074B (zh) * 2019-10-23 2020-01-21 中国人民解放军国防科技大学 一种基于深度学习的网站主题分类方法及装置
WO2021173114A1 (en) * 2020-02-24 2021-09-02 Google Llc Heterogeneous graph clustering using a pointwise mutual information criterion
CN112910929B (zh) * 2021-03-24 2022-01-04 中国科学院信息工程研究所 基于异质图表示学习的恶意域名检测方法及装置
CN113259399B (zh) * 2021-07-08 2021-10-15 中国人民解放军国防科技大学 基于异构信息网络的域名服务器安全威胁分析方法及装置
CN115442075A (zh) * 2022-08-02 2022-12-06 中国科学院信息工程研究所 一种基于异质图传播网络的恶意域名检测方法和系统

Also Published As

Publication number Publication date
CN115982508A (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN108965245B (zh) 基于自适应异构多分类模型的钓鱼网站检测方法和系统
CN111476315B (zh) 一种基于统计相关性与图卷积技术的图像多标签识别方法
CN107341183B (zh) 一种基于暗网网站综合特征的网站分类方法
CN103294781B (zh) 一种用于处理页面数据的方法与设备
Yang et al. Incorporating site-level knowledge to extract structured data from web forums
Bhagat et al. Applying link-based classification to label blogs
US20100211533A1 (en) Extracting structured data from web forums
CN112100372B (zh) 头版新闻预测分类方法
CN112559747A (zh) 事件分类处理方法、装置、电子设备和存储介质
CN114915468B (zh) 基于知识图谱的网络犯罪智能分析检测方法
CN116467666A (zh) 一种基于集成学习和主动学习的图异常检测方法和系统
CN108549727B (zh) 基于网络爬虫以及大数据分析的用户获利信息推送方法
CN110019193A (zh) 相似帐号识别方法、装置、设备、系统及可读介质
CN115982508B (zh) 基于异构信息网络的网站检测方法、电子设备及介质
CN116776889A (zh) 一种基于图卷积网络和外部知识嵌入的粤语谣言检测方法
CN114579834B (zh) 网页登录实体识别方法、装置、电子设备及存储介质
CN112685618A (zh) 用户特征识别方法、装置、计算设备及计算机存储介质
CN116127178A (zh) 基于属性多重异构信息网络的网络文章影响力评估方法
CN115051863A (zh) 异常流量检测的方法、装置、电子设备及可读存储介质
Li et al. POI representation learning by a hybrid model
CN103793448B (zh) 文章信息提供方法以及系统
CA3231513A1 (en) Records matching techniques for facilitating database search and fragmented record detection
CA3231516A1 (en) Fragmented record detection based on records matching techniques
CN112507189A (zh) 基于BiLSTM-CRF模型的金融用户画像信息提取方法及系统
Maheswari et al. Algorithm for Tracing Visitors' On-Line Behaviors for Effective Web Usage Mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant