CN111444961A

CN111444961A - 一种通过聚类算法判定互联网网站归属的方法

Info

Publication number: CN111444961A
Application number: CN202010223235.2A
Authority: CN
Inventors: 于佳华; 韩钢; 常远; 张光耀; 康海东; 孙巍
Original assignee: Heilongjiang Branch Of National Computer Network And Information Security Management Center
Current assignee: Heilongjiang Branch Of National Computer Network And Information Security Management Center
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2020-07-24
Anticipated expiration: 2040-03-26
Also published as: CN111444961B

Abstract

一种通过聚类算法判定互联网网站归属的方法，属于网络空间安全技术领域，本发明为了解决传统网站备案信息判定方法和网页信息判定方法无法判定网站归属，或者导致判定归属错误的问题。步骤a，输入待判定归属单位的网站集合，基础数据为网站URL；步骤b，对网站基础信息进行提取；步骤c，对步骤二中提取到的所有信息进行量化；步骤d，将各类特征值映射到同一量纲下的[0，1]区间；归一化特征向量FN_website；步骤e，利用无监督聚类算法DBSCAN对数据集进行聚类。本发明的一种通过聚类算法判定互联网网站归属的方法使用聚类分析算法，实现网站归属的自动化判定，有效提升归属判定准确率。

Description

一种通过聚类算法判定互联网网站归属的方法

技术领域

本发明涉及一种判定互联网网站归属的方法，具体涉及一种通过聚类算法判定互联网网站归属的方法，属于网络空间安全技术领域。

背景技术

从20世纪60年代美国的APPANet到今天的国际互联网，网络技术得到了迅猛发展，越来越多的组织和个人接入互联网。包括网络终端、网络设备、网络服务等在内的网络资产已被广泛应用于各类政府、企事业单位的日常业务工作，极大地提高了工作效率，促进了业务工作的发展，但也带来了许多问题和隐患。随着单位网络规模的不断扩大，网络资产及其所包含的漏洞类型不断增多，给单位网络安全管理带来了巨大压力。

网站是网络资产中的一类特殊而重要的资产，互联网上除了存在大众所熟知的门户网站、娱乐网站、购物网站外，更存在着大量的政务服务、办公系统、金融服务、工业控制等网站，这些网站归属于不同的政府、企事业单位，掌握清楚这些网站的归属对于网络安全工作，尤其是漏洞普查、网站安全监管等具有重要的意义。

目前确定网站归属主要有网站备案信息判定和网页信息判定两种方法：

网站备案是根据国家法律法规需要网站的所有者向国家有关部门申请的备案，主要是ICP备。备案信息包括单位名称、单位性质、网站名称等。目前工业和信息化部ICP/IP地址/域名信息备案管理系统、站长之家等网站提供网站备案信息查询服务，用户输入域名或备案号，即可查询备案单位。

网页信息判定主要是通过网页上显示的标题、logo等信息，判断网站的归属。比如很多政府机关、高校、企业都会在网页显著位置展示网站的归属及用途，这些信息可以准确识别网站的归属单位。

网站备案信息判定主要存在如下几个问题，一是有的单位门户等主要网站进行了备案，但OA等小网站未进行备案；二是很多通过IP直接访问的网站未进行备案；三是很多域名备案过期后，未进行备案撤销，导致域名被其他人申请，出现备案信息与网站信息不一致。这些问题会导致通过网站备案信息无法判定网站归属，或者导致判定归属错误。

网页信息判定方法主要存在如下几个问题，一是很多通用定制化网站如ERP管理系统、考勤系统、防火墙系统等，网页上只显示了厂商的信息，无真实归属单位信息；二是有些仿冒诈骗网站，网页故意显示所仿冒单位信息，给人误导；三是存在着某些单位为了避免监管机构安全漏洞通报，特意在网页上隐去可识别本单位信息的内容。这些问题会导致通过网页信息无法判定网站归属，或者导致判定归属错误。

综上，目前网站归属领域常用的网站备案信息判定和网页信息判定两种方法，都存在某些情况下无法判定属或者判定错误的问题。

发明内容

本发明的目的是提供一种通过聚类算法判定互联网网站归属的方法，以解决传统网站备案信息判定方法和网页信息判定方法无法判定网站归属，或者导致判定归属错误的问题。

包括以下步骤：

步骤a，输入待判定归属单位的网站集合，基础数据为网站URL；

步骤b，对网站基础信息进行提取；

步骤c，对步骤b中提取到的所有信息进行量化；

步骤d，将各类特征值映射到同一量纲下的[0，1]区间；使用sklearn模块的normalize函数来实现，归一化特征向量FN_website；

步骤e，利用无监督聚类算法DBSCAN对数据集进行聚类，实现归属同一单位的网站聚类到同一网站集合下；

步骤f，输出所有网站归属的判定结果。

优选的：所述步骤b中对网站基础信息进行提取包括以下步骤：

步骤b1，网页基本信息提取；提取网页IP、域名、标题、KEYWORDS、版权、备案ID；

步骤b2，网站备案信息查询；通过工业和信息化部ICP/IP地址/域名信息备案管理系统或者站长之家网站查询网站的备案信息；

步骤b3，经过提取之后，该网站会形成由七类原始特征组成的原始特征向量FO_website，即IP、域名、标题、KEYWORDS、版权、备案ID和备案单位，其中，IP特征为点分十进制表示，域名特征为一组用点分隔的字符串，其他特征为文本特征。

优选的：步骤c中对提取到的所有信息进行量化包括以下步骤：

步骤c1，IP特征量化；对IP原始特征FO_ip进行计算，得到IP量化特征FQ_ip，计算公式为：

其中，w_ip为IP特征的权重，为四位的向量w_ip＝[1,3,5,7]，

为其每一位具体数值，FO_ip为点分十进制IP地址的按位数字表示，共四位数字，

为其每一位具体数值；

步骤c2，对域名进行预处理，将域名通过Mozilla Public Suffix List数据过滤掉域名中的公共后缀字符串，再将域名进行逆序反转，得到预处理域名特征向量FOP_domain；

将FOP_domain进行计算，得到域名量化特征FQ_domain，计算公式为：

其中，w_domain为域名特征的权重，具体为等差数列向量w_domain＝[1,2,3,,,]，

为其每一位具体数值，

为预处理域名特征向量FOP_domain的每一个字符，通过本算法实现域名越相似，计算后的域名量化特征值越相近；

步骤c3，文本特征量化；针对标题、KEYWORDS、版权、备案ID、备案单位五个文本特征进行特征量化，使用文本原始特征FO_text代表这些文本类特征的原始特征；

利用汉语分词系统ICTCLAS，对同批次网站的所有文本原始特征进行分词，得到分词库WSL，WSL＝[word₁,word₂,,,word_n]；

对文本原始特征FO_text依据分词对文本特征进行计算，如果特征中包含分词word_i，对应位的向量值w_i为1，否则为0，得到预处理文本特征FOP_text，其为n为的特征向量，每一位取值为0或1，计算公式如下：

FOP_text＝[w₁,w₂,,,w_n],w_i＝[0,1],i＝[1,2,,,n]，

将预处理文本特征FOP_text进行计算，得到文本量化特征FQ_text，计算公式为：

经过步骤c1至步骤c3三类特征的量化处理，得到该网站的量化特征向量FQ_website，

FQ_website＝[FQ_ip,FQ_domain,FQ_title,FQ_keywords,FQ_copyright,FQ_recordID,FQ_recordENTITY]，即IP、域名、标题、KEYWORDS、版权、备案ID和备案单位。

本发明与现有产品相比具有以下效果：

本发明面向网络资产探测领域中网站资产的归属单位判定问题，通过对网站的网页基本信息及备案信息进行量化特征提取，使用聚类分析算法，实现网站归属的自动化判定，有效提升归属判定准确率。

附图说明

图1是本发明所述的一种通过聚类算法判定互联网网站归属的方法的流程图；

具体实施方式

下面根据附图详细阐述本发明优选的实施方式。

具体实施方式1，如图1所示，本发明所述的一种通过聚类算法判定互联网网站归属的方法，其特征在于，包括以下步骤：

步骤b，对网站基础信息进行提取；

步骤c，对步骤b中提取到的所有信息进行量化；

FN_website＝[FN_ip,FN_domain,FN_title,FN_keywords,FN_copyright,FN_recordID,FN_recordENTITY]；

对输入的网站集合，通过上述步骤形成归一化特征向量集合，对集合使用DBSCAN算法进行聚类分析，形成任意形状的聚类簇，同一簇下的网站即归属同一单位。通过调整关键参数扫描半径Eps和最小包含点数MinPts对聚类效果进行调节，在本实施例中，Eps＝0.01，MinPts＝2，效果最佳。

步骤f，输出所有网站归属的判定结果。

进一步：所述步骤b中对网站基础信息进行提取包括以下步骤：

步骤b1，网页基本信息提取。提取网页IP、域名、标题、KEYWORDS、版权、备案ID等。大部分网站不是所有类别信息都能提取到，提取过程中应遵循能提取尽量提取的原则。

步骤b2，网站备案信息查询。通过工业和信息化部ICP/IP地址/域名信息备案管理系统或者站长之家等网站查询网站的备案信息，根据实践只有通过域名查询数据较为准确，因此只需对绑定域名的网站执行本步骤。

步骤b3，因获取数据过程使用通用的爬虫技术，本发明不进行详细描述，经过提取之后，该网站会形成由七类原始特征组成的原始特征向量FO_website，即IP、域名、标题、KEYWORDS、版权、备案ID、备案单位。对于大多数网站，这七类特征中某部分特征提取不到，用空字符串表示。

FO_website＝[FO_ip,FO_domain,FO_title,FO_keywords,FO_copyright,FO_recordID,FO_recordENTITY]

其中，IP特征为点分十进制表示，域名特征为一组用点分隔的字符串，其他特征为文本特征。

进一步：步骤c中对提取到的所有信息进行量化包括以下步骤：

步骤c1，IP特征量化。

对IP原始特征FO_ip进行如下计算，得到IP量化特征FQ_ip。

其中，w_ip为IP特征的权重，为四位的向量w_ip＝[1,3,5,7]，

为其每一位具体数值。FO_ip为点分十进制IP地址的按位数字表示，共四位数字，

为其每一位具体数值。通过本算法实现IP地址越相邻，计算后的IP量化特征值越相近。

步骤c2，域名特征量化。

先对域名进行预处理，将域名通过Mozilla Public Suffix List数据过滤掉域名中的公共后缀字符串，再将域名进行逆序反转，得到预处理域名特征向量FOP_domain。

将FOP_domain进行如下计算，得到域名量化特征FQ_domain。

为其每一位具体数值。

为预处理域名特征向量FOP_domain的每一个字符。通过本算法实现域名越相似，计算后的域名量化特征值越相近。

步骤c3，文本特征量化。针对标题、KEYWORDS、版权、备案ID、备案单位这五位文本特征都采用如下方法进行特征量化，因为这些特征使用相同的两个特征方法，使用文本原始特征FO_text代表这些文本类特征的原始特征。

首先利用北京理工大学张华平博士的汉语分词系统ICTCLAS，对这批网站的所有文本原始特征进行分词，得到分词库WSL，WSL＝[word₁,word₂,,,word_n]。

对文本原始特征FO_text依据分词对文本特征进行如下计算，如果特征中包含分词word_i，对应位的向量值w_i为1，否则为0。得到预处理文本特征FOP_text，其为n为的特征向量，每一位取值为0或1，具体如下：

FOP_text＝[w₁,w₂,,,w_n],w_i＝[0,1],i＝[1,2,,,n]

将预处理文本特征FOP_text进行如下计算，得到文本量化特征FQ_text。

经过以上三类特征的量化处理，得到该网站的量化特征向量FQ_website

本实施方式只是对本专利的示例性说明，并不限定它的保护范围，本领域技术人员还可以对其局部进行改变，只要没有超出本专利的精神实质，都在本专利的保护范围内。

Claims

1.一种通过聚类算法判定互联网网站归属的方法，其特征在于，包括以下步骤：

步骤b，对网站基础信息进行提取；

步骤c，对步骤二中提取到的所有信息进行量化；

步骤f，输出所有网站归属的判定结果。

2.根据权利要求1所述的一种通过聚类算法判定互联网网站归属的方法，其特征在于，所述步骤b中对网站基础信息进行提取包括以下步骤：

3.根据权利要求1所述的一种通过聚类算法判定互联网网站归属的方法，其特征在于，所述步骤c中对提取到的所有信息进行量化包括以下步骤：

其中，w_ip为IP特征的权重，为四位的向量w_ip＝[1,3,5,7]，

为其每一位具体数值；

为其每一位具体数值，

FOP_text＝[w₁,w₂,,,w_n],w_i＝[0,1],i＝[1,2,,,n]，