CN112818278B

CN112818278B - 互联网托管网站的排查方法及排查系统

Info

Publication number: CN112818278B
Application number: CN202110167225.6A
Authority: CN
Inventors: 孙毅臻; 曹琳婧; 高隽; 田建伟; 田峥; 陈中伟; 黎曦
Original assignee: State Grid Corp of China SGCC; State Grid Hunan Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Hunan Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Hunan Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Hunan Electric Power Co Ltd
Priority date: 2021-02-07
Filing date: 2021-02-07
Publication date: 2022-06-03
Anticipated expiration: 2041-02-07
Also published as: CN112818278A

Abstract

本发明公开了一种互联网托管网站的排查方法，包括对网站内容进行数据采集；对数据进行关键字识别和图像识别；进行互联网托管网站排查。本发明还公开了一种实现所述互联网托管网站的排查方法的排查系统。本发明利用网络爬虫技术采集互联网业务内容信息，利用关键字识别和图像识别，实现了互联网违规托管业务的有效排查，并提出了相关装置实现方式，有效解决了企业安全防护工作中面临的重要数据及涉密数据泄露难以发现等问题，增强安全防护水平，而且可靠性高、效率高且稳定性好。

Description

互联网托管网站的排查方法及排查系统

技术领域

本发明属于网络安全技术领域，具体涉及一种互联网托管网站的排查方法及排查系统。

背景技术

随着经济技术的发展和人们生活水平的提高，企业信息化建设需求不断提升，企业网站应用开发不断提升。互联网托管网站即托管于公有云等互联网上的网站，这类网站未纳入企业网络安全防护体系，易被攻击者入侵获取控制权限，引发核心数据被窃取、网页被篡改等重大网络安全事件。对于关键信息基础设施及网络安全防护要求高的单位、企业，网站业务一般部署于企业内部网络，不允许托管于互联网，互联网托管网站排查的需求迫切。而当前互联网托管网站排查的主要手段以互联网资产扫描，结合对扫描的疑似网站人工识别排查为主，互联网资产扫描主要通过IP及端口扫描工具，对互联网进行全网扫描，存在扫描范围过大、排查耗时太长的问题；人工识别存在工作量过大、效率低、识别不精准的问题。

发明内容

本发明的目的之一在于提供一种可靠性高、效率高且稳定性好的互联网托管网站的排查方法。

本发明的目的之二在于提供一种实现所述互联网托管网站的排查方法的排查系统。

本发明提供的这种互联网托管网站的排查方法，包括如下步骤：

S1. 对网站内容进行数据采集；

S2. 对步骤S1采集的数据进行关键字识别和图像识别；

S3. 根据步骤S2得到的关键字和图像识别结果，进行互联网托管网站排查。

步骤S1所述的对网站内容进行数据采集，具体为采用网络爬虫的方式，对疑似为互联网托管网站的内容进行采集，包括主动爬取和流量复现的方式进行收集。

所述的主动爬取，具体为利用网络空间引擎，搜索企业网站关键字，通过对搜索查询结果进行解析，获取疑似为互联网托管网站的域名和IP信息，再通过模拟浏览器访问所收集到的域名和IP信息，从而进行内容采集；搜索的网络空间引擎主要包括FOFA、Shodan和ZoomEye，其中FOFA通过解析页面dom信息获取关键字识别结果内容；Shodan通过引擎的查询插件获取关键字查询到的内容信息；ZoomEye通过注册账号，模拟浏览器登录并获取登录后的token信息，在关键字查询中附加token执行内容进行查询；最后，将搜索结果批量保存到数据库中。

所述的主动爬取，具体为采用多线程执行，提高执行速度，在获取到所有关键字相关域名和IP信息后，多线程执行首页图片下载，并返回搜索结果，从而保证查询的时效性。

所述的流量复现，具体包括访问疑似互联网托管网站的日志信息获取流程和流量复现流程：

日志信息获取流程：通过对企业访问互联网流量日志获取完整的日志数据，并对获取的日志数据中的五元组信息进行过滤，所述的五元组信息包括访问源IP，源端口，目的IP，目的端口和访问内容；过滤规则为建立访问疑似互联网托管网站的流量特征，根据登录行为、cookie变化、返回状态码等进行过滤，再删除重复信息，从而得到需要复现的疑似互联网托管网站域名和IP信息；

流量复现流程：模拟浏览器访问需要复现的疑似互联网托管网站域名和IP信息，利用多线程方式对访问操作进行并发处理，提高处理效率和速度；将多线程处理加入到后台任务框架中运行，保证程序执行的完整性；同时，对疑似互联网托管网站的文本内容和图片内容进行下载。

步骤S2所述的关键字识别，具体为采用文字匹配技术，将获取的网站文本数据与设定的关键字进行匹配，同时关键字识别由后台定时执行；使用模拟浏览器访问地址，每一个访问的地址均为在保证页面脚本执行完全后再获取网页内容，通过匹配内容关键字，合并在一个地址中可能出现的若干个关键字内容；匹配程序使用多线程方式执行，从而提高执行效率。

步骤S2所述的图像识别，具体为采用Sift算法对图片内容实现特征匹配，从而识别是否为企业相关图片，进而判断是否为互联网托管网站。

所述的Sift算法，具体包括如下步骤：

A. 提取关键点：通过高斯微分函数识别潜在的具有尺度和旋转不变特性的关键点；

B. 定位关键点并确定特征方向；

C. 通过各关键点的特征向量，进行两两比较找出相互匹配的若干对特征点，建立景物间的对应关系。

本发明还提供了一种实现所述互联网托管网站的排查方法的排查系统，包括数据采集层、数据处理层、数据资源层、数据分析处理层和业务模块层；数据采集层、数据处理层、数据资源层、数据分析处理层和业务模块层依次串接；数据采集层用于获取基础数据，通过数据分析处理层的处理后再取得网站地址，并进行主动爬取和流量复现；数据处理层用于在主动爬取的过程中进行数据过滤和处理；数据资源层用于进行数据的存储；数据分析处理层用于对数据进行数据过滤，模拟访问和流量复现，从而收集访问内容并进行关键字识别和图像识别；最后，还对业务模块层提供数据接口；业务模块层用于搜索和查询，以及提供用户接口。

本发明提供的这种互联网托管网站的排查方法及排查系统，利用网络爬虫技术采集互联网业务内容信息，利用关键字识别和图像识别，实现了互联网违规托管业务的有效排查，并提出了相关装置实现方式，有效解决了企业安全防护工作中面临的重要数据及涉密数据泄露难以发现等问题，增强安全防护水平，而且可靠性高、效率高且稳定性好。

附图说明

图1为本发明方法的方法流程示意图。

图2为本发明系统的系统功能模块图。

具体实施方式

如图1所示为本发明方法的方法流程示意图：本发明提供的这种互联网托管网站的排查方法，包括如下步骤：

S1. 对网站内容进行数据采集；具体为网络爬虫的方式，对疑似为互联网托管网站的内容采用主动爬取和流量复现的方式进行数据采集；

主动爬取，具体为利用网络空间引擎，搜索企业网站相关关键字，通过对搜索查询结果进行进行解析，获取疑似为互联网托管网站的域名、IP信息，再通过模拟浏览器访问的收集的域名、IP进行内容采集；搜索的网络空间引擎主要包括FOFA、Shodan、ZoomEye，其中FOFA通过解析页面dom信息获取关键字识别结果内容；Shodan通过引擎的查询插件获取关键字查询到的内容信息；ZoomEye通过注册账号，模拟浏览器登录获取登录后的token信息，在关键字查询中附加token执行内容查询；最后，将搜索结果批量保存到数据库中；

具体实施时，采用多线程执行，提高执行速度，在获取到所有关键字相关域名、IP信息后，多线程执行首页图片下载，并返回搜索结果，从而保证查询的时效性；

流量复现，通过复现企业内部终端用户访问外部网站流量，对流量中URI、Referer字段筛选后，选取可疑网站页面进行爬取；具体包括日志信息获取流程和流量复现流程：

日志信息获取流程：通过对企业访问互联网流量日志获取完整的日志数据，并对获取的日志数据中的五元组信息（访问源IP，源端口，目的IP，目的端口，访问内容）进行过滤，过滤规则为建立访问疑似互联网托管网站的流量特征，根据登录行为、cookie变化、返回状态码等进行过滤，再删除重复信息，从而得到需要复现的疑似互联网托管网站域名、IP信息；

流量复现流程：模拟浏览器访问需要复现的疑似互联网托管网站域名、IP信息，利用多线程方式对访问操作进行并发处理，提高处理效率和速度；将多线程处理加入到后台任务框架中运行，保证程序执行的完整性；同时，对疑似互联网托管网站的文本内容和图片内容进行下载；

S2. 对步骤S1采集的数据进行关键字识别和图像识别；具体为采用文字匹配技术，将获取的数据与设定的关键字进行匹配，同时关键字识别由后台定时执行；使用selenium模拟浏览器访问地址，每一个访问的地址均为在保证页面脚本执行完全后再获取网页内容，通过匹配内容关键字，合并在一个地址中可能出现的多个关键字内容；识别程序使用多线程方式执行，从而提高执行效率；

具体实施时，图像识别采用Sift算法对图片内容实现特征匹配，从而识别是否为企业相关图片，如LOGO等企业标志图片，进而判断是否为互联网托管网站：

B. 定位关键点并确定特征方向；

C. 通过各关键点的特征向量，进行两两比较找出相互匹配的若干对特征点，建立景物间的对应关系；

如图2所示为本发明系统的系统功能模块图：本发明还提供了一种实现所述互联网托管网站的排查方法的排查系统，包括数据采集层、数据处理层、数据资源层、数据分析处理层和业务模块层；数据采集层、数据处理层、数据资源层、数据分析处理层和业务模块层依次串接；

数据采集层用于获取基础数据，通过数据分析处理层的处理后再取得相关网站地址，并进行主动爬取和流量复现；具体实施时，由网络空间引擎和边界流量监测设备获取初步数据，通过数据分析处理层的处理后，可进一步取得相关网站地址，最终结合网络爬虫技术下载网站文本及图像等内容，完成数据收集工作；

数据处理层用于在主动爬取的过程中进行数据过滤和处理，如标识、关联分析、归并等；

数据资源层用于进行数据的存储，具体包括爬取的网站内容、数据分析处理结果等；

数据分析处理层用于对数据进行数据过滤，模拟访问和流量复现，从而收集访问内容并进行关键字识别和图像识别；最后，还对业务模块层提供数据接口；具体实施时，对边界流量监测设备的接入数据进行过滤，根据符合特定要求的日志数据进行模拟访问，收集能够访问成功的网页内容，然后对文本信息进行关键字识别、图片信息识别；对于网络空间引擎方式直接爬取的网页内容也是采用上述同样的内容识别进行处理；同时，向业务层提供访问数据的接口；

业务模块层用于搜索和查询，以及提供用户接口；具体实施时，主要包含安全空间引擎搜索与查询、日志核查任务配置管理与查询、核查结果统计、IP地区维护管理等功能模块。

Claims

1.一种互联网托管网站的排查方法，包括如下步骤：

S1. 对网站内容进行数据采集；具体为采用网络爬虫的方式，对疑似为互联网托管网站的内容进行采集，包括主动爬取和流量复现的方式进行收集；

所述的主动爬取，具体为利用网络空间引擎，搜索企业网站关键字，通过对搜索查询结果进行解析，获取疑似为互联网托管网站的域名和IP信息，再通过模拟浏览器访问所收集到的域名和IP信息，从而进行内容采集；搜索的网络空间引擎主要包括FOFA、Shodan和ZoomEye，其中FOFA通过解析页面dom信息获取关键字识别结果内容；Shodan通过引擎的查询插件获取关键字查询到的内容信息；ZoomEye通过注册账号，模拟浏览器登录并获取登录后的token信息，在关键字查询中附加token执行内容进行查询；最后，将搜索结果批量保存到数据库中；

主动爬取采用多线程执行，提高执行速度，在获取到所有关键字相关域名和IP信息后，多线程执行首页图片下载，并返回搜索结果，从而保证查询的时效性；

日志信息获取流程：通过对企业访问互联网流量日志获取完整的日志数据，并对获取的日志数据中的五元组信息进行过滤，所述的五元组信息包括访问源IP，源端口，目的IP，目的端口和访问内容；过滤规则为建立访问疑似互联网托管网站的流量特征并进行过滤，再删除重复信息，从而得到需要复现的疑似互联网托管网站域名和IP信息；

流量复现流程：模拟浏览器访问需要复现的疑似互联网托管网站域名和IP信息，利用多线程方式对访问操作进行并发处理，提高处理效率和速度；将多线程处理加入到后台任务框架中运行，保证程序执行的完整性；同时，对疑似互联网托管网站的文本内容和图片内容进行下载；

S2. 对步骤S1采集的数据进行关键字识别和图像识别；

2.根据权利要求1所述的互联网托管网站的排查方法，其特征在于步骤S2所述的关键字识别，具体为采用文字匹配技术，将获取的网站文本数据与设定的关键字进行匹配，同时关键字识别由后台定时执行；使用模拟浏览器访问地址，每一个访问的地址均为在保证页面脚本执行完全后再获取网页内容，通过匹配内容关键字，合并在一个地址中可能出现的若干个关键字内容；匹配程序使用多线程方式执行，从而提高执行效率。

3.根据权利要求2所述的互联网托管网站的排查方法，其特征在于步骤S2所述的图像识别，具体为采用Sift算法对图片内容实现特征匹配，从而识别是否为企业相关图片，进而判断是否为互联网托管网站。

4.根据权利要求3所述的互联网托管网站的排查方法，其特征在于所述的Sift算法，具体包括如下步骤：

B. 定位关键点并确定特征方向；

5.一种实现权利要求1~4之一所述的互联网托管网站的排查方法的排查系统，其特征在于包括数据采集层、数据处理层、数据资源层、数据分析处理层和业务模块层；数据采集层、数据处理层、数据资源层、数据分析处理层和业务模块层依次串接；数据采集层用于获取基础数据，通过数据分析处理层的处理后再取得网站地址，并进行主动爬取和流量复现；数据处理层用于在主动爬取的过程中进行数据过滤和处理；数据资源层用于进行数据的存储；数据分析处理层用于对数据进行数据过滤，模拟访问和流量复现，从而收集访问内容并进行关键字识别和图像识别；最后，还对业务模块层提供数据接口；业务模块层用于搜索和查询，以及提供用户接口。