CN112818278B - 互联网托管网站的排查方法及排查系统 - Google Patents

互联网托管网站的排查方法及排查系统 Download PDF

Info

Publication number
CN112818278B
CN112818278B CN202110167225.6A CN202110167225A CN112818278B CN 112818278 B CN112818278 B CN 112818278B CN 202110167225 A CN202110167225 A CN 202110167225A CN 112818278 B CN112818278 B CN 112818278B
Authority
CN
China
Prior art keywords
data
website
content
internet
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110167225.6A
Other languages
English (en)
Other versions
CN112818278A (zh
Inventor
孙毅臻
曹琳婧
高隽
田建伟
田峥
陈中伟
黎曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Hunan Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Hunan Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Hunan Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Hunan Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Hunan Electric Power Co Ltd, Information and Telecommunication Branch of State Grid Hunan Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202110167225.6A priority Critical patent/CN112818278B/zh
Publication of CN112818278A publication Critical patent/CN112818278A/zh
Application granted granted Critical
Publication of CN112818278B publication Critical patent/CN112818278B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种互联网托管网站的排查方法,包括对网站内容进行数据采集;对数据进行关键字识别和图像识别;进行互联网托管网站排查。本发明还公开了一种实现所述互联网托管网站的排查方法的排查系统。本发明利用网络爬虫技术采集互联网业务内容信息,利用关键字识别和图像识别,实现了互联网违规托管业务的有效排查,并提出了相关装置实现方式,有效解决了企业安全防护工作中面临的重要数据及涉密数据泄露难以发现等问题,增强安全防护水平,而且可靠性高、效率高且稳定性好。

Description

互联网托管网站的排查方法及排查系统
技术领域
本发明属于网络安全技术领域,具体涉及一种互联网托管网站的排查方法及排查系统。
背景技术
随着经济技术的发展和人们生活水平的提高,企业信息化建设需求不断提升,企业网站应用开发不断提升。互联网托管网站即托管于公有云等互联网上的网站,这类网站未纳入企业网络安全防护体系,易被攻击者入侵获取控制权限,引发核心数据被窃取、网页被篡改等重大网络安全事件。对于关键信息基础设施及网络安全防护要求高的单位、企业,网站业务一般部署于企业内部网络,不允许托管于互联网,互联网托管网站排查的需求迫切。而当前互联网托管网站排查的主要手段以互联网资产扫描,结合对扫描的疑似网站人工识别排查为主,互联网资产扫描主要通过IP及端口扫描工具,对互联网进行全网扫描,存在扫描范围过大、排查耗时太长的问题;人工识别存在工作量过大、效率低、识别不精准的问题。
发明内容
本发明的目的之一在于提供一种可靠性高、效率高且稳定性好的互联网托管网站的排查方法。
本发明的目的之二在于提供一种实现所述互联网托管网站的排查方法的排查系统。
本发明提供的这种互联网托管网站的排查方法,包括如下步骤:
S1. 对网站内容进行数据采集;
S2. 对步骤S1采集的数据进行关键字识别和图像识别;
S3. 根据步骤S2得到的关键字和图像识别结果,进行互联网托管网站排查。
步骤S1所述的对网站内容进行数据采集,具体为采用网络爬虫的方式,对疑似为互联网托管网站的内容进行采集,包括主动爬取和流量复现的方式进行收集。
所述的主动爬取,具体为利用网络空间引擎,搜索企业网站关键字,通过对搜索查询结果进行解析,获取疑似为互联网托管网站的域名和IP信息,再通过模拟浏览器访问所收集到的域名和IP信息,从而进行内容采集;搜索的网络空间引擎主要包括FOFA、Shodan和ZoomEye,其中FOFA通过解析页面dom信息获取关键字识别结果内容;Shodan通过引擎的查询插件获取关键字查询到的内容信息;ZoomEye通过注册账号,模拟浏览器登录并获取登录后的token信息,在关键字查询中附加token执行内容进行查询;最后,将搜索结果批量保存到数据库中。
所述的主动爬取,具体为采用多线程执行,提高执行速度,在获取到所有关键字相关域名和IP信息后,多线程执行首页图片下载,并返回搜索结果,从而保证查询的时效性。
所述的流量复现,具体包括访问疑似互联网托管网站的日志信息获取流程和流量复现流程:
日志信息获取流程:通过对企业访问互联网流量日志获取完整的日志数据,并对获取的日志数据中的五元组信息进行过滤,所述的五元组信息包括访问源IP,源端口,目的IP,目的端口和访问内容;过滤规则为建立访问疑似互联网托管网站的流量特征,根据登录行为、cookie变化、返回状态码等进行过滤,再删除重复信息,从而得到需要复现的疑似互联网托管网站域名和IP信息;
流量复现流程:模拟浏览器访问需要复现的疑似互联网托管网站域名和IP信息,利用多线程方式对访问操作进行并发处理,提高处理效率和速度;将多线程处理加入到后台任务框架中运行,保证程序执行的完整性;同时,对疑似互联网托管网站的文本内容和图片内容进行下载。
步骤S2所述的关键字识别,具体为采用文字匹配技术,将获取的网站文本数据与设定的关键字进行匹配,同时关键字识别由后台定时执行;使用模拟浏览器访问地址,每一个访问的地址均为在保证页面脚本执行完全后再获取网页内容,通过匹配内容关键字,合并在一个地址中可能出现的若干个关键字内容;匹配程序使用多线程方式执行,从而提高执行效率。
步骤S2所述的图像识别,具体为采用Sift算法对图片内容实现特征匹配,从而识别是否为企业相关图片,进而判断是否为互联网托管网站。
所述的Sift算法,具体包括如下步骤:
A. 提取关键点:通过高斯微分函数识别潜在的具有尺度和旋转不变特性的关键点;
B. 定位关键点并确定特征方向;
C. 通过各关键点的特征向量,进行两两比较找出相互匹配的若干对特征点,建立景物间的对应关系。
本发明还提供了一种实现所述互联网托管网站的排查方法的排查系统,包括数据采集层、数据处理层、数据资源层、数据分析处理层和业务模块层;数据采集层、数据处理层、数据资源层、数据分析处理层和业务模块层依次串接;数据采集层用于获取基础数据,通过数据分析处理层的处理后再取得网站地址,并进行主动爬取和流量复现;数据处理层用于在主动爬取的过程中进行数据过滤和处理;数据资源层用于进行数据的存储;数据分析处理层用于对数据进行数据过滤,模拟访问和流量复现,从而收集访问内容并进行关键字识别和图像识别;最后,还对业务模块层提供数据接口;业务模块层用于搜索和查询,以及提供用户接口。
本发明提供的这种互联网托管网站的排查方法及排查系统,利用网络爬虫技术采集互联网业务内容信息,利用关键字识别和图像识别,实现了互联网违规托管业务的有效排查,并提出了相关装置实现方式,有效解决了企业安全防护工作中面临的重要数据及涉密数据泄露难以发现等问题,增强安全防护水平,而且可靠性高、效率高且稳定性好。
附图说明
图1为本发明方法的方法流程示意图。
图2为本发明系统的系统功能模块图。
具体实施方式
如图1所示为本发明方法的方法流程示意图:本发明提供的这种互联网托管网站的排查方法,包括如下步骤:
S1. 对网站内容进行数据采集;具体为网络爬虫的方式,对疑似为互联网托管网站的内容采用主动爬取和流量复现的方式进行数据采集;
主动爬取,具体为利用网络空间引擎,搜索企业网站相关关键字,通过对搜索查询结果进行进行解析,获取疑似为互联网托管网站的域名、IP信息,再通过模拟浏览器访问的收集的域名、IP进行内容采集;搜索的网络空间引擎主要包括FOFA、Shodan、ZoomEye,其中FOFA通过解析页面dom信息获取关键字识别结果内容;Shodan通过引擎的查询插件获取关键字查询到的内容信息;ZoomEye通过注册账号,模拟浏览器登录获取登录后的token信息,在关键字查询中附加token执行内容查询;最后,将搜索结果批量保存到数据库中;
具体实施时,采用多线程执行,提高执行速度,在获取到所有关键字相关域名、IP信息后,多线程执行首页图片下载,并返回搜索结果,从而保证查询的时效性;
流量复现,通过复现企业内部终端用户访问外部网站流量,对流量中URI、Referer字段筛选后,选取可疑网站页面进行爬取;具体包括日志信息获取流程和流量复现流程:
日志信息获取流程:通过对企业访问互联网流量日志获取完整的日志数据,并对获取的日志数据中的五元组信息(访问源IP,源端口,目的IP,目的端口,访问内容)进行过滤,过滤规则为建立访问疑似互联网托管网站的流量特征,根据登录行为、cookie变化、返回状态码等进行过滤,再删除重复信息,从而得到需要复现的疑似互联网托管网站域名、IP信息;
流量复现流程:模拟浏览器访问需要复现的疑似互联网托管网站域名、IP信息,利用多线程方式对访问操作进行并发处理,提高处理效率和速度;将多线程处理加入到后台任务框架中运行,保证程序执行的完整性;同时,对疑似互联网托管网站的文本内容和图片内容进行下载;
S2. 对步骤S1采集的数据进行关键字识别和图像识别;具体为采用文字匹配技术,将获取的数据与设定的关键字进行匹配,同时关键字识别由后台定时执行;使用selenium模拟浏览器访问地址,每一个访问的地址均为在保证页面脚本执行完全后再获取网页内容,通过匹配内容关键字,合并在一个地址中可能出现的多个关键字内容;识别程序使用多线程方式执行,从而提高执行效率;
具体实施时,图像识别采用Sift算法对图片内容实现特征匹配,从而识别是否为企业相关图片,如LOGO等企业标志图片,进而判断是否为互联网托管网站:
A. 提取关键点:通过高斯微分函数识别潜在的具有尺度和旋转不变特性的关键点;
B. 定位关键点并确定特征方向;
C. 通过各关键点的特征向量,进行两两比较找出相互匹配的若干对特征点,建立景物间的对应关系;
S3. 根据步骤S2得到的关键字和图像识别结果,进行互联网托管网站排查。
如图2所示为本发明系统的系统功能模块图:本发明还提供了一种实现所述互联网托管网站的排查方法的排查系统,包括数据采集层、数据处理层、数据资源层、数据分析处理层和业务模块层;数据采集层、数据处理层、数据资源层、数据分析处理层和业务模块层依次串接;
数据采集层用于获取基础数据,通过数据分析处理层的处理后再取得相关网站地址,并进行主动爬取和流量复现;具体实施时,由网络空间引擎和边界流量监测设备获取初步数据,通过数据分析处理层的处理后,可进一步取得相关网站地址,最终结合网络爬虫技术下载网站文本及图像等内容,完成数据收集工作;
数据处理层用于在主动爬取的过程中进行数据过滤和处理,如标识、关联分析、归并等;
数据资源层用于进行数据的存储,具体包括爬取的网站内容、数据分析处理结果等;
数据分析处理层用于对数据进行数据过滤,模拟访问和流量复现,从而收集访问内容并进行关键字识别和图像识别;最后,还对业务模块层提供数据接口;具体实施时,对边界流量监测设备的接入数据进行过滤,根据符合特定要求的日志数据进行模拟访问,收集能够访问成功的网页内容,然后对文本信息进行关键字识别、图片信息识别;对于网络空间引擎方式直接爬取的网页内容也是采用上述同样的内容识别进行处理;同时,向业务层提供访问数据的接口;
业务模块层用于搜索和查询,以及提供用户接口;具体实施时,主要包含安全空间引擎搜索与查询、日志核查任务配置管理与查询、核查结果统计、IP地区维护管理等功能模块。

Claims (5)

1.一种互联网托管网站的排查方法,包括如下步骤:
S1. 对网站内容进行数据采集;具体为采用网络爬虫的方式,对疑似为互联网托管网站的内容进行采集,包括主动爬取和流量复现的方式进行收集;
所述的主动爬取,具体为利用网络空间引擎,搜索企业网站关键字,通过对搜索查询结果进行解析,获取疑似为互联网托管网站的域名和IP信息,再通过模拟浏览器访问所收集到的域名和IP信息,从而进行内容采集;搜索的网络空间引擎主要包括FOFA、Shodan和ZoomEye,其中FOFA通过解析页面dom信息获取关键字识别结果内容;Shodan通过引擎的查询插件获取关键字查询到的内容信息;ZoomEye通过注册账号,模拟浏览器登录并获取登录后的token信息,在关键字查询中附加token执行内容进行查询;最后,将搜索结果批量保存到数据库中;
主动爬取采用多线程执行,提高执行速度,在获取到所有关键字相关域名和IP信息后,多线程执行首页图片下载,并返回搜索结果,从而保证查询的时效性;
所述的流量复现,具体包括访问疑似互联网托管网站的日志信息获取流程和流量复现流程:
日志信息获取流程:通过对企业访问互联网流量日志获取完整的日志数据,并对获取的日志数据中的五元组信息进行过滤,所述的五元组信息包括访问源IP,源端口,目的IP,目的端口和访问内容;过滤规则为建立访问疑似互联网托管网站的流量特征并进行过滤,再删除重复信息,从而得到需要复现的疑似互联网托管网站域名和IP信息;
流量复现流程:模拟浏览器访问需要复现的疑似互联网托管网站域名和IP信息,利用多线程方式对访问操作进行并发处理,提高处理效率和速度;将多线程处理加入到后台任务框架中运行,保证程序执行的完整性;同时,对疑似互联网托管网站的文本内容和图片内容进行下载;
S2. 对步骤S1采集的数据进行关键字识别和图像识别;
S3. 根据步骤S2得到的关键字和图像识别结果,进行互联网托管网站排查。
2.根据权利要求1所述的互联网托管网站的排查方法,其特征在于步骤S2所述的关键字识别,具体为采用文字匹配技术,将获取的网站文本数据与设定的关键字进行匹配,同时关键字识别由后台定时执行;使用模拟浏览器访问地址,每一个访问的地址均为在保证页面脚本执行完全后再获取网页内容,通过匹配内容关键字,合并在一个地址中可能出现的若干个关键字内容;匹配程序使用多线程方式执行,从而提高执行效率。
3.根据权利要求2所述的互联网托管网站的排查方法,其特征在于步骤S2所述的图像识别,具体为采用Sift算法对图片内容实现特征匹配,从而识别是否为企业相关图片,进而判断是否为互联网托管网站。
4.根据权利要求3所述的互联网托管网站的排查方法,其特征在于所述的Sift算法,具体包括如下步骤:
A. 提取关键点:通过高斯微分函数识别潜在的具有尺度和旋转不变特性的关键点;
B. 定位关键点并确定特征方向;
C. 通过各关键点的特征向量,进行两两比较找出相互匹配的若干对特征点,建立景物间的对应关系。
5.一种实现权利要求1~4之一所述的互联网托管网站的排查方法的排查系统,其特征在于包括数据采集层、数据处理层、数据资源层、数据分析处理层和业务模块层;数据采集层、数据处理层、数据资源层、数据分析处理层和业务模块层依次串接;数据采集层用于获取基础数据,通过数据分析处理层的处理后再取得网站地址,并进行主动爬取和流量复现;数据处理层用于在主动爬取的过程中进行数据过滤和处理;数据资源层用于进行数据的存储;数据分析处理层用于对数据进行数据过滤,模拟访问和流量复现,从而收集访问内容并进行关键字识别和图像识别;最后,还对业务模块层提供数据接口;业务模块层用于搜索和查询,以及提供用户接口。
CN202110167225.6A 2021-02-07 2021-02-07 互联网托管网站的排查方法及排查系统 Active CN112818278B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110167225.6A CN112818278B (zh) 2021-02-07 2021-02-07 互联网托管网站的排查方法及排查系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110167225.6A CN112818278B (zh) 2021-02-07 2021-02-07 互联网托管网站的排查方法及排查系统

Publications (2)

Publication Number Publication Date
CN112818278A CN112818278A (zh) 2021-05-18
CN112818278B true CN112818278B (zh) 2022-06-03

Family

ID=75862074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110167225.6A Active CN112818278B (zh) 2021-02-07 2021-02-07 互联网托管网站的排查方法及排查系统

Country Status (1)

Country Link
CN (1) CN112818278B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107454076A (zh) * 2017-08-01 2017-12-08 北京亚鸿世纪科技发展有限公司 一种网站画像方法
CN109271790A (zh) * 2018-09-30 2019-01-25 国网湖南省电力有限公司 一种基于流量分析的恶意站点访问拦截方法及检测系统
CN109690547A (zh) * 2016-07-11 2019-04-26 比特梵德知识产权管理有限公司 用于检测在线欺诈的系统和方法
CN109815394A (zh) * 2018-12-26 2019-05-28 北京博鳌纵横网络科技有限公司 一种知识产权托管系统
CN110572402A (zh) * 2019-09-11 2019-12-13 国网湖南省电力有限公司 基于网络访问行为分析的互联网托管网站检测方法、系统和可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140095427A1 (en) * 2012-10-01 2014-04-03 Rimm-Kaufman Group, LLC Seo results analysis based on first order data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109690547A (zh) * 2016-07-11 2019-04-26 比特梵德知识产权管理有限公司 用于检测在线欺诈的系统和方法
CN107454076A (zh) * 2017-08-01 2017-12-08 北京亚鸿世纪科技发展有限公司 一种网站画像方法
CN109271790A (zh) * 2018-09-30 2019-01-25 国网湖南省电力有限公司 一种基于流量分析的恶意站点访问拦截方法及检测系统
CN109815394A (zh) * 2018-12-26 2019-05-28 北京博鳌纵横网络科技有限公司 一种知识产权托管系统
CN110572402A (zh) * 2019-09-11 2019-12-13 国网湖南省电力有限公司 基于网络访问行为分析的互联网托管网站检测方法、系统和可读存储介质

Also Published As

Publication number Publication date
CN112818278A (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
CN103888490B (zh) 一种全自动的web客户端人机识别的方法
CN106095979B (zh) Url合并处理方法和装置
CN109104456A (zh) 一种基于浏览器指纹的用户追踪与传播统计分析方法
CN109905288B (zh) 一种应用服务分类方法及装置
CN102436564A (zh) 一种识别被篡改网页的方法及装置
CN107943838B (zh) 一种自动获取xpath生成爬虫脚本的方法及系统
CN108768921B (zh) 一种基于特征检测的恶意网页发现方法及系统
CN111104579A (zh) 一种公网资产的识别方法、装置及存储介质
CN102065147A (zh) 一种基于企业应用系统获取用户登录信息的方法及装置
CN112822147B (zh) 一种用于分析攻击链的方法、系统及设备
CN107590236B (zh) 一种面向建筑施工企业的大数据采集方法和系统
Rizzo et al. Unveiling web fingerprinting in the wild via code mining and machine learning
CN112989348B (zh) 攻击检测方法、模型训练方法、装置、服务器及存储介质
CN103067387B (zh) 一种反钓鱼监测系统和方法
CN114244564B (zh) 攻击防御方法、装置、设备及可读存储介质
CN115134099B (zh) 基于全流量的网络攻击行为分析方法及装置
CN111859234A (zh) 一种非法内容识别方法、装置、电子设备及存储介质
WO2017063274A1 (zh) 一种恶意跳转及恶意嵌套类不良网站的自动判定方法
CN114915479A (zh) 一种基于Web日志的Web攻击阶段分析方法及系统
CN111625837B (zh) 识别系统漏洞的方法、装置和服务器
CN113032655A (zh) 一种暗网电子数据提取固定方法
CN110020161B (zh) 数据处理方法、日志处理方法和终端
CN108270754B (zh) 一种钓鱼网站的检测方法及装置
US20210092144A1 (en) Http log integration to web application testing
CN107566371B (zh) 一种面向海量日志的WebShell挖掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant