CN114513356A - 一种镜像流量下基于Path相似度的同类型网站发现方法 - Google Patents

一种镜像流量下基于Path相似度的同类型网站发现方法 Download PDF

Info

Publication number
CN114513356A
CN114513356A CN202210137473.0A CN202210137473A CN114513356A CN 114513356 A CN114513356 A CN 114513356A CN 202210137473 A CN202210137473 A CN 202210137473A CN 114513356 A CN114513356 A CN 114513356A
Authority
CN
China
Prior art keywords
path
websites
website
data
flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210137473.0A
Other languages
English (en)
Inventor
王海鹰
石兴
宋文超
李旭东
贺辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yuewei Science And Technology Co ltd
Original Assignee
Shanghai Yuewei Science And Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yuewei Science And Technology Co ltd filed Critical Shanghai Yuewei Science And Technology Co ltd
Priority to CN202210137473.0A priority Critical patent/CN114513356A/zh
Publication of CN114513356A publication Critical patent/CN114513356A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种镜像流量下基于Path相似度的同类型网站发现方法,包括以下步骤:步骤一:流量数据过滤模块根据http协议原始数据的一些关键信息进行过滤,步骤二:对于过滤之后的流量数据再进行网站path特征数据的提取及积累,随后经过大数据计算框架的Map及Reduce流程处理之后,最终得到的就是每个网站host及其对应的path路径集合,步骤三:path特征提取出来之后实时与正样本path特征库中的数据做比对,该发明用于从海量流量数据中快速发现与正样本网站同类型、同模板的网站,可以用于发现新的诈骗网站,任务分布式执行,对处理海量数据的支持比较好,path相似算法识别的准确度较高,系统以实时流模式运行,可以实时的识别出流量中的同类网站。

Description

一种镜像流量下基于Path相似度的同类型网站发现方法
技术领域
本发明涉及物理领域,尤其涉及网络信息处理技术,特别涉及同类型网站发现方法,具体为一种镜像流量下基于Path相似度的同类型网站发现方法。
背景技术
从流量数据中快速识别出同类网站具有广泛且迫切的需求,比如目前各种网络诈骗层出不穷,给人民群众的财产安全带来了很恶劣的影响,而这些诈骗网站很多都是同类型、同模板的,如果能基于已掌握的诈骗网站特征数据,从流量数据中快速识别出与其同类的诈骗网站并及时发出预警进行劝阻以及诈骗网站封堵等操作,就可以避免更多人被诈骗网站诈骗。
而随着社会进入大数据时代,互联网实时流量数据暴增,对于快速从流量数据中识别出同类网站带来了很大的挑战。另一方面,也出现了一些流行的大数据处理、计算框架,这些框架不再使用传统的单机计算模式,而是改用集群分布式计算,这些框架主要提供了对大数据的分布式存储能力以及用于处理分布式数据集的分布式计算能力,而且其技术架构支持在借助一些普通的服务器集群实现快速、安全、高可用的大数据存储与计算服务,解决了大数据环境带来的种种技术挑战,极大的促进了大数据技术的普及应用。
传统的发现同类型网站的方法存在以下缺陷,一是对海量数据处理的支持能力有限,二是path相似度算法识别的准确度不够,三是算法识别效率不足,因此,亟待一种改进的技术来解决现有技术中所存在的上述问题。
发明内容
本发明的目的在于提供一种镜像流量下基于Path相似度的同类型网站发现方法,基于正样本网站(比如诈骗网站)的path特征,利用path相似度算法从海量流量数据中自动发现与其同类型的网站,可以用于发现新的诈骗网站,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种镜像流量下基于Path相似度的同类型网站发现方法,包括以下步骤:
步骤一:流量数据的过滤,流量数据过滤模块根据http协议原始数据的一些关键信息进行过滤,其中关键信息主要包括响应状态码、数据流向以及重复网站过滤和白名单网站过滤;
步骤二:网站path特征的提取与积累,对于过滤之后的流量数据再进行网站path特征数据的提取及积累,所述网站path特征为完整的URI去除协议名、域名、端口、文件名和请求参数后剩余的部分,随后经过大数据计算框架的Map及Reduce流程处理之后,最终得到的就是每个网站host及其对应的path路径集合;
步骤三:同类网站的实时识别,path特征提取出来之后实时与正样本path特征库中的数据做比对,比对的过程就是计算从流量中提取出来的host特征与特征库中的path特征两两之间的相似度,计算得到相似度之后再根据一定阈值判定是否为相似网站,最后根据应用场景的不同,再对识别出的相似网站进行相应的操作,对于识别出的相似网站,及时推送预警信息。
优选的,所述步骤三中host特征与特征库中的path特征两两之间的相似度采用的算法为莱文斯坦距离算法。
优选的,所述步骤三中计算得到的相似度大于或等于阈值则判断为同类网站,计算得到的相似度小于阈值则判断为非同类网站。
优选的,所述步骤一中响应状态码为200。
优选的,所述步骤一中数据流向为S2C。
优选的,所述步骤二中path特征数据的的积累根据host聚合每个host下的所有path。
与现有技术相比,本发明的有益效果是:
(1)充分利用目前流行的大数据处理及计算框架,使用集群分布式运行,可以充分发挥集群计算对于大数据处理的优势,对处理海量数据的支持非常好。
(2)首先会对流量数据中的host、uri信息做清洗、提纯,可以过滤掉大量无效的或者不重要的流量数据,为后续特征提取及相似度计算等工作减少大量的工作量,并积累到足够的网站path特征,然后基于莱文斯坦距离算法计算网站path特征之间的相似度,识别的准确度较高。
(3)采用实时流模式运行,可以近实时地完成流量数据解析、path特征提取、网站相似度计算及后续处理等流程,比如对识别出的诈骗网站的实时预警,系统以实时流模式运行,可以实时的识别出流量中的同类网站。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面将结合本发明的实施例和附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围;
请参阅图1,本发明提供一种技术方案:一种镜像流量下基于Path相似度的同类型网站发现方法,主要包括流量数据的过滤、网站path特征的提取与积累以及同类网站的实时识别三大模块,包括以下步骤:
步骤一:首先,流量数据过滤模块会根据http协议原始数据的一些关键信息进行过滤,主要包括响应状态码为200、数据流向为S2C(Server to Client,指服务器端发给客户端的响应数据)以及重复网站过滤和白名单网站过滤,这样可以过滤掉大量无效的或者不重要的流量数据,为后续特征提取及相似度计算等工作减少大量的工作量;
步骤二:网站path特征的提取与积累,对于过滤之后的流量数据再进行网站path特征数据的提取及积累,网站path特征为完整的URI去除协议名、域名、端口、文件名和请求参数后剩余的部分,随后经过大数据计算框架的Map及Reduce流程处理之后,最终得到的就是每个网站host及其对应的path路径集合,即根据host聚合每个host下的所有path;
步骤三:path特征提取出来之后会实时与正样本path特征库中的数据做比对,比对的过程就是计算从流量中提取出来的host特征与特征库中的path特征两两之间的相似度,这里用到的相似度算法就是莱文斯坦距离算法(一种用于计算两个字符串之间相似度的算法,该算法使用两个字符串之间的编辑距离来表示其相似度,所谓编辑距离就是从一个字符串变为另一个字符串所需要经历的编辑操作次数,这里的编辑操作包括将一个字符替换为另一个),计算得到相似度之后再根据一定阈值判定是否为相似网站,计算得到的相似度大于或等于阈值则判断为同类网站,计算得到的相似度小于阈值则判断为非同类网站,最后根据应用场景的不同,再对识别出的相似网站进行相应的操作,如对于识别出的同类网站,就会及时推送预警信息。
本发明描述的技术方案用于从海量流量数据中快速发现与正样本网站同类型、同模板的网站,可以用于发现新的诈骗网站。本方案充分利用目前流行的大数据处理及计算框架,使用集群分布式运行,可以充分发挥集群计算对于大数据处理的优势,对处理海量数据的支持非常好。本方案首先会对流量数据中的host、uri信息做清洗、提纯,可以过滤掉大量无效的或者不重要的流量数据,为后续特征提取及相似度计算等工作减少大量的工作量,并积累到足够的网站path特征,然后基于莱文斯坦距离算法计算网站path特征之间的相似度,识别的准确度较高。本方案采用实时流模式运行,可以近实时地完成流量数据解析、path特征提取、网站相似度计算及后续处理(比如对识别出的诈骗网站的实时预警)等流程,系统以实时流模式运行,可以实时的识别出流量中的同类网站。
其中,并行计算部分借助目前流行的大数据处理框架(如flink、spark等)都可以实现。
本发明未详述之处,均为本领域技术人员的公知技术。
最后所要说明的是:以上具体实施方式仅用以说明本发明的技术方案而非限制,尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改和等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种镜像流量下基于Path相似度的同类型网站发现方法,其特征在于:包括以下步骤:
步骤一:流量数据的过滤,流量数据过滤模块根据http协议原始数据的关键信息进行过滤,所述的关键信息主要包括响应状态码、数据流向以及重复网站过滤和白名单网站过滤;
步骤二:网站path特征的提取与积累,对于过滤之后的流量数据再进行网站path特征数据的提取及积累,所述网站path特征为完整的URI去除协议名、域名、端口、文件名和请求参数后剩余的部分,随后经过大数据计算框架的Map及Reduce流程处理之后,最终得到的就是每个网站host及其对应的path路径集合;
步骤三:同类网站的实时识别,path特征提取出来之后实时与正样本path特征库中的数据做比对,比对的过程就是计算从流量中提取出来的host特征与特征库中的path特征两两之间的相似度,计算得到相似度之后再根据设定的阈值判定是否为相似网站,最后根据应用场景,再对识别出的相似网站进行相应的操作,对于识别出的相似网站,及时推送预警信息。
2.根据权利要求1所述的一种镜像流量下基于Path相似度的同类型网站发现方法,其特征在于:所述步骤三中host特征与特征库中的path特征两两之间的相似度采用的算法为莱文斯坦距离算法。
3.根据权利要求1所述的一种镜像流量下基于Path相似度的同类型网站发现方法,其特征在于:所述步骤三中计算得到的相似度大于或等于阈值则判断为同类网站,计算得到的相似度小于阈值则判断为非同类网站。
4.根据权利要求1所述的一种镜像流量下基于Path相似度的同类型网站发现方法,其特征在于:所述步骤一中响应状态码为200。
5.根据权利要求1所述的一种镜像流量下基于Path相似度的同类型网站发现方法,其特征在于:所述步骤一中数据流向为S2C。
6.根据权利要求1所述的一种镜像流量下基于Path相似度的同类型网站发现方法,其特征在于:所述步骤二中path特征数据的的积累根据host聚合每个host下的所有path。
CN202210137473.0A 2022-02-15 2022-02-15 一种镜像流量下基于Path相似度的同类型网站发现方法 Pending CN114513356A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210137473.0A CN114513356A (zh) 2022-02-15 2022-02-15 一种镜像流量下基于Path相似度的同类型网站发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210137473.0A CN114513356A (zh) 2022-02-15 2022-02-15 一种镜像流量下基于Path相似度的同类型网站发现方法

Publications (1)

Publication Number Publication Date
CN114513356A true CN114513356A (zh) 2022-05-17

Family

ID=81551255

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210137473.0A Pending CN114513356A (zh) 2022-02-15 2022-02-15 一种镜像流量下基于Path相似度的同类型网站发现方法

Country Status (1)

Country Link
CN (1) CN114513356A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103491101A (zh) * 2013-09-30 2014-01-01 北京金山网络科技有限公司 钓鱼网站检测方法、装置及客户端
CN106776958A (zh) * 2016-12-05 2017-05-31 公安部第三研究所 基于关键路径的违法网站识别系统及其方法
CN108319672A (zh) * 2018-01-25 2018-07-24 南京邮电大学 基于云计算的移动终端不良信息过滤方法及系统
CN111930890A (zh) * 2020-07-28 2020-11-13 深圳市梦网科技发展有限公司 信息发送方法、装置、终端设备及存储介质
CN113923011A (zh) * 2021-09-30 2022-01-11 北京恒安嘉新安全技术有限公司 一种网络诈骗的预警方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103491101A (zh) * 2013-09-30 2014-01-01 北京金山网络科技有限公司 钓鱼网站检测方法、装置及客户端
CN106776958A (zh) * 2016-12-05 2017-05-31 公安部第三研究所 基于关键路径的违法网站识别系统及其方法
CN108319672A (zh) * 2018-01-25 2018-07-24 南京邮电大学 基于云计算的移动终端不良信息过滤方法及系统
CN111930890A (zh) * 2020-07-28 2020-11-13 深圳市梦网科技发展有限公司 信息发送方法、装置、终端设备及存储介质
CN113923011A (zh) * 2021-09-30 2022-01-11 北京恒安嘉新安全技术有限公司 一种网络诈骗的预警方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
凡友荣,杨涛,王永剑,姜国庆: ""基于URL 特征检测的违法网站识别方法"", 《计算机工程》, vol. 44, no. 3, pages 2 - 5 *

Similar Documents

Publication Publication Date Title
CN108306879B (zh) 基于Web会话流的分布式实时异常定位方法
CN1578227A (zh) 一种动态ip数据包过滤方法
CN115134250B (zh) 一种网络攻击溯源取证方法
WO2022135257A1 (zh) 一种基于机器学习的入侵检测系统规则匹配优化方法
CN113254341B (zh) 链路数据的跟踪方法、装置、设备及存储介质
CN113037567A (zh) 一种用于电网企业的网络攻击行为仿真系统及其仿真方法
US8140671B2 (en) Apparatus and method for sampling security events based on contents of the security events
CN107145568A (zh) 一种快速的新闻事件聚类系统及方法
CN1658576A (zh) 一种大型网站数据流的检测与防御方法
CN111654486A (zh) 一种服务器设备判定识别方法
CN111291028A (zh) 一种面向高速工业现场数据采集系统及方法
CN114513356A (zh) 一种镜像流量下基于Path相似度的同类型网站发现方法
CN113162939A (zh) 一种基于改进k近邻算法的SDN下DDoS攻击的检测防御系统
CN103617212A (zh) 一种处理舆情数据的方法和系统
CN110941836A (zh) 一种分布式垂直爬虫方法及终端设备
CN114925286B (zh) 舆情数据处理方法及装置
CN112910842B (zh) 一种基于流量还原的网络攻击事件取证方法与装置
CN115333966A (zh) 一种基于拓扑的Nginx日志分析方法、系统及设备
WO2019061999A1 (zh) 断点外呼方法、电子装置及计算机可读存储介质
CN112468509A (zh) 一种基于深度学习技术的流量数据自动检测方法及装置
Shu-yue et al. The study on the preprocessing in web log mining
CN107592214B (zh) 一种识别互联网应用系统登录用户名的方法
CN110765236A (zh) 一种非结构化海量数据的预处理方法及系统
CN112202932A (zh) 一种基于边缘计算的对视频进行结构化分析的方法及装置
KR101005871B1 (ko) 대용량 웹로그마이닝 및 공격탐지를 위한 비트리인덱스벡터기반 웹로그 복구방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination