CN114513356A

CN114513356A - 一种镜像流量下基于Path相似度的同类型网站发现方法

Info

Publication number: CN114513356A
Application number: CN202210137473.0A
Authority: CN
Inventors: 王海鹰; 石兴; 宋文超; 李旭东; 贺辉
Original assignee: Shanghai Yuewei Science And Technology Co ltd
Current assignee: Shanghai Yuewei Science And Technology Co ltd
Priority date: 2022-02-15
Filing date: 2022-02-15
Publication date: 2022-05-17

Abstract

本发明公开了一种镜像流量下基于Path相似度的同类型网站发现方法，包括以下步骤：步骤一：流量数据过滤模块根据http协议原始数据的一些关键信息进行过滤，步骤二：对于过滤之后的流量数据再进行网站path特征数据的提取及积累，随后经过大数据计算框架的Map及Reduce流程处理之后，最终得到的就是每个网站host及其对应的path路径集合，步骤三：path特征提取出来之后实时与正样本path特征库中的数据做比对，该发明用于从海量流量数据中快速发现与正样本网站同类型、同模板的网站，可以用于发现新的诈骗网站，任务分布式执行，对处理海量数据的支持比较好，path相似算法识别的准确度较高，系统以实时流模式运行，可以实时的识别出流量中的同类网站。

Description

一种镜像流量下基于Path相似度的同类型网站发现方法

技术领域

本发明涉及物理领域，尤其涉及网络信息处理技术，特别涉及同类型网站发现方法，具体为一种镜像流量下基于Path相似度的同类型网站发现方法。

背景技术

从流量数据中快速识别出同类网站具有广泛且迫切的需求，比如目前各种网络诈骗层出不穷，给人民群众的财产安全带来了很恶劣的影响，而这些诈骗网站很多都是同类型、同模板的，如果能基于已掌握的诈骗网站特征数据，从流量数据中快速识别出与其同类的诈骗网站并及时发出预警进行劝阻以及诈骗网站封堵等操作，就可以避免更多人被诈骗网站诈骗。

而随着社会进入大数据时代，互联网实时流量数据暴增，对于快速从流量数据中识别出同类网站带来了很大的挑战。另一方面，也出现了一些流行的大数据处理、计算框架，这些框架不再使用传统的单机计算模式，而是改用集群分布式计算，这些框架主要提供了对大数据的分布式存储能力以及用于处理分布式数据集的分布式计算能力，而且其技术架构支持在借助一些普通的服务器集群实现快速、安全、高可用的大数据存储与计算服务，解决了大数据环境带来的种种技术挑战，极大的促进了大数据技术的普及应用。

传统的发现同类型网站的方法存在以下缺陷，一是对海量数据处理的支持能力有限，二是path相似度算法识别的准确度不够，三是算法识别效率不足，因此，亟待一种改进的技术来解决现有技术中所存在的上述问题。

发明内容

本发明的目的在于提供一种镜像流量下基于Path相似度的同类型网站发现方法，基于正样本网站（比如诈骗网站）的path特征，利用path相似度算法从海量流量数据中自动发现与其同类型的网站，可以用于发现新的诈骗网站，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种镜像流量下基于Path相似度的同类型网站发现方法，包括以下步骤：

步骤一：流量数据的过滤，流量数据过滤模块根据http协议原始数据的一些关键信息进行过滤，其中关键信息主要包括响应状态码、数据流向以及重复网站过滤和白名单网站过滤；

步骤二：网站path特征的提取与积累，对于过滤之后的流量数据再进行网站path特征数据的提取及积累，所述网站path特征为完整的URI去除协议名、域名、端口、文件名和请求参数后剩余的部分，随后经过大数据计算框架的Map及Reduce流程处理之后，最终得到的就是每个网站host及其对应的path路径集合；

步骤三：同类网站的实时识别，path特征提取出来之后实时与正样本path特征库中的数据做比对，比对的过程就是计算从流量中提取出来的host特征与特征库中的path特征两两之间的相似度，计算得到相似度之后再根据一定阈值判定是否为相似网站，最后根据应用场景的不同，再对识别出的相似网站进行相应的操作，对于识别出的相似网站，及时推送预警信息。

优选的，所述步骤三中host特征与特征库中的path特征两两之间的相似度采用的算法为莱文斯坦距离算法。

优选的，所述步骤三中计算得到的相似度大于或等于阈值则判断为同类网站，计算得到的相似度小于阈值则判断为非同类网站。

优选的，所述步骤一中响应状态码为200。

优选的，所述步骤一中数据流向为S2C。

优选的，所述步骤二中path特征数据的的积累根据host聚合每个host下的所有path。

与现有技术相比，本发明的有益效果是：

（1）充分利用目前流行的大数据处理及计算框架，使用集群分布式运行，可以充分发挥集群计算对于大数据处理的优势，对处理海量数据的支持非常好。

（2）首先会对流量数据中的host、uri信息做清洗、提纯，可以过滤掉大量无效的或者不重要的流量数据，为后续特征提取及相似度计算等工作减少大量的工作量，并积累到足够的网站path特征，然后基于莱文斯坦距离算法计算网站path特征之间的相似度，识别的准确度较高。

（3）采用实时流模式运行，可以近实时地完成流量数据解析、path特征提取、网站相似度计算及后续处理等流程，比如对识别出的诈骗网站的实时预警，系统以实时流模式运行，可以实时的识别出流量中的同类网站。

附图说明

图1为本发明的流程示意图。

具体实施方式

下面将结合本发明的实施例和附图，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围；

请参阅图1，本发明提供一种技术方案：一种镜像流量下基于Path相似度的同类型网站发现方法，主要包括流量数据的过滤、网站path特征的提取与积累以及同类网站的实时识别三大模块，包括以下步骤：

步骤一：首先，流量数据过滤模块会根据http协议原始数据的一些关键信息进行过滤，主要包括响应状态码为200、数据流向为S2C（Server to Client，指服务器端发给客户端的响应数据）以及重复网站过滤和白名单网站过滤，这样可以过滤掉大量无效的或者不重要的流量数据，为后续特征提取及相似度计算等工作减少大量的工作量；

步骤二：网站path特征的提取与积累，对于过滤之后的流量数据再进行网站path特征数据的提取及积累，网站path特征为完整的URI去除协议名、域名、端口、文件名和请求参数后剩余的部分，随后经过大数据计算框架的Map及Reduce流程处理之后，最终得到的就是每个网站host及其对应的path路径集合，即根据host聚合每个host下的所有path；

步骤三：path特征提取出来之后会实时与正样本path特征库中的数据做比对，比对的过程就是计算从流量中提取出来的host特征与特征库中的path特征两两之间的相似度，这里用到的相似度算法就是莱文斯坦距离算法（一种用于计算两个字符串之间相似度的算法，该算法使用两个字符串之间的编辑距离来表示其相似度，所谓编辑距离就是从一个字符串变为另一个字符串所需要经历的编辑操作次数，这里的编辑操作包括将一个字符替换为另一个），计算得到相似度之后再根据一定阈值判定是否为相似网站，计算得到的相似度大于或等于阈值则判断为同类网站，计算得到的相似度小于阈值则判断为非同类网站，最后根据应用场景的不同，再对识别出的相似网站进行相应的操作，如对于识别出的同类网站，就会及时推送预警信息。

本发明描述的技术方案用于从海量流量数据中快速发现与正样本网站同类型、同模板的网站，可以用于发现新的诈骗网站。本方案充分利用目前流行的大数据处理及计算框架，使用集群分布式运行，可以充分发挥集群计算对于大数据处理的优势，对处理海量数据的支持非常好。本方案首先会对流量数据中的host、uri信息做清洗、提纯，可以过滤掉大量无效的或者不重要的流量数据，为后续特征提取及相似度计算等工作减少大量的工作量，并积累到足够的网站path特征，然后基于莱文斯坦距离算法计算网站path特征之间的相似度，识别的准确度较高。本方案采用实时流模式运行，可以近实时地完成流量数据解析、path特征提取、网站相似度计算及后续处理（比如对识别出的诈骗网站的实时预警）等流程，系统以实时流模式运行，可以实时的识别出流量中的同类网站。

其中，并行计算部分借助目前流行的大数据处理框架(如flink、spark等)都可以实现。

本发明未详述之处，均为本领域技术人员的公知技术。

最后所要说明的是：以上具体实施方式仅用以说明本发明的技术方案而非限制，尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改和等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种镜像流量下基于Path相似度的同类型网站发现方法，其特征在于：包括以下步骤：

步骤一：流量数据的过滤，流量数据过滤模块根据http协议原始数据的关键信息进行过滤，所述的关键信息主要包括响应状态码、数据流向以及重复网站过滤和白名单网站过滤；

步骤三：同类网站的实时识别，path特征提取出来之后实时与正样本path特征库中的数据做比对，比对的过程就是计算从流量中提取出来的host特征与特征库中的path特征两两之间的相似度，计算得到相似度之后再根据设定的阈值判定是否为相似网站，最后根据应用场景，再对识别出的相似网站进行相应的操作，对于识别出的相似网站，及时推送预警信息。

2.根据权利要求1所述的一种镜像流量下基于Path相似度的同类型网站发现方法，其特征在于：所述步骤三中host特征与特征库中的path特征两两之间的相似度采用的算法为莱文斯坦距离算法。

3.根据权利要求1所述的一种镜像流量下基于Path相似度的同类型网站发现方法，其特征在于：所述步骤三中计算得到的相似度大于或等于阈值则判断为同类网站，计算得到的相似度小于阈值则判断为非同类网站。

4.根据权利要求1所述的一种镜像流量下基于Path相似度的同类型网站发现方法，其特征在于：所述步骤一中响应状态码为200。

5.根据权利要求1所述的一种镜像流量下基于Path相似度的同类型网站发现方法，其特征在于：所述步骤一中数据流向为S2C。

6.根据权利要求1所述的一种镜像流量下基于Path相似度的同类型网站发现方法，其特征在于：所述步骤二中path特征数据的的积累根据host聚合每个host下的所有path。