CN113783920A

CN113783920A - 用于识别web访问入口的方法和装置

Info

Publication number: CN113783920A
Application number: CN202110002365.8A
Authority: CN
Inventors: 方城
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2021-12-10

Abstract

本公开的实施例公开了用于识别web访问入口的方法和装置。该方法的具体实施方式包括：获取待识别的URL集合，其中，每个URL包括协议标准、域名和路径；将URL集合中相同协议标准、相同域名、相同路径长度的URL归类为一个初始集合，得到至少一个初始集合；基于决策树原理将每个初始集合分裂成至少一个子集合，基于每个初始集合及其子集合生成一个多级词树；从每个多级词树中确定出语义词和参数词；将URL集合中已经确定出的语义词和参数词的组合作为web访问入口输出。该实施方式能够从URL数据集中准确识别出位置参数以确定实际意识上的Web访问入口，从而能够提高安全检测和性能监控的准确性以及资源管理的便捷性。

Description

用于识别web访问入口的方法和装置

技术领域

本公开的实施例涉及计算机技术领域，具体涉及用于识别web访问入口的方法和装置。

背景技术

当前访问互联网应用的主要方式都是基于HTTP(HyperText Transfer Protocol,超文本传输协议)的web(网页)访问、(安全系统、监控系统等都会抓取全部或者一定比率的HTTP访问流量以进行安全检测，性能监控等。

web访问入口体现为URL(Uniform Resource Locator,统一资源定位器)，访问入口的精确性对安全系统、监控系统等有至关重要的作用。

现有技术中主要采用人工报备的方式来收集URL路径中位置参数，人力成本高。也有使用正则表达式匹配的方式识别位置参数，但是准确率低。

发明内容

本公开的实施例提出了用于识别web访问入口的方法和装置。

第一方面，本公开的实施例提供了一种用于识别web访问入口的方法，包括：获取待识别的URL集合，其中，每个URL包括协议标准、域名和路径；将URL集合中相同协议标准、相同域名、相同路径长度的URL归类为一个初始集合，得到至少一个初始集合；基于决策树原理将每个初始集合分裂成至少一个子集合，基于每个初始集合及其子集合生成一个多级词树；从每个多级词树中确定出语义词和参数词；将URL集合中已经确定出的语义词和参数词的组合作为web访问入口输出。参数词即指通常意义下的Web访问的位置参数。参数词的确定才能使URL确定为实际意义的Web应用入口。

在一些实施例中，在获取待识别的URL集合之后，该方法还包括：对于每个URL，统计该URL中路径中由“/”分割的词的数量作为该URL的路径长度。

在一些实施例中，将URL集合中相同协议标准、相同域名、相同路径长度的URL归类为一个初始集合，得到至少一个初始集合，包括：创建哈希映射表，其中，哈希映射表的键表示协议标准、域名、路径长度的组合，哈希映射表的值表示存储URL的列表；遍历URL集合中的URL，将当前URL的协议标准、域名、路径长度组成键，通过键从哈希映射表中取出对应的列表，如果没有对应的列表，则创建新的列表，将当前URL放入键对应的列表中；将哈希映射表中每个键和对应的列表确定为一个初始集合。

在一些实施例中，基于决策树原理将每个初始集合分裂成至少一个子集合，基于每个初始集合及其子集合生成一个多级词树，包括：基于该初始集合执行如下分裂步骤：计算该初始集合中每个URL的路径中的每个非分类词的位置和出现的次数；将初始集合中出现的次数最多的词确定为分类词并作为多级词树的节点，并将确定出的分类词对应的URL从初始集合中分裂出来，组成新的URL分类集合；如果该初始集合非空，则重复执行上述分裂步骤；如果该初始集合为空，则将每个新的URL分类集合作为初始集合继续执行上述分裂步骤，直到无法继续分裂。

在一些实施例中，每个多级词树中确定出语义词和参数词，包括：对于每个多级词树，从该多级词树的顶级节点开始进行遍历，当发现一个节点的子节点数量大于等于预定阈值,则将该节点的父节点直至顶级节点确定为语义词，将该节点向下的节点确定为参数词。

在一些实施例中，该方法还包括：使用与URL集合同等数量级的已知web访问入口的测试集对预定阈值进行验证；若验证出的分类词的数量超过期望值，则将预定阈值调大。

在一些实施例中，该方法还包括：根据web访问入口进行网络访问流量的安全检测和/或性能监控。

第二方面，本公开的实施例提供了一种用于识别web访问入口的装置，包括：获取单元，被配置成获取待识别的URL集合，其中，每个URL包括协议标准、域名和路径；归类单元，被配置成将URL集合中相同协议标准、相同域名、相同路径长度的URL归类为一个初始集合，得到至少一个初始集合；分裂单元，被配置成基于决策树原理将每个初始集合分裂成至少一个子集合，基于每个初始集合及其子集合生成一个多级词树；确定单元，被配置成从每个多级词树中确定出语义词和参数词；输出单元，被配置成将URL集合中已经确定出的语义词和参数词的组合作为web访问入口输出。

在一些实施例中，该装置还包括统计单元，被配置成：在获取待识别的URL集合之后，对于每个URL，统计该URL中路径中由“/”分割的词的数量作为该URL的路径长度。

在一些实施例中，归类单元进一步被配置成：创建哈希映射表，其中，哈希映射表的键表示协议标准、域名、路径长度的组合，哈希映射表的值表示存储URL的列表；遍历URL集合中的URL，将当前URL的协议标准、域名、路径长度组成键，通过键从哈希映射表中取出对应的列表，如果没有对应的列表，则创建新的列表，将当前URL放入键对应的列表中；将哈希映射表中每个键和对应的列表确定为一个初始集合。

在一些实施例中，分裂单元进一步被配置成：基于该初始集合执行如下分裂步骤：计算该初始集合中每个URL的路径中的每个非分类词的位置和出现的次数；将初始集合中出现的次数最多的词确定为分类词并作为多级词树的节点，并将确定出的分类词对应的URL从初始集合中分裂出来，组成新的URL分类集合；如果该初始集合非空，则重复执行上述分裂步骤；如果该初始集合为空，则将每个新的URL分类集合作为初始集合继续执行上述分裂步骤，直到无法继续分裂。

在一些实施例中，分裂单元进一步被配置成：对于每个多级词树，从该多级词树的顶级节点开始进行遍历，当发现一个节点的子节点数量大于等于预定阈值,则将该节点的父节点直至顶级节点确定为语义词，将该节点向下的节点确定为参数词。

在一些实施例中，该装置还包括调整单元，被配置成：使用与URL集合同等数量级的已知web访问入口的测试集对预定阈值进行验证；若验证出的分类词的数量超过期望值，则将预定阈值调大。

在一些实施例中，该装置还包括应用单元被配置成：根据web访问入口进行网络访问流量的安全检测和/或性能监控。

第三方面，本公开的实施例提供了一种用于识别web访问入口的电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面中任一项的方法。

第四方面，本公开的实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，程序被处理器执行时实现如第一方面中任一项的方法。

本公开的实施例提供的用于识别web访问入口的方法和装置，基于迭代式数据分析的算法，能从实际HTTP访问流量的数据自身中有效的识别出实际路径的数据中那些位置是位置参数。一旦可以对web入口进行精准识别，则可使得：资产系统中web入口有效和集中，网络防护系统(如WAF(Web Application Firewall，网站应用级入侵防御系统)可以有针对性的进行精细管控，分布式监控系统使能基于web入口进行有效率的统计和分析问题。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显：

图1是本公开的一个实施例可以应用于其中的示例性系统架构图；

图2是根据本公开的用于识别web访问入口的方法的一个实施例的流程图；

图3是根据本公开的用于识别web访问入口的方法中URL集合归类过程的流程图；

图4a-4b是根据本公开的用于识别web访问入口的方法中URL集合分裂过程的流程图；

图5是根据本公开的用于识别web访问入口的方法的多级词树的示意图；

图6是根据本公开的用于识别web访问入口的装置的一个实施例的结构示意图；

图7是适于用来实现本公开的实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出了可以应用本公开的用于识别web访问入口的方法或用于识别web访问入口的装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括网站101、102、103，网络104和服务器105。网络104用以在网站101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用服务器105通过网络104与网站101、102、103交互，以接收或发送消息等。网站101、102、103上可以是提供各种网络应用服务的网站，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

服务器105可以是提供URL分析服务的服务器，例如对访问网站101、102、103的http请求提供分析支持的后台分析服务器。后台分析服务器可以对网站接收到的http请求等数据进行分析等处理，并将处理结果(例如web访问入口)反馈给网站，还可根据web访问入口为各网站的安全系统、监控系统进行设置。

URL中有3个重要部分组成的Web应用入口：

通过网络访问流量中http协议其中的信息，是很容易将以上3部分抽取出来。形成一个访问入口。

但是，Path中信息不仅仅包含功能入口点信息，还同时包含参数，如上面例子中的“/user/12345/detail”,其中“user”and“detail”是代表用户详细信息的功能入口，但是中间的“12345”表示的是当前用户ID。这种参数称之为位置参数。

由于位置参数的出现，导致同一功能入口点会在流量中会产生大量相似但是在位置参数不同的path，如果不能精确识别这些位置参数，将使后续的“接口资产管理”，“性能监控”，“安全检测”等工作或者无法对应到应用实际入口，不能采用区别策略，又或者数据泛滥，从而导致整个系统失效。

精确识别Web访问入口是指能识别出URL path带有位置参数的的path正确识别为同一个入口。

如从流量中发现以下3个Path的访问

正确识别应能将“/api/user/u12345/info”，“/api/user/u23456/info”识别为同一入口“/api/user/${}/info”

如不能识别，可想而知，对后续处理影响巨大。

1、资产系统中web入口会产生数据无意思的膨胀，存储量巨大无法使用。

2、访问入口对网络防护系统(如WAF)等不能进行精细管控。这对于大型互联网公司有巨大外网访问量的场景会产生巨大的影响。

3、分布式监控系统会受到重大影响。试想有上万个带有参数的入口列表，不仅难以统计，还会淹没出问题的入口的调用。

一般情况下，参数的值可能是字母和数字的组合，和非参数的词没有严格的区分，出现的位置没有规律，而且一个path中也可能有多个位置参数。即使同样功能的入口，由于开发人员的习惯和设计原则不同，也可能出现不同位置的位置参数。参看以下带有位置参数的例子：

仅从“实际的Path”数据中观察，很难做出通用的正则来识别位置参数。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。服务器也可以是云服务器，或者是带人工智能技术的智能云计算服务器或智能云主机。

需要说明的是，本公开的实施例所提供的用于识别web访问入口的方法一般由服务器105执行，相应地，用于识别web访问入口的装置一般设置于服务器105中。

应该理解，图1中的网站、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的网站、网络和服务器。

继续参考图2，示出了根据本公开的用于识别web访问入口的方法的一个实施例的流程200。该用于识别web访问入口的方法，包括以下步骤：

步骤201，获取待识别的URL集合。

在本实施例中，用于识别web访问入口的方法的执行主体(例如图1所示的服务器)可以从各网站获取待识别的URL集合。其中，每个URL包括协议标准、域名和路径。

为描述方便，先定义以下名词：

·路径(Path)：HTTP协议中请求的Path部分，在Web服务中，通常作为功能入口点，也被称为endpoint。

如“/api/user/info/u12345”

·词(Word)：Path中由“/”分割的部分。如在Path“/api/user/info/u12345”的词是“api”，“user”，“info”,“u12345”.进一步，Path可以表示为一个词列表。

·语义词(Semantic Word):指Path中非参数的部分的词。如Path“/api/user/info/u12345”中的“api”，“user”，“info”。

·参数词(Parameter Word)：指Path中参数的部分的词。如Path“/api/user/info/u12345”中的“u12345”。

·路径模式(Path Pattern)：指将Path中的位置参数设置成通配符${}的形式。Path“/api/user/info/u12345”的Path Pattern是“/api/user/info/${}”.${}通配任何词。可以看出，Path Pattern是真正的web入口。如果一个Path中不存在参数词，则可以将Path本身看做一个Path Pattern。

·路径长度(Path Length):指Path中的词的个数。如Path“/api/user/info/u12345”的长度是4.

从以上定义可以得出，精确识别Web入口可以转换成以下描述：

给定一个Path的数据集合，求出其所有的Path Pattern。

步骤202，将URL集合中相同协议标准、相同域名、相同路径长度的URL归类为一个初始集合，得到至少一个初始集合。

在本实施例中，有些网站的路径长度是已知的，则不需要计算，如果路径长度未知，则对于每个URL，统计该URL中路径中由“/”分割的词的数量作为该URL的路径长度。

可通过字符串匹配的方式查找到相同协议标准、相同域名的URL子集，再将该URL子集根据路径长度划分成不同的初始集合。也可先将查找到相同路径长度的URL子集，再将该URL子集通过字符串匹配的方式查找到相同协议标准、相同域名的URL构成初始集合。

在本实施例的一些可选的实现方式中，如图3所示，将URL集合中相同协议标准、相同域名、相同路径长度的URL归类为一个初始集合，得到至少一个初始集合，包括：

步骤301，创建哈希映射表。

在本实施例中，哈希映射表的键表示协议标准、域名、路径长度的组合，哈希映射表的值表示存储URL的列表。初始时哈希映射表是空表。

步骤302，遍历URL集合中的URL。

在本实施例中，每次都从URL集合中取出一个未分类过的URL作为当前URL。

步骤303，将当前URL的协议标准、域名、路径长度组成键。

在本实施例中，URL的路径长度可预先获得，也可通过统计该URL中路径中由“/”分割的词的数量作为该URL的路径长度。

步骤304，通过键从哈希映射表中取出对应的列表，如果没有对应的列表，则创建新的列表。

在本实施例中，如果当前URL的协议标准、域名、路径长度是首次出现，则哈希映射表没有对应的列表，此时需要新建。如果该键不是首次出现，则能找到该键对应的列表。

步骤305，将当前URL放入键对应的列表中。

在本实施例中，无论该键是首次出现，还是之前出现过，都需要将当前URL存入该键对应的列表中。

步骤306，将哈希映射表中每个键和对应的列表确定为一个初始集合。

在本实施例中，如果URL遍历完成，则哈希映射表内容填充完成。哈希映射表中每个键和对应的列表确定为一个初始集合。

步骤203，基于决策树原理将每个初始集合分裂成至少一个子集合，基于每个初始集合及其子集合生成一个多级词树。

在本实施例中，本步过程中，由于集合URL中的schema，hostname相同，且pathlength相同，问题转换为将集合中的Path分类成Path Pattern。

解决问题的关键是识别中Path中的参数词(Parameter Word)。

首先描述识别算法的过程。为描述方便，以下先定义所有使用到的数据结构的定义：

URL分类集合SET-N<Word-L₁,Word-L₂,…,Word-L_N>:此集合表示集合中所有的URLPath中有N个词是相同，这N个词的Path中的位置分别是L₁,L₂,…L_N.例如以下集合：

N称作这个分类集合的级别。

URL分类子分支：如果一个分类集合的分类词包含另一个分类集合的分类词，并且顺序一致，则后者称为前者的父节点，前者称之为后者的子分支。如果子分支的级别是父节点级别多1，则称之为父节点的直接子分支。

分类词：一个URL分类集合SET-N<Word-L₁,Word-L₂,…,Word-L_N>，Word-L₁,Word-L₂,这些在此集合中URL都拥有的词称作这个集合的分类词。

词的出现次数：在一个URL分类集合SET中，在所有URL的Path中的某一个位置L₁出现同一个词Word的次数，记做Count(Word，L₁)。如以下集合中，

Count(“api”,1)＝4,count(“grp”,2)＝2,count(“grp”,1)＝1.

可按从左到右的顺序查找同一初始集合中不同词进行分裂，遇到不同的词就分成不同的URL分类集合。这种方式可以快速分裂。

在本实施例的一些可选的实现方式中，基于该初始集合执行如下分裂步骤：计算该初始集合中每个URL的路径中的每个非分类词的位置和出现的次数；将初始集合中出现的次数最多的词确定为分类词并作为多级词树的节点，并将确定出的分类词对应的URL从初始集合中分裂出来，组成新的URL分类集合；如果该初始集合非空，则重复执行上述分裂步骤；

如果该初始集合为空，则将每个新的URL分类集合作为初始集合继续执行上述分裂步骤，直到无法继续分裂。

构造多级树状结构的说明和流程图如4a-4b所示：

1.已知当前的URL分类集合的Path Length为N

2.将一下过程循环1到N

2.1设当前循环在第K轮

2.2计算当前“URL分类集合”中所有非“分类词”的出现次数。注意，出现次数是要求词本身和词位置都相同的情况下的次数。在“URL分类集合”循环第1轮时，意味着计算所有词的出现次数。

2.3找出现最多的词(含位置)“Word-L_K+1，L_K+1”

2.4将出现“Word-L_K+1，L_K+1”的URL从当前分类集合SET-K中取出来，组成新的URL分类集合。新URL分类集合前K的分类词显然来自于当前集合的K个分类词(含顺序)。新URL分类集合是当前分类集合的直接子分支。

2.5当前分类集合中如果没有URL元素，则表示当前URL分类集合已经全部分裂为多个直接子分支分类集合。如果还有URL元素，回到2.2重新开始计算次数和分裂。

3.当前所有K级K分类子集合都分裂完毕，则必然得到多个K+1级分类子集合。然后进入K+1轮的循环，对全部的新生成的K+1级分类集合继续分裂处理。最终则必然得到多个N级分类子集合。

4.此时实际上所有N级分类集合的分类词就可以上构成了深度为N的词树。K＝1的分类词是树的顶层，其直接子分支的词作为对应树的子节点。

算法实施样例：以以下集合为例

显然这是Path Length＝4的分类集合。

1.K＝1计算所有词的出现次数。count(“api”,1)＝4,count(“user”,2)＝2,count(“grp”，1)＝1，count(“detail”,4)＝4,其他略，显然最大次数是count(“api”,1)＝4和，count(“detail”,4)＝4。

2.任取count(“api”,1)＝4为最大次数，则分裂出1级子集合SET-1<“api”-1>＝{/api/user/u1234/detail,/api/user/u2345/detail,/api/grp/g1234/detail,/api/grp/g34/detail}.

3.原集合变成SET-0<>＝“/grp/g123/user/u4567”.

4.K＝1完毕。

5.K＝2开始，对于SET-1<“api”-1>＝{/api/user/u1234/detail,/api/user/u2345/detail,/api/grp/g1234/detail,/api/grp/g34/detail}.计算词出现次数,count(“user”,2)＝2,count(“grp”，1)＝1，count(“detail”,4)＝4，最大次数是count(“detail”,4)＝4

6.取count(“detail”,4)＝4最大，分裂为SET-2<“api”-1，“detail”-4>＝{/api/user/u1234/detail,/api/user/u2345/detail,/api/grp/g1234/detail,/api/grp/g34/detail}.

7.省略中间过程，最终得到以下4级集合

SET-4<”api”-1,“detail”-4,“user”-2,”u1234“-3>

SET-4<”api”-1,“detail”-4,“user”-2,”u2345“-3>

SET-4<”api”-1,“detail”-4,“grp”-2,”g1234“-3>

SET-4<”api”-1,“detail”-4,“grp”-2,”g34“-3>

SET-4<”grp”-1,“g123”-2,“user”-3,”u4567“-4>

8从而得到多级词树结构，如图5所示。

步骤204，从每个多级词树中确定出语义词和参数词。

在本实施例中，对于每个多级词树，从该多级词树的顶级节点开始进行遍历，选取预定深度的节点对应的词作为语义词，其它节点的词作为参数词。

在本实施例的一些可选的实现方式中，对于每个多级词树，从该多级词树的顶级节点开始进行遍历，当发现一个节点的子节点数量大于等于预定阈值,则将该节点的父节点直至顶级节点确定为语义词，将该节点向下的节点确定为参数词。

预定阈值T的含义是区别由人类设计是产生的含有语义的子分类的个数和由于参数变化产生的子分类个数。在WebAPI设计中，所有属于某一类的直接子方法一般不会超过5-20个，如果太多，是不利于开发人员使用和交流。一般开发人员会将较多的子方法再次聚合称为二级子方法。

例如，关于user的子方法有很多，但是又会分为信息查询类方法，修改方法等二级归类，于是就会出现如下api

/api/user/query/info

/api/user/query/org

/api/user/create/

/api/user/update/

而由于是位置参数而产生的子分支在一定数量，即使是较小规模的情况下，也会出现大量分支，如：(其中位置3是userID位置参数)

/api/user/u1234/query/info

/api/user/u2344/query/info

……

/api/user/u8765/query/info

因此一般T取值5-20之间比较合适。

在本文档中，由于篇幅所限，数据量过少，因此令T＝2。

从词树的顶级节点开始，进行遍历，当发现一个节点的子分支数量>＝T,则此节点(含此节点)的父节点直至顶级节点是语义词，此节点向下(子节点和孙节点等等)均为参数词。

在本实施例的一些可选的实现方式中，该方法还包括：使用与URL集合同等数量级的已知web访问入口的测试集对预定阈值进行验证；若验证出的分类词的数量超过期望值，则将预定阈值调大。T的值影响识别的准确性，可使用经验值进行识别，然后得到的识别结果进行分析，如果T较小的话，位置词会被误判成分类词。开发人员使用已知位置词和分类词的测试集，可分析出有没有误判。如果出现误判，则调整T值。同理，如果将分类词误判成位置词，则需要将T值调小。

步骤205，将URL集合中已经确定出的语义词和参数词的组合作为web访问入口输出。

在本实施例中，Path Pattern即为web入口。如上例所示，可以得到3个PathPattern

{“api”-1,“detail”-4,“user”-2,${}-3},URL的Path Pattern为/api/user/${}/detail

{“api”-1,“detail”-4,“grpr”-2,${}-3},URL Path Pattern为/api/grp/${}/detail

{“grp”-1,“g123”-2,“user”-3,“u4567”-4},URL Path Pattern为/grp/g123/user/u4567.

很显然，前2个结果非常准确，而第三个结果明显由于数据量太少而不太正确。但是可以明显看出，仅需小规模的数据量增加，第三个结果会有明显提高。

而在实际工作中，由于数据量过小会产生一些质量不高的结果，仅需将这些数据累积后，再重新运用此过程，则会有明显效果。

在本实施例的一些可选的实现方式中，该方法还包括：根据web访问入口进行网络访问流量的安全检测和/或性能监控。可以精准开启防护，既最大化减少影响，还能提高防御能力。例如，可根据web入口设置防止SQL注入规则。还可统计web入口的调用次数、平均响应时间等。能快速定位网站的问题。

从以上算法过程可以看出，算法的关键有3点：

1.“语义词一定会比分类词的出现次数高”，从而利用词的出现次数语义词先找出来作为分类词的顶级和前导节点。以下是证明：

给定当前path集合，其中所有可能的Path Pattern中同位置的”参数词”大于1，如果存在一个位置的一个词是语义词，则出现次数最高的词是一个“语义词”或者path所有的词都是“参数词”。

反证法：

设出现次数最高的词WordA，出现次数N-A。假设WordA是参数词。

令WordA属于PathA中出现，

分两种情况：PathA包含语义词和PathA中不包含语义词。

第一种情况：PathA中包含语义词，设其中有一个语义词WordSEC，依据定义，WordA出现则WordSEC一定会出现在同一个Path中。所以WordSEC出现次数不低于WordA的次数。再考虑到其中所有可能的Path Pattern中同位置的“参数词”大于1，即存在WordB，也是PathA相同的Pattern的参数词，则WordB的出现同样会导致WordSEC出现。至此，Count(WordSEC)>＝count(WordA)+count(WordB)>count(wordA)这和原假设wordA的次数最高矛盾。

第二种情况：PathA中不含有语义词,显然符合题设中的Path所有的词都是“参数词”。

因此，除非不存在语义词，否则“语义词一定会比分类词的出现次数高”

2.利用决策树的基本原理，利用数据集合进行判断后分为各个子集合，再次决策(步骤203)。避免了不同子集合见的数据干扰。

例如，如下集合实际Pattern为{/api/grp/${}/user/${}/update,/api/create/grp/${}

如果是简单通过词的出现次数的话，会发现参数词“g133”-1比语义词“create”-2次数还要多，会导致误把g133作为语义词。

但是利用步骤203“决策”后分为子集合，则很好的避免了这种干扰。

3.利用人类设计API时，由于人工处理能力有限，自然将语义词归类。这和由于参数词导致的大量分支有明显区别，依次可以设计经验值区分。见步骤204中确定分裂时的阈值T的过程。

进一步参考图6，作为对上述各图所示方法的实现，本公开提供了一种用于识别web访问入口的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例的用于识别web访问入口的装置600包括：获取单元601、归类单元602、分裂单元603、确定单元604、输出单元605。其中，获取单元601，被配置成获取待识别的URL集合，其中，每个URL包括协议标准、域名和路径；归类单元602，被配置成将所述URL集合中相同协议标准、相同域名、相同路径长度的URL归类为一个初始集合，得到至少一个初始集合；分裂单元603，被配置成基于决策树原理将每个初始集合分裂成至少一个子集合，基于每个初始集合及其子集合生成一个多级词树；确定单元604，被配置成从每个多级词树中确定出语义词和参数词；输出单元605，被配置成将所述URL集合中已经确定出的语义词和参数词的组合作为web访问入口输出。

在本实施例中，用于识别web访问入口的装置600的获取单元601、归类单元602、分裂单元603、确定单元604、输出单元605的具体处理可以参考图2对应实施例中的步骤201、步骤202、步骤203、步骤204和步骤205。

在本实施例的一些可选的实现方式中，该装置还包括统计单元(附图中未示出)，被配置成：在获取待识别的URL集合之后，对于每个URL，统计该URL中路径中由“/”分割的词的数量作为该URL的路径长度。

在本实施例的一些可选的实现方式中，归类单元602进一步被配置成：创建哈希映射表，其中，哈希映射表的键表示协议标准、域名、路径长度的组合，哈希映射表的值表示存储URL的列表；遍历URL集合中的URL，将当前URL的协议标准、域名、路径长度组成键，通过键从哈希映射表中取出对应的列表，如果没有对应的列表，则创建新的列表，将当前URL放入键对应的列表中；将哈希映射表中每个键和对应的列表确定为一个初始集合。

在本实施例的一些可选的实现方式中，分裂单元603进一步被配置成：基于该初始集合执行如下分裂步骤：计算该初始集合中每个URL的路径中的每个非分类词的位置和出现的次数；将初始集合中出现的次数最多的词确定为分类词并作为多级词树的节点，并将确定出的分类词对应的URL从初始集合中分裂出来，组成新的URL分类集合；如果该初始集合非空，则重复执行上述分裂步骤；如果该初始集合为空，则将每个新的URL分类集合作为初始集合继续执行上述分裂步骤，直到无法继续分裂。

在本实施例的一些可选的实现方式中，分裂单元603进一步被配置成：对于每个多级词树，从该多级词树的顶级节点开始进行遍历，当发现一个节点的子节点数量大于等于预定阈值,则将该节点的父节点直至顶级节点确定为语义词，将该节点向下的节点确定为参数词。

在本实施例的一些可选的实现方式中，该装置还包括调整单元(附图中未示出)，被配置成：使用与URL集合同等数量级的已知web访问入口的测试集对预定阈值进行验证；若验证出的分类词的数量超过期望值，则将预定阈值调大。

在本实施例的一些可选的实现方式中，该装置还包括应用单元(附图中未示出)被配置成：根据web访问入口进行网络访问流量的安全检测和/或性能监控。

下面参考图7，其示出了适于用来实现本公开的实施例的电子设备(例如图1中的服务器或网站)700的结构示意图。图7示出的网站/服务器仅仅是一个示例，不应对本公开的实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700可以包括处理装置(例如中央处理器、图形处理器等)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储装置708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有电子设备700操作所需的各种程序和数据。处理装置701、ROM 702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

通常，以下装置可以连接至I/O接口705：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置706；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置707；包括例如磁带、硬盘等的存储装置708；以及通信装置709。通信装置709可以允许电子设备700与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备700，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图7中示出的每个方框可以代表一个装置，也可以根据需要代表多个装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置709从网络上被下载和安装，或者从存储装置708被安装，或者从ROM 702被安装。在该计算机程序被处理装置701执行时，执行本公开的实施例的方法中限定的上述功能。需要说明的是，本公开的实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取待识别的URL集合，其中，每个URL包括协议标准、域名和路径；将URL集合中相同协议标准、相同域名、相同路径长度的URL归类为一个初始集合，得到至少一个初始集合；基于决策树原理将每个初始集合分裂成至少一个子集合，基于每个初始集合及其子集合生成一个多级词树；从每个多级词树中确定出语义词和参数词；将URL集合中已经确定出的语义词和参数词的组合作为web访问入口输出。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开的实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取单元、归类单元、分裂单元、确定单元、输出单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，获取单元还可以被描述为“获取待识别的URL集合的单元”。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于识别web访问入口的方法，包括：

获取待识别的URL集合，其中，每个URL包括协议标准、域名和路径；

将所述URL集合中相同协议标准、相同域名、相同路径长度的URL归类为一个初始集合，得到至少一个初始集合；

基于决策树原理将每个初始集合分裂成至少一个子集合，基于每个初始集合及其子集合生成一个多级词树；

从每个多级词树中确定出语义词和参数词；

将所述URL集合中已经确定出的语义词和参数词的组合作为web访问入口输出。

2.根据权利要求1所述的方法，其中，在所述获取待识别的URL集合之后，所述方法还包括：

对于每个URL，统计该URL中路径中由“/”分割的词的数量作为该URL的路径长度。

3.根据权利要求1所述的方法，其中，所述将所述URL集合中相同协议标准、相同域名、相同路径长度的URL归类为一个初始集合，得到至少一个初始集合，包括：

创建哈希映射表，其中，所述哈希映射表的键表示协议标准、域名、路径长度的组合，所述哈希映射表的值表示存储URL的列表；

遍历所述URL集合中的URL，将当前URL的协议标准、域名、路径长度组成键，通过键从所述哈希映射表中取出对应的列表，如果没有对应的列表，则创建新的列表，将当前URL放入所述键对应的列表中；

将所述哈希映射表中每个键和对应的列表确定为一个初始集合。

4.根据权利要求1所述的方法，其中，所述基于决策树原理将每个初始集合分裂成至少一个子集合，基于每个初始集合及其子集合生成一个多级词树，包括：

基于该初始集合执行如下分裂步骤：计算该初始集合中每个URL的路径中的每个非分类词的位置和出现的次数；将初始集合中出现的次数最多的词确定为分类词并作为多级词树的节点，并将确定出的分类词对应的URL从初始集合中分裂出来，组成新的URL分类集合；如果该初始集合非空，则重复执行上述分裂步骤；

5.根据权利要求1所述的方法，其中，所述从每个多级词树中确定出语义词和参数词，包括：

对于每个多级词树，从该多级词树的顶级节点开始进行遍历，当发现一个节点的子节点数量大于等于预定阈值,则将该节点的父节点直至顶级节点确定为语义词，将该节点向下的节点确定为参数词。

6.根据权利要求5所述的方法，其中，所述方法还包括：

使用与所述URL集合同等数量级的已知web访问入口的测试集对所述预定阈值进行验证；

若验证出的分类词的数量超过期望值，则将所述预定阈值调大。

7.根据权利要求1-6中任一项所述的方法，其中，所述方法还包括：

根据所述web访问入口进行网络访问流量的安全检测和/或性能监控。

8.一种用于识别web访问入口的装置，包括：

获取单元，被配置成获取待识别的URL集合，其中，每个URL包括协议标准、域名和路径；

归类单元，被配置成将所述URL集合中相同协议标准、相同域名、相同路径长度的URL归类为一个初始集合，得到至少一个初始集合；

分裂单元，被配置成基于决策树原理将每个初始集合分裂成至少一个子集合，基于每个初始集合及其子集合生成一个多级词树；

确定单元，被配置成从每个多级词树中确定出语义词和参数词；

输出单元，被配置成将所述URL集合中已经确定出的语义词和参数词的组合作为web访问入口输出。

9.一种用于识别web访问入口的电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-7中任一项所述的方法。