CN116910331A

CN116910331A - 请求的识别方法、装置、设备及存储介质

Info

Publication number: CN116910331A
Application number: CN202211600556.5A
Authority: CN
Inventors: 边增亚; 刘阳; 张雪艳; 张晶; 高源�
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2022-12-12
Filing date: 2022-12-12
Publication date: 2023-10-20

Abstract

本申请公开了一种请求的识别方法，该方法包括：获取用户设备发起的至少一个访问请求，并确定每个访问请求的主题；基于主题对至少一个访问请求进行聚类处理，得到至少一个主题簇；基于各个主题簇中的访问请求的数量，确定用户设备发起的访问请求所表征的行为类型；其中，行为类型用于表征用户设备的访问行为是否为自动抓取万维网信息的程序或者脚本的行为。本申请还公开了一种请求的识别装置、电子设备及计算机可读存储介质。

Description

请求的识别方法、装置、设备及存储介质

技术领域

本申请涉及但不限于通信领域，尤其涉及一种请求的识别方法、请求的识别装置、电子设备及计算机可读存储介质。

背景技术

网络爬虫(Web Crawler)是一种按照特定规则，自动抓取万维网信息的程序或者脚本，广泛应用在数据挖掘、舆情分析、搜索引擎等业务领域。网络爬虫通常从种子页面的列表页开始抓取，通过遍历请求中的详情页链接，获取到详情页响应并提取出目标信息。目前，网络中存在一些非法的爬虫，通过程序请求，批量获取网站系统的核心数据或敏感信息，造成信息泄露的安全隐患。因此，网站系统需要具备识别网络爬虫请求的功能。

相关技术中，针对网络爬虫请求多采用如下三种方式对网络爬虫行为的检测，第一种流量检测方式，即对网络爬虫请求所在的网际互连协议(Internet Protocol，IP)地址进行流量区间统计，当流量超过阈值时，则认定为爬虫请求；第二种频率检测方式，即对网络爬虫请求使用的账号进行请求频率统计，当请求频率超过阈值时，则认定为爬虫请求；第三种请求头检测方式，即对网络爬虫请求的请求头数据进行检测和校验，例如请求头中的用户代理(User-Agent，UA)、Cookies、引用来源(Referer)等字段，当字段缺失或异常时，则认定为爬虫请求。

然而，随着网络爬虫技术的发展，越来越多的爬虫程序可以伪装成一个近乎真实的用户，通过低频的随机时间间隔的爬虫请求，绕过流量和频率检测，再通过伪装Headers和模拟浏览器等方法，绕过浏览器/请求头字段的检测。因此，相关技术中对爬虫行为的检测方法，至少存在漏识别的问题。

发明内容

本申请实施例提供一种请求的识别方法、请求的识别装置、电子设备及计算机可读存储介质。

本申请的技术方案是这样实现的：

第一方面，本申请实施例提供的一种请求的识别方法，所述方法包括：

获取用户设备发起的至少一个访问请求，并确定每个所述访问请求的主题；

基于所述主题对所述至少一个访问请求进行聚类处理，得到至少一个主题簇；

基于各个所述主题簇中的访问请求的数量，确定所述用户设备发起的访问请求所表征的行为类型；其中，所述行为类型用于表征所述用户设备的访问行为是否为自动抓取万维网信息的程序或者脚本的行为。

第二方面，本申请实施例提供的一种请求的识别装置，所述信息处理装置包括：

获取模块，用于获取用户设备发起的至少一个访问请求；

处理模块，用于确定每个所述访问请求的主题；

所述处理模块，还用于基于所述主题对所述至少一个访问请求进行聚类处理，得到至少一个主题簇；

所述处理模块，还用于基于各个所述主题簇中的访问请求的数量，确定所述用户设备发起的访问请求所表征的行为类型；其中，所述行为类型用于表征所述用户设备的访问行为是否为自动抓取万维网信息的程序或者脚本的行为。

第三方面，本申请实施例提供的一种电子设备，所述电子设备包括：处理器、存储器和通信总线；

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令，以实现如上述的请求的识别方法的步骤。

第四方面，本申请实施例提供的一种存储有可执行指令的计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上述的请求的识别方法的步骤。

本申请实施例提供一种请求的识别方法、请求的识别装置、电子设备及计算机可读存储介质，该方法包括：获取用户设备发起的至少一个访问请求，并确定每个访问请求的主题；基于主题对至少一个访问请求进行聚类处理，得到至少一个主题簇；基于各个主题簇中的访问请求的数量，确定用户设备发起的访问请求所表征的行为类型；其中，行为类型用于表征用户设备的访问行为是否为自动抓取万维网信息的程序或者脚本的行为。也就是说，本申请对用户设备发起的访问请求的内容进行追踪和分析，通过分析访问请求的资源内容是否主题相关来识别爬虫请求，实现爬虫请求的精准识别，解决了相关技术中对爬虫行为的检测方法至少存在漏识别的问题；并对识别到的爬虫请求进行封禁和限制，保障了网站系统中数据的安全，减少爬虫请求对网站系统的服务器的攻击，降低网络带宽的消耗。

附图说明

图1为本申请的实施例提供的请求的识别方法的流程示意图一；

图2为本申请的实施例提供的请求的识别方法的流程示意图二；

图3为本申请的实施例提供的一种请求的识别装置的结构示意图；

图4为本申请的实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

本申请的实施例提供一种请求的识别方法，应用于电子设备，参照图1所示，该方法包括以下步骤：

步骤101、获取用户设备发起的至少一个访问请求，并确定每个访问请求的主题。

本申请实施例中，电子设备获取用户设备在目标时长内发起的所有访问请求，所有访问请求可以是一个，也可以是多个。即，若用户设备在目标时长内仅发起的一个访问请求时，那么，步骤101中确定的是该一个访问请求的主题，确定出的主题的数量也是一个；若用户设备在目标时长内发起的是多个访问请求时，那么，步骤101中确定出的是多个访问请求中每一个访问请求的主题，确定出的访问请求的主题的数量也是多个；即，访问请求的主题的数量与访问请求的数量一一对应。

本申请实施例中，访问请求的主题可以是用户设备确定的，也可以是与用户设备关联的其他设备发送给用户设备的。

本申请实施例中，用户设备(User Equipment，UE)包括可以包括诸如手机、平板电脑、笔记本电脑、个人数字助理(Personal Digital Assistant，PDA)、相机、可穿戴设备等移动终端设备，以及诸如台式计算机等固定终端设备。

本申请实施例中，访问请求包括用户设备发起的用于对网站系统的服务器进行访问的请求。

本申请实施例中，访问请求可以是在用户点击了用户设备的客户端呈现的访问界面中相应的组件后，用户设备生成的访问请求。访问请求还可以是当用户打开目标链接地址后，在呈现的搜索界面中，对相应的组件执行点击操作后，电子设备生成访问请求。当然，电子设备还可以基于其他方式生成上述访问请求，本申请对此不做具体限定。

本申请实施例中，访问请求的主题可以理解为访问请求中访问数据的主题/类型，或访问请求的访问主题；示例性的，访问请求A中的访问数据均与主题B关联的数据，那么，访问请求A的主题为主题B。或访问请求B是用于对主题C进行访问，那么，访问请求B的主题为主题C。访问请求的主题可以通过对访问数据进行语义分析得到。

本申请实施例中，访问请求的每一主题均设置有唯一的主题标识/标签，本步骤可以确定用户设备发起的每一访问请求的主题标识/标签。其中，标识包括颜色标识、图形标识、文字标识、数字标识、位置标识等。同一类型主题使用同一类型的标识/标签。

步骤102、基于主题对至少一个访问请求进行聚类处理，得到至少一个主题簇。

本申请实施例中，根据每一访问请求的主题，对用户设备发起的所有访问请求进行聚类，得到至少一个主题簇；其中，每一主题簇中的访问请求的主题相同或相似。

本申请实施例中，主题簇的数量可以是一个，也可以是多个。也就是说，若访问请求的数量为一个，聚类处理后，得到一个主题簇；若访问请求的数量为多个，聚类处理后，可以得到一个主题簇，或得到多个主题簇。

本申请实施例中，聚类过程可以使用不同算法实现聚类，按照聚类算法可以将用户设备发起的所有访问请求分成至少一个簇(cluster)，同一簇内的访问请求之间具有相同的属性或者特征，即访问请求的主题相同或相似。这里，实现本申请中的聚类功能可以由软件系统实现、也可以由硬件设备实现、还可以由软件系统和硬件设备结合实现。

本申请实施例中，聚类算法包括但不限于k-均值聚类(k-means clustering，K-means)算法、基于密度的聚类(density-based spatial clustering of applicationswith noise，DBSCAN)算法、凝聚层次聚类(agglomerative hierarchical clustering，AHC)算法、统计信息网格聚类(statistical information grid，STING)算法和最大期望(expectation-maximization algorithm，EM)算法。

步骤103、基于各个主题簇中的访问请求的数量，确定用户设备发起的访问请求所表征的行为类型。

其中，行为类型用于表征用户设备的访问行为是否为自动抓取万维网信息的程序或者脚本的行为；行为类型包括用户正常访问行为对应的类型和爬虫异常访问行为对应的类型。

本申请实施例中，若行为类型为用户正常访问行为对应的类型，即用户设备的访问行为不为自动抓取万维网信息的程序或者脚本的行为。若行为类型为爬虫异常访问行为对应的类型，即用户设备的访问行为是自动抓取万维网信息的程序或者脚本的行为，即网络爬虫。

本申请实施例中，基于各个主题簇中的访问请求的数量，确定用户设备发起的访问请求所表征的行为类型，可以通过如下步骤包括：

首先，计算各个主题簇中每一主题簇所包括的访问请求的数量；

然后，根据每一主题簇中访问请求的数量，从各个主题簇中选取目标主题簇。其中，目标主题簇中访问请求的数量大于数量阈值。

再次，计算所有目标主题簇中访问请求的数量总和。

最后，比较目标主题簇中访问请求的数量总和与用户设备发起的所有访问请求的数量的比值；并基于比值确定用户设备发起的访问请求所表征的行为类型。

或，基于各个主题簇中的访问请求的数量，确定用户设备发起的访问请求所表征的行为类型，还可以通过如下步骤包括

直接判断各个主题簇中每一主题簇中访问请求的数量与数量阈值的大小关系，确定用户设备发起的访问请求所表征的行为类型。

这里，比较目标主题簇中访问请求的数量总和与用户设备发起的所有访问请求的数量的比值用于判断用户设备发起的访问请求是否高度集中于某些主题。判断各个主题簇中每一主题簇中访问请求的数量与数量阈值的大小关系用于判断用户设备发起的访问请求是否均为离散的主题。

需要说明的是，用户在正常浏览和搜索网页资源时，某一时间段内的行为特征会高度集中于某些主题，而恶意的网络爬虫，通常采取遍历的方式，对目标网站进行无差别爬取，即访问请求的主题离散。因此，可以通过分析用户请求的资源内容是否主题相关来识别爬虫请求。

本申请的实施例提供一种请求的识别方法，该方法包括：获取用户设备发起的至少一个访问请求，并确定每个访问请求的主题；基于主题对至少一个访问请求进行聚类处理，得到至少一个主题簇；基于各个主题簇中的访问请求的数量，确定用户设备发起的访问请求所表征的行为类型；其中，行为类型用于表征用户设备的访问行为是否为自动抓取万维网信息的程序或者脚本的行为。也就是说，本申请对用户设备发起的访问请求的内容进行追踪和分析，通过分析访问请求的资源内容是否主题相关来识别爬虫请求，实现爬虫请求的精准识别，解决了相关技术中对爬虫行为的检测方法至少存在漏识别的问题；并对识别到的爬虫请求进行封禁和限制，保障了网站系统中数据的安全，减少爬虫请求对网站系统的服务器的攻击，降低网络带宽的消耗。

进一步的，本申请提供的请求的识别方法可以在相关技术的基于爬虫行为的检测方法，从请求内容和爬虫行为两方面进行判定，如此，有效提高爬虫请求识别的准确度。

本申请实施例中，步骤101中的确定每个访问请求的主题，可以通过如下步骤实现：

步骤A1、对每个访问请求的内容摘要文本进行过滤处理，得到包括多个关键词的句子列表。

本申请实施中，对访问请求的内容摘要文本进行过滤处理包括对内容摘要文本进行分词、错误纠正(如纠正内容摘要文本中出现错误的词语等)、进行去噪(如去除无意义的字母、符号等字符)、(又例如去除停用词以及检测每个单词的词性)中的任意一种或多种。其中，停用词，可以包括内容指示含义较低的功能词等词汇，通常难以指示文本的语义，如“一个”、“这些”、“的”等难以指示文本语义的词汇。

在一些实施例中，对每个访问请求的内容摘要文本进行过滤处理，得到包括多个关键词的句子列表，可以理解为电子设备过滤掉不属于关键词的字或词，提取到多个关键字，并得到包括多个关键字的句子列表；其中，关键词可以是从内容摘要文本的名称、提要和正文中选取出来的，对表述内容摘要文本的中心内容有实质意义的词汇。

示例性的，电子设备可以基于自然语言处理(Natural Language Processing，NLP)技术用词频-逆文本频率(term frequency–inverse document frequency，TF-IDF)算法对文档进行关键词的提取。

步骤A2、确定句子列表中任意两个句子之间的相似度。

本申请实施例中，电子设备在获取到句子列表的情况下，进而获取句子列表对应的多个向量；进而计算任意两个向量之间相似度。

步骤A3、基于相似度，计算句子列表中各句子的权重系数。

本申请实施例中，基于相似度，计算句子列表中各句子的权重系数可以通过如下方式实现：基于任意两个向量之间的相似度，迭代调整每一句子对应的向量所对应的权重系数。

步骤A4、选取权重系数符合系数筛选条件的句子对应的主题为访问请求的主题。

在一些实施例中，为了对用户设备发起的访问请求的内容进行更加精炼的概括，本申请可以采用相关技术中提取算法对对请求内容的摘要信息的主题句进行提取。

示例性的，以文本排名(TextRank)算法为例，采用TextRank算法对请求内容的摘要信息进行主题句提取，包括如下步骤：

首先，对用户设备发起的访问请求的内容摘要文本进行分句分词处理，然后通过停用词过滤和词性过滤进行词项过滤，得到词项构成的句子列表。

其次，计算句子列表中各句子的相似度。这里，电子设备可以基于各句子之间重叠信息量计算预处理后的句子相似度，公式如下：

其中，Similarity(S_i,S_j)用于表征计算句子S_i与句子S_j之间的相似度；S_i和S_j用于表征两个句子，句子S_i中包括N_i个词项句子S_j中包括M_i个词项w_k用于表征句子S_i和句子S_j中一个词项。

再次，计算句子权重。以内容摘要文本中的句子为节点，句子间的相似度为边建立图模型，根据TextRank算法迭代计算各节点的权重，直至收敛。任一句子节点V_i的权重WS(V_i)计算公式(2)如下：

其中，d用于表征阻尼系数(0≤d≤1)，一般取0.85，用于确保每个节点的权重值大于0。In(V_i)表示指向节点V_i的所有节点集合，Out(V_j)表示指向节点V_j的所有节点集合。w(ij)表示节点V_i和节点V_j之间边的权重。需要说明的是，w(ij)＝Similarity(S_i,S_j)。

最后，提取主题句。

示例性的，对权重收敛后的所有句子进行排序，选取其中得分最高的句子作为主题句。当然，也可以选取其中得分在预设得分范围内的句子作为主题句。

本申请实施例中，步骤102中的基于主题对至少一个访问请求进行聚类处理，得到至少一个主题簇，可以通过如下步骤实现：

步骤B1、基于每个访问请求的接收时间，确定每个访问请求对应的每个滑动窗口。

本申请实施例中，为了防止低速的随机时间间隔的爬虫请求，本申请对用户设备发起的访问请求以滑动窗口的形式进行分析；即在得到用户设备发起的访问请求后，基于每一访问请求的接收时间，确定每一访问请求的滑动窗口。

本申请中的滑动窗口可以理解为用于缓存一定时间长度的访问请求的访问数据的容器。

步骤B2、基于每个滑动窗口中的访问请求的主题，对所有滑动窗口中的访问请求进行聚类处理，得到至少一个主题簇。

本申请以每一滑动窗口中的访问请求为分析单位，先基于每个滑动窗口中的访问请求的主题，对每个滑动窗口中的访问请求的主题进行聚类，得到每个滑动窗口对应的至少一个主题簇；并基于滑动窗口对应的至少一个主题簇中访问请求的数量，确定滑动窗口中的访问请求所表征的行为类型。进一步的，通过对网站系统中所有的滑动窗口中访问请求所表征的行为类型的汇总分析，得到用户设备发起的访问请求所表征的行为类型。如此，提高了识别请求所表征的行为类型的准确度。

本申请实施例中，若至少一个访问请求的数量为一个，那么，该访问请求对应的滑动窗口的数量也为一个，那么，对该滑动窗口中的一个访问请求进行聚类处理，得到主题簇的数量也是一个。若至少一个访问请求的数量为多个时，那么，该多个访问请求可以容纳于多个滑动窗口，也可以容纳于一个滑动窗口；即，每一滑动窗口中的访问请求的数量可以为一个，也可以为多个。进一步的，若滑动窗口中访问请求的数量为一个，那么，对该滑动窗口中的访问请求进行聚类处理，得到主题簇也是一个；若滑动窗口中访问请求的数量为多个，那么，对该滑动窗口中的访问请求进行聚类处理，得到主题簇的数量可以是一个，也可以是多个。

进一步的，步骤B1中的基于每个访问请求的接收时间，确定每个访问请求对应的每个滑动窗口，可以通过如下步骤实现：

步骤B11、得到接收到的第N个访问请求的接收时间，以及第M个滑动窗口的长度。

其中，第M个滑动窗口为第N-1个访问请求对应的滑动窗口；N是大于2，且小于等于用户设备发送的所有访问请求对应的数量的正整数；M是大于等于1，小于等于N的正整数。

步骤B12、基于第N个访问请求的接收时间和第M个滑动窗口的长度，确定第N个访问请求对应的目标滑动窗口

本申请实施例中，若第N个访问请求的接收时间在预设时长内，且第M个滑动窗口的长度大于或等于预设长度，确定目标滑动窗口为第M个滑动窗口；若第N个访问请求的接收时间不在预设时长内，或第M个滑动窗口的长度小于预设长度，确定目标滑动窗口为第M+1个滑动窗口。

这里，预设长度指的是第M个滑动窗口已有访问请求的长度与第N个访问请求的长度的和对应的长度。预设时长即滑动窗口的限定时间是网站系统为一个滑动窗口预先设置的最大时间范围，即该滑动窗口只能容纳该时间范围内所接收到的访问请求，超出该时间范围的访问请求，会被指示到下一滑动窗口。

本申请实施例中，在得到用户设备发起的访问请求后，若判断出该访问请求不是用户设备发起的第一个或第二个访问请求时，先判定该访问请求的时间是否在前一访问请求对应的滑动窗口的限定时间，即预设时长内，以及前一访问请求对应的滑动窗口中剩余长度是否大于或等于该访问请求的长度，若该访问请求在前一访问请求对应的滑动窗口的限定时间内，且前一访问请求对应的滑动窗口中剩余长度大于或等于该访问请求的长度，确定该访问请求的滑动窗口为前一访问请求对应的滑动窗口；若该访问请求不在前一访问请求对应的滑动窗口的限定时间内或前一访问请求对应的滑动窗口中剩余长度小于该访问请求的长度，则该访问请求的滑动窗口作为前一访问请求对应的滑动窗口的下一滑动窗口的第一个请求。这里，前一访问请求对应的滑动窗口长度包括前一访问请求对应的滑动窗口中剩余长度和该滑动窗口已有访问请求的长度。

在一些实施例中，滑动窗口中可以包括A个访问请求；这里，A为正整数，且大于0，小于或等于滑动窗口的默认长度所能容纳数量的访问请。A个访问请求可以是预设时间内所能得到的访问请求。

在一些实施例中，若访问请求的接收时间表征访问请求为用户设备发送的第一个访问请求，确定第一个访问请求的滑动窗口为第一个滑动窗口；若访问请求的接收时间表征访问请求为用户设备发送的第二个访问请求，判断第二个访问请求的接收时间是否在预设时长内；若第二个访问请求的接收时间在预设时长内，确定第二个访问请求的滑动窗口为第一个滑动窗口；若第二个访问请求的接收时间不在预设时长内，确定第二个访问请求的滑动窗口为第二个滑动窗口。

在一些实施例中，本申请设定滑动窗口的默认长度为l，实际长度为l’，步长为p(1≤p＜l)，标记变量为stamp，时间限定为t，t时间内的总请求数为n，则滑动窗口构建算法步骤如下：

步骤C1、得到用户设备发起的一个请求，并标记为stamp，作为滑动窗口A的开始及窗口A的第一个请求。

步骤C2、继续得到用户设备发起的后续请求，当后续请求的时间位于前一标记stamp的时间限定t内时，将该请求放入滑动窗口A，并执行步骤C3，否则执行步骤C4。

步骤C3、判断该滑动窗口A的长度是否大于默认长度l，大于则执行步骤C5，否则执行步骤C2。

步骤C4、判断该滑动窗口A内的请求数是否大于p，大于则执行步骤C5，否则执行步骤C6。

步骤C5、标记stamp＝stamp+p，则执行步骤C1。

步骤C6、标记stamp＝n，则执行步骤C1。

需要说明的是，当用户设备停止发起请求时，会停止执行上述循环的过程。

本申请实施例中，步骤B2中的基于每个滑动窗口中的访问请求的主题，对所有滑动窗口中的访问请求进行聚类处理，得到至少一个主题簇，可以通过如下步骤实现：

步骤B21、确定位于聚类中心的访问请求的主题。

步骤B22、计算位于聚类中心的访问请求的主题与滑动窗口中各访问请求的主题之间的相似度。

步骤B23、将相似度大于或等于相似度阈值的主题对应的访问请求分到同一主题簇中。

其中，至少一个主题簇包括同一主题簇。

本申请实施例中，电子设备基于用户设备发起的访问请求的内容主题句和滑动窗口，对窗口内的请求进行主题句聚类，得到至少一个主题簇。

示例性的，本申请采用基于信息传递机制的亲和传播(affinity propagation，AP)算法进行聚类，聚类的步骤包括如下：

步骤D1、对滑动窗口中的每一访问请求的主题句进行两两相似度计算，得到相似度矩阵。

示例性的，滑动窗口A中包含n个访问请求，对n个访问请求的主题句进行两两相似度计算，得到n×n的相似度矩阵S_n×n：

其中，S₁₁、S_1n、S_n1和S_nn表示其中两个访问请求的主题句之间的相似度。

步骤D2、构建初始化的吸引度矩阵r和归属度矩阵a。

其中，吸引度矩阵r和归属度矩阵a初始化为0。

步骤D3、根据公式(4)和公式(5)，迭代更新吸引度矩阵r和归属度矩阵a。

其中，r(i,k)表示访问请求的主题句k作为访问请求的主题句i的聚类中心的适合程度；a(i,k)表示访问请求的主题句i选择访问请求的主题句k作为其聚类中心的适合程度；S(i,k)表示访问请求的主题句k和访问请求的主题句i的相似度。

步骤D3、若迭代次数到达预设值，或聚类中心不随迭代计算而变化，则停止迭代，执行步骤D4，否则重复执行步骤D2。

步骤D4、将r(i,k)与a(i,k)相加，选取每一行中数值最大的点作为聚类的中心点。

步骤D5、根据聚类中心点对主题句进行归类，计算各个访问请求的主题句到聚类中心的距离，若访问请求的主题句小于或等于预设的最大距离distance时，则将访问请求的主题句归类到距离最小的聚类中心所在的一个类簇中。若访问请求的主题句到聚类中心的距离大于预设的最大距离distance时，则该访问请求的主题句离散，单独成簇。

本申请实施例中，各个访问请求的主题句到聚类中心的距离包括当不限于欧式距离、马氏距离和汉明距离。

本申请实施例中，若聚类后的主题簇数量较少，且最大簇中的请求数占窗口总请求数的比例较高，则用户设备发起的访问请求所表征的行为类型为用户正常访问行为对应的类型；反之，则表明窗口内的请求内容主题较为离散，则用户设备发起的访问请求所表征的行为类型为爬虫异常访问行为对应的类型。

在一些实施例中，确定用户设备发起的访问请求所表征的行为类型可以通过步骤E1至步骤E3实现，也可以通过步骤E1至步骤E2、步骤E4实现：

步骤E1、从至少一个主题簇中，筛选出数量大于数量阈值的目标主题簇。

步骤E2、计算目标主题簇中的访问请求的第一数量与滑动窗口中的访问请求的第二数量的比值。

步骤E3、若比值大于或等于预设比值，确定行为类型属于用户正常访问行为。

步骤E4、若比值小于预设比值，确定行为类型属于爬虫异常访问行为。

本申请实施例中，电子设备可以基于主题簇中访问请求的数量，对主题簇进行降序排序；并筛选出前N个主题簇。其中，前N个主题簇的访问请求的数量大于数量阈值。或直接基于主题簇中访问请求的数量，筛选出主题簇中访问请求的数量大于数量阈值的目标主题簇，无需排序。

进一步的，统计前N个主题簇中的请求数量在整个滑动窗口内的占比，即其中，s(Top1)用于表征降序排列中数量最多的主题簇中包括的访问请求的数量；s(Top1)用于表征降序排列中数量第二的主题簇中包括的访问请求的数量；s(Top2)用于表征降序排列中数量第N的主题簇中包括的访问请求的数量。S用于表征滑动窗口中包括的总请求数。当/>时，表明用户在该滑动窗口内的请求内容主题相关性较好，为正常用户行为；当/>时，则判定请求为爬虫请求行为。这里，P值和选取的前N个(TopN)主题簇请求数可根据网站系统内容的实际情况通过实验获得参考数值，用于调整爬虫请求行为判定的严格程度。

图2是本申请实施例提供的一种请求的识别的流程示意图。

步骤201、根据用户设备发起的访问请求中内容摘要文本，提取访问请求的内容主题句。

步骤202、基于用户标识信息，构建每个用户设备对应的访问请求的滑动窗口。

步骤203、根据主题相关度，对滑动窗口内请求内容的主题句进行聚类计算，得到主题簇。

步骤204、分析各个主题簇中的请求数量在整个滑动窗口内的占比，并依据占比进行爬虫请求行为判定。

本申请的实施例提供一种请求的识别装置，该请求的识别装置可以应用于图1对应的实施例提供的一种请求的识别方法中，参照图3所示，该请求的识别装置3包括：

获取模块302，用于获取用户设备发起的至少一个访问请求；

处理模块301，用于确定每个访问请求的主题；

处理模块301，用于基于主题对至少一个访问请求进行聚类处理，得到至少一个主题簇；

处理模块301，用于基于各个主题簇中的访问请求的数量，确定用户设备发起的访问请求所表征的行为类型；其中，行为类型用于表征用户设备的访问行为是否为自动抓取万维网信息的程序或者脚本的行为。

在本申请的其他实施例中，处理模块301，用于基于每个访问请求的接收时间，确定每个访问请求对应的滑动窗口；

处理模块301，用于基于每个滑动窗口中的访问请求的主题，对所有滑动窗口中的访问请求进行聚类处理，得到至少一个主题簇。

在本申请的其他实施例中，处理模块301，用于得到接收到的第N个访问请求的接收时间，以及第M个滑动窗口的长度；其中，第M个滑动窗口为第N-1个访问请求对应的滑动窗口；N是大于2，且小于等于用户设备发送的所有访问请求对应的数量的正整数；M是大于等于1，小于等于N的正整数；

处理模块301，用于基于第N个访问请求的接收时间和第M个滑动窗口的长度，确定第N个访问请求对应的目标滑动窗口。

在本申请的其他实施例中，处理模块301，用于若第N个访问请求的接收时间在预设时长内，且第M个滑动窗口的长度大于或等于预设长度，确定目标滑动窗口为第M个滑动窗口；

处理模块301，用于若第N个访问请求的接收时间不在预设时长内，或第M个滑动窗口的长度小于预设长度，确定目标滑动窗口为第M+1个滑动窗口。

在本申请的其他实施例中，处理模块301，用于若访问请求的接收时间表征访问请求为用户设备发送的第一个访问请求，确定第一个访问请求的滑动窗口为第一个滑动窗口；

处理模块301，用于若访问请求的接收时间表征访问请求为用户设备发送的第二个访问请求，判断第二个访问请求的接收时间是否在预设时长内；

处理模块301，用于若第二个访问请求的接收时间在预设时长内，确定第二个访问请求的滑动窗口为第一个滑动窗口；

处理模块301，用于若第二个访问请求的接收时间不在预设时长内，确定第二个访问请求的滑动窗口为第二个滑动窗口。

在本申请的其他实施例中，处理模块301，用于对每个访问请求的内容摘要文本进行过滤处理，得到包括多个关键词的句子列表；

处理模块301，用于确定句子列表中任意两个句子之间的相似度；

处理模块301，用于基于相似度，计算句子列表中各句子的权重系数；

处理模块301，用于选取权重系数符合系数筛选条件的句子对应的主题为访问请求的主题。

在本申请的其他实施例中，处理模块301，用于确定位于聚类中心的访问请求的主题；

处理模块301，用于计算位于聚类中心的访问请求的主题与滑动窗口中各访问请求的主题之间的相似度；

处理模块301，用于将相似度大于或等于相似度阈值的主题对应的访问请求分到同一主题簇中；其中，至少一个主题簇包括同一主题簇。

在本申请的其他实施例中，处理模块301，用于从至少一个主题簇中，筛选出数量大于数量阈值的目标主题簇；

处理模块301，计算目标主题簇中的访问请求的第一数量与滑动窗口中的访问请求的第二数量的比值；

处理模块301，若比值大于或等于预设比值，确定行为类型属于用户正常访问行为；

处理模块301，若比值小于预设比值，确定行为类型属于爬虫异常访问行为。

需要说明的是，本实施例中处理模块301所执行的步骤的具体实现过程，可以参照图1对应的实施例提供的请求的识别方法中的实现过程，此处不再赘述。

本申请的实施例提供一种电子设备，该电子设备可以应用于图1对应的实施例提供的一种请求的识别方法中，参照图4所示，该电子设备4(图4中的电子设备4与图3中的请求的识别装置3对应)包括：处理器401、存储器402和通信总线403，其中：

通信总线403用于实现处理器401和存储器402之间的通信连接。

处理器401用于执行存储器402中存储的请求的识别程序，以实现以下步骤：

获取用户设备发起的至少一个访问请求，并确定每个访问请求的主题；

基于主题对至少一个访问请求进行聚类处理，得到至少一个主题簇；

基于各个主题簇中的访问请求的数量，确定用户设备发起的访问请求所表征的行为类型；其中，行为类型用于表征用户设备的访问行为是否为自动抓取万维网信息的程序或者脚本的行为。

在本申请的其他实施例中，处理器401用于执行存储器402中存储的请求的识别程序，以实现以下步骤：

基于每个访问请求的接收时间，确定每个访问请求对应的滑动窗口；

基于每个滑动窗口中的访问请求的主题，对所有滑动窗口中的访问请求进行聚类处理，得到至少一个主题簇。

得到接收到的第N个访问请求的接收时间，以及第M个滑动窗口的长度；其中，第M个滑动窗口为第N-1个访问请求对应的滑动窗口；N是大于2，且小于等于用户设备发送的所有访问请求对应的数量的正整数；M是大于等于1，小于等于N的正整数；

基于第N个访问请求的接收时间和第M个滑动窗口的长度，确定第N个访问请求对应的目标滑动窗口。

若第N个访问请求的接收时间在预设时长内，且第M个滑动窗口的长度大于或等于预设长度，确定目标滑动窗口为第M个滑动窗口；

若第N个访问请求的接收时间不在预设时长内，或第M个滑动窗口的长度小于预设长度，确定目标滑动窗口为第M+1个滑动窗口。

若访问请求的接收时间表征访问请求为用户设备发送的第一个访问请求，确定第一个访问请求的滑动窗口为第一个滑动窗口；

若访问请求的接收时间表征访问请求为用户设备发送的第二个访问请求，判断第二个访问请求的接收时间是否在预设时长内；

若第二个访问请求的接收时间在预设时长内，确定第二个访问请求的滑动窗口为第一个滑动窗口；

若第二个访问请求的接收时间不在预设时长内，确定第二个访问请求的滑动窗口为第二个滑动窗口。

对每个访问请求的内容摘要文本进行过滤处理，得到包括多个关键词的句子列表；

确定句子列表中任意两个句子之间的相似度；

基于相似度，计算句子列表中各句子的权重系数；

选取权重系数符合系数筛选条件的句子对应的主题为访问请求的主题。

确定位于聚类中心的访问请求的主题；

计算位于聚类中心的访问请求的主题与滑动窗口中各访问请求的主题之间的相似度；

将相似度大于或等于相似度阈值的主题对应的访问请求分到同一主题簇中；其中，至少一个主题簇包括同一主题簇。

从至少一个主题簇中，筛选出数量大于数量阈值的目标主题簇；

计算目标主题簇中的访问请求的第一数量与滑动窗口中的访问请求的第二数量的比值；

若比值大于或等于预设比值，确定行为类型属于用户正常访问行为；

若比值小于预设比值，确定行为类型属于爬虫异常访问行为。

本申请实施例所提供的方法可以直接体现为由处理器401执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器402，处理器401读取存储器402中软件模块包括的可执行指令，结合必要的硬件完成本申请实施例提供的方法。

作为示例，处理器401可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

需要说明的是，本实施例中处理器所执行的步骤的具体实现过程，可以参照图1对应的实施例提供的请求的识别方法中的实现过程，此处不再赘述。

本申请的实施例提供一种计算机可读存储介质，该计算机可读存储介质存储有一个或者多个程序，该一个或者多个程序可被一个或者多个处理器执行，以实现如图1对应的实施例提供的请求的识别方法中的实现过程，此处不再赘述。

这里需要指出的是：以上存储介质和设备实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请存储介质和设备实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

上述计算机存储介质/存储器可以是只读存储器(Read Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory，FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory，CD-ROM)等存储器；也可以是包括上述存储器之一或任意组合的各种终端，如移动电话、计算机、平板设备、个人数字助理等。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”或“本申请实施例”或“前述实施例”或“一些实施例”或“一些实施方式”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”或“本申请实施例”或“前述实施例”或“一些实施例”或“一些实施方式”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

值得注意的是，本申请实施例中的附图只是为了说明各个器件在终端设备上的示意位置，并不代表在终端设备中的真实位置，各器件或各个区域的真实位置可根据实际情况(例如，终端设备的结构)作出相应改变或偏移，并且，图中的终端设备中不同部分的比例并不代表真实的比例。

以上所述，仅为本申请的实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种请求的识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述主题对所述至少一个访问请求进行聚类处理，得到至少一个主题簇，包括：

基于每个所述访问请求的接收时间，确定每个所述访问请求对应的每个滑动窗口；

基于所述每个滑动窗口中的访问请求的主题，对所有滑动窗口中的访问请求进行聚类处理，得到所述至少一个主题簇。

3.根据权利要求2所述的方法，其特征在于，所述基于每个所述访问请求的接收时间，确定每个所述访问请求对应的每个滑动窗口，包括：

得到接收到的第N个访问请求的接收时间，以及第M个滑动窗口的长度；其中，所述第M个滑动窗口为第N-1个访问请求对应的滑动窗口；所述N是大于2，且小于等于所述用户设备发送的所有访问请求对应的数量的正整数；所述M是大于等于1，小于等于N的正整数；

基于所述第N个访问请求的接收时间和第M个滑动窗口的长度，确定所述第N个访问请求对应的目标滑动窗口。

4.根据权利要求3所述的方法，其特征在于，所述基于所述第N个访问请求的接收时间和第M个滑动窗口的长度，确定所述第N个访问请求对应的目标滑动窗口，包括：

若所述第N个访问请求的接收时间在预设时长内，且所述第M个滑动窗口的长度大于或等于预设长度，确定所述目标滑动窗口为所述第M个滑动窗口；

若所述第N个访问请求的接收时间不在所述预设时长内，或所述第M个滑动窗口的长度小于所述预设长度，确定所述目标滑动窗口为所述第M+1个滑动窗口。

5.根据权利要求2所述的方法，其特征在于，所述基于每个所述访问请求的接收时间，确定每个所述访问请求对应的每个滑动窗口，包括：

若所述访问请求的接收时间表征所述访问请求为所述用户设备发送的第一个访问请求，确定所述第一个访问请求的滑动窗口为第一个滑动窗口；

若所述访问请求的接收时间表征所述访问请求为所述用户设备发送的第二个访问请求，判断所述第二个访问请求的接收时间是否在预设时长内；

若所述第二个访问请求的接收时间在所述预设时长内，确定所述第二个访问请求的滑动窗口为所述第一个滑动窗口；

若所述第二个访问请求的接收时间不在所述预设时长内，确定所述第二个访问请求的滑动窗口为第二个滑动窗口。

6.根据权利要求1所述的方法，其特征在于，所述确定每个所述访问请求的主题，包括：

对每个所述访问请求的内容摘要文本进行过滤处理，得到包括多个关键词的句子列表；

确定所述句子列表中任意两个句子之间的相似度；

基于所述相似度，计算所述句子列表中各句子的权重系数；

选取权重系数符合系数筛选条件的句子对应的主题为所述访问请求的主题。

7.根据权利要求2所述的方法，其特征在于，所述基于所述每个滑动窗口中的访问请求的主题，对所有滑动窗口中的访问请求进行聚类处理，得到所述至少一个主题簇，包括：

确定位于聚类中心的访问请求的主题；

计算所述位于聚类中心的访问请求的主题与所述滑动窗口中各访问请求的主题之间的相似度；

将所述相似度大于或等于相似度阈值的主题对应的访问请求分到同一主题簇中；其中，所述至少一个主题簇包括所述同一主题簇。

8.根据权利要求2所述的方法，其特征在于，所述基于各个所述主题簇中的访问请求的数量，确定所述用户设备发起的访问请求所表征的行为类型，包括：

从所述至少一个主题簇中，筛选出所述数量大于数量阈值的目标主题簇；

计算所述目标主题簇中的访问请求的第一数量与所述滑动窗口中的访问请求的第二数量的比值；

若所述比值大于或等于预设比值，确定所述行为类型属于用户正常访问行为；

若所述比值小于所述预设比值，确定所述行为类型属于爬虫异常访问行为。

9.一种请求的识别装置，其特征在于，所述包括：

获取模块，用于获取用户设备发起的至少一个访问请求；

处理模块，用于确定每个所述访问请求的主题；

10.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至8中任一项所述的请求的识别方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1至8中任一项所述的请求的识别方法。