CN114978674A

CN114978674A - 一种爬虫识别增强的方法及装置、存储介质及电子设备

Info

Publication number: CN114978674A
Application number: CN202210547762.8A
Authority: CN
Inventors: 蔡逆水; 邓竹祥; 梁朝霞
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-08-30
Anticipated expiration: 2042-05-18
Also published as: CN114978674B

Abstract

本申请供了一种爬虫识别增强的方法、装置、存储介质及电子设备。本申请中，由服务器获取待检测网络地址及待检测网络地址对应的用户访问信息；对所述用户访问信息进行泛化处理；根据所述泛化处理后的用户访问信息提取访问源地址、目标矩阵及初始访问特征；将所述初始访问特征与案例特征库中的爬虫特征参数进行比对，进行异常爬取账单识别；将所述访问源地址和所述目标矩阵基于模型策略参数库获取目标结果簇；根据所述目标结果簇，确认所述访问源地址的访问特征是否属于爬虫特征参数；若是，则更新所述模型策略参数库和所述案例特征库，完成自学习。有利于对爬虫特征识别精度的提升，从而达到增加目标网站的反爬虫目的。

Description

一种爬虫识别增强的方法及装置、存储介质及电子设备

技术领域

本公开涉及数据处理技术领域，尤其涉及一种爬虫识别增强的方法及装置、存储介质及电子设备。

背景技术

网络爬虫(Web crawler)是一种“自动化浏览网络”的程序，或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站，以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容，以便做下一步的处理。

一些智能的搜索引擎爬虫的爬取频率比较合理，对网站资源消耗比较少；但是很多糟糕的网络爬虫，对网页爬取能力很差，经常并发上百个请求循环重复抓取，相当多的爬虫会对网站造成非常高的负载，造成网站访问压力非常大，导致网站访问速度缓慢甚至无法访问。因此，反爬虫(即，拒绝不合理的网络爬虫)成为网站安全的一项重要任务。

现有的识别恶意爬虫的方法是通过解析网站的服务器记录日志，从日志中找出频繁访问该网站的网络地址，并通过人工判断的方式识别恶意爬虫后将该网络地址过滤掉，禁止该网络地址再次访问该网站。但是人工判断的方式进行恶意爬虫识别，样本数量巨大且耗费时间。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本申请的目的在于提供一种爬虫识别增强的方法及装置、存储介质及电子设备，至少在一定程度上克服现有技术存在的问题，使得服务器快速识别爬虫，增加目标网站的反爬虫目的。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本申请的一个方面，提供一种爬虫识别增强的方法，包括：获取待检测网络地址及待检测网络地址对应的用户访问信息；对所述用户访问信息进行泛化处理；根据所述泛化处理后的用户访问信息提取访问源地址、目标矩阵及初始访问特征；将所述初始访问特征与案例特征库中的爬虫特征参数进行比对，进行异常爬取账单识别；将所述访问源地址和所述目标矩阵基于模型策略参数库获取目标结果簇；根据所述目标结果簇，确认所述访问源地址的访问特征是否属于爬虫特征参数；若是，则更新所述模型策略参数库和所述案例特征库，完成自学习。

在本申请的一个实施例中，所述将所述访问源地址和所述模板矩阵基于模型策略参数库获取目标结果簇，包括：基于模型策略参数库选取基于密度的空间聚类算法案例的特征信息、模型策略参数∈-邻域、最小点；从所述用户访问信息的访问日志数据集中选择重复率高且语义分析中相关度大于第一阈值的访问源地址的数据子集；将所述访问源地址作为分组窗口样本与所述目标矩阵进行类别聚合，获取目标结果簇，提取预设访问时间段内数据子集的访问源地址的访问特征。

在本申请的一个实施例中，所述根据所述目标结果簇，确认所述访问源地址的访问特征是否属于爬虫特征参数，包括：根据所述目标结果簇的访问流量，判断所述数据子集是否属于批量访问行为；若是，则将所述预设访问时间段内数据子集的访问源地址的访问特征作为爬虫特征参数。

在本申请的一个实施例中，所述更新所述模型策略参数库和所述案例特征库，完成自学习，包括：根据所述目标结果簇的访问流量，判断是否属于批量访问行为；若是，则更新所述案例特征库的统计维度基线参数和异常阈值，将所述访问特征作为爬虫特征参数；保存所述模型策略参数∈-邻域和所述最小点至所述模型策略参数库。

在本申请的一个实施例中，所述更新所述模型策略参数库和所述案例特征库，完成自学习，还包括：筛选出具有批量访问行为的用户访问信息；对具有批量访问行为的完整用户访问信息进行类别聚合，获取第二结果簇；根据所述第二结果簇的访问流量，判断是否属于批量访问行为；若是，则更新所述案例特征库的统计维度基线参数和异常阈值，将所述访问特征作为爬虫特征参数；保存所述模型策略参数∈-邻域和所述最小点至所述模型策略参数库。

在本申请的一个实施例中，所述对所述用户访问信息进行泛化处理，包括：将所述用户访问信息根据预设规则输出为泛化字符，将所述泛化字符作为令牌并存储至词典；根据机器学习算法提取每个令牌的向量值；将所述向量值集成为向量表；根据所述词典和所述向量表，将所述用户访问信息转化为令牌序列；将所述令牌序列转化成矩阵，以便于提取预设访问时间段内访问源地址的访问特征。

在本申请的一个实施例中，所述根据所述泛化处理后的用户访问信息提取访问源地址、目标矩阵及访问特征，包括：根据所述用户访问信息提取访问用户的IP地址、账户、手机号码或唯一识别用户信息标识的访问源地址；根据所述用户访问信息提取目标令牌序列，将所述目标令牌序列转化成目标矩阵；根据所述用户访问信息提取访问用户的访问时间、访问请求、访问Referer、访问用户代理、访问方法、返回状态、请求主机名、访问速率、访问URL种类数、访问URL总数、访问总时间、访问用户代理种类数、访问Referer种类数、访问方法种类数的访问特征。

根据本申请的另一个方面，提供一种爬虫识别增强的装置，包括：获取模块，被配置为获取待检测网络地址及待检测网络地址对应的用户访问信息；处理模块，被配置为对所述用户访问信息进行泛化处理；根据所述泛化处理后的用户访问信息提取访问源地址、目标矩阵及访问特征；将所述访问源地址和所述目标矩阵基于模型策略参数库获取目标结果簇；识别模块，被配置为将所述初始访问特征与案例特征库中的爬虫特征参数进行比对，进行异常爬取账单识别；更新模块，被配置为根据所述目标结果簇，确认所述访问源地址的访问特征是否属于爬虫特征参数；若是，则更新所述模型策略参数库和所述案例特征库，完成自学习。

根据本申请的再一个方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述的爬虫识别增强的方法。

根据本申请的又一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的爬虫识别增强的方法。

本申请的实施例所提供的一种爬虫识别增强的方法，获取待检测网络地址及待检测网络地址对应的用户访问信息，对所述用户访问信息进行泛化处理，根据所述泛化处理后的用户访问信息提取访问源地址、目标矩阵及初始访问特征；将所述初始访问特征与案例特征库中的爬虫特征参数进行比对，进行异常爬取账单识别；将所述访问源地址和所述目标矩阵基于模型策略参数库获取目标结果簇；根据所述目标结果簇，确认所述访问源地址的访问特征是否属于爬虫特征参数；若是，则更新所述模型策略参数库和所述案例特征库，完成自学习。本申请在进行爬虫识别时，通过采用判断用户访问特征与爬虫常见特征的相似性的基础识别方法和根据目标结果簇，确认访问源地址的访问特征是否属于爬虫特征参数的增强识别方法相融合的迭代更新形式，在爬虫识别的过程中完成模型策略参数库和案例特征库的更新，有利于对爬虫特征识别精度的提升，从而达到增加目标网站的反爬虫目的。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本申请一实施例所提供的一种爬虫识别增强的方法的流程图；

图2示出本申请一实施例所提供的一种爬虫识别增强的方法的另一流程图；

图3示出本申请一实施例所提供的一种爬虫识别增强的方法的再一流程图；

图4示出本申请一实施例所提供的一种爬虫识别增强的方法的再一流程图；

图5示出了本申请一实施例所提供的一种爬虫识别增强的装置的结构示意图；

图6示出了本申请一实施例所提供的一种电子设备的结构示意图；

图7示出了本申请一实施例所提供的一种存储介质的示意图。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

另外，本申请各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

需要说明的是，本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求部分指出。

应当理解的是，本申请并不局限于下面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

下面结合图1-图4来描述根据本申请示例性实施方式的用于进行爬虫识别增强的方法。需要注意的是，下述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。相反，本申请的实施方式可以应用于适用的任何场景。

一种实施方式中，本申请还提出一种爬虫识别增强的方法。图1示意性地示出了根据本申请实施方式的一种爬虫识别增强的方法的流程示意图。如图1所示，该方法应用于服务器，包括：

S101，获取待检测网络地址及待检测网络地址对应的用户访问信息。

一种方式中，服务器通过获取待检测网络地址的访问日志和流量，解析访问日志和流量，获取解析结果，以及从解析结果中获取待检测网络地址对应的用户访问信息。

S102，对所述用户访问信息进行泛化处理。

一种方式中，服务器对所有用户访问信息进行筛选，将符合一定特征的变量名泛化为<IP>、<CH>、<EMAIL>、<NUM>、<DATE>等。

通过将用户访问信息按照预设规则进行分类，使得服务器可以针对性对出现爬虫特征参数频率较高的同类型的变量名进行处理，提高了服务器识别爬虫特征的计算效率，从而达到增加目标网站的反爬虫目的。

S103，根据所述泛化处理后的用户访问信息提取访问源地址、目标矩阵及初始访问特征。

根据泛化处理后的用户访问信息提取访问用户的IP地址、账户、手机号码或唯一识别用户信息标识的访问源地址；

根据泛化处理后的用户访问信息提取目标令牌序列，将所述目标令牌序列转化成目标矩阵；

根据泛化处理后的用户访问信息提取访问用户的访问时间、访问请求、访问Referer、访问用户代理、访问方法、返回状态、请求主机名、访问速率、访问URL种类数、访问URL总数、访问总时间、访问用户代理种类数、访问Referer种类数、访问方法种类数的访问特征。

S104，将所述初始访问特征与案例特征库中的爬虫特征参数进行比对，进行异常爬取账单识别。

将初始访问特征与案例特征库中的各项统计维度基线参数和异常数据进行相似度比较。

其中，从案例特征库中获取已有的爬虫特征库统计维度基线参数和异常阈值，如：refer为空，user agent不标准、IP黑白名单、IP访问频率异常、IP并发量异常、访问频率固定、ip/api token访问频率异常、蜜罐资源页面访问等。

将相似度高于预设阈值的初始访问特征作为爬虫特征参数，更新所述案例特征库的统计维度基线参数和异常阈值，从而不断完善案例特征库的数据，有利于对爬虫特征识别精度的提升，从而达到增加目标网站的反爬虫目的。

S105，将所述访问源地址和所述目标矩阵基于模型策略参数库获取目标结果簇。

基于模型策略参数库选取基于DBSCAN案例的特征信息、模型策略参数∈-邻域、最小点；

从用户访问信息的访问日志数据集中选择重复率高且语义分析中相关度大于第一阈值的访问源地址的数据子集；

将访问源地址作为分组窗口样本与目标矩阵进行类别聚合，获取目标结果簇，提取预设访问时间段内数据子集的访问源地址的访问特征。

本申请基于模型策略参数库选择DBSCAN模型算法进行训练时，不是直接采用原始的用户访问日志数据全集，而是先对用户访问日志数据全集进行语义关联分析，筛选出流量较大且语义分析中具有一定相关度的访问源地址，并根据访问源地址选择对应的用户访问日志作为数据子集。服务器选择出现爬虫特征参数几率较大的数据作为样本，在尽可能保证所识别数据的准确率的前提下，又减少了所识别数据的样本，进而提高了服务器识别爬虫特征的计算效率。

S106，根据所述目标结果簇，确认所述访问源地址的访问特征是否属于爬虫特征参数，若是，则更新所述模型策略参数库和所述案例特征库，完成自学习。

根据所述目标结果簇的访问流量，判断是否属于批量访问行为；

若是，则更新所述案例特征库的统计维度基线参数和异常阈值，将所述访问特征作为爬虫特征参数；

保存所述模型策略参数∈-邻域和所述最小点至所述模型策略参数库。

本申请通过对目标结果簇(即数据子集)的访问流量进行快速识别，从而将属于批量访问行为的目标结果簇确认为异常流量，进而对案例特征库和模型策略参数库进行更新，从而不断完善案例特征库和模型策略参数库的数据，提高了案例特征库和模型策略参数库的完整性及准确性，有利于对爬虫特征识别精度的提升，进而达到增加目标网站的反爬虫目的。

本申请中，由服务器获取待检测网络地址及待检测网络地址对应的用户访问信息，对用户访问信息进行泛化处理，根据泛化处理后的用户访问信息提取访问源地址、目标矩阵及初始访问特征；将初始访问特征与案例特征库中的爬虫特征参数进行比对，进行异常爬取账单识别；将访问源地址和目标矩阵基于模型策略参数库获取目标结果簇；根据目标结果簇，确认访问源地址的访问特征是否属于爬虫特征参数；若是，则更新模型策略参数库和案例特征库，完成自学习。本申请在进行爬虫识别时，通过采用判断用户访问特征与爬虫常见特征的相似性的基础识别方法和根据目标结果簇，确认访问源地址的访问特征是否属于爬虫特征参数的增强识别方法相融合的迭代更新形式，在爬虫识别的过程中完成模型策略参数库和案例特征库的更新，有利于对爬虫特征识别精度的提升，从而达到增加目标网站的反爬虫目的。

可选地，在基于本申请上述方法的另一个实施例中，如图2所示，在S105(将所述访问源地址和所述目标矩阵基于模型策略参数库获取目标结果簇)中，可以实施下述步骤：

基于模型策略参数库选取基于密度的空间聚类算法案例的特征信息、模型策略参数∈-邻域、最小点；

从所述用户访问信息的访问日志数据集中选择重复率高且语义分析中相关度大于第一阈值的访问源地址的数据子集；

将所述访问源地址作为分组窗口样本与所述目标矩阵进行类别聚合，获取目标结果簇，提取预设访问时间段内数据子集的访问源地址的访问特征。

一种实施方式中，服务器从模型策略参数库中选取DBSCAN案例的特征信息，模型策略参数∈-邻域、MinPts；从用户访问信息的访问日志数据集，例如UA、TIME、IP、FLOW等中选择流量较大且语义分析中有一定相关度的TOPn(如50)个访问源地址的数据子集。以访问源地址作为分组窗口样本目标矩阵D进行类别聚合，反馈结果簇C，提取预设访问时间段内数据子集的特定访问源地址的访问特征。

进一步的，本申请在使用DBSCAN模型算法训练时，不是直接采用原始的用户访问日志数据全集，而是先对用户访问日志数据全集进行语义关联分析，筛选出流量较大且语义分析中具有一定相关度的访问源地址，并根据访问源地址选择对应的用户访问日志作为数据子集。服务器通过选择出现爬虫特征参数几率较大的数据作为样本，在尽可能保证所识别数据的准确率的前提下，又减少了所识别数据的样本，进而提高了服务器识别爬虫特征的计算效率。

可选地，在基于本申请上述方法的另一个实施例中，如图3所示，在S106(所述根据所述目标结果簇，确认所述访问源地址的访问特征是否属于爬虫特征参数)中，可以实施下述步骤：

根据所述目标结果簇的访问流量，判断所述数据子集是否属于批量访问行为；

若是，则将所述预设访问时间段内数据子集的访问源地址的访问特征作为爬虫特征参数。

一种实施方式中，根据安全行业对黑色产业链的分析，通常恶意批量访问行为由攻击者使用大量设备进行批量攻击产生，因此可以依据客户端的数量来检测是否存在恶意批量访问行为的攻击。例如，客户端的数量超过预设数量阈值，诸如100，就可以确定该数据子集中所包含的客户端为攻击来源。本实施例不对预设数量阈值进行限定。

另外，如果该数据子集中所包含的客户端数量超过预设数量阈值，且客户端的来源IP地址呈现非一致性分布，则可以确定该类包含的客户端为恶意批量攻击且使用代理服务器更换来源IP地址的攻击来源。其中非一致性分布可以是IP地址并非全部相同，或者并非一定程度的相同。

本发明实施例提供的方式除了能够对“薅羊毛”进行检测之外，还可以实现对“撞库”等恶意批量访问行为进行检测。“撞库”是攻击者通过收集互联网已泄露的用户和密码信息，生成对应的字典表，尝试批量登陆其他网站后，得到一系列可以登录的用户。很多用户在不同网站使用的是相同的帐号密码，因此攻击者可以通过获取用户在A网站的账户从而尝试登录B网址。服务器选择出现爬虫特征参数几率较大的数据，在尽可能保证所识别数据的准确率的同时又减小了所识别数据的样本，进而提高了服务器识别爬虫特征的计算效率。

可选地，在基于本申请上述方法的另一个实施例中，如图4所示，在S106(所述更新所述模型策略参数库和所述案例特征库，完成自学习)中，可以实施下述步骤：

一种实施方式中，服务器将依据客户端的数量来检测是否存在批量访问行为的攻击。例如，客户端的数量超过预设数量阈值，就可以确定该数据子集中所包含的客户端为攻击来源。针对大数据环境下数据全生命周期的安全，通过大数据综合分析、机器学习、人工智能等方法对流量较大且语义分析中具有一定相关度的用户访问信息进行分析、建模、建立基线，发现其中隐藏的有意/无意恶意行为以及未知攻击威胁，提高了服务器识别爬虫特征的计算效率，兼顾了检测精准度和实现复杂度；

此外，考虑到用户访问信息的差异性以及数据访问的动态性，还需对数据行为正常基线进行动态刷新以适应不断变化的数据流转环境，具备较准确的分析能力。

进一步的，服务器为了更准确的识别后续新接收到的用户访问信息是否为恶意爬虫信息，服务器将保存当前识别出爬虫特征参数的DBSCAN模型的模型策略参数∈-邻域和所述最小点至模型策略参数库中，以便后续使用更新后的模型策略参数库对新接收到的用户访问信息进行恶意爬虫信息识别。

可选地，在基于本申请上述方法的另一个实施例中，在S106(所述更新所述模型策略参数库和所述案例特征库，完成自学习)中，还可以实施下述步骤：

筛选出具有批量访问行为的用户访问信息；

对具有批量访问行为的完整用户访问信息进行类别聚合，获取第二结果簇；

根据所述第二结果簇的访问流量，判断是否属于批量访问行为；

一种实施方式中，服务器筛选出具有批量访问行为的日志数据集合，基于DBSCAN算法，调整选择合理的模型参数∈-邻域和MinPts，对目标WEB系统IP地址的访问日志集合进行聚类分析，访问日志集合中包括每次访问的请求和应答，例如UA、TIME、IP、FLOW等，发现相近规律的访问行为数据子集，生成聚类分析结果簇，通过统计结果簇的访问流量，判断是否属于批量访问行为。若不是，继续迭代学习；若是，则更新案例特征库的统计维度基线参数和异常阈值，将访问特征作为爬虫特征参数，保存所选择的模型策略参数∈-邻域和最小点至模型策略参数库中。

本申请是先从用户访问日志数据全集中选取流量较大且语义分析中有一定相关度的数据子集。在确定该数据子集属于批量访问行为后，对该数据子集所属的完整用户访问信息进行整体判断，确认是否还存在具有批量访问行为的其他数据子集，进而完善模型策略参数库和案例特征库的完整性。

可选地，在基于本申请上述方法的另一个实施例中，在S102(所述对所述用户访问信息进行泛化处理)中，还可以实施下述步骤：

将所述用户访问信息根据预设规则输出为泛化字符，将所述泛化字符作为令牌并存储至词典；

根据机器学习算法提取每个令牌的向量值；

将所述向量值集成为向量表；

根据所述词典和所述向量表，将所述用户访问信息转化为令牌序列；

将所述令牌序列转化成矩阵，以便于提取预设访问时间段内访问源地址的访问特征。

一种实施方式中，服务器对所有用户访问信息进行筛选，将符合一定特征的变量名泛化为<IP>、<CH>、<EMAIL>、<NUM>、<DATE>等，从而将用户访问信息输出为泛化字符，将泛化字符全部作为special token加入到词典中。然后用word2vector算法学习提取每个token的向量值，并将所有向量值集成为向量表。根据所得到的词典和向量表，将用户访问信息转化为token序列，例如[T0，T1，……Tx1，……Tx2，……Tx3，……Tn-1，Tn]。将token序列转化成矩阵，

以便于提取预设访问时间段内访问源地址的访问特征。

可选地，在基于本申请上述方法的另一个实施例中，在S102(所述根据所述泛化处理后的用户访问信息提取访问源地址、目标矩阵及访问特征)中，还可以实施下述步骤：

根据所述用户访问信息提取访问用户的IP地址、账户、手机号码或唯一识别用户信息标识的访问源地址；

根据所述用户访问信息提取目标令牌序列，将所述目标令牌序列转化成目标矩阵；

根据所述用户访问信息提取访问用户的访问时间、访问请求、访问Referer、访问用户代理、访问方法、返回状态、请求主机名、访问速率、访问URL种类数、访问URL总数、访问总时间、访问用户代理种类数、访问Referer种类数、访问方法种类数的访问特征。

一种实施方式中，服务器获取待检测网络地址IP对应的访问日志信息，在窗口期选取若干连续的token，称为目标序列，它是原始序列的子片段，服务器请求对应的访问日志信息的子片段，长度等于窗口的宽度win，将目标序列转化成目标矩阵，例如

本申请在进行爬虫识别时，通过采用判断用户访问特征与爬虫常见特征的相似性的基础识别方法和根据目标结果簇，确认访问源地址的访问特征是否属于爬虫特征参数的增强识别方法相融合的迭代更新形式，在爬虫识别的过程中完成模型策略参数库和案例特征库的更新，有利于对爬虫特征识别精度的提升，从而达到增加目标网站的反爬虫目的。此外，在DBSCAN模型算法训练时，不是直接采用原始的用户访问日志数据全集，而是从用户访问日志数据全集中首先进行语义关联分析，找出相关的较大的用户访问日志数据子集，这样更容易计算与判断。在融合了基础和增强爬虫识别功能的迭代处理爬虫识别时，采用对子集簇中的统计流量快速识别，符合后续模型对数据的使用，这样得到的模型策略有效性更高。

一种实施方式中，如图5所示，本申请还提供一种爬虫识别增强的装置，包括：

获取模块501，被配置为获取待检测网络地址及待检测网络地址对应的用户访问信息；

处理模块502，被配置为对所述用户访问信息进行泛化处理；根据所述泛化处理后的用户访问信息提取访问源地址、目标矩阵及访问特征；将所述访问源地址和所述目标矩阵基于模型策略参数库获取目标结果簇；

识别模块503，被配置为将所述初始访问特征与案例特征库中的爬虫特征参数进行比对，进行异常爬取账单识别；

更新模块504，被配置为根据所述目标结果簇，确认所述访问源地址的访问特征是否属于爬虫特征参数；若是，则更新所述模型策略参数库和所述案例特征库，完成自学习。

本申请中，由服务器获取待检测网络地址及待检测网络地址对应的用户访问信息，对所述用户访问信息进行泛化处理，根据所述泛化处理后的用户访问信息提取访问源地址、目标矩阵及初始访问特征；将所述初始访问特征与案例特征库中的爬虫特征参数进行比对，进行异常爬取账单识别；将所述访问源地址和所述目标矩阵基于模型策略参数库获取目标结果簇；根据所述目标结果簇，确认所述访问源地址的访问特征是否属于爬虫特征参数；若是，则更新所述模型策略参数库和所述案例特征库，完成自学习。本申请在进行爬虫识别时，通过采用判断用户访问特征与爬虫常见特征的相似性的基础识别方法和根据目标结果簇，确认访问源地址的访问特征是否属于爬虫特征参数的增强识别方法相融合的迭代更新形式，在爬虫识别的过程中完成模型策略参数库和案例特征库的更新，有利于对爬虫特征识别精度的提升，从而达到增加目标网站的反爬虫目的。

在本申请的另外一种实施方式中，处理模块502，被配置为：

在本申请的另外一种实施方式中，更新模块504，被配置为：

筛选出具有批量访问行为的用户访问信息；

对具有批量访问行为的完整用户访问信息进行类别聚合，获取第二结果簇，获取第二结果簇；

在本申请的另外一种实施方式中，处理模块502，被配置为：

根据机器学习算法提取每个令牌的向量值；

将所述向量值集成为向量表；

在本申请的另外一种实施方式中，处理模块502，被配置为：

本申请实施例提供了一种电子设备，如图6所示，其包括处理器600，存储器601，总线602和通信接口603，所述处理器600、通信接口603和存储器601通过总线602连接；所述存储器601中存储有可在所述处理器600上运行的计算机程序，所述处理器600运行所述计算机程序时执行本申请前述任一实施方式所提供的爬虫识别增强的方法。

其中，存储器601可能包含高速随机存取存储器(RAM：Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口603(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。

总线602可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中，存储器601用于存储程序，所述处理器600在接收到执行指令后，执行所述程序，前述本申请实施例任一实施方式揭示的所述爬虫识别增强的方法可以应用于处理器600中，或者由处理器600实现。

处理器600可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器600中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器600可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器601，处理器600读取存储器601中的信息，结合其硬件完成上述方法的步骤。

本申请的上述实施例提供的电子设备与本申请实施例提供的爬虫识别增强的方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

本申请实施例提供了一种计算机可读存储介质，如图7所示，所述计算机可读存储介质存储701有计算机程序，所述计算机程序被处理器702读取并运行时，实现如前述的爬虫识别增强的方法。

本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是空调器，制冷装置，个人计算机，服务器，或者网络设备等)或processor(处理器)执行本申请实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的爬虫识别增强的方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

本申请实施例提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行实现如前述所述的方法。

本申请的上述实施例提供的计算机程序产品与本申请实施例提供的爬虫识别增强的方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

需要说明的是，在本申请中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者还是包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本申请中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于爬虫识别增强的方法、电子装置、电子设备、以及可读存储介质实施例而言，由于其基本相似于上述所述爬虫识别增强的方法实施例，所以描述的比较简单，相关之处参见上述所述爬虫识别增强的方法实施例的部分说明即可。

虽然本申请披露如上，但本申请并非限定于此。任何本领域技术人员，在不脱离本申请的精神和范围内，均可作各种更动与修改，因此本申请的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种爬虫识别增强的方法，其特征在于，包括：

获取待检测网络地址及待检测网络地址对应的用户访问信息；

对所述用户访问信息进行泛化处理；

根据所述泛化处理后的用户访问信息提取访问源地址、目标矩阵及初始访问特征；

将所述初始访问特征与案例特征库中的爬虫特征参数进行比对，进行异常爬取账单识别；

将所述访问源地址和所述目标矩阵基于模型策略参数库获取目标结果簇；

根据所述目标结果簇，确认所述访问源地址的访问特征是否属于爬虫特征参数；

若是，则更新所述模型策略参数库和所述案例特征库，完成自学习。

2.根据权利要求1所述的爬虫识别增强的方法，其特征在于，所述将所述访问源地址和所述模板矩阵基于模型策略参数库获取目标结果簇，包括：

3.根据权利要求2所述的爬虫识别增强的方法，其特征在于，所述根据所述目标结果簇，确认所述访问源地址的访问特征是否属于爬虫特征参数，包括：

4.根据权利要求1所述的爬虫识别增强的方法，其特征在于，所述更新所述模型策略参数库和所述案例特征库，完成自学习，包括：

5.根据权利要求4所述的爬虫识别增强的方法，其特征在于，所述更新所述模型策略参数库和所述案例特征库，完成自学习，还包括：

筛选出具有批量访问行为的用户访问信息；

6.根据权利要求1所述的爬虫识别增强的方法，其特征在于，所述对所述用户访问信息进行泛化处理，包括：

根据机器学习算法提取每个令牌的向量值；

将所述向量值集成为向量表；

7.根据权利要求1所述的爬虫识别增强的方法，其特征在于，所述根据所述泛化处理后的用户访问信息提取访问源地址、目标矩阵及访问特征，包括：

8.一种爬虫识别增强的装置，其特征在于，包括：

获取模块，被配置为获取待检测网络地址及待检测网络地址对应的用户访问信息；

处理模块，被配置为对所述用户访问信息进行泛化处理；根据所述泛化处理后的用户访问信息提取访问源地址、目标矩阵及访问特征；将所述访问源地址和所述目标矩阵基于模型策略参数库获取目标结果簇；

识别模块，被配置为将所述初始访问特征与案例特征库中的爬虫特征参数进行比对，进行异常爬取账单识别；

更新模块，被配置为根据所述目标结果簇，确认所述访问源地址的访问特征是否属于爬虫特征参数；若是，则更新所述模型策略参数库和所述案例特征库，完成自学习。

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1～7中任意一项所述的爬虫识别增强的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～7中任意一项所述的爬虫识别增强的方法。