CN117596081B

CN117596081B - 一种基于机器学习的社区爬虫行为识别方法及系统

Info

Publication number: CN117596081B
Application number: CN202410075661.4A
Authority: CN
Inventors: 陈德勇; 李元海
Original assignee: Beijing Wuyou Chuangxiang Information Technology Co ltd
Current assignee: Beijing Wuyou Chuangxiang Information Technology Co ltd
Priority date: 2024-01-18
Filing date: 2024-01-18
Publication date: 2024-03-26
Anticipated expiration: 2044-01-18
Also published as: CN117596081A

Abstract

本发明公开了一种基于机器学习的社区爬虫行为识别方法，包括：收集日志数据和用户生成内容数据，并对收集到的日志数据和用户生成内容数据进行预处理，以生成各特征数据，通过相关性分析方法确定出各特征数据之间的关联关系；创建序列数据；基于所述各特征数据之间的关联关系和创建出的序列数据，进行数据标注处理；基于训练集，通过自编码器神经网络模型和深度学习模型进行反复联合训练生成爬虫行为识别模型，并基于所述爬虫行为识别模型自动识别出爬虫数据。本申请能够对复杂多变的爬虫行为进行高效、精确的识别，提高了网络安全防护水平，保护了社区网站的内容安全、用户隐私及正常运行，并有助于防止恶意攻击行为。

Description

一种基于机器学习的社区爬虫行为识别方法及系统

技术领域

本发明涉及网络安全技术领域，尤其涉及一种基于机器学习的社区爬虫行为识别方法及系统畜。

背景技术

随着互联网的迅速发展和大数据时代的兴起，网络爬虫的应用范围逐渐扩展，不仅在商业领域有广泛应用，还在社区和特定领域发挥着重要作用。然而，爬虫行为可能引发数据隐私泄露、服务器过载等一系列问题，因此对其行为进行有效识别和分析至关重要。当前，市面上的传统爬虫识别方法多基于事先设定的规则，但对于行为复杂多变的社区场景中的爬虫，这些方法通常难以有效识别。

因此，如何提供一种有效的爬虫行为识别方法，对复杂多变的爬虫行为进行高效、精确的识别是目前有待解决的技术问题。

发明内容

本发明的目的是提供一种基于机器学习的社区爬虫行为识别方法，包括：

收集日志数据和用户生成内容数据，并对收集到的日志数据和用户生成内容数据进行预处理，以生成各特征数据，所述日志数据包括访问日志数据、错误日志数据和安全日志数据，所述用户生成内容数据至少包括文章标题、内容文章、发布时间和/或文章标签；

通过相关性分析方法确定出各特征数据之间的关联关系，所述各特征数据之间的关联关系包括与爬虫行为相关联的特征数据，以及与用户发帖行为相关联的特征数据；

创建序列数据，所述序列数据包括访问序列数据和内容序列数据，所述访问序列数据为收集到的日志数据在时间上的排序，所述内容序列数据为用户生成内容在时间上的排序，所述内容序列数据用于捕获用户的发帖数据随时间的变化情况；

基于所述各特征数据之间的关联关系和创建出的序列数据，进行数据标注处理，所述数据标注处理为对与爬虫行为相关联的特征数据进行第一数据标记，以及对识别出的与用户发帖行为相关联的特征数据进行第二数据标记，对进行标记的第一数据和第二数据生成数据集，并将所述数据集按照预设比例分为训练集和测试集，所述训练集和测试集中的数据均包括访问序列数据和内容序列数据；

基于所述训练集，通过自编码器神经网络模型和深度学习模型进行反复联合训练生成爬虫行为识别模型，并基于所述爬虫行为识别模型自动识别出爬虫数据，其中，所述测试集用于对所述爬虫行为识别模型进行优化调整。

一些实施例中，通过相关性分析方法确定出各特征数据之间的关联关系，包括：

对各特征数据进行规范化处理；

采用Apriori算法确定进行规范化处理后的各特征数据之间的关联规则；

基于所述各特征数据之间的关联规则，根据关联度量值选择强关联特征,以确定各特征数据之间的关联关系。

一些实施例中，对收集到的日志数据和用户生成内容数据进行预处理，包括：

对收集到的日志数据和用户生成内容数据至少进行数据清洗、数据空值处理和/或数据异常值处理。

一些实施例中，所述训练集和测试集的预设比例为7:3，所述训练集为在时间序列上靠前的数据，所述测试集为在时间序列上靠后的数据。

一些实施例中，基于所述训练集，通过自编码器神经网络模型和深度学习模型进行反复联合训练生成爬虫行为识别模型，并基于所述爬虫行为识别模型自动识别出爬虫数据，包括：

基于所述训练集中的访问序列数据，构建自编码器神经网络模型,所述自编码器神经网络模型包括输入层、编码层和解码层，所述输入层的节点数对应访问序列数据的特征维度,编码层将访问序列数据压缩为低维向量，所述解码层将压缩为低维向量的访问序列数据进行结构化处理；

采用循环神经网络作为编码器,学习提取进行结构化处理后访问序列数据之间的长期依赖关系，

预训练所述编码器；

基于预训练后的编码器，使用标签数据Fine-tune网络，调整参数以识别爬虫数据。

一些实施例中，还包括：

构建循环神经网络模型；

将训练集中的内容序列数据转换为词向量序列；

基于所述词向量序列，通过构建的循环神经网络模型，调整参数以识别爬虫数据。

一些实施例中，所述方法还包括：

通过自编码器神经网络模型和深度学习模型进行反复联合训练生成爬虫行为识别模型；

使用测试集评估爬虫行为识别模型的性能，并基于评估结果对爬虫行为识别模型进行优化调整，以提升所述爬虫行为识别模型的性能。

一些实施例中，基于评估结果对爬虫行为识别模型进行优化调整，包括：

挑选出所述测试集中的进行错误预测的样本；

将所述样本进行统计分析，并基于分析结果对爬虫行为识别模型进行重新训练。

一些实施例中，自动识别出爬虫数据之后，还包括：

针对不同类型的爬虫数据，采用相对应的处理措施，所述处理措施包括限制用户发帖速度、阻止请求、限制IP、对识别出的自动发帖内容打标记和/或设置陷阱页面。

相应的，本申请还提供了一种基于机器学的社区爬虫行为识别系统，包括：

收集模块，用于收集日志数据和用户生成内容数据，并对收集到的日志数据和用户生成内容数据进行预处理，以生成各特征数据，所述日志数据包括访问日志数据、错误日志数据和安全日志数据，所述用户生成内容数据至少包括文章标题、内容文章、发布时间和/或文章标签；

生成模块，用于通过相关性分析方法确定出各特征数据之间的关联关系，所述各特征数据之间的关联关系包括与爬虫行为相关联的特征数据，以及与用户发帖行为相关联的特征数据；

创建模块，用于创建序列数据，所述序列数据包括访问序列数据和内容序列数据，所述访问序列数据为收集到的日志数据在时间上的排序，所述内容序列数据为用户生成内容在时间上的排序，所述内容序列数据用于捕获用户的发帖数据随时间的变化情况；

数据标记模块，用于基于所述各特征数据之间的关联关系和创建出的序列数据，进行数据标注处理，所述数据标注处理为对与爬虫行为相关联的特征数据进行第一数据标记，以及对识别出的与用户发帖行为相关联的特征数据进行第二数据标记，对进行标记的第一数据和第二数据生成数据集，并将所述数据集按照预设比例分为训练集和测试集，所述训练集和测试集中的数据均包括访问序列数据和内容序列数据；

识别模块，用于基于所述训练集，通过自编码器神经网络模型和深度学习模型进行反复联合训练生成爬虫行为识别模型，并基于所述爬虫行为识别模型自动识别出爬虫数据，其中，所述测试集用于对所述爬虫行为识别模型进行优化调整。

有益效果：

本发明提供了一种基于社区的新颖且有效的爬虫行为识别与分析方法，其利用机器学习技术，可对复杂多变的爬虫行为进行高效、精确的识别，提高了网络安全防护水平，保护了社区网站的内容安全、用户隐私及正常运行，并有助于防止恶意攻击行为。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种基于机器学习的社区爬虫行为识别方法的流程示意图；

图2为本申请实施例提供的一种基于机器学习的社区爬虫行为识别系统的结构示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将结合附图和实施例或现有技术的描述对本发明作简单地介绍，显而易见地，下面关于附图结构的描述仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在此需要说明的是，对于这些实施例方式的说明用于帮助理解本发明，但并不构成对本发明的限定。

应当理解，尽管本文可能使用术语第一、第二等等来描述各种单元，但是这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。例如可以将第一单元称作第二单元,并且类似地可以将第二单元称作第一单元，同时不脱离本发明的示例实施例的范围。

应当理解，对于本文中可能出现的术语“和/或”，其仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，单独存在B，同时存在A和B三种情况；对于本文中可能出现的术语“/和”，其是描述另一种关联对象关系，表示可以存在两种关系，例如，A/和B，可以表示：单独存在A，单独存在A和B两种情况；另外，对于本文中可能出现的字符“/”，一般表示前后关联对象是一种“或”关系。

实施例1：

如图1所示为本发明实施例提出的一种基于机器学习的社区爬虫行为识别方法的流程示意图，包括：

S21，收集日志数据和用户生成内容数据，并对收集到的日志数据和用户生成内容数据进行预处理，以生成各特征数据。

具体的，数据收集：网络服务器的日志实时收集关键数据（日志数据），包括但不限于IP 地址、访问的URL、请求的时间、用户代理等；除了日志，还要收集用户在社区生成的内容数据即用户生成内容数据。所述日志数据包括访问日志数据、错误日志数据和安全日志数据，收集日志数据和用户生成内容数据之后，对收集到的日志数据和用户生成内容数据进行预处理，以生成各特征数据。对收集到的日志数据和用户生成内容数据至少进行数据清洗、数据空值处理和/或数据异常值处理。

1）访问日志:记录用户访问网站的详细信息,包括 IP 地址、访问时间、请求的URL地址、返回状态码等；

2）错误日志:记录网站在运行过程中出现的各种错误信息,包括错误类型、错误发生时间等；

3）安全日志:记录访问网站时的安全事件，如登录失败次数、被拒绝访问等，这些数据可以通过自动脚本实时收集，也可以定期从服务器日志中提取；

4）用户生成内容数据：用户发布的文章标题、内容、发布时间和/或文章标签等。

S22，通过相关性分析方法确定出各特征数据之间的关联关系。

为了得到各特征数据之间的关联关系，在本方案的优选实施例中，通过相关性分析方法确定出各特征数据之间的关联关系，包括：

对各特征数据进行规范化处理；

具体的，收集数据后,通过关联规则学习等方法,分析不同特征之间的关联关系,帮助确定入模特征。对各特征数据进行规范化处理，采用Apriori算法确定进行规范化处理后的各特征数据之间的关联规则，基于所述各特征数据之间的关联规则，根据关联度量值选择强关联特征,以确定各特征数据之间的关联关系。

S23，创建序列数据。

具体的，所述序列数据包括访问序列数据和内容序列数据，所述访问序列数据为收集到的日志数据在时间上的排序，所述内容序列数据为用户生成内容在时间上的排序，所述内容序列数据用于捕获用户的发帖数据随时间的变化情况；为了使用 LSTM，将用户的发帖数据视为一个时间序列，每个用户的帖子可以在时间上排序，并创建相应的序列数据，其能够帮助模型捕获用户的发帖行为随时间的变化，其中，访问序列数据是用于后面的自编码器模型训练的数据集，内容序列数据是用于后面的深度学习模型训练的数据集。

S24，基于所述各特征数据之间的关联关系和创建出的序列数据，进行数据标注处理。

具体的，基于所述各特征数据之间的关联关系和创建出的序列数据，进行数据标注处理，所述数据标注处理为对与爬虫行为相关联的特征数据进行第一数据标记，以及对识别出的与用户发帖行为相关联的特征数据进行第二数据标记，对进行标记的第一数据和第二数据生成数据集，并将所述数据集按照预设比例分为训练集和测试集，所述训练集和测试集中的数据均包括访问序列数据和内容序列数据。要将已有识别为爬虫的数据集和普通用户的数据集丢给模型进行训练，让模型从数据集中提取出对应的特征，用于后续的识别。

S25，基于所述训练集，通过自编码器神经网络模型和深度学习模型进行反复联合训练生成爬虫行为识别模型，并基于所述爬虫行为识别模型自动识别出爬虫数据。

为了能够准确识别出爬虫数据，在本方案的优选实施例中，基于所述训练集，通过自编码器神经网络模型和深度学习模型进行反复联合训练生成爬虫行为识别模型，并基于所述爬虫行为识别模型自动识别出爬虫数据，包括：

预训练所述编码器；

具体的，构建过程包括：

1、明确自编码器的网络结构,例如输入层使用Dense层,编码层和解码层可以使用LSTM或GRU,以提取时间序列特征。

2、优化编码层大小,保证可以有效压缩输入序列的特征表示。一般设置为输入大小的1/2或1/3。

3、设置网络参数的随机初始化方法,例如Glorot正态分布初始化。

4、指定网络的损失函数,例如MSE、交叉熵等。

5、明确网络的优化器,例如Adam、RMSprop等。

6、设置合适的Batch_size,一般取32、64或128。

7、训练过程中设置合理的Early Stopping,避免过拟合。

自编码器是一种神经网络模型，可以用于无监督学习和特征提取。它的主要目的是将输入数据编码为一种更紧凑、更有意义的表示，并通过解码器将其重新构建回原始形式。使用这个模型的目的主要是用于特征提取，还考虑到可以用于存储空间的优化

为了能够准确识别出爬虫数据，在本方案的优选实施例中，还包括：

构建循环神经网络模型；

将训练集中的内容序列数据转换为词向量序列；

基于所述词向量序列，通过构建的循环神经网络模型,调整参数以识别爬虫数据。

具体的，内容 LSTM 循环神经网络模型训练：

（1）构建循环神经网络模型(如 LSTM),作为文本特征提取器；

（2）将用户发帖内容转换为词向量序列,输入LSTM模型；

(3)LSTM隐层状态表示文本语义特征；

(4)循环网络学习用户语义特征,表示用户语义偏好模式；

(5)将 LSTM 语义特征表示输入全连接分类层；

(6)全连接层判别语义特征是否属于自动发帖爬虫；

(7)通过标签数据训练监督分类模型,调整参数识别爬虫模式，其中，“标签数据”指的是数据标注处理中的人工标注的包含爬虫数据和普通用户数据的训练集。

“监督分类模型”指的是LSTM循环神经网络模型。该模型是一个二分类模型,可以区分普通用户和爬虫。

“训练”就是指使用带标签的用户生成内容数据,针对上一步所构建的内容LSTM模型进行监督训练。通过训练优化该模型的参数。

“调整参数”也是指的在训练过程中,通过计算损失函数的梯度下降法不断优化更新模型中各层的参数,如LSTM层权重矩阵、全连接层权重矩阵等。

通过自编码器神经网络模型和深度学习模型进行反复联合训练之后，生成爬虫行为识别模型，使用训练好的爬虫行为识别模型对实时的网络请求进行分析，对爬虫行为进行自动识别，并根据预测结果采取相对应的处理措施，如阻止请求、限制IP地址等。除了限制 IP地址外,还设置陷阱页面,引导识别出的爬虫访问,从而死循环爬取无用信息；同时，针对不同类型爬虫,返回不同错误页面,削弱其获取有效信息的能力。对发帖频次异常的账户，采取发帖限速、人机校验码等措施。

为了能够准确识别出爬虫数据，在本方案的优选实施例中，通过自编码器神经网络模型和深度学习模型进行反复联合训练生成爬虫行为识别模型；

使用测试集评估爬虫行为识别模型的性能，并基于评估结果对爬虫行为识别模型进行优化调整，以提升所述爬虫行为识别模型的性能。其中，根据评估结果对爬虫行为识别模型进行优化调整，包括：挑选出测试集中的进行错误预测的样本；将所述样本进行统计分析，并基于分析结果对爬虫行为识别模型进行重新训练。

为了进一步阐述本发明的技术思想，现结合具体的应用场景，对本发明的技术方案进行说明。

步骤一，数据收集：网络服务器的日志实时收集关键数据（日志数据），包括但不限于IP 地址、访问的URL、请求的时间、用户代理等；除了日志，还要收集用户在社区生成的内容数据即用户生成内容数据。所述日志数据包括访问日志数据、错误日志数据和安全日志数据，收集日志数据和用户生成内容数据之后，对收集到的日志数据和用户生成内容数据进行预处理，以生成各特征数据。对收集到的日志数据和用户生成内容数据至少进行数据清洗、数据空值处理和/或数据异常值处理。

步骤二，数据相关性分析：收集数据后,通过关联规则学习等方法,分析不同特征之间的关联关系,帮助确定入模特征。

(1)收集网络日志后,对各特征数据进行规范化处理；

(2)采用 Apriori 算法等发现特征之间的关联规则；

(3)根据关联度量值选择强关联特征,形成候选特征集；

(4)经过相关性分析的特征集fed入模型训练。

步骤三，数据处理与特征选择：对收集的数据进行预处理，包括数据清洗、空值处理、异常值处理等。然后，根据对爬虫行为的理解，选择与爬虫行为相关的特征，如请求频率、访问页面的分散性等。为了使用LSTM，将用户的发帖数据视为一个时间序列。每个用户的帖子可以在时间上排序，并创建相应的序列数据。这可以帮助模型捕获用户的发帖行为随时间的变化。

识别爬虫行为较为困难，一些聪明的爬虫会模仿人类用户的行为。以下是识别爬虫行为的可用的方法和指标：

（1）请求频率：爬虫通常会在短时间内发送大量的请求，而人类用户则不太可能这样做。如果一个IP地址在短时间内发送了大量的请求，那么这个IP地址大概率属于一个爬虫。

（2）访问时间：爬虫可能在任何时间进行活动，包括深夜和清晨。如果一个IP地址在这些时候发送了大量的请求，那么这个IP地址大概率数据一个爬虫。

（3）用户代理：爬虫可能会使用特定的用户代理，或者不使用用户代理。如果一个请求的用户代理看起来可疑，那么这个请求大概率来自于一个爬虫。

（4）访问模式：爬虫通常会按照某种固定的模式访问页面，例如按照字母顺序，或者按照页面的链接。如果一个IP地址的访问模式看起来像是按照某种固定的模式，那么这个IP地址大概率属于一个爬虫。

（5）会话长度：爬虫的会话长度通常会非常长，因为他们需要时间来下载和处理页面。如果一个会话的长度非常长，那么这个会话大概率属于一个爬虫。

（6）无视 obots.txt 文件：遵守网络礼仪的爬虫会遵守网站的 robots.txt 文件，如果一个爬虫无视了这个文件，那么这个爬虫可能是恶意的。

（7）发帖数量：自动发帖爬虫通常以非常高的速度发布大量帖子。因此，监测一个用户在短时间内的发帖频率可以是一个重要的特征。如果一个用户在短时间内发布了大量帖子，这可能是自动发帖的迹象。

（8）标题词汇特征：自动发帖爬虫通常使用预定的模板或关键词来生成标题。因此，你可以检查用户发帖的标题中是否包含特定的关键词或模板。如果多个用户的标题相似或包含相同的关键词，这可能表明存在自动发帖的迹象。

（9）发帖时间特征：自动发帖爬虫可能会在特定的时间段内活跃，比如夜间或非工作时间。

（10）检查用户发帖的时间分布，特别是在非常规时间内的活动，可以帮助识别自动发帖爬虫。

（11）内容重复性：自动发帖爬虫通常会发布重复或几乎相同的内容。检查用户发帖的文本内容，尤其是在不同帖子之间的文本相似度可以是一个有用的特征。使用文本相似性度量方法，如 TF-IDF、词向量、Jaccard 相似性等来检测文本的相似性。

（12）用户活跃度：自动发帖爬虫通常不会与其他用户进行互动或回复评论。因此，可以考虑用户的互动程度，包括回复帖子的数量、点赞、评论等，以识别潜在的自动发帖行为。

（13）用户注册信息：检查用户的注册信息，如邮箱域名、注册时间等，可以帮助识别虚假或自动注册的用户。

（14）行为分析：观察用户在社区中的整体行为模式，如快速发帖、持续发帖、不参与讨论等，来判断是否存在自动发帖的可能性。

步骤四，数据标注处理：

对于已知的爬虫数据标为 1，已知的普通用户数据标为 0，形成标注好的数据集（包含访问序列数据和内容序列数据），要将已有识别为爬虫的数据集和普通用户的数据集丢给模型进行训练，让模型从数据集中提取出对应的特征，用于后续的识别。模型训练目的是识别未知数据是不是爬虫数据，数据标记的目的是告诉模型哪些是爬虫数据，哪些不是爬虫数据，让其从训练集中不断学习分析特征，后续新的数据输入时，就能准确的识别是否是爬虫数据。

做为本申请的一种实施例，本申请使用的时间序列进行划分的数据集，训练集包含较早的数据，测试集包含最新的数据。两个比例是7：3，训练集7，测试集3

步骤五，模型训练：使用自编码器神经网络模型,通过对训练集中的访问序列数据进行编码,学习提取爬虫访问模式的内在特征表示,以识别复杂爬虫行为。使用基于内容特征的深度学习模型，如LSTM 等，以识别自动发帖的语义特征；两个模型进行反复联合训练，通过反复迭代，优化模型的参数，提高模型在训练数据上的预测准确度以及泛化能力。其中，反复联合训练的目的是为了构建爬虫行为识别模型，后续输入未知的访问序列数据和内容序列数据可以直接识别出爬虫数据。

构建自编码器神经网络模型的构建过程包括：

4、指定网络的损失函数,例如MSE、交叉熵等。

5、明确网络的优化器,例如Adam、RMSprop等。

6、设置合适的Batch_size,一般取32、64或128。

7、训练过程中设置合理的Early Stopping,避免过拟合。

构建循环神经网络模型；

将训练集中的内容序列数据转换为词向量序列；

具体构建循环神经网络模型过程：

1、设置词向量的维度,一般100-300维效果较好。

2、LSTM层的隐状态个数,取64、128或256。

3、设置Dropout层以防止过拟合,一般取0.2-0.5的dropout比例。

4、可以在LSTM后添加TimeDistributed层,对不同时间步的输出特征聚合。

5、全连接分类层使用Dense层,设置合理的节点数,例如64或128个。

6、输出层大小为类数,本例为2类。

7、指定交叉熵损失和Adam优化器。

8、训练过程中设置合理的Early Stopping,避免过拟合。

步骤六，模型测试与优化：使用测试集评估训练好的模型性能，如准确率、召回率等，并对模型参数进行必要的优化调整，以提升模型的性能。

步骤七，错误分类案例分析：测试后，对错误分类的案例进行分析,提取导致错误的特征，使用特征权重调整的方法减少这些特征的影响,从而提高模型准确率，具体步骤如下：

（1）对错误预测的样本,标注其真实标签；

（2）提取样本各特征值,进行统计分析；

(3)发现导致错误的特征维度，如访问频次特征权重过高；

(4)对这些特征施以惩罚，降低其权重，重新训练模型。

步骤八，实时识别与处理：使用训练好的模型对实时的网络请求进行分析，对可能的爬虫行为进行识别，并根据预测结果采取相应的处理措施，如阻止请求、限制 IP 地址等。除了限制 IP 地址外,还设置陷阱页面,引导识别出的爬虫访问,从而死循环爬取无用信息；同时, 针对不同类型爬虫,返回不同错误页面,削弱其获取有效信息的能力。对发帖频次异常的账户,采取发帖限速、人机校验码等措施，具体如下：

(1)搭建 Web 服务器陷阱环境,设置针对爬虫的特殊页面；

(2)根据识别结果,返回不同类型特殊页面链接,包含死循环页面、大文件下载等；

(3)根据爬虫种类,动态生成无用页面内容,混淆爬虫识别；

(4)统计用户近期发帖频次,检测异常增长；

(5)当高频发帖用户为爬虫时,限制用户发帖速度；

(6)启用发帖时的人机身份验证验证码,提高爬虫难度；

(7)给识别出的自动发帖内容打上特殊标记,提示用户其可信度。

图2为本发明提供的一种基于机器学的社区爬虫行为识别系统，其特征在于，包括：

收集模块10，用于收集日志数据和用户生成内容数据，并对收集到的日志数据和用户生成内容数据进行预处理，以生成各特征数据，所述日志数据包括访问日志数据、错误日志数据和安全日志数据，所述用户生成内容数据至少包括文章标题、内容文章、发布时间和/或文章标签；

生成模块20，用于通过相关性分析方法确定出各特征数据之间的关联关系，所述各特征数据之间的关联关系包括与爬虫行为相关联的特征数据，以及与用户发帖行为相关联的特征数据；

创建模块30，用于创建序列数据，所述序列数据包括访问序列数据和内容序列数据，所述访问序列数据为收集到的日志数据在时间上的排序，所述内容序列数据为用户生成内容在时间上的排序，所述内容序列数据用于捕获用户的发帖数据随时间的变化情况；

数据标记模块40，用于基于所述各特征数据之间的关联关系和创建出的序列数据，进行数据标注处理，所述数据标注处理为对识别出的爬虫数据进行第一数据标记，以及对识别出的与用户发帖行为相关的数据进行第二数据标记，对进行标记的第一数据和第二数据生成数据集，并将所述数据集按照预设比例分为训练集和测试集，所述训练集和测试集中的数据均包括访问序列数据和内容序列数据；

识别模块50，用于基于所述训练集，通过自编码器神经网络模型和深度学习模型进行反复联合训练生成爬虫行为识别模型，并基于所述爬虫行为识别模型自动识别出爬虫数据，其中，所述测试集用于对所述爬虫行为识别模型进行优化调整。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于机器学习的社区爬虫行为识别方法，其特征在于，包括：

基于所述训练集，通过自编码器神经网络模型和深度学习模型进行反复联合训练生成爬虫行为识别模型，并基于所述爬虫行为识别模型自动识别出爬虫数据，包括：基于所述训练集中的访问序列数据，构建自编码器神经网络模型,所述自编码器神经网络模型包括输入层、编码层和解码层，所述输入层的节点数对应访问序列数据的特征维度,编码层将访问序列数据压缩为低维向量，所述解码层将压缩为低维向量的访问序列数据进行结构化处理；

采用循环神经网络作为编码器,学习提取进行结构化处理后访问序列数据之间的长期依赖关系；

预训练所述编码器；

基于预训练后的编码器，使用标签数据Fine-tune网络，调整参数以识别爬虫数据；

其中，所述测试集用于对所述爬虫行为识别模型进行优化调整；

所述方法还包括：构建循环神经网络模型；

将训练集中的内容序列数据转换为词向量序列；

2.根据权利要求1所述的方法，其特征在于，通过相关性分析方法确定出各特征数据之间的关联关系，包括：

对各特征数据进行规范化处理；

3.根据权利要求1所述的方法，其特征在于，对收集到的日志数据和用户生成内容数据进行预处理，包括：

4.根据权利要求1所述的方法，其特征在于，所述训练集和测试集的预设比例为7:3。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，基于评估结果对爬虫行为识别模型进行优化调整，包括：

挑选出所述测试集中的进行错误预测的样本；

7.根据权利要求1所述的方法，其特征在于，自动识别出爬虫数据之后，还包括：

8.一种基于机器学的社区爬虫行为识别系统，其特征在于，包括：

识别模块，用于基于所述训练集，通过自编码器神经网络模型和深度学习模型进行反复联合训练生成爬虫行为识别模型，并基于所述爬虫行为识别模型自动识别出爬虫数据，包括：基于所述训练集中的访问序列数据，构建自编码器神经网络模型,所述自编码器神经网络模型包括输入层、编码层和解码层，所述输入层的节点数对应访问序列数据的特征维度,编码层将访问序列数据压缩为低维向量，所述解码层将压缩为低维向量的访问序列数据进行结构化处理；

预训练所述编码器；

所述识别模块还用于构建循环神经网络模型；

将训练集中的内容序列数据转换为词向量序列；