CN111914905A - 一种基于半监督的反爬虫系统及设计方法 - Google Patents
一种基于半监督的反爬虫系统及设计方法 Download PDFInfo
- Publication number
- CN111914905A CN111914905A CN202010655940.XA CN202010655940A CN111914905A CN 111914905 A CN111914905 A CN 111914905A CN 202010655940 A CN202010655940 A CN 202010655940A CN 111914905 A CN111914905 A CN 111914905A
- Authority
- CN
- China
- Prior art keywords
- crawler
- probability
- expert
- module
- request
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/562—Static detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Virology (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于半监督的反爬虫系统及设计方法,包括衍生特征向量,无监督聚类成簇,专家规则评估,强化规则,机器学习,输出识别爬虫概率结果;通过无监督算法对请求行为进行聚类得到不同的簇;通过专家规则对不同的簇行为进行爬虫概率计算;对于概率高于某个阈值的行为添加到规则系统里;对于概率在某个阈值范围的行为作为维度送进机器学习系统进行训练和预测,能够解决爬虫行为多变的问题并提高防护性能,降低误杀风险。
Description
技术领域
本发明属于计算机、网络数据安全和数据分析技术领域,尤其涉及一种基于半监督的反爬虫系统及设计方法。
背景技术
大数据时代,网络爬虫的现象与日俱增,网络爬虫的形式和方法也是千变万化,有的按照一定的规则,自动的抓取网页信息,还有的人为爬取一些用户信息来用于商业用途。如此一来,肆意爬取给服务器造成了很大的压力,而且不能给该网站带来新的用户,造成了很多成本的浪费。于是,反爬虫也越来越受到严峻的挑战。而现有反爬方法通常采用的分析url路径,User-Agent,hearders,cookie等字段以及流量统计来制定规则做决策,这样的方式虽然可以起到一定的效果,但是随着爬取方式的变化,这种反爬虫方法不能及时发现,仍然不能起到有效的防护。
发明内容
为了解决上述已有技术存在的不足,针对变化的爬虫行为进行及时发现和确定,做到精准的防护。本发明提出一种基于半监督的反爬虫系统及设计方法。本发明的具体技术方案如下:
一种基于半监督的反爬虫系统设计方法,其特征在于,包括以下步骤:
A1:衍生特征向量;基于请求数据衍生出需要的特征向量,所述特征向量包含请求的参数特征和行为特征;
A2:无监督聚类成簇;通过无监督聚类算法对请求行为聚类得到不同的簇,簇内间距低于设定的第一阈值,簇与簇之间的间距高于设定的第二阈值;无监督聚类算法包括Kmeans、PCA或TSNE中的至少一种;
A3:专家规则评估;基于现有数据和专家经验,制定符合指标要求的专家规则;通过专家规则对不同的簇行为计算爬虫概率;爬虫概率高于设定的第三阈值的行为,经过观察,转化为专家规则;
A4:强化规则;对于概率在设定范围内的请求行为,作为有监督的机器学习的输入维度进行训练和预测;
A5:机器学习;
A6:输出识别爬虫概率结果;
进一步地,所述步骤A1的具体过程为:
从请求数据中提取请求时段,次数,时间间隔,请求内容,访问路径集合,请求中的cookie,UserAgent和headers所包含的信息;
对这些原始的信息进行数据的衍生,在衍生的过程中将特征区分为用户维度和访问维度,用户维度包含用户设备、指纹和ip,能够粗略的标识不同用户的维度;访问维度包含请求的url、请求的时间、cookie、UserAgent和referer;
将用户维度和访问维度交叉组合,聚类衍生,得到数百个衍生的维度;
计算衍生的维度的提升度,根据提升度的分布选择筛选维度的阈值,筛出有效的维度特征。
进一步地,所述步骤A2中的无监督聚类算法包括Kmeans、PCA或TSNE中的至少一种,所述步骤A2的具体过程为:
先排查异常点进行,异常点包含不符合业务逻辑或不符合数据分布的点;
采用融合聚类方法,融合采用投票方式,通过遍历簇的个数,寻找轮廓系数最接近1的分类结果,且分类结果需要满足在两种以上的聚类算法中,有更多的点的簇类别保持一致。例如:假设分为两类簇,用三种聚类算法进行投票,对于第一种分类结果,90%的点的簇类别没有发生变化,对于第二种分类结果,80%的点的簇类别没有发生变化,那么认为第一种分类结果更稳定可靠。
进一步地,所述步骤A3的具体过程为:
通过数据分析和反爬专家经验制定专家规则;
以专家规则为标准来计算簇的爬虫概率;
根据各类簇的概率分布设定第三阈值,爬虫概率高于第三阈值的簇,进行轮廓行为的提取,轮廓行为提取是使用最少的特征维度保证最多的簇内点落在此轮廓行为里;
筛选稳定性较高的爬虫轮廓行为,取不同的时间窗口进行psi的稳定性计算,对于不稳定的轮廓行为保存下来后面的系统中再用;对于稳定的轮廓行为做准确,召回和误杀指标的观察,经过观察,符合专家规则的指标要求则转化为专家规则,不符合专家规则的指标要求则保存下来后面再用。
进一步地,所述步骤A5的机器学习的处理算法包括决策树、随机森林或xgboost中的至少一种。
进一步地,所述步骤A6得到的识别爬虫概率结果由高维的机器学习系统和低维的规则系统综合得到,具体过程为:将步骤A5的输出结果和步骤A3得到的五十条专家规则作为步骤A6的输入,用逻辑回归的模型学习最佳权重参数,得到综合的精准的爬虫概率。
一种基于半监督的反爬虫系统,其特征在于,包括:数据衍生模块、聚类模块、专家规则模块、计算概率模块、机器学习模块和爬虫概率预测模块,其中,
所述数据衍生模块,基于请求数据衍生出需要的特征向量,所述特征向量包含请求的参数特征和行为特征;
所述聚类模块,将所述数据衍生模块衍生出的特征向量,做无监督聚类算法,将请求的行为分成不同的簇,簇内间距低于设定的第一阈值,簇与簇之间的间距高于设定的第二阈值;
所述专家规则模块,基于现有数据和专家经验,制定符合指标要求的专家规则;
所述计算概率模块,用于对所述聚类模块筛选出的簇,通过所述专家规则模块制定的专家规则计算簇中的爬虫概率;爬虫概率高于设定的第三阈值的行为,经过观察,转化为专家规则;
所述机器学习模块,将簇中的爬虫概率在设定范围内的请求行为,作为有监督的机器学习的输入维度进行训练和预测;
所述爬虫概率预测模块综合所述计算概率模块和所述机器学习模块的输出结果得到识别爬虫概率结果。
一种基于半监督的计算机可读存储介质,其上存储计算机程序,其特征在于,所述程序被处理执行时实现所述一种基于半监督的反爬虫系统设计方法的任一项所述方法的步骤。
本发明的有益效果在于:
1.对远端的恶意代理,爬虫,僵尸网络,低频爬取等发出的请求进行了识别和学习,有效的监测通过伪装的爬虫,保证服务端数据的安全和业务的正常开展,提高有效访问的同时降低了误杀的风险,提高了查订比。
2.解决了爬虫行为在变化而策略不变的弊端,层层把关,提高了识别爬虫的准确性,降低了误杀率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他的附图。其中:
图1是本发明的一种基于半监督的反爬虫系统设计方法的流程图;
图2是本发明的设计方法的衍生特征向量流程图;
图3是本发明的设计方法的无监督聚类成簇的流程图;
图4是本发明的设计方法的专家规则评估体流程图;
图5是本发明的设计方法的强化规则流程图;
图6是本发明的设计方法的机器学习流程图;
图7是本发明的设计方法的最终给出爬虫概率的流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
如图1所示,
本发明提出的一种基于半监督的反爬虫装置、方法和存储介质,对远端的恶意代理,爬虫,僵尸网络,低频爬取等发出的请求进行了识别和学习,有效的监测通过伪装的爬虫,保证服务端数据的安全和业务的正常开展,提高有效访问的同时也降低了误杀的风险,提高了查订比。
具体地,一种基于半监督的反爬虫系统设计方法,其特征在于,包括以下步骤:
A1:衍生特征向量;基于请求数据衍生出需要的特征向量,特征向量包含请求的参数特征和行为特征;
A2:无监督聚类成簇;通过无监督聚类算法对请求行为聚类得到不同的簇,簇内间距低于设定的第一阈值,簇与簇之间的间距高于设定的第二阈值;无监督聚类算法包括Kmeans、PCA或TSNE中的至少一种;
A3:专家规则评估;基于现有数据和专家经验,制定符合指标要求的专家规则;通过专家规则对不同的簇行为计算爬虫概率;爬虫概率高于设定的第三阈值的行为,经过观察,转化为专家规则;
A4:强化规则;对于概率在设定范围内的请求行为,作为有监督的机器学习的输入维度进行训练和预测;
A5:机器学习;
A6:输出识别爬虫概率结果;
步骤A1的具体过程为:
从请求数据中提取请求时段,次数,时间间隔,请求内容,访问路径集合,请求中的cookie,UserAgent和headers所包含的信息;
对这些原始的信息进行数据的衍生,在衍生的过程中将特征区分为用户维度和访问维度,用户维度包含用户设备、指纹和ip,能够粗略的标识不同用户的维度;访问维度包含请求的url、请求的时间、cookie、UserAgent和referer;
将用户维度和访问维度交叉组合,聚类衍生,得到数百个衍生的维度;
计算衍生的维度的提升度,根据提升度的分布选择筛选维度的阈值,筛出有效的维度特征。
步骤A2中的无监督聚类算法包括Kmeans、PCA或TSNE中的至少一种,步骤A2的具体过程为:
先排查异常点进行,异常点包含不符合业务逻辑或不符合数据分布的点;
采用融合聚类方法,融合采用投票方式,通过遍历簇的个数,寻找轮廓系数最接近1的分类结果,且分类结果需要满足在两种以上的聚类算法中,有更多的点的簇类别保持一致。例如:假设分为两类簇,用三种聚类算法进行投票,对于第一种分类结果,90%的点的簇类别没有发生变化,对于第二种分类结果,80%的点的簇类别没有发生变化,那么认为第一种分类结果更稳定可靠。
步骤A3的具体过程为:
通过数据分析和反爬专家经验制定专家规则;
以专家规则为标准来计算簇的爬虫概率;
根据各类簇的概率分布设定第三阈值,爬虫概率高于第三阈值的簇,进行轮廓行为的提取,轮廓行为提取是使用最少的特征维度保证最多的簇内点落在此轮廓行为里;
筛选稳定性较高的爬虫轮廓行为,取不同的时间窗口进行psi的稳定性计算,对于不稳定的轮廓行为保存下来后面的系统中再用;对于稳定的轮廓行为做准确,召回和误杀指标的观察,经过观察,符合专家规则的指标要求则转化为专家规则,不符合专家规则的指标要求则保存下来后面再用。
专家规则的准确,召回,误杀率都达到了较高的要求。
步骤A5的机器学习的处理算法包括决策树、随机森林或xgboost中的至少一种。
步骤A6得到的识别爬虫概率结果由高维的机器学习系统和低维的规则系统综合得到,具体过程为:将步骤A5的输出结果和步骤A3得到的五十条专家规则作为步骤A6的输入,用逻辑回归的模型学习最佳权重参数,得到综合的精准的爬虫概率。
本发明还公开了一种基于半监督的反爬虫系统,其特征在于,包括:数据衍生模块、聚类模块、专家规则模块、计算概率模块、机器学习模块和爬虫概率预测模块,其中,
数据衍生模块,基于请求数据衍生出需要的特征向量,特征向量包含请求的参数特征和行为特征;
聚类模块,将数据衍生模块衍生出的特征向量,做无监督聚类算法,将请求的行为分成不同的簇,簇内间距低于设定的第一阈值,簇与簇之间的间距高于设定的第二阈值;
专家规则模块,基于现有数据和专家经验,制定符合指标要求的专家规则;
计算概率模块,用于对聚类模块筛选出的簇,通过专家规则模块制定的专家规则计算簇中的爬虫概率;爬虫概率高于设定的第三阈值的行为,经过观察,转化为专家规则;
机器学习模块,将簇中的爬虫概率在设定范围内的请求行为,作为有监督的机器学习的输入维度进行训练和预测;
爬虫概率预测模块综合计算概率模块和机器学习模块的输出结果得到识别爬虫概率结果。
本发明还公开了一种基于半监督的计算机可读存储介质,其上存储计算机程序,其特征在于,程序被处理执行时实现一种基于半监督的反爬虫系统设计方法的任一项所述方法的步骤。
在本发明中,术语“第一”、“第二”、“第三”、“第四”仅用于描述目的,而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上,除非另有明确的限定。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于半监督的反爬虫系统设计方法,其特征在于,包括以下步骤:
A1:衍生特征向量;基于请求数据衍生出需要的特征向量,所述特征向量包含请求的参数特征和行为特征;
A2:无监督聚类成簇;通过无监督聚类算法对请求行为聚类得到不同的簇,簇内间距低于设定的第一阈值,簇与簇之间的间距高于设定的第二阈值;无监督聚类算法包括Kmeans、PCA或TSNE中的至少一种;
A3:专家规则评估;基于现有数据和专家经验,制定符合指标要求的专家规则;通过专家规则对不同的簇行为计算爬虫概率;爬虫概率高于设定的第三阈值的行为,经过观察,转化为专家规则;
A4:强化规则;对于概率在设定范围内的请求行为,作为有监督的机器学习的输入维度进行训练和预测;
A5:机器学习;
A6:输出识别爬虫概率结果。
2.根据权利要求1所述的一种基于半监督的反爬虫系统设计方法,其特征在于,所述步骤A1的具体过程为:
从请求数据中提取请求时段,次数,时间间隔,请求内容,访问路径集合,请求中的cookie,UserAgent和headers所包含的信息;
对这些原始的信息进行数据的衍生,在衍生的过程中将特征区分为用户维度和访问维度,用户维度包含用户设备、指纹和ip,能够粗略的标识不同用户的维度;访问维度包含请求的url、请求的时间、cookie、UserAgent和referer;
将用户维度和访问维度交叉组合,聚类衍生,得到数百个衍生的维度;
计算衍生的维度的提升度,根据提升度的分布选择筛选维度的阈值,筛出有效的维度特征。
3.根据权利要求1所述的一种基于半监督的反爬虫系统设计方法,其特征在于,所述步骤A2中的无监督聚类算法包括Kmeans、PCA或TSNE中的至少一种,所述步骤A2的具体过程为:
先排查异常点进行,异常点包含不符合业务逻辑或不符合数据分布的点;
采用融合聚类方法,融合采用投票方式,通过遍历簇的个数,寻找轮廓系数最接近1的分类结果,且分类结果需要满足在两种以上的聚类算法中,有更多的点的簇类别保持一致。
4.根据权利要求1所述的一种基于半监督的反爬虫系统设计方法,其特征在于,所述步骤A3的具体过程为:
通过数据分析和反爬专家经验制定专家规则;
以专家规则为标准来计算簇的爬虫概率;
根据各类簇的概率分布设定第三阈值,爬虫概率高于第三阈值的簇,进行轮廓行为的提取,轮廓行为提取是使用最少的特征维度保证最多的簇内点落在此轮廓行为里;
筛选稳定性较高的爬虫轮廓行为,取不同的时间窗口进行psi的稳定性计算,对于不稳定的轮廓行为保存下来后面的系统中再用;对于稳定的轮廓行为做准确,召回和误杀指标的观察,经过观察,符合专家规则的指标要求则转化为专家规则,不符合专家规则的指标要求则保存下来后面再用。
5.根据权利要求1所述的一种基于半监督的反爬虫系统设计方法,其特征在于,所述步骤A5的机器学习的处理算法包括决策树、随机森林或xgboost中的至少一种。
6.根据权利要求1所述的一种基于半监督的反爬虫系统设计方法,其特征在于,所述步骤A6得到的识别爬虫概率结果由高维的机器学习系统和低维的规则系统综合得到,具体过程为:将步骤A5的输出结果和步骤A3得到的五十条专家规则作为步骤A6的输入,用逻辑回归的模型学习最佳权重参数,得到综合的精准的爬虫概率。
7.一种基于半监督的反爬虫系统,其特征在于,包括:数据衍生模块、聚类模块、专家规则模块、计算概率模块、机器学习模块和爬虫概率预测模块,其中,
所述数据衍生模块,基于请求数据衍生出需要的特征向量,所述特征向量包含请求的参数特征和行为特征;
所述聚类模块,将所述数据衍生模块衍生出的特征向量,做无监督聚类算法,将请求的行为分成不同的簇,簇内间距低于设定的第一阈值,簇与簇之间的间距高于设定的第二阈值;
所述专家规则模块,基于现有数据和专家经验,制定符合指标要求的专家规则;
所述计算概率模块,用于对所述聚类模块筛选出的簇,通过所述专家规则模块制定的专家规则计算簇中的爬虫概率;爬虫概率高于设定的第三阈值的行为,经过观察,转化为专家规则;
所述机器学习模块,将簇中的爬虫概率在设定范围内的请求行为,作为有监督的机器学习的输入维度进行训练和预测;
所述爬虫概率预测模块综合所述计算概率模块和所述机器学习模块的输出结果得到识别爬虫概率结果。
8.一种基于半监督的计算机可读存储介质,其上存储计算机程序,其特征在于,所述程序被处理执行时实现权利要求1-6所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010655940.XA CN111914905B (zh) | 2020-07-09 | 2020-07-09 | 一种基于半监督的反爬虫系统及设计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010655940.XA CN111914905B (zh) | 2020-07-09 | 2020-07-09 | 一种基于半监督的反爬虫系统及设计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111914905A true CN111914905A (zh) | 2020-11-10 |
CN111914905B CN111914905B (zh) | 2021-07-20 |
Family
ID=73227709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010655940.XA Active CN111914905B (zh) | 2020-07-09 | 2020-07-09 | 一种基于半监督的反爬虫系统及设计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111914905B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113452685A (zh) * | 2021-06-22 | 2021-09-28 | 上海明略人工智能(集团)有限公司 | 识别规则的处理方法、系统、存储介质及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105930727A (zh) * | 2016-04-25 | 2016-09-07 | 无锡中科富农物联科技有限公司 | 基于Web的爬虫识别算法 |
CN107800684A (zh) * | 2017-09-20 | 2018-03-13 | 贵州白山云科技有限公司 | 一种低频爬虫识别方法及装置 |
CN109582855A (zh) * | 2019-01-17 | 2019-04-05 | 北京三快在线科技有限公司 | 增强反爬系统识别性能的方法、装置和存储介质 |
CN109818949A (zh) * | 2019-01-17 | 2019-05-28 | 济南浪潮高新科技投资发展有限公司 | 一种基于神经网络的反爬虫方法 |
CN110245280A (zh) * | 2019-05-06 | 2019-09-17 | 北京三快在线科技有限公司 | 识别网络爬虫的方法、装置、存储介质和电子设备 |
CN110995714A (zh) * | 2019-12-06 | 2020-04-10 | 杭州安恒信息技术股份有限公司 | 一种检测对Web站点的团伙攻击的方法、装置及介质 |
CN111143654A (zh) * | 2019-12-25 | 2020-05-12 | 支付宝(杭州)信息技术有限公司 | 辅助识别爬虫的、爬虫识别方法、装置及电子设备 |
-
2020
- 2020-07-09 CN CN202010655940.XA patent/CN111914905B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105930727A (zh) * | 2016-04-25 | 2016-09-07 | 无锡中科富农物联科技有限公司 | 基于Web的爬虫识别算法 |
CN107800684A (zh) * | 2017-09-20 | 2018-03-13 | 贵州白山云科技有限公司 | 一种低频爬虫识别方法及装置 |
CN109582855A (zh) * | 2019-01-17 | 2019-04-05 | 北京三快在线科技有限公司 | 增强反爬系统识别性能的方法、装置和存储介质 |
CN109818949A (zh) * | 2019-01-17 | 2019-05-28 | 济南浪潮高新科技投资发展有限公司 | 一种基于神经网络的反爬虫方法 |
CN110245280A (zh) * | 2019-05-06 | 2019-09-17 | 北京三快在线科技有限公司 | 识别网络爬虫的方法、装置、存储介质和电子设备 |
CN110995714A (zh) * | 2019-12-06 | 2020-04-10 | 杭州安恒信息技术股份有限公司 | 一种检测对Web站点的团伙攻击的方法、装置及介质 |
CN111143654A (zh) * | 2019-12-25 | 2020-05-12 | 支付宝(杭州)信息技术有限公司 | 辅助识别爬虫的、爬虫识别方法、装置及电子设备 |
Non-Patent Citations (3)
Title |
---|
A.STASSOPOULOU ET AL.: "Crawler Detection: A Bayesian Approach", 《INTERNATIONAL CONFERENCE ON INTERNET SURVEILLANCE AND PROTECTION》 * |
刘宇,程学林: "基于决策树算法的爬虫识别技术", 《软件》 * |
琚兴空: "基于行为模式的Web Robot检测技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113452685A (zh) * | 2021-06-22 | 2021-09-28 | 上海明略人工智能(集团)有限公司 | 识别规则的处理方法、系统、存储介质及电子设备 |
CN113452685B (zh) * | 2021-06-22 | 2024-04-09 | 上海明略人工智能(集团)有限公司 | 识别规则的处理方法、系统、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111914905B (zh) | 2021-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113965404B (zh) | 一种网络安全态势自适应主动防御系统及方法 | |
CN110620759B (zh) | 基于多维关联的网络安全事件危害指数评估方法及其系统 | |
CN117220978B (zh) | 一种网络安全运营模型量化评估系统及评估方法 | |
CN112039903B (zh) | 基于深度自编码神经网络模型的网络安全态势评估方法 | |
CN117473571B (zh) | 一种数据信息安全处理方法及系统 | |
CN112491779B (zh) | 一种异常行为检测方法及装置、电子设备 | |
CN113904881B (zh) | 一种入侵检测规则误报处理方法和装置 | |
CN111310139A (zh) | 行为数据识别方法、装置及存储介质 | |
CN112016769B (zh) | 管理相对人风险预测以及信息推荐方法及装置 | |
CN108667678A (zh) | 一种基于大数据的运维日志安全检测方法及装置 | |
CN112839014A (zh) | 建立识别异常访问者模型的方法、系统、设备及介质 | |
CN109871711B (zh) | 海洋大数据共享分发风险控制模型及方法 | |
Aziz et al. | Cluster Analysis-Based Approach Features Selection on Machine Learning for Detecting Intrusion. | |
CN111914905B (zh) | 一种基于半监督的反爬虫系统及设计方法 | |
CN110097120B (zh) | 网络流量数据分类方法、设备及计算机存储介质 | |
CN116865994A (zh) | 一种基于大数据的网络数据安全预测方法 | |
Thanh et al. | An approach to reduce data dimension in building effective network intrusion detection systems | |
CN115174263A (zh) | 攻击路径动态决策方法与装置 | |
CN114528908A (zh) | 网络请求数据分类模型训练方法、分类方法及存储介质 | |
CN116668045A (zh) | 一种多维度的网络安全综合预警方法和系统 | |
Folino et al. | A scalable architecture exploiting elastic stack and meta ensemble of classifiers for profiling user behaviour | |
CN111475380A (zh) | 一种日志分析方法和装置 | |
CN118363812B (zh) | 基于人工智能的计算机信息安全智能监控方法及系统 | |
Yue et al. | An unsupervised-learning based method for detecting groups of malicious Web crawlers in Internet | |
CN118300896B (zh) | 一种面向云计算服务环境的异常用户行为管理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |