CN103218431A - 一种能识别网页信息自动采集的系统与方法 - Google Patents

一种能识别网页信息自动采集的系统与方法 Download PDF

Info

Publication number
CN103218431A
CN103218431A CN 201310128305 CN201310128305A CN103218431A CN 103218431 A CN103218431 A CN 103218431A CN 201310128305 CN201310128305 CN 201310128305 CN 201310128305 A CN201310128305 A CN 201310128305A CN 103218431 A CN103218431 A CN 103218431A
Authority
CN
China
Prior art keywords
module
automatic
visit
acquisition
collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201310128305
Other languages
English (en)
Other versions
CN103218431B (zh
Inventor
张炜
金军
吴杨梓
江岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guoke (Shanghai) Enterprise Development Co.,Ltd.
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201310128305.6A priority Critical patent/CN103218431B/zh
Publication of CN103218431A publication Critical patent/CN103218431A/zh
Application granted granted Critical
Publication of CN103218431B publication Critical patent/CN103218431B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种能识别网页信息自动采集的系统与方法,包括反采集分类器构建模块、自动采集识别模块和反采集在线处理模块,反采集分类器构建模块主要用于使用计算机程序对历史的web信息自动采集和正常的网页访问行为进行学习并区分,自动采集识别模块,通过运用上述步骤中的反采集分类器,自动识别出搜索引擎程序的自动采集行为,并将识别出的采集程序所处的IP段加入黑名单。反采集在线处理模块主要用于对访问的用户进行自动在线判定和处理。本发明克服了现有技术的不足,该系统通过分析网站的历史网页访问行为,建立自动采集分类器,识别出机器人的自动采集,通过自动机器人采集识别,实现网页反抓取。

Description

一种能识别网页信息自动采集的系统与方法
技术领域
本发明涉及网页动态解析技术领域,具体属于一种能识别网页信息自动系统与方法。
背景技术
随着互联网的发展,出现了越来越多的互联网网站,形式层出不穷,出现了新闻,博客,论坛,SNS,微博等。据CNNIC今年的最新统计,中国现已有网民4.85亿,各类站点域名130余万个。在互联网信息爆炸的今天,搜索引擎已成为人们查找互联网信息的最重要工具。
搜索引擎主要通过自动爬取网站信息,并对其进行预处理,分词后,建立索引。输入检索词后,搜索引擎能够自动的为用户查找出最相关的结果。搜索引擎经过十多年的发展,技术已相对成熟,且因为有成功的商业模式可以运用,因而吸引了众多互联网厂商进入,比较著名的有百度,谷歌,搜搜,搜狗,有道,奇虎360等。另外还有一些垂直领域的搜索引擎(如旅游,机票,比价等),进入的厂商不下千家。
搜索引擎的第一步也是最重要的一步是信息抓取,该步骤是搜索引擎的数据准备过程。具体过程如图1所示。URL DB存放所有待爬取的URL,URL调度模块从URL DB中选取出最重要的URL并将其放入URL下载队列,页面下载模块对该队列中的URL进行下载,下载完毕后,抽取模块对下载的页面代码进行正文和URL抽取,抽取的正文发送给索引模块进行分词和建索引,URL放入URL DB。
信息采集过程,是将别人网站的信息放到抓取到自己的信息库的过程,会面临着一些问题。
1、互联网信息每刻都不停的增加,因而信息抓取是7*24小时不间断过程。频繁的抓取会对目标网站带来巨大的访问压力,形成DDOS拒绝服务攻击,导致无法为正常用户提供访问,这一点在中小型网站体现的尤为明显,这些网站的硬件资源比较差,技术力量不强,而互联网中90%以上是该类型的网站。例如:某著名搜索引擎由于频繁抓取某网站而召到用户投诉。
2、有些网站的信息具备隐私或版权,很多网页中包含后台数据库、用户稳私、密码等信息。网站主办者不希望这些信息被公之于众或无偿使用。大众点评网曾就爱帮网抓取其网站上的点评信息,然后发布在自己网站上的行为进行起诉。
目前针对搜索引擎的网页反采集采取的主流方法有robots协议约定,网站通过一个robots.txt协议来自主控制是否愿意自身内容被搜索引擎收录,以及允许哪些搜索引擎收录,并且指定自身可供收录和禁止收录的内容。同时,搜索引擎会自觉按照每个网站Robots协议给予自己的权限来进行抓取。该方法假定的搜索引擎爬取流程如下:
下载网站robots文件-按robots协议解析该文件--获取待下载的URL-判断该URL所在的访问权限-根据判断结果决定是否爬取。
Robots协议是君子协议,无任何约束性,爬取的主动性仍然完全控制在搜索引擎一方,完全可以不遵循该协议进行强行爬取。例如国内某著名搜索引擎在2012年8月份不遵循该协议爬取百度网站内容而遭到百度指责。
另外一种反采集方法主要通过使用动态技术构建欲禁止抓取的网页,该方法通过使用客户端脚本语言(如JS,VBScript,AJAX)动态生成网页显示信息,从而实现信息隐藏,使常规的搜索引擎难以获取URL和正文内容。动态网页构建技术只是增加了网页解析和抽取的难度,并不能从根本上禁止网页信息的采集和解析,目前,一些先进的搜索引擎已经可以做到模拟浏览器实现所有脚本代码的解析,获取所有信息的网络URL,从而获取存放于服务器的动态信息。
目前已经存在成熟的网页动态解析技术,主要是通过解析网页中所有的脚本代码段,然后获取网页所有的动态信息(包括有用信息和垃圾信息)。实际实施过程是以开源的脚本代码解析引擎(如Rhino,V8等)为内核,构建网页脚本解析环境,然后抽取网页中的脚本代码段,将抽取的代码段放入网页脚本解析环境中执行解析,从而返回动态信息。解析过程如图2所示,所以动态技术构建动态网页的方法只是增加了网页采集和解析的难度,并没有从根本上杜绝搜索引擎的采集。
发明内容
本发明的目的是提供了一种能识别网页信息自动采集的系统与方法,克服了现有技术的不足,该系统通过分析网站的历史网页访问行为,建立自动采集分类器,识别出机器人的自动采集,通过自动机器人采集识别,实现网页反抓取。
本发明采用的技术方案如下:
一种能识别网页信息自动采集的系统与方法,包括反采集分类器构建模块、自动采集识别模块和反采集在线处理模块,反采集分类器构建模块,该模块主要用于使用计算机程序对历史的web信息自动采集和正常的网页访问行为进行学习并区分,该模块为自动采集识别提供训练模型,所述的自动采集识别模块,该模块主要通过加载自动分类器,自动识别出搜索引擎程序的自动采集行为,并将识别出的采集程序所处的IP段加入黑名单,该黑名单用于后续对自动采集行为进行在线拦截,所述的反采集在线处理模块,该模块主要用于对访问的用户进行自动在线判定和处理,如果该访问者的IP已在IP段黑名单中,则拒绝该IP进行访问;否则,将该访问请求转交给web服务器进行继续处理。
所述的反采集分类器构建模块实现方法具体包含如下步骤:
(5)日志解析子模块通过对站点访问日志的自动解析,获取用户的访问行为信息,包括用户访问网站所用的IP,访问发生时间,访问的URL,来源URL;样本选取子模块对步骤1中的解析数据记录进行选取,依据是同一IP段在连续一段时间内访问频度最高的数据记录作为候选数据加入到样本集中;访问统计子模块对已选取的样本数据进行统计,统计出同一IP段的平均页面停留时间、访问站点的总页面数、是否采集网页附件信息、网页采集频率;
(6)以IP段作为主关键字,将上述信息存入样本库,并将其标记为未标注;
(7)对步骤(1)中的未标注样本进行标注,如果确定样本为机器自动采集,则标注为1;如果为用户浏览器正常访问,则标注为0,将所有标注完的样本更新入数据库;
(8)计算机程序自动对样本库进行学习,生成分类模型,用于后期的自动采集识别。
所述的自动采集识别模块实现方法包含如下步骤:
(5)识别程序初始化阶段,完成分类器模型的加载,该模型可以判断自动采集行为;
(6)日志解析程序对最新的网站访问日志进行解析,并将解析后的数据发送到访问统计模块;
(7)访问统计模块计算出同一IP段的平均页面停留时间、是否采集网页附件信息、网页采集频率;
(8)分类器基于分类模型对该IP段的访问行为进行判定,将判定为程序自动采集行为的IP段加入黑名单;
所述的反采集在线处理模块实现方法,包括以下几个步骤:
(1)对于web服务器转交过的访问请求,提取访问者的IP信息;
(2)在黑名单库中比对该IP信息,如果IP已处于黑名单中,则通知web服务器拒绝该IP的访问;否则,通知web服务器对该访问请求进行正常处理。
与已有技术相比,本发明的有益效果如下:
本发明该系统通过分析网站的历史网页访问行为,建立自动采集分类器,识别出机器人的自动采集,通过自动机器人采集识别,实现网页反抓取,自动发现搜索引擎的网页采集行为,并对其采集行为进行屏蔽,从根本上杜绝搜索引擎的采集。
附图说明
图1为现有技术搜索引擎信息抓取过程简图;
图2为现有技术二解析过程简图;
图3为本发明反采集分类器构建模块图;
图4为本发明自动采集识别模块图;
图5为本发明反采集在线处理模块。
具体实施方式
参见附图,一种能识别网页信息反抓取系统与方法,包括反采集分类器构建模块、自动采集识别模块和反采集在线处理模块,反采集分类器构建模块,该模块主要用于使用计算机程序对历史的web信息自动采集和正常的网页访问行为进行学习并区分,该模块为自动采集识别提供训练模型,所述的自动采集识别模块,该模块主要通过加载自动分类器,自动识别出搜索引擎程序的自动采集行为,并将识别出的采集程序所处的IP段加入黑名单,该黑名单用于后续对自动采集行为进行在线拦截,所述的反采集在线处理模块,该模块主要用于对访问的用户进行自动在线判定和处理,如果该访问者的IP已在IP段黑名单中,则拒绝该IP进行访问;否则,将该访问请求转交给web服务器进行继续处理。
所述的反采集分类器构建模块实现方法具体包含如下步骤:
(9)日志解析子模块通过对站点访问日志的自动解析,获取用户的访问行为信息,包括用户访问网站所用的IP,访问发生时间,访问的URL,来源URL;样本选取子模块对步骤1中的解析数据记录进行选取,依据是同一IP段在连续一段时间内访问频度最高的数据记录作为候选数据加入到样本集中;访问统计子模块对已选取的样本数据进行统计,统计出同一IP段的平均页面停留时间、访问站点的总页面数、是否采集网页附件信息、网页采集频率;
(10)以IP段作为主关键字,将上述信息存入样本库,并将其标记为未标注;
(11)对步骤(1)中的未标注样本进行标注,如果确定样本为机器自动采集,则标注为1;如果为用户浏览器正常访问,则标注为0,将所有标注完的样本更新入数据库;
(12)计算机程序自动对样本库进行学习,生成分类模型,用于后期的自动采集识别。
所述的自动采集识别模块实现方法包含如下步骤:
(9)识别程序初始化阶段,完成分类器模型的加载,该模型可以判断自动采集行为;
(10)日志解析程序对最新的网站访问日志进行解析,并将解析后的数据发送到访问统计模块;
(11)访问统计模块计算出同一IP段的平均页面停留时间、是否采集网页附件信息、网页采集频率;
(12)分类器基于分类模型对该IP段的访问行为进行判定,将判定为程序自动采集行为的IP段加入黑名单;
所述的反采集在线处理模块实现方法,包括以下几个步骤:
(1)对于web服务器转交过的访问请求,提取访问者的IP信息;
(2)在黑名单库中比对该IP信息,如果IP已处于黑名单中,则通知web服务器拒绝该IP的访问;否则,通知web服务器对该访问请求进行正常处理。
反采集分类器构建
该模块主要用于训练计算机程序,使其能对历史的web信息自动采集和正常的网页访问行为进行学习并区分,该模块可以为后续的自动采集识别提供训练模型。具体包括如下几个步骤。
2.2.1.1日志解析
该模块需要对服务器历史访问日志(可以选取某一天的日志)进行解析,抽取出获取用户的访问行为信息,包括用户访问网站所用的IP,访问发生时间,访问的URL,来源URL。具体包括如下两个步骤:
(1)每一个要提取的用户访问信息项编写正则表达式。
IP表达式抽取正则式定义为:
[\\d]{1,3}\\.[\\d]{1,3}\\.[\\d]{1,3}\\.[\\d]{1,3}
URL抽取正则式定义为:
(http[s]{0,1}|ftp)://[a-zA-Z0-9\\.\\-]+\\.([a-zA-Z]{2,4})(:\\d+)?(/[a-zA-ZO-9\\.\\-~!#$%^&*+?:_/=<>]*)?
时间抽取表达式定义为:
[\\d]{4}-[\\d]{2}-[\\d]{2}\s[\\d]{2}:[\\d]{2}:[\\d]{2}
(2)逐行读取完整的访问日志记录,运用步骤1中的正则表达式匹配抽取用户行为信息,并将其发送到访问量统计模块。
2.2.1.2样本选取
样本选取子模块对步骤1中的解析数据记录进行选取,依据是同一IP段在连续一段时间内访问频度最高的数据记录作为候选数据加入到样本集中。具体实施方法如下:
(1)先以用户的IP段为单位,选择10分钟为时间窗口,进行顺序滑动,在滑动前统计该10分钟间隔内的访问次数,并存储于数组中。
(2)对(1)中的数组进行由大到小排序,得到访问频度最高的时间间隔。并将该数据段记录加入到样本集合中。
以下为同一IP段的判定算法:
1.将第一个访问者的IP地址分为4段,用符号.分隔,并将其保存入数组1。第二个访问者的IP使用同样方式分为4段,存入数组2。
2.如果数组1和数组2的前N/8个元素相同,那么认为第一个访问者
和第二个访问者为同一网段IP;否则为不同网段IP。N为掩码长度。实际操作时掩码长度选择为24位。如60.131.22.35和60.131.22.37可以认为是同一IP段。
2.2.1.3访问统计
访问统计子模块对已选取的样本数据进行统计,统计出同一IP段的平均页面停留时间、网页采集频率(平均每分钟采集页面的次数)、是否采集网页附件信息。具体计算公式定义如下:
1.定义访问网站的总次数为N,则网页采集频率
Figure BSA00000878572600081
其中T为样本时间段,即10分钟。
2.定义Tk为在第k个网页上的停留时间,Tk=Vk-Vk-1,其中Vk定义为访问第K个页面时的系统时间,则平均网页停留时间为
Figure BSA00000878572600082
Np为采集的页面数。
3.定义Np个页面中包含的附件(包括图片,脚本,样式)总数为Na,实际采集的页面附件数为N-Np,则采集附件比例
Figure BSA00000878572600083
如果rate>0.3,则认为采集附件信息,则定义是否采集附件信息字段A=1,否则A=0。
2.2.1.4样本标注
将上述步骤中的样本数据信息存入数据库,以IP为单位,由专家对该IP段样本进行标注,如果确定样本为机器自动采集,则标注为1;如果为用户浏览器正常访问,则标注为0。将所有标注完的样本更新入数据库。
2.2.1.5分类模型构建
得到样本集合后,可以使用统计分类的方法进行概率分类,完成对未知样本是否为机器自动采集的判定,具体方法如下:
1.每个数据样本用三维特征向量表示X=(Fp,Tavg,A),向量的属性计算参考2.2.1.2。
2.定义机器自动采集类别为C0,用户正常的网页访问为C1,对于一个未知的数据样本X,则分类器将未知的分类样本分配给类Ci,i=0,1,当且仅当:P(Ci|X)>P(Cj|X)j=0,1,j≠i。
P ( C i | X ) = P ( X | C i ) P ( C i ) P ( X )
3.P(X)对于所有类为常数,只需要P(X|Ci)P(Ci)最大即可。
Fp,Tavg,A三个属性是独立的,
P(X|Ci)=P(Fp|Ci)*P(Tavg|Ci)*P(A|Ci)
A是分类属性,则
Figure BSA00000878572600092
则sik是在属性Ak上具有值Xk的类Ci的训练样本数,si是类Ci中的训练样本数。
Fp和Tavg为连续属性,且满足正态分布,则
P ( x k | C i ) = 1 2 &pi; &sigma; c i e - ( x - &mu; C i ) 2 2 &sigma; C i 2 ,
Figure BSA00000878572600094
分布为均值和标准差,根据此公式分别计算P(Fp|Ci)和P(Tavg|Ci)。
4.对于未知样本X,对每个类Ci,计算P(X|Ci)P(Ci),X被指派到P(X|Ci)P(Ci)最大的类Ci
2.2.2自动采集识别
该模块主要通过运用上述步骤中的反采集分类器,自动识别出搜索引擎程序的自动采集行为,并将识别出的采集程序所处的IP段加入黑名单。包含如下几个步骤:
(1)针对最新运行的日志,使用日志解析程序(同2.2.1.1)进行抽取。该步骤可以在每天晚上执行,解析一天的运行日志。
(2)统计出同一IP段的平均页面停留时间Tavg、网页采集频率(平均每分钟采集页面的次数)Fp、是否采集网页附件信息A。具体统计方法同2.2.1.2。
(3)根据三维特征向量X=(Fp,Tavg,A),按照公式计算P(X|C0)和P(X|C1),若P(X|C0)>P(X|C1),则判定为程序自动采集;反之则判定为正常访问。
2.2.3反采集在线处理
该模块主要用于对访问的用户进行自动在线判定和处理,具体步骤如下:
(1)截取用户的访问请求,并获取用户访问的IP。
(2)按2.2.1.1中的IP段判定算法计算用户的IP段。
(3)将步骤2中计算出的IP段同黑名单数据库进行比对,如果发现该IP段在库中存在,则通知web服务器拒绝该IP的访问;否则,将访问请求转发到web服务器继续进行处理。实施过程中,该模块可以内置到web服务器程序中。
以上所述的本发明实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的权利要求保护范围之内。

Claims (4)

1.一种能识别网页信息自动采集的系统与方法,其特征在于:包括反采集分类器构建模块、自动采集识别模块和反采集在线处理模块,反采集分类器构建模块,该模块主要用于使用计算机程序对历史的web信息自动采集和正常的网页访问行为进行学习并区分,该模块为自动采集识别提供训练模型,所述的自动采集识别模块,该模块主要通过加载自动分类器,自动识别出搜索引擎程序的自动采集行为,并将识别出的采集程序所处的IP段加入黑名单,该黑名单用于后续对自动采集行为进行在线拦截,所述的反采集在线处理模块,该模块主要用于对访问的用户进行自动在线判定和处理,如果该访问者的IP已在IP段黑名单中,则拒绝该IP进行访问;否则,将该访问请求转交给web服务器进行继续处理。
2.根据权利要求1所述的一种能识别网页信息反抓取系统与方法,其特征在于:所述的反采集分类器构建模块实现方法具体包含如下步骤:
(1)日志解析子模块通过对站点访问日志的自动解析,获取用户的访问行为信息,包括用户访问网站所用的IP,访问发生时间,访问的URL,来源URL;样本选取子模块对步骤1中的解析数据记录进行选取,依据是同一IP段在连续一段时间内访问频度最高的数据记录作为候选数据加入到样本集中;访问统计子模块对已选取的样本数据进行统计,统计出同一IP段的平均页面停留时间、访问站点的总页面数、是否采集网页附件信息、网页采集频率;
(2)以IP段作为主关键字,将上述信息存入样本库,并将其标记为未标注;
(3)对步骤(1)中的未标注样本进行标注,如果确定样本为机器自动采集,则标注为1;如果为用户浏览器正常访问,则标注为0,将所有标注完的样本更新入数据库;
(4)计算机程序自动对样本库进行学习,生成分类模型,用于后期的自动采集识别。
3.根据权利要求1所述的一种能识别网页信息反抓取系统与方法,其特征在于:所述的自动采集识别模块实现方法包含如下步骤:
(1)识别程序初始化阶段,完成分类器模型的加载,该模型可以判断自动采集行为;
(2)日志解析程序对最新的网站访问日志进行解析,并将解析后的数据发送到访问统计模块;
(3)访问统计模块计算出同一IP段的平均页面停留时间、是否采集网页附件信息、网页采集频率;
(4)分类器基于分类模型对该IP段的访问行为进行判定,将判定为程序自动采集行为的IP段加入黑名单;
4.根据权利要求1所述的一种能识别网页信息反抓取系统与方法,其特征在于:所述的反采集在线处理模块实现方法,包括以下几个步骤:
(1)对于web服务器转交过的访问请求,提取访问者的IP信息;
(2)在黑名单库中比对该IP信息,如果IP已处于黑名单中,则通知web服务器拒绝该IP的访问;否则,通知web服务器对该访问请求进行正常处理。
CN201310128305.6A 2013-04-10 2013-04-10 一种能识别网页信息自动采集的系统 Active CN103218431B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310128305.6A CN103218431B (zh) 2013-04-10 2013-04-10 一种能识别网页信息自动采集的系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310128305.6A CN103218431B (zh) 2013-04-10 2013-04-10 一种能识别网页信息自动采集的系统

Publications (2)

Publication Number Publication Date
CN103218431A true CN103218431A (zh) 2013-07-24
CN103218431B CN103218431B (zh) 2016-02-17

Family

ID=48816218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310128305.6A Active CN103218431B (zh) 2013-04-10 2013-04-10 一种能识别网页信息自动采集的系统

Country Status (1)

Country Link
CN (1) CN103218431B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778216A (zh) * 2014-01-20 2014-05-07 北京集奥聚合科技有限公司 自动化过滤用户点击行为的方法和系统
CN104090908A (zh) * 2014-06-06 2014-10-08 微梦创科网络科技(中国)有限公司 统计页面组的平均停留时间、网站内容推广的方法和装置
CN104731937A (zh) * 2015-03-30 2015-06-24 百度在线网络技术(北京)有限公司 用户行为数据的处理方法及装置
CN104935603A (zh) * 2015-06-24 2015-09-23 郑州悉知信息技术有限公司 一种识别请求的方法及网站服务器
CN104994092A (zh) * 2015-06-30 2015-10-21 百度在线网络技术(北京)有限公司 业务请求处理方法、终端浏览器及防攻击服务器
CN106487747A (zh) * 2015-08-26 2017-03-08 阿里巴巴集团控股有限公司 用户识别方法、系统、装置及处理方法、装置
CN106845092A (zh) * 2017-01-03 2017-06-13 青岛海信医疗设备股份有限公司 一种系统对接方法及装置
CN107330090A (zh) * 2017-07-04 2017-11-07 北京锐安科技有限公司 一种信息处理方法及装置
CN107508844A (zh) * 2017-10-23 2017-12-22 山东浪潮云服务信息科技有限公司 一种访问请求验证方法、装置及系统
CN108270637A (zh) * 2016-12-30 2018-07-10 中国移动通信集团浙江有限公司 一种网站质量多层钻取系统和方法
CN108495272A (zh) * 2018-03-19 2018-09-04 上海哔哩哔哩科技有限公司 基于html5浏览器的机器人识别方法、系统及存储介质
CN108874810A (zh) * 2017-05-10 2018-11-23 北京京东尚科信息技术有限公司 信息采集的方法和装置
CN109756467A (zh) * 2017-11-07 2019-05-14 中国移动通信集团广东有限公司 一种钓鱼网站的识别方法及装置
CN109766501A (zh) * 2019-01-14 2019-05-17 北京搜狗科技发展有限公司 爬虫协议管理方法及装置、爬虫系统
CN109862018A (zh) * 2019-02-21 2019-06-07 中国工商银行股份有限公司 基于用户访问行为的反爬虫方法及系统
CN110519228A (zh) * 2019-07-22 2019-11-29 中国科学院信息工程研究所 一种黑产场景下恶意云机器人的识别方法及系统
CN116644218A (zh) * 2023-07-26 2023-08-25 成都华栖云科技有限公司 一种线上线下融合的教学空间数据采集与存储方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101399672B (zh) * 2008-10-17 2011-03-02 章毅 一种多神经网络融合的入侵检测方法
CN101582813B (zh) * 2009-06-26 2011-07-20 西安电子科技大学 基于分布式迁移网络学习的入侵检测系统及其方法
CN102088477A (zh) * 2010-11-25 2011-06-08 互动在线(北京)科技有限公司 网站内容防采集系统和方法

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778216A (zh) * 2014-01-20 2014-05-07 北京集奥聚合科技有限公司 自动化过滤用户点击行为的方法和系统
CN104090908A (zh) * 2014-06-06 2014-10-08 微梦创科网络科技(中国)有限公司 统计页面组的平均停留时间、网站内容推广的方法和装置
CN104090908B (zh) * 2014-06-06 2017-11-03 微梦创科网络科技(中国)有限公司 统计页面组的平均停留时间、网站内容推广的方法和装置
CN104731937A (zh) * 2015-03-30 2015-06-24 百度在线网络技术(北京)有限公司 用户行为数据的处理方法及装置
CN104731937B (zh) * 2015-03-30 2018-05-01 百度在线网络技术(北京)有限公司 用户行为数据的处理方法及装置
CN104935603A (zh) * 2015-06-24 2015-09-23 郑州悉知信息技术有限公司 一种识别请求的方法及网站服务器
CN104994092B (zh) * 2015-06-30 2018-11-06 百度在线网络技术(北京)有限公司 业务请求处理方法、终端浏览器及防攻击服务器
CN104994092A (zh) * 2015-06-30 2015-10-21 百度在线网络技术(北京)有限公司 业务请求处理方法、终端浏览器及防攻击服务器
CN106487747A (zh) * 2015-08-26 2017-03-08 阿里巴巴集团控股有限公司 用户识别方法、系统、装置及处理方法、装置
CN106487747B (zh) * 2015-08-26 2019-10-08 阿里巴巴集团控股有限公司 用户识别方法、系统、装置及处理方法、装置
CN108270637B (zh) * 2016-12-30 2020-12-22 中国移动通信集团浙江有限公司 一种网站质量多层钻取系统和方法
CN108270637A (zh) * 2016-12-30 2018-07-10 中国移动通信集团浙江有限公司 一种网站质量多层钻取系统和方法
CN106845092A (zh) * 2017-01-03 2017-06-13 青岛海信医疗设备股份有限公司 一种系统对接方法及装置
CN108874810A (zh) * 2017-05-10 2018-11-23 北京京东尚科信息技术有限公司 信息采集的方法和装置
CN107330090A (zh) * 2017-07-04 2017-11-07 北京锐安科技有限公司 一种信息处理方法及装置
CN107508844A (zh) * 2017-10-23 2017-12-22 山东浪潮云服务信息科技有限公司 一种访问请求验证方法、装置及系统
CN109756467A (zh) * 2017-11-07 2019-05-14 中国移动通信集团广东有限公司 一种钓鱼网站的识别方法及装置
CN109756467B (zh) * 2017-11-07 2021-04-27 中国移动通信集团广东有限公司 一种钓鱼网站的识别方法及装置
CN108495272A (zh) * 2018-03-19 2018-09-04 上海哔哩哔哩科技有限公司 基于html5浏览器的机器人识别方法、系统及存储介质
CN109766501A (zh) * 2019-01-14 2019-05-17 北京搜狗科技发展有限公司 爬虫协议管理方法及装置、爬虫系统
CN109862018A (zh) * 2019-02-21 2019-06-07 中国工商银行股份有限公司 基于用户访问行为的反爬虫方法及系统
CN110519228A (zh) * 2019-07-22 2019-11-29 中国科学院信息工程研究所 一种黑产场景下恶意云机器人的识别方法及系统
CN116644218A (zh) * 2023-07-26 2023-08-25 成都华栖云科技有限公司 一种线上线下融合的教学空间数据采集与存储方法及装置
CN116644218B (zh) * 2023-07-26 2023-11-21 成都华栖云科技有限公司 一种线上线下融合的教学空间数据采集与存储方法及装置

Also Published As

Publication number Publication date
CN103218431B (zh) 2016-02-17

Similar Documents

Publication Publication Date Title
CN103218431B (zh) 一种能识别网页信息自动采集的系统
CN110462604B (zh) 基于设备使用关联互联网设备的数据处理系统和方法
CN107862022B (zh) 文化资源推荐系统
CN103136360B (zh) 一种互联网行为标注引擎及对应该引擎的行为标注方法
CN111191122A (zh) 一种基于用户画像的学习资源推荐系统
CN102289447B (zh) 一种基于通讯网络报文的网站网页评价系统
US20150121265A1 (en) Systems and methods for facilitating open source intelligence gathering
CN110781308B (zh) 一种基于大数据构建知识图谱的反欺诈系统
CN105095187A (zh) 一种搜索意图识别方法及装置
Sisodia et al. Web usage pattern analysis through web logs: A review
CN106383887A (zh) 一种环保新闻数据采集和推荐展示的方法及系统
CN102254265A (zh) 一种富媒体互联网广告内容匹配、效果评估方法
CN104899324B (zh) 一种基于idc有害信息监测系统的样本训练系统
CN101477554A (zh) 基于用户兴趣的个性化元搜索引擎及搜索结果处理方法
CN103544188A (zh) 移动互联网内容的用户偏好推送方法与装置
CN103605738A (zh) 网页访问数据统计方法及装置
CN105718587A (zh) 一种网络内容资源评估方法及评估系统
CN106446115A (zh) 移动上网用户分类方法及装置
CN111767443A (zh) 一种高效的网络爬虫分析平台
CN106528777A (zh) 跨屏用户标识归一的方法及其系统
CN111447575A (zh) 短信息推送方法、装置、设备及存储介质
CN104298782A (zh) 互联网用户主动访问行为轨迹的分析方法
Gabryel Data analysis algorithm for click fraud recognition
CN103745380A (zh) 一种广告投放方法和装置
CN111049818A (zh) 一种基于网络流量大数据的异常信息发现方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20161222

Address after: Wangjiang Hefei high tech Zone of Anhui province 230000 city Hefei Innovation Industrial Park 800 building A3 room 508

Patentee after: Hefei Zhiyuan wellSome service outsourcing Co.,Ltd.

Address before: Jinzhai road in Baohe District of Hefei city in Anhui province 230000 96 08 Grade 1-9

Patentee before: Jin Jun

Effective date of registration: 20161222

Address after: Jinzhai road in Baohe District of Hefei city in Anhui province 230000 96 08 Grade 1-9

Patentee after: Jin Jun

Address before: Jinzhai road in Baohe District of Hefei city in Anhui province 230000 96 08 Grade 1-9

Patentee before: Jin Jun

Patentee before: Jiang Yan

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200414

Address after: 200080 room 766d, block h, 7th floor, No.137 Haining Road, Hongkou District, Shanghai

Patentee after: Guoke (Shanghai) Enterprise Development Co.,Ltd.

Address before: 508, building 230000, building A3, Hefei Innovation Industrial Park, 800 Wangjiang West Road, Hefei hi tech Zone, Anhui, China

Patentee before: Hefei Zhiyuan wellSome service outsourcing Co.,Ltd.