CN114330466A - 行为识别方法及装置 - Google Patents
行为识别方法及装置 Download PDFInfo
- Publication number
- CN114330466A CN114330466A CN202011063117.6A CN202011063117A CN114330466A CN 114330466 A CN114330466 A CN 114330466A CN 202011063117 A CN202011063117 A CN 202011063117A CN 114330466 A CN114330466 A CN 114330466A
- Authority
- CN
- China
- Prior art keywords
- access
- behavior
- website
- crawler
- source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000006399 behavior Effects 0.000 claims description 141
- 230000002265 prevention Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 5
- 230000009193 crawling Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 241000239290 Araneae Species 0.000 description 2
- 238000013024 troubleshooting Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Images
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本公开关于一种行为识别方法及装置,该方法包括:获取访问日志,所述访问日志是通过收集访问方在访问目标网站时返回的引用信息得到的;从所述访问日志中提取访问行为特征;基于所提取的访问行为特征,确定存在针对所述目标网站的爬虫行为的访问来源。这样,通过收集访问方在访问目标网站时返回的引用信息,从而可基于该引用信息准确识别访问方是否存在针对所述目标网站的爬虫行为,提高识别效果。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种行为识别方法及装置。
背景技术
相关技术中,爬虫攻击通常会通过IP代理池进行多级代理,在分钟或秒级内进行IP更换,很难以溯源是哪些个人或企业进行的爬虫攻击。而传统识别爬虫行为的方法是通过统计某IP在一段时间内访问目标网站产生的统一资源定位系统(Uniform ResourceLocator,URL)总量,在该值超过设定阈值的情况下,认为该IP来源为爬虫。
然而,在多个正常用户共用一个IP的情况下,很容易将这些正常用户误认为是爬虫,或者,在用户通过频繁更换IP来访问的情况下,无法识别爬虫,造成漏判。可见,现有爬虫行为识别方式不够准确,识别效果较差。
发明内容
本公开提供一种行为识别方法及装置,以至少解决相关技术中爬虫行为识别方式不够准确,识别效果较差的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种行为识别方法,包括:
获取访问日志,所述访问日志是通过收集访问方在访问目标网站时返回的引用信息得到的;
从所述访问日志中提取访问行为特征;
基于所提取的访问行为特征,确定存在针对所述目标网站的爬虫行为的访问来源。
根据本公开实施例的第二方面,提供一种行为识别装置,包括:
获取模块,被配置为执行获取访问日志,所述访问日志是通过收集访问方在访问目标网站时返回的引用信息得到的;
提取模块,被配置为执行从所述访问日志中提取访问行为特征;
确定模块,被配置为执行基于所提取的访问行为特征,确定存在针对所述目标网站的爬虫行为的访问来源。
根据本公开实施例的第三方面,提供一种行为识别装置,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如上述第一方面所述的行为识别方法。
根据本公开实施例的第四方面,提供一种计算机程序产品,包括可执行指令,当所述可执行指令在计算机上运行时,使得计算机能够执行如上述第一方面所述的行为识别方法。
根据本公开实施例的第五方面,提供一种存储介质,当所述存储介质中的指令由行为识别装置执行时,使得行为识别装置能够执行上述第一方面所述的行为识别方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
获取访问日志,所述访问日志是通过收集访问方在访问目标网站时返回的引用信息得到的;从所述访问日志中提取访问行为特征;基于所提取的访问行为特征,确定存在针对所述目标网站的爬虫行为的访问来源。这样,通过收集访问方在访问目标网站时返回的引用信息,从而可基于该引用信息准确识别访问方是否存在针对所述目标网站的爬虫行为,提高识别效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种行为识别方法的流程图。
图2是根据一示例性实施例示出的一引用来源段对应的网站包含目标网站的数据的示意图;
图3是根据一示例性实施例示出的一种行为识别装置的框图。
图4是根据一示例性实施例示出的另一种行为识别装置的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种行为识别方法的流程图,该方法用于行为识别装置中,如图1所示,包括以下步骤。
在步骤S11中,获取访问日志,其中,所述访问日志是通过收集访问方在访问目标网站时返回的引用信息得到的。
上述获取访问日志可以是从访问日志数据库中获取存储的访问日志,具体地,由于访问方在访问目标网站时,都会向被访问方的URL地址返回引用信息,也即引用来源Referer,故可以通过记录各访问方返回的Referer,生成访问日志,并将生成的访问日志存入访问日志数据库中,且针对不同的访问方,可以分别生成访问日志,并存入访问日志数据库,也就是说,所述访问日志数据库中可以存储有多个访问方的访问日志。
其中,所述访问日志中可以记录有访问方的引用网站来源HTTP_Referer、域名、IP地址、统一资源标识符(Uniform Resource Identifier,URI)等引用信息。这样,通过分析个访问方的访问日志,可以识别出对应访问方是否存在爬取目标网站数据的行为。
上述目标网站可以是需要识别是否存在针对其的爬虫行为的网站,本方案的目的便是识别出该目标网站是否被爬取过数据,甚至是识别出具体被哪些平台或企业网站爬取过数据。
本申请实施例中,在准备识别爬虫行为时,可以先从访问日志数据库中获取各访问方的访问日志,再通过分析访问日志中的引用信息,依次识别对应的访问方是否存在针对所述目标网站的爬虫行为。
在步骤S12中,从所述访问日志中提取访问行为特征。
在基于所述访问日志识别访问方的爬虫行为时,可以从所述访问日志中提取访问方的访问行为特征,如提取访问日志中记录的访问方在访问时返回的引用信息,该引用信息通常包括引用网站来源HTTP_Referer。该引用网站来源中通常会隐藏着访问方的爬虫行为特征,如引用网站来源中的引用网址中会展示从所述目标网站爬取的数据,或者,引用网站来源中的引用网址中会存在一些表示爬虫目的的关键词。因此,通过从所述访问日志中提取这样的访问行为特征,可以保证基于提取的访问行为特征,较为准确地识别有哪些访问方存在针对所述目标网站的爬虫行为。
在步骤S13中,基于所提取的访问行为特征,确定存在针对所述目标网站的爬虫行为的访问来源。
在提取访问行为特征后,可以基于所提取的访问行为特征,识别各访问方是否存在针对所述目标网站的爬虫行为,进而确定存在针对所述目标网站的爬虫行为的访问方信息,也即访问来源,如访问方网站、域名、所属企业、访问IP等。
具体地,可依据从所述访问日志中提取的引用网站来源HTTP_Referer,获得所述引用网站来源中存储的URL地址,也就是访问方在访问所述目标网站时的引用网址,且这些URL地址中有些可以直接访问,还有些URL地址中会带有一些爬虫相关的暗示词,故可以通过访问这些URL地址,以查看该网址中是否展示有所述目标网站的数据,或者通过检索这些URL地址中是否存在一些爬虫相关的关键词,来识别所述引用网站来源对应的访问方是否存在针对所述目标网站的爬虫行为。例如,若访问某个引用网站来源中存储的URL地址,发现其网址中展示有所述目标网站的数据,或者,发现该引用网站来源中存储的URL地址中存在一些爬虫相关的关键词,则可以确定该引用网站来源对应的访问方爬取了所述目标网站的数据,即该引用网站来源对应的访问方存在针对所述目标网站的爬虫行为。
这样,通过对所述访问日志中记录的引用信息的分析,可以较为准确地识别各访问方是否存在针对所述目标网站的爬虫行为,而不易出现误判、漏判等情况。
可选的,所述步骤S12包括:
从所述访问日志中提取引用信息中的引用来源字段;
所述步骤S13包括:
访问所述引用来源字段对应的第一网站,判断所述第一网站中是否包含所述目标网站的数据;
在所述第一网站中包含所述目标网站的数据的情况下,确定所述第一网站对应的访问方存在针对所述目标网站的爬虫行为。
一种实施方式中,所述从所述访问日志中提取访问行为特征,可以是从所述访问日志中提取访问方返回的引用信息中的引用来源字段,也即HTTP_Referer字段。然后,可直接访问所述HTTP_Referer字段对应的网站,查询该网站中是否包含有所述目标网站的数据,在所述访问日志中记录的任一HTTP_Referer字段对应的网站访问成功,且发现该网站中包含所述目标网站的数据的情况下,可以确定该网站对应的访问方爬取过所述目标网站的数据,而在所述访问日志中记录的任一HTTP_Referer字段对应的网站访问成功并发现该网站中不包含所述目标网站的数据的情况下,则可以确定该网站对应的访问方未爬取过所述目标网站的数据,此外,在所述访问日志中记录的任一HTTP_Referer字段对应的网站无法访问的情况下,则不能确定该网站对应的访问方是否存在爬取过所述目标网站的数据的行为,可以通过另外的途径来识别该网站的行为。
例如,如图2所示,可以进入一HTTP_Referer字段对应的网站“https://ks.ca****.com/**/**/***28”进行访问,发现该网站中存在目标网站“live.ku***.com”的数据,则可以确定该HTTP_Referer字段对应的访问方爬取了所述目标网站的数据,存在针对所述目标网站的爬虫行为。
更具体地,该实施方式中,在获得各访问方的访问日志后,可以先将各访问方的访问日志按序排列,如将域名相同的HTTP_Referer字段相邻排放,例如,排序后的访问日志可如图下表1所示。
表1访问日志排序
然后,可以一一排查各域名相同的HTTP_Referer字段中的URL网址,判断网站中是否包含目标网站live.ku**.com的数据,如先访问域名为ks.ca***.com的HTTP_Referer字段中的URL网址https://ks.ca**.com/***6304、https://ks.ca**.com/***1328……等,看这些网站中是否包含网站live.ku**.com的数据,再访问域名为ks.fe**.cn的HTTP_Referer字段中的URL网址https://ks.fe**.cn/***,判断该网站中是否包含网站live.ku**.com的数据。在确认某HTTP_Referer字段中的URL网址包含目标网站的数据的情况下,可以确认该HTTP_Referer字段中的URL网址类型为爬虫服务平台。
这样,该实施方式中,通过访问所述访问日志集中记录的引用来源字段字段对应的网站,判断该网站中是否包含所述目标网站的数据,可以较为准确地识别出存在针对所述目标网站的爬虫行为的访问方。
可选的,所述步骤S12包括:
从所述访问日志中提取目标引用来源字段,所述目标引用来源字段为引用信息中包括预设的爬虫行为关联关键词的引用来源字段;
所述步骤S13包括:
确定所述目标引用来源字段对应的第二网站;
确定所述第二网站对应的访问方存在针对所述目标网站的爬虫行为。
另一种实施方式中,所述从所述访问日志中提取访问行为特征,可以是从所述访问日志的引用信息中提取包括预设的爬虫行为关联关键词的目标引用来源字段,即可以使用预设的爬虫行为关联关键词作为检索词,检索所述访问日志中记录的每个引用来源字段也即HTTP_Referer字段是否包含预设的爬虫行为关联关键词,若检索出目标HTTP_Referer字段包含所述预设的爬虫行为关联关键词,则可以提取所述目标HTTP_Referer字段,并确定所述目标HTTP_Referer字段对应的访问方网站,如通过所述目标HTTP_Referer字段中的URL地址,确定对应的访问方网站,并可确定该访问方网站对应的访问方为爬虫服务平台,爬取过所述目标网站的数据;对于未检索出所述预设的爬虫行为关联关键词的HTTP_Referer字段,则暂时不能确定该HTTP_Referer字段对应的访问方是否存在针对所述目标网站的爬虫行为,可以通过其他途径进一步识别,如访问该HTTP_Referer字段对应的网站,看其中是否包含所述目标网站的数据。
其中,所述预设的爬虫行为关联关键词可以是预设的能够表征爬虫行为的关键词,如spider、crawl等关键词,例如,如下表2所示,访问日志中记录的HTTP_Referer字段中有些包含crawl关键词,有些包含spider关键词,故可以确定这些HTTP_Referer字段对应的访问方为爬虫服务平台。
这样,通过排查所述访问日志中记录的每个引用来源字段是否包含预设的爬虫行为关联关键词,可较为准确地识别出存在针对所述目标网站的爬虫行为的访问方。
表2访问日志
Remote_addr | Http_Referer | Host | URI |
1**.**.**.2** | https://1**.1****/wxacrawler/***appservice | live.ku**.com | /***phql |
8*.**.***.1** | https://1**.1****/wxacrawler/***appservice | live.ku**.com | /***phql |
2**.**.**.9* | https://to**.byted***/spider-deadlink***content | live.ku**.com | /u/***4394 |
1**.**.***.1** | https://1**.1****/crawler-distinct/***Get | live.ku**.com | /u/***6429 |
可选的,所述步骤S13之后,所述方法还包括:
对所述访问来源执行防爬虫操作,其中,所述防爬虫操作包括对所述访问来源进行信息登记、对所述访问来源的访问请求记录进行上报和对所述访问来源的访问请求进行拦截中的至少一项。
即在确定存在针对所述目标网站的爬虫行为的访问来源后,可以对这些访问来源执行一定的防爬虫操作,以防止这些访问来源再次爬取所述目标网站的数据,或者保存这些访问来源的爬取记录,为打击爬虫行为提供证据支持。
具体地,可对所述访问来源进行信息登记,如记录所述访问来源的网站、域名、IP地址或所属企业名称等信息,或者,对所述访问来源的访问请求记录进行上报,以便技术人员依据上报记录及时排查爬虫行为,还或者对所述访问来源的访问请求进行拦截,以及时阻止所述访问来源的数据爬取行为。当然,也可以结合使用这三种防爬虫操作,如同时采用这三种防爬虫操作中的任两个,或三种防爬虫操作同时使用。
可选的,所述对所述访问来源执行防爬虫操作,包括:
获取所述访问来源中的访问方网站的域名所属的企业名称;
将所述企业名称录入爬虫数据库。
该实施方式中,在识别出存在针对所述目标网站的爬虫行为的访问来源后,可以进一步获取所述访问来源中的访问方网站对应的访问方信息,如确定所述访问方网站所属的详细企业信息,具体可以通过备案调查所述访问方网站中的域名,来获得该域名所属的企业,这样,可以确认是该企业非法收录或爬取了所述目标网站的数据,从而可为所述目标网站所属公司法务提供证据和技术支持,进而通过法律手段有效打击爬虫攻击行为。并且在获得所述访问方网站的域名所属的企业名称后,可以进一步将所述企业名称录入爬虫数据库,后续可以禁止或拦截来自该企业网站的访问请求。
可选的,所述对所述访问来源执行防爬虫操作,包括:
将所述访问来源中的访问方网站发出的访问请求记录进行上报。
即可以针对识别出的存在爬虫行为的访问来源,建立自动化报告机制,对于所述访问来源中的访问方网站发出的访问请求记录进行上报,例如,在接收到某网站发出的访问目标网站的请求时,若确认该网站为已识别的爬取过所述目标网站的数据的访问方网站,则可以向所述目标网站的技术人员发送告警邮件,以提示被访问方当前接收到爬虫攻击行为,进而可以对该访问行为进行拦截,拒绝爬虫服务的访问。
这样,通过将所述访问来源中的访问方网站发出的访问请求记录进行上报,有利于访问方及时获知爬虫行为,并可根据上报记录有效拦截爬虫服务访问请求。
可选的,所述访问日志中记录有每个访问方对应的IP地址;
所述对所述访问来源执行防爬虫操作,包括:
将所述访问来源中的访问方对应的IP地址加入IP黑名单;
对来源于所述IP黑名单中的IP地址的访问请求进行拦截。
该实施方式中,所述访问日志中可以记录每个访问方远程访问的IP地址,即各访问者是通过什么IP地址进行访问的,如前表1和表2中所示,每个访问方的访问日志均包括IP地址字段。
这样,在识别存在针对所述目标网站的爬虫行为的访问来源后,可以确认所述访问来源中的访问方对应的IP地址为爬虫服务平台的IP地址或为爬虫IP地址,并可以进一步将所述访问来源中的访问方对应的IP地址加入IP黑名单,对来源于所述IP黑名单中的IP地址的访问请求进行拦截,即所述目标网站可以依据访问方的IP地址,判断其是否为所述IP黑名单中的IP地址,若是,则对该访问方的访问请求进行拦截,拒绝爬虫服务的访问。例如,可以将表2中各Remote_addr字段中的IP地址录入黑名单数据库,后续对这些IP地址发起的访问请求进行拦截。
这样,通过将所述访问来源中的访问方对应的IP地址加入IP黑名单,对来源于所述IP黑名单中的IP地址的访问请求进行拦截,可以实现有效的拦截、屏蔽或监控爬虫攻击行为。
需说明的是,还可以将存在爬虫行为的访问方在访问时返回的HTTP_Referer字段中的URL地址录入HTTP_Referer数据库,所述目标网站可以对HTTP_Referer数据库中的URL地址进行Referer黑名单设置,对包含该类Referer的访问请求进行拦截,拒绝其访问。
可选的,所述方法还包括:
获取访问方在访问所述目标网站时返回的引用信息,生成访问日志;
在所述访问日志包含预设信息的情况下,删除所述访问日志,其中,所述预设信息为与爬虫行为不存在关联关系的信息;
在所述访问日志不包含所述预设信息的情况下,保留所述访问日志中的预设字段,并将处理后的访问日志存入访问日志数据库,其中,所述预设字段至少包括引用来源字段。
该实施方式中,针对访问方在访问所述目标网站时返回的引用信息,也即Referer,可以一一进行记录,即收集各访问方在访问所述目标网站时返回的Referer,生成Referer日志,也即访问日志。并且针对获得的每个访问日志,可以进行日志清洗和入库处理,具体为去除包含预设信息的访问日志,保留不包含所述预设信息的访问日志中的预设字段,得到处理后的访问日志,并可将处理后的访问日志存入访问日志数据库,如按天或小时将处理后的访问日志自动化写入访问日志数据库中。
其中,所述预设信息可以是访问日志中与爬虫排查不相关的信息,如访问方为所述目标网站的域名、IP等信息,即对于所述目标网站自己的访问日志可以删除,还可以删除记录内容为空的访问日志、包含搜索引擎服务域名或其他不关注域名的访问日志等,所述其他不关注域名可以是通过访问后统计出的。通过去除这些包含预设信息的访问日志,可以有助于在依据访问日志识别爬虫行为时缩小访问日志的排查范围。
所述预设字段可以是访问方返回的Referer中与爬虫排查较为密切的字段,通过所述预设字段,能够快速有效地排查出哪些是爬虫行为,如引用来源HTTP_Referer字段,当然,所述预设字段还可以包括被访问方为所述目标网站的域名的字段、被访问方为所述目标网站的URI的字段、IP地址字段,等等。通过所述HTTP_Referer字段,可以获得访问方的URL网址和域名信息,通过IP地址字段可以获得访问方的访问地址信息,通过被访问方为所述目标网站的域名的字段和被访问方为所述目标网站的URI的字段,可以获知访问方爬取了所述目标网站的哪些数据,因此,可以在访问日志中保留这些字段的信息,有助于准确快速地排查出哪些访问记录为爬虫攻击行为,以及被爬取的数据。
这样,通过对获取的访问日志进行去除包含预设信息的访问日志的处理,和保留不包含预设信息并且包括预设字段的访问日志的处理,既可以保证访问志数据库中存储的是有很大可能存在爬虫行为的访问方的访问日志,并且存储的访问日志具备较少但关键的字段,有助于节省数据库空间,还能保证基于处理后的访问日志,能够快速有效地排查爬虫行为。
本方案可以应用于爬虫攻击溯源和爬虫攻击行为准确识别的场景,通过记录爬取方返回的Http_Referer,然后通过访问Http_Referer对应的网站,查看其中是否包含目标网站的数据,或者检索Http_Referer中是否包含预设的爬虫行为相关关键词,来识别Http_Referer对应的访问方是否存在针对目标网站的爬虫行为,并可以通过Http_Referer中的域名确定具体的爬虫服务平台信息,实现爬虫攻击溯源和爬虫攻击行为准确识别,进而可以为所述目标网站公司法务提供证据、技术支持,通过法律手段有效打击爬虫攻击行为,还可以对异常爬虫攻击行为进行有效的拦截、屏蔽或监控。
本公开实施例提供的行为识别方法,获取访问日志,所述访问日志是通过收集访问方在访问目标网站时返回的引用信息得到的;从所述访问日志中提取访问行为特征;基于所提取的访问行为特征,确定存在针对所述目标网站的爬虫行为的访问来源。这样,通过收集访问方在访问目标网站时返回的引用信息,从而可基于该引用信息准确识别访问方是否存在针对所述目标网站的爬虫行为,提高识别效果。
图3是根据一示例性实施例示出的一种行为识别装置框图。参照图3,该行为识别装置300包括获取模块301、提取模块302和确定模块303。
该获取模块301被配置为执行获取访问日志,所述访问日志是通过收集访问方在访问目标网站时返回的引用信息得到的;
该提取模块302被配置为执行从所述访问日志中提取访问行为特征;
该确定模块303被配置为执行基于所提取的访问行为特征,确定存在针对所述目标网站的爬虫行为的访问来源。
可选的,提取模块302被配置为执行从所述访问日志中提取引用信息中的引用来源字段;
确定模块303包括:
判断单元,被配置为执行访问所述引用来源字段对应的第一网站,判断所述第一网站中是否包含所述目标网站的数据;
第一确定单元,被配置为执行在所述第一网站中包含所述目标网站的数据的情况下,确定所述第一网站对应的访问方存在针对所述目标网站的爬虫行为。
可选的,提取模块302被配置为执行从所述访问日志中提取目标引用来源字段,所述目标引用来源字段为引用信息中包括预设的爬虫行为关联关键词的引用来源字段;
确定模块303包括:
第二确定单元,被配置为执行确定所述目标引用来源字段对应的第二网站;
第三确定单元,被配置为执行确定所述第二网站对应的访问方存在针对所述目标网站的爬虫行为。
可选的,行为识别装置300还包括:
处理模块,被配置为执行对所述访问来源执行防爬虫操作,其中,所述防爬虫操作包括对所述访问来源进行信息登记、对所述访问来源的访问请求记录进行上报和对所述访问来源的访问请求进行拦截中的至少一项。
可选的,所述处理模块包括:
获取单元,被配置为执行获取所述访问来源中的访问方网站的域名所属的企业名称;
录入模块,被配置为执行将所述企业名称录入爬虫数据库。
可选的,所述处理模块被配置为执行将所述访问来源中的访问方网站发出的访问请求记录进行上报。
可选的,所述访问日志中记录有每个访问方对应的IP地址;
所述处理模块包括:
添加单元,被配置为执行将所述访问来源中的访问方对应的IP地址加入IP黑名单;
拦截单元,被配置为执行对来源于所述IP黑名单中的IP地址的访问请求进行拦截。
可选的,行为识别装置300还包括:
生成模块,被配置为执行获取访问方在访问所述目标网站时返回的引用信息,生成访问日志;
删除模块,被配置为执行在所述访问日志包含预设信息的情况下,删除所述访问日志,其中,所述预设信息为与爬虫行为不存在关联关系的信息;
存储模块,被配置为执行在所述访问日志不包含所述预设信息的情况下,保留所述访问日志中的预设字段,并将处理后的访问日志存入访问日志数据库,其中,所述预设字段至少包括引用来源字段。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图4是根据一示例性实施例示出的一种用于行为识别装置400的框图,参照图4,该行为识别装置400包括:处理器401、存储器402和总线接口403。
处理器401,用于读取存储器402中的程序,执行下列过程:
获取访问日志,所述访问日志是通过收集访问方在访问目标网站时返回的引用信息得到的;
从所述访问日志中提取访问行为特征;
基于所提取的访问行为特征,确定存在针对所述目标网站的爬虫行为的访问来源。
在图4中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器401代表的一个或多个处理器和存储器402代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口403提供接口。
处理器401负责管理总线架构和通常的处理,存储器402可以存储处理器401在执行操作时所使用的数据。
可选的,处理器401,还用于:
从所述访问日志中提取引用信息中的引用来源字段;
访问所述引用来源字段对应的第一网站,判断所述第一网站中是否包含所述目标网站的数据;
在所述第一网站中包含所述目标网站的数据的情况下,确定所述第一网站对应的访问方存在针对所述目标网站的爬虫行为。
可选的,处理器401,还用于:
从所述访问日志中提取目标引用来源字段,所述目标引用来源字段为引用信息中包括预设的爬虫行为关联关键词的引用来源字段;
确定所述目标引用来源字段对应的第二网站;
确定所述第二网站对应的访问方存在针对所述目标网站的爬虫行为。
可选的,处理器401,还用于:
对所述访问来源执行防爬虫操作,其中,所述防爬虫操作包括对所述访问来源进行信息登记、对所述访问来源的访问请求记录进行上报和对所述访问来源的访问请求进行拦截中的至少一项。
可选的,处理器401,还用于:
获取所述访问来源中的访问方网站的域名所属的企业名称;
将所述企业名称录入爬虫数据库。
可选的,处理器401,还用于:
将访问来源中的访问方网站发出的访问请求记录进行上报。
可选的,所述访问日志中记录有每个访问方对应的IP地址;
处理器401,还用于:
将所述访问来源中的访问方对应的IP地址加入IP黑名单;
对来源于所述IP黑名单中的IP地址的访问请求进行拦截。
可选的,处理器401,还用于:
获取访问方在访问所述目标网站时返回的引用信息,生成访问日志;
在所述访问日志包含预设信息的情况下,删除所述访问日志,其中,所述预设信息为与爬虫行为不存在关联关系的信息;
在所述访问日志不包含所述预设信息的情况下,保留所述访问日志中的预设字段,并将处理后的访问日志存入访问日志数据库,其中,所述预设字段至少包括引用来源字段。
行为识别装置400能够实现前述实施例中的各个过程,为避免重复,这里不再赘述。
在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器402,上述指令可由行为识别装置400的处理器401执行以完成上述方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种行为识别方法,其特征在于,包括:
获取访问日志,所述访问日志是通过收集访问方在访问目标网站时返回的引用信息得到的;
从所述访问日志中提取访问行为特征;
基于所提取的访问行为特征,确定存在针对所述目标网站的爬虫行为的访问来源。
2.根据权利要求1所述的方法,其特征在于,所述从所述访问日志中提取访问行为特征,包括:
从所述访问日志中提取引用信息中的引用来源字段;
所述基于所提取的访问行为特征,确定存在针对所述目标网站的爬虫行为的访问来源,包括:
访问所述引用来源字段对应的第一网站,判断所述第一网站中是否包含所述目标网站的数据;
在所述第一网站中包含所述目标网站的数据的情况下,确定所述第一网站对应的访问方存在针对所述目标网站的爬虫行为。
3.根据权利要求1所述的方法,其特征在于,所述从所述访问日志中提取访问行为特征,包括:
从所述访问日志中提取目标引用来源字段,所述目标引用来源字段为引用信息中包括预设的爬虫行为关联关键词的引用来源字段;
所述基于所提取的访问行为特征,确定存在针对所述目标网站的爬虫行为的访问来源,包括:
确定所述目标引用来源字段对应的第二网站;
确定所述第二网站对应的访问方存在针对所述目标网站的爬虫行为。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述确定存在针对所述目标网站的爬虫行为的访问来源之后,所述方法还包括:
对所述访问来源执行防爬虫操作,其中,所述防爬虫操作包括对所述访问来源进行信息登记、对所述访问来源的访问请求记录进行上报和对所述访问来源的访问请求进行拦截中的至少一项。
5.根据权利要求4所述的方法,其特征在于,所述对所述访问来源执行防爬虫操作,包括:
获取所述访问来源中的访问方网站的域名所属的企业名称;
将所述企业名称录入爬虫数据库。
6.根据权利要求4所述的方法,其特征在于,所述对所述访问来源执行防爬虫操作,包括:
将所述访问来源中的访问方网站发出的访问请求记录进行上报。
7.根据权利要求4所述的方法,其特征在于,所述访问日志中记录有每个访问方对应的IP地址;
所述对所述访问来源执行防爬虫操作,包括:
将所述访问来源中的访问方对应的IP地址加入IP黑名单;
对来源于所述IP黑名单中的IP地址的访问请求进行拦截。
8.一种行为识别装置,其特征在于,包括:
获取模块,被配置为执行获取访问日志,所述访问日志是通过收集访问方在访问目标网站时返回的引用信息得到的;
提取模块,被配置为执行从所述访问日志中提取访问行为特征;
确定模块,被配置为执行基于所提取的访问行为特征,确定存在针对所述目标网站的爬虫行为的访问来源。
9.一种行为识别装置,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至7中任一项所述的行为识别方法。
10.一种存储介质,当所述存储介质中的指令由行为识别装置的处理器执行时,使得行为识别装置能够执行如权利要求1至7中任一项所述的行为识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011063117.6A CN114330466A (zh) | 2020-09-30 | 2020-09-30 | 行为识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011063117.6A CN114330466A (zh) | 2020-09-30 | 2020-09-30 | 行为识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114330466A true CN114330466A (zh) | 2022-04-12 |
Family
ID=81032749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011063117.6A Pending CN114330466A (zh) | 2020-09-30 | 2020-09-30 | 行为识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114330466A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150324350A1 (en) * | 2014-05-12 | 2015-11-12 | International Business Machines Corporation | Identifying Content Relationship for Content Copied by a Content Identification Mechanism |
US9503506B2 (en) * | 2012-08-31 | 2016-11-22 | Tencent Technology (Shenzhen) Company Limited | Transit-mode-based webpage accessing method, system, and crawler route server |
CN106156055A (zh) * | 2015-03-27 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 搜索引擎爬虫的识别、处理方法及装置 |
WO2017049042A1 (en) * | 2015-09-16 | 2017-03-23 | RiskIQ, Inc. | Identifying phishing websites using dom characteristics |
CN109241733A (zh) * | 2018-08-07 | 2019-01-18 | 北京神州绿盟信息安全科技股份有限公司 | 基于Web访问日志的爬虫行为识别方法及装置 |
CN109657119A (zh) * | 2018-11-23 | 2019-04-19 | 成都知道创宇信息技术有限公司 | 一种基于访问日志ip分析的网络爬虫检测方法 |
CN110020512A (zh) * | 2019-04-12 | 2019-07-16 | 重庆天蓬网络有限公司 | 一种反爬虫的方法、装置、设备及存储介质 |
CN111666465A (zh) * | 2019-03-06 | 2020-09-15 | 上海晶赞融宣科技有限公司 | 爬取数据的方法及装置、存储介质、终端 |
-
2020
- 2020-09-30 CN CN202011063117.6A patent/CN114330466A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9503506B2 (en) * | 2012-08-31 | 2016-11-22 | Tencent Technology (Shenzhen) Company Limited | Transit-mode-based webpage accessing method, system, and crawler route server |
US20150324350A1 (en) * | 2014-05-12 | 2015-11-12 | International Business Machines Corporation | Identifying Content Relationship for Content Copied by a Content Identification Mechanism |
CN106156055A (zh) * | 2015-03-27 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 搜索引擎爬虫的识别、处理方法及装置 |
WO2017049042A1 (en) * | 2015-09-16 | 2017-03-23 | RiskIQ, Inc. | Identifying phishing websites using dom characteristics |
CN109241733A (zh) * | 2018-08-07 | 2019-01-18 | 北京神州绿盟信息安全科技股份有限公司 | 基于Web访问日志的爬虫行为识别方法及装置 |
CN109657119A (zh) * | 2018-11-23 | 2019-04-19 | 成都知道创宇信息技术有限公司 | 一种基于访问日志ip分析的网络爬虫检测方法 |
CN111666465A (zh) * | 2019-03-06 | 2020-09-15 | 上海晶赞融宣科技有限公司 | 爬取数据的方法及装置、存储介质、终端 |
CN110020512A (zh) * | 2019-04-12 | 2019-07-16 | 重庆天蓬网络有限公司 | 一种反爬虫的方法、装置、设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
PATIL, SONAL等: "A Spatial Web Crawler for Discovering Geo-servers and Semantic Referencing with Spatial Features", LECTURE NOTES IN ARTIFICIAL INTELLIGENCE, vol. 8337, 17 September 2014 (2014-09-17), pages 68 - 78 * |
吴晓辉等: "Web爬虫检测技术综述", 湖北汽车工业学院学报, vol. 26, no. 1, 31 March 2012 (2012-03-31), pages 57 - 58 * |
张海;刘晓冬;: "浅析如何应对网络爬虫流量", 中国市场, no. 23, 12 June 2016 (2016-06-12), pages 77 - 78 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100723867B1 (ko) | 피싱웹페이지 차단 장치 및 방법 | |
CN101582887B (zh) | 安全防护方法、网关设备及安全防护系统 | |
US8219533B2 (en) | Search engine feedback for developing reliable whois database reference for restricted search operation | |
CN111104579A (zh) | 一种公网资产的识别方法、装置及存储介质 | |
CN107483381B (zh) | 关联账户的监控方法及装置 | |
CN111404937B (zh) | 一种服务器漏洞的检测方法和装置 | |
CN109347808B (zh) | 一种基于用户群行为活动的安全分析方法 | |
CN109241733A (zh) | 基于Web访问日志的爬虫行为识别方法及装置 | |
CN108282446B (zh) | 识别扫描器的方法及设备 | |
CN111859234A (zh) | 一种非法内容识别方法、装置、电子设备及存储介质 | |
CN110708339A (zh) | 一种基于web日志的关联分析方法 | |
CN111625700B (zh) | 防抓取的方法、装置、设备及计算机存储介质 | |
CN103618761B (zh) | 对cookie信息进行处理的方法和浏览器 | |
CN112347328A (zh) | 一种网络平台识别方法、装置、设备及可读存储介质 | |
Almishari et al. | Ads-portal domains: Identification and measurements | |
CN114330466A (zh) | 行为识别方法及装置 | |
CN116455623A (zh) | 基于大数据识别技术的计算机信息安全共享系统及方法 | |
CN113395268A (zh) | 一种基于线上线下融合的网络爬虫拦截方法 | |
CN109962922B (zh) | 关于简历的反ats行为的处理方法及系统 | |
CN112818278B (zh) | 互联网托管网站的排查方法及排查系统 | |
KR101709952B1 (ko) | 개인정보 점검 관리 서버 및 이를 이용한 개인정보 점검 관리 방법 | |
CN114519090B (zh) | 一种停用词的管理方法、装置及电子设备 | |
CN113660277B (zh) | 一种基于复用埋点信息的反爬虫方法及处理终端 | |
CN115189901B (zh) | 异常请求的识别方法、装置、服务器及存储介质 | |
CN116150541B (zh) | 后台系统的识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |