CN108763274A - 访问请求的识别方法、装置、电子设备及存储介质 - Google Patents
访问请求的识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN108763274A CN108763274A CN201810312756.8A CN201810312756A CN108763274A CN 108763274 A CN108763274 A CN 108763274A CN 201810312756 A CN201810312756 A CN 201810312756A CN 108763274 A CN108763274 A CN 108763274A
- Authority
- CN
- China
- Prior art keywords
- access
- information
- interface
- path information
- reptile
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明实施例提供了一种访问请求的识别方法、装置、电子设备及存储介质,所述方法包括:获取终端设备的访问数据,所述访问数据包括访问路径信息;根据所述访问路径信息,生成用户数据集合;基于所述用户数据集合,构建爬虫识别模型;采用所述爬虫识别模型,对目标终端设备的访问请求进行识别,所述访问请求为所述目标终端设备对目标访问接口发起的请求。本实施例通过终端设备的访问路径信息进行爬虫识别,由于完全模拟了正常的终端设备的访问路径,因而降低了识别的误伤率,提高了爬虫识别的准确率,减少了对正常用户或终端设备的影响。
Description
技术领域
本发明涉及信息技术领域,特别是涉及一种访问请求的识别方法、一种访问请求的识别装置、一种电子设备和一种存储介质。
背景技术
网络爬虫(web crawler),又被称为网页蜘蛛,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。
虽然网络爬虫提供了一种方便的获取信息的方式,但是很多糟糕的网络爬虫对网页的爬取能力较差,经常并发几十上百个请求循环重复抓取,这种爬虫就会对网站的性能造成严重的影响,特别是一些缺乏爬虫编写经验的程序员写出来的爬虫破坏力极强,造成的网站访问压力会非常大,会导致网站访问速度缓慢,甚至无法访问。因此,阻止网络爬虫批量获取网站信息的反爬虫技术应运而生。
目前,常见的反爬虫方法主要包括如下三种:
第一种是以IP地址为基本维度,通过统计IP地址的访问频次来实现反爬虫。由于爬虫IP往往都是速度快且访问量大的,因此此种方法经常作为反爬虫的最基本方法。但是,由于公共IP地址往往也是访问量大而且迅速的,所以采用这种方法通常无法避免对公共IP地址的误伤。
第二种可以通过识别请求携带的参数是否异常来实现反爬虫。因为爬虫往往是脚本代码,所以爬虫携带的参数无法像正常用户那样携带各项都匹配并且符合实际情况的参数。但是,由于网络获取参数都有一定的失败率,而且少量的正常用户也会携带一些看上去错误的参数,所以采用这种方法很容易被爬虫绕过,而且也避免不了会误伤一些正常用户。
第三种反爬虫方法可以结合模型训练,通过采集鼠标和键盘等对外交互的设备的移动轨迹,并利用爬虫数据作为样本数据进行训练,得到爬虫行为模型,然后在线上识别爬虫。这种方法过渡于人机识别,能够用于区分正常用户和机器。但是,由于这种方法依赖于前端JS(JavaScript,一种直译式脚本语言)的信息采集,在APP端并没有很好的效果。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种访问请求的识别方法、一种访问请求的识别装置、一种电子设备和一种存储介质。
为了解决上述问题,本发明实施例公开了一种访问请求的识别方法,包括:
获取终端设备的访问数据,所述访问数据包括访问路径信息;
根据所述访问路径信息,生成用户数据集合;
基于所述用户数据集合,构建爬虫识别模型;
采用所述爬虫识别模型,对目标终端设备的访问请求进行识别,所述访问请求为所述目标终端设备对目标访问接口发起的请求。
可选地,所述获取终端设备的访问数据的步骤包括:
接收终端设备的访问请求;
确定与所述访问请求相匹配的至少一个访问接口;
根据所述至少一个访问接口,生成所述终端设备的访问路径信息。
可选地,在所述根据所述访问路径信息,生成用户数据集合的步骤前,还包括:
对所述访问路径信息进行数据清洗。
可选地,所述对所述访问路径信息进行数据清洗的步骤包括:
识别所述访问路径信息中各个字段的缺失值、异常值,以及,重复值;
填充所述缺失值、修改所述异常值,和/或,删除所述重复值,以获得清洗后的访问路径信息。
可选地,所述根据所述访问路径信息,生成用户数据集合的步骤包括:
按照预设规则对所述清洗后的访问路径信息作归一化处理,生成用户数据集合。
可选地,所述基于所述用户数据集合,构建爬虫识别模型的步骤包括:
统计所述用户数据集合中各个访问路径信息包含的访问接口数量、访问接口顺序,以及,相邻访问接口之间的时间间隔的信息;
采用所述访问接口数量、访问接口顺序,以及,相邻访问接口之间的时间间隔的信息训练预置的类朴素贝叶斯模型,以构建爬虫识别模型。
可选地,所述采用所述爬虫识别模型,对目标终端设备的访问请求进行识别的步骤包括:
若接收到目标终端设备的访问请求,则获取所述目标终端设备的目标访问路径信息,所述目标访问路径信息包括当前访问接口数量、当前访问接口顺序,以及,当前相邻访问接口之间的时间间隔的信息;
对所述当前访问接口数量、当前访问接口顺序,以及,当前相邻访问接口之间的时间间隔的信息进行编码,以获得编码信息;
采用所述爬虫识别模型,识别所述编码信息对应的目标终端设备是否为爬虫。
为了解决上述问题,本发明实施例公开了一种访问请求的识别装置,包括:
获取模块,用于获取终端设备的访问数据,所述访问数据包括访问路径信息;
生成模块,用于根据所述访问路径信息,生成用户数据集合;
构建模块,用于基于所述用户数据集合,构建爬虫识别模型;
识别模块,用于采用所述爬虫识别模型,对目标终端设备的访问请求进行识别,所述访问请求为所述目标终端设备对目标访问接口发起的请求。
可选地,所述获取模块包括:
访问请求接收子模块,用于接收终端设备的访问请求;
访问接口确定子模块,用于确定与所述访问请求相匹配的至少一个访问接口;
访问路径信息生成子模块,用于根据所述至少一个访问接口,生成所述终端设备的访问路径信息。
可选地,所述装置还包括:
数据清洗模块,用于对所述访问路径信息进行数据清洗。
可选地,所述数据清洗模块包括:
字段信息识别子模块,用于识别所述访问路径信息中各个字段的缺失值、异常值,以及,重复值;
数据清洗子模块,用于填充所述缺失值、修改所述异常值,和/或,删除所述重复值,以获得清洗后的访问路径信息。
可选地,所述生成模块包括:
归一化处理子模块,用于按照预设规则对所述清洗后的访问路径信息作归一化处理,生成用户数据集合。
可选地,所述构建模块包括:
路径信息统计子模块,用于统计所述用户数据集合中各个访问路径信息包含的访问接口数量、访问接口顺序,以及,相邻访问接口之间的时间间隔的信息;
模型训练子模块,用于采用所述访问接口数量、访问接口顺序,以及,相邻访问接口之间的时间间隔的信息训练预置的类朴素贝叶斯模型,以构建爬虫识别模型。
可选地,所述识别模块包括:
目标访问路径信息获取模块,用于在接收到目标终端设备的访问请求时,获取所述目标终端设备的目标访问路径信息,所述目标访问路径信息包括当前访问接口数量、当前访问接口顺序,以及,当前相邻访问接口之间的时间间隔的信息;
信息编码子模块,用于对所述当前访问接口数量、当前访问接口顺序,以及,当前相邻访问接口之间的时间间隔的信息进行编码,以获得编码信息;
目标终端设备识别模块,用于采用所述爬虫识别模型,识别所述编码信息对应的目标终端设备是否为爬虫。
为了解决上述问题,本发明实施例公开了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述访问请求的识别方法的步骤。
为了解决上述问题,本发明实施例公开了一种存储介质,当所述存储介质中的指令由处理器执行时,使得处理器执行上述访问请求的识别方法中的步骤。
与背景技术相比,本发明实施例包括以下优点:
本发明实施例,通过采集终端设备的访问数据,然后根据访问数据中的访问路径信息生成用户数据集合,进而可以基于上述用户数据集合构建爬虫识别模型,当接收到目标终端设备的访问请求时,可以采用该爬虫识别模型进行识别,以确定目标终端设备是否为爬虫。本实施例通过终端设备的访问路径信息进行爬虫识别,由于完全模拟了正常的终端设备的访问路径,因而降低了识别的误伤率,提高了爬虫识别的准确率,减少了对正常用户或终端设备的影响。
其次,本实施例通过构建爬虫识别模型进行识别,不需要前端业务加载JS,不影响实际的业务进程,爬虫很难绕过相应的识别策略,提高了对爬虫访问请求的拦截效率。
附图说明
图1是本发明一个实施例的一种访问请求的识别方法的步骤流程示意图;
图2是本发明一个实施例的另一种访问请求的识别方法的步骤流程示意图;
图3是本发明一个实施例的一种访问路径信息的示意图;
图4是本发明一个实施例的一种访问请求的识别装置的示意性结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明一个实施例的一种访问请求的识别方法的步骤流程示意图,具体可以包括如下步骤:
步骤101,获取终端设备的访问数据,所述访问数据包括访问路径信息;
需要说明的是,本实施例中的终端设备可以是手机、平板电脑等移动设备,也可以是PC等设备,本实施例对终端设备的具体类型不作限定。
通常,用户在使用手机等终端设备访问某个网站时,该网站的服务器在接收到用户发出的访问请求后,可以针对该访问请求向终端设备返回相应的数据。一般地,用户的访问请求可以是针对网站的某个页面的,该页面可以链接有多个访问接口,通过获取各个访问接口中的数据,从而能够共同生成用户所访问的完整页面。
例如,对于用户所访问的某个页面,该页面中的价格信息可以来自于某一个访问接口1,而销量信息可以来自于另一个访问接口2,其他信息则可以来自于另外的其他访问接口3、访问接口4,以及,访问接口5等等。
因此,在本发明实施例中,终端设备的访问数据可以是指用户在访问某个页面时,该页面链接的各个访问接口的访问路径信息。例如,某个访问路径信息可以是访问接口1-访问接口2-访问接口3-访问接口4-访问接口5;也可以是访问接口1-访问接口3-访问接口2-访问接口4-访问接口5等等,本实施例对此不作限定。
在本发明实施例中,针对不同的访问接口,还可以对各个访问接口进行分类。例如,将各个访问接口划分为平台接口、业务接口,或者,通用接口等等。当然,本领域技术人员可以根据实际需要,选择其他分类方式对各个访问接口进行分类,本实施例对此不作限定。
在具体实现中,针对各个访问接口,可以在服务器中维护一个访问接口映射关系表,将每个业务对应的映射关系保存在该关系表中,通过查阅该映射关系表,可以确定每条访问路径信息中的各个访问接口具体属于哪种类型的接口。
步骤102,根据所述访问路径信息,生成用户数据集合;
在本发明实施例中,在获取到终端设备的访问数据,并从中获得相应的访问路径信息后,可以根据上述访问路径信息生成用户数据集合。用户数据集合可以是对采集的访问路径信息进行处理或筛选后得到的可以用于后续分析或使用的正常用户或终端设备的访问数据。
在本发明实施例中,可以首先对获取到的数据进行清洗。例如,对数据中某些字段的缺失值、异常值,或,重复值进行清洗。
在具体实现中,对于有重复的数据可以直接去掉,只保留一份;对于有缺失值的数据,如果关键信息全部缺失则可以舍弃该数据,或者,分析能否通过其他信息对缺失的数据进行填充,如果能够填充则保留,如果不能填充则舍弃该数据;而对于有异常值的数据,则可以通过修改其中的异常值对该数据进行处理,从而得到正常的访问数据。
另一方面,在得到正常的访问数据后,还可以对该数据进行归一化处理,从而按照一系列的规范标准,准确把不同的数据化为统一的、可数的数据集合。
当然,本领域技术人员还可以根据实际需要,通过其他手段或方法对采集得到的数据进行处理,本实施例对此不作限定。
步骤103,基于所述用户数据集合,构建爬虫识别模型;
在本发明实施例中,可以采用步骤102获得的用户数据集合进行模型训练,从而构建出爬虫识别模型。
在具体实现中,可以根据上述用户数据集合,训练类朴素贝叶斯模型。
朴素贝叶斯模型(Naive Bayesian Model,NBM)是应用最广泛的分类模型之一,是一种基于贝叶斯定理与特征条件独立假设的分类模型。朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,朴素贝叶斯模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。在理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。
类朴素贝叶斯模型采用了朴素贝叶斯的原理,可以通过假设各个访问接口都是独立的,以及,根据先验概率可以计算后验概率的原理,并且能够只使用正常用户或终端设备的访问数据进行训练,和普通的用户行为模型采用爬虫样本数据进行训练的方法正好相反。类朴素贝叶斯模型和正常的朴素贝叶斯模型相比,能够进一步减少模型训练的工作量。
步骤104,采用所述爬虫识别模型,对目标终端设备的访问请求进行识别。
在本发明实施例中,在接收到终端设备的访问请求后,可以提取该终端设备实际业务的访问路径。上述访问请求可以为目标终端设备对目标访问接口发起的请求,目标访问接口即是该目标终端设备实际希望访问的接口。
通常,终端设备的访问请求中携带有本次访问的访问路径,上述访问路径可以表示该终端设备进行本次访问时实际应当经过的路径信息。
因此,在从访问请求中提取出访问路径后,可以采用已经训练好的爬虫识别模型对上述访问路径进行判断,确定该终端设备是正常的用户设备还是爬虫。
在具体实现中,在某个终端设备访问某网站页面时,可以使用爬虫识别模型,通过对该终端设备访问各个访问接口的顺序、间隔频次等信息来判断该终端设备是否为爬虫。
在本发明实施例中,通过采集终端设备的访问数据,然后根据访问数据中的访问路径信息生成用户数据集合,进而可以基于上述用户数据集合构建爬虫识别模型,当接收到目标终端设备的访问请求时,可以采用该爬虫识别模型进行识别,以确定目标终端设备是否为爬虫。本实施例通过终端设备的访问路径信息进行爬虫识别,由于完全模拟了正常的终端设备的访问路径,因而降低了识别的误伤率,提高了爬虫识别的准确率,减少了对正常用户或终端设备的影响。
其次,本实施例通过构建爬虫识别模型进行识别,不需要前端业务加载JS,不影响实际的业务进程,爬虫很难绕过相应的识别策略,提高了对爬虫访问请求的拦截效率。
参照图2,示出了本发明一个实施例的另一种访问请求的识别方法的步骤流程示意图,具体可以包括如下步骤:
步骤201,接收终端设备的访问请求;
需要说明的是,本实施例中的终端设备可以是手机、平板电脑等移动设备,也可以是PC等设备,本实施例对终端设备的具体类型不作限定。
为了便于理解,本实施例以终端设备为手机为例进行后续的介绍和说明。
通常,用户在希望获取某个网站的数据,或者希望查阅某个网页上的信息时,可以通过手机访问该网站或网页,该网站或网页的服务器能够及时地接收到用户发出的访问请求,并针对该访问请求向手机返回相应的数据或信息。
步骤202,确定与所述访问请求相匹配的至少一个访问接口;
通常,用户的访问请求可以是针对网站的某个页面的,该页面可以链接有多个访问接口,通过获取各个访问接口中的数据,从而能够共同生成用户所访问的完整页面。
因此,在本发明实施例中,在接收到用户通过手机发出的访问请求后,可以首先确定与该访问请求相匹配的访问接口。
例如,对于用户所访问的某个页面,该页面中的价格信息可以来自于某一个访问接口1,而销量信息可以来自于另一个访问接口2,其他信息则可以来自于另外的其他访问接口3、访问接口4,以及,访问接口5等等。
步骤203,根据所述至少一个访问接口,生成所述终端设备的访问路径信息;
在本发明实施例中,访问路径信息可以是指用户在使用手机访问某个页面时获取各个访问接口的数据的先后顺序的信息。
例如,某个访问路径信息可以是访问接口1-访问接口2-访问接口3-访问接口4-访问接口5;也可以是访问接口1-访问接口3-访问接口2-访问接口4-访问接口5等等。
步骤204,对所述访问路径信息进行数据清洗;
在本发明实施例中,在获得访问路径信息后,可以对该访问路径信息进行数据清洗。例如,对数据中某些字段的缺失值、异常值,或,重复值进行清洗。
在具体实现中,可以首先识别访问路径信息中各个字段的缺失值、异常值,以及,重复值;然后填充缺失值、修改异常值,和/或,删除重复值,以获得清洗后的访问路径信息。具体地,对于有重复的数据可以直接去掉,只保留一份;对于有缺失值的数据,如果关键信息全部缺失则可以舍弃该数据,或者,分析能否通过其他信息对缺失的数据进行填充,如果能够填充则保留,如果不能填充则舍弃该数据;而对于有异常值的数据,则可以通过修改其中的异常值对该数据进行处理,从而得到清洗后的访问路径信息。
例如,对于一些原始数据的形态的数据,可以根据需要进行处理,如果该数据中没有uuid信息,则这条数据认为不可用;或者,可以从请求参数中查看是否有相应的uuid信息,如果有,则可以对缺失的uuid进行填充,否则可以舍弃该条数据。
步骤205,按照预设规则对所述清洗后的访问路径信息作归一化处理,生成用户数据集合;
在本发明实施例中,在得到清洗后的访问路径信息后,由于该访问路径信息仍然是杂乱无章的,因此还可以对清洗后的访问路径信息进行归一化处理,从而按照一系列的规范标准,准确把不同的数据化为统一的、可数的数据集合。
例如,对于如下所示的url:mtapi/v7/message/unread,可以对数字v7进行处理,从而把该数字归一为一个特殊字符,进而将mtapi/v7/message/unread和mtapi/v8/message/unread两个不同的url识别为是相同的数据。
又或者,由于数据来源的不同,产生的数据格式也会不同,可以有一些通用的处理规则。比如热点词汇,如果url中包含城市信息,则可以认为这些为一个url,从而可以替换掉相应的城市信息。
例如,对于如下两条url:mtapi/v7/Beijing/poi和mtapi/v7/shanghai/poi,可以将其都转换为mtapi/v7/#/poi。
当然,以上归一化的处理方式仅为一种示例,本领域技术人员可以根据实际需要采用其他方式对清洗后的访问路径信息进行处理,本实施例对此不作限定。
步骤206,统计所述用户数据集合中各个访问路径信息包含的访问接口数量、访问接口顺序,以及,相邻访问接口之间的时间间隔的信息;
在本发明实施例中,对于所有终端设备的访问路径信息,可以以时间为轴,统计所有要访问的访问接口所经过的路径,然后以页面为维度,对访问路径进行模块划分,每一模块都有必经的访问url,进而统计相应的访问接口数量、访问接口顺序,以及,相邻访问接口之间的时间间隔等信息
在具体实现中,每条访问记录都会有相应的logtime(记录时间),对于正常的用户或终端设备来说,根据logtime一定可以统计出一条访问路径来;然后再根据人为定义的区块信息,就可以统计得到每条访问路径信息对应的访问接口的数量、各个访问接口的先后顺序,以及,访问相邻的访问接口之间的时间间隔等等。
如图3所示,是本发明一个实施例的一种访问路径信息的示意图。在图3中包括有四个区块,每个区块中又分别包括有多个访问接口。图3中所示的访问路径信息可以是区块A访问接口2-区块B访问接口1-区块C访问接口2-区块D访问接口2。
步骤207,采用所述访问接口数量、访问接口顺序,以及,相邻访问接口之间的时间间隔的信息训练预置的类朴素贝叶斯模型,以构建爬虫识别模型;
在本发明实施例中,可以根据得到的访问接口数量、访问接口顺序,以及,相邻访问接口之间的时间间隔的信息,训练预置的类朴素贝叶斯模型,从而构建出爬虫识别模型。
在具体实现中,可以假设每一个访问接口都是相互独立的,目标接口用t1,t2,...,tn表示,非目标接口用s1,s2,...,sm表示,其中n和m分别表示目标接口和非目标接口的序号,t1,t2,...,tn,s1,s2,...,sm的值表示一个用户访问相应接口的次数。设x={t1,t2,...,tn,tn+1,tn+2,...,tn+m}表示目标接口和非目标接口组成的n+m维的序列。
对于如下所示的朴素贝叶斯的标准公式:
其中x0表示一组确定的x参数值,函数H(i)表示x和x0第i个值的大小情况,小于H(i)的值为1,否则H(i)的值为0,函数J(x,x0)表示x中元素小于x0的次数。
然后,可以构建出类朴素贝叶斯的模型为:
其中θ为训练参数值。
当模型值为1时,可以认为发起当前的访问请求的终端设备为爬虫,否则即为正常的用户或终端设备。
步骤208,采用所述爬虫识别模型,对目标终端设备的访问请求进行识别。
在本发明实施例中,在接收到终端设备的访问请求后,可以提取该终端设备实际业务的访问路径,然后采用已经训练好的爬虫识别模型进行判断,确定该终端设备是正常的用户设备还是爬虫。
在具体实现中,若接收到目标终端设备的访问请求,则可以获取该目标终端设备的目标访问路径信息,目标访问路径信息可以包括当前访问接口数量、当前访问接口顺序,以及,当前相邻访问接口之间的时间间隔的信息;然后,可以对上述当前访问接口数量、当前访问接口顺序,以及,当前相邻访问接口之间的时间间隔的信息进行编码,以获得编码信息。
在本发明实施例中,可以采用一位有效编码(one-hot编码)对上述信息进行编码。one-hot编码直观来说就是有多少个状态就有多少比特,而且只有一个比特为1,其他全为0的一种码制。
例如,目标终端设备的访问路径信息标示为某个访问接口是否在另外某个访问接口前面,两个访问接口之间的时间间隔就是一个值,从而可以通过统计所有值,然后后再进行one-hot编码。
在完成编码后,便可以采用训练得到的爬虫识别模型,识别该编码信息对应的目标终端设备是否为爬虫。
在本发明实施例中,通过终端设备的访问路径信息进行爬虫识别,由于完全模拟了正常的终端设备的访问路径,使得爬虫很难绕过相应的识别策略,提高了爬虫识别的准确率以及对爬虫访问请求的拦截效率,减少了对正常用户或终端设备的影响。
其次,本实施例可以直观地构建爬虫识别模型的正常用户或终端设备的访问顺序和时间间隔进行统计阈值的调整,极大地方便了爬虫识别模型的构建,可解释性强。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图4,示出了本发明一个实施例的一种访问请求的识别装置的示意性结构框图,具体可以包括如下模块:
获取模块401,用于获取终端设备的访问数据,所述访问数据可以包括访问路径信息;
生成模块402,用于根据所述访问路径信息,生成用户数据集合;
构建模块403,用于基于所述用户数据集合,构建爬虫识别模型;
识别模块404,用于采用所述爬虫识别模型,对目标终端设备的访问请求进行识别,所述访问请求可以为所述目标终端设备对目标访问接口发起的请求。
在本发明实施例中,所述获取模块401具体可以包括如下子模块:
访问请求接收子模块,用于接收终端设备的访问请求;
访问接口确定子模块,用于确定与所述访问请求相匹配的至少一个访问接口;
访问路径信息生成子模块,用于根据所述至少一个访问接口,生成所述终端设备的访问路径信息。
在本发明实施例中,所述装置还可以包括如下模块:
数据清洗模块,用于对所述访问路径信息进行数据清洗。
在本发明实施例中,所述数据清洗模块具体可以包括如下子模块:
字段信息识别子模块,用于识别所述访问路径信息中各个字段的缺失值、异常值,以及,重复值;
数据清洗子模块,用于填充所述缺失值、修改所述异常值,和/或,删除所述重复值,以获得清洗后的访问路径信息。
在本发明实施例中,所述生成模块402具体可以包括如下子模块:
归一化处理子模块,用于按照预设规则对所述清洗后的访问路径信息作归一化处理,生成用户数据集合。
在本发明实施例中,所述构建模块403具体可以包括如下子模块:
路径信息统计子模块,用于统计所述用户数据集合中各个访问路径信息包含的访问接口数量、访问接口顺序,以及,相邻访问接口之间的时间间隔的信息;
模型训练子模块,用于采用所述访问接口数量、访问接口顺序,以及,相邻访问接口之间的时间间隔的信息训练预置的类朴素贝叶斯模型,以构建爬虫识别模型。
在本发明实施例中,所述识别模块404具体可以包括如下子模块:
目标访问路径信息获取模块,用于在接收到目标终端设备的访问请求时,获取所述目标终端设备的目标访问路径信息,所述目标访问路径信息可以包括当前访问接口数量、当前访问接口顺序,以及,当前相邻访问接口之间的时间间隔的信息;
信息编码子模块,用于对所述当前访问接口数量、当前访问接口顺序,以及,当前相邻访问接口之间的时间间隔的信息进行编码,以获得编码信息;
目标终端设备识别模块,用于采用所述爬虫识别模型,识别所述编码信息对应的目标终端设备是否为爬虫。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例公开了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可以实现上述访问请求的识别方法的步骤。
本发明实施例公开了一种存储介质,当所述存储介质中的指令由处理器执行时,使得处理器能够执行上述的访问请求的识别方法中的步骤。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种访问请求的识别方法、一种访问请求的识别装置、一种电子设备和一种存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种访问请求的识别方法,其特征在于,包括:
获取终端设备的访问数据,所述访问数据包括访问路径信息;
根据所述访问路径信息,生成用户数据集合;
基于所述用户数据集合,构建爬虫识别模型;
采用所述爬虫识别模型,对目标终端设备的访问请求进行识别,所述访问请求为所述目标终端设备对目标访问接口发起的请求。
2.根据权利要求1所述的方法,其特征在于,所述获取终端设备的访问数据的步骤包括:
接收终端设备的访问请求;
确定与所述访问请求相匹配的至少一个访问接口;
根据所述至少一个访问接口,生成所述终端设备的访问路径信息。
3.根据权利要求1所述的方法,其特征在于,在所述根据所述访问路径信息,生成用户数据集合的步骤前,还包括:
对所述访问路径信息进行数据清洗。
4.根据权利要求3所述的方法,其特征在于,所述对所述访问路径信息进行数据清洗的步骤包括:
识别所述访问路径信息中各个字段的缺失值、异常值,以及,重复值;
填充所述缺失值、修改所述异常值,和/或,删除所述重复值,以获得清洗后的访问路径信息。
5.根据权利要求4所述的方法,其特征在于,所述根据所述访问路径信息,生成用户数据集合的步骤包括:
按照预设规则对所述清洗后的访问路径信息作归一化处理,生成用户数据集合。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述基于所述用户数据集合,构建爬虫识别模型的步骤包括:
统计所述用户数据集合中各个访问路径信息包含的访问接口数量、访问接口顺序,以及,相邻访问接口之间的时间间隔的信息;
采用所述访问接口数量、访问接口顺序,以及,相邻访问接口之间的时间间隔的信息训练预置的类朴素贝叶斯模型,以构建爬虫识别模型。
7.根据权利要求6所述的方法,其特征在于,所述采用所述爬虫识别模型,对目标终端设备的访问请求进行识别的步骤包括:
若接收到目标终端设备的访问请求,则获取所述目标终端设备的目标访问路径信息,所述目标访问路径信息包括当前访问接口数量、当前访问接口顺序,以及,当前相邻访问接口之间的时间间隔的信息;
对所述当前访问接口数量、当前访问接口顺序,以及,当前相邻访问接口之间的时间间隔的信息进行编码,以获得编码信息;
采用所述爬虫识别模型,识别所述编码信息对应的目标终端设备是否为爬虫。
8.一种访问请求的识别装置,其特征在于,包括:
获取模块,用于获取终端设备的访问数据,所述访问数据包括访问路径信息;
生成模块,用于根据所述访问路径信息,生成用户数据集合;
构建模块,用于基于所述用户数据集合,构建爬虫识别模型;
识别模块,用于采用所述爬虫识别模型,对目标终端设备的访问请求进行识别,所述访问请求为所述目标终端设备对目标访问接口发起的请求。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7之任一项所述方法的步骤。
10.一种存储介质,其特征在于,当所述存储介质中的指令由处理器执行时,使得处理器执行如权利要求1-7任一所述的访问请求的识别方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810312756.8A CN108763274B (zh) | 2018-04-09 | 2018-04-09 | 访问请求的识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810312756.8A CN108763274B (zh) | 2018-04-09 | 2018-04-09 | 访问请求的识别方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108763274A true CN108763274A (zh) | 2018-11-06 |
CN108763274B CN108763274B (zh) | 2021-06-11 |
Family
ID=63981456
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810312756.8A Active CN108763274B (zh) | 2018-04-09 | 2018-04-09 | 访问请求的识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108763274B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109582844A (zh) * | 2018-11-07 | 2019-04-05 | 北京三快在线科技有限公司 | 一种识别爬虫的方法、装置及系统 |
CN109684320A (zh) * | 2018-12-25 | 2019-04-26 | 清华大学 | 监测数据在线清洗的方法和设备 |
CN110245280A (zh) * | 2019-05-06 | 2019-09-17 | 北京三快在线科技有限公司 | 识别网络爬虫的方法、装置、存储介质和电子设备 |
CN110401639A (zh) * | 2019-06-28 | 2019-11-01 | 平安科技(深圳)有限公司 | 网络访问的异常判定方法、装置、服务器及其存储介质 |
CN111143654A (zh) * | 2019-12-25 | 2020-05-12 | 支付宝(杭州)信息技术有限公司 | 辅助识别爬虫的、爬虫识别方法、装置及电子设备 |
CN111368164A (zh) * | 2020-02-24 | 2020-07-03 | 支付宝(杭州)信息技术有限公司 | 一种爬虫识别模型训练、爬虫识别方法、装置、系统、设备及介质 |
CN111368163A (zh) * | 2020-02-24 | 2020-07-03 | 网宿科技股份有限公司 | 一种爬虫数据的识别方法、系统及设备 |
CN112783954A (zh) * | 2019-11-06 | 2021-05-11 | 北京金山云网络技术有限公司 | 数据访问方法、装置及服务器 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009059480A1 (en) * | 2007-11-08 | 2009-05-14 | Shanghai Hewlett-Packard Co., Ltd | Url and anchor text analysis for focused crawling |
US20110307467A1 (en) * | 2010-06-10 | 2011-12-15 | Stephen Severance | Distributed web crawler architecture |
CN103631830A (zh) * | 2012-08-29 | 2014-03-12 | 华为技术有限公司 | 网络爬虫检测方法和装置 |
CN107092660A (zh) * | 2017-03-28 | 2017-08-25 | 成都优易数据有限公司 | 一种网站服务器爬虫识别方法和装置 |
CN107341160A (zh) * | 2016-05-03 | 2017-11-10 | 北京京东尚科信息技术有限公司 | 一种拦截爬虫的方法及装置 |
CN107341395A (zh) * | 2016-05-03 | 2017-11-10 | 北京京东尚科信息技术有限公司 | 一种拦截爬虫的方法 |
CN107679626A (zh) * | 2017-10-10 | 2018-02-09 | 上海优刻得信息科技有限公司 | 机器学习方法、装置、系统、存储介质及设备 |
CN107800684A (zh) * | 2017-09-20 | 2018-03-13 | 贵州白山云科技有限公司 | 一种低频爬虫识别方法及装置 |
-
2018
- 2018-04-09 CN CN201810312756.8A patent/CN108763274B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009059480A1 (en) * | 2007-11-08 | 2009-05-14 | Shanghai Hewlett-Packard Co., Ltd | Url and anchor text analysis for focused crawling |
US20110307467A1 (en) * | 2010-06-10 | 2011-12-15 | Stephen Severance | Distributed web crawler architecture |
CN103631830A (zh) * | 2012-08-29 | 2014-03-12 | 华为技术有限公司 | 网络爬虫检测方法和装置 |
CN107341160A (zh) * | 2016-05-03 | 2017-11-10 | 北京京东尚科信息技术有限公司 | 一种拦截爬虫的方法及装置 |
CN107341395A (zh) * | 2016-05-03 | 2017-11-10 | 北京京东尚科信息技术有限公司 | 一种拦截爬虫的方法 |
CN107092660A (zh) * | 2017-03-28 | 2017-08-25 | 成都优易数据有限公司 | 一种网站服务器爬虫识别方法和装置 |
CN107800684A (zh) * | 2017-09-20 | 2018-03-13 | 贵州白山云科技有限公司 | 一种低频爬虫识别方法及装置 |
CN107679626A (zh) * | 2017-10-10 | 2018-02-09 | 上海优刻得信息科技有限公司 | 机器学习方法、装置、系统、存储介质及设备 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109582844A (zh) * | 2018-11-07 | 2019-04-05 | 北京三快在线科技有限公司 | 一种识别爬虫的方法、装置及系统 |
CN109684320A (zh) * | 2018-12-25 | 2019-04-26 | 清华大学 | 监测数据在线清洗的方法和设备 |
CN109684320B (zh) * | 2018-12-25 | 2020-09-15 | 清华大学 | 监测数据在线清洗的方法和设备 |
CN110245280A (zh) * | 2019-05-06 | 2019-09-17 | 北京三快在线科技有限公司 | 识别网络爬虫的方法、装置、存储介质和电子设备 |
CN110245280B (zh) * | 2019-05-06 | 2021-03-02 | 北京三快在线科技有限公司 | 识别网络爬虫的方法、装置、存储介质和电子设备 |
CN110401639A (zh) * | 2019-06-28 | 2019-11-01 | 平安科技(深圳)有限公司 | 网络访问的异常判定方法、装置、服务器及其存储介质 |
CN110401639B (zh) * | 2019-06-28 | 2021-12-24 | 平安科技(深圳)有限公司 | 网络访问的异常判定方法、装置、服务器及其存储介质 |
CN112783954A (zh) * | 2019-11-06 | 2021-05-11 | 北京金山云网络技术有限公司 | 数据访问方法、装置及服务器 |
CN112783954B (zh) * | 2019-11-06 | 2024-04-05 | 北京金山云网络技术有限公司 | 数据访问方法、装置及服务器 |
CN111143654A (zh) * | 2019-12-25 | 2020-05-12 | 支付宝(杭州)信息技术有限公司 | 辅助识别爬虫的、爬虫识别方法、装置及电子设备 |
CN111143654B (zh) * | 2019-12-25 | 2023-06-16 | 支付宝(杭州)信息技术有限公司 | 辅助识别爬虫的、爬虫识别方法、装置及电子设备 |
WO2021169239A1 (zh) * | 2020-02-24 | 2021-09-02 | 网宿科技股份有限公司 | 一种爬虫数据的识别方法、系统及设备 |
CN111368163A (zh) * | 2020-02-24 | 2020-07-03 | 网宿科技股份有限公司 | 一种爬虫数据的识别方法、系统及设备 |
CN111368164B (zh) * | 2020-02-24 | 2023-05-09 | 支付宝(杭州)信息技术有限公司 | 一种爬虫识别模型训练、爬虫识别方法、装置、系统、设备及介质 |
CN111368163B (zh) * | 2020-02-24 | 2024-03-26 | 网宿科技股份有限公司 | 一种爬虫数据的识别方法、系统及设备 |
CN111368164A (zh) * | 2020-02-24 | 2020-07-03 | 支付宝(杭州)信息技术有限公司 | 一种爬虫识别模型训练、爬虫识别方法、装置、系统、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108763274B (zh) | 2021-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108763274A (zh) | 访问请求的识别方法、装置、电子设备及存储介质 | |
CN107220094A (zh) | 页面加载方法、装置和电子设备 | |
CN107944025A (zh) | 信息推送方法和装置 | |
CN107562620A (zh) | 一种埋点自动设置方法和装置 | |
CN105956161A (zh) | 一种信息推荐方法和装置 | |
US20200012849A1 (en) | Pedestrian Retrieval Method and Apparatus | |
US20130132851A1 (en) | Sentiment estimation of web browsing user | |
CN109299258A (zh) | 一种舆情事件检测方法、装置及设备 | |
CN103189836A (zh) | 用于对图数据流中的对象分类的方法 | |
CN107908959A (zh) | 网站信息检测方法、装置、电子设备及存储介质 | |
CN108008936B (zh) | 一种数据处理方法、装置及电子设备 | |
CN111949803A (zh) | 一种基于知识图谱的网络异常用户检测方法、装置和设备 | |
CN103631828A (zh) | 确定访问路径的方法和装置、确定页面流失率的方法和系统 | |
CN105718533A (zh) | 信息推送方法和装置 | |
CN109241733A (zh) | 基于Web访问日志的爬虫行为识别方法及装置 | |
CN107046586A (zh) | 一种基于类自然语言特征的算法生成域名检测方法 | |
CN107784551A (zh) | 股票舆情数据处理方法、装置、计算机设备和存储介质 | |
CN103744941A (zh) | 一种基于网站属性信息确定网站评测结果的方法和装置 | |
CN108446370B (zh) | 语音数据统计方法和系统 | |
CN110516062A (zh) | 一种文档的搜索处理方法及装置 | |
CN116362359A (zh) | 基于ai大数据的用户满意度预测方法、装置、设备及介质 | |
KR20130064447A (ko) | 사용자의 성향 유사도를 이용한 검색 결과 제공 서버 및 방법, 그리고 단말 | |
CN110851708B (zh) | 负样本的抽取方法、装置、计算机设备和存储介质 | |
CN107301192A (zh) | 一种终端识别方法和识别服务器 | |
CN115051863B (zh) | 异常流量检测的方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |