CN115174215A - 一种网络爬虫识别方法及电子商务系统 - Google Patents

一种网络爬虫识别方法及电子商务系统 Download PDF

Info

Publication number
CN115174215A
CN115174215A CN202210784053.1A CN202210784053A CN115174215A CN 115174215 A CN115174215 A CN 115174215A CN 202210784053 A CN202210784053 A CN 202210784053A CN 115174215 A CN115174215 A CN 115174215A
Authority
CN
China
Prior art keywords
access
web crawler
data
access request
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210784053.1A
Other languages
English (en)
Other versions
CN115174215B (zh
Inventor
王君
余华宙
郑丹
熊嘉豪
于小旗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Feimingda Information Technology Co ltd
Original Assignee
Shenzhen Feimingda Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Feimingda Information Technology Co ltd filed Critical Shenzhen Feimingda Information Technology Co ltd
Priority to CN202210784053.1A priority Critical patent/CN115174215B/zh
Publication of CN115174215A publication Critical patent/CN115174215A/zh
Application granted granted Critical
Publication of CN115174215B publication Critical patent/CN115174215B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2463/00Additional details relating to network architectures or network communication protocols for network security covered by H04L63/00
    • H04L2463/102Additional details relating to network architectures or network communication protocols for network security covered by H04L63/00 applying security measure for e-commerce
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出一种网络爬虫识别方法及电子商务系统,通过响应于用户的第一访问请求向用户返回指定页面的访问数据,确定以当前时间为结束时间点的一段时间,从数据库获取所述一段时间内的多个第二访问请求,所述多个第二访问请求包括所述用户和所述用户以外其他用户的访问请求,判断所述第一访问请求是否存在和所述多个第二访问请求中的一个或多个趋向于形成一个或多个完整数据单元的疑似网络爬虫行为,判断为是时,将所述第一访问请求的用户账号和/或IP地址确定为疑似网络爬虫,当所述第一访问请求的用户账号和/或IP地址在预设时间内再次发生疑似网络爬虫行为时,将所述第一访问请求的用户账号和/或IP地址确定为网络爬虫,能够准确地区分网络爬虫行为和正常访问行为,从而及时针对网络爬虫进行响应以避免损失。

Description

一种网络爬虫识别方法及电子商务系统
技术领域
本发明涉及信息安全技术领域,特别涉及一种网络爬虫识别方法及电子商务系统。
背景技术
网络爬虫又称网页蜘蛛或者网络机器人,是一种按照一定的规则,自动从互联网上特定或非特定站点抓取数据的程序或者脚本。网络爬虫对电子商务系统的危害很多,第一方面,网络爬虫给电子商务系统提供了大量的虚假流量,使电子商务系统无法识别真实有效的用户访问,从而也就无法针对真实的用户访问行为对系统功能和数据进行相应优化;第二方面,网络爬虫会给电子商务系统造成额外的负担,网络爬虫程序或者网络爬虫脚本的高并发及高频访问,对电子商务系统的带宽和处理资源的占用非常大,甚至可能会影响到真实用户的正常访问;第三方面,网络爬虫通过大量爬取、整理和分析电子商务系统中的信息,可能会获取到电子商务系统一些私有的敏感信息,从而给电子商务系统带来无可挽回的损失;第四方面,电子商务系统上的很多数据例如商品宣传海报以及各种设计素材等是系统开发商或者系统运营商耗费大量时间和金钱的成果,竞争对手通过网络爬虫批量爬取后的直接使用的不法行为所带来的市场竞争上的损失,往往比前三方面的危害更为严重。
网络安全技术的发展过程中也出现了很多识别网络爬虫的技术,同时网络爬虫的进化也随之越来越快,各种新的网络爬虫手段层出不穷,其中不乏使用大量的储备IP和储备账号模拟普通用户的数据请求行为,例如使用随机的数据请求时间间隔、频繁切换访问来源的IP地址和访问账号、对某些具有规律性的字段如时间或日期或者编号等乱顺序后进行随机访问等,其所获取数据的手段与正常访问请求越来越相似,防控难度也相应的变得更为困难,现有的爬虫识别技术已经难以识别出这种复杂的网络爬虫。
发明内容
本发明正是基于上述问题,提出了一种网络爬虫识别方法及电子商务系统,能够准确地区分网络爬虫行为和正常访问行为,从而及时针对网络爬虫进行响应以避免损失。
有鉴于此,本发明的第一方面提出了一种网络爬虫识别方法,包括:
响应于用户的第一访问请求向用户返回指定页面的访问数据;
确定以当前时间为结束时间点的一段时间;
从数据库获取所述一段时间内的多个第二访问请求,所述多个第二访问请求包括所述用户和所述用户以外其他用户的访问请求;
判断所述第一访问请求是否存在和所述多个第二访问请求中的一个或多个趋向于形成一个或多个完整数据单元的疑似网络爬虫行为;
判断为是时,将所述第一访问请求的用户账号和/或IP地址确定为疑似网络爬虫;
判断所述第一访问请求的用户账号和/或IP地址在预设时间内是否再次发生疑似网络爬虫行为;
判断为是时,将所述第一访问请求的用户账号和/或IP地址确定为网络爬虫。
进一步的,在上述的网络爬虫识别方法中,在确定以当前时间为结束时间点的一段时间的步骤之后,还包括:
获取所述一段时间内所述电子商务系统的访问量和/或访问频率;
判断所述访问量和/或访问频率大于或大于等于第一阈值;
判断为是时,执行所述从数据库获取所述一段时间内的多个第二访问请求的步骤。
进一步的,在上述的网络爬虫识别方法中,所述完整数据单元包括以所述指定页面的访问数据包含的一个或多个字段为筛选条件从所述数据库获得的数据。
进一步的,在上述的网络爬虫识别方法中,所述完整数据单元包括以所述指定页面的访问数据关联的一个或多个字段为筛选条件从所述数据库获得的数据。
进一步的,在上述的网络爬虫识别方法中,判断所述第一访问请求是否存在和所述多个第二访问请求中的一个或多个趋向于形成一个或多个完整数据单元的疑似网络爬虫行为的步骤具体包括:
将所述完整数据单元分割成多个子数据单元;
判断所述第一访问请求的访问数据是否与所述多个第二访问请求中的一个或多个所请求的访问数据组合得到一个完整的所述子数据单元;
判断为是时,判断所述第一访问请求以及所述多个第二访问请求中的一个或多个所请求的访问数据组合得到任一完整数据单元的子数据单元的数量是否大于或大于等于第二阈值;
再次判断为是时,则将所述第一访问请求确定为疑似网络爬虫行为。
进一步的,在上述的网络爬虫识别方法中,所述子数据单元以所述数据库中相关数据表的记录或者任一字段为单位且不等于所述电子商务系统任意页面一次访问请求返回的页面数据。
进一步的,在上述的网络爬虫识别方法中,判断所述第一访问请求的访问数据是否与所述多个第二访问请求中的一个或多个所请求的访问数据组合得到一个完整的所述子数据单元具体包括:
遍历预设的每一个完整数据单元及其对应的每一个子数据单元;
确定所述多个第二访问请求中的一个或多个所请求的访问数据合集中组成所述每一个子数据单元所缺少的数据;
确定所缺少的数据可通过一次访问请求得到的所述子数据单元;
判断所述第一访问请求的访问数据是否覆盖所述所缺少的数据;
判断为是时,则确定所述第一访问请求的访问数据与所述多个第二访问请求中的一个或多个所请求的访问数据组合得到一个完整的所述子数据单元。
进一步的,在上述的网络爬虫识别方法中,在将所述第一访问请求的用户账号和/或IP地址确定为疑似网络爬虫的步骤之后,还包括:
将与所述第一访问请求趋向于形成一个或多个完整数据单元的所述多个第二访问请求中的一个或多个对应的用户账号和/或IP地址确定为疑似网络爬虫。
进一步的,在上述的网络爬虫识别方法中,在将所述第一访问请求的用户账号和/或IP地址确定为网络爬虫的步骤之后,还包括:
将与所述再次发生疑似网络爬虫行为对应的访问请求趋向于形成一个或多个完整数据单元的一个或多个访问请求对应的用户账号和/或IP地址确定为疑似网络爬虫。
本发明的第二方面提出了一种电子商务系统,包括处理器和存储器,所述处理器执行所述存储器存储的程序实现上述第一方面所述的方法。
本发明提出一种网络爬虫识别方法及电子商务系统,通过响应于用户的第一访问请求向用户返回指定页面的访问数据,确定以当前时间为结束时间点的一段时间,从数据库获取所述一段时间内的多个第二访问请求,所述多个第二访问请求包括所述用户和所述用户以外其他用户的访问请求,判断所述第一访问请求是否存在和所述多个第二访问请求中的一个或多个趋向于形成一个或多个完整数据单元的疑似网络爬虫行为,判断为是时,将所述第一访问请求的用户账号和/或IP地址确定为疑似网络爬虫,当所述第一访问请求的用户账号和/或IP地址在预设时间内再次发生疑似网络爬虫行为时,将所述第一访问请求的用户账号和/或IP地址确定为网络爬虫,能够准确地区分网络爬虫行为和正常访问行为,从而及时针对网络爬虫进行响应以避免损失。
附图说明
图1是本发明一个实施例提供的一种网络爬虫识别方法的示意流程图;
图2是本发明一个实施例提供的一种网络爬虫识别方法的示意流程图;
图3是本发明一个实施例提供的一种网络爬虫识别方法的示意流程图;
图4是本发明一个实施例提供的一种网络爬虫识别方法的示意流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
在本发明的描述中,术语“多个”则指两个或两个以上,除非另有明确的限定,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。术语“连接”、“安装”、“固定”等均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本说明书的描述中,术语“一个实施例”、“一些实施方式”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
下面参照图1至图4来描述根据本发明一些实施方式提供的一种网络爬虫识别方法及电子商务系统。
如图1所示,本发明提供了一种网络爬虫识别方法,包括:
S100:响应于用户的第一访问请求向用户返回指定页面的访问数据。在该步骤中,所述电子商务系统接收用户使用客户端如浏览器等发送的用于访问所述指定页面的访问请求,所述指定页面是指用户通过浏览器等发来的访问请求中携带的URL(uniformresource locator,统一资源定位系统)链接等信息指向的页面,在接收到所述访问请求后,所述电子商务系统根据所述URL中携带的参数信息获取或生产所述指定页面,以所述指定页面为载体将所述访问数据以返回给浏览器。
S200:确定以当前时间为结束时间点的一段时间。所述电子商务系统以接收到所述用户的第一访问请求的时间为起算点,往前推算一段时间,例如30分钟、一个小时、一天或者一周等,所述一段时间以所述电子商务系统以接收到所述用户的第一访问请求的时间为为结束时间点。在本发明的一些实施方式中,所述一段时间根据所述电子商务系统的访问量动态设置,从而避免对应所述一段时间的访问数据量过多而占用所述电子商务系统的过多处理资源,影响用户的正常访问,或者由于对应所述一段时间的访问数据量过少以致使用于分析的数据样本不足而无法正确识别出网络爬虫行为。
S300:从数据库获取所述一段时间内的多个第二访问请求,所述多个第二访问请求包括所述用户和所述用户以外其他用户的访问请求。具体的,在本发明的一些实施方式中,从所述数据库中获取所述一段时间内的访问所述电子商务系统的全部访问请求。在本发明的另一些实施方式中,所述数据库中存储有用户白名单和/或IP地址(InternetProtocol Address,网际协议地址)白名单,所述第二访问请求不包含所述白名单用户或白名单IP地址的访问请求。采用上述实施方式,可以过滤掉确定非网络爬虫的访问请求,从而减小所述电子商务系统不必要的数据处理负担,且更加精准地识别出网络爬虫的行为。进一步的,在上述实施方式中,当一个用户账号发生付款行为时,将所述用户账号和/或所述用户账号当前使用的计算机设备或者移动设备的IP地址加入所述白名单。另外,所述电子商务系统的管理人员也可以手动将用户账号和/或IP地址加到入白名单中。
在本发明一些实施方式的技术方案中,采用用户白名单而非IP地址白名单,由于大多数用户所使用的IP地址均为动态IP地址,有一定的概率存在网络爬虫使用了白名单中IP地址爬取数据的可能。在本发明另一些实施方式的技术方案中,采用用户白名单与IP地址白名单的组合模式,具体的,以用户白名单作为主要白名单规则,只要落入到用户白名单中的用户,其访问请求均不纳入到所述第二访问请求中,即在所述电子商务系统获取所述一段时间的第二访问请求时,忽略所述用户白名单中的用户的访问请求。同时,当同一白名单用户在较长时间的多次登录中使用的均为同一IP地址时,判断所述IP地址为固定IP地址,将所述IP地址加入IP地址白名单,或者,将使用所述IP地址登录的其他用户账号也加入用户白名单中。采用上述实施方式的技术方案,可以更加准确地识别白名单用户。
S400:判断所述第一访问请求是否存在和所述多个第二访问请求中的一个或多个趋向于形成一个或多个完整数据单元的疑似网络爬虫行为。零散不成体系的数据对于任何第三方而言都是没有价值的,因此无论网络爬虫采用什么样的技术手段或者爬取规则,无论其在访问来源维度即用户账号、IP地址或者数据维度如各类时间字段或者其它数据字段上的随机性再强,其目的仍然是尽量多、尽量快以及尽量完整地获取所述电子商务系统中的数据,因此只要任意访问来源的访问触碰了数据完整性规则,其访问行为即大概率是网络爬虫行为。
S500:判断为是时,将所述第一访问请求的用户账号和/或IP地址确定为疑似网络爬虫。普通用户的访问具有较强的随机性,当网络爬虫的访问行为随机性较强时,其与普通的用户访问行为就很难进行区分。虽然概率较低,但普通的用户访问行为在一定程度上也具有与所述多个第二访问请求中的一个或多个趋向于形成一个或多个完整数据单元的可能,为了避免将正常的用户访问行为识别为网络爬虫从而造成不好的用户体验,当用户账号和/或IP地址首次触碰到数据完整性规则时,即首次和所述多个第二访问请求中的一个或多个趋向于形成一个或多个完整数据单元从而被判断为疑似网络爬虫行为时,将其确定为疑似网络爬虫而非直接处理。
进一步的,在上述判断所述第一访问请求是否存在和所述多个第二访问请求中的一个或多个趋向于形成一个或多个完整数据单元的疑似网络爬虫行为的步骤中,当判断结果为否时,结束当前的处理程序,不再执行步骤S600及其后续步骤。
S600:判断所述第一访问请求的用户账号和/或IP地址在预设时间内是否再次发生疑似网络爬虫行为。进一步的,在本发明的一些实施方式中,所述一段时间的取值根据所述疑似网络爬虫行为出现的频率动态调整,当高频出现所述疑似网络爬虫行为时,延长所述一段时间的取值长度,当所述疑似网络爬虫行为的出现频率较低时,缩短所述一段时间的取值长度。在上述实施方式的技术方案中,当存在高频疑似网络爬虫行为时,当前所述电子商务系统大概率遇到网络爬虫爬取数据,因此需要延长所述一段时间的取值,以识别那些使用海量用户账号和/或IP地址进行数据爬取的网络爬虫。所述高频出现所述疑似网络爬虫行为是指所述数据完整性规则在较短时间内被触碰的次数多于预设次数的情况,例如,一个小时内出现了多于3次的疑似网络爬虫行为时,可以认定为存在高频疑似网络爬虫行为。
S700:判断为是时,将所述第一访问请求的用户账号和/或IP地址确定为网络爬虫。当同一用户账号和/或IP地址在所述一段时间内两次触碰所述数据完整性规则时,该用户账号和/或IP地址被利用为实施网络爬虫行为的概率非常高,所述电子商务系统在将其识别为网络爬虫后,执行后续的响应程序,例如将所述用户账号和/或IP地址加入黑名单拒绝其访问行为,或者将其加入蜜罐等主动防御程序中向其返回虚假数据等。
进一步的,在上述的网络爬虫识别方法中,为了避免将正常的用户访问行为错误识别为网络爬虫行为,在网络促销活动或者重要节假日等特殊时段关闭所述数据完整性规则。
进一步的,在上述的网络爬虫识别方法中,为了避免将正常的用户访问行为错误识别为网络爬虫行为,当所述电子商务系统后台管理人员接收到用户的申诉证明其非网络爬虫后,将所述用户账号和/或IP地址从所述黑名单或者蜜罐程序中删除,或者将所述用户账号和/或IP地址加入白名单。
如图2所示,在上述的网络爬虫识别方法中,在确定以当前时间为结束时间点的一段时间的步骤之后,还包括:
S210:获取所述一段时间内所述电子商务系统的访问量和/或访问频率;
S220:判断所述访问量和/或访问频率大于或大于等于第一阈值;
S300:判断为是时,执行所述从数据库获取所述一段时间内的多个第二访问请求的步骤。
采用上述实施方式的技术方案,当所述电子商务系统在一段时间内的访问量和/或访问频率低于所述第一阈值时,可以判断当前没有网络爬虫爬取所述电子商务系统的数据。例如,当一个小时内仅有个位数次数的访问量时,可以认定为当前没有网络爬虫爬取所述电子商务系统的数据。由于被网络爬虫攻击的站点例如所述电子商务系统一般都具有海量数据才会成本网络爬虫的目标,而时间性也是网络爬虫关注的重点因素之一,低频数据爬取方式无法实现数据爬取目标,因此当所述电子商务系统在一段时间内的访问量和/或访问频率低于所述第一阈值时,可以判断当前没有网络爬虫爬取所述电子商务系统的数据,此时直接结束当前的处理程序,不再执行步骤S300及其后续步骤,否则执行步骤S300。
进一步的,在上述的网络爬虫识别方法中,所述完整数据单元包括以所述指定页面的访问数据包含的一个或多个字段为筛选条件从所述数据库获得的数据。示例性的,所述作为筛选条件的字段可以为商品类别,例如一个完整的数据单元为商品类别为服饰的所有商品的集合。在另一个示例中,所述作为筛选条件的字段可以为促销字段,例如一个完整的数据单元为具有双11促销标识的所有商品的集合。
进一步的,在上述的网络爬虫识别方法中,所述完整数据单元包括以所述指定页面的访问数据关联的一个或多个字段为筛选条件从所述数据库获得的数据。例如,在一些电子商务系统中,商品上架时间虽然未明确标记在所述电子商务系统的商品页面当中,但其作为商品的关联信息一般会存储于所述数据库中,同时商品的上架时间也是网络爬虫关注的重要商品要素之一,对于一些恶意第三方,通过对大量商品的上、下架时间信息的分析,可以获得有利于其市场竞争行为的重要市场策略信息。在该实施方式中,示例性的,一个完整的数据单元为商品上架时间为某一天或者某一个月的所有商品的集合。
如图3所示,在上述的网络爬虫识别方法中,判断所述第一访问请求是否存在和所述多个第二访问请求中的一个或多个趋向于形成一个或多个完整数据单元的疑似网络爬虫行为的步骤具体包括:
S410:将所述完整数据单元分割成多个子数据单元;
S420:判断所述第一访问请求的访问数据是否与所述多个第二访问请求中的一个或多个所请求的访问数据组合得到一个完整的所述子数据单元;
S430:判断为是时,判断所述第一访问请求以及所述多个第二访问请求中的一个或多个所请求的访问数据组合得到任一完整数据单元的子数据单元的数量是否大于或大于等于第二阈值;
S440:再次判断为是时,则将所述第一访问请求确定为疑似网络爬虫行为。
进一步的,在上述的网络爬虫识别方法中,所述子数据单元以所述数据库中相关数据表的记录或者任一字段为单位且不等于所述电子商务系统任意页面一次访问请求返回的页面数据。在本发明的一些实施方式中,所述子数据单元可以是所述数据库中相关数据表的一条记录或多个关联表中的关联数据,例如,当所述完整数据单元为商品类别为服饰的全部商品的集合时,所述子数据单元可以是其中一件服饰商品存储于所述数据库的服饰商品表中包含商品名称信息、商品图片信息、商品价格信息、商品库存数量信息、商品状态信息等,商品规格表中包含以及商品类别信息、商品规格信息以及商品描述信息等以及商品评价表中的商品评价信息等的记录数据,用户无法通过一次访问请求即可得到该子数据单元的全部信息。在本发明的另一些实施例中,所述子数据单元可以是所述完整数据单元在所述数据库中相关数据表的其中一个字段的信息。例如,当所述完整数据单元为商品类别为服饰的全部商品的集合时,所述子数据单元可以是服饰分类表中的服饰子类别数据,例如所述服饰子类别数据包括男装、女装、童装,其中所述男装作为其中一个子数据单元包括T恤、牛仔裤、休闲裤、衬衫、短裤、POLO衫、羽绒服、棉服、夹克、卫衣、毛呢大衣、西服套装、皮衣、风衣、针织衫、马甲、背心、羊毛衫、羊绒衫、西服西裤、卫裤/运动裤、工装、唐装、中山装以及加绒裤等。同样的,女装、童装的下级分类也可以划分为一个子数据单元,此处不再一一列举示例。
进一步的,所述子数据单元不包含相关数据表中的非显式数据,所述非显式数据包括仅供所述电子商务平台的后台程序使用,用户或网络爬虫无法通过前端页面请求得到所述非显式数据,例如,商品信息表中的的商品ID信息或者不在前端显示的商品创建时间、商品更新时间等信息;所述非显式数据还包括用户的专属数据如账号信息表的账号信息、个人信息,用户收藏表中的收藏信息,用户访问历史表中的浏览历史信息以及用户订单表中的订单信息等。
如图4所示,在上述的网络爬虫识别方法中,判断所述第一访问请求的访问数据是否与所述多个第二访问请求中的一个或多个所请求的访问数据组合得到一个完整的所述子数据单元具体包括:
S421:遍历预设的每一个完整数据单元及其对应的每一个子数据单元;
S422:确定所述多个第二访问请求中的一个或多个所请求的访问数据合集中组成所述每一个子数据单元所缺少的数据;
S423:确定所缺少的数据可通过一次访问请求得到的所述子数据单元;
S424:判断所述第一访问请求的访问数据是否覆盖所述所缺少的数据;
S425:判断为是时,则确定所述第一访问请求的访问数据与所述多个第二访问请求中的一个或多个所请求的访问数据组合得到一个完整的所述子数据单元。
在上述实施方式中,当所述一段时间内的所述多个第二访问请求中的一个或多个所请求的访问数据覆盖了一个子数据单元的大部分数据,剩余数据通过用户的一次访问请求即可补全时,恰好所述用户的第一访问请求的访问数据覆盖了所述剩余数据,则确定所述第一访问请求的访问数据与所述多个第二访问请求中的一个或多个所请求的访问数据组合得到一个完整的所述子数据单元。
进一步的,在上述的网络爬虫识别方法中,在将所述第一访问请求的用户账号和/或IP地址确定为疑似网络爬虫的步骤之后,还包括:
将与所述第一访问请求趋向于形成一个或多个完整数据单元的所述多个第二访问请求中的一个或多个对应的用户账号和/或IP地址确定为疑似网络爬虫。
进一步的,在上述的网络爬虫识别方法中,在将所述第一访问请求的用户账号和/或IP地址确定为网络爬虫的步骤之后,还包括:
将与所述再次发生疑似网络爬虫行为对应的访问请求趋向于形成一个或多个完整数据单元的一个或多个访问请求对应的用户账号和/或IP地址确定为疑似网络爬虫。
本发明的第二方面提出了一种电子商务系统,包括处理器和存储器,所述处理器执行所述存储器存储的程序实现上述第一方面所述的方法。
本发明提出一种网络爬虫识别方法及电子商务系统,通过响应于用户的第一访问请求向用户返回指定页面的访问数据,确定以当前时间为结束时间点的一段时间,从数据库获取所述一段时间内的多个第二访问请求,所述多个第二访问请求包括所述用户和所述用户以外其他用户的访问请求,判断所述第一访问请求是否存在和所述多个第二访问请求中的一个或多个趋向于形成一个或多个完整数据单元的疑似网络爬虫行为,判断为是时,将所述第一访问请求的用户账号和/或IP地址确定为疑似网络爬虫,当所述第一访问请求的用户账号和/或IP地址在预设时间内再次发生疑似网络爬虫行为时,将所述第一访问请求的用户账号和/或IP地址确定为网络爬虫,能够准确地区分网络爬虫行为和正常访问行为,从而及时针对网络爬虫进行响应以避免损失。
应当说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
依照本发明的实施例如上文所述,这些实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施例。显然,根据以上描述,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地利用本发明以及在本发明基础上的修改使用。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (10)

1.一种网络爬虫识别方法,其特征在于,包括:
响应于用户的第一访问请求向用户返回指定页面的访问数据;
确定以当前时间为结束时间点的一段时间;
从数据库获取所述一段时间内的多个第二访问请求,所述多个第二访问请求包括所述用户和所述用户以外其他用户的访问请求;
判断所述第一访问请求是否存在和所述多个第二访问请求中的一个或多个趋向于形成一个或多个完整数据单元的疑似网络爬虫行为;
判断为是时,将所述第一访问请求的用户账号和/或IP地址确定为疑似网络爬虫;
判断所述第一访问请求的用户账号和/或IP地址在预设时间内是否再次发生疑似网络爬虫行为;
判断为是时,将所述第一访问请求的用户账号和/或IP地址确定为网络爬虫。
2.根据权利要求1所述的网络爬虫识别方法,其特征在于,在确定以当前时间为结束时间点的一段时间的步骤之后,还包括:
获取所述一段时间内所述电子商务系统的访问量和/或访问频率;
判断所述访问量和/或访问频率大于或大于等于第一阈值;
判断为是时,执行所述从数据库获取所述一段时间内的多个第二访问请求的步骤。
3.根据权利要求2所述的网络爬虫识别方法,其特征在于,所述完整数据单元包括以所述指定页面的访问数据包含的一个或多个字段为筛选条件从所述数据库获得的数据。
4.根据权利要求2所述的网络爬虫识别方法,其特征在于,所述完整数据单元包括以所述指定页面的访问数据关联的一个或多个字段为筛选条件从所述数据库获得的数据。
5.根据权利要求3或4所述的网络爬虫识别方法,其特征在于,判断所述第一访问请求是否存在和所述多个第二访问请求中的一个或多个趋向于形成一个或多个完整数据单元的疑似网络爬虫行为的步骤具体包括:
将所述完整数据单元分割成多个子数据单元;
判断所述第一访问请求的访问数据是否与所述多个第二访问请求中的一个或多个所请求的访问数据组合得到一个完整的所述子数据单元;
判断为是时,判断所述第一访问请求以及所述多个第二访问请求中的一个或多个所请求的访问数据组合得到任一完整数据单元的子数据单元的数量是否大于或大于等于第二阈值;
再次判断为是时,则将所述第一访问请求确定为疑似网络爬虫行为。
6.根据权利要求5所述的网络爬虫识别方法,其特征在于,所述子数据单元以所述数据库中相关数据表的记录或者任一字段为单位且不等于所述电子商务系统任意页面一次访问请求返回的页面数据。
7.根据权利要求6所述的网络爬虫识别方法,其特征在于,判断所述第一访问请求的访问数据是否与所述多个第二访问请求中的一个或多个所请求的访问数据组合得到一个完整的所述子数据单元具体包括:
遍历预设的每一个完整数据单元及其对应的每一个子数据单元;
确定所述多个第二访问请求中的一个或多个所请求的访问数据合集中组成所述每一个子数据单元所缺少的数据;
确定所缺少的数据可通过一次访问请求得到的所述子数据单元;
判断所述第一访问请求的访问数据是否覆盖所述所缺少的数据;
判断为是时,则确定所述第一访问请求的访问数据与所述多个第二访问请求中的一个或多个所请求的访问数据组合得到一个完整的所述子数据单元。
8.根据权利要求1所述的网络爬虫识别方法,其特征在于,在将所述第一访问请求的用户账号和/或IP地址确定为疑似网络爬虫的步骤之后,还包括:
将与所述第一访问请求趋向于形成一个或多个完整数据单元的所述多个第二访问请求中的一个或多个对应的用户账号和/或IP地址确定为疑似网络爬虫。
9.根据权利要求1所述的网络爬虫识别方法,其特征在于,在将所述第一访问请求的用户账号和/或IP地址确定为网络爬虫的步骤之后,还包括:
将与所述再次发生疑似网络爬虫行为对应的访问请求趋向于形成一个或多个完整数据单元的一个或多个访问请求对应的用户账号和/或IP地址确定为疑似网络爬虫。
10.一种电子商务系统,其特征在于,包括处理器和存储器,所述处理器执行所述存储器存储的程序实现权利要求1-9所述的方法。
CN202210784053.1A 2022-07-05 2022-07-05 一种网络爬虫识别方法及电子商务系统 Active CN115174215B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210784053.1A CN115174215B (zh) 2022-07-05 2022-07-05 一种网络爬虫识别方法及电子商务系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210784053.1A CN115174215B (zh) 2022-07-05 2022-07-05 一种网络爬虫识别方法及电子商务系统

Publications (2)

Publication Number Publication Date
CN115174215A true CN115174215A (zh) 2022-10-11
CN115174215B CN115174215B (zh) 2023-04-18

Family

ID=83491435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210784053.1A Active CN115174215B (zh) 2022-07-05 2022-07-05 一种网络爬虫识别方法及电子商务系统

Country Status (1)

Country Link
CN (1) CN115174215B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105187396A (zh) * 2015-08-11 2015-12-23 小米科技有限责任公司 识别网络爬虫的方法及装置
US10182046B1 (en) * 2015-06-23 2019-01-15 Amazon Technologies, Inc. Detecting a network crawler
CN110609937A (zh) * 2019-08-15 2019-12-24 平安科技(深圳)有限公司 一种爬虫识别方法及装置
CN110933103A (zh) * 2019-12-11 2020-03-27 江苏满运软件科技有限公司 反爬虫方法、装置、设备和介质
CN111711617A (zh) * 2020-05-29 2020-09-25 北京金山云网络技术有限公司 网络爬虫的检测方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10182046B1 (en) * 2015-06-23 2019-01-15 Amazon Technologies, Inc. Detecting a network crawler
CN105187396A (zh) * 2015-08-11 2015-12-23 小米科技有限责任公司 识别网络爬虫的方法及装置
CN110609937A (zh) * 2019-08-15 2019-12-24 平安科技(深圳)有限公司 一种爬虫识别方法及装置
CN110933103A (zh) * 2019-12-11 2020-03-27 江苏满运软件科技有限公司 反爬虫方法、装置、设备和介质
CN111711617A (zh) * 2020-05-29 2020-09-25 北京金山云网络技术有限公司 网络爬虫的检测方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN115174215B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
Libert Exposing the hidden web: An analysis of third-party HTTP requests on 1 million websites
Guha et al. Challenges in measuring online advertising systems
CN103970761B (zh) 一种商品数据搜索方法及装置
US7933984B1 (en) Systems and methods for detecting click spam
CN104978267B (zh) 网页测试方法、终端及服务器
CN108304410A (zh) 一种异常访问页面的检测方法、装置及数据分析方法
Xu et al. Click fraud detection on the advertiser side
US20090182612A1 (en) System and method for online sizing and other applications involving a root measurable entity
CN111447137A (zh) 浏览情况数据分析方法、装置、服务器及存储介质
CN108429721A (zh) 一种网络爬虫的识别方法及装置
US20130254181A1 (en) Aggregation and Categorization
JP5481242B2 (ja) ユーザ特徴と利用動向の分析システム、およびその処理方法とプログラム
JP2020140731A (ja) ユーザ推奨の方法及び装置
CN110020890B (zh) 针对商品配置门店的方法及装置
CN106598881B (zh) 页面处理方法及装置
CN115174215B (zh) 一种网络爬虫识别方法及电子商务系统
CN111447081A (zh) 数据链生成方法、装置、服务器及存储介质
JP2002304568A (ja) 相関アイテム検出方法および装置、お薦めアイテム紹介方法および装置、相関アイテム検出プログラム、お薦めアイテム紹介プログラム
CN111339438A (zh) 好友关系数据处理方法、服务器、终端设备及存储介质
CN111767481A (zh) 访问处理方法、装置、设备和存储介质
JP6995553B2 (ja) 提案装置、提案方法及び提案プログラム
CN114116388A (zh) 一种小程序数据采集方法、装置、设备及可读存储介质
CN112036988B (zh) 标签生成方法和装置、存储介质及电子设备
Bermudez-Villalva et al. A measurement study on the advertisements displayed to web users coming from the regular web and from tor
JP4675533B2 (ja) ホームページ運用方法及び会員管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant