CN110781366A - 网页数据处理方法、装置、计算机设备和存储介质 - Google Patents

网页数据处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110781366A
CN110781366A CN201910857890.0A CN201910857890A CN110781366A CN 110781366 A CN110781366 A CN 110781366A CN 201910857890 A CN201910857890 A CN 201910857890A CN 110781366 A CN110781366 A CN 110781366A
Authority
CN
China
Prior art keywords
behavior data
webpage
data
crawler
access
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910857890.0A
Other languages
English (en)
Inventor
梅锦振华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
Original Assignee
OneConnect Smart Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Smart Technology Co Ltd filed Critical OneConnect Smart Technology Co Ltd
Priority to CN201910857890.0A priority Critical patent/CN110781366A/zh
Publication of CN110781366A publication Critical patent/CN110781366A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请涉及一种网页数据处理方法、装置、计算机设备和存储介质。所述方法包括:获取网页行为数据,根据预设规则检测网页行为数据中是否存在异常行为数据;当网页行为数据中存在异常行为数据时,获取异常行为数据对应的网页访问数据;根据网页访问数据提取访问特征,将访问特征输入到已训练的爬虫识别模型中,得到爬虫识别结果;当爬虫识别结果是网页访问数据为爬虫访问数据时,得到网页访问数据中的爬虫标识,根据爬虫标识从网页行为数据中得到对应的爬虫网页行为数据;根据爬虫网页行为数据和网页行为数据得到目标网页行为数据。采用本方法能够提高得到目标网页行为数据的准确性。

Description

网页数据处理方法、装置、计算机设备和存储介质
技术领域
本申请涉及互联网技术领域,特别是涉及一种网页数据处理方法、装置、计算机设备和存储介质。
背景技术
随着互联网技术的发展,用户通过互联网浏览网页页面的过程中,通过挖掘用户在网页中的行为数据,为用户提供更好的互联网服务。然而,随着爬虫技术的发展,网络爬虫越来越泛滥,当网络爬虫在爬取互联网数据时,会模拟用户行为,比如,模拟用户登录,登录之后爬取数据。从而导致挖掘到的网页行为数据不够准确。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高得到网页行为数据准确性的网页数据处理方法、装置、计算机设备和存储介质。
一种网页数据处理方法,所述方法包括:
获取网页行为数据,根据预设规则检测网页行为数据中是否存在异常行为数据;
当网页行为数据中存在异常行为数据时,获取异常行为数据对应的网页访问数据;
根据网页访问数据提取访问特征,将访问特征输入到已训练的爬虫识别模型中,得到爬虫识别结果;
当爬虫识别结果是网页访问数据为爬虫访问数据时,得到网页访问数据中的爬虫标识,根据爬虫标识从网页行为数据中得到对应的爬虫网页行为数据;
根据爬虫网页行为数据和网页行为数据得到目标网页行为数据。
在其中一个实施例中,获取网页行为数据,根据预设规则检测网页行为数据中是否存在异常行为数据,包括:
获取第一时间段对应的第一网页行为数据和第二时间段对应的第二网页行为数据,根据第一网页行为数据和第二网页行为数据得到增量行为数据;
当增量行为数据超过预设增量行为数据时,第二时间段对应的第二网页行为数据为异常行为数据。
在其中一个实施例中,获取网页行为数据,根据预设规则检测网页行为数据中是否存在异常行为数据,包括:
获取各个历史时间段的网页行为数据,根据各个历史时间段的网页行为数据计算得到历史数据增长率;
获取目标时间段的网页行为数据,根据目标时间段的网页行为数据计算得到目标数据增长率,比较目标数据增长率和历史数据增长率;
当目标数据增长率超过历史数据增长率时,目标时间段的网页行为数据为异常行为数据。
在其中一个实施例中,在根据爬虫网页行为数据和网页行为数据得到目标网页行为数据之后,还包括:
将爬虫标识和爬虫标识对应的网页访问数据关联存储到预设黑名单数据库;
则在当网页行为数据存在异常行为数据时,获取异常行为数据对应的网页访问数据之后,还包括:
获取网页访问数据中的访问标识,在预设黑名单数据库中查找访问标识;
当预设黑名单数据库中存在访问标识时,根据访问标识从网页行为数据中得到对应的爬虫网页行为数据。
在其中一个实施例中,已训练的爬虫识别模型的生成步骤,包括:
获取历史爬虫访问数据和历史目标访问数据,根据历史爬虫访问数据提取到历史爬虫访问特征和历史爬虫标签,根据历史目标访问数据提取到历史目标访问特征和历史目标标签;
将历史爬虫访问特征和历史目标访问特征作为循环神经网络的输入,将历史爬虫标签和历史目标标签作为循环神经网络的标签进行训练,当达到预设条件时,得到已训练的爬虫识别模型。
在其中一个实施例中,在根据爬虫网页行为数据和网页行为数据得到目标网页行为数据之后,还包括:
根据爬虫网页行为数据和目标网页行为数据得到爬虫点击行为坐标点和目标点击行为坐标点;
根据爬虫点击行为坐标点和目标点击行为坐标点生成网页点击行为展示图,将网页行为展示图发送到管理终端进行展示。
一种网页数据处理装置,所述装置包括:
检测模块,用于获取网页行为数据,根据预设规则检测网页行为数据中是否存在异常行为数据;
访问数据获取模块,用于当网页行为数据中存在异常行为数据时,获取异常行为数据对应的网页访问数据;
识别模块,用于根据网页访问数据提取访问特征,将访问特征输入到已训练的爬虫识别模型中,得到爬虫识别结果;
行为数据得到模块,用于当爬虫识别结果是网页访问数据为爬虫访问数据时,得到网页访问数据中的爬虫标识,根据爬虫标识从网页行为数据中得到对应的爬虫网页行为数据;
目标数据得到模块,用于根据爬虫网页行为数据和网页行为数据得到目标网页行为数据。
在其中一个实施例中,检测模块还用于获取第一时间段对应的第一网页行为数据和第二时间段对应的第二网页行为数据,根据第一网页行为数据和第二网页行为数据得到增量行为数据;当增量行为数据超过预设增量行为数据时,第二时间段对应的第二网页行为数据为异常行为数据。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取网页行为数据,根据预设规则检测网页行为数据中是否存在异常行为数据;
当网页行为数据中存在异常行为数据时,获取异常行为数据对应的网页访问数据;
根据网页访问数据提取访问特征,将访问特征输入到已训练的爬虫识别模型中,得到爬虫识别结果;
当爬虫识别结果是网页访问数据为爬虫访问数据时,得到网页访问数据中的爬虫标识,根据爬虫标识从网页行为数据中得到对应的爬虫网页行为数据;
根据爬虫网页行为数据和网页行为数据得到目标网页行为数据。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取网页行为数据,根据预设规则检测网页行为数据中是否存在异常行为数据;
当网页行为数据中存在异常行为数据时,获取异常行为数据对应的网页访问数据;
根据网页访问数据提取访问特征,将访问特征输入到已训练的爬虫识别模型中,得到爬虫识别结果;
当爬虫识别结果是网页访问数据为爬虫访问数据时,得到网页访问数据中的爬虫标识,根据爬虫标识从网页行为数据中得到对应的爬虫网页行为数据;
根据爬虫网页行为数据和网页行为数据得到目标网页行为数据。
上述网页数据处理方法、装置、计算机设备和存储介质,通过预设规则检测网页行为数据中是否存在异常行为数据,当存在异常行为数据时,使用爬虫识别模型识别出异常行为数据中的爬虫网页行为数据,能够准确的得到爬虫网页行为数据,然后根据爬虫网页行为数据得到目标网页行为数据,提高了得到的目标网页行为数据的准确性。
附图说明
图1为一个实施例中网页数据处理方法的应用场景图;
图2为一个实施例中网页数据处理方法的流程示意图;
图3为一个实施例中得到异常行为数据的流程示意图;
图4为另一个实施例中得到异常行为数据的流程示意图;
图5为一个实施例中得到爬虫网页行为数据的流程示意图;
图6为一个实施例中训练爬虫识别模型的流程示意图;
图7为一个实施例中生成网页点击行为展示图的流程示意图;
图8为一个实施例中网页数据处理装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的网页数据处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。获取网页行为数据,根据预设规则检测网页行为数据中是否存在异常行为数据;当网页行为数据存在异常行为数据时,获取异常行为数据对应的网页访问数据;根据网页访问数据提取访问特征,将访问特征输入到已训练的爬虫识别模型中,得到爬虫识别结果;当爬虫识别结果是网页访问数据为爬虫访问数据时,得到网页访问数据中的爬虫标识,根据爬虫标识从网页行为数据中得到对应的爬虫网页行为数据;根据爬虫网页行为数据和网页行为数据得到目标网页行为数据。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种网页数据处理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
S202,获取网页行为数据,根据预设规则检测网页行为数据中是否存在异常行为数据。
其中,网页行为数据是指访问网页后产生的网页行为的统计数据,比如,对网页的PV(page view,网页点击量),页面停留时间等等,该网页行为数据中不仅包括有用户的行为数据,还可能包括爬虫的行为数据。
具体地,服务器从网页终端获取网页行为数据,并在服务器中根据预设规则检测网页行为数据中是否存在异常行为数据。
S204,当网页行为数据中存在异常行为数据时,获取异常行为数据对应的网页访问数据。
其中,异常行为数据是指与正常行为数据存在差别的数据,比如,网页点击行为数据在一段时间内增长超过正常增长速度等等。网页访问数据是指在访问网页时产生的访问日志信息。比如访问标识、访问时间、页面响应时间等等。
具体地,当网页行为数据存在异常行为数据时,服务器获取异常行为数据对应的网页访问数据。比如,可以从服务器保存的访问日志中得到网页访问数据,也可以在前端网页页面中设置监控脚本,监控脚本用于获取前端访问者的访问标识、访问时间、页面相应时间等并发送到服务器保存为访问日志。
S206,根据网页访问数据提取访问特征,将访问特征输入到已训练的爬虫识别模型中,得到爬虫识别结果。
其中,访问特征用于识别访问网页的是否是爬虫还是用户,可以包括访问标识特征、访问时间特征、访问次数特征和页面停留时间特征等等。爬虫识别结果是指对访问特征的识别结果,可以为爬虫访问网页或用户访问网页。
具体地,服务器根据网页访问数据提取访问特征,将访问特征数值化得到访问特征向量,将访问特征向量输入到已训练的爬虫识别模型中进行识别,得到爬虫识别结果。比如,访问标识特征为1,访问时间特征为1小时内、访问次数特征15次和页面停留时间特征30s,得到访问特征向量为(1,1,15,30)。
S208,当爬虫识别结果是网页访问数据为爬虫访问数据时,得到网页访问数据中的爬虫标识,根据爬虫标识从网页行为数据中得到对应的爬虫网页行为数据。
其中,爬虫标识用于唯一标识爬虫。可以是爬虫的名称,也可以是爬虫的IP(Internet Protocol Address,互联网协议地址)地址等等。
具体地,当爬虫识别结果是网页访问数据为爬虫访问数据,即是爬虫导致网页产生异常行为数据,说明访问请求中存在爬虫的访问请求,此时,从网页访问数据中得到访问标识,将访问标识作为爬虫标识。根据爬虫标识从网页行为数据中得到对应的爬虫网页行为数据。比如,可以根据爬虫标识从网页点击行为数据中得到爬虫点击量。当爬虫识别结果是网页访问数据为正常访问数据,说明访问请求中未存在爬虫的访问请求,不做处理。
S210,根据爬虫网页行为数据和网页行为数据得到目标网页行为数据。
其中,目标网页行为数据是指除过爬虫访问网页时产生的行为数据后访问网页的行为数据。
具体地,服务器根据得到的爬虫网页行为数据和所有的网页行为数据计算得到目标网页行为数据。比如,根据爬虫点击量和所有的网页点击行为数据得到用户的网页点击量。
在上述实施例中,通过预设规则检测网页行为数据中是否存在异常行为数据,当存在异常行为数据时,通过使用爬虫识别模型识别出异常行为数据中的爬虫网页行为数据,能够准确的得到爬虫网页行为数据,然后根据爬虫网页行为数据得到目标网页行为数据,提高了得到的目标网页行为数据的准确性。
在一个实施例中,如图3所示,步骤S202,即获取网页行为数据,根据预设规则检测网页行为数据中是否存在异常行为数据,包括步骤:
S202,获取第一时间段对应的第一网页行为数据和第二时间段对应的第二网页行为数据,根据第一网页行为数据和第二网页行为数据得到增量行为数据。
其中,时间段是预先设置好的时间区间,第一时间段和第二时间段是连续的两个时间段。比如,可以将每天分为12个时间段,一个小时为一个时间段,第一网页行为数据是指在第一时间段内得到的网页行为数据,第二网页行为数据是指在第二时间段内得到的网页行为数据。比如,获取12点到13点的时间区间的网页行为数据作为第一网页行为数据,获取到13点到14点的时间区间的网页行为数据作为第二网页行为数据。增量行为数据是指增加的网页行为数据。比如,12点到13点的用户点击量为100次,13点到14的用户点击量为120次,此时,得到的增量点击为20次。
具体地,服务器获取第一时间段对应的第一网页行为数据和第二时间段对应的第二网页行为数据,根据第一网页行为数据和第二网页行为数据得到增量行为数据。
S204,当增量行为数据超过预设增量行为数据时,第二时间段对应的第二网页行为数据为异常行为数据。
其中,预设增量行为数据是指预先设置好正常时应该增加的行为数据,可以是一个值,也可以是一个区间。比如,设置的增量点击可以是10次,也可以是10到15次。
具体的,服务器将得到的增量行为数据与预设增量行为数据进行比较,当增量行为数据超过预设增量行为数据时,得到第二时间段对应的第二网页行为数据为异常行为数据。即第二时间段内产生的第二网页行为数据中有爬虫产生的网页行为数据。当当增量行为数据未超过预设增量行为数据时,说明第二时间段内对应的第二网页行为数据为正常行为数据。即是用户访问网页时产生的网页行为数据。
在上述实施例中,通过获取第一时间段对应的第一网页行为数据和第二时间段对应的第二网页行为数据,根据第一网页行为数据和第二网页行为数据得到增量行为数据,根据得到的增量行为数据来判断是否存在异常行为数据,提高得到异常行为数据的准确性。
在一个实施例中,如图4所示,步骤S202,即获取网页行为数据,根据预设规则检测网页行为数据中是否存在异常行为数据,包括步骤:
S402,获取各个历史时间段的网页行为数据,根据各个历史时间段的网页行为数据计算得到历史数据增长率。
其中,历史时间段是指当前日期之前的日期的时间段。比如昨天的时间段,前天的时间段,即今天之前的日期对应的时间段。历史数据增长率是指在历史时间段中网页行为数据的增长率。
具体地,服务器获取到各个历史时间段的网页行为数据,根据各个历史时间段的网页行为数据计算得到历史数据增长率。比如,今天是10月1日,各个历史时间段可以将9月份的每天进行划分得到的时间段,即每天都可以有24个时间段。获取到9月份中每天时间段的网页点击行为数据,根据9月份中每天时间段的网页点击行为数据计算得到历史点击数据的增长率。
S404,获取目标时间段的网页行为数据,根据目标时间段的网页行为数据计算得到目标数据增长率,比较目标数据增长率和历史数据增长率。
其中,目标时间段是指根据当前时间划分得到的时间段,比如,当前时间点为10月1日12点,则目标时间段可以是将10月1日0点到12点进行划分得到的时间段,可以划分将1个小时作为1个目标时间段,得到12个目标时间段。目标数据增长率是当前时间内的网页行为数据的增长率。
具体地,服务器获取各个目标时间段内的网页行为数据,根据各个标时间段的网页行为数据计算得到目标数据增长率,将目标数据增长率和历史数据增长率进行比较。
S406,当目标数据增长率超过历史数据增长率时,目标时间段的网页行为数据为异常行为数据。
具体地,当目标数据增长率超过历史数据增长率时,服务器将目标时间段内的网页行为数据作为异常行为数据。当目标数据增长率未超过历史数据增长率时,服务器将目标时间段内的网页行为数据作为正常行为数据。在一个实施例中,当目标数据增长率在根据历史数据增长率得到的增长率范围之内时,服务器将目标时间段内的网页行为数据作为正常行为数据,当目标数据增长率在根据历史数据增长率得到的增长率范围之外时,服务器将目标时间段内的网页行为数据作为异常行为数据。
在上述实施例中,通过根据历史网页行为数据计算得到历史数据增长率,将历史数据增长率与当前网页行为数据增长率进行比较,根据比较结果得到异常行为数据。即通过历史数据增量率来判断异常行为数据,提高得到异常行为数据的准确性。
在一个实施例中,在步骤S210之后,即在根据爬虫网页行为数据和网页行为数据得到目标网页行为数据之后,还包括步骤:
将爬虫标识和爬虫标识对应的网页访问数据关联存储到预设黑名单数据库。
其中,预设黑名单数据库用于存储爬虫相关信息,包括爬虫标识、爬虫行为数据和爬虫访问数据等等。
具体地,服务器将爬虫标识和爬虫标识对应的网页访问数据关联存储到预设黑名单数据库,方便后续的管理和查看。同时,也可以将目标网页行为数据也存储到数据库中,方便后续的管理。
则如图5所示,在步骤S204之后,即在当网页行为数据存在异常行为数据时,获取异常行为数据对应的网页访问数据之后,还包括步骤:
S502,获取网页访问数据中的访问标识,在预设黑名单数据库中查找访问标识。
具体地,服务器获取网页访问数据中的访问标识,在预设黑名单数据库中查找访问标识。
S504,当预设黑名单数据库中存在访问标识时,根据访问标识从网页行为数据中得到对应的爬虫网页行为数据。
具体地,当预设黑名单数据库中存在访问标识时,即在预设黑名单数据库中能够查找到该访问标识,说明该访问标识是爬虫的访问标识。此时,根据访问标识从网页行为数据中查找到访问标识对应的网页行为数据,即得到爬虫的网页行为数据。然后可以根据爬虫的网页行为数据和网页行为数据得到真实用于的网页行为数据。
在上述实施例中,即当在预设黑名单数据库中查找到对应的访问标识时,根据访问标识从网页行为数据中得到对应的爬虫网页行为数据,能够提交得到爬虫网页行为数据的效率,提高得到目标网页行为数据的效率。
在一个实施例中,如图6所示,已训练的爬虫识别模型的生成步骤,包括步骤:
S602,获取历史爬虫访问数据和历史目标访问数据,根据历史爬虫访问数据提取到历史爬虫访问特征和历史爬虫标签,根据历史目标访问数据提取到历史目标访问特征和历史目标标签。
其中,历史爬虫访问数据是指历史爬虫访问网页时记录的访问数据。历史目标访问数据是指历史正常用户方位网页时记录的访问数据。历史爬虫标签是指根据爬虫方位数据得到的标签,历史目标标签是指根据历史目标访问数据得到的目标标签。
具体地,服务器获取到历史爬虫访问数据和历史目标访问数据,根据历史爬虫访问数据提取到历史爬虫访问特征和历史爬虫标签,根据历史目标访问数据提取到历史目标访问特征和历史目标标签。
S604,将历史爬虫访问特征和历史目标访问特征作为循环神经网络的输入,将历史爬虫标签和历史目标标签作为循环神经网络的标签进行训练,当达到预设条件时,得到已训练的爬虫识别模型。
其中,循环神经网络是指是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络。比如,可以是LSTM(Long Short-Term Memory)神经网络。LSTM是长短期记忆网络,是一种时间循环神经网络。预设条件是指预先设置好训练完成的条件,可以是训练达到预设迭代次数或者计算误差达到预设阈值。在训练时,使用的激活函数是S型激活函数,并通过交叉熵函数计算误差。
具体地,服务将将历史爬虫访问特征和历史目标访问特征作为循环神经网络的输入,将历史爬虫标签和历史目标标签作为循环神经网络的标签进行训练,当训练达到预设迭代次数或者计算误差达到预设阈值时,训练完成,得到已训练的爬虫识别模型。
在上述实施例中,通过历史爬虫访问数据和历史目标访问数据使用循环神经网络算法训练得到爬虫识别模型,然后将训练的爬虫识别模型部署到服务器中,使用服务器可以直接使用爬虫识别模型,提高爬虫识别效率。
在一个实施例中,如图7所示,在步骤S210之后,即在根据爬虫网页行为数据和网页行为数据得到目标网页行为数据之后,还包括:
S702,根据爬虫网页行为数据和目标网页行为数据得到爬虫点击行为坐标点和目标点击行为坐标点。
其中,爬虫点击行为坐标点是指爬虫点击网页时,点击位置在网页中的坐标,目标点击行为坐标点是指用户在点击网页时,点击位置在网页中的坐标。
具体地,根据爬虫网页行为数据得到各个爬虫点击行为坐标点并根据目标网页行为数据得到各个目标点击行为坐标点。比如,用户的每次点击网页都会记录网页中的点击位置,得到每次点击对应的坐标点。
S704,根据爬虫点击行为坐标点和目标点击行为坐标点生成网页点击行为展示图,将网页行为展示图发送到管理终端进行展示。
其中,网页点击行为展示图是指将爬虫点击行为坐标点和目标点击行为坐标点进行可视化展示。比如,可以生成模拟网页,使用不同颜色的标记在模拟网页中标记出坐标点的位置,得到点击行为展示图。
具体地,服务器根据爬虫点击行为坐标点和目标点击行为坐标点生成网页点击行为展示图,将网页行为展示图发送到管理终端进行展示,方便管理终端进行查看和分析。
应该理解的是,虽然图2-7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-7中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图8所示,提供了一种网页数据处理装置800,包括:检测模块802、访问数据获取模块804、识别模块806、行为数据得到模块808和目标数据得到模块810,其中:
检测模块802,用于获取网页行为数据,根据预设规则检测网页行为数据中是否存在异常行为数据;
访问数据获取模块804,用于当网页行为数据中存在异常行为数据时,获取异常行为数据对应的网页访问数据;
识别模块806,用于根据网页访问数据提取访问特征,将访问特征输入到已训练的爬虫识别模型中,得到爬虫识别结果;
行为数据得到模块808,用于当爬虫识别结果是网页访问数据为爬虫访问数据时,得到网页访问数据中的爬虫标识,根据爬虫标识从网页行为数据中得到对应的爬虫网页行为数据;
目标数据得到模块810,用于根据爬虫网页行为数据和网页行为数据得到目标网页行为数据。
在一个实施例中,检测模块802还用于获取第一时间段对应的第一网页行为数据和第二时间段对应的第二网页行为数据,根据第一网页行为数据和第二网页行为数据得到增量行为数据;当增量行为数据超过预设增量行为数据时,第二时间段对应的第二网页行为数据为异常行为数据。
在一个实施例中,检测模块802还用于获取各个历史时间段的网页行为数据,根据各个历史时间段的网页行为数据计算得到历史数据增长率;获取目标时间段的网页行为数据,根据目标时间段的网页行为数据计算得到目标数据增长率,比较目标数据增长率和历史数据增长率;当目标数据增长率超过历史数据增长率时,目标时间段的网页行为数据为异常行为数据。
在一个实施例中,网页数据处理装置800,还包括:
存储模块,用于将爬虫标识和爬虫标识对应的网页访问数据关联存储到预设黑名单数据库;
则网页数据处理装置800,还包括:
查找模块,用于获取网页访问数据中的访问标识,在预设黑名单数据库中查找访问标识;当预设黑名单数据库中存在访问标识时,根据访问标识从网页行为数据中得到对应的爬虫网页行为数据。
在一个实施例中,网页数据处理装置800,还包括:
提取模块,用于获取历史爬虫访问数据和历史目标访问数据,根据历史爬虫访问数据提取到历史爬虫访问特征和历史爬虫标签,根据历史目标访问数据提取到历史目标访问特征和历史目标标签;
训练模块,用于将历史爬虫访问特征和历史目标访问特征作为循环神经网络的输入,将历史爬虫标签和历史目标标签作为循环神经网络的标签进行训练,当达到预设条件时,得到已训练的爬虫识别模型。
在一个实施例中,网页数据处理装置800,还包括:
展示模块,用于根据爬虫网页行为数据和目标网页行为数据得到爬虫点击行为坐标点和目标点击行为坐标点;根据爬虫点击行为坐标点和目标点击行为坐标点生成网页点击行为展示图,将网页行为展示图发送到管理终端进行展示。
关于网页数据处理装置的具体限定可以参见上文中对于网页数据处理方法的限定,在此不再赘述。上述网页数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储网页行为数据和网页访问数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种网页数据处理方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取网页行为数据,根据预设规则检测网页行为数据中是否存在异常行为数据;当网页行为数据中存在异常行为数据时,获取异常行为数据对应的网页访问数据;根据网页访问数据提取访问特征,将访问特征输入到已训练的爬虫识别模型中,得到爬虫识别结果;当爬虫识别结果为是网页访问数据为爬虫访问数据时,得到网页访问数据中的爬虫标识,根据爬虫标识从网页行为数据中得到对应的爬虫网页行为数据;根据爬虫网页行为数据和网页行为数据得到目标网页行为数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取第一时间段对应的第一网页行为数据和第二时间段对应的第二网页行为数据,根据第一网页行为数据和第二网页行为数据得到增量行为数据;当增量行为数据超过预设增量行为数据时,第二时间段对应的第二网页行为数据为异常行为数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取各个历史时间段的网页行为数据,根据各个历史时间段的网页行为数据计算得到历史数据增长率;获取目标时间段的网页行为数据,根据目标时间段的网页行为数据计算得到目标数据增长率,比较目标数据增长率和历史数据增长率;当目标数据增长率超过历史数据增长率时,目标时间段的网页行为数据为异常行为数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将爬虫标识和爬虫标识对应的网页访问数据关联存储到预设黑名单数据库。则处理器执行计算机程序时还实现以下步骤:获取网页访问数据中的访问标识,在预设黑名单数据库中查找访问标识;当预设黑名单数据库中存在访问标识时,根据访问标识从网页行为数据中得到对应的爬虫网页行为数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取历史爬虫访问数据和历史目标访问数据,根据历史爬虫访问数据提取到历史爬虫访问特征和历史爬虫标签,根据历史目标访问数据提取到历史目标访问特征和历史目标标签;将历史爬虫访问特征和历史目标访问特征作为循环神经网络的输入,将历史爬虫标签和历史目标标签作为循环神经网络的标签进行训练,当达到预设条件时,得到已训练的爬虫识别模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据爬虫网页行为数据和目标网页行为数据得到爬虫点击行为坐标点和目标点击行为坐标点;根据爬虫点击行为坐标点和目标点击行为坐标点生成网页点击行为展示图,将网页行为展示图发送到管理终端进行展示。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取网页行为数据,根据预设规则检测网页行为数据中是否存在异常行为数据;当网页行为数据中存在异常行为数据时,获取异常行为数据对应的网页访问数据;根据网页访问数据提取访问特征,将访问特征输入到已训练的爬虫识别模型中,得到爬虫识别结果;当爬虫识别结果是网页访问数据为爬虫访问数据时,得到网页访问数据中的爬虫标识,根据爬虫标识从网页行为数据中得到对应的爬虫网页行为数据;根据爬虫网页行为数据和网页行为数据得到目标网页行为数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取第一时间段对应的第一网页行为数据和第二时间段对应的第二网页行为数据,根据第一网页行为数据和第二网页行为数据得到增量行为数据;当增量行为数据超过预设增量行为数据时,第二时间段对应的第二网页行为数据为异常行为数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取各个历史时间段的网页行为数据,根据各个历史时间段的网页行为数据计算得到历史数据增长率;获取目标时间段的网页行为数据,根据目标时间段的网页行为数据计算得到目标数据增长率,比较目标数据增长率和历史数据增长率;当目标数据增长率超过历史数据增长率时,目标时间段的网页行为数据为异常行为数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将爬虫标识和爬虫标识对应的网页访问数据关联存储到预设黑名单数据库。则计算机程序被处理器执行时还实现以下步骤:获取网页访问数据中的访问标识,在预设黑名单数据库中查找访问标识;当预设黑名单数据库中存在访问标识时,根据访问标识从网页行为数据中得到对应的爬虫网页行为数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取历史爬虫访问数据和历史目标访问数据,根据历史爬虫访问数据提取到历史爬虫访问特征和历史爬虫标签,根据历史目标访问数据提取到历史目标访问特征和历史目标标签;将历史爬虫访问特征和历史目标访问特征作为循环神经网络的输入,将历史爬虫标签和历史目标标签作为循环神经网络的标签进行训练,当达到预设条件时,得到已训练的爬虫识别模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据爬虫网页行为数据和目标网页行为数据得到爬虫点击行为坐标点和目标点击行为坐标点;根据爬虫点击行为坐标点和目标点击行为坐标点生成网页点击行为展示图,将网页行为展示图发送到管理终端进行展示。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种网页数据处理方法,所述方法包括:
获取网页行为数据,根据预设规则检测所述网页行为数据中是否存在异常行为数据;
当所述网页行为数据中存在所述异常行为数据时,获取所述异常行为数据对应的网页访问数据;
根据所述网页访问数据提取访问特征,将所述访问特征输入到已训练的爬虫识别模型中,得到爬虫识别结果;
当所述爬虫识别结果是所述网页访问数据为爬虫访问数据时,得到所述网页访问数据中的爬虫标识,根据所述爬虫标识从所述网页行为数据中得到对应的爬虫网页行为数据;
根据所述爬虫网页行为数据和所述网页行为数据得到目标网页行为数据。
2.根据权利要求1所述的方法,其特征在于,所述获取网页行为数据,根据预设规则检测所述网页行为数据中是否存在异常行为数据,包括:
获取第一时间段对应的第一网页行为数据和第二时间段对应的第二网页行为数据,根据所述第一网页行为数据和所述第二网页行为数据得到增量行为数据;
当所述增量行为数据超过预设增量行为数据时,所述第二时间段对应的第二网页行为数据为异常行为数据。
3.根据权利要求1所述的方法,其特征在于,所述获取网页行为数据,根据预设规则检测所述网页行为数据中是否存在异常行为数据,包括:
获取各个历史时间段的网页行为数据,根据所述各个历史时间段的网页行为数据计算得到历史数据增长率;
获取目标时间段的网页行为数据,根据所述目标时间段的网页行为数据计算得到目标数据增长率,比较所述目标数据增长率和所述历史数据增长率;
当所述目标数据增长率超过所述历史数据增长率时,所述目标时间段的网页行为数据为异常行为数据。
4.根据权利要求1所述的方法,其特征在于,在所述根据所述爬虫网页行为数据和所述网页行为数据得到目标网页行为数据之后,还包括:
将所述爬虫标识和所述爬虫标识对应的网页访问数据关联存储到预设黑名单数据库;
则在所述当所述网页行为数据存在异常行为数据时,获取所述异常行为数据对应的网页访问数据之后,还包括:
获取所述网页访问数据中的访问标识,在所述预设黑名单数据库中查找所述访问标识;
当所述预设黑名单数据库中存在所述访问标识时,根据所述访问标识从所述网页行为数据中得到对应的爬虫网页行为数据。
5.根据权利要求1所述的方法,其特征在于,所述已训练的爬虫识别模型的生成步骤,包括:
获取历史爬虫访问数据和历史目标访问数据,根据所述历史爬虫访问数据提取到历史爬虫访问特征和历史爬虫标签,根据所述历史目标访问数据提取到历史目标访问特征和历史目标标签;
将所述历史爬虫访问特征和历史目标访问特征作为循环神经网络的输入,将所述历史爬虫标签和所述历史目标标签作为所述循环神经网络的标签进行训练,当达到预设条件时,得到所述已训练的爬虫识别模型。
6.根据权利要求1所述的方法,其特征在于,在所述根据所述爬虫网页行为数据和所述网页行为数据得到目标网页行为数据之后,还包括:
根据所述爬虫网页行为数据和所述目标网页行为数据得到爬虫点击行为坐标点和目标点击行为坐标点;
根据所述爬虫点击行为坐标点和所述目标点击行为坐标点生成网页点击行为展示图,将所述网页行为展示图发送到管理终端进行展示。
7.一种网页数据处理装置,其特征在于,所述装置包括:
检测模块,用于获取网页行为数据,根据预设规则检测所述网页行为数据中是否存在异常行为数据;
访问数据获取模块,用于当所述网页行为数据中所述存在异常行为数据时,获取所述异常行为数据对应的网页访问数据;
识别模块,用于根据所述网页访问数据提取访问特征,将所述访问特征输入到已训练的爬虫识别模型中,得到爬虫识别结果;
行为数据得到模块,用于当所述爬虫识别结果是所述网页访问数据为爬虫访问数据时,得到所述网页访问数据中的爬虫标识,根据所述爬虫标识从所述网页行为数据中得到对应的爬虫网页行为数据;
目标数据得到模块,用于根据所述爬虫网页行为数据和所述网页行为数据得到目标网页行为数据。
8.根据权利要求7所述的装置,其特征在于,检测模块还用于获取第一时间段对应的第一网页行为数据和第二时间段对应的第二网页行为数据,根据所述第一网页行为数据和所述第二网页行为数据得到增量行为数据;当所述增量行为数据超过预设增量行为数据时,所述第二时间段对应的第二网页行为数据为异常行为数据。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN201910857890.0A 2019-09-09 2019-09-09 网页数据处理方法、装置、计算机设备和存储介质 Pending CN110781366A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910857890.0A CN110781366A (zh) 2019-09-09 2019-09-09 网页数据处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910857890.0A CN110781366A (zh) 2019-09-09 2019-09-09 网页数据处理方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN110781366A true CN110781366A (zh) 2020-02-11

Family

ID=69383489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910857890.0A Pending CN110781366A (zh) 2019-09-09 2019-09-09 网页数据处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN110781366A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111641594A (zh) * 2020-05-09 2020-09-08 同济大学 基于页面行为的欺诈用户检测方法、系统、介质及设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591992A (zh) * 2012-02-15 2012-07-18 苏州亚新丰信息技术有限公司 基于垂直搜索和聚焦爬虫技术的网页分类识别系统及方法
CN103164446A (zh) * 2011-12-14 2013-06-19 阿里巴巴集团控股有限公司 一种网页请求信息的响应方法及装置
WO2014032563A1 (en) * 2012-08-31 2014-03-06 Tencent Technology (Shenzhen) Company Limited Transit-mode-based webpage accessing method, system, and crawler route server
CN106156055A (zh) * 2015-03-27 2016-11-23 阿里巴巴集团控股有限公司 搜索引擎爬虫的识别、处理方法及装置
CN106657057A (zh) * 2016-12-20 2017-05-10 北京金堤科技有限公司 反爬虫系统及方法
CN107392022A (zh) * 2017-07-20 2017-11-24 北京小度信息科技有限公司 爬虫识别、处理方法及相关装置
CN109582844A (zh) * 2018-11-07 2019-04-05 北京三快在线科技有限公司 一种识别爬虫的方法、装置及系统
CN109862018A (zh) * 2019-02-21 2019-06-07 中国工商银行股份有限公司 基于用户访问行为的反爬虫方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164446A (zh) * 2011-12-14 2013-06-19 阿里巴巴集团控股有限公司 一种网页请求信息的响应方法及装置
CN102591992A (zh) * 2012-02-15 2012-07-18 苏州亚新丰信息技术有限公司 基于垂直搜索和聚焦爬虫技术的网页分类识别系统及方法
WO2014032563A1 (en) * 2012-08-31 2014-03-06 Tencent Technology (Shenzhen) Company Limited Transit-mode-based webpage accessing method, system, and crawler route server
CN106156055A (zh) * 2015-03-27 2016-11-23 阿里巴巴集团控股有限公司 搜索引擎爬虫的识别、处理方法及装置
CN106657057A (zh) * 2016-12-20 2017-05-10 北京金堤科技有限公司 反爬虫系统及方法
CN107392022A (zh) * 2017-07-20 2017-11-24 北京小度信息科技有限公司 爬虫识别、处理方法及相关装置
CN109582844A (zh) * 2018-11-07 2019-04-05 北京三快在线科技有限公司 一种识别爬虫的方法、装置及系统
CN109862018A (zh) * 2019-02-21 2019-06-07 中国工商银行股份有限公司 基于用户访问行为的反爬虫方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邹科文;李达;邓婷敏;李嘉振;陈义明;: "网络爬虫针对"反爬"网站的爬取策略研究", 电脑知识与技术, vol. 12, no. 07, pages 61 - 63 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111641594A (zh) * 2020-05-09 2020-09-08 同济大学 基于页面行为的欺诈用户检测方法、系统、介质及设备
CN111641594B (zh) * 2020-05-09 2021-11-30 同济大学 基于页面行为的欺诈用户检测方法、系统、介质及设备

Similar Documents

Publication Publication Date Title
CN108259482B (zh) 网络异常数据检测方法、装置、计算机设备及存储介质
CN109766534B (zh) 报表生成方法、装置、计算机设备及可读存储介质
CN109542428B (zh) 业务处理方法、装置、计算机设备和存储介质
CN108959644B (zh) 搜索排序方法、装置、计算机设备和存储介质
CN110008251B (zh) 基于时序数据的数据处理方法、装置和计算机设备
CN110912908B (zh) 网络协议异常检测方法、装置、计算机设备和存储介质
CN111192025A (zh) 职业信息匹配方法、装置、计算机设备和存储介质
CN110457361B (zh) 特征数据获取方法、装置、计算机设备和存储介质
CN108924258B (zh) 后台信息推送方法、装置、计算机设备和存储介质
CN109886719B (zh) 基于网格的数据挖掘处理方法、装置和计算机设备
CN110888911A (zh) 样本数据处理方法、装置、计算机设备及存储介质
CN111400126B (zh) 网络服务异常数据检测方法、装置、设备和介质
CN109542962B (zh) 数据处理方法、装置、计算机设备和存储介质
CN108763396B (zh) 访问请求处理方法、装置、计算机设备和存储介质
CN108200087B (zh) web入侵检测方法、装置、计算机设备和存储介质
CN111144267A (zh) 设备运行状态检测方法、装置、存储介质及计算机设备
CN111371757B (zh) 恶意通信检测方法、装置、计算机设备和存储介质
CN112541016A (zh) 用电异常检测方法、装置、计算机设备和存储介质
CN111597422A (zh) 埋点映射方法、装置、计算机设备和存储介质
CN111370086A (zh) 电子病例检测方法、装置、计算机设备和存储介质
CN110781366A (zh) 网页数据处理方法、装置、计算机设备和存储介质
CN110460685B (zh) 用户唯一标识处理方法、装置、计算机设备和存储介质
CN117675273A (zh) 网络扫描行为检测方法及装置
CN110930193B (zh) 广告转化率评估方法、装置、计算机设备和存储介质
CN111898035A (zh) 基于物联网的数据处理策略配置方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200211