CN112866295B - 一种大数据防爬虫处理方法及云平台系统 - Google Patents

一种大数据防爬虫处理方法及云平台系统 Download PDF

Info

Publication number
CN112866295B
CN112866295B CN202110306214.1A CN202110306214A CN112866295B CN 112866295 B CN112866295 B CN 112866295B CN 202110306214 A CN202110306214 A CN 202110306214A CN 112866295 B CN112866295 B CN 112866295B
Authority
CN
China
Prior art keywords
service
interaction
item
network
web crawler
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110306214.1A
Other languages
English (en)
Other versions
CN112866295A (zh
Inventor
黄超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai new sunfaith intellectual property services Limited by Share Ltd.
Original Assignee
Shanghai New Sunfaith Intellectual Property Services Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai New Sunfaith Intellectual Property Services Ltd By Share Ltd filed Critical Shanghai New Sunfaith Intellectual Property Services Ltd By Share Ltd
Priority to CN202110306214.1A priority Critical patent/CN112866295B/zh
Publication of CN112866295A publication Critical patent/CN112866295A/zh
Application granted granted Critical
Publication of CN112866295B publication Critical patent/CN112866295B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及区块链大数据处理技术领域,具体涉及一种大数据防爬虫处理方法及云平台系统。本发明由于分别在大数据云服务器侧以及大数据业务用户终端侧部署了实时网络爬虫监测网络,且不同的实时网络爬虫监测网络是基于初始业务操作数据集、初始业务响应数据集以及设定网络训练条件训练得到的,因而能够通过两个不同的实时网络爬虫监测网络将不同大数据业务用户终端的业务操作和业务响应考虑在内,不仅可以确保大数据业务用户终端对待监测业务互动事项的准确的网络爬虫监测,还能够确保针对网络爬虫监测所确定的待监测业务互动事项的网络爬虫防护策略的爬虫防护性能,提高网络爬虫监测和防护的效率和可信度。

Description

一种大数据防爬虫处理方法及云平台系统
技术领域
本发明涉及区块链大数据处理技术领域,具体涉及一种大数据防爬虫处理方法及云平台系统。
背景技术
网络爬虫(web crawler)也叫做网络机器人,可以代替人们自动地在互联网中进行数据信息的采集与整理。在大数据时代,信息的采集是一项重要的工作,如果单纯靠人力进行信息采集,不仅低效繁琐,搜集的成本也会提高。
此时,我们可以使用网络爬虫对数据信息进行自动采集,比如应用于搜索引擎中对站点进行爬取收录,应用于数据分析与挖掘中对数据进行采集,应用于金融分析中对金融数据进行采集,除此之外,还可以将网络爬虫应用于舆情监测与分析、目标客户数据的收集等各个领域。
在一些大数据云业务互动中,用户并不希望自己的相关数据被非法的网络爬虫所爬取,因此需要在一定情况下实现区块链大数据防爬虫处理。区块链技术因其具有去中心化和可追溯的特性,使得数据处理的安全性得到极大的提升,因而,被广泛应用在大数据安全防爬虫领域上。然而相关的区块链大数据防爬虫处理技术存在监测防护效率差和可信度低下的技术问题。
发明内容
有鉴于此,本发明实施例提供了一种大数据防爬虫处理方法及云平台系统。
本发明实施例提供了一种大数据防爬虫处理方法,应用于与大数据业务用户终端通信的大数据云服务器,所述方法包括:
获得初始业务操作数据集以及初始业务响应数据集;
利用所述初始业务操作数据集训练设定业务操作识别网络,得到完成训练的业务操作识别网络;通过所述完成训练的业务操作识别网络对所述初始业务响应数据集进行业务操作识别,得到初始业务画像数据集;
利用所述初始业务画像数据集训练设定的针对大数据云服务器的实时网络爬虫监测网络,得到完成训练的针对大数据云服务器的实时网络爬虫监测网络;
基于设定网络训练条件以及所述完成训练的针对大数据云服务器的实时网络爬虫监测网络训练设定的针对大数据业务用户终端的实时网络爬虫监测网络,得到完成训练的针对大数据业务用户终端的实时网络爬虫监测网络;
将完成训练的针对大数据业务用户终端的实时网络爬虫监测网络下发至所述大数据业务用户终端,通过所述大数据业务用户终端以及所述完成训练的针对大数据业务用户终端的实时网络爬虫监测网络对待监测业务互动事项进行网络爬虫监测得到网络爬虫监测结果,并基于所述网络爬虫监测结果确定所述待监测业务互动事项的网络爬虫防护策略。
在一种可替换的实施方式中,利用所述初始业务画像数据集训练设定的针对大数据云服务器的实时网络爬虫监测网络,得到完成训练的针对大数据云服务器的实时网络爬虫监测网络,包括:
利用所述初始业务画像数据集对设定的针对大数据云服务器的实时网络爬虫监测网络进行循环迭代训练,在利用第y次训练之后的针对大数据云服务器的实时网络爬虫监测网络对测试业务数据集进行网络爬虫监测所得到的网络爬虫监测的识别准确率大于设定识别准确率的情况下,将第y次训练之后的针对大数据云服务器的实时网络爬虫监测网络确定为完成训练的针对大数据云服务器的实时网络爬虫监测网络;其中,y为正整数。
在一种可替换的实施方式中,基于设定网络训练条件以及所述完成训练的针对大数据云服务器的实时网络爬虫监测网络训练设定的针对大数据业务用户终端的实时网络爬虫监测网络,得到完成训练的针对大数据业务用户终端的实时网络爬虫监测网络,包括:
基于当前网络转移条件以及所述完成训练的针对大数据云服务器的实时网络爬虫监测网络训练设定的针对大数据业务用户终端的实时网络爬虫监测网络,得到完成训练的针对大数据业务用户终端的实时网络爬虫监测网络;
其中,基于当前网络转移条件以及所述完成训练的针对大数据云服务器的实时网络爬虫监测网络训练设定的针对大数据业务用户终端的实时网络爬虫监测网络,得到完成训练的针对大数据业务用户终端的实时网络爬虫监测网络,包括:
当第x次训练之后,所述当前网络转移条件的模型网络匹配指数位于设定匹配指数范围时,将第x次训练之后得到的针对大数据业务用户终端的实时网络爬虫监测网络确定为完成训练的针对大数据业务用户终端的实时网络爬虫监测网络;其中,x为正整数。
在一种可替换的实施方式中,通过所述完成训练的业务操作识别网络对所述初始业务响应数据集进行业务操作识别,得到初始业务画像数据集,包括:
针对所述初始业务响应数据集中的每个初始业务响应数据,获得该个初始业务响应数据的业务行为统计结果以及各业务互动事项;
在基于所述业务行为统计结果确定出该个初始业务响应数据中包含有主动型业务操作类别的情况下,根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签确定该个初始业务响应数据的被动型业务操作类别对应的各业务互动事项与该个初始业务响应数据的主动型业务操作类别对应的各业务互动事项之间的互动事项匹配度,并将该个初始业务响应数据的被动型业务操作类别对应的与主动型业务操作类别对应的业务互动事项关联的业务互动事项分配到所述主动型业务操作类别;其中,在该个初始业务响应数据的当前被动型业务操作类别对应包含有多个业务互动事项的情况下,根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签确定该个初始业务响应数据的当前被动型业务操作类别对应的各业务互动事项之间的互动事项匹配度,并根据所述各业务互动事项之间的互动事项匹配度对当前被动型业务操作类别对应的各业务互动事项进行互动事项聚类;根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签为上述互动事项聚类获得的业务聚类互动事项设置互动事项分配指示,并根据所述互动事项分配指示将所述业务聚类互动事项分配到所述主动型业务操作类别;
基于该个初始业务响应数据对应的主动型业务操作类别中的目标业务互动事项确定初始业务画像数据,并将确定出的初始业务画像数据进行整合得到初始业务画像数据集;其中,所述初始业务画像数据为初始意图业务数据;
其中,所述根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签确定该个初始业务响应数据的被动型业务操作类别对应的各业务互动事项与该个初始业务响应数据的主动型业务操作类别对应的各业务互动事项之间的互动事项匹配度,并将该个初始业务响应数据的被动型业务操作类别对应的与主动型业务操作类别对应的业务互动事项关联的业务互动事项分配到所述主动型业务操作类别包括:
计算该个初始业务响应数据的被动型业务操作类别对应的各业务互动事项与该个初始业务响应数据的主动型业务操作类别对应的各业务互动事项的互动事项画像数据之间的皮尔森相关性系数;
分别判断各皮尔森相关性系数是否达到第一设定相关性系数阈值,并将皮尔森相关性系数达到第一设定相关性系数阈值的被动型业务操作类别对应的业务互动事项分配到所述主动型业务操作类别;其中,所述业务互动事项的互动事项画像数据为:根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签统计出的业务互动事项和互动事项分配指示的统计结果;
其中,所述根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签确定该个初始业务响应数据的当前被动型业务操作类别对应的各业务互动事项之间的互动事项匹配度,并根据所述各业务互动事项之间的互动事项匹配度对当前被动型业务操作类别对应的各业务互动事项进行互动事项聚类包括:
计算该个初始业务响应数据的当前被动型业务操作类别对应的各业务互动事项的互动事项画像数据之间的皮尔森相关性系数;针对该个初始业务响应数据的当前被动型业务操作类别对应的一个业务互动事项而言,将该业务互动事项和与其互动事项画像数据之间的皮尔森相关性系数达到第二设定相关性系数阈值的所有业务互动事项进行互动事项聚类得到一组业务聚类互动事项。
在一种可替换的实施方式中,通过所述大数据业务用户终端以及所述完成训练的针对大数据业务用户终端的实时网络爬虫监测网络对待监测业务互动事项进行网络爬虫监测得到网络爬虫监测结果,并基于所述网络爬虫监测结果确定所述待监测业务互动事项的网络爬虫防护策略,包括:
使所述大数据业务用户终端基于所述完成训练的针对大数据业务用户终端的实时网络爬虫监测网络提取待监测业务互动事项的目标互动状态对应的局部业务互动事项;其中,所述目标互动状态是所述待监测业务互动事项未被大数据云服务器记录的互动状态;
获得所述大数据业务用户终端上传的所述局部业务互动事项;
在预存互动事项集中检索与所述局部业务互动事项匹配的目标网络爬虫防护策略,将所述目标网络爬虫防护策略确定为所述待监测业务互动事项的网络爬虫防护策略。
在一种可替换的实施方式中,在预存互动事项集中检索与所述局部业务互动事项匹配的目标网络爬虫防护策略,包括:
对所述局部业务互动事项进行互动事项特征识别,得到多个互动事项特征内容;获得多个互动事项特征内容的特征内容行为画像数据,以及所述多个互动事项特征内容在当前网络爬虫监测状态之前的y个不间断的网络爬虫监测状态对应的y个历史互动事项特征内容集合,其中,每一网络爬虫监测状态的历史互动事项特征内容集合包括所述互动事项特征内容在多个实时业务状态类别下的历史互动事项特征内容;
分别获得各互动事项特征内容的y个历史互动事项特征内容集合中每一历史互动事项特征内容集合对应的事项安全等级偏差集合;其中,每一事项安全等级偏差集合包括所述互动事项特征内容在多个实时业务状态类别下的事项安全等级偏差,每一事项安全等级偏差表示一个实时业务状态类别下实时事项安全等级与参考事项安全等级之间的比对结果;
利用已训练的事项安全等级修复网络,根据各互动事项特征内容的特征内容行为画像数据与y个历史互动事项特征内容集合对应的y个事项安全等级偏差集合,获得各互动事项特征内容在当前网络爬虫监测状态的事项安全等级偏差;其中,所述事项安全等级修复网络是利用多个网络训练样本训练得到的,每一网络训练样本包括一个互动事项特征内容的特征内容行为画像数据以及y+1个不间断的网络爬虫监测状态的事项安全等级偏差集合;所述事项安全等级偏差表示互动事项特征内容的实时事项安全等级与参考事项安全等级之间的比对结果;
通过各互动事项特征内容在当前网络爬虫监测状态的事项安全等级偏差分别对各互动事项特征内容的实时事项安全等级进行修复;根据各互动事项特征内容修复后的实时事项安全等级,从所述多个互动事项特征内容中确定目标互动事项特征内容,根据所述目标互动事项特征内容对所述局部业务互动事项进行互动事项整理,得到用于进行网络爬虫匹配的待匹配互动事项;
在预存互动事项集中检索与所述待匹配互动事项的相关性系数最小的预存业务互动事项,并确定与所述预存业务互动事项的全局网络爬虫防护策略为所述局部业务互动事项匹配的目标网络爬虫防护策略;
其中,所述事项安全等级修复网络是通过如下训练过程训练得到的:从网络训练样本数据库中获得预设数量个的网络训练样本;通过获得的网络训练样本,按照设定的网络模型训练参数对所述事项安全等级修复网络进行多轮训练,每一轮训练过程包括如下步骤:
根据所述特征内容行为画像数据以及y+1个不间断的网络爬虫监测状态中前y个网络爬虫监测状态的事项安全等级偏差集合,通过所述事项安全等级修复网络,获得每一网络训练样本的互动事项特征内容在第y+1个网络爬虫监测状态的事项安全等级偏差;
根据所述网络训练样本的互动事项特征内容在第y+1个网络爬虫监测状态的事项安全等级偏差,与所述网络训练样本中第y+1个网络爬虫监测状态的事项安全等级偏差集合,获得所述事项安全等级修复网络的网络性能评价条件;
根据所述网络性能评价条件确定是否继续对所述事项安全等级修复网络进行训练;若确定继续对所述事项安全等级修复网络进行训练,则对所述事项安全等级修复网络的模型网络参数进行调整,并通过调整后的所述事项安全等级修复网络继续下一次训练过程;
其中,所述事项安全等级修复网络包括互动事项时序网络层和互动事项安全网络层,则针对每一互动事项特征内容,利用事项安全等级修复网络获得事项安全等级偏差,包括:
根据所述y个事项安全等级偏差集合,通过所述互动事项时序网络层获得互动事项特征内容的互动事项时序条件;
根据所述特征内容行为画像数据,通过所述互动事项安全网络层获得互动事项特征内容的互动事项安全条件;
基于所述互动事项时序网络层和所述互动事项安全网络层的网络关联数据,根据所述互动事项时序条件和所述互动事项安全条件得到在当前网络爬虫监测状态的事项安全等级偏差。
本发明实施例还提供了一种区块链大数据防爬虫处理装置,应用于与大数据业务用户终端通信的大数据云服务器,所述装置包括:
数据获得模块,用于获得初始业务操作数据集以及初始业务响应数据集;
操作识别模块,用于利用所述初始业务操作数据集训练设定业务操作识别网络,得到完成训练的业务操作识别网络;通过所述完成训练的业务操作识别网络对所述初始业务响应数据集进行业务操作识别,得到初始业务画像数据集;
第一训练模块,用于利用所述初始业务画像数据集训练设定的针对大数据云服务器的实时网络爬虫监测网络,得到完成训练的针对大数据云服务器的实时网络爬虫监测网络;
第二训练模块,用于基于设定网络训练条件以及所述完成训练的针对大数据云服务器的实时网络爬虫监测网络训练设定的针对大数据业务用户终端的实时网络爬虫监测网络,得到完成训练的针对大数据业务用户终端的实时网络爬虫监测网络;
爬虫防护模块,用于将完成训练的针对大数据业务用户终端的实时网络爬虫监测网络下发至所述大数据业务用户终端,通过所述大数据业务用户终端以及所述完成训练的针对大数据业务用户终端的实时网络爬虫监测网络对待监测业务互动事项进行网络爬虫监测得到网络爬虫监测结果,并基于所述网络爬虫监测结果确定所述待监测业务互动事项的网络爬虫防护策略。
本发明实施例还提供了一种区块链大数据防爬虫处理云平台系统,包括互相之间通信的大数据云服务器和大数据业务用户终端;
所述大数据云服务器用于:
获得初始业务操作数据集以及初始业务响应数据集;
利用所述初始业务操作数据集训练设定业务操作识别网络,得到完成训练的业务操作识别网络;通过所述完成训练的业务操作识别网络对所述初始业务响应数据集进行业务操作识别,得到初始业务画像数据集;
利用所述初始业务画像数据集训练设定的针对大数据云服务器的实时网络爬虫监测网络,得到完成训练的针对大数据云服务器的实时网络爬虫监测网络;
基于设定网络训练条件以及所述完成训练的针对大数据云服务器的实时网络爬虫监测网络训练设定的针对大数据业务用户终端的实时网络爬虫监测网络,得到完成训练的针对大数据业务用户终端的实时网络爬虫监测网络;
将完成训练的针对大数据业务用户终端的实时网络爬虫监测网络下发至所述大数据业务用户终端,通过所述大数据业务用户终端以及所述完成训练的针对大数据业务用户终端的实时网络爬虫监测网络对待监测业务互动事项进行网络爬虫监测得到网络爬虫监测结果,并基于所述网络爬虫监测结果确定所述待监测业务互动事项的网络爬虫防护策略。
在一种可替换的实施方式中,所述大数据云服务器利用所述初始业务画像数据集训练设定的针对大数据云服务器的实时网络爬虫监测网络,得到完成训练的针对大数据云服务器的实时网络爬虫监测网络,包括:
利用所述初始业务画像数据集对设定的针对大数据云服务器的实时网络爬虫监测网络进行循环迭代训练,在利用第y次训练之后的针对大数据云服务器的实时网络爬虫监测网络对测试业务数据集进行网络爬虫监测所得到的网络爬虫监测的识别准确率大于设定识别准确率的情况下,将第y次训练之后的针对大数据云服务器的实时网络爬虫监测网络确定为完成训练的针对大数据云服务器的实时网络爬虫监测网络;其中,y为正整数。
在一种可替换的实施方式中,所述大数据云服务器基于设定网络训练条件以及所述完成训练的针对大数据云服务器的实时网络爬虫监测网络训练设定的针对大数据业务用户终端的实时网络爬虫监测网络,得到完成训练的针对大数据业务用户终端的实时网络爬虫监测网络,包括:
基于当前网络转移条件以及所述完成训练的针对大数据云服务器的实时网络爬虫监测网络训练设定的针对大数据业务用户终端的实时网络爬虫监测网络,得到完成训练的针对大数据业务用户终端的实时网络爬虫监测网络;
其中,基于当前网络转移条件以及所述完成训练的针对大数据云服务器的实时网络爬虫监测网络训练设定的针对大数据业务用户终端的实时网络爬虫监测网络,得到完成训练的针对大数据业务用户终端的实时网络爬虫监测网络,包括:
当第x次训练之后,所述当前网络转移条件的模型网络匹配指数位于设定匹配指数范围时,将第x次训练之后得到的针对大数据业务用户终端的实时网络爬虫监测网络确定为完成训练的针对大数据业务用户终端的实时网络爬虫监测网络;其中,x为正整数。
在一种可替换的实施方式中,通过所述完成训练的业务操作识别网络对所述初始业务响应数据集进行业务操作识别,得到初始业务画像数据集,包括:
针对所述初始业务响应数据集中的每个初始业务响应数据,获得该个初始业务响应数据的业务行为统计结果以及各业务互动事项;
在基于所述业务行为统计结果确定出该个初始业务响应数据中包含有主动型业务操作类别的情况下,根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签确定该个初始业务响应数据的被动型业务操作类别对应的各业务互动事项与该个初始业务响应数据的主动型业务操作类别对应的各业务互动事项之间的互动事项匹配度,并将该个初始业务响应数据的被动型业务操作类别对应的与主动型业务操作类别对应的业务互动事项关联的业务互动事项分配到所述主动型业务操作类别;其中,在该个初始业务响应数据的当前被动型业务操作类别对应包含有多个业务互动事项的情况下,根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签确定该个初始业务响应数据的当前被动型业务操作类别对应的各业务互动事项之间的互动事项匹配度,并根据所述各业务互动事项之间的互动事项匹配度对当前被动型业务操作类别对应的各业务互动事项进行互动事项聚类;根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签为上述互动事项聚类获得的业务聚类互动事项设置互动事项分配指示,并根据所述互动事项分配指示将所述业务聚类互动事项分配到所述主动型业务操作类别;
基于该个初始业务响应数据对应的主动型业务操作类别中的目标业务互动事项确定初始业务画像数据,并将确定出的初始业务画像数据进行整合得到初始业务画像数据集;其中,所述初始业务画像数据为初始意图业务数据;
其中,所述根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签确定该个初始业务响应数据的被动型业务操作类别对应的各业务互动事项与该个初始业务响应数据的主动型业务操作类别对应的各业务互动事项之间的互动事项匹配度,并将该个初始业务响应数据的被动型业务操作类别对应的与主动型业务操作类别对应的业务互动事项关联的业务互动事项分配到所述主动型业务操作类别包括:
计算该个初始业务响应数据的被动型业务操作类别对应的各业务互动事项与该个初始业务响应数据的主动型业务操作类别对应的各业务互动事项的互动事项画像数据之间的皮尔森相关性系数;
分别判断各皮尔森相关性系数是否达到第一设定相关性系数阈值,并将皮尔森相关性系数达到第一设定相关性系数阈值的被动型业务操作类别对应的业务互动事项分配到所述主动型业务操作类别;其中,所述业务互动事项的互动事项画像数据为:根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签统计出的业务互动事项和互动事项分配指示的统计结果;
其中,所述根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签确定该个初始业务响应数据的当前被动型业务操作类别对应的各业务互动事项之间的互动事项匹配度,并根据所述各业务互动事项之间的互动事项匹配度对当前被动型业务操作类别对应的各业务互动事项进行互动事项聚类包括:
计算该个初始业务响应数据的当前被动型业务操作类别对应的各业务互动事项的互动事项画像数据之间的皮尔森相关性系数;针对该个初始业务响应数据的当前被动型业务操作类别对应的一个业务互动事项而言,将该业务互动事项和与其互动事项画像数据之间的皮尔森相关性系数达到第二设定相关性系数阈值的所有业务互动事项进行互动事项聚类得到一组业务聚类互动事项。
本发明实施例还提供了一种大数据云服务器,包括处理器、通信总线和存储器;所述处理器和所述存储器通过所述通信总线通信,所述处理器从所述存储器中读取计算机程序并运行,以实现上述的方法。
本发明实施例还提供了一种可读存储介质,其上存储有计算机程序,所述计算机程序在运行时执行上述的方法。
本发明实施例提供的大数据防爬虫处理方法及云平台系统具有以下技术效果:首先利用初始业务操作数据集训练设定业务操作识别网络得到完成训练的业务操作识别网络并对初始业务响应数据集进行业务操作识别得到初始业务画像数据集,其次利用初始业务画像数据集训练设定的针对大数据云服务器的实时网络爬虫监测网络得到完成训练的针对大数据云服务器的实时网络爬虫监测网络并基于设定网络训练条件以及完成训练的针对大数据云服务器的实时网络爬虫监测网络训练设定的针对大数据业务用户终端的实时网络爬虫监测网络得到完成训练的针对大数据业务用户终端的实时网络爬虫监测网络,这样,可以将完成训练的针对大数据业务用户终端的实时网络爬虫监测网络下发至大数据业务用户终端,从而通过大数据业务用户终端以及完成训练的针对大数据业务用户终端的实时网络爬虫监测网络对待监测业务互动事项进行网络爬虫监测得到网络爬虫监测结果,并基于网络爬虫监测结果确定待监测业务互动事项的网络爬虫防护策略。
如此设计,由于分别在大数据云服务器侧以及大数据业务用户终端侧部署了实时网络爬虫监测网络,且不同的实时网络爬虫监测网络是基于初始业务操作数据集、初始业务响应数据集以及设定网络训练条件训练得到的,因而能够通过两个不同的实时网络爬虫监测网络将不同大数据业务用户终端的业务操作和业务响应考虑在内,不仅可以确保大数据业务用户终端对待监测业务互动事项的准确的网络爬虫监测,还能够确保针对网络爬虫监测所确定的待监测业务互动事项的网络爬虫防护策略的爬虫防护性能,这样可以依据网络爬虫防护策略为不同的大数据业务用户终端进行网络爬虫的监测和防护,提高网络爬虫监测和防护的效率和可信度,确保对不同的大数据业务用户终端的业务互动事项的进行有效的网络爬虫监测防护,进而避免数据信息被非法爬取。
在后面的描述中,将部分地陈述其他的特征。在检查后面内容和附图时,本领域的技术人员将部分地发现这些特征,或者可以通过生产或运用了解到这些特征。通过实践或使用后面所述详细示例中列出的方法、工具和组合的各个方面,当前申请中的特征可以被实现和获得。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例所提供的一种大数据云服务器的方框示意图。
图2为本发明实施例所提供的一种大数据防爬虫处理方法的流程图。
图3为本发明实施例所提供的一种区块链大数据防爬虫处理装置的框图。
图4为本发明实施例所提供的一种区块链大数据防爬虫处理云平台系统的架构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本发明的一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
本发明实施例提供了一种大数据防爬虫处理方法及云平台系统。
图1示出了本发明实施例所提供的一种大数据云服务器10的方框示意图。本发明实施例中的大数据云服务器10可以为具有数据存储、传输、处理功能的大数据云服务器,如图1所示,大数据云服务器10包括:存储器11、处理器12、通信总线13和区块链大数据防爬虫处理装置20。
存储器11、处理器12和通信总线13之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件互相之间可以通过一条或多条通讯总线或信号线实现电性连接。存储器11中存储有区块链大数据防爬虫处理装置20,所述区块链大数据防爬虫处理装置20包括至少一个可以软件或固件(firmware)的形式储存于所述存储器11中的软件功能模块,所述处理器12通过运行存储在存储器11内的软件程序以及模块,例如本发明实施例中的区块链大数据防爬虫处理装置20,从而执行各种功能应用以及数据处理,即实现本发明实施例中的大数据防爬虫处理方法。
其中,所述存储器11可以是,但不限于,随机存取存储器(RandomAccessMemory,RAM),只读存储器(ReadOnlyMemory,ROM),可编程只读存储器(ProgrammableRead-OnlyMemory,PROM),可擦除只读存储器(ErasableProgrammableRead-OnlyMemory,EPROM),电可擦除只读存储器(ElectricErasableProgrammableRead-OnlyMemory,EEPROM)等。其中,存储器11用于存储程序,所述处理器12在接收到执行指令后,执行所述程序。
所述处理器12可能是一种集成电路芯片,具有数据的处理能力。上述的处理器12可以是通用处理器,包括中央处理器(CentralProcessingUnit,CPU)、网络处理器(networPProcessor,nP)等。可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
通信总线13用于通过网络生成大数据云服务器10与其他通信终端设备之间的通信连接,实现网络信号及数据的收发操作。上述网络信号可包括无线信号或者有线信号。
可以理解,图1所示的结构仅为示意,大数据云服务器10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
本发明实施例还提供了一种计算机用可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在运行时实现上述的方法。
图2示出了本发明实施例所提供的一种大数据防爬虫处理方法的流程图。所述方法有关的流程所定义的方法步骤应用于大数据云服务器10,可以由所述处理器12实现,所述方法包括以下步骤S100-步骤S500所描述的内容。
步骤S100,获得初始业务操作数据集以及初始业务响应数据集。本申请实施例中初始业务操作数据集以及初始业务响应数据集用于进行相关网络的训练。
步骤S200,利用所述初始业务操作数据集训练设定业务操作识别网络,得到完成训练的业务操作识别网络;通过所述完成训练的业务操作识别网络对所述初始业务响应数据集进行业务操作识别,得到初始业务画像数据集。
在本实施例中,设定业务操作识别网络可以是基于机器学习的卷积神经网络,其训练方式在此不作赘述。为了尽可能精准地进行网络爬虫监测的前序数据处理以得到初始业务画像数据,步骤S200所描述的通过所述完成训练的业务操作识别网络对所述初始业务响应数据集进行业务操作识别,得到初始业务画像数据集,可以通过以下步骤S210-步骤S230得到。
步骤S210,针对所述初始业务响应数据集中的每个初始业务响应数据,获得该个初始业务响应数据的业务行为统计结果以及各业务互动事项。
在本实施例中,业务行为统计结果可以用于描述初始业务响应数据中的不同业务之间的相对交互行为情况,而业务互动事项则可以用于表征业务的互动事项对象、互动事项场景等,在此不作限定。
步骤S220,在基于所述业务行为统计结果确定出该个初始业务响应数据中包含有主动型业务操作类别的情况下,根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签确定该个初始业务响应数据的被动型业务操作类别对应的各业务互动事项与该个初始业务响应数据的主动型业务操作类别对应的各业务互动事项之间的互动事项匹配度,并将该个初始业务响应数据的被动型业务操作类别对应的与主动型业务操作类别对应的业务互动事项关联的业务互动事项分配到所述主动型业务操作类别;其中,在该个初始业务响应数据的当前被动型业务操作类别对应包含有多个业务互动事项的情况下,根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签确定该个初始业务响应数据的当前被动型业务操作类别对应的各业务互动事项之间的互动事项匹配度,并根据所述各业务互动事项之间的互动事项匹配度对当前被动型业务操作类别对应的各业务互动事项进行互动事项聚类;根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签为上述互动事项聚类获得的业务聚类互动事项设置互动事项分配指示,并根据所述互动事项分配指示将所述业务聚类互动事项分配到所述主动型业务操作类别。
在本实施例中,主动型业务操作类别和被动型业务操作类别是不同类型的类别,网络爬虫监测标签用于表征业务互动事项的网络爬虫监测成功率,网络爬虫监测标签越大,业务互动事项的网络爬虫监测成功率越大。互动事项分配指示用于表征业务聚类互动事项的互动状态分配优先级,根据所述互动事项分配指示将所述业务聚类互动事项分配到所述主动型业务操作类别可以是:将互动事项分配指示对应的互动状态分配优先级按照降序排列所对应的部分业务聚类互动事项分配到所述主动型业务操作类别。
在一些可能的实施例中,所述根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签确定该个初始业务响应数据的被动型业务操作类别对应的各业务互动事项与该个初始业务响应数据的主动型业务操作类别对应的各业务互动事项之间的互动事项匹配度,并将该个初始业务响应数据的被动型业务操作类别对应的与主动型业务操作类别对应的业务互动事项关联的业务互动事项分配到所述主动型业务操作类别可以通过以下步骤实现:计算该个初始业务响应数据的被动型业务操作类别对应的各业务互动事项与该个初始业务响应数据的主动型业务操作类别对应的各业务互动事项的互动事项画像数据之间的皮尔森相关性系数;分别判断各皮尔森相关性系数是否达到第一设定相关性系数阈值,并将皮尔森相关性系数达到第一设定相关性系数阈值的被动型业务操作类别对应的业务互动事项分配到所述主动型业务操作类别;其中,所述业务互动事项的互动事项画像数据为:根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签统计出的业务互动事项和互动事项分配指示的统计结果。
在一些可能的实施例中,所述根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签确定该个初始业务响应数据的当前被动型业务操作类别对应的各业务互动事项之间的互动事项匹配度,并根据所述各业务互动事项之间的互动事项匹配度对当前被动型业务操作类别对应的各业务互动事项进行互动事项聚类包括:计算该个初始业务响应数据的当前被动型业务操作类别对应的各业务互动事项的互动事项画像数据之间的皮尔森相关性系数;针对该个初始业务响应数据的当前被动型业务操作类别对应的一个业务互动事项而言,将该业务互动事项和与其互动事项画像数据之间的皮尔森相关性系数达到第二设定相关性系数阈值的所有业务互动事项进行互动事项聚类得到一组业务聚类互动事项。
步骤S230,基于该个初始业务响应数据对应的主动型业务操作类别中的目标业务互动事项确定初始业务画像数据,并将确定出的初始业务画像数据进行整合得到初始业务画像数据集;其中,所述初始业务画像数据为初始意图业务数据。
如此设计,基于上述步骤S210-步骤S230所描述的特征内容,能够实现对主动型业务操作类别和被动型业务操作类别中的业务互动事项的重新分配,这样可以尽可能精准地进行网络爬虫监测的前序数据处理以得到初始业务画像数据。
步骤S300,利用所述初始业务画像数据集训练设定的针对大数据云服务器的实时网络爬虫监测网络,得到完成训练的针对大数据云服务器的实时网络爬虫监测网络。
在本实施例中,针对大数据云服务器的实时网络爬虫监测网络可以理解为网络复杂度较大的网络,也即服务端模型网络,进一步地,利用所述初始业务画像数据集训练设定的针对大数据云服务器的实时网络爬虫监测网络,得到完成训练的针对大数据云服务器的实时网络爬虫监测网络,包括:利用所述初始业务画像数据集对设定的针对大数据云服务器的实时网络爬虫监测网络进行循环迭代训练,在利用第y次训练之后的针对大数据云服务器的实时网络爬虫监测网络对测试业务数据集进行网络爬虫监测所得到的网络爬虫监测的识别准确率大于设定识别准确率的情况下,将第y次训练之后的针对大数据云服务器的实时网络爬虫监测网络确定为完成训练的针对大数据云服务器的实时网络爬虫监测网络;其中,y为正整数。在本实施例中,设定识别准确率可以是95%~99%,进一步地,设定识别准确率可以选择为95%。
步骤S400,基于设定网络训练条件以及所述完成训练的针对大数据云服务器的实时网络爬虫监测网络训练设定的针对大数据业务用户终端的实时网络爬虫监测网络,得到完成训练的针对大数据业务用户终端的实时网络爬虫监测网络。
在本实施例中,针对大数据业务用户终端的实时网络爬虫监测网络可以理解为网络复杂度较小的网络,也即用户端模型网络,进一步地,基于设定网络训练条件以及所述完成训练的针对大数据云服务器的实时网络爬虫监测网络训练设定的针对大数据业务用户终端的实时网络爬虫监测网络,得到完成训练的针对大数据业务用户终端的实时网络爬虫监测网络,可以通过以下方式实现:基于当前网络转移条件以及所述完成训练的针对大数据云服务器的实时网络爬虫监测网络训练设定的针对大数据业务用户终端的实时网络爬虫监测网络,得到完成训练的针对大数据业务用户终端的实时网络爬虫监测网络。
进一步地,基于当前网络转移条件以及所述完成训练的针对大数据云服务器的实时网络爬虫监测网络训练设定的针对大数据业务用户终端的实时网络爬虫监测网络,得到完成训练的针对大数据业务用户终端的实时网络爬虫监测网络,包括:当第x次训练之后,所述当前网络转移条件的模型网络匹配指数位于设定匹配指数范围时,将第x次训练之后得到的针对大数据业务用户终端的实时网络爬虫监测网络确定为完成训练的针对大数据业务用户终端的实时网络爬虫监测网络;其中,x为正整数。
步骤S500,将完成训练的针对大数据业务用户终端的实时网络爬虫监测网络下发至所述大数据业务用户终端,通过所述大数据业务用户终端以及所述完成训练的针对大数据业务用户终端的实时网络爬虫监测网络对待监测业务互动事项进行网络爬虫监测得到网络爬虫监测结果,并基于所述网络爬虫监测结果确定所述待监测业务互动事项的网络爬虫防护策略。
在实际实施过程中,步骤S500所描述的通过所述大数据业务用户终端以及所述完成训练的针对大数据业务用户终端的实时网络爬虫监测网络对待监测业务互动事项进行网络爬虫监测得到网络爬虫监测结果,并基于所述网络爬虫监测结果确定所述待监测业务互动事项的网络爬虫防护策略,可以包括以下内容:使所述大数据业务用户终端基于所述完成训练的针对大数据业务用户终端的实时网络爬虫监测网络提取待监测业务互动事项的目标互动状态对应的局部业务互动事项;其中,所述目标互动状态是所述待监测业务互动事项未被大数据云服务器记录的互动状态;获得所述大数据业务用户终端上传的所述局部业务互动事项;在预存互动事项集中检索与所述局部业务互动事项匹配的目标网络爬虫防护策略,将所述目标网络爬虫防护策略确定为所述待监测业务互动事项的网络爬虫防护策略。网络爬虫防护策略可以用于进行网络爬虫防护处理,比如对特定的网络爬虫行为进行拦截或者删除,从而确保数据信息不会被非法爬取。
在一些示例中,发明人发现,为了确保业务网络爬虫监测的精准性,上述内容中的在预存互动事项集中检索与所述局部业务互动事项匹配的目标网络爬虫防护策略,可以包括以下步骤S510-步骤S550所描述的内容。
步骤S510,对所述局部业务互动事项进行互动事项特征识别,得到多个互动事项特征内容;获得多个互动事项特征内容的特征内容行为画像数据,以及所述多个互动事项特征内容在当前网络爬虫监测状态之前的y个不间断的网络爬虫监测状态对应的y个历史互动事项特征内容集合,其中,每一网络爬虫监测状态的历史互动事项特征内容集合包括所述互动事项特征内容在多个实时业务状态类别下的历史互动事项特征内容。
步骤S520,分别获得各互动事项特征内容的y个历史互动事项特征内容集合中每一历史互动事项特征内容集合对应的事项安全等级偏差集合;其中,每一事项安全等级偏差集合包括所述互动事项特征内容在多个实时业务状态类别下的事项安全等级偏差,每一事项安全等级偏差表示一个实时业务状态类别下实时事项安全等级与参考事项安全等级之间的比对结果。
步骤S530,利用已训练的事项安全等级修复网络,根据各互动事项特征内容的特征内容行为画像数据与y个历史互动事项特征内容集合对应的y个事项安全等级偏差集合,获得各互动事项特征内容在当前网络爬虫监测状态的事项安全等级偏差;其中,所述事项安全等级修复网络是利用多个网络训练样本训练得到的,每一网络训练样本包括一个互动事项特征内容的特征内容行为画像数据以及y+1个不间断的网络爬虫监测状态的事项安全等级偏差集合;所述事项安全等级偏差表示互动事项特征内容的实时事项安全等级与参考事项安全等级之间的比对结果。
在本实施例中,所述事项安全等级修复网络是通过如下训练过程训练得到的:从网络训练样本数据库中获得预设数量个的网络训练样本;通过获得的网络训练样本,按照设定的网络模型训练参数对所述事项安全等级修复网络进行多轮训练,每一轮训练过程包括如下步骤:根据所述特征内容行为画像数据以及y+1个不间断的网络爬虫监测状态中前y个网络爬虫监测状态的事项安全等级偏差集合,通过所述事项安全等级修复网络,获得每一网络训练样本的互动事项特征内容在第y+1个网络爬虫监测状态的事项安全等级偏差;根据所述网络训练样本的互动事项特征内容在第y+1个网络爬虫监测状态的事项安全等级偏差,与所述网络训练样本中第y+1个网络爬虫监测状态的事项安全等级偏差集合,获得所述事项安全等级修复网络的网络性能评价条件;根据所述网络性能评价条件确定是否继续对所述事项安全等级修复网络进行训练;若确定继续对所述事项安全等级修复网络进行训练,则对所述事项安全等级修复网络的模型网络参数进行调整,并通过调整后的所述事项安全等级修复网络继续下一次训练过程。
在本实施例中,所述事项安全等级修复网络包括互动事项时序网络层和互动事项安全网络层,则针对每一互动事项特征内容,利用事项安全等级修复网络获得事项安全等级偏差,包括:根据所述y个事项安全等级偏差集合,通过所述互动事项时序网络层获得互动事项特征内容的互动事项时序条件;根据所述特征内容行为画像数据,通过所述互动事项安全网络层获得互动事项特征内容的互动事项安全条件;基于所述互动事项时序网络层和所述互动事项安全网络层的网络关联数据,根据所述互动事项时序条件和所述互动事项安全条件得到在当前网络爬虫监测状态的事项安全等级偏差。
步骤S540,通过各互动事项特征内容在当前网络爬虫监测状态的事项安全等级偏差分别对各互动事项特征内容的实时事项安全等级进行修复;根据各互动事项特征内容修复后的实时事项安全等级,从所述多个互动事项特征内容中确定目标互动事项特征内容,根据所述目标互动事项特征内容对所述局部业务互动事项进行互动事项整理,得到用于进行网络爬虫匹配的待匹配互动事项。
步骤S550,在预存互动事项集中检索与所述待匹配互动事项的相关性系数最小的预存业务互动事项,并确定与所述预存业务互动事项的全局网络爬虫防护策略为所述局部业务互动事项匹配的目标网络爬虫防护策略。
这样一来,通过实施上述步骤S510-步骤S550,能够对局部业务互动事项进行进一步的分析,从而对局部业务互动事项进行互动事项整理,得到用于进行网络爬虫匹配的待匹配互动事项,进而基于待匹配互动事项确定局部业务互动事项匹配的目标网络爬虫防护策略,如此,能够尽可能确保业务网络爬虫监测的精准性。
综上,通过实施上述步骤S100-步骤S500,由于分别在大数据云服务器侧以及大数据业务用户终端侧部署了实时网络爬虫监测网络,且不同的实时网络爬虫监测网络是基于初始业务操作数据集、初始业务响应数据集以及设定网络训练条件训练得到的,因而能够通过两个不同的实时网络爬虫监测网络将不同大数据业务用户终端的业务操作和业务响应考虑在内,不仅可以确保大数据业务用户终端对待监测业务互动事项的准确的网络爬虫监测,还能够确保针对网络爬虫监测所确定的待监测业务互动事项的网络爬虫防护策略的爬虫防护性能,这样可以依据网络爬虫防护策略为不同的大数据业务用户终端进行网络爬虫的监测和防护,提高网络爬虫监测和防护的效率和可信度,确保对不同的大数据业务用户终端的业务互动事项的进行有效的网络爬虫监测防护,进而避免数据信息被非法爬取。
基于上述同样的发明构思,还提供了如图3所示的区块链大数据防爬虫处理装置20,所述装置至少包括以下功能模块。
数据获得模块21,用于获得初始业务操作数据集以及初始业务响应数据集。
操作识别模块22,用于利用所述初始业务操作数据集训练设定业务操作识别网络,得到完成训练的业务操作识别网络;通过所述完成训练的业务操作识别网络对所述初始业务响应数据集进行业务操作识别,得到初始业务画像数据集。
其中,操作识别模块22进一步用于:针对所述初始业务响应数据集中的每个初始业务响应数据,获得该个初始业务响应数据的业务行为统计结果以及各业务互动事项;
在基于所述业务行为统计结果确定出该个初始业务响应数据中包含有主动型业务操作类别的情况下,根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签确定该个初始业务响应数据的被动型业务操作类别对应的各业务互动事项与该个初始业务响应数据的主动型业务操作类别对应的各业务互动事项之间的互动事项匹配度,并将该个初始业务响应数据的被动型业务操作类别对应的与主动型业务操作类别对应的业务互动事项关联的业务互动事项分配到所述主动型业务操作类别;其中,在该个初始业务响应数据的当前被动型业务操作类别对应包含有多个业务互动事项的情况下,根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签确定该个初始业务响应数据的当前被动型业务操作类别对应的各业务互动事项之间的互动事项匹配度,并根据所述各业务互动事项之间的互动事项匹配度对当前被动型业务操作类别对应的各业务互动事项进行互动事项聚类;根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签为上述互动事项聚类获得的业务聚类互动事项设置互动事项分配指示,并根据所述互动事项分配指示将所述业务聚类互动事项分配到所述主动型业务操作类别;
基于该个初始业务响应数据对应的主动型业务操作类别中的目标业务互动事项确定初始业务画像数据,并将确定出的初始业务画像数据进行整合得到初始业务画像数据集;其中,所述初始业务画像数据为初始意图业务数据;
其中,所述根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签确定该个初始业务响应数据的被动型业务操作类别对应的各业务互动事项与该个初始业务响应数据的主动型业务操作类别对应的各业务互动事项之间的互动事项匹配度,并将该个初始业务响应数据的被动型业务操作类别对应的与主动型业务操作类别对应的业务互动事项关联的业务互动事项分配到所述主动型业务操作类别包括:
计算该个初始业务响应数据的被动型业务操作类别对应的各业务互动事项与该个初始业务响应数据的主动型业务操作类别对应的各业务互动事项的互动事项画像数据之间的皮尔森相关性系数;
分别判断各皮尔森相关性系数是否达到第一设定相关性系数阈值,并将皮尔森相关性系数达到第一设定相关性系数阈值的被动型业务操作类别对应的业务互动事项分配到所述主动型业务操作类别;其中,所述业务互动事项的互动事项画像数据为:根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签统计出的业务互动事项和互动事项分配指示的统计结果;
其中,所述根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签确定该个初始业务响应数据的当前被动型业务操作类别对应的各业务互动事项之间的互动事项匹配度,并根据所述各业务互动事项之间的互动事项匹配度对当前被动型业务操作类别对应的各业务互动事项进行互动事项聚类包括:
计算该个初始业务响应数据的当前被动型业务操作类别对应的各业务互动事项的互动事项画像数据之间的皮尔森相关性系数;针对该个初始业务响应数据的当前被动型业务操作类别对应的一个业务互动事项而言,将该业务互动事项和与其互动事项画像数据之间的皮尔森相关性系数达到第二设定相关性系数阈值的所有业务互动事项进行互动事项聚类得到一组业务聚类互动事项。
第一训练模块23,用于利用所述初始业务画像数据集训练设定的针对大数据云服务器的实时网络爬虫监测网络,得到完成训练的针对大数据云服务器的实时网络爬虫监测网络。
其中,第一训练模块23进一步用于:利用所述初始业务画像数据集对设定的针对大数据云服务器的实时网络爬虫监测网络进行循环迭代训练,在利用第y次训练之后的针对大数据云服务器的实时网络爬虫监测网络对测试业务数据集进行网络爬虫监测所得到的网络爬虫监测的识别准确率大于设定识别准确率的情况下,将第y次训练之后的针对大数据云服务器的实时网络爬虫监测网络确定为完成训练的针对大数据云服务器的实时网络爬虫监测网络;其中,y为正整数。
第二训练模块24,用于基于设定网络训练条件以及所述完成训练的针对大数据云服务器的实时网络爬虫监测网络训练设定的针对大数据业务用户终端的实时网络爬虫监测网络,得到完成训练的针对大数据业务用户终端的实时网络爬虫监测网络。
其中,第二训练模块24进一步用于:
基于当前网络转移条件以及所述完成训练的针对大数据云服务器的实时网络爬虫监测网络训练设定的针对大数据业务用户终端的实时网络爬虫监测网络,得到完成训练的针对大数据业务用户终端的实时网络爬虫监测网络;
其中,基于当前网络转移条件以及所述完成训练的针对大数据云服务器的实时网络爬虫监测网络训练设定的针对大数据业务用户终端的实时网络爬虫监测网络,得到完成训练的针对大数据业务用户终端的实时网络爬虫监测网络,包括:
当第x次训练之后,所述当前网络转移条件的模型网络匹配指数位于设定匹配指数范围时,将第x次训练之后得到的针对大数据业务用户终端的实时网络爬虫监测网络确定为完成训练的针对大数据业务用户终端的实时网络爬虫监测网络;其中,x为正整数。
爬虫防护模块25,用于将完成训练的针对大数据业务用户终端的实时网络爬虫监测网络下发至所述大数据业务用户终端,通过所述大数据业务用户终端以及所述完成训练的针对大数据业务用户终端的实时网络爬虫监测网络对待监测业务互动事项进行网络爬虫监测得到网络爬虫监测结果,并基于所述网络爬虫监测结果确定所述待监测业务互动事项的网络爬虫防护策略。
其中,爬虫防护模块25,进一步用于:
使所述大数据业务用户终端基于所述完成训练的针对大数据业务用户终端的实时网络爬虫监测网络提取待监测业务互动事项的目标互动状态对应的局部业务互动事项;其中,所述目标互动状态是所述待监测业务互动事项未被大数据云服务器记录的互动状态;
获得所述大数据业务用户终端上传的所述局部业务互动事项;
在预存互动事项集中检索与所述局部业务互动事项匹配的目标网络爬虫防护策略,将所述目标网络爬虫防护策略确定为所述待监测业务互动事项的网络爬虫防护策略。
其中,爬虫防护模块25,进一步用于:
对所述局部业务互动事项进行互动事项特征识别,得到多个互动事项特征内容;获得多个互动事项特征内容的特征内容行为画像数据,以及所述多个互动事项特征内容在当前网络爬虫监测状态之前的y个不间断的网络爬虫监测状态对应的y个历史互动事项特征内容集合,其中,每一网络爬虫监测状态的历史互动事项特征内容集合包括所述互动事项特征内容在多个实时业务状态类别下的历史互动事项特征内容;
分别获得各互动事项特征内容的y个历史互动事项特征内容集合中每一历史互动事项特征内容集合对应的事项安全等级偏差集合;其中,每一事项安全等级偏差集合包括所述互动事项特征内容在多个实时业务状态类别下的事项安全等级偏差,每一事项安全等级偏差表示一个实时业务状态类别下实时事项安全等级与参考事项安全等级之间的比对结果;
利用已训练的事项安全等级修复网络,根据各互动事项特征内容的特征内容行为画像数据与y个历史互动事项特征内容集合对应的y个事项安全等级偏差集合,获得各互动事项特征内容在当前网络爬虫监测状态的事项安全等级偏差;其中,所述事项安全等级修复网络是利用多个网络训练样本训练得到的,每一网络训练样本包括一个互动事项特征内容的特征内容行为画像数据以及y+1个不间断的网络爬虫监测状态的事项安全等级偏差集合;所述事项安全等级偏差表示互动事项特征内容的实时事项安全等级与参考事项安全等级之间的比对结果;
通过各互动事项特征内容在当前网络爬虫监测状态的事项安全等级偏差分别对各互动事项特征内容的实时事项安全等级进行修复;根据各互动事项特征内容修复后的实时事项安全等级,从所述多个互动事项特征内容中确定目标互动事项特征内容,根据所述目标互动事项特征内容对所述局部业务互动事项进行互动事项整理,得到用于进行网络爬虫匹配的待匹配互动事项;
在预存互动事项集中检索与所述待匹配互动事项的相关性系数最小的预存业务互动事项,并确定与所述预存业务互动事项的全局网络爬虫防护策略为所述局部业务互动事项匹配的目标网络爬虫防护策略;
其中,所述事项安全等级修复网络是通过如下训练过程训练得到的:从网络训练样本数据库中获得预设数量个的网络训练样本;通过获得的网络训练样本,按照设定的网络模型训练参数对所述事项安全等级修复网络进行多轮训练,每一轮训练过程包括如下步骤:
根据所述特征内容行为画像数据以及y+1个不间断的网络爬虫监测状态中前y个网络爬虫监测状态的事项安全等级偏差集合,通过所述事项安全等级修复网络,获得每一网络训练样本的互动事项特征内容在第y+1个网络爬虫监测状态的事项安全等级偏差;
根据所述网络训练样本的互动事项特征内容在第y+1个网络爬虫监测状态的事项安全等级偏差,与所述网络训练样本中第y+1个网络爬虫监测状态的事项安全等级偏差集合,获得所述事项安全等级修复网络的网络性能评价条件;
根据所述网络性能评价条件确定是否继续对所述事项安全等级修复网络进行训练;若确定继续对所述事项安全等级修复网络进行训练,则对所述事项安全等级修复网络的模型网络参数进行调整,并通过调整后的所述事项安全等级修复网络继续下一次训练过程;
其中,所述事项安全等级修复网络包括互动事项时序网络层和互动事项安全网络层,则针对每一互动事项特征内容,利用事项安全等级修复网络获得事项安全等级偏差,包括:
根据所述y个事项安全等级偏差集合,通过所述互动事项时序网络层获得互动事项特征内容的互动事项时序条件;
根据所述特征内容行为画像数据,通过所述互动事项安全网络层获得互动事项特征内容的互动事项安全条件;
基于所述互动事项时序网络层和所述互动事项安全网络层的网络关联数据,根据所述互动事项时序条件和所述互动事项安全条件得到在当前网络爬虫监测状态的事项安全等级偏差。
基于上述同样的发明构思,请结合参阅图4,提供了一种区块链大数据防爬虫处理云平台系统40,该云平台系统包括互相之间通信的大数据云服务器10和大数据业务用户终端30;
所述大数据云服务器10用于:获得初始业务操作数据集以及初始业务响应数据集;利用所述初始业务操作数据集训练设定业务操作识别网络,得到完成训练的业务操作识别网络;通过所述完成训练的业务操作识别网络对所述初始业务响应数据集进行业务操作识别,得到初始业务画像数据集;利用所述初始业务画像数据集训练设定的针对大数据云服务器的实时网络爬虫监测网络,得到完成训练的针对大数据云服务器的实时网络爬虫监测网络;基于设定网络训练条件以及所述完成训练的针对大数据云服务器的实时网络爬虫监测网络训练设定的针对大数据业务用户终端的实时网络爬虫监测网络,得到完成训练的针对大数据业务用户终端的实时网络爬虫监测网络;将完成训练的针对大数据业务用户终端的实时网络爬虫监测网络下发至所述大数据业务用户终端,通过所述大数据业务用户终端以及所述完成训练的针对大数据业务用户终端的实时网络爬虫监测网络对待监测业务互动事项进行网络爬虫监测得到网络爬虫监测结果,并基于所述网络爬虫监测结果确定所述待监测业务互动事项的网络爬虫防护策略。
在一种可替换的实施方式中,所述大数据云服务器利用所述初始业务画像数据集训练设定的针对大数据云服务器的实时网络爬虫监测网络,得到完成训练的针对大数据云服务器的实时网络爬虫监测网络,包括:
利用所述初始业务画像数据集对设定的针对大数据云服务器的实时网络爬虫监测网络进行循环迭代训练,在利用第y次训练之后的针对大数据云服务器的实时网络爬虫监测网络对测试业务数据集进行网络爬虫监测所得到的网络爬虫监测的识别准确率大于设定识别准确率的情况下,将第y次训练之后的针对大数据云服务器的实时网络爬虫监测网络确定为完成训练的针对大数据云服务器的实时网络爬虫监测网络;其中,y为正整数。
在一种可替换的实施方式中,所述大数据云服务器基于设定网络训练条件以及所述完成训练的针对大数据云服务器的实时网络爬虫监测网络训练设定的针对大数据业务用户终端的实时网络爬虫监测网络,得到完成训练的针对大数据业务用户终端的实时网络爬虫监测网络,包括:
基于当前网络转移条件以及所述完成训练的针对大数据云服务器的实时网络爬虫监测网络训练设定的针对大数据业务用户终端的实时网络爬虫监测网络,得到完成训练的针对大数据业务用户终端的实时网络爬虫监测网络;
其中,基于当前网络转移条件以及所述完成训练的针对大数据云服务器的实时网络爬虫监测网络训练设定的针对大数据业务用户终端的实时网络爬虫监测网络,得到完成训练的针对大数据业务用户终端的实时网络爬虫监测网络,包括:
当第x次训练之后,所述当前网络转移条件的模型网络匹配指数位于设定匹配指数范围时,将第x次训练之后得到的针对大数据业务用户终端的实时网络爬虫监测网络确定为完成训练的针对大数据业务用户终端的实时网络爬虫监测网络;其中,x为正整数。
在一种可替换的实施方式中,通过所述完成训练的业务操作识别网络对所述初始业务响应数据集进行业务操作识别,得到初始业务画像数据集,包括:
针对所述初始业务响应数据集中的每个初始业务响应数据,获得该个初始业务响应数据的业务行为统计结果以及各业务互动事项;
在基于所述业务行为统计结果确定出该个初始业务响应数据中包含有主动型业务操作类别的情况下,根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签确定该个初始业务响应数据的被动型业务操作类别对应的各业务互动事项与该个初始业务响应数据的主动型业务操作类别对应的各业务互动事项之间的互动事项匹配度,并将该个初始业务响应数据的被动型业务操作类别对应的与主动型业务操作类别对应的业务互动事项关联的业务互动事项分配到所述主动型业务操作类别;其中,在该个初始业务响应数据的当前被动型业务操作类别对应包含有多个业务互动事项的情况下,根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签确定该个初始业务响应数据的当前被动型业务操作类别对应的各业务互动事项之间的互动事项匹配度,并根据所述各业务互动事项之间的互动事项匹配度对当前被动型业务操作类别对应的各业务互动事项进行互动事项聚类;根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签为上述互动事项聚类获得的业务聚类互动事项设置互动事项分配指示,并根据所述互动事项分配指示将所述业务聚类互动事项分配到所述主动型业务操作类别;
基于该个初始业务响应数据对应的主动型业务操作类别中的目标业务互动事项确定初始业务画像数据,并将确定出的初始业务画像数据进行整合得到初始业务画像数据集;其中,所述初始业务画像数据为初始意图业务数据;
其中,所述根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签确定该个初始业务响应数据的被动型业务操作类别对应的各业务互动事项与该个初始业务响应数据的主动型业务操作类别对应的各业务互动事项之间的互动事项匹配度,并将该个初始业务响应数据的被动型业务操作类别对应的与主动型业务操作类别对应的业务互动事项关联的业务互动事项分配到所述主动型业务操作类别包括:
计算该个初始业务响应数据的被动型业务操作类别对应的各业务互动事项与该个初始业务响应数据的主动型业务操作类别对应的各业务互动事项的互动事项画像数据之间的皮尔森相关性系数;
分别判断各皮尔森相关性系数是否达到第一设定相关性系数阈值,并将皮尔森相关性系数达到第一设定相关性系数阈值的被动型业务操作类别对应的业务互动事项分配到所述主动型业务操作类别;其中,所述业务互动事项的互动事项画像数据为:根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签统计出的业务互动事项和互动事项分配指示的统计结果;
其中,所述根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签确定该个初始业务响应数据的当前被动型业务操作类别对应的各业务互动事项之间的互动事项匹配度,并根据所述各业务互动事项之间的互动事项匹配度对当前被动型业务操作类别对应的各业务互动事项进行互动事项聚类包括:
计算该个初始业务响应数据的当前被动型业务操作类别对应的各业务互动事项的互动事项画像数据之间的皮尔森相关性系数;针对该个初始业务响应数据的当前被动型业务操作类别对应的一个业务互动事项而言,将该业务互动事项和与其互动事项画像数据之间的皮尔森相关性系数达到第二设定相关性系数阈值的所有业务互动事项进行互动事项聚类得到一组业务聚类互动事项。
在本发明实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的云平台系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,大数据云服务器10,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种大数据防爬虫处理方法,其特征在于,应用于与大数据业务用户终端通信的大数据云服务器,所述方法包括:
获得初始业务操作数据集以及初始业务响应数据集;
利用所述初始业务操作数据集训练设定业务操作识别网络,得到完成训练的业务操作识别网络;通过所述完成训练的业务操作识别网络对所述初始业务响应数据集进行业务操作识别,得到初始业务画像数据集;
利用所述初始业务画像数据集训练设定的针对大数据云服务器的实时网络爬虫监测网络,得到完成训练的针对大数据云服务器的实时网络爬虫监测网络;
基于设定网络训练条件以及所述完成训练的针对大数据云服务器的实时网络爬虫监测网络训练设定的针对大数据业务用户终端的实时网络爬虫监测网络,得到完成训练的针对大数据业务用户终端的实时网络爬虫监测网络;
将完成训练的针对大数据业务用户终端的实时网络爬虫监测网络下发至所述大数据业务用户终端,通过所述大数据业务用户终端以及所述完成训练的针对大数据业务用户终端的实时网络爬虫监测网络对待监测业务互动事项进行网络爬虫监测得到网络爬虫监测结果,并基于所述网络爬虫监测结果确定所述待监测业务互动事项的网络爬虫防护策略;
其中,通过所述大数据业务用户终端以及所述完成训练的针对大数据业务用户终端的实时网络爬虫监测网络对待监测业务互动事项进行网络爬虫监测得到网络爬虫监测结果,并基于所述网络爬虫监测结果确定所述待监测业务互动事项的网络爬虫防护策略,包括:使所述大数据业务用户终端基于所述完成训练的针对大数据业务用户终端的实时网络爬虫监测网络提取待监测业务互动事项的目标互动状态对应的局部业务互动事项;其中,所述目标互动状态是所述待监测业务互动事项未被大数据云服务器记录的互动状态;获得所述大数据业务用户终端上传的所述局部业务互动事项;在预存互动事项集中检索与所述局部业务互动事项匹配的目标网络爬虫防护策略,将所述目标网络爬虫防护策略确定为所述待监测业务互动事项的网络爬虫防护策略。
2.根据权利要求1所述的方法,其特征在于,在预存互动事项集中检索与所述局部业务互动事项匹配的目标网络爬虫防护策略,包括:
对所述局部业务互动事项进行互动事项特征识别,得到多个互动事项特征内容;获得多个互动事项特征内容的特征内容行为画像数据,以及所述多个互动事项特征内容在当前网络爬虫监测状态之前的y个不间断的网络爬虫监测状态对应的y个历史互动事项特征内容集合,其中,每一网络爬虫监测状态的历史互动事项特征内容集合包括所述互动事项特征内容在多个实时业务状态类别下的历史互动事项特征内容;
分别获得各互动事项特征内容的y个历史互动事项特征内容集合中每一历史互动事项特征内容集合对应的事项安全等级偏差集合;其中,每一事项安全等级偏差集合包括所述互动事项特征内容在多个实时业务状态类别下的事项安全等级偏差,每一事项安全等级偏差表示一个实时业务状态类别下实时事项安全等级与参考事项安全等级之间的比对结果;
利用已训练的事项安全等级修复网络,根据各互动事项特征内容的特征内容行为画像数据与y个历史互动事项特征内容集合对应的y个事项安全等级偏差集合,获得各互动事项特征内容在当前网络爬虫监测状态的事项安全等级偏差;其中,所述事项安全等级修复网络是利用多个网络训练样本训练得到的,每一网络训练样本包括一个互动事项特征内容的特征内容行为画像数据以及y+1个不间断的网络爬虫监测状态的事项安全等级偏差集合;所述事项安全等级偏差表示互动事项特征内容的实时事项安全等级与参考事项安全等级之间的比对结果;
通过各互动事项特征内容在当前网络爬虫监测状态的事项安全等级偏差分别对各互动事项特征内容的实时事项安全等级进行修复;根据各互动事项特征内容修复后的实时事项安全等级,从所述多个互动事项特征内容中确定目标互动事项特征内容,根据所述目标互动事项特征内容对所述局部业务互动事项进行互动事项整理,得到用于进行网络爬虫匹配的待匹配互动事项;
在预存互动事项集中检索与所述待匹配互动事项的相关性系数最小的预存业务互动事项,并确定与所述预存业务互动事项的全局网络爬虫防护策略为所述局部业务互动事项匹配的目标网络爬虫防护策略;
其中,所述事项安全等级修复网络是通过如下训练过程训练得到的:从网络训练样本数据库中获得预设数量个的网络训练样本;通过获得的网络训练样本,按照设定的网络模型训练参数对所述事项安全等级修复网络进行多轮训练,每一轮训练过程包括如下步骤:
根据所述特征内容行为画像数据以及y+1个不间断的网络爬虫监测状态中前y个网络爬虫监测状态的事项安全等级偏差集合,通过所述事项安全等级修复网络,获得每一网络训练样本的互动事项特征内容在第y+1个网络爬虫监测状态的事项安全等级偏差;
根据所述网络训练样本的互动事项特征内容在第y+1个网络爬虫监测状态的事项安全等级偏差,与所述网络训练样本中第y+1个网络爬虫监测状态的事项安全等级偏差集合,获得所述事项安全等级修复网络的网络性能评价条件;
根据所述网络性能评价条件确定是否继续对所述事项安全等级修复网络进行训练;若确定继续对所述事项安全等级修复网络进行训练,则对所述事项安全等级修复网络的模型网络参数进行调整,并通过调整后的所述事项安全等级修复网络继续下一次训练过程;
其中,所述事项安全等级修复网络包括互动事项时序网络层和互动事项安全网络层,则针对每一互动事项特征内容,利用事项安全等级修复网络获得事项安全等级偏差,包括:
根据所述y个事项安全等级偏差集合,通过所述互动事项时序网络层获得互动事项特征内容的互动事项时序条件;
根据所述特征内容行为画像数据,通过所述互动事项安全网络层获得互动事项特征内容的互动事项安全条件;
基于所述互动事项时序网络层和所述互动事项安全网络层的网络关联数据,根据所述互动事项时序条件和所述互动事项安全条件得到在当前网络爬虫监测状态的事项安全等级偏差。
3.根据权利要求1所述的方法,其特征在于,基于设定网络训练条件以及所述完成训练的针对大数据云服务器的实时网络爬虫监测网络训练设定的针对大数据业务用户终端的实时网络爬虫监测网络,得到完成训练的针对大数据业务用户终端的实时网络爬虫监测网络,包括:
基于当前网络转移条件以及所述完成训练的针对大数据云服务器的实时网络爬虫监测网络训练设定的针对大数据业务用户终端的实时网络爬虫监测网络,得到完成训练的针对大数据业务用户终端的实时网络爬虫监测网络;
其中,基于当前网络转移条件以及所述完成训练的针对大数据云服务器的实时网络爬虫监测网络训练设定的针对大数据业务用户终端的实时网络爬虫监测网络,得到完成训练的针对大数据业务用户终端的实时网络爬虫监测网络,包括:
当第x次训练之后,所述当前网络转移条件的模型网络匹配指数位于设定匹配指数范围时,将第x次训练之后得到的针对大数据业务用户终端的实时网络爬虫监测网络确定为完成训练的针对大数据业务用户终端的实时网络爬虫监测网络;其中,x为正整数。
4.根据权利要求1所述的方法,其特征在于,通过所述完成训练的业务操作识别网络对所述初始业务响应数据集进行业务操作识别,得到初始业务画像数据集,包括:
针对所述初始业务响应数据集中的每个初始业务响应数据,获得该个初始业务响应数据的业务行为统计结果以及各业务互动事项;
在基于所述业务行为统计结果确定出该个初始业务响应数据中包含有主动型业务操作类别的情况下,根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签确定该个初始业务响应数据的被动型业务操作类别对应的各业务互动事项与该个初始业务响应数据的主动型业务操作类别对应的各业务互动事项之间的互动事项匹配度,并将该个初始业务响应数据的被动型业务操作类别对应的与主动型业务操作类别对应的业务互动事项关联的业务互动事项分配到所述主动型业务操作类别;其中,在该个初始业务响应数据的当前被动型业务操作类别对应包含有多个业务互动事项的情况下,根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签确定该个初始业务响应数据的当前被动型业务操作类别对应的各业务互动事项之间的互动事项匹配度,并根据所述各业务互动事项之间的互动事项匹配度对当前被动型业务操作类别对应的各业务互动事项进行互动事项聚类;根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签为上述互动事项聚类获得的业务聚类互动事项设置互动事项分配指示,并根据所述互动事项分配指示将所述业务聚类互动事项分配到所述主动型业务操作类别;
基于该个初始业务响应数据对应的主动型业务操作类别中的目标业务互动事项确定初始业务画像数据,并将确定出的初始业务画像数据进行整合得到初始业务画像数据集;其中,所述初始业务画像数据为初始意图业务数据;
其中,所述根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签确定该个初始业务响应数据的被动型业务操作类别对应的各业务互动事项与该个初始业务响应数据的主动型业务操作类别对应的各业务互动事项之间的互动事项匹配度,并将该个初始业务响应数据的被动型业务操作类别对应的与主动型业务操作类别对应的业务互动事项关联的业务互动事项分配到所述主动型业务操作类别包括:
计算该个初始业务响应数据的被动型业务操作类别对应的各业务互动事项与该个初始业务响应数据的主动型业务操作类别对应的各业务互动事项的互动事项画像数据之间的皮尔森相关性系数;
分别判断各皮尔森相关性系数是否达到第一设定相关性系数阈值,并将皮尔森相关性系数达到第一设定相关性系数阈值的被动型业务操作类别对应的业务互动事项分配到所述主动型业务操作类别;其中,所述业务互动事项的互动事项画像数据为:根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签统计出的业务互动事项和互动事项分配指示的统计结果;
其中,所述根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签确定该个初始业务响应数据的当前被动型业务操作类别对应的各业务互动事项之间的互动事项匹配度,并根据所述各业务互动事项之间的互动事项匹配度对当前被动型业务操作类别对应的各业务互动事项进行互动事项聚类包括:
计算该个初始业务响应数据的当前被动型业务操作类别对应的各业务互动事项的互动事项画像数据之间的皮尔森相关性系数;针对该个初始业务响应数据的当前被动型业务操作类别对应的一个业务互动事项而言,将该业务互动事项和与其互动事项画像数据之间的皮尔森相关性系数达到第二设定相关性系数阈值的所有业务互动事项进行互动事项聚类得到一组业务聚类互动事项。
5.根据权利要求1所述的方法,其特征在于,利用所述初始业务画像数据集训练设定的针对大数据云服务器的实时网络爬虫监测网络,得到完成训练的针对大数据云服务器的实时网络爬虫监测网络,包括:
利用所述初始业务画像数据集对设定的针对大数据云服务器的实时网络爬虫监测网络进行循环迭代训练,在利用第y次训练之后的针对大数据云服务器的实时网络爬虫监测网络对测试业务数据集进行网络爬虫监测所得到的网络爬虫监测的识别准确率大于设定识别准确率的情况下,将第y次训练之后的针对大数据云服务器的实时网络爬虫监测网络确定为完成训练的针对大数据云服务器的实时网络爬虫监测网络;其中,y为正整数。
6.一种区块链大数据防爬虫处理云平台系统,其特征在于,包括互相之间通信的大数据云服务器和大数据业务用户终端;
所述大数据云服务器用于:
获得初始业务操作数据集以及初始业务响应数据集;
利用所述初始业务操作数据集训练设定业务操作识别网络,得到完成训练的业务操作识别网络;通过所述完成训练的业务操作识别网络对所述初始业务响应数据集进行业务操作识别,得到初始业务画像数据集;
利用所述初始业务画像数据集训练设定的针对大数据云服务器的实时网络爬虫监测网络,得到完成训练的针对大数据云服务器的实时网络爬虫监测网络;
基于设定网络训练条件以及所述完成训练的针对大数据云服务器的实时网络爬虫监测网络训练设定的针对大数据业务用户终端的实时网络爬虫监测网络,得到完成训练的针对大数据业务用户终端的实时网络爬虫监测网络;
将完成训练的针对大数据业务用户终端的实时网络爬虫监测网络下发至所述大数据业务用户终端,通过所述大数据业务用户终端以及所述完成训练的针对大数据业务用户终端的实时网络爬虫监测网络对待监测业务互动事项进行网络爬虫监测得到网络爬虫监测结果,并基于所述网络爬虫监测结果确定所述待监测业务互动事项的网络爬虫防护策略;
其中,通过所述大数据业务用户终端以及所述完成训练的针对大数据业务用户终端的实时网络爬虫监测网络对待监测业务互动事项进行网络爬虫监测得到网络爬虫监测结果,并基于所述网络爬虫监测结果确定所述待监测业务互动事项的网络爬虫防护策略,包括:使所述大数据业务用户终端基于所述完成训练的针对大数据业务用户终端的实时网络爬虫监测网络提取待监测业务互动事项的目标互动状态对应的局部业务互动事项;其中,所述目标互动状态是所述待监测业务互动事项未被大数据云服务器记录的互动状态;获得所述大数据业务用户终端上传的所述局部业务互动事项;在预存互动事项集中检索与所述局部业务互动事项匹配的目标网络爬虫防护策略,将所述目标网络爬虫防护策略确定为所述待监测业务互动事项的网络爬虫防护策略。
7.根据权利要求6所述的云平台系统,其特征在于,所述大数据云服务器利用所述初始业务画像数据集训练设定的针对大数据云服务器的实时网络爬虫监测网络,得到完成训练的针对大数据云服务器的实时网络爬虫监测网络,包括:
利用所述初始业务画像数据集对设定的针对大数据云服务器的实时网络爬虫监测网络进行循环迭代训练,在利用第y次训练之后的针对大数据云服务器的实时网络爬虫监测网络对测试业务数据集进行网络爬虫监测所得到的网络爬虫监测的识别准确率大于设定识别准确率的情况下,将第y次训练之后的针对大数据云服务器的实时网络爬虫监测网络确定为完成训练的针对大数据云服务器的实时网络爬虫监测网络;其中,y为正整数。
8.根据权利要求6所述的云平台系统,其特征在于,所述大数据云服务器基于设定网络训练条件以及所述完成训练的针对大数据云服务器的实时网络爬虫监测网络训练设定的针对大数据业务用户终端的实时网络爬虫监测网络,得到完成训练的针对大数据业务用户终端的实时网络爬虫监测网络,包括:
基于当前网络转移条件以及所述完成训练的针对大数据云服务器的实时网络爬虫监测网络训练设定的针对大数据业务用户终端的实时网络爬虫监测网络,得到完成训练的针对大数据业务用户终端的实时网络爬虫监测网络;
其中,基于当前网络转移条件以及所述完成训练的针对大数据云服务器的实时网络爬虫监测网络训练设定的针对大数据业务用户终端的实时网络爬虫监测网络,得到完成训练的针对大数据业务用户终端的实时网络爬虫监测网络,包括:
当第x次训练之后,所述当前网络转移条件的模型网络匹配指数位于设定匹配指数范围时,将第x次训练之后得到的针对大数据业务用户终端的实时网络爬虫监测网络确定为完成训练的针对大数据业务用户终端的实时网络爬虫监测网络;其中,x为正整数。
9.根据权利要求6所述的云平台系统,其特征在于,通过所述完成训练的业务操作识别网络对所述初始业务响应数据集进行业务操作识别,得到初始业务画像数据集,包括:
针对所述初始业务响应数据集中的每个初始业务响应数据,获得该个初始业务响应数据的业务行为统计结果以及各业务互动事项;
在基于所述业务行为统计结果确定出该个初始业务响应数据中包含有主动型业务操作类别的情况下,根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签确定该个初始业务响应数据的被动型业务操作类别对应的各业务互动事项与该个初始业务响应数据的主动型业务操作类别对应的各业务互动事项之间的互动事项匹配度,并将该个初始业务响应数据的被动型业务操作类别对应的与主动型业务操作类别对应的业务互动事项关联的业务互动事项分配到所述主动型业务操作类别;其中,在该个初始业务响应数据的当前被动型业务操作类别对应包含有多个业务互动事项的情况下,根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签确定该个初始业务响应数据的当前被动型业务操作类别对应的各业务互动事项之间的互动事项匹配度,并根据所述各业务互动事项之间的互动事项匹配度对当前被动型业务操作类别对应的各业务互动事项进行互动事项聚类;根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签为上述互动事项聚类获得的业务聚类互动事项设置互动事项分配指示,并根据所述互动事项分配指示将所述业务聚类互动事项分配到所述主动型业务操作类别;
基于该个初始业务响应数据对应的主动型业务操作类别中的目标业务互动事项确定初始业务画像数据,并将确定出的初始业务画像数据进行整合得到初始业务画像数据集;其中,所述初始业务画像数据为初始意图业务数据;
其中,所述根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签确定该个初始业务响应数据的被动型业务操作类别对应的各业务互动事项与该个初始业务响应数据的主动型业务操作类别对应的各业务互动事项之间的互动事项匹配度,并将该个初始业务响应数据的被动型业务操作类别对应的与主动型业务操作类别对应的业务互动事项关联的业务互动事项分配到所述主动型业务操作类别包括:
计算该个初始业务响应数据的被动型业务操作类别对应的各业务互动事项与该个初始业务响应数据的主动型业务操作类别对应的各业务互动事项的互动事项画像数据之间的皮尔森相关性系数;
分别判断各皮尔森相关性系数是否达到第一设定相关性系数阈值,并将皮尔森相关性系数达到第一设定相关性系数阈值的被动型业务操作类别对应的业务互动事项分配到所述主动型业务操作类别;其中,所述业务互动事项的互动事项画像数据为:根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签统计出的业务互动事项和互动事项分配指示的统计结果;
其中,所述根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签确定该个初始业务响应数据的当前被动型业务操作类别对应的各业务互动事项之间的互动事项匹配度,并根据所述各业务互动事项之间的互动事项匹配度对当前被动型业务操作类别对应的各业务互动事项进行互动事项聚类包括:
计算该个初始业务响应数据的当前被动型业务操作类别对应的各业务互动事项的互动事项画像数据之间的皮尔森相关性系数;针对该个初始业务响应数据的当前被动型业务操作类别对应的一个业务互动事项而言,将该业务互动事项和与其互动事项画像数据之间的皮尔森相关性系数达到第二设定相关性系数阈值的所有业务互动事项进行互动事项聚类得到一组业务聚类互动事项。
CN202110306214.1A 2021-03-23 2021-03-23 一种大数据防爬虫处理方法及云平台系统 Active CN112866295B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110306214.1A CN112866295B (zh) 2021-03-23 2021-03-23 一种大数据防爬虫处理方法及云平台系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110306214.1A CN112866295B (zh) 2021-03-23 2021-03-23 一种大数据防爬虫处理方法及云平台系统

Publications (2)

Publication Number Publication Date
CN112866295A CN112866295A (zh) 2021-05-28
CN112866295B true CN112866295B (zh) 2021-10-01

Family

ID=75992129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110306214.1A Active CN112866295B (zh) 2021-03-23 2021-03-23 一种大数据防爬虫处理方法及云平台系统

Country Status (1)

Country Link
CN (1) CN112866295B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115118462B (zh) * 2022-06-09 2023-07-18 华中师范大学 一种基于卷积增强链的数据隐私保护方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109818949A (zh) * 2019-01-17 2019-05-28 济南浪潮高新科技投资发展有限公司 一种基于神经网络的反爬虫方法
GB2592884A (en) * 2019-12-04 2021-09-15 Ernst & Young Gmbh System and method for enabling a search platform to users
CN112015963A (zh) * 2020-08-21 2020-12-01 北京金和网络股份有限公司 基于大数据的网络爬虫系统

Also Published As

Publication number Publication date
CN112866295A (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN109816397B (zh) 一种欺诈判别方法、装置及存储介质
CN109525595B (zh) 一种基于时间流特征的黑产账号识别方法及设备
CN108366045B (zh) 一种风控评分卡的设置方法和装置
CN111401416B (zh) 异常网站的识别方法、装置和异常对抗行为的识别方法
CN110297968B (zh) 产品推送方法、装置、计算机设备及存储介质
CN111460312A (zh) 空壳企业识别方法、装置及计算机设备
CN110163242B (zh) 风险识别方法、装置及服务器
CN110781379A (zh) 信息推荐方法、装置、计算机设备和存储介质
CN116305168B (zh) 一种多维度信息安全风险评估方法、系统及存储介质
CN108829715A (zh) 用于检测异常数据的方法、设备和计算机可读存储介质
CN112990386B (zh) 用户价值聚类方法、装置、计算机设备和存储介质
CN111552680A (zh) 业务欺诈识别数据库的构建方法、装置和计算机设备
CN113313479A (zh) 基于人工智能的支付业务大数据处理方法及系统
CN113468520A (zh) 应用于区块链业务的数据入侵检测方法及大数据服务器
CN113420018A (zh) 用户行为数据分析方法、装置、设备及存储介质
CN112437034B (zh) 虚假终端检测方法和装置、存储介质及电子装置
CN112990989B (zh) 价值预测模型输入数据生成方法、装置、设备和介质
CN112866295B (zh) 一种大数据防爬虫处理方法及云平台系统
CN115577172A (zh) 物品推荐方法、装置、设备及介质
CN112035775B (zh) 基于随机森林模型的用户识别方法、装置和计算机设备
CN106294406A (zh) 一种用于处理应用访问数据的方法与设备
CN112231272B (zh) 基于远程在线办公的信息处理方法及计算机设备
CN115907898A (zh) 对再保客户进行金融产品推荐的方法及其相关设备
CN112464218B (zh) 模型训练方法、装置、电子设备及存储介质
CN114610980A (zh) 基于网络舆情的黑产识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210910

Address after: 200000 building 17, Lane 999, huanke Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai

Applicant after: Shanghai new sunfaith intellectual property services Limited by Share Ltd.

Address before: A11, entrepreneurial base of Harbin Institute of technology, 73 Huanghe Road, Nangang District, Harbin City, Heilongjiang Province

Applicant before: Huang Chao

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant