CN114095207A - 一种基于分布式调度IPv6网站检测方法 - Google Patents

一种基于分布式调度IPv6网站检测方法 Download PDF

Info

Publication number
CN114095207A
CN114095207A CN202111244665.3A CN202111244665A CN114095207A CN 114095207 A CN114095207 A CN 114095207A CN 202111244665 A CN202111244665 A CN 202111244665A CN 114095207 A CN114095207 A CN 114095207A
Authority
CN
China
Prior art keywords
task
control
url
management
scheduling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111244665.3A
Other languages
English (en)
Inventor
缪俊
李科
王少帅
陈琦
李号
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Lianxing Technology Co ltd
Original Assignee
Beijing Lianxing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Lianxing Technology Co ltd filed Critical Beijing Lianxing Technology Co ltd
Priority to CN202111244665.3A priority Critical patent/CN114095207A/zh
Publication of CN114095207A publication Critical patent/CN114095207A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/145Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/028Capturing of monitoring data by filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • Virology (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开一种基于分布式调度IPv6网站检测方法,步骤为:由中台管理程序执行url合法性判断,任务去重,限制最大任务队列;通过kafka向调度下发未运行任务管理,对各任务List及存储结构控制;通过Redis控制获取未完成任务、检查及任务恢复和最后记录的调度优先级控制;对Redis控制所接收的任务进行拆分,对任务进行轮询、定时更新、请求、入库进行控制管理;根据任务下发条件,按任务优先级、创建任务的时间先后及url名称升序选择任务,并根据最近的调度优先级,设定当前任务调度优先级执行;接收任务,并对url连接进行扫描。本发明方法提升了网站检测速度、检测准确性,可大幅缩短监测时间,提高监测效率。

Description

一种基于分布式调度IPv6网站检测方法
技术领域
本发明涉及互联网领域中的分布式调度技术,特别是一种基于分布式调度IPv6网站检测方法。
背景技术
从2012年开始,APNIC的IPv4地址池基本枯竭,亚太地区的电信运营商无法再获得批量IPv4地址。由于移动互联网、云计算、大数据、物联网、人工智能等新兴信息技术持续高速发展,对IP地址资源的需求异常旺盛,电信运营商持有的IPv4地址快速消耗,被迫大量采取NAT转换技术来应对IPv4地址缺乏的困境。IPv4地址资源匮乏已经成为数字经济发展的制约因素。面对IPv4地址短缺的现状,大规模部署IPv6推进互联网向IPv6升级演进是解决IP地址问题的唯一根本性解决方案。
IPv6协议是下一代互联网协议,在地址空间、安全性等方面有巨大提升。物联网、云计算、大数据、人工智能等新技术驱动网络空间向万物互联演进,利用IPv6技术解决地址短缺、培育创新空间是大势所趋,世界各国已充分认识规模部署IPv6的迫切,全球通信行业以及开展新兴技术应用的企业都在向IPv6迁移,并且呈现加速趋势。
2017年11月,国家发布《推进互联网协议第六版(IPv6)规模部署行动计划》《关于深化“互联网+先进制造业”发展工业互联网的指导意见》,全面部署IPv6(互联网协议第6版),通过对部署IPv6网站按照国家政策要求进行检测,已检测符合国家IPv6网络标准。
但现有线性检测技术中检测速度慢,存在受反爬技术影响导致准不准确等问题。
发明内容
针对现有线性检测技术中检测速度慢,存在受反爬技术影响导致准不准确等不足,本发明提供了一种基于分布式调度IPv6网站检测方法,采用分布式调度IPv6网站检测技术,按照指标对网站进行深度检测,检测可对IPv6网站首页、二级连接、三级连接通过分布式IPv6网站检测技术进行检测。
本发明采用的技术方案是:
本发明提供一种基于分布式调度IPv6网站检测方法,包括以下步骤:
1)中台管理:接收网站检测任务,由中台管理程序执行url合法性判断,任务去重,限制最大任务队列;
2)Redis控制:通过kafka向调度下发未运行任务管理,对一级任务、二级任务、任务心跳、运行任务List及存储结构控制;
3)Mongo控制:通过Redis控制获取未完成任务、检查及任务恢复和最后记录的调度优先级控制;
4)调度:对Redis控制所接收的任务进行拆分,将一个主url拆分多个子url,并根据各监测点性能、当前任务状态进行任务下发,并对任务进行轮询、定时更新、请求、入库进行控制管理;
5)网关:根据任务下发条件,按任务优先级、创建任务的时间先后及url名称升序选择任务,并根据最近的调度优先级,设定当前任务调度优先级执行;
6)爬虫:接收任务,并对url连接进行扫描。
步骤4)中将一个主url拆分多个子url,并将拆分后的子url生成单个可执行的任务,与步骤2)、步骤3)的任务管理控制机制协调,完成任务控制。
步骤4)中分析主url,将主url页面内各链接基于主url为基础,生成每一个子链接,从而形成多个可独立进行访问的url子链接。
本发明具有以下技术效果及优点:
1.本发明提供一种基于分布式调度IPv6网站检测方法,通过分布式IPv6网站检测技术,与传统网站检测技术相比,提升网站检测速度、检测准确性,解决传统线性检测技术中检测速度慢、受反爬技术影响导致准不准确等问题。
2.本发明方法通过将网站二级、三级连接拆分成独立的url,通过分发下发到全部监测点并统一时间执行检测,以及对多监测点的同时执行,可大幅缩短监测时间,提高监测效率。
3.分布式调度是将网站的二级、三级连接合理拆分,在检测中由多个不同监测点执行检测任务,并通过分布式调度统一管控,因此可有效规避单一检测点所产生的检测问题,有效提升检测准确性。
附图说明
图1为本发明基于分布式调度IPv6网站检测方法流程图;
图2为本明方法与现有技术测试结果对比图。
具体实施方式
如图1所示,本发明提供基于分布式调度IPv6网站检测方法,包括以下步骤:
1)中台管理:接收网站检测任务,由中台管理程序(为现有程序)执行url合法性判断,任务去重,限制最大任务队列;
2)Redis控制:通过kafka向调度下发未运行任务管理,对一级任务、二级任务、任务心跳、运行任务List及存储结构控制;
3)Mongo控制:通过Redis控制获取未完成任务、检查及任务恢复和最后记录的调度优先级控制;
4)调度:对Redis控制所接收的任务进行拆分,将一个主url拆分多个子url,并根据各监测点性能、当前任务状态进行任务下发,并对任务进行轮询、定时更新、请求、入库进行控制管理;
5)网关:根据任务下发条件,按任务优先级、创建任务的时间先后及url名称升序选择任务,并根据最近的调度优先级,设定当前任务调度优先级执行;
6)爬虫:接收任务,并对url连接进行扫描。
在本实施例中,步骤1)中台接收网站检测任务:接收网站检测任务,由中台网站监测程序执行url合法性判断,维护用户下发的url任务列表,并按照用户下发计划在不同地址ISP1、ISP2、ISP3、ISP4、ISP5等ISP下地检测结果输出;
步骤2)中Redis控制通过维护自身的db1、db2、db3进行记录维护,通过kafka协调调度任务管理,其中,db1对已下发未运行任务List,taskInfo增加控制;db2对正在运行的List结构进行记录维护;db3对已完成任务List进行记录维护;
步骤3)中Mongo控制通过Redis控制获取未完成任务、检查及任务恢复和最后记录的调度优先级控制;
步骤4)中调度对Redis控制所接收的任务进行拆分,将一个主url拆分多个子url,并根据各监测点性能、当前任务状态进行任务下发,并对任务进行轮询、定时更新、请求、入库等进行控制管理,对分布式进行加锁控制,对成功的任务、所有ISP均失败的任务进行状态标示与加锁控制。
步骤5)中网关根据任务下发条件,按任务优先级、创建任务的时间先后及url名称升序选择任务,并根据最近的调度优先级,设定当前任务调度优先级执行;
步骤6)中爬虫接收到步骤5)网关发来的任务,并对url连接进行扫描,完成检测。
步骤4)中将一个主url拆分多个子url,并将拆分后的子url生成单个可执行的任务,与步骤2)、步骤3)的任务管理控制机制协调,完成任务控制,再通过步骤5)将拆分后的子链接url下发至步骤6)执行检测。通过分析主url,将主url页面内各链接基于主url为基础,生成每一个子链接,从而形成多个可独立进行访问的url子链接。
本发明方法采用多监测点分布式执行,提升检测效率;解决单个检测点异常时所导致的检测准确性问题;解决特定网站对单个检测点的反爬检测问题。
应用实例
1.测试环境条件:
测试网络环境:互联网
测试服务器配置:
Figure BDA0003320522030000031
Figure BDA0003320522030000041
2.测试结果与现有技术对比
如图2所示,通过现有技术与本专利技术实现的程序扫描时间进行比较,使用本专利技术扫描在扫描时间、扫描效率上均优于现有技术。
以上所述,仅是本技术的较佳实施例而已,并非对本技术作任何形式上的限制,虽然本技术已以较佳实施例揭露如上,然而并非用以限定本技术,任何熟悉本专业的技术人员,在不脱离本技术方案范围内,当可利用上述揭示的技术内容,作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本技术方案内容,依据本技术的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本技术方案的范围内。

Claims (3)

1.一种基于分布式调度IPv6网站检测方法,其特征在于包括以下步骤:
1)中台管理:接收网站检测任务,由中台管理程序执行url合法性判断,任务去重,限制最大任务队列;
2)Redis控制:通过kafka向调度下发未运行任务管理,对一级任务、二级任务、任务心跳、运行任务List及存储结构控制;
3)Mongo控制:通过Redis控制获取未完成任务、检查及任务恢复和最后记录的调度优先级控制;
4)调度:对Redis控制所接收的任务进行拆分,将一个主url拆分多个子url,并根据各监测点性能、当前任务状态进行任务下发,并对任务进行轮询、定时更新、请求、入库进行控制管理;
5)网关:根据任务下发条件,按任务优先级、创建任务的时间先后及url名称升序选择任务,并根据最近的调度优先级,设定当前任务调度优先级执行;
6)爬虫:接收任务,并对url连接进行扫描。
2.按权利要求1所述的一种基于分布式调度IPv6网站检测方法,其特征在于:步骤4)中将一个主url拆分多个子url,并将拆分后的子url生成单个可执行的任务,与步骤2)、步骤3)的任务管理控制机制协调,完成任务控制。
3.按权利要求2所述的一种基于分布式调度IPv6网站检测方法,其特征在于:步骤4)中分析主url,将主url页面内各链接基于主url为基础,生成每一个子链接,从而形成多个可独立进行访问的url子链接。
CN202111244665.3A 2021-10-26 2021-10-26 一种基于分布式调度IPv6网站检测方法 Pending CN114095207A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111244665.3A CN114095207A (zh) 2021-10-26 2021-10-26 一种基于分布式调度IPv6网站检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111244665.3A CN114095207A (zh) 2021-10-26 2021-10-26 一种基于分布式调度IPv6网站检测方法

Publications (1)

Publication Number Publication Date
CN114095207A true CN114095207A (zh) 2022-02-25

Family

ID=80297580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111244665.3A Pending CN114095207A (zh) 2021-10-26 2021-10-26 一种基于分布式调度IPv6网站检测方法

Country Status (1)

Country Link
CN (1) CN114095207A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112422330A (zh) * 2020-11-06 2021-02-26 北京连星科技有限公司 一种企业网络IPv6代际升迁全生命周期管理的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7836502B1 (en) * 2007-07-03 2010-11-16 Trend Micro Inc. Scheduled gateway scanning arrangement and methods thereof
CN103310012A (zh) * 2013-07-02 2013-09-18 北京航空航天大学 一种分布式网络爬虫系统
CN106411578A (zh) * 2016-09-12 2017-02-15 国网山东省电力公司电力科学研究院 一种适应于电力行业的网站监控系统及方法
CN110020046A (zh) * 2017-10-20 2019-07-16 中移(苏州)软件技术有限公司 一种数据抓取方法及装置
CN110147475A (zh) * 2019-03-29 2019-08-20 汇通达网络股份有限公司 一种分布式部署的网络数据采集系统
CN112818201A (zh) * 2021-02-07 2021-05-18 四川封面传媒有限责任公司 一种网络数据采集方法、装置、计算机设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7836502B1 (en) * 2007-07-03 2010-11-16 Trend Micro Inc. Scheduled gateway scanning arrangement and methods thereof
CN103310012A (zh) * 2013-07-02 2013-09-18 北京航空航天大学 一种分布式网络爬虫系统
CN106411578A (zh) * 2016-09-12 2017-02-15 国网山东省电力公司电力科学研究院 一种适应于电力行业的网站监控系统及方法
CN110020046A (zh) * 2017-10-20 2019-07-16 中移(苏州)软件技术有限公司 一种数据抓取方法及装置
CN110147475A (zh) * 2019-03-29 2019-08-20 汇通达网络股份有限公司 一种分布式部署的网络数据采集系统
CN112818201A (zh) * 2021-02-07 2021-05-18 四川封面传媒有限责任公司 一种网络数据采集方法、装置、计算机设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112422330A (zh) * 2020-11-06 2021-02-26 北京连星科技有限公司 一种企业网络IPv6代际升迁全生命周期管理的方法
CN112422330B (zh) * 2020-11-06 2023-05-30 北京连星科技有限公司 一种企业网络IPv6代际升迁全生命周期管理的方法

Similar Documents

Publication Publication Date Title
US10949253B2 (en) Data forwarder for distributed data acquisition, indexing and search system
US7668957B2 (en) Partitioning social networks
CN104182288A (zh) 一种服务器集群系统功耗自动化测试的方法
US8688681B1 (en) Identifying internet protocol addresses for internet hosting entities
CN104063425A (zh) 通过数据库中间件查询数据的方法和数据库中间件
US20120143844A1 (en) Multi-level coverage for crawling selection
CN114095207A (zh) 一种基于分布式调度IPv6网站检测方法
CN108632111A (zh) 一种基于日志的服务链路监控方法
CN103870381A (zh) 一种测试数据生成方法及装置
EP2220822A1 (en) Method and apparatus for concurrent topology discovery
CN108462598A (zh) 一种日志生成方法、日志分析方法及装置
CN106210159A (zh) 一种域名解析方法和设备
Yang et al. An end-to-end and adaptive i/o optimization tool for modern hpc storage systems
Ristov et al. Godeploy: Portable deployment of serverless functions in federated faas
Zheng et al. An infrastructure for web services migration in clouds
CN110515714A (zh) 一种基于集群系统的任务均衡调度方法
CN116016196A (zh) 一种实时构建系统架构拓扑的方法及系统
CN104133762A (zh) 软件测试方法及测试装置
CN1336770A (zh) 路由器操作维护与配置命令的命令存储和命令解释方法
CN107122246B (zh) 智能数值模拟作业管理与反馈方法
GB2464125A (en) Topology discovery comprising partitioning network nodes into groups and using multiple discovery agents operating concurrently in each group.
CN109271271A (zh) 基于Linux周期性命令的远程日志获取方法及系统
CN115269193A (zh) 自动化测试中实现分布式负载均衡的方法及装置
CN114968287A (zh) 一种自动部署项目的方法及系统
Wang et al. Research on the current situation and future trend of microservice technology development

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination