CN114095207A - 一种基于分布式调度IPv6网站检测方法 - Google Patents
一种基于分布式调度IPv6网站检测方法 Download PDFInfo
- Publication number
- CN114095207A CN114095207A CN202111244665.3A CN202111244665A CN114095207A CN 114095207 A CN114095207 A CN 114095207A CN 202111244665 A CN202111244665 A CN 202111244665A CN 114095207 A CN114095207 A CN 114095207A
- Authority
- CN
- China
- Prior art keywords
- task
- control
- url
- management
- scheduling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 46
- 238000012544 monitoring process Methods 0.000 claims abstract description 12
- 238000000034 method Methods 0.000 claims abstract description 9
- 230000001174 ascending effect Effects 0.000 claims abstract description 5
- 238000007689 inspection Methods 0.000 claims abstract description 5
- 238000011084 recovery Methods 0.000 claims abstract description 5
- 230000007246 mechanism Effects 0.000 claims description 5
- 241001178520 Stomatepia mongo Species 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 description 18
- 238000012360 testing method Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- XKQBJDHJRVDQBU-DHLVSJIASA-N 5-[(3as,5r,6r,6as)-6-[(e,3s)-7-(3-azidophenyl)-3-hydroxyhept-1-enyl]-5-hydroxy-1,3a,4,5,6,6a-hexahydropentalen-2-yl]pentanoic acid Chemical compound C([C@H](O)\C=C\[C@@H]1[C@H]2CC(CCCCC(O)=O)=C[C@H]2C[C@H]1O)CCCC1=CC=CC(N=[N+]=[N-])=C1 XKQBJDHJRVDQBU-DHLVSJIASA-N 0.000 description 1
- 101000610620 Homo sapiens Putative serine protease 29 Proteins 0.000 description 1
- 101150045440 ISP1 gene Proteins 0.000 description 1
- 101100353471 Mus musculus Prss28 gene Proteins 0.000 description 1
- 102100040345 Putative serine protease 29 Human genes 0.000 description 1
- 101100509103 Schizosaccharomyces pombe (strain 972 / ATCC 24843) ish1 gene Proteins 0.000 description 1
- 101100397225 Schizosaccharomyces pombe (strain 972 / ATCC 24843) isp3 gene Proteins 0.000 description 1
- 101100397226 Schizosaccharomyces pombe (strain 972 / ATCC 24843) isp4 gene Proteins 0.000 description 1
- 101100397227 Schizosaccharomyces pombe (strain 972 / ATCC 24843) isp5 gene Proteins 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000009194 climbing Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/145—Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/02—Capturing of monitoring data
- H04L43/028—Capturing of monitoring data by filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/10—Active monitoring, e.g. heartbeat, ping or trace-route
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Cardiology (AREA)
- Virology (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开一种基于分布式调度IPv6网站检测方法,步骤为:由中台管理程序执行url合法性判断,任务去重,限制最大任务队列;通过kafka向调度下发未运行任务管理,对各任务List及存储结构控制;通过Redis控制获取未完成任务、检查及任务恢复和最后记录的调度优先级控制;对Redis控制所接收的任务进行拆分,对任务进行轮询、定时更新、请求、入库进行控制管理;根据任务下发条件,按任务优先级、创建任务的时间先后及url名称升序选择任务,并根据最近的调度优先级,设定当前任务调度优先级执行;接收任务,并对url连接进行扫描。本发明方法提升了网站检测速度、检测准确性,可大幅缩短监测时间,提高监测效率。
Description
技术领域
本发明涉及互联网领域中的分布式调度技术,特别是一种基于分布式调度IPv6网站检测方法。
背景技术
从2012年开始,APNIC的IPv4地址池基本枯竭,亚太地区的电信运营商无法再获得批量IPv4地址。由于移动互联网、云计算、大数据、物联网、人工智能等新兴信息技术持续高速发展,对IP地址资源的需求异常旺盛,电信运营商持有的IPv4地址快速消耗,被迫大量采取NAT转换技术来应对IPv4地址缺乏的困境。IPv4地址资源匮乏已经成为数字经济发展的制约因素。面对IPv4地址短缺的现状,大规模部署IPv6推进互联网向IPv6升级演进是解决IP地址问题的唯一根本性解决方案。
IPv6协议是下一代互联网协议,在地址空间、安全性等方面有巨大提升。物联网、云计算、大数据、人工智能等新技术驱动网络空间向万物互联演进,利用IPv6技术解决地址短缺、培育创新空间是大势所趋,世界各国已充分认识规模部署IPv6的迫切,全球通信行业以及开展新兴技术应用的企业都在向IPv6迁移,并且呈现加速趋势。
2017年11月,国家发布《推进互联网协议第六版(IPv6)规模部署行动计划》《关于深化“互联网+先进制造业”发展工业互联网的指导意见》,全面部署IPv6(互联网协议第6版),通过对部署IPv6网站按照国家政策要求进行检测,已检测符合国家IPv6网络标准。
但现有线性检测技术中检测速度慢,存在受反爬技术影响导致准不准确等问题。
发明内容
针对现有线性检测技术中检测速度慢,存在受反爬技术影响导致准不准确等不足,本发明提供了一种基于分布式调度IPv6网站检测方法,采用分布式调度IPv6网站检测技术,按照指标对网站进行深度检测,检测可对IPv6网站首页、二级连接、三级连接通过分布式IPv6网站检测技术进行检测。
本发明采用的技术方案是:
本发明提供一种基于分布式调度IPv6网站检测方法,包括以下步骤:
1)中台管理:接收网站检测任务,由中台管理程序执行url合法性判断,任务去重,限制最大任务队列;
2)Redis控制:通过kafka向调度下发未运行任务管理,对一级任务、二级任务、任务心跳、运行任务List及存储结构控制;
3)Mongo控制:通过Redis控制获取未完成任务、检查及任务恢复和最后记录的调度优先级控制;
4)调度:对Redis控制所接收的任务进行拆分,将一个主url拆分多个子url,并根据各监测点性能、当前任务状态进行任务下发,并对任务进行轮询、定时更新、请求、入库进行控制管理;
5)网关:根据任务下发条件,按任务优先级、创建任务的时间先后及url名称升序选择任务,并根据最近的调度优先级,设定当前任务调度优先级执行;
6)爬虫:接收任务,并对url连接进行扫描。
步骤4)中将一个主url拆分多个子url,并将拆分后的子url生成单个可执行的任务,与步骤2)、步骤3)的任务管理控制机制协调,完成任务控制。
步骤4)中分析主url,将主url页面内各链接基于主url为基础,生成每一个子链接,从而形成多个可独立进行访问的url子链接。
本发明具有以下技术效果及优点:
1.本发明提供一种基于分布式调度IPv6网站检测方法,通过分布式IPv6网站检测技术,与传统网站检测技术相比,提升网站检测速度、检测准确性,解决传统线性检测技术中检测速度慢、受反爬技术影响导致准不准确等问题。
2.本发明方法通过将网站二级、三级连接拆分成独立的url,通过分发下发到全部监测点并统一时间执行检测,以及对多监测点的同时执行,可大幅缩短监测时间,提高监测效率。
3.分布式调度是将网站的二级、三级连接合理拆分,在检测中由多个不同监测点执行检测任务,并通过分布式调度统一管控,因此可有效规避单一检测点所产生的检测问题,有效提升检测准确性。
附图说明
图1为本发明基于分布式调度IPv6网站检测方法流程图;
图2为本明方法与现有技术测试结果对比图。
具体实施方式
如图1所示,本发明提供基于分布式调度IPv6网站检测方法,包括以下步骤:
1)中台管理:接收网站检测任务,由中台管理程序(为现有程序)执行url合法性判断,任务去重,限制最大任务队列;
2)Redis控制:通过kafka向调度下发未运行任务管理,对一级任务、二级任务、任务心跳、运行任务List及存储结构控制;
3)Mongo控制:通过Redis控制获取未完成任务、检查及任务恢复和最后记录的调度优先级控制;
4)调度:对Redis控制所接收的任务进行拆分,将一个主url拆分多个子url,并根据各监测点性能、当前任务状态进行任务下发,并对任务进行轮询、定时更新、请求、入库进行控制管理;
5)网关:根据任务下发条件,按任务优先级、创建任务的时间先后及url名称升序选择任务,并根据最近的调度优先级,设定当前任务调度优先级执行;
6)爬虫:接收任务,并对url连接进行扫描。
在本实施例中,步骤1)中台接收网站检测任务:接收网站检测任务,由中台网站监测程序执行url合法性判断,维护用户下发的url任务列表,并按照用户下发计划在不同地址ISP1、ISP2、ISP3、ISP4、ISP5等ISP下地检测结果输出;
步骤2)中Redis控制通过维护自身的db1、db2、db3进行记录维护,通过kafka协调调度任务管理,其中,db1对已下发未运行任务List,taskInfo增加控制;db2对正在运行的List结构进行记录维护;db3对已完成任务List进行记录维护;
步骤3)中Mongo控制通过Redis控制获取未完成任务、检查及任务恢复和最后记录的调度优先级控制;
步骤4)中调度对Redis控制所接收的任务进行拆分,将一个主url拆分多个子url,并根据各监测点性能、当前任务状态进行任务下发,并对任务进行轮询、定时更新、请求、入库等进行控制管理,对分布式进行加锁控制,对成功的任务、所有ISP均失败的任务进行状态标示与加锁控制。
步骤5)中网关根据任务下发条件,按任务优先级、创建任务的时间先后及url名称升序选择任务,并根据最近的调度优先级,设定当前任务调度优先级执行;
步骤6)中爬虫接收到步骤5)网关发来的任务,并对url连接进行扫描,完成检测。
步骤4)中将一个主url拆分多个子url,并将拆分后的子url生成单个可执行的任务,与步骤2)、步骤3)的任务管理控制机制协调,完成任务控制,再通过步骤5)将拆分后的子链接url下发至步骤6)执行检测。通过分析主url,将主url页面内各链接基于主url为基础,生成每一个子链接,从而形成多个可独立进行访问的url子链接。
本发明方法采用多监测点分布式执行,提升检测效率;解决单个检测点异常时所导致的检测准确性问题;解决特定网站对单个检测点的反爬检测问题。
应用实例
1.测试环境条件:
测试网络环境:互联网
测试服务器配置:
2.测试结果与现有技术对比
如图2所示,通过现有技术与本专利技术实现的程序扫描时间进行比较,使用本专利技术扫描在扫描时间、扫描效率上均优于现有技术。
以上所述,仅是本技术的较佳实施例而已,并非对本技术作任何形式上的限制,虽然本技术已以较佳实施例揭露如上,然而并非用以限定本技术,任何熟悉本专业的技术人员,在不脱离本技术方案范围内,当可利用上述揭示的技术内容,作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本技术方案内容,依据本技术的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本技术方案的范围内。
Claims (3)
1.一种基于分布式调度IPv6网站检测方法,其特征在于包括以下步骤:
1)中台管理:接收网站检测任务,由中台管理程序执行url合法性判断,任务去重,限制最大任务队列;
2)Redis控制:通过kafka向调度下发未运行任务管理,对一级任务、二级任务、任务心跳、运行任务List及存储结构控制;
3)Mongo控制:通过Redis控制获取未完成任务、检查及任务恢复和最后记录的调度优先级控制;
4)调度:对Redis控制所接收的任务进行拆分,将一个主url拆分多个子url,并根据各监测点性能、当前任务状态进行任务下发,并对任务进行轮询、定时更新、请求、入库进行控制管理;
5)网关:根据任务下发条件,按任务优先级、创建任务的时间先后及url名称升序选择任务,并根据最近的调度优先级,设定当前任务调度优先级执行;
6)爬虫:接收任务,并对url连接进行扫描。
2.按权利要求1所述的一种基于分布式调度IPv6网站检测方法,其特征在于:步骤4)中将一个主url拆分多个子url,并将拆分后的子url生成单个可执行的任务,与步骤2)、步骤3)的任务管理控制机制协调,完成任务控制。
3.按权利要求2所述的一种基于分布式调度IPv6网站检测方法,其特征在于:步骤4)中分析主url,将主url页面内各链接基于主url为基础,生成每一个子链接,从而形成多个可独立进行访问的url子链接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111244665.3A CN114095207A (zh) | 2021-10-26 | 2021-10-26 | 一种基于分布式调度IPv6网站检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111244665.3A CN114095207A (zh) | 2021-10-26 | 2021-10-26 | 一种基于分布式调度IPv6网站检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114095207A true CN114095207A (zh) | 2022-02-25 |
Family
ID=80297580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111244665.3A Pending CN114095207A (zh) | 2021-10-26 | 2021-10-26 | 一种基于分布式调度IPv6网站检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114095207A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112422330A (zh) * | 2020-11-06 | 2021-02-26 | 北京连星科技有限公司 | 一种企业网络IPv6代际升迁全生命周期管理的方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7836502B1 (en) * | 2007-07-03 | 2010-11-16 | Trend Micro Inc. | Scheduled gateway scanning arrangement and methods thereof |
CN103310012A (zh) * | 2013-07-02 | 2013-09-18 | 北京航空航天大学 | 一种分布式网络爬虫系统 |
CN106411578A (zh) * | 2016-09-12 | 2017-02-15 | 国网山东省电力公司电力科学研究院 | 一种适应于电力行业的网站监控系统及方法 |
CN110020046A (zh) * | 2017-10-20 | 2019-07-16 | 中移(苏州)软件技术有限公司 | 一种数据抓取方法及装置 |
CN110147475A (zh) * | 2019-03-29 | 2019-08-20 | 汇通达网络股份有限公司 | 一种分布式部署的网络数据采集系统 |
CN112818201A (zh) * | 2021-02-07 | 2021-05-18 | 四川封面传媒有限责任公司 | 一种网络数据采集方法、装置、计算机设备及存储介质 |
-
2021
- 2021-10-26 CN CN202111244665.3A patent/CN114095207A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7836502B1 (en) * | 2007-07-03 | 2010-11-16 | Trend Micro Inc. | Scheduled gateway scanning arrangement and methods thereof |
CN103310012A (zh) * | 2013-07-02 | 2013-09-18 | 北京航空航天大学 | 一种分布式网络爬虫系统 |
CN106411578A (zh) * | 2016-09-12 | 2017-02-15 | 国网山东省电力公司电力科学研究院 | 一种适应于电力行业的网站监控系统及方法 |
CN110020046A (zh) * | 2017-10-20 | 2019-07-16 | 中移(苏州)软件技术有限公司 | 一种数据抓取方法及装置 |
CN110147475A (zh) * | 2019-03-29 | 2019-08-20 | 汇通达网络股份有限公司 | 一种分布式部署的网络数据采集系统 |
CN112818201A (zh) * | 2021-02-07 | 2021-05-18 | 四川封面传媒有限责任公司 | 一种网络数据采集方法、装置、计算机设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112422330A (zh) * | 2020-11-06 | 2021-02-26 | 北京连星科技有限公司 | 一种企业网络IPv6代际升迁全生命周期管理的方法 |
CN112422330B (zh) * | 2020-11-06 | 2023-05-30 | 北京连星科技有限公司 | 一种企业网络IPv6代际升迁全生命周期管理的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10949253B2 (en) | Data forwarder for distributed data acquisition, indexing and search system | |
US7668957B2 (en) | Partitioning social networks | |
CN104182288A (zh) | 一种服务器集群系统功耗自动化测试的方法 | |
CA2701107C (en) | Method and apparatus for concurrent topology discovery | |
CN103870381A (zh) | 一种测试数据生成方法及装置 | |
CN114095207A (zh) | 一种基于分布式调度IPv6网站检测方法 | |
CN110032444A (zh) | 一种分布式系统及分布式任务处理方法 | |
CN112291365A (zh) | 访问均衡处理方法、装置、计算机设备及存储介质 | |
CN115269193A (zh) | 自动化测试中实现分布式负载均衡的方法及装置 | |
Yang et al. | An end-to-end and adaptive i/o optimization tool for modern hpc storage systems | |
CN106210159A (zh) | 一种域名解析方法和设备 | |
Ristov et al. | Godeploy: Portable deployment of serverless functions in federated faas | |
Seidel et al. | Data mining system architecture for industrial internet of things in electronics production | |
CN116016196B (zh) | 一种实时构建系统架构拓扑的方法及系统 | |
CN1336770A (zh) | 路由器操作维护与配置命令的命令存储和命令解释方法 | |
CN101808140B (zh) | 一种业务部署方法及装置 | |
CN104133762A (zh) | 软件测试方法及测试装置 | |
CN111258891A (zh) | 一种提高自动化测试执行效率的方法及系统 | |
CN107122246B (zh) | 智能数值模拟作业管理与反馈方法 | |
GB2464125A (en) | Topology discovery comprising partitioning network nodes into groups and using multiple discovery agents operating concurrently in each group. | |
CN115904388A (zh) | 一种应用程序协议解析方法、装置、设备及存储介质 | |
CN109271271A (zh) | 基于Linux周期性命令的远程日志获取方法及系统 | |
CN114968287A (zh) | 一种自动部署项目的方法及系统 | |
CN101510830B (zh) | 可扩展式p2p流的识别方法 | |
CN113572863A (zh) | 基于动态路由协议的应用加速方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220225 |
|
RJ01 | Rejection of invention patent application after publication |