CN113965371A - 网站监测过程中的任务处理方法、装置、终端及存储介质 - Google Patents

网站监测过程中的任务处理方法、装置、终端及存储介质 Download PDF

Info

Publication number
CN113965371A
CN113965371A CN202111216390.2A CN202111216390A CN113965371A CN 113965371 A CN113965371 A CN 113965371A CN 202111216390 A CN202111216390 A CN 202111216390A CN 113965371 A CN113965371 A CN 113965371A
Authority
CN
China
Prior art keywords
stored
monitoring
period
crawling
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111216390.2A
Other languages
English (en)
Other versions
CN113965371B (zh
Inventor
邢恩凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Original Assignee
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Topsec Technology Co Ltd, Beijing Topsec Network Security Technology Co Ltd, Beijing Topsec Software Co Ltd filed Critical Beijing Topsec Technology Co Ltd
Priority to CN202111216390.2A priority Critical patent/CN113965371B/zh
Publication of CN113965371A publication Critical patent/CN113965371A/zh
Application granted granted Critical
Publication of CN113965371B publication Critical patent/CN113965371B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/12Network monitoring probes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种网站监测过程中的任务处理方法、装置、终端及存储介质,属于网站监测领域,其方法包括获取待存监测信息;到监测任务列表中查询是否存在与所述待存目标网站相同的已存目标网站;若存在,则将所述待存监测信息与对应的所述已存监测信息融合,形成关于对应所述目标网站的更新监测任务;将所述更新监测任务替换所述监测任务列表中对应的所述已存监测任务;按照所述监测任务列表向预设的底层探针下发爬取指令。针对同一网站,监测任务列表中只存在一个监测任务,有助于减小资源的浪费和底层探针的压力。

Description

网站监测过程中的任务处理方法、装置、终端及存储介质
技术领域
本发明涉及网站监测领域,尤其是涉及一种网站监测过程中的任务处理方法、装置、终端及存储介质。
背景技术
网站监测是网络安全系统中的一个重要组成部分,通过对网站进行动态监控,可以便于网站经营者提前对网站进行风险管理,降低网站被不法分子利用以及攻击的风险,使企业不易遭受不必要的损失。
由于互联网环境的复杂性,网站都有可能出现无法访问、异常出错,甚至出现漏洞、不良信息和被挂木马等情况,而上述种种情况对网站管理员提出了更高的能力要求。为了保证有效实时的对网站进行全方位监控,网站监控平台应运而生。需要对网站进行监测的用户们委托网站监控平台帮助其进行网站监控,不仅减少了自身的任务负担,也有助于提高网站监测效果。
相关技术中的网站监测平台,主要是由不同用户在平台下发指定目标网站的监测信息,网站监测平台根据监测信息新建相应的网站监测任务,在网站监测任务达到执行周期后,通过底层探针对对应的网站进行爬取,以实现监测目的。
针对上述中的相关技术,发明人认为不同的用户也可能需要对同一网站进行监测,网站监测平台在新建网站监测任务时,容易出现较多的关于同一网站的网站监测任务,造成资源浪费,增大了底层探针压力。
发明内容
为了有助于减少重复监测任务,从而减小资源浪费,减小底层探针压力,本发明提供一种网站监测过程中的任务处理方法、装置、终端及存储介质。
第一方面,本申请提供的一种网站监测过程中的任务处理方法,采用如下的技术方案:
一种网站监测过程中的任务处理方法,包括:
获取待存监测信息;所述待存监测信息包括待存目标网站、待存监测周期和待存爬取策略;
到监测任务列表中查询是否存在与所述待存目标网站相同的已存目标网站;所述监测任务列表中包含若干已存监测任务,每个所述已存监测任务对应有已存监测信息;
若存在,则将所述待存监测信息与对应的所述已存监测信息融合,形成关于对应所述目标网站的更新监测任务;所述已存监测信息包括已存目标网站、已存监测周期和已存爬取策略;
将所述更新监测任务替换所述监测任务列表中对应的所述已存监测任务;
按照所述监测任务列表向预设的底层探针下发爬取指令。
通过采用上述技术方案,在获得一个待存监测信息时,先根据待存监测信息中的待存目标网站,到监测任务列表中查询是否存在网址相同的已存目标网站,若存在,则将待存监测信息与已存监测信息融合成更新监测任务,使监测任务列表中关于同一网站的已存监测任务有且只有一个,便于减小底层探针压力,节省资源。
可选的,所述将所述待存监测信息与对应的所述已存监测信息融合的步骤包括:
将所述已存监测信息中的所述已存监测周期与对应的所述待存监测周期融合;
将所述已存监测信息中的所述已存爬取策略与对应的所述待存爬取策略融合。
通过采用上述技术方案,融合包括监测周期的融合和爬取策略的融合,有助于更充分的进行融合,形成科学合理的更新监测任务。
可选的,所述将所述已存监测信息中的所述已存监测周期与对应的所述待存监测周期融合的步骤包括:
判断所述已存监测周期和所述待存监测周期中的最小周期;
将最小周期作为所述更新监测任务中的更新监测周期。
通过采用上述技术方案,选择已存监测周期和待存监测周期中最小的周期,有助于提高网站监测的效果和质量,便于及时获知收监测的网站的最新信息。
可选的,所述已存监测周期包括已存周期开始时间和已存周期间隔时间;所述待存监测周期包括待存周期开始时间和待存周期间隔时间;
所述判断所述已存监测周期和所述待存监测周期中的最小周期的步骤包括:
判断所述已存周期开始时间与所述待存周期开始时间的先后;
在所述已存周期开始时间在先时,将所述已存周期开始时间作为所述更新监测周期中的更新周期开始时间;
在所述待存周期开始时间在先时,将所述待存周期开始时间作为所述更新监测周期中的更新周期开始时间;
判断所述已存周期间隔时间与所述待存周期间隔时间的长短;
在所述已存周期间隔时间短时,将所述已存周期间隔时间作为所述更新周期间隔时间;
在所述待存周期间隔时间短时,将所述待存周期间隔时间作为所述更新周期间隔时间。
通过采用上述技术方案,更新周期开始时间选择已存周期开始时间和待存周期开始时间中在先的一个,更新周期间隔时间选择已存周期间隔时间和待存周期间隔时间中短的一个,有助于提高监测网站的频率,从而提高网站的监测效果。
可选的,所述待存爬取策略包括待存爬取层级和待存爬取页面数;所述已存爬取策略包括已存爬取层级和已存爬取页面数;所述待存监测信息还包括所述待存目标网站每层级的子页面总数;
所述将所述已存监测信息中的所述已存爬取策略与对应的所述待存爬取策略融合的步骤包括:
判断所述待存爬取层级是否大于所述已存爬取层级;
若不大于,则取所述待存爬取页面数与所述已存爬取页面数之间的最小值作为更新爬取页面数,将所述待存爬取层级作为更新爬取层级;
若大于,则判断所述已存爬取层级对应的所述子页面总数是否大于或等于所述待存爬取页面数;
若大于或等于,则将所述已存爬取层级作为更新爬取层级,将所述待存爬取页面数作为更新爬取页面数;
若小于,则将待存爬取层级作为更新爬取层级,将所述待存爬取页面数作为更新爬取页面数。
通过采用上述技术方案,根据爬取层级和爬取页面数对待存爬取策略和已存爬取策略进行融合,有助于提高更新爬取策略的合理性。
可选的,在所述将所述已存监测信息中的所述已存爬取策略与对应的所述待存爬取策略融合之后,还包括:
基于更新爬取页面数和所述监测任务列表中其他所述已存监测任务的已存爬取页面数对所述监测任务列表进行重新排序。
通过采用上述技术方案,对监测任务列表进行重新排序有助于按照各个已存监测任务的执行周期有序监测各个网站,减少数据丢失的概率,使底层探针有序执行任务。
可选的,在到监测任务列表中查询是否存在与所述待存目标网站相同的已存目标网站之后,还包括:
若不存在,基于所述待存监测信息创建已存监测任务;
将创建的所述已存监测任务存储到所述监测任务列表中。
通过采用上述技术方案,对于监测任务列表中没有的网站的已存监测任务,基于对应的待存监测信息创建新的的已存监测任务,并将新建的已存监测任务添加到监测任务列表中。
第二方面,本申请提供的一种网站监测过程中的任务处理装置,采用如下的技术方案:
一种网站监测过程中的任务处理装置,包括获取模块,用于获取待存监测信息;
处理模块,用于到监测任务列表中查询是否存在与所述待存目标网站相同的已存目标网站;若存在,则将待存监测信息与对应的已存监测信息融合,形成关于对应所述目标网站的更新监测任务;所述处理模块还用于将所述更新监测任务替换所述监测任务列表中对应的所述已存监测任务;
和执行模块,用于按照所述监测任务列表向预设的底层探针下发爬取指令。
通过采用上述技术方案,处理模块对重复的网站监测任务进行筛查,在发现待存目标网站与已存目标网站为同一网站时,将对应的待存监测信息与对应的已存监测信息进行融合,形成更新监测任务,减少监测任务列表中关于同一网站的重复任务数量,有助于减少底层探针压力,节省资源。
第三方面,本申请提供的一种网站监测过程中的任务处理终端,采用如下的技术方案:
一种网站监测过程中的任务处理装置终端,包括存储器和处理器,所述存储器中存储有能够被所述处理器加载并执行上述方法的计算机程序。
通过采用上述技术方案,能够存储并处理相应的程序,有助于节省资源,减小底层探针压力。
第四方面,本申请提供的一种存储介质,采用如下的技术方案:
一种存储介质,存储有能够被处理器加载并执行上述方法的计算机程序。
通过采用上述技术方案,能够存储相应的程序,有助于节省资源,减小底层探针压力。
综上所述:
1、在基于待存监测信息创建监测任务前,查询监测任务列表中是否有已存监测任务与待存监测信息对应的是同一网站,若有,则将已存监测任务对应的已存监测信息与待存监测信息融合,建立更新监测任务,减少监测任务列表中关于同一网站的重复任务的数量,便于节省资源,减小底层探针压力。
2、融合包括周期融合和策略融合,有助于提高更新监测任务的合理性,从而提高网站监测效果和监测质量。
附图说明
图1是本申请实施例的一种网站监测过程中的任务处理方法的流程图。
图2是本申请实施例的一种网站监测过程中的任务处理方法的步骤S311的具体流程图。
图3是本申请实施例的一种网站监测过程中的任务处理方法的步骤S320的具体流程图。
图4是本申请实施例的一种网站监测过程中的任务处理装置的结构框图。
附图标记说明:
1、获取模块;2、处理模块;3、执行模块。
具体实施方式
本申请实施例公开一种网站监测过程中的任务处理方法。参照图1,包括:
S100、获取待存监测信息。
待存监测信息包括待存目标网站、待存监测周期、待存爬取策略和待存目标网站每层级的子页面总数。其中,待存目标网站即需要进行监测的网站网址,例如:www.baidu.com;需要说明的是,每个网站均有层级和页面数;层级指进入一个网站后,通过点击网站中的链接,即可进入到该网站的下一个层级;页面数即每个层级中能够浏览或者预先设置的页面数量,页面即网页。
待存监测周期包括待存周期开始时间和待存周期间隔时间;待存周期开始时间代表第一次对待存目标网站进行监测的时间节点,例如2021年12月12号12点12分12秒;待存周期间隔时间指对同一待存目标网站进行相邻两次监测的时间间隔,例如在待存周期间隔时间为10分钟时,如果待存周期开始时间为2021年12月12号12点12分12秒,则第二次进行监测的时间为2021年12月12号12点22分12秒。
待存爬取策略包括待存爬取层级和待存爬取页面数;待存爬取层级指在对待存目标网站进行监测时,需要底层探针爬取的层级数。例如待存爬取层级为4时,指底层探针需要从待存目标网站的第一层级依次爬取到第四层级。待存爬取页面数指在对待存目标网站进行监测时,需要底层探针爬取的页面总数,例如400。
待存目标网站每层级的子页面总数指待存目标网站每层级包含的总的页面数量。例如一个网站的第一层级包含50个页面,第二层级包含100个页面,在计算第二层级的子页面总数时,需要加上第一层级的页面数,即150个。
S200、到监测任务列表中查询是否存在与待存目标网站相同的已存目标网站。
监测任务列表为预设的列表,用于纪录或存储已存监测任务。不难理解,根据待存监测信息创建对应的待存监测任务后,如果将待存监测任务纪录或存储到监测任务列表中,该待存监测任务则成为已存监测任务。因此,每个已存监测任务均对应有已存监测信息,具体的,已存监测信息包括已存目标网站、已存监测周期和已存爬取策略;其中,已存监测周期包括已存周期开始时间和已存周期间隔时间;已存爬取策略包括已存爬取层级和已存爬取页面数。相同指网址相同。
S300、若存在,则将待存监测信息与对应的已存监测信息融合,形成关于对应目标网站的更新监测任务。
S400、若不存在,基于待存监测信息创建已存监测任务;将创建的已存监测任务存储到监测任务列表中。
S500、将更新监测任务替换监测任务列表中对应的已存监测任务。
S600、按照监测任务列表向预设的底层探针下发爬取指令。
不难理解,所谓网站监测,即通过探针技术获取目标网站中的信息。
其中,步骤S300包括:
S310、将已存监测信息中的已存监测周期与对应的待存监测周期融合。
具体的,步骤S310包括:
S311、判断已存监测周期和待存监测周期中的最小周期。
参照图2,步骤S311包括:
S311.1、判断已存周期开始时间与待存周期开始时间的先后。
所谓先后即时间的先后,例如已存周期开始时间为2000年12月12日12点整,待存周期开始时间为2000年12月10日12点整,则待存周期开始时间在先,已存周期开始时间在后。
S311.2、在已存周期开始时间在先时,将已存周期开始时间作为更新监测周期中的更新周期开始时间。
S311.3、在待存周期开始时间在先时,将待存周期开始时间作为更新监测周期中的更新周期开始时间。
S311.4、判断已存周期间隔时间与待存周期间隔时间的长短。
所谓长短指时间的长短,也可以理解为数值的大小。例如,已存周期间隔时间为10分钟,待存周期间隔时间为20分钟,则待存周期间隔时间长。
S311.5、在已存周期间隔时间短时,将已存周期间隔时间作为更新周期间隔时间。
S311.6、在待存周期间隔时间短时,将待存周期间隔时间作为更新周期间隔时间。
步骤S310还包括:
S312、将最小周期作为更新监测任务中的更新监测周期。
不难理解,将更新周期开始时间和更新周期间隔时间整合后,形成更新监测周期。
步骤S300还包括:
S320、将已存监测信息中的已存爬取策略与对应的待存爬取策略融合。
具体的,参照图3,步骤S320包括:
S321、判断待存爬取层级是否大于已存爬取层级。
例如,待存爬取层级为3,已存爬取层级为4,则待存爬取层级小于已存爬取层级。
S322、若不大于,则取待存爬取页面数与已存爬取页面数之间的最小值作为更新爬取页面数,将待存爬取层级作为更新爬取层级。
不难理解,取待存爬取页面数与已存爬取页面数之间的最小值指两个页面数中小的一个。例如待存爬取页面数为500,已存爬取页面数为400,则已存爬取页面数为两者之间的最小值。在待存爬取层级小于或等于已存爬取层级时,选择层级小的,且页面数少的作为更新爬取策略,有助于减小底层探针压力。
S323、若大于,则判断已存爬取层级对应的子页面总数是否大于或等于待存爬取页面数。
例如待存爬取层级为5,已存爬取层级为4,则属于待存爬取层级大于已存爬取层级的情况。此时判断已存爬取层级对应的子页面总数与待存爬取页面数的大小关系,例如网站的第4层级对应的子页面总数为500,待存爬取页面数为600,则属于子页面总数小于待存爬取页面数。其中,500的计算方式为网站的第1层级的页面数+第2层级的页面数+第3层级的页面数+第4层级的页面数。
S324、若子页面总数大于或等于待存爬取页面数,则将已存爬取层级作为更新爬取层级,将待存爬取页面数作为更新爬取页面数。
即使待存爬取层级大于已存爬取层级,但是已存爬取层级对应的子页面总数依然满足待存爬取页面数,因此将已存爬取层级作为更新爬取层级,将待存爬取页面数作为更新爬取页面数。
S325、若子页面总数小于待存爬取页面数,则将待存爬取层级作为更新爬取层级,将待存爬取页面数作为更新爬取页面数。
由于已存爬取层级对应的子页面总数不满足待存爬取页面数,因此需要将待存爬取层级作为更新爬取层级,将待存爬取页面数作为更新爬取页面数。
S330、基于更新爬取页面数和监测任务列表中其他已存监测任务的已存爬取页面数对监测任务列表进行重新排序。
可以是升序,也可以是降序。例如通过降序的方式,以各个已存监测任务对应的已存爬取页面数为基准,对各个已存监测任务进行排序。
在执行已存监测任务之前,基于各个已存监测任务的已存周期开始时间进行首次任务执行时间标记。通过任务定时扫描器周期性的扫描监测任务列表中各个已存监测任务,查看在预设的时间段内是否有需要执行的已存监测任务,若有,则在对应的时间点下发任务给底层探针,并根据对应的已存周期间隔时间标记下一次的任务执行时间。
底层探针在对网站进行爬取的过程中,若爬取的页面数满足对应的已存爬取页面数,则返回完成通知,使监测任务列表中对应的已存监测任务的执行时间改为下一个时间节点。
本申请实施例一种网站监测过程中的任务处理方法的实施原理为:在获得待存监测信息后,根据待存目标网站到监测任务列表中查询该目标网站是否已有对应的已存监测任务。若有,则将待存监测信息与对应的已存监测信息进行融合,融合包括周期融合和爬取策略融合;融合结束后生成更新监测任务,并使更新监测任务取代对应的已存监测任务,有助于减少监测任务列表中关于同一网站的监测任务的重复量,从而便于减小底层探针压力,节约网络资源。
本申请实施例公开一种网站监测过程中的任务处理装置。参照图4,包括获取模块1、处理模块2和执行模块3。获取模块1用于获取待存监测信息,处理模块2用于到监测任务列表中查询是否存在与待存目标网站相同的已存目标网站,若存在,则将待存监测信息与对应的已存监测信息融合,形成关于对应目标网站的更新监测任务。处理模块2还用于将更新监测任务替换监测任务列表中对应的已存监测任务。执行模块3用于按照监测任务列表向预设的底层探针下发爬取指令。
本申请实施例公开一种网站监测过程中的任务处理装置终端,包括存储器和处理器,存储器中存储有能够被处理器加载并执行上述方法的计算机程序。
本申请实施例公开一种存储介质,存储有能够被处理器加载并执行上述方法的计算机程序。
以上均为本申请的较佳实施例,并非依此限制本申请的保护范围,故:凡依本申请的结构、形状、原理所做的等效变化,均应涵盖于本申请的保护范围之内。

Claims (10)

1.一种网站监测过程中的任务处理方法,其特征在于,包括:
获取待存监测信息;所述待存监测信息包括待存目标网站、待存监测周期和待存爬取策略;
到监测任务列表中查询是否存在与所述待存目标网站相同的已存目标网站;所述监测任务列表中包含若干已存监测任务,每个所述已存监测任务对应有已存监测信息;
若存在,则将所述待存监测信息与对应的所述已存监测信息融合,形成关于对应所述目标网站的更新监测任务;所述已存监测信息包括已存目标网站、已存监测周期和已存爬取策略;
将所述更新监测任务替换所述监测任务列表中对应的所述已存监测任务;
按照所述监测任务列表向预设的底层探针下发爬取指令。
2.根据权利要求1所述的一种网站监测过程中的任务处理方法,其特征在于,所述将所述待存监测信息与对应的所述已存监测信息融合的步骤包括:
将所述已存监测信息中的所述已存监测周期与对应的所述待存监测周期融合;
将所述已存监测信息中的所述已存爬取策略与对应的所述待存爬取策略融合。
3.根据权利要求2所述的一种网站监测过程中的任务处理方法,其特征在于,所述将所述已存监测信息中的所述已存监测周期与对应的所述待存监测周期融合的步骤包括:
判断所述已存监测周期和所述待存监测周期中的最小周期;
将最小周期作为所述更新监测任务中的更新监测周期。
4.根据权利要求3所述的一种网站监测过程中的任务处理方法,其特征在于:所述已存监测周期包括已存周期开始时间和已存周期间隔时间;所述待存监测周期包括待存周期开始时间和待存周期间隔时间;
所述判断所述已存监测周期和所述待存监测周期中的最小周期的步骤包括:
判断所述已存周期开始时间与所述待存周期开始时间的先后;
在所述已存周期开始时间在先时,将所述已存周期开始时间作为所述更新监测周期中的更新周期开始时间;
在所述待存周期开始时间在先时,将所述待存周期开始时间作为所述更新监测周期中的更新周期开始时间;
判断所述已存周期间隔时间与所述待存周期间隔时间的长短;
在所述已存周期间隔时间短时,将所述已存周期间隔时间作为所述更新周期间隔时间;
在所述待存周期间隔时间短时,将所述待存周期间隔时间作为所述更新周期间隔时间。
5.根据权利要求2所述的一种网站监测过程中的任务处理方法,其特征在于,所述待存爬取策略包括待存爬取层级和待存爬取页面数;所述已存爬取策略包括已存爬取层级和已存爬取页面数;所述待存监测信息还包括所述待存目标网站每层级的子页面总数;
所述将所述已存监测信息中的所述已存爬取策略与对应的所述待存爬取策略融合的步骤包括:
判断所述待存爬取层级是否大于所述已存爬取层级;
若不大于,则取所述待存爬取页面数与所述已存爬取页面数之间的最小值作为更新爬取页面数,将所述待存爬取层级作为更新爬取层级;
若大于,则判断所述已存爬取层级对应的所述子页面总数是否大于或等于所述待存爬取页面数;
若大于或等于,则将所述已存爬取层级作为更新爬取层级,将所述待存爬取页面数作为更新爬取页面数;
若小于,则将待存爬取层级作为更新爬取层级,将所述待存爬取页面数作为更新爬取页面数。
6.根据权利要求5所述的一种网站监测过程中的任务处理方法,其特征在于,
在所述将所述已存监测信息中的所述已存爬取策略与对应的所述待存爬取策略融合之后,还包括:
基于更新爬取页面数和所述监测任务列表中其他所述已存监测任务的已存爬取页面数对所述监测任务列表进行重新排序。
7.根据权利要求1所述的一种网站监测过程中的任务处理方法,其特征在于,在到监测任务列表中查询是否存在与所述待存目标网站相同的已存目标网站之后,还包括:
若不存在,基于所述待存监测信息创建已存监测任务;
将创建的所述已存监测任务存储到所述监测任务列表中。
8.一种网站监测过程中的任务处理装置,其特征在于:包括获取模块,用于获取待存监测信息;
处理模块,用于到监测任务列表中查询是否存在与所述待存目标网站相同的已存目标网站;若存在,则将待存监测信息与对应的已存监测信息融合,形成关于对应所述目标网站的更新监测任务;所述处理模块还用于将所述更新监测任务替换所述监测任务列表中对应的所述已存监测任务;
和执行模块,用于按照所述监测任务列表向预设的底层探针下发爬取指令。
9.一种网站监测过程中的任务处理装置终端,其特征在于:包括存储器和处理器,所述存储器中存储有能够被所述处理器加载并执行如权利要求1-7任一种方法的计算机程序。
10.一种存储介质,其特征在于:存储有能够被处理器加载并执行如权利要求1-7任一种方法的计算机程序。
CN202111216390.2A 2021-10-19 2021-10-19 网站监测过程中的任务处理方法、装置、终端及存储介质 Active CN113965371B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111216390.2A CN113965371B (zh) 2021-10-19 2021-10-19 网站监测过程中的任务处理方法、装置、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111216390.2A CN113965371B (zh) 2021-10-19 2021-10-19 网站监测过程中的任务处理方法、装置、终端及存储介质

Publications (2)

Publication Number Publication Date
CN113965371A true CN113965371A (zh) 2022-01-21
CN113965371B CN113965371B (zh) 2023-08-29

Family

ID=79465344

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111216390.2A Active CN113965371B (zh) 2021-10-19 2021-10-19 网站监测过程中的任务处理方法、装置、终端及存储介质

Country Status (1)

Country Link
CN (1) CN113965371B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080235163A1 (en) * 2007-03-22 2008-09-25 Srinivasan Balasubramanian System and method for online duplicate detection and elimination in a web crawler
CN103544283A (zh) * 2013-10-24 2014-01-29 青岛英网资讯股份有限公司 网站信息合并去重方法
CN103927400A (zh) * 2014-05-07 2014-07-16 重庆邮电大学 Web网站产品详细信息的分类抓取及产品信息库建立方法
CN104050540A (zh) * 2014-06-27 2014-09-17 北京思特奇信息技术股份有限公司 一种团队协作任务管理的方法及系统
CN105069135A (zh) * 2015-08-18 2015-11-18 携程计算机技术(上海)有限公司 Ota网站的数据爬取方法及系统
CN106528567A (zh) * 2015-09-11 2017-03-22 北京国双科技有限公司 网络爬虫集群信息的更新方法和装置
CN106547803A (zh) * 2015-09-23 2017-03-29 北京国双科技有限公司 爬取网站增量资源的方法和装置
CN106776768A (zh) * 2016-11-23 2017-05-31 福建六壬网安股份有限公司 一种分布式爬虫引擎的url抓取方法及系统
CN107102997A (zh) * 2016-02-22 2017-08-29 北京国双科技有限公司 数据爬取方法及装置
CN108536691A (zh) * 2017-03-01 2018-09-14 中兴通讯股份有限公司 网页爬取方法和装置
CN110147473A (zh) * 2017-08-28 2019-08-20 北京国双科技有限公司 一种爬虫的爬取方法及装置
CN110516139A (zh) * 2019-09-05 2019-11-29 上海携程商务有限公司 爬虫系统及方法
CN110674125A (zh) * 2019-09-24 2020-01-10 北京明略软件系统有限公司 一种待融合数据的过滤方法、过滤装置及可读存储介质
CN111444412A (zh) * 2020-04-03 2020-07-24 北京明朝万达科技股份有限公司 网络爬虫任务的调度方法及装置
CN111489330A (zh) * 2020-03-24 2020-08-04 中国科学院大学 基于多源信息融合的弱小目标检测方法
CN112597367A (zh) * 2020-11-30 2021-04-02 国网北京市电力公司 数据信息融合系统及目标决策的生成方法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080235163A1 (en) * 2007-03-22 2008-09-25 Srinivasan Balasubramanian System and method for online duplicate detection and elimination in a web crawler
CN103544283A (zh) * 2013-10-24 2014-01-29 青岛英网资讯股份有限公司 网站信息合并去重方法
CN103927400A (zh) * 2014-05-07 2014-07-16 重庆邮电大学 Web网站产品详细信息的分类抓取及产品信息库建立方法
CN104050540A (zh) * 2014-06-27 2014-09-17 北京思特奇信息技术股份有限公司 一种团队协作任务管理的方法及系统
CN105069135A (zh) * 2015-08-18 2015-11-18 携程计算机技术(上海)有限公司 Ota网站的数据爬取方法及系统
CN106528567A (zh) * 2015-09-11 2017-03-22 北京国双科技有限公司 网络爬虫集群信息的更新方法和装置
CN106547803A (zh) * 2015-09-23 2017-03-29 北京国双科技有限公司 爬取网站增量资源的方法和装置
CN107102997A (zh) * 2016-02-22 2017-08-29 北京国双科技有限公司 数据爬取方法及装置
CN106776768A (zh) * 2016-11-23 2017-05-31 福建六壬网安股份有限公司 一种分布式爬虫引擎的url抓取方法及系统
CN108536691A (zh) * 2017-03-01 2018-09-14 中兴通讯股份有限公司 网页爬取方法和装置
CN110147473A (zh) * 2017-08-28 2019-08-20 北京国双科技有限公司 一种爬虫的爬取方法及装置
CN110516139A (zh) * 2019-09-05 2019-11-29 上海携程商务有限公司 爬虫系统及方法
CN110674125A (zh) * 2019-09-24 2020-01-10 北京明略软件系统有限公司 一种待融合数据的过滤方法、过滤装置及可读存储介质
CN111489330A (zh) * 2020-03-24 2020-08-04 中国科学院大学 基于多源信息融合的弱小目标检测方法
CN111444412A (zh) * 2020-04-03 2020-07-24 北京明朝万达科技股份有限公司 网络爬虫任务的调度方法及装置
CN112597367A (zh) * 2020-11-30 2021-04-02 国网北京市电力公司 数据信息融合系统及目标决策的生成方法

Also Published As

Publication number Publication date
CN113965371B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
US11190536B2 (en) Website vulnerability scan method, device, computer apparatus, and storage medium
CN106598992B (zh) 数据库的操作方法及装置
CN107943718B (zh) 一种清理缓存文件的方法和装置
JP2005228343A (ja) 決定理論的ウェブクローリングおよびウェブページ変更予測
CN110188543A (zh) 白名单库、白名单程序库更新方法及工控系统
CN110046029A (zh) 应用于集群内多级缓存的数据处理方法和装置
US11456914B2 (en) Implementing affinity and anti-affinity with KUBERNETES
US20120143844A1 (en) Multi-level coverage for crawling selection
US9514176B2 (en) Database update notification method
KR20230093420A (ko) 데이터 세트 및 노드 캐시 기반의 스케줄링 방법 및 장치
CN107451152B (zh) 计算设备、数据缓存和查找的方法及装置
US9317432B2 (en) Methods and systems for consistently replicating data
CN102413201A (zh) 一种dns查询请求的处理方法及设备
CN113965371A (zh) 网站监测过程中的任务处理方法、装置、终端及存储介质
CN112347394A (zh) 网页信息的获取方法、装置、计算机设备和存储介质
CN111046316A (zh) 一种应用上架状态监控方法、智能终端及存储介质
CN113268401B (zh) 日志信息的输出方法、装置及计算机可读存储介质
JP5884566B2 (ja) バッチ処理システム、進捗状況確認装置、進捗状況確認方法、及びプログラム
CN110083509A (zh) 一种日志数据的规整方法及装置
CN110780983A (zh) 任务异常处理方法、装置、计算机设备以及存储介质
CN115828023B (zh) 一种通过机器模型识别网络内容敏感度的方法及系统
CN117633329A (zh) 一种面向多数据源的数据采集方法与系统
JP4917057B2 (ja) 情報収集方法及び情報収集装置
CN115277408B (zh) 代理配置信息的更新方法、装置、设备及存储介质
JP2004240852A (ja) ワークフローシステム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant