CN116361529A - 一种爬虫监控的方法、装置、电子设备及存储介质 - Google Patents
一种爬虫监控的方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116361529A CN116361529A CN202310636363.3A CN202310636363A CN116361529A CN 116361529 A CN116361529 A CN 116361529A CN 202310636363 A CN202310636363 A CN 202310636363A CN 116361529 A CN116361529 A CN 116361529A
- Authority
- CN
- China
- Prior art keywords
- data
- crawler
- target
- constraint specification
- site
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000012544 monitoring process Methods 0.000 title claims abstract description 45
- 230000002159 abnormal effect Effects 0.000 claims abstract description 72
- 238000012423 maintenance Methods 0.000 claims abstract description 33
- 230000008569 process Effects 0.000 claims abstract description 13
- 230000005856 abnormality Effects 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 abstract description 4
- 238000012806 monitoring device Methods 0.000 abstract description 3
- 230000009193 crawling Effects 0.000 description 15
- 238000013515 script Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 238000013480 data collection Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 241000239290 Araneae Species 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3089—Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供了一种爬虫监控的方法、装置、电子设备及存储介质,该方法包括:获取目标爬虫,从预设的配置表中查询目标爬虫待爬取的目标网站,并对目标网站进行监控,获取目标网站的站点数据;使目标爬虫按照对应采集逻辑爬取目标网站的数据,同时,记录目标爬虫在运行过程中的运行数据;基于预设的约束规范,对站点数据和运行数据进行检测,确定站点数据和运行数据是否符合约束规范;在站点数据和/或运行数据不符合约束规范的时候,确定目标爬虫的异常类型,并根据异常类型生成对应的维护任务。本申请通过对站点数据和运行数据进行采集分析,能够准确的确定出爬虫是否符合约束规范,在不符合约束规范时及时进行维护,提高了工作效率。
Description
技术领域
本申请涉及爬虫监控技术领域,具体而言,涉及一种爬虫监控的方法、装置、电子设备及存储介质。
背景技术
随着网络技术的飞速发展,网络数据呈爆炸式增长。例如招标信息发布平台,招标信息发布平台上多大量的招投标信息。为了提高数据获取效率,爬虫应运而生。网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
招标信息发布平台的每个网站需要研发至少一个爬虫脚本,这样就有数十万个爬虫采集其网站数据,这些爬虫脚本都是自动触发采集流程的,其运行状态和采集的数据是否正常能够正常采集到、数据采集的完整性需要进行监控。
发明内容
有鉴于此,本申请的目的在于提供一种爬虫监控的方法、装置、电子设备及存储介质,通过对站点数据和运行数据进行采集分析,能够准确的确定出爬虫是否符合约束规范,在不符合约束规范时及时进行维护,提高了工作效率。
第一方面,本申请实施例提供了一种爬虫监控的方法,所述方法包括:
获取目标爬虫,从预设的配置表中查询所述目标爬虫待爬取的目标网站,并对所述目标网站进行监控,获取所述目标网站的站点数据;所述配置表还包括所述目标爬虫与所述目标网站的对应采集逻辑,所述站点数据为在对应采集逻辑下所述目标网站中能够影响所述目标爬虫的数据;
运行所述目标爬虫,使所述目标爬虫按照对应采集逻辑爬取所述目标网站的数据,同时,记录所述目标爬虫在运行过程中的运行数据;
基于预设的约束规范,对所述站点数据和所述运行数据进行检测,确定所述站点数据和所述运行数据是否符合所述约束规范;
在所述站点数据和/或所述运行数据不符合所述约束规范的时候,确定所述目标爬虫的异常类型,并根据所述异常类型生成对应的维护任务。
在本申请一些技术方案中,上述站点数据包括多个不同的类型;所述方法通过以下方式确定所述目标爬虫的异常类型;
基于对应的约束规范,对各个类型的所述站点数据进行检测;
若所述站点数据不满足所述约束规范,根据所述站点数据的类型,确定所述目标爬虫的异常类型。
在本申请一些技术方案中,上述站点数据包括基础配置数据和内容状态数据;所述方法通过以下方式对站点数据进行检测:
基于所述基础配置数据对应的配置约束规范,对所述基础配置数据进行检测;
若所述基础配置数据不满足所述配置约束规范,根据所述基础配置数据的不满足项,确定所述目标爬虫的异常类型;
基于所述内容状态数据对应的内容约束规范,对所述内容状态数据进行检测;
若所述内容状态数据不满足所述内容约束规范,根据所述内容状态数据的不满足项,确定所述目标爬虫的异常类型。
在本申请一些技术方案中,上述约束规范包括第一约束规范和第二约束规范,所述基于预设的约束规范,对所述站点数据和所述运行数据进行检测,确定所述站点数据和所述运行数据是否符合所述约束规范,包括:
对所述站点数据和所述运行数据进行检测,确定所述站点数据和所述运行数据是否符合所述第一约束规范;
在所述站点数据和所述运行数据符合所述第一约束规范时,对所述站点数据和所述运行数据进行检测,确定所述站点数据和所述运行数据是否符合所述第二约束规范;
在所述站点数据和/或所述运行数据不符合所述第二约束规范时,根据所述站点数据和/或所述运行数据,确定所述目标爬虫的异常类型,并根据所述异常类型生成对应生成维护任务。
在本申请一些技术方案中,上述方法还包括:
在所述站点数据和/或所述运行数据不符合所述第一约束规范时,根据所述站点数据和/或所述运行数据,确定所述目标爬虫的异常类型,并根据所述异常类型生成对应生成维护任务。
在本申请一些技术方案中,上述目标爬虫的异常类型包括网站异常、爬虫异常;所述方法通过以下方式确定所述目标爬虫的异常类型:
若所述在所述站点数据不符合所述约束规范,所述目标爬虫的异常类型为网站异常;
若所述在所述运行数据不符合所述约束规范,所述目标爬虫的异常类型为爬虫异常;
若所述站点数据和所述运行数据不符合所述约束规范,所述目标爬虫的异常类型为爬虫异常和网站异常。
在本申请一些技术方案中,上述方法通过以下方式生成维护任务:
构建异常判定维度模型,并通过所述异常判定维度模型来确定所述站点数据和所述运行数据的异常维度;
根据所述站点数据和所述运行数据的异常维度,生成维护任务。
第二方面,本申请实施例提供了一种爬虫监控的装置,所述装置包括:
获取模块,用于获取目标爬虫,从预设的配置表中查询所述目标爬虫待爬取的目标网站,并对所述目标网站进行监控,获取所述目标网站的站点数据;所述配置表还包括所述目标爬虫与所述目标网站的对应采集逻辑,所述站点数据为在对应采集逻辑下所述目标网站中能够影响所述目标爬虫的数据;
运行模块,用于运行所述目标爬虫,使所述目标爬虫按照对应采集逻辑爬取所述目标网站的数据,同时,记录所述目标爬虫在运行过程中的运行数据;
检测模块,用于基于预设的约束规范,对所述站点数据和所述运行数据进行检测,确定所述站点数据和所述运行数据是否符合所述约束规范;
维护模块,用于在所述站点数据和/或所述运行数据不符合所述约束规范的时候,确定所述目标爬虫的异常类型,并根据所述异常类型生成对应的维护任务。
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的爬虫监控的方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的爬虫监控的方法的步骤。
本申请的实施例提供的技术方案可以包括以下有益效果:
本申请方法包括获取目标爬虫,从预设的配置表中查询所述目标爬虫待爬取的目标网站,并对所述目标网站进行监控,获取所述目标网站的站点数据;所述配置表还包括所述目标爬虫与所述目标网站的对应采集逻辑,所述站点数据为在对应采集逻辑下所述目标网站中能够影响所述目标爬虫的数据运行所述目标爬虫,使所述目标爬虫按照对应采集逻辑爬取所述目标网站的数据,同时,记录所述目标爬虫在运行过程中的运行数据;基于预设的约束规范,对所述站点数据和所述运行数据进行检测,确定所述站点数据和所述运行数据是否符合所述约束规范;在所述站点数据和/或所述运行数据不符合所述约束规范的时候,确定所述目标爬虫的异常类型,并根据所述异常类型生成对应的维护任务。本申请通过对站点数据和运行数据进行采集分析,能够准确的确定出爬虫是否符合约束规范,在不符合约束规范时及时进行维护,提高了工作效率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍, 应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种爬虫监控的方法的流程示意图;
图2示出了本申请实施例所提供的一种爬虫监控的装置示意图;
图3为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。 应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。 此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其他的特征。
随着网络技术的飞速发展,网络数据呈爆炸式增长。例如招标信息发布平台,招标信息发布平台上多大量的招投标信息。为了提高数据获取效率,爬虫应运而生。网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
招标信息发布平台的每个网站需要研发至少一个爬虫脚本,这样就有数十万个爬虫采集其网站数据,这些爬虫脚本都是自动触发采集流程的,其运行状态和采集的数据是否正常能够正常采集到、数据采集的完整性需要进行监控。
基于此,本申请实施例提供了一种爬虫监控的方法、装置、电子设备及存储介质,下面通过实施例进行描述。
图1示出了本申请实施例所提供的一种爬虫监控的方法的流程示意图,其中,该方法包括步骤S101-S104;具体的:
S101、获取目标爬虫,从预设的配置表中查询所述目标爬虫待爬取的目标网站,并对所述目标网站进行监控,获取所述目标网站的站点数据;所述配置表还包括所述目标爬虫与所述目标网站的对应采集逻辑,所述站点数据为在对应采集逻辑下所述目标网站中能够影响所述目标爬虫的数据;
S102、运行所述目标爬虫,使所述目标爬虫按照对应采集逻辑爬取所述目标网站的数据,同时,记录所述目标爬虫在运行过程中的运行数据;
S103、基于预设的约束规范,对所述站点数据和所述运行数据进行检测,确定所述站点数据和所述运行数据是否符合所述约束规范;
S104、在所述站点数据和/或所述运行数据不符合所述约束规范的时候,确定所述目标爬虫的异常类型,并根据所述异常类型生成对应的维护任务。
本申请通过对站点数据和运行数据进行采集分析,能够准确的确定出爬虫是否符合约束规范,在不符合约束规范时及时进行维护,提高了工作效率。
下面对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
S101、获取目标爬虫,从预设的配置表中查询所述目标爬虫待爬取的目标网站,并对所述目标网站进行监控,获取所述目标网站的站点数据;所述配置表还包括所述目标爬虫与所述目标网站的对应采集逻辑,所述站点数据为在对应采集逻辑下所述目标网站中能够影响所述目标爬虫的数据。
爬虫在创建之后都会应用在某一网站上进行数据采集,本申请实施例将爬虫采集数据的网站称为与该爬虫对应的网站。每个网站都对应有自己的域名和ip地址。域名(英语:Domain Name),又称网域,是由一串用点分隔的名字组成的互联网上某一台计算机或计算机组的名称,用于在数据传输时对计算机的定位标识(有时也指地理位置)。由于IP地址不方便记忆并且不能显示地址组织的名称和性质,人们设计出了域名,并通过域名系统(DNS,Domain Name System)来将域名和IP地址相互映射,使人更方便地访问互联网,而不用去记住能够被机器直接读取的IP地址数串。IP地址和域名是一一对应的,这份域名地址的信息存放在一个叫域名服务器(Domain name server)的主机内,使用者只需了解易记的域名地址,其对应转换工作就留给了域名服务器。域名服务器就是提供IP地址和域名之间的转换服务的服务器。
网站上会包含有多个栏目页。网页栏目页是指网站建设的主要板块内容,一般指网站导航栏目页、二级栏目页、三级栏目页等等,主要是为了方便用户快速找到自己想了解的东西,增强用户体验。每个栏目页都对应有自己的地址,网站上的多个栏目页对应一dom树结构和一栏目页列表。每个栏目页包含有对应的标题信息、发布时间信息、正文信息和附件信息,网站还会包含有公告等内容。
爬虫在开发完成时,都会与该爬虫需要爬取的网站之间建立对应爬取逻辑,在建立对应爬取逻辑之后,爬虫按照对应爬取逻辑在网站上爬取数据。这里的对应爬取逻辑包括了爬虫爬取网站的对应关系、爬虫在网站上爬取内容等。例如,爬虫A在开发完成后设置其去爬取网站B,且需要爬取网站B上的新闻等。
在爬虫对网站进行爬取的时候,可能存在不能够得到正常结果的情况。针对上述的目标网站,为了对目标爬虫进行监控,本申请实施例获取了该目标网站上的站点数据。所述站点数据为在对应采集逻辑下所述目标网站中能够影响所述目标爬虫的数据,例如网站的基础配置数据和内容状态数据。网站的基础配置或者内容状态发生改变的时候,都会破坏目标爬虫与目标网站之间的对应爬取逻辑,这些都会导致爬虫不能够得到正常的爬取结果。本申请实施例中对于站点数据的采集包括:针对目标爬虫对应的目标网站的基础配置信息,获取目标爬虫对应目标网站的基础配置数据;针对目标爬虫对应的目标网站,在所述目标网站的内容状态发生改变时,获取目标爬虫对应目标网站的内容状态数据。这里的基础配置数据包括了与目标爬虫对应的网站、栏目等。这里的内容状态数据包括了网站请求状态信息、栏目地址请求状态信息、栏目地址dom数据结构变化信息、网站改版公告等。
S102、运行所述目标爬虫,使所述目标爬虫按照对应采集逻辑爬取所述目标网站的数据,同时,记录所述目标爬虫在运行过程中的运行数据。
为了得到目标爬虫正确的爬取结果,爬虫自身能够正常运行也是影响爬取结果的一个方面。所以本申请实施例在采集了站点数据之后,还需要采集目标爬虫在运行过程中的运行数据。运行目标爬虫,在目标爬虫在按照对应采集逻辑爬取目标网站的数据时,记录目标爬虫在运行过程中的运行数据。这里的运行数据包括了爬虫运行频次、时间等信息,爬虫采集列表页运行信息,提取列表页信息数量,运行时间等,爬虫采集快照页运行信息,是否采集到正文信息,运行时间等,爬虫脚本运行错误信息,错误分类。
S103、基于预设的约束规范,对所述站点数据和所述运行数据进行检测,确定所述站点数据和所述运行数据是否符合所述约束规范。
在采集到站点数据和目标爬虫的运行数据之后,本申请实施例通过对站点数据和运行数据进行分析。这里对于站点数据和运行数据的分析主要包括了判断站点数据和运行数据是否满足预设的约束规则。如果站点数据和运行数据满足预设的约束规则的话,则认为爬虫运行正常;如果站点数据和/或运行数据不满足预设的约束规则的话,则认为爬虫运行异常。
在对站点数据和运行数据进行判断的时候,本申请实施例中预设的约束规则又分为了第一约束规范和第二约束规范。对于站点数据和运行数据的判断过程就包括了对所述站点数据和所述运行数据进行检测,确定所述站点数据和所述运行数据是否符合所述第一约束规范;在所述站点数据和所述运行数据符合所述第一约束规范时,对所述站点数据和所述运行数据进行检测,确定所述站点数据和所述运行数据是否符合所述第二约束规范。
在所述站点数据和/或所述运行数据不符合所述第一约束规范时,根据所述站点数据和/或所述运行数据,确定所述目标爬虫的异常类型,并根据所述异常类型生成对应生成维护任务。在所述站点数据和/或所述运行数据不符合所述第二约束规范时,根据所述站点数据和/或所述运行数据,确定所述目标爬虫的异常类型,并根据所述异常类型生成对应生成维护任务。
在具体实施的时候,采集的站点数据和运行数据分别对应有不同的采集字段,在获取了对应的采集字段之后还需要对该采集字段下的字段内容进行分析。所以上述实施例中的第一约束规范对应为采集字段约束规范,第二约束规范对应为采集内容约束规范。即对于站点数据和运行数据的判断过程就包括了对所述站点数据和所述运行数据进行检测,确定所述站点数据和所述运行数据是否符合所述采集字段约束规范;在所述站点数据和所述运行数据符合所述采集字段约束规范时,对所述站点数据和所述运行数据进行检测,确定所述站点数据和所述运行数据是否符合所述采集内容约束规范。
作为本申请中一种可选的实施例,由于影响爬虫与网站之间对应爬取逻辑的数据包括网站的基础配置数据和内容状态数据,所以本申请实施例将站点数据分为了不同的类型,在对站点数据进行检测的时候,本申请实施例使用对应类型的约束规则对各个类型的站点数据分别进行检测,如果站点数据不满足所述约束规范,根据所述站点数据的类型,确定所述目标爬虫的异常类型。即本申请中的约束规则也包括多个类型,不同类型的约束规则检测对应类型的站点数据。
具体的,本申请实施例中的站点数据包括的不同类型的数据为基础配置数据和内容状态数据。在对基础配置数据进行检查的时候,使用与基础配置数据对应的配置约束规则进行。在对内容状态数据进行检测的时候,使用与内容状态数据对应的内容约束规则。若所述基础配置数据不满足所述配置约束规范,根据所述基础配置数据的不满足项,确定所述目标爬虫的异常类型;若所述内容状态数据不满足所述内容约束规范,根据所述内容状态数据的不满足项,确定所述目标爬虫的异常类型。例如,对于基础配置数据进行检测的时候使用字段A进行检测,对内容状态数据进行检测的时候使用字段B进行检测。
S104、在所述站点数据和/或所述运行数据不符合所述约束规范的时候,确定所述目标爬虫的异常类型,并根据所述异常类型生成对应的维护任务。
通过对站点数据和运行数据进行分析,在所述站点数据或所述运行数据不符合所述约束规范的时候,确定目标爬虫存在异常。在目标爬虫存在异常的时候,生成维护任务,提示管理人员及时进行维护。
本申请实施例中爬虫不能够得到正确爬取结果包含了两种因素:网站异常和爬虫异常。网站异常还包括多种异常小类,爬虫异常也包括有多种异常小类。本申请在确定了目标爬虫的异常类型进行区分为:若所述在所述站点数据不符合所述约束规范,所述目标爬虫的异常类型为网站异常;若所述在所述运行数据不符合所述约束规范,所述目标爬虫的异常类型为爬虫异常;若所述站点数据和所述运行数据不符合所述约束规范,所述目标爬虫的异常类型为爬虫异常和网站异常。在确定了是网站异常和/或爬虫异常之后,还能进一步分析确定出更加准确的异常类型。
需要说明的是,这里的网站异常是网站本身的异常,网站本申请的异常时即使爬虫正常也不能得到正常爬取结果。这里的爬虫异常是爬虫本身的异常,即不能正常工作,网站正常时,爬虫不能共组偶也不能得到正常爬取结果。这里的更加准确的异常类型是相对而言的,例如确定出来的爬虫异常是较大范围的异常,在确定出来爬虫运行异常之后,对运行数据进行进一步分析,得到导致爬虫异常的具体原因。
在确定目标排重的异常类型之后,根据异常类型生成维护认为。在生成维护任务之前,为了提高维护效率,本申请实施例还构建了异常判定维度模型。异常判定维度模型应包含但不限于与以下内容:日志异常等级、日志异常类型、日志异常发生频次、日志异常权重、日志异常平均偏离值等。本申请是实施例通过异常判定维度模型来确定所述在所述站点数据和所述运行数据的异常维度,然后基于确定才异常维度生成更加具体的维护任务。
在一可选的实施方式中,在具体实施的时候,可以按照以下方式进行操作,从整体上分为了原网站监控、爬虫运行监控、采集数据内容监控和异常采集模型处理。其中,原网站监控包括了站点数据→网站域名或ip地址变更→网站栏目地址变化→栏目页dom树结构变化→监控日志:1.网站请求状态信息;2.栏目地址请求状态信息;3.栏目地址dom树结构是否变化;4、网站首页是否有改版公告。爬虫运行监控包括:采集节点集群→列表页数据采集监控→快照也数据采集监控→爬虫错误日志监控→监控日志:1、爬虫运行频次、时间等信息;2.爬虫采集列表页运行信息,提取列表页数量。运行时间等;3.爬虫采集快照页运行信息,是否采集到正文信息,运行时间等;4.爬虫脚本运行错误信息,错误分类。采集数据内容监控包括采集结果数据库→采集字段约束规范/采集内容约束规范→是否满足规范→不满足规范时→监控日志:1.字段检查日志;2.字段内容检查日志。异常采集模型:日志信息库→异常判定维度模型应包含但不限于与以下内容:日志异常等级、日志异常类型、日志异常发生频次、日志异常权重、日志异常平均偏离值等→判断是否输出异常→提取对应网站及爬虫→爬虫负责人。
图2示出了本申请实施例所提供的一种爬虫监控的装置的结构示意图,所述装置包括:
获取模块,用于获取目标爬虫,从预设的配置表中查询所述目标爬虫待爬取的目标网站,并对所述目标网站进行监控,获取所述目标网站的站点数据;所述配置表还包括所述目标爬虫与所述目标网站的对应采集逻辑,所述站点数据为在对应采集逻辑下所述目标网站中能够影响所述目标爬虫的数据;
运行模块,用于运行所述目标爬虫,使所述目标爬虫按照对应采集逻辑爬取所述目标网站的数据,同时,记录所述目标爬虫在运行过程中的运行数据;
检测模块,用于基于预设的约束规范,对所述站点数据和所述运行数据进行检测,确定所述站点数据和所述运行数据是否符合所述约束规范;
维护模块,用于在所述站点数据和/或所述运行数据不符合所述约束规范的时候,确定所述目标爬虫的异常类型,并根据所述异常类型生成对应的维护任务。
所述站点数据包括多个不同的类型;所述方法通过以下方式确定所述目标爬虫的异常类型;
基于对应的约束规范,对各个类型的所述站点数据进行检测;
若所述站点数据不满足所述约束规范,根据所述站点数据的类型,确定所述目标爬虫的异常类型。
所述站点数据包括基础配置数据和内容状态数据;所述方法通过以下方式对站点数据进行检测:
基于所述基础配置数据对应的配置约束规范,对所述基础配置数据进行检测;
若所述基础配置数据不满足所述配置约束规范,根据所述基础配置数据的不满足项,确定所述目标爬虫的异常类型;
基于所述内容状态数据对应的内容约束规范,对所述内容状态数据进行检测;
若所述内容状态数据不满足所述内容约束规范,根据所述内容状态数据的不满足项,确定所述目标爬虫的异常类型。
所述约束规范包括第一约束规范和第二约束规范,所述基于预设的约束规范,对所述站点数据和所述运行数据进行检测,确定所述站点数据和所述运行数据是否符合所述约束规范,包括:
对所述站点数据和所述运行数据进行检测,确定所述站点数据和所述运行数据是否符合所述第一约束规范;
在所述站点数据和所述运行数据符合所述第一约束规范时,对所述站点数据和所述运行数据进行检测,确定所述站点数据和所述运行数据是否符合所述第二约束规范;
在所述站点数据和/或所述运行数据不符合所述第二约束规范时,根据所述站点数据和/或所述运行数据,确定所述目标爬虫的异常类型,并根据所述异常类型生成对应生成维护任务。
在所述站点数据和/或所述运行数据不符合所述第一约束规范时,根据所述站点数据和/或所述运行数据,确定所述目标爬虫的异常类型,并根据所述异常类型生成对应生成维护任务。
所述目标爬虫的异常类型包括网站异常、爬虫异常;所述方法通过以下方式确定所述目标爬虫的异常类型:
若所述在所述站点数据不符合所述约束规范,所述目标爬虫的异常类型为网站异常;
若所述在所述运行数据不符合所述约束规范,所述目标爬虫的异常类型为爬虫异常;
若所述站点数据和所述运行数据不符合所述约束规范,所述目标爬虫的异常类型为爬虫异常和网站异常。
构建异常判定维度模型,并通过所述异常判定维度模型来确定所述站点数据和所述运行数据的异常维度;
根据所述站点数据和所述运行数据的异常维度,生成维护任务。
如图3所示,本申请实施例提供了一种电子设备,用于执行本申请中的爬虫监控的方法,该设备包括存储器、处理器、总线及存储在该存储器上并可在该处理器上运行的计算机程序,其中,上述处理器执行上述计算机程序时实现上述的爬虫监控的方法的步骤。
具体地,上述存储器和处理器可以为通用的存储器和处理器,这里不做具体限定,当处理器运行存储器存储的计算机程序时,能够执行上述的爬虫监控的方法。
对应于本申请中的爬虫监控的方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述的爬虫监控的方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述的爬虫监控的方法。
在本申请所提供的实施例中,应该理解到,所揭露系统和方法,可以通过其他的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其他的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory, ROM)、随机存取存储器(Random Access Memory ,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种爬虫监控的方法,其特征在于,所述方法包括:
获取目标爬虫,从预设的配置表中查询所述目标爬虫待爬取的目标网站,并对所述目标网站进行监控,获取所述目标网站的站点数据;所述配置表还包括所述目标爬虫与所述目标网站的对应采集逻辑,所述站点数据为在对应采集逻辑下所述目标网站中能够影响所述目标爬虫的数据;
运行所述目标爬虫,使所述目标爬虫按照对应采集逻辑爬取所述目标网站的数据,同时,记录所述目标爬虫在运行过程中的运行数据;
基于预设的约束规范,对所述站点数据和所述运行数据进行检测,确定所述站点数据和所述运行数据是否符合所述约束规范;
在所述站点数据和/或所述运行数据不符合所述约束规范的时候,确定所述目标爬虫的异常类型,并根据所述异常类型生成对应的维护任务。
2.根据权利要求1所述的方法,其特征在于,所述站点数据包括多个不同的类型;所述方法通过以下方式确定所述目标爬虫的异常类型;
基于对应的约束规范,对各个类型的所述站点数据进行检测;
若所述站点数据不满足所述约束规范,根据所述站点数据的类型,确定所述目标爬虫的异常类型。
3.根据权利要求1所述的方法,其特征在于,所述站点数据包括基础配置数据和内容状态数据;所述方法通过以下方式对站点数据进行检测:
基于所述基础配置数据对应的配置约束规范,对所述基础配置数据进行检测;
若所述基础配置数据不满足所述配置约束规范,根据所述基础配置数据的不满足项,确定所述目标爬虫的异常类型;
基于所述内容状态数据对应的内容约束规范,对所述内容状态数据进行检测;
若所述内容状态数据不满足所述内容约束规范,根据所述内容状态数据的不满足项,确定所述目标爬虫的异常类型。
4.根据权利要求1所述的方法,其特征在于,所述约束规范包括第一约束规范和第二约束规范,所述基于预设的约束规范,对所述站点数据和所述运行数据进行检测,确定所述站点数据和所述运行数据是否符合所述约束规范,包括:
对所述站点数据和所述运行数据进行检测,确定所述站点数据和所述运行数据是否符合所述第一约束规范;
在所述站点数据和所述运行数据符合所述第一约束规范时,对所述站点数据和所述运行数据进行检测,确定所述站点数据和所述运行数据是否符合所述第二约束规范;
在所述站点数据和/或所述运行数据不符合所述第二约束规范时,根据所述站点数据和/或所述运行数据,确定所述目标爬虫的异常类型,并根据所述异常类型生成对应生成维护任务。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
在所述站点数据和/或所述运行数据不符合所述第一约束规范时,根据所述站点数据和/或所述运行数据,确定所述目标爬虫的异常类型,并根据所述异常类型生成对应生成维护任务。
6.根据权利要求1所述的方法,其特征在于,所述目标爬虫的异常类型包括网站异常、爬虫异常;所述方法通过以下方式确定所述目标爬虫的异常类型:
若所述在所述站点数据不符合所述约束规范,所述目标爬虫的异常类型为网站异常;
若所述在所述运行数据不符合所述约束规范,所述目标爬虫的异常类型为爬虫异常;
若所述站点数据和所述运行数据不符合所述约束规范,所述目标爬虫的异常类型为爬虫异常和网站异常。
7.根据权利要求1所述的方法,其特征在于,所述方法通过以下方式生成维护任务:
构建异常判定维度模型,并通过所述异常判定维度模型来确定所述站点数据和所述运行数据的异常维度;
根据所述站点数据和所述运行数据的异常维度,生成维护任务。
8.一种爬虫监控的装置,其特征在于,所述装置包括:
获取模块,用于获取目标爬虫,从预设的配置表中查询所述目标爬虫待爬取的目标网站,并对所述目标网站进行监控,获取所述目标网站的站点数据;所述配置表还包括所述目标爬虫与所述目标网站的对应采集逻辑,所述站点数据为在对应采集逻辑下所述目标网站中能够影响所述目标爬虫的数据;
运行模块,用于运行所述目标爬虫,使所述目标爬虫按照对应采集逻辑爬取所述目标网站的数据,同时,记录所述目标爬虫在运行过程中的运行数据;
检测模块,用于基于预设的约束规范,对所述站点数据和所述运行数据进行检测,确定所述站点数据和所述运行数据是否符合所述约束规范;
维护模块,用于在所述站点数据和/或所述运行数据不符合所述约束规范的时候,确定所述目标爬虫的异常类型,并根据所述异常类型生成对应的维护任务。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的爬虫监控的方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的爬虫监控的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310636363.3A CN116361529B (zh) | 2023-06-01 | 2023-06-01 | 一种爬虫监控的方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310636363.3A CN116361529B (zh) | 2023-06-01 | 2023-06-01 | 一种爬虫监控的方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116361529A true CN116361529A (zh) | 2023-06-30 |
CN116361529B CN116361529B (zh) | 2023-11-10 |
Family
ID=86923808
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310636363.3A Active CN116361529B (zh) | 2023-06-01 | 2023-06-01 | 一种爬虫监控的方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116361529B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117390249A (zh) * | 2023-12-12 | 2024-01-12 | 中国测绘科学研究院 | 一种基于网络大数据的主题公园运行监测方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103248625A (zh) * | 2013-04-27 | 2013-08-14 | 北京京东尚科信息技术有限公司 | 一种网络爬虫运行异常监控方法和系统 |
US10257208B1 (en) * | 2004-12-02 | 2019-04-09 | Google Llc | Method and system for using a network analysis system to verify content on a website |
CN110968754A (zh) * | 2018-09-28 | 2020-04-07 | 北京国双科技有限公司 | 一种爬虫翻页策略的检测方法及装置 |
CN112667873A (zh) * | 2020-12-16 | 2021-04-16 | 北京华如慧云数据科技有限公司 | 一种适用于多数网站通用采集数据的爬虫系统及方法 |
CN114297460A (zh) * | 2021-11-15 | 2022-04-08 | 北京众标智能科技有限公司 | 一种分布式动态可配置的爬虫平台及爬虫方法 |
US20220365998A1 (en) * | 2021-05-11 | 2022-11-17 | Oracle International Corporation | Target web and social media messaging based on event signals |
-
2023
- 2023-06-01 CN CN202310636363.3A patent/CN116361529B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10257208B1 (en) * | 2004-12-02 | 2019-04-09 | Google Llc | Method and system for using a network analysis system to verify content on a website |
CN103248625A (zh) * | 2013-04-27 | 2013-08-14 | 北京京东尚科信息技术有限公司 | 一种网络爬虫运行异常监控方法和系统 |
CN110968754A (zh) * | 2018-09-28 | 2020-04-07 | 北京国双科技有限公司 | 一种爬虫翻页策略的检测方法及装置 |
CN112667873A (zh) * | 2020-12-16 | 2021-04-16 | 北京华如慧云数据科技有限公司 | 一种适用于多数网站通用采集数据的爬虫系统及方法 |
US20220365998A1 (en) * | 2021-05-11 | 2022-11-17 | Oracle International Corporation | Target web and social media messaging based on event signals |
CN114297460A (zh) * | 2021-11-15 | 2022-04-08 | 北京众标智能科技有限公司 | 一种分布式动态可配置的爬虫平台及爬虫方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117390249A (zh) * | 2023-12-12 | 2024-01-12 | 中国测绘科学研究院 | 一种基于网络大数据的主题公园运行监测方法及系统 |
CN117390249B (zh) * | 2023-12-12 | 2024-03-12 | 中国测绘科学研究院 | 一种基于网络大数据的主题公园运行监测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116361529B (zh) | 2023-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shang et al. | Automated detection of performance regressions using regression models on clustered performance counters | |
CN110347561B (zh) | 监控告警方法及终端设备 | |
US9870279B2 (en) | Analysis apparatus and analysis method | |
Chen et al. | Identifying linked incidents in large-scale online service systems | |
CN111159514B (zh) | 网络爬虫的任务有效性检测方法、装置和设备及存储介质 | |
CN116361529B (zh) | 一种爬虫监控的方法、装置、电子设备及存储介质 | |
CN102663052B (zh) | 一种提供搜索引擎搜索结果的方法及装置 | |
CN110602045A (zh) | 一种基于特征融合和机器学习的恶意网页识别方法 | |
CN113282955A (zh) | 隐私政策中隐私信息提取方法、系统、终端及介质 | |
US20220284045A1 (en) | Matching machine generated data entries to pattern clusters | |
Mitropoulos et al. | Time present and time past: analyzing the evolution of JavaScript code in the wild | |
CN117473512A (zh) | 基于网络测绘的漏洞风险评估方法 | |
CN110008701B (zh) | 基于elf文件特征的静态检测规则提取方法及检测方法 | |
CN112434250B (zh) | 一种基于在线网站的cms识别特征规则提取方法 | |
Zhang et al. | A bug rule based technique with feedback for classifying bug reports | |
CN116861128A (zh) | 一种基于模拟访问的网站风险评估方法、装置及可存储介质 | |
CN112347328A (zh) | 一种网络平台识别方法、装置、设备及可读存储介质 | |
Fathurrahmad et al. | Automatic Scanner Tools Analysis As A Website Penetration Testing: Automatic Scanner Tools Analysis As A Website Penetration Testing | |
CN115186001A (zh) | 一种补丁处理方法和装置 | |
Nabuco et al. | Inferring user interface patterns from execution traces of web applications | |
CN112199573B (zh) | 一种非法交易主动探测方法及系统 | |
CN113849576A (zh) | 一种基于知识图谱的特定群体分析方法与系统 | |
KR101524618B1 (ko) | 유해 사이트 수집 장치 및 방법 | |
CN117009909B (zh) | 自动报障模型的构建方法、自动报障方法及其装置 | |
CN116150541B (zh) | 后台系统的识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |