CN114528179B - 数据采集程序状态监控方法、装置、设备及存储介质 - Google Patents

数据采集程序状态监控方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114528179B
CN114528179B CN202210074219.0A CN202210074219A CN114528179B CN 114528179 B CN114528179 B CN 114528179B CN 202210074219 A CN202210074219 A CN 202210074219A CN 114528179 B CN114528179 B CN 114528179B
Authority
CN
China
Prior art keywords
data
index
program
target
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210074219.0A
Other languages
English (en)
Other versions
CN114528179A (zh
Inventor
田振
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Maxtech Co ltd
Original Assignee
Beijing Maxtech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Maxtech Co ltd filed Critical Beijing Maxtech Co ltd
Priority to CN202210074219.0A priority Critical patent/CN114528179B/zh
Publication of CN114528179A publication Critical patent/CN114528179A/zh
Application granted granted Critical
Publication of CN114528179B publication Critical patent/CN114528179B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种数据采集程序状态监控方法、装置、设备及存储介质。该方法包括通过内嵌程序获取目标数据采集程序运行时所产生的各项指标的数据;指标包括地址类指标和状态类指标;将各项指标的数据存储进基于时间序列的数据库中;基于用户端向数据库发送的目标指标请求,得到数据库返回目标指标的数据,其中,目标指标包括一项地址类指标和至少一项状态类指标;根据返回的目标指标的数据对目标数据采集程序的运行状态进行分析。可以看出,本申请通过不同数据的不同维度的组合,可以达到从不同维度监控采集程序的运行状态和辅助排查潜在的程序问题,降低了程序的维护成本,极大的提高了纠错成本。

Description

数据采集程序状态监控方法、装置、设备及存储介质
技术领域
本发明涉及数据采集领域,特别涉及一种数据采集程序状态监控方法、装置、设备及存储介质。
背景技术
数据采集程序状态监控指的是对工作中的数据采集程序的运行状态的情况进行实时监控,从而使得在有不安全性的运行状态时,监控人员能够采取措施,在故障发生时能够及时发现再处理。
一般的数据采集程序状态监控依赖于日志的收集,其消耗的存储资源比较大,并且其发现问题是倒置式,由问题产生的结果反查问题发生的原因,并且大量的日志存储会拖慢原本采集程序的运行速率,导致监控拖慢采集效率的现象。
发明内容
基于此,本申请实施例提供了一种数据采集程序状态监控方法、装置、设备及存储介质,可以在保持采集程序运行效率的情况下,从不同维度监控采集程序的运行状态和辅助排查潜在的程序问题。
第一方面,提供了一种数据采集程序状态监控方法,该方法包括:
通过内嵌程序获取目标数据采集程序运行时所产生的各项指标的数据;所述内嵌程序内嵌于所述目标数据采集程序中,所述指标包括地址类指标和状态类指标;
将所述各项指标的数据存储进基于时间序列的数据库中;
基于用户端向所述数据库发送的目标指标请求,得到所述数据库返回目标指标的数据;其中,所述目标指标包括一项地址类指标和至少一项状态类指标;
根据返回的目标指标的数据对所述目标数据采集程序的运行状态进行分析。
可选地,所述根据返回的目标指标的数据对所述目标数据采集程序的运行状态进行分析,包括:
根据一项地址类指标的数据和至少一项状态类指标的数据进行分析,根据预设的指标组合关系得到所述目标数据采集程序的运行状态分析结果,并向用户端进行展示。
可选地,将所述各项指标的数据存储进基于时间序列的数据库中,包括:
将具有相同时间节点的地址类指标与状态类指标的数据进行绑定封装后存储进基于时间序列的数据库中。
可选地,在将所述各项指标的数据存储进基于时间序列的数据库中,还包括:
将所述各项指标的数据存储进缓存队列,将所述缓存队列中的数据存储进基于时间序列的数据库中。
可选地,所述地址类指标的数据至少包括:采集程序名称、采集程序所在系统IP、采集程序采集的URL以及请求IP;
所述状态类指标的数据至少包括:采集成功的当天数据、采集成功的历史数据、采集成功的404数据、采集成功的封禁数据、解析失败的数据、响应失败的数据、请求失败的数据。
可选地,当所述地址类指标为程序名称,状态类指标为目标数据采集程序采集成功状态时,根据预设的指标组合关系得到所述目标数据采集程序的运行状态分析结果包括:
分析可得到所述目标数据采集程序的日平均采集成功总数,并配合各采集请求的大小就能得出所述目标数据采集程序占用的网络带宽大小和存储需要的磁盘大小;
其中,通过第一公式确定网络带宽大小和存储需要的磁盘大小,第一公式具体包括:
Figure BDA0003483243040000031
Figure BDA0003483243040000032
其中,Bandwidth表示网络带宽大小,successToday表示当日请求成功页面,k1表示请求成功页面占存均值,notfoundToday表示当日请求404页面,,k2表示请求失败页面占存均值,Memory表示日采集总量占用磁盘空间大小。
第二方面,提供了一种数据采集程序状态监控装置,该装置包括:
获取模块,用于通过内嵌程序获取目标数据采集程序运行时所产生的各项指标的数据;所述内嵌程序内嵌于所述目标数据采集程序中,所述指标包括地址类指标和状态类指标;
存储模块,用于将所述各项指标的数据存储进基于时间序列的数据库中;
返回模块,用于基于用户端向所述数据库发送的目标指标请求,得到所述数据库返回目标指标的数据;其中,所述目标指标包括一项地址类指标和至少一项状态类指标;
分析模块,用于根据返回的目标指标的数据对所述目标数据采集程序的运行状态进行分析。
可选地,所述分析模块具体包括:
根据一项地址类指标的数据和至少一项状态类指标的数据进行分析,根据预设的指标组合关系得到所述目标数据采集程序的运行状态分析结果,并向用户端进行展示。
第三方面,提供了一种设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述第一方面任一所述的数据采集程序状态监控方法。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面任一所述的数据采集程序状态监控方法。
本申请实施例提供的技术方案中,首先通过内嵌程序获取目标数据采集程序运行时所产生的各项指标的数据;内嵌程序内嵌于目标数据采集程序中,指标包括地址类指标和状态类指标;将各项指标的数据存储进基于时间序列的数据库中;基于用户端向数据库发送的目标指标请求,得到数据库返回目标指标的数据;其中,目标指标包括一项地址类指标和至少一项状态类指标;根据返回的目标指标的数据对目标数据采集程序的运行状态进行分析。可以看出,本申请中通过目标指标可以自由组合想要监控的一切状态,通过不同数据的不同维度的组合,可以达到从不同维度监控采集程序的运行状态和辅助排查潜在的程序问题,设置某些数值的临界值之后,还能达到问题预警,预测问题发生前预警等功能,降低了程序的维护成本,极大的提高了纠错成本。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
图1为本申请实施例提供的一种数据采集程序状态监控方法的步骤流程图;
图2为本申请实施例提供的一种数据采集程序状态监控的示意图;
图3为本申请实施例提供的单点采集程序每小时采集成功走势图;
图4为本申请实施例提供的不同采集程序日平均采集量示意图;
图5为本申请实施例提供的单点采集程序不同时间的入库量展示图;
图6为本申请实施例提供的单点采集程序每小时程序运行状态展示图;
图7为本申请实施例提供的单点采集程序每小时不同状态采集速率及占比示意图;
图8为本申请实施例提供的单点采集程序随着时间的增长不同状态的走势图;
图9为本申请实施例提供的一种数据采集程序状态监控装置的框图;
图10为本申请实施例提供的一种电子设备的示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本方法主要以内嵌形式对采集程序产生的各个指标进行收集、过滤、清洗、入库、展示,进而对程序运行状态进行实时监控,对程序的未来可预见性的问题进行预测。为便于对本实施例进行理解,首先对本申请实施例所公开的一种数据采集程序状态监控方法进行详细介绍。
请参考图1,其示出了本申请实施例提供的一种数据采集程序状态监控方法的流程图,在本申请中实施的主体可以是服务器,该方法可以包括以下步骤:
步骤101,通过内嵌程序获取目标数据采集程序运行时所产生的各项指标的数据。
其中,内嵌程序内嵌于目标数据采集程序中,指标包括地址类指标和状态类指标。
在本申请实施例中,为了更全面的对一个采集程序的运行状态进行评估,本方法通过收集了大量的数据,再根据现象反推应有的属性变化,定义了一些可用对象并定义了其所包含的所有有效属性,对其进行不同的组合进行收集汇总,最后展示,达到发现、预测采集程序已发生或未来可能发生的问题。
具体地,本申请中需要对目标数据采集程序的运行状态采集的数据包括了地址类指标和状态类指标:
地址类指标可以指的是目标数据采集程序进行单次数据采集请求时所地址或名称,对于采集程序的地址类指标至少包括有:
spider_name:采集程序名
program_ip:采集程序所在系统ip
url:采集程序采集的URL,用于对采集网站的识别
request_ip:请求ip
状态类指标可以指的是目标数据采集程序进行单次数据采集请求时所反馈的状态,对于采集程序的状态类指标至少包括有:
Figure BDA0003483243040000061
为了使本监控程序能够细化到监控每一个请求的状态,从而反应出整个系统的运行状态,因此在收集采集信息的时候不仅收集响应信息,也收集请求信息中请求失败的信息,这样能够更准确,更客观的反应程序的运行状态,并且能更好的预测程序未来的运行问题。
步骤102,将各项指标的数据存储进基于时间序列的数据库中。
在本申请实施例中,因为要提高属性(指标)收集的效率,并且存在一定的可扩展性,所以采取地址和属性两两绑定封装对象的方法进行上传,这样做的目的是方便后期进行提取的时候能够高效的查询和对于某一个状态的展示的时候不会因为同一个对象有多个属性的时候,不同属性之间会产生影响的情况。
由于整个系统的数据存储结构是一个三维的数据结构,同一个程序的某一个指标由两个维度甚至多个维度组成,且同一个指标又随着时间的增长而增量增长,不同的数据指标之间存在交叉,因此,传统的二维关系型数据库不能最大化的存储相关指标,为了提高存储和读取性能,并满足多维数据的展示,最终选择了一个基于时间序列的数据库进行数据存储。
在本申请一个可选的实施例中,在将各项指标的数据存储进基于时间序列的数据库中,还包括:
将各项指标的数据存储进缓存队列,将缓存队列中的数据存储进基于时间序列的数据库中。通过将各项指标的数据先存储进缓存队列可以有效的提高存储效率。
步骤103,基于用户端向数据库发送的目标指标请求,得到数据库返回目标指标的数据。
其中,目标指标包括一项地址类指标和至少一项状态类指标。
在本申请实施例中,数据库可以将存储的目标数据采集程序的各个指标进行展示,用户可以选择展示的几种指标作为目标指标,向数据库发送的目标指标请求,得到数据库返回目标指标的数据。
步骤104,根据返回的目标指标的数据对目标数据采集程序的运行状态进行分析。
在本申请实施例中,具体根据一项地址类指标的数据和至少一项状态类指标的数据进行分析,根据预设的指标组合关系得到目标数据采集程序的运行状态分析结果,并向用户端进行展示。
以下给出几种地址类指标和状态类指标的进行组合后得到数据采集程序的运行状态分析结果:
用程序名称组合采集成功状态,即可展示某个采集程序的日平均采集成功总数,配合每一个请求的相应大小就能得出这个采集程序占用的网络带宽大小和存储需要的磁盘大小;
具体地,通过第一公式确定网络带宽大小和存储需要的磁盘大小,第一公式具体包括:
Figure BDA0003483243040000081
Figure BDA0003483243040000082
其中,Bandwidth表示网络带宽大小,successToday表示当日请求成功页面,k1表示请求成功页面占存均值,notfoundToday表示当日请求404页面,k2表示请求失败页面占存均值,故带宽值为当日请求成功页面累加值∑successToday乘以平均请求成功页面占存系数k1加上当日请求404页面累加值∑notfoundToday乘以平均响应404页面占存系数k2的和,除以一天时间精确到秒,再换算成带宽。
Memory表示采集总量占存大小,successToday表示当日请求成功页面,k1表示请求成功页面占存均值,notfoundToday表示当日请求404页面,k2表示请求失败页面占存均值,故带宽值为当日请求成功页面累加值∑successToday乘以平均请求成功页面占存系数k1加上当日请求404页面累加值∑notfoundToday乘以平均响应404页面占存系数k2的和,再换算成G单位,即每日采集数据总量占用磁盘空间大小。
用采集某一个采集程序(地址类指标)的响应成功的状态数量组合响应为404页面的数量(状态类指标)就能求出采集成功率,从而调节采集程序的采集频率,进而达到请求资源优化,物理磁盘合理占用的问题。具体地,通过第二公式确定网络带宽大小和存储需要的磁盘大小,第二公式具体包括:
Figure BDA0003483243040000091
其中,today表示采集成功率,success表示响应成功的状态数量,notfound表示响应为404页面的数量。
用某一个domain(地址类指标)的所有采集状态的集合的曲线(状态类指标),能直观的反映出哪些时刻,该domain信息更新的频次比较高,哪些时间段更新的频次比较低,可用于调节采集程序的采集频次,进而优化资源配比。
用某一个ip(地址类指标)的所有请求的平均值曲线和总数(状态类指标),即可直观的展示该ip下的资源消耗情况,从而调节硬件资源配比和性能占用不均问题。
用某一个网站(地址类指标)的请求成功且返回有效数据(状态类指标)的曲线图即可预测该网站是否存在域名更换,参数更换等情况,进而预测可预见的程序问题。
用某一个程序(地址类指标)的请求失败和响应失败的数据与总请求的数据之商状态类指标),即可直观的反映出采集程序的健硕性,再通过该请求的程序ip即可精准的定位问题所在程序的所在位置,再配合预测可预见的问题,即可快速找到问题所在并更正。
Figure BDA0003483243040000092
其中,Robust表示采集程序的健硕性,responseError表示响应失败的数据,requestError表示请求失败的数据,resquests表示总请求量,故程序健硕性就等于请求失败与响应失败的总和与总请求量之比。
可以看出,如图2,本申请提出的程序监控方式,可以自由组合想要监控的一切状态,通过不同数据的不同维度的组合,可以达到从不同维度监控采集程序的运行状态和辅助排查潜在的程序问题,设置某些数值的临界值之后,还能达到问题预警,预测问题发生前预警等功能,降低了程序的维护成本,极大的提高了纠错成本。
如图3,给出了本申请实施例提供的单点采集程序每小时采集成功走势图,其中横坐标表示时间、纵坐标表示采集程序采集成功次数。
如图4,给出了本申请实施例提供的不同采集程序日平均采集量示意图,用于发现程序问题。
如图5,给出了本申请实施例提供的单点采集程序不同时间的入库量展示图,其中横坐标表示时间、纵坐标表示采集程序入库数量。
如图6,给出了本申请实施例提供的单点采集程序每小时程序运行状态展示图;其中,还包括设置预警上下线和日采集总量展示(预警问题程序)。
如图7,给出了本申请实施例提供的单点采集程序每小时不同状态采集速率及占比示意图,用于展示采集程序健硕性。
如图8,给出了本申请实施例提供的单点采集程序随着时间的增长不同状态的走势图,用于预测程序或网站发生问题。
请参考图9,其示出了本申请实施例提供的一种数据采集程序状态监控装置200的框图。如图9所示,该装置200可以包括:获取模块201、存储模块202、返回模块203以及分析模块204。
获取模块201,用于通过内嵌程序获取目标数据采集程序运行时所产生的各项指标的数据;内嵌程序内嵌于目标数据采集程序中,指标包括地址类指标和状态类指标;
存储模块202,用于将各项指标的数据存储进基于时间序列的数据库中;
返回模块203,用于基于用户端向数据库发送的目标指标请求,得到数据库返回目标指标的数据;其中,目标指标包括一项地址类指标和至少一项状态类指标;
分析模块204,用于根据返回的目标指标的数据对目标数据采集程序的运行状态进行分析。
在本申请一个实施例中,分析模块204具体包括:根据一项地址类指标的数据和至少一项状态类指标的数据进行分析,根据预设的指标组合关系得到目标数据采集程序的运行状态分析结果,并向用户端进行展示。
关于数据采集程序状态监控装置的具体限定可以参见上文中对于数据采集程序状态监控方法的限定,在此不再赘述。上述数据采集程序状态监控装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种设备,该电子设备可以是计算机,其内部结构图可以如图10所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该设备的处理器用于提供计算和控制能力。该设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于数据采集程序状态监控数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据采集程序状态监控方法。
本领域技术人员可以理解,如图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在本申请的一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述数据采集程序状态监控方法的步骤。
本实施例提供的计算机可读存储介质,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以M种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(SyMchliMk)DRAM(SLDRAM)、存储器总线(RaMbus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种数据采集程序状态监控方法,其特征在于,所述方法包括:
通过内嵌程序获取目标数据采集程序运行时所产生的各项指标的数据;所述内嵌程序内嵌于所述目标数据采集程序中,所述指标包括地址类指标和状态类指标;
将所述各项指标的数据存储进基于时间序列的数据库中;
基于用户端发送的目标指标请求,得到所述数据库返回目标指标的数据;其中,所述目标指标包括一项地址类指标和至少一项状态类指标;
根据返回的目标指标的数据对所述目标数据采集程序的运行状态进行分析;
所述根据返回的目标指标的数据对所述目标数据采集程序的运行状态进行分析,包括:
根据一项地址类指标的数据和至少一项状态类指标的数据进行分析,根据预设的指标组合关系得到所述目标数据采集程序的运行状态分析结果,并向用户端进行展示;
当所述地址类指标为程序名称,状态类指标为目标数据采集程序采集成功状态时,根据预设的指标组合关系得到所述目标数据采集程序的运行状态分析结果包括:
分析可得到所述目标数据采集程序的日平均采集成功总数,并配合各采集请求的大小就能得出所述目标数据采集程序占用的网络带宽大小和存储需要的磁盘大小;
其中,通过第一公式确定网络带宽大小和存储需要的磁盘大小,第一公式具体包括:
Figure FDA0003872402950000011
Figure FDA0003872402950000012
其中,Bandwidth表示网络带宽大小,successToday表示当日请求成功页面,k1表示请求成功页面占存均值,notfoundToday表示当日请求404页面,k2表示请求失败页面占存均值,Memory表示日采集总量占用磁盘空间大小。
2.根据权利要求1所述的方法,其特征在于,将所述各项指标的数据存储进基于时间序列的数据库中,包括:
将具有相同时间节点的地址类指标与状态类指标的数据进行绑定封装后存储进基于时间序列的数据库中。
3.根据权利要求1所述的方法,其特征在于,在将所述各项指标的数据存储进基于时间序列的数据库中,还包括:
将所述各项指标的数据存储进缓存队列,将所述缓存队列中的数据存储进基于时间序列的数据库中。
4.根据权利要求1所述的方法,其特征在于,所述地址类指标的数据至少包括:采集程序名称、采集程序所在系统IP、采集程序采集的URL以及请求IP;
所述状态类指标的数据至少包括:采集成功的当天数据、采集成功的历史数据、采集成功的404数据、采集成功的封禁数据、解析失败的数据、响应失败的数据、请求失败的数据。
5.一种数据采集程序状态监控装置,其特征在于,所述装置包括:
获取模块,用于通过内嵌程序获取目标数据采集程序运行时所产生的各项指标的数据;所述内嵌程序内嵌于所述目标数据采集程序中,所述指标包括地址类指标和状态类指标;
存储模块,用于将所述各项指标的数据存储进基于时间序列的数据库中;
返回模块,用于基于用户端向所述数据库发送的目标指标请求,得到所述数据库返回目标指标的数据;其中,所述目标指标包括一项地址类指标和至少一项状态类指标;
分析模块,用于根据返回的目标指标的数据对所述目标数据采集程序的运行状态进行分析;
所述分析模块具体包括根据一项地址类指标的数据和至少一项状态类指标的数据进行分析,根据预设的指标组合关系得到所述目标数据采集程序的运行状态分析结果,并向用户端进行展示;
当所述地址类指标为程序名称,状态类指标为目标数据采集程序采集成功状态时,根据预设的指标组合关系得到所述目标数据采集程序的运行状态分析结果包括:
分析可得到所述目标数据采集程序的日平均采集成功总数,并配合各采集请求的大小就能得出所述目标数据采集程序占用的网络带宽大小和存储需要的磁盘大小;
其中,通过第一公式确定网络带宽大小和存储需要的磁盘大小,第一公式具体包括:
Figure FDA0003872402950000031
Figure FDA0003872402950000032
其中,Bandwidth表示网络带宽大小,successToday表示当日请求成功页面,k1表示请求成功页面占存均值,notfoundToday表示当日请求404页面,k2表示请求失败页面占存均值,Memory表示日采集总量占用磁盘空间大小。
6.一种电子设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至4任一所述的数据采集程序状态监控方法。
7.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一所述的数据采集程序状态监控方法。
CN202210074219.0A 2022-01-21 2022-01-21 数据采集程序状态监控方法、装置、设备及存储介质 Active CN114528179B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210074219.0A CN114528179B (zh) 2022-01-21 2022-01-21 数据采集程序状态监控方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210074219.0A CN114528179B (zh) 2022-01-21 2022-01-21 数据采集程序状态监控方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN114528179A CN114528179A (zh) 2022-05-24
CN114528179B true CN114528179B (zh) 2022-11-04

Family

ID=81619937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210074219.0A Active CN114528179B (zh) 2022-01-21 2022-01-21 数据采集程序状态监控方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114528179B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117389486B (zh) * 2023-12-13 2024-04-19 浙江国利信安科技有限公司 用于实时处理epa网络数据的方法、计算设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1860824A1 (en) * 2006-05-26 2007-11-28 Abilisoft Ltd Monitoring of network management systems
CN110781065A (zh) * 2019-10-28 2020-02-11 北京北信源软件股份有限公司 一种业务应用的监控方法及装置
CN111159199A (zh) * 2019-12-31 2020-05-15 中国建设银行股份有限公司 一种指标数据获取方法及装置
CN111597098A (zh) * 2020-05-14 2020-08-28 腾讯科技(深圳)有限公司 一种数据处理方法以及设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110062025B (zh) * 2019-03-14 2022-09-09 深圳绿米联创科技有限公司 数据采集的方法、装置、服务器及存储介质
CN111897691A (zh) * 2020-07-10 2020-11-06 深圳市彬讯科技有限公司 质量报告自动生成方法、装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1860824A1 (en) * 2006-05-26 2007-11-28 Abilisoft Ltd Monitoring of network management systems
CN110781065A (zh) * 2019-10-28 2020-02-11 北京北信源软件股份有限公司 一种业务应用的监控方法及装置
CN111159199A (zh) * 2019-12-31 2020-05-15 中国建设银行股份有限公司 一种指标数据获取方法及装置
CN111597098A (zh) * 2020-05-14 2020-08-28 腾讯科技(深圳)有限公司 一种数据处理方法以及设备

Also Published As

Publication number Publication date
CN114528179A (zh) 2022-05-24

Similar Documents

Publication Publication Date Title
CN109522287B (zh) 分布式文件存储集群的监控方法、系统、设备及介质
US8832330B1 (en) Analysis of storage system latency by correlating activity of storage system components with latency measurements
CN110113224B (zh) 容量监控方法、装置、计算机设备及存储介质
US7912573B2 (en) Using metric to evaluate performance impact
US20170060769A1 (en) Systems, devices and methods for generating locality-indicative data representations of data streams, and compressions thereof
CN106886485B (zh) 系统容量分析预测方法及装置
CN110309109B (zh) 数据监控方法、装置、计算机设备及存储介质
CN111045894B (zh) 数据库异常检测方法、装置、计算机设备和存储介质
US20210258267A1 (en) System and method for autonomous and dynamic resource allocation in storage systems
CN110716808B (zh) 业务处理方法、装置、计算机设备和存储介质
CN112689007B (zh) 资源分配方法、装置、计算机设备和存储介质
CN114528179B (zh) 数据采集程序状态监控方法、装置、设备及存储介质
CN113238714A (zh) 基于历史监测数据的磁盘容量预测方法及系统、存储介质
CN113688022A (zh) 浏览器性能监控方法、装置、设备和介质
CN113419950A (zh) Ui自动化脚本的生成方法、装置、计算机设备及存储介质
CN116827950A (zh) 云资源的处理方法、装置、设备及存储介质
CN103577600A (zh) 一种调整目标系统性能的方法、设备及系统
CN113824590B (zh) 微服务网络的问题预测方法、计算机设备和存储介质
CN113835953A (zh) 作业信息的统计方法、装置、计算机设备和存储介质
CN114428704A (zh) 全链路分布式监控的方法、装置、计算机设备和存储介质
CN116842299B (zh) 动态数据访问风险控制系统与方法
CN117056405B (zh) 一种舰船软件监测数据采集处理方法、系统及存储介质
CN116136987B (zh) 一种基于pscada数据的供电设备可靠性在线评估方法及其系统
US20210306411A1 (en) Server load prediction system and server load prediction method
CN117130861A (zh) 性能数据处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant