CN109819019A - 用于大规模网络数据采集的监控与统计分析方法和系统 - Google Patents

用于大规模网络数据采集的监控与统计分析方法和系统 Download PDF

Info

Publication number
CN109819019A
CN109819019A CN201811634634.7A CN201811634634A CN109819019A CN 109819019 A CN109819019 A CN 109819019A CN 201811634634 A CN201811634634 A CN 201811634634A CN 109819019 A CN109819019 A CN 109819019A
Authority
CN
China
Prior art keywords
acquisition
information source
data
information
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811634634.7A
Other languages
English (en)
Other versions
CN109819019B (zh
Inventor
贺广福
程学旗
孟剑
俞晓明
史存会
姜世勇
肖若晗
郭岩
周秀花
余智华
刘悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201811634634.7A priority Critical patent/CN109819019B/zh
Publication of CN109819019A publication Critical patent/CN109819019A/zh
Application granted granted Critical
Publication of CN109819019B publication Critical patent/CN109819019B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种网络数据采集的监控与统计分析方法,包括:用户可查询采集节点的工作状态、调度节点的工作状态和采集任务的工作状态;对使用信源采集的结构化数据进行统计,以获取针对该信源的采集量,以及该信源的活跃等级,并根据该用户的查询请求,将该采集量和/或该活跃等级发送给该用户;通过比较该采集量的变化量和/或该结构化数据的相似度的变化量,获取该信源的实时状态,发现潜在失效信源,并推送给该用户,以辅助该用户对该信源进行管理。

Description

用于大规模网络数据采集的监控与统计分析方法和系统
技术领域
本发明属于数据感知与获取领域,特别涉及一种用于大规模网络数据感知获取的监控与统计分析方法。
背景技术
当下,在网络数据感知领域,随着网络数据的爆发式增长,计算资源的成本逐渐降低,分布式的采集成为了互联网数据采集的主要趋势。分布式采集技术在理想情况下可以横向扩展,满足数据量的增长,但是近些年,随着新技术的不断涌现,网络媒体形式和前端技术不断改进,对网络数据采集带来了挑战,特别是反爬虫技术的发展,可能使采集器采集到无效数据,更有甚者,陷入采集黑洞,造成采集资源的浪费和系统瘫痪。所以,需要一套监控和统计系统对网络数据感知系统的运行状态实时监控,包括采集节点、调度节点、采集任务;并且对数据的多维度统计,通过报表的方式展示,便于用户实时了解获取数据的情况。一方面能观察系统的采集量,另一方面,通过统计数据提供人为干预的方法,提高采集效率,优化采集结构。
传统的数据监控统计方法主要有两种,一种是基于日志信息处理的方法,另一种是基于agent探针的方法。
基于日志信息处理的方法:主要通过获取日志信息中,约定好的关键埋点和打点时刻,获取某个时刻,系统的主要状态信息,感知系统的状态随时间的变化,从而分析出系统的运行情况。该方法普遍运用在各类系统中,监控的目标是程序的运行状态,一般使用特定的日志收集工具收集日志,然后通过一系列的批处理程序,提取关键信息,最后统计出程序运行的各类状态指标和异常数据。该方法一般延时较大,对业务系统资源占用少,适合对实时性要求不高的应用程序。
基于agent探针:将agent探针程序部署到采集节点运行,agent探针主动感知采集结点的系统资源,例如,CPU,内存,磁盘等,并定时主动上报给探测数据收集程序,探测数据收集程序汇总,统计并记录。
基于日志的监控方法,适合长时间稳定运行的服务程序,而采集器是在任务产生后,受调度器控制启动,在采集任务后自动停止,是一个短时运行程序;该方法依赖日志的收集和处理,所以一般具有较大的时间延迟,会严重影响监控的实时性,不能达到实时干预的目的;在网络大数据感知中,比较关键的是需要监测网络数据采集的数据质量,而为了保证采集的逻辑清晰和功能独立不能简单地把监测程序植入采集器中,这样,也就不能简单地使用日志处理的监控方法达到监控的目的。
使用agent探针监测系统,一般能实时的获取采集结点的状态数据,但是分布式系统中的采集结点过多,需要探测数据收集程序能高并发的处理,一般难度较大,并且可靠性低。可能在数据发送的峰值,造成数据接收端崩溃。
发明内容
针对上述问题,本发明提出一种用于大规模网络数据采集的监控与统计分析方法,包括:将参与数据采集的节点注册为采集节点或调度节点,根据采集任务通过该调度节点的调度器,调度该采集节点拉取采集器并对该采集器进行配置;通过该采集器执行该采集任务,获取结构化数据;监控并统计采集状态信息,并根据用户的查询请求将该采集状态信息发送给该用户;通过比较该采集量的变化量和/或该结构化数据的相似度的变化量,获取该信源的实时状态,当该实时状态为潜在失效信源时,将该信源推送给该用户。
本发明所述的监控与统计分析方法,其中该采集状态信息包括该采集节点的工作状态、该调度节点的工作状态、该采集任务的工作状态、针对该信源的采集量、该信源的活跃等级该采集状态信息、该采集任务的采集任务信息和该采集任务的信源统计信息。
本发明所述的监控与统计分析方法,其中按照预设的采集时间粒度,统计以该结构化数据,以获取该采集量,该采集时间粒度的设定包括分、小时、天、周、月;按照预设的活跃度时间粒度,获取该信源的最近n个活跃度时间粒度的数据采集量,以计算该活跃等级,该活跃度时间粒度的设定包括分、小时、天、周、月,其中n为正整数。
本发明所述的监控与统计分析方法,其中检测潜在失效信源包括:获取从该信源所采集的结构化数据的相似度,通过该相似度对该信源进行相似度打分,以得到相似度分值;获取该信源最近m个该采集量的变化量,该信源最近p个该相似度分值的变化量;若该采集量的变化量大于第一阈值,或该相似度分值的变化量大于第二阈值,则判断该信源为潜在失效信源,其中m、p为正整数。
本发明还提出一种用于大规模网络数据采集的监控与统计分析系统,包括:数据获取模块,用于将参与数据采集的节点注册为采集节点或调度节点,根据采集任务通过该调度节点的调度器,调度该采集节点拉取采集器并对该采集器进行配置,通过该采集器执行该采集任务,获取结构化数据;监控统计模块,用于监控并统计采集状态信息,并根据用户的查询请求将该采集状态信息发送给该用户;信源失效检测模块,用于通过比较该采集量的变化量和/或该结构化数据的相似度的变化量,获取该信源的实时状态,当该实时状态为潜在失效信源时,将该信源推送给该用户。
本发明所述的监控与统计分析系统,其中该采集状态信息包括该采集节点的工作状态、该调度节点的工作状态、该采集任务的工作状态、针对该信源的采集量、该信源的活跃等级该采集状态信息、该采集任务的采集任务信息和该采集任务的信源统计信息。
本发明所述的监控与统计分析系统,其中该统计模块包括:采集量统计模块,用于按照预设的采集时间粒度,统计以该结构化数据,以获取该采集量;其中该采集时间粒度的设定包括分、小时、天、周、月;活跃度等级统计模块,用于按照预设的活跃度时间粒度,获取该信源的最近n个活跃度时间粒度的数据采集量,以获取该活跃等级;该活跃度时间粒度的设定包括分、小时、天、周、月,其中n为正整数。
本发明所述的监控与统计分析系统,其中该信源失效检测模块包括:相似度分值获取模块,用于获取从该信源所采集的结构化数据的相似度,通过该相似度对该信源进行相似度打分,以得到相似度分值;并获取该信源最近m个该采集量的变化量,以及该信源最近p个该相似度分值的变化量;潜在失效信源判断模块,用于判断该信源的有效性,若该采集量的变化量大于第一阈值,或该相似度分值的变化量大于第二阈值,则判断该信源为潜在失效信源,其中 m、p为正整数。
本发明还提出一种计算机可读存储介质,存储有计算机可执行指令,该计算机可执行指令用于执行上述的用于大规模网络数据的监测与统计分析方法。
本发明还提出一种数据处理设备,包括上述的计算机可读介质,该数据处理装置调取并执行该计算机可读介质中的计算机可执行指令,以进行大规模网络数据采集的监测与统计分析。
附图说明
图1是本发明的一种大规模网络数据的感知与获取系统的系统架构图。
图2是本发明的一种大规模网络数据的感知与获取方法的数据流示意图。
图3是本发明的数据感知与获取方法的信源管理与配置步骤数据流示意图。
图4是本发明的数据感知与获取方法的调度步骤数据流示意图。
图5是本发明的数据感知与获取方法的采集步骤数据流示意图。
图6是本发明的数据感知与获取方法的监控与统计步骤数据流示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明提出的大规模网络数据的感知与获取方法和系统进一步详细说明。应当理解,此处所描述的具体实施方法仅仅用以解释本发明,并不用于限定本发明。
本发明的说明书中包括以下术语:
“信息来源”,指互联网信息的来源;“传媒-信簇-信源”架构,“传媒”指网络空间中的不同信息传播媒体如新闻、论坛、博客、新闻APP、微博、微信、社交类网站等媒体;“信簇”指一种传媒的一个具体网络数据的集合,例如新闻类网站中的新浪新闻网站;“信源”,指网络空间中信息聚合的最小单位,例如新浪新闻网站中的国内频道;“Board-Article”架构,Board页,指网络空间中专门用于展示具体信息内容链接的页面,Article页,指用于展示具体信息内容的页面;“Web Map”,是用于描述网络空间中信息来源之间的复杂关系的映射,例如链接互指关系、主题相关关系、好友关系等。
图1是本发明的一种大规模网络数据的感知与获取系统的系统架构图。如图1所示,本发明的大规模网络数据的感知与获取系统,按照功能逻辑划分为四个子平台,信源管理与配置子平台、调度子平台、采集子平台和监控与统计子平台。其中:
信源管理与配置子平台,通过不同维度,实现对多传媒类型信源的统一管理;实现对信源的采集、抽取配置,以及对各流程的配置验证;与业务系统数据和业务用户相结合,能够提供面向业务的信源数据分析。
调度子平台,提供分布式的采集架构,支持采集节点的线性扩展;调度的最小单元为任务,任务具有抽象性,支持实现多种不同采集类型的采集任务;调度策略是对任务执行优先级和频次的定义,用于保证任务被调度的及时性。
采集子平台,提供实现不同采集任务的采集器,如新闻采集器、论坛采集器,实现解析采集任务,执行采集,提交采集结果至数据输出接口的功能;提供采集的基础服务,包括查重服务,状态服务,代理服务,JS解析服务。
监控与统计子平台,提供对分布式采集系统的采集节点信息、调度信息、任务执行信息的监控,以界面的方式与用户进行交互;对各类信源的采集信息进行基础统计,利用线上数据检测失效信源,并汇总至信源管理与配置子平台。
多信息来源在配置与管理子平台进行感知、拆分、管理和采集抽取配置;配置信息通过调度子平台的任务接口和调度策略接口形成具有不同调度策略的多信息来源任务,通过分布式架构下发到采集节点;采集任务由采集子平台中的采集器完成数据的获取,并将获取的数据写入到数据输出接口;监控与统计子平台通过界面化的方式提供用户对系统运行状态的监控,通过实时分析在线数据提供多维度的数据统计和数据质量的实时反馈。
具体来说,信源管理与配置子平台主要包括信息来源自动感知模块、信息来源自动拆分模块、信源管理模块、信源配置模块、信簇分类模块、信源分类模块、信源验证模块和传媒分类模块,以及批次类别管理、用户管理、业务系统管理、配置任务管理、账号与Cookie管理、配置任务统计、信源多维度统计等模块。信源管理与配置子平台通过“传媒-信簇-信源”三级结构的分层概念体系和多维度的信息来源分类体系对来自不同类型的信息来源进行合理高效组织;通过根据Board-Article架构把信息来源的最小粒度设置为网站的版块,结合“传媒-信簇-信源”三级结构的分层概念体系,实现对大规模网络信息来源的精确感知;利用自动化和半自动化的抽取算法的协同合作,结合不同抽取算法的组合抽取策略,通过界面化的多阶段信源模板验证,实现高质量的结构化数据提取。配置好的信源可通过信源配置下发模块下发到各子平台。配置任务统计、信源多维统计给出信源的统计视图,辅助用户决策。
调度子平台主要包括分布式架构、调度策略模块、任务管理模块和采集器管理模块。调度子平台通过分布式架构,实现一套支持可线性动态伸缩的分布式架构,支持采集节点的动态增减,包括注册中心和节点的代理程序;利用配置平台下发的配置,通过任务生成模块生成具有不同优先级的采集任务;调度策略模块根据采集任务和采集资源,按照不同的调度策略完成任务的调度;任务通过分布式架构的采集节点Agent进行执行。
采集子平台主要包括多信息来源网络数据的采集器和采集基础服务框架,如查重服务模块、状态服务模块、代理服务模块、JS解析服务模块等。采集器内部基于Board-Article架构建模信源实现对信源信息改变的快速精准感知,包括新闻采集器、论坛采集器和博客采集器等;采集器被采集节点Agent启动,根据采集和抽取配置项,执行特定信源的数据获取和结构化解析。在采集完成后,将数据写入到数据输出接口。
监控与统计子平台主要包括采集调度监控模块、采集信息统计模块和在线失效信源检测模块。采集调度监控模块通过采集调度监控对系统运行状态的实时监控和调度,包括采集节点、调度节点、采集任务;采集信息统计模块对数据的多维度统计,通过报表的方式展示,便于用户了解获取数据的情况;在线失效信源检测模块利用基于线上实时内容的失效检测算法,及时检测网站变更导致的采集抽取配置失效情况,实时反馈给用户,辅助用户决策,并定期反馈给信源配置模块。
本发明的大规模网络数据的感知与获取系统还包括数据输出接口,主要实现接收采集器采集数据的写入,以及上层业务系统的订阅。根据不同的业务场景,数据输出接口实现可包括文件系统、消息队列系统、数据库系统等。
图2是本发明的一种大规模网络数据的感知与获取方法的业务逻辑流程图。如图2所示,本发明的数据感知与获取方法通过各子平台,实现大规模网络数据的获取。具体来说,本发明的数据感知与获取方法包括:
步骤1,信源管理与配置
图3是本发明的数据感知与获取方法的信源管理与配置步骤数据流示意图。如图3所示,信源管理与配置步骤包括:
步骤11,感知并导入信息来源,包括:
步骤111,通过自动感知技术获取信息来源;
步骤112,使用自动结合人工参与的技术将信息来源依据信息来源的信息组织特点依次拆分成传媒、信簇和信源;
步骤113,根据传媒、信簇、信源的定义把信息来源和拆分得到信源对齐到“传媒-信簇-信源”的分层概念体系,将拆分得到的传媒、信簇、信源导入信源管理与配置子平台中;
步骤12,信息来源类别标注,包括:
步骤121,根据需求定义要标注的类别,例如以信源、信簇主题内容为维度划分的主题类别,以信源、信簇关注地域为维度划分的地域类别,以信源网页结构为维度划分的页面类别;
步骤122,对信簇和信源进行类别标注,形成Web Map;
步骤13,根据信息来源类别配置采集模板,包括:
步骤131根据采集入口URL调用采集子平台抓取入口页面,如有必要则人工修改入口URL。
步骤132,根据采集入口页面中的链接设置候选的抓取规则,抓取规则的表达方式根据抓取方法的不同而不同,例如抓取规则可以用正则表达式、XPath (XML路径语言,XMLPath Language)、CSS(层叠样式表,Cascading Style Sheets)选择器表达,也可以用网页的DOM树(文档对象模型,Document Object Model)中节点的标签名、属性名值对表达,或者使用以上方式中两种或两种以上的组合进行表达;
步骤133,调用采集子平台,选取样例页面对抓取规则的效果进行验证,如有必要则人工修改抓取规则;将通过验证的抓取规则配置为采集模板;
步骤14,根据信息来源内容配置抽取模板,包括:
步骤141,针对样例页面中不同的目标信息内容使用不同的信息抽取算法进行抽取测试,例如新闻页面中的新闻正文,论坛中的帖子标题,根据抽取效果选择最好的目标信息内容与抽取算法的对应关系;
步骤142,根据步骤141得到的对应关系自动生成分层的不同抽取算法的抽取模板,其中抽取模板可以为某一种数据抽取算法,也可以为多种数据抽取算法按某种规律的组合,例如,利用A算法抽取新闻中的标题和正文,以A 算法生抽抽取模板;又例如,利用A算法抽取新闻中的标题,利用B算法抽取新闻中的正文,将A算法和B算法组合生成抽取模板;
步骤143,调用采集子平台校验步骤142生成的抽取模板的效果,如有必要则转至步骤141进行重新测试;
步骤15,信源的验证,包括:
步骤151,根据用户需求人工触发或定期触发自动校验程序对信源进行验证,验证内容包括信源的入口是否有效、采集模板和抽取模板对信源的适应性等;
步骤152,定时巡查从监控与统计子平台反馈的的信源采集情况,如有潜在失效信源,则人工检验采集模板和抽取模板的有效性,根据检验结果重新配置采集模板和抽取模板,或将潜在失效信源置为无效。
步骤2,采集任务调度
图4是本发明的数据感知与获取方法的调度步骤数据流示意图。如图4 所示,采集任务调度步骤包括:
步骤21:将用于调度任务的信源信息生成信源表;
步骤22:采集任务的生成:根据信源表的信源信息和用户提交的调度策略生成采集任务,或根据信源表的信息和调度子平台默认的调度策略生成采集任务,或根据信源表的信源信息、用户提交的调度策略和调度子平台默认的调度策略生成采集任务,写入采集任务表,其中调度策略包括采集任务的调度优先级、采集任务的调度周期、采集任务的调度频次等;
步骤23:注册采集节点,节点通过部署在节点上的代理程序在注册中心进行信息注册,注册信息包括所在的设备的IP、所在设备的物理资源使用情况、节点能支持的采集器类型、节点能支持的最大采集进程数,采集进程数由代理根据设备物理配置自动推算,完成注册的节点成为采集节点;代理程序同时将采集节点的状态存入注册中心;
步骤24:注册调度节点,节点通过部署在节点上的代理程序在注册中心进行信息注册,注册信息包括所在的设备的IP、所在设备的物理资源使用情况,完成注册的节点成为调度节点;代理程序同时将调度节点的状态存入注册中心;
步骤25:调度器执行任务调度,包括:
步骤251,任务加载线程,加载采集任务表中的采集任务的参数配置信息,并且根据采集任务的类型解析采集任务的参数配置信息;
步骤252,任务更新线程,加载采集任务被调度的信息,更新采集任务的参数配置信息,包括采集任务已经被调度次数和最近一次被调度的时间;
步骤253,任务拉取线程,从任务队列中按优先级拉取任务;
步骤254,调度器将自身的工作状态存入注册中心;
步骤26,采集节点代理拉取采集器执行任务,采集节点收到调度器传递的启动请求,进行分析,得到采集任务具体类型,将首先从HDFS拉取相应的采集器,然后将采集任务传递到采集器,采集器使用调度的通用接口,获取采集任务的参数配置信息启动采集器。此时代理程序将监控采集器状态,将采集器状态存入注册中心,并将启动的采集器进程信息上报至调度器,当采集器状态发生改变时通知调度器,由调度器对采集器进行统一的管理;
步骤3,网络数据采集
图5是本发明的数据感知与获取方法的采集步骤数据流示意图。如图5 所示,网络数据采集步骤包括:
步骤31,加载采集任务的参数配置信息形成的配置文件,配置文件包含调用采集子平台模块的配置,以及采集任务需求。采集任务需求包括采集目标信息来源,需要提供Board页的URL以及抽取的范围要求,诸如采集抽取深度,数据持久化操作,是否去重,Article页的期望数量等;
步骤32:按照采集任务需求,进行采集子平台的配置,对采集子平台提供的模块进行编排,选择使用的采集器、查重服务模块、状态服务模块、代理服务模块及JS解析服务模块等,部分模块按配置文件的要求进行单独的配置;
步骤33,采集子平台根据配置文件进行初始化,包括持久化接口的初始化,查重模块的初始化,页面缓存的初始化,以及编排好的采集器初始化;
步骤34,采集器启动,进行Board页采集,使用配置要求的抽取模板,抽取Board页中的Article页链接,放入待采集数据链接队列中,不断重复本步直到完成配置文件要求,或采集完成所有的Board页;
步骤35,对待采集数据链接队列中的Article页链接进行采集,获取时按配置文件的要求进行过滤,直到待采集数据链接队列为空,采集时,使用配置的抽取模板,对Article页面进行抽取,得到结构化数据;
步骤37,将步骤35得到的结构化数据进行持久化操作,将结构化数据输出到数据输出接口中,据不同的业务场景,数据输出接口实现可包括文件系统、消息队列系统、数据库系统等;
步骤4,数据采集的监控与统计
图6是本发明的数据感知与获取方法的监控与统计步骤数据流示意图。如图6所示,监控与统计步骤包括:
步骤41,对采集任务信息和信源统计信息进行统计,并写入监控与统计数据库;
步骤42,采集调度监控,包括:
步骤421,用户在前端的面板上选取需要查看的监控指标;
步骤422,如果该指标是调度器状态、采集节点状态或采集器状态,则从注册中心中查询调度器状态数据、采集节点状态数据、采集器状态数据,返回给前端;如果指标是采集任务信息和信源统计信息,则从监控与统计数据库中获取采集任务信息和信源统计信息,聚合后发送给前端;
步骤423,前端使用绘图工具渲染步骤412获取的数据,展示到面板中;
步骤424,使用前端面板上的启动/停用调度器、启动/停用采集节点按钮可实现相应的控制功能;
步骤425,使用前端面板上的停止采集任务、停用采集器按钮可实现控制采集任务和采集器的功能;
步骤43,采集量统计,包括:
步骤431,读取结构化数据,按照监控与统计子平台中配置的采集时间粒度,统计各信源的数据采集量,并存入监控与统计数据库中;其中采集时间粒度可以为分、小时、天、周、月等,根据实际采集任务进行设定,默认以天为单位;
步骤432,按照监控与统计子平台中配置的活跃度时间粒度,基于信源前 n个时间粒度的数据采集量计算信源的活跃等级,并存入监控与统计数据库中;活跃度时间粒度可以为分、小时、天、周、月等,根据实际采集任务进行设定,默认以天为单位;
步骤433,用户通过前端面板查看统计信息,发送查询请求;
步骤434,查询监控与统计数据库,将查询结果返回给前端;
步骤44,在线失效检测,包括:
步骤441,获取同一信源所采集数据的相似度,例如按照文章的标题与正文的相关性获取文章的相似度,通过相似度对信源进行动态的累计相似度打分,得到相似度分值,将相似度分值存入监控与统计数据库;
步骤442,分析信源最近m个失效检测时间粒度的数据采集量和相似度分值的变化情况,若数据采集量变化量大于根据历史经验设定的数据采集量阈值,和或相似度分值变化量大于根据历史经验设定的相似度分值阈值,则判断这个信源为潜在失效信源,把检测到的潜在失效信源信息写入监控与统计数据库;失效检测时间粒度可以为分、小时、天、周、月等,根据实际采集任务进行设定,默认以天为单位;
步骤443,将检测到的潜在失效信源推送到信源管理与配置子平台,供信源管理与配置子平台用户确认潜在失效信源为有效或失效,并做进一步处理以优化信源。
需要说明的是,上述实施例中介绍的各个步骤并非都是必须的,本领域技术人员可以根据实际需要进行适当的取舍、替换、修改等。
本发明实施例还提供一种计算机可读存储介质,存储有计算机可执行指令,计算机可执行指令被处理器执行时实现上述大规模网络数据的感知与获取方法。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器)完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,例如通过集成电路来实现其相应功能,也可以采用软件功能模块的形式实现,例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明实施例不限制于任何特定形式的硬件和软件的结合。
具体而言,本发明实施例还提供一种数据处理设备,数据处理设备安装有上述有计算机可执行指令,并与网络连接;数据处理设备通过执行计算机可执行指令实现上述大规模网络数据的感知与获取,并可以通过前端面板,例如是数据输入/输出设备与用户交互。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管上文参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种用于大规模网络数据采集的监控与统计分析方法,其特征在于,包括:
将参与数据采集的节点注册为采集节点或调度节点,根据采集任务通过该调度节点的调度器,调度该采集节点拉取采集器并对该采集器进行配置;通过该采集器执行该采集任务,获取结构化数据;
监控并统计采集状态信息,并根据用户的查询请求将该采集状态信息发送给该用户;
通过比较该采集量的变化量和/或该结构化数据的相似度的变化量,获取该信源的实时状态,当该实时状态为潜在失效信源时,将该信源推送给该用户。
2.如权利要求1所述的监控与统计分析方法,其特征在于,该采集状态信息包括该采集节点的工作状态、该调度节点的工作状态、该采集任务的工作状态、针对该信源的采集量、该信源的活跃等级该采集状态信息、该采集任务的采集任务信息和该采集任务的信源统计信息。
3.如权利要求2所述的监控与统计分析方法,其特征在于,按照预设的采集时间粒度,统计以该结构化数据,以获取该采集量;其中该采集时间粒度的设定包括分、小时、天、周、月;按照预设的活跃度时间粒度,获取该信源的最近n个活跃度时间粒度的数据采集量,以计算该活跃等级;该活跃度时间粒度的设定包括分、小时、天、周、月,其中n为正整数。
4.如权利要求1所述的监控与统计分析方法,其特征在于,检测潜在失效信源包括:获取从该信源所采集的结构化数据的相似度,通过该相似度对该信源进行相似度打分,以得到相似度分值;获取该信源最近m个该采集量的变化量,该信源最近p个该相似度分值的变化量,其中m、p为正整数;
若该采集量的变化量大于第一阈值,或该相似度分值的变化量大于第二阈值,则判断该信源为潜在失效信源。
5.一种用于大规模网络数据采集的监控与统计分析系统,其特征在于,包括:
数据获取模块,用于将参与数据采集的节点注册为采集节点或调度节点,根据采集任务通过该调度节点的调度器,调度该采集节点拉取采集器并对该采集器进行配置,通过该采集器执行该采集任务,获取结构化数据;
监控统计模块,用于监控并统计采集状态信息,并根据用户的查询请求将该采集状态信息发送给该用户;
信源失效检测模块,用于通过比较该采集量的变化量和/或该结构化数据的相似度的变化量,获取该信源的实时状态,当该实时状态为潜在失效信源时,将该信源推送给该用户。
6.如权利要求5所述的监控与统计分析系统,其特征在于,该采集状态信息包括该采集节点的工作状态、该调度节点的工作状态、该采集任务的工作状态、针对该信源的采集量、该信源的活跃等级该采集状态信息、该采集任务的采集任务信息和该采集任务的信源统计信息。
7.如权利要求5所述的监控与统计分析系统,其特征在于,该统计模块包括:
采集量统计模块,用于按照预设的采集时间粒度,统计以该结构化数据,以获取该采集量;其中该采集时间粒度的设定包括分、小时、天、周、月;
活跃度等级统计模块,用于按照预设的活跃度时间粒度,获取该信源的最近n个活跃度时间粒度的数据采集量,以获取该活跃等级;该活跃度时间粒度的设定包括分、小时、天、周、月,其中n为正整数。
8.如权利要求5所述的监控与统计分析系统,其特征在于,该信源失效检测模块包括:
相似度分值获取模块,用于获取从该信源所采集的结构化数据的相似度,通过该相似度对该信源进行相似度打分,以得到相似度分值;并获取该信源最近m个该采集量的变化量,以及该信源最近p个该相似度分值的变化量,其中m、p为正整数;
潜在失效信源判断模块,用于判断该信源的有效性,若该采集量的变化量大于第一阈值,或该相似度分值的变化量大于第二阈值,则判断该信源为潜在失效信源。
9.一种计算机可读存储介质,存储有计算机可执行指令,该计算机可执行指令用于执行如权利要求1~4任一项所述的用于大规模网络数据的监测与统计分析方法。
10.一种数据处理设备,包括如权利要求9所述的计算机可读介质,该数据处理装置调取并执行该计算机可读介质中的计算机可执行指令,进行大规模网络数据采集的监测与统计分析。
CN201811634634.7A 2018-12-29 2018-12-29 用于大规模网络数据采集的监控与统计分析方法和系统 Active CN109819019B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811634634.7A CN109819019B (zh) 2018-12-29 2018-12-29 用于大规模网络数据采集的监控与统计分析方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811634634.7A CN109819019B (zh) 2018-12-29 2018-12-29 用于大规模网络数据采集的监控与统计分析方法和系统

Publications (2)

Publication Number Publication Date
CN109819019A true CN109819019A (zh) 2019-05-28
CN109819019B CN109819019B (zh) 2021-04-27

Family

ID=66602754

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811634634.7A Active CN109819019B (zh) 2018-12-29 2018-12-29 用于大规模网络数据采集的监控与统计分析方法和系统

Country Status (1)

Country Link
CN (1) CN109819019B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114039900A (zh) * 2021-11-03 2022-02-11 北京德塔精要信息技术有限公司 一种高效网络数据包协议分析方法和系统
CN114124643A (zh) * 2021-11-10 2022-03-01 中盈优创资讯科技有限公司 一种基于PaaS的网络设备流量采集方法及装置
CN114253811A (zh) * 2021-12-24 2022-03-29 深圳市盘古数据有限公司 一种数据中心系统智能监控方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101119191A (zh) * 2007-06-27 2008-02-06 中国移动通信集团四川有限公司 数据一致性采集方法
CN104301388A (zh) * 2014-09-18 2015-01-21 国家电网公司 大运行体系监控分析管理系统
CN104506393A (zh) * 2015-01-06 2015-04-08 北京海量数据技术股份有限公司 一种基于云平台的系统监控方法
KR101798394B1 (ko) * 2017-07-25 2017-11-17 (주)하인스 스마트 살균기를 위한 iot 기반 중앙 통제형 장치
US20180101404A1 (en) * 2016-10-11 2018-04-12 Microsoft Technology Licensing, Llc Resource and latency estimation-based scheduling
CN108090225A (zh) * 2018-01-05 2018-05-29 腾讯科技(深圳)有限公司 数据库实例的运行方法、装置、系统及计算机可读存储介质
CN108449389A (zh) * 2018-02-27 2018-08-24 江苏理工学院 一种基于云计算的安防监控大数据处理方法及系统
CN108769115A (zh) * 2018-04-19 2018-11-06 中国科学院计算技术研究所 分布式rss数据采集方法和系统
CN109063115A (zh) * 2018-07-30 2018-12-21 淮安信息职业技术学院 一种基于在线大数据的智能统计系统及方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101119191A (zh) * 2007-06-27 2008-02-06 中国移动通信集团四川有限公司 数据一致性采集方法
CN104301388A (zh) * 2014-09-18 2015-01-21 国家电网公司 大运行体系监控分析管理系统
CN104506393A (zh) * 2015-01-06 2015-04-08 北京海量数据技术股份有限公司 一种基于云平台的系统监控方法
US20180101404A1 (en) * 2016-10-11 2018-04-12 Microsoft Technology Licensing, Llc Resource and latency estimation-based scheduling
KR101798394B1 (ko) * 2017-07-25 2017-11-17 (주)하인스 스마트 살균기를 위한 iot 기반 중앙 통제형 장치
CN108090225A (zh) * 2018-01-05 2018-05-29 腾讯科技(深圳)有限公司 数据库实例的运行方法、装置、系统及计算机可读存储介质
CN108449389A (zh) * 2018-02-27 2018-08-24 江苏理工学院 一种基于云计算的安防监控大数据处理方法及系统
CN108769115A (zh) * 2018-04-19 2018-11-06 中国科学院计算技术研究所 分布式rss数据采集方法和系统
CN109063115A (zh) * 2018-07-30 2018-12-21 淮安信息职业技术学院 一种基于在线大数据的智能统计系统及方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114039900A (zh) * 2021-11-03 2022-02-11 北京德塔精要信息技术有限公司 一种高效网络数据包协议分析方法和系统
CN114124643A (zh) * 2021-11-10 2022-03-01 中盈优创资讯科技有限公司 一种基于PaaS的网络设备流量采集方法及装置
CN114124643B (zh) * 2021-11-10 2023-08-01 中盈优创资讯科技有限公司 一种基于PaaS的网络设备流量采集方法及装置
CN114253811A (zh) * 2021-12-24 2022-03-29 深圳市盘古数据有限公司 一种数据中心系统智能监控方法

Also Published As

Publication number Publication date
CN109819019B (zh) 2021-04-27

Similar Documents

Publication Publication Date Title
CN107273409B (zh) 一种网络数据采集、存储及处理方法及系统
CN109814992A (zh) 用于大规模网络数据采集的分布式动态调度方法和系统
CN109753596A (zh) 用于大规模网络数据采集的信源管理与配置方法和系统
CN111581054B (zh) 一种基于elk的日志埋点的业务分析告警系统及方法
CN103034735B (zh) 一种大数据分布式文件导出方法
CN109815382A (zh) 大规模网络数据的感知与获取方法和系统
CN109034993A (zh) 对账方法、设备、系统及计算机可读存储介质
US20170109657A1 (en) Machine Learning-Based Model for Identifying Executions of a Business Process
CN109840298A (zh) 大规模网络数据的多信息来源采集方法和系统
CN107071009A (zh) 一种负载均衡的分布式大数据爬虫系统
US20170109676A1 (en) Generation of Candidate Sequences Using Links Between Nonconsecutively Performed Steps of a Business Process
CN110515912A (zh) 日志处理方法、装置、计算机装置及计算机可读存储介质
EP2503733A1 (en) Data collecting method, data collecting apparatus and network management device
CN107103064B (zh) 数据统计方法及装置
CN109471845A (zh) 日志管理方法、服务器及计算机可读存储介质
JPWO2003048973A1 (ja) アクセスログ分析装置およびアクセスログ分析方法
CN109819019A (zh) 用于大规模网络数据采集的监控与统计分析方法和系统
Sang et al. Precise, scalable, and online request tracing for multitier services of black boxes
CN107508917A (zh) 一种基于bitmap的web网站用户活跃度统计方法及系统
CN106027328A (zh) 一种基于应用容器部署的集群监控的方法及系统
CN108108445A (zh) 一种智能数据处理方法和系统
CN105069029B (zh) 一种实时etl系统及方法
CN113835874A (zh) 深度学习业务调度方法、系统、终端及存储介质
Demirbaga et al. Autodiagn: An automated real-time diagnosis framework for big data systems
Cao et al. Timon: A timestamped event database for efficient telemetry data processing and analytics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant