CN109815382B - 大规模网络数据的感知与获取方法和系统 - Google Patents
大规模网络数据的感知与获取方法和系统 Download PDFInfo
- Publication number
- CN109815382B CN109815382B CN201811634238.4A CN201811634238A CN109815382B CN 109815382 B CN109815382 B CN 109815382B CN 201811634238 A CN201811634238 A CN 201811634238A CN 109815382 B CN109815382 B CN 109815382B
- Authority
- CN
- China
- Prior art keywords
- acquisition
- information source
- information
- data
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种大规模网络数据的感知与获取方法,包括:感知网络数据的信息来源并将其拆分为信源,对该信源设置采集策略;生成采集任务,注册采集节点,以该注册节点拉取采集器并对其进行配置;根据该采集策略,通过该采集器执行该采集任务,获取结构化数据;监控该采集任务的执行状态,统计该结构化数据,并将监控结果和统计结果发送给用户。本发明的大规模网络数据感知与获取系统,按照不同的功能逻辑,划分为采集子平台、调度子平台、信源管理与配置子平台和监控与统计子平台,本系统是集大规模网络数据的感知发现、多信息来源的网络数据获取、高质量信息抽取及用户友好性交互界面于一体的通用大规模网络数据感知系统。
Description
技术领域
本发明属于数据感知与获取领域,特别涉及一种面向网络的大规模数据感知与获取方法。
背景技术
无论是网络舆情分析,互联网信息安全,还是机器学习,大数据技术,都需要大量的数据进行支撑。而当今社会,最大的数据源就是互联网。如何从互联网上收集数据,是大量研究所面临的第一步,是解决大数据应用冷启动问题的关键。随着互联网的不断普及,任何人都可以通过多种形式成为互联网信息的创造者,这就导致了互联网数据的急剧增长。同时由于人们创造数据的形式和平台的不同,这些数据也是有不同的规范,诸如论坛,微博,新闻就是三种截然不同的数据形式,我们将这种形式称为信息来源。同时,计算机往往更擅长处理结构化或半结构化的数据。将网络数据进行采集,并进行处理,得到结构化或半结构化的数据是后续研究的基础支撑技术。
大规模数据感知与获取领域是大数据分析处理的基础,体现了对数据资源的掌控能力,它将决定大数据研究应用能力。传统的大数据采集技术主要集中在利用网络爬虫对互联网进行广度或深度搜索的基础上,对单一或几种数据来源进行感知及获取,由于采集范围不易控制,往往无法保证采集的及时性,故传统的数据采集技术已不能满足未来的需求。实现定点、定主题、快速准确全面的多信息来源数据感知与获取技术,对于大数据应用具有重要意义。
大数据的采集获取方面仍处于初级阶段,处理的规模和得到的数据质量方面还远不能令人满意。同时人机物三元空间数据的多模态、跨时空、复杂关联的特性,也使得传统的数据采集获取技术面临巨大的技术挑战。在大规模网络数据的感知与获取方面,亟待解决大规模网络信源的感知发现、多信息来源的网络数据的获取、高质量信息抽取和对用户的友好性交互问题。
在大规模网络信源的感知发现方面,不同类型的媒体在信息组织等方面有很大区别,已有的信源扩充技术多仅针对单一媒体类型,以网站为粒度进行扩充,导致粒度过粗,造成后期信息感知方面的不够准确;
在多信息来源的网络数据的获取方面,传统的网络爬虫多基于深度遍历或广度遍历的方法对网站进行爬取,但由于无法有效的控制范围,往往无法定点、定主题的获取数据;此外,在大规模分布式架构上的爬虫系统,其爬虫策略往往比较单一,无法实现对复杂的多信息来源任务和多种优先级的支持;
在高质量信息抽取方面,已有技术多使用人工编写正则表达式或XPath(XML PathLanguage,XML路径语言)等方法从网页中抽取结构化信息。这些方法需要人力成本高,且容易犯错。面对大规模异构网页,仅靠某一种方法要做到高质量的网页信息抽取是很困难的;
在对用户的友好性交互方面,已有技术往往是后端系统,用户无法直观的监控系统的整体状态;对于获取的数据的统计分析,往往是基于日志或者代理端的分析,而不是针对数据本身分析,导致统计分析的维度过少;同时无法有效的实时反馈数据的质量;
此外,已有的系统大多是对上述问题中的某一个或几个进行解决,但为了实现定点、定主题、快速准确全面的多信息来源数据感知与获取,需要有一套统一的系统,实现对上述问题的通用解决方案,实现对不同大数据应用场景和领域的灵活支持和定制化。
发明内容
在进行大规模网络数据感知研究时,存在大规模网络信源的感知发现、多信息来源的网络数据的获取、高质量信息抽取和对用户的友好性交互问题。本发明旨在:
1.提出一套统一的大规模网络数据的感知与获取方法和系统,按照不同的功能逻辑划分出不同的模块,通过模块的分工协助的方法实现对不同大数据应用场景和领域的灵活支持和定制化;
2.提出一套完善的分层概念体系和信息来源分类体系,实现对大规模网络信息来源的精确感知和合理高效组织;提出自动化和半自动化的抽取算法的协同合作,结合不同抽取算法的组合抽取策略,通过界面化的多阶段信源模板验证,实现高质量的结构化数据提取;
3.提出一套支持可线性动态伸缩的分布式架构,支持采集节点的动态增减;具有抽象的任务接口和调度策略接口,支持多样化的采集任务定义和调度策略定义,从而能够使用不同的调度策略,对多信息来源的采集任务进行高效的多优先级的调度;
4.提出一套基于Board-Article架构建模信源感知模式,实现对信源信息改变的快速精准感知;通过模块化的采集器设计实现快速搭建多样化传媒的采集器;
5.提出一套通过面板化的交互,实现用户对系统运行状态的实时监控方法;对数据的多维度统计,通过报表的方式展示,便于用户了解获取数据的情况;利用基于线上实时内容的失效检测方法,及时检测潜在失效信源,实时反馈给用户。
具体来说,本发明提出一种大规模网络数据的感知与获取方法,包括:感知网络数据的信息来源并将其拆分为信源,对该信源进行分类并设置采集策略;生成采集任务,注册采集节点和调度节点,通过该调度节点的调度器,调度该采集节点拉取采集器并对其进行配置;根据该采集策略,通过该采集器执行该采集任务,获取结构化数据;监控该采集任务的执行状态,统计该结构化数据,并将监控结果和统计结果发送给用户。
本发明所述的大规模网络数据的感知与获取方法,其中按照“传媒-信簇-信源”三级结构对该信息来源进行拆分,即以该信息来源的信息组织特点,根据拆分粒度将该信息来源拆分至传媒、信簇或信源,并对该信源和该信簇进行分类,其中该拆分粒度包括传媒粒度、信簇粒度和信源粒度。
本发明所述的大规模网络数据的感知与获取方法,其中该信源类别包括:信源主题类别、信源地域类别、信源页面类别,其中该信源主题类别以该信源的信源主题内容为维度划分,该信源地域类别以该信源的关注地域为维度划分,该信源页面类别以该信源的网页结构为维度划分;该信簇类别包括:信簇主题类别、信簇地域类别,其中该信簇主题类别以该信簇的信簇主题内容为维度划分,该信簇地域类别以该信簇的关注地域为维度划分。
本发明所述的大规模网络数据的感知与获取方法,其中该采集策略包括采集模板和抽取模板,根据网络数据类别设定抓取规则,在该信源的采集入口页面中选取第一样例页面对该抓取规则进行验证,将符合用户的数据采集请求的抓取规则配置为该采集模板;根据网络数据内容设定抽取算法组合策略,在该信源的采集页面中选取第二样例页面对该抽取算法组合策略进行验证,将符合该数据采集请求的抽取算法组合策略配置为该抽取模板;其中,该抽取算法组合策略包括至少一种数据抽取算法。
本发明所述的大规模网络数据的感知与获取方法,其中根据该信源的信源信息和调度策略生成该采集任务,其中该调度策略的内容包括该采集任务的调度优先级、调度周期和调度频次,且该调度策略包括第一调度策略和/或第二调度策略,该第一调度策略由用户的数据采集请求获得,该第二调度策略为默认调度策略。
本发明所述的大规模网络数据的感知与获取方法,其中通过拟执行该采集任务的节点上的代理程序,将该节点的注册信息发送至注册中心,以将该节点注册为该采集节点,该注册信息包括该节点所在设备的IP、该设备的物理资源使用情况、该节点支持的采集器类型和该节点支持的最大采集进程数。
本发明所述的大规模网络数据的感知与获取方法,其中该采集器配置过程包括:该采集节点接收该采集任务,拉取该采集器,将该采集任务发送至该采集器,该采集器根据该采集任务的参数配置信息进行配置。
本发明所述的大规模网络数据的感知与获取方法,其中执行该采集任务过程中,该采集器基于Board-Article架构建模的数据采集模式,抽取Board页中的Article页链接,放入待采集数据链接队列;抽取该待采集数据链接队列中的Article页,获取结构化数据;将该结构化数据进行持久化操作,并进行输出。
本发明所述的大规模网络数据的感知与获取方法,其中根据用户的监控请求,将该执行状态发送给该用户;其中该执行状态包括该采集节点的工作状态、该调度节点的工作状态和该采集任务的工作状态。
本发明所述的大规模网络数据的感知与获取方法,其中对该结构化数据进行统计,以获取针对该信源的采集量,以及该信源的活跃等级,并根据该用户的查询请求,将该采集量和/或该活跃等级发送给该用户;通过比较该采集量的变化量和/或该结构化数据的相似度的变化量,获取该信源的状态;其中当该采集量的变化量大于第一阈值和/或该相似度的变化量大于第二阈值时,判定该信源为潜在失效信源,并推送给该用户。
本发明还提出一种大规模网络数据的感知与获取系统,包括:信源管理与配置子平台,用于感知网络数据的信息来源并将其拆分为信源,对该信源进行分类并设置采集策略;调度子平台,用于生成采集任务,注册采集节点和调度节点,通过该调度节点的调度器,调度该采集节点拉取采集器并对其进行配置;采集子平台,用于根据该采集策略,通过该采集器执行该采集任务,获取结构化数据;监控与统计子平台,用于监控该采集任务的执行状态,统计该结构化数据,并将监控结果和统计结果发送给用户。
本发明还提出一种计算机可读存储介质,存储有计算机可执行指令,该计算机可执行指令用于执行如上述大规模网络数据的感知与获取方法。
本发明还提出一种数据处理设备,包括上述的计算机可读介质,该数据处理装置调取并执行该计算机可读介质中的计算机可执行指令,以对网络数据进行感知和获取。
与现有技术相比,本发明的效果体现在:
1.在大规模网络数据感知系统架构方面,现有的系统大多是对上述问题中的某一个或几个进行解决,为了实现定点、定主题、快速准确全面的多信息来源数据感知与获取,提出了一套统一的方法和系统,实现对上述问题的通用解决方案,实现对不同大数据应用场景和领域的灵活支持和定制化
2.在对大规模网络信源的感知发现方法,现有技术中粒度过粗的问题,是由没有对信源进行合理建模所导致,解决该项缺陷可通过传媒-信簇-信源的三级结构建模信源,将不同粒度的信息来源进行拆分,自动对齐的方法来实现。
3.在对多信息来源的网络数据的获取方面,现有技术无法定点、定主题的获取数据的问题,可以通过基于Board-Article架构建模信源感知模式,实现对信源信息改变的快速精准感知;通过模块化的采集器设计实现快速搭建多样化传媒的采集器;调度子平台通过抽象的任务接口和调度策略接口,实现对多信息来源的采集任务进行高效的多优先级的调度。
4.在高质量信息抽取方面,现有技术人力成本高且容易犯错的问题,可以利用自动化和半自动化的抽取算法,结合不同抽取算法的组合抽取策略,通过界面化的多阶段采集抽取验证,实时比对抽取效果,实现高质量的信息抽取。
5.在对用户的友好性交互方面,现有系统无法直观的监控系统的整体状态的问题,可以利用面板化的交互方式实现用户对系统的友好监控方式解决;现有统计分析维度过少的问题,可以通过利用采集数据本身实现实时计算的方法解决;现有技术无法有效的实时反馈数据的质量的问题,可以通过基于线上实时内容的失效检测方法解决。
附图说明
图1是本发明的一种大规模网络数据的感知与获取系统的系统架构图。
图2是本发明的一种大规模网络数据的感知与获取方法的数据流示意图。
图3是本发明的数据感知与获取方法的信源管理与配置步骤数据流示意图。
图4是本发明的数据感知与获取方法的调度步骤数据流示意图。
图5是本发明的数据感知与获取方法的采集步骤数据流示意图。
图6是本发明的数据感知与获取方法的监控与统计步骤数据流示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明提出的大规模网络数据的感知与获取方法和系统进一步详细说明。应当理解,此处所描述的具体实施方法仅仅用以解释本发明,并不用于限定本发明。
本发明的说明书中包括以下术语:
“信息来源”,指互联网信息的来源;“传媒-信簇-信源”架构,“传媒”指网络空间中的不同信息传播媒体如新闻、论坛、博客、新闻APP、微博、微信、社交类网站等媒体;“信簇”指一种传媒的一个具体网络数据的集合,例如新闻类网站中的新浪新闻网站;“信源”,指网络空间中信息聚合的最小单位,例如新浪新闻网站中的国内频道;“Board-Article”架构,Board页,指网络空间中专门用于展示具体信息内容链接的页面,Article页,指用于展示具体信息内容的页面;“Web Map”,是用于描述网络空间中信息来源之间的复杂关系的映射,例如链接互指关系、主题相关关系、好友关系等。
图1是本发明的一种大规模网络数据的感知与获取系统的系统架构图。如图1所示,本发明的大规模网络数据的感知与获取系统,按照功能逻辑划分为四个子平台,信源管理与配置子平台、调度子平台、采集子平台和监控与统计子平台。其中:
信源管理与配置子平台,通过不同维度,实现对多传媒类型信源的统一管理;实现对信源的采集、抽取配置,以及对各流程的配置验证;与业务系统数据和业务用户相结合,能够提供面向业务的信源数据分析。
调度子平台,提供分布式的采集架构,支持采集节点的线性扩展;调度的最小单元为任务,任务具有抽象性,支持实现多种不同采集类型的采集任务;调度策略是对任务执行优先级和频次的定义,用于保证任务被调度的及时性。
采集子平台,提供实现不同采集任务的采集器,如新闻采集器、论坛采集器,实现解析采集任务,执行采集,提交采集结果至数据输出接口的功能;提供采集的基础服务,包括查重服务,状态服务,代理服务,JS解析服务。
监控与统计子平台,提供对分布式采集系统的采集节点信息、调度信息、任务执行信息的监控,以界面的方式与用户进行交互;对各类信源的采集信息进行基础统计,利用线上数据检测失效信源,并汇总至信源管理与配置子平台。
多信息来源在配置与管理子平台进行感知、拆分、管理和采集抽取配置;配置信息通过调度子平台的任务接口和调度策略接口形成具有不同调度策略的多信息来源任务,通过分布式架构下发到采集节点;采集任务由采集子平台中的采集器完成数据的获取,并将获取的数据写入到数据输出接口;监控与统计子平台通过界面化的方式提供用户对系统运行状态的监控,通过实时分析在线数据提供多维度的数据统计和数据质量的实时反馈。
具体来说,信源管理与配置子平台主要包括信息来源自动感知模块、信息来源自动拆分模块、信源管理模块、信源配置模块、信簇分类模块、信源分类模块、信源验证模块和传媒分类模块,以及批次类别管理、用户管理、业务系统管理、配置任务管理、账号与Cookie管理、配置任务统计、信源多维度统计等模块。信源管理与配置子平台通过“传媒-信簇-信源”三级结构的分层概念体系和多维度的信息来源分类体系对来自不同类型的信息来源进行合理高效组织;通过根据Board-Article架构把信息来源的最小粒度设置为网站的版块,结合“传媒-信簇-信源”三级结构的分层概念体系,实现对大规模网络信息来源的精确感知;利用自动化和半自动化的抽取算法的协同合作,结合不同抽取算法的组合抽取策略,通过界面化的多阶段信源模板验证,实现高质量的结构化数据提取。配置好的信源可通过信源配置下发模块下发到各子平台。配置任务统计、信源多维统计给出信源的统计视图,辅助用户决策。
调度子平台主要包括分布式架构、调度策略模块、任务管理模块和采集器管理模块。调度子平台通过分布式架构,实现一套支持可线性动态伸缩的分布式架构,支持采集节点的动态增减,包括注册中心和节点的代理程序;利用配置平台下发的配置,通过任务生成模块生成具有不同优先级的采集任务;调度策略模块根据采集任务和采集资源,按照不同的调度策略完成任务的调度;任务通过分布式架构的采集节点Agent进行执行。
采集子平台主要包括多信息来源网络数据的采集器和采集基础服务框架,如查重服务模块、状态服务模块、代理服务模块、JS解析服务模块等。采集器内部基于Board-Article架构建模信源实现对信源信息改变的快速精准感知,包括新闻采集器、论坛采集器和博客采集器等;采集器被采集节点Agent启动,根据采集和抽取配置项,执行特定信源的数据获取和结构化解析。在采集完成后,将数据写入到数据输出接口。
监控与统计子平台主要包括采集调度监控模块、采集信息统计模块和在线失效信源检测模块。采集调度监控模块通过采集调度监控对系统运行状态的实时监控和调度,包括采集节点、调度节点、采集任务;采集信息统计模块对数据的多维度统计,通过报表的方式展示,便于用户了解获取数据的情况;在线失效信源检测模块利用基于线上实时内容的失效检测算法,及时检测网站变更导致的采集抽取配置失效情况,实时反馈给用户,辅助用户决策,并定期反馈给信源配置模块。
本发明的大规模网络数据的感知与获取系统还包括数据输出接口,主要实现接收采集器采集数据的写入,以及上层业务系统的订阅。根据不同的业务场景,数据输出接口实现可包括文件系统、消息队列系统、数据库系统等。
图2是本发明的一种大规模网络数据的感知与获取方法的业务逻辑流程图。如图2所示,本发明的数据感知与获取方法通过各子平台,实现大规模网络数据的获取。具体来说,本发明的数据感知与获取方法包括:
步骤1,信源管理与配置
图3是本发明的数据感知与获取方法的信源管理与配置步骤数据流示意图。如图3所示,信源管理与配置步骤包括:
步骤11,感知并导入信息来源,包括:
步骤111,通过自动感知技术获取信息来源;
步骤112,使用自动结合人工参与的技术将信息来源依据信息来源的信息组织特点依次拆分成传媒、信簇和信源;
步骤113,根据传媒、信簇、信源的定义把信息来源和拆分得到信源对齐到“传媒-信簇-信源”的分层概念体系,将拆分得到的传媒、信簇、信源导入信源管理与配置子平台中;
步骤12,信息来源类别标注,包括:
步骤121,根据需求定义要标注的类别,例如以信源、信簇主题内容为维度划分的主题类别,以信源、信簇关注地域为维度划分的地域类别,以信源网页结构为维度划分的页面类别;
步骤122,对信簇和信源进行类别标注,形成Web Map;
步骤13,根据信息来源类别配置采集模板,包括:
步骤131根据采集入口URL调用采集子平台抓取入口页面,如有必要则人工修改入口URL。
步骤132,根据采集入口页面中的链接设置候选的抓取规则,抓取规则的表达方式根据抓取方法的不同而不同,例如抓取规则可以用正则表达式、XPath(XML路径语言,XMLPath Language)、CSS(层叠样式表,Cascading Style Sheets)选择器表达,也可以用网页的DOM树(文档对象模型,Document Object Model)中节点的标签名、属性名值对表达,或者使用以上方式中两种或两种以上的组合进行表达;
步骤133,调用采集子平台,选取样例页面对抓取规则的效果进行验证,如有必要则人工修改抓取规则;将通过验证的抓取规则配置为采集模板;
步骤14,根据信息来源内容配置抽取模板,包括:
步骤141,针对样例页面中不同的目标信息内容使用不同的信息抽取算法进行抽取测试,例如新闻页面中的新闻正文,论坛中的帖子标题,根据抽取效果选择最好的目标信息内容与抽取算法的对应关系;
步骤142,根据步骤141得到的对应关系自动生成分层的不同抽取算法的抽取模板,其中抽取模板可以为某一种数据抽取算法,也可以为多种数据抽取算法按某种规律的组合,例如,利用A算法抽取新闻中的标题和正文,以A算法生抽抽取模板;又例如,利用A算法抽取新闻中的标题,利用B算法抽取新闻中的正文,将A算法和B算法组合生成抽取模板;
步骤143,调用采集子平台校验步骤142生成的抽取模板的效果,如有必要则转至步骤141进行重新测试;
步骤15,信源的验证,包括:
步骤151,根据用户需求人工触发或定期触发自动校验程序对信源进行验证,验证内容包括信源的入口是否有效、采集模板和抽取模板对信源的适应性等;
步骤152,定时巡查从监控与统计子平台反馈的的信源采集情况,如有潜在失效信源,则人工检验采集模板和抽取模板的有效性,根据检验结果重新配置采集模板和抽取模板,或将潜在失效信源置为无效。
步骤2,采集任务调度
图4是本发明的数据感知与获取方法的调度步骤数据流示意图。如图4所示,采集任务调度步骤包括:
步骤21:将用于调度任务的信源信息生成信源表;
步骤22:采集任务的生成:根据信源表的信源信息和用户提交的调度策略生成采集任务,或根据信源表的信息和调度子平台默认的调度策略生成采集任务,或根据信源表的信源信息、用户提交的调度策略和调度子平台默认的调度策略生成采集任务,写入采集任务表,其中调度策略包括采集任务的调度优先级、采集任务的调度周期、采集任务的调度频次等;
步骤23:注册采集节点,节点通过部署在节点上的代理程序在注册中心进行信息注册,注册信息包括所在的设备的IP、所在设备的物理资源使用情况、节点能支持的采集器类型、节点能支持的最大采集进程数,采集进程数由代理根据设备物理配置自动推算,完成注册的节点成为采集节点;代理程序同时将采集节点的状态存入注册中心;
步骤24:注册调度节点,节点通过部署在节点上的代理程序在注册中心进行信息注册,注册信息包括所在的设备的IP、所在设备的物理资源使用情况,完成注册的节点成为调度节点;代理程序同时将调度节点的状态存入注册中心;
步骤25:调度器执行任务调度,包括:
步骤251,任务加载线程,加载采集任务表中的采集任务的参数配置信息,并且根据采集任务的类型解析采集任务的参数配置信息;
步骤252,任务更新线程,加载采集任务被调度的信息,更新采集任务的参数配置信息,包括采集任务已经被调度次数和最近一次被调度的时间;
步骤253,任务拉取线程,从任务队列中按优先级拉取任务;
步骤254,调度器将自身的工作状态存入注册中心;
步骤26,采集节点代理拉取采集器执行任务,采集节点收到调度器传递的启动请求,进行分析,得到采集任务具体类型,将首先从HDFS拉取相应的采集器,然后将采集任务传递到采集器,采集器使用调度的通用接口,获取采集任务的参数配置信息启动采集器。此时代理程序将监控采集器状态,将采集器状态存入注册中心,并将启动的采集器进程信息上报至调度器,当采集器状态发生改变时通知调度器,由调度器对采集器进行统一的管理;
步骤3,网络数据采集
图5是本发明的数据感知与获取方法的采集步骤数据流示意图。如图5所示,网络数据采集步骤包括:
步骤31,加载采集任务的参数配置信息形成的配置文件,配置文件包含调用采集子平台模块的配置,以及采集任务需求。采集任务需求包括采集目标信息来源,需要提供Board页的URL以及抽取的范围要求,诸如采集抽取深度,数据持久化操作,是否去重,Article页的期望数量等;
步骤32:按照采集任务需求,进行采集子平台的配置,对采集子平台提供的模块进行编排,选择使用的采集器、查重服务模块、状态服务模块、代理服务模块及JS解析服务模块等,部分模块按配置文件的要求进行单独的配置;
步骤33,采集子平台根据配置文件进行初始化,包括持久化接口的初始化,查重模块的初始化,页面缓存的初始化,以及编排好的采集器初始化;
步骤34,采集器启动,进行Board页采集,使用配置要求的抽取模板,抽取Board页中的Article页链接,放入待采集数据链接队列中,不断重复本步直到完成配置文件要求,或采集完成所有的Board页;
步骤35,对待采集数据链接队列中的Article页链接进行采集,获取时按配置文件的要求进行过滤,直到待采集数据链接队列为空,采集时,使用配置的抽取模板,对Article页面进行抽取,得到结构化数据;
步骤37,将步骤35得到的结构化数据进行持久化操作,将结构化数据输出到数据输出接口中,据不同的业务场景,数据输出接口实现可包括文件系统、消息队列系统、数据库系统等;
步骤4,数据采集的监控与统计
图6是本发明的数据感知与获取方法的监控与统计步骤数据流示意图。如图6所示,监控与统计步骤包括:
步骤41,对采集任务信息和信源统计信息进行统计,并写入监控与统计数据库;
步骤42,采集调度监控,包括:
步骤421,用户在前端的面板上选取需要查看的监控指标;
步骤422,如果该指标是调度器状态、采集节点状态或采集器状态,则从注册中心中查询调度器状态数据、采集节点状态数据、采集器状态数据,返回给前端;如果指标是采集任务信息和信源统计信息,则从监控与统计数据库中获取采集任务信息和信源统计信息,聚合后发送给前端;
步骤423,前端使用绘图工具渲染步骤412获取的数据,展示到面板中;
步骤424,使用前端面板上的启动/停用调度器、启动/停用采集节点按钮可实现相应的控制功能;
步骤425,使用前端面板上的停止采集任务、停用采集器按钮可实现控制采集任务和采集器的功能;
步骤43,采集量统计,包括:
步骤431,读取结构化数据,按照监控与统计子平台中配置的采集时间粒度,统计各信源的数据采集量,并存入监控与统计数据库中;其中采集时间粒度可以为分、小时、天、周、月等,根据实际采集任务进行设定,默认以天为单位;
步骤432,按照监控与统计子平台中配置的活跃度时间粒度,基于信源前n个时间粒度的数据采集量计算信源的活跃等级,并存入监控与统计数据库中;活跃度时间粒度可以为分、小时、天、周、月等,根据实际采集任务进行设定,默认以天为单位;
步骤433,用户通过前端面板查看统计信息,发送查询请求;
步骤434,查询监控与统计数据库,将查询结果返回给前端;
步骤44,在线失效检测,包括:
步骤441,获取同一信源所采集数据的相似度,例如按照文章的标题与正文的相关性获取文章的相似度,通过相似度对信源进行动态的累计相似度打分,得到相似度分值,将相似度分值存入监控与统计数据库;
步骤442,分析信源最近m个失效检测时间粒度的数据采集量和相似度分值的变化情况,若数据采集量变化量大于根据历史经验设定的数据采集量阈值,和或相似度分值变化量大于根据历史经验设定的相似度分值阈值,则判断这个信源为潜在失效信源,把检测到的潜在失效信源信息写入监控与统计数据库;失效检测时间粒度可以为分、小时、天、周、月等,根据实际采集任务进行设定,默认以天为单位;
步骤443,将检测到的潜在失效信源推送到信源管理与配置子平台,供信源管理与配置子平台用户确认潜在失效信源为有效或失效,并做进一步处理以优化信源。
需要说明的是,上述实施例中介绍的各个步骤并非都是必须的,本领域技术人员可以根据实际需要进行适当的取舍、替换、修改等。
本发明实施例还提供一种计算机可读存储介质,存储有计算机可执行指令,计算机可执行指令被处理器执行时实现上述大规模网络数据的感知与获取方法。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器)完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,例如通过集成电路来实现其相应功能,也可以采用软件功能模块的形式实现,例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明实施例不限制于任何特定形式的硬件和软件的结合。
具体而言,本发明实施例还提供一种数据处理设备,数据处理设备安装有上述有计算机可执行指令,并与网络连接;数据处理设备通过执行计算机可执行指令实现上述大规模网络数据的感知与获取,并可以通过前端面板,例如是数据输入/输出设备与用户交互。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管上文参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (11)
1.一种大规模网络数据的感知与获取方法,其特征在于,包括:
感知网络数据的信息来源并将其拆分为信源,对该信源进行分类并设置采集策略;该采集策略包括:采集模板和抽取模板,其中,根据网络数据类别设定抓取规则,在该信源的采集入口页面中选取第一样例页面对该抓取规则进行验证,将符合用户的数据采集请求的抓取规则配置为该采集模板;在该信源的采集页面中选取第二样例页面,将与该第二样例页面的目标信息内容对应的抽取算法组合配置为抽取模板;该抽取算法组合包括至少一种抽取算法;
生成采集任务,注册采集节点和调度节点,通过该调度节点的调度器,调度该采集节点从HDFS拉取与该采集任务对应的采集器并对其进行配置;
根据该采集策略,通过该采集器执行该采集任务,获取结构化数据;
获取从该信源所采集的结构化数据的相似度,通过该相似度对该信源进行相似度打分,以得到相似度分值;获取该信源最近多个采集量的变化量,该信源最近多个该相似度分值的变化量,若该采集量的变化量大于第一阈值和/或该相似度分值的变化量大于第二阈值,则判断该信源为潜在失效信源,检验该采集模板和该抽取模板的有效性,根据检验结果重新配置该采集模板和该抽取模板,或将该信源置为无效,统计该结构化数据,并将监控结果和统计结果发送给用户。
2.如权利要求1所述的大规模网络数据的感知与获取方法,其特征在于,按照“传媒-信簇-信源”三级结构对该信息来源进行拆分,即以该信息来源的信息组织特点,根据拆分粒度将该信息来源拆分至传媒、信簇或信源,并对该信源和该信簇进行分类,其中该拆分粒度包括传媒粒度、信簇粒度和信源粒度。
3.如权利要求2所述的大规模网络数据的感知与获取方法,其特征在于,该信源的分类包括:信源主题类别、信源地域类别、信源页面类别,其中该信源主题类别以该信源的信源主题内容为维度划分,该信源地域类别以该信源的关注地域为维度划分,该信源页面类别以该信源的网页结构为维度划分;该信簇的分类包括:信簇主题类别、信簇地域类别,其中该信簇主题类别以该信簇的信簇主题内容为维度划分,该信簇地域类别以该信簇的关注地域为维度划分。
4.如权利要求1所述的大规模网络数据的感知与获取方法,其特征在于,根据该信源的信源信息和调度策略生成该采集任务,其中该调度策略的内容包括该采集任务的调度优先级、调度周期和调度频次,且该调度策略包括第一调度策略和/或第二调度策略,该第一调度策略由用户的数据采集请求获得,该第二调度策略为默认调度策略。
5.如权利要求1所述的大规模网络数据的感知与获取方法,其特征在于,通过拟执行该采集任务的节点上的代理程序,将该节点的注册信息发送至注册中心,以将该节点注册为该采集节点,该注册信息包括该节点所在设备的IP、该设备的物理资源使用情况、该节点支持的采集器类型和该节点支持的最大采集进程数。
6.如权利要求1所述的大规模网络数据的感知与获取方法,其特征在于,该采集器配置过程包括:该采集节点接收该采集任务,拉取该采集器,将该采集任务发送至该采集器,该采集器根据该采集任务的参数配置信息进行配置。
7.如权利要求1所述的大规模网络数据的感知与获取方法,其特征在于,执行该采集任务过程中,该采集器基于Board-Article架构建模的数据采集模式,抽取Board页中的Article页链接,放入待采集数据链接队列;抽取该待采集数据链接队列中的Article页,获取结构化数据;将该结构化数据进行持久化操作,并进行输出。
8.如权利要求1所述的大规模网络数据的感知与获取方法,其特征在于,根据用户的监控请求,将执行状态发送给该用户;其中该执行状态包括该采集节点的工作状态、该调度节点的工作状态和该采集任务的工作状态。
9.一种大规模网络数据的感知与获取系统,其特征在于,包括:
信源管理与配置子平台,用于感知网络数据的信息来源并将其拆分为信源,对该信源进行分类并设置采集策略;该采集策略包括:采集模板和抽取模板,其中,根据网络数据类别设定抓取规则,在该信源的采集入口页面中选取第一样例页面对该抓取规则进行验证,将符合用户的数据采集请求的抓取规则配置为该采集模板;在该信源的采集页面中选取第二样例页面,将与该第二样例页面的目标信息内容对应的抽取算法组合配置为抽取模板;该抽取算法组合包括至少一种抽取算法;
调度子平台,用于生成采集任务,注册采集节点和调度节点,通过该调度节点的调度器,调度该采集节点从HDFS拉取与该采集任务对应的采集器并对其进行配置;
采集子平台,用于根据该采集策略,通过该采集器执行该采集任务,获取结构化数据;
监控与统计子平台,用于获取从该信源所采集的结构化数据的相似度,通过该相似度对该信源进行相似度打分,以得到相似度分值;获取该信源最近多个采集量的变化量,该信源最近多个该相似度分值的变化量,若该采集量的变化量大于第一阈值和/或该相似度分值的变化量大于第二阈值,则判断该信源为潜在失效信源,检验该采集模板和该抽取模板的有效性,根据检验结果重新配置该采集模板和该抽取模板,或将该信源置为无效,统计该结构化数据,并将监控结果和统计结果发送给用户。
10.一种计算机可读存储介质,存储有计算机可执行指令,该计算机可执行指令用于执行如权利要求1~8任一项所述的大规模网络数据的感知与获取方法。
11.一种数据处理设备,包括如权利要求10所述的计算机可读介质,该数据处理装置调取并执行该计算机可读介质中的计算机可执行指令,以对网络数据进行感知和获取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811634238.4A CN109815382B (zh) | 2018-12-29 | 2018-12-29 | 大规模网络数据的感知与获取方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811634238.4A CN109815382B (zh) | 2018-12-29 | 2018-12-29 | 大规模网络数据的感知与获取方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109815382A CN109815382A (zh) | 2019-05-28 |
CN109815382B true CN109815382B (zh) | 2022-07-12 |
Family
ID=66601843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811634238.4A Active CN109815382B (zh) | 2018-12-29 | 2018-12-29 | 大规模网络数据的感知与获取方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109815382B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110636116B (zh) * | 2019-08-29 | 2022-05-10 | 武汉烽火众智数字技术有限责任公司 | 一种多维数据采集的系统及方法 |
CN111581170B (zh) * | 2020-04-17 | 2024-04-09 | 上海中通吉网络技术有限公司 | 分布式智能数据采集方法、装置、设备和存储介质 |
CN112613792A (zh) * | 2020-12-30 | 2021-04-06 | 中国建设银行股份有限公司 | 数据处理方法、系统、计算机设备和存储介质 |
CN112732428A (zh) * | 2021-01-14 | 2021-04-30 | 北京神州泰岳软件股份有限公司 | 数据采集方法、装置、电子设备和存储介质 |
CN113485894A (zh) * | 2021-07-14 | 2021-10-08 | 深信服科技股份有限公司 | 一种数据采集方法、装置、设备及可读存储介质 |
CN115904910B (zh) * | 2022-12-23 | 2024-03-12 | 北京云端智度科技有限公司 | 一种边缘节点状态感知方法、系统、介质及设备 |
CN116800588B (zh) * | 2023-08-28 | 2023-12-22 | 深圳市华曦达科技股份有限公司 | 网通产品网络优化方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103841369A (zh) * | 2012-11-22 | 2014-06-04 | 北大方正集团有限公司 | 一种监控广告大屏幕状态的方法及系统 |
CN107239563A (zh) * | 2017-06-13 | 2017-10-10 | 成都布林特信息技术有限公司 | 舆情信息动态监控方法 |
CN107291471A (zh) * | 2017-06-22 | 2017-10-24 | 北京航空航天大学 | 一种支持可定制化数据采集的元模型框架系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103810023B (zh) * | 2014-03-06 | 2016-09-07 | 中国科学院信息工程研究所 | 一种云平台中分布式应用的智能部署方法及系统 |
CN104317880A (zh) * | 2014-10-22 | 2015-01-28 | 浪潮软件集团有限公司 | 一种专门针对微博数据采集方式的方法 |
CN105279272A (zh) * | 2015-10-30 | 2016-01-27 | 南京未来网络产业创新有限公司 | 一种基于分布式网络爬虫的内容聚合方法 |
CN106484828B (zh) * | 2016-09-29 | 2020-01-21 | 西南科技大学 | 一种分布式互联网数据快速采集系统及采集方法 |
CN108769115A (zh) * | 2018-04-19 | 2018-11-06 | 中国科学院计算技术研究所 | 分布式rss数据采集方法和系统 |
CN109088908A (zh) * | 2018-06-06 | 2018-12-25 | 武汉酷犬数据科技有限公司 | 一种面向网络的分布式通用数据采集方法和系统 |
CN109086301A (zh) * | 2018-06-20 | 2018-12-25 | 江苏网域科技有限公司 | 一种基于云计算的数据管理平台 |
CN109063107A (zh) * | 2018-07-27 | 2018-12-21 | 中国大唐集团新能源科学技术研究院有限公司 | 一种多源数据采集方法 |
-
2018
- 2018-12-29 CN CN201811634238.4A patent/CN109815382B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103841369A (zh) * | 2012-11-22 | 2014-06-04 | 北大方正集团有限公司 | 一种监控广告大屏幕状态的方法及系统 |
CN107239563A (zh) * | 2017-06-13 | 2017-10-10 | 成都布林特信息技术有限公司 | 舆情信息动态监控方法 |
CN107291471A (zh) * | 2017-06-22 | 2017-10-24 | 北京航空航天大学 | 一种支持可定制化数据采集的元模型框架系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109815382A (zh) | 2019-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109815382B (zh) | 大规模网络数据的感知与获取方法和系统 | |
EP3475884B1 (en) | System and method for automated mapping of data types for use with dataflow environments | |
CN109840298B (zh) | 大规模网络数据的多信息来源采集方法和系统 | |
CN109753596B (zh) | 用于大规模网络数据采集的信源管理与配置方法和系统 | |
Park et al. | Web-based collaborative big data analytics on big data as a service platform | |
US11726840B2 (en) | Flexible and scalable artificial intelligence and analytics platform with advanced content analytics and data ingestion | |
Ma et al. | Big graph search: challenges and techniques | |
CN101751458A (zh) | 一种网络舆情监控系统及方法 | |
JP2008508575A (ja) | エコシステムを使用した集約および検索の方法、並びに、それらの関連技術 | |
US10579734B2 (en) | Web-based influence system and method | |
CN109814992A (zh) | 用于大规模网络数据采集的分布式动态调度方法和系统 | |
US10127617B2 (en) | System for analyzing social media data and method of analyzing social media data using the same | |
CN109819019B (zh) | 用于大规模网络数据采集的监控与统计分析方法和系统 | |
KR102107474B1 (ko) | 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법 | |
CN113962597A (zh) | 一种数据分析方法、装置、电子设备及存储介质 | |
Chen et al. | Aggregating semantic annotators | |
Anderson et al. | Architectural Implications of Social Media Analytics in Support of Crisis Informatics Research. | |
KR101665649B1 (ko) | 소셜 미디어 데이터 분석 시스템 및 이를 이용한 소셜 미디어 데이터 분석 방법 | |
KR102025813B1 (ko) | 사건 흐름 정보를 제공하기 위한 연대순 정보 기반 큐레이션 장치 및 그것의 제어방법 | |
US20220156228A1 (en) | Data Tagging And Synchronisation System | |
Nica et al. | New research directions in knowledge discovery and allied spheres | |
CN112650925A (zh) | 一种用于一卡通的app信息推送系统、方法及介质 | |
Su et al. | KaitoroCap: A document navigation capture and visualisation tool | |
Liu et al. | Web data extraction research based on wrapper and XPath technology | |
Yan et al. | Design and Development of an Intelligent Network Crawler System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |