CN109753596A - 用于大规模网络数据采集的信源管理与配置方法和系统 - Google Patents

用于大规模网络数据采集的信源管理与配置方法和系统 Download PDF

Info

Publication number
CN109753596A
CN109753596A CN201811637397.XA CN201811637397A CN109753596A CN 109753596 A CN109753596 A CN 109753596A CN 201811637397 A CN201811637397 A CN 201811637397A CN 109753596 A CN109753596 A CN 109753596A
Authority
CN
China
Prior art keywords
information source
acquisition
classification
information
letter cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811637397.XA
Other languages
English (en)
Other versions
CN109753596B (zh
Inventor
程学旗
郭岩
贺广福
周秀花
俞晓明
史存会
孟剑
姜世勇
肖若晗
赵岭
张乐
焦利颖
周映彤
余智华
刘悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201811637397.XA priority Critical patent/CN109753596B/zh
Publication of CN109753596A publication Critical patent/CN109753596A/zh
Application granted granted Critical
Publication of CN109753596B publication Critical patent/CN109753596B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种网络数据采集的信源管理与配置方法,包括:感知网络数据的信息来源,将该信息来源拆分为传媒、信簇和信源;根据信簇类别对该信簇进行类别标注;根据信源类别对该信源进行类别标注;根据该信源的信源类别配置采集模板;根据该信源所包含的网络数据配置抽取模板;当验证该信源为潜在失效信源时,将该信源置为无效,或重新配置该采集模板和/或该抽取模板。本发明的信源管理与配置系统,通过“传媒‑信簇‑信源”三级结构的分层概念体系和多维度的信息来源分类体系对来自不同类型的信息来源进行合理高效组织,进而实现对大规模网络信息来源的精确感知并设计采集策略。

Description

用于大规模网络数据采集的信源管理与配置方法和系统
技术领域
本发明属于网络信息处理领域,特别涉及一种用于网络空间的大规模数据采集的信源管理与信源配置方法及系统。
背景技术
随着互联网技术的飞速发展,互联网上除了新闻、论坛、博客等传统媒体,还涌现出了微博、微信、新闻APP、社交类网站等多种新型媒体,这些媒体都是互联网信息的信息来源。不同类型的信息来源在网站结构、信息的组织方式等方面都存在很大的区别。对各种类型的信息来源进行统一的高效管理,是准确、全面、及时地感知互联网信息的首要步骤。信息来源的管理包括对已有信息来源进行系统化的合理组织,以及对新信息来源的快速感知。信息来源的管理范围和效率决定了可获取的信息在互联网上的覆盖率和准确率。
从多种类型的信息来源中获取结构化数据,是大多数网络应用不可缺少的环节之一。结构化数据的质量从基础上决定了网络应用服务的效果。从互联网信息来源中获取结构化数据包括网页的抓取和从网页中提取结构化数据这两个主要步骤。为了提高结构化数据获取的效率与准确率,需要在一些先验知识的指导下完成网页的抓取和网页信息的提取。这些先验知识作为规则记录在模板中。采集模板中记录了网页的抓取规则,抽取模板中记录了网页的信息提取规则。每个信息来源需要特定的模板。不同类型的信息来源,需要的模板不同,相同类型的信息来源,需要的模板在大多数情况下也不同。采集模板和提取模板的生成都需要一定程度的人工参与。生成模板的过程即为模板的配置过程,模板不同,配置方式也不同。对来自多种类型的信息来源进行个性化、半自动化、精准的模板配置,是获取高质量的结构化数据的关键。
面对来自多种信息来源且异构的海量数据,信息来源的管理与配置是互联网信息处理中亟待解决的问题之一。已有技术多以针对单一种类型的信息来源进行管理与配置为主。
在信息来源的管理方面,已有技术通常根据不同信息来源的信息组织特点分别进行管理与感知。其中,对新闻、论坛、新闻APP的组织,多以网站为粒度;对博客多以博主为粒度;对微博、微信、社交类网站多以账号为粒度进行管理。由于缺乏针对多种类型的信息来源的统一管理模式,使得不同类型的信息来源无法有机地组织在一起,并造成管理缺失与混乱。例如无法利用不同类型的信息来源在内容等方面的相关性,对信息来源进行更高效、更灵活的管理;在面对未知类型的信息来源时,无法将其快速纳入管理体系中,从而无法对新型媒体进行有效的信息来源管理,以及高效高质的信息获取。
在信息来源的配置方面,配置方式通常和使用的采集技术、网页信息抽取技术相关。已有技术通常根据不同信息来源的信息组织特点分别设计专用的采集方法和信息抽取方法。在采集方法中通常使用正则表达式来约束要抓取的网页的链接范围;在信息抽取方法中通常使用XPath(XML Path Language,XML 路径语言)从网页中抽取结构化信息。面对大规模异构网页,仅使用某一种方法很难获得高质量的结构化数据。
随着业务与潮流的发展,网站通常是不断变化的,所以采集模板、提取模板都需要及时进行失效检查,从而保证上层系统能够持续获取到高质量的结构化数据。但网站的变化是不会主动对外通知的,如何在第一时间发现模板的失效并快速配置新模板是业界难题。
发明内容
针对上述问题,本发明提出一种用于大规模网络数据采集的信源管理与配置方法,包括:感知网络数据的信息来源,将该信息来源拆分为传媒、信簇和信源;根据信簇类别对该信簇进行类别标注;根据信源类别对该信源进行类别标注;根据该信源的信源类别配置采集模板;根据该信源所包含的网络数据配置抽取模板;对该信源进行有效性验证,当验证该信源为潜在失效信源时,将该信源置为无效,或重新配置该采集模板和/或该抽取模板;以该采集模板和该抽取模板,通过采集器执行采集任务获取采集结果。
本发明所述的信源管理与配置方法,其中按照“传媒-信簇-信源”三级结构对该信息来源进行拆分,即以该信息来源的信息组织特点,根据拆分粒度将该信息来源拆分至传媒、信簇或信源,其中该拆分粒度包括传媒粒度、信簇粒度和信源粒度。
本发明所述的信源管理与配置方法,其中该信簇类别包括:信簇主题类别、信簇地域类别,其中该信簇主题类别以该信簇的信簇主题内容为维度划分,该信簇地域类别以该信簇的关注地域为维度划分;该信源类别包括:信源主题类别、信源地域类别、信源页面类别,其中该信源主题类别以该信源的信源主题内容为维度划分,该信源地域类别以该信源的关注地域为维度划分,该信源页面类别以该信源的网页结构为维度划分。
本发明所述的信源管理与配置方法,其中配置采集模板步骤包括:根据该信源类别设定抓取规则,在该信源的采集入口页面中选取第一样例页面对该抓取规则进行验证,将符合用户的数据采集请求的抓取规则配置为该采集模板;配置抽取模板步骤包括:根据该网络数据的内容设定抽取算法组合策略,在该信源的采集页面中选取第二样例页面对该抽取算法组合策略进行验证,将符合该数据采集请求的抽取算法组合策略配置为该抽取模板;其中,该抽取算法组合策略包括至少一种数据抽取算法。
本发明所述的信源管理与配置方法,其中以用户触发方式或定周期触发方式,对该信源进行有效性验证,该有效性验证包括:该信源的入口页面的有效性、该采集模板对该信源的有效性,该抽取模板对该信源的有效性,以判断该信源是否为潜在失效信源。
本发明还涉及一种用于大规模网络数据采集的信源管理与配置系统,包括:信息来源拆分模块,用于感知网络数据的信息来源,将该信息来源拆分为传媒、信簇和信源;类别标注模块,用于根据信簇类别对该信簇进行类别标注,根据信源类别对该信源进行类别标注;模板配置模块,用于根据该信源的信源类别配置采集模板,并根据该信源所包含的网络数据配置抽取模板;信源有效性验证模块,用于对该信源进行有效性验证,当验证该信源为潜在失效信源时,将该信源置为无效,或重新配置该采集模板和/或该抽取模板;采集模块,用于以该采集模板和该抽取模板,通过采集器执行采集任务获取采集结果。
本发明所述的信源管理与配置系统,其中该信息来源拆分模块按照“传媒- 信簇-信源”三级结构对该信息来源进行拆分,即以该信息来源的信息组织特点,根据拆分粒度将该信息来源拆分至传媒、信簇或信源,其中该拆分粒度包括传媒粒度、信簇粒度和信源粒度。
本发明所述的信源管理与配置系统,其中该信簇类别包括:信簇主题类别、信簇地域类别,其中该信簇主题类别以该信簇的信簇主题内容为维度划分,该信簇地域类别以该信簇的关注地域为维度划分;该信源类别包括:信源主题类别、信源地域类别、信源页面类别,其中该信源主题类别以该信源的信源主题内容为维度划分,该信源地域类别以该信源的关注地域为维度划分,该信源页面类别以该信源的网页结构为维度划分。
本发明所述的信源管理与配置系统,其中该模板配置模块具体包括:采集模板配置模块,用于根据该信源类别设定抓取规则,在该信源的采集入口页面中选取第一样例页面对该抓取规则进行验证,将符合用户的数据采集请求的抓取规则配置为该采集模板;抽取模板配置模块,用于根据该网络数据的内容设定抽取算法组合策略,在该信源的采集页面中选取第二样例页面对该抽取算法组合策略进行验证,将符合该数据采集请求的抽取算法组合策略配置为该抽取模板;其中,该抽取算法组合策略包括至少一种数据抽取算法。
本发明所述的信源管理与配置系统,其中该信源有效性验证模块具体包括:以用户触发方式或定周期触发方式,对该信源进行有效性验证,该有效性验证包括:该信源的入口页面的有效性、该采集模板对该信源的有效性,该抽取模板对该信源的有效性,以判断该信源的有效性,并依据该信源的有效性对该信源进行管理,或重新配置该采集模板,或重新配置该抽取模板。
本发明还涉及一种计算机可读介质,存储有计算机可执行指令,该计算机可执行指令用于执行上述用于大规模网络数据采集的信源管理与配置方法。
本发明还涉及一种数据处理装置,包括上述的计算机可读介质,该数据处理装置调取该计算机可读介质中的计算机可执行指令,以对网络数据所在的信源进行管理与配置。
附图说明
图1是本发明的一种大规模网络数据的感知与获取系统的系统架构图。
图2是本发明的一种大规模网络数据的感知与获取方法的数据流示意图。
图3是本发明的数据感知与获取方法的信源管理与配置步骤数据流示意图。
图4是本发明的数据感知与获取方法的调度步骤数据流示意图。
图5是本发明的数据感知与获取方法的采集步骤数据流示意图。
图6是本发明的数据感知与获取方法的监控与统计步骤数据流示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明提出的大规模网络数据的感知与获取方法和系统进一步详细说明。应当理解,此处所描述的具体实施方法仅仅用以解释本发明,并不用于限定本发明。
本发明的说明书中包括以下术语:
“信息来源”,指互联网信息的来源;“传媒-信簇-信源”架构,“传媒”指网络空间中的不同信息传播媒体如新闻、论坛、博客、新闻APP、微博、微信、社交类网站等媒体;“信簇”指一种传媒的一个具体网络数据的集合,例如新闻类网站中的新浪新闻网站;“信源”,指网络空间中信息聚合的最小单位,例如新浪新闻网站中的国内频道;“Board-Article”架构,Board页,指网络空间中专门用于展示具体信息内容链接的页面,Article页,指用于展示具体信息内容的页面;“Web Map”,是用于描述网络空间中信息来源之间的复杂关系的映射,例如链接互指关系、主题相关关系、好友关系等。
图1是本发明的一种大规模网络数据的感知与获取系统的系统架构图。如图1所示,本发明的大规模网络数据的感知与获取系统,按照功能逻辑划分为四个子平台,信源管理与配置子平台、调度子平台、采集子平台和监控与统计子平台。其中:
信源管理与配置子平台,通过不同维度,实现对多传媒类型信源的统一管理;实现对信源的采集、抽取配置,以及对各流程的配置验证;与业务系统数据和业务用户相结合,能够提供面向业务的信源数据分析。
调度子平台,提供分布式的采集架构,支持采集节点的线性扩展;调度的最小单元为任务,任务具有抽象性,支持实现多种不同采集类型的采集任务;调度策略是对任务执行优先级和频次的定义,用于保证任务被调度的及时性。
采集子平台,提供实现不同采集任务的采集器,如新闻采集器、论坛采集器,实现解析采集任务,执行采集,提交采集结果至数据输出接口的功能;提供采集的基础服务,包括查重服务,状态服务,代理服务,JS解析服务。
监控与统计子平台,提供对分布式采集系统的采集节点信息、调度信息、任务执行信息的监控,以界面的方式与用户进行交互;对各类信源的采集信息进行基础统计,利用线上数据检测失效信源,并汇总至信源管理与配置子平台。
多信息来源在配置与管理子平台进行感知、拆分、管理和采集抽取配置;配置信息通过调度子平台的任务接口和调度策略接口形成具有不同调度策略的多信息来源任务,通过分布式架构下发到采集节点;采集任务由采集子平台中的采集器完成数据的获取,并将获取的数据写入到数据输出接口;监控与统计子平台通过界面化的方式提供用户对系统运行状态的监控,通过实时分析在线数据提供多维度的数据统计和数据质量的实时反馈。
具体来说,信源管理与配置子平台主要包括信息来源自动感知模块、信息来源自动拆分模块、信源管理模块、信源配置模块、信簇分类模块、信源分类模块、信源验证模块和传媒分类模块,以及批次类别管理、用户管理、业务系统管理、配置任务管理、账号与Cookie管理、配置任务统计、信源多维度统计等模块。信源管理与配置子平台通过“传媒-信簇-信源”三级结构的分层概念体系和多维度的信息来源分类体系对来自不同类型的信息来源进行合理高效组织;通过根据Board-Article架构把信息来源的最小粒度设置为网站的版块,结合“传媒-信簇-信源”三级结构的分层概念体系,实现对大规模网络信息来源的精确感知;利用自动化和半自动化的抽取算法的协同合作,结合不同抽取算法的组合抽取策略,通过界面化的多阶段信源模板验证,实现高质量的结构化数据提取。配置好的信源可通过信源配置下发模块下发到各子平台。配置任务统计、信源多维统计给出信源的统计视图,辅助用户决策。
调度子平台主要包括分布式架构、调度策略模块、任务管理模块和采集器管理模块。调度子平台通过分布式架构,实现一套支持可线性动态伸缩的分布式架构,支持采集节点的动态增减,包括注册中心和节点的代理程序;利用配置平台下发的配置,通过任务生成模块生成具有不同优先级的采集任务;调度策略模块根据采集任务和采集资源,按照不同的调度策略完成任务的调度;任务通过分布式架构的采集节点Agent进行执行。
采集子平台主要包括多信息来源网络数据的采集器和采集基础服务框架,如查重服务模块、状态服务模块、代理服务模块、JS解析服务模块等。采集器内部基于Board-Article架构建模信源实现对信源信息改变的快速精准感知,包括新闻采集器、论坛采集器和博客采集器等;采集器被采集节点Agent启动,根据采集和抽取配置项,执行特定信源的数据获取和结构化解析。在采集完成后,将数据写入到数据输出接口。
监控与统计子平台主要包括采集调度监控模块、采集信息统计模块和在线失效信源检测模块。采集调度监控模块通过采集调度监控对系统运行状态的实时监控和调度,包括采集节点、调度节点、采集任务;采集信息统计模块对数据的多维度统计,通过报表的方式展示,便于用户了解获取数据的情况;在线失效信源检测模块利用基于线上实时内容的失效检测算法,及时检测网站变更导致的采集抽取配置失效情况,实时反馈给用户,辅助用户决策,并定期反馈给信源配置模块。
本发明的大规模网络数据的感知与获取系统还包括数据输出接口,主要实现接收采集器采集数据的写入,以及上层业务系统的订阅。根据不同的业务场景,数据输出接口实现可包括文件系统、消息队列系统、数据库系统等。
图2是本发明的一种大规模网络数据的感知与获取方法的业务逻辑流程图。如图2所示,本发明的数据感知与获取方法通过各子平台,实现大规模网络数据的获取。具体来说,本发明的数据感知与获取方法包括:
步骤1,信源管理与配置
图3是本发明的数据感知与获取方法的信源管理与配置步骤数据流示意图。如图3所示,信源管理与配置步骤包括:
步骤11,感知并导入信息来源,包括:
步骤111,通过自动感知技术获取信息来源;
步骤112,使用自动结合人工参与的技术将信息来源依据信息来源的信息组织特点依次拆分成传媒、信簇和信源;
步骤113,根据传媒、信簇、信源的定义把信息来源和拆分得到信源对齐到“传媒-信簇-信源”的分层概念体系,将拆分得到的传媒、信簇、信源导入信源管理与配置子平台中;
步骤12,信息来源类别标注,包括:
步骤121,根据需求定义要标注的类别,例如以信源、信簇主题内容为维度划分的主题类别,以信源、信簇关注地域为维度划分的地域类别,以信源网页结构为维度划分的页面类别;
步骤122,对信簇和信源进行类别标注,形成Web Map;
步骤13,根据信息来源类别配置采集模板,包括:
步骤131根据采集入口URL调用采集子平台抓取入口页面,如有必要则人工修改入口URL。
步骤132,根据采集入口页面中的链接设置候选的抓取规则,抓取规则的表达方式根据抓取方法的不同而不同,例如抓取规则可以用正则表达式、XPath (XML路径语言,XMLPath Language)、CSS(层叠样式表,Cascading Style Sheets)选择器表达,也可以用网页的DOM树(文档对象模型,Document Object Model)中节点的标签名、属性名值对表达,或者使用以上方式中两种或两种以上的组合进行表达;
步骤133,调用采集子平台,选取样例页面对抓取规则的效果进行验证,如有必要则人工修改抓取规则;将通过验证的抓取规则配置为采集模板;
步骤14,根据信息来源内容配置抽取模板,包括:
步骤141,针对样例页面中不同的目标信息内容使用不同的信息抽取算法进行抽取测试,例如新闻页面中的新闻正文,论坛中的帖子标题,根据抽取效果选择最好的目标信息内容与抽取算法的对应关系;
步骤142,根据步骤141得到的对应关系自动生成分层的不同抽取算法的抽取模板,其中抽取模板可以为某一种数据抽取算法,也可以为多种数据抽取算法按某种规律的组合,例如,利用A算法抽取新闻中的标题和正文,以A 算法生抽抽取模板;又例如,利用A算法抽取新闻中的标题,利用B算法抽取新闻中的正文,将A算法和B算法组合生成抽取模板;
步骤143,调用采集子平台校验步骤142生成的抽取模板的效果,如有必要则转至步骤141进行重新测试;
步骤15,信源的验证,包括:
步骤151,根据用户需求人工触发或定期触发自动校验程序对信源进行验证,验证内容包括信源的入口是否有效、采集模板和抽取模板对信源的适应性等;
步骤152,定时巡查从监控与统计子平台反馈的的信源采集情况,如有潜在失效信源,则人工检验采集模板和抽取模板的有效性,根据检验结果重新配置采集模板和抽取模板,或将潜在失效信源置为无效。
步骤2,采集任务调度
图4是本发明的数据感知与获取方法的调度步骤数据流示意图。如图4 所示,采集任务调度步骤包括:
步骤21:将用于调度任务的信源信息生成信源表;
步骤22:采集任务的生成:根据信源表的信源信息和用户提交的调度策略生成采集任务,或根据信源表的信息和调度子平台默认的调度策略生成采集任务,或根据信源表的信源信息、用户提交的调度策略和调度子平台默认的调度策略生成采集任务,写入采集任务表,其中调度策略包括采集任务的调度优先级、采集任务的调度周期、采集任务的调度频次等;
步骤23:注册采集节点,节点通过部署在节点上的代理程序在注册中心进行信息注册,注册信息包括所在的设备的IP、所在设备的物理资源使用情况、节点能支持的采集器类型、节点能支持的最大采集进程数,采集进程数由代理根据设备物理配置自动推算,完成注册的节点成为采集节点;代理程序同时将采集节点的状态存入注册中心;
步骤24:注册调度节点,节点通过部署在节点上的代理程序在注册中心进行信息注册,注册信息包括所在的设备的IP、所在设备的物理资源使用情况,完成注册的节点成为调度节点;代理程序同时将调度节点的状态存入注册中心;
步骤25:调度器执行任务调度,包括:
步骤251,任务加载线程,加载采集任务表中的采集任务的参数配置信息,并且根据采集任务的类型解析采集任务的参数配置信息;
步骤252,任务更新线程,加载采集任务被调度的信息,更新采集任务的参数配置信息,包括采集任务已经被调度次数和最近一次被调度的时间;
步骤253,任务拉取线程,从任务队列中按优先级拉取任务;
步骤254,调度器将自身的工作状态存入注册中心;
步骤26,采集节点代理拉取采集器执行任务,采集节点收到调度器传递的启动请求,进行分析,得到采集任务具体类型,将首先从HDFS拉取相应的采集器,然后将采集任务传递到采集器,采集器使用调度的通用接口,获取采集任务的参数配置信息启动采集器。此时代理程序将监控采集器状态,将采集器状态存入注册中心,并将启动的采集器进程信息上报至调度器,当采集器状态发生改变时通知调度器,由调度器对采集器进行统一的管理;
步骤3,网络数据采集
图5是本发明的数据感知与获取方法的采集步骤数据流示意图。如图5 所示,网络数据采集步骤包括:
步骤31,加载采集任务的参数配置信息形成的配置文件,配置文件包含调用采集子平台模块的配置,以及采集任务需求。采集任务需求包括采集目标信息来源,需要提供Board页的URL以及抽取的范围要求,诸如采集抽取深度,数据持久化操作,是否去重,Article页的期望数量等;
步骤32:按照采集任务需求,进行采集子平台的配置,对采集子平台提供的模块进行编排,选择使用的采集器、查重服务模块、状态服务模块、代理服务模块及JS解析服务模块等,部分模块按配置文件的要求进行单独的配置;
步骤33,采集子平台根据配置文件进行初始化,包括持久化接口的初始化,查重模块的初始化,页面缓存的初始化,以及编排好的采集器初始化;
步骤34,采集器启动,进行Board页采集,使用配置要求的抽取模板,抽取Board页中的Article页链接,放入待采集数据链接队列中,不断重复本步直到完成配置文件要求,或采集完成所有的Board页;
步骤35,对待采集数据链接队列中的Article页链接进行采集,获取时按配置文件的要求进行过滤,直到待采集数据链接队列为空,采集时,使用配置的抽取模板,对Article页面进行抽取,得到结构化数据;
步骤37,将步骤35得到的结构化数据进行持久化操作,将结构化数据输出到数据输出接口中,据不同的业务场景,数据输出接口实现可包括文件系统、消息队列系统、数据库系统等;
步骤4,数据采集的监控与统计
图6是本发明的数据感知与获取方法的监控与统计步骤数据流示意图。如图6所示,监控与统计步骤包括:
步骤41,对采集任务信息和信源统计信息进行统计,并写入监控与统计数据库;
步骤42,采集调度监控,包括:
步骤421,用户在前端的面板上选取需要查看的监控指标;
步骤422,如果该指标是调度器状态、采集节点状态或采集器状态,则从注册中心中查询调度器状态数据、采集节点状态数据、采集器状态数据,返回给前端;如果指标是采集任务信息和信源统计信息,则从监控与统计数据库中获取采集任务信息和信源统计信息,聚合后发送给前端;
步骤423,前端使用绘图工具渲染步骤412获取的数据,展示到面板中;
步骤424,使用前端面板上的启动/停用调度器、启动/停用采集节点按钮可实现相应的控制功能;
步骤425,使用前端面板上的停止采集任务、停用采集器按钮可实现控制采集任务和采集器的功能;
步骤43,采集量统计,包括:
步骤431,读取结构化数据,按照监控与统计子平台中配置的采集时间粒度,统计各信源的数据采集量,并存入监控与统计数据库中;其中采集时间粒度可以为分、小时、天、周、月等,根据实际采集任务进行设定,默认以天为单位;
步骤432,按照监控与统计子平台中配置的活跃度时间粒度,基于信源前 n个时间粒度的数据采集量计算信源的活跃等级,并存入监控与统计数据库中;活跃度时间粒度可以为分、小时、天、周、月等,根据实际采集任务进行设定,默认以天为单位;
步骤433,用户通过前端面板查看统计信息,发送查询请求;
步骤434,查询监控与统计数据库,将查询结果返回给前端;
步骤44,在线失效检测,在线失效检测步骤包括:
步骤441,获取同一信源所采集数据的相似度,例如按照文章的标题与正文的相关性获取文章的相似度,通过相似度对信源进行动态的累计相似度打分,得到相似度分值,将相似度分值存入监控与统计数据库;
步骤442,分析信源最近m个失效检测时间粒度的数据采集量和相似度分值的变化情况,若数据采集量变化量大于根据历史经验设定的数据采集量阈值,和或相似度分值变化量大于根据历史经验设定的相似度分值阈值,则判断这个信源为潜在失效信源,把检测到的潜在失效信源信息写入监控与统计数据库;失效检测时间粒度可以为分、小时、天、周、月等,根据实际采集任务进行设定,默认以天为单位;
步骤443,将检测到的潜在失效信源推送到信源管理与配置子平台,供信源管理与配置子平台用户确认潜在失效信源为有效或失效,并做进一步处理以优化信源。
需要说明的是,上述实施例中介绍的各个步骤并非都是必须的,本领域技术人员可以根据实际需要进行适当的取舍、替换、修改等。
本发明实施例还提供一种计算机可读存储介质,存储有计算机可执行指令,计算机可执行指令被处理器执行时实现上述大规模网络数据的感知与获取方法。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器)完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,例如通过集成电路来实现其相应功能,也可以采用软件功能模块的形式实现,例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明实施例不限制于任何特定形式的硬件和软件的结合。
具体而言,本发明实施例还提供一种数据处理设备,数据处理设备安装有上述有计算机可执行指令,并与网络连接;数据处理设备通过执行计算机可执行指令实现上述大规模网络数据的感知与获取,并可以通过前端面板,例如是数据输入/输出设备与用户交互。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管上文参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (12)

1.一种用于大规模网络数据采集的信源管理与配置方法,其特征在于,包括:
感知网络数据的信息来源,将该信息来源拆分为传媒、信簇和信源;
根据信簇类别对该信簇进行类别标注;
根据信源类别对该信源进行类别标注;
根据该信源的信源类别配置采集模板;
根据该信源所包含的网络数据配置抽取模板;
对该信源进行有效性验证,当验证该信源为潜在失效信源时,将该信源置为无效,或重新配置该采集模板和/或该抽取模板;
以该采集模板和该抽取模板,通过采集器执行采集任务获取采集结果。
2.如权利要求1所述的信源管理与配置方法,其特征在于,按照“传媒-信簇-信源”三级结构对该信息来源进行拆分,即以该信息来源的信息组织特点,根据拆分粒度将该信息来源拆分至传媒、信簇或信源,其中该拆分粒度包括传媒粒度、信簇粒度和信源粒度。
3.如权利要求1所述的信源管理与配置方法,其特征在于,该信簇类别包括:信簇主题类别、信簇地域类别,其中该信簇主题类别以该信簇的信簇主题内容为维度划分,该信簇地域类别以该信簇的关注地域为维度划分;该信源类别包括:信源主题类别、信源地域类别、信源页面类别,其中该信源主题类别以该信源的信源主题内容为维度划分,该信源地域类别以该信源的关注地域为维度划分,该信源页面类别以该信源的网页结构为维度划分。
4.如权利要求1所述的信源管理与配置方法,其特征在于,配置采集模板步骤包括:根据该信源类别设定抓取规则,在该信源的采集入口页面中选取第一样例页面对该抓取规则进行验证,将符合用户的数据采集请求的抓取规则配置为该采集模板;
配置抽取模板步骤包括:根据该网络数据的内容设定抽取算法组合策略,在该信源的采集页面中选取第二样例页面对该抽取算法组合策略进行验证,将符合该数据采集请求的抽取算法组合策略配置为该抽取模板;其中,该抽取算法组合策略包括至少一种数据抽取算法。
5.如权利要求1所述的信源管理与配置方法,其特征在于,以用户触发方式或定周期触发方式,对该信源进行有效性验证,该有效性验证包括:该信源的入口页面的有效性、该采集模板对该信源的有效性,该抽取模板对该信源的有效性,以判断该信源是否为潜在失效信源。
6.一种用于大规模网络数据采集的信源管理与配置系统,其特征在于,包括:
信息来源拆分模块,用于感知网络数据的信息来源,将该信息来源拆分为传媒、信簇和信源;
类别标注模块,用于根据信簇类别对该信簇进行类别标注,根据信源类别对该信源进行类别标注;
模板配置模块,用于根据该信源的信源类别配置采集模板,并根据该信源所包含的网络数据配置抽取模板;
信源有效性验证模块,用于对该信源进行有效性验证,当验证该信源为潜在失效信源时,将该信源置为无效,或重新配置该采集模板和/或该抽取模板;
采集模块,用于以该采集模板和该抽取模板,通过采集器执行采集任务获取采集结果。
7.如权利要求6所述的信源管理与配置系统,其特征在于,该信息来源拆分模块按照“传媒-信簇-信源”三级结构对该信息来源进行拆分,即以该信息来源的信息组织特点,根据拆分粒度将该信息来源拆分至传媒、信簇或信源,其中该拆分粒度包括传媒粒度、信簇粒度和信源粒度。
8.如权利要求6所述的信源管理与配置系统,其特征在于,该信簇类别包括:信簇主题类别、信簇地域类别,其中该信簇主题类别以该信簇的信簇主题内容为维度划分,该信簇地域类别以该信簇的关注地域为维度划分;该信源类别包括:信源主题类别、信源地域类别、信源页面类别,其中该信源主题类别以该信源的信源主题内容为维度划分,该信源地域类别以该信源的关注地域为维度划分,该信源页面类别以该信源的网页结构为维度划分。
9.如权利要求6所述的信源管理与配置系统,其特征在于,该模板配置模块具体包括:
采集模板配置模块,用于根据该信源类别设定抓取规则,在该信源的采集入口页面中选取第一样例页面对该抓取规则进行验证,将符合用户的数据采集请求的抓取规则配置为该采集模板;
抽取模板配置模块,用于根据该网络数据的内容设定抽取算法组合策略,在该信源的采集页面中选取第二样例页面对该抽取算法组合策略进行验证,将符合该数据采集请求的抽取算法组合策略配置为该抽取模板;其中,该抽取算法组合策略包括至少一种数据抽取算法。
10.如权利要求6所述的信源管理与配置系统,其特征在于,该信源有效性验证模块具体包括:
以用户触发方式或定周期触发方式,对该信源进行有效性验证,该有效性验证包括:该信源的入口页面的有效性、该采集模板对该信源的有效性,该抽取模板对该信源的有效性,以判断该信源的有效性,并依据该信源的有效性对该信源进行管理,或重新配置该采集模板,或重新配置该抽取模板。
11.一种计算机可读介质,存储有计算机可执行指令,该计算机可执行指令用于执行如权利要求1~5任一项所述的用于大规模网络数据采集的信源管理与配置方法。
12.一种数据处理装置,包括如权利要求11所述的计算机可读介质,该数据处理装置调取该计算机可读介质中的计算机可执行指令,以对网络数据所在的信源进行管理与配置。
CN201811637397.XA 2018-12-29 2018-12-29 用于大规模网络数据采集的信源管理与配置方法和系统 Active CN109753596B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811637397.XA CN109753596B (zh) 2018-12-29 2018-12-29 用于大规模网络数据采集的信源管理与配置方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811637397.XA CN109753596B (zh) 2018-12-29 2018-12-29 用于大规模网络数据采集的信源管理与配置方法和系统

Publications (2)

Publication Number Publication Date
CN109753596A true CN109753596A (zh) 2019-05-14
CN109753596B CN109753596B (zh) 2021-05-25

Family

ID=66404299

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811637397.XA Active CN109753596B (zh) 2018-12-29 2018-12-29 用于大规模网络数据采集的信源管理与配置方法和系统

Country Status (1)

Country Link
CN (1) CN109753596B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489628A (zh) * 2019-08-22 2019-11-22 北大方正集团有限公司 数据处理方法、装置及电子设备
CN110636116A (zh) * 2019-08-29 2019-12-31 武汉烽火众智数字技术有限责任公司 一种多维数据采集的系统及方法
CN112527813A (zh) * 2019-09-19 2021-03-19 浙江大搜车软件技术有限公司 业务系统的数据处理方法及装置、电子设备、存储介质
CN113360558A (zh) * 2021-06-04 2021-09-07 北京京东振世信息技术有限公司 数据处理方法、数据处理装置、电子设备及存储介质
CN113553258A (zh) * 2021-07-15 2021-10-26 北京锐安科技有限公司 测试数据生成方法、提取策略测试方法及相关装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360368A (zh) * 2011-10-09 2012-02-22 山东大学 基于抽取模板可视化定制的Web数据抽取方法
CN105279272A (zh) * 2015-10-30 2016-01-27 南京未来网络产业创新有限公司 一种基于分布式网络爬虫的内容聚合方法
CN105824965A (zh) * 2016-04-01 2016-08-03 无锡中科富农物联科技有限公司 基于动态爬虫技术的数据源发现方法
CN105893583A (zh) * 2016-04-01 2016-08-24 北京鼎泰智源科技有限公司 基于人工智能的数据采集方法及系统
CN105956175A (zh) * 2016-05-24 2016-09-21 考拉征信服务有限公司 网页内容爬取的方法和装置
CN106228294A (zh) * 2016-07-18 2016-12-14 合肥赑歌数据科技有限公司 一种搜索引擎评估系统以及管理
CN107577788A (zh) * 2017-09-15 2018-01-12 广东技术师范学院 一种自动结构化数据的电商网站主题爬虫方法
CN107908694A (zh) * 2017-11-01 2018-04-13 平安科技(深圳)有限公司 互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质
US9971785B1 (en) * 2013-09-05 2018-05-15 Nutanix, Inc. System and methods for performing distributed data replication in a networked virtualization environment

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360368A (zh) * 2011-10-09 2012-02-22 山东大学 基于抽取模板可视化定制的Web数据抽取方法
US9971785B1 (en) * 2013-09-05 2018-05-15 Nutanix, Inc. System and methods for performing distributed data replication in a networked virtualization environment
CN105279272A (zh) * 2015-10-30 2016-01-27 南京未来网络产业创新有限公司 一种基于分布式网络爬虫的内容聚合方法
CN105824965A (zh) * 2016-04-01 2016-08-03 无锡中科富农物联科技有限公司 基于动态爬虫技术的数据源发现方法
CN105893583A (zh) * 2016-04-01 2016-08-24 北京鼎泰智源科技有限公司 基于人工智能的数据采集方法及系统
CN105956175A (zh) * 2016-05-24 2016-09-21 考拉征信服务有限公司 网页内容爬取的方法和装置
CN106228294A (zh) * 2016-07-18 2016-12-14 合肥赑歌数据科技有限公司 一种搜索引擎评估系统以及管理
CN107577788A (zh) * 2017-09-15 2018-01-12 广东技术师范学院 一种自动结构化数据的电商网站主题爬虫方法
CN107908694A (zh) * 2017-11-01 2018-04-13 平安科技(深圳)有限公司 互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
文友枥等: "《网页分类与信息采集方法研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489628A (zh) * 2019-08-22 2019-11-22 北大方正集团有限公司 数据处理方法、装置及电子设备
CN110636116A (zh) * 2019-08-29 2019-12-31 武汉烽火众智数字技术有限责任公司 一种多维数据采集的系统及方法
CN110636116B (zh) * 2019-08-29 2022-05-10 武汉烽火众智数字技术有限责任公司 一种多维数据采集的系统及方法
CN112527813A (zh) * 2019-09-19 2021-03-19 浙江大搜车软件技术有限公司 业务系统的数据处理方法及装置、电子设备、存储介质
CN113360558A (zh) * 2021-06-04 2021-09-07 北京京东振世信息技术有限公司 数据处理方法、数据处理装置、电子设备及存储介质
CN113360558B (zh) * 2021-06-04 2023-09-29 北京京东振世信息技术有限公司 数据处理方法、数据处理装置、电子设备及存储介质
CN113553258A (zh) * 2021-07-15 2021-10-26 北京锐安科技有限公司 测试数据生成方法、提取策略测试方法及相关装置

Also Published As

Publication number Publication date
CN109753596B (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
CN109753596A (zh) 用于大规模网络数据采集的信源管理与配置方法和系统
US11288142B2 (en) Recovery strategy for a stream processing system
CN109814992A (zh) 用于大规模网络数据采集的分布式动态调度方法和系统
CN111339071B (zh) 一种多源异构数据的处理方法及装置
CN109840298A (zh) 大规模网络数据的多信息来源采集方法和系统
Le-Phuoc et al. Linked stream data processing engines: Facts and figures
CN109815382A (zh) 大规模网络数据的感知与获取方法和系统
CN102682059B (zh) 用于将用户分配到集群的方法和系统
US9195693B2 (en) Transaction prediction modeling method
CN111241078A (zh) 数据分析系统、数据分析的方法及装置
US20160112531A1 (en) Scripting distributed, parallel programs
CN110515912A (zh) 日志处理方法、装置、计算机装置及计算机可读存储介质
CN113377850A (zh) 认知物联网大数据技术平台
JP2008508575A (ja) エコシステムを使用した集約および検索の方法、並びに、それらの関連技術
CN109471845A (zh) 日志管理方法、服务器及计算机可读存储介质
CN106528169B (zh) 一种基于AnGo动态演化模型的Web系统开发可复用方法
CN109656963A (zh) 元数据获取方法、装置、设备及计算机可读存储介质
Shafiq et al. Virtual engineering process (VEP): a knowledge representation approach for building bio-inspired distributed manufacturing DNA
US10127617B2 (en) System for analyzing social media data and method of analyzing social media data using the same
CN109819019A (zh) 用于大规模网络数据采集的监控与统计分析方法和系统
US20150317336A1 (en) Data reconstruction
CN108572817B (zh) 基于业务建模的资源动态配置的方法、装置和介质
US11048677B1 (en) Streamlined transaction and dimension data collection
CN112579552A (zh) 日志存储及调用方法、装置及系统
CN112448855B (zh) 区块链系统参数更新方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant