CN109840298B - 大规模网络数据的多信息来源采集方法和系统 - Google Patents

大规模网络数据的多信息来源采集方法和系统 Download PDF

Info

Publication number
CN109840298B
CN109840298B CN201811637902.0A CN201811637902A CN109840298B CN 109840298 B CN109840298 B CN 109840298B CN 201811637902 A CN201811637902 A CN 201811637902A CN 109840298 B CN109840298 B CN 109840298B
Authority
CN
China
Prior art keywords
acquisition
information
data
template
collector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811637902.0A
Other languages
English (en)
Other versions
CN109840298A (zh
Inventor
史存会
程学旗
孟剑
俞晓明
郭岩
贺广福
周秀花
余智华
刘悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201811637902.0A priority Critical patent/CN109840298B/zh
Publication of CN109840298A publication Critical patent/CN109840298A/zh
Application granted granted Critical
Publication of CN109840298B publication Critical patent/CN109840298B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种大规模网络数据的多信息来源采集方法,包括:获取多种传媒上的网络数据所在的信源;生成采集任务,启动并初始化采集节点上的采集器;将该采集任务的参数配置信息加载至该采集器;以该采集器获取该信源的目标信息内容链接,并建立链接队列;以该采集器依次采集该链接队列中对应的目标信息内容为结构化数据;将该结构化数据进行持久化操作,并进行输出。本发明提出的方法可以感知信息来源的变化,能够定点定主题的获取信息来源的网络数据,并且具有泛化能力,采集能力与传媒种类无关。

Description

大规模网络数据的多信息来源采集方法和系统
技术领域
本发明属于数据感知与获取领域,特别涉及一种面向网络空间的大规模数 据感知中的数据采集技术中的核心采集器架构。
背景技术
随着互联网的逐步发展,网络已经成为了最大的数据来源。人们无论是科 研应用还是学术研究,都需要大量的数据作为支撑,帮助后续的需求。长久以 来人们都在关注于互联网数据采集任务。从最初的开源采集技术框架如 Heritrix到支持分布式的集成了索引构建功能的nutch再到后来的更加开放的, 可定制的轻量框架scrapy。这些采集技术都关注于如何高效的获取互联网数 据,但是这些获取过程中都是开放式的采集,或者基于域名的垂直采集。这些 采集技术需要给定种子页面链接,首先获取种子页面然后从中抽取链接,进行 采集,对于新采到的页面,也要抽取其中的链接,然后将链接加入到待采集队 列中。直到符合要求的链接被采集完或者链接到达了制定的最大深度。
除了上述的开放式的采集外,还有一种常见的采集方式是定制化的采集, 即针对某个或某种特定网站进行定制化开发,分析网站链接情况,然后根据其 页面以及网络特征构建数据抽取方法。
现有的开放式的采集方法可以保证数据的完整性,但是不可避免的是,采 集过程中,所有在当前采集页面中出现的链接都会被采集到。首先,这些连接 中往往包含着大量的广告页面。其次,虽然网络数据的链接十分重要,但是, 人们往往更关注于数据的内容,而这种开放式的采集,往往会采集到大的数据 列表页面或者信息聚合页面,这种页面的采集,对于应用而言是一种冗余。这 些采下来的冗余数据,广告数据是对采集资源的一种浪费,同时也增加了后续 处理的难度。并且在应用中,人们对于数据的需求时明确的,或有主题要求的, 即人们会根据数据应用时的情况来确定需要使用的数据的主题特征,然而开放式的采集即使对于采集域进行限制,对于链接进行规则化的要求依然是不能够 保证对于无用主题的采集。而这些数据,即使是干净的数据,对于后续应用而 言,依然是冗余的。
此外,开放式的采集,由于其采集过程是动态扩散式的,这也导致了对于 数据感知的难度。即当对数据存在长期需求时,开放式的采集往往需要遍历所 有采集需求内的节点才能确保对于数据增加或数据更新感知的完整性与准确 性。
而定制化的采集方式可以大量的避免冗余数据,和广告数据。但是这种定 制也意味着泛化能力的不足。互联网中的数据往往可以按照其发布和交互形式 分为新闻,论坛,博客等不同的信息来源,每个信息来源都有其特定的格式, 如新闻数据源,其数据包含了新闻正文,新闻作者,新闻题目,新闻评论等数 据,每个新闻页都有着其所属分类。同样的论坛也划分为板块,论坛的数据包 含了论坛主贴,论坛回帖等内容。针对每个信息来源,甚至每个网站的定制性 开发采集器必然导致了采集器不能够被复用。这是对于开发的一种浪费。
发明内容
针对上述问题,本发明提出一种大规模网络数据的多信息来源采集方法, 包括:获取多种传媒上的网络数据所在的信源;生成采集任务,启动并初始化 采集节点上的采集器;将该采集任务的参数配置信息加载至该采集器;以该采 集器获取该信源的目标信息内容链接,并建立链接队列;以该采集器依次采集 该链接队列中对应的目标信息内容为结构化数据;将该结构化数据进行持久化 操作,并进行输出。
本发明所述的多信息来源采集方法,其中该采集器采用Board-Article采集 结构,该目标信息内容链接展示在Board页中,该目标信息内容展示在Article 页中。
本发明所述的多信息来源采集方法,其中该参数配置信息包括:该目标信 息内容的信源、该目标信息内容链接所在Board页的URL、该目标信息内容 抽取的范围要求、对该信源的采集和抽取深度、该结构化数据的持久化操作要 求、该结构化数据的去重操作要求和该目标信息内容所在Article页的期望数 量。
本发明所述的多信息来源采集方法,其中该传媒包括论坛、微博、微信、 新闻APP、网站;该采集器包括论坛采集器、微博采集器、微信采集器、新闻 采集器、网站采集器。
本发明还提出一种大规模网络数据的多信息来源采集系统,包括:信源配 置模块,用于获取多种传媒上的网络数据所在的信源;调度模块,用于生成采 集任务,启动并初始化采集节点上的采集器;任务加载模块,用于将该采集任 务的参数配置信息加载至该采集器;第一采集模块,用于以该采集器获取该信 源的目标信息内容链接,并建立链接队列;第二采集模块,用于以该采集器依 次采集该链接队列中对应的目标信息内容为结构化数据;数据输出模块,用于 将该结构化数据进行持久化操作,并进行输出。
本发明所述的多信息来源采集系统,其中该采集器采用Board-Article采集 结构,其中该目标信息内容链接展示在Board页中,该目标信息内容展示在 Article页中。
本发明所述的多信息来源采集系统,其中该参数配置信息包括:该目标信 息内容的信源、该目标信息内容链接所在Board页的URL、该目标信息内容 抽取的范围要求、对该信源的采集和抽取深度、该结构化数据的持久化操作要 求、该结构化数据的去重操作要求和该目标信息内容所在Article页的期望数 量。
本发明所述的多信息来源采集系统,其中该传媒包括论坛、微博、微信、 新闻APP、网站;该采集器包括论坛采集器、微博采集器、微信采集器、新闻 采集器、网站采集器。
本发明还提出一种计算机可读存储介质,存储有计算机可执行指令,该计 算机可执行指令用于执行上述的大规模网络数据的多信息来源采集方法。
本发明还提出一种数据处理设备,包括上述的计算机可读介质,该数据处 理装置调取并执行该计算机可读介质中的计算机可执行指令,进行大规模网络 数据的多信息来源采集。
附图说明
图1是本发明的一种大规模网络数据的感知与获取系统的系统架构图。
图2是本发明的一种大规模网络数据的感知与获取方法的数据流示意图。
图3是本发明的数据感知与获取方法的信源管理与配置步骤数据流示意 图。
图4是本发明的数据感知与获取方法的调度步骤数据流示意图。
图5是本发明的数据感知与获取方法的采集步骤数据流示意图。
图6是本发明的数据感知与获取方法的监控与统计步骤数据流示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对 本发明提出的大规模网络数据的感知与获取方法和系统进一步详细说明。应当 理解,此处所描述的具体实施方法仅仅用以解释本发明,并不用于限定本发明。
本发明的说明书中包括以下术语:
“信息来源”,指互联网信息的来源;“传媒-信簇-信源”架构,“传媒” 指网络空间中的不同信息传播媒体如新闻、论坛、博客、新闻APP、微博、微 信、社交类网站等媒体;“信簇”指一种传媒的一个具体网络数据的集合,例 如新闻类网站中的新浪新闻网站;“信源”,指网络空间中信息聚合的最小单 位,例如新浪新闻网站中的国内频道;“Board-Article”架构,Board页,指 网络空间中专门用于展示具体信息内容链接的页面,Article页,指用于展示具 体信息内容的页面;“Web Map”,是用于描述网络空间中信息来源之间的复 杂关系的映射,例如链接互指关系、主题相关关系、好友关系等。
图1是本发明的一种大规模网络数据的感知与获取系统的系统架构图。如 图1所示,本发明的大规模网络数据的感知与获取系统,按照功能逻辑划分为 四个子平台,信源管理与配置子平台、调度子平台、采集子平台和监控与统计 子平台。其中:
信源管理与配置子平台,通过不同维度,实现对多传媒类型信源的统一管 理;实现对信源的采集、抽取配置,以及对各流程的配置验证;与业务系统数 据和业务用户相结合,能够提供面向业务的信源数据分析。
调度子平台,提供分布式的采集架构,支持采集节点的线性扩展;调度的 最小单元为任务,任务具有抽象性,支持实现多种不同采集类型的采集任务; 调度策略是对任务执行优先级和频次的定义,用于保证任务被调度的及时性。
采集子平台,提供实现不同采集任务的采集器,如新闻采集器、论坛采集 器,实现解析采集任务,执行采集,提交采集结果至数据输出接口的功能;提 供采集的基础服务,包括查重服务,状态服务,代理服务,JS解析服务。
监控与统计子平台,提供对分布式采集系统的采集节点信息、调度信息、 任务执行信息的监控,以界面的方式与用户进行交互;对各类信源的采集信息 进行基础统计,利用线上数据检测失效信源,并汇总至信源管理与配置子平台。
多信息来源在配置与管理子平台进行感知、拆分、管理和采集抽取配置; 配置信息通过调度子平台的任务接口和调度策略接口形成具有不同调度策略 的多信息来源任务,通过分布式架构下发到采集节点;采集任务由采集子平台 中的采集器完成数据的获取,并将获取的数据写入到数据输出接口;监控与统 计子平台通过界面化的方式提供用户对系统运行状态的监控,通过实时分析在 线数据提供多维度的数据统计和数据质量的实时反馈。
具体来说,信源管理与配置子平台主要包括信息来源自动感知模块、信息 来源自动拆分模块、信源管理模块、信源配置模块、信簇分类模块、信源分类 模块、信源验证模块和传媒分类模块,以及批次类别管理、用户管理、业务系 统管理、配置任务管理、账号与Cookie管理、配置任务统计、信源多维度统 计等模块。信源管理与配置子平台通过“传媒-信簇-信源”三级结构的分层概念 体系和多维度的信息来源分类体系对来自不同类型的信息来源进行合理高效 组织;通过根据Board-Article架构把信息来源的最小粒度设置为网站的版块, 结合“传媒-信簇-信源”三级结构的分层概念体系,实现对大规模网络信息来源的精确感知;利用自动化和半自动化的抽取算法的协同合作,结合不同抽取算 法的组合抽取策略,通过界面化的多阶段信源模板验证,实现高质量的结构化 数据提取。配置好的信源可通过信源配置下发模块下发到各子平台。配置任务 统计、信源多维统计给出信源的统计视图,辅助用户决策。
调度子平台主要包括分布式架构、调度策略模块、任务管理模块和采集器 管理模块。调度子平台通过分布式架构,实现一套支持可线性动态伸缩的分布 式架构,支持采集节点的动态增减,包括注册中心和节点的代理程序;利用配 置平台下发的配置,通过任务生成模块生成具有不同优先级的采集任务;调度 策略模块根据采集任务和采集资源,按照不同的调度策略完成任务的调度;任 务通过分布式架构的采集节点Agent进行执行。
采集子平台主要包括多信息来源网络数据的采集器和采集基础服务框架, 如查重服务模块、状态服务模块、代理服务模块、JS解析服务模块等。采集 器内部基于Board-Article架构建模信源实现对信源信息改变的快速精准感知, 包括新闻采集器、论坛采集器和博客采集器等;采集器被采集节点Agent启动, 根据采集和抽取配置项,执行特定信源的数据获取和结构化解析。在采集完成 后,将数据写入到数据输出接口。
监控与统计子平台主要包括采集调度监控模块、采集信息统计模块和在线 失效信源检测模块。采集调度监控模块通过采集调度监控对系统运行状态的实 时监控和调度,包括采集节点、调度节点、采集任务;采集信息统计模块对数 据的多维度统计,通过报表的方式展示,便于用户了解获取数据的情况;在线 失效信源检测模块利用基于线上实时内容的失效检测算法,及时检测网站变更 导致的采集抽取配置失效情况,实时反馈给用户,辅助用户决策,并定期反馈 给信源配置模块。
本发明的大规模网络数据的感知与获取系统还包括数据输出接口,主要实 现接收采集器采集数据的写入,以及上层业务系统的订阅。根据不同的业务场 景,数据输出接口实现可包括文件系统、消息队列系统、数据库系统等。
图2是本发明的一种大规模网络数据的感知与获取方法的业务逻辑流程 图。如图2所示,本发明的数据感知与获取方法通过各子平台,实现大规模网 络数据的获取。具体来说,本发明的数据感知与获取方法包括:
步骤1,信源管理与配置
图3是本发明的数据感知与获取方法的信源管理与配置步骤数据流示意 图。如图3所示,信源管理与配置步骤包括:
步骤11,感知并导入信息来源,包括:
步骤111,通过自动感知技术获取信息来源;
步骤112,使用自动结合人工参与的技术将信息来源依据信息来源的信息 组织特点依次拆分成传媒、信簇和信源;
步骤113,根据传媒、信簇、信源的定义把信息来源和拆分得到信源对齐 到“传媒-信簇-信源”的分层概念体系,将拆分得到的传媒、信簇、信源导入信 源管理与配置子平台中;
步骤12,信息来源类别标注,包括:
步骤121,根据需求定义要标注的类别,例如以信源、信簇主题内容为维 度划分的主题类别,以信源、信簇关注地域为维度划分的地域类别,以信源网 页结构为维度划分的页面类别;
步骤122,对信簇和信源进行类别标注,形成Web Map;
步骤13,根据信息来源类别配置采集模板,包括:
步骤131根据采集入口URL调用采集子平台抓取入口页面,如有必要则 人工修改入口URL。
步骤132,根据采集入口页面中的链接设置候选的抓取规则,抓取规则的 表达方式根据抓取方法的不同而不同,例如抓取规则可以用正则表达式、XPath (XML路径语言,XMLPath Language)、CSS(层叠样式表,Cascading Style Sheets)选择器表达,也可以用网页的DOM树(文档对象模型,Document Object Model)中节点的标签名、属性名值对表达,或者使用以上方式中两种或两种 以上的组合进行表达;
步骤133,调用采集子平台,选取样例页面对抓取规则的效果进行验证, 如有必要则人工修改抓取规则;将通过验证的抓取规则配置为采集模板;
步骤14,根据信息来源内容配置抽取模板,包括:
步骤141,针对样例页面中不同的目标信息内容使用不同的信息抽取算法 进行抽取测试,例如新闻页面中的新闻正文,论坛中的帖子标题,根据抽取效 果选择最好的目标信息内容与抽取算法的对应关系;
步骤142,根据步骤141得到的对应关系自动生成分层的不同抽取算法的 抽取模板,其中抽取模板可以为某一种数据抽取算法,也可以为多种数据抽取 算法按某种规律的组合,例如,利用A算法抽取新闻中的标题和正文,以A 算法生抽抽取模板;又例如,利用A算法抽取新闻中的标题,利用B算法抽 取新闻中的正文,将A算法和B算法组合生成抽取模板;
步骤143,调用采集子平台校验步骤142生成的抽取模板的效果,如有必 要则转至步骤141进行重新测试;
步骤15,信源的验证,包括:
步骤151,根据用户需求人工触发或定期触发自动校验程序对信源进行验 证,验证内容包括信源的入口是否有效、采集模板和抽取模板对信源的适应性 等;
步骤152,定时巡查从监控与统计子平台反馈的的信源采集情况,如有潜 在失效信源,则人工检验采集模板和抽取模板的有效性,根据检验结果重新配 置采集模板和抽取模板,或将潜在失效信源置为无效。
步骤2,采集任务调度
图4是本发明的数据感知与获取方法的调度步骤数据流示意图。如图4 所示,采集任务调度步骤包括:
步骤21:将用于调度任务的信源信息生成信源表;
步骤22:采集任务的生成:根据信源表的信源信息和用户提交的调度策 略生成采集任务,或根据信源表的信息和调度子平台默认的调度策略生成采集 任务,或根据信源表的信源信息、用户提交的调度策略和调度子平台默认的调 度策略生成采集任务,写入采集任务表,其中调度策略包括采集任务的调度优 先级、采集任务的调度周期、采集任务的调度频次等;
步骤23:注册采集节点,节点通过部署在节点上的代理程序在注册中心 进行信息注册,注册信息包括所在的设备的IP、所在设备的物理资源使用情 况、节点能支持的采集器类型、节点能支持的最大采集进程数,采集进程数由 代理根据设备物理配置自动推算,完成注册的节点成为采集节点;代理程序同 时将采集节点的状态存入注册中心;
步骤24:注册调度节点,节点通过部署在节点上的代理程序在注册中心 进行信息注册,注册信息包括所在的设备的IP、所在设备的物理资源使用情 况,完成注册的节点成为调度节点;代理程序同时将调度节点的状态存入注册 中心;
步骤25:调度器执行任务调度,包括:
步骤251,任务加载线程,加载采集任务表中的采集任务的参数配置信息, 并且根据采集任务的类型解析采集任务的参数配置信息;
步骤252,任务更新线程,加载采集任务被调度的信息,更新采集任务的 参数配置信息,包括采集任务已经被调度次数和最近一次被调度的时间;
步骤253,任务拉取线程,从任务队列中按优先级拉取任务;
步骤254,调度器将自身的工作状态存入注册中心;
步骤26,采集节点代理拉取采集器执行任务,采集节点收到调度器传递 的启动请求,进行分析,得到采集任务具体类型,将首先从HDFS拉取相应的 采集器,然后将采集任务传递到采集器,采集器使用调度的通用接口,获取采 集任务的参数配置信息启动采集器。此时代理程序将监控采集器状态,将采集 器状态存入注册中心,并将启动的采集器进程信息上报至调度器,当采集器状 态发生改变时通知调度器,由调度器对采集器进行统一的管理;
步骤3,网络数据采集
图5是本发明的数据感知与获取方法的采集步骤数据流示意图。如图5 所示,网络数据采集步骤包括:
步骤31,加载采集任务的参数配置信息形成的配置文件,配置文件包含 调用采集子平台模块的配置,以及采集任务需求。采集任务需求包括采集目标 信息来源,需要提供Board页的URL以及抽取的范围要求,诸如采集抽取深 度,数据持久化操作,是否去重,Article页的期望数量等;
步骤32:按照采集任务需求,进行采集子平台的配置,对采集子平台提 供的模块进行编排,选择使用的采集器、查重服务模块、状态服务模块、代理 服务模块及JS解析服务模块等,部分模块按配置文件的要求进行单独的配置;
步骤33,采集子平台根据配置文件进行初始化,包括持久化接口的初始 化,查重模块的初始化,页面缓存的初始化,以及编排好的采集器初始化;
步骤34,采集器启动,进行Board页采集,使用配置要求的抽取模板, 抽取Board页中的Article页链接,放入待采集数据链接队列中,不断重复本 步直到完成配置文件要求,或采集完成所有的Board页;
步骤35,对待采集数据链接队列中的Article页链接进行采集,获取时按 配置文件的要求进行过滤,直到待采集数据链接队列为空,采集时,使用配置 的抽取模板,对Article页面进行抽取,得到结构化数据;
步骤37,将步骤35得到的结构化数据进行持久化操作,将结构化数据输 出到数据输出接口中,据不同的业务场景,数据输出接口实现可包括文件系统、 消息队列系统、数据库系统等;
步骤4,数据采集的监控与统计
图6是本发明的数据感知与获取方法的监控与统计步骤数据流示意图。如 图6所示,监控与统计步骤包括:
步骤41,对采集任务信息和信源统计信息进行统计,并写入监控与统计 数据库;
步骤42,采集调度监控,包括:
步骤421,用户在前端的面板上选取需要查看的监控指标;
步骤422,如果该指标是调度器状态、采集节点状态或采集器状态,则从 注册中心中查询调度器状态数据、采集节点状态数据、采集器状态数据,返回 给前端;如果指标是采集任务信息和信源统计信息,则从监控与统计数据库中 获取采集任务信息和信源统计信息,聚合后发送给前端;
步骤423,前端使用绘图工具渲染步骤412获取的数据,展示到面板中;
步骤424,使用前端面板上的启动/停用调度器、启动/停用采集节点按钮 可实现相应的控制功能;
步骤425,使用前端面板上的停止采集任务、停用采集器按钮可实现控制 采集任务和采集器的功能;
步骤43,采集量统计,包括:
步骤431,读取结构化数据,按照监控与统计子平台中配置的采集时间粒 度,统计各信源的数据采集量,并存入监控与统计数据库中;其中采集时间粒 度可以为分、小时、天、周、月等,根据实际采集任务进行设定,默认以天为 单位;
步骤432,按照监控与统计子平台中配置的活跃度时间粒度,基于信源前 n个时间粒度的数据采集量计算信源的活跃等级,并存入监控与统计数据库 中;活跃度时间粒度可以为分、小时、天、周、月等,根据实际采集任务进行 设定,默认以天为单位;
步骤433,用户通过前端面板查看统计信息,发送查询请求;
步骤434,查询监控与统计数据库,将查询结果返回给前端;
步骤44,在线失效检测,包括:
步骤441,获取同一信源所采集数据的相似度,例如按照文章的标题与正 文的相关性获取文章的相似度,通过相似度对信源进行动态的累计相似度打 分,得到相似度分值,将相似度分值存入监控与统计数据库;
步骤442,分析信源最近m个失效检测时间粒度的数据采集量和相似度分 值的变化情况,若数据采集量变化量大于根据历史经验设定的数据采集量阈 值,和或相似度分值变化量大于根据历史经验设定的相似度分值阈值,则判断 这个信源为潜在失效信源,把检测到的潜在失效信源信息写入监控与统计数据 库;失效检测时间粒度可以为分、小时、天、周、月等,根据实际采集任务进 行设定,默认以天为单位;
步骤443,将检测到的潜在失效信源推送到信源管理与配置子平台,供信 源管理与配置子平台用户确认潜在失效信源为有效或失效,并做进一步处理以 优化信源。
需要说明的是,上述实施例中介绍的各个步骤并非都是必须的,本领域技 术人员可以根据实际需要进行适当的取舍、替换、修改等。
本发明实施例还提供一种计算机可读存储介质,存储有计算机可执行指 令,计算机可执行指令被处理器执行时实现上述大规模网络数据的感知与获取 方法。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序 来指令相关硬件(例如处理器)完成,所述程序可以存储于计算机可读存储介质 中,如只读存储器、磁盘或光盘等。上述实施例的全部或部分步骤也可以使用 一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用 硬件的形式实现,例如通过集成电路来实现其相应功能,也可以采用软件功能 模块的形式实现,例如通过处理器执行存储于存储器中的程序/指令来实现其 相应功能。本发明实施例不限制于任何特定形式的硬件和软件的结合。
具体而言,本发明实施例还提供一种数据处理设备,数据处理设备安装有 上述有计算机可执行指令,并与网络连接;数据处理设备通过执行计算机可执 行指令实现上述大规模网络数据的感知与获取,并可以通过前端面板,例如是 数据输入/输出设备与用户交互。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。 尽管上文参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理 解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的 精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种大规模网络数据的多信息来源采集方法,其特征在于,包括:
获取多种传媒上的网络数据所在的信源,设置采集模板和抽取模板;其中,根据各信源的采集入口页面中的链接,设置多种抓取规则组合并以样例页面进行验证,选取通过验证的抓取规则组合为该采集模板;对于各信源的样例页面包含的目标信息内容,进行抽取算法测试,并根据测试结果选择与各种目标信息内容对应的抽取算法,将所有选出的抽取算法组合为该抽取模板;
生成采集任务,启动并初始化采集节点上的采集器;
将该采集任务的参数配置信息加载至该采集器;
根据该采集模板和该抽取模板,以该采集器获取各信源的目标信息内容链接,并建立链接队列;
根据该采集模板和该抽取模板,以该采集器依次采集该链接队列中对应的目标信息内容为结构化数据;
获取该信源最近多个失效检测时间粒度的采集量及采集到的结构化数据的相似度分值,若该采集量的变化量大于第一阈值和/或该相似度分值的变化量大于第二阈值,则判断该信源为潜在失效信源,并检验该采集模板和该抽取模板的有效性,根据检验结果重新配置该采集模板和该抽取模板,或将该信源置为无效;
将该结构化数据进行持久化操作,并进行输出。
2.如权利要求1所述的多信息来源采集方法,其特征在于,该采集器采用Board-Article采集结构,其中该目标信息内容链接展示在Board页中,该目标信息内容展示在Article页中。
3.如权利要求2所述的多信息来源采集方法,其特征在于,该参数配置信息包括:该目标信息内容的信源、该目标信息内容链接所在Board页的URL、该目标信息内容抽取的范围要求、对该信源的采集和抽取深度、该结构化数据的持久化操作要求、该结构化数据的去重操作要求和该目标信息内容所在Article页的期望数量。
4.如权利要求1所述的多信息来源采集方法,其特征在于,该传媒包括论坛、微博、微信、新闻APP、网站;该采集器包括论坛采集器、微博采集器、微信采集器、新闻采集器、网站采集器。
5.一种大规模网络数据的多信息来源采集系统,其特征在于,包括:
信源配置模块,用于获取多种传媒上的网络数据所在的信源,设置采集模板和抽取模板;其中,根据各信源的采集入口页面中的链接,设置多种抓取规则组合并以样例页面进行验证,选取通过验证的抓取规则组合为该采集模板;对于各信源的样例页面包含的目标信息内容,进行抽取算法测试,并根据测试结果选择与各种目标信息内容对应的抽取算法,将所有选出的抽取算法组合为该抽取模板;
调度模块,用于生成采集任务,启动并初始化采集节点上的采集器;
任务加载模块,用于将该采集任务的参数配置信息加载至该采集器;
第一采集模块,用于根据该采集模板和该抽取模板,以该采集器获取各信源的目标信息内容链接,并建立链接队列;
第二采集模块,用于根据该采集模板和该抽取模板,以该采集器依次采集该链接队列中对应的目标信息内容为结构化数据;
信源失效检测模块,用于获取该信源最近多个失效检测时间粒度的采集量及采集到的结构化数据的相似度分值,若该采集量的变化量大于第一阈值和/或该相似度分值的变化量大于第二阈值,则判断该信源为潜在失效信源,并检验该采集模板和该抽取模板的有效性,根据检验结果重新配置该采集模板和该抽取模板,或将该信源置为无效;
数据输出模块,用于将该结构化数据进行持久化操作,并进行输出。
6.如权利要求5所述的多信息来源采集系统,其特征在于,该采集器采用Board-Article采集结构,其中该目标信息内容链接展示在Board页中,该目标信息内容展示在Article页中。
7.如权利要求6所述的多信息来源采集系统,其特征在于,该参数配置信息包括:该目标信息内容的信源、该目标信息内容链接所在Board页的URL、该目标信息内容抽取的范围要求、对该信源的采集和抽取深度、该结构化数据的持久化操作要求、该结构化数据的去重操作要求和该目标信息内容所在Article页的期望数量。
8.如权利要求5所述的多信息来源采集系统,其特征在于,该传媒包括论坛、微博、微信、新闻APP、网站;该采集器包括论坛采集器、微博采集器、微信采集器、新闻采集器、网站采集器。
9.一种计算机可读存储介质,存储有计算机可执行指令,该计算机可执行指令用于执行如权利要求1~4任一项所述的大规模网络数据的多信息来源采集方法。
10.一种数据处理设备,包括如权利要求9所述的计算机可读介质,该数据处理装置调取并执行该计算机可读介质中的计算机可执行指令,进行大规模网络数据的多信息来源采集。
CN201811637902.0A 2018-12-29 2018-12-29 大规模网络数据的多信息来源采集方法和系统 Active CN109840298B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811637902.0A CN109840298B (zh) 2018-12-29 2018-12-29 大规模网络数据的多信息来源采集方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811637902.0A CN109840298B (zh) 2018-12-29 2018-12-29 大规模网络数据的多信息来源采集方法和系统

Publications (2)

Publication Number Publication Date
CN109840298A CN109840298A (zh) 2019-06-04
CN109840298B true CN109840298B (zh) 2021-09-24

Family

ID=66883508

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811637902.0A Active CN109840298B (zh) 2018-12-29 2018-12-29 大规模网络数据的多信息来源采集方法和系统

Country Status (1)

Country Link
CN (1) CN109840298B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851253B (zh) * 2019-11-06 2023-05-12 万达信息股份有限公司 一种远程运维的方法、系统、存储介质及电子设备
CN111340681B (zh) * 2020-02-10 2024-02-20 青岛海信宽带多媒体技术有限公司 一种图像处理方法及装置
CN112764908B (zh) * 2021-01-26 2024-01-26 北京鼎普科技股份有限公司 网络数据采集处理方法、装置和电子设备
CN112818201A (zh) * 2021-02-07 2021-05-18 四川封面传媒有限责任公司 一种网络数据采集方法、装置、计算机设备及存储介质
CN114124643B (zh) * 2021-11-10 2023-08-01 中盈优创资讯科技有限公司 一种基于PaaS的网络设备流量采集方法及装置
CN113918142B (zh) * 2021-11-24 2024-03-15 企查查科技股份有限公司 数据采集任务代码生成方法、装置、计算机设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279272A (zh) * 2015-10-30 2016-01-27 南京未来网络产业创新有限公司 一种基于分布式网络爬虫的内容聚合方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6886046B2 (en) * 2001-06-26 2005-04-26 Citrix Systems, Inc. Methods and apparatus for extendible information aggregation and presentation
CN102281140B (zh) * 2011-06-24 2014-04-16 上海合合信息科技发展有限公司 指定信息获取方法及系统
CN106484828B (zh) * 2016-09-29 2020-01-21 西南科技大学 一种分布式互联网数据快速采集系统及采集方法
US20180101404A1 (en) * 2016-10-11 2018-04-12 Microsoft Technology Licensing, Llc Resource and latency estimation-based scheduling
CN106844782B (zh) * 2017-03-10 2020-03-20 山东省科学院情报研究所 一种面向网络的多通道大数据采集系统及方法
CN107992533A (zh) * 2017-11-23 2018-05-04 安徽科创智慧知识产权服务有限公司 一种网络数据采集方法
CN108769115A (zh) * 2018-04-19 2018-11-06 中国科学院计算技术研究所 分布式rss数据采集方法和系统
CN109088908A (zh) * 2018-06-06 2018-12-25 武汉酷犬数据科技有限公司 一种面向网络的分布式通用数据采集方法和系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279272A (zh) * 2015-10-30 2016-01-27 南京未来网络产业创新有限公司 一种基于分布式网络爬虫的内容聚合方法

Also Published As

Publication number Publication date
CN109840298A (zh) 2019-06-04

Similar Documents

Publication Publication Date Title
CN109840298B (zh) 大规模网络数据的多信息来源采集方法和系统
US10606711B2 (en) Recovery strategy for a stream processing system
CN109753596B (zh) 用于大规模网络数据采集的信源管理与配置方法和系统
CN109815382B (zh) 大规模网络数据的感知与获取方法和系统
Park et al. Web-based collaborative big data analytics on big data as a service platform
Kranjc et al. Active learning for sentiment analysis on data streams: Methodology and workflow implementation in the ClowdFlows platform
US20180253335A1 (en) Maintaining throughput of a stream processing framework while increasing processing load
Maalej et al. On the socialness of software
Bjeladinovic A fresh approach for hybrid SQL/NoSQL database design based on data structuredness
EP3475888A1 (en) System and method for ontology induction through statistical profiling and reference schema matching
US20240029086A1 (en) Discovery of new business openings using web content analysis
CN106021583B (zh) 页面流量数据的统计方法及其系统
US10579734B2 (en) Web-based influence system and method
US10127617B2 (en) System for analyzing social media data and method of analyzing social media data using the same
CN109814992A (zh) 用于大规模网络数据采集的分布式动态调度方法和系统
CN108074033A (zh) 指标数据的处理方法、系统、电子设备和存储介质
CN109819019B (zh) 用于大规模网络数据采集的监控与统计分析方法和系统
KR20170115109A (ko) 효율적 건설문서 관리를 위한 텍스트마이닝 적용 기술
CN113962597A (zh) 一种数据分析方法、装置、电子设备及存储介质
Alwadain et al. Crowd-generated data mining for continuous requirements elicitation
CN113220530B (zh) 数据质量监控方法及平台
CN115422427A (zh) 就业技能需求分析系统
Wang et al. Context-aware service input ranking by learning from historical information
US11593451B2 (en) System and method for comparing zones for different versions of a website based on performance metrics
CN112650925A (zh) 一种用于一卡通的app信息推送系统、方法及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant