CN102521232B - 一种互联网元数据的分布式采集处理系统及方法 - Google Patents

一种互联网元数据的分布式采集处理系统及方法 Download PDF

Info

Publication number
CN102521232B
CN102521232B CN201110351493.XA CN201110351493A CN102521232B CN 102521232 B CN102521232 B CN 102521232B CN 201110351493 A CN201110351493 A CN 201110351493A CN 102521232 B CN102521232 B CN 102521232B
Authority
CN
China
Prior art keywords
metadata
url
crawl
distributed
business application
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110351493.XA
Other languages
English (en)
Other versions
CN102521232A (zh
Inventor
杨细强
万超
付文敬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Excellent network Co., Ltd.
Original Assignee
UTStarcom Telecom Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by UTStarcom Telecom Co Ltd filed Critical UTStarcom Telecom Co Ltd
Priority to CN201110351493.XA priority Critical patent/CN102521232B/zh
Publication of CN102521232A publication Critical patent/CN102521232A/zh
Application granted granted Critical
Publication of CN102521232B publication Critical patent/CN102521232B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种互联网元数据的分布式采集处理系统及方法,该系统包括配置管理图形用户接口模块、元数据采集组件模块和元数据输出模块,配置管理图形用户接口模块:采集分布式组件参数配置,元数据采集和输入日志查看;元数据采集组件模块:读取各业务应用系统的元数据采集配置,周期性地创建并分布式执行采集任务调度程序、生成各业务应用系统的所需要的元数据可扩展标记语言文件;元数据输出模块:负责将元数据可扩展标记语言文件输出给各业务应用系统。本发明有益的效果是:为互联网的元数据采集提供了通用、开放式的分布式组件和服务,为进一步实现互联网电视的站内精准搜索、内容聚合型应用的垂直搜索提供统一规范的数据源。

Description

一种互联网元数据的分布式采集处理系统及方法
技术领域
本发明涉及分布式系统领域,主要是一种互联网元数据的分布式采集处理系统及方法。
背景技术
随着三网融合的推行,越来越多的互联网应用被“搬”到了电视上。可以预见,随着互联网电视应用的爆炸式增长,用户个性化需求的日益深入,互联网信息会高度聚合经二次开发成为互联网电视上的增值应用,另外,互联网电视的操作方便性不及PC电脑和手机、
互联网电视的界面内容容量也不及PC,这些因素都潜在地要求互联网电视上的实现更精准的站内搜索,而当前互联网上最流行的基于全文检索的搜索技术实现显然无法满足互联网电视领域的客观需求。另一方面,随着软件商业销售方式的演化,软件提供商正从原先的系统和产品提供商向平台服务提供商演化,IPTV也必然会从单纯的TV业务平台向面向服务的支撑平台演化,相应地,软件构架技术将从原先的面向产品向面向服务发展,软件即服务SaaS(Software as a Service)成为互联网领域最重要的技术构架方式。
目前IPTV对元数据的处理不够通用和开放,已有实现无法重用到互联网电视平台的站内精准搜索、互联网电视增值业务应用等领域。本发明以SaaS为构架、以分布式计算为技术基础,为互联网海量元数据采集和处理提供通用的、开放式的分布式组件和服务。
发明内容
本发明的目的是为互联网电视业务支撑平台实现一种统一的、通用的、开放式的互联网元数据的分布式采集处理系统及方法,本发明能同时为多个互联网业务应用的互联网元数据采集和处理提供支撑服务,从而大大降低内容聚合型互联网应用的开发难度,缩短其开发周期、降低其部署和运营成本。
本发明解决其技术问题采用的技术方案:本发明提供了一种互联网元数据的分布式采集处理方法,该方法的具体步骤为:
(1)各业务应用系统通过互联网分布式元数据采集系统的配置管理模块配置提交元数据采集需求;
(2)互联网分布式元数据采集系统的元数据采集组件模块周期性地创建和执行页面采集任务调度程序(采集job)、生成的元数据可扩展标记语言(XML)文件;
A读取各业务应用系统的元数据采集配置,归并各业务应用系统的元数据采集需求信息的输入元数据来源站点URL列表(Site URL List)和输出元数据映射(Meta Data Mapping);
B以输入元数据来源站点URL列表(Site URL List)为入口,创建并执行抓取任务调度程序(抓取job),进行映射化简(Map Reduce)分布式处理,从因特网/企业内部网(Internet/Intranet网)上抓取html页面内容、并结合元数据映射(Meta Data Mapping)过滤出有用的元数据源页面;
C对元数据源页面进行映射化简(Map Reduce)分布式处理,根据元数据映射(Meta Data Mapping)以及各业务应用系统的定义的元数据XSD结构定义,即Meta Data XML Schema Define,生成目标元数据可扩展标记语言(XML)文件;
(3)互联网分布式元数据采集系统的元数据输出模块将元数据采集组件生成的元数据可扩展标记语言(XML)文件输出给各业务应用系统。
更进一步的,所述业务应用系统元数据采集配置包括以下三个方面:
(1)元数据来源站点URL列表(Site URL List):定义业务应用系统的元数据将从哪些web站点去抓取;
(2)元数据XSD:定义业务应用系统的元数据的可扩展标记语言(XML)结构;
(3)元数据映射:具体定义业务应用系统的元数据将从哪些URL的html源页面上提取、html源页面字段与目标元数据可扩展标记语言XML字段之间的xpath(一种用于在XML文档中进行导航的语言)对应关系。
更进一步的,在步骤B中抓取流程为:以元数据来源站点URL列表(Site URL List)为初始入口、结合抓取历史记录(Fetch History),生成第一等级(level 1)的抓取列表(fetch list),然后在各分布式节点上创建并执行第一等级(level 1)的抓取任务(task):根据抓取列表里的URL逐个抓取html页面,计算html页面内容的MD5值,在抓取历史中查找此URL的记录并比对MD5值:
A)若上次成功抓取过URL且MD5值与上次相同,则更新抓取历史记录(Fetch History)、延长此URL的抓取周期,然后直接进入下一URL的抓取处理;
B)若未成功抓取过URL或是MD5值与上次不同,则需要完成以下三步后再进入下一URL的抓取处理:
B1)若当前抓取等级(fetch level)小于系统的最大抓取等级(max fetch level),则需解析出此html里的超链接link;
B2)如果当前URL与元数据映射中的元数据映射单元(MetadataMappingUnit)的统一资源定位符前缀(URLPrefix)属性匹配,则将此URL及html页面内容放入元数据源(Meta Data Source)中;
B3)追加/更新抓取历史(Fetch History)记录,包括以下信息:URL,抓取等级(fetch level),最近抓取状态,最近抓取时间,抓取周期,下次抓取时间=最近抓取时间+抓取周期;
第一等级(level 1)的抓取任务(task)完成后,抓取任务(task)将返回解析html所得的超链列表(html link list),抓取任务调度程序(抓取job)将根据超链列表(html link list)、结合抓取历史记录(FetchHistory)形成第二等级(level 2)的抓取列表(fetch list),创建并执行下一个等级(next level)的抓取任务调度程序(抓取job),依此迭代,直到达到系统指定的最大抓取等级(max level)才结束本轮抓取。
更进一步的,所述步骤C包括如下步骤:
1)从元数据源(Metadata Source)获取一html页面内容,将html格式化为可扩展标记语言格式(xml),根据xpath来读取指定节点值;
2)根据页面的URL在元数据映射定义(Metadata Mapping)中查找对应的元数据映射单元(MetadataMappingUnit),对每个匹配的元数据映射单元(MetadataMappingUnit)做如下步骤3)至步骤6)处理:
3)根据元数据映射单元(MetadataMappingUnit)的每一顶的源xpath(itemSourceXpath)值,对源html页面按xpath中获取到一个节点列表(Node列表);
4)结合业务应用系统的元数据可扩展标记语言XML结构定义元数据XSD(Metadata XSD),将步骤3)得到的节点列表(Node列表)中的每一列转换为一个元数据XML对象;
5)根据元数据映射单元(MetadataMappingUnit)的字段映射(FieldMappings)定义,为元数据XML对象的各字段赋值:如果指定了期望关联的页面url地址(relevantPageURLExp),则根据期望关联的页面url地址(relevantPageURLExp)得出相关页面URL并抓取相关页面;根据期望的源xpath(sourceXpathExp)从源页面或源页面的相关页面中得到xpath所对应的节点值;如果指定了期望的值格式化(valueFormatExp),则进一步对得到的节点值进行格式化处理;将节点值赋给目标xpath(targetXpath)所指定的元数据可扩展标记语言对象(XML对象)的对应字段上;
6)将元数据可扩展标记语言对象(XML对象)序列化为可扩展标记语言(XML)文件并按应用程序唯一编码applD分目录存储;
7)从元数据源(Metadata Source)中删除此html页面;
8)重复步骤1)至步骤7,直至元数据源(Metadata Source)为空。
本发明所述的这种互联网元数据的分布式采集处理系统,该系统包括配置管理图形用户接口(GUI)模块、元数据采集组件模块和元数据输出模块,其中,
配置管理图形用户接口(GUI)模块:为业务应用系统的元数据采集配置提供图形用户接口(GUI)界面,采集分布式组件参数配置,元数据采集和输入日志查看;
元数据采集组件模块:元数据采集的分布式组件,读取各业务应用系统的元数据采集配置,周期性地创建并分布式执行采集任务调度程序、生成各业务应用系统的所需要的元数据可扩展标记语言(XML)文件;
元数据输出模块:负责将元数据可扩展标记语言(XML)文件输出给各业务应用系统。
本发明有益的效果是:为互联网的元数据采集提供了通用、开放式的分布式组件和服务,通过实现通用的海量元数据的采集组件和系统,为进一步实现互联网电视的站内精准搜索、内容聚合型应用的垂直搜索提供统一规范的数据源。
附图说明
图1为本发明互联网分布式元数据采集系统的基本模块结构图;
图2为本发明互联网分布式元数据采集组件的基本流程原理图;
图3为本发明互联网分布式元数据采集组件的页面抓取流程图;
图4为本发明互联网分布式元数据采集组件的元数据XML生成流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合举例,对本发明进行进一步详细说明。应当理解,此处所描述的举例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,为本发明互联网分布式元数据采集系统的基本模块结构图,本实施例包括以下模块和步骤:
步骤1:各业务应用系统通过互联网分布式元数据采集系统的配置管理(GUI)模块配置提交元数据采集需求;
业务应用系统元数据采集配置主要包括以下三个方面:
●元数据来源站点URL列表(Site URL List):定义业务应用系统的元数据将从哪些web站点去抓取;
●元数据XSD(Metadata XML Schema Define):定义业务应用系统的元数据的XML结构;
●元数据映射(Meta data Mapping):具体定义业务应用系统的元数据将从哪些url的html源页面上提取、html源页面字段与目标元数据XML字段之间的xpath对应关系:
元数据映射(Meta data Mapping)以XML方式定义,其XSD(XML Schema Define)如下:
Figure BDA0000106750520000051
Figure BDA0000106750520000061
可以定义1至多个映射单元(MetadataMappingUnit),映射单元决定了从web站点抓取到的哪些页面将成为元数据源(Metadata Source):url与映射单元(MetadataMappingUnit)的urlPrefix字段值匹配的html页面被转换为业务应用系统的元数据XML文件,而映射单元(MetadataMappingUnit)的元数据项(Metadataltem)则描述了html页面转换为元数据XML文件的具体规则:
根据每一项的源Xpath(itemSourceXpath)从html源页面获取到元数据节点列表(Node List),该列表中的每一项将对应生成一个元数据XML,元数据XML的字段值则是在一至多个字段映射(FieldMappings)中具体定义:targetXpath表示元数据目标字段;relevantPageUrlExp若指定此项,表示此元数据目标字段值不是来源于当前html、而是来源于一个与当前html页面相关的html页面;sourceXpathExp:表示此元数据目标字段值是根据这里指定的xpath表达式去获取,如果指定了relevantPageUrlExp,则xpath是相关页面的xpath,若未指定relevantPageUrlExp,则xpath是当前页面的xpath、如果是相对xpath,则是相对于itemSourceXpath的;valueFormatExp则是定义了如何对值进行格式化处理。总之,元数据源html页面与元数据目标XML可以是多对多的映射关系:一个元数据源html页面可以生成一或多个元数据XML文件,一个元数据XML的字段值也可以来源于一个以上的html页面。
另外,业务应用系统元数据采集配置也包括配置元数据XM L文件输出给业务应用系统的方式:SOAP或FTP。
步骤2:互联网分布式元数据采集系统的元数据采集组件模块周期性地创建和执行页面采集的任务调度程序(job)、元数据XML生成job;
具体流程设计见下面关于图2的说明;
步骤3:互联网分布式元数据采集系统的元数据输出模块将元数据采集组件生成的元数据XML文件输出给各业务应用系统;
输出模块将按应用系统指定的方式:SOAP或FTP,逐个或是打包发送给业务应用系统。
如图2所示,为本发明互联网分布式元数据采集组件的基本流程原理图,本实施例包括以下步骤:
步骤1:读取各业务应用系统的元数据采集配置,归并各业务应用系统的元数据采集配置信息的输入(Site URL List)和输出(Meta Data Mapping);
不同业务应用系统可能对同一Site的页面有抓取需求,归并输入可以最大程度地减少元数据采集组件对同一Site的页面请求次数;
归并输出可以对元数据源页面进行集中的解析和转换处理,有效提升元数据采集系统的吞吐率;
步骤2:以元数据来源站点URL列表(Site URL List)为初始入口,创建并执行抓取任务调度程序(抓取job),进行映射化简(Map Reduce)分布式处理,从Internet/Intranet网上抓取html页面内容、并结合元数据映射(Meta Data Mapping)定义过滤出有用的元数据源页面;
元数据采集分布式组件周期性地创建并执行抓取job,如图3所示,元数据采集组件的抓取流程为:以元数据来源站点URL列表(Site URL List)为初始入口、结合抓取历史记录(Fetch History),生成第一等级(level 1)的抓取列表(fetch list),然后在各分布式节点上创建并执行第一等级(level 1)的抓取任务(task):
根据抓取列表(fetch list)里的url逐个抓取html页面,计算html页面内容的MD5值,在抓取历史记录(Fetch History)中查找此url的记录并比对MD5值:
A)若上次成功抓取过url且MD5值与上次相同,则更新抓取历史Fetch History、延长此url的抓取周期,然后直接进入下一url的抓取处理;
B)若未成功抓取过url或是MD5值与上次不同,则需要完成以下三步后再进入下一url的抓取处理:
B1)若当前抓取等级(fetch level)小于系统最大抓取等级(max fetch level),则需解析出此html里的超链接(link);
B2)如果当前url与元数据映射(Metadata Mapping)中的元数据映射单元(MetadataMappingUnit)的urlPrefix属性匹配,则将此url及html页面内容放入元数据源(Meta Data Source)中;
B3)追加/更新抓取历史(Fetch History)记录,包括以下信息:url,抓取等级(fetch level),最近抓取状态,最近抓取时间,抓取周期,下次抓取时间=(最近抓取时间+抓取周期);
第一等级(level 1)的抓取任务(task)完成后,抓取任务(task)将返回解析html所得的超链列表(html link list),抓取任务调度程序(抓取job)将根据超链列表(html link list)、结合抓取历史记录(FetchHistory)形成第二等级(level 2)的抓取列表(fetch list),创建并执行下一个等级(next level)的抓取任务调度程序(抓取job),依此迭代,直到达到系统指定的最大抓取等级(max level)才结束本轮抓取。
步骤3:创建元数据生成job,对元数据源(Metadata Source)进行映射化简(Map Reduce)分布式处理,根据元数据映射定义(Meta Data Mapping)以及各业务应用系统的定义的元数据XML定义XSD(MetaData XML Schema Define)生成目标元数据XML文件。
如图4所示,元数据生成步骤为:
1)从元数据源(Metadata Source)获取一html页面内容,将html格式化为可扩展标记语言格式(xml),以方便根据xpath来读取指定节点值;
2)根据页面的URL在元数据映射定义(Metadata Mapping)中查找对应的元数据映射单元(MetadataMappingUnit),对每个匹配的元数据映射单元(MetadataMappingUnit)做如下步骤3)至步骤6)处理:
3)根据元数据映射单元(MetadataMappingUnit)的每一顶的源xpath(itemSourceXpath)值,对源html页面按xpath中获取到一个节点列表(Node列表);
4)结合业务应用系统的元数据可扩展标记语言XML结构定义元数据XSD(Metadata XSD),将步骤3)得到的节点列表(Node列表)中的每一列转换为一个元数据XML对象;
5)根据元数据映射单元(MetadataMappingUnit)的字段映射(FieldMappings)定义,为元数据XML对象的各字段赋值:如果指定了期望关联的页面url地址(relevantPageURLExp),则根据期望关联的页面url地址(relevantPageURLExp)得出相关页面URL并抓取相关页面;根据期望的源xpath(sourceXpathExp)从源页面或源页面的相关页面中得到xpath所对应的节点值;如果指定了期望的值格式化(valueFormatExp),则进一步对得到的节点值进行格式化处理;将节点值赋给目标xpath(targetXpath)所指定的元数据可扩展标记语言对象(XML对象)的对应字段上;
6)将元数据可扩展标记语言对象(XML对象)序列化为可扩展标记语言(XML)文件并按应用程序唯一编码applD分目录存储;
7)从元数据源(Metadata Source)中删除此html页面;
8)重复步骤1)至步骤7,直至元数据源(Metadata Source)为空。
该发明为元数据的采集提供了通用的、海量数据的分布式处理方法,为IPTV、互联网电视平台实现站内搜索提供统一格式的元数据,为第三方开发内容聚合型互联网电视增值应用提供了必要的支撑服务,从而降低第三方开发互联网增值应用的门槛和难度、缩短其开发周期。
术语解释:
SaaS                 软件即服务或软件运营
URL                  统一资源定位符
Site URL List        元数据来源站点URL列表
Meta Data Mapping    元数据映射
Map Reduce           映射化简
Internet/Intranet    因特网/企业内部网
Xml                  可扩展标记语言
XSD                  全称XML Schemas Definition(xml结构定义)
Meta Data XML Schema Define           元数据xml结构定义
Xpath                                 一种用于在XML文档中进行导航的语言
Fetch History                         抓取历史
fetch list                            抓取列表
task                                  抓取任务
level 1                               抓取第一等级
MD5                                   消息摘要算法第五版
fetch level                           抓取等级
max fetch level                       最大抓取等级
link                                  超链接
MetadataMappingUnit                   元数据映射单元
urlPrefix                             统一资源定位符前缀
Meta Data Source                      元数据源
html link list                        超链列表
抓取job                               抓取任务调度程序
next level                            下一个等级
Metadata Mapping                      数据映射定义
itemSourceXpath                       每一项的源xpath
Node                                  列表节点列表
Metadata XSD                          元数据xsd
FieldMappings                         字段映射
relevantPageUrlExp                    期望关联的页面url地址
sourceXpathExp                        期望的源xpath
valueFormatExp                        期望的值格式化
targetXpath                           目标xpath
applD                                 应用程序唯一编码
GUI                                   图形用户接口
采集job                               采集的任务调度程序
Metadataltem                          元数据项
Node List                             节点列表
SOAP                                  简单对象访问协议
FTP                                   文件传输协议
可以理解的是,对本领域技术人员来说,对本发明的技术方案及发明构思加以等同替换或改变都应属于本发明所附的权利要求的保护范围。

Claims (5)

1.一种互联网元数据的分布式采集处理方法,其特征是:该方法的具体步骤为:
(1)各业务应用系统通过互联网分布式元数据采集系统的配置管理模块配置提交元数据采集需求;
(2)互联网分布式元数据采集系统的元数据采集组件模块周期性地创建和执行页面采集任务调度程序、生成元数据可扩展标记语言文件;
A读取各业务应用系统的元数据采集配置,归并各业务应用系统的元数据采集需求信息的输入元数据来源站点URL列表和输出元数据映射;
B以输入元数据来源站点URL列表为入口,创建并执行抓取任务调度程序,进行映射化简分布式处理,从因特网/企业内部网上抓取html页面内容、并结合元数据映射过滤出有用的元数据源页面;
C对元数据源页面进行映射化简分布式处理,根据元数据映射以及各业务应用系统的定义的元数据结构定义,生成目标元数据可扩展标记语言文件;
(3)互联网分布式元数据采集系统的元数据输出模块将元数据采集组件生成元数据可扩展标记语言文件输出给各业务应用系统。
2.根据权利要求1所述的互联网元数据的分布式采集处理方法,其特征是:所述业务应用系统元数据采集配置包括以下三个方面:
(1)元数据来源站点URL列表:定义业务应用系统的元数据将从哪些web站点去抓取;
(2)元数据结构定义:定义业务应用系统的元数据的可扩展标记语言结构;
(3)元数据映射:具体定义业务应用系统的元数据将从哪些URL的html源页面上提取、html源页面字段与目标元数据可扩展标记语言字段之间的xpath对应关系。
3.根据权利要求1所述的互联网元数据的分布式采集处理方法,其特征是:在步骤B中抓取流程为:以元数据来源站点URL列表为初始入口、结合抓取历史记录,生成第一等级的抓取列表,然后在各分布式节点上创建并执行第一等级的抓取任务:根据抓取列表里的URL逐个抓取html页面,计算html页面内容的MD5值,在抓取历史中查找此URL的记录并比对MD5值:
A)若上次成功抓取过URL且MD5值与上次相同,则更新抓取历史记录、延长此URL的抓取周期,然后直接进入下一URL的抓取处理;
B)若未成功抓取过URL或是MD5值与上次不同,则需要完成以下三步后再进入下一URL的抓取处理:
B1)若当前抓取等级小于系统的最大抓取等级,则需解析出此html里的超链接;
B2)如果当前URL与元数据映射中的元数据映射单元的统一资源定位符前缀属性匹配,则将此URL及html页面内容放入元数据源中;
B3)追加/更新抓取历史记录,包括以下信息:URL,抓取等级,最近抓取状态,最近抓取时间,抓取周期,下次抓取时间=最近抓取时间+抓取周期;
第一等级的抓取任务完成后,抓取任务将返回解析html所得的超链列表,抓取任务调度程序j将根据超链列表、结合抓取历史记录形成第二等级的抓取列表,创建并执行下一个等级的抓取任务调度程序,依此迭代,直到达到系统指定的最大抓取等级才结束本轮抓取。
4.根据权利要求1所述的互联网元数据的分布式采集处理方法,其特征是:所述步骤C包括如下步骤:
1)从元数据源获取一html页面内容,将html格式化为可扩展标记语言格式,根据xpath来读取指定节点值;
2)根据页面的URL在元数据映射定义中查找对应的元数据映射单元,对每个匹配的元数据映射单元做如下步骤3)至步骤6)处理:
3)根据元数据映射单元的每一项的源xpath值,对源html页面按xpath获取到一个节点列表;
4)结合业务应用系统的元数据可扩展标记语言结构定义元数据XSD,将步骤3)得到的节点列表中的每一列转换为一个元数据可扩展标记语言对象;
5)根据元数据映射单元的字段映射定义,为元数据可扩展标记语言对象的各字段赋值:如果指定了期望关联的页面url地址,则根据期望关联的页面url地址得出相关页面URL并抓取相关页面;根据期望的源xpath从源页面或源页面的相关页面中得到xpath所对应的节点值;如果指定了期望的值格式化,则进一步对得到的节点值进行格式化处理;将节点值赋给目标xpath所指定的元数据可扩展标记语言对象的对应字段上;
6)将元数据可扩展标记语言对象序列化为可扩展标记语言文件并按应用程序唯一编码分目录存储;
7)从元数据源中删除此html页面;
8)重复步骤1)至步骤7),直至元数据源为空。
5.一种采用如权利要求1所述互联网元数据的分布式采集处理方法的系统,其特征是:该系统包括配置管理图形用户接口模块、元数据采集组件模块和元数据输出模块,其中,
配置管理图形用户接口模块:为业务应用系统的元数据采集配置提供图形用户接口界面,采集分布式组件参数配置,元数据采集和输入日志查看;
元数据采集组件模块:元数据采集的分布式组件,读取各业务应用系统的元数据采集配置,周期性地创建并分布式执行采集任务调度程序、生成各业务应用系统的所需要的元数据可扩展标记语言文件;
元数据输出模块:负责将元数据可扩展标记语言文件输出给各业务应用系统。
CN201110351493.XA 2011-11-09 2011-11-09 一种互联网元数据的分布式采集处理系统及方法 Active CN102521232B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110351493.XA CN102521232B (zh) 2011-11-09 2011-11-09 一种互联网元数据的分布式采集处理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110351493.XA CN102521232B (zh) 2011-11-09 2011-11-09 一种互联网元数据的分布式采集处理系统及方法

Publications (2)

Publication Number Publication Date
CN102521232A CN102521232A (zh) 2012-06-27
CN102521232B true CN102521232B (zh) 2014-05-07

Family

ID=46292157

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110351493.XA Active CN102521232B (zh) 2011-11-09 2011-11-09 一种互联网元数据的分布式采集处理系统及方法

Country Status (1)

Country Link
CN (1) CN102521232B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102790914B (zh) * 2012-07-04 2015-02-11 合一网络技术(北京)有限公司 一种获取生成用户关注度高的网络视频精华的系统及方法
CN106469087B (zh) * 2015-08-19 2020-06-05 阿里巴巴集团控股有限公司 元数据输出方法、客户端和元数据服务器
CN106470118B (zh) * 2015-08-21 2019-11-08 睿石网云(北京)科技有限公司 一种应用系统性能异常检测方法和系统
CN106815254B (zh) * 2015-12-01 2020-08-14 阿里巴巴集团控股有限公司 一种数据处理方法和装置
CN110555020B (zh) * 2018-03-26 2023-04-11 阿里巴巴集团控股有限公司 一种映射关系建立、数据查询方法、装置及设备
US10983889B2 (en) * 2018-09-04 2021-04-20 Aveva Software, Llc Stream-based composition and monitoring server system and method
CN109902434B (zh) * 2019-03-18 2023-04-07 浙江工业大学 云计算环境下面向rest架构风格的服务数据可视化建模与匹配方法
CN111857789A (zh) * 2019-04-29 2020-10-30 天津五八到家科技有限公司 数据处理系统
CN112783842B (zh) * 2019-11-07 2024-03-01 北京沃东天骏信息技术有限公司 一种日志收集方法和装置
CN118012917B (zh) * 2024-04-09 2024-06-11 无码科技(杭州)有限公司 数据流处理方法、调度控制器、分布式数据流处理系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2416238A (en) * 2003-05-05 2006-01-18 Arbortext Inc System and method for defining specifications for outputting content in multiple formats
CN101256650B (zh) * 2008-03-21 2012-02-15 中国科学院软件研究所 一种基于业务实体的企业数据提取方法与系统
CN101799826B (zh) * 2010-03-04 2011-09-14 中国电子科技集团公司第二十八研究所 一种基于虚拟视图的网络化数据共享系统及方法

Also Published As

Publication number Publication date
CN102521232A (zh) 2012-06-27

Similar Documents

Publication Publication Date Title
CN102521232B (zh) 一种互联网元数据的分布式采集处理系统及方法
Sevilla Ruiz et al. Inferring versioned schemas from NoSQL databases and its applications
CN102930059B (zh) 一种聚焦爬虫的设计方法
CN101488151B (zh) 一种聚合Web站点内容的系统和方法
CN105243159A (zh) 一种基于可视化脚本编辑器的分布式网络爬虫系统
CN102184184B (zh) 一种网页动态信息获取方法
CN102164186B (zh) 一种实现云搜索服务的方法及系统
CN104077402B (zh) 数据处理方法和数据处理系统
CN102760058B (zh) 面向大规模协作开发的海量软件项目共享方法
CN103927314B (zh) 一种数据批量处理的方法和装置
CN103428076A (zh) 向多类型终端或应用发送信息的方法和装置
CN101344881A (zh) 海量文件型数据的索引生成方法及装置和搜索系统
CN102193798B (zh) 基于Internet的OpenAPI自动获取方法
CN101441629A (zh) 一种非结构化网页信息的自动采集方法
CN106776693A (zh) 一种网站数据采集方法及装置
CN102117331B (zh) 视频搜索方法及系统
CN103810272A (zh) 一种数据处理方法和系统
CN103744987A (zh) 基于dom树匹配的视频网站媒资聚合方法和系统
CN101763432A (zh) 一种轻量级网页动态视图快速构建方法
US20190146954A1 (en) Hierarchical seedlists for application data
CN105574037B (zh) 一种信息处理方法及装置
US20150178300A1 (en) Methods for converting an xml artifact into a topic map instance and devices thereof
CN109614535B (zh) 一种基于Scrapy框架的网络数据的采集方法及装置
Ma et al. A simple scheme for bibliography acquisition using DOI content negotiation proxy
CN102486731A (zh) 增强软件的软件调用栈的可视化的方法、设备和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20151203

Address after: 100088, Beijing, Haidian District, Huayuan Road No. 4 Tong Heng building, room B07

Patentee after: UT Sidakang (China) Co., Ltd.

Address before: 310053 six and 368 Road, hi tech Development Zone, Zhejiang, Binjiang, Hangzhou

Patentee before: UT Starcom Communication Co., Ltd.

TR01 Transfer of patent right

Effective date of registration: 20190107

Address after: 518000 Lenovo Building, No. 016, Gaoxin Nantong, Yuehai Street, Nanshan District, Shenzhen City, Guangdong Province, on the east side of the third floor

Patentee after: Excellent network Co., Ltd.

Address before: Room B07, Tongheng Building, 4 Garden Road, Haidian District, Beijing 100088

Patentee before: UT Sidakang (China) Co., Ltd.

TR01 Transfer of patent right