CN102521232B

CN102521232B - 一种互联网元数据的分布式采集处理系统及方法

Info

Publication number: CN102521232B
Application number: CN201110351493.XA
Authority: CN
Inventors: 杨细强; 万超; 付文敬
Original assignee: UTStarcom Telecom Co Ltd
Current assignee: Excellent network Co., Ltd.
Priority date: 2011-11-09
Filing date: 2011-11-09
Publication date: 2014-05-07
Anticipated expiration: 2031-11-09
Also published as: CN102521232A

Abstract

本发明涉及一种互联网元数据的分布式采集处理系统及方法，该系统包括配置管理图形用户接口模块、元数据采集组件模块和元数据输出模块，配置管理图形用户接口模块：采集分布式组件参数配置，元数据采集和输入日志查看；元数据采集组件模块：读取各业务应用系统的元数据采集配置，周期性地创建并分布式执行采集任务调度程序、生成各业务应用系统的所需要的元数据可扩展标记语言文件；元数据输出模块：负责将元数据可扩展标记语言文件输出给各业务应用系统。本发明有益的效果是:为互联网的元数据采集提供了通用、开放式的分布式组件和服务，为进一步实现互联网电视的站内精准搜索、内容聚合型应用的垂直搜索提供统一规范的数据源。

Description

一种互联网元数据的分布式采集处理系统及方法

技术领域

本发明涉及分布式系统领域，主要是一种互联网元数据的分布式采集处理系统及方法。

背景技术

随着三网融合的推行，越来越多的互联网应用被“搬”到了电视上。可以预见，随着互联网电视应用的爆炸式增长，用户个性化需求的日益深入，互联网信息会高度聚合经二次开发成为互联网电视上的增值应用，另外，互联网电视的操作方便性不及PC电脑和手机、

互联网电视的界面内容容量也不及PC，这些因素都潜在地要求互联网电视上的实现更精准的站内搜索，而当前互联网上最流行的基于全文检索的搜索技术实现显然无法满足互联网电视领域的客观需求。另一方面，随着软件商业销售方式的演化，软件提供商正从原先的系统和产品提供商向平台服务提供商演化，IPTV也必然会从单纯的TV业务平台向面向服务的支撑平台演化，相应地，软件构架技术将从原先的面向产品向面向服务发展，软件即服务SaaS(Software as a Service)成为互联网领域最重要的技术构架方式。

目前IPTV对元数据的处理不够通用和开放，已有实现无法重用到互联网电视平台的站内精准搜索、互联网电视增值业务应用等领域。本发明以SaaS为构架、以分布式计算为技术基础，为互联网海量元数据采集和处理提供通用的、开放式的分布式组件和服务。

发明内容

本发明的目的是为互联网电视业务支撑平台实现一种统一的、通用的、开放式的互联网元数据的分布式采集处理系统及方法，本发明能同时为多个互联网业务应用的互联网元数据采集和处理提供支撑服务，从而大大降低内容聚合型互联网应用的开发难度，缩短其开发周期、降低其部署和运营成本。

本发明解决其技术问题采用的技术方案：本发明提供了一种互联网元数据的分布式采集处理方法，该方法的具体步骤为：

(1)各业务应用系统通过互联网分布式元数据采集系统的配置管理模块配置提交元数据采集需求；

(2)互联网分布式元数据采集系统的元数据采集组件模块周期性地创建和执行页面采集任务调度程序(采集job)、生成的元数据可扩展标记语言(XML)文件；

A读取各业务应用系统的元数据采集配置，归并各业务应用系统的元数据采集需求信息的输入元数据来源站点URL列表(Site URL List)和输出元数据映射(Meta Data Mapping)；

B以输入元数据来源站点URL列表(Site URL List)为入口，创建并执行抓取任务调度程序(抓取job)，进行映射化简(Map Reduce)分布式处理，从因特网/企业内部网(Internet/Intranet网)上抓取html页面内容、并结合元数据映射(Meta Data Mapping)过滤出有用的元数据源页面；

C对元数据源页面进行映射化简(Map Reduce)分布式处理，根据元数据映射(Meta Data Mapping)以及各业务应用系统的定义的元数据XSD结构定义，即Meta Data XML Schema Define，生成目标元数据可扩展标记语言(XML)文件；

(3)互联网分布式元数据采集系统的元数据输出模块将元数据采集组件生成的元数据可扩展标记语言(XML)文件输出给各业务应用系统。

更进一步的，所述业务应用系统元数据采集配置包括以下三个方面：

(1)元数据来源站点URL列表(Site URL List)：定义业务应用系统的元数据将从哪些web站点去抓取；

(2)元数据XSD：定义业务应用系统的元数据的可扩展标记语言(XML)结构；

(3)元数据映射：具体定义业务应用系统的元数据将从哪些URL的html源页面上提取、html源页面字段与目标元数据可扩展标记语言XML字段之间的xpath(一种用于在XML文档中进行导航的语言)对应关系。

更进一步的，在步骤B中抓取流程为：以元数据来源站点URL列表(Site URL List)为初始入口、结合抓取历史记录(Fetch History)，生成第一等级(level 1)的抓取列表(fetch list)，然后在各分布式节点上创建并执行第一等级(level 1)的抓取任务(task)：根据抓取列表里的URL逐个抓取html页面，计算html页面内容的MD5值，在抓取历史中查找此URL的记录并比对MD5值：

A)若上次成功抓取过URL且MD5值与上次相同，则更新抓取历史记录(Fetch History)、延长此URL的抓取周期，然后直接进入下一URL的抓取处理；

B)若未成功抓取过URL或是MD5值与上次不同，则需要完成以下三步后再进入下一URL的抓取处理：

B1)若当前抓取等级(fetch level)小于系统的最大抓取等级(max fetch level)，则需解析出此html里的超链接link；

B2)如果当前URL与元数据映射中的元数据映射单元(MetadataMappingUnit)的统一资源定位符前缀(URLPrefix)属性匹配，则将此URL及html页面内容放入元数据源(Meta Data Source)中；

B3)追加/更新抓取历史(Fetch History)记录，包括以下信息：URL，抓取等级(fetch level)，最近抓取状态，最近抓取时间，抓取周期，下次抓取时间＝最近抓取时间+抓取周期；

第一等级(level 1)的抓取任务(task)完成后，抓取任务(task)将返回解析html所得的超链列表(html link list)，抓取任务调度程序(抓取job)将根据超链列表(html link list)、结合抓取历史记录(FetchHistory)形成第二等级(level 2)的抓取列表(fetch list)，创建并执行下一个等级(next level)的抓取任务调度程序(抓取job)，依此迭代，直到达到系统指定的最大抓取等级(max level)才结束本轮抓取。

更进一步的，所述步骤C包括如下步骤：

1)从元数据源(Metadata Source)获取一html页面内容，将html格式化为可扩展标记语言格式(xml)，根据xpath来读取指定节点值；

2)根据页面的URL在元数据映射定义(Metadata Mapping)中查找对应的元数据映射单元(MetadataMappingUnit)，对每个匹配的元数据映射单元(MetadataMappingUnit)做如下步骤3)至步骤6)处理：

3)根据元数据映射单元(MetadataMappingUnit)的每一顶的源xpath(itemSourceXpath)值，对源html页面按xpath中获取到一个节点列表(Node列表)；

4)结合业务应用系统的元数据可扩展标记语言XML结构定义元数据XSD(Metadata XSD)，将步骤3)得到的节点列表(Node列表)中的每一列转换为一个元数据XML对象；

5)根据元数据映射单元(MetadataMappingUnit)的字段映射(FieldMappings)定义，为元数据XML对象的各字段赋值：如果指定了期望关联的页面url地址(relevantPageURLExp)，则根据期望关联的页面url地址(relevantPageURLExp)得出相关页面URL并抓取相关页面；根据期望的源xpath(sourceXpathExp)从源页面或源页面的相关页面中得到xpath所对应的节点值；如果指定了期望的值格式化(valueFormatExp)，则进一步对得到的节点值进行格式化处理；将节点值赋给目标xpath(targetXpath)所指定的元数据可扩展标记语言对象(XML对象)的对应字段上；

6)将元数据可扩展标记语言对象(XML对象)序列化为可扩展标记语言(XML)文件并按应用程序唯一编码applD分目录存储；

7)从元数据源(Metadata Source)中删除此html页面；

8)重复步骤1)至步骤7，直至元数据源(Metadata Source)为空。

本发明所述的这种互联网元数据的分布式采集处理系统，该系统包括配置管理图形用户接口(GUI)模块、元数据采集组件模块和元数据输出模块，其中，

配置管理图形用户接口(GUI)模块：为业务应用系统的元数据采集配置提供图形用户接口(GUI)界面，采集分布式组件参数配置，元数据采集和输入日志查看；

元数据采集组件模块：元数据采集的分布式组件，读取各业务应用系统的元数据采集配置，周期性地创建并分布式执行采集任务调度程序、生成各业务应用系统的所需要的元数据可扩展标记语言(XML)文件；

元数据输出模块：负责将元数据可扩展标记语言(XML)文件输出给各业务应用系统。

本发明有益的效果是：为互联网的元数据采集提供了通用、开放式的分布式组件和服务，通过实现通用的海量元数据的采集组件和系统，为进一步实现互联网电视的站内精准搜索、内容聚合型应用的垂直搜索提供统一规范的数据源。

附图说明

图1为本发明互联网分布式元数据采集系统的基本模块结构图；

图2为本发明互联网分布式元数据采集组件的基本流程原理图；

图3为本发明互联网分布式元数据采集组件的页面抓取流程图；

图4为本发明互联网分布式元数据采集组件的元数据XML生成流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合举例，对本发明进行进一步详细说明。应当理解，此处所描述的举例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，为本发明互联网分布式元数据采集系统的基本模块结构图，本实施例包括以下模块和步骤：

步骤1：各业务应用系统通过互联网分布式元数据采集系统的配置管理(GUI)模块配置提交元数据采集需求；

业务应用系统元数据采集配置主要包括以下三个方面：

●元数据来源站点URL列表(Site URL List)：定义业务应用系统的元数据将从哪些web站点去抓取；

●元数据XSD(Metadata XML Schema Define)：定义业务应用系统的元数据的XML结构；

●元数据映射(Meta data Mapping)：具体定义业务应用系统的元数据将从哪些url的html源页面上提取、html源页面字段与目标元数据XML字段之间的xpath对应关系：

元数据映射(Meta data Mapping)以XML方式定义，其XSD(XML Schema Define)如下：

可以定义1至多个映射单元(MetadataMappingUnit)，映射单元决定了从web站点抓取到的哪些页面将成为元数据源(Metadata Source)：url与映射单元(MetadataMappingUnit)的urlPrefix字段值匹配的html页面被转换为业务应用系统的元数据XML文件，而映射单元(MetadataMappingUnit)的元数据项(Metadataltem)则描述了html页面转换为元数据XML文件的具体规则：

根据每一项的源Xpath(itemSourceXpath)从html源页面获取到元数据节点列表(Node List)，该列表中的每一项将对应生成一个元数据XML，元数据XML的字段值则是在一至多个字段映射(FieldMappings)中具体定义：targetXpath表示元数据目标字段；relevantPageUrlExp若指定此项，表示此元数据目标字段值不是来源于当前html、而是来源于一个与当前html页面相关的html页面；sourceXpathExp：表示此元数据目标字段值是根据这里指定的xpath表达式去获取，如果指定了relevantPageUrlExp，则xpath是相关页面的xpath，若未指定relevantPageUrlExp，则xpath是当前页面的xpath、如果是相对xpath，则是相对于itemSourceXpath的；valueFormatExp则是定义了如何对值进行格式化处理。总之，元数据源html页面与元数据目标XML可以是多对多的映射关系：一个元数据源html页面可以生成一或多个元数据XML文件，一个元数据XML的字段值也可以来源于一个以上的html页面。

另外，业务应用系统元数据采集配置也包括配置元数据XM L文件输出给业务应用系统的方式：SOAP或FTP。

步骤2：互联网分布式元数据采集系统的元数据采集组件模块周期性地创建和执行页面采集的任务调度程序(job)、元数据XML生成job；

具体流程设计见下面关于图2的说明；

步骤3：互联网分布式元数据采集系统的元数据输出模块将元数据采集组件生成的元数据XML文件输出给各业务应用系统；

输出模块将按应用系统指定的方式：SOAP或FTP，逐个或是打包发送给业务应用系统。

如图2所示，为本发明互联网分布式元数据采集组件的基本流程原理图，本实施例包括以下步骤：

步骤1：读取各业务应用系统的元数据采集配置，归并各业务应用系统的元数据采集配置信息的输入(Site URL List)和输出(Meta Data Mapping)；

不同业务应用系统可能对同一Site的页面有抓取需求，归并输入可以最大程度地减少元数据采集组件对同一Site的页面请求次数；

归并输出可以对元数据源页面进行集中的解析和转换处理，有效提升元数据采集系统的吞吐率；

步骤2：以元数据来源站点URL列表(Site URL List)为初始入口，创建并执行抓取任务调度程序(抓取job)，进行映射化简(Map Reduce)分布式处理，从Internet/Intranet网上抓取html页面内容、并结合元数据映射(Meta Data Mapping)定义过滤出有用的元数据源页面；

元数据采集分布式组件周期性地创建并执行抓取job，如图3所示，元数据采集组件的抓取流程为：以元数据来源站点URL列表(Site URL List)为初始入口、结合抓取历史记录(Fetch History)，生成第一等级(level 1)的抓取列表(fetch list)，然后在各分布式节点上创建并执行第一等级(level 1)的抓取任务(task)：

根据抓取列表(fetch list)里的url逐个抓取html页面，计算html页面内容的MD5值，在抓取历史记录(Fetch History)中查找此url的记录并比对MD5值：

A)若上次成功抓取过url且MD5值与上次相同，则更新抓取历史Fetch History、延长此url的抓取周期，然后直接进入下一url的抓取处理；

B1)若当前抓取等级(fetch level)小于系统最大抓取等级(max fetch level)，则需解析出此html里的超链接(link)；

B2)如果当前url与元数据映射(Metadata Mapping)中的元数据映射单元(MetadataMappingUnit)的urlPrefix属性匹配，则将此url及html页面内容放入元数据源(Meta Data Source)中；

B3)追加/更新抓取历史(Fetch History)记录，包括以下信息：url，抓取等级(fetch level)，最近抓取状态，最近抓取时间，抓取周期，下次抓取时间＝(最近抓取时间+抓取周期)；

步骤3：创建元数据生成job，对元数据源(Metadata Source)进行映射化简(Map Reduce)分布式处理，根据元数据映射定义(Meta Data Mapping)以及各业务应用系统的定义的元数据XML定义XSD(MetaData XML Schema Define)生成目标元数据XML文件。

如图4所示，元数据生成步骤为：

1)从元数据源(Metadata Source)获取一html页面内容，将html格式化为可扩展标记语言格式(xml)，以方便根据xpath来读取指定节点值；

7)从元数据源(Metadata Source)中删除此html页面；

8)重复步骤1)至步骤7，直至元数据源(Metadata Source)为空。

该发明为元数据的采集提供了通用的、海量数据的分布式处理方法，为IPTV、互联网电视平台实现站内搜索提供统一格式的元数据，为第三方开发内容聚合型互联网电视增值应用提供了必要的支撑服务，从而降低第三方开发互联网增值应用的门槛和难度、缩短其开发周期。

术语解释：

SaaS 软件即服务或软件运营

URL 统一资源定位符

Site URL List 元数据来源站点URL列表

Meta Data Mapping 元数据映射

Map Reduce 映射化简

Internet/Intranet 因特网/企业内部网

Xml 可扩展标记语言

XSD 全称XML Schemas Definition(xml结构定义)

Meta Data XML Schema Define 元数据xml结构定义

Xpath 一种用于在XML文档中进行导航的语言

Fetch History 抓取历史

fetch list 抓取列表

task 抓取任务

level 1 抓取第一等级

MD5 消息摘要算法第五版

fetch level 抓取等级

max fetch level 最大抓取等级

link 超链接

MetadataMappingUnit 元数据映射单元

urlPrefix 统一资源定位符前缀

Meta Data Source 元数据源

html link list 超链列表

抓取job 抓取任务调度程序

next level 下一个等级

Metadata Mapping 数据映射定义

itemSourceXpath 每一项的源xpath

Node 列表节点列表

Metadata XSD 元数据xsd

FieldMappings 字段映射

relevantPageUrlExp 期望关联的页面url地址

sourceXpathExp 期望的源xpath

valueFormatExp 期望的值格式化

targetXpath 目标xpath

applD 应用程序唯一编码

GUI 图形用户接口

采集job 采集的任务调度程序

Metadataltem 元数据项

Node List 节点列表

SOAP 简单对象访问协议

FTP 文件传输协议

可以理解的是，对本领域技术人员来说，对本发明的技术方案及发明构思加以等同替换或改变都应属于本发明所附的权利要求的保护范围。

Claims

1.一种互联网元数据的分布式采集处理方法，其特征是：该方法的具体步骤为：

（1）各业务应用系统通过互联网分布式元数据采集系统的配置管理模块配置提交元数据采集需求；

（2）互联网分布式元数据采集系统的元数据采集组件模块周期性地创建和执行页面采集任务调度程序、生成元数据可扩展标记语言文件；

A读取各业务应用系统的元数据采集配置，归并各业务应用系统的元数据采集需求信息的输入元数据来源站点URL列表和输出元数据映射；

B以输入元数据来源站点URL列表为入口，创建并执行抓取任务调度程序，进行映射化简分布式处理，从因特网/企业内部网上抓取html页面内容、并结合元数据映射过滤出有用的元数据源页面；

C对元数据源页面进行映射化简分布式处理，根据元数据映射以及各业务应用系统的定义的元数据结构定义，生成目标元数据可扩展标记语言文件；

（3）互联网分布式元数据采集系统的元数据输出模块将元数据采集组件生成元数据可扩展标记语言文件输出给各业务应用系统。

2.根据权利要求1所述的互联网元数据的分布式采集处理方法，其特征是：所述业务应用系统元数据采集配置包括以下三个方面：

（1）元数据来源站点URL列表：定义业务应用系统的元数据将从哪些web站点去抓取；

（2）元数据结构定义：定义业务应用系统的元数据的可扩展标记语言结构；

（3）元数据映射：具体定义业务应用系统的元数据将从哪些URL的html源页面上提取、html源页面字段与目标元数据可扩展标记语言字段之间的xpath对应关系。

3.根据权利要求1所述的互联网元数据的分布式采集处理方法，其特征是：在步骤B中抓取流程为：以元数据来源站点URL列表为初始入口、结合抓取历史记录，生成第一等级的抓取列表，然后在各分布式节点上创建并执行第一等级的抓取任务：根据抓取列表里的URL逐个抓取html页面，计算html页面内容的MD5值，在抓取历史中查找此URL的记录并比对MD5值：

A)若上次成功抓取过URL且MD5值与上次相同，则更新抓取历史记录、延长此URL的抓取周期，然后直接进入下一URL的抓取处理；

B1)若当前抓取等级小于系统的最大抓取等级，则需解析出此html里的超链接；

B2)如果当前URL与元数据映射中的元数据映射单元的统一资源定位符前缀属性匹配，则将此URL及html页面内容放入元数据源中；

B3)追加/更新抓取历史记录，包括以下信息：URL,抓取等级，最近抓取状态，最近抓取时间，抓取周期，下次抓取时间=最近抓取时间+抓取周期；

第一等级的抓取任务完成后，抓取任务将返回解析html所得的超链列表，抓取任务调度程序j将根据超链列表、结合抓取历史记录形成第二等级的抓取列表，创建并执行下一个等级的抓取任务调度程序，依此迭代，直到达到系统指定的最大抓取等级才结束本轮抓取。

4.根据权利要求1所述的互联网元数据的分布式采集处理方法，其特征是：所述步骤C包括如下步骤：

1）从元数据源获取一html页面内容，将html格式化为可扩展标记语言格式，根据xpath来读取指定节点值；

2）根据页面的URL在元数据映射定义中查找对应的元数据映射单元，对每个匹配的元数据映射单元做如下步骤3）至步骤6）处理：

3)根据元数据映射单元的每一项的源xpath值,对源html页面按xpath获取到一个节点列表；

4）结合业务应用系统的元数据可扩展标记语言结构定义元数据XSD，将步骤3）得到的节点列表中的每一列转换为一个元数据可扩展标记语言对象；

5)根据元数据映射单元的字段映射定义，为元数据可扩展标记语言对象的各字段赋值：如果指定了期望关联的页面url地址，则根据期望关联的页面url地址得出相关页面URL并抓取相关页面；根据期望的源xpath从源页面或源页面的相关页面中得到xpath所对应的节点值；如果指定了期望的值格式化，则进一步对得到的节点值进行格式化处理；将节点值赋给目标xpath所指定的元数据可扩展标记语言对象的对应字段上；

6）将元数据可扩展标记语言对象序列化为可扩展标记语言文件并按应用程序唯一编码分目录存储；

7）从元数据源中删除此html页面；

8）重复步骤1）至步骤7），直至元数据源为空。

5.一种采用如权利要求1所述互联网元数据的分布式采集处理方法的系统，其特征是：该系统包括配置管理图形用户接口模块、元数据采集组件模块和元数据输出模块，其中，

配置管理图形用户接口模块：为业务应用系统的元数据采集配置提供图形用户接口界面，采集分布式组件参数配置，元数据采集和输入日志查看；

元数据采集组件模块：元数据采集的分布式组件，读取各业务应用系统的元数据采集配置，周期性地创建并分布式执行采集任务调度程序、生成各业务应用系统的所需要的元数据可扩展标记语言文件；

元数据输出模块：负责将元数据可扩展标记语言文件输出给各业务应用系统。