一种基于Web的网络信息资源整合方法
技术领域
本发明涉及软件技术领域。更具体地,本发明涉及一种基于Web的网络信息资源整合方法。
背景技术
随着Web2.0的到来,网络信息资源数量急剧增加。面对这些大量的、分布的、异构的资源,用户往往需要花费更多的时间获取有用信息。虽然现有技术已日臻完善,但是仍无法很好地满足用户的需求。
Mashup是一种资源整合技术,它通过从网络中检索到的数据内容创建新的服务,将来自不同网络资源的内容进行重组,进而生成方便用户的资源集成界面。但是,如何管理信息集成结果,如何实现多数据源的Web相关应用数据的关联问题等问题仍需解决。
RSS也是一种资源整合技术。用户可以在RSS聚合站点或RSS阅读器中有针对性地订阅自己感兴趣的信息源。然而在处理大量的、繁杂的、冗余的网络信息时,RSS订阅器会要求用户重复接收相似信息。另外,用户必须安装RSS阅读器或登陆规定站点才可以使用服务。同时,用户在选择订阅内容时,必须是整个板块的所有信息,可操控性也不高。
因此,基于Web的异构网络信息资源的整合方法尚待提升,使访问不同数据源信息的过程更加智能化,进而可以满足用户快速、精确地访问资源的需求。
发明内容
本发明目的在于提供基于web的网络信息资源整合方法,将大量在结构和语义上存在差异的网络信息资源基于用户的需求进行不断细分,进而,重新整合。
具体的技术方案如下:
一种基于web的网络信息资源整合方法,包括以下步骤:
将异构网络信息资源统一为标准XML数据源;
将所述标准XML数据源进行第一层划分获得第一次划分结果,对该第一次划分结果进行第二层细分获得细分资源块;
根据相关度对用户所需细分资源块进行排序;
对排序后的所述用户所需细分资源块进行整合形成整合资源块并生成集成页面。
所述将所述标准XML数据源进行第一层划分获得第一次划分结果,对该第一次划分结果进行第二层细分获得细分资源块进一步包括以下步骤:
根据访问行为将所述标准XML数据源划分为网络资讯类、电子商务类、即时通信类、资讯共享类和其他类,保存为所述第一次划分结果;
将所述第一次划分结果按照URL前缀细分法、基于内容细分法、基于主题细分法或基于服务细分法获得所述细分资源块。
所述根据相关度对用户所需细分资源块进行排序还包括以下子步骤:
计算所述用户所需细分资源块的相关系数,进一步包括:
(1)根据下列公式计算权值W(xij,az),
其中,(x
i,i=1,……K)表示第i个关键标准,K为该细分资源块a
z中的关键标准的总个数,(x
ij,j=1,……N)表示第i个关键标准中的第j个影响因素,N为该细分资源块a
z中的影响因素总个数,a
z(z=1,……,z为整数)表示第z个细分资源块;W(x
ij,a
z)表示所述影响因素在所述细分资源块a
z中的权值,
表示影响因素x
ij在所述关键标准x
i中所占的权重,F(x
ij,a
z)表示所述影响因素x
ij在所述细分资源块a
z中出现的频次,IEF(x
ij)是所述影响因素x
ij的反比元素频率,N
i为关键标准x
i的影响因素在细分资源块a
z中出现的个数;
(2)根据下列公式计算关键标准xi的权重值W(xi),
所述权重值W(xi)为关键标准xi在影响所述相关度时所占的权重;
(3)按照下列公式计算两个细分资源块的相关系数RXY,
其中,X为一个细分资源块中k个关键标准权重值的集合,Y为另一个细分资源块中k个关键标准权重值的集合。
根据相关度对用户所需细分资源块进行排序还包括以下子步骤:
按照所述相关系数RXY的大小判定所述两个细分资源块之间的相关度强弱并排序。
所述将所述标准XML数据源进行第一层划分获得第一次划分结果,对该第一次划分结果进行第二层细分获得细分资源块进一步包括:
对所述细分资源块配置XSL模板。
所述对排序后的所述用户所需细分资源块进行整合形成整合资源块并生成集成页面进一步包括:
对所述标准化XML集成模块配置集成的所述XSL模板。
所述将所述标准XML数据源进行第一层划分获得第一次划分结果,对该第一次划分结果进行第二层细分获得细分资源块进一步包括:
为所述细分资源块定义关键词;以及,
所述根据相关度对用户所需细分资源块进行排序进一步包括根据所述关键词检索出所述用户所需细分资源块。
本发明具有如下技术效果:
(1)相较于同一领域相关技术,本发明能够整合基于Web,并在结构和语义上存在较大差异的网络信息资源,这在一定程度上打破了一般在线RSS聚合器的格式限制,拓宽了网络信息资源整合的范围;
(2)基于模块化管理的思想,将已标准化的网络信息资源通过第一层划分、第二层细分,最终形成能够直接满足用户需求的细分资源块。相较于其他管理整合资源的方法,本发明能够精准定位用户需求,并可以根据需求的变化,将整合结果进行适时调整。本发明的方法使得资源的管理过程更为简单、灵活;
(3)本发明采用两层分类方法细化网络信息资源,这样避免了依据传统的单一因素细分方法带来的不完整、不适应和不规范。
附图说明
下面将参照附图并结合实施例对本发明进行具体说明。
图1为本发明方法流程图。
具体实施方式
下面参照附图并借助本发明的实施例,对本发明的技术方案做详细描述。
本发明基于Web的网络信息资源整合方法的包括以下步骤:
步骤S1、服务器将利用网络爬虫技术获取到的在结构上存在差异的网络信息资源,按照相应的转换方式,将这些在结构上具有差异的网络信息资源统一成一种标准XML数据源,并存储到本地。该标准XML数据源的表现形式举例如下:
所述XML数据源的含义是:用于标记子文件使其具有结构性的标记语言,可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。所述将结构上具有差异的网络信息资源(简称异构资源)按照相应的转换方式,统一成一种标准XML数据源是指:根据网络中存在的各类型的资源,如数据库资源,Web Service资源,XML资源以及RSS资源分别按照各自的方式进行转换,最终形成标准XML文件用于存储原来资源中所包含的数据信息。具体的转换方式如下:
对异构资源中数据库资源的标准化处理方法:JSP通过建立与数据库的连接从而将数据库中的资源提取形成webpage,然后通过webpage转化成标准XML数据源,其中数据库资源的描述信息包括如数据来源、数据库地址、数据库名等。对于数据库资源使用数据库表构成的描述信息还可以包括如表名、列名等属性。服务器将数据库资源的所述描述信息分别对应保存到标准XML文件中的数据来源、数据库地址、数据库名、表名、列名等属性中,然后将数据库数据转换为标准的XML文件。具体实施示例如下:
<ModuleType>数据库资源</ModuleType>//数据标识
<Keyword>出版社</Keyword>//关键词
<DataResource>远程连接</DataResource>//数据来源
<DataType>SQL Server2000</DataType>//数据类型
<Address>211.71.68.69</Address>//数据库地址
<Database>书籍资料//数据库名
<Table>作者</Table>
<Column>作者姓名</Column>
<Column>书籍名称</Column>
……
<Table>出版</Table>
<Column>出版日期</Column>
<Column>书籍名称</Column>
……
</Database>
对异构资源中Web Service资源的标准化处理方法:根据下述转化方式,通过建立Web Service提供的API接口的信息与标准化的XML之间的转换关系,将属性与语义进行一对一的转化,从而将接口的信息形成标准化XML文件,属于现有技术。实施方式即通过传递给服务器XML文件的地址路径(path)、该web service的url、一个命名空间(targetnamespace)和传递的参数值,然后调用webservicevisitor类,之后通过调用该web service来返回需要的信息。具体实施示例如下:
<Module Type>Web Service资源</Module Type>//数据标识
<Keyword>查询IP所在城市</Keyword>//关键词
<Url>http://ip.vsafe.net/FunWs.asmx</Url>//Url信息
<Parameter>218.249.50.179</Parameter>//参数
<Result>北京</Result>//结果
….…
对异构资源中XML资源的标准化处理方法:以一种统一标准格式解析异构资源中存在的不同类型的XML文件,将标准XML文件格式与XML资源的对应属性关联,形成XML标准数据。比如通过采用基于XMLSchema的模式映射转换方法,以一种统一标准格式解析该XML文件,形成XML标准数据,保存到XML文件(即标准XML数据源)中。具体实施示例如下:
<Module Type>XML资源</Module Type>
<Keyword>news.bjtu.cn</Keyword>
<Resource>news.xml</Resource>
<Attribute>News1</Attribute>
<Value>我校召开基本标准检查总结会</Value>
……
对异构资源中RSS资源的标准化处理方法:由于RSS资源本身即标准的XML文件,将各种网络资源的信息以XML格式保存,用户定制RSS资源时,服务器将RSS资源的地址及RssFeed地址保存到标准XML文件中的<RSSAddress>和<RSSFeed>中。显示数据模块时将RssFeed中的网页链接、标题、摘要等解析到XML文件,以XML文件的方式读取,显示数据。。具体实施示例如下:
<Module Type>RSS资源</Module Type>
<Keyword>finance.sina.com.cn</Keyword>
<RSSAddress>http://finance.sina.com.cn/nongye/nyhgjj/20121207/013913924647.shtml</RSS Address>
<RSS Feed>中央1号文件或聚焦农业经营体制:不鼓励企业租地</RSSFeed>
……
步骤S2、根据访问行为,本发明将所述标准XML数据源进行第一层划分,可以分为五类网络信息资源作为第一次划分结果;
基于所述第一层划分结果,结合相对应的网络信息资源细分方法,将各类网络信息资源进行第二层细分,形成更详细的细分资源块。
本发明优选采用配置XSL模板的方式管理所述细分资源块。XSL文件用于抓取网页上的特定数据,这样的方式能够将网页上的几乎所有数据都能够准确快速地获得。在本步骤中,XSL模板主要是用来获取细分资源块(XML文件的形式)所包含的数据信息,有助于步骤S4整合标准化XML集成模块的页面显示。更重要的是,通过XSL文件可以自由选取所述标准XML数据源里的信息进行组合,可以满足用户适时调整的整合需求,其具体实施方式和有益效果将在步骤S4中予以详细说明。这里举一个XSL文件的实例:
步骤S2所述的基于访问行为的第一层划分,是本发明基于强调用户针对现有的主流网络信息资源具有的不同的访问动机和访问习惯将其分为了网络资讯类、电子商务类、即时通信类、资源共享类和其他类,具体说明见表1:
表1
基于第一层划分结果将各类网络信息资源进行第二层细分,是本发明结合各类网络信息资源的用户行为特征和资源本身具有的特征提出的URL前缀细分法、基于内容细分法、基于主题细分法和基于服务细分法这四种第二层细分方法。第一层划分中的所述五类网络资源可以按照例如表2与第二层细分中的四种细分法对应:
表2
其中URL前缀细分法的特征是利用URL前缀的不同来对信息量大的网络信息资源进行细分,比如网络资讯类。统一资源定位符URL能够唯一的表示一个Web网页,URL的格式可以简单表示为:主机名+路径名+文件名,本发明将主机名定义为URL前缀,而将具有相同URL前缀的网络信息资源细分为一个细分资源块,并用相对应的URL前缀作为唯一定义该细分资源块的“关键词”,对于用户而言,同一细分资源块所包含信息属于同一类别,例如:
URL为http://sports.sohu.com/20121203/n.shtmll和URL为http://sports.sohu.com/399007.shtml#0的两个地址,具有相同的URL前缀,虽然两者所代表的网页内容不同,但是对用户而言均属搜狐网关于体育方面的信息,所以将其作为一个细分资源块,定义其关键词为“sports.sohu.com”。这样可以方便用户按照其需求利用关键词进行检索。
如果采用根据网络信息资源所包含的主题、内容或服务三种方法细分资源块,同样的选用唯一的“关键词”作为检索辨识。
步骤S3、根据所述关键词检索出能够满足用户整合所需的细分资源块,并通过计算用户所需细分资源块相关系数,获得该用户所需细分资源块的相关度判定结果从而按照该相关度排序。
步骤S3中,所述相关系数的模型,具体如下:
一个细分资源块有K个元素作为判定相关度的关键标准,则可用(xi,i=1,……K)来表示每一个关键标准,每个关键标准有N个影响因素,则可用(xij,j=1,……N)来表示每一个影响因素。关键标准和影响因素将在说明书末尾的具体实施例中予以说明。
(1)计算影响因素xij在某一个细分资源块az(z=1,……,z为整数)中的权值W(xij,az),权值W(xij,az)表示影响因素xij对关键标准xi的影响程度。
其中,
表示影响因素x
ij在关键标准x
i中所占的权重,F(x
ij,a
z)表示影响因素x
ij在细分资源块a
z中出现频次,IEF(x
ij)是影响因素x
ij的反比元素频率,即影响关键标准x
i的所有影响因素在整个影响因素集合中所占的比重。N为在细分资源块a
z中出现的影响因素的总个数,N
i为影响关键标准x
i的影响因素在细分资源块a
z中出现的个数。
(2)计算关键标准xi的权重值W(xi),权重值W(xi)为关键标准xi在影响相关性时所占的权重。
(3)计算两个细分资源块a1、a2相关性,X为细分资源块a1中k个关键标准权重值的集合,Y为细分资源块a2中k个关键标准权重值的集合,RXY为细分资源块a1、a2的相关系数。
按照所述相关系数RXY的大小判定所述两个细分资源块之间的相关度强弱并排序。其中,RXY的取值范围[0,1],RXY趋近于0说明两个细分资源块之间的相关度越低,RXY趋近于1说明两个细分资源块之间的相关度越高。对于一个具体的RXY值,一般地,本发明将两个细分资源块的相关度分为以下几种情况:RXY≥0.8时,视为高度相关;0.8>RXY≥0.5时,视为中度相关;0.5>RXY≥0.3时,视为低度相关;0.3>RXY≥0时,视为弱相关,即不相关。
步骤S4、根据一种自定义的规则比如按照相关度高低的原则,由高到低对这些排序后的各个所述细分资源块进行整合形成一个标准化XML集成模块。整合后的所述标准化XML集成模块包括数据域部分即为各所述细分资源块中的数据域部分之和,以及各细分资源块的标识信息即ModuleID节点中的内容。然后,对该标准化XML集成模块配置模板,以实现准确、快速获取整合资源块的信息的目的,最后,返回整合后结果并生成集成页面。这里所配置的模板其实是指由能够抓取这些细分资源快的多个XSL文件的集成,理论上是以“CSS文件”的形式存在的,其目的就是抓取能够集成整个满足用户需求的界面的数据。
下面是一个标准化XML集成模块例子的具体表现形式:当已知三个细分资源块的相关度高低时,作如下整合:
<Module ID>0001</Module ID>//第二个细分资源块标识信息
<Module Type>XML资源</Module Type><Keyword>news.bjtu.cn</Keyword>
<Resource>news.xml<Resource>
<Attribute>News1</Attribute>
<Value>我校召开基本标准检查总结会</Value>
<Module End>模块结束</Module End>
<Module ID>0002</Module ID>//第二个细分资源块标识信息
<Module Type>RSS资源</Module Type><Keyword>finance.sina.com</Keyword>
<RSSAddress>http://finance.sina.com.cn/nongye/nyhgjj/20121207/013913924647.shtml</RSS Address>
<RSS Feed>中央1号文件或聚焦农业经营体制:不鼓励企业租地</RSSFeed>
<Module End>模块结束</Module End>
<Module ID>0003</Module ID>//第三个细分资源块标识信息
<Module Type>数据库资源</Module Type><Keyword>library.bjtu</Keyword>
<Address>211.71.66.42</Address>
<Table>书籍信息</Table>
<Column>书籍名称</Column>
<Column>出版日期</Column>
<Module End>模块结束</Module End>
实施例
下面以一个简单的例子对步骤S3和S4进一步解释说明:
首先,选择了三个会影响不同资源模块相关度的关键标准:“结构、内容、标识”。
其次,针对这三个关键标准,选择能够对其产生影响的影响因素(其中每一个关键标准都选择两个影响因素),具体见下表:
表示影响因素x
ij在关键标准x
i中所占的权重,比如:“链接(href)”这个影响因素对“结构”这个关键标准的影响权重为0.24,而能够影响关键标准“结构”的所有影响因素的权重和为“1”。其中,
值是使用者根据自身的要求确定的。
本实施例选择了新浪新闻、腾讯新闻、人人网和腾讯微博的资源模块来作为实例说明。
统计各影响因素在这些细分资源块中的出现频次,因为资源是实时更新的,在本实施例中考察的是平均频次:
|
链接(href) |
图片(Img) |
人名 |
地名 |
“评论” |
“时间” |
新浪新闻 |
2070 |
212 |
197 |
159 |
17 |
39 |
腾讯新闻 |
1521 |
149 |
152 |
242 |
10 |
30 |
人人网 |
507 |
166 |
64 |
26 |
125 |
133 |
腾讯微博 |
405 |
35 |
6 |
16 |
47 |
58 |
根据以下两个公式:
计算结果如表:
根据上面这个公式,我们最终可以得到以下的结果:
|
RXY |
结论 |
新浪新闻,腾讯新闻 |
0.94927 |
高度相关 |
腾讯新闻,人人网 |
0.234466 |
弱相关 |
人人网,腾讯微博 |
0.532778 |
中度相关 |
人人网,新浪新闻 |
0.447349 |
低度相关 |
依据相关度进行整合:腾讯新闻+新浪新闻+腾讯微博+人人网
整合后的标准XML集成模块如下所示:
<Module ID>0001</Module ID> /--细分资源块1开始--/
<Module Type>XML资源</Module Type>
<Keyword>news.qq</Keyword> /--腾讯新闻--/
<Resource>http://news.qq.com/</Resource>
<Attribute>Entry1</Attribute>
<Value>全国新增2例H7N9禽流感病例1人死亡</Value>
<Attribute>Entry2</Attribute>
<Value>江苏卫生厅:板蓝根冲剂可预防H7N9禽流感</Value>
<Module End>0001</Module End> /--细分资源块1结束--/
<Module ID>0002</Module ID> /--细分资源块2开始--/
<Module Type>XML资源</Module Type>
<Keyword>news.sina</Keyword> /--新浪新闻--/
<Resource>http://news.sina.com.cn/</Resource>
<Attribute>Entry1</Attribute>
<Value>上海新增1例人感染H7N9禽流感死亡病例</Value>
<Attribute>Entry2</Attribute>
<Value>世卫组织:H7N9已发生变异易于感染人体</Value>
<Module End>0002</Module End> /--细分资源块2结束--/
<Module ID>0003</Module ID> /--细分资源块3开始--/
<Module Type>数据库资源</Module Type>
<Keyword>weibo.qq</Keyword> /--腾讯微博--/
<DataResource>http://t.qq.com</DataResource>
<Attribute>Entry1</Attribute>
<Value>走过青春的文字转播</Value>
<Attribute>Entry2</Attribute>
<Value>微博星座运势</Value>
<Module End>0003</Module End> /--细分资源块3结束--/
<Module ID>0004</Module ID> /--细分资源块4开始--/
<Module Type>XML资源</Module Type>
<Keyword>renren</Keyword> /--人人网--/
<Resource>http://www.renren.com</Resource>
<Attribute>Entry1</Attribute>
<Value>恋上古诗词</Value>
<Attribute>Entry2</Attribute>
<Value>考研周计划</Value>
<Module End>0004</Module End> /--细分资源块4结束--/
由上述例子可以看出,对于语义上也有差异的网络信息资源,通过相关度的度量,实现异构网络信息资源整合的同时,在独立的细分资源块间也能够建立一定的语义上的关联。
关于模板,由于步骤S2中配置了XSL模板,当用户需要调整整合需求,比如,当用户需求发生局部变化,本发明只需要在原标准化XML集成模块和相应的XSL模板中,进行移除无用资源、纳入有用资源等局部修改操作,即可。这样的操作既简单快捷,又不会导致原标准化XML集成模块中的其他细分资源块出错。
比如,在xml阅读器(一种工具)中打开新浪新闻,腾讯新闻,人人网,腾讯微博等较为原始的xml数据源(用S1步骤转化过来的XML文件),然后我们在这些xml文件中根据用户需求来选择有用信息(即获得有用信息在该xml文件中所在位置的节点信息,比如:当要获取“新鲜事”这个有用信息时,需要取得“人人网”所属的XML数据源文件中“新鲜事”所在位置的节点信息)。
最后把获得的节点信息写入对应的XSL模板(一个XML数据源对应一个XSL模板),而当用户整合需求发生改变时(如用户不想再订阅人人的信息),我们只需要对XSL模板里的信息进行改写(即把关于人人网信息的节点信息从XSL文件里删去),即实现了重新的整合。
应当理解,以上借助优选实施例对本发明的技术方案进行的详细说明是示意性的而非限制性的。本领域的普通技术人员在阅读本发明说明书的基础上可以对各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。本发明的保护范围仅由随附权利要求书限定。