CN101291304B - 可移植的网络信息共享方法 - Google Patents
可移植的网络信息共享方法 Download PDFInfo
- Publication number
- CN101291304B CN101291304B CN2008101149145A CN200810114914A CN101291304B CN 101291304 B CN101291304 B CN 101291304B CN 2008101149145 A CN2008101149145 A CN 2008101149145A CN 200810114914 A CN200810114914 A CN 200810114914A CN 101291304 B CN101291304 B CN 101291304B
- Authority
- CN
- China
- Prior art keywords
- information
- webpage
- service
- sharing
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 190
- 238000004458 analytical method Methods 0.000 claims abstract description 87
- 230000015572 biosynthetic process Effects 0.000 claims description 89
- 230000008569 process Effects 0.000 claims description 52
- 241000270322 Lepidosauria Species 0.000 claims description 44
- 238000000605 extraction Methods 0.000 claims description 32
- 230000008878 coupling Effects 0.000 claims description 30
- 238000010168 coupling process Methods 0.000 claims description 30
- 238000005859 coupling reaction Methods 0.000 claims description 30
- 230000008521 reorganization Effects 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 20
- 238000013475 authorization Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 19
- 230000011218 segmentation Effects 0.000 claims description 19
- 241000239290 Araneae Species 0.000 claims description 17
- 238000004891 communication Methods 0.000 abstract description 9
- 230000008901 benefit Effects 0.000 abstract description 3
- 238000012795 verification Methods 0.000 abstract description 2
- 238000007726 management method Methods 0.000 description 60
- 238000010586 diagram Methods 0.000 description 10
- 244000097202 Rathbunia alamosensis Species 0.000 description 7
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 7
- 230000001413 cellular effect Effects 0.000 description 6
- 230000001360 synchronised effect Effects 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000006116 polymerization reaction Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 241000408659 Darpa Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002224 dissection Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 102000057593 human F8 Human genes 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 229940047431 recombinate Drugs 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
可移植的网络信息共享方法,属于信息共享技术领域。该方法包括共享信息获取方法;共享信息解析方法;共享信息同步及发布方法。本发明提供两种共享信息获取方法;两种共享信息解析方法和3种共享信息同步及发布方法。本发明还提供一种可移植的网络信息共享结构,该结构共享信息获取服务器通过共享信息获取方法从原始内容服务器有选择性地获取信息;将它们进行解析、按格式存储;共享信息镜像服务器从共享信息解析服务器获取共享信息为终端用户提供服务。本发明能够将互联网上的共享信息自由移植并同步至其它通信系统,为终端用户提供一跳获取的便捷、实时信息服务。方法及结构经实验验证取得良好的效果。所述方法、结构及模式被命名为4ANet。
Description
技术领域
本发明涉及一种可将互联网上的共享信息自由移植并同步至其它通信系统(如计算机局域网、手机蜂窝无线通信系统等)的共享方法与网络结构,属于信息共享技术领域。
背景技术
互联网作为典型的复杂系统,其发展至今,为实现综合业务传送,各种技术和产品层出不穷,网络研究项目越来越多,网络研究者队伍日益壮大。但是,从目前的网络主流业务及其发展趋势特别是国家主导的网络信息共享发展要求来看,以全局对称IP结构为基础的面向下一代网络的多种研究项目,超前于我国经济欠发达、民主政治与文化素质发展不均衡的国情。未来五到十年,为了承载用户规模达到数亿甚至十数亿的共享信息业务,需要研究新的共享信息网络结构。
自1969年美国Darpa发明互联网以来,用户需求和网络行为发生了巨大变化。一方面,人们看到,网络通信与业务量向着多样化、多媒体化、宽带化、移动化、融合化、个性化、智能化、社区化等多种形式发展;另一方面,近几年来共享信息业务激增。根据网络流量的实验测量数据,HTTP、P2P等形式的具有明显信息共享特点的业务已经占据了95%的网络流量。这些网络业务的特点是,同样内容的信息在网络上成千上万次地重复传输(有学者称之为“无功流量”),因而占据了网络带宽,造成巨大的浪费,成为网络公害。因此,减少甚至根本消除网络的“无功”传输,是解决网络信息共享问题的一个关键。
简而言之,互联网应用已经从初期的信息交换,向信息共享转变,而且越来越加剧。而因为当前IP网络承载共享信息存在的问题,网络出现了新的需求——共享信息网络服务。
现有的网络信息共享应用大致有以下七大类:
1、P2P
P2P是一种以非集中方式使用分布式资源来完成关键任务的一类系统和应用。它使用现存的基础设施,削减和分布成本;使用低成本交互来聚合资源,并允许对等端自治控制其数据和资源,具有巨大的扩展力。
但是在P2P极大地提高了互联网终端用户的信息获取速度的同时,它的文件共享也产生了目前因特网最大的单项流量,并且是同样内容的信息在网络上成千上万次地重复传输,给网络带来了明显的拥堵,给网络运营商带来了更大的麻烦,也反过来作用于终端用户自身。
2、IPTV
IPTV借助互联网开放性、客户自主选择性,提供DTV不能提供的互动和点播服务,提供质量优于DTV的信息服务,也发挥了互联网无所不在的优势。
但是IPTV对于整个网络信息共享的服务而言,只实现了其中音视频部分的内容,并且也受其编码、传输方式等因素制约,很难扩展至HTTP等方向的信息共享。
3、Multicast Network
互联网的传播主要有单播、多播和广播、点对点、一对多等方式。其中单播是强项,但传输效率太低;广播不是IP技术的优势,并且不能跨越网段:大量无用的数据包会降低网络的可靠性,会被大多数设备隔离;多播(即Multicast Network)允许在网段之间传播且不被隔离,但需要改造网络,将提高成本、降低通达性。目前因各种原因,可靠的多播也尚未在大规模网络上实现。
4、DTN
DTN即Delay Tolerant Networks,它的主要思想是通过将共享信息存储于移动介质(如DVD光盘等),以高速公路代替信息网络通道,用传统交通工具将存储共享信息的DVD光盘等送至需要此信息的地方,以达到信息共享的目的。
这种模式虽然基本上实现了信息共享的需求,但是由它的传输模式可明显看出,它的信息延迟是比较大的,对于某些实时的信息需求,这种延迟甚至是不能容忍的。
5、IPv6和新一代网络产业
IPv6是当前的另一个研究热点,它需要在现有的基础上改造互联网,对IP协议实施从IPv4到IPv6升级,并引入复杂的网络管理与控制、开发支撑软件。IPv6对于信息共享方面,与“光纤到户”相配合,在新的协议下,将光纤敷设到家庭,实现共享信息的高速传输。此工程因为遍布全国各个角落,所以工程量巨大,成本也很高,并可能造成带宽浪费、信息冗余等问题。
6、RSS
RSS(Really Simple Syndication),是一种用于共享新闻标题与Web内容的XML格式标准,同时也是在互联网上被广泛采用的内容包装和投递协议。网络用户可以在客户端借助于支持RSS的新闻聚合工具软件,在不打开网站内容页面的情况下阅读支持RSS输出的网站内容。
但是根据目前的RSS传输协议,RSS输出的内容是不包含该信息的全部完整内容的,而在内容正文部分只有其“摘要”。对于大多数情况,终端用户仍然需要使用能连接互联网的计算机逐个远程获取。
7、BLOG/ BLOGGER
Blog是一种新兴的信息共享方式。它通常是一个由简短且经常更新的帖子Post所构成的网页,这些张贴的文章按照日期倒序排列。Blog的内容主要是对其他网站的链接、评论、个人日记、照片、诗歌、散文、小说等;也可以是一群人基于某个特定主题或共同利益领域的集体创作、讨论。
由Blog本身就决定了这种方式是一种个性化的信息共享方式,不能传输全面的、大部分用户都共同需要的网络信息;并且同样需要终端用户使用能连接互联网的计算机远程获取。
针对这些现有的网络信息共享应用的特点及其不足之处,本发明给出了一种新的网络信息共享的共享方法、体系结构及其服务模式,它能将互联网上的共享信息自由移植并同步至其它通信系统(如计算机局域网、手机蜂窝无线通信系统等),为终端用户提供一跳获取的便捷、实时信息服务。
在现有的专利中,与本发明最为接近的是“互联网信息共享系统及其信息共享方法”,公开号:CN1374603,专利申请人:刘莎。它的主要内容是:建立包括不同语言版本文件摘要信息通用模板、文件摘要信息统一代码数据库、文本语义标注通用模板和摘要、文本信息的统一语义代码多语转换浏览器的信息共享系统,并嵌入国际互联网系统中;用户利用不同语言版本文件摘要信息通用模板,对任意数据文件进行摘要信息输入、存储与检索,在统一语义代码多语转换浏览器上,实现共享信息浏览,和进一步访问存储于用户指定地址中的非文摘信息存储服务器。此专利虽然也是针对网络信息共享,但它所专注的点与本发明完全不一致。
发明内容
根据实验测量结果,并基于网络研究学术界关于“小世界”相关理论的共同认识,本发明认为,大多数网民访问的是少数的网站。为了更有效地利用网络带宽,在本发明中所提到的网络共享信息均指来源于这些多数人访问的主流互联网站点上的内容资源,但不仅仅是这些网站上的网页资源,还包括其它诸如视频、音乐等形式的多媒体资源等。应当特别注明的是,这些“主流互联网站点”并不是固定不变的,而是视情况发展以及实际需要可以随时增加、删除、或修改的。
可移植的网络信息共享方法,其特征在于,该方法包括:
(1)共享信息获取方法;
(2)共享信息解析方法;
(3)共享信息同步及发布方法。
所述共享信息获取方法为以下两种方法中的任意一种:
(1)共享信息获取方法按以下步骤进行:
1)设定信息来源
设定信息来源为来自聚合频道;
对于内容丰富的综合性门户网站,设定信息来源为来自聚合频道,使用RSS获取的方法来完成对此类网站信息的获取;
2)设置基本参数
将该网站RSS聚合频道首页设为爬虫爬行的基地址;
3)网页获取预处理
采用多线程方式,每个线程从队列中取出一个链接进行处理或利用“正则表达式”实现链接信息的提取;
为了避免对网页内容的重复获取,对于那些已经保存在本地的网页资源,都将其链接地址记录在数据库中,在每次从队列里得到一个新的链接地址时,需要首先查询该地址是否已被记录在数据库中,如果已有记录则不再处理此链接;
4)网页获取过程
启用内置的RSS阅读器,该阅读器会根据步骤1)中的设置加载对应网站的RSS频道列表,得到了符合RSS规范的XML文件之后,将其中指示网页来源的链接信息提取出来并保存;
在更新完所有的RSS频道之后,得到了一个包含若干网页链接地址的队列(queue),这些网页就是需要的有“实质”内容的网页,之后利用网页爬虫程序,依次处理该队列中的链接信息,获取该链接指向的网页内容,保存至本地。或,
(2)共享信息获取方法按以下步骤进行:
1)设定信息来源
设定信息来源为非来自聚合频道;
将该网站的首页或特定的索引页设为爬虫爬行的基地址;
在设定的过程中,强制验证该地址的有效性,并设法获取该网站的字符编码类型,如果不能得到,则手动设置编码类型;
2)设置基本参数
将该网站RSS聚合频道首页设为爬虫爬行的基地址;
3)网页获取预处理
采用多线程方式,每个线程从队列中取出一个链接进行处理或利用“正则表达式”实现链接信息的提取;
为了避免对网页内容的重复获取,对于那些已经保存在本地的网页资源,都将其链接地址记录在数据库中,在每次从队列里得到一个新的链接地址时,需要首先查询该地址是否已被记录在数据库中,如果已有记录则不再处理此链接;
4)网页获取过程
向服务器发起请求,获取基地址网页,扫描网页,将其中的链接信息加入一个队列中;
之后从队列中取出一个链接,获取该网页,扫描网页,将其中的链接信息加入队列,判断当前网页是否是所需的,如果符合条件,则将该网页保存至本地。
所述共享信息解析方法为以下两种方法中的任意一种:
(1)共享信息解析方法按以下步骤进行:
1)获取“共享信息获取服务器”上的数据
网页解析程序与网页获取程序共同访问服务器上网页数据的存储目录,前者从该目录中读取后者自动获取后储存的网页文件;
2)获取数据仓库存储规则及系统管理员设置的解析规则
由约定好的数据仓库存储规则得到网页文件的源获取站点名称、原始URL地址以及获取时间;
根据此源站点名称,读取服务器中由系统管理员设置的网页解析规则中的相应条目,得到用于实际解析的算法;
3)分析源网页站点类型
由源站点名称分析源网页站点类型;
4)执行解析规则并存储结果
针对常见的、较少数的网站,使用人工逐个编辑相应站点的正则匹配表达式来生成实际用于解析的算法,此正则匹配表达式包含预处理表达式、主内容匹配表达式、格式化数据结构表达式、后期处理表达式;
5)解析结果后期处理
将上一步得到的结果其中的内容数据按照中文规则进行分词处理,并对结果进行实、虚词划分进一步处理之后,按照各词在内容中出现的位置、频率进行权重分配,生成关键字/词并按重要性排序;
根据上一步获得的关键词,读取服务器中由系统管理员设置的网页分类规则,计算本目标网页所属的分类名称及其代码;
6)解析结果界面显示
对于“单页面模式”,将以上结果显示于解析程序界面,并在当前的浏览网页中直接高亮标出;对于“多页面模式”,则遍历网页数据的存储目录,对未解析过的网页重复进行上述解析操作,并在用户授权的条件下,将解析后的数据按既定格式逐条上传至服务器,支持服务器前端发布程序的实时更新。或,
(2)共享信息解析方法按以下步骤进行:
1)获取“共享信息获取服务器”上的数据
网页解析程序与网页获取程序共同访问服务器上网页数据的存储目录,前者从该目录中读取后者自动获取后储存的网页文件;
2)获取数据仓库存储规则及系统管理员设置的解析规则
由约定好的数据仓库存储规则得到网页文件的源获取站点名称、原始URL地址以及获取时间;
根据此源站点名称,读取服务器中由系统管理员设置的网页解析规则中的相应条目,得到用于实际解析的算法;
3)分析源网页站点类型
由源站点名称分析源网页站点类型;
4)执行解析规则并存储结果,其步骤为:
第一步:将原有的网页的HTML格式强制转化为更为规范的XML格式;
第二步:对XML文件进行预处理,除去<scrip>、<style>元素;
第三步:通过网页属性读取此网页的标题,并进行分词;
第四步:遍历XML文件,记录超链接元素,同时选择可能属于网页正文的结点,记录该结点路径;
第五步:统计候选正文结点路径,选择出现次数最多的路径作为最终正文结点路径;
第六步:根据正文结点路径选择正文部分;
第七步:对已获取的正文部分进行分词,统计词频;
第八步:根据管理员的设置,进行正文的局部词频加权,产生此网页的关键词;
5)解析结果后期处理
将上一步得到的结果其中的内容数据按照中文规则进行分词处理,并对结果进行实、虚词划分进一步处理之后,按照各词在内容中出现的位置、频率进行权重分配,生成关键字/词并按重要性排序;
根据上一步获得的关键词,读取服务器中由系统管理员设置的网页分类规则,计算本目标网页所属的分类名称及其代码;
6)解析结果界面显示
对于“单页面模式”,将以上结果显示于解析程序界面,并在当前的浏览网页中直接高亮标出;对于“多页面模式”,则遍历网页数据的存储目录,对未解析过的网页重复进行上述解析操作,并在用户授权的条件下,将解析后的数据按既定格式逐条上传至服务器,支持服务器前端发布程序的实时更新。
所述共享信息同步及发布方法为以下三种方法中的任意一种:
(1)共享信息同步及发布方法按以下步骤进行:
第一步:信息收集程序获取信息源站点列表配置,输出原始信息资源库;
第二步:网页解析程序读取原始信息资源库以及解析规则配置,输出已解析的信息资源数据库;
第三步:主服务器启动WEB或WAP服务,包含后台管理、信息资源重组程序、信息检索服务程序、信息浏览服务、信息上载服务、用户定制服务模块;
第四步:管理员通过后台管理服务,作用于用户与管理信息资源数据库;
第五步:主服务信息资源重组程序和信息检索服务程序分别读取已解析的信息资源数据库和用户与管理信息资源数据库,为用户提供信息共享服务;
第六步:最终用户通过终端浏览器使用主服务器的WEB或WAP服务,获取所需的共享信息,同时也同样作用于用户与管理信息资源数据库。或,
(2)共享信息同步及发布方法按以下步骤进行:
第一步:共享信息主数据仓库将数据定时同步至共享信息镜像数据仓库;
第二步:小站服务运行服务器启动WEB或WAP服务,包含小站后台管理、小站信息资源重组程序、小站信息检索服务程序、小站信息浏览服务、小站信息上载服务、小站用户定制服务模块;
第三步:小站管理员通过后台管理服务,作用于小站信息资源数据库;
第四步:小站信息资源重组程序和信息检索服务程序分别读取小站信息资源数据库和共享信息镜像数据仓库,为用户提供信息共享服务;
第五步:小站服务最终用户通过终端浏览器使用小站WEB或WAP服务,获取所需的共享信息,同时也同样作用于小站信息资源数据库。或,
(3)共享信息同步及发布方法按以下步骤进行:
第一步:共享信息主数据仓库将数据定时同步至共享信息镜像数据仓库;
第二步:超级终端运行服务器启动自身WEB服务,包含超级用户个人配置、超级终端自身服务信息资源重组程序、超级终端自身服务信息检索服务程序、超级终端自身服务信息浏览服务、超级用户定制服务模块;
第三步:信息检索服务程序和信息浏览服务读取共享信息镜像数据仓库,为超级用户提供信息共享服务。
本发明还提供一种可移植的网络信息共享结构,该结构包括原始内容服务器、共享信息获取服务器、共享信息解析服务器、共享信息镜像服务器;
“共享信息获取服务器”通过所述“共享信息获取方法”从“原始内容服务器”有选择性地获取信息;“共享信息解析服务器”从“共享信息获取服务器”获取信息后,通过“共享信息解析方法”将它们进行解析后按特定格式规范进行存储;“共享信息镜像服务器”从“共享信息解析服务器”通过所述“共享信息同步方法”获取共享信息;同时,将此共享信息加上地域性的附加信息,为终端用户提供服务。
为了避开当前互联网的网络拥堵,本发明提出为这些网络共享信息专门搭建一个推送通道,作为现有网络的辅助传输通道,建立一种新的共享网络结构,名称为:非对称网络信息共享结构。本发明所指的这种可移植的网络信息共享方法便基于此结构。图1是非对称网络信息共享原理结构示意图。其中,1-共享信息来源网站,2-原始信息资源仓库,3-共享信息主数据仓库,4-共享信息发布服务器(“小站”),5-用户终端,6-超级用户终端,7-共享信息获取方法,8-共享信息解析方法,9-共享信息数据同步方法,10-面向普通用户的共享信息发布方法,11-面向超级用户的共享信息发布方法。如图1所示,通过使用共享信息获取方法(7),从共享信息来源网站(1)获取源网页等数据,储存于原始信息资源仓库(2);再通过共享信息解析方法(8)对这些原始信息数据进行解析处理,得到共享信息的主数据仓库(3);接着通过使用共享信息数据同步方法(9),将此共享信息的主数据仓库同步到共享信息发布服务器(“小站”)(4),或者通过面向超级用户的共享信息发布方法(11),直接同步到同时兼具了“小站”和用户终端功能的超级用户终端(6);在“小站”端,用户终端(5)便可通过面向普通用户的共享信息发布方法(10)直接获取所需要的共享信息。以上述的非对称网络信息共享结构为基础,下面叙述本发明技术方案的原理。不失代表性地,以下的原理说明以主流互联网站点上的网页资源为例,而暂不涉及音、视频等内容。
一、首先是网页获取方法。下面按照获取的过程介绍本发明的网页获取技术方案原理。
依据网站的特点,将网页信息来源分为两大类:
1、来自聚合频道(RSS)
对于新浪、搜狐等内容丰富的综合性门户网站,若按照传统的爬虫(SPIDER)算法爬取该网站的内容,则有很多资源(时间、程序运行开销)会浪费在大量“无用”的网页上——这里所说的“无用”,是指索引页(index.html)等没有详细正文部分内容的网页。目前这种综合性的门户网站基本上都提供了RSS内容输出,所以可使用RSS获取的方法来完成对此类网站信息的获取。
2、来自网站
对于中国政府网、中国新闻网等网站,网页较为纯净,网站的结构设计也比较规范,容易从网页的链接地址中判断出该网页是否是我们所需的有实质内容的网页。对于此类网页,就采用一般的爬虫算法进行网页信息的获取。
针对以上两大类的网页信息来源站点,网页获取步骤如下:
1、设定信息来源
对于1类的网站,将该网站RSS聚合频道首页设为爬虫爬行的基地址;对于2类的网站,将该网站的首页或特定的索引页设为爬虫爬行的基地址。在设定的过程中,会强制验证该地址的有效性,并设法获取该网站的字符编码类型,如果不能得到,可以手动设置编码类型。
2、设置基本参数
主要包括镜像网页的存放地址,爬行任务信息的存放地址,网页类型的过滤,网页来源的限制,可以使用的线程数等。
为了能够及时的获取网页信息,根据不同网站的特点设置不同的更新时间,定期对该网站的内容进行获取。
3、网页获取过程
(1)对于1类的网站,启用内置的RSS阅读器,该阅读器会根据1中的设置加载对应网站的RSS频道列表。与普通的RSS阅读器类似,通过更新频道列表可以得到各频道提供的内容输出(xml文件)。不同之处在于,在得到了符合RSS规范的XML文件之后,需要进行一次简单的解析,即将其中指示网页来源的链接信息(link元素)提取出来并保存。
在更新完所有的RSS频道之后,我们就得到了一个包含若干网页链接地址的队列(queue),并且可以肯定的是,这些网页基本上就是我们需要的有“实质”内容的网页。之后利用网页爬虫程序中的部分算法,依次处理该队列中的链接信息,获取该链接指向的网页内容,保存至本地。
(2)对于2类的网站,按照一般的爬虫算法进行爬取:向服务器发起请求,获取基地址网页,扫描网页,将其中的链接信息加入一个队列中。之后从队列中取出一个链接,获取该网页,扫描网页,将其中的链接信息加入队列,判断当前网页是否是所需的(例如对于中国政府网,只有链接地址中含有“content”字符串的网页才是所需的,并可结合2中的设置对文件类型进行进一步的过滤),如果符合条件,则将该网页保存至本地。
在上述网页信息的获取过程中,未被处理过的网页地址保存在队列中。为了提高信息获取的速度,采用多线程方式,每个线程从队列中取出一个链接进行处理。为了更加快速、有效的对网页进行扫描,可利用“正则表达式”实现链接信息的提取。例如在一篇新闻报道的网页中,在其正文部分往往会有与该新闻相关的图片信息,但就网页整体而言,一般还会有其它与新闻内容无关的图片内容(如网站的logo图片,其它热点新闻、相关内容的图片,图片广告等),这些内容对于我们的信息获取来说都属于干扰因素。因此对于某一特定网站,通过分析其新闻网页的设计格式,可以归纳出用于匹配正文部分的正则表达式,在提取该网页中的链接信息之前,先用该正则表达式匹配出网页的正文部分,然后再提取其中的链接信息,这样基本可以保证下载下来的图片信息是与内容相关的,有效的减少了处理链接的数目,提高了所获取内容的“纯净度”。
为了避免对网页内容的重复获取,对于那些已经保存在本地的网页资源,都将其链接地址记录在数据库中。这样,在每次从队列里得到一个新的链接地址时,需要首先查询该地址是否已被记录在数据库中,如果已有记录则不再处理此链接,避免不必要的开销。
二、其次是网页解析方法。下面按照网页解析模块的工作步骤介绍其方案原理。
第一步:网页解析程序与网页获取程序共同访问服务器上网页数据的存储目录,前者从该目录中读取后者自动获取后储存的网页文件;
第二步:由约定好的数据仓库存储规则得到任一网页文件的源获取站点名称、原始URL地址以及获取时间;
第三步:根据此源站点名称,读取服务器中由系统管理员设置的网页解析规则中的相应条目,得到用于实际解析的算法;
第四步:网页解析程序使用此解析算法从目标网页中解析得到所需要的网页“有效”内容数据,包括标题、作者、发布时间、正文全文及图片等;
第五步:对此“有效”内容数据按照中文规则进行分词处理,并对结果进行实、虚词划分等进一步处理之后,按照各词在内容中出现的位置、频率进行权重分配,生成关键字(词)并按重要性排序;
第六步:根据上一步获得的关键词,读取服务器中由系统管理员设置的网页分类规则,计算本目标网页所属的分类名称及其代码;
第七步:对于“单页面模式”,将以上结果显示于解析程序界面,并在当前的浏览网页中直接高亮标出;对于“多页面模式”,则遍历网页数据的存储目录,对未解析过的网页重复进行上述解析操作,并在用户授权的条件下,将解析后的数据按既定格式逐条上传至服务器,支持服务器前端发布程序(如:网站)的实时更新。
上述解析方法的第三步中所得到的用于实际解析的算法又可分为两种,根据其特点分为针对两种源网页数据:
第一类是常见的、较少数的网站,使用人工逐个编辑相应站点的正则匹配表达式来生成实际用于解析的算法。此正则匹配表达式包含预处理表达式、主内容匹配表达式、格式化数据结构表达式、后期处理表达式等子表达式。
第二类是除第一类之外的所有其它站点,即无法自动使用第一类中的算法解析的站点。这种情况下,使用的解析方法步骤为:
1)将原有的网页的HTML格式强制转化为更为规范的XML格式;
2)对XML文件进行预处理,除去<scrip>、<style>等元素;
3)通过网页属性读取此网页的标题,并进行分词;
4)遍历XML文件,添加必要的元素属性,记录超链接元素,同时选择可能属于网页正文的结点,记录该结点路径;
5)统计候选正文结点路径,选择出现次数最多的路径作为最终正文结点路径;
6)根据正文结点路径选择正文部分;
7)对已获取的正文部分进行分词,统计词频;
8)根据管理员的设置,进行正文的局部词频加权,产生此网页的关键词。
三、在使用上述共享信息获取方法(7)、共享信息解析方法(8)之后,已经得到了共享信息主数据仓库(3),下面叙述本发明的共享信息发布方法。
下面以主服务器基于WEB直接发布(图2)和信息小站基于WEB/WAP发布(图3)这两大类为例说明本发明的共享信息发布方法。
对于第一类(主服务器基于WEB直接发布),不需要使用共享信息数据库的镜像传输、同步等方法,直接以WEB的形式提供给终端用户以及系统管理员:用户获取所需的共享信息;系统管理员系统管理维护包括共享信息数据库管理以及上文所述获取与解析方法的配置等。
对于第二类(信息小站基于WEB/WAP发布),则需要使用共享信息的发布方法。它可以按照发布方式分为基于WEB发布和基于WAP发布。前者是在例如计算机局域网中,建立非对称网络信息共享结构的信息小站上,在“小站”上开放WEB访问服务,作为提供给用户获取共享信息的接口;后者是基于手机蜂窝无线通信系统,在距离用户最近的手机基站或计算机上开放WAP访问服务,作为提供给移动终端用户获取共享信息的接口。
另一方面,按照面向用户的不同,第二类(信息小站基于WEB/WAP发布)又可以分为面向普通用户的共享信息发布方法(10)和面向超级用户的共享信息发布方法(11)。这两个方法的区别在于:前者是面向较多的密集型的用户,例如计算机局域网用户或蜂窝无线通信系统中同一个基站服务范围内的手机用户;后者则终端自身具有较强的数据存储和计算能力,只为自己提供信息共享服务。而这两个方法的共同点有:第一、使用传统的互联网镜像同步的方法,将共享信息主数据仓库(3)直接定时同步至共享信息发布服务器(“小站”)(4)中的小站信息资源数据库(32)或超级用户终端(6)中类似的小站信息资源数据库。第二、信息获取时可以通过小站或超级用户终端自身提供的WEB服务,也可以通过WAP服务。
应当特别指出的是,除上述两种共享方法分别所用的两种发布方式外,超级用户终端(包含计算机等有线用户和手机等无线用户)读取自身共享信息数据库的信息共享方式,也属于本发明范畴。
本发明的发布方法具体划分又分为按发布来源、终端类型、面向用户3种划分方式:
●按发布来源划分:
■主服务器直接发布
■基于信息小站发布
●按终端类型划分:
■WEB方式,面向计算机等有线终端
■WAP方式,面向手机等无线终端
●按面向用户划分:
■普通用户
■超级终端
例举三种典型的发布方式来进行介绍。
方式一:主服务器直接发布
参阅附图2,图2是主服务器直接发布的原理结构示意图。其中,12-主服务器(比如:www.4ANet.com),13-信息收集程序,14-网页解析程序,15-信息源站点列表配置,16-原始信息资源库,17-解析规则配置,18-用户与管理信息资源数据库,19-已解析的信息资源数据库,20-主服务器WEB/WAP服务,21-主服务器后台管理,22-主服务信息资源重组程序,23-主服务信息检索服务程序,24-主服务器信息浏览服务,25-主服务器信息上载服务,26-主服务器用户定制服务,27-主服务器管理员,28-主服务终端浏览器,29-主服务最终用户。连接关系为:主服务器(12)中包含信息源站点列表配置(15)、原始信息资源库(16)、解析规则配置(17)、信息资源数据库(18)、已解析的信息资源数据库(19)、主服务器WEB/WAP服务(20)模块,而主服务器WEB/WAP服务(20)又包含了后台管理(21)、信息资源重组程序(22)、信息检索服务程序(23)、信息浏览服务(24)、信息上载服务(25)、用户定制服务(26)模块。在这种包含关系中,被包含的模块之间不区分顺序。信息收集程序(13)从信息源站点列表配置(15)中获取数据后,经处理输出数据至原始信息资源库(16);后者和解析规则配置(17)共同为网页解析程序(14)提供数据,使其输出数据至已解析的信息资源数据库(19);后者和用户与管理信息资源数据库(18)共同为主服务信息资源重组程序(22)和信息检索服务程序(23)提供数据,以便让主服务器WEB/WAP服务(20)提供数据服务至终端浏览器(28),从而为最终用户(29)提供数据,同时也作用于用户与管理信息资源数据库(18);同时,主服务器WEB/WAP服务(20)中的后台管理(21)模块又为管理员(27)提供服务,反过来将数据提交至信息源站点列表配置(15)、解析规则配置(17)模块,也作用于用户与管理信息资源数据库(18)。
使用方法步骤为:
第一步:信息收集程序(13)获取信息源站点列表配置(15),输出原始信息资源库(16);
第二步:网页解析程序(14)读取原始信息资源库(16)以及解析规则配置(17),输出已解析的信息资源数据库(19);
第三步:主服务器(12)启动WEB或WAP服务(20),包含后台管理(21)、信息资源重组程序(22)、信息检索服务程序(23)、信息浏览服务(24)、信息上载服务(25)、用户定制服务(26)模块;
第四步:管理员(27)通过后台管理(21)服务,作用于用户与管理信息资源数据库(18);
第五步:主服务信息资源重组程序(22)和信息检索服务程序(23)分别读取已解析的信息资源数据库(19)和用户与管理信息资源数据库(18),为用户提供信息共享服务;
第六步:最终用户(29)通过终端浏览器(28)使用主服务器的WEB或WAP服务(20),获取所需的共享信息,同时也同样作用于用户与管理信息资源数据库(18);
第七步:重复反馈执行第四、五、六步,同时也不定时重复执行第一、二步。
方式二:基于信息小站发布
参阅附图3,图3是基于信息小站发布的原理结构示意图。其中,30-小站服务运行服务器,31-共享信息主数据仓库,32-小站信息资源数据库,33-共享信息镜像数据仓库,34-小站WEB/WAP服务,35-小站后台管理,36-小站信息资源重组程序,37-小站信息检索服务程序,38-小站信息浏览服务,39-小站信息上载服务,40-小站用户定制服务,41-小站管理员,42-小站服务终端浏览器,43-小站服务最终用户。连接关系为:小站服务运行服务器(30)中包含小站信息资源数据库(32)、共享信息镜像数据仓库(33)、小站WEB/WAP服务(34)模块,而小站服务运行服务器(30)又包含了小站后台管理(35)、小站信息资源重组程序(36)、小站信息检索服务程序(37)、小站信息浏览服务(38)、小站信息上载服务(39)、小站用户定制服务(40)模块。在这种包含关系中,被包含的模块之间不区分顺序。共享信息主数据仓库(31)为共享信息镜像数据仓库(33)直接提供数据,后者与小站信息资源数据库(32)共同为小站WEB/WAP服务(34)的信息检索服务程序(37)和信息浏览服务(38)提供数据,以便让小站WEB或WAP服务(34)提供数据服务至终端浏览器(42),从而为最终用户(43)提供数据,同时也作用于小站信息资源数据库(32);同时,小站WEB或WAP服务(34)中的小站后台管理(35)模块又为管理员(41)提供服务,也作用于小站信息资源数据库(32)。
使用方法步骤为:
第一步:共享信息主数据仓库(31)将数据定时同步至共享信息镜像数据仓库(33);
第二步:小站服务运行服务器(30)启动WEB或WAP服务(34),包含小站后台管理(35)、小站信息资源重组程序(36)、小站信息检索服务程序(37)、小站信息浏览服务(38)、小站信息上载服务(39)、小站用户定制服务(40)模块;
第三步:小站管理员(41)通过后台管理(35)服务,作用于小站信息资源数据库(32);
第四步:小站信息资源重组程序(36)和信息检索服务程序(37)分别读取小站信息资源数据库(32)和共享信息镜像数据仓库(33),为用户提供信息共享服务;
第五步:小站服务最终用户(43)通过终端浏览器(42)使用小站WEB或WAP服务(34),获取所需的共享信息,同时也同样作用于小站信息资源数据库(32);
第六步:重复反馈执行第三、四、五步,同时也不定时重复执行第一步。
方式三:基于超级用户终端
参阅附图4,图4是基于超级用户终端发布的原理结构示意图。其中,44-共享信息主数据仓库,45-共享信息镜像数据仓库,46-超级终端运行服务器,47-超级终端自身WEB服务,48-超级用户个人配置,49-超级终端自身服务信息资源重组程序,50-超级终端自身服务信息检索服务程序,51-超级终端自身服务信息浏览服务,52-超级用户定制服务,53-超级用户。连接关系为:超级终端运行服务器(46)中包含共享信息镜像数据仓库(45)、超级终端运行服务器(46)、超级终端自身WEB服务(47)模块,而超级终端自身WEB服务(47)又包含了超级用户个人配置(48)、超级终端自身服务信息资源重组程序(49)、超级终端自身服务信息检索服务程序(50)、超级终端自身服务信息浏览服务(51)、超级用户定制服务(52)模块。在这种包含关系中,被包含的模块之间不区分顺序。共享信息主数据仓库(44)为共享信息镜像数据仓库(45)直接提供数据,后者为超级终端自身WEB服务(47)的信息检索服务程序(49)和信息浏览服务(50)提供数据,以为超级用户(53)提供数据服务。
使用方法步骤为:
第一步:共享信息主数据仓库(44)将数据定时同步至共享信息镜像数据仓库(45);
第二步:超级终端运行服务器(46)启动自身WEB服务(47),包含超级用户个人配置(48)、超级终端自身服务信息资源重组程序(49)、超级终端自身服务信息检索服务程序(50)、超级终端自身服务信息浏览服务(51)、超级用户定制服务(52)模块;
第三步:信息检索服务程序(49)和信息浏览服务(50)读取共享信息镜像数据仓库(45),为超级用户(53)提供信息共享服务;
第四步:不定时重复执行第一步或第三步。
由上文可见,本发明所提出的这种新的网络信息共享的共享方法、体系结构及其服务模式,能够将互联网上的共享信息自由移植并同步至其它通信系统(如计算机局域网、手机蜂窝无线通信系统等),为终端用户提供一跳获取的便捷、实时信息服务。系统经实验验证,取得了良好的效果。根据本发明所述的网络信息共享的共享方法、体系结构及其服务模式,命名为4ANet(英文字母不区分大小写)。
附图说明
图1是非对称网络信息共享原理结构示意图。
图2是主服务器直接发布的原理结构示意图。
图3是基于信息小站发布的原理结构示意图。
图4是基于超级用户终端发布的原理结构示意图。
以上各图中的箭头表示信息数据流向。
图5是本发明流程图。
图6是本发明共享信息获取方法流程图。
图7是本发明共享信息解析方法流程图。
图8是本发明共享信息同步及发布方法主服务器直接发布流程图。
图9是本发明共享信息同步及发布方法基于信息小站发布流程图。
图10是本发明共享信息同步及发布方法基于超级用户终端发布流程图。
图11是一种可移植的网络信息共享结构逻辑结构示意图。
具体实施方式
下面结合附图和具体实施例介绍本发明。
图5是本发明流程图。本发明包括步骤:(1)共享信息获取方法;(2)共享信息解析方法;(3)共享信息同步及发布方法。
图6是本发明共享信息获取方法流程图。该方法包括步骤:1)设定信息来源;2)设置基本参数;3)网页获取预处理;4)网页获取过程。
图7是本发明共享信息解析方法流程图。该方法包括步骤:1)获取“共享信息获取服务器”上的数据;2)获取数据仓库存储规则及系统管理员设置的解析规则;3)分析源网页站点类型;4)执行解析规则并存储结果;5)解析结果后期处理;6)解析结果界面显示。
图8是本发明共享信息同步及发布方法主服务器直接发布流程图。该方法包括步骤:(1)信息收集程序输出原始信息资源库;(2)网页解析程序输出已解析的信息资源数据库;(3)主服务器启动WEB或WAP服务;(4)管理员通过后台管理服务,作用于用户与管理信息资源数据库;(5)主服务信息资源重组程序和信息检索服务程序分别读取已解析的信息资源数据库和用户与管理信息资源数据库;(6)最终用户通过终端浏览器使用主服务器的WEB或WAP服务,获取所需的共享信息,同时也同样作用于用户与管理信息资源数据库;及(7)重复反馈执行步骤(4)、(5)、(6),同时也随时重复执行步骤(1)、(2)。
图9是本发明共享信息同步及发布方法基于信息小站发布流程图。该方法包括步骤:(1)共享信息主数据仓库将数据定时同步至共享信息镜像数据仓库;(2)小站服务运行服务器启动WEB或WAP服务;(3)小站管理员通过后台管理服务,作用于小站信息资源数据库;(4)小站信息资源重组程序和信息检索服务程序分别读取小站信息资源数据库和共享信息镜像数据仓库,为用户提供信息共享服务;(5)小站服务最终用户通过终端浏览器使用小站WEB或WAP服务,获取所需的共享信息,同时也同样作用于小站信息资源数据库;及(6)重复反馈执行步骤(3)、(4)、(5),同时也随时重复执行步骤(1)。
图10是本发明共享信息同步及发布方法基于超级用户终端发布流程图。该方法包括步骤:(1)共享信息主数据仓库将数据定时同步至共享信息镜像数据仓库;(2)超级终端运行服务器启动自身WEB服务;(3)信息检索服务程序和信息浏览服务读取共享信息镜像数据仓库,提供信息共享服务;及(4)重复执行步骤(1)或步骤(3)。
图11是一种可移植的网络信息共享结构逻辑结构示意图。一种网络共享信息共享结构,该结构包括原始内容服务器、共享信息获取服务器、共享信息解析服务器、共享信息镜像服务器。“共享信息获取服务器”通过“共享信息获取方法”从“原始内容服务器”有选择性地获取信息。“共享信息解析服务器”从“共享信息获取服务器”获取信息后,通过“共享信息解析方法”将它们进行解析后按特定格式规范进行存储。“共享信息镜像服务器”从“共享信息解析服务器”通过“共享信息同步方法”获取共享信息;同时,将此共享信息加上地域性的附加信息,为终端用户提供服务。
实施例1:
可移植的网络信息共享方法,该方法包括:
(1)共享信息获取(A)
1)设定信息来源
设定信息来源为来自聚合频道(RSS)
对于新浪、搜狐等内容丰富的综合性门户网站,若按照传统的爬虫(SPIDER)算法爬取该网站的内容,则有很多资源(时间、程序运行开销)会浪费在大量“无用”的网页上——这里所说的“无用”,是指索引页(index.html)等没有详细正文部分内容的网页。目前这种综合性的门户网站基本上都提供了RSS内容输出,所以可使用RSS获取的方法来完成对此类网站信息的获取。
2)设置基本参数
将该网站RSS聚合频道首页设为爬虫爬行的基地址。
3)网页获取预处理
为了提高信息获取的速度,采用多线程方式,每个线程从队列中取出一个链接进行处理。为了更加快速、有效的对网页进行扫描,可利用“正则表达式”实现链接信息的提取。例如在一篇新闻报道的网页中,在其正文部分往往会有与该新闻相关的图片信息,但就网页整体而言,一般还会有其它与新闻内容无关的图片内容(如网站的logo图片,其它热点新闻、相关内容的图片,图片广告等),这些内容对于我们的信息获取来说都属于干扰因素。因此对于某一特定网站,通过分析其新闻网页的设计格式,可以归纳出用于匹配正文部分的正则表达式,在提取该网页中的链接信息之前,先用该正则表达式匹配出网页的正文部分,然后再提取其中的链接信息,这样基本可以保证下载下来的图片信息是与内容相关的,有效的减少了处理链接的数目,提高了所获取内容的“纯净度”。
为了避免对网页内容的重复获取,对于那些已经保存在本地的网页资源,都将其链接地址记录在数据库中。这样,在每次从队列里得到一个新的链接地址时,需要首先查询该地址是否已被记录在数据库中,如果已有记录则不再处理此链接,避免不必要的开销。
4)网页获取过程
启用内置的RSS阅读器,该阅读器会根据1中的设置加载对应网站的RSS频道列表。与普通的RSS阅读器类似,通过更新频道列表可以得到各频道提供的内容输出(xml文件)。不同之处在于,在得到了符合RSS规范的XML文件之后,需要进行一次简单的解析,即将其中指示网页来源的链接信息(link元素)提取出来并保存。
在更新完所有的RSS频道之后,我们就得到了一个包含若干网页链接地址的队列(queue),并且可以肯定的是,这些网页基本上就是我们需要的有“实质”内容的网页。之后利用网页爬虫程序中的部分算法,依次处理该队列中的链接信息,获取该链接指向的网页内容,保存至本地。
(2)共享信息解析(B)
1)获取“共享信息获取服务器”上的数据
网页解析程序与网页获取程序共同访问服务器上网页数据的存储目录,前者从该目录中读取后者自动获取后储存的网页文件。
2)获取数据仓库存储规则及系统管理员设置的解析规则
由约定好的数据仓库存储规则得到网页文件的源获取站点名称、原始URL地址以及获取时间;
根据此源站点名称,读取服务器中由系统管理员设置的网页解析规则中的相应条目,得到用于实际解析的算法。
3)分析源网页站点类型
由源站点名称分析源网页站点类型。
4)执行解析规则并存储结果
针对常见的、较少数的网站,使用人工逐个编辑相应站点的正则匹配表达式来生成实际用于解析的算法。此正则匹配表达式包含预处理表达式、主内容匹配表达式、格式化数据结构表达式、后期处理表达式等子表达式。
5)解析结果后期处理
对上一步得到的结果,将其中的内容数据按照中文规则进行分词处理,并对结果进行实、虚词划分等进一步处理之后,按照各词在内容中出现的位置、频率进行权重分配,生成关键字(词)并按重要性排序。
根据上一步获得的关键词,读取服务器中由系统管理员设置的网页分类规则,计算本目标网页所属的分类名称及其代码。
6)解析结果界面显示
对于“单页面模式”,将以上结果显示于解析程序界面,并在当前的浏览网页中直接高亮标出;对于“多页面模式”,则遍历网页数据的存储目录,对未解析过的网页重复进行上述解析操作,并在用户授权的条件下,将解析后的数据按既定格式逐条上传至服务器,支持服务器前端发布程序(如:网站)的实时更新。
(3)共享信息同步及发布(C)
第一步:信息收集程序(13)获取信息源站点列表配置(15),输出原始信息资源库(16);
第二步:网页解析程序(14)读取原始信息资源库(16)以及解析规则配置(17),输出已解析的信息资源数据库(19);
第三步:主服务器(12)启动WEB或WAP服务(20),包含后台管理(21)、信息资源重组程序(22)、信息检索服务程序(23)、信息浏览服务(24)、信息上载服务(25)、用户定制服务(26)模块;
第四步:管理员(27)通过后台管理(21)服务,作用于用户与管理信息资源数据库(18);
第五步:主服务信息资源重组程序(22)和信息检索服务程序(23)分别读取已解析的信息资源数据库(19)和用户与管理信息资源数据库(18),为用户提供信息共享服务;
第六步:最终用户(29)通过终端浏览器(28)使用主服务器的WEB或WAP服务(20),获取所需的共享信息,同时也同样作用于用户与管理信息资源数据库(18)。
实施例2:
可移植的网络信息共享方法,该方法包括:
(1)共享信息获取(A)
1)设定信息来源
设定信息来源为来自聚合频道(RSS)
对于新浪、搜狐等内容丰富的综合性门户网站,若按照传统的爬虫(SPIDER)算法爬取该网站的内容,则有很多资源(时间、程序运行开销)会浪费在大量“无用”的网页上——这里所说的“无用”,是指索引页(index.html)等没有详细正文部分内容的网页。目前这种综合性的门户网站基本上都提供了RSS内容输出,所以可使用RSS获取的方法来完成对此类网站信息的获取。
2)设置基本参数
将该网站RSS聚合频道首页设为爬虫爬行的基地址。
3)网页获取预处理
为了提高信息获取的速度,采用多线程方式,每个线程从队列中取出一个链接进行处理。为了更加快速、有效的对网页进行扫描,可利用“正则表达式”实现链接信息的提取。例如在一篇新闻报道的网页中,在其正文部分往往会有与该新闻相关的图片信息,但就网页整体而言,一般还会有其它与新闻内容无关的图片内容(如网站的logo图片,其它热点新闻、相关内容的图片,图片广告等),这些内容对于我们的信息获取来说都属于干扰因素。因此对于某一特定网站,通过分析其新闻网页的设计格式,可以归纳出用于匹配正文部分的正则表达式,在提取该网页中的链接信息之前,先用该正则表达式匹配出网页的正文部分,然后再提取其中的链接信息,这样基本可以保证下载下来的图片信息是与内容相关的,有效的减少了处理链接的数目,提高了所获取内容的“纯净度”。
为了避免对网页内容的重复获取,对于那些已经保存在本地的网页资源,都将其链接地址记录在数据库中。这样,在每次从队列里得到一个新的链接地址时,需要首先查询该地址是否已被记录在数据库中,如果已有记录则不再处理此链接,避免不必要的开销。
4)网页获取过程
启用内置的RSS阅读器,该阅读器会根据1中的设置加载对应网站的RSS频道列表。与普通的RSS阅读器类似,通过更新频道列表可以得到各频道提供的内容输出(xml文件)。不同之处在于,在得到了符合RSS规范的XML文件之后,需要进行一次简单的解析,即将其中指示网页来源的链接信息(link元素)提取出来并保存。
在更新完所有的RSS频道之后,我们就得到了一个包含若干网页链接地址的队列(queue),并且可以肯定的是,这些网页基本上就是我们需要的有“实质”内容的网页。之后利用网页爬虫程序中的部分算法,依次处理该队列中的链接信息,获取该链接指向的网页内容,保存至本地。
(2)共享信息解析(A)
1)获取“共享信息获取服务器”上的数据
网页解析程序与网页获取程序共同访问服务器上网页数据的存储目录,前者从该目录中读取后者自动获取后储存的网页文件。
2)获取数据仓库存储规则及系统管理员设置的解析规则
由约定好的数据仓库存储规则得到网页文件的源获取站点名称、原始URL地址以及获取时间;
根据此源站点名称,读取服务器中由系统管理员设置的网页解析规则中的相应条目,得到用于实际解析的算法。
3)分析源网页站点类型
由源站点名称分析源网页站点类型。
4)执行解析规则并存储结果
针对常见的、较少数的网站,使用人工逐个编辑相应站点的正则匹配表达式来生成实际用于解析的算法。此正则匹配表达式包含预处理表达式、主内容匹配表达式、格式化数据结构表达式、后期处理表达式等子表达式。
5)解析结果后期处理
对上一步得到的结果,将其中的内容数据按照中文规则进行分词处理,并对结果进行实、虚词划分等进一步处理之后,按照各词在内容中出现的位置、频率进行权重分配,生成关键字(词)并按重要性排序。
根据上一步获得的关键词,读取服务器中由系统管理员设置的网页分类规则,计算本目标网页所属的分类名称及其代码。
6)解析结果界面显示
对于“单页面模式”,将以上结果显示于解析程序界面,并在当前的浏览网页中直接高亮标出;对于“多页面模式”,则遍历网页数据的存储目录,对未解析过的网页重复进行上述解析操作,并在用户授权的条件下,将解析后的数据按既定格式逐条上传至服务器,支持服务器前端发布程序(如:网站)的实时更新。
(3)共享信息同步及发布(B)
第一步:共享信息主数据仓库(31)将数据定时同步至共享信息镜像数据仓库(33);
第二步:小站服务运行服务器(30)启动WEB或WAP服务(34),包含小站后台管理(35)、小站信息资源重组程序(36)、小站信息检索服务程序(37)、小站信息浏览服务(38)、小站信息上载服务(39)、小站用户定制服务(40)模块;
第三步:小站管理员(41)通过后台管理(35)服务,作用于小站信息资源数据库(32);
第四步:小站信息资源重组程序(36)和信息检索服务程序(37)分别读取小站信息资源数据库(32)和共享信息镜像数据仓库(33),为用户提供信息共享服务;
第五步:小站服务最终用户(43)通过终端浏览器(42)使用小站WEB或WAP服务(34),获取所需的共享信息,同时也同样作用于小站信息资源数据库。
实施例3:
可移植的网络信息共享方法,该方法包括:
(1)共享信息获取(A)
1)设定信息来源
设定信息来源为来自聚合频道(RSS)
对于新浪、搜狐等内容丰富的综合性门户网站,若按照传统的爬虫(SPIDER)算法爬取该网站的内容,则有很多资源(时间、程序运行开销)会浪费在大量“无用”的网页上——这里所说的“无用”,是指索引页(index.html)等没有详细正文部分内容的网页。目前这种综合性的门户网站基本上都提供了RSS内容输出,所以可使用RSS获取的方法来完成对此类网站信息的获取。
2)设置基本参数
将该网站RSS聚合频道首页设为爬虫爬行的基地址。
3)网页获取预处理
为了提高信息获取的速度,采用多线程方式,每个线程从队列中取出一个链接进行处理。为了更加快速、有效的对网页进行扫描,可利用“正则表达式”实现链接信息的提取。例如在一篇新闻报道的网页中,在其正文部分往往会有与该新闻相关的图片信息,但就网页整体而言,一般还会有其它与新闻内容无关的图片内容(如网站的logo图片,其它热点新闻、相关内容的图片,图片广告等),这些内容对于我们的信息获取来说都属于干扰因素。因此对于某一特定网站,通过分析其新闻网页的设计格式,可以归纳出用于匹配正文部分的正则表达式,在提取该网页中的链接信息之前,先用该正则表达式匹配出网页的正文部分,然后再提取其中的链接信息,这样基本可以保证下载下来的图片信息是与内容相关的,有效的减少了处理链接的数目,提高了所获取内容的“纯净度”。
为了避免对网页内容的重复获取,对于那些已经保存在本地的网页资源,都将其链接地址记录在数据库中。这样,在每次从队列里得到一个新的链接地址时,需要首先查询该地址是否已被记录在数据库中,如果已有记录则不再处理此链接,避免不必要的开销。
4)网页获取过程
启用内置的RSS阅读器,该阅读器会根据1中的设置加载对应网站的RSS频道列表。与普通的RSS阅读器类似,通过更新频道列表可以得到各频道提供的内容输出(xml文件)。不同之处在于,在得到了符合RSS规范的XML文件之后,需要进行一次简单的解析,即将其中指示网页来源的链接信息(link元素)提取出来并保存。
在更新完所有的RSS频道之后,我们就得到了一个包含若干网页链接地址的队列(queue),并且可以肯定的是,这些网页基本上就是我们需要的有“实质”内容的网页。之后利用网页爬虫程序中的部分算法,依次处理该队列中的链接信息,获取该链接指向的网页内容,保存至本地。
(2)共享信息解析(A)
1)获取“共享信息获取服务器”上的数据
网页解析程序与网页获取程序共同访问服务器上网页数据的存储目录,前者从该目录中读取后者自动获取后储存的网页文件。
2)获取数据仓库存储规则及系统管理员设置的解析规则
由约定好的数据仓库存储规则得到网页文件的源获取站点名称、原始URL地址以及获取时间;
根据此源站点名称,读取服务器中由系统管理员设置的网页解析规则中的相应条目,得到用于实际解析的算法。
3)分析源网页站点类型
由源站点名称分析源网页站点类型。
4)执行解析规则并存储结果
针对常见的、较少数的网站,使用人工逐个编辑相应站点的正则匹配表达式来生成实际用于解析的算法。此正则匹配表达式包含预处理表达式、主内容匹配表达式、格式化数据结构表达式、后期处理表达式等子表达式。
5)解析结果后期处理
对上一步得到的结果,将其中的内容数据按照中文规则进行分词处理,并对结果进行实、虚词划分等进一步处理之后,按照各词在内容中出现的位置、频率进行权重分配,生成关键字(词)并按重要性排序。
根据上一步获得的关键词,读取服务器中由系统管理员设置的网页分类规则,计算本目标网页所属的分类名称及其代码。
6)解析结果界面显示
对于“单页面模式”,将以上结果显示于解析程序界面,并在当前的浏览网页中直接高亮标出;对于“多页面模式”,则遍历网页数据的存储目录,对未解析过的网页重复进行上述解析操作,并在用户授权的条件下,将解析后的数据按既定格式逐条上传至服务器,支持服务器前端发布程序(如:网站)的实时更新。
(3)共享信息同步及发布(C)
第一步:共享信息主数据仓库(44)将数据定时同步至共享信息镜像数据仓库(45);
第二步:超级终端运行服务器(46)启动自身WEB服务(47),包含超级用户个人配置(48)、超级终端自身服务信息资源重组程序(49)、超级终端自身服务信息检索服务程序(50)、超级终端自身服务信息浏览服务(51)、超级用户定制服务(52)模块;
第三步:信息检索服务程序(49)和信息浏览服务(50)读取共享信息镜像数据仓库(45),为超级用户(53)提供信息共享服务。
实施例4:
可移植的网络信息共享方法,该方法包括:
(1)共享信息获取(A)
1)设定信息来源
设定信息来源为来自聚合频道(RSS)
对于新浪、搜狐等内容丰富的综合性门户网站,若按照传统的爬虫(SPIDER)算法爬取该网站的内容,则有很多资源(时间、程序运行开销)会浪费在大量“无用”的网页上——这里所说的“无用”,是指索引页(index.html)等没有详细正文部分内容的网页。目前这种综合性的门户网站基本上都提供了RSS内容输出,所以可使用RSS获取的方法来完成对此类网站信息的获取。
2)设置基本参数
将该网站RSS聚合频道首页设为爬虫爬行的基地址。
3)网页获取预处理
为了提高信息获取的速度,采用多线程方式,每个线程从队列中取出一个链接进行处理。为了更加快速、有效的对网页进行扫描,可利用“正则表达式”实现链接信息的提取。例如在一篇新闻报道的网页中,在其正文部分往往会有与该新闻相关的图片信息,但就网页整体而言,一般还会有其它与新闻内容无关的图片内容(如网站的logo图片,其它热点新闻、相关内容的图片,图片广告等),这些内容对于我们的信息获取来说都属于干扰因素。因此对于某一特定网站,通过分析其新闻网页的设计格式,可以归纳出用于匹配正文部分的正则表达式,在提取该网页中的链接信息之前,先用该正则表达式匹配出网页的正文部分,然后再提取其中的链接信息,这样基本可以保证下载下来的图片信息是与内容相关的,有效的减少了处理链接的数目,提高了所获取内容的“纯净度”。
为了避免对网页内容的重复获取,对于那些已经保存在本地的网页资源,都将其链接地址记录在数据库中。这样,在每次从队列里得到一个新的链接地址时,需要首先查询该地址是否已被记录在数据库中,如果已有记录则不再处理此链接,避免不必要的开销。
4)网页获取过程
启用内置的RSS阅读器,该阅读器会根据1中的设置加载对应网站的RSS频道列表。与普通的RSS阅读器类似,通过更新频道列表可以得到各频道提供的内容输出(xml文件)。不同之处在于,在得到了符合RSS规范的XML文件之后,需要进行一次简单的解析,即将其中指示网页来源的链接信息(link元素)提取出来并保存。
在更新完所有的RSS频道之后,我们就得到了一个包含若干网页链接地址的队列(queue),并且可以肯定的是,这些网页基本上就是我们需要的有“实质”内容的网页。之后利用网页爬虫程序中的部分算法,依次处理该队列中的链接信息,获取该链接指向的网页内容,保存至本地。
(2)共享信息解析(B)
1)获取“共享信息获取服务器”上的数据
网页解析程序与网页获取程序共同访问服务器上网页数据的存储目录,前者从该目录中读取后者自动获取后储存的网页文件。
2)获取数据仓库存储规则及系统管理员设置的解析规则
由约定好的数据仓库存储规则得到网页文件的源获取站点名称、原始URL地址以及获取时间;
根据此源站点名称,读取服务器中由系统管理员设置的网页解析规则中的相应条目,得到用于实际解析的算法。
3)分析源网页站点类型
由源站点名称分析源网页站点类型。
4)执行解析规则并存储结果
步骤为:
第一步:将原有的网页的HTML格式强制转化为更为规范的XML格式;
第二步:对XML文件进行预处理,除去<scrip>、<style>等元素;
第三步:通过网页属性读取此网页的标题,并进行分词;
第四步:遍历XML文件,添加必要的元素属性,记录超链接元素,同时选择可能属于网页正文的结点,记录该结点路径;
第五步:统计候选正文结点路径,选择出现次数最多的路径作为最终正文结点路径;
第六步:根据正文结点路径选择正文部分;
第七步:对已获取的正文部分进行分词,统计词频;
第八步:根据管理员的设置,进行正文的局部词频加权,产生此网页的关键词。
4)解析结果后期处理
对上一步得到的结果,将其中的内容数据按照中文规则进行分词处理,并对结果进行实、虚词划分等进一步处理之后,按照各词在内容中出现的位置、频率进行权重分配,生成关键字(词)并按重要性排序。
根据上一步获得的关键词,读取服务器中由系统管理员设置的网页分类规则,计算本目标网页所属的分类名称及其代码。
5)解析结果界面显示
对于“单页面模式”,将以上结果显示于解析程序界面,并在当前的浏览网页中直接高亮标出;对于“多页面模式”,则遍历网页数据的存储目录,对未解析过的网页重复进行上述解析操作,并在用户授权的条件下,将解析后的数据按既定格式逐条上传至服务器,支持服务器前端发布程序(如:网站)的实时更新。
(3)共享信息同步及发布(A)
第一步:信息收集程序(13)获取信息源站点列表配置(15),输出原始信息资源库(16);
第二步:网页解析程序(14)读取原始信息资源库(16)以及解析规则配置(17),输出已解析的信息资源数据库(19);
第三步:主服务器(12)启动WEB或WAP服务(20),包含后台管理(21)、信息资源重组程序(22)、信息检索服务程序(23)、信息浏览服务(24)、信息上载服务(25)、用户定制服务(26)模块;
第四步:管理员(27)通过后台管理(21)服务,作用于用户与管理信息资源数据库(18);
第五步:主服务信息资源重组程序(22)和信息检索服务程序(23)分别读取已解析的信息资源数据库(19)和用户与管理信息资源数据库(18),为用户提供信息共享服务;
第六步:最终用户(29)通过终端浏览器(28)使用主服务器的WEB或WAP服务(20),获取所需的共享信息,同时也同样作用于用户与管理信息资源数据库(18)。
实施例5:
可移植的网络信息共享方法,该方法包括:
(1)共享信息获取(A)
1)设定信息来源
设定信息来源为来自聚合频道(RSS)
对于新浪、搜狐等内容丰富的综合性门户网站,若按照传统的爬虫(SPIDER)算法爬取该网站的内容,则有很多资源(时间、程序运行开销)会浪费在大量“无用”的网页上——这里所说的“无用”,是指索引页(index.html)等没有详细正文部分内容的网页。目前这种综合性的门户网站基本上都提供了RSS内容输出,所以可使用RSS获取的方法来完成对此类网站信息的获取。
2)设置基本参数
将该网站RSS聚合频道首页设为爬虫爬行的基地址。
3)网页获取预处理
为了提高信息获取的速度,采用多线程方式,每个线程从队列中取出一个链接进行处理。为了更加快速、有效的对网页进行扫描,可利用“正则表达式”实现链接信息的提取。例如在一篇新闻报道的网页中,在其正文部分往往会有与该新闻相关的图片信息,但就网页整体而言,一般还会有其它与新闻内容无关的图片内容(如网站的logo图片,其它热点新闻、相关内容的图片,图片广告等),这些内容对于我们的信息获取来说都属于干扰因素。因此对于某一特定网站,通过分析其新闻网页的设计格式,可以归纳出用于匹配正文部分的正则表达式,在提取该网页中的链接信息之前,先用该正则表达式匹配出网页的正文部分,然后再提取其中的链接信息,这样基本可以保证下载下来的图片信息是与内容相关的,有效的减少了处理链接的数目,提高了所获取内容的“纯净度”。
为了避免对网页内容的重复获取,对于那些已经保存在本地的网页资源,都将其链接地址记录在数据库中。这样,在每次从队列里得到一个新的链接地址时,需要首先查询该地址是否已被记录在数据库中,如果已有记录则不再处理此链接,避免不必要的开销。
4)网页获取过程
启用内置的RSS阅读器,该阅读器会根据1中的设置加载对应网站的RSS频道列表。与普通的RSS阅读器类似,通过更新频道列表可以得到各频道提供的内容输出(xml文件)。不同之处在于,在得到了符合RSS规范的XML文件之后,需要进行一次简单的解析,即将其中指示网页来源的链接信息(link元素)提取出来并保存。
在更新完所有的RSS频道之后,我们就得到了一个包含若干网页链接地址的队列(queue),并且可以肯定的是,这些网页基本上就是我们需要的有“实质”内容的网页。之后利用网页爬虫程序中的部分算法,依次处理该队列中的链接信息,获取该链接指向的网页内容,保存至本地。
(2)共享信息解析(B)
1)获取“共享信息获取服务器”上的数据
网页解析程序与网页获取程序共同访问服务器上网页数据的存储目录,前者从该目录中读取后者自动获取后储存的网页文件。
2)获取数据仓库存储规则及系统管理员设置的解析规则
由约定好的数据仓库存储规则得到网页文件的源获取站点名称、原始URL地址以及获取时间;
根据此源站点名称,读取服务器中由系统管理员设置的网页解析规则中的相应条目,得到用于实际解析的算法。
3)分析源网页站点类型
由源站点名称分析源网页站点类型。
4)执行解析规则并存储结果
步骤为:
第一步:将原有的网页的HTML格式强制转化为更为规范的XML格式;
第二步:对XML文件进行预处理,除去<scrip>、<style>等元素;
第三步:通过网页属性读取此网页的标题,并进行分词;
第四步:遍历XML文件,添加必要的元素属性,记录超链接元素,同时选择可能属于网页正文的结点,记录该结点路径;
第五步:统计候选正文结点路径,选择出现次数最多的路径作为最终正文结点路径;
第六步:根据正文结点路径选择正文部分;
第七步:对已获取的正文部分进行分词,统计词频;
第八步:根据管理员的设置,进行正文的局部词频加权,产生此网页的关键词。
5)解析结果后期处理
对上一步得到的结果,将其中的内容数据按照中文规则进行分词处理,并对结果进行实、虚词划分等进一步处理之后,按照各词在内容中出现的位置、频率进行权重分配,生成关键字(词)并按重要性排序。
根据上一步获得的关键词,读取服务器中由系统管理员设置的网页分类规则,计算本目标网页所属的分类名称及其代码。
6)解析结果界面显示
对于“单页面模式”,将以上结果显示于解析程序界面,并在当前的浏览网页中直接高亮标出;对于“多页面模式”,则遍历网页数据的存储目录,对未解析过的网页重复进行上述解析操作,并在用户授权的条件下,将解析后的数据按既定格式逐条上传至服务器,支持服务器前端发布程序(如:网站)的实时更新。
(3)共享信息同步及发布(B)
第一步:共享信息主数据仓库(31)将数据定时同步至共享信息镜像数据仓库(33);
第二步:小站服务运行服务器(30)启动WEB或WAP服务(34),包含小站后台管理(35)、小站信息资源重组程序(36)、小站信息检索服务程序(37)、小站信息浏览服务(38)、小站信息上载服务(39)、小站用户定制服务(40)模块;
第三步:小站管理员(41)通过后台管理(35)服务,作用于小站信息资源数据库(32);
第四步:小站信息资源重组程序(36)和信息检索服务程序(37)分别读取小站信息资源数据库(32)和共享信息镜像数据仓库(33),为用户提供信息共享服务;
第五步:小站服务最终用户(43)通过终端浏览器(42)使用小站WEB或WAP服务(34),获取所需的共享信息,同时也同样作用于小站信息资源数据库。
实施例6:
可移植的网络信息共享方法,该方法包括:
(1)共享信息获取(A)
1)设定信息来源
设定信息来源为来自聚合频道(RSS)
对于新浪、搜狐等内容丰富的综合性门户网站,若按照传统的爬虫(SPIDER)算法爬取该网站的内容,则有很多资源(时间、程序运行开销)会浪费在大量“无用”的网页上——这里所说的“无用”,是指索引页(index.html)等没有详细正文部分内容的网页。目前这种综合性的门户网站基本上都提供了RSS内容输出,所以可使用RSS获取的方法来完成对此类网站信息的获取。
2)设置基本参数
将该网站RSS聚合频道首页设为爬虫爬行的基地址。
3)网页获取预处理
为了提高信息获取的速度,采用多线程方式,每个线程从队列中取出一个链接进行处理。为了更加快速、有效的对网页进行扫描,可利用“正则表达式”实现链接信息的提取。例如在一篇新闻报道的网页中,在其正文部分往往会有与该新闻相关的图片信息,但就网页整体而言,一般还会有其它与新闻内容无关的图片内容(如网站的logo图片,其它热点新闻、相关内容的图片,图片广告等),这些内容对于我们的信息获取来说都属于干扰因素。因此对于某一特定网站,通过分析其新闻网页的设计格式,可以归纳出用于匹配正文部分的正则表达式,在提取该网页中的链接信息之前,先用该正则表达式匹配出网页的正文部分,然后再提取其中的链接信息,这样基本可以保证下载下来的图片信息是与内容相关的,有效的减少了处理链接的数目,提高了所获取内容的“纯净度”。
为了避免对网页内容的重复获取,对于那些已经保存在本地的网页资源,都将其链接地址记录在数据库中。这样,在每次从队列里得到一个新的链接地址时,需要首先查询该地址是否已被记录在数据库中,如果已有记录则不再处理此链接,避免不必要的开销。
4)网页获取过程
启用内置的RSS阅读器,该阅读器会根据1中的设置加载对应网站的SS频道列表。与普通的RSS阅读器类似,通过更新频道列表可以得到各频道提供的内容输出(xml文件)。不同之处在于,在得到了符合RSS规范的XML文件之后,需要进行一次简单的解析,即将其中指示网页来源的链接信息(link元素)提取出来并保存。
在更新完所有的RSS频道之后,我们就得到了一个包含若干网页链接地址的队列(queue),并且可以肯定的是,这些网页基本上就是我们需要的有“实质”内容的网页。之后利用网页爬虫程序中的部分算法,依次处理该队列中的链接信息,获取该链接指向的网页内容,保存至本地。
(2)共享信息解析(B)
1)获取“共享信息获取服务器”上的数据
网页解析程序与网页获取程序共同访问服务器上网页数据的存储目录,前者从该目录中读取后者自动获取后储存的网页文件。
2)获取数据仓库存储规则及系统管理员设置的解析规则
由约定好的数据仓库存储规则得到网页文件的源获取站点名称、原始URL地址以及获取时间;
根据此源站点名称,读取服务器中由系统管理员设置的网页解析规则中的相应条目,得到用于实际解析的算法。
3)分析源网页站点类型
由源站点名称分析源网页站点类型。
4)执行解析规则并存储结果
步骤为:
第一步:将原有的网页的HTML格式强制转化为更为规范的XML格式;
第二步:对XML文件进行预处理,除去<scrip>、<style>等元素;
第三步:通过网页属性读取此网页的标题,并进行分词;
第四步:遍历XML文件,添加必要的元素属性,记录超链接元素,同时选择可能属于网页正文的结点,记录该结点路径;
第五步:统计候选正文结点路径,选择出现次数最多的路径作为最终正文结点路径;
第六步:根据正文结点路径选择正文部分;
第七步:对已获取的正文部分进行分词,统计词频;
第八步:根据管理员的设置,进行正文的局部词频加权,产生此网页的关键词。
5)解析结果后期处理
对上一步得到的结果,将其中的内容数据按照中文规则进行分词处理,并对结果进行实、虚词划分等进一步处理之后,按照各词在内容中出现的位置、频率进行权重分配,生成关键字(词)并按重要性排序。
根据上一步获得的关键词,读取服务器中由系统管理员设置的网页分类规则,计算本目标网页所属的分类名称及其代码。
6)解析结果界面显示
对于“单页面模式”,将以上结果显示于解析程序界面,并在当前的浏览网页中直接高亮标出;对于“多页面模式”,则遍历网页数据的存储目录,对未解析过的网页重复进行上述解析操作,并在用户授权的条件下,将解析后的数据按既定格式逐条上传至服务器,支持服务器前端发布程序(如:网站)的实时更新。
(3)共享信息同步及发布(C)
第一步:共享信息主数据仓库(44)将数据定时同步至共享信息镜像数据仓库(45);
第二步:超级终端运行服务器(46)启动自身WEB服务(47),包含超级用户个人配置(48)、超级终端自身服务信息资源重组程序(49)、超级终端自身服务信息检索服务程序(50)、超级终端自身服务信息浏览服务(51)、超级用户定制服务(52)模块;
第三步:信息检索服务程序(49)和信息浏览服务(50)读取共享信息镜像数据仓库(45),为超级用户(53)提供信息共享服务。
实施例7:
可移植的网络信息共享方法,该方法包括:
(1)共享信息获取(B)
1)设定信息来源
设定信息来源为非来自聚合频道(RSS)
将该网站的首页或特定的索引页设为爬虫爬行的基地址。
在设定的过程中,强制验证该地址的有效性,并设法获取该网站的字符编码类型,如果不能得到,则手动设置编码类型。
2)设置基本参数
将该网站RSS聚合频道首页设为爬虫爬行的基地址。
3)网页获取预处理
为了提高信息获取的速度,采用多线程方式,每个线程从队列中取出一个链接进行处理。为了更加快速、有效的对网页进行扫描,可利用“正则表达式”实现链接信息的提取。例如在一篇新闻报道的网页中,在其正文部分往往会有与该新闻相关的图片信息,但就网页整体而言,一般还会有其它与新闻内容无关的图片内容(如网站的logo图片,其它热点新闻、相关内容的图片,图片广告等),这些内容对于我们的信息获取来说都属于干扰因素。因此对于某一特定网站,通过分析其新闻网页的设计格式,可以归纳出用于匹配正文部分的正则表达式,在提取该网页中的链接信息之前,先用该正则表达式匹配出网页的正文部分,然后再提取其中的链接信息,这样基本可以保证下载下来的图片信息是与内容相关的,有效的减少了处理链接的数目,提高了所获取内容的“纯净度”。
为了避免对网页内容的重复获取,对于那些已经保存在本地的网页资源,都将其链接地址记录在数据库中。这样,在每次从队列里得到一个新的链接地址时,需要首先查询该地址是否已被记录在数据库中,如果已有记录则不再处理此链接,避免不必要的开销。
4)网页获取过程
按照一般的爬虫算法进行爬取:向服务器发起请求,获取基地址网页,扫描网页,将其中的链接信息加入一个队列中。
之后从队列中取出一个链接,获取该网页,扫描网页,将其中的链接信息加入队列,判断当前网页是否是所需的(例如对于中国政府网,只有链接地址中含有“content”字符串的网页才是所需的,并可结合2中的设置对文件类型进行进一步的过滤),如果符合条件,则将该网页保存至本地。
(2)共享信息解析(A)
1)获取“共享信息获取服务器”上的数据
网页解析程序与网页获取程序共同访问服务器上网页数据的存储目录,前者从该目录中读取后者自动获取后储存的网页文件。
2)获取数据仓库存储规则及系统管理员设置的解析规则
由约定好的数据仓库存储规则得到网页文件的源获取站点名称、原始URL地址以及获取时间;
根据此源站点名称,读取服务器中由系统管理员设置的网页解析规则中的相应条目,得到用于实际解析的算法。
3)分析源网页站点类型
由源站点名称分析源网页站点类型。
4)执行解析规则并存储结果
针对常见的、较少数的网站,使用人工逐个编辑相应站点的正则匹配表达式来生成实际用于解析的算法。此正则匹配表达式包含预处理表达式、主内容匹配表达式、格式化数据结构表达式、后期处理表达式等子表达式。
5)解析结果后期处理
对上一步得到的结果,将其中的内容数据按照中文规则进行分词处理,并对结果进行实、虚词划分等进一步处理之后,按照各词在内容中出现的位置、频率进行权重分配,生成关键字(词)并按重要性排序。
根据上一步获得的关键词,读取服务器中由系统管理员设置的网页分类规则,计算本目标网页所属的分类名称及其代码。
7)解析结果界面显示
对于“单页面模式”,将以上结果显示于解析程序界面,并在当前的浏览网页中直接高亮标出;对于“多页面模式”,则遍历网页数据的存储目录,对未解析过的网页重复进行上述解析操作,并在用户授权的条件下,将解析后的数据按既定格式逐条上传至服务器,支持服务器前端发布程序(如:网站)的实时更新。
(3)共享信息同步及发布(A)
第一步:信息收集程序(13)获取信息源站点列表配置(15),输出原始信息资源库(16);
第二步:网页解析程序(14)读取原始信息资源库(16)以及解析规则配置(17),输出已解析的信息资源数据库(19);
第三步:主服务器(12)启动WEB或WAP服务(20),包含后台管理(21)、信息资源重组程序(22)、信息检索服务程序(23)、信息浏览服务(24)、信息上载服务(25)、用户定制服务(26)模块;
第四步:管理员(27)通过后台管理(21)服务,作用于用户与管理信息资源数据库(18);
第五步:主服务信息资源重组程序(22)和信息检索服务程序(23)分别读取已解析的信息资源数据库(19)和用户与管理信息资源数据库(18),为用户提供信息共享服务;
第六步:最终用户(29)通过终端浏览器(28)使用主服务器的WEB或WAP服务(20),获取所需的共享信息,同时也同样作用于用户与管理信息资源数据库(18)。
实施例8:
可移植的网络信息共享方法,该方法包括:
(1)共享信息获取(B)
1)设定信息来源
设定信息来源为非来自聚合频道(RSS)
将该网站的首页或特定的索引页设为爬虫爬行的基地址。
在设定的过程中,强制验证该地址的有效性,并设法获取该网站的字符编码类型,如果不能得到,则手动设置编码类型。
2)设置基本参数
将该网站RSS聚合频道首页设为爬虫爬行的基地址。
3)网页获取预处理
为了提高信息获取的速度,采用多线程方式,每个线程从队列中取出一个链接进行处理。为了更加快速、有效的对网页进行扫描,可利用“正则表达式”实现链接信息的提取。例如在一篇新闻报道的网页中,在其正文部分往往会有与该新闻相关的图片信息,但就网页整体而言,一般还会有其它与新闻内容无关的图片内容(如网站的logo图片,其它热点新闻、相关内容的图片,图片广告等),这些内容对于我们的信息获取来说都属于干扰因素。因此对于某一特定网站,通过分析其新闻网页的设计格式,可以归纳出用于匹配正文部分的正则表达式,在提取该网页中的链接信息之前,先用该正则表达式匹配出网页的正文部分,然后再提取其中的链接信息,这样基本可以保证下载下来的图片信息是与内容相关的,有效的减少了处理链接的数目,提高了所获取内容的“纯净度”。
为了避免对网页内容的重复获取,对于那些已经保存在本地的网页资源,都将其链接地址记录在数据库中。这样,在每次从队列里得到一个新的链接地址时,需要首先查询该地址是否已被记录在数据库中,如果已有记录则不再处理此链接,避免不必要的开销。
4)网页获取过程
按照一般的爬虫算法进行爬取:向服务器发起请求,获取基地址网页,扫描网页,将其中的链接信息加入一个队列中。
之后从队列中取出一个链接,获取该网页,扫描网页,将其中的链接信息加入队列,判断当前网页是否是所需的(例如对于中国政府网,只有链接地址中含有“content”字符串的网页才是所需的,并可结合2中的设置对文件类型进行进一步的过滤),如果符合条件,则将该网页保存至本地。
(2)共享信息解析(A)
1)获取“共享信息获取服务器”上的数据
网页解析程序与网页获取程序共同访问服务器上网页数据的存储目录,前者从该目录中读取后者自动获取后储存的网页文件。
2)获取数据仓库存储规则及系统管理员设置的解析规则
由约定好的数据仓库存储规则得到网页文件的源获取站点名称、原始URL地址以及获取时间;
根据此源站点名称,读取服务器中由系统管理员设置的网页解析规则中的相应条目,得到用于实际解析的算法。
3)分析源网页站点类型
由源站点名称分析源网页站点类型。
4)执行解析规则并存储结果
针对常见的、较少数的网站,使用人工逐个编辑相应站点的正则匹配表达式来生成实际用于解析的算法。此正则匹配表达式包含预处理表达式、主内容匹配表达式、格式化数据结构表达式、后期处理表达式等子表达式。
5)解析结果后期处理
对上一步得到的结果,将其中的内容数据按照中文规则进行分词处理,并对结果进行实、虚词划分等进一步处理之后,按照各词在内容中出现的位置、频率进行权重分配,生成关键字(词)并按重要性排序。
根据上一步获得的关键词,读取服务器中由系统管理员设置的网页分类规则,计算本目标网页所属的分类名称及其代码。
6)解析结果界面显示
对于“单页面模式”,将以上结果显示于解析程序界面,并在当前的浏览网页中直接高亮标出;对于“多页面模式”,则遍历网页数据的存储目录,对未解析过的网页重复进行上述解析操作,并在用户授权的条件下,将解析后的数据按既定格式逐条上传至服务器,支持服务器前端发布程序(如:网站)的实时更新。
(3)共享信息同步及发布(B)
第一步:共享信息主数据仓库(31)将数据定时同步至共享信息镜像数据仓库(33);
第二步:小站服务运行服务器(30)启动WEB或WAP服务(34),包含小站后台管理(35)、小站信息资源重组程序(36)、小站信息检索服务程序(37)、小站信息浏览服务(38)、小站信息上载服务(39)、小站用户定制服务(40)模块;
第三步:小站管理员(41)通过后台管理(35)服务,作用于小站信息资源数据库(32);
第四步:小站信息资源重组程序(36)和信息检索服务程序(37)分别读取小站信息资源数据库(32)和共享信息镜像数据仓库(33),为用户提供信息共享服务;
第五步:小站服务最终用户(43)通过终端浏览器(42)使用小站WEB或WAP服务(34),获取所需的共享信息,同时也同样作用于小站信息资源数据库。
实施例9:
可移植的网络信息共享方法,该方法包括:
(1)共享信息获取(B)
1)设定信息来源
设定信息来源为非来自聚合频道(RSS)
将该网站的首页或特定的索引页设为爬虫爬行的基地址。
在设定的过程中,强制验证该地址的有效性,并设法获取该网站的字符编码类型,如果不能得到,则手动设置编码类型。
2)设置基本参数
将该网站RSS聚合频道首页设为爬虫爬行的基地址。
3)网页获取预处理
为了提高信息获取的速度,采用多线程方式,每个线程从队列中取出一个链接进行处理。为了更加快速、有效的对网页进行扫描,可利用“正则表达式”实现链接信息的提取。例如在一篇新闻报道的网页中,在其正文部分往往会有与该新闻相关的图片信息,但就网页整体而言,一般还会有其它与新闻内容无关的图片内容(如网站的logo图片,其它热点新闻、相关内容的图片,图片广告等),这些内容对于我们的信息获取来说都属于干扰因素。因此对于某一特定网站,通过分析其新闻网页的设计格式,可以归纳出用于匹配正文部分的正则表达式,在提取该网页中的链接信息之前,先用该正则表达式匹配出网页的正文部分,然后再提取其中的链接信息,这样基本可以保证下载下来的图片信息是与内容相关的,有效的减少了处理链接的数目,提高了所获取内容的“纯净度”。
为了避免对网页内容的重复获取,对于那些已经保存在本地的网页资源,都将其链接地址记录在数据库中。这样,在每次从队列里得到一个新的链接地址时,需要首先查询该地址是否已被记录在数据库中,如果已有记录则不再处理此链接,避免不必要的开销。
4)网页获取过程
按照一般的爬虫算法进行爬取:向服务器发起请求,获取基地址网页,扫描网页,将其中的链接信息加入一个队列中。
之后从队列中取出一个链接,获取该网页,扫描网页,将其中的链接信息加入队列,判断当前网页是否是所需的(例如对于中国政府网,只有链接地址中含有“content”字符串的网页才是所需的,并可结合2中的设置对文件类型进行进一步的过滤),如果符合条件,则将该网页保存至本地。
(2)共享信息解析(A)
1)获取“共享信息获取服务器”上的数据
网页解析程序与网页获取程序共同访问服务器上网页数据的存储目录,前者从该目录中读取后者自动获取后储存的网页文件。
2)获取数据仓库存储规则及系统管理员设置的解析规则
由约定好的数据仓库存储规则得到网页文件的源获取站点名称、原始URL地址以及获取时间;
根据此源站点名称,读取服务器中由系统管理员设置的网页解析规则中的相应条目,得到用于实际解析的算法。
3)分析源网页站点类型
由源站点名称分析源网页站点类型。
4)执行解析规则并存储结果
针对常见的、较少数的网站,使用人工逐个编辑相应站点的正则匹配表达式来生成实际用于解析的算法。此正则匹配表达式包含预处理表达式、主内容匹配表达式、格式化数据结构表达式、后期处理表达式等子表达式。
5)解析结果后期处理
对上一步得到的结果,将其中的内容数据按照中文规则进行分词处理,并对结果进行实、虚词划分等进一步处理之后,按照各词在内容中出现的位置、频率进行权重分配,生成关键字(词)并按重要性排序。
根据上一步获得的关键词,读取服务器中由系统管理员设置的网页分类规则,计算本目标网页所属的分类名称及其代码。
6)解析结果界面显示
对于“单页面模式”,将以上结果显示于解析程序界面,并在当前的浏览网页中直接高亮标出;对于“多页面模式”,则遍历网页数据的存储目录,对未解析过的网页重复进行上述解析操作,并在用户授权的条件下,将解析后的数据按既定格式逐条上传至服务器,支持服务器前端发布程序(如:网站)的实时更新。
(3)共享信息同步及发布(C)
第一步:共享信息主数据仓库(44)将数据定时同步至共享信息镜像数据仓库(45);
第二步:超级终端运行服务器(46)启动自身WEB服务(47),包含超级用户个人配置(48)、超级终端自身服务信息资源重组程序(49)、超级终端自身服务信息检索服务程序(50)、超级终端自身服务信息浏览服务(51)、超级用户定制服务(52)模块;
第三步:信息检索服务程序(49)和信息浏览服务(50)读取共享信息镜像数据仓库(45),为超级用户(53)提供信息共享服务。
实施例10:
可移植的网络信息共享方法,该方法包括:
(1)共享信息获取(B)
1)设定信息来源
设定信息来源为非来自聚合频道(RSS)
将该网站的首页或特定的索引页设为爬虫爬行的基地址。
在设定的过程中,强制验证该地址的有效性,并设法获取该网站的字符编码类型,如果不能得到,则手动设置编码类型。
2)设置基本参数
将该网站RSS聚合频道首页设为爬虫爬行的基地址。
3)网页获取预处理
为了提高信息获取的速度,采用多线程方式,每个线程从队列中取出一个链接进行处理。为了更加快速、有效的对网页进行扫描,可利用“正则表达式”实现链接信息的提取。例如在一篇新闻报道的网页中,在其正文部分往往会有与该新闻相关的图片信息,但就网页整体而言,一般还会有其它与新闻内容无关的图片内容(如网站的logo图片,其它热点新闻、相关内容的图片,图片广告等),这些内容对于我们的信息获取来说都属于干扰因素。因此对于某一特定网站,通过分析其新闻网页的设计格式,可以归纳出用于匹配正文部分的正则表达式,在提取该网页中的链接信息之前,先用该正则表达式匹配出网页的正文部分,然后再提取其中的链接信息,这样基本可以保证下载下来的图片信息是与内容相关的,有效的减少了处理链接的数目,提高了所获取内容的“纯净度”。
为了避免对网页内容的重复获取,对于那些已经保存在本地的网页资源,都将其链接地址记录在数据库中。这样,在每次从队列里得到一个新的链接地址时,需要首先查询该地址是否已被记录在数据库中,如果已有记录则不再处理此链接,避免不必要的开销。
4)网页获取过程
按照一般的爬虫算法进行爬取:向服务器发起请求,获取基地址网页,扫描网页,将其中的链接信息加入一个队列中。
之后从队列中取出一个链接,获取该网页,扫描网页,将其中的链接信息加入队列,判断当前网页是否是所需的(例如对于中国政府网,只有链接地址中含有“content”字符串的网页才是所需的,并可结合2中的设置对文件类型进行进一步的过滤),如果符合条件,则将该网页保存至本地。
(2)共享信息解析(B)
1)获取“共享信息获取服务器”上的数据
网页解析程序与网页获取程序共同访问服务器上网页数据的存储目录,前者从该目录中读取后者自动获取后储存的网页文件。
2)获取数据仓库存储规则及系统管理员设置的解析规则
由约定好的数据仓库存储规则得到网页文件的源获取站点名称、原始URL地址以及获取时间;
根据此源站点名称,读取服务器中由系统管理员设置的网页解析规则中的相应条目,得到用于实际解析的算法。
3)分析源网页站点类型
由源站点名称分析源网页站点类型。
4)执行解析规则并存储结果
步骤为:
第一步:将原有的网页的HTML格式强制转化为更为规范的XML格式;
第二步:对XML文件进行预处理,除去<scrip>、<style>等元素;
第三步:通过网页属性读取此网页的标题,并进行分词;
第四步:遍历XML文件,添加必要的元素属性,记录超链接元素,同时选择可能属于网页正文的结点,记录该结点路径;
第五步:统计候选正文结点路径,选择出现次数最多的路径作为最终正文结点路径;
第六步:根据正文结点路径选择正文部分;
第七步:对已获取的正文部分进行分词,统计词频;
第八步:根据管理员的设置,进行正文的局部词频加权,产生此网页的关键词。
5)解析结果后期处理
对上一步得到的结果,将其中的内容数据按照中文规则进行分词处理,并对结果进行实、虚词划分等进一步处理之后,按照各词在内容中出现的位置、频率进行权重分配,生成关键字(词)并按重要性排序。
根据上一步获得的关键词,读取服务器中由系统管理员设置的网页分类规则,计算本目标网页所属的分类名称及其代码。
6)解析结果界面显示
对于“单页面模式”,将以上结果显示于解析程序界面,并在当前的浏览网页中直接高亮标出;对于“多页面模式”,则遍历网页数据的存储目录,对未解析过的网页重复进行上述解析操作,并在用户授权的条件下,将解析后的数据按既定格式逐条上传至服务器,支持服务器前端发布程序(如:网站)的实时更新。
(3)共享信息同步及发布(A)
第一步:信息收集程序(13)获取信息源站点列表配置(15),输出原始信息资源库(16);
第二步:网页解析程序(14)读取原始信息资源库(16)以及解析规则配置(17),输出已解析的信息资源数据库(19);
第三步:主服务器(12)启动WEB或WAP服务(20),包含后台管理(21)、信息资源重组程序(22)、信息检索服务程序(23)、信息浏览服务(24)、信息上载服务(25)、用户定制服务(26)模块;
第四步:管理员(27)通过后台管理(21)服务,作用于用户与管理信息资源数据库(18);
第五步:主服务信息资源重组程序(22)和信息检索服务程序(23)分别读取已解析的信息资源数据库(19)和用户与管理信息资源数据库(18),为用户提供信息共享服务;
第六步:最终用户(29)通过终端浏览器(28)使用主服务器的WEB或WAP服务(20),获取所需的共享信息,同时也同样作用于用户与管理信息资源数据库(18)。
实施例11:
可移植的网络信息共享方法,该方法包括:
(1)共享信息获取(B)
1)设定信息来源
设定信息来源为非来自聚合频道(RSS)
将该网站的首页或特定的索引页设为爬虫爬行的基地址。
在设定的过程中,强制验证该地址的有效性,并设法获取该网站的字符编码类型,如果不能得到,则手动设置编码类型。
2)设置基本参数
将该网站RSS聚合频道首页设为爬虫爬行的基地址。
3)网页获取预处理
为了提高信息获取的速度,采用多线程方式,每个线程从队列中取出一个链接进行处理。为了更加快速、有效的对网页进行扫描,可利用“正则表达式”实现链接信息的提取。例如在一篇新闻报道的网页中,在其正文部分往往会有与该新闻相关的图片信息,但就网页整体而言,一般还会有其它与新闻内容无关的图片内容(如网站的logo图片,其它热点新闻、相关内容的图片,图片广告等),这些内容对于我们的信息获取来说都属于干扰因素。因此对于某一特定网站,通过分析其新闻网页的设计格式,可以归纳出用于匹配正文部分的正则表达式,在提取该网页中的链接信息之前,先用该正则表达式匹配出网页的正文部分,然后再提取其中的链接信息,这样基本可以保证下载下来的图片信息是与内容相关的,有效的减少了处理链接的数目,提高了所获取内容的“纯净度”。
为了避免对网页内容的重复获取,对于那些已经保存在本地的网页资源,都将其链接地址记录在数据库中。这样,在每次从队列里得到一个新的链接地址时,需要首先查询该地址是否已被记录在数据库中,如果已有记录则不再处理此链接,避免不必要的开销。
4)网页获取过程
按照一般的爬虫算法进行爬取:向服务器发起请求,获取基地址网页,扫描网页,将其中的链接信息加入一个队列中。
之后从队列中取出一个链接,获取该网页,扫描网页,将其中的链接信息加入队列,判断当前网页是否是所需的(例如对于中国政府网,只有链接地址中含有“content”字符串的网页才是所需的,并可结合2中的设置对文件类型进行进一步的过滤),如果符合条件,则将该网页保存至本地。
(2)共享信息解析(B)
1)获取“共享信息获取服务器”上的数据
网页解析程序与网页获取程序共同访问服务器上网页数据的存储目录,前者从该目录中读取后者自动获取后储存的网页文件。
2)获取数据仓库存储规则及系统管理员设置的解析规则
由约定好的数据仓库存储规则得到网页文件的源获取站点名称、原始URL地址以及获取时间;
根据此源站点名称,读取服务器中由系统管理员设置的网页解析规则中的相应条目,得到用于实际解析的算法。
3)分析源网页站点类型
由源站点名称分析源网页站点类型。
4)执行解析规则并存储结果
步骤为:
第一步:将原有的网页的HTML格式强制转化为更为规范的XML格式;
第二步:对XML文件进行预处理,除去<scrip>、<style>等元素;
第三步:通过网页属性读取此网页的标题,并进行分词;
第四步:遍历XML文件,添加必要的元素属性,记录超链接元素,同时选择可能属于网页正文的结点,记录该结点路径;
第五步:统计候选正文结点路径,选择出现次数最多的路径作为最终正文结点路径;
第六步:根据正文结点路径选择正文部分;
第七步:对已获取的正文部分进行分词,统计词频;
第八步:根据管理员的设置,进行正文的局部词频加权,产生此网页的关键词。
5)解析结果后期处理
对上一步得到的结果,将其中的内容数据按照中文规则进行分词处理,并对结果进行实、虚词划分等进一步处理之后,按照各词在内容中出现的位置、频率进行权重分配,生成关键字(词)并按重要性排序。
根据上一步获得的关键词,读取服务器中由系统管理员设置的网页分类规则,计算本目标网页所属的分类名称及其代码。
6)解析结果界面显示
对于“单页面模式”,将以上结果显示于解析程序界面,并在当前的浏览网页中直接高亮标出;对于“多页面模式”,则遍历网页数据的存储目录,对未解析过的网页重复进行上述解析操作,并在用户授权的条件下,将解析后的数据按既定格式逐条上传至服务器,支持服务器前端发布程序(如:网站)的实时更新。
(3)共享信息同步及发布(B)
第一步:共享信息主数据仓库(31)将数据定时同步至共享信息镜像数据仓库(33);
第二步:小站服务运行服务器(30)启动WEB或WAP服务(34),包含小站后台管理(35)、小站信息资源重组程序(36)、小站信息检索服务程序(37)、小站信息浏览服务(38)、小站信息上载服务(39)、小站用户定制服务(40)模块;
第三步:小站管理员(41)通过后台管理(35)服务,作用于小站信息资源数据库(32);
第四步:小站信息资源重组程序(36)和信息检索服务程序(37)分别读取小站信息资源数据库(32)和共享信息镜像数据仓库(33),为用户提供信息共享服务;
第五步:小站服务最终用户(43)通过终端浏览器(42)使用小站WEB或WAP服务(34),获取所需的共享信息,同时也同样作用于小站信息资源数据库。
实施例12:
可移植的网络信息共享方法,该方法包括:
(1)共享信息获取(B)
1)设定信息来源
设定信息来源为非来自聚合频道(RSS)
将该网站的首页或特定的索引页设为爬虫爬行的基地址。
在设定的过程中,强制验证该地址的有效性,并设法获取该网站的字符编码类型,如果不能得到,则手动设置编码类型。
2)设置基本参数
将该网站RSS聚合频道首页设为爬虫爬行的基地址。
3)网页获取预处理
为了提高信息获取的速度,采用多线程方式,每个线程从队列中取出一个链接进行处理。为了更加快速、有效的对网页进行扫描,可利用“正则表达式”实现链接信息的提取。例如在一篇新闻报道的网页中,在其正文部分往往会有与该新闻相关的图片信息,但就网页整体而言,一般还会有其它与新闻内容无关的图片内容(如网站的logo图片,其它热点新闻、相关内容的图片,图片广告等),这些内容对于我们的信息获取来说都属于干扰因素。因此对于某一特定网站,通过分析其新闻网页的设计格式,可以归纳出用于匹配正文部分的正则表达式,在提取该网页中的链接信息之前,先用该正则表达式匹配出网页的正文部分,然后再提取其中的链接信息,这样基本可以保证下载下来的图片信息是与内容相关的,有效的减少了处理链接的数目,提高了所获取内容的“纯净度”。
为了避免对网页内容的重复获取,对于那些已经保存在本地的网页资源,都将其链接地址记录在数据库中。这样,在每次从队列里得到一个新的链接地址时,需要首先查询该地址是否已被记录在数据库中,如果已有记录则不再处理此链接,避免不必要的开销。
4)网页获取过程
按照一般的爬虫算法进行爬取:向服务器发起请求,获取基地址网页,扫描网页,将其中的链接信息加入一个队列中。
之后从队列中取出一个链接,获取该网页,扫描网页,将其中的链接信息加入队列,判断当前网页是否是所需的(例如对于中国政府网,只有链接地址中含有“content”字符串的网页才是所需的,并可结合2中的设置对文件类型进行进一步的过滤),如果符合条件,则将该网页保存至本地。
(2)共享信息解析(B)
1)获取“共享信息获取服务器”上的数据
网页解析程序与网页获取程序共同访问服务器上网页数据的存储目录,前者从该目录中读取后者自动获取后储存的网页文件。
2)获取数据仓库存储规则及系统管理员设置的解析规则
由约定好的数据仓库存储规则得到网页文件的源获取站点名称、原始URL地址以及获取时间;
根据此源站点名称,读取服务器中由系统管理员设置的网页解析规则中的相应条目,得到用于实际解析的算法。
3)分析源网页站点类型
由源站点名称分析源网页站点类型。
4)执行解析规则并存储结果
步骤为:
第一步:将原有的网页的HTML格式强制转化为更为规范的XML格式;
第二步:对XML文件进行预处理,除去<scrip>、<style>等元素;
第三步:通过网页属性读取此网页的标题,并进行分词;
第四步:遍历XML文件,添加必要的元素属性,记录超链接元素,同时选择可能属于网页正文的结点,记录该结点路径;
第五步:统计候选正文结点路径,选择出现次数最多的路径作为最终正文结点路径;
第六步:根据正文结点路径选择正文部分;
第七步:对已获取的正文部分进行分词,统计词频;
第八步:根据管理员的设置,进行正文的局部词频加权,产生此网页的关键词。
5)解析结果后期处理
对上一步得到的结果,将其中的内容数据按照中文规则进行分词处理,并对结果进行实、虚词划分等进一步处理之后,按照各词在内容中出现的位置、频率进行权重分配,生成关键字(词)并按重要性排序。
根据上一步获得的关键词,读取服务器中由系统管理员设置的网页分类规则,计算本目标网页所属的分类名称及其代码。
6)解析结果界面显示
对于“单页面模式”,将以上结果显示于解析程序界面,并在当前的浏览网页中直接高亮标出;对于“多页面模式”,则遍历网页数据的存储目录,对未解析过的网页重复进行上述解析操作,并在用户授权的条件下,将解析后的数据按既定格式逐条上传至服务器,支持服务器前端发布程序(如:网站)的实时更新。
(3)共享信息同步及发布(C)
第一步:共享信息主数据仓库(44)将数据定时同步至共享信息镜像数据仓库(45);
第二步:超级终端运行服务器(46)启动自身WEB服务(47),包含超级用户个人配置(48)、超级终端自身服务信息资源重组程序(49)、超级终端自身服务信息检索服务程序(50)、超级终端自身服务信息浏览服务(51)、超级用户定制服务(52)模块;
第三步:信息检索服务程序(49)和信息浏览服务(50)读取共享信息镜像数据仓库(45),为超级用户(53)提供信息共享服务。
本发明能够将互联网上的共享信息自由移植,为终端用户提供一跳获取的便捷、实时信息服务,取得了良好的效果。
Claims (2)
1.可移植的网络信息共享方法,其特征在于,该方法包括:
(1)共享信息获取方法;
所述共享信息获取方法为以下两种方法中的任意一种:
(1)共享信息获取方法按以下步骤进行:
1)设定信息来源
设定信息来源为来自聚合频道;
对于内容丰富的综合性门户网站,设定信息来源为来自聚合频道,使用RSS获取的方法来完成对此类网站信息的获取;
2)设置基本参数
将该网站RSS聚合频道首页设为爬虫爬行的基地址;
3)网页获取预处理
采用多线程方式,每个线程从队列中取出一个链接进行处理或利用“正则表达式”实现链接信息的提取;
为了避免对网页内容的重复获取,对于那些已经保存在本地的网页资源,都将其链接地址记录在数据库中,在每次从队列里得到一个新的链接地址时,需要首先查询该地址是否已被记录在数据库中,如果已有记录则不再处理此链接;
4)网页获取过程
启用内置的RSS阅读器,该阅读器会根据步骤1)中的设置加载对应网站的RSS频道列表,得到了符合RSS规范的XML文件之后,将其中指示网页来源的链接信息提取出来并保存;
在更新完所有的RSS频道之后,得到了一个包含若干网页链接地址的队列(queue),这些网页就是需要的有“实质”内容的网页,之后利用网页爬虫程序,依次处理该队列中的链接信息,获取该链接指向的网页内容,保存至本地;
或,
(2)共享信息获取方法按以下步骤进行:
1)设定信息来源
设定信息来源为非来自聚合频道;
将该网站的首页或特定的索引页设为爬虫爬行的基地址;
在设定的过程中,强制验证该地址的有效性,并设法获取该网站的字符编码类型,如果不能得到,则手动设置编码类型;
2)设置基本参数
将该网站RSS聚合频道首页设为爬虫爬行的基地址;
3)网页获取预处理
采用多线程方式,每个线程从队列中取出一个链接进行处理或利用“正则表达式”实现链接信息的提取;
为了避免对网页内容的重复获取,对于那些已经保存在本地的网页资源,都将其链接地址记录在数据库中,在每次从队列里得到一个新的链接地址时,需要首先查询该地址是否已被记录在数据库中,如果已有记录则不再处理此链接;
4)网页获取过程
向服务器发起请求,获取基地址网页,扫描网页,将其中的链接信息加入一个队列中;
之后从队列中取出一个链接,获取该网页,扫描网页,将其中的链接信息加入队列,判断当前网页是否是所需的,如果符合条件,则将该网页保存至本地;
(2)共享信息解析方法;
所述共享信息解析方法为以下两种方法中的任意一种:
(1)共享信息解析方法按以下步骤进行:
1)获取“共享信息获取服务器”上的数据
网页解析程序与网页获取程序共同访问服务器上网页数据的存储目录,前者从该目录中读取后者自动获取后储存的网页文件;
2)获取数据仓库存储规则及系统管理员设置的解析规则
由约定好的数据仓库存储规则得到网页文件的源获取站点名称、原始URL地址以及获取时间;
根据此源站点名称,读取服务器中由系统管理员设置的网页解析规则中的相应条目,得到用于实际解析的算法;
3)分析源网页站点类型
由源站点名称分析源网页站点类型;
4)执行解析规则并存储结果
针对常见的、较少数的网站,使用人工逐个编辑相应站点的正则匹配表达式来生成实际用于解析的算法,此正则匹配表达式包含预处理表达式、主内容匹配表达式、格式化数据结构表达式、后期处理表达式;
5)解析结果后期处理
将上一步得到的结果其中的内容数据按照中文规则进行分词处理,并对结果进行实、虚词划分进一步处理之后,按照各词在内容中出现的位置、频率进行权重分配,生成关键字/词并按重要性排序;
根据上一步获得的关键词,读取服务器中由系统管理员设置的网页分类规则,计算本目标网页所属的分类名称及其代码;
6)解析结果界面显示
对于“单页面模式”,将以上结果显示于解析程序界面,并在当前的浏览网页中直接高亮标出;对于“多页面模式”,则遍历网页数据的存储目录,对未解析过的网页重复进行上述解析操作,并在用户授权的条件下,将解析后的数据按既定格式逐条上传至服务器,支持服务器前端发布程序的实时更新;
或,
(2)共享信息解析方法按以下步骤进行:
1)获取“共享信息获取服务器”上的数据
网页解析程序与网页获取程序共同访问服务器上网页数据的存储目录,前者从该目录中读取后者自动获取后储存的网页文件;
2)获取数据仓库存储规则及系统管理员设置的解析规则
由约定好的数据仓库存储规则得到网页文件的源获取站点名称、原始URL地址以及获取时间;
根据此源站点名称,读取服务器中由系统管理员设置的网页解析规则中的相应条目,得到用于实际解析的算法;
3)分析源网页站点类型
由源站点名称分析源网页站点类型;
4)执行解析规则并存储结果
其步骤为:
第一步:将原有的网页的HTML格式强制转化为更为规范的XML格式;
第二步:对XML文件进行预处理,除去<scrip>、<style>元素;
第三步:通过网页属性读取此网页的标题,并进行分词;
第四步:遍历XML文件,记录超链接元素,同时选择可能属于网页正文的结点,记录该结点路径;
第五步:统计候选正文结点路径,选择出现次数最多的路径作为最终正文结点路径;
第六步:根据正文结点路径选择正文部分;
第七步:对已获取的正文部分进行分词,统计词频;
第八步:根据管理员的设置,进行正文的局部词频加权,产生此网页的关键词;
5)解析结果后期处理
将上一步得到的结果其中的内容数据按照中文规则进行分词处理,并对结果进行实、虚词划分进一步处理之后,按照各词在内容中出现的位置、频率进行权重分配,生成关键字/词并按重要性排序;
根据上一步获得的关键词,读取服务器中由系统管理员设置的网页分类规则,计算本目标网页所属的分类名称及其代码;
6)解析结果界面显示
对于“单页面模式”,将以上结果显示于解析程序界面,并在当前的浏览网页中直接高亮标出;对于“多页面模式”,则遍历网页数据的存储目录,对未解析过的网页重复进行上述解析操作,并在用户授权的条件下,将解析后的数据按既定格式逐条上传至服务器,支持服务器前端发布程序的实时更新;
(3)共享信息同步及发布方法;
所述共享信息同步及发布方法为以下三种方法中的任意一种:
(1)共享信息同步及发布方法按以下步骤进行:
第一步:信息收集程序获取信息源站点列表配置,输出原始信息资源库;
第二步:网页解析程序读取原始信息资源库以及解析规则配置,输出已解析的信息资源数据库;
第三步:主服务器启动WEB或WAP服务,包含后台管理、信息资源重组程序、信息检索服务程序、信息浏览服务、信息上载服务、用户定制服务模块;
第四步:管理员通过后台管理服务,作用于用户与管理信息资源数据库;
第五步:主服务信息资源重组程序和信息检索服务程序分别读取已解析的信息资源数据库和用户与管理信息资源数据库,为用户提供信息共享服务;
第六步:最终用户通过终端浏览器使用主服务器的WEB或WAP服务,获取所需的共享信息,同时也同样作用于用户与管理信息资源数据库;
或,
(2)共享信息同步及发布方法按以下步骤进行:
第一步:共享信息主数据仓库将数据定时同步至共享信息镜像数据仓库;
第二步:小站服务运行服务器启动WEB或WAP服务,包含小站后台管理、小站信息资源重组程序、小站信息检索服务程序、小站信息浏览服务、小站信息上载服务、小站用户定制服务模块;
第三步:小站管理员通过后台管理服务,作用于小站信息资源数据库;
第四步:小站信息资源重组程序和信息检索服务程序分别读取小站信息资源数据库和共享信息镜像数据仓库,为用户提供信息共享服务;
第五步:小站服务最终用户通过终端浏览器使用小站WEB或WAP服务,获取所需的共享信息,同时也同样作用于小站信息资源数据库;
或,
(3)共享信息同步及发布方法按以下步骤进行:
第一步:共享信息主数据仓库将数据定时同步至共享信息镜像数据仓库;
第二步:超级终端运行服务器启动自身WEB服务,包含超级用户个人配置、超级终端自身服务信息资源重组程序、超级终端自身服务信息检索服务程序、超级终端自身服务信息浏览服务、超级用户定制服务模块;
第三步:信息检索服务程序和信息浏览服务读取共享信息镜像数据仓库,为超级用户提供信息共享服务。
2.一种可移植的网络信息共享结构,其特征在于,该结构包括原始内容服务器、共享信息获取服务器、共享信息解析服务器、共享信息镜像服务器;
“共享信息获取服务器”通过所述“共享信息获取方法”从“原始内容服务器”有选择性地获取信息;
“共享信息解析服务器”从“共享信息获取服务器”获取信息后,通过“共享信息解析方法”将它们进行解析后按特定格式规范进行存储;
“共享信息镜像服务器”从“共享信息解析服务器”通过所述“共享信息同步方法”获取共享信息;同时,将此共享信息加上地域性的附加信息,为终端用户提供服务;
所述共享信息获取方法为以下两种方法中的任意一种:
(1)共享信息获取方法按以下步骤进行:
1)设定信息来源
设定信息来源为来自聚合频道;
对于内容丰富的综合性门户网站,设定信息来源为来自聚合频道,使用RSS获取的方法来完成对此类网站信息的获取;
2)设置基本参数
将该网站RSS聚合频道首页设为爬虫爬行的基地址;
3)网页获取预处理
采用多线程方式,每个线程从队列中取出一个链接进行处理或利用“正则表达式”实现链接信息的提取;
为了避免对网页内容的重复获取,对于那些已经保存在本地的网页资源,都将其链接地址记录在数据库中,在每次从队列里得到一个新的链接地址时,需要首先查询该地址是否已被记录在数据库中,如果已有记录则不再处理此链接;
4)网页获取过程
启用内置的RSS阅读器,该阅读器会根据步骤1)中的设置加载对应网站的RSS频道列表,得到了符合RSS规范的XML文件之后,将其中指示网页来源的链接信息提取出来并保存;
在更新完所有的RSS频道之后,得到了一个包含若干网页链接地址的队列(queue),这些网页就是需要的有“实质”内容的网页,之后利用网页爬虫程序,依次处理该队列中的链接信息,获取该链接指向的网页内容,保存至本地;
或,
(2)共享信息获取方法按以下步骤进行:
1)设定信息来源
设定信息来源为非来自聚合频道;
将该网站的首页或特定的索引页设为爬虫爬行的基地址;
在设定的过程中,强制验证该地址的有效性,并设法获取该网站的字符编码类型,如果不能得到,则手动设置编码类型;
2)设置基本参数
将该网站RSS聚合频道首页设为爬虫爬行的基地址;
3)网页获取预处理
采用多线程方式,每个线程从队列中取出一个链接进行处理或利用“正则表达式”实现链接信息的提取;
为了避免对网页内容的重复获取,对于那些已经保存在本地的网页资源,都将其链接地址记录在数据库中,在每次从队列里得到一个新的链接地址时,需要首先查询该地址是否已被记录在数据库中,如果已有记录则不再处理此链接;
4)网页获取过程
向服务器发起请求,获取基地址网页,扫描网页,将其中的链接信息加入一个队列中;
之后从队列中取出一个链接,获取该网页,扫描网页,将其中的链接信息加入队列,判断当前网页是否是所需的,如果符合条件,则将该网页保存至本地。
所述共享信息解析方法为以下两种方法中的任意一种:
(1)共享信息解析方法按以下步骤进行:
1)获取“共享信息获取服务器”上的数据
网页解析程序与网页获取程序共同访问服务器上网页数据的存储目录,前者从该目录中读取后者自动获取后储存的网页文件;
2)获取数据仓库存储规则及系统管理员设置的解析规则
由约定好的数据仓库存储规则得到网页文件的源获取站点名称、原始URL地址以及获取时间;
根据此源站点名称,读取服务器中由系统管理员设置的网页解析规则中的相应条目,得到用于实际解析的算法;
3)分析源网页站点类型
由源站点名称分析源网页站点类型;
4)执行解析规则并存储结果
针对常见的、较少数的网站,使用人工逐个编辑相应站点的正则匹配表达式来生成实际用于解析的算法,此正则匹配表达式包含预处理表达式、主内容匹配表达式、格式化数据结构表达式、后期处理表达式;
5)解析结果后期处理
将上一步得到的结果其中的内容数据按照中文规则进行分词处理,并对结果进行实、虚词划分进一步处理之后,按照各词在内容中出现的位置、频率进行权重分配,生成关键字/词并按重要性排序;
根据上一步获得的关键词,读取服务器中由系统管理员设置的网页分类规则,计算本目标网页所属的分类名称及其代码;
6)解析结果界面显示
对于“单页面模式”,将以上结果显示于解析程序界面,并在当前的浏览网页中直接高亮标出;对于“多页面模式”,则遍历网页数据的存储目录,对未解析过的网页重复进行上述解析操作,并在用户授权的条件下,将解析后的数据按既定格式逐条上传至服务器,支持服务器前端发布程序的实时更新;
或,
(2)共享信息解析方法按以下步骤进行:
1)获取“共享信息获取服务器”上的数据
网页解析程序与网页获取程序共同访问服务器上网页数据的存储目录,前者从该目录中读取后者自动获取后储存的网页文件;
2)获取数据仓库存储规则及系统管理员设置的解析规则
由约定好的数据仓库存储规则得到网页文件的源获取站点名称、原始URL地址以及获取时间;
根据此源站点名称,读取服务器中由系统管理员设置的网页解析规则中的相应条目,得到用于实际解析的算法;
3)分析源网页站点类型
由源站点名称分析源网页站点类型;
4)执行解析规则并存储结果
其步骤为:
第一步:将原有的网页的HTML格式强制转化为更为规范的XML格式;
第二步:对XML文件进行预处理,除去<scrip>、<style>元素;
第三步:通过网页属性读取此网页的标题,并进行分词;
第四步:遍历XML文件,记录超链接元素,同时选择可能属于网页正文的结点,记录该结点路径;
第五步:统计候选正文结点路径,选择出现次数最多的路径作为最终正文结点路径;
第六步:根据正文结点路径选择正文部分;
第七步:对已获取的正文部分进行分词,统计词频;
第八步:根据管理员的设置,进行正文的局部词频加权,产生此网页的关键词;
5)解析结果后期处理
将上一步得到的结果其中的内容数据按照中文规则进行分词处理,并对结果进行实、虚词划分进一步处理之后,按照各词在内容中出现的位置、频率进行权重分配,生成关键字/词并按重要性排序;
根据上一步获得的关键词,读取服务器中由系统管理员设置的网页分类规则,计算本目标网页所属的分类名称及其代码;
6)解析结果界面显示
对于“单页面模式”,将以上结果显示于解析程序界面,并在当前的浏览网页中直接高亮标出;对于“多页面模式”,则遍历网页数据的存储目录,对未解析过的网页重复进行上述解析操作,并在用户授权的条件下,将解析后的数据按既定格式逐条上传至服务器,支持服务器前端发布程序的实时更新。
所述共享信息同步及发布方法为以下三种方法中的任意一种:
(1)共享信息同步及发布方法按以下步骤进行:
第一步:信息收集程序获取信息源站点列表配置,输出原始信息资源库;
第二步:网页解析程序读取原始信息资源库以及解析规则配置,输出已解析的信息资源数据库;
第三步:主服务器启动WEB或WAP服务,包含后台管理、信息资源重组程序、信息检索服务程序、信息浏览服务、信息上载服务、用户定制服务模块;
第四步:管理员通过后台管理服务,作用于用户与管理信息资源数据库;
第五步:主服务信息资源重组程序和信息检索服务程序分别读取已解析的信息资源数据库和用户与管理信息资源数据库,为用户提供信息共享服务;
第六步:最终用户通过终端浏览器使用主服务器的WEB或WAP服务,获取所需的共享信息,同时也同样作用于用户与管理信息资源数据库;
或,
(2)共享信息同步及发布方法按以下步骤进行:
第一步:共享信息主数据仓库将数据定时同步至共享信息镜像数据仓库;
第二步:小站服务运行服务器启动WEB或WAP服务,包含小站后台管理、小站信息资源重组程序、小站信息检索服务程序、小站信息浏览服务、小站信息上载服务、小站用户定制服务模块;
第三步:小站管理员通过后台管理服务,作用于小站信息资源数据库;
第四步:小站信息资源重组程序和信息检索服务程序分别读取小站信息资源数据库和共享信息镜像数据仓库,为用户提供信息共享服务;
第五步:小站服务最终用户通过终端浏览器使用小站WEB或WAP服务,获取所需的共享信息,同时也同样作用于小站信息资源数据库;
或,
(3)共享信息同步及发布方法按以下步骤进行:
第一步:共享信息主数据仓库将数据定时同步至共享信息镜像数据仓库;
第二步:超级终端运行服务器启动自身WEB服务,包含超级用户个人配置、超级终端自身服务信息资源重组程序、超级终端自身服务信息检索服务程序、超级终端自身服务信息浏览服务、超级用户定制服务模块;
第三步:信息检索服务程序和信息浏览服务读取共享信息镜像数据仓库,为超级用户提供信息共享服务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008101149145A CN101291304B (zh) | 2008-06-13 | 2008-06-13 | 可移植的网络信息共享方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008101149145A CN101291304B (zh) | 2008-06-13 | 2008-06-13 | 可移植的网络信息共享方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101291304A CN101291304A (zh) | 2008-10-22 |
CN101291304B true CN101291304B (zh) | 2011-02-02 |
Family
ID=40035387
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008101149145A Expired - Fee Related CN101291304B (zh) | 2008-06-13 | 2008-06-13 | 可移植的网络信息共享方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101291304B (zh) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101783733B (zh) * | 2009-01-16 | 2012-10-03 | 中国移动通信集团公司 | 一种通过终端设备实现信息聚合共享的方法及终端设备 |
CN101764807B (zh) * | 2009-12-16 | 2012-09-05 | 北京邮电大学 | 基于元搜索引擎的多源下载互联网资源的装置及方法 |
CN102123159A (zh) * | 2010-01-11 | 2011-07-13 | 神达电脑股份有限公司 | 社群网站跨平台分享方法及手持式电子装置 |
CN102457488B (zh) * | 2010-10-22 | 2016-04-27 | 腾讯数码(天津)有限公司 | 一种网络视频信息分享方法及其系统、网关服务器 |
CN102810103A (zh) * | 2011-06-03 | 2012-12-05 | 腾讯科技(深圳)有限公司 | 搜索结果分享方法及系统 |
CN103324633A (zh) * | 2012-03-22 | 2013-09-25 | 阿里巴巴集团控股有限公司 | 一种信息发布方法及装置 |
CN103514171B (zh) * | 2012-06-20 | 2016-08-03 | 同程网络科技股份有限公司 | 基于光学字符识别与垂直搜索的自定义爬虫方法 |
CN102932421A (zh) * | 2012-09-28 | 2013-02-13 | 中国联合网络通信集团有限公司 | 云备份方法及装置 |
CN102937989B (zh) * | 2012-10-29 | 2016-06-22 | 北京腾逸科技发展有限公司 | 并行化分布式互联网数据抓取方法及其系统 |
CN104424308A (zh) * | 2013-09-04 | 2015-03-18 | 中兴通讯股份有限公司 | 网页分类标准获取方法、装置及网页分类方法、装置 |
US9798773B2 (en) * | 2014-12-12 | 2017-10-24 | International Business Machines Corporation | Generation of mapping definitions for content management system |
CN104618219A (zh) * | 2014-12-30 | 2015-05-13 | 北京奇虎科技有限公司 | 一种进行跨机房数据同步的方法和装置 |
CN106657177A (zh) * | 2015-10-29 | 2017-05-10 | 中兴通讯股份有限公司 | 一种网络重构的方法及系统 |
US10152554B2 (en) * | 2016-02-23 | 2018-12-11 | Google Llc | Detecting digital content visibility |
CN106095883B (zh) * | 2016-06-03 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 导入浏览器数据的方法及装置 |
CN106407288B (zh) * | 2016-08-29 | 2020-01-10 | 上海掌门科技有限公司 | 一种信息同步更新的方法及系统 |
CN107038216B (zh) * | 2017-03-09 | 2021-10-26 | 百度在线网络技术(北京)有限公司 | 论文查重方法、装置、设备及存储介质 |
CN107257314A (zh) * | 2017-06-05 | 2017-10-17 | 成都知道创宇信息技术有限公司 | 一种基于微信群的消息统计分析方法 |
CN110020331A (zh) * | 2017-07-20 | 2019-07-16 | 北京国双科技有限公司 | 网页类型识别方法和装置 |
CN108121770B (zh) * | 2017-11-30 | 2021-09-14 | 南京南邮信息产业技术研究院有限公司 | 一种基于移动端大数据的信息分类装置 |
CN108459874B (zh) * | 2018-03-05 | 2021-03-26 | 中国人民解放军国防科技大学 | 融合深度学习和自然语言处理的代码自动化摘要方法 |
CN109508557A (zh) * | 2018-10-22 | 2019-03-22 | 中国科学院信息工程研究所 | 一种关联用户隐私的文件路径关键词识别方法 |
CN110647352B (zh) * | 2019-09-29 | 2023-06-30 | 金蝶软件(中国)有限公司 | 一种数据移植的方法、终端及存储介质 |
CN111667217B (zh) * | 2020-06-09 | 2022-07-12 | 宏图智能物流股份有限公司 | 一种仓库网络信息存储方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1913522A (zh) * | 2005-12-23 | 2007-02-14 | 王建波 | 基于xml文件的rss信息交互处理方法 |
-
2008
- 2008-06-13 CN CN2008101149145A patent/CN101291304B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1913522A (zh) * | 2005-12-23 | 2007-02-14 | 王建波 | 基于xml文件的rss信息交互处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101291304A (zh) | 2008-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101291304B (zh) | 可移植的网络信息共享方法 | |
CN106934014B (zh) | 一种基于Hadoop的网络数据挖掘与分析平台及其方法 | |
CN100444174C (zh) | 网页微内容提取、聚合和自动更新系统的方法 | |
CN101556609B (zh) | 基于网页内容的客户行为分析和服务系统 | |
US8131276B2 (en) | Method for extracting content, content extraction server based on RSS and apparatus for managing the same and system for providing standby screen of mobile communication terminal using the same | |
CN102164186B (zh) | 一种实现云搜索服务的方法及系统 | |
CN100384134C (zh) | 播存网格环境下客户端资源检索及自动下载方法 | |
CN101246494A (zh) | 一种互联网网页转换方法、系统及设备 | |
CN102065114A (zh) | 一种移动终端访问网页的方法及装置 | |
CN101206664A (zh) | 网页信息单元截取、合并的方法 | |
CN101566995A (zh) | 一种互联网信息整合发布的方法和系统 | |
CN105407359A (zh) | 基于分类标签体系的智能电视节目检索和推荐系统 | |
CN101763423A (zh) | 实现万维网页面树形结构数据展示的方法、系统及装置 | |
CN107291940A (zh) | 页面内容管理方法、装置及相关服务器 | |
CN101609415A (zh) | 基于中间件的通用服务调用系统及方法 | |
KR101582620B1 (ko) | 소셜 액티비티 통합 서비스 제공 방법 | |
CN102523296B (zh) | 无线网页浏览资源优化方法、装置及系统 | |
KR20030090226A (ko) | 네트워크상의 고품질 거대 영상 전송 시스템 및 전송방법 | |
CN102622402B (zh) | 使用页面集而提供信息搜索服务的服务器、方法和系统 | |
Jin | Research on data retrieval and analysis system based on Baidu reptile technology in big data era | |
CN102087653B (zh) | 一种发布网站信息的方法及装置 | |
CN101727485A (zh) | 一种基于聚焦搜索的wsdl搜集方法 | |
CN1645857A (zh) | 一种网络信息约定通讯方法 | |
CN107665226A (zh) | 一种信息的推送方法及推送装置 | |
JP5610215B2 (ja) | 検索装置、検索システム、検索方法及び検索プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110202 Termination date: 20120613 |