CN102129439A - 订阅网页的系统及方法 - Google Patents
订阅网页的系统及方法 Download PDFInfo
- Publication number
- CN102129439A CN102129439A CN2010100428177A CN201010042817A CN102129439A CN 102129439 A CN102129439 A CN 102129439A CN 2010100428177 A CN2010100428177 A CN 2010100428177A CN 201010042817 A CN201010042817 A CN 201010042817A CN 102129439 A CN102129439 A CN 102129439A
- Authority
- CN
- China
- Prior art keywords
- webpage
- web page
- page contents
- subscription
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明提供了一种订阅网页的系统及方法,所述系统包括:Web服务器,用于获取用户设置的包含网页位置信息的订阅信息;信息处理单元,根据用户设置的订阅信息定时扫描侦听网址,查找得到符合所述订阅信息的文章列表,获取所述文章列表中的网页内容,并通过所述Web服务器返回给用户。采用本发明提供的订阅网页的系统及方法,能使用户能针对自己感兴趣的内容进行网页订阅,提高了网页订阅的精确度,且使用户能自定义地订阅网页上某块位置或模块对应的内容。
Description
【技术领域】
本发明涉及网络技术领域,由其涉及一种订阅网页的系统及方法。
【背景技术】
随着互联网的发展,越来越多的网络用户希望订阅网页(或网站)的某些内容,这些网页内容通常通过RSS(Really Simply Syndication,信息聚合服务)阅读器来获取。RSS是一种描述和同步网站内容的格式,RSS阅读器支持读取RSS格式的文档。用户想订阅网页,传统的方法是将自己感兴趣的网站网址和/或关键词输入到RSS阅读器,RSS阅读器根据用户提供的网址和/或关键词浏览和监视对应的网站,当这些网站有新内容发布时则随时报告,显示新信息的标题、摘要或全文等。
然而,传统的RSS阅读器只要当网站有更新就会获取新信息,其订阅的内容过多且不够精确,且通过RSS阅读器只能订阅支持RSS规范格式的网站内容;另外,传统的RSS阅读器还不能自定义地订阅网页上的某个特定位置或模块对应的内容(例如论坛/网站的每日头条信息),且当被订阅的网页被删除时,用户则无法进行阅读。
【发明内容】
基于此,有必要提供一种能提高网页订阅的精确度的订阅网页的系统。
一种订阅网页的系统,包括:Web服务器,用于获取用户设置的包含网页位置信息的订阅信息;信息处理单元,根据用户设置的订阅信息定时扫描侦听网址,查找得到符合订阅信息的文章列表,获取文章列表中的网页内容,并通过Web服务器返回给用户。
该系统还可包括:数据存储单元,存储网页内容。
上述文章列表记录了符合所述订阅信息的文章标题及对应的超链接网址,信息处理单元可包括:侦听模块,用于根据用户设置的订阅信息定时扫描侦听网址,拉取侦听的网页代码,查找得到符合订阅信息的文章列表;网页拉取模块,拉取文章列表中的网址所对应的网页内容。
而信息处理单元还包括:判断模块,用于判断所述网页内容是否含有分页,若是,则通知所述网页拉取模块拉取分页的网页内容,直到网页拉取模块拉取完所有网页内容。
另外,该系统还可包括:邮件服务器,将所述数据存储单元中新增的网页内容通过邮件方式发送给用户。
此外,还有必要提供一种能提高网页订阅的精确度的订阅网页的方法。
一种订阅网页的方法,包括:获取用户设置的包含网页位置信息的订阅信息;根据用户设置的订阅信息定时扫描侦听网址,查找得到符合所述订阅信息的文章列表,获取所述文章列表中的网页内容;将所述网页内容返回给用户。
该方法还可包括:存储所述网页内容。
该文章列表记录了符合所述订阅信息的文章标题及对应的超链接网址,所述获取文章列表中的网页内容的步骤具体可以是:根据用户设置的订阅信息定时扫描侦听网址,拉取侦听的网页代码,查找得到符合所述订阅信息的文章列表,拉取所述文章列表中的网址所对应的网页内容。
而获取文章列表中的网页内容的步骤还可包括:判断所述网页内容是否有分页,若是,则拉取分页的网页内容,直至所有网页内容拉取完。
另外,该方法还可包括:当存储了新增的网页内容时,通过邮件方法将所述新增的网页内容发送给用户。
上述订阅网页的系统及方法,根据用户设置的包含网页位置信息的订阅信息定时扫描侦听网址,查找得到符合订阅信息的文章列表,使用户能针对自己感兴趣的内容进行网页订阅,提高了网页订阅的精确度,且使用户能自定义地订阅网页上某块位置或模块对应的内容。
另外,通过存储文章列表中的网页内容,使得在订阅的网页被删除时,也能阅读所订阅的网页内容;在获取文章列表中的网页内容时,通过判断是否有分页,进一步拉取分页的内容,提高了订阅网页信息的完整性;而通过邮件方式将存储的新增网页内容返回给用户,能让用户及时获取到最新的所订阅的网页信息,满足了用户需求。
【附图说明】
图1是一个实施例中订阅网页的系统的示意图;图2是一个实施例中信息处理单元的示意图;
图3是一个实施例中订阅网页的系统的示意图;
图4是另一个实施例中订阅网页的系统的示意图;
图5是一个实施例中订阅网页的方法的流程图
图6是一个实施例中获取文章列表中的网页内容的方法流程图。
【具体实施方式】
图1示出了一个实施例中的订阅网页的系统,该系统包括Web服务器10、信息处理单元20,其中:
Web服务器10用于获取用户设置的包含网页位置信息的订阅信息。在一个实施方式中,Web服务器10提供一个订阅管理平台,通过订阅管理平台用户可设置订阅信息。订阅信息包括用户填写的侦听网址、订阅方法、订阅条件、网页保存格式、网页保存时间和侦听时间间隔等,用户通过订阅管理平台可对订阅信息进行添加、修改、删除等操作。其中,根据用户选择的订阅方法,用户需提供一些网页位置信息,例如网页某一模块的位置、文章标题的关键词或文章标题对应的网址的关键词等。在一个实施例中,网页上的某一个具体位置可通过网页DOM树的节点ID来获取。
信息处理单元20用于根据用户设置的订阅信息定时扫描侦听网址,查找得到符合所述订阅信息的文章列表,获取文章列表中的网页内容。在一个实施方式中,文章列表记录了符合订阅信息的文章标题及对应的超连接网址。在一个实施例中,如图2所示,信息处理单元20包括侦听模块201、判断模块202、网页拉取模块203,其中:
侦听模块201用于根据用户设置的订阅信息定时扫描侦听网址,拉取侦听的网页代码,查找得到符合所述订阅信息的文章列表。在一个实施例中,侦听模块201获取用户设置的订阅方法或订阅条件、侦听时间间隔、侦听网址等订阅信息,按照该侦听时间间隔定时扫描侦听网址,并拉取侦听的网页代码,从中查找得到符合用户设置的订阅条件的文章列表。该文章列表记录了文章标题及对应的超链接网址。
该实施例中,可供用户选择的订阅方法包括:通过网页位置订阅、通过网页位置和关键词订阅、通过文章标题的关键词和/或文章标题对应的网址的关键词订阅等。例如,用户选择通过网页位置订阅,需填写侦听的网址及相应的网页位置(例如头条信息等网页位置信息),其中,网页位置可通过网页DOM树的节点ID来获取得到,则侦听模块201扫描该网址并获取对应该网页位置信息的文章列表。这样,用户能针对自己感兴趣的内容进行网页订阅,提高了网页订阅的精确度,同时能实现自定义订阅网页上的某一个特定位置或模块所对应的内容。
网页拉取模块203用于拉取所述文章列表中的网址所对应的网页内容。该网页内容包括网页页面上的文章内容、图片等。
判断模块202用于判断网页内容是否含有分页,若是,则通知网页拉取模块203进一步拉取分页的网页内容,直到网页拉取模块203拉取完所有的网页内容。在一个实施例中,判断模块202通过匹配带超链接的值为“下一页”或“next”等的元素,判断网页拉取模块203拉取的网页内容是否还含有分页,若是,则网页拉取模块203进一步拉取分页的网页内容,直到拉取完最后一页。在一个优选的实施例中,网页拉取模块203还对拉取的网页内容及分页内容进行过滤,去除页面上的一些不相干的内容(例如广告等)。
图3示出了实施例中的订阅网页的系统,该系统除了包括上述Web服务器10和信息处理单元20外,还包括数据存储单元30,其中:
数据存储单元30用于存储文章列表中的网页内容,供Web服务器10返回给用户。数据存储单元30所存储的网页内容包括网页页面上的文字内容和图片等,包括所有分页内容。网页页面上的文字内容和图片等以word或mht等格式保存。当用户所订阅的网页被删除时,也能从数据存储单元30中获取网页内容并返回给用户。在一个实施方式中,数据存储单元30还用于存储用户设置的订阅信息。
图4示出了另一个实施例中的订阅网页的系统,该系统除了包括上述Web服务器10、信息处理单元20和数据存储单元30外,还包括邮件服务器40,其中:邮件服务器40用于当数据存储单元30中新增了网页内容时,将新增的网页内容通过邮件方式发送给用户,使用户能及时获取到最新更新的网页内容。
图5示出了一个实施例中的订阅网页的方法流程,具体过程如下:
在步骤S10中,获取用户设置的包含网页位置信息的订阅信息。如前所述,用户设置的订阅信息包括侦听的网址、订阅方法、订阅条件、网页保存格式、网页保存时间及侦听时间间隔等。
在步骤S20中,根据用户设置的订阅信息定时扫描侦听网址,查找得到符合所述订阅信息的文章列表,获取所述文章列表中的网页内容。如图6所示,在一个实施例中,步骤S20的具体过程为:
在步骤S201中,扫描侦听网址。在一个实施例中,获取用户设置的订阅方法或订阅条件、侦听时间间隔、用户提供的侦听网址等订阅信息,通过侦听模块201按照该侦听时间间隔定时扫描侦听网址。
在步骤S202中,拉取侦听的网页代码。
在步骤S203中,查找符合订阅信息的文章列表。从网页代码中查找得到符合订阅信息的文章列表,该文章列表中记录了文章标题及对应的超链接网址。在一个实施例中,可供用户选择的订阅方法包括:通过网页位置订阅、通过网页位置和关键词订阅、通过文章标题的关键词和/或文章标题对应的网址的关键词订阅等。其中网页上的某一具体位置可通过网页DOM树的节点ID获取得到。例如,用户选择通过网页位置订阅,需填写侦听的网址及相应的网页位置信息(例如头条信息等),通过侦听模块201扫描该网址并获取对应该网页位置的文章列表。又例如,用户选择通过网页位置和关键词订阅,则填写侦听网址、网页位置、标题包含的关键词或标题对应的网址所包含的关键词,侦听模块201则根据网页位置和/或关键词扫描侦听网址,获取对应网页位置并包含有关键词的文章列表。
在步骤S204中,判断文章是否存在,若是,进入步骤S205,否则返回步骤S203。当文章存在时,则可进行下一步的拉取网页内容的操作,当文章不存在时,则返回步骤S203再进行查找,直到找到符合订阅信息的文章列表。
在步骤205中,根据文章列表中的网址拉取对应的网页内容。在一个实施例中,通过网页拉取模块203拉取文章列表中的网页内容,拉取的网页内容包括网页页面上的文章内容、图片等。
在步骤S206,判断所述网页内容是否有分页,若是,则返回步骤S205,否则,进入步骤S207。该实施例中,通过判断模块202匹配带超链接的值为“下一页”或“next”等的元素,判断网页拉取模块203拉取的网页内容是否还含有分页,若是,则网页拉取模块203进一步拉取分页的网页内容,直到拉取完最后一页。在一个优选的实例中,还可通过网页拉取模块203对拉取的网页内容及分页内容进行过滤,去除页面上的一些不相干的内容。
在步骤S207中,存储网页内容。网页内容可按照用户事先设置的网页存储格式存储在数据存储单元30中,网页存储格式可以为word或mht等格式。由于网页内容都存储在数据存储单元30中,当订阅的网页被删除时,用户也能阅读该网页的内容。
在步骤S30中,将所述网页内容返回给用户。在一个实施例中,可通过Web服务器10将数据存储单元30中存储的网页内容返回给用户。
在另一个实施例中,上述订阅网页的方法还包括当存储了新增的网页内容时,通过邮件方式将所述新增的网页内容发送给用户的步骤。该实施例中,当存储数据单元30中存储了新的网页内容,则通过邮件服务器40将新增的网页内容通过邮件方式发送给用户,使用户能及时得到最新的网页信息。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种订阅网页的系统,其特征在于,所述系统包括:
Web服务器,用于获取用户设置的包含网页位置信息的订阅信息;
信息处理单元,根据用户设置的订阅信息定时扫描侦听网址,查找得到符合所述订阅信息的文章列表,获取所述文章列表中的网页内容,并通过所述Web服务器返回给用户。
2.根据权利要求1所述的订阅网页的系统,其特征在于,所述系统还包括:
数据存储单元,存储所述网页内容。
3.根据权利要求1所述的订阅网页的系统,其特征在于,所述文章列表记录了符合所述订阅信息的文章标题及对应的超链接网址,所述信息处理单元包括:
侦听模块,用于根据用户设置的订阅信息定时扫描侦听网址,拉取侦听的网页代码,查找得到符合所述订阅信息的文章列表;
网页拉取模块,拉取所述文章列表中的网址所对应的网页内容。
4.根据权利要求3所述的订阅网页的系统,其特征在于,所述信息处理单元还包括:
判断模块,用于判断所述网页内容是否含有分页,若是,则通知所述网页拉取模块拉取分页的网页内容,直到网页拉取模块拉取完所有网页内容。
5.根据权利要求2所述的订阅网页的系统,其特征在于,所述系统还包括:
邮件服务器,将所述数据存储单元中新增的网页内容通过邮件方式发送给用户。
6.一种订阅网页的方法,包括以下步骤:
获取用户设置的包含网页位置信息的订阅信息;
根据用户设置的订阅信息定时扫描侦听网址,查找得到符合所述订阅信息的文章列表,获取所述文章列表中的网页内容;
将所述网页内容返回给用户。
7.根据权利要求6所述的订阅网页的方法,其特征在于,所述方法还包括:
存储所述网页内容。
8.根据权利要求6所述的订阅网页的方法,其特征在于,所述文章列表记录了符合所述订阅信息的文章标题及对应的超链接网址,所述获取文章列表中的网页内容的步骤具体是:
根据用户设置的订阅信息定时扫描侦听网址,拉取侦听的网页代码,查找得到符合所述订阅信息的文章列表,拉取所述文章列表中的网址所对应的网页内容。
9.根据权利要求8所述的订阅网页的方法,其特征在于,所述获取文章列表中的网页内容的步骤还包括:
判断所述网页内容是否有分页,若是,则拉取分页的网页内容,直至所有网页内容拉取完。
10.根据权利要求7所述的订阅网页的方法,其特征在于,所述方法还包括:
当存储了新增的网页内容时,通过邮件方法将所述新增的网页内容发送给用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010100428177A CN102129439A (zh) | 2010-01-13 | 2010-01-13 | 订阅网页的系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010100428177A CN102129439A (zh) | 2010-01-13 | 2010-01-13 | 订阅网页的系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102129439A true CN102129439A (zh) | 2011-07-20 |
Family
ID=44267525
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010100428177A Pending CN102129439A (zh) | 2010-01-13 | 2010-01-13 | 订阅网页的系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102129439A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020263A (zh) * | 2012-12-24 | 2013-04-03 | 北京小米科技有限责任公司 | 一种网页信息的保存方法、装置及终端 |
CN104077292A (zh) * | 2013-03-27 | 2014-10-01 | 腾讯科技(深圳)有限公司 | 网页信息的存储方法及设备 |
CN104408052A (zh) * | 2014-10-28 | 2015-03-11 | 腾讯科技(深圳)有限公司 | 论坛显示控制的方法及装置 |
CN107741957A (zh) * | 2017-09-20 | 2018-02-27 | 厦门盈趣科技股份有限公司 | 一种订阅网页方法和系统 |
-
2010
- 2010-01-13 CN CN2010100428177A patent/CN102129439A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020263A (zh) * | 2012-12-24 | 2013-04-03 | 北京小米科技有限责任公司 | 一种网页信息的保存方法、装置及终端 |
CN104077292A (zh) * | 2013-03-27 | 2014-10-01 | 腾讯科技(深圳)有限公司 | 网页信息的存储方法及设备 |
CN104408052A (zh) * | 2014-10-28 | 2015-03-11 | 腾讯科技(深圳)有限公司 | 论坛显示控制的方法及装置 |
CN104408052B (zh) * | 2014-10-28 | 2018-01-30 | 腾讯科技(深圳)有限公司 | 论坛显示控制的方法及装置 |
CN107741957A (zh) * | 2017-09-20 | 2018-02-27 | 厦门盈趣科技股份有限公司 | 一种订阅网页方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101262497B (zh) | 一种内容推送方法、系统及装置 | |
CN105608117B (zh) | 一种信息推荐方法及装置 | |
JP5613951B2 (ja) | 積極的な情報のプッシュ通知のための方法およびそのためのサーバ | |
CN102546656B (zh) | 在社交网络中查找用户的方法、系统和装置 | |
EP2447856A1 (en) | Update notification method and browser | |
US20070192401A1 (en) | System and method for synchronizing syndicated content over multiple locations | |
US20150237153A1 (en) | Method, device and system for pushing network data | |
CN105550909A (zh) | 一种商务推送的系统及方法 | |
CN105808702B (zh) | 页面内容刷新方法、系统及页面内容同步刷新的管理系统 | |
CN102333092A (zh) | 一种网络用户识别的方法及其应用服务器 | |
CN105303501A (zh) | 一种基于图片推荐的社区信息服务系统和方法 | |
WO2017012481A1 (zh) | 一种信息显示方法及装置 | |
CN103218461A (zh) | 浏览页面的分类管理方法、系统、终端和云端服务器 | |
KR101556743B1 (ko) | 웹 수집에 기반한 관심 정보 생성 장치 및 그 방법 | |
CN102129439A (zh) | 订阅网页的系统及方法 | |
WO2014206041A1 (en) | Method, mobile terminal and system for displaying picture based on wireless network, and storage medium | |
US20240193622A1 (en) | Interactive user interface (iui) and associated systems and methods for display of sustainability information corresponding to an item | |
DE202013000058U1 (de) | Vorrichtung und computerlesbares Medium zum Erkennen von Orten | |
KR101606319B1 (ko) | 데이터베이스를 이용한 푸시메시지 관리 방법 | |
CN105204806A (zh) | 移动终端网页个性化显示方法及装置 | |
US8930343B2 (en) | System and method for collecting document | |
CN104079603A (zh) | 一种基于b/s结构的手机旅游信息查询系统 | |
EP3007072A1 (en) | Method for displaying site page related to current position in desired condition order in portable terminal, and system | |
US8775540B2 (en) | Upon determining that a message cell of a time line is still visible on a screen after a predefined time interval, dowloading an avatar of an author of the message cell | |
CN101917418B (zh) | 通过无线应用协议访问云服务器的方法及wap服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20110720 |