CN102521295A - 一种自动获取指定页面内容更新的方法和装置 - Google Patents
一种自动获取指定页面内容更新的方法和装置 Download PDFInfo
- Publication number
- CN102521295A CN102521295A CN2011103890162A CN201110389016A CN102521295A CN 102521295 A CN102521295 A CN 102521295A CN 2011103890162 A CN2011103890162 A CN 2011103890162A CN 201110389016 A CN201110389016 A CN 201110389016A CN 102521295 A CN102521295 A CN 102521295A
- Authority
- CN
- China
- Prior art keywords
- content
- tabulation
- pages
- page
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
本发明公开了一种自动获取指定页面内容更新的方法和装置,所述方法包括:步骤1:获取最新页面;步骤2:对比页面更新内容;步骤3:发送页面更新内容。本发明解决了为获取指定页面内容的更新而不断手工去请求页面的麻烦,实现了自动获取功能,特别是当需要获取页面内容更新的页面较多时,通过本发明更易节省用户的时间,并省去用户烦冗的操作,提高操作效率。
Description
技术领域
本发明涉及一种自动获取指定页面内容更新的方法和装置。
背景技术
通常,我们需要在某个服务器网站中浏览新闻,查找资源,查看论坛的某一个帖子,在论坛中提问等相关的一些获取信息操作,这个获取信息的页面的地址(URL)是经常是固定不变的,然而,有时我们同样是访问一个URL页面,会发现显示的内容是我们之前已经看过的,或是根本就没有更新过。例如:经常浏览的一个新闻网页,里面有很多新闻标题的链接,可能最近已经看过全部标题对应的链接内容了,等再次看这个新闻网页查看时,发现这些标题链接从来没有更新过,竟然跟上一次看的是一样的,让你″白跑了一趟″。又比如:查看某论坛的帖子时,通常无法获知所关注帖子什么时候可能会有更新内容,现有技术只能通过用户手动不断的请求查看或刷新以便查看某一个网页(URL)页面是否有更新内容,使浏览及查看的操作效率下降,浪费用户时间。
发明内容
本发明的目的是提供一种自动获取指定页面内容更新的方法和装置,它方便用户对获取指定页面更新内容,提高了操作效率。
为达到上述目的,本发明采用如下技术方案:
一种自动获取指定页面内容更新的方法,包括:
步骤1:获取最新页面;
步骤2:对比页面更新内容;
步骤3:发送页面更新内容。
进一步地,所述步骤1具体地包括:
步骤11:读取并遍历URL队列,若判断存在未遍历的URL,则转至步骤2,若否,则结束遍历;
步骤12:读取URL,根据URL创建网站连接,请求服务器返回页面内容;
步骤13:获取页面内容,根据URL对应的ID,将更新的页面内容存放在临时位置tmp1,将页面上一次访问内容存放在临时位置tmp2。
进一步地,所述步骤2具体地包括:
步骤21:读取tmp1并将对应的ID存入list1列表,读取tmp2并将对应的ID存入list2列表;
步骤22:循环遍历list1列表,若list1列表中还存在对应的ID,则读取文件ID,若否,结束遍历;
步骤23:循环遍历list2列表,若list2列表中还存在对应的ID,则读取文件ID,若否,结束遍历,并将tmp1下的ID移至tmp2目录下;
步骤24:分别读取tmp1和tmp2中对应的ID的页面内容进行对比,若两个页面内容一致,则转至步骤22,若否,转至步骤25;
步骤25:逐行对比tmp1和tmp2中对应的ID的页面内容,得出差异内容并将其存放在临时位置tmp3。
进一步地,所述步骤3具体地包括:
步骤31:读取tmp3并将对应的ID存入list3列表;
步骤32:循环遍历list3列表,若list3列表中还存在对应的ID,则读取文件ID,若否,结束遍历;
步骤33:根据读取的ID生成一个邮件体,创建与邮件服务器的连接并把邮件体发送到指定收件人;
步骤34:删除该文件ID的文件内容。
进一步地,所述步骤1中还包括设置定时程序,用于定时轮询URL队列获取内容。
一种自动获取指定页面内容更新的装置,包括:
获取模块,用于获取最新页面内容;
对比模块,用于对比页面更新内容;
发送模块,用于发送页面更新内容。
进一步地,所述获取模块具体地包括:
读取及遍历模块,用于判断是否存在未遍历的URL;
连接及请求模块,用于根据URL创建网站连接并请求服务器返回页面内容;
获取及存放模块,用于获取页面内容,并根据URL对应的ID将更新的页面内容存放在临时位置tmp1,将页面上一次访问内容存放在临时位置tmp2。
进一步地,所述对比模块具体地包括:
存储ID模块:用于读取tmp1并将对应的ID存入list1列表及读取tmp2并将对应的ID存入list2列表;
遍历清单1模块:用于循环遍历list1列表,若list1列表中还存在对应的ID,则读取文件ID,若否,结束遍历;
遍历清单2模块:用于循环遍历list2列表,若list2列表中还存在对应的ID,则读取文件ID,若否,结束遍历,并将tmp1下的ID移至tmp2目录下;
页面比较模块:用于分别读取tmp1和tmp2中对应的ID的页面内容进行对比,若两个页面内容一致,则转至步骤22,若否,转至步骤25;
存放差异模块:用于逐行对比tmp1和tmp2中对应的ID的页面内容,得出差异内容并将其存放在临时位置tmp3。
进一步地,所述发送模块具体地包括:
存储ID模块:用于读取tmp3并将对应的ID存入list3列表;
遍历清单3模块:用于循环遍历list3列表,若list3列表中还存在对应的ID,则读取文件ID,若否,结束遍历;
生成邮件体模块:用于根据读取的ID生成一个邮件体,创建与邮件服务器的连接并把邮件体发送到指定收件人;
删除ID模块:用于删除该文件ID的文件内容。
进一步地,所述装置还包括定时模块,用于定时轮询URL队列获取内容。
本发明解决了为获取指定页面内容的更新而不断手工去请求页面的麻烦,实现了自动获取功能,特别是当需要获取页面内容更新的页面较多时,通过本发明更易节省用户的时间,并省去用户烦冗的操作,提高操作效率。
附图说明
图1为本发明的自动获取指定页面内容更新方法中获取最新页面内容的流程示意图;
图2为本发明的自动获取指定页面内容更新方法中对比页面更新内容的流程示意图;
图3为本发明的自动获取指定页面内容更新方法中发送页面更新内容的流程示意图;
图4为本发明的自动获取指定页面内容更新的方法中发送页面更新内容的流程示意图;
图5为本发明的自动获取指定页面内容更新的装置的模块结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,一种自动获取指定页面内容更新的方法,包括:
一种自动获取指定页面内容更新的方法,包括:
步骤1:获取最新页面;
步骤2:对比页面更新内容;
步骤3:发送页面更新内容。
作为一种优选方案,如图2所示,所述步骤1具体地包括:
步骤11:读取并遍历URL队列,若判断存在未遍历的URL,则转至步骤2,若否,则结束遍历;
步骤12:读取URL,根据URL创建网站连接,请求服务器返回页面内容;
步骤13:获取页面内容,根据URL对应的ID,将更新的页面内容存放在临时位置tmp1,将页面上一次访问内容存放在临时位置tmp2。
作为一种优选方案,如图3所示,所述步骤2具体地包括:
步骤21:读取tmp1并将对应的ID存入list1列表,读取tmp2并将对应的ID存入list2列表;
步骤22:循环遍历list1列表,若list1列表中还存在对应的ID,则读取文件ID,若否,结束遍历;
步骤23:循环遍历list2列表,若list2列表中还存在对应的ID,则读取文件ID,若否,结束遍历,并将tmp1下的ID移至tmp2目录下;
步骤24:分别读取tmp1和tmp2中对应的ID的页面内容进行对比,若两个页面内容一致,则转至步骤22,若否,转至步骤25;
具体地,本发明设置内容对比程序,定时轮询两个临时位置tmp1和tmp2存放的页面内容,例如,可设置每5分钟轮询一次.把两个临时位置的相同ID的页面内容进行对比。对比的结果会有三种情况:
1)tmp1中存在的ID,tmp2不存在,这时,就把该ID在tmp1中存放的内容复制到tmp2存放;
2)tmp1中存在的ID,tmp2也存在,但它们二个的内容经过对比后,是确认相同的,这时不做其它处理;
3)tmp1中存在的ID,tmp2也存在,但它们二个的内容经过对比后,确认不相同,这时就将不相同的部分抓取出来并存放在tmp3中,同样是用ID来标识,再把tmp1中该ID对应的内容复制到tmp2中存放。
步骤25:逐行对比tmp1和tmp2中对应的ID的页面内容,得出差异内容并将其存放在临时位置tmp3。
作为一种优选方案,如图4所示,所述步骤3具体地包括:
步骤31:读取tmp3并将对应的ID存入list3列表;
步骤32:循环遍历list3列表,若list3列表中还存在对应的ID,则读取文件ID,若否,结束遍历;
步骤33:根据读取的ID生成一个邮件体,创建与邮件服务器的连接并把邮件体发送到指定收件人;
步骤34:删除该文件ID的文件内容。
具体地,本发明设置一个发送邮件程序,定时轮询临时位置tmp3,如果tmp3中存在有以ID标识的内容,则读取该ID的内容,把内容作为邮件内容,ID对应的URL可以作为邮件的标题,发送到指定的收件人。最后,要在磁盘中删除该ID对应的内容文件。本领域技术人员应当理解的是,步骤3的实现并不局限于上述邮件方式来提醒用户更新,邮件方式提醒指示本发明的一种优选方案,本发明还可以采用本领域技术人员容易想到的能够提醒用户更新的任何其他方式。
步骤1中还优选地包括设置定时程序,用于定时轮询URL队列获取内容。定时程序不断轮询URL队列,例如,可设置每2分钟轮询一次,把队列中的每一个分别URL取出来,并根据这个URL建立网络连接,获取最新的页面内容,把它存放在磁盘的临时位置tmp1,并且每一个页面内容的存放都有唯一的ID来标识。
如图5所示,与上述的自动获取指定页面内容更新的方法相对应,本发明还提供了一种自动获取指定页面内容更新的装置,其包括:
获取模块,用于获取最新页面内容;
对比模块,用于对比页面更新内容;
发送模块,用于发送页面更新内容。
进一步地,所述获取模块具体地包括:
读取及遍历模块,用于判断是否存在未遍历的URL;
连接及请求模块,用于根据URL创建网站连接并请求服务器返回页面内容;
获取及存放模块,用于获取页面内容,并根据URL对应的ID将更新的页面内容存放在临时位置tmp1,将页面上一次访问内容存放在临时位置tmp2。
进一步地,所述对比模块具体地包括:
存储ID模块:用于读取tmp1并将对应的ID存入list1列表及读取tmp2并将对应的ID存入list2列表;
遍历清单1模块:用于循环遍历list1列表,若list1列表中还存在对应的ID,则读取文件ID,若否,结束遍历;
遍历清单2模块:用于循环遍历list2列表,若list2列表中还存在对应的ID,则读取文件ID,若否,结束遍历,并将tmp1下的ID移至tmp2目录下;
页面比较模块:用于分别读取tmp1和tmp2中对应的ID的页面内容进行对比,若两个页面内容一致,则转至步骤22,若否,转至步骤25;
存放差异模块:用于逐行对比tmp1和tmp2中对应的ID的页面内容,得出差异内容并将其存放在临时位置tmp3。
进一步地,所述发送模块具体地包括:
存储ID模块:用于读取tmp3并将对应的ID存入list3列表;
遍历清单3模块:用于循环遍历list3列表,若list3列表中还存在对应的ID,则读取文件ID,若否,结束遍历;
生成邮件体模块:用于根据读取的ID生成一个邮件体,创建与邮件 服务器的连接并把邮件体发送到指定收件人;
删除ID模块:用于删除该文件ID的文件内容。
进一步地,所述装置还包括定时模块,用于定时轮询URL队列获取内容。
综上,本发明解决了为获取指定页面内容的更新而不断手工去请求页面的麻烦,实现了定时自动获取功能。特别是需要获取页面内容更新的页面较多时,通过本发明的实现方法更能节省用户的时间,并省去用户烦冗的操作。
以上所述仅为本发明的较佳实施例,并非用来限定本发明的实施范围;如果不脱离本发明的精神和范围,对本发明进行修改或者等同替换,均应涵盖在本发明权利要求的保护范围当中。
Claims (10)
1.一种自动获取指定页面内容更新的方法,其特征在于,包括:
步骤1:获取最新页面;
步骤2:对比页面更新内容;
步骤3:发送页面更新内容。
2.根据权利要求1所述的方法,其特征在于,所述步骤1具体地包括:
步骤11:读取并遍历URL队列,若判断存在未遍历的URL,则转至步骤2,若否,则结束遍历;
步骤12:读取URL,根据URL创建网站连接,请求服务器返回页面内容;
步骤13:获取页面内容,根据URL对应的ID,将更新的页面内容存放在临时位置tmp1,将页面上一次访问内容存放在临时位置tmp2。
3.根据权利要求1所述的方法,其特征在于,所述步骤2具体地包括:
步骤21:读取tmp1并将对应的ID存入list1列表,读取tmp2并将对应的ID存入list2列表;
步骤22:循环遍历list1列表,若list1列表中还存在对应的ID,则读取文件ID,若否,结束遍历;
步骤23:循环遍历list2列表,若list2列表中还存在对应的ID,则读取文件ID,若否,结束遍历,并将tmp1下的ID移至tmp2目录下;
步骤24:分别读取tmp1和tmp2中对应的ID的页面内容进行对比,若两个页面内容一致,则转至步骤22,若否,转至步骤25;
步骤25:逐行对比tmp1和tmp2中对应的ID的页面内容,得出差异内容并将其存放在临时位置tmp3。
4.根据权利要求1所述的方法,其特征在于,所述步骤3具体地包括:
步骤31:读取tmp3并将对应的ID存入list3列表;
步骤32:循环遍历list3列表,若list3列表中还存在对应的ID,则读取文件ID,若否,结束遍历;
步骤33:根据读取的ID生成一个邮件体,创建与邮件服务器的连接并把邮件体发送到指定收件人;
步骤34:删除该文件ID的文件内容。
5.根据权利要求1所述的方法,其特征在于,所述步骤1中还包括设置定时程序,用于定时轮询URL队列获取内容。
6.一种自动获取指定页面内容更新的装置,其特征在于,包括:
获取模块,用于获取最新页面内容;
对比模块,用于对比页面更新内容;
发送模块,用于发送页面更新内容。
7.根据权利要求6所述的装置,其特征在于,所述获取模块具体地包括:
读取及遍历模块,用于判断是否存在未遍历的URL;
连接及请求模块,用于根据URL创建网站连接并请求服务器返回页面内容;
获取及存放模块,用于获取页面内容,并根据URL对应的ID将更新的页面内容存放在临时位置tmp1,将页面上一次访问内容存放在临时位置tmp2。
8.根据权利要求6所述的装置,其特征在于,所述对比模块具体地包括:
存储ID模块:用于读取tmp1并将对应的ID存入list1列表及读取tmp2并将对应的ID存入list2列表;
遍历清单1模块:用于循环遍历list1列表,若list1列表中还存在对应的ID,则读取文件ID,若否,结束遍历;
遍历清单2模块:用于循环遍历list2列表,若list2列表中还存在对应的ID,则读取文件ID,若否,结束遍历,并将tmp1下的ID移至tmp2目录下;
页面比较模块:用于分别读取tmp1和tmp2中对应的ID的页面内容进行对比,若两个页面内容一致,则转至步骤22,若否,转至步骤25;
存放差异模块:用于逐行对比tmp1和tmp2中对应的ID的页面内容,得出差异内容并将其存放在临时位置tmp3。
9.根据权利要求6所述的装置,其特征在于,所述发送模块具体地包括:
存储ID模块:用于读取tmp3并将对应的ID存入list3列表;
遍历清单3模块:用于循环遍历list3列表,若list3列表中还存在对应的ID,则读取文件ID,若否,结束遍历;
生成邮件体模块:用于根据读取的ID生成一个邮件体,创建与邮件服务器的连接并把邮件体发送到指定收件人;
删除ID模块:用于删除该文件ID的文件内容。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括定时模块,用于定时轮询URL队列获取内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011103890162A CN102521295A (zh) | 2011-11-30 | 2011-11-30 | 一种自动获取指定页面内容更新的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011103890162A CN102521295A (zh) | 2011-11-30 | 2011-11-30 | 一种自动获取指定页面内容更新的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102521295A true CN102521295A (zh) | 2012-06-27 |
Family
ID=46292216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011103890162A Pending CN102521295A (zh) | 2011-11-30 | 2011-11-30 | 一种自动获取指定页面内容更新的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102521295A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103530297A (zh) * | 2012-07-05 | 2014-01-22 | 北京百度网讯科技有限公司 | 一种自动进行网站分析的方法及装置 |
CN105988682A (zh) * | 2014-08-21 | 2016-10-05 | 富士施乐株式会社 | 显示控制装置、终端装置以及显示控制方法 |
CN106156200A (zh) * | 2015-04-22 | 2016-11-23 | 腾讯科技(深圳)有限公司 | 网页内容更新速度对比方法和装置 |
CN106708930A (zh) * | 2016-11-17 | 2017-05-24 | 北京小米移动软件有限公司 | 应用页面刷新的方法及装置 |
CN107609042A (zh) * | 2017-08-16 | 2018-01-19 | 阿里巴巴集团控股有限公司 | 一种页面更新方法和装置 |
CN108090062A (zh) * | 2016-11-21 | 2018-05-29 | 阿里巴巴集团控股有限公司 | 一种页面刷新方法及装置 |
CN110134905A (zh) * | 2019-05-21 | 2019-08-16 | 北京字节跳动网络技术有限公司 | 一种页面更新显示方法、装置、设备及存储介质 |
CN112422662A (zh) * | 2020-11-09 | 2021-02-26 | 广州锦行网络科技有限公司 | 一种统筹网站全局轮询请求的方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100444174C (zh) * | 2006-09-25 | 2008-12-17 | 北京中搜在线软件有限公司 | 网页微内容提取、聚合和自动更新系统的方法 |
CN102053853A (zh) * | 2010-12-30 | 2011-05-11 | 北京像素软件科技股份有限公司 | 一种网络游戏版本更新方法 |
-
2011
- 2011-11-30 CN CN2011103890162A patent/CN102521295A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100444174C (zh) * | 2006-09-25 | 2008-12-17 | 北京中搜在线软件有限公司 | 网页微内容提取、聚合和自动更新系统的方法 |
CN102053853A (zh) * | 2010-12-30 | 2011-05-11 | 北京像素软件科技股份有限公司 | 一种网络游戏版本更新方法 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103530297A (zh) * | 2012-07-05 | 2014-01-22 | 北京百度网讯科技有限公司 | 一种自动进行网站分析的方法及装置 |
CN103530297B (zh) * | 2012-07-05 | 2018-02-02 | 北京百度网讯科技有限公司 | 一种自动进行网站分析的方法及装置 |
CN105988682A (zh) * | 2014-08-21 | 2016-10-05 | 富士施乐株式会社 | 显示控制装置、终端装置以及显示控制方法 |
CN106156200A (zh) * | 2015-04-22 | 2016-11-23 | 腾讯科技(深圳)有限公司 | 网页内容更新速度对比方法和装置 |
CN106708930A (zh) * | 2016-11-17 | 2017-05-24 | 北京小米移动软件有限公司 | 应用页面刷新的方法及装置 |
CN108090062A (zh) * | 2016-11-21 | 2018-05-29 | 阿里巴巴集团控股有限公司 | 一种页面刷新方法及装置 |
CN107609042A (zh) * | 2017-08-16 | 2018-01-19 | 阿里巴巴集团控股有限公司 | 一种页面更新方法和装置 |
US10908893B2 (en) | 2017-08-16 | 2021-02-02 | Advanced New Technologies Co., Ltd. | Page update method and apparatus |
CN110134905A (zh) * | 2019-05-21 | 2019-08-16 | 北京字节跳动网络技术有限公司 | 一种页面更新显示方法、装置、设备及存储介质 |
CN112422662A (zh) * | 2020-11-09 | 2021-02-26 | 广州锦行网络科技有限公司 | 一种统筹网站全局轮询请求的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102521295A (zh) | 一种自动获取指定页面内容更新的方法和装置 | |
CN101454769B (zh) | 在客户机设备与服务器设备之间同步数据的方法和系统 | |
CN100512181C (zh) | 一种互联网内容信息的提取方法和提取系统 | |
CN102082818B (zh) | 基于云存储的图形化和结构化数据存储及管理方法和系统 | |
CN103164435B (zh) | 一种网络数据的采集方法和系统 | |
CN104753966A (zh) | 一种基于服务器和客户端缓存的资源文件查询方法及系统 | |
CN103678494A (zh) | 客户端同步服务端数据的方法及装置 | |
CA2405995A1 (en) | Changing hypermedia content of a web site | |
CN101763423A (zh) | 实现万维网页面树形结构数据展示的方法、系统及装置 | |
CN103365924A (zh) | 一种搜索信息的方法、装置和终端 | |
CN101667132A (zh) | 手持式学习终端系统及其资源更新方法 | |
CN102164186A (zh) | 一种实现云搜索服务的方法及系统 | |
CN104158873B (zh) | 一种基于移动互联网的电子说明书的实现方法 | |
CN103188293A (zh) | 一种移动终端访问网页的方法及系统 | |
CN101465866B (zh) | 基于Web终端访问WAP网络的方法及转换模块 | |
CN111881223A (zh) | 数据管理方法、设备、系统及存储介质 | |
CN102982118A (zh) | 一种基于收藏夹的搜索方法和装置 | |
CN107132963A (zh) | 红点消息显示方法、消去方法以及相应装置 | |
CN100470546C (zh) | 资料中心服务器、资料服务系统及实现资料查询方法 | |
CN106657433A (zh) | 一种多网卡环境下物理网卡的命名方法和装置 | |
WO2002065359A1 (en) | Electronic information management system | |
CN104077291B (zh) | 用户生成内容访问次数的发布方法、客户端及系统 | |
CN102547613A (zh) | 一种维护企业通讯录的方法和系统 | |
CN102982143A (zh) | 一种网络小说的搜索方法和浏览装置 | |
CN104714987A (zh) | 社交网站搜寻结果数据排序显示的装置、方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20120627 |