CN102163203A - 网页下载的方法和装置 - Google Patents

网页下载的方法和装置 Download PDF

Info

Publication number
CN102163203A
CN102163203A CN201010120118XA CN201010120118A CN102163203A CN 102163203 A CN102163203 A CN 102163203A CN 201010120118X A CN201010120118X A CN 201010120118XA CN 201010120118 A CN201010120118 A CN 201010120118A CN 102163203 A CN102163203 A CN 102163203A
Authority
CN
China
Prior art keywords
theme
page
download
original list
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201010120118XA
Other languages
English (en)
Other versions
CN102163203B (zh
Inventor
王新文
王主龙
孟遥
于浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201010120118XA priority Critical patent/CN102163203B/zh
Publication of CN102163203A publication Critical patent/CN102163203A/zh
Application granted granted Critical
Publication of CN102163203B publication Critical patent/CN102163203B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了网页下载的方法和装置。所述方法包括:选取步骤,从多个网页中选取至少一个列表页面;模板生成步骤,根据所述至少一个列表页面中的一个或多个来生成列表页面模板;下载更新步骤,利用所述列表页面模板和所述至少一个列表页面来下载和/或更新所述至少一个列表页面中所包含的主题的主题页面。根据本发明的网页下载的方法和装置,可以针对具有多个结构相似的网页的网站进行高效、自动的网页下载。

Description

网页下载的方法和装置
技术领域
本发明总体上涉及计算机领域,尤其涉及一种网页下载的方法和装置。更具体地,本发明涉及一种针对具有多个结构相似的网页的网站进行网页下载的方法和装置。
背景技术
随着因特网和电子技术的飞速发展,人们不再受地域的限制,可以方便的在网上交换各种各样的信息。在大量用户的参与之下,网站(比如论坛、博客、产品目录网站等)的网页中存在大量的有用信息,这些信息不仅对于个人而且对于企业都有很好的使用价值。
为了获得这些有用信息,需要下载网站中所包括的多个网页以进行进一步的分析提取。
在现有技术中,通常是对网站的URL(Uniform Resource Locator,统一资源定位符)进行深度扩展,来逐层次地下载网页,最终完成网站的网页的下载。这种处理没有针对性,经常需要人工干预,因而处理过程需要较长的时间,效率不高。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明的一个目的在于提供一种网页下载的方法和装置,其可以针对具有多个结构相似的网页的网站(诸如论坛、博客、产品目录网站等等)进行高效、自动的网页下载。
本发明的另一个目的是提供在被计算设备执行时使计算设备能够执行上述方法的处理过程的计算机程序代码,以及其上存储有该计算机程序代码的计算机可读存储介质及计算机程序产品。
为了实现上述目的,根据本发明的一个方面,提供了一种网页下载的方法,包括:选取步骤,从多个网页中选取至少一个列表页面;模板生成步骤,根据所述至少一个列表页面中的一个或多个来生成列表页面模板;以及下载更新步骤,利用所述列表页面模板和所述至少一个列表页面来下载和/或更新所述至少一个列表页面中所包含的主题的主题页面。
根据本发明的另一个方面,提供了一种网页下载的装置,包括:选取单元,从多个网页中选取至少一个列表页面;模板生成单元,根据所述至少一个列表页面中的一个或多个来生成列表页面模板;以及下载更新单元,利用所述列表页面模板和所述至少一个列表页面来下载和/或更新所述至少一个列表页面中所包含的主题的主题页面。
依据本发明的其它方面,还提供了相应的计算机程序代码、计算机可读存储介质和计算机程序产品。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
图1是示出了根据本发明的一个实施例的网页下载方法的示意性流程图。
图2是示出了根据本发明的一个实施例的选取至少一个列表页面的处理的示意性流程图。
图3示出了根据本发明一个实施例的生成列表页面模板的处理的示意性流程图。
图4示出了根据本发明一个实施例的利用所生成的列表页面模板和所选取的列表页面来下载和/或更新主题页面的处理的示意性流程图。
图5是示出根据本发明一个实施例的判断列表页面中是否存在新主题或者列表页面中的主题是否有更新的处理的流程图。
图6是示出根据本发明另一个实施例的判断列表页面中是否存在新主题或者列表页面中的主题是否有更新的处理的流程图。
图7是示出了根据本发明的一个实施例的网页下载装置的示意性结构图。
图8示出了根据本发明一个实施例的模板生成单元的示意性结构图。
图9示出了根据本发明一个实施例的下载更新单元的示意性结构图。
图10是示出了其中可以实现根据本发明实施例的方法和/或装置的通用个人计算机的示例性结构的方框图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
本发明旨在提供一种网页下载的方法和装置,其可以针对具有多个结构相似的网页的网站(诸如论坛、博客、产品目录网站等)进行高效、自动的网页下载。
在本申请中所提及的具有多个结构相似的网页的网站可以包括论坛、博客、产品目录网站等。在这些网站中,通常至少可以包括以下类型的网页:主题页面,其中主要包括涉及不同主题的有用信息;列表页面,其中主要包括不同主题页面的URL(Uniform Resource Locator,统一资源定位符)信息、时间信息、发表信息、标题信息、回复信息等。例如,对于论坛网站而言,列表页面是指论坛网站中的版块页面(board page),例如“新浪旅游论坛”下的版块页面如“游记攻略”,而主题页面(topic page)是指各版块页面中包含的不同主题的页面(即,可从各版块页面中的主题页面URL链接到的主题的页面),例如,“游记攻略”版块下的某一主题的页面。
图1是示出了根据本发明的一个实施例的网页下载方法的示意性流程图。
如图1所示,在步骤102,选取至少一个列表页面。
具体来说,可以根据网页的文本特征和/或结构特征从多个网页中选取至少一个列表页面。
图2是示出了根据本发明的一个实施例的选取至少一个列表页面的处理的示意性流程图。
如图2所示,首先在步骤202获取多个网页。
在此,获取多个网页的方式可以有很多种。
根据本发明的一个实施例,在网站是BBS(Bulletin Boards System,电子布告栏系统)论坛的情况下,可以根据论坛首页中包括的URL来下载多个网页,由此获取了多个网页。
根据本发明的另一个实施例,可以将已有的网页直接作为所述多个网页(例如,将本地存储的网页直接作为所述多个网页)。
根据本发明的又一个实施例,还可以直接输入多个网页,由此获取多个网页。
接着,在步骤204,判断某一网页是否是列表页面。
具体来说,根据网页的文本特征和/或结构特征来判断该网页是否是列表页面。
根据本发明的一个实施例,可以根据网页的结构特征中的至少一个来判断该网页是否是列表页面。
如上所述,列表页面主要包括不同主题页面的URL信息、时间信息、发表信息、标题信息、回复信息等。因此,从网页结构上来看,列表页面至少可具有如下的结构特征:包含大量的时间信息、包含大量的链接信息、URL文本占页面文本的比率大、结构重复度高等。因而,可根据这些结构特征中的至少一个来判断网页是否是列表页面。
例如,可以采用阈值比较的方法来进行判断。当网页中包含的时间信息的量(或者是包含的链接信息的量、URL文本与页面文本的比率、结构重复度等)超过预设的阈值(可以根据经验值来设定阈值)时,可以将该网页判定为列表页面。
尽管以上只是描述了利用一个结构特征来判断网页是否是列表页面,但本发明不限于此,显然,还可以基于上述多个结构特征的任意组合来进行判断。
此外,根据本发明的另一个实施例,可以根据网页的文本特征中的至少一个来判断该网页是否是列表页面。
具体来说,网页的文本特征可以包括:网页标题、网页自身的URL中的特征标识符、网页中包含的URL中的特征标识符、网页编号等。可以根据这些文本特征中的至少一个来判断网页是否是列表页面。
例如,在网站是BBS论坛的情况下,列表页面通常是各个版块或子版块的首页。在这种情况下,如果网页的标题直接包含了表明该网页是某一版块或子版块的首页的内容(例如“新浪母婴频道”、“天涯股市论坛”等),则可以直接将该网页判定为列表页面。
另外,还可以根据网页自身的URL中的特征标识符来进行判断。例如,当网页自身的URL包括一些可以表明该网页是列表页面的特征标识符(例如forum、board、boarded、fid、shownform、forumid、bid等)时,可以将该网页判定为列表页面。
另外,还可以根据网页中所包括的URL中的特征标识符来进行判断。例如,在网站是BBS论坛的情况下,每个版块页面(即列表页面)中所包括的URL(例如,子版块页面的URL或主题页面的URL)中通常会具有相同的特征标识符(例如board title、topic title等)。因而,可以根据网页中所包括的URL中的特征标识符来判断该网页是否是列表页面。
另外,可以进一步根据网页的编号来判断网页是否是列表页面。例如,在BBS系统中,各个版块可以被分别编号为board1、board2、board3等,如果某个网页的URL或主题名称中包含了表明该网页是某个版块(或子版块)的首页的内容(例如,URL中包括“/board1/index.html”、或者主题名称中包括“版块1”等),则可以将该网页确定为列表页面。
尽管以上只是描述了利用一个文本特征来判断网页是否是列表页面,但本发明不限于此,显然,还可以基于上述文本结构特征的任意组合来进行判断。
此外,尽管分别描述了根据至少一个结构特征或根据至少一个文本特征来判断网页是否是列表页面,但本发明不限于此。显然,还可以基于至少一个结构特征和/或至少一个文本特征的任意组合来进行判断。
如果在步骤204确定网页不是列表页面,则处理流程进行到步骤208,判断是否还有其它网页需要处理。
如果在步骤204确定网页是列表页面,则处理流程进行到步骤206,即,下载该列表页面,并进一步判断该列表页面是否有后续页面。
具体来说,可以通过判断列表页面是否包括用于示出后续页面的URL的特殊标识,来初步判断该列表页面是否具有后续页面。例如,特殊标识可以是:文字形式的特殊标识“下一页”、“next”等、符号形式的特殊标识“>”、“》”等、数字形式的特殊标识“1”、“2”、“3”等。
如果在步骤206确定列表页面中存在上述的特殊标识中的任意一个或多个,则在步骤210进一步判断该特殊标识是否是分页符,从而更为准确地判断列表页面是否有后续页面。
具体来说,如果特殊标识是分页符(也可称之为分页标识),则与该特殊标识(即分页符)对应的URL是列表页面的后续页面的URL。因此,可以根据与特殊标识对应的URL和列表页面的URL的相似程度来判断该特殊标识是否是分页符。
例如,在BBS系统中,列表页面的URL与该列表页面的后续页面的URL的相似程度很高(例如:具有相同的主机名、在网站中的层次位置相同等);区别较小(例如只是网页的序号不同)。因此,可以基于上述区别来判断特殊标识所对应的URL与列表页面的URL的相似程度。
根据本发明的一个实施例,可以先比较列表页面的URL和与特殊标识对应的URL的主机是否相同。如果不同,则可以判定该特殊标识不是分页符;如果相同,则在不考虑URL中的网页序号的情况下,进一步比较两个URL中的其它部分(例如,在网站中的层次位置)是否相同。如果不同,则可以判定该特殊标识不是分页符;如果相同,则可以判定该特殊标识对应的URL与列表页面的URL的相似程度较高,也就是说,可以判定该特殊标识是分页符。
参见图2,如果在步骤206确定列表页面中不存在任何上述特殊标识,或者如果在步骤210判定特殊标识不是分页符(即特殊标识的URL与列表页面的URL的相似程度不高),则处理流程进行到步骤208,判断步骤202中获取的多个网页中是否还有其它网页需要处理。
如果在步骤210判定特殊标识是分页符(即特殊标识的URL与列表页面的URL的相似程度高),则在步骤212根据该分页符所对应的URL来下载与之对应的网页。
优选地,根据本发明的一个实施例,为了提高准确度,在步骤212下载网页之后,可以回到步骤204再次判断下载的网页是否是列表页面,并且在步骤206进一步判断该网页是否还有后续页面。
这样,通过上述的处理,可以从多个网页中选取出至少一个列表页面。
回到图1,在选取出至少一个列表页面之后,可以在步骤104生成列表页面模板。具体来说,可以根据选出的列表页面中的至少一个来生成列表页面模板。
图3示出了根据本发明一个实施例的生成列表页面模板的方法的示意性流程图。
如图3所示,在步骤302中,基于在步骤102中选出的列表页面中的至少一个来建立各列表页面的DOM(Document Object Model,文档对象模型)树结构。例如,可以利用DOM技术来解析列表页面,从而建立列表页面的DOM树结构。
在步骤304中,选择列表页面的DOM树结构中的一个或多个节点。具体而言,在列表页面的DOM树结构中可以自动或手动地选出包含感兴趣的信息的节点。在一个实施例中,感兴趣的信息可以包括某一主题的标题、与标题对应的URL、首次发表时间、最新的回复时间、回复数量、发帖人、网页编号、和/或点击量等。
在一个实施例中,可以自动地在DOM树中选择节点。例如,可以在DOM树中选出包含主题的标题的节点、包含与主题标题对应的URL的节点、包含主题发表时间的节点、包含主题最新回复时间的节点、包含主题回复数量的节点、包含主题发帖人的节点、和/或包含主题页面的网页编号的节点等。
在另一实施例中,可以由用户通过输入装置(例如键盘、鼠标等)来在人机交互界面中选择节点。例如,用户可以在DOM树中选出包含主题的标题的节点、包含与主题标题对应的URL的节点、包含主题发表时间的节点、包含主题最新回复时间的节点、包含主题回复数量的节点、包含主题发帖人的节点、和/或包含主题页面的网页编号的节点等。
选择节点的原则可以包括:路径尽可能短,能够包括完整的节点内容,并且不包括太多的干扰信息。
在步骤306中,从相应的DOM树结构中获取所选择的节点的路径信息。在一个实施例中,节点的路径信息可以是字符串形式的。
在步骤308中,保存所选择的各节点的路径信息,从而生成列表页面模板。当生成了所有所选择节点的路径信息后,也就获得了包括这些节点的路径信息的列表页面模板。
回到图1,在步骤106下载和/或更新主题页面。具体来说,可以利用所生成的列表页面模板和所获得的每个列表页面来进行下载和/或更新。
图4示出了根据本发明一个实施例的利用所生成的列表页面模板和所获取的列表页面来下载和/或更新主题页面的处理的示意性流程图。
具体来说,下载和/或更新主题页面的步骤可以包括:信息提取步骤,基于列表页面模板从列表页面提取与主题页面有关的信息;判断步骤,判断列表页面中是否存在新发表的主题或者已有的主题是否有新回复;以及执行步骤,基于判断步骤的结果来进行下载和/或更新。
如图4所示,在信息提取步骤402,基于列表页面模板从列表页面中提取相关信息。
具体来说,可以基于列表页面模板中的路径信息从列表页面中提取出与主题页面有关的信息。
在一个实施例中,所述与主题页面有关的信息可以包括:主题的标题和主题的首次发表时间中的至少一个,主题的最新回复时间和主题的回复数量中的至少一个,以及主题的第一主题页面的URL(即与主题标题对应的URL)。在此,主题的第一主题页面是指具有同一主题的一个或多个主题页面中的第一个页面,而其他的主题页面则是该第一主题页面的后续页面。
基于列表页面模板中的包含这些信息的节点的路径信息,可以从列表页面中提取出所述相关信息。
接着,在判断步骤404,判断列表页面中是否存在新主题或者是否存在新回复(即列表页面中的主题是否有更新)。具体来说,根据提取出的与主题页面有关的信息来判断列表页面中是否存在新主题或者列表页面中的主题是否有更新。
图5是示出根据本发明一个实施例的判断列表页面中是否存在新主题或者列表页面中的主题是否有更新的处理的流程图。
如图5所示,在步骤502获取上一次下载时间。
可以本地获取或者从外部输入上一次的下载时间。
在一个实施例中,在每次下载网页时,可以将下载时间存储在本地服务器上。在这种情况下,可以从本地服务器上直接获取上一次的下载时间。
在另一个实施例中,可以由用户手动输入上一次的下载时间。在这种情况下,用户例如可以通过人机交互界面来输入上一次的下载时间。
接着,在步骤504,判断列表页面中是否存在新主题。
在一个实施例中,可以通过将列表页面中包含的每一个主题的、提取出的主题首次发表时间与获取的上一次下载时间进行比较,或者通过判断列表页面中是否存在新的主题标题(例如,可以通过将列表页面中包含的所有主题的主题标题与上一次下载网页时该列表页面中包含的所有主题的主题标题进行比较来判断),来判断列表页面中是否存在新主题。
如果在步骤504确定列表页面中有至少一个主题的首次发表时间在上一次下载时间之后,或者确定列表页面中存在新的主题标题,则在步骤508判定列表页面中存在新主题。
如果在步骤504确定列表页面中包含的所有主题的首次发表时间均不晚于上一次下载时间,或者确定列表页面中不存在新的主题标题,则处理进行到步骤506,以进一步判断列表页面中是否存在新回复(即,判断列表页面中的主题是否有更新)。
在步骤506,将列表页面中包含的所有主题的、提取出的最新回复时间与获取的上一次下载时间进行比较。
如果列表页面中有至少一个主题的最新回复时间在上一次下载时间之后,则在步骤512判定列表页面中的主题存在新回复。
如果列表页面中包含的所有主题的最新回复时间均不晚于上一次下载时间,则在步骤510判定列表页面中的主题不存在新回复,也就是说,该列表页面中的主题没有更新。
这样,可以判断出列表页面中是否存在新主题或者列表页面中的已有主题是否有更新。
图6是示出根据本发明另一个实施例的判断列表页面中是否存在新主题或者列表页面中的主题是否有更新的处理的流程图。
图6中的处理流程和图5中的处理流程的区别在于:在图6所示的实施例中,根据列表页面中包含的所有主题的回复数量来判断列表页面中的主题是否存在新回复。因此,此处只是针对这种不同之处进行详细描述而省略了对其它相同处理的重复描述。
如图6所示,在步骤606,通过比较列表页面中包含的所有主题的最新回复数量(即当前回复数量)和上一次下载时的回复数量,来判断列表页面中的主题是否存在新回复。
如果列表页面中有至少一个主题的当前回复数量多于其上次下载时的回复数量,则在步骤612判定列表页面中的主题存在新回复。其中,可以本地获取主题的上一次下载时的回复数量,或者也可以从外部输入主题的上一次下载时的回复数量。
如果列表页面中的所有主题的当前回复数量均不多于其上次下载时的回复数量,则在步骤610判定列表页面中的主题不存在新回复,也就是说,该列表页面中的主题没有更新。
回到图4,在完成关于列表页面中是否存在新主题或者列表页面中的主题是否有更新的判断后,进入执行步骤406。具体来说,如果列表页面中的主题存在更新(即出现新回复)和/或列表页面中出现新主题,则更新该主题的主题页面和/或下载该新主题的主题页面;如果列表页面中没有出现新主题也不存在更新,则结束处理。
在本发明的一个实施例中,如果判定存在新主题,则根据提取出的主题的第一主题页面的URL来下载该新主题的主题页面。
优选地,在另一个实施例中,在下载主题的第一主题页面后,可以进一步判断下载的第一主题页面中是否包括用于表示还存在后续页面的特殊标识。如果存在特殊标识,则将该特殊标识对应的URL与下载的第一主题页面的URL进行相似性比较。如果相似程度较高,则可将该特殊标识确定为分页符,并进一步根据该分页符对应的URL来下载第一主题页面的后续页面。通过重复上述处理,可以下载具有同一主题的所有主题页面。其中,判断分页符的处理和比较URL的相似程度的处理与之前结合步骤206和210描述的处理类似,因此在此不再重复描述。
在本发明的另一个实施例中,在判定列表中的主题存在新回复的情况下,则可以从该主题的最近一次下载位置起接着下载该主题的自上一次下载时间后的回复内容,即更新该主题的主题页面。其中,可以本地获取主题的最近一次下载位置,或者也可以从外部输入主题的最近一次下载位置。
回到图1,由此完成了对包括多个结构相似的网页的网站的网页下载和/或更新。
此外,在本发明的另一个实施例中,图1的下载和/或更新步骤106可以进一步包括记录相关信息的步骤。尽管图中没有示出,但是优选地,该记录相关信息的步骤可以在步骤406之后执行或者与步骤406同时执行。
在一个实施例中,所记录的相关信息可以包括:主题页面的下载和/或更新时间、在主题页面中的下载/更新位置、每次下载时主题的回复数量等。
通过以上的描述可以看出,根据上述技术方案,针对具有多个结构相似的网页的网站,可以进行高效和自动的网页下载。
除了以上所描述的针对具有多个结构相似的网页的网站进行网页下载的方法以外,根据本发明的实施例,还相应地提供了与所述方法对应的针对具有多个结构相似的网页的网站进行网页下载的装置。
图7是示出了根据本发明的一个实施例的网页下载装置的示意性结构图。
如图7所示,网页下载装置700可以包括选取单元702、模板生成单元704、下载更新单元706。
选取单元702被配置成根据网页的文本特征和/或结构特征从多个网页中选取至少一个列表页面。
模板生成单元704被配置成生成列表页面模板。具体来说,可以根据选出的列表页面中的至少一个来生成列表页面模板。
下载更新单元706被配置成下载和/或更新主题页面。具体来说,可以利用所生成的列表页面模板和所获得的每个列表页面来进行下载和/或更新。
图8示出了根据本发明一个实施例的模板生成单元的示意性结构图。
如图8所示,模板生成单元可以包括树结构构建单元802、节点选择单元804、路径生成单元806、路径保存单元808。
其中,树结构构建单元802被配置成基于列表页面中的至少一个来构建列表页面的DOM树结构。例如,可以利用DOM技术来解析列表页面,从而建立列表页面的DOM树结构。
节点选择单元804被配置成选择列表页面的DOM树结构中的一个或多个包含感兴趣的信息的节点。
路径生成单元806被配置成从相应的DOM树结构中获取所选择的节点的路径信息。在一个实施例中,节点的路径信息可以是字符串形式的。
路径保存单元808被配置成保存所选择各节点的路径信息,从而生成列表页面模板。当生成了所有所选择节点的路径信息后,也就获得了包括这些节点的路径信息的列表页面模板。
图9示出了根据本发明一个实施例的下载更新单元的示意性结构图。
如图9所述,下载更新单元包括信息提取单元902、判断单元904和执行单元906。
信息提取单元902被配置成基于列表页面模板从列表页面提取相关信息。具体来说,可以基于列表页面模板中的路径信息从列表页面中提取出用于网页下载和/或更新的相关信息。
判断单元904被配置成判断列表页面中是否存在新主题或者列表页面中是否存在新回复(即列表页面中的主题是否有更新)。具体来说,判断单元904根据提取出的与主题有关的信息来判断列表页面中是否存在新主题或者列表页面中的主题是否有更新。
执行单元906被配置成对列表页面中的主题页面进行下载和/或更新。具体来说,在列表页面中的主题存在更新(即出现新回复)或列表页面中出现新主题的情况下,执行单元906更新该主题的主题页面或下载该新主题的主题页面。
可以看出,图7至图9所示的装置可以相应地实施以上结合图1至图6所描述的方法。因此,此处不再重复描述图7至图9所示的装置在执行相应方法时的具体操作过程,以使说明书简洁。
上述装置中各个组成模块、单元可通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图10所示的通用计算机1000)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
在图10中,中央处理单元(CPU)1001根据只读存储器(ROM)1002中存储的程序或从存储部分1008加载到随机存取存储器(RAM)1003的程序执行各种处理。在RAM 1003中,也根据需要存储当CPU 1001执行各种处理等等时所需的数据。CPU 1001、ROM 1002和RAM 1003经由总线1004彼此连接。输入/输出接口1005也连接到总线1004。
下述部件连接到输入/输出接口1005:输入部分1006(包括键盘、鼠标等等)、输出部分1007(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分1008(包括硬盘等)、通信部分1009(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1009经由网络比如因特网执行通信处理。根据需要,驱动器1010也可连接到输入/输出接口1005。可拆卸介质1011比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1010上,使得从中读出的计算机程序根据需要被安装到存储部分1008中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质1011安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图10所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1011。可拆卸介质1011的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 1002、存储部分1008中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
最后,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外,在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上虽然结合附图详细描述了本发明的实施例,但是应当明白,上面所描述的实施方式只是用于说明本发明,而并不构成对本发明的限制。对于本领域的技术人员来说,可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此,本发明的范围仅由所附的权利要求及其等效含义来限定。
根据上述描述,可以看出本发明提供了以下的技术方案。
方案1.一种网页下载的方法,包括:
选取步骤,从多个网页中选取至少一个列表页面;
模板生成步骤,根据所述至少一个列表页面中的一个或多个来生成列表页面模板;
下载更新步骤,利用所述列表页面模板和所述至少一个列表页面来下载和/或更新所述至少一个列表页面中所包含的主题的主题页面。
方案2.根据方案1所述的网页下载的方法,其中所述选取步骤包括:根据网页的文本特征和/或结构特征来判断网页是否是列表页面。
方案3.根据方案2所述的网页下载的方法,其中所述文本特征包括下述特征中的至少一个:网页标题、网页自身的URL中的特征标识符、网页中的URL中的特征标识符、网页编号。
方案4.根据方案2所述的网页下载的方法,其中所述结构特征包括下述特征中的至少一个:包含大量的时间信息、包含大量的链接信息、URL文本占页面文本的比率大、结构重复度高。
方案5.根据方案1-4中之一所述的网页下载的方法,其中所述模板生成步骤包括:基于所述至少一个列表页面中的一个或多个来建立文档对象模型树;选择所述文档对象模型树中的一个或多个节点;从文档对象模型树中提取所选择的节点的路径信息;以及保存各节点的路径信息以形成所述列表页面模板。
方案6.根据方案1-4中之一所述的网页下载的方法,其中所述下载更新步骤包括:信息提取步骤,基于所述列表页面模板从列表页面提取与主题页面有关的信息;判断步骤,基于所述与主题页面有关的信息来判断是否出现新主题和/或已有主题的主题页面是否有更新;执行步骤,基于判断步骤的结果来下载所述新主题的主题页面和/或更新所述已有主题的主题页面。
方案7.根据方案6所述的网页下载的方法,其中所述与主题页面有关的信息包括:主题的标题和主题的首次发表时间中的至少一个,主题的回复数量和主题的最新回复时间中的至少一个,以及主题的第一主题页面的URL。
方案8.根据方案7所述的网页下载的方法,其中所述执行步骤还包括,在下载和/或更新结束时,记录主题页面的下载和/或更新时间、在主题页面中的下载/更新位置、主题的回复数量。
方案9.根据方案8所述的网页下载的方法,其中所述判断步骤包括:根据主题的标题或根据主题的首次发表时间和上一次的下载和/或更新时间来判断是否存在新主题;以及,根据主题的最新回复时间和上一次下载和/或更新时的下载和/或更新时间或根据主题的回复数量和上一次下载和/或更新时的回复数量来判断已有主题的主题页面中是否存在更新。
方案10.根据方案9所述的网页下载的方法,其中所述执行步骤包括:如果存在新主题,则基于所述新主题的第一主题页面的URL来下载所述新主题的主题页面;和/或如果已有主题的主题页面中存在更新,则从所述已有主题的主题页面上一次下载和/或更新时的下载/更新位置起更新所述已有主题的主题页面。
方案11.一种网页下载的装置,包括
选取单元,从多个网页中选取至少一个列表页面;
模板生成单元,根据所述至少一个列表页面中的一个或多个来生成列表页面模板;
下载更新单元,利用所述列表页面模板和所述至少一个列表页面来下载和/或更新所述至少一个列表页面中所包含的主题的主题页面。
方案12.根据方案11所述的网页下载的装置,其中所述选取单元被配置成:根据网页的文本特征和/或结构特征来判断网页是否是列表页面。
方案13.根据方案12所述的网页下载的装置,其中所述文本特征包括下述特征中的至少一个:网页标题、网页自身的URL中的特征标识符、网页中的URL中的特征标识符、网页编号。
方案14.根据方案12所述的网页下载的装置,其中所述结构特征包括下述特征中的至少一个:包含大量的时间信息、包含大量的链接信息、URL文本占页面文本的比率大、结构重复度高。
方案15.根据方案11-14中之一所述的网页下载的装置,其中所述模板生成单元包括:树结构构建单元,基于所述至少一个列表页面中的一个或多个来建立文档对象模型树;节点选择单元,选择所述文档对象模型树中的一个或多个节点;路径生成单元,从文档对象模型树中提取所选择的节点的路径信息;以及路径保存单元,保存各节点的路径信息以形成所述列表页面模板。
方案16.根据方案11-14中之一所述的网页下载的装置,其中所述下载更新单元包括:信息提取单元,基于所述列表页面模板从列表页面提取与主题页面有关的信息;判断单元,基于所述与主题页面有关的信息来判断是否出现新主题和/或已有主题的主题页面是否有更新;执行单元,基于判断步骤的结果来下载所述新主题的主题页面和/或更新所述已有主题的主题页面。
方案17.根据方案16所述的网页下载的装置,其中所述与主题页面有关的信息包括:主题的标题和主题的首次发表时间中的至少一个,主题的回复数量和主题的最新回复时间中的至少一个,以及主题的第一主题页面的URL。
方案18.根据方案17所述的网页下载的装置,其中所述执行单元还被配置成,在下载和/或更新结束后,记录主题页面的下载和/或更新时间、在主题页面中的下载/更新位置、主题的回复数量。
方案19.根据方案18所述的网页下载的装置,其中所述判断单元被配置成:根据主题的标题或根据主题的首次发表时间和上一次的下载和/或更新时间来判断是否存在新主题;以及,根据主题的最新回复时间和上一次下载和/或更新时的下载和/或更新时间或根据主题的回复数量和上一次下载和/或更新时的回复数量来判断已有主题的主题页面中是否存在更新。
方案20.根据方案19所述的网页下载的装置,其中所述执行单元被配置成:如果存在新主题,则基于所述新主题的第一主题页面的URL来下载所述新主题的主题页面;和/或如果已有主题的主题页面中存在更新,则从所述已有主题的主题页面上一次下载和/或更新时的下载/更新位置起更新所述已有主题的主题页面。
方案21.一种程序产品,该程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行如方案1至10中任一项所述的方法。
方案22.一种存储介质,该存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行如方案1至10中任一项所述的方法。

Claims (10)

1.一种网页下载的方法,包括:
选取步骤,从多个网页中选取至少一个列表页面;
模板生成步骤,根据所述至少一个列表页面中的一个或多个来生成列表页面模板;以及
下载更新步骤,利用所述列表页面模板和所述至少一个列表页面来下载和/或更新所述至少一个列表页面中所包含的主题的主题页面。
2.根据权利要求1所述的网页下载的方法,其中所述选取步骤包括:根据网页的文本特征和/或结构特征来判断网页是否是列表页面。
3.根据权利要求2所述的网页下载的方法,其中所述文本特征包括下述特征中的至少一个:网页标题、网页自身的URL中的特征标识符、网页中的URL中的特征标识符、网页编号。
4.根据权利要求2所述的网页下载的方法,其中所述结构特征包括下述特征中的至少一个:包含大量的时间信息、包含大量的链接信息、URL文本占页面文本的比率大、结构重复度高。
5.根据权利要求1-4中之一所述的网页下载的方法,其中所述下载更新步骤包括:信息提取步骤,基于所述列表页面模板从列表页面提取与主题页面有关的信息;判断步骤,基于所述与主题页面有关的信息来判断是否出现新主题和/或已有主题的主题页面是否有更新;执行步骤,基于判断步骤的结果来下载所述新主题的主题页面和/或更新所述已有主题的主题页面。
6.根据权利要求5所述的网页下载的方法,其中所述与主题页面有关的信息包括:主题的标题和主题的首次发表时间中的至少一个,主题的回复数量和主题的最新回复时间中的至少一个,以及主题的第一主题页面的URL。
7.根据权利要求6所述的网页下载的方法,其中所述执行步骤还包括,在下载和/或更新结束时,记录主题页面的下载和/或更新时间、在主题页面中的下载/更新位置、主题的回复数量。
8.根据权利要求7所述的网页下载的方法,其中所述判断步骤包括:根据主题的标题或根据主题的首次发表时间和上一次的下载和/或更新时间来判断是否存在新主题;以及,根据主题的最新回复时间和上一次下载和/或更新时的下载和/或更新时间或根据主题的回复数量和上一次下载和/或更新时的回复数量来判断已有主题的主题页面中是否存在更新。
9.根据权利要求8所述的网页下载的方法,其中所述执行步骤包括:如果存在新主题,则基于所述新主题的第一主题页面的URL来下载所述新主题的主题页面;和/或如果已有主题的主题页面中存在更新,则从所述已有主题的主题页面上一次下载和/或更新时的下载/更新位置起更新所述已有主题的主题页面。
10.一种网页下载的装置,包括:
选取单元,从多个网页中选取至少一个列表页面;
模板生成单元,根据所述至少一个列表页面中的一个或多个来生成列表页面模板;以及
下载更新单元,利用所述列表页面模板和所述至少一个列表页面来下载和/或更新所述至少一个列表页面中所包含的主题的主题页面。
CN201010120118XA 2010-02-24 2010-02-24 网页下载的方法和装置 Expired - Fee Related CN102163203B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010120118XA CN102163203B (zh) 2010-02-24 2010-02-24 网页下载的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010120118XA CN102163203B (zh) 2010-02-24 2010-02-24 网页下载的方法和装置

Publications (2)

Publication Number Publication Date
CN102163203A true CN102163203A (zh) 2011-08-24
CN102163203B CN102163203B (zh) 2013-12-04

Family

ID=44464436

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010120118XA Expired - Fee Related CN102163203B (zh) 2010-02-24 2010-02-24 网页下载的方法和装置

Country Status (1)

Country Link
CN (1) CN102163203B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902794A (zh) * 2012-09-29 2013-01-30 北京奇虎科技有限公司 网页分类系统及方法
CN102902790A (zh) * 2012-09-29 2013-01-30 北京奇虎科技有限公司 网页分类系统及方法
CN102902792A (zh) * 2012-09-29 2013-01-30 北京奇虎科技有限公司 列表页识别系统及方法
CN102929948A (zh) * 2012-09-29 2013-02-13 北京奇虎科技有限公司 列表页识别系统及方法
CN103150355A (zh) * 2013-02-21 2013-06-12 北京小米科技有限责任公司 一种网页内容预览的方法、装置及设备
CN103647803A (zh) * 2013-11-22 2014-03-19 北京奇虎科技有限公司 一种移动终端订阅内容的方法及装置
CN104156397A (zh) * 2014-07-16 2014-11-19 百度在线网络技术(北京)有限公司 一种用于收藏页面的方法与设备
CN104253844A (zh) * 2013-06-28 2014-12-31 腾讯科技(北京)有限公司 进行微博数据下载的方法及系统、用户终端及下载服务器
CN106339154A (zh) * 2015-07-08 2017-01-18 阿里巴巴集团控股有限公司 一种列表页面更新方法和装置
CN107623624A (zh) * 2016-07-15 2018-01-23 阿里巴巴集团控股有限公司 提供通知消息的方法及装置
CN109582886A (zh) * 2018-11-02 2019-04-05 北京字节跳动网络技术有限公司 页面内容提取方法、模板的生成方法及装置、介质及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005116856A1 (en) * 2004-05-29 2005-12-08 Tnaru Co., Ltd. Method for building home page using web page templet
CN101192234A (zh) * 2007-06-07 2008-06-04 腾讯科技(深圳)有限公司 一种基于网页抽取的搜索系统及搜索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005116856A1 (en) * 2004-05-29 2005-12-08 Tnaru Co., Ltd. Method for building home page using web page templet
CN101192234A (zh) * 2007-06-07 2008-06-04 腾讯科技(深圳)有限公司 一种基于网页抽取的搜索系统及搜索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宫进等: "互联网信息定向采集系统的设计与实现", 《计算机应用》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183843B (zh) * 2012-09-29 2018-09-14 北京奇虎科技有限公司 列表页识别系统及方法
CN102902790A (zh) * 2012-09-29 2013-01-30 北京奇虎科技有限公司 网页分类系统及方法
CN102902792A (zh) * 2012-09-29 2013-01-30 北京奇虎科技有限公司 列表页识别系统及方法
CN102929948A (zh) * 2012-09-29 2013-02-13 北京奇虎科技有限公司 列表页识别系统及方法
CN102902794A (zh) * 2012-09-29 2013-01-30 北京奇虎科技有限公司 网页分类系统及方法
CN102929948B (zh) * 2012-09-29 2017-03-08 北京奇虎科技有限公司 列表页识别系统及方法
CN105183843A (zh) * 2012-09-29 2015-12-23 北京奇虎科技有限公司 列表页识别系统及方法
CN102902794B (zh) * 2012-09-29 2016-08-03 北京奇虎科技有限公司 网页分类系统及方法
CN102902792B (zh) * 2012-09-29 2015-10-21 北京奇虎科技有限公司 列表页识别系统及方法
CN103150355A (zh) * 2013-02-21 2013-06-12 北京小米科技有限责任公司 一种网页内容预览的方法、装置及设备
CN104253844A (zh) * 2013-06-28 2014-12-31 腾讯科技(北京)有限公司 进行微博数据下载的方法及系统、用户终端及下载服务器
CN104253844B (zh) * 2013-06-28 2018-06-22 腾讯科技(北京)有限公司 进行微博数据下载的方法及系统、用户终端及下载服务器
CN103647803A (zh) * 2013-11-22 2014-03-19 北京奇虎科技有限公司 一种移动终端订阅内容的方法及装置
CN104156397A (zh) * 2014-07-16 2014-11-19 百度在线网络技术(北京)有限公司 一种用于收藏页面的方法与设备
CN106339154B (zh) * 2015-07-08 2019-09-17 阿里巴巴集团控股有限公司 一种列表页面更新方法和装置
CN106339154A (zh) * 2015-07-08 2017-01-18 阿里巴巴集团控股有限公司 一种列表页面更新方法和装置
CN107623624A (zh) * 2016-07-15 2018-01-23 阿里巴巴集团控股有限公司 提供通知消息的方法及装置
CN107623624B (zh) * 2016-07-15 2021-03-16 阿里巴巴集团控股有限公司 提供通知消息的方法及装置
CN109582886A (zh) * 2018-11-02 2019-04-05 北京字节跳动网络技术有限公司 页面内容提取方法、模板的生成方法及装置、介质及设备
CN109582886B (zh) * 2018-11-02 2022-05-10 北京字节跳动网络技术有限公司 页面内容提取方法、模板的生成方法及装置、介质及设备

Also Published As

Publication number Publication date
CN102163203B (zh) 2013-12-04

Similar Documents

Publication Publication Date Title
CN102163203B (zh) 网页下载的方法和装置
CN102253937B (zh) 获取网页中的感兴趣信息的方法及相关装置
CN102495855B (zh) 自动登录方法及装置
CN101661512B (zh) 一种识别传统表单信息并创建对应Web表单的系统及方法
CN102184189B (zh) 基于dom节点文本密度的网页核心块确定方法
CN1936893B (zh) 基于互联网信息的输入法词频库的生成方法和系统
CN111125598A (zh) 数据智能查询方法、装置、设备及存储介质
CN102375847B (zh) 形成用于生成文档模板的合并树的方法以及装置
CN109240692A (zh) 一种基于通用模板的网页数据库开发的建立方法和系统
CN101622598A (zh) 电子内容分类
CN101872347A (zh) 判断网页类型的方法和装置
CN110162457A (zh) 用户界面的测试方法、装置、设备及存储介质
CN103559268A (zh) 电子书的提供方法、系统及云端服务器
CN104133878A (zh) 用户标签的生成方法和装置
CN105045645A (zh) 网页加载方法、装置及系统
CN103294732A (zh) 网页抓取方法及爬虫
CN102915361B (zh) 一种基于文字分布特征的网页正文提取方法
CN103544186A (zh) 挖掘图片中的主题关键词的方法和设备
CN107862039A (zh) 网页数据获取方法、系统和数据匹配推送方法
CN105095206A (zh) 信息处理方法以及信息处理装置
CN104572787A (zh) 伪原创网站的识别方法及装置
CN103617043A (zh) 一种带图片网页数据上传的方法和系统
CN112785284A (zh) 基于结构化文档的报文入库方法及装置
CN102375830A (zh) 判断网页更新的方法和装置及网站同步的方法和装置
CN101840402B (zh) 从多语言网站构建多语言的对象层次结构的方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20131204

Termination date: 20180224

CF01 Termination of patent right due to non-payment of annual fee