CN106933840A - 论坛目录页内容爬取方法和装置 - Google Patents
论坛目录页内容爬取方法和装置 Download PDFInfo
- Publication number
- CN106933840A CN106933840A CN201511019059.6A CN201511019059A CN106933840A CN 106933840 A CN106933840 A CN 106933840A CN 201511019059 A CN201511019059 A CN 201511019059A CN 106933840 A CN106933840 A CN 106933840A
- Authority
- CN
- China
- Prior art keywords
- forum
- page
- link
- catalogue page
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请公开了一种论坛目录页内容爬取方法和装置。其中,该方法包括:获取论坛目录页的链接;根据论坛目录页的链接按照预设排序规则构建爬取请求,其中,预设排序规则用于使论坛目录页的内容按照发表时间排序,爬取请求用于向网站服务器请求论坛目录页的内容;以及根据爬取请求进行论坛目录页内容的爬取。本申请解决了相关技术中在爬取论坛目录页的内容时严重浪费网络资源的技术问题,进而达到了在爬取论坛目录页的内容时降低网络资源浪费的效果。
Description
技术领域
本申请涉及数据处理领域,具体而言,涉及一种论坛目录页内容爬取方法和装置。
背景技术
通过网络爬虫来爬取互联网上的海量数据越来越受到热捧,然而全球互联网上的数据类型千差外别,例如,新闻、财经类的数据由于实时性的原因,通常利用发布日期加上一定的规则产生唯一的统一资源定位符(Uniform Resource Locator,简称为URL),这种网络资源的爬取对于网络爬虫来说是十分便利的,通过传统的广度遍历即可逐层爬取;然而,网络上另外一个重要的资源就是论坛类的网页,该类网页的一个显著特点就是在目录页面网页的缺省排序是按照最后的回复时间来排序的。当前大多网络爬虫爬取的时候,一般是预先指定需要爬取的规则(例如,针对有翻页的目录页,指定最大翻页数),然后再利用爬取技术来逐步翻页爬取每页的内容。
现有技术在爬取论坛目录页面的时候,只能根据解析出来的URL作为爬取论坛的来源。由于论坛目录页面通常将最后回复的帖子列在目录页面的最前面,如果网络爬虫从上到下依次爬取各个帖子,将爬取到很多旧的无效的帖子(例如,数月前发表的帖子,仅仅是因为有人最近回帖而排在最前面)。而网络数据的时效性通常是爬虫首要关注的,当前的方法通常是先将各个帖子(例如,文章)爬取下来,然后再判断各个帖子的发帖时间,如果超过系统规定的阈值(例如,大于7天)的帖子将被丢弃。该方法的缺点是浪费巨大的网络流量和带宽,因为通常需要先从网络上将网页内容爬取到本地,然后在本地对网站内容解析出发帖时间,再判断是否需要丢弃该帖子;同时,如果在爬取量较大的情况下,在本地解析也十分将耗时而且耗费资源。
针对相关技术中在爬取论坛目录页的内容时严重浪费网络资源的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种论坛目录页内容爬取方法和装置,以解决相关技术中在爬取论坛目录页的内容时严重浪费网络资源的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种论坛目录页内容爬取方法。该方法包括:获取论坛目录页的链接;根据论坛目录页的链接按照预设排序规则构建爬取请求,其中,预设排序规则用于使论坛目录页的内容按照发表时间排序,爬取请求用于向网站服务器请求论坛目录页的内容;以及根据爬取请求进行论坛目录页内容的爬取。
进一步地,获取论坛目录页的链接包括:获取目标网站的各个页面的链接,其中,目标网站为需要进行论坛目录页内容爬取的网站;分别判断各个页面的链接是否满足第一预设规则;以及获取各个页面的链接中满足第一预设规则的链接,作为论坛目录页的链接。
进一步地,根据爬取请求进行论坛目录页内容的爬取包括:将爬取请求发送至网站服务器,其中,网站服务器根据爬取请求,将论坛目录页的内容按照发表时间进行排序,并返回按照发表时间排序后的论坛目录页的内容;以及接收网站服务器返回的论坛目录页的内容。
进一步地,预设排序规则包括多个排序规则,根据论坛目录页的链接按照预设排序规则构建爬取请求包括:确定论坛目录页的链接的类型;根据论坛目录页的链接的类型选择对应的排序规则;以及根据论坛目录页的链接的类型对应的排序规则构建爬取请求。
进一步地,预设排序规则包括基于文本增加的排序规则、基于Cookie的排序规则和基于文本替换的排序规则。
为了实现上述目的,根据本申请的另一方面,提供了一种论坛目录页内容爬取装置。该装置包括:获取单元,用于获取论坛目录页的链接;构建单元,用于根据论坛目录页的链接按照预设排序规则构建爬取请求,其中,预设排序规则用于使论坛目录页的内容按照发表时间排序,爬取请求用于向网站服务器请求论坛目录页的内容;以及爬取单元,用于根据爬取请求进行论坛目录页内容的爬取。
进一步地,获取单元包括:第一获取模块,用于获取目标网站的各个页面的链接,其中,目标网站为需要进行论坛目录页内容爬取的网站;第一判断模块,用于分别判断各个页面的链接是否满足第一预设规则;以及第二获取模块,用于获取各个页面的链接中满足第一预设规则的链接,作为论坛目录页的链接。
进一步地,爬取单元包括:发送模块,用于将爬取请求发送至网站服务器,其中,网站服务器根据爬取请求,将论坛目录页的内容按照发表时间进行排序,并返回按照发表时间排序后的论坛目录页的内容;以及接收模块,用于接收网站服务器返回的论坛目录页的内容。
进一步地,预设排序规则包括多个排序规则,构建单元包括:确定模块,用于确定论坛目录页的链接的类型;选择模块,用于根据论坛目录页的链接的类型选择对应的排序规则;以及构建模块,用于根据论坛目录页的链接的类型对应的排序规则构建爬取请求。
进一步地,预设排序规则包括基于文本增加的排序规则、基于Cookie的排序规则和基于文本替换的排序规则。
本申请通过获取论坛目录页的链接;根据论坛目录页的链接按照预设排序规则构建爬取请求,其中,预设排序规则用于使论坛目录页的内容按照发表时间排序,爬取请求用于向网站服务器请求论坛目录页的内容;以及根据爬取请求进行论坛目录页内容的爬取,根据本申请构建的爬取请求从网站服务器获取的论坛目录页的内容按照发表时间进行排序,从而爬取论坛目录页的文章时可以不用爬取那些发表时间较早的文章,节省了网络资源,也避免了本地解析的资源浪费,解决了相关技术中在爬取论坛目录页的内容时严重浪费网络资源的问题,进而达到了在爬取论坛目录页的内容时降低网络资源浪费的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的论坛目录页内容爬取方法的流程图;以及
图2是根据本申请实施例的论坛目录页内容爬取装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于描述,以下对本申请涉及的一些概念或术语进行说明:
论坛目录页,是指论坛网站中显示用户发表的文章的目录页面。
论坛内容页,是指论坛网站中显示用户发表的文章的详细页面。
URL,即统一资源定位符,也称为链接或是超级链接,是指访问一个网站需要的地址,例如,http://www.baidu.com。
爬虫系统,是指用于执行网页内容爬取的系统,在该爬虫系统中设置有网络爬虫,其中,网络爬虫是一种按照预设规则自动抓取万维网信息的程序或者脚本。
爬取请求,包括待爬取网页的链接、Cookie等数据,网络爬虫在需要爬取某个网页内容时向网站服务器发送爬取请求,网站服务器解析爬取请求并返回对应网页的内容。
根据本申请实施例,提供了一种论坛目录页内容爬取方法。图1是根据本申请实施例的论坛目录页内容爬取方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取论坛目录页的链接。
本申请实施例的论坛目录页的链接即论坛目录页的URL,本申请实施例可以是获取一个论坛目录页的链接,也可以是分别获取多个论坛目录页的链接,具体地,可以预先向爬虫系统指定需要进行网页内容爬取的论坛目录页的链接,也可以是通过网络爬虫自动获取某个或某几个目标网站中论坛目录页的链接,其中,目标网站为需要进行网页内容爬取的网站。
可选地,获取论坛目录页的链接包括:获取目标网站的各个页面的链接,其中,目标网站为需要进行论坛目录页内容爬取的网站;分别判断各个页面的链接是否满足第一预设规则;以及获取各个页面的链接中满足第一预设规则的链接,作为论坛目录页的链接。
具体地,本申请实施例可以预先向爬虫系统指定种子页面(即目标网站入口页面),通过网络爬虫对种子页面进行迭代爬取,并抽取爬取内容中的链接,从而得到目标网站的各个页面的链接。
由于目标网站中并不是所有的页面均为论坛目录页,因此,本申请实施例通过第一预设规则从目标网站的各个页面的链接中筛选出论坛目录页的链接,其中,第一预设规则可以根据各个网站的论坛目录页链接的特点进行设置,可选地,第一预设规则可以是正则匹配规则、模糊匹配规则或是全文匹配规则等。例如,某个网站的论坛目录页的链接均符合如下规则:http://bbs.xxx.com/forum-五位字符串-1.html,此时,可以将第一预设规则设置为正则表达式http://bbs.xxx.com/forum-\d+-1.html,符合该正则表达式的网页链接即判断为论坛目录页的链接。
步骤S104,根据论坛目录页的链接按照预设排序规则构建爬取请求,其中,预设排序规则用于使论坛目录页的内容按照发表时间排序,爬取请求用于向网站服务器请求论坛目录页的内容。
本申请实施例中的爬取请求中包括网页的链接、Cookie等数据,具体地,网络爬虫向网站服务器发送爬取请求,网站服务器根据爬取请求向网络爬虫返回对应的网页数据。
现有的论坛目录页的内容通常是按照最后回复时间进行排序的,本申请实施例的预设排序规则用于使论坛目录页的内容按照发表时间排序。具体地,预设排序规则需要根据网站特点进行设置,例如,对于一些网站,仅需爬取请求中的论坛目录页链接中包含?orderby=dateline,即可以实现论坛目录页内容按照发表时间排序;对于另一些网站,仅需要将爬取请求中的论坛目录页链接的特定部分进行替换,例如,将.htm替换为-1-1.aspx,即可以实现论坛目录页内容按照发表时间排序;对于另一些网站,仅需将爬取请求中Cookie的参数orderby_dateline置为1,即可以实现论坛目录页内容按照发表时间排序。
例如,某个论坛目录页的链接为http://bbs.xxx.com/forum-23432-1.html,增加?orderby=dateline后,得到的新链接为http://bbs.xxx.com/forum-23432-1.html?orderby=dateline,网站服务器接收到通过该新链接构建的爬取请求后,按照发表时间对该论坛目录页的内容排序后再返回该论坛目录页的内容,即实现了论坛目录页的内容按照发表时间排序。
可选地,本申请实施例也可以在判断出某个网页链接为论坛目录页链接后即根据该网页链接按照预设排序规则构建爬取请求,例如,执行语句<addname="http://bbs.xxx.com/forum-\d+-1.html"action="Add"param1="?orderby=dateline"/>,即对任何满足正则表达式http://bbs.xxx.com/forum-\d+-1.html的网页链接(即论坛目录页链接),都执行一个名为Add的操作动作,操作参数为?orderby=dateline(即在任何满足正则表达式http://bbs.xxx.com/forum-\d+-1.html的网页链接中增加?orderby=dateline)。
可选地,预设排序规则包括多个排序规则,根据论坛目录页的链接按照预设排序规则构建爬取请求包括:确定论坛目录页的链接的类型;根据论坛目录页的链接的类型选择对应的排序规则;以及根据论坛目录页的链接的类型对应的排序规则构建爬取请求。
由于不同类型的网站可能需要不同的排序规则构建爬取请求,本申请实施例通过解析论坛目录页的链接,确定论坛目录页的链接的类型,从而可以根据其类型查找到对应的排序规则构建爬取请求。可选地,预设排序规则包括基于文本增加的排序规则、基于Cookie的排序规则和基于文本替换的排序规则。
本申请实施例的基于文本增加的排序规则即在论坛目录页链接中增加内容,例如,在论坛目录页链接中增加?orderby=dateline;基于Cookie的排序规则可以是设置Cookie中包含的参数值,例如,将Cookie中的参数orderby_dateline置为1;基于文本替换的排序规则是指替换论坛目录页链接中部分内容,例如,将论坛目录页链接中.htm替换为-1-1.aspx。
需要说明的是,存在部分网站可能适用于多种排序规则,此时,可以任选其中一种适用的排序规则构建爬取请求。
步骤S106,根据爬取请求进行论坛目录页内容的爬取。
可选地,根据爬取请求进行论坛目录页内容的爬取包括:将爬取请求发送至网站服务器,其中,网站服务器根据爬取请求,将论坛目录页的内容按照发表时间进行排序,并返回按照发表时间排序后的论坛目录页的内容;以及接收网站服务器返回的论坛目录页的内容。
具体地,在通过上述步骤构建爬取请求后,可以基于该爬取请求向网站服务器请求数据,网站服务器解析该爬取请求,并将论坛目录页的内容按照发表时间排序后返回,网络爬虫接收网站服务器返回的按照发表时间排序后的论坛目录页的内容,实现论坛目录页内容的爬取,爬取结果中论坛目录页的内容是按照发表时间排序的,因此,后续解析中一旦解析出爬取结果中某篇文章未处于时间阈值内既可以停止后续文章的解析,也可以停止继续爬取论坛目录页后续页码中的文章,避免了本地解析的资源浪费,以及网络资源的浪费。
本申请实施例通过获取论坛目录页的链接;根据论坛目录页的链接按照预设排序规则构建爬取请求,其中,预设排序规则用于使论坛目录页的内容按照发表时间排序,爬取请求用于向网站服务器请求论坛目录页的内容;以及根据爬取请求进行论坛目录页内容的爬取,根据本申请构建的爬取请求从网站服务器获取的论坛目录页的内容按照发表时间进行排序,从而爬取论坛目录页的文章时可以不用爬取那些发表时间较早的文章,节省了网络资源,也避免了本地解析的资源浪费,解决了相关技术中在爬取论坛目录页的内容时严重浪费网络资源的问题,进而达到了在爬取论坛目录页的内容时降低网络资源浪费的效果。
根据本申请又一实施例的论坛目录页内容爬取方法,包括如下步骤:
步骤S202,获取目标论坛目录页的排序规则,其中,该排序规则用于使论坛目录页中的文章按照发表时间排序。
本申请实施例可以预先在爬虫系统中配置目标论坛目录页的排序规则,具体地,根据爬虫系统架构设计的不同,该排序规则可以直接配置在数据库中,也可能配置在相应的配置文件中,或者部署在网络上。
具体地,本申请实施例的排序规则包括第一预设规则和预设排序规则,可以同时实现论坛目录页的筛选和生成新的论坛目录页链接或是Cookie。具体地,第一预设规则的具体设置与网络爬虫的具体使用有关系,用户可以根据实际需要,采用适合其实际应用场景的匹配规则,例如,正则匹配规则、模糊匹配规则、全文匹配规则等;预设排序规则也需要根据网站特定进行设置,例如,在论坛目录页链接中增加?orderby=dateline,或是将论坛目录页链接中.htm替换为-1-1.aspx,或是将论坛目录页对应的Cookie中的参数orderby_dateline置为1等。
需要说明的是,该排序规则的获取可以通过人工获取,也可以通过专用工具自动爬取、分析获取等。
步骤S204,网络爬虫对种子页面进行迭代爬取,爬取完成后依次抽取其中的链接作为步骤S206的输入数据。
上述种子页面即网站的入口页面。
步骤S206,对于步骤S204中抽取出来的每一个链接,判断其是否满足步骤S202中定义的第一预设规则,如果该链接满足第一预设规则,则根据步骤S204中定义的预设排序规则,构建新的链接或者链接请求对象,否则直接执行步骤S208。
在步骤S206中,根据步骤S204输入的链接,采用步骤S202中定义好的排序规则,先判断当前链接是否满足第一预设规则,如果经过判断发现该链接满足第一预设规则,再利用预设排序规则对链接进行处理,形成新的链接或者链接请求对象。
例如,在步骤S204中定义了如下的排序规则:<addname="http://bbs.xxx.com/forum-\d+-1.html"action="Add"param1="?orderby=dateline"/>,该排序规则表明对于任何满足于正则表示式http://bbs.xxx.com/forum-\d+-1.html的网页链接,都将执行一个名为Add的操作动作,操作的参数是?orderby=dateline,执行后的结果是产生了一个新的链接,即如果你在步骤S204中提取的链接为:http://bbs.xxx.com/forum-23432-1.html,解析处理后即变为:http://bbs.xxx.com/forum-23432-1.html?orderby=dateline。
需要说明的是,本申请实施例的排序规则还可以基于Cookie进行设置,例如,<addname="http://bbs.yyyy.com.cn(.*)/forum-\d+-1.html"action="Cookie"param1="orderby_dateline=1;"/>,或是基于文本替换进行设置,例如,<addname="http://bbs.zzzz.com/forums/showforum-(.*).htm"action="Replace"param1=".htm"param2="-1-1.aspx"/>。
具体地,上述爬取请求包括网页链接、Cookie等数据,本申请实施例在链接满足第一预设规则时,根据预设排序规则构建新的链接或者链接请求对象(例如,新的Cookie),并基于新的链接或者链接请求对象构建爬取请求向网站服务器请求数据,网站服务器解析爬取请求,并将网页内容按照发表时间排序后返回。
步骤S208,根据步骤S206构建出的爬取请求进行后继爬取,直到不满足爬取条件为止,对于步骤S206中不满足排序规则的超级链接,网络爬虫可以根据需求采用缺省配置网络爬虫或者直接放弃爬取。
通过将爬取请求发送给网站服务器,网站服务器解析该爬取请求,并将网页内容按照发表时间排序后返回,网络爬虫接收网站服务器返回的按照发表时间排序后的论坛目录页的内容,实现论坛目录页内容的爬取。
本申请实施例需要对不满足第一预设规则的链接直接爬取或丢弃,也需要对经过步骤S206处理后的链接或者链接请求对象进行爬取,其中,对处理后的链接或者链接请求对象进行爬取,将使网络爬虫获得到完整的按照发表日期排序的网站内容,有了排序后的数据,将有助于网络爬虫的后继处理和决策。
从以上的描述中,可以看出,在本申请实施例提出了一种爬取论坛目录页内容的方法,在该方法下,通过预先配置目标论坛的目录页面排序规则,在网络爬虫爬取论坛目录页时自动添加该排序规则,通过该排序规则跳过论坛目录页的缺省排序,从而网络爬虫爬取回来的论坛目录页面就是按照发表时间排序的,最新发表的帖子排在最前面,网络爬虫只需依次爬取处理即可。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本申请实施例的另一方面,提供了一种论坛目录页内容爬取装置,该论坛目录页内容爬取装置可以用于执行本申请实施例的论坛目录页内容爬取方法,本申请实施例的论坛目录页内容爬取方法也可以通过本申请实施例的论坛目录页内容爬取装置来执行。
图2是根据本申请实施例的论坛目录页内容爬取装置的示意图,如图2所示,该装置包括:获取单元10、构建单元20和爬取单元30。
获取单元10,用于获取论坛目录页的链接。
构建单元20,用于根据论坛目录页的链接按照预设排序规则构建爬取请求,其中,预设排序规则用于使论坛目录页的内容按照发表时间排序,爬取请求用于向网站服务器请求论坛目录页的内容。
爬取单元30,用于根据爬取请求进行论坛目录页内容的爬取。
本申请实施例通过获取单元10获取论坛目录页的链接;构建单元20根据论坛目录页的链接按照预设排序规则构建爬取请求,其中,预设排序规则用于使论坛目录页的内容按照发表时间排序,爬取请求用于向网站服务器请求论坛目录页的内容;以及爬取单元30根据爬取请求进行论坛目录页内容的爬取,根据本申请构建的爬取请求从网站服务器获取的论坛目录页的内容按照发表时间进行排序,从而爬取论坛目录页的文章时可以不用爬取那些发表时间较早的文章,节省了网络资源,也避免了本地解析的资源浪费,解决了相关技术中在爬取论坛目录页的内容时严重浪费网络资源的问题,进而达到了在爬取论坛目录页的内容时降低网络资源浪费的效果。
可选地,获取单元10包括:第一获取模块,用于获取目标网站的各个页面的链接,其中,目标网站为需要进行论坛目录页内容爬取的网站;第一判断模块,用于分别判断各个页面的链接是否满足第一预设规则;以及第二获取模块,用于获取各个页面的链接中满足第一预设规则的链接,作为论坛目录页的链接。
可选地,爬取单元30包括:发送模块,用于将爬取请求发送至网站服务器,其中,网站服务器根据爬取请求,将论坛目录页的内容按照发表时间进行排序,并返回按照发表时间排序后的论坛目录页的内容;以及接收模块,用于接收网站服务器返回的论坛目录页的内容。
可选地,预设排序规则包括多个排序规则,构建单元20包括:确定模块,用于确定论坛目录页的链接的类型;选择模块,用于根据论坛目录页的链接的类型选择对应的排序规则;以及构建模块,用于根据论坛目录页的链接的类型对应的排序规则构建爬取请求。
可选地,预设排序规则包括基于文本增加的排序规则、基于Cookie的排序规则和基于文本替换的排序规则。
所述论坛目录页内容爬取装置包括处理器和存储器,上述获取单元、构建单元和爬取单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来进行论坛目录页内容的爬取。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取论坛目录页的链接;根据论坛目录页的链接按照预设排序规则构建爬取请求,其中,预设排序规则用于使论坛目录页的内容按照发表时间排序,爬取请求用于向网站服务器请求论坛目录页的内容;以及根据爬取请求进行论坛目录页内容的爬取。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种论坛目录页内容爬取方法,其特征在于,包括:
获取论坛目录页的链接;
根据所述论坛目录页的链接按照预设排序规则构建爬取请求,其中,所述预设排序规则用于使所述论坛目录页的内容按照发表时间排序,所述爬取请求用于向网站服务器请求所述论坛目录页的内容;以及
根据所述爬取请求进行所述论坛目录页内容的爬取。
2.根据权利要求1所述的方法,其特征在于,获取论坛目录页的链接包括:
获取目标网站的各个页面的链接,其中,所述目标网站为需要进行论坛目录页内容爬取的网站;
分别判断所述各个页面的链接是否满足第一预设规则;以及
获取所述各个页面的链接中满足所述第一预设规则的链接,作为所述论坛目录页的链接。
3.根据权利要求1所述的方法,其特征在于,根据所述爬取请求进行所述论坛目录页内容的爬取包括:
将所述爬取请求发送至所述网站服务器,其中,所述网站服务器根据所述爬取请求,将所述论坛目录页的内容按照发表时间进行排序,并返回按照发表时间排序后的论坛目录页的内容;以及
接收所述网站服务器返回的所述论坛目录页的内容。
4.根据权利要求1所述的方法,其特征在于,所述预设排序规则包括多个排序规则,
根据所述论坛目录页的链接按照预设排序规则构建爬取请求包括:
确定所述论坛目录页的链接的类型;
根据所述论坛目录页的链接的类型选择对应的排序规则;以及
根据所述论坛目录页的链接的类型对应的排序规则构建所述爬取请求。
5.根据权利要求4所述的方法,其特征在于,所述预设排序规则包括基于文本增加的排序规则、基于Cookie的排序规则和基于文本替换的排序规则。
6.一种论坛目录页内容爬取装置,其特征在于,包括:
获取单元,用于获取论坛目录页的链接;
构建单元,用于根据所述论坛目录页的链接按照预设排序规则构建爬取请求,其中,所述预设排序规则用于使所述论坛目录页的内容按照发表时间排序,所述爬取请求用于向网站服务器请求所述论坛目录页的内容;以及
爬取单元,用于根据所述爬取请求进行所述论坛目录页内容的爬取。
7.根据权利要求6所述的装置,其特征在于,所述获取单元包括:
第一获取模块,用于获取目标网站的各个页面的链接,其中,所述目标网站为需要进行论坛目录页内容爬取的网站;
判断模块,用于分别判断所述各个页面的链接是否满足第一预设规则;以及
第二获取模块,用于获取所述各个页面的链接中满足所述第一预设规则的链接,作为所述论坛目录页的链接。
8.根据权利要求6所述的装置,其特征在于,所述爬取单元包括:
发送模块,用于将所述爬取请求发送至所述网站服务器,其中,所述网站服务器根据所述爬取请求,将所述论坛目录页的内容按照发表时间进行排序,并返回按照发表时间排序后的论坛目录页的内容;以及
接收模块,用于接收所述网站服务器返回的所述论坛目录页的内容。
9.根据权利要求6所述的装置,其特征在于,所述预设排序规则包括多个排序规则,
所述构建单元包括:
确定模块,用于确定所述论坛目录页的链接的类型;
选择模块,用于根据所述论坛目录页的链接的类型选择对应的排序规则;以及
构建模块,用于根据所述论坛目录页的链接的类型对应的排序规则构建所述爬取请求。
10.根据权利要求9所述的装置,其特征在于,所述预设排序规则包括基于文本增加的排序规则、基于Cookie的排序规则和基于文本替换的排序规则。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511019059.6A CN106933840A (zh) | 2015-12-29 | 2015-12-29 | 论坛目录页内容爬取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511019059.6A CN106933840A (zh) | 2015-12-29 | 2015-12-29 | 论坛目录页内容爬取方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106933840A true CN106933840A (zh) | 2017-07-07 |
Family
ID=59442199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511019059.6A Pending CN106933840A (zh) | 2015-12-29 | 2015-12-29 | 论坛目录页内容爬取方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106933840A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110182A (zh) * | 2019-05-15 | 2019-08-09 | 八戒科技服务有限公司 | 一种适用于批量爬取的数据采集方法及系统 |
CN112199565A (zh) * | 2020-09-09 | 2021-01-08 | 北京小米松果电子有限公司 | 数据时效识别方法及装置 |
CN113190735A (zh) * | 2021-04-30 | 2021-07-30 | 北京精准沟通传媒科技股份有限公司 | 爬取数据的方法、装置、介质及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101751418A (zh) * | 2008-12-01 | 2010-06-23 | 中国移动通信集团公司 | 一种帖子呈现方法及装置 |
CN101819585A (zh) * | 2010-03-29 | 2010-09-01 | 哈尔滨工程大学 | 一种论坛事件传播图的构建装置及构建方法 |
CN102314494A (zh) * | 2011-08-24 | 2012-01-11 | 百度在线网络技术(北京)有限公司 | 一种用于处理网页内容的方法和设备 |
CN102479194A (zh) * | 2010-11-22 | 2012-05-30 | 北大方正集团有限公司 | Web信息处理方法及装置 |
CN102646098A (zh) * | 2011-02-16 | 2012-08-22 | 北京千橡网景科技发展有限公司 | 确定网络中的内容的热度的方法和设备 |
-
2015
- 2015-12-29 CN CN201511019059.6A patent/CN106933840A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101751418A (zh) * | 2008-12-01 | 2010-06-23 | 中国移动通信集团公司 | 一种帖子呈现方法及装置 |
CN101819585A (zh) * | 2010-03-29 | 2010-09-01 | 哈尔滨工程大学 | 一种论坛事件传播图的构建装置及构建方法 |
CN102479194A (zh) * | 2010-11-22 | 2012-05-30 | 北大方正集团有限公司 | Web信息处理方法及装置 |
CN102646098A (zh) * | 2011-02-16 | 2012-08-22 | 北京千橡网景科技发展有限公司 | 确定网络中的内容的热度的方法和设备 |
CN102314494A (zh) * | 2011-08-24 | 2012-01-11 | 百度在线网络技术(北京)有限公司 | 一种用于处理网页内容的方法和设备 |
Non-Patent Citations (1)
Title |
---|
张为: "公众论坛信息实时检索的研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110182A (zh) * | 2019-05-15 | 2019-08-09 | 八戒科技服务有限公司 | 一种适用于批量爬取的数据采集方法及系统 |
CN112199565A (zh) * | 2020-09-09 | 2021-01-08 | 北京小米松果电子有限公司 | 数据时效识别方法及装置 |
CN113190735A (zh) * | 2021-04-30 | 2021-07-30 | 北京精准沟通传媒科技股份有限公司 | 爬取数据的方法、装置、介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10789311B2 (en) | Method and device for selecting data content to be pushed to terminal, and non-transitory computer storage medium | |
US10402479B2 (en) | Method, server, browser, and system for recommending text information | |
US20140195893A1 (en) | Method and Apparatus for Generating Webpage Content | |
CN105335139B (zh) | 网页显示方法和装置 | |
WO2014194689A1 (en) | Method, server, browser, and system for recommending text information | |
CN107103062A (zh) | 一种网页推荐方法及系统 | |
CN107480277A (zh) | 用于网站日志采集的方法及装置 | |
CN102314494B (zh) | 一种用于处理网页内容的方法和设备 | |
CN107357903A (zh) | 用户行为数据整合方法、装置及电子设备 | |
CN103399877A (zh) | 一种多Android客户端服务共享方法及系统 | |
CN103440199A (zh) | 测试引导方法和装置 | |
CN105488205A (zh) | 页面生成方法和装置 | |
CN103530364A (zh) | 提供下载链接的方法及系统 | |
CN102629265B (zh) | 一种建立网页数据库的方法及系统 | |
CN104765746A (zh) | 用于移动通讯终端浏览器的数据处理方法和装置 | |
CN106933840A (zh) | 论坛目录页内容爬取方法和装置 | |
CN111090797A (zh) | 数据获取方法、装置、计算机设备和存储介质 | |
CN110264283A (zh) | 一种推广资源展示方法及装置 | |
CN108874802A (zh) | 网页检测方法和装置 | |
CN105718571A (zh) | 信息推送方法和装置 | |
CN104835052A (zh) | 一种提高网络广告投递精准度的方法及系统 | |
CN115375339A (zh) | 多媒体信息推荐方法、装置和设备及计算机存储介质 | |
CN107368923A (zh) | 景点热度预测方法及装置 | |
CN104111997B (zh) | 基于浏览器客户端的信息显示方法、装置和系统 | |
CN103227791A (zh) | 一种无线数据采集的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Applicant after: Beijing Guoshuang Technology Co.,Ltd. Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing Applicant before: Beijing Guoshuang Technology Co.,Ltd. |
|
CB02 | Change of applicant information | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170707 |
|
RJ01 | Rejection of invention patent application after publication |