CN102567407B - 一种论坛回帖增量采集方法及系统 - Google Patents

一种论坛回帖增量采集方法及系统 Download PDF

Info

Publication number
CN102567407B
CN102567407B CN201010618393.4A CN201010618393A CN102567407B CN 102567407 B CN102567407 B CN 102567407B CN 201010618393 A CN201010618393 A CN 201010618393A CN 102567407 B CN102567407 B CN 102567407B
Authority
CN
China
Prior art keywords
url
model
signed
returned
sender
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201010618393.4A
Other languages
English (en)
Other versions
CN102567407A (zh
Inventor
吴新丽
杨建武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Peking University
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University
Priority to CN201010618393.4A priority Critical patent/CN102567407B/zh
Priority to PCT/CN2011/084457 priority patent/WO2012083870A1/zh
Priority to JP2013545030A priority patent/JP5702474B2/ja
Priority to EP11851417.3A priority patent/EP2657854A4/en
Priority to US13/997,257 priority patent/US9552435B2/en
Publication of CN102567407A publication Critical patent/CN102567407A/zh
Application granted granted Critical
Publication of CN102567407B publication Critical patent/CN102567407B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种论坛回帖增量采集方法及系统,属于网络信息采集技术领域。本发明所述方法周期性判断所有需要采集的论坛列表页中是否存在新增帖子和具有新回帖的帖子;如果存在,则从所述新增帖子中提取出主帖和回帖信息,从所述具有新回帖的帖子中提取出新回帖信息。本发明所述系统包括用于周期性判断所有需要采集的论坛列表页中是否存在新增帖子和具有新回帖的帖子的判断装置(11);以及用于从新增帖子中提取出主帖和回帖信息,从具有新回帖的帖子中提取出新回帖信息的提取装置(12)。本发明能够快速、准确、完整地采集一篇帖子的所有主、回帖信息,从而解决了现有搜索引擎在搜索帖子的翻页回帖信息时存在漏搜或搜索不到的问题。

Description

一种论坛回帖增量采集方法及系统
技术领域
本发明属于网络信息采集技术领域,具体涉及一种论坛回帖增量采集方法及系统。
背景技术
随着互联网的出现,尤其网络论坛、网络社区的广泛开设,使得全世界范围的人群都可以在一起自由地发表、交流各种观点。中国的网络论坛达到一百多万个,并且80%的网站拥有独立的论坛,经常浏览网络论坛的人数已经过亿。不同于其他的形式,网络论坛具有速度快、范围广的特点。一个受人瞩目的话题可能在很短的时间内达到上万名网民的回帖讨论,回帖信息达到成百上千页。此时,用户不仅仅想查看话题的发起者的言论即主帖的内容,更想看到其他网民对该话题所发表的言论。然而,通过一般的搜索引擎很难查询到翻页的回帖信息,即使有时能够查询到,在时效性上也很不理想,数据延迟较大。现有的论坛采集系统也只是采集帖子的首页信息,而不采集帖子的回帖信息。
发明内容
针对现有技术中存在的缺陷,本发明所要解决的技术问题是提供一种论坛回帖增量采集方法及系统,该方法及系统能够快速、准确、完整地采集一篇帖子的所有主/回帖信息,克服了现有搜索引擎在搜索帖子的翻页回帖信息时存在漏搜或者搜索不到的缺陷,以及现有论坛采集系统只采集帖子的首页信息而不采集回帖信息的缺陷。
为解决上述技术问题,本发明采用的技术方案如下:
一种论坛回帖增量采集方法,包括以下步骤:
(1)根据帖子首页URL和帖子回复数信息,周期性判断所有需要采集的论坛列表页中是否存在新增帖子和/或具有新回帖的帖子;
(2)如果存在新增帖子,则从新增帖子中提取出主帖和回帖信息;如果存在具有新回帖的帖子,则计算新回帖起点和新回帖个数,根据新回帖起点和新回帖个数从具有新回帖的帖子中提取出新回帖信息。
一种论坛回帖增量采集系统,包括用于根据帖子首页URL和帖子回复数信息,周期性判断所有需要采集的论坛列表页中是否存在新增帖子和具有新回帖的帖子的判断装置;
用于对新增帖子,从新增帖子中提取出主帖和回帖信息;对具有新回帖的帖子,计算新回帖起点和新回帖个数,根据新回帖起点和新回帖个数从具有新回帖的帖子中提取出新回帖信息的提取装置。
本发明所述的方法及系统,通过周期性监控列表页的方式,能够及时获取列表页中的新增回帖和具有新回帖的帖子信息;通过URL标识和回复数信息进行快速消重处理,避免重复采集;通过区分不同的翻页链接提取方式达到快速进行翻页回帖采集的目的;从而能够快速、准确、完整地采集一篇帖子的所有主/回帖信息。回帖的漏采率在5%以下,实时性可达分钟级。
附图说明
图1是具体实施方式中论坛回帖增量采集系统的结构框图;
图2是具体实施方式中论坛回帖增量采集方法的流程图;
图3是具体实施方式中判断列表页中是否存在新增帖子和具有新回帖的帖子的方法流程图;
图4是具体实施方式中从新增帖子中提取出主帖和回帖信息,从具有新回帖的帖子中提取出新回帖信息的方法流程图。
具体实施方式
下面结合附图及具体实施方式对本发明进行进一步的说明。
如图1所示,本实施方式中论坛回帖增量采集系统包括判断装置11,与判断装置11连接的提取装置12。其中,判断装置11包括第一队列单元111、第一获取单元112、列表页提取单元113和判断单元114。提取装置12包括第二队列单元121、扫描单元122、第二获取单元123、内容页提取单元124和消重单元125。
判断装置11用于根据帖子首页URL和帖子回复数信息,周期性判断所有需要采集的论坛列表页中是否存在新增帖子和具有新回帖的帖子。其中,第一队列单元111用于将所有需要采集的论坛列表页URL添加到列表页采集队列。第一获取单元112用于从列表页采集队列中取出每个列表页URL。列表页提取单元113用于对取出的每个列表页URL,获取该列表页URL对应的网页内容,从所述网页内容中提取出每个帖子首页URL和当前回复数。判断单元113用于根据帖子首页URL判断每个帖子在已采集帖子信息表中是否存在;如果存在,则继续判断该帖子当前回复数是否大于已采集帖子信息表中记录的本次回复数,如果大于,则该帖子有新回帖,更新已采集帖子信息表中该帖子的上次回复数和本次回复数;如果该帖子在已采集帖子信息表中不存在,则该帖子为新增帖子,将该帖子首页URL和当前回复数添加到已采集帖子信息表中。
提取装置12用于对新增帖子,从新增帖子中提取出主帖和回帖信息;对具有新回帖的帖子,计算新回帖起点和新回帖个数,根据新回帖起点和新回帖个数从具有新回帖的帖子中提取出新回帖信息。其中,第二队列单元121用于将新增帖子的首页URL和具有新回帖的帖子URL添加到内容页采集队列。扫描单元122用于定时扫描内容页采集队列。第二获取单元123用于从内容页采集队列中取出每个URL。内容页提取单元124用于获取URL对应的网页内容,并从所述网页内容中提取主帖和/或回帖和/或翻页URL。消重单元125用于对论坛翻页方式为下一页翻页方式时从网页内容中提取的翻页URL进行消重处理。第二队列单元121还用于将消重后的翻页URL添加到内容页采集队列。
如图2所示,本实施方式中基于图1所示系统的论坛回帖增量采集方法的流程,包括以下步骤:
(1)判断装置11周期性判断所有需要采集的论坛列表页中是否存在新增帖子和/或具有新回帖的帖子。
如图3所示,本实施方式中采用的判断方法包括以下步骤:
(a)第一队列单元111将所有需要采集的论坛列表页URL添加到列表页采集队列。所述列表页是指论坛中包含所有帖子标题、URL(统一资源定位符)、点击数、回复数等信息的列表页面,不包括帖子的具体内容。如搜狐论坛的财经大杂烩频道的列表页,其URL如下:
http://club.business.sohu.com/l-enjoy-0-0-0-0.html。
再如人民网强国社区的国际论坛频道的列表页,其URL如下:
http://bbs1.people.com.cn/boardList.do?action=postList&boardId=6。
本实施方式中,对每个需要采集的论坛列表页均设定采集时间间隔,如每隔5分钟采集一次;监控每个列表页的采集时间间隔;当某个列表页达到采集时间间隔时,便将该列表页URL添加到列表页采集队列。
优选的,刷新间隔根据论坛的更新频率动态调整;论坛的更新频率越快,刷新间隔越短;论坛的更新频率越慢,则刷新间隔越长。如预先设定每隔5分钟采集一次,在后续采集过程中,如果发现论坛更新频率增加,则将刷新间隔缩短为3分钟,进而缩短为1分钟或更短。
论坛的更新频率的计算方法可参见中国专利申请“一种网页数据信息的定向采集方法及装置”(申请号:201010236363.7),此处不再赘述。
(b)第一获取单元112从列表页采集队列中取出每个列表页URL。
本实施方式中,从列表页采集队列中取出列表页URL采用的方法为:定时扫描列表页采集队列(扫描间隔时间可由用户根据具体应用情况设置),如果列表页采集队列不空,则按照先进先出顺序依次从列表页采集队列中取出列表页URL(从队列中取出URL后,该URL便会自动从队列中删除),并且满足该列表页URL所属网站的友好访问条件。如果某列表页URL不满足该列表页URL所属网站的友好访问条件,则在本次扫描中忽略该列表页URL,继续判断下一个列表页URL,该列表页URL留待后续扫描中处理。网站的友好反问条件包括当前访问数量限制和访问的时间间隔限制。判断是否满足网站的友好反问条件的方法可参见中国专利申请“一种从网站中多个不同IP的服务器抓取网页的方法及系统”(申请号:201010546334.0),此处不再赘述。
(c)列表页提取单元113对取出的每个列表页URL,获取该列表页URL对应的网页内容;再从网页内容中提取出每个帖子首页URL和当前回复数。
根据每个列表页的URL,向该URL所属网站发送获取该URL对应网页内容的HTTP请求,然后接收返回的网页内容。从网页内容中提取帖子首页URL和当前回复数为现有技术,此处不再赘述。
(d)判断单元113根据帖子首页URL判断该帖子在已采集帖子信息表中是否存在。如果存在,则说明该帖子已采集过,继续判断该帖子当前回复数是否大于已采集帖子信息表中记录的本次回复数。如果大于,则说明该帖子有新回帖,在已采集帖子信息表中更新该帖子的上次回复数和本次回复数,即用已采集帖子信息表中该帖子的本次回复数的数值替换上次回复数的数值,用该帖子当前回复数的数值替换已采集帖子信息表中该帖子的本次回复数的数值。如果不大于,则说明该帖子没有新回帖,抛弃该URL不作任何后续处理。如果该帖子在已采集帖子信息表中不存在,则说明该帖子为新增帖子,将该帖子首页URL和当前回复数添加到已采集帖子信息表中,该帖子的上次回复数为0,本次回复数为当前回复数。
已采集帖子信息表中存储有已采集帖子首页URL和已采集帖子的上次回复数和本次回复数,其结构如下表所示:
已采集帖子首页URL 上次回复数 本次回复数
URL1(URL1的MD5值) a1 a2
URL2(URL2的MD5值) b1 b2
URLn(URLn的MD5值) n1 n2
优选的,在已采集帖子信息表中存储帖子首页URL的标识信息,如MD5码。通过比较标识信息确定帖子首页URL在已采集帖子信息表中是否存在。这样可以提高URL的比较效率。
(2)在所有需要采集的论坛列表页中如果存在新增帖子和/或具有新回帖的帖子,则提取装置12从所述新增帖子中提取出主帖和回帖信息,从所述具有新回帖的帖子中提取出新回帖信息。
如图4所示,本实施方式中采用的提取方法包括以下步骤:
(i)第二队列单元121将新增帖子的首页URL和具有新回帖的帖子URL添加到内容页采集队列。
对于新增帖子,如果该帖子首页URL在内容页采集队列中存在,则将该帖子首页URL取出,并将已采集帖子信息表中记录的该帖子本次回复数修改为当前回复数,再将其插入到内容页采集队列中。如果该帖子首页URL在内容页采集队列中不存在,则直接将该帖子首页URL添加到内容页采集队列。
对于具有新回帖的帖子,如果该帖子所属论坛的翻页方式为计算翻页方式,则直接将具有新回帖的帖子首页URL添加到内容页采集队列;如果该帖子所属论坛的翻页方式为下一页翻页方式,则查找该帖子的翻页URL信息表,将该表中最后一个翻页URL添加到内容页采集队列。
所述计算翻页方式是指每页回帖个数确定的翻页方式,如人民网强国社区的国际论坛中的帖子
http://bbs1.people.com.cn/postDetail.do?boardId=6&view=1&id=91384467便为计算翻页的方式。
所述下一页翻页方式是指每页回帖个数不确定的翻页方式,如天涯杂谈中的帖子
http://www.tianya.cn/publicforum/content/free/1/1880805.shtml便为下一页翻页方式。
(ii)扫描单元122定时扫描内容页采集队列。扫描间隔时间可由用户根据具体应用情况设置。
(iii)如果内容页采集队列不空,则第二获取单元123从内容页采集队列中取出每个URL。从队列中取出URL后,该URL便会自动从队列中删除。
本实施方式中,第二获取单元123从内容页采集队列中取URL的方法与第一获取单元112从列表页采集队列中取URL的方法相同,此处不再赘述。
(iv)内容页提取单元124获取取出的URL对应的网页内容,并从所述网页内容中提取主帖和/或回帖和/或翻页URL,并将翻页URL添加到内容页采集队列。
本实施方式中,从网页内容中提取主帖和/或回帖采用的具体方法如下:
如果该URL为帖子首页URL并且是第一次采集,即该帖子是新增帖子,则从该URL对应的网页内容中提取主帖和回帖信息。具体的,首先确定该帖子的主回帖风格是否一致,如果一致,则按照同一抽取方式逐个抽取信息,将抽取的第一个信息作为主帖,其他信息作为回帖;如果不一致,则先按照既定规则抽取主帖信息,然后再抽取每个回帖信息。所述帖子的主回帖风格是否一致由人工设定,所述既定规则是人工设定的关键词或者正则表达式。
如果该URL为帖子首页URL但不是第一次采集,即该帖子是具有新回帖的帖子,则根据如下公式确定新回帖起点S′From和新回帖个数C′ParseCount,从新回帖起点S′From开始提取C′ParseCount个新回帖信息。
C′ParseCount=RCurNum-RPreNum
其中,RPreNum表示上次采集时该帖子的回复数,RCurNum表示该帖子当前的回复数,NPerPage表示该帖子每页的回帖个数。
如果该URL不是帖子首页URL,则进一步判断是否是重叠页URL。所述重叠页是指该页面内均为回帖信息且部分回帖为新回帖的页面。判断依据为该URL对应的页码与当前应该提取页的页码相同。当前应该提取页的页码的计算公式如下:
其中,PBegin表示当前应该提取页的页码;ceil表示向上取整运算。
如果是重叠页,则采用如下公式计算新回帖起点S′′From和新回帖个数C′′ParseCount,从新回帖起点S′′From开始提取C′′ParseCount个新回帖信息。
其中,“%”表示取余数运算。
如果该URL既不是帖子首页URL,也不是重叠页URL,即该页内容均为新回帖,则采用如下公式计算新回帖起点S′′′From和新回帖个数C′′′ParseCount,从新回帖起点S′′′From开始提取C′′′ParseCount个新回帖信息。
S′′′From=0;
C′′′ParseCount
从网页内容中提取翻页URL采用的具体方法如下:
①如果论坛翻页方式为计算翻页方式,且URL为帖子首页URL,则先采用如下公式计算翻页的起始页码和终止页码,即新回帖所在的起始页码和终止页码。如果URL不是帖子首页URL,则不提取翻页URL。
如果SFrom=0且RPreNum>0,则令SFrom=NPerPage,PBegin=PBegin+1。
其中,PBegin和PEnd分别为翻页的起始页码和终止页码,SFrom表示新回帖起点,从该起点开始至终止页码内的所有回帖均为新回帖。由上述公式计算出翻页的起始页码和终止页码后,结合预设的翻页URL规则,拼接出所有翻页URL。
具体的URL拼接方法为:根据配置的翻页规则、翻页的起始页码、翻页基数来进行翻页URL的拼接。本实施方式中,在配置的翻页规则中,将翻页的URL分割成了三个部分,其中第一部分和第三部分为不变部分,分别记为strBeforePage和strAfterPage;第二部分为变化部分,记为nPageUp。翻页URL的拼接过程的伪代码如下:
for(inti=PBegin;i<PEnd;i++)
其中,nPageNo表示新回帖所在页码;nFirstPostPageIndex表示帖子首页页码。在实际论坛中,nFirstPostPageIndex可能的取值为0或1,即帖子页码从0开始编号,首页页码为0;或者帖子页码从1开始编号,帖子首页页码为1。nPageUp表示填写在待拼接URL内的表示翻页的页码值,即第二部分的数值;nPageUsBaseNum表示翻页基数。strPostPageUrl表示拼接后的URL。
举例说明如下:
实例一:
人民网强国社区的国际论坛频道的一篇帖子的URL为:
http://bbs1.people.com.cn/postDetail.do?boardId=6&view=1&id=91384467
其翻页链接规则为:
/postDetail\.do\?id=\d+&view=\d+&pageNo=(\d+)&boardId=6
起始页码nFirstPostPageIndex为1,翻页基数nPageUsBaseNum为1,NPerPage为20。
根据翻页链接规则,提取出翻页URL的第一部分和第三部分,分别为:“/postDetail.do?id=91384467&view=1&pageNo=”和“&boardId=6”。
根据以上信息,假设第一次采集该帖子时,该帖子已经有了210个回帖,则拼接获取的翻页URL共10个,分别为:
/postDetail.do?id=91384467&view=1&pageNo=2&boardId=6
/postDetail.do?id=91384467&view=1&pageNo=3&boardId=6
/postDetail.do?id=91384467&view=1&pageNo=4&boardId=6
……
/postDetail.do?id=91384467&view=1&pageNo=11&boardId=6
实例二:
百度贴吧的帖子URL为:http://tieba.baidu.com/f?kz=919731090。
其翻页链接规则为:
/f?z=919731090&ct=335544320&lm=0&sc=0&rn=30&tn=baiduPostBrowser&word=%B6%B7%C6%C6%B2%D4%F1%B7&pn=30。
起始页码为0,翻页基数为30。根据翻页链接规则,提取出翻页URL的第一部分为:
/f?z=919731090&ct=335544320&lm=0&sc=0&rn=30&tn=baiduPostBrowser&word=%B6%B7%C6%C6%B2%D4%F1%B7&pn=。第三部分无内容。
NPerPage为30。根据以上信息,假设第一次采集该帖子时,该帖子已经有了210个回帖,则拼接获取的翻页URL共6个,分别为:
/f?z=919731090&ct=335544320&lm=0&sc=0&rn=30&tn=baiduPostBrowser&word=%B6%B7%C6%C6%B2%D4%F1%B7&pn=30
/f?z=919731090&ct=335544320&lm=0&sc=0&rn=30&tn=baiduPostBrowser&word=%B6%B7%C6%C6%B2%D4%F1%B7&pn=60
/f?z=919731090&ct=335544320&lm=0&sc=0&rn=30&tn=baiduPostBrowser&word=%B6%B7%C6%C6%B2%D4%F1%B7&pn=90
……
/f?z=919731090&ct=335544320&lm=0&sc=0&rn=30&tn=baiduPostBrowser&word=%B6%B7%C6%C6%B2%D4%F1%B7&pn=210
最后将所有拼接好的翻页URL处理为完整带域名信息的URL,再将处理后的所有翻页URL添加到内容页采集队列中。
②如果论坛翻页方式为下一页翻页方式,则从网页内容中提取翻页URL。如果网页内容中不存在翻页URL,则说明该页是最后一页,没有翻页。
对于翻页方式为下一页翻页方式,从网页内容中提取出翻页URL后,添加到内容页采集队列之前,消重单元125对翻页URL进行消重处理。具体的处理过程如下:
在翻页URL信息表中查找该翻页URL所属帖子是否存在。如果不存在,则将该翻页URL所属帖子的翻页信息插入到翻页URL信息表中,并将翻页URL添加到内容页采集队列中。如果存在,则继续判断该帖子的当前翻页页码是否大于翻页URL信息表中记录的该帖子的翻页页码。如果大于,则在翻页URL信息表中将该帖子的翻页页码更新为当前翻页页码,并将该翻页URL添加到内容页采集任务队列中。如果不大于,则无需更新翻页URL信息表中该帖子的翻页页码,直接删除该翻页URL即可。
所述翻页URL信息表存储帖子首页URL(或标识信息)、当前已采集过的翻页页码、当前已采集过的页面上最后一个回帖位置、当前已采集过的翻页URL,其表头结构如下表所示:
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (15)

1.一种论坛回帖增量采集方法,包括以下步骤:
(1)根据帖子首页URL和帖子回复数信息,周期性判断所有需要采集的论坛列表页中是否存在新增帖子和具有新回帖的帖子;
(2)如果存在新增帖子,则从新增帖子中提取出主帖和回帖信息;如果存在具有新回帖的帖子,则从具有新回帖的帖子中提取出新回帖信息;
其特征在于,步骤(1)中,周期判断所有需要采集的论坛列表页中是否存在新增帖子和具有新回帖的帖子的方法如下:
(a)获取所有需要采集的论坛列表页URL;
(b)对每个列表页URL,获取该列表页URL对应的网页内容;再从所述网页内容中提取出每个帖子首页URL和当前回复数;
(c)根据帖子首页URL判断每个帖子在已采集帖子信息表中是否存在;如果存在,则继续判断该帖子当前回复数是否大于已采集帖子信息表中记录的本次回复数,如果大于,则该帖子有新回帖,更新已采集帖子信息表中该帖子的上次回复数和本次回复数;如果该帖子在已采集帖子信息表中不存在,则该帖子为新增帖子,将该帖子首页URL和当前回复数添加到已采集帖子信息表中;
步骤(2)中,如果存在具有新回帖的帖子,则计算新回帖起点和新回帖个数,根据新回帖起点和新回帖个数从具有新回帖的帖子中提取出新回帖信息。
2.如权利要求1所述的论坛回帖增量采集方法,其特征在于,步骤(a)中所述获取所有需要采集的论坛列表页URL的方法如下:
对每个需要采集的论坛列表页均设定采集时间间隔;监控每个列表页的采集时间间隔;当某个列表页达到采集时间间隔时,便将该列表页URL添加到列表页采集队列;
定时扫描列表页采集队列,如果列表页采集队列不空,则按照先进先出顺序依次从列表页采集队列中取出列表页URL。
3.如权利要求2所述的论坛回帖增量采集方法,其特征在于:所述采集时间间隔根据列表页URL所属论坛的更新频率动态调整;论坛的更新频率越快,采集时间间隔越短;论坛的更新频率越慢,采集时间间隔越长。
4.如权利要求2所述的论坛回帖增量采集方法,其特征在于:所述从列表页采集队列中取出的列表页URL需要满足该列表页URL所属网站的友好访问条件。
5.如权利要求1~4中任一项所述的论坛回帖增量采集方法,其特征在于,步骤(2)中所述从新增帖子中提取出主帖和回帖信息以及从具有新回帖的帖子中提取出新回帖信息的方法如下:
(i)将新增帖子的首页URL和具有新回帖的帖子URL添加到内容页采集队列;
(ii)定时扫描内容页采集队列;
(iii)如果内容页采集队列不空,则从内容页采集队列中取出每个URL;
(iv)获取取出的URL对应的网页内容,并从所述网页内容中提取主帖和/或回帖信息和/或翻页URL,并将翻页URL添加到内容页采集队列。
6.如权利要求5所述的论坛回帖增量采集方法,其特征在于,步骤(i)中所述将新增帖子的首页URL和具有新回帖的帖子URL添加到内容页采集队列的方法如下:
对于新增帖子,如果该帖子首页URL在内容页采集队列中存在,则将该帖子首页URL取出,并将已采集帖子信息表中记录的该帖子本次回复数修改为当前回复数,再将其插入到内容页采集队列中;如果该帖子首页URL在内容页采集队列中不存在,则直接将该帖子首页URL添加到内容页采集队列;
对于具有新回帖的帖子,如果该帖子所属论坛的翻页方式为计算翻页方式,则直接将具有新回帖的帖子首页URL添加到内容页采集队列;如果该帖子所属论坛的翻页方式为下一页翻页方式,则查找翻页URL信息表,将所述翻页URL信息表中该帖子的最后一个翻页URL添加到内容页采集队列。
7.如权利要求5所述的论坛回帖增量采集方法,其特征在于,步骤(iii)中所述从内容页采集队列中取出每个URL的方法如下:
按照先进先出顺序依次从内容页采集队列中取出URL,并且满足该URL所属网站的友好访问条件。
8.如权利要求5所述的论坛回帖增量采集方法,其特征在于,步骤(iv)中所述从网页内容中提取主帖和/或回帖信息的方法如下:
如果该URL为帖子首页URL并且是第一次采集,则从该URL对应的网页内容中提取主帖和回帖信息;
如果该URL为帖子首页URL但不是第一次采集,则根据如下公式确定新回帖起点S′From和新回帖个数C′ParseCount,从新回帖起点S′From开始提取C′ParseCount个新回帖信息;
C′ParseCount=RCurNum-RPreNum
其中,RPreNum表示上次采集时该帖的回复数,RCurNum表示该帖当前的回复数,NPerPage表示该帖子每页的回帖个数;
如果该URL不是帖子首页URL,则进一步判断是否是重叠页URL;判断依据为该URL对应的页码与当前应该提取页的页码相同;当前应该提取页的页码的计算公式如下:
其中,PBegin表示当前应该抽取页的页码;ceil表示向上取整运算;
如果是重叠页,则采用如下公式计算新回帖起点S″From和新回帖个数C″ParseCount,从新回帖起点S″From开始提取C″ParseCount个新回帖信息;
其中,“%”表示取余数运算;
如果该URL既不是帖子首页URL,也不是重叠页URL,采用如下公式计算新回帖起点S′″From和新回帖的个数C′″ParseCount,从新回帖起点S′″From开始提取C′″ParseCount个新回帖信息;
S′″From=0;
9.如权利要求8所述的论坛回帖增量采集方法,其特征在于,步骤(iv)中所述从网页内容中提取翻页URL的方法如下:
1)如果论坛翻页方式为计算翻页方式,且URL为帖子首页URL,则先采用如下公式计算翻页的起始页码PBegin和终止页码PEnd
如果SFrom=0且RPreNum>0,则令SFrom=NPerPage,PBegin=PBegin+1;
其中,SFrom表示新回帖起点;由上述公式计算出翻页的起始页码和终止页码后,结合预设的翻页URL规则,拼接出所有翻页URL;
2)如果论坛翻页方式为下一页翻页,则从网页内容中提取翻页URL。
10.如权利要求9所述的论坛回帖增量采集方法,其特征在于,步骤1)中所述翻页规则中,将翻页URL分割成三个部分,其中第一部分和第三部分为不变部分,分别记为strBeforePage和strAfterPage;第二部分为变化部分,记为nPageUp;翻页URL的拼接方法如下:
nPageNo=i+nFirstPostPageIndex-1
nPageUp=(nPageNo×nPageUsBaseNum)
strPostPageUrl=strBeforePage+nPageUp+strAfterPage
其中,i表示翻页页码,PBegin≤i≤PEnd,nPageNo表示新回帖所在页码;nFirstPostPageIndex=0或1,表示帖子首页页码;nPageUp表示填写在待拼接URL内的表示翻页的页码值;nPageUsBaseNum表示翻页基数;strPostPageUrl表示拼接后的URL。
11.如权利要求9所述的论坛回帖增量采集方法,其特征在于:步骤2)中所述从网页内容中提取翻页URL后,添加到内容页采集队列之前,还包括对翻页URL进行消重处理的步骤。
12.如权利要求11所述的论坛回帖增量采集方法,其特征在于,所述消重处理的方法如下:
在翻页URL信息中查找该翻页URL所属帖子是否存在翻页URL信息表;如果不存在,将建立该翻页URL所属帖子的翻页URL信息表,并将该翻页URL插入到翻页URL信息表和内容页采集队列;如果存在,则判断该翻页URL的页码是否大于该翻页URL所属帖子的翻页URL的页码;如果大于,则更新该翻页URL所属帖子的翻页URL信息表,并将该翻页URL添加到内容页采集任务队列中;否则直接删除该翻页URL。
13.一种论坛回帖增量采集系统,包括用于根据帖子首页URL和帖子回复数信息,周期性判断所有需要采集的论坛列表页中是否存在新增帖子和具有新回帖的帖子的判断装置(11);用于对新增帖子,从新增帖子中提取出主帖和回帖信息;对具有新回帖的帖子,从具有新回帖的帖子中提取出新回帖信息的提取装置(12);
其特征在于,所述判断装置(11)包括:
第一队列单元(111),用于将所有需要采集的论坛列表页URL添加到列表页采集队列;
第一获取单元(112),用于从列表页采集队列中取出每个列表页URL;
列表页提取单元(113),用于对取出的每个列表页URL,获取该列表页URL对应的网页内容,并从所述网页内容中提取出每个帖子首页URL和当前回复数;
判断单元(114),用于根据帖子首页URL判断每个帖子在已采集帖子信息表中是否存在;如果存在,则继续判断该帖子当前回复数是否大于已采集帖子信息表中记录的本次回复数,如果大于,则该帖子有新回帖,更新已采集帖子信息表中该帖子的上次回复数和本次回复数;如果该帖子在已采集帖子信息表中不存在,则该帖子为新增帖子,将该帖子首页URL和当前回复数添加到已采集帖子信息表中;
提取装置(12)对具有新回帖的帖子,计算新回帖起点和新回帖个数,根据新回帖起点和新回帖个数从具有新回帖的帖子中提取出新回帖信息。
14.如权利要求13所述的论坛回帖增量采集系统,其特征在于,所述提取装置(12)包括:
第二队列单元(121),用于将新增帖子的首页URL和具有新回帖的帖子URL添加到内容页采集队列;
扫描单元(122),用于定时扫描内容页采集队列;
第二获取单元(123),用于从内容页采集队列中取出每个URL;
内容页提取单元(124),用于获取URL对应的网页内容,并从所述网页内容中提取主帖和/或回帖和/或翻页URL。
15.如权利要求14所述的论坛回帖增量采集系统,其特征在于:所述提取装置(12)还包括用于对论坛翻页方式为下一页翻页方式时从网页内容中提取的翻页URL进行消重处理的消重单元(125);所述第二队列单元(121)还用于将消重后的翻页URL添加到内容页采集队列。
CN201010618393.4A 2010-12-22 2010-12-22 一种论坛回帖增量采集方法及系统 Expired - Fee Related CN102567407B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201010618393.4A CN102567407B (zh) 2010-12-22 2010-12-22 一种论坛回帖增量采集方法及系统
PCT/CN2011/084457 WO2012083870A1 (zh) 2010-12-22 2011-12-22 一种论坛回帖增量采集方法及系统
JP2013545030A JP5702474B2 (ja) 2010-12-22 2011-12-22 電子掲示板リプライ増加量の採集方法及びシステム
EP11851417.3A EP2657854A4 (en) 2010-12-22 2011-12-22 METHOD AND SYSTEM FOR INCREMENTAL COLLECTION OF FORUM RESPONSES
US13/997,257 US9552435B2 (en) 2010-12-22 2011-12-22 Method and system for incremental collection of forum replies

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010618393.4A CN102567407B (zh) 2010-12-22 2010-12-22 一种论坛回帖增量采集方法及系统

Publications (2)

Publication Number Publication Date
CN102567407A CN102567407A (zh) 2012-07-11
CN102567407B true CN102567407B (zh) 2014-07-16

Family

ID=46313183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010618393.4A Expired - Fee Related CN102567407B (zh) 2010-12-22 2010-12-22 一种论坛回帖增量采集方法及系统

Country Status (5)

Country Link
US (1) US9552435B2 (zh)
EP (1) EP2657854A4 (zh)
JP (1) JP5702474B2 (zh)
CN (1) CN102567407B (zh)
WO (1) WO2012083870A1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567407B (zh) 2010-12-22 2014-07-16 北大方正集团有限公司 一种论坛回帖增量采集方法及系统
CN103593344B (zh) * 2012-08-13 2016-09-21 北大方正集团有限公司 一种信息采集方法和装置
CN103631906A (zh) * 2013-11-25 2014-03-12 北京奇虎科技有限公司 一种识别网页url中页码标识的方法和装置
CN104731824B (zh) * 2013-12-24 2018-12-18 腾讯科技(深圳)有限公司 一种显示图片的方法及装置
US10061725B2 (en) 2014-04-03 2018-08-28 Strato Scale Ltd. Scanning memory for de-duplication using RDMA
CN104391917A (zh) * 2014-11-19 2015-03-04 四川长虹电器股份有限公司 一种增量抓取网页内容的方法
US9912748B2 (en) 2015-01-12 2018-03-06 Strato Scale Ltd. Synchronization of snapshots in a distributed storage system
CN106233265A (zh) * 2015-02-26 2016-12-14 斯特拉托斯卡莱有限公司 将访问频率层次结构用于逐出目标的选择
US10051154B2 (en) * 2016-01-13 2018-08-14 Canon Kabushiki Kaisha Information processing apparatus, control method in information processing apparatus, and image processing apparatus
CN106372134B (zh) * 2016-08-26 2019-08-23 四川九洲电器集团有限责任公司 一种车联网实时数据处理方法及系统
CN108664303B (zh) * 2018-04-28 2023-06-30 北京小米移动软件有限公司 网页内容的显示方法及装置
CN109741200A (zh) * 2018-12-29 2019-05-10 深圳英飞拓智能技术有限公司 论坛热帖归档管理方法、装置、计算机设备和存储介质
CN112650910B (zh) * 2020-12-30 2024-03-12 北京百度网讯科技有限公司 确定网站更新信息的方法、装置、设备和存储介质
CN114417200B (zh) * 2022-01-04 2023-04-14 马上消费金融股份有限公司 网络数据的采集方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231640A (zh) * 2007-01-22 2008-07-30 北大方正集团有限公司 一种自动计算互联网上主题演化趋势的方法及系统
CN101819585A (zh) * 2010-03-29 2010-09-01 哈尔滨工程大学 一种论坛事件传播图的构建装置及构建方法
CN102270239A (zh) * 2011-08-15 2011-12-07 哈尔滨工业大学 论坛中关联网络的演化分析方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08330991A (ja) * 1995-05-30 1996-12-13 Matsushita Electric Ind Co Ltd データ放送受信装置
US20030084035A1 (en) * 2001-07-23 2003-05-01 Emerick Charles L. Integrated search and information discovery system
JP2004246785A (ja) * 2003-02-17 2004-09-02 Nippon Telegr & Teleph Corp <Ntt> 情報収集装置と情報収集方法およびプログラムと記録媒体
US20040225644A1 (en) * 2003-05-09 2004-11-11 International Business Machines Corporation Method and apparatus for search engine World Wide Web crawling
US7725452B1 (en) * 2003-07-03 2010-05-25 Google Inc. Scheduler for search engine crawler
US7310632B2 (en) * 2004-02-12 2007-12-18 Microsoft Corporation Decision-theoretic web-crawling and predicting web-page change
US20070106663A1 (en) * 2005-02-01 2007-05-10 Outland Research, Llc Methods and apparatus for using user personality type to improve the organization of documents retrieved in response to a search query
US7617193B2 (en) * 2005-03-28 2009-11-10 Elan Bitan Interactive user-controlled relevance ranking retrieved information in an information search system
CN101193038B (zh) * 2007-06-08 2010-12-22 腾讯科技(深圳)有限公司 回复主题帖、查看回复帖及交互主题帖的方法及系统
CN101335639A (zh) * 2007-06-25 2008-12-31 文贵华 一种基于网络论坛的网络调查新方法
JP2009230663A (ja) * 2008-03-25 2009-10-08 Kddi Corp ウェブページの異常検知装置、プログラム、および記録媒体
US8010544B2 (en) * 2008-06-06 2011-08-30 Yahoo! Inc. Inverted indices in information extraction to improve records extracted per annotation
US20100205168A1 (en) * 2009-02-10 2010-08-12 Microsoft Corporation Thread-Based Incremental Web Forum Crawling
CN101727486A (zh) 2009-12-04 2010-06-09 中国人民解放军信息工程大学 一种Web论坛信息抽取系统
US8620849B2 (en) * 2010-03-10 2013-12-31 Lockheed Martin Corporation Systems and methods for facilitating open source intelligence gathering
CN102567407B (zh) 2010-12-22 2014-07-16 北大方正集团有限公司 一种论坛回帖增量采集方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231640A (zh) * 2007-01-22 2008-07-30 北大方正集团有限公司 一种自动计算互联网上主题演化趋势的方法及系统
CN101819585A (zh) * 2010-03-29 2010-09-01 哈尔滨工程大学 一种论坛事件传播图的构建装置及构建方法
CN102270239A (zh) * 2011-08-15 2011-12-07 哈尔滨工业大学 论坛中关联网络的演化分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杜言琦.面向论坛页面的增量搜集技术研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2010,(第9期),1-39. *

Also Published As

Publication number Publication date
WO2012083870A1 (zh) 2012-06-28
JP2014506355A (ja) 2014-03-13
US20150127644A1 (en) 2015-05-07
JP5702474B2 (ja) 2015-04-15
EP2657854A4 (en) 2014-06-18
WO2012083870A9 (zh) 2013-08-29
US9552435B2 (en) 2017-01-24
EP2657854A1 (en) 2013-10-30
CN102567407A (zh) 2012-07-11

Similar Documents

Publication Publication Date Title
CN102567407B (zh) 一种论坛回帖增量采集方法及系统
CN103870461B (zh) 主题推荐方法、装置和服务器
AU2009276354B2 (en) Providing posts to discussion threads in response to a search query
CN102054028B (zh) 一种网络爬虫系统实现页面渲染功能的方法
CN104750704B (zh) 一种网页url地址分类识别方法及装置
CN104216921B (zh) 一种实现浏览器中快速链接的添加提示方法、装置及系统
CN103294732B (zh) 网页抓取方法及爬虫
CN102930059A (zh) 一种聚焦爬虫的设计方法
CN102521251A (zh) 个性化搜索直达的方法、实现该方法的装置和搜索服务器
CN102710646B (zh) 一种钓鱼网站的收集方法和系统
CN103279567A (zh) 一种基于AJAX的Web数据采集方法及系统
CN101180624A (zh) 基于链接的垃圾检测
CN103023714A (zh) 基于网络话题的活跃度与集群结构分析系统及方法
CN104615627B (zh) 一种基于微博平台的事件舆情信息提取方法及系统
CN105069168A (zh) 搜索词推荐方法和装置
CN104503891A (zh) 对jvm线程进行在线监控的方法和装置
CN104182412A (zh) 一种网页爬取方法及系统
CN102314492A (zh) 获取与目标文档章节相匹配的候选文档章节的方法与设备
CN112532624B (zh) 一种黑链检测方法、装置、电子设备及可读存储介质
CN103617213A (zh) 识别新闻网页属性特征的方法和系统
CN102682011B (zh) 建立域名描述名称信息表、搜索的方法、装置及系统
CN104281619A (zh) 搜索结果排序系统及方法
CN103745383A (zh) 基于运营商数据实现重定向服务的方法和系统
CN103853771B (zh) 一种搜索结果的推送方法及系统
CN105930385A (zh) 一种数据爬取方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220621

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: Peking University

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, fangzheng building, 298 Fu Cheng Road, Beijing, Haidian District

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: Peking University

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140716

CF01 Termination of patent right due to non-payment of annual fee