CN108073588A - 栏目信息提取方法和装置 - Google Patents

栏目信息提取方法和装置 Download PDF

Info

Publication number
CN108073588A
CN108073588A CN201610987275.8A CN201610987275A CN108073588A CN 108073588 A CN108073588 A CN 108073588A CN 201610987275 A CN201610987275 A CN 201610987275A CN 108073588 A CN108073588 A CN 108073588A
Authority
CN
China
Prior art keywords
column
name
contact names
statistical form
matched
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610987275.8A
Other languages
English (en)
Other versions
CN108073588B (zh
Inventor
潘峰
孙德彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201610987275.8A priority Critical patent/CN108073588B/zh
Publication of CN108073588A publication Critical patent/CN108073588A/zh
Application granted granted Critical
Publication of CN108073588B publication Critical patent/CN108073588B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种栏目信息提取方法和装置。其中,该方法包括:获取栏目名称统计表,其中,栏目名称统计表包括栏目名称和栏目名称的出现次数;从目标网页中解析出至少一个第一链接名称;将第一链接名称与栏目名称统计表中记录的栏目名称进行匹配;按照匹配的栏目名称对应的出现次数确定一个或者多个第一链接名称作为从目标网页提取出来的栏目信息。本发明解决了由于无法自动获取栏目信息造成的获取栏目信息的效率低下的技术问题。

Description

栏目信息提取方法和装置
技术领域
本发明涉及互联网领域,具体而言,涉及一种栏目信息提取方法和装置。
背景技术
在通过网络爬虫获取网站数据的过程中,一般的爬虫都会记录每次爬取的页面,在一定时间内遇到重复页面将不再进行爬取。这样设计主要是因为在短时间内重复的爬取同一个页面是没有必要的,而且会极大的消耗爬虫资源和网络通信资源。但这样的设计在一定程度上会导致无法爬取到全站的数据。
图1是一个网站结构示意图,如图1所示,假设现在爬取三层,在爬取到首页(第一层)后解析出新闻和财经两个栏目地址,在爬取新闻栏目(第二层)后解析出文章一和文章二两个地址,同时解析出了一个财经栏目地址(因为一般网页都会将栏目地址在每个页面的首部常驻),在爬取两个文章及一个财经栏目页面后(第三层),左边这部分结构爬取完成,此时首页、新闻栏目页、文章一、文章二以及财经栏目页都会被记录为已经爬取过,那么当开始爬取右边的结构时,原本财经应该是作为第二层进行爬取的,理论上来讲财经下面的文章三应该被爬取到(因为与左边部分的文章一和二一样同属于第三层),但实际上财经已经在爬取左边部分时作为第三层爬取过了,此时遇到财经页面检查发现已经爬取过,因此不会再爬取这个页面,所以事实上文章三就在本次爬取中没有爬到。如果希望爬取到网站的所有页面,仅仅使用首页作为爬虫入口是不够的,一个可行的方案是将首页及网站的所有栏目页都作为爬虫入口,这样至少能保证每个栏目页下面的文章都能被正常爬取到。
一般来说,爬虫都是对指定的网站进行爬取,所以首页的地址是容易获取到的。而获取所有栏目页地址可以通过解析首页源码,提取出源码中的栏目信息,从而获取所有的栏目页地址。现有的解决方案是通过人工检查的方式提取网站的栏目页地址,而人工检查带来的直接问题是效率低下,特别是当栏目较多时,人工检查会耗费极大的时间。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种栏目信息提取方法和装置,以至少解决由于无法自动获取栏目信息造成的获取栏目信息的效率低下的技术问题。
根据本发明实施例的一个方面,提供了一种栏目信息提取方法,包括:获取栏目名称统计表,其中,所述栏目名称统计表包括栏目名称和所述栏目名称的出现次数;从目标网页中解析出至少一个第一链接名称;将所述第一链接名称与所述栏目名称统计表中记录的所述栏目名称进行匹配;按照匹配的栏目名称对应的所述出现次数确定一个或者多个所述第一链接名称作为从所述目标网页提取出来的栏目信息。
进一步地,获取栏目名称统计表包括:爬取多个网站的首页源码;从所述多个网站的所述首页源码中解析出至少一个第二链接名称;对所述至少一个第二链接名称中长度小于或者等于预设长度的第二链接名称出现的第一次数进行统计;根据所述长度小于或者等于预设长度的第二链接名称和所述第一次数生成所述栏目名称统计表,其中,所述长度小于或者等于预设长度的第二链接名称作为所述栏目名称,所述第一次数作为所述栏目名称的所述出现次数。
进一步地,将所述第一链接名称与所述栏目名称统计表中记录的所述栏目名称进行匹配包括:在所述栏目名称统计表中查找与所述第一链接名称相同或者包含所述第一链接名称的所述栏目名称。
进一步地,按照匹配的栏目名称对应的所述出现次数确定一个或者多个所述第一链接名称作为从所述目标网页提取出来的栏目信息包括:根据所述栏目名称的出现次数对匹配的所述第一链接名称进行打分,其中,所述第一链接信息的得分与所述栏目名称的出现次数正相关;按照匹配的所述第一链接名称的分数提取出一个或者多个所述第一链接名称作为所述栏目信息。
进一步地,在按照匹配的栏目名称对应的所述出现次数确定一个或者多个所述第一链接名称作为从所述目标网页提取出来的栏目信息之后,所述方法还包括:获取所述栏目信息所关联的第一链接地址,其中,所述第一链接地址与所述第一链接名称一一对应;将所述第一链接地址作为爬取网页内容的入口,并按照预设条件从所述入口开始爬取网页内容。
根据本发明实施例的另一方面,还提供了一种栏目信息提取装置,包括:第一获取单元,用于获取栏目名称统计表,其中,所述栏目名称统计表包括栏目名称和所述栏目名称的出现次数;解析单元,用于从目标网页中解析出至少一个第一链接名称;匹配单元,用于将所述第一链接名称与所述栏目名称统计表中记录的所述栏目名称进行匹配;确定单元,用于按照匹配的栏目名称对应的所述出现次数确定一个或者多个所述第一链接名称作为从所述目标网页提取出来的栏目信息。
进一步地,所述第一获取单元包括:爬取模块,用于爬取多个网站的首页源码;解析模块,用于从所述多个网站的所述首页源码中解析出至少一个第二链接名称;统计模块,用于对所述至少一个第二链接名称中长度小于或者等于预设长度的第二链接名称出现的第一次数进行统计;生成模块,用于根据所述长度小于或者等于预设长度的第二链接名称和所述第一次数生成所述栏目名称统计表,其中,所述长度小于或者等于预设长度的第二链接名称作为所述栏目名称,所述第一次数作为所述栏目名称的所述出现次数。
进一步地,所述匹配单元包括:查找模块,用于在所述栏目名称统计表中查找与所述第一链接名称相同或者包含所述第一链接名称的所述栏目名称。
进一步地,所述确定单元包括:打分模块,用于根据所述栏目名称的出现次数对匹配的所述第一链接名称进行打分,其中,所述第一链接信息的得分与所述栏目名称的出现次数正相关;提取模块,用于按照匹配的所述第一链接名称的分数提取出一个或者多个所述第一链接名称作为所述栏目信息。
进一步地,所述装置还包括:第二获取单元,用于在按照匹配的栏目名称对应的所述出现次数确定一个或者多个所述第一链接名称作为从所述目标网页提取出来的栏目信息之后,获取所述栏目信息所关联的第一链接地址,其中,所述第一链接地址与所述第一链接名称一一对应;入口单元,用于将所述第一链接地址作为爬取网页内容的入口,并按照预设条件从所述入口开始爬取网页内容。
在本发明实施例中,采用获取栏目名称统计表,从目标网页中解析出链接名称,将链接名称与栏目名称统计表中记录的栏目名称进行匹配的方式,通过按照匹配的栏目名称对应的出现次数确定栏目信息,达到了获取所有栏目页地址的目的,从而实现了自动获取网站首页栏目页信息的技术效果,进而解决了由于无法自动获取栏目信息造成的获取栏目信息的效率低下的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是一个网站结构示意图;
图2是根据本发明实施例的一种可选的栏目信息提取方法的流程图;
图3是根据本发明实施例的栏目名称统计表的示意图;
图4是根据本发明实施例的获取到的目标网页的源码的示意图;
图5是根据本发明实施例的从目标网页中解析得到的链接名称及其对应的链接信息的示意图;
图6是根据本发明实施例的一种可选的栏目信息提取装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种栏目信息提取的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种可选的栏目信息提取方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取栏目名称统计表,其中,栏目名称统计表包括栏目名称和栏目名称的出现次数;
步骤S104,从目标网页中解析出至少一个第一链接名称;
步骤S106,将第一链接名称与栏目名称统计表中记录的栏目名称进行匹配;
步骤S108,按照匹配的栏目名称对应的出现次数确定一个或者多个第一链接名称作为从目标网页提取出来的栏目信息。
在本发明实施例中,采用获取栏目名称统计表,从目标网页中解析出链接名称,将链接名称与栏目名称统计表中记录的栏目名称进行匹配的方式,通过按照匹配的栏目名称对应的出现次数确定栏目信息,达到了获取所有栏目页地址的目的,从而实现了自动获取网站首页栏目页信息的技术效果,进而解决了由于无法自动获取栏目信息造成的获取栏目信息的效率低下的技术问题。
可选地,获取栏目名称统计表包括:爬取多个网站的首页源码;从多个网站的首页源码中解析出至少一个第二链接名称;对至少一个第二链接名称中长度小于或者等于预设长度的第二链接名称出现的第一次数进行统计;根据长度小于或者等于预设长度的第二链接名称和第一次数生成栏目名称统计表,其中,长度小于或者等于预设长度的第二链接名称作为栏目名称,第一次数作为栏目名称的出现次数。
网站首页的栏目页名称大都具有相似性,尤其是同一类型的网站,其首页的栏目页往往都使用相同或者相近的名称,如:政府网站往往使用“工作动态”、“办事指南”、“政策法规”等作为其栏目页名称;新闻网站则较多地使用“军事”、“娱乐”、“体育”、“财经”等作为栏目页名称。通过对某一类型的网站的统计就可以获取该类网站首页的栏目页的常用名称。以政府网站为例,爬取大量的政府网站的首页的内容,然后使用开源工具对网页的内容进行解析,将其中的链接信息的名称解析出来,这里面包含了栏目页名称和非栏目页名称。通过调研发现,政府网站首页所使用的栏目页名称,其长度通常都少于8个字符,按照名称的长度对解析出的链接名称进行筛选,将长度小于8个字符的链接名称筛选出来,对这些链接名称进行统计就得到了栏目名称统计表。图3是根据本发明实施例的栏目名称统计表的示意图,如图3所示,在该栏目名称统计表中,包含有链接名称以及链接名称出现的次数,其中,链接名称出现的次数越多,意味着该链接名称越有可能被作为政府类网站首页的栏目页名称。需要说明的是,获取栏目名称统计表的过程是一个自学习及人工校正的过程,在爬取网站首页的内容时,爬取的网页应大于4000个,且数量越多越好。
可选地,将第一链接名称与栏目名称统计表中记录的栏目名称进行匹配包括:在栏目名称统计表中查找与第一链接名称相同或者包含第一链接名称的栏目名称。
图4是根据本发明实施例的获取到的目标网页的源码的示意图,如图4所示,通过程序模拟浏览器请求的方式,可以获取到目标网页的源码,从该源码中,可以解析出链接名称,如“新闻”、“新闻发布”等。将目标网页中提取出来的链接名称与栏目名称统计表中的栏目名称进行匹配,就是在栏目名称统计表中查找与该链接名称一致,或者包含该链接名称的栏目名称,如:链接名称为“新闻”,能够与其匹配的栏目名称可以为“新闻”,“新闻动态”,“新闻公告”等,其中栏目名称与链接名称相同的匹配优先级要大于栏目名称包含链接名称的匹配优先级。由于栏目名称统计表中,链接名称出现的次数能够反映出该链接名称可能作为网站首页栏目名称的概率,因此通过将链接名称与栏目名称统计表中的栏目名称进行匹配,可以确定该链接名称作为网页栏目名称的概率的大小。
可选地,按照匹配的栏目名称对应的出现次数确定一个或者多个第一链接名称作为从目标网页提取出来的栏目信息包括:根据栏目名称的出现次数对匹配的第一链接名称进行打分,其中,第一链接信息的得分与栏目名称的出现次数正相关;按照匹配的第一链接名称的分数提取出一个或者多个第一链接名称作为栏目信息。
在将目标网页中解析出的链接名称与栏目名称统计表中的栏目名称进行匹配后,根据链接名称匹配的栏目名称的出现次数,可以确定链接名称作为网页栏目名称的概率大小,为了方便对概率大小的衡量和比较,可以采用打分的方式将该概率量化,即根据与链接名称相匹配的栏目名称统计表中的栏目名称的出现次数,对该链接名称进行打分,链接名称的得分与其匹配的栏目名称的出现次数正相关,即链接名称匹配的栏目名称的出现次数越多,其得分越高。最后,根据每一个从目标网页中解析出的链接名称的得分,将链接名称进行排序,并取得分靠前的链接名称作为目标网页的栏目名称。如,需要从目标网页中提取10个链接名称作为栏目名称,则取得分最高的前10个链接名称,作为目标网页的栏目名称。
可选地,在按照匹配的栏目名称对应的出现次数确定一个或者多个第一链接名称作为从目标网页提取出来的栏目信息之后,方法还包括:获取栏目信息所关联的第一链接地址,其中,第一链接地址与第一链接名称一一对应;将第一链接地址作为爬取网页内容的入口,并按照预设条件从入口开始爬取网页内容。此处的预设条件可以为:从入口开始爬取N层,N为正整数,具体可根据实际需要设定N。
图5是根据本发明实施例的从目标网页中解析得到的链接
名称及其对应的链接信息的示意图,在解析到的目标网页的源码中,链接名称与链接地址是一一对应的,通过开源的解析工具,能够从目标网页源码中解析得到链接名称及其对应的链接地址,在确定了作为从目标网页中提取出来的栏目名称的链接名称后,获取该链接名称对应的链接地址,通过链接地址即可爬取其关联的网页内容。
图6是根据本发明实施例的一种可选的栏目信息提取装置的示意图,如图6所示,该装置包括:
第一获取单元10,用于获取栏目名称统计表,其中,栏目名称统计表包括栏目名称和栏目名称的出现次数;
解析单元20,用于从目标网页中解析出至少一个第一链接名称;
匹配单元30,用于将第一链接名称与栏目名称统计表中记录的栏目名称进行匹配;
确定单元40,用于按照匹配的栏目名称对应的出现次数确定一个或者多个第一链接名称作为从目标网页提取出来的栏目信息。
在本发明实施例中,采用获取栏目名称统计表,从目标网页中解析出链接名称,将链接名称与栏目名称统计表中记录的栏目名称进行匹配的方式,通过按照匹配的栏目名称对应的出现次数确定栏目信息,达到了获取所有栏目页地址的目的,从而实现了自动获取网站首页栏目页信息的技术效果,进而解决了由于无法自动获取栏目信息造成的获取栏目信息的效率低下的技术问题。
可选地,第一获取单元包括:爬取模块,用于爬取多个网站的首页源码;解析模块,用于从多个网站的首页源码中解析出至少一个第二链接名称;统计模块,用于对至少一个第二链接名称中长度小于或者等于预设长度的第二链接名称出现的第一次数进行统计;生成模块,用于根据长度小于或者等于预设长度的第二链接名称和第一次数生成栏目名称统计表,其中,长度小于或者等于预设长度的第二链接名称作为栏目名称,第一次数作为栏目名称的出现次数。
同一类型的网站,其首页的栏目页往往都使用相同或者相近的名称,通过对某一类型的网站的统计就可以获取该类网站首页的栏目页的常用名称。以政府网站为例,爬取大量的政府网站的首页的内容,然后使用开源工具对网页的内容进行解析,将其中的链接信息的名称解析出来,这里面包含了栏目页名称和非栏目页名称。通过调研发现,政府网站首页所使用的栏目页名称,其长度通常都少于8个字符,按照名称的长度对解析出的链接名称进行筛选,将长度小于8个字符的链接名称筛选出来,对这些链接名称进行统计就得到了栏目名称统计表。在该栏目名称统计表中,包含有链接名称以及链接名称出现的次数,其中,链接名称出现的次数越多,意味着该链接名称越有可能被作为政府类网站首页的栏目页名称。需要说明的是,获取栏目名称统计表的过程是一个自学习及人工校正的过程,在爬取网站首页的内容时,爬取的网页的数量越多越好,最好不要低于4000个。
可选地,匹配单元包括:查找模块,用于在栏目名称统计表中查找与第一链接名称相同或者包含第一链接名称的栏目名称。
将目标网页中提取出来的链接名称与栏目名称统计表中的栏目名称进行匹配,就是在栏目名称统计表中查找与该链接名称一致,或者包含该链接名称的栏目名称。由于栏目名称统计表中,链接名称出现的次数能够反映出该链接名称可能作为网站首页栏目名称的概率,因此通过将链接名称与栏目名称统计表中的栏目名称进行匹配,可以确定该链接名称作为网页栏目名称的概率的大小。
可选地,确定单元包括:打分模块,用于根据栏目名称的出现次数对匹配的第一链接名称进行打分,其中,第一链接信息的得分与栏目名称的出现次数正相关;提取模块,用于按照匹配的第一链接名称的分数提取出一个或者多个第一链接名称作为栏目信息。
在将目标网页中解析出的链接名称与栏目名称统计表中的栏目名称进行匹配后,根据链接名称匹配的栏目名称的出现次数,可以确定链接名称作为网页栏目名称的概率大小,为了方便对概率大小的衡量和比较,可以采用打分的方式将该概率量化,即根据与链接名称相匹配的栏目名称统计表中的栏目名称的出现次数,对该链接名称进行打分,链接名称的得分与其匹配的栏目名称的出现次数正相关,即链接名称匹配的栏目名称的出现次数越多,其得分越高。最后,根据每一个从目标网页中解析出的链接名称的得分,将链接名称进行排序,并取得分靠前的链接名称作为目标网页的栏目名称。如,需要从目标网页中提取10个链接名称作为栏目名称,则取得分最高的前10个链接名称,作为目标网页的栏目名称。
可选地,装置还包括:第二获取单元,用于在按照匹配的栏目名称对应的所述出现次数确定一个或者多个所述第一链接名称作为从所述目标网页提取出来的栏目信息之后,获取栏目信息所关联的第一链接地址,其中,第一链接地址与第一链接名称一一对应;入口单元,用于将第一链接地址作为爬取网页内容的入口,并按照预设条件从入口开始爬取网页内容。
在解析到的目标网页的源码中,链接名称与链接地址是一一对应的,在确定了作为从目标网页中提取出来的栏目名称的链接名称后,获取该链接名称对应的链接地址,通过链接地址即可以爬取其关联的网页内容。在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种栏目信息提取方法,其特征在于,包括:
获取栏目名称统计表,其中,所述栏目名称统计表包括栏目名称和所述栏目名称的出现次数;
从目标网页中解析出至少一个第一链接名称;
将所述第一链接名称与所述栏目名称统计表中记录的所述栏目名称进行匹配;
按照匹配的栏目名称对应的所述出现次数确定一个或者多个所述第一链接名称作为从所述目标网页提取出来的栏目信息。
2.根据权利要求1所述的方法,其特征在于,获取栏目名称统计表包括:
爬取多个网站的首页源码;
从所述多个网站的所述首页源码中解析出至少一个第二链接名称;
对所述至少一个第二链接名称中长度小于或者等于预设长度的第二链接名称出现的第一次数进行统计;
根据所述长度小于或者等于预设长度的第二链接名称和所述第一次数生成所述栏目名称统计表,其中,所述长度小于或者等于预设长度的第二链接名称作为所述栏目名称,所述第一次数作为所述栏目名称的所述出现次数。
3.根据权利要求1所述的方法,其特征在于,将所述第一链接名称与所述栏目名称统计表中记录的所述栏目名称进行匹配包括:
在所述栏目名称统计表中查找与所述第一链接名称相同或者包含所述第一链接名称的所述栏目名称。
4.根据权利要求1所述的方法,其特征在于,按照匹配的栏目名称对应的所述出现次数确定一个或者多个所述第一链接名称作为从所述目标网页提取出来的栏目信息包括:
根据所述栏目名称的出现次数对匹配的所述第一链接名称进行打分,其中,所述第一链接信息的得分与所述栏目名称的出现次数正相关;
按照匹配的所述第一链接名称的分数提取出一个或者多个所述第一链接名称作为所述栏目信息。
5.根据权利要求1所述的方法,其特征在于,在按照匹配的栏目名称对应的所述出现次数确定一个或者多个所述第一链接名称作为从所述目标网页提取出来的栏目信息之后,所述方法还包括:
获取所述栏目信息所关联的第一链接地址,其中,所述第一链接地址与所述第一链接名称一一对应;
将所述第一链接地址作为爬取网页内容的入口,并按照预设条件从所述入口开始爬取网页内容。
6.一种栏目信息提取装置,其特征在于,包括:
第一获取单元,用于获取栏目名称统计表,其中,所述栏目名称统计表包括栏目名称和所述栏目名称的出现次数;
解析单元,用于从目标网页中解析出至少一个第一链接名称;
匹配单元,用于将所述第一链接名称与所述栏目名称统计表中记录的所述栏目名称进行匹配;
确定单元,用于按照匹配的栏目名称对应的所述出现次数确定一个或者多个所述第一链接名称作为从所述目标网页提取出来的栏目信息。
7.根据权利要求6所述的装置,其特征在于,所述第一获取单元包括:
爬取模块,用于爬取多个网站的首页源码;
解析模块,用于从所述多个网站的所述首页源码中解析出至少一个第二链接名称;
统计模块,用于对所述至少一个第二链接名称中长度小于或者等于预设长度的第二链接名称出现的第一次数进行统计;
生成模块,用于根据所述长度小于或者等于预设长度的第二链接名称和所述第一次数生成所述栏目名称统计表,其中,所述长度小于或者等于预设长度的第二链接名称作为所述栏目名称,所述第一次数作为所述栏目名称的所述出现次数。
8.根据权利要求6所述的装置,其特征在于,所述匹配单元包括:
查找模块,用于在所述栏目名称统计表中查找与所述第一链接名称相同或者包含所述第一链接名称的所述栏目名称。
9.根据权利要求6所述的装置,其特征在于,所述确定单元包括:
打分模块,用于根据所述栏目名称的出现次数对匹配的所述第一链接名称进行打分,其中,所述第一链接信息的得分与所述栏目名称的出现次数正相关;
提取模块,用于按照匹配的所述第一链接名称的分数提取出一个或者多个所述第一链接名称作为所述栏目信息。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二获取单元,用于在按照匹配的栏目名称对应的所述出现次数确定一个或者多个所述第一链接名称作为从所述目标网页提取出来的栏目信息之后,获取所述栏目信息所关联的第一链接地址,其中,所述第一链接地址与所述第一链接名称一一对应;
入口单元,用于将所述第一链接地址作为爬取网页内容的入口,并按照预设条件从所述入口开始爬取网页内容。
CN201610987275.8A 2016-11-09 2016-11-09 栏目信息提取方法和装置 Active CN108073588B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610987275.8A CN108073588B (zh) 2016-11-09 2016-11-09 栏目信息提取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610987275.8A CN108073588B (zh) 2016-11-09 2016-11-09 栏目信息提取方法和装置

Publications (2)

Publication Number Publication Date
CN108073588A true CN108073588A (zh) 2018-05-25
CN108073588B CN108073588B (zh) 2021-07-30

Family

ID=62153375

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610987275.8A Active CN108073588B (zh) 2016-11-09 2016-11-09 栏目信息提取方法和装置

Country Status (1)

Country Link
CN (1) CN108073588B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116401435A (zh) * 2023-02-22 2023-07-07 北京麦克斯泰科技有限公司 一种日活跃栏目热度计算及调度方法和装置

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060031771A1 (en) * 2004-08-09 2006-02-09 Macheffner Kevin M Method and code module for facilitating navigation between webpages
CN1786947A (zh) * 2004-12-07 2006-06-14 国际商业机器公司 基于网页页面布局提取网页核心内容的系统、方法和程序
US20070130125A1 (en) * 2005-12-05 2007-06-07 Bmenu As System, process and software arrangement for assisting in navigating the internet
CN101154224A (zh) * 2006-09-30 2008-04-02 阿里巴巴公司 一种网址导航方法及系统
CN101178728A (zh) * 2007-11-21 2008-05-14 北京搜狗科技发展有限公司 一种网址导航的方法和系统
US20080133460A1 (en) * 2006-12-05 2008-06-05 Timothy Pressler Clark Searching descendant pages of a root page for keywords
CN101246494A (zh) * 2008-03-19 2008-08-20 腾讯科技(深圳)有限公司 一种互联网网页转换方法、系统及设备
CN101256596A (zh) * 2008-03-28 2008-09-03 北京搜狗科技发展有限公司 一种站内导航的方法及系统
CN101551806A (zh) * 2008-04-03 2009-10-07 北京搜狗科技发展有限公司 一种个性化网址导航的方法和系统
CN102567358A (zh) * 2010-12-16 2012-07-11 腾讯科技(深圳)有限公司 导航内容显示的方法及装置
CN102663023A (zh) * 2012-03-22 2012-09-12 浙江盘石信息技术有限公司 一种提取网页内容的实现方法
CN102902719A (zh) * 2012-08-31 2013-01-30 四川长虹电器股份有限公司 嵌入式浏览器语音控制的网页浏览方法
CN102929992A (zh) * 2012-10-22 2013-02-13 卢屹韦 网上新闻信息定期自动抓取方法
CN103164411A (zh) * 2011-12-12 2013-06-19 深圳市金蝶中间件有限公司 浏览器的网页加载方法
CN103176985A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种及时高效的互联网信息爬取方法
CN103699700A (zh) * 2014-01-16 2014-04-02 北京奇虎科技有限公司 一种搜索引导的生成方法、系统及相关服务器
CN103778164A (zh) * 2012-10-26 2014-05-07 广州市邦富软件有限公司 一种网页链接特征模式识别算法
CN104750704A (zh) * 2013-12-26 2015-07-01 中国移动通信集团河南有限公司 一种网页url地址分类识别方法及装置
CN105930369A (zh) * 2016-04-13 2016-09-07 南京新与力文化传播有限公司 一种快速分析Web信息的方法

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060031771A1 (en) * 2004-08-09 2006-02-09 Macheffner Kevin M Method and code module for facilitating navigation between webpages
CN1786947A (zh) * 2004-12-07 2006-06-14 国际商业机器公司 基于网页页面布局提取网页核心内容的系统、方法和程序
US20070130125A1 (en) * 2005-12-05 2007-06-07 Bmenu As System, process and software arrangement for assisting in navigating the internet
CN101517511A (zh) * 2005-12-05 2009-08-26 布梅努公司 用于辅助因特网导航的系统、过程和软件布置
CN101154224A (zh) * 2006-09-30 2008-04-02 阿里巴巴公司 一种网址导航方法及系统
US20080133460A1 (en) * 2006-12-05 2008-06-05 Timothy Pressler Clark Searching descendant pages of a root page for keywords
CN101178728A (zh) * 2007-11-21 2008-05-14 北京搜狗科技发展有限公司 一种网址导航的方法和系统
CN101246494A (zh) * 2008-03-19 2008-08-20 腾讯科技(深圳)有限公司 一种互联网网页转换方法、系统及设备
CN101256596A (zh) * 2008-03-28 2008-09-03 北京搜狗科技发展有限公司 一种站内导航的方法及系统
CN101551806A (zh) * 2008-04-03 2009-10-07 北京搜狗科技发展有限公司 一种个性化网址导航的方法和系统
CN102567358A (zh) * 2010-12-16 2012-07-11 腾讯科技(深圳)有限公司 导航内容显示的方法及装置
CN103164411A (zh) * 2011-12-12 2013-06-19 深圳市金蝶中间件有限公司 浏览器的网页加载方法
CN103176985A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种及时高效的互联网信息爬取方法
CN102663023A (zh) * 2012-03-22 2012-09-12 浙江盘石信息技术有限公司 一种提取网页内容的实现方法
CN102902719A (zh) * 2012-08-31 2013-01-30 四川长虹电器股份有限公司 嵌入式浏览器语音控制的网页浏览方法
CN102929992A (zh) * 2012-10-22 2013-02-13 卢屹韦 网上新闻信息定期自动抓取方法
CN103778164A (zh) * 2012-10-26 2014-05-07 广州市邦富软件有限公司 一种网页链接特征模式识别算法
CN104750704A (zh) * 2013-12-26 2015-07-01 中国移动通信集团河南有限公司 一种网页url地址分类识别方法及装置
CN103699700A (zh) * 2014-01-16 2014-04-02 北京奇虎科技有限公司 一种搜索引导的生成方法、系统及相关服务器
CN105930369A (zh) * 2016-04-13 2016-09-07 南京新与力文化传播有限公司 一种快速分析Web信息的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YU-CHUN CHU 等: "Automatic data extraction of websites using data path matching and alignment", 《2015 FIFTH INTERNATIONAL CONFERENCE ON DIGITAL INFORMATION PROCESSING AND COMMUNICATIONS (ICDIPC)》 *
基于语义的网上股评信息的提取研究: "孙文婷", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116401435A (zh) * 2023-02-22 2023-07-07 北京麦克斯泰科技有限公司 一种日活跃栏目热度计算及调度方法和装置
CN116401435B (zh) * 2023-02-22 2023-11-10 北京麦克斯泰科技有限公司 一种日活跃栏目热度计算及调度方法和装置

Also Published As

Publication number Publication date
CN108073588B (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
CN104504150B (zh) 新闻舆情监测系统
CN102142017B (zh) 提供查询建议
CN104408102B (zh) 用于网络热词与对象的关联度的数据处理方法和装置
CN101000627B (zh) 一种相关信息的发布方法和装置
CN104750704B (zh) 一种网页url地址分类识别方法及装置
US10311120B2 (en) Method and apparatus for identifying webpage type
CN102354315A (zh) 一种网址导航页面生成方法和装置
CN103530429B (zh) 一种网页正文抽取的方法
CN106649362A (zh) 网页爬取方法和装置
CN107766399A (zh) 用于使图像与内容项目匹配的方法和系统及机器可读介质
CN104765746A (zh) 用于移动通讯终端浏览器的数据处理方法和装置
CN108763313A (zh) 模型的在线训练方法、服务器及存储介质
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN108874870A (zh) 一种数据抽取方法、设备及计算机可存储介质
US8918403B2 (en) Semantically ranking content in a website
CN102902792B (zh) 列表页识别系统及方法
CN108073588A (zh) 栏目信息提取方法和装置
CN108108381A (zh) 页面的监测方法及装置
CN109558305A (zh) 日志数据排序方法及装置
CN104484451B (zh) 网页页面信息的提取方法和装置
CN107544994A (zh) 关联数据的处理方法和装置
CN106611022A (zh) 提高网站站内搜索效率的方法和装置
CN106612336A (zh) 图片预加载方法和装置
Kawase et al. Classification of user interest patterns using a virtual folksonomy
CN110598211B (zh) 文章的识别方法和装置、存储介质及电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant