CN109582883B - 栏目页的确定方法和装置 - Google Patents

栏目页的确定方法和装置 Download PDF

Info

Publication number
CN109582883B
CN109582883B CN201710915313.3A CN201710915313A CN109582883B CN 109582883 B CN109582883 B CN 109582883B CN 201710915313 A CN201710915313 A CN 201710915313A CN 109582883 B CN109582883 B CN 109582883B
Authority
CN
China
Prior art keywords
page
pages
target
navigation
column
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710915313.3A
Other languages
English (en)
Other versions
CN109582883A (zh
Inventor
曹志明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201710915313.3A priority Critical patent/CN109582883B/zh
Publication of CN109582883A publication Critical patent/CN109582883A/zh
Application granted granted Critical
Publication of CN109582883B publication Critical patent/CN109582883B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种栏目页的确定方法和装置。其中,该方法包括:爬取目标网站的页面上的超链接信息,其中,目标网站的页面包括:首页、栏目页、内容页;根据页面的网址和爬取到的超链接信息建立页面之间的导航关系,得到用于指示目标网站的页面之间的链接情况的第一导航关系;根据第一导航关系确定目标页面的导航关系参数,其中,目标页面的导航关系参数用于指示目标页面与目标网站的其他页面之间的链接情况,其中,目标页面是目标网站的任意一个页面;根据目标页面的导航关系参数确定目标页面是否为栏目页。本发明解决了现有技术中无法准确高效获取网站的栏目页的技术问题。

Description

栏目页的确定方法和装置
技术领域
本发明涉及互联网领域,具体而言,涉及一种栏目页的确定方法和装置。
背景技术
一个网站基本上是由首页、栏目页和内容页组成的。首页是网站的入口。内容页是网站访客获取具体信息的网页。栏目页是一个网站的网站首页到具体内容页之间的过渡页面,根据网站的整体结构及发布信息的类别设立。栏目页是对内容页的分类,帮助网站访客找到需要的信息。
例如,图1中最上面被矩形框框起来的区域都是栏目页的超链接,单击“新闻”,会得到图2所示出的网页。图2已经为“新闻”分类的栏目页了。被矩形框框起来的区域发生了变化,也就是说在“新闻”分类下,出现深一层的分类。
一个网站的栏目页信息,对于网站监测和分析是很有价值的数据。
目前,获取一个网站的栏目页的方法主要有两种:
第一种:
人工浏览网站,整理网站的栏目页。该方法的缺点很明显:一、效率低下,如果需要处理成百上千家网站,时间成本和人工成本都耗费巨大;二、滞后性,如果网站添加了新栏目页,人工无法第一时间添加,甚至会造成长时间遗漏栏目页的情况。
第二种:
使用网站提供的网站地图中的数据作为栏目页,例如,图3为腾讯网的网站地图。这种方法的问题是:网站地图列举的栏目页只包含了部分栏目页,数据有缺失。如腾讯网的新闻模块有很多栏目(如图2所示),但是网站地图中只列举了5个。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种栏目页的确定方法和装置,以至少解决现有技术中无法准确高效获取网站的栏目页的技术问题。
根据本发明实施例的一个方面,提供了一种栏目页的确定方法,包括:爬取目标网站的页面上的超链接信息,其中,所述目标网站的页面包括:首页、栏目页、内容页;根据页面的网址和爬取到的超链接信息建立页面之间的导航关系,得到用于指示所述目标网站的页面之间的链接情况的第一导航关系;根据所述第一导航关系确定目标页面的导航关系参数,其中,所述目标页面的导航关系参数用于指示所述目标页面与所述目标网站的其他页面之间的链接情况,其中,所述目标页面是所述目标网站的任意一个页面;根据所述目标页面的导航关系参数确定所述目标页面是否为栏目页。
进一步地,所述目标页面的导航关系参数为与所述目标页面具有双向导航关系的页面的数量,根据所述第一导航关系确定目标页面的导航关系参数;根据所述目标页面的导航关系参数确定所述目标页面是否为栏目页,包括:根据所述第一导航关系确定与所述目标页面具有双向导航关系的页面的数量;判断与所述目标页面具有双向导航关系的页面的数量是否大于等于预设数量;如果与所述目标页面具有双向导航关系的页面的数量大于等于所述预设数量,则确定所述目标页面为栏目页。
进一步地,根据页面的网址和爬取到的超链接信息建立页面之间的导航关系,得到用于指示所述目标网站的页面之间的链接情况的第一导航关系,包括:根据每个页面的网址和每个页面上爬取到的超链接信息建立每个页面与所述目标网站的其他页面之间的导航关系;将所有导航关系进行汇总,得到所述第一导航关系。
进一步地,如果与所述目标页面具有双向导航关系的页面的数量小于所述预设数量,根据所述目标页面的导航关系参数确定所述目标页面是否为栏目页,还包括:确定与所述目标页面具有双向导航关系的多个页面;判断与所述目标页面具有双向导航关系的多个页面中是否存在至少两个栏目页;如果与所述目标页面具有双向导航关系的多个页面中存在至少两个栏目页,则确定所述目标页面为栏目页。
进一步地,所述方法还包括:在确定一个页面为栏目页之后,将该页面添加到栏目页集合中,判断与所述目标页面具有双向导航关系的多个页面中是否存在至少两个栏目页,包括:将与所述目标页面具有双向导航关系的页面依次与所述栏目页集合中的栏目页进行匹配;确定匹配成功的页面为栏目页;判断与所述目标页面具有双向导航关系的多个页面中是否存在至少两个栏目页。
根据本发明实施例的一个方面,还提供了一种栏目页的确定装置,包括:爬取单元,用于爬取目标网站的页面上的超链接信息,其中,所述目标网站的页面包括:首页、栏目页、内容页;建立单元,用于根据页面的网址和爬取到的超链接信息建立页面之间的导航关系,得到用于指示所述目标网站的页面之间的链接情况的第一导航关系;第一确定单元,用于根据所述第一导航关系确定目标页面的导航关系参数,其中,所述目标页面的导航关系参数用于指示所述目标页面与所述目标网站的其他页面之间的链接情况,其中,所述目标页面是所述目标网站的任意一个页面;第二确定单元,用于根据所述目标页面的导航关系参数确定所述目标页面是否为栏目页。
进一步地,所述目标页面的导航关系参数为与所述目标页面具有双向导航关系的页面的数量,所述第一确定单元用于:根据所述第一导航关系确定与所述目标页面具有双向导航关系的页面的数量;所述第二确定单元包括:第一判断子单元,用于判断与所述目标页面具有双向导航关系的页面的数量是否大于等于预设数量;第一确定子单元,用于如果与所述目标页面具有双向导航关系的页面的数量大于等于所述预设数量,则确定所述目标页面为栏目页。
进一步地,所述建立单元包括:建立子单元,用于根据每个页面的网址和每个页面上爬取到的超链接信息建立每个页面与所述目标网站的其他页面之间的导航关系;汇总子单元,用于将所有导航关系进行汇总,得到所述第一导航关系。
进一步地,所述第二确定单元还包括:第二确定子单元,用于如果与所述目标页面具有双向导航关系的页面的数量小于所述预设数量,确定与所述目标页面具有双向导航关系的多个页面;第二判断子单元,用于判断与所述目标页面具有双向导航关系的多个页面中是否存在至少两个栏目页;第三确定子单元,用于如果与所述目标页面具有双向导航关系的多个页面中存在至少两个栏目页,则确定所述目标页面为栏目页。
进一步地,所述装置还包括:添加单元,用于在确定一个页面为栏目页之后,将该页面添加到栏目页集合中,所述第二判断子单元包括:匹配模块,用于将与所述目标页面具有双向导航关系的页面依次与所述栏目页集合中的栏目页进行匹配;确定模块,用于确定匹配成功的页面为栏目页;判断模块,用于判断与所述目标页面具有双向导航关系的多个页面中是否存在至少两个栏目页。
根据本发明实施例的一个方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行上述的栏目页的确定方法。
根据本发明实施例的一个方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述的栏目页的确定方法。
与特定栏目页具有双向导航关系的页面数量远远大于与特定内容页具有双向导航关系的页面数量,这是区分栏目页与内容页的显著特征,使用页面的导航关系参数指示页面与网站的其他页面之间的链接情况,根据栏目页、内容页与其他页面的链接情况的特征判断一个页面是栏目页还是内容页,准确高效,进而解决了现有技术中无法准确高效获取网站的栏目页的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据现有技术的一个网站页面的示意图;
图2是根据现有技术的一个栏目页的示意图;
图3是根据现有技术的一种网站地图的示意图;
图4是根据本发明实施例的一种可选的栏目页的确定方法的流程图;
图5是根据现有技术的一个栏目页的示意图;
图6是根据现有技术的一个内容页的示意图;
图7是根据本发明实施例的一种栏目页和内容页之间导航关系的示意图;
图8是根据本发明实施例的一种可选的栏目页的确定装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种栏目页的确定方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图4是根据本发明实施例的一种可选的栏目页的确定方法的流程图。如图4所示,该方法包括如下步骤:
步骤S102,爬取目标网站的页面上的超链接信息,其中,目标网站的页面包括:首页、栏目页、内容页。
步骤S104,根据页面的网址和爬取到的超链接信息建立页面之间的导航关系,得到用于指示目标网站的页面之间的链接情况的第一导航关系。
步骤S106,根据第一导航关系确定目标页面的导航关系参数,其中,目标页面的导航关系参数用于指示目标页面与目标网站的其他页面之间的链接情况,其中,目标页面是目标网站的任意一个页面。
步骤S108,根据目标页面的导航关系参数确定目标页面是否为栏目页。
如果A页面包含能够链接到B页面的超链接,则认为A页面能够导航到B页面。
如果B页面包含能够链接到A页面的超链接,则认为B页面能够导航到A页面。
如果A页面包含能够链接到B页面的超链接,并且,B页面包含能够链接到A页面的超链接,则认为A页面与B页面具有双向导航关系。
例如,图5是中国新闻网的“国际新闻”栏目页。在图5中具有多个链接,例如“第68届加拿大国际航展在多伦多登场”,其他链接未示出。
点击图5中的某个链接,则进入图6所示的页面,图6为“国际新闻”栏目页的一个内容页。
发明人发现,栏目页与自身的内容页具有双向导航关系,与其他栏目页的内容页不具有双向导航关系。栏目页、内容页与网站的其他页面之间的链接情况是不同的。栏目页与其他栏目页具有双向导航关系。如果一个页面为栏目页,则与该网页具有双向导航关系的页面包括:该栏目页包含的内容页、其他栏目页。如果一个页面为内容页,与该页面具有双向导航关系的页面包括:该页面所属的栏目页、极少量的推荐文章页面(推荐文章页面也是内容页)。图6右下角的方框中的内容为推荐文章,例如,点击链接“工作人员发明共享单车‘助推器’提升管理效率”,则进入该推荐文章的页面。
发明人发现,与特定栏目页具有双向导航关系的页面数量远远大于与特定内容页具有双向导航关系的页面数量,这是区分栏目页与内容页的显著特征,使用页面的导航关系参数指示页面与网站的其他页面之间的链接情况,根据栏目页、内容页与其他页面的链接情况的特征判断一个页面是栏目页还是内容页,准确高效,解决了现有技术中无法准确高效获取网站的栏目页的技术问题。
可选地,目标页面的导航关系参数为与目标页面具有双向导航关系的页面的数量,根据第一导航关系确定目标页面的导航关系参数;根据目标页面的导航关系参数确定目标页面是否为栏目页,包括:根据第一导航关系确定与目标页面具有双向导航关系的页面的数量;判断与目标页面具有双向导航关系的页面的数量是否大于等于预设数量;如果与目标页面具有双向导航关系的页面的数量大于等于预设数量,则确定目标页面为栏目页。
如果一个页面为栏目页,则与该网页具有双向导航关系的页面包括:该栏目页包含的内容页、其他栏目页。与目标网站的特定栏目页具有双向导航关系的页面的数量为:目标网站的栏目页的数量-1+该特定栏目页包含的内容页的数量。
例如,目标网站一共有10个栏目页,其中,栏目页L1包含的内容页的数量是15,栏目页L2包含的内容页的数量是28。则,与栏目页L1具有双向导航关系的页面数量=10-1+15=24;与栏目页L2具有双向导航关系的页面数量=10-1+28=37。
如果一个页面为内容页,与该页面具有双向导航关系的页面包括:该页面所属的栏目页、极少量的推荐文章页面(推荐文章页面也是内容页)。与目标网站的特定内容页具有双向导航关系的页面数量=1+N,其中,N为与特定内容页具有双向导航关系的推荐文章页面的数量。需要注意的是,并非内容页展示的所有推荐文章页面都与该内容页具有双向导航关系,一般情况下,只有极少数推荐文章页面与内容页具有双向导航关系。
将与目标页面具有双向导航关系的页面的数量作为目标页面的导航关系参数,如果与目标页面具有双向导航关系的页面的数量大于等于预设数量,则确定目标页面为栏目页,这种区分栏目页和内容页的方法非常准确高效。
可选地,根据页面的网址和爬取到的超链接信息建立页面之间的导航关系,得到用于指示目标网站的页面之间的链接情况的第一导航关系,包括:根据每个页面的网址和每个页面上爬取到的超链接信息建立每个页面与目标网站的其他页面之间的导航关系;将所有导航关系进行汇总,得到第一导航关系。
假设目标网站一共有M个页面,根据每个页面的网址和每个页面上爬取到的超链接信息建立每个页面与目标网站的其他页面之间的导航关系,得到M个导航关系,其中,每个导航关系都指示了一个页面与其他页面之间的链接情况,将这M个导航关系进行汇总,得到第一导航关系。第一导航关系能够指示目标网站的所有页面之间互相链接的情况。
可选地,在确定一个页面为栏目页之后,将该页面添加到栏目页集合中。
可选地,如果与目标页面具有双向导航关系的页面的数量小于预设数量,确定与目标页面具有双向导航关系的多个页面;判断与目标页面具有双向导航关系的多个页面中是否存在至少两个栏目页;如果与目标页面具有双向导航关系的多个页面中存在至少两个栏目页,则确定目标页面为栏目页。判断与目标页面具有双向导航关系的多个页面中是否存在至少两个栏目页,包括:将与目标页面具有双向导航关系的页面依次与栏目页集合中的栏目页进行匹配;确定匹配成功的页面为栏目页;判断与目标页面具有双向导航关系的多个页面中是否存在至少两个栏目页。
由于与内容页具有双向导航关系的栏目页只有一个,即该内容页所属的栏目页。如果与目标页面具有双向导航关系的栏目页大于等于两个,则确定目标页面不是内容页,而是栏目页。
图7描述了栏目页和内容页之间的导航关系(注意:推荐文章属于内容页)。
从图7中能够发现如果一个网页为栏目页,那么与其具有双向导航关系的页面数量=栏目页数目-1+该栏目页包含的内容页数量,而与一个内容页具有双向导航关系的只有其所属的栏目页和极少量不确定数目的推荐文章。
根据栏目页和内容页这项明显不同的特征,就可以将其区分。
具体操作步骤可以是:
爬取网站页面,并解析出页面中的超链接信息;根据当前页面网址和页面内的超链接信息,建立导航关系图。根据所有页面建立综合导航关系图。查找与指定页面有双向导航关系的页面。设定一个阈值T(比如5,一般网站栏目页的数量都会大于5,可根据经验修改),如果与指定页面具有双向导航关系的页面数量大于阈值T,则该指定网页即为栏目页。
发明人根据栏目页和内容页之间导航关系的原生特征,提出来一种可以自动化提取网站栏目页的新思路。更自动化的提取栏目页,降低人工和时间成本,提高效率,降低滞后性,并且得到更加全面的栏目页数据。
本发明实施例还提供了一种栏目页的确定装置。该栏目页的确定装置用于执行栏目页的确定方法。
图8是根据本发明实施例的一种可选的栏目页的确定装置的示意图,如图8所示,该装置包括:爬取单元10、建立单元20、第一确定单元30、第二确定单元40。
爬取单元10,用于爬取目标网站的页面上的超链接信息,其中,目标网站的页面包括:首页、栏目页、内容页。
建立单元20,用于根据页面的网址和爬取到的超链接信息建立页面之间的导航关系,得到用于指示目标网站的页面之间的链接情况的第一导航关系。
第一确定单元30,用于根据第一导航关系确定目标页面的导航关系参数,其中,目标页面的导航关系参数用于指示目标页面与目标网站的其他页面之间的链接情况,其中,目标页面是目标网站的任意一个页面。
第二确定单元40,用于根据目标页面的导航关系参数确定目标页面是否为栏目页。
可选地,目标页面的导航关系参数为与目标页面具有双向导航关系的页面的数量。第一确定单元30用于:根据第一导航关系确定与目标页面具有双向导航关系的页面的数量。第二确定单元40包括:第一判断子单元、第一确定子单元。第一判断子单元,用于判断与目标页面具有双向导航关系的页面的数量是否大于等于预设数量。第一确定子单元,用于如果与目标页面具有双向导航关系的页面的数量大于等于预设数量,则确定目标页面为栏目页。
可选地,建立单元20包括:建立子单元、汇总子单元。建立子单元,用于根据每个页面的网址和每个页面上爬取到的超链接信息建立每个页面与目标网站的其他页面之间的导航关系。汇总子单元,用于将所有导航关系进行汇总,得到第一导航关系。
可选地,第二确定单元40还包括:第二确定子单元、第二判断子单元、第三确定子单元。第二确定子单元,用于如果与目标页面具有双向导航关系的页面的数量小于预设数量,确定与目标页面具有双向导航关系的多个页面。第二判断子单元,用于判断与目标页面具有双向导航关系的多个页面中是否存在至少两个栏目页。第三确定子单元,用于如果与目标页面具有双向导航关系的多个页面中存在至少两个栏目页,则确定目标页面为栏目页。
可选地,装置还包括:添加单元。添加单元,用于在确定一个页面为栏目页之后,将该页面添加到栏目页集合中。第二判断子单元包括:匹配模块、确定模块、判断模块。匹配模块,用于将与目标页面具有双向导航关系的页面依次与栏目页集合中的栏目页进行匹配。确定模块,用于确定匹配成功的页面为栏目页。判断模块,用于判断与目标页面具有双向导航关系的多个页面中是否存在至少两个栏目页。
栏目页的确定装置包括处理器和存储器,上述爬取单元10、建立单元20、第一确定单元30、第二确定单元40等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来执行栏目页的确定方法。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现栏目页的确定方法。
本发明实施例提供了一种处理器,处理器用于运行程序,其中,程序运行时执行栏目页的确定方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
爬取目标网站的页面上的超链接信息,其中,目标网站的页面包括:首页、栏目页、内容页;根据页面的网址和爬取到的超链接信息建立页面之间的导航关系,得到用于指示目标网站的页面之间的链接情况的第一导航关系;根据第一导航关系确定目标页面的导航关系参数,其中,目标页面的导航关系参数用于指示目标页面与目标网站的其他页面之间的链接情况,其中,目标页面是目标网站的任意一个页面;根据目标页面的导航关系参数确定目标页面是否为栏目页。
根据第一导航关系确定与目标页面具有双向导航关系的页面的数量;判断与目标页面具有双向导航关系的页面的数量是否大于等于预设数量;如果与目标页面具有双向导航关系的页面的数量大于等于预设数量,则确定目标页面为栏目页。
根据每个页面的网址和每个页面上爬取到的超链接信息建立每个页面与目标网站的其他页面之间的导航关系;将所有导航关系进行汇总,得到第一导航关系。
如果与目标页面具有双向导航关系的页面的数量小于预设数量,确定与目标页面具有双向导航关系的多个页面;判断与目标页面具有双向导航关系的多个页面中是否存在至少两个栏目页;如果与目标页面具有双向导航关系的多个页面中存在至少两个栏目页,则确定目标页面为栏目页。
在确定一个页面为栏目页之后,将该页面添加到栏目页集合中。将与目标页面具有双向导航关系的页面依次与栏目页集合中的栏目页进行匹配;确定匹配成功的页面为栏目页;判断与目标页面具有双向导航关系的多个页面中是否存在至少两个栏目页。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
爬取目标网站的页面上的超链接信息,其中,目标网站的页面包括:首页、栏目页、内容页;根据页面的网址和爬取到的超链接信息建立页面之间的导航关系,得到用于指示目标网站的页面之间的链接情况的第一导航关系;根据第一导航关系确定目标页面的导航关系参数,其中,目标页面的导航关系参数用于指示目标页面与目标网站的其他页面之间的链接情况,其中,目标页面是目标网站的任意一个页面;根据目标页面的导航关系参数确定目标页面是否为栏目页。
根据第一导航关系确定与目标页面具有双向导航关系的页面的数量;判断与目标页面具有双向导航关系的页面的数量是否大于等于预设数量;如果与目标页面具有双向导航关系的页面的数量大于等于预设数量,则确定目标页面为栏目页。
根据每个页面的网址和每个页面上爬取到的超链接信息建立每个页面与目标网站的其他页面之间的导航关系;将所有导航关系进行汇总,得到第一导航关系。
如果与目标页面具有双向导航关系的页面的数量小于预设数量,确定与目标页面具有双向导航关系的多个页面;判断与目标页面具有双向导航关系的多个页面中是否存在至少两个栏目页;如果与目标页面具有双向导航关系的多个页面中存在至少两个栏目页,则确定目标页面为栏目页。
在确定一个页面为栏目页之后,将该页面添加到栏目页集合中。将与目标页面具有双向导航关系的页面依次与栏目页集合中的栏目页进行匹配;确定匹配成功的页面为栏目页;判断与目标页面具有双向导航关系的多个页面中是否存在至少两个栏目页。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (6)

1.一种栏目页的确定方法,其特征在于,包括:
爬取目标网站的页面上的超链接信息,其中,所述目标网站的页面包括:首页、栏目页、内容页;
根据页面的网址和爬取到的超链接信息建立页面之间的导航关系,得到用于指示所述目标网站的页面之间的链接情况的第一导航关系;
根据所述第一导航关系确定目标页面的导航关系参数,其中,所述目标页面的导航关系参数用于指示所述目标页面与所述目标网站的其他页面之间的链接情况,其中,所述目标页面是所述目标网站的任意一个页面;
根据所述目标页面的导航关系参数确定所述目标页面是否为栏目页;
其中,所述目标页面的导航关系参数为与所述目标页面具有双向导航关系的页面的数量,根据所述第一导航关系确定目标页面的导航关系参数;根据所述目标页面的导航关系参数确定所述目标页面是否为栏目页,包括:根据所述第一导航关系确定与所述目标页面具有双向导航关系的页面的数量;判断与所述目标页面具有双向导航关系的页面的数量是否大于等于预设数量;如果与所述目标页面具有双向导航关系的页面的数量大于等于所述预设数量,则确定所述目标页面为栏目页;
其中,根据页面的网址和爬取到的超链接信息建立页面之间的导航关系,得到用于指示所述目标网站的页面之间的链接情况的第一导航关系,包括:根据每个页面的网址和每个页面上爬取到的超链接信息建立每个页面与所述目标网站的其他页面之间的导航关系;将所有导航关系进行汇总,得到所述第一导航关系。
2.根据权利要求1所述的方法,其特征在于,如果与所述目标页面具有双向导航关系的页面的数量小于所述预设数量,根据所述目标页面的导航关系参数确定所述目标页面是否为栏目页,还包括:
确定与所述目标页面具有双向导航关系的多个页面;
判断与所述目标页面具有双向导航关系的多个页面中是否存在至少两个栏目页;
如果与所述目标页面具有双向导航关系的多个页面中存在至少两个栏目页,则确定所述目标页面为栏目页。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:在确定一个页面为栏目页之后,将该页面添加到栏目页集合中,
判断与所述目标页面具有双向导航关系的多个页面中是否存在至少两个栏目页,包括:
将与所述目标页面具有双向导航关系的页面依次与所述栏目页集合中的栏目页进行匹配;
确定匹配成功的页面为栏目页;
判断与所述目标页面具有双向导航关系的多个页面中是否存在至少两个栏目页。
4.一种栏目页的确定装置,其特征在于,包括:
爬取单元,用于爬取目标网站的页面上的超链接信息,其中,所述目标网站的页面包括:首页、栏目页、内容页;
建立单元,用于根据页面的网址和爬取到的超链接信息建立页面之间的导航关系,得到用于指示所述目标网站的页面之间的链接情况的第一导航关系;
第一确定单元,用于根据所述第一导航关系确定目标页面的导航关系参数,其中,所述目标页面的导航关系参数用于指示所述目标页面与所述目标网站的其他页面之间的链接情况,其中,所述目标页面是所述目标网站的任意一个页面;
第二确定单元,用于根据所述目标页面的导航关系参数确定所述目标页面是否为栏目页;
其中,所述目标页面的导航关系参数为与所述目标页面具有双向导航关系的页面的数量,所述第一确定单元用于:根据所述第一导航关系确定与所述目标页面具有双向导航关系的页面的数量;所述第二确定单元包括:第一判断子单元,用于判断与所述目标页面具有双向导航关系的页面的数量是否大于等于预设数量;第一确定子单元,用于如果与所述目标页面具有双向导航关系的页面的数量大于等于所述预设数量,则确定所述目标页面为栏目页;
其中,所述建立单元包括:建立子单元,用于根据每个页面的网址和每个页面上爬取到的超链接信息建立每个页面与所述目标网站的其他页面之间的导航关系;汇总子单元,用于将所有导航关系进行汇总,得到所述第一导航关系。
5.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至3中任意一项所述的栏目页的确定方法。
6.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至3中任意一项所述的栏目页的确定方法。
CN201710915313.3A 2017-09-29 2017-09-29 栏目页的确定方法和装置 Active CN109582883B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710915313.3A CN109582883B (zh) 2017-09-29 2017-09-29 栏目页的确定方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710915313.3A CN109582883B (zh) 2017-09-29 2017-09-29 栏目页的确定方法和装置

Publications (2)

Publication Number Publication Date
CN109582883A CN109582883A (zh) 2019-04-05
CN109582883B true CN109582883B (zh) 2022-11-22

Family

ID=65919321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710915313.3A Active CN109582883B (zh) 2017-09-29 2017-09-29 栏目页的确定方法和装置

Country Status (1)

Country Link
CN (1) CN109582883B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800358B (zh) * 2019-11-14 2024-03-08 北京金山云网络技术有限公司 一种背景区域生成方法、装置、电子设备及存储介质
WO2022143192A1 (zh) * 2020-12-30 2022-07-07 江苏省未来网络创新研究院 一种自动识别网站目录页的方法
CN115017430A (zh) * 2022-06-27 2022-09-06 京东科技控股股份有限公司 列表页面的确定方法、装置、电子设备及存储介质
CN116361594B (zh) * 2023-06-01 2023-08-25 北京拓普丰联信息科技股份有限公司 一种招投标信息发布平台挖掘方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106168977A (zh) * 2016-07-15 2016-11-30 河南山谷网安科技股份有限公司 一种用于网站安全监测的栏目识别方法
CN106649337A (zh) * 2015-10-30 2017-05-10 北京国双科技有限公司 识别网页栏目的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8019746B2 (en) * 2009-03-02 2011-09-13 Yahoo! Inc. Optimized search result columns on search results pages

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649337A (zh) * 2015-10-30 2017-05-10 北京国双科技有限公司 识别网页栏目的方法及装置
CN106168977A (zh) * 2016-07-15 2016-11-30 河南山谷网安科技股份有限公司 一种用于网站安全监测的栏目识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于页面模板与ASP.NET技术的信息发布网站设计与实现;刘冰峰等;《软件导刊》;20120830(第08期);全文 *

Also Published As

Publication number Publication date
CN109582883A (zh) 2019-04-05

Similar Documents

Publication Publication Date Title
CN109582883B (zh) 栏目页的确定方法和装置
CN105404699A (zh) 一种搜索财经文章的方法、装置及服务器
CN110020339B (zh) 基于无埋点的网页数据采集方法及装置
CN106021583B (zh) 页面流量数据的统计方法及其系统
CN109376291B (zh) 一种基于网络爬虫的网站指纹信息扫描的方法及装置
CN110569489B (zh) 基于pdf文件的表格数据解析方法及装置
CN107045507B (zh) 网页爬取方法及装置
CN109582548B (zh) 一种基于无埋点的页面元素圈选方法及装置
CN104899203B (zh) 一种网页页面的生成方法、装置及终端设备
CN110689211A (zh) 网站服务能力的评估方法及装置
CN110008393B (zh) 一种用于获取网站信息的方法及设备
CN110928755A (zh) 一种用户行为数据处理方法及装置
CN110147473B (zh) 一种爬虫的爬取方法及装置
CN111125087B (zh) 数据的存储方法及装置
CN105989019B (zh) 一种清洗数据的方法及装置
WO2016206395A1 (zh) 周报信息处理方法及装置
CN109597743B (zh) 页面圈选方法、点击量统计方法及相关设备
CN107463581B (zh) 应用下载量获取方法、装置和终端设备
CN110889051A (zh) 一种页面超链接检测方法、装置及设备
CN109426540B (zh) 元素的点击情况检测方法和装置、存储介质、处理器
CN109948013B (zh) 网页处理方法和装置
CN111125590B (zh) 一种绘制热力图的方法及装置
CN110968754B (zh) 一种爬虫翻页策略的检测方法及装置
CN112579947A (zh) 网页元素图的截取方法、装置及电子设备
CN106997353B (zh) 网页改版的监控方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Applicant before: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant