CN110750739A - 一种页面类型确定方法及装置 - Google Patents

一种页面类型确定方法及装置 Download PDF

Info

Publication number
CN110750739A
CN110750739A CN201810726492.0A CN201810726492A CN110750739A CN 110750739 A CN110750739 A CN 110750739A CN 201810726492 A CN201810726492 A CN 201810726492A CN 110750739 A CN110750739 A CN 110750739A
Authority
CN
China
Prior art keywords
url
page
character
analyzed
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810726492.0A
Other languages
English (en)
Other versions
CN110750739B (zh
Inventor
张野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201810726492.0A priority Critical patent/CN110750739B/zh
Publication of CN110750739A publication Critical patent/CN110750739A/zh
Application granted granted Critical
Publication of CN110750739B publication Critical patent/CN110750739B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本申请实施例公开了一种页面类型确定方法及装置,先获取待分析url,从待分析url对应的页面中进行链接爬取,得到参考url集合,参考url集合中内容页url与目录页url的数量关系符合预设数量关系规则;根据预设数量关系规则,生成参考url集合的url模板;将待分析url与url模板进行匹配,根据匹配结果确定待分析url对应的页面类型。在本申请实施例中,根据参考url集合中内容页url与目录页url的数量关系需要符合的预设数量关系,生成url模板,从而根据url模板确定待分析url对应的页面类型,不需要对url对应网页的页面布局进行分析,也不需要提取页面的源代码,从而提高页面识别的效率和准确性。

Description

一种页面类型确定方法及装置
技术领域
本申请涉及计算机领域,尤其涉及一种页面类型确定方法及装置。
背景技术
随着信息技术的发展,网页数量逐渐上升,为了获取更广泛的信息,需要对网页进行分析。事实上,网页可以包括目录页和内容页,其中,目录页通常是指在一个页面中呈现多个页面链接的页面,通过点击这些页面链接,可以跳转到该页面链接对应的页面;内容页通常是指呈现实质内容的页面,多由文本和图片组成。
例如,参见图1,该图为目录页的示意图。当用户在百度百科中输入搜索词条“爬虫”并点击搜索按钮后,就可以显示如图1所示的目录页,在该目录页中呈现了多个关于爬虫的页面链接,当用户点击其中一个页面链接,则跳转到对应的页面。参见图2,该图为内容页的示意图,该页面的实质内容为一篇关于“一篇文章了解爬虫技术现状”的博文。
而在网页的分析过程中,通常以内容页为主,因此,可以先对网页进行识别,确定网页的页面类型,以便能从中提取出内容页,从而获取内容页的信息。
现有的页面类型确定方法通常基于页面布局来进行,例如可以获取页面的源代码来进行页面布局的分析,但是因为目录页和内容页的页面布局都较为复杂,并不能很好的总结出页面布局的规律,因此页面类型确定的准确率较低,同时,对页面布局的分析时间较长,页面类型确定的效率较低。
发明内容
为了解决现有技术中分析提取内容页准确率和效率较低的问题,本申请实施例提供了一种页面类型确定方法及装置。
本申请实施例提供了一种页面类型确定方法,所述方法包括:
获取待分析url;
从所述待分析url对应的页面中进行链接爬取,得到参考url集合,所述参考url集合中内容页url与目录页url的数量关系符合预设数量关系规则;
根据所述预设数量关系规则,生成所述参考url集合的url模板,所述url模板用于区分页面类型,所述页面类型包括内容页和目录页;
将所述待分析url与所述url模板进行匹配,根据匹配结果确定所述待分析url对应的页面类型。
优选的,所述预设数量关系规则为内容页url的数量大于目录页url的数量,所述url模板为内容页url模板;根据所述预设数量关系规则,生成所述参考url集合的url模板,包括:
分别获取所述参考url集合中每个参考url的各个位置的实际字符组合;
对于每个位置,统计在该位置上各种实际字符组合的累计出现次数,并将累计出现次数最多的实际字符组合确定为该位置的代表字符;
根据各个位置对应的代表字符,生成所述参考url集合的内容页url模板。
优选的,在将累计出现次数最多的实际字符组合确定为该位置的代表字符之前,所述方法还包括:
判断所述累计出现次数最多的实际字符组合是否为数字字符;
如果不是数字字符,则转入执行将所述累计出现次数最多的实际字符组合确定为该位置对应的代表字符的步骤;
如果是数字字符,则将第一预设字符确定为该位置的代表字符,所述第一预设字符表征该位置的字符为数字字符。
优选的,在将累计出现次数最多的实际字符组合确定为该位置的代表字符之前,所述方法还包括:
判断所述累计出现次数最多的实际字符组合的数量是否达到预设阈值;
如果达到预设阈值,则执行将所述累计出现次数最多的实际字符组合确定为该位置对应的代表字符的步骤;
如果未达到预设阈值,则将第二预设字符确定为该位置对应的代表字符,所述第二预设字符表征该位置的字符为非匹配字符。
优选的,根据各个位置对应的代表字符,生成所述参考url集合的内容页url模板,包括:
将各个位置对应的代表字符按顺序依次排布,并将各个代表字符之间采用预设分隔符进行连接,得到所述参考url集合的内容页url模板;
根据匹配结果确定所述待分析url对应的页面类型,包括:
如果匹配成功,则确定所述待分析url对应的页面类型为内容页;
如果未匹配成功,则确定所述待分析url对应的页面类型为目录页。
优选的,在从所述待分析url对应的页面中进行链接爬取之前,所述方法还包括:
将所述待分析url与预先生成的url模板进行匹配;
如果匹配成功,则根据匹配结果确定所述待分析url对应的页面类型;
如果未匹配成功,则转入执行从所述待分析url对应的页面中进行链接爬取的步骤。
本申请实施例还提供了一种页面类型确定装置,所述装置包括:
url获取单元110,用于获取待分析url;
爬取单元120,用于从所述待分析url对应的页面中进行链接爬取,得到参考url集合,所述参考url集合中内容页url与目录页url的数量关系符合预设数量关系规则;
url模板生成单元130,用于根据所述预设数量关系规则,生成所述参考url集合的url模板,所述url模板用于区分页面类型,所述页面类型包括内容页和目录页;
页面类型分析单元140,用于将所述待分析url与所述url模板进行匹配,根据匹配结果确定所述待分析url对应的页面类型。
可选的,所述预设数量关系规则为内容页url的数量大于目录页url的数量,所述url模板为内容页url模板;所述url模板生成单元,包括:
实际字符获取子单元,用于分别获取所述参考url集合中每个参考url的各个位置的实际字符组合;
统计子单元,用于对于每个位置,统计在该位置上各种实际字符组合的累计出现次数;
第一代表字符确定子单元,用于将累计出现次数最多的实际字符组合确定为该位置的代表字符;
url模板生成子单元,用于根据各个位置对应的代表字符,生成参考url集合的内容页url模板。
可选的,所述装置还包括:
第一判断单元,用于判断所述累计出现次数最多的实际字符组合是否为数字字符,如果是,则激活所述第一代表字符确定子单元,如果否,则激活第二代表字符确定单元;
所述第二代表字符确定单元,用于将第一预设字符确定为该位置的代表字符,所述第一预设字符表征该位置的字符为数字字符。
可选的,所述装置还包括:
第二判断单元,用于判断所述累计出现次数最多的实际字符的数量是否达到预设阈值,如果是,则激活所述第一代表字符确定子单元,如果否,则激活第三代表字符确定单元;
所述第三代表字符确定单元,用于将第二预设字符确定为该位置对应的代表字符,所述第二预设字符表征该位置的字符为非匹配字符。
可选的,所述url模板生成子单元具体用于:将各个位置对应的代表字符按顺序依次排布,并将各个代表字符之间采用预设分隔符进行连接,得到所述内容页url模板;
所述页面类型分析单元,具体用于将所述待分析url与所述url模板进行匹配,如果匹配成功,则确定所述待分析url对应的页面类型为内容页;如果未匹配成功,则确定所述待分析url对应的页面类型为目录页。
可选的,所述装置还包括:
匹配单元,用于将待分析url与预先生成的url模板进行匹配,若匹配成功,则激活页面类型确定单元,若匹配不成功,则激活所述爬取单元;
所述页面类型确定单元,用于根据匹配结果确定所述待分析url对应的页面类型。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的页面类型确定方法。
本申请实施例还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述的页面类型确定方法。
与现有技术相比,本发明至少具有以下优点:
先获取待分析url,从待分析url对应的页面中进行链接爬取,得到参考url集合,所述参考url集合中内容页url与目录页url的数量关系符合预设数量关系规则,根据预设数量关系规则,生成所述参考url集合的url模板,所述url模板用于区分页面类型,所述页面类型包括内容页和目录页;将待分析url与url模板进行匹配,根据匹配结果确定待分析url对应的页面类型。在本申请实施例中,根据参考url集合中内容页url与目录页url的数量关系需要符合的预设数量关系,生成所述参考url集合的url模板,从而根据url模板确定待分析url对应的页面类型,不需要对url对应网页的页面布局进行分析,也不需要提取页面的源代码,从而提高页面识别的效率和准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例中的一种目录页示意图;
图2为本申请实施例中的一种内容页示意图;
图3为本申请实施例提供的一种页面类型确定方法的流程图;
图4为本申请实施例提供的一种页面类型确定装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在对网页的分析过程中,可以先对网页进行识别,确定网页的页面类型,以便能从中提取出内容页,进而对内容页进行后续分析处理来获取内容页的信息。现有技术中的页面识别方式通常是基于页面布局来进行,例如可以获取页面的源代码来进行页面布局的分析,来判断页面是目录页还是内容页。通常情况下,内容页是呈现实质内容的页面,而目录页是呈现页面链接的页面,可以通过判断页面中是否存在页面链接来判断是否为内容页,但是因为目前的目录页和内容页的页面布局都较为复杂,通过这种方式并不能很好的总结出页面布局的规律,例如很多内容页中可能有各类广告,这些广告对应的链接往往会影响页面识别的结果。因此现有的页面识别方法的准确率较低,同时,对页面布局的分析时间较长,页面类型确定的效率较低。
基于以上技术问题,本申请实施例提供了一种页面类型确定方法及装置,先获取待分析url,从待分析url对应的页面中进行链接爬取,得到参考url集合,其中,参考url集合中内容页url和目录页url的数量关系符合预设数量关系规则;根据预设数量关系规则,生成参考url集合的url模板,其中,url模板用于区分页面类型,页面类型包括内容页和目录页;将待分析url与url模板进行匹配,根据匹配结果确定待分析url对应的页面类型。在本申请实施例中,根据参考url集合中内容页url与目录页url的数量关系需要符合的预设数量关系,生成所述参考url集合的url模板,从而根据url模板确定待分析url对应的页面类型,不需要对url对应网页的页面布局进行分析,也不需要提取页面的源代码,从而提高页面识别的效率和准确性。
参考图3,该图为本申请实施例提供的一种页面类型确定方法的流程图,该方法包括如下步骤。
S101,获取待分析统一资源定位符url(简称:待分析url)。
统一资源定位符(uniform resource locator,url)表示互联网上标准资源的地址,即链接地址,是对可以从互联网上得到的资源的位置和访问方法的一种表示方式。通过url可以得到相应的资源,例如可以通过url来显示相应的页面,也可以根据url获取相应的源代码。
在结构上,url可以包括模式/协议、服务器地址、端口、路径、文件名称等,其各个部分之间以符号隔开,url中的符号可能有多种,例如“/”、“.”、“-”、“?”、“=”、“_”、“&”等。在本申请其他实施例中,url还可以包括更多信息,也可以使用更多种类的符号进行分隔,在此不做限定。
在本申请实施例中,可以通过网络爬虫技术爬取多个url作为待分析url,也可以将用户输入的url作为待分析url。其中,网络爬虫(web crawler)是一种自动地从网络中抓取目标信息的程序。
S102,从待分析url对应的页面中进行链接爬取,得到参考url集合。
从待分析url对应的页面中进行链接爬取,可以具体为,根据目录网页中的网页链接,依次访问下一级网页链接,若下一级网页链接对应的页面为目录页面,则可以继续访问下一级网页链接,直到不能深入为止。
在爬取之前,还可以通过添加相关配置来设置爬取任务,例如可以添加待分析url作为入口url。根据待分析url可以爬取该url下的各个相关网页链接,将爬取到的各个网页链接作为参考url,爬取到的至少一个参考url可以形成参考url集合。
举例来说,将“http://jjb.zju.edu.cn/column.php?id=18&page=1”作为待分析url,该待分析url对应的页面中可以包括至少一个url,可以将该待分析url作为入口url,根据该入口url获取页面中的多个url作为下一级网页链接,若下一级网页链接对应的页面中还包括有url,则继续获取该页面中的多个url,直到页面中不包含有url为止。
参考url集合中,可以只包括待分析url的下级链接,也可以同时包括待分析url本身以及其下级链接,举例来说,参考url可以包括:
第一参考url:http://jjb.zju.edu.cn/column.php?id=18&page=1、
第二参考url:http://jjb.zju.edu.cn/news.php?id=2646、
第三参考url:http://jjb.zju.edu.cn/news.php?id=226、
第四参考url:http://jjb.zju.edu.cn/news.php?id=2096,
以上示例中,将待分析url直接作为第一参考url。
需要说明的是,在本申请实施例中,参考url集合中内容页url与目录页url的数量关系符合预设数量关系规则,其中,预设数量关系规则可以为内容页url与目录页url相比的数量的大小关系。
S103,根据预设数量关系规则,生成参考url集合的url模板。
其中,url模板可以用于区分页面类型,页面类型包括内容页和目录页,也即,url模板可以用于区分页面类型是内容页还是目录页。
由于预设关系规则可以体现内容页url与目录页url的数量关系,根据该规则可以生成url模板。例如对于一般网页结构来说,内容页url的数量大于目录页url的数量,则预设数量规则可以体现内容页url的数量大于目录页url的数量。
具体的,可以分别获取参考url集合中每个参考url的各个位置的实际字符组合。其中,每个位置的实际字符组合既可以包括一个字符,也可以包括多个字符。
在本申请实施例中,可以对参考url集合中的每个参考url进行拆分,形成多个不同位置的实际字符组合,具体的,可以按照其属性进行,也可以根据其中的分隔符进行。对参考url的拆分,例如可以按照一级域名、二级域名和三级域名等属性,将参考url拆分形成多个实际字符组合,此时,每个位置的实际字符组合可以表示属性相同的至少一个实际字符。对参考url的拆分,也可以按照其中的分隔符进行拆分,形成多个实际字符组合,在将参考url拆分后,还可以采用序号为各个实际字符组合进行标注及排序,例如可以根据各个实际字符组合在url中的位置从前向后依次排序,此时,每个位置的实际字符表示具有相同序号的实际字符组合中的至少一个实际字符。
例如可以将第一参考url中,“http”、“jjb”、“zju”、“edu”、“cn”、“column”、“php”、“id”、“18”、“page”和“1”分别作为第1至11个实际字符组;第二参考url中,将“http”、“jjb”、“zju”、“edu”、“cn”、“news”、“php”、“id”和“2646”分别作为第1至9个实际字符组;第三参考url中,将“http”、“jjb”、“zju”、“edu”、“cn”、“news”、“php”、“id”和“226”分别作为第1至9个实际字符组;第四参考url中,将“http”、“jjb”、“zju”、“edu”、“cn”、“news”、“php”、“id”和“2096”分别作为第1至9个实际字符组。
对于参考url中的每个位置而言,在获取参考url集合中的每个参考url的同一位置的实际字符组合后,分别比对每个参考url在该同一位置的实际字符组合,比对的结果可以是其中多个参考url中某一位置的实际字符组合的内容相同,或各个参考url中某一位置实际字符组合的内容均不同,例如第一参考url、第二参考url、第三参考url和第四参考url中的第二实际字符组合的内容相同,均为“jjb”,而第九实际字符组合的内容各不相同。
在得到比对结果后,可以统计同一位置上内容相同的实际字符组合的数量,从同一位置上内容相同的实际字符组合中选择累计出现次数最多的实际字符组合。若比对结果为第二参考url、第三参考url和第四参考url中的第六实际字符组合的内容相同,均为“news”,则第六实际字符组合内容相同的实际字符组合的数量为3个,该位置上内容相同的实际字符组合中累计出现次数最多的实际字符组合为“news”。
作为一种可能的实施方式,在确定同一位置上内容相同的实际字符组合中累计出现次数最多的实际字符组合后,还可以判断累计出现次数最多的实际字符组合是否为数字字符,如果是,则可以将第一预设字符确定为该位置的代表字符,如果不是,则按照其他可能的实施方式确定该位置的代表字符。其中,第一预设字符可以表征该位置的实际字符组合为数字字符,例如第一预设字符可以是“NUM”,也可以是其他能够表征该位置的实际字符组合为数字字符的字符。举例来说,第9实际字符组合为各不相同的数字,则该位置上内容相同的实际字符组合中数量均为1,且累计出现次数最多的实际字符组合为数字字符,则将该位置的代表字符确定为“NUM”。
作为另一种可能的实施方式,在确定同一位置上内容相同的实际字符组合中累计出现次数最多的实际字符组合后,还可以判断累计出现次数最多的实际字符组合的数量是否达到预设阈值,如果否,则可以将第二预设字符确定为该位置对应的代表字符,如果是,则可以通过其他可能的实施方式确定该位置的代表字符。其中,第二预设字符可以表征该位置的实际字符组合为非匹配字符,其中,非匹配字符指代该位置的字符,在进行页面类型确定时,并不作为匹配对象进行实际匹配。例如第二预设字符可以是“***”,其中,“*”的数量可以为三个,也可以根据该位置的实际字符组合的数量而定,第二预设字符也可以是其他能够表征该位置的实际字符组合为非匹配字符的字符。
其中,预设阈值是与参考url的总数相关的,可以根据实际情况来确定,用于体现内容页url与目录页url的数量关系,预设阈值可以为参考url的数量的一半或以上,例如参考url的数量为10个,预设阈值可以是8个,参考url的数量为100个,第一阈值可以是70个。
举例来说,在上述例子中的四个参考url中,第一阈值可以是3。在其他参考url中,不存在与在第一参考url中第10实际字符内容相同的实际字符,也即,内容相同的实际字符的数量未达到阈值3,因此,可以将“***”作为实际字符“page”的代表字符。
作为又一种可能的实施方式,在确定各个位置上内容相同的实际字符组合中累计出现次数最多的实际字符组合后,还可以将累计出现次数最多的实际字符组合确定为该位置的代表字符。例如,在各个参考url中,第一实际字符组合全部相同,即同一位置上内容相同的实际字符组合的数量为4,大于第一阈值3,此时,可将实际字符“http”确定为第一实际字符组合对应的代表字符。
在本申请实施例中,根据预设数量关系规则,生成参考url集合的url模板,可以具体为:分别获取参考url集合中每个参考url的各个位置的实际字符组合后,对于每个位置,可以统计在该位置上各种实际字符组合的累计出现次数,并将累计出现次数最多的实际字符组合确定为该位置的代表字符,然后根据各个位置对应的代表字符,生成参考url集合的内容页url模板。
具体的,在预设数量关系规则为内容页url的数量大于目录页url的数量时,可以将各个位置对应的代表字符按顺序依次排布,其顺序可以根据各个位置确定,将各个代表字符之间采用预设分隔符进行连接,得到内容页url模板。其中,预设分隔符可以是预先设定的一种或多种分隔符,也可以是同一位置用于分隔实际字符的分隔符,例如:“/”、“?”、“.”等都可以根据需要作为预设分隔符使用。
在生成内容页url模板后,还可以根据内容页url模板确定目录页url模板,例如可以将与内容页url模板不匹配的参考url作为目录页模板。
根据上述四个待分析url,生成的内容页url模板可以为:http://jjb.zju.edu.cn/news.php?id=NUM,生成的目录页url模板可以为:http://jjb.zju.edu.cn/column.php?id=18&page=1。
在本申请实施例中,还可以存储生成的内容页url模板和/或目录页url模板,以便在获取到下一个待分析url后,可以直接将该待分析url与存储的内容页url模板和/或目录页url模板进行匹配。相应的,在步骤S101之后,还可以将该待分析url与预先生成的内容页url模板和/或目录页url模板进行匹配,若匹配结果为成功,则可以根据匹配结果确定待分析url对应的页面类型,根据匹配结果确定待分析url对应的页面类型的过程可以参考步骤S104,若匹配结果为不成功,则确定页面类型为与匹配成功的页面类型之外的另一种页面类型。例如,当匹配成功时,确定页面类型为目录页,则匹配不成功时对应的页面类型为内容页;当匹配成功时,确定页面类型为内容页,则匹配不成功时对应的页面类型为目录页。
S104,将待分析url与url模板进行匹配,根据匹配结果确定待分析url对应的页面类型。
在本申请实施例中,页面类型可以包括内容页和目录页。
当url模板为内容页url模板时,将待分析url与url模板进行匹配,可以具体为,将待分析url与内容页模板进行匹配,若匹配结果为匹配成功,则确定待分析url对应的页面类型为内容页,若匹配不成功,则确定待分析url对应的页面类型为目录页。
更具体的,可以将待分析url中各个位置的实际字符组合和内容页url模板中对应位置的代表字符进行比对,若各个位置的匹配结果均为成功,则可以将该待分析url识别为内容页的url。其中,若待分析url中的实际字符组合和内容页url模板中相应位置的代表字符相同,可以认为二者匹配成功;若待分析url中的实际字符组组合和内容页url模板中相应位置的代表字符表征的字符类型相同,也可以认为二者匹配成功。例如“NUM”代表数字,则实际字符类型为数字时,与相应的代表字符组“NUM”匹配成功。
需要说明的是,为了提高待分析url的匹配准确性,若内容页url模板中代表字符为第二预设字符时,可不进行该位置的待分析url的实际字符和内容页url模板中代表字符的匹配,或者默认该位置的待分析url的实际字符和内容页url模板中代表字符的匹配结果为成功。
将待分析url与url模板进行匹配,还可以具体为,将待分析url与目录页模板进行匹配,若匹配结果为匹配成功,则确定待分析url对应的页面类型为目录页,若匹配不成功,则确定待分析url对应的页面类型为内容页。具体的,可以将待分析url中的实际字符和目录页url模板中同一位置的代表字符组进行比对,若各个位置的匹配结果均为成功,则可以将该待分析url识别为目录页的url。
本申请提供的页面类型确定方法中,先获取待分析url,从待分析url对应的页面中进行链接爬取,得到参考url集合,所述参考url集合中内容页url与目录页url的数量关系符合预设数量关系规则,根据预设数量关系规则,生成所述参考url集合的url模板,所述url模板用于区分页面类型,所述页面类型包括内容页和目录页;
将待分析url与url模板进行匹配,根据匹配结果确定待分析url对应的页面类型。在本申请实施例中,根据参考url集合中内容页url与目录页url的数量关系需要符合的预设数量关系,生成所述参考url集合的url模板,从而根据url模板确定待分析url对应的页面类型,不需要对url对应网页的页面布局进行分析,也不需要提取页面的源代码,从而提高页面识别的效率和准确性。
基于以上实施例提供的一种页面类型确定方法,本申请实施例还提供了一种页面类型确定装置,下面结合附图来详细说明其工作原理。
参见图4,该图为本申请实施例提供的一种页面类型确定装置的结构框图,该装置包括:
url获取单元110,用于获取待分析统一资源定位符url(简称:待分析url);
爬取单元120,用于从待分析url对应的页面中进行链接爬取,得到参考url集合,所述参考url集合中内容页url与目录页url的数量关系符合预设数量关系规则;
url模板生成单元130,用于根据所述预设数量关系规则,生成所述参考url集合的url模板,所述url模板用于区分页面类型,所述页面类型包括内容页和目录页;
页面类型分析单元140,用于将所述待分析url与所述url模板进行匹配,根据匹配结果确定所述待分析url对应的页面类型。
可选的,所述预设数量关系规则为内容页url的数量大于目录页url的数量,所述url模板为内容页url模板,所述url模板生成单元,包括:
实际字符获取子单元,用于分别获取所述参考url集合中每个参考url的同一位置的实际字符组合;
统计子单元,用于对于每个位置,统计在该位置上各种实际字符组合的累计出现次数;
第一代表字符确定子单元,用于将累计出现次数最多的实际字符组合确定为该位置的代表字符;
url模板生成子单元,用于根据各个位置对应的代表字符,生成url模板。
可选的,所述装置还包括:
第一判断单元,用于判断所述累计出现次数最多的实际字符组合是否为数字字符,如果是,则激活所述第一代表字符确定子单元,如果否,则激活第二代表字符确定单元;
所述第二代表字符确定单元,用于将第一预设字符确定为该位置的代表字符,所述第一预设字符表征该位置的字符为数字字符。
可选的,所述装置还包括:
第二判断单元,用于判断所述累计出现次数最多的实际字符组合的数量是否达到预设阈值,如果是,则激活所述第一代表字符确定子单元,如果否,则激活第三代表字符确定单元;
所述第三代表字符确定单元,用于将第二预设字符确定为该位置对应的代表字符,所述第二预设字符表征该位置的字符为非匹配字符。
可选的,所述url模板生成子单元具体用于:将各个位置对应的代表字符按顺序依次排布,并将各个代表字符之间采用预设分隔符进行连接,得到所述内容页url模板;
所述页面类型分析单元,具体用于将所述待分析url与所述url模板进行匹配,如果匹配成功,则确定所述待分析url对应的页面类型为内容页;如果未匹配成功,则确定所述待分析url对应的页面类型为目录页;所述页面类型包括内容页和目录页。
可选的,所述装置还包括:
匹配单元,用于将待分析url与预先生成的url模板进行匹配,若匹配成功,则激活页面类型确定单元,若匹配不成功,则激活所述爬取单元;
所述页面类型确定单元,用于根据匹配结果确定所述待分析url对应的页面类型。
本申请提供的页面类型确定装置中,先获取待分析url,从待分析url对应的页面中进行链接爬取,得到参考url集合,
所述参考url集合中内容页url与目录页url的数量关系符合预设数量关系规则;根据所述预设数量关系规则,生成所述参考url集合的url模板,所述url模板用于区分页面类型,所述页面类型包括内容页和目录页;将待分析url与url模板进行匹配,根据匹配结果确定待分析url对应的页面类型。在本申请实施例中,根据参考url集合中内容页url与目录页url的数量关系需要符合的预设数量关系,生成所述参考url集合的url模板,从而根据url模板确定待分析url对应的页面类型,不需要对url对应网页的页面布局进行分析,也不需要提取页面的源代码,从而提高页面识别的效率和准确性。
所述页面类型确定装置包括处理器和存储器,上述url获取单元、爬取单元、url模板生成单元、页面类型分析单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来对实现页面类型确定,提高url识别的效率。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述页面类型确定方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述页面类型确定方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
获取待分析统一资源定位符url;
从所述待分析url对应的页面中进行链接爬取,得到参考url集合,所述参考url集合中内容页url与目录页url的数量关系符合预设数量关系规则;
根据所述预设数量关系规则,生成所述参考url集合的url模板,所述url模板用于区分页面类型,所述页面类型包括内容页和目录页;
将所述待分析url与所述url模板进行匹配,根据匹配结果确定所述待分析url对应的页面类型,所述页面类型包括内容页和目录页。
可选的,所述预设数量关系规则为内容页url的数量大于目录页url的数量,所述url模板为内容页url模板;根据所述预设数量关系规则,生成所述参考url集合的url模板,包括:
分别获取所述参考url集合中每个参考url的各个位置的实际字符组合;
对于每个位置,统计在该位置上各种实际字符组合的累计出现次数,并将累计出现次数最多的实际字符组合确定为该位置的代表字符;
根据各个位置对应的代表字符,生成所述参考url集合的内容页url模板。
可选的,在将累计出现次数最多的实际字符确定为该位置的代表字符之前,所述方法还包括:
判断所述累计出现次数最多的实际字符是否为数字字符;
如果不是数字字符,则转入执行将所述累计出现次数最多的实际字符确定为该位置对应的代表字符的步骤;
如果是数字字符,则将第一预设字符确定为该位置的代表字符,所述第一预设字符表征该位置的字符为数字字符。
可选的,在将累计出现次数最多的实际字符确定为该位置的代表字符之前,所述方法还包括:
判断所述累计出现次数最多的实际字符的数量是否达到预设阈值;
如果达到预设阈值,则执行将所述累计出现次数最多的实际字符确定为该位置对应的代表字符的步骤;
如果未达到预设阈值,则将第二预设字符确定为该位置对应的代表字符,所述第二预设字符表征该位置的字符为非匹配字符。
可选的,根据各个位置对应的代表字符,生成所述url模板,包括:
将各个位置对应的代表字符按顺序依次排布,并将各个代表字符之间采用预设分隔符进行连接,得到所述内容页url模板;
根据匹配结果确定所述待分析url对应的页面类型,包括:
如果匹配成功,则确定所述待分析url对应的页面类型为内容页;
如果未匹配成功,则确定所述待分析url对应的页面类型为目录页。
可选的,在从所述待分析url对应的页面中进行链接爬取之前,所述方法还包括:
将所述待分析url与预先生成的url模板进行匹配;
如果匹配成功,则根据匹配结果确定所述待分析url对应的页面类型;
如果未匹配成功,则转入执行从所述待分析url对应的页面中进行链接爬取的步骤。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
获取待分析统一资源定位符url;
从所述待分析url对应的页面中进行链接爬取,得到参考url集合,所述参考url集合中内容页url与目录页url的数量关系符合预设数量关系规则;
根据所述预设数量关系规则,生成所述参考url集合的url模板,所述url模板用于区分页面类型,所述页面类型包括内容页和目录页;
将所述待分析url与所述url模板进行匹配,根据匹配结果确定所述待分析url对应的页面类型,所述页面类型包括内容页和目录页。
可选的,所述预设数量关系规则为内容页url的数量大于目录页url的数量,所述url模板为内容页url模板;根据所述预设数量关系规则,生成所述参考url集合的url模板,包括:
分别获取所述参考url集合中每个参考url的各个位置的实际字符组合;
对于每个位置,统计在该位置上各种实际字符组合的累计出现次数,并将累计出现次数最多的实际字符组合确定为该位置的代表字符;
根据各个位置对应的代表字符,生成所述参考url集合的内容页url模板。
可选的,在将累计出现次数最多的实际字符确定为该位置的代表字符之前,所述方法还包括:
判断所述累计出现次数最多的实际字符是否为数字字符;
如果不是数字字符,则转入执行将所述累计出现次数最多的实际字符确定为该位置对应的代表字符的步骤;
如果是数字字符,则将第一预设字符确定为该位置的代表字符,所述第一预设字符表征该位置的字符为数字字符。
可选的,在将累计出现次数最多的实际字符确定为该位置的代表字符之前,所述方法还包括:
判断所述累计出现次数最多的实际字符的数量是否达到预设阈值;
如果达到预设阈值,则执行将所述累计出现次数最多的实际字符确定为该位置对应的代表字符的步骤;
如果未达到预设阈值,则将第二预设字符确定为该位置对应的代表字符,所述第二预设字符表征该位置的字符为非匹配字符。
可选的,根据各个位置对应的代表字符,生成所述url模板,包括:
将各个位置对应的代表字符按顺序依次排布,并将各个代表字符之间采用预设分隔符进行连接,得到所述内容页url模板;
根据匹配结果确定所述待分析url对应的页面类型,包括:
如果匹配成功,则确定所述待分析url对应的页面类型为内容页;
如果未匹配成功,则确定所述待分析url对应的页面类型为目录页。
可选的,在从所述待分析url对应的页面中进行链接爬取之前,所述方法还包括:
将所述待分析url与预先生成的url模板进行匹配;
如果匹配成功,则根据匹配结果确定所述待分析url对应的页面类型;
如果未匹配成功,则转入执行从所述待分析url对应的页面中进行链接爬取的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种页面类型确定方法,其特征在于,所述方法包括:
获取待分析url;
从所述待分析url对应的页面中进行链接爬取,得到参考url集合,所述参考url集合中内容页url与目录页url的数量关系符合预设数量关系规则;
根据所述预设数量关系规则,生成所述参考url集合的url模板,所述url模板用于区分页面类型,所述页面类型包括内容页和目录页;
将所述待分析url与所述url模板进行匹配,根据匹配结果确定所述待分析url对应的页面类型。
2.根据权利要求1所述的方法,其特征在于,所述预设数量关系规则为内容页url的数量大于目录页url的数量,所述url模板为内容页url模板;根据所述预设数量关系规则,生成所述参考url集合的url模板,包括:
分别获取所述参考url集合中每个参考url的各个位置的实际字符组合;
对于每个位置,统计在该位置上各种实际字符组合的累计出现次数,并将累计出现次数最多的实际字符组合确定为该位置的代表字符;
根据各个位置对应的代表字符,生成所述参考url集合的内容页url模板。
3.根据权利要求2所述的方法,其特征在于,在将累计出现次数最多的实际字符组合确定为该位置的代表字符之前,所述方法还包括:
判断所述累计出现次数最多的实际字符组合是否为数字字符;
如果不是数字字符,则转入执行将所述累计出现次数最多的实际字符组合确定为该位置对应的代表字符的步骤;
如果是数字字符,则将第一预设字符确定为该位置的代表字符,所述第一预设字符表征该位置的字符为数字字符。
4.根据权利要求2或3所述的方法,其特征在于,在将累计出现次数最多的实际字符组合确定为该位置的代表字符之前,所述方法还包括:
判断所述累计出现次数最多的实际字符组合的数量是否达到预设阈值;
如果达到预设阈值,则执行将所述累计出现次数最多的实际字符组合确定为该位置对应的代表字符的步骤;
如果未达到预设阈值,则将第二预设字符确定为该位置对应的代表字符,所述第二预设字符表征该位置的字符为非匹配字符。
5.根据权利要求2所述的方法,其特征在于,根据各个位置对应的代表字符,生成所述参考url集合的内容页url模板,包括:
将各个位置对应的代表字符按顺序依次排布,并将各个代表字符之间采用预设分隔符进行连接,得到所述参考url集合的内容页url模板;
根据匹配结果确定所述待分析url对应的页面类型,包括:
如果匹配成功,则确定所述待分析url对应的页面类型为内容页;
如果未匹配成功,则确定所述待分析url对应的页面类型为目录页。
6.根据权利要求1所述的方法,其特征在于,在从所述待分析url对应的页面中进行链接爬取之前,所述方法还包括:
将所述待分析url与预先生成的url模板进行匹配;
如果匹配成功,则根据匹配结果确定所述待分析url对应的页面类型;
如果未匹配成功,则转入执行从所述待分析url对应的页面中进行链接爬取的步骤。
7.一种页面类型确定装置,其特征在于,所述装置包括:
url获取单元,用于获取待分析url;
爬取单元,用于从所述待分析url对应的页面中进行链接爬取,得到参考url集合,所述参考url集合中内容页url与目录页url的数量关系符合预设数量关系规则;
url模板生成单元,用于根据所述预设数量关系规则,生成所述参考url集合的url模板,所述url模板用于区分页面类型,所述页面类型包括内容页和目录页;
页面类型分析单元,用于将所述待分析url与所述url模板进行匹配,根据匹配结果确定所述待分析url对应的页面类型。
8.根据权利要求7所述的装置,其特征在于,所述预设数量关系规则为内容页url的数量大于目录页url的数量,所述url模板为内容页url模板;所述url模板生成单元,包括:
实际字符获取子单元,用于分别获取所述参考url集合中每个参考url的各个位置的实际字符组合;
统计子单元,用于对于每个位置,统计在该位置上各种实际字符组合的累计出现次数;
第一代表字符确定子单元,用于将累计出现次数最多的实际字符组合确定为该位置的代表字符;
url模板生成子单元,用于根据各个位置对应的代表字符,生成内容页url模板。
9.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现权利要求1至6中任一项所述的页面类型确定方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至6中任意一项所述的页面类型确定方法。
CN201810726492.0A 2018-07-04 2018-07-04 一种页面类型确定方法及装置 Active CN110750739B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810726492.0A CN110750739B (zh) 2018-07-04 2018-07-04 一种页面类型确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810726492.0A CN110750739B (zh) 2018-07-04 2018-07-04 一种页面类型确定方法及装置

Publications (2)

Publication Number Publication Date
CN110750739A true CN110750739A (zh) 2020-02-04
CN110750739B CN110750739B (zh) 2022-07-05

Family

ID=69274665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810726492.0A Active CN110750739B (zh) 2018-07-04 2018-07-04 一种页面类型确定方法及装置

Country Status (1)

Country Link
CN (1) CN110750739B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003016082A (ja) * 2001-06-29 2003-01-17 Just Syst Corp リンク集作成装置、リンク集作成方法、及びリンク集作成プログラム
CN101452463A (zh) * 2007-12-05 2009-06-10 浙江大学 定向抓取页面资源的方法和装置
CN102200971A (zh) * 2010-03-22 2011-09-28 腾讯科技(深圳)有限公司 一种实现网页内容预览的方法和设备
CN102346748A (zh) * 2010-08-05 2012-02-08 盛乐信息技术(上海)有限公司 网络文学目录型网页自动识别方法
CN103544178A (zh) * 2012-07-13 2014-01-29 百度在线网络技术(北京)有限公司 一种用于提供与目标页面相对应的重构页面的方法和设备
CN103577547A (zh) * 2013-10-12 2014-02-12 优视科技有限公司 网页类型识别方法及装置
CN103942233A (zh) * 2013-01-21 2014-07-23 腾讯科技(深圳)有限公司 目录型网页的介绍页识别方法及装置
CN104750704A (zh) * 2013-12-26 2015-07-01 中国移动通信集团河南有限公司 一种网页url地址分类识别方法及装置
CN106407291A (zh) * 2016-08-29 2017-02-15 达而观信息科技(上海)有限公司 基于超链文本密度算法的一种页面类型识别方法
CN106547803A (zh) * 2015-09-23 2017-03-29 北京国双科技有限公司 爬取网站增量资源的方法和装置
CN106649337A (zh) * 2015-10-30 2017-05-10 北京国双科技有限公司 识别网页栏目的方法及装置
CN107025230A (zh) * 2016-01-29 2017-08-08 北京国双科技有限公司 网络爬虫的处理方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003016082A (ja) * 2001-06-29 2003-01-17 Just Syst Corp リンク集作成装置、リンク集作成方法、及びリンク集作成プログラム
CN101452463A (zh) * 2007-12-05 2009-06-10 浙江大学 定向抓取页面资源的方法和装置
CN102200971A (zh) * 2010-03-22 2011-09-28 腾讯科技(深圳)有限公司 一种实现网页内容预览的方法和设备
CN102346748A (zh) * 2010-08-05 2012-02-08 盛乐信息技术(上海)有限公司 网络文学目录型网页自动识别方法
CN103544178A (zh) * 2012-07-13 2014-01-29 百度在线网络技术(北京)有限公司 一种用于提供与目标页面相对应的重构页面的方法和设备
CN103942233A (zh) * 2013-01-21 2014-07-23 腾讯科技(深圳)有限公司 目录型网页的介绍页识别方法及装置
CN103577547A (zh) * 2013-10-12 2014-02-12 优视科技有限公司 网页类型识别方法及装置
CN104750704A (zh) * 2013-12-26 2015-07-01 中国移动通信集团河南有限公司 一种网页url地址分类识别方法及装置
CN106547803A (zh) * 2015-09-23 2017-03-29 北京国双科技有限公司 爬取网站增量资源的方法和装置
CN106649337A (zh) * 2015-10-30 2017-05-10 北京国双科技有限公司 识别网页栏目的方法及装置
CN107025230A (zh) * 2016-01-29 2017-08-08 北京国双科技有限公司 网络爬虫的处理方法及装置
CN106407291A (zh) * 2016-08-29 2017-02-15 达而观信息科技(上海)有限公司 基于超链文本密度算法的一种页面类型识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
贡正仙 等: "基于相似页面的Web信息抽取系统的实现", 《计算机应用》 *

Also Published As

Publication number Publication date
CN110750739B (zh) 2022-07-05

Similar Documents

Publication Publication Date Title
CN108304410B (zh) 一种异常访问页面的检测方法、装置及数据分析方法
CN108427731B (zh) 页面代码的处理方法、装置、终端设备及介质
CN102855309B (zh) 一种基于用户行为关联分析的信息推荐方法及装置
US8359307B2 (en) Method and apparatus for building sales tools by mining data from websites
CN107273546B (zh) 仿冒应用检测方法以及系统
CN105426759A (zh) Url的合法性识别方法及装置
CN112328732A (zh) 敏感词检测、敏感词树构建方法及装置
CN109145179B (zh) 一种爬虫行为检测方法及装置
CN106611029B (zh) 提高网站站内搜索效率的方法和装置
CN105790967B (zh) 一种网络日志处理方法和装置
CN104899203B (zh) 一种网页页面的生成方法、装置及终端设备
CN109791563B (zh) 信息收集系统、信息收集方法和记录介质
US9749352B2 (en) Apparatus and method for collecting harmful website information
CN108287831B (zh) 一种url分类方法和系统、数据处理方法和系统
CN106897297B (zh) 网站栏目间访问路径的确定方法及装置
CN113806647A (zh) 识别开发框架的方法及相关设备
CN110750739B (zh) 一种页面类型确定方法及装置
CN110598115A (zh) 一种基于人工智能多引擎的敏感网页识别方法及系统
US9756064B2 (en) Apparatus and method for collecting harmful website information
CN110825976B (zh) 网站页面的检测方法、装置、电子设备及介质
JPWO2016147219A1 (ja) テキスト可視化システム、テキスト可視化方法、及び、プログラム
CN106815247B (zh) 统一资源定位符获取方法及装置
CN105677827B (zh) 一种表单的获取方法及装置
CN113127767B (zh) 手机号码提取方法、装置、电子设备及存储介质
CN110858852B (zh) 一种注册域名的获取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant