CN103617229A - 一种关联网页数据库的建立方法和装置 - Google Patents

一种关联网页数据库的建立方法和装置 Download PDF

Info

Publication number
CN103617229A
CN103617229A CN201310607854.1A CN201310607854A CN103617229A CN 103617229 A CN103617229 A CN 103617229A CN 201310607854 A CN201310607854 A CN 201310607854A CN 103617229 A CN103617229 A CN 103617229A
Authority
CN
China
Prior art keywords
url
web pages
associating web
page
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310607854.1A
Other languages
English (en)
Inventor
王智广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201310607854.1A priority Critical patent/CN103617229A/zh
Publication of CN103617229A publication Critical patent/CN103617229A/zh
Priority to PCT/CN2014/086522 priority patent/WO2015074455A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种关联网页数据库的建立方法和装置,所述方法包括:判断抓取到的网页是否包括关联网页URL模式;若是,则获取所述关联网页URL模式;采用所述关联网页URL模式获取对应的关联网页;采用所述关联网页URL模式对应的关联网页建立关联网页数据库。本发明基于当前抓取到的网页提取关联网页URL模式,采用关联网页URL模式对应的关联网页建立关联网页数据库,避免了重复抓取网页,减少了系统资源的占用,大大提高了数据库的建立效率。

Description

一种关联网页数据库的建立方法和装置
技术领域
本发明涉及数据库的技术领域,具体涉及一种关联网页数据库的建立方法、一种关联网页数据库的建立装置。
背景技术
随着因特网的发展,愈来愈多的信息是通过网页方式呈现在因特网上供用户查询,同样的通过搜寻引擎在因特网中查询数据也成为最常使用的数据搜寻方法。
搜索引擎收录网页时需要针对不同种类的网页采取不同的调度策略,网页种类的识别是一项基础工作,其中翻页(Page turning)网页的识别是一项比较关键的工作。所谓翻页网页,即查看分页文件的上一个页面、下一个页面或任意存在的非当前页面。翻页网页可以将实体书或者移动Web窗体中的内容进行改变,以观看不同内容。在互联网上运用时该机制还呈现可用于浏览到其他页的用户界面元素。
现有的翻页网页的识别方法是根据网页的URL(Uniform ResourceLocator,统一资源定位符)所包含的关键词来识别是否是索引页。例如,当URL包含有page、pn、p等关键词以及关键词后面有数字时,判断该URL对应的网页为翻页网页。
但是,这种识别方法召回率低,并且很多网站的翻页是不具有这些关键词的,比如“http://cq.ABC.com/lvshi/o12/”、“http://bbs.BCA.com/t661_10”、“http://china.BCD.com/product/20110617/2647”,但是这些网页依然是翻页,使得这些识别方法容易造成误操作,实用性低。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种关联网页数据库的建立方法和相应的一种关联网页数据库的建立装置。
依据本发明的一个方面,提供了一种关联网页数据库的建立方法,包括:
判断抓取到的网页是否包括关联网页URL模式;若是,则获取所述关联网页URL模式;
基于所述关联网页URL模式获取对应的关联网页;
采用所述关联网页URL模式对应的关联网页建立关联网页数据库。
可选地,所述判断抓取到的网页是否包括关联网页URL模式的步骤包括:
判断当前网页的页面元素中是否具有翻页特征字符串;若是,则提取所述翻页特征字符串链接的URL;
采用预置的替换字符替换当前网页的URL中的数字块,获得第一特征URL前缀;其中,所述数字块为被间隔标识分割出的单个数字或多个数字;
采用预置的替换字符替换所述翻页特征字符串链接的URL中的数字块,获得第二特征URL前缀;
当所述第一特征URL前缀与所述第二特征URL前缀相同时,则判定抓取到的网页是否包括关联网页URL模式。
可选地,所述判断当前网页的页面元素中是否具有翻页特征字符串的步骤包括:
采用翻页特征字符串在当前网页的DOM树节点中进行匹配;
当匹配成功时,则判断当前网页具有翻页特征字符串。
可选地,所述采用预置的替换字符替换当前网页的URL中的数字块,获得第一特征URL前缀的步骤为:
采用相同的替换字符替换当前网页的URL中不同位置的数字块,获得第一特征URL前缀;
所述采用预置的替换字符替换所述翻页特征字符串链接的URL中的数字块,获得第二特征URL前缀的步骤为:
采用相同的替换字符替换所述特征字符串链接的URL中不同位置的数字块,获得第二特征URL前缀。
可选地,所述采用预置的替换字符替换当前网页的URL中的数字块,获得第一特征URL前缀的步骤为:
分别采用不同的替换字符,替换当前网页的URL中不同位置的数字块,获得第一特征URL前缀;
所述采用预置的替换字符替换所述翻页特征字符串链接的URL中的数字块,获得第二特征URL前缀的步骤为:
分别采用与第一特征URL相同的替换字符替换所述翻页特征字符串链接的URL在相同位置的数字块,获得第二特征URL前缀。
可选地,所述采用所述关联网页URL模式获取对应的关联网页的步骤包括:
将所述第一特征URL前缀或第二特征URL前缀作为所述当前网页的对应的关联网页URL模式。
可选地,所述获取所述关联网页URL模式对应的关联网页的步骤包括:
通过对关联网页URL模式中的共性部分进行结构分析,提取关联网页URL模式中的翻页块,将所述翻页块替换为首页标识获得首页关联网页的URL;其中,所述翻页块为多个关联网页URL模式中位置相同但数字不同的数字块;
访问所述首页关联网页的URL获取所述首页关联网页。
可选地,所述首页标识包括0、1和/或当前关联网页中的最大数值。
根据本发明的另一方面,提供了一种关联网页数据库的建立装置,包括:
关联网页URL判断模块,适于判断抓取到的网页是否包括关联网页URL模式;若是,则调用关联网页URL模式获取模块;
关联网页URL模式获取模块,适于获取所述关联网页URL模式;
关联网页获取模块,适于基于所述关联网页URL模式获取对应的关联网页;
关联网页数据库建立模块,适于采用所述关联网页URL模式对应的关联网页建立关联网页数据库。
可选地,所述关联网页URL模式模块包括:
翻页特征字符串判断单元,适于判断当前网页的页面元素中是否具有翻页特征字符串;若是,则调用URL提取单元;
URL提取单元,适于提取所述翻页特征字符串链接的URL;
第一特征RUL前缀获得单元,适于采用预置的替换字符替换当前网页的URL中的数字块,获得第一特征URL前缀;其中,所述数字块为被间隔标识分割出的单个数字或多个数字;
第二特征RUL前缀获得单元,适于采用预置的替换字符替换所述翻页特征字符串链接的URL中的数字块,获得第二特征URL前缀;
判定单元,适于关联网页URL模式当所述第一特征URL前缀与所述第二特征URL前缀相同时,则判定抓取到的网页是否包括关联网页URL模式。
可选地,所述翻页特征字符串判断单元还适于:
采用翻页特征字符串在当前网页的DOM树节点中进行匹配;
当匹配成功时,则判断当前网页具有翻页特征字符串。
可选地,所述第一特征RUL前缀获得单元还适于:
采用相同的替换字符替换当前网页的URL中不同位置的数字块,获得第一特征URL前缀;
所述第二特征RUL前缀获得单元还适于:
采用相同的替换字符替换所述特征字符串链接的URL中不同位置的数字块,获得第二特征URL前缀。
可选地,所述第一特征RUL前缀获得单元还适于:
分别采用不同的替换字符,替换当前网页的URL中不同位置的数字块,获得第一特征URL前缀;
所述第二特征RUL前缀获得单元还适于:
分别采用与第一特征URL相同的替换字符替换所述翻页特征字符串链接的URL在相同位置的数字块,获得第二特征URL前缀。
可选地,所述关联网页URL模式获取模块还适于:
将所述第一特征URL前缀或第二特征URL前缀作为所述当前网页的对应的关联网页URL模式。
可选地,所关联网页获取模块还适于:
通过对关联网页URL模式中的共性部分进行结构分析,提取关联网页URL模式中的翻页块,将所述翻页块替换为首页标识获得首页关联网页的URL;其中,所述翻页块为多个关联网页URL模式中位置相同但数字不同的数字块;
访问所述首页关联网页的URL获取所述首页关联网页。
可选地,所述首页标识包括0、1和/或当前关联网页中的最大数值。
本发明基于当前抓取到的网页提取关联网页URL模式,采用关联网页URL模式对应的关联网页建立关联网页数据库,避免了重复抓取网页,减少了系统资源的占用,大大提高了数据库的建立效率。
本发明在当前网页的页面元素中具有翻页特征字符串时,采用预置的替换字符替换当前网页的URL中的数字块,获得第一特征URL前缀,并采用预置的替换字符替换翻页特征字符串链接的URL中的数字块,获得第二特征URL前缀,当所述第一特征URL前缀与所述第二特征URL前缀相同时,将所述第一特征URL前缀或第二特征URL前缀作为所述当前网页的对应的关联网页URL模式,本发明采用翻页特征字符串进行识别关联网页,识别准确率高,采用URL的共性部分进行匹配,进一步提高了关联网页的识别准确率,使得召回率大幅提高,在实际应用中可以识别90%以上的关联网页。
本发明将关联网页URL模式的翻页块替换为首页标识获得首页关联网页的URL,同理,也可以将翻页块替换为其他挂链网页标识获得其他关联网页的URL,从而增加了关联网页的覆盖率,使得能够获取更加全面的关联网页,进而实现了细颗粒度的操作。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种关联网页数据库的建立方法实施例的步骤流程图;
图2示出了根据本发明一个实施例的一种网页结构示例图;
图3示出了示出了本发明一个实施例的一种翻页块的示例图;以及,
图4示出了根据本发明一个实施例的一种关联网页数据库的建立装置实施例的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
参照图1,示出了本发明一个实施例的一种关联网页数据库的建立方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101,判断抓取到的网页是否包括关联网页URL模式;若是,则执行步骤102;
需要说明的是,搜索引擎从万维网上自动提取网页的功能可以是通过网络爬虫实现的。网络爬虫又称为网络蜘蛛,即Web Spider,网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
关联网页URL模式可以为翻页网页的共性部分Pattern,即长相或者功能类似的URL/网页聚在一起形成的集合。
在本发明的一种优选实施例中,所述步骤101具体可以包括如下子步骤:
子步骤S11,判断当前网页的页面元素中是否具有翻页特征字符串;若是,则提取所述翻页特征字符串链接的URL;
网页按照功能可以划分为多个区域,以某一个论坛(Bulletin BoardSystem,BBS)的页面为例,如图2所示,该页面可以划分为导航块(1)、垃圾块(2、4)、翻页块(3)、标题块(5)、作者信息块(6)、发表日期块(7)、正文块(8)。其中,导航块可以位于网页页眉顶部,或者banner(网页的横幅广告)下部,用于指向网页的信息栏目。垃圾块可以为与网页主题相关度很低的页面元素所在的区域,例如“发帖”、“回复”等功能按钮。翻页块可以为指示翻页的区域。标题块可以为网页主题的标题(例如图2所示的“安全浏览器聚集黑色星期四”)所在的区域。作者信息块为记载该网页主题作者信息的区域。正文块为记载该网页主题正文的区域。
参照图3,示出了示出了本发明一个实施例的一种翻页块的示例图。
如图3所示,翻页块主要可以由翻页特征字符串组成,而翻页特征字符串可以为用于标识翻页的页面元素。
在具体实现中,翻页特征字符串可以包括以下的一种或多种:
[<<]、[>>]、[>]、[<]、[下一页]、[上一页]、[上一]、[下一]、[next]、[末页]、[尾页]、[前页]、[后页]、[<上一页]、[<上一]、[下一>]、[下一页>]、[1...]。
当然,上述翻页特征字符串只是作为示例,在实施本发明实施例时,可以根据实际情况设置其他翻页特征字符串,本发明实施例对此不加以限制。
需要说明的是,当前网页可以为被抓取到的网页。
在本发明的一种优选实施例中,所述子步骤S11进一步可以包括如下子步骤:
子步骤S111,采用翻页特征字符串在当前网页的DOM树节点中进行匹配;
子步骤S112,当匹配成功时,则判断当前网页具有翻页特征字符串。
DOM(文件对象模型,Document Object Model)是处理可扩展置标语言的标准编程接口。DOM可以以一种独立于平台和语言的方式访问和修改一个文档的内容和结构,是表示和处理一个HTML或XML文档的常用方法。
DOM实际上是以面向对象方式描述的文档模型。DOM定义了表示和修改文档所需的对象、这些对象的行为和属性以及这些对象之间的关系。可以把DOM认为是页面上数据和结构的一个树形表示,不过页面当然可能并不是以这种树的方式具体实现。
通过JavaScript可以重构整个HTML文档,可以添加、移除、改变或重排页面上的项目。
要改变页面的某个东西,JavaScript就需要获得对HTML文档中所有元素进行访问的入口。这个入口,连同对HTML元素进行添加、移动、改变或移除的方法和属性,都是通过文档对象模型来获得的(DOM)。
可以将HTML文档视作树结构,而这种结构被称为节点树(HTMLDOM)。通过HTML DOM,树中的所有节点均可通过JavaScript进行访问。所有HTML元素(节点)均可被修改,也可以创建或删除节点。
节点树中的节点彼此拥有层级关系。可以采用父(parent)、子(child)和同胞(sibling)等术语用于描述这些关系。其中,父节点拥有子节点。同级的子节点被称为同胞(兄弟或姐妹)。在节点树中,顶端节点被称为根(root)。每个节点都有父节点、除了根(它没有父节点)。一个节点可拥有任意数量的子,同胞是拥有相同父节点的节点。
具体可以通过若干种方法在节点树来查找希望操作的网页元素:
例如,可以通过使用getElementById()和getElementsByTagName()方法进行查找。
又例如,可以通过使用一个元素节点的parentNode、firstChild以及lastChild属性。
其中,getElementById()和getElementsByTagName()这两种方法,可查找整个HTML文档中的任何HTML元素。而这两种方法会忽略文档的结构。假如查找文档中所有的<p>元素,getElementsByTagName()会把它们全部找到,不管<p>元素处于文档中的哪个层次。同时,getElementById()方法也会返回正确的元素,不论它被隐藏在文档结构中的什么位置。这两种方法会提供任何所需要的HTML元素,不论它们在文档中所处的位置。
此外,getElementById()可通过指定的ID来返回网页元素。
在具体实现中,可以通过识别该网页的HTML文本DOM树中超链接<a>(anchor,锚点)标识是否包括[<<]、[>>]、
Figure BDA0000421676710000091
[>]、[<]、[下一页]、[上一页]、[上一]、[下一]、[next]、[末页]、[尾页]、[前页]、[后页]、[<上一页]、[<上一]、[下一>]、[下一页>]、[1...]中的一种或多种,若是,则判断当前网页具有翻页特征字符串。
其中,<a>可以用于把当前位置的文本或图片连接到其他的页面、文本或图像等。
<a>标识的基本语法结构可以如下:
<a
class=type
id=value
href=reference
name=value
rel=same|next|parent|previous
rev=value
target=window
style=value
title=title
onclick=function
onmouseout=function
onMouseOver=function>显示文字或者图片的代码</a>
例如以下一种HTML文本中<a>标识的内容为:
<div id=″pgt″class=″bm bw0 pgs cl″>
<span id=″fd_page_top″>
<div class=″pg″>
<a
href=″forum-99-1.html″class=″prev″></a>
<a
href=″forum-99-1.html″>1</a><strong>2<>
<a
href=″forum-99-3.html″>3</a>
<a
href=″forum-99-4.html″>4</a>
<a
href=″forum-99-5.html″>5</a>
<a
href=″forum-99-6.html″>6</a>
<a
href=″forum-99-7.html″>7</a>
<a
href=″forum-99-8.html″>8</a>
<a
href=″forum-99-9.html″>9</a>
<a
href=″forum-99-10.html″>10</a>
<a
href=″forum-99-1000.html″class=″last″>...2107</a>
<label>
<inputtype=″text″name=″custompage″class=″px″size=″2″title=″输入页码,按回车快速跳转″value=″2″onkeydown=″if(event.keyCode==13){window.location=′forum.php?mod=forumdisplay&fid=99&page=′+this.value;doane(event);}″/>
<spantitle=″共1000页″>/1000页</span>
</label>
<a
href=″forum-99-3.html″class=″nxt″>下一页</a>
</div>
</span>
通过HTML文本中<a>标识的匹配,可以判断该网页具有一个或多个翻页特征字符串。在识别出该一个或多个翻页特征字符串之后,提取该一个或多个翻页特征字符串链接的一个或多个URL,该一个或多个URL指向其他的与当前网页关联的翻页网页。
子步骤S12,采用预置的替换字符替换当前网页的URL中的数字块,获得第一特征URL前缀;其中,所述数字块为被间隔标识分割出的单个数字或多个数字;
子步骤S13,采用预置的替换字符替换所述翻页特征字符串链接的URL中的数字块,获得第二特征URL前缀;
需要说明的是,替换字符可以为任意字符,本发明实施例对此不加以限制。间隔标识可以为URL中用于间隔的符号,例如“/”、“.”、“-”、“?”、“:”等等。数字块需要为间隔标识中连续的数字,例如“123ABC”不为数字块。
在本发明的一种实施例中,所述子步骤S12进一步可以包括如下子步骤:
子步骤S121,采用相同的替换字符替换当前网页的URL中不同位置的数字块,获得第一特征URL前缀;
与子步骤S121相对应地,所述子步骤S13进一步可以包括如下子步骤:
子步骤S131,采用相同的替换字符替换所述特征字符串链接的URL中不同位置的数字块,获得第二特征URL前缀。
在具体实现中,当前网页的URL和翻页特征字符串连接的URL可以具有一个或多个数字块,为减少替换的操作步骤和系统的资源占用,可以用相同的替换字符替换数字块。
例如,当前网页的URL为http://bbs.XXX.com/forum-99-2.html,翻页特征字符串连接的URL为http://bbs.XXX.com/forum-99-3.html,其中“99”、“2”被识别出为数字块,以“(\d+)”作为替换字符的一种示例,则第一特征URL前缀可以为http://bbs.XXX.com/forum-(\d+)-(\d+).html,第二特征URL前缀可以为http://bbs.XXX.com/forum-(\d+)-(\d+).html。
在本发明的一种实施例中,所述子步骤S12进一步可以包括如下子步骤:
子步骤S122,分别采用不同的替换字符,替换当前网页的URL中不同位置的数字块,获得第一特征URL前缀;
与子步骤S122相对应地,所述子步骤S13进一步可以包括如下子步骤:
子步骤S132,分别采用与第一特征URL相同的替换字符替换所述特征字符串链接的URL在相同位置的数字块,获得第二特征URL前缀。
在具体实现中,当前网页的URL和翻页特征字符串连接的URL可以具有一个或多个数字块,为提高后续第一特征URL前缀与第二特征URL是否相同的判断以及对数字块的标识的效率,可以采用不同的替换字符替换数字块。
例如,当前网页的URL为http://bbs.XXX.com/forum-99-2.html,翻页特征字符串连接的URL为http://bbs.XXX.com/forum-99-3.html,其中“99”、“2”被识别出为数字块,以“(\d+)”、“(\e+)”作为替换字符的一种示例,则第一特征URL前缀可以为http://bbs.XXX.com/forum-(\d+)-(\e+).html,第二特征URL前缀可以为http://bbs.XXX.com/forum-(\d+)-(\e+).html。
子步骤S14,当所述第一特征URL前缀与所述第二特征URL前缀相同时,则判定抓取到的网页是否包括关联网页URL模式。
在实际应用中,第一特征URL前缀与第二特征URL前缀相同时,表明当前网页的URL和翻页特征字符串链接的URL的共性相同,可以判定当前网页和翻页特征字符串链接的URL对应的网页包括关联的翻页网页。
步骤102,获取所述关联网页URL模式;
在本发明的一种实施例中,所述步骤102具体可以包括如下子步骤:
子步骤S21,将所述第一特征URL前缀或第二特征URL前缀作为所述当前网页的对应的关联网页URL模式。
因为第一特征URL前缀和第二特征URL相同,则以第一特征URL前缀或第二特征URL前缀作为当前网页的对应的关联网页URL模式Pattern均可。
本发明在当前网页的页面元素中具有翻页特征字符串时,采用预置的替换字符替换当前网页的URL中的数字块,获得第一特征URL前缀,并采用预置的替换字符替换翻页特征字符串链接的URL中的数字块,获得第二特征URL前缀,当所述第一特征URL前缀与所述第二特征URL前缀相同时,将所述第一特征URL前缀或第二特征URL前缀作为所述当前网页的对应的关联网页URL模式,本发明采用翻页特征字符串进行识别关联网页,识别准确率高,采用URL的共性部分进行匹配,进一步提高了关联网页的识别准确率,使得召回率大幅提高,在实际应用中可以识别90%以上的关联网页。
步骤103,基于所述关联网页URL模式获取对应的关联网页;
在具体实现中,关联网页可以包括首页关联网页和其他关联网页,其中,首页关联网页一般会记载有重要的内容,例如图3所示的正文块,因此首页关联网页的重要性比较高,因此获知首页关联网页具有比较重要的意义。
在本发明的一种优选实施例中,所述步骤103具体可以包括如下子步骤:
子步骤S31,通过对关联网页URL模式中的共性部分进行结构分析,提取关联网页URL模式中的翻页块,将所述翻页块替换为首页标识获得首页关联网页的URL;其中,所述翻页块为多个关联网页URL模式中位置相同但数字不同的数字块;
子步骤S32,访问所述首页关联网页的URL获取所述首页关联网页。
在实际应用中,URL可以包括以下的一种或多种结构:
1、protocol(协议):指定使用的传输协议,最常用的是HTTP协议,它也是目前WWW中应用最广的协议。具体地,传输协议包括file协议(资源是本地计算机上的文件,格式为file:///)、ftp协议(通过FTP访问资源,格式为FTP://)、gopher(通过Gopher协议访问资源)、http协议(通过HTTP访问资源,格式为HTTP://)、https协议(通过安全的HTTPS访问资源,格式为HTTPS://)等等。
2、hostname(主机名):指存放资源的服务器的域名系统(DNS)主机名或IP地址。有时,在主机名前也可以包含连接到服务器所需的用户名和密码(格式为username:password)。
3、port(端口号):省略时使用方案的默认端口,各种传输协议都有默认的端口号,如http的默认端口为80。如果输入时省略,则使用默认端口号。有时候出于安全或其他考虑,可以在服务器上对端口进行重定义,即采用非标准端口号,此时,URL中就不能省略端口号这一项。
4、path(路径):由零或多个“/”符号隔开的字符串,一般用来表示主机上的一个目录或文件地址。
5、parameters(参数):可以用于指定特殊参数的可选项。
6、query(查询):可以用于给动态网页(如使用CGI、ISAPI、PHP/JSP/ASP/ASP.NET等技术制作的网页)传递参数,可有多个参数,用“&”符号隔开,每个参数的名和值用“=”符号隔开。
7、fragment(信息片断):可以用于指定网络资源中的片断。例如一个网页中有多个名词解释,可使用fragment直接定位到某一名词解释。
在具体实现中,通过对多个关联网页URL模式中的共性部分进行结构分析,提取关联网页URL模式中的翻页块,然后将所述翻页块替换为首页标识获得首页关联网页的URL。
例如,对于上述示例的关联网页URL模式—http://bbs.XXX.com/forum-(\d+)-(\e+).html,在识别出(\e+)为翻页块,然后将翻页块替换为首页标识后,获得首页关联网页的URL—http://bbs.XXX.com/forum-99-1.html。
在本发明实施例的一种优选示例中,所述首页标识可以包括0、1和/或当前关联网页中的最大数值。
不同的网站会采用不同的翻页结构,造成了首页关联网页的不同。例如,某些网站会采用第0页作为首页关联网页,某些网站会采用第1页作为首页关联网页,某些网站会采用最大页(例如图3所示的2100)作为首页关联网页,等等。
当然,上述首页关联网页只是作为示例,在实施本发明实施例时,可以根据实际情况将数字快替换为任一关联网页的标识获取对应的关联网页,本发明实施例对此不一一加以详述。
本发明将关联网页URL模式的翻页块替换为首页标识获得首页关联网页的URL,同理,也可以将翻页块替换为其他挂链网页标识获得其他关联网页的URL,从而增加了关联网页的覆盖率,使得能够获取更加全面的关联网页,进而实现了细颗粒度的操作。
步骤104,采用所述关联网页URL模式对应的关联网页建立关联网页数据库。
在具体实现中,关联网页URL模式对应的关联网页可以包括首页关联网页和其他关联网页,可以是所有关联网页的全部,也可以是所有关联网页的部分,本发明实施例对此不加以限制。
作为一种优选示例,可以对蜘蛛抓取的网页文件进行数据处理,具体可以包括:
1、网页结构化。即关联网页的HTML代码删掉,提取出网页内容。
2、消噪。在网页结构化中,已经删掉了HTML代码,剩下了网页内容,那么消噪指的就是留下网页的主题内容,删掉没用的内容,比如版权。
3、查重。查找重复的网页与内容,如果找到重复的页面,就删除。
4、分词。提取出网页内容,然后分成N个词语,排列出来,存入索引库,同时也会计算这一个词在这个页面出现了多少次。
5、链接分析。查询页面的反向链接,导出链接有多少以及内链,然后给这个页面多少的权重等。
在进行了上边的数据处理之后,就可以把这些处理好的数据存储在关联网页数据库中。
本发明基于当前抓取到的网页提取关联网页URL模式,采用关联网页URL模式对应的关联网页建立关联网页数据库,避免了重复抓取网页,减少了系统资源的占用,大大提高了数据库的建立效率。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
参照图4,示出了本发明的一种关联网页数据库的建立装置实施例的结构框图,具体可以包括如下模块:
关联网页URL判断模块401,适于判断抓取到的网页是否包括关联网页URL模式;若是,则调用关联网页URL模式获取模块402;
关联网页URL模式获取模块402,适于获取所述关联网页URL模式;
关联网页获取模块403,适于基于所述关联网页URL模式获取对应的关联网页;
关联网页数据库建立模块404,适于采用所述所述关联网页URL模式对应的关联网页建立关联网页数据库。
在本发明的一种优选实施例中,所述关联网页URL模式模块401具体可以包括如下单元:
翻页特征字符串判断单元,适于判断当前网页的页面元素中是否具有翻页特征字符串;若是,则调用URL提取单元;
URL提取单元,适于提取所述翻页特征字符串链接的URL;
第一特征RUL前缀获得单元,适于采用预置的替换字符替换当前网页的URL中的数字块,获得第一特征URL前缀;其中,所述数字块为被间隔标识分割出的单个数字或多个数字;
第二特征RUL前缀获得单元,适于采用预置的替换字符替换所述翻页特征字符串链接的URL中的数字块,获得第二特征URL前缀;
判定单元,适于关联网页URL模式当所述第一特征URL前缀与所述第二特征URL前缀相同时,则判定抓取到的网页是否包括关联网页URL模式。
在本发明的一种优选实施例中,所述翻页特征字符串判断单元还可以适于:
采用翻页特征字符串在当前网页的DOM树节点中进行匹配;
当匹配成功时,则判断当前网页具有翻页特征字符串。
在本发明的一种优选实施例中,所述第一特征RUL前缀获得单元还可以适于:
采用相同的替换字符替换当前网页的URL中不同位置的数字块,获得第一特征URL前缀;
所述第二特征RUL前缀获得单元还适于:
采用相同的替换字符替换所述特征字符串链接的URL中不同位置的数字块,获得第二特征URL前缀。
在本发明的一种优选实施例中,所述第一特征RUL前缀获得单元还可以适于:
分别采用不同的替换字符,替换当前网页的URL中不同位置的数字块,获得第一特征URL前缀;
所述第二特征RUL前缀获得单元还适于:
分别采用与第一特征URL相同的替换字符替换所述翻页特征字符串链接的URL在相同位置的数字块,获得第二特征URL前缀。
在本发明的一种优选实施例中,所述关联网页URL模式获取模块还可以适于:
将所述第一特征URL前缀或第二特征URL前缀作为所述当前网页的对应的关联网页URL模式。
在本发明的一种优选实施例中,所关联网页获取模块还可以适于:
通过对关联网页URL模式中的共性部分进行结构分析,提取关联网页URL模式中的翻页块,将所述翻页块替换为首页标识获得首页关联网页的URL;其中,所述翻页块为多个关联网页URL模式中位置相同但数字不同的数字块;
访问所述首页关联网页的URL获取所述首页关联网页。
在本发明实施例的一种优选示例中,所述首页标识包括0、1和/或当前关联网页中的最大数值。
对于图4的装置实施例而言,由于其与图1的方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的关联网页数据库的建立设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种关联网页数据库的建立方法,包括:
判断抓取到的网页是否包括关联网页URL模式;若是,则获取所述关联网页URL模式;
基于所述关联网页URL模式获取对应的关联网页;
采用所述关联网页URL模式对应的关联网页建立关联网页数据库。
2.如权利要求1所述的方法,其特征在于,所述判断抓取到的网页是否包括关联网页URL模式的步骤包括:
判断当前网页的页面元素中是否具有翻页特征字符串;若是,则提取所述翻页特征字符串链接的URL;
采用预置的替换字符替换当前网页的URL中的数字块,获得第一特征URL前缀;其中,所述数字块为被间隔标识分割出的单个数字或多个数字;
采用预置的替换字符替换所述翻页特征字符串链接的URL中的数字块,获得第二特征URL前缀;
当所述第一特征URL前缀与所述第二特征URL前缀相同时,则判定抓取到的网页是否包括关联网页URL模式。
3.如权利要求2所述的方法,其特征在于,所述判断当前网页的页面元素中是否具有翻页特征字符串的步骤包括:
采用翻页特征字符串在当前网页的DOM树节点中进行匹配;
当匹配成功时,则判断当前网页具有翻页特征字符串。
4.如权利要求2所述的方法,其特征在于,所述采用预置的替换字符替换当前网页的URL中的数字块,获得第一特征URL前缀的步骤为:
采用相同的替换字符替换当前网页的URL中不同位置的数字块,获得第一特征URL前缀;
所述采用预置的替换字符替换所述翻页特征字符串链接的URL中的数字块,获得第二特征URL前缀的步骤为:
采用相同的替换字符替换所述特征字符串链接的URL中不同位置的数字块,获得第二特征URL前缀。
5.如权利要求2所述的方法,其特征在于,所述采用预置的替换字符替换当前网页的URL中的数字块,获得第一特征URL前缀的步骤为:
分别采用不同的替换字符,替换当前网页的URL中不同位置的数字块,获得第一特征URL前缀;
所述采用预置的替换字符替换所述翻页特征字符串链接的URL中的数字块,获得第二特征URL前缀的步骤为:
分别采用与第一特征URL相同的替换字符替换所述翻页特征字符串链接的URL在相同位置的数字块,获得第二特征URL前缀。
6.如权利要求2或3或4或5所述的方法,其特征在于,所述采用所述关联网页URL模式获取对应的关联网页的步骤包括:
将所述第一特征URL前缀或第二特征URL前缀作为所述当前网页的对应的关联网页URL模式。
7.如权利要求2或3或4或5所述的方法,其特征在于,所述获取所述关联网页URL模式对应的关联网页的步骤包括:
通过对关联网页URL模式中的共性部分进行结构分析,提取关联网页URL模式中的翻页块,将所述翻页块替换为首页标识获得首页关联网页的URL;其中,所述翻页块为多个关联网页URL模式中位置相同但数字不同的数字块;
访问所述首页关联网页的URL获取所述首页关联网页。
8.如权利要求7所述的方法,其特征在于,所述首页标识包括0、1和/或当前关联网页中的最大数值。
9.一种关联网页数据库的建立装置,包括:
关联网页URL判断模块,适于判断抓取到的网页是否包括关联网页URL模式;若是,则调用关联网页URL模式获取模块;
关联网页URL模式获取模块,适于获取所述关联网页URL模式;
关联网页获取模块,适于基于所述关联网页URL模式获取对应的关联网页;
关联网页数据库建立模块,适于采用所述关联网页URL模式对应的关联网页建立关联网页数据库。
10.如权利要求9所述的装置,其特征在于,所述关联网页URL模式模块包括:
翻页特征字符串判断单元,适于判断当前网页的页面元素中是否具有翻页特征字符串;若是,则调用URL提取单元;
URL提取单元,适于提取所述翻页特征字符串链接的URL;
第一特征RUL前缀获得单元,适于采用预置的替换字符替换当前网页的URL中的数字块,获得第一特征URL前缀;其中,所述数字块为被间隔标识分割出的单个数字或多个数字;
第二特征RUL前缀获得单元,适于采用预置的替换字符替换所述翻页特征字符串链接的URL中的数字块,获得第二特征URL前缀;
判定单元,适于关联网页URL模式当所述第一特征URL前缀与所述第二特征URL前缀相同时,则判定抓取到的网页是否包括关联网页URL模式。
CN201310607854.1A 2013-11-25 2013-11-25 一种关联网页数据库的建立方法和装置 Pending CN103617229A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310607854.1A CN103617229A (zh) 2013-11-25 2013-11-25 一种关联网页数据库的建立方法和装置
PCT/CN2014/086522 WO2015074455A1 (zh) 2013-11-25 2014-09-15 一种计算关联网页URL模式pattern的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310607854.1A CN103617229A (zh) 2013-11-25 2013-11-25 一种关联网页数据库的建立方法和装置

Publications (1)

Publication Number Publication Date
CN103617229A true CN103617229A (zh) 2014-03-05

Family

ID=50167932

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310607854.1A Pending CN103617229A (zh) 2013-11-25 2013-11-25 一种关联网页数据库的建立方法和装置

Country Status (1)

Country Link
CN (1) CN103617229A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015074455A1 (zh) * 2013-11-25 2015-05-28 北京奇虎科技有限公司 一种计算关联网页URL模式pattern的方法和装置
CN106126688A (zh) * 2016-06-29 2016-11-16 厦门趣处网络科技有限公司 基于web内容和结构挖掘的智能网络信息采集系统、方法
CN111177522A (zh) * 2018-11-09 2020-05-19 百度在线网络技术(北京)有限公司 页面聚合方法、装置、计算机设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102065108A (zh) * 2009-11-17 2011-05-18 中国移动通信集团广东有限公司 一种实现预下载的方法、无线通信终端及客户端浏览器
CN102087648A (zh) * 2009-12-03 2011-06-08 北京大学 一种新闻评论页面的爬取方法及系统
CN102123168A (zh) * 2011-01-14 2011-07-13 广州市动景计算机科技有限公司 基于中转服务器的网页页面预读及整合方法和系统
CN102222086A (zh) * 2011-05-18 2011-10-19 广州市动景计算机科技有限公司 基于移动终端的网页阅读方法、网页阅读装置及移动终端
CN103077254A (zh) * 2013-02-06 2013-05-01 人民搜索网络股份公司 网页获取方法和装置
CN103150358A (zh) * 2013-02-27 2013-06-12 三星半导体(中国)研究开发有限公司 在移动设备中进行连续网页浏览的装置和方法
US20130198678A1 (en) * 2012-01-31 2013-08-01 Samsung Electronics Co., Ltd. Method and apparatus for displaying page in terminal
CN103309905A (zh) * 2012-03-16 2013-09-18 百度在线网络技术(北京)有限公司 对网页进行转码后合并阅读的方法以及服务器

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102065108A (zh) * 2009-11-17 2011-05-18 中国移动通信集团广东有限公司 一种实现预下载的方法、无线通信终端及客户端浏览器
CN102087648A (zh) * 2009-12-03 2011-06-08 北京大学 一种新闻评论页面的爬取方法及系统
CN102123168A (zh) * 2011-01-14 2011-07-13 广州市动景计算机科技有限公司 基于中转服务器的网页页面预读及整合方法和系统
CN102222086A (zh) * 2011-05-18 2011-10-19 广州市动景计算机科技有限公司 基于移动终端的网页阅读方法、网页阅读装置及移动终端
US20130198678A1 (en) * 2012-01-31 2013-08-01 Samsung Electronics Co., Ltd. Method and apparatus for displaying page in terminal
CN103309905A (zh) * 2012-03-16 2013-09-18 百度在线网络技术(北京)有限公司 对网页进行转码后合并阅读的方法以及服务器
CN103077254A (zh) * 2013-02-06 2013-05-01 人民搜索网络股份公司 网页获取方法和装置
CN103150358A (zh) * 2013-02-27 2013-06-12 三星半导体(中国)研究开发有限公司 在移动设备中进行连续网页浏览的装置和方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015074455A1 (zh) * 2013-11-25 2015-05-28 北京奇虎科技有限公司 一种计算关联网页URL模式pattern的方法和装置
CN106126688A (zh) * 2016-06-29 2016-11-16 厦门趣处网络科技有限公司 基于web内容和结构挖掘的智能网络信息采集系统、方法
CN106126688B (zh) * 2016-06-29 2020-03-24 厦门趣处网络科技有限公司 基于web内容和结构挖掘的智能网络信息采集系统、方法
CN111177522A (zh) * 2018-11-09 2020-05-19 百度在线网络技术(北京)有限公司 页面聚合方法、装置、计算机设备及存储介质
CN111177522B (zh) * 2018-11-09 2023-08-18 百度在线网络技术(北京)有限公司 页面聚合方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
US10698960B2 (en) Content validation and coding for search engine optimization
CN100442283C (zh) 面向领域基于样本的互联网结构化数据抽取方法及其系统
US8768928B2 (en) Document object model (DOM) based page uniqueness detection
CN102831252B (zh) 一种用于更新索引数据库的方法及装置、搜索方法和系统
CN103605688A (zh) 一种网页广告的拦截方法、装置和浏览器
CN107437026B (zh) 一种基于广告网络拓扑的恶意网页广告检测方法
CN104765809A (zh) 一种移动终端搜索图片的预览方法和装置
CN104063454A (zh) 一种挖掘用户需求的搜索推送方法和装置
CN102664925B (zh) 一种展现搜索结果的方法及装置
CN102200980A (zh) 一种提供网络资源的方法及系统
CN102436563A (zh) 一种检测页面篡改的方法及装置
CN103617225A (zh) 一种关联网页搜索方法和系统
CN103631906A (zh) 一种识别网页url中页码标识的方法和装置
CN102591965A (zh) 一种黑链检测的方法及装置
CN102446255A (zh) 一种检测页面篡改的方法及装置
CN103514282A (zh) 一种视频搜索结果展示方法及装置
CN104239582A (zh) 基于特征向量模型识别钓鱼网页的方法及装置
CN103678509A (zh) 生成网页模板的方法及装置
CN103491101A (zh) 钓鱼网站检测方法、装置及客户端
CN102567521A (zh) 网页数据抓取过滤方法
CN104036190A (zh) 一种检测页面篡改的方法及装置
CN103618742A (zh) 获取子域名的方法和系统以及网站管理员权限验证方法
CN103617229A (zh) 一种关联网页数据库的建立方法和装置
CN105187439A (zh) 钓鱼网站检测方法及装置
WO2015074455A1 (zh) 一种计算关联网页URL模式pattern的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140305