CN103049557A

CN103049557A - 一种站点资源管理方法及装置

Info

Publication number: CN103049557A
Application number: CN201210587855XA
Authority: CN
Inventors: 崔建伟; 李伟刚
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2012-12-31
Filing date: 2012-12-31
Publication date: 2013-04-17

Abstract

本发明提出了一种站点资源管理方法，包括以下步骤：对web站点进行数据挖掘以获取web站点中各个页面；获取web站点各个页面的分块特征；将具有强分块特征的页面分为不同类型的页面；获取各个页面的分簇特征并根据分簇特征将各个页面分组；根据各个分组中具有强分块特征的页面的类型确定分组中的页面的类型。本发明还提出了一种站点资源管理装置。本发明根据网页结构等因素针对网页的网页类型进行分类，为对站点网页资源进行管理、分类提供了判断依据。

Description

一种站点资源管理方法及装置

技术领域

本发明涉及互联网应用技术领域，特别涉及一种站点资源管理方法及装置。

背景技术

随着互联网技术，尤其是智能搜索、智能广告推荐等技术的发展，对于网站进行分析、归类的需求越来越被重视。如此一来，就需要一种将站点的网页资源自动进行分类及组织的管理方法。现有技术中，通常根据网页的内容对网页的类型进行划分，但因计算机自身并不具有主动判断能力，使用这一方法的效率不高。

发明内容

本发明旨在至少在一定程度上解决上述技术问题之一或至少提供一种有用的商业选择。

为此，本发明的第一个目的在于提出一种站点资源管理方法，根据网页结构等因素针对网页的网页类型进行分类，为对站点网页资源进行管理、分类提供了判断依据。本发明的第二个目的在于提出一种站点资源管理装置。

为达到上述目的，本发明第一方面的实施例提出了一种站点资源管理方法，包括以下步骤：对web站点进行数据挖掘以获取所述web站点的各个页面；获取所述各个页面的分块特征；将具有强分块特征的页面分为不同类型的页面；获取所述各个页面的分簇特征并根据所述分簇特征将所述各个页面分组；根据各个分组中具有强分块特征的页面的类型确定所述分组中的页面的类型。

根据本发明实施例的站点资源管理方法，通过基于页面基础功能块和资源块特征信息、页面分簇信息等信息对页面类型进行识别，根据网页页面的结构，对网页的类型进行智能判断，利用了机器对于比较、匹配运算的高执行效率的特点，显著地提高了分类效率，节省了时间和人力成本。

在本发明的一个实施例中，所述强分块特征包括：导航块、索引块、图片块、文本块。

在本发明的一个实施例中，所述不同类型的页面包括首页页面、索引页页面、列表页页面、正文页页面、封面页页面。

在本发明的一个实施例中，获取所述各个页面的分簇特征包括通过通配所述各个页面的URL pattern获取所述各个页面的分簇特征。

在本发明的一个实施例中，所述通配包括对所述各个页面的URL pattern在不同粒度上的通配。

在本发明的一个实施例中，获取所述各个页面的分簇特征包括通过对所述各个页面进行Xpath分簇而获取所述各个页面的分簇特征。

在本发明的一个实施例中，在对所述各个页面进行Xpath分簇时，对所述各个页面的目标节点的Xpath进行签名。

在本发明的一个实施例中，所述目标节点包括div节点，ul节点、a节点，视频节点和图片节点。

本发明第二方面的实施例提出了一种站点资源管理装置，包括：挖掘模块，用于对web站点进行数据挖掘以获取所述web站点中各个页面的URL数据；分块特征获取模块，用于获取所述各个页面的分块特征；分簇特征获取模块，用于获取所述各个页面的分簇特征并根据所述分簇特征将所述各个页面分组；页面分类模块，用于将具有强分块特征的页面分为不同类型的页面，以及根据各个分组中具有强分块特征的页面的类型确定所述分组中的页面的类型。

根据本发明实施例的站点资源管理装置，通过基于页面基础功能块和资源块特征信息、页面分簇信息等信息对页面类型进行识别，根据网页页面的结构，对网页的类型进行智能判断，利用了机器对于比较、匹配运算的高执行效率的特点，显著地提高了分类效率，节省了时间和人力成本。

在本发明的一个实施例中，所述分簇特征获取模块通过通配所述各个页面的URL pattern获取所述各个页面的分簇特征。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的站点资源管理方法的流程图；

图2为根据本发明一个实施例的具体对网页进行分类的流程图；以及

图3为根据本发明实施例的一个站点资源管理装置的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

下面分别参考图1至图2对本发明实施例的站点资源管理方法的流程进行描述。

如图1所示，根据本发明第一方面的实施例的站点资源管理方法，包括以下步骤：

S101：对web站点进行数据挖掘以获取web站点中各个页面。

具体地，对站点进行数据挖掘包括日志挖掘和站点挖掘两部分。

日志挖掘：挖掘网站的url以及url对应的pattern、query、搜索结果页序号、pv等信息，提供网站内url的基本url数据以及对应的访问热度信息，访问热度用于确定页面的点击量。在一个具体的实施例中，日志挖掘可以利用hadoop平台实现。

站点挖掘：从网站首页或频道页开始，定时抓取指定站点或频道的页面以下级页面，分析页面前后连接之间的指向关系，并且补全网站站点各个页面的URL数据以及站点结构数据；在一个具体的实施例中，站点挖掘可以利用站点抓取技术实现。

在本发明的一个实施例中，以站点7y7.com为例，进行日志挖掘和站点挖掘，其中，日志挖掘根据pv分析，得到站点内pv最高的3条URL及其pattern如表1所示：

表1对站点7y7.com的日志挖掘结果

对7y7.com的站点挖掘，通过对各个URL的分析可以得出前后链接关系和浏览路径，例如，以http://www.7y7.com/yule/95/70395.html为例：

表2对站点7y7.com的站点挖掘示例

S102：获取web站点各个页面的分块特征。

获取web站点各个页面的分块特征，具体的，可通过对页面建立分块树来实现。分块树是由在基础解析(basic.so)阶段生成的DOM树，通过接口函数生成的。在建立分块树的同时标注位置、资源、功能、语义等信息。例如，位置信息包括上、下、左、右、中间。资源信息包括外部块，交互块，图片块，链接块，索引块，文本块等。功能信息包括时间块，版权块，导航块，友情链接块，相关链接块，Mypos块，键值对组成的块等，语义信息包括网页内容标题，核心内容块。其中，可更显著地体现网页类型的分块特征，强分块特征包括但不仅限于：导航块、索引块、图片块、文本块等。

S103：将具有强分块特征的页面分为不同类型的页面。

根据网页页面的结构特征，总体上将网页页面分为不同类型，包括但并不仅限于：首页页面、索引页页面、列表页页面、正文页页面、封面页页面等。对于各种不同内容的网页，将相应的对页面类型做进一步细分。例如对于小说类型，可分为小说首页、小说索引页、小说列表页、单本小说封面页、单本小说列表页和单本小说内容页，每一种页面类型都有对应的结构化抽取和展现的产品模式。在普遍情况下，不同结构页面类型的页面，例如首页、索引页与正文页，具有不同的分块特征，不同结构页面类型的页面随时间变化有不同的规律，例如：

索引页、列表页：xpath结构不变，连接、文字滚动变化；

正文页：页面主体不发生变化；

因此该特征主要用来区分索引列表页和正文页。

根据提取的特征，采用libsvm训练模型，并且辅助强特征的人工过滤和校验，提升准确率和召回率。

如果不能根据强分块特征将页面分类，那么还需要执行S104和S105步骤。

S104：获取各个页面的分簇特征并根据分簇特征将各个页面分组。

S105：根据各个分组中具有强分块特征的页面的类型确定分组中的页面的类型。

页面分簇是根据页面特征（包括url特征和xpath特征）将类型一样的页面聚合到一起；主要用于：a.方便人工标注；b.扩大找回，通过强特征的训练得到分簇的页面类型，从而找回同簇中特征较弱的页面。

在本发明的一个实施例中，根据分簇特征进行页面分组主要有以下三个方面：

a)URL-pattern技术

通过通配各个页面的URL-pattern来获取各个页面的分簇特征。该技术主要根据url分词特征进行训练，将url中出现频率较高的关键词进行pattern通配。例如：

将url http://www.7y7.com/yule/95/70395.html匹配为如下形式的pattern：www.7y7.com/*/*/*.html

这样，在大多数情况下，特别是小说页面，同一个pattern下的url具有相同的页面结构、页面类型、主题相关性。通过该技术，除了少数技术上短期自动识别其结构难度较大的部分网页，可以对站点下的资源按pattern进行划分和页面类型识别，显著节省了时间和人力成本。

b)细粒度的simple_URL_pattern

URL_pattern在某些情况下分类聚类力度太粗，此时可对各个页面的URL-pattern进行与a）中不同粒度上的通配。例如广告，同一pattern下会有多个需要将url进行更细粒度的聚合分类，因此采用对各个页面的URL。simple_URL_pattern将url中末尾的数字部分统配掉，计算pattern，目前主要应用于广告和游戏相关的页面。

例如：

http://www.7y7.com/yule/95/70395.html=>

www.7y7.com/yule/*/*.html

修改为娱乐聚合组中进行URL-pattern通配方式后，其中的页面不仅结构和页面类型相同，而且内容主题也相同。

c)Xpath分簇

有时候，仅仅利用url特征分簇是远远不够的。Xpath分簇具体通过对页面中目标节点的xpath进行签名，将xpath前面相同的页面分为一簇。其中，目标节点包括div节点、ul节点、a节点，视频节点和图片节点。其中，div节点、ul节点、a节点是html中的标签，div节点用于定义文档中的分区或节，是一个块级元素，意味着这个分区或节自动地开始一个新行；ul节点用于定义无序列表；a节点用于定义锚（anchor），包括链接等。

例如：

http://www.7y7.com/xingzuo/

http://www.7y7.com/xingzuo/index_204.html

这两个页面虽然在url特征上不太一样，在较严格的URL-pattern通配中不会通配成功，但两个页面的xpath结构是完全一样的，通过Xpath分簇就可以将这两个页面分到一类中。

由于http://www.7y7.com/xingzuo/的列表页特征很强，很容易被识别为列表页。

而http://www.7y7.com/xingzuo/index_204.html由于是最后一页的列表，只有很少的列表块内容，列表特征相对来说很弱，很容易被误识别为索引页等其他页面类型。但是，通过xpath分簇就可以很好的解决这个问题。Xpath分簇有效地对url-pattern技术形成了互补。

对于具体的一个网页页面，进行类型识别的过程如图2所示：

S301：将该网页与已有的pattern进行URL-pattern通配。

S302：提取该网页的分块特征。

S303：如果提取得到的分块特征中，包括有正向强匹配特征，则将网页分类为该强匹配特征相对应的类型。

其中，正向强匹配特征是指，某些页面类型在某一项或几项特征上面足够强，如果该正向强匹配特征出现就可以直接判断该页面的页面类型；例如，如果页面中有bbs等字样，并且页面中具有重复的帖子回帖结构，就可以认为该页面为论坛正文页。在具体实施例中，强匹配特征可以通过基于统计的方法得到，用于页面类型判断。

S304：根据提取得到的分块特征，采用libsvm训练模型对该网页的类型进行识别。

S305：检查该网页的分块特征中是否包括负向强匹配特征。

如前文所述，正向强匹配特征指的是，如果该正向强匹配特征出现，则会增加该页面为某种页面类型的概率，而负向强匹配特征指的是，如果该负向强匹配特征出现，会减少该页面为某种页面类型的概率。例如，如果页面中不包含任何年-月-日的日期类型数据，则可以判定该网站不是火车票、机票查询类网站，也不是股市、汇率等经济指标查询类网站。本步骤的主要作用就是利用负向的强匹配特征，来过滤掉被S304步骤误识别的页面类型。

如图3所示，根据本发明第二方面的实施例的站点资源管理装置，包括：

挖掘模块410、分块特征获取模块420、分簇特征获取模块430和页面分类模块440。

挖掘模块410对web站点进行数据挖掘以获取web站点中各个页面的URL数据。具体地，对站点进行数据挖掘包括日志挖掘和站点挖掘两部分。

分块特征获取模块420获取各个页面的分块特征。获取web站点各个页面的分块特征，具体的，可通过对页面建立分块树来实现。分块树是由在基础解析(basic.so)阶段生成的DOM树，通过接口函数生成的。在建立分块树的同时标注位置、资源、功能、语义等信息。例如，位置信息包括上、下、左、右、中间。资源信息包括外部块，交互块，图片块，链接块，索引块，文本块等。功能信息包括时间块，版权块，导航块，友情链接块，相关链接块，Mypos块，键值对组成的块等，语义信息包括网页内容标题，核心内容块。其中，可更显著地体现网页类型的分块特征，强分块特征包括但不仅限于：导航块、索引块、图片块、文本块等。对于具有强分块特征的页面，页面分类模块440将这些具有强分块特征的页面分为不同类型的页面。

分簇特征获取模块430获取各个页面的分簇特征并根据分簇特征将所述各个页面分组。页面分簇是根据页面特征（包括url特征和xpath特征）将类型一样的页面聚合到一起；主要用于：a.方便人工标注；b.扩大找回，通过强特征的训练得到分簇的页面类型，从而找回同簇中特征较弱的页面。

a)URL-pattern技术

b)细粒度的simple_URL_pattern

例如：

http://www.7y7.com/yule/95/70395.html=>

www.7y7.com/yule/*/*.html

c)Xpath分簇

例如：

http://www.7y7.com/xingzuo/

http://www.7y7.com/xingzuo/index_204.html

对于每个分组，页面分类模块440根据各个分组中具有强分块特征的页面的类型确定该分组中的页面的类型。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种站点资源管理方法，其特征在于，包括以下步骤：

对web站点进行数据挖掘以获取所述web站点的各个页面；

获取所述各个页面的分块特征；

将具有强分块特征的页面分为不同类型的页面；

获取所述各个页面的分簇特征并根据所述分簇特征将所述各个页面分组；以及

根据各个分组中具有强分块特征的页面的类型确定所述分组中的页面的类型。

2.根据权利要求1所述的方法，其特征在于，所述强分块特征包括：导航块、索引块、图片块、文本块。

3.根据权利要求1或2所述的方法，其特征在于，所述不同类型的页面包括首页页面、索引页页面、列表页页面、正文页页面、封面页页面。

4.根据权利要求1或2所述的方法，其特征在于，获取所述各个页面的分簇特征包括通过通配所述各个页面的URL pattern获取所述各个页面的分簇特征。

5.根据权利要求4所述的方法，其特征在于，所述通配包括对所述各个页面的URL pattern在不同粒度上的通配。

6.根据权利要求4所述的方法，其特征在于，获取所述各个页面的分簇特征包括通过对所述各个页面进行Xpath分簇而获取所述各个页面的分簇特征。

7.根据权利要求6所述的方法，其特征在于，在对所述各个页面进行Xpath分簇时，对所述各个页面的目标节点的Xpath进行签名。

8.根据权利要求7所述的方法，其特征在于，所述目标节点包括div节点，ul节点、a节点，视频节点和图片节点。

9.一种站点资源管理装置，其特征在于，包括：

挖掘模块，用于对web站点进行数据挖掘以获取所述web站点中各个页面的URL数据；

分块特征获取模块，用于获取所述各个页面的分块特征；

分簇特征获取模块，用于获取所述各个页面的分簇特征并根据所述分簇特征将所述各个页面分组；

页面分类模块，用于将具有强分块特征的页面分为不同类型的页面，以及根据各个分组中具有强分块特征的页面的类型确定所述分组中的页面的类型。

10.根据权利要求9所述的装置，其特征在于，所述强分块特征包括：导航块、索引块、图片块、文本块。

11.根据权利要求9或10所述的装置，其特征在于，所述不同类型的页面包括首页页面、索引页页面、列表页页面、正文页页面、封面页页面。

12.根据权利要求9或10所述的装置，其特征在于，所述分簇特征获取模块通过URL-pattern通配所述各个页面的获取所述各个页面的分簇特征。

13.根据权利要求12所述的装置，其特征在于，所述通配包括对所述各个页面的在不同粒度上的URL-pattern通配。

14.根据权利要求12所述的装置，其特征在于，获取所述各个页面的分簇特征包括通过对所述各个页面进行Xpath分簇而获取所述各个页面的分簇特征。

15.根据权利要求14所述的装置，其特征在于，在对所述各个页面进行Xpath分簇时，对所述各个页面的目标节点的Xpath进行签名。

16.根据权利要求15所述的装置，其特征在于，所述目标节点包括div节点，ul节点、a节点，视频节点和图片节点。