CN103218390A

CN103218390A - 一种站点资源管理方法及装置

Info

Publication number: CN103218390A
Application number: CN2012105929763A
Authority: CN
Inventors: 崔建伟; 王佳; 李伟刚
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2012-12-31
Filing date: 2012-12-31
Publication date: 2013-07-24

Abstract

本发明提出了一种站点资源管理方法，包括以下步骤：对web站点进行数据挖掘以获取web站点中各个页面的URL数据；对各个页面的URL数据进行语义分析以获取各个页面的TAG特征和Mypos特征，其中TAG特征和Mypos特征属于训练得到的多个TAG特征和多个Mypos特征；根据各个页面的TAG特征和Mypos特征得到各个页面在预定分类表的各个分类下的权重。本发明还提出了一种站点资源管理装置。本发明根据网页内容等因素针对网页的网页类型进行智能分析，为对站点网页资源进行管理、分类提供了判断依据。

Description

一种站点资源管理方法及装置

技术领域

本发明涉及互联网应用技术领域，特别涉及一种站点资源管理方法及装置。

背景技术

随着互联网技术，尤其是智能搜索、智能广告推荐等技术的发展，对于网站进行分析、归类的需求越来越被重视。如此一来，就需要一种将站点的网页资源自动进行分类及组织的管理方法。现有技术中，经常简单的通过网页文本标题对网页进行划分，但这一方法的准确性不高。

发明内容

本发明旨在至少在一定程度上解决上述技术问题之一或至少提供一种有用的商业选择。

为此，本发明的第一个目的在于提出一种站点资源管理方法，根据网页内容等因素针对网页的网页类型进行智能分析，为对站点网页资源进行管理、分类提供了判断依据。本发明的第二个目的在于提出一种站点资源管理装置。

为达到上述目的，本发明第一方面的实施例提出了一种站点资源管理方法，包括以下步骤：对web站点进行数据挖掘以获取所述web站点中各个页面的URL数据；对所述各个页面的URL数据进行语义分析以获取各个页面的TAG特征和Mypos特征，其中所述TAG特征和所述Mypos特征属于训练得到的多个TAG特征和多个Mypos特征；根据各个页面的TAG特征和Mypos特征得到所述各个页面在预定分类表的各个分类下的权重。

根据本发明实施例的站点资源管理方法，可以通过对网页内容进行分词、提取特征的方式针对网页的网页类型进行智能分析，为对站点网页资源进行管理、分类提供了判断依据，使得为用户提供的网页推荐可以更加符合用户的需要，提高了用户体验。

在本发明的一个实施例中，所述站点资源管理方法进一步包括步骤：根据所述各个页面在预定分类表的各个分类下的权重将所述各个页面输出给对应的聚合频道。

在本发明的一个实施例中，根据所述各个页面在预定分类表的各个分类下的权重计算所述各个页面的相似度以进行相似页面推荐。

在本发明的一个实施例中，所述预定分类表的各个分类包括篮球、足球、网球、其他体育、财经、女性、娱乐、军事、国际时事、社会、美食、汽车、旅游、科技、健康、两性、笑话、动漫或游戏。

在本发明的一个实施例中，对web站点进行数据挖掘以获取所述web站点中各个页面的URL数据的步骤包括：对所述web站点进行日志挖掘和站点挖掘，其中通过所述日志挖掘获取页面的URL数据以及所述页面的访问热度，通过所述站点挖掘获取所述站点下各个页面的URL数据以及站点结构数据。

在本发明的一个实施例中，所述访问热度用于确定页面的点击量，所述站点结构数据用于实现web站点至web app的结构转换。

在本发明的一个实施例中，对所述各个页面的URL数据进行语义分析以获取各个页面的TAG特征和Mypos特征的步骤包括：对所述各个页面的URL数据进行切词分析以得到多个词；将所述多个词与训练得到的多个TAG特征和多个Mypos特征进行匹配以获取各个页面的TAG特征和Mypos特征。

本发明第二方面的实施例提出了一种站点资源管理装置，包括：挖掘模块，用于对web站点进行数据挖掘以获取所述web站点中各个页面的URL数据；特征获取模块，用于对所述各个页面的URL数据进行语义分析以获取各个页面的TAG特征和Mypos特征，其中所述TAG特征和所述Mypos特征属于训练得到的多个TAG特征和多个Mypos特征；权重计算模块，用于根据各个页面的TAG特征和Mypos特征得到所述各个页面在预定分类表的各个分类下的权重。

根据本发明实施例的站点资源管理装置，可以通过对网页内容进行分词、提取特征的方式针对网页的网页类型进行智能分析，为对站点网页资源进行管理、分类提供了判断依据，使得为用户提供的网页推荐可以更加符合用户的需要，提高了用户体验。

在本发明的一个实施例中，所述站点资源管理装置进一步包括：页面分类模块，用于根据所述各个页面在预定分类表的各个分类下的权重将所述各个页面输出给对应的聚合频道。

在本发明的一个实施例中，所述站点资源管理装置进一步包括：相似度计算模块，用于根据所述各个页面在预定分类表的各个分类下的权重计算所述各个页面的相似度以进行相似页面推荐。

在本发明的一个实施例中，所述挖掘模块包括：日志挖掘单元，用于获取页面的URL数据以及所述页面的访问热度；站点挖掘单元，用于获取所述站点下各个页面的URL数据以及站点结构数据。

在本发明的一个实施例中，所述特征获取模块包括：切词分析单元，用于对所述各个页面的URL数据进行切词分析以得到多个词；匹配单元，用于将所述多个词与训练得到的多个TAG特征和多个Mypos特征进行匹配以获取各个页面的TAG特征和Mypos特征。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的站点资源管理方法的流程图；

图2为根据本发明另一个实施例的站点资源管理方法的流程图；

图3为一个待挖掘的web网页的示意图；

图4为根据本发明实施例的一个站点资源管理装置的示意图；以及

图5为根据本发明实施例的另一个站点资源管理装置的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

下面分别参考图1至图3对本发明实施例的站点资源管理方法的流程进行描述。

如图1所示，根据本发明第一方面的实施例的站点资源管理方法，包括以下步骤：

S101：对web站点进行数据挖掘以获取web站点中各个页面的URL数据。

具体地，对站点进行数据挖掘包括日志挖掘和站点挖掘两部分。

日志挖掘：挖掘网站的url以及url对应的pattern、query、搜索结果页序号、pv等信息，提供网站内url的基本url数据以及对应的访问热度信息，访问热度用于确定页面的点击量。在一个具体的实施例中，日志挖掘可以利用hadoop平台实现。

站点挖掘：从网站首页或频道页开始，定时抓取指定站点或频道的页面以下级页面，分析页面前后连接之间的指向关系，并且补全网站站点各个页面的URL数据以及站点结构数据，站点结构数据用于实现web站点至web app（Application，应用程序）的结构转换。在一个具体的实施例中，站点挖掘可以利用站点抓取技术实现。

在本发明的一个实施例中，以站点7y7.com为例，进行日志挖掘和站点挖掘，其中，日志挖掘根据pv分析，得到站点内pv最高的3条URL及其pattern如表1所示：

表1对站点7y7.com的日志挖掘结果

对7y7.com的站点挖掘，通过对各个URL的分析可以得出前后链接关系和浏览路径，例如，以http://www.7y7.com/yule/95/70395.html为例：

表2对站点7y7.com的站点挖掘示例

S102：对各个页面的URL数据进行语义分析以获取各个页面的TAG特征和Mypos特征，其中TAG特征和Mypos特征属于训练得到的多个TAG特征和多个Mypos特征。

在本发明的一个实施例中，对各个页面的URL数据进行语义分析以获取各个页面的TAG特征和Mypos特征，具体包括：

S1021：对各个页面的URL数据进行切词分析以得到多个词。

S1022：将多个词与训练得到的多个TAG特征和多个Mypos特征进行匹配以获取各个页面的TAG特征和Mypos特征。

TAG特征的分析基于分词技术，对网页中的文本进行切词分析，基于训练好的后验概率模型，将分析结果映射到目标TAG集合上的不同权值，进而根据权值判断该网页的类型。TAG系统需要包括足够多的TAG标签（以500个为例），通过统计待标注网页样本中各个TAG出现的概率，选择出概率最大的100个TAG作为特征进行训练。对某个网页的TAG特征的获取，可通过将该网页的分词得到的多个词和训练得到的多个TAG进行匹配。例如，针对如图3中所示的网页，经TAG特征分析，得到的各TAG如表3所示：

关键字	权重系数Weight
		外国人	67.900
散布	58.800
		外国	44.000
围观	40.200
		路人	40.200
标题TAG	权重系数Weight
		云南	36.965
手机	18.340
		恋爱	14.144
娱乐八卦	10.909
		昆明市	10.710

表3各关键字和标题TAG的权重系数

根据表3可得出，权重系数最大的标题TAG为：云南。

S103：根据各个页面的TAG特征和Mypos特征得到各个页面在预定分类表的各个分类下的权重。

在本发明的一个实施例中，预定分类表的各个分类包括篮球、足球、网球、其他体育、财经、女性、娱乐、军事、国际时事、社会、美食、汽车、旅游、科技、健康、两性、笑话、动漫或游戏等。需要说明的是，上述分类表只是为了示例说明，而不应理解为对本发明的限制。根据某个页面TAG特征和Mypos特征得到该页面在各个分类下的权重，可作为将网页分类的重要依据。例如，前一实施例中的网页即可根据TAG特征被分类到“国内”“八卦”分类下。

Mypos（My Position）是指网页上的一种导航，目的是为了告诉用户，现在的网页处在整个网站结构中的什么位置。

Mypos通常有两个特征：

出现在页面主体内容的最上方。对于有标题的网页，通常在标题的上面。对于无标题的网页，通常是在整个核心正文区域的最上方。

结构通常是递进的关系，有箭头类的图形来表达这种递进。且上一层级一般为链接，可以点击进这个网页的上一层目录。

在本发明中，主要是对Mypos进行切词，然后跟TAG特征何在一期进行训练。可以认为，TAG特征处理的是页面的文本，而Mypos特征处理的是页面的一个功能块的信息。由于Mypos的特殊性，在训练模型中的权重页会相对大一些。例如：在图3中，这个页面的Mypos为页面左上方的实线框内部分，通过分析特征，将其中的“美发”关键字作为特征进行提取，作为特征参与到后面的训练和识别。

得到筛选后的TAG特征和Mypos特征后，对标注样本，采用后验概率模型进行训练，得到特征和语义分类之间的概率分布模型。

上述概率分布模型可以有如下应用：给定一个url，通过提取TAG特征和Mypos特征，通过模型就可以计算出该url在各个语义类型上的概率分布。

给定两个网页的url，可以通过TAG特征计算相似度；可以在推荐集合中通过knn算法找到目标url最相似的url，进行数据组织。

在本发明的一个实施例中，将网页页面分为首页、索引页、列表页、正文页等，根据页面的结构特征将页面进行分类和组织。

在本发明的一个实施例中，站点资源管理方法还包括：

S104：根据各个页面在预定分类表的各个分类下的权重将各个页面输出给对应的聚合频道。

S105：根据各个页面在预定分类表的各个分类下的权重计算各个页面的相似度以进行相似页面推荐。

其中，对于给定两个网页的相似度的计算，可以通过TAG特征来计算它们的相似度；可以在推荐集合中通过KNN算法（k-Nearest Neighbor，k最邻近算法）找到目标网页最相似的网页，进行网页的数据组织。

作为本发明的主要实际应用方式之一，本发明可应用于根据用户的浏览记录向用户推荐类似的网页，提升了用户体验。

如图4所示，根据本发明第二方面的实施例的站点资源管理装置，包括：

挖掘模块410、特征获取模块420和权重计算模块430。具体地，挖掘模块410用于对web站点进行数据挖掘以获取web站点中各个页面的URL数据。

在本发明的一个实施例中，挖掘模块410包括日志挖掘单元411和站点挖掘单元411。日志挖掘单元411用于获取页面的URL数据以及页面的访问热度，访问热度用于确定页面的点击量。具体地，日志挖掘挖掘网站的url以及url对应的pattern、query、搜索结果页序号、pv等信息，提供网站内url的基本url数据以及对应的访问热度信息，访问热度用于确定页面的点击量。在一个具体的实施例中，日志挖掘可以利用hadoop平台实现。

站点挖掘单元412用于获取所述站点下各个页面的URL数据以及站点结构数据。具体地，站点挖掘包括：从网站首页或频道页开始，定时抓取指定站点或频道的页面以下级页面，分析页面前后连接之间的指向关系，并且补全网站站点各个页面的URL数据以及站点结构数据，站点结构数据用于实现web站点至web app的结构转换。在一个具体的实施例中，站点挖掘可以利用站点抓取技术实现。

特征获取模块420用于对各个页面的URL数据进行语义分析以获取各个页面的TAG特征和Mypos特征，其中TAG特征和Mypos特征属于训练得到的多个TAG特征和多个Mypos特征。

在本发明的一个实施例中，特征获取模块420包括切词分析单元421和匹配单元421。切词分析单元421用于对各个页面的URL数据进行切词分析以得到多个词。匹配单元422用于将多个词与训练得到的多个TAG特征和多个Mypos特征进行匹配以获取各个页面的TAG特征和Mypos特征。TAG特征的分析基于分词技术，对网页中的文本进行切词分析，基于训练好的后验概率模型，将分析结果映射到目标TAG集合上的不同权值，进而根据权值判断该网页的类型。TAG系统需要包括足够多的TAG标签（以500个为例），通过统计待标注网页样本中各个TAG出现的概率，选择出概率最大的100个TAG作为特征进行训练。对某个网页的TAG特征的获取，可通过将该网页的分词得到的多个词和训练得到的多个TAG进行匹配。

权重计算模块430用于根据各个页面的TAG特征和Mypos特征得到所述各个页面在预定分类表的各个分类下的权重。在本发明的一个实施例中，预定分类表的各个分类包括篮球、足球、网球、其他体育、财经、女性、娱乐、军事、国际时事、社会、美食、汽车、旅游、科技、健康、两性、笑话、动漫或游戏等。需要说明的是，上述分类表只是为了示例说明，而不应理解为对本发明的限制。根据某个页面TAG特征和Mypos特征得到该页面在各个分类下的权重，可作为将网页分类的重要依据。例如，针对如图3中所示的网页，经TAG特征分析，得到的各TAG如表3所示。根据表3可得出，权重系数最大的标题TAG为：云南。该网页即可根据TAG特征被分类到“国内”“八卦”分类下。

在本发明的一个实施例中，如图5所示，站点资源管理装置还包括：页面分类模块440和相似度计算模块450。

具体地，页面分类模块440用于根据各个页面在预定分类表的各个分类下的权重将所述各个页面输出给对应的聚合频道。预定分类表的各个分类包括篮球、足球、网球、其他体育、财经、女性、娱乐、军事、国际时事、社会、美食、汽车、旅游、科技、健康、两性、笑话、动漫或游戏。需要说明的是，上述分类表只是为了示例说明，而不应理解为对本发明的限制。

相似度计算模块450用于根据各个页面在预定分类表的各个分类下的权重计算各个页面的相似度以进行相似页面推荐。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种站点资源管理方法，其特征在于，包括以下步骤：

对web站点进行数据挖掘以获取所述web站点中各个页面的URL数据；

对所述各个页面的URL数据进行语义分析以获取各个页面的TAG特征和Mypos特征，其中所述TAG特征和所述Mypos特征属于训练得到的多个TAG特征和多个Mypos特征；以及

根据各个页面的TAG特征和Mypos特征得到所述各个页面在预定分类表的各个分类下的权重。

2.根据权利要求1所述的方法，其特征在于，进一步包括步骤：

根据所述各个页面在预定分类表的各个分类下的权重将所述各个页面输出给对应的聚合频道。

3.根据权利要求1所述的方法，其特征在于，进一步包括步骤：

根据所述各个页面在预定分类表的各个分类下的权重计算所述各个页面的相似度以进行相似页面推荐。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述预定分类表的各个分类包括篮球、足球、网球、其他体育、财经、女性、娱乐、军事、国际时事、社会、美食、汽车、旅游、科技、健康、两性、笑话、动漫或游戏。

5.根据权利要求1至3中任一项所述的方法，其特征在于，对web站点进行数据挖掘以获取所述web站点中各个页面的URL数据的步骤包括：

对所述web站点进行日志挖掘和站点挖掘，其中通过所述日志挖掘获取页面的URL数据以及所述页面的访问热度，通过所述站点挖掘获取所述站点下各个页面的URL数据以及站点结构数据。

6.根据权利要求5所述的方法，其特征在于，所述访问热度用于确定页面的点击量，所述站点结构数据用于实现web站点至web app的结构转换。

7.根据权利要求1至3中任一项所述的方法，其特征在于，对所述各个页面的URL数据进行语义分析以获取各个页面的TAG特征和Mypos特征的步骤包括：

对所述各个页面的URL数据进行切词分析以得到多个词；

将所述多个词与训练得到的多个TAG特征和多个Mypos特征进行匹配以获取各个页面的TAG特征和Mypos特征。

8.一种站点资源管理装置，其特征在于，包括：

挖掘模块，用于对web站点进行数据挖掘以获取所述web站点中各个页面的URL数据；

特征获取模块，用于对所述各个页面的URL数据进行语义分析以获取各个页面的TAG特征和Mypos特征，其中所述TAG特征和所述Mypos特征属于训练得到的多个TAG特征和多个Mypos特征；以及

权重计算模块，用于根据各个页面的TAG特征和Mypos特征得到所述各个页面在预定分类表的各个分类下的权重。

9.根据权利要求8所述的装置，其特征在于，还进一步包括：

页面分类模块，用于根据所述各个页面在预定分类表的各个分类下的权重将所述各个页面输出给对应的聚合频道。

10.根据权利要求8所述的装置，其特征在于，还进一步包括：

相似度计算模块，用于根据所述各个页面在预定分类表的各个分类下的权重计算所述各个页面的相似度以进行相似页面推荐。

11.根据权利要求8至10中任一项所述的装置，其特征在于，所述预定分类表的各个分类包括篮球、足球、网球、其他体育、财经、女性、娱乐、军事、国际时事、社会、美食、汽车、旅游、科技、健康、两性、笑话、动漫或游戏。

12.根据权利要求8至10中任一项所述的装置，其特征在于，所述挖掘模块包括：

日志挖掘单元，用于获取页面的URL数据以及所述页面的访问热度；

站点挖掘单元，用于获取所述站点下各个页面的URL数据以及站点结构数据。

13.根据权利要求12所述的装置，其特征在于，所述访问热度用于确定页面的点击量，所述站点结构数据用于实现web站点至web app的结构转换。

14.根据权利要求8至10中任一项所述的装置，其特征在于，所述特征获取模块包括：

切词分析单元，用于对所述各个页面的URL数据进行切词分析以得到多个词；

匹配单元，用于将所述多个词与训练得到的多个TAG特征和多个Mypos特征进行匹配以获取各个页面的TAG特征和Mypos特征。