CN103778164A

CN103778164A - 一种网页链接特征模式识别算法

Info

Publication number: CN103778164A
Application number: CN201210414950.XA
Authority: CN
Inventors: 李旭日
Original assignee: GUANGZHOU BANGFU SOFTWARE Co Ltd
Current assignee: GUANGZHOU BANGFU SOFTWARE Co Ltd
Priority date: 2012-10-26
Filing date: 2012-10-26
Publication date: 2014-05-07

Abstract

本发明公开了一种网页链接特征模式识别算法，该算法采用基于内容特征提取的方式来进行去重，内容特征的提取方式主要基于代表内容含义的关键词序列提取，再将关键词序列利用散列算法生成唯一的指纹；如果指纹库为空，则将该指纹添加入指纹库。如果不为空，则将跟指纹与指纹库对比。如果存在相同指纹，则代表该网页已经有雷同网页存在；采用本技术方法的去重算法可以有效的应对在标题或者内容后添加随时码，或者对标题内容进行部分删减以及调整段落位置的情况，能够有效的提高性能。

Description

一种网页链接特征模式识别算法

技术领域

本发明涉及互联网技术领域，特别是基于指纹的网页快速去重算法。

背景技术

在搜索引擎的应用中，蜘蛛负责采集网页。蜘蛛程序根据输入的原始网页链接，下载网页的html，然后从网页之中又提取出新的链接进行下一次的采集。

蜘蛛本身对网站的结果是无概念的，每一条链接对蜘蛛来说都是平等的。但是在实际的应用之中，搜索引擎更加关注带有实际正文内容的网页。对于只有广告以及无意义的网页链接来说，搜索引擎通常要忽略。

本发明主要针对网页上的链接的类型智能模式识别，即自动的识别出对搜索引擎有用的某一类网页链接模式。

给蜘蛛加上采集参数配置，提供一套配置管理系统，由人工来配置带有实际正文内容网页的模式，需要人工干预，维护成本非常的高。

发明内容

本发明的目的是解决上问题，提供一种自动的识别出搜索引擎关注的带有实际正文内容页的网页链接模式，能够对网站的网页链接进行模式识别，有利的指导蜘蛛的采集，抛弃垃圾网页以及广告网页，避免导航型网页进行索引。

为达到上述目的，本发明所采用的技术方案是：一种网页链接特征模式识别算法，其特征在于：该算法立足于自动的对蜘蛛采集到的网页进行链接模式分析。经过树形的架构之后生成初步的基于链接层级的模式树，并对模式树进行类型的判断。再根据基于正则表达式的替换生成进一步的链接模式。

算法步骤：

1、首先对需要识别的目标网站进行无差别的站内采集。

2、对于少数规模庞大的网站，采集深度到3或者指定数据的网页数即可。理论上数量越多，识别的准确率越高。

3、提取出所有页面的链接，并对链接出现次数进行统计。

4、出现次数最多的网页链接初步标注为导航链接。

5、对所有链接进行归类，归类的条件是网页链接的层次。

6、归类的目标是生成一棵网站链接树，顺序是从域名一级一级向右推。

7、对网站链接树进行遍历，判断叶子节点类型。判断方法为，如果页面链接很多，但是文本很少，则忽略。如果文本很多，则判断为内容型链接。

8、对所有叶子节点判断完向上依次归并。如果所有子节点都为同类型，则判断该父节点为该类型。如果同时拥有多个，则判断中断。

9、对所有判断完毕为内容节点的链接进行模式替换，如全部为数字则全部替换为\d+，为英文加数字则替换为[\da-zA-Z]，替换规则参考正则表达式。

10、新采集一批网页，对提取出来的模式进行二次验证。验证通过的模式直接保存。

该算法能够对网站的网页链接进行模式识别，有利的指导蜘蛛的采集，抛弃垃圾网页以及广告网页，避免导航型网页进行索引。

具体实施方式：

为使本发明的技术方案便于理解，以下结合具体实施方式对本发明作进一步的说明。

实施例：一种网页链接特征模式识别算法，其特征在于：该算法立足于自动的对蜘蛛采集到的网页进行链接模式分析。经过树形的架构之后生成初步的基于链接层级的模式树，并对模式树进行类型的判断。再根据基于正则表达式的替换生成进一步的链接模式。

算法步骤：

1、首先对需要识别的目标网站进行无差别的站内采集。

3、提取出所有页面的链接，并对链接出现次数进行统计。

4、出现次数最多的网页链接初步标注为导航链接。

5、对所有链接进行归类，归类的条件是网页链接的层次。

以上所述，仅为本发明的较佳实施例，并非对本发明作任何形式上和实质上的限制，凡熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用以上所揭示的技术内容，而作出的些许更动、修饰与演变的等同变化，均为本发明的等效实施例；同时，凡依据本发明的实质技术对以上实施例所作的任何等同变化的更动、修饰与演变，均仍属于本发明的技术方案的范围内。

Claims

1.一种网页链接特征模式识别算法，其特征在于：该算法立足于自动的对蜘蛛采集到的网页进行链接模式分析。经过树形的架构之后生成初步的基于链接层级的模式树，并对模式树进行类型的判断。再根据基于正则表达式的替换生成进一步的链接模式。

算法步骤：

1、首先对需要识别的目标网站进行无差别的站内采集。

3、提取出所有页面的链接，并对链接出现次数进行统计。

4、出现次数最多的网页链接初步标注为导航链接。

5、对所有链接进行归类，归类的条件是网页链接的层次。