CN112100500A

CN112100500A - 范例学习驱动的内容关联网站发掘方法

Info

Publication number: CN112100500A
Application number: CN202011004278.8A
Authority: CN
Inventors: 高小翎; 王斌
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2020-12-18

Abstract

本发明针对现有技术不能满足人们对内容关联网站发掘推荐的需求，提出学习范例网站来发掘近似网站并推荐给用户的方法，首先对范例网站进行学习，然后根据网站主题内容发掘与其内容关联的其他网站，并推荐给用户；通过范例网站学习网站主题信息，实现范例网站系统智能发掘与其主题内容关联的新网站并推荐给用户，扩宽用户关注或浏览的信息层面，让用户更方便快捷的获取与浏览信息关联的其他信息，节约信息搜索时间，提高信息搜索效率，对用户获取信息起到良好的促进作用，具有交互性能强、智能化程度高、可扩展性高、推荐速度快、发掘精度高等优势，具有巨大的利用价值和市场运用空间。

Description

范例学习驱动的内容关联网站发掘方法

技术领域

本发明涉及一种内容关联网站发掘方法，特别涉及范例学习驱动的内容关联网站发掘方法，属于内容关联网站推荐技术领域。

背景技术

随着信息技术应用越来越广泛，网络对人类生活产生了巨大的影响，在一定程度上改变了人们的生活方式，人们获取信息的主要来源也发生了变化，当今网络已成为最大的信息资源平台，然而随着信息技术的发展，每天的信息量都是亿级以上的速度增长，从海量信息中获取所需信息也成为了一个难题。当用户在网络上浏览或搜索某类信息时，在浏览当前页面的同时，一般希望系统给出相类似的信息，这样就能让用户更方便的获取有用的信息，提高办事质量和处理效率。因此，系统能智能推荐类似信息也成一种巨大需求，设计一种根据当前信息搜索近似信息，并判断搜索信息是否与当前信息近似的方法是亟解决的问题。

通过学习范例网站并在网络上寻找的关联网站，是网站主题内容与范例网站的主题内容近似，即网页内容围绕的主题或体现的主题近似。主题网站不能有太多的主题，最好只有一个主题，能很清楚的知道主题是什么。为获取网站主题需要对范例网站进行分析，如用关键词概括网站主题，寻找近似网站则需要通过搜索引擎在网络上根据范例网站的主题内容搜索信息，对爬取得到的网站与范例网站进行近似度计算，再根据设定的近似度临界值判断爬取的网站是否为近似网站，最后把近似网站推荐出去。

范例学习的主题网站关联发掘，主要的步骤是提取范例网站的关键词，然后构建范例网站的主题聚类模型，通过主题关键词搜索近似网站，计算搜索得到的网站与范例网站的近似度，根据近似度推荐网站，主要涉及关键词的提取和文本近似度计算。

现有技术的关键词提取已获得了一定的成果，根据语料文本中的最长名词短语的分布特征的统计分析，对汉语的最长名词短语研究，提出了两种最长名词词语识别方法，提出了解决信息爆炸问题而辅助网络智能获取关键词的方法，主要通过对词权重计算排序，再获取关键词，对词权重的计算考虑了词频、词位置等影响因素，从而更加精确的计算关键词的权重，考虑因素虽然比较全，但是影响因素的具体做法还需要改善；还有利用非线性函数结合比较法计算备选关键词的权重，最终改良关键词权值的计算，关键词提取效果良好，但只采用了词频与位置作为影响关键词权重的因素，还需要完善，受到语料库和分词方法的限制，不能对关键词进行整体提取；现有技术有利用条件随机场的模型来提取关键词，提出根据信息特征来筛选关键词，但存在一定的局限性，它只针对单一文档，提取所有文档的效果可能不是很好。本发明则是在改良的TF-IDF方法，综合考虑影响因素，并扩充影响因素的内容。

现有技术的近似度计算从向量空间模型、汉明距离、语义理解及隐含语义等方面进行展开，利用文本的属性来计算文本间的近似度，属性重心模型有效扩充查询式，提高信息检索的效率，但是没有考虑文本语句和篇章结构的语义信息；现有技术也提出利用词语间的最短路径长度、层次语义网络的深度及词语间局部语义密度计算词语间的近似性，该方法比之前提出的方法效果更好，而该近似方法只是应用于词语间的，还需要将其扩展到文本段落中去。

综上，现有技术都还存在一些明显不足，表现在以下方面：

一是当今网络已成为最大的信息资源平台，人们获取信息的主要来源也发生了变化，每天的信息量都是亿级以上的速度增长，从海量信息中获取所需信息成为了一个巨大难题，当用户在网络上浏览或搜索某类信息时，在浏览当前页面的同时，一般希望系统给出相类似的信息，这样就能让用户更方便的获取有用的信息，提高办事质量和处理效率，但现有技术缺少能智能推荐内容关联网站信息的系统和方法，缺少根据当前信息搜索近似信息，判断搜索信息是否与当前信息近似的方法，无法满足关联网站推送这一巨大需求；

二是现有技术缺少综合考虑影响关键词权重的因素的设计，特别对词的出现位置因素，没有按照提取关键词的各种加权法及综合加权公式提取范例网站的关键词，只采用了词频与位置作为影响关键词权重的因素，还需要完善，受到语料库和分词方法的限制，不能对关键词进行整体提取，缺少从众多无序网页中智能、快速、精准的关键词分类与提取方法，搜索信息的时间和精力消耗大，采集信息的效率低，进而导致工作效率低；同时很难让用户快速知晓同类信息的最新动态，无法掌握事物的发展趋势；

三是现有技术无法提出构建网站的主题聚类模型，没有利用网站的关键词权重作为网站的特征向量，没有考虑文本语句和篇章结构的语义信息，只是应用于词语间的，还需要将其扩展到文本段落中去，实用性不好、扩展困难，无法解决网站的主题聚类模型构建问题，不能够满足行业需求；

四是现有技术不能满足人们对内容关联网站发掘的需求，对于复杂且大量的内容关联网站发掘的设计与实现较弱，只适合于小规模内容关联网站推荐，且精度不高、可移植能力较差，一般只运用于特定的领域，同时存在交互性能弱、智能化程度低、可扩展性低、发掘速度慢、推荐精度低等缺陷。

发明内容

本发明提供的范例学习驱动的内容关联网站发掘方法，针对现有技术的网站不能满足人们对内容关联网站发掘的需求，提出学习范例网站来发掘近似网站并推荐给用户的方法，首先对范例网站进行学习，然后根据网站主题内容发掘与其内容关联的其他网站，并推荐给用户；通过范例网站学习网站主题信息，实现范例网站系统智能发掘与其主题内容关联的新网站并推荐给用户，扩宽用户关注或浏览的信息层面，让用户更方便快捷的获取与浏览信息关联的其他信息，节约信息搜索时间，提高信息搜索效率，对用户获取信息起到良好的促进作用，具有交互性能强、智能化程度高、可扩展性高、推荐速度快、语言移植能力好、发掘精度高等优势，具有巨大的利用价值和市场运用空间。

为达到以上技术效果，本发明所采用的技术方案如下：

范例学习驱动的内容关联网站发掘方法，采用范例学习的方法依据当前的网站信息智能发掘与其内容关联的信息，提出学习范例网站发掘内容关联网站并推荐给用户的方法，主要内容包括：

一是基于范例网站的数据，通过改良的关键词提取方法提取范例网站的关键词，关键词综合考虑影响关键词权重的词长、词频、词性和词的出现位置因素，其中词的出现位置分为标题、段落开头、段落中间和段落结尾；

二是提出范例网站主题聚类模型，将范例网站的网页文本、提取得到的范例网站关键词集合以及这些关键词的权重信息构建范例网站主题聚类模型，范例网站主题聚类模型有效表达原网站的信息；

三是采用搜索引擎在网络上搜索同主题关键词的关联网页，对爬取得到的网页结果进行URL分析，构建这些URL的主题关键词权重特征向量，并将这些URL特征向量跟范例网站主题聚类模型的特征向量进行近似度计算，最后将近似度值排在最前面的部分网站推荐给用户；

本发明提出构建范例网站的主题聚类模型，描述范例网站的主题内容信息；首先获取范例网站的所有网页信息，并对这些网页做过滤处理得到纯净的网页文本，然后用改良的TF-IDF方法计算网页文本的关键词权重，综合考虑包括词频统计信息、词出现位置、词性标注和词长影响权重的因素，综合以上影响因素得到范例网站的关键词集合，并用这些关键词生成描述范例网站的主题聚类模型；爬取近似时，用主题关键词的各种组合作为搜索条件，并用正则表达式对爬取的页面进行解析，提取其中的URL，根据URL获取URL对应的域名，并保存到数据库，利用数据库的性质实现URL的去重工作；网站近似度计算提出将网站的主题聚类模型映射到向量空间的方法，以关键词的权重信息构成网站的特征向量，将网站的近似度计算转变成向量的近似度计算；然后设定近似度临界值确定近似的网站。

范例学习驱动的内容关联网站发掘方法，进一步的，处理网页噪声获取纯净的网页文本，剔除网页中的垃圾信息，保留与网页主题内容关联的信息，减小对网页关键词提取的影响；

去除网页中存在的垃圾信息，根据HTML的结构处理，再采用程序方法获取最终的纯净的网页文本；一个HTML文件相当于一棵DOM树，根据DOM的结点剔除垃圾信息，保留网页正文；正文是在BODY标签里面，正文的提取在处理垃圾信息之后进行；剔除垃圾信息利用正则表达式对其过滤，BODY中存在一些广告的链接，依据广告的特征将广告链接剔除，或在提取正文时忽略这些信息；而正文内容中，包含许多的段落标签P、字体属性信息，对这些信息作标注，并生成相应的文本内容；最后根据得到的纯净文本，对其进行关键词提取；

前置处理是去除网页中的无用标签内容，采用正则表达式匹配的方法；首先利用正则表达式匹配无用的标签，然后用空串替换掉匹配到的标签内容；对所有的无用标签匹配过后，剩下的内容则是纯净的网页文本。

范例学习驱动的内容关联网站发掘方法，进一步的，网页关键词加权处理采用ICTCLAS分词系统对纯净的文本网页进行中文分词、位置标注和词性标注，得到初始关键词；ICTCLAS系统包括中文分词、词性标注、未登录词识别；网页关键词提取的具体过程包括以下四个步骤：

步骤1，停用词过滤：停用词不属于主题关键词集合，利用STOP词库直接排除文档中的停用词，生成初始备选关键词集合；

步骤2，位置标注：所有关键词在网页文本中都有其相应出现的位置，比如标题和正文，而正文又分为段落起始位置、段落中间和段落结尾，用位置标注法标注关键词的起始位置和终止位置；

步骤3，词性过滤：根据词性选择中文分词后生成的关键词，保留名词或包含名词的词汇，排除其它词性的词汇，减小寻找关键词的集合；

步骤4，生成备选关键词集合：按顺序完成停用词的过滤、位置信息标注和词性信息的标注，得到正式的初始关键词集合，为计算主题关键词的最终加权处理提供数值基础。

范例学习驱动的内容关联网站发掘方法，进一步的，TF-IDF加权方法中，用C(u_i,j)表示某一指定网页文本h_j中的备选关键词u_i的词频，则有：

其中，

表示关键词u_i在网页文档h_j中出现的次数，分母是所有k个关键词在网页文档h_j中的出现次数之和；

IDF逆文档频率衡量一个关键词的普遍重要性，由包含该关键词的文件数量除以语料库数，再对计算得到的结果取自然对数得到；某个关键词的逆文档频率，由总文件数除以拥有该词语的文件数目，再对得到的值取自然对数得到，根据这一特征，得出关键词u_i的逆文档频率：

其中，|H|为范例网站的网页文本总数，|{j：u_i∈h_j}|为包含关键词u_i的文档数量，即

的文档数量，如果该词语不在网页文本中，则分母等于零，因此采用1+|{j：u_i∈h_j}|；

由式1和式2得到备选关键词u_i的TF-IDF加权式：

式3为指定网页文本h_j中的备选关键词u_i的的TF-IDF值。

范例学习驱动的内容关联网站发掘方法，进一步的，本发明提出位置权重S_pos(u_i，j)，描述出现在网页标题、段落起始、段落中间、段落结尾的关键词u_i的位置权重信息；当备选关键词u_i出现在标题中时，S_pos(u_i，j)的值设定为2.6；当备选关键词u_i出现在段落起始部分或结尾部分时，S_pos(u_i，j)的值设定为1.4；当备选关键词u_i出现在段落中间时，S_pos(u_i，j)的值设置为0；位置加权函数WJ(u_i，j)等于位置权重信息，如下式所示：

WJ(u_i，j)＝S_pos(ui，j) 式4

其中，S_pos(u_i，j)已确定位置的重要性，按照设定值，出现在标题中的关键词权重是普通关键词的2.6倍，出现在段落起始或结尾部分的关键词权重是一般关键词的1.4倍。

范例学习驱动的内容关联网站发掘方法，进一步的，关键词词性加权处理：名词是能概括文章内容的词汇，关键词基本上都是由名词或包含名词的词汇构成，因此如果关键词为名词或包含名词，则要对这种关键词赋予较大的权重系数；如果用S_type(u_i，j)表示网页Q_j关键词u_i的词性类型，当关键词u_i为名词或包含名词时，S_type(u_i)＝1，如果u_i为其他类型时，S_type(u_i)＝0；假定用S_type表示词性的权重系数，那么词性的加权函数R_type(v_i,j)表示为：

R_type(u_i，j)＝S_type(u_i，j)*S_type 式5

其中，S_type的取值情况：关键词u_i是名词，缺省值设置为2；关键词u_i不是名词但包含名词，缺省值设置为1.5；其他情况则为0；名词是一般词汇的2倍，包含名词的关键词为普通词汇的1.5倍。

范例学习驱动的内容关联网站发掘方法，进一步的，关键词词长加权处理：关键词的长度影响这个关键词的重要性，长度较长的关键词短可描述更多的内容，能够更好的概括文档的内容信息，更能够体现出主题；如果用cd(u_i)表示关键词u_i的长度，则对词长归一化处理后有：

由式6可得：CD(u_i，j)∈(0，1]；

关键词综合加权处理：由式3、式4、式5和式6得网页Q_j关键词u_i的最终加权式为：

ZH(v_i,j)＝C·IDF(u_i,j)*(1+WJ(u_i,j)+R_type(u_i,j)+CD(u_i，j)) 式7

ZH(v_i，j)为关键词最终加权值。

范例学习驱动的内容关联网站发掘方法，进一步的，构建主题聚类模型中，第一定义，网站主题聚类模型，为一组网页以及从网站中通过分词方法提取出来的关键词构成的一组集合及其权重集合，用下面的四元组表示：

R＝(Q，Y，S，N) 式8

其中，R表示网站主题聚类模型，Q则为范例网站的网页信息，Q＝{Q₁，…，Q_j}；Y为从网站集合Q提取出来的关键词集合，Y＝{u₁，…，u_N}；S为关键词Y对应的权重信息，S＝{s₁，…，s_N}，N为关键词的数目；

提取范例网站关键词：网页Q_j经过中文分词后生成一个包含y个关键词u_y的集合Y_j，其中Y_j＝{u₁，u₂，…，u_i，…，u_y}，对于范例网站的多个网页，通过关键词综合加权式得到网页Q_j的关键词集合Y_j，以及每个关键词的权重信息S(u_i，j)，按照权重的大小对关键词进行排序，得到关键词备选集合Y_j；然后将j个网页的备选关键词集合Y₁，…，Y_j合并到主题聚类模型的关键词集合Y中，Y＝Y₁∪Y₂∪…∪Y_j；Y中可能存在出现多次的关键词，则对这种出现多次的关键词重新计算其权重，将这些关键词的权重全部加起来作为新权重，并只保留一个关键词，然后再按权重大小进行排序，把前N个关键词作为范例网站的最终主题关键词；

构建范例网站主题聚类模型：根据第一定义的主题聚类模型信息，需要得到三个数值，包括网页文本信息、网页关键词、网页关键词的权重，N是人工设置的一个临界值；网页文本信息通过网页前置处理后就可得到，网页关键词则需要通过中文分词工具提取关键词，经过词频统计、位置信息统计和词性标注操作，再经过加权操作，得到最终想要的网页关键词；网页关键词的权重信息在提取关键词的过程中获得；由主题聚类模型概念得到主题聚类模型构建流程，将上述流程用算法实现：

步骤一，根据范例网站的URL，获取范例网站的网页文件Q_i保存到本地，Q＝{Q₁，…，Q_j}；

步骤二，标签过滤方法对范例网站的网页文件进行网页前置处理，去掉广告、导航栏、图片、flash动画、SCRIPT脚本信息、CSS样式、版权信息和声音信息，清洗之后，生成纯净的网页文本文件，Q′＝{Q′₁，…，Q′_j}；

步骤三，用java程序调用ICTCLAS的接口对所有网页文本文件Q'进行分词，生成初始的关键词集合Y＝{Y₁，…，Y_j}，每个网页对应一个关键词集合；

步骤四，遍历网页文档Q'，对网页文档Q_i'统计其关键词集合Y_i中每个关键词u_n的词频C(u_n,j)，同时计算IDF u_n，位置权重WJ(u_i，j)，词性权重R_type(v_i,j)h和词长权重CD(u_i，j)；计算Y_i中的关键词u_n的权重，得到Y_i对应的权重集合S_j＝{S(u₁，j)，S(u₂，j)，…，S(u_n，j)}；

步骤五，对Y_i中关键词u_n按权重信息进行排序，取得前N个关键词；

步骤六，重复步骤四和步骤五，直到所有网页都遍历完；

步骤七，合并j个网页的关键词，Y＝Y₁∪Y₂∪…∪Y_j，并对重复的关键词权重信息进行累加操作；

当关键词集合Y_w中不包含关键词u_i时，S(v_i,w)＝0；

步骤八，对合并后的关键词集合Y按关键词权重信息进行排序，取得前N个关键词；

步骤九，最后得到的Y就是范例网站的主题关键词集合。

范例学习驱动的内容关联网站发掘方法，进一步的，搜索引擎采集近似网站包括：

一是生成搜索引擎的URL，根据关键词，生成在搜索引擎搜索的URL，包括两个参数，查询关键词p与显示数量num；

二是网页数据抓取，网页的收集过程是一个图结构的遍历，网页文件是图结点，网页中的URL链接则是图的边；网页的采集利用广度优先遍历方法和深度优先遍历方法，Spider收集网页的过程为：由搜索URL通过搜索引擎连接网络搜索数据，把搜索得到的网页数据加入网页库中，然后解析该网页中的其它URL，并存入未访问的URL库中，为下次搜索提供链接地址；将获取到的HTML内容保存到本地，接下来读取抓取到的网页内容，通过一定的方法或关联工具提取里面的URL；

三是解析搜索引擎获取的页面，在搜索引擎中根据关键词搜索的URL搜索，会返回搜索结果页面，其中包含需要寻找的近似网站URL，下一步需要提取搜索结果页面的URL并保存；URL的提取过程分为URL匹配和URL的筛选整理；URL匹配采用正则表达式，利用预先设定好的模式匹配串在网页内容中匹配；URL的筛选理整理是剔除如广告一类的垃圾URL，并整合相对路径的URL；将收集的所有URL经过上述操作后，得到完整的URL，并保存到数据库中；

四是URL去重处理在搜索引擎系统中设置一个URL存储区域，判断URL对应的网页文档是否被下载过，然后设置让信息采集效率更高的方案，使得URL去重的开销最优；当URL加载到内存时，同URL的存储库比对，如果该URL已经存在，则放弃当前URL，重新加载下一个URL；否则将当前URL存放至URL存储库；

五是URL的存储，本发明采用ORACLE10G数据库存储URL数据，对每次解析出来的URL进行判断，是否已经保存在数据库中，如果已经存在，则丢弃，否则将URL插入数据库中。

范例学习驱动的内容关联网站发掘方法，进一步的，计算网站近似度利用向量空间模型的近似度方法，采用两个网站的主题关键词权重作为特征向量，计算这两个向量之间的夹角，夹角越小，则说明这两个网站越近似；其中，一个网站的关键词作为参照，另一个网站用被参照网站的关键词作为自己的关键词计算权重；

本发明采用基于向量空间模型的近似度方法计算爬取的网站是否与范例网站近似，根据已经定义好的范例网站的主题聚类模型R＝(Q，Y，S，N)，且已经获取范例网站的主题聚类模型R的值，采用范例网站主题聚类模型中的关键词权重S＝{s₁，s₂，…，s_i，…，s_N}，并将其作为范例网站主题聚类模型的特征向量；将这些网站放到一个网站集合里面，定义变量URL来存放采集到的网站，则有：

URL＝{url₁，url₂，…，url_i，…url_m} 式9

首先提取每个备选近似网站的关键词，然后根据主题聚类模型关键词Y＝{y₁，y₂，…，y_i，…，y_N}，计算这些关键词分别在近似网站url₁,url₂,…,url_i,…,url_m中的权重；当备选近似网站url_i包含范例网站的主题关键词y_j时，将计算得到的权重赋值给

如果不包含则给

赋值为0；对所有备选近似网站应用上述方法，得到每个备选近似网站包含范例网站主题关键词的权重集合：

其中，

即

为主题聚类模型的关键词在近似网站url_i中的权重集合；将

作为对应近似网站url_i的特征向量；由近似度计算式，近似余弦的性质，得到主题网站跟所有备选近似网站的余弦值，有：

实现网站近似度的计算。

与现有技术相比，本发明的贡献和创新点在于：

第一，本发明提供的范例学习驱动的内容关联网站发掘方法，收集范例网站的网页，根据范例网站的URL，对范例网站的主页进行URL解析，获取所有的URL及其对应的网页；对所有网页内容过滤垃圾信息，获取纯净的网页文本；学习范例网站的主题内容，对所有网页文本进行关键词提取处理，采用改良的TF-IDF方法，按照提取关键词的各种加权方法以及综合加权公式提取范例网站的关键词，并由提取出的关键词集合构建范例网站的主题描述模型；基于范例网站的主题关键词，通过搜索引擎按主题关键词的各种组合搜索近似网站；对搜索结果进行URL解析，获取URL对应的域名以及网页文本信息；对收集到的网站分别计算主题关键词在近似网站中的权重，将权重作为网站的特征向量，再利用基于向量的近似度方法计算各个近似网站与范例网站的近似度；设定近似度临界值，筛选近似网站，并推荐给用户。本发明效益巨大，运用空间广阔：减少搜索信息的时间和精力，提升采集信息的效率，进而提升工作效率；同时可以让用户快速知晓同类信息的最新动态，掌握事物的发展趋势，提高工作质量和效率。

第二，本发明提供的范例学习驱动的内容关联网站发掘方法，改良了TF-IDF方法，综合考虑影响关键词权重的因素，特别对词的出现位置因素，进行了扩充：位置根据中文书写规范，重要词语或是概括性的词语一般出现在标题、段落开头和段落结尾，本发明对这种现象的词语作了特别的权重处理，按照提取关键词的各种加权法及综合加权公式提取范例网站的关键词，并由提取出的关键词集合构建范例网站的主题描述模型，设计并实现了从众多无序网页中智能、快速、精准的关键词分类与提取方法，大幅提高关联网站发掘性能；

第三，本发明提供的范例学习驱动的内容关联网站发掘方法，提出构建网站的主题聚类模型，利用网站的关键词权重作为网站的特征向量，基于范例学习的内容关联网站发掘与推荐为网站近似度的计算提供数值基础，实用高效、易于扩展、精准快速，解决了网站的主题聚类模型构建问题，是一种具备显著创新性，且优势突出的内容关联网站发掘方法；

第四，本发明提供的范例学习驱动的内容关联网站发掘方法，针对现有技术的网站不能满足人们对内容关联网站发掘的需求，提出学习范例网站来发掘近似网站并推荐给用户的方法，首先对范例网站进行学习，然后根据网站主题内容发掘与其内容关联的其他网站，并推荐给用户；通过范例网站学习网站主题信息，实现范例网站系统智能发掘与其主题内容关联的新网站并推荐给用户，扩宽用户关注或浏览的信息层面，让用户更方便快捷的获取与浏览信息关联的其他信息，节约信息搜索时间，提高信息搜索效率，对用户获取信息起到良好的促进作用，具有交互性能强、智能化程度高、可扩展性高、推荐速度快、语言移植能力好、发掘精度高等优势，具有巨大的利用价值和市场运用空间。

附图说明

图1是本发明WEB网页的DOM结构示意图。

图2是本发明关键词提取流程示意图。

图3是本发明主题模型构建流程示意图。

图4是本发明网页搜索与近似网站发掘过程示意图。

图5是本发明Spider抓取网页流程示意图。

具体实施方式

下面结合附图，对本发明提供的范例学习驱动的内容关联网站发掘方法的技术方案进行进一步的描述，使本领域的技术人员可以更好的理解本发明并能予以实施。

随着网络与信息技术的发展，人类获取信息也变得越来越便利，人们获取信息的要求越来越高，他们在浏览某类网络信息时，希望也能获取内容关联的同类信息，提高信息收集和工作效率，这就要求网站能够智能发掘与当前网站内容关联的其他网站并推荐给用户。然而现有技术的网站却不能充分满足人们的这种信息需求，本发明采用范例学习的方法依据当前的网站信息智能发掘与其内容关联的信息，提出学习范例网站发掘内容关联网站并推荐给用户的方法，主要内容包括：

三是采用搜索引擎在网络上搜索同主题关键词的关联网页，对爬取得到的网页结果进行URL分析，构建这些URL的主题关键词权重特征向量，并将这些URL特征向量跟范例网站主题聚类模型的特征向量进行近似度计算，最后将近似度值排在最前面的部分网站推荐给用户。实验结果表明，本发明设计的范例网站主题聚类模型与近似网站计算的方法可行有效，范例学习驱动的内容关联网站发掘方法精准高效。

一、构建网站主题聚类模型

主题聚类模型帮助程序分析事例，根据主题的构成因素将转化问题，转化为向量的形式或函数的形式；本发明采用向量形式构建网站主题聚类模型，主要从样本网站学习，分析范例网站，提取其关键词，汇集成关键词集合，构建范例网站主题聚类模型，然后从互联网上探寻发掘相类似的网站，并将这些网站推荐给用户。

主题聚类模型用提取的关键词汇集成的集合表示，便于后续对近似网站进行判断，网站的内容对人来说很容易看懂，但计算机却无法像人脑一样能够智能判断，为使计算机能够识别读懂，必须先定义一个使其能够识别的内容，本发明中为主题聚类模型；选择关键词集合的主题聚类模型，是因为它正好描述了范例网站的内容，而且计算机容易识别关键词集合的主题聚类模型。

构建网站的主题聚类模型，最核心的步骤是提取范例网站的关键词；一个网站通常有如果干个网页，每个网页都是由HTML格式标记的文件，网页不仅包含大量的文本和多媒体信息，也包含大量结构化的信息；如果对结构复杂的网页采用现有技术的关键词提取方法，结果肯定不理想，TF-IDF方法存在一定的局限性，其考虑影响权重的因素不全面，故本发明采用改良的TF-IDF方法提取关键词。

(一)解析范例网站

网页是构成网站的基本元素，一个范例网站有很多网页，因此范例网站解析过程中需要对所有网页进行处理，网页是由HTML语言编写的文件，其文件格式一般为.htm和.html，HTML文件由一系列的标签和文字构成，标签的使用控制网页展示的内容，而内容的展示通过和浏览器的配合完成，如IMG标签控制图片的显示，TABLE标签制作表格；HTML语言利用这些命令描述或定义一个HTML文件。

HTML标签结构视为是一个DOM树的结点，如图1所示，一个HTML由HEAD和BODY构成，HEAD是文档的头部，描述文档的标题和各种属性信息，如meta中的name属性和http-equiv属性，标准的HEAD内容有CSS样式链接、SCRIPT脚本链接、路径信息、CSS样式信息和SCRIPT脚本信息；BODY包含正文信息，有各种标签和文字组成的序列，如TABE、DIV、P标签；因此，本发明着重处理的部分是BODY内容，HTML的标签一般成对出现，如一个DIV块，其标签格式为“<DIV>…</DIV>”，即一个标签的正规写法有开始标签符和结束标签符，但在实际的页面中，可能会有标签缺省或标签对不匹配的情况，故在提取网页文本时本发明考虑这种情况，另外，很多标签里面的内容不跟网页内容关联，如文档的属性信息、样式标签里的内容、脚本里的内容。

除标签不匹配的问题，BODY里面可能还包含垃圾信息，如广告、钓鱼链接等，处理网页文本时，需要对这种特殊的信息进行处理。

(二)处理网页噪声

从范例网站解析中可得，获取的范例网页包含许多垃圾信息，这些信息影响关键词提取，故在关键词提取前，必须规范网页内容，清理其中的垃圾信息，获取纯净的网页文本，才能开始关键词的提取；网页处理就是为了获取纯净的网页文本，剔除网页中的垃圾信息，保留与网页主题内容关联的信息，减小对网页关键词提取的影响。

HTML文件由一系列的标签和文本构成，标准的HTML文件视为是一棵完整的DOM树，但在程序开发过程中，可能因为疏忽使得HTML文件的标签未配对，而浏览器的容错效果并未将这种现象呈现出来。这些信息对提取正文影响不大，可通过替换的形式直接把这种标签替换掉，真正影响提取效果的是网页中的垃圾信息，比如CSS样式、SCRIPT脚本、跟网页内容无关的图片或者图标、INPUT输入信息和表单。

去除网页中存在的垃圾信息，根据HTML的结构处理，再采用程序方法获取最终的纯净的网页文本；一个HTML文件相当于一棵DOM树，根据DOM的结点剔除垃圾信息，保留网页正文；正文是在BODY标签里面，正文的提取在处理垃圾信息之后进行；剔除垃圾信息利用正则表达式对其过滤，BODY中存在一些广告的链接，依据广告的特征将广告链接剔除，或在提取正文时忽略这些信息；而正文内容中，包含许多的段落标签P、字体属性信息，对这些信息作标注，并生成相应的文本内容；最后根据得到的纯净文本，对其进行关键词提取。

为获取纯净的网页文本信息，提取正确的网页内容，前置处理是去除网页中的无用标签内容，采用正则表达式匹配的方法；首先利用正则表达式匹配无用的标签，例如匹配style、script，然后用空串替换掉匹配到的标签内容；对所有的无用标签匹配过后，剩下的内容则是纯净的网页文本。

(三)网页关键词加权处理

范例网站网页经过网页前置处理后，形成相对纯净的文本，本发明采用ICTCLAS分词系统对纯净的文本网页进行中文分词、位置标注和词性标注，得到初始关键词；ICTCLAS系统包括中文分词、词性标注、未登录词识别；网页关键词提取的具体过程包括以下四个步骤：

1、TF-IDF加权方法

本发明用C(u_i,j)表示某一指定网页文本h_j中的备选关键词u_i的词频，则有：

其中，

由式1和式2得到备选关键词u_i的TF-IDF加权式：

式3为指定网页文本h_j中的备选关键词u_i的的TF-IDF值。

2、关键词出现位置加权处理

位置是影响关键词权重的重要因素，标题是一篇文章的概括性词语，容易体现文章的主题，故出现在标题中的关键词比出现在网页文本段落中的关键词更重要，而出现在段落起始位置或结尾部分的关键词也比出现在段落中间的关键词更重要；因此，本发明提出位置权重S_pos(u_i，j)，描述出现在网页标题、段落起始、段落中间、段落结尾的关键词u_i的位置权重信息；当备选关键词u_i出现在标题中时，S_pos(u_i，j)的值设定为2.6；当备选关键词u_i出现在段落起始部分或结尾部分时，S_pos(u_i，j)的值设定为1.4；当备选关键词u_i出现在段落中间时，S_pos(u_i，j)的值设置为0；位置加权函数WJ(u_i，j)等于位置权重信息，如下式所示：

WJ(u_i，j)＝S_pos(u_i，j) 式4

3、关键词词性加权处理

名词是能概括文章内容的词汇，关键词基本上都是由名词或包含名词的词汇构成，因此如果关键词为名词或包含名词，则要对这种关键词赋予较大的权重系数。如果用S_type(u_i，j)表示网页Q_j关键词u_i的词性类型，当关键词u_i为名词或包含名词时，S_type(u_i)＝1，如果u_i为其他类型时，S_type(u_i)＝0；假定用S_type表示词性的权重系数，那么词性的加权函数R_type(v_i,j)表示为：

R_type(u_i，j)＝S_type(u_i，j)*S_type 式5

其中，S_type的取值情况：关键词u_i是名词，缺省值设置为2；关键词u_i不是名词但包含名词，缺省值设置为1.5；其他情况则为0。名词是一般词汇的2倍，包含名词的关键词为普通词汇的1.5倍。

4、关键词词长加权处理

关键词的长度影响这个关键词的重要性，长度较长的关键词短可描述更多的内容，能够更好的概括文档的内容信息，更能够体现出主题；如果用cd(u_i)表示关键词u_i的长度，则对词长归一化处理后有：

由式6可得：CD(u_i，j)∈(0，1]。

5、关键词综合加权处理

由式3、式4、式5和式6得网页Q_j关键词u_i的最终加权式为：

ZH(v_i，j)＝C·　IDF(u_i,j)*(1+WJ(u_i，j)+R_type(u_i，j)+CD(u_i，j)) 式7

ZH(v_i，j)为关键词最终加权值。

(四)构建主题聚类模型

为更形象的描述范例网站的主题关键词集合，定义如下：第一定义，网站主题聚类模型，为一组网页以及从网站中通过分词方法提取出来的关键词构成的一组集合及其权重集合，用下面的四元组表示：

R＝(Q，Y，S，N) 式8

其中，R表示网站主题聚类模型，Q则为范例网站的网页信息，Q＝{Q₁，…，Q_j}；Y为从网站集合Q提取出来的关键词集合，Y＝{u₁，…，u_N}；S为关键词Y对应的权重信息，S＝{s₁，…，s_N}，N为关键词的数目。

1、提取范例网站关键词

网页Q_j经过中文分词后生成一个包含y个关键词u_y的集合Y_j，其中Y_j＝{u₁，u₂，…，u_i，…，u_y}，对于范例网站的多个网页，通过关键词综合加权式得到网页Q_j的关键词集合Y_j，以及每个关键词的权重信息S(u_i，j)，按照权重的大小对关键词进行排序，得到关键词备选集合Y_j；然后将j个网页的备选关键词集合Y₁，…，Y_j合并到主题聚类模型的关键词集合Y中，Y＝Y₁∪Y₂∪…∪Y_j；Y中可能存在出现多次的关键词，则对这种出现多次的关键词重新计算其权重，将这些关键词的权重全部加起来作为新权重，并只保留一个关键词，然后再按权重大小进行排序，把前N个关键词作为范例网站的最终主题关键词。例如，关键词u_i在多个网页文本中都有出现，对这种关键词的权重进行累加操作。关键词提取的整个流程如图2所示。

2、构建范例网站主题聚类模型

根据第一定义的主题聚类模型信息，需要得到三个数值，包括网页文本信息、网页关键词、网页关键词的权重，N是人工设置的一个临界值；网页文本信息通过网页前置处理后就可得到，网页关键词则需要通过中文分词工具提取关键词，经过词频统计、位置信息统计和词性标注操作，再经过加权操作，得到最终想要的网页关键词；网页关键词的权重信息在提取关键词的过程中获得；由主题聚类模型概念得到主题聚类模型构建流程，如图3所示，将上述流程用算法实现：

步骤二，标签过滤方法对范例网站的网页文件进行网页前置处理，去掉广告、导航栏、图片、flash动画、SCRIPT脚本信息、CSS样式、版权信息和声音信息，清洗之后，生成纯净的网页文本文件，Q＝{Q₁，…，Q_j}；

步骤六，重复步骤四和步骤五，直到所有网页都遍历完；

当关键词集合Y_w中不包含关键词u_i时，S(v_i,w)＝0；

步骤九，最后得到的Y就是范例网站的主题关键词集合。

二、内容关联网站的发掘推荐

为发掘与范例网站主题近似的其他网站，通过搜索引擎去互联网上采集，然而在网络上查找，效果肯定不理想，因为这样查询出来的结果数量非常庞大，并非所有网站都是寻找的近似网站，其中有一部分网页与搜寻的主题内容关联，这些结果可能只涵盖范例网站的部分关键词，而并不与内容关联，因此从这些查找出来的网页中判断与范例网站近似的网站还需要进一步处理，从中筛选出与主题内容近似的网站。以下主要是从搜索结果发掘近似网站并推荐给用户。

根据构建的范例网站主题聚类模型，利用网站主题关键词集合，采用搜索引擎在网络上查询近似网站，并对搜索结果进行解析，提取出搜索结果中的URL及其对应的网页文件，与范例网站作网站近似度计算，从而发掘内容关联网站，然后推荐给用户。图4给出了网页搜索与近似网站发掘的过程：

(一)搜索引擎的工作模式

搜索引擎是按照某种方法、采用特殊的计算机程序从互联网上采集信息，整理采集的信息后，为用户提供查询服务，并把用户查找的信息呈现给用户。本发明的搜索引擎由查找程序、索引程序、检索程序、用户接口四个部分构成，搜索器在互联网中漫游，发觉和采集信息；索引器识别搜索器需要查找的信息，从中筛选出索引项，表示文件及生成文件库的索引表；检索器根据用户的搜索信息在索引库中迅速查找出文件，并评估找出文件与搜索信息之间的关联度，然后对需要导出的结果按关联度排序，并提供用户关联性反馈机制；用户接口是输入搜索信息、展示搜索结果、提供用户关联性反馈机制服务。搜索引擎提供信息检索服务，把网络上的信息进行归类以帮助用户在海量的数据信息中查询到需要的信息，它的工作原理可以分成三个核心部分：

一是从网络中搜索网页，利用爬虫程序在网络中爬取信息，并智能采集和访问网页，然后顺着网页中的所有URL链接转到其它URL对应的网页再次进行爬取，爬虫程序一直重复这个步骤，直到把访问过的所有网页保存到本地服务器；

二是构建网页索引库，利用搜索引擎的分析索引程序分析采集的页面，并提取关联页面信息，依照特定的关联度计算方法作各种计算，然后得到每一个页面对于页面文字中和URL中的所有关键词的关联度或重要度，然后把这些关联信息组织起来并构建网页索引数据库；

三是在索引库中查找并排序，在用户输入检索信息后，搜索引擎的查询程序从网页索引库中查找跟查询信息内容近似的所有网页，根据关联网页得到查询信息的关联度，依照已经算好的关联度数值的大小对关联网页进行排序，关联度越高的网页排列越前，最后通过页面生成系统把查询结果的URL和网页内容、文章摘要信息整理成一定的格式然后返回给用户。

(二)搜索引擎采集近似网站

从网络上采集网页信息，最关键的是生成搜索的URL，这个URL需加入已提取好的范例网站的主题关键词，这些关键词形成多种排列组合并作为搜索条件，通过搜索引擎抓取网页数据。

通过程序生成搜索的URL，由于搜索引擎的搜索URL中的参数不能为中文，故需要对关键词进行处理，将中文关键词转换成十六进制的数据然后再生成URL，通过搜索引擎在网络上爬取网页，然后对爬取的页面进行解析获取近似网站的URL，并保存起来。

1、生成搜索引擎的URL

根据关键词，生成在搜索引擎搜索的URL，包括两个参数，查询关键词p与显示数量num；

2、网页数据抓取

网页的收集过程是一个图结构的遍历，网页文件是图结点，网页中的URL链接则是图的边；网页的采集利用广度优先遍历方法和深度优先遍历方法，Spider收集网页的过程为：由搜索URL通过搜索引擎连接网络搜索数据，把搜索得到的网页数据加入网页库中，然后解析该网页中的其它URL，并存入未访问的URL库中，为下次搜索提供链接地址。图5为Spider抓取网页流程。

将获取到的HTML内容保存到本地，接下来读取抓取到的网页内容，通过一定的方法或关联工具提取里面的URL。

3、解析搜索引擎获取的页面

在搜索引擎中根据关键词搜索的URL搜索，会返回搜索结果页面，其中包含需要寻找的近似网站URL，下一步需要提取搜索结果页面的URL并保存；URL的提取过程分为URL匹配和URL的筛选整理；URL匹配采用正则表达式，利用预先设定好的模式匹配串在网页内容中匹配；URL的筛选理整理是剔除如广告一类的垃圾URL，并整合相对路径的URL。

按照正则表达式<[a|A]\\s+href＝([^>]*\\s*>)匹配出URL所在的位置，在匹配和切割之后，获得整个a标签的数据，然后对a标签的数据根据字符串href＝"及空格进行截取，再把截取的数据去掉最后一个引号，得到真正的URL；对所有的a标签作如上操作，得到该网页的所有URL数据；但在获得的URL集合中，可能存在形如“../../XX.html”的相对地址链接，也可能存在垃圾的链接，还需要对收集的URL进一步处理，对于相对地址链接，根据当前页面的URL及URL层级组合完整的URL，如当前网页URL为http://www.abc.com/a/b/index.html，而收集的URL集合中有“../c/mypage.html”，根据相对URL的层级结构，最终组合成完整的URL：http://www.abc.com/a/c/mypage.html；而对于垃圾链接，通过特殊的字符串匹配清理链接，比如广告的链接，根据字符串“ad”来匹配从而过滤广告链接。

将收集的所有URL经过上述操作后，得到完整的URL，并保存到数据库中。

4、URL去重处理

网页抓取过程中，如果相同的网页被重复下载，就需要CPU工作更长的时间，浪费CPU资源，同时也会增加搜索引擎的负担。若要解决相同网页多次下载问题，则需要考虑下载的URL，让等待下载的URL不会发生重复现象，那么同一个网页也不会出现多次下载的现象。

在搜索引擎系统中设置一个URL存储区域，判断URL对应的网页文档是否被下载过，然后设置让信息采集效率更高的方案，使得URL去重的开销最优；当URL加载到内存时，同URL的存储库比对，如果该URL已经存在，则放弃当前URL，重新加载下一个URL；否则将当前URL存放至URL存储库。

方法1，基于MD5压缩映射的存储，MD5方法是不可逆的安全加密方法，利用Hash函数的散列特性，将任意长度的字符串进行压缩，生成128位的大整数，并将其作为映射的物理地址；根据Hash函数的散列特性与碰撞检测特性，MD5可以很好的对URL作去重处理。

方法2，基于嵌入式Berkeley DB的存储，Berkeley DB存储的数据只能是键值类型的数据，如果将URL的值作为key，并将其保存的状态作为其值，比如1表示已存在，0表示未存储，根据key知晓该URL是否已经存储过，从而达到去重的效果；由于是利用数据库存储URL，为节省空间，利用压缩URL作为key，用布尔变量表示其存在的状态。

方法3，基于布隆过滤器的存储，利用比特位的性质，将字符串应用多个Hash函数而映射到一个二进制数据上，根据二进制的值立即判断当前客串是否已经映射过，从而达到去重的效果。

5、URL的存储

本发明采用ORACLE10G数据库存储URL数据，对每次解析出来的URL进行判断，是否已经保存在数据库中，如果已经存在，则丢弃，否则将URL插入数据库中：设计保存爬取的URL结果表CRAWLER_WEBSITE，在数据库建立表CRAWLER_WEBSITE的SQL语句：

CREATE TABLE CRAWLER_WEBSITE(

SITE_UUID VARCHAR2(40) PRIMARY KEY,

SITE_URL VARCHAR2(200),

SITE_TITLE VARCHAR2(400),

SITE_SIMILARITY NUMBER(8,5),

IS_SIMILAR NUMBER(1))

将URL数据插入数据库的SQL操作：

INSERT INTO CRAWLER_WEBSITE(SITE_UUID,SITE_URL,SITE_TITLE,SITE_SIMILARITY,IS_SIMILAR)VALUES(？,？,？,？,？)。

(三)计算网站近似度

本发明的近似网站是两个网站之间包含的主题内容近似，两个网站之间的主题关键词集合也近似；网站近似度是两个网站的内容近似，利用向量空间模型的近似度方法，采用两个网站的主题关键词权重作为特征向量，计算这两个向量之间的夹角，夹角越小，则说明这两个网站越近似；其中，一个网站的关键词作为参照，另一个网站用被参照网站的关键词作为自己的关键词计算权重。

本发明采用基于向量空间模型的近似度方法计算爬取的网站是否与范例网站近似，根据已经定义好的范例网站的主题聚类模型R＝Q，Y，S，N)，且已经获取范例网站的主题聚类模型R的值，采用范例网站主题聚类模型中的关键词权重S＝{s₁，s₂，…，s_i，…，s_N}，并将其作为范例网站主题聚类模型的特征向量；由于采集到的网站不止一个，因此将这些网站放到一个网站集合里面，定义变量URL来存放采集到的网站，则有：

URL＝{url₁，url₂，…，url_i，…url_m} 式9

如果不包含则给

其中，

即

为主题聚类模型的关键词在近似网站url_i中的权重集合；将

流程实现的伪代码为：

BEGIN

FOR属于URL的每一个url_i

初始化url_i的主题关键词权重集合

每个值初始化为0

FOR范例网站主题关键词集合Y中的每一个关键词u_j

IF备选近似网站url_i包含u_j THEN

计算u_j在url_i中的权重，并将得到的权值赋给

集合中的

END IF

END FOR

计算url_i与主题网站的近似度

将范例网站与近似网站url_i的近似度h值保存起来

END FOR

END

实现网站近似度的计算。

(四)设置网站近似临界值

众多近似网站与主题网站运用近似余弦的性质，会得到一系列数量巨大的值，需要取舍近似网站，只知道余弦值大的更近似，值小的更不近似。因此，必须确定一个临界值H，筛选这些网站。

当

时，认为网站url_n与主题近似，并将近似度的值写入数据库，对应字段为SITE_SIMILARITY，IS_SIMILAR置为1；

当

时，认为网站urln与主题不近似，并将近似度的值写入数据库，对应字段为SITE_SIMILARITY，IS_SIMILAR置为0。

得到更新数据库字段的SQL语句：

UPDATE CRAWLER_WEBSITE SET IS_SIMILAR＝？,SITE_SIMILARITY＝？WHERESITE_UUID＝？

(五)推荐近似网站

近似网站已经完成的处理包括：近似网站写入数据库、近似网站与范例网站的近似度分析，通过SQL语句直接从数据库读取近似网站，查询SQL语句为：

SELECT SITE_URL,SITE_TITLE FROM CRAWLER_WEBSITE WHEREIS_SIMILAR＝1

如果就这样取数据，取出来的URL偏多，但用户又不希望看到太多的URL，故只取最近似的前5个URL，然后推荐到用户页面，查询SQL语句为：

SELECTSITE_URL,SITE_TITLEFROM(SELECT*FROM CRAWLER_WEBSITE WHERE IS_SIMILAR＝1ORDER BY SITE_SIMILARITYDESC)WHEREROWNUM<＝5

实现对最近似的前5个URL的推荐。

本发明提出了一个学习范例网站并发掘与其内容关联网站的系统设计，根据范例网站的信息，实现网站智能发掘与其内容关联的其他网站并推荐给用户，提高用户搜集信息的效率，扩展用户获取信息的层面。

本发明提出构建范例网站的主题聚类模型，描述范例网站的主题内容信息；首先获取范例网站的所有网页信息，并对这些网页做过滤处理得到纯净的网页文本，然后用改良的TF-IDF方法计算网页文本的关键词权重，综合考虑包括词频统计信息、词出现位置、词性标注和词长影响权重的因素，并对词出现位置划分为标题、段落中间、段落开头与段落结尾，综合以上影响因素得到范例网站的关键词集合，并用这些关键词生成描述范例网站的主题聚类模型。爬取近似时，用主题关键词的各种组合作为搜索条件，并用正则表达式对爬取的页面进行解析，提取其中的URL，根据URL获取URL对应的域名，并保存到数据库，利用数据库的性质实现URL的去重工作。本发明的网站近似度计算提出将网站的主题聚类模型映射到向量空间的方法，以关键词的权重信息构成网站的特征向量，将网站的近似度计算转变成向量的近似度计算；然后设定近似度临界值确定近似的网站。

Claims

1.范例学习驱动的内容关联网站发掘方法，其特征在于，采用范例学习的方法依据当前的网站信息智能发掘与其内容关联的信息，提出学习范例网站发掘内容关联网站并推荐给用户的方法，主要内容包括：

2.根据权利要求1所述的范例学习驱动的内容关联网站发掘方法，其特征在于，处理网页噪声获取纯净的网页文本，剔除网页中的垃圾信息，保留与网页主题内容关联的信息，减小对网页关键词提取的影响；

3.根据权利要求1所述的范例学习驱动的内容关联网站发掘方法，其特征在于，网页关键词加权处理采用ICTCLAS分词系统对纯净的文本网页进行中文分词、位置标注和词性标注，得到初始关键词；ICTCLAS系统包括中文分词、词性标注、未登录词识别；网页关键词提取的具体过程包括以下四个步骤：

4.根据权利要求1所述的范例学习驱动的内容关联网站发掘方法，其特征在于，TF-IDF加权方法中，用C(u_i,j)表示某一指定网页文本h_j中的备选关键词u_i的词频，则有：

其中，

由式1和式2得到备选关键词u_i的TF-IDF加权式：

式3为指定网页文本h_j中的备选关键词u_i的的TF-IDF值。

5.根据权利要求4所述的范例学习驱动的内容关联网站发掘方法，其特征在于，本发明提出位置权重S_pos(u_i，j)，描述出现在网页标题、段落起始、段落中间、段落结尾的关键词u_i的位置权重信息；当备选关键词u_i出现在标题中时，S_pos(u_i，j)的值设定为2.6；当备选关键词u_i出现在段落起始部分或结尾部分时，S_pos(u_i，j)的值设定为1.4；当备选关键词u_i出现在段落中间时，S_pos(u_i，j)的值设置为0；位置加权函数WJ(u_i，j)等于位置权重信息，如下式所示：

WJ(u_i，j)＝S_pos(u_i，j) 式4

6.根据权利要求5所述的范例学习驱动的内容关联网站发掘方法，其特征在于，关键词词性加权处理：名词是能概括文章内容的词汇，关键词基本上都是由名词或包含名词的词汇构成，因此如果关键词为名词或包含名词，则要对这种关键词赋予较大的权重系数；如果用S_type(u_i，j)表示网页Q_j关键词u_i的词性类型，当关键词u_i为名词或包含名词时，S_type(u_i)＝1，如果u_i为其他类型时，S_type(u_i)＝0；假定用S_type表示词性的权重系数，那么词性的加权函数R_type(v_i,j)表示为：

R_type(u_i，j)＝S_type(u_i，j)*S_type 式5

7.根据权利要求6所述的范例学习驱动的内容关联网站发掘方法，其特征在于，关键词词长加权处理：关键词的长度影响这个关键词的重要性，长度较长的关键词短可描述更多的内容，能够更好的概括文档的内容信息，更能够体现出主题；如果用cd(u_i)表示关键词u_i的长度，则对词长归一化处理后有：

由式6可得：CD(u_i，j)∈(0，1]；

ZH(v_i，j)＝C·IDF(u_i，j)*(1+WJ(u_i，j)+R_type(u_i，j)+CD(u_i，j)) 式7

ZH(v_i，j)为关键词最终加权值。

8.根据权利要求1所述的范例学习驱动的内容关联网站发掘方法，其特征在于，构建主题聚类模型中，第一定义，网站主题聚类模型，为一组网页以及从网站中通过分词方法提取出来的关键词构成的一组集合及其权重集合，用下面的四元组表示：

R＝(Q，Y，S，N) 式8

步骤六，重复步骤四和步骤五，直到所有网页都遍历完；

当关键词集合Y_w中不包含关键词u_i时，S(v_i,w)＝0；

步骤九，最后得到的Y就是范例网站的主题关键词集合。

9.根据权利要求1所述的范例学习驱动的内容关联网站发掘方法，其特征在于，搜索引擎采集近似网站包括：

10.根据权利要求8所述的范例学习驱动的内容关联网站发掘方法，其特征在于，计算网站近似度利用向量空间模型的近似度方法，采用两个网站的主题关键词权重作为特征向量，计算这两个向量之间的夹角，夹角越小，则说明这两个网站越近似；其中，一个网站的关键词作为参照，另一个网站用被参照网站的关键词作为自己的关键词计算权重；

URL＝{url₁，url₂，…，url_i，…url_m} 式9

如果不包含则给

其中，

即

为主题聚类模型的关键词在近似网站url_i中的权重集合；将

实现网站近似度的计算。