CN103646106B

CN103646106B - 一种基于内容相似性的Web主题排序方法

Info

Publication number: CN103646106B
Application number: CN201310719507.8A
Authority: CN
Inventors: 袁东风; 段秋丹; 朱丽娜
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2013-12-23
Filing date: 2013-12-23
Publication date: 2016-05-25
Anticipated expiration: 2033-12-23
Also published as: CN103646106A

Abstract

一种基于内容相似性的Web主题排序方法，属于网络信息处理技术领域。通过网页分析检测筛选出包含相关Web主题的网页，并进行一次排序；对包含该主题的网页内容进行相似性分析，并按照各内容的相似性进行相关排序，完成二次排序。本发明方法可以为用户提供更加清晰明了的层次性的检索结果，同时，能满足用户对该主题某一确定方面内容的需求。由此可见，基于内容相似性的Web主题排序的方法可以为用户提供更优质高效的检索需求。

Description

一种基于内容相似性的Web主题排序方法

技术领域

本发明涉及一种基于内容相似性的Web主题排序方法，属于网络信息处理技术领域。

背景技术

随着因特网的发展，其上的信息呈爆炸式的增长，包括各种各样的新闻，报告，论坛消息等。为了帮助用户检索出其所关心的主题内容就需要对所有网页信息进行相关分析及排序，以供用户查询。

目前，排序方法有很多种，而且针对某一特定需求可能包括多种优化的排序方法。用户在查询某一相关Web主题时，可能会重点关心该主题内容中的某一方面，而现有的排序方法在检索时会把所有与该主题相关的各个方面都按照关键字匹配的程度进行排序，而不会针对某特定需求筛选出该主题的某一方面内容并对其进行排序。

为了获取更好的排序效果，武汉大学申请了一种专利号为201110194133.3，发明名称为“基于Web时间不一致的过时网页自动发现与排序方法”的专利，采用该发明能对同类网站基于时间不一致度量进行排序，如政府或大学网站在信息新鲜度方面的质量进行排序，同时该发明为搜索引擎提供时间敏感信息排序方法，使得用户能够更便利的搜索最新的信息，能提高网站的内容的及时性。通过对比可以发现，上述专利所针对的是网站信息的实时性，而没有注意到网页内容之间的相似度。

发明内容

针对背景技术中涉及到的问题，本发明提供了一种基于内容相似性的Web主题排序方法。

本发明的技术方案如下：

一种基于内容相似性的Web主题排序方法，适用于用户在利用搜索引擎查询Web信息时为用户提供搜索内容相似的查询结果，结合关键字匹配方法和相似性比较方法对查询到的内容进行排序，该方法具体步骤如下：

1)确定所要筛选的Web主题

对所要查询的Web主题进行关键字检测，确定该主题及主题向量模型q(k),其中k代表关键字；

2)模糊关键字匹配检测(一次排序)

2-1对不同网页内容进行敏感性分析，包括网页内容的链接特性，新鲜度及是否过期的检测，将符合条件的网页依据其内容提取其中的关键字形成该网页的向量模型a_j(k)，j表示第j个网页内容；

2-2将主题向量模型q(k)与所要排序的网页向量模型a_j(k)进行模糊关键字匹配检测，并估算出其相应的匹配度U_j；

2-3设置匹配度阈值U，匹配度U_j大于阈值U的网页即视为该主题的相关网页，并将其筛选出来；

2-4利用优化的网页排序算法即PageRank算法将筛选出来的网页进行一次排序；

3)各网页内容相似度检测(二次排序)

3-1将步骤2)中筛选得到的各网页按匹配度U_j由大到小划分为若干个区间T_m，其中m为区间的个数，可按需求自由设定，如1>U_j>0.8为区间T₁，0.8>U_j>0.6为区间T₂，0.6>U_j>0.5为区间T₃，0.5>U_j>U为区间T₄，其中阈值U<0.5；

3-2对步骤3-1设定的第n个区间T_n中的网页内容进行相似度检测，其中n≤m，采用Cosine相似度来计算：

c o s (x, y) = \frac{x \cdot y}{| | x | | \cdot | | y | |} = \frac{{Σx}_{i} y_{i}}{\sqrt{{Σx}_{i}^{2}} \sqrt{{Σy}_{i}^{2}}}

其中x，y分别代表同一区间T_n中两个不同源的网页内容的向量模型，||x||、||y||分别表示其对应网页的向量模长，运算符号||||表示取模长，x、y向量模型通过TF-IDF算法计算得出；x_i、y_i分别表示向量模型x，y中第i个元素；两个向量之间的余弦值越大，说明两个向量之间的夹角越小，即两个向量相似度越高；

3-3步骤3-2中计算出来的余弦值cos(x,y)越大说明同一区间中，两个网页内容的相似性越高；反之，则相似性越小,将同一区间中各文档按相似度的大小从大到小进行排序；

3-4重复步骤3-2、3-3，直至所有区间的网页内容均完成相似度分析排序；

3-5保持各区间的排序结果，同时将各区间按匹配度的大小从大到小进行排序；

4)将排序结果展示给用户，供其查询需求。

所述的PageRank算法是Google专有的算法，用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。它由LarryPage和SergeyBrin在20世纪90年代后期发明。PageRank算法实现了将链接价值概念作为排名因素。

所述的Cosine相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相似度度量(Similarity)，即计算个体间的相似程度，与距离度量相反，相似度度量的值越小，说明个体间相似度越小，差异越大。相比距离度量，余弦相似度更加注重两个向量在方向上的差异，而非距离或长度上的差异。

所述的TF-IDF是英文termfrequency-inversedocumentfrequency的缩写，是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF算法是一种统计算法,用于对检索的加权，简单的讲其作用是评估一字词对于一个文件的重要程度。

本发明方法提出一种基于内容相似性的Web主题排序方法。该方法实现了二次排序，首先完成对该主题内容的整体排序，即进行模糊关键字匹配检测，将属于该主题的网页内容进行相关度排序；然后针对该主题内容的相似性再进行局部排序，即进行内容相似性检测，将属于该主题的内容按照相似度从大到小进行二次排序，最终按照用户查询需求将二次排序的结果展示给用户。例如，在用户搜索云计算技术时，该主题就是云计算，但是云计算包含云计算技术介绍，云计算应用，云计算的发展资讯等不同的方面，采用本文发明的方法可以将上述各方面的内容按相似性大小展示给用户供其查看。由此可见，本发明的重点在于针对某个特定Web主题，分析各网页内容，为用户提供某一方面的丰富的相关信息方便用户查询。

本发明方法主要考虑到用户在检索相应Web主题时，通常检索出的各网页内容之间仅有主题相关的的联系，甚至在描述同一主题同一方面内容的网页之间可能排列了同一主题的其他不同方面。这样，用户在查看相应内容时，可能对该主题某一方面的内容更为感兴趣，而传统的排序方法往往不能满足用户的这种需求。

本方法适用于用户在利用搜索引擎检索相关Web主题时，为了帮助用户获得高质量，内容丰富的检索信息而提供的一种排序方法，该方法通过对各网页内容进行相似度分析将各个网页按照相似度进行排序，以为用户提供丰富的某一特定内容的相关信息。

本发明方法的有宜效果及特点如下：通过对网页内容相似性分析实现对检索结果的二次排序，可以为用户提供更加层次化的，高质量、高清晰度的检索结果。

附图说明

具体实施方式

下面结合实施例对本发明做进一步说明，但不限于此。

实施例：

1)确定所要筛选的Web主题

2)模糊关键字匹配检测(一次排序)

3)各网页内容相似度检测(二次排序)

c o s (x, y) = \frac{x \cdot y}{| | x | | \cdot | | y | |} = \frac{{Σx}_{i} y_{i}}{\sqrt{{Σx}_{i}^{2}} \sqrt{{Σy}_{i}^{2}}}

4)将排序结果展示给用户，供其查询需求。

Claims

1.一种基于内容相似性的Web主题排序方法，适用于用户在利用搜索引擎查询Web信息时为用户提供搜索内容相似的查询结果，结合关键字匹配方法和相似性比较方法对查询到的内容进行排序，该方法具体步骤如下：

1)确定所要筛选的Web主题

2)模糊关键字匹配检测即一次排序

3)各网页内容相似度检测即二次排序

3-1将步骤2)中筛选得到的各网页按匹配度U_j由大到小划分为若干个区间T_m，其中m为区间的个数，可按需求自由设定，设1>U_j>0.8为区间T₁，0.8>U_j>0.6为区间T₂，0.6>U_j>0.5为区间T₃，0.5>U_j>U为区间T₄，其中阈值U<0.5；

3-2对步骤3-1设定的第n个区间T_n中的网页内容进行相似度检测，其中n≤m，采用

Cosine相似度来计算：

c o s (x, y) = \frac{x \cdot y}{| | x | | . | | y | |} = \frac{{Σx}_{i} y_{i}}{\sqrt{{Σx}_{i}^{2}} \sqrt{{Σy}_{i}^{2}}}

3-5保持各区间内部的排序结果，同时将各区间之间按匹配度的大小从大到小进行排序；

4)将排序结果展示给用户，供其查询需求。