CN104699817B - 一种基于改进谱聚类的搜索引擎排序方法与系统 - Google Patents

一种基于改进谱聚类的搜索引擎排序方法与系统 Download PDF

Info

Publication number
CN104699817B
CN104699817B CN201510132105.7A CN201510132105A CN104699817B CN 104699817 B CN104699817 B CN 104699817B CN 201510132105 A CN201510132105 A CN 201510132105A CN 104699817 B CN104699817 B CN 104699817B
Authority
CN
China
Prior art keywords
spectral clustering
text
page content
class
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510132105.7A
Other languages
English (en)
Other versions
CN104699817A (zh
Inventor
白亮
老松杨
郭金林
于天元
杨征
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201510132105.7A priority Critical patent/CN104699817B/zh
Publication of CN104699817A publication Critical patent/CN104699817A/zh
Application granted granted Critical
Publication of CN104699817B publication Critical patent/CN104699817B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于改进谱聚类的搜索引擎排序方法与系统,其中,该方法包括:计算每两个初始网页文本内容之间基于密度的相似度,确定谱聚类的最佳类别数目;计算所述谱聚类的类中心向量与类均值,计算所述新网页文本内容与现有谱聚类之间的连接度,判断是否将所述新网页文本内容加入谱聚类中,判断所述谱聚类是否需要与其他谱聚类进行合并;接收使用者的查询向量,计算所述查询向量与所述现有谱聚类之间的相关度,建立网页链接的初始结果集,并将所述初始结果集中每个网页的相关度与PageRank值归一加权计算平均值,按照所述相关度与PageRank值归一加权平均值的大小进行排序呈献给使用者。

Description

一种基于改进谱聚类的搜索引擎排序方法与系统
技术领域
本发明涉及搜索引擎排序方法,特别地,涉及一种基于改进谱聚类的搜索引擎排序方法与系统。
背景技术
随着搜索引擎技术的发展,使用者对搜索引擎的要求也越来越高。搜索引擎虽然能够根据使用者查询搜索出成千上万条结果,但是一般情况下,使用者只浏览前30条甚至前10条结果,如果搜索引擎中排在前面的结果和使用者查询无关,使用者的查询效率会显著降低。
传统的排序方法包括基于分类目录的排序方法、基于文本检索的排序方法与基于链接整合分析的排序方法。其中,基于分类目录的排序方法是已经被舍弃不用的人工分类方法;只关注网页内容的基于文本检索的排序方法会导致效率低下的问题;而只关注网页链接的基于链接整合的排序方法会导致返回的内容可能与使用者查询不相关的问题。现有技术中缺乏一种同时能克服效率问题和结果相关性问题的排序算法。
针对现有技术中缺乏一种同时能克服效率问题和结果相关性问题的解决方案的问题,目前尚未有有效的解决方案。
发明内容
针对现有技术中缺乏一种同时能克服效率问题和结果相关性问题的解决方案的问题,本发明的目的在于提出一种基于改进谱聚类的搜索引擎排序方法与系统,能够把文本内容和文本链接有效结合,提出一种结合内容与链接的搜索引擎排序方法与系统,提高使用者的搜索效率。
基于上述目的,本发明提供的技术方案如下:
根据本发明的一个方面,提供了一种基于改进谱聚类的搜索引擎排序方法。
根据本发明提供的一种基于改进谱聚类的搜索引擎排序方法包括:
沿着网页中的链接搜寻初始网页信息,将初始网页信息中的文本信息以向量形式提取出至少一个初始网页文本内容,并将初始网页文本内容、网页的链接与搜寻时间以向关联的方式存储;
计算每两个初始网页文本内容之间基于密度的相似度,并根据初始网页文本内容之间基于密度的相似度确定谱聚类的最佳类别数目;
按照网页的链接重新访问更新过的网页并搜寻更新过的网页信息,并按照更新过的网页信息中的文本信息新网页文本内容,并将新网页文本内容、网页的链接与更新时间以关联的方式存储;
计算谱聚类的类中心向量与类均值,计算新网页文本内容与现有谱聚类类别之间的连接度,并根据新网页文本内容与现有所有谱聚类类别之间的连接度判断是否将新网页文本内容加入根据谱聚类方法建立的已有类别中,并根据各谱聚类类别的类中心向量与类均值判断谱聚类是否需要与其他谱聚类进行合并;
接收使用者的查询向量,计算查询向量与现有谱聚类类别之间的相关度,建立网页链接的初始结果集,并将初始结果集中每个网页的相关度与PageRank值计算归一加权值,按照相关度与PageRank值的归一加权值的大小进行排序呈献给使用者。
其中,计算每两个初始网页文本内容之间基于密度的相似度包括:
定义谱聚类方法的局部一致性与全局一致性;
根据谱聚类方法的局部一致性与全局一致性,得到基于密度的线段长度距离表达式;
根据基于密度的线段长度距离表达式,计算出两初始网页文本内容之间基于密度的距离;
根据两初始网页文本内容之间基于密度的数据距离,获得两初始网页文本内容之间基于密度的相似度。
并且,根据每两个初始网页文本内容之间基于密度的相似度确定谱聚类的最佳类别数目包括:
根据每两个初始网页文本内容之间基于密度的相似度建立相似矩阵,其中,相似矩阵的行向量代表初始网页文本内容、列向量代表初始网页文本内容特征项的权值;
计算相似矩阵中,所有初始网页文本内容特征项权值的平均值、任一谱聚类内初始网页文本内容特征项的平均值、所有初始网页文本内容数据集的总体方差、任一谱聚类内数据集的方差、任一谱聚类间数据集的方差;
根据任一谱聚类内数据集的方差与任一谱聚类间数据集的方差,用C-H指数定义方差比标准计算出谱聚类的最佳类别数目。
其中,根据新网页文本内容与现有所有谱聚类之间的连接度判断是否将新网页文本内容加入谱聚类中包括:
将每个新网页文本内容与现有所有谱聚类类别之间的连接度按大小顺序进行排序;
若该新网页文本内容最大的连接度大于第一阈值,且最大的连接度与第二大的连接度的绝对值之差大于第二阈值,则将新网页文本内容加入最大的连接度所对应的谱聚类中,并更新该谱聚类的类中心向量与类均值;
若该新网页文本内容最大的连接度大于第一阈值,但最大的连接度与第二大的连接度的绝对值之差不大于第二阈值,则将新网页文本内容暂时存入最大的连接度所对应的谱聚类中,并对新网页文本内容进行标记,但不更新该谱聚类的类中心向量与类均值;
若该新网页文本内容最大的连接度不大于第一阈值,则将该新网页文本内容划分到一个新的谱聚类类别中,并计算出新谱聚类类别的类中心向量与类均值。
并且,根据各谱聚类类别的类中心向量与类均值判断谱聚类类别是否需要与其他谱聚类类别进行合并,为当所有新网页文本内容都划分到任意谱聚类类别中时,重新计算谱聚类的最佳类别数目:
若重新计算的谱聚类的最佳类别数目小于等于上次计算的谱聚类的最佳类别数目,则将被标记的新网页文本内容合并到其暂存的谱聚类中,并更新该谱聚类的类中心向量与类均值;
若重新计算的谱聚类的最佳类别数目大于上次计算的谱聚类的最佳类别数目,则将被标记的新网页文本内容独立进行重新聚类,并计算出新谱聚类的类中心向量与类均值。
同时,计算上述查询向量与现有谱聚类类别之间的相关度,建立网页链接的初始结果集包括:
将查询向量分解为至少一个查询分量;
分别将每个查询分量视为关键词,依次计算每个查询分量关键词与每个谱聚类类别之间的连接度;
根据每个查询分量关键词与每个谱聚类类别之间的连接度,计算出查询向量与每个谱聚类类别之间的相关度;
根据查询向量与每个谱聚类之间的连接度与每个查询分量的绝对值,计算出查询向量的初始结果集,初始结果集为各谱聚类类别中与查询向量距离较近的网页集合。
并且,将初始结果集中每个网页的相关度与PageRank值归一加权计算平均值,为将拓展结果集的相关度和PageRank值分别进行归一化,进行加权得到每个与查询向量的相关度。
根据本发明的另一个方面,还提供了一种基于改进谱聚类的搜索引擎排序系统。
根据本发明提供的一种基于改进谱聚类的搜索引擎排序系统如上所述。
从上面所述可以看出,本发明提供的技术方案通过使用改进的谱聚类方法对网页内容进行分析,利用网页链接结构对根据使用者查询选出初始的结果集进行拓展,并计算拓展结果集与使用者查询的距离作为网页内容相似度,然后结合衡量网页链接质量的PageRank值,最终得到每个网页的相似度得分并根据该得分返回排序结果,提高了使用者的搜索效率与搜索体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例的一种基于改进谱聚类的搜索引擎排序方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进一步进行清楚、完整、详细地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的一个实施例,提供了一种基于改进谱聚类的搜索引擎排序方法。
如图1所示,根据本发明实施例提供的基于改进谱聚类的搜索引擎排序方法包括:
步骤S101,沿着网页中的链接搜寻初始网页信息,将初始网页信息中的文本信息以向量形式提取出至少一个初始网页文本内容,并将初始网页文本内容、网页的链接与搜寻时间以向关联的方式存储;
步骤S103,计算每两个初始网页文本内容之间基于密度的相似度,并根据初始网页文本内容之间基于密度的相似度确定谱聚类的最佳类别数目;
步骤S105,按照网页的链接重新访问更新过的网页并搜寻更新过的网页信息,并按照更新过的网页信息中的文本信息新网页文本内容,并将新网页文本内容、网页的链接与更新时间以关联的方式存储;
步骤S107,计算谱聚类的类中心向量与类均值,计算新网页文本内容与现有谱聚类类别之间的连接度,并根据新网页文本内容与现有所有谱聚类类别之间的连接度判断是否将新网页文本内容加入根据谱聚类方法建立的已有类别中,并根据各谱聚类类别的类中心向量与类均值判断谱聚类是否需要与其他谱聚类进行合并;
步骤S109,接收使用者的查询向量,计算查询向量与现有谱聚类类别之间的相关度,建立网页链接的初始结果集,并将初始结果集中每个网页的相关度与PageRank值计算归一加权值,按照相关度与PageRank值的归一加权值的大小进行排序呈献给使用者。
其中,计算每两个初始网页文本内容之间基于密度的相似度包括:
定义谱聚类方法的局部一致性与全局一致性;
根据谱聚类方法的局部一致性与全局一致性,得到基于密度的线段长度距离表达式;
根据基于密度的线段长度距离表达式,计算出两初始网页文本内容之间基于密度的距离;
根据两初始网页文本内容之间基于密度的数据距离,获得两初始网页文本内容之间基于密度的相似度。
前述的局部一致性指的是空间位置上距离较近的数据有较高的相似性;而全局一致性则是指位于同一流形上的数据有较高的相似性。谱聚类中经常使用的高斯核函数只能够反映局部一致性而没有考虑全局一致性,因此不能完全反映分布复杂的数据集。为了加入全局一致性,我们就必须考虑文本数据在空间上的密度。
定义基于密度的线段长度如式(1)所示:
L(x,y)=ρdist(x,y)-1 (1)
式(1)中,dist(x,y)表示两点之间的欧式距离,ρ是一个大于1的伸缩因子,如此一来,便可以通过调节ρ的大小来调整两点之间的基于密度的距离,以达到密度较大区域内多点距离之和小于密度小区域内的两点距离,于是达到了考虑全局一致性的目的。令边集合为E={L(a,b)}。令v={v1,v2,…,vl}∈V表示图上长度l=|v|的连接数据点v1和vl的路径,其中边(vk,vk+1)∈E,1≤k≤l-1。则数据点xi与xj的距离为
该距离度量放大了类间数据间距,缩短了类内数据间距。基于此,定义基于密度的相似性度量如下:
上式分母加1是为了防止距离度量为0。与高斯核函数相比,上式的参数的敏感度较小,并且该方法充分考虑了全局一致性。
并且,根据每两个初始网页文本内容之间基于密度的相似度确定谱聚类的最佳类别数目包括:
根据每两个初始网页文本内容之间基于密度的相似度建立相似矩阵,其中,相似矩阵的行向量代表初始网页文本内容、列向量代表初始网页文本内容特征项的权值;
计算相似矩阵中,所有初始网页文本内容特征项权值的平均值、任一谱聚类内初始网页文本内容特征项的平均值、所有初始网页文本内容数据集的总体方差、任一谱聚类内数据集的方差、任一谱聚类间数据集的方差;
根据任一谱聚类内数据集的方差与任一谱聚类间数据集的方差,用C-H指数定义方差比标准计算出谱聚类的最佳类别数目。
假设文本数据集中共有m个n维文本数据,根据相似度度量构成一个m×n的相似矩阵W,行向量表示一个文本,列向量表示一个文本特征项的权值,用xi表示第i列的向量。
下面定义几个变量:
所有数据特征项的平均值为:
类内文本特征项的平均值为:其中,|cj|表示类别cj中文本数据的数量。
数据集的总体方差为:
数据集类内方差为:
数据集类间方差为:
在上述各式中,总方差Sl是一个常数,目标函数即为
事实上,上述两个目标函数的解是一致的,根据以上公式展开便可得到:
利用C-H指数定义方差比标准,如式(11)所示,使Sk,m到达第一个局部最大值的k值即为最佳类别数。
由上述描述可知,为了找到最佳类别数,我们要不断迭代运行聚类算法。显然,如果该方法应用在谱聚类算法上,排序算法的效率将会更低,所以本文采用聚类效率较高的k-means算法作为寻找最佳类别数的基本算法,以避免采用复杂的优化算法寻找初始聚类中心的问题,减少了计算复杂度,提高了聚类速度。
其中,根据新网页文本内容与现有所有谱聚类之间的连接度判断是否将新网页文本内容加入谱聚类中包括:
将每个新网页文本内容与现有所有谱聚类类别之间的连接度按大小顺序进行排序;
若该新网页文本内容最大的连接度大于第一阈值,且最大的连接度与第二大的连接度的绝对值之差大于第二阈值,则将新网页文本内容加入最大的连接度所对应的谱聚类中,并更新该谱聚类的类中心向量与类均值;
若该新网页文本内容最大的连接度大于第一阈值,但最大的连接度与第二大的连接度的绝对值之差不大于第二阈值,则将新网页文本内容暂时存入最大的连接度所对应的谱聚类中,并对新网页文本内容进行标记,但不更新该谱聚类的类中心向量与类均值;
若该新网页文本内容最大的连接度不大于第一阈值,则将该新网页文本内容划分到一个新的谱聚类类别中,并计算出新谱聚类类别的类中心向量与类均值。
由于网页内容信息更新周期很快,使用聚类方法得到的类别特征可能与新的网页文本数据不匹配,因此需要重新计算抽取的类别信息,通常采用重新聚类或者增量聚类方法。由于现在处理的是网页信息,数据集的大小是不可估量的,如果每次都进行重新聚类,不仅会浪费计算资源,而且会造成信息更新的不及时,导致搜索引擎无法提供最新的信息。
对于新文本数据,判断其与各类的连接度,如果连接度大于某一阈值,则可以将该文本分至该类;否则将文本独自分为一类。
基于上述原则,可以对增量文本进行聚类处理。但是,一旦增量文本被处理后,聚类结果就不能进行调整,也就是说一旦某个文本被错误分类,那么这个错误就会一直延续下去,使得类的信息与真正类信息相差越来越远,大大的降低了聚类的准确性。因此,应该重新分配不确定分类的文本,对聚类结果进行调整和修正。
当计算文本与类的连接度时,不仅要选取最大连接度还要考虑次大连接度,当两者差值较小的时候判定该文本的分类是不确定的,此时我们先把文本分类但是不更改类信息,以防止由于一个文本分类错误导致的整个分类错误。当处理的增量文本数据达到一定数量后,考虑重新对该类文本进行分类,并考虑类之间的合并。
当考虑增量数据时,一个关键问题是可能有大量数据出现在两类之间使得两类之间有了合并的可能性,但是仅仅依靠类的中心距离来判断两类之间能否合并是不合适的。定义两种类别特征信息:类中心向量和类均值,计算公式如下:
类中心向量:
类均值:
提出的基于相合度的增量聚类方法步骤如下:
步骤一:计算初始聚类的各类中心和均值;
步骤二:计算新文本数据xi与各类的连接度;
步骤三:如果最大连接度maxj(xi,Cj)>β并且最大连接度与第二最大连接度的差maxj(xi,Cj)-secmaxj(xi,Ck)>α,则将xi加入到类Cj中,并更新类的特征信息;
步骤四:如果最大连接度maxj(xi,Cj)>β并且最大连接度与第二最大连接度的差maxj(xi,Cj)-secmaxj(xi,Ck)<α,则暂时将xi加入到类Cj中,并给出标记但是不更新类信息;
步骤五:如果最大连接度maxj(xi,Cj)<β,则将xi分为一个新的类。
并且,根据各谱聚类类别的类中心向量与类均值判断谱聚类类别是否需要与其他谱聚类类别进行合并,为当所有新网页文本内容都划分到任意谱聚类类别中时,重新计算谱聚类的最佳类别数目:
若重新计算的谱聚类的最佳类别数目小于等于上次计算的谱聚类的最佳类别数目,则将被标记的新网页文本内容合并到其暂存的谱聚类中,并更新该谱聚类的类中心向量与类均值;
若重新计算的谱聚类的最佳类别数目大于上次计算的谱聚类的最佳类别数目,则将被标记的新网页文本内容独立进行重新聚类,并计算出新谱聚类的类中心向量与类均值。
当进行了一定数量的文本增量聚类后,对于已经标记的暂时存放的文档进行重新分类;重新计算最佳聚类数k,如果k比当前类别数小,则合并最大相合度的类;如果k比当前类别大则重新进行聚类。
同时,计算上述查询向量与现有谱聚类类别之间的相关度,建立网页链接的初始结果集包括:
将查询向量分解为至少一个查询分量;
分别将每个查询分量视为关键词,依次计算每个查询分量关键词与每个谱聚类类别之间的连接度;
根据每个查询分量关键词与每个谱聚类类别之间的连接度,计算出查询向量与每个谱聚类类别之间的相关度;
根据查询向量与每个谱聚类之间的连接度与每个查询分量的绝对值,计算出查询向量的初始结果集,初始结果集为各谱聚类类别中与查询向量距离较近的网页集合。
并且,将初始结果集中每个网页的相关度与PageRank值归一加权计算平均值,为将拓展结果集的相关度和PageRank值分别进行归一化,进行加权得到每个与查询向量的相关度。
通过改进谱聚类对原始文本数据集进行聚类后,需要根据用户查询得到初始结果集,而用户查询词是有可能跨类存在的,例如“林肯”这个词,它可能指的是汽车的品牌也可能指一位总统,所以在这个维度上可能会出现两类相交的现象。因此,不能够单纯的从文本间距的角度考虑用户查询类别的划分。本文采用条件概率解决这个问题。设q为用户查询向量,qi为用户查询向量的分量,则用户查询属于某一类别的概率可计算如下:。
公式(16)是贝叶斯公式的变形,贝叶斯公式可以描述为:
假设q中的每个查询分量都是独立的,通过概率的知识可以得到:
而分母P(q)通常为常数,因此有:
定义P=(p1,p2,…,pk)来表示查询q与各类相关的概率,可以认为概率越大,查询与该类的相关度越大。按照概率的比例在每个类中都选出相应数量的结果当做内容分析的结果集,并以文本与查询距离的倒数作为该文本在当前查询下的权值。
在从网页类别中选出网页作为初始结果集之后,进一步融合链接质量即PageRank值来确定最终的排序结果。考虑到现有方法是完全针对内容进行网页与查询之间的相似度,在聚类情况不稳定的情况下,可能会有一些重要的相关网页由于侧重点不同而被分到了其他类别,可以通过链接信息构建与这部分信息的关联。具体步骤如下:
第一,利用简单的布尔查询对整个文本数据集进行查询,如果查询到的文本不在现有的初始结果集中,那么将该文本加入结果集并计算和查询向量之间的距离;
第二,将初始结果集按照网络链接结构向外拓展一层,计算拓展结果集中文本与查询向量之间的距离,即内容相关度;
第三,将拓展结果集的文本内容相关度和PageRank值分别进行归一化,进行加权得到每个文本与查询的相关度;
第四,按照文本相关度排序,由大到小返回查询结果。
上述第一步避免了相关网页的遗漏,第二步考虑了链接所隐含的内容相关信息,同样丰富了结果集,第三步结合了内容相关度和链接重要性得出了与查询相关的文本排序。最终的文本得分的计算公式如下:
Score(xi,q)=a*CR(xi)+b*PR(xi) (17)
其中,a和b为设定的有关网页内容和链接权值,满足加和为1,CR(xi)表示归一化后的网页文本xi的内容相关度,PR(xi)表示归一化后的网页文本xi的PageRank值。
下面对本发明所述的排序方法的效果进行评价。
在常用的排序算法评价指标中涉及到一个重要的概念——相关度。一个网页内容是否与用户查询相关只能由用户决定,即使对于同一用户的同样的查询,在不同情况下用户的真正意图也是不同的,对除用户以外的人来说判断任意网页与用户查询是否相关都是一件困难的事。因此,本文采用主观评价的方法对提出的排序算法进行性能分析,实验中邀请了10名志愿者对10组用户查询进行实验,并依据志愿者主观意愿判断查询效果。
为控制变量便于统计,在本次试验中,连接度阈值被设定为初始聚类中文本与类的连接度的最小值;另外,在计算网页最终得分时,由于很难判断内容相关度和链接重要性对结果的影响大小,因此将a和b各设为0.5。
本文采用的排序算法评价指标包括:
(1)p@n
由于用户只关注前n个排序结果,因此对于前n个结果计算查询准确率更有意义。该指标的计算方式如下:
(2)MAP
虽然查准率和p@n指标已经能够衡量前n个结果的准确率,但是它们还不能衡量结果的位置的影响,首先定义平均精度(AP),对于任意查询q,有
其中,MAP则是对于所有查询的平均精度的均值。
(3)NDCG
NDCG对传统的评价标准做出了改进,主要体现在两方面:首先,相关程度应该有区别,完全相关的文档的价值应该更高一些;第二,文档的排序位置越靠后,文档的价值应该越小。
在这个评价指标里,定义了几个变量,首先将排序结果评级,评级越高则说明文档越重要。则评级为i时,变量Gain计算方式如下:
Gain=2i-1 (20)
然后定义变量CG,
CG[0]=Gain[0] (21)
CG[j]=CG[j-1]+Gain[j] (22)
其中,j为文档的序列号,考虑到排序的位置,定义变量DCG如下:
DCG[0]=Gain[0] (23)
DCG[j]=DCG[j-1]+Gain[j]/log2(j+1) (24)
而此时若该排序不是最优排序,则计算出max DCG,
则NDCG为
可以看出,NDCG为一个向量,为了便于比较算法之间的差异,我们用NDCG的平均值来表示指标的最终结果。
(4)效率
搜索引擎的响应时间可以作为评价搜索引擎的指标之一,虽然搜索引擎的整体响应时间可能会受到网络状况,主机性能,用户的设备性能等等的影响,但是当同一时段对于同一关键词来说,排序算法的效率就成为了影响响应时间的主要因素。而用户希望快速的返回相关结果,因此排序算法的效率应该成为评价准则之一。
为使实验具有一般性,本实验选定了10组关键词。其中包括表示时间的“2014年”,近期的热点词汇“奶茶”和“世界杯”,人名“丁俊晖”,一词多义的“奶茶”和“老虎”,英文简写“cctv”和“suv”,缩写“男篮”,网站名称“新浪”和搜索中用户经常查询的词汇“热门”。
前文有所提到,用户是不希望通过逐个检查结果来得到自己需求的结果。用户最想得到的是最重要的信息排在最前面,因此大部分的搜索引擎用户只浏览前30个排序结果。本实验基于此,针对实际情况下用户的需求,只对各类算法的前30个结果进行比较分析。
对于上述的评价指标,其中效率用归一化后的响应时间来表示,让10个志愿者针对他们所需的内容进行查询实验,最终结果如下:
根据10名志愿者自身认为的结果相关度,对10名志愿者所认为的相关度取均值后,计算10个关键词的指标的平均值结果如下表所示。
实验中,保证实验前不了解用户的想法,这也就保证了实验的公平性和暂时不融入用户信息特点的假设。从数据可以直观的发现,除归一化的响应时间以外,较之其他经典算法,本文算法取得了更好的效果。从前十个结果的准确性来说,HITS由于根据网络链接结构做了初始集合的拓展,结果准确性明显要比其他几种算法差一些,但是也正是由于该特点,HITS算法在前30结果的准确性表现良好。而本文算法在考虑链接的基础上做了内容上的分析,可以发现结果的准确性和相关度有了双重保证,这一点在MAP指标上也有所体现。NDCG指标体现了算法的排序结果是否合理,与用户的真正需求有直接的关系,此处取平均值表现了每种算法的平均排序合理程度,可以看出几种算法的差距其实并不大。从算法效率上看,我们可以看出TF-IDF算法效率最高,而本文的谱聚类算法的响应时间在PageRank算法与HITS算法之间,因此,虽然本文算法离线计算复杂度较高,但是在线计算量较小,可以让用户接受。
根据本发明的另一个实施例,提供了一种基于改进谱聚类的搜索引擎排序装置。
根据本发明实施例提供的基于改进谱聚类的搜索引擎排序装置如上所述。
综上所述,借助于本发明的上述技术方案,针对无先验知识的网页文本聚类问题,从相似度度量选取、最佳聚类数目确定、初始聚类中心确定与增量文本处理四个方面对谱聚类方法进行了改进。利用改进的谱聚类方法对网页进行聚类以达到对于网页内容进行归类的目的,在计算最终的排序结果时,利用条件概率确定与用户查询相关的文本类别,并考虑查询与各文本类中文本的距离,保证了与查询相关概率大的类中返回的更多结果,而又不会使相关概率小的类不返回结果,即保证了结果的全面性,最终考虑PageRank值,并借鉴HITS算法的拓展根集的做法在保证准确率的同时进一步提高了查询结果的全面性。
所属领域的普通技术人员应当理解:以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于改进谱聚类的搜索引擎排序方法,其特征在于,包括:
沿着网页中的链接搜寻初始网页信息,将所述初始网页信息中的文本信息以向量形式提取出至少一个初始网页文本内容,并将所述初始网页文本内容、所述网页的链接与搜寻时间以向关联的方式存储;
计算每两个初始网页文本内容之间基于密度的相似度,并根据所述初始网页文本内容之间基于密度的相似度确定谱聚类的最佳类别数目;
按照所述网页的链接重新访问更新过的网页并搜寻更新过的网页信息,并按照所述更新过的网页信息中的文本信息更新网页文本内容,并将所述新网页文本内容、所述网页的链接与更新时间以关联的方式存储;
计算所述谱聚类的类中心向量与类均值,计算所述新网页文本内容与现有谱聚类类别之间的连接度,并根据所述新网页文本内容与现有所有谱聚类类别之间的连接度判断是否将所述新网页文本内容加入根据谱聚类方法建立的已有类别中,并根据所述各谱聚类类别的类中心向量与类均值判断所述谱聚类是否需要与其他谱聚类进行合并;
接收使用者的查询向量,计算所述查询向量与所述现有谱聚类类别之间的相关度,建立网页链接的初始结果集,并将所述初始结果集中每个网页的相关度与PageRank值计算归一加权值,按照所述相关度与PageRank值的归一加权值的大小进行排序呈献给使用者;
其中,计算每两个初始网页文本内容之间基于密度的相似度包括:
定义谱聚类方法的局部一致性与全局一致性;
根据所述谱聚类方法的局部一致性与全局一致性,得到基于密度的线段长度距离表达式;
根据所述基于密度的线段长度距离表达式,计算出两初始网页文本内容之间基于密度的距离;
根据所述两初始网页文本内容之间基于密度的数据距离,获得所述两初始网页文本内容之间基于密度的相似度。
2.根据权利要求1所述的一种基于改进谱聚类的搜索引擎排序方法,其特征在于,所述根据所述每两个初始网页文本内容之间基于密度的相似度确定谱聚类的最佳类别数目包括:
根据所述每两个初始网页文本内容之间基于密度的相似度建立相似矩阵,其中,所述相似矩阵的行向量代表初始网页文本内容、列向量代表初始网页文本内容特征项的权值;
计算所述相似矩阵中,所有初始网页文本内容特征项权值的平均值、任一谱聚类内初始网页文本内容特征项的平均值、所有初始网页文本内容数据集的总体方差、任一谱聚类内数据集的方差、任一谱聚类间数据集的方差;
根据所述任一谱聚类内数据集的方差与任一谱聚类间数据集的方差,用C-H指数定义方差比标准计算出所述谱聚类的最佳类别数目;其中,利用C-H指数定义方差比标准,如下式所示,使Sk,m到达第一个局部最大值的k值即为最佳类别数;
Sl w(k)为数据集类内方差,Sl h(k)为数据集类间方差;m为初始网页文本内容的数量。
3.根据权利要求1所述的一种基于改进谱聚类的搜索引擎排序方法,其特征在于,根据所述新网页文本内容与现有所有谱聚类之间的连接度判断是否将所述新网页文本内容加入谱聚类中包括:
将每个所述新网页文本内容与现有所有谱聚类类别之间的连接度按大小顺序进行排序;
若该新网页文本内容最大的连接度大于第一阈值,且最大的连接度与第二大的连接度的绝对值之差大于第二阈值,则将所述新网页文本内容加入最大的连接度所对应的谱聚类中,并更新该谱聚类的类中心向量与类均值;
若该新网页文本内容最大的连接度大于第一阈值,但最大的连接度与第二大的连接度的绝对值之差不大于第二阈值,则将所述新网页文本内容暂时存入最大的连接度所对应的谱聚类中,并对所述新网页文本内容进行标记,但不更新该谱聚类的类中心向量与类均值;
若该新网页文本内容最大的连接度不大于第一阈值,则将该新网页文本内容划分到一个新的谱聚类类别中,并计算出所述新谱聚类类别的类中心向量与类均值。
4.根据权利要求3所述的一种基于改进谱聚类的搜索引擎排序方法,其特征在于,根据所述各谱聚类类别的类中心向量与类均值判断所述谱聚类类别是否需要与其他谱聚类类别进行合并,为当所有新网页文本内容都划分到任意谱聚类类别中时,重新计算所述谱聚类的最佳类别数目:
若重新计算的谱聚类的最佳类别数目小于等于上次计算的谱聚类的最佳类别数目,则将被标记的所述新网页文本内容合并到其暂存的谱聚类中,并更新该谱聚类的类中心向量与类均值;
若重新计算的谱聚类的最佳类别数目大于上次计算的谱聚类的最佳类别数目,则将被标记的所述新网页文本内容独立进行重新聚类,并计算出所述新谱聚类的类中心向量与类均值。
5.根据权利要求2或4中任意一项所述的一种基于改进谱聚类的搜索引擎排序方法,其特征在于,计算所述查询向量与所述现有谱聚类类别之间的相关度,建立网页链接的初始结果集包括:
将所述查询向量分解为至少一个查询分量;
分别将每个所述查询分量视为关键词,依次计算每个所述查询分量关键词与每个所述谱聚类类别之间的连接度;
根据每个所述查询分量关键词与每个所述谱聚类类别之间的连接度,计算出所述查询向量与每个所述谱聚类类别之间的相关度;
根据所述查询向量与每个所述谱聚类之间的连接度与每个所述查询分量的绝对值,计算出所述查询向量的初始结果集,所述初始结果集为所述各谱聚类类别中与查询向量距离较近的网页集合。
6.根据权利要求5所述的一种基于改进谱聚类的搜索引擎排序方法,其特征在于,将所述初始结果集中每个网页的相关度与PageRank值归一加权计算平均值,为将拓展结果集的相关度和PageRank值分别进行归一化,进行加权得到每个与查询向量的相关度。
7.一种基于改进谱聚类的搜索引擎排序系统,其特征在于,运用了如权利要求1-6中任意一项所述的基于改进谱聚类的搜索引擎排序方法。
CN201510132105.7A 2015-03-24 2015-03-24 一种基于改进谱聚类的搜索引擎排序方法与系统 Expired - Fee Related CN104699817B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510132105.7A CN104699817B (zh) 2015-03-24 2015-03-24 一种基于改进谱聚类的搜索引擎排序方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510132105.7A CN104699817B (zh) 2015-03-24 2015-03-24 一种基于改进谱聚类的搜索引擎排序方法与系统

Publications (2)

Publication Number Publication Date
CN104699817A CN104699817A (zh) 2015-06-10
CN104699817B true CN104699817B (zh) 2018-01-05

Family

ID=53346937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510132105.7A Expired - Fee Related CN104699817B (zh) 2015-03-24 2015-03-24 一种基于改进谱聚类的搜索引擎排序方法与系统

Country Status (1)

Country Link
CN (1) CN104699817B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868261A (zh) * 2015-12-31 2016-08-17 乐视网信息技术(北京)股份有限公司 一种关联信息的获取与排序方法和系统
CN106649515A (zh) * 2016-10-17 2017-05-10 中国电子技术标准化研究院 一种基于多种检索模型的实时微博分类器
CN108182186B (zh) * 2016-12-08 2020-10-02 广东精点数据科技股份有限公司 一种基于随机森林算法的网页排序方法
CN107135092B (zh) * 2017-03-15 2019-11-05 浙江工业大学 一种面向全局社交服务网的Web服务聚类方法
CN111339396B (zh) * 2018-12-18 2024-04-16 富士通株式会社 提取网页内容的方法、装置和计算机存储介质
CN110765360B (zh) * 2019-11-01 2022-08-02 新华网股份有限公司 文本话题处理方法、装置、电子设备及计算机存储介质
CN114186153A (zh) * 2021-11-19 2022-03-15 北京达佳互联信息技术有限公司 一种信息流确定方法、装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853272A (zh) * 2010-04-30 2010-10-06 华北电力大学(保定) 基于相关反馈和聚类的搜索引擎技术
CN103514183A (zh) * 2012-06-19 2014-01-15 北京大学 基于交互式文档聚类的信息检索方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7689559B2 (en) * 2006-02-08 2010-03-30 Telenor Asa Document similarity scoring and ranking method, device and computer program product

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853272A (zh) * 2010-04-30 2010-10-06 华北电力大学(保定) 基于相关反馈和聚类的搜索引擎技术
CN103514183A (zh) * 2012-06-19 2014-01-15 北京大学 基于交互式文档聚类的信息检索方法及系统

Also Published As

Publication number Publication date
CN104699817A (zh) 2015-06-10

Similar Documents

Publication Publication Date Title
CN104699817B (zh) 一种基于改进谱聚类的搜索引擎排序方法与系统
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
CN106709040B (zh) 一种应用搜索方法和服务器
CN105045875B (zh) 个性化信息检索方法及装置
WO2020108608A1 (zh) 搜索结果处理方法、装置、终端、电子设备及存储介质
CN103902597B (zh) 确定目标关键词所对应的搜索相关性类别的方法和设备
CN109189904A (zh) 个性化搜索方法及系统
CN100465954C (zh) 用于搜索术语建议的多种类型数据的加强群集
CN104199822B (zh) 一种识别搜索对应的需求分类的方法和系统
US20040049499A1 (en) Document retrieval system and question answering system
CN108846422A (zh) 跨社交网络的账号关联方法及系统
CN106204156A (zh) 一种用于网络论坛的广告投放方法及装置
CN105653562B (zh) 一种文本内容与查询请求之间相关性的计算方法及装置
CN103116588A (zh) 一种个性化推荐方法及系统
CN108846050A (zh) 基于多模型融合的核心工艺知识智能推送方法及系统
CN108182186B (zh) 一种基于随机森林算法的网页排序方法
CN102968419B (zh) 交互式互联网实体名称的消歧方法
CN103942302B (zh) 一种相关反馈间关系网络的构建与应用方法
CN113722478B (zh) 多维度特征融合相似事件计算方法、系统及电子设备
CN108027814A (zh) 停用词识别方法与装置
CN109359302A (zh) 一种领域化词向量的优化方法及基于其的融合排序方法
KR20190128246A (ko) 검색 방법 및 장치 및 비-일시적 컴퓨터-판독가능 저장 매체
KR20080037413A (ko) 온라인 문맥기반 광고 장치 및 방법
CN105868261A (zh) 一种关联信息的获取与排序方法和系统
CN115905489B (zh) 一种提供招投标信息搜索服务的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
C53 Correction of patent for invention or patent application
CB03 Change of inventor or designer information

Inventor after: Bai Liang

Inventor after: Lao Songyang

Inventor after: Guo Jinlin

Inventor after: Yu Tianyuan

Inventor after: Yang Zheng

Inventor before: Yu Tianyuan

Inventor before: Bai Liang

Inventor before: Guo Jinlin

Inventor before: Yang Zheng

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: YU TIANYUAN BAI LIANG GUO JINLIN YANG ZHENG TO: BAI LIANG LAO SONGYANG GUO JINLIN YU TIANYUAN YANG ZHENG

SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180105

Termination date: 20190324

CF01 Termination of patent right due to non-payment of annual fee