CN101256573B - 基于内容相关性的反馈式搜索方法及内容相关方法 - Google Patents

基于内容相关性的反馈式搜索方法及内容相关方法 Download PDF

Info

Publication number
CN101256573B
CN101256573B CN200810052580A CN200810052580A CN101256573B CN 101256573 B CN101256573 B CN 101256573B CN 200810052580 A CN200810052580 A CN 200810052580A CN 200810052580 A CN200810052580 A CN 200810052580A CN 101256573 B CN101256573 B CN 101256573B
Authority
CN
China
Prior art keywords
matrix
probability
webpage
node
find
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200810052580A
Other languages
English (en)
Other versions
CN101256573A (zh
Inventor
侯越先
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN200810052580A priority Critical patent/CN101256573B/zh
Publication of CN101256573A publication Critical patent/CN101256573A/zh
Application granted granted Critical
Publication of CN101256573B publication Critical patent/CN101256573B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于内容相关性的反馈式搜索方法及内容相关方法,该方法包括以下步骤:当收到一个查询请求时,利用主流搜索引擎生成初始查询结果集;当前用户查看查询结果并点击目标网页后,获取该目标网页的ID,并从网页相关性矩阵K中查询出初始结果集中所有网页与目标网页的相关性;将与目标网页相关性最大的网页作为新的查询结果提交给用户。与已有技术相比,本发明避免了学习query-sensitive的ranking函数的复杂性取消搜索类别的概念,代以网页级的相关性分析,可解决类别划分的粒度-归属难题;与基于用户个性配置文件跟踪的方法相比,不需长期跟踪特定用户的行为;与基于点击数据直接优化搜索结果的方法相比,可有效解决一义多词和一词多义问题。

Description

基于内容相关性的反馈式搜索方法及内容相关方法
技术领域
本发明涉及利用计算机技术的内容管理系统及其实现方法,特别是涉及一种在反馈式搜索引擎框架下实现网页内容相关性挖掘的方法。
背景技术
随着互联网的迅速发展,搜索引擎已成为WEB用户获取网络资源的最主要途径。目前主流的搜索引擎主要根据用户输入的查询词在网页中的出现频率,同时辅以网页权威性等信息,从而生成相关联的查询结果。但由于WEB用户提交的关键字一般很简短,且可能有歧义,导致搜索引擎无法确定用户所需要的网页,降低了搜索结果的准确性,也影响了检索信息的中肯度(包括查全和查准两方面的综合评价)。
现有的搜索引擎所常用的个性化搜索的方法有以下四种不同的设计技巧:
1、类别搜索方法:
对网页数据库进行信息预分类,然后设法确定用户需要哪一类的网页,如果用户单击其中一个类别,然后再使用搜索引擎,将可以选择搜索整个Internet还是搜索当前类别。此类目录式搜索引擎,目前最有代表性的分类目录式搜索引擎如雅虎。但是,它存在以下问题:一方面,为了提交给用户一组最中肯的搜索结果,往往需要借助很细的类别划分粒度来进行预分类处理,但是细类别划分粒度下往往导致大量的分类交叉。另一方面,单纯根据用户给出的关键词,往往无法精确定位到用户想要搜索的类别。
2、利用用户个性配置与关键词结合的搜索方法:
将系统记录的用户个性信息与用户输入的关键字一起构成查询条件,为用户提供符合个人需要的查询结果。这种方法除了需要对网页分类,还需长期跟踪用户行为,这就必须假定用户行为是平稳的。web用户集体行为具有一定的自相似特征,即持续的突发性。因此单用户行为的时域平稳性假定须谨慎对待。直观地说,在此类搜索设计方法中,并不能根据用户行为的历史统计特征并推测出该用户经常可能发生的具有一定持续性的未来行为,原因是事实中存在用户的兴趣转移。持续性的兴趣转移效应对用户行为造成的影响不应被简单忽略。因此,该方法在设计上存在难度,使用中存在不可预期的风险。
3、基于点击量(click popularity)与粘性参数(stickiness)排序结果的搜索方法
该方法通过分析用户的行为信息决定搜索结果链接的排列位置。具体做法如DirectHit排序系统:目前被Lycos、Hotbot、MSN及很多其它搜索引擎所使用。其中,点击量是对搜索引擎结果页面上的链接被用户点击的次数的统计,粘性是对用户在某个网站上停留的时间长度的统计。该方法的缺点是:对于通用搜索引擎,当遇到多义性的查询关键词时;该方法由于忽视“一词多义”的问题,使得链接与查询语句的相关度更多的取决于关注这个链接的人数,这样的搜索结果会有缺失。
4、超链接分析的搜索方法
基于互联网的超链接结构评价网页的权威性,这种方法专注于评价网页本身的质量而不是查询词和网页之间的相关度。其出发点:一个网页有较高的关注度则说明它是被很多用户推荐的,由此说明这个网页是一个高质量的网页。但是,在我们看来,网页在搜索引擎结果中的排列位置不仅与网页本身的质量相关,更重要的是网页与查询词以及用户兴趣的相关度,这两者之间并不存在本质上的冲突。而通过分析网页的关注度来评价网页的质量则无助于计算网页与查询语句的相关度。
一些现有技术也试图利用海量clickthrough数据改进检索结果的中肯性。这类技术大致可归入两个方向。第一个方向是通过分析clickthrough数据来优化搜索引擎中的ranking函数;第二个方向是通过分析clickthrough数据来抽取用户偏好的信息。近来,将ranking SVM扩展到一种co-training框架以解决部分clickthrough数据未标定的问题,利用spybayes方法学习基于特定用户偏好的ranking函数。但是,无论所希望学习的ranking函数是否基于特定用户偏好,ranking的系统都有查询依赖性(query dependent)的,有必要考虑使用二元ranking函数r(qi,dj)。这里qi是第i个查询,dj是第j个文本。由于可能查询潜在的无限性,使得ranking函数难以在实际搜索引擎的大规模开放环境中被有效学习。
因此,如何克服上述各现有方法的缺陷,从而提高搜索引擎中用户所关心的搜索结果的中肯度,是本发明中要解决的问题。
发明内容
为了提供给用户更为准确和个性化的信息,本发明提出一种基于内容相关性挖掘的反馈式搜索引擎系统(FSE)及其数据相关方法,能够根据用户反馈提供扩展查询,即对于一次查询事件,首先生成一组初始查询结果;在当前用户点击了初始查询结果中的某个网页(称为目标网页)后,再从系统网页库中选择一组与目标网页内容相关性较高的网页作为扩展查询结果提交给用户,这样一来,所提供的扩展查询结果将与查询词和反映当前用户需求的目标网页都具有较高的相关性,能够更有效满足用户的查询需求。
本发明提出了一种基于内容相关性的反馈式搜索方法,该方法包括以下步骤:
当收到一个查询请求时,利用主流搜索引擎生成初始查询结果集;
当前用户查看查询结果并点击目标网页后,获取该目标网页的ID,并从网页相关性矩阵K中查询出初始查询结果集中所有网页与目标网页的相关性;
将与目标网页相关性最大的网页作为新的查询结果提交给用户;
其中,网页相关性矩阵K的建立,包括以下步骤:
由[0,t]时段的用户点击数据获得一个n×n的网页间的Co-Click矩阵Cn×n,Co-Click矩阵Cn×n即Cn×n的第i行第j列元素Ci,j表示网页i和网页j在同一次查询事件中被同时点击的次数;
由Cn×n确定一个有向图GC,求解GC上各结点之间的概率可达性,基于矩阵Cn×n求解任意两个网页实体间的概率可达性矩阵Mn×n,概率可达性矩阵Mn×n其第i行第j列元素Mi,j表示从网页i到网页j的概率可达性;定义有向图GC=<V,E,p>,其中V是结点集合,E是有向边集合,p是边权集合,
Figure GSB00000769857100031
代表一个网页,
Figure GSB00000769857100032
任意边<i,j>∈Eiff pi,j≠0,如此定义的p决定了一个Markov矩阵,pi,j表示网页i到达网页j的转移概率;
对概率可达性矩阵Mn×n进行降维,获得Mn×n的低维压缩表示矩阵Rn×k;所述对概率可达性矩阵Mn×n进行降维,该步骤包括:令Mn×n=[x1,x2,…,xn]T,xi∈Rn×k n,选出矩阵Mn×n中方差最大的k个列,这k个列组成的矩阵为M(k),将其嵌入 R n &times; k = | | M n &times; n | | F | | M ( k ) | | F M ( k ) ;
将网页相关性矩阵K定义为归一化的Rn×kRn×k T
所述基于矩阵Cn×n求解任意两个网页实体间的概率可达性矩阵Mn×n,该步骤包括:给定一个有向图G=<V,E,p>,其中每条边<i,j>有一个可靠度pi,j,且0<pi,j≤1;G中任意一条路P的可靠度定义为P上所有边的可靠度的乘积,即
Figure GSB00000769857100034
所有路中可靠度最大的路作为最大可靠路;
对于
Figure GSB00000769857100041
令wij=-logpi,j,求出G中所有点对间的最大可靠路等价于所有点对间关于w的最短路;
网页i到j的概率可达性Mi,j计算公式为:
Figure GSB00000769857100042
li,j是点i和j之间的最大可靠路长度。
所述基于矩阵Cn×n求解任意两个网页实体间的概率可达性矩阵Mn×n,该步骤包括:
依次选取有向图GC中每个结点作为源结点,重复执行以下仿真过程,依次求解各源结点到其它结点的概率可达性矩阵Mn×n
首先为当前的源结点i分配细胞,数量记为nc;
所有细胞依p所决定的转移概率随机行走,即处于源结点i的任意细胞在下一随机步行走到结点j的概率为pi,j
依此类推,在每个批次的随机行走结束后,记录各结点中包含的细胞数,记第t步随机行走结束后结点j中包含的细胞数为
Figure GSB00000769857100043
在tmax个批次的随机行走结束后,定义
Figure GSB00000769857100044
其中tmax=6。
本发明还提出了一种直接应用于基于内容相关性的反馈式搜索的内容相关方法,建立网页相关性矩阵K,该方法包括以下步骤:
由[0,t]时段的用户点击数据获得一个n×n的网页间的Co-Click矩阵Cn×n,即Cn×n的第i行第j列元素Ci,j表示网页i和网页j在同一次查询事件中被同时点击的次数;
由Cn×n确定一个有向图GC,求解GC上各结点之间的概率可达性,基于矩阵Cn×n求解任意两个网页实体间的概率可达性矩阵Mn×n;其第i行第j列元素Mi,j表示从网页i到网页j的概率可达性;定义有向图GC=<V,E,p>,其中V是结点集合,E是有向边集合,p是边权集合,
Figure GSB00000769857100045
代表一个网页,
Figure GSB00000769857100046
任意边<i,j>∈Eiff pi,j≠0,如此定义的p决定了一个Markov矩阵,pi,j表示网页i到达网页j的转移概率;
对概率可达性矩阵Mn×n进行降维,获得Mn×n的低维压缩表示矩阵Rn×k;所述对概率可达性矩阵Mn×n进行降维,该步骤包括:令Mn×n=[x1,x2,…,xn]T,xi∈Rn×k n,选出矩阵Mn×n中方差最大的k个列,这k个列组成的矩阵为M(k),将其嵌入 R n &times; k = | | M n &times; n | | F | | M ( k ) | | F M ( k ) ;
将网页相关性矩阵K定义为归一化的Rn×kRn×k T
所述基于矩阵Cn×n求解任意两个网页实体间的概率可达性矩阵Mn×n,该步骤包括:给定一个有向图G=<V,E,p>,其中每条边<i,j>有一个可靠度pi,j,且0<pi,j≤1;G中任意一条路P的可靠度定义为P上所有边的可靠度的乘积,即
Figure GSB00000769857100052
所有路中可靠度最大的路作为最大可靠路;
对于
Figure GSB00000769857100053
令wij=-logpi,j,求出G中所有点对间的最大可靠路等价于所有点对间关于w的最短路;
网页i到j的概率可达性Mi,j计算公式为:
Figure GSB00000769857100054
li,j是点i和j之间的最大可靠路长度。
所述基于矩阵Cn×n求解任意两个网页实体间的概率可达性矩阵Mn×n,该步骤包括:
依次选取有向图G GC中每个结点作为源结点,重复执行以下仿真过程,依次求解各源结点到其它结点的概率可达性矩阵Mn×n
首先为当前的源结点i分配细胞,数量记为nc;
所有细胞依p所决定的转移概率随机行走,即处于源结点i的任意细胞在下一随机步行走到结点j的概率为pi,j
依此类推,在每个批次的随机行走结束后,记录各结点中包含的细胞数,记第t步随机行走结束后结点j中包含的细胞数为
在tmax个批次的随机行走结束后,定义
Figure GSB00000769857100056
其中tmax=6。
与已有技术相比,本发明避免了学习query-sensitive的ranking函数的复杂性,具有与通用搜索引擎相适应的时空效率。与基于网页分类的方法相比,本查询扩展系统通过取消类别的概念,代以网页级的相关性分析,可解决类别划分的粒度一归属难题;与基于用户个性配置文件跟踪的方法相比,FSE利用具有统计平稳性的网页内容相关性信息,不需长期跟踪特定用户的行为,即可为该用户提供统计意义上的优化服务;与基于点击数据直接优化搜索结果的方法相比,FSE可有效解决一义多词和一词多义问题。
附图说明
图1为本发明的基于内容相关性的反馈式搜索方法的整体流程图。
图2为本发明的直接应用于基于内容相关性的反馈式搜索的内容相关方法的网页相关性矩阵K的建立流程图。
具体实施方式
反馈式搜索引擎系统(FSE)的查询扩展机制依赖于对网页内容相关性的定义。本发明根据任意两个网页被同时(指在同一次查询事件中)打开的次数来定义其间的内容相关性,即同时打开的次数越多,两个网页间的内容相关性越大。在实际应用中,即使采用稀疏表示,n×n网页相关性矩阵的规模也可能很大,故需使用高效维数约简方法(如直接随机映像方法,DRP)方法对其进行压缩。
通常搜索引擎的用户不会随机的点击搜索结果列表上的链接,而是作出某种有目的性的判断和选择,用户更加趋向于点击那些与他们的需求相吻合的链接。因此,点击数据是一种包含丰富信息的隐性反馈。如果搜索引擎可以提供动态的查询结果,使查询结果既与关键词相关,又与用户点击的特定目标网页相关,则可提高搜索结果对用户的可用性。
据此提出基于点击数据的FSE系统的框架模型如下:
FSE维护一个n×n的网页相关性矩阵Kn×n,其第i行j列元素Ki,j代表网页i和网页j的内容相关性。Ki,j的值越大,则表明网页i和网页j相关性越强。对于通用搜索引擎,即使考虑到数据稀疏性,K的存储和处理开销也可能非常大。故我们利用先进的维数约简方法,以获得K低扰动、高压缩比的约简表示。
因此,在FSE框架中的核心数据结构是网页相关性矩阵K。下面给出由[0,t]时段的用户点击数据建立网页相关性矩阵的方法。
网页相关性矩阵K的建立方法:
步骤一:由[0,t]时段的用户点击数据获得一个n×n的网页间的Co-Click矩阵Cn×n。其中Ci,j表示网页i和网页j被同时点击(指在同一次查询事件中被同时点击)的次数;
步骤二:由Cn×n确定一个有向图GC,GC的每个结点代表一个网页。求解GC上各结点之间的概率可达性,获得概率可达性矩阵Mn×n,其第i行j列元素mi,j表示从网页i到网页j的概率可达性;
步骤三:对M进行降维,获得M的低维压缩表示矩阵Rn×k
步骤四:将网页相关性矩阵K定义为归一化的RRT,其第i行j列元素Ki,j表示网页i和网页j的内容相关性。实际使用中,可以不显示求出K,而只是在使用Ki,j时计算R中对应行列的内积;
一个自然的直觉是,若Ci,j>0且Cj,k>0(即网页i和j被同时点击过,且网页j和k被同时点击过),则可能i和k之间也具有一定的内容相关性。但难以期望实际的用户点击数据矩阵C直接满足此种概率意义上的传递性。有两个原因:1)由主流搜索引擎获得的用户点击数据,因其固有的ranking机制,使得网页对之间的Co-click关系存在显著的系统偏差。一个典型的例子是:网页Pi与Pj之间具有显著的内容相关性,但Pj的ranking较低,因而在多数查询下难以被用户点击,则由矩阵C所反映的Pi与Pj之间的内容相关性必然不合理地低;2)考虑到通用搜索引擎的网页库规模和网页数量的动态增加,在某一具体的时段内,用户点击数据可能很不完备。
为了补偿上述ranking系统给矩阵Cn×n引入的系统偏差和数据不充分所导致的问题,我们基于矩阵Cn×nC求解任意两个网页实体间的概率可达性矩阵Mn×n,期望M可在一定程度上反映任意网页对之间内容相关性的传递性。
求出矩阵M之后,一个直接的做法是定义网页相关性矩阵K=MMT。但这样做时空开销太大,所以我们对矩阵Mn×n进行降维,获得其低维表示:矩阵Rn×k,并定义K为归一化的Rn×kRn×k T。这里所用的降维方法要符合两个条件:1)降维过程要保持内积,即可以用Rn×kRn×k T近似Mn×nMn×n T。2)降维方法对于大规模数据集具有现实的时空开销。我们提出的DRP方法较好地满足了上述两个要求。
本发明介绍了两种计算概率可达性的方法,它们分别有不同的应用场合。
定义有向图GC=<V,E,p>,其中V是结点集合,E是有向边集合,p是边权集合,
Figure GSB00000769857100081
代表一个网页,
Figure GSB00000769857100082
任意边<i,j>∈Eiff pi,j≠0。显然,如此定义的p决定了一个Markov矩阵,pi,j表示网页i到达网页j的转移概率。
下面分别给出求解概率可达性的两种方法。
1)基于最大可靠路的概率可达性方法
基于最大可靠路求解概率可达性的方法是一种精确方法,但其时间复杂性较高,只可用于中小规模的问题。下面先给出最大可靠路模型:
最大可靠路:
给定一个有向图Gc=<V,E,p>,GC中每条边<i,j>有一个可靠度pi,j,0<pi,j≤1。GC中任意一条路P的可靠度定义为P上所有边的可靠度的乘积,即
Figure GSB00000769857100083
GC的所有路中可靠度最大的路称为最大可靠路。
对于
Figure GSB00000769857100084
令wij=-logpi,j。则求GC中所有点对间的最大可靠路等价于求所有点对间关于w的最短路,而后者可由Dijkstra算法求解,其复杂度为O(|V|2log|V|)。若图GC中有较多的连通分支,可先确定GC的各连通分支,再对各连通分支分别使用Dijkstra算法,以降低时间开销。
上面给出了最大可靠路模型及其解法,将求解概率到达性的问题转化为求解最大可靠路问题。据此,网页i到j的概率可达性Mi,j可由为图GC中对应点间的最大可靠路获得,Mi,j计算公式为:
Figure GSB00000769857100085
li,j是点i和j之间的最大可靠路长度。
另外,根据不同的应用场合,本发明还提出了一种基于Markov chain Monte Carlo(MCMC)的概率可达性方法。
2)基于MCMC的概率可达性方法。
依次选取GC中每个结点作为源结点,重复以下仿真过程,依次求解各源结点到其它结点的概率可达性:首先为当前的源结点(不失一般性,记为当前源结点为i)分配一定数量(记为nc)的细胞,然后让所有细胞依p所决定的转移概率随机行走,即处于结点i的任意细胞在下一随机步行走到结点j的概率为pi,j,依此类推;在每个批次(一个批次指所有细胞均随机行走一步)的随机行走结束后,记录各结点中包含的细胞数,记第t步随机行走结束后结点j中包含的细胞数为
Figure GSB00000769857100091
在tmax个批次的随机行走结束后,定义
Figure GSB00000769857100092
这里规定tmax=6,这是考虑了所谓的6度分离效应[20]。上述方法的时间复杂度为O(n×nc×logd).其中,d为图GC中的各顶点最大的出度。可以证明,当细胞数量趋近无穷时,上述过程获得的解收敛于精确方法的解。
上面提到的直接随机映像(DRP),它作为一种概率可达性矩阵M的压缩方法。在本发明中的具体实现方法如下:M的预期规模使基于特征值计算的维数约简方法(如SVD)难以有效工作,为此采用随机映像方法族。当前的主要随机映像方法需要通过矩阵乘法获得数据点的投影,其时间复杂性为O(kdn)。我而本发明则给出一个复杂性为O(dn)的新颖随机映像方法(直接随机映像,DRP)。DRP除了具有的加速比k(对于典型的文本应用,k经常在100-1000之间),还可以有效保持原数据矩阵的稀疏性,相对于其他RP方法具有更高的空间效率。
DRP方法:令Mn×n=[x1,x2,…,xn]T,xi∈Rn×k n,选出矩阵M中方差最大的k个列,记这k个列组成的矩阵为M(k),则嵌入
Figure GSB00000769857100093
DRP的有效性和可用性可由下列定理和分析导出:
定理1给定d个随机变量X1,X2,…,Xd,其中
Figure GSB00000769857100094
独立于Xj。X={x1,x2,…,xn}是这d个随机变量的一个中大规模的样本(例如n>100),每一个xi=[x1,x2,…,xd]T都是随机变量X1,X2,…,Xd的一个采样,则存在线性约简映射f:Rd→Rk,(1□k<d),使得:
1 n ( n - 1 ) &Sigma; i , j &Element; { 1 , &CenterDot; &CenterDot; &CenterDot; , n } , i < j | | | f ( x i ) - f ( x j ) | | 2 - | | x i - x j | | 2 | | x i - x j | | 2 | &le; B ( d,k ) (*)
其中 B ( d , k ) = max { ( 1 - &Integral; 0 1 &beta;dG ( &beta; ) ) , ( - &Integral; 1 d / k &beta;dG ( &beta; ) - 1 ) } ,
G ( &beta; ) = exp ( k 2 ( 1 - &beta; + 1 n&beta; ) ) 0 < &beta; < d / k 0 &beta; = d / k
定理2给定d个随机变量X1,X2,…,Xd,其中
Figure GSB00000769857100101
独立于Xj。X={x1,x2,…,xn}是这d个随机变量的一个中大规模的样本(例如n>100),每一个xi=[x1,x2,…,xd]T都是随机变量X1,X2,…,Xd的一个采样,则给定任意小的失败概率δ,可以在
Figure GSB00000769857100102
的随机时间内,发现一个满足由定理1给出的期望扰动边界的DRP。
定理1和2的前提假设是即各个随机变量Xi的方差是相同的。对于方差不同的随机变量,如方法1所述,应选择那些方差最大的列作为嵌入。下面说明这样做的理由。
令各随机变量
Figure GSB00000769857100104
则可把各随机变量中心化,得到
Figure GSB00000769857100105
显然中心化不影响样本点之间距离的分布。同时,可定义一组相互独立的单元随机变量,这些单元随机变量服从N(0,σ2),使得
Figure GSB00000769857100106
X′i可被看作是ρi个独立的单元随机变量的和,即
Figure GSB00000769857100107
这里ρi是正整数。可以看出,选择变量X′i就可以看作是选择了ρi个单元随机变量。根据定理1,期望误差(指嵌入误差的期望)的界随着k的增加而单调递减。所以,为了得到较理想的期望扰动,应选用方差最大的那些列作为嵌入。
另一个值得注意的是缩放因子。当各个随机变量的方差不一样时,其缩放因子应该是总的单元变量个数与所选的单元变量个数之比的开方,即:(实际计算中利用||X||F/||X(k)||F作为(
Figure GSB00000769857100109
的估计,这里矩阵X(k)由X中方差最大的k个列组成。以上说明了DRP对于距离的保持。利用类似的思路及Hoeffding不等式,可证明DRP的内积保持性质。
以上建立好网页相关性矩阵的FSE搜索方法,包括以下步骤:
步骤一:当收到一个查询请求时,首先利用主流搜索引擎生成一个初始查询结果集(初始结果集中的网页应与查询词相关。)作为初始查询结果集,在系统开销许可的前提下,应尽可能具有一定的多样性,特别是作为第一页返回的结果。
步骤二:当前用户查看查询结果并点击了某个目标网页后,FSE获取该目标网页的ID,并从网页相关性矩阵K中查询出初始结果集中所有网页与目标网页的相关性,然后将与目标网页相关性最大的网页作为新的查询结果提交给用户。
本发明的最佳实施效果依赖于网页内容相关性矩阵的有效性分析,因此,给出一最佳实施例来说明分析网页内容相关性矩阵Kn×n(即Mn×nMn×n T)的有效性。基本思路是:以人工标注的网页相关性作为标准,比较由矩阵K和由向量空间模型(VSM)所分别导出的网页相关性序关系的中肯性,即哪个序关系与人工标注之间具有更强的相似性。具体方法描述如下,例如:
1)从5000个网页中选出50个网页。选择的标准是尽量使这50个网页间具有较大的主观差异性,以便于人工标注;
2)从矩阵K中选出这50个网页对应的50×50子矩阵,记为L;
3)计算这50个网页的基于VSM的相关性矩阵S;
4)找出矩阵L和S的所有逆序对:(ji,ki)为一个逆序对,当且仅当(Li,j-Li,k)(Si,j-Si,k)<0,其中i,j,k∈{1,…,50},且j≠i,k≠i;
5)从第4步中得到的逆序对中人工选择出可做明显主观判断的m个逆序对;
6)以人工判断作为评判依据,找出矩阵L和S在m个逆序对中的错误数,分别记为err(L)和err(S);以及矩阵L和S在m个逆序对中的错误率,即r(L)=err(L)/m和r(S)=err(S)/m。易知r(L)+r(S)=1
7)由第6步的结果和Chernoff不等式,估计L的错误数小于S的错误数的概率。
具体实验中,我们选择人工可做明显的主观判断的m=529个逆序对,求得err(L)=235,err(S)=294。r(L)=0.4442。r(S)=0.5558。利用Chernoff不等式估计获得的尾边界为0.0372,即L的错误数小于S的错误数的概率为1-0.0372=0.9628。
基于点击数据的FSE维护由大量用户点击样本获得的网页内容相关性,对于每个查询请求,经由用户交互和网页内容相关性信息辨识查询主题和查询意图。该方法避免了学习query-sensitive的ranking函数的复杂性,具有与通用搜索引擎相适应的时空效率。与基于网页分类的方法相比,本查询扩展系统通过取消类别的概念,代以网页级的相关性分析,可解决类别划分的粒度-归属难题;与基于用户个性配置文件跟踪的方法相比,FSE利用具有统计平稳性的网页内容相关性信息,不需长期跟踪特定用户的行为,即可为该用户提供统计意义上的优化服务;与基于点击数据直接优化搜索结果的方法相比,FSE可有效解决一义多词和一词多义问题。

Claims (6)

1.一种基于内容相关性的反馈式搜索方法,该方法包括以下步骤:
当收到一个查询请求时,利用主流搜索引擎生成初始查询结果集;
当前用户查看查询结果并点击目标网页后,获取该目标网页的ID,并从网页相关性矩阵K中查询出初始查询结果集中所有网页与目标网页的相关性;
将与目标网页相关性最大的网页作为新的查询结果提交给用户;
其中,网页相关性矩阵K的建立,包括以下步骤:
由[0,t]时段的用户点击数据获得一个n×n的网页间的Co-Click矩阵Cn×n,Co-Click矩阵Cn×n即Cn×n的第i行第j列元素Ci,j表示网页i和网页j在同一次查询事件中被同时点击的次数;
由Cn×n确定一个有向图GC,求解GC上各结点之间的概率可达性,基于矩阵Cn×n求解任意两个网页实体间的概率可达性矩阵Mn×n,概率可达性矩阵Mn×n其第i行第j列元素Mi,j表示从网页i到网页j的概率可达性;定义有向图GC=<V,E,p>,其中V是结点集合,E是有向边集合,p是边权集合, 
Figure FSB00000769857000011
代表一个网页, 任意边<i,j>∈Eiff pi,j≠0,如此定义的p决定了一个Markov矩阵,pi,j表示网页i到达网页j的转移概率;
对概率可达性矩阵Mn×n进行降维,获得Mn×n的低维压缩表示矩阵Rn×k;所述对概率可达性矩阵Mn×n进行降维,该步骤包括:令Mn×n=[x1,x2,…,xn]T,xi∈Rn×k n,选出矩阵Mn×n中方差最大的k个列,这k个列组成的矩阵为M(k),将其嵌入 
Figure FSB00000769857000013
将网页相关性矩阵K定义为归一化的Rn×kRn×k T
2.如权利要求1所述的基于内容相关性的反馈式搜索方法,其特征在于,所述基于矩阵Cn×n求解任意两个网页实体间的概率可达性矩阵Mn×n,该步骤包括: 
给定一个有向图G=<V,E,p>,其中每条边<i,j>有一个可靠度pi,j,且0<pi,j≤1;G中任意一条路P的可靠度定义为P上所有边的可靠度的乘积,即 
Figure FSB00000769857000021
所有路中可靠度最大的路作为最大可靠路;
对于 
Figure FSB00000769857000022
令wij=-logpi,j,求出G中所有点对间的最大可靠路等价于所有点对间关于w的最短路;
网页i到j的概率可达性Mi,j计算公式为: 
Figure FSB00000769857000023
li,j是点i和j之间的最大可靠路长度。
3.如权利要求1所述的基于内容相关性的反馈式搜索方法,其特征在于,所述基于矩阵Cn×n求解任意两个网页实体间的概率可达性矩阵Mn×n,该步骤包括:
依次选取有向图GC中每个结点作为源结点,重复执行以下仿真过程,依次求解各源结点到其它结点的概率可达性矩阵Mn×n
首先为当前的源结点i分配细胞,数量记为nc;
所有细胞依p所决定的转移概率随机行走,即处于源结点i的任意细胞在下一随机步行走到结点j的概率为pi,j
依此类推,在每个批次的随机行走结束后,记录各结点中包含的细胞数,记第t步随机行走结束后结点j中包含的细胞数为 
Figure FSB00000769857000024
在tmax个批次的随机行走结束后,定义 
Figure FSB00000769857000025
其中tmax=6。
4.一种直接应用于基于内容相关性的反馈式搜索的内容相关方法,建立网页相关性矩阵K,该方法包括以下步骤:
由[0,t]时段的用户点击数据获得一个n×n的网页间的Co-Click矩阵Cn×n,即Cn×n的第i行第j列元素Ci,j表示网页i和网页j在同一次查询事件中被同时点击的次数;
由Cn×n确定一个有向图GC,求解GC上各结点之间的概率可达性,基于矩阵Cn×n求解任意两个网页实体间的概率可达性矩阵Mn×n;其第i行第j列元素Mi,j表示从网页i 到网页j的概率可达性;定义有向图GC=<V,E,p>,其中V是结点集合,E是有向边集合,p是边权集合, 代表一个网页, 
Figure FSB00000769857000032
任意边<i,j>∈Eiff pi,j≠0,如此定义的p决定了一个Markov矩阵,pi,j表示网页i到达网页j的转移概率;
对概率可达性矩阵Mn×n进行降维,获得Mn×n的低维压缩表示矩阵Rn×k;所述对概率可达性矩阵Mn×n进行降维,该步骤包括:令Mn×n=[x1,x2,…,xn]T,xi∈Rn×k n,选出矩阵Mn×n中方差最大的k个列,这k个列组成的矩阵为M(k),将其嵌入 
Figure FSB00000769857000033
将网页相关性矩阵K定义为归一化的Rn×kRn×k T
5.如权利要求4所述的直接应用于基于内容相关性的反馈式搜索的内容相关方法,其特征在于,所述基于矩阵Cn×n求解任意两个网页实体间的概率可达性矩阵Mn×n,该步骤包括:
给定一个有向图G=<V,E,p>,其中每条边<i,j>有一个可靠度pi,j,且0<pi,j≤l;G中任意一条路P的可靠度定义为P上所有边的可靠度的乘积,即 所有路中可靠度最大的路作为最大可靠路;
对于 
Figure FSB00000769857000035
令wij=-logpi,j,求出G中所有点对间的最大可靠路等价于所有点对间关于w的最短路;
网页i到j的概率可达性Mi,j计算公式为: 
Figure FSB00000769857000036
li,j是点i和j之间的最大可靠路长度。
6.如权利要求4所述的直接应用于基于内容相关性的反馈式搜索的内容相关方法,其特征在于,所述基于矩阵Cn×n求解任意两个网页实体间的概率可达性矩阵Mn×n,该步骤包括: 
依次选取有向图 GC中每个结点作为源结点,重复执行以下仿真过程,依次求解各源结点到其它结点的概率可达性矩阵Mn×n
首先为当前的源结点i分配细胞,数量记为nc;
所有细胞依p所决定的转移概率随机行走,即处于源结点i的任意细胞在下一随机步行走到结点j的概率为pi,j
依此类推,在每个批次的随机行走结束后,记录各结点中包含的细胞数,记第t步随机行走结束后结点j中包含的细胞数为 
Figure FSB00000769857000041
在tmax个批次的随机行走结束后,定义 
Figure FSB00000769857000042
其中tmax=6。 
CN200810052580A 2008-04-01 2008-04-01 基于内容相关性的反馈式搜索方法及内容相关方法 Expired - Fee Related CN101256573B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200810052580A CN101256573B (zh) 2008-04-01 2008-04-01 基于内容相关性的反馈式搜索方法及内容相关方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810052580A CN101256573B (zh) 2008-04-01 2008-04-01 基于内容相关性的反馈式搜索方法及内容相关方法

Publications (2)

Publication Number Publication Date
CN101256573A CN101256573A (zh) 2008-09-03
CN101256573B true CN101256573B (zh) 2012-10-10

Family

ID=39891399

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810052580A Expired - Fee Related CN101256573B (zh) 2008-04-01 2008-04-01 基于内容相关性的反馈式搜索方法及内容相关方法

Country Status (1)

Country Link
CN (1) CN101256573B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923545B (zh) * 2009-06-15 2012-10-10 北京百分通联传媒技术有限公司 一种个性化信息推荐的方法
CN102236677A (zh) * 2010-04-28 2011-11-09 北京大学深圳研究生院 一种基于问答系统的信息匹配方法及系统
CN103116582B (zh) * 2011-11-16 2016-03-02 阿里巴巴集团控股有限公司 一种信息检索方法及相关系统和装置
CN104462084B (zh) * 2013-09-13 2019-08-16 Sap欧洲公司 基于多个查询提供搜索细化建议
CN104573147A (zh) * 2013-10-17 2015-04-29 北京华大九天软件有限公司 基于波形相关性比较标准单元库的方法
CN105808596B (zh) * 2014-12-31 2019-06-14 北京奇虎科技有限公司 基于用户行为特征的搜索资源收录方法及装置
US10489463B2 (en) * 2015-02-12 2019-11-26 Microsoft Technology Licensing, Llc Finding documents describing solutions to computing issues
CN106156023B (zh) * 2015-03-23 2020-02-21 华为技术有限公司 语义匹配的方法、装置和系统
CN105243106A (zh) * 2015-09-22 2016-01-13 百度在线网络技术(北京)有限公司 一种用于生成查询结果的方法和装置
CN108959332B (zh) * 2017-08-03 2021-09-14 中国人民解放军国防科学技术大学 一种利用高维辅助信息修正的内容推荐方法及推荐系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Framework of Feedback Search Engine Motivated by Content Relevance Mining;侯越先等;《IEEE Computer Society》;20061231;全文 *
侯越先等.A Framework of Feedback Search Engine Motivated by Content Relevance Mining.《IEEE Computer Society》.2006,全文.

Also Published As

Publication number Publication date
CN101256573A (zh) 2008-09-03

Similar Documents

Publication Publication Date Title
CN101256573B (zh) 基于内容相关性的反馈式搜索方法及内容相关方法
Ibrahim et al. Tools and approaches for topic detection from Twitter streams: survey
Popescul et al. Statistical relational learning for link prediction
RU2517271C2 (ru) Длина документа в качестве статического признака релевантности для ранжирования результатов поиска
US8407214B2 (en) Constructing a classifier for classifying queries
US9104733B2 (en) Web search ranking
Qian et al. Dynamic author name disambiguation for growing digital libraries
US20110047166A1 (en) System and methods of relating trademarks and patent documents
US20090254512A1 (en) Ad matching by augmenting a search query with knowledge obtained through search engine results
Kumar et al. Supervised language modeling for temporal resolution of texts
Hark et al. Karcı summarization: A simple and effective approach for automatic text summarization using Karcı entropy
Dat et al. STING algorithm used English sentiment classification in a parallel environment
Carterette Robust test collections for retrieval evaluation
CN104298776A (zh) 基于lda模型的搜索引擎结果优化系统
Zhang et al. Topic modeling for OLAP on multidimensional text databases: topic cube and its applications
US7925645B2 (en) Dynamic metadata filtering for classifier prediction
Agarwal et al. Evaluation of web service clustering using Dirichlet Multinomial Mixture model based approach for Dimensionality Reduction in service representation
Jiang et al. Query intent mining with multiple dimensions of web search data
Sun et al. An efficient hierarchical clustering method for large datasets with map-reduce
Hui et al. Integration of big data: a survey
Zhao et al. Learned sketch for subgraph counting: a holistic approach
Klink Query reformulation with collaborative concept-based expansion
Chauhan et al. Algorithm for semantic based similarity measure
Hu et al. Microarray gene cluster identification and annotation through cluster ensemble and EM-based informative textual summarization
Zhu et al. Semantic-distance based evaluation of ranking queries over relational databases

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121010

CF01 Termination of patent right due to non-payment of annual fee