CN103488638B

CN103488638B - 一种结果缓存替换的优化方法

Info

Publication number: CN103488638B
Application number: CN201210191976.2A
Authority: CN
Inventors: 宗朗; 陈薇; 王腾蛟; 杨冬青
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2012-06-11
Filing date: 2012-06-11
Publication date: 2016-12-07
Anticipated expiration: 2032-06-11
Also published as: CN103488638A

Abstract

本发明公开了一种结果缓存替换的优化方法，属于计算机网络技术领域。本方法为：1)以系统搜索日志中的用户ID为键、用户发起的请求为键值建立一哈希表h2；2)将同一用户ID发起的所有请求进行拼接，得到一字符串，对所有用户的拼接字符串构成的文档集进行话题模型分析，获得话题集合M及关联度；3)计算与某话题相关的搜索请求出现次数与同一时间段内所有请求出现次数的比值，计算该请求的权重贡献值；4)当收到一请求q时，查找匹配的结果缓存并返回和更新h2；如果没有，则在h2中查找对应的键值并与q拼接，计算q的权重贡献值；5)将结果缓存中权重较低的结果项替换出去，并加入新的缓存项。本发明可大大提高缓存命中率的效果。

Description

一种结果缓存替换的优化方法

技术领域

本发明涉及的是一种搜索引擎和全文检索系统中，提高结果缓存命中率的方法，具体是利用结果质量和搜索请求的语义特征来提高结果缓存的命中率的方法，属于计算机网络技术领域。

背景技术

现代搜索引擎每天要处理数亿到数十亿的搜索请求，因此，对搜索请求的快速处理是一个至关重要的问题。在现代搜索引擎中，结果缓存是一个非常重要的性能部件。因此，如何有效的提高结果缓存的效率，是一个在学术界和产业界备受关注的问题。

结果缓存作为缓存的一种，满足缓存机制的基本假设，即搜索请求的局部性原则，即曾经出现过的搜索请求，在短时间内可能会再次出现。对于搜索引擎来说，这代表了有些用户可能会对自己刚刚搜索过的内容再次搜索，或者在某段时间内，不同的用户对于某些热点事件发出了相同的搜索请求。结果缓存作为搜索引擎的最上层，存储了在过去某段时间内，搜索引擎系统认为可能会再次出现的搜索请求及其结果，包括相关应该返回的网页信息和对这些结果的评价。

对于结果缓存来说，影响其性能的一个最重要的指标就是缓存命中率(Cache Hit Ratio)。对于缓存来说，如果我们某次请求查询的数据已经存在于缓存之中了，则称为一次缓存命中(Cache Hit)，反之则称为未命中(Cache Miss)。在缓存持续提供服务的过程中，缓存命中的百分比称为缓存命中率。如果某次对某一数据项的查询没有命中，则需要对该搜索请求进行重新计算。因此，在给定缓存存储空间大小的情况下，缓存命中率越高，则需要重新计算的搜索请求也就越少，从而就降低了计算代价。

在整个系统开始提供服务后，搜索引擎会针对不同的搜索请求，不断的计算出新的结果，此时，如果结果缓存空间没有被占满，则计算结果将被不断的存储到结果缓存之中。当结果缓存中存满了结果之后，如果再出现了新的结果，则需要对结果缓存中的所有结果项进行评估，从中选择一些结果项并将其清理出结果缓存，并将新计算的结果项放入结果缓存之中，以上过程称为缓存替换(Cache Replacement)，缓存替换中遵循的原则或算法则称为缓存替换策略(Cache Replacement Policy)。为了提高缓存命中率，国内外的专家学者提出了很多种针对不同情况的缓存替换策略，例如LRU(Least Recently Used)和LFU(Least Frequently Used)等等。这些算法着眼于搜索请求的局部性，分析搜索请求的自身特征，将一段时间内使用频繁的搜索请求的结果项在结果缓存中尽量保存较长的时间。

这些方法对于提高结果缓存的命中率非常有意义，然而他们大多数只考虑搜索请求的自身特征，没有考虑搜索结果的质量对搜索请求再次出现的概率的影响，也没有考虑搜索请求的语义特征，使得结果缓存的命中率距离可以获得的最好命中率之间还有很大距离。

发明内容

本发明针对上述现有技术的不足，本发明的目的在于提供一种结果缓存替换的优化方法，该方法可提高结果缓存命中率，通过分析结果的质量以及搜索请求的语义特征，进一步提高预测结果项可能会再次出现的概率的准确度，从而达到提高缓存命中率的效果。

本发明的技术方案为：

一种结果缓存替换的优化方法，其步骤为：

1)初始化一结果缓存空间；

2)读取系统搜索日志，以系统搜索日志中的用户ID为键、用户发起的请求为键值建立一哈希表h2；

3)将同一用户ID发起的所有请求进行拼接，得到一字符串；将每条字符串作为一个文档，对所有用户的拼接字符串构成的文档集进行话题模型分析，获得话题集合M及文档与每个话题mi之间的关联度pi；

4)计算一段时间内，与话题mi相关的搜索请求出现次数与这一时间段内所有请求出现次数的比值hi，根据比值hi和关联度pi计算该请求的权重贡献值，并将结果缓存存入结果缓存空间中，直到结果缓存空间存满；

5)当收到一用户请求q时，在结果缓存空间中查找匹配的结果缓存并返回和更新h2；如果没有匹配结果缓存，则根据当前用户请求q的用户ID，在哈希表h2中查找对应的键值并与q拼接，计算q的权重贡献值；如果哈希表h2中没有对应的用户ID，则将其作为新的项添加到h2，并计算q的权重贡献值；

6)如果请求q对应结果缓存的权重小于缓存空间中当前权重最小的结果缓存的权重，则不缓存请求q的结果缓存；否则将请求q的结果缓存替换当前权重最小的结果缓存。

进一步的，所述步骤2)中，提取系统日志中页面的URL，以URL为键、页面点击次数和页面在结果中出现的次数为键值建立一哈希表h1。

进一步的，对于请求q，利用其结果缓存及用户反馈，更新哈希表h1。

进一步的，对于请求q，将哈希表h1中的用户点击归一化后，计算搜索结果质量重要度F1的值。

进一步的，采用公式计算比值hi，其中，ti是指一段时间内出现与话题mi相关的搜索请求次数，n为话题总数。

进一步的，计算某一请求的权重贡献值F2的公式为

进一步的，每一请求的结果缓存权重W为该请求缓存项权重、该请求搜索结果质量重要度F1值、请求的权重贡献值F2值三者之和。

进一步的，应用公式F1＝1/(1-p1)*(1-p2)计算搜索质量重要度F1的值，p1为网页在搜索日志结果中出现的次数比例、p2为网页被用户点击的次数比例。

进一步的，采用LDA模型对文档集进行话题模型分析，获得话题集合M及文档与每个话题mi之间的关联度pi。

本发明是通过以下技术方案实现的，利用如下F1和F2两种方法改进原有的缓存替换策略：

第一，利用搜索结果质量增强搜索请求的重要度度量(即F1方法)。

上文中提到，结果缓存的基本假设是搜索请求的局部性特征。通常来说，对于系统看来，将短时间内可能会再次出现的搜索请求结果项放入结果缓存中。

我们将“好的”搜索请求的定义是那些能够有效的返回用户想要的结果的搜索请求。如何度量这一特征，过去的学者们提出了很多方法，比如搜索请求的词的个数、是否为常见词汇、是否有拼写错误等等，在以往的针对搜索请求的结果缓存替换策略研究中，也对这些特征进行了分析。

本发明着眼于搜索请求的结果质量，认为如果对于一个搜索请求的返回结果中，用户点击的页面质量较高，则反映了这一搜索请求本身的质量也较高。

一般认为，如果搜索引擎返回了质量比较高的网页结果，则说明搜索引擎系统本身能够很好的理解用户搜索请求，并且其搜索和排序算法都是行之有效的。然而，搜索结果的质量同样也能反映出搜索请求的质量。因为在现实意义中，如果一个搜索请求返回了高质量的结果，说明用户熟悉搜索引擎的运作模式，能够提供符合搜索引擎要求的搜索请求。

对于搜索结果的度量，有很多不同的方法，比如相关性，用户点击率等等。对于搜索引擎的结果缓存来说，考虑到整个系统需要不停的对用户进行服务，因此需要兼顾这一度量的准确度，以及度量的时间消耗。与以往的方法不同，本方法增加采用全局用户点击来做出这一度量：全局用户点击可以从用户的搜索日志中获得。借助统计一个网页本身出现在结果中的比例，以及其被不同用户点击的次数占总点击次数的比例，从而进行归一化，得到我们所要的网页质量度量。

我们将增加这种网页质量的贡献值的方法称为F1。

第二，利用搜索请求语义特征增强搜索请求再次出现概率的度量(即F2方法)。

在调研前人的工作成果时，其实我们可以发现，搜索请求的局部性是和搜索请求本身的语义密不可分的。在现实意义上，这体现在两个方面：

一个用户重复自己的搜索请求或类似的搜索请求。用户在一段时间内的搜索请求具有语义上的连贯性，即用户很有可能再次搜索自己搜索过的请求，或者针对某一搜索请求进行深入搜索。

不同用户发起同一个搜索请求。在某些情况下，用户很有可能针对某一热点话题(如重大新闻)，不约而同的发起相同的搜索请求。

从上面两个方面，我们可以看出，搜索请求之所以具有局部性特征，很大程度上是和搜索请求本身的语义密切相关。然而，我们看到，在以往的研究工作中，学者们往往忽略了这一事实，这主要是由于一个显著困难：搜索请求往往是非常简短的关键词罗列。

为了解决这一个问题，本发明利用了单个用户搜索请求的话题局部性特征。这一特征的具体表述是：在一段比较短的时间内，用户往往只对一个或者少数几个话题感兴趣。在行为上，表现为一段时间内，用户的搜索请求往往都是跟某个或者某几个话题相关的，这些话题可以通过使用话题模型分析的方法挖掘出来。根据搜索日志，可以将用户一段时间内的搜索请求拼接起来，即将用户一段时间的query进行顺序连接，然后将拼接的结果使用话题模型分析的方法(例如但不仅限于LDA模型)话题划分。采用这一方法，我们可以得到用户搜索请求和话题之间的关联。

为了度量搜索请求再次出现的可能性，我们还需要对话题的热度进行追踪。在这里，我们定义话题的热度为一段时间内，跟某个话题相关的搜索请求出现次数与这一时间段内所有请求出现次数的比。即

h_{i} = t_{i} / Σ_{k = 1}^{n} t_{k}

其中，ti指的是一段时间内出现与Topic i相关的搜索请求次数，n为话题总数。

于是，我们对搜索请求的语义分析，可以定义搜索请求的语义对该请求的贡献为：

F 2 = \frac{1}{1 - Σ p_{i} h_{i}}

其中，pi指这一搜索请求属于Topic i的概率(pi由任意话题模型分析均可给出，例如LDA方法，文献David M.Blei，Andrew Y.Ng，Michael I.Jordan，Latent dirichlet allocation，The Journal of Machine Learning Research，3，p.993-1022，3/1/2003)，hi表示这一Topic目前的热度。F2的值是一个大于等于1的正值。我们将增加这一语义贡献的方法称为F2。

与现有技术相比，本发明的积极效果为：

利用结果质量分析和话题模型分析，对现有的任意基于Feature分析的缓存替换策略进行完善，从而达到提升缓存命中率的目的。

附图说明

图1为本发明方法流程图；

图2为LRU和用F1、F2改进的LRU算法命中率效果对比图；

图3为PDC和用F1、F2改进的PDC算法命中率效果对比图。

具体实施方式

本发明适用于结果缓存，其具体的实施方式是将F1和F2两种改进应用于原有的结果缓存替换策略之上，从而对原有的结果缓存替换策略进行完善，达到提高结果缓存命中率的目的。

本发明的方法流程如图1所示，本实施例包括如下步骤：

第一步：对结果缓存进行初始化，即初始化一结果缓存空间，包括初始化替换方式，可存储结果项数目等环境变量。

第二步：对本方法中需要的数据进行提取和预处理，包括：

●读取系统搜索日志(Query Log)。

●获取所有页面出现的总次数和用户点击的总次数。

●提取系统日志中每个不同的页面的URL，以URL为Key做Hash表(h1)，其value为对应的结果中页面被用户点击的次数和页面在结果中出现的次数。

●对系统搜索日志中，以不同用户ID为Key做Hash表(h2)，其Value为一系列用户发起的Query。

●对每个用户ID，将其发起的所有Query进行拼接，最后得到一个字符串。

●将每条字符串视为一个文档，对这些文档集进行话题模型分析(例如，可使用但不仅限于LDA模型)，获得话题集合M(其中包括一系列话题mi)及文档与每个话题mi之间的关联度pi。

第三步：在系统对用户提供搜索服务的过程中，计算新产生的结果项的权重并将结果缓存不断存入结果缓存空间中，直到结果缓存空间完全存满。

第四步：在继续为用户提供搜索服务的过程中，应用改进后的结果缓存替换策略，将结果缓存中权重较低的结果项替换出去，并加入新的缓存项。

●在上述三、四两个步骤中，与以往方法不同的是，对每一条新的用户query q，如果有对应的缓存项，则直接返回结果，并更新h1和h2；如果没有存在于结果缓存中(Cache Miss)，则需要根据用户ID，访问哈希表h2中的对应的Value，并将q拼接上去，对其拼接结果使用话题模型，从而得到q关联不同话题mi的概率pi，再根据上面的公式求出F2的值；如果h2中没有对应的用户ID，则说明是一个新用户，需要对h2添加新的项，同时对q单独使用话题模型并应用上述操作。

●对于q，利用搜索引擎返回的结果及用户反馈，更新哈希表h1.

●对于q，将哈希表h1中的用户点击使用通用方法归一化后，得到搜索结果质量重要度F1的值。具体来说，通过统计网页在搜索日志结果中出现的次数比例p1和被用户点击的次数比例p2，应用公式F1＝1/(1-p1)*(1-p2)，即可得到F1的值。其中，p1由h1中获得的对应URL出现次数除以第二步中获得的所有URL出现总次数获得，p2由h1中获得的对应URL被用户点击次数除以第二步中获得的所有用户总点击次数获得。

所述的改进后的结果缓存策略，是指在原有的缓存替换策略的基础上，附加应用F1和F2两种改进方法的结果缓存策略。

附加应用改进方法的策略如下：

假设原有方案中，某缓存项对应的权重为W，则：

W₁＝W*F1

W₂＝W*F2

W_1，2＝W*F1*F2

本实施例中，采用了LRU和PDC两种方案作为原有缓存替换策略，并对本发明的具体效果做了进一步检验。

LRU是最近最少使用算法，对于每一条缓存项，系统记录其最近一段周期被调用的次数，并伴随着每次查询缓存操作进行更新。当有缓存项需要替换出结果缓存的时候，系统选择最近最少被使用的项。PDC在LRU的基础上增加了概率模型。需要特别指出的是，本方法是一种通用的增强方法，对于绝大多数缓存替换策略，只要其基于不同权重之间比较的，均可以采用本方法对原有权重进行修正。

检验实验设定

本发明是一种实用性很强的方法，对原有缓存替换策略的改进从而提升的缓存命中率，可以通过真实数据上的实验进行检验。

本方法的试验检验中，采用LRU和PDC两种方法作为原有的缓存替换策略。

本方法的试验检验中，选用Clairvoyant算法作为一个上限基准：Clairvoyant算法是一个离线的算法，每次从缓存中去掉的，都是在未来最晚再次出现的数据项。与Clairvoyant算法越接近，说明缓存替换策略对命中率的提升越高。

本方法的试验检验中，采用JAVA实现相关算法，对文档的静态评分采用Lucene的打分机制，使用开源工具JGibbLDA对搜索请求做LDA模型分析。

本方法的实验环境为：AMD Opteron 865处理器，1.65GHz，8核，32GB可用内存，1T硬盘，操作系统为Windows Server 2003。

本文选用AOL dataset作为实验用数据集。AOL dataset是一个真实的数据集，收集了65万用户在2006年3月到5月对新闻网站美国在线发起的共计36389567条query查询请求。AOL dataset的每一行包含如下信息：

AnonID：每个用户对应的ID。

Query：用户提出的查询请求。

QueryTime：Query被发出的时间。

ItemRank：如果用户点击了这条Query返回的某些结果，则这些结果对应的评分将被陈列出来。

ClickURL：如果用户点击了某些Query的返回结果，则给出对应的URL和相应的domain。

本文对AOL的数据集进行了预处理，去除了只包含stopword的搜索请求，同样去除了一些对同一个搜索请求去点击其他结果页面的请求。

最终获得的数据集包含17448985条数据，包含10087344条不同的搜索请求。在这个数据集中，5605830条搜索请求只出现了一次，1005241条搜索请求恰好出现了两次。

实验结果及分析

图2和图3分别给出了同时使用F1和F2两种方法改进LRU和PDC这两种缓存替换策略的对比结果。

从两张图上可以明显看出，F1和F2两种方法对基准方法的缓存命中率具有不错的提升，其中，单纯增加F2特征方法的命中率略高于单纯增加F1的方法。混合使用两种方法的命中率提高最明显，平均可以增加4％-5％的缓存命中率，很明显的减少了原基准方法与Clairvoyant算法的缓存命中率之间的距离。

Claims

1.一种结果缓存替换的优化方法，其步骤为：

1)初始化一结果缓存空间；

2)读取系统搜索日志，以系统搜索日志中的用户ID为键、用户发起的请求为键值建立一哈希表h2；以及提取系统日志中页面的URL，以URL为键、页面点击次数和页面在结果中出现的次数为键值建立一哈希表h1；

5)当收到一用户请求q时，在结果缓存空间中查找匹配的结果缓存并返回和更新哈希表h2，以及利用该结果缓存及用户反馈更新哈希表h1，然后将哈希表h1中的用户点击归一化后，计算搜索结果质量重要度F1的值；如果没有匹配结果缓存，则根据当前用户请求q的用户ID，在哈希表h2中查找对应的键值并与q拼接，计算q的权重贡献值；如果哈希表h2中没有对应的用户ID，则将其作为新的项添加到h2，并计算q的权重贡献值；

6)如果请求q对应结果缓存的权重小于缓存空间中当前权重最小的结果缓存的权重，则不缓存请求q的结果缓存；否则将请求q的结果缓存替换当前权重最小的结果缓存；其中，每一请求的结果缓存权重W为该请求缓存项权重、该请求搜索结果质量重要度F1值、请求的权重贡献值F2值三者之和。

2.如权利要求1所述的方法，其特征在于采用公式计算比值hi，其中，ti是指一段时间内出现与话题mi相关的搜索请求次数，n为话题总数。

3.如权利要求2所述的方法，其特征在于计算某一请求的权重贡献值F2的公式为

4.如权利要求1所述的方法，其特征在于应用公式F1＝1/(1-p1)*(1-p2)计算搜索质量重要度F1的值，p1为网页在搜索日志结果中出现的次数比例、p2为网页被用户点击的次数比例。

5.如权利要求1所述的方法，其特征在于采用LDA模型对文档集进行话题模型分析，获得话题集合M及文档与每个话题mi之间的关联度pi。