CN103455564A

CN103455564A - 一种根据维基百科中话题信息使查询词项多样化的方法

Info

Publication number: CN103455564A
Application number: CN2013103563193A
Authority: CN
Inventors: 胡昊; 张明西; 汪卫; 王鹏; 何震瀛
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2013-08-15
Filing date: 2013-08-15
Publication date: 2013-12-18
Anticipated expiration: 2033-08-15
Also published as: CN103455564B

Abstract

本发明属于关系数据库技术领域，具体为一种根据维基百科中话题信息使查询词项多样化的方法。该方法的步骤为：给定目标查询词t ₀，候选扩展集T，维基百科中的话题信息C和页面信息D(C)，相似性函数sim ₁、sim ₂，整数k和实数

（

），通过贪心方法，在每一轮迭代中寻找当前与目标查询词t ₀既相似又同时具有最大的话题多样性的词项，直至k个词项

都被找到。本发明在扩展查询此项时引入了外部的维基百科分类信息，从而使扩展的多样性得以更高。

Description

一种根据维基百科中话题信息使查询词项多样化的方法

技术领域

本发明属于关系数据库技术领域，具体涉及一种根据维基百科中话题信息使查询词项多样化的方法。

背景技术

近年来，关键字查询作为从结构化或半结构化数据中提取所需信息的方法已被广为接受。为提高查询质量，查询推荐是常用的方法。查询推荐方法在用户提交关键字进行查询时根据查询记录分析等方法推荐一些相关的关键字供用户选择。

然而，仅推荐相关的关键字是不够的，向用户推荐的这些关键字两两之间应该在话题上尽可能的不同，这样才能使关键字尽可能的覆盖更多的话题。上述过程即为查询词项的多样化。

现在已有一些将查询词项多样化的方法。但是这些方法大多数都是通过对查询记录分析，然后依据统计方法、机器学习方法等方法来对查询词项进行多样化。然而，实际应用中并不总是会有查询记录，这限制了上述方法的使用。此外，还有一些工作通过对查询数据或者查询结果的分析来进行查询词项的多样化，这与本发明提出的方法不同，本发明采用维基百科中的话题信息来对查询词项多样化。

维基百科是一个开放的百科全书，它所提供的词条和概念具有较高的覆盖率和准确率。因此，本发明依靠维基百科来进行查询词项多样化。

发明内容

本发明的目的是针对查询推荐中的查询词项同质化问题，提出一种根据维基百科中话题信息时查询词项多样化的方法，以提高查询推荐在话题上的覆盖率，提升用户体验。

本发明提出的查询词项多样化的方法，利用维基百科中的话题信息，结合候选扩展集和数据库中的统计信息，通过MMR方法，对候选扩展集中的词项进行重新选择，使得选出的k个词项既与给定的目标查询词t₀相似，又互相在话题上呈现多样性。

首先对一些基本概念进行定义：

定义1.维基百科中的分类信息：维基百科中的分类信息包括一个分类层次c和实体集合ε，每个c∈c都是一个分类，每个e∈ε都是一个实体。若实体e是一个分类c的实例，则记作e∈c。

本发明中，我们认为每个分类或实体都代表一个相应的话题。

定义2.候选扩展集T：T中包含n个与目标查询词t₀相关的词。查询词项多样性的方法是从T中选出k个词。

计算时，候选扩展集可以是任意查询推荐方法给出的推荐词的集合。这样的设置保证了本方法的兼容性。对于给定的查询推荐方法，我们采用sim_l(t₀，t)来表示t和t₀的相关性。

假设每一个词项t∈T都被分类到维基百科上的相关话题中，我们用C(t)表示与t相关的所有话题。由于每一个词侧重的话题不同，因此我们假定每一个词t在话题集合C(t)上都有一个分布。记这个分布为ζ(t)。对于两个词t₁和t₂，我们可以求出他们在话题C(t_l)∪C(t₂)上的分布ζ(t₁)和ζ(t₂)，然后根据多样性函数sim₂(t₁，t₂)＝cos(ζ(t₁)，ζ(t₂))来计算t₁和t₂在话题上的不同。

计算时，由于维基百科中话题数目非常多，我们仅取与目标查询词最相关的话题c，然后令C＝(c_l，c₂,...,c_n}为话题c的所有子话题。

根据之前所述，本发明方法需要解决的问题形式化表述如下：

问题1.查询词项推荐的多样化问题：给定目标查询词t₀，候选扩展集T，相关性度量函数sim₁和sim₂，以及整数k，要找到一个多样性词项集合S_k＝{t₁，t₂，...，t_i，...，t_k}，

使得第i个词项t_i的边缘相关度（marginal relevance）最大。

本发明中，边缘相关度的计算式为：

MR (t_{0}, t_{i}) = λ {sim}_{1} (t_{0}, t_{i}) - (1 - λ) \max_{t_{x} &Element; S_{i - 1}} {sim}_{2} (t_{x,} t_{i})

其中，λ∈[0，1]，是一个实数。

对于上述问题1，我们采用已知的MMR方法来求解。

求解时从

开始，每次向集合S_i-1中添加词t_i，t_i∈T-S_i-1，使得MR(t₀，t_i)最大。该过程一直持续，直到k个词均被添加（即生成S_k）为止。

为正确求解问题1，需要知道目标查询词t₀，候选扩展集T，相关性度量函数sim₁和sim₂，以及整数k。一般地，对于给定的目标查询词t₀，相关性度量函数sim₁可以利用已知的相似性计算方法；一旦确定了相似性计算方法，候选扩展集T和相关性度量函数sim₁便确定了。接下来需要确定sim₂函数和话题分布ζ(t_x)。具体步骤如下：

（1）对于候选扩展集T中的每一个词项t_x∈T，设维基百科中的话题信息C＝{c₁，c₂，...，c_n}由n个话题组成，根据话题对应方法，为每个词项t_x生成话题分布ζ(t_x)，该分布的概率质量函数记为P{C＝c_i|t_x}＝P(c_i|t_x)；

（2）以步骤（1）求出的|T|个分布，根据相关性函数sim₁、sim₂和参数λ(λ∈[0，1]），利用已知的MMR算法找出多样化此项扩展集合S_k，使得|S_k|＝k，且S_k中的k个词项既与目标查询词t₀相似，又对应方法的步骤如下：

（a）选择与t₀在分类信息上首次出现的分类c（即为与t₀最相关的分类），令C＝{c₁，c₂,...,c_n}为所有c的子分类；

（b）对于分布ζ(t_x)，其概率质量函数P(c_i|t_x)按照如下方法计算：

P (c_{i} | t_{x}) = \frac{P (t_{x} | c_{i}) P (c_{i})}{P (t_{x})}

其中词项t_x的概率P(t_x)在分布的各个分量中都相等，不会影响ζ(t_x)，因此忽略不计算Ｐ（t_x）；词项t_x在给定分类信息c_i上的概率P(t_x|c_i)是维基百科中的先验概率，它与查询所在的数据库无关；分类信息c_i的概率P(c_i则为c_i在数据库上的概率；

步骤（b）中所述P(t_x|c_i]和p(c_i)的计算方法如下：

(b1)词项t_x在给定分类信息c_i上的概率P(t_x|c_i)分为分类短语相关概率

P (t_{x} | c_{i}) = α P_{ph} (t_{x} | c_{i}) + (1 - α) P_{st} (t_{x} | c_{i})

其中，α是调整分类短语相关概率和统计相关概率的权重参数，取值范围为0≤α≤1，计算时可取α＝0.6；

（b2）步骤（b1）中P_ph(t_x|c_i)计算方法为：

P_{ph} (t_{x} | c_{i}) = \frac{1_{c_{i}} (t_{x})}{Σ_{c_{j} &Element; C (t_{0})} 1_{c_{j}} (t_{x})}

其中当词项t_x在分类系信息c_i中出现时，

否则

（b3）步骤（b1）中P_st(t_x|c_i)即词项t_x在文档集Ｄ（c_i）中的ＴＦ－ＩＤＦ值，其中文档集D(c_i)是维基百科中分类信息c_i下的所有解释页面；

（b4）P(c_i)的计算方法为，

P (c_{i}) = 1 - {(\frac{Σ_{t_{j} &Element; c_{i}} {(1 - Imp (t_{j})}^{p}}{Num_of_terms (c_{i})})}^{\frac{1}{p}},

其中p＝2，Num_of_terms(c_i)为分类信息c_i中词项的个数；

（b5）步骤（b4）中Imp(t_j)＝PR(t_j)×IDF(t_j]，其中PR(t_j)为词项t_j在数据库中的PageRank值，计算时，先按照数据库的模式将数据改写成图数据，然后按照PageRank的方法进行计算；IDF(t_j)为词项t_j在数据库中出现次数的倒数。

上述方法在计算两个词项t_x和t_i在话题上的不同时，先计算出各自在所有相关话题C＝{c₁，c₂，...，c_n}上的分布，然后根据cosine距离计算话题分布上的距离。使用cosine距离是因为它与向量长度无关，并且可以快速计算。

在计算话题分布ζ(t_x)中的概率质量函数P(c_z|t_x)时，本发明同时利用了词项与维基百科中话题的相似度，以及话题在数据库中的重要程度。结合了两者的信息，本方法更加合理的给出了词项在话题上的分布。

附图说明

图1为已知方法NetClus计算出的相关词项和根据词项设置的潜在话题。

图2为维基百科中与“Data mining”相关的话题。

图3为本发明计算出的与“data mining”和“XML”相关的话题。

图4为本发明计算出的“data mining”相关词项，λ取0.8。

图5为本发明计算出的“XML”相关词项，λ取0.8。

图6为本发明方法与已有方法的比较，其中FCT为Frequent Co-occuring Terms方法；CRW为Contextual Random Walk方法；NC为NetClus方法；TDQS0，TDQS5，TDQS8分别为本发明方法中λ取0，0.5和0.8的情况。

图7为本发明方法的效果（NDGC-IA）与已有方法的比较。

具体实施方式

本发明所描述的查询词项多样化是基于已有的相关性计算方法的,下面将通过一个例子详细描述本发明所述方法的具体实施方式：

考虑图1中所示的由已知方法NetClus计算出的“data mining”相关的词项。很显然，这top-5个词项在潜在话题上过于一致（2个来自data mining，3个来自association rule mining）。实际情况中，与data mining相关的话题还有很多(如图2中的classification等)。相关词项的推荐应该同时考虑话题上的多样性。比如，若推荐classification、tree这些词项，会给用户提供更多的选择。

考虑用户给定的目标查询词为t₀=“data mining”，并且已经按照NetClus的方法计算出相关词项T（图1）。为了将这些相关词项按照不同的话题重新排列，我们首先构造C(t₀)。与data mining词项最相关的话题在维基百科中为同名话题data mining，因此，我们将data mining话题的所有子话题都包含在C(t₀)内。

我们按照以下步骤进行多样化：

（1）估算T中每一个词的t_x分布ζ(t_x)；

（2）以步骤（1）求出的｜T|个分布，根据相关性函数sim₁、sim₂和参数λ（λ∈[O，1]），利用已知的MMR算法找出多样化此项扩展集合S_k；

步骤（1）中所述话题对应的步骤如下：

（a）构造C(t₀)。

（b）对于分布ζ(t_x)，计算其概率质量函数P(c_i|t_x)按照如下方法计算：

P (c_{i} | t_{x}) = \frac{P (t_{x} | c_{i}) P (c_{i})}{P (t_{x})}

例如，对于词项association和话题association rule mining，若已经知道P(association|associationrulemining)＝0.914，，P(association rule mining)＝0.034，则我们可以通过将这两项相乘来计算P(c_i|t_x)，（不考虑P(t_x)，因为P(t_x)是一个标量，不会影响话题分布）。

步骤（b）中所述P(t_x|c_i]和P(c_i)的计算方法如下：

（a）P(t_x|c_i)分为分类短语相关概率P_ph(t_x|c_i)和统计相关概率P_st(t_x|c_i)，P(t_x|c_i)计算方法为：

P (t_{x} | c_{i}) = α P_{ph} (t_{x} | c_{i}) + (1 - α) P_{st} (t_{x} | c_{i})

其中计算时α＝0.6；

（b）依据权利要求3.（b）中的方法，可以算出association词项与associationrule mining话题的相关度为1.0；support词项与它的相关度为0；mine词项与它的相关度为0.058。

（c）依据权利要求3.（b）中的方法，可以算出association，mine和support分别与association rule mining话题的相关度为0.7867，0.7466，0.2267.

（d）依据权利要求3.（d）和3.（e）中的方法，可以计算出association rule mining话题的重要程度为0.0343。

Claims

1.一种根据维基百科中分类信息使查询词项多样化的方法，其特征在于具体步骤如下：

（1）对于候选扩展集T中的每一个词项t_x∈T，设维基百科中的相关话题信息C={c₁，c_２，...，c_n}由n个话题组成，根据话题对应方法，为每个词项t_x生成话题分布ζ(t_x)，该分布的概率质量函数记为P{C=c_i|t_x}=P(c_i|t_x)；

（2）以步骤（1）求出的｜Ｔ｜个分布，根据相关性函数sim₁、sim₂和参数λ，λ∈［0，１］，利用已知的MMR算法找出多样化此项扩展集合Ｓ_k，使得|S_k|＝k，且S_k中的k个词项既与目标查询词t₀相似，又尽可能在话题信息上呈现多样性；其中，MMR算法每一步优化的目标为：

MR (t_{0}, t_{i}) = λ {sim}_{1} (t_{0}, t_{i}) - (1 - λ) \max_{t_{x} &Element; S_{i - 1}} {sim}_{2} (t_{x,} t_{i})

（3）步骤（2）中的sim₁(t₀，t_i)为任意已知求解词项相似性的度量方法；对于sim₂(t_x，t_i)，计算时首先求出t_x和t_i在所有分类信息上的分布ζ(t_x)和ζ(t_i)，然后采用cosine距离来计算相似度，即

{sim}_{2} (t_{x,} t_{i}) = \cos (ζ (t_{x}), ζ (t_{i})) .

2.根据权利要求1所述的方法，其特征在于步骤（1）中所述话题对应方法的步骤如下：

（a）选择与t₀在分类信息上首次出现的分类c，令C＝{c₁，c₂，...，c_n}为所有c的子分类；

P (c_{i} | t_{x}) = \frac{P (t_{x} | c_{i}) P (c_{i})}{P (t_{x})}

其中词项t_x的概率P(t_x)在分布的各个分量中都相等，不会影响ζ(t_x)，因此忽略不计算Ｐ（t_x)；词项t_x在给定分类信息c_i上的概率P(t_x|c_i)是维基百科中的先验概率，它与查询所在的数据库无关；分类信息c_i的概率P(c_i)则为c_i在数据库上的概率。

3.根据权利要求2所述的方法，其特征在于步骤（b）中所述P(t_x|c_i)和P(c_i)的计算方法如下：

(b1)词项t_x在给定分类信息c_i上的概率P(t_x|c_i)分为分类短语相关概率P_ph(t_x|c_i)和统计相关概率P_st(t_x|c_i)，P(t_x|c_i)计算式为：

P (t_{x} | c_{i}) = α P_{ph} (t_{x} | c_{i}) + (1 - α) P_{st} (t_{x} | c_{i})

其中，α是调整分类短语相关概率和统计相关概率的权重参数，取值范围为0≤α≤1；

（b2）步骤（b1）中R_ph(t_x|c_i)计算式为：

P_{ph} (t_{x} | C_{i}) = \frac{1_{C_{i}} (t_{x})}{Σ_{C_{j} &Element; C (t_{0})} 1_{C_{j}} (t_{x})}

其中当词项t_x在分类系信息c_i中出现时，

否则

(b3）步骤（b1）中P_st(t_x|c_i)即词项t_x在文档集Ｄ（c_i）中的ＴＦ-ＩＤＦ值，其中文档集D(c_i)是维基百科中分类信息c_i下的所有解释页面；

（b4）P(c_i)的计算式为：

P (c_{i}) = 1 - {(\frac{Σ_{t_{j} &Element; c_{i}} {(1 - Imp (t_{j})}^{p}}{Num_of_terms (c_{i})})}^{\frac{1}{p}},

其中p＝2，Num_of_terms(c_i)为分类信息c_i中词项的个数；

（b5）步骤（b4）中Imp(t_j)＝PR(t_j)×IDF(t_j)，其中PR(t_j)为词项t_j在数据库中的PageRank值，计算时，先按照数据库的模式将数据改写成图数据，然后按照PageRank的方法进行计算；IDF(t_j)为词项t_j在数据库中出现次数的倒数。