CN105447159A

CN105447159A - 一种用户间查询关联度的查询扩展方法

Info

Publication number: CN105447159A
Application number: CN201510863732.8A
Authority: CN
Inventors: 吕学强; 徐丽萍; 董志安
Original assignee: BEIJING RESEARCH CENTER OF URBAN SYSTEM ENGINEERING; Beijing Information Science and Technology University
Current assignee: BEIJING RESEARCH CENTER OF URBAN SYSTEM ENGINEERING; Beijing Information Science and Technology University
Priority date: 2015-12-02
Filing date: 2015-12-02
Publication date: 2016-03-30

Abstract

本发明涉及一种用户间查询关联度的查询扩展方法，包括以下步骤：步骤1)统计一个用户所浏览的网页的总数；步骤2)划分兴趣类别；步骤3)统计该用户所浏览的网页所包含的兴趣类别的种类数目以及网页的数目；步骤4)计算该用户对各个兴趣类别的兴趣偏好权重；步骤5)构建出该用户的用户偏好模型；步骤6)利用步骤1)至步骤5)的方法构建出多个用户偏好模型；步骤7)形成多个用户群；步骤8)将用户群里的每一个用户的文档点击信息构成一个搜索空间。本发明优先将与用户兴趣密切相关的用户作为查询扩展的背景知识，作为查询扩展的依据，在此基础上利用关联查询分析查询词之间的关联关系，解决了初次检索质量不高的问题，提高了检索效率。

Description

一种用户间查询关联度的查询扩展方法

技术领域

本发明属于网络信息搜索技术领域，具体涉及一种用户间查询关联度的查询扩展方法。

背景技术

随着Internet技术的发展和网络信息的飞速增长，互联网已经成为全球最大的知识库，是人们获取信息的重要来源。利用关键词搜索相关网络信息的搜索引擎在一定程度上帮助了人们快速地从浩瀚的信息资源中查找所需的信息，但它仍然面临一些亟待解决的问题。通过对搜索引擎日志的研究分析发现，49％的用户查询仅有一个单词，33％的查询由两个单词组成，用户平均使用1.4个单词来描述他们的查询内容，查询串简短的信息经常无法提供用于检索相关文档的足够信息，这导致搜索引擎的检索结果不够理想。当前常用的解决这些问题的方法主要是查询扩展方法，然而查询扩展的方法存在着两点不足：

1)扩展词没有根据用户所需进行扩展。大部分扩展只根据关键词的表面进行扩展，但是事实上，关键词本身存在就有很多歧义，例如：“苹果”既可能是电脑品牌，也可能是水果，“火箭”既可以是检索航天信息，也可以检索NBA火箭队的信息，据日志统计分析，只有20％的用户用同一个检索词表达同一个概念，这降低了检索的效率。

2)检索用户的个人信息未被充分利用导致查询漂移问题的存在。查询漂移是指查询扩展后的主旨偏离了用户的原始检索意图。因此扩展词选取的不好就有可能带来查询漂移的出现，扩展词的选取中包含了较多不相关的词汇，或者非相关的检索词得到了较高的权重。

发明内容

针对上述现有技术中存在的问题，本发明的目的在于提供一种可避免出现上述技术缺陷的用户间查询关联度的查询扩展方法。

为了实现上述发明目的，本发明采用的技术方案如下：

一种用户间查询关联度的查询扩展方法，包括以下步骤：

步骤1)统计一个用户在近期一段时间内所浏览的网页的总数；

步骤2)划分兴趣类别，并指定代表每个所述兴趣类别的关键词；

步骤3)根据所述关键词统计该用户在近期一段时间内所浏览的网页所包含的所述兴趣类别的种类数目以及属于每个所述兴趣类别的网页的数目；

步骤4)计算该用户对各个兴趣类别的兴趣偏好权重；

步骤5)构建出该用户的用户偏好模型；

步骤6)利用步骤1)至步骤5)的方法构建出多个用户的用户偏好模型；

步骤7)根据用户偏好模型计算所述多个用户之间的兴趣相关度，将兴趣相关度大于兴趣相关度阈值的用户划分到同一个用户群中，形成用户兴趣偏好相似的多个用户群；

步骤8)将用户群里的每一个用户的文档点击信息构成一个搜索空间，用户群里的每一个用户在搜索信息时优先对所述搜索空间里的文档进行搜索。

进一步地，所述步骤1)中的所述近期一段时间为六个月至十二个月。

进一步地，所述步骤4)计算该用户对各个兴趣类别的兴趣偏好权重所依据的公式为：

用户i对兴趣类别I_k的兴趣偏好权重其中：I_k为第k个兴趣类别，k为正整数，n(I_k)为用户i在近期一段时间内所浏览的网页中属于兴趣类别I_k的个数，N为用户i在近期一段时间内所浏览的网页的总数。

进一步地，所述步骤5)中的所述用户偏好模型用向量表示为：

IT_i＝((I₁，w_i(I₁))，(I₂，w_i(I₂))，...，(I_n，w_i(I_n)))，其中，1≤k≤n，n为正整数。

进一步地，所述步骤7)中的不同用户的兴趣相关度的计算具体为：用户i和用户j之间的兴趣相关度

\begin{matrix} s i m (i, j) \cos ({IT}_{i}, {IT}_{j}) = \frac{{IT}_{i} \cdot {IT}_{j}}{| | {IT}_{i} | | \times | | {IT}_{j} | |} \\ = \frac{Σ_{k = 1}^{n} w_{i} (I_{k}) \times w_{j} (I_{k})}{\sqrt{Σ_{k = 1}^{n} {(w_{i} (I_{k}))}^{2}} \times \sqrt{Σ_{k = 1}^{n} {(w_{j} (I_{k}))}^{2}}} \end{matrix} .

进一步地，所述步骤8)中对所述搜索空间里的文档进行搜索时，利用查询词之间的关联度搜索相关文档，具体地：给定查询词q_i，另一个查询词q_j相对于q_i的关联度表示为条件概率

\begin{matrix} P (q_{j} | q_{i}) = \frac{P (q_{j}, q_{i})}{P (q_{i})} = \frac{Σ_{&ForAll; d_{k} &Element; D} P (q_{j}, q_{i}, d_{k})}{P (q_{i})} \\ = \frac{Σ_{&ForAll; d_{k} &Element; D} P (q_{j} | q_{i}, d_{k}) \times P (q_{i}, d_{k})}{P (q_{i})} \end{matrix},

其中，D是查询q_i和q_j的相关文档集合。

本发明提供的用户间查询关联度的查询扩展方法，优先将与用户兴趣密切相关的用户作为查询扩展的背景知识，作为查询扩展的依据，在此基础上利用关联查询分析查询词之间的关联关系，解决了初次检索质量不高的问题，提高了检索效率，可以很好地满足实际应用的需要。

附图说明

图1为本发明的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本发明做进一步说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，一种用户间查询关联度的查询扩展方法，包括以下步骤：

步骤2)划分兴趣类别，建立兴趣类别集合，并指定代表每个所述兴趣类别的关键词；

步骤4)计算该用户对各个兴趣类别的兴趣偏好权重；

步骤5)构建出该用户的用户偏好模型；

所述步骤1)中的所述近期一段时间一般取六个月至十二个月，也可以为其他长度的时间段。

所述步骤4)计算该用户对各个兴趣类别的兴趣偏好权重所依据的公式为：

所述步骤5)中的所述用户偏好模型用向量表示为：

所述步骤7)中的不同用户的兴趣相关度的计算具体为：用户i和用户j之间的兴趣相关度

\begin{matrix} s i m (i, j) \cos ({IT}_{i}, {IT}_{j}) = \frac{{IT}_{i} \cdot {IT}_{j}}{| | {IT}_{i} | | \times | | {IT}_{j} | |} \\ = \frac{Σ_{k = 1}^{n} w_{i} (I_{k}) \times w_{j} (I_{k})}{\sqrt{Σ_{k = 1}^{n} {(w_{i} (I_{k}))}^{2}} \times \sqrt{Σ_{k = 1}^{n} {(w_{j} (I_{k}))}^{2}}} \end{matrix},

若Sim(i，j)≥ρ(ρ为设定的用户相关度阈值)时，则认为用户i、用户j的兴趣偏好相似性较大，则将用户j的文档点击信息加入关联查询的搜索空间。

所述步骤8)中对所述搜索空间里的文档进行搜索时，利用查询词之间的关联度搜索相关文档，具体地：给定查询词q_i，另一个查询词q_j相对于q_i的关联度表示为条件概率

\begin{matrix} P (q_{j} | q_{i}) = \frac{P (q_{j}, q_{i})}{P (q_{i})} = \frac{Σ_{&ForAll; d_{k} &Element; D} P (q_{j}, q_{i}, d_{k})}{P (q_{i})} \\ = \frac{Σ_{&ForAll; d_{k} &Element; D} P (q_{j} | q_{i}, d_{k}) \times P (q_{i}, d_{k})}{P (q_{i})} \end{matrix},

其中，D是查询q_i和q_j的相关文档集合。

假设P(q_j|q_i，d_k)＝P(q_j|d_k)，原因是查询之间的关联是由文档与查询的关系构建的，即d_k将q_i和q_j分离开来。由此可得：

\begin{matrix} P (q_{j} | q_{i}) = \frac{Σ_{&ForAll; d_{k} &Element; D} P (q_{j} | d_{k}) \times P (d_{k} | q_{i}) \times P (q_{i})}{P (q_{i})} \\ = Σ_{&ForAll; d_{k} &Element; D} P (q_{j} | d_{k}) \times P (d_{k} | q_{i}) \end{matrix},

其中，P(d_k|q_i)是当查询为q_i时，文档d_k被点击浏览的条件概率。P(q_j|d_k)是被点击浏览的文档是d_k时，查询为q_j的条件概率。这两个条件概率可以由用户日志文档和查询的频率统计来估计。即：

P (d_{k} | q_{i}) = \frac{f (q_{i}, d_{k})}{f (q_{i})},

P (q_{j} | d_{k}) = \frac{f (q_{i}, d_{k})}{f (d_{k})},

其中，f(q_i，d_k)是查询为q_i时，包含文档d_k的查询日志条数，f(q_i)是查询q_i对应的查询日志条数，f(q_j，d_k)是查询为q_j时，包含文档d_k的日志条数，f(d_k)是包含文档d_k的所有查询的条数。只有当d_k在查询q_i和q_j的用户会话中均有出现时，上面两个条件概率的乘积才不为零，出现的次数越多，得到的条件概率越大，即查询关联越紧密。根据查询词所共同点击访问的文档信息，在统计概率模型的基础上，可以计算查询之间的关联关系。

以上所述实施例仅表达了本发明的实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种用户间查询关联度的查询扩展方法，其特征在于，包括以下步骤：

步骤1)统计一个用户在近期一段时间内所浏览的网页的总数。

步骤2)划分兴趣类别，并指定代表每个所述兴趣类别的关键词。

步骤3)根据所述关键词统计该用户在近期一段时间内所浏览的网页所包含的所述兴趣类别的种类数目以及属于每个所述兴趣类别的网页的数目。

步骤4)计算该用户对各个兴趣类别的兴趣偏好权重。

步骤5)构建出该用户的用户偏好模型。

步骤7)根据用户偏好模型计算所述多个用户之间的兴趣相关度，将兴趣相关度大于兴趣相关度阈值的用户划分到同一个用户群中，形成用户兴趣偏好相似的多个用户群。

2.根据权利要求1所述的用户间查询关联度的查询方法，其特征在于，所述步骤1)中的所述近期一段时间为六个月至十二个月。

3.根据权利要求1所述的用户间查询关联度的查询方法，其特征在于，所述步骤4)计算该用户对各个兴趣类别的兴趣偏好权重所依据的公式为：

4.根据权利要求3所述的用户间查询关联度的查询方法，其特征在于，所述步骤5)中的所述用户偏好模型用向量表示为：

5.根据权利要求4所述的用户间查询关联度的查询方法，其特征在于，所述步骤7)中的不同用户的兴趣相关度的计算具体为：用户i和用户j之间的兴趣相关度

\begin{matrix} S i m (i, j) = c o s ({IT}_{i}, {IT}_{j}) = \frac{{IT}_{i} \cdot {IT}_{j}}{| | {IT}_{i} | | \times | | {IT}_{j} | |} \\ = \frac{Σ_{k = 1}^{n} w_{i} (I_{k}) \times w_{j} (I_{k})}{\sqrt{Σ_{k = 1}^{n} {(w_{i} (I_{k}))}^{2}} \times \sqrt{Σ_{k = 1}^{n} {(w_{j} (I_{k}))}^{2}}} \end{matrix} .

6.根据权利要求1-5所述的用户间查询关联度的查询方法，其特征在于，所述步骤8)中对所述搜索空间里的文档进行搜索时，利用查询词之间的关联度搜索相关文档，具体地：给定查询词q_i，另一个查询词q_j相对于q_i的关联度表示为条件概率

\begin{matrix} P (q_{j} | q_{i}) = \frac{P (q_{j}, q_{i})}{P (q_{i})} = \frac{Σ_{&ForAll; d_{k} &Element; D} P (q_{j}, q_{i}, d_{k})}{P (q_{i})}, \\ = \frac{Σ_{&ForAll; d_{k} &Element; D} P (q_{j} | q_{i}, d_{k}) \times P (q_{i}, d_{k})}{P (q_{i})} \end{matrix}

其中，D是查询q_i和q_j的相关文档集合。