CN106547864A

CN106547864A - 一种基于查询扩展的个性化信息检索方法

Info

Publication number: CN106547864A
Application number: CN201610932970.4A
Authority: CN
Inventors: 周栋; 伍璇; 赵文玉
Original assignee: Hunan University of Science and Technology
Current assignee: Hunan University of Science and Technology
Priority date: 2016-10-24
Filing date: 2016-10-24
Publication date: 2017-03-29
Anticipated expiration: 2036-10-24
Also published as: CN106547864B

Abstract

本发明公开了一种基于查询扩展的个性化信息检索方法，实施步骤如下：首先根据历史查询词和用户历史检索记录中提取的历史点击文档获取外部文档，然后结合用户的历史检索记录、历史点击文档和外部文档构建基于隐含语义的用户兴趣模型，再使用基于主题的查询扩展方法选取用户兴趣模型中的特征词项，针对用户初始查询词进行扩展，进行新一轮检索，获取个性化的文档结果列表以提高检索的准确率，能够基于用户模型中只包含用户的少量有用信息的情况下实现对用户初始查询词进行扩展检索，具有个性化信息检索准确率高的优点。

Description

一种基于查询扩展的个性化信息检索方法

技术领域

本发明涉及计算机智能信息处理的个性化智能信息检索技术，具体涉及一种基于查询扩展的个性化信息检索方法。

背景技术

在目前互联网海量信息的背景下，由于用户信息需求的不同，在使用信息检索系统的过程中，希望尽可能将与用户最相关或最感兴趣的资源优先呈现，以减轻用户发掘和选择的负担。基于用户兴趣的个性化信息检索定位于实现将用户最感兴趣的内容置于检索结果列表的第一位，这一方法已在信息检索中得到广泛应用。个性化信息检索在传统信息检索的基础上，根据用户的偏好将用户最感兴趣的内容置于检索结果列表的前列，提高传统检索的准确率和用户满意度。它们之间的主要区别在于个性化信息检索系统包含一个用户兴趣模型，能够持续跟踪用户的信息需求，实现个性化搜索结果。该模型可以分为两种类型：一类模型以个人用户为主体，而另一类模型则使用协作式的群体用户来构建。就表现形式来说，向量模型、概念层次模型和语义网络模型是三类主流的方法。

在获取了用户兴趣模型之后，个性化搜索系统通常采用三种方法来进行信息检索：查询词优化、检索结果优化和两者结合的方法。在查询词优化中，查询词扩展是经常使用的方法。不同于信息检索经常使用的伪相关反馈方法，个性化检索系统充分使用了用户兴趣模型，有时还借助第一次检索的结果来选取适合的关键词，用以扩展原有查询词进行检索。根据相同的原理，检索结果也可以通过用户兴趣模型来进行调整。使用搜索日志和挖掘社交网络信息是目前比较流行的数据采集和测试模式。

然而，目前个性化信息检索中查询扩展的方法对扩展候选词的相关度的计算都仅仅停留在对文字内容的匹配上，并没有建立在对文字内容理解的基础上，这样造成的结果是扩展后的查询词仅仅是字面相似，而意义相差甚远。查询扩展中，也未将用户的查询词、用户历史点击文档和文档中的关键词结合起来考虑。目前已有的研究中用户兴趣模型根据用户的历史检索记录和历史点击文档来建立，当用户在系统中活跃度较低的时候，用户兴趣模型在在个性化信息检索系统中的发挥的作用就会受到限制。因此，随着用户个性化需求的提高和互联网上日益增长的信息量，个性化信息检索技术已经出现了性能屏障，如果突破瓶颈提高检索准确率已经成为信息检索领域的重要研究课题。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种能够基于用户模型中只包含用户的少量有用信息的情况下实现对用户初始查询词进行扩展检索、个性化信息检索的准确率高的基于查询扩展的个性化信息检索方法。

为了解决上述技术问题，本发明采用的技术方案为：

一种基于查询扩展的个性化信息检索方法，实施步骤包括：

1)收集用户的历史检索记录，提取历史查询词并对历史查询词进行规范化处理；

2)从用户的历史检索记录中提取历史点击文档，对历史点击文档处理后提取其中所有关键词项，并对关键词项进行规范化处理，计算关键词项在历史点击文档中的权重，基于权重对所有关键词项进行排序，选取前λ个关键词项作为获取外部文档的待查询词；

3)将用户的历史查询词、外部文档的待查询词合并组成新的查询词集合，使用查询词集合中的每个查询词在外部文档集中进行检索，得到前γ个相关文档和相应相关文档的得分，对外部文档集中的前γ个相关文档提取其中所有关键词项，并对关键词项进行规范化处理；

4)根据用户的历史查询词、历史点击文档、外部文档集中的前γ个相关文档，利用基于主题模型LDA的改进模型进行主题聚类，生成包含主题信息的特征词项的分布概率，得到由特征词项及其分布概率构成的用户兴趣模型，所述特征词项包括从用户的历史查询词中提取历史查询词得到的词项、历史点击文档中的关键词项以及外部文档集中的前γ个相关文档中的关键词项；

5)结合用户兴趣模型中特征词项以及检索得到的外部文档集中的前γ个相关文档，使用基于主题的查询扩展方法对所有特征词项进行排序，选取前δ个特征词项作为待扩展词项；

6)使用待扩展词项将用户的当前查询词进行扩展形成新的查询词，使用新的查询词在目标文档集中进行新一轮的检索，生成发送给用户的最终文档结果列表。

优选地，步骤规范化处理包括分词处理、去除停用词、去除重复内容、去除无关内容。

优选地，步骤3)中使用查询词集合中的每个查询词在外部文档集中进行检索时，所述查询词集合中的每个查询词之间的逻辑关系为或。

优选地，步骤6)中使用新的查询词在目标文档集中进行新一轮的检索时，所述新的查询词中的每个查询词之间的逻辑关系为或。

优选地，步骤2)中前λ个关键词项的λ取值区间为[5,20]。

优选地，步骤3)中前γ个相关文档的γ取值区间为[5,10]。

优选地，步骤5)中前δ个特征词项的δ取值区间为[5,20]。

优选地，步骤5)使用基于主题的查询扩展方法对所有特征词项进行排序的排序计算函数表达式如式(1)所示；

式(1)中，表示在已知查询词中产生扩展词的概率，表示在查询词向量中的查询词项，查询词项是相互独立的；P(w|z_k)表示在已知主题z_k的情况下产生相关文档中词项的概率，P(z_k|d_b)表示已知相关文档d_b的情况下产生主题z_k的概率，表示在已知主题z_k的情况下产生查询词项的概率，N表示文档个数，K表示主题的数量。

优选地，步骤4)利用基于主题模型LDA的改进模型进行主题聚类的详细步骤包括：

4.1)对历史查询词中的每一个主题k进行下述步骤：为每个特征词项选择主题-特征词项矩阵主题-特征词项矩阵服从狄利克雷分布Dirichlet(β)，主题-特征词项矩阵的行代表特征词项、列代表主题，主题-特征词项矩阵中的元素代表每个特征词项在相应主题下发生的概率；其中，k∈[1,K]，K表示主题的数目；

4.2)针对每一个主题，对历史点击文档、外部文档集中的前γ个相关文档中每一个文档d进行下述步骤：为每个特征查询词项选择文档-主题矩阵θ_j，文档-主题矩阵θ_j服从狄利克雷分布Dirichlet(α)，文档-主题矩阵θ_j的行代表主题、列代表文档，文档-主题矩阵θ_j中的元素代表每个主题在相应文档下发生的概率；

4.3)针对每一个主题的历史点击文档d_j中的每一个历史查询词w_i进行下述步骤：(1)根据历史点击文档d_j，选择主题z_j,i，z_j,i服从多项分布为多项分布的参数，i＝1,…,K，K表示主题的数目；(2)根据主题z_j,i，选择特征关键词w_j,i，特征关键词w_j,i服从多项分布为多项分布的参数；(3)根据主题z_j,i，选择检索得到的结果文档列表文档得分s_j,i，结果文档列表文档得分s_j,i服从正态分布针对基于主题模型LDA的改进模型采用吉布斯抽样方法进行参数推断,在吉布斯抽样的每一轮抽样过程中，根据式(2)来进行抽样，并基于式(3)和式(4)计算出主题-特征词项矩阵和文档-主题矩阵θ；其中历史查询词w_i中的表示特征关键词的数量；

式(2)中，p(z_j,i＝k)表示抽取主题z_j,i＝k的概率，表示该轮抽样过程中不包括当前主题，主题z_j,i被指派给文档d_j的次数；表示该轮抽样过程中不包括当前特征关键词，w_j,i被指派给主题k的次数；α表示主题的狄利克雷先验分布参数；β表示词项的狄利克雷先验分布参数；表示该轮抽样过程中主题不包括当前主题z_j,i，其余所有主题指派给文档d_j的次数；表示该轮抽样过程中不包括当前特征关键词，其余所有特征关键词被指派给主题k的次数；V表示词项的数量；s_j,i表示查询词q_i检索得到文档d_j的得分；表示对数分布参数；表示对数分布参数；K表示主题的数量；

式(3)和式(4)中，表示主题-特征词项矩阵，矩阵的行代表特征词项，列代表主题，矩阵中的元素代表每个特征词项在相应主题下发生的概率；θ为表示文档-主题矩阵，矩阵的行代表主题，列代表文档，矩阵中的元素代表每个主题在相应文档下发生的概率；表示该轮抽样过程中不包括当前特征关键词，w_j,i被指派给主题k的次数；表示该轮抽样过程中不包括当前特征关键词，其余所有特征关键词被指派给主题k的次数；β表示词项的狄利克雷先验分布参数，V表示词项的数量；表示不包括该轮抽样过程中特征关键词主题z_j,i被指派给文档d_j的次数；α表示主题的狄利克雷先验分布参数，表示该轮抽样过程中不包括当前主题,主题z_j,i被指派给文档d_j的次数；K表示主题的数量。

本发明基于查询扩展的个性化信息检索方法具有下述优点：本发明首先根据历史查询词和用户历史检索记录中提取的历史点击文档获取外部文档，然后结合用户的历史检索记录、历史点击文档和外部文档构建基于隐含语义的用户兴趣模型，再使用基于主题的查询扩展方法选取用户兴趣模型中的特征词项针对用户初始查询词进行扩展，进行新一轮检索，获取个性化的文档结果列表以提高检索的准确率，能够基于用户模型中只包含用户的少量有用信息的情况下实现对用户初始查询词进行扩展检索，具有个性化信息检索的准确率高的优点。

附图说明

图1为本发明实施例方法的基本流程示意图。

图2为本发明实施例方法中使用的基于主题模型LDA的改进模型的示意图。

具体实施方式

如图1所示，本实施例基于查询扩展的个性化信息检索方法的实施步骤包括：

1)收集用户的历史检索记录，提取历史查询词并对历史查询词进行规范化处理。对历史查询词进行规范化处理后，一个历史查询词可能对应一个或多个词项。

本实施例中，步骤规范化处理包括分词处理、去除停用词、去除重复内容、去除无关内容，下文相同。

2)从用户的历史检索记录中提取历史点击文档，对历史点击文档处理后提取其中所有关键词项，并对关键词项进行规范化处理，计算关键词项在历史点击文档中的权重，基于权重对所有关键词项进行排序，选取前λ个关键词项作为获取外部文档的待查询词。

本实施例中，步骤2)中前λ个关键词项λ取值区间为[5,20]。

3)将用户的历史查询词、外部文档的待查询词合并组成新的查询词集合，使用查询词集合中的每个查询词在外部文档集中进行检索，得到前γ个相关文档和相应相关文档的得分，对外部文档集中的前γ个相关文档提取其中所有关键词项，并对关键词项进行规范化处理。

本实施例中，步骤3)中使用查询词集合中的每个查询词在外部文档集中进行检索时，所述查询词集合中的每个查询词之间的逻辑关系为或。

本实施例中，步骤3)中前γ个相关文档的γ取值区间为[5,10]。

4)根据用户的历史查询词、历史点击文档、外部文档集中的前γ个相关文档，利用基于主题模型LDA(Latent Dirichlet Allocation)的改进模型进行主题聚类，生成包含主题信息的特征词项的分布概率，得到由特征词项及其分布概率构成的用户兴趣模型，所述特征词项包括从用户的历史查询词中提取历史查询词得到的词项、历史点击文档中的关键词项以及外部文档集中的前γ个相关文档中的关键词项。

5)结合用户兴趣模型中特征词项以及检索得到的外部文档集中的前γ个相关文档，使用基于主题的查询扩展方法对所有特征词项进行排序，选取前δ个特征词项作为待扩展词项。

步骤5)中前δ个特征词项的δ取值区间为[5,20]，本实施例中，δ具体取值为5。

本实施例中，步骤5)使用基于主题的查询扩展方法对所有特征词项进行排序的排序计算函数表达式如式(1)所示；

本实施例中，步骤6)中使用新的查询词在目标文档集中进行新一轮的检索时，所述新的查询词中的每个查询词之间的逻辑关系为或。

本实施例中采用的基于主题模型LDA(Latent Dirichlet Allocation)的改进模型如图2所示，其中α表示多项分布的参数，θ表示多项分布的参数，Z表示主题，w_j,i表示特征关键词，s_j,_i表示结果文档列表文档得分，μ表示正态分布参数，表示主题-特征词项矩阵，σ表示多项分布的参数，β表示多项分布的参数，K表示主题的数目。本实施例步骤4)利用基于主题模型LDA的改进模型进行主题聚类的详细步骤包括：

4.1)对历史查询词中的每一个主题k∈[1,K](K表示主题的数目)进行下述步骤：为每个特征词项选择主题-特征词项矩阵主题-特征词项矩阵服从狄利克雷分布Dirichlet(β)，主题-特征词项矩阵的行代表特征词项、列代表主题，主题-特征词项矩阵中的元素代表每个特征词项在相应主题下发生的概率；

4.3)针对每一个主题的历史点击文档d_j中的每一个历史查询词表示特征关键词的数量)，进行下述步骤：(1)根据历史点击文档d_j，选择主题z_j,i，z_j,i服从多项分布为多项分布的参数，i＝1,…,K，K表示主题的数目；(2)根据主题z_j,_i，选择特征关键词w_j,i，特征关键词w_j,i服从多项分布为多项分布的参数；(3)根据主题z_j,i，选择检索得到的结果文档列表文档得分s_j,i，结果文档列表文档得分s_j,i服从正态分布针对基于主题模型LDA的改进模型采用吉布斯抽样方法进行参数推断,在吉布斯抽样的每一轮抽样过程中，根据式(2)来进行抽样，并基于式(3)和式(4)计算出主题-特征词项矩阵和文档-主题矩阵θ。

式(2)中，p(z_j,i＝k)表示抽取主题z_j,i＝k的概率，表示该轮抽样过程中不包括当前主题，主题z_j,i被指派给文档d_j的次数；表示该轮抽样过程中不包括当前特征关键词，w_j,_i被指派给主题k的次数；α表示主题的狄利克雷先验分布参数；β表示词项的狄利克雷先验分布参数；表示该轮抽样过程中主题不包括当前主题z_j,i，其余所有主题指派给文档d_j的次数；表示该轮抽样过程中不包括当前特征关键词，其余所有特征关键词被指派给主题k的次数；V表示词项的数量；s_j,i表示查询词q_i检索得到文档d_j的得分；表示对数分布参数；表示对数分布参数；K表示主题的数量；

为了对本实施例基于查询扩展的个性化信息检索方法(本实施例方法)的检索性能进行实验评估：测试数据和两个外部文档集来自自主爬取的社交网络数据，测试数据集包含259511个用户，131283个文档，以及137870个查询词和相关评价；两个外部文档集分别包含4634369个文档和304630个文档。评估标准为Wikipedia以及CLEF两种标准下的平均准确率均值(Mean Average Precision，MAP)，归一化折损累积增益(Normalized DiscountedCumulative Gain，NDCG)，平均排序倒数值(Mean Reciprocal Rank，MRR)。表1为本方法与非个性化信息检索方法分别和普通语言模型方法、伪相关反馈语言模型方法、变形的伪相关反馈语言模型方法、基于字面匹配的个性化查询扩展方法、基于用户标签间关系查询扩展方法、标签—主题个性化查询扩展方法的检索性能对照数据。

表1：本实施例方法的检索性能对照表。

参见表1可知，本实施例基于查询扩展的个性化信息检索方法(本实施例方法)的检索性能无论是从准确率还是召回率上来说都得到了显著提高，是一种针对个性化信息检索非常有效的技术。出于篇幅考虑，在此不再罗列此次实验其它部分和评价标准，但综合所有的评估结果发现，采用基于查询扩展的个性化信息检索方法能显著提升性能。综上所述，本实施例基于查询扩展的个性化信息检索方法在查询扩展的过程中，将用户的查询词、用户历史点击文档以及外部相关文档结合起来考虑，对扩展候选词的相关度的计算就不仅仅停留在对文字内容的匹配上，而是建立在对文字内容理解的基础上。并且，如果用户给定的查询词不在用户兴趣模型中，本实施例基于查询扩展的个性化信息检索方法也可以进行查询扩展，从而大大提高了个性化信息检索的性能；而且，本实施例基于查询扩展的个性化信息检索方法通过构建基于隐含语义的用户兴趣模型，结合用户兴趣模型和采用用户初始查询词和被用户标记的文档中提取的特征关键词获取的靠前外部文档，对用户初始查询词进行扩展，继而进行新一轮的检索，获取个性化的文档结果列表，提高了个性化信息检索的准确率。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于查询扩展的个性化信息检索方法，其特征在于实施步骤包括：

2.根据权利要求1所述的基于查询扩展的个性化信息检索方法，其特征在于，步骤规范化处理包括分词处理、去除停用词、去除重复内容、去除无关内容。

3.根据权利要求1所述的基于查询扩展的个性化信息检索方法，其特征在于，步骤3)中使用查询词集合中的每个查询词在外部文档集中进行检索时，所述查询词集合中的每个查询词之间的逻辑关系为或。

4.根据权利要求1所述的基于查询扩展的个性化信息检索方法，其特征在于，步骤6)中使用新的查询词在目标文档集中进行新一轮的检索时，所述新的查询词中的每个查询词之间的逻辑关系为或。

5.根据权利要求1所述的基于查询扩展的个性化信息检索方法，其特征在于，步骤2)中前λ个关键词项的λ取值区间为[5,20]。

6.根据权利要求1所述的基于查询扩展的个性化信息检索方法，其特征在于，步骤3)中前γ个相关文档的γ取值区间为[5,10]。

7.根据权利要求1所述的基于查询扩展的个性化信息检索方法，其特征在于，步骤5)中前δ个特征词项的δ取值区间为[5,20]。

8.根据权利要求1所述的基于查询扩展的个性化信息检索方法，其特征在于，步骤5)使用基于主题的查询扩展方法对所有特征词项进行排序的排序计算函数表达式如式(1)所示；

9.根据权利要求1所述的基于查询扩展的个性化信息检索方法，其特征在于，步骤4)利用基于主题模型LDA的改进模型进行主题聚类的详细步骤包括：