CN106547864B - 一种基于查询扩展的个性化信息检索方法 - Google Patents
一种基于查询扩展的个性化信息检索方法 Download PDFInfo
- Publication number
- CN106547864B CN106547864B CN201610932970.4A CN201610932970A CN106547864B CN 106547864 B CN106547864 B CN 106547864B CN 201610932970 A CN201610932970 A CN 201610932970A CN 106547864 B CN106547864 B CN 106547864B
- Authority
- CN
- China
- Prior art keywords
- theme
- document
- word
- lexical item
- item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于查询扩展的个性化信息检索方法,实施步骤如下:首先根据历史查询词和用户历史检索记录中提取的历史点击文档获取外部文档,然后结合用户的历史检索记录、历史点击文档和外部文档构建基于隐含语义的用户兴趣模型,再使用基于主题的查询扩展方法选取用户兴趣模型中的特征词项,针对用户初始查询词进行扩展,进行新一轮检索,获取个性化的文档结果列表以提高检索的准确率,能够基于用户模型中只包含用户的少量有用信息的情况下实现对用户初始查询词进行扩展检索,具有个性化信息检索准确率高的优点。
Description
技术领域
本发明涉及计算机智能信息处理的个性化智能信息检索技术,具体涉及一种基于查询扩展的个性化信息检索方法。
背景技术
在目前互联网海量信息的背景下,由于用户信息需求的不同,在使用信息检索系统的过程中,希望尽可能将与用户最相关或最感兴趣的资源优先呈现,以减轻用户发掘和选择的负担。基于用户兴趣的个性化信息检索定位于实现将用户最感兴趣的内容置于检索结果列表的第一位,这一方法已在信息检索中得到广泛应用。个性化信息检索在传统信息检索的基础上,根据用户的偏好将用户最感兴趣的内容置于检索结果列表的前列,提高传统检索的准确率和用户满意度。它们之间的主要区别在于个性化信息检索系统包含一个用户兴趣模型,能够持续跟踪用户的信息需求,实现个性化搜索结果。该模型可以分为两种类型:一类模型以个人用户为主体,而另一类模型则使用协作式的群体用户来构建。就表现形式来说,向量模型、概念层次模型和语义网络模型是三类主流的方法。
在获取了用户兴趣模型之后,个性化搜索系统通常采用三种方法来进行信息检索:查询词优化、检索结果优化和两者结合的方法。在查询词优化中,查询词扩展是经常使用的方法。不同于信息检索经常使用的伪相关反馈方法,个性化检索系统充分使用了用户兴趣模型,有时还借助第一次检索的结果来选取适合的关键词,用以扩展原有查询词进行检索。根据相同的原理,检索结果也可以通过用户兴趣模型来进行调整。使用搜索日志和挖掘社交网络信息是目前比较流行的数据采集和测试模式。
然而,目前个性化信息检索中查询扩展的方法对扩展候选词的相关度的计算都仅仅停留在对文字内容的匹配上,并没有建立在对文字内容理解的基础上,这样造成的结果是扩展后的查询词仅仅是字面相似,而意义相差甚远。查询扩展中,也未将用户的查询词、用户历史点击文档和文档中的关键词结合起来考虑。目前已有的研究中用户兴趣模型根据用户的历史检索记录和历史点击文档来建立,当用户在系统中活跃度较低的时候,用户兴趣模型在在个性化信息检索系统中的发挥的作用就会受到限制。因此,随着用户个性化需求的提高和互联网上日益增长的信息量,个性化信息检索技术已经出现了性能屏障,如果突破瓶颈提高检索准确率已经成为信息检索领域的重要研究课题。
发明内容
本发明要解决的技术问题:针对现有技术的上述问题,提供一种能够基于用户模型中只包含用户的少量有用信息的情况下实现对用户初始查询词进行扩展检索、个性化信息检索的准确率高的基于查询扩展的个性化信息检索方法。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于查询扩展的个性化信息检索方法,实施步骤包括:
1)收集用户的历史检索记录,提取历史查询词并对历史查询词进行规范化处理;
2)从用户的历史检索记录中提取历史点击文档,对历史点击文档处理后提取其中所有关键词项,并对关键词项进行规范化处理,计算关键词项在历史点击文档中的权重,基于权重对所有关键词项进行排序,选取前λ个关键词项作为获取外部文档的待查询词;
3)将用户的历史查询词、外部文档的待查询词合并组成新的查询词集合,使用查询词集合中的每个查询词在外部文档集中进行检索,得到前γ个相关文档和相应相关文档的得分,对外部文档集中的前γ个相关文档提取其中所有关键词项,并对关键词项进行规范化处理;
4)根据用户的历史查询词、历史点击文档、外部文档集中的前γ个相关文档,利用基于主题模型LDA的改进模型进行主题聚类,生成包含主题信息的特征词项的分布概率,得到由特征词项及其分布概率构成的用户兴趣模型,所述特征词项包括从用户的历史查询词中提取历史查询词得到的词项、历史点击文档中的关键词项以及外部文档集中的前γ个相关文档中的关键词项;
5)结合用户兴趣模型中特征词项以及检索得到的外部文档集中的前γ个相关文档,使用基于主题的查询扩展方法对所有特征词项进行排序,选取前δ个特征词项作为待扩展词项;
6)使用待扩展词项将用户的当前查询词进行扩展形成新的查询词,使用新的查询词在目标文档集中进行新一轮的检索,生成发送给用户的最终文档结果列表。
优选地,步骤规范化处理包括分词处理、去除停用词、去除重复内容、去除无关内容。
优选地,步骤3)中使用查询词集合中的每个查询词在外部文档集中进行检索时,所述查询词集合中的每个查询词之间的逻辑关系为或。
优选地,步骤6)中使用新的查询词在目标文档集中进行新一轮的检索时,所述新的查询词中的每个查询词之间的逻辑关系为或。
优选地,步骤2)中前λ个关键词项的λ取值区间为[5,20]。
优选地,步骤3)中前γ个相关文档的γ取值区间为[5,10]。
优选地,步骤5)中前δ个特征词项的δ取值区间为[5,20]。
优选地,步骤5)使用基于主题的查询扩展方法对所有特征词项进行排序的排序计算函数表达式如式(1)所示;
式(1)中,表示在已知查询词中产生扩展词的概率,表示在查询词向量中的查询词项,查询词项是相互独立的;P(w|zk)表示在已知主题zk的情况下产生相关文档中词项的概率,P(zk|db)表示已知相关文档db的情况下产生主题zk的概率,表示在已知主题zk的情况下产生查询词项的概率,N表示文档个数,K表示主题的数量。
优选地,步骤4)利用基于主题模型LDA的改进模型进行主题聚类的详细步骤包括:
4.1)对历史查询词中的每一个主题k进行下述步骤:为每个特征词项选择主题-特征词项矩阵主题-特征词项矩阵服从狄利克雷分布Dirichlet(β),主题-特征词项矩阵的行代表特征词项、列代表主题,主题-特征词项矩阵中的元素代表每个特征词项在相应主题下发生的概率;其中,k∈[1,K],K表示主题的数目;
4.2)针对每一个主题,对历史点击文档、外部文档集中的前γ个相关文档中每一个文档d进行下述步骤:为每个特征查询词项选择文档-主题矩阵θj,文档-主题矩阵θj服从狄利克雷分布Dirichlet(α),文档-主题矩阵θj的行代表主题、列代表文档,文档-主题矩阵θj中的元素代表每个主题在相应文档下发生的概率;
4.3)针对每一个主题的历史点击文档dj中的每一个历史查询词wi进行下述步骤:(1)根据历史点击文档dj,选择主题zj,i,zj,i服从多项分布 为多项分布的参数,i=1,…,K,K表示主题的数目;(2)根据主题zj,i,选择特征关键词wj,i,特征关键词wj,i服从多项分布 为多项分布的参数;(3)根据主题zj,i,选择检索得到的结果文档列表文档得分sj,i,结果文档列表文档得分sj,i服从正态分布针对基于主题模型LDA的改进模型采用吉布斯抽样方法进行参数推断,在吉布斯抽样的每一轮抽样过程中,根据式(2)来进行抽样,并基于式(3)和式(4)计算出主题-特征词项矩阵和文档-主题矩阵θ;其中历史查询词wi中的 表示特征关键词的数量;
式(2)中,p(zj,i=k)表示抽取主题zj,i=k的概率,表示该轮抽样过程中不包括当前主题,主题zj,i被指派给文档dj的次数;表示该轮抽样过程中不包括当前特征关键词,wj,i被指派给主题k的次数;α表示主题的狄利克雷先验分布参数;β表示词项的狄利克雷先验分布参数;表示该轮抽样过程中主题不包括当前主题zj,i,其余所有主题指派给文档dj的次数;表示该轮抽样过程中不包括当前特征关键词,其余所有特征关键词被指派给主题k的次数;V表示词项的数量;sj,i表示查询词qi检索得到文档dj的得分;表示对数分布参数;表示对数分布参数;K表示主题的数量;
式(3)和式(4)中,表示主题-特征词项矩阵,矩阵的行代表特征词项,列代表主题,矩阵中的元素代表每个特征词项在相应主题下发生的概率;θ为表示文档-主题矩阵,矩阵的行代表主题,列代表文档,矩阵中的元素代表每个主题在相应文档下发生的概率;表示该轮抽样过程中不包括当前特征关键词,wj,i被指派给主题k的次数;表示该轮抽样过程中不包括当前特征关键词,其余所有特征关键词被指派给主题k的次数;β表示词项的狄利克雷先验分布参数,V表示词项的数量;表示不包括该轮抽样过程中特征关键词主题zj,i被指派给文档dj的次数;α表示主题的狄利克雷先验分布参数,表示该轮抽样过程中不包括当前主题,主题zj,i被指派给文档dj的次数;K表示主题的数量。
本发明基于查询扩展的个性化信息检索方法具有下述优点:本发明首先根据历史查询词和用户历史检索记录中提取的历史点击文档获取外部文档,然后结合用户的历史检索记录、历史点击文档和外部文档构建基于隐含语义的用户兴趣模型,再使用基于主题的查询扩展方法选取用户兴趣模型中的特征词项针对用户初始查询词进行扩展,进行新一轮检索,获取个性化的文档结果列表以提高检索的准确率,能够基于用户模型中只包含用户的少量有用信息的情况下实现对用户初始查询词进行扩展检索,具有个性化信息检索的准确率高的优点。
附图说明
图1为本发明实施例方法的基本流程示意图。
图2为本发明实施例方法中使用的基于主题模型LDA的改进模型的示意图。
具体实施方式
如图1所示,本实施例基于查询扩展的个性化信息检索方法的实施步骤包括:
1)收集用户的历史检索记录,提取历史查询词并对历史查询词进行规范化处理。对历史查询词进行规范化处理后,一个历史查询词可能对应一个或多个词项。
本实施例中,步骤规范化处理包括分词处理、去除停用词、去除重复内容、去除无关内容,下文相同。
2)从用户的历史检索记录中提取历史点击文档,对历史点击文档处理后提取其中所有关键词项,并对关键词项进行规范化处理,计算关键词项在历史点击文档中的权重,基于权重对所有关键词项进行排序,选取前λ个关键词项作为获取外部文档的待查询词。
本实施例中,步骤2)中前λ个关键词项λ取值区间为[5,20]。
3)将用户的历史查询词、外部文档的待查询词合并组成新的查询词集合,使用查询词集合中的每个查询词在外部文档集中进行检索,得到前γ个相关文档和相应相关文档的得分,对外部文档集中的前γ个相关文档提取其中所有关键词项,并对关键词项进行规范化处理。
本实施例中,步骤3)中使用查询词集合中的每个查询词在外部文档集中进行检索时,所述查询词集合中的每个查询词之间的逻辑关系为或。
本实施例中,步骤3)中前γ个相关文档的γ取值区间为[5,10]。
4)根据用户的历史查询词、历史点击文档、外部文档集中的前γ个相关文档,利用基于主题模型LDA(Latent Dirichlet Allocation)的改进模型进行主题聚类,生成包含主题信息的特征词项的分布概率,得到由特征词项及其分布概率构成的用户兴趣模型,所述特征词项包括从用户的历史查询词中提取历史查询词得到的词项、历史点击文档中的关键词项以及外部文档集中的前γ个相关文档中的关键词项。
5)结合用户兴趣模型中特征词项以及检索得到的外部文档集中的前γ个相关文档,使用基于主题的查询扩展方法对所有特征词项进行排序,选取前δ个特征词项作为待扩展词项。
步骤5)中前δ个特征词项的δ取值区间为[5,20],本实施例中,δ具体取值为5。
本实施例中,步骤5)使用基于主题的查询扩展方法对所有特征词项进行排序的排序计算函数表达式如式(1)所示;
式(1)中,表示在已知查询词中产生扩展词的概率,表示在查询词向量中的查询词项,查询词项是相互独立的;P(w|zk)表示在已知主题zk的情况下产生相关文档中词项的概率,P(zk|db)表示已知相关文档db的情况下产生主题zk的概率,表示在已知主题zk的情况下产生查询词项的概率,N表示文档个数,K表示主题的数量。
6)使用待扩展词项将用户的当前查询词进行扩展形成新的查询词,使用新的查询词在目标文档集中进行新一轮的检索,生成发送给用户的最终文档结果列表。
本实施例中,步骤6)中使用新的查询词在目标文档集中进行新一轮的检索时,所述新的查询词中的每个查询词之间的逻辑关系为或。
本实施例中采用的基于主题模型LDA(Latent Dirichlet Allocation)的改进模型如图2所示,其中α表示多项分布的参数,θ表示多项分布的参数,Z表示主题,wj,i表示特征关键词,sj,i表示结果文档列表文档得分,μ表示正态分布参数,表示主题-特征词项矩阵,σ表示多项分布的参数,β表示多项分布的参数,K表示主题的数目。本实施例步骤4)利用基于主题模型LDA的改进模型进行主题聚类的详细步骤包括:
4.1)对历史查询词中的每一个主题k∈[1,K](K表示主题的数目)进行下述步骤:为每个特征词项选择主题-特征词项矩阵主题-特征词项矩阵服从狄利克雷分布Dirichlet(β),主题-特征词项矩阵的行代表特征词项、列代表主题,主题-特征词项矩阵中的元素代表每个特征词项在相应主题下发生的概率;
4.2)针对每一个主题,对历史点击文档、外部文档集中的前γ个相关文档中每一个文档d进行下述步骤:为每个特征查询词项选择文档-主题矩阵θj,文档-主题矩阵θj服从狄利克雷分布Dirichlet(α),文档-主题矩阵θj的行代表主题、列代表文档,文档-主题矩阵θj中的元素代表每个主题在相应文档下发生的概率;
4.3)针对每一个主题的历史点击文档dj中的每一个历史查询词 表示特征关键词的数量),进行下述步骤:(1)根据历史点击文档dj,选择主题zj,i,zj,i服从多项分布 为多项分布的参数,i=1,…,K,K表示主题的数目;(2)根据主题zj,i,选择特征关键词wj,i,特征关键词wj,i服从多项分布 为多项分布的参数;(3)根据主题zj,i,选择检索得到的结果文档列表文档得分sj,i,结果文档列表文档得分sj,i服从正态分布针对基于主题模型LDA的改进模型采用吉布斯抽样方法进行参数推断,在吉布斯抽样的每一轮抽样过程中,根据式(2)来进行抽样,并基于式(3)和式(4)计算出主题-特征词项矩阵和文档-主题矩阵θ。
式(2)中,p(zj,i=k)表示抽取主题zj,i=k的概率,表示该轮抽样过程中不包括当前主题,主题zj,i被指派给文档dj的次数;表示该轮抽样过程中不包括当前特征关键词,wj,i被指派给主题k的次数;α表示主题的狄利克雷先验分布参数;β表示词项的狄利克雷先验分布参数;表示该轮抽样过程中主题不包括当前主题zj,i,其余所有主题指派给文档dj的次数;表示该轮抽样过程中不包括当前特征关键词,其余所有特征关键词被指派给主题k的次数;V表示词项的数量;sj,i表示查询词qi检索得到文档dj的得分;表示对数分布参数;表示对数分布参数;K表示主题的数量;
式(3)和式(4)中,表示主题-特征词项矩阵,矩阵的行代表特征词项,列代表主题,矩阵中的元素代表每个特征词项在相应主题下发生的概率;θ为表示文档-主题矩阵,矩阵的行代表主题,列代表文档,矩阵中的元素代表每个主题在相应文档下发生的概率;表示该轮抽样过程中不包括当前特征关键词,wj,i被指派给主题k的次数;表示该轮抽样过程中不包括当前特征关键词,其余所有特征关键词被指派给主题k的次数;β表示词项的狄利克雷先验分布参数,V表示词项的数量;表示不包括该轮抽样过程中特征关键词主题zj,i被指派给文档dj的次数;α表示主题的狄利克雷先验分布参数,表示该轮抽样过程中不包括当前主题,主题zj,i被指派给文档dj的次数;K表示主题的数量。
为了对本实施例基于查询扩展的个性化信息检索方法(本实施例方法)的检索性能进行实验评估:测试数据和两个外部文档集来自自主爬取的社交网络数据,测试数据集包含259511个用户,131283个文档,以及137870个查询词和相关评价;两个外部文档集分别包含4634369个文档和304630个文档。评估标准为Wikipedia以及CLEF两种标准下的平均准确率均值(Mean Average Precision,MAP),归一化折损累积增益(Normalized DiscountedCumulative Gain,NDCG),平均排序倒数值(Mean Reciprocal Rank,MRR)。表1为本方法与非个性化信息检索方法分别和普通语言模型方法、伪相关反馈语言模型方法、变形的伪相关反馈语言模型方法、基于字面匹配的个性化查询扩展方法、基于用户标签间关系查询扩展方法、标签—主题个性化查询扩展方法的检索性能对照数据。
表1:本实施例方法的检索性能对照表。
参见表1可知,本实施例基于查询扩展的个性化信息检索方法(本实施例方法)的检索性能无论是从准确率还是召回率上来说都得到了显著提高,是一种针对个性化信息检索非常有效的技术。出于篇幅考虑,在此不再罗列此次实验其它部分和评价标准,但综合所有的评估结果发现,采用基于查询扩展的个性化信息检索方法能显著提升性能。综上所述,本实施例基于查询扩展的个性化信息检索方法在查询扩展的过程中,将用户的查询词、用户历史点击文档以及外部相关文档结合起来考虑,对扩展候选词的相关度的计算就不仅仅停留在对文字内容的匹配上,而是建立在对文字内容理解的基础上。并且,如果用户给定的查询词不在用户兴趣模型中,本实施例基于查询扩展的个性化信息检索方法也可以进行查询扩展,从而大大提高了个性化信息检索的性能;而且,本实施例基于查询扩展的个性化信息检索方法通过构建基于隐含语义的用户兴趣模型,结合用户兴趣模型和采用用户初始查询词和被用户标记的文档中提取的特征关键词获取的靠前外部文档,对用户初始查询词进行扩展,继而进行新一轮的检索,获取个性化的文档结果列表,提高了个性化信息检索的准确率。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.一种基于查询扩展的个性化信息检索方法,其特征在于实施步骤包括:
1)收集用户的历史检索记录,提取历史查询词并对历史查询词进行规范化处理;
2)从用户的历史检索记录中提取历史点击文档,对历史点击文档处理后提取其中所有关键词项,并对关键词项进行规范化处理,计算关键词项在历史点击文档中的权重,基于权重对所有关键词项进行排序,选取前λ个关键词项作为获取外部文档的待查询词;
3)将用户的历史查询词、外部文档的待查询词合并组成新的查询词集合,使用查询词集合中的每个查询词在外部文档集中进行检索,得到前γ个相关文档和相应相关文档的得分,对外部文档集中的前γ个相关文档提取其中所有关键词项,并对关键词项进行规范化处理;
4)根据用户的历史查询词、历史点击文档、外部文档集中的前γ个相关文档,利用基于主题模型LDA的改进模型进行主题聚类,生成包含主题信息的特征词项的分布概率,得到由特征词项及其分布概率构成的用户兴趣模型,所述特征词项包括从用户的历史查询词中提取历史查询词得到的词项、历史点击文档中的关键词项以及外部文档集中的前γ个相关文档中的关键词项;
5)结合用户兴趣模型中特征词项以及检索得到的外部文档集中的前γ个相关文档,使用基于主题的查询扩展方法对所有特征词项进行排序,选取前δ个特征词项作为待扩展词项;且使用基于主题的查询扩展方法对所有特征词项进行排序的排序计算函数表达式如式(1)所示;
式(1)中,表示在已知查询词中产生扩展词的概率,表示在查询词向量中的查询词项,查询词项是相互独立的;P(w|zk)表示在已知主题zk的情况下产生相关文档中词项的概率,P(zk|db)表示已知相关文档db的情况下产生主题zk的概率,表示在已知主题zk的情况下产生查询词项的概率,N表示文档个数,K表示主题的数量;
6)使用待扩展词项将用户的当前查询词进行扩展形成新的查询词,使用新的查询词在目标文档集中进行新一轮的检索,生成发送给用户的最终文档结果列表。
2.根据权利要求1所述的基于查询扩展的个性化信息检索方法,其特征在于,步骤规范化处理包括分词处理、去除停用词、去除重复内容、去除无关内容。
3.根据权利要求1所述的基于查询扩展的个性化信息检索方法,其特征在于,步骤3)中使用查询词集合中的每个查询词在外部文档集中进行检索时,所述查询词集合中的每个查询词之间的逻辑关系为或。
4.根据权利要求1所述的基于查询扩展的个性化信息检索方法,其特征在于,步骤6)中使用新的查询词在目标文档集中进行新一轮的检索时,所述新的查询词中的每个查询词之间的逻辑关系为或。
5.根据权利要求1所述的基于查询扩展的个性化信息检索方法,其特征在于,步骤2)中前λ个关键词项的λ取值区间为[5,20]。
6.根据权利要求1所述的基于查询扩展的个性化信息检索方法,其特征在于,步骤3)中前γ个相关文档的γ取值区间为[5,10]。
7.根据权利要求1所述的基于查询扩展的个性化信息检索方法,其特征在于,步骤5)中前δ个特征词项的δ取值区间为[5,20]。
8.根据权利要求1所述的基于查询扩展的个性化信息检索方法,其特征在于,步骤4)利用基于主题模型LDA的改进模型进行主题聚类的详细步骤包括:
4.1)对历史查询词中的每一个主题k进行下述步骤:为每个特征词项选择主题-特征词项矩阵主题-特征词项矩阵服从狄利克雷分布Dirichlet(β),主题-特征词项矩阵的行代表特征词项、列代表主题,主题-特征词项矩阵中的元素代表每个特征词项在相应主题下发生的概率;其中,k∈[1,K],K表示主题的数目;
4.2)针对每一个主题,对历史点击文档、外部文档集中的前γ个相关文档中每一个文档d进行下述步骤:为每个特征查询词项选择文档-主题矩阵θj,文档-主题矩阵θj服从狄利克雷分布Dirichlet(α),文档-主题矩阵θj的行代表主题、列代表文档,文档-主题矩阵θj中的元素代表每个主题在相应文档下发生的概率;
4.3)针对每一个主题的历史点击文档dj中的每一个历史查询词wi进行下述步骤:(1)根据历史点击文档dj,选择主题zj,i,zj,i服从多项分布 为多项分布的参数,i=1,…,K,K表示主题的数目;(2)根据主题zj,i,选择特征关键词wj,i,特征关键词wj,i服从多项分布 为多项分布的参数;(3)根据主题zj,i,选择检索得到的结果文档列表文档得分sj,i,结果文档列表文档得分sj,i服从正态分布针对基于主题模型LDA的改进模型采用吉布斯抽样方法进行参数推断,在吉布斯抽样的每一轮抽样过程中,根据式(2)来进行抽样,并基于式(3)和式(4)计算出主题-特征词项矩阵和文档-主题矩阵θ;其中历史查询词wi中的 表示特征关键词的数量;
式(2)中,p(zj,i=k)表示抽取主题zj,i=k的概率,表示该轮抽样过程中不包括当前主题,主题zj,i被指派给文档dj的次数;表示该轮抽样过程中不包括当前特征关键词,wj,i被指派给主题k的次数;α表示主题的狄利克雷先验分布参数;β表示词项的狄利克雷先验分布参数;表示该轮抽样过程中主题不包括当前主题zj,i,其余所有主题指派给文档dj的次数;表示该轮抽样过程中不包括当前特征关键词,其余所有特征关键词被指派给主题k的次数;V表示词项的数量;sj,i表示查询词qi检索得到文档dj的得分;表示对数分布参数;表示对数分布参数;K表示主题的数量;
式(3)和式(4)中,表示主题-特征词项矩阵,矩阵的行代表特征词项,列代表主题,矩阵中的元素代表每个特征词项在相应主题下发生的概率;θ为表示文档-主题矩阵,矩阵的行代表主题,列代表文档,矩阵中的元素代表每个主题在相应文档下发生的概率;表示该轮抽样过程中不包括当前特征关键词,wj,i被指派给主题k的次数;表示该轮抽样过程中不包括当前特征关键词,其余所有特征关键词被指派给主题k的次数;β表示词项的狄利克雷先验分布参数,V表示词项的数量;表示不包括该轮抽样过程中特征关键词主题zj,i被指派给文档dj的次数;α表示主题的狄利克雷先验分布参数,表示该轮抽样过程中不包括当前主题,主题zj,i被指派给文档dj的次数;K表示主题的数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610932970.4A CN106547864B (zh) | 2016-10-24 | 2016-10-24 | 一种基于查询扩展的个性化信息检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610932970.4A CN106547864B (zh) | 2016-10-24 | 2016-10-24 | 一种基于查询扩展的个性化信息检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106547864A CN106547864A (zh) | 2017-03-29 |
CN106547864B true CN106547864B (zh) | 2019-07-16 |
Family
ID=58392720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610932970.4A Active CN106547864B (zh) | 2016-10-24 | 2016-10-24 | 一种基于查询扩展的个性化信息检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106547864B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107798091B (zh) * | 2017-10-23 | 2021-05-18 | 金蝶软件(中国)有限公司 | 一种数据爬取的方法及其相关设备 |
CN108304444B (zh) * | 2017-11-30 | 2021-12-14 | 腾讯科技(深圳)有限公司 | 信息查询方法及装置 |
CN108334632B (zh) * | 2018-02-26 | 2021-03-23 | 深圳市腾讯计算机系统有限公司 | 实体推荐方法、装置、计算机设备和计算机可读存储介质 |
CN109063203B (zh) * | 2018-09-14 | 2020-07-24 | 河海大学 | 一种基于个性化模型的查询词扩展方法 |
CN111435378B (zh) * | 2019-01-14 | 2023-09-05 | 中国人民大学 | 查询结果的排序方法、装置、电子设备以及存储介质 |
CN110347920A (zh) * | 2019-07-02 | 2019-10-18 | 北京纵横无双科技有限公司 | 一种健康信息的检索匹配方法及装置 |
CN113032549B (zh) * | 2021-05-31 | 2021-09-10 | 北京明略昭辉科技有限公司 | 一种文档排序方法、装置、电子设备及存储介质 |
CN113569566B (zh) * | 2021-07-30 | 2022-08-09 | 苏州七星天专利运营管理有限责任公司 | 一种词汇扩展方法和系统 |
CN116303904A (zh) * | 2022-12-27 | 2023-06-23 | 药融云数字科技(成都)有限公司 | 一种医学文献查找方法、系统、存储介质及终端 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3428630B2 (ja) * | 1998-11-03 | 2003-07-22 | 日本電気株式会社 | 複数の細分度のインデックス付けとクエリー処理を効果的に用いてクエリーの拡張を支援する方法、及び装置 |
CN101059806A (zh) * | 2007-06-06 | 2007-10-24 | 华东师范大学 | 一种基于语义的本地文档检索方法 |
CN101251841A (zh) * | 2007-05-17 | 2008-08-27 | 华东师范大学 | 基于语义的Web文档的特征矩阵的建立和检索方法 |
CN103593425A (zh) * | 2013-11-08 | 2014-02-19 | 南方电网科学研究院有限责任公司 | 基于偏好的智能检索方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7287025B2 (en) * | 2003-02-12 | 2007-10-23 | Microsoft Corporation | Systems and methods for query expansion |
-
2016
- 2016-10-24 CN CN201610932970.4A patent/CN106547864B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3428630B2 (ja) * | 1998-11-03 | 2003-07-22 | 日本電気株式会社 | 複数の細分度のインデックス付けとクエリー処理を効果的に用いてクエリーの拡張を支援する方法、及び装置 |
CN101251841A (zh) * | 2007-05-17 | 2008-08-27 | 华东师范大学 | 基于语义的Web文档的特征矩阵的建立和检索方法 |
CN101059806A (zh) * | 2007-06-06 | 2007-10-24 | 华东师范大学 | 一种基于语义的本地文档检索方法 |
CN103593425A (zh) * | 2013-11-08 | 2014-02-19 | 南方电网科学研究院有限责任公司 | 基于偏好的智能检索方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于主题的个性化查询扩展模型;支凤麟;《计算机工程与设计》;20101028;第4471-4475页 |
Also Published As
Publication number | Publication date |
---|---|
CN106547864A (zh) | 2017-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106547864B (zh) | 一种基于查询扩展的个性化信息检索方法 | |
Zheng et al. | Learning to crawl deep web | |
CN105045875B (zh) | 个性化信息检索方法及装置 | |
CN109829104A (zh) | 基于语义相似度的伪相关反馈模型信息检索方法及系统 | |
CN108647322B (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
CN103838756A (zh) | 一种确定推送信息的方法及装置 | |
CN101097570A (zh) | 一种自动识别分类广告类型的广告分类方法 | |
US8229909B2 (en) | Multi-dimensional algorithm for contextual search | |
Makvana et al. | A novel approach to personalize web search through user profiling and query reformulation | |
CN112559684A (zh) | 一种关键词提取及信息检索方法 | |
CN102289514B (zh) | 社会标签自动标注的方法以及社会标签自动标注器 | |
Noel et al. | Applicability of Latent Dirichlet Allocation to multi-disk search | |
CN110083683A (zh) | 基于随机游走的实体语义标注方法 | |
CN114090861A (zh) | 一种基于知识图谱的教育领域搜索引擎构建方法 | |
Ramesh et al. | Personalized search engine using social networking activity | |
CN112818230B (zh) | 内容推荐方法、装置、电子设备和存储介质 | |
Sirsat et al. | Mining knowledge from text repositories using information extraction: A review | |
CN108363759A (zh) | 基于结构化数据的主题树生成方法及系统及智能对话方法 | |
AL-Khassawneh et al. | Improving triangle-graph based text summarization using hybrid similarity function | |
Xiao et al. | Web services clustering based on HDP and SOM neural network | |
Zhang et al. | Employing topic models for pattern-based semantic class discovery | |
Sharma et al. | A trend analysis of significant topics over time in machine learning research | |
Irshad et al. | SwCS: Section-Wise Content Similarity Approach to Exploit Scientific Big Data. | |
Du et al. | Scientific users' interest detection and collaborators recommendation | |
Pakojwar et al. | Web data extraction and alignment using tag and value similarity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |