CN103902694B - 基于聚类和查询行为的检索结果排序方法 - Google Patents
基于聚类和查询行为的检索结果排序方法 Download PDFInfo
- Publication number
- CN103902694B CN103902694B CN201410122930.4A CN201410122930A CN103902694B CN 103902694 B CN103902694 B CN 103902694B CN 201410122930 A CN201410122930 A CN 201410122930A CN 103902694 B CN103902694 B CN 103902694B
- Authority
- CN
- China
- Prior art keywords
- document
- sim
- degree
- association
- clu
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于聚类和查询行为的检索结果排序方法,包括如下步骤:计算文档与查询的相关度,选取候选文档集合;对候选文档集合进行聚类分析,计算每个聚类与查询的相关度;根据文档的相关度和文档所在聚类的相关度,计算文档的排序Rank(di);根据用户点击文档的反馈信息更新文档的相关度和聚类的相关度;更新文档的排序Rank(di)。本发明能够根据用户的点击行为,挖掘用户查询所蕴含的各种潜在意图,可以动态的调整文档的排列顺序,从而更好地满足了用户的多样化需求。
Description
技术领域
本发明涉及一种信息检索领域的方法,特别是涉及一种基于聚类和查询行为的检索结果排序方法。
背景技术
搜索引擎在用户输入一个查询后,返回一个“相关”结果的列表,然而这个检索结果列表往往不能让用户满意。一方面由于用户查询的不确定性,例如查询词有多义性,存在多种解释,搜索引擎无法确定用户的需求;另一方面,对于搜索引擎返回的大量结果,用户通常只选择浏览Top10的检索结果,由于检索结果没有进行合理的总结与组织,而仅仅是简单的罗列,Top10的检索结果可能是不全面的,因此用户获取到的信息可能是不全面的。
目前有一些研究通过采用对检索结果聚类来解决上面所阐述的问题,一方面对于有歧义的查询,通过检索结果聚类,可以按照不同语义将检索结果聚成不同类别;另一方面,检索结果聚类能够对检索结果进行全面的分析处理,可以给出一个全面的关于被查询对象的介绍。但是现有的检索结果聚类排序方法大多是对文档的查询相关度与文档间的相似性的线性组合优化问题进行求解。这类相对静态的方法是从系统的角度对用户意图进行挖掘,无法真正把握用户的查询意图。
发明内容
本发明的目的在于提供一种基于聚类和查询行为的检索结果排序方法,根据用户点击文档的反馈信息进行在线学习,可以动态的调整类别的排列顺序以及类别内文档的选择,能够更好地满足用户的多样化需求。
实现本发明目的的技术方案:
一种基于聚类和查询行为的检索结果排序方法,其特征在于:
步骤1:计算文档与查询的相关度Sim(q,di),并根据相关度选取候选文档集合;
步骤2:对候选文档集合进行聚类分析,计算每个聚类与查询的相关度Sim(q,Clui);
步骤3:根据步骤1中获得的文档的相关度Sim(q,di)和步骤2中获得的文档所在聚类的相关度Sim(q,Clui),计算文档的排序Rank(di);
步骤4:根据用户点击文档的反馈信息更新文档的相关度Sim(q,di)和聚类的相关度Sim(q,Clui):
步骤5:根据步骤4中更新的文档的相关度Sim(q,di)和文档所在聚类的相关度Sim(q,Clui),更新计算文档的Rank(di)。
步骤4中,如果用户点击文档,则文档的相关度Sim(q,di)=Sim(q,di)+β,文档所在聚类的Sim(q,Clui)=Sim(q,Clui)+β;如果用户没有点击文档,文档的相关度Sim(q,di)=Sim(q,di)-β,文档所在聚类的Sim(q,Clui)=Sim(q,Clui)-β;式中β为参数,0<β<1。
通过如下公式计算文档的排序Rank(di):
Rank(di)=λ*Sim(q,di)+(1-λ)Sim(q,Clui)
式中,λ=0.7。
本发明的有益效果:
本发明根据文档的相关度Sim(q,di)和文档所在聚类的相关度Sim(q,Clui),计算文档的排序Rank(di);对于有歧义的查询,能够对检索结果进行全面的分析处理,可以给出一个全面的关于被查询对象的介绍。
本发明根据用户点击文档的反馈信息更新文档的相关度Sim(q,di)和聚类的相关度Sim(q,Clui),继而更新文档的排序Rank(di),能够根据用户的点击行为,挖掘用户查询所蕴含的各种潜在意图,可以动态的调整文档的排列顺序,从而更好地满足了用户的多样化需求。
附图说明
图1为本发明基于聚类和查询行为的检索结果排序方法的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明的实施过程作进一步详细的描述。
参照图1,本发明提出了一种基于聚类和查询行为的检索结果排序方法,该方法包括下述几个步骤:
步骤1:计算文档与查询的相关度Sim(q,di),并根据相关度选取候选文档集合,具体包括以下步骤:
步骤1.1:对整个文档集进行去停用词、词干化等预处理,构建基于向量空间模型的文本数据库和整个文档集的总特征词库。
步骤1.2:将输入的查询内容进行去停用词、词干化等预处理,剩下的词构成查询的向量形式Q。
步骤1.3:采用余弦函数来代表两个向量数据的相关度,即式中di,dj是两个文档的向量表示,Sim(di,dj)代表两个文档di,dj的相关度。α代表两个文档向量的夹角。该余弦值越大表示两个向量的夹角越小,两个文档就越相关。
步骤1.4:按照文档的相关度Sim(q,di)大小依次排序,并选取候选文档集合Coll。
步骤2:对候选文档集合Coll进行聚类分析,计算每个聚类与查询的相关度Sim(q,Clui):
步骤2.1:在文档集合Coll中随机选取K个文档,其中每个文档k初始代表一个簇中心op,p=1,…,k。
步骤2.2:计算剩余的每个文档xi与各个簇中心的欧氏距离op。
式中,yi和zi分别代表文档y和z向量形式中第i个坐标。
步骤2.3:根据所述剩余的每个文档xi与各个簇中心的欧式距离op,把所剩余的文档xi分给最近的簇中心。
步骤2.4:利用平均值方法重新计算簇中心。
重复步骤2.2至步骤2.4,直到簇中心值不变。
步骤2.5:计算每个聚类与查询的相关度Sim(q,Clui)。
式中,q为查询向量,ck表示各个聚类的中心向量。
步骤3:计算文档的排序Rank(di):
Rank(di)=λ*Sim(q,di)+(1-λ)Sim(q,Clui)
式中,λ=0.7。
步骤4:根据用户点击文档的反馈信息更新文档的相关度和聚类的相关度:
如果用户点击文档,文档的相关度Sim(q,di)=Sim(q,di)+β,文档所在聚类的Sim(q,Clui)=Sim(q,Clui)+β,式中β为参数,0<β<1。
如果用户没有点击文档,文档的相关度Sim(q,di)=Sim(q,di)-β,文档所在聚类的Sim(q,Clui)=Sim(q,Clui)-β,式中β为参数,0<β<1。
步骤5:更新文档的排序Rank(di)。
Claims (3)
1.一种基于聚类和查询行为的检索结果排序方法,其特征在于:
步骤1:计算文档与查询的相关度Sim(q,di),并根据相关度选取候选文档集合,q代表查询、di代表第i个文档;
步骤2:对候选文档集合进行聚类分析,计算每个聚类与查询的相关度Sim(q,Clui),Clui代表第i个聚类;
步骤3:根据步骤1中获得的文档的相关度Sim(q,di)和步骤2中获得的文档所在聚类的相关度Sim(q,Clui),计算文档的排序Rank(di);
步骤4:根据用户点击文档的反馈信息更新文档的相关度Sim(q,di)和聚类的相关度Sim(q,Clui):
步骤5:根据步骤4中更新的文档的相关度Sim(q,di)和文档所在聚类的相关度Sim(q,Clui),更新计算文档的Rank(di)。
2.根据权利要求1所述的基于聚类和查询行为的检索结果排序方法,其特征在于:步骤4中,如果用户点击文档,则文档的相关度Sim(q,di)=Sim(q,di)+β,文档所在聚类的Sim(q,Clui)=Sim(q,Clui)+β;如果用户没有点击文档,文档的相关度Sim(q,di)=Sim(q,di)-β,文档所在聚类的Sim(q,Clui)=Sim(q,Clui)-β;式中β为参数,0<β<1。
3.根据权利要求2所述的基于聚类和查询行为的检索结果排序方法,其特征在于:通过如下公式计算文档的排序Rank(di):
Rank(di)=λ*Sim(q,di)+(1-λ)Sim(q,Clui)
式中,λ=0.7。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410122930.4A CN103902694B (zh) | 2014-03-28 | 2014-03-28 | 基于聚类和查询行为的检索结果排序方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410122930.4A CN103902694B (zh) | 2014-03-28 | 2014-03-28 | 基于聚类和查询行为的检索结果排序方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103902694A CN103902694A (zh) | 2014-07-02 |
CN103902694B true CN103902694B (zh) | 2017-04-12 |
Family
ID=50994016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410122930.4A Active CN103902694B (zh) | 2014-03-28 | 2014-03-28 | 基于聚类和查询行为的检索结果排序方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103902694B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156187A (zh) * | 2015-04-21 | 2016-11-23 | 深圳市腾讯计算机系统有限公司 | 内容检索方法及检索系统 |
CN104899322B (zh) * | 2015-06-18 | 2021-09-17 | 百度在线网络技术(北京)有限公司 | 搜索引擎及其实现方法 |
CN106933947B (zh) * | 2017-01-20 | 2018-12-04 | 北京三快在线科技有限公司 | 一种搜索方法及装置、电子设备 |
CN107133290B (zh) * | 2017-04-19 | 2019-10-29 | 中国人民解放军国防科学技术大学 | 一种个性化信息检索方法与装置 |
CN112417197B (zh) * | 2020-12-02 | 2022-02-25 | 云从科技集团股份有限公司 | 一种排序方法、装置、机器可读介质及设备 |
CN113032549B (zh) * | 2021-05-31 | 2021-09-10 | 北京明略昭辉科技有限公司 | 一种文档排序方法、装置、电子设备及存储介质 |
CN115309872B (zh) * | 2022-10-13 | 2023-03-10 | 深圳市龙光云众智慧科技有限公司 | 一种基于Kmeans召回的多模型熵加权检索方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101620596A (zh) * | 2008-06-30 | 2010-01-06 | 东北大学 | 一种面向查询的多文档自动摘要方法 |
CN102023993A (zh) * | 2009-09-22 | 2011-04-20 | 株式会社理光 | 基于聚类/分类和时间的簇页面排名设备和方法 |
CN103324707A (zh) * | 2013-06-18 | 2013-09-25 | 哈尔滨工程大学 | 一种基于半监督聚类的查询扩展方法 |
-
2014
- 2014-03-28 CN CN201410122930.4A patent/CN103902694B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101620596A (zh) * | 2008-06-30 | 2010-01-06 | 东北大学 | 一种面向查询的多文档自动摘要方法 |
CN102023993A (zh) * | 2009-09-22 | 2011-04-20 | 株式会社理光 | 基于聚类/分类和时间的簇页面排名设备和方法 |
CN103324707A (zh) * | 2013-06-18 | 2013-09-25 | 哈尔滨工程大学 | 一种基于半监督聚类的查询扩展方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103902694A (zh) | 2014-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103902694B (zh) | 基于聚类和查询行为的检索结果排序方法 | |
US9880999B2 (en) | Natural language relatedness tool using mined semantic analysis | |
CN101055585B (zh) | 文档聚类系统和方法 | |
US8341112B2 (en) | Annotation by search | |
CN102193939B (zh) | 信息导航的实现方法、信息导航服务器和信息处理系统 | |
Buana et al. | Combination of k-nearest neighbor and k-means based on term re-weighting for classify indonesian news | |
CN108647276B (zh) | 一种搜索方法 | |
CN106156272A (zh) | 一种基于多源语义分析的信息检索方法 | |
CN104778283B (zh) | 一种基于微博的用户职业分类方法及系统 | |
CN106547864B (zh) | 一种基于查询扩展的个性化信息检索方法 | |
CN102184169A (zh) | 用于确定字符串信息间相似度信息的方法、装置和设备 | |
CN105653701B (zh) | 模型生成方法及装置、词语赋权方法及装置 | |
CN111078971A (zh) | 简历文件的筛选方法、装置、终端及存储介质 | |
Qiu | Toward deterministic and semiautomated SPADE analysis | |
CN103294817A (zh) | 一种基于类别分布概率的文本特征抽取方法 | |
CN107291895B (zh) | 一种快速的层次化文档查询方法 | |
CN110032650B (zh) | 一种训练样本数据的生成方法、装置及电子设备 | |
CN108182182A (zh) | 翻译数据库中文档匹配方法、装置及计算机可读存储介质 | |
CN103778206A (zh) | 一种网络服务资源的提供方法 | |
CN104778201A (zh) | 一种基于多查询结果合并的在先技术检索方法 | |
Purohit et al. | Text classification in data mining | |
CN103744887A (zh) | 一种用于人物搜索的方法、装置和计算机设备 | |
CN106294358A (zh) | 一种信息的检索方法及系统 | |
CN103761286A (zh) | 一种基于用户兴趣的服务资源检索方法 | |
Baena-García et al. | TF-SIDF: Term frequency, sketched inverse document frequency |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |