CN105447159A - 一种用户间查询关联度的查询扩展方法 - Google Patents

一种用户间查询关联度的查询扩展方法 Download PDF

Info

Publication number
CN105447159A
CN105447159A CN201510863732.8A CN201510863732A CN105447159A CN 105447159 A CN105447159 A CN 105447159A CN 201510863732 A CN201510863732 A CN 201510863732A CN 105447159 A CN105447159 A CN 105447159A
Authority
CN
China
Prior art keywords
user
interest
degree
category
association
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510863732.8A
Other languages
English (en)
Inventor
吕学强
徐丽萍
董志安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING RESEARCH CENTER OF URBAN SYSTEM ENGINEERING
Beijing Information Science and Technology University
Original Assignee
BEIJING RESEARCH CENTER OF URBAN SYSTEM ENGINEERING
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING RESEARCH CENTER OF URBAN SYSTEM ENGINEERING, Beijing Information Science and Technology University filed Critical BEIJING RESEARCH CENTER OF URBAN SYSTEM ENGINEERING
Priority to CN201510863732.8A priority Critical patent/CN105447159A/zh
Publication of CN105447159A publication Critical patent/CN105447159A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种用户间查询关联度的查询扩展方法,包括以下步骤:步骤1)统计一个用户所浏览的网页的总数;步骤2)划分兴趣类别;步骤3)统计该用户所浏览的网页所包含的兴趣类别的种类数目以及网页的数目;步骤4)计算该用户对各个兴趣类别的兴趣偏好权重;步骤5)构建出该用户的用户偏好模型;步骤6)利用步骤1)至步骤5)的方法构建出多个用户偏好模型;步骤7)形成多个用户群;步骤8)将用户群里的每一个用户的文档点击信息构成一个搜索空间。本发明优先将与用户兴趣密切相关的用户作为查询扩展的背景知识,作为查询扩展的依据,在此基础上利用关联查询分析查询词之间的关联关系,解决了初次检索质量不高的问题,提高了检索效率。

Description

一种用户间查询关联度的查询扩展方法
技术领域
本发明属于网络信息搜索技术领域,具体涉及一种用户间查询关联度的查询扩展方法。
背景技术
随着Internet技术的发展和网络信息的飞速增长,互联网已经成为全球最大的知识库,是人们获取信息的重要来源。利用关键词搜索相关网络信息的搜索引擎在一定程度上帮助了人们快速地从浩瀚的信息资源中查找所需的信息,但它仍然面临一些亟待解决的问题。通过对搜索引擎日志的研究分析发现,49%的用户查询仅有一个单词,33%的查询由两个单词组成,用户平均使用1.4个单词来描述他们的查询内容,查询串简短的信息经常无法提供用于检索相关文档的足够信息,这导致搜索引擎的检索结果不够理想。当前常用的解决这些问题的方法主要是查询扩展方法,然而查询扩展的方法存在着两点不足:
1)扩展词没有根据用户所需进行扩展。大部分扩展只根据关键词的表面进行扩展,但是事实上,关键词本身存在就有很多歧义,例如:“苹果”既可能是电脑品牌,也可能是水果,“火箭”既可以是检索航天信息,也可以检索NBA火箭队的信息,据日志统计分析,只有20%的用户用同一个检索词表达同一个概念,这降低了检索的效率。
2)检索用户的个人信息未被充分利用导致查询漂移问题的存在。查询漂移是指查询扩展后的主旨偏离了用户的原始检索意图。因此扩展词选取的不好就有可能带来查询漂移的出现,扩展词的选取中包含了较多不相关的词汇,或者非相关的检索词得到了较高的权重。
发明内容
针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现上述技术缺陷的用户间查询关联度的查询扩展方法。
为了实现上述发明目的,本发明采用的技术方案如下:
一种用户间查询关联度的查询扩展方法,包括以下步骤:
步骤1)统计一个用户在近期一段时间内所浏览的网页的总数;
步骤2)划分兴趣类别,并指定代表每个所述兴趣类别的关键词;
步骤3)根据所述关键词统计该用户在近期一段时间内所浏览的网页所包含的所述兴趣类别的种类数目以及属于每个所述兴趣类别的网页的数目;
步骤4)计算该用户对各个兴趣类别的兴趣偏好权重;
步骤5)构建出该用户的用户偏好模型;
步骤6)利用步骤1)至步骤5)的方法构建出多个用户的用户偏好模型;
步骤7)根据用户偏好模型计算所述多个用户之间的兴趣相关度,将兴趣相关度大于兴趣相关度阈值的用户划分到同一个用户群中,形成用户兴趣偏好相似的多个用户群;
步骤8)将用户群里的每一个用户的文档点击信息构成一个搜索空间,用户群里的每一个用户在搜索信息时优先对所述搜索空间里的文档进行搜索。
进一步地,所述步骤1)中的所述近期一段时间为六个月至十二个月。
进一步地,所述步骤4)计算该用户对各个兴趣类别的兴趣偏好权重所依据的公式为:
用户i对兴趣类别Ik的兴趣偏好权重其中:Ik为第k个兴趣类别,k为正整数,n(Ik)为用户i在近期一段时间内所浏览的网页中属于兴趣类别Ik的个数,N为用户i在近期一段时间内所浏览的网页的总数。
进一步地,所述步骤5)中的所述用户偏好模型用向量表示为:
ITi=((I1,wi(I1)),(I2,wi(I2)),...,(In,wi(In))),其中,1≤k≤n,n为正整数。
进一步地,所述步骤7)中的不同用户的兴趣相关度的计算具体为:用户i和用户j之间的兴趣相关度
s i m ( i , j ) cos ( IT i , IT j ) = IT i · IT j | | IT i | | × | | IT j | | = Σ k = 1 n w i ( I k ) × w j ( I k ) Σ k = 1 n ( w i ( I k ) ) 2 × Σ k = 1 n ( w j ( I k ) ) 2 .
进一步地,所述步骤8)中对所述搜索空间里的文档进行搜索时,利用查询词之间的关联度搜索相关文档,具体地:给定查询词qi,另一个查询词qj相对于qi的关联度表示为条件概率
P ( q j | q i ) = P ( q j , q i ) P ( q i ) = Σ ∀ d k ∈ D P ( q j , q i , d k ) P ( q i ) = Σ ∀ d k ∈ D P ( q j | q i , d k ) × P ( q i , d k ) P ( q i ) ,
其中,D是查询qi和qj的相关文档集合。
本发明提供的用户间查询关联度的查询扩展方法,优先将与用户兴趣密切相关的用户作为查询扩展的背景知识,作为查询扩展的依据,在此基础上利用关联查询分析查询词之间的关联关系,解决了初次检索质量不高的问题,提高了检索效率,可以很好地满足实际应用的需要。
附图说明
图1为本发明的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本发明做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,一种用户间查询关联度的查询扩展方法,包括以下步骤:
步骤1)统计一个用户在近期一段时间内所浏览的网页的总数;
步骤2)划分兴趣类别,建立兴趣类别集合,并指定代表每个所述兴趣类别的关键词;
步骤3)根据所述关键词统计该用户在近期一段时间内所浏览的网页所包含的所述兴趣类别的种类数目以及属于每个所述兴趣类别的网页的数目;
步骤4)计算该用户对各个兴趣类别的兴趣偏好权重;
步骤5)构建出该用户的用户偏好模型;
步骤6)利用步骤1)至步骤5)的方法构建出多个用户的用户偏好模型;
步骤7)根据用户偏好模型计算所述多个用户之间的兴趣相关度,将兴趣相关度大于兴趣相关度阈值的用户划分到同一个用户群中,形成用户兴趣偏好相似的多个用户群;
步骤8)将用户群里的每一个用户的文档点击信息构成一个搜索空间,用户群里的每一个用户在搜索信息时优先对所述搜索空间里的文档进行搜索。
所述步骤1)中的所述近期一段时间一般取六个月至十二个月,也可以为其他长度的时间段。
所述步骤4)计算该用户对各个兴趣类别的兴趣偏好权重所依据的公式为:
用户i对兴趣类别Ik的兴趣偏好权重其中:Ik为第k个兴趣类别,k为正整数,n(Ik)为用户i在近期一段时间内所浏览的网页中属于兴趣类别Ik的个数,N为用户i在近期一段时间内所浏览的网页的总数。
所述步骤5)中的所述用户偏好模型用向量表示为:
ITi=((I1,wi(I1)),(I2,wi(I2)),...,(In,wi(In))),其中,1≤k≤n,n为正整数。
所述步骤7)中的不同用户的兴趣相关度的计算具体为:用户i和用户j之间的兴趣相关度
s i m ( i , j ) cos ( IT i , IT j ) = IT i · IT j | | IT i | | × | | IT j | | = Σ k = 1 n w i ( I k ) × w j ( I k ) Σ k = 1 n ( w i ( I k ) ) 2 × Σ k = 1 n ( w j ( I k ) ) 2 ,
若Sim(i,j)≥ρ(ρ为设定的用户相关度阈值)时,则认为用户i、用户j的兴趣偏好相似性较大,则将用户j的文档点击信息加入关联查询的搜索空间。
所述步骤8)中对所述搜索空间里的文档进行搜索时,利用查询词之间的关联度搜索相关文档,具体地:给定查询词qi,另一个查询词qj相对于qi的关联度表示为条件概率
P ( q j | q i ) = P ( q j , q i ) P ( q i ) = Σ ∀ d k ∈ D P ( q j , q i , d k ) P ( q i ) = Σ ∀ d k ∈ D P ( q j | q i , d k ) × P ( q i , d k ) P ( q i ) ,
其中,D是查询qi和qj的相关文档集合。
假设P(qj|qi,dk)=P(qj|dk),原因是查询之间的关联是由文档与查询的关系构建的,即dk将qi和qj分离开来。由此可得:
P ( q j | q i ) = Σ ∀ d k ∈ D P ( q j | d k ) × P ( d k | q i ) × P ( q i ) P ( q i ) = Σ ∀ d k ∈ D P ( q j | d k ) × P ( d k | q i ) ,
其中,P(dk|qi)是当查询为qi时,文档dk被点击浏览的条件概率。P(qj|dk)是被点击浏览的文档是dk时,查询为qj的条件概率。这两个条件概率可以由用户日志文档和查询的频率统计来估计。即:
P ( d k | q i ) = f ( q i , d k ) f ( q i ) ,
P ( q j | d k ) = f ( q i , d k ) f ( d k ) ,
其中,f(qi,dk)是查询为qi时,包含文档dk的查询日志条数,f(qi)是查询qi对应的查询日志条数,f(qj,dk)是查询为qj时,包含文档dk的日志条数,f(dk)是包含文档dk的所有查询的条数。只有当dk在查询qi和qj的用户会话中均有出现时,上面两个条件概率的乘积才不为零,出现的次数越多,得到的条件概率越大,即查询关联越紧密。根据查询词所共同点击访问的文档信息,在统计概率模型的基础上,可以计算查询之间的关联关系。
本发明提供的用户间查询关联度的查询扩展方法,优先将与用户兴趣密切相关的用户作为查询扩展的背景知识,作为查询扩展的依据,在此基础上利用关联查询分析查询词之间的关联关系,解决了初次检索质量不高的问题,提高了检索效率,可以很好地满足实际应用的需要。
以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (6)

1.一种用户间查询关联度的查询扩展方法,其特征在于,包括以下步骤:
步骤1)统计一个用户在近期一段时间内所浏览的网页的总数。
步骤2)划分兴趣类别,并指定代表每个所述兴趣类别的关键词。
步骤3)根据所述关键词统计该用户在近期一段时间内所浏览的网页所包含的所述兴趣类别的种类数目以及属于每个所述兴趣类别的网页的数目。
步骤4)计算该用户对各个兴趣类别的兴趣偏好权重。
步骤5)构建出该用户的用户偏好模型。
步骤6)利用步骤1)至步骤5)的方法构建出多个用户的用户偏好模型;
步骤7)根据用户偏好模型计算所述多个用户之间的兴趣相关度,将兴趣相关度大于兴趣相关度阈值的用户划分到同一个用户群中,形成用户兴趣偏好相似的多个用户群。
步骤8)将用户群里的每一个用户的文档点击信息构成一个搜索空间,用户群里的每一个用户在搜索信息时优先对所述搜索空间里的文档进行搜索。
2.根据权利要求1所述的用户间查询关联度的查询方法,其特征在于,所述步骤1)中的所述近期一段时间为六个月至十二个月。
3.根据权利要求1所述的用户间查询关联度的查询方法,其特征在于,所述步骤4)计算该用户对各个兴趣类别的兴趣偏好权重所依据的公式为:
用户i对兴趣类别Ik的兴趣偏好权重其中:Ik为第k个兴趣类别,k为正整数,n(Ik)为用户i在近期一段时间内所浏览的网页中属于兴趣类别Ik的个数,N为用户i在近期一段时间内所浏览的网页的总数。
4.根据权利要求3所述的用户间查询关联度的查询方法,其特征在于,所述步骤5)中的所述用户偏好模型用向量表示为:
ITi=((I1,wi(I1)),(I2,wi(I2)),...,(In,wi(In))),其中,1≤k≤n,n为正整数。
5.根据权利要求4所述的用户间查询关联度的查询方法,其特征在于,所述步骤7)中的不同用户的兴趣相关度的计算具体为:用户i和用户j之间的兴趣相关度
S i m ( i , j ) = c o s ( IT i , IT j ) = IT i · IT j | | IT i | | × | | IT j | | = Σ k = 1 n w i ( I k ) × w j ( I k ) Σ k = 1 n ( w i ( I k ) ) 2 × Σ k = 1 n ( w j ( I k ) ) 2 .
6.根据权利要求1-5所述的用户间查询关联度的查询方法,其特征在于,所述步骤8)中对所述搜索空间里的文档进行搜索时,利用查询词之间的关联度搜索相关文档,具体地:给定查询词qi,另一个查询词qj相对于qi的关联度表示为条件概率
P ( q j | q i ) = P ( q j , q i ) P ( q i ) = Σ ∀ d k ∈ D P ( q j , q i , d k ) P ( q i ) , = Σ ∀ d k ∈ D P ( q j | q i , d k ) × P ( q i , d k ) P ( q i )
其中,D是查询qi和qj的相关文档集合。
CN201510863732.8A 2015-12-02 2015-12-02 一种用户间查询关联度的查询扩展方法 Pending CN105447159A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510863732.8A CN105447159A (zh) 2015-12-02 2015-12-02 一种用户间查询关联度的查询扩展方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510863732.8A CN105447159A (zh) 2015-12-02 2015-12-02 一种用户间查询关联度的查询扩展方法

Publications (1)

Publication Number Publication Date
CN105447159A true CN105447159A (zh) 2016-03-30

Family

ID=55557335

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510863732.8A Pending CN105447159A (zh) 2015-12-02 2015-12-02 一种用户间查询关联度的查询扩展方法

Country Status (1)

Country Link
CN (1) CN105447159A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021423A (zh) * 2016-05-16 2016-10-12 西安电子科技大学 基于群组划分的元搜索引擎个性化结果推荐方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080109752A1 (en) * 2006-11-07 2008-05-08 Yahoo! Inc. Expanding search query input box to support livesearch interaction
US20080294622A1 (en) * 2007-05-25 2008-11-27 Issar Amit Kanigsberg Ontology based recommendation systems and methods
CN101359339A (zh) * 2008-09-23 2009-02-04 无敌科技(西安)有限公司 一种关键词自动扩展查询方法及其装置
CN101408897A (zh) * 2008-10-10 2009-04-15 清华大学 一种基于协作过滤的个性化查询扩展方法
CN102215300A (zh) * 2011-05-24 2011-10-12 中国联合网络通信集团有限公司 电信业务推荐方法和系统
CN102611785A (zh) * 2011-01-20 2012-07-25 北京邮电大学 面向手机的移动用户个性化新闻主动推荐服务系统及方法
US8473503B2 (en) * 2011-07-13 2013-06-25 Linkedin Corporation Method and system for semantic search against a document collection
CN103198418A (zh) * 2013-03-15 2013-07-10 北京亿赞普网络技术有限公司 一种应用推荐方法和系统
CN103593413A (zh) * 2013-10-27 2014-02-19 西安电子科技大学 基于Agent的元搜索引擎个性化方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080109752A1 (en) * 2006-11-07 2008-05-08 Yahoo! Inc. Expanding search query input box to support livesearch interaction
US20080294622A1 (en) * 2007-05-25 2008-11-27 Issar Amit Kanigsberg Ontology based recommendation systems and methods
CN101359339A (zh) * 2008-09-23 2009-02-04 无敌科技(西安)有限公司 一种关键词自动扩展查询方法及其装置
CN101408897A (zh) * 2008-10-10 2009-04-15 清华大学 一种基于协作过滤的个性化查询扩展方法
CN102611785A (zh) * 2011-01-20 2012-07-25 北京邮电大学 面向手机的移动用户个性化新闻主动推荐服务系统及方法
CN102215300A (zh) * 2011-05-24 2011-10-12 中国联合网络通信集团有限公司 电信业务推荐方法和系统
US8473503B2 (en) * 2011-07-13 2013-06-25 Linkedin Corporation Method and system for semantic search against a document collection
CN103198418A (zh) * 2013-03-15 2013-07-10 北京亿赞普网络技术有限公司 一种应用推荐方法和系统
CN103593413A (zh) * 2013-10-27 2014-02-19 西安电子科技大学 基于Agent的元搜索引擎个性化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
唐晓波 等: "一种面向微博的查询扩展方法", 《图书情报工作》 *
朱鲲鹏 等: "基于用户日志挖掘的查询扩展方法", 《计算机应用与软件》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021423A (zh) * 2016-05-16 2016-10-12 西安电子科技大学 基于群组划分的元搜索引擎个性化结果推荐方法
CN106021423B (zh) * 2016-05-16 2019-05-21 西安电子科技大学 基于群组划分的元搜索引擎个性化结果推荐方法

Similar Documents

Publication Publication Date Title
CN102253982B (zh) 一种基于查询语义和点击流数据的查询建议方法
CN101320375B (zh) 基于用户点击行为的数字图书搜索方法
CN103631929B (zh) 一种用于搜索的智能提示的方法、模块和系统
CN101694670B (zh) 一种基于公共子串的中文Web文档在线聚类方法
CN108846029B (zh) 基于知识图谱的情报关联分析方法
CN101493819B (zh) 一种搜索引擎作弊检测的优化方法
CN103577416A (zh) 扩展查询方法及系统
CN103823893A (zh) 一种基于用户评论的产品检索方法及产品检索系统
CN103235812B (zh) 查询多意图识别方法和系统
CN103064903B (zh) 图片检索方法和装置
CN103577432A (zh) 一种商品信息搜索方法和系统
CN105844424A (zh) 基于网络评论的产品质量问题发现及风险评估方法
CN102419778A (zh) 一种挖掘查询语句子话题并聚类的信息搜索方法
CN103530402A (zh) 一种基于改进的PageRank的微博关键用户识别方法
CN103186574A (zh) 一种搜索结果的生成方法和装置
CN104216874A (zh) 基于相关系数的中文词间加权正负模式挖掘方法及系统
CN102081668A (zh) 基于领域本体的信息检索优化方法
CN112507109A (zh) 一种基于语义分析与关键词识别的检索方法和装置
CN110555154A (zh) 一种面向主题的信息检索方法
CN105404677A (zh) 一种基于树形结构的检索方法
Elfayoumy et al. A survey of unstructured text summarization techniques
Khan et al. Web document clustering using a hybrid neural network
CN105447159A (zh) 一种用户间查询关联度的查询扩展方法
CN102955860B (zh) 基于模式图的关键字查询改进方法
CN105426490A (zh) 一种基于树形结构的索引方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160330

RJ01 Rejection of invention patent application after publication