CN102339322A - 基于搜索交互信息和用户搜索意图的词义提取方法 - Google Patents

基于搜索交互信息和用户搜索意图的词义提取方法 Download PDF

Info

Publication number
CN102339322A
CN102339322A CN2011103546555A CN201110354655A CN102339322A CN 102339322 A CN102339322 A CN 102339322A CN 2011103546555 A CN2011103546555 A CN 2011103546555A CN 201110354655 A CN201110354655 A CN 201110354655A CN 102339322 A CN102339322 A CN 102339322A
Authority
CN
China
Prior art keywords
user
inquiry
key word
search
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011103546555A
Other languages
English (en)
Other versions
CN102339322B (zh
Inventor
姬东鸿
孙程
吕晨
滕冲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DIGITAL TELEVISION TECHNOLOGY CENTER, BEIJING PEONY ELECTRONIC GROUP CO., LTD
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN 201110354655 priority Critical patent/CN102339322B/zh
Publication of CN102339322A publication Critical patent/CN102339322A/zh
Application granted granted Critical
Publication of CN102339322B publication Critical patent/CN102339322B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于搜索交互信息和用户搜索意图的词义提取方法,依次包括步骤:记录每个用户的历史交互信息;取所有用户查询频率排名前K1位的查询关键字构建查询关键字向量;取每个用户自身查询频率前K2位的查询关键字查询后的对应点击结果构建对应点击向量,并在查询关键字向量中将每个用户自身查询频率前K2位的查询关键字所对应的项设置为1,其他设置为0;提取任意单个高频查询关键字的义项个数;对用户聚类;计算同类用户对各查询关键字对应义项的偏好排名。本发明方法避免了人工标注导致的成本问题,同时,又避免了无导方法效果差或是受领域限制的问题;根据本发明方法得到的分析结果可以对单个用户提供个性化的搜索服务。

Description

基于搜索交互信息和用户搜索意图的词义提取方法
 
技术领域
本发明属于信息检索和词义排歧技术领域,尤其涉及一种基于搜索交互信息和用户搜索意图的词义提取方法。
背景技术
近几年,信息检索和词义排歧技术各自的研究和应用非常普遍,但将信息检索和词意排歧技术相结合的研究和应用则较少。
从1998年Google成立开始,信息检索逐渐成为一项主流的技术,最初,信息检索提供人工编辑的目录式检索,典型公司为雅虎。但随着互联网信息的爆炸,人工编辑已不能满足用户的需要,此后,机器自动处理的方式日益成为主流。现今,各类搜索服务已经各具规模,搜索服务可分为水平型和垂直型。水平型用来提供综合服务,在中国,水平型搜索服务的典型代表是百度、谷歌等;垂直型用来对特定领域提供相应服务,在中国,典型垂直型搜索服务的代表是酷讯等。与水平型搜索服务相比,垂直型搜索服务更加贴近用户的特定需求,但还只是面向某个特定的群体或具有某种特点的领域或是特定的应用,还不能做到针对每一个用户个体。
就词义排歧技术而言,传统的方法大多是基于统计学习的方法,用机器自动找出规律,不用人工干预,这种方法称为无导的方法,该方法在特定领域效果不错,但在通用领域效果一般。另外,全部用人工标注处理的词义排歧方法也被使用,这种方法称为全导的方法。还有一种半导的方法,即采用人工标注处理很少的一部分,再用机器处理其他的大部分。上述词义排歧的各类方法中,人工标注处理的人力和物力成本很大且目前的词义排歧没有通过用户的点击情况来划分词义个数的方法。面对当前的情况,不少公司也在起步做个性化搜索服务,但不少还停留在概念和操作性不强的理论上。
现有技术中有各类词义提取方法,但现有的方法大多是在静态文本中进行分析,或是对静态文本进行人工标注后进行处理,前者通常需要限制文本领域,在一般的领域里的效果不好;后者中人工标注成本很大。
发明内容
针对现有技术存在的问题,本发明将信息检索与词义排歧技术相结合,提出了一种基于搜索交互信息和用户搜索意图的词义提取方法,该方法通过对所有用户过往历史交互信息进行分析,并根据分析结果对单个用户提供个性化搜索结果。
为解决上述技术问题,本发明采用如下的技术方案:
基于搜索交互信息和用户搜索意图的词义提取方法,依次包括以下步骤: 
步骤一,记录每个用户的历史交互信息,所述的历史交互信息包括查询关键字、查询时间和对应点击;
步骤二,根据步骤一所得的历史交互信息,取所有用户查询频率排名前K1位的查询关键字构建查询关键字向量,查询关键字向量中的每一项对应一特定关键字,其中,K1可根据实验表现设置;
步骤三,根据步骤一所得的历史交互信息,取每个用户自身查询频率前K2位的查询关键字查询后的对应点击结果构建对应点击向量,并在步骤二所构建的查询关键字向量中将每个用户自身查询频率前K2位的查询关键字所对应的项设置为1,其他设置为0,其中,K2可根据实验表现设置;
步骤四,对任意单个高频查询关键字的点击情况进行统计处理,即统计各用户对任意单个高频查询关键字的点击结果中互斥的集合,该互斥的集合的数量极为该查询关键字的义项数量,每个集合中对应的网络资源即为该集合所代表的义项中所对应的资源,所述的高频查询关键字为所有用户查询频率排名前K1位的查询关键字和每个用户自身查询频率前K2位的查询关键字;
步骤五,根据步骤二和步骤三所得的查询关键字向量和对应点击向量中各项的值对用户聚类;
步骤六,根据步骤五所得的聚类结果,计算同类用户对各查询关键字对应义项的偏好排名。
上述步骤五中的聚类采用K-means聚类方法。
上述步骤六中的排名的计算是根据聚类在一起的各用户对各搜索关键字点击结果的频率进行。
与现有技术相比,本发明具有以下优点和有益效果:
1、本发明在词义排歧方面,避免了人工标注导致的成本问题,同时,这种方法又避免了无导方法效果差或是受领域限制的问题;
2、词语义项的确定取之于使用搜索引擎服务的用户,又用于对他们服务,更符合他们的搜索需求;
3、在词义选取方面更好的体现了用户的认知过程;
4、得到的义项分类更能体现用户搜索使用目的。
附图说明
图1为本发明方法的流程图;
图2为用户甲对查询关键字“苹果”的点击情况;
图3为用户乙对查询关键字“苹果”的点击情况;
图4为用户丙对查询关键字“苹果”的点击情况;
图5为用户1对查询关键字“苹果”的点击情况;
图6为用户2对查询关键字“苹果”的点击情况;
图7为用户3对查询关键字“苹果”的点击情况;
图8为用户4对查询关键字“苹果”的点击情况;
图9为用户5对查询关键字“苹果”的点击情况;
图10为用户6对查询关键字“苹果”的点击情况;
图11为返回给用户X的点击结果;
图12为返回给用户Y的点击结果。
 具体实施方式
为了避免数据稀疏的问题,本发明方法在处理查询关键字时仅取用高频查询关键字,即只取所有用户查询排名频率排名前K1名的查询关键字进行处理;同样的,不同用户对各查询关键字的使用频率有高有低,为避免偶然性因素,仅取每个用户自身查询频率排名前K2位的查询关键字进行处理。
图1所示为本发明方法的流程图,本发明方法的步骤具体如下:
步骤一,记录每个用户的历史交互信息,所述的历史交互信息包括查询关键字、查询时间、对应点击,其中,查询关键字用来构建查询关键字向量,对应点击用来构建对应点击向量,查询时间用来锁定用户某一阶段的特点,每隔一定时间,重新构建关键字向量和对应点击向量。
步骤二,根据步骤一所得的历史交互信息,取所有用户查询频率排名前K1位的查询关键字构建查询关键字向量,查询关键字向量中的每一项对应一特定关键字,其中,K1可根据最终词义排岐的效果和搜索服务的表现设置,K1为一个变动的值,其值的变动影响最终词义排岐的效果和搜索服务的表现,同时,最终词义排歧的效果和搜索服务的表现反过来影响其值的设定。
步骤三,根据步骤一所得的历史交互信息,取每个用户自身查询频率前K2位的查询关键字查询后的对应点击结果构建对应点击向量,向量化的结果以关键字为标志符,不同用户的相同关键字所对应的点击向量可相互比较其相似度进行用户聚类;并在步骤二所构建的查询关键字向量中将每个用户自身查询频率前K2位的查询关键字所对应的项设置为1,其他设置为0,K2可通过实验的表现调整设置其值。
步骤四,对任意单个高频查询关键字的点击情况进行统计处理,即统计各用户对任意单个高频查询关键字的点击结果中互斥的集合,该互斥的集合的数量极为该查询关键字的义项数量,每个集合中对应的网络资源即为该集合所代表的义项中所对应的资源,所述的高频查询关键字为所有用户查询频率排名前K1位的查询关键字和每个用户自身查询频率前K2位的查询关键字;
本步骤的进行以下面三个假设为前提:
(1)在一次搜索中,用户在输入某个词时,只使用这个词的唯一一个义项;
(2)用户只点击与此义项相关的结果中他感兴趣的条目;
(3)短期内(某阈值时间内)用户的各方面情况保持稳定,而超过这一阈值时间后用户的情况,很可能发生变化。用户状态相对稳定的这一阈值时间要根据大量长期的实验得出,也要随时间变化而调整。
步骤五,根据步骤二和步骤三所得的查询关键字向量和对应点击向量中各项的值对用户聚类,聚类过程采用K-means方法。K-means 方法为本领域内处理聚类的一种较成熟的方法,当然采用本领域内的其它聚类方法也是可行的。
步骤六,根据步骤五所得的聚类结果,计算同类用户对各查询关键字对应义项的偏好排名;排名将根据聚类在一起的各用户对各查询关键字点击结果的频率进行评定。此排名将为各查询关键字的相应义项对应的网页为用户提供个性化搜索提供依据。 
下面将结合附图和具体实施例来进一步说明本发明方法。
图2~4为根据用户历史交互信息的建模图,即简单表明了本发明方法中的步骤一~四。假设用户甲、乙、丙均输入查询关键字“苹果”,且每个用户均只取搜索结果的前9项进行点击,甲、乙、丙的点击情况分别如图2、图3、图4所示。从图2~4可以直观看出,关键词“苹果”这个词有三个义项,甲、乙、丙分别选择点击“苹果”的三个不同义项,从而说明甲、乙、丙在“苹果”这个词的词义的理解上没有分歧。
不过上述点击结果属于理想状态,一般情况下的点击结果并不理想。不同用户存在点击的重叠,但在大量用户的历史交互数据的记录中,还是可以找出统计规律。从直观上来看,用户对搜索结果的点击,实际上是对一个义项标注的过程,不过,用户标注的结果会漏掉他不感兴趣的条目。鉴于此,本发明作如下假设:每次某用户一次查询点击信息一般情况下主要是关键词的某个义项对应的网页的子集,并且,对应关键词各个义项的链接集之间基本无交集且并集为所有查询结果。基于上述两点假设,可以通过对每一用户对关键词某一义项的查询向量进行分类处理,得到最满足以上两点的集合组,其个数就是该关键词所对应的义项数。
图5~10为用户1~6的聚类图。在输入查询关键字“苹果”后,假设每个用户均只取搜索结果的前9项进行点击,6个用户点击结果的一种理想情况如图5~10所示。从图中可以直观看到,用户1和4具有相似的点击结果,用户2和5具有相似的点击结果,用户3和6具有相似的点击结果。那么,在具有大量用户的这类点击信息时,如果某些用户这种点击一致性不仅表现在“苹果”这个词上,还表现在其他词上,那么,就可以基于统计的特点把这样的用户归为一类。这样一来,用户1和4就可以归为一类,用户2和5可以归为一类,用户3和6可以归为一类。
根据用户的聚类结果,计算同类用户对各查询关键字对应义项的偏好排名,此排名将为各查询关键字相应义项对应的网页为用户提供个性化搜索提供依据。 下面将简单说明一下本发明在个性化搜索中的应用。在输入大量相同查询关键字的用户群中,若用户1~6对大量的相同查询关键字的点击情况如图5~10所示,则说明用户1和4、2和5、3和6是类似背景的人,即同一类用户。在这种情况下,假设用户X与用户1和2是同一类用户,用户X输入一个查询关键字A,则按照用户1和2对查询关键字A相应义项对应的点击结果作为搜索结果返给用户X,如图11所示;同样的道理,假设用户Y与用户2和5是同一类用户,用户Y输入一个查询关键字B,则按照用户2和5对查询关键字B相应义项对应的点击结果作为搜索结果返给用户Y。

Claims (3)

1.基于搜索交互信息和用户搜索意图的词义提取方法,其特征在于,依次包括以下步骤: 
步骤一,记录每个用户的历史交互信息,所述的历史交互信息包括查询关键字、查询时间和对应点击;
步骤二,根据步骤一所得的历史交互信息,取所有用户查询频率排名前K1位的查询关键字构建查询关键字向量,查询关键字向量中的每一项对应一特定关键字,其中,K1可根据实验表现设置;
步骤三,根据步骤一所得的历史交互信息,取每个用户自身查询频率前K2位的查询关键字查询后的对应点击结果构建对应点击向量,并在步骤二所构建的查询关键字向量中将每个用户自身查询频率前K2位的查询关键字所对应的项设置为1,其他设置为0,其中,K2可根据实验表现设置;
步骤四,对任意单个高频查询关键字的点击情况进行统计处理,即统计各用户对任意单个高频查询关键字的点击结果中互斥的集合,该互斥的集合的数量极为该查询关键字的义项数量,每个集合中对应的网络资源即为该集合所代表的义项中所对应的资源,所述的高频查询关键字为所有用户查询频率排名前K1位的查询关键字和每个用户自身查询频率前K2位的查询关键字;
步骤五,根据步骤二和步骤三所得的查询关键字向量和对应点击向量中各项的值对用户聚类;
步骤六,根据步骤五所得的聚类结果,计算同类用户对各查询关键字对应义项的偏好排名。
2.根据权利要求1所述的基于搜索交互信息和用户搜索意图的词义提取方法,其特征在于:所述的步骤五中的聚类采用K-means聚类方法。
3.根据权利要求1或2所述的基于搜索交互信息和用户搜索意图的词义提取方法,其特征在于:所述的步骤六中排名的计算是根据聚类在一起的各用户对各搜索关键字点击结果的频率进行。
CN 201110354655 2011-11-10 2011-11-10 基于搜索交互信息和用户搜索意图的词义提取的搜索方法 Active CN102339322B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110354655 CN102339322B (zh) 2011-11-10 2011-11-10 基于搜索交互信息和用户搜索意图的词义提取的搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110354655 CN102339322B (zh) 2011-11-10 2011-11-10 基于搜索交互信息和用户搜索意图的词义提取的搜索方法

Publications (2)

Publication Number Publication Date
CN102339322A true CN102339322A (zh) 2012-02-01
CN102339322B CN102339322B (zh) 2013-04-24

Family

ID=45515055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110354655 Active CN102339322B (zh) 2011-11-10 2011-11-10 基于搜索交互信息和用户搜索意图的词义提取的搜索方法

Country Status (1)

Country Link
CN (1) CN102339322B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880722A (zh) * 2012-10-17 2013-01-16 深圳市宜搜科技发展有限公司 一种权威站点的挖掘方法及装置
CN103164537A (zh) * 2013-04-09 2013-06-19 浙江鸿程计算机系统有限公司 一种面向用户信息需求的搜索引擎日志数据挖掘的方法
CN103279525A (zh) * 2013-05-29 2013-09-04 浙江搜车客网络技术有限公司 一种基于哈希优化的多条件联动搜索方法
CN103389981A (zh) * 2012-05-08 2013-11-13 腾讯科技(深圳)有限公司 网络标签自动识别方法及其系统
CN104217030A (zh) * 2014-09-28 2014-12-17 北京奇虎科技有限公司 一种根据服务器搜索日志数据进行用户分类的方法和装置
CN107168991A (zh) * 2017-03-28 2017-09-15 北京三快在线科技有限公司 一种搜索结果展示方法和装置
CN110705274A (zh) * 2019-09-06 2020-01-17 电子科技大学 基于实时学习的融合型词义嵌入方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916288A (zh) * 2010-08-25 2010-12-15 华中科技大学 一种移动通信用户搜索请求响应系统及其处理方法
CN101996215A (zh) * 2009-08-27 2011-03-30 阿里巴巴集团控股有限公司 一种应用于电子商务网站的信息匹配方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996215A (zh) * 2009-08-27 2011-03-30 阿里巴巴集团控股有限公司 一种应用于电子商务网站的信息匹配方法和系统
CN101916288A (zh) * 2010-08-25 2010-12-15 华中科技大学 一种移动通信用户搜索请求响应系统及其处理方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103389981B (zh) * 2012-05-08 2018-01-05 腾讯科技(深圳)有限公司 网络标签自动识别方法及其系统
CN103389981A (zh) * 2012-05-08 2013-11-13 腾讯科技(深圳)有限公司 网络标签自动识别方法及其系统
CN102880722A (zh) * 2012-10-17 2013-01-16 深圳市宜搜科技发展有限公司 一种权威站点的挖掘方法及装置
CN102880722B (zh) * 2012-10-17 2015-08-05 深圳市宜搜科技发展有限公司 一种权威站点的挖掘方法及装置
CN103164537A (zh) * 2013-04-09 2013-06-19 浙江鸿程计算机系统有限公司 一种面向用户信息需求的搜索引擎日志数据挖掘的方法
CN103164537B (zh) * 2013-04-09 2016-01-13 浙江鸿程计算机系统有限公司 一种面向用户信息需求的搜索引擎日志数据挖掘的方法
CN103279525A (zh) * 2013-05-29 2013-09-04 浙江搜车客网络技术有限公司 一种基于哈希优化的多条件联动搜索方法
CN103279525B (zh) * 2013-05-29 2016-12-28 浙江搜车客网络技术有限公司 一种基于哈希优化的多条件联动搜索方法
CN104217030A (zh) * 2014-09-28 2014-12-17 北京奇虎科技有限公司 一种根据服务器搜索日志数据进行用户分类的方法和装置
CN104217030B (zh) * 2014-09-28 2018-12-11 北京奇虎科技有限公司 一种根据服务器搜索日志数据进行用户分类的方法和装置
CN107168991A (zh) * 2017-03-28 2017-09-15 北京三快在线科技有限公司 一种搜索结果展示方法和装置
CN107168991B (zh) * 2017-03-28 2020-12-04 北京三快在线科技有限公司 一种搜索结果展示方法和装置
CN110705274A (zh) * 2019-09-06 2020-01-17 电子科技大学 基于实时学习的融合型词义嵌入方法
CN110705274B (zh) * 2019-09-06 2023-03-24 电子科技大学 基于实时学习的融合型词义嵌入方法

Also Published As

Publication number Publication date
CN102339322B (zh) 2013-04-24

Similar Documents

Publication Publication Date Title
CN102339322B (zh) 基于搜索交互信息和用户搜索意图的词义提取的搜索方法
CN103729359B (zh) 一种推荐搜索词的方法及系统
CN102902826B (zh) 一种基于基准图像索引的图像快速检索方法
CN102609433A (zh) 基于用户日志进行查询推荐的方法及系统
TWI549004B (zh) Search Method Based on Online Trading Platform and Establishment Method of Device and Web Database
CN104077407A (zh) 一种智能数据搜索系统及方法
Remi et al. Domain ontology driven fuzzy semantic information retrieval
CN112818230B (zh) 内容推荐方法、装置、电子设备和存储介质
Lee et al. A hierarchical document clustering approach with frequent itemsets
Suguna Ensemble fuzzy clustering for mixed numeric and categorical data
CN103336765B (zh) 一种文本关键词的马尔可夫矩阵离线修正方法
Peng et al. Personalized web search using clickthrough data and web page rating
Jin et al. Tise: A temporal search engine for web contents
CN103136256A (zh) 一种在网络中实现信息检索的方法和系统
Li et al. Efficient behavior targeting using svm ensemble indexing
WO2021196470A1 (zh) 信息推送方法、装置、设备及存储介质
TW201933143A (zh) 產業關聯性分析系統與方法
Yang et al. Clustering of web search results based on combination of links and in-snippets
Liu et al. A query suggestion method based on random walk and topic concepts
TWI483129B (zh) Retrieval method and device
Zhang Design and implementation of insurance product recommendation system
Huang et al. Rough-set-based approach to manufacturing process document retrieval
Wang et al. Ontology-assisted deep Web source selection
Hu et al. Study on Similar Engineering Decision Problem Identification Based on Combination of Improved Edit-Distance and Skeletal Dependency Tree with POS
Nogueira et al. Fuzzy cluster descriptor extraction for flexible organization of documents

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20180117

Address after: 430070 Hubei Province, Wuhan city Hongshan District Road No. 19, Luojia Kai building 12 floor

Patentee after: Wuhan black tea Data Technology Co., Ltd.

Address before: 430072 Hubei Province, Wuhan city Wuchang District of Wuhan University Luojiashan

Patentee before: Wuhan University

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20180522

Address after: 100191 Huayuan Road, Haidian District, Beijing, No. 2

Patentee after: DIGITAL TELEVISION TECHNOLOGY CENTER, BEIJING PEONY ELECTRONIC GROUP CO., LTD

Address before: 430070 12 building, Zhongke Kai Wu building, 19 Luojia Shan Road, Hongshan District, Wuhan, Hubei.

Patentee before: Wuhan black tea Data Technology Co., Ltd.