CN103455487A - 一种搜索词的提取方法及装置 - Google Patents

一种搜索词的提取方法及装置 Download PDF

Info

Publication number
CN103455487A
CN103455487A CN2012101698685A CN201210169868A CN103455487A CN 103455487 A CN103455487 A CN 103455487A CN 2012101698685 A CN2012101698685 A CN 2012101698685A CN 201210169868 A CN201210169868 A CN 201210169868A CN 103455487 A CN103455487 A CN 103455487A
Authority
CN
China
Prior art keywords
search word
document
domain
word
extracting method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012101698685A
Other languages
English (en)
Other versions
CN103455487B (zh
Inventor
刘怀军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201210169868.5A priority Critical patent/CN103455487B/zh
Publication of CN103455487A publication Critical patent/CN103455487A/zh
Application granted granted Critical
Publication of CN103455487B publication Critical patent/CN103455487B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种搜索词提取方法,其包括:提供待提取搜索词的文档Doci;从文档Doci中提取搜索词;计算搜索词的主题相关性;以及根据搜索词的主题相关性对搜索词进行过滤。上述搜索词提取方法可以解决现有技术中搜索词主题漂移、词义太过宽泛的问题。此外,本发明还提供一种搜索词提取装置。

Description

一种搜索词的提取方法及装置
技术领域
本发明涉及网络搜索技术,尤其涉及一种搜索词的提取方法及装置。
背景技术
用户在浏览新闻、微博、博客时,在聊天时,在网上购物时,都时刻有搜索的需求。所谓情境搜索,就是理解用户意图,挖掘用户需求,让搜索更加智能化、生活化。以用户在浏览网页为例进行说明,如果能直接在网页中提供最符合用户需求的搜索链接,用户可以直接点击链接继续浏览而无须手动输入搜索词进行搜索,这无疑会极大的提升用户的浏览体验。
现有技术中也进行了相关的探索与实践,大体上来说,现有的搜索词提供方式具有以下三种:
一、在生成数据时,由数据生成者手工设定搜索词。例如:在blog中,用户写完blog后。自己添加一些标签词,作为搜索词。在新闻发布时,由编辑手动添加关键词,作为搜索词。然而,此种方法中,数据生成者配置的关键词有限,而且很多用户不配置任何关键词。另外,数据生成者配置的关键词,并不一定是其他用户感兴趣的搜索词。
二、通过一个固定的词表,从文章中匹配词表词汇,作为搜索词。例如:参阅图1,(某门户新闻网站的“相关推荐”,就是通过匹配用户的历史查询记录词表,作为搜索词。然而在此种方法中,由于设定的词表往往有限,并且单纯的基于用户查询记录词表的方法,往往通过文章中个别词汇,直接去记录中进行匹配实现。这样,很容易产生主题漂移,即推荐词汇跟文章主题无关。以图1中为例,简历就完全与文章主题无关。
三、基于词频统计的方法,通过对文章分词,提取其中关键词,作为搜索词。例如:参阅图2,某科技栏目网站文章开头的关键词就是根据文章正文采用词频统计的方法得来。然而,此方法过于简单,很容易提取到一些泛词,出现频次过高,但是又没有价值的词。并且,提取到的词汇,往往语义很宽泛,搜索结果不可控,不适合做搜索词。以图2中所示为例,PC、硬盘的含义都太过于广泛,无法反应文章主题。
此外,以上三种方法中,同样的页面,对所有用户都推荐相同的搜索词,没有考虑用户的差异化和个体兴趣。
发明内容
有鉴于此,有必要提供一种搜索词的提取方法及装置,来解决现有技术中搜索词主题漂移、词义太过宽泛的问题。
进一步地,还有必要提供一种搜索词的提取方法及装置,其可以针对不同用户、用户群进行个性化定制,例搜索词最大程度匹配用户、用户群的个人兴趣。
以上所述的搜索词的提取方法是通过以下技术方案实现的:
一种搜索词提取方法,包括:步骤一、提供待提取搜索词的文档Doci;步骤二、从文档Doci中提取搜索词{Wd1,Wd2,....Wdn};步骤三、计算搜索词的主题相关性;以及步骤四、根据搜索词的主题相关性对搜索词进行过滤。
作为上述搜索词提取方法的进一步改进,步骤三包括:计算搜索词的基本主题相关性;计算搜索词的领域相关性;以及计算搜索词的语义相关性;主题相关性由所述基本主题相关性、领域相关性及语义相关性加权平均计算得到。
作为上述搜索词提取方法的进一步改进,基本主题相关性是根据词频-反转文件频率(Term Frequency-Inverse Document Frequency,TF-IDF)计算。
作为上述搜索词提取方法的进一步改进,领域相关性是根据所述搜索词属于某一领域的概率以及所述文档属于所述领域的概率共同计算。
作为上述搜索词提取方法的进一步改进,计算该领域相关性时根据以下公式计算: DomainRelev ( Doc i , Wd j ) = Σ Domain k P ( Domain k / Doc i ) * P ( Domain k / Wd j ) , 其中P(Domaink/Doci)为文档Doci属于领域Domaink的概率,P(Domaink/Wdj)为搜索词属于领域Domaink的概率。
作为上述搜索词提取方法的进一步改进,语义相关性根据所述搜索词的上下文相关性计算得到。
作为上述搜索词提取方法的进一步改进,计算语义相关性时根据以下公式计算: SemRelev ( Doc i , Wd j ) = log ( GrapSize k ) * Σ x Wgt ( Wd j , Wd x ) , 其中,GrapSizek表示Wdj在由所有搜索词构成的语义关系无向图中所在的独立子图的大小,Wgt(Wdj,Wdx)表示所述语义关系无向图中跟Wdj连接的其他搜索词Wdx的相关性。
作为上述搜索词提取方法的进一步改进,还包括:对文档Doci的核心语句进行构词和语法分析得到事件型搜索词以对搜索词进行扩展,扩展的搜索词描述Doci以下要素中的至少一个:事件词、主体、受体、发生地点、事件类型。
作为上述搜索词提取方法的进一步改进,还包括:根据用户历史查询记录对得到的搜索词进行分析得到用户行为搜索词以对搜索词进行扩展,并根据扩展的用户行为搜索词与文档Doci的领域相关性、语义相关性对扩展结果进行过滤。
作为上述搜索词提取方法的进一步改进,用户历史查询记录为一个时间片段内的查询记录,且所述查询记录内包括采用所述搜索词其中至少之一进行查询的记录。
作为上述搜索词提取方法的进一步改进,还包括根据用户对搜索词的点击率以及点击搜索词后访问的文档与所述文档Doci的主题相关性对所述搜索词进行过滤。
作为上述搜索词提取方法的进一步改进,所述搜索词Wdj的点击率 P ( CTR / Doc i , Wd j ) = 1 1 + e - Σ k λ k * WdFeat k , 其中特征参数λk是从历史记录中学习得到以使得点击率最大化,WdFeatk表征搜索词在文档Doci中的位置、领域相关性及语义相关性。
作为上述搜索词提取方法的进一步改进,所述点击搜索词后访问的文档Docx与所述文档Doci的主题相关性
P ( Exper / Doc i , Wd j ) = 1 1 + e - Σ k λ k * WdFeat k = arg max ( sin ( Doc i , Doc x ) ) , 其中arg max(sim(Doci,Docx))表示中的特征参数λk是根据历史记录学习使得文档Docx与文档Doci的主题相关性最大化。
作为上述搜索词提取方法的进一步改进,过滤后的搜索词Wdj须使得Wdj=arg max(λ*P(CTR/Doci,Wdj)+(1-λ)*P(Exper/Doci,Wdj))成立,即使用户点击率与文档相关性的加权结果最大化,其中,特征参数λ是从历史记录中学习得到。
作为上述搜索词提取方法的进一步改进,还包括对所述搜索词及用户进行聚类分析,并依据不同用户/用户群的喜好对所述搜索词进行过滤。
以上所述的搜索词的提取装置是通过以下技术方案实现的:
一种搜索词提取装置,其特征在于,包括:读入模块,用于读入待提取搜索词的文档Doci;提取模块,用于从文档Doci中提取搜索词{Wd1,Wd2,...Wdj};计算模块,用于计算搜索词的主题相关性;及过滤模块,用于根据搜索词的主题相关性对搜索词进行过滤。
作为上述搜索词提取装置的进一步改进,计算模块包括:基本主题相关性计算单元,用于计算搜索词的基本主题相关性;领域相关性计算单元,用于计算搜索词的领域相关性;语义相关性计算单元,用于计算搜索词的语义相关性;以及加权单元,用于根据基本主题相关性、领域相关性及语义相关性加权平均计算得到所述主题相关性。
作为上述搜索词提取装置的进一步改进,基本主题相关性计算单元用于根据词频-反转文件频率计算基本主题相关性。
作为上述搜索词提取装置的进一步改进,领域相关性计算单元用于根据搜索词属于某一领域的概率以及文档属于所述领域的概率计算搜索词的领域相关性。
作为上述搜索词提取装置的进一步改进,语义相关性计算单元用于根据所述搜索词的上下文相关性计算所述语义相关性。
作为上述搜索词提取装置的进一步改进,其还包括:事件扩展模块,用于对所述文档Doci的核心语句进行构词和语法分析得到事件型搜索词以对所述搜索词进行扩展,所述扩展的搜索词描述Doci以下要素中的至少一个:事件词、主体、受体、发生地点、事件类型。
作为上述搜索词提取装置的进一步改进,其还包括:用户行为扩展模块,用于根据用户历史查询记录对得到的搜索词进行分析得到用户行为搜索词以对所述搜索词进行扩展,并根据所述扩展的用户行为搜索词与文档Doci的领域相关性、语义相关性对扩展结果进行过滤。
作为上述搜索词提取装置的进一步改进,用户历史查询记录仅为一个时间片段内的查询记录,且所述查询记录内包括采用所述搜索词其中至少之一进行查询的记录。
作为上述搜索词提取装置的进一步改进,其还包括:聚类分析模块,用于对所述搜索词及用户进行聚类分析,并依据不同用户/用户群的喜好对所述搜索词进行过滤。在以上所述的搜索词提取方法及提取装置中,通过采用搜索词与文档的主题相关性对搜索词过滤,可以保证搜索词是与文档主题相关的,从而避免搜索词主题漂移、词义太过宽泛的问题;通过事件型搜索词扩展及用户行为搜索词扩展,可以得到各个层面对主题进行描述的搜索词,充分覆盖文档主题的各个方面;通过搜索词的点击率以及采用搜索词搜索后点击文档与当前文档的主题相关性对搜索词进行过滤可以保证用户的最佳体验;通过对搜索词与用户进行聚类分析,可以实现向所有用户/用户群提供的搜索词都符合其兴趣。
为让本发明的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。
附图说明
图1为现有技术中一种于网页中提供搜索词的示意图。
图2为现有技术另一种于网页中提供搜索词的示意图。
图3为本发明第一实施例提供的搜索词提取方法的流程图。
图4为本发明第一实施例中领域相关性计算模型示意图。
图5为本发明第一实施例中语义相关性计算模型示意图。
图6为本发明第二实施例提供的搜索词提取方法的流程图。
图7为本发明第二实施例提供的事件扩展模型示意图。
图8为本发明第三实施例提供的搜索词提取方法的流程图。
图9为本发明第三实施例中点击率及主题相关性反馈模型。
图10为本发明第四实施例提供的搜索词提取方法的流程图。
图11为本发明第四实施例中的用户与搜索词聚类图。
图12为本发明第五实施例提供的搜索词提取装置的框图。
图13为本发明第五实施例的搜索词提取装置的计算单元的框图。
图14为本发明第六实施例提供的搜索词提取装置的框图。
图15为本发明第七实施例提供的搜索词提取装置的框图。
具体实施方式
为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的搜索词的提取方法及装置的具体实施方式、结构、特征及其功效,详细说明如后。
第一实施例
参阅图3,第一实施例提供一种搜索词的提取方法,其包括以下步骤:
步骤1,提供待提取搜索词的文档Doci
步骤2、从文档Doci中提取搜索词{Wd1,Wd2,...Wdj};
步骤3、计算搜索词{Wd1,Wd2,...Wdj}的主题相关性;
步骤4、根据主题相关性对搜索词{Wd1,Wd2,...Wdj}进行过滤。
以下结合具体实例作进一步详细说明:
步骤1中文档Doci例如是指网页(如新闻、博客等)或者其他格式的文档(例如Word文档)。本实施例中以网址为
http://ent.qq.com/a/20111108/000025.htm,对应内容为“《铁甲钢拳》今日上映领衔11月票房大战(图),……”的娱乐新闻网页为例进行说明。
步骤2具体可包括:
步骤2.1,提取网页正文,网页正文是指真正的新闻内容,而位于网页顶部、底部、侧边的导航栏属于不同网页中的重复内容,与具体内容基本不相关,在提取搜索词时不予考虑;
步骤2.2,文本切词和词性标注,文本切词是指根据现有的语料库识别出正文中的词语,词性标注是针对标注出词语的词性方便后续分析;
步骤2.3,新词和复合词识别,是指在步骤2.2的基础上识别出新词与复合词;
步骤2.4,词信息统计,词信息例如包括:词在网页中位置,词频,词领域,词权重等,其中词在网页中位置、词频、词权重信息可直接由网页正文统计得到,而词领域需要依赖于现有语料库的标注或者统计结果。
经过步骤2.1至步骤2.4后,网页正文就表示为一系列搜索词向量的模型,记为Doc={Wd1,Wd2,...,Wdn}。以上述网页为例,提取后得到搜索词{铁甲钢拳,好莱坞,史蒂文·斯皮尔伯格,北京时间,...…}。
步骤3中主题相关性是指搜索词与网页正文所表达内容的相关性。主题相关性例如可以从以下几个方面进行描述:
基于词频/候选位置统计,如果一些搜索词的词频很高或者其位置在标题或者核心段落内,说明其主题相关性高,从此角度描述的主题相关性记为基本主题相关性。
基于搜索词的领域属性,如果某一搜索词属于某一领域(如娱乐)的概率与文档Doci属于该领域的概率都很高,则表示搜索词与文档Doci的领域相关性高,从此角度描述的主题相关性记为领域相关性。某一搜索词Wdj属于某一领域Domaink的是P(Domaink/Wdj),文档Doci属于领域Domaink的概率是P(Domaink/Doci),则文档Doci与搜索词Wdj的领域相关性
DomainRelev ( Doc i , Wd j ) = Σ Domain k P ( Domain k / Doc i ) * P ( Domain k / Wd j ) . 参阅图4,以上述网页为例,“铁甲钢拳”和网页本身都“娱乐”领域性(连线旁的数字表示属于该领域的概率)强,所以领域一致性很高;而“北京时间”则“娱乐”差,这样跟网页的领域一致性就很低。
基于搜索词的语义属性,如果搜索词与其他搜索词的语义相关度越高则表示其与文档Doci的主题越相关,从此角度描述的主题相关性记为语义相关性。
语义相关性模型中,则是通过把搜索词的上下文词汇,作为一种语义关系纽带。网页主题相关的词汇,会形成一个复杂的关系网状结构,语义上相互关联;而主题无关的词汇,则会形成一些孤立的点。这样得到一个语义关系的无向图模型,如图5所示。
该模型中,两个词汇之间有语义关系,则连接一条边,边的权重表示两者的语义相关度。是否有语义关系及两者的语义相关度是依据现有语料而得。对图进行分割后,一个独立子图潜在表达了网页的一个子主题,子图中词汇节点越多,节点关联度越大,则代表网页核心主题。例如:“铁甲钢拳”的主演是“休·杰克曼”,他们相关度很高,成为网页的核心主题;其中,“北京时间”和“腾讯娱乐”跟其他词汇关系不大,成为一些孤立的点,跟核心主题关系不大。
该模型中,通过独立子图的大小,以及其中词汇关联度,就可以得到每个搜索词Wdj和网页Doci的语义相关性。该处度量方法有多种,此处给出其中一种算法,如下:
SemRelev ( Doc i , Wd j ) = log ( GrapSize k ) * Σ x Wgt ( Wd j , Wd x )
其中,GrapSizek表示Wdj所在独立子图的大小,Wgt(Wdj,Wdx)表示图中跟Wdj连接的词汇Wdx的关联度。
以上基本主题相关性、领域相关性、及语义相关性既可以单独使用,也可以相互结合使用,即将基本主题相关性、领域相关性、及语义相关性的加权结果衡量搜索词的主题相关性,加权计算公式如下:
Relev(Doci,Wdj)=λ*BaseRelev(Doci,Wdj)+β*DomainRelev(Doci,Wdj)+(1-λ-β)SemRelev(Doci,Wdj)
其中,λ、β表示每个因子的重要性,其初始值可根据经验规则确定,然而,可以理解,其还可以根据反馈结果不断进行学习修正。
计算出搜索词的主题相关性后,根据主题相关性的高低对搜索词进行过滤以滤掉一些与网页主题不相关的搜索词,过滤后的主题相关的搜索词记为SWdVecBase={WdBase1,WdBase2,...,WdBasen}。
本实施例的搜索词提取方法中,通过计算搜索词的主题相关性,可以过滤掉与主题无关的搜索词,会避免用户对推荐的搜索词产生突兀的感觉,提升用户使用体验。
第二实施例
根据第一实施例的方法从网页中直接提取的搜索词,虽然主题相关,但有时可读性不强,不符合语言习惯。例如:一篇介绍“台湾南部海域发生6.7级地震”的网页,提取“地震”推荐给用户,会让用户产生“突兀感”。
为进一步解决上述问题,参阅图6,第二实施例提供一种搜索词的提取方法,其相比于第一实施例的搜索词的提取方法,在步骤4之后进一步包括以下步骤:
步骤5,进行事件型搜索词扩展;以及
步骤6,进行用户行为搜索词扩展。
事件型搜索词扩展用于抽取网页中热门、突发等关键性事件类词汇给用户推荐。具体的扩展方案中,主要通过对网页核心句子进行构词和浅层语法的分析,找出其中描述事件的几要素:事件词、主体、受体、发生地点、事件类型等。然后通过事件核心构词模式“主体+事件词+受体”来构词作为搜索词。以上述标题为例“台湾南部海域发生6.7级地震”,其构词分析如图7所示。将“台湾南部海域地震”或者“台湾地震”作为搜索词相比于直接采用“地震”更加明确。通过事件模型得到搜索词向量记为SWdVecEvent={WdEvent1,WdEvent2,...,WdEventn}。
用户行为搜索词扩展过程如下:首先,通过用户的历史查询记录,扩展跟页面主题相关,并且符合查询、阅读习惯的搜索词。此处的历史查询记录可以是指单个用户的查询记录,也可以是所有用户的查询记录。例如:在一篇“杨门女将预告片简介”的网页中,通过第一实施例的方法提取到搜索词“杨门女将”,通过查询历史记录,可以得到“杨门女将之军令如山”,“杨门女将首映”等主题相关的搜索词。而在历史记录中匹配的搜索词是否与网页主题相关则同样可以采用第一实施例中计算主题相关性的模型及算法。通过历史记录扩展得到的搜索词向量记为
SWdVecLog={WdLog1,WdLog2,...,WdLogn}。
其次,通过用户查询会话对搜索词扩展。用户查询会话扩展是基于这样的事实,同一用户经常在一个会话过程中使用不同的关键字对某一主题进行检索来尝试搜索到更丰富、更有效的结果。例如:用户在搜索“男人帮”同时,往往会搜索“孙红雷”,“赵宝刚”,跟“男人帮”相关的查询。因此,通过参照在同一会话内的历史记录,可以扩展到更丰富的搜索词。当然,此处扩展的搜索词仍然可以采用上述的主题相关性模型及算法进行处理。通过用户会话扩展得到的搜索词向量记为
SWdVecSess={WdSess1,WdSess2,...,WdSessn}。
经过扩展后,搜索词共包括:
SWdVecBase={WdBase1,WdBase2,...,WdBasen},
SWdVecEvent={WdEvent1,WdEvent2,...,WdEventn},
SWdVecLog={WdLog1,WdLog2,...,WdLogn},及
SWdVecSess={WdSess1,WdSess2,...,WdSessn}。
本实施例的搜索词提取方法中,通过事件型扩展及用户记录扩展,得到了更加丰富的,从不同角度对主题进行描述的搜索词,更能满足不同层次的检索需求。
第三实施例
参阅图8,第三实施例提供一种搜索词提取方法,其相比于第二实施例的搜索词提取方法,在步骤6之后,进一步包括:
步骤7,根据点击率过滤搜索词;以及
步骤8,根据点击搜索词后访问的文档与当前文档的主题相关性过滤搜索词。
以下结合图9作进一步详细描述:
网页/文档Doc1展示了4个搜索词Wd1-Wd4,其中用户点击了搜索词Wd2与Wd3,表示搜索词Wd2与Wd3符合用户需求,则根据排序规则,当需要展示4个搜索词时,仍然显示Wd1与Wd4,然而当仅显示2个搜索词时,仅显示Wd2与Wd3,亦即,根据点击率的顺序对搜索词进行过滤。
此处的点击率可以是根据实际点击结果统计得到的点击率。然而,可以理解,并不是所有文档都具有历史统计数据。本实施例中,某一搜索词Wdj的点击率P(CTR/Doci,Wdj)与其提取特征如位置、领域属性、语义属性之间的关系可以采用以下模型描述:
P ( CTR / Doc i , Wd j ) = 1 1 + e - Σ k λ k * WdFeat k
上述位置、领域属性、语义属性等表示为FeatVec={WdFeat1,WdFeat2,...,WdFeatk}。
以上模型中,每个特征参数λk通过历史数据进行学习,其目标是使点击率P(CTR/Doci,Wdj)最大化。反过来,当确定特征参数λk后,即可依据上述模型计算搜索词的点击率而无须再依赖历史统计结果。
进一步参阅图9,用户在分别点击搜索词Wd2与Wd3进行搜索后,点击了搜索词Wd2的搜索结果中的文档Docx,而对于搜索词Wd3则没有点击任何结果。这表示搜索词Wd2更加符合用户需求。亦即,可以根据用户对搜索词检索结果页面的点击率对搜索词进行排序过滤。
然而,可以理解,无论是搜索词的点击率,还是采用搜索词搜索后结果页面的点击率,只表示搜索词具有点击价值,并不直接代表搜索后打开的文档与当前文档的主题是相关的。例如:上述的“台湾南部海域发生6.7级地震”的网页中,抽取到“下一页”这个词,用户点击很高,但会误导用户。
为进一步解决上述问题,本实施例的搜索词提取方法进一步包括步骤8,计算文档Docx与文档Doc1的主题相关性。如果文档Docx与文档Doc1主题相关,这样就进一步表示Doci提取的搜索词Wdj既有点击价值,又跟当前网页主题相关,用户体验很好。主题相关性的计算方法可参考第一实施例的模型与算法,可以理解,采用此种算法得到的实际的主题相关性。
然而,文档Docx与文档Doc1的主题相关性还可采用以下模型描述:
P ( Exper / Doc i , Wd j ) = 1 1 + e - Σ k λ k * WdFeat k = arg max ( sin ( Doc i , Doc x ) )
与前述点击率模型相似,WdFeatk表示位置、领域属性、及语义属性等参数。不同之处在于,作为主题相关性模型使用时,其目标是通过学习特征参数使文档Docx与文档Doc1的主题相关性最大化。学习得到特征参数λk后,即可依据上述模型预测文档Docx与文档Doc1的主题相关性,而无须再依赖具体的计算结果。
以上所述是分别根据点击率及主题相关性进行过滤,然而以上模型还可以结合使用,即选取的搜索词须使得以下模型成立:
Wdj=arg max(λ*P(CTR/Doci,Wdj)+(1-λ)*P(Exper/Doci,Wdj))
即点击率与主题相关性的加权结果最大化,而点击率与主题相关性的具体权重初值可由经验规则确定,后续根据反馈结果进行学习修正。
本实施例的搜索词提取方法中,针对前述各步骤中得到的各种来源的搜索词,依据点击率与主题相关性对搜索词进行过滤,可以保证最终展示在文档中的搜索词具有最好的用户体验。
第四实施例
参阅图10,本实施例提供一种搜索词的提取方法,其相比于第三实施例的搜索词提取方法,在步骤8之后进一步包括:
步骤9,个性化推荐建模;
步骤10,用户聚类与搜索词聚类分析;以及
步骤11,根据用户兴趣对搜索词进行过滤。
个性化推荐建模是指建立用户的兴趣的兴趣模型的过程,具体如下:首先根据用户的基本属性(Profile)和历史对搜索词的点击查询,建立用户Usr和搜索词Wd之间的喜好关系矩阵,如下表所示。其中,“▲”表示有喜好关系,“?”表示未知。
  Usr/Wd   Wd1   Wd2   Wd3
  Usr1   ▲   ▲
  Usr2   ▲
  Usr3   ▲   ?
可以看出,上述模型中,一个关键问题就是数据稀疏,即存在很多空白与“?”。用户行为和属性信息稀疏,用户对搜索词的点击浏览等行为数据同样稀疏,这样会导致信息不充分,推荐不准确,对于缺失的信息,就无法估计一个词是否该推荐过某个用户。本实施例中通过协同关系来解决该问题,包括基于用户的协同关系和基于词的协同关系。如下:
(1)基于用户的协同关系:如果
Figure BDA00001695380400141
那么Usra喜好的词Usrb也喜好。
(2)基于词的协同关系:如果
Figure BDA00001695380400142
那么喜好Wdi的用户也喜好Wdj
这样就可以实现对用户和搜索词的聚类,把相似用户聚到一起,相关词汇聚到一起,然后按聚集进行推荐。
步骤10中,本实施例通过K-Means聚类算法来实现该模型。先进行随机划分,然后通过不断迭代,把用户和词汇划分到一个相似的集合内。聚类后得到用户簇集合和词汇簇集合,分别表示为:
UsrClsVec={UsrCluster1,UsrCluster2,...,UsrClustern}和WdClsVec={WdCluster1,WdCluster2,...,WdClustern},可进一步参阅图11。
步骤11中,聚类后,按簇对搜索过滤。例如:一个用户Usra浏览网页Doci,并且Usra∈UsrClusterk;则选取网页Doci中提取的搜索词列表中,满足推荐给UsrClusterk条件的词汇进行推荐;如Wdj∈WdClusteri
Figure BDA00001695380400151
则把Wdj推荐给Usra。这样就实现,不同用户在浏览同样网页时,看到的是自己感兴趣的搜索词。
第五实施例
参阅图12,第五实施例提供一种搜索词提取装置500,其包括:
读入模块51,用于读入待提取搜索词的文档Doci
提取模块52,用于从文档Doci中提取搜索词{Wd1,Wd2,...Wdj};
计算模块53,用于计算所述搜索词的主题相关性;
过滤模块54,用于根据搜索词的主题相关性对所述搜索词进行过滤。
参阅图13,计算模块53包括:
基本主题相关性计算单元531,用于根据词频-反转文件频率及/或词的位置信息计算搜索词的基本主题相关性;
领域相关性计算单元532,用于根据所述搜索词属于某一领域的概率以及所述文档属于所述领域的概率计算搜索词的领域相关性;
语义相关性计算单元533,用于根据所述搜索词的上下文相关性计算所述语义相关性;以及
加权单元534,用于根据基本主题相关性、领域相关性及语义相关性加权平均计算得到所述主题相关性。
对于以上各模块及计算单元的具体工作过程,可进一步参考第一、三实施例的搜索词提取方法,在此不再重复。
第六实施例
参阅图14,第六实施例提供一种搜索词提取装置600,其相比于第五实施例的提取装置500进一步包括:
事件扩展模块61,用于对所述文档Doci的核心语句进行构词和语法分析得到事件型搜索词以对所述搜索词进行扩展,所述扩展的搜索词描述Doci以下要素中的至少一个:事件词、主体、受体、发生地点、事件类型;以及
用户行为扩展模块62,用于根据用户历史查询记录对步骤四中得到的搜索词进行分析得到用户行为搜索词以对所述搜索词进行扩展,并根据所述扩展的用户行为搜索词与文档Doci的领域相关性、语义相关性对扩展结果进行过滤。
事件扩展模块61及用户行为扩展模块62的具体工作流程可进一步参考第二实施例的搜索词提取方法,在此不再重复。
第七实施例
参阅图15,第七实施例提供一种搜索词提取装置700,其相比于第六实施例的提取装置600进一步包括:
聚类分析模块71,用于对搜索词及用户进行聚类分析,并依据不同用户/用户群的喜好对搜索词进行过滤。
聚类分析模块71的具体工作流程可进一步参考第四实施例的搜索词提取方法,在此不再重复。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭示如上,然而并非用以限定本发明,任何本领域技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简介修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (24)

1.一种搜索词提取方法,包括:
提供待提取搜索词的文档Doci
从文档Doci中提取搜索词;
计算所述搜索词的主题相关性;
根据搜索词的主题相关性对所述搜索词进行过滤。
2.如权利要求1所述的搜索词提取方法,其特征在于,步骤三包括:
计算搜索词的基本主题相关性;
计算搜索词的领域相关性;以及
计算搜索词的语义相关性;
所述主题相关性由所述基本主题相关性、领域相关性及语义相关性加权平均计算得到。
3.如权利要求2所述的搜索词提取方法,其特征在于,所述基本主题相关性是根据词频-反转文件频率(Term Frequency-Inverse DocumentFrequency,TF-IDF)计算。
4.如权利要求2所述的搜索词提取方法,其特征在于,所述领域相关性是根据所述搜索词属于某一领域的概率以及所述文档属于所述领域的概率共同计算。
5.如权利要求4所述的搜索词提取方法,其特征在于,计算该领域相关性时根据以下公式计算:
DomainRelev ( Doc i , Wd j ) = Σ Domain k P ( Domain k / Doc i ) * P ( Domain k / Wd j ) , 其中,P(Domaink/Doci)为文档Doci属于领域Domaink的概率,P(Domaink/Wdj)为搜索词Wdj属于领域Domaink的概率。
6.如权利要求2所述的搜索词提取方法,其特征在于,所述语义相关性根据所述搜索词的上下文相关性计算得到。
7.如权利要求6所述的搜索词提取方法,其特征在于,计算该语义相关性时根据以下公式计算:
SemRelev ( Doc i , Wd j ) = log ( GrapSize k ) * Σ x Wgt ( Wd j , Wd x ) , 其中,GrapSizek表示搜索词Wdj在由所有搜索词构成的语义关系无向图中所在的独立子图的大小,Wgt(Wdj,Wdx)表示所述语义关系无向图中跟Wdj连接的其他搜索词Wdx的相关性。
8.如权利要求1到7任一项所述的搜索词提取方法,其特征在于,还包括:
对所述文档Doci的核心语句进行构词和语法分析得到事件型搜索词以对所述搜索词进行扩展,所述扩展的搜索词描述Doci以下要素中的至少一个:事件词、主体、受体、发生地点、事件类型。
9.如权利要求8所述的搜索词提取方法,其特征在于,还包括:根据用户历史查询记录对得到的搜索词进行分析得到用户行为搜索词以对所述搜索词进行扩展,并根据所述扩展的用户行为搜索词与文档Doci的领域相关性、语义相关性对扩展结果进行过滤。
10.如权利要求9所述的搜索词提取方法,其特征在于,所述用户历史查询记录为一个时间片段内的查询记录,且所述查询记录内包括采用所述搜索词其中至少之一进行查询的记录。
11.如权利要求1到7任一项所述的搜索词提取方法,其特征在于,还包括根据用户对搜索词的点击率以及点击搜索词后访问的文档与所述文档Doci的主题相关性对所述搜索词进行过滤。
12.如权利要求11所述的搜索词提取方法,其特征在于,所述搜索词的点击率
Figure FDA00001695380300022
其中特征参数λk是从历史记录中学习得到,WdFeatk表征搜索词在文档Doci中的位置、领域相关性及语义相关性。
13.如权利要求12所述的搜索词提取方法,其特征在于,所述点击搜索词后访问的文档Docx与所述文档Doci的主题相关性
P ( Exper / Doc i , Wd j ) = 1 1 + e - Σ k λ k * WdFeat k = arg max ( sin ( Doc i , Doc x ) ) , 其中特征参数λk是根据历史记录学习得到。
14.如权利要求13所述的搜索词提取方法,其特征在于,过滤后的搜索词Wdj须使得Wdj=arg max(λ*P(CTR/Doci,Wdj)+(1-λ)*P(Exper/Doci,Wdj))成立,即使用户点击率与文档相关性的加权结果最大化,其中,特征参数λ是从历史记录中学习得到。
15.如权利要求1到7任一项所述的搜索词提取方法,其特征在于,还包括对所述搜索词及用户进行聚类分析,并依据不同用户/用户群的喜好对所述搜索词进行过滤。
16.一种搜索词提取装置,其特征在于,包括:
读入模块,用于读入待提取搜索词的文档Doci
提取模块,用于从文档Doci中提取搜索词;
计算模块,用于计算所述搜索词的主题相关性;
过滤模块,用于根据搜索词的主题相关性对所述搜索词进行过滤。
17.如权利要求16所述的搜索词提取装置,其特征在于,计算模块包括:
基本主题相关性计算单元,用于计算搜索词的基本主题相关性;
领域相关性计算单元,用于计算搜索词的领域相关性;
语义相关性计算单元,用于计算搜索词的语义相关性;以及
加权单元,用于根据基本主题相关性、领域相关性及语义相关性加权平均计算得到所述主题相关性。
18.如权利要求17所述的搜索词提取装置,其特征在于,所述基本主题相关性计算单元用于根据词频-反转文件频率计算基本主题相关性。
19.如权利要求17所述的搜索词提取装置,其特征在于,所述领域相关性计算单元用于根据所述搜索词属于某一领域的概率以及所述文档属于所述领域的概率计算搜索词的领域相关性。
20.如权利要求17所述的搜索词提取装置,其特征在于,所述语义相关性计算单元用于根据所述搜索词的上下文相关性计算所述语义相关性。
21.如权利要求16所述的搜索词提取装置,其特征在于,还包括:
事件扩展模块,用于对所述文档Doci的核心语句进行构词和语法分析得到事件型搜索词以对所述搜索词进行扩展,所述扩展的搜索词描述Doci以下要素中的至少一个:事件词、主体、受体、发生地点、事件类型。
22.如权利要求16所述的搜索词提取装置,其特征在于,还包括:
用户行为扩展模块,用于根据用户历史查询记录对得到的搜索词进行分析得到用户行为搜索词以对所述搜索词进行扩展,并根据所述扩展的用户行为搜索词与文档Doci的领域相关性、语义相关性对扩展结果进行过滤。
23.如权利要求22所述的搜索词提取装置,其特征在于,所述用户历史查询记录仅为一个时间片段内的查询记录,且所述查询记录内包括采用所述搜索词其中至少之一进行查询的记录。
24.如权利要求16所述的搜索词提取装置,其特征在于,还包括:
聚类分析模块,用于对所述搜索词及用户进行聚类分析,并依据不同用户/用户群的喜好对所述搜索词进行过滤。
CN201210169868.5A 2012-05-29 2012-05-29 一种搜索词的提取方法及装置 Active CN103455487B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210169868.5A CN103455487B (zh) 2012-05-29 2012-05-29 一种搜索词的提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210169868.5A CN103455487B (zh) 2012-05-29 2012-05-29 一种搜索词的提取方法及装置

Publications (2)

Publication Number Publication Date
CN103455487A true CN103455487A (zh) 2013-12-18
CN103455487B CN103455487B (zh) 2018-07-06

Family

ID=49737868

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210169868.5A Active CN103455487B (zh) 2012-05-29 2012-05-29 一种搜索词的提取方法及装置

Country Status (1)

Country Link
CN (1) CN103455487B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376065A (zh) * 2014-11-05 2015-02-25 百度在线网络技术(北京)有限公司 检索词重要度的确定方法和装置
CN105022775A (zh) * 2014-04-30 2015-11-04 三星电子株式会社 用于构建网页访问历史的设备和方法
CN105224521A (zh) * 2015-09-28 2016-01-06 北大方正集团有限公司 主题词提取方法及使用其获取相关数字资源的方法及装置
CN105354182A (zh) * 2015-09-28 2016-02-24 北大方正集团有限公司 获取相关数字资源的方法及使用其生成专题的方法及装置
CN106021443A (zh) * 2016-05-16 2016-10-12 北京奇虎科技有限公司 帖子的展示方法和装置
CN106570144A (zh) * 2016-02-05 2017-04-19 中科鼎富(北京)科技发展有限公司 推荐信息的方法和装置
CN107818781A (zh) * 2017-09-11 2018-03-20 远光软件股份有限公司 智能交互方法、设备及存储介质
CN109949137A (zh) * 2019-03-28 2019-06-28 联想(北京)有限公司 一种信息处理方法及电子设备
CN110019650A (zh) * 2018-09-04 2019-07-16 北京京东尚科信息技术有限公司 提供搜索联想词的方法、装置、存储介质及电子设备
CN110287288A (zh) * 2019-06-18 2019-09-27 北京百度网讯科技有限公司 推荐文档的方法和装置
CN110619076A (zh) * 2018-12-25 2019-12-27 北京时光荏苒科技有限公司 一种搜索词推荐方法、装置、计算机及存储介质
CN110737750A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 分析文本受众的数据处理方法、装置与电子设备
CN111640005A (zh) * 2020-05-28 2020-09-08 深圳壹账通智能科技有限公司 数据分析方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6049777A (en) * 1995-06-30 2000-04-11 Microsoft Corporation Computer-implemented collaborative filtering based method for recommending an item to a user
CN101286150A (zh) * 2007-04-10 2008-10-15 阿里巴巴集团控股有限公司 生成更新参数的方法和装置、展示相关关键词的方法和装置
CN101887415A (zh) * 2010-06-24 2010-11-17 西北工业大学 一种文本文档主题词义的自动提取方法
CN102063469A (zh) * 2010-12-03 2011-05-18 百度在线网络技术(北京)有限公司 一种用于获取相关关键词信息的方法、装置和计算机设备
CN102298576A (zh) * 2010-06-25 2011-12-28 株式会社理光 文档关键词生成方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6049777A (en) * 1995-06-30 2000-04-11 Microsoft Corporation Computer-implemented collaborative filtering based method for recommending an item to a user
CN101286150A (zh) * 2007-04-10 2008-10-15 阿里巴巴集团控股有限公司 生成更新参数的方法和装置、展示相关关键词的方法和装置
CN101887415A (zh) * 2010-06-24 2010-11-17 西北工业大学 一种文本文档主题词义的自动提取方法
CN102298576A (zh) * 2010-06-25 2011-12-28 株式会社理光 文档关键词生成方法和装置
CN102063469A (zh) * 2010-12-03 2011-05-18 百度在线网络技术(北京)有限公司 一种用于获取相关关键词信息的方法、装置和计算机设备

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10521474B2 (en) 2014-04-30 2019-12-31 Samsung Electronics Co., Ltd. Apparatus and method for web page access
CN105022775A (zh) * 2014-04-30 2015-11-04 三星电子株式会社 用于构建网页访问历史的设备和方法
CN104376065B (zh) * 2014-11-05 2018-09-18 百度在线网络技术(北京)有限公司 检索词重要度的确定方法和装置
CN104376065A (zh) * 2014-11-05 2015-02-25 百度在线网络技术(北京)有限公司 检索词重要度的确定方法和装置
CN105224521A (zh) * 2015-09-28 2016-01-06 北大方正集团有限公司 主题词提取方法及使用其获取相关数字资源的方法及装置
CN105354182A (zh) * 2015-09-28 2016-02-24 北大方正集团有限公司 获取相关数字资源的方法及使用其生成专题的方法及装置
CN105224521B (zh) * 2015-09-28 2018-05-25 北大方正集团有限公司 主题词提取方法及使用其获取相关数字资源的方法及装置
CN105354182B (zh) * 2015-09-28 2018-06-26 北大方正集团有限公司 获取相关数字资源的方法及使用其生成专题的方法及装置
CN106570144A (zh) * 2016-02-05 2017-04-19 中科鼎富(北京)科技发展有限公司 推荐信息的方法和装置
CN106021443A (zh) * 2016-05-16 2016-10-12 北京奇虎科技有限公司 帖子的展示方法和装置
CN107818781A (zh) * 2017-09-11 2018-03-20 远光软件股份有限公司 智能交互方法、设备及存储介质
CN110737750A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 分析文本受众的数据处理方法、装置与电子设备
CN110019650A (zh) * 2018-09-04 2019-07-16 北京京东尚科信息技术有限公司 提供搜索联想词的方法、装置、存储介质及电子设备
CN110019650B (zh) * 2018-09-04 2024-04-05 北京京东尚科信息技术有限公司 提供搜索联想词的方法、装置、存储介质及电子设备
CN110619076A (zh) * 2018-12-25 2019-12-27 北京时光荏苒科技有限公司 一种搜索词推荐方法、装置、计算机及存储介质
CN110619076B (zh) * 2018-12-25 2023-04-07 北京时光荏苒科技有限公司 一种搜索词推荐方法、装置、计算机及存储介质
CN109949137A (zh) * 2019-03-28 2019-06-28 联想(北京)有限公司 一种信息处理方法及电子设备
CN109949137B (zh) * 2019-03-28 2021-10-22 联想(北京)有限公司 一种信息处理方法及电子设备
CN110287288A (zh) * 2019-06-18 2019-09-27 北京百度网讯科技有限公司 推荐文档的方法和装置
CN110287288B (zh) * 2019-06-18 2022-02-18 北京百度网讯科技有限公司 推荐文档的方法和装置
CN111640005A (zh) * 2020-05-28 2020-09-08 深圳壹账通智能科技有限公司 数据分析方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN103455487B (zh) 2018-07-06

Similar Documents

Publication Publication Date Title
CN103455487A (zh) 一种搜索词的提取方法及装置
Al-Ghuribi et al. Multi-criteria review-based recommender system–the state of the art
TWI493367B (zh) 搜尋結果之先進過濾方法
US9910930B2 (en) Scalable user intent mining using a multimodal restricted boltzmann machine
CN101582080B (zh) 一种基于图像和文本相关性挖掘的Web图像聚类方法
CN104484431B (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
US9817908B2 (en) Systems and methods for news event organization
US20080114750A1 (en) Retrieval and ranking of items utilizing similarity
Sarawagi et al. Open-domain quantity queries on web tables: annotation, response, and consensus models
CN102332031B (zh) 一种基于视频集合层级主题结构的检索结果聚类方法
CN106202294B (zh) 基于关键词和主题模型融合的相关新闻计算方法及装置
Xu et al. Web content mining
CN101321190A (zh) 一种异构网络中的推荐方法及推荐系统
Kim et al. A framework for tag-aware recommender systems
US8229909B2 (en) Multi-dimensional algorithm for contextual search
Yu et al. Rating prediction using review texts with underlying sentiments
Liu et al. A fast method based on multiple clustering for name disambiguation in bibliographic citations
CN103049528A (zh) 基于用户兴趣向量的个性化网页搜索排序方法
Ramesh et al. Personalized search engine using social networking activity
Yang et al. Personalized news recommendation based on the text and image integration
Khan et al. Web document clustering using a hybrid neural network
Wasim et al. Extracting and modeling user interests based on social media
Brochier et al. New datasets and a benchmark of document network embedding methods for scientific expert finding
Pang et al. Query expansion and query fuzzy with large-scale click-through data for microblog retrieval
Hu et al. o-hetm: An online hierarchical entity topic model for news streams

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant