CN103455487B

CN103455487B - 一种搜索词的提取方法及装置

Info

Publication number: CN103455487B
Application number: CN201210169868.5A
Authority: CN
Inventors: 刘怀军
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2012-05-29
Filing date: 2012-05-29
Publication date: 2018-07-06
Anticipated expiration: 2032-05-29
Also published as: CN103455487A

Abstract

本发明涉及一种搜索词提取方法，其包括：提供待提取搜索词的文档Doc_i；从文档Doc_i中提取搜索词；计算搜索词的主题相关性；以及根据搜索词的主题相关性对搜索词进行过滤。上述搜索词提取方法可以解决现有技术中搜索词主题漂移、词义太过宽泛的问题。此外，本发明还提供一种搜索词提取装置。

Description

一种搜索词的提取方法及装置

技术领域

本发明涉及网络搜索技术，尤其涉及一种搜索词的提取方法及装置。

背景技术

用户在浏览新闻、微博、博客时，在聊天时，在网上购物时，都时刻有搜索的需求。所谓情境搜索，就是理解用户意图，挖掘用户需求，让搜索更加智能化、生活化。以用户在浏览网页为例进行说明，如果能直接在网页中提供最符合用户需求的搜索链接，用户可以直接点击链接继续浏览而无须手动输入搜索词进行搜索，这无疑会极大的提升用户的浏览体验。

现有技术中也进行了相关的探索与实践，大体上来说，现有的搜索词提供方式具有以下三种：

一、在生成数据时，由数据生成者手工设定搜索词。例如：在blog中，用户写完blog后。自己添加一些标签词，作为搜索词。在新闻发布时，由编辑手动添加关键词，作为搜索词。然而，此种方法中，数据生成者配置的关键词有限，而且很多用户不配置任何关键词。另外，数据生成者配置的关键词，并不一定是其他用户感兴趣的搜索词。

二、通过一个固定的词表，从文章中匹配词表词汇，作为搜索词。例如：参阅图1，（某门户新闻网站的“相关推荐”，就是通过匹配用户的历史查询记录词表，作为搜索词。然而在此种方法中，由于设定的词表往往有限，并且单纯的基于用户查询记录词表的方法，往往通过文章中个别词汇，直接去记录中进行匹配实现。这样，很容易产生主题漂移，即推荐词汇跟文章主题无关。以图1中为例，简历就完全与文章主题无关。

三、基于词频统计的方法，通过对文章分词，提取其中关键词，作为搜索词。例如：参阅图2，某科技栏目网站文章开头的关键词就是根据文章正文采用词频统计的方法得来。然而，此方法过于简单，很容易提取到一些泛词，出现频次过高，但是又没有价值的词。并且，提取到的词汇，往往语义很宽泛，搜索结果不可控，不适合做搜索词。以图2中所示为例，PC、硬盘的含义都太过于广泛，无法反应文章主题。

此外，以上三种方法中，同样的页面，对所有用户都推荐相同的搜索词，没有考虑用户的差异化和个体兴趣。

发明内容

有鉴于此，有必要提供一种搜索词的提取方法及装置，来解决现有技术中搜索词主题漂移、词义太过宽泛的问题。

进一步地，还有必要提供一种搜索词的提取方法及装置，其可以针对不同用户、用户群进行个性化定制，例搜索词最大程度匹配用户、用户群的个人兴趣。

以上所述的搜索词的提取方法是通过以下技术方案实现的：

一种搜索词提取方法，包括：步骤一、提供待提取搜索词的文档Doc_i；步骤二、从文档Doc_i中提取搜索词{Wd₁,Wd₂，....Wd_n}；步骤三、计算搜索词的主题相关性；以及步骤四、根据搜索词的主题相关性对搜索词进行过滤。

作为上述搜索词提取方法的进一步改进，步骤三包括：计算搜索词的基本主题相关性；计算搜索词的领域相关性；以及计算搜索词的语义相关性；主题相关性由所述基本主题相关性、领域相关性及语义相关性加权平均计算得到。

作为上述搜索词提取方法的进一步改进，基本主题相关性是根据词频－反转文件频率（Term Frequency-Inverse Document Frequency,TF-IDF）计算。

作为上述搜索词提取方法的进一步改进，领域相关性是根据所述搜索词属于某一领域的概率以及所述文档属于所述领域的概率共同计算。

作为上述搜索词提取方法的进一步改进，语义相关性根据所述搜索词的上下文相关性计算得到。

作为上述搜索词提取方法的进一步改进，还包括：对文档Doc_i的核心语句进行构词和语法分析得到事件型搜索词以对搜索词进行扩展，扩展的搜索词描述Doc_i以下要素中的至少一个：事件词、主体、受体、发生地点、事件类型。

作为上述搜索词提取方法的进一步改进，还包括：根据用户历史查询记录对得到的搜索词进行分析得到用户行为搜索词以对搜索词进行扩展，并根据扩展的用户行为搜索词与文档Doc_i的领域相关性、语义相关性对扩展结果进行过滤。

作为上述搜索词提取方法的进一步改进，用户历史查询记录为一个时间片段内的查询记录，且所述查询记录内包括采用所述搜索词其中至少之一进行查询的记录。

作为上述搜索词提取方法的进一步改进，还包括根据用户对搜索词的点击率以及点击搜索词后访问的文档与所述文档Doc_i的主题相关性对所述搜索词进行过滤。

作为上述搜索词提取方法的进一步改进，所述点击搜索词后访问的文档Doc_x与所述文档Doc_i的主题相关性

作为上述搜索词提取方法的进一步改进，过滤后的搜索词Wd_j须使得Wd_j＝arg max(λ*P(CTR/Doc_i,Wd_j)+(1-λ)*P(Exper/Doc_i,Wd_j))成立，即使用户点击率与文档相关性的加权结果最大化，其中，特征参数λ是从历史记录中学习得到。

作为上述搜索词提取方法的进一步改进，还包括对所述搜索词及用户进行聚类分析，并依据不同用户/用户群的喜好对所述搜索词进行过滤。

以上所述的搜索词的提取装置是通过以下技术方案实现的：

一种搜索词提取装置，其特征在于，包括：读入模块，用于读入待提取搜索词的文档Doc_i；提取模块，用于从文档Doc_i中提取搜索词{Wd₁,Wd₂，...Wd_j}；计算模块，用于计算搜索词的主题相关性；及过滤模块，用于根据搜索词的主题相关性对搜索词进行过滤。

作为上述搜索词提取装置的进一步改进，计算模块包括：基本主题相关性计算单元，用于计算搜索词的基本主题相关性；领域相关性计算单元，用于计算搜索词的领域相关性；语义相关性计算单元，用于计算搜索词的语义相关性；以及加权单元，用于根据基本主题相关性、领域相关性及语义相关性加权平均计算得到所述主题相关性。

作为上述搜索词提取装置的进一步改进，基本主题相关性计算单元用于根据词频－反转文件频率计算基本主题相关性。

作为上述搜索词提取装置的进一步改进，领域相关性计算单元用于根据搜索词属于某一领域的概率以及文档属于所述领域的概率计算搜索词的领域相关性。

作为上述搜索词提取装置的进一步改进，语义相关性计算单元用于根据所述搜索词的上下文相关性计算所述语义相关性。

作为上述搜索词提取装置的进一步改进，其还包括：事件扩展模块，用于对所述文档Doc_i的核心语句进行构词和语法分析得到事件型搜索词以对所述搜索词进行扩展，所述扩展的搜索词描述Doc_i以下要素中的至少一个：事件词、主体、受体、发生地点、事件类型。

作为上述搜索词提取装置的进一步改进，其还包括：用户行为扩展模块，用于根据用户历史查询记录对得到的搜索词进行分析得到用户行为搜索词以对所述搜索词进行扩展，并根据所述扩展的用户行为搜索词与文档Doc_i的领域相关性、语义相关性对扩展结果进行过滤。

作为上述搜索词提取装置的进一步改进，用户历史查询记录仅为一个时间片段内的查询记录，且所述查询记录内包括采用所述搜索词其中至少之一进行查询的记录。

作为上述搜索词提取装置的进一步改进，其还包括：聚类分析模块，用于对所述搜索词及用户进行聚类分析，并依据不同用户/用户群的喜好对所述搜索词进行过滤。在以上所述的搜索词提取方法及提取装置中，通过采用搜索词与文档的主题相关性对搜索词过滤，可以保证搜索词是与文档主题相关的，从而避免搜索词主题漂移、词义太过宽泛的问题；通过事件型搜索词扩展及用户行为搜索词扩展，可以得到各个层面对主题进行描述的搜索词，充分覆盖文档主题的各个方面；通过搜索词的点击率以及采用搜索词搜索后点击文档与当前文档的主题相关性对搜索词进行过滤可以保证用户的最佳体验；通过对搜索词与用户进行聚类分析，可以实现向所有用户/用户群提供的搜索词都符合其兴趣。

为让本发明的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

图1为现有技术中一种于网页中提供搜索词的示意图。

图2为现有技术另一种于网页中提供搜索词的示意图。

图3为本发明第一实施例提供的搜索词提取方法的流程图。

图4为本发明第一实施例中领域相关性计算模型示意图。

图5为本发明第一实施例中语义相关性计算模型示意图。

图6为本发明第二实施例提供的搜索词提取方法的流程图。

图7为本发明第二实施例提供的事件扩展模型示意图。

图8为本发明第三实施例提供的搜索词提取方法的流程图。

图9为本发明第三实施例中点击率及主题相关性反馈模型。

图10为本发明第四实施例提供的搜索词提取方法的流程图。

图11为本发明第四实施例中的用户与搜索词聚类图。

图12为本发明第五实施例提供的搜索词提取装置的框图。

图13为本发明第五实施例的搜索词提取装置的计算单元的框图。

图14为本发明第六实施例提供的搜索词提取装置的框图。

图15为本发明第七实施例提供的搜索词提取装置的框图。

具体实施方式

为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的搜索词的提取方法及装置的具体实施方式、结构、特征及其功效，详细说明如后。

第一实施例

参阅图3，第一实施例提供一种搜索词的提取方法，其包括以下步骤：

步骤1，提供待提取搜索词的文档Doc_i；

步骤2、从文档Doc_i中提取搜索词{Wd₁,Wd₂，...Wd_j}；

步骤3、计算搜索词{Wd₁,Wd₂，...Wd_j}的主题相关性；

步骤4、根据主题相关性对搜索词{Wd₁,Wd₂，...Wd_j}进行过滤。

以下结合具体实例作进一步详细说明：

步骤1中文档Doc_i例如是指网页（如新闻、博客等）或者其他格式的文档（例如Word文档）。本实施例中以网址为

http://ent.qq.com/a/20111108/000025.htm，对应内容为“《铁甲钢拳》今日上映领衔11月票房大战(图)，……”的娱乐新闻网页为例进行说明。

步骤2具体可包括：

步骤2.1，提取网页正文，网页正文是指真正的新闻内容，而位于网页顶部、底部、侧边的导航栏属于不同网页中的重复内容，与具体内容基本不相关，在提取搜索词时不予考虑；

步骤2.2，文本切词和词性标注，文本切词是指根据现有的语料库识别出正文中的词语，词性标注是针对标注出词语的词性方便后续分析；

步骤2.3，新词和复合词识别，是指在步骤2.2的基础上识别出新词与复合词；

步骤2.4，词信息统计，词信息例如包括：词在网页中位置，词频，词领域，词权重等，其中词在网页中位置、词频、词权重信息可直接由网页正文统计得到，而词领域需要依赖于现有语料库的标注或者统计结果。

经过步骤2.1至步骤2.4后，网页正文就表示为一系列搜索词向量的模型，记为Doc＝{Wd₁,Wd₂,...,Wd_n}。以上述网页为例，提取后得到搜索词{铁甲钢拳，好莱坞，史蒂文·斯皮尔伯格，北京时间，...…}。

步骤3中主题相关性是指搜索词与网页正文所表达内容的相关性。主题相关性例如可以从以下几个方面进行描述：

基于词频/候选位置统计，如果一些搜索词的词频很高或者其位置在标题或者核心段落内，说明其主题相关性高，从此角度描述的主题相关性记为基本主题相关性。

基于搜索词的领域属性，如果某一搜索词属于某一领域（如娱乐）的概率与文档Doc_i属于该领域的概率都很高，则表示搜索词与文档Doc_i的领域相关性高，从此角度描述的主题相关性记为领域相关性。某一搜索词Wd_j属于某一领域Domain_k的是P(Domain_k/Wd_j)，文档Doc_i属于领域Domain_k的概率是P(Domain_k/Doc_i)，则文档Doc_i与搜索词Wd_j的领域相关性

参阅图4，以上述网页为例，“铁甲钢拳”和网页本身都“娱乐”领域性（连线旁的数字表示属于该领域的概率）强，所以领域一致性很高；而“北京时间”则“娱乐”差，这样跟网页的领域一致性就很低。

基于搜索词的语义属性，如果搜索词与其他搜索词的语义相关度越高则表示其与文档Doc_i的主题越相关，从此角度描述的主题相关性记为语义相关性。

语义相关性模型中，则是通过把搜索词的上下文词汇，作为一种语义关系纽带。网页主题相关的词汇，会形成一个复杂的关系网状结构，语义上相互关联；而主题无关的词汇，则会形成一些孤立的点。这样得到一个语义关系的无向图模型，如图5所示。

该模型中，两个词汇之间有语义关系，则连接一条边，边的权重表示两者的语义相关度。是否有语义关系及两者的语义相关度是依据现有语料而得。对图进行分割后，一个独立子图潜在表达了网页的一个子主题，子图中词汇节点越多，节点关联度越大，则代表网页核心主题。例如：“铁甲钢拳”的主演是“休·杰克曼”，他们相关度很高，成为网页的核心主题；其中，“北京时间”和“腾讯娱乐”跟其他词汇关系不大，成为一些孤立的点，跟核心主题关系不大。

该模型中，通过独立子图的大小，以及其中词汇关联度，就可以得到每个搜索词Wd_j和网页Doc_i的语义相关性。该处度量方法有多种，此处给出其中一种算法，如下：

其中，GrapSize_k表示Wd_j所在独立子图的大小，Wgt(Wd_j,Wd_x)表示图中跟Wd_j连接的词汇Wd_x的关联度。

以上基本主题相关性、领域相关性、及语义相关性既可以单独使用，也可以相互结合使用，即将基本主题相关性、领域相关性、及语义相关性的加权结果衡量搜索词的主题相关性，加权计算公式如下：

Relev(Doc_i,Wd_j)＝λ*BaseRelev(Doc_i,Wd_j)+β*DomainRelev(Doc_i,Wd_j)+(1-λ-β)SemRelev(Doc_i,Wd_j)

其中，λ、β表示每个因子的重要性，其初始值可根据经验规则确定，然而，可以理解，其还可以根据反馈结果不断进行学习修正。

计算出搜索词的主题相关性后，根据主题相关性的高低对搜索词进行过滤以滤掉一些与网页主题不相关的搜索词，过滤后的主题相关的搜索词记为SWdVec_Base＝{WdBase₁,WdBase₂,...,WdBase_n}。

本实施例的搜索词提取方法中，通过计算搜索词的主题相关性，可以过滤掉与主题无关的搜索词，会避免用户对推荐的搜索词产生突兀的感觉，提升用户使用体验。

第二实施例

根据第一实施例的方法从网页中直接提取的搜索词，虽然主题相关，但有时可读性不强，不符合语言习惯。例如：一篇介绍“台湾南部海域发生6.7级地震”的网页，提取“地震”推荐给用户，会让用户产生“突兀感”。

为进一步解决上述问题，参阅图6，第二实施例提供一种搜索词的提取方法，其相比于第一实施例的搜索词的提取方法，在步骤4之后进一步包括以下步骤：

步骤5，进行事件型搜索词扩展；以及

步骤6，进行用户行为搜索词扩展。

事件型搜索词扩展用于抽取网页中热门、突发等关键性事件类词汇给用户推荐。具体的扩展方案中，主要通过对网页核心句子进行构词和浅层语法的分析，找出其中描述事件的几要素：事件词、主体、受体、发生地点、事件类型等。然后通过事件核心构词模式“主体+事件词+受体”来构词作为搜索词。以上述标题为例“台湾南部海域发生6.7级地震”，其构词分析如图7所示。将“台湾南部海域地震”或者“台湾地震”作为搜索词相比于直接采用“地震”更加明确。通过事件模型得到搜索词向量记为SWdVec_Event＝{WdEvent₁,WdEvent₂，...,WdEvent_n}。

用户行为搜索词扩展过程如下：首先，通过用户的历史查询记录，扩展跟页面主题相关，并且符合查询、阅读习惯的搜索词。此处的历史查询记录可以是指单个用户的查询记录，也可以是所有用户的查询记录。例如：在一篇“杨门女将预告片简介”的网页中，通过第一实施例的方法提取到搜索词“杨门女将”，通过查询历史记录，可以得到“杨门女将之军令如山”，“杨门女将首映”等主题相关的搜索词。而在历史记录中匹配的搜索词是否与网页主题相关则同样可以采用第一实施例中计算主题相关性的模型及算法。通过历史记录扩展得到的搜索词向量记为

SWdVec_Log＝{WdLog₁,WdLog₂,...,WdLog_n}。

其次，通过用户查询会话对搜索词扩展。用户查询会话扩展是基于这样的事实，同一用户经常在一个会话过程中使用不同的关键字对某一主题进行检索来尝试搜索到更丰富、更有效的结果。例如：用户在搜索“男人帮”同时，往往会搜索“孙红雷”，“赵宝刚”，跟“男人帮”相关的查询。因此，通过参照在同一会话内的历史记录，可以扩展到更丰富的搜索词。当然，此处扩展的搜索词仍然可以采用上述的主题相关性模型及算法进行处理。通过用户会话扩展得到的搜索词向量记为

SWdVec_Sess＝{WdSess₁,WdSess₂，...,WdSess_n}。

经过扩展后，搜索词共包括：

SWdVec_Base＝{WdBase₁,WdBase₂，...,WdBase_n}，

SWdVec_Event＝{WdEvent₁,WdEvent₂,...,WdEvent_n}，

SWdVec_Log＝{WdLog₁,WdLog₂,...,WdLog_n}，及

SWdVec_Sess＝{WdSess₁,WdSess₂，...,WdSess_n}。

本实施例的搜索词提取方法中，通过事件型扩展及用户记录扩展，得到了更加丰富的，从不同角度对主题进行描述的搜索词，更能满足不同层次的检索需求。

第三实施例

参阅图8，第三实施例提供一种搜索词提取方法，其相比于第二实施例的搜索词提取方法，在步骤6之后，进一步包括：

步骤7，根据点击率过滤搜索词；以及

步骤8，根据点击搜索词后访问的文档与当前文档的主题相关性过滤搜索词。

以下结合图9作进一步详细描述：

网页/文档Doc₁展示了4个搜索词Wd₁-Wd₄，其中用户点击了搜索词Wd₂与Wd₃，表示搜索词Wd₂与Wd₃符合用户需求，则根据排序规则，当需要展示4个搜索词时，仍然显示Wd₁与Wd₄，然而当仅显示2个搜索词时，仅显示Wd₂与Wd₃，亦即，根据点击率的顺序对搜索词进行过滤。

此处的点击率可以是根据实际点击结果统计得到的点击率。然而，可以理解，并不是所有文档都具有历史统计数据。本实施例中，某一搜索词Wd_j的点击率P(CTR/Doc_i,Wd_j)与其提取特征如位置、领域属性、语义属性之间的关系可以采用以下模型描述：

上述位置、领域属性、语义属性等表示为FeatVec＝{WdFeat₁,WdFeat₂，...,WdFeat_k}。

以上模型中，每个特征参数λ_k通过历史数据进行学习，其目标是使点击率P(CTR/Doc_i,Wd_j)最大化。反过来，当确定特征参数λ_k后，即可依据上述模型计算搜索词的点击率而无须再依赖历史统计结果。

进一步参阅图9，用户在分别点击搜索词Wd₂与Wd₃进行搜索后，点击了搜索词Wd₂的搜索结果中的文档Doc_x，而对于搜索词Wd₃则没有点击任何结果。这表示搜索词Wd₂更加符合用户需求。亦即，可以根据用户对搜索词检索结果页面的点击率对搜索词进行排序过滤。

然而，可以理解，无论是搜索词的点击率，还是采用搜索词搜索后结果页面的点击率，只表示搜索词具有点击价值，并不直接代表搜索后打开的文档与当前文档的主题是相关的。例如：上述的“台湾南部海域发生6.7级地震”的网页中，抽取到“下一页”这个词，用户点击很高，但会误导用户。

为进一步解决上述问题，本实施例的搜索词提取方法进一步包括步骤8，计算文档Doc_x与文档Doc₁的主题相关性。如果文档Doc_x与文档Doc₁主题相关，这样就进一步表示Doc_i提取的搜索词Wd_j既有点击价值，又跟当前网页主题相关，用户体验很好。主题相关性的计算方法可参考第一实施例的模型与算法，可以理解，采用此种算法得到的实际的主题相关性。

然而，文档Doc_x与文档Doc₁的主题相关性还可采用以下模型描述：

与前述点击率模型相似，WdFeat_k表示位置、领域属性、及语义属性等参数。不同之处在于，作为主题相关性模型使用时，其目标是通过学习特征参数使文档Doc_x与文档Doc₁的主题相关性最大化。学习得到特征参数λ_k后，即可依据上述模型预测文档Doc_x与文档Doc₁的主题相关性，而无须再依赖具体的计算结果。

以上所述是分别根据点击率及主题相关性进行过滤，然而以上模型还可以结合使用，即选取的搜索词须使得以下模型成立：

Wd_j＝arg max(λ*P(CTR/Doc_i,Wd_j)+(1-λ)*P(Exper/Doc_i,Wd_j))

即点击率与主题相关性的加权结果最大化，而点击率与主题相关性的具体权重初值可由经验规则确定，后续根据反馈结果进行学习修正。

本实施例的搜索词提取方法中，针对前述各步骤中得到的各种来源的搜索词，依据点击率与主题相关性对搜索词进行过滤，可以保证最终展示在文档中的搜索词具有最好的用户体验。

第四实施例

参阅图10，本实施例提供一种搜索词的提取方法，其相比于第三实施例的搜索词提取方法，在步骤8之后进一步包括：

步骤9，个性化推荐建模；

步骤10，用户聚类与搜索词聚类分析；以及

步骤11，根据用户兴趣对搜索词进行过滤。

个性化推荐建模是指建立用户的兴趣的兴趣模型的过程，具体如下：首先根据用户的基本属性(Profile)和历史对搜索词的点击查询，建立用户Usr和搜索词Wd之间的喜好关系矩阵，如下表所示。其中，“▲”表示有喜好关系，“？”表示未知。

Usr/Wd	Wd1	Wd2	Wd3
				Usr1	▲	▲
Usr2		▲
				Usr3	▲	？

可以看出，上述模型中，一个关键问题就是数据稀疏，即存在很多空白与“？”。用户行为和属性信息稀疏，用户对搜索词的点击浏览等行为数据同样稀疏，这样会导致信息不充分，推荐不准确，对于缺失的信息，就无法估计一个词是否该推荐过某个用户。本实施例中通过协同关系来解决该问题，包括基于用户的协同关系和基于词的协同关系。如下：

(1)基于用户的协同关系：如果那么Usr_a喜好的词Usr_b也喜好。

(2)基于词的协同关系：如果那么喜好Wd_i的用户也喜好Wd_j。

这样就可以实现对用户和搜索词的聚类，把相似用户聚到一起，相关词汇聚到一起，然后按聚集进行推荐。

步骤10中，本实施例通过K-Means聚类算法来实现该模型。先进行随机划分，然后通过不断迭代，把用户和词汇划分到一个相似的集合内。聚类后得到用户簇集合和词汇簇集合，分别表示为：

UsrClsVec＝{UsrCluster₁,UsrCluster₂，...，UsrCluster_n}和WdClsVec＝{WdCluster₁,WdCluster₂，...,WdCluster_n}，可进一步参阅图11。

步骤11中，聚类后，按簇对搜索过滤。例如：一个用户Usr_a浏览网页Doc_i，并且Usr_a∈UsrCluster_k；则选取网页Doc_i中提取的搜索词列表中，满足推荐给UsrCluster_k条件的词汇进行推荐；如Wd_j∈WdCluster_i，则把Wd_j推荐给Usr_a。这样就实现，不同用户在浏览同样网页时，看到的是自己感兴趣的搜索词。

第五实施例

参阅图12，第五实施例提供一种搜索词提取装置500，其包括：

读入模块51，用于读入待提取搜索词的文档Doc_i；

提取模块52，用于从文档Doc_i中提取搜索词{Wd₁,Wd₂，...Wd_j}；

计算模块53，用于计算所述搜索词的主题相关性；

过滤模块54，用于根据搜索词的主题相关性对所述搜索词进行过滤。

参阅图13，计算模块53包括：

基本主题相关性计算单元531，用于根据词频－反转文件频率及/或词的位置信息计算搜索词的基本主题相关性；

领域相关性计算单元532，用于根据所述搜索词属于某一领域的概率以及所述文档属于所述领域的概率计算搜索词的领域相关性；

语义相关性计算单元533，用于根据所述搜索词的上下文相关性计算所述语义相关性；以及

加权单元534，用于根据基本主题相关性、领域相关性及语义相关性加权平均计算得到所述主题相关性。

对于以上各模块及计算单元的具体工作过程，可进一步参考第一、三实施例的搜索词提取方法，在此不再重复。

第六实施例

参阅图14，第六实施例提供一种搜索词提取装置600，其相比于第五实施例的提取装置500进一步包括：

事件扩展模块61，用于对所述文档Doc_i的核心语句进行构词和语法分析得到事件型搜索词以对所述搜索词进行扩展，所述扩展的搜索词描述Doc_i以下要素中的至少一个：事件词、主体、受体、发生地点、事件类型；以及

用户行为扩展模块62，用于根据用户历史查询记录对步骤四中得到的搜索词进行分析得到用户行为搜索词以对所述搜索词进行扩展，并根据所述扩展的用户行为搜索词与文档Doc_i的领域相关性、语义相关性对扩展结果进行过滤。

事件扩展模块61及用户行为扩展模块62的具体工作流程可进一步参考第二实施例的搜索词提取方法，在此不再重复。

第七实施例

参阅图15，第七实施例提供一种搜索词提取装置700，其相比于第六实施例的提取装置600进一步包括：

聚类分析模块71，用于对搜索词及用户进行聚类分析，并依据不同用户/用户群的喜好对搜索词进行过滤。

聚类分析模块71的具体工作流程可进一步参考第四实施例的搜索词提取方法，在此不再重复。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭示如上，然而并非用以限定本发明，任何本领域技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简介修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种搜索词提取方法，包括：

提供待提取搜索词的文档Doc_i；

从文档Doc_i中提取搜索词；

计算所述搜索词的主题相关性，所述主题相关性指的是所述搜索词与网页正文所表达内容的相关性；

根据搜索词的主题相关性对所述搜索词进行过滤；

步骤三包括：

计算搜索词的基本主题相关性；

计算搜索词的领域相关性；以及

计算搜索词的语义相关性；

所述主题相关性由所述基本主题相关性、领域相关性及语义相关性加权平均计算得到；

所述基本主题相关性是根据词频－反转文件频率(Term Frequency-InverseDocument Frequency,TF-IDF)计算；

所述领域相关性是根据所述搜索词属于某一领域的概率以及所述文档属于所述领域的概率共同计算；

计算该领域相关性时根据以下公式计算：

其中，P(Domain_k/Doc_i)为文档Doc_i属于领域Domain_k的概率，P(Domain_k/Wd_j)为搜索词Wd_j属于领域Domain_k的概率；

所述语义相关性根据所述搜索词的上下文相关性计算得到；

计算该语义相关性时根据以下公式计算：

其中，GrapSize_k表示搜索词Wd_j在由所有搜索词构成的语义关系无向图中所在的独立子图的大小，Wgt(Wd_j,Wd_x)表示所述语义关系无向图中跟Wd_j连接的其他搜索词Wd_x的相关性。

2.如权利要求1所述的搜索词提取方法，其特征在于，还包括：

对所述文档Doc_i的核心语句进行构词和语法分析得到事件型搜索词以对所述搜索词进行扩展，所述扩展的搜索词描述Doc_i以下要素中的至少一个：事件词、主体、受体、发生地点、事件类型。

3.如权利要求2所述的搜索词提取方法，其特征在于，还包括：根据用户历史查询记录对得到的搜索词进行分析得到用户行为搜索词以对所述搜索词进行扩展，并根据所述扩展的用户行为搜索词与文档Doc_i的领域相关性、语义相关性对扩展结果进行过滤。

4.如权利要求3所述的搜索词提取方法，其特征在于，所述用户历史查询记录为一个时间片段内的查询记录，且所述查询记录内包括采用所述搜索词其中至少之一进行查询的记录。

5.如权利要求1所述的搜索词提取方法，其特征在于，还包括根据用户对搜索词的点击率以及点击搜索词后访问的文档与所述文档Doc_i的主题相关性对所述搜索词进行过滤。

6.如权利要求5所述的搜索词提取方法，其特征在于，所述搜索词的点击率

其中特征参数λ_k是从历史记录中学习得到，WdFeat_k表征搜索词在文档Doc_i中的位置、领域相关性及语义相关性。

7.如权利要求6所述的搜索词提取方法，其特征在于，所述点击搜索词后访问的文档Doc_x与所述文档Doc_i的主题相关性

其中特征参数λ_k是根据历史记录学习得到。

8.如权利要求7所述的搜索词提取方法，其特征在于，过滤后的搜索词Wd_j须使得Wd_j＝arg max(λ*P(CTR/Doc_i,Wd_j)+(1-λ)*P(Exper/Doc_i,Wd_j))成立，即使用户点击率与文档相关性的加权结果最大化，其中，特征参数λ是从历史记录中学习得到。

9.如权利要求1所述的搜索词提取方法，其特征在于，还包括对所述搜索词及用户进行聚类分析，并依据不同用户/用户群的喜好对所述搜索词进行过滤。

10.一种搜索词提取装置，其特征在于，包括：

读入模块，用于读入待提取搜索词的文档Doc_i；

提取模块，用于从文档Doc_i中提取搜索词；

计算模块，用于计算所述搜索词的主题相关性，所述主题相关性指的是所述搜索词与网页正文所表达内容的相关性；

过滤模块，用于根据搜索词的主题相关性对所述搜索词进行过滤；

计算模块包括：

基本主题相关性计算单元，用于计算搜索词的基本主题相关性；

领域相关性计算单元，用于计算搜索词的领域相关性；

语义相关性计算单元，用于计算搜索词的语义相关性；以及

加权单元，用于根据基本主题相关性、领域相关性及语义相关性加权平均计算得到所述主题相关性；

所述基本主题相关性计算单元用于根据词频－反转文件频率计算基本主题相关性；

所述领域相关性计算单元用于根据所述搜索词属于某一领域的概率以及所述文档属于所述领域的概率计算搜索词的领域相关性；

所述语义相关性计算单元用于根据所述搜索词的上下文相关性计算所述语义相关性。

11.如权利要求10所述的搜索词提取装置，其特征在于，还包括：

事件扩展模块，用于对所述文档Doc_i的核心语句进行构词和语法分析得到事件型搜索词以对所述搜索词进行扩展，所述扩展的搜索词描述Doc_i以下要素中的至少一个：事件词、主体、受体、发生地点、事件类型。

12.如权利要求10所述的搜索词提取装置，其特征在于，还包括：

用户行为扩展模块，用于根据用户历史查询记录对得到的搜索词进行分析得到用户行为搜索词以对所述搜索词进行扩展，并根据所述扩展的用户行为搜索词与文档Doc_i的领域相关性、语义相关性对扩展结果进行过滤。

13.如权利要求12所述的搜索词提取装置，其特征在于，所述用户历史查询记录仅为一个时间片段内的查询记录，且所述查询记录内包括采用所述搜索词其中至少之一进行查询的记录。

14.如权利要求10所述的搜索词提取装置，其特征在于，还包括：

聚类分析模块，用于对所述搜索词及用户进行聚类分析，并依据不同用户/用户群的喜好对所述搜索词进行过滤。