CN102929873B

CN102929873B - 一种基于情境搜索提取搜索价值词的方法及装置

Info

Publication number: CN102929873B
Application number: CN201110225583.4A
Authority: CN
Inventors: 刘怀军
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2011-08-08
Filing date: 2011-08-08
Publication date: 2017-03-22
Anticipated expiration: 2031-08-08
Also published as: CN102929873A

Abstract

本发明公开了一种基于情境搜索提取搜索价值词的方法及装置。该方法包括：根据选择的内容文本生成候选搜索词集；过滤生成的候选搜索词集中包含的泛词；分别对进行泛词过滤处理的候选搜索词集进行主题相关性计算以及搜索价值计算；根据主题相关性计算结果以及搜索价值计算结果，获取候选搜索词的综合权重度量值；根据候选搜索词的综合权重度量值获得搜索价值词。应用本发明，可以满足用户不同场景、不同领域的搜索需求，提升搜索效率、提高用户搜索体验。

Description

一种基于情境搜索提取搜索价值词的方法及装置

技术领域

本发明涉及互联网信息处理技术，特别涉及一种基于情境搜索提取搜索价值词的方法及装置。

背景技术

随着计算机网络技术的发展，尤其是3G网络和智能移动终端的发展，用户的网络生活越来越丰富，在网络上聊天、浏览新闻、看电影、玩游戏、搜索、购物等，越来越成为用户网络生活的一部分，因而，通过网络获取信息的需求也越来越普遍，例如，在浏览新闻、微博、blog、聊天以及网上购物时，用户对于感兴趣或未知的内容，都需要通过搜索的方式来获取相关信息。举例来说，在浏览新闻时，如果需要对热点事件作进一步了解，则需要以该热点事件为搜索关键词，通过搜索引擎搜索获取相关信息；在购物时，如果需要了解一个品牌类型、用户的评价等，则也需要进行相应搜索。这样，在各个情境下，不同的用户需要构成了用户的搜索需求。

移动终端由于显示屏幕较小，用户主动输入搜索关键词不如PC那样流畅，因而，通过精准的搜索关键词推荐对提升用户体验尤为重要。基于此，现有技术提出了情境搜索以及提取搜索价值词的搜索方法，情境搜索就是理解用户意图、挖掘用户需求，让搜索智能化、生活化的一种搜索方法；搜索价值词，就是实现用户在网络生活的各个情境场景下，在有搜索需求，或者潜在的搜索需求时，通过设置的算法自动提取搜索词，推荐给用户的一种搜索方法，此外，在进行推荐时，还可以提取有商业价值词的关键词向用户展示，例如，通过提取向用户展示的搜索价值词“诺基亚5230”，不仅能给搜索带来流量，这种高质量的搜索价值词还能带来潜在的广告收入。

下面基于情境搜索以及提取搜索价值词的搜索方法，简要介绍几种常用的基于情境搜索提取搜索价值词的搜索方案。

方案1：

在生成数据时，由数据生成者手工设定搜索词。例如，在blog中，用户写完blog后，可以根据需要自己添加一些标签词作为搜索词或搜索价值词；或者，在新闻发布时，由编辑手动添加关键词作为搜索词。该方案中，由于数据生成者配置的搜索词有限、或不配置任何搜索词，使得提供的搜索词有限；而且，数据生成者配置的搜索词，不一定是其他用户感兴趣的搜索词，因而很难满足其他用户的搜索需求。

方案2：

预先设定一个词表，并在词表中添加关键词。在生成新闻数据时，根据新闻内容匹配词表的情况，从词表中选择匹配的关键词，作为搜索词或搜索价值词进行展示推荐。该方案中，设定的词表中的关键词也往往有限，并且局限在特定领域，例如，娱乐领域等。因而，该方案只能局限在某些场景使用，不能自动扩展到其他搜索场景中，举例来说，在娱乐新闻中，设定的包含娱乐明星、影视表的词表的搜索方法，很难扩展到电子商务、blog领域中，即使扩展词表，也需要再根据领域内容，通过人工方式在词表中添加相应领域的关键词，使得词表的灵活性不够、可扩展性不强；进一步地，通过人工设置的词表容易过时，不能实时将时效性的搜索词展示给用户，尤其在微博这样具有极强时效性的产品中，就很难应用。

方案3：

基于词频-反文档频率(TF-IDF，Term Frequency-Inverse Document Frequency)的方法，抽取一些分词给出的基本词，作为搜索词。关于TF-IDF，是一种用于资讯检索与资讯探勘的常用加权技术，具体可参见相关技术文献，在此不再赘述。但该方案过于简单，很容易提取到一些泛词，即出现频次较高，但是又没有价值的词。例如，“排名”、“经济”这类表意太宽的词汇。

由上述可见，现有基于情境搜索提取搜索价值词的方法，通过数据生成者配置的搜索词，很难满足其他用户的搜索需求，而通过设定词表，容易局限在特定领域，基于TF-IDF，又很容易提取到一些泛词，不能满足用户不同场景、不同领域的搜索需求，搜索效率低，降低了用户搜索体验。

发明内容

有鉴于此，本发明的主要目的在于提出一种基于情境搜索提取搜索价值词的方法，提升搜索效率、提高用户搜索体验。

本发明的另一目的在于提出一种基于情境搜索提取搜索价值词的装置，提升搜索效率、提高用户搜索体验。

为达到上述目的，本发明提供了一种基于情境搜索提取搜索价值词的方法，该方法包括：

根据选择的内容文本生成候选搜索词集；

过滤生成的候选搜索词集中包含的泛词；

分别对进行泛词过滤处理的候选搜索词集进行主题相关性计算以及搜索价值计算；

根据主题相关性计算结果以及搜索价值计算结果，获取候选搜索词的综合权重度量值；

根据候选搜索词的综合权重度量值获得搜索价值词。

在获取候选搜索词的综合权重度量值后，获得候选搜索词前，进一步包括：

对经综合权重处理的候选搜索词进行同义冗余处理。

通过分词基本词、自定义领域词、在线的新词识别、复合词识别中的一种或其任意组合，从所述内容文本中提取词语，生成候选搜索词集。

所述通过在线的新词识别、复合词识别生成候选搜索词集包括：

通过NGram统计提取内容文本中包含的词语，得到候选搜索词集；

匹配头词、尾词、词性构成模式规则，将候选搜索词集中的噪音过滤；

计算噪音过滤后候选搜索词集中各候选搜索词的边界熵和互信息，过滤计算得到的边界熵和互信息不满足预先设置阈值的候选搜索词。

进一步包括：

计算满足预先设置阈值的候选搜索词的置信度值，从候选搜索词集中过滤计算得到的置信度值大于预先设置的置信度阈值的候选搜索词，所述候选搜索词的置信度值计算公式为：

式中，

w为候选搜索词；

s_i为以w为前缀或后缀的候选搜索词；

f(w)为w出现的频次；

j为以w为前缀或后缀的候选搜索词数量；

R(w)为候选搜索词w的置信度值。

进一步包括：

计算满足预先设置阈值的候选搜索词的冗余度值，从候选搜索词集中过滤计算得到的冗余度值大于预先设置的冗余度阈值的候选搜索词，所述候选搜索词的冗余度值计算公式为：

式中，

w₁为候选搜索词；

w₂为以w₁为前缀或后缀的候选搜索词；

f(w₁)为w₁出现的频次；

DC(w₁，w₂)为候选搜索词w₁的冗余度值。

通过泛词弱化、领域词加强、复合词加强中的一种或其任意组合，过滤所述生成的候选搜索词集中包含的泛词。

所述泛词弱化包括：停用词去除、无关词性去除、按卡方度量值去除以及按信息增益的度量值去除。

所述卡方度量值计算公式为：

式中，

χ²(w)为候选搜索词w的卡方度量值；

l为类别的数量；

df_i为候选搜索词w在类别i的分类数据中的DF分量；

T为候选搜索词w在相应类别的分类数据中的理论分布值；

θ为理论值的阈值；

λ为校正因子。

所述信息增益度量值计算公式为：

式中，

是整个类别的信息熵的负值；

是包含词语w的信息熵与词语w出现概率的乘积；

是不包含词语w的信息熵与不包含词语w概率乘积。

在按信息增益的度量值去除的步骤之前，进一步包括：将所有候选搜索词按词频进行划分。

所述主题相关性计算包括：

对候选搜索词集进行特征提取；

根据回归模型对特征提取结果进行线性回归权重计算；

对进行线性回归权重计算得到的结果进行归一化处理，得到主题相关性结果。

所述特征提取包括：领域特征分布、位置、长度以及候选维度类别提取。

所述领域特征分布提取公式为：

Dm(term)＝λlog(X²(term))+(1-λ)IG(term)

式中，

term为候选搜索词；

λ为特征因子；

Dm(term)为候选搜索词term的领域特征值；

所述位置提取公式为：

Loc(term)＝FLevl(term)*SLevl(term)*TLevl(term)

式中，

Loc(term)为候选搜索词term的位置特征值；

FLevl是该候选搜索词term标题和内容级的位置特征值；

SLevl是该候选搜索词段落级的位置特征值；

TLevl是该候选搜索词句子级的位置特征值；

所述长度提取公式为：

Len(term)＝α(len(term)-len_best)²+β

式中，

Len(term)为候选搜索词term的长度特征值；

len(term)为候选搜索词term的实际长度值；

len_best为预先指定的最佳长度值；

α、β为两个参数；

所述候选维度类别提取公式为：

式中，

Wd是构成未登录词，即候选搜索词term的各个级别词汇；

Feat(Wd)为Wd的特征提取值，包括Dm(term)、Loc(term)、以及Len(term)。

所述线性回归权重计算公式为：

式中，

TopicScore(term)为候选搜索词term的线性回归模型特征值；

Feat_i(term)为候选搜索词term在类别i的分类数据中的特征提取值，

tf是指候选搜索词在文本中出现的频次；

λ_i为系数。

对所述候选搜索词在文本中出现的频次进行校正，校正公式为：

式中，

tf(term)为校正的候选搜索词在文本中出现的频次；

tf(X)为包含候选搜索词term的候选搜索词在文本中出现的频次。

所述搜索价值计算包括：领域性计算、热点性计算、事件性计算中的一种或其任意组合，。

所述热点性计算公式为：

式中，

Hot(term)为候选搜索词term的热点性度量值；

tf(term)为候选搜索词term在文本中出现的频次；

为候选搜索词term的无偏估计分布均值；

S_term为候选搜索词term的无偏估计分布方差。

所述搜索价值计算公式为：

SearchValueScore(term)＝log(tf)(λ₁P(domain_i/term)+λ₂Hot(term)+(1-λ₁-λ₂)A(v，c))

式中，

SearchValueScore(term)为候选搜索词term的搜索价值度量值；

P(domain_i/term)为领域性度量值；

A(v，c)为事件性度量值；

λ₁、λ₂为预先设置的系数。

所述候选搜索词的综合权重度量值计算公式为：

Score(term)＝λ₃SearchValueScore(term)+(1-λ₃)TopicScore(term)

式中，

λ₃为综合权重度量值系数。

所述进行同义冗余处理包括：统计相似度、点击相似度、以及编辑距离相似度处理。

所述根据候选搜索词的综合权重度量值获得搜索价值词包括：

对候选搜索词的综合权重度量值进行排序并输出预设数量的搜索价值词。

一种基于情境搜索提取搜索价值词的装置，该装置包括：候选搜索词集生成模块、泛词过滤模块、主题相关性计算模块、搜索价值计算模块、综合权重度量值计算模块以及候选搜索词选择模块，其中，

候选搜索词集生成模块，用于根据选择的内容文本生成候选搜索词集；

泛词过滤模块，用于过滤候选搜索词集生成模块生成的候选搜索词集中包含的泛词；

主题相关性计算模块，用于对进行泛词过滤处理的候选搜索词集进行主题相关性计算；

搜索价值计算模块，用于对进行泛词过滤处理的候选搜索词集进行搜索价值计算；

综合权重度量值计算模块，用于根据主题相关性计算结果以及搜索价值计算结果，获取候选搜索词的综合权重度量值；

候选搜索词选择模块，用于根据候选搜索词的综合权重度量值获得搜索价值词。

所述候选搜索词集生成模块包括：词语提取单元、噪音过滤单元以及候选搜索词过滤单元，其中，

词语提取单元，用于通过NGram统计提取内容文本中包含的词语，得到候选搜索词集；

噪音过滤单元，用于匹配头词、尾词、词性构成模式规则，将候选搜索词集中的噪音过滤；

候选搜索词过滤单元，用于计算噪音过滤后候选搜索词集中各候选搜索词的边界熵和互信息，过滤计算得到的边界熵和互信息不满足预先设置阈值的候选搜索词。

所述候选搜索词集生成模块进一步包括：

置信度值处理单元，用于计算候选搜索词的置信度值，过滤计算得到的置信度值大于预先设置的置信度阈值的候选搜索词。

所述候选搜索词集生成模块进一步包括：

冗余度值处理单元，用于计算候选搜索词的冗余度值，过滤计算得到的冗余度值大于预先设置的冗余度阈值的候选搜索词。

所述主题相关性计算模块包括：特征提取单元、权重计算单元以及归一化处理单元，其中，

特征提取单元，用于对候选搜索词集进行特征提取；

权重计算单元，用于根据回归模型对特征提取结果进行线性回归权重计算；

归一化处理单元，用于对进行线性回归权重计算得到的结果进行归一化处理，得到主题相关性结果。

所述搜索价值计算模块包括：领域性度量值计算单元、事件性度量值计算单元、热点性度量值计算单元以及搜索价值度量值计算单元，其中，

领域性度量值计算单元，用于计算候选搜索词的领域性度量值；

事件性度量值计算单元，用于计算候选搜索词的事件性度量值；

热点性度量值计算单元，用于计算候选搜索词的热点性度量值；

搜索价值度量值计算单元，用于根据计算得到的领域性度量值、事件性度量值、热点性度量值计算得到搜索价值度量值。

由上述的技术方案可见，本发明提供的一种基于情境搜索提取搜索价值词的方法及装置，根据选择的内容文本生成候选搜索词集；过滤生成的候选搜索词集中包含的泛词；分别对进行泛词过滤处理的候选搜索词集进行主题相关性计算以及搜索价值计算；根据主题相关性计算结果以及搜索价值计算结果，获取候选搜索词的综合权重度量值；根据候选搜索词的综合权重度量值获得搜索价值词。这样，可以自动根据用户所在场景的内容上下文，提取候选搜索词，并通过泛词过滤、主题相关性计算、搜索价值计算以及同义冗余处理，能够实时地提取时效性强的候选搜索词、热点词、突发事件词以及领域词等质量很高的价值词展示给用户，提高了候选搜索词的搜索价值，满足了用户不同场景、不同领域的搜索需求，提升了搜索效率、提高了用户搜索体验。

附图说明

图1为本发明实施例的基于情境搜索提取搜索价值词的方法流程示意图；

图2为生成候选搜索词集的方法流程示意图；

图3为采用规则和统计结合生成候选搜索词集的方法流程示意图；

图4为过滤泛词的方法流程示意图；

图5为本发明实施例的候选搜索词主题相关性计算流程示意图；

图6为候选搜索价值计算流程示意图；

图7为本发明实施例的基于情境搜索提取搜索价值词的装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明作进一步地详细描述。

本发明实施例的基于情境搜索提取搜索价值词的方法，综合使用新词提取、热点事件检测和发现以及主题词提取技术提取搜索价值词，并且通过泛词消除、相关价值计算以及同义词冗余发散优化提取的搜索价值词，从而自动根据用户所在场景的内容上下文，提取并优化搜索价值词，无需用户、编辑手动设置，实现在各个领域、各个场景自动提取搜索价值词。

图1为本发明实施例的基于情境搜索提取搜索价值词的方法流程示意图。参见图1，该流程包括：

步骤101，根据选择的内容文本生成候选搜索词集；

本步骤中，可以通过分词基本词、和/或，自定义领域词、和/或，在线的新词识别、复合词识别等技术，多维度地从输入的内容文本中提取词语，生成候选搜索词集。

由于现有的词语识别，大部分都基于分词基本词，例如“地震”、“火灾”，但由于这类词语由于语义太过宽泛，不适合作为搜索词进行搜索。本发明实施例中，提出一种多维度识别词语的方案，如图2所示，图2为生成候选搜索词集的方法流程示意图，通过综合分词基本词、自定义领域词、在线识别新词、复合词作为候选词语识别方案，即对网页文本进行分词基本词处理、和/或，自定义领域词处理、和/或，在线识别新词、复合词处理，用以识别网页文本中的词语或词汇，将处理得到的词语作为候选搜索词集。其中，

自定义领域词为预先设置的特定领域的词表，通过分词基本词以及自定义领域词对输入的内容文本中的词语进行识别，具体可参见相关技术文献，在此不再赘述。

在线识别新词、复合词是词语识别中一个重要环节，通过该识别步骤，能够实时提取输入的内容文本，例如网页文本中出现的新词，例如，影视名、网络新词如“犀利哥”、表意更完整的短语如“个税调整方案”等。识别方法采用规则和统计结合方案，如图3所示，图3为采用规则和统计结合生成候选搜索词集的方法流程示意图，该流程具体包括：

步骤301、通过NGram统计提取内容文本中包含的词语，得到候选搜索词集；

本步骤中，NGram统计属于现有技术，具体可参见相关技术文献，在此不再赘述。

步骤302、通过头词、尾词、词性构成模式等规则，将候选搜索词集中的噪音过滤；

本步骤中，头词过滤分为两步，第一步，NGram候选头词在头词词表，进行过滤；第二步，保留符合上述条件过滤后的候选搜索词；尾词过滤以及词性过滤与头词过滤相类似，不同的是，尾词过滤考察尾词，词性过滤考察候选的词性，如代词、连词等；上述规则中，可以选择其中一种，也可以选择其任意组合的规则执行过滤处理。

步骤303、通过边界熵和互信息，对候选搜索词集中各候选搜索词的内部结合紧密度，边界稳定性进行判断，如果候选搜索词的边界熵和互信息满足预先设置的阈值，得到表意完整而又独立的新词、复合词。

本步骤中，计算噪音过滤后候选搜索词集中各候选搜索词的边界熵和互信息，过滤计算得到的边界熵和互信息不满足预先设置阈值的候选搜索词。举例来说，设进行噪音过滤后得到的候选搜索词分别为“蝶飞花舞”、“墨蝶飞花”以及“蝶飞花”，再通过边界熵和互信息处理，将处理得到的结果与预先设置的阈值进行比较后，可以判断候选搜索词“蝶飞花”明显属于抽取不完整，导致边界不稳定的情况，因而，通过边界熵和互信息可以有效消除这类噪音。有关边界熵和互信息的计算，具体可参见相关技术文献。

上述基于NGram提取新词、复合词的方法，在通过NGram识别得到候选搜索词以及通过规则方法和统计结合方案进行过滤后，还可以作进一步处理，本发明实施例中，进一步解决候选搜索词集中各候选搜索词之间重叠的问题，即从得到的候选搜索词集中消除重叠的候选搜索词。例如，UniGram“电影奖”和BiGram“亚太电影奖”前缀重叠；“唐山大地震”和“大地震”后缀重叠。而在实际提取搜索价值词进行推荐时，两者中只有一个候选搜索词是有价值的，另一个是冗余的。基于此，本发明实施例进一步提出一种词缀重叠的解决方案，引入置信度和冗余度两个度量方案，分别用于计算候选搜索词的置信度以及冗余度。

候选搜索词置信度计算公式如下：

式(1)中，

w为候选搜索词；

s_i为以w为前缀或后缀的候选搜索词；

f(w)为w出现的频次；

j为以w为前缀或后缀的候选搜索词数量；

R(w)为候选搜索词w的置信度值，等于所有包含w的s_i的频次总和与w的频次的比值。当R(w)大于预先设置的置信度阈值时，表明w是一个不完整的表意单元，进行过滤；否则，保留w。

候选搜索词冗余度计算公式如下：

式(2)中，

w₁为候选搜索词；

w₂为以w₁为前缀或后缀的候选搜索词；

f(w₁)为w₁出现的频次；

DC(w₁，w₂)为候选搜索词w₁的冗余度。在两个候选搜索词w₁和w₂存在包含关系(w₁包含于w₂)的情形下，如果冗余度大于预先设置的冗余度阈值，表明w₁是不完整的，进行过滤，保留w₂；如果冗余度小于预先设置的冗余度阈值，表明w₂是不完整的，过滤w₂，保留w₁；如果冗余度等于预先设置的冗余度阈值，则保留w₁和w₂。

上述以计算候选搜索词的置信度和冗余度消除重叠的候选搜索词的度量方法，利用篇章的局部性，例如，对于“华谊兄弟公司”和“兄弟公司”这类候选搜索词，可以有效过滤掉语义不完整的“兄弟公司”候选搜索词，即消除重叠的候选搜索词“兄弟公司”。具体如下：

置信度计算：其中，“兄弟公司”为候选搜索词w，“华谊兄弟公司”为以w为后缀的候选搜索词s_i(j＝1)，通过所有包含w的候选s_i的频次分布，来考察w是否有效，如果计算得到的所有包含w的s_i的频次总和与w的频次的比值大于预先设置的置信度阈值，例如，0.9，表明w的提取是不完整的，即与候选搜索词“华谊兄弟公司”重叠，因而将其从候选搜索词集中过滤。

冗余度计算：其中，“兄弟公司”为候选搜索词w₁，“华谊兄弟公司”为以w₁为后缀的候选搜索词w₂，通过w₁和w₂的包含关系、以及频次分布关系，来考察w₁和w₂哪个更有效，当w₂的频次与w₁的频次的比值大于预先设置的冗余度阈值时，例如，0.9，则表明w₁的提取是不完整的，即与候选搜索词“华谊兄弟公司”重叠，而w₂的提取是完整的，因而，保留搜索候选词“华谊兄弟公司”。

步骤102，过滤生成的候选搜索词集中包含的泛词；

本步骤中，根据预先设置的泛词过滤策略，从候选搜索词集中过滤掉不适合做搜索词的泛词，即没有实际意义、或者意义宽泛的词汇，这类词语使得用户依据该泛词进行搜索时，返回的搜索结果较为分散、主题漂移，不能明确表达用户的搜索意图，其中，意义宽泛是一个相对概念，例如，在一篇新闻“排名分析：希金斯收获年终第一丁俊晖创造新高”中，提取出的候选搜索词“排名”是一个泛词，而候选搜索词“希金斯”则更能明确表达网页主题和锁定用户意图。

本发明实施例中，如图4所示，图4为过滤泛词的方法流程示意图，该流程具体包括：泛词弱化、领域词加强以及复合词加强，其中，

泛词弱化可以以泛词消除的方式进行，泛词消除主要针对特别泛的词，直接不作为候选搜索词。消除的方法可以包括停用词去除、无关词性去除、按卡方(χ²)、和/或，信息增益(IG，Information Gain)的度量值去除、按是否有用户搜索过去除，等等。其中，停用词是指无意义的常见词或一些符号，例如，“的”、“能”、“在”、“和”、“他”等，无关词性包括：连词、状态词、代词等，例如，代词有“你”、“我”、“他”等，连词有“和”、“与”等。

泛词弱化也可以主要针对在一定场景有搜索价值的词语，进行特定场景的弱化等。例如，在汽车特定领域，对出现的“经济”、“上海”这种类型词进行弱化，弱化方法与领域紧密结合。其中，

泛词弱化通常结合领域词加强方法，采用领域特征分布方法，通过卡方(χ²)、和/或，信息增益(IG，Information Gain)公式，对词汇在领域间的分布和领域的先验分布进行度量分析，下面分别进行描述。

卡方公式用于度量词汇和类别的相关程度，公式如下：

式(3)中，

χ²(w)为候选搜索词w的卡方度量值；

A为候选搜索词w在某一类别的分类数据中的实际分布值；

T为候选搜索词w在相应类别的分类数据中的理论分布值；

θ为理论值的阈值；

λ为校正因子，可根据实际需要确定。

设候选搜索词w在类别i的分类数据中的DF分量为df_i，则式(3)可改写为：

式(4)中，

l为类别的数量。

计算候选搜索词w的反文档频率IDF(w)的公式如下：

其中，

式中，

D为总文档数。

根据上述公式进行计算，可以得到，“排名”和“希金斯”的IDF(w)值相接近，但特征值(χ²(w))差别较大，因而，可以明显识别领域性不强的泛词“排名”。

卡方度量存在的问题是，高频词和低频词的卡方值不具有较强的可比性，主要是其中每一项分子和分母量级不同，这样导致高频词的卡方基本偏高，而低频词卡方基本偏低。并且，对于出现频率较低的词语，采用卡方进行度量的结果准确度较低，因而，本发明实施例中，还可以结合IG度量对泛词进行弱化。

信息增益用于度量词汇(词语)对类别提供的信息量大小。信息增益由两部分组成：整个类的熵，以及特征F的各个属性在类间分布熵的期望值。信息增益的计算公式如下所示。

式(7)中，

IG为信息增益度量值；

Entropy(C)为整个类的熵；

为特征F的各个属性在类间分布熵的期望值。

在对词语重要度进行度量时，特征F的属性一般划分为{在类中出现，不在类中出现}，这样，信息增益体现的就是整个分类提供的熵和考虑该词语后整个类的熵之间差值。

因此，对上述信息增益公式进行更新，采用IG进行度量时的具体公式表示为：

该公式分为三部分，第一部分是整个类别的信息熵的负值，对应Entropy(C)；第二部分是包含词语w的信息熵与词语w出现概率的乘积，第三部分是不包含词语w的信息熵与不包含词语w概率乘积。第二部分和第三部分共同构成

通过信息增益进行度量存在的问题是，对于超高频和超低频词，{在类中出现，不在类中出现}这两种属性分布严重失衡，这样，使得度量值基本接近0，区分度并不明显，也就是说，对于超高频和超低频词，单纯从得到的IG是无法有效区分的。

针对信息增益进行度量存在的问题，基于属性分布均衡，并且能合理反映词重要度的原则，本发明实施例进一步提出一种改进方案，具体包括：

A1、首先将所有候选搜索词按词频进行划分；

本步骤中，采用对数梯度进行划分，当然，实际应用中，也可以采用线性梯度进行划分。设候选搜索词W_j在类别c_i的分类数据中的词频为DF_i，计算并将词语映射到区间其中，step是梯度，一般取整数，可以根据IG的计算精度要求进行设置，表示对x下取整，即不大于x的最大的整数。

A2、然后，根据上述更新的信息增益公式计算划分的各词语的信息增益；

本步骤中，根据如下公式并基于相应划分区间对应的分类数据进行计算：

A3、最后，对每个区间内词语的信息增益值，进行归一处理。

本步骤中，按所划分的区间、以及得到的映射至各个区间的相应词语的信息增益，可以初步确定各个词语的重要度，并可以按照词语的重要度将各个词语的信息增益值归一到一个统一的区间，例如，[low，up]。这样，通过信息增益值在统一区间的位置，便能够获知该词语的重要度。

这样，在每个区间内，都是词频在一定范围的词语，因此词语的{在类中出现，不在类中出现}这两个属性分布就会比较均衡。

加强的方法也有多种，例如，其中一种为权重加强方法：当候选搜索词匹配领域词、或者复合词时，权重乘以预先设置的加强系数。

步骤103，分别对进行泛词过滤处理的候选搜索词集进行主题相关性计算以及搜索价值计算；

本步骤中，通过多特征融合、线性回归的方式，对进行泛词过滤处理的候选搜索词进行主题相关性计算；通过领域模型、热点检测模型、事件检测模型，对进行泛词过滤处理的候选搜索词的搜索价值进行计算。

在用户在浏览新闻，需要对新闻中一些词语作进一步搜索时，往往是对新闻主题的一些主题、事件、人物等感兴趣。这样，在自动提取候选搜索词时，对候选搜索词的主题相关性判断就至关重要。如图5所示，图5为本发明实施例的候选搜索词主题相关性计算流程示意图，该流程包括：特征提取、线性回归权重计算、回归模型以及主题相关性结果，其中，

特征提取是准确计算主题相关性的一个重要环节，本发明扩展传统的TF-IDF特征，引入了丰富的文本特征。包括：TF-IDF、领域特征分布、位置、长度、候选维度类别。同时，对每个特征的值进行细化，不是传统的0-1二值，而是细分为实数值并进行归一，使得每个特征有足够的区分度。下面对上述文本特征分别进行阐述，TF-IDF已如前所述，在此不再赘述。

(1)领域特征分布：该特征主要度量一个词汇在各个领域类别之间的分布情况，采用融合X²和IG的方法，领域特征值为：

Dm(term)＝λlog(X²(term))+(1-λ)IG(term) (9)

式中，

term为候选搜索词；

λ为特征因子；

Dm(term)为候选搜索词term的领域特征值。

(2)位置：对候选搜索词集进行3级划分，第1级是标题和内容，标题中的词汇一般比较重要。对内容部分，第2级是段落，首段中词汇一般比较重要；在各个段落，第3级是句子，首句中词汇一般比较重要。这样位置特征值计算公式为：

Loc(term)＝FLevl(term)*SLevl(term)*TLevl(term) (10)

式中，

Loc(term)为候选搜索词term的位置特征值；

FLevl是该候选搜索词term标题和内容级的位置特征值；

SLevl是该候选搜索词段落级的位置特征值；

TLevl是该候选搜索词句子级的位置特征值。

(3)长度：以一个预先指定长度为最佳长度，其他值进行弱化。长度特征值计算公式为：

Len(term)＝α(len(term)-len_best)²+β (11)

式中，

Len(term)为候选搜索词term的长度特征值；

len(term)为候选搜索词term的实际长度值；

len_best为预先指定的最佳长度值；

α、β为两个参数，本发明实施例中，假设实际长度和长度特征值之间符合二次曲线分布关系，通过设定最佳长度和最佳长度的特征值，可以计算出这两个参数。

(4)候选维度类别：候选搜索词覆盖基本词、领域词和在线识别的新词、复合词。这样，每个类别都可指定不同的特征值，在多维度候选混排时，对于在线识别的新词、复合词，基本都是未登录词，在进行IDF，领域特征分布值等特征值计算时，与可以通过海量语料统计得到基本词不同的是，这类未登录词需要通过构成该未登录词的基本词来建模拟合。本发明实施例采用均衡方式，对这类未登录词进行特征值拟合，方法是：

式中，

Wd是构成未登录词，即候选搜索词term的各个级别词汇；

Feat(Wd)为Wd的特征提取值，包括Dm(term)、Loc(term)、以及Len(term)等。

与传统累加特征值方法相比，该候选维度类别方法优势在于：对“斯诺克排名”和“丁俊晖”这类混排时，避免2元的未登录词比1元基本词占优，而公平基于主题相关性进行混排。

综合所有特征，并对特征值进行归一化后，对候选搜索词的主题相关性进行计算，采用线性回归模型，计算公式如下：

式中，

TopicScore(term)为候选搜索词term的线性回归模型特征值；

tf是指候选搜索词在文本中出现的频次，即词频；

λ_i为系数，可以通过两种方法确定，通过训练语料和机器学习的方法，自动学习参数值；或者，根据经验，人工设定参数值。

在采用回归模型计算权重时，需要解决基本词和复合词频次不平衡的问题。例如：两个候选搜索词“斯诺克排名”和“排名”都是有效候选时，往往“排名”的频次比“斯诺克排名”的频次要高很很多，这样，进行回归时会把语义泛化的“排名”排到前面。

因而，本发明实施例中，进一步提出一种进行泛词频次弱化的方法，对于上述两个候选搜索词，“排名”的频次是虚高现象，其实一部分已经贡献给了“斯诺克排名”，这样对“排名”的频次进行校正为：

式中，

tf(term)为校正的候选搜索词在文本中出现的频次；

即，将公式中的tf用上式的tf(term)代替。

下面再对候选搜索价值计算进行描述。

情境搜索中，推荐给用户的搜索词，跟传统核心词相比，除了主题相关外，更要符合用户的点击需求和兴趣，这样才能最大化点击率(CTR，Click-Through Rate)，给搜索带来最高价值，给用户带来最佳体验。本发明实施例中，通过领域性、热点性和事件性质几个维度来判断和计算搜索候选词的搜索价值，如图6所示，图6为候选搜索价值计算流程示意图，该流程包括对候选搜索词的领域性计算、热点性计算和事件性计算，从而得到候选搜索价值，下面分别进行说明。

领域性，是指候选搜索词是否是某个领域的特定词汇以及该候选搜索词所属的领域性有多强，用户往往倾向点击自己感兴趣领域的候选词。例如，“丁俊晖”是“体育-台球”领域的术语词，领域性强；“排名”是不倾向任何领域的普通词汇。本发明实施例中，采用领域概率模型(领域性计算)来准确度量一个候选搜索词的领域性，在一个多领域的类别体系中，一个领域性强的词汇，往往属于对应领域的概率高，而属于其他领域的概率低。举例来说，对于候选搜索词“丁俊晖”，可能以极高概率分布在“体育(sports)”类别，例如，分布在体育类别的概率为0.9，分布在新闻、金融、教育、旅游、房产、游戏、时尚、书屋以及健康等领域的概率较为平均，总计为0.1；而候选搜索词“耳听为虚”则较均匀的分布在上述多个类别的领域中，领域性较弱。

本发明实施例中，通过Bayes模型来计算候选搜索词的领域性概率，计算如下：

式中，

P(domain_i/term)为候选搜索词term在领域i的领域性概率；

P(term/domain_i)、分别表示候选搜索词term出现在某个类别的先验概率以及后验概率。

这样，在一个2级领域(例如，体育及金融)体系结构中，候选搜索词的领域性概率就是：

P(domain_i/term)＝P_第1级(domain_i/term)P_第2级(domain_i/term) (16)

本发明实施例领域性计算的方案，能够有效的将“体育、娱乐、科技、财经”等相关专业领域有价值的搜索词提取出来。但是，在新闻领域，包括社会类、时事类、政治、军事类中，很多有价值的词汇，例如，“药家鑫案件”、“日本地震”这类领域性不强，但点击率很高的词汇，本发明实施例进一步引入另外两种方案，即热点性计算和事件性计算来解决该问题。

热点性是指一个时间段发生的、用户关注度极高的热门事件、事物等，例如，“日本地震”、“艳照门”、“iphone 5”。

事件性是指带有事件性质的词汇，例如，“马伊琍离婚”、“ipad2发布”、“日本地震”等。本发明实施例中，通过高斯热点模型和相关熵事件检测模型来分别计算候选热点性和事件性。

高斯热点模型，假设候选搜索词在每个时间点的用户关注度TF服从高斯分布，并且每个时间点TF独立同分布。因为一个搜索词，大部分时间点，用户关注度都基本趋于稳定，只有在突发情况下，用户关注度才会突然升高。例如，“日本地震”这个词汇，平时关注度基本为0，只有这个事件发生时，用户关注度会突然爆发到很高，这样就基本符合高斯分布特性。

基于该假设，把候选搜索词的关注度作为tf，则tf的概率密度曲线f(X)就满足高斯分布，如下所示。

在该模型中，当搜索词的关注度爆发时，该事件就以小概率事件发生，落在热点区域。这样，通过采样一个连续时间点[t₁，t_n-1]对应的搜索词的关注度tf，通过无偏估计得到分布的均值和方差S，然后转换成一个标准正态分布对当前时间点t_n的关注度tf进行判断，当该样本以一个极小的概率α落在小概率区间，就作为一个热点词汇，并且越大，表示发生概率越小，越出乎意料，热度也就越高，则该值就作为热点性的度量指标。

式中，

Hot(term)为候选搜索词term的热点性度量值；

tf(term)为候选搜索词term在文本中出现的频次；

为候选搜索词term的无偏估计分布均值；

S_term为候选搜索词term的无偏估计分布方差。

事件性的度量，本发明实施例中，采用相关熵的概率模型。该模型的引入，基于这样的语言学现象：一个事件词，倾向于跟特定的词汇类型进行搭配。例如，“离婚”倾向于跟“人名类”搭配，“地震”倾向于跟“地名类”搭配，“发布”倾向于跟“产品类”搭配，如前所述，“马伊琍离婚”、“ipad2发布”、“日本地震”等。一个事件词v和特定词类c的搭配程度关系计算如下：

上式表示一个事件词v和特定词类c的先验概率、条件概率、似然估计概率。关于其参数的具体定义及物理含义，具体可参见相关统计技术文献，在此不再赘述。

如果度量值A(v，c)越大，表示事件词v和特定词类c两者搭配性越强；如果是负值，则表示搭配很弱。

如果一个候选搜索词，符合某种事件搭配关系，并且搭配性很强时，则该候选搜索词就是一个特定类型的事件词。例如，“日本地震”符合“地名”和“灾难类事件”的搭配关系，并且搭配强，这类事件型的搜索词，往往符合用户点击兴趣。通过这种搭配模型，还可以找到电商类型的组合关系，例如，“产品品牌名”+“参数、性能、报价等事件词”，这种候选搜索词除了带来高CTR，还可以带来高的广告收入。

通过上述领域性、热点性和事件性，综合对候选搜索词的搜索价值进行计算，采用线性回归模型，如下：

SearchValueScore(term)＝log(tf)(λ₁P(domain_i/term)+λ₂Hot(term)+(1-λ₁-λ₂)A(v，c)) (20)

式中，

λ₁、λ₂为预先设置的系数。

步骤104，根据主题相关性计算结果以及搜索价值计算结果，获取候选搜索词的综合权重度量值；

本步骤中，综合步骤103进行的主题相关性计算以及搜索价值计算，得到每个候选搜索词的综合权重度量值，候选搜索词的综合权重度量值计算公式为：

Score(term)＝λ₃SearchValueScore(term)+(1-λ₃)TopicScore(term) (21)

式中，

λ₃为综合权重度量值系数，可以根据实际需要确定。

实际应用中，也可以对候选搜索词的综合权重度量值进行排序后，直接输出预设数量的候选搜索词以向用户推荐。

步骤105，对经综合权重处理的候选搜索词进行同义冗余处理后输出搜索价值词。

该步骤为可选，可以直接根据候选搜索词的综合权重度量值获得搜索价值词，还可以进一步对候选搜索词的综合权重度量值进行排序并输出预设数量的搜索价值词。本步骤中，对进行综合权重度量值计算的候选搜索词进行去冗余，即将语义相同、相似的候选搜索词进行打散，以保证提取的TopN(N可以根据需要确定，例如，10)个搜索词，覆盖多个语义主题，提高点击率。

也就是说，通过综合权重度量值计算，能够准确对候选搜索词的价值进行排序，但是在展示搜索词时，由于页面空间有限，往往只能展示顶部的N(TopN)个搜索词，由于该TopN个搜索词覆盖了基本词、领域词、在线识别新词和复合词多个维度，必然存在语义相同和相近的情况，这样，用户其实只需点击其中一个，而冗余的搜索词不需用户点击。本发明实施例中，为了提高多样性，避免语义冗余，采用统计相似度、点击相似度、以及编辑距离相似度，对多TopN结果进行去冗余和打散处理。其中，

统计相似度是指，根据上下文信息，如果两个词汇出现的上下文分布，从概率统计上很相似，那么这两个词汇就是语义相近，从中删除其中一个候选搜索词，对于有多个冗余的候选搜索词，保留其中的一个即可。

点击相似度是指，如果两个词汇，用户查询时，点击的统一资源定位符(URL，Uniform Resource Locator)分布很相似，那么这两个词汇就是语义相近，例如，“哈工大”和“哈尔滨工业大学”。

编辑距离相似度，是指两个词汇，如果构成词汇的字符单元存在很多相近的地方，那么这两个词汇就语义相近，例如，“韩国双龙”和“韩国双龙公司”。

这样，通过该方法，对TopN进行发散后，能提高搜索词的多样性，有效提高CTR。

图7为本发明实施例的基于情境搜索提取搜索价值词的装置结构示意图。参见图7，该装置包括：候选搜索词集生成模块、泛词过滤模块、主题相关性计算模块、搜索价值计算模块、综合权重度量值计算模块以及候选搜索词选择模块，其中，

较佳地，候选搜索词集生成模块包括：词语提取单元、噪音过滤单元以及候选搜索词过滤单元(图中未示出)，其中，

实际应用中，候选搜索词集生成模块还可以进一步包括：

候选搜索词集生成模块还可以进一步包括：

较佳地，主题相关性计算模块包括：特征提取单元、权重计算单元以及归一化处理单元(图中未示出)，其中，

特征提取单元，用于对候选搜索词集进行特征提取；

较佳地，搜索价值计算模块包括：领域性度量值计算单元、事件性度量值计算单元、热点性度量值计算单元以及搜索价值度量值计算单元(图中未示出)，其中，

由上述可见，本发明实施例的基于情境搜索提取搜索价值词的方法及装置，根据选择的内容文本生成候选搜索词集；过滤生成的候选搜索词集中的泛词；分别对进行泛词过滤处理的候选搜索词集进行主题相关性计算以及搜索价值计算；根据主题相关性计算结果以及搜索价值计算结果，获取候选搜索词的综合权重度量值；对经综合权重处理的候选搜索词进行同义冗余处理后输出搜索价值词。这样，可以自动根据用户所在场景的内容上下文，提取候选搜索词，无需用户、编辑手动设置；通过泛词过滤、主题相关性计算、搜索价值计算以及同义冗余处理，能够实时地提取时效性强的候选搜索词、热点词、突发事件词以及领域词等质量很高的价值词展示给用户，提高了候选搜索词的搜索价值，满足了用户不同场景、不同领域的搜索需求，提升了搜索效率、提高了用户搜索体验。具有如下有益技术效果：

(一)、本发明能够应用在情境搜索中，根据用户所处情境，自动提取有价值的搜索关键词，推荐给用户，有效提升搜索价值。

(二)、本发明能够应用在搜索的关键词提取中，从网页、query、blog等各种类型文本中，准确提取不同粒度的关键词，用于分级、聚类、分类、语义理解。

(三)、本发明作为一种主题词提取技术，在内容广告中有极大应用价值，准确提取主题相关，并且有商业价值的核心词，用于内容广告推荐。

(四)、本发明提供了对各个领域都有效的搜索词自动提取方法，在新闻、电商、blog、微博等任何内容中，都可以自动提取搜索价值词(候选搜索词)，同时，加入了领域性、热点性和事件性的建模，对候选搜索词的搜索词价值进行准确定位。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换以及改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于情境搜索提取搜索价值词的方法，其特征在于，该方法包括：

根据选择的内容文本生成候选搜索词集；

过滤生成的候选搜索词集中包含的泛词；

根据候选搜索词的综合权重度量值获得搜索价值词；

其中，所述主题相关性计算包括：

对候选搜索词集进行特征提取；

根据回归模型对特征提取结果进行线性回归权重计算；

2.如权利要求1所述的方法，其特征在于，在获取候选搜索词的综合权重度量值后，获得候选搜索词前，进一步包括：

对经综合权重处理的候选搜索词进行同义冗余处理。

3.如权利要求2所述的方法，其特征在于，通过分词基本词、自定义领域词、在线的新词识别、复合词识别中的一种或其任意组合，从所述内容文本中提取词语，生成候选搜索词集。

4.如权利要求3所述的方法，其特征在于，所述通过在线的新词识别、复合词识别生成候选搜索词集包括：

5.如权利要求4所述的方法，其特征在于，进一步包括：

计算满足预先设置阈值的候选搜索词的置信度值，从候选搜索词集中过滤计算得到的置信度值大于预先设置的置信度阈值的候选搜索词。

6.如权利要求4所述的方法，其特征在于，进一步包括：

计算满足预先设置阈值的候选搜索词的冗余度值，从候选搜索词集中过滤计算得到的冗余度值大于预先设置的冗余度阈值的候选搜索词。

7.如权利要求1所述的方法，其特征在于，通过泛词弱化、领域词加强、复合词加强中的一种或其任意组合，过滤所述生成的候选搜索词集中包含的泛词。

8.如权利要求7所述的方法，其特征在于，所述泛词弱化包括：停用词去除、无关词性去除、按卡方度量值去除以及按信息增益的度量值去除。

9.如权利要求1所述的方法，其特征在于，所述特征提取包括：领域特征分布、位置、长度以及候选维度类别提取。

10.如权利要求1所述的方法，其特征在于，所述搜索价值计算包括：领域性计算、热点性计算、事件性计算中的一种或其任意组合。

11.如权利要求1所述的方法，其特征在于，所述根据候选搜索词的综合权重度量值获得搜索价值词包括：

12.一种基于情境搜索提取搜索价值词的装置，其特征在于，包括：候选搜索词集生成模块、泛词过滤模块、主题相关性计算模块、搜索价值计算模块、综合权重度量值计算模块以及候选搜索词选择模块，其中，

候选搜索词选择模块，用于根据候选搜索词的综合权重度量值获得搜索价值词；

其中，所述主题相关性计算模块包括：特征提取单元、权重计算单元以及归一化处理单元，其中，

特征提取单元，用于对候选搜索词集进行特征提取；

13.如权利要求12所述的装置，其特征在于，所述候选搜索词集生成模块包括：词语提取单元、噪音过滤单元以及候选搜索词过滤单元，其中，

14.如权利要求13所述的装置，其特征在于，所述候选搜索词集生成模块进一步包括：

15.如权利要求13所述的装置，其特征在于，所述候选搜索词集生成模块进一步包括：

16.如权利要求12所述的装置，其特征在于，所述搜索价值计算模块包括：领域性度量值计算单元、事件性度量值计算单元、热点性度量值计算单元以及搜索价值度量值计算单元，其中，