CN102043845B

CN102043845B - 一种用于基于查询序列簇提取核心关键词的方法与设备

Info

Publication number: CN102043845B
Application number: CN 201010592207
Authority: CN
Inventors: 张超; 忻舟; 王强
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2010-12-08
Filing date: 2010-12-08
Publication date: 2013-08-21
Anticipated expiration: 2030-12-08
Also published as: CN102043845A

Abstract

本发明的目的是提供一种用于基于查询序列簇提取核心关键词的方法与提取设备。其中，提取设备获取查询序列簇，其中，所述查询序列簇包括多个查询序列，其中每个查询序列对应至少一个相同的用户点击的搜索结果，并从所述查询序列簇中提取与所述查询序列簇相对应的核心关键词。与现有技术相比，本发明获得了输入该查询序列簇中的查询序列的用户的搜索需求，还可以根据该核心关键词为用户提供更为贴切的搜索建议或者更为相关的搜索结果等，使得用户获得更好的搜索体验。进一步地，当词库中未包括该核心关键词，则该核心关键词将可以作为新词加入词库，以进行各项应用。

Description

一种用于基于查询序列簇提取核心关键词的方法与设备

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种用于基于查询序列簇提取核心关键词的技术。

背景技术

现有的分词技术大多数利用词典、或者语义分析等对句子或者片段进行切分，但是，词典中包括的词的数量有限，并且互联网中新词层出不穷，词典更新的速度远远低于互联网中新词更新的速度，从而使得按照词典分词无法满足实际需要。而根据语义分析进行句子或者片段的切分，由于涉及机器学习，并且语言表达方式的多样化和互联网中网络语言的口语化，使得通过语义分析分词的结果也不尽如人意。

当网络中出现大量相同的用户点击的搜索结果的搜索需求时，这些搜索需求往往反映的是相同的主题，但是由于搜索用户表达方式的不同，通过语义分析很多时候不能得到正确反映这一搜索需求的核心关键词，同时，这种大量相同的用户点击的搜索结果的搜索需求往往也是当时的热点，因此，该搜索需求对应的核心关键词，还可能是词典中没有的新词，这就导致也无法根据词典从这些搜索需求中提取相应的核心关键词。

因此，如何从对应于相同的用户点击的搜索结果的搜索需求中提取相应的核心关键词，成为目前急需解决的问题之一。

发明内容

本发明的目的是提供一种用于基于查询序列簇提取核心关键词的方法与提取设备。

根据本发明的一个方面，提供了一种用于基于查询序列簇提取核心关键词的方法，其中，该方法包括以下步骤：

a获取查询序列簇，其中，所述查询序列簇包括多个查询序列，其中每个查询序列对应至少一个相同的用户点击的搜索结果；

b从所述查询序列簇中提取与所述查询序列簇相对应的核心关键词。

根据本发明的另一个方面，还提供了一种用于基于查询序列簇提取核心关键词的提取设备，其中，该提取设备包括：

获取装置，用于获取查询序列簇，其中，所述查询序列簇包括多个查询序列，其中每个查询序列对应至少一个相同的用户点击的搜索结果；

提取装置，用于从所述查询序列簇中提取与所述查询序列簇相对应的核心关键词。

与现有技术相比，本发明通过获取对应于相同的用户点击的搜索结果的查询序列簇，并从该查询序列簇中提取相应的核心关键词，获得了输入该查询序列簇中的查询序列的用户的搜索需求，还可以根据该核心关键词为用户提供更为贴切的搜索建议或者更为相关的搜索结果等，使得用户获得更好的搜索体验。进一步地，当词库中未包括该核心关键词，则该核心关键词将可以作为新词加入词库，以进行各项应用。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本发明一个方面的用于基于查询序列簇提取核心关键词的提取设备的设备示意图；

图2示出根据本发明一个优选实施例的用于基于查询序列簇提取核心关键词的提取设备的设备示意图。

图3示出根据本发明另一个方面的用于基于查询序列簇提取核心关键词的方法的流程图；

图4示出根据本发明一个优选实施例的用于基于查询序列簇提取核心关键词的方法的流程图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

图1为根据本发明一个方面的设备示意图，示出用于基于查询序列簇提取核心关键词的设备。其中，提取设备1包括获取装置11和提取装置12。具体地，获取装置11获取查询序列簇，其中，所述查询序列簇包括多个查询序列，其中每个查询序列对应至少一个相同的用户点击的搜索结果；随后，提取装置12从所述查询序列簇中提取与所述查询序列簇相对应的核心关键词。在此，提取设备1包括但不限于搜索引擎服务器或与之相连的专用服务器等，本领域技术人员应能理解上述提取设备1仅为举例，其他现有的或今后可能出现的设备如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

更具体地，获取装置11获取查询序列簇，其中，所述查询序列簇包括多个查询序列，其中每个查询序列对应至少一个相同的用户点击的搜索结果。具体地，获取装置11根据诸如搜索引擎的查询日志、第三方设备的大量用户查询浏览记录等获取查询序列簇，其中，该查询序列簇包括多个查询序列，其中的每个查询序列对应于至少一个相同的用户点击的搜索结果。例如，假设第三方设备存储有对应至少一个相同的用户点击的搜索结果的查询序列簇，获取装置11通过调用该第三方设备的应用程序接口(API)，向该第三方设备的应用程序接口(API)发送获取该查询序列簇的请求，并接收该第三方设备的应用程序接口(API)根据该请求返回的查询序列簇，其中，该查询序列簇中的每个查询序列对应至少一个相同的用户点击的搜索结果，如“中国移动”，“北京移动”，“北京动感地带”这三个查询序列，其输入用户都点击了相应的搜索结果中北京移动的主页。本领域技术人员应能理解上述查询序列簇的获取方式仅为举例，其他现有的或今后可能出现的查询序列簇的获取方式如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

提取装置12从所述查询序列簇中提取与所述查询序列簇相对应的核心关键词。具体地，根据获取装置11获得的对应至少一个相同的用户点击的搜索结果的查询序列簇，提取装置12根据分词技术，诸如基于词典的前向最大匹配法、后向最大匹配法，基于字标注的最大熵模型、条件随机场模型、感知器模型，或者与词性标注结合、与句法分析结合的其它分词方法，从该查询序列簇中提取与该查询序列簇相对应的核心关键词。例如，提取装置12根据基于词典的前向最大匹配法对获取装置11获得的查询序列簇中的每个查询序列进行切分，以获得相应的切分块，再对这些切分块进行去重，并对去重后的切分块按照一定的频次阈值进行过滤，从而获得与该查询序列簇相对应的核心关键词；在此，该频次阈值设置的越大，对应的切分块在该查询序列簇中出现的次数越多，从而该切分块是与该查询序列簇相对应的核心关键词的可能性也越大。又如，提取装置12对查询序列簇内的查询序列进行交叉匹配，获得出现频次超过该查询序列簇中查询序列个数的一半的字段，再将该字段与词典进行匹配查询，获得与该查询序列簇相对应的核心关键词。本领域技术人员应能理解上述分词技术以及提取与查询序列簇相对应的核心关键词的方式仅为举例，其他现有的或今后可能出现的分词技术或者提取与查询序列簇相对应的核心关键词的方式如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

优选地，获取装置11和提取装置12是持续不断工作的。具体地，获取装置11获取查询序列簇，其中，所述查询序列簇包括多个查询序列，其中每个查询序列对应至少一个相同的用户点击的搜索结果；随后，提取装置12从所述查询序列簇中提取与所述查询序列簇相对应的核心关键词。在此，本领域技术人员应理解“持续”是指获取装置11和提取装置12分别按照设定的或实时调整的工作模式要求进行查询序列簇的获取及核心关键词的提取，直至提取设备1在较长时间内停止获取查询序列簇。

图2为根据本发明的一个优选实施例，示出用于基于查询序列簇提取核心关键词的设备的提取装置。其中，提取装置12’还包括提取单元121’和筛选单元122’。具体地，提取单元121’从所述查询序列簇中的每个查询序列中，提取与所述每个查询序列相对应的切分块；随后，筛选单元122’根据所述切分块，按照预定筛选规则，获取与所述查询序列簇相对应的核心关键词。

更具体地，提取单元121’从所述查询序列簇中的每个查询序列中，提取与所述每个查询序列相对应的切分块。具体地，提取单元121’根据获取装置11获得的查询序列簇，从该查询序列簇中的每个查询序列中，根据分词技术，诸如基于词典的前向最大匹配法、后向最大匹配法，基于字标注的最大熵模型、条件随机域模型、感知器模型，或者与词性标注结合、与句法分析结合的其它方法，提取与每个查询序列分别对应的切分块。例如，提取单元121’根据基于词典的前向最大匹配法，对获取装置11获得的查询序列簇中的每个查询序列进行切分，以获得相应的切分块。又如，提取单元121’根据与词性标注结合的语义分析法，从获取装置11获得的查询序列簇中的每个查询序列提取名词、动词等，从而完成对每个查询序列的切分，以获得与每个查询序列相对应的切分块。本领域技术人员应能理解上述提取切分块的方式仅为举例，其他现有的或今后可能出现的提取切分块的方式如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

筛选单元122’根据所述切分块，按照预定筛选规则，获取与所述查询序列簇相对应的核心关键词。具体地，筛选单元122’根据从查询序列簇中的每个查询序列提取的切分块，按照预定筛选规则，诸如切分块在该查询序列簇中的出现频次超过第一阈值、切分块在该查询序列簇中的覆盖比例超过第二阈值等，获取与该查询序列簇相对应的核心关键词。例如，假设预定筛选规则为切分块在查询序列簇中的出现频次超过该查询序列簇中的查询序列个数的一半，获取装置11获取的查询序列簇中包括10个查询序列，那么筛选单元122’对提取单元121’提取的与每个查询序列相对应的切分块进行频次累加，当切分块在该查询序列簇中的出现频次超过5次时，该切分块即成为与该查询序列簇相对应的核心关键词。

优选地，筛选单元122’中的所述预定筛选规则包括但不限于，以下至少任一项：

1)所述切分块在所述查询序列簇中的出现频次超过第一阈值；

2)所述切分块在所述查询序列簇中的覆盖比例超过第二阈值；

3)所述切分块的组词概率超过第三阈值；

4)如果所述切分块中包括停留字，则筛除所述切分块。

其中，1)切分块在获取装置11获取的查询序列簇中的出现频次，包括对提取单元121’从该查询序列簇中的每个查询序列提取的切分块的出现频次的累加，即相同的切分块在一个查询序列中出现一次，就对其相应的出现频次累加一次，当该出现频次超过第一阈值时，相应的切分块即成为与该查询序列簇相对应的核心关键词；在此，该第一阈值设置的越大，对应的切分块在该查询序列簇中的出现频次越多，从而该切分块是与该查询序列簇相对应的核心关键词的可能性也越大。例如，假设查询序列簇中包括10个查询序列，切分块在该查询序列簇中的出现频次的第一阈值为5次，当从该查询序列簇中的每个查询序列提取的切分块在该查询序列簇中的出现频次超过5次时，该切分块即为与该查询序列簇相对应的核心关键词。

2)切分块在获取装置11获取的查询序列簇中的覆盖比例，包括对提取单元121’从该查询序列簇中的每个查询序列提取的切分块所在查询序列的个数进行累加，该个数与该查询序列簇中查询序列的个数的比值即为覆盖比例，当该覆盖比例超过第二阈值时，相应的切分块即为与该查询序列簇相对应的核心关键词；在此，该第二阈值设置的越大，对应的切分块在该查询序列簇中的覆盖比例也越大，即该切分块出现在越多的该查询序列簇的查询序列中，从而该切分块是与该查询序列簇相对应的核心关键词的可能性也越大。例如，假设查询序列簇中包括10个查询序列，切分块在该查询序列簇中的覆盖比例所对应的第二阈值为60％，当从该查询序列簇中的每个查询序列提取的切分块在该查询序列簇中的覆盖比例超过60％时，该切分块即为与该查询序列簇相对应的核心关键词。

3)切分块的组词概率超过第三阈值，包括对获取装置11获取的查询序列簇中的每个字获取其分别在词首、词中、词尾的概率，再对提取单元121’从该查询序列簇中的每个查询序列提取的切分块计算组词概率，如该组词概率＝该切分块中的第一个字在词首的概率*该切分块中的最后一个字在词尾的概率，当该组词概率超过第三阈值时，相应的切分块即为与该查询序列簇相对应的核心关键词；在此，该第三阈值设置的越大，对应的切分块是一个结构紧密的词的概率也越大，从而该切分块是与该查询序列簇相对应的核心关键词的可能性也越大。例如，假设切分块为“傲娇”，根据对特定文本的统计，如对一定主题范围的文本统计、或者一定网页范围的文本统计，“傲”出现在词首有100次，出现在词中有50次，出现在词尾有100次，单独出现50次，那么“傲”在词首的概率就是100/(100+100+50+50)＝1/3，同理可以得到“娇”在词尾的概率，假设为1/4，则“傲娇”的组词概率＝1/3*1/4＝1/12；如果组词概率的第三阈值为8％，则该“傲娇”即为与该查询序列簇相对应的核心关键词，如果组词概率的第三阈值为10％，则该“傲娇”不是与该查询序列簇相对应的核心关键词。优选地，所述切分块中的第一个字在词首的概率包括该切分块中的第一个字在词首，并且该切分块中的最后一个字在词尾时，该切分块中的第一个字在词首的概率当该组词概率，相应地，所述切分块中的最后一个字在词尾的概率包括该切分块中的第一个字在词首，并且该切分块中的最后一个字在词尾时，该切分块中的最后一个字在词尾的概率。例如，接上例，“傲”出现在词首有100次，其中“娇”同时出现在词尾有50次，“傲”出现在词中有50次，“傲”出现在词尾有100次，“傲”单独出现50次。那么“傲”在词首的概率就是50/(100+100+50+50)＝1/6，同理可以得到“娇”在词尾，同时“傲”在词首的概率，假设为1/8，则此时“傲娇”的组词概率＝1/6*1/8＝1/48；如果此时组词概率的第三阈值为2％，则该“傲娇”即为与该查询序列簇相对应的核心关键词，如果此时组词概率的第三阈值为5％，则该“傲娇”不是与该查询序列簇相对应的核心关键词。在此，上述查询序列簇中的每个字分别在词首、词中、词尾的概率可以由筛选单元122’统计相关文本计算得出，也可以由提取设备1的其他装置统计相关文本计算得出，还可以由筛选单元122’从第三方设备获取，如从专用的组词概率数据库获取。本领域技术人员应能理解上述查询序列簇中的每个字分别在词首、词中、词尾的概率的获取方式仅为举例，其他现有的或今后可能出现的查询序列簇中的每个字分别在词首、词中、词尾的概率的获取方式如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

4)如果切分块中包括停留字，则筛除该切分块。在此，停留字包括经常出现，但是不能参与构词的字，例如“的”、“吗”、“呀”、“下载”、“观看”等等。当提取单元121’从该查询序列簇中的每个查询序列提取的切分块中包括停留字时，筛除该切分块。例如，假设筛选单元122中预置了一个停留字表，将切分块在该停留字表中进行匹配查询，当切分块中包括该停留字表中的停留字时，筛除该切分块。

需要说明的是，本领域技术人员应能理解上述每一项预定筛选规则不仅能够单独用于筛选单元122’对提取单元121’提取的切分块的筛选，还可以两两结合，甚至是全部结合，用于对筛选单元122’对提取单元121’提取的切分块的筛选。

本领域技术人员还应能理解上述预定筛选规则仅为举例，其他现有的或今后可能出现的预定筛选规则如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

在一个优选实施例中(参照图2)，提取单元121’还根据所述查询序列簇的统计相关信息，从所述查询序列簇中的每个查询序列中，提取与所述每个查询序列相对应的切分块。具体地，获取装置11获取由对应至少一个相同的用户点击的搜索结果的查询序列组成的查询序列簇，提取单元121’根据该查询序列簇的统计相关信息，如通过互信息方法(MI)、卡方分布方法(chi-2)计算相邻两个字之间的相似度，从该查询序列簇中的每个查询序列中，提取与每个查询序列分别对应的切分块；或者通过条件随机域模型(CRF)对该查询序列簇中的每个字标注字首字尾字中以及单个字四种状态，并根据每个字的相应状态从每个查询序列中提取切分块；或者对该查询序列簇中每个基本粒度词对应的检索量的统计，与该查询序列簇中由所述每个基本粒度词为首、另一个基本粒度词为尾组成的片段的出现频次的统计，根据该统计出现频次和该统计检索量建立关系矩阵，并根据乘幂(Power)法、雅可比法、单侧旋转(One-side Rotation)法、或者QR方法(QR decomposition)对该关系矩阵分解后求取特征值和特征向量，再根据最大特征值确定主特征空间，将该关系矩阵投影至该主特征空间，并通过迭代确定相似度阈值，从而得到相似矩阵，再根据该相似矩阵切分该查询序列，以获得与该查询序列相对应的切分块。在此，基本粒度词指不能再进行切分的词，是构成其它词或者词组的单元；出现频次指由每个基本粒度词为首、另一个基本粒度词为尾组成的片段在该查询序列簇中出现的次数，如果在所述每个基本粒度词和该另一个基本粒度词之间还有其他的字或词，则该子或词包括在该片段中。例如，提取单元121’通过互信息方法(MI)计算该查询序列簇中每相邻两个字之间的相似度，MI(x，y)＝p(x，y)/{p(x)×p(y)}，并根据该相似度，从该查询序列簇中的每个查询序列中，提取与每个查询序列相对应的切分块。本领域技术人员应能理解上述根据查询序列簇的统计相关信息提取切分块的方式仅为举例，其他现有的或今后可能出现的根据查询序列簇的统计相关信息提取切分块的方式如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

与互信息方法(MI)、卡方分布方法(chi-2)和隐马尔可夫模型方法(HMM)相比，上述建立关系矩阵的方法穷举了查询序列中任意的可能切分在一起的情况的概率，根据任意一个连续序列的统计信息，在全局的角度进行计算；在获得大量的信息后，采用矩阵变换的方法既对数据进行了降维和除噪，又对数据进行了矩阵变换。互信息方法(MI)、卡方分布方法(chi-2)等方法采用相邻2个字/词之间的统计信息，在计算相邻两个字之间的相似度的时候，分别计算P(w_i|w_i-1)，这样便丢失了很多信息；同时，在后期，这两种方法也没有进行相应的数据处理。HMM使用EM算法进行处理，该算法可以在一定程度上优化缺失数据，但是有条件地优化到某个极值点。

优选地，提取单元121’还根据所述查询序列簇中每个基本粒度词的统计检索量，与所述查询序列簇中由所述每个基本粒度词为首、另一个基本粒度词为尾组成的片段的统计出现频次，获得所述统计相关信息。具体地，提取单元121’根据获取装置11获取的查询序列簇，通过对该查询序列簇中每个基本粒度词对应的检索量的统计，以及该查询序列簇中由所述每个基本粒度词为首、另一个基本粒度词为尾组成的片段的出现频次的统计，获得相应的该查询序列簇中每个基本粒度词的统计检索量以及该查询序列簇中由所述每个基本粒度词为首、另一个基本粒度词为尾组成的片段的统计出现频次，在此，如果在所述每个基本粒度词和该另一个基本粒度词之间还有其他的字或词，则该子或词包括在该片段中；根据该统计出现频次和该统计检索量建立关系矩阵，并根据乘幂(Power)法、雅可比法、单侧旋转(One-side Rotation)法、或者QR方法(QR decomposition)对该关系矩阵分解后求取特征值和特征向量，再根据最大特征值确定主特征空间，将该关系矩阵投影至该主特征空间，并通过迭代确定相似度阈值，从而得到相似矩阵，再根据该相似矩阵切分该查询序列，以获得与该查询序列相对应的切分块。例如，假设查询序列簇1中的查询序列1为w_1，w_2，…，w_n，包括n个基本粒度词，根据这n个基本粒度词的统计数据建立一个n*n的对称正定矩阵，作为该查询序列1的关系矩阵M，其中，

·M＝{m_i.j}_n×n

m_i.j＝2·m_i.j/(m_i.i+m_j，j)

在此，count(w_iw_i+1…w_j)为w_i、w_j以及其内部的字或词组成的片段在该查询序列簇1中的统计出现频次，当该查询序列簇1的一个查询序列中包括w_iw_i+1…w_j时，累加其出现频次，该累加得到的出现频次即为该查询序列簇1中该w_iw_i+1…w_j的统计出现频次，

为该查询序列簇1中基本粒度词w_i的统计检索量，当该查询序列簇1的一个查询序列中包括w_i时，累加该查询序列对应的检索量，该累加得到的检索量即为该查询序列簇1中该w_i的统计检索量；根据QR方法对该关系矩阵M进行分解，获得相应的特征值和特征向量，再根据

获得相应的主特征空间的维数k，也即该查询序列1的切分块的个数，其中，把所有的特征值从大到小排序后，λi表示第i大的特征值，n表示共有n个特征值；将关系矩阵M投影到该维数为k的主特征空间，根据相似度阈值δ，得到投影后的相似矩阵S，其中，

α₁为w_i在该维数为k的主特征空间中的特征向量；在此，确定相似度阈值δ的步骤包括：先令相似度阀值δ为0.5，如果得到的相似矩阵S的切分块数大于k，则说明相似度阀值δ设定过大，那么根据二分法，将该相似度阀值δ减小，反之，则增大该相似度阀值δ，直至得到合适的相似度阀值δ和相应的相似矩阵S；根据该相似矩阵S对该查询序列1进行切分，以获得与该查询序列1相对应的切分块。优选地，在建立查询序列的关系矩阵时，其中的count(w_iw_i+1...w_j)还可以和w_i...w_j的组词概率相结合，即以count(w_iw_i+1...w_j)*w_i...w_j的组词概率的值代替原count(w_iw_i+1...w_j)的值，并根据该count(w_iw_i+1...w_j)*w_i...w_j的组词概率的值建立该查询序列的关系矩阵。本领域技术人员应能理解上述获得查询序列簇的统计相关信息仅为举例，其他现有的或今后可能出现的获得查询序列簇的统计相关信息如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

在另一个优选实施例中(参照图1)，提取设备1还包括查询装置(未示出)，查询装置对所述核心关键词在预设词库中进行匹配查询，以获得目标新词。具体地，查询装置根据提取装置12提取的核心关键词，在预设词库中进行匹配查询，以获得目标新词。例如，假设目标新词应用于热点搜索，此时的预设词库为历史新词词库，即判断核心关键词是否属于历史上按特定标准提取的新词，如历史热点词“犀利哥”、旧词新意“杯具”，当该预设词库中尚未收录该核心关键词时，该核心关键词即为目标新词。在此，预设词库包括但不限于：1)通用词库，即词典；2)历史新词词库；本领域技术人员应能理解上述预设词库仅为举例，其他现有的或今后可能出现的预设词库如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

优选地，查询装置还结合预定过滤规则，对所述核心关键词在预设词库中进行匹配查询，以获得目标新词。具体地，查询装置根据提取装置12提取的核心关键词，结合预定过滤规则，如对核心关键词的粒度设定第四阈值，当核心关键词的粒度小于第四阈值，对该核心关键词在预设词库中进行匹配查询，以获得目标新词；在此，该第四阈值的设置需要考虑目标新词的实际需要，若该第四阈值设置过小，则可能过滤掉一些粒度较大的核心关键词，若该第四阈值设置过大，则可能未能过滤一些粒度较大的核心关键词。例如，假设预定过滤规则为核心关键词的粒度超过6，如果提取装置12提取的核心关键词的粒度超过6，则被过滤，如果提取装置12提取的核心关键词的粒度不到6，则保留该核心关键词；假设目标新词应用于热点搜索，此时的预设词库为历史新词词库，即判断该保留的核心关键词是否属于历史上按特定标准提取的新词，如历史热点词“犀利哥”、旧词新意“杯具”，当该预设词库中尚未收录该保留的核心关键词时，该保留的核心关键词即为目标新词。

需要说明的是，本领域技术人员应能理解，对核心关键词按预定过滤规则进行过滤和对核心关键词在预设词库中进行匹配查询，两者之前没有严格的顺序关系，可以先对核心关键词按预定过滤规则进行过滤，再对保留的核心关键词在预设词库中进行匹配查询；也可以先对核心关键词在预设词库中进行匹配查询，再对不在预设词库中的核心关键词按预定过滤规则进行过滤。

更优选地，所述预定过滤规则包括但不限于，以下至少任一项：

1)所述核心关键词的粒度超过第四阈值；

2)所述核心关键词的关联词集合的信息熵超过第五阈值；

3)所述核心关键词的紧密度低于第六阈值。

其中，1)核心关键词的粒度包括核心关键词的字数，当核心关键词的粒度较大时，此时该核心关键词可能是短语，包括句子、动宾短语、无明确意义的习惯用语等，比如“的原因”，“看一看”；此时该核心关键词也可能是古语，包括古诗词、谚语、歇后语等；这些粒度较大的核心关键词通常不会是目标新词，因此设定第四阈值过滤粒度较大的核心关键词；在此，该第四阈值的设置需要考虑目标新词的实际需要，若该第四阈值设置过小，则可能过滤掉一些粒度较大的核心关键词，若该第四阈值设置过大，则可能未能过滤一些粒度较大的核心关键词；例如，当目标新词为专有名词时，将该第四阈值设置的稍大一些，因为有些专有名词，尤其是电影名的粒度可能会很大。

2)核心关键词的关联词集合的信息熵，包括对每个核心关键词建立一个单独的关联词集合，并对该关联词集合求取信息熵。通常，有意义的核心关键词其周围相邻的词都是固定的，如“下载”、“播放”等，基于此假设，对核心关键词的关联词集合求取信息熵来过滤核心关键词。例如，通过统计搜索引擎的查询日志，对每个核心关键词建立一个单独的关联词集合，对该关联词集合求取信息熵，当该信息熵超过第五阈值时，认为该关联词集合不稳定，过滤相应的核心关键词；在此，该第五阈值越小，对应的关联词集合越稳定，从而与该关联词集合相关联的核心关键词是目标新词的可能性也越大。本领域技术人员应能理解上述建立核心关键词的关联词集合的方式仅为举例，其他现有的或今后可能出现的建立核心关键词的关联词集合的方式如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

3)核心关键词的紧密度包括该核心关键词的文本紧密度和/或该核心关键词的用户接受度。其中，核心关键词的文本紧密度包括组成该核心关键词的基本粒度词的统计连续出现次数与组成该核心关键词的基本粒度词的统计共同出现次数的比值，在此，统计对象包括但不限于搜索引擎的查询日志、新闻库、网页库、论坛库等；核心关键词的用户接受度包括基于该核心关键词的用户点击搜索结果中组成该核心关键词的基本粒度词的连续出现次数与基于该核心关键词的用户点击搜索结果的个数的比值。核心关键词的紧密度越高，那么该核心关键词就越可能是目标新词，因此，如果核心关键词的紧密度低于第六阈值，则过滤该核心关键词；在此，该第六阈值设置的越大，对应的核心关键词是一个结构紧密的词的概率也越大，从而该核心关键词成为目标新词的可能性也越大。此外，核心关键词的紧密度还可以根据基于该核心关键词的字元的统计相关信息的关系矩阵，对该关系矩阵分解，以得到相应的特征值，并将这些特征值相乘，获得的乘积越小，则该核心关键词的紧密度越高。例如，假设核心关键词由n个字组成，采用与前例中建立查询序列1的关系矩阵相同的方法，对该核心关键词建立一个n*n的关系矩阵，其中的count(w_iw_i+1...w_j)为字w_i、字w_j以及其内部的字组成的片段在该查询序列簇1中的统计出现频次，

为该查询序列簇1中字w_i的统计检索量，再根据QR方法对该核心关键词的关系矩阵进行分解，获得相应的n个特征值，将这些特征值相乘，根据该乘积确定该核心关键词相应的紧密度。本领域技术人员应能理解上述获得核心关键词紧密度的方式仅为举例，其他现有的或今后可能出现的获得核心关键词紧密度的方式如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

本领域技术人员还应能理解上述预定过滤规则仅为举例，其他现有的或今后可能出现的预定过滤规则如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

更优选地，所述预定过滤规则还包括所述核心关键词的关联词集合的信息熵超过第五阈值；其中，所述关联词集合的选择基于但不限于，以下至少任一项：

1)所述关联词集合中关联词在搜索引擎查询日志中的累计频次超过第七阈值；

2)当所述关联词集合中关联词的个数低于第八阈值时，不对所述关联词集合获取信息熵。

其中，当预定过滤规则包括核心关键词的关联词集合的信息熵超过第五阈值时，该关联词集合的选择可以基于关联词在搜索引擎查询日志中的累计频次，当该累计频次超过第七阈值时，保留该关联词，当该累计频次超过第七阈值时，删除该关联词；该关联词集合的选择也可以基于该关联词集合中关联词的个数，当该个数低于第八阈值时，不对该关联词集合获取信息熵；该关联词集合的选择还可以基于前述两项，既基于关联词在搜索引擎查询日志中的累计频次，又基于该关联词集合中关联词的个数，例如当该关联词集合的关联词在搜索引擎查询日志中的累计频次超过第七阈值且关联词的个数超过第八阈值，将该关联词集合作为相应的核心关键词的关联词集合，并对该关联词集合求取信息熵，以进行核心关键词的过滤。在此，该第七阈值设置的越大，对应的关联词在搜索引擎查询日志中出现的频次越多，从而该关联词是该核心关键词的关联词的可能性也越大；同样地，该第八阈值设置的越大，该核心关键的关联词集合的规模越大，由此得到的关联词集合的信息熵也越准确。本领域技术人员应能理解上述选择关联词集合的方式仅为举例，其他现有的或今后可能出现的选择关联词集合的方式如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

在再一个优选实施例中(参照图1)，获取装置11还获取对应至少一个相同的用户点击的搜索结果的多个查询序列，以得到所述查询序列簇。具体地，获取装置11根据如用户的查询日志，获得多个查询序列，并且这些查询序列对应至少一个相同的用户点击的搜索结果，对这些查询序列聚类，从而得到相应的查询序列簇。例如，获取装置11根据搜索引擎的网页查询需求及用户点击情况的网页查询日志，获得对应于至少一个相同的用户点击的搜索结果的多个查询序列，将这些查询序列聚类，以得到相应的查询序列簇。本领域技术人员应能理解上述查询序列聚类的方式仅为举例，其他现有的或今后可能出现的查询序列聚类的方式如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

图3为根据本发明另一个方面的方法流程图，示出用于基于查询序列簇提取核心关键词的过程。具体地，在步骤S1中，提取设备1获取查询序列簇，其中，所述查询序列簇包括多个查询序列，其中每个查询序列对应至少一个相同的用户点击的搜索结果；随后，在步骤S2中，提取设备1从所述查询序列簇中提取与所述查询序列簇相对应的核心关键词。在此，提取设备1包括但不限于搜索引擎服务器或与之相连的专用服务器等，本领域技术人员应能理解上述提取设备1仅为举例，其他现有的或今后可能出现的设备如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

更具体地，在步骤S1中，提取设备1获取查询序列簇，其中，所述查询序列簇包括多个查询序列，其中每个查询序列对应至少一个相同的用户点击的搜索结果。具体地，在步骤S1中，提取设备1根据诸如搜索引擎的查询日志、第三方设备的大量用户查询浏览记录等获取查询序列簇，其中，该查询序列簇包括多个查询序列，其中的每个查询序列对应于至少一个相同的用户点击的搜索结果。例如，假设第三方设备存储有对应至少一个相同的用户点击的搜索结果的查询序列簇，提取设备1通过调用该第三方设备的应用程序接口(API)，向该第三方设备的应用程序接口(API)发送获取该查询序列簇的请求，并接收该第三方设备的应用程序接口(API)根据该请求返回的查询序列簇，其中，该查询序列簇中的每个查询序列对应至少一个相同的用户点击的搜索结果，如“中国移动”，“北京移动”，“北京动感地带”这三个查询序列，其输入用户都点击了相应的搜索结果中北京移动的主页。本领域技术人员应能理解上述查询序列簇的获取方式仅为举例，其他现有的或今后可能出现的查询序列簇的获取方式如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

随后，在步骤S2中，提取设备1从所述查询序列簇中提取与所述查询序列簇相对应的核心关键词。具体地，提取设备1根据其在步骤S1中获得的对应至少一个相同的用户点击的搜索结果的查询序列簇，利用分词技术，诸如基于词典的前向最大匹配法、后向最大匹配法，基于字标注的最大熵模型、条件随机域模型、感知器模型，或者与词性标注结合、与句法分析结合的其它分词方法，从该查询序列簇中提取与该查询序列簇相对应的核心关键词。例如，提取设备1根据基于词典的前向最大匹配法对其获得的查询序列簇中的每个查询序列进行切分，以获得相应的切分块，再对这些切分块进行去重，并对去重后的切分块按照一定的频次阈值进行过滤，从而获得与该查询序列簇相对应的核心关键词；在此，该频次阈值设置的越大，对应的切分块在该查询序列簇中出现的次数越多，从而该切分块是与该查询序列簇相对应的核心关键词的可能性也越大。又如，提取设备1对查询序列簇内的查询序列进行交叉匹配，获得出现频次超过该查询序列簇中查询序列个数的一半的字段，再将该字段与词典进行匹配查询，获得与该查询序列簇相对应的核心关键词。本领域技术人员应能理解上述分词技术以及提取与查询序列簇相对应的核心关键词的方式仅为举例，其他现有的或今后可能出现的分词技术或者提取与查询序列簇相对应的核心关键词的方式如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

优选地，步骤S1和步骤S2是持续不断工作的。具体地，在步骤S1中，提取设备1获取查询序列簇，其中，所述查询序列簇包括多个查询序列，其中每个查询序列对应至少一个相同的用户点击的搜索结果；随后，在步骤S2中，提取设备1从所述查询序列簇中提取与所述查询序列簇相对应的核心关键词。在此，本领域技术人员应理解“持续”是指提取设备1在步骤S1和步骤S2中分别按照设定的或实时调整的工作模式要求进行查询序列簇的获取及核心关键词的提取，直至提取设备1在较长时间内停止获取查询序列簇。

图4为根据本发明的一个优选实施例，示出用于基于查询序列簇提取核心关键词的过程。其中，步骤S2’还包括步骤S21’和步骤S22’。具体地，在步骤S21’中，提取设备1从所述查询序列簇中的每个查询序列中，提取与所述每个查询序列相对应的切分块；随后，在步骤S22’中，提取设备1根据所述切分块，按照预定筛选规则，获取与所述查询序列簇相对应的核心关键词。

更具体地，在步骤S21’中，提取设备1从所述查询序列簇中的每个查询序列中，提取与所述每个查询序列相对应的切分块。具体地，在步骤S21’中，提取设备1根据其在步骤S1’获得的查询序列簇，从该查询序列簇中的每个查询序列中，根据分词技术，诸如基于词典的前向最大匹配法、后向最大匹配法，基于字标注的最大熵模型、条件随机域模型、感知器模型，或者与词性标注结合、与句法分析结合的其它方法，提取与每个查询序列分别对应的切分块。例如，提取设备1根据基于词典的前向最大匹配法，对其获得的查询序列簇中的每个查询序列进行切分，以获得相应的切分块。又如，提取设备1根据与词性标注结合的语义分析法，从其获得的查询序列簇中的每个查询序列提取名词、动词等，从而完成对每个查询序列的切分，以获得与每个查询序列相对应的切分块。本领域技术人员应能理解上述提取切分块的方式仅为举例，其他现有的或今后可能出现的提取切分块的方式如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

随后，在步骤S22’中，提取设备1根据所述切分块，按照预定筛选规则，获取与所述查询序列簇相对应的核心关键词。具体地，在步骤S22’中，提取设备1根据从查询序列簇中的每个查询序列提取的切分块，按照预定筛选规则，诸如切分块在该查询序列簇中的出现频次超过第一阈值、切分块在该查询序列簇中的覆盖比例超过第二阈值等，获取与该查询序列簇相对应的核心关键词；在此，该第一阈值设置的越大，对应的切分块在该查询序列簇中的出现频次越多，从而该切分块是与该查询序列簇相对应的核心关键词的可能性也越大。例如，假设预定筛选规则为切分块在查询序列簇中的出现频次超过该查询序列簇中的查询序列个数的一半，提取设备1获取的查询序列簇中包括10个查询序列，那么对其提取的与每个查询序列相对应的切分块进行频次累加，当切分块在该查询序列簇中的出现频次超过5次时，该切分块即成为与该查询序列簇相对应的核心关键词。

优选地，步骤S22’中的所述预定筛选规则包括但不限于，以下至少任一项：

3)所述切分块的组词概率超过第三阈值；

4)如果所述切分块中包括停留字，则筛除所述切分块。

其中，1)切分块在提取设备1获取的查询序列簇中的出现频次，包括对提取设备1从该查询序列簇中的每个查询序列提取的切分块的出现频次的累加，即相同的切分块在一个查询序列中出现一次，就对其相应的出现频次累加一次，当该出现频次超过第一阈值时，相应的切分块即成为与该查询序列簇相对应的核心关键词；在此，该第一阈值设置的越大，对应的切分块在该查询序列簇中的出现频次越多，从而该切分块是与该查询序列簇相对应的核心关键词的可能性也越大。例如，假设查询序列簇中包括10个查询序列，切分块在该查询序列簇中的出现频次的第一阈值为5次，当从该查询序列簇中的每个查询序列提取的切分块在该查询序列簇中的出现频次超过5次时，该切分块即为与该查询序列簇相对应的核心关键词。

2)切分块在提取设备1获取的查询序列簇中的覆盖比例，包括对提取设备1从该查询序列簇中的每个查询序列提取的切分块所在查询序列的个数进行累加，该个数与该查询序列簇中查询序列的个数的比值即为覆盖比例，当该覆盖比例超过第二阈值时，相应的切分块即为与该查询序列簇相对应的核心关键词；在此，该第二阈值设置的越大，对应的切分块在该查询序列簇中的覆盖比例也越大，即该切分块出现在越多的该查询序列簇的查询序列中，从而该切分块是与该查询序列簇相对应的核心关键词的可能性也越大。例如，假设查询序列簇中包括10个查询序列，切分块在该查询序列簇中的覆盖比例所对应的第二阈值为60％，当从该查询序列簇中的每个查询序列提取的切分块在该查询序列簇中的覆盖比例超过60％时，该切分块即为与该查询序列簇相对应的核心关键词。

3)切分块的组词概率超过第三阈值，包括对提取设备1获取的查询序列簇中的每个字获取其分别在词首、词中、词尾的概率，再对从该查询序列簇中的每个查询序列提取的切分块计算组词概率，如该组词概率＝该切分块中的第一个字在词首的概率*该切分块中的最后一个字在词尾的概率，当该组词概率超过第三阈值时，相应的切分块即为与该查询序列簇相对应的核心关键词；在此，该第三阈值设置的越大，对应的切分块是一个结构紧密的词的概率也越大，从而该切分块是与该查询序列簇相对应的核心关键词的可能性也越大。例如，假设切分块为“傲娇”，根据对特定文本的统计，如对一定主题范围的文本统计、或者一定网页范围的文本统计，“傲”出现在词首有100次，出现在词中有50次，出现在词尾有100次，单独出现50次，那么“傲”在词首的概率就是100/(100+100+50+50)＝1/3，同理可以得到“娇”在词尾的概率，假设为1/4，则“傲娇”的组词概率＝1/3*1/4＝1/12；如果组词概率的第三阈值为8％，则该“傲娇”即为与该查询序列簇相对应的核心关键词，如果组词概率的第三阈值为10％，则该“傲娇”不是与该查询序列簇相对应的核心关键词。优选地，所述切分块中的第一个字在词首的概率包括该切分块中的第一个字在词首，并且该切分块中的最后一个字在词尾时，该切分块中的第一个字在词首的概率当该组词概率，相应地，所述切分块中的最后一个字在词尾的概率包括该切分块中的第一个字在词首，并且该切分块中的最后一个字在词尾时，该切分块中的最后一个字在词尾的概率。例如，接上例，“傲”出现在词首有100次，其中“娇”同时出现在词尾有50次，“傲”出现在词中有50次，“傲”出现在词尾有100次，“傲”单独出现50次。那么“傲”在词首的概率就是50/(100+100+50+50)＝1/6，同理可以得到“娇”在词尾，同时“傲”在词首的概率，假设为1/8，则此时“傲娇”的组词概率＝1/6*1/8＝1/48；如果此时组词概率的第三阈值为2％，则该“傲娇”即为与该查询序列簇相对应的核心关键词，如果此时组词概率的第三阈值为5％，则该“傲娇”不是与该查询序列簇相对应的核心关键词。在此，上述查询序列簇中的每个字分别在词首、词中、词尾的概率可以由提取设备1统计相关文本计算得出，也可以从第三方设备获取，如从专用的组词概率数据库获取。本领域技术人员应能理解上述查询序列簇中的每个字分别在词首、词中、词尾的概率的获取方式仅为举例，其他现有的或今后可能出现的查询序列簇中的每个字分别在词首、词中、词尾的概率的获取方式如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

4)如果切分块中包括停留字，则筛除该切分块。在此，停留字包括经常出现，但是不能参与构词的字，例如“的”、“吗”、“呀”、“下载”、“观看”等等。当提取设备1从该查询序列簇中的每个查询序列提取的切分块中包括停留字时，筛除该切分块。例如，假设提取设备1中预置了一个停留字表，将切分块在该停留字表中进行匹配查询，当切分块中包括该停留字表中的停留字时，筛除该切分块。

需要说明的是，本领域技术人员应能理解上述每一项预定筛选规则不仅能够单独用于提取设备1对提取的切分块的筛选，还可以两两结合，甚至是全部结合，用于对提取设备1提取的切分块的筛选。

在一个优选实施例中(参照图4)，提取设备1还根据所述查询序列簇的统计相关信息，从所述查询序列簇中的每个查询序列中，提取与所述每个查询序列相对应的切分块。具体地，在步骤S1’中，提取设备1获取由对应至少一个相同的用户点击的搜索结果的查询序列组成的查询序列簇，在步骤S21’中，提取设备1根据该查询序列簇的统计相关信息，如通过互信息方法(MI)、卡方分布方法(chi-2)计算相邻两个字之间的相似度，从该查询序列簇中的每个查询序列中，提取与每个查询序列分别对应的切分块；或者通过条件随机域模型(CRF)对该查询序列簇中的每个字标注字首字尾字中以及单个字四种状态，并根据每个字的相应状态从每个查询序列中提取切分块；或者对该查询序列簇中每个基本粒度词对应的检索量的统计，与该查询序列簇中由所述每个基本粒度词为首、另一个基本粒度词为尾组成的片段的出现频次的统计，根据该统计出现频次和该统计检索量建立关系矩阵，并根据乘幂(Power)法、雅可比法、单侧旋转(One-side Rotation)法、或者QR方法(QRdecomposition)对该关系矩阵分解后求取特征值和特征向量，再根据最大特征值确定主特征空间，将该关系矩阵投影至该主特征空间，并通过迭代确定相似度阈值，从而得到相似矩阵，再根据该相似矩阵切分该查询序列，以获得与该查询序列相对应的切分块。在此，基本粒度词指不能再进行切分的词，是构成其它词或者词组的单元；出现频次指由每个基本粒度词为首、另一个基本粒度词为尾组成的片段在该查询序列簇中出现的次数，如果在所述每个基本粒度词和该另一个基本粒度词之间还有其他的字或词，则该子或词包括在该片段中。例如，提取设备1通过互信息方法(MI)计算该查询序列簇中每相邻两个字之间的相似度，MI(x，y)＝p(x，y)/{p(x)×p(y)}，并根据该相似度，从该查询序列簇中的每个查询序列中，提取与每个查询序列相对应的切分块。本领域技术人员应能理解上述根据查询序列簇的统计相关信息提取切分块的方式仅为举例，其他现有的或今后可能出现的根据查询序列簇的统计相关信息提取切分块的方式如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

优选地，在步骤S21’中，提取设备1还根据所述查询序列簇中每个基本粒度词的统计检索量，与所述查询序列簇中由所述每个基本粒度词为首、另一个基本粒度词为尾组成的片段的统计出现频次，获得所述统计相关信息。具体地，在步骤S21’中，提取设备1根据其在步骤S1中获取的查询序列簇，通过对该查询序列簇中每个基本粒度词对应的检索量的统计，以及该查询序列簇中由所述每个基本粒度词为首、另一个基本粒度词为尾组成的片段的出现频次的统计，获得相应的该查询序列簇中每个基本粒度词的统计检索量以及该查询序列簇中由所述每个基本粒度词为首、另一个基本粒度词为尾组成的片段的统计出现频次，在此，如果在所述每个基本粒度词和该另一个基本粒度词之间还有其他的字或词，则该子或词包括在该片段中；根据该统计出现频次和该统计检索量建立关系矩阵，并根据乘幂(Power)法、雅可比法、单侧旋转(One-side Rotation)法、或者QR方法(QR decomposition)对该关系矩阵分解后求取特征值和特征向量，再根据最大特征值确定主特征空间，将该关系矩阵投影至该主特征空间，并通过迭代确定相似度阈值，从而得到相似矩阵，再根据该相似矩阵切分该查询序列，以获得与该查询序列相对应的切分块。例如，假设查询序列簇1中的查询序列1为w_1，w_2，...，w_n，包括n个基本粒度词，根据这n个基本粒度词的统计数据建立一个n*n的对称正定矩阵，作为该查询序列1的关系矩阵M，其中，

·M＝{m_i，j}_n×n

m_i.j＝2·m_i，j/(m_i.i+m_j.j)

在此，count(w_iw_i+1...w_j)为w_i、w_j以及其内部的字或词组成的片段在该查询序列簇1中的统计出现频次，当该查询序列簇1的一个查询序列中包括w_iw_i+1...w_j时，累加其出现频次，该累加得到的出现频次即为该查询序列簇1中该w_iw_i+1...w_j的统计出现频次，

获得相应的主特征空间的维数k，也即该查询序列1的切分块的个数，其中，把所有的特征值从大到小排序后，λi表示第i大的特征值，n表示共有n个特征值；将关系矩阵M投影到该维数为k的主特征空间，根据相似度阈值δ，从而得到投影后的相似矩阵S，其中，

α_i为w_i在该维数为k的主特征空间中的特征向量；在此，确定相似度阈值δ的步骤包括：先令相似度阀值δ为0.5，如果得到的相似矩阵S的切分块数大于k，则说明相似度阀值δ设定过大，那么根据二分法，将该相似度阀值δ减小，反之，则增大该相似度阀值δ，直至得到合适的相似度阀值δ和相应的相似矩阵S；根据该相似矩阵S对该查询序列1进行切分，以获得与该查询序列1相对应的切分块。优选地，在建立查询序列的关系矩阵时，其中的count(w_iw_i+1...w_j)还可以和w_i...w_j的组词概率相结合，即以count(w_iw_i+1...w_j)*w_i...w_j的组词概率的值代替原count(w_iw_i+1...w_j)的值，并根据该count(w_iw_i+1...w_j)*w_i...w_j的组词概率的值建立该查询序列的关系矩阵。本领域技术人员应能理解上述获得查询序列簇的统计相关信息仅为举例，其他现有的或今后可能出现的获得查询序列簇的统计相关信息如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

在另一个优选实施例中(参照图3)，该过程还包括步骤S3(未示出)，在步骤S3中，提取设备1对所述核心关键词在预设词库中进行匹配查询，以获得目标新词。具体地，在步骤S3中，提取设备1根据其在步骤S2中提取的核心关键词，在预设词库中进行匹配查询，以获得目标新词。例如，假设目标新词应用于热点搜索，此时的预设词库为历史新词词库，即判断核心关键词是否属于历史上按特定标准提取的新词，如历史热点词“犀利哥”、旧词新意“杯具”，当该预设词库中尚未收录该核心关键词时，该核心关键词即为目标新词。在此，预设词库包括但不限于：1)通用词库，即词典；2)历史新词词库；本领域技术人员应能理解上述预设词库仅为举例，其他现有的或今后可能出现的预设词库如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

优选地，在步骤S3中，提取设备1还结合预定过滤规则，对所述核心关键词在预设词库中进行匹配查询，以获得目标新词。具体地，在步骤S3中，提取设备1根据其在步骤S2中提取的核心关键词，结合预定过滤规则，如对核心关键词的粒度设定第四阈值，当核心关键词的粒度超过第四阈值，对该核心关键词在预设词库中进行匹配查询，以获得目标新词；在此，该第四阈值的设置需要考虑目标应用的实际需要，若该第四阈值设置过小，则可能过滤掉一些粒度较大的核心关键词，若该第四阈值设置过大，则可能未能过滤一些粒度较大的核心关键词。例如，假设预定过滤规则为核心关键词的粒度超过6，如果提取设备1提取的核心关键词的粒度超过6，则被过滤，如果提取设备1提取的核心关键词的粒度不到6，则保留该核心关键词；假设目标新词应用于热点搜索，此时的预设词库为历史新词词库，即判断该保留的核心关键词是否属于历史上按特定标准提取的新词，如历史热点词“犀利哥”、旧词新意“杯具”，当该预设词库中尚未收录该保留的核心关键词时，该保留的核心关键词即为目标新词。

1)所述核心关键词的粒度超过第四阈值；

2)所述核心关键词的关联词集合的信息熵超过第五阈值；

3)所述核心关键词的紧密度低于第六阈值。

其中，1)核心关键词的粒度包括核心关键词的字数，当核心关键词的粒度较大时，此时该核心关键词可能是短语，包括句子、动宾短语、无明确意义的习惯用语等，比如“的原因”，“看一看”；此时该核心关键词也可能是古语，包括古诗词、谚语、歇后语等；这些粒度较大的核心关键词通常不会是目标新词，因此设定第四阈值过滤粒度较大的核心关键词；在此，该第四阈值的设置需要考虑目标新词的实际需要，若该第四阈值设置过小，则可能过滤掉一些粒度较大的核心关键词，若该第四阈值设置过大，则可能未能过滤一些粒度较大的核心关键词；例如，当目标新词为专有名词时，将该第四阈值设置的稍大一些，因为有些专有名词，尤其是电影名的粒度可能会很大。。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种计算机实现的用于基于查询序列簇提取核心关键词的方法，其中，该方法包括以下步骤：

b1根据所述查询序列簇中每个基本粒度词的统计检索量，与所述查询序列簇中由所述每个基本粒度词为首、另一个基本粒度词为尾组成的片段的统计出现频次，建立关系矩阵，将所述关系矩阵投影至其主特征空间，通过迭代确定相似度阈值，进而获得相似矩阵，并根据所述相似矩阵切分所述查询序列簇中的每个查询序列，以获得与所述每个查询序列相对应的切分块；

b2根据所述切分块，按照预定筛选规则，获取与所述查询序列簇相对应的核心关键词。

2.根据权利要求1所述的方法，其中，所述步骤b2中的所述预定筛选规则包括以下至少任一项：

-所述切分块在所述查询序列簇中的出现频次超过第一阈值；

-所述切分块在所述查询序列簇中的覆盖比例超过第二阈值；

-所述切分块的组词概率超过第三阈值；

-如果所述切分块中包括停留字，则筛除所述切分块。

3.根据权利要求1所述的方法，其中，该方法还包括：

c对所述核心关键词在预设词库中进行匹配查询，当该预设词库中尚未收录所述核心关键词时，所述核心关键词属于目标新词。

4.根据权利要求3所述的方法，其中，所述步骤c还包括：

-结合预定过滤规则，对所述核心关键词在预设词库中进行匹配查询，当该预设词库中尚未收录所述核心关键词时，所述核心关键词属于目标新词。

5.根据权利要求4所述的方法，其中，所述预定过滤规则包括以下至少任一项：

-所述核心关键词的粒度超过第四阈值；

-所述核心关键词的关联词集合的信息熵超过第五阈值；

-所述核心关键词的紧密度低于第六阈值。

6.根据权利要求5所述的方法，其中，所述预定过滤规则还包括所述核心关键词的关联词集合的信息熵超过第五阈值；

其中，所述关联词集合的选择基于以下至少任一项：

-所述关联词集合中关联词在搜索引擎查询日志中的累计频次超过第七阈值；

-当所述关联词集合中关联词的个数低于第八阈值时，不对所述关联词集合获取信息熵。

7.根据权利要求1所述的方法，其中，所述步骤a还包括：

-获取对应至少一个相同的用户点击的搜索结果的多个查询序列，以得到所述查询序列簇。

8.一种用于基于查询序列簇提取核心关键词的提取设备，其中，该提取设备包括：

提取单元，用于根据所述查询序列簇中每个基本粒度词的统计检索量，与所述查询序列簇中由所述每个基本粒度词为首、另一个基本粒度词为尾组成的片段的统计出现频次，建立关系矩阵，将所述关系矩阵投影至其主特征空间，通过迭代确定相似度阈值，进而获得相似矩阵，并根据所述相似矩阵切分所述查询序列簇中的每个查询序列，以获得与所述每个查询序列相对应的切分块；

筛选单元，用于根据所述切分块，按照预定筛选规则，获取与所述查询序列簇相对应的核心关键词。

9.根据权利要求8所述的提取设备，其中，所述筛选单元中的所述预定筛选规则包括以下至少任一项：

-所述切分块在所述查询序列簇中的出现频次超过第一阈值；

-所述切分块在所述查询序列簇中的覆盖比例超过第二阈值；

-所述切分块的组词概率超过第三阈值；

-如果所述切分块中包括停留字，则筛除所述切分块。

10.根据权利要求8所述的提取设备，其中，该提取设备还包括：

查询装置，用于对所述核心关键词在预设词库中进行匹配查询，当该预设词库中尚未收录所述核心关键词时，所述核心关键词属于目标新词。

11.根据权利要求10所述的提取设备，其中，所述查询装置还用于：

12.根据权利要求11所述的提取设备，其中，所述预定过滤规则包括以下至少任一项：

-所述核心关键词的粒度超过第四阈值；

-所述核心关键词的关联词集合的信息熵超过第五阈值；

-所述核心关键词的紧密度低于第六阈值。

13.根据权利要求12所述的提取设备，其中，所述预定过滤规则还包括所述核心关键词的关联词集合的信息熵超过第五阈值；

其中，所述关联词集合的选择基于以下至少任一项：

14.根据权利要求8所述的提取设备，其中，所述获取装置还用于：