CN102103604B

CN102103604B - 检索词核心权重确定方法和装置

Info

Publication number: CN102103604B
Application number: CN 200910242875
Authority: CN
Inventors: 潘子浩; 秦首科
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2009-12-18
Filing date: 2009-12-18
Publication date: 2012-12-19
Anticipated expiration: 2029-12-18
Also published as: CN102103604A

Abstract

本发明实施例提供一种检索词核心权重确定方法和装置，该检索词核心权重确定方法包括：在线下核心计算生成的第一词典文件中查找检索词；如果在第一词典文件中查找到所述检索词，则输出第一词典文件对应的第一数据文件中保存的与检索词对应的核心权重；如果在第一词典文件中未查找到检索词，则对检索词进行处理，并在第一词典文件中查找处理后的检索词，如果查找到处理后的检索词，则输出第一词典文件对应的第一数据文件中保存的与处理后的检索词对应的核心权重；如果在第一词典文件中未查找到处理后的检索词，则对处理后的检索词进行切词计算，获得处理后的检索词的核心权重。本发明实施例实现了提高核心权重的准确度，进而提高了核心分析的效果。

Description

检索词核心权重确定方法和装置

技术领域

本发明实施例涉及检索技术领域，尤其涉及一种检索词核心权重确定方法和装置。

背景技术

检索词(query)分析是检索系统的基础，在智能广告检索中，拍卖词仅能命中检索词中的部分切词(term)，这时对检索词的切词进行赋权就非常重要了，因为只有对检索词的切词进行合理的赋权才能对拍卖词进行合理的分级和排序。

现有的检索词分析主要根据切词的重要性赋权结果进行核心分析，确定核心权重。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

(1)切词的重要性分析训练的语料是检索词，但未考虑用户的行为，例如：检索词变换、修改或换页等操作；

(2)切词重要性词典在一次挖掘之后，作为一个静态的词典使用，因而在不同检索词中相同的切词，赋权结果是相同的；

(3)根据切词的重要性赋权结果进行核心分析未引入其他维度的信息，而这些信息会对核心分析的结果造成影响，例如地域和时间词等；

综上所述，现有的检索词分析方法存在核心权重准确度低、核心分析效果欠佳的缺陷。

发明内容

本发明实施例提供一种检索词核心权重确定方法和装置，以提高核心权重的准确度，提高核心分析的效果。

本发明实施例提供一种检索词核心权重确定方法，包括：

在线下核心计算生成的第一词典文件中查找检索词；

如果在所述第一词典文件中查找到所述检索词，则输出所述第一词典文件对应的第一数据文件中保存的与所述检索词对应的核心权重；

如果在所述第一词典文件中未查找到所述检索词，则对所述检索词进行处理，并在所述第一词典文件中查找处理后的检索词，如果查找到所述处理后的检索词，则输出所述第一词典文件对应的第一数据文件中保存的与所述处理后的检索词对应的核心权重；如果在所述第一词典文件中未查找到所述处理后的检索词，则对所述处理后的检索词进行切词计算，获得所述处理后的检索词的核心权重。

本发明实施例还提供一种检索词核心权重确定装置，包括：

查找模块，用于在线下核心计算生成的第一词典文件中查找检索词；

第一输出模块，用于当所述查找模块在所述第一词典文件中查找到所述检索词时，输出所述第一词典文件对应的第一数据文件中保存的与所述检索词对应的核心权重；

第二输出模块，用于当所述查找模块在所述第一词典文件中未查找到所述检索词时，对所述检索词进行处理，所述查找模块在所述第一词典文件中查找到处理后的检索词之后，输出所述第一词典文件对应的第一数据文件中保存的与所述处理后的检索词对应的核心权重；

计算模块，用于当所述查找模块在所述第一词典文件中未查找到所述处理后的检索词时，对所述处理后的检索词进行切词计算，获得所述处理后的检索词的核心权重。

本发明实施例的检索词核心权重确定方法和装置，当在线下核心计算生成的第一词典文件中未查找到检索词时，对检索词进行处理，并在第一词典文件中查找处理后的检索词，查到后，输出处理后的检索词对应的核心权重；如果仍未查到，则对处理后的检索词进行切词计算，获得处理后的检索词的核心权重。本发明实施例实现了提高核心权重的准确度，进而提高了核心分析的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明检索词核心权重确定方法一个实施例的流程图；

图2为本发明检索词核心权重确定方法另一个实施例的流程图；

图3为本发明对第二检索词进行切词计算一个实施例的流程图；

图4为本发明线下核心计算一个实施例的流程图；

图5为本发明关联检索词构成的超图一个实施例的示意图；

图6为本发明检索词核心权重确定装置一个实施例的结构示意图；

图7为本发明检索词核心权重确定装置另一个实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明检索词核心权重确定方法一个实施例的流程图，如图1所示，该实施例可以包括：

步骤101，在线下核心计算生成的第一词典文件中查找检索词。

步骤102，判断是否查找到检索词。如果查找到，则执行步骤107；如果在第一词典文件中未查找到上述检索词，则执行步骤103～步骤106。

步骤103，对检索词进行处理。

步骤104，在第一词典文件中查找处理后的检索词。

步骤105，判断是否在第一词典文件中查找到处理后的检索词。如果查找到，则执行步骤107；如果在第一词典文件中未查找到处理后的检索词，则执行步骤106。

步骤106，对处理后的检索词进行切词计算，获得处理后的检索词的核心权重。

步骤107，输出第一词典文件对应的第一数据文件中保存的核心权重。

具体地，对于在第一词典文件中，查找到检索词的情形，步骤107中输出的是第一词典文件对应的第一数据文件中保存的与检索词对应的核心权重；

对于在第一词典文件中，查找到处理后的检索词的情形，步骤107中输出的是第一词典文件对应的第一数据文件中保存的与处理后的检索词对应的核心权重。

上述实施例中，在线下核心计算生成的第一词典文件中未查找到检索词时，对检索词进行处理，并在第一词典文件中查找处理后的检索词，查到后，输出处理后的检索词对应的核心权重；如果仍未查到，则对处理后的检索词进行切词计算，获得处理后的检索词的核心权重。本实施例实现了提高核心权重的准确度，进而提高了核心分析的效果。

图2为本发明检索词核心权重确定方法另一个实施例的流程图，如图2所示，该实施例可以包括：

步骤201，在线下核心计算生成的第一词典文件中查找检索词。

步骤202，判断是否查找到检索词。如果查找到，则执行步骤210；如果在第一词典文件中未查找到上述检索词，则执行步骤203步骤209。

步骤203，去除检索词中的地域名词，获得第一检索词。

具体地，去除检索词中的地域名词针对的是检索词的混排切词粒度：首先对检索词中包含的所有切词进行词性标注；其次，在预先保存的地域名词表中，查找标注为地域名词的切词，如果在地域名词表中查找到上述标注为地域名词的切词，则去除该标注为地域名词的切词。

另外，为了防止将地域名词去除后出现孤零的单字，例如：当检索词为“北京到上海机票”，在去除地域名词后会出现“到机票”这种无意义的检索词，本实施例使用一个词表将与地域名词有关并且在去除地域名词后会孤单的单字，在去除地域名词的时候一并去除。

去除检索词中的地域名词后，原检索词中未被去除的切词将依照原有的顺序拼装成另外一个新的检索词，即第一检索词；考虑到去除地域名词后会出现一些基本词转移的情况，例如：当检索词为“新浪鄂州网”时，基本词为“新浪\鄂州\网”，去除地域名词“鄂州”后形成的第一检索词为“新浪网”，基本词为“新浪\网”，基本词发生了转移，本实施例中，在去除检索词中的地域名词后，首先需要进行基本词转移的判断，如果基本词发生转移，则不再去除该检索词中的地域名词。

优选地，本实施例中，在去除地域名词时限制了地域名词的数量，例如；可以设定最多去除5个地域名词，即顺序去除地域名词满5个后不再去除检索词中的地域名词；去除的地域名词作为地域切词，也具有权重，目前设定为0.1，并将该地域切词放置在后续处理得到核心切词的尾部。

步骤204，在第一词典文件中查找第一检索词。

步骤205，判断是否在第一词典文件中查找到第一检索词。如果查找到，则执行步骤210；如果在第一词典文件中未查找到第一检索词，则执行步骤206～步骤209。

步骤206，对第一检索词进行规约操作，获得第二检索词。

本实施例中，对第一检索词进行规约操作是指裁剪第一检索词中信息量小的切词，例如：第一检索词中的介词等；同样，需要对第二检索词进行基本词转移判断，如果进行规约操作后，第一检索词的基本词发生转移，则仍使用第一检索词进行后续处理，否则使用第二检索词进行后续处理。

步骤207，在第一词典文件中查找第二检索词。

步骤208，判断在第一词典文件中是否查找到第二检索词。如果查找到，则执行步骤210；如果在第一词典文件中未查找到第二检索词，则执行步骤209。

步骤209，对第二检索词进行切词计算，获得第二检索词的核心权重。

步骤210，输出第一词典文件对应的第一数据文件中保存的核心权重。

具体地，对于在第一词典文件中，查找到检索词的情形，步骤210中输出的是第一词典文件对应的第一数据文件中保存的与检索词对应的核心权重；

对于在第一词典文件中，查找到第一检索词的情形，步骤210中输出的是第一词典文件对应的第一数据文件中保存的与第一检索词对应的核心权重；

对于在第一词典文件中，查找到第二检索词的情形，步骤210中输出的是第一词典文件对应的第一数据文件中保存的与第二检索词对应的核心权重。

本实施例中，输出的核心权重的数据结构可以为：

typedef struct_query_core_t

{

u_int sign1；//切词签名1

u_int sign2；//切词签名2

float rel；//核心权重

u_int flag；//标记由哪些基本词粘接而成

}query_core t；

下面结合图3，对步骤209中对第二检索词进行切词计算，获得第二检索词的核心权重的过程进行详细介绍。

图3为本发明对第二检索词进行切词计算一个实施例的流程图，如图3所示，该实施例包括：

步骤301，对第二检索词进行切词，获得第二检索词包含的各切词的重要性权重。

具体地，可以通过调用切词重要性接口获得第二检索词包含的各切词的重要性权重；其中切词重要性接口的输入为一个检索词切词后获得的切词序列，返回的是各切词的重要性权重。

步骤302，在线下核心计算生成的第二词典文件中查找上述切词，获得第二词典文件对应的第二数据文件中保存的上述切词对应的关联检索词和该关联检索词对应的核心成分。

本实施例中，关联检索词是通过分析挖掘大量检索日志得到用户经常一起查询的检索词，例如：检索“手机”的用户有3.4％的概率会同时检索“诺基亚手机”。

步骤303，以上述切词的重要性权重对上述切词对应的关联检索词进行加权，按照关联检索词的权重由大至小的顺序，选取预定数量的关联检索词和该关联检索词对应的核心成分组成第一特征向量。

具体地，本实施例根据关联检索词的权重，按照由大至小的顺序对关联检索词进行去重排序，去重规则为：对于同一关联检索词具有不同权重的情形，取较大的权重作为该关联检索词的权重。然后在排序后的关联检索词中按照权重由大至小的顺序，选择预定数量的关联检索词和该预定数量的关联检索词对应的核心成分组成第一向量fv，第一向量fv的元素为切词的签名以及对应的权重。其中，该预定数量可以为20。

步骤304，计算每个切词对应的关联检索词和该关联检索词对应的核心成分组成的第二特征向量fv_n与第一特征向量fv的夹角的余弦值，该余弦值为每个切词的权重。

步骤305，按照切词的权重由大到小的顺序对上述切词进行排序，选择权重最大的切词作为核心切词T_c。

步骤306，将切词中除核心切词之外的其他切词T_i与该核心切词T_c进行粘接，获得粘接切词T_p。

步骤307，根据上述切词中除核心切词之外的其他切词T_i与核心切词T_c对应的关联检索词，获得粘接切词T_p对应的关联检索词和该粘接切词T_p对应的关联检索词的核心成分，T_p对应的关联检索词和该T_p对应的关联检索词的核心成分组成第三特征向量。

具体地，将T_i与T_c的关联检索词通过切词的重要性权重加权后，按照关联检索词的权重由大至小的顺序，选取预定数量(例如：20)的关联检索词，并将选取的关联检索词进行组合获得T_p对应的关联检索词和该T_p对应的关联检索词的核心成分，T_p对应的关联检索词和该T_p对应的关联检索词的核心成分组成第三特征向量fv_p。

步骤308，计算第三特征向量fv_p与第一特征向量fv的夹角的余弦值，作为粘接切词T_p的权重，并对粘接切词T_p的权重进行修正，修正后的粘接切词的权重为第二检索词的核心权重。

具体地，在步骤308中，如果计算出来T_p的权重小于T_c的权重R_c，则将T_p的权重直接修正为R_c+delta，其中，delta为0.0001/n，n为被粘贴的非核心切词T_i在步骤305中的排序位置。

本实施例中，对于进行切词计算权重的所有切词，都将标志(flag)的第31位设为1。

另外，对于“干手机”这类词，切词后获得的切词“干\手机”中只有一个切词“手机”能在第二词典文件中查找到关联检索词以及该关联检索词对应的核心成分，而其他切词都没有关联检索词以及对应的核心成分，这时直接使用切词的重要性权重对各个切词进行加权，并将flag的第30位设为1。

上述实施例中，在线下核心计算生成的第一词典文件中未查找到检索词时，对检索词进行去除地域名词和规约操作，并在第一词典文件中查找处理后的检索词，查到后，输出处理后的检索词对应的核心权重；如果仍未查到，则对处理后的检索词进行切词计算，获得处理后的检索词的核心权重。本实施例实现了提高核心权重的准确度，进而提高了核心分析的效果。经实验验证，利用本实施例提供的方法，获得核心权重的准确率可以达到92.22％。

本发明图1、图2和图3所示实施例中的第一词典文件、第一数据文件、第二词典文件和第二数据文件是通过进行线下核心计算生成的，下面对线下核心计算进行详细介绍。

图4为本发明线下核心计算一个实施例的流程图，如图4所示，该实施例可以包括：

步骤401，将预定时间内的检索日志汇总为日志文件。

具体地，首先，可以每天定时从网页搜索日志机下载根据用户标识(cookieid)排序的检索日志cookie_sort.*文件；该检索日志cookie_sort.*文件中的每一行代表了用户的一次检索行为。

例如：假设一个检索日志cookie_sort.*文件中的一行为：

0000A7F0842AA9C46688582670E8E6DC 121.227.2.7222/Apr/2009：20:31:430-1-1-1-1-10福利彩票双色球-100

其中，“0000A7F0842AA9C46688582670E8E6DC”为用户的cookieid；“福利彩票双色球”为检索词。

然后将下载得到的检索日志中，预定时间内的检索词去重后汇总到同一行下(以“\t”分隔)，一行中检索词的个数限制为100个，若检索词的个数超过100将被舍弃；并将多个检索日志汇总成以日期命名的一个文件，例如：2009年4月22日的检索日志处理后的文件名为20090422。每一行包含的检索词可以为：

滨海古圆奉贤滨海古圆

最后，去除检索词中的地域名词，并对检索词进行规约操作，并具体可以为：首先对检索词中包含的所有切词进行词性标注；其次，在预先保存的地域名词表中，查找标注为地域名词的切词，如果在地域名词表中查找到上述标注为地域名词的切词，则去除该标注为地域名词的切词。再次，调用规约模块进行规约操作，即裁剪检索词中信息量小的切词，例如：检索词中的介词等。

经上述处理后的检索词追加到当月的汇总日志文件中，以年月命名，例如：200905。生成当月汇总日志文件后，将删除原始的日志文件以及中间文件。本实施例中，在每月的1日，以时间新老顺序依次将多月的检索日志汇总成单一的日志文件；较新的检索日志置于该日志文件靠前的位置，反之则放到日志文件靠后的位置。

步骤402，对日志文件中的检索词进行编码，并对编码后的检索词进行关联挖掘，获得关联检索词。

具体地，考虑到时效性以及系统内存开销，本实施例限制了检索词的编码范围，例如：可以将编码范围限定为1～2³²-1，另外由于步骤401已经按照检索日志的生成时间由新至旧的顺序，对检索日志进行整合生成日志文件，从而可以保证较新的检索词能够得到编码并被处理，具有较好的时效性。编码是将检索词映射为标识(Identifier；以下简称：ID)，可以节约存储开销，另外关联挖掘过程都将基于检索词的ID进行，而非基于检索词本身。

考虑到内存的实际情况，哈希(hash)表中不可能保存所有的检索词到ID的编码对<query，ID>，因此当哈希表已满时，将进行哈希表的遍历，并删除哈希表中统计计数低于2的<query，ID>对；因而这些被删除的检索词，如果在后续的检索流中再次出现，将会被重新编码。另外限制ID的范围为1～2³²-1，超过部分则不再进行编码，也不再进行后续的挖掘处理。

在内存为16G的机器上，设置的哈希节点数为256×1024×2400，内存为32G的机器上哈希节点数可调整为256×1024×4600。

编码针对的对象是到日前为止积累下来的多个月的检索日志合并成的日志文件，输出为ID化的检索日志流(QueryIDLog)，以及ID到检索词的映射文件(QueryIDMap)。ID到检索词的映射文件的一个示例如下：

1 baidu

2 sina

3 google

其中，第一列为检索词ID，第二列为检索词。

ID化的检索日志流(QueryIDLog)的一个示例如下：

1 2 3

2 1

3 2

当ID开始溢出时，可以删除时间最老的日志文件，例如：当文件名为200905和200904的检索日志合并生成的日志文件，在编码时ID溢出，需要删除的文件是200904，以节省磁盘开销。

编码之后，对日志文件使用apriori算法进行关联挖掘，获得关联检索词。本实施例中，关联检索词是通过分析挖掘大量检索日志得到用户经常一起查询的检索词，例如：检索“手机”的用户有3.4％的概率会同时检索“诺基亚手机”。

具体地，本实施例的关联挖掘算法的输入是编码后的事务数据，输出是关联检索词构成的超图(hyper-graph)。超图中的节点为关键检索词，两个节点之间的连线上的权值为两个关联检索词的相关程度。图5为本发明关联检索词构成的超图一个实施例的示意图。

本实施例中的关联挖掘算法是一种挖掘数据流的算法，能够在有限的内存空间上完成对无限量数据的实时挖掘，该算法是可递增的，因此具有很好的可伸缩性。

该算法在保证一定误差限度的前提下得到的关联检索词挖掘结果是正确结果的子集，但可能会漏掉少量的正确结果，因此会产生误差，然而该误差不会超过预定的阈值，所以该算法的误差是可控的。假设该算法的参数最小支持度为s，误差系数为δ，总事务数为N，则该算法的性质如下：

1、所有支持度计数大于s×N的频繁项和频繁项集被该算法挖掘到的概率大于1-δ；

2、该算法不会挖掘出任何支持度计数小于s×N的频繁项或者频繁项集；

3、该算法对频繁项或者频繁项集的支持度的近似值与其真实值相等的概率不小于1-δ；

4、该算法使用的内存开销最多不超过(2+2ln(2/δ))/s。

支持本实施例的关联挖掘算法处理海量数据的技术是数据流压缩技术，数据流压缩技术在保证一定精度的前提下，可以对数据流进行有损的压缩。虽然会带来一定的误差，但如上所述这种误差是可控的。

本实施例的关联挖掘算法分为两部分：1、频繁1项集挖掘；2、频繁2项集挖掘。具体流程如下：

1、频繁1项挖掘

算法：频繁1项挖掘算法

输入：事务数据流S，最小支持度阈值s，误差概率δ。

输出：S中的频繁1项集P。

方法：

(1)设n₀为内存开销的上限，其值通过最小支持度阈值s和误差概率δ求得：

n_{0} = \frac{2 + \ln (\frac{2}{δ})}{s};

(2)设已处理的数据流长度n为0，P为空集；

(3)从头扫描日志数据；

(4)当有新的事务到达时，执行

(5)得到此行所有的ID_i，并去重；

(6)如果(n-1)％n₀＝0，则按照如下方法进行非频繁项的剪枝：

(7)计算当前的误差ε_n，

ϵ_{n} = \sqrt{\frac{2 s \ln (\frac{2}{δ})}{n}};

(8)根据ε_n以及数据流长度n₀得到频繁阈值thr＝(s-ε_n)×n；

(9)剪去P中所有计数低于thr的非频繁项；

(10)如果ID_i不在P中，则将ID_i加入P，并置其计数为1，否则将其计数加1；

(11)n←n+1；

(12)按照(6)～(9)的方法对P中非频繁项进行剪枝。

完成频繁1项挖掘后，再进行频繁2项的挖掘，此时内存中已存有频繁1项集及其对应的频繁计数。

2、频繁2项挖掘

算法：频繁2项挖掘算法

输入：事务数据流S，最小支持度阈值s，误差概率δ，置信度_conf，以及共现度f2_oncur。

输出：S中的频繁2项集L。

方法：

(13)设n₀为内存开销的上限，其值通过最小支持度阈值s和误差概率δ求得，同(1)；

(14)设已处理的数据流长度n为0，L为空集；

(15)从头扫描日志数据；

(16)当有新的事务到达时，执行

(17)过滤所有非1项频繁集P中的ID_i，并去重；

(18)如果(n-1)％n₀＝0，则按照如下方法进行非频繁项的剪枝：

(19)计算当前的误差ε_n，

ϵ_{n} = \sqrt{\frac{2 s \ln (\frac{2}{δ})}{n}};

(20)根据ε_n以及数据流长度n₀得到频繁阈值thr＝(s-ε_n)×n；

(21)剪去L中所有计数低于thr的非频繁项；

(22)将ID_i两两组合，得到2项(ID_i，ID_j)；

(23)如果(ID_i，ID_j)不在L中，则将(ID_i，ID_j)加入L，并置其计数为1，否则将其计数加1；

(24)n←n+1；

(25)根据

conf = \frac{f ({ID}_{i} \cap {ID}_{j})}{f ({ID}_{j}) + f ({ID}_{i}) - f ({ID}_{i} \cap {ID}_{j})}

计算L中每个频繁2项(ID_i，ID_j)的置信度，将置信度conf大于配置值_conf并且f(ID_i∩ID_j)大于或等于f2concur的频繁2项(ID_i，ID_j)输出到文件；其中f(ID_j)为ID_j的频度计数，f(ID_i∩ID_j)即挖掘出来的频繁2项(ID_i，ID_j)的频度计数。

3、挖掘结果输出

挖掘得到频繁2项集后，按照

conf = \frac{f ({ID}_{i} \cap {ID}_{j})}{f ({ID}_{j}) + f ({ID}_{i}) - f ({ID}_{i} \cap {ID}_{j})}

计算频繁2项(ID_i，ID_j)的置信度，将置信度大于最小置信度c的频繁2项按照如下格式输出：

ID1ID2sup_<ID1，ID2>f(ID1)f(ID2)f(ID1，ID2)conf_<ID1，ID2>

各字段意义如下：

ID1：检索词1对应的ID；

ID2：检索词2对应的ID；

f(ID1)：检索词1的计数；

f(ID2)：检索词2的计数；

sup_<ID1，ID2>：频繁2项<ID1，ID2>的支持度，即

其中total_trans为总事务数；

f(ID1，ID2)：频繁2项<ID1，ID2>的计数；

conf_<ID1，ID2>：频繁2项<ID1，ID2>的置信度；

示例数据如下所示：

399628 139600373 0.000000334％ 14778 6 6 0.000406009

393375 39606626 0.000000334％ 4444 51 6 0.001336601

3514376 16485625 0.000000111％ 1485 205 2 0.001184834

1075485 118924516 0.000000501％ 1601 13 9 0.005607477

2424506 17575495 0.000000223％ 2146 243 4 0.001677149

与编码类似，在挖掘频繁1项和频繁2项集时，受限于内存的大小，哈希表中无法容纳所有的频繁项集；因而采用折衷的方式，在哈希节点满时，将不再添加进新的节点，直到进行剪枝操作后。在内存为16G的机器上，哈希节点数设置为2100×256×1024，在内存为32G的机器上，哈希节点数设置为4100×256×1024。

经过apriori算法挖掘后，仅可以得到少量具有关联意义的检索词，大部分检索词并不具有关联检索词，因此存在很多的“ID空洞”，可以将这些不连续的ID重新进行ID编码，将不连续的ID调整成连续的ID。

另外，本实施例中，挖掘得到的检索词的关联关系是以ID的形式出现的，为了评估挖掘结果，需要将ID替换为实际的检索词。

步骤403，根据关联检索词生成倒排索引文件。

具体地，根据挖掘得到的检索词的关联关系，生成倒排索引文件。输入文件为挖掘得到的检索词的关联关系，输出文件分别为：

1、检索词索引词典文件；

2、检索词的关联关系的倒排数据文件；

3、ID到检索词的词典文件；

4、ID到检索词的数据文件。

步骤404，对倒排索引文件中的关联检索词进行核心分析，获得第一词典文件和第一数据文件。

本实施例中，在线下预先计算好一批热门检索词对应的核心成分，以供线上计算时直接使用，即获得第一词典文件和第一数据文件。热门检索词即为步骤402中挖掘关联检索词时得到的存在关联检索词的那些检索词的集合，为千万量级。

对热门检索词进行核心分析并建库的流程如下：

(1)从关联检索词挖掘结果文件中顺序读取一行，获得检索词；

(2)对检索词进行核心分析，得到检索词中各子成分的权重；

(3)将各子成分进行签名，并将权重写入第一数据文件query_core_data；

(4)对检索词进行签名，添加到第一词典文件query_core_dict，第一词典文件的cuintl表示核心个数，cuint2表示核心在数据文件的起始绝对偏移地址。

本实施例中，对一个检索词进行核心分析的流程如下：

(1)对检索词进行切词获得混排切词；

(2)对该检索词中被识别为地域名词的切词赋予固定权重(例如：0.1)，并从检索词中去除该被识别为地域名词的切词；

(3)获得去除地域名词后的检索词对应的关联检索词，如果关联检索词少于3，则对原检索词进行规约操作，扩大关联检索词，记为Qr；

(4)获得切词的基本词、词组的子词组，并对单字进行粘贴，计算标志(flag)，返回处理后的切词；其中，单字即为单个汉字或者单个ASCII符号；单字粘贴规则如下：a、不进行粘贴的单字包括：词性标注过滤掉的单字，例如：标点符号；切词重要性过滤掉的不重要的词，例如：重要性权重低于0.05的切词；b、粘接方式：按照切词在检索词中的顺序粘贴单字左右的切词(粒度为基本词、词组或子词组)，同时粘接后的字符串(string)必须出现在关联检索词中；

(5)对每个切词T_n，以query_sim的方式计算T_n与原检索词的相似度，作为T_n的权重；

(6)取权重最大的切词作为此检索词的核心成分，记为T_c；

(7)将混排切词结果分别与T_c进行粘贴得到粘贴后的切词T_p，同样以query_sim的方式计算得到T_p与原检索词的相似度，作为T_p的权重；

(8)修正各个权重，如果T_p的权重小于T_c的权重，则将T_p的权重修正为T_c的权重与delta之和，delta的值可以为0.0001。

query_sim是类似于word_sim计算两个文本的相似度的方法，不同之处在于query_sim使用的语料是关联检索词，而word_sim使用的是大搜索结果的摘要；即将word sim的大搜索结果摘要替换为文本的关联检索词即为query_sim的计算方式。

检索词的核心成分包括以下字段，如表1所示。

表1

字段	类型	取值	含义
				Sign1	U_int	\	切词(term)签名1
Sign2	U_int	\	切词签名2
				Rel	Float	0.0～1.0f	核心权重
flag	U_int	1～0x3fffffff	标志此切词由检索词的哪些基本词构成

其中flag采用一个U_int，标志此切词由原检索词的哪些基本词构成，例如：检索词切词后的基本词为A、B和C，切词AB的flag被标志为0x03(b011)；切词AC的flag被标志为0x05(b101)。考虑到U_int的位数限制，基本词最大限制为30个。

核心分析的输出文件为第一词典文件和第一数据文件：

第一词典文件：query_core_dict，保存热门检索词的核心偏移地址以及核心个数；其中cuint2保存核心成分在第一数据文件中的绝对偏移地址，cuint1为此检索词的核心成分个数；

第一数据文件：query_core_data，保存热门检索词的所有核心成分。

步骤405，对倒排索引文件中的检索词进行切词，并对该检索词包含的切词进行核心分析，获得第二词典文件和第二数据文件。

本实施例中，线上核心计算时，部分检索词将不能直接命中到热门检索词，需要实时计算检索词各切词的权重，此时需要切词对应的关联检索词及其核心成分数据参与计算。

每个切词对应的数据包括：1、关联检索词数据；2、关联检索词对应的经过去重排序的核心成分。

处理流程如下：

(1)读取检索词，进行切词，获得基本词、词组或子词组粒度的切词；

(2)切词不在第一词典文件中并且该切词存在关联检索词时，进行如下操作，否则处理下一切词；

(3)得到切词对应的关联检索词，以及该关联检索词的核心成分(可以通过查找第一词典文件获得)，将关联检索词的签名以及对应的核心权重一起写入第二数据文件，将各个关联检索词的核心成分去重排序(核心成分相同时，取权重大的核心成分；另外考虑到第二数据文件的大小，关联检索词的核心成分个数限制为200个)后，写入第二数据文件；将切词加入第二词典文件，返回执行(2)；

输出文件为第二词典文件和第二数据文件：

第二词典文件term_core_dict：保存切词对应的关联检索词以及对应的核心成分在第二数据文件中的偏移和个数，其中cuint2为绝对偏移地址，cuintl的高16位为切词对应的关联检索词的个数，低16位为切词对应的关联检索词的所有核心成分(经过了去重排序)；对一个切词而言，在偏移地址处先保存关联检索词，而后保存关联检索词对应的核心成分。

第二数据文件term_core_data：保存切词的关联检索词以及对应的核心成分。在第二词典文件指向的偏移地址处，首先保存的是关联检索词，而后是关联检索词对应的核心成分，关联检索词以及该关联检索词对应的核心成分使用相同的格式保存，如表2所示。

表2

字段	类型	取值	含义
				Sign1	U_int	\	关联检索词或核心签名1
Sign2	U_int	\	关联检索词或核心签名2
				Rel	Float	0.0～1.0f	关联检索词或核心权重

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图6为本发明检索词核心权重确定装置一个实施例的结构示意图，本实施例的检索词核心权重确定装置可以实现本发明图1所示实施例的流程。如图6所示，该检索词核心权重确定装置可以包括：查找模块61、第一输出模块62、第二输出模块63和计算模块64。

其中，查找模块61，用于在线下核心计算生成的第一词典文件中查找检索词；第一输出模块62，用于当查找模块61在第一词典文件中查找到上述检索词时，输出第一词典文件对应的第一数据文件中保存的与上述检索词对应的核心权重；第二输出模块63，用于当查找模块61在第一词典文件中未查找到上述检索词时，对该检索词进行处理，查找模块61在第一词典文件中查找到处理后的检索词之后，输出第一词典文件对应的第一数据文件中保存的与处理后的检索词对应的核心权重；计算模块64，用于当查找模块61在第一词典文件中未查找到处理后的检索词时，对处理后的检索词进行切词计算，获得处理后的检索词的核心权重。

上述实施例中，在线下核心计算生成的第一词典文件中，查找模块61未查找到检索词时，第二输出模块63对检索词进行处理，并在第一词典文件中查找处理后的检索词，查到后，输出处理后的检索词对应的核心权重；如果仍未查到，则计算模块64对处理后的检索词进行切词计算，获得处理后的检索词的核心权重。本实施例的检索词核心权重确定装置实现了提高核心权重的准确度，进而提高了核心分析的效果。

图7为本发明检索词核心权重确定装置另一个实施例的结构示意图，本实施例的检索词核心权重确定装置可以实现本发明图1或图2所示实施例的流程。如图7所示，该检索词核心权重确定装置可以包括：查找模块71、第一输出模块72、第二输出模块73、计算模块74和线下计算模块75。

其中，查找模块71，用于在线下核心计算生成的第一词典文件中查找检索词；第一输出模块72，用于当查找模块71在第一词典文件中查找到上述检索词时，输出第一词典文件对应的第一数据文件中保存的与上述检索词对应的核心权重；第二输出模块73，用于当查找模块71在第一词典文件中未查找到上述检索词时，对该检索词进行处理，查找模块71在第一词典文件中查找到处理后的检索词之后，输出第一词典文件对应的第一数据文件中保存的与处理后的检索词对应的核心权重；计算模块74，用于当查找模块71在第一词典文件中未查找到处理后的检索词时，对处理后的检索词进行切词计算，获得处理后的检索词的核心权重；具体地，计算模块74可以按照本发明图3所示实施例提供的方法进行切词计算。

具体地，第二输出模块73可以包括：去除子模块731、第一权重输出子模块732、规约子模块733和第二权重输出子模块734。其中，去除子模块731，用于去除检索词中的地域名词，获得第一检索词；第一权重输出子模块732，用于在查找模块71在第一词典文件中查找到第一检索词之后，输出第一词典文件对应的第一数据文件中保存的与第一检索词对应的核心权重；规约子模块733，用于当查找模块71在第一词典文件中未查找到第一检索词时，对第一检索词进行规约操作，获得第二检索词；第二权重输出子模块734，用于在查找模块71在第一词典文件中查找到第二检索词之后，输出第一词典文件对应的第一数据文件中保存的与第二检索词对应的核心权重。

计算模块74可以包括：切词子模块741、切词查找子模块742、选取子模块743、第一计算子模块744、排序子模块745、粘接子模块746、成分获得子模块747、第二计算子模块748和修正子模块749。其中，切词子模块741，用于对第二检索词进行切词，并获得第二检索词包含的各切词的重要性权重；切词查找子模块742，用于在线下核心计算生成的第二词典文件中查找上述切词，获得第二词典文件对应的第二数据文件中保存的上述切词对应的关联检索词和该关联检索词对应的核心成分；选取子模块743，用于以上述切词的重要性权重对上述切词对应的关联检索词进行加权，按照上述关联检索词的权重由大至小的顺序，选取预定数量的关联检索词和上述关联检索词对应的核心成分组成第一特征向量；第一计算子模块744，用于计算上述切词对应的关联检索词和上述关联检索词对应的核心成分组成的第二特征向量与第一特征向量的夹角的余弦值，该余弦值为上述切词的权重；排序子模块745，用于按照上述切词的权重由大到小的顺序对上述切词进行排序，选择权重最大的切词作为核心切词；粘接子模块746，用于将上述切词中除核心切词之外的其他切词与核心切词进行粘接，获得粘接切词；成分获得子模块747，用于根据上述切词中除核心切词之外的其他切词与核心切词对应的关联检索词，获得粘接切词对应的关联检索词和该粘接切词对应的关联检索词的核心成分，该粘接切词对应的关联检索词和该粘接切词对应的关联检索词的核心成分组成第三特征向量；第二计算子模块748，用于计算第三特征向量与第一特征向量的夹角的余弦值，作为粘接切词的权重；修正子模块749，用于对第二计算子模块748计算的粘接切词的权重进行修正，修正后的粘接切词的权重为第二检索词的核心权重。

本实施例中的检索词核心权重确定装置还可以包括：线下计算模块75，用于进行线下核心计算，生成第一词典文件、第一数据文件、第二词典文件和第二数据文件；具体地，线下计算模块75可以按照本发明图4所示实施例提供的方法进行线下核心计算。

其中，线下计算模块75可以包括：汇总子模块751、编码子模块752、挖掘子模块753、生成子模块754、第一获得子模块755和第二获得子模块756。其中，汇总子模块751，用于将预定时间内的检索日志汇总为日志文件；编码子模块752，用于对日志文件中的检索词进行编码；挖掘子模块753，用于对编码子模块752编码后的检索词进行关联挖掘，获得关联检索词；生成子模块754，用于根据挖掘子模块753获得的关联检索词生成倒排索引文件；第一获得子模块755，用于对生成子模块754生成的倒排索引文件中的关联检索词进行核心分析，获得第一词典文件和第一数据文件；第二获得子模块756，用于对生成子模块754生成的倒排索引文件中的检索词进行切词，并对该检索词包含的切词进行核心分析，获得第二词典文件和第二数据文件。

上述实施例中，查找模块71在线下核心计算生成的第一词典文件中未查找到检索词时，第二输出模块73对检索词进行去除地域名词和规约操作，并由查找模块71在第一词典文件中查找处理后的检索词，查到后，输出处理后的检索词对应的核心权重；如果仍未查到，则计算模块74对处理后的检索词进行切词计算，获得处理后的检索词的核心权重。本实施例实现了提高核心权重的准确度，进而提高了核心分析的效果。经实验验证，利用本实施例提供的方法，获得核心权重的准确率可以达到92.22％。

本领域技术人员可以理解附图只是一个优选实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种检索词核心权重确定方法，其特征在于，包括：

在线下核心计算生成的第一词典文件中查找检索词；

2.根据权利要求1所述的方法，其特征在于，所述对所述检索词进行处理，并在所述第一词典文件中查找处理后的检索词，如果查找到所述处理后的检索词，则输出所述第一词典文件对应的第一数据文件中保存的与所述处理后的检索词对应的核心权重包括：

去除所述检索词中的地域名词，获得第一检索词；

在所述第一词典文件中查找所述第一检索词，如果查找到，则输出所述第一词典文件对应的第一数据文件中保存的与所述第一检索词对应的核心权重；

如果在所述第一词典文件中未查找到所述第一检索词，则对所述第一检索词进行规约操作，获得第二检索词，并在所述第一词典文件中查找所述第二检索词，如果查找到，则输出所述第一词典文件对应的第一数据文件中保存的与所述第二检索词对应的核心权重。

3.根据权利要求2所述的方法，其特征在于，所述对所述处理后的检索词进行切词计算，获得所述处理后的检索词的核心权重包括：

对所述第二检索词进行切词，并获得所述第二检索词包含的各切词的重要性权重；

在线下核心计算生成的第二词典文件中查找所述切词，获得所述第二词典文件对应的第二数据文件中保存的所述切词对应的关联检索词和所述关联检索词对应的核心成分；

以所述切词的重要性权重对所述切词对应的关联检索词进行加权，按照所述关联检索词的权重由大至小的顺序，选取预定数量的关联检索词和所述关联检索词对应的核心成分组成第一特征向量；

计算所述切词对应的关联检索词和所述关联检索词对应的核心成分组成的第二特征向量与所述第一特征向量的夹角的余弦值，所述余弦值为所述切词的权重；

按照所述切词的权重由大到小的顺序对所述切词进行排序，选择权重最大的切词作为核心切词；

将所述切词中除所述核心切词之外的其他切词与所述核心切词进行粘接，获得粘接切词，并根据所述切词中除所述核心切词之外的其他切词与所述核心切词对应的关联检索词，获得所述粘接切词对应的关联检索词和所述粘接切词对应的关联检索词的核心成分，所述粘接切词对应的关联检索词和所述粘接切词对应的关联检索词的核心成分组成第三特征向量；

计算所述第三特征向量与所述第一特征向量的夹角的余弦值，作为所述粘接切词的权重，并对所述粘接切词的权重进行修正，修正后的粘接切词的权重为所述第二检索词的核心权重。

4.根据权利要求3所述的方法，其特征在于，还包括：进行线下核心计算，生成所述第一词典文件、所述第一数据文件、所述第二词典文件和所述第二数据文件。

5.根据权利要求4所述的方法，其特征在于，所述进行线下核心计算，生成所述第一词典文件、所述第一数据文件、所述第二词典文件和所述第二数据文件包括：

将预定时间内的检索日志汇总为日志文件；

对所述日志文件中的检索词进行编码，并对编码后的检索词进行关联挖掘，获得关联检索词；

根据所述关联检索词生成倒排索引文件；

对所述倒排索引文件中的关联检索词进行核心分析，获得所述第一词典文件和所述第一数据文件；

对所述倒排索引文件中的检索词进行切词，并对所述检索词包含的切词进行核心分析，获得所述第二词典文件和所述第二数据文件。

6.一种检索词核心权重确定装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述第二输出模块包括：

去除子模块，用于去除所述检索词中的地域名词，获得第一检索词；

第一权重输出子模块，用于在所述查找模块在所述第一词典文件中查找到所述第一检索词之后，输出所述第一词典文件对应的第一数据文件中保存的与所述第一检索词对应的核心权重；

规约子模块，用于当所述查找模块在所述第一词典文件中未查找到所述第一检索词时，对所述第一检索词进行规约操作，获得第二检索词；

第二权重输出子模块，用于在所述查找模块在所述第一词典文件中查找到所述第二检索词之后，输出所述第一词典文件对应的第一数据文件中保存的与所述第二检索词对应的核心权重。

8.根据权利要求7所述的装置，其特征在于，所述计算模块包括：

切词子模块，用于对所述第二检索词进行切词，并获得所述第二检索词包含的各切词的重要性权重；

切词查找子模块，用于在线下核心计算生成的第二词典文件中查找所述切词，获得所述第二词典文件对应的第二数据文件中保存的所述切词对应的关联检索词和所述关联检索词对应的核心成分；

选取子模块，用于以所述切词的重要性权重对所述切词对应的关联检索词进行加权，按照所述关联检索词的权重由大至小的顺序，选取预定数量的关联检索词和所述关联检索词对应的核心成分组成第一特征向量；

第一计算子模块，用于计算所述切词对应的关联检索词和所述关联检索词对应的核心成分组成的第二特征向量与所述第一特征向量的夹角的余弦值，所述余弦值为所述切词的权重；

排序子模块，用于按照所述切词的权重由大到小的顺序对所述切词进行排序，选择权重最大的切词作为核心切词；

粘接子模块，用于将所述切词中除所述核心切词之外的其他切词与所述核心切词进行粘接，获得粘接切词；

成分获得子模块，用于根据所述切词中除所述核心切词之外的其他切词与所述核心切词对应的关联检索词，获得所述粘接切词对应的关联检索词和所述粘接切词对应的关联检索词的核心成分，所述粘接切词对应的关联检索词和所述粘接切词对应的关联检索词的核心成分组成第三特征向量；

第二计算子模块，用于计算所述第三特征向量与所述第一特征向量的夹角的余弦值，作为所述粘接切词的权重；

修正子模块，用于对所述第二计算子模块计算的粘接切词的权重进行修正，修正后的粘接切词的权重为所述第二检索词的核心权重。

9.根据权利要求8所述的装置，其特征在于，还包括：

线下计算模块，用于进行线下核心计算，生成所述第一词典文件、所述第一数据文件、所述第二词典文件和所述第二数据文件。

10.根据权利要求9所述的装置，其特征在于，所述线下计算模块包括：

汇总子模块，用于将预定时间内的检索日志汇总为日志文件；

编码子模块，用于对所述日志文件中的检索词进行编码；

挖掘子模块，用于对所述编码子模块编码后的检索词进行关联挖掘，获得关联检索词；

生成子模块，用于根据所述挖掘子模块获得的关联检索词生成倒排索引文件；

第一获得子模块，用于对所述生成子模块生成的倒排索引文件中的关联检索词进行核心分析，获得所述第一词典文件和所述第一数据文件；

第二获得子模块，用于对所述生成子模块生成的倒排索引文件中的检索词进行切词，并对所述检索词包含的切词进行核心分析，获得所述第二词典文件和所述第二数据文件。