CN102722553B

CN102722553B - 基于用户日志分析的分布式倒排索引组织方法

Info

Publication number: CN102722553B
Application number: CN201210169721.6A
Authority: CN
Inventors: 陈岭; 李卓豪
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2012-05-24
Filing date: 2012-05-24
Publication date: 2014-04-02
Anticipated expiration: 2032-05-24
Also published as: CN102722553A

Abstract

本发明公开了一种基于用户日志分析的分布式倒排索引组织方法，其实施步骤如下：1）分析用户查询日志并提取出高频词和非高频词，建立高频词的相关性矩阵，并根据高频词之间的相关性建立高频词关系图；2）计算每个高频词的负载，根据高频词关系图和高频词的负载对高频词进行聚类；3）将各个聚类分配到节点之上并建立高频词索引，将非高频词哈希到各个节点之上，并建立非高频词索引；4）根据所述高频词索引和非高频词索引建立全局的索引表，并根据该索引表进行查询路由。本发明具有查询开销小、查询效率高、查询性能好、能实现整个系统吞吐量和每次查询响应速度间的平衡、多词查询涉及的节点数少的优点。

Description

基于用户日志分析的分布式倒排索引组织方法

技术领域

本发明涉及计算机信息检索技术领域,具体涉及一种基于用户日志分析的分布式倒排索引组织方法。

背景技术

随着互联网技术的不断发展，当今社会每天都会产生大量的信息，这些信息往往会以网页、图片、视频、音频等非结构化数据的形式展现。面对如此浩如烟海的数据量，人们要想从中获得符合自己需求的信息，如大海捞针般困难。因此，在这个海量信息的时代，要想快速、效地获得有用信息，必须借助各式各样的信息检索系统（Information Retrieval System，IRS）。IRS的主要目的是为人们提供有效的信息服务，是根据特定信息需求建立起来的，实现了信息搜索、加工、存储和检索等功能的程序化系统。从广义上来讲，任何具有了信息存储和检索功能的系统，都可以称之为IRS系统。

IRS系统的种类繁多，如数字图书馆、搜索引擎等，但此类系统都有针对信息数据的索引。随着信息数据量的不断增加，索引也必然会不断膨胀，最终导致存储和检索效率变得十分低下。为了解决这个问题，一般采用分布式索引，将原来存储在单台机器上的庞大的索引切割成大小合适的索引碎片，并将这些索引碎片分布到不同的机器上，形成索引集群，从而把原先对巨大单一索引的访问转换为对索引集群的查询，索引集群则通过合适的索引分割方式、查询路由策略以及最终的结果合并实现快速而有效的查询。由此可以看出，分布式索引系统已经成为IRS系统乃至信息领域里一个至关重要的组成部分，要实现海量数据的有效管理，就必须先实现高性能的分布式索引系统。

在倒排索引的分布式处理过程中，最重要的问题之一就是索引的分割切片。目前最主要有三种方式：“全局分割”、“局部分割”和“混合分割”。

“全局分割”也叫基于“文档”的分割，每块索引碎片所包含的信息都具有全局意义。基于“文档”的划分策略虽然使整个索引结构易于维护，节点之间的负载更加均衡、但是每次查询所有节点都要参与，系统资源浪费严重。

而在“局部分割”中，又叫基于“词”的分割，每块索引碎片所包含信息只具有局部的意义，即只针对某个子数据集的索引。基于“词”的划分策略能有效减少每次参与查询的节点数，增大整个系统的吞吐，但由于“词”之间被查询频率存在很大差别，容易造成节点间的负载不均。

这两种分割方式在不同的应用坏境和查询条件下各有优劣，出于各取其优的考虑，出现了“混合分割”的分片组织方式，“混合分割”的基本思想是部分“全局”部分“局部”，而不同方法的区别在于如何划分“全局”与“局部”，以及这两部分如何交互。现有“混合分割”方法一般设计简单，没有考虑“词”之间被查询频率的差别，总体效果并不理想。

在实现分布式索引系统的基础上，需要利用查询路由来从分布式索引系统中获取查询结果。的查询路由是建立在“索引分割”基础之上的查询节点选择，其一方面利用索引分片信息选择合适的索引集群节点进行查询，另一方面在保证结果集准确率的前提下，尽可能减少参与查询的节点，同时为集群的负载均衡、索引分片副本调整等方法提供依据。

发明内容

本发明要解决的技术问题是提供一种查询开销小、查询效率高、查询性能好、能实现整个系统吞吐量和每次查询响应速度间的平衡、多词查询涉及的节点数少的基于用户日志分析的分布式倒排索引组织方法。

为解决上述技术问题，本发明采用的技术方案为：

一种基于用户日志分析的分布式倒排索引组织方法，其实施步骤如下：

1）分析用户查询日志并提取出高频词和非高频词，建立高频词的相关性矩阵，并根据高频词之间的相关性建立高频词关系图；

2）计算每个高频词的负载，根据高频词关系图和高频词的负载对高频词进行聚类；

3）将各个聚类分配到节点之上并建立高频词索引，将非高频词哈希到各个节点之上，并建立非高频词索引；

4）根据所述高频词索引和非高频词索引建立全局的索引表，并根据该索引表进行查询路由。

作为本发明上述技术方案的进一步改进：

所述步骤1）的详细步骤为：

1.1）解析用户查询日志，将用户查询日志进行分词得到查询词典，统计每个词的出现频率并将查询词典按照出现频率降序或者升序排列，从查询词典的高出现频率端截取指定数量的词作为高频词，剩余的词则为非高频词；

1.2）将截取的高频词建立高频词典，将高频词典中的高频词从1到N统一编号建立N×N的高频词的相关性矩阵；

1.3）将所述高频词的相关性矩阵转换为无向图得到高频词关系图。

所述步骤2）的详细步骤包括：

2.1）计算每个高频词的负载，将节点按照负载降序排列得到节点集合，计算节点集合中任意两个节点之间的节点距离；

2.2）定义每个聚类的负载上限、聚类个数以及聚类中心之间的最短距离和中心节点集合，从所述节点集合中取出一个节点作为当前节点，然后跳转执行步骤2.3）；

2.3）将当前节点与中心节点集合中的中心节点进行比较，如果中心节点集合中找到某个节点与当前节点之间的节点距离小于所述聚类中心之间的最短距离，则将所述中心节点集合中找到的节点和当前节点合并作为中心节点集合中的一个新的中心节点，否则将当前节点作为中心节点集合中的一个新的中心节点；最终执行下一步；

2.4）判断中心节点集合的大小是否达到聚类个数，如果仍未达到聚类个数则从所述节点集合中取出下一个节点作为当前节点并返回继续执行步骤2.3）；如果已经达到聚类个数则执行步骤2.5）；

2.5）根据中心节点集合中的中心节点生成聚类得到聚类集合，计算中心节点集合中每一个中心节点到其他非中心节点的最短距离，并降序排列得到最短距离集合；

2.6）针对聚类集合的每一个聚类，查找所述聚类对应最短距离集合中的下一个节点作为目标节点；计算所述目标节点的负载并判断负载是否超过所述负载上限，如果超过负载上限则忽略该目标节点；判断包含所述目标节点的聚类数是否超过聚类个数，如果超过就忽略所述目标节点；判断所述目标节点是否已经加入其他聚类且所述目标节点在最短距离集合中的上一个节点也属于所述其他聚类中，如果符合条件则在所述目标节点和所述目标节点在最短距离集合中的上一个节点中选择更接近当前聚类和其他聚类中点的节点作为边境节点，所述边境节点同时属于当前聚类和其他聚类两个聚类；如果不符合条件，则直接将目标节点直接加入当前聚类；最终将所有节点归类后完成聚类并返回聚类结果。

所述步骤3）的详细步骤包括：

3.1）计算每个聚类的负载，将聚类按照负载降序排列得到聚类集合；

3.2）建立系统性能的目标函数，从所述聚类集合中选择一个聚类作为当前聚类；

3.3）往所述当前聚类中尝试添加节点并计算所述目标函数值，然后将当前聚类加入目标函数值最小的节点上并建立索引，然后执行步骤3.4）；

3.4）判断聚类集合中是否还有聚类未处理，如果仍有聚类未处理则取出下一个未处理的聚类作为当前聚类并返回执行步骤3.3）；如果所有聚类处理完成则高频词索引建立完毕；

3.5）将非高频词哈希到各个节点之上建立非高频词索引。

所述步骤3.2）中建立的目标函数的函数表达式如式（1）所示：

Ω_{λ} (S) = a . \frac{\overset{&OverBar;}{W} λ (S)}{P} + b . \frac{\hat{L} λ (S)}{C_{L}} + (1 - a - b) \frac{\overset{&OverBar;}{L} λ (S)}{\hat{L} λ (S)} - - - (1)

式（1）中，Ω_λ(S)为目标函数，a为响应速度权重参数，b为吞吐量权重参数，P为集群节点数，C_L是集群的负载总和，

表示查询流S处理一个查询平均涉及的节点数，

集群中最高的节点负载、

集群中的节点平均负载。

所述步骤5）中根据索引表进行查询路由的详细步骤如下：

5.1）初始化查询节点链表；判断用户查询中是否存在高频词，如果存在高频词则跳转执行步骤5.2），否则将用户查询发给所有节点进行查询并退出；

5.2）将剩下的高频词组成子查询并对高频词索引进行查询，如果有符合要求的聚类结果，选出得分最高的聚类并根据查找到对应的节点添加至查询节点链表；

5.3）判断查找到的节点是否包含用户查询中剩余的全部高频词，如果不能包含用户查询中剩余的全部高频词则继续返回执行步骤5.2），否则跳转执行步骤5.4）；

5.4）判断用户查询中是否存在非关键词，如果不存在非关键词则将通过所述查询节点链表中的节点进行查询；如果存在非关键词则将从其他节点上得到非高频词的倒排链表，并将所述倒排链表通过所述查询节点链表中的节点进行查询。

本发明具有下述优点：

1、本发明基于用户查询日志进行节点索引以及查询路由，能使索引的组织分片更好的适应用户的查询需求，避免不必要的计算开销。

2、本发明中的聚类仅针对查询日志中的高频词，可大幅减少聚类的时间消耗，聚类的负载大小可控，聚类之间可以有交集，这些交集起到了副本的作用，可进一步提高查询的性能。

3、本发明聚类分配的目标函数考虑了影响索引性能的各个因素，能实现整个系统吞吐量和每次查询响应速度间的平衡，在保证集群整体负载均衡的前提下，减少了多词查询涉及的节点数。

附图说明

图1为本发明实施例的总体系统架构示意图。

图2为本发明实施例中分析用户查询日志的流程示意图。

图3为本发明实施例中聚类算法的详细流程示意图。

图4为本发明实施例中聚类结果示意图。

图5为本发明实施例中聚类分配的流程示意图。

图6为本发明实施例中查询路由的流程示意图。

具体实施方式

如图1所示，本实施例的总体系统架构由索引建立以及查询路由两部分组成，查询日志处理模块：负责分析查询日志、提出高频词、并根据既定的参数进行聚类，然后依据目标函数将聚类分配到索引集群中的各个节点，由各个节点建立索引；查询处理模块：负责接收查询前端请求，更新查询日志，并根据全局索引以及各节点当前的负载情况挑选合适的节点进行查询。本实施例基于用户日志分析的分布式倒排索引组织方法的实施步骤如下：

4）根据高频词索引和非高频词索引建立全局的索引表，并根据该索引表进行查询路由。

步骤1）的详细步骤为：

1.3）将高频词的相关性矩阵转换为无向图得到高频词关系图。

如图2所示，本实施例中对用户查询日志的分析处理步骤如下：首先解析“查询日志”，将日志中的“查询”进行分词，得到查询词典T^S并统计每个词的频率frq，对T^S中的词按频率降序排列，取前M%作为高频词典T^f，并统一编号1到N，得到一个N×N的矩阵C。矩阵元素C_ij表示编号为i与j的“词”一起出现的频率，C中对角线元素的值为每个“词”单独出现的频率，即最后将将矩阵C转换成T^S无向关系图(V,E)，其中V_i表示编号为i的词，E_ij值为C_ij，并开始聚类。

步骤2）的详细步骤包括：

2.2）定义每个聚类的负载上限、聚类个数以及聚类中心之间的最短距离和中心节点集合，从节点集合中取出一个节点作为当前节点，然后跳转执行步骤2.3）；

2.3）将当前节点与中心节点集合中的中心节点进行比较，如果中心节点集合中找到某个节点与当前节点之间的节点距离小于聚类中心之间的最短距离，则将中心节点集合中找到的节点和当前节点合并作为中心节点集合中的一个新的中心节点，否则将当前节点作为中心节点集合中的一个新的中心节点；最终执行下一步；

2.4）判断中心节点集合的大小是否达到聚类个数，如果仍未达到聚类个数则从节点集合中取出下一个节点作为当前节点并返回继续执行步骤2.3）；如果已经达到聚类个数则执行步骤2.5）；

2.6）针对聚类集合的每一个聚类，查找聚类对应最短距离集合中的下一个节点作为目标节点；计算目标节点的负载并判断负载是否超过负载上限，如果超过负载上限则忽略该目标节点；判断包含目标节点的聚类数是否超过聚类个数，如果超过就忽略目标节点；判断目标节点是否已经加入其他聚类且目标节点在最短距离集合中的上一个节点也属于其他聚类中，如果符合条件则在目标节点和目标节点在最短距离集合中的上一个节点中选择更接近当前聚类和其他聚类中点的节点作为边境节点，边境节点同时属于当前聚类和其他聚类两个聚类；如果不符合条件，则直接将目标节点直接加入当前聚类；最终将所有节点归类后完成聚类并返回聚类结果。

步骤2.1）计算节点距离的距离函数可以根据需要定义，但是距离函数需要满足三角不等式，本实施例中的距离函数由频率和步长两部分组成，由于距离函数为本领域的常规技术，因此在此不再赘述。

如图3所示，本实施例中步骤2）中进行聚类算法的伪代码描述如下：

上述伪代码的步骤描述如下：

A1）统计每个节点的负载将节点按照负载降序排列，给出距离函数sum，sum(i,j)是V_i和V_j间的距离（距离函数可自定义，距离函数必须满足三角不等式）；

A2）挑选聚类的中心点，在挑选之前，先定义每个聚类的负载上限load_up、聚类个数m、以及“中心”之间的最短距离R_c，中心点集合为Center。依次从第1步中得出的节点集合中取出节点v_i；

A3）判断是否存在某个“中心”center_i和节点v_i的距离是否小于R_c即sum(center_i,v_i)≤R_c；

A4）如果存在这样的“中心”center_i那么将v_i与center_i合并为新的“中心”；

A5）如果不存在这样的“中心”，那么v_i作为一个新的“中心”加入到Center中；

A6）判断Center大小是否达到m，如果未达到m，继续执行步骤A2）；

A7）如果达到m，进行聚类，首先根据“中心”生成聚类，聚类集合为Cl，并计算每个“中心”到其他节点的最短距离，结果按升序保存在dist中；

A8）对于每个聚类CL_i，取出其dist中的下一个点dist_next，计算CL_i+dist_next的负载CL_load；

A9）判断CL_load是否超过load_up，如果CL_load超过load_up，忽略该节点；

A10）判断包含dist_next的聚类数是否超过了m_node，如果超过就忽略该节点；

A11）判断dist_next是否是已经加入其它聚类CL_o且dist_next在CL_i中的前项节点dist_pre也属于CL_o若是，执行下一步，否则执行13;

A12）选择dist_next和dist_pre中个更加接近CL_i和CL_o中点的节点作为边境节点，边境节点同时属于两个聚类；

A13）其它情况dist_next直接加入CL_i；

A14）将所有节点归类后，聚类完成，返回聚类结果。

上述步骤A1）～A14）中，load_up，m，R_c是聚类参数。load_up为聚类负载上限、m为节点所属聚类数上限、以及“中心”之间的最短距离R_c。图4为聚类结果示例，其每个聚类的“中心”为查询负载最高的“词”，聚类由“中心”向外辐射，聚类和聚类之间存在“边界词”，这些“边界词”将整个“词图”划分成独立的连通分量，这些连通分量是对“高频词”的划分，是将“词”在索引集群节点中进行分配的基础，最终得到的聚类结果示例如图4所示，其中黑色圆圈为聚类中心节点，白色圆圈为普通聚类节点，斜线填充的圆圈为边境节点。

如图5所示，步骤3）的详细步骤包括：

3.2）建立系统性能的目标函数，从聚类集合CL中选择一个聚类作为当前聚类CLi；

3.3）将CLi加入每个节点并计算目标函数值，然后将当前聚类加入目标函数值最小的节点上并建立索引，然后执行步骤3.4）；

3.5）将非高频词哈希到各个节点之上建立非高频词索引，将每个聚类都处理完成后，分配完成。

本实施例中，步骤3）的聚类分配算法伪代码描述如下：

本实施例中，步骤3.2）中建立的目标函数的函数表达式如式（1）所示：

Ω_{λ} (S) = a . \frac{\overset{&OverBar;}{W} λ (S)}{P} + b . \frac{\hat{L} λ (S)}{C_{L}} + (1 - a - b) \frac{\overset{&OverBar;}{L} λ (S)}{\hat{L} λ (S)} - - - (1)

式（1）中，Ω_λ(S)为目标函数，a为响应速度权重参数，b为吞吐量权重参数，P为集群节点数，C_L是集群的负载总和，表示查询流S处理一个查询平均涉及的节点数，

集群中最高的节点负载、

集群中的节点平均负载。

本实施例中，节点的性能模型的函数表达式如下：

\overset{&OverBar;}{W} λ (Q) = Σ_{Q &Element; S} \frac{Wλ (Q)}{| S |} - - - (2)

T_{λ}^{j} (Q) = T_{overhead} + \underset{t &Element; Q_{λ}^{j}}{Σ} (T_{disk} (| l_{t} |) + T_{compute} (| l_{t} |)) - - - (3)

Wλ(Q)表示处理一个查询涉及到的节点数，

表示查询流S处理一个查询平均涉及的节点数。T_disk(|l_t|)表示节点从磁盘上读取“倒排链表”的时间，T_compute(|l_t|)表示进行结果计算所消耗的时间，处理单个查询Q在节点j上的消耗为

为一段查询流S给节点带来的负载，

集群中最高的节点负载，则是平均负载。公式(4)中的参数a，b，0≤a，0≤b，0≤(a+b)≤1表示评估系统性能的侧重点，分别是响应速度和吞吐量的权重参数，可根据实际情况进行调整。P为集群节点数，C_L是集群的负载总和，C_a是归一化常数。

如图6所示，步骤5)中根据索引表进行查询路由的详细步骤如下：

5.1)初始化查询节点链表；判断用户查询中是否存在高频词，如果存在高频词则跳转执行步骤5.2)，否则将用户查询发给所有节点进行查询并退出；

5.2)将剩下的高频词组成子查询并对高频词索引进行查询，如果有符合要求的聚类结果，选出得分最高的聚类并根据查找到对应的节点添加至查询节点链表；

5.3)判断查找到的节点是否包含用户查询中剩余的全部高频词，如果不能包含用户查询中剩余的全部高频词则继续返回执行步骤5.2)，否则跳转执行步骤5.4)；

5.4)判断用户查询中是否存在非关键词，如果不存在非关键词则将通过查询节点链表中的节点进行查询；如果存在非关键词则将从其他节点上得到非高频词的倒排链表，并将倒排链表通过查询节点链表中的节点进行查询。

对于索引中的“全局”部分T^f，是在聚类基础之上进行划分的。可将每个聚类看成一个文件，分配统一的id，聚类id集合为CID，建立倒排索引表I^CL。聚类分配后，节点持有各自的高频词集合

，把每个

看成一个文件，分别建立倒排索引表I^T，同时记录每个节点上包含聚类的正向信息。查询到来时，路由策略如下：B1)将query进行分词，跟据T^f找出分词中的高频词T^Qf和非高频词T^nf，初始化查询节点链表list_search。B2)判断query是否存在高频词。B3)如query不存在高频词，那么将query分发给所有的节点。B4)如果存在，则将T^Qf组成一个新的查询sub-query，对I^CL进行查询，如果有符合要求的聚类结果，选出得分最高的聚类并根据其id找到对应的索引节点node_f，加入list_search。B5)判断node_f，是否包含所有的T^Qf。B6)如果不完全包含，则将剩下的T^Qf继续进行此步骤。B7)判断query是否都是由高频词组成。B8)如果query都是由高频词组成的，那么在list_search中的节点上进行查询。B9）如果query存在非高频词，那么从其他节点上取出T^nf的“倒排链表”，交给list_search中的节点进行查询。

以上所述仅为本发明的优选实施方式，本发明的保护范围并不仅限于上述实施方式，凡是属于本发明原理的技术方案均属于本发明的保护范围。对于本领域的技术人员而言，在不脱离本发明的原理的前提下进行的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于用户日志分析的分布式倒排索引组织方法，其特征在于其实施步骤如下：

1）分析用户查询日志并提取出高频词和非高频词，建立高频词的相关性矩阵，并根据高频词之间的相关性建立高频词关系图：

1.3）将所述高频词的相关性矩阵转换为无向图得到高频词关系图；2）计算每个高频词的负载，根据高频词关系图和高频词的负载对高频词进行聚类：

2.6）针对聚类集合的每一个聚类，查找所述聚类对应最短距离集合中的下一个节点作为目标节点；计算所述目标节点的负载并判断负载是否超过所述负载上限，如果超过负载上限则忽略该目标节点；判断包含所述目标节点的聚类数是否超过聚类个数，如果超过就忽略所述目标节点；判断所述目标节点是否已经加入其他聚类且所述目标节点在最短距离集合中的上一个节点也属于所述其他聚类中，如果符合条件则在所述目标节点和所述目标节点在最短距离集合中的上一个节点中选择更接近当前聚类和其他聚类中点的节点作为边境节点，所述边境节点同时属于当前聚类和其他聚类两个聚类；如果不符合条件，则直接将目标节点直接加入当前聚类；最终将所有节点归类后完成聚类并返回聚类结果；

3）将各个聚类分配到节点之上并建立高频词索引，将非高频词哈希到各个节点之上，并建立非高频词索引：

3.2）建立系统性能目标函数，从所述聚类集合中选择一个聚类作为当前聚类；

3.5）将非高频词哈希到各个节点之上建立非高频词索引；4）根据所述高频词索引和非高频词索引建立全局的索引表，并根据该索引表进行查询路由。

2.根据权利要求1所述的基于用户日志分析的分布式倒排索引组织方法，其特征在于，所述步骤3.2）中建立的目标函数的函数表达式如式（1）所示：

Ω_{λ} (S) = a . \frac{\overset{&OverBar;}{W} λ (S)}{P} + b . \frac{\hat{L} λ (S)}{C_{L}} + (1 - a - b) \frac{\overset{&OverBar;}{L} λ (S)}{\hat{L} λ (S)} - - - (1)

集群中最高的节点负载、

集群中的节点平均负载。

3.根据权利要求1或2所述的基于用户日志分析的分布式倒排索引组织方法，其特征在于，所述步骤4）中根据索引表进行查询路由的详细步骤如下：

4.1）初始化查询节点链表；判断用户查询中是否存在高频词，如果存在高频词则跳转执行步骤4.2），否则将用户查询发给所有节点进行查询并退出；

4.2）将剩下的高频词组成子查询并对高频词索引进行查询，如果有符合要求的聚类结果，选出得分最高的聚类并根据查找到对应的节点添加至查询节点链表；

4.3）判断查找到的节点是否包含用户查询中剩余的全部高频词，如果不能包含用户查询中剩余的全部高频词则继续返回执行步骤4.2），否则跳转执行步骤4.4）；

4.4）判断用户查询中是否存在非关键词，如果不存在非关键词则将通过所述查询节点链表中的节点进行查询；如果存在非关键词则将从其他节点上得到非高频词的倒排链表，并将所述倒排链表通过所述查询节点链表中的节点进行查询。