CN103455619A

CN103455619A - 一种基于Lucene分片结构的打分处理方法及系统

Info

Publication number: CN103455619A
Application number: CN2013104132715A
Authority: CN
Inventors: 陈建国; 梁峰; 姜平
Original assignee: Focus Technology Co Ltd
Current assignee: Focus Technology Co Ltd
Priority date: 2013-09-12
Filing date: 2013-09-12
Publication date: 2013-12-18
Anticipated expiration: 2033-09-12
Also published as: CN103455619B

Abstract

本发明公开了一种基于Lucene分片结构的打分处理方法及系统，包括对索引文件进行数据拆分，形成索引文件分片数据，然后分到各个分片处理器上，完成初始化工作；搜索处理器接收用户输入的查询信息，对查询信息进行分词处理，形成搜索词项；依次按照搜索词项，在全局信息缓冲器中进行查找，是否存在本搜索词项的相关信息；如果不存在，直接把这个搜索词项发送到各个分片处理器进行处理；如果存在，则搜索处理器先从全局信息缓冲器中获取该搜索词项的全局信息，然后再发给各个分片处理器进行处理。本发明通过多次请求处理全局信息，使各个分片共享全局信息，解决了同一个词项在不同分片中计算的得分不一致的问题，使搜索结果的排序更合理。

Description

一种基于Lucene分片结构的打分处理方法及系统

技术领域

本发明属于海量数据处理技术领域，具体涉及一种基于Lucene分片结构的打分处理方法及系统。

背景技术

随着互联网的迅猛发展，互联网信息飞速增长，人们在日常工作和生活中已经越来越依赖网络来获取信息，那么如何快速找到所需要的信息对于人们的重要性是不言而喻的。传统的关系型数据库检索方式已经无法支撑目前互联网如此大的数据量的检索，因此全文搜索作为一种大数据量的查询方式应运而生，而这其中又以Lucene为代表的全文搜索工具以其高效率，高准确率，高扩展的优点越来越多的被互联网企业使用。

但是因为Lucene的简单易用的特点决定了其在处理更大数据的时候有一定的弊端，Lucene底层还是属于单机的搜索工具，对于能处理的单个搜索的大小，有一定的限制，因此在解决大数据量的全文搜索，就成了一个亟待解决的问题。特别是随着互联网数据量的海量规模，分布式的搜索显得尤为必要。

在分布式搜索方法方面，专利“一种基于Lucene的分布式搜索方法”（申请号：201110122631.7）提出的方法主要为：包括索引步骤和搜索步骤；所述的索引步骤为通过至少一台建立索引的索引主机，与至少两台从属服务器通过分布式文件系统的方式结合；所述搜索流程，由至少一台搜索主机和至少两台从属服务器组成搜索引擎。本专利提出的方法有效解决单机搜索性能差的问题，通过多个服务器的合作，能有效进行扩展，并且在索引数量增大时，索引维护不会由于消耗服务器性能而影响搜索的性能效果。

但此专利没有指出通过这种搜索方法，搜索结果是如何进行合理的排序方法。因为对于搜索的效果来说，搜索结果的排序对于用户搜索来说是非常重要的。

Lucene中搜索结果的排序时需要对搜索结果进行打分处理，Lucene经典的打分策略打分公式如下所示：

score (q, d) = coord (q, d) \times queryNorm (q) \times \underset{tinq}{Σ} (tf (tind) \times idf {(t)}^{2} \times t . getBoost () \times norm (t, d))

tf(t in d)：项频率因子，文档d中出现项t的频率，又称之为文档频率；

idf(t)：项在倒排文档中出现的频率，我们称之为反文档频率；

get Boost：加权项，可以对文档和域分别进行加权，对于该加权信息，可以由用户自己根据数据的实际情况进行定义；

norm：域的归一化因子，用来表明域中包含的项数量，越短的域在包含相同项数量的同时具有更高的权重；

coord：协调因子，基于文档中包含查询项的个数，对文档中包含更多搜索项的文档进行and加权操作；

query Norm：每个查询项的归一化值，每个查询项的权重平方和。

对于上述的Lucene的打分公式，其中idf(t)的定义为：

idf (t) = 1.0 + \log \frac{numDocs}{(docFreq + 1)}

其中doc Freq和num Docs，这两者分别表示该t的命中文档数目和总文档数目。通过idf(t)的定义，可以得出，如果一个项在越多的文档中出现，那么说明这个项的权重越低，因此idf(t)是一个全局参数。

只有获得包含某一个项的所有命中文档的数目以及文档总数，才能正确的计算出排序得分。如果不加处理，分布式结构中的每个分片返回的idf(t)就是根据所在分片中计算出来的idf(t)值，即使是同一个项，在不同的分片中也能算出不同的idf(t)值，这对于最终的结果汇总具有相当大的干扰作用。用一个例子来说，这里有一个“prod_name:保险”的term，那么在查询的时候，分片1上包含“prod_name:保险”的结果数量比较少，分片2上包含“prod_name:保险”的比较多，两者总数量相当。那么在其他情况相同的条件下，分片1的结果得分会更高。但是这样不具有真实意义，就象生活中的例子，一个学生在差学校一直排前十名，另一个学生在好学校一直排50-100名之间。这种情况下不能以偏概全的认为那个排在前十名的学生就一定比另一个学生要好，因为他们的对比对象不同，因此将两者的成绩汇总到一起进行对比处理，这样才更有说服力。搜索排序也是如此，上例中需要将分片1和分片2的信息综合汇总，这样才能够计算出准确的数据。

因此，分布式搜索中如何协调各个分片之间的打分，为搜索项合理打分的处理方法就成为了一个重要技术点。

发明内容

针对分布式搜索中如何协调各个分片之间的打分，本专利提出了一种基于Lucene分片结构的打分处理方法及系统，通过多次请求处理全局信息，使各个分片共享全局信息，解决了同一个词项在不同分片中计算的得分不一致的问题，使搜索结果的排序更合理。

本专利提供的具体技术方案如下：

一种基于Lucene分片结构的打分处理方法，包括：

对索引文件进行数据拆分，形成索引文件分片数据，然后分到各个分片处理器上，完成索引文件的初始化工作。

搜索处理器接收用户输入的查询信息，对查询信息进行分词处理，形成1个或多个搜索词项。

依次按照搜索词项，在全局信息缓冲器中进行查找，是否存在本搜索词项的相关信息。如果不存在，直接执行步骤1，如果存在，则搜索处理器先从全局信息缓冲器中获取该搜索词项的全局信息idf(t)，然后执行步骤4。

步骤1：把这个搜索词项发送到各个分片处理器，分片处理器根据存储在其中的索引文件分片数据，过滤出包含这个搜索词项的命中文档数量，然后把这个搜索词项的命中文档数量以及该索引文件分片数据包含的总文档数量一起返回给搜索处理器。

步骤2：搜索处理器汇总各个分片处理器返回的这个搜索词项的命中文档数量以及该索引文件分片数据包含的总文档数量，根据公式：

计算出该搜索词项的全局信息idf(t)。其中，t表示某个搜索词项，doc Freq表示t的命中文档数量，num Docs表示索引文件的总文档数量。

步骤3：搜索处理器把这个搜索词项的全局信息idf(t)保存到全局信息缓冲器中。

步骤4：搜索处理器把得出的搜索词项的全局信息idf(t)发给各个分片处理器，分片处理器接收到搜索词项的全局信息idf(t)后，根据存储在其中的索引文件分片数据，根据公式：

score (q, d) = coord (q, d) \times queryNorm (q) \times \underset{tinq}{Σ} (tf (tind) \times idf {(t)}^{2} \times t . getBoost () \times norm (t, d))

计算出索引文件分片数据中各个命中文档的得分。

步骤5：通过以上过程，得出用户搜索信息中各个搜索词项的得分后，就搜索词项命中的各个文档，按照需要对其中包含的多个搜索词项的得分进行“与”操作运算，或者是进行“或”操作运算，得出每个命中文档的得分总值。

步骤6：按照每个命中文档的得分总值，对所有的命中文档进行排序。并根据搜索结果展示条件的需要，提取排名在前面的一定数量的命中文档作为搜索结果按照得分总值从大到小进行排序展示。

一种基于Lucene分片结构的打分处理系统，包括：

搜索处理器、全局信息缓冲器、分片处理器，其中分片处理器由分片搜索模块和索引文件分片数据存储模块组成。系统中存在着多个分片处理器。

搜索处理器分别与全局信息缓冲器、多个分片处理器相连。在分片处理器中，分片搜索模块与索引分片数据存储模块相连。

搜索处理器，是整个系统的枢纽，用于接收用户输入的搜索信息，并把搜索信息进行分词处理，还用于与全局信息缓冲器以及多个分片处理器进行数据交互，并对各个分片处理器返回的数据进行汇总计算，对命中文档按得分总值进行排序。

全局信息缓冲器，用于保存搜索词项的全局信息idf(t)。

分片处理器，用于保存索引文件分片数据，并对索引文件分片数据进行处理。

分片搜索模块，用于对索引文件分片数据进行过滤、运算等处理。

索引文件分片数据存储模块，用于保存索引文件分片数据。

一种全局信息缓冲器，包括：

全局信息存储单元、定时器、定量器。全局信息存储单元分别与定时器、定量器相连。

全局信息存储单元，用于保存搜索词项的全局信息idf(t)。

定时器，用于设置全局信息存储单元的信息保存时间，一旦时间到，将对全局信息存储单元中保存的信息全部清空。

定量器，用于设置全局信息存储单元的信息保存数量，一旦其中的信息超过设置的数量，将删除最早进入全局信息存储单元的全局信息，以保证全局信息存储单元中保存最新的全局信息。

本发明与现有技术相比，其显著优点：

1)把反文档频率作为全局信息，在搜索结果的排序中发挥作用，使分布式的搜索系统的搜索结果排序效果更合理。

2)通过分片处理器两次对响应搜索处理器请求的方式，使系统能完善汇总不同索引文件分片数据的信息，生成全局信息idf值，解决了个分片处理器上idf不统一的弊端。

3)加入缓存机制，在一定程度上有效的减少了搜索处理器对分片处理器的请求次数，同时保证快速获取全局信息idf，提高了系统的性能，节省了系统的资源。

4)建立索引的时候不需要考虑全局信息idf的建立，保持了索引结构的简洁性。

5)通过分片处理器两次对响应搜索处理器请求的方式，获取全局信息idf，使得系统属于无状态的请求，这样具有更高的可用性。

附图说明

图1为本发明实施例的系统结构图。

图2为本发明实施例的全局缓冲器结构图。

图3为本发明实施例的打分处理方法流程图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

如图1所示，为本发明实施例的系统结构，为了描述方便，假设本实施例中把索引文件数据拆分后，分到2个分片处理器中，包括：

搜索处理器101、全局信息缓冲器102、分片处理器103、分片处理器104，其中分片处理器103由分片1搜索模块1031和索引文件分片1数据存储模块1032组成，分片处理器104由分片2搜索模块1041和索引文件分片2数据存储模块1042组成。

搜索处理器分别与全局信息缓冲器102、分片处理器103、分片处理器104相连。在分片处理器103中，分片1搜索模块1031与索引分片1数据存储模块1032相连，在分片处理器102中，分片2搜索模块1041与索引分片2数据存储模块1042相连。

搜索处理器101，是整个系统的枢纽，用于接收用户输入的搜索信息，并把搜索信息进行分词处理，用于与全局信息缓冲器102、分片处理器103、分片处理器104进行数据交互，并对各个分片处理器返回的数据进行汇总计算，对命中文档按得分总值进行排序。

全局信息缓冲器102，用于保存搜索词项的全局信息idf(t)。

分片处理器103，用于保存索引文件分片1数据，并对索引文件分片1数据进行处理。其中分片1搜索模块1031，用于对索引文件分片1数据进行过滤、运算等处理。索引文件分片1数据存储模块1032，用于保存索引文件分片1数据。

分片处理器104，用于保存索引文件分片2数据，并对索引文件分片2数据进行处理。其中分片2搜索模块1041，用于对索引文件分片2数据进行过滤、运算等处理。索引文件分片2数据存储模块1042，用于保存索引文件分片2数据。

如图2所示，为本发明实施例的全局信息缓冲器结构，包括：

全局信息存储单元201、定时器202、定量器203。全局信息存储单元201分别与定时器202、定量器203相连。

全局信息存储单元，用于保存搜索词项的全局信息idf(t)。

如图3所示，为本发明实施例的打分处理方法流程，其详细步骤如下：

步骤301：搜索处理器接收用户输入的搜索信息。在本实施例中，假设接收到的搜索信息为：“基于Lucene的分片打分”。

步骤302：搜索处理器对收到的搜索信息进行分词处理。对搜索信息“基于Lucene的分片打分”进行分词处理。

步骤303：得到有效的搜索词项。按照通常的分词方法，搜索信息“基于Lucene的分片打分”将被分成“基于/Lucene/的/分片/打分”，根据词项的有效性处理，最后得到有效的搜索词项为：“Lucene”、“分片”、“打分”。

步骤304：按照所得到的搜索词项，然后到全局缓冲器中进行查找，看是否存在。如果存在，执行步骤306，如果不存在，执行步骤305。

步骤305：把其中一个搜索词项发给所有的分片处理器，然后执行步骤307。例如，先把搜索词项“Lucene”发给所有的分片处理器。

步骤306：搜索处理器从全局信息缓冲器中获得搜索词项的全局信息idf值，然后执行步骤310。例如，如果搜索词项“Lucene”在全局信息缓冲器中存在，则获取搜索词项“Lucene”的全局信息idf值。

步骤307：各个分片处理器根据收到的搜索词项，在各自保存的索引文件分片数据中查询，获得命中的文档数量，以及该索引文件分片数据中包含文档的总数量。假如本发明实施例中具有2个分片处理器，在分片1处理器中，获得命中的文档数量为100，索引文件分片1数据中包含文档总数量为1500；在分片2处理器中，获得命中的文档数量为200，索引文件分片2数据中包含文档总数量为8000。

步骤308：各个分片处理器把各自的命中文档数量以及总文档数量发回给搜索处理器。在本实施例中，分片1处理器中返回命中的文档数量（100个），以及索引文件分片1数据中包含文档总数量（1500个）；分片2处理器返回获得命中的文档数量（200个），索引文件分片2数据中包含文档总数量（8000个）。

步骤309：搜索处理器汇总各个分片处理器返回的数据，并计算全局信息idf值，并把得出的idf值存入到全局信息缓冲器中。

在本实施例中，搜索处理器汇总分片1处理器和分片2处理器返回的数据，得到总的命中文档数量为：100+200=300；2个分片所有的文档数量为：1500+8000=9500，并根据公式

idf (t) = 1.0 + \log \frac{numDocs}{(docFreq + 1)}

计算出全局信息idf值。

步骤310：搜索处理器把计算出全局信息idf值再传送给各个分片处理器。在本实施例中，搜索处理器把搜索词项“Lucene”的全局信息idf值发给分片1处理器和分片2处理器。

步骤311：各个分片处理器计算出各个命中文档的得分。在本实施例中，分片1处理器和分片2处理器，都依据公式：

score (q, d) = coord (q, d) \times queryNorm (q) \times \underset{tinq}{Σ} (tf (tind) \times idf {(t)}^{2} \times t . getBoost () \times norm (t, d))

计算出命中搜索词项“Lucene”的文档的得分。

步骤312：各个分片处理器把命中文档的得分返回给搜索处理器。

步骤313：判断是否搜索信息中所有的搜索词项都处理完成，如果没完成，执行步骤304，如果完成，执行步骤314。在本实施例中，因为总共有3个搜索词项为：“Lucene”、“分片”、“打分”，在上述步骤中只处理了搜索词项“Lucene”，所以要执行步骤304，进行处理搜索词项“分片”和“打分”。

步骤314：当所有的搜索词项都处理完毕后，搜索处理器将获得所有命中文档对于各个搜索词项的得分，然后根据需要计算出所有命中文档对于用户输入搜索信息的总得分，一般根据情况需要利用“或”运算，或者是“与”运算。

在本实施例中，每个命中文档都有关于搜索词项“Lucene”、“分片”、“打分”的3个得分，根据需要，在总文档数量比较少的情况下，对这3个得分通过“或”运算的方式得出该命中文档的总得分；在总文档数量比较多的情况下，对这3个得分通过“与”运算的方式得出该命中文档的总得分。

步骤315：按照总得分进行排序，根据需要选择排在前面一定数量的命中文档进行排序展示，作为搜索结果。

以上实施例只是对于本发明的部分功能进行描述，但实施例和附图并不是用来限定本发明的。在不脱离本发明之精神和范围内，所做的任何等效变化或润饰，同样属于本发明之保护范围。因此本发明的保护范围应当以本申请的权利要求所界定的内容为标准。

Claims

1.一种基于Lucene分片结构的打分处理方法，包括：

对索引文件进行数据拆分，形成索引文件分片数据，然后分到各个分片处理器上，完成索引文件的初始化工作；

搜索处理器接收用户输入的查询信息，对查询信息进行分词处理，形成1个或多个搜索词项；

依次按照搜索词项，在全局信息缓冲器中进行查找，是否存在本搜索词项的相关信息；如果不存在，直接执行步骤1，如果存在，则搜索处理器先从全局信息缓冲器中获取该搜索词项的全局信息idf(t)，然后执行步骤4；

步骤1：把这个搜索词项发送到各个分片处理器，分片处理器根据存储在其中的索引文件分片数据，过滤出包含这个搜索词项的命中文档数量，然后把这个搜索词项的命中文档数量以及该索引文件分片数据包含的总文档数量一起返回给搜索处理器；

步骤2：搜索处理器汇总各个分片处理器返回的这个搜索词项的命中文档数量以及该索引文件分片数据包含的总文档数量，计算出该搜索词项的全局信息idf(t)；

步骤3：搜索处理器把这个搜索词项的全局信息idf(t)保存到全局信息缓冲器中；

步骤4：搜索处理器把得出的搜索词项的全局信息idf(t)发给各个分片处理器，分片处理器接收到搜索词项的全局信息idf(t)后，根据存储在其中的索引文件分片数据，计算出索引文件分片数据中各个命中文档的得分；

步骤5：通过以上过程，得出用户搜索信息中各个搜索词项的得分后，就搜索词项命中的各个文档，按照需要对其中包含的多个搜索词项的得分进行“与”操作运算，或者是进行“或”操作运算，得出每个命中文档的得分总值；

步骤6：按照每个命中文档的得分总值，对所有的命中文档进行排序；并根据搜索结果展示条件的需要，提取排名在前面的一定数量的命中文档作为搜索结果按照得分总值从大到小进行排序展示。

2.根据权利要求1所述的方法，其特征在于：步骤2中，根据公式：计算出该搜索词项的全局信息idf(t)；其中，t表示某个搜索词项，docFreq表示t的命中文档数量，numDocs表示索引文件的总文档数量。

3.根据权利要求1所述的方法，其特征在于：步骤4中计算出索引文件分片数据中各个命中文档的得分是通过根据公式：

score (q, d) = coord (q, d) \times queryNorm (q) \times \underset{tinq}{Σ} (tf (tind) \times idf {(t)}^{2} \times t . getBoost () \times norm (t, d))

计算获得的。

4.根据权利要求1至3之一所述的方法，其特征在于：所述全局信息缓冲器包括全局信息存储单元、定时器、定量器，所述全局信息存储单元分别与定时器、定量器相连；

所述全局信息存储单元，用于保存搜索词项的全局信息idf(t)；

所述定时器，用于设置全局信息存储单元的信息保存时间，一旦时间到，将对全局信息存储单元中保存的信息全部清空；

所述定量器，用于设置全局信息存储单元的信息保存数量，一旦其中的信息超过设置的数量，将删除最早进入全局信息存储单元的全局信息，以保证全局信息存储单元中保存最新的全局信息。

5.一种基于Lucene分片结构的打分处理系统，其特征在于，它包括：

搜索处理器、全局信息缓冲器、分片处理器，所述分片处理器由分片搜索模块和索引文件分片数据存储模块组成；系统中存在着多个分片处理器；

所述搜索处理器分别与全局信息缓冲器、多个分片处理器相连；在分片处理器中，分片搜索模块与索引文件分片数据存储模块相连；

所述搜索处理器，是整个系统的枢纽，用于接收用户输入的搜索信息，并把搜索信息进行分词处理，还用于与全局信息缓冲器以及多个分片处理器进行数据交互，并对各个分片处理器返回的数据进行汇总计算，对命中文档按得分总值进行排序；

所述全局信息缓冲器，用于保存搜索词项的全局信息idf(t)；

所述分片处理器，用于保存索引文件分片数据，并对索引文件分片数据进行处理；

所述分片搜索模块，用于对索引文件分片数据进行过滤、运算等处理；

所述索引文件分片数据存储模块，用于保存索引文件分片数据。

6.根据权利要求5所述的系统，其特征在于：所述全局信息缓冲器包括全局信息存储单元、定时器、定量器，所述全局信息存储单元分别与定时器、定量器相连；

7.一种全局信息缓冲器，其特征在于：它包括全局信息存储单元、定时器、定量器，所述全局信息存储单元分别与定时器、定量器相连；