CN106897736A

CN106897736A - 一种多领域非协作分布式检索结果融合系统及其融合方法

Info

Publication number: CN106897736A
Application number: CN201710041178.4A
Authority: CN
Inventors: 董守斌; 陈建豪; 袁华; 谢帆; 谢一帆
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2017-01-17
Filing date: 2017-01-17
Publication date: 2017-06-27
Anticipated expiration: 2037-01-17
Also published as: CN106897736B

Abstract

本发明公开了一种多领域非协作分布式检索结果融合系统及其融合方法，该系统包括：数据处理模块，用于存储系统所需的语料数据和缓存数据，对外提供接口与其他模块交互；特征提取模块，用于从训练语料或者检索结果中提取多领域特征；模型训练模块，用于训练模型，包括模型初始化和模型学习；中央处理模块，负责分布式检索结果融合的流程处理，与其他模块进行交互，是系统核心逻辑的执行部分；相关性评分模块，用于对查询结果进行全局的相关性评分。本发明能解决非协作环境下不同检索结果因检索模型差异而无法直接比较的问题及启发式方法调参麻烦的问题。

Description

一种多领域非协作分布式检索结果融合系统及其融合方法

技术领域

本发明涉及分布式检索的技术领域，尤其是指一种多领域非协作分布式检索结果融合系统及其融合方法。

背景技术

在分布式检索中，呈现给用户的检索结果好坏与融合来源不同资源库的查询结果的方法息息相关，尤其当结果来源于非协作的搜索引擎。所谓非协作的搜索引擎，即搜索引擎之间采用不同的检索模型。在此情况下，不同来源的检索结果无法根据排名或得分进行直接的比较。

目前的非协作环境下的分布式检索结果融合系统，较多使用简单的线性融合方式，模型参数采用启发式方法确定。这类方法虽然计算速度较快，有利于系统在线运行，但准确度较低，启发式方法调参麻烦。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种多领域非协作分布式检索结果融合系统及其融合方法，该系统基于机器学习方法，通过离线计算得到的模型，对不同来源的检索结果进行评分，最终得到统一的检索结果列表，能解决非协作环境下不同检索结果因检索模型差异而无法直接比较的问题；该方法基于softmax回归模型，通过提取检索结果中多领域特征进行训练，在保留了线性融合方式计算速度快的优点外，提高了准确度，解决了启发式方法调参麻烦的问题。

为实现上述目的，本发明所提供的技术方案如下：

一种多领域非协作分布式检索结果融合系统，包括：

数据处理模块，用于存储系统所需的语料数据和缓存数据，对外提供接口与其他模块交互；

特征提取模块，用于从训练语料或者检索结果中提取多领域特征；

模型训练模块，用于训练模型，包括模型初始化和模型学习；

中央处理模块，负责分布式检索结果融合的流程处理，与其他模块进行交互，是系统核心逻辑的执行部分；

相关性评分模块，用于对查询结果进行全局的相关性评分。

所述数据处理模块包括：

数据存储子模块，用于存放数据；

数据预处理子模块，用于对训练数据进行预处理。

所述特征提取模块包括：

文档特征提取子模块，用于针对每个查询结果提取对应的文档特征；

资源库特征提取子模块，用于针对每个资源库提取对应的资源库特征；

主题特征提取子模块，用于针对每个主题提取查询结果对应的主题特征。

所述模型训练模块包括：

模型初始化子模块，用于模型准备，初始化模型所需要的参数；

模型学习子模块，用于管理模型的训练学习过程。

上述多领域非协作分布式检索结果融合系统的融合方法，分有训练环节和相关度评分环节，具体包括以下步骤：

S1、训练环节

步骤S1.1、从数据处理模块获取训练语料，语料中包含多条单个查询词在多个非协作搜索引擎中查询获得的结果列表，结果中包含排名、URL、摘要以及人工标注的相关度信息；

步骤S1.2、预处理模块对要进行特征提取的训练语料进行规范化处理，处理后的训练语料发送到特征提取模块；

步骤S1.3、特征提取模块对处理后的语料提取文档、资源库以及主题这三方面的特征，提取后的特征发送到模型训练模块；

步骤S1.4、模型训练模块将提取得到的特征和对应的相关性评分输入到逻辑回归模型，训练得到的模型持久化存储到本地；

S2、相关度评分环节

步骤S2.1、获取查询返回的待融合的结果列表；

步骤S2.2、特征提取模块提取多层次特征，对结果列表中每一条结果提取文档、资源库和主题三方面的特征，提取得到的特征以向量形式发送到相关性评分模块；

步骤S2.3、相关性评分模块利用训练得到的模型对每条结果进行评分，该模块将提取得到的特征输入到模型，模型输出对应结果的相关度评分；

步骤S2.4、系统输出结果：根据步骤S2.3中获得的相关度评分，系统将结果根据相关度大小降序排列，融合成最终的结果列表以输出。

所述步骤S1.3包括以下步骤：

S1.3.1、特征提取模块接收到语料，语料中数据的基本关系为：给定查询词q，分发到n个资源库E_i,i∈{1,2,…,n}，每个资源库返回m个结果D_ij,j∈{1,2,…,m}，同时每个资源库对应一个主题V_k,k∈{1,2,…,l}，l代表主题总数；

S1.3.2、对每一个查询结果D_ij，利用相同URL统计其在各个资源库E_i中出现的次数，记作f₁；

S1.3.3、对每一个查询结果D_ij，利用其排名信息rank_ij，构造排名特征f₂，其中：

S1.3.4、对每一个资源库E_i，计算其包含的所有结果D_ij对应的f₁之和，记作f₃，其中：

式中，m代表资源库的结果数，f_j1(j∈{1,2,…,m})代表某一资源库第j个结果的f₁特征；

S1.3.5、对每一个资源库E_i，计算其包含的所有D_ij中，f₁>1的结果数目，记作f₄；

S1.3.6、对每一个主题V_k，计算其包含的所有E_i中f₃之和，记作f₅；

S1.3.7、对每一个主题V_k，计算其包含的所有E_i中f₄之和，记作f₆；

S1.3.8、经过上述步骤的计算，对于每个D_ij，都有对应的f_x,x∈{1,2,3,4,5,6}，将其组合成向量的形式(f₁,f₂,f₃,f₄,f₅,f₆)发送到模型训练模块；

所述步骤S1.4包括以下步骤：

S1.4.1、确定评分公式中特征的融合形式为线性融合，由步骤S1.3获得的f_x,x∈{1,2,3,4,5,6}通过线性加权融合的方式计算结果评分，对于一个结果D，其评分设为S，其中：

式中，w_x,x∈{1,2,3,4,5,6}代表对应特征的权重；

S1.4.2、将公式S对查询结果与不同相关度等级的相似性评分利用softmax回归模型映射到[0,1]，softmax回归模型是逻辑回归模型在多分类问题上的推广，针对每个查询结果，会计算出其取得某个相关度的评分，输入特征f_x,x∈{1,2,3,4,5,6}和标注的相关度评价到模型M；

S1.4.3、训练得到的模型M持久化到本地，供模型相关性评分模块使用；

所述步骤S2.3包括以下步骤：

S2.3.1、若相关性评分模块未进行初始化，则读取步骤S1.4中生成的模型M，再进入步骤S2.3.2；若已经初始化，直接进入步骤S2.3.2；

S2.3.2、由步骤S2.2提取得到的每一结果D的特征，输入到模型M；

S2.3.3、模型M输出每一个结果D的相关度评分，同一查询的所有结果的相关度评分将送入步骤S2.4。

本发明与现有技术相比，具有如下优点与有益效果：

1、提升了融合准确率。有选择地提取的多领域特征能有效反映检索结果的相关度，最终体现在了准确率的提升上。

2、简化了线性融合的调参流程。利用softmax回归模型训练得到相关度评分，参数由模型训练确定，省略了复杂的调参评分调参过程。

3、实时响应速度快。softmax回归模型运算代价较小，且模型能预先离线训练，符合在线检索实时性的要求。

附图说明

图1为本发明系统模块结构图。

图2为数据处理模块结构图。

图3为特征提取模块结构图。

图4为模型处理结构图。

图5为模型训练流程图。

图6为相关度评分流程图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

如图1所示，本实施例所述的多领域非协作分布式检索结果融合系统，包括：

模型训练模块，用于训练模型，包括模型初始化和模型学习等；

中央处理模块，用于负责分布式检索结果融合的流程处理，与其他模块进行交互，是系统核心逻辑的执行部分；

相关性评分模块，用于对查询结果进行全局的相关性评分。

如图2所示，数据处理模块包括：

数据存储子模块，用于存放训练数据、模型数据以及缓存数据；

数据预处理子模块，用于对训练数据进行预处理。

如图3所示，特征提取模块包括：

文档特征提取子模块，该子模块的特征提取对象是每一个查询结果Dij,i∈{1,2,…,n},j∈{1,2,…,m}，每个结果都有独立的特征对应；

资源库特征提取子模块，该子模块的特征提取对象是每一个资源库Ei,i∈{1,2,…,n}，归属于某一个资源的查询结果D都有其对应的资源库特征；

主题特征提取子模块，该子模块的特征提取对象是每一个主题Vk,k∈{1,2,…,l}，每个资源库归属于某个主题，因此归属于某个资源库的每个文档都有其对应的主题特征；

如图4所示，模型训练模块包括：

模型初始化子模块；该子模块用于执行模型参数的初始化；

模型学习子模块；该子模块用于进行模型的训练学习。

如图1所示，中央处理模块从数据存储模块获取处理后的语料数据，利用特征处理模块从得到的数据中提取出多领域特征，得到的特征将加入到模型训练模块的模型学习中。

下面为本实施例上述多领域非协作分布式检索结果融合系统的融合方法，分有训练环节和相关度评分环节：

如图5所示，训练环节具体包括以下步骤：

步骤S1.1、从数据处理模块获取训练语料，语料中包含多条单个查询词在多个非协作搜索引擎中查询获得的结果列表，该结果中包含了排名、URL、摘要以及人工标注的相关度信息。人工标注的相关度一般可分为5级，分别是0代表不相关(Non)，1代表弱相关(Rel)，2代表相关(Hrel)，3代表强相关(Key)，4代表导航页面(Nav)。此外数据库中还有资源库对应的主题信息，资源库的主题多样，如军事、科技、艺术、社会和教育等。

步骤S1.2、预处理模块对要进行特征提取的训练语料进行规范化处理，初始的语料有可能无法直接用于后续的特征提取，因此需要对语料进行规范化处理，如将语料分解为以{查询，主题，资源库}为索引的层次化结构，处理后的训练语料发送到特征提取模块。

步骤S1.3、特征提取模块对处理后的语料提取文档、资源库以及主题这三方面的特征，提取后的特征发送到模型训练模块，提取特征步骤具体如下：

S1.3.1、特征提取模块接收到语料。语料中数据的基本关系如下：给定查询词q，分发到n个资源库Ei,i∈{1,2,…,n}，每个资源库返回m个结果Dij,j∈{1,2,…,m}，同时每个资源库对应一个主题Vk,k∈{1,2,…,l}，l代表主题个总数；

S1.3.2、对每一个查询结果Dij，利用相同URL统计其在各个资源库Ei中出现的次数，记作f1；

S1.3.3、对每一个查询结果Dij，利用其排名信息rankij，构造排名特征f2，其中：

S1.3.4、对每一个资源库Ei，计算其包含的所有结果Dij对应的f1之和，记作f3，其中：

式中，fj1(j∈{1,2,…,m})代表某一资源库第j个结果的f1特征；

S1.3.5、对每一个资源库Ei，计算其包含的所有Dij中，f1>1的结果数目，记作f4；

S1.3.6、对每一个主题Vk，计算其包含的所有Ei中f3之和，记作f5；

S1.3.7、对每一个主题Vk，计算其包含的所有Ei中f4之和，记作f6；

S1.3.8、经过上述步骤的计算，对于每个Dij，都有对应的fx,x∈{1,2,3,4,5,6}，将其组合成向量的形式(f1,f2,f3,f4,f5,f6)发送到模型训练模块；

步骤S1.4、模型训练模块将提取得到的特征和对应的相关性评分输入到逻辑回归模型，训练得到的模型持久化存储到本地，其具体步骤如下：

S1.4.1、确定评分公式中特征的融合形式为线性融合，由步骤S1.3获得的fx,x∈{1,2,3,4,5,6}通过线性加权融合的方式计算结果评分，对于一个结果D，其评分设为S，其中：

式中，fx,x∈{1,2,3,4,5,6}代表不同的特征，wx,x∈{1,2,3,4,5,6}代表对应特征的权重；

S1.4.2、将公式S对查询结果与不同相关度等级的相似性评分利用softmax回归模型映射到[0,1]，softmax回归模型是逻辑回归模型在多分类问题上的推广，针对每个查询结果，会计算出其取得某个相关度的评分，输入特征fx,x∈{1,2,3,4,5,6}和标注的相关度评价到模型M；

S1.4.3、训练得到的模型M持久化到本地，供模型相关性评分模块使用。

如图6所示，相关度评分环节具体包括以下步骤：

步骤S2.1、获取查询返回的待融合的结果列表。结果列表来源于多个资源库，每个结果列表包含结果的排名、URL和摘要，获取到结果列表后进入步骤S2.2。

步骤S2.2、特征提取模块提取多层次特征，对结果列表中每一条结果提取文档、资源库和主题三方面的特征。提取得到的特征以向量形式发送到相关性评分模块。提取特征的详细步骤与训练环节的提取步骤相同。

步骤S2.3、相关性评分模块利用训练得到的模型对每条结果进行评分，包括以下步骤：

S2.3.3、模型M输出每一个结果D的相关度评分，同一查询的所有结果的相关度评分将送入步骤S2.4；

该相关性评分模块将提取得到的特征输入到模型，模型输出对应结果的相关度评分。利用softmax回归模型，可以计算得到每个结果对应每个相关度的评分，评分最高的相关度则取为对应结果的相关度。由下式可以计算每个结果对应每个相关度的评分。

式中，hw(f(i))即为softmax回归模型的假设函数，wjT，j∈{1,2,3,4,5}为训练得到的模型权重，分别对应5类相关度的计算，f(i)为提取得到的特征，计算后进入步骤S2.4。

步骤S2.4、系统输出结果。根据步骤S2.3中获得的相关度评分，系统将结果根据相关度大小降序排列，融合成最终的结果列表以输出。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种多领域非协作分布式检索结果融合系统，其特征在于，包括：

相关性评分模块，用于对查询结果进行全局的相关性评分。

2.根据权利要求1所述的一种多领域非协作分布式检索结果融合系统，其特征在于，所述数据处理模块包括：

数据存储子模块，用于存放数据；

数据预处理子模块，用于对训练数据进行预处理。

3.根据权利要求1所述的一种多领域非协作分布式检索结果融合系统，其特征在于，所述特征提取模块包括：

4.根据权利要求1所述的一种多领域非协作分布式检索结果融合系统，其特征在于，所述模型训练模块包括：

模型学习子模块，用于管理模型的训练学习过程。

5.一种权利要求1所述多领域非协作分布式检索结果融合系统的融合方法，其特征在于，分有训练环节和相关度评分环节，具体包括以下步骤：

S1、训练环节

S2、相关度评分环节

步骤S2.1、获取查询返回的待融合的结果列表；

6.根据权利要求5所述的一种多领域非协作分布式检索结果融合系统的融合方法，其特征在于，所述步骤S1.3包括以下步骤：

f_{2} = \frac{1}{{rank}_{i j}}

f_{3} = Σ_{j = 1}^{m} f_{j 1}

所述步骤S1.4包括以下步骤：

S = Σ_{x = 1}^{6} w_{x} \times f_{x}

式中，w_x,x∈{1,2,3,4,5,6}代表对应特征的权重；

所述步骤S2.3包括以下步骤：