CN104239375A

CN104239375A - 基于数据包络分析的排序学习方法

Info

Publication number: CN104239375A
Application number: CN201310533802.4A
Authority: CN
Inventors: 蒋春恒; 林文斌
Original assignee: CHENGDU ANTUSUOJI NETWORK SCIENCE & TECHNOLOGY Co Ltd
Current assignee: CHENGDU ANTUSUOJI NETWORK SCIENCE & TECHNOLOGY Co Ltd
Priority date: 2013-06-17
Filing date: 2013-10-31
Publication date: 2014-12-24

Abstract

本发明公开了一种基于数据包络分析的排序学习方法。该发明以检索词为单位，每个检索词的关联文档构成一个决策单元集合，根据数据包络分析模型确定每个关联文档的最优权值向量，以之构建候选基本模型集合。最后，基于Boosting技术优化排序模型。本发明公开的方法能够有效改善当前排序学习模型的性能，可应用于搜索引擎、机器翻译、推荐系统，以及生物信息等领域。

Description

基于数据包络分析的排序学习方法

技术领域

本发明属于信息检索领域，涉及一种机器学习的方法，具体涉及一种排序学习方法。

背景技术

排序学习方法是一种有效的排名技术，利用监督型机器学习方法，通过优化损失函数，从训练数据集中训练一个排序模型。排序学习在过去十年间发展迅速，已经成功地应用于网络搜索引擎、机器翻译、推荐系统与生物信息等领域。

根据输入空间、输出空间、模型假设和损失函数的不同，排序学习方法可以分成三类：逐点型、序对型和序列型，下面分别予以阐述：

逐点型排序学习方法将排名问题转化为传统的分类和回归问题，根据成熟的分类和回归算法，使用分类错误率或者均方差构建损失函数，训练排序模型，比如文献“Koby Crammer,YoramSinger，et a1.Pranking with ranking.Advances in neural information processing systems，14：641-647,2001”通过训练一个感知器模型，把训练样本映射到一个全序集。

序对型排序学习算法的训练数据是成对的样本，根据模型假设预测序对的偏好关系，结合真实相关等级，构造序对损失函数，从而建立优化排序模型，比如文献“Chris Burges，Tal Shaked，Erin Renshaw,Ari Lazier,Matt Deeds，Nicole Hamilton，and Greg Hullender.Learning to rankusing gradient descent.In Proceedings of the22nd international conference on Machine learning，pages89-96.ACM,2005”根据神经网络的进化学习理论，辅以梯度下降的优化方法调整模型参数，训练排序模型。

序列型排序学习方法直接将整个样本集合作为学习对象，根据模型的预测结果和真实排名列表构建序列型损失函数，通过优化序列型损失函数训练排序模型，比如文献“Jun Xu and HangLi.Adarank：a boosting algorithm for information retrieval.In Proceedings of the30th annualinternational ACM SIGIR conference on Research and development in information retrieval，pages391-398.ACM,2007”基于Boosting技术，以单个特征作为候选基本排序模型，提出高效的AdaRank学习算法。

三种排序学习方法研究对象的细粒度依次增大：逐点型排序学习方法只抓住了训练数据的单点信息，忽略了文档序对和文档序列两层信息；序对型学习方法匹配文档序对，仍然转化为传统的回归和分类问题的处理方法，通常无法避免由于检索词关联文档分布不均，导致模型预测精度对检索词敏感；序列型排序学习方法是最直观的一种，根据序列信息定义损失函数，通过直接或者间接的方式最小化损失函数，训练排序模型，然而，目前序列型排序学习方法已经遭遇性能瓶颈，单纯基于序列信息难以有效提升排序的准确性。

发明内容

本发明通过引入数据包络分析(Data Envelopment Analysis，DEA)方法，充分利用单个样本数据、样本序对数据和样本序列数据三种细粒度的训练样本信息，来提升排序模型的精确性。为了实现上述目的，本发明基于Boosting技术，通过引入数据包络分析模型，挖掘训练数据内在多层信息，包括如下具体步骤：

S1.给定训练数据集，包含三个部分：检索词集合关联文档集合和文档相关等级标记集合其中，N是训练集中检索词的个数；检索词包含有n_i篇关联文档：每个文档d_ij(j=1，...，n_i)都使用一个特征向量x_ij表示，每个维度对应一个检索词-文档对特征，如PageRank，TF*IDF等；其中，r_ij代表d_ij与检索词q_i的相关程度。

S2.对于任意检索词检索词-文档对d_ij作为一个决策单元，从文档特征向量x_ij或者文档相关等级r_ij中选择一部分特征作为输入变量，一部分特征作为输出变量，构建一个多输入-多输出的数据包络分析模型。

S3.对于D_i中的每个文档，求解相关的数据包络分析模型，获得每个文档对应的最优权值向量。

S4.重复步骤S2与S3，获得所有关联文档的最优权值向量，将其组成为候选基本模型集合Φ={ω₁，...，ω_m，...，ω_M}，其中，M表示候选基本模型集合的大小，由于部分线性规划无可行解，

M \leq Σ_{i = 1}^{N} n_{i} .

S5.从Φ中抽取一个候选基本模型ω_m，使用它预测训练集中每个文档的相关性分值，生成一组分值列表S_m={S_m1，...，S_mN}，其中S_mi是一个n_i维的向量，代表ω_m对检索词q_i所有关联文档的预测结果。

S6.根据预测的S_mi和检索词q_i所有关联文档的真实相关等级R_i，计算候选基本模型ω_m在q_i上的排名精度E_mi，把ω_m在训练集中所有检索词的排名精度向量记为E_m，即E_m=(E_m1，...，E_mi，...，E_mN)。

S7.重复步骤S5至S6，直到遍历尽Φ中的所有候选基本模型，使用所有候选基本模型的排名精度，构成一个M×N的排名精度矩阵E。

S8.设定检索词的初始概率分布为p_i=1／N(i=1，...，N)，初始集成模型f=0。

S9.根据检索词概率分布P和候选基本模型的排名精度矩阵E，计算候选基本模型的平均排名精度，从中选取精度最高的作为基本模型h_t，并使用下式给h_t赋予权值β_t：

β_{t} = g (\overset{&OverBar;}{E} {h_{t}})

其中，g是一个关于平均精度的单调递增函数，表示模型h_t在概率分布P下的平均精度。

S10.将步骤S9学习得到的基本模型h_t，添加到集成模型f=f+β_th_t，计算集成模型在所有检索词上的精度向量其中表示集成模型f在检索词q_i上的排名精度，并基于下式更新检索词的概率分布：

P_{i} = ψ (E_{i}^{(f)})

其中，ψ是一个单调递减函数，根据集成模型在不同检索词的表现做出相应调整，表现越好，相应检索词的概率值就下调，否则，则提升相应检索词的概率分值。

S11.将步骤S9和S10重复T次，训练得到的集成模型是基本模型的线性组合：S12.输入测试集中检索词-文档对的特征向量，使用步骤S11训练得到的集成模型f，预测文档的相关分值。

本发明的有益效果：本发明应用数据包络分析模型获取各个关联文档对于文档特征的不同赋权，构造候选基本排序模型集合，训练得到的集成模型反映了各个关联文档对文档特征的综合偏好，在标准数据集MQ2007、MQ2008以及OHSUMED上的实验表明，本发明的排名精度比AdaRank模型有比较明显的提升。

附图说明

图1、图2是本发明的流程简图。

图3是本发明与AdaRank在MAP指标上的实验对比结果。

图4是本发明与AdaRank在NDCG1至NDCG10指标上的实验对比结果。

具体实施方式

下面结合附图和具体实例对本发明做进一步说明。

本发明使用的实验数据是由微软亚洲研究院提供的标准数据集MQ2007，包含1692个检索词，69623个关联文档，每篇文档提取了46个特征，文档的相关等级只有三种：0表示不相关，1表示部分相关，2表示相关；本实施例所使用的数据包络分析模型为基于Chames、Cooper和Rhodes提出的CCR模型的一个退化模型，简称OCCR。

将数据集随机均等地分割成5份，按照3：1：1的比例选取作为训练集、校验集和测试集，构成一折数据，标记为Fold1；然后按照上述比例，重新随机选取训练集、校验集和测试集，依次获得Fold2，Fold3，Fold4，Fold5，总共5个文件夹。

参照图1、图2，本发明的实现步骤如下：

S1.选定Fold1中的训练数据集，包含有1013个检索词其中，N=1013；检索词对应n_i篇文档每个文档d_ij都使用一个46维的特征向量x_ij表示，每个维度对应一个检索词-文档对特征，其相应的相关等级标记为r_ij∈{0，1，2}。

S2.对于任意检索词检索词-文档对d_ij作为一个决策单元，使用文档特征向量x_ij作为输入，文档的相关等级r_ij作为输出，构建如下形式的多输入-单输出的数据包络分析模型OCCR：

其中，

S3.对于D_i中每个文档，使用对应文档特征向量替换OCCR目标函数中的x_ij，并求解OCCR，获得每个文档的最优权值向量。

S4.重复步骤S2与S3，获得所有关联文档的最优权值向量，将其组成为候选基本模型集合Φ={ω₁，...，ω_M}。

S5.从Φ中抽取一个候选基本模型ω_m，使用它预测训练集中每个文档的相关性分值，生成一组分值列表Sm={S_m1，...，S_mN}。

S6.根据预测的S_mi和检索词q_i所有关联文档的真实相关等级R_i，计算候选基本模型ω_m在q_i上的排名精度E_mi，把ω_m在训练集中所有检索词的排名精度向量记为E_m=(E_m1，...，E_mi，...，E_mN)；实验中使用的排名精度标准度量指标是MAP，见文献“RicardoBaeza-Yates，Berthier Ribeiro-Neto，et a1.Modem information retrieval，volume463.ACM pressNew York.，1999”。

β_{t} = g (\overset{&OverBar;}{E} {h_{t}})

其中，

g (x) = \frac{1}{2} \log \frac{1 + x}{1 - x} .

S10.将步骤S9学习得到的基本模型h_t，添加到集成模型f=f+B_th_t，计算集成模型在所有检索词上的精度向量其中表示集成模型f在检索词q_i上的排名精度，并基于下式更新检索词的概率分布：

P_{i} = ψ (E_{fi}) = \frac{\exp {- E_{i}^{(f)}}}{Σ_{i = 1}^{N} \exp {- E_{i}^{(f)}}}

S11.重复执行T次步骤S9与S10，训练得到的集成模型是基本模型的线性组合：实例中选择T=200，如果排序模型精度相比上次迭代有所改善，则继续迭代，否则终止迭代过程。

S12.输入Fold1中测试集所有检索词-文档对的特征向量，使用步骤S11训练得到的集成模型f，预测文档的相关分值；根据Fold1中测试集的真实相关等级标记，使用标准度量指标MAP，NDCG1，NDCG2，...，NDCG10衡量排序模型的精度；关于NDCG，参考文献“Kalervo and Jaana IR evaluation methods for retrieving highly relevant documents.InProceedings of the23rd annual international ACM SIGIR conference on Research and developmentin information retrieval，pages41-48.ACM,2000”。

依次对Fold2至Fold5数据集，重复步骤S1到S12。

将所有的评价结果同AdaRank排序学习算法进行比较，结果如图3和图4所示：图3中横轴标示测试数据集所属的折数，纵轴表示对应折数测试数据集上模型的MAP指标；图3中横轴标示使用的度量指标，其中N1表示NDCG1，N2表示NDCG2，...，N10表示NDCG10，纵轴表示对应指标在5-折测试数据集上的平均值。

由图3和图4的实验对比结果可以看出，本发明在MAP和NDCG评价指标上的表现皆优于AdaRank算法，从整体上来看，平均性能提高5％以上。

Claims

1.一种基于数据包络分析的排序学习方法，包括如下步骤：

S1.给定训练数据集，包含三个部分：检索词集合关联文档集合和文档相关等级标记集合其中，N是训练集中检索词的个数；检索词包含有n_i篇关联文档：每个文档d_ij(j=1，...，n_i)都使用一个特征向量x_ij表示，每个维度对应一个检索词-文档对特征，如PageRank，TF*IDF等；其中，r_ij代表d_ij与检索词q_i的相关程度；

S2.对于任意检索词检索词-文档对d_ij作为一个决策单元，从文档特征向量x_ij或者文档相关等级r_ij中选择一部分特征作为输入变量，一部分特征作为输出变量，构建一个多输入-多输出的数据包络分析模型；

S3.对于D_i中的每个文档，求解相关的数据包络分析模型，获得每个文档对应的最优权值向量；

S4.重复步骤S2与S3，获得所有关联文档的最优权值向量，将其组成为候选基本模型集合Φ={ω₁，...，ω_m，...，ω_M}，其中M表示候选基本模型集合的大小，由于部分线性规划无最优解，

M \leq Σ_{i = 1}^{N} n_{i};

S5.从Φ中选取一个候选基本模型ω_m，使用它预测训练集中每个文档的相关性分值，生成一组分值列表S_m={S_m1，...，S_mN}，其中S_mi是一个n_i维的向量，代表ω_m对检索词q_i所有关联文档的预测结果；

S6.根据预测的S_mi和检索词q_i所有关联文档的真实相关等级R_i，计算候选基本模型ω_m在q_i上的排名精度E_mi，把ω_m在训练集中所有检索词的排名精度向量记为E_m，即E_m=(E_m1，...，E_mi，...，E_mN)；

S7.根据S_ij和G_ij，评估候选基本模型ω_i在q_j上的排名精度E_ij∈R，记ω_i在训练集所有检索词上的排名精度向量为E_i=(E_i1，...，E_iN)；

S8.重复步骤S5至S6，直到遍历尽Φ中的所有候选基本模型，使用所有候选基本模型的排名精度，构成一个M×N的排名精度矩阵E；

S9.设定检索词的初始概率分布为P_i=1／N(i=1，...，N)，初始集成模型f=0；

P_{i} = ψ (E_{i}^{(f)})

其中，ψ是一个单调递减函数，根据集成模型在不同检索词的表现做出相应调整，表现越好，相应检索词的概率值就下调，否则，则提升相应检索词的概率分值；

S11.将步骤S9和S10重复T次，训练得到的集成模型是基本模型的线性组合：

f = Σ_{t = 1}^{T} β_{t} h_{t};

S12.输入测试集中检索词-文档对的特征向量，使用步骤S11训练得到的集成模型f，预测文档的相关分值。

2.由权利要求1所述的基于数据包络分析的排序学习方法，其特征在于，步骤S2所述的构建多输入-多输出的数据包络分析模型，其输入输出变量选自于检索词-文档对的特征向量以及文档相关等级信息。