CN102446223A

CN102446223A - 面向搜索排序的基于噪声注入主动学习的样本选取方法

Info

Publication number: CN102446223A
Application number: CN2011104485506A
Authority: CN
Inventors: 蔡文彬; 张娅
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2011-12-28
Filing date: 2011-12-28
Publication date: 2012-05-09

Abstract

本发明公开一种面向搜索排序的基于噪声注入主动学习的样本选取方法，对未标注样本采用噪声注入生成噪声样本，利用训练集训练出的排序模型对噪声样本进行预测，得到样本在当前排序模型下的分数分布，利用分数分布转换成排序分布，用DCG的方差度量排序分布表征不确定度，利用不确定度进行样本选样。本发明可在搜索排序问题中样本不足的条件下进行有效的选样，实现用更少的样本更有效的提升模型性能，从而达到减少样本标注代价的目的。

Description

面向搜索排序的基于噪声注入主动学习的样本选取方法

技术领域

本发明属于机器学习领域和信息检索领域，具体是一种面向搜索排序的基于噪声注入主动学习的样本选取方法。

背景技术

排序是信息检索领域中的一个核心问题，如推荐，在线广告等，其任务是建立一个排序模型。排序学习属于监督学习，与其他的监督学习问题相似，排序模型的质量与训练样本的数量高度相关。通常构建一个高质量的排序模型需要标注大量的训练数据。然而，在许多实际应用中，虽然收集无标注的样本相对容易，但是标注样本的代价是非常昂贵的。训练数据标注问题已经成为了构建高质量排序模型的瓶颈。实际上，不同的样本所包含的信息量显然是不一样的。如何有目的的选择最具有信息量的样本进行标注，就是主动学习所研究的核心问题。通过主动选择训练样本，能够在保持模型精度的前提下，有效的降低所需要的训练样本量，从而减少标注样本的代价。与传统的分类回归问题不同，搜索排序具有一些独特的特性(如查询-文本结构，样本分布不均匀等)，目前针对搜索排序问题的主动学习研究尚处于起步阶段。

现有的针对搜索排序问题的主动学习方法可分为两大类：一类是基于文本(document)的主动学习方法。其中具有代表性的是P.Donmez等人于2008年发表在机器学习顶级国际会议ICML(International Conference on Machine Learning机器学习国际会议)第一卷第248页至255页的论文“Optimizing Estimated Loss Reduction for Active Sampling in Rank Learning”(面向排序学习的最小化估计损失的主动选样)。此方法以模型的参数改变近似估计损失改变，选择添加到训练样本集后最有可能导致参数产生重大变化的文本。然而该方法不适用于基于非参数模型的学习算法如决策树。另一类是基于查询(query)的主动学习方法。E.Yilmaz等人在2009年信息检索顶级国际会议SIGIR(ACM SIGIR Conference on Research andDevelopment in Information Retrieval ACM信息检索研究与发展会议)第一卷第662页至663页的论文“Deep versus Shallow Judgments in Learning to Rank”(面向排序学习的深文本与浅文本选择比较)经验性的指出在同样训练样本的前提下，选择更多的查询和较少的文本比有较少的查询和更多的文本有效。然而此方法没有考虑到排序学习模型的特性。

以上两类方法都忽略了排序学习中样本的特性，即排序学习样本存在查询-文本结构。为解决这一问题，B.Long等人发表在2010年的SIGIR国际会议上第一卷第267页至274页的论文“Active Learning for Ranking through Expected Loss Optimization”(面向排序的基于期望损失最小化主动学习)采用了两阶段(two-stage)的选样方式，即首先选取查询，随后再给定查询的条件下选取文本。该方法利用一组排序模型来得到查询和文本的期望损失。但是这种方法的一个不足之处在于需要用一组排序模型来估计损失，当初始训练样本不足的时候，排序模型精度会很低，导致期望损失估计不够准确从而影响最终效果。如何在初始训练数据不足的情况下更有效的选取样本，成为我们要解决的一个关键问题。

发明内容

本发明针对现有技术存在的上述不足之处，提供了一种面向搜索排序的基于噪声注入主动学习的样本选取方法。该方法充分考虑了排序学习样本存在的查询-文本结构这一特性，提出了基于查询的主动学习和基于文本的主动学习，并结合成两阶段主动学习。该方法能够在初始训练数据不足之时更有效的选取样本，从而更高效的提升排序模型的性能，达到减少样本标注代价的目的。

本发明通过以下技术方案实现的，本发明对未标注样本采用噪声注入生成在当前排序模型下的分数分布，利用分数分布转换成排序分布，用DCG的方差度量排序分布表征不确定性，利用不确定性进行样本选样。

本发明上述的样本选取方法，按以下步骤操作：

首先为候选池中的无标注样本进行噪声注入，生成噪声样本集合；

随后用初始训练数据训练排序模型并对噪声样本集合里的样本进行预测，以此来获得初始候选池中每一个无标注样本在当前排序模型下的分数分布；

然后将分数分布转换成排序分布；

再利用DCG(Discounted Cumulative Gain折扣累计增益)度量样本的排序，利用DCG的方差来度量样本的排序分布；

最后选取DCG方差最大的前k个样本(实际中，通常会有多个专家同时标注数据，k的取值可根据样本的实际标注能力确定)。

本发明的原理是根据当前已有的排序模型，选取当前模型最不能确定的样本，从而可以用尽可能少的样本来提升模型的性能。在排序学习中，模型对当前的样本是否确定表现为对其排序是否确定。因此，通过噪声注入来获取样本的分数分布，利用样本的分数分布得到样本的排序分布，并用DCG的方差来度量排序的分布，以此来度量样本的不确定性，可以选取到最具信息量的样本。

与现有技术相比，本发明考虑了排序学习样本中所具有的查询-文本结构，设计了基于查询的主动学习和基于文本的主动学习，并结合成为两阶段主动学习，所提供的方法更符合搜索排序的特性。同时，本发明选取样本时仅仅只需要一个排序模型而不需要一组模型，对模型的精度要求不高，因此当初始训练样本不足之时，本发明能够更有效的选取样本，从而更快的提升模型性能，以减少标注样本所耗费的代价。

附图说明

图1是本发明中基于查询的主动学习流程图；

图2是本发明中基于文本的主动学习流程图；

图3是本发明中基于查询的主动学习与现有技术的比较图；

图4是本发明中基于文本的主动学习与现有技术的比较图；

图5是本发明中两阶段的主动学习与现有技术的比较图。

具体实施方式

下面对本发明的实施例作详细说明，以下实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例

本实施例针对搜索排序，使用百度所提供的商业搜索排序数据进行主动学习样本选取。本实施例选取当前信息检索领域最流行的二种评价标准，DCG10和MAP(Mean AveragePrecision平均准确度)进行效果评价，并且与已有的具有代表性的样本选取技术进行了实验比较。可以充分测试本发明的样本选取效果。本实施例包括如下步骤：

第一步骤，为无标注的样本进行噪声注入。

记e∈[0，1]为经过0-1标准化后的一个d维无标注样本，噪声注入表示如下：

e^m＝e+η

其中，e^m表示由一个样本注入噪声后产生m个噪声样本，η为一d维向量，且服从高斯分布p(η)～(μ，∑)，即：

p (η) = \frac{1}{{(2 π)}^{d / 2} {| Σ |}^{1 / 2}} \exp {- \frac{1}{2} {(η - μ)}^{T} Σ^{- 1} (η - μ)}

高斯参数设置如下：

通过为每一个无标注的样本注入高斯噪声之后，每一个样本生成了m个噪声样本，且这些噪声样本是环绕在初始样本的周围并具有高斯分布。m的取值可根据样本的特征维度确定，在本实施例中，设置m＝20。

第二步骤，获取样本的分数分布，并转化成排序分布。

用训练集训练一个排序模型f，并用f对噪声样本集进行预测。因此每一个文本有一个在当前模型下的分数分布，即：[s(e¹)，…，s(e^m)]。假设一个查询有n个相应的文本，则查询有一个相应的分数矩阵，表示如下：

当获得分数分布之后，可以转换成相应的排序分布。

查询的排序分布转换过程为：(1)根据文本的分数分布，为查询中的每一个文本的随机抽取一个分数，形成一个n维的分数向量。(2)对这个n维的分数向量进行排序，得到一个排序向量。(3)重复以上(1)(2)步骤N次(N的取值可根据样本周围的噪声样本数量m来确定)，即可得到查询的排序分布。本实施例中，查询的排序分布参数N＝400。

文本的排序分布转换过程为：(1)固定该文本所属查询的其余文本的分数。(2)从当前文本的分数分布下随机抽取一个分数，与其余已经固定的文本分数形成一个n维的分数向量。(3)对这个n维的分数向量进行排序，得到一个排序向量。(4)重复以上(2)(3)步骤N次，即可得到文本的排序分布。本实施例中，文本的排序分布参数N＝20。

第三步骤，度量不确定性

得到查询和文本的排序分布后，即可以度量其不确定性，本发明采用DCG度量排序，而用DCG的方差来度量排序的不确定性。DCG表示如下：

DCG (q) = Σ_{r = 1}^{R} \frac{2^{l (r)} - 1}{\log (1 + r)}

其中，l(r)表示在位置r的文本与查询q的相关性，相关性一般用5级分数表示，即{0，1，2，3，4}。分子2^l(r)-1表示增益，分母log(1+r)表示排序位置折扣，∑表示累积。

当每一个排序确定后，即可以求得相应的DCG作为排序的度量。当得到排序分布后，可以通过DCG的方差度量排序的不确定度：

VAR (DCG (q)) = \frac{1}{N - 1} Σ_{n = 1}^{N} (DCG (q) - \overset{&OverBar;}{DCG (q)})

\overset{&OverBar;}{DCG (q)} = \frac{1}{N} Σ_{n = 1}^{N} DCG (q)

其中，VAR(DCG(q))表示N个DCG的方差，

表示N个DCG的均值。

第四步骤，主动学习样本选取

本发明共有三种样本选取方法，分别是查询样本选取，文本样本选取，查询-文本两阶段样本选取。叙述如下：

1)查询样本选取

得到查询DCG的方差后，选取方差最大的查询，在实际中，通常是批处理(batch mode)模式选取样本，即一次选取k个样本。本实施例中，每次选取DCG方差最大的前50个查询，获得标注后，添加到训练样本集中，再次训练排序模型并重复以上选样步骤。本实施例共迭代10次。

2)文本样本选取

得到文本DCG的方差后，选取方差最大的文本，同样按照批处理模式，本实施例一次选取DCG方差最大的前500个文本，获得标注后添加到训练样本集合，重新训练排序模型并重复以上选样步骤，本实施例同样迭代10次。

3)查询-文本两阶段样本选取

两阶段选样即先选取查询，后在查询中选取文本。本实施例首先选取50个DCG方差最大的查询，然后在每个查询中选取DCG方差最大的前10个文本。获取标注后添加到训练集中，重新训练模型并重复以上步骤，本实施例同样迭代10次。

实施效果

依据上述步骤，对百度提供的商业搜索排序数据进行主动学习的样本选取实验。实验的排序学习模型为梯度提升决策树(Gradient Boosting Decision Tree)，并用本发明的选样方法与现有的具有代表性的技术进行了比较。

图3是基于查询的主动学习选样比较。横坐标表示每次选中的查询数目，紫色带三角形的曲线标记为LC-Q的是本发明的方法。黄色带圆圈的曲线和绿色带方块的曲线是现有的2种具有代表性的技术，分别记为ELO-Q和RANDOM-Q。图3(a)的纵坐标表示的是DCG10。可以看出，在DCG10指标上，本发明选择查询的效果在迭代初期最好，在迭代中后期和ELO-Q方法接近，比RANDOM-Q效果好。图3(b)的纵坐标表示的是MAP。可以看出在MAP指标上本发明的方法比另2种方法效果均好。由于样本的基本元素是文本而非查询，且每一个查询包含的文本数是不相同的，因此很有必要在基于查询的主动学习中比较相应的文本数。图3(c)比较了三种方法相对应的文本数。可以看出ELO-Q所包含的文本数最多，而本发明的方法LC-Q和RANDOM-Q所包含的文本数几乎一样。这就说明虽然在DCG10的指标上LC-Q和ELO-Q性能相当，但是所需要标注的文本数是相对比较少的。从而也体现出了本发明的优越性。

图4是基于文本的主动学习比较。横坐标表示每次选中的文本数目。LC-D是本发明的方法，并与ELO-D和RANDOM-D进行比较。图4(a)是在DCG10指标上的比较。图4(b)是在MAP指标上的比较。可以看出，本发明的方法，在这2个指标上都是明显好于其余的2种方法的。

图5是两阶段的主动学习比较。横坐标表示每次选中的查询数，在选定查询之后，每个查询均选取10个文本。LC-Q-D是本发明的方法，ELO-Q-D和RANDOM-Q-D是其余2种代表性方法。图5(a)是在DCG10指标上的比较。图5(b)是在MAP指标上的比较。从图中可以看出，在两阶段的主动学习中，本发明的方法依然是效果最好。

所有实验均在PC计算机Linux环境下用C++实现。

从以上实验可以看出，利用本发明的选样方法，可以在相同的样本下，使得排序模型性能提高的更加明显，从而达到节省标注样本代价的目的。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种面向搜索排序的基于噪声注入主动学习的样本选取方法，其特征在于：对未标注样本采用噪声注入生成在当前排序模型下的分数分布，利用分数分布转换成排序分布，用DCG的方差度量排序分布表征不确定性，利用不确定性进行样本选样。

2.根据权利要求1所述的面向搜索排序的基于噪声注入主动学习的样本选取方法，其特征是，由以下步骤构成：

然后将分数分布转换成排序分布；

再利用DCG度量样本的排序，利用DCG的方差来度量样本的排序分布；

最后样本选取，选取DCG方差最大的前k个样本。

3.根据权利要求1或2所述的面向搜索排序的基于噪声注入主动学习的样本选取方法，其特征是，所述的噪声注入，是将服从高斯分布噪声加在原始样本特征之上，从而在原始数据周围生成m个具有高斯分布的样本点，以此作为噪声注入方法。

4.根据权利要求1或2所述的面向搜索排序的基于噪声注入主动学习的样本选取方法，其特征是，所述的分数分布，是利用训练集训练出的排序模型对m个具有高斯分布的噪声样本点的预测分数，以此作为初始候选池中无标注样本的分数分布。

5.根据权利要求1或2所述的面向搜索排序的基于噪声注入主动学习的样本选取方法，其特征是，所述的排序分布，是在样本分数分布之下随机抽取预测分数并进行排序，重复N次得到的N个排序作为排序分布。

6.根据权利要求5所述的面向搜索排序的基于噪声注入主动学习的样本选取方法，其特征是，查询的排序分布转换过程为：

(1)根据文本的分数分布，为查询中的每一个文本的随机抽取一个分数，形成一个n维的分数向量；

(2)对这个n维的分数向量进行排序，得到一个排序向量；

(3)重复以上(1)(2)步骤N次，即得到查询的排序分布。

7.根据权利要求5所述的面向搜索排序的基于噪声注入主动学习的样本选取方法，其特征是，文本的排序分布转换过程为：

(1)固定该文本所属查询的其余文本的分数；

(2)从当前文本的分数分布下随机抽取一个分数，与其余已经固定的文本分数形成一个n维的分数向量；

(3)对这个n维的分数向量进行排序，得到一个排序向量；

(4)重复以上(2)(3)步骤N次，即得到文本的排序分布。

8.根据权利要求1或2所述的面向搜索排序的基于噪声注入主动学习的样本选取方法，其特征是，所述的样本选取方法，分别为查询样本选取，文本样本选取，或查询-文本两阶段样本选取。