CN109710736A

CN109710736A - 一种面向搜索排序的主动众包任务生成方法

Info

Publication number: CN109710736A
Application number: CN201811566627.8A
Authority: CN
Inventors: 张寅�; 杨璞; 胡滨
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-12-19
Filing date: 2018-12-19
Publication date: 2019-05-03
Anticipated expiration: 2038-12-19
Also published as: CN109710736B

Abstract

本发明公开了一种面向搜索排序的主动众包任务生成方法，属于数据处理方法领域。本发明利用了主动学习，在众包任务生成过程中考虑用户输入的查询词与排序模型的结果，不仅使得生成的众包任务适合当前工人，还提高了任务对模型的针对性，能更高效地提升排序学习模型的训练效率，大大节约了众包的人力与时间成本。

Description

一种面向搜索排序的主动众包任务生成方法

技术领域

本发明涉及主动学习方法在众包技术上的应用，尤其涉及众包系统中任务生成的技术方法。

背景技术

在信息爆炸的当下，信息检索广泛得出现在人们的日常生活中，并且其强调的重点已逐渐从获取与检索词相关的文件转向给出按照人们对信息的关心程度进行排序的文件列表。信息检索与搜索排序的方法也从传统方法向结合机器学习的排序学习方法(Learning to Rank)转移。此类方法与其他多数机器学习方法相似，是一种需要大量训练数据集进行模型训练的监督学习方法。

由于训练监督学习算法往往需要大量已标注数据，尤其是高质量的已标注数据。出于对时间、经济成本的考虑，越来越多的数据需求者选择充分利用社会资源而大大降低成本的众包模式作为得到数据集的方法。但人力资源、时间资源都非常宝贵，如何设计众包模式、选择众包任务从而用尽可能少的人力与时间尽可能多地提升模型的训练效率已成为众包过程中研究者们关注的问题。

基于用更少的资源得到更高质量数据集的需求，主动学习(Active Learning)成为很多研究者的选择。研究表明，在大多数模型训练中，更大的数据集并不一定带来更好的训练结果，主动学习意在主动选择那些对模型更难、信息量更大的数据进行学习，从而达到提升模型训练效果的目的。这种方法与尽量减少众包标注的时间与人力成本的目标不谋而合。因此，可以将主动学习应用于众包任务生成的技术中，以提高众包效率、降低成本。

在搜索排序场景中，用于训练排序学习模型的数据是经过预先标记的查询-文档对数据，即在该数据中，每个查询-文档对中均含有查询词、对应文档以及代表该查询词与文档之间的相关程度的系数值。这种标记数据中的系数值往往需要通过众包模式分发给工人进行人工打分标记。然而此类数据集往往十分庞大，对于每条数据均进行人工打分标记的时间成本、工人成本往往也无法承受。因此。受限于众包预算需要选择一种优化的搜索排序场景中众包任务生成策略。

发明内容

本发明的目的在于解决现有技术中搜索排序场景中众包任务生成策略存在的问题，并提供一种面向搜索排序的主动众包任务生成方法。

本发明的发明构思是利用主动学习形成搜索排序场景中的众包任务生成策略。对于某个具体目标的众包应用，本发明首先根据已标注的数据训练排序模型，得到模型打分不确定性最大的区间，再根据用户输入的查询词得到落在不确定性最大区间的查询-文档对，以此作为众包任务。

本发明所采用的具体技术方案如下：

一种面向搜索排序的主动众包任务生成方法，其步骤如下：

1)利用已标注数据训练排序学习模型(Learning to rank)，得到训练好的排序模型；所述的已标注数据为已经过人工打分的查询-文档对，打分分值反映查询词与文档的相关程度；

2)利用1)中训练好的排序模型对已标注数据进行打分，并对得到的打分进行最大最小归一化，使所有已标注数据的打分结果归一化后的分数值区间与人工打分的分数值区间相同；

3)将所述的分数值区间划分为若干个子区间，然后对2)中每个已标注数据归一化后的模型打分分数与人工打分的分数进行求差，计算归一化后的模型打分分数落在每个子区间中的数据集对应的分数平均差值，计算方法为：

式中：x_i表示第i个子区间中的数据集对应的分数平均差值，n_i为归一化后的模型打分分数落在第i个子区间中的已标注数据个数；y_ij为落在第i个子区间中的第j个已标注数据归一化后的模型打分分数与人工打分分数差值；

4)根据3)中得到的x_i值，按照x_i值从大到小的顺序对所有子区间进行排序，得到排序最靠前的子区间；

5)获取用户进行文档检索时输入的查询词，并将查询词与文档库中的所有文档进行匹配，形成若干查询-文档对；

6)利用1)中训练好的排序模型对5)中的所有查询-文档对进行打分，按照打分结果向用户返回检索结果；

7)将6)中所有查询-文档对的打分结果进行最大最小归一化，归一化后的分数值区间与所述人工打分的分数值区间相同；

8)从6)中经过打分的所有查询-文档对中，筛选出未经过人工打分标记的查询-文档对，然后从中选取归一化后的模型打分分数落在所述排序最靠前的子区间中的查询-文档对，作为众包任务分发给工人进行人工打分标记；

9)收集得到众包任务的反馈结果，并将结果计入已标注数据中；

10)循环执行步骤1)～9)，不断生成众包任务并进行标记后用于训练排序学习模型，直至达到终止条件。

作为优选，所述的排序学习模型包括LambdaMART、AdaBoost。

作为优选，所述的终止条件为已耗尽所有众包预算或1)中训练好的排序模型已达到预定性能要求。

进一步的，所述的众包预算包括时间成本和工人成本。

作为优选，所述众包任务的反馈结果中，每一条数据均包含对查询-文档对中查询词与文档相关程度的打分值。

和现有技术相比，本发明利用了主动学习，在众包任务生成过程中考虑用户输入的查询词与排序模型的结果，不仅使得生成的众包任务适合当前工人，还提高了任务对模型的针对性，能更高效地提升排序学习模型的训练效率，大大节约了众包的人力与时间成本。

附图说明

图1为实施例中LambdaMART排序学习模型上的实验结果；

图2为实施例中AdaBoost排序学习模型上的实验结果。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下，均可进行相应组合。

如图1所示，本实施方式中的一种面向搜索排序的主动众包任务生成方法，其步骤如下：

1)训练得到排序模型：

查询-文档对数据集中，一般有部分已经经过人工标记，而还有大量未经过人工标记。首先，利用已标注数据训练排序学习模型，得到训练好的排序模型。此处对排序学习模型无特殊要求，可选取的模型包括LambdaMART，AdaBoost等。其中，已标注数据为已经过人工打分的查询-文档对，打分分值反映查询词与文档的相关程度。此处，打分分值包括0分、1分和2分，0分代表查询词与文档不相关，1分代表分代表查询词与文档不确定相关，2分代表查询词与文档很相关。

2)得到已标注数据打分：

利用1)中训练好的排序模型对已标注数据进行打分，并对得到的打分进行最大最小归一化，使所有已标注数据的打分结果归一化后的分数值区间与人工打分的分数值区间相同，即也归一化到0～2分区间。

3)计算每个区间人工、模型打分的平均差值：

将分数值区间划分为N个子区间，然后对2)中每个已标注数据归一化后的模型打分分数与人工打分的分数进行求差，作为该条数据的误差。计算归一化后的模型打分分数落在每个子区间中的数据集对应的分数平均差值(即平均误差)，计算方法为：

式中：x_i表示第i个子区间中的数据集对应的分数平均差值，n_i为归一化后的模型打分分数落在第i个子区间中的已标注数据个数；y_ij为落在第i个子区间中的第j个已标注数据归一化后的模型打分分数与人工打分分数差值，计算方法为归一化后的模型打分分数减去人工打分分数差值。

4)得到子区间不确定性的排序：根据3)中得到的x_i值，按照x_i值从大到小的顺序对所有子区间进行排序，得到排序最靠前的子区间。子区间的差值之和越大即该子区间不确定性越高，也就是模型打分落在该区间数据的不确定性越高，因此该子区间的数据有必要通过人工打分标记，以进一步提高排序模型的准确性。

5)得到用户输入的查询词并得到查询-文档的匹配对：

获取用户进行文档检索时输入的查询词，并将查询词与文档库中的所有文档进行匹配，形成若干查询-文档对；

6)得到查询-文档对的打分：

利用1)中训练好的排序模型对5)中的所有查询-文档对进行打分，按照打分结果正常向用户返回检索结果。一般而言，分值越高代表某一文档与用户输入的查询词越接近，因此其搜索排序应当更靠前。

返回检索结果为搜索的正常流程，但在本发明中此处需要引入主动学习形成搜索排序场景中的众包任务生成策略，选出偏差最大的数据用于众包分配，以提高排序学习模型训练数据集的准确性。其具体做法下面进行详述。

7)打分结果归一化：

将6)中所有查询-文档对的打分结果进行最大最小归一化，归一化后的分数值区间与前述的人工打分的分数值区间相同，即也归一化到0～2分区间。

8)在6)中经过打分的所有查询-文档对含有已经经过人工打分标记的数据，也含有未经过标记的数据。因此需要从6)中经过打分的所有查询-文档对中，筛选出未经过人工打分标记的查询-文档对，然后查看这些查询-文档对的归一化后的模型打分分数，若它落在步骤4)中确定的排序最靠前的子区间中，则表明它们可能是不确定性较高的数据，将它们作为众包任务分发给工人进行人工打分标记。

9)收集得到众包任务的反馈结果，众包任务的反馈结果中，每一条数据均包含对查询-文档对中查询词与文档相关程度的打分值。将结果计入已标注数据中，完善数据集，用于重新训练排序模型。

10)循环执行步骤1)～9)，不断生成众包任务并进行标记后用于训练排序学习模型，直至达到终止条件。终止条件可以是已耗尽所有众包预算，例如时间成本或工人成本已达到预设值，也可以是1)中训练好的排序模型已达到预定性能要求，例如误差值已经小于阈值。

该技术可以根据不同排序模型的需要，选择模型最不确定，也是最需要得到标注结果的数据作为众包任务进行分发，有效的提高了模型训练的效率，降低了众包成本。

实施例

为了验证本发明的效果，选取了收录于LETOR4.0的OHSUMED数据集对众包流程进行模拟。该数据集来源于医药信息数据库MEDLINE10，包含了标题、摘要、索引词等信息。LETOR4.0对此数据集的查询-文档对的特征进行了抽取与整理。整个数据集包含106个查询，每个查询平均对应152个文件，每个查询-文档对抽取了45维的特征。在排序算法选择方面，我们选用了开源的Ranklib包实现的LambdaMART与AdaRank算法作为实验对象，将上述算法与随机生成众包任务进行比较。在实验中，人工打标的数值为0、1、2，其中0为查询词与文档不相关，2为很相关，1则为不确定，分数划分的区间为N＝20个。按照上述具体实施方式所述方法生成包含相同条目的众包任务，并利用条目对应的标注数据训练排序学习模型得到排序模型。同时，以相同的数据按照随机挑选众包数据的方式作为对比，其与本发明的区别仅在于众包任务的标注数据是从未标注数据中随机挑选的。最后，以两个排序模型在测试集上利用较差验证方法得到的NDCG@10的大小比较两种方法的优劣，实验结果如图1和2所示。从图中可以看出，本发明相对于传统的随机挑选方法，通过结合主动学习与用户搜索词，本发明不仅保证了形成的任务与工人熟悉的领域互相匹配，保障了众包的质量，同时使得标注的数据更有利于提高模型性能，大幅提高效率，降低成本。

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种面向搜索排序的主动众包任务生成方法，其特征在于，步骤如下：

1)利用已标注数据训练排序学习模型，得到训练好的排序模型；所述的已标注数据为已经过人工打分的查询-文档对，打分分值反映查询词与文档的相关程度；

2.如权利要求1所述的面向搜索排序的主动众包任务生成方法，其特征在于，所述的排序学习模型包括LambdaMART、AdaBoost。

3.如权利要求1所述的面向搜索排序的主动众包任务生成方法，其特征在于，所述的终止条件为已耗尽所有众包预算或1)中训练好的排序模型已达到预定性能要求。

4.如权利要求1所述的面向搜索排序的主动众包任务生成方法，其特征在于，所述的众包预算包括时间成本和工人成本。

5.如权利要求1所述的面向搜索排序的主动众包任务生成方法，其特征在于，所述众包任务的反馈结果中，每一条数据均包含对查询-文档对中查询词与文档相关程度的打分值。