CN104317894A

CN104317894A - 样本标注的确定方法和装置

Info

Publication number: CN104317894A
Application number: CN201410573516.5A
Authority: CN
Inventors: 胡光; 胡殿明; 刘洪�; 魏伟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-10-23
Filing date: 2014-10-23
Publication date: 2015-01-28
Anticipated expiration: 2034-10-23
Also published as: CN104317894B

Abstract

本发明提出一种样本标注的确定方法和装置，该样本标注的确定方法包括：对线上反馈数据进行抽取，获得初始模型训练数据；从所述初始模型训练数据中提取场景特征，并将所述场景特征添加到所述初始模型训练数据中，获得样本数据；针对每组样本数据计算样本质量度，根据每组样本数据对应的样本质量度对每组样本数据进行标注；对标注后的样本数据进行学习，生成模型，并利用所述模型预测新的样本数据的标注。本发明在多示例学习问题中，在进行样本标注时，可以减少人工的参与，节省了大量人工，进而可以提高标注效率。

Description

样本标注的确定方法和装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种样本标注的确定方法和装置。

背景技术

在多示例学习中，样本是由多个示例组成的包，多示例学习是在包的粒度对样本进行标注，而每个样本中包含若干个示例，这些示例并无标注。若某个样本被标注为正例，则该样本中至少有一个正例；反之，若某个样本被标注为负例，则该样本中的所有示例为负例。多示例学习的目的就是通过对这些标注的样本的学习，尽可能准确地对新的样本做出判断。

在多示例学习问题中，现有技术主要通过人工对样本进行筛选和标注，这种标注方式的人工成本高，标注效率低。

发明内容

本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种样本标注的确定方法。通过该方法，针对每组样本数据计算样本质量度，根据每组样本数据对应的样本质量度对每组样本数据进行标注，节省了大量人工，进而可以提高标注效率。

本发明的第二个目的在于提出一种样本标注的确定装置。

为了实现上述实施例，本发明第一方面实施例的样本标注的确定方法，包括：对线上反馈数据进行抽取，获得初始模型训练数据；从所述初始模型训练数据中提取场景特征，并将所述场景特征添加到所述初始模型训练数据中，获得样本数据；针对每组样本数据计算样本质量度，根据每组样本数据对应的样本质量度对每组样本数据进行标注；对标注后的样本数据进行学习，生成模型，并利用所述模型预测新的样本数据的标注。

本发明实施例的样本标注的确定方法，通过对线上反馈数据进行抽取，获得初始模型训练数据，从上述初始模型训练数据中提取场景特征，并将上述场景特征添加到上述初始模型训练数据中，获得样本数据；然后针对每组样本数据计算样本质量度，并根据每组样本数据对应的样本质量度对每组样本数据进行标注，从而在多示例学习问题中，在进行样本标注时，可以减少人工的参与，节省了大量人工，进而可以提高标注效率。

为了实现上述实施例，本发明第二方面实施例的样本标注的确定装置，包括：抽取模块，用于对线上反馈数据进行抽取，获得初始模型训练数据；提取模块，用于从所述抽取模块获得的初始模型训练数据中提取场景特征；添加模块，用于将所述提取模块提取的场景特征添加到所述初始模型训练数据中，获得样本数据；计算模块，用于针对所述添加模块获得的每组样本数据计算样本质量度；标注模块，用于根据所述计算模块计算的每组样本数据对应的样本质量度对每组样本数据进行标注；生成模块，用于对所述标注模块标注后的样本数据进行学习，生成模型；确定模块，用于利用所述生成模块生成的模型预测新的样本数据的标注。

本发明实施例的样本标注的确定装置，抽取模块通过对线上反馈数据进行抽取，获得初始模型训练数据，提取模块从上述初始模型训练数据中提取场景特征，添加模块将上述场景特征添加到上述初始模型训练数据中，获得样本数据；然后计算模块针对每组样本数据计算样本质量度，并由标注模块根据每组样本数据对应的样本质量度对每组样本数据进行标注，从而在多示例学习问题中，在进行样本标注时，可以减少人工的参与，节省了大量人工，进而可以提高标注效率。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明样本标注的确定方法一个实施例的流程图；

图2为本发明添加场景特征前后的模型性能一个实施例的对比示意图；

图3为本发明样本标注的确定装置一个实施例的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1为本发明样本标注的确定方法一个实施例的流程图，如图1所示，该样本标注的确定方法可以包括：

步骤101，对线上反馈数据进行抽取，获得初始模型训练数据。

步骤102，从上述初始模型训练数据中提取场景特征，并将上述场景特征添加到上述初始模型训练数据中，获得样本数据。

本实施例对多示例学习问题进行场景化定义，从初始模型训练数据中提取场景特征，再添加进上述初始模型训练数据中，作为每次迭代时的样本数据。例如：对于硬盘预警问题来说，场景特征就是硬盘所在的机房和硬盘型号，通过提取和添加场景特征，模型性能有了较大提升：准确率提升40％，误报率降低11％，如图2所示，图2为本发明添加场景特征前后的模型性能一个实施例的对比示意图。图2中，曲线1代表加入了场景特征的模型性能的受试者工作特征曲线(Receiver Operating Characteristic Curve；以下简称：ROC)评估曲线，曲线2代表没有添加场景特征的模型性能的ROC评估曲线。

步骤103，针对每组样本数据计算样本质量度，根据每组样本数据对应的样本质量度对每组样本数据进行标注。

具体地，针对每组样本数据计算样本质量度可以为：针对每组样本数据，在期望时长内，根据上述期望时长内的示例数量、上述期望时长内模型首次预测正例的时间点、首次预测正例后的预测总次数和上述预测总次数内正例的预测数量计算上述样本质量度。

对于第i组样本数据，如果上述期望时长内的示例数量为S_i，上述期望时长内模型首次预测正例的时间点为P_i，首次预测正例后的预测总次数为N_i，上述预测总次数内正例的预测数量为P_Ni，则上述样本质量度可以为：(P_Ni/N_i)×(S_i-N_i)/S_i。

可选地，在实际应用中，对于每一组样本数据计算样本质量度，计算出每组样本数据对应的样本质量度之后，对于样本质量度不大于20％的样本数据可以直接舍弃，不作为模型迭代的训练数据使用，仅对样本质量度大于20％的样本数据进行标注。然后在标注样本数据时，可以将样本数据中N_i条示例标注为正例，并将(T×样本质量度/10)条示例也标注为正例，除此之外的此样本数据中的其余示例均标注为负例。这样，配合迭代系统，就可以随着模型的不断迭代，逼近问题的最优分界面。其中，N_i即为首次预测正例后的预测总次数，T为上述期望时长。以上仅为根据样本质量度对每组样本数据进行标注的一种示例，本发明并不仅限于此，本发明对根据样本质量度对每组样本数据进行标注的方式不作限定。

从上述计算样本质量度的公式中可以看出，样本质量度反映了不同样本数据对于模型性能提升的帮助作用。原本模型就能100％预测出来的样本数据，公式会给出0％的样本质量度，原本模型就预测不出来的样本数据，公式也会给出0％的样本质量度，这样是符合实际情况的。在实际应用中，基于样本质量度获得实际样本标注策略，使得模型性能在迭代过程中有了进一步提升。

本实施例中，针对每组样本数据计算样本质量度可以为：根据上述线上反馈数据对每组样本数据进行筛选，对选择的样本数据计算样本质量度。也就是说，在计算样本质量度时，可以先根据线上反馈数据对样本数据进行筛选，选择疑似正例的样本数据，对疑似正例的样本数据再按照上面介绍的计算样本质量度的方法计算样本质量度。

步骤104，对标注后的样本数据进行学习，生成模型，并利用上述模型预测新的样本数据的标注。

举例来说，可以利用机器学习算法对标注后的样本数据进行学习，生成模型，本发明实施例对学习样本数据所采用的算法不作限定。

上述实施例中，通过对线上反馈数据进行抽取，获得初始模型训练数据，从上述初始模型训练数据中提取场景特征，并将上述场景特征添加到上述初始模型训练数据中，获得样本数据；然后针对每组样本数据计算样本质量度，并根据每组样本数据对应的样本质量度对每组样本数据进行标注，从而在多示例学习问题中，在进行样本标注时，可以减少人工的参与，节省了大量人工，进而可以提高标注效率，并且能够使得多示例学习问题中模型的迭代更新效率更高，模型性能通过加入场景特征及样本质量度指标在不断迭代过程当中持续提升，持续适应线上实际情况。

图3为本发明样本标注的确定装置一个实施例的结构示意图，本实施例中的样本标注的确定装置可以实现本发明图1所示实施例的流程，如图3所示，该样本标注的确定装置可以包括：抽取模块31、提取模块32、添加模块33、计算模块34、标注模块35、生成模块36和确定模块37；

其中，抽取模块31，用于对线上反馈数据进行抽取，获得初始模型训练数据。

提取模块32，用于从抽取模块31获得的初始模型训练数据中提取场景特征。

添加模块33，用于将提取模块32提取的场景特征添加到上述初始模型训练数据中，获得样本数据。

具体地，本实施例对多示例学习问题进行场景化定义，提取模块32从初始模型训练数据中提取场景特征，再由添加模块33将场景特征添加进上述初始模型训练数据中，作为每次迭代时的样本数据。例如：对于硬盘预警问题来说，场景特征就是硬盘所在的机房和硬盘型号，通过提取和添加场景特征，模型性能有了较大提升：准确率提升40％，误报率降低11％，如图2所示。图2中，曲线1代表加入了场景特征的模型性能的ROC评估曲线，曲线2代表没有添加场景特征的模型性能的ROC评估曲线。

计算模块34，用于针对添加模块33获得的每组样本数据计算样本质量度。本实施例中，计算模块34，具体用于针对每组样本数据，在期望时长内，根据上述期望时长内的示例数量、上述期望时长内模型首次预测正例的时间点、首次预测正例后的预测总次数和上述预测总次数内正例的预测数量计算上述样本质量度。

对于第i组样本数据，如果上述期望时长内的示例数量为S_i，上述期望时长内模型首次预测正例的时间点为P_i，首次预测正例后的预测总次数为N_i，上述预测总次数内正例的预测数量为P_Ni，则计算模块34按照下式计算上述样本质量度：(P_Ni/N_i)×(S_i-N_i)/S_i。

另外，本实施例中，计算模块34也可以根据上述线上反馈数据对每组样本数据进行筛选，对选择的样本数据计算样本质量度。也就是说，在计算模块34计算样本质量度时，可以先根据线上反馈数据对样本数据进行筛选，选择疑似正例的样本数据，对疑似正例的样本数据再按照上面介绍的计算样本质量度的方法计算样本质量度。

标注模块35，用于根据计算模块34计算的每组样本数据对应的样本质量度对每组样本数据进行标注。

可选地，在实际应用中，计算模块34对于每一组样本数据计算样本质量度，计算模块34计算出每组样本数据对应的样本质量度之后，对于样本质量度不大于20％的样本数据可以直接舍弃，不作为模型迭代的训练数据使用，标注模块35仅对样本质量度大于20％的样本数据进行标注。然后标注模块35在标注样本数据时，可以将样本数据中N_i条示例标注为正例，并将(T×样本质量度/10)条示例也标注为正例，除此之外的此样本数据中的其余示例均标注为负例。这样，配合迭代系统，就可以随着模型的不断迭代，逼近问题的最优分界面。其中，N_i即为首次预测正例后的预测总次数，T为上述期望时长。以上仅为标注模块35根据样本质量度对每组样本数据进行标注的一种示例，本发明并不仅限于此，本发明对根据样本质量度对每组样本数据进行标注的方式不作限定。

生成模块36，用于对标注模块35标注后的样本数据进行学习，生成模型；举例来说，可以利用机器学习算法对标注模块35标注后的样本数据进行学习，生成模型，本发明实施例对生成模块36学习样本数据所采用的算法不作限定。

确定模块37，用于利用生成模块36生成的模型预测新的样本数据的标注。

上述实施例中，抽取模块31通过对线上反馈数据进行抽取，获得初始模型训练数据，提取模块32从上述初始模型训练数据中提取场景特征，并由添加模块33将上述场景特征添加到上述初始模型训练数据中，获得样本数据；然后计算模块34针对每组样本数据计算样本质量度，标注模块35根据每组样本数据对应的样本质量度对每组样本数据进行标注，从而在多示例学习问题中，在进行样本标注时，可以减少人工的参与，节省了大量人工，进而可以提高标注效率，并且能够使得多示例学习问题中模型的迭代更新效率更高，模型性能通过加入场景特征及样本质量度指标在不断迭代过程当中持续提升，持续适应线上实际情况。

需要说明的是，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(Programmable Gate Array；以下简称：PGA)，现场可编程门阵列(Field ProgrammableGate Array；以下简称：FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种样本标注的确定方法，其特征在于，包括：

对线上反馈数据进行抽取，获得初始模型训练数据；

从所述初始模型训练数据中提取场景特征，并将所述场景特征添加到所述初始模型训练数据中，获得样本数据；

针对每组样本数据计算样本质量度，根据每组样本数据对应的样本质量度对每组样本数据进行标注；

对标注后的样本数据进行学习，生成模型，并利用所述模型预测新的样本数据的标注。

2.根据权利要求1所述的方法，其特征在于，所述针对每组样本数据计算样本质量度包括：

针对每组样本数据，在期望时长内，根据所述期望时长内的示例数量、所述期望时长内模型首次预测正例的时间点、首次预测正例后的预测总次数和所述预测总次数内正例的预测数量计算所述样本质量度。

3.根据权利要求2所述的方法，其特征在于，对于第i组样本数据，如果所述期望时长内的示例数量为S_i，所述期望时长内模型首次预测正例的时间点为P_i，首次预测正例后的预测总次数为N_i，所述预测总次数内正例的预测数量为P_Ni，则所述样本质量度为：(P_Ni/N_i)×(S_i-N_i)/S_i。

4.根据权利要求1-3任意一项所述的方法，其特征在于，所述针对每组样本数据计算样本质量度包括：

根据所述线上反馈数据对所述每组样本数据进行筛选，对选择的样本数据计算样本质量度。

5.一种样本标注的确定装置，其特征在于，包括：

抽取模块，用于对线上反馈数据进行抽取，获得初始模型训练数据；

提取模块，用于从所述抽取模块获得的初始模型训练数据中提取场景特征；

添加模块，用于将所述提取模块提取的场景特征添加到所述初始模型训练数据中，获得样本数据；

计算模块，用于针对所述添加模块获得的每组样本数据计算样本质量度；

标注模块，用于根据所述计算模块计算的每组样本数据对应的样本质量度对每组样本数据进行标注；

生成模块，用于对所述标注模块标注后的样本数据进行学习，生成模型；

确定模块，用于利用所述生成模块生成的模型预测新的样本数据的标注。

6.根据权利要求5所述的装置，其特征在于，

所述计算模块，具体用于针对每组样本数据，在期望时长内，根据所述期望时长内的示例数量、所述期望时长内模型首次预测正例的时间点、首次预测正例后的预测总次数和所述预测总次数内正例的预测数量计算所述样本质量度。

7.根据权利要求6所述的装置，其特征在于，对于第i组样本数据，如果所述期望时长内的示例数量为S_i，所述期望时长内模型首次预测正例的时间点为P_i，首次预测正例后的预测总次数为N_i，所述预测总次数内正例的预测数量为P_Ni，则所述计算模块按照下式计算所述样本质量度：

(P_Ni/N_i)×(S_i-N_i)/S_i。

8.根据权利要求5-7任意一项所述的装置，其特征在于，

所述计算模块，具体用于根据所述线上反馈数据对所述每组样本数据进行筛选，对选择的样本数据计算样本质量度。