CN111046979A

CN111046979A - 一种基于小样本学习的badcase发现方法及系统

Info

Publication number: CN111046979A
Application number: CN202010173479.4A
Authority: CN
Inventors: 郭涛; 江岭
Original assignee: Chengdu Xiaoduo Technology Co Ltd
Current assignee: Chengdu Xiaoduo Technology Co Ltd
Priority date: 2020-03-13
Filing date: 2020-03-13
Publication date: 2020-04-21

Abstract

本发明公开了一种基于小样本学习的badcase发现方法及系统，该系统应用该方法，方法包括数据预处理，从已标注训练语料中随机获取多个小样本，并将样本分为支持集和目标集；模型预训练，将样本输入基础模型与两种注意力机制的结合，训练得到badcase发现模型；预测数据组装，根据线上预测结果语义，从已标注训练语料中获取线上预测结果语义下的小样本，并与待预测句子组成预测数据；数据预测，将预测数据输入badcase发现模型，预测得到待预测句子的预测语义，对比预测语义和线上预测结果语义，判断待预测句子是否为badcase。采用本方法进行badcase发现能够在海量的数据中快速定位并准确到分错数据。

Description

一种基于小样本学习的badcase发现方法及系统

技术领域

本发明属于计算机数据处理技术领域，具体地说涉及一种基于小样本学习的badcase发现方法及系统。

背景技术

在有监督分类学习中，在线下测试集效果良好的模型在线上应用时候效果往往会有一定的差距，这需要针对这些差距不断的进行优化，让模型在线上应用的效果越来越好。这些差距的表现就是模型对线上数据进行预测应用时，预测分错的数据（常称为badcase）比例会偏高，优化的过程需要找到这些预测分错的数据，然后针对性的分析错误的原因并解决。而线上数据量是非常庞大的，往往是百万千万甚至是亿级别的访问量，如果依靠人力，在如此庞大的数据中定位到分错数据（badcase）非常耗时耗力。

现有的定位分错数据的技术包括随机抽样技术和预测模型预置选取方式两种。采用随机抽样技术（random sample），对线上预测结果随机几千条，然后交予人工进行标注评判，人力有限，随机覆盖范围少，无法覆盖尽量多的badcase。采用预测模型阈值选取方式（如预测概率阈值在0.5~0.7之间），对阈值内的数据重点进行人工筛选评判，数据源有偏，无法发现预测概率高的badcase。

申请号为2019100115385的发明专利公开了一种基于注意力神经网络的小样本学习图像识别方法，方法包括如下步骤：步骤S1：将样本图片经过神经网络处理，得到该图片的特征向量；步骤S2：将同一类别图片的特征向量经过注意力网络处理，得到图片的特征注意力向量；步骤S3：将特征注意力向量与特征向量相乘得到注意力修正后的特征向量；步骤S4：将注意力修正后的特征向量求平均值得到同一类别的特征向量；步骤S5：将待处理的图片经过神经网络处理，得到待处理图片的特征向量；步骤S6：将待处理图片的特征向量与同一类别的特征向量进行距离远近的对比，得到待处理图片的所属类别，解决了当样本数据量比较少时可以进行图片分类同时能一定程度上减少图片背景干扰，提高识别准确率的问题。

该方案中主要是应用注意力神经网络在样本较小的情况下实现对图像进行分类，不涉及对badcase的发现，因此，需要通过新的技术的方法在海量的数据中快速定位并准确到分错数据，以提高发现分错数据的效率。

发明内容

针对现有技术中上述的不足，本发明提供基于小样本学习的badcase发现方法及系统，该系统应用该方法，该方法在基础网络的基础上引入了两种注意力机制，一方面从技术上减少错误实例和语义偏差较大的实例对语义原型的学习偏差，另一方面突出特征空间中重要的特征维度，用以缓解特征稀疏的问题。采用本方法进行badcase发现能够在海量的数据中快速定位并准确到分错数据。

为了达到上述目的，本发明采用的解决方案是：一种基于小样本学习的badcase发现方法，包括如下步骤：

S1:数据预处理，从已标注训练语料中随机获取多个小样本，并将样本分为支持集和目标集，所述的小样本采用N-way K-shot的数据形式，N表示每个小训练批次包括的语义个数，K表示每个语义下的训练样本个数。已标注训练语料是模型在上线前的训练过程中使用的预料，该语料在模型训练前已经标注过，在badcase发现过程中属于再次使用，不会增加额外的数据标注成本。

S2：模型预训练，将样本输入基础模型与两种注意力机制的结合，训练得到badcase发现模型，具体包括:

S201:将支持集和目标集分别输入基础网络，例如，原型网络Prototypical Networks或Siamese Network；

S202：支持集和目标集的样本各自经过encoder模块的编码，得到统一维度的向量，目标集产出向量为X；

S203：支持集内各个样本的向量分别计算特征级注意力F并经过权重求和得到输出每个支持集的向量Zi；

S204：支持集内各个样本的向量分别与目标集的向量X一起计算实例级注意力I并经过权重求和得到每个支持集的输出向量Ci；

S205：进行距离度量计算，得到和目标集向量X最接近的支持集，距离度量计算采用距离度量公式di=Zi*[Ci-x]²进行计算；

S206：根据最接近的支持集与目标集的真实标签进行损失函数计算，更新模型参数；

S207：迭代循环，直到损失函数值趋于稳定，得到badcase发现模型。

S3：预测数据组装，根据线上预测结果语义，从已标注训练语料中获取线上预测结果语义下的小样本，并与待预测句子组成预测数据，预测数据包括支持集和目标集，支持集为从已标注训练语料中获取的线上预测结果语义下的小样本，目标集为待预测句子，预测数据的支持集来自三个方向，分别为以词为单位，与分词后的预测句子重合频次最多的样本、主动学习样本或随机样本，这三个方面的样本为优质样本，有利于提高预测准确率。

S4：数据预测，将预测数据输入badcase发现模型，预测得到待预测句子的预测语义，对比预测语义和线上预测结果语义，判断待预测句子是否为badcase，当预测语义和线上预测结果语义不一致时，则待预测句子为badcase。

基于小样本学习的badcase发现系统，包括训练数据处理单元、模型训练单元、待预测数据组装单元和数据预测单元，所述的训练数据处理单元从已标注训练预料中随机获取多个小样本，并将样本分为支持集和目标集；所述的模型训练单元将样本输入基础模型与两种注意力机制的结合，训练得到badcase发现模型；所述的待预测数据组装单元根据线上预测结果语义，从已标注训练语料中获取线上预测结果语义下的小样本，并与待预测句子组成预测数据；所述的数据预测单元将预测数据输入badcase发现模型，预测得到待预测句子的预测语义，对比预测语义和线上预测结果语义，判断待预测句子是否为badcase。

本发明的有益效果是：

（1）该方法在基础网络的基础上引入了两种注意力机制，一方面从技术上减少错误实例和语义偏差较大的实例对语义原型的学习偏差，另一方面突出特征空间中重要的特征维度，用以缓解特征稀疏的问题。采用本方法进行badcase发现能够在海量的数据中快速定位并准确到分错数据。

（2）实际应用效果来看对比纯粹人工审核，识别准确率可达到人工审核的65%，但耗费时间减少80%。

附图说明

图1为本发明badcase发现方法流程图；

图2本基于混合注意力的原型网络示意图；

图3为本发明badcase发现系统框图。

具体实施方式

以下结合附图对本发明作进一步描述：

如图1所示，一种基于小样本学习的badcase发现方法，包括如下步骤：

S1:数据预处理，从已标注训练语料中随机获取多个小样本，并将样本分为支持集和目标集，所述的小样本采用N-way K-shot的数据形式，N表示每个小训练批次包括的语义个数，K表示每个语义下的训练样本个数，N一般小于100，K一般小于20。每一个小训练过程数据分为支持集和目标集，一般均采用同样的 N-way K-shot形式，模型在支持集进行一次训练后，会在配对的目标集下求得模型的loss（损失函数值），用于反向传播更新模型参数。已标注训练语料是模型在上线前的训练过程中使用的预料，该语料在模型训练前已经标注过，在badcase发现过程中属于再次使用，不会增加额外的数据标注成本。

S2：模型预训练，将样本输入基础模型与两种注意力机制的结合，训练得到badcase发现模型，采用原型网络Prototypical Networks的模型如图2所示，具体预训练过程包括:

S201:将支持集和目标集分别输入原型网络；

S202：支持集和目标集的样本各自经过encoder模块的编码，得到统一维度的向量，目标集产出向量为X，由于同一个训练批次中包括多个支持集，且一个支持集中包括多个样本，在后续训练过程说明中，仅使用支持集#1来进行说明。

S203：支持集内各个样本的向量分别计算特征级注意力F并经过权重求和得到输出每个支持集的向量Zi，在这个过程中，支持集#1中的第一个样本的向量x11计算特征级注意力F的结果，表示为F11；第二个样本的向量x12计算特征级注意力F的结果，表示为F12，......，第K个样本的向量x1K计算特征级注意力F的结果，表示为F1K，将F11、F12、...F1K进行加权求和，得到向量Z1，同理，得到其他支持集的向量用于后续距离度量计算。

S204：支持集内各个样本的向量分别与目标集的向量X一起计算实例级注意力I并经过权重求和得到每个支持集的输出向量Ci，在这个过程中，支持集#1中的第一个样本的向量x11与目标集的向量X一起计算实例级注意力I的结果，表示为I11；第二个样本的向量x12与目标集的向量X一起计算实例级注意力I的结果，表示为I12，......，第K个样本的向量x1K与目标集的向量X一起计算实例级注意力I的结果，表示为I1K，将I11、I12、...I1K进行加权求和，得到向量C1，同理，得到其他支持集的向量用于后续距离度量计算。

S205：进行距离度量计算，得到和目标集向量X最接近的支持集，距离度量计算采用距离度量公式di=Zi*[Ci-x]²进行计算，计算得到di最小的支持集为与目标集向量X最接近的支持集；

如图3所示，基于小样本学习的badcase发现系统，包括训练数据处理单元、模型训练单元、待预测数据组装单元和数据预测单元，所述的训练数据处理单元从已标注训练预料中随机获取多个小样本，并将样本分为支持集和目标集；所述的模型训练单元将样本输入基础模型与两种注意力机制的结合，训练得到badcase发现模型；所述的待预测数据组装单元根据线上预测结果语义，从已标注训练语料中获取线上预测结果语义下的小样本，并与待预测句子组成预测数据；所述的数据预测单元将预测数据输入badcase发现模型，预测得到待预测句子的预测语义，对比预测语义和线上预测结果语义，判断待预测句子是否为badcase。

在本发明的一个实施例中，线上预测结果，已经有用户句子q以及线上模型预测结果语义y，要使用本发明中预训练得到的模型进行预测，在进行预训练数据组装时，需要在标注的训练集中挑选预测结果语义y下的训练样本K个，得到该语义y下的支持集，目标集为线上预测句子，将该系列的数据构造为N-way K-shot样式，即完成了预测数据组装。然后将预测数据组装后的支持集和目标集输入到训练好的模型，计算得到该用户句子q的预测语义y′，对比当前模型预测语义y′和线上预测结果语义y是否一致，如果不一致则是需要的badcase。

采用本发明的方法和系统进行badcase发现，没有增加额外的数据标注成本，而是在既有标注数据的基础上，采用技术与流程创新的方式解决badcase难以发现的问题，并对常见的原型网络做了针对性的调整，引入了实例级注意力机制，传统认为每个实例的地位是相同的，这样在样本量足够的情况下是没问题的，但在样本非常少的情况下，实例级注意力机制的引入可以从技术上减少错误实例和语义偏差大的实例对语义原型的学习偏差；采用特征注意力是为了突出特征空间中重要的特征维度，用以缓解特征稀疏的问题。实际应用效果来看对比纯粹人工审核，识别准确率可达到人工审核的65%，但耗费时间减少80%。

以上所述实施例仅表达了本发明的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于小样本学习的badcase发现方法，其特征在于：包括如下步骤：

S1:数据预处理，从已标注训练语料中随机获取多个小样本，并将样本分为支持集和目标集；

S2：模型预训练，将样本输入基础模型与两种注意力机制的结合，训练得到badcase发现模型；

S3：预测数据组装，根据线上预测结果语义，从已标注训练语料中获取线上预测结果语义下的小样本，并与待预测句子组成预测数据；

S4：数据预测，将预测数据输入badcase发现模型，预测得到待预测句子的预测语义，对比预测语义和线上预测结果语义，判断待预测句子是否为badcase。

2.根据权利要求1所述的基于小样本学习的badcase发现方法，其特征在于：所述的小样本采用N-way K-shot的数据形式，N表示每个小训练批次包括的语义个数，K表示每个语义下的训练样本个数。

3.根据权利要求1所述的基于小样本学习的badcase发现方法，其特征在于：所述的基础模型为原型网络Prototypical Networks或Siamese Network，所述的两种注意力机制为实例级注意力机制和特征级注意力机制。

4.根据权利要求3所述的基于小样本学习的badcase发现方法，其特征在于：所述的模型预训练具体包括:

S201:将支持集和目标集分别输入基础网络；

S205：进行距离度量计算，得到和目标集向量X最接近的支持集；

5.根据权利要求4所述的基于小样本学习的badcase发现方法，其特征在于：所述的距离度量计算采用距离度量公式di=Zi*[Ci-x]²进行计算。

6.根据权利要求1所述的基于小样本学习的badcase发现方法，其特征在于：所述的预测数据包括支持集和目标集，支持集为从已标注训练语料中获取的线上预测结果语义下的小样本，目标集为待预测句子。

7.根据权利要求6所述的基于小样本学习的badcase发现方法，其特征在于：所述的预测数据的支持集来自三个方向，分别为以词为单位，与分词后的预测句子重合频次最多的样本、主动学习样本或随机样本。

8.根据权利要求1所述的基于小样本学习的badcase发现方法，其特征在于：所述的判断待预测句子是否为badcase的依据为：当预测语义和线上预测结果语义不一致时，则待预测句子为badcase。

9.基于权利要求1-8中任意一项所述的基于小样本学习的badcase发现方法的系统，其特征在于：包括训练数据处理单元、模型训练单元、待预测数据组装单元和数据预测单元，所述的训练数据处理单元从已标注训练预料中随机获取多个小样本，并将样本分为支持集和目标集；所述的模型训练单元将样本输入基础模型与两种注意力机制的结合，训练得到badcase发现模型；所述的待预测数据组装单元根据线上预测结果语义，从已标注训练语料中获取线上预测结果语义下的小样本，并与待预测句子组成预测数据；所述的数据预测单元将预测数据输入badcase发现模型，预测得到待预测句子的预测语义，对比预测语义和线上预测结果语义，判断待预测句子是否为badcase。