CN107194430B

CN107194430B - 一种样本筛选方法及装置，电子设备

Info

Publication number: CN107194430B
Application number: CN201710393571.XA
Authority: CN
Inventors: 张钦
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2017-05-27
Filing date: 2017-05-27
Publication date: 2021-07-23
Anticipated expiration: 2037-05-27
Also published as: CN107194430A

Abstract

本申请提供了一种样本筛选方法，属于计算机技术领域，用于解决现有技术中存在的筛选样本准确性较低的问题。本申请实施例公开的样本筛选方法包括：基于样本特征对所有样本进行聚类，并根据聚类结果确定备选样本所在簇的样本混乱程度度量指标，进一步根据所述样本混乱程度度量指标确定相应簇的样本选取比例，以训练模型。通过对所有备选样本基于预设维度特征进行聚类，并根据聚类得到的每个簇中的样本分布混乱程度确定在各个簇中选择的备选样本比例，提高了样本筛选的准确性。

Description

一种样本筛选方法及装置，电子设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种样本筛选方法及装置，电子设备。

背景技术

数据预处理在众多机器学习算法中都起着重要作用。无论选用何种算法，对于样本数据的预处理都相当关键，输入给模型的数据质量会直接决定算法的表现效果。以搜索或推荐技术为例，在执行搜索和推荐之前，首先要根据用户的行为日志训练作为样本训练排序模型，然后再通过训练的排序模型对备选的搜索或推荐结果进行排序，以展现给用户准确、全面的结果。现有技术中，在对样本进行筛选时，通常采用人工标注正、负样本标签，然后对正样本和负样本分别聚类，以剔除噪声样本。现有技术中基于点击规则的样本标注方法太粗糙，在特征维数偏低时特征对样本对象刻画不清晰的情况下，会导致基于样本特征和样本标签对样本的描述不一致，进一步导致模型训练不准确。

现有技术中对样本进行筛选时，主要基于对数据的业务理解，费时且准确性不稳定。并且，当样本特征维度较少时，样本筛选的准确性较低。

发明内容

本申请实施例提供一种样本筛选方法，解决现有技术中的样本筛选方法存在的筛选样本准确性较低的问题。

为了解决上述问题，第一方面，本申请实施例提供了一种样本筛选方法，包括：

基于样本特征对所有样本进行聚类；

根据聚类结果确定备选样本所在簇的样本混乱程度度量指标；

根据所述样本混乱程度度量指标确定相应簇的样本选取比例。

第二方面，本申请实施例提供了一种样本筛选装置，包括：

样本聚类模块，用于基于样本特征对所有样本进行聚类；

混乱程度度量指标确定模块，用于根据所述样本聚类模块的聚类结果确定备选样本所在簇的样本混乱程度度量指标；

样本比例确定模块，用于根据所述混乱程度度量指标确定模块确定的样本混乱程度度量指标确定相应簇的样本选取比例。

第三方面，本申请实施例提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请实施例公开的所述的样本筛选方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时本申请实施例公开的所述样本筛选方法的步骤。

本申请实施例公开的样本筛选方法，通过基于样本特征对所有样本进行聚类，并根据聚类结果确定备选样本所在簇的样本混乱程度度量指标，进一步根据所述样本混乱程度度量指标确定相应簇的样本选取比例，以训练模型，解决了现有技术中的样本筛选方法存在的筛选样本准确性较低的问题。通过对所有备选样本基于预设维度特征进行聚类，并根据聚类得到的每个簇中的样本分布混乱程度确定在各个簇中选择的备选样本比例，使得在特征维数偏低时特征对样本对象刻画不清晰的情况下，能够准确选择有代表性的样本，避免出现基于样本特征和样本标签对样本的描述不一致的问题，提高了样本筛选的准确性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例一的样本筛选方法的流程图；

图2是本申请实施例二的样本筛选方法的流程图；

图3是本申请实施例二的样本筛选方法的结果示意图；

图4是本申请实施例三的样本筛选装置结构图之一；

图5是本申请实施例三的样本筛选装置结构图之二。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例一

本申请公开的一种样本筛选方法，如图1所示，该方法包括：步骤100至步骤120。

步骤100，基于样本特征对所有样本进行聚类。

本申请实施例中所采用的样本为当前系统或平台内，用户的历史行为日志，例如O2O平台上用户的点击或购买商品的行为日志、搜索系统内用户的点击或浏览日志等。获取用户行为日志，即用于训练模型的样本的具体方法为现有技术，此处不再赘述。

在进行模型训练之前，首先要手动对训练样本进行筛选并设置样本标签，目的是筛除明显不符合模型要求的样本，并标注正样本和负样本，将设置了正、负样本标签的样本作为备选样本。

模型在进行训练时，首选会预先确定样本的特征维度，例如：时间、地理位置、用户年龄、用户行为类型、产品类别等维度。为不同业务训练的模型，其对应的样本的特征维度可能不同，需要根据具体的业务需求，并结合先验知识确定。

在对样本标注正、负样本标签之后，分别提取每个样本的预设维度的特征，基于提取的特征对所有备选样本进行聚类。具体实施时，可以采用如用kmeans、层次聚类等聚类方法对样本进行聚类。聚类的具体算法参见现有技术，本申请实施例不再赘述。通过基于样本特征对所有样本进行聚类，可以得到多个簇，每个簇中包括多个样本，每个簇中包括的样本可以为正样本和/或负样本。

步骤110，根据聚类结果确定备选样本所在簇的样本混乱程度度量指标。

通过基于样本特征对所有样本进行聚类，得到多个簇之后，每个簇中包括多个样本即为训练模型的备选样本。基于特征进行聚类的过程是将标注的样本投射到特征空间的过程，通过聚类可以看到不同的簇内，即有时的特征空间内，正、负样本的分布可能大相径庭，某些簇里正负类参杂在一起，而一些簇里正、负样本清晰可分。具体实施时，通过样本混乱程度度量指标衡量聚类得到的每个簇的样本可分性。

步骤120，根据所述样本混乱程度度量指标确定相应簇的样本选取比例。

每个簇中样本的样本混乱程度度量指标用于表示该簇中正样本或负样本的占比是否足够高，即样本分布是否混乱。样本混乱程度度量指标进一步表征了预设的特征空间内正样本和负样本的分布比例。样本混乱程度度量指标越高说明该簇中样本分布越混乱。具体实施时，对于样本分布混乱的簇，样本选取比例相对较低，即在该簇中选择少量的备选样本；对于样本分布规则的簇，选取比例相对较高，即在该簇中选择大量的备选样本。

本申请实施例公开的样本筛选方法，通过基于样本特征对所有样本进行聚类，并根据聚类结果确定备选样本所在簇的样本混乱程度度量指标，进一步根据所述样本混乱程度度量指标确定相应簇的样本选取比例，以训练模型，解决了现有技术中的样本筛选方法存在的筛选样本准确性较低的问题。通过对所有备选样本基于预设特征维度进行聚类，并根据聚类得到的每个簇中的样本分布混乱程度确定在各个簇中选择的备选样本比例使得在特征维数偏低时特征对样本对象刻画不清晰的情况下，能够准确选择有代表性的样本，避免出现基于样本特征和样本标签对样本的描述不一致的问题，提高了样本筛选的准确性，进一步提升了训练模型的准确性。

实施例二

本实施例公开的一种样本筛选方法，如图2所示，该方法包括：步骤200至步骤230。

步骤200，基于样本特征对所有样本进行聚类。

本申请实施例中所采用的样本为当前系统或平台内，用户的历史行为日志，例如O2O平台上用户的点击或购买商品的行为日志、搜索系统内用户的点击或浏览日志等。获取用户行为日志作为训练样本、手动对训练样本进行筛选并设置正、负样本标签，得到备选样本的具体方法参见实施例一，此处不再赘述。

本申请具体实施时，假设样本的特征维度包括：时间、地理位置、用户年龄、用户行为类型、产品类别。在对样本标注正、负样本标签之后，分别提取每个样本的预设维度的特征，基于提取的特征对所有备选样本进行聚类。

具体实施时，可以采用如用kmeans、层次聚类等基于质心的聚类方法对样本进行聚类。聚类的过程是一个不断迭代的过程。首先，根据样本特征的维度数量确定聚类数量，样本特征维数越高，或者样本量越大，聚类数量就要相应地增加。首先，通过层次聚类产生k个簇，将对应的质心作为kmeans质心的初始值。然后，使用kmeans聚类。鉴于特征维度不止一个，每一维度特征的取值范围可能不同，故样本特征相似度计算应该采用数值尺度无关的马氏距离(Mahalanobis distance)。聚类的具体算法参见现有技术，本申请实施例不再赘述。通过基于样本特征对所有样本进行聚类，可以得到多个簇，每个簇中包括多个样本，每个簇中包括的样本可以为正样本和/或负样本。

步骤210，确定样本容量大于簇样本容量阈值的各簇为备选样本所在簇。

为了提高备选样本的质量以及减小运算量，首先对于聚类得到的各个簇根据样本容量进行筛选，选择满足设定条件的簇中的样本作为备选样本，例如，从样本簇中去除极小的样本簇，聚类得到的极小样本簇内很可能是离群点，去掉这部分样本尽可能地避免离群点对模型训练的影响，可以提高样本质量。具体实施时，可以首先确定簇样本容量阈值，然后根据所述簇样本容量阈值确定满足设定条件的簇。可以根据各簇样本容量的中位值，或，各簇样本容量的平均值确定所述簇样本容量阈值。具体实施时，可以首先统计各样本簇内的样本容量，例如统计样本簇的样本数；然后，确定各簇容量的中位值V_m，根据中位值设定簇样本容量阈值V_th，例如设定V_th＝0.05V_m；最后，确定样本容量大于设定簇样本容量阈值V_th的各簇为备选样本所在簇，忽略样本容量小于或等于设定簇样本容量阈值V_th的各极小样本簇。具体实施时，还可以采用其他方法设定簇样本容量阈值，例如根据各样本簇的样本容量平均值设定簇样本容量阈值，或者根据业务需求设定簇样本容量阈值。

步骤220，根据聚类结果确定备选样本所在簇的样本混乱程度度量指标。

通过基于样本特征对所有样本进行聚类，得到多个簇之后，每个簇中包括多个样本即为训练模型的备选样本。基于特征进行聚类的过程是将标注的样本投射到特征空间的过程。具体实施时，所述样本混乱程度度量指标包括某一簇中所有样本的信息熵。信息熵通常用来衡量某种特定信息的出现概率，在本申请的实施例中，信息熵用来度量簇内样本的体系混乱程度。信息熵越大说明簇内正样本或负样本的占比越小，信息熵越小说明簇内正样本或负样本的标注趋于一致。具体实施时，可以通过公式：Entropy＝-p·ln(p)-(1-p)·ln(1-p)计算簇内样本的信息熵Entropy；其中，P为簇内样本的比例，或者负样本的比例。具体实施时，P的取值通过对簇内的样本根据样本标签进行统计得到。

步骤230，根据所述样本混乱程度度量指标确定相应簇的样本选取比例。

每个簇中样本的样本混乱程度度量指标用于表示该簇中正样本或负样本的占比是否足够高，即样本分布是否混乱。样本混乱程度度量指标进一步表征了预设的特征空间内正样本和负样本的分布比例。样本混乱程度度量指标越高说明该簇中样本分布越混乱。根据所述样本混乱程度度量指标确定相应簇的样本选取比例包括：根据所述样本混乱程度度量指标的单调递减函数确定相应簇的样本选取比例。即，对于样本分布混乱的簇，样本选取比例相对较低，即在该簇中选择少量的备选样本；对于样本分布规则的簇，选取比例相对较高，即在该簇中选择大量的备选样本。

具体实施时，所述样本混乱程度度量指标的单调递减函数可以表示为P_sample＝e^-Entrop的单调递减函数还可以表示为其他形式，其中，P_sample为当前簇内正样本和负样本的抽样比例；Entrop为样本混乱程度度量指标，例如当前簇中样本的信息熵。

优选的，所述样本混乱程度度量指标的单调递减函数可以表示为：

其中，P_sample为当前簇内正样本和负样本的抽样比例；Entrop为样本混乱程度度量指标，例如当前簇中样本的信息熵；A为样本的直接抽样比例，所有样本簇的A值相同，通常取值范围限制在0.75～1.00，旨在减少样本，以提高学习效率，根据样本数量确定；C为样本混乱程度度量指标参考点，根据各备选样本所在簇的样本混乱程度度量指标确定。例如，将C的取值设置为聚类得到的所有簇中样本信息熵的中位值(或平均值)。通过设置C为样本混乱程度度量指标参考点可以控制抽样比例在合适的范围内。

通过本申请实施例公开的样本筛选方法，将降低样本分布混乱的空间中样本的比例。如图3所示，簇A中正样本(以方框为例)、负样本(以圆圈为例)分布混乱，计算得到的信息熵较高；簇B和C中正、负样本纯度高，样本标注与是即样本特征趋于一致，计算得到的信息熵较低。通过本申请实施例公开的样本筛选方法，将降低簇A中正、负样本比例，提高簇B和C中正、负样本比例。通过降低混乱数据空间中的样本量，以使整体样本可分性增强，达到提高样本质量的目的。

本实施例中以样本混乱程度度量指标包括某一簇中所有样本的信息熵为例说明确定样本混乱程度度量指标，以及根据所述样本混乱程度度量指标确定相应簇的样本选取比例的具体实施过程。具体实施时，还可以采用其他方法确定样本混乱程度度量指标，以及采用其他公式根据所述样本混乱程度度量指标确定相应簇的样本选取比例，本申请的实施例中不再一一列举。

本申请实施例公开的样本筛选方法，通过基于样本特征对所有样本进行聚类，确定样本容量大于设定簇样本容量阈值的各簇为备选样本所在簇，并根据聚类结果确定备选样本所在簇的样本混乱程度度量指标，进一步根据所述样本混乱程度度量指标确定相应簇的样本选取比例，以训练模型，解决了现有技术中的样本筛选方法存在的筛选样本准确性较低的问题。通过对所有备选样本基于预设特征维度进行聚类，并根据聚类得到的每个簇中的样本分布混乱程度确定在各个簇中选择的备选样本比例，使得在特征维数偏低时特征对样本对象刻画不清晰的情况下，能够准确选择有代表性的样本，避免出现基于样本特征和样本标签对样本的描述不一致的问题，提高了样本筛选的准确性，进一步提升了训练模型的准确性。

以美食搜索为例，当热门地域的优质商家较多时，用户选择对展现的商家的点击行为带有一定的随机性，因此，采集到的训练样本会出现很多优质商家没有被点击的情况。当描述商家的特征维度较少时，可能会出现被点击的样本的特征和未被点击的样本的特征相似度偏高的情况。如果按照现有技术中的正样本(被点击的样本)和负样本(未被点击的样本)分别聚类并筛选样本的方法，会导致模型训练时，大量的特征相似度极高的样本既属于正样本又属于负样本，导致模型训练不准确。如果采用本申请的样本筛选方法，会将具有相同特征的样本聚在一个簇中，然后，对于正、负样本分布混乱(即被点击的样本和未被点击的样本比例相当)的情况，适当降低该簇中正、负样本的比例，以减少训练模型时大量相同特征向量被标注为不同标签造成的影响，以提高模型训练的准确性。

本申请实施例公开的样本筛选方法简单易行，无需对样本数据的业务意义有太多的了解,就可以有效筛选具有代表性的样本，一定程度上，克服了特征维度低导致的在训练模型时对样本对象描述不清的问题，进一步改善模型学习的效果。

实施例三

本实施例公开的一种样本筛选装置，如图4所示，该装置包括：

样本聚类模块400，用于基于样本特征对所有样本进行聚类；

混乱程度度量指标确定模块410，用于根据所述样本聚类模块400的聚类结果确定备选样本所在簇的样本混乱程度度量指标；

样本比例确定模块420，用于根据所述混乱程度度量指标确定模块410确定的样本混乱程度度量指标确定相应簇的样本选取比例。

具体实施时，可以采用如用kmeans、层次聚类等局域质心的聚类方法对样本进行聚类。

可选的，所述样本比例确定模块420具体用于：根据所述样本混乱程度度量指标的单调递减函数确定相应簇的样本选取比例。

样本混乱程度度量指标进一步表征了预设的特征空间内正样本和负样本的分布比例。样本混乱程度度量指标越高说明该簇中样本分布越混乱。根据所述样本混乱程度度量指标确定相应簇的样本选取比例时，对于样本分布混乱的簇，样本选取比例相对较低，即在该簇中选择少量的备选样本；对于样本分布规则的簇，选取比例相对较高，即在该簇中选择大量的备选样本。

可选的，所述样本混乱程度度量指标包括某一簇中所有样本的信息熵。

优选的，所述样本混乱程度度量指标的单调递减函数为：

其中，P_sample为当前簇内正样本和负样本的抽样比例；Entrop为样本混乱程度度量指标；A为样本的直接抽样比例；C为样本混乱程度度量指标参考点，根据各备选样本所在簇的样本混乱程度度量指标确定。

可选的，如图5所示，还包括：

样本簇筛选模块430，用于确定样本容量大于簇样本容量阈值的各簇为备选样本所在簇。

可选的，根据各簇样本容量的中位值，或，各簇样本容量的平均值确定所述簇样本容量阈值。

为了提高备选样本的质量以及减小运算量，首先对于聚类得到的各个簇根据样本容量进行筛选，选择满足设定条件的簇中的样本作为备选样本，例如，从样本簇中去除极小的样本簇，聚类得到的极小样本簇内很可能是离群点，去掉这部分样本尽可能地避免离群点对模型训练的影响，可以提高样本质量。

本申请实施例公开的样本筛选装置，通过基于样本特征对所有样本进行聚类，确定样本容量大于设定簇样本容量阈值的各簇为备选样本所在簇，并根据聚类结果确定备选样本所在簇的样本混乱程度度量指标，进一步根据所述样本混乱程度度量指标确定相应簇的样本选取比例，以训练模型，解决了现有技术中的样本筛选方法存在的筛选样本准确性较低的问题。通过对所有备选样本基于预设维度特征进行聚类，并根据聚类得到的每个簇中的样本分布混乱程度确定在各个簇中选择的备选样本比例，使得在特征维数偏低时特征对样本对象刻画不清晰的情况下，能够准确选择有代表性的样本，避免出现基于样本特征和样本标签对样本的描述不一致的问题，提高了样本筛选的准确性，进一步提升了训练模型的准确性。

本申请实施例公开的样本筛选装置简单易行，无需对样本数据的业务意义有太多的了解,就可以有效筛选具有代表性的样本，一定程度上，克服了特征维度低导致的在训练模型时对样本对象描述不清的问题，进一步改善模型学习的效果。

相应的，本申请还公开了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本申请实施例一和实施例二所述的样本筛选方法。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。

本申请还公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请实施例一和实施例二所述的样本筛选方法的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本申请提供的一种样本筛选方法、装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

Claims

1.一种样本筛选方法，其特征在于，包括：

基于样本特征对所有样本进行聚类，其中，聚类得到的每个簇中包括的多个样本即为训练模型的备选样本；

确定样本容量大于簇样本容量阈值的各簇为备选样本所在簇；

根据聚类结果确定所述备选样本所在簇的样本混乱程度度量指标；

根据所述样本混乱程度度量指标确定相应簇的样本选取比例；

其中，所述根据所述样本混乱程度度量指标确定相应簇的样本选取比例的步骤包括：

根据所述样本混乱程度度量指标的单调递减函数确定相应簇的样本选取比例，其中，所述样本混乱程度度量指标用于衡量聚类得到的每个簇的样本可分性。

2.根据权利要求1所述的方法，其特征在于，所述样本混乱程度度量指标包括某一簇中所有样本的信息熵。

3.根据权利要求1所述的方法，其特征在于，所述样本混乱程度度量指标的单调递减函数为：

4.根据权利要求1所述的方法，其特征在于，根据各簇样本容量的中位值，或，各簇样本容量的平均值确定所述簇样本容量阈值。

5.一种样本筛选装置，其特征在于，包括：

样本聚类模块，用于基于样本特征对所有样本进行聚类，其中，聚类得到的每个簇中包括的多个样本即为训练模型的备选样本；

样本簇筛选模块，用于确定样本容量大于簇样本容量阈值的各簇为备选样本所在簇；

混乱程度度量指标确定模块，用于根据所述样本聚类模块的聚类结果确定所述备选样本所在簇的样本混乱程度度量指标；

样本比例确定模块，用于根据所述混乱程度度量指标确定模块确定的样本混乱程度度量指标确定相应簇的样本选取比例；

其中，所述样本比例确定模块具体用于：

6.根据权利要求5所述的装置，其特征在于，所述样本混乱程度度量指标包括某一簇中所有样本的信息熵。

7.根据权利要求5所述的装置，其特征在于，所述样本混乱程度度量指标的单调递减函数为：

8.根据权利要求5所述的装置，其特征在于，根据各簇样本容量的中位值，或，各簇样本容量的平均值确定所述簇样本容量阈值。

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4任意一项权利要求所述的样本筛选方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至4任意一项所述的样本筛选方法的步骤。