CN109961094A

CN109961094A - 样本获取方法、装置、电子设备及可读存储介质

Info

Publication number: CN109961094A
Application number: CN201910171163.9A
Authority: CN
Inventors: 张志伟
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-03-07
Filing date: 2019-03-07
Publication date: 2019-07-02
Anticipated expiration: 2039-03-07
Also published as: CN109961094B

Abstract

本申请实施例提供了一种样本获取方法、装置、电子设备及可读存储介质，应用于互联网技术领域，所述方法包括：根据预先建立的标签树，确定预设标签在标签树中的层级，标签树是对训练集中每个数据携带的标签进行分类得到的；按照标签树从上到下的顺序，对样本集进行逐层筛选，使每一层的筛选结果作为下一层筛选的数据源，直至筛选的层级为预设标签在标签树中的层级；在每一层筛选时，计算该层对应的训练数据的平均特征，根据平均特征在该层数据源中选取预设比例的数据，将预设比例的数据作为筛选结果；获取预设标签在标签树中的层级对应的筛选结果。本申请实施例可提高样本获取的准确性。

Description

样本获取方法、装置、电子设备及可读存储介质

技术领域

本申请涉及互联网技术领域，特别是涉及一种样本获取方法、装置、电子设备及可读存储介质。

背景技术

近年来，深度学习在视频图像、语音识别、自然语言处理等相关领域得到了广泛应用。卷积神经网络作为深度学习的一个重要分支，由于其超强的拟合能力以及端到端的全局优化能力，使得图像分类任务在应用卷积神经网络之后，预测精度大幅提升。但是，目前大多数的模型都严重依赖大规模的标注数据，也就是标注数据的规模是制约深度学习模型精度的决定性因素。如何获取大规模的标注数据集成为一个亟待解决的问题。

通常采用标注的方式获取标注数据，虽然经过时间的推移可以积累到大量的标注数据，但是如果不对标注数据进行筛选，则会造成标注数据集中不同种类数据严重不均衡。例如，某个视频平台，需要构建一个“动物”的数据集，如果对平台的全部数据进行标注，虽然会产生大量标注数据，但是，“泰迪”、“哈士奇”等常见的动物会大量存在，而像“藏獒”这种少见的动物相对出现较少，这样就会造成标注数据的不均衡。在使用不均衡的样本集训练模型时，由于少量样本在标注数据集中较少，因此，模型对少量样本的识别能力较差，获取少量样本的准确性较低。

发明内容

本申请实施例的目的在于提供一种样本获取方法、装置、电子设备及可读存储介质，以提高样本获取的准确性。具体技术方案如下：

根据本申请实施例的第一方面，本申请实施例提供了一种样本获取方法，所述方法包括：

根据预先建立的标签树，确定预设标签在所述标签树中的层级，所述标签树是对训练集中每个数据携带的标签进行分类得到的；

按照所述标签树从上到下的顺序，对样本集进行逐层筛选，使每一层的筛选结果作为下一层筛选的数据源，直至筛选的层级为所述预设标签在所述标签树中的层级；

在每一层筛选时，计算该层对应的训练数据的平均特征，根据所述平均特征在该层数据源中选取预设比例的数据，将所述预设比例的数据作为筛选结果，每层对应的训练数据是所述训练集中属于该层标签的数据；

获取所述预设标签在所述标签树中的层级对应的筛选结果。

可选的，所述标签树的建立方法包括：

针对所述训练集中的每个数据，按照该数据携带的标签所属的类别对该数据进行层级分类，得到该数据的层级标签，且所述层级标签中下一层标签属于上一层标签；

将所述训练集中所有数据的层级标签进行组合，得到所述标签树。

可选的，所述根据所述平均特征在该层数据源中选取预设比例的数据，包括：

提取该层数据源中每个数据的特征，计算每个数据的特征与所述平均特征的距离；

对得到的距离按照从小到大的顺序，在该层数据源中选取对应的数据，直至在该层数据源中选取的数据的比例达到所述预设比例。

可选的，所述计算该层对应的训练数据的平均特征，包括：

将该层对应的训练数据中的每个数据进行向量表示，得到每个数据的特征向量；

求解所述特征向量的平均值，得到该层对应的训练数据的平均特征向量。

可选的，所述提取该层数据源中每个数据的特征，计算每个数据的特征与所述平均特征的距离，包括：

对该层数据源中的每个数据进行向量表示，得到每个数据的特征向量；

计算每个特征向量与所述平均特征向量的距离。

可选的，所述预设比例的确定方法包括：

根据所述样本集中选取样本的比例和所述预设标签在所述标签树中的层级，确定所述预设比例，使所述预设标签在所述标签树中的层级的筛选结果在所述样本集的比例等于所述样本集中选取样本的比例。

可选的，所述根据所述样本集中选取样本的比例和所述预设标签在所述标签树中的层级，确定所述预设比例，包括：

若在所述样本集中选取样本的比例为Percent，所述预设标签在所述标签树中的层级为Level，根据公式：确定预设比例Q。

可选的，在所述获取所述预设标签在所述标签树中的层级对应的筛选结果之后，所述方法还包括：

将所述预设标签在所述标签树中的层级对应的筛选结果添加至所述训练集中，所述训练集用于训练神经网络模型。

根据本申请实施例的第二方面，本申请实施例提供了一种样本获取装置，所述装置包括：

层级确定模块，被配置为根据预先建立的标签树，确定预设标签在所述标签树中的层级，所述标签树是对训练集中每个数据携带的标签进行分类得到的；

循环模块，被配置为按照所述标签树从上到下的顺序，对样本集进行逐层筛选，使每一层的筛选结果作为下一层筛选的数据源，直至筛选的层级为所述预设标签在所述标签树中的层级；

筛选模块，被配置为在每一层筛选时，计算该层对应的训练数据的平均特征，根据所述平均特征在该层数据源中选取预设比例的数据，将所述预设比例的数据作为筛选结果，每层对应的训练数据是所述训练集中属于该层标签的数据；

获取模块，被配置为获取预设标签在所述标签树中的层级对应的筛选结果。

可选的，本申请实施例的样本获取装置，还包括：

标签树建立模块，被配置为针对所述训练集中的每个数据，按照该数据携带的标签所属的类别对该数据进行层级分类，得到该数据的层级标签，且所述层级标签中下一层标签属于上一层标签；将所述训练集中所有数据的层级标签进行组合，得到所述标签树。

可选的，所述筛选模块包括：

距离计算单元，被配置为提取该层数据源中每个数据的特征，计算每个数据的特征与所述平均特征的距离；

选取单元，被配置为对得到的距离按照从小到大的顺序，在该层数据源中选取对应的数据，直至在该层数据源中选取的数据的比例达到所述预设比例。

可选的，所述筛选模块包括：

平均特征计算单元，被配置将该层对应的训练数据中的每个数据进行向量表示，得到每个数据的特征向量；求解所述特征向量的平均值，得到该层对应的训练数据的平均特征向量。

可选的，所述距离计算单元，具体被配置对该层数据源中的每个数据进行向量表示，得到每个数据的特征向量；计算每个特征向量与所述平均特征向量的距离。

可选的，本申请实施例的样本获取装置，还包括：

预设比例确定模块，被配置为根据所述样本集中选取样本的比例和所述预设标签在所述标签树中的层级，确定所述预设比例，使所述预设标签在所述标签树中的层级的筛选结果在所述样本集的比例等于所述样本集中选取样本的比例。

可选的，所述预设比例确定模块，具体被配置为若在所述样本集中选取样本的比例为Percent，所述预设标签在所述标签树中的层级为Level，根据公式：确定预设比例Q。

可选的，本申请实施例的样本获取装置，还包括：

训练集更新模块，被配置为将所述预设标签在所述标签树中的层级对应的筛选结果添加至所述训练集中，所述训练集用于训练神经网络模型。

根据本申请实施例的第三方面，本申请实施例提供了一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为在运行时实现上述第一方面任一所述的样本获取方法的步骤。

根据本申请实施例的第五方面，本申请实施例提供了一种计算机程序产品，所述计算机程序产品在处理器上被执行时，实现上述第一方面任一所述的样本获取方法的步骤。

本申请实施例提供的技术方案可以包括以下有益效果：根据预先建立的标签树，确定预设标签在标签树中的层级，以及每层在训练集中对应的训练数据，在对样本集进行逐层级筛选时，根据每层对应的训练数据的平均特征，选取样本集中预设比例的数据，将筛选结果作为下一层筛选的数据源。这样，在训练集中数据不均衡时，可以提高样本识别的准确性，进而提高样本获取的准确性。应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的样本获取方法的一种流程图；

图2为本申请实施例的样本获取装置的一种结构图；

图3为本申请实施例的电子设备的第一种示意图；

图4为本申请实施例的电子设备的第二种示意图；

图5为本申请实施例的电子设备的第三种示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

通过神经网络训练模型时，如果训练集中某种样本数量较少，那么得到的模型对该类样本的识别能力较低，获取样本的准确性也较低，为了解决该问题，本申请实施例提供了一种样本获取方法、装置、电子设备及可读存储介质，以提高样本获取的准确性。

下面首先对本申请实施例所提供的样本获取方法进行详细介绍。

参见图1，图1为本申请实施例的样本获取方法的一种流程图，包括以下步骤：

S101，根据预先建立的标签树，确定预设标签在标签树中的层级，标签树是对训练集中每个数据携带的标签进行分类得到的。

本申请实施例中，训练集中的数据可以是视频、图像或文本等，训练集中每个数据携带有标签，该标签可以表示该数据所属类别，训练集中每个标签的数据量可以是不均衡。本申请的一种实现方式中，标签树的建立方法包括：

首先，针对训练集中的每个数据，按照该数据携带的标签所属的类别对该数据进行层级分类，得到该数据的层级标签，且层级标签中下一层标签属于上一层标签。

其次，将训练集中所有数据的层级标签进行组合，得到标签树。

具体的，可以将训练集的每个标签分类为一定的语义层级，例如一个标签为“哈士奇”的数据，可以分类至“动物”、“狗”和“哈士奇”，也就是可以将标签为“哈士奇”的数据建立为一个三层的标签结构：动物-狗-哈士奇；同样地，标签为“泰迪”的数据，可以建立为一个三层的标签结构：动物-狗-泰迪，将所有标签结构进行组合，可以形成一个标签树。

其中，预设标签是待获取样本的标签，预设标签可以是少量样本的标签，例如可以为“藏獒”。标签树中包含预设标签，可以根据标签树，确定预设标签在标签树中的层级。例如，若预设标签是动物，则预设标签在标签树的第一层；若预设标签是狗，则预设标签在标签树的第二层。

S102，按照标签树从上到下的顺序，对样本集进行逐层筛选，使每一层的筛选结果作为下一层筛选的数据源，直至筛选的层级为预设标签在标签树中的层级。

具体的，根据S101中标签树的结构可知，在进行筛选时，可以按照标签树从上到下的顺序，对样本集进行逐层筛选，直至筛选的层级为预设标签在标签树中的层级。并且，逐层筛选时，每一层的筛选结果作为下一层筛选的数据源。例如，若预设标签是“泰迪”，“泰迪”在标签树的第三层，那么，首先需要从样本集中筛选第一层标签为“动物”的数据，得到的筛选结果为动物样本集，然后从动物样本集中筛选第二层标签为“狗”的数据，得到狗样本集，最后从狗样本集中筛选第三层标签为“泰迪”的数据。至此，筛选过程结束。

S103，在每一层筛选时，计算该层对应的训练数据的平均特征，根据平均特征在该层数据源中选取预设比例的数据，将预设比例的数据作为筛选结果，每层对应的训练数据是训练集中属于该层标签的数据。

本申请实施例中，由于样本集中的数据是不携带标签的，可以基于KNN(k-NearestNeighbor，K最近邻)算法筛选数据。K最近邻，即K个最近的邻居，也就是从数据源中选取K个数据作为与训练集最接近的K个邻居。第一层的数据源即为样本集，其他每一层的数据源是上一层的筛选结果。每层对应的训练数据是训练集中属于该层标签的数据，例如，若该层标签为“动物”，可以将训练集划分成两类，分别为动物训练集和非动物训练集，该层对应的训练数据即为动物训练集。若该层标签为“狗”，那么，将动物训练集划分为狗训练集和非狗训练集，该层对应的训练数据即为狗训练集，以此类推。

本申请的一种实现方式中，可以提取该层数据源中每个数据的特征，计算每个数据的特征与平均特征的距离；对得到的距离按照从小到大的顺序，在该层数据源中选取对应的数据，直至在该层数据源中选取的数据的比例达到预设比例。其中，计算该层对应的训练数据的平均特征的方法可以为：将该层对应的训练数据中的每个数据进行向量表示，得到每个数据的特征向量。具体的，每层对应的训练数据是同一类别的数据，且每个数据均可以表示为向量的形式，得到每个数据的特征向量。例如，若训练数据为文本，可以通过Doc2Vector将文本转化为向量；若训练数据为图像，可以通过图像处理的方式得到图像的特征向量。之后，求解特征向量的平均值，得到该层对应的训练数据的平均特征向量。

相应地，可以对该层数据源中的每个数据进行向量表示，得到每个数据的特征向量，并计算每个特征向量与平均特征向量的距离。两个向量之间的距离可以为余弦距离，也可以为欧式距离，在此不做限制。

这样，每个数据的特征与平均特征的距离，即为每个特征向量与平均特征向量的距离，距离越近，表明数据的特征越接近平均特征。按照距离从小到大的顺序，选取预设比例的数据作为筛选结果。

S104，获取预设标签在标签树中的层级对应的筛选结果。

本申请实施例的样本获取方法，根据训练集建立标签树，确定预设标签在标签树中的层级，以及每层在训练集中对应的训练数据，在对样本集进行逐层级筛选时，根据每层对应的训练数据的平均特征，选取样本集中预设比例的数据，将筛选结果作为下一层筛选的数据源。这样，在训练集中数据不均衡时，可以提高样本识别的准确性，进而提高样本获取的准确性。

本申请的一种实现方式中，在图1实施例S104之后，还可以将预设标签在标签树中的层级对应的筛选结果添加至训练集中，训练集用于训练神经网络模型。

若预设标签在标签树中的层级对应的筛选结果为少量样本，在训练集中的数据不均衡(即少量样本数量较少)时，可以将预设标签在标签树中的层级对应的筛选结果添加至训练集中，增加少量样本在训练集中的数量，使少量样本均衡地出现在训练集中。这样，在通过训练集训练神经网络模型时，可以提高神经模型对少量样本的识别能力。

本申请的一种实现方式中，图1实施例S103中，预设比例的确定方法包括：

根据样本集中选取样本的比例和预设标签在标签树中的层级，确定预设比例，使预设标签在标签树中的层级的筛选结果在样本集的比例等于样本集中选取样本的比例。可选的，若在样本集中选取样本的比例为Percent，预设标签在标签树中的层级为Level，根据公式：确定预设比例Q。

本申请实施例中，Percent是预先设置的比值，该比值可以是根据经验设置的值。Level指的是预设标签在标签树中的层级。例如，若Level是第一层级，那么S102筛选一次，Q值即为Percent；若Level是第三层级，那么S102筛选三次，每次筛选时的Q值均为这样，预设标签在标签树中的层级对应的筛选结果在样本集的比例等于或接近于Percent。

相应于上述方法实施例，本申请实施例提供了一种样本获取装置，参见图2，图2为本申请实施例的样本获取装置的一种结构图，包括：

层级确定模块201，被配置为根据预先建立的标签树，确定预设标签在标签树中的层级，标签树是对训练集中每个数据携带的标签进行分类得到的；

循环模块202，被配置为按照标签树从上到下的顺序，对样本集进行逐层筛选，使每一层的筛选结果作为下一层筛选的数据源，直至筛选的层级为预设标签在标签树中的层级；

筛选模块203，被配置为在每一层筛选时，计算该层对应的训练数据的平均特征，根据平均特征在该层数据源中选取预设比例的数据，将预设比例的数据作为筛选结果，每层对应的训练数据是训练集中属于该层标签的数据；

获取模块204，被配置为获取预设标签在所述标签树中的层级对应的筛选结果。

本申请实施例的样本获取装置，根据预先建立的标签树，确定预设标签在标签树中的层级，以及每层在训练集中对应的训练数据，在对样本集进行逐层级筛选时，根据每层对应的训练数据的平均特征，选取样本集中预设比例的数据，将筛选结果作为下一层筛选的数据源。这样，在训练集中数据不均衡时，可以提高样本识别的准确性，进而提高样本获取的准确性。

可选的，本申请实施例的样本获取装置，还包括：

标签树建立模块，被配置为针对训练集中的每个数据，按照该数据携带的标签所属的类别对该数据进行层级分类，得到该数据的层级标签，且层级标签中下一层标签属于上一层标签；将训练集中所有数据的层级标签进行组合，得到标签树。

可选的，筛选模块包括：

距离计算单元，被配置为提取该层数据源中每个数据的特征，计算每个数据的特征与平均特征的距离；

选取单元，被配置为对得到的距离按照从小到大的顺序，在该层数据源中选取对应的数据，直至在该层数据源中选取的数据的比例达到预设比例。

可选的，筛选模块包括：

平均特征计算单元，被配置将该层对应的训练数据中的每个数据进行向量表示，得到每个数据的特征向量；求解特征向量的平均值，得到该层对应的训练数据的平均特征向量。

可选的，距离计算单元，被配置对该层数据源中的每个数据进行向量表示，得到每个数据的特征向量；计算每个特征向量与平均特征向量的距离。

可选的，本申请实施例的样本获取装置，还包括：

预设比例确定模块，被配置为根据样本集中选取样本的比例和预设标签在标签树中的层级，确定预设比例，使预设标签在标签树中的层级的筛选结果在样本集的比例等于样本集中选取样本的比例。

可选的，预设比例确定模块，具体被配置为若在样本集中选取样本的比例为Percent，预设标签在标签树中的层级为Level，根据公式：确定预设比例Q。

可选的，本申请实施例的样本获取装置，还包括：

训练集更新模块，被配置为将预设标签在所述标签树中的层级对应的筛选结果添加至训练集中，训练集用于训练神经网络模型。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请实施例提供了一种电子设备，参见图3，图3为本申请实施例的电子设备的第一种示意图，包括：

处理器301；

用于存储处理器301可执行指令的存储器302；

其中，处理器301被配置为在运行时实现上述任一样本获取方法的步骤。

本申请实施例的电子设备中，处理器在运行时，根据预先建立的标签树，确定预设标签在标签树中的层级，以及每层在训练集中对应的训练数据，在对样本集进行逐层级筛选时，根据每层对应的训练数据的平均特征，选取样本集中预设比例的数据，将筛选结果作为下一层筛选的数据源。这样，在训练集中数据不均衡时，可以提高样本识别的准确性，进而提高样本获取的准确性。

可选的，本申请实施例的电子设备可以为如图4所示的装置400，例如，装置400可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，装置400可以包括以下一个或多个组件：处理组件402，存储器404，电力组件406，多媒体组件408，音频组件410，输入/输出(I/O)的接口412，传感器组件414，以及通信组件416。

处理组件402通常控制装置400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件402可以包括一个或多个模块，便于处理组件402和其他组件之间的交互。例如，处理组件402可以包括多媒体模块，以方便多媒体组件408和处理组件402之间的交互。

存储器404被配置为存储各种类型的数据以支持在设备400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件406为装置400的各种组件提供电力。电源组件406可以包括电源管理系统，一个或多个电源，及其他与为装置400生成、管理和分配电力相关联的组件。

多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件408包括一个前置摄像头和/或后置摄像头。当设备400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件410被配置为输出和/或输入音频信号。例如，音频组件410包括一个麦克风(MIC)，当装置400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中，音频组件410还包括一个扬声器，用于输出音频信号。

I/O接口412为处理组件402和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件414包括一个或多个传感器，用于为装置400提供各个方面的状态评估。例如，传感器组件414可以检测到设备400的打开/关闭状态，组件的相对定位，例如所述组件为装置400的显示器和小键盘，传感器组件414还可以检测装置400或装置400一个组件的位置改变，用户与装置400接触的存在或不存在，装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件416还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器404，上述指令可由装置400的处理器420执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

可选的，本申请实施例的电子设备可以为如图5所示的装置500。例如，装置500可以被提供为一服务器。参照图5，装置500包括处理组件522，其进一步包括一个或多个处理器，以及由存储器532所代表的存储器资源，用于存储可由处理组件522的执行的指令，例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件522被配置为执行指令，以执行上述方法。

装置500还可以包括一个电源组件526被配置为执行装置500的电源管理，一个有线或无线网络接口550被配置为将装置500连接到网络，和一个输入输出(I/O)接口558。装置500可以操作基于存储在存储器532的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM或类似。

本申请实施例提供了一种非临时性计算机可读存储介质，当存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行上述任一样本获取方法的步骤。

本申请实施例的计算机可读存储介质中存储的指令在移动终端上运行时，根据预先建立的标签树，确定预设标签在标签树中的层级，以及每层在训练集中对应的训练数据，在对样本集进行逐层级筛选时，根据每层对应的训练数据的平均特征，选取样本集中预设比例的数据，将筛选结果作为下一层筛选的数据源。这样，在训练集中数据不均衡时，可以提高样本识别的准确性，进而提高样本获取的准确性。

本申请实施例提供了一种计算机程序产品，计算机程序产品在处理器上被执行时，实现上述任一样本获取方法的步骤。

本申请实施例的计算机程序产品，当其在处理器上运行时，根据预先建立的标签树，确定预设标签在标签树中的层级，以及每层在训练集中对应的训练数据，在对样本集进行逐层级筛选时，根据每层对应的训练数据的平均特征，选取样本集中预设比例的数据，将筛选结果作为下一层筛选的数据源。这样，在训练集中数据不均衡时，可以提高样本识别的准确性，进而提高样本获取的准确性。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种样本获取方法，其特征在于，所述方法包括：

获取所述预设标签在所述标签树中的层级对应的筛选结果。

2.根据权利要求1所述的样本获取方法，其特征在于，所述标签树的建立方法包括：

3.根据权利要求1所述的样本获取方法，其特征在于，所述根据所述平均特征在该层数据源中选取预设比例的数据，包括：

4.根据权利要求3所述的样本获取方法，其特征在于，所述计算该层对应的训练数据的平均特征，包括：

5.一种样本获取装置，其特征在于，所述装置包括：

获取模块，被配置为获取所述预设标签在所述标签树中的层级对应的筛选结果。

6.根据权利要求5所述的样本获取装置，其特征在于，所述装置还包括：

7.根据权利要求5所述的样本获取装置，其特征在于，所述筛选模块包括：

8.根据权利要求7所述的样本获取装置，其特征在于，所述筛选模块包括：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为在运行时执行权利要求1～4任一所述的样本获取方法的步骤。

10.一种非临时性计算机可读存储介质，其特征在于，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行权利要求1～4任一所述的样本获取方法的步骤。