CN112861962A

CN112861962A - 样本处理方法、装置、电子设备和存储介质

Info

Publication number: CN112861962A
Application number: CN202110152413.1A
Authority: CN
Inventors: 尚方信; 杨叶辉; 王磊; 许言午
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2021-05-28
Anticipated expiration: 2041-02-03
Also published as: CN112861962B

Abstract

本申请公开了一种样本处理方法、装置、电子设备和存储介质，涉及数据处理技术领域中的人工智能和深度学习技术领域以及医疗领域。具体实现方案为：获取验证样本的特征向量；根据所述验证样本的特征向量，将所述验证样本进行相似样本分组，获得多个相似样本组；根据所述多个相似样本组确定满足目标筛选需求的目标相似样本组；其中，所述目标筛选需求用于指示筛选系统性错误标注样本或随机性错误标注样本；以及根据所述目标相似样本组从训练样本中筛选出错误标注样本。

Description

样本处理方法、装置、电子设备和存储介质

技术领域

本申请涉及数据处理技术领域中的人工智能和深度学习技术领域、以及医疗领域，尤其是涉及一种样本处理方法、装置、电子设备和存储介质。

背景技术

通常来说，可以使用训练样本对深度学习模型进行训练，完成训练后，该深度学习模型可以进行样本处理操作。在该技术中，深度学习模型的能力依赖于训练样本的准确性。然而，现有样本常常会存在错误，从而影响深度学习模型的能力。

发明内容

本申请提供了一种用于样本处理方法、装置、设备以及存储介质，涉及数据处理技术领域中的人工智能和深度学习技术领域。提供了一种可以筛选错误样本的技术方案。

根据本申请的第一方面，提供了一种样本处理方法，包括：

获取验证样本的特征向量；

根据所述验证样本的特征向量，将所述验证样本进行相似样本分组，获得多个相似样本组；

根据所述多个相似样本组确定满足目标筛选需求的目标相似样本组；其中，所述目标筛选需求用于指示筛选系统性错误标注样本或随机性错误标注样本；以及

根据所述目标相似样本组从训练样本中筛选出错误标注样本。

根据本申请的第二方面，提供了一种样本处理装置，包括：

第一获取模块，用于获取验证样本的特征向量；

分组模块，用于根据所述验证样本的特征向量，将所述验证样本进行相似样本分组，获得多个相似样本组；

第一筛选模块，用于根据所述多个相似样本组确定满足目标筛选需求的目标相似样本组；其中，所述目标筛选需求用于指示筛选系统性错误标注样本或随机性错误标注样本；以及

第二筛选模块，用于根据所述目标相似样本组，从训练样本中筛选出错误标注样本。

根据本申请的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请的一方面所述样本处理方法。

根据本申请的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行本申请的一方面所述的样本处理方法。

根据本申请的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据第一方面所述的样本处理方法。

根据本申请的技术方案，不仅可以筛选出随机性错误标注，也可以应用于系统性错误标注，从而更有效地提升了数据质量。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请一个实施例的样本处理方法的流程图；

图2是根据本申请另一个实施例的样本处理方法的流程图；

图3是根据本申请又一个实施例的样本处理方法的流程图；

图4是根据本申请又一个实施例的样本处理方法的流程图；

图5是根据本申请又一个实施例的样本处理方法的流程图；

图6是根据本申请又一个实施例在医疗应用场景下的疾病分类方法的流程图；

图7是根据本申请一个实施例的样本处理装置的结构框图；

图8是根据本申请另一个实施例的样本处理装置的结构框图；

图9是用来实现本申请实施例的样本处理方法的电子设备的框图；

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本申请提出了一种样本处理方法，本方法的样本处理技术方案可以从训练样本中筛选出错误样本，使训练样本更准确，从而提高模型的准确性。图1是根据本申请一个实施例的样本处理方法的流程图。需要说明的是，本申请实施例的样本处理方法可应用于本申请实施例的样本处理装置，该样本处理装置可被配置于本申请实施例的电子设备上。如图1所示，该样本处理方法可以包括：

步骤101，获取验证样本的特征向量。

通常，在深度学习中，可以采用训练样本对模型进行训练，采用验证样本对模型的性能指标进行评估。

在本申请一些实施例中，测试样本和验证样本可以来自同一个数据样本，也可以取自不同的数据样本。该验证样本包括但不限于图片、文字、语音中的任一种或多种。通过计算，可以得到每个验证样本对应的特征向量，该特征向量可以代表对应的验证样本的特征，作为该验证样本的一个标识。

步骤102，根据验证样本的特征向量，将验证样本进行相似样本分组，获得多个相似样本组。

可以理解地，每个验证样本都会有一个对应的特征向量，该特征向量可以作为验证样本进行相似样本分组的依据，在每一个相似样本组中，该相似样本组内的样本都是相似的。

在本申请一些实施例中，可以采用聚类算法对验证样本进行分组，该聚类算法包括但不限于：WaveCluster聚类算法、基于密度的聚类算法、k-means中的任一种。

步骤103，根据多个相似样本组确定满足目标筛选需求的目标相似样本组；其中，目标筛选需求用于指示筛选系统性错误标注样本或随机性错误标注样本。

可以理解的，样本进行标注的时候，由于认知误差和/或误操作，会产生系统性错误标注和/或随机性错误标注。系统性错误标注指的是：一种非随机性错误标注，该种错误标注具有规律性、可预测性。随机性错误标注指的是：一种偶然错误标注，该种错误标注不可预测，没有规律性。例如，样本为猫或狗的图片时，将某一品种的猫都标注为狗，属于系统性错误标注。将一张猫的图片由于误操作，标注为狗，该错误属于随机性错误标注。

在本申请一些实施例中，目标可以为验证样本，在该目标中可以存在系统性错误标注或随机性错误标注中的任一种，也可以同时存在系统性错误标注和随机性错误标注。目标筛选需求可以为筛选系统性错误标注，或，筛选随机性错误标注。

满足该筛选需求的则为可能存在相应错误标注的多个目标相似样本组。一个相似样本组中的多个验证样本应该是相似的。一个相似样本组中验证样本的相似度较高时，可以认为该相似样本组中可能存在随机性错误标注；一个相似样本组中验证样本的相似度较低时，可以认为该相似样本组中可能存在系统性错误标注。

在本申请一些实施例中，可以对一个相似样本组中验证样本对应的标注进行分类操作，该分类操作基于的分类模型包括但不限于：基于划分的聚类模型和/或线性判别分析模型。该模型可以为监督学习模型，也可以为无监督学习模型。将分类操作得到的分类数目与预先设定的阈值进行匹配，大于该阈值的，则认为该相似样本组中可能存在系统性错误标注；小于该阈值的，则认为该相似样本组中可能存在随机性错误标注。

在本申请一些实施例中，还可以将一个相似样本组中验证样本对应的标注出现的字进行记录，得到一个相似样本组的所有标注中出现的字的数目，将该数目与预先设定的阈值进行匹配，大于该阈值的，则认为该相似样本组中可能存在系统性错误标注；小于该阈值的，则认为该相似样本组中可能存在随机性错误标注。

可以理解的，上述实施例中，经过筛选得到的相似样本组即为目标相似样本组。用于筛选出目标相似样本组的阈值有两种，分别为：用于筛选随机性错误标注的阈值和用于筛选系统性错误标注的阈值，这两种阈值的取值可以是不同的。

步骤104，根据目标相似样本组从训练样本中筛选出错误标注样本。

在本申请一些实施例中，可以将目标相似样本组中的每个验证样本的特征向量和训练样本的特征向量进行相似度比较，得到对应的样本相似度。可以理解地，由于一个训练样本需与目标相似样本组中所有验证样本进行相似度计算，所以一个训练样本可以具有对应的多个样本相似度，这样，从多个样本相似度中选取最大样本相似度作为该训练样本对应的相似度。将该相似度和预设的阈值进行比较，当该相似度大于等于该阈值时，该相似度对应的训练样本为错误标注样本；当该相似度小于该阈值时，该相似度对应的训练样本不是错误标注样本。从而实现从训练样本中筛选出错误标注样本的目的。

在本申请其他实施例中，目标相似样本组可以对应一个特征向量，因此，可以通过该目标相似样本组的特征向量和训练样本的特征向量从训练集中筛选出错误标注样本。例如，可计算该目标相似样本组的特征向量与训练样本的特征向量之间的相似度，将相似度大于第四阈值的训练样本作为错误标注样本。

根据本申请实施例的样本处理方法，使用了特征向量作为依据，对验证样本进行分类，由于特征向量可以表示样本的特征，所以该分类准确度高。通过目标筛选需求，筛选出目标相似样本组，该目标筛选需求可以是筛选出系统性错误标注样本和/或随机性错误标注样本。再根据目标相似样本组从训练样本中筛选出错误标注样本，将从验证样本中得到的结论拓展到训练样本，扩大了结论的应用范围。现有的错误标注筛选方法大都应用于随机性错误标注，本申请不仅可以从训练集中筛选出随机性错误标注(即在验证集中出现的随机错标，也可能在训练集中相似的样本上出现)，也可以从训练集中筛选出系统性错误标注(即验证集中出现的系统性错标，也一定会在训练集中相似样本上出现)，从而更有效地提升了数据质量。

在本申请一些实施例中，验证样本可以集合为验证集，训练样本可以集合为训练集。下面将以验证集和训练集为例，说明本申请中的其他实施例。

本申请的第二实施例中，基于第一实施例，目标相似样本组可以对应一个特征向量，可以通过该特征向量和训练集中每个训练样本的特征向量从训练集中筛选出错误标注样本。可以基于图1的样本处理方案使用实施例二具体说明该方法。可以通过图2具体说明，如图2所示，该样本处理方法可包括：

步骤201，获取验证集之中每个验证样本的特征向量。

通常，在深度学习中，可以采用训练集对模型进行训练，采用验证集对模型的性能指标进行评估。

在本申请一些实施例中，测试集和验证集可以来自同一个数据集，也可以取自不同的数据集。验证集中存在多个验证样本，该验证样本包括但不限于图片、文字、语音中的任一种或多种。通过计算，可以得到每个验证样本对应的特征向量，该特征向量可以代表对应的验证样本的特征，作为该验证样本的一个标识。

步骤202，根据每个验证样本的特征向量，将验证集之中的所有验证样本进行相似样本分组，获得多个相似样本组。

可以理解地，每个验证样本都会有一个对应的特征向量，该特征向量可以作为验证样本进行相似样本分组的依据，在每一个相似样本组中，样本都是相似的。

步骤203，确定目标筛选需求；其中，目标筛选需求用于指示筛选系统性错误标注样本或随机性错误标注样本。

在本申请一些实施例中，目标可以为验证集中的验证样本，在该目标中可以存在系统性错误标注或随机性错误标注中的任一种，也可以同时存在系统性错误标注和随机性错误标注。目标筛选需求可以为筛选系统性错误标注，或，筛选随机性错误标注。

步骤204，从多个相似样本组中选取出满足目标筛选需求的多个目标相似样本组。

可以理解地，包括但不限于：筛选系统性错误标注、筛选随机性错误标注中的任一种都可以作为本申请一些实施例中的目标筛选需求。满足该筛选需求的则为可能存在相应错误标注的多个目标相似样本组。一个相似样本组中的多个验证样本应该是相似的。一个相似样本组中验证样本的相似度较高时，可以认为该相似样本组中可能存在随机性错误标注；一个相似样本组中验证样本的相似度较低时，可以认为该相似样本组中可能存在系统性错误标注。

步骤205，根据每个目标相似样本组的特征向量和训练集之中每个训练样本的特征向量，从训练集中筛选出错误标注样本。

可以理解地，可以根据目标相似样本组中的验证样本对应的特征向量获取该目标相似样本组的特征向量，该获取方式包括但不限于数学运算。

在本申请一些实施例中，可以取同一目标相似样本组中多个验证样本对应的特征向量，分别取该特征向量每个维度元素的中位数，作为该目标相似样本组对应的特征向量对应维度的元素，从而获得该目标相似样本组对应的特征向量。将该特征向量和训练集中每个训练样本的特征向量相比较，可以筛选出训练集中可能存在错误标注的样本。该比较方法包括但不限于：基于皮尔逊相关系数的比较方法、基于欧几里得距离的比较方法、基于Tanimoto系数的比较方法中的任一种。

可以理解地，该比较方法可以筛选出与目标相似样本组的特征向量相似的训练集中的特征向量，该特征向量对应的样本即为可能存在错误标注的样本。

根据本申请实施例的样本处理方法，使用了特征向量作为依据，对验证集中的样本进行分类，由于特征向量可以表示样本的特征，所以该分类准确度高。通过目标筛选需求，筛选出目标相似样本组，该目标筛选需求可以是筛选出系统性错误标注样本和/或随机性错误标注样本。再根据目标相似样本组从训练集中筛选出错误标注样本，将从验证集得到的结论拓展到训练集，扩大了结论的应用范围。现有的错误标注筛选方法大都应用于随机性错误标注，本申请不仅可以从训练集中筛选出随机性错误标注(即在验证集中出现的随机错标，也可能在训练集中相似的样本上出现)，也可以从训练集中筛选出系统性错误标注(即验证集中出现的系统性错标，也一定会在训练集中相似样本上出现)，从而更有效地提升了数据质量。

本申请的第三实施例中，基于第一实施例，为了能更快地获得特征向量，更全面准确地获得相似样本组，可以基于图1的样本处理方案使用实施例三具体说明该方法。可选地，步骤101-102，具体操作可以为步骤301-304。

为了更清楚说明如何根据获得相似样本组，可以通过图3具体说明，图3是根据本申请又一个实施例的样本处理方法的流程图，具体包括：

步骤301，将验证集之中每个验证样本输入至经过训练的分类模型，获得每个验证样本的特征向量；其中，分类模型是利用训练集经过训练而得到的。

在本申请一些实施例中，该分类模型可以是任意经典的分类网络，该分类模型包括但不限于：Inception、ResNet、DenseNet中的任一种，该分类模型也可以是自行构造的一个分类模型。分类模型可以通过训练集进行训练。训练时，训练集的样本作为分类模型的输入，训练集的样本对应的标注作为分类模型的输出。

经过训练的分类模型可以对验证样本进行处理，获得每个验证样本对应的特征向量，该特征向量可以为分类模型任一层的输出向量。通常而言，本申请中，分类模型中的层输出的特征向量具有空间意义，即该特征向量是经过归一化操作的特征向量，该特征向量可以与其他经过归一化操作的特征向量计算相似度。上述归一化操作包括但不限于：L2范数归一化、Sigmoid函数归一化、Z-score归一化中的任一种。上述相似度计算包括但不限于：cosine相似度、曼哈顿距离、马氏距离中的任一种。

应用该分类模型时，输入数据，即可得到经过分类模型处理得到的特征向量和分类概率，通过分类概率可以得到分类模型预测的分类结果。

步骤302，根据每个验证样本的特征向量，计算所有验证样本之间的向量相似度。

可以理解地，验证样本输入分类模型可以得到验证样本对应的特征向量，为了将相似的验证样本进行分组，可以对验证样本对应的特征向量进行两两相似度计算。

在本申请一些实施例中，该相似度计算包括但不限于：余弦相似度、欧氏距离、皮尔逊相关系数中的任一种。

步骤303，根据所有验证样本之间的向量相似度，从验证集中选取向量相似度大于第一阈值的验证样本。

在本申请一些实施例中，可以设定一个第一阈值，该第一阈值用于对所有样本之间的向量相似度进行筛选，可以认为，该筛选得到的两两验证样本的相似度较高且满足需求。

在本申请一些实施例中，S₁为相似样本对集合，a、b分别为两个样本，F_a、F_b为样本对应的特征向量，T₁为第一阈值，S_v为验证集。则上述步骤可以用一下公式表示：

S₁＝{(a，b)|sim(F_a，F_b)＞T₁，a∈S_v，b∈S_v}

步骤304，将选取得到的向量相似度大于第一阈值的验证样本进行相关样本拼接，获得多个相似样本组。

在本申请一些实施例中，在验证集中，当第一样本对应的特征向量和第二样本对应的特征向量的相似度大于阈值，且，第二样本对应的特征向量和第三样本对应的特征向量的相似度大于阈值的情况下，说明第一样本和第二样本足够相似，第二样本和第三样本足够相似，可以认为第一样本、第二样本、第三样本两两之间是足够相似的，因此该三个样本可以拼接成一样本组，当样本数目大于三个时，也可以进行类似的拼接，将多个样本组成样本组。

根据本申请实施例的样本处理方法，通过训练集训练的分类模型对验证集进行处理，得到每个验证样本对应的特征向量。该种方法获取到的特征向量可以反映该分类模型的性能，也可以反映分类模型对应的训练集的标注错误。通过验证样本的特征向量获取多个相似样本组，可以全面的比对两两验证样本之间的相似度，并且通过相似度的传递性，将验证集分为多个相似样本组。可以全面地找出验证集中相似的验证样本，并且将验证样本准确地分类成相似样本组。

本申请的第四实施例中，基于上述实施例，为了使目标相似样本组的筛选效率更高，从训练集筛选错误标注样本更准确，可以基于上述各实施例的样本处理方案使用实施例四，具体说明该样本处理方式。在本申请一些实施例中，步骤103-104具体操作可以为步骤401-405。

为了更清楚说明如何根据获得相似样本组，可以通过图4具体说明，图4是根据本申请又一个实施例的样本处理方法的流程图，具体包括：

步骤401，确定每个相似样本组的样本标签众数。

可以理解地，每个相似样本组中有多个样本，每个样本都对应一个标注，同一个相似样本组中可以有多种标注。由于相似样本组中的样本相似度较高，因此同一个相似样本组中同一个标注可能出现多次。样本标签众数即为在相似样本组中出现次数最多的标注。

在本申请一些实施例中，也可以选取出现次数前几位的标注，作为对应相似样本组的样本标签众数。

步骤402，确定每个相似样本组之中样本标签与样本标签众数相同的样本的占比。

样本标签与样本标签众数的占比反映了在相似样本组中样本标签所记录的样本的相似程度。

步骤403，根据占比，从多个相似样本组中选取出满足目标筛选需求的多个目标相似样本组。

可以理解地，占比较高，则标签记录的样本相似程度较高，占比较低，则标签记录的样本相似程度较低。在已经确定相似样本组中的验证样本的相似度较高的情况下，占比高则说明标签记录的相似度较高，该相似样本组中出现随机错误标注的概率较大；占比低则说明标签记录的相似度较低，该相似样本组中出现系统错误标注的概率较大。

在本申请一些实施例中，可以预设一阈值，在占比大于阈值的情况下，该样本组不存在系统性错标，有存在随机性错标的可能性；在占比小于阈值的情况下，该样本组有存在系统性错标的可能性。当占比为1时，表示该相似样本组中的所有样本的标注均一致，该相似样本组不会被选做目标相似样本组。

在本申请一些实施例中，当目标筛选需求为筛选系统性错误标注样本时，从多个相似样本组中选取出占比小于第二阈值的多个相似样本组，并将占比小于第二阈值的多个相似样本组作为多个目标相似样本组；当目标筛选需求为筛选随机性错误标注样本时，从多个相似样本组中选取出占比大于第三阈值的多个相似样本组，并将占比大于第三阈值的多个相似样本组作为多个目标相似样本组。

举例而言，S₃表示目标相似样本组集合，S_tuple表示相似样本组集合，#表示数目，y_tuple表示样本标签众数，y_a表示样本标签，T₂表示预设阈值，a、b、c……表示相似样本组中的样本，S_v表示验证集，mode()表示求众数的函数，则上述步骤可以用以下公式表示：

也就是说，当目标筛选需求为系统性错误标注样本时，可以将相似样本集合中的样本标签与样本标签众数相同的样本的占比与预设阈值进行比较，占比大于阈值的即为目标相似样本组。

步骤404，计算每个目标相似样本组的样本特征向量均值，并将样本特征向量均值作为对应目标相似样本组的特征向量。

可以理解地，可以根据目标相似样本组中样本的特征向量求出目标相似样本组的特征向量，根据该向量可以从训练集中筛选训练集中可能存在对应错误标注的样本。

在本申请一些实施例中，可以对每个目标相似样本组的样本特征向量求均值，并将该均值作为对应目标相似样本组的特征向量。

举例而言，S₄表示目标相似样本组特征向量集合，F_s-tuple表示目标相似样本组的样本特征向量均值，x表示样本，F_x表示样本的特征向量，S_tuple表示相似样本组，S₃表示目标相似样本组集合，则上述步骤可以用以下公式表示：

也就是说，目标相似样本组对应的特征向量为该目标相似样本组中样本对应的特征向量的均值。

步骤405，根据每个目标相似样本组的特征向量和每个训练样本的特征向量，从训练集中选取出与任一目标相似样本组的向量相似度大于第四阈值的训练样本；将选取得到的训练样本作为错误标注样本。

可以理解地，目标相似样本组的特征向量表示了目标筛选需求的特征，可以依据该特征和训练集中的训练样本求相似度，如果相似度较高可以认为该训练样本可能是错误标注样本。

在本申请一些实施例中，相似度的计算方法包括但不限于：余弦相似度、欧氏距离、皮尔逊相关系数中的任一种。

举例而言，S表示从训练样本中选出的错误标注样本的集合，sim()表示求向量相似度的函数，F_x表示样本的特征向量，F_s-tuple表示目标相似样本组的样本特征向量均值，T₃表示第四阈值，S₄表示目标相似样本组特征向量集合，x表示样本，S_T表示训练样本，则上述步骤可以用以下公式表示：

S＝{x|sim(F_x，F_s-tuple)＞T₃，F_s-tuple∈S₄，x∈S_T}

也就是说，可将训练集之中的训练样本与目标相似样本组之中的样本进行相似度计算，若训练集之中的某个训练样本与该目标相似样本组之中任一样本的相似度大于第四阈值，则将该某个训练样本作为错误标注样本，因此，依照此方法，可以将训练集之中所有可能存在错误标注的训练样本筛选处理。

根据本申请实施例的样本处理方法，根据样本标签众数和样本标签的占比关系，筛选目标相似样本组，根据目标相似样本组的特征向量，筛选出训练样本中的错误标注样本。巧妙地运用了相似样本组和相似样本组中标签相似度的冲突或一致关系，运用简洁直观的方法从相似样本组的验证样本中求得相似样本组的特征向量，简单而又全面地反映了潜在错误标注的特征向量特点，从而可以从训练集中筛选出错误标注样本。

本申请的第五实施例中，基于上述实施例，为了使错误标注完成改正，增加了标注专家终端。为了更清楚说明该技术手段，可以基于上述各实施例的样本处理方案，使用实施例五，具体说明该技术手段。

在本申请一些实施例中，在上述实施例的基础上，还包括，步骤501-503。如图5所述，图5是根据本申请又一实施例的样本处理方法的流程图。

步骤501，将筛选得到的错误标注样本发送给标注专家终端。

在本申请一些实施例中，标注专家终端可以验证错误标注样本的正确性，在错误标注样本错误的情况下，对错误标注样本的标注进行改正；在错误标注样本正确的情况下，保留该样本的标注信息。该标注专家终端可以是人为进行判断，也可以是系统自行对错误标注样本进行判断。

步骤502，获取标注专家终端发送的针对错误标注样本的复核标注。

可以理解地，标注专家终端对错误标注样本改正之后的标注即为复核标注。

步骤503，根据错误标注样本的复核标注对所述训练集之中的训练样本标注进行更新。

在本申请一些实施例中，可以根据错误标注样本的复核标注，对训练样本标注进行更新，可以使用更新之后的训练集对模型进行训练，并迭代本申请中的样本处理方法，直到模型的性能达到要求。

根据本申请实施例的样本处理方法，在得到错误标注样本的基础上，对错误标注样本进行复核，并且将对应的训练集中的样本标注进行更新，实现了训练集中训练样本的错误改正，提高了训练样本的准确性，也为分类模型的性能提升打下了基础。

基于上述各实施例，具体的执行步骤可以根据具体的应用场景进行调整和嵌套，为了更加清楚的说明具体实施过程，本申请还提出了又一实施例进行详细说明，具体包括：

所述应用场景为医疗领域，所述样本为医疗影像数据，所述分类模型为疾病分类模型。

如图6所示，图6是根据本申请又一实施例在医疗应用场景下的疾病分类方法的流程图，S_T为训练集，S_V为验证集，实线表示训练集数据相关操作，虚线表示验证集数据相关操作，S₁为相似样本对集合，S₂为相似样本组集合，S₃为目标相似样本组集合，S₄为目标相似样本组特征向量集合，S为符合样本集合，该疾病分类处理方法包括如下步骤：

步骤一：从训练集和验证集中分别选取医学影像，其中训练集中选取的医学影像用于模型训练，验证集中选取的医学影像用于评估模型的性能指标。

步骤二：使用图像处理方法对训练集和验证集中的医学影像数据进行数据预处理，得到训练样本和验证样本。该图像处理方法包括但不限于：Z-Score归一化、高斯滤波、中值滤波中的任一种方法。

步骤三：使用训练集中经过数据处理的医学影像数据对疾病分类模型进行训练。

步骤四：使用训练后的疾病分类模型处理训练样本和验证样本。该模型会输出对应的特征向量和分类概率，根据分类概率可以得到分类结果。

步骤五：根据验证样本的特征向量进行两两配对，得到相似样本对集合S₁；将有共同相似元素的相似样本对进行拼接，得到相似样本组集合S₂；根据每一个相似样本组中标签众数在标签中的占比关系得到目标相似样本组集合S₃；根据目标相似样本组S₃中样本的特征向量得到目标相似样本的特征向量集合S₄；将和目标相似样本特征向量相似度较高的训练样本筛选出来，作为错误标注样本集合S。

步骤六：对错误标注样本进行人工符合，并更新标注。

步骤七：将更新标注之后的样本和原训练集进行融合，得到新的训练集，并使用该训练集从步骤一开始，进行迭代操作，直到疾病分类模型的性能满足需求。

其中，数据处理阶段包括步骤一和步骤二，模型训练阶段包括步骤三，模型使用阶段包括步骤四至步骤七。

根据本申请的实施例，本申请还提供了一种样本处理装置。

图7是根据本申请一个实施例的样本处理装置的结构框图。如图7所示，该样本处理装置700可以包括：第一获取模块701，分组模块702，确定模块703，第一筛选模块704，第二筛选模块705。

具体地，第一获取模块701，用于获取验证样本的特征向量；

分组模块702，用于根据每个验证样本的特征向量，将验证样本进行相似样本分组，获得多个相似样本组；

第一筛选模块703，用于根据多个相似样本组确定满足目标筛选需求的多个目标相似样本组；其中，目标筛选需求用于指示筛选系统性错误标注样本或随机性错误标注样本；以及

第二筛选模块704，用于根据目标相似样本组，从训练样本中筛选出错误标注样本。

在本申请一些实施例中，如图8所示，图8是根据本申请另一个实施例的样本处理装置的结构框图。该样本处理装置800还可以包括：发送模块806，第二获取模块807，更新模块808。

具体地，发送模块806，用于将筛选得到的错误标注样本发送给标注专家终端；

第二获取模块807，用于获取标注专家终端发送的针对错误标注样本的复核标注；

更新模块808，用于根据错误标注样本的复核标注对训练集之中的训练样本标注进行更新。

其中，图8中801-805和图7中701-705具有相同功能和结构。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本申请的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如样本处理方法。例如，在一些实施例中，样本处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的样本处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行样本处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

根据本申请实施例的技术方案，使用了特征向量作为依据，对验证集中的样本进行分类，由于特征向量可以表示样本的特征，所以该分类准确度高。通过目标筛选，筛选出目标相似样本组，该目标筛选可以筛选出系统性错误标注样本和/或随机性错误标注样本。再根据目标相似样本组从训练集中筛选出错误标注样本，将从验证集得到的结论拓展到训练集，扩大了结论的应用范围。通过训练集训练的分类模型对验证集进行处理，得到每个验证样本对应的特征向量。该种方法获取到的特征向量可以反映该分类模型的性能，也可以反映分类模型对应的训练集的标注错误。通过验证样本的特征向量获取多个相似样本组，可以全面的比对两两验证样本之间的相似度，并且通过相似度的传递性，将验证集分为多个相似样本组。可以全面地找出验证集中相似的验证样本，并且将验证样本准确地分类成相似样本组。根据样本标签众数和样本标签的占比关系，筛选目标相似样本组，根据目标相似样本组的特征向量，筛选出训练样本中的错误标注样本。巧妙地运用了相似样本组和相似样本组中标签相似度的冲突或一致关系，运用简洁直观的方法从相似样本组的验证样本中求得相似样本组的特征向量，简单而又全面地反映了潜在错误标注的特征向量特点，从而可以从训练集中筛选出错误标注样本。现有的错误标注筛选方法大都应用于随机性错误标注，本申请不仅可以应用于随机性错误标注，也可以应用于系统性错误标注。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种样本处理方法，包括：

获取验证样本的特征向量；

2.根据权利要求1所述的样本处理方法，其中，所述根据所述验证样本的特征向量，将所述验证样本进行相似样本分组，获得多个相似样本组，包括：

根据所述验证样本的特征向量，计算所述验证样本之间的向量相似度；

根据所述验证样本之间的向量相似度，选取所述向量相似度大于第一阈值的验证样本；

将选取得到的所述向量相似度大于第一阈值的验证样本进行相关样本拼接，获得多个相似样本组。

3.根据权利要求1所述的样本处理方法，其中，所述根据所述多个相似样本组确定满足目标筛选需求的目标相似样本组，包括：

确定每个所述相似样本组的样本标签众数；

确定每个所述相似样本组之中样本标签与所述样本标签众数相同的样本的占比；

根据所述占比，从所述多个相似样本组中选取出满足所述目标筛选需求的目标相似样本组。

4.根据权利要求3所述的样本处理方法，其中，所述根据所述占比，从所述多个相似样本组中选取出满足所述目标筛选需求的目标相似样本组，包括：

当所述目标筛选需求为所述筛选系统性错误标注样本时，从所述多个相似样本组中选取出所述占比小于第二阈值的相似样本组，并将所述占比小于第二阈值的相似样本组作为所述目标相似样本组；

当所述目标筛选需求为所述筛选随机性错误标注样本时，从所述多个相似样本组中选取出所述占比大于第三阈值的相似样本组，并将所述占比大于第三阈值的相似样本组作为所述目标相似样本组。

5.根据权利要求1所述的样本处理方法，其中，所述根据所述目标相似样本组，从训练样本中筛选出错误标注样本，包括：

根据所述目标相似样本组之中各样本的特征向量，计算所述目标相似样本组的样本特征向量均值，并将所述样本特征向量均值作为对应目标相似样本组的特征向量；

根据所述目标相似样本组的特征向量和所述训练样本的特征向量，从所述训练样本中选取出与所述目标相似样本组的向量相似度大于第四阈值的训练样本；

将所述选取得到的训练样本作为所述错误标注样本。

6.根据权利要求1所述的样本处理方法，其中，所述获取验证样本的特征向量，包括：

将所述验证样本输入至经过训练的分类模型，获得所述验证样本的特征向量；其中，所述分类模型是利用所述训练样本经过训练而得到的。

7.根据权利要求6所述的样本处理方法，其中，所述样本为医疗影像数据；所述分类模型为疾病分类模型。

8.根据权利要求1至7中任一项所述的样本处理方法，其中，还包括：

将所述筛选得到的错误标注样本发送给标注专家终端；

获取所述标注专家终端发送的针对所述错误标注样本的复核标注；

根据所述错误标注样本的复核标注对所述训练样本的标注进行更新。

9.一种样本处理装置，包括：

第一获取模块，用于获取验证样本的特征向量；

10.根据权利要求9所述的样本处理装置，其中，所述分组模块，具体用于：

11.根据权利要求9所述的样本处理装置，其中，所述第一筛选模块，具体用于：

确定每个所述相似样本组的样本标签众数；

12.根据权利要求11所述的样本处理装置，其中，所述第一筛选模块，还用于：

13.根据权利要求9所述的样本处理装置，其中，所述第二筛选模块，具体用于：

将所述选取得到的训练样本作为所述错误标注样本。

14.根据权利要求9所述的样本处理装置，其中，所述第一获取模块，具体用于：

15.根据权利要求14所述的样本处理装置，其中，所述样本为医疗影像数据；所述分类模型为疾病分类模型。

16.根据权利要求9至15中任一项所述的样本处理装置，其中，还包括：

发送模块，用于将所述筛选得到的错误标注样本发送给标注专家终端；

第二获取模块，用于获取所述标注专家终端发送的针对所述错误标注样本的复核标注；

更新模块，用于根据所述错误标注样本的复核标注对所述训练样本的标注进行更新。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1－8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1－8中任一项所述的方法。

19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1－8中任一项所述的方法。