CN111612021B

CN111612021B - 一种错误样本识别方法、装置及终端

Info

Publication number: CN111612021B
Application number: CN201910133229.5A
Authority: CN
Inventors: 张志鹏; 马文婷; 寿文卉
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2019-02-22
Filing date: 2019-02-22
Publication date: 2023-10-31
Anticipated expiration: 2039-02-22
Also published as: CN111612021A

Abstract

本发明提供一种错误样本识别方法、装置及终端，该错误样本识别方法包括：获取待识别数据集；利用所述待识别数据集训练深度学习网络，获得所述待识别数据集中的每个样本的损失值序列；根据所述每个样本的损失值序列，识别得到所述待识别数据集中的错误标注样本。本发明的实施例，可以利用样本自身的特征信息，即正确标注样本和错误标注样本在模型训练过程中损失值序列上的不同表现，实现对错误标注样本的自动识别，从而提高识别错误标注样本的效率和准确率。

Description

一种错误样本识别方法、装置及终端

技术领域

本发明涉及数据处理技术领域，尤其涉及一种错误样本识别方法、装置及终端。

背景技术

人工智能(Artificial Intelligence，AI)在全球范围内的关注度日渐升高，发展速度迅猛，基于人工智能的计算机辅助诊断，尤其是基于深度学习的医学图像自动分析，成为了最近几年的研究热点，并且已经逐步开始在行业中得到应用。基于深度学习的医学图像自动分析，其基础就是一定数量的由医生精确标注的医学图像数据，这些数据需要作为训练数据来构建深度学习模型，并作为验证和测试数据来检验模型的精度。

然而，医生在标注医学图像数据时，不可避免地会出现标注错误的情况，例如在分类问题中，表现相近的、应该同属于一个类别的医学图像，医生却对其赋予了不同的类别标注。标注错误的医学图像，如果被划分到训练集，将导致模型学习到错误信息，影响模型的准确性；如果被划分到验证集或测试集，则将无法真实评估模型的精度。一般情况下，为了保证训练集或测试集中医学图像标注的准确性，需要组织医生团队对全部标注的医学图像进行复核，但此人工复核的方式通常需耗费大量的时间和精力，复核的准确性受到人主观意识的影响，造成识别错误标注样本的效率和准确率低。

发明内容

本发明实施例提供一种错误样本识别方法、装置及终端，以解决目前人工识别错误标注样本的效率和准确率低的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种错误样本识别方法，包括：

获取待识别数据集；

利用所述待识别数据集训练深度学习网络，获得所述待识别数据集中的每个样本的损失值序列；

根据所述每个样本的损失值序列，识别得到所述待识别数据集中的错误标注样本。

第二方面，本发明实施例提供了种错误样本识别装置，包括：

获取模块，用于获取待识别数据集；

获得模块，用于利用所述待识别数据集训练深度学习网络，获得所述待识别数据集中的每个样本的损失值序列；

识别模块，用于根据所述每个样本的损失值序列，识别得到所述待识别数据集中的错误标注样本。

第三方面，本发明实施例提供了一种终端，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述计算机程序被所述处理器执行时实现上述错误样本识别方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现上述错误样本识别方法的步骤。

本发明实施例中，通过获取待识别数据集，利用所述待识别数据集训练深度学习网络，获得所述待识别数据集中的每个样本的损失值序列，根据所述每个样本的损失值序列，识别得到所述待识别数据集中的错误标注样本，可以利用样本自身的特征信息，即正确标注样本和错误标注样本在模型训练过程中损失值序列上的不同表现，实现对错误标注样本的自动识别，从而提高识别错误标注样本的效率和准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的错误样本识别方法的流程图；

图2为本发明具体实例的正确标注样本的损失值序列的示意图；

图3为本发明具体实例的错误标注样本的损失值序列的示意图；

图4为本发明实施例的错误样本识别装置的结构示意图；

图5为本发明实施例的终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

首先指出的是，在深度学习网络中，样本的损失(loss)值(如cross-entropyloss)表示了模型预测值和真实值之间的差异。基于训练集中所有样本的损失值，可以不断迭代训练模型，逐渐缩小模型预测值和真实值的差异，从而达到最优状态，模型训练结束。对于正确标注的样本，在模型迭代过程中，其损失值序列呈现相似的变化趋势，例如：随着模型学习地越来越好，损失值逐渐降低；而对于错误标注的样本，由于其“真实值”是错误的，因此会给模型带来混淆，其损失值序列往往呈现与正确标注样本完全不同的变化趋势，例如：始终维持在较高水平，或者出现上下幅度震荡等。基于此，本发明实施例可以根据多次模型迭代中样本的损失值序列，确定该样本是正确标注样本还是错误标注样本。

本发明实施例的错误样本识别方法可以适用于不具备基于全标准100％样本标注正确的数据集的场景，仅基于大部分样本标注正确的数据集，利用正确标注样本和错误标注样本在深度学习网络迭代学习过程中获得的损失值序列的不同表现，实现对数据集中错误标注样本的自动识别。

请参见图1，图1是本发明实施例提供的一种错误样本识别方法的流程图，该方法应用于终端，如图1所示，该方法包括如下步骤：

步骤101：获取待识别数据集。

本实施例中，上述待识别数据集中包括错误标注样本和正确标注样本。

步骤102：利用所述待识别数据集训练深度学习网络，获得所述待识别数据集中的每个样本的损失值序列。

其中，上述深度学习网络可选为卷积神经网络(CNN)等。上述深度学习网络可以采用基于ImageNet数据集预先训练的模型(比如迁移学习)，再利用待识别数据集进行微调(fine-tuning)。此外，为了增强模型训练效果，在利用待识别数据集训练深度学习网络之前，可首先对待识别数据集中的所有样本进行图像降采样和数据增强(dataaugmentation)等预处理，再利用预处理后的待识别数据集训练相应深度学习网络。

步骤103：根据所述每个样本的损失值序列，识别得到所述待识别数据集中的错误标注样本。

本发明实施例的错误样本识别方法，通过获取待识别数据集，利用所述待识别数据集训练深度学习网络，获得所述待识别数据集中的每个样本的损失值序列，根据所述每个样本的损失值序列，识别得到所述待识别数据集中的错误标注样本，可以利用样本自身的特征信息，即正确标注样本和错误标注样本在模型训练过程中损失值序列上的不同表现，实现对错误标注样本的自动识别，从而提高识别错误标注样本的效率和准确率。

本发明实施例中，可选的，上述步骤103可包括：

提取所述每个样本的损失值序列的预设特征；

根据所述每个样本的损失值序列的预设特征，将所述待识别数据集中的样本分类为错误标注样本或正确标注样本，得到所述待识别数据集中的错误标注样本。

这样，由于正确标注样本和错误标注样本在模型训练过程中损失值序列上的表现不同，因此根据每个样本的损失值序列的预设特征，对待识别数据集中的样本进行分类，可以识别得到错误标注样本。

通常，在深度学习网络迭代学习的过程中，正确标注样本的损失值序列呈现出相似的下降趋势，训练初期(即前若干次迭代)的损失值较高，在初期迭代之后，由于深度学习网络已学习到样本的特征，损失值会逐渐下降到比较小的数值，之后下降幅度变小，趋于平缓。针对这种由高到低的变化趋势，上述每个样本的损失值序列的预设特征可包括如下至少一项：

损失值序列整体的均值；其中，基于此整体均值，可反映样本损失值的整体水平；

损失值序列中前预设个损失值的均值；其中，该前预设个比如为P个，P为大于或等于1的正整数；基于此前预设个损失值的均值，可以反映样本在预设个迭代损失值的局部水平；

损失值序列中损失值拐点的序号；其中，该损失值拐点表示在损失值序列中，前后两个损失值下降最大时的前一个损失值的位置，比如该损失值拐点的序号可记为Q(即第Q个损失值与第Q+1个损失值的差值最大)；基于此损失值拐点的序号，可反映样本损失值突然下降的位置；

损失值序列中损失值拐点之前的损失值的均值；其中，基于此均值，可反映样本损失值在突然下降之前的水平；

损失值序列中损失值拐点之后的损失值的均值；其中，基于此均值，可反映样本损失值在突然下降之后的水平；

损失值序列中损失值拐点前后的差异值；比如，该差异值可选为损失值拐点前后的两个损失值的差值，或者，损失值拐点之前的损失值的均值与损失值拐点之后的损失值的均值的差值；基于此差异值，可反映样本在损失值拐点处突然下降的幅度。

本发明实施例中，在对待识别数据集中的样本进行分类时，可利用k-means或其他聚类方法将样本聚类为两类，其中一类(label＝0)为正确标注样本，另一类(label＝1)为错误标注样本。对于错误标注样本可通过可视化展示，供相关人员进一步审核。

可选的，上述根据所述每个样本的损失值序列的预设特征，将所述待识别数据集中的样本分类为错误标注样本或正确标注样本，得到所述待识别数据集中的错误标注样本的过程可包括：

根据所述每个样本的损失值序列的预设特征，利用预设聚类方法，将所述待识别数据集中的样本分类为错误标注样本或正确标注样本，得到所述待识别数据集中的错误标注样本。

其中，上述预设聚类方法可选为k-means或其他聚类方法。这样，利用聚类方法对相应样本进行分类，可以增强样本识别的准确性。

本发明实施例中，可选的，上述步骤102可包括：

利用所述待识别数据集训练深度学习网络，得到最近N次迭代过程中生成的N个训练模型；

将所述每个样本分别输入到所述N个训练模型中，得到所述每个样本的N个损失值；其中，损失值的计算方法可选为交叉熵(Cross-Entropy)函数；

利用所述N个损失值，构造所述每个样本的损失值序列(即每个样本的损失值序列的长度为N)；

其中，N为大于或等于1的正整数。这样，可以方便且可控的得到每个样本的损失值序列。

下面结合具体应用场景对本发明实施例的识别方法进行说明。

本发明具体应用场景中，主要是基于眼底图像判断是否为需要转诊的糖网。原始数据集A中的眼底图像样本主要来源于公开数据集(kaggle)和眼病真实筛查场景收集的眼底图像，覆盖10余种眼底相机型号和不同的采集环境条件，经过医生团队的准确标注，将眼底图像分为两类：Ⅰ无需转诊的糖网(5394张)，Ⅱ需要转诊的糖网(5394张)。而为了构建真实场景下包括错误标注样本的模拟数据集A'(即待识别数据集)，将每个类别中6％的样本(324张)更改标注为另一类别(即错误标注样本)。其中，原始数据集和模拟数据集的类别分布情况可如下表1所示：

表1

基于模拟数据集A'进行深度学习网络训练，网络结构为Inception-v3，图像降采样大小为550*550，模型迭代次数N＝8。而获得的A'中某20个正确标注样本的损失值序列可如图2所示，20个错误标注样本的损失值序列可如图3所示。从图2和图3中可知：正确标注样本和错误标注样本的损失值序列确实表现出不同的变化趋势。

进一步的，在识别A'中的错误标注样本时，可提取A'中各个样本的损失值序列的六维特征(如上预设特征所述，此时第二维特征P可选为4)，并采用k-means方法进行聚类，从而识别出错误标注样本。具体识别过程中，将聚类结果与真实label进行对比，识别错误标注样本的灵敏性可达到75.31％，识别正确标注样本的灵敏性可达到95.15％。

可以理解的，具体实现时，可能存在错误标注、但未被成功识别出的眼底图像，而没有被成功识别的原因可能为：1)病变区域相对较小，容易漏诊；2)眼底图像质量不好，病变区域不清晰；3)眼底图像存在较多噪音，比如水渍、反光、镜头污渍等。

上述实施例对本发明的错误样本识别方法进行了说明，下面将结合实施例和附图对本发明的错误样本识别装置和终端进行说明。

请参见图4，图4是本发明实施例提供的一种错误样本识别装置的结构示意图，如图4所示，该错误样本识别装置40包括：

获取模块41，用于获取待识别数据集；

获得模块42，用于利用所述待识别数据集训练深度学习网络，获得所述待识别数据集中的每个样本的损失值序列；

识别模块43，用于根据所述每个样本的损失值序列，识别得到所述待识别数据集中的错误标注样本。

本发明实施例的错误样本识别装置，通过获取待识别数据集，利用所述待识别数据集训练深度学习网络，获得所述待识别数据集中的每个样本的损失值序列，根据所述每个样本的损失值序列，识别得到所述待识别数据集中的错误标注样本，可以利用样本自身的特征信息，即正确标注样本和错误标注样本在模型训练过程中损失值序列上的不同表现，实现对错误标注样本的自动识别，从而提高识别错误标注样本的效率和准确率。

本发明实施例中，可选的，所述识别模块43包括：

提取单元，用于提取所述每个样本的损失值序列的预设特征；

分类单元，用于根据所述每个样本的损失值序列的预设特征，将所述待识别数据集中的样本分类为错误标注样本或正确标注样本，得到所述待识别数据集中的错误标注样本。

可选的，所述预设特征包括如下至少一项：

损失值序列整体的均值、损失值序列中前预设个损失值的均值、损失值序列中损失值拐点的序号、损失值序列中损失值拐点之前的损失值的均值、损失值序列中损失值拐点之后的损失值的均值，和损失值序列中损失值拐点前后的差异值。

可选的，所述分类单元具体用于：

可选的，所述获得模块42包括：

训练单元，用于利用所述待识别数据集训练深度学习网络，得到最近N次迭代过程中生成的N个训练模型；

输入单元，用于将所述每个样本分别输入到所述N个训练模型中，得到所述每个样本的N个损失值；

构造单元，用于利用所述N个损失值，构造所述每个样本的损失值序列；

其中，N为大于或等于1的正整数。

此外，本发明实施例还提供了一种终端，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述计算机程序被所述处理器执行时可实现上述错误样本识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

具体的，参见图5所示，本发明实施例还提供了一种终端，包括总线51、收发机52、天线53、总线接口54、处理器55和存储器56。

在本发明实施例中，所述终端还包括：存储在存储器56上并可在处理器55上运行的计算机程序。其中，所述计算机程序被处理器55执行时可实现上述错误样本识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

在图5中，总线架构(用总线51来代表)，总线51可以包括任意数量的互联的总线和桥，总线51将包括由处理器55代表的一个或多个处理器和存储器56代表的存储器的各种电路链接在一起。总线51还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口54在总线51和收发机52之间提供接口。收发机52可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器55处理的数据通过天线53在无线介质上进行传输，进一步，天线53还接收数据并将数据传送给处理器55。

处理器55负责管理总线51和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器56可以被用于存储处理器55在执行操作时所使用的数据。

可选的，处理器55可以是CPU、ASIC、FPGA或CPLD。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述错误样本识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种错误样本识别方法，其特征在于，包括：

获取待识别数据集，所述待识别数据集中包括医学图像的正确标注样本和错误标注样本，所述正确标注样本和所述错误标注样本的损失值序列具有不同的变化趋势；

根据所述每个样本的损失值序列，识别得到所述待识别数据集中的医学图像的错误标注样本；

其中，所述根据所述每个样本的损失值序列，识别得到所述待识别数据集中的医学图像的错误标注样本，包括：

提取所述每个样本的损失值序列的预设特征；

根据所述每个样本的损失值序列的预设特征，将所述待识别数据集中的样本分类为错误标注样本或正确标注样本，得到所述待识别数据集中的医学图像的错误标注样本；

其中，所述预设特征包括如下至少一项：

2.根据权利要求1所述的方法，其特征在于，所述根据所述每个样本的损失值序列的预设特征，将所述待识别数据集中的样本分类为错误标注样本或正确标注样本，得到所述待识别数据集中的医学图像的错误标注样本，包括：

根据所述每个样本的损失值序列的预设特征，利用预设聚类方法，将所述待识别数据集中的样本分类为错误标注样本或正确标注样本，得到所述待识别数据集中的医学图像的错误标注样本。

3.根据权利要求1所述的方法，其特征在于，所述利用所述待识别数据集训练深度学习网络，获得所述待识别数据集中的每个样本的损失值序列包括：

将所述每个样本分别输入到所述N个训练模型中，得到所述每个样本的N个损失值；

利用所述N个损失值，构造所述每个样本的损失值序列；

其中，N为大于或等于1的正整数。

4.一种错误样本识别装置，其特征在于，包括：

获取模块，用于获取待识别数据集，所述待识别数据集中包括医学图像的正确标注样本和错误标注样本，所述正确标注样本和所述错误标注样本的损失值序列具有不同的变化趋势；

识别模块，用于根据所述每个样本的损失值序列，识别得到所述待识别数据集中的医学图像的错误标注样本；

其中，所述识别模块包括：

分类单元，用于根据所述每个样本的损失值序列的预设特征，将所述待识别数据集中的样本分类为错误标注样本或正确标注样本，得到所述待识别数据集中的医学图像的错误标注样本；

其中，所述预设特征包括如下至少一项：

5.一种终端，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述计算机程序被所述处理器执行时实现如权利要求1至3中任一项所述的错误样本识别方法的步骤。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的错误样本识别方法的步骤。