CN112598089A

CN112598089A - 图像样本的筛选方法、装置、设备及介质

Info

Publication number: CN112598089A
Application number: CN202110242144.8A
Authority: CN
Inventors: 宁鲲鹏; 翁俊武; 姜文浩; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-03-04
Filing date: 2021-03-04
Publication date: 2021-04-02
Anticipated expiration: 2041-03-04
Also published as: CN112598089B

Abstract

本申请公开了一种图像样本的筛选方法、装置、设备及介质，涉及机器学习领域。该方法包括：获取图像处理模型的样本数据集，所述样本数据集包括N个图像样本和C个样本类别，N和C为正整数；计算所述图像样本的交叉熵；基于所述交叉熵，计算所述图像样本的类别平衡截断交叉熵损失，所述类别平衡截断交叉熵损失是根据所述样本类别得到的损失值；基于所述类别平衡截断交叉熵损失，对所述图像样本进行筛选。本申请会计算图像样本的类别平衡截断交叉熵损失，并通过类别平衡截断交叉熵损失对样本进行筛选，使得筛选后的样本类别比较平衡。

Description

图像样本的筛选方法、装置、设备及介质

技术领域

本申请涉及机器学习领域，特别涉及一种图像样本的筛选方法、装置、设备及介质。

背景技术

深度神经网络的训练通常需要大量的干净样本（指不带噪声的样本，即被错误标记的样本），但在实际应用场景下，获取大规模、高质量的干净标签面临着标记成本高、时间开销大、标注质量低等问题，故如何高效地获得干净的样本是值得研究的。

相关技术是训练两个用于计算样本损失的神经网络，两个神经网络先各自计算样本的损失，在计算完成后，两个神经网络各自从计算结果中挑选损失较低的样本作为干净样本给另一个神经网络进行计算，以此达到去除噪声样本影响的目的。该过程会经过多轮，直到神经网络训练收敛。

但是，由于样本是存在不同类别的，且不同类别之间的样本损失也是存在偏差的，这会导致样本损失的平均值也存在偏差，从而出现被挑选的干净样本在数量上存在类别间不平衡的情况。

发明内容

本申请实施例提供了一种图像样本的筛选方法、装置、方法及介质，该方法可以通过类别平衡截断交叉熵损失对样本进行筛选，可以平衡不同样本类别的筛选结果，保证筛选后的样本在数量上达到平衡。所述技术方案如下。

根据本申请的一个方面，提供了一种图像样本的筛选方法，该方法包括。

获取图像处理模型的样本数据集，所述样本数据集包括N个图像样本和C个样本类别，N和C为正整数。

计算所述图像样本的交叉熵。

基于所述交叉熵，计算所述图像样本的类别平衡截断交叉熵损失，所述类别平衡截断交叉熵损失是根据所述样本类别得到的损失值。

基于所述类别平衡截断交叉熵损失，对所述图像样本进行筛选。

根据本申请的另一个方面，提供了一种图像样本的筛选装置，该装置包括。

获取模块，用于获取图像处理模型的样本数据集，所述样本数据集包括N个图像样本和C个样本类别，N和C为正整数。

计算模块，用于计算所述图像样本的交叉熵。

所述计算模块，还用于基于所述交叉熵，计算所述图像样本的类别平衡截断交叉熵损失，所述类别平衡截断交叉熵损失是根据所述样本类别得到的损失值。

筛选模块，用于基于所述类别平衡截断交叉熵损失，对所述图像样本进行筛选。

在本申请的一个可选设计中，所述计算模块，还用于基于所述交叉熵，计算所述图像样本的类别损失截断，所述类别损失截断是根据所述样本类别对所述图像样本进行筛选所需的阈值；取所述交叉熵和所述类别损失截断中的最小值，作为所述样本的所述类别平衡交叉熵损失。

在本申请的一个可选设计中，所述计算模块，还用于对于所述C个样本类别中的第i个样本类别，基于属于第i个样本类别的各个样本的交叉熵，计算第i个样本类别的平均损失，1≤i≤C，i为整数；对于属于所述第i个样本类别的任一样本，基于所述图像样本的交叉熵和所述第i个样本类别的平均损失，计算所述图像样本的损失偏差；对所述损失偏差进行升序排序，得到所述第i个样本类别的损失偏差数组；取所述损失偏差数组中排序在预设位置的损失偏差；基于所述预设位置的损失偏差与所述第i个样本类别的平均损失的乘积，计算所述图像样本的所述类别损失截断。

在本申请的一个可选设计中，所述计算模块，还用于基于所述平均损失与所述平均损失对应的样本数之间的比值，获得平均比值；基于所述交叉熵与所述平均比值的比值，计算所述图像样本的所述损失偏差。

在本申请的一个可选设计中，所述计算模块，还用于基于所述图像样本的所述损失偏差，计算权重值；基于所述权重值，为筛选后的所述图像样本的交叉熵赋权。

在本申请的一个可选设计中，所述筛选模块，还用于响应于所述图像样本的所述交叉熵不小于所述类别损失截断，将所述图像样本从所述样本数据集中移除。

在本申请的一个可选设计中，所述计算模块，还用于基于所述交叉熵，计算所述图像样本的所述类别平衡截断交叉熵损失和截断交叉熵损失，所述截断交叉熵损失是根据所述样本得到的损失值；基于所述类别平衡截断交叉熵损失和所述截断交叉熵损失，对所述图像样本进行筛选。

在本申请的一个可选设计中，所述计算模块，还用于基于所述交叉熵和所述样本的训练阶段，计算损失截断，所述损失截断是对所述图像样本进行筛选所需的阈值；取所述交叉熵和所述损失截断中的最小值，作为所述图像样本的所述截断交叉熵损失。

在本申请的一个可选设计中，所述计算模块，还用于对所述交叉熵进行升序排序，得到损失截断数组；取所述损失截断数组中第m个损失截断，得到所述图像样本的所述损失截断。

在本申请的一个可选设计中，所述筛选模块，还用于响应于所述图像样本的所述交叉熵不小于所述类别损失截断且所述图像样本的所述交叉熵不小于所述损失截断，将所述图像样本从所述样本数据集中移除。

根据本申请的另一方面，提供了一种计算机设备，该计算机设备包括：处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上方面所述的图像样本的筛选方法。

根据本申请的另一方面，提供了一种计算机存储介质，计算机可读存储介质中存储有至少一条程序代码，程序代码由处理器加载并执行以实现如上方面所述的图像样本的筛选方法。

根据本申请的另一方面，提供了一种计算机程序产品或计算机程序，上述计算机程序产品或计算机程序包括计算机指令，上述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从上述计算机可读存储介质读取上述计算机指令，上述处理器执行上述计算机指令，使得上述计算机设备执行如上方面所述的图像样本的筛选方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过类别平衡截断交叉熵损失对图像样本进行筛选，可以对每一个图像样本在其类别的平均水平上的损失进行区分估计，使得获得的图像样本在样本类别上更为平衡，让本身就具有高损失的样本类别有更大的概率被保留。既可以筛选出标记正确的样本，又可以使被挑选出的样本在数量上达到类别间的平衡，提高样本的实用性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个示例性实施例提供的数据共享系统的结构示意图；

图2示出了本申请一个示例性实施例提供的计算机系统的结构示意图；

图3示出了本申请一个示例性实施例提供的图像样本的筛选方法的流程示意图；

图4示出了本申请一个示例性实施例提供的图像样本的筛选方法的流程示意图；

图5示出了本申请一个示例性实施例提供的图像样本的筛选方法的流程示意图；

图6示出了本申请一个示例性实施例提供的图像样本的筛选方法的流程示意图；

图7示出了本申请一个示例性实施例提供的图像样本的筛选方法的示例性实施场景；

图8示出了本申请一个示例性实施例提供的图像样本的筛选方法的示例性实施场景；

图9示出了本申请一个示例性实施例提供的图像样本的筛选结果对比曲线图；

图10示出了本申请一个示例性实施例提供的噪声样本数量比较图；

图11示出了本申请一个示例性实施例提供的图像样本的筛选装置的结构示意图；

图12示出了本申请一个示例性实施例提供的服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，对本申请实施例中涉及的名词进行介绍，如下所示。

人工智能(Artificial Intelligence，AI)。利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)。是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

带噪学习。指在包含噪声标记的样本数据集上，学得一个高性能的模型的过程。模型的训练通常需要大量的干净样本，但在实际应用场景下，获取大规模、高质量的干净标签面临着标记成本高、时间开销大、标注质量低等问题。例如，公司通常会请数名标注者对海量的未标记样本进行标注，但由于不同标注者的标注能力参差不齐以及错误标注等，导致在大量的标注花费、时间开销下得到一个带噪声标记的数据集。此外，通过在互联网上进行关键词搜索获取样本是一个低成本的方式，但得到的样本同样包含着大量的噪声。因此，带噪学习成为实际应用场景下越来越重要的值得研究的课题。

噪声识别方法。噪声识别方法是指使用一些指标或通过模型、样本本身的信息来对有噪声样本的样本数据集进行筛选，将噪声样本从样本数据集中移除得到的数据集，随后使用该数据集训练神经网络模型。

类别不平衡。指在分类任务中不同类别的样本数目差别很大的情况。在现实的分类学习任务中，类别不平衡会导致模型的学习出现严重的偏差。示例性的，共有1000个例子，有998个反例，但是正例只有2个，那么学习方法只需要返回一个永远将新样本预测为反例的学习器，就能达到99.8%的精度。然而，这样的学习器往往没有价值，因为它不能预测出任何正例。

交叉熵（Cross Entropy）。用于度量两个概率分布间的差异性信息。示例性的，用p表示样本的真实分布，用q表示样本的非真实分布，则交叉熵表示p和q之间差异性，若p和q之间的交叉熵越小，则说明p和q之间的分布越接近。

独热编码（ One-Hot 编码）。使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。示例性的，使用独热编码对4个状态进行编码，获得0001，0010，0100，1000。

区块链（Blockchain）。是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性（防伪）和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

参见图1所示的数据共享系统，数据共享系统10是指用于进行节点与节点之间数据共享的系统，该数据共享系统中可以包括多个节点11，多个节点11可以是指数据共享系统中各个客户端。每个节点11在进行正常工作可以接收到输入的图像样本，并基于接收到的图像样本，维护该数据共享系统内存储的图像样本。为了保证数据共享系统内的信息互通，数据共享系统中的每个节点之间可以存在信息连接，节点之间可以通过上述信息连接进行信息传输。例如，当数据共享系统中的任意节点接收到图像样本时，数据共享系统中的其他节点便根据共识算法获取该图像样本，将该图像样本作为共享数据中的数据进行存储，使得数据共享系统中全部节点上存储的图像样本均一致。

图2示出了本申请一个示例性实施例提供的计算机系统的结构示意图。计算机系统100包括：终端120和服务器140。

终端120上安装有与图像样本的筛选相关的应用程序。该应用程序可以是app（application，应用程序）中的小程序，也可以是专门的应用程序，也可以是网页客户端。示例性的，用户在终端120上进行与图像识别有关的操作，例如，用户使用移动终端上的图像识别功能，该图像识别功能是通过神经网络实现的，而训练该神经网络所用的图像样本可通过本申请的方法获得终端120是智能手机、平板电脑、电子书阅读器、MP3播放器、MP4播放器、膝上型便携计算机和台式计算机中的至少一种。

终端120通过无线网络或有线网络与服务器140相连。

服务器140可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器140用于为图像样本的筛选的应用程序提供后台服务，并将图像样本的筛选的结果发送到终端120上。可选地，服务器140承担主要计算工作，终端120承担次要计算工作；或者，服务器140承担次要计算工作，终端120承担主要计算工作；或者，服务器140和终端120两者采用分布式计算架构进行协同计算。

图3示出了本申请一个示例性实施例提供的图像样本的筛选方法的流程示意图。该方法可由图2所示的服务器140或其他计算机设备执行，该方法包括如下步骤。

步骤202：获取图像处理模型的样本数据集，样本数据集包括N个图像样本和C个样本类别，N和C为正整数。

样本数据集是由图像样本所组成的集合。示例性的，这里的样本是训练神经网络所需要的样本。

获取样本数据集的方法可以是多种，示例性的，样本数据集是由技术人员实时输入的，或者，样本数据集是通过访问本地存储空间获得的，或者，样本数据集是由其它终端发送获得的，或者，样本数据集是从互联网上下载的。本申请对样本数据集的获取方式不做限定。

图像处理模型用于对图像进行各种预设的处理。示例性的，识别图像中的物品。示例性的，识别图像中人脸所对应的用户和帐号。示例性的，修正图像中的参数。样本类别用于对样本做分类。示例性的，假设有一批图片样本，根据图片样本的内容对这批图片样本做分类，分为“猫”的图片和“狗”的图片。

可选地，一个样本可以对应一种样本种类，也可以对应多种样本种类。本申请对此不做限定。

步骤204：计算图像样本的交叉熵。

在给定样本数据集

的前提下，其中，图像样本x_i∈R^d，R^d表示图像样本的真实标记。x_i的真实标记c_i能表示为一个独热编码y_i∈{0,1}^C独热编码y的第c个元素y^c会被赋值为1，其余的元素会被赋值为0。使用N代表样本的数量，C表示样本类别的数量。在加入噪声后，真实标记c和独热编码y会转变为带噪的标记

和带噪的独热编码y，

可以和c相同，也可以不同。在计算交叉熵的过程中，还需要一个映射网络f(x;θ)去估计数据集D中每个样本的真实标记，即f:R^d→z∈R^C，其中，θ是映射网络的参数，R^C表示对样本进行估计所获得的标记。交叉熵

的定义如下所示：

；

其中，

用于表示图像样本x_i属于第k类样本类别的概率，z_k表示第k类样本类别的标记，log（）表示对数运算，

表示加入噪声后的样本x属于标记

的概率。

步骤206：基于交叉熵，计算图像样本的类别平衡截断交叉熵损失，类别平衡截断交叉熵损失是根据样本类别得到的损失值。

类别平衡截断交叉熵损失（Category-balanced Truncated Cross Entropy loss，CB-TCE）会受到样本类别的影响。

由于样本类别会对图像样本的损失产生影响，而部分类别的图像样本本身就具有较高的损失。当样本数据集中既包括高损失样本类别，又包括低损失样本类别时，高损失样本类别的样本很容易会被计算机设备认为是带有噪声的样本，被错误地剔除，导致获得的样本中高损失样本类别对应的样本数量较少，不利于后续的样本使用。

示例性的，类别A的图像样本普遍具有较高的损失，类别B的图像样本普遍具有较低的损失，当对类别A的图像样本和类别B的图像样本做筛选时，由于类别A的图像样本普遍具有较高的损失，类别A的图像样本会有很大的概率被认为是带有噪声的样本，因而类别A的图像样本会有很大的概率被剔除，另一方面，由于类别B的图像样本普遍具有较低的损失，因此类别B的图像样本更不容易被剔除，使得最终获得样本中类别A的图像样本较少，类别B的图像样本较多。

步骤208：基于类别平衡截断交叉熵损失，对图像样本进行筛选。

示例性的，根据类别平衡截断交叉熵损失对应的阈值，对样本进行筛选。保留交叉熵小于阈值的图像样本，移除交叉熵大于阈值的图像样本。

综上所述，本实施例通过类别平衡截断交叉熵损失对图像样本进行筛选，可以对每一个样本在其类别的平均水平上的损失进行区分估计，使得获得的图像样本在样本类别上更为平衡，让本身就具有高损失的样本类别有更大的概率被保留。既可以筛选出标记正确的图像样本，又可以使被挑选出的图像样本在数量上达到类别间的平衡，提高图像样本的实用性。

图4示出了本申请一个示例性实施例提供的图像样本的筛选方法的流程示意图。该方法可由图2所示的服务器140或其他计算机设备执行，该方法包括如下步骤。

步骤301：获取图像处理模型的样本数据集。

步骤302：计算图像样本的交叉熵。

步骤301和步骤302的具体内容可参照步骤202至步骤204。

步骤303：对于C个样本类别中的第i个样本类别，基于属于第i个样本类别的各个样本的交叉熵，计算第i个样本类别的平均损失，1≤i≤C，i为整数。

平均损失用于表示样本类别中所有图像样本的损失的平均值。示例性的，样本类别A中有样本1、样本2和样本3，样本1对应损失1，样本2对应损失2，样本3对应损失3，则平均损失为（损失1+损失2+损失3）/3。

示例性的，将交叉熵记为

，平均损失记为

，则有平均损失的计算公式如下：

；

其中，

代表类别

的样本总数，

是图像样本加入噪声后的真实标记，x_j表示第j个样本。

步骤304：对于属于第i个样本类别的任一样本，基于样本的交叉熵和第i个样本类别的平均

损失，计算图像样本的损失偏差。

损失偏差是在考量样本类别后，获得损失值。

该步骤可包括以下子步骤。

1、基于平均损失与平均损失对应的样本数之间的比值，获得平均比值。

示例性的，将平均比值设为p，则有：

；

其中，

代表类别

的样本总数，

是样本加入噪声后的真实标记。

2、基于交叉熵与平均比值的比值，计算图像样本的所述损失偏差。

示例性的，将损失偏差记为v，则

；

其中，分式的分子部分为样本的交叉熵，分母部分为上述的平均比值。

步骤305：对损失偏差进行升序排序，得到第i个样本类别的损失偏差数组。

步骤306：取损失偏差数组中排序在预设位置的损失偏差。

示例性的，步骤305和步骤306可通过rank（）函数实现，rank（）会先对输入的数组进行升序排序，并根据实际需求得到任意位置的数据。示例性的，步骤305和步骤306可具体实现为rank（V，η），其中n=η*N，N为样本数据集中的样本总数，η表示图像样本中的噪声比例。

步骤307：基于预设位置的损失偏差与第i个样本类别的平均损失的乘积，计算样本的类别损失截断。

类别损失截断是根据样本类别对图像样本进行筛选所需的阈值。在不同的样本类别下，会用到的类别损失截断的值不同，即在不同的预设样本类别中，会有不同的类别损失截断。

示例性的，将类别损失截断记为

，则有：

；

其中，

为上述平均损失

的另一种表现形式。

步骤308：取交叉熵和类别损失截断中的最小值，作为图像样本的类别平衡交叉熵损失。

示例性的，将类别平衡交叉熵损失记为

，则有：

；

其中，min（）的作用是输出数入值中的最小值，

表示图像样本的交叉熵，

表示类别损失截断。

步骤309：响应于图像样本的交叉熵不小于类别损失截断，将图像样本从样本数据集中移除。

响应于图像样本的交叉熵小于类别损失截断，保留图像样本。

步骤310：基于图像样本的损失偏差，计算权重值。

示例性的，将图像样本x_i的权重值记为w_i，则有：

；

其中，max（）的作用的是输出输入值中的最大值，v_i是图像样本x_i的损失偏差。

步骤311：基于权重值，为筛选后的图像样本的交叉熵赋权。

示例性的，赋权过程为相乘的过程，赋权后的交叉熵为

。

将赋予权重后的方法称为带权重的类别平衡截断交叉熵损失（the WeightedCategory-balanced Truncated Cross Entropy loss，WCB-TCE）。

步骤310和步骤311为可选步骤。

综上所述，本实施例通过类别平衡截断交叉熵损失对图像样本进行筛选，可以对每一个样本在其类别的平均水平上的损失进行区分估计，使得获得的图像样本在样本类别上更为平衡，让本身就具有高损失的样本类别有更大的概率被保留。既可以筛选出标记正确的图像样本，又可以使被挑选出的样本在数量上达到类别间的平衡，提高图像样本的实用性。

并且，通过赋权的方法，使得损失偏差较大的图像样本在后续的神经网络训练过程中，对神经网络训练的影响较小，使得可以神经网络的训练集中在噪声较小的图像样本中。

在本申请中，类别平衡截断交叉熵损失还可以和其它算法进行结合，以保证图像样本的筛选的正确率。

图5示出了本申请一个示例性实施例提供的图像样本的筛选方法的流程示意图。该方法可由图1所示的服务器140或其他计算机设备执行，该方法包括如下步骤。

步骤401：获取图像处理模型的样本数据集。

步骤402：计算图像样本的交叉熵。

步骤401和步骤402的过程可参照步骤202至步骤204。

步骤403：基于交叉熵，计算图像样本的类别平衡截断交叉熵损失和截断交叉熵损失，截断交叉熵损失是根据样本得到的损失值。

截断交叉熵损失会对损失值重新赋值，保留小于阈值的损失值，并为不小于阈值的损失值重新赋值，重新赋予的值可由技术人员自行设置。

步骤404：基于类别平衡截断交叉熵损失和截断交叉熵损失，对图像样本进行筛选。

示例性的，根据类别平衡截断交叉熵损失和截断交叉熵损失对应的第一阈值和第二阈值，对样本进行筛选。保留交叉熵小于第一阈值或小于第二阈值的样本，移除交叉熵大于第一阈值且大于第二阈值的样本。

综上所述，本实施例通过类别平衡截断交叉熵损失和截断交叉熵损失对图像样本进行筛选，可以对每一个样本在其类别的平均水平上的损失进行区分估计，使得获得的图像样本在样本类别上更为平衡，让本身就具有高损失的样本类别有更大的概率被保留，并且，可以有效去除样本数据集中有噪声的图像样本。既可以筛选出标记正确的图像样本，又可以使被挑选出的样本在数量上达到类别间的平衡，提高图像样本的实用性。

图6示出了本申请一个示例性实施例提供的图像样本的筛选方法的流程示意图。该方法可由图2所示的服务器140或其他计算机设备执行，该方法包括如下步骤。

步骤501：获取图像处理模型的样本数据集。

步骤502：计算图像样本的交叉熵。

步骤501和步骤502的具体过程可参照步骤202至步骤204。

步骤503：基于交叉熵，计算样本的类别平衡截断交叉熵损失。

步骤504：基于交叉熵和图像样本的训练阶段，计算损失截断，损失截断是对图像样本进行筛选所需的阈值。

损失截断是针对样本损失值进行划分的阈值。样本损失值高于损失截断（预先设定好的阈值）的样本被认为是噪声样本。

可选地，本步骤具体包括以下子步骤。

1、基于图像样本的训练阶段，对交叉熵进行升序排序，得到损失截断数组。

2、取损失截断数组中第m个损失截断，得到所述图像样本的损失截断。

示例性的，将损失截断记为

，则有：

；

其中，

表示由交叉熵组成的数组，m=N*η，N为样本数量，η为噪声比例，t表示训练阶段。

步骤505：取交叉熵和损失截断中的最小值，作为图像样本的截断交叉熵损失。

示例性的，将截断交叉熵损失定为

，则有：

；

其中，

表示上述的损失截断。

步骤506：响应于图像样本的交叉熵不小于类别损失截断且图像样本的交叉熵不小于损失截断，将图像样本从样本数据集中移除。

响应于样本的交叉熵小于类别平衡交叉熵损失或样本的交叉熵小于截断交叉熵损失，保留样本。

综上所述，本实施例通过类别平衡截断交叉熵损失和截断交叉熵损失对样本进行筛选，可以对每一个样本在其类别的平均水平上的损失进行区分估计，使得获得的样本在样本类别上更为平衡，让本身就具有高损失的样本类别有更大的概率被保留，并且，可以有效去除样本数据集中有噪声的样本。既可以筛选出标记正确的样本，又可以使被挑选出的样本在数量上达到类别间的平衡，提高样本的实用性。

示例性的，如图7所示，给出一种示例性的实施场景，将本申请运用于图像识别神经网络的训练过程中。

步骤601：获取图像数据集。

步骤602：计算图像样本的交叉熵。

步骤603：基于交叉熵，计算图像样本的类别平衡截断交叉熵损失。

步骤604：基于类别平衡截断交叉熵损失，对图像样本进行筛选。

步骤605：将筛选后的图像样本作为训练数据，输入到图像识别神经网络中，训练图像识别神经网络。

图像识别神经网络可以识别输入图像中的物品。示例性的，图像识别神经网络识别到图像中有“兰花”这一物品。

综上所述，本申请可运用在图像识别神经网络中，通过类别平衡截断交叉熵损失对图像样本进行筛选，可以对每一个图像样本在其类别的平均水平上的损失进行区分估计，使得获得的图像样本在样本类别上更为平衡，让本身就具有高损失的样本类别有更大的概率被保留，既可以筛选出标记正确的样本，又可以使被挑选出的样本在数量上达到类别间的平衡，提高样本的实用性，使得训练得到的图像识别神经网络更符合实际的需求，拥有较好的性能。

示例性的，如图8所示，给出一种示例性实施场景，将本申请运用于人脸识别神经网络的训练过程中。

步骤701：获取人脸图像数据集。

步骤702：计算人脸图像样本的交叉熵。

步骤703：基于交叉熵，计算人脸图像样本的类别平衡截断交叉熵损失。

步骤704：基于类别平衡截断交叉熵损失，对人脸图像样本进行筛选。

步骤705：将筛选后的人脸图像样本作为训练数据，输入到人脸识别神经网络中，训练人脸识别神经网络。

人脸识别神经网络可以通过输入的人脸图像，确定人脸图像对应的用户身份。

综上所述，本申请可运用在人脸识别神经网络中，通过类别平衡截断交叉熵损失对人脸图像样本进行筛选，可以对每一个人脸图像样本在其类别的平均水平上的损失进行区分估计，使得获得的人脸图像样本在样本类别上更为平衡，让本身就具有高损失的样本类别有更大的概率被保留，既可以筛选出标记正确的样本，又可以使被挑选出的样本在数量上达到类别间的平衡，提高样本的实用性，使得训练得到的人脸图像神经网络更符合实际的需求，拥有较好的性能。

示例性的，将本申请中的带权重的类别平衡截断交叉熵损失（theWeightedCategory-Balanced Truncated Cross Entropy loss，WCB-TCE）同交叉熵损失（Cross Entropy loss，CE）、截断交叉熵损失（Truncated Cross Entropy loss，TCE）、朴素类别平衡截断交叉熵损失（Naive Category-Balanced Truncated Cross Entropyloss，NCB-TCE）、类别平衡截断交叉熵损失（Category-Balanced Truncated CrossEntropy loss，CB-TCE）进行比较，获得表1，其中，CIFAR-10是包括多张图像的公开数据集。

表1在CIFAR-10数据集和9层卷积神经网络中，不同的筛选方法对准确度影响表

表1中报告了不同噪声类型和噪声比率下基线之间的比较。可以观察到，就所有噪声类型和噪声比率而言，本申请所提出的WCB-TCE方法在所有情况下均优于其他四个方法。直接在带噪声标签的情况下进行训练的CE方法在所有情况下均表现最差，因为该模型可能会被带噪声标签严重误导。 TCE是一种检测噪声标签的常用方法，其性能要优于CE，这证明TCE方法可以在一定程度上有效区分噪声和不带噪声的样本。然而，它的表现却受到样本类别的影响。此外，CB-TCE和WCB-TCE方法的性能验证了所提出的损耗偏差对噪声标签检测的有效性。在WCB-TCE中建议的加权方案的帮助下，在所有噪声设置下，性能比CB-TCE进一步提高了平均1.3％。

示例性的，将本申请的方法与其他相关技术进行比较，包括Soft Bootstrapping，Hard Bootstrapping，MentorNet DD，CurriculumNet，Co-Teaching，SL和O2U-net。获得表2和表3。

使用ResNet-101神经网络和9层CNN 网络对CIFAR-10，CIFAR-100和Mini-ImageNet数据集分别进行了10％，20％， 40％，80％的对称噪声和10％的等效噪声的混入声。同时在CIFAR-10，CIFAR-100和Mini-ImageNet数据集上训练了20层神经网络，50％对称噪声和45％等效噪声的9层CNN模型。重要的是，我们使用ResNet-50和ImageNet预训练权重来评估结果，详见表2和表3。

表2图像样本的筛选性能比对表

表3噪声标签检测

在表2和表3中，S表示对称噪声，P表示等效噪声。

其中，对称噪声是由于样本数据集中的每个样本均独立分配给随机标签，而不是其真实标签产生的，且对称噪声的概率均匀分布，其中在本实施例中，噪声比例被分配为10％，20％，40％，50％和80％。

而等效噪声是由于一个类别中的所有样本只能分配给除真实标签之外的特定类别而产生的。样本类别中样本错误贴标签的概率被设置为10％，20％，40％和45％。

综上可以看出，表2和3展示了图像分类的结果以及WCB-TCE与其他方法之间的噪音标签检测。从表2和表3可以看出，在ResNet101和9层CNN网络上，所建议的WCB-TCE方法在大多数情况下均优于其他方法。WCB-TCE可以比其他噪声过滤方法获得更高的噪声标签分类精度。而且，随着噪声比的增加，所提方法的优越性越来越明显。在这两个表中，O2U-net显示不同参数的最佳结果。O2U-net可以记录了每个样本从过度拟合到欠拟合的平均损失，解决过度拟合问题，即神经网络模型将在训练的后期过度拟合到噪声样本。但是，由于类别不平衡问题，其性能仍然存在问题。值得一提的是，WCB-TCE还使用了Co-Teaching框架，不同之处在于它使用损耗偏差作为选择指标。可以看出，提出的WCB-TCE方法明显优于联合教学。SL模型会对低噪声数据进行训练。它试图通过引入逆熵损失来解决类别不平衡问题。尽管SL可以减少嘈杂样品的负面影响，但贴错标签的样品仍会妨碍其性能。此外，从表3我们可以看到，与其他噪声检测方法相比，WCB-TCE在噪声标签检测方面取得了显着改善。所提出的方法能够产生比其他方法干净得多的子集。

图9示出了本申请一个示例性实施例提供的图像样本的筛选结果对比曲线图。其中，图9的（a）部分是相关技术的噪声损失曲线图，图9的（b）部分是本申请CB-TCE方法的噪声损失的曲线图，图9的（c）部分是平均损失曲线图，图9的（d）部分是噪声样本分布图。

从图9的（a）部分和图9的（b）部分中可以看出，相关技术筛选出的样本之间存在严重的类别失衡。部分类别中的样本数量明显大于其他类别中的样本数量。与相关技术相比，CB-TCE为每个类别选择的样本数量相对平衡。从类别平衡的角度来看，CB-TCE学习的模型比在相关技术下学习的模型更加实用和有效。此外，还记录了每个类别的平均损失，如图9的（c）部分所示。可以看出，平均损失在不同类别之间的变化很大，因此相关技术的筛选方法是不可靠的。

另一方面，在图像样本的筛选的过程中，理想的情况是筛选出所有带有正确标签的样本，并进行训练。但是，由于现实原因的限制，筛选出的样本可能始终包含错误注释的数据的特定部分。故将相关技术与我们提出的关于噪声数据分布的方法进行了比较，如图9的（d）部分所示。将在CIFAR数据集中带有错误注释标签的样本计入图中，并根据其对应的归一化损失或损失偏差值将它们分组。根据截断标准，将低值区域中的样本视为干净的训练数据。可以看出，本申请在低值区域的噪声样本数量远少于相关技术的损失值的样本数量。

图10示出了本申请一个示例性实施例提供的噪声样本数量比较图。该图比较了TCE和CB-TCE之间样本中的噪声样本数量。

在图10中显示了处理的噪声样本数量的比较。从图10可以看出，在所有噪声类型和噪声比例下，使用CB-TCE进行训练所涉及的噪声数据均要比使用TCE少得多，故本申请的CB-TCE方法可以提高训练的效率。

下面为本申请的装置实施例，对于装置实施例中未详细描述的细节，可以结合参考上述方法实施例中相应的记载，本文不再赘述。

图11示出了本申请的一个示例性实施例提供的图像样本的筛选装置的结构示意图。该装置可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分，该装置1000包括如下。

获取模块1001，用于获取图像处理模型的样本数据集，所述样本数据集包括N个图像样本和C个样本类别，N和C为正整数。

计算模块1002，用于计算所述图像样本的交叉熵。

所述计算模块1002，还用于基于所述交叉熵，计算所述图像样本的类别平衡截断交叉熵损失，所述类别平衡截断交叉熵损失是根据所述样本类别得到的损失值。

筛选模块1003，用于基于所述类别平衡截断交叉熵损失，对所述图像样本进行筛选。

在本申请的一个可选设计中，所述计算模块1002，还用于基于所述交叉熵，计算所述图像样本的类别损失截断，所述类别损失截断是根据所述样本类别对所述图像样本进行筛选所需的阈值；取所述交叉熵和所述类别损失截断中的最小值，作为所述图像样本的所述类别平衡交叉熵损失。

在本申请的一个可选设计中，所述计算模块1002，还用于对于所述C个样本类别中的第i个样本类别，基于属于第i个样本类别的各个样本的交叉熵，计算第i个样本类别的平均损失，1≤i≤C，i为整数；对于属于所述第i个样本类别的任一样本，基于所述图像样本的交叉熵和所述第i个样本类别的平均损失，计算所述图像样本的损失偏差；对所述损失偏差进行升序排序，得到所述第i个样本类别的损失偏差数组；取所述损失偏差数组中排序在预设位置的损失偏差；基于所述预设位置的损失偏差与所述第i个样本类别的平均损失的乘积，计算所述图像样本的所述类别损失截断。

在本申请的一个可选设计中，所述计算模块1002，还用于基于所述平均损失与所述平均损失对应的样本数之间的比值，获得平均比值；基于所述交叉熵与所述平均比值的比值，计算所述图像样本的所述损失偏差。

在本申请的一个可选设计中，所述计算模块1002，还用于基于所述图像样本的所述损失偏差，计算权重值；基于所述权重值，为筛选后的所述图像样本的交叉熵赋权。

在本申请的一个可选设计中，所述筛选模块1003，还用于响应于所述图像样本的所述交叉熵不小于所述类别损失截断，将所述样本从所述样本数据集中移除。

在本申请的一个可选设计中，所述计算模块1002，还用于基于所述交叉熵，计算所述图像样本的所述类别平衡截断交叉熵损失和截断交叉熵损失，所述截断交叉熵损失是根据所述图像样本得到的损失值；基于所述类别平衡截断交叉熵损失和所述截断交叉熵损失，对所述图像样本进行筛选。

在本申请的一个可选设计中，所述计算模块1002，还用于基于所述交叉熵和所述样本的训练阶段，计算损失截断，所述损失截断是对所述图像样本进行筛选所需的阈值；取所述交叉熵和所述损失截断中的最小值，作为所述图像样本的所述截断交叉熵损失。

在本申请的一个可选设计中，所述计算模块1002，还用于对所述交叉熵进行升序排序，得到损失截断数组；取所述损失截断数组中第m个损失截断，得到所述图像样本的所述损失截断。

在本申请的一个可选设计中，所述筛选模块1003，还用于响应于所述图像样本的所述交叉熵不小于所述类别损失截断且所述图像样本的所述交叉熵不小于所述损失截断，将所述图像样本从所述样本数据集中移除。

综上所述，本实施例通过类别平衡截断交叉熵损失对图像样本进行筛选，可以对每一个样本在其类别的平均水平上的损失进行区分估计，使得获得的图像样本在样本类别上更为平衡，让本身就具有高损失的样本类别有更大的概率被保留。

图12是本申请一个实施例提供的服务器的结构示意图。具体来讲：服务器1100包括中央处理单元（英文：Central Processing Unit，简称：CPU）1101、包括随机存取存储器（英文：Random Access Memory，简称：RAM）1102和只读存储器（英文：Read-Only Memory，简称：ROM）1103的系统存储器1104，以及连接系统存储器1104和中央处理单元1101的系统总线1105。计算机设备1100还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统（I/O系统，Input/Output系统）1106，和用于存储操作系统1113、应用程序1114和其他程序模块1115的大容量存储设备1107。

基本输入/输出系统1106包括有用于显示信息的显示器1108和用于用户输入信息的诸如鼠标、键盘之类的输入设备1109。其中显示器1108和输入设备1109都通过连接到系统总线1105的输入/输出控制器1110连接到中央处理单元1101。基本输入/输出系统1106还可以包括输入/输出控制器1110以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入/输出控制器1110还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1107通过连接到系统总线1105的大容量存储控制器（未示出）连接到中央处理单元1101。大容量存储设备1107及其相关联的计算机可读介质为服务器1100提供非易失性存储。也就是说，大容量存储设备1107可以包括诸如硬盘或者只读光盘（英文：Compact Disc Read-Only Memory，简称：CD-ROM）驱动器之类的计算机可读介质（未示出）。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器（英文：Erasable Programmable Read-Only Memory，简称：EPROM）、电可擦除可编程只读存储器（英文：Electrically Erasable Programmable Read-Only Memory，简称：EEPROM）、闪存或其他固态存储其技术，CD-ROM、数字通用光盘（英文：Digital Versatile Disc，简称：DVD）或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1107可以统称为存储器。

根据本申请的各种实施例，服务器1100还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1100可以通过连接在系统总线1105上的网络接口单元1111连接到网络1112，或者说，也可以使用网络接口单元1111来连接到其他类型的网络或远程计算机系统（未示出）。

根据本申请的另一方面，还提供了一种计算机存储介质，计算机可读存储介质中存储有至少一条程序代码，程序代码由处理器加载并执行以实现如上述的图像样本的筛选方法。

根据本申请的另一方面，还提供了一种计算机程序产品或计算机程序，上述计算机程序产品或计算机程序包括计算机指令，上述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从上述计算机可读存储介质读取上述计算机指令，上述处理器执行上述计算机指令，使得上述计算机设备执行如上述的图像样本的筛选方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像样本的筛选方法，其特征在于，所述方法包括：

获取图像处理模型的样本数据集，所述样本数据集包括N个图像样本和C个样本类别，N和C为正整数；

计算所述图像样本的交叉熵；

基于所述交叉熵，计算所述图像样本的类别平衡截断交叉熵损失，所述类别平衡截断交叉熵损失是根据所述样本类别得到的损失值；

2.根据权利要求1所述的方法，其特征在于，所述基于所述交叉熵，计算所述图像样本的类别平衡截断交叉熵损失，包括：

基于所述交叉熵，计算所述图像样本的类别损失截断，所述类别损失截断是根据所述样本类别对所述图像样本进行筛选所需的阈值；

取所述交叉熵和所述类别损失截断中的最小值，作为所述图像样本的所述类别平衡交叉熵损失。

3.根据权利要求2所述的方法，其特征在于，所述基于所述交叉熵，计算所述图像样本的类别损失截断，包括：

对于所述C个样本类别中的第i个样本类别，基于属于第i个样本类别的各个样本的交叉熵，计算第i个样本类别的平均损失，1≤i≤C，i为整数；

对于属于所述第i个样本类别的任一样本，基于所述图像样本的交叉熵和所述第i个样本类别的平均损失，计算所述图像样本的损失偏差；

对所述损失偏差进行升序排序，得到所述第i个样本类别的损失偏差数组；

取所述损失偏差数组中排序在预设位置的损失偏差；

基于所述预设位置的损失偏差与所述第i个样本类别的平均损失的乘积，计算所述图像样本的所述类别损失截断。

4.根据权利要求3所述的方法，其特征在于，所述基于所述交叉熵和所述平均损失，计算所述图像样本的损失偏差，包括：

基于所述平均损失与所述平均损失对应的样本数之间的比值，获得平均比值；

基于所述交叉熵与所述平均比值的比值，计算所述图像样本的所述损失偏差。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述图像样本的损失偏差，计算权重值；

基于所述权重值，为筛选后的所述图像样本的交叉熵赋权。

6.根据权利要求1至5任一所述的方法，其特征在于，所述基于所述类别平衡截断交叉熵损失，对所述图像样本进行筛选，包括：

响应于所述图像样本的所述交叉熵不小于所述类别平衡截断交叉熵损失对应的类别损失截断，将所述图像样本从所述样本数据集中移除。

7.根据权利要求1至5任一所述的方法，其特征在于，所述基于所述交叉熵，计算所述图像样本的类别平衡截断交叉熵损失，包括：

基于所述交叉熵，计算所述图像样本的所述类别平衡截断交叉熵损失和截断交叉熵损失，所述截断交叉熵损失是根据所述图像样本得到的损失值；

所述基于所述类别平衡截断交叉熵损失，对所述图像样本进行筛选，包括：

基于所述类别平衡截断交叉熵损失和所述截断交叉熵损失，对所述图像样本进行筛选。

8.根据权利要求7所述的方法，其特征在于，所述基于所述交叉熵，计算所述图像样本的截断交叉熵损失，包括：

基于所述交叉熵和所述图像样本的训练阶段，计算损失截断，所述损失截断是对所述图像样本进行筛选所需的阈值；

取所述交叉熵和所述损失截断中的最小值，作为所述图像样本的所述截断交叉熵损失。

9.根据权利要求8所述的方法，其特征在于，所述基于所述交叉熵和所述图像样本的训练阶段，计算所述图像样本的损失截断，包括：

基于所述图像样本的所述训练阶段，对所述交叉熵进行升序排序，得到损失截断数组；

取所述损失截断数组中第m个损失截断，得到所述图像样本的所述损失截断。

10.根据权利要求7所述的方法，其特征在于，所述基于所述类别平衡截断交叉熵损和所述截断交叉熵损失，对所述图像样本进行筛选，包括：

响应于所述图像样本的所述交叉熵不小于所述类别平衡截断交叉熵损失对应的类别损失截断且所述图像样本的所述交叉熵不小于所述截断交叉熵损失对应的损失截断，将所述图像样本从所述样本数据集中移除。

11.一种图像样本的筛选装置，其特征在于，所述装置包括：

获取模块，用于获取图像处理模型的样本数据集，所述样本数据集包括N个图像样本和C个样本类别，N和C为正整数；

计算模块，用于计算所述图像样本的交叉熵；

所述计算模块，还用于基于所述交叉熵，计算所述图像样本的类别平衡截断交叉熵损失，所述类别平衡截断交叉熵损失是根据所述样本类别得到的损失值；

12.一种计算机设备，其特征在于，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至10中任一项所述的图像样本的筛选方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现如权利要求1至10中任一项所述的图像样本的筛选方法。