CN112651467A

CN112651467A - 卷积神经网络的训练方法和系统以及预测方法和系统

Info

Publication number: CN112651467A
Application number: CN202110062025.4A
Authority: CN
Inventors: 张辉; 姚权铭
Original assignee: 4Paradigm Beijing Technology Co Ltd
Current assignee: 4Paradigm Beijing Technology Co Ltd
Priority date: 2021-01-18
Filing date: 2021-01-18
Publication date: 2021-04-13
Anticipated expiration: 2041-01-18
Also published as: CN112651467B

Abstract

提供了一种卷积神经网络的训练方法和系统以及预测方法和系统，其中，所述训练方法包括：获取训练数据集，其中，每个训练数据包括训练样本以及训练样本的标记，其中，标记包含噪声标记；基于训练样本本身对所述卷积神经网络的第一部分进行表示学习，以学习训练样本的特征表示；基于学习出的训练样本的特征表示以及训练样本的标记对所述卷积神经网络的第二部分进行分类器学习，以获得分类器。

Description

卷积神经网络的训练方法和系统以及预测方法和系统

技术领域

本公开总体说来涉及人工智能领域，更具体地，涉及一种用于训练卷积神经网络的方法和系统以及利用卷积神经网络执行预测的方法和系统。

背景技术

卷积神经网络(ConvNet)由于其强大的复杂模式拟合能力而被广泛地运用。但是这种能力是以获取到大量干净数据标注进行有效训练为前提，具体实践中由于成本等原因，标记数据中无法避免地会混入错误，即噪声标记(noisy label)。而ConvNet由于过度参数化的原因很容易记忆这些噪声标记，从而使得其泛化性(generalization)大大降低。目前，存在基于损失函数优化的噪声样本学习方法、基于半监督学习的噪声样本学习方法和基于元学习的噪声样本学习方法，然而，上述方法中对卷积神经网络的训练都是对整个卷积神经网络一起进行学习，而这导致训练的卷积神经网络容易受噪声标记的影响而训练效果欠佳，进而导致难以利用训练的卷积神经网络提供准确的预测结果。

发明内容

本公开提供一种用于训练卷积神经网络的方法和系统、一种利用卷积神经网络执行预测的方法和系统、一种存储指令的计算机可读存储介质以及一种包括至少一个计算装置和存储指令的至少一个存储装置的系统，以至少解决相关技术中的上述问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供了一种由计算装置执行的训练卷积神经网络的方法，所述方法包括：获取训练数据集，其中，每个训练数据包括训练样本以及训练样本的标记，其中，标记包含噪声标记；基于训练样本本身对所述卷积神经网络的第一部分进行表示学习，以学习训练样本的特征表示；基于学习出的训练样本的特征表示以及训练样本的标记对所述卷积神经网络的第二部分进行分类器学习，以获得分类器。

可选地，所述方法还包括：在获得分类器之后，对整个所述卷积神经网络进行半监督学习来调整所述卷积神经网络的参数。

可选地，对整个所述卷积神经网络进行半监督学习来调整所述卷积神经网络的参数，包括：使用获得的分类器对训练样本的标记以及所述卷积神经网络针对训练样本的预测结果进行可信度评估；根据可信度评估结果将训练数据集中的训练样本转换为不带标记的训练样本和带有无噪声标记的训练样本；基于不带标记的训练样本和带有无噪声标记的训练样本对整个所述卷积神经网络进行半监督学习来调整所述卷积神经网络的参数。

可选地，所述使用获得的分类器对训练样本的标记以及所述卷积神经网络针对训练样本的预测结果进行可信度评估，包括：利用第一高斯混合模型估计训练样本的标记的第一可信度，其中，第一高斯混合模型是根据分类器针对训练数据集的预测损失分布获得的；根据估计出的第一可信度，确定训练样本的标记是无噪声标记还是噪声标记；如果训练样本的标记被确定为是噪声标记，则将分类器针对该训练样本的预测结果作为该训练样本的修正标记；利用第二高斯混合模型估计修正标记的第二可信度，其中，第二高斯混合模型是根据分类器针对训练数据集的预测概率分布获得的。

可选地，所述根据可信度估计结果将训练数据集中的训练样本转换为不带标记的训练样本和带有无噪声标记的训练样本，包括：根据第一可信度和第二可信度将训练数据集中的训练样本转换为不带标记的训练样本和带有无噪声标记的训练样本。

可选地，所述根据第一可信度和第二可信度将训练数据集中的训练样本转换为不带标记的训练样本和带有无噪声标记的训练样本，包括：将与第一可信度大于第一阈值的标记对应的训练样本以及与第二可信度大于第二阈值的修正标记对应的训练样本确定为带有无噪声标记的训练样本；将与第二可信度小于或等于第二阈值的修正标记对应的训练样本的标记去除，作为不带标记的训练样本。

可选地，所述基于不带标记的训练样本和带有无噪声标记的训练样本对整个所述卷积神经网络进行半监督学习来调整所述卷积神经网络的参数，包括：基于不带标记的训练样本和带有无噪声标记的训练样本，利用被构造为包括有监督学习损失项、无监督学习损失项和预定正则项的损失函数对所述卷积神经网络进行半监督学习来调整所述卷积神经网络的参数，其中，所述预定正则项用于使特征空间中相似的样本拥有相同的标记。

可选地，不同类别的带有无噪声标记的训练样本被按照相同的采样率进行采样以用于对所述卷积神经网络进行半监督学习。

可选地，所述卷积神经网络用于图像分类，所述训练样本是图像，所述分类器用于基于图像的特征表示来预测图像的类别。

根据本公开实施例的第二方面，提供了一种由计算装置执行的利用卷积神经网络执行预测的方法，所述方法包括：获取预测样本；基于所述预测样本，利用所述卷积神经网络的第一部分获得所述预测样本的特征表示；基于所述特征表示，利用所述卷积神经网络的第二部分获得针对所述预测样本的预测结果，其中，所述卷积神经网络的第一部分是基于训练数据集中的训练样本本身进行表示学习而得到的，所述卷积神经网络的第二部分是基于利用卷积神经网络的第一部分学习出的训练样本的特征表示以及训练样本的标记进行分类器学习而得到的，其中，训练样本的标记包含噪声标记。

可选地，所述卷积神经网络用于图像分类，所述预测样本是图像，针对所述预测样本的预测结果是关于图像的分类结果。

根据本公开实施例的第三方面，提供了一种训练卷积神经网络的系统，所述系统包括：数据获取装置，被配置为获取训练数据集，其中，每个训练数据包括训练样本以及训练样本的标记，其中，标记包含噪声标记；训练装置，被配置为：基于训练样本本身对所述卷积神经网络的第一部分进行表示学习，以学习训练样本的特征表示；基于学习出的训练样本的特征表示以及训练样本的标记对所述卷积神经网络的第二部分进行分类器学习，以获得分类器。

可选地，训练装置还被配置为：在获得分类器之后，对整个所述卷积神经网络进行半监督学习来调整所述卷积神经网络的参数。

根据本公开实施例的第四方面，提供了一种利用卷积神经网络执行预测的系统，所述系统包括：预测样本获取装置，被配置为获取预测样本；预测装置，被配置为：基于所述预测样本，利用所述卷积神经网络的第一部分获得所述预测样本的特征表示；基于所述特征表示，利用所述卷积神经网络的第二部分获得针对所述预测样本的预测结果，其中，所述卷积神经网络的第一部分是基于训练数据集中的训练样本本身进行表示学习而得到的，所述卷积神经网络的第二部分是基于利用卷积神经网络的第一部分学习出的训练样本的特征表示以及训练样本的标记进行分类器学习而得到的，其中，训练样本的标记包含噪声标记。

根据本公开实施例的第五方面，提供了一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行如上所述的训练卷积神经网络的方法和利用卷积神经网络执行预测的方法。

根据本公开实施例的第六方面，提供了一种包括至少一个计算装置和存储指令的至少一个存储装置的系统，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行如上所述的训练卷积神经网络的方法和利用卷积神经网络执行预测的方法。

根据本公开实施例的模型训练系统和模型训练方法可提高模型在带有噪声标记的训练数据上的训练效果，进而训练出能够提供更准确预测结果的卷积神经网络。根据本公开实施例的预测系统和预测方法可利用上述训练出的卷积神经网络提供更准确的预测结果。

附图说明

从下面结合附图对本公开实施例的详细描述中，本公开的这些和/或其他方面和优点将变得更加清楚并更容易理解，其中：

图1是示出根据本公开示例性实施例的训练卷积神经网络的系统的框图；

图2是示出根据本公开示例性实施例的训练卷积神经网络的示意图；

图3是示出根据本公开示例性实施例的对标记进行可信度估计的示意图；

图4是示出根据本公开示例性实施例的训练卷积神经网络的方法的流程图；

图5是示出根据本公开示例性实施例的利用卷积神经网络执行预测的系统的框图；

图6是示出根据本公开示例性实施例的利用卷积神经网络执行预测的方法的流程图。

具体实施方式

为了使本领域技术人员更好地理解本公开，下面结合附图和具体实施方式对本公开的示例性实施例作进一步详细说明。

如本公开背景技术中所提及的，目前对卷积神经网络的训练都是对整个卷积神经网络一起进行学习，而这导致训练的卷积神经网络容易受噪声标记的影响而训练效果欠佳，进而导致难以利用训练的卷积神经网络提供准确的预测结果。事实上，现阶段方法的训练模式都是基于端到端，即表示学习和分类器学习一起通过梯度更新优化。但是这种训练方式容易忽略掉了一个核心的问题：表示学习和分类器学习在应对噪声标记的时候行为是否存在差别？针对此，本公开经研究发现表示学习和分类器学习在应对噪声标记的时候行为存在差别。具体地，本公开经研究发现：1)表示学习对噪声标记非常脆弱；2)基于较好的表示，分类器本身可以有很强的鲁棒性。因此，本公开提出将表示学习和分类器学习进行解耦合的构思，以充分照顾表示学习和分类器学习不同的噪声鲁棒性。

下面，将结合附图对本公开的构思进行详细说明。

图1是示出根据本公开示例性实施例的训练卷积神经网络的系统(为描述方便，以下，将其简称为“模型训练系统”)的框图。

参照图1，模型训练系统100可包括数据获取装置110和训练装置120。具体地，数据获取装置110可获取训练数据集。这里，每个训练数据包括训练样本以及训练样本的标记，其中，标记包含噪声标记。作为示例，训练样本可以是图像，标记可以是指示图像类别的类别标记。然而，训练样本不限于图像，而是可根据实际应用场景的不同而是其他类型的数据。

数据获取装置110可直接从外部获取训练数据集，或者，数据获取装置110可本身执行操作来获取训练数据集，并将获取的训练数据集处理为适当的格式或形式。例如，图像获取装置110可获取图像并将图像进行形变纠正等处理。

训练装置120可基于训练样本本身对所述卷积神经网络的第一部分进行表示学习，以学习训练样本的特征表示。此外，训练装置120可基于学习出的训练样本的特征表示以及训练样本的标记对所述卷积神经网络的第二部分进行分类器学习，以获得分类器。在本公开中，卷积神经网络可被分为两部分(即，第一部分和第二部分)，并且训练装置120对第一部分进行表示学习，对第二部分进行分类器学习，也就是说，将表示学习和分类器学习解耦合，而不是像现有技术那样对整个卷积神经网络一起进行表示学习和分类器学习。此外，由于表示学习对噪声标记非常脆弱，因此仅利用没有标记的训练样本本身对第一部分进行表示学习，而由于分类器学习对噪声标记有较强的鲁棒性，因此利用训练样本及其标记对第二部分进行分类器学习。通过上述训练方式，可以处理带有噪声标记的训练数据并且不需要额外的干净的训练数据，最终训练出的卷积神经网络可以提供更准确的预测结果。

具体而言，由于噪声标记对于表示学习存在很大的影响，因此，可基于自监督表示学习来解决其影响，其优势在于它是一种无监督学习的形式，因此我们可以抛弃掉人为标记的噪声标记，直接使用训练样本身提供监督。作为示例，可构建一个基于特征对比的借口任务(pretext task)，为解决这个借口任务，卷积神经网络的第一部分被迫学习针对训练样本的特征表示(例如，语义表示)，而学习到的特征表示可以被后续的分类器学习使用。如上所述，作为示例，所述训练样本可以是图像，所述卷积神经网络可用于图像分类，在这种情况下，当对卷积神经网络的第一部分进行表示学习时，例如，可通过以下方式进行表示学习：对于每个批次的K张图像，我们对每张图像x_i进行两次随机的数据增强，生成x_2k和x_2k+1(其中，x_2k是第一次数据增强获得的数据，x_2k+1是第二次数据增强获得的数据)，并通过特征提取得到对应的特征表示z_2k和z_2k+1，进一步可通过多层感知机(MLP)将其映射为h_2k和h_2k+1。对于相同图像增强得到的样本对，可将其称之为正样本对，否则为负样本对。在得到正样本对和负样本对之后，可通过以下等式1所示的损失函数进行表示学习，其核心目的在于在特征空间中最小化正样本对的距离，最大化负样本对的距离。

其中，上面等式1中的分子表示正样本对的距离，分母表示负样本对的距离，sim(*)表示cosine相似性，τ是超参数，1表示指示器i≠k为1，否则为0。

需要说明的是，以上仅简要描述了一种表示学习的方式，然而本公开对表示学习的方式没有任何限制，也就是说，可以采用任何一种目前已知的表示学习方式(如SimCLR、MoCo、BYOL等)对卷积神经网络的第一部分进行表示学习，这里不对其进行赘述。

在完成对卷积神经网络的第一部分进行表示学习之后，利用通过表示学习学习出的训练样本的特征表示以及训练样本的标记(包含噪声标记)对卷积神经网络的第二部分进行分类器学习。由于本领域技术人员均熟知如何利用训练样本及其标记进行分类器学习方式，因此，这里不对如何进行分类器学习进行赘述。

可选地，根据本公开示例性实施例，在完成以上两阶段的学习(第一阶段进行表示学习，第二阶段进行分类器学习)之后，还可进行第三阶段的学习。图2是示出根据本公开示例性实施例的训练卷积神经网络的示意图。在图2所示的示例性实施例中，训练装置120还可以：在获得分类器之后，对整个所述卷积神经网络进行半监督学习来调整所述卷积神经网络的参数(即，第三阶段的学习)。通过上述第三阶段对整个卷积神经网络的半监督学习，可以解决表示学习和分类器学习解耦合可能带来的偏差问题，进一步调整卷积神经网络的参数，从而使得训练的卷积神经网络的参数更加准确，以便于能够提供更准确的预测结果。

具体地，对整个所述卷积神经网络进行半监督学习可以包括：首先，可使用获得的分类器对训练样本的标记以及所述卷积神经网络针对训练样本的预测结果进行可信度评估；其次，可根据可信度评估结果将训练数据集中的训练样本转换为不带标记的训练样本和带有无噪声标记的训练样本；最后，基于不带标记的训练样本和带有无噪声标记的训练样本对整个所述卷积神经网络进行半监督学习来调整所述卷积神经网络的参数。

如图2所示，fc表示分类器，LCA表示对标记进行可信度估计(包括对训练样本的标记以及所述卷积神经网络针对训练样本的预测结果进行可信度评估)，

是训练样本的标记(其为训练样本的原始标记)。

下面，参照图3对如何执行可信度估计进行描述。如图3所示，首先，利用第一高斯混合模型估计训练样本的标记(在图3中被表示为

)的第一可信度(在图3中被表示为p_clean)，这里，第一高斯混合模型是根据分类器针对训练数据集的预测损失分布获得的。接下来，根据估计出的第一可信度，确定训练样本的标记是无噪声标记还是噪声标记。如果训练样本的标记被确定为是噪声标记，则将分类器针对该训练样本的预测结果(在图3中表示为y′)作为该训练样本的修正标记。随后，利用第二高斯混合模型估计修正标记的第二可信度(在图3中被表示为p_right)，这里，第二高斯混合模型是根据分类器针对训练数据集的预测概率分布获得的。

如上所述，在进行可信度估计之后，根据可信度估计结果将训练数据集中的训练样本转换为不带标记的训练样本和带有无噪声标记的训练样本。具体地，根据第一可信度p_clean和第二可信度p_right将训练数据集中的训练样本转换为不带标记的训练样本和带有无噪声标记的训练样本。根据示例性实施例，可预先设置分别与第一可信度p_clean和第二可信度p_right对应的第一阈值τ_clean和第二阈值τ_right，并通过将p_clean和p_right与对应的阈值τ_clean和τ_right。进行比较来将训练数据集中的训练样本转换为不带标记的训练样本和带有无噪声标记的训练样本。具体地，在图3中，不带标记的训练样本被表示为x，U是不带标记的训练样本的集合，带有无噪声标记的训练样本被表示为(x，y)，并且L是带有无噪声标记的训练样本的集合。

根据示例性实施例，可以将与第一可信度大于第一阈值的标记对应的训练样本以及与第二可信度大于第二阈值的修正标记对应的训练样本确定为带有无噪声标记的训练样本，并且将与第二可信度小于或等于第二阈值的修正标记对应的训练样本的标记去除，作为不带标记的训练样本。例如，如图3所示，如果训练样本的标记的第一置信度p_clean＞τ_clean，则该训练样本被确定为是带有无噪声标记的训练样本，否则，确定该训练样本带有噪声标记，并将分类器针对该训练样本的预测结果y′作为该训练样本的修正标记。如果y′的第二置信度p_right＞τ_right，则将该训练样本确定为带有无噪声标记的训练样本，否则说明预测结果y′是错误的，此时，将该训练样本的标记去除，作为不带标记的训练样本x。

返回参照图2，在将将训练数据集中的训练样本转换为不带标记的训练样本和带有无噪声标记的训练样本，从而构成不带标记的训练样本集U和带有无噪声标记的训练样本集L之后，可基于不带标记的训练样本和带有无噪声标记的训练样本，利用被构造为包括有监督学习损失项、无监督学习损失项和预定正则项的损失函数对所述卷积神经网络进行半监督学习来调整所述卷积神经网络的参数。这里，预定正则项可以用于使特征空间中相似的样本拥有相同的标记。之所以在用于半监督学习的损失函数中添加了预定正则项，是为了进一步提升模型的训练效果。

通过以上第一阶段的表示学习所学习出的表示将相似的样本在特征空间中拉近了，而拥有强相似表示的样本更有可能拥有相同的标记。为了充分利用这一点，本公开进一步提出在用于半监督学习的损失函数中包括上述预定正则项以使特征空间中相似的样本拥有相同的标记。例如，可构造图结构，将一个批次的训练样本(例如，图像样本)作为图结构中的节点，将表示相似性作为图的节点之间的边的权重，具体地，例如，可按照以下方式构造图结构：

A_ij←ReLU(sim(Z_i，Z_j)-τ_c)

其中，A_ij是图结构的相邻矩阵，其中，i和j小于0且大于N，N为训练样本的个数，Z_i和Z_j分别是第i个和第j个训练样本的特征表示矩阵，sim表示cosine相似性，τ_c是判断节点连接的阈值，ReLU为激活函数。

根据该图结构，可将所述预定正则项构造如下：

其中，

T为超参数“temperature”，C是标记的类别数，λ_LU和λ_UU是超参数并且大于或等于0，A_uv是图结构的相邻矩阵，y_v是L中第v个样本的真实标记，x_u和x_v分别是U和L中的训练样本。

最终，用于第三阶段半监督学习的损失函数可例如被构造如下：

其中，

和

分别代表有监督和无监督损失项，λ_u为超参数。

在构造了用于半监督学习的损失函数之后，可采用任何半监督学习方式进行本公开的第三阶段的半监督学习，例如，MixMatch、FixMatch和ReMixMatch等，本公开对半监督学习的具体方式并无任何限制。

此外，根据本公开示例性实施例，考虑到先前根据标记的可信度估计将训练数据集转换或划分为不带标记的训练样本集U和带有无噪声标记的训练样本集L时，由于不同类别的拟合能力不一样，因此，在划分训练数据集的时候可能引入类别不均衡的问题，然而，现有的半监督学习方式(例如，MixMatch)通常使用伪标记技术来利用U，而上述类别不均衡问题可能使U偏差到多数类，因此，为了缓解这一问题，本公开进一步提出不同类别的带有无噪声标记的训练样本被按照相同的采样率进行采样以用于对所述卷积神经网络进行半监督学习。也就是说，如图2所示，在根据标记可信度估计LCA的结果将训练数据集中的训练样本转换为不带标记的训练样本和带有无噪声标记的训练样本之后，对于不同类别的带有无噪声标记的训练样本，按照相同的采样率采样(这种采样方式在本公开中可被称为类平衡采样CBS)，并将按照类平衡采样获得的训练样本用于无监督学习。作为示例，假设无噪声标记的总类别数为C，则每个类别的带有无噪声标记训练样本的采样率均可被设置为1/C，但不限于此。

如上所述，作为示例，上述训练样本可以是图像，相应地，上述卷积神经网络可用于图像分类，上述分类器可基于图像的特征表示来预测图像的类别。然而，本公开不限于以上应用，训练样本可以是其他类型的数据，相应地，训练的卷积神经网络可用于其他应用。

以上，已经参照图1至图3对根据本公开示例性实施例的模型训练系统进行了描述。根据本公开的模型训练系统由于在训练卷积神经网络时将表示学习和分类器学习解耦合，因而可以充分利用表示学习和分类器学习对噪声标记的鲁棒性差异，从而可提高模型训练效果。此外，根据本公开的模型训练系统还由于在表现学习和分类器学习之后，对整个卷积神经网络进行半监督学习来调整卷积神经网络的参数，因而可进一步提高模型训练效果。另外，在半监督学习中由于还利用了被构造为包含用于使特征空间中相似的样本拥有相同的标记的预定正则项并且对带有无噪声标记的训练样本进行类平衡采样，因此可进一步提高模型训练效果。

需要说明的是，尽管以上在描述模型训练系统100时将其划分为用于分别执行相应处理的装置(例如，数据获取装置110和训练装置120)，然而，本领域技术人员清楚的是，上述各装置执行的处理也可以在模型训练系统100不进行任何具体装置划分或者各装置之间并无明确划界的情况下执行。此外，以上参照图1所描述的模型训练系统100并不限于包括以上描述的装置，而是还可以根据需要增加一些其他装置(例如，存储装置、数据处理装置等)，或者以上装置也可被组合。

图4是示出根据本公开示例性实施例的训练卷积神经网络的方法(以下，为描述方便，将其简称为“模型训练方法”)的流程图。

这里，作为示例，图4所示的模型训练方法可由图1所示的模型训练系统100来执行，也可完全通过计算机程序或指令以软件方式实现，还可通过特定配置的计算系统或计算装置来执行，例如，可通过包括至少一个计算装置和至少一个存储指令的存储装置的系统来执行，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行上述模型训练方法。为了描述方便，假设图4所示的模型训练方法由图1所示的模型训练系统100来执行，并假设模型训练系统100可具有图1所示的配置。

参照图4，在步骤S410，数据获取装置110可获取训练数据集。这里，每个训练数据包括训练样本以及训练样本的标记，并且标记包含噪声标记。在步骤S420，训练装置120可基于训练样本本身对所述卷积神经网络的第一部分进行表示学习，以学习训练样本的特征表示。接下来，在步骤S430，训练装置120可基于学习出的训练样本的特征表示以及训练样本的标记对所述卷积神经网络的第二部分进行分类器学习，以获得分类器。可选地，在步骤S430之后，图4所示的模型训练方法还可包括：在获得分类器之后，对整个所述卷积神经网络进行半监督学习来调整所述卷积神经网络的参数(未示出)。以上已经在图1至图3的描述中对上述操作涉及的内容进行过详细描述，相关内容可参见关于图1至图3的相关描述。事实上，由于图4所示的模型训练方法由图1所述的模型训练系统100执行，因此，以上参照图1在描述模型训练系统100中包括的各个装置时所提及的任何内容均适用于这里，故关于以上步骤中所涉及的相关细节，均可参见上文相应描述，这里都不再赘述。

在下文中，将参照图5和图6对利用上述模型训练方法训练出的卷积神经网络执行预测进行描述。

图5是示出根据本公开示例性实施例的利用卷积神经网络执行预测的系统(以下，为描述方便，将其简称为“预测系统”)的框图。

参照图5，预测系统500可包括预测样本获取装置510和预测装置520。具体地，预测样本获取装置510可获取预测样本。作为示例，所述预测样本可以是图像，但不限于此，而是根据应用场景的不同，也可以是其他类型的数据。此外，此外，预测样本获取装置510可直接从外部接收预测样本，或者，预测样本获取装置510可本身执行采集操作来获取预测样本，本公开对预测样本获取装置510获取预测样本的方式并无任何限制。

预测装置520可基于所述预测样本，利用所述卷积神经网络的第一部分获得所述预测样本的特征表示，并且基于所述特征表示，利用所述卷积神经网络的第二部分获得针对所述预测样本的预测结果。这里，如以上参照图1至图4所描述的，所述卷积神经网络的第一部分是基于训练数据集中的训练样本本身进行表示学习而得到的，所述卷积神经网络的第二部分是基于利用卷积神经网络的第一部分学习出的训练样本的特征表示以及训练样本的标记进行分类器学习而得到的。这里，训练样本的标记包含噪声标记。此外，可选地，所述卷积神经网络还可以在表示学习和分类器学习之后，被整体进行半监督学习。如上所述，作为示例，预测样本可以是图像，相应地，上述卷积神经网络可以用于图像分类，针对所述预测样本的预测结果可以是关于图像的分类结果。

由于以上已经参照图1至图4对卷积神经网络的训练、表示学习和分类器学习、半监督学习等内容进行了介绍，因此，这里不再赘述。

根据本公开实施例的预测系统由于利用通过将表示学习和分类器学习解耦合而训练出的卷积神经网络执行预测，因此可提供更准确的预测结果。例如，利用上述卷积神经网络进行图像分类时，可获得更准确的图像分类结果。

另外，需要说明的是，尽管以上在描述预测系统500时将其划分为用于分别执行相应处理的装置(例如，预测样本获取装置510和预测装置520)，然而，本领域技术人员清楚的是，上述各装置执行的处理也可以在预测系统500不进行任何具体装置划分或者各装置之间并无明确划界的情况下执行。此外，以上参照图5所描述的预测系统500并不限于包括以上描述的预测样本获取装置510和预测装置520，而是还可以根据需要增加一些其他装置(例如，存储装置、数据处理装置等)，或者以上装置也可被组合。而且，作为示例，以上参照图1描述的模型训练系统100和预测系统500也可被组合为一个系统，或者它们可以是彼此独立的系统，本公开对此并无限制。

图6是示出根据本公开示例性实施例的利用卷积神经网络执行预测的方法(以下，为描述方便，将其简称为“预测方法”)的流程图。

这里，作为示例，图6所示的预测方法可由图5所示的预测系统500来执行，也可完全通过计算机程序或指令以软件方式实现，还可通过特定配置的计算系统或计算装置来执行，例如，可通过包括至少一个计算装置和至少一个存储指令的存储装置的系统来执行，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行上述预测方法。为了描述方便，假设图6所示的预测方法由图5所示的预测系统500来执行，并且假设预测系统500可具有图5所示的配置。

参照图6，在步骤S610，预测样本获取装置510可获取预测样本。作为示例，预测样本可以是图像，但不限于此。接下来，在步骤S620，预测装置520可基于所述预测样本，利用所述卷积神经网络的第一部分获得所述预测样本的特征表示。随后，在步骤S630，预测装置520可基于所述特征表示，利用所述卷积神经网络的第二部分获得针对所述预测样本的预测结果。这里，所述卷积神经网络的第一部分是基于训练数据集中的训练样本本身进行表示学习而得到的，所述卷积神经网络的第二部分是基于利用卷积神经网络的第一部分学习出的训练样本的特征表示以及训练样本的标记进行分类器学习而得到的，并且训练样本的标记包含噪声标记。可选地，所述卷积神经网络还可以在表示学习和分类器学习之后，被整体进行半监督学习。如上所述，作为示例，预测样本可以是图像，相应地，上述卷积神经网络可用于图像分类，针对预测样本的预测结果可以是关于图像的分类结果。由于以上已经参照图1至图4对卷积神经网络的训练、表示学习和分类器学习、半监督学习等内容进行了介绍，因此，这里不再赘述。

根据本公开实施例的预测方法由于利用通过将表示学习和分类器学习解耦合而训练出的卷积神经网络执行预测，因此可提供更准确的预测结果。例如，利用上述卷积神经网络进行图像分类时，可获得更准确的图像分类结果。

以上已参照图1至图6描述了根据本申请示例性实施例模型训练系统和模型训练方法以及预测系统和预测方法。然而，应理解的是：图1和图5所示出的系统及其装置可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如，这些系统或装置可对应于专用的集成电路，也可对应于纯粹的软件代码，还可对应于软件与硬件相结合的模块。此外，这些系统或装置所实现的一个或多个功能也可由物理实体设备(例如，处理器、客户端或服务器等)中的组件来统一执行。

此外，上述方法可通过记录在计算机可读存储介质上的指令来实现，例如，根据本申请的示例性实施例，可提供一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行以下步骤：获取训练数据集，其中，每个训练数据包括训练样本以及训练样本的标记，其中，标记包含噪声标记；基于训练样本本身对所述卷积神经网络的第一部分进行表示学习，以学习训练样本的特征表示；基于学习出的训练样本的特征表示以及训练样本的标记对所述卷积神经网络的第二部分进行分类器学习，以获得分类器。

此外，根据本申请的另一示例性实施例，可提供一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行以下步骤：获取预测样本；基于所述预测样本，利用所述卷积神经网络的第一部分获得所述预测样本的特征表示；基于所述特征表示，利用所述卷积神经网络的第二部分获得针对所述预测样本的预测结果，其中，所述卷积神经网络的第一部分是基于训练数据集中的训练样本本身进行表示学习而得到的，所述卷积神经网络的第二部分是基于利用卷积神经网络的第一部分学习出的训练样本的特征表示以及训练样本的标记进行分类器学习而得到的，其中，训练样本的标记包含噪声标记。

上述计算机可读存储介质中存储的指令可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，应注意，所述指令还可在执行上述步骤时执行更为具体的处理，这些进一步处理的内容已经在上文的描述中提及，因此这里为了避免重复将不再进行赘述。

应注意，根据本公开示例性实施例的模型训练系统和预测系统可完全依赖计算机程序或指令的运行来实现相应的功能，即，各个装置在计算机程序的功能架构中与各步骤相应，使得整个系统通过专门的软件包(例如，lib库)而被调用，以实现相应的功能。

另一方面，当图1和图5所示的系统和装置以软件、固件、中间件或微代码实现时，用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中，使得至少一个处理器或至少一个计算装置可通过读取并运行相应的程序代码或者代码段来执行相应的操作。

例如，根据本申请示例性实施例，可提供一种包括至少一个计算装置和存储指令的至少一个存储装置的系统，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行下述步骤：获取训练数据集，其中，每个训练数据包括训练样本以及训练样本的标记，其中，标记包含噪声标记；基于训练样本本身对所述卷积神经网络的第一部分进行表示学习，以学习训练样本的特征表示；基于学习出的训练样本的特征表示以及训练样本的标记对所述卷积神经网络的第二部分进行分类器学习，以获得分类器。

例如，根据本申请另一示例性实施例，可提供一种包括至少一个计算装置和存储指令的至少一个存储装置的系统，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行下述步骤：获取预测样本；基于所述预测样本，利用所述卷积神经网络的第一部分获得所述预测样本的特征表示；基于所述特征表示，利用所述卷积神经网络的第二部分获得针对所述预测样本的预测结果，其中，所述卷积神经网络的第一部分是基于训练数据集中的训练样本本身进行表示学习而得到的，所述卷积神经网络的第二部分是基于利用卷积神经网络的第一部分学习出的训练样本的特征表示以及训练样本的标记进行分类器学习而得到的，其中，训练样本的标记包含噪声标记。

具体说来，上述系统可以部署在服务器或客户端中，也可以部署在分布式网络环境中的节点上。此外，所述系统可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。此外，所述系统还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。另外，所述系统的所有组件可经由总线和/或网络而彼此连接。

这里，所述系统并非必须是单个系统，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。所述系统还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子装置。

在所述系统中，所述至少一个计算装置可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，所述至少一个计算装置还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。计算装置可运行存储在存储装置之一中的指令或代码，其中，所述存储装置还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，所述网络接口装置可采用任何已知的传输协议。

存储装置可与计算装置集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储装置可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储装置和计算装置可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得计算装置能够读取存储在存储装置中的指令。

以上描述了本申请的各示例性实施例，应理解，上述描述仅是示例性的，并非穷尽性的，本申请不限于所披露的各示例性实施例。在不偏离本申请的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此，本申请的保护范围应该以权利要求的范围为准。

Claims

1.一种由计算装置执行的训练卷积神经网络的方法，包括：

获取训练数据集，其中，每个训练数据包括训练样本以及训练样本的标记，其中，标记包含噪声标记；

基于训练样本本身对所述神经网络的第一部分进行表示学习，以学习训练样本的特征表示；

基于学习出的训练样本的特征表示以及训练样本的标记对所述卷积神经网络的第二部分进行分类器学习，以获得分类器。

2.如权利要求1所述的方法，还包括：在获得分类器之后，对整个所述卷积神经网络进行半监督学习来调整所述卷积神经网络的参数。

3.如权利要求2所述的方法，其中，对整个所述卷积神经网络进行半监督学习来调整所述卷积神经网络的参数，包括：

使用获得的分类器对训练样本的标记以及所述卷积神经网络针对训练样本的预测结果进行可信度评估；

根据可信度评估结果将训练数据集中的训练样本转换为不带标记的训练样本和带有无噪声标记的训练样本；

基于不带标记的训练样本和带有无噪声标记的训练样本对整个所述卷积神经网络进行半监督学习来调整所述卷积神经网络的参数。

4.如权利要求3所述的方法，其中，所述使用获得的分类器对训练样本的标记以及所述卷积神经网络针对训练样本的预测结果进行可信度评估，包括：

利用第一高斯混合模型估计训练样本的标记的第一可信度，其中，第一高斯混合模型是根据分类器针对训练数据集的预测损失分布获得的；

根据估计出的第一可信度，确定训练样本的标记是无噪声标记还是噪声标记；

如果训练样本的标记被确定为是噪声标记，则将分类器针对该训练样本的预测结果作为该训练样本的修正标记；

利用第二高斯混合模型估计修正标记的第二可信度，其中，第二高斯混合模型是根据分类器针对训练数据集的预测概率分布获得的。

5.如权利要求4所述的方法，其中，所述根据可信度估计结果将训练数据集中的训练样本转换为不带标记的训练样本和带有无噪声标记的训练样本，包括：

根据第一可信度和第二可信度将训练数据集中的训练样本转换为不带标记的训练样本和带有无噪声标记的训练样本。

6.一种由计算装置执行的利用卷积神经网络执行预测的方法，包括：

获取预测样本；

基于所述预测样本，利用所述卷积神经网络的第一部分获得所述预测样本的特征表示；

基于所述特征表示，利用所述卷积神经网络的第二部分获得针对所述预测样本的预测结果，

其中，所述卷积神经网络的第一部分是基于训练数据集中的训练样本本身进行表示学习而得到的，所述卷积神经网络的第二部分是基于利用卷积神经网络的第一部分学习出的训练样本的特征表示以及训练样本的标记进行分类器学习而得到的，其中，训练样本的标记包含噪声标记。

7.一种训练卷积神经网络的系统，包括：

数据获取装置，被配置为获取训练数据集，其中，每个训练数据包括训练样本以及训练样本的标记，其中，标记包含噪声标记；

训练装置，被配置为：

基于训练样本本身对所述卷积神经网络的第一部分进行表示学习，以学习训练样本的特征表示；

8.一种利用卷积神经网络执行预测的系统，包括：

预测样本获取装置，被配置为获取预测样本；

预测装置，被配置为：基于所述预测样本，利用所述卷积神经网络的第一部分获得所述预测样本的特征表示；基于所述特征表示，利用所述卷积神经网络的第二部分获得针对所述预测样本的预测结果，

9.一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行如权利要求1至5中的任一权利要求所述的方法。

10.一种包括至少一个计算装置和存储指令的至少一个存储装置的系统，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行如权利要求1至5中的任一权利要求所述的方法。