CN114912568A

CN114912568A - 数据处理的方法、设备和计算机可读存储介质

Info

Publication number: CN114912568A
Application number: CN202110182093.4A
Authority: CN
Inventors: 陈小异; 张霓
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2022-08-16
Also published as: US20220253705A1; JP7290183B2; JP2022122269A

Abstract

本公开的实施例涉及用于数据处理的方法、设备和计算机可读存储介质。该方法包括获取输入数据。该方法还包括利用神经网络，生成指示输入数据的类别的预测标签，神经网络包括加权层，加权层至少确定应用于输入数据可能属于的至少一个候选类别的权重以生成预测结果。以此方式，可以更准确地生成预测标签。

Description

数据处理的方法、设备和计算机可读存储介质

技术领域

本公开的实施例涉及数据处理领域，并且更具体地，涉及用于数据处理的方法、设备和计算机可读存储介质。

背景技术

随着信息技术的发展，神经网络被广泛用于诸如计算机视觉、语音识别和信息检索等的各种机器学习任务。神经网络的准确性取决于具有准确的标签的训练数据集。然而，在实践中，训练数据集中的一些训练数据可能具有不正确的噪声标签。例如，在从网络上自动收集的训练数据集中、或者在标签被人工注释时发生错误的训练数据集中都可能存在具有噪声标签的训练数据。然而，传统上，无法良好地处理具有噪声标签的训练数据，使得经由这样的训练数据集训练的神经网络的准确性较差。

发明内容

本公开的实施例提供了用于数据处理的方法、设备和计算机可读存储介质。

在本公开的第一方面，提供一种数据处理的方法。该方法包括：获取输入数据；以及利用神经网络，生成指示输入数据的类别的预测标签，神经网络包括加权层，加权层至少确定应用于输入数据可能属于的至少一个候选类别的权重以生成预测结果。

在本公开的第二方面，提供一种训练神经网络的方法。该方法包括：获取训练数据，训练数据具有指示训练数据的类别的标签；利用神经网络，生成训练数据的预测标签，神经网络包括加权层，加权层至少基于应用于训练数据可能属于的至少一个候选类别的权重来生成预测结果；以及训练神经网络，使得标签和预测标签之间的差异最小化。

在本公开的第三方面，提供一种训练神经网络的方法。该方法包括：获取训练数据，训练数据具有指示训练数据的类别的标签；利用神经网络，生成训练数据的预测标签；以及训练神经网络，使得神经网络的损失最小化，损失至少基于应用于训练数据可能属于的至少一个候选类别的权重而被确定。

在本公开的第四方面，提供一种电子设备。该电子设备包括至少一个处理电路。至少一个处理电路被配置为：获取输入数据；以及利用神经网络，生成指示输入数据的类别的预测标签，神经网络包括加权层，加权层至少确定应用于输入数据可能属于的至少一个候选类别的权重以生成预测结果。

在本公开的第五方面，提供一种电子设备。该电子设备包括至少一个处理电路。至少一个处理电路被配置为：获取训练数据，训练数据具有指示训练数据的类别的标签；利用神经网络，生成训练数据的预测标签，神经网络包括加权层，加权层至少基于应用于训练数据可能属于的至少一个候选类别的权重来生成预测结果；以及训练神经网络，使得标签和预测标签之间的差异最小化。

在本公开的第六方面，提供一种电子设备。该电子设备包括至少一个处理电路。至少一个处理电路被配置为：获取训练数据，训练数据具有指示训练数据的类别的标签；利用神经网络，生成训练数据的预测标签；以及训练神经网络，使得神经网络的损失最小化，损失至少基于应用于训练数据可能属于的至少一个候选类别的权重而被确定。

本公开的第七方面，提供一种计算机可读存储介质。该计算机可读存储介质具有在其上存储的机器可执行指令，该机器可执行指令在由设备执行时使该设备执行根据本公开的第一方面所描述的方法。

本公开的第八方面，提供一种计算机可读存储介质。该计算机可读存储介质具有在其上存储的机器可执行指令，该机器可执行指令在由设备执行时使该设备执行根据本公开的第二方面所描述的方法。

本公开的第九方面，提供一种计算机可读存储介质。该计算机可读存储介质具有在其上存储的机器可执行指令，该机器可执行指令在由设备执行时使该设备执行根据本公开的第三方面所描述的方法。

提供发明内容部分是为了以简化的形式来介绍一系列概念，它们在下文的具体实施方式中将被进一步描述。发明内容部分不旨在标识本公开的关键特征或必要特征，也不旨在限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

从下文的公开内容和权利要求中，本发明的目的、优点和其他特征将变得更加明显。这里仅出于示例的目的，参考附图来给出优选实施例的非限制性描述，在附图中：

图1示出了本公开的一些实施例能够在其中实现的数据处理环境的示例的示意图；

图2示出了根据本公开的一些实施例的神经网络的示例的示意图；

图3示出了根据本公开的实施例的用于数据处理的示例方法的流程图；

图4示出了根据本公开的实施例的用于训练神经网络的示例方法的流程图；

图5示出了根据本公开的实施例的用于训练神经网络的示例方法的流程图；

图6示出了根据本公开的实施例的神经网络随着时期的准确性和传统神经网络随着时期的准确性的示例的示意图；以及

图7示出了可以用来实施本公开的实施例的示例计算设备的示意性框图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

在本文中所使用的术语“电路”可以指硬件电路和/或硬件电路和软件的组合。例如，电路可以是模拟和/或数字硬件电路与软件/固件的组合。作为另一示例，电路可以是具有软件的硬件处理器的任何部分，硬件处理器包括(多个)数字信号处理器、软件和(多个)存储器，其一起工作以使装置能够工作以执行各种功能。在又一示例中，电路可以是硬件电路和/或处理器，例如微处理器或微处理器的一部分，其需要用于操作的软件/固件，但是当不需要用于操作时软件可以不存在。如本文所使用的，术语“电路”也涵盖仅硬件电路或处理器或者硬件电路或处理器的一部分及其(或它们)随附软件和/或固件的实现。

在本公开的实施例中，术语“模型”能够处理输入并且提供相应输出。以神经网络模型为例，其通常包括输入层、输出层以及在输入层与输出层之间的一个或多个隐藏层。在深度学习应用中使用的模型(也称为“深度学习模型”)通常包括许多隐藏层，从而延长网络的深度。神经网络模型的各个层按顺序相连以使得前一层的输出被用作后一层的输入，其中输入层接收神经网络模型的输入，而输出层的输出作为神经网络模型的最终输出。神经网络模型的每个层包括一个或多个节点(也称为处理节点或神经元)，每个节点处理来自上一层的输入。在本文中，术语“神经网络”、“模型”、“网络”和“神经网络模型”可互换使用。

如上所述，训练数据集中的一些训练数据可能具有不正确的噪声标签。传统上，已经采用了各种噪声标签学习方式来克服噪声标签带来的不利影响。例如，一种噪声标签学习方式可以基于损失来对训练数据进行重新加权，诸如对具有正确的干净标签的训练数据进行更高加权，而对具有噪声标签的训练数据进行更低加权。在这种情况下，需要区分噪声标签和干净标签以进行不同加权。或者，可以通过选择具有干净标签的训练数据来进行半监督学习。

另一种方式是概率性的并且在使用标准损失的情况下基于训练结果来计算混淆矩阵或其他类似概率矩阵。其他方式还使用鲁棒损失，这意味着神经网络的最优解在具有噪声标签或不具有噪声标签的情况下保持相同，使得神经网络的性能较差。另外，在训练过程中迭代地更新具有干净标签的训练数据集在经验上也被证明是有效的。此外，诸如双模型联合学习等合作学习也被证明是有效的。上述列举的各种方式还可以组合，例如合作学习可以与迭代更新组合，以克服噪声标签带来的不利影响。

然而，这些传统方式仍然无法良好地处理具有噪声标签的训练数据，使得经由这样的训练数据集训练的神经网络的准确性较差。

本公开的实施例提出了一种用于数据处理的方案，以解决上述问题和/或其他潜在问题中的一个或多个。在该方案中，可以获取输入数据，并且利用神经网络，生成指示输入数据的类别的预测标签。其中神经网络包括加权层。该加权层可以基于应用于输入数据可能属于的至少一个候选类别的权重、服从预定分布的随机值、和/或与预定模式相关联的至少一个模式参数，来生成预测结果。

以此方式，通过使用加权层，可以消除噪声标签对神经网络的影响。由此，可以简单和高效地提高神经网络所生产的预测标签的准确性和噪声标签的识别率。以下将结合附图来详细描述本公开的示例实施例。

图1示出了本公开的一些实施例能够在其中实现的数据处理环境100的示例的示意图。环境100包括计算设备110。计算设备110可以是具有计算能力的任何设备，例如个人计算机、平板计算机、可穿戴设备、云服务器、大型机和分布式计算系统等。

计算设备110获取输入数据120。例如，输入数据120可以是图像、视频、音频、文本和/或多媒体文件等。计算设备110可以将输入数据120应用于神经网络130，以利用神经网络130，生成指示输入数据的类别的预测标签140。

例如，假设输入数据120是图像，计算设备110可以利用神经网络130，生成指示图像的类别的预测标签140，例如猫或者狗。除了分类任务，神经网络130还可以用于其他任务，诸如像素级分割任务、对象检测任务等。

神经网络130可以被部署在计算设备110上，也可以被部署在计算设备110之外。神经网络130可以是深度神经网络(Deep Neural Network，DNN)、卷积神经网络(Convolutional Neural Network，CNN)、长短期记忆网络(Long Short Term Memory，LSTM)网络、门控循环单元(Gated Recurrent Unit，GRU)网络、和/或循环神经网络(Recurrent Neural Network，RNN)等。

神经网络130包括加权层。在某些实施例中，原始神经网络的最后一层可以是全连接层，例如DNN、LSTM、GRU、RNN网络等。在这种情况下，可以用加权层替换该全连接层，以生成神经网络130。备选地，可以将加权层添加到原始神经网络，以生成神经网络130。例如将加权层添加到CNN网络的最后一层，以生成神经网络130。

在某些实施例中，加权层210可以确定应用于输入数据可能属于的至少一个候选类别的权重，以生成预测结果。在某些实施例中，加权层210可以确定服从预定分布的随机值，以生成预测结果。例如，预定分布可以是正态分布，或者是基于历史数据确定的任何适当分布。备选地，加权层210可以确定与预定模式相关联的至少一个模式参数，以生成预测结果。例如，预定模式可以是高斯分布、正态分布、均匀分布、指数分布、泊松分布、伯努利分布、和/或拉普拉斯分布等。备选地，预定模式可以是基于历史数据确定的任何适当模式。在这种情况下，不同于原始神经网络输出确定性的预测结果，包括加权层的神经网络130的预测结果是服从预定模式的采样结果。由此，可以减小噪声标签带来的不利影响。

应理解，虽然在上文中将加权层210描述为确定应用于输入数据可能属于的至少一个候选类别的权重、服从预定分布的随机值、以及与预定模式相关联的至少一个模式参数中的一项，以生成预测结果，但是加权层210还可以确定这些项的任意组合，以生成预测结果。也就是说，加权层210可以确定这些项中的任一项、任两项或全部三项，以生成预测结果。

图2示出了根据本公开的一些实施例的神经网络130的示例的示意图。如图2所示，神经网络130包括加权层210。可以将神经网络130中位于加权层210之前的至少一层的输出作为加权层210的输入。其中输入指示输入数据属于至少一个候选类别的可能性。例如，假设存在n个候选类别(其中，n为大于0等整数)，则输入可以指示输入数据属于n个候选类别中的每个候选类别的可能性。

加权层210具有至少一个参数，可以基于加权层210的至少一个参数和加权层210的输入，确定与预定模式相关联的至少一个模式参数和应用于至少一个候选类别的权重。例如，假设预定模式为高斯分布，则至少一个模式参数可以是高斯分布的均值和方差。

如图2所示，应用于n个候选类别的权重分别为c₁至c_n(在下文中，统称为“c”)，均值分别为μ₁至μ_n(在下文中，统称为“μ”)、方差分别为δ₁至δ_n(在下文中，统称为“δ”)。

在某些实施例中，可以通过如下等式(1)-(3)确定权重c、均值μ和方差δ：

c＝h(W_cf(x)) (1)，

μ＝W_μf(x) (2)，

δ＝exp[W_δf(x)] (3)，

其中c＝(c₁,…,c_n)表示应用于n个候选类别的权重，其中C∈(0,1)并且

μ＝(μ₁,…,μ_n)表示与n个候选类别相关联的均值；δ＝(δ₁,…,δ_n)表示与n个候选类别相关联的方差；f(x)表示神经网络130中位于加权层210之前的至少一层的输出；W_c、W_μ、W_δ分别表示与权重c、均值μ和方差δ相关联的参数，初始地，可以随机确定这些参数或者按经验确定这些参数，在神经网络130的训练过程中，这些参数将收敛到适当的值；h表示softmax函数；exp表示指数函数，使得方差δ总是正数。

由此，可以基于与预定模式相关联的至少一个模式参数和应用于至少一个候选类别的权重，来生成预测结果。预测结果可以指示输入数据属于至少一个候选类别的可能性。在某些实施例中，除了至少一个模式参数和权重以外，还可以基于服从预定分布的随机值来生成预测结果。由此，可以在预测结果中引入随机性，从而可以减小噪声标签带来的不利影响。

图2示出了预测结果y1至yn(在下文中，统称为“y”)。预测结果y1至yn可以指示输入数据属于n个候选类别中的相应候选类别的可能性。

可以通过如下等式(4)确定预测结果y：

y＝c*(μ+ε*δ) (4)，

其中y＝(y₁,…,y_n)表示输入数据属于n个候选类别的可能性；c＝(c₁,…,c_n)表示应用于n个候选类别的权重；μ＝(μ₁,…,μ_n)表示与n个候选类别相关联的均值；δ＝(δ₁,…,δ_n)表示与n个候选类别相关联的方差；ε表示(0,1)区间内服从预定分布的随机值；*表示逐元素乘。

由此，神经网络130可以基于至少一个模式参数、权重和服从预定分布的随机值，生成预测标签。

在上文中参考图2清楚描述了神经网络130的结构，在下文中将参考图3描述神经网络130的使用，以及参考图4-5描述神经网络130的训练。

图3示出了根据本公开的实施例的用于数据处理的示例方法300的流程图。例如，方法300可以由如图1所示的计算设备110来执行。应当理解，方法300还可以包括未示出的附加框和/或可以省略所示出的某些框。本公开的范围在此方面不受限制。

在框310处，计算设备110获取输入数据120。如上所述，在某些实施例中，输入数据120可以是图像、视频、音频、文本和/或多媒体文件等。

在框320处，计算设备110利用神经网络130，生成指示输入数据120的类别的预测标签140。如上所述，在某些实施例中，神经网络130可以是深度神经网络(Deep NeuralNetwork，DNN)、卷积神经网络(Convolutional Neural Network，CNN)、长短期记忆网络(Long Short Term Memory，LSTM)网络、门控循环单元(Gated Recurrent Unit，GRU)网络、和/或循环神经网络(Recurrent Neural Network，RNN)等。

神经网络130包括加权层210。加权层210至少确定应用于输入数据120可能属于的至少一个候选类别的权重以生成预测结果。进一步地，在某些实施例中，加权层210还确定与预定模式相关联的至少一个模式参数以生成预测结果，使得预测结果服从预定模式。如上所述，在某些实施例中，预定模式可以是高斯分布、正态分布、均匀分布、指数分布、泊松分布、伯努利分布、和/或拉普拉斯分布等。例如，在预定模式是高斯分布的情况下，至少一个模式参数可以包括高斯分布的均值和方差。在某些实施例中，加权层210可以使用参考图2描述的方式确定与预定模式相关联的至少一个模式参数和应用于至少一个候选类别的权重，因此在此省略其描述。

由此，计算设备110可以基于与预定模式相关联的至少一个模式参数和应用于至少一个候选类别的权重，来生成预测结果。预测结果可以指示输入数据属于至少一个候选类别的可能性。在某些实施例中，除了至少一个模式参数和权重以外，计算设备110还可以基于服从预定分布的随机值来生成预测结果。由此，可以在预测结果中引入随机性，从而可以减小噪声标签带来的不利影响。

具体地，在某些实施例中，为了生成预测标签，计算设备110可以获取神经网络中位于加权层210之前的至少一层的输出，作为加权层210的输入。输入指示训练数据属于至少一个候选类别的可能性。计算设备110可以基于加权层210的至少一个参数和加权层的输入，确定与预定模式相关联的至少一个模式参数和应用于至少一个候选类别的权重。由此，计算设备110可以基于至少一个模式参数、权重和服从预定分布的随机值，生成预测标签。

以此方式，可以消除噪声标签对神经网络的影响。由此，可以简单和高效地提高神经网络所生产的预测标签的准确性和噪声标签的标识率。

在上文中参考图3描述了计算设备110利用神经网络130进行数据处理。该神经网络130是经训练的神经网络。在某些实施例中，计算设备110可以训练神经网络130，并且利用经训练的神经网络130来进行数据处理。备选地，计算设备110也可以从其他设备获取经训练的神经网络，并且利用经训练的神经网络130来进行数据处理。在下文中，将以计算设备110训练神经网络为例，来参考图4-5描述神经网络130的训练。

图4示出了根据本公开的实施例的用于训练神经网络的示例方法400的流程图。例如，方法400可以由如图1所示的计算设备110来执行。应当理解，方法400还可以包括未示出的附加框和/或可以省略所示出的某些框。本公开的范围在此方面不受限制。

在框410处，计算设备110获取训练数据。训练数据具有指示训练数据的类别的标签。例如，训练数据可以是图像、视频、音频、文本和/或多媒体文件等。例如，标签可以指示图像是猫还是狗。

在框420处，计算设备110利用神经网络130，生成训练数据的预测标签。如上所述，在某些实施例中，神经网络130可以是深度神经网络(Deep Neural Network，DNN)、卷积神经网络(Convolutional Neural Network，CNN)、长短期记忆网络(Long Short TermMemory，LSTM)网络、门控循环单元(Gated Recurrent Unit，GRU)网络、和/或循环神经网络(Recurrent Neural Network，RNN)等。

神经网络130包括加权层210。如上所述，加权层210至少确定应用于训练数据可能属于的至少一个候选类别的权重以生成预测结果。进一步地，在某些实施例中，加权层210还确定与预定模式相关联的至少一个模式参数以生成预测结果，使得预测结果服从预定模式。如上所述，在某些实施例中，预定模式可以是高斯分布、正态分布、均匀分布、指数分布、泊松分布、伯努利分布、和/或拉普拉斯分布等。例如，在预定模式是高斯分布的情况下，至少一个模式参数可以包括高斯分布的均值和方差。在某些实施例中，加权层210可以使用参考图2描述的方式确定与预定模式相关联的至少一个模式参数和应用于至少一个候选类别的权重，因此在此省略其描述。

由此，计算设备110可以基于与预定模式相关联的至少一个模式参数和应用于至少一个候选类别的权重，来生成预测结果。预测结果可以指示训练数据属于至少一个候选类别的可能性。在某些实施例中，除了至少一个模式参数和权重以外，计算设备110还可以基于服从预定分布的随机值来生成预测结果。由此，可以在预测结果中引入随机性，从而可以减小噪声标签带来的不利影响，而无需区分噪声标签和干净标签。

在框430处，计算设备110训练神经网络，使得标签和预测标签之间的差异最小化。在某些实施例中，为了训练神经网络130，计算设备110可以基于标签、预测标签和应用于至少一个候选类别的权重，确定神经网络130的损失。通过在确定损失时考虑应用于至少一个候选类别的权重，可以抵消噪声标签对损失的不利影响。由此，经训练的神经网络使得真实标签和预测标签之间的差异最小化。

例如，假设原始神经网络是DNN，并且其损失为交叉熵损失，在这种情况下，可以通过如下等式(5)确定神经网络130的损失：

其中min表示最小化函数；L表示神经网络130的损失；l表示DNN的交叉熵损失；y_i表示输入数据属于第i个候选类别的可能性；y_i ^gt表示输入数据属于第i个候选类别的真值(ground truth)；β表示退火超参数，其总是正数；c_i表示应用于第i个候选类别的权重。

通过分析等式(5)可知，当所有c_i相等时，

最小。也就是说，当应用于n个候选类别的权重相等时，

最小。而当y_i近似于y_i ^gt时，

最小。由于y_i是基于c_i确定的(例如，使用等式(4))，这意味着在c_i具有峰值的情况下，

最小。可见，损失的两个部分

和

相互抵抗，从而可以抵消噪声标签对损失的不利影响。

由此，计算设备110可以基于损失来更新神经网络130的网络参数，使得更新后的神经网络130的损失最小化。进一步地，在某些实施例中，计算设备110可以基于损失，更新加权随机层的至少一个参数，使得更新后的神经网络130的损失最小化。

在上文中，描述了包括加权层210的神经网络130的训练。在该训练过程中，使得神经网络的损失最小。如上所述，该损失考虑了应用于至少一个候选类别的权重，从而使得神经网络不会过度拟合到噪声标签上。这种损失的确定方式也可以应用于其他神经网络，例如不包括加权层210的神经网络。在下文中，将参考图5描述利用这种损失来训练神经网络的过程。

图5示出了根据本公开的实施例的用于训练神经网络的示例方法500的流程图。例如，方法500可以由如图1所示的计算设备110来执行。应当理解，方法500还可以包括未示出的附加框和/或可以省略所示出的某些框。本公开的范围在此方面不受限制。

在框510处，计算设备110获取训练数据。训练数据具有指示训练数据的类别的标签。例如，训练数据可以是图像、视频、音频、文本和/或多媒体文件等。例如，标签可以指示图像是猫还是狗。

在框520处，计算设备110利用神经网络，生成训练数据的预测标签。如上所述，在某些实施例中，神经网络可以是深度神经网络(Deep Neural Network，DNN)、卷积神经网络(Convolutional Neural Network，CNN)、长短期记忆网络(Long Short Term Memory，LSTM)网络、门控循环单元(Gated Recurrent Unit，GRU)网络、和/或循环神经网络(Recurrent Neural Network，RNN)等。

在某些实施例中，神经网络包括加权层210。如上所述，加权层210至少确定应用于训练数据可能属于的至少一个候选类别的权重以生成预测结果。进一步地，在某些实施例中，加权层210还确定与预定模式相关联的至少一个模式参数以生成预测结果，使得预测结果服从预定模式。如上所述，在某些实施例中，预定模式可以是高斯分布、正态分布、均匀分布、指数分布、泊松分布、伯努利分布、和/或拉普拉斯分布等。例如，在预定模式是高斯分布的情况下，至少一个模式参数可以包括高斯分布的均值和方差。在某些实施例中，加权层210可以使用参考图2描述的方式确定与预定模式相关联的至少一个模式参数和应用于至少一个候选类别的权重，因此在此省略其描述。

由此，可以基于与预定模式相关联的至少一个模式参数和应用于至少一个候选类别的权重，来生成预测结果，预测结果可以指示训练数据属于至少一个候选类别的可能性。在某些实施例中，除了至少一个模式参数和权重以外，还可以基于服从预定分布的随机值来生成预测结果。由此，可以在预测结果中引入随机性，从而可以减小噪声标签带来的不利影响。

在框530处，计算设备110训练神经网络，使得神经网络的损失最小化，损失至少基于应用于训练数据可能属于的至少一个候选类别的权重而被确定。在某些实施例中，为了训练神经网络，计算设备110可以基于标签、预测标签和应用于至少一个候选类别的权重，确定神经网络的损失。在某些实施例中，计算设备110可以使用参考图3描述的方式确定损失，因此在此省略其描述。

由此，计算设备110可以基于损失来更新神经网络的网络参数，使得更新后的神经网络的损失最小化。进一步地，在某些实施例中，计算设备110可以基于损失，更新加权随机层的至少一个参数，使得更新后的神经网络的损失最小化。

图6示出了根据本公开的实施例的神经网络的识别结果AUC(Area Under Curve，曲线下方的面积)和传统神经网络的识别结果AUC的示例的示意图600。识别结果AUC可以表示神经网络正确识别标签的比率，更具体地，可以表示神经网络正确识别噪声标签的比率。如图6所示，实线610表示包括加权层的神经网络的识别结果AUC，虚线620表示传统神经网络的识别结果AUC。可见，包括加权层的神经网络的识别结果AUC显著高于传统神经网络。此外，包括加权层的神经网络能够在较少的轮次中更快地具有高识别结果AUC。

图7示出了可以用来实施本公开的实施例的示例计算设备700的示意性框图。例如，如图1所示的计算设备110可以由设备700来实施。如图所示，设备700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的计算机程序指令或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序指令，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元401可被配置为执行上文所描述的各个过程和处理，例如方法300至500。例如，在一些实施例中，300至500可以被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序被加载到RAM 703并由CPU 701执行时，可以执行上文描述的方法300至500中的一个或多个步骤。

在一些实施例中，电子设备包括至少一个处理电路。至少一个处理电路被配置为：获取输入数据；以及利用神经网络，生成指示输入数据的类别的预测标签，神经网络包括加权层，加权层至少确定应用于输入数据可能属于的至少一个候选类别的权重以生成预测结果。

在一些实施例中，加权层还确定与预定模式相关联的至少一个模式参数以生成预测结果，使得预测结果服从预定模式。

在一些实施例中，预定模式包括以下之一：高斯分布，正态分布，均匀分布，指数分布，泊松分布，伯努利分布，和拉普拉斯分布。

在一些实施例中，至少一个处理电路被配置为：获取神经网络中位于加权层之前的至少一层的输出，作为加权层的输入，输入指示输入数据属于至少一个候选类别的可能性；基于加权层的至少一个参数和加权层的输入，确定与预定模式相关联的至少一个模式参数和应用于至少一个候选类别的权重；以及基于至少一个模式参数、权重和服从预定分布的随机值，生成预测标签。

在一些实施例中，预定模式是高斯分布，并且至少一个模式参数包括高斯分布的均值和方差。

在一些实施例中，神经网络包括以下之一：深度神经网络(DNN)，卷积神经网络(CNN)，长短期记忆网络(LSTM)网络，门控循环单元(GRU)网络，和循环神经网络(RNN)。

在一些实施例中，输入数据包括以下至少一项：图像，视频，音频，文本，和多媒体文件。

在一些实施例中，电子设备包括至少一个处理电路。至少一个处理电路被配置为：获取训练数据，训练数据具有指示训练数据的类别的标签；利用神经网络，生成训练数据的预测标签，神经网络包括加权层，加权层至少基于应用于训练数据可能属于的至少一个候选类别的权重来生成预测结果；以及训练神经网络，使得标签和预测标签之间的差异最小化。

在一些实施例中，至少一个处理电路被配置为：获取神经网络中位于加权层之前的至少一层的输出，作为加权层的输入，输入指示训练数据属于至少一个候选类别的可能性；基于加权层的至少一个参数和加权层的输入，确定与预定模式相关联的至少一个模式参数和应用于至少一个候选类别的权重；以及基于至少一个模式参数、权重和服从预定分布的随机值，生成预测标签。

在一些实施例中，至少一个处理电路被配置为：基于标签、预测标签和应用于至少一个候选类别的权重，确定神经网络的损失；以及基于损失来更新神经网络的网络参数，使得更新后的神经网络的损失最小化。

在一些实施例中，至少一个处理电路被配置为：基于损失，更新加权随机层的至少一个参数，使得更新后的神经网络的损失最小化。

在一些实施例中，训练数据包括以下至少一项：图像，视频，音频，文本，和多媒体文件。

在一些实施例中，电子设备包括至少一个处理电路。至少一个处理电路被配置为：获取训练数据，训练数据具有指示训练数据的类别的标签；利用神经网络，生成训练数据的预测标签；以及训练神经网络，使得神经网络的损失最小化，损失至少基于应用于训练数据可能属于的至少一个候选类别的权重而被确定。

在一些实施例中，神经网络包括加权层，加权层至少基于应用于至少一个候选类别的权重来生成预测结果。

在一些实施例中，至少一个处理电路被配置为：基于标签、预测标签和应用于至少一个候选类别的权重，确定损失；以及基于损失来更新神经网络的网络参数，使得更新后的神经网络的损失最小化。

本公开可以被实现为系统、方法和/或计算机程序产品。当本公开被实现为系统时，除了能够在单个设备上实现之外，本文所描述的部件还可以以云计算架构的形式来实现。在云计算环境中，这些部件可以被远程布置，并且可以一起工作以实现本公开所描述的功能。云计算可以提供计算、软件、数据访问和存储服务，它们不需要终端用户知晓提供这些服务的系统或硬件的物理位置或配置。云计算可以使用适当的协议通过广域网(诸如因特网)提供服务。例如，云计算提供商通过广域网提供应用，并且它们可以通过浏览器或任何其他计算组件被访问。云计算的部件以及相应的数据可以被存储在远程服务器上。云计算环境中的计算资源可以在远程数据中心位置处被合并，或者这些计算资源可以被分散。云计算基础设施可以通过共享数据中心提供服务，即使它们表现为针对用户的单一访问点。因此，可以使用云计算架构从远程服务提供商提供本文所描述的各种功能。备选地，它们可以从常规服务器被提供，或者它们可以直接或以其他方式被安装在客户端设备上。此外，本公开还可以被实现为计算机程序产品，该计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种数据处理方法，包括：

获取输入数据；以及

利用神经网络，生成指示所述输入数据的类别的预测标签，所述神经网络包括加权层，所述加权层至少确定应用于所述输入数据可能属于的至少一个候选类别的权重以生成预测结果。

2.根据权利要求1所述的方法，其中所述加权层还确定与预定模式相关联的至少一个模式参数以生成所述预测结果，使得所述预测结果服从所述预定模式。

3.根据权利要求2所述的方法，其中所述预定模式包括以下之一：

高斯分布，

正态分布，

均匀分布，

指数分布，

泊松分布，

伯努利分布，和

拉普拉斯分布。

4.根据权利要求2所述的方法，其中生成所述预测标签包括：

获取所述神经网络中位于所述加权层之前的至少一层的输出，作为所述加权层的输入，所述输入指示所述输入数据属于所述至少一个候选类别的可能性；

基于所述加权层的至少一个参数和所述加权层的输入，确定与所述预定模式相关联的至少一个模式参数和应用于所述至少一个候选类别的权重；以及

基于所述至少一个模式参数、所述权重和服从预定分布的随机值，生成所述预测标签。

5.根据权利要求4所述的方法，其中所述预定模式是高斯分布，并且所述至少一个模式参数包括所述高斯分布的均值和方差。

6.根据权利要求1所述的方法，其中所述神经网络包括以下之一：

深度神经网络(DNN)，

卷积神经网络(CNN)，

长短期记忆网络(LSTM)网络，

门控循环单元(GRU)网络，和

循环神经网络(RNN)。

7.根据权利要求1所述的方法，其中所述输入数据包括以下至少一项：

图像，

视频，

音频，

文本，和

多媒体文件。

8.一种训练神经网络的方法，包括：

获取训练数据，所述训练数据具有指示所述训练数据的类别的标签；

利用神经网络，生成所述训练数据的预测标签，所述神经网络包括加权层，所述加权层至少基于应用于所述训练数据可能属于的至少一个候选类别的权重来生成预测结果；以及

训练所述神经网络，使得所述标签和所述预测标签之间的差异最小化。

9.根据权利要求8所述的方法，其中所述加权层还确定与预定模式相关联的至少一个模式参数以生成所述预测结果，使得所述预测结果服从所述预定模式。

10.根据权利要求9所述的方法，其中所述预定模式包括以下之一：

高斯分布，

正态分布，

均匀分布，

指数分布，

泊松分布，

伯努利分布，和

拉普拉斯分布。

11.根据权利要求9所述的方法，其中生成所述预测标签包括：

获取所述神经网络中位于所述加权层之前的至少一层的输出，作为所述加权层的输入，所述输入指示所述训练数据属于所述至少一个候选类别的可能性；

12.根据权利要求11所述的方法，其中所述预定模式是高斯分布，并且所述至少一个模式参数包括所述高斯分布的均值和方差。

13.根据权利要求8所述的方法，其中训练所述神经网络包括：

基于所述标签、所述预测标签和应用于所述至少一个候选类别的权重，确定所述神经网络的损失；以及

基于所述损失来更新所述神经网络的网络参数，使得更新后的神经网络的损失最小化。

14.根据权利要求13所述的方法，其中基于所述损失来更新所述神经网络的网络参数包括：

基于所述损失，更新所述加权随机层的至少一个参数，使得所述更新后的神经网络的损失最小化。

15.根据权利要求8所述的方法，其中所述神经网络包括以下之一：

深度神经网络(DNN)，

卷积神经网络(CNN)，

长短期记忆网络(LSTM)网络，

门控循环单元(GRU)网络，和

循环神经网络(RNN)。

16.根据权利要求8所述的方法，其中所述训练数据包括以下至少一项：

图像，

视频，

音频，

文本，和

多媒体文件。

17.一种训练神经网络的方法，包括：

利用神经网络，生成所述训练数据的预测标签；以及

训练所述神经网络，使得所述神经网络的损失最小化，所述损失至少基于应用于所述训练数据可能属于的至少一个候选类别的权重而被确定。

18.根据权利要求17所述的方法，其中所述神经网络包括加权层，所述加权层至少基于应用于所述至少一个候选类别的权重来生成预测结果。

19.根据权利要求18所述的方法，其中所述加权层还确定与预定模式相关联的至少一个模式参数以生成所述预测结果，使得所述预测结果服从所述预定模式。

20.根据权利要求19所述的方法，其中所述预定模式包括以下之一：

高斯分布，

正态分布，

均匀分布，

指数分布，

泊松分布，

伯努利分布，和

拉普拉斯分布。

21.根据权利要求19所述的方法，其中生成所述预测标签包括：

22.根据权利要求21所述的方法，其中所述预定模式是高斯分布，并且所述至少一个模式参数包括所述高斯分布的均值和方差。

23.根据权利要求17所述的方法，其中训练所述神经网络包括：

基于所述标签、所述预测标签和应用于所述至少一个候选类别的权重，确定所述损失；以及

24.根据权利要求23所述的方法，其中基于所述损失来更新所述神经网络的网络参数包括：

25.根据权利要求17所述的方法，其中所述神经网络包括以下之一：

深度神经网络(DNN)，

卷积神经网络(CNN)，

长短期记忆网络(LSTM)网络，

门控循环单元(GRU)网络，和

循环神经网络(RNN)。

26.根据权利要求17所述的方法，其中所述训练数据包括以下至少一项：

图像，

视频，

音频，

文本，和

多媒体文件。

27.一种电子设备，包括：

至少一个处理电路，所述至少一个处理电路被配置为执行根据权利要求1-7中的任一项所述的方法。

28.一种电子设备，包括：

至少一个处理电路，所述至少一个处理电路被配置为执行根据权利要求8-16中的任一项所述的方法。

29.一种电子设备，包括：

至少一个处理电路，所述至少一个处理电路被配置为执行根据权利要求17-26中的任一项所述的方法。