CN116745774A

CN116745774A - 具有针对带噪标签的噪声鲁棒损失的实例自适应训练

Info

Publication number: CN116745774A
Application number: CN202280008838.8A
Authority: CN
Inventors: 金立峰; 宋林峰; 许坤; 俞栋
Original assignee: Tencent America LLC
Current assignee: Tencent America LLC
Priority date: 2021-10-26
Filing date: 2022-08-25
Publication date: 2023-09-12
Also published as: US20230196087A1; WO2023075908A1

Abstract

本申请包括一种方法和装置，所述装置包括用于使用具有噪声鲁棒损失的神经网络的联合训练方法的计算机代码。所述联合训练方法包括使用输入编码器，将带噪数据集的输入标记编码为输入矢量；使用分类器模型，基于所述输入矢量预测标签；使用标签质量预测器模型，基于所述输入矢量和所述标签计算β值，其中所述β值对于每个训练实例是实例特定的；以及基于所述β值和熵值，使用第一修正的损失函数对多于一个模型进行联合训练。

Description

具有针对带噪标签的噪声鲁棒损失的实例自适应训练

相关申请的交叉引用

本申请要求于2021年10月26日在美国专利商标局提交的美国申请第17/510,782号的优先权，该申请的公开内容在此全文引用作为参考。

技术领域

本公开的实施例涉及自然语言处理领域。更具体地，本公开涉及在自动注释生成过程期间生成的带噪标签。

背景技术

为了满足不同任务的注释数据集的需求，许多自然语言处理数据集包括用于快速寻迹数据注释的自动流水线。在这些具有自动注释的数据集中，用于输入数据的标签由机器学习算法而不是人类注释者生成。使用机器学习生成的标签被称为银标签。

然而，与人类注释相比，使用机器学习生成的银标签噪声很大。由于它们的噪声特性，使用这种注释数据集用于训练模型，面临一些独特的问题。对于在自动注释过程期间创建的标签噪声而言，流行的优化目标是不鲁棒的。使用交叉熵(CE)损失作为优化目标已经显示出对标签噪声过拟合，因为训练的模型花费大量资源试图捕获输入数据和带噪银标签之间的带噪相关性。

已经提出了几个噪声鲁棒损失，但是它们通常具有单个数据集范围的超参数来控制抗噪性。然而，单个的训练实例可能具有不同的噪声量，该噪声量源自在自动注释过程期间使用的模型内的偏差。

发明内容

本公开解决了一个或多个技术问题。使用具有数据集特定噪声鲁棒性参数的噪声鲁棒性损失来获取注释标签的噪声鲁棒程度，忽略了训练集中的不同数据点具有不同级别的噪声。相反，使用实例特定的噪声鲁棒性参数可以通过考虑数据集中不同级别的噪声来更好地获取噪声鲁棒性。将噪声鲁棒性训练目标与实例自适应训练框架结合使用，增强了它们的噪声鲁棒性，并提高了训练的模型的准确性，这反过来又有利于它们所服务的下游应用。

根据实施例，一种使用具有噪声鲁棒损失的神经网络进行联合训练的装置，其特征在于，所述装置包括：至少一个存储器，被配置为存储计算机程序代码；至少一个处理器，所述处理器被配置为访问所述计算机程序代码并按照所述计算机编程代码的指令进行操作，所述计算机代码包括：第一编码代码，被配置为使所述至少一个处理器使用输入编码器，将带噪数据集的输入标记编码为输入矢量；第一预测代码，被配置为使得所述至少一个处理器使用分类器模型，基于所述输入矢量预测标签；第一计算代码，被配置为使得所述至少一个处理器使用标签质量预测器模型，基于所述输入矢量和所述标签计算β值，其中所述β值对于每个训练实例是实例特定的；以及第一联合训练代码，被配置为使得所述至少一个处理器基于所述β值和熵值，使用第一修正的损失函数对多于一个模型进行联合训练。

根据实施例，其中所述第一联合训练码还包括：第二联合训练代码，被配置为使得所述至少一个处理器使用所述第一修正的损失函数联合地训练所述分类器模型、所述输入编码器和所述标签质量预测器模型。

根据实施例，其中所述输入编码器和所述标签质量预测器模型是使用从辅助数据集采样的训练数据被联合训练，并且，所述辅助数据集包括手动正确性标签，所述手动正确性标签指示所述带噪数据集中的对应的标签的手动正确性。

根据实施例，对所述输入编码器和所述标签质量预测器模型的联合训练包括：第二编码代码，被配置为使所述至少一个处理器使用所述输入编码器，将来自所述辅助数据集的输入标记编码为辅助输入矢量；第二计算代码，被配置为使所述至少一个处理器基于所述辅助输入矢量和所述辅助数据集中的注释标签，计算辅助β值，其中所述辅助β值对于所述每个训练实例是实例特定的；以及第三联合训练代码，被配置为使得所述至少一个处理器基于所述辅助β值和所述手动正确性标签，使用第二修正的损失函数对所述输入编码器和所述标签质量预测器模型进行联合训练。

根据实施例，其中所述第一联合训练码还包括：第二联合训练代码，被配置为使得所述至少一个处理器使用所述第一修正的损失函数联合地训练所述分类器模型和所述输入编码器。

根据实施例，其中在所述第一计算代码之前，对于有限数量的时期所述β值被设置为1。

根据实施例，其中β值高于阈值。

根据实施例，其中，如果所述带噪数据集中的所述对应的标签是准确的，则所述手动正确性标签被设置为1。

根据实施例，其中所述β值由β_μ的函数表示下限。

附图说明

根据以下详细描述和附图，所公开的主题的其它特征、性质和各种优点将更加明显，其中：

图1是根据实施例的在可以实现本文中描述的方法、装置和系统的环境的图。

图2是图1的一个或多个设备的示例部件的图。

图3是根据本公开的实施例的图示用于分类模型的通用训练的简化框图。

图4是根据本公开的实施例的图示用于分类模型的联合训练的简化框图。

图5是根据本公开的实施例的图示用于分类模型的迭代训练的简化框图。

图6是根据本公开的实施例的训练方法的简化流程图。

图7是根据本公开的实施例的训练方法的简化流程图。

图8是根据本公开的实施例的训练方法的简化流程图。

图9是根据本公开的实施例的训练方法的简化流程图。

具体实施方式

本公开涉及实例特定的噪声鲁棒超参数，其允许学习的噪声鲁棒特性更有针对性和更精细。手动调试噪声鲁棒超参数可能是困难的，因为可能存在数千个训练实例。然而，在训练主分类模型的同时调试噪声鲁棒超参数不仅可以克服手动调试噪声鲁棒超参数的问题，而且可以利用标签质量和输入特征之间存在的任何相关性。使用标签质量预测器和噪声鲁棒超参数的这种实例特定的噪声鲁棒训练，增强了在带噪和损坏的数据集上的损失的噪声鲁棒性，带来了大的性能增益。

噪声鲁棒训练目标可以描述如下。作为示例，GCE是具有数据集特定的噪声鲁棒参数的噪声鲁棒训练目标，GCE是来自训练中的模型的已预测分布d的负Box-Cox变换，如下面的等式1所示：

其中，y是带噪标签，d是已预测分布，并且β(beta)是数据集特定的噪声鲁棒参数。然而，如前所述，数据集特定的噪声鲁棒超参数没有考虑训练集中的不同数据点可能具有不同的噪声级别。

为了克服该缺陷，可以使用修正的β。根据本公开的实施例，通过将β改变为实例特定的并且将熵项应用于损失以进一步使损失规则化，修正的损失可以被定义为如下面的等式2所示：

其中，H函数表示用于分布d的熵函数。该修正的损失函数中的β控制GCE目标中的CE以及熵正则化项的权重。在一些实施例中，当满足等式3中所示的以下条件时，ER-GCE可能比GCE更具噪声鲁棒：

根据本公开的实施例，实例自适应或实例特定的噪声鲁棒训练针对训练数据的每一个实例使用不同的β。可以使用标签质量函数来计算训练数据的每一个实例的不同β。标签质量函数可以是预期获取输入和银标签质量之间的复杂关系的神经网络。根据一些实施例，实例自适应噪声鲁棒训练可以包括联合训练主分类模型或主任务模型，和标签质量预测器。根据一些实施例，实例自适应噪声鲁棒训练可以包括对标签质量的附加监督和对主分类模型或主任务模型和标签质量预测器的联合训练。

在一些实施例中，实例自适应噪声鲁棒训练可以包括联合训练主分类模型或主任务模型和标签质量预测器。作为示例，可以有两个用于分类任务的部件，输入编码器和进行标签预测的分类器。在一些实施例中，输入编码器可以将输入标记编码为矢量。分类器可以使用已编码输入并对实例进行标签预测。每一个训练实例可以包括与其相关联的注释标签。使用已编码输入和与该输入相关联的注释标签，标签质量预测器学习分析它们并预测该训练实例的β值。使用实例特定的β值、修正的损失(ER-GCE模型作为示例)，可以联合地训练输入编码器、分类器和标签质量预测器。示例算法可以如下表1所示描述：

表1

在一些实施例中，噪声鲁棒损失可能需要将实例特定的β值设置为高于阈值。具有高于阈值的实例特定β值可以允许模型中噪声鲁棒性和快速收敛的良好平衡。较低的β_μ可以指示较高的噪声鲁棒性和较慢的收敛。在一些实施例中，当β_μ达到1时，损失可以由公共交叉熵损失表示。在一些实施例中，实例特定的β值可以由β_μ(beta mu)表示下限。在一些实施例中，β_μ可以如下面的等式4所示定义：

在一些实施例中，为了更好地训练标签质量预测器模型和主任务模型，在联合训练标签质量预测器模型和主任务模型之前，可以针对一定数量的时期将实例特定的β值设置为1。在模型预热时，针对某些时期将实例特定的β值设置为1可以提供更有意义的实例特定的β值。

根据实施例，输入编码器、分类器和标签质量预测器可以通过任何机器学习模型来实现。

根据一些实施例，实例自适应噪声鲁棒训练可以包括对标签质量的附加监督和对主分类模型或主任务模型和标签质量预测器的联合训练。作为示例，在一些实施例中，辅助数据集可以用于提供对标签质量预测器模型的附加监督。校正原始训练集上的原始注释可能是昂贵的。然而，在辅助数据集中使用手动正确性标签(仅指示原始训练集上的原始注释的手动正确性)可以提供较便宜的方法来测量原始注释的正确性。手动正确性标签可以帮助更好地捕获输入、原始标签和实例的噪声级别之间的关系。在一些实施例中，如果原始标签是正确的，则手动正确性标签可以为1，否则为0。在一些实施例中，如果原始标签不正确，则手动正确性标签可以为0，否则为1。

在一些实施例中，辅助数据集(包括用于训练实例的手动正确性标签)可以用于训练主分类或主任务模型和标签质量预测器模型。在一些实施例中，主任务模型、标签质量预测器模型和输入编码器的训练可以是迭代的。作为示例，首先可以使用从辅助数据集采样的训练实例来联合地训练分类模型和标签质量预测器模型。然后，可以使用来自标签质量预测器模型的实例特定的β值来联合地训练输入编码器和分类模型。在一些实施例中，可以不使用实例特定的β值来更新标签质量预测器，而可以联合地训练输入编码器和分类模型。

示例算法可以如下表2所示描述：

表2

根据实验分析，例如如下表3所示，在本公开中描述的联合训练方法的性能指示强噪声鲁棒性，当不使用实例自适应训练时，强噪声鲁棒性优于噪声鲁棒训练目标。

表3

ER-GCE在所有噪声鲁棒训练目标中表现最佳。这些结果表明，将噪声鲁棒训练目标与实例自适应训练一起使用增强了噪声鲁棒，并且提高了训练模型的精度，这又有利于训练模型服务的下游应用程序。

下面讨论的所提出的特征可以单独地使用或以任何顺序组合使用。进一步地，实施例可以通过处理电路(例如，一个或多个处理器或一个或多个集成电路)来实现。在一个示例中，一个或多个处理器执行存储在非易失性计算机可读介质中的程序。

图1是根据实施例的，可以实施本文所描述的方法、装置和系统的环境100的示意图。

如图1所示，环境100可以包括用户设备110、平台120和网络130。环境100的设备可以通过有线连接、无线连接或有线和无线连接的组合进行互连。

用户设备110包括一个或多个设备，该一个或多个设备能够接收、生成、存储、处理和/或提供与平台120相关的信息。例如，用户设备110可以包括计算设备(例如，台式计算机、膝上型计算机、平板计算机、手持式计算机、智能扬声器、服务器等)、移动电话(例如，智能电话、无线电话等)、可穿戴设备(例如，智能眼镜或智能手表)或相似设备。在一些实施方式中，用户设备110可以从平台120接收信息和/或向平台120发送信息。

平台120包括如本文中其它地方所描述的一个或多个设备。在一些实施方式中，平台120可以包括云服务器或云服务器组。在一些实施方式中，平台120可以被设计成模块化，使得软件组件可以被换入或换出。这样，可以容易地和/或快速地重新配置平台120以具有不同的用途。

在一些实施方式中，如图所示，平台120可以被托管(hosted)在云计算环境122中。值得注意的是，虽然本文所述的实施方式将平台120描述为托管在云计算环境122中，但是在一些实施方式中，平台120不是基于云的(即，可以在云计算环境外部实现)或者可以是部分基于云的。

云计算环境122包括托管平台120的环境。云计算环境122可以提供计算、软件、数据访问、存储等服务，这些服务不需要终端用户(例如，用户设备110)了解托管平台120的系统和/或设备的物理位置和配置。如图所示，云计算环境122可以包括一组计算资源124(统称为“计算资源(computing resources)124”并分别称为“计算资源(computing resource)124”)。

计算资源124包括一个或多个个人计算机、工作站计算机、服务器设备或其它类型的计算和/或通信设备。在一些实施方式中，计算资源124可以托管平台120。云资源可以包括在计算资源124中执行的计算实例、在计算资源124中提供的存储设备、由计算资源124提供的数据传输设备等。在一些实施方式中，计算资源124可以通过有线连接、无线连接或有线和无线连接的组合与其它计算资源124通信。

进一步如图1所示，计算资源124包括一组云资源，例如一个或多个应用程序(“APP”)124-1、一个或多个虚拟机(“VM”)124-2、虚拟化存储(“VS”)124-3、一个或多个管理程序(“HYP”)124-4等。

应用程序124-1包括一个或多个软件应用程序，其可以提供给用户设备110和/或平台120，或由用户设备110和/或平台120访问。应用程序124-1无需在用户设备110上安装和执行软件应用程序。例如，应用程序124-1可以包括与平台120相关的软件，和/或，能够通过云计算环境122提供的任何其它软件。在一些实施方式中，一个应用程序124-1可以通过虚拟机124-2向或从一个或多个其它应用程序124-1发送/接收信息。

虚拟机124-2包括机器(例如，计算机)的软件实现，该机器执行程序，类似于物理机。虚拟机124-2可以是系统虚拟机，也可以是进程虚拟机，这取决于虚拟机124-2对任何真实机的使用和对应程度。系统虚拟机可以提供完整系统平台，其支持完整操作系统(“OS”)的执行。进程虚拟机可以执行单个程序，并且可以支持单个进程。在一些实施方式中，虚拟机124-2可以代表用户(例如，用户设备110)执行，并且可以管理云计算环境122的基础架构，例如数据管理、同步或长期数据传输。

虚拟化存储124-3包括一个或多个存储系统和/或一个或多个设备，该一个或多个设备在计算资源124的存储系统或设备内使用虚拟化技术。在一些实施方式中，在存储系统的上下文内，虚拟化的类型可以包括块虚拟化和文件虚拟化。块虚拟化可以指逻辑存储从物理存储的抽象(或分离)，以便可以在不考虑物理存储或异构结构的情况下访问存储系统。分离可以允许存储系统的管理员灵活地管理终端用户的存储。文件虚拟化可以消除在文件级别存取的数据与物理存储文件的位置之间的依赖性。这可以优化存储使用、服务器整合和/或无中断文件迁移的性能。

管理程序(Hypervisor)124-4可以提供硬件虚拟化技术，其允许多个操作系统(例如，“客户操作系统”)在诸如计算资源124的主计算机上同时执行。管理程序124-4可以向客户操作系统提供虚拟操作平台，并且可以管理客户操作系统的执行。各种操作系统的多个实例可以共享虚拟化硬件资源。

网络130包括一个或多个有线和/或无线网络。例如，网络130可以包括蜂窝网络(例如，第五代(fifth generation,5G)网络、长期演进(Long-Term Evolution,LTE)网络、第三代(third generation,3G)网络、码分多址(CDMA)网络等)、公共陆地移动网络(PublicLand Mobile Network,PLMN)、局域网(Local Area Network,LAN)、广域网(Wide AreaNetwork,WAN)、城域网(Metropolitan Area Network,MAN)、电话网络(例如，公共交换电话网络(Public Switched Telephone Network,PSTN))、专用网络、自组织网络、内联网、因特网、基于光纤的网络等，和/或这些或其它类型的网络的组合。

图1所示的设备和网络的数量和排列被作为示例来提供。实际上，与图1所示的设备和/或网络相比，可以有更多的设备和/或网络、更少的设备和/或网络、不同的设备和/或网络、或排列不同的设备和/或网络。此外，图1所示的两个或更多个设备可以在单个设备内实现，或者图1所示的单个设备可以实现为多个分布式设备。另外或可替代地，环境100的一组设备(例如，一个或多个设备)可以执行被描述为由环境100的另一组设备执行的一个或多个功能。

图2是图1中一个或多个设备的示例组件的框图。

设备200可以对应于用户设备110和/或平台120。如图2所示，设备200可以包括总线210、处理器220、存储器230、存储组件240、输入组件250、输出组件260和通信接口270。

总线210包括允许设备200的组件之间进行通信的组件。处理器220以硬件、固件或硬件和软件的组合来实现。处理器220是中央处理单元(CPU)、图形处理单元(GPU)、加速处理单元(APU)、微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)或另一类型的处理组件。在一些实施方式中，处理器220包括一个或多个能够被编程以执行功能的处理器。存储器230包括随机存取存储器(RAM)、只读存储器(ROM)和/或另一类型的动态或静态存储设备(例如，闪存、磁存储器和/或光存储器)，其存储供处理器220使用的信息和/或指令。

存储组件240存储与设备200的操作和使用相关的信息和/或软件。例如，存储组件240可以包括硬盘(例如，磁盘、光盘、磁光盘和/或固态盘)、光盘(CD)、数字通用盘(DVD)、软盘、盒式磁带、磁带和/或另一类型的非易失性计算机可读介质，以及相应的驱动器。

输入组件250包括允许设备200例如通过用户输入接收信息的组件，例如，触摸屏显示器、键盘、小键盘、鼠标、按钮、开关和/或麦克风。另外或可替代地，输入组件250可以包括用于感测信息的传感器(例如，全球定位系统(GPS)组件、加速计、陀螺仪和/或致动器)。输出组件260包括提供来自设备200的输出信息的组件，例如，显示器、扬声器和/或一个或多个发光二极管(LED)。

通信接口270包括类似收发器的组件(例如，收发器和/或单独的接收器和发送器)，该组件使设备200能够例如通过有线连接、无线连接或有线和无线连接的组合与其它设备通信。通信接口270可以允许设备200从另一设备接收信息和/或向另一设备提供信息。例如，通信接口270可以包括以太网接口、光接口、同轴接口、红外接口、射频(RF)接口、通用串行总线(USB)接口、Wi-Fi接口、蜂窝网络接口等。

设备200可以执行本文中所描述的一个或多个过程。设备200可以响应于处理器220执行由非易失性计算机可读介质(例如存储器230和/或存储组件240)存储的软件指令来执行这些过程。计算机可读介质在本文中被定义为非易失性存储器设备。存储器设备包括单个物理存储设备内的存储空间或分布在多个物理存储设备上的存储空间。

软件指令可以通过通信接口270从另一计算机可读介质或从另一设备读入存储器230和/或存储组件240。当被执行时，存储在存储器230和/或存储组件240中的软件指令可以使处理器220执行本文中所描述的一个或多个过程。另外或可替代地，可以使用硬件连线电路来代替软件指令或与软件指令结合以执行本文中所描述的一个或多个过程。因此，本文中所描述的实施方式不限于硬件电路和软件的任何特定组合。

图2所示的组件的数量和排列被作为示例来提供。实际上，与图2所示的组件相比，设备200可能包括更多的组件、更少的组件、不同的组件或排列不同的组件。另外或可替代地，设备200的一组组件(例如，一个或多个组件)可以执行被描述为由设备200的另一组组件执行的一个或多个功能。

图3图示了根据实施例的用于训练分类模型的训练框架300的示例框图。

如图3所示，训练框架300包括带噪数据集310、输入编码器315、分类器320和损失函数325。

带噪数据集310是可以由计算机用于分析和预测目的的数据和/或信息的集合。带噪数据集310可以包括可以使用机器学习算法而不是由人类注释者生成的数据和注释标签。当与专家注释相比时，机器学习的注释或标签可能噪声相当大。

输入编码器315可以是可训练的并且被配置为将来自带噪数据集310的输入标记编码为输入矢量的输入编码器。分类器320可以使用分类器模型，基于输入矢量来预测输入标记的标签。基于由分类器320做出的预测和带噪数据集310中的标签，损失函数325可以计算损失并更新输入编码器和分类器模型。

分类器320和输入编码器315可以使用任何合适的机器学习模型来实现。作为示例，分类器320和输入编码器315可以使用类似的回归模型、神经网络等来实现。

图4图示了根据实施例的用于联合训练多于一个分类模型的训练框架400的示例框图。

如图4所示，训练框架400包括带噪数据集310、输入编码器315、分类器320、质量预测器或标签质量预测器410以及噪声鲁棒损失函数420。

带噪数据集310可以包括数据和/或信息以及与所述数据或信息相关联的标签。在一些实施例中，可以经由机器学习使用自动流水线来生成标签。输入编码器315可以被配置为将来自带噪数据集310的输入标记编码为输入矢量。分类器320可以使用分类器模型，基于输入矢量来预测用于输入标记的标签。

标签质量预测器410可以是机器学习模型，被配置为分析已编码输入和来自带噪数据集310的标签以预测实例特定的β值，β值捕获已编码输入和标签的关系的。标签质量预测器410可以使用任何合适的机器学习模型来实现，并且可以根据关于输入和带噪数据集中的标签之间的关系的已有知识采取复杂的形式。作为示例，分类器标签质量预测器410可以使用类似的回归模型、神经网络等来实现。

噪声鲁棒损失函数420可以基于分类器320预测的标签、带噪数据集310中的标签和由标签质量预测器410预测的实例特定的β值，联合地更新输入编码器315、分类器320和标签质量预测器410。通过使用指示带噪数据集310中的标签的噪声特性的实例特定的β值联合地更新所有模型，噪声鲁棒损失函数考虑了由机器学习的模型生成的带噪标签。在一些实施例中，噪声鲁棒损失函数可以仅联合地更新输入编码器315和标签质量预测器410。作为示例，使用噪声鲁棒损失函数420对标签质量预测器410、输入编码器315和分类器320的联合训练可以包括：更新标签质量预测器410、输入编码器315和分类器320内的模型。在一些实施例中，噪声鲁棒损失函数可以仅联合地更新输入编码器315和分类器320。

图5图示了根据实施例的用于联合地训练多于一个分类模型的训练框架500的示例框图。

如图5所示，训练框架500包括带噪数据集310、输入编码器315、分类器320、质量预测器或标签质量预测器410、噪声鲁棒损失函数420、辅助数据集510以及二元CE损失函数520。

带噪数据集310可以包括数据和/或信息以及与所述数据或信息相关联的标签。在一些实施例中，可以通过机器学习使用自动流水线来生成标签。输入编码器315可以被配置为将来自带噪数据集310的输入标记编码为输入矢量。分类器320可以使用分类器模型，基于输入矢量来预测用于输入标记的标签。

然而，校正带噪数据集310可能非常昂贵，然而，因为需要对标签质量预测器410的附加监督，所以可以利用辅助数据集510，其中辅助数据集510可以包括带噪数据集310中的标签的正确性的手动注释。作为示例，辅助数据集510可以包括来自带噪数据集310的数据和标签，以及指示带噪数据集310中的对应的标签的手动正确性的附加手动正确性标签。在一些实施例中，如果来自带噪数据集310的标签是不正确的，则辅助数据集中用于该训练实例的手动正确性标签可以为0，否则它可以为1。在一些实施例中，如果来自带噪数据集310的标签是正确的，则辅助数据集中用于该训练实例的手动正确性标签可以为1，否则它可以为0。将辅助数据集510中的手动正确性标签用于标签质量预测器410的附加训练，使得能够有效地校正带噪数据集310中的标签，而不实际校正或修正带噪数据集310。标签质量预测器410的附加监督和训练可以帮助标签质量预测器410更好地理解输入、带噪数据集310中的标签和实例的噪声级别之间的关系。

标签质量预测器410可以是机器学习模型，被配置为分析已编码输入和来自带噪数据集310的标签，以预测实例特定的β值，该β值捕获已编码输入和标签的关系。标签质量预测器410可以与输入编码器315一起，使用来自辅助数据集510的采样的数据，附加地训练。在附加联合训练期间，标签质量预测器410可以基于已编码输入、带噪数据集310中的标签和来自辅助数据集510的手动正确性标签，预测实例特定的β值。二元CE损失函数520可以联合地更新标签质量预测器410和输入编码器315。作为示例，使用二元CE损失函数520对标签质量预测器410和输入编码器315的联合训练可以包括更新标签质量预测器410和输入编码器315内的模型。

噪声鲁棒损失函数420可以基于分类器320预测的标签、带噪数据集310中的标签和由标签质量预测器410预测的实例特定的β值，联合地训练输入编码器315和分类器320，其中标签质量预测器410可以使用从辅助数据集510采样的训练数据附加地训练。通过使用指示带噪数据集310中的标签的噪声特性的实例特定的β值联合地更新输入编码器315和分类器320，噪声鲁棒损失函数考虑了由机器学习的模型生成的带噪标签。作为示例，使用噪声鲁棒损失函数420对输入编码器315和分类器320的联合训练可以包括基于噪声鲁棒损失函数420，更新输入编码器315和分类器320内的模型。在一些实施例中，当噪声鲁棒损失函数420联合地更新输入编码器315和分类器320时，可以不更新标签质量预测器。

标签质量预测器410、分类器320和输入编码器315可以使用任何合适的机器学习模型来实现，并且可以根据关于输入和带噪数据集中的标签之间的关系的已有知识，采取复杂的形式。作为示例，分类器标签质量预测器410可以使用类似的回归模型、神经网络等来实现。

图5中的部分550包括训练框架500中的部件，该部件涉及使用噪声鲁棒损失函数420联合地训练输入编码器315和分类器320。图5中的部分560包括训练框架500中涉及使用二元CE损失函数520联合地训练输入编码器315和标签质量预测器410的部件。

图6图示了具有噪声鲁棒损失的联合训练方法的示例过程600。

在操作610处，输入编码器可以将来自带噪数据集的输入标记编码为输入矢量。在操作620处，分类器可以基于输入矢量预测标签。在操作630处，标签质量预测器可以基于输入矢量和预测的标签计算实例特定的β(beta)值。在操作640处，基于β值和熵值使用第一修正的损失函数联合地训练多于一个模型。在一些实施例中，熵值可以是被配置为测量和/或创建正被处理的信息中的随机性的熵函数。

作为示例，输入编码器315可以用于将来自带噪数据集310的输入标记编码为输入标记。分类器320可以使用分类和/或分类器模型基于输入矢量预测标签。标签质量预测器410可以基于输入矢量和标签计算实例特定的β值。然后，噪声鲁棒损失函数420可以用于基于实例特定的β值和熵值联合地训练多于一个模型。作为示例，多于一个模型的联合训练可以包括基于噪声鲁棒损失函数420更新输入编码器315、标签质量预测器410和分类器320内的模型。

图7图示了具有噪声鲁棒损失的联合训练方法的示例过程700。

在操作710处，输入编码器可以将来自带噪数据集的输入标记编码为输入矢量。在操作720处，分类器可以基于输入矢量预测标签。在操作730处，标签质量预测器可以基于输入矢量和预测的标签计算实例特定的β(beta)值。在操作740，可以基于β值和熵值使用第一修正的损失函数联合地训练输入编码器、分类器模型和标签质量预测器模型。在一些实施例中，熵值可以是熵函数，所述熵函数被配置为测量和/或创建正被处理的信息中的随机性。

作为示例，输入编码器315可以用于将来自带噪数据集310的输入标记编码为输入标记。分类器320可以使用分类和/或分类器模型基于输入矢量预测标签。标签质量预测器410可以基于输入矢量和标签计算实例特定的β值。然后，噪声鲁棒损失函数420可以用于基于实例特定的β值和熵值联合地训练输入编码器、分类器和标签质量预测器。作为示例，输入编码器、分类器和标签质量预测器的联合训练可以包括基于噪声鲁棒损失函数420更新输入编码器315、标签质量预测器410和分类器320内的模型。

图8图示了具有噪声鲁棒损失的联合训练方法的示例过程800。

在操作810处，可以生成辅助数据集。辅助数据集可以包括来自带噪数据集的数据和/或信息，并且还可以包括指示带噪数据集中的对应的标签的手动正确性的手动正确性标签。辅助数据集还可以包括注释标签，其可以与带噪数据集中的机器生成的标签相同。

在操作820处，可以使用从辅助数据集采样的训练数据，联合地训练输入编码器和标签质量预测器模型。从辅助数据集采样的训练数据可以包括手动正确性标签和数据和/或信息。联合地训练输入编码器和标签质量预测器模型可以包括使用输入编码器将来自辅助数据集的输入标记编码为辅助输入矢量。进一步地，联合地训练输入编码器和标签质量预测器模型可以包括基于辅助输入矢量和辅助数据集中的注释标签计算辅助β值，其中辅助β值对于每个训练实例是实例特定的。附加地，联合地训练输入编码器和标签质量预测器模型可以包括基于辅助β值和手动正确性标签使用第二修正的损失函数对输入编码器和标签质量预测器模型进行联合训练。在一些实施例中，基于辅助β值和手动正确性标签使用第二修正的损失函数对输入编码器和标签质量预测器模型进行联合训练可以包括基于第二修正的损失函数更新输入编码器和标签质量预测器中的模型。

在操作830处，输入编码器可以将来自带噪数据集的输入标记编码为输入矢量。在操作840处，分类器可以基于输入矢量预测标签。在操作850处，标签质量预测器可以基于输入矢量和预测的标签计算实例特定的β(beta)值。在一些实施例中，在操作850处计算的实例特定的β值可以等同于在操作820处计算的辅助β值。

在操作860处，可以基于β值和熵值使用第一修正的损失函数联合地训练输入编码器和分类器模型。在一些实施例中，熵值可以是被配置为测量和/或创建正被处理的信息中的随机性的熵函数。

图9图示了具有噪声鲁棒损失的联合训练方法的示例过程900。

在操作910处，可以生成辅助数据集。辅助数据集可以包括来自带噪数据集的数据和/或信息，并且还可以包括指示带噪数据集中的对应的标签的手动正确性的手动正确性标签。辅助数据集还可以包括注释标签，其可以与带噪数据集中的机器生成的标签相同。

在操作920至操作940处，可以使用从辅助数据集采样的训练数据联合地训练输入编码器和标签质量预测器模型。在操作920处，联合地训练输入编码器和标签质量预测器模型可以包括使用输入编码器将来自辅助数据集的输入标记编码为辅助输入矢量。进一步地，在操作930处，联合地训练输入编码器和标签质量预测器模型可以包括基于辅助输入矢量和辅助数据集中的注释标签计算辅助β值，其中辅助β值对于每个训练实例是实例特定的。在940处，联合地训练输入编码器和标签质量预测器模型可以包括基于辅助β值和手动正确性标签使用第二修正的损失函数对输入编码器和标签质量预测器模型进行联合训练。在一些实施例中，基于辅助β值和手动正确性标签使用第二修正的损失函数对输入编码器和标签质量预测器模型进行联合训练可以包括基于第二修正的损失函数更新输入编码器和标签质量预测器中的模型。

在操作950处，输入编码器可以将来自带噪数据集的输入标记编码为输入矢量。在操作960处，分类器可以基于输入矢量预测标签。在操作970处，标签质量预测器可以基于输入矢量和预测的标签计算实例特定的β(beta)值。在一些实施例中，在操作970处计算的实例特定的β值可以等同于在操作930处计算的辅助β值。

在操作980处，可以基于β值和熵值使用第一修正的损失函数联合地训练输入编码器和分类器模型。在一些实施例中，熵值可以是被配置为测量和/或创建正被处理的信息中的随机性的熵函数。

作为示例，可以利用辅助数据集510，其中辅助数据集510可以包括带噪数据集310中的标签的正确性的手动注释。在一些实施例中，辅助数据集510可以包括来自带噪数据集310的数据和标签，以及附加的手动正确性标签，其中手动正确性标签指示带噪数据集310中的对应的标签的手动正确性。标签质量预测器410可以与输入编码器315一起，使用来自辅助数据集510的采样的数据被附加地训练。在附加联合训练期间，标签质量预测器410可以基于已编码输入、带噪数据集310中的标签和来自辅助数据集510的手动正确性标签来预测实例特定的β值。第二损失函数，例如二元CE损失函数520可以联合地更新标签质量预测器410和输入编码器315。

噪声鲁棒损失函数420可以基于分类器320预测的标签、带噪数据集310中的标签和由标签质量预测器410预测的实例特定的β值联合地训练输入编码器315和分类器320。作为示例，使用噪声鲁棒损失函数420对输入编码器315和分类器320的联合训练可以包括基于噪声鲁棒损失函数420更新输入编码器315和分类器320内的模型。在一些实施例中，当噪声鲁棒损失函数420联合地更新输入编码器315和分类器320时，可以不更新标签质量预测器。

虽然图6至图9示出了过程600、700、800和900的示例框，但是在实施例中，过程600、700、800和900可以包括比图6至图9中描绘的那些框相比附加的框、更少的框、不同的框、或不同布置的框。在实施例中，过程600、700、800和900的任何框可以按需要以任何数量或顺序组合或布置。在实施例中，可以并行地执行过程600、700、800和900的两个或更多个框。

以上描述的技术可以被实现为使用计算机可读指令的计算机软件，并且被物理地存储在一个或多个计算机可读介质中，或由专门配置的一个或多个硬件处理器来实现。例如，图1示出了适于实现各种实施例的环境100。

计算机软件可以使用任何合适的机器代码或计算机语言进行编码，机器代码或计算机语言可以通过汇编、编译、链接或类似机制来创建包括可以由计算机中央处理单元(CPU)、图形处理单元(GPU)等直接或通过解释、微代码执行等执行的指令的代码。

指令可以在各种类型的计算机或其组件上执行，包括例如个人计算机、平板计算机、服务器、智能电话、游戏设备、物联网设备等。

虽然本公开已经描述了若干示例性实施例，但是存在落入本公开的范围内的改变、置换和各种替代等同物。因此，应当理解，本领域技术人员将能够设计出许多系统和方法，这些系统和方法虽然未在本文中明确示出或描述，但是体现了本公开的原理，并且因此在其精神和范围内。

Claims

1.一种使用具有噪声鲁棒损失的神经网络的联合训练方法，其特征在于，包括：

使用输入编码器，将带噪数据集的输入标记编码为输入矢量；

使用分类器模型，基于所述输入矢量预测标签；

使用标签质量预测器模型，基于所述输入矢量和所述标签计算β值，其中所述β值对于每个训练实例是实例特定的；以及

基于所述β值和熵值，使用第一修正的损失函数对多于一个模型进行联合训练。

2.根据权利要求1所述的联合训练方法，其特征在于，所述对多于一个模型的联合训练包括：使用所述第一修正的损失函数联合地训练所述分类器模型、所述输入编码器和所述标签质量预测器模型。

3.根据权利要求1所述的联合训练方法，其特征在于，

所述输入编码器和所述标签质量预测器模型是使用从辅助数据集采样的训练数据被联合训练，并且

其中，所述辅助数据集包括手动正确性标签，所述手动正确性标签指示所述带噪数据集中的对应的标签的手动正确性。

4.根据权利要求3所述的联合训练方法，其特征在于，对所述输入编码器和所述标签质量预测器模型的联合训练包括：

使用所述输入编码器，将来自所述辅助数据集的输入标记编码为辅助输入矢量；

基于所述辅助输入矢量和所述辅助数据集中的注释标签，计算辅助β值，其中所述辅助β值对于所述每个训练实例是实例特定的；以及

基于所述辅助β值和所述手动正确性标签，使用第二修正的损失函数对所述输入编码器和所述标签质量预测器模型进行联合训练。

5.根据权利要求1所述的联合训练方法，其特征在于，所述对多于一个模型的所述联合训练包括使用所述第一修正的损失函数联合地训练所述分类器模型和所述输入编码器。

6.根据权利要求1所述的联合训练方法，其特征在于，所述β值高于阈值。

7.根据权利要求1所述的联合训练方法，其特征在于，在基于所述输入矢量和所述标签计算所述β值之前，对于有限数量的时期所述β值被设置为1。

8.根据权利要求3所述的联合训练方法，其特征在于，如果所述带噪数据集中的所述对应的标签是准确的，则所述手动正确性标签被设置为1。

9.根据权利要求1所述的联合训练方法，其特征在于，所述β值由β_μ的函数表示下限。

10.一种使用具有噪声鲁棒损失的神经网络进行联合训练的装置，其特征在于，所述装置包括：

至少一个存储器，被配置为存储计算机程序代码；

至少一个处理器，所述处理器被配置为访问所述计算机程序代码并按照所述计算机编程代码的指令进行操作，所述计算机代码包括：

第一编码代码，被配置为使所述至少一个处理器使用输入编码器，将带噪数据集的输入标记编码为输入矢量；

第一预测代码，被配置为使得所述至少一个处理器使用分类器模型，基于所述输入矢量预测标签；

第一计算代码，被配置为使得所述至少一个处理器使用标签质量预测器模型，基于所述输入矢量和所述标签计算β值，其中所述β值对于每个训练实例是实例特定的；以及

第一联合训练代码，被配置为使得所述至少一个处理器基于所述β值和熵值，使用第一修正的损失函数对多于一个模型进行联合训练。

11.根据权利要求10所述的装置，其特征在于，所述第一联合训练码还包括：

第二联合训练代码，被配置为使得所述至少一个处理器使用所述第一修正的损失函数联合地训练所述分类器模型、所述输入编码器和所述标签质量预测器模型。

12.根据权利要求10所述的装置，其特征在于，

13.根据权利要求12所述的装置，其特征在于，对所述输入编码器和所述标签质量预测器模型的联合训练包括：

第二编码代码，被配置为使所述至少一个处理器使用所述输入编码器，将来自所述辅助数据集的输入标记编码为辅助输入矢量；

第二计算代码，被配置为使所述至少一个处理器基于所述辅助输入矢量和所述辅助数据集中的注释标签，计算辅助β值，其中所述辅助β值对于所述每个训练实例是实例特定的；和

第三联合训练代码，被配置为使得所述至少一个处理器基于所述辅助β值和所述手动正确性标签，使用第二修正的损失函数对所述输入编码器和所述标签质量预测器模型进行联合训练。

14.根据权利要求10所述的装置，其特征在于，所述第一联合训练码还包括：

第二联合训练代码，被配置为使得所述至少一个处理器使用所述第一修正的损失函数联合地训练所述分类器模型和所述输入编码器。

15.根据权利要求10所述的装置，其特征在于，在所述第一计算代码之前，对于有限数量的时期所述β值被设置为1。

16.根据权利要求10所述的装置，其特征在于，所述β值高于阈值。

17.一种非暂时性计算机可读介质，存储有用于执行方法的程序，其特征在于，所述方法包括：

使用分类器模型，基于所述输入矢量预测标签；

18.根据权利要求17所述的非暂时性计算机可读介质，其特征在于，所述对多于一个模型的联合训练包括：使用所述第一修正的损失函数联合地训练所述分类器模型、所述输入编码器和所述标签质量预测器模型。

19.根据权利要求17所述的非暂时性计算机可读介质，其特征在于，

所述输入编码器和所述标签质量预测器模型是使用从辅助数据集采样的训练数据联合地训练，并且

20.根据权利要求17所述的非暂时性计算机可读介质，其特征在于，对多于一个模型的联合训练包括：基于所述β值和熵值，使用所述第一修正的损失函数联合地训练所述分类器模型、所述输入编码器。