CN113656669B

CN113656669B - 标签更新方法及装置

Info

Publication number: CN113656669B
Application number: CN202111212517.3A
Authority: CN
Inventors: 郭翊麟; 蔡准; 孙悦; 郭晓鹏
Original assignee: Beijing Trusfort Technology Co ltd
Current assignee: Beijing Trusfort Technology Co ltd
Priority date: 2021-10-19
Filing date: 2021-10-19
Publication date: 2023-12-05
Anticipated expiration: 2041-10-19
Also published as: CN113656669A

Abstract

公开了一种标签更新方法及装置。该方法包括：获取数据集，所述数据集包括多个样本特征和每个样本特征对应的标签；将所述数据集作为机器学习模型的输入，按照预设轮数进行训练；将每轮训练的预测输出确定为软标签；对每轮训练得到的软标签求权重平均值得到更新标签；利用所述更新标签替换所述数据集中的标签；判断所述标签的更新次数是否小于预设阈值；若所述标签的更新次数小于预设阈值，则将更新标签后的数据集作为所述机器学习模型的输入。

Description

标签更新方法及装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种标签更新方法及装置。

背景技术

目前，随着计算机视觉、自然语言处理、语音识别等技术的飞快发展，人工智能已经深入到现代社会的方方面面。现在工业上最常用的人工智能系统，往往是通过有监督学习进行训练。而监督学习需要依赖大量的有标签数据，这些标签数据需要耗费大量的人力和物力。而人工打标签的准确性也随着标注任务的复杂度提高而降低，导致在现实中存在大量标签错误的状况，针对这个问题，往往需要数据分析师消耗大量的时间去清洗数据，从标注错误的数据中找出标注正确的数据，然后利用这些高质量数据进行有监督学习训练，这种做法同样带来的成本也陡然增加。

为了降低成本，现在常用的方法有合作学习（Co-Teaching）和伪标签法两种方法。具体的，Co-Teaching是同时训练两个深度神经网络，并让他们在每个batch数据中相互学习，步骤如下：a) 将两个不同batch的样本A和B分别输入到神经网络net0和net1；b) 计算样本A在神经网络net0下的损失，并从样本A中找出损失最小的部分样本A’；计算样本B在神经网络net1下的损失，并从样本B中找出损失最小的部分样本B’；c) 在下一次迭代中，将样本A’输入到神经网络net1中，将样本B’输入到神经网络net0中；d) 然后重复上述训练直至两个网络收敛。伪标签法是先从数据中找出干净数据，然后利用干净数据训练模型，利用该模型去预测噪声标签数据，然后将置信度高于某个阈值的噪声标签数据作为新生成的标签数据用于模型再次训练。

但是，两种方法都存在缺陷：Co-Teaching方法需要设置阈值去筛选出损失最小的样本，阈值的设置很依赖工程经验，所以当阈值控制不好，还是会从噪声标签数据中学习到噪声信息，导致模型发生过拟合。伪标签法首先需要清洗数据，这项工作需要花费很大的人力和物力，同样，在对噪声标签数据预测时，需要设置阈值去筛选出置信度高的数据作为新数据用于模型的再次训练。

发明内容

为解决上述问题，本发明提供一种标签更新方法及装置，可以有效减小标签错误的影响，减少模型的过拟合现象，减少因数据清洗带来的成本。

为了实现上述目的，在第一方面，本发明实施例提供了一种标签更新方法，该方法包括：

获取数据集，所述数据集包括多个样本特征和每个样本特征对应的标签；

将所述数据集作为机器学习模型的输入，按照预设轮数进行训练；

将每轮训练的预测输出确定为软标签；

对每轮训练得到的软标签求权重平均值得到更新标签；

利用所述更新标签替换所述数据集中的标签；

判断所述标签的更新次数是否小于预设阈值；

若所述标签的更新次数小于预设阈值，则将更新标签后的数据集作为所述机器学习模型的输入。

优选的，所述标签为噪声标签。

优选的，所述数据集为由干净标签数据集和错误标签数据集组成的噪声标签数据集。

优选的，所述机器学习模型具体为树模型、XGBoost模型或深度学习模型。

在第二方面，本发明实施例提供了一种标签更新装置，该装置包括：

获取单元，用于获取数据集，所述数据集包括多个样本特征和每个样本特征对应的标签；

学习单元，用于将所述数据集作为机器学习模型的输入，按照预设轮数进行训练；

确定单元，用于将每轮训练的预测输出确定为软标签；

计算单元，用于对每轮训练得到的软标签求权重平均值得到更新标签；

更新单元，用于利用所述更新标签替换所述数据集中的标签；

判断单元，用于判断所述标签的更新次数是否小于预设阈值，若所述标签的更新次数小于预设阈值，则将更新标签后的数据集作为所述机器学习模型的输入。

优选的，所述标签为噪声标签。

在第三方面，本发明实施例提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述第一方面所述的标签更新方法。

在第四方面，本发明实施例提供了一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述第一方面所述的标签更新方法。

利用本发明提供的标签更新方法及装置，在机器训练模型的迭代训练过程中，机器学习模型输入的是带有标签的数据集，所以与伪标签法中仅仅使用“干净数据集”训练模型相比，减少了清洗数据带来的人力和物力消耗问题；另外，在训练过程中，软标签是通过不同模型预测得到的，使得整个训练过程朝向最优的方向进行，避免了Co-Teaching方法中涉及到的“找出损失最小的样本”和伪标签法中“找出置信度最高的数据”的阈值设置问题。并且通过不断地更新样本的标签以及重新训练模型来减轻标签的影响，从而提升提升机器学习模型的鲁棒性。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为本申请示例性实施例提供的一种标签更新方法的流程示意图；

图2为本申请示例性实施例提供的一种标签更新装置的结构图；

图3为本申请示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

图1为本申请实施例示出的一种标签更新方法的流程示意图。该标签更新方法可应用于电子设备。如图1所示，本实施例提供的标签更新方法，包括：

步骤101，获取数据集。

其中，该数据集包括多个样本特征和每个样本特征对应的标签。

在一个例子中，样本特征对应的标签具体为噪声标签。

在一个例子中，该数据集为由干净标签数据集和错误标签数据集组成的噪声标签数据集。

步骤102，将数据集作为机器学习模型的输入，按照预设轮数进行训练。

在一个例子中，该机器学习模型具体为树模型、XGBoost模型或深度学习模型。

步骤103，将每轮训练的预测输出确定为软标签。

步骤104，对每轮训练得到的软标签求权重平均值得到更新标签。

步骤105，利用更新标签替换数据集中的标签。

步骤106，判断标签的更新次数是否小于预设阈值。

若标签的更新次数小于预设阈值，则执行步骤107。若标签的更新次数不小于预设阈值，则结束本流程。

步骤107，将更新标签后的数据集确作为机器学习模型的输入。

具体的，若标签的更新次数小于预设阈值，将更新标签后的数据集确作为机器学习模型的输入重复执行步骤102-106，直到标签的更新次数不小于预设阈值。

下面通过一个具体的例子，对本发明实施例提供的标签更新方法进行进一步说明。

步骤一，假设由干净标签数据集和错误标签数据集组成的噪声标签数据集为，这里表示样本特征，表示噪声标签，表示样本数；个样本遍历一次为一轮，称为1个epoch，这里假设epoch个数为；假设个epoch为机器学习模型迭代一次，迭代次数为；噪声标签数据的软标签(soft label)为，在机器学习模型的迭代训练过程中得到；初始化后的机器学习模型为。

步骤二，使用噪声标签数据集作为机器学习模型的输入进行训练，在每个epoch 训练完，记录下软标签。

步骤三、在经过个epoch之后，即一轮模型训练后，对上述得到的软标签求权重平均得到更新标签，利用更新标签对噪声标签数据集中的标签进行更新，更新后的噪声标签数据集为。

步骤四，将噪声标签数据集替换为，重复步骤二和步骤三，直至达到最大迭代次数。

通过利用本发明实施例提供的标签更新方法，在机器训练模型的迭代训练过程中，机器学习模型输入的是带有标签的数据集，所以与伪标签法中仅仅使用“干净数据集”训练模型相比，减少了清洗数据带来的人力和物力消耗问题；另外，在训练过程中，软标签是通过不同模型预测得到的，使得整个训练过程朝向最优的方向进行，避免了Co-Teaching方法中涉及到的“找出损失最小的样本”和伪标签法中“找出置信度最高的数据”的阈值设置问题。并且通过不断地更新样本的标签以及重新训练模型来减轻标签的影响，从而提升提升机器学习模型的鲁棒性。

本发明实施例提供一种标签更新装置，图2为该标签更新装置的结构图。该装置可以包括：

获取单元201，用于获取数据集，所述数据集包括多个样本特征和每个样本特征对应的标签；

学习单元202，用于将所述数据集作为机器学习模型的输入，按照预设轮数进行训练；

确定单元203，用于将每轮训练的预测输出确定为软标签；

计算单元204，用于对每轮训练得到的软标签求权重平均值得到更新标签；

更新单元205，用于利用所述更新标签替换所述数据集中的标签；

判断单元206，用于判断所述标签的更新次数是否小于预设阈值，若所述标签的更新次数小于预设阈值，则将更新标签后的数据集作为所述机器学习模型的输入。

优选的，所述标签为噪声标签。

利用本发明提供的标签更新装置，在机器训练模型的迭代训练过程中，机器学习模型输入的是带有标签的数据集，所以与伪标签法中仅仅使用“干净数据集”训练模型相比，减少了清洗数据带来的人力和物力消耗问题；另外，在训练过程中，软标签是通过不同模型预测得到的，使得整个训练过程朝向最优的方向进行，避免了Co-Teaching方法中涉及到的“找出损失最小的样本”和伪标签法中“找出置信度最高的数据”的阈值设置问题。并且通过不断地更新样本的标签以及重新训练模型来减轻标签的影响，从而提升提升机器学习模型的鲁棒性。

下面，参考图3来描述根据本申请实施例的电子设备11。

如图3所示，电子设备11包括一个或多个处理器111和存储器112。

处理器111可以是中央处理单元（CPU）或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备11中的其他组件以执行期望的功能。

存储器112可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器（RAM）和/或高速缓冲存储器（cache）等。所述非易失性存储器例如可以包括只读存储器（ROM）、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器111可以运行所述程序指令，以实现上文所述的本申请的各个实施例的标签更新方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备11还可以包括：输入装置113和输出装置114，这些组件通过总线系统和/或其他形式的连接机构（未示出）互连。

该输入设备113可以包括例如键盘、鼠标等等。

该输出装置114可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备114可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图3中仅示出了该电子设备11中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备11还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质。

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的标签更新方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的标签更新方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种标签更新方法，其特征在于，所述方法包括：

将每轮训练的预测输出确定为软标签；

对至少一轮训练得到的全部软标签求权重平均值得到更新标签；

利用所述更新标签替换所述数据集中的标签；

判断所述标签的更新次数是否小于预设阈值；

若所述标签的更新次数小于预设阈值，则将更新标签后的数据集作为所述机器学习模型的输入；

其中，所述标签为噪声标签；所述数据集为由干净标签数据集和错误标签数据集组成的噪声标签数据集。

2.根据权利要求1所述的方法，其特征在于，所述机器学习模型具体为树模型、XGBoost模型或深度学习模型。

3.一种标签更新装置，其特征在于，所述装置包括：

确定单元，用于将每轮训练的预测输出确定为软标签；

计算单元，用于对至少一轮训练得到的全部软标签求权重平均值得到更新标签；

判断单元，用于判断所述标签的更新次数是否小于预设阈值，若所述标签的更新次数小于预设阈值，则将更新标签后的数据集作为所述机器学习模型的输入；

4.根据权利要求3所述的装置，其特征在于，所述机器学习模型具体为树模型、XGBoost模型或深度学习模型。

5.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-2任一项所述的标签更新方法。

6.一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-2任一项所述的标签更新方法。