CN115204381A

CN115204381A - 弱监督模型训练方法及装置、电子设备

Info

Publication number: CN115204381A
Application number: CN202110328690.3A
Authority: CN
Inventors: 王思睿; 章学妙; 周昆; 张富峥; 武威
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2022-10-18

Abstract

本申请公开了一种弱监督模型训练方法，属于计算机技术领域，有助于提升模型训练效率。本申请公开的弱监督模型训练方法应用于包括干净样本和噪声样本的训练场景中，通过首先基于预设训练样本集训练样本分类模型，然后在基于该训练样本集跌代优化预设弱监督模型时，对于每次迭代优化，根据当前迭代优化过程中各所述训练样本的预测损失值进行校正后得到的校正损失值，计算预设弱监督模型的损失值，进行损失值回传；其中，校正损失值是首先通过前述样本分类模型确定的各训练样本作为干净样本的概率，然后根据训练样本的预测损失值和作为干净样本的概率计算得到的。通过执行此训练方法，弱化了噪声样本对训练过程的影响，提升了模型训练效率。

Description

弱监督模型训练方法及装置、电子设备

技术领域

本申请实施例涉及计算机技术领域，特别是涉及一种弱监督模型训练方法及装置、电子设备及计算机可读存储介质。

背景技术

机器阅读理解，又称阅读理解问答，要求机器阅读并理解人类自然语言文本，在此基础上，解答跟文本信息相关的问题。机器阅读理解，在文本问答、信息抽取、对话系统等领域具有极强的应用价值。由于弱监督数据集更容易获得，因此，弱监督阅读理解模型是机器阅读理解领域的一个重要研究方向。现有技术中，通常采用多阶段模型基于弱监督数据集训练弱监督阅读理解模型，通过在主模型之前引入选择模块或者过滤模块，在训练样本输入到主模型之前，通过选择模块或过虑模块的神经网络计算该训练样本属于干净样本的置信度，从而将低置信度样本过滤掉或者设置相对较低的训练权重，已达到减少噪声样本的影响。

由以上分析可见，现有技术中弱监督模型训练方法，弱监督阅读模型的表现性能严重依赖于选择模块或过滤模块的表现性能，而在多阶段联调训练过程中，选择模块的质量不可控，进而导致整个弱监督阅读模型难以收敛。

发明内容

本申请实施例提供一种弱监督模型训练方法，有助于提升弱监督模型的训练效率。

第一方面，本申请实施例提供了一种弱监督模型训练方法，包括：

基于预设训练样本集中的各训练样本，训练样本分类模型；其中，所述训练样本包括干净样本和噪声样本；

基于所述预设训练样本集中的训练样本迭代优化预设弱监督模型，直至所述预设弱监督模型的损失值满足迭代优化终止条件；

其中，对于每次迭代优化，所述预设弱监督模型的损失值是根据当前迭代优化过程中各所述训练样本的预测损失值进行校正后得到的校正损失值计算的；对各所述训练样本的预测损失值进行校正得到校正损失值的方法，包括：

通过训练得到的所述样本分类模型确定各所述训练样本作为干净样本的概率；

根据所述训练样本的所述预测损失值和作为干净样本的所述概率，计算所述训练样本的校正损失值。

第二方面，本申请实施例提供了一种弱监督模型训练装置，包括，

样本分类模型训练模块，用于基于预设训练样本集中的各训练样本，训练样本分类模型；其中，所述训练样本包括干净样本和噪声样本；

弱监督模型训练模块，用于基于所述预设训练样本集中的训练样本迭代优化预设弱监督模型，直至所述预设弱监督模型的损失值满足迭代优化终止条件；

第三方面，本申请实施例还公开了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请实施例所述的弱监督模型训练方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时本申请实施例公开的弱监督模型训练方法的步骤。

本申请实施例公开的弱监督模型训练方法，通过基于预设训练样本集中的各训练样本，训练样本分类模型；其中，所述训练样本包括干净样本和噪声样本；基于所述预设训练样本集中的训练样本迭代优化预设弱监督模型，直至所述预设弱监督模型的损失值满足迭代优化终止条件；其中，对于每次迭代优化，所述预设弱监督模型的损失值是根据当前迭代优化过程中各所述训练样本的预测损失值进行校正后得到的校正损失值计算的；对各所述训练样本的预测损失值进行校正得到校正损失值的方法，包括：通过训练得到的所述样本分类模型确定各所述训练样本作为干净样本的概率；根据所述训练样本的所述预测损失值和作为干净样本的所述概率，计算所述训练样本的校正损失值，有助于提升弱监督模型的训练效率。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1是本申请实施例一的弱监督模型训练方法流程图；

图2是现有技术中弱监督模型训练过程中损失值回传示意图；

图3是本申请实施例一中的弱监督模型训练过程中损失值回传示意图；

图4是本申请实施例二的弱监督模型训练装置结构示意图；

图5示意性地示出了用于执行根据本申请的方法的电子设备的框图；以及

图6示意性地示出了用于保持或者携带实现根据本申请的方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例一

本申请实施例公开的一种弱监督模型训练方法，如图1所示，所述方法包括：步骤110和步骤120。

步骤110，基于预设训练样本集中的各训练样本，训练样本分类模型。

其中，所述训练样本包括干净样本和噪声样本。

本申请实施例中所述的弱监督模型训练方法适用于训练样本中既包括干净样本，又包括噪声样本的场景。每条所述训练样本包括：样本数据和样本标签。例如，所述样本数据为问题文本，所述样本标签为与问题对应的篇章内容。所述干净样本指问题和篇章内容完全匹配的训练样本，噪声样本指问题和篇章内容匹配度较低的训练样本。

为了减少噪声样本对训练过程以及训练得到的弱监督模型识别性能的影响，本申请实施例中，通过在训练过程中减小噪声样本对训练过程产生的作用，增加干净样本对训练过程产生的作用的方式，提升训练得到的弱监督模型的识别性能，以及提升模型的收敛速度。

因此，本申请实施例中，首先训练样本分类模型，以识别用于训练弱监督模型的训练样本为干净样本或噪声样本。

本申请的一些实施例中，基于预设训练样本集中的各训练样本，训练样本分类模型，包括：执行预设弱监督模型的程序代码，对预设训练样本集中的各训练样本进行预测，确定各所述训练样本的预测损失值；通过对所述各所述训练样本的预测损失值分布进行学习，训练样本分类模型。

本申请的一些实施例中，所述预设弱监督模型可以采用经典的弱监督模型。以训练机器阅读理解模型的场景为例，所述预设弱监督模型可以为成熟的机器阅读理解模型，如BiDAF(Bi-Directional Attention Flow,BiDAF双向注意力流)模型，BERT(Bidirectional Encoder Representation from Transformers)结合softmax激活函数的自然语言处理模型。

本申请的一些实施例中，所述执行预设弱监督模型的程序代码，对预设训练样本集中的各训练样本进行预测，确定各所述训练样本的预测损失值，包括：通过预设弱监督模型的程序代码，对预设训练样本集中的各训练样本进行预测，得到各所述训练样本的预测结果；根据各所述训练样本的预测结果和相应训练样本的样本标签的差值，确定各所述训练样本的预测损失值。通过执行现有技术中成熟的机器阅读理解模型，对所述预设训练样本集中的各训练样本进行预测，得到每个所述训练样本的预测结果。之后，对于每个所述训练样本，根据所述训练样本的所述预测结果和所述训练样本的样本标签之间的差值，确定所述训练样本的预测损失值。

申请人发现，在模型训练过程中，噪声数据的一个本质特性是，相较于规律的干净样本，模型更难以拟合杂乱的噪声样本，从而会导致更大的损失值。因此，通过对训练样本的损失值进行学习，可以学习到区分干净样本和噪声样本的特征。及通过对所述各所述训练样本的预测损失值分布进行学习，训练样本分类模型，得到的样本分类模型可以用于区分干净样本和噪声样本。

本申请的一些实施例中，所述通过对所述各所述训练样本的预测损失值分布进行学习，训练样本分类模型，包括：通过高斯混合模型拟合各所述训练样本的预测损失值分布，训练所述高斯混合模型，作为样本分类模型。

高斯混合模型就是用高斯概率密度函数精确的量化事物，将一个事物分解为若干基于高斯概率密度函数行程的模型。在样本数据点足够大时，高斯概率密度函数可以表征任何一种事物的规律。二维高斯概率密度函数也称为：正态分布曲线。通过用二维高斯概率密度函数拟合上述训练样本集中训练样本的预测损失值的分布的过程，也是训练高斯混合模型的过程。通过采用高斯混合模型对上述训练样本集中的预测损失值的分布进行学习，得到的高斯混合模型可以用于区分干净样本和噪声样本。

步骤120，基于所述预设训练样本集中的训练样本迭代优化预设弱监督模型，直至所述预设弱监督模型的损失值满足迭代优化终止条件。

其中，对于每次迭代优化，所述预设弱监督模型的损失值是根据当前迭代优化过程中各所述训练样本的预测损失值进行校正后得到的校正损失值计算的；对各所述训练样本的预测损失值进行校正得到校正损失值的方法，包括：通过训练得到的所述样本分类模型确定各所述训练样本作为干净样本的概率；根据所述训练样本的所述预测损失值和作为干净样本的所述概率，计算所述训练样本的校正损失值。

本申请实施例中所述的迭代优化终止条件包括：模型的损失值收敛到预设值、模型的损失值达到最小值(如多次迭代优化后损失值不再减小)等。

在神经网络模型训练过程中，为了提升训练速度，对于海量训练样本的情况，通常采用mini-batch的训练方式。即将海量训练样本划分为若干训练样本子集，每个训练样本自己称为一个batch，对于每个训练样本子集，分别执行损失值回传和梯度下降，那么，对海量训练样本执行一遍训练过程将可以执行多次梯度下降，从而加速模型的收敛速度。

本申请的实施例中，在基于前述有噪声样本的训练样本训练所述弱监督模型的过程中，为了提升模型的收敛速度，可以将前述预设训练样本集中的训练样本划分为多个训练样本子集，每个训练样本子集中包括所述预设训练样本集中的部分训练样本，然后，基于每个训练样本子集(即所述预设训练样本集中的部分训练样本)分别执行所述预设弱监督模型的迭代优化训练。

在基于训练样本训练神经网络模型时，通常会执行多次迭代优化。现有技术中的迭代优化过程如图2所示。在每次迭代优化过程中，神经网络模型对输入至模型的训练样本(如输入至模型的问题-篇章内容对)进行特征编码和映射，最终得到对模型输入数据的预测结果；然后，基于每个训练样本的样本标签与对应预测结果的差值，计算相应训练样本的预测损失值，并根据输入至模型的所有训练样本的预测损失值，计算模型的损失值；之后，将计算得到的损失值回传，采用梯度下降法优化模型参数，以减小模型的损失值，对模型进行迭代优化，直至模型损失值最小或者损失值收敛。

本申请实施例中，在基于每个训练样本子集(即所述预设训练样本集中的部分训练样本)执行所述预设弱监督模型的迭代优化训练过程中如图3所示。对于当前训练样本子集中的训练样本，所述预设弱监督模型通过对输入至模型的训练样本(如输入至模型的问题-篇章内容对)进行特征编码和映射，最终得到对模型输入数据的预测结果；然后，基于每个训练样本的样本标签与对应预测结果的差值，计算相应训练样本的预测损失值；接下来，在进行损失值回传时，首先对本次迭代优化过程中每个训练样本的预测损失值进行校正，并根据各个训练样本校正后得到的预测损失值计算本次迭代优化的模型损失值；之后，采用梯度下降法优化模型参数，以减小模型的损失值，对模型进行迭代优化，直至模型损失值最小或者损失值收敛。

本申请实施例公开的弱监督模型训练方法，通过增加了预测损失值校正的步骤，可以解决噪声样本导致的模型不易收敛的问题。而这个预测损失值校正的步骤与样本分类器的训练步骤紧密关联，只有基于训练样本的预测损失值得分布数据训练得到的样本分类模型，给出的样本识别结果才能应用于样本预测损失值的校正，并非采用任何方法进行预测损失值校正都可以实现提升模型训练效率的效果。

本申请的一些实施例中，在对训练样本的损失值进行校正之前，首先需要根据前述步骤中训练得到的样本分类模型确定各训练样本作为干净样本的概率，即确定各训练样本为干净样本还是噪声样本；然后，根据各训练样本作为干净样本的概率，对各训练样本设置与所述概率匹配的预测损失值计算权重，根据所述预测损失值计算权重对预测损失值进行校正，得到各训练样本的校正损失值。

本申请的一些实施例中，根据所述训练样本的所述预测损失值和作为干净样本的所述概率，计算所述训练样本的校正损失值，包括：对于作为干净样本的所述概率指示为干净样本的所述训练样本，通过扩大所述训练样本的预测损失值得到校正损失值；以及，对于作为干净样本的所述概率指示为噪声样本的所述训练样本，通过缩小所述训练样本的预测损失值得到校正损失值。例如，对于第i个训练样本Si,经过样本分类模型确定训练样本Si作为干净样本的概率为Pi，在当前轮迭代优化过程中，训练样本Si的预测损失值以Li表示，则训练样本Si的校正损失值Li_correct可以通过公式Li_correct＝f(Pi)*Li计算，其中，f(Pi)为概率Pi的正相关函数。即训练样本Si作为干净样本的概率越大，则训练样本Si的校正损失值对模型的损失值影响越大，从而强化干净样本在弱监督模型训练过程中的作用，弱化噪声样本在弱监督模型训练过程中的影响，以提升训练得到的模型的表现性能，同时，能够加速模型收敛速度。

本申请实施例公开的弱监督模型训练方法，通过首先通过现有技术中预先训练的通用机器阅读理解模型对包含噪声数据的训练样本集合中的训练样本进行预测，得到各训练样本的预测损失值，然后，基于所有训练样本的所述预测损失值训练样本分类模型，用于区分干净样本和噪声样本。在后续对所述机器阅读理解模型基于所述训练样本集合进行优化训练的过程中，通过前述样本分类模型确定每个训练样本为干净样本或噪声样本，并在计算模型损失值时，通过为干净样本和噪声样本设置不同的损失值计算权重的方式，弱化噪声样本对模型训练过程的影响，从而加速模型的收敛速度，达到了缩短训练时间，节省执行模型训练代码的计算处理设备的计算资源，提升模型训练效率的目的。

并且，由于在模型训练过程中，通过扩大根据所述概率确定为干净样本的训练样本的预测损失值，强化了对干净样本的预测结果对模型损失值的影响，即增强了干净样本在训练模型过程中所起的作用，使得训练得到的模型的识别准确性得到了提升。

实施例二

本申请实施例公开的一种弱监督模型训练装置，如图4所示，所述装置包括：

样本分类模型训练模块410，用于基于预设训练样本集中的各训练样本，训练样本分类模型；其中，所述训练样本包括干净样本和噪声样本；

弱监督模型训练模块420，用于基于所述预设训练样本集中的训练样本迭代优化预设弱监督模型，直至所述预设弱监督模型的损失值满足迭代优化终止条件；

本申请的一些实施例中，所述根据所述训练样本的所述预测损失值和作为干净样本的所述概率，计算所述训练样本的校正损失值，包括：

对于作为干净样本的所述概率指示为干净样本的所述训练样本，通过扩大所述训练样本的预测损失值得到校正损失值；以及，对于作为干净样本的所述概率指示为噪声样本的所述训练样本，通过缩小所述训练样本的预测损失值得到校正损失值。

本申请的一些实施例中，所述样本分类模型训练模块410，进一步用于：

执行预设弱监督模型的程序代码，对预设训练样本集中的各训练样本进行预测，确定各所述训练样本的预测损失值；

通过对所述各所述训练样本的预测损失值分布进行学习，训练样本分类模型。

本申请的一些实施例中，所述执行预设弱监督模型的程序代码，对预设训练样本集中的各训练样本进行预测，确定各所述训练样本的预测损失值，包括：通过预设弱监督模型的程序代码，对预设训练样本集中的各训练样本进行预测，得到各所述训练样本的预测结果；根据各所述训练样本的预测结果和相应训练样本的样本标签的差值，确定各所述训练样本的预测损失值。

本申请的一些实施例中，所述通过对所述各所述训练样本的预测损失值分布进行学习，训练样本分类模型，包括：

通过高斯混合模型拟合各所述训练样本的预测损失值分布，训练所述高斯混合模型，作为样本分类模型。

本申请的一些实施例中，所述弱监督模型包括：机器阅读理解模型。

本申请实施例公开的弱监督模型训练装置，用于实现本申请实施例一中所述的弱监督模型训练方法，装置的各模块的具体实施方式不再赘述，可参见方法实施例相应步骤的具体实施方式。

本申请实施例公开的弱监督模型训练装置，通过基于预设训练样本集中的各训练样本，训练样本分类模型；其中，所述训练样本包括干净样本和噪声样本；基于所述预设训练样本集中的训练样本迭代优化预设弱监督模型，直至所述预设弱监督模型的损失值满足迭代优化终止条件；其中，对于每次迭代优化，所述预设弱监督模型的损失值是根据当前迭代优化过程中各所述训练样本的预测损失值进行校正后得到的校正损失值计算的；对各所述训练样本的预测损失值进行校正得到校正损失值的方法，包括：通过训练得到的所述样本分类模型确定各所述训练样本作为干净样本的概率；根据所述训练样本的所述预测损失值和作为干净样本的所述概率，计算所述训练样本的校正损失值，有助于提升弱监督模型的训练效率。

本申请实施例公开的弱监督模型训练装置，通过首先通过现有技术中预先训练的通用机器阅读理解模型对包含噪声数据的训练样本集合中的训练样本进行预测，得到各训练样本的预测损失值，然后，基于所有训练样本的所述预测损失值训练样本分类模型，用于区分干净样本和噪声样本。在后续对所述机器阅读理解模型基于所述训练样本集合进行优化训练的过程中，通过前述样本分类模型确定每个训练样本为干净样本或噪声样本，并在计算模型损失值时，通过为干净样本和噪声样本设置不同的损失值计算权重的方式，弱化噪声样本对模型训练过程的影响，从而加速模型的收敛速度，达到了缩短训练时间，节省执行模型训练代码的计算处理设备的计算资源，提升模型训练效率的目的。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本申请提供的一种弱监督模型训练方法及装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其一种核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的电子设备中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图5示出了可以实现根据本申请的方法的电子设备。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。该电子设备传统上包括处理器510和存储器520及存储在所述存储器520上并可在处理器510上运行的程序代码530，所述处理器510执行所述程序代码530时实现上述实施例中所述的方法。所述存储器520可以为计算机程序产品或者计算机可读介质。存储器520可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器520具有用于执行上述方法中的任何方法步骤的计算机程序的程序代码530的存储空间5201。例如，用于程序代码530的存储空间5201可以包括分别用于实现上面的方法中的各种步骤的各个计算机程序。所述程序代码530为计算机可读代码。这些计算机程序可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。所述计算机程序包括计算机可读代码，当所述计算机可读代码在电子设备上运行时，导致所述电子设备执行根据上述实施例的方法。

本申请实施例还公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请实施例一所述的弱监督模型训练方法的步骤。

这样的计算机程序产品可以为计算机可读存储介质，该计算机可读存储介质可以具有与图5所示的电子设备中的存储器520类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩存储在所述计算机可读存储介质中。所述计算机可读存储介质通常为如参考图6所述的便携式或者固定存储单元。通常，存储单元包括计算机可读代码530’，所述计算机可读代码530’为由处理器读取的代码，这些代码被处理器执行时，实现上面所描述的方法中的各个步骤。

本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着，结合实施例描述的特定特征、结构或者特性包括在本申请的至少一个实施例中。此外，请注意，这里“在一个实施例中”的词语例子不一定全指同一个实施例。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种弱监督模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述训练样本的所述预测损失值和作为干净样本的所述概率，计算所述训练样本的校正损失值的步骤，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述基于预设训练样本集中的各训练样本，训练样本分类模型的步骤，包括：

4.根据权利要求3所述的方法，其特征在于，所述通过对所述各所述训练样本的预测损失值分布进行学习，训练样本分类模型的步骤，包括：

5.根据权利要求1或2所述的方法，其特征在于，所述弱监督模型包括：机器阅读理解模型。

6.一种弱监督模型训练装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述根据所述训练样本的所述预测损失值和作为干净样本的所述概率，计算所述训练样本的校正损失值的步骤，包括：

8.根据权利要求6或7所述的装置，其特征在于，所述样本分类模型训练模块，进一步用于：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的程序代码，其特征在于，所述处理器执行所述程序代码时实现权利要求1至5任意一项所述的弱监督模型训练方法。

10.一种计算机可读存储介质，其上存储有程序代码，其特征在于，该程序代码被处理器执行时实现权利要求1至5任意一项所述的弱监督模型训练方法的步骤。