CN111783981A

CN111783981A - 模型训练方法、装置、电子设备及可读存储介质

Info

Publication number: CN111783981A
Application number: CN202010607374.5A
Authority: CN
Inventors: 王文华; 吕中厚; 王洋
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2020-10-16

Abstract

本申请公开了一种模型训练方法、装置、电子设备及可读存储介质，涉及人工智能技术领域。具体实现方案为：获取第一数据样本集和第二数据样本集；所述第一数据样本集中包括具有标注的多个第一数据样本，所述第二数据样本集中包括不具有标注的多个第二数据样本；对每个所述第二数据样本进行数据增强，得到第三数据样本集；所述第三数据样本集中包括不具有标注的多个第三数据样本；利用所述多个第一数据样本对预先构建的初始模型进行训练，得到预训练模型；利用所述多个第二数据样本和与其对应的多个第三数据样本，对所述预训练模型进行优化处理，得到目标模型。根据本申请中方案，可以提高模型训练效果，达到基于海量有标注数据的模型训练效果。

Description

模型训练方法、装置、电子设备及可读存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及人工智能技术领域。

背景技术

随着深度学习模型复杂度的提高，模型所需训练的参数越来越多，甚至达到百万、千万量级。庞大量级参数的训练需要海量数据。但由于目前模型训练时的训练数据大都为标注数据，而标注数据的过程费时费力且成本高昂，较难以获取训练模型所必须的训练数据，从而造成模型训练效果较差。

发明内容

本公开提供了一种用于模型训练的方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种模型训练方法，包括：

获取第一数据样本集和第二数据样本集；其中，所述第一数据样本集中包括具有标注的多个第一数据样本，所述第二数据样本集中包括不具有标注的多个第二数据样本。

对每个所述第二数据样本进行数据增强，得到第三数据样本集；其中，所述第三数据样本集中包括不具有标注的多个第三数据样本；

利用所述多个第一数据样本对预先构建的初始模型进行训练，得到预训练模型；

利用所述多个第二数据样本和与其对应的多个第三数据样本，对所述预训练模型进行优化处理，得到目标模型。

这样，可以在有少量标注数据样本的情况下，先利用标注数据样本训练得到预训练模型，再结合迁移学习的思想，利用无标注数据样本及其数据增强后的数据样本对预训练模型进行优化处理，从而达到基于海量有标注数据的模型训练效果，从而提高了模型训练效果。

根据本公开的另一方面，提供了一种模型训练装置，包括：

获取模块，用于获取第一数据样本集和第二数据样本集；其中，所述第一数据样本集中包括具有标注的多个第一数据样本，所述第二数据样本集中包括不具有标注的多个第二数据样本。

数据增强模块，用于对每个所述第二数据样本进行数据增强，得到第三数据样本集；其中，所述第三数据样本集中包括不具有标注的多个第三数据样本；

第一训练模块，用于利用所述多个第一数据样本对预先构建的初始模型进行训练，得到预训练模型；

第二训练模块，用于利用所述多个第二数据样本和与其对应的多个第三数据样本，对所述预训练模型进行优化处理，得到目标模型。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如上所述的方法。

根据本申请的技术解决了目前因标注数据样本少而造成的模型训练效果较差的问题，提高了模型训练效果。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请实施例的模型训练方法的流程图；

图2是本申请实施例中模型训练过程的整体架构图；

图3是本申请实施例的模型训练装置的结构示意图；

图4是用来实现本申请实施例的模型训练方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例可以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。说明书以及权利要求中“和/或”表示所连接对象的至少其中之一。

为了解决目前因标注数据样本少而造成的模型训练效果较差的问题，本申请做出了如下改进：一方面，针对无标注数据样本进行数据增强，得到大量无标注数据；另一方面，引入迁移学习的思想，在有少量标注数据样本的情况下，先利用标注数据样本训练得到预训练模型，再利用无标注数据样本及其数据增强后的数据样本对预训练模型进行优化处理，加速模型收敛。这样可以达到基于海量有标注数据的模型训练效果，从而提高了模型训练效果。

下面结合附图对本申请实施例进行详细说明。

请参见图1，图1是本申请实施例提供的一种模型训练方法的流程图，该方法应用于电子设备，如图1所示，该方法包括如下步骤：

步骤101：获取第一数据样本集和第二数据样本集。

本实施例中，第一数据样本集中包括具有标注的多个第一数据样本。第二数据样本集中包括不具有标注的多个第二数据样本。第一数据样本集和第二数据样本集都为模型训练所需的训练数据集。

一种实施方式中，第一数据样本集中数据样本的个数可以小于第二数据样本集中数据样本的个数。

步骤102：对每个第二数据样本进行数据增强，得到第三数据样本集。

本实施例中，第三数据样本集中包括不具有标注的多个第三数据样本。需指出的，在对每个第二数据样本进行数据增强时，可以采用一种或者多种数据增强方式。也就是说，单个第二数据样本可以对应于增强后的一个或者多个第三数据样本。而每个第二数据样本和与其对应的第三数据样本在整体表征的含义上是类似的。

步骤103：利用所述多个第一数据样本对预先构建的初始模型进行训练，得到预训练模型。

需指出的，上述预先构建的初始模型可以是文本分类模型、图像识别模型、或语音识别模型等，本申请实施例不对进行限定，可以基于需求而定。即，本申请实施例可以用于图像、文本、语音等各领域机器学习模型的训练。

可选的，上述预先构建的初始模型的损失函数可以基于实际需求选择，比如可选为交叉熵损失函数或其他类损失函数等。

步骤104：利用所述多个第二数据样本和与其对应的多个第三数据样本，对所述预训练模型进行优化处理，得到目标模型。

可理解的，此步骤104中的对预训练模型进行优化处理，采用了迁移学习的思想，通过利用无标注数据样本不断验证和修正预训练模型，来得到满足预设条件(比如收敛程度小于预设阈值)的目标模型。

本申请实施例的模型训练方法，可以在有少量标注数据样本的情况下，先利用标注数据样本训练得到预训练模型，再结合迁移学习的思想，利用无标注数据样本及其数据增强后的数据样本对预训练模型进行优化处理，从而达到基于海量有标注数据的模型训练效果，从而提高了模型训练效果。

本申请实施例中，模型训练的目标是最小化损失函数。上述目标模型对应的损失函数可为预先构建的初始模型的损失函数和所述预训练模型的损失函数的加权和。可选的，上述目标模型对应的损失函数(也可称为总损失函数)L(总)可包括两部分：分别为上述初始模型的损失函数L₁(loss)和上述预训练模型的损失函数L₂(loss)；这三者的关系为：L(总)＝λ₁L₁(loss)+λ₂L₂(loss)。其中，λ₁和λ₂表示预设值，用于调节L₁(loss)和L₂(loss)在L(总)中的占比。实际应用中，λ₁和λ₂是一个经验值，可以根据不同的任务设定，一般设为1。

可选的，上述预训练模型的损失函数可选为一致性损失函数，用于衡量所述第二数据样本集中的第二数据样本和与其对应的第三数据样本的概率分布差异。该预训练模型的损失函数可以包括：第一级求和函数和第二级求和函数；其中，所述第一级求和函数用于对单个第二数据样本和与其对应的数据增强的每个第三数据样本的概率分布差异进行求和；所述第二级求和函数用于对所述第二数据样本集中每个第二数据样本的通过所述第一级求和函数得到的概率分布差异之和进行求和。

一种实施方式中，如图2中左侧所示，上述初始模型M的损失函数L₁(loss)可选为有监督的交叉熵损失函数，如下所示：

L₁(loss)＝∑_x，y*[-logp_θ(y*|x)]

其中，x表示第一数据样本；y*表示第一数据样本对应的真实标注；y是由模型M预测得到的第一数据样本x的标注；θ表示模型M的参数；p_θ(y*|x)表示在样本x下，预测得到y*的概率。交叉熵损失函数用于衡量预测标注y和真实标注y*之间的差异，差异越大，则对应的损失函数值越高，当前模型的拟合能力越差。

另一种实施方式中，如图2中右侧所示，上述预训练模型(即经过标注数据样本训练后的模型M)的损失函数可选为无监督的一致性损失函数，用于评估原始样本x和数据增强产生的样本

之间的差异性。此无监督指的是计算一致性损失时不需要原始样本x的真实标注，也不需要对增强数据

进行标注。该一致性损失函数可选用KL散度来衡量一致性损失，可如下所示：

其中，

表示所述第二数据样本x不对所述预训练模型中的参数产生影响，θ表示所述预训练模型中的参数；D_KL表示KL散度，用于衡量所述第二数据样本x和与其对应的第三数据样本

的概率分布差异；

表示在x下得到y的概率，

表示在

下得到y的概率；每个所述第二数据样本x对应于数据增强的多个第三数据样本

表示分别计算单个第二数据样本x和与其对应的数据增强的每个第三数据样本

的概率分布差异，并求和；U表示所述第二数据样本集，∑_x∈U表示对每个第二数据样本x对应的概率分布差异(即借助内层求和函数得到的概率分布差异之和)进行求和。

由于L(总)＝λ₁L₁(loss)+λ₂L₂(loss)，因此，L(总)的具体计算公式为：

而本申请实施例中的训练目标为最小化L(总)，即在最小化L(总)的优化过程中，找到最优参数θ。

可理解的，本申请实施例的通用性强，可用于图像、文本、语音等各领域机器学习模型的训练。若上述的第二数据样本为图像样本，上述对每个第二数据样本进行数据增强的过程可以包括：

针对每个图像样本，执行以下过程：

S1：从所述图像样本中选取图像块；其中，此图像块可理解为像素点集合；此图像块的大小可以是随机选取的；比如若图像样本的大小为10*10，则选取图像块的大小可为3*3，或者2*4等；

S2：通过多种图像转换方式对所述图像块进行处理；其中，该图像转换方式包括但不仅限于几何变换(平移、翻转和/或旋转等)、随机调整亮度、随机调整对比度等操作；比如，若对选取的图像块进行K(K＞1)次操作，则可每次操作随机选取上述操作方式中的一种，并随机设定参数值(比如选取调整亮度50％)，对图像块进行处理，以在K次随机操作后，得到新的图像块；

S3：利用处理后的图像块，替换所述图像样本中的所述图像块，得到新的图像样本；

S4：在所述新的图像样本符合预设约束条件的情况下，将所述新的图像样本作为数据增强后的图像样本。

这样，借助对图像样本中图像块的转换以及预设约束条件的限定，可以高效地实现对图像样本的数据增强。

可选的，上述预设约束条件可选为但不限于以下两种：1)结构相似性(StructuralSIMilarity，SSIM)大于预设阈值(比如0.3等)，用于衡量图像质量；SIM取值范围为[0，1]，数值越大，表示图像失真越小，图像质量越高。2)余弦相似度大于预设阈值(比如0.7等)，用于计算两张图像的相似度。把原始图像和处理过的图像都表示成向量(从左到右从上到下排列每个像素点的像素值，例如10*10的图像，包含100个像素点，图像就被表示为100维的向量)，通过计算向量之间的余弦距离来表征两张图片的相似度；余弦相似度取值范围为[0，1]，数值越大，表示两张图像越相似。

可选的，若上述的第二数据样本为文本样本，上述对每个第二数据样本进行数据增强的过程可以包括：

采用反向翻译文本的方式，对每个文本样本进行数据增强；

和/或

通过词频-逆文档频率(Term Frequency–Inverse Document Frequency，TF-IDF)选择每个文本样本中重要性低的目标词，并对所述目标词进行扰动，从而实现对文本样本的数据增强。

其中，上述反向翻译文本的方式属于句子级别数据增强。假设原始文本是A语言，则通过将其从A语言翻译成B语言，再翻译回A语言的方式，可以对原始文本进行同义句式改写。需指出的，在反向翻译文本时，中间翻译语言可以是一种，如上所示的B语言，也可以是多种，比如从A语言到B语言、B语言到C语言、C语言到D语言、D语言再到A语言。反向翻译的好处在于：依赖成熟的、开源的翻译技术所提供的应用程序接口(Application ProgrammingInterface，API)调用，可以完成高质量的同义句式改写，而意思相同但句式不同的文本输入能显著增加模型表现。因此，反向翻译比传统的数据增强方式表现更加稳定，信息量更多。

对于TF-IDF，它是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF值越高，词在文本中的重要性越高，反之越不重要。TF-IDF词替换数据增强可以是字符级别，也可以是词语级别。本实施例中通过来选择文本中重要性较低的词进行扰动，目的是尽量小的改变句意和保证句子可读性。如文本‘你笑起来真好看’中，由TF-IDF算法得到‘你’的重要程度低于‘好看’，则优先选择对‘你’进行扰动，比如扰动为‘妳’，由此可以避免对重要性更高的‘好看’一词进行扰动，从而避免对句义造成较大影响。

下面以文本分类任务为例，本申请进行详细说明。

文本分类的输入是一段文本。常见的文本分类任务有情感分析、文本审核等。这里以情感二分类任务为例，即将输入文本分类为‘正向情感’或‘负向情感’。对应的模型训练过程可包括：

首先，以Bert模型为基准，选择少量带标注的情感分类语料A(如2000条)，再从网络爬取大量的无标注情感分类语料B(如5000条)；其次，基于反向翻译方式，对无标注情感分类语料B进行反向翻译，得到新的5000条无标注情感分类语料C，B和C是一一对应的；然后，利用语料A进行模型训练，得到预训练模型M；最后，基于该预训练模型M不断捕捉和学习B和C的数据差异，并不断验证和修正模型M，得到目标模型，使得在有监督和无监督联合训练的过程中，可以达到使用海量有标注数据进行模型训练的效果。

请参见图3，图3是本申请实施例提供的一种模型训练装置的结构示意图，如图3所示，该模型训练装置30包括：

获取模块31，用于获取第一数据样本集和第二数据样本集；其中，所述第一数据样本集中包括具有标注的多个第一数据样本，所述第二数据样本集中包括不具有标注的多个第二数据样本；

数据增强模块32，用于对每个所述第二数据样本进行数据增强，得到第三数据样本集；其中，所述第三数据样本集中包括不具有标注的多个第三数据样本；

第一训练模块33，用于利用所述多个第一数据样本对预先构建的初始模型进行训练，得到预训练模型；

第二训练模块34，用于利用所述多个第二数据样本和与其对应的多个第三数据样本，对所述预训练模型进行优化处理，得到目标模型。

可选的，所述预训练模型的损失函数用于衡量所述第二数据样本集中的第二数据样本和与其对应的第三数据样本的概率分布差异；所述预训练模型的损失函数包括：第一级求和函数和第二级求和函数；其中，所述第一级求和函数用于对单个第二数据样本和与其对应的数据增强的每个第三数据样本的概率分布差异进行求和；所述第二级求和函数用于对所述第二数据样本集中每个第二数据样本的通过所述第一级求和函数得到的概率分布差异之和进行求和。

一种实施方式中，所述预训练模型的损失函数为：

其中，

的概率分布差异；

表示在x下得到y的概率，

表示在

可选的，所述目标模型对应的损失函数为所述初始模型的损失函数和所述预训练模型的损失函数的加权和。

一种实施方式中，所述目标模型对应的损失函数为：

L(总)＝λ₁L₁(loss)+λ₂L₂(loss)

其中，L₁(loss)表示所述初始模型的损失函数，L₂(loss)表示所述预训练模型的损失函数，λ₁和λ₂表示预设值，用于调节L₁(loss)和L₂(loss)在L(总)中的占比。

可选的，在所述第二数据样本为图像样本的情况下，所述数据增强模块32包括：

选取单元，用于从所述图像样本中选取图像块；

第一处理单元，用于通过多种图像转换方式对所述图像块进行处理；

替换单元，用于利用处理后的图像块，替换所述图像样本中的所述图像块，得到新的图像样本；

第二处理单元，用于在所述新的图像样本符合预设约束条件的情况下，将所述新的图像样本作为数据增强后的图像样本。

可选的，在所述第二数据样本为文本样本的情况下，所述数据增强模块32具体用于：

采用反向翻译文本的方式，对每个文本样本进行数据增强；

和/或

通过TF-IDF选择每个文本样本中重要性低的目标词，并对所述目标词进行扰动。

可理解的，本申请实施例的模型训练装置30，可以实现上述图1所示方法实施例中实现的各个过程，以及达到相同的有益效果，为避免重复，这里不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图4所示，是根据本申请实施例的模型训练的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图4所示，该电子设备包括：一个或多个处理器401、存储器402，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图4中以一个处理器401为例。

存储器402即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的模型训练的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的模型训练方法。

存储器402作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的模型训练方法对应的程序指令/模块(例如，附图3所示的获取模块31、数据增强模块32、第一训练模块33和第二训练模块34)。处理器401通过运行存储在存储器402中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的模型训练的方法。

存储器402可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据模型训练的电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器402可选包括相对于处理器401远程设置的存储器，这些远程存储器可以通过网络连接至模型训练的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

模型训练方法的电子设备还可以包括：输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接，图4中以通过总线连接为例。

输入装置403可接收输入的数字或字符信息，以及产生与模型训练的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置404可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，可以在有少量标注数据样本的情况下，先利用标注数据样本训练得到预训练模型，再结合迁移学习的思想，利用无标注数据样本及其数据增强后的数据样本对预训练模型进行优化处理，从而达到基于海量有标注数据的模型训练效果，从而提高了模型训练效果。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种模型训练方法，包括：

获取第一数据样本集和第二数据样本集；其中，所述第一数据样本集中包括具有标注的多个第一数据样本，所述第二数据样本集中包括不具有标注的多个第二数据样本；

2.根据权利要求1所述的方法，其中，所述预训练模型的损失函数用于衡量所述第二数据样本集中的第二数据样本和与其对应的第三数据样本的概率分布差异；

所述预训练模型的损失函数包括：第一级求和函数和第二级求和函数；其中，所述第一级求和函数用于对单个第二数据样本和与其对应的数据增强的每个第三数据样本的概率分布差异进行求和；所述第二级求和函数用于对所述第二数据样本集中每个第二数据样本的通过所述第一级求和函数得到的概率分布差异之和进行求和。

3.根据权利要求1所述的方法，其中，所述目标模型对应的损失函数为所述初始模型的损失函数和所述预训练模型的损失函数的加权和。

4.根据权利要求1所述的方法，其中，在所述第二数据样本为图像样本的情况下，所述对每个所述第二数据样本进行数据增强，包括：

针对每个图像样本，执行以下过程：

从所述图像样本中选取图像块；

通过多种图像转换方式对所述图像块进行处理；

利用处理后的图像块，替换所述图像样本中的所述图像块，得到新的图像样本；

在所述新的图像样本符合预设约束条件的情况下，将所述新的图像样本作为数据增强后的图像样本。

5.根据权利要求1所述的方法，其中，在所述第二数据样本为文本样本的情况下，所述对每个所述第二数据样本进行数据增强，包括：

采用反向翻译文本的方式，对每个文本样本进行数据增强；

和/或

通过词频-逆文档频率TF-IDF选择每个文本样本中重要性低的目标词，并对所述目标词进行扰动。

6.一种模型训练装置，包括：

获取模块，用于获取第一数据样本集和第二数据样本集；其中，所述第一数据样本集中包括具有标注的多个第一数据样本，所述第二数据样本集中包括不具有标注的多个第二数据样本；

7.根据权利要求6所述的装置，其中，所述预训练模型的损失函数用于衡量所述第二数据样本集中的第二数据样本和与其对应的第三数据样本的概率分布差异；

8.根据权利要求6所述的装置，其中，所述目标模型对应的损失函数为所述初始模型的损失函数和所述预训练模型的损失函数的加权和。

9.根据权利要求6所述的装置，其中，在所述第二数据样本为图像样本的情况下，所述数据增强模块包括：

选取单元，用于从所述图像样本中选取图像块；

10.根据权利要求6所述的装置，其中，在所述第二数据样本为文本样本的情况下，所述数据增强模块具体用于：

采用反向翻译文本的方式，对每个文本样本进行数据增强；

和/或

11.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。