CN115294349A

CN115294349A - 训练模型的方法、装置、电子设备及存储介质

Info

Publication number: CN115294349A
Application number: CN202210751884.9A
Authority: CN
Inventors: 谢群义; 钦夏孟; 李煜林; 姚锟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2022-11-04
Anticipated expiration: 2042-06-29
Also published as: CN115294349B

Abstract

本公开提供了训练模型的方法、装置、电子设备及存储介质，涉及人工智能技术领域，尤其涉及深度学习、图像处理、计算机视觉技术领域，可应用于光学字符识别等场景。具体实现方案为：对原始图像进行掩码处理，得到掩码图像；基于预设模型对掩码图像进行编码处理，得到编码序列；基于编码序列进行图像重建，得到重建图像；基于重建图像及原始图像对预设模型的模型参数进行调整，得到目标模型。

Description

训练模型的方法、装置、电子设备及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及深度学习、图像处理、计算机视觉技术领域，可应用于光学字符识别等场景，具体涉及训练模型的方法、装置、电子设备及存储介质。

背景技术

深度学习是一种模式分析方法，其主要是学习样本数据的内在规律和表示层次。自深度学习诞生以来，在训练各种场景的模型时，通常在大数据集上进行模型预训练，然后在对应的场景任务数据集上进行微调，从而得到能够应用到对应场景的模型。

通常，在类似ImageNet等较大规模的有监督数据集上进行训练，得到预训练模型。预训练数据越庞大，训练得到的预训练模型的特征抽取能力越好。然而，在该方式中，需要构建大量的正负样本对，利用大量的监督信息，数据标注成本高。而且，在进行特征比对时，通常比对的是全局特征(例如，比对整个图像的特征)，无法提现图像细节的特征表达。

发明内容

本公开提供了一种训练模型的方法、装置、电子设备及存储介质。

根据本公开的一方面，提供了一种训练模型的方法，包括：对原始图像进行掩码处理，得到掩码图像；基于预设模型对掩码图像进行编码处理，得到编码序列；基于编码序列进行图像重建，得到重建图像；基于重建图像及原始图像对预设模型的模型参数进行调整，得到目标模型。

可选的，训练模型的方法还包括：将原始图像划分为多个切块，其中，多个切块之间不重合；获取原始图像所对应的掩蔽比，其中，掩蔽比表征原始图像的遮挡部分与未遮挡部分的比值；基于掩蔽比对多个切块进行随机掩码处理，得到掩码图像。

可选的，训练模型的方法还包括：在预设模型中对掩码图像进行区域划分，得到多个子图像；对多个子图像进行线性特征提取，得到图像特征；对图像特征进行多次合并处理，得到编码序列。

可选的，训练模型的方法还包括：对编码序列进行上采样处理，得到目标特征向量；基于目标特征向量进行图像重建，得到重建图像。

可选的，训练模型的方法还包括：获取多个合并阶段对应的合并特征以及多个合并阶段对应的阶段标识，其中，多个合并阶段用于对图像特征进行多次合并；基于合并特征以及阶段标识对编码序列进行上采样处理，得到目标特征向量。

可选的，训练模型的方法还包括：按照多个合并阶段的合并顺序对应的逆向顺序，对阶段标识进行排序，得到排序后的阶段标识；获取与排序后的阶段标识对应的合并特征；对编码序列进行上采样处理，得到第一编码序列；对合并特征与第一编码序列进行连接处理，得到第二编码序列，并将编码序列更新为第二编码序列；直至多个合并阶段的合并特征均与第一编码序列连接，并基于第二编码序列生成目标特征向量。

可选的，训练模型的方法还包括：计算重建图像与原始图像的差值；对差值的绝对值进行求和计算，得到重建图像及原始图像之间的损失值；响应于损失值大于预设值，对预设模型的模型参数进行调整；响应于损失值小于或等于预设值，确定预设模型为目标模型。

可选的，训练模型的方法还包括：在基于重建图像及原始图像对预设模型的模型参数进行调整，得到目标模型之后，获取目标场景所对应的训练集；基于训练集对目标模型的模型参数进行调整，得到目标场景对应的识别模型。

根据本公开的另一方面，还提供了一种训练模型的装置，包括：掩码模块，用于对原始图像进行掩码处理，得到掩码图像；编码模块，用于基于预设模型对掩码图像进行编码处理，得到编码序列；重建模块，用于基于编码序列进行图像重建，得到重建图像；调整模块，用于基于重建图像及原始图像对预设模型的模型参数进行调整，得到目标模型。

根据本公开的另一方面，还提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述的训练模型的方法。

根据本公开的另一方面，还提供了一种电子设备，存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行上述的训练模型的方法。

根据本公开的另一方面，还提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现根据上述的训练模型的方法。

由上述内容可知，在本公开至少部分实施例中，采用掩码图像对模型进行预训练的方式，通过对原始图像进行掩码处理，并对掩码后的图像进行编码，得到编码序列。然后，再基于编码序列进行图像重建，从而得到重建图像。最后，基于重建图像以及原始图像对预设模型的模型参数进行调整，得到目标模型。

容易注意到的是，在本公开中，无需构建大量的正负样本对，也无需进行数据标注，即可实现模型的预训练，从而避免了现有技术中，在对模型进行预训练的过程，由于构建大量正负样本对所存在模型预训练成本高的问题，进而降低了模型预训练的成本。另外，在本公开中，对原始图像进行了掩码处理，并基于掩码图像进行了重建，得到重建图像，由于掩码图像中遮挡的是局部图像特征，因此，在本公开中比对的是局部图像特征，即本公开所提供的方案能够提现图像细节的特征表达，从而避免了现有技术中比对全局图像特征所存在的图像还原的准确度低的问题。

由此可见，本公开所提供的方案达到了对模型进行预训练的目的，从而实现了降低模型预训练的成本的技术效果，进而解决了现有技术中使用正负样本对模型进行预训练所存在的模型训练成本高的技术问题。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的训练模型的方法流程图；

图2是根据本公开实施例的原始图像的示意图；

图3是根据本公开实施例的掩码信息图的示意图；

图4是根据本公开实施例的重建图像的示意图；

图5是根据本公开实施例的原始图像的示意图；

图6是根据本公开实施例的掩码信息图的示意图；

图7是根据本公开实施例的模型预训练的结构框图；

图8是根据本公开实施例的重建图像的示意图；

图9是根据本公开实施例的目标特征向量的生成流程图；

图10是根据本公开实施例的训练模型的装置；

图11是用来实现本公开实施例的训练模型的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开提供了一种训练模型的方法，如图1所示，该方法包括如下步骤：

步骤S102，对原始图像进行掩码处理，得到掩码图像。

在步骤S102中，原始图像为无需标注的图像，即在本公开中，电子设备可使用任意一张图像作为原始图像。

另外，电子设备在对原始图像进行掩码处理时，可将原始图像划分为多个尺寸大小相等的切块，然后再以切块为单位对原始图像进行掩码处理，从而得到掩码图像。例如，图2为原始图像，图3为图2所对应的掩码信息图，其中，在图3中，黑色区域表示原始图像中的遮挡区域，白色区域表示原始图像中的未遮挡区域。

需要说明的是，电子设备可以采用随机掩码的方式来对原始图像进行掩码处理，也可采用固定掩码的方式对原始图像进行掩码处理，例如，用户可设定原始图像所对应的遮挡区域的范围，如用户设定以原始图像的左上角为原点，水平向右为x轴正方向，竖直向下为y轴正方向，并确定遮挡区域的范围为(0,0)和(14,15)所确定的矩形区域，以及(20,21)和(40,50)所确定的矩形区域，则电子设备可根据遮挡区域的范围对原始图像进行遮挡。

此外，还需要说明的是，由于掩码图像中遮挡的是局部图像特征，因此，在本公开中比对的是局部图像特征，即本公开所提供的方案能够提现图像细节的特征表达，从而避免了现有技术中比对全局图像特征所存在的图像还原的准确度低的问题。

步骤S104，基于预设模型对掩码图像进行编码处理，得到编码序列。

在步骤S104中，上述的预设模型为本公开所要预训练的模型的初始模型，其中，该模型可以为Swin-Transformer网络模型，Swin-Transformer网络模型可实现对掩码图像的特征合并处理，从而得到编码序列。

可选的，电子设备在对掩码图像进行编码处理的过程中，可对掩码图像中的每个切块进行特征提取，并对切块的特征进行多次特征合并，从而得到编码序列。

需要说明的是，编码序列所对应的特征数量远远小于掩码图像的切块数量，降低了原始图像的特征维度，因此，电子设备仅需使用少量的特征即可实现模型的预训练，提高了模型预训练的效率。

步骤S106，基于编码序列进行图像重建，得到重建图像。

在步骤S106中，电子设备可通过对编码序列进行上采样处理，并将上采样后的编码序列与每次特征合并后的特征进行连接，从而得到目标特征向量，最后对目标特征向量进行图像重建，即可得到重建图像。例如，对图2所示的原始图像进行掩码、编码以及图像重建后，即可得到图4所示的重建图像。

步骤S108，基于重建图像及原始图像对预设模型的模型参数进行调整，得到目标模型。

可选的，在步骤S108中，电子设备可通过比对重建图像与原始图像的方式，来确定重建图像对原始图像的还原程度，进而根据还原程度来确定是否对预设模型的模型参数进行调整。例如，在重建图像能够完整的还原出原始图像，或者，重建图像对原始图像的还原程度达到预设阈值时，则无需对预设模型的模型参数进行调整，即预设模型即为目标模型；在重建图像对原始图像的还原程度较低(例如，还原程度低于预设阈值)时，则电子设备需对预设模型的模型参数进行调整，并基于参数调整后的预设模型重复执行步骤S102至步骤S108，直至重建图像对原始图像的还原程度高于预设阈值，则确定参数调整后的预设模型为目标模型。

需要说明的是，在对预设模型进行预训练的过程中，无需构建大量的正负样本对，也无需进行数据标注，从而避免了现有技术中，在对模型进行预训练的过程，由于构建大量正负样本对所存在模型预训练成本高的问题，进而降低了模型预训练的成本。

基于上述步骤S102至步骤S108所限定的方案，可以获知，在本公开至少部分实施例中，采用掩码图像对模型进行预训练的方式，通过对原始图像进行掩码处理，并对掩码后的图像进行编码，得到编码序列。然后，再基于编码序列进行图像重建，从而得到重建图像。最后，基于重建图像以及原始图像对预设模型的模型参数进行调整，得到目标模型。

以下结合上述步骤来详细说明本公开所提供的方案。

在一种可选的实施例中，电子设备首先执行步骤S102，即对原始图像进行掩码处理，得到掩码图像。

具体的，电子设备将原始图像划分为多个切块，并获取原始图像所对应的掩蔽比，然后在基于掩蔽比对多个切块进行随机掩码处理，得到掩码图像。其中，多个切块之间不重合；掩蔽比表征原始图像的遮挡部分与未遮挡部分的比值。

可选的，上述多个切块可以为形状、大小均相同的切块，例如，上述切块可以为8*8的矩形切块，并且，切块与切块之间无重合区域，即切块之间不重叠。例如，图5所示的原始图像的大小为512*512，切块的大小为8*8的矩形切块，则原始图像可被划分为4096个切块。另外，在将原始图像划分为多个切块之后，电子设备可获取用户根据经验值所设定的掩蔽比，进而可确定多个切块中被遮挡的切块的数量。然后，电子设备在从多个切块中随机选出与上述数量所对应的目标切块，如图6示出了图5所示的原始图像所对应的掩码信息图。电子设备再确定目标切块在原始图像中的位置，进而电子设备可对对应位置的切块进行遮挡，从而得到掩码图像。

需要说明的是，上述切块的形状以及尺寸可根据实际情况进行设定，其中，切块的形状不限于矩形，还可以为其他多边形。同样的，多个切块的尺寸和形状可以相同，也可以不同，例如，切块1的形状和/或尺寸，可以与切块2的形状和/或尺寸相同，也可以不同。

另外，上述的掩蔽比可根据用户的经验值来设定，例如，上述的掩蔽比可以为0.35。

此外，还需要说明的是，通过对原始图像进行掩码处理，从而在对预设模型进行预训练过程中，无需再构建正负样本对，进而避免构建正负样本对所存在的成本高的问题，降低了模型预训练的成本。

进一步的，由图1可知，在对原始图像进行掩码处理之后，电子设备执行步骤S104，即基于预设模型对掩码图像进行编码处理，得到编码序列。

具体的，电子设备在预设模型中对掩码图像进行区域划分，得到多个子图像，然后，对多个子图像进行线性特征提取，得到图像特征，并对图像特征进行多次合并处理，得到编码序列。

可选的，图7示出了一种可选的模型预训练的结构框图，由图7可知，模型预训练主要包括两个过程，即区域掩码编码阶段以及图像重建阶段。如图7所示，区域掩码编码阶段由四个子阶段组成，即Stage 1、Stage 2、Stage 3、Stage4，上述四个阶段所对应的模块构成了上述的预设模型。其中，在进行区域掩码编码阶段之前，电子设备首先对掩码图像进行区域划分，得到多个子图像，然后将多个子图像作为区域掩码编码阶段的输入。其中，Stage1为线性特征提取阶段，在该阶段中，在完成对多个子图像的线性特征提取(即图7中的Linear Embedding)之后，将图像特征输入到Swin Transformer Block模块中。然后在Stage 2中，图像特征进行合并(即图7中的Patch Merging)，并将合并后的图像特征输入至Swin Transformer Block模块中。同样的，在Stage 3和Stage4中，对上一子阶段输出的特征进行合并，并将合并后的图像特征输入至Swin Transformer Block模块中，最后得到上述的编码序列。

例如，通过图7中的Patch Partition模块将掩码图像H*W*3划分为不重合的切块集合，其中，每个切块尺寸为4*4，则每个切块的特征维度为4*4*3＝48，切块的数量为H/4*W/4。在Stage1阶段，电子设备通过Linear Embedding模块之后，将划分后的切块特征维度变成C，输入至Swin Transformer Block模块；Stage 2至Stage 4阶段的操作相同，均是先通过Patch Merging模块，将输入按照2*2的相邻切块合并，切块的数量为H/8*W/8，特征维度为4C。例如，对于具有1024个切块的掩码图像，其可得到64个编码序列。

需要说明的是，由上述内容可知，对掩码图像进行特征提取以及特征合并的过程实质为对图像特征进行降维处理的过程，由于降低了原始图像的特征维度，因此，电子设备仅需使用少量的特征即可实现模型的预训练，提高了模型预训练的效率。

更进一步的，由图1可知，在对掩码图像进行编码处理，得到编码序列之后，电子设备执行步骤S106，即基于编码序列进行图像重建，得到重建图像。

具体的，电子设备对编码序列进行上采样处理，得到目标特征向量，并基于目标特征向量进行图像重建，得到重建图像。

可选的，如图7所示，电子设备对编码序列进行多次上采样(即图7中的UpSample)处理，然后通过Transformer Decoder模块对上采样后所得到的目标特征向量进行图像重建，即可得到重建图像。即采用图7所示的网络结构即可重构出图5所对应的重建图像，如图8所示。

需要说明的是，通过基于编码序列来实现图像的重建，进而电子设备可通过比对重建图像以及原始图像的差异来对预设模型的模型参数进行调整，从而在不构建正负样本对的基础上，即可实现模型的预训练，从而降低了模型预训练的成本。而且，由于重建图像是基于掩码图像所对应的编码序列重建得到的，而掩码图像中遮挡的是局部图像特征，因此，在本公开中比对的是局部图像特征，即本公开所提供的方案能够提现图像细节的特征表达，从而避免了现有技术中比对全局图像特征所存在的图像还原的准确度低的问题。

在一种可选的实施例中，在对编码序列进行上采样处理，得到目标特征向量的过程中，电子设备首先获取多个合并阶段对应的合并特征以及多个合并阶段对应的阶段标识，并基于合并特征以及阶段标识对编码序列进行上采样处理，得到目标特征向量。其中，多个合并阶段用于对图像特征进行多次合并。如图7所示，在区域掩码编码阶段进行了四个子阶段，而在图像重建阶段进行了三次上采样阶段，即在图像重建阶段对编码序列进行上采样处理的顺序与区域掩码编码阶段进行编码的顺序相反。

需要说明的是，通过对编码序列进行上采样处理，得到目标特征向量，进而基于目标特征向量可重构出掩码图像所对应的重建图像，从而在不构建正负样本对的基础上，即可实现模型的预训练，从而降低了模型预训练的成本。

可选的，图9示出了目标特征向量的生成流程图，如图9所示，该过程包括如下步骤：

步骤1，按照多个合并阶段的合并顺序对应的逆向顺序，对阶段标识进行排序，得到排序后的阶段标识；

步骤2，获取与排序后的阶段标识对应的合并特征；

步骤3，对编码序列进行上采样处理，得到第一编码序列；

步骤4，对合并特征与第一编码序列进行连接处理，得到第二编码序列，并将编码序列更新为第二编码序列；

步骤5，重复执行步骤3至4，直至多个合并阶段的合并特征均与第一编码序列连接，并基于第二编码序列生成目标特征向量。

需要说明的是，生成目标特征向量的步骤不限于上述执行顺序，在实际应用中，可根据实际需求调整上述各个步骤的执行顺序。

可选的，如图7所示，电子设备将Stage4的编码序列上采样一倍得到128个编码序列，与Stage3的编码序列连接起来(如图7中的C)，如此往复，得到4096个编码特征序列(即上述的第二编码序列)。最后，将第二编码序列经过标准的Tranformer Decoder结构，输出4096*192的特征向量，即上述的目标特征向量。

更进一步的，如图1所示，在对编码序列进行图像重建之后，电子设备执行步骤S108，即基于重建图像及原始图像对预设模型的模型参数进行调整，得到目标模型。具体的，电子设备计算重建图像与原始图像的差值，并对差值的绝对值进行求和计算，得到重建图像及原始图像之间的损失值、然后，响应于损失值大于预设值，对预设模型的模型参数进行调整；响应于损失值小于或等于预设值，确定预设模型为目标模型。

可选的，电子设备在计算上述损失值的过程中，可同时计算多张原始图像与其对应的重建图像之间的损失值，并对多个损失值进行加权求和计算，得到目标损失值，进而根据目标损失值来确定是否对预设模型的模型参数继续调整。

需要说明的是，通过对预设模型的模型参数进行调整，从而使目标模型重建出的图像与原始图像的差异最小，提升了预训练模型的特征抽取能力。

在一种可选的实施例中，在基于重建图像及原始图像对预设模型的模型参数进行调整，得到目标模型之后，电子设备可对目标模型进行微调，从而得到能够适应对应场景的模型。

具体的，电子设备获取目标场景所对应的训练集，并基于训练集对目标模型的模型参数进行调整，得到目标场景对应的识别模型。

需要说明的是，上述的目标场景可以为任何与图像相关的场景，例如，图像识别场景、图像分类场景等。例如，在OCR(Optical Character Recognition，光学字符识别)字段分类的场景中，电子设备将基于本公开所提供的方法所生成的目标模型作为预训练模型，并对该目标模型的参数进行调整，使调整后的目标模型能够应用到OCR字段分类场景中，例如，对身份证图像中的人名、地址等字段进行识别。

此外，还需要说明的是，相比ImageNet强监督下的预训练模型而言，采用本公开所提供的方法所生成的目标模型作为预训练模型，对字段进行分类的分类正确率提升11％。

由上述内容可知，本公开所提供的方案，通过图像进行随机掩码处理，经过Transformer Endcoder结构进行编码，再经过Transformer Decoder进行解码还原成原图，对还原得到的原图施加图像重建损失监督，网络可以学习得到从非掩码区域推理掩码区域图像的能力，即学习了对图像特征的表达能力，且全过程无需额外的监督信息，无标注成本，从而不仅降低了模型预训练的成本，还能够避免现有技术中比对全局图像特征所存在的图像还原的准确度低的问题。

根据本公开的实施例，本公开还提供了一种训练模型的装置，如图10所示，该装置包括：掩码模块1001、编码模块1003、重建模块1005以及调整模块1007。

其中，掩码模块1001，用于对原始图像进行掩码处理，得到掩码图像；编码模块1003，用于基于预设模型对掩码图像进行编码处理，得到编码序列；重建模块1005，用于基于编码序列进行图像重建，得到重建图像；调整模块1007，用于基于重建图像及原始图像对预设模型的模型参数进行调整，得到目标模型。

可选的，掩码模块包括：第一划分模块、第一获取模块以及第一掩码模块。其中，第一划分模块，用于将原始图像划分为多个切块，其中，多个切块之间不重合；第一获取模块，用于获取原始图像所对应的掩蔽比，其中，掩蔽比表征原始图像的遮挡部分与未遮挡部分的比值；第一掩码模块，用于基于掩蔽比对多个切块进行随机掩码处理，得到掩码图像。

可选的，编码模块包括：第二划分模块、特征提取模块以及特征合并模块。其中，第二划分模块，用于在预设模型中对掩码图像进行区域划分，得到多个子图像；特征提取模块，用于对多个子图像进行线性特征提取，得到图像特征；特征合并模块，用于对图像特征进行多次合并处理，得到编码序列。

可选的，重建模块包括：第一采样模块以及第一重建模块。其中，第一采样模块，用于对编码序列进行上采样处理，得到目标特征向量；第一重建模块，用于基于目标特征向量进行图像重建，得到重建图像。

可选的，第一采样模块包括：第二获取模块以及第二采样模块。其中，第二获取模块，用于获取多个合并阶段对应的合并特征以及多个合并阶段对应的阶段标识，其中，多个合并阶段用于对图像特征进行多次合并；第二采样模块，用于基于合并特征以及阶段标识对编码序列进行上采样处理，得到目标特征向量。

可选的，第二采样模块执行如下步骤：按照多个合并阶段的合并顺序对应的逆向顺序，对阶段标识进行排序，得到排序后的阶段标识；获取与排序后的阶段标识对应的合并特征；对编码序列进行上采样处理，得到第一编码序列；对合并特征与第一编码序列进行连接处理，得到第二编码序列，并将编码序列更新为第二编码序列；直至多个合并阶段的合并特征均与第一编码序列连接，并基于第二编码序列生成目标特征向量。

可选的，调整模块包括：第一计算模块、第二计算模块、第一调整模块以及确定模块。其中，第一计算模块，用于计算重建图像与原始图像的差值；第二计算模块，用于对差值的绝对值进行求和计算，得到重建图像及原始图像之间的损失值；第一调整模块，用于响应于损失值大于预设值，对预设模型的模型参数进行调整；确定模块，用于响应于损失值小于或等于预设值，确定预设模型为目标模型。

可选的，训练模型的装置还包括：第三获取模块以及第二调整模块。其中，第三获取模块，用于在基于重建图像及原始图像对预设模型的模型参数进行调整，得到目标模型之后，获取目标场景所对应的训练集；第二调整模块，用于基于训练集对目标模型的模型参数进行调整，得到目标场景对应的识别模型。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，设备1100包括计算单元1101，其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序，来执行各种适当的动作和处理。在RAM 1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如训练模型的方法。例如，在一些实施例中，训练模型的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时，可以执行上文描述的训练模型的方法的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行训练模型的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种训练模型的方法，包括：

对原始图像进行掩码处理，得到掩码图像；

基于预设模型对所述掩码图像进行编码处理，得到编码序列；

基于所述编码序列进行图像重建，得到重建图像；

基于所述重建图像及所述原始图像对所述预设模型的模型参数进行调整，得到目标模型。

2.根据权利要求1所述的方法，其中，所述对原始图像进行掩码处理，得到掩码图像，包括：

将所述原始图像划分为多个切块，其中，所述多个切块之间不重合；

获取所述原始图像所对应的掩蔽比，其中，所述掩蔽比表征所述原始图像的遮挡部分与未遮挡部分的比值；

基于所述掩蔽比对所述多个切块进行随机掩码处理，得到所述掩码图像。

3.根据权利要求1所述的方法，其中，所述基于预设模型对所述掩码图像进行编码处理，得到编码序列，包括：

在所述预设模型中对所述掩码图像进行区域划分，得到多个子图像；

对所述多个子图像进行线性特征提取，得到图像特征；

对所述图像特征进行多次合并处理，得到所述编码序列。

4.根据权利要求3所述的方法，其中，所述基于所述编码序列进行图像重建，得到重建图像，包括：

对所述编码序列进行上采样处理，得到目标特征向量；

基于所述目标特征向量进行图像重建，得到所述重建图像。

5.根据权利要求4所述的方法，其中，所述对所述编码序列进行上采样处理，得到目标特征向量，包括：

获取多个合并阶段对应的合并特征以及所述多个合并阶段对应的阶段标识，其中，所述多个合并阶段用于对所述图像特征进行多次合并；

基于所述合并特征以及所述阶段标识对所述编码序列进行上采样处理，得到所述目标特征向量。

6.根据权利要求5所述的方法，其中，所述基于所述合并特征以及所述阶段标识对所述编码序列进行上采样处理，得到所述目标特征向量，包括：

按照所述多个合并阶段的合并顺序对应的逆向顺序，对所述阶段标识进行排序，得到排序后的阶段标识；

获取与所述排序后的阶段标识对应的合并特征；

对所述编码序列进行上采样处理，得到第一编码序列；

对所述合并特征与所述第一编码序列进行连接处理，得到第二编码序列，并将所述编码序列更新为所述第二编码序列；

直至所述多个合并阶段的合并特征均与所述第一编码序列连接，并基于所述第二编码序列生成所述目标特征向量。

7.根据权利要求1所述的方法，其中，所述基于所述重建图像及所述原始图像对所述预设模型的模型参数进行调整，得到目标模型，包括：

计算所述重建图像与所述原始图像的差值；

对所述差值的绝对值进行求和计算，得到所述重建图像及所述原始图像之间的损失值；

响应于所述损失值大于预设值，对所述预设模型的模型参数进行调整；

响应于所述损失值小于或等于所述预设值，确定所述预设模型为所述目标模型。

8.根据权利要求1所述的方法，在基于所述重建图像及所述原始图像对所述预设模型的模型参数进行调整，得到目标模型之后，所述方法还包括：

获取目标场景所对应的训练集；

基于所述训练集对所述目标模型的模型参数进行调整，得到所述目标场景对应的识别模型。

9.一种训练模型的装置，包括：

掩码模块，用于对原始图像进行掩码处理，得到掩码图像；

编码模块，用于基于预设模型对所述掩码图像进行编码处理，得到编码序列；

重建模块，用于基于所述编码序列进行图像重建，得到重建图像；

调整模块，用于基于所述重建图像及所述原始图像对所述预设模型的模型参数进行调整，得到目标模型。

10.根据权利要求9所述的装置，其中，所述掩码模块包括：

第一划分模块，用于将所述原始图像划分为多个切块，其中，所述多个切块之间不重合；

第一获取模块，用于获取所述原始图像所对应的掩蔽比，其中，所述掩蔽比表征所述原始图像的遮挡部分与未遮挡部分的比值；

第一掩码模块，用于基于所述掩蔽比对所述多个切块进行随机掩码处理，得到所述掩码图像。

11.根据权利要求9所述的装置，其中，所述编码模块包括：

第二划分模块，用于在所述预设模型中对所述掩码图像进行区域划分，得到多个子图像；

特征提取模块，用于对所述多个子图像进行线性特征提取，得到图像特征；

特征合并模块，用于对所述图像特征进行多次合并处理，得到所述编码序列。

12.根据权利要求11所述的装置，其中，所述重建模块包括：

第一采样模块，用于对所述编码序列进行上采样处理，得到目标特征向量；

第一重建模块，用于基于所述目标特征向量进行图像重建，得到所述重建图像。

13.根据权利要求12所述的装置，其中，所述第一采样模块包括：

第二获取模块，用于获取多个合并阶段对应的合并特征以及所述多个合并阶段对应的阶段标识，其中，所述多个合并阶段用于对所述图像特征进行多次合并；

第二采样模块，用于基于所述合并特征以及所述阶段标识对所述编码序列进行上采样处理，得到所述目标特征向量。

14.根据权利要求13所述的装置，其中，所述第二采样模块执行如下步骤：

获取与所述排序后的阶段标识对应的合并特征；

对所述编码序列进行上采样处理，得到第一编码序列；

15.根据权利要求9所述的装置，其中，所述调整模块包括：

第一计算模块，用于计算所述重建图像与所述原始图像的差值；

第二计算模块，用于对所述差值的绝对值进行求和计算，得到所述重建图像及所述原始图像之间的损失值；

第一调整模块，用于响应于所述损失值大于预设值，对所述预设模型的模型参数进行调整；

确定模块，用于响应于所述损失值小于或等于所述预设值，确定所述预设模型为所述目标模型。

16.根据权利要求9所述的装置，所述装置还包括：

第三获取模块，用于在基于所述重建图像及所述原始图像对所述预设模型的模型参数进行调整，得到目标模型之后，获取目标场景所对应的训练集；

第二调整模块，用于基于所述训练集对所述目标模型的模型参数进行调整，得到所述目标场景对应的识别模型。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至8中任一项所述的训练模型的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1至8中任一项所述的训练模型的方法。

19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1至8中任一项所述的训练模型的方法。