CN114842307A

CN114842307A - 掩码图像模型训练方法、掩码图像内容预测方法和设备

Info

Publication number: CN114842307A
Application number: CN202210776862.8A
Authority: CN
Inventors: 朱优松; 李朝闻; 赵朝阳; 陈志扬; 王金桥
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Zhongke Zidong Taichu Beijing Technology Co ltd
Priority date: 2022-07-04
Filing date: 2022-07-04
Publication date: 2022-08-02
Anticipated expiration: 2042-07-04
Also published as: CN114842307B

Abstract

本发明提供一种掩码图像模型训练方法、掩码图像内容预测方法和设备，涉及图像处理技术领域，解决了预测的掩码图像内容准确度较低的问题。训练方法包括：将多个图像样本对应的可视化图像块输入至初始掩码图像模型中的非对称结构的初始编码模型中，得到各可视化图像块对应的编码特征对，并将各可视化图像块对应的编码特征对和第二数量个预设掩码补丁输入至初始掩码图像模型中的初始解码模型中，得到各掩码图像块对应的解码结果对；再根据多个图像样本各自对应的第二数量个掩码图像块和解码结果对，对初始编码模型和初始解码模型的模型参数进行更新，训练得到的掩码图像模型可以准确地预测掩码图像块的图像内容，提高了预测结果的准确度。

Description

掩码图像模型训练方法、掩码图像内容预测方法和设备

技术领域

本发明涉及图像处理技术领域，尤其涉及一种掩码图像模型训练方法、掩码图像内容预测方法和设备。

背景技术

在图像处理技术领域，针对一些具有掩码图像块的图像，通常会结合图像中的其他可视化图像块，预测图像中的掩码图像块的图像内容，以将整个图像内容可视化。

现有技术中，通常是采用掩码图像模型预测图像中的掩码图像块的图像内容，但是现有的掩码图像模型在对掩码图像块的图像内容进行预测时，会导致预测结果的准确度较低。

发明内容

本发明提供一种掩码图像模型训练方法、掩码图像内容预测方法和设备，使得训练得到的掩码图像模型具有较好的图像块语义一致性，基于训练得到的掩码图像模型可以准确地预测掩码图像块的图像内容，从而提高了预测结果的准确度。

本发明提供一种掩码图像模型训练方法，该掩码图像模型训练方法可以包括：

获取多个图像样本中，各图像样本对应的第一数量个可视化图像块和第二数量个掩码图像块。

针对所述各图像样本，将所述图像样本对应的第一数量个可视化图像块输入至初始掩码图像模型中的非对称结构的初始编码模型中，得到各可视化图像块对应的编码特征对，并将所述各可视化图像块对应的编码特征对和第二数量个预设掩码补丁输入至所述初始掩码图像模型中的初始解码模型中，得到各掩码图像块对应的解码结果对；其中，解码结果对中的两个解码结果均用于描述预测的所述掩码图像块的图像内容。

根据所述多个图像样本各自对应的第二数量个掩码图像块和所述各掩码图像块对应的解码结果对，对所述初始编码模型的模型参数和所述初始解码模型的模型参数进行更新。

根据本发明提供的一种掩码图像模型训练方法，所述非对称结构的初始编码模型包括两个并联的第一初始编码模型和第二初始编码模型，其中，所述第一初始编码模型包括编码器，且所述第二初始编码模型包括编码器和随机失活网络；或者，所述第一初始编码模型包括编码器，且所述第二初始编码模型包括编码器和自注意力网络。

其中，所述将所述图像样本对应的第一数量个可视化图像块输入至所述初始掩码图像模型中的非对称结构的初始编码模型中，得到各可视化图像块对应的编码特征对，包括：

将所述第一数量个可视化图像块分别输入至所述第一初始编码模型和所述第二初始编码模型中，通过所述第一初始编码模型得到所述各可视化图像块对应的第一编码特征，并通过所述第二初始编码模型得到所述各可视化图像块对应的第二编码特征。

其中，所述各可视化图像块对应的第一编码特征和第二编码特征构成所述各可视化图像块对应的编码特征对。

根据本发明提供的一种掩码图像模型训练方法，所述根据所述多个图像样本各自对应的第二数量个掩码图像块和所述各掩码图像块对应的解码结果对，对所述初始编码模型的模型参数和所述初始解码模型的模型参数进行更新，包括：

针对所述各图像样本，根据所述图像样本对应的第二数量个掩码图像块和所述各掩码图像块对应的解码结果对，确定所述图像样本对应的目标损失函数。

根据所述多个图像样本各自对应的目标损失函数，对所述初始编码模型的模型参数和所述初始解码模型的模型参数进行更新。

根据本发明提供的一种掩码图像模型训练方法，所述根据所述图像样本对应的第二数量个掩码图像块和所述各掩码图像块对应的解码结果对，确定所述图像样本对应的目标损失函数，包括：

根据所述图像样本对应的第二数量个掩码图像块、所述各掩码图像块对应的解码结果对以及所述预设掩码补丁，确定所述图像样本对应的均方差损失函数。

根据所述各掩码图像块对应的解码结果，确定所述图像样本对应的语义一致性损失函数。

根据所述均方差损失函数和所述语义一致性损失函数，确定所述目标损失函数。

根据本发明提供的一种掩码图像模型训练方法，所述根据所述图像样本对应的第二数量个掩码图像块、所述各掩码图像块对应的解码结果对以及所述预设掩码补丁，确定所述图像样本对应的均方差损失函数，包括：

针对所述各掩码图像块，确定所述掩码图像块和所述掩码图像块对应的解码结果之间的差值，并根据所述差值和所述预设掩码补丁，确定所述掩码图像块对应的均方差损失函数。

根据所述各掩码图像块对应的均方差损失函数，确定所述第二数量个掩码图像块对应的平均均方差损失函数。

将所述平均均方差损失函数，确定为所述图像样本对应的均方差损失函数。

根据本发明提供的一种掩码图像模型训练方法，所述解码结果对包括第一解码结果和第二解码结果，所述根据所述各掩码图像块对应的解码结果，确定所述图像样本对应的语义一致性损失函数，包括：

针对所述各掩码图像块，确定所述掩码图像块对应的第一解码结果和所述第二解码结果的不求导结果之间的第一差值，并根据所述第一解码结果的不求导结果和所述第二解码结果之间的第二差值，根据所述第一差值和所述第二差值确定所述掩码图像块对应的语义一致性损失函数。

根据所述各掩码图像块对应的语义一致性损失函数，确定所述第二数量个掩码图像块对应的平均语义一致性损失函数。

将所述平均语义一致性损失函数，确定为所述图像样本对应的语义一致性损失函数。

根据本发明提供的一种掩码图像模型训练方法，所述根据所述多个图像样本各自对应的目标损失函数，对所述初始编码模型的模型参数和所述初始解码模型的模型参数进行更新，包括：

根据所述多个图像样本各自对应的目标损失函数，确定所述多个图像样本对应的平均目标损失函数。

根据所述平均目标损失函数，对所述初始编码模型的模型参数和所述初始解码模型的模型参数进行更新。

根据本发明提供的一种掩码图像模型训练方法，所述获取多个图像样本中，各图像样本对应的第一数量个可视化图像块和第二数量个掩码图像块，包括：

将所述多个图像样本输入至所述初始掩码图像模型中的预处理模型中，得到所述各图像样本对应的第一数量个可视化图像块和第二数量个掩码图像块。

本发明还提供一种掩码图像内容预测方法，包括：

获取待预测图像对应的第三数量个可视化图像块和第四数量个掩码图像块。

将所述第三数量个可视化图像块输入至掩码图像模型中的非对称结构的编码模型中，得到各可视化图像块对应的编码特征对，并将所述各可视化图像块对应的编码特征对和第四数量个预设掩码补丁输入至所述掩码图像模型中的解码模型中，得到各掩码图像块对应的解码结果对；其中，解码结果对中的两个解码结果均用于描述预测的所述掩码图像块的图像内容。

根据本发明提供的一种掩码图像内容预测方法，所述非对称结构的编码模型包括两个并联的第一编码模型和第二编码模型，其中，所述第一编码模型包括编码器，且所述第二编码模型包括编码器和随机失活网络；或者，所述第一编码模型包括编码器，且所述第二编码模型包括编码器和自注意力网络。

其中，所述将所述第三数量个可视化图像块输入至掩码图像模型中的非对称结构的编码模型中，得到各可视化图像块对应的编码特征对，包括：

将所述第三数量个可视化图像块分别输入至所述第一编码模型和所述第二编码模型中，通过所述第一编码模型得到所述各可视化图像块对应的第一编码特征，并通过所述第二编码模型得到所述各可视化图像块对应的第二编码特征。

根据本发明提供的一种掩码图像内容预测方法，所述获取待预测图像对应的第三数量个可视化图像块和第四数量个掩码图像块，包括：

将所述待预测图像输入至所述掩码图像模型中的预处理模型中，得到所述待预测图像对应的所述第三数量个可视化图像块和所述第四数量个掩码图像块。

本发明还提供一种掩码图像模型训练装置，包括：

获取单元，用于获取多个图像样本中，各图像样本对应的第一数量个可视化图像块和第二数量个掩码图像块。

处理单元，用于针对所述各图像样本，将所述图像样本对应的第一数量个可视化图像块输入至初始掩码图像模型中的非对称结构的初始编码模型中，得到各可视化图像块对应的编码特征对，并将所述各可视化图像块对应的编码特征对和第二数量个预设掩码补丁输入至所述初始掩码图像模型中的初始解码模型中，得到各掩码图像块对应的解码结果对；其中，解码结果对中的两个解码结果均用于描述预测的所述掩码图像块的图像内容。

更新单元，用于根据所述多个图像样本各自对应的第二数量个掩码图像块和所述各掩码图像块对应的解码结果对，对所述初始编码模型的模型参数和所述初始解码模型的模型参数进行更新。

根据本发明提供的一种掩码图像模型训练装置，所述非对称结构的初始编码模型包括两个并联的第一初始编码模型和第二初始编码模型，其中，所述第一初始编码模型包括编码器，且所述第二初始编码模型包括编码器和随机失活网络；或者，所述第一初始编码模型包括编码器，且所述第二初始编码模型包括编码器和自注意力网络。

所述处理单元，具体用于将所述第一数量个可视化图像块分别输入至所述第一初始编码模型和所述第二初始编码模型中，通过所述第一初始编码模型得到所述各可视化图像块对应的第一编码特征，并通过所述第二初始编码模型得到所述各可视化图像块对应的第二编码特征；其中，所述各可视化图像块对应的第一编码特征和第二编码特征构成所述各可视化图像块对应的编码特征对。

根据本发明提供的一种掩码图像模型训练装置，所述更新单元，具体用于针对所述各图像样本，根据所述图像样本对应的第二数量个掩码图像块和所述各掩码图像块对应的解码结果对，确定所述图像样本对应的目标损失函数；根据所述多个图像样本各自对应的目标损失函数，对所述初始编码模型的模型参数和所述初始解码模型的模型参数进行更新。

根据本发明提供的一种掩码图像模型训练装置，所述更新单元，具体用于根据所述图像样本对应的第二数量个掩码图像块、所述各掩码图像块对应的解码结果对以及所述预设掩码补丁，确定所述图像样本对应的均方差损失函数；根据所述各掩码图像块对应的解码结果，确定所述图像样本对应的语义一致性损失函数；根据所述均方差损失函数和所述语义一致性损失函数，确定所述目标损失函数。

根据本发明提供的一种掩码图像模型训练装置，所述更新单元，具体用于针对所述各掩码图像块，确定所述掩码图像块和所述掩码图像块对应的解码结果之间的差值，并根据所述差值和所述预设掩码补丁，确定所述掩码图像块对应的均方差损失函数；根据所述各掩码图像块对应的均方差损失函数，确定所述第二数量个掩码图像块对应的平均均方差损失函数；将所述平均均方差损失函数，确定为所述图像样本对应的均方差损失函数。

根据本发明提供的一种掩码图像模型训练装置，所述解码结果对包括第一解码结果和第二解码结果，所述更新单元，具体用于针对所述各掩码图像块，确定所述掩码图像块对应的第一解码结果和所述第二解码结果的不求导结果之间的第一差值，并根据所述第一解码结果的不求导结果和所述第二解码结果之间的第二差值，根据所述第一差值和所述第二差值确定所述掩码图像块对应的语义一致性损失函数；根据所述各掩码图像块对应的语义一致性损失函数，确定所述第二数量个掩码图像块对应的平均语义一致性损失函数；将所述平均语义一致性损失函数，确定为所述图像样本对应的语义一致性损失函数。

根据本发明提供的一种掩码图像模型训练装置，所述更新单元，具体用于根据所述多个图像样本各自对应的目标损失函数，确定所述多个图像样本对应的平均目标损失函数；根据所述平均目标损失函数，对所述初始编码模型的模型参数和所述初始解码模型的模型参数进行更新。

根据本发明提供的一种掩码图像模型训练装置，所述获取单元，具体用于将所述多个图像样本输入至所述初始掩码图像模型中的预处理模型中，得到所述各图像样本对应的第一数量个可视化图像块和第二数量个掩码图像块。

本发明还提供一种掩码图像内容预测装置，包括：

获取单元，用于获取待预测图像对应的第三数量个可视化图像块和第四数量个掩码图像块；

预测单元，用于将所述第三数量个可视化图像块输入至掩码图像模型中的非对称结构的编码模型中，得到各可视化图像块对应的编码特征对，并将所述各可视化图像块对应的编码特征对和第四数量个预设掩码补丁输入至所述掩码图像模型中的解码模型中，得到各掩码图像块对应的解码结果对；其中，解码结果对中的两个解码结果均用于描述预测的所述掩码图像块的图像内容。

根据本发明提供的一种掩码图像内容预测装置，所述非对称结构的编码模型包括两个并联的第一编码模型和第二编码模型，其中，所述第一编码模型包括编码器，且所述第二编码模型包括编码器和随机失活网络；或者，所述第一编码模型包括编码器，且所述第二编码模型包括编码器和自注意力网络。

所述预测单元，具体用于将所述第三数量个可视化图像块分别输入至所述第一编码模型和所述第二编码模型中，通过所述第一编码模型得到所述各可视化图像块对应的第一编码特征，并通过所述第二编码模型得到所述各可视化图像块对应的第二编码特征；其中，所述各可视化图像块对应的第一编码特征和第二编码特征构成所述各可视化图像块对应的编码特征对。

根据本发明提供的一种掩码图像内容预测装置，所述获取单元，具体用于将所述待预测图像输入至所述掩码图像模型中的预处理模型中，得到所述待预测图像对应的所述第三数量个可视化图像块和所述第四数量个掩码图像块。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的掩码图像模型训练方法；或者，实现如上述任一种所述的掩码图像内容预测方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的掩码图像模型训练方法；或者，实现如上述任一种所述的掩码图像内容预测方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述的掩码图像模型训练方法；或者，实现如上述任一种所述的掩码图像内容预测方法。

本发明提供的掩码图像模型训练方法、掩码图像内容预测方法和设备，在训练掩码图像模型时，可以先获取多个图像样本中，各图像样本对应的第一数量个可视化图像块和第二数量个掩码图像块；将多个图像样本对应的可视化图像块输入至初始掩码图像模型中的非对称结构的初始编码模型中，得到各可视化图像块对应的编码特征对，并将各可视化图像块对应的编码特征对和第二数量个预设掩码补丁输入至初始掩码图像模型中的初始解码模型中，得到各掩码图像块对应的解码结果对；再根据多个图像样本各自对应的第二数量个掩码图像块和解码结果对，对初始编码模型和初始解码模型的模型参数进行更新，使得训练得到的掩码图像模型具有较好的图像块语义一致性，基于训练得到的掩码图像模型可以准确地预测掩码图像块的图像内容，从而提高了预测结果的准确度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的掩码图像模型训练方法的流程示意图；

图2为本发明实施例提供的初始掩码图像模型的结构示意图；

图3为本发明实施例提供的掩码图像内容预测方法的流程示意图；

图4为本发明实施例提供的掩码图像模型训练装置的结构示意图；

图5为本发明实施例提供的掩码图像内容预测装置的结构示意图；

图6示例了一种电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A，B可以是单数或者复数。在本发明的文字描述中，字符“/”一般表示前后关联对象是一种“或”的关系。

本发明实施例提供的技术方案可以应用于图像处理场景中，尤其是掩码图像处理场景中。针对一些具有掩码图像块的图像，通常会结合图像中的其他可视化图像块，预测图像中的掩码图像块的图像内容，以将整个图像内容可视化。但是，由于掩码图像模型在预测时，虽然也会将图像中的每个图像块作为一个类别进行预测，但是由于图像块的语义不可学习，使得现有的掩码图像模型在对掩码图像块的图像内容进行预测时，会导致预测结果的准确度。

为了提高预测结果的准确度，考虑到对比学习自监督算法是用于拉近两个视角的输出结果，可以较好地增强图像块的语义一致性，因此，可以在现有的掩码图像模型的基础上，结合对比学习自监督算法训练一个具有较好的图像块语义一致性的掩码图像模型，从而通过具有较好的图像块语义一致性的掩码图像模型提高预测结果的准确度。

但是，若简单地将现有的掩码图像模型和对比学习自监督算法结合，可能会存在相互冲突，且无法达到预期效果。例如，假设原始图像为长颈鹿在森林中的图像，通过采用对比学习自监督算法对图像进行特征增强，得到的图像看起来更像是长颈鹿在花丛中的图像。可以看出，特征增强后的图像很难准确地预测图像中的长颈鹿部分和森林部分。之所以会存在这种现象，主要原因是采用对比学习自监督算法对图像进行特征增强后，图像中的一些图像块的属性完全改变，从而导致特征增强后图像块的语义与原始图像中图像块的语义不同。

因此，为了可以有效地结合对比学习自监督算法训练具有较好的图像块语义一致性的掩码图像模型，需要解决采用对比学习自监督算法对图像进行特征增强时导致的图像块的属性完全改变的问题。为了解决图像块的属性完全改变的问题，可以在对比学习自监督算法中引入不对称结构，并通过不对称结构对图像块的语义特征进行特征增强，且在进行特征增强时，考虑到编码特征与完整网络相比具有更强的语义，因此，可以通过不对称结构增强编码特征，这样不仅可以解决采用对比学习自监督算法对图像进行特征增强时导致的图像块的属性完全改变的问题，而且还可以通过对比学习自监督算法增强语义特征，以较好地体现图像块语义一致性，因此，通过在对比学习自监督算法中引入不对称结构，并结合该具有不对称结构的对比学习自监督算法，共同训练具有较好的图像块语义一致性的掩码图像模型，这样基于训练得到的掩码图像模型可以准确地预测掩码图像块的图像内容，从而提高了预测结果的准确度。

下面，将通过下述几个具体的实施例对本发明提供的掩码图像模型训练方法行详细地说明。可以理解的是，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1为本发明实施例提供的掩码图像模型训练方法的流程示意图，该掩码图像模型训练方法可以由软件和/或硬件装置执行。示例的，请参见图1所示，该掩码图像模型训练方法可以包括：

S101、获取多个图像样本中，各图像样本对应的第一数量个可视化图像块和第二数量个掩码图像块。

其中，第一数量和第二数量均为正整数，其具体取值可以根据实际需要进行设置。通常情况下，第一数量个可视化图像块和第二数量个掩码图像块之间不存在重叠区域。

其中，多个图像样本可以理解为对初始掩码图像模型执行一次训练操作对应的图像样本集合。示例地，获取多个图像样本时，可以接收其他电子设备发送的多个图像样本，也可以从本地存储中获取多个图像样本，当然，也可以从其它第三方数据库中获取多个图像样本，具体可以根据实际需要进行设置，在此，对于多个图像样本的获取方法，本发明实施例不做具体限制。

示例地，在获取图像样本对应的第一数量个可视化图像块和第二数量个掩码图像块时，可以采用遵循均匀分布的随机掩码策略，对图像样本进行掩码处理，得到图像样本对应的第一数量个可视化图像块和第二数量个掩码图像块。示例地，在后续的描述中，可视化图像块可以用

表示，掩码图像块可以用

表示。

示例地，采用遵循均匀分布的随机掩码策略，对图像样本进行掩码处理的操作也可以独立于初始掩码图像模型执行，这样在对初始掩码图像模型进行训练时，可以直接采用已经掩码得到的第一数量个可视化图像块和第二数量个掩码图像块，对初始掩码图像模型进行训练；也可以为对初始掩码图像模型训练时执行的。示例地，初始掩码图像模型中还可以包括预处理模型，在对初始掩码图像模型进行训练时，可以先将图像样本输入至初始掩码图像模型中的预处理模型中，通过该预处理模型对图像样本进行掩码处理，从而得到图像样本对应的第一数量个可视化图像块和第二数量个掩码图像块，具体可以根据实际需要进行设置，在此，本发明实施例只是以这两种方式为例进行说明，但并不代表本发明实施例仅局限于此。

在分别获取到多个图像样本中，各图像样本对应的第一数量个可视化图像块和第二数量个掩码图像块后，就可以执行下述S102：

S102、针对各图像样本，将图像样本对应的第一数量个可视化图像块输入至初始掩码图像模型中的非对称结构的初始编码模型中，得到各可视化图像块对应的编码特征对，并将各可视化图像块对应的编码特征对和第二数量个预设掩码补丁输入至初始掩码图像模型中的初始解码模型中，得到各掩码图像块对应的解码结果对；其中，解码结果对中的两个解码结果均用于描述预测的掩码图像块的图像内容。

其中，第二数量个预设掩码补丁相同，且预设掩码补丁为提前预设的可学习的掩码补丁。

在本发明实施例中，通过初始掩码图像模型预测多个图像样本各自的掩码图像块对应的解码结果对时，鉴于各图像样本的掩码图像块对应的解码结果对的预测方法类似，因此，为了避免赘述，将以通过初始掩码图像模型预测多个图像样本中，任一个图像样本的掩码图像块对应的解码结果对为例，对如何预测多个图像样本各自的掩码图像块对应的解码结果对进行描述。

示例地，结合图2所示，图2为本发明实施例提供的初始掩码图像模型的结构示意图，假设采用遵循均匀分布的随机掩码策略，对图像样本进行掩码处理的操作独立于初始掩码图像模型执行，则初始掩码图像模型可以包括非对称结构的初始编码模型和初始解码模型。结合图2所示的初始掩码图像模型，假设图像样本包括4个可视化图像块和2个掩码图像块，在预测2个掩码图像块对应的解码结果时，可以将4个可视化图像块输入至非对称结构的初始编码模型中，得到4个可视化图像块各自对应的编码特征对，并将各可视化图像块对应的编码特征对和2个预设掩码补丁输入至初始掩码图像模型中的初始解码模型中，以预测得到2个掩码图像块各自对应的解码结果对。

可以理解的是，初始解码模型的输出即为初始掩码图像模型的输出。通常情况下，该初始解码模型的输出除了包括各掩码图像块对应的解码结果对之外，还可以包括其他各可视化图像块对应的解码结果，在此，本发明实施例只是以初始解码模型的输出各掩码图像块对应的解码结果对为例进行说明，但并不代表本发明实施例仅局限于此。

示例地，在本发明实施例中，非对称结构的初始编码模型包括下述至少两种可能的设计方式：

在一种可能的设计方式中，非对称结构的初始编码模型可以包括两个并联的第一初始编码模型和第二初始编码模型，其中，第一初始编码模型包括编码器，且第二初始编码模型包括编码器和随机失活网络，示例地，随机失活网络可以为dropout网络，也可以为其他随机失活网络，具体可以根据实际需要进行设置。示例地，在随机失活网络为dropout网络时，其概率设置为0.25。

基于该种设计方式的非对称结构的初始编码模型，在获取可视化图像块对应的编码特征对时，可以将图像样本对应的第一数量个可视化图像块分别输入至包括编码器的第一初始编码模型、以及包括编码器和随机失活网络的第二初始编码模型中，通过编码器得到各可视化图像块对应的第一编码特征，并通过编码器和随机失活网络得到各可视化图像块对应的第二编码特征，该各可视化图像块对应的第一编码特征和第二编码特征构成各可视化图像块对应的编码特征对，从而得到可视化图像块对应的编码特征对。

在一种可能的设计方式中，非对称结构的初始编码模型可以包括两个并联的第一初始编码模型和第二初始编码模型，其中，第一初始编码模型包括编码器，且第二初始编码模型包括编码器和自注意力网络。

基于该种设计方式的非对称结构的初始编码模型，在获取可视化图像块对应的编码特征对时，可以将图像样本对应的第一数量个可视化图像块分别输入至包括编码器的第一初始编码模型、以及包括编码器和自注意力网络的第二初始编码模型中，通过编码器得到各可视化图像块对应的第一编码特征，并通过编码器和自注意力网络得到各可视化图像块对应的第二编码特征，该各可视化图像块对应的第一编码特征和第二编码特征构成各可视化图像块对应的编码特征对，从而得到可视化图像块对应的编码特征对。

在通过非对称结构的初始编码模型获取到各可视化图像块对应的编码特征对后，可以将各可视化图像块对应的编码特征对和第二数量个预设掩码补丁输入至初始解码模型中，以预测得到各掩码图像块对应的解码结果对。示例地，在将各可视化图像块对应的编码特征对和第二数量个预设掩码补丁输入至初始解码模型时，可以将各可视化图像块对应的编码特征对和第二数量个预设掩码补丁以合并的方式，输入至初始解码模型中，预测得到各掩码图像块对应的解码结果对，从而增强了掩码图像块语义的一致性，并为图像内容预测增加了可学习性。示例地，在后续的描述中，解码结果对中的两个解码结果可以采用predori和predaug表示。

可以理解的是，本发明实施例中，通过在初始掩码图像模型中设置非对称结构的初始编码模型，并通过非对称结构的初始编码模型增强编码特征，不仅可以解决现有技术中，直接采用对比学习自监督算法对图像进行特征增强时导致的图像块的属性完全改变的问题，而且还可以通过对比学习自监督算法增强语义特征，以较好地体现图像块语义一致性，因此，使得训练得到的掩码图像模型具有较好的图像块语义一致性，这样基于训练得到的掩码图像模型可以准确地预测掩码图像块的图像内容，从而提高了预测结果的准确度。

在分别获取到了多个图像样本各自对应的第二数量个掩码图像块和各掩码图像块对应的解码结果对后，就可以执行下述S103：

S103、根据多个图像样本各自对应的第二数量个掩码图像块和各掩码图像块对应的解码结果对，对初始编码模型的模型参数和初始解码模型的模型参数进行更新。

示例地，根据多个图像样本各自对应的第二数量个掩码图像块和各掩码图像块对应的解码结果对，对初始编码模型的模型参数和初始解码模型的模型参数进行更新时，针对各图像样本，可以先根据该图像样本对应的第二数量个掩码图像块和各掩码图像块对应的解码结果对，确定该图像样本对应的目标损失函数；并根据多个图像样本各自对应的目标损失函数，对初始编码模型的模型参数和初始解码模型的模型参数进行更新。

示例地，根据图像样本对应的第二数量个掩码图像块和各掩码图像块对应的解码结果对，确定图像样本对应的目标损失函数时，可以根据图像样本对应的第二数量个掩码图像块、各掩码图像块对应的解码结果对以及预设掩码补丁，确定图像样本对应的均方差损失函数；并根据各掩码图像块对应的解码结果，确定图像样本对应的语义一致性损失函数；再根据均方差损失函数和语义一致性损失函数，共同确定目标损失函数。

示例地，根据图像样本对应的第二数量个掩码图像块、各掩码图像块对应的解码结果对以及预设掩码补丁，确定图像样本对应的均方差损失函数时，可以分别计算第二数量个掩码图像块中各掩码图像块对应的均方差损失函数，再根据各掩码图像块对应的均方差损失函数，计算第二数量个均方差损失函数的平均均方差损失函数，并将平均均方差损失函数，确定为图像样本对应的均方差损失函数，从而获取到图像样本对应的均方差损失函数。

可以理解的是，鉴于各掩码图像块对应的均方差损失函数的获取方法类似，因此，将以获取第二数量个掩码图像块中，任意一个掩码图像块对应的均方差损失函数为例进行描述。

示例地，在获取掩码图像块对应的均方差损失函数时，可以先确定该掩码图像块和掩码图像块对应的解码结果之间的差值，并根据差值和预设掩码补丁，确定掩码图像块对应的均方差损失函数，可参见下述公式1：

其中，

表示掩码图像块对应的均方差损失函数，

表示掩码图像块，

表示掩码图像块对应的解码结果，

表示预设掩码补丁。

示例地，解码结果对包括第一解码结果和第二解码结果，根据各掩码图像块对应的解码结果，确定图像样本对应的语义一致性损失函数时，可以分别计算第二数量个掩码图像块中各掩码图像块对应的语义一致性损失函数，再根据各掩码图像块对应的语义一致性损失函数，计算第二数量个语义一致性损失函数的平均语义一致性损失函数，并将平均语义一致性损失函数，确定为图像样本对应的语义一致性损失函数，从而获取到图像样本对应的语义一致性损失函数。

可以理解的是，鉴于各掩码图像块对应的语义一致性损失函数的获取方法类似，因此，将以获取第二数量个掩码图像块中，任意一个掩码图像块对应的语义一致性损失函数为例进行描述。

示例地，根据掩码图像块对应的解码结果，确定掩码图像块对应的语义一致性损失函数时，可以先确定掩码图像块对应的第一解码结果和第二解码结果的不求导结果之间的第一差值，并根据第一解码结果的不求导结果和第二解码结果之间的第二差值，再根据第一差值和第二差值确定掩码图像块对应的语义一致性损失函数，可参见下述公式2：

其中，

表示掩码图像块对应的语义一致性损失函数，

表示掩码图像块对应的第一解码结果，

表示掩码图像块对应的第一解码结果，

表示不求导函数。

在分别确定出图像样本对应的均方差损失函数和语义一致性损失函数后，就可以结合图像样本对应的均方差损失函数和语义一致性损失函数，共同确定图像样本对应的目标损失函数，可参见下述公式3：

其中，

表示图像样本对应的目标损失函数，

表示均方差损失函数，

表示语义一致性损失函数，

表示均方差损失函数对应的权重，

表示语义一致性损失函数对应的权重，以通过权重控制均方差损失函数和语义一致性损失函数，在计算目标损失函数时的占比。

根据多个图像样本各自对应的目标损失函数，对初始编码模型的模型参数和初始解码模型的模型参数进行更新，以得到最终的目标掩码图像模型。

示例地，根据多个图像样本各自对应的目标损失函数，对初始编码模型的模型参数和初始解码模型的模型参数进行更新时，可以先根据多个图像样本各自对应的目标损失函数，确定多个图像样本对应的平均目标损失函数；再根据平均目标损失函数，对初始编码模型的模型参数和初始解码模型的模型参数进行更新；若更新后的掩码图像模型收敛，则将更新后的掩码图像模型确定为最终训练好的掩码图像模型；若更新后的掩码图像模型未收敛，则重新获取多个图像样本，并采用本发明提供的掩码图像模型训练方法，对更新后的掩码图像模型进行再次训练，直至再次更新后的掩码图像模型收敛，并收敛的掩码图像模型确定为最终训练好的掩码图像模型，从而训练得到训练好的掩码图像模型。

可以看出，本发明实施例中，在训练掩码图像模型时，可以先获取多个图像样本中，各图像样本对应的第一数量个可视化图像块和第二数量个掩码图像块；针对各图像样本，将图像样本对应的第一数量个可视化图像块输入至初始掩码图像模型中的非对称结构的初始编码模型中，得到各可视化图像块对应的编码特征对，并将各可视化图像块对应的编码特征对和第二数量个预设掩码补丁输入至初始掩码图像模型中的初始解码模型中，得到各掩码图像块对应的解码结果对；再根据多个图像样本各自对应的第二数量个掩码图像块和各掩码图像块对应的解码结果对，对初始编码模型的模型参数和初始解码模型的模型参数进行更新，以得到最终的掩码图像模型。这样通过在初始掩码图像模型中设置非对称结构的初始编码模型，并通过非对称结构的初始编码模型增强编码特征，不仅可以解决直接采用对比学习自监督算法对图像进行特征增强时导致的图像块的属性完全改变的问题，而且还可以通过对比学习自监督算法增强语义特征，以较好地体现图像块语义一致性，因此，使得训练得到的掩码图像模型具有较好的图像块语义一致性，基于训练得到的掩码图像模型可以准确地预测掩码图像块的图像内容，从而提高了预测结果的准确度。

基于上述图1所示的实施例，考虑到掩码图像模型在各类下游任务中，例如图像分类任务、目标检测任务、语义分割任务等具有较为广泛的应用，因此，在训练得到最终的掩码图像模型后，可以将训练好的掩码图像模型中，编码模型的模型参数作为实现下游任务所采用的网络模型中编码器的初始化参数。例如，当下游任务为图像分类任务时，可以将编码模型的模型参数，作为实现图像分类任务所采用的图像分类模型中编码器的初始化参数；当下游任务为目标检测任务时，可以将编码模型的模型参数，作为实现目标检测任务所采用的目标检测模型中编码器的初始化参数；当下游任务为语义分割任务时，可以将编码模型的模型参数，作为实现语义分割任务所采用的语义分割模型中编码器的初始化参数。

结合上述描述，在通过掩码图像模型训练方法，训练得到最终的掩码图像模型后，就可以基于该掩码图像模型，对待预测图像中的掩码图像块的图像内容进行预测，即掩码图像模型的应用。

示例地，可参见图3所示，图3为本发明实施例提供的掩码图像内容预测方法的流程示意图，该预测方法可以包括：

S301、获取待预测图像对应的第三数量个可视化图像块和第四数量个掩码图像块。

其中，第三数量和第四数量均为正整数，其具体取值可以根据实际需要进行设置。通常情况下，第三数量个可视化图像块和第四数量个掩码图像块之间不存在重叠区域。

示例地，获取待预测图像时，可以接收其他电子设备发送的待预测图像，也可以从本地存储中获取待预测图像，当然，也可以从其它第三方数据库中获取待预测图像，具体可以根据实际需要进行设置，在此，对于待预测图像的获取方法，本发明实施例不做具体限制。

示例地，在获取待预测图像对应的第三数量个可视化图像块和第四数量个掩码图像块时，可以采用遵循均匀分布的随机掩码策略，对待预测图像进行掩码处理，得到待预测图像对应的第三数量个可视化图像块和第四数量个掩码图像块。

示例地，采用遵循均匀分布的随机掩码策略，对待预测图像进行掩码处理的操作也可以独立于掩码图像模型执行，这样可以直接将待预测图像对应的第三数量个可视化图像块和第四数量个掩码图像块输入至掩码图像模型中；也可以通过掩码图像模型获取待预测图像对应的第三数量个可视化图像块和第四数量个掩码图像块。示例地，掩码图像模型中还可以包括预处理模型，可以先将待预测图像输入至掩码图像模型中的预处理模型中，通过该预处理模型对待预测图像进行掩码处理，从而得到待预测图像对应的第三数量个可视化图像块和第四数量个掩码图像块，具体可以根据实际需要进行设置，在此，本发明实施例只是以这两种方式为例进行说明，但并不代表本发明实施例仅局限于此。

在获取到待预测图像对应的第三数量个可视化图像块和第四数量个掩码图像块后，就可以执行下述S302：

S302、将第三数量个可视化图像块输入至掩码图像模型中的非对称结构的编码模型中，得到各可视化图像块对应的编码特征对，并将各可视化图像块对应的编码特征对和第四数量个预设掩码补丁输入至掩码图像模型中的解码模型中，得到各掩码图像块对应的解码结果对；其中，解码结果对中的两个解码结果均用于描述预测的掩码图像块的图像内容。

示例地，非对称结构的编码模型包括两个并联的第一编码模型和第二编码模型，其中，第一编码模型包括编码器，且第二编码模型包括编码器和随机失活网络；或者，第一编码模型包括编码器，且第二编码模型包括编码器和自注意力网络。

将第三数量个可视化图像块输入至掩码图像模型中的非对称结构的编码模型中，得到各可视化图像块对应的编码特征对时，可以将第三数量个可视化图像块分别输入至第一编码模型和第二编码模型中，通过第一编码模型得到各可视化图像块对应的第一编码特征，并通过第二编码模型得到各可视化图像块对应的第二编码特征；其中，各可视化图像块对应的第一编码特征和第二编码特征构成各可视化图像块对应的编码特征对。

可以理解的是，解码模型的输出即为掩码图像模型的输出。通常情况下，该解码模型的输出除了包括各掩码图像块对应的解码结果对之外，还可以包括其他各可视化图像块对应的解码结果，在此，本发明实施例只是以解码模型的输出各掩码图像块对应的解码结果对为例进行说明，但并不代表本发明实施例仅局限于此。

示例地，在本发明实施例中，非对称结构的编码模型包括下述至少两种可能的设计方式：

在一种可能的设计方式中，非对称结构的编码模型可以包括两个并联的第一编码模型和第二编码模型，其中，第一编码模型包括编码器，且第二编码模型包括编码器和随机失活网络，示例地，随机失活网络可以为dropout网络，也可以为其他随机失活网络，具体可以根据实际需要进行设置。示例地，在随机失活网络为dropout网络时，其概率设置为0.25。

基于该种设计方式的非对称结构的编码模型，在获取可视化图像块对应的编码特征对时，可以将待预测图像对应的第三数量个可视化图像块分别输入至包括编码器的第一编码模型、以及包括编码器和随机失活网络的第二编码模型中，通过编码器得到各可视化图像块对应的第一编码特征，并通过编码器和随机失活网络得到各可视化图像块对应的第二编码特征，该各可视化图像块对应的第一编码特征和第二编码特征构成各可视化图像块对应的编码特征对，从而得到可视化图像块对应的编码特征对。

在一种可能的设计方式中，非对称结构的编码模型可以包括两个并联的第一编码模型和第二编码模型，其中，第一编码模型包括编码器，且第二编码模型包括编码器和自注意力网络。

基于该种设计方式的非对称结构的编码模型，在获取可视化图像块对应的编码特征对时，可以将待预测图像对应的第三数量个可视化图像块分别输入至包括编码器的第一编码模型、以及包括编码器和自注意力网络的第二编码模型中，通过编码器得到各可视化图像块对应的第一编码特征，并通过编码器和自注意力网络得到各可视化图像块对应的第二编码特征，该各可视化图像块对应的第一编码特征和第二编码特征构成各可视化图像块对应的编码特征对，从而得到可视化图像块对应的编码特征对。

在通过非对称结构的编码模型获取到各可视化图像块对应的编码特征对后，可以将各可视化图像块对应的编码特征对和第四数量个预设掩码补丁输入至解码模型中，以预测得到各掩码图像块对应的解码结果对。示例地，在将各可视化图像块对应的编码特征对和第四数量个预设掩码补丁输入至解码模型时，可以将各可视化图像块对应的编码特征对和第四数量个预设掩码补丁以合并的方式，输入至解码模型中，预测得到各掩码图像块对应的解码结果对，从而增强了掩码图像块语义的一致性，并为图像内容预测增加了可学习性。示例地，在后续的描述中，解码结果对中的两个解码结果可以采用predori和predaug表示。

可以看出，本发明实施例中，在预测掩码图像内容时，可以获取待预测图像对应的第三数量个可视化图像块和第四数量个掩码图像块；将第三数量个可视化图像块输入至掩码图像模型中的非对称结构的编码模型中，得到各可视化图像块对应的编码特征对，并将各可视化图像块对应的编码特征对和第四数量个预设掩码补丁输入至掩码图像模型中的解码模型中，得到各掩码图像块对应的解码结果对；其中，解码结果对中的两个解码结果均用于描述预测的掩码图像块的图像内容。鉴于掩码图像模型具有较好的图像块语义一致性，因此，基于掩码图像模型可以准确地预测掩码图像块的图像内容，从而提高了预测结果的准确度。

下面对本发明提供的掩码图像模型训练装置和掩码图像内容预测装置进行描述，下文描述的掩码图像模型训练装置与上文描述的掩码图像模型训练方法可相互对应参照，掩码图像内容预测装置与上文描述的掩码图像内容预测方法可相互对应参照。

图4为本发明实施例提供的掩码图像模型训练装置40的结构示意图，示例的，请参见图4所示，该掩码图像模型的训练装置40可以包括：

获取单元401，用于获取多个图像样本中，各图像样本对应的第一数量个可视化图像块和第二数量个掩码图像块。

处理单元402，用于针对各图像样本，将图像样本对应的第一数量个可视化图像块输入至初始掩码图像模型中的非对称结构的初始编码模型中，得到各可视化图像块对应的编码特征对，并将各可视化图像块对应的编码特征对和第二数量个预设掩码补丁输入至初始掩码图像模型中的初始解码模型中，得到各掩码图像块对应的解码结果对；其中，解码结果对中的两个解码结果均用于描述预测的掩码图像块的图像内容。

更新单元403，用于根据多个图像样本各自对应的第二数量个掩码图像块和各掩码图像块对应的解码结果对，对初始编码模型的模型参数和初始解码模型的模型参数进行更新。

可选地，非对称结构的初始编码模型包括两个并联的第一初始编码模型和第二初始编码模型，其中，第一初始编码模型包括编码器，且第二初始编码模型包括编码器和随机失活网络；或者，第一初始编码模型包括编码器，且第二初始编码模型包括编码器和自注意力网络。

处理单元402，具体用于将第一数量个可视化图像块分别输入至第一初始编码模型和第二初始编码模型中，通过第一初始编码模型得到各可视化图像块对应的第一编码特征，并通过第二初始编码模型得到各可视化图像块对应的第二编码特征；其中，各可视化图像块对应的第一编码特征和第二编码特征构成各可视化图像块对应的编码特征对。

可选地，更新单元403，具体用于针对各图像样本，根据图像样本对应的第二数量个掩码图像块和各掩码图像块对应的解码结果对，确定图像样本对应的目标损失函数；根据多个图像样本各自对应的目标损失函数，对初始编码模型的模型参数和初始解码模型的模型参数进行更新。

可选地，更新单元403，具体用于根据图像样本对应的第二数量个掩码图像块、各掩码图像块对应的解码结果对以及预设掩码补丁，确定图像样本对应的均方差损失函数；根据各掩码图像块对应的解码结果，确定图像样本对应的语义一致性损失函数；根据均方差损失函数和语义一致性损失函数，确定目标损失函数。

可选地，更新单元403，具体用于针对各掩码图像块，确定掩码图像块和掩码图像块对应的解码结果之间的差值，并根据差值和预设掩码补丁，确定掩码图像块对应的均方差损失函数；根据各掩码图像块对应的均方差损失函数，确定第二数量个掩码图像块对应的平均均方差损失函数；将平均均方差损失函数，确定为图像样本对应的均方差损失函数。

可选地，解码结果对包括第一解码结果和第二解码结果，更新单元403，具体用于针对各掩码图像块，确定掩码图像块对应的第一解码结果和第二解码结果的不求导结果之间的第一差值，并根据第一解码结果的不求导结果和第二解码结果之间的第二差值，根据第一差值和第二差值确定掩码图像块对应的语义一致性损失函数；根据各掩码图像块对应的语义一致性损失函数，确定第二数量个掩码图像块对应的平均语义一致性损失函数；将平均语义一致性损失函数，确定为图像样本对应的语义一致性损失函数。

可选地，更新单元403，具体用于根据多个图像样本各自对应的目标损失函数，确定多个图像样本对应的平均目标损失函数；根据平均目标损失函数，对初始编码模型的模型参数和初始解码模型的模型参数进行更新。

可选地，获取单元401，具体用于将多个图像样本输入至初始掩码图像模型中的预处理模型中，得到各图像样本对应的第一数量个可视化图像块和第二数量个掩码图像块。

本发明实施例提供的掩码图像模型训练装置40，可以执行上述任一实施例中掩码图像模型训练方法的技术方案，其实现原理以及有益效果与掩码图像模型训练方法的实现原理及有益效果类似，可参见掩码图像模型训练方法的实现原理及有益效果，此处不再进行赘述。

图5为本发明实施例提供的掩码图像内容预测装置50的结构示意图，示例的，请参见图5所示，该掩码图像内容预测装置50可以包括：

获取单元501，用于获取待预测图像对应的第三数量个可视化图像块和第四数量个掩码图像块。

预测单元502，用于将第三数量个可视化图像块输入至掩码图像模型中的非对称结构的编码模型中，得到各可视化图像块对应的编码特征对，并将各可视化图像块对应的编码特征对和第四数量个预设掩码补丁输入至掩码图像模型中的解码模型中，得到各掩码图像块对应的解码结果对；其中，解码结果对中的两个解码结果均用于描述预测的掩码图像块的图像内容。

可选地，非对称结构的编码模型包括两个并联的第一编码模型和第二编码模型，其中，第一编码模型包括编码器，且第二编码模型包括编码器和随机失活网络；或者，第一编码模型包括编码器，且第二编码模型包括编码器和自注意力网络。

预测单元502，具体用于将第三数量个可视化图像块分别输入至第一编码模型和第二编码模型中，通过第一编码模型得到各可视化图像块对应的第一编码特征，并通过第二编码模型得到各可视化图像块对应的第二编码特征；其中，各可视化图像块对应的第一编码特征和第二编码特征构成各可视化图像块对应的编码特征对。

可选地，获取单元501，具体用于将待预测图像输入至掩码图像模型中的预处理模型中，得到待预测图像对应的第三数量个可视化图像块和第四数量个掩码图像块。

本发明实施例提供的掩码图像内容预测装置50，可以执行上述任一实施例中掩码图像内容预测方法的技术方案，其实现原理以及有益效果与掩码图像内容预测方法的实现原理及有益效果类似，可参见掩码图像内容预测方法的实现原理及有益效果，此处不再进行赘述。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)601、通信接口(Communications Interface)602、存储器(memory)603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信。处理器601可以调用存储器603中的逻辑指令，以执行掩码图像模型训练方法，或者，以执行掩码图像内容预测方法。

其中，掩码图像模型训练方法包括：获取多个图像样本中，各图像样本对应的第一数量个可视化图像块和第二数量个掩码图像块；针对各图像样本，将图像样本对应的第一数量个可视化图像块输入至初始掩码图像模型中的非对称结构的初始编码模型中，得到各可视化图像块对应的编码特征对，并将各可视化图像块对应的编码特征对和第二数量个预设掩码补丁输入至初始掩码图像模型中的初始解码模型中，得到各掩码图像块对应的解码结果对；其中，解码结果对中的两个解码结果均用于描述预测的掩码图像块的图像内容；根据多个图像样本各自对应的第二数量个掩码图像块和各掩码图像块对应的解码结果对，对初始编码模型的模型参数和初始解码模型的模型参数进行更新。

掩码图像内容预测方法包括：获取待预测图像对应的第三数量个可视化图像块和第四数量个掩码图像块；将第三数量个可视化图像块输入至掩码图像模型中的非对称结构的编码模型中，得到各可视化图像块对应的编码特征对，并将各可视化图像块对应的编码特征对和第四数量个预设掩码补丁输入至掩码图像模型中的解码模型中，得到各掩码图像块对应的解码结果对；其中，解码结果对中的两个解码结果均用于描述预测的掩码图像块的图像内容。

此外，上述的存储器603中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的掩码图像模型训练方法，或者，执行上述各方法所提供的掩码图像内容预测方法。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的掩码图像模型训练方法，或者，执行上述各方法所提供的掩码图像内容预测方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种掩码图像模型训练方法，其特征在于，包括：

获取多个图像样本中，各图像样本对应的第一数量个可视化图像块和第二数量个掩码图像块；

针对所述各图像样本，将所述图像样本对应的第一数量个可视化图像块输入至初始掩码图像模型中的非对称结构的初始编码模型中，得到各可视化图像块对应的编码特征对，并将所述各可视化图像块对应的编码特征对和第二数量个预设掩码补丁输入至所述初始掩码图像模型中的初始解码模型中，得到各掩码图像块对应的解码结果对；其中，解码结果对中的两个解码结果均用于描述预测的所述掩码图像块的图像内容；

2.根据权利要求1所述的掩码图像模型训练方法，其特征在于，所述非对称结构的初始编码模型包括两个并联的第一初始编码模型和第二初始编码模型，其中，所述第一初始编码模型包括编码器，且所述第二初始编码模型包括编码器和随机失活网络；或者，所述第一初始编码模型包括编码器，且所述第二初始编码模型包括编码器和自注意力网络；

将所述第一数量个可视化图像块分别输入至所述第一初始编码模型和所述第二初始编码模型中，通过所述第一初始编码模型得到所述各可视化图像块对应的第一编码特征，并通过所述第二初始编码模型得到所述各可视化图像块对应的第二编码特征；

3.根据权利要求1或2所述的掩码图像模型训练方法，其特征在于，所述根据所述多个图像样本各自对应的第二数量个掩码图像块和所述各掩码图像块对应的解码结果对，对所述初始编码模型的模型参数和所述初始解码模型的模型参数进行更新，包括：

针对所述各图像样本，根据所述图像样本对应的第二数量个掩码图像块和所述各掩码图像块对应的解码结果对，确定所述图像样本对应的目标损失函数；

4.根据权利要求3所述的掩码图像模型训练方法，其特征在于，所述根据所述图像样本对应的第二数量个掩码图像块和所述各掩码图像块对应的解码结果对，确定所述图像样本对应的目标损失函数，包括：

根据所述图像样本对应的第二数量个掩码图像块、所述各掩码图像块对应的解码结果对以及所述预设掩码补丁，确定所述图像样本对应的均方差损失函数；

根据所述各掩码图像块对应的解码结果，确定所述图像样本对应的语义一致性损失函数；

5.根据权利要求4所述的掩码图像模型训练方法，其特征在于，所述根据所述图像样本对应的第二数量个掩码图像块、所述各掩码图像块对应的解码结果对以及所述预设掩码补丁，确定所述图像样本对应的均方差损失函数，包括：

针对所述各掩码图像块，确定所述掩码图像块和所述掩码图像块对应的解码结果之间的差值，并根据所述差值和所述预设掩码补丁，确定所述掩码图像块对应的均方差损失函数；

根据所述各掩码图像块对应的均方差损失函数，确定所述第二数量个掩码图像块对应的平均均方差损失函数；

6.根据权利要求4所述的掩码图像模型训练方法，其特征在于，所述解码结果对包括第一解码结果和第二解码结果，所述根据所述各掩码图像块对应的解码结果，确定所述图像样本对应的语义一致性损失函数，包括：

针对所述各掩码图像块，确定所述掩码图像块对应的第一解码结果和所述第二解码结果的不求导结果之间的第一差值，并根据所述第一解码结果的不求导结果和所述第二解码结果之间的第二差值，根据所述第一差值和所述第二差值确定所述掩码图像块对应的语义一致性损失函数；

根据所述各掩码图像块对应的语义一致性损失函数，确定所述第二数量个掩码图像块对应的平均语义一致性损失函数；

7.根据权利要求3所述的掩码图像模型训练方法，其特征在于，所述根据所述多个图像样本各自对应的目标损失函数，对所述初始编码模型的模型参数和所述初始解码模型的模型参数进行更新，包括：

根据所述多个图像样本各自对应的目标损失函数，确定所述多个图像样本对应的平均目标损失函数；

8.根据权利要求1或2所述的掩码图像模型训练方法，其特征在于，所述获取多个图像样本中，各图像样本对应的第一数量个可视化图像块和第二数量个掩码图像块，包括：

9.一种掩码图像内容预测方法，其特征在于，包括：

获取待预测图像对应的第三数量个可视化图像块和第四数量个掩码图像块；

10.根据权利要求9所述的掩码图像内容预测方法，其特征在于，所述非对称结构的编码模型包括两个并联的第一编码模型和第二编码模型，其中，所述第一编码模型包括编码器，且所述第二编码模型包括编码器和随机失活网络；或者，所述第一编码模型包括编码器，且所述第二编码模型包括编码器和自注意力网络；

将所述第三数量个可视化图像块分别输入至所述第一编码模型和所述第二编码模型中，通过所述第一编码模型得到所述各可视化图像块对应的第一编码特征，并通过所述第二编码模型得到所述各可视化图像块对应的第二编码特征；

11.根据权利要求9或10所述的掩码图像内容预测方法，其特征在于，所述获取待预测图像对应的第三数量个可视化图像块和第四数量个掩码图像块，包括：

12.一种掩码图像模型训练装置，其特征在于，包括：

获取单元，用于获取多个图像样本中，各图像样本对应的第一数量个可视化图像块和第二数量个掩码图像块；

处理单元，用于针对所述各图像样本，将所述图像样本对应的第一数量个可视化图像块输入至初始掩码图像模型中的非对称结构的初始编码模型中，得到各可视化图像块对应的编码特征对，并将所述各可视化图像块对应的编码特征对和第二数量个预设掩码补丁输入至所述初始掩码图像模型中的初始解码模型中，得到各掩码图像块对应的解码结果对；其中，解码结果对中的两个解码结果均用于描述预测的所述掩码图像块的图像内容；

13.一种掩码图像内容预测装置，其特征在于，包括：

14.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述的掩码图像模型训练方法；或者，现如权利要求9至11任一项所述的掩码图像内容预测方法。

15.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的掩码图像模型训练方法；或者，现如权利要求9至11任一项所述的掩码图像内容预测方法。