CN115880381A

CN115880381A - 图像处理方法、图像处理装置、模型训练方法

Info

Publication number: CN115880381A
Application number: CN202111144470.1A
Authority: CN
Inventors: 任聪; 刘衡祁; 徐科; 孔德辉; 宋剑军; 易自尧; 杨维
Original assignee: Sanechips Technology Co Ltd
Current assignee: Sanechips Technology Co Ltd
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2023-03-31
Also published as: WO2023050720A1

Abstract

本发明公开了一种图像处理方法、图像处理装置、模型训练方法，所述图像处理方法包括获取待处理图像，所述待处理图像由原始图像经解码处理后得到；获取所述原始图像在编码时的编码单元划分信息，所述编码单元划分信息包括各个编码单元的第一位置信息和第一大小信息；根据所述第一位置信息和所述第一大小信息将所述待处理图像进行划分，得到多个与所述编码单元对应的特征块；通过Transformer模块的自注意力机制建立多个所述特征块之间的联系，得到与所述原始图像对应的第一输出图像，可以更好地去除相邻特征块之间的差异性，使得块间过度更平滑，有利于增强图像画质。

Description

图像处理方法、图像处理装置、模型训练方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种图像处理方法、图像处理装置、模型训练方法。

背景技术

随着技术的不断发展，人们对于图像画质的需求也越来越高，若数据量过大，在网络宽带或存储空间等因素的影响下，容易导致传输困难或存储困难，例如未经压缩的数字视频的数据量巨大，因此在数据传输或存储过程中需要对原始数据进行编码压缩，以去除空间、时间维度的冗余，通过传输系统将压缩的数据从编码端传输至解码端，经过解码能够还原原始数据。为了更好地提高编码质量，图像通常采用基于编码单元(Cod ing Un it，CU)的四叉树块分区结构，以最小率失真代价的方式划分出最佳编码单元，对每个编码单元分别进行编码，即采用基于块的编码方式进行编码，而随着码率的降低,量化变得粗糙,在块的边界会出现不连续,形成重建图像的明显缺陷,即产生块效应，由于相邻块之间存在明显差异的想象，使得原始视频在编解码后会产生失真，导致用户体验不佳。

目前相关技术所采用的图像画质增强算法能够对编解码的结果进行优化，例如直方图均衡化或伽马校正，但是上述算法主要是通过人为总结经验和人眼特性去进行图像增强，很大程度上受到图像场景的约束，限制了画质提升的能力，另外也有利用深度学习中的卷积神经网络进行画质增强，卷积在提取特征时是通过局部感受野进行提取，在一定程度上忽视了块与块的相关性，图像画质依旧难以保证。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种图像处理方法、图像处理装置、模型训练方法、训练设备及计算机可读存储介质，可以更好地去除相邻特征块之间的差异性，使得块间过度更平滑，有利于增强图像画质。

第一方面，本发明实施例提供一种图像处理方法，所述方法包括：

获取待处理图像，所述待处理图像由原始图像经解码处理后得到；

获取所述原始图像在编码时的编码单元划分信息，所述编码单元划分信息包括各个编码单元的第一位置信息和第一大小信息；

根据所述第一位置信息和所述第一大小信息将所述待处理图像进行划分，得到多个与所述编码单元对应的特征块；

通过Transformer模块的自注意力机制建立多个所述特征块之间的联系，得到与所述原始图像对应的第一输出图像。

第二方面，本发明实施例提供一种图像处理装置，包括划分模块和Transformer模块，所述划分模块用于获取由原始图像经解码处理后得到的待处理图像，以及获取所述原始图像在编码时的编码单元划分信息，所述编码单元划分信息包括各个编码单元的第一位置信息和第一大小信息，并根据所述第一位置信息和所述第一大小信息将所述待处理图像进行划分，得到多个与所述编码单元对应的特征块；所述Transformer模块用于通过自注意力机制建立多个所述特征块之间的联系，得到与所述原始图像对应的第一输出图像。

第三方面，本发明实施例提供一种模型训练方法，所述模型包括Transformer模块，所述方法包括：

获取待处理图像，所述待处理图像为构建的训练集中的训练样本，其中，所述待处理图像由原始图像经解码处理后得到；

将所述待处理图像和所述编码单元划分信息输入所述模型中，根据所述第一位置信息和所述第一大小信息将所述待处理图像进行划分，得到多个与所述编码单元对应的特征块；

通过所述Transformer模块的自注意力机制建立多个所述特征块之间的联系，得到与所述原始图像对应的第一输出图像；

根据所述第一输出图像和目标函数对所述模型进行训练，得到训练后的模型。

第四方面，本发明实施例提供一种图像处理装置，包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行如上第一方面所述的图像处理方法。

第五方面，本发明实施例提供一种训练设备，包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行如上第三方面所述的模型训练方法。

第六方面，本发明实施例提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如上第一方面所述的图像处理方法或者如上第三方面所述的模型训练方法。

本发明实施例包括：图像处理方法、图像处理装置、模型训练方法、训练设备及计算机可读存储介质。根据本发明实施例提供的方案，通过获取原始图像在编码时的编码单元划分信息，编码单元划分信息包括各个编码单元的第一位置信息和第一大小信息，依据编码单元划分信息将待处理图像划分成多个特征块，以充分利用局部编码信息，使得划分后的特征块与编码单元相对应，再利用Transformer模块的自注意力机制建立特征块之间的联系，即建立起全局信息，通过局部信息和全局信息的交互，可以更好地去除相邻特征块之间的差异性，使得块间过度更加平滑，从而更好地增强经编解码处理后的图像的画质。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

下面结合附图和实施例对本发明进一步地说明；

图1是本发明一个实施例提供的图像处理方法的步骤流程图；

图2是本发明另一个实施例提供的图像处理方法的步骤流程图；

图3是本发明另一个实施例提供的图像处理方法的步骤流程图；

图4是本发明另一个实施例提供的图像处理方法的步骤流程图；

图5是本发明另一个实施例提供的图像处理方法的步骤流程图；

图6是本发明另一个实施例提供的图像处理装置的结构示意图；

图7是本发明另一个实施例提供的Transformer模块的结构示意图；

图8是本发明另一个实施例提供的模型训练方法的步骤流程图；

图9是本发明另一个实施例提供的模型训练方法的步骤流程图；

图10是本发明另一个实施例提供的模型训练方法的步骤流程图；

图11是本发明另一个实施例提供的模型训练方法的步骤流程图；

图12是本发明另一个实施例提供的图像处理装置的结构示意图；

图13是本发明另一个实施例提供的训练设备的结构示意图。

具体实施方式

本部分将详细描述本发明的具体实施例，本发明之较佳实施例在附图中示出，附图的作用在于用图形补充说明书文字部分的描述，使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案，但其不能理解为对本发明保护范围的限制。

在本发明的描述中，如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

下面结合附图，对本发明实施例作进一步阐述。

参照图1，本发明的第一方面实施例提供一种图像处理方法，包括但不限于步骤S110、步骤S120、步骤S130和步骤S140：

步骤S110：获取待处理图像，待处理图像由原始图像经解码处理后得到；

需要说明的是，为了提高图像数据的传输效率和存储的可靠性，原始图像一般需经过编码和解码处理，由于编解码会对原始图像造成一定的耗损，从而影响画质，给用户带来不好的体验感，因此需对解码处理后得到的图像进行画质增强，画质就是画面质量，其跟图像的有损程度相关，图像在编码过程中如果损失了图像信息，则其画面质量也相应的降低。可以理解的是，待处理图像可以为文本图像或视频图像。

步骤S120：获取原始图像在编码时的编码单元划分信息，编码单元划分信息包括各个编码单元的第一位置信息和第一大小信息；

需要说明的是，为了更好地提高编码质量，采用基于编码单元的四叉树块分区结构，以最小率失真代价的方式划分出最佳编码单元，对每个编码单元分别进行编码，这样能灵活地适应各种图像的纹理特征，显著提高编码效率。划分出的编码单元支持不同的大小，这样划分的好处是，一方面尺寸较大的编码单元可以使得平缓区域的编码效率大大提高，另一方面尺寸较小的编码单元能够很好地处理图像局部的细节，从而可以使复杂图像的预测更加准确。通过获取原始图像在编码时的编码单元划分信息，能够得到每个编码单元的第一位置信息和第一大小信息，从而能够清楚了解编码单元的空间信息。

步骤S130：根据第一位置信息和第一大小信息将待处理图像进行划分，得到多个与编码单元对应的特征块；

由于原始图像经过编解码之后，会产生块效应，从而影响输出图像的画质，相关技术中采用卷积神经网络进行画质增强，卷积在提取特征时通过局部感受野进行提取，这种方式在一定程度上忽视了块与块之间的相关性，卷积神经网络一般基于固定特征块的方式进行画质增强，导致最终增强优化后的图像不如预期。而本发明实施例通过结合编码单元划分信息提取待处理图像的局部特征，即依据第一位置信息和第一大小信息提取局部特征，从而得到多个与编码单元对应的特征块，可以理解的是，特征块的划分方式依据编码单元的划分信息确定，从而使得各个特征块与编码单元对应，结合位置和大小信息划分所得到的特征块之间的相关性更强。

步骤S140：通过Transformer模块的自注意力机制建立多个特征块之间的联系，得到与原始图像对应的第一输出图像。

需要说明的是，在自然语言处理任务中的Transformer模块中的自注意力机制可以有效克服卷积归纳偏差所带来的局限性，更多地考虑到语言全局信息。因此，为了对非局部成分进行学习和推理，本发明实施例通过Transformer模块建立多个特征块之间的联系，由于特征块依据编码单元划分信息进行划分，通过Transformer模块的自注意力机制能够获取编码码中编码单元的远距离依赖关系，并学习不同特征块之间的相关性以建立全局信息，使得建立后的全局信息能够更加符合编码时的规则，从而大大降低相邻块之间的差异性，使得块间过度更加平滑。

根据本发明实施例提供的方案，通过获取原始图像在编码时的编码单元划分信息，编码单元划分信息包括各个编码单元的第一位置信息和第一大小信息，依据编码单元划分信息将待处理图像划分成多个特征块，以充分利用局部编码信息，使得划分后的特征块与编码单元相对应，再利用Transformer模块的自注意力机制建立特征块之间的联系，即建立起全局信息，通过局部信息和全局信息的交互，可以更好地去除相邻特征块之间的差异性，使得块间过度更加平滑，从而更好地增强经编解码处理后的图像的画质。

在上述的图像处理方法中，步骤S130中根据第一位置信息和第一大小信息将待处理图像进行划分，得到多个与编码单元对应的特征块，包括：

将待处理图像按照第一位置信息和第一大小信息划分成多个特征块，以使特征块与原始图像在编码时划分的编码单元的位置和大小相同。

需要说明的是，编码单元划分信息包括各个编码单元的第一位置信息和第一大小信息，将待处理图像按照第一位置信息和第一大小信息进行划分，有效地利用了局部编码信息，得到多个与原始图像在编码时划分的编码单元对应的特征块，各个特征块与各个编码单元的位置一一对应且大小保持一致，即使得划分后的特征块CU₁、CU₂、...、CU_n与编码时保持一致，这些特征块之间的相关性进一步通过Transformer中自注意力机制建立起来，从而包含了丰富的全局信息。

如图2所示，在上述的图像处理方法中，步骤S140中通过Transformer模块的自注意力机制建立多个特征块之间的联系之前，还包括但不限于步骤S210和步骤S220：

步骤S210：将多个特征块压平成多个第一特征数据，得到第一特征序列，其中，第一特征数据以一维向量表示；

步骤S220：将第一特征序列输入至Transformer模块。

需要说明的是，划分后的特征块为二维向量数据，需要将多个特征块压平成以一维向量表示的第一特征数据，并由多个第一特征数据组成第一特征序列，便于将上述的第一特征序列输入至Transformer模块中进行图像增强处理，通过Transformer的自注意力机制学习不同一维数据间的相关性，从而建立起全局信息。具体地，将每个CU₁、CU₂、...、CU_n压平成对应的CU_f1、CU_f2、...、CU_fn，以得到一维数据序列[CU_f1、CU_f2、...、CU_fn]，由于特征块划分的大小可能不一样，因此第一特征数据的长度也可能不一致。

如图3所示，在上述的图像处理方法中，步骤S140中通过Transformer模块的自注意力机制建立多个特征块之间的联系，包括但不限于步骤S310、步骤S320、步骤S330、步骤S340和步骤S350：

步骤S310：根据第一特征数据和第一预设矩阵，得到由多个长度相同的第二特征数据组成的第二特征序列；

步骤S320：通过Transformer模块的自注意力机制建立多个第二特征数据之间的相关性，通过残差连接和变换处理得到第三特征序列，其中，第三特征序列由多个第三特征数据组成；

步骤S330：根据第三特征数据和第二预设矩阵，得到由多个第四特征数据组成的第四特征序列，其中，第四特征数据以一维向量表示；

步骤S340：将第四特征数据还原成以二维向量表示的特征块；

步骤S350：根据多个特征块得到第一输出图像。

需要说明的是，将第一特征序列[CU_f1、CU_f2、...、CU_fn]输入至Transformer模块，由于第一特征数据的长度可能不一致，首先将第一特征序列的多个第一特征数据均转换成相同的长度，第一特征数据以行矩阵的形式表示，通过多个第一特征数据与对应的第一预设矩阵相乘，第一预设矩阵的行数与第一特征数据的列数相同，第一预设矩阵的列数为预设长度，使得计算得到多个长度相同的第二特征数据，以组成第二特征序列。具体地，第一预设矩阵是一系列len_f1×d_model、len_f2×d_model、...、len_fn×d_model的矩阵，其中len_f1、len_f2、...、len_fn一一对应CU_f1、CU_f2、...、CU_fn的长度，即第一预设矩阵的行数与第一特征数据的列数相同，而d_model为预设长度，d_model可以根据实际需求设定，本发明实施例取d_model＝1024，这样将第一特征序列[CU_f1、CU_f2、...、CU_fn]中的第一特征数据分别与对应的第一预设矩阵相乘，即可统一第二特征序列[CU_{em_1}、CU_{em_2}、...、CU_{em_n}]中第二特征数据的长度。然后利用Transformer模块的自注意力机制进行不同第二特征数据间的信息交互，从而获取到全局信息，通过残差连接和归一化步骤，再通过非线性变换得到输出第三特征序列[CU_{en_1}、CU_{en_2}、...、CU_{en_n}]，需要说明的是，n为划分的特征块的数量，其依据不同的编码对象按照最优生成。

通过将第三特征序列还原成各自特征块原始大小，首先将第三特征序列的多个第三特征数据转换成原始长度，通过多个第三特征数据与对应的第二预设矩阵相乘，第二预设阵列是一系列d_model×len_f1、d_model×len_f2、...、d_model×len_fn的矩阵，从而计算得到多个长度不一致第四特征数据，还原成原始长度，并组成一维数据序列[CU_p1、CU_p2、...、CU_pn]，即第四特征序列。然后依据编码单元大小2n×2n，其中n＝4、8、16或32的特性，还原成二维向量表示的特征块，即还原成原始大小。最后将多个特征块拼成完整的图像，这样得到的第一输出图像FM_p就与原始图像保持一致大小。

如图4所示，在上述的图像处理方法中，步骤S320中通过Transformer模块的自注意力机制建立多个第二特征数据之间的相关性，包括但不限于步骤S410和步骤S420：

步骤S410：获取各个特征块在划分时的第二位置信息和第二大小信息；

步骤S420：根据第二位置信息和第二大小信息，通过Transformer模块的自注意力机制建立多个第二特征数据之间的相关性。

需要说明的是，第二位置信息、第二大小信息分别与第一位置信息、第一大小信息相对应，通过获取各个特征块的第二位置信息和第二大小信息，能够清楚特征块的空间信息，通过Transformer模块的自注意力机制建立多个第二特征数据之间的相关性，结合第二位置信息和第二大小信息，便于相邻特征块之间的信息交互。

步骤S350中根据多个特征块得到第一输出图像，包括：

根据第二位置信息将多个特征块拼接成第一输出图像。

通过获取第二位置信息，并根据第二位置信息对特征块进行拼接，能够加强特征块在二维空间的位置表示，有利于大大提高图像的处理效率。

在上述的图像处理方法中，还包括以下步骤：

对第一输出图像进行细节增强处理，得到第二输出图像。

通过Resblock卷积网络结构重建图像细节部分，从而增强图像中的有用信息，具体地，可采用ResNet50结构对第一输出图像进行细节增强处理，提升图像质量，有利于改善图像的视觉效果。需要说明的是，还可以采用其它卷积结构，本发明实施例不作具体限制。

如图5所示，以下将用一个具体实施例对本发明的技术方案进行描述，待处理图像为视频图像，该图像处理方法包括但不限于以下步骤：

步骤S510：获取由原始视频图像经解码处理后得到的待处理图像；

步骤S520：获取原始图像在编码时的编码单元划分信息，编码单元划分信息包括各个编码单元的第一位置信息和第一大小信息；

步骤S530：根据第一位置信息和第一大小信息将待处理图像进行划分，得到多个与编码单元对应的特征块；

步骤S540：将多个特征块压平成对应的第一特征数据，得到第一特征序列，其中，第一特征数据以一维向量表示，将第一特征序列输入至Transformer模块；

步骤S550：第一特征序列与多个对应的第一预设矩阵相乘，得到由多个长度相同的第二特征数据组成的第二特征序列；

步骤S560：获取各个特征块在划分时的第二位置信息和第二大小信息；

步骤S570：根据第二位置信息和第二大小信息，通过Transformer模块的自注意力机制建立多个第二特征数据之间的相关性；

步骤S580：通过残差连接和归一化步骤，再通过非线性变换处理得到第三特征序列，其中，第三特征序列由多个第三特征数据组成；

步骤S590：第三特征序列与多个对应的第二预设矩阵相乘，得到由多个第四特征数据组成的第四特征序列，其中，第四特征数据以一维向量表示；

步骤S5100：将第四特征数据还原成以二维向量表示的特征块；

步骤S5110：根据第二位置信息将多个特征块拼接成第一输出图像；

步骤S5120：对第一输出图像进行细节增强处理，得到第二输出图像。

参照图6，本发明的第二方面实施例提供一种图像处理装置，包括划分模块110和Transformer模块130，划分模块110用于获取由原始图像经解码处理后得到的待处理图像，以及获取原始图像在编码时的编码单元划分信息，编码单元划分信息包括各个编码单元的第一位置信息和第一大小信息，并根据第一位置信息和第一大小信息将待处理图像进行划分，得到多个与编码单元对应的特征块；Transformer模块130用于通过自注意力机制建立多个特征块之间的联系，得到与原始图像对应的第一输出图像。

根据本发明实施例提供的方案，划分模块110的作用是获取原始图像在编码时的编码单元划分信息，编码单元划分信息包括各个编码单元的第一位置信息和第一大小信息，依据编码单元划分信息将待处理图像划分成多个特征块，以充分利用局部编码信息，使得划分后的特征块与编码单元相对应，再利用Transformer模块130的自注意力机制建立特征块之间的联系，即建立起全局信息，通过局部信息和全局信息的交互，可以更好地去除相邻特征块之间的差异性，使得块间过度更加平滑，从而更好地增强经编解码处理后的图像的画质。

需要说明的是，本发明实施例的图像处理装置的具体实施方式及对应的技术效果，可对应参照上述图像处理方法的具体实施方式及对应的技术效果。

在上述的图像处理装置中，根据第一位置信息和第一大小信息将待处理图像进行划分，得到多个与编码单元对应的特征块，包括：

如图6和图7所示，在上述的图像处理装置中，还包括线性映射模块120，线性映射模块120用于将多个特征块压平成多个第一特征数据，得到第一特征序列并输入至Transformer模块130，其中，第一特征数据以一维向量表示。

在上述的图像处理装置中，还包括重建模块140，重建模块140用于对第一输出图像进行细节增强处理，得到第二输出图像。

示例性的，划分模块110将输入的待处理图像按照编码单元划分信息进行划分，得到多个特征块CU₁、CU₂、...、CU_n，然后经过线性映射模块120将每个CU₁、CU₂、...、CU_n压平成对应的一维数据序列[CU_f1、CU_f2、...、CU_fn]，将上述的一维数据序列[CU_f1、CU_f2、...、CU_fn]，即第一特征序列输入至Transformer模块130中，通过Transformer模块130的自注意力机制学习不同一维数据间的相关性，得到与原始图像对应的第一输出图像，再通过重建模块140对第一输出图像进行细节增强处理，得到第二输出图像。

如图6和图7所示，在上述的图像处理装置中，Transformer模块130包括嵌入层(Embedding)131、多个编码块(Encoder)132和拼接层(Jigsaw Puzzle)133，多个编码块132相互堆叠而成，N表示堆叠的数量。编码块132包括依次相邻的自注意力机制层(Self-attention)、加和与归一化层(Add&Norm)、前馈网络层(Feed-forward)和加和与归一化层。

嵌入层131用于根据第一特征数据和第一预设矩阵，得到由多个长度相同的第二特征数据组成的第二特征序列；自注意力机制层用于建立多个第二特征数据之间的相关性；自注意力机制层的输出数据依次通过加和与归一化层处理、通过前馈网络层进行非线性变换得到第三特征序列，其中，第三特征序列由多个第三特征数据组成，再将第三特征序列输入加和与归一化层进行处理，最后将编码块132的输出输入至拼接层133；拼接层133用于根据第三特征数据和第二预设矩阵，得到由多个第四特征数据组成的第四特征序列，其中，第四特征数据以一维向量表示，并将第四特征数据还原成以二维向量表示的特征块，根据多个特征块得到第一输出图像FM_p。

在上述的Transformer模块130中，建立多个第二特征数据之间的相关性包括：获取各个特征块在划分时的第二位置信息和第二大小信息，并根据第二位置信息和第二大小信息，通过Transformer模块130的自注意力机制建立多个第二特征数据之间的相关性。

需要说明的是，第二位置信息、第二大小信息分别与第一位置信息、第一大小信息相对应，通过获取各个特征块的第二位置信息和第二大小信息，能够清楚特征块的空间信息，通过Transformer模块130的自注意力机制建立多个第二特征数据之间的相关性，结合第二位置信息和第二大小信息，便于相邻特征块之间的信息交互。

在上述的Transformer模块130中，根据多个特征块得到第一输出图像，包括：根据第二位置信息将多个特征块拼接成第一输出图像。通过获取第二位置信息，并根据第二位置信息对特征块进行拼接，能够加强特征块在二维空间的位置表示，有利于大大提高图像的处理效率。

示例性的，N＝8，将第一特征序列[CU_f1、CU_f2、...、CU_fn]输入至Transformer模块130，首先经过可学习的操作嵌入层131将长度都转换成d_model长度，例如取d_model＝1024，嵌入层131是一系列len_f1×d_model、len_f2×d_model、...、len_fn×d_model的矩阵，其中len_f1、len_f2、...、len_fn一一对应CU_f1、CU_f2、...、CU_fn的长度，第一预设矩阵的行数与第一特征数据的列数相同，这样将第一特征序列中的第一特征数据CU_f1、CU_f2、...、CU_fn分别与对应的第一预设矩阵相乘，即可统一第二特征序列[CU_{em_1}、CU_{em_2}、...、CU_{em_n}]中第二特征数据的长度，将第二特征序列结合第二位置信息和第二大小信息输入到后续的编码块132，通过自注意力机制层进行不同第二特征数据间的信息交互，输出数据经加和与归一化层处理，并通过前馈网络层进行非线性变换得到第三特征序列[CU_{en_1}、CU_{en_2}、...、CU_{en_n}]，再通过加和与归一化层处理数据，最后将编码块132的输出输入至拼接层133，拼接层133将第三特征序列还原成各自特征块原始大小，即与一系列d_model×len_f1、d_model×len_f2、...、d_model×len_fn的第二预设矩阵相乘，从而计算得到多个长度不一致第四特征数据，以组成一维数据序列[CU_p1、CU_p2、...、CU_pn]，即第四特征序列，并根据编码单元大小2n×2n，其中n＝4、8、16或32的特性，还原成二维向量表示的特征块，最后将多个特征块拼成完整的图像，这样得到的第一输出图像FM_p就与原始图像保持一致大小。

需要说明的是，上述图像处理装置可以部署在图像处理装置中，图像处理装置可以是智能手机、平板电脑、摄像机等移动终端，还可以是台式电脑、机器人、服务器等能够处理图像数据的设备。

参照图8，本发明的第三方面实施例提供一种模型训练方法，模型包括Transformer模块，该模型训练方法包括但不限于步骤S610、步骤S620、步骤S630、步骤S640和步骤S650：

步骤S610：获取待处理图像，待处理图像为构建的训练集中的训练样本，其中，待处理图像由原始图像经解码处理后得到；

步骤S620：获取原始图像在编码时的编码单元划分信息，编码单元划分信息包括各个编码单元的第一位置信息和第一大小信息；

步骤S630：将待处理图像和编码单元划分信息输入模型中，根据第一位置信息和第一大小信息将待处理图像进行划分，得到多个与编码单元对应的特征块；

步骤S640：通过Transformer模块的自注意力机制建立多个特征块之间的联系，得到与原始图像对应的第一输出图像；

步骤S650：根据第一输出图像、原始图像和目标函数对模型进行训练，得到训练后的模型。

根据本发明实施例提供的方案，通过获取待处理图像，待处理图像为构建的训练集中的训练样本，并获取原始图像在编码时的编码单元划分信息，编码单元划分信息包括各个编码单元的第一位置信息和第一大小信息，依据编码单元划分信息将待处理图像划分成多个特征块，即结合编码单元划分信息提取训练块，以充分利用局部编码信息，使得划分后的特征块与编码单元相对应，再利用Transformer模块的自注意力机制建立特征块之间的联系，即建立起全局信息，从而得到训练样本的第一输出图像，并根据第一输出图像和目标函数对模型进行训练，得到训练后的模型，通过局部信息和全局信息的交互，可以更好地去除相邻特征块之间的差异性，使得块间过度更加平滑，使得训练后的模型能够更好地增强图像的画质。

需要说明的是，目标函数根据以下公式得到：

loss＝||I_recon-I_GT||₁，其中，I_recon是第一输出图像，I_GT是Ground Truth图像，即标注的目标图像，||||₁表示计算L1范数。

在训练模型的过程中，通过不断训练目标函数曲线收敛，以使得模型输出的第一输出图像尽可能靠近目标图像，不断提高模型生成目标图像的能力。

需要说明的是，可以针对不同种类的图像增强任务，设计对应的训练集和目标函数来训练模型，从而得到适用不同图像增强任务的模型，例如，基于由低分辨率图像样本和对应的高分辨率图像样本构成的训练集，对模型进行训练，可以得到能够应用于超分辨率的图像增强任务的图像增强模型，或者基于由模糊图像样本和对应的清晰图像样本构成的训练集，对模型进行训练，可以得到能够应用于去模糊的图像增强任务的图像增强模型。

需要说明的是，训练后的模型可部署在训练设备上，例如，部署在智能手机、笔记本电脑、摄像机等移动终端，或者台式电脑、机器人、服务器等能够处理图像数据的设备上。

在上述的模型训练方法中，步骤S630中根据第一位置信息和第一大小信息将待处理图像进行划分，得到多个与编码单元对应的特征块，包括：

需要说明的是，将待处理图像按照第一位置信息和第一大小信息进行划分，有效地利用了局部编码信息，得到多个与原始图像在编码时划分的编码单元对应的特征块，各个特征块与各个编码单元的位置一一对应且大小保持一致，即使得划分后的特征块CU₁、CU₂、...、CU_n与编码时保持一致，这些特征块之间的相关性进一步通过Transformer中自注意力机制建立起来，从而包含了丰富的全局信息。

在上述的模型训练方法中，步骤S640中通过Transformer模块的自注意力机制建立多个特征块之间的联系之前，还包括以下步骤：

将多个特征块压平成多个第一特征数据，得到第一特征序列，其中，第一特征数据以一维向量表示；

将第一特征序列输入至Transformer模块。

在上述的模型训练方法中，还包括以下步骤：

对第一输出图像进行细节增强处理，得到第二输出图像；

在上述的模型训练方法中，步骤S650中根据第一输出图像和目标函数对模型进行训练，得到训练后的模型，包括：

根据第二输出图像和目标函数对模型进行训练，得到训练后的模型。

如图9所示，以下将用一个具体实施例对本发明的技术方案进行描述，该模型训练方法包括但不限于以下步骤：

步骤S710：获取待处理图像，待处理图像为构建的训练集中的训练样本，其中，待处理图像由原始图像经解码处理后得到；

步骤S720：获取原始图像在编码时的编码单元划分信息，编码单元划分信息包括各个编码单元的第一位置信息和第一大小信息；

步骤S720：将待处理图像和编码单元划分信息输入模型中，根据第一位置信息和第一大小信息将待处理图像进行划分，得到多个与编码单元对应的特征块；

步骤S740：将多个特征块压平成多个第一特征数据，得到第一特征序列，其中，第一特征数据以一维向量表示，并将第一特征序列输入至Transformer模块；

步骤S750：通过Transformer模块的自注意力机制建立多个特征块之间的联系，得到与原始图像对应的第一输出图像；

步骤S760：对第一输出图像进行细节增强处理，得到第二输出图像；

步骤S770：根据第二输出图像和目标函数对模型进行训练，得到训练后的模型。

在上述的模型训练方法中，步骤S640中通过Transformer模块的自注意力机制建立多个特征块之间的联系，包括以下步骤：

根据第一特征数据和第一预设矩阵，得到由多个长度相同的第二特征数据组成的第二特征序列；

通过Transformer模块的自注意力机制建立多个第二特征数据之间的相关性，通过残差连接和变换处理得到第三特征序列，其中，第三特征序列由多个第三特征数据组成；

根据第三特征数据和第二预设矩阵，得到由多个第四特征数据组成的第四特征序列，其中，第四特征数据以一维向量表示；

将第四特征数据还原成以二维向量表示的特征块；

根据多个特征块得到第一输出图像。

需要说明的是，步骤S640中通过Transformer模块的自注意力机制建立多个特征块之间的联系的具体实施方式及对应的技术效果，可对应参照上述图像处理方法中图3所对应的具体实施方式及对应的技术效果。

如图10所示，以下将用一个具体实施例对本发明的技术方案进行描述，该模型训练方法包括但不限于以下步骤：

步骤S810：获取待处理图像，待处理图像为构建的训练集中的训练样本，其中，待处理图像由原始图像经解码处理后得到；

步骤S820：获取原始图像在编码时的编码单元划分信息，编码单元划分信息包括各个编码单元的第一位置信息和第一大小信息；

步骤S830：将待处理图像和编码单元划分信息输入模型中，根据第一位置信息和第一大小信息将待处理图像进行划分，得到多个与编码单元对应的特征块；

步骤S840：将多个特征块压平成多个第一特征数据，得到第一特征序列，其中，第一特征数据以一维向量表示，并将第一特征序列输入至Transformer模块；

步骤S850：根据第一特征数据和第一预设矩阵，得到由多个长度相同的第二特征数据组成的第二特征序列；

步骤S860：通过Transformer模块的自注意力机制建立多个第二特征数据之间的相关性，通过残差连接和变换处理得到第三特征序列，其中，第三特征序列由多个第三特征数据组成；

步骤S870：根据第三特征数据和第二预设矩阵，得到由多个第四特征数据组成的第四特征序列，其中，第四特征数据以一维向量表示；

步骤S880：将第四特征数据还原成以二维向量表示的特征块；

步骤S890：根据多个特征块得到第一输出图像；

步骤S8100：对第一输出图像进行细节增强处理，得到第二输出图像；

步骤S8110：根据第二输出图像和目标函数对模型进行训练，得到训练后的模型。

在上述的模型训练方法中，步骤S860中通过Transformer模块的自注意力机制建立多个第二特征数据之间的相关性，包括以下步骤：

获取各个特征块在划分时的第二位置信息和第二大小信息；

根据第二位置信息和第二大小信息，通过Transformer模块的自注意力机制建立多个第二特征数据之间的相关性。

步骤S890中根据多个特征块得到第一输出图像，包括：

根据第二位置信息将多个特征块拼接成第一输出图像。

需要说明的是，第二位置信息、第二大小信息分别与第一位置信息、第一大小信息相对应，通过获取各个特征块的第二位置信息和第二大小信息，能够清楚特征块的空间信息，通过Transformer模块的自注意力机制建立多个第二特征数据之间的相关性，结合第二位置信息和第二大小信息，便于相邻特征块之间的信息交互。通过获取第二位置信息，并根据第二位置信息对特征块进行拼接，能够加强特征块在二维空间的位置表示，有利于大大提高图像的处理效率。

如图11所示，在上述的模型训练方法中，还包括以下步骤：

步骤S910：根据预设标准判定训练后的模型是否达标，得到测试结果；

步骤S920：若测试结果达标，则保存模型的参数并完成训练；

步骤S930：若测试结果不达标，则继续对模型进行训练。

需要说明的是，利用预设标准判定训练后的模型是否达标，根据测试结果能够提供有效的参考数据，可以根据网络性能判断模型是否达标，预设标准可以为主观质量或者客观指标，例如客观指标可以采用峰值信噪比(Peak Signal to Noise Ratio，PSNR)、结构相似性(Structural Similarity,SSIM)等指标，如果测试结果不达标则继续训练，如果测试结果达标，则保存训练好的模型参数，可以直接通过此模型进行图像画质的增强。

需要说明的是，本发明实施例的模型训练方法的具体实施方式及对应的技术效果，可对应参照上述图像处理方法的具体实施方式及对应的技术效果。

如图12所示，本发明的第四方面实施例提供一种图像处理装置，该装置包括：存储器1210、控制处理器1220及存储在存储器1210上并可在控制处理器1220上运行的计算机程序。

控制处理器1220和存储器1210可以通过总线或者其他方式连接。

实现上述实施例的图像处理方法所需的非暂态软件程序以及指令存储在存储器1210中，当被控制处理器1220执行时，执行上述实施例中的图像处理方法，例如，执行以上描述的图1中的方法步骤S110至方法步骤S140、图2中的方法步骤S210和方法步骤S220、图3中的方法步骤S310至方法步骤S350、图4中的方法步骤S410和方法步骤S420、图5中的方法步骤S510至方法步骤S5120。

如图13所示，本发明的第五方面实施例提供一种训练设备，该训练设备包括：存储器1310、控制处理器1320及存储在存储器1310上并可在控制处理器1320上运行的计算机程序。

控制处理器1320和存储器1310可以通过总线或者其他方式连接。

实现上述实施例的模型训练方法所需的非暂态软件程序以及指令存储在存储器1310中，当被控制处理器1320执行时，执行上述实施例中的模型训练方法，例如，执行以上描述的图8中的方法步骤S610至方法步骤S650、图9中的方法步骤S710至方法步骤S770、图10中的方法步骤S810至方法步骤S8110、图11中的方法步骤S910至方法步骤S930。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

此外，本发明的第六方面实施例提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令可以用于使计算机执行如上第一方面的图像处理方法或者如上第三方面的模型训练方法，例如，执行以上描述的图1中的方法步骤S110至方法步骤S140、图2中的方法步骤S210和方法步骤S220、图3中的方法步骤S310至方法步骤S350、图4中的方法步骤S410和方法步骤S420、图5中的方法步骤S510至方法步骤S5120，或者执行以上描述的图8中的方法步骤S610至方法步骤S650、图9中的方法步骤S710至方法步骤S770、图10中的方法步骤S810至方法步骤S8110、图11中的方法步骤S910至方法步骤S930。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的图像处理方法，其特征在于，所述根据所述第一位置信息和所述第一大小信息将所述待处理图像进行划分，得到多个与所述编码单元对应的特征块，包括：

将所述待处理图像按照所述第一位置信息和所述第一大小信息划分成多个特征块，以使所述特征块与所述原始图像在编码时划分的编码单元的位置和大小相同。

3.根据权利要求1所述的图像处理方法，其特征在于，所述通过Transformer模块的自注意力机制建立多个所述特征块之间的联系之前，还包括：

将多个所述特征块压平成多个第一特征数据，得到第一特征序列，其中，所述第一特征数据以一维向量表示；

将所述第一特征序列输入至所述Transformer模块。

4.根据权利要求3所述的图像处理方法，其特征在于，所述通过Transformer模块的自注意力机制建立多个所述特征块之间的联系，包括：

根据所述第一特征数据和第一预设矩阵，得到由多个长度相同的第二特征数据组成的第二特征序列；

通过Transformer模块的自注意力机制建立多个所述第二特征数据之间的相关性，通过残差连接和变换处理得到第三特征序列，其中，所述第三特征序列由多个第三特征数据组成；

根据所述第三特征数据和第二预设矩阵，得到由多个第四特征数据组成的第四特征序列，其中，所述第四特征数据以一维向量表示；

将所述第四特征数据还原成以二维向量表示的特征块；

根据多个所述特征块得到所述第一输出图像。

5.根据权利要求4所述的图像处理方法，其特征在于，所述通过Transformer模块的自注意力机制建立多个所述第二特征数据之间的相关性，包括：

获取各个所述特征块在划分时的第二位置信息和第二大小信息；

根据所述第二位置信息和所述第二大小信息，通过Transformer模块的自注意力机制建立多个所述第二特征数据之间的相关性；

所述根据多个所述特征块得到所述第一输出图像，包括：

根据所述第二位置信息将多个所述特征块拼接成所述第一输出图像。

6.根据权利要求1所述的图像处理方法，其特征在于，还包括：对所述第一输出图像进行细节增强处理，得到第二输出图像。

7.一种图像处理装置，其特征在于，包括：

划分模块，用于获取由原始图像经解码处理后得到的待处理图像，以及获取所述原始图像在编码时的编码单元划分信息，所述编码单元划分信息包括各个编码单元的第一位置信息和第一大小信息，并根据所述第一位置信息和所述第一大小信息将所述待处理图像进行划分，得到多个与所述编码单元对应的特征块；

Transformer模块，用于通过自注意力机制建立多个所述特征块之间的联系，得到与所述原始图像对应的第一输出图像。

8.根据权利要求7所述的图像处理装置，其特征在于，所述根据所述第一位置信息和所述第一大小信息将所述待处理图像进行划分，得到多个与所述编码单元对应的特征块，包括：

9.根据权利要求7所述的图像处理装置，其特征在于，还包括线性映射模块，所述线性映射模块用于将多个所述特征块压平成多个第一特征数据，得到第一特征序列并输入至所述Transformer模块，其中，所述第一特征数据以一维向量表示。

10.根据权利要求7所述的图像处理装置，其特征在于，还包括重建模块，所述重建模块用于对所述第一输出图像进行细节增强处理，得到第二输出图像。

11.一种模型训练方法，其特征在于，所述模型包括Transformer模块，所述方法包括：

12.根据权利要求11所述的模型训练方法，其特征在于，所述根据所述第一位置信息和所述第一大小信息将所述待处理图像进行划分，得到多个与所述编码单元对应的特征块，包括：

13.根据权利要求11所述的模型训练方法，其特征在于，所述通过Transformer模块的自注意力机制建立多个所述特征块之间的联系之前，还包括：

将所述第一特征序列输入至所述Transformer模块。

14.根据权利要求11所述的模型训练方法，其特征在于，还包括：对所述第一输出图像进行细节增强处理，得到第二输出图像；

所述根据所述第一输出图像和目标函数对所述模型进行训练，得到训练后的模型，包括：

根据所述第二输出图像和目标函数对所述模型进行训练，得到训练后的模型。

15.根据权利要求11所述的模型训练方法，其特征在于，还包括：

根据预设标准判定训练后的模型是否达标，得到测试结果；

若测试结果达标，则保存所述模型的参数并完成训练；

若测试结果不达标，则继续对所述模型进行训练。

16.一种图像处理装置，其特征在于，包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行如权利要求1至6任一项所述的图像处理方法。

17.一种训练设备，其特征在于，包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行如权利要求11至15任一项所述的模型训练方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1至6任一项所述的图像处理方法或者如权利要求11至15任一项所述的模型训练方法。