CN116883245A

CN116883245A - 一种融合变分自编码与混合计算的超高清图像生成方法

Info

Publication number: CN116883245A
Application number: CN202310969612.0A
Authority: CN
Inventors: 黄江平; 易波辰; 李熠
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-08-02
Filing date: 2023-08-02
Publication date: 2023-10-13

Abstract

本发明涉及一种融合变分自编码与混合计算的超高清图像生成方法，属于多媒体与计算机视觉技术领域，包括以下步骤：S1：加载图像生成模型至内存，获取图像生成模型参数信息；S2：设置编码器数据块划分尺寸，并选择偏好的编码计算方法，包括改进的快速编码计算、改进的精确编码计算和混合编码计算，计算方法可应用于多个变分自编码器模型中；S3：编码器根据选择的编码计算方法对图像进行编码计算，在编码计算中采用重定义的编码器前向传播函数；S4：解码器采用重定义的解码器前向传播函数，将接收到的编码数据进行多次全局上采样，并在每次采样后计算统计量，最终将得到的统计量应用于图像生成。

Description

一种融合变分自编码与混合计算的超高清图像生成方法

技术领域

本发明属于多媒体与计算机视觉技术领域，涉及一种融合变分自编码与混合计算的超高清图像生成方法。

背景技术

图像生成是计算机视觉和人工智能领域的核心研究领域。它旨在利用计算机算法生成逼真的图像，这些图像可能并不存在于现实中，也可能是基于现实图像的修改或增强版本，如AI绘画、画风迁移等。

变分自编码器假设特征数据的表示服从一个先验分布，通常选择高斯分布。编码器将输入数据映射到特征数据的均值和方差，根据这些统计量从先验分布中采样得到特征数据。解码器将特征数据映射回原始数据空间，并通过最小化重构误差，学习生成具有相似特征的图像。

然而，随着对图像生成质量的要求提升，生成模型运行所需的硬件设备要求也随之提高。目前，在变分自编码器生成图像的过程中有一个难点：图像生成过程中所需显存过大，在相同分辨率图像生成条件下，如何优化计算过程降低所需设备标准，成为一个关键挑战。

目前，针对图像生成的优化方法有两种，一是进行全局下采样直接降维；二是使用分块计算的方法。其中，全局下采样降维方法通过插值算法提取原图像数据中的有效信息，该方法在计算过程中效率很高，但随着不断下采样，会出现严重的计算误差，可能导致在解码过程中出现图像发灰等情况。分块计算方法是将图像数据划分为多个数据块，独立进行采样计算，然后进行拼接，该方法在编码计算中准确率很高，但在拼接的过程中因为数据块间统计量的不一致，可能导致生成图像中出现缝隙。如何灵活的平衡编码计算过程的效率和准确率，也是一个尚待解决的问题。

发明内容

有鉴于此，本发明的目的在于提供一种融合变分自编码与混合计算的超高清图像生成方法，通过对现有的图像生成优化方法进行改进，解决目前在编码计算过程中所需显存过大的问题，以及分块编码计算方法生成图像出现缝隙的问题；本发明还提供一种混合编码计算方法，以供用户在三者间选择，有效满足用户在图像编码计算过程中的准确性和计算效率偏好。

为达到上述目的，本发明提供如下技术方案：

一种融合变分自编码与混合计算的超高清图像生成方法，包括以下步骤：

S1：加载图像生成模型至内存，并获取图像生成模型参数信息；

S2：设置编码器数据块划分尺寸，并依据准确性和计算效率偏好，选择对应的编码计算方法；所述编码计算方法包括改进的快速编码计算、改进的精确编码计算和混合编码计算；

S3：编码器根据选择的编码计算方法对图像进行编码计算，在编码计算中采用重定义的编码器前向传播函数，并发送给解码器；

S4：解码器采用重定义的解码器前向传播函数，将接收到的编码数据进行多次全局上采样，并在每次采样后计算统计量，最终将得到的统计量应用于图像生成。

进一步，所述步骤S1中，具体包括导入图像生成模型，获得图像生成模型中的参数，包括编码器和解码器的原前向传播函数。

进一步，在所述步骤S3中，编码器通过改进的快速编码计算方法对图像进行编码计算，在所述改进的快速编码计算下，重定义编码器前向传播函数，将输入数据进行多次全局下采样，并在每次采样后计算统计量，最终得到小尺寸的目标特征数据，具体包括以下步骤：

S311：先进行下采样；在下采样过程中，数据从原始维度映射到一个较低维度的空间，通过下采样对数据进行压缩和降维，同时提取数据中的关键特征，用于生成具有相似特征的新样本；经过多次下采样后，得到一个带有像素均值和方差的目标特征数据；

S312：计算统计量，具体包括计算图像数据中像素的均值和方差，从而实现前向传播。

进一步，在所述步骤S3中，编码器通过改进的精确编码计算方法对图像进行编码计算，在所述改进的精确编码计算方法中，重定义编码器前向传播函数，根据编码器中传入的图像数据和编码器划分尺寸，从数据垂直和水平两个维度分块，通过整除计算出数据块的数量，然后根据数量进行实际划分，获取一组图像块；为每个编码器数据块定义前向传播任务；每一个数据块先执行局部下采样，然后进行当前数据块的统计量计算，将所有数据块的统计量加权平均并应用到所有数据块，重复该过程直至全局数据尺寸达到目标特征数据大小，前向传播结束后，将每个数据块参照在原数据中的坐标映射到输出数据中的坐标，得到编码器的输出。

进一步，在所述改进的精确编码计算方法中，数据块划分步骤如下：

根据输入的编码器划分尺寸，计算划分数量，通过所述划分数量计算出实际的划分尺寸：

h_num＝(h-2*pad)/tile_size

w_num＝(w-2*pad)/tile_size

其中pad是对数据块的填充大小，tile_size是设置的数据块尺寸，h_num和w_num是原始图像数据在水平和垂直上划分的次数。

进一步，在所述改进的精确编码计算方法中还包括：

计算每个数据块对应的坐标，为划分后的每一个数据块设定前向传播任务；所述前向传播任务包括下采样和统计量计算，所有数据块每次完成下采样并计算统计量后，进行全局统计量加权计算，根据当前数据块的维度在全局数据中所占权重进行统计量计算，所有的前向传播任务被添加进入队列依次执行。

进一步，在所述步骤S3中，编码器通过混合编码计算方法对图像进行编码计算，在混合编码计算中，重定义的编码器前向传播函数，将数据从垂直和水平两个维度分块，通过整除计算出数据块的数量，然后根据数量进行实际划分，得到一组数据块；对输入数据进行一次全局下采样，并计算统计量，得到与编码器数据划分尺寸相同大小的数据，计算每个数据块当前的坐标；为划分后的每个数据块定义前向传播任务，每一个数据块会执行局部下采样以及当前数据块的统计量计算，并将所有数据块的统计量加权平均后应用到所有数据块，重复该过程，直至全局数据尺寸达到目标特征数据大小，前向传播结束后，数据块参照在原数据中的坐标位置映射到输出数据，得到编码器的输出。

进一步，所述重定义的编码器前向传播函数具体包括：

编码器中，每个数据块都定义前向传播操作，其网络结构包括由卷积输入层、m个残差块和下采样层组成的网络层，以及卷积输出层；所述网络层有n层，在每个网络层执行后对数据块的统计量进行计算，再全局加权计算统计量，并将全局统计量应用于每个数据块；其中残差块的数量m和网络层数量n，取值取决于使用的模型；

每个数据块都有四个顶点坐标，数据块在原图像数据中划分后的顶点坐标即为输入坐标，编码器在执行前向传播后，原图像数据的维度被缩小，所有数据块的输入坐标也缩小，数据将映射到比原空间小的区域。

本发明通过替换前向传播函数，可应用于多种基于变分自编码器的图像生成模型。

进一步，所述重定义的解码器前向传播函数的网络结构包括由卷积输入层、m个残差块和上采样层组成的网络层，以及卷积输出层；所述网络层有n层，残差块的数量m和网络层数量n，取值取决于使用的模型；解码器在执行前向传播后，原图像数据的维度将会在上采样过程中被放大，在每次执行完上采样后，进行全局统计量计算，最终所有数据块的输入坐标放大，经过前向传播后的数据将映射到比原空间大的区域。

本发明的有益效果在于：

1)本发明提出一种融合变分自编码与混合计算的超高清图像生成方法，该方法能够提供多种编码采样计算方法，从而生成图像。

2)本发明提出的快速编码计算在编码过程中先采样再进行统计量的计算，而在常规的变分自编码器编码过程中是先进行神经网络的传播和统计量的计算再进行采样，两者的差异首先在于采样过程随机性的引入时机不同，其次先采样再计算统计量能够有效减小计算设备所需的显存，因为下采样能够直接减小数据的尺寸，从而减小计算量，而常规变分自编码器中的编码过程中先进行数据的统计量计算得到一个特征数据的分布，再进行采样，所需计算数据量较大。

3)本发明提出在图像生成模型的精确编码计算过程中，将图像数据划分为一组数据块，将需要前向传播计算的数据发送至GPU，其余数据存放在内存，能充分利用计算机资源，降低计算过程对显存的要求，且计算过程更加准确；采用加权平均计算的方法得到全局数据的统计量，并将该统计量应用到每个数据块，确保数据块与全局数据统计量一致，克服了以往分块计算中统计量不一致的问题，从而使解码生成的图像不存在缝隙。

4)全局采样后进行统计量计算的过程会损失计算的准确度但运算速率快，分块采样计算统计量的方式会影响运算效率但其运算准确度高，本方法通过混合编码计算方法在全局的快速计算与精确计算间达到计算效率与计算准确性的平衡。

5)本发明使用采样和分块的方法减小在编码计算过程中所需的显存大小，通过快速编码计算与精确编码计算的混合使用得到编码结果，有效平衡计算准确率和计算效率，将原图像生成模型中编码器与解码器的前向传播函数进行替换，能够在多个变分自编码模型中实现编码计算的灵活。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明所述融合变分自编码与混合计算的超高清图像生成方法整体流程示意图；

图2为本发明所述混合编码计算过程示意图；

图3为本发明所述解码器网络结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明提出了一种融合变分自编码与混合计算的超高清图像生成方法，如图1的流程图，具体包括下列步骤：

S1：将图像生成模型加载至内存，获取模型的编码器和解码器的前向传播方法；在该步骤中，接收多种基于变分自编码器的图像生成模型，拦截原模型中编码器和解码器的前向传播函数，并通过对前向传播函数的重构，改变模型前向传播流程。

S2：输入参数，分别是编码器数据块划分尺寸和所选编码计算方法；在本发明中，提供多种编码计算方式的选择，包括改进的快速编码计算、改进的精确编码计算以及混合编码计算；若选用改进的快速编码计算，则执行步骤S3；若选用改进的精确编码计算，执行步骤S4；若选用混合编码计算，则执行步骤S5；

S3：在改进的快速编码计算下，重定义编码器前向传播函数，将输入数据进行多次全局下采样，并在每次采样后计算统计量，最终得到小尺寸的目标特征数据；具体包括先进行下采样，然后计算统计量，在下采样过程中，数据从原始维度映射到一个较低维度的空间。下采样能够对数据进行压缩和降维，同时提取数据中的关键特征，用于生成具有相似特征的新样本；计算统计量的过程涉及计算图像数据中像素的均值和方差，变分自编码器的特征数据空间被认定为一个高斯分布，这个高斯分布需要由数据的均值和方差进行定义，由于编码器中下采样是一个不可导的过程，需要通过计算统计量实现前向传播。每次下采样伴随着数据尺寸减小，经过多次下采样后，将能够得到一个带有像素均值和方差的目标特征数据，解码器通过特征数据实现图像生成。在本步骤中，执行全局的下采样和统计量计算，该过程速度快，无需额外的计算资源，然而不断的下采样导致统计量计算误差的增加，解码所生成图像可能会出现颜色改变等现象，此处统计量表示图像数据中的像素以及其方差和均值。

S4：在改进的精确编码计算下，重定义编码器前向传播函数，根据编码器中传入的图像数据和编码器划分尺寸，从数据垂直和水平两个维度分块，通过整除计算出数据块的数量，然后根据数量进行实际划分，获取一组图像块；为每个编码器数据块定义前向传播任务；每一个数据块会先执行局部下采样，然后进行当前数据块的统计量计算，将所有数据块的统计量加权平均并应用到所有数据块，重复该过程直至全局数据尺寸达到目标特征数据大小，前向传播结束后，将每个数据块参照在原数据中的坐标映射到输出数据中的坐标，得到编码器的输出。数据块划分操作，具体包括根据输入的编码器划分尺寸，进行划分数量的计算，通过该数量计算出实际的划分尺寸：

h_num＝(h-2*pad)/tile_size

w_num＝(w-2*pad)/tile_size

其中pad是对数据块的填充大小，在编码器的划分中，pad为32，解码器中pad为11，tile_size是设置的数据块尺寸，h_num和w_num是原始图像数据在水平和垂直上划分的次数。

为划分后的每一个数据块设定前向传播任务，前向传播任务包括下采样和统计量计算，所有数据块每次完成下采样并计算统计量后，进行全局统计量加权计算，根据当前数据块的维度在全局数据中所占权重进行统计量计算，所有的前向传播任务将被添加进入队列依次执行。其中编码器的前向传播具体包括：

编码器中，每个数据块都将定义前向传播操作，其网络结构分别是卷积输入层、m个残差块和下采样层组成的网络层，该类网络层有n层，以及卷积输出层，在每个网络层执行后将会对数据块的统计量进行计算，再全局加权计算统计量，并将全局统计量应用于每个数据块。其中残差块的数量m和网络层数量n，取值取决于使用的模型。

每个数据块都有四个顶点坐标，数据块在原图像数据中划分后的顶点坐标即为输入坐标，而编码器在执行前向传播后，原图像数据的维度将会被缩小，所有数据块的输入坐标即会缩小8倍，数据将映射到比原空间小的区域。

解码器中定义前向传播操作，分别是卷积输入层、m个残差块和上采样层组成的网络层，卷积输出层，其中网络层有n层。残差块的数量m和网络层数量n，取值取决于使用的模型。而解码器在执行前向传播后，原图像数据的维度将会在上采样过程中被放大，在每次执行完上采样后，会进行全局统计量计算，最终所有数据块的输入坐标会放大8倍，经过前向传播后的数据将会映射到比原空间大的区域。统计量计算即为当前图像数据中像素的均值和方差计算，在深度学习中没有统计量无法实现图像生成，全局不一致的统计量会在生成过程中出现数据块间有缝隙，通过上述方法，解码器最终根据统计量实现图像生成。在本精确编码计算方法中，将原数据进行分块，然后分别执行下采样和统计量计算，该过程会将需要计算的数据发送至GPU，处理后的数据存储在内存，该过程涉及GPU与内存间的数据传输，过程较为缓慢且需要额外的资源，将计算后的数据块进行全局的加权计算，得到的统计量将应用于所有的数据块，该过程确保各数据块间与目标特征数据统计量的一致，避免因统计量差异而导致的数据块间缝隙，重复下采样和统计量计算直到数据尺寸达到目标特征数据大小。

S5：在混合计算中，重定义编码器前向传播函数，将数据从垂直和水平两个维度划分，通过整除计算出数据块的数量，根据数量进行实际划分，得到一组图像块；将传入编码器的数据，进行一次全局下采样并计算统计量，得到数据尺寸大小为编码器数据划分尺寸大小，计算每个数据块当前的坐标；为划分后的每个编码器数据块定义前向传播任务，每一个数据块先执行局部下采样，然后进行当前数据块的统计量计算，将所有数据块的统计量加权平均并应用到所有数据块，多次重复该过程，直到全局数据尺寸达到目标特征数据大小，前向传播结束后数据块参照在原图像数据中的坐标位置映射到输出数据中的坐标，得到编码器的输出，混合编码计算过程如图2所示，在混合计算中，结合快速编码计算的计算效率和精确编码计算的计算准确率，先进行全局下采样和统计量计算，将数据尺寸降至编码器划分尺寸，然后将数据分块进行下采样和统计量计算，对所有数据块进行加权计算得到统计量，并将其应用于所有数据块，重复直至达到目标特征数据尺寸，经过全局下采样降维后，内存与GPU间的数据块传输就会加快。

S6：在重构的解码器前向传播函数中，对数据进行多次全局上采样，并在每次采样后计算统计量，最终得到的统计量将应用于图像生成；在该步骤中，采用全局上采样和计算统计量的方式进行前向传播，由于解码过程中数据尺寸不断扩大，不存在计算准确率的问题，因此可以直接进行快速解码计算。

S7：将模型中编码器和解码器的前向传播函数替换为重构的前向传播函数，即可以选择在计算准确性和计算效率间的偏好并应用模型生成图像。

实施例1

S1：将图像生成模型加载进入内存中，获取模型的编码器和解码器的前向传播方法；

S2：输入参数，分别是编码器数据块划分尺寸和编码计算方法选择，假定编码器数据划分尺寸大小为480，在本实施例中，编码计算方法选择为混合编码计算；

S31：输入编码器的图像数据Z形状为B×C×H×W，其中B表示输入样本数量，C表示像素，H表示垂直维度，W表示水平维度。假定传入图像数据垂直和水平上尺寸为2048×2048，在水平划分次数为5，垂直划分次数也为5，根据划分次数反向推导实际数据块垂直大小397，水平大小为397，将原始数据划分为25个数据块，每个数据的当前坐标设置为输入坐标，在编码器中将输入坐标除以8即可以得到输出坐标。

S32：将原尺寸2048×2048的图像数据进行全局下采样，得到尺寸为480×480的数据，再进行分组归一化计算统计量。通过深度学习框架采用最近邻的方法进行下采样，然后对下采样后的数据进行修正，计算原始图像与下采样后图像数据的标准差和均值，通过如下线性变换进行修正：

downsampled_z＝(downsampled_z-mean_new)/std_new*std_old+mean_old

其中，downsampled_z表示下采样后的数据，mean_new表示下采样后数据均值，std_new表示下采样后数据方差，mean_old表示原数据均值，std_old表示原数据方差。

S33：全局采样后的数据进行分块计算，当所有的数据块都完成下采样并计算统计量后，将所有数据块的统计量进行加权平均得到全局统计量。首先在数据块列表中找到最大值维度max_value，然后将数据块列表除以该值得到数据块权重集value，这样能将每个数据块权重划定在0至1之间，计算权重集value中所有元素的总和，并将所有元素除以这个总和得到归一化的权重，使用归一化后的数据块权重与方差和均值进行逐元素相乘，然后求和，得到新的方差和均值，应用到所有的数据块中，并进行下一次分块下采样，重复多次步骤，直至数据尺寸达到目标特征数据尺寸。

S4：解码器的前向传播网络如图3所示，全局数据执行进行多次上采样、计算全局统计量，该过程运算效率非常快，且并不存在计算准确率的问题；当上采样后的数据尺寸达到目标数据尺寸时，将全局计算所得统计量应用于图像生成。

S5：在设置完编码器和解码器的前向传播函数后，将原模型中编码器和解码器的前向传播函数进行替换，运行模型，输入数据，即得到分辨率为2048×2048的图像生成结果。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种融合变分自编码与混合计算的超高清图像生成方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的融合变分自编码与混合计算的超高清图像生成方法，其特征在于：所述步骤S1中，具体包括导入图像生成模型，获得图像生成模型中的参数，包括编码器和解码器的原前向传播函数。

3.根据权利要求1所述的融合变分自编码与混合计算的超高清图像生成方法，其特征在于：在所述步骤S3中，编码器通过改进的快速编码计算方法对图像进行编码计算，在所述改进的快速编码计算下，重定义编码器前向传播函数，将输入数据进行多次全局下采样，并在每次采样后计算统计量，最终得到小尺寸的目标特征数据，具体包括以下步骤：

4.根据权利要求1所述的融合变分自编码与混合计算的超高清图像生成方法，其特征在于：在所述步骤S3中，编码器通过改进的精确编码计算方法对图像进行编码计算，在所述改进的精确编码计算方法中，重定义编码器前向传播函数，根据编码器中传入的图像数据和编码器划分尺寸，从数据垂直和水平两个维度分块，通过整除计算出数据块的数量，然后根据数量进行实际划分，获取一组图像块；为每个编码器数据块定义前向传播任务；每一个数据块先执行局部下采样，然后进行当前数据块的统计量计算，将所有数据块的统计量加权平均并应用到所有数据块，重复该过程直至全局数据尺寸达到目标特征数据大小，前向传播结束后，将每个数据块参照在原数据中的坐标映射到输出数据中的坐标，得到编码器的输出。

5.根据权利要求4所述的融合变分自编码与混合计算的超高清图像生成方法，其特征在于：在所述改进的精确编码计算方法中，数据块划分步骤如下：

h_num＝(h-2*pad)/tile_size

W_num＝(w-2*pad)/tile_size

6.根据权利要求5所述的融合变分自编码与混合计算的超高清图像生成方法，其特征在于：在所述改进的精确编码计算方法中还包括：

7.根据权利要求1所述的融合变分自编码与混合计算的超高清图像生成方法，其特征在于：在所述步骤S3中，编码器通过混合编码计算方法对图像进行编码计算，在混合编码计算中，重定义的编码器前向传播函数，将数据从垂直和水平两个维度分块，通过整除计算出数据块的数量，然后根据数量进行实际划分，得到一组数据块；对输入数据进行一次全局下采样，并计算统计量，得到与编码器数据划分尺寸相同大小的数据，计算每个数据块当前的坐标；为划分后的每个数据块定义前向传播任务，每一个数据块会执行局部下采样以及当前数据块的统计量计算，并将所有数据块的统计量加权平均后应用到所有数据块，重复该过程，直至全局数据尺寸达到目标特征数据大小，前向传播结束后，数据块参照在原数据中的坐标位置映射到输出数据，得到编码器的输出。

8.根据权利要求1所述的融合变分自编码与混合计算的超高清图像生成方法，其特征在于：所述重定义的编码器前向传播函数具体包括：

9.根据权利要求8所述的融合变分自编码与混合计算的超高清图像生成方法，其特征在于：所述重定义的解码器前向传播函数的网络结构包括由卷积输入层、m个残差块和上采样层组成的网络层，以及卷积输出层；所述网络层有n层，残差块的数量m和网络层数量n，取值取决于使用的模型；解码器在执行前向传播后，原图像数据的维度将会在上采样过程中被放大，在每次执行完上采样后，进行全局统计量计算，最终所有数据块的输入坐标放大，经过前向传播后的数据将映射到比原空间大的区域。