CN116739951B

CN116739951B - 一种图像生成器、图像风格转换装置及方法

Info

Publication number: CN116739951B
Application number: CN202310890803.8A
Authority: CN
Inventors: 吴晓君; 奚强; 覃建伟; 郭宸恺; 杨标
Original assignee: Suzhou Zhuzheng Robot Co ltd
Current assignee: Suzhou Zhuzheng Robot Co ltd
Priority date: 2023-07-20
Filing date: 2023-07-20
Publication date: 2024-03-05
Anticipated expiration: 2043-07-20
Also published as: CN116739951A

Abstract

本发明公开了一种图像生成器、图像风格转换装置及方法，涉及图像处理技术领域，图像风格转换装置包括：第一图像生成器，用于生成DRR图像数据集；第二图像生成器，用于生成X光图像数据集；第一图像判别器，用于判别输入图像风格是否与所述X光图像数据集相同；第二图像判别器，用于判别输入图像风格是否与所述DRR图像数据集相同。本发明在训练过程中不需要成对的图像数据，图像生成器网络更加专注于图像的特定结构的生成与转化；避免生成图像时产生的棋盘效应，图像判别器网络判别更加细致，采用leakyRelu进行激活，能够产生更好地判别效果。

Description

一种图像生成器、图像风格转换装置及方法

技术领域

本发明涉及图像处理技术领域，特别涉及一种图像生成器、图像风格转换装置及方法。

背景技术

在脊柱外科手术中，患者的CT图像和X光图像分别扮演着重要的角色。CT等三维图像数据在临床诊断和术前规划中得到广泛的应用，但由于其成像缓慢，无法实现术中快速处理的要求，缺乏术中的实时信息，因此医生常在手术中拍摄X光图像获取患者的术中解刨信息，但由于X光图像是二维的，缺乏CT数据中包含的重要空间信息，极大程度上依赖于医生的经验及视觉判断的准确性。同时，X光图像中较多的噪点和干扰，也给医生的视觉判断带来不利的影响。

利用DRR投影技术可以将三维的CT图像转化为二维的DRR图像。其转化方式与真实的X光成像原理类似。参见图1，X光图像和DRR图像的内容结构类似，但是DRR图像由于是计算机模拟生成的，因此灰度分布更加均衡，避免了成像仪器C型臂本身成像时产生的噪点和干扰。因此将X光图像进行风格转换，转化为DRR图像，本身是对X光图像的一种降噪和对比度增强，增强后的图像能更好地应用于医生诊断；同时，由于拍摄X光图像，对医生和患者具有一定的辐射伤害，因此通过将X光图像转换为DRR图像，使得X光图像拍摄较少。此外，将X光图像与DRR图像进行相互转换，可以在一定程度上弥补深度学习在医学图像处理应用上面临的数据稀缺问题。

对于DRR图像和X光图像的风格转换的方式有很多种实现路径，主要分为基于传统图像处理的方式和基于深度学习的图像处理方式。

传统的图像处理方式包括灰度区间拉伸、直方图匹配、或者一些基于局部特征的方式。传统方式图像处理时间较短，速度较快，但是仅适用一些特征明显，结构不太复杂的图像，对于含有较多噪声，解刨结构复杂的医学X光图像而言，则表现不佳。

近年来随着深度学习的快速发展，一些表现优异的应用在图像风格转换的深度学习算法被提出。传统的风格迁移模型就是将目标图像当作可以训练的变量，通过网络模型训练，从而不断优化图片的像素值，降低目标图像与内容图像的内容差异的同时也降低了目标图像与风格图像的风格差异。经过深度学习中卷积神经网络的多次迭代训练，最终生成一幅具有特定风格的图像，该图像兼具内容图像的内容与风格图像的风格，但是这种方式对于每一张的内容图像和风格图像都需要进行训练，耗时耗力。快速风格迁移模型则针对这一问题进行了改进，但是由于图像的内容和风格是一种较为模糊的概念，仅用卷积层的特征映射来表示，由此构建的损失函数，在模型训练时仍存在感知不足的缺点。Pix2pix网络模型不同于上述的快速风格迁移网络模型，它不是一种卷积神经网络模型，而是一种生成式对抗网络模型，相比快速风格迁移网络模型的损失函数，生成式对抗网络模型的感知能力大大提高，生成的图像效果自然也更好。然而，该网络模型需要大量的成对的图像数据进行训练，但是在很多情况下，成对的图像数据是难以获取的，甚至有些数据是现实中并不存在的，因此面对某些特定的任务，该网络模型显得有些乏力。

发明内容

鉴于现有技术中的上述缺陷或不足，本发明提供了一种图像生成器、图像风格转换装置及方法，旨在全部或部分的解决上述技术问题。

本发明的一个方面，提供了一种图像生成器，包括：

图像输入模块，用于输入第一图像特征；

下采样模块，其包括依次连接的第一卷积层、第二卷积层和第三卷积层，用于对输入的第一图像特征进行下采样操作，以提取多个不同层次的图像特征；

残差模块，用于接收所述下采样模块中第三卷积层输出的图像特征，对其多次反复提取深层次的图像特征，并将提取的图像特征输出至上采样模块；

上采样模块，其包括第一上采样子模块、第二上采样子模块、第一CBAM注意力模块、第二CBAM注意力模块和第四卷积层；其中，所述第一上采样子模块和所述第二卷积层经拼接操作后输出至所述第一CBAM注意力模块，所述第一CBAM注意力模块的输出端连接所述第二上采样子模块的输入端，所述第二上采样子模块和所述第一卷积层经拼接操作后输出至所述第二CBAM注意力模块，所述第二CBAM注意力模块的输出端连接至第四卷积层；

图像输出模块，其连接所述第四卷积层的输出端，用于输出转换得到的第二图像特征。

进一步的，每个卷积层包括依次连接的二维卷积操作模块、InstanceNorm归一化模块和ReLU激活函数。

进一步的，所述残差模块包括依次连接的三个卷积层和ReLU激活函数，其中，残差模块的输入特征经过所述依次连接的三个卷积层后再与输入特征相加，相加的结果输出至所述ReLU激活函数。

进一步的，每个上采样子模块包括依次连接的第五卷积层、上采样操作模块和ReLU激活函数。

本发明的另一方面，提供了一种图像风格转换装置，用于将X光图像转换为DRR图像，包括：

第一图像生成器，具有所述图像生成器，所述第一图像特征为X光图像，所述第二图像特征为DRR图像；所述第一图像生成器用于生成DRR图像数据集；

第二图像生成器，具有所述图像生成器，所述第一图像特征为DRR图像，所述第二图像特征为X光图像；所述第二图像生成器用于生成X光图像数据集；

第一图像判别器，用于判别输入图像风格是否与所述X光图像数据集相同；

第二图像判别器，用于判别输入图像风格是否与所述DRR图像数据集相同。

进一步的，所述第一图像判别器或第二图像判别器包括：

输入模块，用于将待识别的图像划分为多个输入图像块；

图像特征提取模块，用于提取输入特征图像的深层特征信息，缩小输入特征图像的尺寸，其包括依次连接的第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块，其中，每个卷积模块包括依次连接的二维卷积操作模块、InstanceNorm归一化模块和LeakyReLU激活函数；

第五卷积模块，其输入端连接所述第四卷积模块的输出端，用于实现图像局部区域的权值共享，完成所述输入图像块的划分与评分计算；

全局平均池化层，用于实现多个所述输入图像块评分的平均。

进一步的，所述卷积操作的卷积核大小为4，填充大小为1。

本发明另一方面，提供了一种图像风格转换方法，用于将X光图像转换为DRR图像，包括如下步骤：

采集X光图像和DRR图像制作训练集；

基于所述图像风格转换装置，搭建将X光图像转换为DRR图像的风格转换模型；

对所述风格转换模型进行训练，获取模型最优权重；

提取训练完毕的风格转换模型中的图像生成器；

输入目标X光图像至所述图像生成器，获得转换后的DRR图像。

进一步的，还包括：采集X光图像和DRR图像制作验证集；选取在所述验证集上损失最小的权重作为模型最优权重。

进一步的，还包括：

采集X光图像和DRR图像制作测试集，运用所述训练完毕的风格转换模型中的图像生成器对所述测试集进行图像转化效果的测试；

所述训练集、验证集和测试集的样本比例为8:1:1。

本发明提供的一种图像生成器、图像风格转换装置及方法，具有如下有益效果：

(1)本发明的图像风格转换装置由两个生成器和两个判别器构成，实现了两两循环，在训练过程中不需要成对的图像数据，利用循环一致来保证输出的图片和输入的图片中内容的相似性，风格的相似性则是由装置的整个框架来评估。

(2)本发明的图像生成器网络引入了多尺度融合思想，在上采样的过程中加入了之前下采样所获得的对应图像尺寸的不同层次的特征；在上采样和下采样特征层融合过程中，加入了注意力模块，使得网络更加专注于图像的特定结构的生成与转化；使用卷积和上采样相结合的模块来取代常用的转置卷积模块，避免生成图像时产生的棋盘效应。

(3)本发明的判别器网络将图像划分为多个patch图像块，判别器不仅对整个图像进行判别，还对每一个patch图像块进行判别，使得判别更加细致；通过采用InstanceNorm进行数据归一化，采用leakyRelu进行激活，从而产生更好地判别效果。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是真实人体的X光图像(左)和DRR图像(右)的示意图；

图2是本申请一个实施例提供的图像风格转换装置的逻辑示意图；

图3是本申请一个实施例提供的图像风格转换装置的模型训练流程示意图；

图4是本申请一个实施例提供的图像生成器的网络结构示意图；

图5是本申请一个实施例提供的图像生成器的模块结构图；

图6是本申请一个实施例提供的图像判别器的网络结构示意图；

图7是本申请一个实施例提供的图像判别器的模块结构图；

图8是本申请一个实施例提供的图像风格转换方法的整体思路图；

图9是本申请一个实施例提供的图像风格转换方法的流程示意图；

图10是本申请一个实施例提供的图像风格转换方法的测试结果图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述获取模块，但这些获取模块不应限于这些术语。这些术语仅用来将获取模块彼此区分开。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

需要注意的是，本发明实施例所描述的“上”、“下”、“左”、“右”等方位词是以附图所示的角度来进行描述的，不应理解为对本发明实施例的限定。此外在上下文中，还需要理解的是，当提到一个元件被形成在另一个元件“上”或“下”时，其不仅能够直接形成在另一个元件“上”或者“下”，也可以通过中间元件间接形成在另一元件“上”或者“下”。

参见图2，本实施例提供了一种图像风格转换装置100，用于将X光图像转换为DRR图像，包括如下组成部分：

第一图像生成器101，其输入图像特征为X光图像，输出图像特征为DRR图像，所述第一图像生成器101用于生成DRR图像数据集。

第二图像生成器102，其输入图像特征为DRR图像，输出图像特征为X光图像，所述第二图像生成器102用于生成X光图像数据集。

第一图像判别器103，用于判别输入图像风格是否与所述X光图像数据集相同；

第二图像判别器104，用于判别输入图像风格是否与所述DRR图像数据集相同。

参见图3，其给出了图像风格转换装置100的模型训练流程。图3中的A、B两域是两种不同风格的图像，真图是在数据集中获取的图像，假图是指计算机风格转换后的图像。在本实施例中使用的是X光和DRR两种风格不同的图像。图3中的G^AB是A到B的图像生成器，G^BA是B到A的图像生成器，可以对应第一图像生成器101和第二图像生成器102。示例性的，将A域的图像，输入到G^AB中，就会得到B域风格的图，由于这个图像是由图像生成器产生的，所以本实施例认为这个图像是假图。D^A是对A域图像的图像判别器，由D^A对A域图像区分真假；D^B是对B域图像的图像判别器，由D^B对B域图像区分真假。因此，上述D^A、D^B可以对应第一图像判别器103和第二图像判别器104。

在模型训练初始阶段，只有A域和B域的真图(应用过程中是DRR和X光图像两种图)，图3上下两种训练流程是对称的，现在以上部训练流程为例进行说明。图像风格转换装置100(网络模型)接收A域的真图，通过图像生成器G^AB得到B域的假图，再结合B域的真图，训练图像判别器D^B(训练学习过程中需要有对有错，成功的经验和失败的教训同样重要)；之后将B域假图输入到生成器G^BA中，得到A域的假图，通过A域的真图和A域的假图，计算损失(L2loss)，进行反向传播，训练两个生成器G^AB和G^BA，与此同时，模型还进行了下部流程的训练，由此一个整体流程下来将G^AB、G^BA、D^A、D^B全部训练。

本实施例中的图像风格转换装置100(网络模型)具有两个图像生成器和两个图像判别器。第一图像生成器101用于实现X光图像数据集到DRR图像数据集的映射。第二图像生成器102用于实现DRR图像数据集到X光图像数据集的映射。第一图像判别器103用于判定图片的风格是否与X光图像数据集相同，第二图像判别器104用于判定图片的风格是否与DRR图像数据集相同。本实施例的图像判别器的目的是要准确判断生成的图片来自真实数据集还是生成的图片，而图像生成器需要产生以假乱真的图片。利用大量图像数据进行模型训练，图像生成器和图像判别器在相互对抗中不断优化，最终在图像判别器能够轻而易举的判别图像的风格是否与目标风格相同的情况下，图像生成器仍然能够产生可以欺骗图像判别器的图片，达到以假乱真的效果，此时的图像生成器就是本实施例最终需要得到的图像生成器。

参见图4，本实施例的两个图像生成器均通过图示网络结构实现。

参见图5，本实施例的两个图像生成器200包括如下模块：

图像输入模块201，用于输入第一图像特征。

下采样模块202，其包括依次连接的第一卷积层、第二卷积层和第三卷积层，用于对输入的第一图像特征进行下采样操作，以提取多个不同层次的图像特征。

残差模块203，用于接收所述下采样模块中第三卷积层输出的图像特征，对其多次反复提取深层次的图像特征，并将提取的图像特征输出至上采样模块。

进一步的，所述残差模块203包括依次连接的三个卷积层和ReLU激活函数，其中，残差模块的输入特征经过所述依次连接的三个卷积层后再与输入特征相加，相加的结果输出至所述ReLU激活函数。

上采样模块204，其包括第一上采样子模块、第二上采样子模块、第一CBAM注意力模块、第二CBAM注意力模块和第四卷积层；其中，所述第一上采样子模块和所述第二卷积层经拼接操作后输出至所述第一CBAM注意力模块，所述第一CBAM注意力模块的输出端连接所述第二上采样子模块的输入端，所述第二上采样子模块和所述第一卷积层经拼接操作后输出至所述第二CBAM注意力模块，所述第二CBAM注意力模块的输出端连接至第四卷积层。

图像输出模块205，其连接所述第四卷积层的输出端，用于输出转换得到的第二图像特征。

需要指出的是，图像生成器需要生成特定的图片，它不仅要学习原有图片的特征，还要控制生成图像的显示效果，从而实现风格转化。医学图像中，除了有较大的轮廓，还有一些很重要的细节，因此传统编码器和解码器模型中原有的先下采样，然后利用残差模块来提取特征，最后再进行上采样的方式对于医学图像不太适用。因为此种模式下图像生成的信息全部来源于图像的深层特征信息，也就是图像的轮廓信息，而忽略了图像的浅层的细节信息。

为了解决上述技术问题，本实施例的图像生成器网络结构，首先利用多个步长为2的卷积层实现对图像的下采样，提取多个不同层次(特征图的尺寸大小)的图像特征；紧接着利用残差模块多次反复提取深层次的图像特征；最后利用卷积层实现图像的上采样，并在上采样的过程中加入了之前下采样所获得的对应图像尺寸的不同层次的特征。此外，在上采样和下采样特征层融合过程中，还加入了CBAM注意力模块，使得网络更加专注于图像的特定结构的生成与转化。

进一步的，为了在卷积过程中更多地保留图像的细节，本实施例使用了ReflectionPadding，相比普通的Padding，该方式保留了更多的边缘纹理信息。同时，为了避免生成图像时产生棋盘效应，使用卷积和上采样相结合的模块来取代常用的转置卷积模块。此外，注意力机制主要分为通道注意力机制和空间注意力机制，本实施例采用的CBAM模块是一种通道注意力机制和空间注意力机制的结合体，相比只包含通道或者空间的注意力机制的模块，该模块能够取得更好的效果。

参见图6，本实施例的两个图像判别器均通过图示网络结构实现。

参见图7，本实施例的两个图像判别器300包括如下模块：

输入模块301，用于将待识别的图像划分为多个输入patch图像块。

图像特征提取模块302，用于提取输入特征图像的深层特征信息，缩小输入特征图像的尺寸，其包括依次连接的第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块，其中，每个卷积模块包括依次连接的二维卷积操作模块、InstanceNorm归一化模块和LeakyReLU激活函数。优选的，所述二维卷积操作模块的卷积核大小为4，填充大小为1。

第五卷积模块303，其输入端连接所述第四卷积模块的输出端，用于实现图像局部区域的权值共享，完成所述输入patch图像块的划分与评分计算；

全局平均池化层304，用于实现多个所述输入patch图像块评分的平均。

本实施例的图像判别器通过利用不同步长的卷积模块不断深入地提取图像的特征，最后利用该特征对整幅图像加以判别。为了对图像能有更加细致的判别，本实施例设计的网络结构将图像划分为多个patch图像块，判别器不仅对整个图像进行判别，还要对每一个patch图像块进行判别，最后将每一个patch图像块的评分进行平均。具体的，判别器首先利用步长为2的卷积模块，不断提取图像的深层特征信息，并缩小特征图像尺寸；之后再次利用卷积模块实现局部区域的权值共享，完成patch图像块的划分与评分计算；最后利用全局池化实现多个patch评分的平均。

优选的，本实施例的图像判别器的归一化方式采用InstanceNorm，而不是常用的BatchNorm，因为发明人发现前者更关注于图像的像素信息，而后者对batch的大小更加敏感，因此在图像迁移方面，本实施例采用的InstanceNorm能获得更好的效果。

优选的，本实施例的图像判别器的激活函数采用leakyRelu，而不是常用的激活函数Relu。这是因为发明人发现相比Relu函数，leakyRelu函数仍保留了少许负值的信息，不会造成大量信息流失。

本发明的另一实施例还提供了一种图像风格转换方法，用于将X光图像转换为DRR图像，其整体思路参见图8。

参见图9，所述图像风格转换方法包括如下步骤：

步骤S101，采集X光图像和DRR图像制作训练集；

步骤S102，基于装置实施例中的图像风格转换装置，搭建将X光图像转换为DRR图像的风格转换模型；

步骤S103，对所述风格转换模型进行训练，获取模型最优权重；

步骤S104，提取训练完毕的风格转换模型中的图像生成器；

步骤S105，输入目标X光图像至所述图像生成器，获得转换后的DRR图像。

进一步的，还包括步骤S106，采集X光图像和DRR图像制作验证集，选取在所述验证集上损失最小的权重作为模型最优权重。

进一步的，还包括步骤S107，采集X光图像和DRR图像制作测试集，运用所述训练完毕的风格转换模型中的图像生成器对所述测试集进行图像转化效果的测试；所述训练集、验证集和测试集的样本比例为8:1:1。

具体的训练过程如下。本实施例利用自制的数据集对网络模型进行投喂，保证输入网络模型的图像尺寸为(256,256)；之后对数据集进行划分，训练集、验证集和测试集划分比例为8:1:1，设定训练过程中的batchsize参数为2，较小的数值有利于模型更加精细地训练；生成器和判别器的优化器均采用常用的Adams优化器，初始学习率均设置为0.0002，并在训练50轮后，学习率开始进行缓慢下降。

本实施例的算法实现是在深度学习框架Pytorch的基础上实现的，训练和测试都是在配备了NVIDIARTX3090显卡的实验主机完成，模型训练共完成了200轮，耗时10h。在完成训练后，选取其中在验证集上损失最小的权重作为最优权重，从而获得了一个X光图像与DRR图像风格转换模型，运用该模型，来对测试集进行图像转化效果的测试，其部分转化效果如图10所示。

以上描述仅为本发明的较佳实施例。本领域技术人员应当理解，本发明中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种图像生成器，其特征在于包括：

图像输入模块，用于输入第一图像特征；

图像输出模块，其连接所述第四卷积层的输出端，用于输出转换得到的第二图像特征；

所述残差模块包括依次连接的三个卷积层和ReLU激活函数，其中，残差模块的输入特征经过所述依次连接的三个卷积层后再与输入特征相加，相加的结果输出至所述ReLU激活函数；所述残差模块的输出端与所述第一上采样子模块相连；

每个上采样子模块包括依次连接的第五卷积层、上采样操作模块和ReLU激活函数；

所述第一卷积层至第五卷积层均包括依次连接的二维卷积操作模块、I nstanceNorm归一化模块和ReLU激活函数。

2.一种图像风格转换装置，用于将X光图像转换为DRR图像，其特征在于，包括：

第一图像生成器，具有权利要求1所述的图像生成器，所述第一图像特征为X光图像，所述第二图像特征为DRR图像；所述第一图像生成器用于生成DRR图像数据集；

第二图像生成器，具有权利要求1所述的图像生成器，所述第一图像特征为DRR图像，所述第二图像特征为X光图像；所述第二图像生成器用于生成X光图像数据集；

3.根据权利要求2所述的一种图像风格转换装置，其特征在于，所述第一图像判别器或第二图像判别器包括：

输入模块，用于将待识别的图像划分为多个输入图像块；

图像特征提取模块，用于提取输入特征图像的深层特征信息，缩小输入特征图像的尺寸，其包括依次连接的第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块，其中，每个卷积模块包括依次连接的二维卷积操作模块、I nstanceNorm归一化模块和LeakyReLU激活函数；

4.根据权利要求3所述的一种图像风格转换装置，其特征在于，所述二维卷积操作模块的卷积核大小为4，填充大小为1。

5.一种图像风格转换方法，用于将X光图像转换为DRR图像，其特征在于包括如下步骤：

采集X光图像和DRR图像制作训练集；

基于权利要求2-4任意一项所述的图像风格转换装置，搭建将X光图像转换为DRR图像的风格转换模型；

对所述风格转换模型进行训练，获取模型最优权重；

提取训练完毕的风格转换模型中的图像生成器；

输入目标X光图像至所述图像生成器，获得转换后的DRR图像。

6.根据权利要求5所述的一种图像风格转换方法，其特征在于，还包括：

采集X光图像和DRR图像制作验证集；

选取在所述验证集上损失最小的权重作为模型最优权重。

7.根据权利要求6所述的一种图像风格转换方法，其特征在于，还包括：

所述训练集、验证集和测试集的样本比例为8:1:1。