CN116503296A - 一种手术场景图像转换方法 - Google Patents
一种手术场景图像转换方法 Download PDFInfo
- Publication number
- CN116503296A CN116503296A CN202310349885.5A CN202310349885A CN116503296A CN 116503296 A CN116503296 A CN 116503296A CN 202310349885 A CN202310349885 A CN 202310349885A CN 116503296 A CN116503296 A CN 116503296A
- Authority
- CN
- China
- Prior art keywords
- image
- instrument
- generator
- conversion
- background
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 128
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 61
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 13
- 230000008485 antagonism Effects 0.000 claims abstract description 10
- 238000010586 diagram Methods 0.000 claims description 68
- 230000002441 reversible effect Effects 0.000 claims description 16
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 7
- 238000012937 correction Methods 0.000 claims description 7
- 239000002131 composite material Substances 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 6
- 238000003709 image segmentation Methods 0.000 claims description 5
- 230000000873 masking effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 53
- 230000008569 process Effects 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000002679 ablation Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
Abstract
本发明涉及一种手术场景图像转换方法,其包括构建改进的CycleGAN模型,所述CycleGAN模型包括第一生成器、第一判别器、第二生成器、第二判别器、对抗生成损失函数、循环一致性损失函数以及器械保护损失函数;获取手术场景图像数据集,所述手术场景图像数据集包括多个样本图像和期望图像,基于手术场景图像数据集训练所述改进的CycleGAN模型;基于训练后的改进的CycleGAN模型,根据所述样本图像,得到转换后的手术场景图像。本发明能在背景不同的情况下转换出图像清晰且器械部分完整的手术场景图像,实现高质量的手术图像转换。
Description
技术领域
本发明涉及手术场景图像转换技术领域,尤其是指一种手术场景图像转换方法。
背景技术
随着手术机器人和深度学习驱动算法的蓬勃发展,通过学习人类的技能使机器人能够自主完成某些子任务的手术自动化正引起巨大关注。然而,由于伦理问题的存在,目前手术场景的数据集对外公开的数量较小,并且场景的种类也处于受限的状态。为了促进手术机器人深度学习得到更好的发展,提供更丰富的手术场景信息的数据集就十分重要,其中就包括增加手术场景的图像数据集。由于该原因,手术图像的转换技术应运而生。从其他场景到所需场景的高质量外科图像转换方法不仅可以增加手术场景数据集的数量,还可以帮助手术机器人的医疗技能训练平台的搭建。
为了实现图像转换这一目标,研究人员正在进行广泛的研究,以探寻合适的图像转换方法。其中,GAN(Generative Adversarial Network,生成对抗网络)已被广泛应用,其包括一个生成器和一个辨别器,它们都是由深度学习网络搭建而成。生成器被训练以生成目标场景的新图像,辨别器则被训练以辨别生成器生成的图像是否为目标场景的图像,两个网络在训练过程中共同进步,最终生成器生成目标域假图的能力得到显著的提升。然而考虑到两个不同领域下的大多数数据基本上是不成对的(成对:源域和目标域的图像一一对应,即每一张源域的图片都有一张语义信息相同的目标域图片与其对应),这样的数据不能用作GAN的训练,因此可以使用这类数据进行图像转换训练的循环生成对抗网络(CycleGAN)应运而生。
在进行整张手术场景图像转换时,直接使用CycleGAN进行操作会出现图像转换的不清晰和手术器械的部分缺失等问题。现有技术中,基于改进的CycleGAN模型也只专注于手术器械的图像转换,因此当手术场景的背景不同时,无法使用现有技术方案实现高质量的图像转换。
发明内容
本发明所要解决的技术问题在于克服现有技术中存在的不足,提供一种手术场景图像转换方法,其能在背景不同的情况下转换出图像清晰且器械部分完整的手术场景图像,实现高质量的手术图像转换。
按照本发明提供的技术方案,所述手术场景图像转换方法包括:
构建改进的CycleGAN模型,所述改进的CycleGAN模型包括第一生成器、第一判别器、第二生成器、第二判别器、对抗生成损失函数、循环一致性损失函数以及器械保护损失函数;
获取手术场景图像数据集,所述手术场景图像数据集包括多对样本图像和期望图像,定义所述样本图像为源域图像,所述期望图像为目标域图像,基于所述手术场景图像数据集训练所述改进的CycleGAN模型;
基于训练后的改进的CycleGAN模型,根据所述样本图像,得到转换后的手术场景图像;
其中,训练所述改进的CycleGAN模型包括:
步骤1、执行“源域-目标域-源域”的正向训练;
步骤2、执行“目标域-源域-目标域”的逆向训练;
步骤3、判断执行所述正向训练和逆向训练的次数是否达到预设值,若到达所述预设值,则完成训练,否则,返回步骤1。
其中,正向训练或逆向训练时,根据所述器械保护损失函数更新所述第二生成器和第一生成器的参数。
在本发明的一个实施例中,所述正向训练包括:
分离所述源域图像的背景以及器械,得到第一背景图和第一器械图;
基于所述对抗生成损失函数和目标域图像更新所述第一判别器参数;
将所述第一背景图和第一器械图输入第一生成器,得到第一转换图;
所述第一判别器判断所述第一转换图是否为目标域图像,若所述第一转换图为目标域图像,则执行下一步骤,否则,基于所述对抗生成损失函数更新所述第一生成器参数后返回第一生成器输出转换图的步骤;
分离所述第一转换图中的背景以及器械,得到第二背景图像和第二器械图;
将所述第二背景图和第二器械图输入第二生成器,得到第二转换图;
对比所述第二转换图与源域图像,基于所述循环一致性损失函数更新第一生成器和第二生成器的参数;
分离所述第二转换图中的背景以及器械,得到第三背景图和第三器械图;
将所述第三器械图与所述第一背景图融合,得到第三转换图,对比所述第三转换图与所述源域图像,基于所述器械保护损失函数更新所述第一生成器以及第二生成器的参数。
在本发明的一个实施例中,所述逆向训练包括:
基于所述对抗生成损失函数和源域图像更新所述第二判别器参数;
将第三背景图和第三器械图输入第二生成器,得到第四转换图;
所述第二判别器判断所述第四转换图是否为源域图像,若所述第四转换图为源域图像,则执行下一步骤,否则,基于所述对抗生成损失函数更新所述第二生成器参数后返回输出第二生成器输出转换图的步骤;
分离所述第四转换图中的背景以及器械,得到第五背景图和第五器械图;
将所述第五背景图和第五器械图输入第一生成器,得到第五转换图;
对比所述第五转换图与目标域图像,基于所述循环一致性损失函数更新第一生成器和第二生成器的参数;
分离所述第五转换图中的背景以及器械,得到第六背景图和第六器械图;
将所述第六器械图与所述第三背景图融合,得到第六转换图,对比所述第六转换图与所述目标域图像,基于所述器械保护损失函数更新所述第一生成器以及第二生成器的参数。
在本发明的一个实施例中,通过掩码模块分离所述样本图像的背景以及器械,所述掩码模块为图像分割网络。
在本发明的一个实施例中,所述第一生成器包括背景编码器、器械编码器以及解码器,所述背景编码器和器械编码器均与所述解码器连接。
在本发明的一个实施例中,所述背景编码器与所述器械编码器均包括多层卷积层,任一卷积层包括下采样/上采样层、校正线性单位激活函数层和残差块。
在本发明的一个实施例中,所述解码器包括多层卷积层,任一卷积层包括下采样/上采样层、校正线性单位激活函数层和残差块,所述背景编码器以及器械编码器中的下采样层均与所述解码器中对应的上采样层连接。
在本发明的一个实施例中,所述对抗生成损失函数为:
其中,a为源域图像;b为目标域图像;G为生成器;D为辨别器。
在本发明的一个实施例中,所述循环一致性损失函数为:
其中,cyc(a)为第二转换图;cyc(b)为第五转换图。
在本发明的一个实施例中,所述器械保护损失函数为:
其中,η为合成图像;τ为图像二值化的阈值。
本发明的上述技术方案相比现有技术具有以下优点:
本发明所述手术场景图像转换方法基于改进的CycleGAN模型实现,改进的CycleGAN模型包括两个生成器和两个辨别器,每个生成器包括器械编码和背景编码,两个编码器用于视觉特征的解缠,一个解码器用于视觉特征的融合,避免了现有方案中手术背景和手术器械之间发生视觉特征纠缠的问题。此外,在训练过程中,除了现有CycleGAN的对抗生成损失函数和循环一致性损失函数来监督网络的训练,本发明还设计了器械保护损失函数来监督训练,使转换过后的图像器械缺失部分减少,以达到提高图像转换的质量的目的。本发明可以用作手术场景的整图的图像转换,在背景不同的情况下也能使用,克服了使用传统图像转换方法时图像模糊和器械部分缺失等问题,实现了高质量的手术图像转换。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明。
图1是本发明手术场景图像转换方法的流程图;
图2是本发明生成器的结构图;
图3是本发明生成器中卷积层的结构图;
图4是本发明一个实施例的转换结果图;
图5是本发明另一个实施例的转换结果图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
参照图1所示,为了能在背景不同的情况下转换出图像清晰且器械部分完整的手术场景图像,实现高质量的手术图像转换,本发明手术场景图像转换方法包括:
构建改进的CycleGAN模型,所述CycleGAN模型包括第一生成器、第一判别器、第二生成器、第二判别器、对抗生成损失函数、循环一致性损失函数以及器械保护损失函数;
具体地,现有CycleGAN模型包括两个生成器以及两个辨别器,两个生成器各包括一个编码器和一个解码器,通过对抗生成损失函数和循环一致性损失函数对现有CycleGAN模型训练,更新生成器和辨别器的参数,能够使样本图像向期望图像实现风格迁移。本发明改进的CycleGAN模型中,第一生成器和第二生成器均包括背景编码器、器械编码器和一个解码器,通过对抗生成损失函数、循环一致性损失函数以及器械保护损失函数对改进的CycleGAN模型训练,更新第一生成器、第一判别器、第二生成器以及第二判别器的参数,使样本图像向期望图像实现风格迁移。
获取手术场景图像数据集,所述手术场景图像数据集包括多对样本图像和期望图像,定义所述样本图像为源域图像,所述期望图像为目标域图像,基于所述手术场景图像数据集训练所述改进的CycleGAN模型;
本发明实施例中,样本图样和期望图像均为现实手术场景图像,样本图像为需要转换的图像,期望图像可以根据实际需要选择。
基于训练后的改进的CycleGAN模型,根据所述样本图像,得到转换后的手术场景图像;
其中,训练所述改进的CycleGAN模型包括:
步骤1、执行“源域-目标域-源域”的正向训练;
步骤2、执行“目标域-源域-目标域”的逆向训练;
步骤3、判断执行所述正向训练和逆向训练的次数是否达到预设值,若到达所述预设值,则完成训练,否则,返回步骤1。
其中,正向训练或逆向训练时,根据所述器械保护损失函数更新所述第二生成器和第一生成器的参数。
具体地,训练改进的CycleGAN模型与现有CycleGAN模型的训练方法区别在于:正向训练或逆向训练后,需要将改进的CycleGAN模型输出的转换图中的背景和器械分离,在正向训练中,改进的CycleGAN模型输出的转换图需要与源域图像做对比,所以将转换图的器械与源域图像的背景融合,此时需要将源域图像中的背景和器械也做分离处理,将融合的图像与源域图像对比,通过器械保护损失函数更新第二生成器和第一生成器的参数,使转换过后的图像器械缺失部分减少,以达到在背景不同的情况下,也能转换出器械清晰的转换图,提高图像转换的质量的目的。在逆向训练中,改进的CycleGAN模型输出的转换图需要与目标域图像做对比,所以将转换图的器械与目标域图像的背景融合,此时需要将目标域图像中的背景和器械也做分离处理,将融合的图像与目标域图像对比,通过器械保护损失函数更新第二生成器和第一生成器的参数,使转换过后的图像器械缺失部分减少,以达到在背景不同的情况下,也能转换出器械清晰的转换图,提高图像转换的质量的目的。
进一步地,所述正向训练包括:
分离所述源域图像的背景以及器械,得到第一背景图和第一器械图;
基于所述对抗生成损失函数和目标域图像更新所述第一判别器参数;
将所述第一背景图和第一器械图输入第一生成器,得到第一转换图;
所述第一判别器判断所述第一转换图是否为目标域图像,若所述第一转换图为目标域图像,则执行下一步骤,否则,基于所述对抗生成损失函数更新所述第一生成器参数后返回第一生成器输出转换图的步骤;
分离所述第一转换图中的背景以及器械,得到第二背景图和第二器械图;
将所述第二背景图和第二器械图输入第二生成器,得到第二转换图;
对比所述第二转换图与源域图像,基于所述循环一致性损失函数更新第一生成器和第二生成器的参数;
分离所述第二转换图中的背景以及器械,得到第三背景图和第三器械图;
将所述第三器械图与所述第一背景图融合,得到第三转换图,对比所述第三转换图与所述源域图像,基于所述器械保护损失函数更新所述第一生成器以及第二生成器的参数。
所述逆向训练包括:
基于所述对抗生成损失函数和源域图像更新所述第二判别器参数;
将第三背景图和第三器械图输入第二生成器,得到第四转换图;
所述第二判别器判断所述第四转换图是否为源域图像,若所述第四转换图为源域图像,则执行下一步骤,否则,基于所述对抗生成损失函数更新所述第二生成器参数后返回输出第二生成器输出转换图的步骤;
分离所述第四转换图中的背景以及器械,得到第五背景图和第五器械图;
将所述第五背景图和第五器械图输入第一生成器,得到第五转换图;
对比所述第五转换图与目标域图像,基于所述循环一致性损失函数更新第一生成器和第二生成器的参数;
分离所述第五转换图中的背景以及器械,得到第六背景图和第六器械图;
第三背景图第三器械图
将所述第六器械图与所述第三背景图融合,得到第六转换图,对比所述第六转换图与所述目标域图像,基于所述器械保护损失函数更新所述第一生成器以及第二生成器的参数。
具体地,正向训练中,首先将需要转换的图片(源域图像)输入第一生成器中,使需要转换的图片的风格向目标域图像迁移,再将第一生成器中输出的第一转换图输入第二生成器中,使得第一转换图的内容能够与源域图像相一致。其中,在将需要转换的图片输入第一生成器之前,需要根据对抗生成损失函数和源域图像对第一判别器进行参数更新,当第一转换图生成后,第一判别器判断第一转换图是否为目标域图像,若第一转换图为目标域图像,则执行下一步骤,否则,基于所述对抗生成损失函数更新所述第一生成器参数后再输出转换图,再由第一判别器判别,直到第一判别器判别第一转换图为目标域图像,第一生成器生成的图像才能够输入第二生成器中,得到第二转换图,将第二生成器生成的第二转换图与源域原图对比,通过循环一致性损失函数更新第一生成器和第二生成器的参数。以上训练过程均与现有CycleGAN模型的训练过程相一致,此处不再赘述。
本发明改进的CycleGAN模型与现有CycleGAN模型训练方法不同之处在于:
(1)每张图像在输入生成器(第一生成器,第二生成器)之前,需要分离图像中的器械和背景,本发明第一生成器和第二生成器中均包括两个编码器,分别是背景编码器和器械编码器,背景编码器和器械编码器分别对应图像中的背景和器械,两个编码器用于视觉特征的解缠,避免了现有方案中手术背景和手术器械之间发生视觉特征纠缠的问题,使得图像转换清晰,实现了高质量的手术图像转换。
(2)第二生成器生成第二转换图后,分离第二转换图中的背景以及器械,得到第三背景图像和第三器械图像;将第三器械图像与所述第一背景图像融合,得到第三转换图,对比第三转换图与源域图像,基于所述器械保护损失函数更新所述第一生成器以及第二生成器的参数,使转换过后的图像器械缺失部分减少,以达到在背景不同的情况下,也能转换出器械清晰的转换图,提高图像转换的质量的目的。
进一步地,逆向训练时,也需在每张图像在输入生成器之前分离图像中的器械和背景,第一生成器生成第五转换图后,也需分离第五转换图中的背景以及器械,得到第六器械图,将第六器械图与第三背景图融合,得到第六转换图,对比第六转换图与所述目标域图像,基于所述器械保护损失函数更新所述第一生成器以及第二生成器的参数。逆向训练的具体情况与工作原理与正向训练相一致,此处不再赘述。
进一步地,通过掩码模块分离所述样本图像的背景以及器械,所述掩码模块为图像分割网络。
具体地,将图像分割网络与图像每个像素点相乘,即可得到去掉背景的器械图像,或者去掉器械的背景图像,图像分割网络的具体情况与工作原理均与现有相一致,具体为本领域技术人员所熟知,此处不再赘述。
进一步地,所述第一生成器包括背景编码器、器械编码器以及解码器,所述背景编码器和器械编码器均与所述解码器连接。
所述背景编码器与所述器械编码器均包括多层卷积层,任一卷积层包括下采样/上采样层、校正线性单位激活函数层和残差块。
所述解码器包括多层卷积层,任一卷积层包括下采样/上采样层、校正线性单位激活函数层和残差块,所述背景编码器以及器械编码器中的下采样层均与所述解码器中对应的上采样层连接。
具体地,如图2和图3所示,两个编码器分别负责编码两个图像的高维特征。然后,将两个编码特征连接起来,并将它们发送到解码器以生成输出图像。
本发明实施例中,每个编码器和解码器中有五个跨步数为2的卷积层,卷积核大小为3*3。卷积层的通道数在每个编码器中分别为64、128、256、512、512,在解码器中分别为1024、1536、768、384、192。每层的结构如图3所示,任一卷积层包括下采样层或上采样层、校正线性单位激活函数层和残差块。为了保留图像语义信息,在编码器中的每个下采样完成后,生成的张量不仅被传输到下一层,并且还跨越连接到解码器中的相应上采样层。为了确保输入和输出图像之间的大小一致性,编码器第一个输入层和最后一个输出层中的通道数量设置为相同。
进一步地,所述对抗生成损失函数为:
其中,a为源域图像;b为目标域图像;G为生成器;D为辨别器。生成器G试图将此函数最小化,而辨别器D试图将其最大化。生成器G生成的图像将越来越真实,辨别器D辨别图像真实性的能力将越来越强。
进一步地,所述循环一致性损失函数为:
其中,cyc(a)为第二转换图;cyc(b)为第五转换图。
这个损失函数需要两个生成器,表示为G和F。对于源域中的每个图像a,循环转换的图像(即图像通过G后再通过F)应该能够将a重新转换回到原始图像,即a→G(a)→F(G(a))=cyc(a),并且图像cyc(a)需要尽可能与图像a相似,称之为前向循环一致性。同样,对于目标域中的每个图像b,G和F也应满足后向循环一致性:即b→F(b)→G(F(b))=cyc(b),并且cyc(b)需要尽可能与b相似。循环一致性损失函数可以使生成器尽可能保留原图的语义信息。
进一步地,所述器械保护损失函数为:
其中,η为合成图像;τ为图像二值化的阈值。
合成图像η的计算公式为:
其中,η是合成图像,它由真实图像中的背景和循环图像中的器械组成;τ是用于图像二值化的阈值,语义分割标签也可以被视为τ。和/>执行逐像素乘法和逐像素加法,(1-τ)是负图像转换。然后,开始比较合成图像和真实图像。
如图4所示,具体为使用三个不同的数据集(Endovi2018,UCL Dataset,自行录制的数据集)进行训练和测试,得到的结果图片。其中输入图片是源域图片,已有模型结果是现有CycleGAN模型进行图像转换后得到的结果,新模型结果是改进的CycleGAN模型图像转换后的结果。将数据集按照上述工作流程输入网络后可以达到图像转换的效果且效果更好。本发明还用结果进行了FID测试,如表所示,格内为得分结果,FID是衡量生成式网络生成数据的好坏的标准,得分越小的生成效果越好。其中w/o FDFG和w/o IP loss指消融实验中不包括生成器的模型和不包括器械保护损失的模型,proposed指完整的新模型,In-house Dataset指自行录制的数据集。由表1可得,改进的CycleGAN模型拥有更好的图像转换性能。
表1
如图5所示,为本发明使用图像分割的数据集进行测试得到的结果图,从更底层说明改进的CycleGAN模型对器械转换时的保护作用。如图5所示,在将源域图像转换到目标域图像后,改进的CycleGAN模型对器械的转换更为准确,缺失减少,外观形状正确。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (10)
1.一种手术场景图像转换方法,其特征在于,包括:
构建改进的CycleGAN模型,所述改进的CycleGAN模型包括第一生成器、第一判别器、第二生成器、第二判别器、对抗生成损失函数、循环一致性损失函数以及器械保护损失函数;
获取手术场景图像数据集,所述手术场景图像数据集包括多个样本图像和期望图像,定义所述样本图像为源域图像,所述期望图像为目标域图像,基于所述手术场景图像数据集训练所述改进的CycleGAN模型;
基于训练后的改进的CycleGAN模型,根据所述样本图像,得到转换后的手术场景图像;
其中,训练所述改进的CycleGAN模型包括:
步骤1、执行“源域-目标域-源域”的正向训练;
步骤2、执行“目标域-源域-目标域”的逆向训练;
步骤3、判断执行所述正向训练和逆向训练的次数是否达到预设值,若到达所述预设值,则完成训练,否则,返回步骤1;
其中,正向训练或逆向训练时,根据所述器械保护损失函数更新所述第二生成器和第一生成器的参数。
2.根据权利要求1所述的手术场景图像转换方法,其特征在于,所述正向训练包括:
分离所述源域图像的背景以及器械,得到第一背景图和第一器械图;
基于所述对抗生成损失函数和目标域图像更新所述第一判别器参数;
将所述第一背景图和第一器械图输入第一生成器,得到第一转换图;
所述第一判别器判断所述第一转换图是否为目标域图像,若所述第一转换图为目标域图像,则执行下一步骤,否则,基于所述对抗生成损失函数更新所述第一生成器参数后返回第一生成器输出转换图的步骤;
分离所述第一转换图中的背景以及器械,得到第二背景图像和第二器械图;
将所述第二背景图和第二器械图输入第二生成器,得到第二转换图;
对比所述第二转换图与源域图像,基于所述循环一致性损失函数更新第一生成器和第二生成器的参数;
分离所述第二转换图中的背景以及器械,得到第三背景图和第三器械图;
将所述第三器械图与所述第一背景图融合,得到第三转换图,对比所述第三转换图与所述源域图像,基于所述器械保护损失函数更新所述第一生成器以及第二生成器的参数。
3.根据权利要求2所述的手术场景图像转换方法,其特征在于,所述逆向训练包括:
基于所述对抗生成损失函数和源域图像更新所述第二判别器参数;
将第三背景图和第三器械图输入第二生成器,得到第四转换图;
所述第二判别器判断所述第四转换图是否为源域图像,若所述第四转换图为源域图像,则执行下一步骤,否则,基于所述对抗生成损失函数更新所述第二生成器参数后返回输出第二生成器输出转换图的步骤;
分离所述第四转换图中的背景以及器械,得到第五背景图和第五器械图;
将所述第五背景图和第五器械图输入第一生成器,得到第五转换图;
对比所述第五转换图与目标域图像,基于所述循环一致性损失函数更新第一生成器和第二生成器的参数;
分离所述第五转换图中的背景以及器械,得到第六背景图和第六器械图;
将所述第六器械图与所述第三背景图融合,得到第六转换图,对比所述第六转换图与所述目标域图像,基于所述器械保护损失函数更新所述第一生成器以及第二生成器的参数。
4.根据权利要求2所述的手术场景图像转换方法,其特征在于:通过掩码模块分离所述样本图像的背景以及器械,所述掩码模块为图像分割网络。
5.根据权利要求1所述的手术场景图像转换方法,其特征在于:所述第一生成器包括背景编码器、器械编码器以及解码器,所述背景编码器和器械编码器均与所述解码器连接。
6.根据权利要求5所述的手术场景图像转换方法,其特征在于:所述背景编码器与所述器械编码器均包括多层卷积层,任一卷积层包括下采样/上采样层、校正线性单位激活函数层和残差块。
7.根据权利要求6所述的手术场景图像转换方法,其特征在于:所述解码器包括多层卷积层,任一卷积层包括下采样/上采样层、校正线性单位激活函数层和残差块,所述背景编码器以及器械编码器中的下采样层均与所述解码器中对应的上采样层连接。
8.根据权利要求1所述的手术场景图像转换方法,其特征在于,所述对抗生成损失函数为:
其中,a为源域图像;b为目标域图像;G为生成器;D为辨别器。
9.根据权利要求1所述的手术场景图像转换方法,其特征在于,所述循环一致性损失函数为:
其中,cyc(a)为第二转换图;cyc(b)为第五转换图。
10.根据权利要求1所述的手术场景图像转换方法,其特征在于,所述器械保护损失函数为:
其中,η为合成图像;τ为图像二值化的阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310349885.5A CN116503296B (zh) | 2023-04-04 | 2023-04-04 | 一种手术场景图像转换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310349885.5A CN116503296B (zh) | 2023-04-04 | 2023-04-04 | 一种手术场景图像转换方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116503296A true CN116503296A (zh) | 2023-07-28 |
CN116503296B CN116503296B (zh) | 2024-07-23 |
Family
ID=87329431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310349885.5A Active CN116503296B (zh) | 2023-04-04 | 2023-04-04 | 一种手术场景图像转换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116503296B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117649422A (zh) * | 2024-01-30 | 2024-03-05 | 安徽大学 | 多模态图像分割模型的训练方法和多模态图像分割方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111709873A (zh) * | 2020-05-27 | 2020-09-25 | 北京百度网讯科技有限公司 | 图像转换模型生成器的训练方法和装置 |
CN111723780A (zh) * | 2020-07-22 | 2020-09-29 | 浙江大学 | 基于高分辨率遥感图像的跨域数据的定向迁移方法及系统 |
CN112801863A (zh) * | 2021-02-25 | 2021-05-14 | 浙江工业大学 | 基于图像转换和域泛化的无监督多模态医学图像配准方法 |
CN113870157A (zh) * | 2021-09-26 | 2021-12-31 | 电子科技大学 | 一种基于CycleGAN的SAR图像合成方法 |
US20220318946A1 (en) * | 2021-03-31 | 2022-10-06 | University Of Electronic Science And Technology Of China | Method for image shape transformation based on generative adversarial network |
-
2023
- 2023-04-04 CN CN202310349885.5A patent/CN116503296B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111709873A (zh) * | 2020-05-27 | 2020-09-25 | 北京百度网讯科技有限公司 | 图像转换模型生成器的训练方法和装置 |
CN111723780A (zh) * | 2020-07-22 | 2020-09-29 | 浙江大学 | 基于高分辨率遥感图像的跨域数据的定向迁移方法及系统 |
CN112801863A (zh) * | 2021-02-25 | 2021-05-14 | 浙江工业大学 | 基于图像转换和域泛化的无监督多模态医学图像配准方法 |
US20220318946A1 (en) * | 2021-03-31 | 2022-10-06 | University Of Electronic Science And Technology Of China | Method for image shape transformation based on generative adversarial network |
CN113870157A (zh) * | 2021-09-26 | 2021-12-31 | 电子科技大学 | 一种基于CycleGAN的SAR图像合成方法 |
Non-Patent Citations (2)
Title |
---|
HAO DOU 等: "Asymmetric CycleGAN for image-to-image translations with uneven complexities", 《NEUROCOMPUTING》, 28 July 2020 (2020-07-28), pages 114 - 122, XP086287402, DOI: 10.1016/j.neucom.2020.07.044 * |
瞿慧聪: "基于深度学习的图像风格迁移研究与应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 February 2023 (2023-02-15), pages 1 - 65 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117649422A (zh) * | 2024-01-30 | 2024-03-05 | 安徽大学 | 多模态图像分割模型的训练方法和多模态图像分割方法 |
CN117649422B (zh) * | 2024-01-30 | 2024-04-12 | 安徽大学 | 多模态图像分割模型的训练方法和多模态图像分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116503296B (zh) | 2024-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20210097772A (ko) | 의료 영상 세그먼트화 방법 및 디바이스, 전자 디바이스 및 저장 매체 | |
CN109544442A (zh) | 基于双重对抗的生成式对抗网络的图像局部风格迁移方法 | |
CN110852256B (zh) | 时序动作提名的生成方法、装置、设备及存储介质 | |
WO2019015466A1 (zh) | 人证核实的方法及装置 | |
CN111476805A (zh) | 一种基于多重约束的跨源无监督域适应分割模型 | |
CN116503296B (zh) | 一种手术场景图像转换方法 | |
CN113343705A (zh) | 一种基于文本语义的细节保持图像生成方法及系统 | |
CN111695430A (zh) | 一种基于特征融合和视觉感受野网络的多尺度人脸检测方法 | |
CN112668492B (zh) | 一种自监督学习与骨骼信息的行为识别方法 | |
CN110263801A (zh) | 图像处理模型生成方法及装置、电子设备 | |
CN113808008A (zh) | 基于Transformer构建生成对抗网络实现妆容迁移的方法 | |
CN113391992A (zh) | 测试数据的生成方法和装置、存储介质及电子设备 | |
CN109766918A (zh) | 基于多层次上下文信息融合的显著性物体检测方法 | |
CN117094895B (zh) | 图像全景拼接方法及其系统 | |
CN112561782B (zh) | 一种提高海上场景仿真图片真实度的方法 | |
CN111368663A (zh) | 自然场景中静态面部表情识别方法、装置、介质及设备 | |
CN114140368B (zh) | 一种基于生成式对抗网络的多模态医学图像合成方法 | |
Feng et al. | ALBench: a framework for evaluating active learning in object detection | |
CN114565624A (zh) | 基于多期立体图元生成器的肝脏病灶分割的图像处理方法 | |
CN113962332A (zh) | 基于自优化融合反馈的显著目标识别方法 | |
CN111582067A (zh) | 人脸表情识别方法、系统、存储介质、计算机程序、终端 | |
CN113569886A (zh) | 网络结构调整方法、装置和存储介质及电子设备 | |
Yang et al. | Shapeediter: a stylegan encoder for face swapping | |
Huynh et al. | Light-weight Sketch Recognition with Knowledge Distillation | |
CN110415194B (zh) | 一种弓形虫高倍显微图像生成方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |