CN116503296A - 一种手术场景图像转换方法 - Google Patents

一种手术场景图像转换方法 Download PDF

Info

Publication number
CN116503296A
CN116503296A CN202310349885.5A CN202310349885A CN116503296A CN 116503296 A CN116503296 A CN 116503296A CN 202310349885 A CN202310349885 A CN 202310349885A CN 116503296 A CN116503296 A CN 116503296A
Authority
CN
China
Prior art keywords
image
instrument
generator
conversion
background
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310349885.5A
Other languages
English (en)
Inventor
陆波
郭宇豪
周天呈
孙立宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202310349885.5A priority Critical patent/CN116503296A/zh
Publication of CN116503296A publication Critical patent/CN116503296A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种手术场景图像转换方法,其包括构建改进的CycleGAN模型,所述CycleGAN模型包括第一生成器、第一判别器、第二生成器、第二判别器、对抗生成损失函数、循环一致性损失函数以及器械保护损失函数;获取手术场景图像数据集,所述手术场景图像数据集包括多个样本图像和期望图像,基于手术场景图像数据集训练所述改进的CycleGAN模型;基于训练后的改进的CycleGAN模型,根据所述样本图像,得到转换后的手术场景图像。本发明能在背景不同的情况下转换出图像清晰且器械部分完整的手术场景图像,实现高质量的手术图像转换。

Description

一种手术场景图像转换方法
技术领域
本发明涉及手术场景图像转换技术领域,尤其是指一种手术场景图像转换方法。
背景技术
随着手术机器人和深度学习驱动算法的蓬勃发展,通过学习人类的技能使机器人能够自主完成某些子任务的手术自动化正引起巨大关注。然而,由于伦理问题的存在,目前手术场景的数据集对外公开的数量较小,并且场景的种类也处于受限的状态。为了促进手术机器人深度学习得到更好的发展,提供更丰富的手术场景信息的数据集就十分重要,其中就包括增加手术场景的图像数据集。由于该原因,手术图像的转换技术应运而生。从其他场景到所需场景的高质量外科图像转换方法不仅可以增加手术场景数据集的数量,还可以帮助手术机器人的医疗技能训练平台的搭建。
为了实现图像转换这一目标,研究人员正在进行广泛的研究,以探寻合适的图像转换方法。其中,GAN(Generative Adversarial Network,生成对抗网络)已被广泛应用,其包括一个生成器和一个辨别器,它们都是由深度学习网络搭建而成。生成器被训练以生成目标场景的新图像,辨别器则被训练以辨别生成器生成的图像是否为目标场景的图像,两个网络在训练过程中共同进步,最终生成器生成目标域假图的能力得到显著的提升。然而考虑到两个不同领域下的大多数数据基本上是不成对的(成对:源域和目标域的图像一一对应,即每一张源域的图片都有一张语义信息相同的目标域图片与其对应),这样的数据不能用作GAN的训练,因此可以使用这类数据进行图像转换训练的循环生成对抗网络(CycleGAN)应运而生。
在进行整张手术场景图像转换时,直接使用CycleGAN进行操作会出现图像转换的不清晰和手术器械的部分缺失等问题。现有技术中,基于改进的CycleGAN模型也只专注于手术器械的图像转换,因此当手术场景的背景不同时,无法使用现有技术方案实现高质量的图像转换。
发明内容
本发明所要解决的技术问题在于克服现有技术中存在的不足,提供一种手术场景图像转换方法,其能在背景不同的情况下转换出图像清晰且器械部分完整的手术场景图像,实现高质量的手术图像转换。
按照本发明提供的技术方案,所述手术场景图像转换方法包括:
构建改进的CycleGAN模型,所述改进的CycleGAN模型包括第一生成器、第一判别器、第二生成器、第二判别器、对抗生成损失函数、循环一致性损失函数以及器械保护损失函数;
获取手术场景图像数据集,所述手术场景图像数据集包括多对样本图像和期望图像,定义所述样本图像为源域图像,所述期望图像为目标域图像,基于所述手术场景图像数据集训练所述改进的CycleGAN模型;
基于训练后的改进的CycleGAN模型,根据所述样本图像,得到转换后的手术场景图像;
其中,训练所述改进的CycleGAN模型包括:
步骤1、执行“源域-目标域-源域”的正向训练;
步骤2、执行“目标域-源域-目标域”的逆向训练;
步骤3、判断执行所述正向训练和逆向训练的次数是否达到预设值,若到达所述预设值,则完成训练,否则,返回步骤1。
其中,正向训练或逆向训练时,根据所述器械保护损失函数更新所述第二生成器和第一生成器的参数。
在本发明的一个实施例中,所述正向训练包括:
分离所述源域图像的背景以及器械,得到第一背景图和第一器械图;
基于所述对抗生成损失函数和目标域图像更新所述第一判别器参数;
将所述第一背景图和第一器械图输入第一生成器,得到第一转换图;
所述第一判别器判断所述第一转换图是否为目标域图像,若所述第一转换图为目标域图像,则执行下一步骤,否则,基于所述对抗生成损失函数更新所述第一生成器参数后返回第一生成器输出转换图的步骤;
分离所述第一转换图中的背景以及器械,得到第二背景图像和第二器械图;
将所述第二背景图和第二器械图输入第二生成器,得到第二转换图;
对比所述第二转换图与源域图像,基于所述循环一致性损失函数更新第一生成器和第二生成器的参数;
分离所述第二转换图中的背景以及器械,得到第三背景图和第三器械图;
将所述第三器械图与所述第一背景图融合,得到第三转换图,对比所述第三转换图与所述源域图像,基于所述器械保护损失函数更新所述第一生成器以及第二生成器的参数。
在本发明的一个实施例中,所述逆向训练包括:
基于所述对抗生成损失函数和源域图像更新所述第二判别器参数;
将第三背景图和第三器械图输入第二生成器,得到第四转换图;
所述第二判别器判断所述第四转换图是否为源域图像,若所述第四转换图为源域图像,则执行下一步骤,否则,基于所述对抗生成损失函数更新所述第二生成器参数后返回输出第二生成器输出转换图的步骤;
分离所述第四转换图中的背景以及器械,得到第五背景图和第五器械图;
将所述第五背景图和第五器械图输入第一生成器,得到第五转换图;
对比所述第五转换图与目标域图像,基于所述循环一致性损失函数更新第一生成器和第二生成器的参数;
分离所述第五转换图中的背景以及器械,得到第六背景图和第六器械图;
将所述第六器械图与所述第三背景图融合,得到第六转换图,对比所述第六转换图与所述目标域图像,基于所述器械保护损失函数更新所述第一生成器以及第二生成器的参数。
在本发明的一个实施例中,通过掩码模块分离所述样本图像的背景以及器械,所述掩码模块为图像分割网络。
在本发明的一个实施例中,所述第一生成器包括背景编码器、器械编码器以及解码器,所述背景编码器和器械编码器均与所述解码器连接。
在本发明的一个实施例中,所述背景编码器与所述器械编码器均包括多层卷积层,任一卷积层包括下采样/上采样层、校正线性单位激活函数层和残差块。
在本发明的一个实施例中,所述解码器包括多层卷积层,任一卷积层包括下采样/上采样层、校正线性单位激活函数层和残差块,所述背景编码器以及器械编码器中的下采样层均与所述解码器中对应的上采样层连接。
在本发明的一个实施例中,所述对抗生成损失函数为:
其中,a为源域图像;b为目标域图像;G为生成器;D为辨别器。
在本发明的一个实施例中,所述循环一致性损失函数为:
其中,cyc(a)为第二转换图;cyc(b)为第五转换图。
在本发明的一个实施例中,所述器械保护损失函数为:
其中,η为合成图像;τ为图像二值化的阈值。
本发明的上述技术方案相比现有技术具有以下优点:
本发明所述手术场景图像转换方法基于改进的CycleGAN模型实现,改进的CycleGAN模型包括两个生成器和两个辨别器,每个生成器包括器械编码和背景编码,两个编码器用于视觉特征的解缠,一个解码器用于视觉特征的融合,避免了现有方案中手术背景和手术器械之间发生视觉特征纠缠的问题。此外,在训练过程中,除了现有CycleGAN的对抗生成损失函数和循环一致性损失函数来监督网络的训练,本发明还设计了器械保护损失函数来监督训练,使转换过后的图像器械缺失部分减少,以达到提高图像转换的质量的目的。本发明可以用作手术场景的整图的图像转换,在背景不同的情况下也能使用,克服了使用传统图像转换方法时图像模糊和器械部分缺失等问题,实现了高质量的手术图像转换。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明。
图1是本发明手术场景图像转换方法的流程图;
图2是本发明生成器的结构图;
图3是本发明生成器中卷积层的结构图;
图4是本发明一个实施例的转换结果图;
图5是本发明另一个实施例的转换结果图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
参照图1所示,为了能在背景不同的情况下转换出图像清晰且器械部分完整的手术场景图像,实现高质量的手术图像转换,本发明手术场景图像转换方法包括:
构建改进的CycleGAN模型,所述CycleGAN模型包括第一生成器、第一判别器、第二生成器、第二判别器、对抗生成损失函数、循环一致性损失函数以及器械保护损失函数;
具体地,现有CycleGAN模型包括两个生成器以及两个辨别器,两个生成器各包括一个编码器和一个解码器,通过对抗生成损失函数和循环一致性损失函数对现有CycleGAN模型训练,更新生成器和辨别器的参数,能够使样本图像向期望图像实现风格迁移。本发明改进的CycleGAN模型中,第一生成器和第二生成器均包括背景编码器、器械编码器和一个解码器,通过对抗生成损失函数、循环一致性损失函数以及器械保护损失函数对改进的CycleGAN模型训练,更新第一生成器、第一判别器、第二生成器以及第二判别器的参数,使样本图像向期望图像实现风格迁移。
获取手术场景图像数据集,所述手术场景图像数据集包括多对样本图像和期望图像,定义所述样本图像为源域图像,所述期望图像为目标域图像,基于所述手术场景图像数据集训练所述改进的CycleGAN模型;
本发明实施例中,样本图样和期望图像均为现实手术场景图像,样本图像为需要转换的图像,期望图像可以根据实际需要选择。
基于训练后的改进的CycleGAN模型,根据所述样本图像,得到转换后的手术场景图像;
其中,训练所述改进的CycleGAN模型包括:
步骤1、执行“源域-目标域-源域”的正向训练;
步骤2、执行“目标域-源域-目标域”的逆向训练;
步骤3、判断执行所述正向训练和逆向训练的次数是否达到预设值,若到达所述预设值,则完成训练,否则,返回步骤1。
其中,正向训练或逆向训练时,根据所述器械保护损失函数更新所述第二生成器和第一生成器的参数。
具体地,训练改进的CycleGAN模型与现有CycleGAN模型的训练方法区别在于:正向训练或逆向训练后,需要将改进的CycleGAN模型输出的转换图中的背景和器械分离,在正向训练中,改进的CycleGAN模型输出的转换图需要与源域图像做对比,所以将转换图的器械与源域图像的背景融合,此时需要将源域图像中的背景和器械也做分离处理,将融合的图像与源域图像对比,通过器械保护损失函数更新第二生成器和第一生成器的参数,使转换过后的图像器械缺失部分减少,以达到在背景不同的情况下,也能转换出器械清晰的转换图,提高图像转换的质量的目的。在逆向训练中,改进的CycleGAN模型输出的转换图需要与目标域图像做对比,所以将转换图的器械与目标域图像的背景融合,此时需要将目标域图像中的背景和器械也做分离处理,将融合的图像与目标域图像对比,通过器械保护损失函数更新第二生成器和第一生成器的参数,使转换过后的图像器械缺失部分减少,以达到在背景不同的情况下,也能转换出器械清晰的转换图,提高图像转换的质量的目的。
进一步地,所述正向训练包括:
分离所述源域图像的背景以及器械,得到第一背景图和第一器械图;
基于所述对抗生成损失函数和目标域图像更新所述第一判别器参数;
将所述第一背景图和第一器械图输入第一生成器,得到第一转换图;
所述第一判别器判断所述第一转换图是否为目标域图像,若所述第一转换图为目标域图像,则执行下一步骤,否则,基于所述对抗生成损失函数更新所述第一生成器参数后返回第一生成器输出转换图的步骤;
分离所述第一转换图中的背景以及器械,得到第二背景图和第二器械图;
将所述第二背景图和第二器械图输入第二生成器,得到第二转换图;
对比所述第二转换图与源域图像,基于所述循环一致性损失函数更新第一生成器和第二生成器的参数;
分离所述第二转换图中的背景以及器械,得到第三背景图和第三器械图;
将所述第三器械图与所述第一背景图融合,得到第三转换图,对比所述第三转换图与所述源域图像,基于所述器械保护损失函数更新所述第一生成器以及第二生成器的参数。
所述逆向训练包括:
基于所述对抗生成损失函数和源域图像更新所述第二判别器参数;
将第三背景图和第三器械图输入第二生成器,得到第四转换图;
所述第二判别器判断所述第四转换图是否为源域图像,若所述第四转换图为源域图像,则执行下一步骤,否则,基于所述对抗生成损失函数更新所述第二生成器参数后返回输出第二生成器输出转换图的步骤;
分离所述第四转换图中的背景以及器械,得到第五背景图和第五器械图;
将所述第五背景图和第五器械图输入第一生成器,得到第五转换图;
对比所述第五转换图与目标域图像,基于所述循环一致性损失函数更新第一生成器和第二生成器的参数;
分离所述第五转换图中的背景以及器械,得到第六背景图和第六器械图;
第三背景图第三器械图
将所述第六器械图与所述第三背景图融合,得到第六转换图,对比所述第六转换图与所述目标域图像,基于所述器械保护损失函数更新所述第一生成器以及第二生成器的参数。
具体地,正向训练中,首先将需要转换的图片(源域图像)输入第一生成器中,使需要转换的图片的风格向目标域图像迁移,再将第一生成器中输出的第一转换图输入第二生成器中,使得第一转换图的内容能够与源域图像相一致。其中,在将需要转换的图片输入第一生成器之前,需要根据对抗生成损失函数和源域图像对第一判别器进行参数更新,当第一转换图生成后,第一判别器判断第一转换图是否为目标域图像,若第一转换图为目标域图像,则执行下一步骤,否则,基于所述对抗生成损失函数更新所述第一生成器参数后再输出转换图,再由第一判别器判别,直到第一判别器判别第一转换图为目标域图像,第一生成器生成的图像才能够输入第二生成器中,得到第二转换图,将第二生成器生成的第二转换图与源域原图对比,通过循环一致性损失函数更新第一生成器和第二生成器的参数。以上训练过程均与现有CycleGAN模型的训练过程相一致,此处不再赘述。
本发明改进的CycleGAN模型与现有CycleGAN模型训练方法不同之处在于:
(1)每张图像在输入生成器(第一生成器,第二生成器)之前,需要分离图像中的器械和背景,本发明第一生成器和第二生成器中均包括两个编码器,分别是背景编码器和器械编码器,背景编码器和器械编码器分别对应图像中的背景和器械,两个编码器用于视觉特征的解缠,避免了现有方案中手术背景和手术器械之间发生视觉特征纠缠的问题,使得图像转换清晰,实现了高质量的手术图像转换。
(2)第二生成器生成第二转换图后,分离第二转换图中的背景以及器械,得到第三背景图像和第三器械图像;将第三器械图像与所述第一背景图像融合,得到第三转换图,对比第三转换图与源域图像,基于所述器械保护损失函数更新所述第一生成器以及第二生成器的参数,使转换过后的图像器械缺失部分减少,以达到在背景不同的情况下,也能转换出器械清晰的转换图,提高图像转换的质量的目的。
进一步地,逆向训练时,也需在每张图像在输入生成器之前分离图像中的器械和背景,第一生成器生成第五转换图后,也需分离第五转换图中的背景以及器械,得到第六器械图,将第六器械图与第三背景图融合,得到第六转换图,对比第六转换图与所述目标域图像,基于所述器械保护损失函数更新所述第一生成器以及第二生成器的参数。逆向训练的具体情况与工作原理与正向训练相一致,此处不再赘述。
进一步地,通过掩码模块分离所述样本图像的背景以及器械,所述掩码模块为图像分割网络。
具体地,将图像分割网络与图像每个像素点相乘,即可得到去掉背景的器械图像,或者去掉器械的背景图像,图像分割网络的具体情况与工作原理均与现有相一致,具体为本领域技术人员所熟知,此处不再赘述。
进一步地,所述第一生成器包括背景编码器、器械编码器以及解码器,所述背景编码器和器械编码器均与所述解码器连接。
所述背景编码器与所述器械编码器均包括多层卷积层,任一卷积层包括下采样/上采样层、校正线性单位激活函数层和残差块。
所述解码器包括多层卷积层,任一卷积层包括下采样/上采样层、校正线性单位激活函数层和残差块,所述背景编码器以及器械编码器中的下采样层均与所述解码器中对应的上采样层连接。
具体地,如图2和图3所示,两个编码器分别负责编码两个图像的高维特征。然后,将两个编码特征连接起来,并将它们发送到解码器以生成输出图像。
本发明实施例中,每个编码器和解码器中有五个跨步数为2的卷积层,卷积核大小为3*3。卷积层的通道数在每个编码器中分别为64、128、256、512、512,在解码器中分别为1024、1536、768、384、192。每层的结构如图3所示,任一卷积层包括下采样层或上采样层、校正线性单位激活函数层和残差块。为了保留图像语义信息,在编码器中的每个下采样完成后,生成的张量不仅被传输到下一层,并且还跨越连接到解码器中的相应上采样层。为了确保输入和输出图像之间的大小一致性,编码器第一个输入层和最后一个输出层中的通道数量设置为相同。
进一步地,所述对抗生成损失函数为:
其中,a为源域图像;b为目标域图像;G为生成器;D为辨别器。生成器G试图将此函数最小化,而辨别器D试图将其最大化。生成器G生成的图像将越来越真实,辨别器D辨别图像真实性的能力将越来越强。
进一步地,所述循环一致性损失函数为:
其中,cyc(a)为第二转换图;cyc(b)为第五转换图。
这个损失函数需要两个生成器,表示为G和F。对于源域中的每个图像a,循环转换的图像(即图像通过G后再通过F)应该能够将a重新转换回到原始图像,即a→G(a)→F(G(a))=cyc(a),并且图像cyc(a)需要尽可能与图像a相似,称之为前向循环一致性。同样,对于目标域中的每个图像b,G和F也应满足后向循环一致性:即b→F(b)→G(F(b))=cyc(b),并且cyc(b)需要尽可能与b相似。循环一致性损失函数可以使生成器尽可能保留原图的语义信息。
进一步地,所述器械保护损失函数为:
其中,η为合成图像;τ为图像二值化的阈值。
合成图像η的计算公式为:
其中,η是合成图像,它由真实图像中的背景和循环图像中的器械组成;τ是用于图像二值化的阈值,语义分割标签也可以被视为τ。和/>执行逐像素乘法和逐像素加法,(1-τ)是负图像转换。然后,开始比较合成图像和真实图像。
如图4所示,具体为使用三个不同的数据集(Endovi2018,UCL Dataset,自行录制的数据集)进行训练和测试,得到的结果图片。其中输入图片是源域图片,已有模型结果是现有CycleGAN模型进行图像转换后得到的结果,新模型结果是改进的CycleGAN模型图像转换后的结果。将数据集按照上述工作流程输入网络后可以达到图像转换的效果且效果更好。本发明还用结果进行了FID测试,如表所示,格内为得分结果,FID是衡量生成式网络生成数据的好坏的标准,得分越小的生成效果越好。其中w/o FDFG和w/o IP loss指消融实验中不包括生成器的模型和不包括器械保护损失的模型,proposed指完整的新模型,In-house Dataset指自行录制的数据集。由表1可得,改进的CycleGAN模型拥有更好的图像转换性能。
表1
如图5所示,为本发明使用图像分割的数据集进行测试得到的结果图,从更底层说明改进的CycleGAN模型对器械转换时的保护作用。如图5所示,在将源域图像转换到目标域图像后,改进的CycleGAN模型对器械的转换更为准确,缺失减少,外观形状正确。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.一种手术场景图像转换方法,其特征在于,包括:
构建改进的CycleGAN模型,所述改进的CycleGAN模型包括第一生成器、第一判别器、第二生成器、第二判别器、对抗生成损失函数、循环一致性损失函数以及器械保护损失函数;
获取手术场景图像数据集,所述手术场景图像数据集包括多个样本图像和期望图像,定义所述样本图像为源域图像,所述期望图像为目标域图像,基于所述手术场景图像数据集训练所述改进的CycleGAN模型;
基于训练后的改进的CycleGAN模型,根据所述样本图像,得到转换后的手术场景图像;
其中,训练所述改进的CycleGAN模型包括:
步骤1、执行“源域-目标域-源域”的正向训练;
步骤2、执行“目标域-源域-目标域”的逆向训练;
步骤3、判断执行所述正向训练和逆向训练的次数是否达到预设值,若到达所述预设值,则完成训练,否则,返回步骤1;
其中,正向训练或逆向训练时,根据所述器械保护损失函数更新所述第二生成器和第一生成器的参数。
2.根据权利要求1所述的手术场景图像转换方法,其特征在于,所述正向训练包括:
分离所述源域图像的背景以及器械,得到第一背景图和第一器械图;
基于所述对抗生成损失函数和目标域图像更新所述第一判别器参数;
将所述第一背景图和第一器械图输入第一生成器,得到第一转换图;
所述第一判别器判断所述第一转换图是否为目标域图像,若所述第一转换图为目标域图像,则执行下一步骤,否则,基于所述对抗生成损失函数更新所述第一生成器参数后返回第一生成器输出转换图的步骤;
分离所述第一转换图中的背景以及器械,得到第二背景图像和第二器械图;
将所述第二背景图和第二器械图输入第二生成器,得到第二转换图;
对比所述第二转换图与源域图像,基于所述循环一致性损失函数更新第一生成器和第二生成器的参数;
分离所述第二转换图中的背景以及器械,得到第三背景图和第三器械图;
将所述第三器械图与所述第一背景图融合,得到第三转换图,对比所述第三转换图与所述源域图像,基于所述器械保护损失函数更新所述第一生成器以及第二生成器的参数。
3.根据权利要求2所述的手术场景图像转换方法,其特征在于,所述逆向训练包括:
基于所述对抗生成损失函数和源域图像更新所述第二判别器参数;
将第三背景图和第三器械图输入第二生成器,得到第四转换图;
所述第二判别器判断所述第四转换图是否为源域图像,若所述第四转换图为源域图像,则执行下一步骤,否则,基于所述对抗生成损失函数更新所述第二生成器参数后返回输出第二生成器输出转换图的步骤;
分离所述第四转换图中的背景以及器械,得到第五背景图和第五器械图;
将所述第五背景图和第五器械图输入第一生成器,得到第五转换图;
对比所述第五转换图与目标域图像,基于所述循环一致性损失函数更新第一生成器和第二生成器的参数;
分离所述第五转换图中的背景以及器械,得到第六背景图和第六器械图;
将所述第六器械图与所述第三背景图融合,得到第六转换图,对比所述第六转换图与所述目标域图像,基于所述器械保护损失函数更新所述第一生成器以及第二生成器的参数。
4.根据权利要求2所述的手术场景图像转换方法,其特征在于:通过掩码模块分离所述样本图像的背景以及器械,所述掩码模块为图像分割网络。
5.根据权利要求1所述的手术场景图像转换方法,其特征在于:所述第一生成器包括背景编码器、器械编码器以及解码器,所述背景编码器和器械编码器均与所述解码器连接。
6.根据权利要求5所述的手术场景图像转换方法,其特征在于:所述背景编码器与所述器械编码器均包括多层卷积层,任一卷积层包括下采样/上采样层、校正线性单位激活函数层和残差块。
7.根据权利要求6所述的手术场景图像转换方法,其特征在于:所述解码器包括多层卷积层,任一卷积层包括下采样/上采样层、校正线性单位激活函数层和残差块,所述背景编码器以及器械编码器中的下采样层均与所述解码器中对应的上采样层连接。
8.根据权利要求1所述的手术场景图像转换方法,其特征在于,所述对抗生成损失函数为:
其中,a为源域图像;b为目标域图像;G为生成器;D为辨别器。
9.根据权利要求1所述的手术场景图像转换方法,其特征在于,所述循环一致性损失函数为:
其中,cyc(a)为第二转换图;cyc(b)为第五转换图。
10.根据权利要求1所述的手术场景图像转换方法,其特征在于,所述器械保护损失函数为:
其中,η为合成图像;τ为图像二值化的阈值。
CN202310349885.5A 2023-04-04 2023-04-04 一种手术场景图像转换方法 Pending CN116503296A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310349885.5A CN116503296A (zh) 2023-04-04 2023-04-04 一种手术场景图像转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310349885.5A CN116503296A (zh) 2023-04-04 2023-04-04 一种手术场景图像转换方法

Publications (1)

Publication Number Publication Date
CN116503296A true CN116503296A (zh) 2023-07-28

Family

ID=87329431

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310349885.5A Pending CN116503296A (zh) 2023-04-04 2023-04-04 一种手术场景图像转换方法

Country Status (1)

Country Link
CN (1) CN116503296A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117649422A (zh) * 2024-01-30 2024-03-05 安徽大学 多模态图像分割模型的训练方法和多模态图像分割方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117649422A (zh) * 2024-01-30 2024-03-05 安徽大学 多模态图像分割模型的训练方法和多模态图像分割方法
CN117649422B (zh) * 2024-01-30 2024-04-12 安徽大学 多模态图像分割模型的训练方法和多模态图像分割方法

Similar Documents

Publication Publication Date Title
CN109544442A (zh) 基于双重对抗的生成式对抗网络的图像局部风格迁移方法
CN107025369B (zh) 一种对医疗图像进行转换学习的方法和装置
WO2019015466A1 (zh) 人证核实的方法及装置
Nazir et al. Semattnet: Toward attention-based semantic aware guided depth completion
CN111476805A (zh) 一种基于多重约束的跨源无监督域适应分割模型
CN110852256B (zh) 时序动作提名的生成方法、装置、设备及存储介质
CN113343705A (zh) 一种基于文本语义的细节保持图像生成方法及系统
CN112668492B (zh) 一种自监督学习与骨骼信息的行为识别方法
CN111695430A (zh) 一种基于特征融合和视觉感受野网络的多尺度人脸检测方法
CN116503296A (zh) 一种手术场景图像转换方法
CN113808008A (zh) 基于Transformer构建生成对抗网络实现妆容迁移的方法
Fu et al. Learning semantic-aware spatial-temporal attention for interpretable action recognition
CN109766918A (zh) 基于多层次上下文信息融合的显著性物体检测方法
CN117094895B (zh) 图像全景拼接方法及其系统
CN112561782A (zh) 一种提高海上场景仿真图片真实度的方法
CN113391992A (zh) 测试数据的生成方法和装置、存储介质及电子设备
CN111368663A (zh) 自然场景中静态面部表情识别方法、装置、介质及设备
CN114565624A (zh) 基于多期立体图元生成器的肝脏病灶分割的图像处理方法
CN113962332A (zh) 基于自优化融合反馈的显著目标识别方法
Feng et al. ALBench: a framework for evaluating active learning in object detection
CN113569886A (zh) 网络结构调整方法、装置和存储介质及电子设备
Yang et al. Shapeediter: a stylegan encoder for face swapping
CN114140368B (zh) 一种基于生成式对抗网络的多模态医学图像合成方法
Huynh et al. Light-weight Sketch Recognition with Knowledge Distillation
CN110415194B (zh) 一种弓形虫高倍显微图像生成方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination