CN114612618A - 图像生成方法、装置、设备、存储介质及计算机程序产品 - Google Patents
图像生成方法、装置、设备、存储介质及计算机程序产品 Download PDFInfo
- Publication number
- CN114612618A CN114612618A CN202210255541.3A CN202210255541A CN114612618A CN 114612618 A CN114612618 A CN 114612618A CN 202210255541 A CN202210255541 A CN 202210255541A CN 114612618 A CN114612618 A CN 114612618A
- Authority
- CN
- China
- Prior art keywords
- image
- modality
- generated
- conversion
- constraint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 126
- 238000003860 storage Methods 0.000 title claims abstract description 33
- 238000004590 computer program Methods 0.000 title claims abstract description 13
- 238000006243 chemical reaction Methods 0.000 claims abstract description 141
- 238000012549 training Methods 0.000 claims abstract description 67
- 238000009826 distribution Methods 0.000 claims description 67
- 230000011218 segmentation Effects 0.000 claims description 50
- 238000013507 mapping Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 8
- 238000010801 machine learning Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 51
- 210000004556 brain Anatomy 0.000 description 40
- 230000000694 effects Effects 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 11
- 238000002595 magnetic resonance imaging Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 6
- 239000000463 material Substances 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 238000002591 computed tomography Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- JXSJBGJIGXNWCI-UHFFFAOYSA-N diethyl 2-[(dimethoxyphosphorothioyl)thio]succinate Chemical compound CCOC(=O)CC(SP(=S)(OC)OC)C(=O)OCC JXSJBGJIGXNWCI-UHFFFAOYSA-N 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 206010061818 Disease progression Diseases 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 210000003484 anatomy Anatomy 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 210000001175 cerebrospinal fluid Anatomy 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 230000005750 disease progression Effects 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 239000013077 target material Substances 0.000 description 2
- 210000001519 tissue Anatomy 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 210000004885 white matter Anatomy 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000283070 Equus zebra Species 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000740 bleeding effect Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 210000005013 brain tissue Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002075 inversion recovery Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010827 pathological analysis Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 210000004872 soft tissue Anatomy 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/04—Texture mapping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/174—Segmentation; Edge detection involving the use of two or more images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/40—Analysis of texture
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/40—ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/04—Indexing scheme for image data processing or generation, in general involving 3D image data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
- G06T2207/10012—Stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10072—Tomographic images
- G06T2207/10081—Computed x-ray tomography [CT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10072—Tomographic images
- G06T2207/10088—Magnetic resonance imaging [MRI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20021—Dividing image into blocks, subimages or windows
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30016—Brain
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/32—Image data format
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/41—Medical
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Computer Graphics (AREA)
- General Engineering & Computer Science (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Radiology & Medical Imaging (AREA)
- Mathematical Physics (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Molecular Biology (AREA)
- Computer Hardware Design (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Geometry (AREA)
- Quality & Reliability (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本申请公开了一种图像生成方法、装置、设备、存储介质及计算机程序产品,涉及机器学习领域。该方法包括:获取第一模态图像;通过第一候选网络对第一模态图像进行模态转换,得到第一生成图像;通过第二候选网络对第一生成图像进行模态还原,得到第一还原图像;基于第一生成图像和第一还原图像,获取约束损失值;基于约束损失值对第一候选网络进行训练,得到图像转换网络。即,通过对第一模态图像进行模态转换后又进行模态还原,分别得到第一生成图像和第一还原图像,来确定第一候选网络对应的约束损失值,从而对第一候选网络进行训练的方式,能够提高模型在三维图像空间中进行模态转换的准确度。
Description
技术领域
本申请涉及机器学习领域,特别涉及一种图像生成、装置、设备、存储介质及计算机程序产品。
背景技术
图像合成用于对不同模态图像之间进行图像转换,不同模态图像指获得图像的方式不同,如:通过X射线(X-RAY)获取的X光图像,和通过核磁共振获取的核磁共振成像磁共振成像(Magnetic Resonance Imaging,MRI)对应为两种不同模态图像,或者,不同模态图像是指图像的风格不同。
相关技术中,通常采用训练生成式对抗网络(Generative AdversarialNetworks,GAN)的方式得到图像生成模型,用于生成不同模态的图像。在训练过程中,通过样本图像和参考图像对GAN网络进行训练,其中,样本图像和参考图像是预先确定的具有匹配关系的样本图像组。
然而在上述方法中,通过获取具有匹配关系的样本图像组对GAN网络进行训练的方式,由于用于训练的样本需要具有匹配关系,导致样本图像组的获取方式会存在难度较大的问题,同时在实际应用过程中,不同模态图像之间差异性较大,导致GAN网络的输出结果准确度较低,模型性能表现较差。
发明内容
本申请实施例提供了一种图像生成方法、装置、设备、存储介质及计算机程序产品,能够提高生成的目标三维图像的准确度。所述技术方案如下:
一方面,提供了一种图像生成方法,所述方法包括:
获取第一模态图像,所述第一模态图像对应第一模态;
通过第一候选网络对所述第一模态图像进行模态转换,得到第一生成图像,所述第一生成图像对应第二模态,且所述第一生成图像是三维图像,所述第一模态与所述第二模态是不同的模态;
通过第二候选网络对所述第一生成图像进行模态还原,得到第一还原图像,所述第一还原图像对应所述第一模态;
基于所述第一生成图像和所述第一还原图像,获取约束损失值,所述约束损失值用于指示所述第一候选网络将所述第一模态图像映射至三维图像空间时的映射损失;
基于所述约束损失值对所述第一候选网络进行训练,得到图像转换网络,所述图像转换网络用于对属于所述第一模态的图像进行模态转换,得到属于所述第二模态的三维图像。
另一方面,提供了一种图像生成装置,所述装置包括:
获取模块,用于获取第一模态图像,所述第一模态图像对应第一模态;
转换模态,用于通过第一候选网络对所述第一模态图像进行模态转换,得到第一生成图像,所述第一生成图像对应第二模态,且所述第一生成图像是三维图像,所述第一模态与第二模态是不同的模态;
还原模块,用于通过第二候选网络对所述第一生成图像进行模态还原,得到第一还原图像,所述第一还原图像对应所述第一模态;
所述获取模块,还用于基于所述第一生成图像和所述第一还原图像,获取约束损失值,所述约束损失值用于指示所述第一候选网络将所述第一模态图像映射至三维图像空间时的映射损失;
训练模块,用于基于所述约束损失值对所述第一候选网络进行训练,得到图像转换网络,所述图像转换网络用于对属于所述第一模态的图像进行模态转换,得到属于所述第二模态的三维图像。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述图像生成方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的图像生成方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的图像生成方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过第一候选网络与第二候选网络对第一模态图像分别进行模态转换以及模态还原,分别得到第一生成图像和第一还原图像,其中,第一候选网络用于将第一模态图像转换为第二模态的三维图像,根据第一生成图像和第一还原图像确定第一候选网络在三维图像空间中对应的约束损失值,从而对第一候选网络进行训练的方式,能够使得最终训练得到的图像转换网络生成的目标三维图像的效果更好,也即,通过在第一候选网络中引入三维图像空间的方式能够提高图像转换网络的训练效果,从而使输出的目标三维图像准确度更高。
在医疗领域下,由于医学图像的模态更具多样化,不同模态图像反应的信息侧重点不同,因此将医学图像通过图像转换网络转换成三维医学图像的方式可以更好的对三维医学图像进行图像分割,用于辅助医疗诊断,在对第一候选网络进行训练的过程中,通过获取第一模态图像对应的第一生成图像和第一还原图像,从而确定第一候选网络对应的约束损失值,用于满足不同场景下,确定第一候选网络在三维图像空间中对应的不同特征的映射损失,从而有针对性的对第一候选网络进行训练,得到最终满足当前场景下的图像转换网络,适用于提高对医学图像进行模态转换的准确度,从而更好的进行后续医疗诊断。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的图像生成方法相关技术示意图;
图2是本申请一个示例性实施例提供的实施环境示意图;
图3是本申请一个示例性实施例提供的图像生成方法流程图;
图4是本申请另一个示例性实施例提供的图像生成方法流程图;
图5是本申请另一个示例性实施例提供的图像生成方法流程图;
图6是本申请一个示例性实施例提供的图像生成方法示意图;
图7是本申请一个示例性实施例提供的脑部图像生成过程示意图;
图8是本申请一个示例性实施例提供的图像生成装置的结构框图;
图9是本申请另一个示例性实施例提供的图像生成装置的结构框图;
图10是本申请一个示例性实施例提供的服务器结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,针对本申请实施例中涉及的名词进行简单介绍。
模态(Modality):每一种信息的来源或者形式,都可以成为一种模态,如:人有触觉、听觉;信息的媒介包括语音、视频、文字等;多种多样的传感器,包括:雷达、红外、加速度计等,以上的每一种都可以称之为一种模态。
本申请实施例中,将不同形式的图像作为不同模态图像,如:X光图像为一类模态图像,电子计算机断层扫描(Computed Tomography,CT)图像为一类模态图像,磁共振成像(Magnetic Resonance Imaging,MRI)为一类模态图像等,不同模态图像反应的图像信息侧重点是不同,X光射线图像观察骨骼更清晰,CT图像可以反应组织和出血状况,MRI图像适合观察软组织。
生成式对抗网络(Generative Adversarial Networks,GAN):是一种用于无监督式的深度学习模型。GAN网络包括至少两个模块:生成模型(Generative Model)和判别模型(Discriminative Model),在模型的训练过程中,两个模型通过互相博弈学习从而对GAN网络进行训练,提高模型输出结果的准确度。
首先,相关技术中,请参考图1,其示出了本申请一个示例性实施例提供的图像生成相关技术示意图,如图1所示,针对一个图像生成的训练任务,设置一个候选生成网络100对其进行训练,首先获取样本图像101和参考图像102,其中,样本图像101和参考图像102是一组具有匹配关系的样本图像组,通过将样本图像101输入生成器103中,并加入随机噪音104,输出得到生成图像105,将参考图像102和生成图像105输入判别器106,输出得到生成图像105和参考图像102对应的判别结果107,其中,若生成图像105与参考图像102一致,则判别结果107为“1”,若生成图像105和参考图像102不一致,则判别结果107为“0”,根据判别结果107对候选生成网络100进行训练,最终得到目标生成网络108。
上述技术中,通过采用预先配置好的样本图像组对候选生成网络进行训练的方式,由于图像与图像之间的差异性较大,获取具有匹配关系的样本图像组难度较高,同时,该训练过程得到目标生成网络在实际运用中泛化性能较差,导致输出的结果准确度较低,无法满足任务需求。
本申请提供的图像生成方法,通过第一候选网络与第二候选网络对第一模态图像分别进行模态转换以及模态还原,分别得到属于第二模态的第一生成图像和属于第一模态的第一还原图像,根据第一生成图像和第一还原图像确定第一候选网络在三维图像空间中对应的约束损失值,从而对第一候选网络进行训练的方式,能够使得最终训练得到的图像转换网络生成的目标三维图像的效果更好,也即,通过在第一候选网络中引入三维图像空间的方式能够提高图像转换网络的训练效果,从而使输出的目标三维图像准确度更高。
其次,对本申请实施例中涉及的实施环境进行说明,示意性的,请参考图2,该实施环境中涉及终端210、服务器220,终端210和服务器220之间通过通信网络230连接。
在一些实施例中,终端210向服务器220发送图像生成请求,其中图像生成请求中包含用于进行模态转换的原始图像,服务器220接收到来自终端210发送的图像生成请求后,对原始图像进行模态转换,生成原始图像对应的目标三维图像,并将目标三维图像反馈至终端210。
其中,服务器220中包含图像转换网络221,图像转换网络221是通过第一模态图像222输入第一候选网络223后生成第一生成图像224,将第一生成图像224输入第二候选网络225,得到第一还原图像226,根据第一生成图像224和第一还原图像226确定约束损失值从而对第一候选网络223进行训练,最终得到图像转换网络221。
上述终端210可以是手机、平板电脑、台式电脑、便携式笔记本电脑、智能电视、智能车载等多种形式的终端设备,本申请实施例对此不加以限定。
值得注意的是,上述服务器220可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
其中,云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
在一些实施例中,上述服务器220还可以实现为区块链系统中的节点。
需要说明的是,本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本申请中涉及到的用于训练的脑部图像是在充分授权的情况下获取的。
结合上述名词简介和实施环境,对本申请的应用场景进行举例。
1、应用于医疗场景下。以当前任务为生成三维脑部图像为例进行说明,获取公开数据集中包含的样本脑部图像,通过第一候选网络对样本脑部图像进行模态转换,得到脑部生成图像,脑部生成图像为样本脑部图像对应的三维图像,通过第二候选网络对脑部生成图像进行模态还原,得到脑部还原图像,根据脑部生成图像和脑部还原图像确定约束损失值,根据约束损失值对第一候选网络进行训练得到图像转换网络,用于将输入第一模态的脑部图像转换成第二模态的三维脑部图像,用于后续对脑部图像进行图像分割,进行辅助诊疗等,如:将T1加权图像转换为T2加权MRI图像。
2、应用于广告场景下。为了获取更多的广告素材,将第一模态的样本广告素材输入第一候选网络进行模态转换,生成第二模态的样本生成图像,样本生成图像为第二模态下对应的一个三维图像,将样本生成图像输入第二候选网络进行模态还原,得到第一模态的样本还原图像,根据样本还原图像和样本生成图像确定约束损失值对第一候选网络进行训练,得到素材转换网络,在应用过程中,将目标素材输入素材转换网络中,输出得到目标素材对应的不同模态下的三维素材图像,用于提高素材的生成效率。
值得注意的是,上述应用场景仅为示意性的举例,本申请实施例中对图像生成方法的是应用场景不加以限定,此外,分类预测方法还可以用于实现医学图像对准、图像风格迁移等应用场景中。
示意性的,对本申请提供的图像生成方法进行说明,请参考图3,其示出了本申请一个示例性实施例提供的图像生成方法流程图,该方法可以由终端执行,也可以由服务器执行,或者,也可以由终端和服务器共同执行,本实施例中以该方法由服务器执行进行说明,如图3所示,该方法包括:
步骤301,获取第一模态图像。
其中,第一模态图像对应第一模态。
示意性的,第一模态图像为对应第一模态的图像。
可选地,第一模态根据图像的风格类型确定,如:当前第一模态下对应的为漫画图像,其他模态下的图像为人物写实图像;或者,第一模态根据图像的色彩值确定,如:当前第一模态下对应的图像为灰度图像;或者,第一模态根据图像的具体内容来确定,如:当前第一模态图像内容中包括猫,对此不做限定。
示意性的,第一模态图像为公开训练数据集中的样本训练图像,在此不做限定。
可选地,获取第一模态图像的方式包括从本地存储的图像数据集中获取;或者,从公开训练数据集中下载获取,在此不做限定。
步骤302,通过第一候选网络对第一模态图像进行模态转换,得到第一生成图像。
其中,第一生成图像对应第二模态,且第一生成图像是三维图像,第一模态与第二模态是不同的模态。
在一些实施例中,第一候选网络是用于对输入的第一模态图像进行模态转换的网络。
可选地,第一模态和第二模态的区别在于其各自图像对应的数据来源不同,如:第一模态的图像为网站上下载得到的图像,第二模态为通过拍摄获取的图像;或者,第一模态和第二模态的区别在于其各自图像对应的数据内容类型不同,如:第一模态的图像为卡通图像,第二模态的图像为现实图像,对此不加以限定。
在一些实施例中,第一生成图像是第一候选网络将对应第一模态的第一模态图像进行模态转换后生成的图像,且第一生成图像对应为第二模态,表明第一生成图像与第一模态图像对应不同的模态。
可选地,第一生成图像与第一模态图像不具有内容对应关系,如:第一模态图像中包含狗,但第一生成图像中包含斑马;或者,第一生成图像与第一模态图像具有图像内容对应关系,也即,第一生成图像和第一模态图像对应的图像内容一致,如:第一模态图像和第一生成图像中包含的图像内容都为猫,对此不加以限定。
示意性的,模态转换的方式包括如下几种转换方式:
1.模态转换包括像素点序列重组,也即,获取第一模态图像中的各像素点分布序列,通过调整各像素点分布序列,实现模态转换;
2.模态转换包括进行维度转换,如:第一模态图像对应第一类型维度图像(如:二维图像),将其映射到第二类型维度空间后得到的第一生成图像为第二类型维度图像(如:三维图像);
3.模态转换包括特征融合,也即,获取第一模图像对应的各像素点对应的元素特征,通过将各个元素特征进行融合实现模态转换;
4.模态转换包括阈值转换,也即,通过获取第一模态图像对应的各区域阈值信息,通过调整各区域阈值信息,实现模态转换,如:第一模态图像中包含区域a和区域b,区域a颜色更突出,经过阈值转换后生成的第一生成图像区域b颜色更突出。
值得注意的是,上述关于模态转换方式仅为示意性的举例,本申请实施例对此不加以限定。
可选地,模态转换是随机转换的,或者,按照指定规律进行转换的,如:将现实图像转换为卡通图像,在此不做限定。
可选地,第一模态与第二模态具有关联关系,如:第一模态和第二模态都为脑部图像,但对应不同类型(MRI图像和CT图像),或者,第一模态和第二模态不具有关联关系,在此不做限定。
步骤303,通过第二候选网络对第一生成图像进行模态还原,得到第一还原图像。
第一还原图像对应第一模态。
示意性的,第一还原图像为经过模态还原后对应第一模态的图像。
可选地,第一还原图像与第一模态图像相同或者不相同,对此不做限定。
示意性的,模态还原的方式包括如下几种方式中至少一种:
1.模态还原包括像素点分布还原,也即,获取第一生成图像中各像素点分布,通过将各像素点分布对应第一模态进行排列重组,实现模态还原;
2.模态还原包括进行维度还原,也即,将第一生成图像映射到第一类型维度空间后得到的第一还原图像为第一类型维度图像(如:二维图像);
3.模态还原包括特征分解,也即,获取第一生成像对应的图像特征,通过将图像特征进行结构分解以实现模态还原;
4.模态还原包括阈值还原,也即,通过获取第一模态图像对应的各区域阈值信息,通过还原各区域阈值信息,实现模态还原。
值得注意的是,上述关于模态还原方式仅为示意性的举例,本申请实施例对此不加以限定。
可选地,第一候选网络与第二候选网络为同架构类型的网络;或者,第一候选网络与第二候选网络为不同架构类型的网络,对此不加以限定。
步骤304,基于第一生成图像和第一还原图像,获取约束损失值。
其中,约束损失值用于指示第一候选网络将第一模态图像映射至三维图像空间中对应的映射损失。
示意性的,映射损失是指,第一候选网络将第一模态图像对应的图像特征表示映射到三维图像空间后,输出得到第一生成图像的过程中,产生的不同类型特征对应的损失值。
可选地,约束损失值包括以下几种类型中至少一种:
1.维度转换损失,即,在三维图像空间中将第一模态图像进行维度转换时对应的损失值;
2.域约束损失,即,第一候选网络在对第一模态图像进行模态转换的过程中,得到的第一生成图像对应第一模态图像存在对应的特征损失;
3.纹理约束损失,即,第一模态图像进行模态转换生成第一生成图像的过程中对应的区域分割损失;
4.轮廓约束损失,即,第一模态图像进行模态转换生成第一生成图像的过程中对应的图像轮廓边界损失。
值得注意的是,上述关于约束损失值仅为示意性的举例,本申请实施例对此不加以限定。
可选地,约束损失值的获取方式包括如下几种方式中至少一种:
1.通过获取第一生成图像和第一模态图像之间的差异性,确定约束损失值;
2.获取第一生成图像和第一模态图像各自对应的图像特征,将各自对应的图像特征进行融合,确定约束损失值;
3.获取第一生成图像和第一模态图像各自对应的图像特征,通过确定两者图像特征之间的距离,确定约束损失值;
4.获取第一生成图像和第一模态图像各自对应的图像特征,将各自对应的图像特征进行拼接,确定约束损失值;
5.构建约束损失模型,获取第一生成图像和第一模态图像各自对应的图像特征,将各自对应的图像特征输入约束损失模型,输出得到的结果作为约束损失值。
值得注意的是,上述关于约束损失值的获取方式仅为示意性的举例,本申请实施例对此不加以限定。
步骤305,基于约束损失值对第一候选网络进行训练,得到图像转换网络。
其中,图像转换网络用于对属于第一模态的图像进行模态转换,得到属于第二模态的三维图像。
可选地,通过约束损失值对第一候选网络进行梯度训练,或者,通过约束损失值对第一候选网络进行循环迭代训练,对此不加以限定。
示意性的,图像转换网络用于将属于第一模态的图像在三维图像空间中进行模态转换,得到属于第二模态的三维图像。
可选地,第一模态的图像为二维图像,或者,第一模态的图像为三维图像,对此不加以限定。
可选地,图像转换网络进行模态转换的方式与上述第一候选网络进行模态转换的方式相同,或者不同,对此不加以限定。
综上所述,本申请实施例提供的图像生成方法,通过第一候选网络与第二候选网络对第一模态图像分别进行模态转换以及模态还原,分别得到第一生成图像和第一还原图像,其中,第一候选网络用于将第一模态图像转换为第二模态的三维图像,根据第一生成图像和第一还原图像确定第一候选网络在三维图像空间中对应的约束损失值,从而对第一候选网络进行训练的方式,能够使得最终训练得到的图像转换网络生成的目标三维图像的效果更好,也即,通过在第一候选网络中引入三维图像空间的方式能够提高图像转换网络的训练效果,从而使输出的目标三维图像准确度更高。
在一个可选的实施例中,约束损失值中包括维度转换损失,示意性的,请参考图4,其示出了本申请一个示例性实施例提供的图像生成方法流程图,该方法可以由终端执行,也可以由服务器执行,或者,也可以由终端和服务器共同执行,本实施例中以该方法由服务器执行进行说明,如图3所示,也即,步骤302中包括302a,步骤304还包括步骤3041a和步骤3041b,该方法包括如下步骤:
步骤302a,将第一模态图像输入生成器,输出得到第一生成图像。
示意性的,第一候选网络采用生成对抗网络架构中的生成器,将第一模态图像输入生成器后输出得到第一生成图像。
其中,生成器采用的是GAN网络中对应的生成模型,将第一模态图像输入生成器,生成器将随机加入一个噪声对第一模态图像进行合成,输出得到属于第二模态的第一生成图像。
在一些实施例中,生成器通过将第一模态图像对应的图像特征表示映射到三维图像空间中,获取第一模态图像的图像特征表示对应在三维图像空间中的生成特征表示,根据生成特征表示确定第一生成图像。
本实施例中,第一候选网络中包含的生成器由三个卷积层、步幅为1,2,2作为前端,六个残差块、两个步幅为二分之一的分步卷积核一个步幅为1的后端卷积层组成,Convolution-Batch Norm-ReLU被应用在除了输出层之外的各个地方,输出层在最后使用了Tanh激活。每个残差块中包括两个卷积层,每个卷积层有128个滤波器。采用7×7的体积卷积核用于第一层和最后一层,使用3×3×3用在其他层上。
本实施例中,将第一候选网络中包含的生成器记作生成器G。
步骤303,通过第二候选网络对第一生成图像进行模态还原,得到第一还原图像。
其中,第一还原图像对应第一模态。
本实施例中,第二候选网络与第一候选网络对应为相同架构的网络,也即,第二候选网络中的生成器也采用GAN网络中对应的生成模型,值得注意的是,第一候选网络中包含的生成器和第二候选网络中包含的生成器为两个候选网络中各自对应的生成器,本实施例中将第二候选网络中包含的生成器记为生成器F。
示意性的,第二候选网络中的生成器F的结构与生成器G结构相同,此处不再赘述。
步骤3041a,获取第二模态图像。
其中,第二模态图像为预先提供的第二模态的图像。
示意性的,第二模态图像为对应第二模态的图像。
示意性的,第二模态图像为公开训练数据集中的样本训练图像,在此不做限定。
可选地,获取第二模态图像的方式包括从本地存储的图像数据集中获取;或者,从现存的公开训练数据集中下载获取,在此不做限定。
可选地,第二模态图像与第一模态图像具有对应关系,也即,第一模态图像和第二模态图像为预先匹配好的一组图像样本;或者,第二模态图像与第一模态图像不具有对应关系,也即,第一模态图像和第二模态图像为各自随机获取的作为训练的样本图像,对此不加以限定。
本实施例中,第一模态图像首先输入生成器G生成第一生成图像,再将第一生成图像输入生成器F生成第一还原图像,实现由生成器G到生成器F的训练过程,也即,从第一候选网络到第二候选网络的过程,但为了提高模型的泛化性能,在另一种可行的实施例中,将第二模态图像首先输入生成器F生成第二生成图像,再将第二生成图像输入生成器G生成第二还原图像,基于第二生成图像和第二还原图像确定对应的约束损失值对第二候选网络进行训练,也即,实现从第二候选网络到第一候选网络的训练过程。
本申请提供的图像生成方法中,既包括从第一候选网络到第二候选网络的过程,也包括从第二候选网络到第一候选网络的训练过程,也即,生成器G和生成器F为在三维图像空间中构建的,用于第一模态图像和第二模态图像之间进行模态转换的双向映射函数。由于两侧训练过程一致,仅训练方向不同,本实施例中以从第一候选网络到第二候选网络的训练过程为例进行具体说明。
步骤3041b,基于第一生成图像和第二模态图像的图像特征分布差异,以及,基于第一模态图像和第一还原图像的图像特征分布差异,获取维度转换损失值。
其中,维度转换损失值用于指示第一候选网络在三维图像空间中维度转换过程的特征损失。
示意性的,维度转换损失值用于确定从第一模态图像进行模态转换生成第一生成图像的过程中,在三维图像空间中进行维度转换过程中对应的特征损失,其中,维度转换包括:二维图像转换为三维图像;或者,三维图像转换为三维图像,但是对应不同的图像特征分布,对此不加以限定。
在一些实施例中,基于第二模态图像和第一生成图像之间的图像特征分布差异,确定判别损失;基于第一模态图像和第一还原图像之间的图像特征分布差异,确定生成损失;将生成损失和判别损失作为维度转换损失值,维度转换损失值用于指示第一候选网络通过三维图像空间进行图像维度转换时产生的损失。
示意性的,维度转换损失值中包括两部分:判别损失和生成损失,其中,判别损失根据第二模态图像和第一生成图像确定;生成损失根据第一模态图像和第一还原图像确定。
在一些实施例中,第一候选网络中还包括生成式对抗网络架构中的判别器,用于确定第二模态图像和第一生成图像之间的图像特征分布差异,根据第二模态图像和第一生成图像之间的差异确定判别损失,也即,将第二模态图像输入判别器,输出得到参考预测结果,参考预测结果用于指示第二模态图像作为参考图像的概率;将第一生成图像输入判别器,输出得到匹配预测结果,匹配预测结果用于指示第一生成图像和第二模态图像对应的匹配关系;基于参考预测结果和匹配预测结果,确定判别损失。
其中,判别器是GAN网络中对应的判别模型,将第一生成图像和第二模态图像分别输入判别模型,判别模型的输出是概率值,概率值分布在0到1之间,1代表真实样本,也即第二模态图像,0为虚构样本,也即第一生成图像,用于确定第一生成图像与第二模态图像的相似度,当第一生成图像越接近第二模态图像时,输出的概率值越大,表明生成器生成图像的准确度越高。
本实施例中,判别器用于确定第二模态的第一生成图像与第二模态图像的差异,也即,第二模态图像作为参考图像,输入判别器中,输出得到第二模态图像对应的参考预测概率,此时,当前判别器以第二模态图像作为参考图像,将第一生成图像输入判别器后,输出得到的匹配预测概率作为当前第一生成图像与第二模态图像对应的匹配结果,如:在第二模态图像上显示第一生成图像对应的图像特征分布概率,该图像特征分布概率用于指示第一生成图像对应的图像特征对应在第二模态图像上的匹配结果。
值得注意的是,上述计算判别损失的方式为从第一候选网络到第二候选网络的训练过程对应的判别损失,而从第二候选网络到第一候选网络的训练过程中,第二候选网络中也包括判别器,因此,该训练过程中也存在判别损失。
根据参考预测概率和匹配预测结果,确定判别损失,示意性的,请参考公式一:
公式一:Lb(DG,DF,G,F)=L(G,DG)+L(F,DF)
其中,Lb为总判别损失,L(G,DG)为第一候选网络中判别器对应的判别损失,L(F,DF)为第二候选网络中判别器对应的判别损失。在实际应用过程中,采用总判别损失。当第一生成图像对应第二模态图像的图像特征分布概率越高,表明当前第一生成图像拟合到第二模态图像的真实性能越高,也即,判别损失值越小。
本实施例中,第一候选网络中的判别器记作DG。在构建判别器DG的过程中,将块大小以重叠的方式固定为70×70×70的体积元素(Volume Pixel,体素),并使用Convolution-BatchNorm-Leaky ReLU层的堆栈来训练判别器DG,判别器DG在整个体素中进行卷积运算,通过平均所有的结果确定相应的预测结果。
在一些实施例中,确定第一模态图像对应的第一特征表示;确定第一还原图像对应的第二特征表示;基于第一特征表示与第二特征表示之间的特征表示距离,确定生成损失。
本实施例中,第一模态图像对应第一模态的情况下,其对应的图像特征表示作为第一特征表示,第一还原图像对应第一模态的情况下,其对应的图像生成表示作为第二特征表示。
本实施例中,根据第一特征表示和第一特征表示对应的特征表示距离,来确定生成损失,示意性的,请参考公式二:
公式二:
其中,X为第一模态图像,L(G(X))为第一还原图像,Y为第二模态图像,G(F(Y))为从第二候选网络到第一候选网络的训练过程中得到的第二还原图像(此处第二还原图像的获取过程与第一还原图像的获取过程相同,故此处不做具体说明),为总生成损失,表示第一模态图像和第一还原图像对应的特征表示距离,得到生成器G对应的生成损失,也即,该生成损失为从第一候选网络到第二候选网络的训练过程中对应的生成损失,为生成器F对应的生成损失,也即,该生成损失为从第二候选网络到第一候选网络的训练过程中产生的生成损失,在实际应用过程中,采用总生成损失进行训练。从第一候选网络到第二候选网络的训练过程当中,当X-F(G(X))越小时,表明当前第一模态图像与第一还原图像的特征分布的距离越小,也即生成损失越小,从第二候选网络到第一候选网络的训练过程与其一致,在此不做赘述。
本实施例中,将总生成损失和总判别损失,作为维度转换损失值对应的两部分损失,用于确定第一候选网络和第二候选网络对应的双向映射函数在三维图像空间中进行维度转换对应的损失。
综上所述,本申请实施例提供的图像生成方法,通过第一候选网络与第二候选网络对第一模态图像分别进行模态转换以及模态还原,分别得到第一生成图像和第一还原图像,其中,第一候选网络用于将第一模态图像转换为第二模态的三维图像,根据第一生成图像和第一还原图像确定第一候选网络在三维图像空间中对应的约束损失值,从而对第一候选网络进行训练的方式,能够使得最终训练得到的图像转换网络生成的目标三维图像的效果更好,也即,通过在第一候选网络中引入三维图像空间的方式能够提高图像转换网络的训练效果,从而使输出的目标三维图像准确度更高。
本申请实施例中,通过确定生成器对应的生成损失,以及判别器对应判别损失,作为维度转换损失,能够提高第一候选网络在三维图像空间中对第一模态图像进行特征映射从而实现维度转换过程中的转换准确度,能够较好的降低维度转换对应的损失,提高模型精度。
在一个可选的实施例中,约束损失值中还包括域约束损失值、纹理约束损失值和轮廓约束损失值,示意性的,请参考图5,其示出了本申请一个示例性实施例提供的图像生成方法流程图,该方法可以由终端执行,也可以由服务器执行,或者,也可以由终端和服务器共同执行,本实施例中以该方法由服务器执行进行说明,如图5所示,也即,当约束损失值中包括约束损失值时,步骤304还包括步骤3042a、步骤3042b和步骤3042c,当约束损失值中包括纹理约束损失值时,步骤304还包括步骤3043a、步骤3043b和步骤3043c,当约束损失值中包括轮廓约束损失值时,步骤304还包括步骤3044a、步骤3044b和步骤3044c,该方法包括如下步骤:
1.当约束损失值中包括域约束损失值。
步骤3042a,获取第一模态图像在三维图像空间的第一特征分布。
本实施例中,在将第一模态图像输入生成器得到第二模态的第一生成图像的过程中,通常会假设两种图像模态的特征分布在其对应的图像域中是不变的,但实际情况为当对图像进行跨模态的转换时,其特征分布在图像域中存在变化,尤其是在多序列医学图像的采集过程中,医学图像序列用于指示描述疾病或者病症状况的不同模式,为了提高模型的泛化性能,减少在跨模态转换的过程中,由于模态与模态之间对应的各自的图像域的差异带来的影响,因此引入域约束损失。
本实施例中,将第一模态图像输入第一候选网络的过程中,将第一模态图像映射到三维图像空间中,用于抽取第一模态图像对应的图像特征分布,作为第一特征分布,用于表示第一模态对应的特征分布结果。
步骤3042b,获取第一生成图像在三维图像空间的第二特征分布。
示意性的,将第一生成图像映射到三维图像空间中,用于确定第一生成图像对应的图像特征分布。
步骤3042c,基于第一特征分布和第二特征分布之间的距离,得到域约束损失值。
其中,域约束损失值用于指示在三维图像空间中从第一特征分布到第二特征分布的转换损失。
示意性的,域约束损失值用于确定第一特征分布和第二特征分布在三维图像空间中对应的特征相似度,也即,当前第一模态和第二模态中对应的相似特征。
本实施例中,域约束损失值通过最大平均差异(Maximum Mean Discrepancy,MMD)确定,示意性的,具体确定方式具体请参考公式三:
其中,EX[Φ(X)]对应第一模态的第一特征分布,EY[Φ(Y)]表示对应第二模态的第二分布分特征,当第一分布特征与第二分布特征的差值越小,表明第一分布特征与第二分布特征的特征距离越短,当前第一分布特征与第二分布特征的相似度越高。
2.当约束损失值中包括纹理约束损失值。
步骤3043a,获取第一生成图像对应的第一分割结果。
其中,第一分割结果用于指示第一生成图像对应第一模态图像的参考概率分布。
在一些实施例中,将第一生成图像输入分割器,输出得到第一分割结果,分割器用于对输入图像进行区域分割。
示意性的,第一候选网络中还包括分割器,分割器用于对输入图像进行区域分割,用于确定输入图像对应区域与区域之间对应的纹理表示。
本实施例中,通过将第一生成图像输入分割器,输出得到第一分割结果,用于确定第一生成图像对应的纹理特征。
示意性的,采用全卷积神经网络(Fully Convolutional Networks,FCN)作为本实施中的分割器。
步骤3043b,获取第二模态图像对应的第二分割结果。
示意性的,将第二模态图像输入分割器,输出得到第二分割结果,第二分割结果用于表示第二模态图像对应的纹理特征。
步骤3043c,基于第一分割结果和第二分割结果之间的分割差异,确定纹理约束损失值。
其中,纹理约束损失值用于指示第一候选网络在将第一模态图像映射至三维图像空间时的纹理特征损失。
示意性的,为了确定第一生成图像对应的上下文信息,需要确定第二模态图像中包含的纹理表示可以在第一生成图像中进行正确体现,如:第二模态图像为脑部图像时,脑部图像对应的脑部纹理信息是生成对应的三维脑部图像的重要因素,因为脑部纹理信息与疾病进展、功能变化等信息作为脑部病理分析的关键性因素,因此,引入纹理约束损失值用于,确定第一模态图像输入第一候选网络生成第一生成图像的过程中对应在三维图像空间中纹理特征的损失值。
本实施例中,通过预设一个两阶段的纹理损失函数,用于保留第一模态图像通过第一候选网络生成第一生成图像对应的过程中对应的纹理特征,示意性的,请参考公式四:
公式四:
其中,表示总纹理约束损失值,表示从第一候选网络到第二候选网络的训练过程中对应的纹理约束损失值,也即,第一分割结果和第二分割结果之间的分割差异,表示从第二候选网络到第一候选网络的训练过程中对应的纹理约束损失值,以第一候选网络到第二候选网络的训练过程为例,表示第一生成图像对应的第一分割结果,表示第二模态图像对应的第二分割结果,当第一分割结果和第二分割结果的差异越小时,表明第一生成图像和第二模态图像对应的纹理特征相似度越高,则纹理约束损失值越小。
3.当约束损失值中包括轮廓约束损失值。
步骤3044a,将第一生成图像输入判别器,输出得到匹配预测结果。
其中,匹配预测结果用于指示第一生成图像和第二模态图像对应的匹配关系。
步骤3044a中关于匹配预测结果的内容已在上述步骤3041b中进行详细说明,此处不再赘述。
步骤3044b,将第一生成图像输入分割器,输出得到第一分割结果。
其中,分割器用于对输入图像进行区域分割。
步骤3044b中关于第一分割结果的内容已在上述步骤3043a中进行详细说明,此处不再赘述。
步骤3044c,基于匹配预测结果和第一分割结果,确定轮廓约束损失值。
其中,轮廓约束损失值用于指示第一生成图像对应在三维图像空间中的边界特征损失。
本实施例中,图像的轮廓信息可用于图像分析和对图像进行语义分割,轮廓信息用于提供语义信息和图像对应的上下文关系,如:当第一模态图像是脑部图像时,脑部图像对应的轮廓信息便于更好的理解脑部对应的解剖结构,推动疾病进展。将第一模态的脑部图像生成对应的第二模态的脑部MRI图像的过程中,保证第一模态的脑部图像的轮廓在跨模态的过程中保持清晰的界限,是实现脑部MRI图像具有较好轮廓边界显示的关键,因此引入轮廓约束损失值,用于确定第一生成图像在三维图像空间中对应第一模态图像的边界特征损失。
本实施例中,从第一候选网络到第二候选网络的训练过程中,将第一生成图像分别输入第一候选网络对应的判别器和分割器中,而从第二候选网络到第一候选网络的训练过程中,将第二生成图像分别输入第二候选网络对应的判别器和分割器中,用于确定轮廓约束损失值,其中,第一候选网络中的分割器和第二候选网络中的分割器实现为反卷积操作,遵循FCN网络。
步骤305,基于约束损失值对第一候选网络进行训练,得到图像转换网络。
示意性的,本申请实施例提供的四种约束损失值可以根据不同的任务场景进行不同的搭配,对第一候选网络的模型参数进行调整。
综上,本申请实施例提供的图像生成方法,通过第一候选网络与第二候选网络对第一模态图像分别进行模态转换以及模态还原,分别得到第一生成图像和第一还原图像,其中,第一候选网络用于将第一模态图像转换为第二模态的三维图像,根据第一生成图像和第一还原图像确定第一候选网络在三维图像空间中对应的约束损失值,从而对第一候选网络进行训练的方式,能够使得最终训练得到的图像转换网络生成的目标三维图像的效果更好,也即,通过在第一候选网络中引入三维图像空间的方式能够提高图像转换网络的训练效果,从而使输出的目标三维图像准确度更高。
本实施例中,通过设置域约束损失值、纹理约束损失值和轮廓约束损失值的方式,可以使图像转换网络满足不同任务场景下的图像生成任务,用于提高图像转换网络的模型准确度以及泛化性能。
在一个可选的实施例中,示意性的,请参考图6,其示出了本申请一个示例性实施例提供的图像生成方法训练过程示意图,如图6所示,该方法包括:
获取第一模态图像610,其中,第一模态图像610为从公开的数据集中获取的第一模态的脑部图像,将第一模态图像输入第一候选网络中的生成器(G)620中,生成第一生成图像630,其中,第一生成图像630为第二模态的三维脑部图像,将第一生成图像630输入第二候选网络中的生成器(F)640中,输出得到第一还原图像650,第一还原图像650对应为第一模态的脑部图像,其中,第一模态和第二模态对应为不同的模态。
在模型训练的过程中,还包含第二模态图像660,第二模态图像660为从公开的数据集中获取的第二模态的脑部图像。根据第一生成图像630和第二模态图像660的图像特征分布差异,以及根据第一模态图像610和第一还原图像650的图像特征分布差异,确定四种不同的约束损失值,其中,包括维度转换损失值、域约束损失值、纹理约束损失值和轮廓约束损失值。
此外,第一候选网络中还包括分割器670和判别器680,第一生成图像630输入分割器670,输出得到第一分割结果671,第二模态图像660输入分割器670,输出得到第二分割结果672,并将第一生成图像630和第二模态图像660输入判别器680,输出得到匹配预测结果690,在匹配预测结果690中,输出值为“1”表示当前第一生成图像630和第二模态图像660匹配,输出值为“0”表示当前第一生成图像630和第二模态图像660不匹配。
在训练过程中,根据第一模态图像610和第一还原图像650之间的确定生成损失,根据第一生成图像630和第二模态图像660确定对抗损失,将生成损失和对抗损失作为维度转换损失。
根据第一模态图像610对应的第一特征分布和第一生成图像630对应的第二特征分布确定域约束损失值。
根据第一分割结果和第二分割结果确定纹理约束损失值。
根据匹配预测结果和第一分割结果确定轮廓约束损失值。
根据四种不同的约束损失值,根据当前任务场景选择至少一个对第一候选网络进行训练,最终得到图像转换网络,用于生成目标三维脑部图像。
本实施例中图像生成方法在三个数据集上进行评估:第一公开数据集、第二公开数据集和第三公开数据集。这三个数据集中包含四种序列的脑部图像,分别为T1加权图像、T2加权图像、质子密度(Proton Density,PD)加权图像和磁共振成像液体衰减反转恢复序列(Fluid Attenuated Inversion Recovery,FLAIR)图像,四种序列对应不同的模态,四种序列图像显示的脑部特征不同,在三个场景中评估图像生成方法,这些场景是根据匹配第一模态对应的图像域和第二模态对应的图像域的复杂性选择的:(1)第一公开数据集对应的任务为:将PD加权图像转换为T2加权图像;(2)第二公开数据集对应的任务为:将T1加权图像转换为T2加权图像;(3)第三公开数据集应的任务为:将FLAIR图像转换为T1加权图像。在场景(1)下,示意性的,请参考图7,其示出了本申请一个示例性实施例提供的脑部图像生成过程示意图,如图7所示,将PD加权图像701作为第一模态图像输入第一候选网络,输出得到T2加权合成图像702作为目标三维图像,图7中还包括作为第二模态图像的T2加权图像703(该图像从公开数据集中获取)。
在每个数据集中,存在由不同成像方式获得的具有显着外观变化的对齐良好的配对图像。所有配对数据都用作验证合成结果质量的标准图像。定量地,从第一公开数据集中手动选择239个未配对的PD加权图像和T2加权图像,从第二公开数据集中选择8个未配对的T1加权图像和T2加权图像,以及90个未配对的T1加权图像和FLAIR图像进行训练。其余数据:第一公开数据集中的100个图像,第二公开数据集中的4个图像,第三公开数据集中的40个图像用于测试。对于FCN,同时提供真实扫描和合成结果,以产生三个主要的脑组织类别:脑脊液(Cerebral Spinal Fluid,CSF)、灰质(Gray Matter,GM)和白质(White Matter,WM),给出脑容量的平均量化。组织先验概率模板为预先设置的好的脑部图像分割模板,用于验证其模型对应的分割结果。对于评估标准,使用峰值信噪比(Peak Signal-To-NoiseRatio,PSNR)、结构相似性指数度量(Structural Similarity Index,SSIM)和骰子分数(Dice Score)(分割重叠的度量,分数越高表示结果准确度越高)来比较结果。
示意性的,请参考表1,其示出了本申请实施例提供的约束损失值对应不同搭配下的模型训练效果,如表1所示:
表1
为了评估图像生成方法的性能,首先进行消融研究以检查各个约束损失值,以评估图像转换网络中每个组件的重要性。具体来说,对于第一公开数据集上将PD加权图像转换为T2加权图像,分别采用了维度转换损失值、域约束损失值、纹理约束损失值和轮廓约束损失值,并自由地将它们与GAN网络结合以研究图像方面的效果质量及其分割性能,详细结果显示在表1的第一部分。
从表1可以看出,在维度转换损失值、域约束损失值、纹理约束损失值和轮廓约束损失值的帮助下,视觉和分割结果都得到了很大的提升。外观分数对维度转换损失值、域约束损失值和纹理约束损失值敏感,而分割结果对域约束损失值、轮廓约束损失值更敏感。
分析表明,域约束损失值和轮廓约束损失值对视觉效果和分割结果很重要。表1中的第二部分结果表明,维度转换损失值和域约束损失值是四个约束中最重要的成对组合。表1中的第三部分显示了三个约束的不同组合的性能。其结果表明基于GAN网络,维度转换损失值、域约束损失值和纹理约束损失值的组合在PSNR、SSIM和Dice分数方面分别实现了3.23dB,0.0414,13.39%的提升,而进一步结合轮廓约束损失值实现了最佳分割性能,在Dice得分方面提高了14.07%。
综上所述,本申请实施例提供的图像生成方法,通过第一候选网络与第二候选网络对第一模态图像分别进行模态转换以及模态还原,分别得到第一生成图像和第一还原图像,其中,第一候选网络用于将第一模态图像转换为第二模态的三维图像,根据第一生成图像和第一还原图像确定第一候选网络在三维图像空间中对应的约束损失,从而对第一候选网络进行训练的方式,能够使得最终训练得到的图像转换网络生成的目标三维图像的效果更好,也即,通过在第一候选网络中引入三维图像空间的方式能够提高图像转换网络的训练效果,从而使输出的目标三维图像准确度更高。
在本方案中,提出的图像生成方法,能够生成具有丰富语义特征、纹理细节和解剖结构保留的可转移模态表示。通过引入了四个约束损失值,有效地定制了GAN框架以实现不同序列的脑部图像合成。本方法是以医疗图像合成为技术背景,但实际中,该技术可以被应用于其他无监督类的合成任务中,如自然图像风格迁移等,对此不作限定。
图8是本申请一个示例性实施例提供的图像生成装置的结构框图,如图8所示,该装置包括如下部分:
获取模块810,用于获取第一模态图像,所述第一模态图像对应第一模态;
转换模块820,用于通过第一候选网络对所述第一模态图像进行模态转换,得到第一生成图像,所述第一生成图像对应第二模态,且所述第一生产图像是三维图像,所述第一模态和所述第二模态是不同的模态;
还原模块830,用于通过第二候选网络对所述第一生成图像进行模态还原,得到第一还原图像,所述第一还原图像对应所述第一模态;
所述获取模块810,还用于基于所述第一生成图像和所述第一还原图像,获取约束损失值,所述约束损失值用于指示所述第一候选网络将所述第一模态图像映射至三维图像空间中的映射损失;
训练模块840,用于基于所述约束损失值对所述第一候选网络进行训练,得到图像转换网络,所述图像转换网络用于对属于所述第一模态的图像进行模态转换,得到属于所述第二模态的三维图像。
在一个可选的实施例中,所述约束损失值中包括维度转换损失值;
所述获取模块810,包括:
获取单元811,用于获取第二模态图像,所述第二模态图像为预先提供的第二模态的图像;
所述获取单元811,还用于基于所述第一生成图像和所述第二模态图像的图像特征分布差异,以及,基于所述第一模态图像和所述第一还原图像的图像特征分布差异,获取所述维度转换损失值,所述维度转换损失值用于指示所述第一候选网络通过所述三维图像空间进行图像维度转换时产生的特征损失。
在一个可选的实施例中,所述获取单元811,还用于基于所述第二模态图像和所述第一生成图像之间的所述图像特征分布差异,确定判别损失;基于所述第一模态图像和所述第一还原图像之间的所述图像特征分布差异,确定生成损失;将所述生成损失和所述判别损失作为所述维度转换损失值。
在一个可选的实施例中,所述第一候选网络中包括判别生成网络架构中的判别器;
所述获取单元811,还用于将所述第二模态图像输入所述判别器,输出得到参考预测结果,所述参考预测结果用于指示所述第二模态图像作为参考图像的概率;将所述第一生成图像输入所述判别器,输出得到匹配预测结果,所述匹配预测结果用于指示所述第一生成图像和所述第二模态图像对应的匹配关系;基于所述参考预测结果和所述匹配预测结果,确定所述判别损失。
在一个可选的实施例中,所述获取单元811,还用于确定所述第一模态图像对应的第一特征表示;确定所述第一还原图像对应的第二特征表示;基于所述第一特征表示与所述第二特征表示之间的特征表示距离,确定所述生成损失。
在一个可选的实施例中,所述第一候选网络中包括生成式对抗网络架构中的生成器;
所述获取单元811,还用于将所述第一模态图像输入所述生成器,输出得到所述第一生成图像。
在一个可选的实施例中,所述约束损失值中包括域约束损失值;
所述获取模块810,还用于获取所述第一模态图像在所述三维图像空间的第一特征分布;获取所述第一生成图像在所述三维图像空间的第二特征分布;基于所述第一特征分布和所述第二特征分布之间的距离,得到所述域约束损失值,所述域约束损失值用于指示从所述第一特征分布到所述第二特征分布的转换损失。
在一个可选的实施例中,所述约束损失值中包括纹理约束损失值;
所述获取模块810,还用于获取所述第一生成图像对应的第一分割结果,所述第一分割结果用于指示所述第一生成图像对应所述第一模态图像的参考概率分布;获取所述第一模态图像对应的第二分割结果;基于所述第一分割结果和所述第二分割结果之间的分割差异,确定纹理约束损失值,所述纹理约束损失值用于指示所述第一候选网络在将所述第一模态图像映射至所述三维图像空间时的纹理特征损失。
在一个可选的实施例中,所述获取模块810,还用于将所述第一生成图像输入分割器,输出得到所述第一分割结果,所述分割器用于对输入图像进行区域分割。
在一个可选的实施例中,所述约束损失值中包括轮廓约束损失值;
所述获取模块810,还用于将所述第一生成图像输入判别器,输出得到匹配预测结果,所述匹配预测结果用于指示所述第一生成图像和所述第二模态图像对应的匹配关系;将所述第一生成图像输入分割器,输出得到所述第一分割结果,所述分割器用于对输入图像进行区域分割;基于所述匹配预测结果和所述第一分割结果,确定所述轮廓约束损失值,所述轮廓约束损失值用于指示所述第一生成图像对应在所述三维图像空间中的边界特征损失。
综上所述,本申请实施例提供的图像生成装置,通过第一候选网络与第二候选网络对第一模态图像分别进行模态转换以及模态还原,分别得到第一生成图像和第一还原图像,其中,第一候选网络用于将第一模态图像转换为第二模态的三维图像,根据第一生成图像和第一还原图像确定第一候选网络在三维图像空间中对应的约束损失,从而对第一候选网络进行训练的方式,能够使得最终训练得到的图像转换网络生成的目标三维图像的效果更好,也即,通过在第一候选网络中引入三维图像空间的方式能够提高图像转换网络的训练效果,从而使输出的目标三维图像准确度更高。
需要说明的是:上述实施例提供的图像生成装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的图像生成装置与图像生成方法实施例属于同一构思,其具体实现过程详见方法实施例,此处不再赘述。
图10示出了本申请一个示例性实施例提供的服务器的结构示意图。具体来讲:
服务器1000包括中央处理单元(Central Processing Unit,CPU)1001、包括随机存取存储器(Random Access Memory,RAM)1002和只读存储器(Read Only Memory,ROM)1003的系统存储器1004,以及连接系统存储器1004和中央处理单元1001的系统总线1005。服务器1000还包括用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1006。
大容量存储设备1006通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。大容量存储设备1006及其相关联的计算机可读介质为服务器1000提供非易失性存储。也就是说,大容量存储设备1006可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory,CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory,EEPROM)、闪存或其他固态存储技术,CD-ROM、数字通用光盘(Digital Versatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1006可以统称为存储器。
根据本申请的各种实施例,服务器1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1000可以通过连接在系统总线1005上的网络接口单元1011连接到网络1012,或者说,也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。
本申请的实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的图像生成方法。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行,以实现上述各方法实施例提供的图像生成方法。
本申请的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的图像生成方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (14)
1.一种图像生成方法,其特征在于,所述方法包括:
获取第一模态图像,所述第一模态图像对应第一模态;
通过第一候选网络对所述第一模态图像进行模态转换,得到第一生成图像,所述第一生成图像对应第二模态,且所述第一生成图像是三维图像,所述第一模态与所述第二模态是不同的模态;
通过第二候选网络对所述第一生成图像进行模态还原,得到第一还原图像,所述第一还原图像对应所述第一模态;
基于所述第一生成图像和所述第一还原图像,获取约束损失值,所述约束损失值用于指示所述第一候选网络将所述第一模态图像映射至三维图像空间时的映射损失;
基于所述约束损失值对所述第一候选网络进行训练,得到图像转换网络,所述图像转换网络用于对属于所述第一模态的图像进行模态转换,得到属于所述第二模态的三维图像。
2.根据权利要求1所述的方法,其特征在于,所述约束损失值中包括维度转换损失值;
所述基于所述第一生成图像和所述第一还原图像,获取约束损失值,包括:
获取第二模态图像,所述第二模态图像为预先提供的第二模态的图像;
基于所述第一生成图像和所述第二模态图像的图像特征分布差异,以及,基于所述第一模态图像和所述第一还原图像的图像特征分布差异,获取所述维度转换损失值,所述维度转换损失值用于指示所述第一候选网络通过所述三维图像空间进行图像维度转换时产生的损失。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一生成图像和所述第二模态图像的图像特征分布差异,以及,基于所述第一模态图像和所述第一还原图像的图像特征分布差异,获取所述维度转换损失值,包括:
基于所述第二模态图像和所述第一生成图像之间的所述图像特征分布差异,确定判别损失;
基于所述第一模态图像和所述第一还原图像之间的所述图像特征分布差异,确定生成损失;
将所述生成损失和所述判别损失作为所述维度转换损失值。
4.根据权利要求3所述的方法,其特征在于,所述第一候选网络中包括判别生成网络架构中的判别器;
所述基于所述第二模态图像和所述第一生成图像之间的所述图像特征分布差异,确定判别损失,包括:
将所述第二模态图像输入所述判别器,输出得到参考预测结果,所述参考预测结果用于指示所述第二模态图像作为参考图像的概率;
将所述第一生成图像输入所述判别器,输出得到匹配预测结果,所述匹配预测结果用于指示所述第一生成图像和所述第二模态图像对应的匹配关系;
基于所述参考预测结果和所述匹配预测结果,确定所述判别损失。
5.根据权利要求3所述的方法,其特征在于,所述基于所述第一模态图像和所述第一还原图像之间的所述图像特征分布差异,确定生成损失,包括:
确定所述第一模态图像对应的第一特征表示;
确定所述第一还原图像对应的第二特征表示;
基于所述第一特征表示与所述第二特征表示之间的特征表示距离,确定所述生成损失。
6.根据权利要求5所述的方法,其特征在于,所述第一候选网络中包括生成式对抗网络架构中的生成器;
所述通过第一候选网络对所述第一模态图像进行模态转换,得到第一生成图像,包括:
将所述第一模态图像输入所述生成器,输出得到所述第一生成图像。
7.根据权利要求1至6任一所述的方法,其特征在于,所述约束损失值中包括域约束损失值;
所述基于所述第一生成图像和所述第一还原图像,获取约束损失值,包括:
获取所述第一模态图像在所述三维图像空间的第一特征分布;
获取所述第一生成图像在所述三维图像空间的第二特征分布;
基于所述第一特征分布和所述第二特征分布之间的距离,得到所述域约束损失值,所述域约束损失值用于指示在所述三维图像空间中从所述第一特征分布到所述第二特征分布的转换损失。
8.根据权利要求1至6任一所述的方法,其特征在于,所述约束损失值中包括纹理约束损失值;
所述基于所述第一生成图像和所述第一还原图像,获取约束损失值,包括:
获取所述第一生成图像对应的第一分割结果,所述第一分割结果用于指示所述第一生成图像对应所述第一模态图像的参考概率分布;
获取所述第一模态图像对应的第二分割结果;
基于所述第一分割结果和所述第二分割结果之间的分割差异,确定纹理约束损失值,所述纹理约束损失值用于指示所述第一候选网络在将所述第一模态图像映射至所述三维图像空间时的纹理特征损失。
9.根据权利要求8所述的方法,其特征在于,所述获取所述第一生成图像对应的第一分割结果,包括:
将所述第一生成图像输入分割器,输出得到所述第一分割结果,所述分割器用于对输入图像进行区域分割。
10.根据权利要求1至6任一所述的方法,其特征在于,所述约束损失值中包括轮廓约束损失值;
所述基于所述第一生成图像和所述第一还原图像,获取约束损失值,包括:
将所述第一生成图像输入判别器,输出得到匹配预测结果,所述匹配预测结果用于指示所述第一生成图像和所述第二模态图像对应的匹配关系;
将所述第一生成图像输入分割器,输出得到所述第一分割结果,所述分割器用于对输入图像进行区域分割;
基于所述匹配预测结果和所述第一分割结果,确定所述轮廓约束损失值,所述轮廓约束损失值用于指示所述第一生成图像对应在所述三维图像空间中的边界特征损失。
11.一种图像生成装置,其特征在于,所述装置包括:
获取模块,用于获取第一模态图像,所述第一模态图像对应第一模态;
转换模态,用于通过第一候选网络对所述第一模态图像进行模态转换,得到第一生成图像,所述第一生成图像对应第二模态,且所述第一生成图像是三维图像,所述第一模态与第二模态是不同的模态;
还原模块,用于通过第二候选网络对所述第一生成图像进行模态还原,得到第一还原图像,所述第一还原图像对应所述第一模态;
所述获取模块,还用于基于所述第一生成图像和所述第一还原图像,获取约束损失值,所述约束损失值用于指示所述第一候选网络将所述第一模态图像映射至三维图像空间时的映射损失;
训练模块,用于基于所述约束损失值对所述第一候选网络进行训练,得到图像转换网络,所述图像转换网络用于对属于所述第一模态的图像进行模态转换,得到属于所述第二模态的三维图像。
12.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至10任一所述的图像生成方法。
13.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至10任一所述的图像生成方法。
14.一种计算机程序产品,其特征在于,包括计算机程序或指令,所述计算机程序或者指令被处理器执行时实现如权利要求1至10任一所述的图像生成方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210255541.3A CN114612618A (zh) | 2022-03-15 | 2022-03-15 | 图像生成方法、装置、设备、存储介质及计算机程序产品 |
PCT/CN2022/137135 WO2023173827A1 (zh) | 2022-03-15 | 2022-12-07 | 图像生成方法、装置、设备、存储介质及计算机程序产品 |
US18/386,940 US20240078756A1 (en) | 2022-03-15 | 2023-11-03 | Image generation method and apparatus, device, storage medium, and computer program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210255541.3A CN114612618A (zh) | 2022-03-15 | 2022-03-15 | 图像生成方法、装置、设备、存储介质及计算机程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114612618A true CN114612618A (zh) | 2022-06-10 |
Family
ID=81862791
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210255541.3A Pending CN114612618A (zh) | 2022-03-15 | 2022-03-15 | 图像生成方法、装置、设备、存储介质及计算机程序产品 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240078756A1 (zh) |
CN (1) | CN114612618A (zh) |
WO (1) | WO2023173827A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023173827A1 (zh) * | 2022-03-15 | 2023-09-21 | 腾讯科技(深圳)有限公司 | 图像生成方法、装置、设备、存储介质及计算机程序产品 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11232541B2 (en) * | 2018-10-08 | 2022-01-25 | Rensselaer Polytechnic Institute | CT super-resolution GAN constrained by the identical, residual and cycle learning ensemble (GAN-circle) |
EP3772721A1 (en) * | 2019-08-07 | 2021-02-10 | Siemens Healthcare GmbH | Shape-based generative adversarial network for segmentation in medical imaging |
CN111862174B (zh) * | 2020-07-08 | 2023-10-03 | 清华大学深圳国际研究生院 | 一种跨模态医学图像配准方法及装置 |
CN112967178B (zh) * | 2021-03-08 | 2023-04-07 | 烟台艾睿光电科技有限公司 | 一种图像转换方法、装置、设备及存储介质 |
CN113112559A (zh) * | 2021-04-07 | 2021-07-13 | 中国科学院深圳先进技术研究院 | 一种超声图像的分割方法、装置、终端设备和存储介质 |
CN114612618A (zh) * | 2022-03-15 | 2022-06-10 | 腾讯医疗健康(深圳)有限公司 | 图像生成方法、装置、设备、存储介质及计算机程序产品 |
-
2022
- 2022-03-15 CN CN202210255541.3A patent/CN114612618A/zh active Pending
- 2022-12-07 WO PCT/CN2022/137135 patent/WO2023173827A1/zh unknown
-
2023
- 2023-11-03 US US18/386,940 patent/US20240078756A1/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023173827A1 (zh) * | 2022-03-15 | 2023-09-21 | 腾讯科技(深圳)有限公司 | 图像生成方法、装置、设备、存储介质及计算机程序产品 |
Also Published As
Publication number | Publication date |
---|---|
US20240078756A1 (en) | 2024-03-07 |
WO2023173827A1 (zh) | 2023-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3937124A1 (en) | Image processing method, device and apparatus, and storage medium | |
CN111932529B (zh) | 一种图像分类分割方法、装置及系统 | |
Chen et al. | Stereoscopic omnidirectional image quality assessment based on predictive coding theory | |
CN111275784B (zh) | 生成图像的方法和装置 | |
CN113627482B (zh) | 一种基于音频—触觉信号融合的跨模态图像生成方法及装置 | |
CN111226258A (zh) | 信号转换系统和信号转换方法 | |
Kim et al. | Binocular fusion net: deep learning visual comfort assessment for stereoscopic 3D | |
US20240078756A1 (en) | Image generation method and apparatus, device, storage medium, and computer program product | |
WO2023207416A1 (zh) | 图像补全方法、装置、设备及存储介质 | |
CN113361646A (zh) | 基于语义信息保留的广义零样本图像识别方法及模型 | |
CN111488810A (zh) | 人脸识别方法、装置、终端设备及计算机可读介质 | |
CN112949707A (zh) | 一种基于多尺度语义信息监督的跨模态人脸图像生成方法 | |
CN114612902A (zh) | 图像语义分割方法、装置、设备、存储介质及程序产品 | |
CN115100185A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN114972016A (zh) | 图像处理方法、装置、计算机设备、存储介质及程序产品 | |
CN114298997B (zh) | 一种伪造图片检测方法、装置及存储介质 | |
CN117252984A (zh) | 三维模型生成方法、装置、设备、存储介质及程序产品 | |
CN114694074A (zh) | 一种使用图像生成视频的方法、装置以及存储介质 | |
Poonkodi et al. | 3d-medtrancsgan: 3d medical image transformation using csgan | |
WO2024087858A1 (zh) | 图像处理模型的训练方法、装置、电子设备、计算机程序产品及计算机存储介质 | |
Ferreira et al. | GAN-based generation of realistic 3D volumetric data: A systematic review and taxonomy | |
CN112819689A (zh) | 人脸属性编辑模型的训练方法、人脸属性编辑方法及设备 | |
CN113538254A (zh) | 图像恢复方法、装置、电子设备及计算机可读存储介质 | |
CN113724185A (zh) | 用于图像分类的模型处理方法、装置及存储介质 | |
KR101948701B1 (ko) | 피검체의 뇌 구조를 기술하는 잠재 변수에 기반하여 상기 피검체의 뇌질환을 판정하는 방법 및 이를 이용한 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40070349 Country of ref document: HK |