CN111369564B - 一种图像处理的方法、模型训练的方法及装置 - Google Patents
一种图像处理的方法、模型训练的方法及装置 Download PDFInfo
- Publication number
- CN111369564B CN111369564B CN202010142990.8A CN202010142990A CN111369564B CN 111369564 B CN111369564 B CN 111369564B CN 202010142990 A CN202010142990 A CN 202010142990A CN 111369564 B CN111369564 B CN 111369564B
- Authority
- CN
- China
- Prior art keywords
- feature map
- trained
- image
- image processing
- resolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 99
- 238000012549 training Methods 0.000 title claims abstract description 52
- 238000003672 processing method Methods 0.000 title claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 513
- 230000002441 reversible effect Effects 0.000 claims abstract description 303
- 238000005070 sampling Methods 0.000 claims abstract description 147
- 238000010586 diagram Methods 0.000 claims abstract description 85
- 230000002452 interceptive effect Effects 0.000 claims description 158
- 238000003709 image segmentation Methods 0.000 claims description 56
- 230000011218 segmentation Effects 0.000 claims description 54
- 230000006870 function Effects 0.000 claims description 51
- 230000008569 process Effects 0.000 claims description 31
- 239000013598 vector Substances 0.000 claims description 26
- 238000011176 pooling Methods 0.000 claims description 24
- 238000002372 labelling Methods 0.000 claims description 7
- 238000013473 artificial intelligence Methods 0.000 abstract description 16
- 230000000875 corresponding effect Effects 0.000 description 76
- 238000005516 engineering process Methods 0.000 description 18
- 238000013461 design Methods 0.000 description 9
- 210000004556 brain Anatomy 0.000 description 7
- 238000012544 monitoring process Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 238000007499 fusion processing Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 4
- 206010028980 Neoplasm Diseases 0.000 description 4
- 230000036961 partial effect Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000002591 computed tomography Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 210000003016 hypothalamus Anatomy 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013434 data augmentation Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 230000003902 lesion Effects 0.000 description 2
- 238000012806 monitoring device Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000002604 ultrasonography Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000740 bleeding effect Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- JXSJBGJIGXNWCI-UHFFFAOYSA-N diethyl 2-[(dimethoxyphosphorothioyl)thio]succinate Chemical compound CCOC(=O)CC(SP(=S)(OC)OC)C(=O)OCC JXSJBGJIGXNWCI-UHFFFAOYSA-N 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000002595 magnetic resonance imaging Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本申请公开一种图像处理的方法,该方法应用于人工智能领域,本申请提供的方法包括获取待处理图像所对应的原始特征图以及采样特征图;基于原始特征图,通过图像处理模型所包括的第一可逆网络获取第一特征图;基于采样特征图,通过图像处理模型所包括的第二可逆网络获取第二特征图;根据第一特征图以及经过上采样处理后的第二特征图获取第三特征图,根据第二特征图以及经过下采样处理后的第一特征图获取第四特征图;基于第三特征图以及第四特征图,通过图像处理模型获取待处理图像对应的图像处理结果。本申请还公开了一种相关装置、设备及存储介质以及模型训练的方法。
Description
技术领域
本申请涉及人工智能领域,尤其涉及一种图像处理的方法、模型训练的方法及装置。
背景技术
随着人工智能的不断推进,计算机视觉是深度学习领域最热门的研究领域之一。其中,计算机视觉是一个跨领域的交叉学科,包括计算机科学、数学、工程学、物理学、生物学和心理学等。基于计算机视觉对图像进行分析和处理的应用也越来越广泛。
目前,深度卷积神经网络算法已经广泛应用于图像的处理,例如,使用全卷积网络(Fully Convolutional Networks,FCN)对图像进行分割处理,又例如,使用视觉几何群网络(Visual Geometry Group Network,VGG)对图像进行分类处理。
然而,无论是使用FCN网络还是VGG网络,都会在下采样的过程中出现信息丢失的情况。尤其对于感兴趣区域较小的图像而言,信息的丢失往往会导致图像分类或者图像分割的效果较差。
发明内容
本申请实施例提供了一种图像处理的方法,可以使得原始高分辨率的特征图与下采样得到的特征图进行信息交互,避免因下采样导致信息丢失的情况,同时,在卷积的过程中采用多个可逆块构成的可逆网络,无需存储卷积过程中产生的中间量,从而在保持图像处理效果的情况下,还能够节省图像处理的内存空间。
有鉴于此,本申请第一方面提供一种图像处理的方法,包括:
获取待处理图像所对应的原始特征图以及采样特征图,其中,待处理图像与原始特征图均对应于第一分辨率,采样特征图对应于第二分辨率,且第二分辨率小于第一分辨率;
基于原始特征图,通过图像处理模型所包括的第一可逆网络获取第一特征图,其中,第一特征图对应于第一分辨率,第一可逆网络包括串联的至少一个可逆块,每个可逆块用于执行卷积操作;
基于采样特征图,通过图像处理模型所包括的第二可逆网络获取第二特征图,其中,第二特征图对应于第二分辨率,第二可逆网络包括串联的至少一个可逆块;
根据第一特征图以及经过上采样处理后的第二特征图获取第三特征图,根据第二特征图以及经过下采样处理后的第一特征图获取第四特征图,其中,第三特征图对应于第一分辨率,第四特征图对应于第二分辨率;
基于第三特征图以及第四特征图,通过图像处理模型获取待处理图像对应的图像处理结果。
本申请第二方面提供一种模型训练的方法,包括:
获取待训练图像,其中,待训练图像对应于图像真实分割结果,图像真实分割结果为待训练图像在每个像素点上的标注结果;
通过图像处理模型获取待训练图像所对应的待训练原始特征图以及待训练采样特征图,其中,待训练原始特征图与待训练图像均对应于第一分辨率,待训练采样特征图对应于第二分辨率,且第二分辨率小于第一分辨率;
基于待训练原始特征图,通过图像处理模型所包括的第一可逆网络获取第一待训练特征图,其中,第一待训练特征图对应于第一分辨率,第一待训练可逆网络包括串联的至少一个可逆块,每个可逆块用于执行卷积操作;
基于待训练采样特征图,通过图像处理模型所包括的第二可逆网络获取第二待训练特征图,其中,第二待训练特征图对应于第二分辨率,第二可逆网络包括串联的至少一个可逆块;
根据第一待训练特征图以及经过上采样处理后的第二待训练特征图获取第三待训练特征图,根据第二待训练特征图以及经过下采样处理后的第一待训练特征图获取第四待训练特征图,其中,第三待训练特征图对应于第一分辨率,第四待训练特征图对应于第二分辨率;
基于第三待训练特征图以及第四待训练特征图,通过图像处理模型获取待处理图像对应的图像预测分割结果;
根据图像预测分割结果以及图像真实分割结果,采用损失函数对图像处理模型的模型参数进行更新,其中,图像处理模型为上述各方面中任一项的图像处理模型。
本申请第三方面提供一种模型训练的方法,包括:
获取待训练图像,其中,待训练图像对应于图像真实分类标签,图像真实分类标签为对待训练图像的类型进行标注后的结果;
通过图像处理模型获取待训练图像所对应的待训练原始特征图以及待训练采样特征图,其中,待训练原始特征图与待训练图像均对应于第一分辨率,待训练采样特征图对应于第二分辨率,且第二分辨率小于第一分辨率;
基于待训练原始特征图,通过图像处理模型所包括的第一可逆网络获取第一待训练特征图,其中,第一待训练特征图对应于第一分辨率,第一待训练可逆网络包括串联的至少一个可逆块,每个可逆块用于执行卷积操作;
基于待训练采样特征图,通过图像处理模型所包括的第二可逆网络获取第二待训练特征图,其中,第二待训练特征图对应于第二分辨率,第二可逆网络包括串联的至少一个可逆块;
根据第一待训练特征图以及经过上采样处理后的第二待训练特征图获取第三待训练特征图,根据第二待训练特征图以及经过下采样处理后的第一待训练特征图获取第四待训练特征图,其中,第三待训练特征图对应于第一分辨率,第四待训练特征图对应于第二分辨率;
基于第三特征图以及第四特征图,通过图像处理模型获取待处理图像对应的图像预测分类标签;
根据图像预测分类标签以及图像真实分类标签,采用损失函数对图像处理模型的模型参数进行更新,其中,图像处理模型为上述各方面中任一项的图像处理模型。
本申请第四方面提供一种图像处理装置,包括
获取模块,用于待处理图像所对应的原始特征图以及采样特征图,其中,待处理图像与原始特征图均对应于第一分辨率,采样特征图对应于第二分辨率,且第二分辨率小于第一分辨率;
获取模块,还用于基于原始特征图,通过图像处理模型所包括的第一可逆网络获取第一特征图,其中,第一特征图对应于第一分辨率,第一可逆网络包括串联的至少一个可逆块,每个可逆块用于执行卷积操作;
获取模块,还用于基于采样特征图,通过图像处理模型所包括的第二可逆网络获取第二特征图,其中,第二特征图对应于第二分辨率,第二可逆网络包括串联的至少一个可逆块;
获取模块,还用于根据第一特征图以及经过上采样处理后的第二特征图获取第三特征图,根据第二特征图以及经过下采样处理后的第一特征图获取第四特征图,其中,第三特征图对应于第一分辨率,第四特征图对应于第二分辨率;
处理模块,用于基于第三特征图以及第四特征图,通过图像处理模型获取待处理图像对应的图像处理结果。
在一种可能的设计中,在本申请实施例的第四方面的第一种实现方式中,
获取模块,具体用于基于第一特征图,通过图像处理模型所包括的第一卷积层获取第一交互特征图,其中,第一交互特征图对应于第一分辨率;
通过图像处理模型所包括的第二卷积层对第二特征图进行上采样处理,得到第二交互特征图,其中,第二交互特征图对应于第一分辨率;
根据第一交互特征图以及第二交互特征图,生成第三特征图;
通过图像处理模型所包括的第三卷积层对第二特征图进行下采样处理,得到第三交互特征图,其中,第三交互特征图对应于第二分辨率;
基于第二特征图,通过图像处理模型所包括的第四卷积层获取第四交互特征图,其中,第四交互特征图对应于第二分辨率;
根据第三交互特征图以及第四交互特征图,生成第四特征图;
或者,
获取模块,具体用于通过图像处理模型所包括的第二卷积层对第二特征图进行上采样处理,得到第二交互特征图,其中,第二交互特征图对应于第一分辨率;
根据第一特征图以及第二交互特征图,生成第三特征图;
通过图像处理模型所包括的第三卷积层对第二特征图进行下采样处理,得到第三交互特征图,其中,第三交互特征图对应于第二分辨率;
根据第三交互特征图以及第二特征图,生成第四特征图。
在一种可能的设计中,在本申请实施例的第四方面的第二种实现方式中,
获取模块,具体用于根据原始特征图生成第一输入特征图以及第二输入特征图,其中,第一输入特征图以及第二输入特征图的通道数之和等于原始特征图的通道数;
通过图像处理模型所包括的第一可逆网络,对第一输入特征图以及第二输入特征图进行多次卷积操作,得到第一输出特征图;
通过图像处理模型所包括的第一可逆网络,对第一输入特征图以及第二输入特征图进行多次卷积操作,得到第二输出特征图;
根据第一输出特征图以及第二输出特征图,生成第一特征图,其中,第一特征图的通道数等于第一输出特征图以及第二输出特征图的通道数之和;
获取模块,具体用于根据采样特征图生成第三输入特征图以及第四输入特征图,其中,第三输入特征图以及第四输入特征图的通道数之和等于采样特征图的通道数;
通过图像处理模型所包括的第二可逆网络,对第三输入特征图进行多次卷积操作,得到第三输出特征图;
通过图像处理模型所包括的第二可逆网络,对第四输入特征图进行多次卷积操作,得到第四输出特征图;
根据第三输出特征图以及第四输出特征图,生成第二特征图,其中,第二特征图的通道数等于第三输出特征图以及第四输出特征图的通道数之和。
在一种可能的设计中,在本申请实施例的第四方面的第三种实现方式中,
获取模块,具体用于通过图像处理模型所包括的第一可逆网络,对第一输入特征图进行至少一次卷积操作,得到第一中间特征图;
通过第一可逆网络所包括的全局平均池化层,对第一中间特征图进行池化处理,得到第一特征向量;
通过第一可逆网络所包括的全连接层,对第一特征向量进行处理,得到第二特征向量,其中,第二特征向量是维度大于第一特征向量的维度;
采用第二特征向量对第一中间特征图进行点乘操作,得到第二中间特征图;
基于第二中间特征图以及第二输入特征图,通过图像处理模型所包括的第一可逆网络,获取第一输出特征图。
在一种可能的设计中,在本申请实施例的第四方面的第四种实现方式中,
处理模块,具体用于通过图像处理模型所包括的第五卷积层获取第三特征图的交互特征图,其中,第三特征图的交互特征图对应于第一分辨率;
通过图像处理模型所包括的第六卷积层对第四特征图进行上采样处理,得到第四特征图的交互特征图,其中,第四特征图的交互特征图对应于第一分辨率;
根据第三特征图的交互特征图以及第四特征图的交互特征图,生成待处理图像对应的目标特征图;
根据待处理图像对应的目标特征图,生成图像分割结果;
向客户端发送图像分割结果,以使客户端展示图像分割结果。
在一种可能的设计中,在本申请实施例的第四方面的第五种实现方式中,
处理模块,具体用于通过图像处理模型所包括的第七卷积层对第三特征图进行下采样处理,得到第三特征图的交互特征图,其中,第三特征图的交互特征图对应于第二分辨率;
通过图像处理模型所包括的第八卷积层获取第四特征图的交互特征图,其中,第四特征图的交互特征图对应于第二分辨率;
基于第三特征图的交互特征图以及第四特征图的交互特征图,通过图像处理模型所包括的第九卷积层获取第一目标特征图;
基于第一目标特征图,通过图像处理模型所包括的池化层,获取第二目标特征图;
基于第二目标特征图,通过图像处理模型所包括的全连接层,获取待处理图像对应的分类概率分布;
根据分类概率分布确定待处理图像对应的图像分类结果;
向客户端发送图像分类结果,以使客户端展示图像分类结果。
在一种可能的设计中,在本申请实施例的第四方面的第六种实现方式中,
处理模块,具体用于基于第三特征图,通过图像处理模型所包括的第三可逆网络获取第五特征图,其中,第五特征图对应于第一分辨率,第三可逆网络包括串联的至少一个可逆块;
基于第四特征图,通过图像处理模型所包括的第四可逆网络获取第六特征图,其中,第六特征图对应于第二分辨率,第四可逆网络包括串联的至少一个可逆块;
基于第五特征图以及第六特征图,通过图像处理模型获取待处理图像对应的图像处理结果。
在一种可能的设计中,在本申请实施例的第四方面的第七种实现方式中,
处理模块,具体用于通过图像处理模型所包括的第五卷积层获取第五特征图的交互特征图,其中,第五特征图的交互特征图对应于第一分辨率;
通过图像处理模型所包括的第六卷积层对第四特征图进行上采样处理,得到第六特征图的交互特征图,其中,第六特征图的交互特征图对应于第一分辨率;
根据所第五特征图的交互特征图以及第六特征图的交互特征图,生成待处理图像对应的目标特征图;
根据待处理图像对应的目标特征图,生成图像分割结果;
向客户端发送图像分割结果,以使客户端展示图像分割结果。
在一种可能的设计中,在本申请实施例的第四方面的第八种实现方式中,
处理模块,具体用于通过图像处理模型所包括的第七卷积层对第五特征图进行下采样处理,得到第五特征图的交互特征图,其中,第五特征图的交互特征图对应于第二分辨率;
通过图像处理模型所包括的第八卷积层获取第六特征图的交互特征图,其中,第六特征图的交互特征图对应于第二分辨率;
基于第五特征图的交互特征图以及第六特征图的交互特征图,通过图像处理模型所包括的第九卷积层获取第一目标特征图;
基于第一目标特征图,通过图像处理模型所包括的池化层,获取第二目标特征图;
基于第二目标特征图,通过图像处理模型所包括的全连接层,获取待处理图像对应的分类概率分布;
根据分类概率分布确定待处理图像对应的图像分类结果;
向客户端发送图像分类结果,以使客户端展示图像分类结果。
本申请第五方面提供一种模型训练装置,包括:
获取模块,用于获取待训练图像,其中,待训练图像对应于图像真实分割结果,图像真实分割结果为待训练图像在每个像素点上的标注结果;
获取模块,还用于通过图像处理模型获取待训练图像所对应的待训练原始特征图以及待训练采样特征图,其中,待训练原始特征图与待训练图像均对应于第一分辨率,待训练采样特征图对应于第二分辨率,且第二分辨率小于第一分辨率;
获取模块,还用于基于待训练原始特征图,通过图像处理模型所包括的第一可逆网络获取第一待训练特征图,其中,第一待训练特征图对应于第一分辨率,第一待训练可逆网络包括串联的至少一个可逆块,每个可逆块用于执行卷积操作;
获取模块,还用于基于待训练采样特征图,通过图像处理模型所包括的第二可逆网络获取第二待训练特征图,其中,第二待训练特征图对应于第二分辨率,第二可逆网络包括串联的至少一个可逆块;
获取模块,还用于根据第一待训练特征图以及经过上采样处理后的第二待训练特征图获取第三待训练特征图,根据第二待训练特征图以及经过下采样处理后的第一待训练特征图获取第四待训练特征图,其中,第三待训练特征图对应于第一分辨率,第四待训练特征图对应于第二分辨率;
处理模块,用于基于第三待训练特征图以及第四待训练特征图,通过图像处理模型获取待处理图像对应的图像预测分割结果;
更新模块,根据图像预测分割结果以及图像真实分割结果,采用损失函数对图像处理模型的模型参数进行更新,其中,图像处理模型为上述各方面中任一项的图像处理模型。
本申请第六方面提供一种模型训练装置,包括:
获取模块,用于获取待训练图像,其中,待训练图像对应于图像真实分类标签,图像真实分类标签为对待训练图像的类型进行标注后的结果;
获取模块,还用于通过图像处理模型获取待训练图像所对应的待训练原始特征图以及待训练采样特征图,其中,待训练原始特征图与待训练图像均对应于第一分辨率,待训练采样特征图对应于第二分辨率,且第二分辨率小于第一分辨率;
获取模块,还用于基于待训练原始特征图,通过图像处理模型所包括的第一可逆网络获取第一待训练特征图,其中,第一待训练特征图对应于第一分辨率,第一待训练可逆网络包括串联的至少一个可逆块,每个可逆块用于执行卷积操作;
获取模块,还用于基于待训练采样特征图,通过图像处理模型所包括的第二可逆网络获取第二待训练特征图,其中,第二待训练特征图对应于第二分辨率,第二可逆网络包括串联的至少一个可逆块;
获取模块,还用于根据第一待训练特征图以及经过上采样处理后的第二待训练特征图获取第三待训练特征图,根据第二待训练特征图以及经过下采样处理后的第一待训练特征图获取第四待训练特征图,其中,第三待训练特征图对应于第一分辨率,第四待训练特征图对应于第二分辨率;
处理模块,用于基于第三特征图以及第四特征图,通过图像处理模型获取待处理图像对应的图像预测分类标签;
更新模块,用于根据图像预测分类标签以及图像真实分类标签,采用损失函数对图像处理模型的模型参数进行更新,其中,图像处理模型为上述各方面中任一项的图像处理模型。
本申请的第七方面提供了一种服务器,包括:存储器、收发器、处理器以及总线系统;
其中,存储器用于存储程序;
处理器用于执行存储器中的程序,包括如下如上述各方面中任一项的方法;
总线系统用于连接存储器以及处理器,以使存储器以及处理器进行通信。
本申请的第八方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例中,提供了一种图像处理的方法,首先可以获取待处理图像所对应的原始特征图以及采样特征图,然后基于原始特征图,通过图像处理模型所包括的第一可逆网络获取第一特征图,再基于采样特征图,通过图像处理模型所包括的第二可逆网络获取第二特征图,然后根据第一特征图以及经过上采样处理后的第二特征图获取第三特征图,根据第二特征图以及经过下采样处理后的第一特征图获取第四特征图,最后基于第三特征图以及第四特征图,通过图像处理模型获取待处理图像对应的图像处理结果。通过上述方式,可以使得原始高分辨率的特征图与下采样得到的特征图进行信息交互,避免因下采样导致信息丢失的情况,同时,在卷积的过程中采用多个可逆块构成的可逆网络,无需存储卷积过程中产生的中间量,从而在保持图像处理效果的情况下,还能够节省图像处理的内存空间。
附图说明
图1为本申请实施例中图像处理的方法的实施环境的一个架构示意图;
图2为本申请实施例中图像处理的方法的一个流程示意图;
图3为本申请实施例中基于图像分割任务的一个界面示意图;
图4为本申请实施例中基于图像分类任务的一个界面示意图;
图5为本申请实施例中图像处理的方法的一个示意图;
图6为本申请实施例中基于图像分割任务的一个图像处理模型结构示意图;
图7为本申请实施例中基于图像分类任务的一个图像处理模型结构示意图;
图8为本申请实施例中基于图像分割任务的另一个图像处理模型结构示意图;
图9为本申请实施例中基于图像分类任务的另一个图像处理模型结构示意图;
图10为本申请实施例中可逆网络的一个结构示意图;
图11为本申请实施例中可逆块的一个结构示意图;
图12为本申请实施例中具有注意力模块的一个可逆网络结构示意图;
图13为本申请实施例中注意力模块的一个结构示意图;
图14为本申请实施例中图像处理模型的一个部分结构示意图;
图15为本申请实施例中图像处理模型的另一个部分结构示意图;
图16为本申请实施例中基于图像分割任务的另一个图像处理模型结构示意图;
图17为本申请实施例中基于图像分类任务的另一个图像处理模型结构示意图;
图18为本申请提供的一个基于图像分割任务的图像处理模型结构示意图;
图19为本申请实施例中模型训练方法的一个示意图;
图20为本申请实施例中模型训练方法的另一个示意图;
图21为本申请实施例中图像处理装置的一个示意图;
图22为本申请实施例中模型训练装置的一个示意图;
图23为本申请实施例中模型训练装置的一个示意图;
图24为本申请实施例中服务器的一个结构示意图。
具体实施方式
本申请实施例提供了一种图像处理的方法,可以使得原始高分辨率的特征图与下采样得到的特征图进行信息交互,避免因下采样导致信息丢失的情况,同时,在卷积的过程中采用多个可逆块构成的可逆网络,无需存储卷积过程中产生的中间量,从而在保持图像处理效果的情况下,还能够节省图像处理的内存空间。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应理解,本申请提供的一种图像处理的方法可以应用于人工智能领域下的计算机视觉领域,具体可以应用于医疗、监控以及无人驾驶等领域。在实际应用中,由于图像的分辨率和像素的精细程度日益升高,在此类像素精细的图像上进行操作需要大量的内存,而在医疗、监控和无人驾驶等领域中,图像有较多细节需要抓取,而编码解码的过程中尽可能减少信息损失成为了一个重要的方向。图像处理包含但不仅限于图像分割、分类、识别、检测和跟踪等,在医疗、监控以及无人驾驶等领域中具有广泛的应用价值。
在本申请提供的图像处理模型中,需要对图像进行多分辨率的处理,这样能够避免因下采样导致信息丢失的情况。由于多分辨率图像处理模型往往会消耗大量内存,因此,为了同时兼顾模型性能,本申请使用可逆块替代传统网络模型中的卷积层,利用多个可逆块串联而成的可逆网络进行卷积,能够有效地减少中间结果的存储,从而大幅地提升模型性能。在实际应用中,为了能够更好地加深网络,可将更多的可逆块串联起来形成可逆网络。
本申请提供的一种图像处理的方法可以应用于图1所示的环境中,请参阅图1,图1为本申请实施例中一种图像处理的方法的实施环境的一个架构示意图,如图所示,本申请所提供的图像处理装置通常部署于服务器。一种可行的场景为,在医疗领域中,医护人员通过医疗检测设备获取医学图像,并将医学图像发送到服务器,服务器可以采用本申请提供的图像处理模型对医学图像进行处理,从而对医学图像分割或分类,以辅助医护人员进行后续分析。需要说明的是,医学图像包含但不仅限于计算机断层扫描(computedtomography,CT)图像、核磁共振成像(magnetic resonance imaging,MRI)图像、超声(ultrasonic,US)图像、X光,心电图,脑电图以及光学摄影等。又例如,在监控领域中,可以利用监控设备进行重点关注人员或行为的识别。具体地,安保人员或警务人员可以通过监控设备对关注区域进行监控,该监控设备可以采用本申请提供的图像处理模型对拍摄到的监控图像进行处理,然后基于处理结果进行人脸识别或对敏感动作进行识别。又例如,在无人驾驶中,无人车系统或其他无人驾驶系统可以采用本申请提供的图像处理模型对采集的环境图像进行处理,以进行障碍识别和避让。具体地,无人车在行驶过程中对周遭环境进行实时拍摄并采用本申请提供的方法对拍摄所得的图像进行处理,基于处理结果进行对障碍物识别。此处不对应用场景进行穷举。
需要说明的是,图1中的服务器为用于进行基于人工智能的图像处理的服务器,可以是一台服务器或多台服务器组成的服务器集群或云计算中心等,终端设备包含但不仅限于医疗检测设备、无人车、监控设备、个人电脑、笔记本电脑以及平板电脑等。
需要说明的是,图像识别系统所包括的终端设备以及服务器可以为两台独立的设备,也可以是集成与同一个系统内,此处不做限定。
为了便于介绍,下面将结合医疗领域介绍本申请提供的图像处理的方法,请参阅图2,图2为本申请实施例中图像处理的方法的一个流程示意图,如图所示,终端设备A可以是医疗设备或联接医疗设备的电脑,终端设备A应用获得患者的医学图像。用户可以在终端设备A上图像处理任务(比如图像分割任务或图像分类任务)。在步骤S1中,终端设备A对获取待的医学图像进行预处理,预处理包括但不限于平移、旋转、对称等数据增广处理以及分割等选定器官算法,然后将预处理后的图像数据上传至服务器。在步骤S2中,服务器采用本申请提供的图像处理模型,对医学图像进行相应的处理,然后将处理的结果反馈至终端设备B,其中,终端设备B为电脑或者手机等,也可以是医疗设备或联接医疗设备的电脑,还可以与终端设备A为同一台设备。在步骤S3中,终端设备B展示对应的分割结果或者分类结果。
进一步地,请参阅图3,图3为本申请实施例中基于图像分割任务的一个界面示意图,如图所示,用户可以在终端设备A的显示界面上选择分割任务以及分割对象,分割对象可以是特定器官或区域等。在确定任务类型后,终端设备A将待处理的医学图像进行预处理并上传到服务器。服务器使用本申请提供的图像处理模型对该医学图像进行处理,然后进行图像分割处理,并将分割结果发送给终端设备B,通过终端设备B展示分割结果。
请参阅图4,图4为本申请实施例中基于图像分类任务的一个界面示意图,如图所示,用户可以在终端设备A的显示界面上选择分类任务以及分类类别,分类类别可以是癌变、病变或损伤等类别。在确定任务类型后,终端设备A将待处理的医学图像进行预处理并上传到服务器。服务器使用本申请提供的图像处理模型对该医学图像进行处理,然后进行图像分类处理,并将分类结果发送给终端设备B,通过终端设备B展示分类结果。
本申请实施例提供了一种图像处理的方法,该方法采用基于人工智能领域的计算机视觉技术(Computer Vision,CV),在对本申请提供的方法进行介绍之前,先对人工智能领域的一些基础概念进行介绍。人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,计算机视觉技术是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition,OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
结合上述介绍,下面将对本申请中图像处理的方法进行介绍,请参阅图5,本申请实施例中图像处理的方法一个实施例包括:
101、获取待处理图像所对应的原始特征图以及采样特征图,其中,待处理图像与原始特征图均对应于第一分辨率,采样特征图对应于第二分辨率,且第二分辨率小于第一分辨率;
本实施例中,图像处理装置获取待处理图像,该待处理图像可以医学图像或者照片等,其中,待处理图像对应于第一分辨率。对该待处理图像进行卷积处理得到与第一分辨率下的原始特征图,对该待处理图像进行下采样处理得到与第二分辨率下的采样特征图,第二分辨率小于第一分辨率。
为了便于理解,请参阅图6,图6为本申请实施例中基于图像分割任务的一个图像处理模型结构示意图,如图所示,图像处理模型包括至少两层网络结构,这里以两层网络结构为例进行介绍,其中,一层用于提取第一分辨率下的特征图,另一层用于提取第二分辨率下的特征图。图像处理装置对待处理图像进行卷积,得到原始特征图,然后对原始特征图进行下采样,得到采样特征图。
假设第二分辨率是第一分辨率的一半,即进行2倍下采样。例如,原始特征图的第一分辨率可以是256×256,那么采样特征图的第二分辨率可以是128×128。
需要说明的是,图像处理装置可以部署于服务器,或者部署于终端设备,本申请以图像处理装置部署于服务器为例进行介绍,然而这不应理解为对本申请的限定。
102、基于原始特征图,通过图像处理模型所包括的第一可逆网络获取第一特征图,其中,第一特征图对应于第一分辨率,第一可逆网络包括串联的至少一个可逆块,每个可逆块用于执行卷积操作;
本实施例中,图像处理装置将原始特征图输入至图像处理模型中的第一可逆网络,通过第一可逆网络输出第一特征图,第一特征图的分辨率与原始特征图的第一分辨率保持一致,第一可逆网络可以由至少一个训练好的可逆块串联而成。具体地,可逆块可以为可逆残差网络块(Reversible Residual Network Block,RevNet Block),更具体地,可逆块可以为注意力可逆残差网络块(Attention Reversible Residual Network Block,ARB)。
为了便于理解,请继续参阅图6,图像处理装置将原始特征图输入第一可逆网络,得到第一特征图,第一特征图对应于第一分辨率,即与原始特征图和待处理图像的分辨率一致,第一可逆网络中包括串联的至少两个可逆块。
103、基于采样特征图,通过图像处理模型所包括的第二可逆网络获取第二特征图,其中,第二特征图对应于第二分辨率,第二可逆网络包括串联的至少一个可逆块;
本实施例中,图像处理装置将采样特征图输入至图像处理模型中的第二可逆网络,通过第二可逆网络输出第二特征图,第二特征图的分辨率与采样特征图的第二分辨率保持一致,第二可逆网络可以由至少一个训练好的可逆块串联而成。具体地,可逆块可以为RevNet Block,更具体地,可逆块可以为ARB。需要说明的是,可逆网络中的可逆块数量不做限定,而可逆块数量越多,越能够体现模型的性能,在加深网络的同时对于内存空间消耗较少。
为了便于理解,请继续参阅图6,图像处理装置将采样特征图输入第二可逆网络,得到第二特征图,第二特征图对应于第二分辨率,即与采样特征图的分辨率一致,第二可逆网络中也包括串联的至少两个可逆块,通常情况下,第二可逆网络的模型参数与第一可逆网络的模型参数不一致。
104、根据第一特征图以及经过上采样处理后的第二特征图获取第三特征图,根据第二特征图以及经过下采样处理后的第一特征图获取第四特征图,其中,第三特征图对应于第一分辨率,第四特征图对应于第二分辨率;
本实施例中,图像处理装置根据第一特征图以及经过上采样处理后的第二特征图获取第三特征图,根据第二特征图以及经过下采样处理后的第一特征图获取第四特征图,其中,第三特征图的分辨率与原始特征图的分辨率相同,第四特征图的分辨率与采样特征图的分辨率相同。
为了便于理解,请继续参阅图6,如图所示,图像处理装置将第一特征图与第二特征图进行叠加,分别得到第三特征图以及第四特征图,第三特征图对应于第一分辨率,第四特征图对应于第二分辨率。
105、基于第三特征图以及第四特征图,通过图像处理模型获取待处理图像对应的图像处理结果。
本实施例中,图像处理装置将第三特征图和第四特征图进行叠加处理,生成目标特征图,将目标特征图输入至图像处理模型,由该图像处理模型根据任务类型输出对应的图像处理结果。在图像分割任务中,可输出包括从待处理图像中分割出来的目标区域。在图像分类任务中,将输出待处理图像所属的类型。
为了便于理解,请继续参阅图6,如图所示,以图像分割任务为例,在得到第三特征图以及第四特征图之后,对第四特征图进行上采样处理,得到与第三特征图分辨率一致的特征图,再与第三特征图进行叠加,得到目标特征图。将目标特征图输入至图像处理模型中的softmax层以及输出层,从而得到分割得到的目标区域,目标区域可以是如图6中W1所指示的区域。例如,如果对于患者的脑部医学图像进行分割,图像分割结果可以包括下丘脑的部位。
以图像分类任务为例,请参阅图7,图7为本申请实施例中基于图像分类任务的一个图像处理模型结构示意图,如图所示,在得到第三特征图以及第四特征图之后,对第三特征图进行下采样处理,得到与第四特征图分辨率一致的特征图,再与第四特征图进行叠加,得到目标特征图。将目标特征图输入至图像处理模型中的卷积层、池化层以及全连接层,从而得到图像分类结果。例如,如果对于患者的脑部医学图像进行分类,图像分类结果可以为肿瘤类型。
可选地,图像处理模型还可以包括三层结构。请参阅图8,图8为本申请实施例中基于图像分割任务的另一个图像处理模型结构示意图,如图所示,在图像处理模型中,首先对待处理图像进行卷积,得到特征图A。对特征图A进行下采样得到特征图B。将特征图A输入可逆网络A,由此得到特征图C。将特征图B输入到可逆网络B,由此得到特征图D。再基于特征图C和特征图D生成特征图E和特征图F,然后对特征图F进行下采样,得到特征图G。将特征图E输入可逆网络C,由此得到特征图H。将特征图F输入到可逆网络D,由此得到特征图I。将特征图G输入到可逆网络E,由此得到特征图J。基于特征图H、特征图I和特征图J生成特征图K、特征图L和特征图M,将特征图K、特征图L和特征图M进行融合后得到特征图N,最后基于特征图N输出如图8中W1所指示的图像分割结果。
请参阅图9,图9为本申请实施例中基于图像分类任务的另一个图像处理模型结构示意图,如图所示,采用与图8类似的方式获取到特征图K、特征图L和特征图M,对特征图K和特征图L进行融合处理,得到特征图N,再对特征图N和特征图M进行融合处理,得到特征图O。将特征图O输入至至图像处理模型的池化层和全连接层,由此输出图像分类结果。
需要说明的是,在图8和图9中,特征图A、特征图C、特征图E、特征图H和特征图K均对应于a×a的分辨率。特征图B、特征图D、特征图F、特征图I和特征图L均对应于b×b的分辨率。特征图G、特征图J和特征图M均对应于c×c的分辨率。特征图N对应于b×b的分辨率,特征图O对应于c×c的分辨率。其中,a大于b,b大于c。
本申请实施例中,提供了一种图像处理的方法,首先可以获取待处理图像所对应的原始特征图以及采样特征图,然后基于原始特征图,通过图像处理模型所包括的第一可逆网络获取第一特征图,再基于采样特征图,通过图像处理模型所包括的第二可逆网络获取第二特征图,然后根据第一特征图以及经过上采样处理后的第二特征图获取第三特征图,根据第二特征图以及经过下采样处理后的第一特征图获取第四特征图,最后基于第三特征图以及第四特征图,通过图像处理模型获取待处理图像对应的图像处理结果。通过上述方式,可以使得原始高分辨率的特征图与下采样得到的特征图进行信息交互,避免因下采样导致信息丢失的情况,同时,在卷积的过程中采用多个可逆块构成的可逆网络,无需存储卷积过程中产生的中间量,从而在保持图像处理效果的情况下,还能够节省图像处理的内存空间。
可选地,在上述图5对应的各个实施例的基础上,本申请实施例提供的一种图像处理的方法另一个可选实施例中,根据第一特征图以及经过上采样处理后的第二特征图获取第三特征图,根据第二特征图以及经过下采样处理后的第一特征图获取第四特征图,可以包括:
基于第一特征图,通过图像处理模型所包括的第一卷积层获取第一交互特征图,其中,第一交互特征图对应于第一分辨率;
通过图像处理模型所包括的第二卷积层对第二特征图进行上采样处理,得到第二交互特征图,其中,第二交互特征图对应于第一分辨率;
根据第一交互特征图以及第二交互特征图,生成第三特征图;
通过图像处理模型所包括的第三卷积层对第一特征图进行下采样处理,得到第三交互特征图,其中,第三交互特征图对应于第二分辨率;
基于第二特征图,通过图像处理模型所包括的第四卷积层获取第四交互特征图,其中,第四交互特征图对应于第二分辨率;
根据第三交互特征图以及第四交互特征图,生成第四特征图;
或,根据第一特征图以及经过上采样处理后的第二特征图获取第三特征图,根据第二特征图以及经过下采样处理后的第一特征图获取第四特征图,可以包括:
通过图像处理模型所包括的第二卷积层对第二特征图进行上采样处理,得到第二交互特征图,其中,第二交互特征图对应于第一分辨率;
根据第一特征图以及第二交互特征图,生成第三特征图;
通过图像处理模型所包括的第三卷积层对第二特征图进行下采样处理,得到第三交互特征图,其中,第三交互特征图对应于第二分辨率;
根据第三交互特征图以及第二特征图,生成第四特征图。
本实施例中,介绍了一种特征图融合处理的方法。由于特征图之间的分辨率不同,所以需要增大或减小特征图的分辨率,以使需要进行融合的特征图分辨率相同。下面将以两种方式分别介绍如何对特征图进行融合处理。
第一种方式为平行卷积的方式提取相同分辨率的特征图。通过第一卷积层对第一特征图执行卷积操作,得到第一交互特征图。由于第二特征图的分辨率小于第一特征图,所以需要通过第二卷积层对第二特征图进行上采样,得到与第一交互特征图分辨率相同的第二交互特征图,由此可以将第一交互特征图与第二交互特征图进行叠加,得到第三特征图。相应地,还需要通过第三卷积层对第一特征图进行下采样,得到第三交互特征图。通过第四卷积层对第二特征图进行卷积操作,得到第四交互特征图,第三代交互特征图与第四交互特征图的分辨率相等。将第三交互特征图与第四交互特征图进行叠加,得到第四特征图。
第二种方式为直接使用相同分辨率的特征图。需要通过第二卷积层对第二特征图进行上采样,得到与第一特征图分辨率相同的第二交互特征图,由此可以将第一特征图与第二交互特征图进行叠加,得到第三特征图。相应地,需要通过第三卷积层对第三特征图进行下采样,得到与第二特征图分辨率相同的第三交互特征图,由此可以将第二特征图与第三交互特征图进行叠加,得到第四特征图。
本申请实施例中,提供了一种特征图融合处理的方法,通过上述方式,可以重复融合高分辨率特征图和低分辨率特征图,可以使得特征图中的表征从并行的其他表征反复接收信息,从而使特征图中信息更加丰富,有利于提高图像处理结果的准确性。
可选地,在上述图5对应的各个实施例的基础上,本申请实施例提供的图像处理的方法另一个可选实施例中,基于原始特征图,通过图像处理模型所包括的第一可逆网络获取第一特征图,可以包括:
根据原始特征图生成第一输入特征图以及第二输入特征图,其中,第一输入特征图以及第二输入特征图的通道数之和等于原始特征图的通道数;
通过图像处理模型所包括的第一可逆网络,对第一输入特征图以及第二输入特征图进行多次卷积操作,得到第一输出特征图;
通过图像处理模型所包括的第一可逆网络,对第一输入特征图以及第二输入特征图进行多次卷积操作,得到第二输出特征图;
根据第一输出特征图以及第二输出特征图,生成第一特征图,其中,第一特征图的通道数等于第一输出特征图以及第二输出特征图的通道数之和;
基于采样特征图,通过图像处理模型所包括的第二可逆网络获取第二特征图,可以包括:
根据采样特征图生成第三输入特征图以及第四输入特征图,其中,第三输入特征图以及第四输入特征图的通道数之和等于采样特征图的通道数;
通过图像处理模型所包括的第二可逆网络,对第三输入特征图进行多次卷积操作,得到第三输出特征图;
通过图像处理模型所包括的第二可逆网络,对第四输入特征图进行多次卷积操作,得到第四输出特征图;
根据第三输出特征图以及第四输出特征图,生成第二特征图,其中,第二特征图的通道数等于第三输出特征图以及第四输出特征图的通道数之和。
本实施例中,介绍了一种使用可逆网络对特征图进行卷积处理的方法。图像处理装置首先将原始特征图拆分为两个子特征图,即第一输入特征图以及第二输入特征图,这两个输入特征图的通道数量之和等于原始特征图的通道数量,例如,原始特征图具有64个通道,则这两个输入特征图可分别具有32个通道。将这第一输入特征图以及第二输入特征图分别输入至第一可逆网络中进行多次卷积,从而得到第一输出特征图和第二输出特征图。最后将这两个输出特征图进行合并生成第一特征图,该第一特征图的通道数量等于原始特征图的数量。可以理解的是,采样特征图也类似的方式通过第二可逆网络得到第二特征图,此处不做赘述。
可选地,假设特征图具有64个通道,经过通道拆分后得到32个通道的第一输入特征图,以及32个通道的第二输入特征图,可以分别对第一输入特征图和第二输入特征图先进行卷积处理,这里所采用的卷积不同。
为了便于理解,请参阅图10,图10为本申请实施例中可逆网络的一个结构示意图,可逆网络由至少两个可逆块串联而成,图10所示的可逆网络包括3个可逆块,每个可逆块包括两个残差函数,分别为函数F1、函数G1、函数F2、函数G2、函数F3和函数G3。每个可逆块可以进行正向计算和逆向计算。其中,图10中标记黑色方框的部分表示输出的中间结果,在可逆网络中,这些中间结果直接用于后续的计算即可,无需占用内存来存储这些中间结果。
请参阅图11,图11为本申请实施例中可逆块的一个结构示意图,如图所示,可逆块中包括训练好的函数F和函数G。请参阅图11中的(a)图,利用函数F和函数G,可以通过输入数据X1和X2计算得到输出数据Y1和Y2,其计算公式如下:
y1=x1+F(x)2
y2=x2+G(y)1
请参阅图11中的(b),利用函数F和函数G,也可以通过输出数据Y1和Y2计算得到输入数据X1和X2,在通过输出数据计算输入数据时,不需要对函数进行额外的求逆等操作,其计算公式如下:
x2=y2-G(y)1
x1=y1-F(x)2
由此可见,对于串联而成的多个可逆块而言,可以基于输入特征图X1和输入特征图X2,通过函数F1、函数G1、函数F2、函数G2、函数F3和函数G3计算得到输出特征图Y1和输出特征图Y2。也可以基于输出特征图Y1和输出特征图Y2通过逆向计算得到输输入特征图X1和输入特征图X2。在可逆网络中的各个函数所得出的中间结果可以通过输入特征图X1和输入特征图X2推导而出,或者通过输出特征图Y1和输出特征图Y2推导而出,因此,采用可逆网络无需存储中间结果。
本申请实施例中,提供了一种使用可逆网络对特征图进行卷积处理的方法,通过上述方式,使用多个可逆块串联而成的可逆网络替代多个卷积层,能够在卷积处理的过程中避免存储中间结果,从而节省了内存空间。
可选地,在上述图5对应的各个实施例的基础上,本申请实施例提供的图像处理的方法一个可选实施例中,通过图像处理模型所包括的第一可逆网络,对第一输入特征图以及第二输入特征图进行多次卷积操作,得到第一输出特征图,可以包括:
通过图像处理模型所包括的第一可逆网络,对第一输入特征图进行至少一次卷积操作,得到第一中间特征图;
通过第一可逆网络所包括的全局平均池化层,对第一中间特征图进行池化处理,得到第一特征向量;
通过第一可逆网络所包括的全连接层,对第一特征向量进行处理,得到第二特征向量,其中,第二特征向量是维度大于第一特征向量的维度;
采用第二特征向量对第一中间特征图进行点乘操作,得到第二中间特征图;
基于第二中间特征图以及第二输入特征图,通过图像处理模型所包括的第一可逆网络,获取第一输出特征图。
本实施例中,提供了一种基于注意力机制的处理特征图的方法,图像处理装置首先将第一输入特征图输入至第一可逆网络进行至少一次卷积,从而得到第一中间特征图,然后,将第一中间特征图输入至全局平均池化层进行池化处理,得到第一特征向量,即先对第一中间特征图先进行降维处理。图像处理装置将第一特征向量输入至全连接层进行处理,得到第二特征向量,其中,第二特征向量的维度大于第一特征向量的维度,即再对第一特征向量进行升维。将第二特征向量与第一中间特征图进行点乘,得到第二中间特征图,然后将第二中间特征图和第二输入特征图输入至第一可逆网络进行卷积操作,得到第一输出特征图。
为了便于理解,请参阅图12,图12为本申请实施例中具有注意力模块的一个可逆网络结构示意图,如图所示,假设可逆网络包括3个可逆块和2个注意力模块,其中,注意力模块添加位于中间的注意力模块的两个残差函数后,即,添加在函数F2和函数G2之后。需要说明的是,图12所示的可逆网络结构仅为一个示意,在实际应用中,请不对注意力模块的位置以及数量进行限定,也不对可逆网络中可逆块的数量进行限定。
具体地,请参阅图13,为本申请实施例中注意力模块的一个结构示意图,如图所示,输入特征图的大小为H*W*C,注意力模块首先对该特征图进行全局平均池化,得到大小为1*1*C的特征向量,然后将1*1*C的特征向量输入到全连接层,可以得到大小为1*1*C/r的特征向量,r表示缩放参数。将所得到的1*1*C/r的特征向量输入到线性整流函数(Rectified Linear Unit,ReLU)中进行计算,将计算得到的1*1*C/r的特征向量输入到全连接层中回升到原来的维度,得到大小为1*1*C的特征向量。最后将全连接层输出的大小为1*1*C的特征向量通过Sigmoid函数进行归一化,通过缩放操作来将归一化后的权重与每个通道的特征值点乘,从而得到经过注意力模块加权后的H*W*C特征图。
本申请实施例中,提供了一种基于注意力机制的特征图的处理方法,通过上述方式,在可逆网络的可逆块中加入注意力模块,为特征图的通道加入权重,使得特征图中的表征更加明显,使网络自适应的加入注意力,从而自主学习较好的特征图。
可选地,在上述图5对应的各个实施例的基础上,本申请实施例提供的图像处理的方法一个可选实施例中,基于第三特征图以及第四特征图,通过图像处理模型获取待处理图像对应的图像处理结果,可以包括:
通过图像处理模型所包括的第五卷积层获取第三特征图的交互特征图,其中,第三特征图的交互特征图对应于第一分辨率;
通过图像处理模型所包括的第六卷积层对第四特征图进行上采样处理,得到第四特征图的交互特征图,其中,第四特征图的交互特征图对应于第一分辨率;
根据第三特征图的交互特征图以及第四特征图的交互特征图,生成待处理图像对应的目标特征图;
根据待处理图像对应的目标特征图,生成图像分割结果;
向客户端发送图像分割结果,以使客户端展示图像分割结果。
本实施例中,提供了一种基于图像处理模型实现图像分割的方法。图像处理装置可以将第三特征图和第四特征图进行融合,获得图像分割结果。第四特征图的分辨率小于第三特征图的分辨率,因此,图像处理装置通过第五卷积层对第三特征图进行卷积操作,得到第三特征图的交互特征图,通过第六卷积层对第四特征图进行上采样操作,得到第六特征图的交互特征图,将所得到两个交互特征图进行叠加,由此得到目标特征图。基于目标特征图进行卷积操作,可以生成图像分割结果。其中,目标特征图的分辨率与待处理图像的分辨率相同,均为第一分辨率。最后将图像分割结果反馈至客户端,由客户端展示该图像分割结果。
为了便于理解,请参阅图14,图14为本申请实施例中图像处理模型的一个部分结构示意图,如图所示,以图像处理模型包括三层结构为例,特征图A1可以通过卷积层得到对应的交互特征图,特征图A1也可以直接作为交互特征图。特征图A2通过卷积层进行上采样处理,得到特征图A2对应的交互特征图。类似地,特征图A3通过卷积层进行上采样处理,得到特征图A3所对应的交互特征图,将这三个交互特征图进行叠加,从而得到目标特征图A4。
本实施例中,提供了一种基于图像处理模型实现图像分割的方法,图像处理模型将低分辨率特征融合到高分辨率特征,使得到的目标特征图所包括的特征更加丰富,可以使得分割的结果更准确。
可选地,在上述图5对应的各个实施例的基础上,本申请实施例提供的图像处理的方法一个可选实施例中,基于第三特征图以及第四特征图,通过图像处理模型获取待处理图像对应的图像处理结果,可以包括:
通过图像处理模型所包括的第七卷积层对第三特征图进行下采样处理,得到第三特征图的交互特征图,其中,第三特征图的交互特征图对应于第二分辨率;
通过图像处理模型所包括的第八卷积层获取第四特征图的交互特征图,其中,第四特征图的交互特征图对应于第二分辨率;
基于第三特征图的交互特征图以及第四特征图的交互特征图,通过图像处理模型所包括的第九卷积层获取第一目标特征图;
基于第一目标特征图,通过图像处理模型所包括的池化层,获取第二目标特征图;
基于第二目标特征图,通过图像处理模型所包括的全连接层,获取待处理图像对应的分类概率分布;
根据分类概率分布确定待处理图像对应的图像分类结果;
向客户端发送图像分类结果,以使客户端展示图像分类结果。
本实施例中,提供了一种基于图像处理模型实现图像分类的方法。图像处理装置可以将第三特征图和第四特征图融合,以获得图像分类结果。第三特征图的分辨率大于第四特征图的分辨率,因此,图像处理装置通过第七卷积层对第三特征图进行下采样操作,得到第三特征图的交互特征图,通过第八卷积层对第四特征图进行卷积操作,得到第四特征图的交互特征图,将所得到两个交互特征图进行叠加并通过第九卷积层进行卷积操作,得到第一目标特征图。再将第一目标特征图输入到平均池化层,得到第二目标特征图。最后将第二目标特征图输入到全连接层,从而输出待处理图像对应的分类概率分布,如(0.1,0.2,0.7),即0.7所对应的标签为该待处理图像的分类标签。最后将图像分类结果反馈至客户端,由客户端展示该图像分类结果。
为了便于理解,请参阅图15,图15为本申请实施例中图像处理模型的另一个部分结构示意图,如图所示,以图像处理模型包括三层结构为例,特征图A1可以通过卷积层进行下采样处理,得到特征图A1的交互特征图,特征图A2可以通过卷积层生成交互特征图,也可以直接作为交互特征图。将特征图A1的交互特征图和特征图A2的交互特征图(或特征图A2)进行融合,得到目标特征图A5。目标特征图A5可以通过卷积层进行下采样处理,得到目标特征图A5的交互特征图,特征图A3可以通过卷积层生成交互特征图,也可以直接作为交互特征图。将目标特征图A5的交互特征图和特征图A3的交互特征图(或特征图A3)进行融合,得到目标特征图A6,再对目标特征图A6进行池化处理,得到目标特征图A7,最后,通过全连接层对目标特征图A7进行处理,得到分类概率分布。
本实施例中,提供了一种基于图像处理模型实现图像分类的方法,图像处理模型将多尺度融合后的高分辨率特征图下采样后融合到低分辨率特征图,使得低分辨率特征图中包括的信息更全面,可以使得分类的结果更准确。
可选地,在上述图5对应的各个实施例的基础上,本申请实施例提供的图像处理的方法一个可选实施例中,基于第三特征图以及第四特征图,通过图像处理模型获取待处理图像对应的图像处理结果,可以包括:
基于第三特征图,通过图像处理模型所包括的第三可逆网络获取第五特征图,其中,第五特征图对应于第一分辨率,第三可逆网络包括串联的至少一个可逆块;
基于第四特征图,通过图像处理模型所包括的第四可逆网络获取第六特征图,其中,第六特征图对应于第二分辨率,第四可逆网络包括串联的至少一个可逆块;
基于第五特征图以及第六特征图,通过图像处理模型获取待处理图像对应的图像处理结果。
本实施例中,介绍了一种基于多个可逆网络生成分辨率相等的特征图的方式。需要说明的是,在基于图5对应实施例中步骤101至步骤104所描述的内容可知,在获取到第三特征图和第四特征图后,还可以继续进行卷积处理。
为了便于理解,请参阅图16,图16为本申请实施例中基于图像分割任务的另一个图像处理模型结构示意图,如图所示,采用如上述步骤101至步骤104的方式得到第三特征图以及第四特征图之后,将第三特征图输入至第三可逆网络,由第三可逆网络输出第五特征图,类似地,将第四特征图输入至第四可逆网络,由第四可逆网络输出第六特征图。
以图像分割任务为例,在得到第五特征图以及第六特征图之后,对第六特征图进行上采样处理,得到与第五特征图分辨率一致的特征图,再与第五特征图进行叠加,得到目标特征图。将目标特征图输入至图像处理模型中的softmax层以及输出层,从而得到分割得到的目标区域,目标区域可以是如图16中W1所指示的区域。例如,如果对于患者的脑部医学图像进行分割,图像分割结果可以包括下丘脑的部位。
以图像分类任务为例,请参阅图17,图17为本申请实施例中基于图像分类任务的另一个图像处理模型结构示意图,如图所示,在得到第五特征图以及第六特征图之后,对第五特征图进行下采样处理,得到与第六特征图分辨率一致的特征图,再与第六特征图进行叠加,得到目标特征图。将目标特征图输入至图像处理模型中的卷积层、池化层以及全连接层,从而得到图像分类结果。例如,如果对于患者的脑部医学图像进行分类,图像分类结果可以为肿瘤类型。
本申请实施例中,提供了一种基于多个可逆网络生成分辨率相等的特征图的方式,通过上述方式,能够对特征图进行多个可逆网络的卷积运算,不但可以大规模地加深网络,堆叠更多的可逆块来获取更高的精度,而且无需存储卷积过程中产生的中间量,从而能够节省图像处理的内存空间。
可选地,在上述图5对应的各个实施例的基础上,本申请实施例提供的图像处理的方法一个可选实施例中,基于第五特征图以及第六特征图,通过图像处理模型获取待处理图像对应的图像处理结果,可以包括:
通过图像处理模型所包括的第五卷积层获取第五特征图的交互特征图,其中,第五特征图的交互特征图对应于第一分辨率;
通过图像处理模型所包括的第六卷积层对第四特征图进行上采样处理,得到第六特征图的交互特征图,其中,第六特征图的交互特征图对应于第一分辨率;
根据所第五特征图的交互特征图以及第六特征图的交互特征图,生成待处理图像对应的目标特征图;
根据待处理图像对应的目标特征图,生成图像分割结果;
向客户端发送图像分割结果,以使客户端展示图像分割结果。
本实施例中,介绍了另一种基于图像处理模型实现图像分割的方法。图像处理装置可以将第五特征图和第六特征图进行融合,获得图像分割结果。第六特征图的分辨率小于第五特征图的分辨率,因此,图像处理装置通过第五卷积层对第五特征图进行卷积操作,得到第五特征图的交互特征图,通过第六卷积层对第六特征图进行上采样操作,得到第六特征图的交互特征图,将所得到两个交互特征图进行叠加,由此得到目标特征图。基于目标特征图进行卷积操作,可以生成图像分割结果。其中,目标特征图的分辨率与待处理图像的分辨率相同,均为第一分辨率。最后将图像分割结果反馈至客户端,由客户端展示该图像分割结果。
本实施例中,提供了另一种基于图像处理模型实现图像分割的方法,通过上述方式,能够对特征图进行多个可逆网络的卷积运算,不但可以大规模地加深网络,堆叠更多的可逆块来获取更高的精度,而且将低分辨率特征融合到高分辨率特征,使得到的目标特征图所包括的特征更加丰富,可以使得分割的结果更准确。
可选地,在上述图5对应的各个实施例的基础上,本申请实施例提供的图像处理的方法一个可选实施例中,基于第五特征图以及第六特征图,通过图像处理模型获取待处理图像对应的图像处理结果,包括:
通过图像处理模型所包括的第七卷积层对第五特征图进行下采样处理,得到第五特征图的交互特征图,其中,第五特征图的交互特征图对应于第二分辨率;
通过图像处理模型所包括的第八卷积层获取第六特征图的交互特征图,其中,第六特征图的交互特征图对应于第二分辨率;
基于第五特征图的交互特征图以及第六特征图的交互特征图,通过图像处理模型所包括的第九卷积层获取第一目标特征图;
基于第一目标特征图,通过图像处理模型所包括的池化层,获取第二目标特征图;
基于第二目标特征图,通过图像处理模型所包括的全连接层,获取待处理图像对应的分类概率分布;
根据分类概率分布确定待处理图像对应的图像分类结果;
向客户端发送图像分类结果,以使客户端展示图像分类结果。
本实施例中,提供另一种基于图像处理模型实现图像分类的方法。图像处理装置可以将第五特征图和第六特征图融合,以获得图像分类结果。第五特征图的分辨率大于第六特征图的分辨率,因此,图像处理装置通过第七卷积层对第五特征图进行下采样操作,得到第五特征图的交互特征图,通过第八卷积层对第六特征图进行卷积操作,得到第六特征图的交互特征图,将所得到两个交互特征图进行叠加并通过第九卷积层进行卷积操作,得到第一目标特征图。再将第一目标特征图输入到平均池化层,得到第二目标特征图。最后将第二目标特征图输入到全连接层,从而输出待处理图像对应的分类概率分布,如(0.1,0.2,0.7),即0.7所对应的标签为该待处理图像的分类标签。最后将图像分类结果反馈至客户端,由客户端展示该图像分类结果。
本实施例中,提供了另一种基于图像处理模型实现图像分类的方法,通过上述方式,能够对特征图进行多个可逆网络的卷积运算,不但可以大规模地加深网络,堆叠更多的可逆块来获取更高的精度,而且将多尺度融合后的高分辨率特征图下采样后融合到低分辨率特征图,使得低分辨率特征图中包括的信息更全面,可以使得分类的结果更准确。
基于上述实施例的介绍,本申请提供了一个基于图像分割任务的图像处理模型结构,类似地,基于图像分类任务的图像处理模型结构在相应网络层上进行调整即可,此处以图像分割任务为例进行描述。请参阅图18,图18为本申请提供的一个基于图像分割任务的图像处理模型结构示意图,如图所示,在图像处理模型中,首先对待处理图像进行卷积,得到特征图A。对特征图A进行下采样得到特征图B。将特征图A输入可逆网络A,由此得到特征图C。将特征图B输入到可逆网络B,由此得到特征图D。再基于特征图C和特征图D生成特征图E和特征图F,然后对特征图F进行下采样,得到特征图G。将特征图E输入可逆网络C,由此得到特征图H。将特征图F输入到可逆网络D,由此得到特征图I。将特征图G输入到可逆网络E,由此得到特征图J。基于特征图H、特征图I和特征图J生成特征图K、特征图L和特征图M。
将特征图K输入可逆网络F,由此得到特征图N。将特征图L输入可逆网络G,由此得到特征图O。将特征图M输入可逆网络H,由此得到特征图P。将特征图N、特征图O和特征图P进行融合后得到特征图Q,最后基于特征图Q输出如W1所指示的图像分割结果。
基于此,输入数据为原始的待处理图像,输出的为图像分割结果,即得到分割图像,或者分类类别。为了便于说明图像处理模型中各个网络层的参数,请参阅表1,表1为图像处理模型中个网络层参数的一个示意。
表1
由表1可知,结合图18的网络结构对应于这些通道详细参数,在实际应用中,还可以设置其他的参数值。对于不同的图像处理任务,还需要设置不同的参数。请参阅表2,表2为分割任务下网络层参数的一个示意。
表2
由表2可知,结合图18的网络结构对应于这些通道详细参数,在实际应用中,还可以设置其他的参数值。对于不同的图像处理任务,还需要设置不同的参数。请参阅表3,表3为分类任务下网络层参数的一个示意。
表3
由表3可知,结合图18的网络结构对应于这些通道详细参数,在实际应用中,还可以设置其他的参数值。最后一层的“AvgPooling”为平均池化层(Average Pooling),“FC”为全连接层(Fully connected layer)。
采用本申请提供的图像处理网络,不仅保持了多分辨率图像信息,而且对于每一个分辨率能够进行较深层的处理,对于医学影像而言,能有效防止因为下采样导致的信息缺失带来的误差,通过多层卷积也能给细节信息带来足够多的分析和信息提取,由于卷积过程中通道之间的联系非常重要,此外,还增加注意力模块来提取通道权重,使得通道之间的联系更加有针对性。
结合上述介绍,下面将对本申请中模型训练的方法进行介绍,请参阅图19,本申请实施例中模型训练的方法一个实施例包括:
201、获取待训练图像,其中,待训练图像对应于图像真实分割结果,图像真实分割结果为待训练图像在每个像素点上的标注结果;
本实施例中,模型训练装置获取待训练图像,该待训练图像可以是医学图像或照片等,其中,待训练图像包括标注好的图像真实分割的结果。
具体地,待训练图像属于训练数据集中的任意图像。以训练医学图像为例,训练数据集可以包括医院提供的CT平扫脑部出血原因判断数据集,以及包括4个模态(包括Flair,T1,T2,T1c等多个模态的数据)的BraTS18比赛用MR数据集。对于这些训练数据集中的待训练图像,需要进行归一化处理,对于没有固定的形状大小和方向性的病灶区域,需要对待训练图像进行翻转、旋转、放缩以及对比度增强等数据增广的操作,增加样本数量,增大方向性和不同大小规模下的信息价值。
需要说明的是,模型训练装置可以部署于服务器,也可以部署于终端设备,本申请以部署于服务器为例进行介绍,然而这不应理解为对本申请的限定。
202、通过图像处理模型获取待训练图像所对应的待训练原始特征图以及待训练采样特征图,其中,待训练原始特征图与待训练图像均对应于第一分辨率,待训练采样特征图对应于第二分辨率,且第二分辨率小于第一分辨率;
本实施例中,模型训练装置通过图像处理模型对待训练图像进行卷积处理,得到第一分辨率下的待训练原始特征图,对待训练图像进行下采样处理,得到第二分辨率下的待训练采样特征图,且第二分辨率小于第一分辨率。
具体地,第二分辨率可以是第一分辨率的一半,即进行两倍下采样,例如,第一分辨率可以是256×256,那么第二分辨率可以是128×128。
203、基于待训练原始特征图,通过图像处理模型所包括的第一可逆网络获取第一待训练特征图,其中,第一待训练特征图对应于第一分辨率,第一待训练可逆网络包括串联的至少一个可逆块,每个可逆块用于执行卷积操作;
本实施例中,模型训练装置将待训练原始特征图输入至图像处理模型中的第一可逆网络,通过第一可逆网络输出第一待训练特征图,第一待训练特征图的分辨率与待训练原始特征图的第一分辨率保持一致,第一可逆网络可以由至少一个待训练的可逆块串联而成。具体地,可逆块可以为RevNet Block,更具体地,可逆块可以为ARB。
204、基于待训练采样特征图,通过图像处理模型所包括的第二可逆网络获取第二待训练特征图,其中,第二待训练特征图对应于第二分辨率,第二可逆网络包括串联的至少一个可逆块;
本实施例中,模型训练装置将待训练采样特征图输入至图像处理模型中的第二可逆网络,通过第二可逆网络输出第二待训练特征图,第二待训练特征图的分辨率与待训练采样特征图的第二分辨率保持一致,第二可逆网络可以由至少一个待训练的可逆块串联而成。类似地,可逆块可以为RevNet Block,更具体地,可逆块可以为ARB。
205、根据第一待训练特征图以及经过上采样处理后的第二待训练特征图获取第三待训练特征图,根据第二待训练特征图以及经过下采样处理后的第一待训练特征图获取第四待训练特征图,其中,第三待训练特征图对应于第一分辨率,第四待训练特征图对应于第二分辨率;
本实施例中,模型训练装置根据第一待训练特征图以及第二待训练特征图获取第三待训练特征图,根据第一待训练特征图以及第二待训练特征图获取第四待训练特征图,其中,第三待训练特征图的分辨率与待训练原始特征图的分辨率相同,均为第一分辨率。第四待训练特征图的分辨率与待训练采样特征图的分辨率相同,均为第二分辨率。
206、基于第三待训练特征图以及第四待训练特征图,通过图像处理模型获取待处理图像对应的图像预测分割结果;
本实施例中,模型训练装置将第三待训练特征图和第四待训练特征图进行叠加处理,生成待训练目标特征图,将待训练目标特征图输入至图像处理模型中的softmax层以及输出层,由此输出对应的图像预测分割结果,图像预测分割结果可以包括从待训练图像中分割出来的目标区域,例如,如果对于患者的脑部医学图像进行分割,图像分割结果可以包括下丘脑的部位。
207、根据图像预测分割结果以及图像真实分割结果,采用损失函数对图像处理模型的模型参数进行更新,其中,图像处理模型为上述实施例中涉及的图像处理模型。
本实施例中,模型训练装置根据得到的图像预测分割结果以及图像真实分割结果,利用损失函数对图像预测分割结果以及图像真实分割结果之间的差异进行计算,从而利用损失值对图像处理模型的模型参数进行更新,当损失函数的结果收敛时,可以认为图像处理模型已训练完成。
具体地,模型训练装置采用基于自适应动量(Adaptive momentum,Adam)的梯度下降法图像处理模型的模型参数,初始学习率为0.05,Adam中的betas=(0.95,0.9995)。经过图像处理模型得到概率值,在分割任务中,待训练图像中每一个像素值为一个0到1的概率,使用的损失函数可以是dice值,也可以是其他类似的损失函数。通过最小化损失函数的值,可以计算误差梯度并通过反向传播更新图像处理模型的梯度。在图像处理模型训练完成之后,利用该模型执行上述图5对应的各个实施例。
本实施例中,提供了一种用于模型训练的方法,模型训练装置利用对应于图像真实分割结果的待训练图像对图像处理模型进行训练。通过上述方式,利用不同分辨率的训练数据进行训练,可以提高训练得到的图像处理模型分割图像的准确性。
结合上述介绍,下面将对本申请中模型训练的方法进行介绍,请参阅图20,本申请实施例中模型训练的方法一个实施例包括:
301、获取待训练图像,其中,待训练图像对应于图像真实分类标签,图像真实分类标签为对待训练图像的类型进行标注后的结果;
302、通过图像处理模型获取待训练图像所对应的待训练原始特征图以及待训练采样特征图,其中,待训练原始特征图与待训练图像均对应于第一分辨率,待训练采样特征图对应于第二分辨率,且第二分辨率小于第一分辨率;
303、基于待训练原始特征图,通过图像处理模型所包括的第一可逆网络获取第一待训练特征图,其中,第一待训练特征图对应于第一分辨率,第一待训练可逆网络包括串联的至少一个可逆块,每个可逆块用于执行卷积操作;
304、基于待训练采样特征图,通过图像处理模型所包括的第二可逆网络获取第二待训练特征图,其中,第二待训练特征图对应于第二分辨率,第二可逆网络包括串联的至少一个可逆块;
305、根据第一待训练特征图以及经过上采样处理后的第二待训练特征图获取第三待训练特征图,根据第二待训练特征图以及经过下采样处理后的第一待训练特征图获取第四待训练特征图,其中,第三待训练特征图对应于第一分辨率,第四待训练特征图对应于第二分辨率;
本实施例中,步骤301至步骤305的执行方式与上述步骤201至步骤205的执行方式类似,此处不再赘述。
306、基于第三特征图以及第四特征图,通过图像处理模型获取待处理图像对应的图像预测分类标签;
本实施例中,模型训练装置将第三待训练特征图和第四待训练特征图进行叠加处理,生成待训练目标特征图,将待训练目标特征图输入至图像处理模型中的卷积层、池化层以及全连接层,从而得到图像分类结果。图像预测分类标签可以包括待训练图像所属的类型。如果对于患者的脑部医学图像进行分类,图像分类结果可以为肿瘤类型。
307、根据图像预测分类标签以及图像真实分类标签,采用损失函数对图像处理模型的模型参数进行更新,其中,图像处理模型为上述实施例中涉及的图像处理模型。
本实施例中,模型训练装置根据得到的图像预测分类结果以及图像真实分类结果,利用损失函数对图像预测分类标签以及图像真实分类标签之间的差异进行计算,从而利用损失值对图像处理模型的模型参数进行更新,当损失函数的结果收敛时,可以认为图像处理模型已训练完成。
具体地,模型训练装置采用基于Adam的梯度下降法图像处理模型的模型参数,初始学习率为0.05,Adam中的betas=(0.95,0.9995)。经过图像处理模型得到概率值,在分类任务中,输出的为一个N*1向量,N为类别数量。使用的损失函数可以是加权交叉熵(weighted cross entropy,WCE),也可以是其他类似的损失函数。通过最小化损失函数的值,可以计算误差梯度并通过反向传播更新图像处理模型的梯度。在图像处理模型训练完成之后,利用最终的预测概率值,得到分类结果。利用该模型执行上述图5对应的各个实施例。
本实施例中,提供了一种用于模型训练的方法,模型训练装置利用对应于图像真实分类结果的待训练图像对图像处理模型进行训练。通过上述方式,利用不同分辨率的训练数据进行训练,可以提高训练得到的图像处理模型分类图像的准确性。
下面对本申请中的图像处理装置进行详细描述,请参阅图21,图21为本申请实施例中图像处理装置一个实施例示意图,图像处理装置40包括:
获取模块401,用于待处理图像所对应的原始特征图以及采样特征图,其中,待处理图像与原始特征图均对应于第一分辨率,采样特征图对应于第二分辨率,且第二分辨率小于第一分辨率;
获取模块401,还用于基于原始特征图,通过图像处理模型所包括的第一可逆网络获取第一特征图,其中,第一特征图对应于第一分辨率,第一可逆网络包括串联的至少一个可逆块,每个可逆块用于执行卷积操作;
获取模块401,还用于基于采样特征图,通过图像处理模型所包括的第二可逆网络获取第二特征图,其中,第二特征图对应于第二分辨率,第二可逆网络包括串联的至少一个可逆块;
获取模块401,还用于根据第一特征图以及经过上采样处理后的第二特征图获取第三特征图,根据第二特征图以及经过下采样处理后的第一特征图获取第四特征图,其中,第三特征图对应于第一分辨率,第四特征图对应于第二分辨率;
处理模块402,用于基于第三特征图以及第四特征图,通过图像处理模型获取待处理图像对应的图像处理结果。
可选地,在上述图21所对应的实施例的基础上,本申请实施例提供的图像处理装置40的其他实施例中,使用上述模块执行相应动作,此处不一一列举。
下面对本申请中的模型训练装置进行详细描述,请参阅图22,图22为本申请实施例中模型训练装置的一个示意图,模型训练装置50包括:
获取模块501,用于获取待训练图像,其中,待训练图像对应于图像真实分割结果,图像真实分割结果为待训练图像在每个像素点上的标注结果;
获取模块501,还用于通过图像处理模型获取待训练图像所对应的待训练原始特征图以及待训练采样特征图,其中,待训练原始特征图与待训练图像均对应于第一分辨率,待训练采样特征图对应于第二分辨率,且第二分辨率小于第一分辨率;
获取模块501,还用于基于待训练原始特征图,通过图像处理模型所包括的第一可逆网络获取第一待训练特征图,其中,第一待训练特征图对应于第一分辨率,第一待训练可逆网络包括串联的至少一个可逆块,每个可逆块用于执行卷积操作;
获取模块501,还用于基于待训练采样特征图,通过图像处理模型所包括的第二可逆网络获取第二待训练特征图,其中,第二待训练特征图对应于第二分辨率,第二可逆网络包括串联的至少一个可逆块;
获取模块501,还用于根据第一待训练特征图以及经过上采样处理后的第二待训练特征图获取第三待训练特征图,根据第二待训练特征图以及经过下采样处理后的第一待训练特征图获取第四待训练特征图,其中,第三待训练特征图对应于第一分辨率,第四待训练特征图对应于第二分辨率;
处理模块502,用于基于第三特征图以及第四特征图,通过图像处理模型获取待处理图像对应的图像预测分割结果;
更新模块503,根据图像预测分割结果以及图像真实分割结果,采用损失函数对图像处理模型的模型参数进行更新,其中,图像处理模型为上述各方面中任一项的图像处理模型。
下面对本申请中的模型训练装置进行详细描述,请参阅图23,图23为本申请实施例中模型训练装置的一个示意图,模型训练装置60包括:
获取模块601,用于获取待训练图像,其中,待训练图像对应于图像真实分类标签,图像真实分类标签为对待训练图像的类型进行标注后的结果;
获取模块601,还用于通过图像处理模型获取待训练图像所对应的待训练原始特征图以及待训练采样特征图,其中,待训练原始特征图与待训练图像均对应于第一分辨率,待训练采样特征图对应于第二分辨率,且第二分辨率小于第一分辨率;
获取模块601,还用于基于待训练原始特征图,通过图像处理模型所包括的第一可逆网络获取第一待训练特征图,其中,第一待训练特征图对应于第一分辨率,第一待训练可逆网络包括串联的至少一个可逆块,每个可逆块用于执行卷积操作;
获取模块601,还用于基于待训练采样特征图,通过图像处理模型所包括的第二可逆网络获取第二待训练特征图,其中,第二待训练特征图对应于第二分辨率,第二可逆网络包括串联的至少一个可逆块;
获取模块601,还用于根据第一待训练特征图以及经过上采样处理后的第二待训练特征图获取第三待训练特征图,根据第二待训练特征图以及经过下采样处理后的第一待训练特征图获取第四待训练特征图,其中,第三待训练特征图对应于第一分辨率,第四待训练特征图对应于第二分辨率;
处理模块602,用于基于第三特征图以及第四特征图,通过图像处理模型获取待处理图像对应的图像预测分类标签;
更新模块603,用于根据图像预测分类标签以及图像真实分类标签,采用损失函数对图像处理模型的模型参数进行更新,其中,图像处理模型为上述各方面中任一项的图像处理模型。
图24是本申请实施例提供的一种服务器结构示意图,该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)722(例如,一个或一个以上处理器)和存储器732,一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器722可以设置为与存储介质730通信,在服务器700上执行存储介质730中的一系列指令操作。
服务器700还可以包括一个或一个以上电源726,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口758,和/或,一个或一个以上操作系统741,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图24所示的服务器结构。
本申请实施例中,CPU 722用于执行如下步骤:
获取待处理图像所对应的原始特征图以及采样特征图,其中,待处理图像与原始特征图均对应于第一分辨率,采样特征图对应于第二分辨率,且第二分辨率小于第一分辨率;
基于原始特征图,通过图像处理模型所包括的第一可逆网络获取第一特征图,其中,第一特征图对应于第一分辨率,第一可逆网络包括串联的至少一个可逆块,每个可逆块用于执行卷积操作;
基于采样特征图,通过图像处理模型所包括的第二可逆网络获取第二特征图,其中,第二特征图对应于第二分辨率,第二可逆网络包括串联的至少一个可逆块;
根据第一特征图以及经过上采样处理后的第二特征图获取第三特征图,根据第二特征图以及经过下采样处理后的第一特征图获取第四特征图,其中,第三特征图对应于第一分辨率,第四特征图对应于第二分辨率;
基于第三特征图以及第四特征图,通过图像处理模型获取待处理图像对应的图像处理结果。
本申请实施例中,CPU 722用于执行如下步骤:
获取待训练图像,其中,待训练图像对应于图像真实分割结果,图像真实分割结果为待训练图像在每个像素点上的标注结果;
通过图像处理模型获取待训练图像所对应的待训练原始特征图以及待训练采样特征图,其中,待训练原始特征图与待训练图像均对应于第一分辨率,待训练采样特征图对应于第二分辨率,且第二分辨率小于第一分辨率;
基于待训练原始特征图,通过图像处理模型所包括的第一可逆网络获取第一待训练特征图,其中,第一待训练特征图对应于第一分辨率,第一待训练可逆网络包括串联的至少一个可逆块,每个可逆块用于执行卷积操作;
基于待训练采样特征图,通过图像处理模型所包括的第二可逆网络获取第二待训练特征图,其中,第二待训练特征图对应于第二分辨率,第二可逆网络包括串联的至少一个可逆块;
根据第一待训练特征图以及经过上采样处理后的第二待训练特征图获取第三待训练特征图,根据第二待训练特征图以及经过下采样处理后的第一待训练特征图获取第四待训练特征图,其中,第三待训练特征图对应于第一分辨率,第四待训练特征图对应于第二分辨率;
基于第三待训练特征图以及第四待训练特征图,通过图像处理模型获取待处理图像对应的图像预测分割结果;
根据图像预测分割结果以及图像真实分割结果,采用损失函数对图像处理模型的模型参数进行更新,其中,图像处理模型为上述各方面中任一项的图像处理模型。
本申请实施例中,CPU 722用于执行如下步骤:
获取待训练图像,其中,待训练图像对应于图像真实分类标签,图像真实分类标签为对待训练图像的类型进行标注后的结果;
通过图像处理模型获取待训练图像所对应的待训练原始特征图以及待训练采样特征图,其中,待训练原始特征图与待训练图像均对应于第一分辨率,待训练采样特征图对应于第二分辨率,且第二分辨率小于第一分辨率;
基于待训练原始特征图,通过图像处理模型所包括的第一可逆网络获取第一待训练特征图,其中,第一待训练特征图对应于第一分辨率,第一待训练可逆网络包括串联的至少一个可逆块,每个可逆块用于执行卷积操作;
基于待训练采样特征图,通过图像处理模型所包括的第二可逆网络获取第二待训练特征图,其中,第二待训练特征图对应于第二分辨率,第二可逆网络包括串联的至少一个可逆块;
根据第一待训练特征图以及经过上采样处理后的第二待训练特征图获取第三待训练特征图,根据第二待训练特征图以及经过下采样处理后的第一待训练特征图获取第四待训练特征图,其中,第三待训练特征图对应于第一分辨率,第四待训练特征图对应于第二分辨率;
基于第三特征图以及第四特征图,通过图像处理模型获取待处理图像对应的图像预测分类标签;
根据图像预测分类标签以及图像真实分类标签,采用损失函数对图像处理模型的模型参数进行更新,其中,图像处理模型为上述各方面中任一项的图像处理模型。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (16)
1.一种图像处理的方法,其特征在于,包括:
获取待处理图像所对应的原始特征图以及采样特征图,其中,所述待处理图像与所述原始特征图均对应于第一分辨率,所述采样特征图对应于第二分辨率,且所述第二分辨率小于所述第一分辨率;
基于所述原始特征图,通过图像处理模型所包括的第一可逆网络获取第一特征图,其中,所述第一特征图对应于所述第一分辨率,所述第一可逆网络包括串联的至少一个可逆块,每个可逆块用于执行卷积操作;
基于所述采样特征图,通过所述图像处理模型所包括的第二可逆网络获取第二特征图,其中,所述第二特征图对应于所述第二分辨率,所述第二可逆网络包括串联的至少一个可逆块;
根据所述第一特征图以及经过上采样处理后的所述第二特征图获取第三特征图,根据所述第二特征图以及经过下采样处理后的所述第一特征图获取第四特征图,其中,所述第三特征图对应于所述第一分辨率,所述第四特征图对应于所述第二分辨率;
基于所述第三特征图以及所述第四特征图,通过所述图像处理模型获取所述待处理图像对应的图像处理结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一特征图以及经过上采样处理后的所述第二特征图获取第三特征图,根据所述第二特征图以及经过下采样处理后的所述第一特征图获取第四特征图,包括:
基于所述第一特征图,通过所述图像处理模型所包括的第一卷积层获取第一交互特征图,其中,所述第一交互特征图对应于所述第一分辨率;
通过所述图像处理模型所包括的第二卷积层对所述第二特征图进行上采样处理,得到第二交互特征图,其中,所述第二交互特征图对应于所述第一分辨率;
根据所述第一交互特征图以及所述第二交互特征图,生成所述第三特征图;
通过所述图像处理模型所包括的第三卷积层对所述第一特征图进行下采样处理,得到第三交互特征图,其中,所述第三交互特征图对应于所述第二分辨率;
基于所述第二特征图,通过所述图像处理模型所包括的第四卷积层获取第四交互特征图,其中,所述第四交互特征图对应于所述第二分辨率;
根据所述第三交互特征图以及所述第四交互特征图,生成所述第四特征图;
或者,所述根据所述第一特征图以及经过上采样处理后的所述第二特征图获取第三特征图,根据所述第二特征图以及经过下采样处理后的所述第一特征图获取第四特征图,包括:
通过所述图像处理模型所包括的第二卷积层对所述第二特征图进行上采样处理,得到第二交互特征图,其中,所述第二交互特征图对应于所述第一分辨率;
根据所述第一特征图以及所述第二交互特征图,生成所述第三特征图;
通过所述图像处理模型所包括的第三卷积层对所述第一特征图进行下采样处理,得到第三交互特征图,其中,所述第三交互特征图对应于所述第二分辨率;
根据所述第三交互特征图以及所述第二特征图,生成所述第四特征图。
3.根据权利要求1所述的方法,其特征在于,所述基于所述原始特征图,通过图像处理模型所包括的第一可逆网络获取第一特征图,包括:
根据所述原始特征图生成第一输入特征图以及第二输入特征图,其中,所述第一输入特征图以及所述第二输入特征图的通道数之和等于所述原始特征图的通道数;
通过所述图像处理模型所包括的所述第一可逆网络,对所述第一输入特征图以及所述第二输入特征图进行多次卷积操作,得到第一输出特征图;
通过所述图像处理模型所包括的所述第一可逆网络,对所述第一输入特征图以及所述第二输入特征图进行多次卷积操作,得到第二输出特征图;
根据所述第一输出特征图以及所述第二输出特征图,生成所述第一特征图,其中,所述第一特征图的通道数等于所述第一输出特征图以及所述第二输出特征图的通道数之和;
所述基于所述采样特征图,通过所述图像处理模型所包括的第二可逆网络获取第二特征图,包括:
根据所述采样特征图生成第三输入特征图以及第四输入特征图,其中,所述第三输入特征图以及所述第四输入特征图的通道数之和等于所述采样特征图的通道数;
通过所述图像处理模型所包括的所述第二可逆网络,对所述第三输入特征图进行多次卷积操作,得到第三输出特征图;
通过所述图像处理模型所包括的所述第二可逆网络,对所述第四输入特征图进行多次卷积操作,得到第四输出特征图;
根据所述第三输出特征图以及所述第四输出特征图,生成所述第二特征图,其中,所述第二特征图的通道数等于所述第三输出特征图以及所述第四输出特征图的通道数之和。
4.根据权利要求3所述的方法,其特征在于,所述通过所述图像处理模型所包括的所述第一可逆网络,对所述第一输入特征图以及所述第二输入特征图进行多次卷积操作,得到第一输出特征图,包括:
通过所述图像处理模型所包括的所述第一可逆网络,对所述第一输入特征图进行至少一次卷积操作,得到第一中间特征图;
通过所述第一可逆网络所包括的全局平均池化层,对所述第一中间特征图进行池化处理,得到第一特征向量;
通过所述第一可逆网络所包括的全连接层,对所述第一特征向量进行处理,得到第二特征向量,其中,所述第二特征向量是维度大于所述第一特征向量的维度;
采用所述第二特征向量对第一中间特征图进行点乘操作,得到第二中间特征图;
基于所述第二中间特征图以及所述第二输入特征图,通过所述图像处理模型所包括的所述第一可逆网络,获取所述第一输出特征图。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述基于所述第三特征图以及所述第四特征图,通过所述图像处理模型获取所述待处理图像对应的图像处理结果,包括:
通过所述图像处理模型所包括的第五卷积层获取所述第三特征图的交互特征图,其中,所述第三特征图的交互特征图对应于所述第一分辨率;
通过所述图像处理模型所包括的第六卷积层对所述第四特征图进行上采样处理,得到所述第四特征图的交互特征图,其中,所述第四特征图的交互特征图对应于所述第一分辨率;
根据所述第三特征图的交互特征图以及所述第四特征图的交互特征图,生成所述待处理图像对应的目标特征图;
根据所述待处理图像对应的目标特征图,生成图像分割结果;
向客户端发送所述图像分割结果,以使所述客户端展示所述图像分割结果。
6.根据权利要求1至4中任一项所述的方法,其特征在于,所述基于所述第三特征图以及所述第四特征图,通过所述图像处理模型获取所述待处理图像对应的图像处理结果,包括:
通过所述图像处理模型所包括的第七卷积层对所述第三特征图进行下采样处理,得到所述第三特征图的交互特征图,其中,所述第三特征图的交互特征图对应于所述第二分辨率;
通过所述图像处理模型所包括的第八卷积层获取所述第四特征图的交互特征图,其中,所述第四特征图的交互特征图对应于所述第二分辨率;
基于所述第三特征图的交互特征图以及所述第四特征图的交互特征图,通过所述图像处理模型所包括的第九卷积层获取第一目标特征图;
基于所述第一目标特征图,通过所述图像处理模型所包括的池化层,获取第二目标特征图;
基于所述第二目标特征图,通过所述图像处理模型所包括的全连接层,获取所述待处理图像对应的分类概率分布;
根据分类概率分布确定所述待处理图像对应的图像分类结果;
向客户端发送所述图像分类结果,以使所述客户端展示所述图像分类结果。
7.根据权利要求1所述的方法,其特征在于,所述基于所述第三特征图以及所述第四特征图,通过所述图像处理模型获取所述待处理图像对应的图像处理结果,包括:
基于所述第三特征图,通过所述图像处理模型所包括的第三可逆网络获取第五特征图,其中,所述第五特征图对应于所述第一分辨率,所述第三可逆网络包括串联的至少一个可逆块;
基于所述第四特征图,通过所述图像处理模型所包括的第四可逆网络获取第六特征图,其中,所述第六特征图对应于所述第二分辨率,所述第四可逆网络包括串联的至少一个可逆块;
基于所述第五特征图以及所述第六特征图,通过所述图像处理模型获取所述待处理图像对应的图像处理结果。
8.根据权利要求7所述的方法,其特征在于,所述基于所述第五特征图以及所述第六特征图,通过所述图像处理模型获取所述待处理图像对应的图像处理结果,包括:
通过所述图像处理模型所包括的第五卷积层获取所述第五特征图的交互特征图,其中,所述第五特征图的交互特征图对应于所述第一分辨率;
通过所述图像处理模型所包括的第六卷积层对所述第四特征图进行上采样处理,得到所述第六特征图的交互特征图,其中,所述第六特征图的交互特征图对应于所述第一分辨率;
根据所第五特征图的交互特征图以及所述第六特征图的交互特征图,生成所述待处理图像对应的目标特征图;
根据所述待处理图像对应的目标特征图,生成图像分割结果;
向客户端发送所述图像分割结果,以使所述客户端展示所述图像分割结果。
9.根据权利要求7所述的方法,其特征在于,所述基于所述第五特征图以及所述第六特征图,通过所述图像处理模型获取所述待处理图像对应的图像处理结果,包括:
通过所述图像处理模型所包括的第七卷积层对所述第五特征图进行下采样处理,得到所述第五特征图的交互特征图,其中,所述第五特征图的交互特征图对应于所述第二分辨率;
通过所述图像处理模型所包括的第八卷积层获取所述第六特征图的交互特征图,其中,所述第六特征图的交互特征图对应于所述第二分辨率;
基于所述第五特征图的交互特征图以及所述第六特征图的交互特征图,通过所述图像处理模型所包括的第九卷积层获取第一目标特征图;
基于所述第一目标特征图,通过所述图像处理模型所包括的池化层,获取第二目标特征图;
基于所述第二目标特征图,通过所述图像处理模型所包括的全连接层,获取所述待处理图像对应的分类概率分布;
根据分类概率分布确定所述待处理图像对应的图像分类结果;
向客户端发送所述图像分类结果,以使所述客户端展示所述图像分类结果。
10.一种模型训练的方法,其特征在于,包括:
获取待训练图像,其中,所述待训练图像对应于图像真实分割结果,所述图像真实分割结果为所述待训练图像在每个像素点上的标注结果;
通过图像处理模型获取所述待训练图像所对应的待训练原始特征图以及待训练采样特征图,其中,待训练原始特征图与所述待训练图像均对应于第一分辨率,所述待训练采样特征图对应于第二分辨率,且所述第二分辨率小于所述第一分辨率;
基于所述待训练原始特征图,通过图像处理模型所包括的第一可逆网络获取第一待训练特征图,其中,所述第一待训练特征图对应于所述第一分辨率,所述第一可逆网络包括串联的至少一个可逆块,每个可逆块用于执行卷积操作;
基于所述待训练采样特征图,通过所述图像处理模型所包括的第二可逆网络获取第二待训练特征图,其中,所述第二待训练特征图对应于所述第二分辨率,所述第二可逆网络包括串联的至少一个可逆块;
根据所述第一待训练特征图以及经过上采样处理后的所述第二待训练特征图获取第三待训练特征图,根据所述第二待训练特征图以及经过下采样处理后的所述第一待训练特征图获取第四待训练特征图,其中,所述第三待训练特征图对应于所述第一分辨率,所述第四待训练特征图对应于所述第二分辨率;
基于所述第三待训练特征图以及所述第四待训练特征图,通过所述图像处理模型获取所述待处理图像对应的图像预测分割结果;
根据所述图像预测分割结果以及所述图像真实分割结果,采用损失函数对所述图像处理模型的模型参数进行更新,其中,所述图像处理模型为上述权利要求1至9中任一项所述的图像处理的方法应用的图像处理模型。
11.一种模型训练的方法,其特征在于,包括:
获取待训练图像,其中,所述待训练图像对应于图像真实分类标签,所述图像真实分类标签为对所述待训练图像的类型进行标注后的结果;
通过图像处理模型获取所述待训练图像所对应的待训练原始特征图以及待训练采样特征图,其中,待训练原始特征图与所述待训练图像均对应于第一分辨率,所述待训练采样特征图对应于第二分辨率,且所述第二分辨率小于所述第一分辨率;
基于所述待训练原始特征图,通过图像处理模型所包括的第一可逆网络获取第一待训练特征图,其中,所述第一待训练特征图对应于所述第一分辨率,所述第一可逆网络包括串联的至少一个可逆块,每个可逆块用于执行卷积操作;
基于所述待训练采样特征图,通过所述图像处理模型所包括的第二可逆网络获取第二待训练特征图,其中,所述第二待训练特征图对应于所述第二分辨率,所述第二可逆网络包括串联的至少一个可逆块;
根据所述第一待训练特征图以及经过上采样处理后的所述第二待训练特征图获取第三待训练特征图,根据所述第二待训练特征图以及经过下采样处理后的所述第一待训练特征图获取第四待训练特征图,其中,所述第三待训练特征图对应于所述第一分辨率,所述第四待训练特征图对应于所述第二分辨率;
基于所述第三特征图以及所述第四特征图,通过所述图像处理模型获取所述待处理图像对应的图像预测分类标签;
根据所述图像预测分类标签以及所述图像真实分类标签,采用损失函数对所述图像处理模型的模型参数进行更新,其中,所述图像处理模型为上述权利要求1至9中任一项所述的图像处理的方法应用的图像处理模型。
12.一种图像处理装置,其特征在于,包括:
获取模块,用于待处理图像所对应的原始特征图以及采样特征图,其中,所述待处理图像与所述原始特征图均对应于第一分辨率,所述采样特征图对应于第二分辨率,且所述第二分辨率小于所述第一分辨率;
所述获取模块,还用于基于所述原始特征图,通过图像处理模型所包括的第一可逆网络获取第一特征图,其中,所述第一特征图对应于所述第一分辨率,所述第一可逆网络包括串联的至少一个可逆块,每个可逆块用于执行卷积操作;
所述获取模块,还用于基于所述采样特征图,通过所述图像处理模型所包括的第二可逆网络获取第二特征图,其中,所述第二特征图对应于所述第二分辨率,所述第二可逆网络包括串联的至少一个可逆块;
所述获取模块,还用于根据所述第一特征图以及经过上采样处理后的所述第二特征图获取第三特征图,根据所述第二特征图以及经过下采样处理后的所述第一特征图获取第四特征图,其中,所述第三特征图对应于所述第一分辨率,所述第四特征图对应于所述第二分辨率;
处理模块,用于基于所述第三特征图以及所述第四特征图,通过所述图像处理模型获取所述待处理图像对应的图像处理结果。
13.一种模型训练装置,其特征在于,包括:
获取模块,用于获取待训练图像,其中,所述待训练图像对应于图像真实分割结果,所述图像真实分割结果为所述待训练图像在每个像素点上的标注结果;
所述获取模块,还用于通过图像处理模型获取所述待训练图像所对应的待训练原始特征图以及待训练采样特征图,其中,待训练原始特征图与所述待训练图像均对应于第一分辨率,所述待训练采样特征图对应于第二分辨率,且所述第二分辨率小于所述第一分辨率;
所述获取模块,还用于基于所述待训练原始特征图,通过图像处理模型所包括的第一可逆网络获取第一待训练特征图,其中,所述第一待训练特征图对应于所述第一分辨率,所述第一可逆网络包括串联的至少一个可逆块,每个可逆块用于执行卷积操作;
所述获取模块,还用于基于所述待训练采样特征图,通过所述图像处理模型所包括的第二可逆网络获取第二待训练特征图,其中,所述第二待训练特征图对应于所述第二分辨率,所述第二可逆网络包括串联的至少一个可逆块;
所述获取模块,还用于根据所述第一待训练特征图以及经过上采样处理后的所述第二待训练特征图获取第三待训练特征图,根据所述第二待训练特征图以及经过下采样处理后的所述第一待训练特征图获取第四待训练特征图,其中,所述第三待训练特征图对应于所述第一分辨率,所述第四待训练特征图对应于所述第二分辨率;
处理模块,用于基于所述第三待训练特征图以及所述第四待训练特征图,通过所述图像处理模型获取所述待处理图像对应的图像预测分割结果;
更新模块,根据所述图像预测分割结果以及所述图像真实分割结果,采用损失函数对所述图像处理模型的模型参数进行更新,其中,所述图像处理模型为上述权利要求1至9中任一项所述的图像处理的方法应用的图像处理模型。
14.一种模型训练装置,其特征在于,包括:
获取模块,用于获取待训练图像,其中,所述待训练图像对应于图像真实分类标签,所述图像真实分类标签为对所述待训练图像的类型进行标注后的结果;
所述获取模块,还用于通过图像处理模型获取所述待训练图像所对应的待训练原始特征图以及待训练采样特征图,其中,待训练原始特征图与所述待训练图像均对应于第一分辨率,所述待训练采样特征图对应于第二分辨率,且所述第二分辨率小于所述第一分辨率;
所述获取模块,还用于基于所述待训练原始特征图,通过图像处理模型所包括的第一可逆网络获取第一待训练特征图,其中,所述第一待训练特征图对应于所述第一分辨率,所述第一可逆网络包括串联的至少一个可逆块,每个可逆块用于执行卷积操作;
所述获取模块,还用于基于所述待训练采样特征图,通过所述图像处理模型所包括的第二可逆网络获取第二待训练特征图,其中,所述第二待训练特征图对应于所述第二分辨率,所述第二可逆网络包括串联的至少一个可逆块;
所述获取模块,还用于根据所述第一待训练特征图以及经过上采样处理后的所述第二待训练特征图获取第三待训练特征图,根据所述第二待训练特征图以及经过下采样处理后的所述第一待训练特征图获取第四待训练特征图,其中,所述第三待训练特征图对应于所述第一分辨率,所述第四待训练特征图对应于所述第二分辨率;
处理模块,用于基于所述第三特征图以及所述第四特征图,通过所述图像处理模型获取所述待处理图像对应的图像预测分类标签;
更新模块,用于根据所述图像预测分类标签以及所述图像真实分类标签,采用损失函数对所述图像处理模型的模型参数进行更新,其中,所述图像处理模型为上述权利要求1至9中任一项所述的图像处理的方法应用的图像处理模型。
15.一种服务器,其特征在于,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括如下如上述权利要求1至9中任一项所述的方法,或,执行如上述权利要求10所述的方法,或,执行如上述权利要求11所述的方法;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
16.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至9中任一项所述的方法,或,执行如权利要求10所述的方法,或,执行如权利要求11所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010142990.8A CN111369564B (zh) | 2020-03-04 | 2020-03-04 | 一种图像处理的方法、模型训练的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010142990.8A CN111369564B (zh) | 2020-03-04 | 2020-03-04 | 一种图像处理的方法、模型训练的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111369564A CN111369564A (zh) | 2020-07-03 |
CN111369564B true CN111369564B (zh) | 2022-08-09 |
Family
ID=71208518
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010142990.8A Active CN111369564B (zh) | 2020-03-04 | 2020-03-04 | 一种图像处理的方法、模型训练的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111369564B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111882558A (zh) * | 2020-08-11 | 2020-11-03 | 上海商汤智能科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN111967597A (zh) * | 2020-08-18 | 2020-11-20 | 上海商汤临港智能科技有限公司 | 神经网络训练及图像分类方法、装置、存储介质、设备 |
CN114764753A (zh) * | 2021-01-15 | 2022-07-19 | 晶晨半导体(上海)股份有限公司 | 图像处理方法、图像处理系统、电子设备及存储介质 |
CN114972045A (zh) * | 2021-02-22 | 2022-08-30 | 北京金山云网络技术有限公司 | 一种图像处理方法、装置、电子设备及可读存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784424A (zh) * | 2019-03-26 | 2019-05-21 | 腾讯科技(深圳)有限公司 | 一种图像分类模型训练的方法、图像处理的方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102476239B1 (ko) * | 2018-07-17 | 2022-12-12 | 삼성전자주식회사 | 전자 장치, 영상 처리 방법 및 컴퓨터 판독가능 기록 매체 |
-
2020
- 2020-03-04 CN CN202010142990.8A patent/CN111369564B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784424A (zh) * | 2019-03-26 | 2019-05-21 | 腾讯科技(深圳)有限公司 | 一种图像分类模型训练的方法、图像处理的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111369564A (zh) | 2020-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021036616A1 (zh) | 一种医疗图像处理方法、医疗图像识别方法及装置 | |
CN111369564B (zh) | 一种图像处理的方法、模型训练的方法及装置 | |
EP3961484B1 (en) | Medical image segmentation method and device, electronic device and storage medium | |
Moschoglou et al. | 3dfacegan: Adversarial nets for 3d face representation, generation, and translation | |
Wang et al. | Laplacian pyramid adversarial network for face completion | |
WO2020133636A1 (zh) | 前列腺手术中外包膜智能检测和预警方法及系统 | |
CN111476806B (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN111932529B (zh) | 一种图像分类分割方法、装置及系统 | |
CN111192201B (zh) | 一种生成人脸图像及其模型训练的方法、装置及电子设备 | |
CN110838125A (zh) | 医学图像的目标检测方法、装置、设备、存储介质 | |
An et al. | Medical image segmentation algorithm based on multilayer boundary perception-self attention deep learning model | |
CN111091521A (zh) | 图像处理方法及装置、电子设备和计算机可读存储介质 | |
CN113642585B (zh) | 图像处理方法、装置、设备、存储介质及计算机程序产品 | |
CN110211205B (zh) | 图像处理方法、装置、设备和存储介质 | |
CN116129141B (zh) | 医学数据处理方法、装置、设备、介质和计算机程序产品 | |
CN110570394A (zh) | 医学图像分割方法、装置、设备及存储介质 | |
Zheng et al. | Edge-conditioned feature transform network for hyperspectral and multispectral image fusion | |
CN115115676A (zh) | 图像配准方法、装置、设备和存储介质 | |
WO2023160157A1 (zh) | 三维医学图像的识别方法、装置、设备、存储介质及产品 | |
Tomar et al. | Deep hyfeat based attention in attention model for face super-resolution | |
CN115170401A (zh) | 图像补全方法、装置、设备及存储介质 | |
CN114332853A (zh) | 图像判读模型的训练方法、装置、设备及存储介质 | |
CN114283152A (zh) | 图像处理、图像处理模型的训练方法、装置、设备及介质 | |
CN113822323A (zh) | 脑部扫描图像的识别处理方法、装置、设备及存储介质 | |
CN115965785A (zh) | 图像分割方法、装置、设备、程序产品及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40025861 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |