CN115082381A - 一种基于u型网络的多目标分割方法及装置 - Google Patents

一种基于u型网络的多目标分割方法及装置 Download PDF

Info

Publication number
CN115082381A
CN115082381A CN202210597579.9A CN202210597579A CN115082381A CN 115082381 A CN115082381 A CN 115082381A CN 202210597579 A CN202210597579 A CN 202210597579A CN 115082381 A CN115082381 A CN 115082381A
Authority
CN
China
Prior art keywords
feature
image
context
inputting
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210597579.9A
Other languages
English (en)
Inventor
陈睿
阳文斌
肖潇
胡晓鹏
杨俊�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Infohand Technology Co ltd
Guangzhou Institute of Technology of Xidian University
Original Assignee
Guangzhou Infohand Technology Co ltd
Guangzhou Institute of Technology of Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Infohand Technology Co ltd, Guangzhou Institute of Technology of Xidian University filed Critical Guangzhou Infohand Technology Co ltd
Priority to CN202210597579.9A priority Critical patent/CN115082381A/zh
Publication of CN115082381A publication Critical patent/CN115082381A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10072Tomographic images
    • G06T2207/10081Computed x-ray tomography [CT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Radiology & Medical Imaging (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于U型网络的多目标分割方法及装置,多目标分割方法包括:对待分割图像进行块分区,得到输入图像;将输入图像输入基于上下文转换网络自注意力机制的编码模块中进行统一的局部语义特征信息的提取,并定位分割目标,得到编码器输出图像;将编码器输出图像与编码模块进行局部语义特征信息提取过程中得到的语义特征信息进行融合,并统一待分割图像的全局语义特征信息,得到解码器输出图像;将解码器输出图像的不同目标进行映射输出,得到分割结果图。该多目标分割方法兼顾了局部语义提取优化和全局语义信息统一优化,可以克服医疗图像面临的图像模糊、噪声较大、视觉对比度低的问题,分割结果精确度高,鲁棒性强,分割效率高。

Description

一种基于U型网络的多目标分割方法及装置
技术领域
本发明属于图像处理技术领域,具体涉及一种基于U型网络的多目标分割方法及装置。
背景技术
随着医疗水平的不断上升,医院所拥有的智能设备越来越多,医生可使用来辅助自己用于诊断的医疗器械也越来越多。与此同时,出于生活环境的变化,现代生活工作压力的不断增长,人们饮食作息的不规律等原因,越来越多的人出现身体不适,甚至是一些较严重的病症,器官性病变的案例和人员也在逐步上升。这也逐步加重了医生的工作负担,尤其是在CT扫描的图片诊断中,数量巨大的图片诊断工作无形中增加了医生的工作成本,当医生花费较多时间在诊断病人的CT图片时,病人的病情很容易出现贻误,无法得到及时的救治,这同样也降低了医生的诊断效率。随着AI技术的不断发展,与医疗图像处理相关的技术不断地提高与成熟,大大提高了医生的诊断效率。随着科学技术水平的进一步提升,AI人工智能技术在医疗方面快速发展,现在有不少研究在把深度学习原理运用于医疗图像分割技术的研究,并且已经按照这样的原理生产出了可以智能治疗的机器,同时由于深度网络的进一步发展,医学图像分割的准确率提高,把深度学习也运用到医疗图像的分割上,这样不但能够大幅度降低医生的诊断难度,同时也能够让医生们节约更多的时间与精力去对患者进行更加实际的治疗,为研究一些疑难杂症也提供了时间上的优势,医生可以不必将太多的时间花费在初期诊断病情上,这无疑为医学做出了巨大的贡献。
生物医学图像分割技术在于使图像中的解剖或病理组织结构变化得更为生动清晰,而由于检查结果和准确性的极大提高,它往往在计算机技术辅助诊断和智慧医院技术领域中发挥了重要意义。主流的医疗图像分割操作涵盖心脏和肝恶性肿瘤切除、脑和脑肿瘤切除、视盘切开、细胞切除、肺部切开、肺结节、心脏图像分割等。随着医用图像设备、X辐射、计算机断层扫描(CT)、磁共振技术图像(MRI)以及超声,已成为了协助病人治疗临床医生检查临床病情、评估预后,以及进行规划院内设备治疗手术的四个最主要的图像辅助和技术手段。在实际使用中,这种造影方式尽管各有特点,但对人体各个部份的医学检查都是有利的。
要协助临床医师进行正确的治疗,就必须对医学图像中的某些重要对象加以细分,并在细分区域中获得特征。早期的医疗图像分割方法,通常依赖于边缘检查、模板匹配技术、统计图形建模、主动轮廓以及机器学习技术等。Zhao et al.提出了一种新的肺部CT图像数学形态学边缘检测算法。Lalonde et al.将基于Hausdorff的模板匹配应用于检查,Chen et al.还采用模板匹配在脑CT图像中执行心室分割。Tsai et al.提出了一种基于形状的方法,使用水平集对心脏MRI图像进行2D分割和对前列腺MRI图像进行3D分割。Li etal.使用活动剖面模型从腹部CT图像中分割肝肿瘤,而Li et al.通过结合水平集和支持向量机(SVM)提出了一种用于医疗身体数据分割的框架。Held et al.将马尔可夫随机场(MRF)应用于脑MRI图像分割。
虽然已研究了大量方案并且一些方案在部分情形下获得了极大进步,但是因为其特征表达的难度,图像分割一直是电脑图像视觉效果应用最具挑战性的重要学术课题之一。尤其是,在医疗图像中获得识别特征比普通RGB图片更艰难,因为前者往往面临图像模糊、噪声大、视觉对比度低等问题。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种基于U型网络的多目标分割方法及装置。本发明要解决的技术问题通过以下技术方案实现:
本发明实施例提供了一种基于U型网络的多目标分割方法,包括步骤:
S1、对待分割图像进行块分区,得到输入图像;
S2、将所述输入图像输入基于上下文转换网络自注意力机制的编码模块中进行统一的局部语义特征信息的提取,并定位分割目标,得到编码器输出图像;
S3、将所述编码器输出图像与所述编码模块进行局部语义特征信息提取过程中得到的语义特征信息进行融合,并统一所述待分割图像的全局语义特征信息,得到解码器输出图像;
S4、将所述解码器输出图像的不同目标进行映射输出,得到分割结果图。
在本发明的一个实施例中,步骤S2包括:
S21、将所述输入图像进行线性嵌入后输入到两个连续的上下文转换模块中进行表示学习,保持所述输入图像的特征维度和分辨率不变,得到第一多尺度特征;
S22、将所述第一多尺度特征输入块合并层进行下采样,得到第一下采样特征;
S23、将所述第一下采样特征输入到两个连续的上下文转换模块中进行表示学习,保持所述第一下采样特征的特征维度和分辨率不变,得到第二多尺度特征;
S24、将所述第二多尺度特征输入块合并层进行下采样,得到第二下采样特征;
S25、将所述第二下采样特征输入到两个连续的上下文转换模块中进行表示学习,保持所述第二下采样特征的特征维度和分辨率不变,得到第三多尺度特征;
S26、将所述第三多尺度特征输入块合并层进行下采样,得到所述编码器输出图像。
在本发明的一个实施例中,所述块合并层中的执行步骤包括:
将输入块连接在一起,使得图像的分辨率被下采样2倍,同时特征维度增加4倍,得到连接特征;
利用线性层将所述连接特征的特征维度统一为所述输入块的原始特征维度的2倍,得到块合并层输出的下采样特征。
在本发明的一个实施例中,步骤S3包括:
S31、将所述编码器输出图像输入到块扩展层进行上采样,得到第一上采样特征;
S32、将所述第一上采样特征与所述第三多尺度特征输入到两个连续的上下文转换模块中进行融合,得到第一融合特征;
S33、将所述第一融合特征输入到块扩展层进行上采样,得到第二上采样特征;
S34、将所述第二上采样特征与所述第二多尺度特征输入到两个连续的上下文转换模块中进行融合,得到第二融合特征;
S35、将所述第二融合特征输入到块扩展层进行上采样,得到第三上采样特征;
S36、将所述第三上采样特征与所述第一多尺度特征输入到两个连续的上下文转换模块中进行融合,得到第三融合特征;
S37、将所述第三融合特征输入到块扩展层进行上采样,得到所述解码器输出图像。
在本发明的一个实施例中,所述块扩展层中的执行步骤包括:
利用线性层将输入特征的特征维度增加为原始特征维度的2倍;
使用重新排列操作将所述输入特征的分辨率扩展为原始分辨率的2倍,并将所述输入特征的特征尺寸减小到原始特征尺寸的四分之一,得到所述块扩展层的上采样特征。
在本发明的一个实施例中,所述上下文转换模块中的执行步骤包括:
分别定义所述上下文转换模块中的键、查询和值;
对k×k空间网格中的所有邻居key进行k×k分组卷积,得到输入图像的静态上下文;
将所述静态上下文和所述查询进行两个连续的卷积,获得注意力矩阵;
将所述注意力矩阵和所有所述值进行聚合,得到动态上下文;
将所述静态上下文和所述动态上下文进行融合,得到所述上下文转换模块的输出特征。
在本发明的一个实施例中,步骤S4包括:
将所述解码器输出图像输入到线性投影层进行映射输出,得到所述分割结果图。
在本发明的一个实施例中,步骤S2和步骤S3之间还包括步骤:
将所述编码器输出图像输入到瓶颈层中进行深度特征学习,保持所述编码器输出图像的特征维度和深度保持不变,得到解码器输入图像。
在本发明的一个实施例中,所述瓶颈层中包括两个连续的上下文转换模块。
本发明的另一个实施例提供了一种基于U型网络的多目标分割装置,包括:
图像块分区模块,用于对待分割图像进行块分区,得到输入图像;
编码模块,用于将所述输入图像进行统一的局部语义特征信息的提取,并定位分割目标,得到编码器输出图像,所述编码模块包括基于上下文转换网络自注意力机制的编码模块;
解码模块,用于将所述编码器输出图像与局部语义特征信息提取过程中得到的语义特征信息进行融合,并统一所述待分割图像的全局语义特征信息,得到解码器输出图像,所述解码模块包括基于上下文转换网络自注意力机制的解码模块;
映射输出模块,用于将所述解码器输出图像的不同目标进行映射输出,得到分割结果图。
与现有技术相比,本发明的有益效果:
本发明的多目标分割方法使用基于上下文转换网络自注意力机制的模块进行图像的多目标分割,提取图像中的局部语义信息更为便捷,同时将所述编码器输出图像与所述编码模块进行局部语义特征信息提取过程中得到的语义特征信息进行融合,兼顾了局部语义提取优化和全局语义信息统一优化,可以克服医疗图像面临的图像模糊、噪声较大、视觉对比度低的问题,分割结果精确度高,鲁棒性强,分割效率较高。
附图说明
图1为本发明实施例提供的一种基于U型网络的多目标分割方法的流程示意图;
图2为本发明实施例提供的一种基于U型网络的多目标分割方法的整体流程图;
图3为本发明实施例提供的一种上下文转换模块的结构示意图;
图4为本发明实施例提供的一种分割多器官医疗图像的结果图。
具体实施方式
下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
实施例一
随着深度学习技术的迅速发展,医疗图像分割将不再局限于手工标注的特点,卷积神经网络(CNN)已经顺利地获得了对图像的层次特征提取,并因此成为图像信息处理和电脑图像视觉效果应用中最热点的研究。也因为进行特征学习中的CNN系统对图像噪音、模糊、低反差度等不敏感性,所以也获得了更优异的对医学图像的分割结果。医疗图像分割不仅对计算机视觉的应用和发展起到了重要作用,还对实际医疗起到了巨大的帮助作用。
请参见图1和图2,图1为本发明实施例提供的一种基于U型网络的多目标分割方法的流程示意图,图2为本发明实施例提供的一种基于U型网络的多目标分割方法的整体流程图。
该基于U型网络的多目标分割方法使用上下文转换(Cot Transformer)模块和U型网络进行结合,将Cot转换模块嵌入U型网络以进行图像的分割处理,首先对图像进行块分区(Patch Partition),然后输入到基于Cot Transformer建立的编码解码模块中进行局部特征提取,最后在U型网络中统一全局语义信息,进行块扩展(Patch Expanding)后映射输出分割结果图。具体包括步骤:
S1、对待分割图像进行块分区(Patch Partition),得到输入图像。
具体的,将输入图像块分区,得到
Figure BDA0003666771020000071
的三维矩阵输入图像。
S2、将所述输入图像输入基于上下文转换网络自注意力机制的编码模块中进行统一的局部语义特征信息的提取,并定位分割目标,得到编码器输出图像。
具体包括步骤:
S21、将所述输入图像进行线性嵌入后输入到两个连续的上下文转换模块中进行表示学习,保持所述输入图像的特征维度和分辨率不变,得到第一多尺度特征。
具体的,将
Figure BDA0003666771020000072
的三维矩阵输入图像进行线性嵌入(Linear Embedding),得到分辨率为
Figure BDA0003666771020000073
的C维标记化图像。然后将分辨率为
Figure BDA0003666771020000074
的C维标记化图像输入馈送到两个连续的上下文转换(Cot Transformer)模块中进行表示学习,保持图像的特征维度和分辨率不变,得到
Figure BDA0003666771020000075
的第一多尺度特征。
具体的,在传统的自注意力机制中,所有键值对都是在单个键值对上学习的,并且没有探索它们之间的文本信息,这严重限制了自注意力学习2D特征图用于视觉表示学习的能力。但是上下文转换模块解决了这个问题,它将上下文信息挖掘和自注意力学习集成到一个统一的架构中。
请参见图3,图3为本发明实施例提供的一种上下文转换模块的结构示意图。上下文转换模块中的执行步骤包括:
1)分别定义所述上下文转换模块中的键、查询和值。
具体的,假设有相同的2D特征图
Figure BDA0003666771020000076
键、查询和值分别定义为K=X,Q=X和V=XWv
2)对k×k空间网格中的所有邻居key进行k×k分组卷积,得到输入图像的静态上下文。
具体的,与传统卷积不同,Cot模块不通过1×1卷积对每个键进行编码。Cot模块首先对k×k空间网格中的所有邻居key进行k×k分组卷积,从而得到每个key之间的上下文,将其定义为静态上下文。学习到的静态上下文的key值表示为
Figure BDA0003666771020000081
其体现本地相邻键之间的静态上下文信息。进一步的,将K1视为输入X的静态上下文表示。
3)将所述静态上下文和所述查询进行两个连续的卷积,获得注意力矩阵。
具体的,获取静态上下文K1和查询Q,首先对静态上下文K1和查询Q进行concat,得到H×W×2C的特征,然后传递它们通过两个连续的1×1卷积(θ:1×1和δ:1×1)来获得H×W×(k×k×Ch)的注意力矩阵(Wθ表示有ReLU激活函数,Wδ表示没有激活函数):A=[K1,Q]WθWδ。换句话说,对于每个头部,注意力矩阵A的每个空间位置的局部注意力矩阵是基于查询特征和上下文关键特征,而不是孤立的查询键对来学习的。这种方式在挖掘的静态上下文K1的额外指导下增强了自注意力学习。
4)将所述注意力矩阵和所有所述值进行聚合,得到动态上下文。
具体的,根据上下文化的注意力矩阵A,通过聚合所有值V来计算参数的特征图K2
Figure BDA0003666771020000082
鉴于有自注意力参与的特征图K2捕获了输入之间的动态特征交互,因此,将K2命名为动态上下文,其维度为H×W×C。
5)将所述静态上下文和所述动态上下文进行融合,得到所述上下文转换模块的输出特征。
具体的,Cot模块最终输出通过注意力机制测量为静态上下文K1和动态上下文K2的融合,即将H×W×C的K1和H×W×C的K2进行融合,得到H×W×C的上下文转换模块的输出特征。
本实施例提出的基于Cot网络的多目标分割方法,通过Cot网络对医疗图像局部语义特征的提取进一步提高了分割的精度,有效提高了医疗图像分割的准确性和鲁棒性,得到的分割结果更加有可靠性,具有较高的实用性和推广价值。
S22、将所述第一多尺度特征输入块合并层进行下采样,得到第一下采样特征。
具体的,将第一多尺度特征输入到块合并(Patch Merging)层进行2×下采样以减少标记数量,并将特征维度增加到原始维度的2倍,得到
Figure BDA0003666771020000091
的第一下采样特征。
在一个具体实施例中,块合并层中的执行步骤包括:
1)将输入块连接在一起,使得图像的分辨率被下采样2倍,同时特征维度增加4倍,得到连接块。
具体的,输入块分为4部分,由块合并层连接在一起。通过这样的处理,特征分辨率将被下采样2倍,同时,由于连接操作导致特征维度增加了4倍,从而得到连接特征。
2)利用线性层将所述连特征的特征维度统一为所述输入块的原始特征维度的2倍,得到块合并层输出的下采样特征。
具体的,由于连接操作导致特征维度增加了4倍,因此在连接特征上应用了一个线性层,以将特征维度统一为原始维度的2倍。
S23、将所述第一下采样特征输入到两个连续的上下文转换模块中进行表示学习,保持所述第一下采样特征的特征维度和分辨率不变,得到第二多尺度特征。
具体的,将
Figure BDA0003666771020000092
的第一下采样特征输入馈送到两个连续的上下文转换(Cot Transformer)模块中进行表示学习,保持图像的特征维度和分辨率不变,得到
Figure BDA0003666771020000093
维的第二多尺度特征。
S24、将所述第二多尺度特征输入块合并层进行下采样,得到第二下采样特征。
具体的,将第二多尺度特征输入到块合并(Patch Merging)层进行2×下采样以减少标记数量,并将特征维度增加到原始维度的2倍,得到
Figure BDA0003666771020000094
的第二下采样特征。
S25、将所述第二下采样特征输入到两个连续的上下文转换模块中进行表示学习,保持所述第二下采样特征的特征维度和分辨率不变,得到第三多尺度特征。
具体的,将第二下采样特征输入馈送到两个连续的上下文转换(Cot Transformer)模块中进行表示学习,保持图像的特征维度和分辨率不变,得到
Figure BDA0003666771020000101
的第三多尺度特征。
S26、将所述第三多尺度特征输入块合并层进行下采样,得到所述编码器输出图像。
具体的,将第三多尺度特征输入到块合并(Patch Merging)层进行2×下采样以减少标记数量,并将特征维度增加到原始维度的2倍,得到
Figure BDA0003666771020000102
的第三下采样特征作为编码器输出图像。
步骤S23-S26中上下文转换(Cot Transformer)模块和块合并(Patch Merging)层的具体执行步骤请参见步骤S21和S22。
S3、将所述编码器输出图像与所述编码模块进行局部语义特征信息提取过程中得到的语义特征信息进行融合,并统一所述待分割图像的全局语义特征信息,得到解码器输出图像。
具体的,使用解码器将所述编码器输出图像与所述编码模块进行局部语义特征信息提取过程中得到的语义特征信息进行融合,并统一所述待分割图像的全局语义特征信息,得到解码器输出图像。
进一步的,解码器与编码器对称,其同样基于Cot Transformer模块构建。
S31、将所述编码器输出图像输入到块扩展层进行上采样,得到第一上采样特征。
具体的,与编码器中使用的块合并层相比,使用解码器中的块扩展(PatchExpanding)层对提取的深度特征进行上采样。块扩展层将相邻维度的特征图重塑为更高分辨率的特征图(2×上采样),并相应地将特征维度减少到原始维度的一半。具体到本步骤,将
Figure BDA0003666771020000103
的编码器输出图像输入到块扩展层进行上采样,得到
Figure BDA0003666771020000111
的第一上采样特征。
在一个具体实施例中,块扩展层中的执行步骤包括:
1)利用线性层将输入特征的特征维度增加为原始特征维度的2倍。
具体的,在上采样之前,在输入特征
Figure BDA0003666771020000112
上应用一个线性层,将特征维度增加到原始维度的2倍
Figure BDA0003666771020000113
2)使用重新排列操作将所述输入特征的分辨率扩展为原始分辨率的2倍,并将所述输入特征的特征尺寸减小到原始特征尺寸的四分之一,得到所述块扩展层的上采样特征。
然后,使用重新排列操作将输入特征的分辨率扩展为输入分辨率的2倍,并将特征尺寸减小到输入尺寸的四分之一
Figure BDA0003666771020000114
从而得到块扩展层的上采样特征。
S32、将所述第一上采样特征与所述第三多尺度特征输入到两个连续的上下文转换模块中进行融合,得到第一融合特征。
具体的,与U-Net类似,跳过连接用于将来自编码器的多尺度特征与上采样特征融合。具体到本步骤,将
Figure BDA0003666771020000115
的第一上采样特征与
Figure BDA0003666771020000116
的第三多尺度特征输入到两个连续的上下文转换模块利用跳过连接进行融合,得到
Figure BDA0003666771020000117
的第一融合特征。
本实施例中,将浅层特征和深层特征连接在一起,减少了下采样导致的空间信息丢失。
S33、将所述第一融合特征输入到块扩展层进行上采样,得到第二上采样特征。
具体的,将
Figure BDA0003666771020000118
的第一融合特征输入到块扩展层进行上采样,得到
Figure BDA0003666771020000119
的第二上采样特征。
S34、将所述第二上采样特征与所述第二多尺度特征输入到两个连续的上下文转换模块中进行融合,得到第二融合特征。
具体的,将
Figure BDA0003666771020000121
的第二上采样特征与
Figure BDA0003666771020000122
的第二多尺度特征输入到两个连续的上下文转换模块利用跳过连接进行融合,得到
Figure BDA0003666771020000123
的第二融合特征。
S35、将所述第二融合特征输入到块扩展层进行上采样,得到第三上采样特征。
具体的,将
Figure BDA0003666771020000124
的第二融合特征输入到块扩展层进行上采样,得到
Figure BDA0003666771020000125
的第三上采样特征。
S36、将所述第三上采样特征与所述第一多尺度特征输入到两个连续的上下文转换模块中进行融合,得到第三融合特征。
具体的,将
Figure BDA0003666771020000126
的第三上采样特征与
Figure BDA0003666771020000127
的第一多尺度特征输入到两个连续的上下文转换模块利用跳过连接进行融合,得到
Figure BDA0003666771020000128
的第三融合特征。
S37、将所述第三融合特征输入到块扩展层进行上采样,得到所述解码器输出图像。
具体的,将
Figure BDA0003666771020000129
的第三融合特征输入到块扩展层进行上采样,得到W×H×C(4x)的第四上采样特征作为解码器输出图像。
步骤S32-S37中上下文转换(Cot Transformer)模块和块扩展(Patch Expanding)层的具体执行步骤请参见步骤S21和S31。
S4、将所述编码器输出图像输入到瓶颈层中进行深度特征学习,保持所述编码器输出图像的特征维度和深度保持不变,得到解码器输入图像。
具体的,由于Transformer太深而无法收敛,因此使用瓶颈(bottleneck)层以学习深度特征表示。在bottleneck中,特征维度和分辨率保持不变。
具体的,使用两个连续的上下文转换(Cot Transformer)模块来构建bottleneck。
S4、将所述解码器输出图像的不同目标进行映射输出,得到分割结果图。
具体的,利用线性投影(Linear Projection)层将解码器输出图像的不同目标进行映射输出,得到分割结果图。请参见图4,图4为本发明实施例提供的一种分割多器官医疗图像的结果图,由图4可见,本实施例的多目标分割方法获得了精确度较高的分割结果。
本实施例中,使用基于Cot网络和U型网络相结合的图像多目标分割模型进行图像分割,具有以下优点:1)使用最新的自注意力模块来进行医疗图像的多目标分割,相比于传统的网络,提取图像中的局部语义信息更为便捷,而由于内嵌式的结构,网络的一体化使得模型更为简洁,从而使得计算成本更低。2)仅需要使用自注意力机制即可实现图像的多目标分割,相比于传统的自注意力机制,模型的复杂程度更低、易于实现,可有效提高网络模型的分割效率。3)使用了最新的Cot网络结合U型网络所提出的嵌入式结构相比于传统的网络分割而言,兼顾了局部语义提取优化和全局语义信息统一优化的特点,分割的结果精确度更高,鲁棒性更强。
本实施例中,文本和图像键值对等关键特征不再单独学习,而是与局部和全局上下文信息一起动态学习;Cot转换模块可以非常好的产生上下文语义信息,再加上U型网络对全局文本信息的表示学习,整个方法对于医学图像的分割具有很好的稳定性和准确性。具体而言,多目标分割方法使用基于上下文转换网络自注意力机制的模块进行图像的多目标分割,提取图像中的局部语义信息更为便捷,同时将所述编码器输出图像与所述编码模块进行局部语义特征信息提取过程中得到的语义特征信息进行融合,兼顾了局部语义提取优化和全局语义信息统一优化,可以克服医疗图像面临的图像模糊、噪声较大、视觉对比度低的问题,分割结果精确度高,鲁棒性强,分割效率较高,多目标适应性强,可以识别并分割出医疗图像中的多个目标包括主动脉、脾脏、肝脏等,具有较高的实用性和推广价值。
综上,本实施例的方法基于Cot转换模块和U型网络相结合进行医疗图像多器官分割,实现了局部和全局语义信息的统一,尤其在HD(average Hausdorff Distance)精度上获得了较大的提升,在医疗图像多器官的分割上更具有潜在优势。
实施例二
在实施例一的基础上,本实施例提供了一种基于U型网络的多目标分割装置,该装置包括图像块分区模块、编码模块、解码模块和映射输出模块。
具体的,图像块分区模块用于对待分割图像进行块分区,得到输入图像。编码模块与图像块分区模块连接,用于将所述输入图像进行统一的局部语义特征信息的提取,并定位分割目标,得到编码器输出图像;所述编码模块包括基于上下文转换网络自注意力机制的编码模块。解码模块与编码模块连接,用于将所述编码器输出图像与局部语义特征信息提取过程中得到的语义特征信息进行融合,并统一所述待分割图像的全局语义特征信息,得到解码器输出图像;所述解码模块包括基于上下文转换网络自注意力机制的解码模块。映射输出模块与解码模块连接,用于将所述解码器输出图像的不同目标进行映射输出,得到分割结果图。
本实施例中各个模块中的具体执行步骤和达到的技术效果请参见实施例一,本实施例不再赘述。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种基于U型网络的多目标分割方法,其特征在于,包括步骤:
S1、对待分割图像进行块分区,得到输入图像;
S2、将所述输入图像输入基于上下文转换网络自注意力机制的编码模块中进行统一的局部语义特征信息的提取,并定位分割目标,得到编码器输出图像;
S3、将所述编码器输出图像与所述编码模块进行局部语义特征信息提取过程中得到的语义特征信息进行融合,并统一所述待分割图像的全局语义特征信息,得到解码器输出图像;
S4、将所述解码器输出图像的不同目标进行映射输出,得到分割结果图。
2.根据权利要求1所述的基于U型网络的多目标分割方法,其特征在于,步骤S2包括:
S21、将所述输入图像进行线性嵌入后输入到两个连续的上下文转换模块中进行表示学习,保持所述输入图像的特征维度和分辨率不变,得到第一多尺度特征;
S22、将所述第一多尺度特征输入块合并层进行下采样,得到第一下采样特征;
S23、将所述第一下采样特征输入到两个连续的上下文转换模块中进行表示学习,保持所述第一下采样特征的特征维度和分辨率不变,得到第二多尺度特征;
S24、将所述第二多尺度特征输入块合并层进行下采样,得到第二下采样特征;
S25、将所述第二下采样特征输入到两个连续的上下文转换模块中进行表示学习,保持所述第二下采样特征的特征维度和分辨率不变,得到第三多尺度特征;
S26、将所述第三多尺度特征输入块合并层进行下采样,得到所述编码器输出图像。
3.根据权利要求2所述的基于U型网络的多目标分割方法,其特征在于,所述块合并层中的执行步骤包括:
将输入块连接在一起,使得图像的分辨率被下采样2倍,同时特征维度增加4倍,得到连接特征;
利用线性层将所述连接特征的特征维度统一为所述输入块的原始特征维度的2倍,得到块合并层输出的下采样特征。
4.根据权利要求2所述的基于U型网络的多目标分割方法,其特征在于,步骤S3包括:
S31、将所述编码器输出图像输入到块扩展层进行上采样,得到第一上采样特征;
S32、将所述第一上采样特征与所述第三多尺度特征输入到两个连续的上下文转换模块中进行融合,得到第一融合特征;
S33、将所述第一融合特征输入到块扩展层进行上采样,得到第二上采样特征;
S34、将所述第二上采样特征与所述第二多尺度特征输入到两个连续的上下文转换模块中进行融合,得到第二融合特征;
S35、将所述第二融合特征输入到块扩展层进行上采样,得到第三上采样特征;
S36、将所述第三上采样特征与所述第一多尺度特征输入到两个连续的上下文转换模块中进行融合,得到第三融合特征;
S37、将所述第三融合特征输入到块扩展层进行上采样,得到所述解码器输出图像。
5.根据权利要求4所述的基于U型网络的多目标分割方法,其特征在于,所述块扩展层中的执行步骤包括:
利用线性层将输入特征的特征维度增加为原始特征维度的2倍;
使用重新排列操作将所述输入特征的分辨率扩展为原始分辨率的2倍,并将所述输入特征的特征尺寸减小到原始特征尺寸的四分之一,得到所述块扩展层的上采样特征。
6.根据权利要求2或4所述的基于U型网络的多目标分割方法,其特征在于,所述上下文转换模块中的执行步骤包括:
分别定义所述上下文转换模块中的键、查询和值;
对k×k空间网格中的所有邻居key进行k×k分组卷积,得到输入图像的静态上下文;
将所述静态上下文和所述查询进行两个连续的卷积,获得注意力矩阵;
将所述注意力矩阵和所有所述值进行聚合,得到动态上下文;
将所述静态上下文和所述动态上下文进行融合,得到所述上下文转换模块的输出特征。
7.根据权利要求1所述的基于U型网络的多目标分割方法,其特征在于,步骤S4包括:
将所述解码器输出图像输入到线性投影层进行映射输出,得到所述分割结果图。
8.根据权利要求1所述的基于U型网络的多目标分割方法,其特征在于,步骤S2和步骤S3之间还包括步骤:
将所述编码器输出图像输入到瓶颈层中进行深度特征学习,保持所述编码器输出图像的特征维度和深度保持不变,得到解码器输入图像。
9.根据权利要求8所述的基于U型网络的多目标分割方法,其特征在于,所述瓶颈层中包括两个连续的上下文转换模块。
10.一种基于U型网络的多目标分割装置,其特征在于,包括:
图像块分区模块,用于对待分割图像进行块分区,得到输入图像;
编码模块,用于将所述输入图像进行统一的局部语义特征信息的提取,并定位分割目标,得到编码器输出图像,所述编码模块包括基于上下文转换网络自注意力机制的编码模块;
解码模块,用于将所述编码器输出图像与局部语义特征信息提取过程中得到的语义特征信息进行融合,并统一所述待分割图像的全局语义特征信息,得到解码器输出图像,所述解码模块包括基于上下文转换网络自注意力机制的解码模块;
映射输出模块,用于将所述解码器输出图像的不同目标进行映射输出,得到分割结果图。
CN202210597579.9A 2022-05-27 2022-05-27 一种基于u型网络的多目标分割方法及装置 Pending CN115082381A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210597579.9A CN115082381A (zh) 2022-05-27 2022-05-27 一种基于u型网络的多目标分割方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210597579.9A CN115082381A (zh) 2022-05-27 2022-05-27 一种基于u型网络的多目标分割方法及装置

Publications (1)

Publication Number Publication Date
CN115082381A true CN115082381A (zh) 2022-09-20

Family

ID=83249730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210597579.9A Pending CN115082381A (zh) 2022-05-27 2022-05-27 一种基于u型网络的多目标分割方法及装置

Country Status (1)

Country Link
CN (1) CN115082381A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115222947A (zh) * 2022-09-21 2022-10-21 武汉珈鹰智能科技有限公司 基于全局自注意力变换网络的岩石节理分割方法和装置
CN116188431A (zh) * 2023-02-21 2023-05-30 北京长木谷医疗科技有限公司 基于CNN与Transformer的髋关节分割方法及装置
CN117649418A (zh) * 2024-01-30 2024-03-05 神州医疗科技股份有限公司 一种胸部多器官分割方法及系统和计算机可读存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115222947A (zh) * 2022-09-21 2022-10-21 武汉珈鹰智能科技有限公司 基于全局自注意力变换网络的岩石节理分割方法和装置
CN115222947B (zh) * 2022-09-21 2022-12-20 武汉珈鹰智能科技有限公司 基于全局自注意力变换网络的岩石节理分割方法和装置
CN116188431A (zh) * 2023-02-21 2023-05-30 北京长木谷医疗科技有限公司 基于CNN与Transformer的髋关节分割方法及装置
CN116188431B (zh) * 2023-02-21 2024-02-09 北京长木谷医疗科技股份有限公司 基于CNN与Transformer的髋关节分割方法及装置
CN117649418A (zh) * 2024-01-30 2024-03-05 神州医疗科技股份有限公司 一种胸部多器官分割方法及系统和计算机可读存储介质
CN117649418B (zh) * 2024-01-30 2024-04-19 神州医疗科技股份有限公司 一种胸部多器官分割方法及系统和计算机可读存储介质

Similar Documents

Publication Publication Date Title
Yin et al. [Retracted] U‐Net‐Based Medical Image Segmentation
Jin et al. 3D PBV-Net: an automated prostate MRI data segmentation method
Khan et al. Deep neural architectures for medical image semantic segmentation
Li et al. Lvit: language meets vision transformer in medical image segmentation
CN115082381A (zh) 一种基于u型网络的多目标分割方法及装置
CN113902761B (zh) 基于知识蒸馏的肺部疾病病灶无监督分割方法
CN112258456B (zh) 一种基于卷积神经网络监督的三维图像分割方法
AlZu'bi et al. Transferable hmm trained matrices for accelerating statistical segmentation time
Xu et al. 3D‐SIFT‐Flow for atlas‐based CT liver image segmentation
Chan et al. Res2-UNeXt: a novel deep learning framework for few-shot cell image segmentation
CN114841320A (zh) 一种基于喉镜医学影像的器官自动分割方法
Wang et al. Multiscale transunet++: dense hybrid u-net with transformer for medical image segmentation
Wu et al. Image synthesis in contrast MRI based on super resolution reconstruction with multi-refinement cycle-consistent generative adversarial networks
WO2023045284A1 (zh) 图像处理方法、装置、计算机设备、存储介质及程序产品
CN117274599A (zh) 一种基于组合双任务自编码器的脑磁共振分割方法及系统
Li et al. Category guided attention network for brain tumor segmentation in MRI
Wu et al. Multi-scale long-range interactive and regional attention network for stroke lesion segmentation
Wang et al. w-Net: Dual supervised medical image segmentation model with multi-dimensional attention and cascade multi-scale convolution
Xia et al. A nested parallel multiscale convolution for cerebrovascular segmentation
Wang et al. Accurate lung nodule segmentation with detailed representation transfer and soft mask supervision
Zhu et al. Transformers and their application to medical image processing: A review
CN116797519A (zh) 脑胶质瘤分割和三维可视化模型训练方法及系统
Chen et al. SymTC: A Symbiotic Transformer-CNN Net for Instance Segmentation of Lumbar Spine MRI
Zamzmi et al. Trilateral attention network for real-time medical image segmentation
Li et al. Rethinking Deep Supervision for Brain Tumor Segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination