CN116433697B - 基于眼动仪的腹部多器官ct图像分割方法 - Google Patents
基于眼动仪的腹部多器官ct图像分割方法 Download PDFInfo
- Publication number
- CN116433697B CN116433697B CN202310694214.2A CN202310694214A CN116433697B CN 116433697 B CN116433697 B CN 116433697B CN 202310694214 A CN202310694214 A CN 202310694214A CN 116433697 B CN116433697 B CN 116433697B
- Authority
- CN
- China
- Prior art keywords
- information
- image
- eye movement
- features
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004424 eye movement Effects 0.000 title claims abstract description 94
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000003709 image segmentation Methods 0.000 title claims abstract description 14
- 230000003187 abdominal effect Effects 0.000 title claims description 22
- 238000010586 diagram Methods 0.000 claims abstract description 58
- 239000011159 matrix material Substances 0.000 claims abstract description 42
- 230000006870 function Effects 0.000 claims abstract description 28
- 230000008447 perception Effects 0.000 claims abstract description 22
- 210000001015 abdomen Anatomy 0.000 claims abstract description 14
- 238000001914 filtration Methods 0.000 claims abstract description 13
- 238000004891 communication Methods 0.000 claims abstract description 10
- 230000003993 interaction Effects 0.000 claims abstract description 8
- 230000001502 supplementing effect Effects 0.000 claims abstract description 4
- 230000011218 segmentation Effects 0.000 claims description 40
- 230000004927 fusion Effects 0.000 claims description 38
- 230000008569 process Effects 0.000 claims description 35
- 210000000056 organ Anatomy 0.000 claims description 31
- 238000005070 sampling Methods 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 17
- 238000013507 mapping Methods 0.000 claims description 15
- 239000013589 supplement Substances 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 2
- 230000009466 transformation Effects 0.000 abstract description 3
- 238000010606 normalization Methods 0.000 description 21
- 230000004913 activation Effects 0.000 description 12
- 230000000007 visual effect Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 6
- 238000003745 diagnosis Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000002604 ultrasonography Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000001605 fetal effect Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000016776 visual perception Effects 0.000 description 2
- 101150114515 CTBS gene Proteins 0.000 description 1
- 208000003947 Knee Osteoarthritis Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000002591 computed tomography Methods 0.000 description 1
- 238000004195 computer-aided diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 201000008482 osteoarthritis Diseases 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000001959 radiotherapy Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10072—Tomographic images
- G06T2207/10081—Computed x-ray tomography [CT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30204—Marker
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于眼动仪的腹部多器官CT图像分割方法,包括步骤:使用眼动仪收集放射科医生在阅读CT图像时的眼动注视位置信息;使用高斯滤波滤除多余噪声,将眼动注视信息保存为眼动位置矩阵和注视热力图;使用小波变换算法提取出注视热力图中的近似系数和细节系数;使用眼动信息编码器编码得到眼动位置矩阵的高维特征,并保留阶段下采样特征;使用图像编码器编码得到原始CT图像和细节系数的高维特征,并保留阶段下采样特征;使用交叉注意力模块实现人类感知与网络感知交互通讯;使用多特征跳跃连接融合两个编码器的下采样特征;使用注视热力图的近似系数作空间信息补充;加权损失函数计算损失,使用优化器对网络模型优化。
Description
技术领域
本发明属于医学图像处理技术领域,涉及腹部CT图像的多器官分割技术,尤其涉及一种基于眼动仪的腹部多器官CT图像分割方法。
背景技术
腹部多器官的自动分割具有极其重要的临床意义,在器官量化、手术规划、疾病诊断等方面有着重要的临床应用。由于腹部脏器分布密集,各脏器之间联系紧密,这些多个器官之间表现出不同的特征。例如,即使在同一个人的不同时间,胃的形状也会有很大的变化,这使得精确的像素分割非常具有挑战性。对腹部多个器官的可读结果进行准确和自动的分割,可以为手术导航、视觉增强、放射治疗和生物标志物测量系统提供准确的现实依据。然而,腹部器官的密集和复杂结构需要高度专业的医疗专业知识来手动标注器官,这在时间和精力方面造成了巨大的成本,从而导致基于深度神经网络的腹部多器官分割网络训练困难。
除了像素级注释数据集,深度神经网络还可以从其他类型的监督中受益。例如,边界级注释可以提供更详细的边界信息。可以使用弱监督学习技术,例如使用像素级标签和未标记数据进行训练。视觉感知监督也可以利用视觉感知理论训练深度网络,提高其对图像特征的敏感性。此外,预训练的模型可以用于迁移学习,这允许模型从以前的任务中学习特征并提高其性能。总之,深度神经网络可以从各种类型的监督中受益,这可以提高它们在各种视觉任务中的表现。这些研究表明,结合更细粒度的附加监督可以提高深度神经网络的准确性,并改善网络模型的可解释性。开发一种有效的监督模式似乎是唯一的选择,也是当今迫切需要的。
然而,收集额外注释的实际过程仍然具有挑战性,因为它可能需要临床医生反复提供具体和细化的注释来微调网络模型。有必要尽量减少注释过程对临床工作的影响。在医学图像分析的背景下,据观察,放射科医生在阅读医学图像时倾向于将注意力集中在特定的感兴趣区域或病变上。在临床实践中,经验丰富的放射科医生在读取腹部图像时,通常可以快速定位特定的器官。在这个过程中,医生的眼动信息可以在一定程度上反映器官的位置信息。与人工标注相比,该信息成本低、速度快,可作为有效的监督信息,辅助各个器官的定位和分割。文献研究表明,放射科医生的眼动数据可以应用在疾病诊断上。例如,文献“Follow My Eye: Using Gaze to SuperviseComputer-Aided Diagnosis”.2022,41:1688.(“跟随我的眼睛:使用凝视来监督计算机辅助诊断”,2022年41卷1688页)使用眼动追踪技术辅助诊断膝骨关节炎,文献“Gaze-assistedautomatic captioning of fetalultrasound videos usingthree-way multi-modal deep neural networks. 2022,82:102630.(凝视辅助的胎儿超声视频自动字幕使用三路径多模态深度神经网络,2022年82卷102630页)使用眼动仪在超声扫描时为超声医师提供视觉指导。可见,利用眼动注意信息在自动化辅助诊断中具有很大的价值和潜力。
然而,目前的存在的分割网络仍然是单一的输入,并没有考虑采用多路径输入将眼动注意信息作为辅助分割信息,这限制了将眼动注意信息在临床上的进一步应用。
发明内容
发明目的:本发明的目的旨在提供一种基于眼动仪的腹部多器官CT图像分割方法,
通过充分协同地利用放射科医生对腹部图像的认知信息,网络模型被迫专注于分割任务所需的相关对象或特征。这种信息采集方法方便,能使各器官的定位更加准确。使用集成人类认知信息的双路径编码器,原始图像和眼动注视位置矩阵分别作为两条路径上的输入,在瓶颈层使用交叉注意力Transformer模块,用于在网络语义感知和人类语义感知中传递信息,解码过程中使用多特征跳跃连接,该方法有效地结合了下采样过程中的空间信息,补充了解码过程中的内部细节。并且,使用小波变换算法提取眼动注视热力图中的细节系数与近似系数,使其获得更加符合真实器官的纹理细节,有效提升分割结果。
为实现上述目的,本发明提供一种基于眼动仪的腹部多器官CT图像分割方法,包括如下步骤:
S1:使用眼动仪收集放射科医生在阅读CT图像时的眼动注视位置信息;
S2:将步骤S1中收集到的原始眼动注视信息数据通过高斯滤波过滤噪声,对过滤后的数据归一化操作并保存为眼动位置矩阵,并对眼动位置矩阵进行灰度值转换并伪色彩映射为注视热力图/>保存;
S3:根据步骤S2中的注视热力图,使用小波变换算法提取近似系数和细节系数;
S4:将步骤S2中得到的眼动位置矩阵输入眼动信息编码器,得到高维眼动位置特征,并保留下采样过程中的特征;
S5:将步骤S3中提取到的注视热力图细节系数与原始CT图像/>共同输入图像编码器,得到图像高维特征,使用细节系数补充各个方向上的边缘特征,并保留下采样过程中的特征;
S6:将步骤S4,S5中得到的高维特征输入嵌入了交叉注意力感知模块的瓶颈层,实现网络感知与人类感知信息交互,最终融合得到信息更加丰富的特征;
S7:将步骤S4,S5中得到的下采样特征引入上采样过程中,使用多特征跳跃连接融合特征信息,为图像分割提供多尺度多层次的信息;
S8:将步骤S6中得到的融合后的特征和步骤S3中得到的近似系数输入解码器,通过上采样操作并融合步骤S7中的多特征跳跃连接特征,最终输出精准的器官分割结果;
S9:加权损失函数计算损失,使用优化器对网络模型进行优化。
进一步地,所述步骤S2中的收集到的原始眼动注视信息保存为眼动位置矩阵和注视热力图过程中包含构建位置矩阵,位置点赋值,滤除噪声,映射热力图操作,根据原始图像大小,构建出相同大小的全0位置矩阵,收集到的眼动注视信息为放射科医生眼动所注视屏幕的像素点坐标,根据坐标将对应位置矩阵上的值赋1,使用高斯滤波器滤除多余噪声,并进行归一化操作,将归一化后的位置矩阵转化为灰度图像,对灰度图像进行伪色彩映射得到注视热力图,将位置矩阵输入眼动信息编码器提供人类感知的器官信息,辅助网络定位腹部器官。
进一步地,所述步骤S2中,原始眼动注视信息被收集并保存为眼动位置矩阵和注视热力图,该过程包括以下步骤:构建位置矩阵、位置点赋值、噪声滤除和热力图映射。
根据放射科医生记录的眼动注视屏幕像素点坐标,创建一个与原始图像大小相匹配的全零位置矩阵。将眼动注视点的坐标映射到位置矩阵上,将对应位置的值设为1,以反映眼动注视的位置,保存得到眼动位置矩阵。为了减少噪声的影响,使用高斯滤波器对位置矩阵进行平滑处理。对滤波后的位置矩阵进行归一化操作,以确保数值范围在0到1之间。通过将归一化后的位置矩阵转换为灰度图像,并进行伪色彩映射,生成注视热力图。眼动注视点的热度分布情况可以直观地展示出来。
进一步地,所述步骤S3中的注视热力图先通过低通和高通滤波器进行处理,再将滤波后的图像分别再次通过低通和高通滤波器,得到近似图像、纵向边缘特征、横向边缘特征和对角特征,细节系数包含纵向边缘特征、横向边缘特征、对角特征,将它们按通道拼接起来得到细节系数/>,而近似系数/>则是指近似图像特征。提取到的细节系数和原始图像将一起作为输入,输入到图像编码器中,以提供关于器官位置信息的编码表示。在解码过程中,近似系数起使最终生成的分割结果具有良好的可视化效果。
进一步地,所述步骤S4中的眼动信息编码器包含一个浅层特征提取块以及三个下采样模块,浅层特征提取块使用卷积核大小为,步距为2的卷积层提取注视热力图的浅层特征信息,三个下采样模块分别包含两个卷积核大小/>,步距为1的卷积层,激活函数为ReLu的激活层以及归一化函数为批量归一化的归一化层,眼动位置矩阵输入编码器后首先使用大卷积核的浅层特征提取块提取形状信息,对提取到的浅层特征信息进行最大池化操作,保留下采样得到的特征,然后,特征通过下采样块,经过小卷积核的卷积操作提取特征局部信息,增大感受野,并保留下采样过程中的特征,重复上述操作三次,第三个下采样块的输出眼动信息高维特征/>作为输入进瓶颈层以在高维特征空间与原始图像信息特征进行信息交互使得眼动信息特征与原始图像特征高效融合。
进一步地,所述步骤S5中的图像编码器包含两个输入注视热力图细节系数与原始CT图像、一个浅层特征提取块以及三个下采样模块,与眼动信息编码器结构相似,但每个模块的具体细节不同,图像编码器浅层特征提取块使用卷积核大小为,步距为2的卷积层提取图像的浅层特征信息,三个下采样模块分别包含不同数量的残差连接块,每个残差连接块包含两个卷积核大小/>,步距为1的卷积层,一个卷积核大小/>,步距为1的卷积层,每个残差连接块中的激活函数为ReLu的激活层以及归一化函数为组归一化的归一化层,其中卷积操作采用StdConv,使用浅层特征提取块提取原始CT图形中的形状信息,经过最大池化层,图像特征形状大小变为原来1/2,保留得到的特征,输入第一个下采样模块前,融合通过最大池化层的图像特征和注视热力图细节系数,使用残差连接降低模型复杂度,对融合后的特征进行下采样操作,保留每次下采样过程中的特征,最后,第三个下采样块的输出图像信息高维特征/>作为输入进瓶颈层以在高维特征空间与人类感知特征眼动信息做信息通讯使得眼动信息特征与原始图像特征高效融合。
进一步地,步骤S6中的交叉注意力感知模块包含六个交叉注意力Transformer块和一个特征融合层,每个交叉注意力Transformer块用于人类感知与网络感知间建立通讯,图像信息高维特征和眼动信息高维特征/>共同作为输入交叉注意力Transformer块,经过Embedding层对特征信息位置编码并做交叉注意力操作,对图像和眼动信息的两个编码路径的输出的特征之间的双向关系进行建模,特征经过Embedding层后被映射得到/>、、/>矩阵,/>作为输入信息,具有引导作用,/>作为内容信息,/>,/>通过计算能够得到两个矩阵的匹配程度,/>作为信息本身,表达了输入特征的信息,两个特征之间交换和融合和/>,表达式为:
其中,,/>,/>和/>,/>,/>分别表示两个特征信息映射得到的/>,/>,/>矩阵,/>为/>的维度数,B为一个可学习的位置编码,图像特征的/>,/>被用于眼动信息编码路径,同样眼动信息特征的/>,/>被用于图像编码路径,用于两条路径上的注意力交互,实现感知通讯,使用多头注意力机制捕获特征内各种范围的依赖关系,注意力操作后使用MLP层对特征做全局感知,六个交叉注意力Transformer块充分交互两条路径的特征信息,最后通过/>的卷积层操作实现两个特征的融合作为输出特征,经过交叉注意力信息交互过的两个特征能互相补充特征信息,最终做融合输出确保在解码过程中具有更丰富的语义特征。
进一步地,所述步骤S7中的多特征跳跃连接包含第一卷积层、第二卷积层、第三卷积层、特征融合层以及残差连接,每个卷积层采用卷积核大小为,激活函数使用ReLu,归一化层使用批量归一化层,与卷积层结构相同,特征融合层采用卷积核大小为/>,激活函数使用ReLu,归一化层使用批量归一化,两个编码器下采样过程中的特征图作为输入,第一卷积层用于将图像下采样特征和眼动信息下采样特征分别初步融合,融合特征分别经过第二层卷积层提取局部特征,特征融合层将第二卷积层输出的两个特征融合,使用/>的卷积层对拼接后的特征图调整通道数,在图像下采样特征在最终融合特征间使用残差连接,提高了信息流通,通过多特征跳跃连接补充了图像在下采样过程中的细节损失,使得分割结果在细节纹理上更加平滑。
进一步地,所述步骤S8中的融合多特征跳跃连接和注视热力图近似系数的解码器,解码器包含四个上采样模块,一个分割头模块,和近似系数融合模块,通过四个上采样模块将特征图恢复到原始图像大小,每个上采样模块包含两个卷积层和一次双线性插值,上一层融合得到的复合特征首先经过一次双线性插值,调整特征图大小,经过卷积操作融合多特征跳跃连接的输出特征与解码器输出特征并调整通道,重复上述操作三次,在最后的上采样前融合注视热力图近似系数,近似系数融合块包含两个/>卷积层和一个残差连接,用于将注视热力图的近似系数与最后一层上采样特征融合补充空间形状信息,将融合后的特征做最后上采样操作得到与原图尺寸相同的特征图输出,并将该特征图输入分割头进行调整通道,每个通道代表一个器官的分割结果,解码器通过重复的上采样操作并融合跳跃多特征跳跃连接和注视热力图近似系数,多特征跳跃连接近似系数在解码过程中提供器官的位置信息与图像细节信息,使得生成结果更符合真实器官分布,生成良好的可视化结果。
进一步地,步骤S9中的损失函数为交叉熵损失函数和Dice损失函数的加权,网络分割结果与真实标签之间的交叉熵损失和Dice损失加权结果表达式为:
,
其中,表示网络预测出的分割结果,/>表示图像的真实标签,/>表示各器官的预测分割结果,/>表示图像各器官的真实标签,/>为加权系数,表示两个loss值所占比例,大小分别为0.5,0.5。
有益效果:本发明与现有技术相比,具备如下优点:
1、本发明充分利用低成本注释眼动注视信息和腹部多器官分割任务之间的相关性,提出了一种基于眼动仪的腹部多器官CT图像分割方法;
2、本发明使用小波变换算法中提取注视热力图中的细节系数和近似系数边缘特征,基于此本发明提出分别将细节系数和近似系数融合进模型的编码器和解码器中,使模型更注重还原高频细节;
3、本发明使用交叉注意力Transformer模块对图像特征和眼动信息特征之间的双向关系进行建模,实现网络感知与人类感知的交互通讯,融合多特征,更有效地获取全局特征,从而提升模型性能;
4、本发明使用多特征跳跃连接,相比于传统的单一特征跳跃连接,该设计可以更全面地弥补特征在上采样过程中的图像中的内部细节,从而获得高质量的可视化分割结果。
附图说明
图1为本发明提供的基于眼动仪的腹部多器官CT图像分割网络模型的拓扑结构示意图;
图2为本发明提供的一种交叉注意力Transformer模块的拓扑结构示意图;
图3为本发明提供的一种多特征跳跃连接模块的拓扑结构示意图;
图4为本发明提供的一种基于眼动仪的腹部多器官CT图像分割方法的流程示意图;
图5为本发明腹部多器官CT图像的分割结果对比图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
实施例:利用眼动注意信息在腹部多器官分割任务中具有很大的价值和潜力,然而现有的方法专注于单一的编码输入,没有充分利用注视热力图信息和眼动位置矩阵。因此,本方法使用两个编码器同时编码两个输入,对图像特征和眼动信息特征之间的双向关系进行建模,实现网络感知与人类感知的交互通讯;分割任务中一个比较大的难点是高频细节部分的还原,本方法提取注视热力图的近似系数和细节系数输入网络,使网络更注重还原高频细节;分割任务经常使用Dice损失作为损失函数,导致分割出来的结果丢失了很多边缘细节;本发明进一步使用交叉熵损失和Dice损失的加权损失函数,使用SGD优化器调整模型的参数,使网络分割出来的结果具有符合真实分布的边缘细节。
如图4所示,为本发明的流程示意图,一种基于眼动仪的腹部多器官CT图像分割方法,包括如下步骤:
S1:使用眼动仪收集放射科医生在阅读CT图像时的眼动注视位置信息。
所使用的原数据集为腹部扫描CT图像,利用眼动仪收集放射科医生在阅读图像时的眼睛注视位置原始数据并保存。
S2:将步骤S1中收集到的原始眼动注视信息数据通过高斯滤波过滤噪声,对过滤后的数据归一化操作并保存为眼动位置矩阵,并对眼动位置矩阵进行灰度值转换并伪色彩映射为注视热力图/>保存。
保存为眼动位置矩阵是指根据原始图像大小,构建出相同大小的全0位置矩阵,收集到的眼动注视信息为放射科医生眼动所注视屏幕的像素点坐标,根据坐标将对应位置矩阵上的值赋1,其目的是将原始收集的眼动信息坐标转换成网络能够提取特征的数据形式。眼动信息包含扫视信息和注视信息,扫视信息为医生眼睛移动搜集到的无用信息,可作为噪声处理,使用高斯滤波器滤除多余噪声,并进行归一化操作,将归一化后的位置矩阵保存作为眼动位置矩阵,眼动位置矩阵值大小为0-1,通过对每个像素点做乘255操作可转化为灰度图像,对灰度图像进行伪色彩映射得到注视热力图。
S3:根据步骤S2中的注视热力图,使用小波变换算法提取近似系数和细节系数。
对注视热力图进行提取近似系数和细节系数是将原始注视热力图先后通过两次低通和高通滤波器得到近似图像、纵向边缘特征、横向边缘特征、对角特征。细节系数将纵向边缘特征、横向边缘特征、对角特征拼接起来作为细节系数,近似图像作为近似系数。
S4:将步骤S2中得到的眼动位置矩阵输入眼动信息编码器,得到高维眼动位置特征,并保留下采样过程中的特征。
如图1所示,眼动信息编码器包含一个浅层特征提取块以及三个下采样模块,浅层特征提取块使用卷积核大小为,步距为2的卷积层,激活函数为ReLu的激活层以及归一化函数为批量归一化的归一化层,浅层特征提取块提取注视热力图/>的浅层形状信息,经过最大池化层作为第一次下采样特征/>,三个下采样模块分别包含两个卷积核大小,步距为1的卷积层,激活函数为ReLu的激活层以及归一化函数为批量归一化的归一化层,对提取到的浅层特征信息进行下采样操作,保留前两次下采样过程中的特征,最后,第三个下采样块的输出眼动信息高维特征/>作为输入进瓶颈层。
S5:将步骤S3中提取到的注视热力图细节系数与原始CT图像/>共同输入图像编码器,得到图像高维特征,使用细节系数补充各个方向上的边缘特征,并保留下采样过程中的特征。
如图1所示,图像编码器包含两个输入注视热力图细节系数与原始CT图像/>、一个浅层特征提取块以及三个下采样模块,浅层特征提取块使用卷积核大小为/>,步距为2的卷积层提取图像的浅层形状特征信息,保留浅层特征信息作为第一下采样特征,输入第一个下采样模块前融合原始CT图像的浅层特征信息和注视热力图细节系数,使用残差连接降低模型复杂度。该过程可表示为:
,
其中,为注视热力图细节系数,将浅层特征信息与细节系数拼接后通过卷积层调整通道数,对融合后的特征进行下采样操作,三个下采样模块分别包含不同数量的残差连接块,每个残差连接块包含两个卷积核大小/>,步距为1的卷积层,一个卷积核大小/>,步距为1的卷积层,激活函数为ReLu的激活层以及归一化函数为组归一化的归一化层,其中卷积操作采用StdConv,保留前两次下采样过程中的特征/>,最后,第三个下采样块的输出图像信息高维特征/>作为输入进瓶颈层。
S6:将步骤S4,S5中得到的高维特征输入嵌入了交叉注意力感知模块的瓶颈层,实现网络感知与人类感知信息交互,最终融合得到信息更加丰富的特征。
如图2所示,交叉注意力感知模块包含六个交叉注意力Transformer块和一个特征融合层,该模块中的每个交叉注意力Transformer块包含两条路径,通过交叉注意力操作用于在两条路径间建立通讯,图像信息高维特征和眼动信息高维特征/>作为输入分别输入交叉注意力Transformer块的两条路径,分别经过各自路径的Embedding层对特征信息位置编码然后做交叉注意力操作,对图像和眼动信息的两个路径的特征之间的双向关系进行建模,具体做法为特征经过Embedding层后被映射得到Q、K、V矩阵,Q作为输入信息,具有引导作用,K作为内容信息,Q,K通过计算能够得到两个矩阵的匹配程度,V作为信息本身,表达了输入特征的信息,两个特征之间交换和融合K和V,表达式为:
,
其中,,/>,/>和/>,/>,/>分别表示两个特征信息映射得到的/>,/>,/>矩阵,/>为/>的维度数,B为一个可学习的位置编码,图像特征的/>,/>被用于眼动信息编码路径,同样眼动信息特征的/>,/>被用于图像编码路径,用于两条路径上的注意力交互,实现感知通讯,使用多头注意力机制捕获特征内各种范围的依赖关系,注意力操作后使用MLP层对特征做全局感知,六个交叉注意力Transformer块充分交互两条路径的特征信息,最后通过/>的卷积层操作实现两个特征的融合作为输出特征,经过交叉注意力信息交互过的两个特征能互相补充特征信息,最终做融合输出确保在解码过程中具有更丰富的语义特征。
该过程可表示为:
其中为图像编码器的输出特征,/>为眼动信息编码器的输出特征,CTB为交叉注意力Transformer块,通过六个CTB实现特征间的信息通讯,/>为按维度拼接操作。
S7:将步骤S4,S5中得到的下采样特征引入上采样过程中,使用多特征跳跃连接融合特征信息,为图像分割提供多尺度多层次的信息。
如图3所示多特征跳跃连接包含第一卷积层、第二卷积层、特征融合层以及残差连接,两个编码器下采样过程中的特征图作为输入,第一卷积层为卷积层,用于将图像下采样特征和眼动信息下采样特征分别初步融合,融合特征分别经过第二层卷积层为卷积层提取局部特征,第三卷积层将第二层输出的两个特征融合,使用/>的卷积层对拼接后的特征图调整通道数,在图像下采样特征在最终融合特征间使用残差连接,提高了信息流通。该过程可表示为:
,
其中,/>为在编码时每次下采样保存的下采样特征,/>为按维度拼接操作,/>,/>为通过第二卷积层的中间特征。
S8:将步骤S6中得到的融合后的特征和步骤S3中得到的近似系数输入解码器,通过上采样操作并融合步骤S7中的多特征跳跃连接特征,最终输出精准的器官分割结果。
如图1所示解码器包含四次上采样将特征图恢复到原始图像大小,一个分割头,近似系数融合块,上采样操作包含两个的卷积层和一次双线性插值,第一次上采样通过双线性插值将瓶颈层输出的融合特征形状大小放大2倍,使用卷积层减少通道数,第二、三次上采用卷积操作融合多特征跳跃连接的输出特征与解码器输出特征并调整通道,双线性插值将特征图大小放大2倍,在最后的上采样前融合近似系数,近似系数融合块包含两个/>卷积层和一个残差连接,用于编码注视热力图的近似系数并与最后一层上采样特征融合补充空间形状信息。该过程可表示为:
,
其中为第三次上采样后的特征图,近似系数经过第一个卷积层后与/>拼接再经过第二个卷积层进行特征融合,残差连接降低模型复杂度将输出特征做第四次上采样,最后得到与原图尺寸相同的特征图输出,将该特征图输入分割头进行调整通道,每个通道代表一个器官的分割结果。
S9:加权损失函数计算损失,使用优化器对网络模型进行优化。
损失函数为交叉熵损失函数和Dice损失函数的加权,网络分割结果与真实标签之间的交叉熵损失和Dice损失加权结果表达式为
,
其中,表示网络预测出的分割结果,/>表示图像的真实标签,/>表示各器官的预测分割结果,/>表示图像各器官的真实标签,/>为加权系数,表示两个loss值所占比例,大小分别为0.5,0.5。
为了证明本发明的有效性,本发明还提供了下述对比实验:
具体的,本发明数据集选择30张三维腹部CT扫描,共计3779张轴向增强腹部临床CT图像。其中,18张三维腹部图像(2212张二维图像)用于训练,12张三维腹部图像用于测试。在经过所述步骤S1、S2中的收集眼动数据之后,图像和眼动数据被用于模型的训练和测试。所述步骤S9训练模型参数时采用SGD优化器,初始学习率为0.01,动量为0.9,权重衰减设置为0.0001。
对比实验中将本方法的实验结果与TransUnet和SwinUnet方法对比,对比结果如图5所示。其中:
第一列为原始CT图像;
第二列为原始CT图像的真实分割标签;
第三列为使用SwinUnet算法预测的分割结果;
第四列为使用TransUnet算法预测的分割结果;
第五列为本发明的预测结果。
可以看到相比于其他算法,本发明提出的方法能够更准确地预测出边界,且使用眼动信息之后,预测出的分割图像的边缘更符合真实器官形状,具有高质量的可视化结果。
Claims (9)
1.一种基于眼动仪的腹部多器官CT图像分割方法,其特征在于,所述方法包括以下步骤:
S1:使用眼动仪收集放射科医生在阅读CT图像时的眼动注视位置信息;
S2:将步骤S1中收集到的原始眼动注视信息数据通过高斯滤波过滤噪声,对过滤后的数据归一化操作并保存为眼动位置矩阵,并对眼动位置矩阵进行灰度值转换并伪色彩映射为注视热力图/>保存;
S3:根据步骤S2中的注视热力图,使用小波变换算法提取近似系数和细节系数/>;
S4:将步骤S2中得到的眼动位置矩阵输入眼动信息编码器,得到高维眼动位置特征,并保留下采样过程中的特征;
S5:将步骤S3中提取到的注视热力图细节系数与原始CT图像/>共同输入图像编码器,得到图像高维特征,使用细节系数补充各个方向上的边缘特征,并保留下采样过程中的特征;
S6:将步骤S4,S5中得到的高维特征输入嵌入了交叉注意力感知模块的瓶颈层,实现网络感知与人类感知信息交互,最终融合得到信息更加丰富的特征;
S7:将步骤S4,S5中得到的下采样特征引入上采样过程中,使用多特征跳跃连接融合特征信息,为图像分割提供多尺度多层次的信息;
S8:将步骤S6中得到的融合后的特征和步骤S3中得到的近似系数输入解码器,通过上采样操作并融合步骤S7中的多特征跳跃连接特征,最终输出精准的器官分割结果;
S9:加权损失函数计算损失,使用优化器对网络模型进行优化。
2.根据权利要求1所述基于眼动仪的腹部多器官CT图像分割方法,其特征在于:所述
步骤S2中,原始眼动注视信息被收集并保存为眼动位置矩阵和注视热力图,该过程包括以下步骤:构建位置矩阵、位置点赋值、噪声滤除和热力图映射。
3.根据权利要求2所述基于眼动仪的腹部多器官CT图像分割方法,其特征在于:
所述步骤S3中的注视热力图先通过低通和高通滤波器进行处理,再将滤波后的图像分别再次通过低通和高通滤波器,得到近似图像、纵向边缘特征、横向边缘特征和对角特征,细节系数包含纵向边缘特征、横向边缘特征、对角特征,将它们按通道拼接起来得到细节系数/>,而近似系数/>则是指近似图像特征。
4.根据权利要求3所述基于眼动仪的腹部多器官CT图像分割方法,其特征在于:所述步骤S4中的眼动信息编码器包含一个浅层特征提取块以及三个下采样模块,浅层特征提取块通过大卷积核对全局信息进行浅层提取,对提取到的浅层特征信息进行下采样操作,保留每次下采样过程中的特征,最后,第三个下采样块的输出眼动信息高维特征作为输入进瓶颈层。
5.根据权利要求4所述基于眼动仪的腹部多器官CT图像分割方法,其特征在于:所述步骤S5中的图像编码器包含两个输入注视热力图细节系数与原始CT图像/>、一个浅层特征提取块以及三个下采样模块,浅层特征提取块大卷积核提取图像的浅层形状特征信息,三个下采样模块分别包含不同数量的残差连接块,第一个下采样模块融合原始CT图像的浅层特征信息和注视热力图细节系数,使用残差连接降低模型复杂度,对融合后的特征进行下采样操作,保留每次下采样过程中的特征,最后,第三个下采样块的输出图像信息高维特征/>作为输入进瓶颈层。
6.根据权利要求5所述基于眼动仪的腹部多器官CT图像分割方法,其特征在于:所述步骤S6中的交叉注意力感知模块包含六个交叉注意力Transformer块和一个特征融合层,每个交叉注意力Transformer块用于人类感知与网络感知间建立通讯,图像信息高维特征和眼动信息高维特征/>共同作为输入交叉注意力Transformer块,经过Embedding层对特征信息位置编码并做交叉注意力操作,对图像和眼动信息的两个编码路径的输出的特征之间的双向关系进行建模,特征经过Embedding层后被映射得到/>、/>、/>矩阵,/>作为输入信息,具有引导作用,/>作为内容信息,/>,/>通过计算能够得到两个矩阵的匹配程度,作为信息本身,表达了输入特征的信息,两个特征之间交换和融合/>和/>,表达式为:
,
其中, ,/>, />和/>,/>,/>分别表示两个特征信息映射得到的/>,/>,/>矩阵,/>为/>的维度数,B为一个可学习的位置编码,图像特征的/>,/>被用于眼动信息编码路径,同样眼动信息特征的/>,/>被用于图像编码路径,用于两条路径上的注意力交互,实现感知通讯,使用多头注意力机制捕获特征内各种范围的依赖关系,注意力操作后使用MLP层对特征做全局感知,六个交叉注意力Transformer块充分交互两条路径的特征信息,最后通过卷积层操作实现两个特征的融合作为输出特征。
7.根据权利要求6所述基于眼动仪的腹部多器官CT图像分割方法,其特征在于:所述步骤S7中的多特征跳跃连接包含第一卷积层、第二卷积层、特征融合层以及残差连接,两个编码器下采样过程中的特征图作为输入,第一卷积层用于将图像下采样特征和眼动信息下采样特征分别初步融合,融合特征分别经过第二层卷积层提取局部特征,特征融合将第二层输出的两个特征融合,特征融合层对拼接后的特征图调整通道数,在图像下采样特征在最终融合特征间使用残差连接,提高了信息流通。
8.根据权利要求7所述基于眼动仪的腹部多器官CT图像分割方法,其特征在于:所述步骤S8中的融合多特征跳跃连接和注视热力图近似系数的解码器,解码器包含四个上采样模块,一个分割头模块,和近似系数融合模块,通过四个上采样模块将特征图恢复到原始图像大小,每个上采样模块包含两个卷积层和一次双线性插值,双线性插值将特征图大小放大2倍,使用卷积层调整通道融合多个特征,重复操作三次,在最后的上采样过程中加入近似系数融合块输出,近似系数融合块包含两个卷积层和一个残差连接,用于融合注视热力图的近似系数与最后一层上采样特征补充空间形状信息,最后得到与原图尺寸相同的特征图输出,并将该特征图输入分割头进行调整通道,每个通道代表一个器官的分割结果。
9.根据权利要求8所述基于眼动仪的腹部多器官CT图像分割方法,其特征在于:所述步骤S9中的损失函数为交叉熵损失函数和Dice损失函数的加权,网络分割结果与真实标签之间的交叉熵损失和Dice损失加权结果表达式为:
,
其中,表示网络预测出的分割结果,/>表示图像的真实标签,/>表示各器官的预测分割结果,/>表示图像各器官的真实标签,/>为加权系数,表示两个loss值所占比例,大小分别为0.5,0.5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310694214.2A CN116433697B (zh) | 2023-06-13 | 2023-06-13 | 基于眼动仪的腹部多器官ct图像分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310694214.2A CN116433697B (zh) | 2023-06-13 | 2023-06-13 | 基于眼动仪的腹部多器官ct图像分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116433697A CN116433697A (zh) | 2023-07-14 |
CN116433697B true CN116433697B (zh) | 2023-09-12 |
Family
ID=87081873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310694214.2A Active CN116433697B (zh) | 2023-06-13 | 2023-06-13 | 基于眼动仪的腹部多器官ct图像分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116433697B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116823810B (zh) * | 2023-08-25 | 2023-11-17 | 之江实验室 | 基于联邦学习的腹部多器官动态增强分割方法及系统 |
CN117635621B (zh) * | 2024-01-26 | 2024-04-09 | 东南大学 | 动态视觉驱动的大模型无感交互分割方法 |
CN118154627B (zh) * | 2024-05-09 | 2024-09-03 | 东南大学 | 一种基于眼动注意力驱动的心超图像域适应分割方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102019220335A1 (de) * | 2018-12-31 | 2020-07-02 | Robert Bosch Gesellschaft mit beschränkter Haftung | Semantische segmentierung unter verwendung von fahreraufmerksamkeitsinformationen |
CN113610145A (zh) * | 2021-08-03 | 2021-11-05 | 上海联影智能医疗科技有限公司 | 模型训练方法、图像预测方法、训练系统及存储介质 |
CN113674253A (zh) * | 2021-08-25 | 2021-11-19 | 浙江财经大学 | 基于U-Transformer的直肠癌CT影像自动分割方法 |
CN114596304A (zh) * | 2022-03-22 | 2022-06-07 | 上海联影医疗科技股份有限公司 | 图像检测模型的生成方法、图像检测方法及计算机设备 |
-
2023
- 2023-06-13 CN CN202310694214.2A patent/CN116433697B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102019220335A1 (de) * | 2018-12-31 | 2020-07-02 | Robert Bosch Gesellschaft mit beschränkter Haftung | Semantische segmentierung unter verwendung von fahreraufmerksamkeitsinformationen |
CN113610145A (zh) * | 2021-08-03 | 2021-11-05 | 上海联影智能医疗科技有限公司 | 模型训练方法、图像预测方法、训练系统及存储介质 |
CN113674253A (zh) * | 2021-08-25 | 2021-11-19 | 浙江财经大学 | 基于U-Transformer的直肠癌CT影像自动分割方法 |
CN114596304A (zh) * | 2022-03-22 | 2022-06-07 | 上海联影医疗科技股份有限公司 | 图像检测模型的生成方法、图像检测方法及计算机设备 |
Non-Patent Citations (1)
Title |
---|
基于序列注意力和局部相位引导的骨超声图像分割网络;陈芳 等;自动化学报;第48卷;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116433697A (zh) | 2023-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022257344A1 (zh) | 图像配准融合方法及装置、模型训练方法及电子设备 | |
CN116433697B (zh) | 基于眼动仪的腹部多器官ct图像分割方法 | |
WO2022257345A1 (zh) | 医学图像融合方法及系统、模型训练方法及存储介质 | |
JP7143008B2 (ja) | 深層学習に基づく医用画像検出方法及び装置、電子機器及びコンピュータプログラム | |
CN116309650B (zh) | 基于双分支嵌入注意力机制的医学图像分割方法与系统 | |
WO2024104035A1 (zh) | 基于长短期记忆自注意力模型的三维医学图像分割方法及系统 | |
CN112258514B (zh) | 一种ct影像肺血管的分割方法 | |
CN114494296A (zh) | 一种基于Unet和Transformer相融合的脑部胶质瘤分割方法与系统 | |
CN116309648A (zh) | 一种基于多注意力融合的医学图像分割模型构建方法 | |
CN112330724A (zh) | 一种基于集成注意力增强的无监督多模态图像配准方法 | |
CN113808075A (zh) | 一种基于深度学习的两阶段舌象识别方法 | |
CN114037714A (zh) | 一种面向前列腺系统穿刺的3d mr与trus图像分割方法 | |
CN117078930A (zh) | 基于边界感知和注意力机制的医学图像分割方法 | |
CN116912503B (zh) | 一种基于层级融合策略的多模态mri脑肿瘤语义分割方法 | |
CN115880312A (zh) | 一种三维图像自动分割方法、系统、设备和介质 | |
CN116823850A (zh) | 基于U-Net和Transformer融合改进的心脏MRI分割方法及系统 | |
CN112767374A (zh) | 基于mri的阿尔茨海默症病灶区域语义分割算法 | |
CN116452618A (zh) | 一种三输入脊柱ct图像分割方法 | |
CN117274599A (zh) | 一种基于组合双任务自编码器的脑磁共振分割方法及系统 | |
CN114581459A (zh) | 一种基于改进性3D U-Net模型的学前儿童肺部影像感兴趣区域分割方法 | |
CN117351030A (zh) | 一种基于Swin Transformer与CNN并行网络的医学图像分割方法 | |
CN116385720A (zh) | 一种乳腺癌病灶超声波图像分割算法 | |
CN112967295A (zh) | 一种基于残差网络和注意力机制的图像处理方法及系统 | |
CN111598904B (zh) | 图像分割方法、装置、设备及存储介质 | |
CN114782454A (zh) | 用于盆腔肿瘤影像术前导航的图像识别系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |