CN117593292B - 一种基于三维正交注意力的ct图像目标检测方法 - Google Patents
一种基于三维正交注意力的ct图像目标检测方法 Download PDFInfo
- Publication number
- CN117593292B CN117593292B CN202410069472.6A CN202410069472A CN117593292B CN 117593292 B CN117593292 B CN 117593292B CN 202410069472 A CN202410069472 A CN 202410069472A CN 117593292 B CN117593292 B CN 117593292B
- Authority
- CN
- China
- Prior art keywords
- image
- attention
- inputting
- dimensional orthogonal
- image target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000000605 extraction Methods 0.000 claims abstract description 26
- 230000011218 segmentation Effects 0.000 claims abstract description 23
- 238000012360 testing method Methods 0.000 claims abstract description 22
- 238000012795 verification Methods 0.000 claims abstract description 19
- 238000003709 image segmentation Methods 0.000 claims abstract description 11
- 230000009467 reduction Effects 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims description 52
- 230000008569 process Effects 0.000 claims description 30
- 238000010586 diagram Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 6
- 229910052739 hydrogen Inorganic materials 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000007634 remodeling Methods 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 abstract description 2
- 238000002591 computed tomography Methods 0.000 description 154
- 230000006870 function Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10072—Tomographic images
- G06T2207/10081—Computed x-ray tomography [CT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biodiversity & Conservation Biology (AREA)
- Medical Informatics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于三维正交注意力的CT图像目标检测方法,包括如下步骤:构建CT图像数据集,并对CT图像数据集进行数据预处理;将预处理后的CT图像数据集划分为训练集、验证集和测试集,并对训练集和验证集任务形式化;构建CT图像目标检测模型;CT图像目标检测模型由特征提取主干网络、CT图像检测模块、假阳性减少模块和CT图像分割模块组成;使用训练集和验证集对CT图像目标检测模型进行训练,得到训练后的CT图像目标检测模型,将测试集输入训练后的CT图像目标检测模型中,输出CT分割图像;本发明通过不同任务共享特征提取主干网络能够极大的解决训练多个三维卷积神经网络耗费时间和资源的问题。
Description
技术领域
本发明涉及神经网络图像处理技术领域,具体为一种基于三维正交注意力的CT图像目标检测方法。
背景技术
随着计算机视觉和医学影像处理的发展,CT(Computed Tomography)图像在医学领域中被广泛使用。在CT图像中,准确地定位和识别感兴趣的目标对于疾病的早期检测和治疗至关重要。目前,传统的CT图像目标检测与分割方法主要依赖于手工设计的特征提取器和分类器,这些方法在处理复杂场景和多样化的目标上存在一定的局限性,同时,CT图像数据的三维特点(空间、深度和通道维度)也需要更好地被利用;近年来,注意力机制在计算机视觉领域取得了显著的进展,它可以帮助模型自动关注重要的特征,从而提高任务的准确性;然而,传统的二维注意力机制无法充分利用CT图像数据的三维特点;因此,引入三维正交注意力机制成为一种有潜力和创新的解决方案。
发明内容
针对现有技术的不足,本发明提供了一种基于三维正交注意力的CT图像目标检测方法,其目的在于解决背景技术中所提到的问题。
为实现上述目的,本发明提供如下技术方案:一种基于三维正交注意力的CT图像目标检测方法,包括如下步骤:
步骤S1:构建CT图像数据集,并对CT图像数据集进行数据预处理,得到预处理后的CT图像数据集;
步骤S2:将预处理后的CT图像数据集划分为训练集、验证集和测试集,并对训练集和验证集任务形式化,得到任务形式化后的训练集和验证集;
步骤S3:构建CT图像目标检测模型;CT图像目标检测模型由特征提取主干网络、CT图像检测模块、假阳性减少模块和CT图像分割模块组成;
特征提取主干网络依次由第一个编码块、第二个编码块、第一个三维正交注意力编码块、第二个三维正交注意力编码块、第三个编码块、第一个解码块和第二个解码块组成;其中,第一个编码块、第二个编码块、第三个编码块、第一个解码块和第二个解码块均由残差网络组成,第一个三维正交注意力编码块和第二个三维正交注意力编码块均由三个三维正交注意力模块组成;三维正交注意力模块均由三个1×1×1卷积层组成;
CT图像检测模块由两个3D卷积块组成,3D卷积块由一个3×3×3的三维卷积层和一个1×1×1卷积层组成;
假阳性减少模块由3D卷积块、重塑操作和全连接层组成;
CT图像分割模块由三个3×3×3卷积层和一个sigmoid激活函数组成;
步骤S4:使用任务形式化后的训练集和验证集对CT图像目标检测模型进行训练,得到训练后的CT图像目标检测模型,将测试集输入训练后的CT图像目标检测模型中,输出CT分割图像。
进一步的,构建CT图像数据集的具体过程为:采用多张CT图像构建CT图像数据集;
对CT图像数据集进行数据预处理的具体过程为:将CT图像数据集中的CT图像转换为亨氏单位,将转换后的CT图像裁剪至预设范围,将裁剪后的CT图像的范围线性转换为[-1,1]之间。
进一步的,步骤S4中将测试集输入训练后的CT图像目标检测模型中,输出的具体过程为:将测试集中的CT图像输入特征提取主干网络中得到低感受野特征图和主干网络提取特征图,将主干网络提取特征图输入CT图像检测模块得到多个预测的CT图像目标预测概率和CT图像目标预测边界框,其中,预测的CT图像目标预测概率为0至1之间的概率值越大,代表是真实CT图像目标的概率越大,CT图像目标预测边界框为CT图像目标的三维位置信息,包含CT图像目标的中心坐标X轴,Y轴,Z轴和CT图像目标的深度,高度,宽度六个参数,利用CT图像目标的三维位置信息提取低感受野特征图中所有CT图像目标的感兴趣区域组成3D感兴趣区域池,将3D感兴趣区域池输入假阳性减少模块得到预测的CT图像目标的二元分类概率,将主干网络提取特征图、低感受野特征图和测试集中的CT图像输入CT图像分割模块得到CT分割图像。
进一步的,得到低感受野特征图和主干网络提取特征图的具体过程为:将测试集中的CT图像输入第一个编码块得到CT图像的特征,将得到的CT图像的特征输入第二个编码块得到低感受野特征图,将低感受野特征图输入第一个三维正交注意力编码块得到第一个特征图,将第一个特征图输入第二个三维正交注意力编码块得到第二个特征图,将第二个特征图输入第三个编码块得到第三个特征图,将第三个特征图输入第一个解码块得到第四个特征图,将第四个特征图和第一个特征图进行拼接并输入第二个解码块中得到第五个特征图,将第五个特征图和低感受野特征图进行拼接得到主干网络提取特征图。
进一步的,得到多个预测的CT图像目标预测概率和CT图像目标预测边界框的具体过程为:将主干网络提取特征图输入至两个3D卷积块中分别输出多个预测的CT图像目标预测概率和CT图像目标预测边界框。
进一步的,得到预测的CT图像目标的二元分类概率的具体过程为:将3D感兴趣区域池输入3D卷积块得到3维的感兴趣区域图像特征,将3维的感兴趣区域图像特征输入重塑模块得到1维的感兴趣区域图像特征,将1维的感兴趣区域图像特征输入全连接层得到预测的CT图像目标的二元分类概率。
进一步的,得到CT分割图像的具体过程为:根据CT图像目标预测边界框从主干网络提取特征图中提取出CT图像目标的第一区域数据,将CT图像目标的第一区域数据输入第一个3×3×3卷积层得到CT图像目标的第一区域数据的第一分割特征,根据CT图像目标预测边界框从低感受野特征图中提取出CT图像目标的第二区域数据,将CT图像目标的第二区域数据和CT图像目标的第一区域数据的第一分割特征拼接后输入第二个3×3×3卷积层得到第二分割特征,根据CT图像目标预测边界框从测试集中的CT图像中提取出CT图像目标的第三区域数据,将CT图像目标的第三区域数据和第二分割特征进行拼接后输入第三个3×3×3卷积层后再经过sigmoid激活函数操作后得到CT分割图像。
进一步的,设为输入三维正交注意力编码块的特征图,其中C、D、H、
W分别表示输入的特征图的数目,深度,高度和宽度;三维正交注意力编码块的定义为:
(1);
式中, 为三维正交注意力编码块的输出特征;为特征分组操
作;分别为输入的特征图在X轴、Y轴、Z轴三个方向上的特征分组操作;G为三维正交注意力模块。
进一步的,所述特征分组操作采用两种方式:
短距离切片操作:将输入的特征图分为N组,相邻的张特征图的切片特征分为一
组;
长距离切片操作:将间隔N张特征图的切片特征分为一组。
进一步的,三维正交注意力模块的定义如下:
(2);
(3);
式中, 为可学习的权重矩阵;为点乘操作;、、表示为三
个1×1×1卷积层;为批量归一化操作;
采用长距离切片操作和短距离切片操作分别在输入的特征图的X轴、Y轴、Z轴三个方向上进行特征分组,得到输入的特征图的X轴、Y轴、Z轴三个方向上输出的切片特征:
(4);
(5);
(6);
式中,、、分别为沿着输入的特征图的X
轴、Y轴、Z轴三个方向进行切片特征分组操作后经过三维正交注意力模块得到的输出;、和分别为沿着X轴、Y轴、Z轴三个方向进行切片特征分组操作;将、和求和后取平均值作为三维正交注意力模块的输出。
与现有的技术相比,本发明具备以下有益效果:本发明通过不同任务共享特征提取主干网络能够极大的解决训练多个三维卷积神经网络耗费时间和资源的问题,通过不同任务共享特征提取主干网络的同时分离出CT图像检测模块、假阳性减少模块和CT图像分割模块三个不同的模块能够克服由于定位和分类的目标不匹配导致CT图像目标检测模型权重为次优的结果,同时能够让彼此任务之间相互通信和学习,达到不同任务促进彼此的学习的目的。三维正交注意力编码块的引入能够捕捉目标的临近特征和远距离特征的空间信息,可以克服不同CT图像由于不同的设备型号和参数配置产生的领域差异提高模型在不同领域CT图像中泛化能力。
附图说明
图1为本发明的CT图像目标检测模型结构示意图。
图2为本发明的三维正交注意力编码块结构及操作流程图。
具体实施方式
本发明提供技术方案:一种基于三维正交注意力的CT图像目标检测方法,包括如下步骤:
步骤S1:构建CT图像数据集,并对CT图像数据集进行数据预处理,得到预处理后的CT图像数据集;
构建CT图像数据集的具体过程为:采用多张CT图像构建CT图像数据集。
数据预处理:将CT图像数据集中纳入的CT图像转换为亨氏单位(HU),将转换后的CT图像裁剪为[-1200,600]范围,将裁剪后的CT图像的范围线性转换为[-1,1]之间。
步骤S2:将预处理后的CT图像数据集划分为训练集、验证集和测试集,并对训练集和验证集任务形式化,得到任务形式化后的训练集和验证集;
任务形式化的具体过程为:以训练集和验证集内CT图像中的CT图像目标为中心,切分出中心附近的128*128*128的三维图像区域,并从128*128*128的三维图像区域内得到1*128*128*128的CT图像目标三维数据;
步骤S3:构建CT图像目标检测模型;
如图1所示,CT图像目标检测模型由特征提取主干网络、CT图像检测模块、假阳性减少模块和CT图像分割模块组成。
步骤S4:使用任务形式化后的训练集和验证集对CT图像目标检测模型进行训练,得到训练后的CT图像目标检测模型,将测试集输入训练后的CT图像目标检测模型中,输出CT分割图像;
使用训练集和验证集对CT图像目标检测模型进行训练的具体过程为:通过随机采样的方式使用训练集和验证集内CT图像中的1*128*128*128的CT图像目标三维数据对CT图像目标检测模型进行训练,批量大小设置为8,CT图像目标检测模型的优化器选择带动量的随机梯度下降(SGD with momentum),动量值设置为0.9,总训练轮数为200轮,学习率设置为前120轮为0.01,121至160轮为0.001, 161至200轮为0.0001;
输出CT分割图像的具体过程为:将测试集中的CT图像输入特征提取主干网络中得到低感受野特征图和主干网络提取特征图,将主干网络提取特征图输入CT图像检测模块得到多个预测的CT图像目标预测概率和CT图像目标预测边界框(预测的CT图像目标预测概率为0至1之间的概率值越大,代表是真实CT图像目标的概率越大,CT图像目标预测边界框为CT图像目标的三维位置信息,CT图像目标的三维位置信息包含CT图像目标的中心坐标(X轴、Y轴、Z轴)和CT图像目标的深度,高度,宽度(D,H,W)六个参数),利用CT图像目标的三维位置信息提取低感受野特征图中所有CT图像目标的感兴趣区域组成3D感兴趣区域池,将3D感兴趣区域池输入假阳性减少模块得到预测的CT图像目标的二元分类概率,将主干网络提取特征图、低感受野特征图和测试集中的CT图像输入CT图像分割模块得到CT分割图像。
特征提取主干网络依次由第一个编码块、第二个编码块、第一个三维正交注意力编码块、第二个三维正交注意力编码块、第三个编码块、第一个解码块和第二个解码块组成;其中第一个编码块、第二个编码块、第三个编码块、第一个解码块和第二个解码块均由残差网络组成;得到低感受野特征图和主干网络提取特征图的具体过程为:将测试集中的CT图像输入第一个编码块得到CT图像的特征,将得到的CT图像的特征输入第二个编码块得到低感受野特征图,将低感受野特征图输入第一个三维正交注意力编码块得到第一个特征图,将第一个特征图输入第二个三维正交注意力编码块得到第二个特征图,将第二个特征图输入第三个编码块得到第三个特征图,将第三个特征图输入第一个解码块得到第四个特征图,将第四个特征图和第一个特征图进行拼接并输入第二个解码块中得到第五个特征图,将第五个特征图和低感受野特征图进行拼接得到主干网络提取特征图。
CT图像检测模块由两个3D卷积块组成,3D卷积块由一个3×3×3的三维卷积层和一个1×1×1卷积层组成;得到多个预测的CT图像目标预测概率和CT图像目标预测边界框的具体过程为:将主干网络提取特征图输入至两个3D卷积块中分别输出多个预测的CT图像目标预测概率和CT图像目标预测边界框。
假阳性减少模块由3D卷积块、重塑模块和全连接层组成;得到预测的CT图像目标的二元分类概率的具体过程为:将3D感兴趣区域池输入3D卷积块得到3维的感兴趣区域图像特征,将3维的感兴趣区域图像特征输入重塑模块得到1维的感兴趣区域图像特征,将1维的感兴趣区域图像特征输入全连接层得到预测的CT图像目标的二元分类概率(预测的CT图像目标的二元分类概率的取值范围为0至1,预测的CT图像目标的二元分类概率越接近1代表为真实CT图像目标的概率越大)。
CT图像分割模块由三个3×3×3卷积层和一个sigmoid激活函数组成,得到CT分割图像的具体过程为:根据CT图像目标预测边界框从主干网络提取特征图中提取出CT图像目标的第一区域数据,将CT图像目标的第一区域数据输入第一个3×3×3卷积层得到CT图像目标的第一区域数据的第一分割特征,根据CT图像目标预测边界框从低感受野特征图中提取出CT图像目标的第二区域数据,将CT图像目标的第二区域数据和CT图像目标的第一区域数据的第一分割特征拼接后输入第二个3×3×3卷积层得到第二分割特征,根据CT图像目标预测边界框从测试集中的CT图像中提取出CT图像目标的第三区域数据,将CT图像目标的第三区域数据和第二分割特征进行拼接后输入第三个3×3×3卷积层后再经过sigmoid激活函数操作后得到CT分割图像。
第一个三维正交注意力编码块和第二个三维正交注意力编码块均由三个三维正
交注意力模块组成;三维正交注意力模块均由三个1×1×1卷积层组成,正交注意模块中的
操作为:将特征图输入三维正交注意力模块内的三个1×1×1卷积层中,三个1×1×1卷积
层均得到一个特征图的切片特征,将其中两个1×1×1卷积层得到的切片特征进行点乘操
作之后再与另一个1×1×1卷积层得到的切片特征进行点乘操作,将得到的结果进行归一
化操作后得到正交注意力特征,将正交注意力特征转化为三维正交注意力模块的特征输
出;设为输入三维正交注意力编码块的特征图,其中C、D、H、W分别表示输
入的特征图的数目,深度,高度和宽度;三维正交注意力编码块的定义为:
(1);
式中, 为三维正交注意力编码块的输出特征;为特征分组操
作; 分别为输入的特征图在X轴、Y轴、Z轴方向上的特征分组操作;G为三维正交注意力模块;
三维正交注意力模块定义如下:
(2);
(3);
式中, 为可学习的权重矩阵;为点乘操作;、、表示为三
个1×1×1卷积层;为批量归一化操作;
特征图输入三维正交注意力编码块后分别在输入的特征图的X轴、Y轴、Z轴三个方向上进行特征分组操作,其中,特征分组操作采用两种方式:
短距离切片操作(Short-distance slice grouping, SSG):将输入的特征图分为
N组,相邻的张特征图的切片特征会被分为一组;
长距离切片操作(Long-distance slice grouping, LSG):将间隔N张特征图的切片特征都分为一组;
通过短距离切片操作(Short-distance slice grouping ,SSG)可以捕获输入的特征图中任何位置与相邻位置间的关系,通过长距离切片操作(Long-distance slicegrouping,LSG) 可以捕获输入的特征图中任何位置与远距离切片间的关系;引入三维正交注意力编码块(3D Orthogonal Attention)的操作,能够捕获X轴,Y轴,Z轴三个方向的像素间的关系;类似这样的三维操作已经被证明在提升模型的泛化能力上十分有效,能够很好的分辨出像素之间的变化,对区分出CT图像目标区域很有意义,其具体操作如图2所示,采用长距离切片操作和短距离切片操作分别在输入的特征图的X轴、Y轴、Z轴三个方向上进行特征分组,捕获输入的特征图切片特征不同像素间的关系。
特征提取主干网络中的三维正交注意力编码块可以使用长距离切片操作和短距离切片操作这两种特征分组方式,在实际使用中最终采取第一个三维正交注意力编码块使用短距离切片操作,第二个三维正交注意力编码块使用长距离切片操作;综上,三维正交注意力编码块操作的结果在长距离切片操作和短距离切片操作后分别得到输入的特征图的X轴、Y轴、Z轴三个方向上输出的切片特征:
(4);
(5);
(6);
式中,、、分别为沿着输入的特征图的X
轴、Y轴、Z轴三个方向进行切片特征分组操作后经过三维正交注意力模块得到的输出;、和分别为沿着X轴、Y轴、Z轴三个方向进行切片特征分组操作;将、和求和后取平均值作为三维正交注意力模块的输出,求取平均值的公式如下:
(7)。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (8)
1.一种基于三维正交注意力的CT图像目标检测方法,其特征在于,包括如下步骤:
步骤S1:采用多张CT图像构建CT图像数据集,并对CT图像数据集进行数据预处理,得到预处理后的CT图像数据集;
步骤S2:将预处理后的CT图像数据集划分为训练集、验证集和测试集,并对训练集和验证集任务形式化,得到任务形式化后的训练集和验证集;
任务形式化的具体过程为:以训练集和验证集内CT图像中的CT图像目标为中心,切分出中心附近的128*128*128的三维图像区域,并从128*128*128的三维图像区域内得到1*128*128*128的CT图像目标三维数据;
步骤S3:构建CT图像目标检测模型;CT图像目标检测模型由特征提取主干网络、CT图像检测模块、假阳性减少模块和CT图像分割模块组成;
特征提取主干网络依次由第一个编码块、第二个编码块、第一个三维正交注意力编码块、第二个三维正交注意力编码块、第三个编码块、第一个解码块和第二个解码块组成;其中,第一个编码块、第二个编码块、第三个编码块、第一个解码块和第二个解码块均由残差网络组成,第一个三维正交注意力编码块和第二个三维正交注意力编码块均由三个三维正交注意力模块组成;三维正交注意力模块均由三个1×1×1卷积层组成;
CT图像检测模块由两个3D卷积块组成,3D卷积块由一个3×3×3的三维卷积层和一个1×1×1卷积层组成;
假阳性减少模块由3D卷积块、重塑操作和全连接层组成;
CT图像分割模块由三个3×3×3卷积层和一个sigmoid激活函数组成;
步骤S4:使用任务形式化后的训练集和验证集对CT图像目标检测模型进行训练,得到训练后的CT图像目标检测模型,将测试集输入训练后的CT图像目标检测模型中,输出CT分割图像;
将测试集输入训练后的CT图像目标检测模型,输出的具体过程为:将测试集中的CT图像输入特征提取主干网络中得到低感受野特征图和主干网络提取特征图,将主干网络提取特征图输入CT图像检测模块得到多个预测的CT图像目标预测概率和CT图像目标预测边界框,CT图像目标预测边界框为CT图像目标的三维位置信息,利用CT图像目标的三维位置信息提取低感受野特征图中所有CT图像目标的感兴趣区域组成3D感兴趣区域池,将3D感兴趣区域池输入假阳性减少模块得到预测的CT图像目标的二元分类概率,将主干网络提取特征图、低感受野特征图和测试集中的CT图像输入CT图像分割模块得到CT分割图像;
预测的CT图像目标的二元分类概率的取值范围为0至1,预测的CT图像目标的二元分类概率越接近1代表为真实CT图像目标的概率越大。
2.根据权利要求1所述的一种基于三维正交注意力的CT图像目标检测方法,其特征在于:得到低感受野特征图和主干网络提取特征图的具体过程为:将测试集中的CT图像输入第一个编码块得到CT图像的特征,将得到的CT图像的特征输入第二个编码块得到低感受野特征图,将低感受野特征图输入第一个三维正交注意力编码块得到第一个特征图,将第一个特征图输入第二个三维正交注意力编码块得到第二个特征图,将第二个特征图输入第三个编码块得到第三个特征图,将第三个特征图输入第一个解码块得到第四个特征图,将第四个特征图和第一个特征图进行拼接并输入第二个解码块中得到第五个特征图,将第五个特征图和低感受野特征图进行拼接得到主干网络提取特征图。
3.根据权利要求2所述的一种基于三维正交注意力的CT图像目标检测方法,其特征在于:得到多个预测的CT图像目标预测概率和CT图像目标预测边界框的具体过程为:将主干网络提取特征图输入至两个3D卷积块中分别输出多个预测的CT图像目标预测概率和CT图像目标预测边界框。
4.根据权利要求3所述的一种基于三维正交注意力的CT图像目标检测方法,其特征在于:得到预测的CT图像目标的二元分类概率的具体过程为:将3D感兴趣区域池输入3D卷积块得到3维的感兴趣区域图像特征,将3维的感兴趣区域图像特征输入重塑模块得到1维的感兴趣区域图像特征,将1维的感兴趣区域图像特征输入全连接层得到预测的CT图像目标的二元分类概率。
5.根据权利要求4所述的一种基于三维正交注意力的CT图像目标检测方法,其特征在于:得到CT分割图像的具体过程为:根据CT图像目标预测边界框从主干网络提取特征图中提取出CT图像目标的第一区域数据,将CT图像目标的第一区域数据输入第一个3×3×3卷积层得到CT图像目标的第一区域数据的第一分割特征,根据CT图像目标预测边界框从低感受野特征图中提取出CT图像目标的第二区域数据,将CT图像目标的第二区域数据和CT图像目标的第一区域数据的第一分割特征拼接后输入第二个3×3×3卷积层得到第二分割特征,根据CT图像目标预测边界框从测试集中的CT图像中提取出CT图像目标的第三区域数据,将CT图像目标的第三区域数据和第二分割特征进行拼接后输入第三个3×3×3卷积层后再经过sigmoid激活函数操作后得到CT分割图像。
6.根据权利要求5所述的一种基于三维正交注意力的CT图像目标检测方法,其特征在于:设为输入三维正交注意力编码块的特征图,其中C、D、H、W分别表示输入的特征图的数目,深度,高度和宽度;三维正交注意力编码块的定义为:
(1);
式中, 为三维正交注意力编码块的输出特征;/>为特征分组操作;分别为输入的特征图在X轴、Y轴、Z轴三个方向上的特征分组操作;G/>为三维正交注意力模块。
7.根据权利要求6所述的一种基于三维正交注意力的CT图像目标检测方法,其特征在于:所述特征分组操作采用两种方式:
短距离切片操作:将输入的特征图分为N组,相邻的张特征图的切片特征分为一组;
长距离切片操作:将间隔N张特征图的切片特征分为一组。
8.根据权利要求7所述的一种基于三维正交注意力的CT图像目标检测方法,其特征在于:三维正交注意力模块的定义如下:
(2);
(3);
式中, 为可学习的权重矩阵;/>为点乘操作;/>、/>、/>表示为三个1×1×1卷积层;/>为批量归一化操作;
采用长距离切片操作和短距离切片操作分别在输入的特征图的X轴、Y轴、Z轴三个方向上进行特征分组,得到输入的特征图的X轴、Y轴、Z轴三个方向上输出的切片特征:
(4);
(5);
(6);
式中,、/>、/>分别为沿着输入的特征图的X轴、Y轴、Z轴三个方向进行切片特征分组操作后经过三维正交注意力模块得到的输出;/>、和/>分别为沿着X轴、Y轴、Z轴三个方向进行切片特征分组操作;将/>、/>和/>求和后取平均值作为三维正交注意力模块的输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410069472.6A CN117593292B (zh) | 2024-01-18 | 2024-01-18 | 一种基于三维正交注意力的ct图像目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410069472.6A CN117593292B (zh) | 2024-01-18 | 2024-01-18 | 一种基于三维正交注意力的ct图像目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117593292A CN117593292A (zh) | 2024-02-23 |
CN117593292B true CN117593292B (zh) | 2024-04-05 |
Family
ID=89922247
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410069472.6A Active CN117593292B (zh) | 2024-01-18 | 2024-01-18 | 一种基于三维正交注意力的ct图像目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117593292B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111754472A (zh) * | 2020-06-15 | 2020-10-09 | 南京冠纬健康科技有限公司 | 一种肺结节检测方法与检测系统 |
CN112116605A (zh) * | 2020-09-29 | 2020-12-22 | 西北工业大学深圳研究院 | 一种基于集成深度卷积神经网络的胰腺ct图像分割方法 |
CN116883933A (zh) * | 2023-06-20 | 2023-10-13 | 华南师范大学 | 一种基于多尺度注意力与数据增强的安检违禁品检测方法 |
CN117011515A (zh) * | 2023-08-04 | 2023-11-07 | 江西师范大学 | 基于注意力机制的交互式图像分割模型及其分割方法 |
WO2023221954A1 (zh) * | 2022-05-19 | 2023-11-23 | 浙江大学 | 基于强化学习和注意力的胰腺肿瘤图像分割方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230368423A1 (en) * | 2022-05-13 | 2023-11-16 | Northwestern University | Precise slice-level localization of intracranial hemorrhage on head cts with networks trained on scan-level labels |
-
2024
- 2024-01-18 CN CN202410069472.6A patent/CN117593292B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111754472A (zh) * | 2020-06-15 | 2020-10-09 | 南京冠纬健康科技有限公司 | 一种肺结节检测方法与检测系统 |
CN112116605A (zh) * | 2020-09-29 | 2020-12-22 | 西北工业大学深圳研究院 | 一种基于集成深度卷积神经网络的胰腺ct图像分割方法 |
WO2023221954A1 (zh) * | 2022-05-19 | 2023-11-23 | 浙江大学 | 基于强化学习和注意力的胰腺肿瘤图像分割方法及系统 |
CN116883933A (zh) * | 2023-06-20 | 2023-10-13 | 华南师范大学 | 一种基于多尺度注意力与数据增强的安检违禁品检测方法 |
CN117011515A (zh) * | 2023-08-04 | 2023-11-07 | 江西师范大学 | 基于注意力机制的交互式图像分割模型及其分割方法 |
Non-Patent Citations (3)
Title |
---|
Voxels Intersecting Along Orthogonal Levels Attention U-Net for Intracerebral Haemorrhage Segmentation in Head CT;Qinghui Liu等;2023 IEEE 20th International Symposium on Biomedical Imaging (ISBI);20230901;全文 * |
二维和三维卷积神经网络相结合的CT图像肺结节检测方法;苗光;李朝锋;;激光与光电子学进展;20171201(第05期);全文 * |
肝包虫病和肝囊肿CT图像的分型研究;排孜丽耶・尤山塔依;严传波;木拉提・哈米提;姚娟;阿布都艾尼・库吐鲁克;;医学信息;20181201(第23期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117593292A (zh) | 2024-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108961235B (zh) | 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法 | |
CN112488210A (zh) | 一种基于图卷积神经网络的三维点云自动分类方法 | |
CN111899172A (zh) | 一种面向遥感应用场景的车辆目标检测方法 | |
CN110619352A (zh) | 基于深度卷积神经网络的典型红外目标分类方法 | |
CN111597920B (zh) | 一种自然场景下的全卷积单阶段的人体实例分割方法 | |
CN113192633B (zh) | 基于注意力机制的胃癌细粒度分类方法 | |
CN110852182A (zh) | 一种基于三维空间时序建模的深度视频人体行为识别方法 | |
CN110287798B (zh) | 基于特征模块化和上下文融合的矢量网络行人检测方法 | |
CN109635726B (zh) | 一种基于对称式深度网络结合多尺度池化的滑坡识别方法 | |
CN110991444A (zh) | 面向复杂场景的车牌识别方法及装置 | |
CN111027377A (zh) | 一种双流神经网络时序动作定位方法 | |
CN113192124A (zh) | 一种基于孪生网络的图像目标定位方法 | |
CN113139489A (zh) | 基于背景提取和多尺度融合网络的人群计数方法及系统 | |
Zhang et al. | Adaptive dense pyramid network for object detection in UAV imagery | |
CN115147380A (zh) | 一种基于YOLOv5的小型透明塑料制品缺陷检测方法 | |
CN116580322A (zh) | 一种地面背景下无人机红外小目标检测方法 | |
CN116206112A (zh) | 基于多尺度特征融合和sam的遥感图像语义分割方法 | |
CN111339967A (zh) | 一种基于多视域图卷积网络的行人检测方法 | |
CN114821316A (zh) | 一种三维探地雷达裂缝病害识别方法及系统 | |
CN117333948A (zh) | 一种融合时空注意力机制的端到端多目标肉鸡行为识别方法 | |
CN117593292B (zh) | 一种基于三维正交注意力的ct图像目标检测方法 | |
CN117218545A (zh) | 基于LBP特征与改进Yolov5的雷达图像检测方法 | |
CN116386042A (zh) | 一种基于三维池化空间注意力机制的点云语义分割模型 | |
CN115439926A (zh) | 一种基于关键区域和场景深度的小样本异常行为识别方法 | |
CN116912670A (zh) | 基于改进yolo模型的深海鱼类识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |