CN115100480A - 基于向量量化变分自编码器的医学影像分类模型及方法 - Google Patents
基于向量量化变分自编码器的医学影像分类模型及方法 Download PDFInfo
- Publication number
- CN115100480A CN115100480A CN202210901020.0A CN202210901020A CN115100480A CN 115100480 A CN115100480 A CN 115100480A CN 202210901020 A CN202210901020 A CN 202210901020A CN 115100480 A CN115100480 A CN 115100480A
- Authority
- CN
- China
- Prior art keywords
- vector
- module
- encoder
- image
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 title claims abstract description 95
- 238000013139 quantization Methods 0.000 title claims abstract description 16
- 238000013145 classification model Methods 0.000 title claims abstract description 14
- 238000000034 method Methods 0.000 title claims abstract description 10
- 230000007246 mechanism Effects 0.000 claims abstract description 11
- 230000002708 enhancing effect Effects 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 7
- 238000003062 neural network model Methods 0.000 abstract description 2
- 206010035664 Pneumonia Diseases 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 208000025721 COVID-19 Diseases 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000002591 computed tomography Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10072—Tomographic images
- G06T2207/10081—Computed x-ray tomography [CT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10116—X-ray image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Pathology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Primary Health Care (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于向量量化变分自编码器的医学影像分类模型及方法,模型包括预训练阶段和微调阶段;所述预训练阶段分为Encoder模块、特征增强模块、Decoder模块三个模块,Encoder模块用于提取图像特征,特征增强模块用于强化图像的特征,最后的Decoder模块用于进行图像的重构;所述微调阶段包括Encoder模块和特征增强模块;Encoder模块用于学习提取图像的特征;特征增强模块用于对学到的特征进行约束增强,该模块后连接一个全连接层,直接将输出的特征输入进去,直接输出分类的最终结果。本发明提出了全新VAE与自注意力机制结合的神经网络模型,既解决了VAE类模型分类任务效果差的问题,又解决了自注意力机制模型在小规模数据集上表现不好的问题。
Description
技术领域
本发明涉及医学影像分类技术领域,尤其是一种基于向量量化变分自编码器的医学影像分类识别的模型及方法。
背景技术
VQ-VAE是一种生成模型,Encoder由三层卷积组成用于提取图像的特征,Decoder由三层反卷积组成用于重构图像。VQ-VAE模型最大的特点是中间的Embedding Space编码表结构,它在整个模型中充当了一个特征向量字典的角色,从Encoder中提取出的图像特征,与Embedding字典中的特征进行映射,找出字典中与原特征最相似的特征向量,并进行替换。将替换过后的特征向量输入到Decoder中进行图像重构。VQ-VAE的整体流程为:输入图像->经过Encoder之后得到Z_e(x)->Z_e(x)与编码表Embedding Space进行映射,通过最邻近搜索算法,寻找编码表中与Z_e(x)最相似的向量特征,然后用e去代替Z_e(x),得到Z_q(x)->将Z_q(x)输入到Decoder中,去进行图像的重构。然后进行loss的计算和反向传播优化模型。
VAE一类的模型大部分是用做进行图像生成任务的,既然可以生成高分辨率图像,那必然是学习到了非常丰富的图像特征。所以本发明的思路是提取经过Encoder之后的潜层特征去进行分类的下游任务。但是经过实验发现,使用VAE一类的模型去进行分类任务效果并不理想。其原因是,VAE模型的目的是重构图像,为了更好的完成这一任务,他就需要去学习图像的“共性”特征,从而抑制图像的“特性”特征。而分类任务的需求正好与此相反,它需要模型去更多的学习图像的“特性”特征。这是VAE大类模型去完成分类下游任务效果不好的一大原因。
Vision Transformer模型(Vit)中运用到自注意力机制。Vit模型是将NLP领域中的Transformer应用到了计算视觉领域中,并且取得了非常惊人的效果。模型强制输入图像的大小为224*224分辨率,首先模型将图像切成16*16大小的9个小块,每个小块当作一个patch,通过线性层将这9个patch编译成9个特征,然后拼接一个形状一样的,通过初始化得到的特征(Class Token)用于后续的分类任务。接下来,因为将图片分块,它们原始对于图像中的位置信息没有了,所以研究者加了一个可以学习的位置特征(Position Embedding)在原特征上,与Class Token不同,Position Embedding是直接加到原特征向量上,相加之后特征维度没有变化。接下来把加上位置编码的这10个特征向量(9个图片块对应的特征加1个分类的特征)送入transformer中,transformer可以理解为里面所做的事情就是让输入的10个特征互相学习互相的信息,然后输出10个学习完互相信息的特征。最后取出第0位的Class Token进行分类任务。
Vit相比传统的CNN卷积模型,其模型规模大、参数多、计算量大,所以需要从大规模的数据集上进行预训练才能有较好的结果。而医学影像数据集大都规模较小,例如有标记的新冠肺炎图像数据集成本高,数量少,规模小,所以单纯的用Vit模型去进行新冠诊断任务效果并不理想。
发明内容
本发明的目的是解决提取VAE大类模型潜层特征来进行分类等下游任务效果差的问题,以及解决自注意力机制模型在小规模数据上表现不好的问题。对此,本发明提供了一种基于向量量化变分自编码器的医学影像分类模型及方法。
本发明提供的基于向量量化变分自编码器的医学影像分类模型,包括预训练阶段和微调阶段。
所述预训练阶段分为Encoder模块、特征增强模块、Decoder模块三个模块,Encoder模块用于提取图像特征,特征增强模块用于强化图像的特征,最后的Decoder模块用于进行图像的重构。
所述微调阶段包括Encoder模块和特征增强模块;Encoder模块用于学习提取图像的特征;特征增强模块用于对学到的特征进行约束增强,该模块后连接一个全连接层,直接将输出的特征输入进去,直接输出分类的最终结果。
所述预训练阶段的工作流程步骤如下:
(1)输入医学影像X进入模型,通过三层卷积层提取图像的特征,当作潜层特征切片;
(2)将提取出的潜层特征切片与初始化的类编码向量拼接,然后加一个初始化形成的位置编码向量(Position Embedding),Position Embedding直接加到映射后的patches上;
(3)将拼接好的潜层特征向量输入到Transformer Encoder中进行注意力机制的计算。首先将Patch Embed向量通过一个线性层改变向量维度,然后将该向量分为三份分别对应Query、Key、Value,以下简称QKV;将QKV输入到Multi-HeadAttention多头注意力模块去计算注意力分数;具体公式如下:
(4)将多个注意力头的输出拼接到一起,再通过Rearrange函数重新定义形状,这一部分称为Fe;
(5)丢掉类编码一维的向量,只取拼接之前的图像特征,这一部分称为Fp。将Fp输入到特征增强模块中;特征增强模块是一个初始化的Embedding Space,里面存储了初始化的特征向量;将Fp与Embedding Space里的向量做最邻近搜索,让二者之间相互学习,选择Embedding Space中与Fp最相近的特征进行替换,得到Fq。最邻近搜索的算法公式如下:
Fq=ek,where k=argminj||Fp-ej||2。
(6)将Fq输入到Decoder模块中,进行图像的重构,得到图像R;将Fp与Fq、EmbeddingSpace与Fp、Embedding Space与Fq三者进行L2损失的计算,以此作为损失函数,来进行反向传播优化整个预训练模型。损失函数公式如下:
式中,sg是指stop gradient梯度停止操作,使用stop gradient操作使反向传播时将VQ的输出的梯度直接拷贝给输入。
所述微调阶段图像处理过程如下:
(1)将模型的参数加载到微调网络中;
(2)输入医学影像X,经过三层卷积层提取图像的特征潜层特征切片;将提取后的潜层特征切片拼接一个初始化的类编码向量以及加上一个Position Embedding;将拼接好后的特征向量输入到Encoder中进行自注意力机制的运算,得到特征Fe;
(3)提取Fe的第一位向量类编码向量,进行后续的分类任务;将类编码向量输入到类编码增强模块中,进行最邻近搜索,选取与Embedding Space中最邻近的向量做替换,得到最终分类头向量(Final Class Head)。
(4)将最终分类头向量输入到一个全连接层网络中,得到最后的分类识别结果。
与现有技术相比,本发明的有益之处在于:
(1)提出了全新VAE与自注意力机制结合的神经网络模型。既解决了VAE类模型分类任务效果差的问题,又解决了自注意力机制模型在小规模数据集上表现不好的问题。
(2)将新提出的模型用于医学影像分类识别任务中,在六个公共数据集上都取得了良好的效果。
(3)适用范围广,泛化能力强。本模型可以处理CT图像与X光图像两种形式的图像。
(4)使用操作简便。本模型不需要对CT图像和X光图像进行图像预处理。直接将图像输入网络即可得到分类结果。能大大降低人工成本,协助医生进行疾病诊断。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
图1、本发明的基于向量量化变分自编码器的医学影像分类模型的流程示意图。
图2、本发明的卷积切割模块的流程示意图。
图3、本发明的编码器模块的流程示意图。
图4、本发明的特征增强模块的流程示意图。
图5、本发明的微调阶段的流程示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
如图1-5所示,本发明提供的基于向量量化变分自编码器的医学影像分类模型包括预训练阶段和微调(微调)阶段。
预训练阶段的整体工作流程步骤如下:
(1)首先输入224*224大小的医学图像X,图像经过由卷积层+批量归一化层+GLEU激活函数组成的三层卷积切割模块(见图2),原始图片向量X的大小为[1,3,224,224],当使用16x16大小的patch对其进行分割时,一共可以划分为224x224/16/16=196个patches,其次每个patch大小为16x16x3=768,故图像X经过卷积切割模块之后的大小为[1,196,768]。通过三层卷积层提取图像的特征,当作潜层特征切片。
(2)得到潜层特征切片之后,初始化一个大小为[1,768]的向量作为类别编码向量,直接拼接到潜层特征切片中,类别编码向量用于做最后的分类预测。再初始化一个位置编码嵌入向量,用来记录每个切片在原始图像中的位置信息,并将这个信息传递给模型。将位置向量编码直接加到映射后的切片上,现在向量的维度为[1,197,768]。
(3)将拼接好的潜层特征切片输入到Transformer Encoder中进行注意力机制的计算。首先将[1,196,768]的Patch Embed向量通过一个线性层,变为[1,197,2304],然后将该向量分为三份分别对应Query、Key、Value(以下简称QKV)。将QKV输入到多头注意力层去计算注意力分数,具体公式如下:
(4)将多个注意力头的输出拼接到一起,再通过Rearrange函数重新定义成[1,197,768]的形状,这一部分称为Fe。
(5)我们丢掉类编码向量那一维的向量,只要剩余的图像特征向量,这一部分称为Fp。将Fp输入到特征增强模块中。特征增强模块是一个初始化的Embedding Space,里面存储了初始化的特征向量。将Fp与Embedding Space里的向量做最邻近搜索,让二者之间相互学习,选择Embedding Space中与Fp最相近的特征进行替换,得到Fq,算法公式如下:
Fq=ek,where k=argminj||Fp-ej||2。
(6)将Fq输入到Decoder模块中,进行图像的重构,得到图像R。将Fp与Fq、EmbeddingSpace与Fp、Embedding Space与Fq三者进行L2损失的计算,以此作为损失函数,来进行反向传播优化整个预训练模型。整个损失优化函数如下所示,训练完成后保存整个模型的参数。
其中,sg是指stop gradient梯度停止操作,因为最邻近搜索算法中的argmin操作是不可导的,使用stop gradient操作可以使反向传播时将VQ的输出的梯度直接拷贝给输入。
微调阶段的图像处理流程如下:
(1)将模型的参数加载到微调网络中。
(2)按照预训练阶段步骤(1)-(4)的流程,提取特征Fe。
(3)提取Fe的第一位向量类向量编码,丢弃后面的向量,只留下类编码向量进行后续的分类任务;将类向量编码输入到特征增强模块中,进行最邻近搜索,选取与EmbeddingSpace中最邻近的向量做替换,得到最终分类头向量。
(4)将最终分类头向量输入到一个全连接层网络中,得到最后的分类识别结果。损失函数使用CrossEntropyLoss来计算。
本发明的模型在6个公用新冠肺炎图像数据集上与VAE类模型、Vit模型、以及ResNet网络等其他模型均做了对比实验,结果见表1-6。
表1、3000张kaggle数据集
(%) | epoch | Acc | precision | Recall | F1-score |
Resnet50 | 10 | 90 | 86.6 | 93.2 | 90.4 |
VAE | 10 | 77 | 77.6 | 75.1 | 76.3 |
VQ-VAE | 10 | 86.5 | 81.7 | 95.5 | 87.5 |
VQ-VAE2 | 10 | 78.8 | 83.6 | 65 | 75.2 |
ViT | 10 | 82.4 | 77.4 | 91 | 83.7 |
本发明模型 | 10 | 98.1 | 89.2 | 98 | 93.4 |
表2、13000张华中科技大学数据集
(%) | epoch | Acc | Preccision | Recall | F1-score |
Resnet50 | 10 | 90.2 | 89.3 | 95.4 | 96.2 |
VAE | 10 | 96 | 96.1 | 98.4 | 97.2 |
VQ-VAE | 10 | 98.6 | 99.6 | 98.3 | 98.7 |
VQ-VAE2 | 10 | 99.9 | 99.7 | 99.9 | 99.8 |
ViT | 10 | 95 | 95.2 | 99.4 | 97.2 |
本发明模型 | 10 | 99.9 | 99.8 | 99.4 | 99.8 |
表3、2559张kaggle数据集
A COVID multiclass dataset of CT scans|Kaggle
(%) | epoch | Acc | Preccision | Recall | F1-score |
Resnet50 | 50 | 90.91 | 81.52 | 84.5 | 87.63 |
VAE | 50 | 85.1 | 80.00 | 76.1 | 75.16 |
VQ-VAE | 50 | 90 | 78.09 | 92.05 | 84.5 |
VQ-VAE2 | 50 | 89.2 | 82.88 | 80.13 | 81.48 |
ViT | 50 | 89.2 | 78.92 | 86.75 | 82.65 |
本发明模型 | 50 | 95.5 | 90.51 | 94.7 | 92.56 |
表4、14486张天池数据集:数据集-阿里云天池(aliyun.com)
(%) | epoch | Acc | Preccision | Recall | F1-score |
Resnet50 | 50 | 96.3 | 95.61 | 97.25 | 95.4 |
VAE | 50 | 84.25 | 80.69 | 87.95 | 84.17 |
VQ-VAE | 50 | 94.4 | 90.43 | 98.77 | 94.42 |
VQ-VAE2 | 50 | 97.5 | 96.91 | 97.9 | 97.4 |
ViT | 50 | 98.5 | 98.12 | 98.69 | 98.41 |
本发明模型 | 50 | 99.3 | 99.27 | 99.2 | 99.24 |
表5、2159张kaggle x光数据集
(https://www.kaggle.com/datasets/prashant268/chest-xray-covid19-pneumonia)
(%) | epoch | Acc | Preccision | Recall | F1-score |
Resnet50 | 50 | 89.75 | 81.32 | 83.44 | 89.29 |
VAE | 50 | 96.6 | 96.3 | 98.73 | 96.69 |
VQ-VAE | 50 | 94.44 | 90.43 | 98.77 | 94.42 |
VQ-VAE2 | 50 | 97.51 | 96.91 | 97.9 | 97.4 |
ViT | 50 | 89.24 | 78.92 | 86.75 | 82.69 |
本发明模型 | 50 | 99.26 | 99.27 | 99.2 | 99.24 |
表6、COVID-19Radiography Database
(%) | epoch | Acc | Preccision | Recall | F1-score |
Resnet50 | 50 | 92.78 | 88.4 | 93.2 | 91.36 |
VAE | 50 | 84.9 | 86.07 | 94.41 | 90.27 |
VQ-VAE | 50 | 91.53 | 83.13 | 92.59 | 87.77 |
VQ-VAE2 | 50 | 88.92 | 83.07 | 88.76 | 82.88 |
ViT | 50 | 90.41 | 84.93 | 85.9 | 85.42 |
本发明模型 | 50 | 95.5 | 90.51 | 94.7 | 92.56 |
由表1-6的结果表明了本发明的模型在大、中、小三个规模的数据集上,其Accurate、Precision、Recall、F1-score等指标均取得了最优的效果,其中判断准确率均在95%之上,个别数据集其准确率可到99%。进一步证明本发明的新模型进行医学影像分类识别的准确率高。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (7)
1.一种基于向量量化变分自编码器的医学影像分类模型,其特征在于,包括预训练阶段和微调阶段;
所述预训练阶段分为Encoder模块、特征增强模块、Decoder模块三个模块,Encoder模块用于提取图像特征,特征增强模块用于强化图像的特征,最后的Decoder模块用于进行图像的重构;
所述微调阶段包括Encoder模块和类编码向量增强模块;Encoder模块用于学习提取图像的特征;类编码向量增强模块用于对类编码向量进行约束增强,该模块后连接一个全连接层,直接将输出的类编码向量输入进去,直接输出分类的最终结果。
2.如权利要求1所述的基于向量量化变分自编码器的医学影像分类模型,其特征在于,所述预训练阶段的工作流程步骤如下:
(1)输入医学影像X进入模型,通过三层卷积层提取图像的特征,当作潜层特征切片;
(2)将提取出的潜层特征切片与初始化的类编码向量拼接,然后加一个初始化形成的位置编号向量,位置编号向量直接加到映射后的patches上;
(3)将拼接好的潜层特征切片向量输入到Transformer Encoder中进行注意力机制的计算;
(4)将多个注意力头的输出拼接到一起,再通过Rearrange函数重新定义形状,将输出的特征向量,称为Fe;
(5)丢掉类编码那一维的向量,只取拼接之前的图像特征,这一部分称为Fp;将Fp输入到特征增强模块中;特征增强模块是一个初始化的Embedding Space编码表,里面存储了初始化的特征向量;将Fp与Embedding Space里的向量做最邻近搜索,让二者之间相互学习,选择Embedding Space中与Fp最相近的特征进行替换,得到Fq;
(6)将Fq输入到Decoder模块中,进行图像的重构,得到图像R;将Fp与Fq、EmbeddingSpace与Fp、Embedding Space与Fq三者进行L2损失的计算,以此作为损失函数,来进行反向传播优化整个预训练模型。
4.如权利要求2所述的基于向量量化变分自编码器的医学影像分类模型,其特征在于,步骤(5)中,最邻近搜索的算法公式如下:
Fq=ek,where k=argminj||Fp-ej||2。
6.如权利要求1所述的基于向量量化变分自编码器的医学影像分类模型,其特征在于,所述微调阶段图像处理过程如下:
(1)将模型的参数加载到微调网络中;
(2)输入医学影像X,经过三层卷积层提取图像的特征潜层特征切片;将提取后的潜层特征切片拼接一个初始化的类编码向量以及加上一个Position Embedding;将拼接好后的特征向量输入到Encoder中进行自注意力机制的运算,得到特征Fe;
(3)提取Fe的第一位的类向量编码,进行后续的分类任务;将类编码向量输入到类编码增强模块中,进行最邻近搜索,选取与Embedding Space中最邻近的向量做替换,得到最终分类头向量;
(4)将最终分类头向量输入到一个全连接层网络中,得到最后的分类识别结果。
7.一种基于向量量化变分自编码器的医学影像分类方法,其特征在于,采用如权利要求1-6任意一项所述的基于向量量化变分自编码器的医学影像分类模型进行分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210901020.0A CN115100480B (zh) | 2022-07-28 | 2022-07-28 | 基于向量量化变分自编码器的医学影像分类模型及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210901020.0A CN115100480B (zh) | 2022-07-28 | 2022-07-28 | 基于向量量化变分自编码器的医学影像分类模型及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115100480A true CN115100480A (zh) | 2022-09-23 |
CN115100480B CN115100480B (zh) | 2024-06-14 |
Family
ID=83300007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210901020.0A Active CN115100480B (zh) | 2022-07-28 | 2022-07-28 | 基于向量量化变分自编码器的医学影像分类模型及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115100480B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117877590A (zh) * | 2024-03-12 | 2024-04-12 | 北京大学 | 基于测序数据的细胞聚类方法、装置、设备及存储介质 |
CN117893528A (zh) * | 2024-03-13 | 2024-04-16 | 云南迪安医学检验所有限公司 | 一种心脑血管疾病分类模型的构建方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110827929A (zh) * | 2019-11-05 | 2020-02-21 | 中山大学 | 疾病分类编码识别方法、装置、计算机设备及存储介质 |
US20200320769A1 (en) * | 2016-05-25 | 2020-10-08 | Metail Limited | Method and system for predicting garment attributes using deep learning |
US20210027169A1 (en) * | 2019-07-25 | 2021-01-28 | Rochester Institute Of Technology | Method for Training Parametric Machine Learning Systems |
CN112801280A (zh) * | 2021-03-11 | 2021-05-14 | 东南大学 | 视觉深度自适应神经网络的一维卷积位置编码方法 |
CN112883738A (zh) * | 2021-03-23 | 2021-06-01 | 西南交通大学 | 基于神经网络和自注意力机制的医学实体关系抽取方法 |
CN113191392A (zh) * | 2021-04-07 | 2021-07-30 | 山东师范大学 | 一种乳腺癌图像信息瓶颈多任务分类和分割方法及系统 |
CN114036903A (zh) * | 2021-11-04 | 2022-02-11 | 度小满科技(北京)有限公司 | 一种评分卡模型实现方法、装置、设备及可读存储介质 |
CN114240770A (zh) * | 2021-11-22 | 2022-03-25 | 苏州涟漪信息科技有限公司 | 一种图像处理方法、装置、服务器及存储介质 |
CN114610935A (zh) * | 2022-05-12 | 2022-06-10 | 之江实验室 | 一种文本控制图像风格的语义图像合成的方法及系统 |
-
2022
- 2022-07-28 CN CN202210901020.0A patent/CN115100480B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200320769A1 (en) * | 2016-05-25 | 2020-10-08 | Metail Limited | Method and system for predicting garment attributes using deep learning |
US20210027169A1 (en) * | 2019-07-25 | 2021-01-28 | Rochester Institute Of Technology | Method for Training Parametric Machine Learning Systems |
CN110827929A (zh) * | 2019-11-05 | 2020-02-21 | 中山大学 | 疾病分类编码识别方法、装置、计算机设备及存储介质 |
CN112801280A (zh) * | 2021-03-11 | 2021-05-14 | 东南大学 | 视觉深度自适应神经网络的一维卷积位置编码方法 |
CN112883738A (zh) * | 2021-03-23 | 2021-06-01 | 西南交通大学 | 基于神经网络和自注意力机制的医学实体关系抽取方法 |
CN113191392A (zh) * | 2021-04-07 | 2021-07-30 | 山东师范大学 | 一种乳腺癌图像信息瓶颈多任务分类和分割方法及系统 |
CN114036903A (zh) * | 2021-11-04 | 2022-02-11 | 度小满科技(北京)有限公司 | 一种评分卡模型实现方法、装置、设备及可读存储介质 |
CN114240770A (zh) * | 2021-11-22 | 2022-03-25 | 苏州涟漪信息科技有限公司 | 一种图像处理方法、装置、服务器及存储介质 |
CN114610935A (zh) * | 2022-05-12 | 2022-06-10 | 之江实验室 | 一种文本控制图像风格的语义图像合成的方法及系统 |
Non-Patent Citations (3)
Title |
---|
ALI RAZAVI等: "Generating Diverse High-Fidelity Images with VQ-VAE-2", 《MACHINE LEARNING》, 2 June 2019 (2019-06-02) * |
QIDE LIU等: "VQ-ViCNet: Strengthen Unique Features Comparison Autoencoder with Embedding Space for Covid-19 Image Classification", 《2022 IEEE 8TH INTERNATIONAL CONFERENCE ON CLOUD COMPUTING AND INTELLIGENT SYSTEMS (CCIS)》, 19 January 2023 (2023-01-19) * |
宁尚明;滕飞;李天瑞;: "基于多通道自注意力机制的电子病历实体关系抽取", 计算机学报, no. 05, 15 May 2020 (2020-05-15) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117877590A (zh) * | 2024-03-12 | 2024-04-12 | 北京大学 | 基于测序数据的细胞聚类方法、装置、设备及存储介质 |
CN117877590B (zh) * | 2024-03-12 | 2024-05-28 | 北京大学 | 基于测序数据的细胞聚类方法、装置、设备及存储介质 |
CN117893528A (zh) * | 2024-03-13 | 2024-04-16 | 云南迪安医学检验所有限公司 | 一种心脑血管疾病分类模型的构建方法及装置 |
CN117893528B (zh) * | 2024-03-13 | 2024-05-17 | 云南迪安医学检验所有限公司 | 一种心脑血管疾病分类模型的构建方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115100480B (zh) | 2024-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhuang et al. | Discrimination-aware channel pruning for deep neural networks | |
CN115100480B (zh) | 基于向量量化变分自编码器的医学影像分类模型及方法 | |
CN113888744A (zh) | 一种基于Transformer视觉上采样模块的图像语义分割方法 | |
CN112801280B (zh) | 视觉深度自适应神经网络的一维卷积位置编码方法 | |
Chen et al. | Transhash: Transformer-based hamming hashing for efficient image retrieval | |
CN112420170B (zh) | 一种提高计算机辅助诊断系统图片分类准确度的方法 | |
Wang et al. | Multiscale transunet++: dense hybrid u-net with transformer for medical image segmentation | |
CN115984560A (zh) | 基于CNN和Transformer的图像分割方法 | |
Huang et al. | A deep dictionary model for image super-resolution | |
Qi et al. | Learning low resource consumption cnn through pruning and quantization | |
CN118430790A (zh) | 一种基于多模态图神经网络的乳腺肿瘤bi-rads分级方法 | |
CN115578589A (zh) | 一种无监督超声心动图切面识别方法 | |
Onu et al. | A fully tensorized recurrent neural network | |
CN113436224B (zh) | 一种基于显式构图规则建模的智能图像裁剪方法及装置 | |
Wang et al. | LCH: fast RGB-D salient object detection on CPU via lightweight convolutional network with hybrid knowledge distillation | |
Jiang et al. | Hadamard product perceptron attention for image captioning | |
Wang et al. | Multi-scale hierarchical transformer structure for 3d medical image segmentation | |
Chung et al. | Filter pruning by image channel reduction in pre-trained convolutional neural networks | |
CN115861396A (zh) | 一种基于深度学习的医学图像配准方法 | |
Xiong et al. | Noucsr: Efficient super-resolution network without upsampling convolution | |
Liao et al. | Brain Tumor Segmentation Based on Improved Swin-UNet | |
Liu et al. | Learning compact ConvNets through filter pruning based on the saliency of a feature map | |
Zhao et al. | E2TNet: Efficient enhancement Transformer network for hyperspectral image classification | |
Zhong et al. | Distribution-Flexible Subset Quantization for Post-Quantizing Super-Resolution Networks | |
CN118332153B (zh) | 一种基于图像块和属性对齐的图像检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |