CN115100480A

CN115100480A - 基于向量量化变分自编码器的医学影像分类模型及方法

Info

Publication number: CN115100480A
Application number: CN202210901020.0A
Authority: CN
Inventors: 储节磊; 刘启德; 余华; 李天瑞; 向导; 游泽青; 周图南
Original assignee: China E Port Data Center Chengdu Branch; Southwest Jiaotong University
Current assignee: China E Port Data Center Chengdu Branch; Southwest Jiaotong University
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2022-09-23
Anticipated expiration: 2042-07-28
Also published as: CN115100480B

Abstract

本发明公开了一种基于向量量化变分自编码器的医学影像分类模型及方法，模型包括预训练阶段和微调阶段；所述预训练阶段分为Encoder模块、特征增强模块、Decoder模块三个模块，Encoder模块用于提取图像特征，特征增强模块用于强化图像的特征，最后的Decoder模块用于进行图像的重构；所述微调阶段包括Encoder模块和特征增强模块；Encoder模块用于学习提取图像的特征；特征增强模块用于对学到的特征进行约束增强，该模块后连接一个全连接层，直接将输出的特征输入进去，直接输出分类的最终结果。本发明提出了全新VAE与自注意力机制结合的神经网络模型，既解决了VAE类模型分类任务效果差的问题，又解决了自注意力机制模型在小规模数据集上表现不好的问题。

Description

基于向量量化变分自编码器的医学影像分类模型及方法

技术领域

本发明涉及医学影像分类技术领域，尤其是一种基于向量量化变分自编码器的医学影像分类识别的模型及方法。

背景技术

VQ-VAE是一种生成模型，Encoder由三层卷积组成用于提取图像的特征，Decoder由三层反卷积组成用于重构图像。VQ-VAE模型最大的特点是中间的Embedding Space编码表结构，它在整个模型中充当了一个特征向量字典的角色，从Encoder中提取出的图像特征，与Embedding字典中的特征进行映射，找出字典中与原特征最相似的特征向量，并进行替换。将替换过后的特征向量输入到Decoder中进行图像重构。VQ-VAE的整体流程为：输入图像->经过Encoder之后得到Z_e(x)->Z_e(x)与编码表Embedding Space进行映射，通过最邻近搜索算法，寻找编码表中与Z_e(x)最相似的向量特征，然后用e去代替Z_e(x)，得到Z_q(x)->将Z_q(x)输入到Decoder中，去进行图像的重构。然后进行loss的计算和反向传播优化模型。

VAE一类的模型大部分是用做进行图像生成任务的，既然可以生成高分辨率图像，那必然是学习到了非常丰富的图像特征。所以本发明的思路是提取经过Encoder之后的潜层特征去进行分类的下游任务。但是经过实验发现，使用VAE一类的模型去进行分类任务效果并不理想。其原因是，VAE模型的目的是重构图像，为了更好的完成这一任务，他就需要去学习图像的“共性”特征，从而抑制图像的“特性”特征。而分类任务的需求正好与此相反，它需要模型去更多的学习图像的“特性”特征。这是VAE大类模型去完成分类下游任务效果不好的一大原因。

Vision Transformer模型(Vit)中运用到自注意力机制。Vit模型是将NLP领域中的Transformer应用到了计算视觉领域中，并且取得了非常惊人的效果。模型强制输入图像的大小为224*224分辨率，首先模型将图像切成16*16大小的9个小块，每个小块当作一个patch，通过线性层将这9个patch编译成9个特征，然后拼接一个形状一样的，通过初始化得到的特征(Class Token)用于后续的分类任务。接下来，因为将图片分块，它们原始对于图像中的位置信息没有了，所以研究者加了一个可以学习的位置特征(Position Embedding)在原特征上，与Class Token不同，Position Embedding是直接加到原特征向量上，相加之后特征维度没有变化。接下来把加上位置编码的这10个特征向量(9个图片块对应的特征加1个分类的特征)送入transformer中，transformer可以理解为里面所做的事情就是让输入的10个特征互相学习互相的信息，然后输出10个学习完互相信息的特征。最后取出第0位的Class Token进行分类任务。

Vit相比传统的CNN卷积模型，其模型规模大、参数多、计算量大，所以需要从大规模的数据集上进行预训练才能有较好的结果。而医学影像数据集大都规模较小，例如有标记的新冠肺炎图像数据集成本高，数量少，规模小，所以单纯的用Vit模型去进行新冠诊断任务效果并不理想。

发明内容

本发明的目的是解决提取VAE大类模型潜层特征来进行分类等下游任务效果差的问题，以及解决自注意力机制模型在小规模数据上表现不好的问题。对此，本发明提供了一种基于向量量化变分自编码器的医学影像分类模型及方法。

本发明提供的基于向量量化变分自编码器的医学影像分类模型，包括预训练阶段和微调阶段。

所述预训练阶段分为Encoder模块、特征增强模块、Decoder模块三个模块，Encoder模块用于提取图像特征，特征增强模块用于强化图像的特征，最后的Decoder模块用于进行图像的重构。

所述微调阶段包括Encoder模块和特征增强模块；Encoder模块用于学习提取图像的特征；特征增强模块用于对学到的特征进行约束增强，该模块后连接一个全连接层，直接将输出的特征输入进去，直接输出分类的最终结果。

所述预训练阶段的工作流程步骤如下：

(1)输入医学影像X进入模型，通过三层卷积层提取图像的特征，当作潜层特征切片；

(2)将提取出的潜层特征切片与初始化的类编码向量拼接，然后加一个初始化形成的位置编码向量(Position Embedding)，Position Embedding直接加到映射后的patches上；

(3)将拼接好的潜层特征向量输入到Transformer Encoder中进行注意力机制的计算。首先将Patch Embed向量通过一个线性层改变向量维度，然后将该向量分为三份分别对应Query、Key、Value，以下简称QKV；将QKV输入到Multi-HeadAttention多头注意力模块去计算注意力分数；具体公式如下：

(4)将多个注意力头的输出拼接到一起，再通过Rearrange函数重新定义形状，这一部分称为F_e；

(5)丢掉类编码一维的向量，只取拼接之前的图像特征，这一部分称为F_p。将F_p输入到特征增强模块中；特征增强模块是一个初始化的Embedding Space，里面存储了初始化的特征向量；将F_p与Embedding Space里的向量做最邻近搜索，让二者之间相互学习，选择Embedding Space中与F_p最相近的特征进行替换，得到F_q。最邻近搜索的算法公式如下：

F_q＝e_k，where k＝argmin_j||F_p-e_j|_|2。

(6)将F_q输入到Decoder模块中，进行图像的重构，得到图像R；将F_p与F_q、EmbeddingSpace与F_p、Embedding Space与F_q三者进行L2损失的计算，以此作为损失函数，来进行反向传播优化整个预训练模型。损失函数公式如下：

式中，sg是指stop gradient梯度停止操作，使用stop gradient操作使反向传播时将VQ的输出的梯度直接拷贝给输入。

所述微调阶段图像处理过程如下：

(1)将模型的参数加载到微调网络中；

(2)输入医学影像X，经过三层卷积层提取图像的特征潜层特征切片；将提取后的潜层特征切片拼接一个初始化的类编码向量以及加上一个Position Embedding；将拼接好后的特征向量输入到Encoder中进行自注意力机制的运算，得到特征F_e；

(3)提取F_e的第一位向量类编码向量，进行后续的分类任务；将类编码向量输入到类编码增强模块中，进行最邻近搜索，选取与Embedding Space中最邻近的向量做替换，得到最终分类头向量(Final Class Head)。

(4)将最终分类头向量输入到一个全连接层网络中，得到最后的分类识别结果。

与现有技术相比，本发明的有益之处在于：

(1)提出了全新VAE与自注意力机制结合的神经网络模型。既解决了VAE类模型分类任务效果差的问题，又解决了自注意力机制模型在小规模数据集上表现不好的问题。

(2)将新提出的模型用于医学影像分类识别任务中，在六个公共数据集上都取得了良好的效果。

(3)适用范围广，泛化能力强。本模型可以处理CT图像与X光图像两种形式的图像。

(4)使用操作简便。本模型不需要对CT图像和X光图像进行图像预处理。直接将图像输入网络即可得到分类结果。能大大降低人工成本，协助医生进行疾病诊断。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1、本发明的基于向量量化变分自编码器的医学影像分类模型的流程示意图。

图2、本发明的卷积切割模块的流程示意图。

图3、本发明的编码器模块的流程示意图。

图4、本发明的特征增强模块的流程示意图。

图5、本发明的微调阶段的流程示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

如图1-5所示，本发明提供的基于向量量化变分自编码器的医学影像分类模型包括预训练阶段和微调(微调)阶段。

预训练阶段的整体工作流程步骤如下：

(1)首先输入224*224大小的医学图像X，图像经过由卷积层+批量归一化层+GLEU激活函数组成的三层卷积切割模块(见图2)，原始图片向量X的大小为[1,3,224,224]，当使用16x16大小的patch对其进行分割时，一共可以划分为224x224/16/16＝196个patches，其次每个patch大小为16x16x3＝768，故图像X经过卷积切割模块之后的大小为[1,196,768]。通过三层卷积层提取图像的特征，当作潜层特征切片。

(2)得到潜层特征切片之后，初始化一个大小为[1,768]的向量作为类别编码向量，直接拼接到潜层特征切片中，类别编码向量用于做最后的分类预测。再初始化一个位置编码嵌入向量，用来记录每个切片在原始图像中的位置信息，并将这个信息传递给模型。将位置向量编码直接加到映射后的切片上，现在向量的维度为[1,197,768]。

(3)将拼接好的潜层特征切片输入到Transformer Encoder中进行注意力机制的计算。首先将[1,196,768]的Patch Embed向量通过一个线性层，变为[1,197,2304]，然后将该向量分为三份分别对应Query、Key、Value(以下简称QKV)。将QKV输入到多头注意力层去计算注意力分数，具体公式如下：

(4)将多个注意力头的输出拼接到一起，再通过Rearrange函数重新定义成[1,197,768]的形状，这一部分称为F_e。

(5)我们丢掉类编码向量那一维的向量，只要剩余的图像特征向量，这一部分称为F_p。将F_p输入到特征增强模块中。特征增强模块是一个初始化的Embedding Space，里面存储了初始化的特征向量。将F_p与Embedding Space里的向量做最邻近搜索，让二者之间相互学习，选择Embedding Space中与F_p最相近的特征进行替换，得到F_q，算法公式如下：

F_q＝e_k，where k＝argmin_j||F_p-e_j||₂。

(6)将F_q输入到Decoder模块中，进行图像的重构，得到图像R。将F_p与F_q、EmbeddingSpace与F_p、Embedding Space与F_q三者进行L2损失的计算，以此作为损失函数，来进行反向传播优化整个预训练模型。整个损失优化函数如下所示，训练完成后保存整个模型的参数。

其中，sg是指stop gradient梯度停止操作，因为最邻近搜索算法中的argmin操作是不可导的，使用stop gradient操作可以使反向传播时将VQ的输出的梯度直接拷贝给输入。

微调阶段的图像处理流程如下：

(1)将模型的参数加载到微调网络中。

(2)按照预训练阶段步骤(1)-(4)的流程，提取特征F_e。

(3)提取F_e的第一位向量类向量编码，丢弃后面的向量，只留下类编码向量进行后续的分类任务；将类向量编码输入到特征增强模块中，进行最邻近搜索，选取与EmbeddingSpace中最邻近的向量做替换，得到最终分类头向量。

(4)将最终分类头向量输入到一个全连接层网络中，得到最后的分类识别结果。损失函数使用CrossEntropyLoss来计算。

本发明的模型在6个公用新冠肺炎图像数据集上与VAE类模型、Vit模型、以及ResNet网络等其他模型均做了对比实验，结果见表1-6。

表1、3000张kaggle数据集

(％)	epoch	Acc	precision	Recall	F1-score
						Resnet50	10	90	86.6	93.2	90.4
VAE	10	77	77.6	75.1	76.3
						VQ-VAE	10	86.5	81.7	95.5	87.5
VQ-VAE2	10	78.8	83.6	65	75.2
						ViT	10	82.4	77.4	91	83.7
本发明模型	10	98.1	89.2	98	93.4

表2、13000张华中科技大学数据集

(％)	epoch	Acc	Preccision	Recall	F1-score
						Resnet50	10	90.2	89.3	95.4	96.2
VAE	10	96	96.1	98.4	97.2
						VQ-VAE	10	98.6	99.6	98.3	98.7
VQ-VAE2	10	99.9	99.7	99.9	99.8
						ViT	10	95	95.2	99.4	97.2
本发明模型	10	99.9	99.8	99.4	99.8

表3、2559张kaggle数据集

A COVID multiclass dataset of CT scans|Kaggle

(％)	epoch	Acc	Preccision	Recall	F1-score
						Resnet50	50	90.91	81.52	84.5	87.63
VAE	50	85.1	80.00	76.1	75.16
						VQ-VAE	50	90	78.09	92.05	84.5
VQ-VAE2	50	89.2	82.88	80.13	81.48
						ViT	50	89.2	78.92	86.75	82.65
本发明模型	50	95.5	90.51	94.7	92.56

表4、14486张天池数据集：数据集-阿里云天池(aliyun.com)

(％)	epoch	Acc	Preccision	Recall	F1-score
						Resnet50	50	96.3	95.61	97.25	95.4
VAE	50	84.25	80.69	87.95	84.17
						VQ-VAE	50	94.4	90.43	98.77	94.42
VQ-VAE2	50	97.5	96.91	97.9	97.4
						ViT	50	98.5	98.12	98.69	98.41
本发明模型	50	99.3	99.27	99.2	99.24

表5、2159张kaggle x光数据集

(https://www.kaggle.com/datasets/prashant268/chest-xray-covid19-pneumonia)

(％)	epoch	Acc	Preccision	Recall	F1-score
						Resnet50	50	89.75	81.32	83.44	89.29
VAE	50	96.6	96.3	98.73	96.69
						VQ-VAE	50	94.44	90.43	98.77	94.42
VQ-VAE2	50	97.51	96.91	97.9	97.4
						ViT	50	89.24	78.92	86.75	82.69
本发明模型	50	99.26	99.27	99.2	99.24

表6、COVID-19Radiography Database

(％)	epoch	Acc	Preccision	Recall	F1-score
						Resnet50	50	92.78	88.4	93.2	91.36
VAE	50	84.9	86.07	94.41	90.27
						VQ-VAE	50	91.53	83.13	92.59	87.77
VQ-VAE2	50	88.92	83.07	88.76	82.88
						ViT	50	90.41	84.93	85.9	85.42
本发明模型	50	95.5	90.51	94.7	92.56

由表1-6的结果表明了本发明的模型在大、中、小三个规模的数据集上，其Accurate、Precision、Recall、F1-score等指标均取得了最优的效果，其中判断准确率均在95％之上，个别数据集其准确率可到99％。进一步证明本发明的新模型进行医学影像分类识别的准确率高。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于向量量化变分自编码器的医学影像分类模型，其特征在于，包括预训练阶段和微调阶段；

所述预训练阶段分为Encoder模块、特征增强模块、Decoder模块三个模块，Encoder模块用于提取图像特征，特征增强模块用于强化图像的特征，最后的Decoder模块用于进行图像的重构；

所述微调阶段包括Encoder模块和类编码向量增强模块；Encoder模块用于学习提取图像的特征；类编码向量增强模块用于对类编码向量进行约束增强，该模块后连接一个全连接层，直接将输出的类编码向量输入进去，直接输出分类的最终结果。

2.如权利要求1所述的基于向量量化变分自编码器的医学影像分类模型，其特征在于，所述预训练阶段的工作流程步骤如下：

(2)将提取出的潜层特征切片与初始化的类编码向量拼接，然后加一个初始化形成的位置编号向量，位置编号向量直接加到映射后的patches上；

(3)将拼接好的潜层特征切片向量输入到Transformer Encoder中进行注意力机制的计算；

(4)将多个注意力头的输出拼接到一起，再通过Rearrange函数重新定义形状，将输出的特征向量，称为F_e；

(5)丢掉类编码那一维的向量，只取拼接之前的图像特征，这一部分称为F_p；将F_p输入到特征增强模块中；特征增强模块是一个初始化的Embedding Space编码表，里面存储了初始化的特征向量；将F_p与Embedding Space里的向量做最邻近搜索，让二者之间相互学习，选择Embedding Space中与F_p最相近的特征进行替换，得到F_q；

(6)将F_q输入到Decoder模块中，进行图像的重构，得到图像R；将F_p与F_q、EmbeddingSpace与F_p、Embedding Space与F_q三者进行L2损失的计算，以此作为损失函数，来进行反向传播优化整个预训练模型。

3.如权利要求2所述的基于向量量化变分自编码器的医学影像分类模型，其特征在于，步骤(3)具体是：首先将Patch Embed向量通过一个线性层改变向量维度，然后将该向量分为三份分别对应Query、Key、Value，以下简称QKV；将QKV输入到Multi-Head Attention模块去计算注意力分数；具体公式如下：

4.如权利要求2所述的基于向量量化变分自编码器的医学影像分类模型，其特征在于，步骤(5)中，最邻近搜索的算法公式如下：

F_q＝e_k，where k＝argmin_j||F_p-e_j||₂。

5.如权利要求2所述的基于向量量化变分自编码器的医学影像分类模型，其特征在于，步骤(6)中，损失函数公式如下：

6.如权利要求1所述的基于向量量化变分自编码器的医学影像分类模型，其特征在于，所述微调阶段图像处理过程如下：

(1)将模型的参数加载到微调网络中；

(3)提取F_e的第一位的类向量编码，进行后续的分类任务；将类编码向量输入到类编码增强模块中，进行最邻近搜索，选取与Embedding Space中最邻近的向量做替换，得到最终分类头向量；

7.一种基于向量量化变分自编码器的医学影像分类方法，其特征在于，采用如权利要求1-6任意一项所述的基于向量量化变分自编码器的医学影像分类模型进行分类。