CN113011514A

CN113011514A - 基于双线性池化应用于ct影像的颅内出血亚类型分类算法

Info

Publication number: CN113011514A
Application number: CN202110336566.1A
Authority: CN
Inventors: 刘萍萍; 石立达; 宁港军; 周求湛
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2021-06-22
Anticipated expiration: 2041-03-29
Also published as: CN113011514B

Abstract

本发明公开了一种基于双线性池化应用于CT影像的颅内出血亚类型分类算法，所述算法创新性地以细粒度分类的角度去解决颅内出血亚类型分类这个问题，在CNN部分使用了紧凑双线性池化的网络架构，提高了神经网络的特征表达能力，提升了分类性能。双线性池化已经被证明是解决细粒度分类问题的有效方法。它通过对高阶统计信息进行建模，将来自两个不同源的CNN或者同源的CNN的特征看作是两种不同的特征。并对两个特征进行外积计算，然后通过池化操作进行特征融合以捕获不同特征之间的关系，进而得到更强的全局特征表示。该方法用图像平移不变的方法，对局部的成对特征进行交互式建模。

Description

基于双线性池化应用于CT影像的颅内出血亚类型分类算法

技术领域

本发明属于智能医学影像处理领域，涉及一种基于双线性池化的应用于颅内出血亚类型分类算法。

背景技术

颅内出血(Intracranial Hemorrhage,ICH)是一种发生在脑室内或脑组织中的出血性疾病。颅内出血包含：脑室内出血(IVH)、脑实质性出血(IPH)、蛛网膜下腔出血(SAH)、硬膜外出血(EDH)和硬膜下血肿(SDH)。颅内出血亚类型分类的研究是判断CT图像中是否存在颅内出血和对其5种亚类型(IPH、IVH、EDH、SDH、SAH)进行分类。诊断颅内出血是医学领域的一个重要挑战。确定颅内出血的部位和类型是治疗病人的关键。目前的诊断颅内出血的方法是对大脑进行CT扫描。由于脑组织、血液、肌肉和骨骼等对X射线吸收特性不同，CT扫描会产生高对比度图像，然后供医生查看。传统的分类方法由放射科医生负责目视检查和定量评估。这个过程不仅非常耗时而且需要有长期工作经验、训练有素的放射科医生才能判别准确。

随着信息技术和人工智能的不断发展，计算机辅助诊断(Computer AidedDiagnosis,CAD)逐渐受到医学专家和研究者们的关注。通过为计算机设计识别算法，CAD以自动或半自动地对医学影像进行计算机分析得到辅助诊断报告。随后影像科医师根据辅助诊断的报告进行下一步分析与核验。

发明内容

为了解决目前颅内出血亚类型分类耗时且对医生的专业性依赖较大的问题，本发明提供了一种基于双线性池化应用于CT影像的颅内出血亚类型分类算法。本发明提出了一个新的CNN-RNN网络架构用于进行ICH的亚类型分类，在CNN模块中，从颅内CT图像的特性入手，以细粒度视角看待这个问题，解决了ResNet和DenseNet等网络在颅内CT图像上的缺陷。因此，本发明的方法将紧凑双线性池化的方法引入到本发明中，并针对数据分布不均衡和标签之间的依赖关系被忽视等问题，提出了MWF损失和SRE损失，将这三部分与CNNs融合成一个新的ICH亚类型多标签细粒度网络架构。通过CNN模块得到图像特征之后，进入RNN模块。与其他先进方法对比，本发明的方法达到了更优的性能，对临床有着极其重要的价值，具有广阔的应用场景。

本发明的目的是通过以下技术方案实现的：

一种基于双线性池化应用于CT影像的颅内出血亚类型分类算法，包括如下步骤：

步骤一、从dicom格式的医学CT影像得到CT图像值；

步骤二、Windowing操作

对步骤一得到的CT图像值进行windowing操作，使用的窗口如下：Brain window：[40，80]，Subdural window：[80，200]，Bone window：[40，380]，其中，方括号内第一位数字表示窗位，第二位数字表示窗宽；

步骤三、转化成jpg图像

Windowing操作完之后进行归一化使得图像的像素值在[0，1]之间，将图片的像素值与255相乘得到[0，255]之间的值，随后使用opencv的imwrite()函数生成.jpg图像；

步骤四、训练CNN网络

使用多权重焦点(Multi-weighted Focal,MWF)损失、Softmax相对熵(SoftmaxRelative Entropy,SRE)损失训练CNN网络，在训练过程中通过反向传播调整网络参数，以得到更加符合图像检索需求的CNN网络，其中：

多权重焦点损失的计算公式如下：

其中，

代表网络对c类的预测值，σ(·)代表的是Sigmoid函数，x_c代表的是全连接层针对c类的输出，K代表的是类别的数量，N_c是当前mini-batch中c类别的正样本数量，N代表当前mini-batch中所有训练样本的数量，γ是一个控制系数，其目的是减少易分类样本的损失，从而使得模型在训练时更专注于难分样本；

Softmax相对熵损失的计算公式如下：

P_target＝P{X＝ST_c}；

P_pred＝P{X＝SP_c}；

其中，P_target是标签的概率分布，y_c是第c类的目标标签，x_c是第c类样本，ST_c是目标标签中第c类对应的softmax得到的结果，P_pred是预测标签的概率分布，l_c是第c类全连接层的输出经过Sigmoid之后得到的预测概率，SP_c是预测标签中第c类对应的Softmax得到的结果；

步骤五、特征提取

用ICH亚类型多标签细粒度CNN网络框架提取图像特征，使用两个不同源的CNN网络作为特征提取器，CNN1代表ResNet50，CNN2代表DenseNet121，并为每个分支网络使用不同的损失函数L_CNN1和L_CNN2，然后经过CBP之后得到聚合特征，使用BCE损失作为整体CNN架构的损失函数，其公式定义如下：

L_CNN1＝L_MWF+αL_SRE；

L_CNN2＝L_MWF+βL_SRE；

L_total＝L_BCE+δ(L_CNN1+L_CNN2)；

其中，α，β是超参数，代表L_SRE的权重系数；L_total是整个CNN框架的损失；δ是两个分支的损失占整个训练框架的权重；

步骤六、输出预测结果

RNN模块由两个Bi-LSTM网络构成，RNN模块作为CNN模块的下游，将来自于上游CNN模块提取的图像特征作为Bi-LSTM网络的输入，同时，在Bi-LSTM网络的输出之后，再经过全连接层进行分类。

相比于现有技术，本发明具有如下优点：

(1)本发明创新性地以细粒度分类的角度去解决颅内出血亚类型分类这个问题，在CNN部分使用了紧凑双线性池化的网络架构，提高了神经网络的特征表达能力，提升了分类性能。

(2)针对于CT图像数据集中存在的数据不均衡问题，本发明提出了一种新的损失函数—多权重焦点(Multi-weighted Focal,MWF)损失，通过给各个类别添加不同权重和增加难分样本的挖掘程度，解决了多标签分类的样本不均衡和样本挖掘问题。

(3)本发明设计了Softmax相对熵(Softmax Relative Entropy,SRE)损失函数考虑标签之间的相关关系，使用Softmax与Sigmoid结合的方式，得到真实标签与预测标签的概率分布，通过Relative Entropy去计算真实标签分布与预测标签概率分布的差异，从而将多标签类别之间的相关关系考虑在内。

(4)本发明的网络框架整体分成两大模块：CNN模块和RNN模块。本发明将MWF损失和SRE损失以及CNNs的双线性池化融合成新的CNN框架—ICH亚类型多标签细粒度网络架构，并将该网络架构作为CNN模块。RNN模块由两个BiLSTM网络构成，作为CNN模块的下游，其目的是结合CT切片之间的序列相关性信息，从而达到更优的分类性能。

附图说明

图1为ICH亚类型分类的多标签细粒度网络架构；

图2为ICH亚类型分类的CNN-RNN架构。

具体实施方式

下面结合附图对本发明的技术方案作进一步的说明，但并不局限于此，凡是对本发明技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的保护范围中。

本发明提供了一种基于双线性池化应用于CT影像的颅内出血亚类型分类算法，该算法创新性地以细粒度分类的角度去解决颅内出血亚类型分类这个问题，在CNN部分使用了紧凑双线性池化的网络架构，提高了神经网络的特征表达能力，提升了分类性能。双线性池化已经被证明是解决细粒度分类问题的有效方法。它通过对高阶统计信息进行建模，将来自两个不同源的CNN或者同源的CNN的特征看作是两种不同的特征。并对两个特征进行外积计算，然后通过池化操作进行特征融合以捕获不同特征之间的关系，进而得到更强的全局特征表示。该方法用图像平移不变的方法，对局部的成对特征进行交互式建模。

如图1和图2所示，CNN网络训练结构包括紧凑双线性池化的网络架构、多权重焦点(Multi-weighted Focal,MWF)损失、Softmax相对熵(Softmax Relative Entropy,SRE)损失，并将提出的MWF损失和SRE损失以及CNNs的双线性池化融合成新的CNN框架—ICH亚类型多标签细粒度网络架构，并将该网络架构作为CNN模块。RNN模块由两个BiLSTM网络构成，作为CNN模块的下游，其目的是结合CT切片之间的序列相关性信息，从而达到更优的分类性能。

双线性池化是对于图像I在位置l的两个特征f_A(l,i)∈R^T×M和f_B(l,i)∈R^T×N，以下公式展示了双线性池化的计算过程。

δ(I)＝∑_lbilinear((l,i,f_A,f_B))∈R^M×N；

x＝vec(δ(I))∈R^MN×1；

z＝y/||y||₂∈R^MN×1；

其中，M和N代表的是通道数，f_A(·)与f_B(·)为同一图像在不同位置的两个特征，bilinear(·)为双线性池化，δ(I)是sum pooling之后的矩阵，ver(δ(I))为将得到的矩阵δ(I)扩展成一个向量，记为x，

为对x进行矩阵归一化，

表示对y进行L₂归一化。对x矩阵归一化和L₂归一化之后，就得到了融合后的特征z。由上可知，最后的bilinear特征的维度是M×N。由于这种高维度的特征不利于分类和作为下游的RNN的输入，所以本发明使用了紧凑双线性池化(Compact Bilinear Pooling,CBP)，得到更低维度的图像特征映射。CBP基于近似核运算的思想，使用低维度投影方法将高维特征映射成低维特征，并保证低维特征具有和高维特征相近的表征能力。构建近似映射的投影方法有两种：张量草图(Tensor Sketch,TS)和随机麦克劳林法(Random Maclauruin,RM)。在本发明中，使用Tensor Sketch方法进行近似映射。

针对于CT图像数据集中存在的数据不均衡问题，本方法提出了一种新的损失函数—多权重焦点(Multi-weighted Focal,MWF)损失，通过给各个类别添加不同权重和增加难分样本的挖掘程度，解决了多标签分类的样本不均衡和样本挖掘问题。具体实施步骤如下：

MWF的计算过程如下：

其中，

代表网络对c类的预测值，σ(·)代表的是Sigmoid函数，x_c代表的是全连接层针对c类的输出，K代表的是类别的数量，N_c是当前mini-batch中c类别的正样本数量，N代表当前mini-batch中所有训练样本的数量，γ是一个控制系数，其目的是减少易分类样本的损失，从而使得模型在训练时更专注于难分样本。MWF使用了动态的权重系数去控制正负样本的预测损失。在每个mini-batch中，MWF通过计算正样本的数量占batch中总样本数的比重得到正样本损失的所占的比重。这种方法不仅平衡了网络学习过程中的参数偏移，还减少了样本采样过程中的随机性。

本发明设计了Softmax相对熵(Softmax Relative Entropy,SRE)损失函数考虑标签之间的相关关系，使用Softmax与Sigmoid结合的方式，得到真实标签与预测标签的概率分布，通过Relative Entropy去计算真实标签分布与预测标签概率分布的差异，从而将多标签类别之间的相关关系考虑在内。具体实施如下：

P_target＝P{X＝ST_c}；

P_pred＝P{X＝SP_c}；

首先，将样本的标签进行Softmax处理，得到标签的概率分布P_target。y_c代表的是第c类的目标标签。ST_c代表目标标签中第c类对应的softmax得到的结果。之后，对样本的预测概率做softmax处理，得到预测标签的概率分布P_pred。l_c代表的是第c类全连接层的输出经过Sigmoid之后得到的预测概率。SP_c代表预测标签中第c类对应的Softmax得到的结果。得到P_target和P_pred之后，引入相对熵去计算两个概率分布之间的差异。

本发明基于双线性池化应用于CT影像的颅内出血亚类型分类算法的具体实施步骤如下：

步骤一：从dicom格式的医学CT影像得到CT图像值：

dicom格式的图片要转化成CT图像值，转化公式如下：

image_hu＝pixel×Rescaleslope+Rescaleintercept；

其中，image_hu为CT图像值，又称hu值；pixel为dicom影像的像素值，Rescaleslope为缩放截距，Rescaleintercept为缩放斜率；这两个参数由CT仪器的硬件制造商决定，可从dicom格式的医学CT影像得到。

步骤二：Windowing操作

由于hu值的范围一般很大，这样就导致了对比度很差，所以需要进行windowing。Windowing主要调整适合研究方向的窗宽和窗位。窗宽是CT图像上显示的hu值范围。窗位指的是窗的中心位置，同样的窗宽，由于窗位不同，CT图像所包括的hu值也有差别。对步骤一得到的CT图像值进行windowing操作，使用的窗口如下：Brain window：[40，80]，Subduralwindow：[80，200]，Bone window：[40，380]，其中，方括号内第一位数字表示窗位，第二位数字表示窗宽。

该步骤的意义是得到对应部位的图像病灶影像表现，得到对应的表现之后进行第三步，生成jpg的图像；步骤一至三属于对图像的预处理，也就是由dicom->jpg图像，然后将jpg图像喂给神经网络。

步骤三：转化成jpg图像

Windowing操作完之后再进行归一化使得图像的像素值在[0，1]之间，将图片的像素值与255相乘得到[0，255]之间的值，随后使用opencv的imwrite()函数生成.jpg图像；Opencv是图像处理的一个包，imwrite()是这个包里的一个函数。opencv和imwrite()函数的含义均为本领域公知。为了更好的进入神经网络且减少GPU的计算量，本发明对图像进行了缩放，从之前的512×512缩放为256×256。为了提高网络的特征表达能力，还去掉了头骨及外围组织。

步骤四：训练CNN网络

使用多权重焦点(Multi-weighted Focal,MWF)损失、Softmax相对熵(SoftmaxRelative Entropy,SRE)损失训练网络，在训练过程中通过反向传播调整网络参数，以得到更加符合图像检索需求的网络。

本步骤中，使用的是由Kaggle比赛提供的公开数据集。但在研究过程中，本发明发现该数据集中存在大量的重复样本和无效样本，这些样本大多是没有意义的，不仅使样本分布更加不均衡从而影响网络的特征表达，而且增大了GPU的计算量。因此，实验过程中删掉了大量的重复样本和无效样本，得到了更为精简的样本数据集。由于比赛方只给出了训练集的标签，本方法将训练集以4:1的比例重新划分了训练集和测试集。

步骤五：特征提取

图1表示ICH亚类型多标签细粒度CNN网络框架。用ICH亚类型多标签细粒度CNN网络框架提取图像特征，使用两个不同源的CNN网络作为特征提取器，CNN1代表的是ResNet50，CNN2代表的是DenseNet121。并为每个分支网络使用不同的损失函数L_CNN1和L_CNN2。然后经过CBP之后得到聚合特征，使用BCE损失作为整体CNN架构的损失函数。其公式定义如下：

L_CNN1＝L_MWF+αL_SRE；

L_CNN2＝L_MWF+βL_SRE；

L_total＝L_BCE+δ(L_CNN1+L_CNN2)；

其中，α，β是超参数，代表的是L_SRE的权重系数。其目的是控制SRE在融合损失中的权重。超参数α，β的值越大，则代表SRE聚合损失的权重越大，使得网络更注重关注样本之间的标签相关性。L_total代表的是整个CNN框架的损失，它由L_BCE、L_CNN1、L_CNN2三个损失函数构成，并为两个分支的损失函数L_CNN1和L_CNN2加入了权重δ，δ也是一个超参数，它代表两个分支的损失占整个训练框架的权重。

步骤六：输出预测结果

RNN模块由两个Bi-LSTM网络构成，作为CNN模块的下游，其目的是结合CT切片之间的序列相关性信息，从而达到更优的分类性能。Bi-LSTM综合了两个方向的序列数据特征进行预测。Bi-LSTM的输入来自于上游CNN模块提取的图像特征，将CBP之后得到的高维特征作为Bi-LSTM网络的输入。同时，在Bi-LSTM网络的输出之后，再经过全连接层进行分类。CNN-RNN网络架构如图2所示。

本方法使用的深度学习模型是在Pytorch框架下实现的，使用NVIDIA RTX 2080TI显卡进行GPU加速训练。实验部分使用的数据集是数据处理之后得到的数据集。在训练CNN的过程中，使用的优化器是Adam，初始学习率0.00005，学习率的调整策略是根据训练批次调节的，每3个epoch降为原来的0.5倍。为了防止过拟合，权重衰减设置为0.0001。图片大小设置成256×256，每个mini-batch的batchsize设置成128，总共训练20个epoch。为了加速训练，使用了apex进行混合精度训练，opt_level设置为O1。在训练RNN的过程中，使用的优化器是Adam，初始学习率是0.0001，学习率的调整策略与CNN部分相同，权重衰减设置为0.0001，dropout的值设置成0.2。表1的实验结果表明本发明提出的方法在图像检索领域取得了显著的提升效果，且具有广泛的应用前景。

表1

方法	Hamming	Accuracy	Precision	Recall	F1
						Dense121+GRU	0.0356	0.8663	0.8628	0.7656	0.8109
Resnet50+LSTM	0.0359	0.8683	0.8405	0.7901	0.8145
						Ourproposed	0.0332	0.8764	0.8643	0.7908	0.8259

Claims

1.一种基于双线性池化应用于CT影像的颅内出血亚类型分类算法，其特征在于所述颅内出血亚类型分类算法包括如下步骤：

步骤一、从dicom格式的医学CT影像得到CT图像值；

步骤二、Windowing操作

对步骤一得到的CT图像值进行windowing操作；

步骤三、转化成jpg图像

步骤四、训练CNN网络使用

多权重焦点损失、Softmax相对熵损失训练CNN网络，在训练过程中通过反向传播调整网络参数，以得到更加符合图像检索需求的CNN网络；

步骤五、特征提取

用ICH亚类型多标签细粒度CNN网络框架提取图像特征，使用两个不同源的CNN网络作为特征提取器，CNN1代表ResNet50，CNN2代表DenseNet121，并为每个分支网络使用不同的损失函数L_CNN1和L_CNN2，然后经过CBP之后得到聚合特征，使用BCE损失作为整体CNN架构的损失函数L_total；

步骤六、输出预测结果

2.根据权利要求1所述的基于双线性池化应用于CT影像的颅内出血亚类型分类算法，其特征在于所述步骤二中，使用的窗口如下：Brainwindow：[40，80]，Subdural window：[80，200]，Bone window：[40，380]，其中，方括号内第一位数字表示窗位，第二位数字表示窗宽。

3.根据权利要求1所述的基于双线性池化应用于CT影像的颅内出血亚类型分类算法，其特征在于所述步骤四中，多权重焦点损失的计算公式如下：

其中，

代表网络对c类的预测值，σ(·)代表的是Sigmoid函数，x_c代表的是全连接层针对c类的输出，K代表的是类别的数量，N_c是当前mini-batch中c类别的正样本数量，N代表当前mini-batch中所有训练样本的数量，γ是一个控制系数，其目的是减少易分类样本的损失，从而使得模型在训练时更专注于难分样本。

4.根据权利要求1所述的基于双线性池化应用于CT影像的颅内出血亚类型分类算法，其特征在于所述步骤四中，Softmax相对熵损失的计算公式如下：

P_target＝P{X＝ST_c}；

P_pred＝P{X＝SP_c}；

其中，P_target是标签的概率分布，y_c是第c类的目标标签，x_c是第c类样本，ST_c是目标标签中第c类对应的softmax得到的结果，P_pred是预测标签的概率分布，l_c是第c类全连接层的输出经过Sigmoid之后得到的预测概率，SP_c是预测标签中第c类对应的Softmax得到的结果。

5.根据权利要求1所述的基于双线性池化应用于CT影像的颅内出血亚类型分类算法，其特征在于所述步骤五中，L_CNN1、L_CNN2和L_total公式定义如下：

L_CNN1＝L_MWF+αL_SRE；

L_CNN2＝L_MWF+βL_SRE；

L_total＝L_BCE+δ(L_CNN1+L_CNN2)；

其中，α，β是超参数，代表L_SRE的权重系数；L_total是整个CNN框架的损失；δ是两个分支的损失占整个训练框架的权重。