CN111932512B

CN111932512B - 一种基于cnn和nlstm神经网络应用于ct影像的颅内出血检测方法

Info

Publication number: CN111932512B
Application number: CN202010785690.1A
Authority: CN
Inventors: 刘萍萍; 石立达; 朱俊杰; 陈儇; 刘鹏程; 周求湛; 金百鑫
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2020-08-06
Filing date: 2020-08-06
Publication date: 2022-08-05
Anticipated expiration: 2040-08-06
Also published as: CN111932512A

Abstract

本发明公开了一种基于CNN和NLSTM神经网络应用于CT影像的颅内出血检测方法，属于智能医学影像处理领域。本发明使用CNN神经网络提取CT影像的图片特征，在提取CNN特征之前，CNN神经网络也是经过训练的，我们这里使用的预训练CNN网络为ResNeXt。提取的图像的embedding和病人的序列信息相结合作为NLSTM神经网络的输入，通过交叉熵损失函数计算损失反向传播网络，最后得到的网络结构去进行测试。这种CNN与RNN神经网络相结合的模式很适合处理CT序列影像，CNN与NLSM是一种新颖的颅内出血检测分类方法。本发明公开了基于CNN和NLSTM相结合的颅内出血检测方法，是一种准确高效的自动出血检测和分类方法，对临床有着极其重要的价值，具有广阔的应用场景。

Description

一种基于CNN和NLSTM神经网络应用于CT影像的颅内出血检测方法

技术领域

本发明属于智能医学影像处理领域，具体涉及一种基于CNN和NLSTM神经网络应用于CT影像的颅内出血检测方法。

背景技术

深度学习是机器学习和人工智能研究的最新趋势之一，它也是当今最流行的科学研究趋势之一。近年来，深度学习方法在医学影像处理中得到了广泛的关注。对于一些特定的任务，深度学习方法已经显示出可以与医学专家相匹敌或超越医学专家的表现。

颅内出血(ICH)，是指脑中的血管破裂引起出血，因此由血管获得血液的脑细胞受到破坏的同时，由于出血压迫周围的神经组织而引起障碍。它也叫脑出血、脑溢血、出血性中风，占全部脑卒中的20％-30％，急性期病死率为30％-40％。颅内出血包含：脑室内出血(IVH)、脑实质性出血(IPH)、蛛网膜下腔出血(SAH)、硬膜外出血(EDH)和硬膜下血肿(SDH)。可见，颅内出血分类主要是与出血位置有关。

诊断颅内出血是医学领域的一个重要挑战。确定颅内出血的部位和类型是治疗病人的关键。目前的诊断颅内出血的方法是对大脑进行CT扫描。由于脑组织、血液、肌肉和骨骼等对X射线吸收特性不同，CT扫描会产生高对比度图像，然后供医生查看。传统的分类方法有放射科医生负责目视检查和定量评估。这个过程不仅非常耗时而且需要有长期工作经验训练有素的放射科医生才能判别准确。

发明内容

本发明的目的是为了解决目前颅内出血的CT图像评估耗时且对医生的专业性依赖较大的问题，提供一种基于CNN和NLSTM神经网络应用于CT影像的颅内出血检测分类方法。

为实现上述目的，本发明采取的技术方案如下：

步骤一：从dicom格式的医学CT影像得到CT图像值：

dicom格式的图片要转化成CT图像值，转化公式如下：

image_hu＝pixel×Rescaleslope+Rescaleintercept

其中，image_hu为CT图像值，又称hu值；pixel为dicom影像的像素值，Rescaleslope为缩放斜率，Rescaleintercept为缩放截距；

步骤二：Windowing操作

对步骤一得到的CT图像值进行Windowing操作，使用的窗口如下：Brain window：[40，80]，Subdural window：[80，200]，Bone window：[40，380]，其中，方括号内第一位数字表示窗位，第二位数字表示窗宽；

步骤三：转化成jpg图像

Windowing操作完之后再进行归一化使得图像的像素值在[0，1]之间，将图片的像素值与255相乘得到[0，255]之间的值，随后使用opencv的imwrite()函数生成.jpg图像；

步骤四、训练CNN神经网络

预训练网络模型是ResNeXt101神经网络，数据集使用步骤三得到的jpg图像，并且在训练过程中对jpg图像做数据增强处理，使用的函数库为Albumentations函数库；

在训练过程中使用的损失函数是交叉熵损失，其公式如下：

其中，L为交叉熵损失，N为一个batchsize的样本数量，i为样本，y_i为第i个样本的标签，x_i为当前模型第i个样本的预测值；

使用的深度学习框架是Pytorch，使用的是torch.nn.BCEWithLogitsLoss()函数，该函数包括了交叉熵损失和SIGMOD函数；通过计算损失反向传播调整网络参数，得到训练好的网络参数；

步骤五：提取图片的embedding

通过步骤四中训练好的网络结构和参数，提取图片的embedding，将图片进行特征提取，从而将每一张图片映射成一个2048维的向量，并保存到.npz文件中，另外，将dataloader数据帧信息也保存到文件中；

步骤六：创建序列信息

根据数据集中给定的图像的数据标签创建序列信息，序列信息包括以下几个字段：PatientID，SliceID，Image，seq，PatientID代表病人的ID，是每个病人的唯一标识，SliceID代表CT图像的序列ID，每个病人对应一个sliceID，Image代表图片的ID，是每张图片的唯一标识，seq代表该图片的序列信息，seq为0代表的是这张图片是该序列的第一张CT影像，范围为[0，60]；

步骤七：读取数据帧信息和embedding并生成dataloader

将步骤四中保存下来的数据帧信息和embedding读取出来，生成新的dataloader，以一个序列作为NLSTM的输入，对于序列长度不同的batch，使用零位虚拟embedding进行填充到相同的长度，在损失函数计算之前将虚拟信息清除掉；

步骤八：训练NLSTM网络

在NLSTM中，使用一个新的内部记忆函数m_t得到c_t，新的c_t函数的公式为：

c_t＝m_t(f_t⊙c_t-1,i_t⊙g_t)

其中，c_t为t时刻的细胞状态，f_t为遗忘门控，⊙为矩阵点乘即两个矩阵对应元素的相乘，c_t-1为上一个时刻的细胞状态，f_t⊙c_t-1决定哪些信息需要遗忘，i_t为输入门控，对输入x_t进行选择记忆，x_t为t时刻的输入，g_t为拼接向量乘以权重矩阵之后再通过tanh激活函数转换到-1到1之间的值；m_t为记忆函数状态m在t时刻的内部记忆，通过这个函数状态得到c_t和m_t+1，m_t+1是记忆函数状态m在时间t+1的内部记忆，使用另一个LSTM实现这个内部记忆函数，并设定

这样就形成了Nested LSTM，简称NLSTM；

NLSTM中的内部记忆函数的输入和隐藏状态为：

其中，

为内部记忆函数的隐层传递状态，

为内部记忆函数的输入，σ_c为tanh函数，W_xc为外部x_t的权重，h_t-1为t-1时刻的隐层传递状态，W_hc为h_t-1的权重，b_c为偏置项；

在训练过程中使用和训练CNN网络相同的损失函数torch.nn.BCEWithLogitsLoss()作为损失计算，在训练过程中，用一个序列作为一个batch，当loss不再下降时，NLSTM网络训练完成；

步骤九：生成预测文件

网络训练好了之后，针对测试集，生成预测的csv文件，进行指标测试。

本发明相对于现有技术的有益效果为：基于CNN和NLSTM算法，本发明提供了一种准确高效的自动出血检测和分类方法，对临床有着极其重要的价值，具有广阔的应用场景。

附图说明

图1为本发明CNN-NLSTM网络训练流程图；

图2为NLSTM网络架构和结构图；

图3为本发明模型的ROC曲线图。

具体实施方式

下面结合附图对本发明的技术方案作进一步的说明，但并不局限于此，凡是对本发明技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的保护范围中。

本发明提供了一种基于深度学习CNN和NLSTM神经网络相结合针对于CT影像的颅内出血检测分类方法，使用CNN神经网络提取CT影像的图片特征。在提取CNN特征之前，CNN神经网络也是经过训练的，我们这里使用的预训练CNN网络为ResNeXt。提取的图像的embedding和病人的序列信息相结合作为NLSTM神经网络的输入，通过交叉熵损失函数计算损失反向传播网络，最后得到的网络结构去进行测试。这种CNN与RNN神经网络相结合的模式很适合处理CT序列影像，CNN与NLSM是一种新颖的颅内出血检测分类方法。

具体实施方式：本实施方式记载的是基于CNN和NLSTM神经网络应用于CT影像的颅内出血检测方法，所述方法为：

步骤一：从dicom格式的医学CT影像得到CT图像值：

dicom格式的图片要转化成CT图像值，转化公式如下：

image_hu＝pixel×Rescaleslope+Rescaleintercept

其中，image_hu为CT图像值，又称hu值；pixel为dicom影像的像素值，Rescaleslope为缩放斜率，Rescaleintercept为缩放截距，这两个参数由CT仪器的硬件制造商决定，可从dicom格式的医学CT影像得到；

步骤二：Windowing操作

由于hu值的范围一般很大，这样就导致了对比度很差，所以需要进行Windowing。Windowing主要调整适合研究方向的窗宽和窗位。窗宽是CT图像上显示的hu值范围。窗位指的是窗的中心位置，同样的窗宽，由于窗位不同，CT图像所包括的hu值也有差别。对步骤一得到的CT图像值进行Windowing操作，使用的窗口如下：Brain window：[40，80]，Subduralwindow：[80，200]，Bone window：[40，380]，其中，方括号内第一位数字表示窗位，第二位数字表示窗宽；

该步骤的意义是得到对应部位的图像病灶影像表现，得到对应的表现之后进行第三步，生成jpg的图像；步骤一至三属于对图像的预处理，也就是由dicom->jpg图像，然后将jpg图像喂给神经网络；

步骤三：转化成jpg图像

Windowing操作完之后再进行归一化使得图像的像素值在[0，1]之间，将图片的像素值与255相乘得到[0，255]之间的值，随后使用opencv的imwrite()函数生成.jpg图像；Opencv是图像处理的一个包，imwrite()是这个包里的一个函数。opencv和imwrite()函数的含义均为本领域公知。

步骤四、训练CNN神经网络

该步骤使用迁移学习的思想，预训练网络模型是ResNeXt101神经网络(网络模型为现有技术(相当于骨架)，利用这个模型去训练神经元权重(血肉))，在这个模型基础上做了微调，数据集使用步骤三得到的jpg图像，并且在训练过程中对jpg图像进行Flip、Normalize或RandomCrop的数据增强处理，使用的函数库为Albumentations函数库；

在训练过程中使用的损失函数是交叉熵损失，其公式如下：

使用的深度学习框架是Pytorch，使用的是torch.nn.BCEWithLogitsLoss()函数，该函数包括了交叉熵损失和SIGMOD函数；通过计算损失反向传播调整网络参数，得到训练好的网络参数；torch.nn.BCEWithLogitsLoss()函数的作用是训练网络。前面的段落讲的是使用的是交叉熵损失，这段讲的是代码的实现。用的是pytorch框架，交叉熵损失对应的是torch.nn.BCEWithLogitsLoss这个方法，这个函数是交叉熵函数与SIGMOD函数结合，SIGMOD函数是领域内公知的。

步骤五：提取图片的embedding

通过步骤四中训练好的网络结构和参数，提取图片的embedding(含义为本领域公知)，在这个过程中不存在训练的过程，与步骤四中的网络不同的是，在此步骤中的网络结构中是没有全连接层的，它的作用是将图片进行特征提取，从而将每一张图片映射成一个2048维的向量，并保存到.npz文件中，另外，将dataloader数据帧信息也保存到文件中；

步骤六：创建序列信息(元信息)

根据数据集中给定的图像的数据标签创建序列信息(元信息)，序列信息包括以下几个字段：PatientID，SliceID，Image，seq，PatientID代表病人的ID，是每个病人的唯一标识，SliceID代表CT图像的序列ID，每个病人对应一个sliceID，Image代表图片的ID，是每张图片的唯一标识，seq代表该图片的序列信息，seq为0代表的是这张图片是该序列的第一张CT影像，范围为[0，60]；

步骤七：读取数据帧信息和embedding并生成dataloader

将步骤四中保存下来的数据帧信息和embedding读取出来，生成新的dataloader，与训练CNN不同的是，这里是以一个序列作为NLSTM的输入，而不是以单张图片的形式。对于序列长度不同的batch，使用零位虚拟embedding进行填充到相同的长度，在损失函数计算之前将虚拟信息清除掉；

步骤八：训练NLSTM网络

NLSTM网络能够关注同一个序列中当前图片和上一张\下一张图片之间的差异，它和LSTM与堆栈LSTM相比，能够提取更深层次的特征信息和处理更长时间规模的内部记忆；在LSTM中c_t的值是由遗忘门和输入门做加法计算得到的，其公式为：

c_t＝f_t⊙c_t-1+i_t⊙g_t

其中，c_t为t时刻的细胞状态，f_t为遗忘门控，⊙为矩阵点乘即两个矩阵对应元素的相乘，c_t-1为上一个时刻的细胞状态，f_t⊙c_t-1决定哪些信息需要遗忘，i_t为输入门控，对输入x_t进行选择记忆，x_t为t时刻的输入，g_t为拼接向量乘以权重矩阵之后再通过tanh激活函数转换到-1到1之间的值；

c_t＝m_t(f_t⊙c_t-1,i_t⊙g_t)

其中，m_t为记忆函数状态m在t时刻的内部记忆，通过这个函数状态得到c_t和m_t+1，m_t+1是记忆函数状态m在时间t+1的内部记忆，使用另一个LSTM实现这个内部记忆函数，并设定

这样就形成了Nested LSTM，简称为NLSTM；

它的网络结构如附图2所示：

NLSTM中的内部记忆函数的输入和隐藏状态为：

其中，

为内部记忆函数的隐层传递状态，

为内部记忆函数的输入，σ_c为tanh函数，W_xc为外部x_t的权重，h_t-1为t-1时刻的隐层传递状态，W_hc为h_t-1的权重，b_c为偏置项；在这个网络结构中x_t代表的是t时刻的输入，h_t代表的是t时刻的隐层传递状态，下标代表的是时刻。

代表是内部记忆函数的t-1时刻的隐层传递状态。有～的代表内部记忆函数的输入或者隐层。

步骤九：生成预测文件

本发明中使用的数据集是由北美放射学会与美国神经放射学会和MD.ai成员合作提供的开源数据集。原数据集的训练集有75w+张，对这75w+张图片进行了训练，测试集有12w+张。由于得不到原测试集的label，我们对训练集重新进行了划分。在原来训练集中的75w+张图片划分成5份，前4份用来训练，最后1份用来测试。重新划分的数据集训练集有62w+张图片，测试集有13w+张图片。

本发明的网络模型用常用的机器学习评价指标得到的结果如下表：

评价指标	准确率	精确度	F1-分数
				结果	0.9795	0.9787	0.9789

本发明的模型的ROC曲线如图3所示。

本发明中使用了GPU加速计算。使用的显卡型号是NVIDIA RTX2080TI。在训练CNN的过程中，使用的学习率为0.00001，batchsize为32，图片尺寸是448。在训练序列网络的过程中，我们使用0.00005的学习率，batchsize为4(4个图片序列为一个batch)，NLSTM的隐层个数是2048。