CN113241184B

CN113241184B - 一种儿童肺炎辅助诊断模型及其训练方法

Info

Publication number: CN113241184B
Application number: CN202110705093.8A
Authority: CN
Inventors: 郑力新; 王浩楠; 严潭; 苏秋玲
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2022-07-29
Anticipated expiration: 2041-06-24
Also published as: CN113241184A

Abstract

本发明提供一种儿童肺炎辅助诊断模型及其训练方法，训练方法：获取儿童肺炎患者的医学图像及对应的医学诊断语句，所述医学图像作为训练图像集合，所述医学诊断语句则作为训练语句；通过CNN神经网络对所述图像训练集数据提取图像深度特征向量，得到深度特征图集，通过word2vec模型对所述训练语句进行词向量训练，得到深度特征向量词集；对所述深度特征图集和所述深度特征向量词集进行特征融合，后通过LSTM神经网络进行训练，即能获得训练好的儿童肺炎辅助诊断模型。本发明通过对现有儿童肺炎患者的医学图像及对应的医学诊断语句进行训练，让训练所得的模型作为医生学习诊断的工具或为医生的临床诊断提供有效的参考意见。

Description

一种儿童肺炎辅助诊断模型及其训练方法

技术领域

本发明涉及医学计算机技术领域，特别涉及一种儿童肺炎辅助诊断模型及其训练方法。

背景技术

肺炎是由病原体感染或吸入羊水及油类和过敏反应等所引起的肺部炎症，主要临床表现为发热、咳嗽、呼吸急促、呼吸困难以及肺部啰音等。儿童肺炎的检查有血常规检查、C反应蛋白试验、病原学检查、胸部X线检查。目前儿童肺炎的诊断一般是配合身体体征及胸腔X光进行检测和诊断，这种诊断方法早期可见肺纹理增强，以后可见到双肺中下野有大小不等的点片状浸润，或融合成片状阴影，常并发肺气肿、肺不张。肺炎是一种影响肺部功能的急性呼吸道感染疾病，肺炎使得肺炎泡发炎导致呼吸道产生脓液，让人呼吸困难。根据世界卫生组织的报告，目前诊断的方法主要是依靠胸部X光检查来诊断肺炎，肺炎在胸部X光图像中表现为不透明增加的区域。

然而胸部X光影像诊断方法往往和影像学医生的经验息息相关。但是同一张胸部X光医学图像，不同时间点或不同医生的判读结果不一致性很高，具有很大的观察者差异。因此，在影像学医生专家稀缺的情况下，如何让没有儿童肺炎胸腔X光诊断经验的医生在面对大量的病患时，也能快速掌握儿童肺炎的影像学特征成为当务之急。而若能实现一种儿童肺炎辅助诊断模型，一方面可以为医生的诊断提供帮助，另一方面还可以让该模型作为医生学习诊断的工具，无疑会为医生的快速成长提供巨大的助力。

发明内容

本发明要解决的技术问题，在于提供一种儿童肺炎辅助诊断模型及其训练方法，通过对现有儿童肺炎患者的医学图像及对应的医学诊断语句进行训练，让训练所得的模型作为医生学习诊断的工具，无疑会为医生的快速成长提供巨大的助力。

第一方面，本发明提供了一种儿童肺炎辅助诊断模型，经由下述步骤训练获得：

S1、获取儿童肺炎患者的医学图像及对应的医学诊断语句，所述医学图像作为训练图像集合，所述医学诊断语句则作为训练语句；

S2、通过CNN神经网络对所述图像训练集数据提取图像深度特征向量，得到深度特征图集，通过word2vec模型对所述训练语句进行词向量训练，得到深度特征向量词集；

S3、对所述深度特征图集和所述深度特征向量词集进行特征融合，获得融合特征集合；

S4、通过LSTM神经网络对所述融合特征集合进行训练，即能获得训练好的儿童肺炎辅助诊断模型。

第二方面，本发明提供了一种儿童肺炎辅助诊断模型的训练方法，其特征在于：包括下述步骤：

本发明实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：本发明联合CNN神经网络和LSTM神经网络对训练集进行训练，先利用CNN神经网络作encoder，再使用基于LSTM神经网络的seq2seq模型作为decoder，其中encoder输入为训练图像集合和对应的医学诊断语句，decoder输入包括训练图像集经线性变换后的特征向量对应的索引值，索引值能够映射医学诊断语句词汇表中的每个词汇。CNN神经网络使用batch_normalization来解决深度神经网络层数太多，而没有办法有效向前传递的问题，不仅加快模型的收敛速度，而且更重要的是在一定程度上缓解了深度网络中的“梯度弥散”。LSTM神经网络能够解决RNN的梯度倾向于消失或爆炸问题，也可解决长期依赖问题，且LSTM神经网络中添加了dropout层有效防止了过拟合。融合训练采用类似特征金字塔网络(FPN)的思想，通过element-wise add方式来融合特征，FPN里的金字塔网络可以把分辨率最小但语义最强的特征图增加分辨率，其中add可以在不增加图像描述的维度本身的前提下增加图像特征下的描述信息量，这显然是对最终的图像的分类是有益的。另外，本发明还通过旋转和翻转等图像处理方法扩充原始数据集，解决儿童肺炎胸片数据集有限的问题，数据集扩充能够将准确率提高1～3％。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明用于训练儿童肺炎辅助诊断模型的方法的流程图；

图2为本发明融合过程的状态示意图。

具体实施方式

本申请实施例通过提供一种儿童肺炎辅助诊断模型及其训练方法，通过对现有儿童肺炎患者的医学图像及对应的医学诊断语句进行训练，让训练所得的模型作为医生学习诊断的工具，无疑会为医生的快速成长提供巨大的助力。

本申请实施例中的技术方案，总体思路如下：本发明联合CNN神经网络和LSTM神经网络对训练集进行训练，先利用CNN神经网络作encoder，再使用基于LSTM神经网络的seq2seq模型作为decoder，其中encoder输入为训练图像集合和对应的医学诊断语句，decoder输入包括训练图像集经线性变换后的特征向量对应的索引值，索引值能够映射医学诊断语句词汇表中的每个词汇。LSTM神经网络这种极大似然估计的方式等价于使用对数损失函数的经验风险最小化。

实施例一

本实施例提供一种儿童肺炎辅助诊断模型，如图1所示，经由下述步骤训练获得：

S1、获取儿童肺炎患者的医学图像(即5岁以下儿童的胸部X光片)，及对应的医学诊断语句，所述医学图像作为训练图像集合，所述医学诊断语句则作为训练语句；

S2、通过CNN神经网络对所述图像训练集数据提取图像深度特征向量，通过空间特征的深度提取来保留有效信息，得到深度特征图集，通过word2vec模型对所述训练语句进行词向量训练，得到深度特征向量词集；

其中，作为本实施例的一种更优或更为具体的实现方式，首先为了弥补原始数据不足的缺陷，所述步骤S1中还对所述医学图像进行图像扩充处理，图像扩充处理具体是：

S11、将所述医学图像作为初始图像；

S12、对所述初始图像进行旋转，得到旋转医学图像；对所述初始图像进行缩放处理，得到缩放医学图像；

其中，所述旋转处理采用下述公式1计算：

公式1中，(i₂,j₂)是初始图像F(i₂,j₂)的像素点的坐标，θ为旋转角度，如可顺时针或逆时针旋转45°、90°、135°、180°、225°、270°、315°等，水平方向翻转180°和基于垂直方向翻转180°，(i₁,j₁)是将对应像素点(i₂,j₂)旋转之后的像素点的坐标；

所述缩放处理采用下述公式2计算：

公式2中，(i₂,j₂)是初始图像某一像素点的坐标，

为水平方向缩放的比率，

为垂直方向缩放的比率，(i₁,j₁)是将对应像素点(i₂,j₂)缩放之后的像素点的坐标；

S13、将所述初始图像、所述旋转医学图像和所述缩放医学图像一并作为所述训练图像集合，从而弥补了原始数据不足的缺陷，同时还将所述初始图像、所述旋转医学图像和所述缩放医学图像进行数据归一化处理，可加快梯度下降求最优解的速度，提高精度，有助于解决深度模型过拟合的问题。

所述步骤S2中，所述Word2Vec模型将所述训练语句中的每个词汇对应一个多维向量,通过该多维向量用变化较小的数字来表征词汇，且每个词汇均具有一个唯一的索引值；

所述CNN神经网络具体是：使用在Imagenet数据集预训练过的CNN神经网络作为初始CNN神经网络，由于Imagenet数据集的最后一个分类层可对1000个不同的类别进行分类，而本发明只需分两个类别，因此需使用Dense层将该初始CNN神经网络的最后一个分类层替换为具有两个分类的分类层，得到所述CNN神经网络；CNN神经网络使用batch_normalization来解决深度神经网络层数太多，而没有办法有效向前传递的问题。不仅加快模型的收敛速度，而且更重要的是在一定程度上缓解了深度网络中的“梯度弥散”，降低网络对初始化权重不敏感；允许使用较大的学习率。其中，CNN神经网络的激活函数使用ReLU，优点是有效地解决了梯度小时问题，使计算速比较快。

所述图像深度特征向量还需经线性变换，从而可得到具有与LSTM神经网络的输入维度相同的维度，再分别通过所述索引值与所述深度特征向量词集中的每个词汇进行映射，从而可将图像深度特征向量和深度特征向量词关联起来，便于后期的融合。

所述步骤S3中，所述特征融合是采用类似特征金字塔网络(FPN)的思想，通过element-wise add方式进行，合并图像深度特征和词汇深度特征后输出生成融合特征集合，每张图像的融合特征即“图片特征+第n单词向量”，特征融合为下述公式3：

公式3中，Z为融合特征，X_i为深度特征图集中第i张图的深度特征，Y_i为所述深度特征向量词集中的对应于第i张图的医学诊断语句深度特征向量，K_i为权重。对应时，根据索引值进行即可。add相当于加了一种prior，当两路输入可以具有“对应通道的特征图语义类似”的性质的时候，FPN里的金字塔希望把分辨率最小但语义最强的特征图增加分辨率，因此从性质上是可以用add的。

如图2所示，add方式来融合特征是通过对深度特征图集和深度特征向量词集叠加之后乘上权重的来实现特征融合的。

LSTM神经网络是解决长期依赖问题的有效模型之一，其核心是加入记忆模块，重复模块中包含四个交互的层。其中遗忘门决定我们从细胞状态中丢弃什么信息，输入门决定多少新信息加入到细胞状态中来，输出门决定输出什么值。所述步骤S4中，所述LSTM神经网络在对所述融合特征集合的训练过程中，先使用Word2Vec模型将词向量的集合对应成句子,得到表征该句子的句向量；然后将所述句向量作为输入层的输入部分，所述句向量的每个分量对应一输入层节点，隐藏层根据预行设置对细胞状态的相关信息进行隐藏,输出层的节点个数就是要分类的类别数。在选取了一定数量的医学诊断语句后，就进入了数据预处理阶段，包括分词、去停用词，接着使用Word2Vec模型训练，然后搭建出一个LSTM模型结构,设置好网络的输入层、隐藏层、输出层，然后进行调优，包括设置学习率、激活函数、损失函数，选取优化器等。

所述LSTM神经网络是通过seq2seq模型对所述融合特征集合进行训练，且所述LSTM神经网络中添加了dropout层来防止训练过程中的过拟合。

选择LSTM神经网络的原因是：对于训练集的一张图片I，其对应的描述为序列S＝{S1，S2，...}(其中Si代表句子中的词)。对于神经网络θ，给定输入图片I，LSTM神经网络生成序列S的概率为：

P(S|I；θ)＝ΠP(S_t|S₀，S₁，...，S_t-1，I；θ) 公式4；

拆解成连乘的形式后，问题就变成了建模条件概率P(St|S0，S1，...，St-1，I；θ)；通常来说，RNN是当仁不让的第一选择，因为理论上它可以保留全部上文信息，而对于“长时依赖”问题，使用RNN中的LSTM神经网络来缓解，而不像n-gram或者CNN那样只能取一个窗口，因此LSTM神经网络为神经网络θ的最佳选择。

公式4为似然函数，将似然函数取对数，得到对数似然函数：

神经网络模型θ的训练目标就是最大化全部训练样本的对数似然之和：

θ^*＝argmax∑_(S|I)log P(S|I；θ) 公式6；

式中(I，S)为训练样本。这种极大似然估计的方式等价于使用对数损失函数的经验风险最小化。训练好模型后，对于生成过程，则是根据输入的一张图片I，推断出最可能的序列来输出：

argmaxP(S|I；θ^*) 公式7；

将所述融合特征集合作为LSTM神经网络的输入数据，再利用基于LSTM的seq2seq模型进行训练；最后采用BLEU来衡量预测结果和实际结果在N-gram上的精度即可。

基于同一发明构思，本申请还提供了一种儿童肺炎辅助诊断模型的训练方法，用于训练得到实施例一中的儿童肺炎辅助诊断模型，详见实施例二。

实施例二

在本实施例中提供了一种儿童肺炎辅助诊断模型的训练方法，如图1所示，包括下述步骤：

S11、将所述医学图像作为初始图像；

其中，所述旋转处理采用下述公式1计算：

公式1中，(i₂,j₂)是初始图像F(i₂,j₂)的像素点的坐标，θ为旋转角度，(i₁,j₁)是将对应像素点(i₂,j₂)旋转之后的像素点的坐标；

所述缩放处理采用下述公式2计算：

公式2中，(i₂,j₂)是初始图像某一像素点的坐标，

为水平方向缩放的比率，

S13、将所述初始图像、所述旋转医学图像和所述缩放医学图像一并作为所述训练图像集合。

所述CNN神经网络具体是：使用在Imagenet数据集预训练过的CNN神经网络作为初始CNN神经网络，再使用Dense层将该初始CNN神经网络的最后一个分类层替换为具有两个分类的分类层，得到所述CNN神经网络；

所述图像深度特征向量还需经线性变换后分别通过所述索引值与所述深度特征向量词集中的每个词汇进行映射。

所述步骤S3中，所述特征融合是采用类似特征金字塔网络的思想，通过element-wise add方式来进行特征融合，输出生成融合特征集合；特征融合为下述公式3：

公式3中，Z为融合特征，X_i为深度特征图集中第i张图的深度特征，Y_i为所述深度特征向量词集中的对应于第i张图的医学诊断语句深度特征向量，K_i为权重。

所述步骤S4中，所述LSTM神经网络在对所述融合特征集合的训练过程中，先使用Word2Vec模型将词向量的集合对应成句子,得到表征该句子的句向量；然后将所述句向量作为输入层的输入部分，所述句向量的每个分量对应一输入层节点，隐藏层根据预行设置对细胞状态的相关信息进行隐藏,输出层的节点个数就是要分类的类别数；

由于本实施例二中的方法即为实施例一中的儿童肺炎辅助诊断模型的训练过程，因此本实施例中未详尽说明之处，请参见实施例一中的说明。本申请实施例中提供的技术方案，至少具有如下技术效果或优点：本发明联合CNN神经网络和LSTM神经网络对训练集进行训练，先利用CNN神经网络作encoder，再使用基于LSTM神经网络的seq2seq模型作为decoder，其中encoder输入为训练图像集合和对应的医学诊断语句，decoder输入包括训练图像集经线性变换后的特征向量对应的索引值，索引值能够映射医学诊断语句词汇表中的每个词汇。CNN神经网络使用batch_normalization来解决深度神经网络层数太多，而没有办法有效向前传递的问题，不仅加快模型的收敛速度，而且更重要的是在一定程度上缓解了深度网络中的“梯度弥散”。LSTM神经网络能够解决RNN的梯度倾向于消失或爆炸问题，也可解决长期依赖问题，且LSTM神经网络中添加了dropout层有效防止了过拟合。融合训练采用类似特征金字塔网络(FPN)的思想，通过element-wise add方式来融合特征，FPN里的金字塔网络可以把分辨率最小但语义最强的特征图增加分辨率，其中add可以在不增加图像描述的维度本身的前提下增加图像特征下的描述信息量，这显然是对最终的图像的分类是有益的。另外，本发明还通过旋转和翻转等图像处理方法扩充原始数据集，解决儿童肺炎胸片数据集有限的问题，数据集扩充能够将准确率提高1～3％。

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种儿童肺炎辅助诊断模型，其特征在于：经由下述步骤训练获得：

S2、通过CNN神经网络对图像训练集数据提取图像深度特征向量，得到深度特征图集，通过word2vec模型对所述训练语句进行词向量训练，得到深度特征向量词集；

S4、通过LSTM神经网络对所述融合特征集合进行训练，即能获得训练好的儿童肺炎辅助诊断模型；所述LSTM神经网络在对所述融合特征集合的训练过程中，先使用Word2Vec模型将词向量的集合对应成句子,得到表征该句子的句向量；然后将所述句向量作为输入层的输入部分，所述句向量的每个分量对应一输入层节点，隐藏层根据预先设置对细胞状态的相关信息进行隐藏,输出层的节点个数就是要分类的类别数；所述LSTM神经网络是通过seq2seq模型对所述融合特征集合进行训练，且所述LSTM神经网络中添加了dropout层来防止训练过程中的过拟合；

所述步骤S1中还对所述医学图像进行图像扩充处理，图像扩充处理具体是：

S11、将所述医学图像作为初始图像；

其中，旋转处理采用下述公式1计算：