CN108364006B

CN108364006B - 基于多模式深度学习的医学图像分类装置及其构建方法

Info

Publication number: CN108364006B
Application number: CN201810045529.3A
Authority: CN
Inventors: 谈宜勇; 孙耀
Original assignee: Transcendency Image Technology Co ltd
Current assignee: Jiujiu Information Technology (Tianjin) Co.,Ltd.
Priority date: 2018-01-17
Filing date: 2018-01-17
Publication date: 2022-03-08
Anticipated expiration: 2038-01-17
Also published as: CN108364006A

Abstract

本发明公开了一种基于深度学习的医学图像分类装置及其构建方法。所述装置包括输入模块、粗分模块、细分模块、整合模块和显示模块，其中粗分模块包括区域卷积神经网络RCNN，细分模块包括识别原始图像的第一循环卷积神经网络rCNN1、将图像转换为HOG图的方向梯度直方图模型以及识别HOG的支持向量机SVM、高斯混合模型GMM和第二循环卷积神经网络rCNN2，整合模块包括例如GMM的综合分类器，用于将细分模块的四个分类器输出的各个区域的识别置信分数作为一个输入向量经加权后输入，得到各个区域的最终识别置信分数。

Description

基于多模式深度学习的医学图像分类装置及其构建方法

技术领域

本发明涉及深度学习和图像识别领域，具体涉及基于多模式深度学习的医学图像的分类装置及其构建方法。

背景技术

深度学习已经在单一图像分类和图像搜索领域有成功应用，并在医学领域有了快速发展，如谷歌对通过对乳腺癌CT图像的深度学习，使得乳腺癌人工智能排查准确率能够达到或超过肿瘤科医生。然而，深度学习由于自身模型的未知参数量很大，因而对训练数据量的要求十分巨大。而另一方面，标记医学图像的成本高昂而且数量有限，特别是病程演变的标记图像需要病人不同阶段的数据，往往需要在不同医疗机构收集数据，使得标记医学图像数据难度很大而且数据数量也很难满足深度学习的要求。

在临床实践中，疾病早期的正确病理病程分类对提高治愈率是极为重要的。目前主要由医生通过病理形态对CT或X射线图像根据其经验做主观判断。已有的深度学习方法也是通过对原始图像的专家标定结果进行监督学习分类，一些疾病的中后期自动分类结果目前可以接近医生。但由于没有强化学习医生肉眼容易忽略的特征，并且由于病程早期的正常和病变组织形态区分度不大，以及缺乏生物组织病变的统一参考标准，因而不能更进一步提高准确率，使得特别对于早期疾病容易产生假阴性或假阳性的误判断。

例如，肺癌患者死亡率取决于早期诊断和治疗，早期肺癌的肺结节检测是肺癌早期诊断的关键，但同时正常肺组织和血管也可以在CT影像中以肺结节出现。目前计算机辅助诊断(CAD)系统和医生专家对中期早期的诊断很容易产生假阴性或假阳性的判断。

例如，中国发明专利申请CN104866727A公开了一种基于多层卷积网络的医学影像分类方法，又如CN106372390A公开了一种对肺部疾病深度学习的云端服务系统。这些方案虽然能够对肺部疾病特征展开深度学习，但因为没有有效利用病变组织自身梯度向量信息以及和周围健康组织之间的相关性和相对变化(揭示生物现象的相互联系)来提高深度学习的特异性和鲁棒性，因此特别是在训练图像数据数量有限的情况下，即使得到一个训练好的神经网络，其对病程分类的鲁棒性和准确性也难以令人满意，而且很难在实际应用中接近或超过医生。

深度学习是基于大数据的学习，然而医学图像由于医疗机构信息分享度，患者隐私等因素不易得到海量数据，同时医院数据多是已经确诊的晚期病人，而病人随病程发展也常常会更换医疗机构，因此早期病程和完整病程的图像和数据就更为稀少，极大限制了深度学习在医学图像识别领域的应用。

发明内容

有鉴于此，本发明提出一种基于多模式深度学习的医学图像分类装置及其构建方法，利用某一特定病理状态通常会伴随附近组织多个复杂的生物现象同时发生，且多个生物现象的关联具有区域性的特点，利用多个不同类型的分类器的组合来控制学习模型的复杂度，高效提炼输入图像的特征，并结合病理学的先验知识实现对病变组织与正常组织对比归一化后的梯度的强度和角度分布进行深度学习和细节分类，从而减少对训练数据量的要求。

在本发明的第一方面，提供一种基于多模式深度学习的医学图像分类装置，包括：

1)输入模块：用于输入待检测的原始医学图像；

2)粗分模块：用于利用区域卷积神经网络(RCNN)对输入模块输入的原始医学图像进行区域分割和区域分类处理，得到病变组织区域和正常组织区域以及各个区域的第一识别置信分数；

3)细分模块：包括

第一循环卷积神经网络(rCNN1)，用于处理区域卷积神经网络输出的病变组织区域和正常组织区域的原始图像以得到各个区域的第二识别置信分数；

方向梯度直方图模型(HOG)，用于将区域卷积神经网络输出的病变组织区域和正常组织区域的图像分别转换为归一化的方向梯度直方图；

支持向量机(SVM)，用于处理所述归一化的方向梯度直方图以得到各个区域的第三识别置信分数；

高斯混合模型(GMM)，用于处理所述归一化的方向梯度直方图以得到各个区域的第四识别置信分数；和

第二循环卷积神经网络(rCNN2)，用于处理所述归一化的方向梯度直方图以得到各个区域的第五识别置信分数；以及

4)整合模块：用于将所述细分模块输出的所述各个区域的第二、第三、第四和第五识别置信分数作为一个输入向量经加权后输入综合分类器，得到各个区域的最终识别置信分数；和

5)显示模块：用于显示标注有所述病变组织区域和正常组织区域的原始医学图像以及各个区域的最终识别置信分数。

在本发明的一些实施方案中，所述原始医学图像是计算机放射摄影图像(CR)、计算机断层摄影图像(CT)、磁共振成像图像(NMR)和超声图像中的至少一种。

优选地，所述细分模块还包括归一化装置，用于将区域卷积神经网络输出的病变组织区域和正常组织区域的图像进行归一化处理，其中所述归一化处理包括利用正常组织区域作为基准参考，对病变组织区域和正常组织区域的图像像素进行归一化计算。

优选地，所述粗分模块中的区域卷积神经网络可以选自常规区域卷积神经网络(RegularRCNN)、快速区域卷积神经网络(FastRCNN)、更快区域卷积神经网络(FasterRCNN)、YOLO神经网络、可变形组件模型(DPM)、和模版区域卷积神经网络(MaskRCNN)。

优选地，所述整合模块中的综合分类器可以选自高斯混合模型(GMM)、 K-平均聚类(K-means)，K-近邻算法模型(KNN)、支持向量机(SVM)、神经网络(NN)、随机森林(RandomForests)和多变量曲线分辨率模型(MCR)。

在本发明的第二方面，还提供一种构建所述医学图像分类装置的方法，包括以下步骤：

1)粗分学习阶段，包括：

步骤A1：获得对原始医学图像进行人工标定得到的经人工标定的标记图像，所述标记图像的人工标定包括对感兴趣的区域和类别进行人工标定；

步骤A2：利用所述输入模块将标记图像作为第一训练样本输入所述粗分模块的区域卷积神经网络进行训练，通过标记图像的交叉验证，使得输出的各个区域的最终识别置信分数与人工标定的结果之间的差异小于阈值，从而得到训练好的区域卷积神经网络；

步骤A3：利用训练好的区域卷积神经网络对原始图像进行处理，获得病变组织区域和正常组织区域的图像作为第二训练样本；

2)细分学习阶段，包括

步骤B1：利用所述第二训练样本的病变组织区域和正常组织区域的图像对所述细分模块的第一循环卷积神经网络进行训练，利用对应的标记图像进行交叉验证，得到训练好的第一循环卷积神经网络；

步骤B2：利用所述细分模块的梯度方向直方图模型提取所述第二训练样本的病变组织区域和正常组织区域的图像的梯度特征，通过归一化处理得到病变组织区域和正常组织区域的归一化梯度方向直方图；

步骤B3：利用所述第二训练样本的病变组织区域和正常组织区域的归一化梯度方向直方图作为所述细分模块的支持向量机的输入进行训练，计算得到训练好的支持向量机；

步骤B4：利用所述第二训练样本的病变组织区域和正常组织区域的归一化梯度方向直方图作为所述细分模块的混合高斯模型的输入进行训练，经迭代计算得到训练好的混合高斯模型；

步骤B5：利用所述第二训练样本的病变组织区域和正常组织区域的归一化梯度方向直方图对所述细分模块的第二循环卷积神经网络进行训练，利用标记图像进行交叉验证，得到训练好的第二循环卷积神经网络；

3)多模式整合学习阶段：

步骤C1：将所述细分学习阶段中训练好的第一循环卷积神经网络、支持向量机、混合高斯模型和第二循环卷积神经网络对步骤A3输出的第二训练样本的病变组织区域和正常组织区域进行处理，分别得到各个区域的第二、第三、第四和第五识别置信分数；

步骤C2：利用所述各个区域的第二、第三、第四和第五识别置信分数作为一个输入向量，输入所述整合模块的综合分类器进行聚类计算训练，得到训练好的综合分类器。

优选地，所述细分学习步骤还包括归一化步骤B0，包括将第一粗分阶段的区域卷积神经网络输出的训练样本的病变组织区域和正常组织区域的图像进行归一化处理，其中所述归一化处理包括利用正常组织区域作为基准参考，对病变组织区域和正常组织区域的图像像素进行归一化计算。

优选地，所述粗分学习阶段中的区域卷积神经网络(RCNN)可以选自常规区域卷积神经网络(RegularRCNN)、快速区域卷积神经网络(FastRCNN)、更快卷积神经网络(FasterRCNN)、YOLO神经网络、可变形组件模型(DPM)、模版区域卷积神经网络(Mask RCNN)。

优选地，所述多模式整合学习阶段中的所述综合分类器可以选自高斯混合模型(GMM)、K-平均聚类(K-means)，K-近邻算法模型(KNN)、支持向量机(SVM)、神经网络(NN)、随机森林和多变量曲线分辨率模型(MCR)。

在一些实施方案中，所述构建方法还包括4)反馈学习阶段，包括通过强化学习或记忆机制，根据医生和患者的反馈，随病程发展确认所述分类装置的前期学习是否判断正确，如果正确则使用强化学习网络模型强化正确的学习操作，反之则纠正以前的学习判断。

优选地，所述构建方法中对神经网络分类器的训练采取10折交叉验证，直至训练正确率和测试正确率接近，正确率不再提高或提前设置的迭代训练次数已经达到。

在本发明的第三方面，提供一种计算机辅助系统，包括如本发明第一方面所述的分类装置，该系统以未标记的原始医学图像作为输入，自动输出得到分割出病变组织区域和正常组织区域的原始图像以及最终识别置信分数。

在本发明的第四方面，提供提供一种用于医学图像识别的基于多模式深度学习的分类模型，包括：

1)粗分模块：包括利用区域卷积神经网络(RCNN)对输入的原始医学图像进行区域分割和区域分类处理，得到病变组织区域和正常组织区域以及各个区域的第一识别置信分数；

2)细分模块：包括

3)整合模块：用于将所述细分模块输出的所述各个区域的第二、第三、第四和第五识别置信分数作为一个输入向量经加权后输入综合分类器，得到各个区域的最终识别置信分数。

在本发明的第五方面，提供一种用于医学图像识别的基于多模式深度学习的分类模型的训练方法，包括以下步骤：

1)粗分学习阶段，包括：

步骤A2：将标记图像作为第一训练样本输入所述粗分模块的区域卷积神经网络进行训练，通过标记图像的交叉验证，使得输出的各个区域的最终识别置信分数与人工标定的结果之间的差异小于阈值，从而得到训练好的区域卷积神经网络；

2)细分学习阶段，包括

3)多模式整合学习阶段：

步骤C2：利用所述各个区域的第二、第三、第四和第五识别置信分数作为一个输入向量，输入所述整合模块的综合分类器进行聚类计算训练，得到训练好的综合分类器，由此完成对多模式深度学习模型的训练。

在本发明的第六方面，提供一种用于医学图像识别的电子设备，包括：

-输入装置，用于将医学图像输入所述电子设备；

-一个或多个处理器或图形处理器；

-用于存储操作指令的存储器；和

-显示装置，用于显示所述处理器输出的医学图像的病变组织区域和正常组织区域以及各个区域的最终识别置信分数；

其中，所述一个或多个处理器用于从所述存储器中获取操作指令以执行以下步骤：

-粗分步骤：包括利用区域卷积神经网络对输入的原始医学图像进行处理，得到病变组织区域和正常组织区域以及各个区域的第一识别置信分数；

-细分步骤：包括

将粗分步骤得到的区域卷积神经网络输出的病变组织区域和正常组织区域的图像输入第一循环卷积神经网络，得到各个区域的第二识别置信分数；

将区域卷积神经网络输出的病变组织区域和正常组织区域的图像输入方向梯度直方图模型，分别转换得到归一化的方向梯度直方图；

将所述归一化的方向梯度直方图输入支持向量机，得到各个区域的第三识别置信分数；

将所述归一化的方向梯度直方图输入高斯混合模型，得到各个区域的第四识别置信分数；和

将所述归一化的方向梯度直方图输入第二循环卷积神经网络，得到各个区域的第五识别置信分数；以及

-整合步骤：将所述细分步骤输出的各个区域的第二、第三、第四和第五识别置信分数作为一个输入向量经加权后输入综合分类器进行聚类计算，最终输出医学图像的病变组织区域和正常组织区域以及各个区域的最终识别置信分数。

在本发明的第七方面，提供一种用于训练所述分类装置的电子设备，包括：

-输入装置，用于将医学图像输入所述电子设备；

-一个或多个处理器或图形处理器；和

-用于存储操作指令的存储器；

1)粗分学习阶段，包括：

步骤A2：利用标记图像作为第一训练样本输入区域卷积神经网络进行训练，通过标记图像的交叉验证，使得输出的各个区域的识别置信分数与人工标定的结果之间的差异小于阈值，从而得到训练好的区域卷积神经网络；

2)细分学习阶段，包括

步骤B1：利用所述第二训练样本的病变组织区域和正常组织区域的图像对第一循环卷积神经网络进行训练，利用对应的标记图像进行交叉验证，得到训练好的第一循环卷积神经网络；

步骤B2：利用梯度方向直方图模型提取所述第二训练样本的病变组织区域和正常组织区域的图像的梯度特征，通过归一化处理得到病变组织区域和正常组织区域的归一化梯度方向直方图；

步骤B3：利用所述第二训练样本的病变组织区域和正常组织区域的归一化梯度方向直方图作为支持向量机的输入进行训练，计算得到训练好的支持向量机；

步骤B4：利用所述第二训练样本的病变组织区域和正常组织区域的归一化梯度方向直方图作为混合高斯模型的输入进行训练，经迭代计算得到训练好的混合高斯模型；

步骤B5：利用所述第二训练样本的病变组织区域和正常组织区域的归一化梯度方向直方图对第二循环卷积神经网络进行训练，利用对应的标记图像进行交叉验证，得到训练好的第二循环卷积神经网络；

3)多模式整合学习阶段：

步骤C1：将所述细分学习阶段中训练好的第一循环卷积神经网络、支持向量机、混合高斯模型和第二循环卷积神经网络对步骤A3输出的第二训练样本的病变组织区域和正常组织区域进行处理，分别得到各个区域的第二、第三、第四和第五识别置信分数；以及

步骤C2：利用所述各个区域的第二、第三、第四和第五识别置信分数作为一个输入向量，输入综合分类器进行聚类计算训练，得到训练好的综合分类器，由此获得最终的分类模型。

与现有技术相比，本发明的优点在于：

1)本发明通过区域卷积神经网络(RCNN)提炼医学图像中的核心区域特征，再利用循环卷积神经网络(rCNN)对医学图像中的特异性信息进行学习，显著降低了深度学习模型的未知参数量以及复杂度，使学习分类有针对性得对感兴趣的区域强化学习，从而明显减少对训练样本数据量的需求，使得在训练数据量有限的应用中仍能得到满意的学习效果，得到准确的分类判定。

2)本发明同时使用方向梯度直方图(HOG)来提炼和强化学习医生肉眼容易忽略的相对梯度和梯度分布信息，并参照正常组织进行归一化，使得分类更能针对每个测试样本的特异性实现医疗分析个性化，使得深度学习模型能够弥补医生人为判断的缺陷，真正成为对病理病程分类有参考价值的辅助手段，而且能够对医生容易缺失和忽略的特征起到提醒和弥补的作用。HOG在原有RGB图的基础上增加了抽象信息，更易于用较少的数据提炼出类别特征，使用HOG做GMM和SVM本身需要的数据远比卷积神经网络少。

3)组合模型是实现了对多种分类器的再提炼和更深一层的抽象，可以得到比单个分类器更抽象并相对更易于概括同一类别图中的共同特征及不同类别间的区别。

附图说明

图1是根据本发明一个实施方案的基于深度学习的医学图像分类装置的结构图；

图2是根据本发明一个实施方案的基于深度学习的医学图像分类装置的构建方法的学习流程图；

图3是根据本发明一个实施方案的医学图像分类装置的粗分模块的RCNN输出的肿瘤区域和心脏区域。

图4a是输入的原始医学图像；

图4b是RCNN输出的心脏区域的图像(左图)和经HOG变换后的心脏区域的HOG图(右图)；

图4c是RCNN输出的肿瘤区域的图像(左图)和经HOG变换后的肿瘤区域的HOG图(右图)；

图5是根据本发明一个实施方案的医学图像分类装置的一个应用实施例。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，对本发明进一步详细说明。

为便于理解本发明的实施方案，对本文中出现的部分深度学习模型的缩略术语简单说明如下：

CNN(Convolutional Neural Network，卷积神经网路)是一种前馈神经网络，人工神经元可以通过卷积运算响应图像一部分覆盖范围内的周围单元，是大型图像处理的首选方法。卷积神经网路由一个或多个卷积层和顶端的一个或多个全连通层组成，同时也包括关联权重和池化层(pooling layer)。

RNN(RecurrentNeural Network，循环神经网路)与传统的前馈神经网络(如CNN或RCNN)的最大区别在于在每一层对图像学习的过程中可以拿到网络前面几层的信息，这样特别适用于序列或相关的学习，可以看成是有一定记忆功能的状态机。

RCNN(Regional-Convolutional Neural Network，区域卷积网络)是将传统的CNN进行改进，预先计算备选区域，利用CNN去检测这些备选区域，提高识别效率和准确率，同时确定目标物体在图像中的位置。

rCNN(recurrentConvolutional Neural Network，循环卷积神经网络)，是一种将CNN和RNN在卷积区域结合的学习网络。CNN是前馈神经网络，每一层只是下一层的输入，与同层和前一层不能直接建立联系。应用rCNN循环卷积神经网络方法，将卷积网络中选择卷积层并将其扩展成有多层循环结构，循环结构使每一卷积区域可以本层和其他循环层的卷积加权从而将对不同特征学习阶段产生记忆效应，更灵活的学习同层各区域和其他各层特征间的联系，从而减少对总数据量的需求。

HOG(Histogram of Oriented Gradient，方向梯度直方图特征)是图像处理中用来描述物体的特征，其中通过计算局部区域的梯度方向直方图来形成方向梯度，用方向梯度作为像素值得到原始图像的简约方向梯度特征图像。

GMM(Gaussian Mixture Model，高斯混合模型)是用高斯概率密度函数量化事物，将目标分解为若干的基于高斯概率密度函数形成的模型，通过模型贡献比例的大小实现分类。

SVM(Support Vector Machine，支持向量机)是常见的一种有监督的学习模型判别方法，该方法根据训练样本优化得到在分类边界的向量点，以这些向量点作为支持向量来得到类别间最大边界距离的分类结果，支持向量机对边界数据的聚类可以减少对数据的需求。

10-fold cross-validation(10折交叉验证)：将数据集随机分成十份，轮流将其中9份作为训练数据，1份作为测试数据，进行测试。每次测试都会得出相应的准确率。10次的结果的正确率的平均值作为对算法分类表现的评价。

上述深度学习模型在图像识别领域均已得到应用，但是这些深度网络学习模型都需要基于大数据的学习才能具有较高的识别率。本发明针对医学图像训练样本稀少的现状，提出所要解决的一个问题在于如何在训练样本量显著较少的情况下仍能提高深度学习模型的识别准确率。为此，本发明创造性地将部分常规学习模型(GMM，SVM)与深度网络学习(RCNN，rCNN)进行组合和融合，从而解决本发明的技术问题。

本发明的思路是将区域深度学习例如RCNN得到的正常组织区域和结果作为参考量并有针对性得对特定区域进行学习，采用HOG强化深度学习医生肉眼容易忽略的特异性强的病变组织区域的相对强度信息、梯度角度分布信息以及与正常组织间的相互关系，并结合监督学习的支撑向量机(SVM)和非监督学习的高斯混合模型(GMM)来优化解决用于训练神经网络的样本数据量不足的问题，从而真正弥补医生阅片的缺失特征。同时根据实际应用进一步通过rCNN减少训练模型的未知参数量，在训练数据量少的情况下利用多个学习模型，实现动态学习特性并提高对病理病程分类的准确率。

下文中给出一个以肺部疾病的病程病理分类应用的实施例来说明本发明的实施方式，但是本发明的实施方案也可应用于其他组织(如肝、胃等)的病程分类。

图1示出根据本发明一个实施方案的基于深度学习的医学图像的分类装置的结构图。如图1所示，分类装置100包括输入模块101、粗分模块102、细分模块103、整合模块104和显示模块105。

输入模块101用于将无标记的待检测原始医学图像输入粗分模块102，该医学图像可以是CR、CT、NMR、PET-CT、超声图等。粗分模块102用于利用区域卷积神经网络(RCNN)对输入模块101输入的原始医学图像进行卷积处理提取特征并进行分类，得到病变组织区域和正常组织区域以及各个区域的第一识别置信分数。细分模块103包括第一循环卷积神经网络(rCNN1)，用于处理区域卷积神经网络RCNN输出的病变组织区域和正常组织区域的原始图像以得到各个区域的第二识别置信分数；方向梯度直方图模型(HOG)，用于将区域卷积神经网络输出的病变组织区域和正常组织区域的图像分别转换为归一化的方向梯度直方图；支持向量机(SVM)，用于处理所述归一化的方向梯度直方图以得到各个区域的第三识别置信分数；高斯混合模型(GMM)，用于处理所述归一化的方向梯度直方图以得到各个区域的第四识别置信分数；和第二循环卷积神经网络(rCNN2)，用于处理所述归一化的方向梯度直方图以得到各个区域的第五识别置信分数。整合模块104用于将细分模块103输出的各个区域的第二、第三、第四和第五识别置信分数作为一个输入向量经加权后输入综合分类器，得到各个区域的最终识别置信分数。显示模块105用于显示整合模块输出的医学图像的病变组织区域和正常组织区域以及各个区域的最终识别置信分数。

图2示出根据本发明一个实施方案的用于构建图1所述的分类装置的构建方法的流程图。如图2所示，构建方法200包括第一阶段的粗分学习阶段201、第二阶段的细分学习阶段202和第三阶段的多模式整合学习阶段203。

第一阶段：粗分学习阶段201

粗分学习是对原始医学图像进行常规RCNN深度学习，得到病变组织区域和正常组织区域。利用经过区间和类别人工标定(例如，可使用可视对象标记工具VoTT进行标定)的两组图像(即，没有目标类的原始图像和有目标及区域分类信息的图像)作为训练样本，对RCNN进行训练，也可以使用FasterRCNN进一步提高训练速度。

当收集样本进行标注以得到训练样本时，可以使用专业人员例如经验丰富的医师来指导对获取的原始图像进行标注。进一步地，为了保证能够方便地看到标注的内容，标注时可以采用矩形框来进行标注，而且矩形框要完全的包围图像中的病变特征区域。

RCNN是基于卷积的学习结构。以256x256图像为例，卷积值是通过非线性化激发函数(例如，使用线性整流函数Rectified linear unit)后作为响应图的一个像素，对于一个9x9卷积特征滤波器，为保证响应图和原输入图像大小一致，可以将原图补零成为264x264图像。模板在输入图上从左到右从上到下每次移动一个像素，模板移动至图像右下角边界，产生1个大小是256x256的响应图。使用N个常规特征滤波器产生这一卷积层的所有N个响应图，产生的响应图成为新的输入(256x256xN)作为下一层输入。下一层的特征学习和上一层的输出响应图(256x256xN)根据权重做卷积(权重可以在迭代学习中调整)产生一个新的响应图，每一层响应图的维度等于常规特征滤波器的个数，经过多层做上述卷积处理后达到对复杂图像的学习分类，根据相关学习应用需要和学习效果决定是否做下采样。经过多层不同特征的学习后，将卷积网络最后输出整合为前向式架构(FFNN)的全链接输入层(如果最后一层有128个常规特征滤波器，图像经过下采样缩小到7x7，则全链接输入层为7x7x128的一维向量)，使用常规图像特征已经完成学习的前向式架构(FFNN)模型，在训练学习中调节每个特色卷积特征滤波器波形权值减少预测类别与真实类别的差异来实现对图像特征的学习。在特征搜索的同时，RCNN同时做区域学习，因而最终结果是病变组织和正常组织的区域以及该区域识别的置信度分数，由于只提取有目标物的区域进入下一步学习，使得第二阶段学习更有针对性，从而减少对数据的需求。

第二阶段：细分学习阶段202

细分学习是对已经通过RCNN大致找到的目标区域结合粗分学习得到的特征，进一步细分强化与病程相关的容易忽略的特征学习。由于病程标记数据的缺乏，只有减少神经网络参数值才可以使模型未知量匹配训练数据，达到较好训练结果。本发明从输入数据、深度网络结构、分类方法三个方面入手解决实际应用中训练数据不足的问题。

第一，将原始医学图像中提取的病变组织区域做HOG转换，降低输入数据的复杂度。第二，组合使用rCNN减少对数据量的依赖。解剖学已经证实循环结构是视觉皮层中广泛存在的结构，循环神经元也在数量上大于前馈神经元。循环卷积神经网络(rCNN)和稀疏编码的内在联系是rCNN可以用少于CNN的参数达到同样效果的依据。第三，使用GMM和SVM对HOG进行分类，避免卷积特征滤波器产生的大量未知参数，从而大大减少训练模型的未知参数量，并能同时解决关键特征量被其他特征量掩盖而不能在最终分类训练中得到足够权重的问题。

同时在学习中，三个分类器的(HOG的SVM、GMM和rCNN分类)结果是基于HOG的，一个是基于原始图像的(即，原始图像的rCNN分类)，从而平衡了对原始图像中的特征以及对简化后的与病理特征高度相关的HOG特征的学习。

如图2所示，细分学习阶段202包含以下步骤：

1、将粗分学习阶段201得到的病变组织区域和正常组织区域的图像转换为HOG图。

由于医学影像Dicom信息的缺失和放缩尺度及来源的差异性，使得毫米每像素成为一个进行分类的关键数据，其准确度会直接影响对例如肿瘤区域大小在不同病程中的大小变化的判断。另一方面，同一医学图像中的正常组织又提供了最准确的对照参考组，从而能够更准确地判断病理病程。

本发明提出利用正常组织器官的尺寸稳定性，针对RCNN在学习的同时得到的正常组织区域和病变组织区域，将正常组织区域作为基准对病变组织区域和正常组织区域进行归一化。RCNN可以使用AlexNet在CNTK(Microsoft Cognitive Toolkit)、DLib中实现，分类结果包含每个正常组织和病变组织的区域。

如图4所示，图4a是输入的原始医学图像，图4b和4c的左图是RCNN学习计算得到的正常组织区域(心脏)和病变组织区域(肿瘤)，用心脏分区作为归一化标准计算像素大小(2pixel/mm)，并计算出如图4所示的4x4mm的区间的像素大小是8x8，同时对2x2区间(16x16像素)进行归一化计算，利用HOG得到16个方向的正常组织区域和病变组织区域的HOG特征图(图4b和4c的右图)。

2、将HOG图作为SVM学习模型的学习输入

由于医学图像的规范性，图像数据包含采样方向信息，而病变组织由于依附器官的解剖学方向性也有突出的方向性特征，而HOG是对梯度方向的特征进行提取，因此HOG非常适合分析医学图像。

HOG可以作为一维向量输入，将有病变的图像区域和没有病变的图像区域作为监督学习的正样本和负样本作为SVM分类器的输入。训练中正样本和负样本如果数量差别很大可以在SVM支撑量训练中对训练样本少的增加权重。训练中先使用Bagging算法(Bootstrap aggregating，引导聚集算法)对部分训练数据做引导训练，得到SVM分类模型，多次随机取部分训练数据后，得到SVM分类模型直到所有训练数据都加入后，将多次计算的到SVM模型做平均或最大投票算法得到最终的SVM，这可以极大减少过度拟合，提高训练结果的精确度。

具体软件实现可以使用OpenCV、CNTK、Dlib和Scikit-Learn等开源软件实现训练，得到支撑向量矩阵分类器。

3、将HOG图作为高斯混合模型GMM(Gaussian Mixture Model)的学习输入

SVM是监督学习，GMM是非监督学习，可以学习医生监督学习之外的信息，同时GMM提供对单一数据的描述，而SVM是对整个分类模型的。在应用中调整训练模型时，对于单个数据加入只需要调整GMM，多个用户终端提供了批量数据后可以对SVM做整体调整。

将所有训练样本集转换为HOG作为一维向量训练GMM，通过深度学习得到训练好的GMM，将GMM中的平均值、方差和每个GMM的权重通过统计并用Fishervector(费舍尔矢量)表示得到每个类别编码,从而更完整的提取图像特征信息中像素相关概率和线性特征成分，优化决策边界，从而使得分类更加准确。

SVM计算量较GMM大，但较非监督学习的GMM分类边界的提取更精确，和GMM互相补充可取得更精确训练结果。

4、将原始图作为rCNN学习框架的学习输入

rCNN的输入输出及序列方式和常规CNN类似，可以直接对标定的原始图像进行归一化后直接训练学习，由于rCNN的记忆性结构和反馈机制和人脑视觉系统跟接近，rCNN可以使用比CNN少的数据实现同样的训练学习精确度。

在一个实施例中，rCNN使用8层(卷积层只有5层)AlexNet，Alexnet改为递归网络层结构，减少未知量，加快训练收敛和解决数据少过度拟合的问题。rCNN需要的训练数据少，使用的AlexNet模型计算量也较其他常用模型(GoogleInception，VGG，MicrosoftResidual Net等等)中最低。

5、将HOG图作为rCNN学习框架的学习输入

HOG图作为rCNN的输入能够强化学习医生容易忽略的图像特征，同时由于标记图像的数量不足，本发明单独用一个与步骤4相同的rCNN网络来加强训练从原始图像中提炼出的HOG特征图(梯度的方向分布信息)。

由于HOG图有较突出的特征，样本信息较少，因此容易过度拟合，需要调整rCNN的训练参数。在一个实施例中，使用5倍于原始图的学习速率和随机50％神经元失活得到了较好的训练效果。训练参数主要与应用的图像特点相关，不同病理可以根据需要选择采用不同的学习参数，通过交叉验证，保证模型测试样本的准确度和减少过度拟合。

第三阶段：多模式综合阶段-综合多种学习方法的结果，得到优化的最终分类结果

该阶段是对病变组织和正常组织的区域进行综合分类评分。在此，以GMM作为综合分类器的一个实施例进行说明。将第二阶段通过GMM、SVM和rCNN得到的对HOG图和原始图的分类结果(各个类别的置信分数)作为一个输入向量，根据应用加权后作为GMM的输入，使用期望最大化算法(Expectation Maximization Algorithm)，通过E(Expectation)-步确定隐变量(方差，均值)取值，通过M(Maximization)-步最大化似然函数，反复迭代计算调整GMM模型得到在概率上最大化最优化的GMM综合分类器。通过迭代训练得到的GMM模型可以对第二阶段中多个学习模式置信分数聚类评分更优选得得到新的病变组织区域和正常组织区域的最终识别置信分数。利用GMM的统计特性对不同分类器在不同样本分类中表现出的不同置信分布进行提炼，从而得到优于单个分类器的综合评分。

例如，第二步四个分类器对第一步的每一个输出区域可以计算得到若干个类别分数(置信分数，即分类到某个类别的可能性)。例如可以有六个分类：1)正常组织或心脏；2)良性肿瘤一型；3)良性肿瘤二型；4)肺部结节；5)恶性肿瘤一型；6)恶性肿瘤二型。

第一步的每一输出区域在第二步的每个分类器(一共四个分类器：1-rCNN原始图像；2-rCNN HOG；3-GMMHOG；4-SVM HOG)都会得到6个分数，所以每一个区域在第二步骤会输出一个4x6矩阵，如果最后一共有N个有目标物的区域，则第三步的输入是Nx4x6的三阶张量。将这个Nx4x6的三阶张量输入到综合分类器中得到每个类别更优选的分类置信分数，输出一个Nx6矩阵。

训练中使用交叉验证以提高鲁棒性，使最终输出与人工标定的结果差异小于阈值。步骤3中得到的分类权值可以看做是原始图的rCNN和HOG在第二训练阶段的结合，优化和区间细节学习得到所述对区域细节(如病程)更优化的分类。

同时，在实际应用中可以根据医生和患者反馈通过强化学习(ReinforceLearning)和使用记忆机制(LSTM：Long short-term memory)更进一步提高鲁棒性和准确率，如随病程发展确认前期机器学习判断正确并强化正确的学习操作，反之则纠正以前学习判断。

本发明整个学习过程和分类采用多个模式(HOG，GMM，SVM，rCNN)和多个阶段(粗分、细分、整合)，通过增多训练模式和多学习模式的整合而减少对数据量的要求，并通过RCNN实现区域学习控制运算量，rCNN进一步减少训练模型未知量。

为实现实际应用，本技术方案也包含在硬件上的进一步优化，采用独特的高速网络运算硬件结构：1)模型训练使用微软CNTK分布式学习框架实现分布多机多GPU并行训练和分类运算。2)FPGA硬件实现GMM和SVM学习模型。模型在应用中的优化使用Google云端TPU(Tensor Processing Unit)直接将用户反馈作为新的数据使用增强学习(ReinforceLearning)框架不断优化学习网络模型。

图4示出本发明的分类装置应用于检测分析一个肺部CT图像的具体过程。如图所示，输入的原始CT图像经过RCNN分割识别后得到一个肿瘤区域和一个心脏区域以及二者的第一识别置信分数。所述肿瘤区域和心脏区域的原始图像经过归一化像素计算输入rCNN1，得到的对区域分类的第二识别置信分数。RCNN输出的所述肿瘤区域和心脏区域的图像在归一化后经HOG模型处理得到肿瘤区域和心脏区域的HOG图。该HOG图分别输入SVM、GMM和rCNN2，得到两个区域的第三、第四和第五识别置信分数，与rCNN1输出的第二识别置信分数一起作为一个向量经加权后输入作为综合分类器的GMM。最终输出的是在原始CT图像上标示的肿瘤区域和心脏区域以及两者的最终识别置信分数，在这个实施例中，心脏区域的置信分数为99％，肿瘤区域的置信分数为99％。

表1是使用1000张图对本发明的分类装置进行训练后的验证实验结果，具体示出1000张图分类10次的10折交叉验证得到的各个分类器对于病变组织区域的识别准确度。

如表1所示，对于病变组织区域的识别结果，第一阶段的RCNN的识别准确度最低；第二阶段的四个分类器rCNN1、SVM、GMM和rCNN2通过对HOG梯度特征和区域内原始图像的进一步学习，识别准确度均比第一阶段的RCNN有提高；第三阶段的多模式整合通过对第二阶段四个分类器的置信分布的进一步学习得到较好的分类权重，最终的分类识别结果的准确率达到93％，相比于任何一个单独的分类器的识别效果都有显著的提高。

由表1可知，本发明的分类装置及构建方法能够通过较少量的训练数据(例如1000张标记图像)得到一个训练好的由多个不同模式的分类器组成的机器学习模型，该模型能够训练数据量较少的情况下实现识别效果较单个分类器显著提升的技术效果。

其他替代方案

第一阶段RCNN可以使用(Fast RCNN、Faster RCNN，YOLO，可变形部件模型(deformable parts models，DPM)得到各个区域，根据对精确度和训练速度的要求可以选择合适的训练框架和网络结构。YOLO在小尺度目标的准确率不高，不适宜病理癌症早期分析。RCNN(origin，Faster，Fast)更适合做各种对精度要求较高的病理分类，从训练和分类速度来讲YOLO>Faster CNN>Fast RCNN>RCNN。DPM通过多个组分的变形分析得到整体分类，在肺部病理中多个小肿瘤并存或肝病疾病的分析中有较好的分类、分区效果。

第二阶段中用SVM和GMM是为了加快学习速度和减小对数据量的要求，如果训练数据量足够，可使用CNN来训练学习HOG图，得到对非线性函数更高精度的训练结果。

第三阶段中可以用其他机器学习分类器实现对第二阶段的四个分类器(HOG、GMM、SVM、rCNN)的综合评价优化，从而得到比第二阶段更精确的分类。例如机器学习中常规分类器如KNN(K-近邻算法)、K-平均聚类(K-means)、SVM、NN(neural network，神经网络)、随机森林(RandomForests)和MCR(multivariate curve resolution，多变量曲线分辨率法)等等都可以取代第三阶段中的GMM。

对病变组织区域更精确的分割可采用超级像素方法(Superpixel)和Mask RCNN(模版RCNN)并使分区与病灶的病理意义产生联系，进一步改进和强化对病变组织区域的学习和特征提取。本发明采用RCNN直接分区方法在肺部图像中更易于实现应用而且增强不同病程图像的可比性。

本发明的示例和附图使用AlexNet作为CNN的网络模型减少对训练数据量的需求和加快训练速度，根据应用需要也可使用其他网络(如VGG、GoogLeNet、Inception、ResNet等等)学习。本文通过CNN(RCNN、rCNN) 阐述如何在深度学习中强化对病变组织和正常组织之间关系的学习分类，本发明中的深度学习也可使用其他深度学习框架如：深度置信网络(DBN)、深度玻尔兹曼机(deep Boltzmann machines,DBM)、层叠去噪自编码器(stackeddenoising auto encoders,SDAE)、深度稀疏编码(DeepSparse Coding)来实现。

所属领域的普通技术人员应当理解：以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的医学图像分类装置，包括：

1)输入模块：用于输入待检测的原始医学图像；

3)细分模块：包括

第一循环卷积神经网络，用于处理区域卷积神经网络输出的病变组织区域和正常组织区域的原始图像以得到各个区域的第二识别置信分数；

方向梯度直方图模型，用于将区域卷积神经网络输出的病变组织区域和正常组织区域的图像分别转换为归一化的方向梯度直方图；

支持向量机，用于处理所述归一化的方向梯度直方图以得到各个区域的第三识别置信分数；

高斯混合模型，用于处理所述归一化的方向梯度直方图以得到各个区域的第四识别置信分数；和

第二循环卷积神经网络，用于处理所述归一化的方向梯度直方图以得到各个区域的第五识别置信分数；以及

5)显示模块：用于显示标注有所述病变组织区域和正常组织区域的所述原始医学图像以及各个区域的最终识别置信分数。

2.如权利要求1所述的医学图像分类装置，其特征在于，所述细分模块还包括归一化装置，用于将区域卷积神经网络输出的病变组织区域和正常组织区域的图像进行归一化处理，其中所述归一化处理包括利用正常组织区域作为基准参考，对病变组织区域和正常组织区域的图像像素进行归一化计算。

3.如权利要求1所述的医学图像分类装置，其特征在于，所述区域卷积神经网络选自常规区域卷积神经网络、快速区域卷积神经网络、更快卷积神经网络、YOLO网络、可变形组件模型、和模版区域卷积神经网络。

4.如权利要求1所述的医学图像分类装置，其特征在于，所述综合分类器选自高斯混合模型、K-平均算法模型、K-近邻算法模型、支持向量机、神经网络和随机森林模型和多变量曲线分辨率模型。

5.如权利要求1所述的医学图像分类装置，其特征在于，所述原始医学图像选自计算机放射摄影图像、计算机断层摄影图像、磁共振成像图像和超声图像。

6.一种如权利要求1的医学图像分类装置的训练方法，包括以下步骤：

1)粗分学习阶段，包括：

步骤A2：利用所述输入模块将标记图像作为第一训练样本输入所述粗分模块的区域卷积神经网络进行训练，通过标记图像的交叉验证，使得输出的各个区域的识别置信分数与人工标定的结果之间的差异小于阈值，从而得到训练好的区域卷积神经网络；

2)细分学习阶段，包括

3)多模式整合学习阶段：

步骤C2：利用所述各个区域的第二、第三、第四和第五识别置信分数作为一个输入向量，输入所述整合模块的综合分类器进行聚类计算训练，得到所述医学图像分类装置。

7.如权利要求6所述的训练方法，其特征在于，所述细分学习步骤还包括归一化步骤B0，包括将第一粗分阶段的区域卷积神经网络输出的训练样本的病变组织区域和正常组织区域的图像进行归一化处理，其中所述归一化处理包括利用正常组织区域作为基准参考，对病变组织区域和正常组织区域的图像像素进行归一化计算。

8.如权利要求6所述的训练方法，其特征在于，所述训练方法还包括4)反馈学习阶段，包括通过强化学习或记忆机制，根据医生和患者的反馈，随病程发展确认所述分类装置的前期学习是否判断正确，如果正确则强化正确的学习操作，反之则纠正以前的学习判断。

9.如权利要求6所述的训练方法，其特征在于，所述训练采取10折交叉验证，直至训练准确率和验证准确率接近，并且正确率不再提高或提前设置的迭代训练次数已经达到。

10.一种计算机辅助系统，包括如权利要求1-5中任一项所述的分类装置，该系统以未标记的原始医学图像作为输入，自动输出得到分割出病变组织区域和正常组织区域的原始图像以及最终识别置信分数。

11.一种用于医学图像识别的基于多模式深度学习的分类模型，包括：

1)粗分模块：包括利用区域卷积神经网络对输入的原始医学图像进行区域分割和区域归类处理，得到病变组织区域和正常组织区域以及各个区域的第一识别置信分数；

2)细分模块：包括

12.一种如权利要求11所述的分类模型的训练方法，包括以下步骤：

1)粗分学习阶段，包括：

步骤A2：将标记图像作为第一训练样本输入所述粗分模块的区域卷积神经网络进行训练，通过标记图像的交叉验证，使得输出的各个区域的识别置信分数与人工标定的结果之间的差异小于阈值，从而得到训练好的区域卷积神经网络；

2)细分学习阶段，包括

3)多模式整合学习阶段：

步骤C2：利用所述各个区域的第二、第三、第四和第五识别置信分数作为一个输入向量，输入所述整合模块的综合分类器进行聚类计算训练，得到训练好的综合分类器，由此完成对所述分类模型的训练。