CN111414956B - 一种肺部ct图像中模糊模式的多示例学习识别方法 - Google Patents

一种肺部ct图像中模糊模式的多示例学习识别方法 Download PDF

Info

Publication number
CN111414956B
CN111414956B CN202010189494.8A CN202010189494A CN111414956B CN 111414956 B CN111414956 B CN 111414956B CN 202010189494 A CN202010189494 A CN 202010189494A CN 111414956 B CN111414956 B CN 111414956B
Authority
CN
China
Prior art keywords
lung
adopting
image
features
steps
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010189494.8A
Other languages
English (en)
Other versions
CN111414956A (zh
Inventor
齐守良
徐偲文
马贺
钱唯
Original Assignee
东北大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 东北大学 filed Critical 东北大学
Priority to CN202010189494.8A priority Critical patent/CN111414956B/zh
Publication of CN111414956A publication Critical patent/CN111414956A/zh
Application granted granted Critical
Publication of CN111414956B publication Critical patent/CN111414956B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Apparatus For Radiation Diagnosis (AREA)

Abstract

本发明公开一种肺部CT图像中模糊模式的多示例学习识别方法,属于CT图像处理技术领域。该方法首先对不同模式下的肺部CT图像进行随机抽样并进行预处理,其次对预处理后的样本采用迁移学习的方法进行特征提取,并采用主成分分析法对特征进行降维,最后采用优化后的多示例学习的方案对不同模式的肺部CT图像进行分类。本发明把卷积神经网络和多示例学习相结合,能够在数据量不足且存在未知的示例标签的情况下利用CNN提取样本特征,采用网格搜索优化多示例学习的参数,有效提高了分类准确率。

Description

一种肺部CT图像中模糊模式的多示例学习识别方法
技术领域
本发明涉及CT图像处理技术领域,尤其涉及一种肺部CT图像中模糊模式的多示例学习识别方法。
背景技术
对于不同模糊模式的多层CT序列图像的分类问题,传统的机器学习方法是利用局部二进制模式、定向梯度直方图、ORB、SURF和SIFT等手工提取的特征,需要该领域的专门知识。而卷积神经网络可以作为一个自动的特征提取器,利用浅层来提取每一层CT图像中类似于边缘、轮廓、色调、阴影和纹理等较为低级的特征;利用靠近输出的层提取更加抽象和复杂的特征。
但从零开始训练需要大量的有标注的数据。值得注意的是,标注每一层切片图像不仅耗时耗力,而且需要高成本的、特定专业的知识和技能。而迁移学习可以降低对上述的要求。
此外,卷积神经网络与传统的机器学习相结合的方法得到越来越多的重视,在很多情况下这种混合方法比单独利用卷积神经网络对图像进行分类所得到的准确率更高。当处理多层CT序列图像时,存在部分切片图像标签未知的情况。此时多示例学习,例如引用-k最近邻(Citation-KNN),更加适合。具体来说,为识别两种模式的肺部CT图像,可将扫描自同一肺部的切片图像看做一个包中的示例,然后基于这些包进行后续分类。
综上,对CT序列图像进行分类的传统方法的问题主要包括数据量缺乏,标签和特征不易获取。因此,本专利提出了一种肺部CT图像中模糊模式的多示例学习识别方法,准确且高效,避免了对切片图像进行标签标注的问题,同时弱化了大量数据对于特征的自动提取器的必要性。
发明内容
针对上述现有技术的不足,提供一种肺部CT图像中模糊模式的多示例学习识别方法。
为解决上述技术问题,本发明所采取的技术方案是:一种肺部CT图像中模糊模式的多示例学习识别方法,其流程如图1所示,包括如下步骤:
步骤1:采用随机抽样的方法分别对模式A和模式B的肺部CT图像样本进行采集,并进行预处理;
步骤1.1:在人体冠状面方向,分别去掉肺部上下两部分含有较小肺区的切片;
也可以从其他各个方向抽样,如矢状切面、其他斜切面等。
步骤1.2:将其余的肺部平均分成n份,n∈Z,从每份中随机抽取一张切片作为一个示例;
步骤1.3:对抽取的示例进行像素值标准化和灰度变换;
步骤1.4:将从同一个肺部CT序列图像中获取的n个样本特征视为一个包。
步骤2:对预处理后的样本采用迁移学习的方法进行特征提取,并采用主成分分析法对特征进行降维;
步骤2.1:用已知的自然图像数据集预训练卷积神经网络CNN;
步骤2.2:输入步骤1预处理后的样本利用卷积层进行特征提取;
所述利用卷积层进行特征提取的方法为:利用浅层即靠近输入层的卷积层的输出作为特征,分别按不同卷积层输出的特征进行分类,比较各个卷积层输出特征的分类准确率,选择准确率最高的一个卷积层的输出特征作为最终提取的特征。
步骤2.3:采用主成分分析法对提取后的样本特征进行降维。
步骤3:基于提取后的特征采用多示例学习的方案对模式A和模式B进行分类;
步骤3.1:对降维后的样本包按一定比例划分为训练集和测试集;
步骤3.2:将训练集和测试集的样本包输入多示例学习模型中;
多示例学习模型包括:引用-k最近邻模型Citation-KNN,多示例支持向量机模型MI-SVM以及期望最大化-多样性密度模型EM-DD,选择其中的一种即可。
步骤3.3:采用网格搜索的方法确定多示例学习模型的最优参数;
其中采用网格搜索的方法确定引用-k最近邻模型的最优参数包括:最近邻的个数k和确定引用者时的参数C。
步骤3.4:对数据集进行十折交叉验证,保证结果的准确性。
采用上述技术方案所产生的有益效果在于:
(1)能够在数据量不足且存在未知的示例标签的情况下利用CNN提取样本特征;
(2)降低人工成本以及对专业知识的依赖;
(3)利用自然图像预训练的卷积层能较好的表现出肺部CT图像的特点,例如灰度和形态等特征,从而得到较高的分类准确率。
附图说明
图1为本发明一种肺部CT图像中模糊模式的多示例学习识别方法的一般流程图;
图2为本发明实施例中从每个CT序列图像中随机抽取的8个轴向切片图像以图像组合方式表示两种模式下包中的8个示例;
(a)模式A一个包中的示例图;
(b)模式B一个包中的示例图;
图3为本发明实施例中基于迁移学习进行特征提取的示意图;
图4为本发明实施例中基于不同参数设置下的模型性能;
(a)不同的神经层的深度下的模型准确率;
(b)不同的特征维度下模型的准确率。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施例中的数据均来自于同一家医院,由此减小了由于设备不同可能产生的误差。本实施例中分别采集190例模式A的肺部CT图像和90例模式B的肺部CT图像,如图1所示,本实施例的方法如下所述:
步骤1:采用随机抽样的方法分别对模式A和模式B的肺部CT图像样本进行采集,并进行预处理;本实施例中模式A为含有COPD病灶特征的数据,模式B为健康人数据,利用pulmonary_toolkit将所获得的DICOM文件转换为NIFT文件,从而方便利用MATLAB处理上述图像矩阵;
步骤1.1:在人体冠状面方向,分别去掉肺部上下两部分含有较小肺区的切片;
也可以从其他各个方向抽样,如矢状切面、其他斜切面等。
步骤1.2:将其余的肺部平均分成8份,从每份中随机抽取一张切片作为一个示例,即共有280×8张CT轴向切片图像;
步骤1.3:对抽取的示例进行像素值标准化,统一标定在0到1范围内;同时,根据图像的直方图信息进行灰度变换,减少亮度差异对分类结果造成的影响;控制图像尺寸大小和分辨率一致,保存为.png格式;
步骤1.4:将从同一个肺部CT序列图像中获取的8个样本特征视为一个包。
如图2所示,(a)为模式A中的一个包中的8个示例;(b)为模式B中的一个包中的8个示例。
步骤2:对预处理后的样本采用迁移学习的方法进行特征提取,并采用主成分分析法对特征进行降维;
步骤2.1:用已知的自然图像数据集预训练卷积神经网络CNN;
步骤2.2:输入步骤1预处理后的样本利用卷积层进行特征提取;
所述利用卷积层进行特征提取的方法为:利用浅层即靠近输入层的卷积层的输出作为特征,分别按不同卷积层输出的特征进行分类,比较各个卷积层输出特征的分类准确率,选择准确率最高的一个卷积层的输出特征作为最终提取的特征。
本实施例利用预训练的CNN的第四层卷积层提取特征,并以一维大小输出,即每一个示例用大小为1×64896的特征向量表示;
图3列出了上述卷积神经网络的主要结构以及从每一个卷积层提取出的特征映射。主要结构包括5个卷积层(Conv1,Conv2,Conv3,Conv4和Conv5),三个最大池化层(Maxpooling1,Max pooling2和Max pooling3)和三个全连接层(Fc6,Fc7和Fc8)。其中,输入图像大小为227×227×3,第一个到第五个卷积层的过滤器尺寸分别为55×55,27×27,13×13,13×13和13×13,所对应的卷积核的个数分别为96,256,384,384和256。
步骤2.3:采用主成分分析法对提取后的样本特征进行降维,此时每一个示例用大小为1×100的特征向量表示。如图4(a)所示,利用第四层卷积层提取特征,得到的准确率最高;如图4(b)所示,特征维数为20和100时得到的准确率最高。
步骤3:基于提取后的特征采用多示例学习的方案对模式A和模式B进行分类;
步骤3.1:对降维后的样本包按9:1的比例划分为训练集和测试集;
步骤3.2:将训练集和测试集的样本包输入多示例学习模型中;
多示例学习模型包括:引用-k最近邻模型Citation-KNN,多示例支持向量机模型MI-SVM以及期望最大化-多样性密度模型EM-DD,本实施例选择Citation-KNN模型进行分类。
步骤3.3:采用网格搜索的方法确定多示例学习模型的最优参数;
对于引用-k最近邻(Citation-KNN)方法,有两个关键参数需要确定:(1)最近邻的个数k;(2)确定引用者时的参数C。确定引用者的具体方法是,定义测试集中的一个包Uk与训练集中一个包Ti之间的距离Ek,i,定义训练集中Ti与训练集中第C个最近邻(包)之间的距离等于Di,C-th;如果Ek,i<Di,C-th,则Ti被认定为引用者。
这两个关键参数是网格搜索方法确定的,即在一定k和C范围内,逐个配对测试模型性能,取得最高准确率的k和C值被认为是最终的最优设置。在本发明的实施例中,k和C的搜索范围经验性地设置为[1,5],间隔是1,k=2和C=5是最优设置。
步骤3.4:对数据集进行十折交叉验证,保证结果的准确性,即把训练集和测试集循环使用,其最终把所有准确率取平均值。本实施例测试结果准确率达到99.29%。

Claims (3)

1.一种肺部CT图像中模糊模式的多示例学习COPD识别方法,其特征在于,包括如下步骤:
步骤1:采用随机抽样的方法分别对模式A和模式B的肺部CT图像样本进行采集,并进行预处理;其中,所述模式A为含有COPD病灶特征的数据,所述模式B为健康人数据;其中,所述步骤1的过程,包括:
步骤1.1:在人体冠状面方向,分别去掉肺部上下两部分含有较小肺区的切片;
步骤1.2:将其余的肺部平均分成n份,n∈Z,从每份中随机抽取一张切片作为一个示例;
步骤1.3:对抽取的示例进行像素值标准化和灰度变换;
步骤1.4:将从同一个肺部CT序列图像中获取的n个样本特征视为一个包;
步骤2:对预处理后的样本采用迁移学习的方法进行特征提取,并采用主成分分析法对特征进行降维;其中,所述步骤2的过程,包括:
步骤2.1:用已知的自然图像数据集预训练卷积神经网络CNN;其中,所述卷积神经网络CNN,包括:5个卷积层、3个池化层及依次相连的3个全连接层;
步骤2.2:输入步骤1预处理后的样本利用卷积层进行特征提取;其中,所述利用卷积层进行特征提取的方法,包括:利用靠近输入层的卷积层的输出作为特征,分别按不同卷积层输出的特征进行分类,比较各个卷积层输出特征的分类准确率,选择准确率最高的一个卷积层的输出特征作为最终提取的特征;其中,准确率最高的一个卷积层配置为第四层卷积层,利用预训练卷积神经网络CNN的第四层卷积层提取特征,每一个示例用大小为1×64896的特征向量表示;
步骤2.3:采用主成分分析法对提取后的样本特征进行降维,此时每一个示例用大小为1×100或1×20的特征向量表示,得到准确率最高对应的特征向量;
步骤3:基于提取后的特征采用多示例学习的方案对模式A和模式B进行分类;其中,步骤3的过程,包括:
步骤3.1:对降维后的样本包按一定比例划分为训练集和测试集;
步骤3.2:将训练集和测试集的样本包输入多示例学习模型中;
步骤3.3:采用网格搜索的方法确定多示例学习模型的最优参数;其中,所述多示例学习模型,包括:引用-k最近邻模型Citation-KNN;其中,所述采用网格搜索的方法确定多示例学习模型的最优参数的方法,包括:在一定最近邻的个数k和确定引用者时的参数C范围内,逐个配对测试的引用-k最近邻模型性能,取得最高准确率的k值和C值被认为是最终的最优参数;其中,确定引用者的方法,包括:定义测试集中的一个包Uk与训练集中一个包Ti之间的距离Ek,i,定义训练集中Ti与训练集中第C个最近邻包之间的距离等于Di,C-th;如果Ek,i<Di,C-th,则Ti被认定为引用者;其中,k=2和C=5是最优参数设置。
2.根据权利要求1所述的一种肺部CT图像中模糊模式的多示例学习COPD识别方法,其特征在于:用矢状切面方向或斜切面方向代替步骤1.1中的冠状面方向。
3.根据权利要求1所述的一种肺部CT图像中模糊模式的多示例学习COPD识别方法,其特征在于:步骤3的过程,还包括:
步骤3.4:对数据集进行十折交叉验证,保证结果的准确性。
CN202010189494.8A 2020-03-18 2020-03-18 一种肺部ct图像中模糊模式的多示例学习识别方法 Active CN111414956B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010189494.8A CN111414956B (zh) 2020-03-18 2020-03-18 一种肺部ct图像中模糊模式的多示例学习识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010189494.8A CN111414956B (zh) 2020-03-18 2020-03-18 一种肺部ct图像中模糊模式的多示例学习识别方法

Publications (2)

Publication Number Publication Date
CN111414956A CN111414956A (zh) 2020-07-14
CN111414956B true CN111414956B (zh) 2024-01-30

Family

ID=71493080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010189494.8A Active CN111414956B (zh) 2020-03-18 2020-03-18 一种肺部ct图像中模糊模式的多示例学习识别方法

Country Status (1)

Country Link
CN (1) CN111414956B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114723654A (zh) * 2021-01-06 2022-07-08 广州视源电子科技股份有限公司 一种肺栓塞检测模型训练方法、装置、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171232A (zh) * 2017-11-15 2018-06-15 中山大学 基于深度学习算法的细菌性与病毒性儿童肺炎的分类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10452813B2 (en) * 2016-11-17 2019-10-22 Terarecon, Inc. Medical image identification and interpretation
CA3047972A1 (en) * 2018-06-25 2019-12-25 The Royal Institution For The Advancement Of Learning (Mcgill University) Method and system of performing medical treatment outcome assessment or medical condition diagnostic

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171232A (zh) * 2017-11-15 2018-06-15 中山大学 基于深度学习算法的细菌性与病毒性儿童肺炎的分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
安苏阳.基于多示例学习的计算机辅助肺结节检测研究.《中国优秀硕士学位论文全文数据库(电子期刊)医药卫生科技辑》.2013,参见第2、3章、第4.2节. *
王晓权 等.基于迁移学习和SVM的糖网图像分类.《信息通信》.2018,(第第4期期),参见摘要、第3节. *

Also Published As

Publication number Publication date
CN111414956A (zh) 2020-07-14

Similar Documents

Publication Publication Date Title
CN109886179B (zh) 基于Mask-RCNN的子宫颈细胞涂片的图像分割方法和系统
CN106056595B (zh) 基于深度卷积神经网络自动识别甲状腺结节良恶性的辅助诊断系统
CN109087296B (zh) 一种提取ct图像中人体区域的方法
CN111784721A (zh) 基于深度学习的超声内窥图像智能分割与量化方法及系统
CN109684922A (zh) 一种基于卷积神经网络的多模型对成品菜的识别方法
CN110942013A (zh) 一种基于深度神经网络的卫星影像特征提取方法及系统
CN108010013A (zh) 一种肺ct图像肺结节检测方法
CN110705565A (zh) 淋巴结肿瘤区域识别方法与装置
CN108549912A (zh) 一种基于机器学习的医学图像肺结节检测方法
CN112348059A (zh) 基于深度学习的多种染色病理图像分类方法及系统
CN111126361A (zh) 基于半监督学习和特征约束的sar目标鉴别方法
CN113609984A (zh) 一种指针式仪表读数识别方法、装置及电子设备
CN108921172A (zh) 基于支持向量机的图像处理装置及方法
CN116758336A (zh) 一种基于人工智能的医学图像智能分析系统
CN111414956B (zh) 一种肺部ct图像中模糊模式的多示例学习识别方法
CN115033721A (zh) 基于大数据的图像检索方法
Huang et al. HEp-2 cell images classification based on textural and statistic features using self-organizing map
CN116524315A (zh) 一种基于Mask R-CNN的肺癌病理组织切片识别及分割方法
CN107729863B (zh) 人体指静脉识别方法
CN110443790B (zh) 一种医学影像中软骨识别方法和识别系统
CN112215303A (zh) 一种基于自学属性的图像理解方法及系统
CN103559716A (zh) 一种缺陷图像的自动分割方法
CN116664932A (zh) 一种基于主动学习的结直肠癌病理组织图像分类方法
CN112241954B (zh) 基于肿块差异化分类的全视野自适应分割网络配置方法
CN113870194B (zh) 深层特征和浅层lbp特征融合的乳腺肿瘤超声图像处理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant