CN117095241A - 一种耐药性肺结核类别的筛查方法、系统、设备及介质 - Google Patents
一种耐药性肺结核类别的筛查方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN117095241A CN117095241A CN202311338054.4A CN202311338054A CN117095241A CN 117095241 A CN117095241 A CN 117095241A CN 202311338054 A CN202311338054 A CN 202311338054A CN 117095241 A CN117095241 A CN 117095241A
- Authority
- CN
- China
- Prior art keywords
- drug
- representing
- network model
- cnn network
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 124
- 238000012216 screening Methods 0.000 title claims abstract description 53
- 239000003814 drug Substances 0.000 title claims description 40
- 229940079593 drug Drugs 0.000 title claims description 38
- 208000008128 pulmonary tuberculosis Diseases 0.000 title claims description 35
- 201000009671 multidrug-resistant tuberculosis Diseases 0.000 claims abstract description 84
- 208000015355 drug-resistant tuberculosis Diseases 0.000 claims abstract description 73
- 206010059866 Drug resistance Diseases 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims description 67
- 230000006870 function Effects 0.000 claims description 34
- 238000004422 calculation algorithm Methods 0.000 claims description 30
- 238000011176 pooling Methods 0.000 claims description 26
- 239000013598 vector Substances 0.000 claims description 26
- 230000002159 abnormal effect Effects 0.000 claims description 18
- 238000004873 anchoring Methods 0.000 claims description 18
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 13
- 210000004072 lung Anatomy 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 13
- 238000002372 labelling Methods 0.000 claims description 9
- 239000003550 marker Substances 0.000 claims description 8
- 230000035945 sensitivity Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 238000002156 mixing Methods 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 4
- 201000008827 tuberculosis Diseases 0.000 abstract description 36
- 238000001514 detection method Methods 0.000 abstract description 21
- 230000001419 dependent effect Effects 0.000 abstract description 6
- 239000000284 extract Substances 0.000 abstract description 6
- JQXXHWHPUNPDRT-WLSIYKJHSA-N rifampicin Chemical compound O([C@](C1=O)(C)O/C=C/[C@@H]([C@H]([C@@H](OC(C)=O)[C@H](C)[C@H](O)[C@H](C)[C@@H](O)[C@@H](C)\C=C\C=C(C)/C(=O)NC=2C(O)=C3C([O-])=C4C)C)OC)C4=C1C3=C(O)C=2\C=N\N1CC[NH+](C)CC1 JQXXHWHPUNPDRT-WLSIYKJHSA-N 0.000 abstract description 6
- 229960001225 rifampicin Drugs 0.000 abstract description 6
- 238000013527 convolutional neural network Methods 0.000 description 64
- 210000000038 chest Anatomy 0.000 description 60
- 230000003902 lesion Effects 0.000 description 12
- 238000010801 machine learning Methods 0.000 description 12
- 238000003745 diagnosis Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000003384 imaging method Methods 0.000 description 5
- 230000000877 morphologic effect Effects 0.000 description 5
- 210000002966 serum Anatomy 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 5
- 230000005856 abnormality Effects 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 4
- 230000002503 metabolic effect Effects 0.000 description 4
- 238000005192 partition Methods 0.000 description 4
- 230000002685 pulmonary effect Effects 0.000 description 4
- 241000187479 Mycobacterium tuberculosis Species 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000011976 chest X-ray Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000002207 metabolite Substances 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 206010035664 Pneumonia Diseases 0.000 description 2
- 206010036790 Productive cough Diseases 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 210000000481 breast Anatomy 0.000 description 2
- 239000003153 chemical reaction reagent Substances 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 238000009533 lab test Methods 0.000 description 2
- 201000003453 lung abscess Diseases 0.000 description 2
- 238000000386 microscopy Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 208000024794 sputum Diseases 0.000 description 2
- 210000003802 sputum Anatomy 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000001358 Pearson's chi-squared test Methods 0.000 description 1
- 241000529895 Stercorarius Species 0.000 description 1
- KGTSLTYUUFWZNW-PPJQWWMSSA-N [(7S,9E,11S,12R,13S,14R,15R,16R,17S,18S,19E,21Z)-2,15,17,27,29-pentahydroxy-11-methoxy-3,7,12,14,16,18,22-heptamethyl-26-[(E)-(4-methylpiperazin-1-yl)iminomethyl]-6,23-dioxo-8,30-dioxa-24-azatetracyclo[23.3.1.14,7.05,28]triaconta-1(29),2,4,9,19,21,25,27-octaen-13-yl] acetate pyridine-4-carbohydrazide Chemical compound NNC(=O)c1ccncc1.CO[C@H]1\C=C\O[C@@]2(C)Oc3c(C2=O)c2c(O)c(\C=N\N4CCN(C)CC4)c(NC(=O)\C(C)=C/C=C/[C@H](C)[C@H](O)[C@@H](C)[C@@H](O)[C@@H](C)[C@H](OC(C)=O)[C@@H]1C)c(O)c2c(O)c3C KGTSLTYUUFWZNW-PPJQWWMSSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000002365 anti-tubercular Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 229940126585 therapeutic drug Drugs 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/20—ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Abstract
本发明公开了一种耐药性肺结核类别的筛查方法、系统、设备及介质,涉及耐药性肺结核类别的筛查,其目的在于解决现有技术中无法对耐药性结核的类别(尤其是利福平耐药结核、多药耐药结核以及广泛耐药结核这种类别)进行检测、筛查的技术问题。其样本数据的标签包括耐药性标签、病灶形态标签,采用半监督学习方法、多标签依赖方法对CNN网络模型进行训练,半监督学习的目标是通过充分利用这些未标记数据来改进模型的泛化能力,多标签依赖方法训练旨在利用多个相关学习任务中包含的有用信息;构建的CNN网络模型可以提取胸部CT图像深层次的特征,能够实现对多种耐药性结核的类别进行检测、筛查。
Description
技术领域
本发明属于人工智能技术领域,涉及一种肺结核种类(类别)的筛查(即其实质就是一个分类任务,通过对胸部CT图像进行识别、分析后,得出该图像中的肺结核的类别),尤其涉及一种耐药性肺结核类别的筛查方法、系统、设备及介质。
背景技术
耐多药结核病是由至少对异烟肼和利福平这两个抗结核治疗药物无反应的结核分支杆菌引起的结核病。耐多药结核病对公共卫生和健康安全造成了威胁,2020年只有大约三分之一的耐药结核病患者接受了治疗。要在全球大幅提高治疗覆盖率,努力改善对耐药结核病的检测和诊断。在耐药性肺结核的检测、筛查过程中,对耐药性肺结核类别的筛查就显得尤为重要。
现有技术中,已有通过血清代谢标志物及其试剂盒进行耐药性肺结核的检测。比如,申请号为202210321968.9的发明专利申请就公开了一种用于检测耐药性肺结核的血清代谢标志物及其试剂盒,其血清代谢标志物共17种,经验证后所述17种代谢物的水平变化确实与耐药性肺结核相关。基于上述17种代谢标志物构建的耐药性结核检测模型具有较高的灵敏性和特异性。本发明还提供一种耐药性肺结核检测试剂盒,包括上述的17种肺结核病人血清中的代谢物的检测试剂,所述检测试剂用于对所述17种肺结核病人血清中的代谢物进行定量检测。本发明的标志物以及试剂盒能够帮助医生准确地进行耐药性肺结核的诊断,对于耐药性肺结核的诊断和治疗具有重要意义。
除了采用生物技术检测耐药性肺结核以外,近年来,有效且经济的耐药性肺结核早期筛查方法在被广泛进行研究,已有的实验表明部分临床数据和放射学征象在耐药性结核和敏感性结核方面存在差异,可以用于区分耐性结核和敏感性结核。然而,如何利用已有的临床信息和影像数据准确检测耐药性肺结核仍然是一个悬而未决的问题。目前典型的耐药性肺结核筛查方法基于三个阶段:(1)完成数据收集和与处理,主要是对肺结核的病灶进行标注,标注信息一般包括病灶的位置和耐药性质;(2)选择合适的特征选择算法,包括主成分分析法,遗传算法,支持向量机算法,神经网络算法等,在为每个选择的特征选择合适的模型后,将其分别进行应用;(3)使用准备好的数据集训练对应的分类算法,并根据最后的肺结核耐药性预测结果,调整对应的参数,完善其耐药性预测的准确率。
基于胸部CT图像的耐药性肺结核筛查任务首先对CT图像中的肺结核病灶赋予一个二分类或多分类的标签,以表示该病灶是否具备耐药属性,下一步的方法可以归为基于传统机器学习的方法和基于深度学习的方法两类。
基于机器学习的方法集中于提取肺结核的影像组学特征,通常需要人为选择并提取一组手工特征,随后将这些特征传入支持向量机、逻辑回归、多层感知机、K-最近邻分类器等经典机器学习算法的分类器中,最终得到耐药性肺结核的分类结果。Jaeger等人使用不同的机器学习方法利用形状和纹理特征为为胸部X光片中的计算机辅助结核病筛查提供了结果,该方法包括对胸部X光片进行肺分割、基于颜色、形状和纹理和基于边缘方向的两组特征计算和分类器分类处理,准确率为60%。Ali等人应用随机森林、支持向量机、选择算子等机器学习算法识别和诊断耐多药结核,这一方法的结果表明了结核患者吸烟、抑郁、既往结合病史、治疗不当与患上耐多药结核密切相关。同时,基于模型的准确性、敏感性和特异性,SVM和随机森林被建议用于耐药性结核筛查。Yang等人使用TBPortals数据集,并从中筛选了3个临床特征和26个放射学特征。然后对所选特征进行了Pearson卡方检验,分析所选临床和影像学特征的意义,最后训练了一个SVM来区分耐药性结核和药物敏感性结核。但传统的机器学习方法存在非常明显且严重的局限性,手工特征存在人为选择提取的局限性无法详尽地表达肺结核特征,导致分类器最后的分类结果不够准确。
基于深度学习的方法是一种端到端的特征提取方法,有着十分强大的非线性能力,可以直接从输入图像中提取特征并处理复杂的预测任务,是目前医学图像分类任务上最先进的方法。Gao等人设计了一个基于迁移学习框架的VGG-16网络模型来对CT图像进行耐药型结核筛查。针对三维CT图像,该方法实施了切片抽样,从每例CT中抽取9张切片,将切片分别传输到在ImageNet数据集上预训练过的模型中进行训练,最后对每张切片的结果进行投票得到每例CT图像的最终分类结果。Gao和Qian提出了一种基于二维补丁的深度卷积神经网络与支持向量机分类器相结合的方法,以更全自动的方式预测耐多药结核。Kazemzadeh等人提出了基于基于大规模胸片预训练、注意力机制和半监督学习的深度学习系统,并对10个国家的胸部X光片进行了训练与测试。
由于肺结核形态学特征复杂,耐药性判断困难,现有研究提出的所有方法均不能有较好的检测效果。在现有的耐药性肺结核检测方法中,要么是基于传统的机器学习方法,如支持向量机,这类方法不仅设计起来十分繁琐,而且所提取的特征的有效性也难以保证。基于神经网络网络的方法,可以使用神经网络自动地从各种风险指标中提取本质特征,这些方法可以有效利用肺结核病灶的影像学特征,包括大小、纹理和方向等因素。但是由于实际应用中需要十分庞大的数据量,同时肺结核数据存在类别不平衡问题,导致检测准确率不高。过往的方法均将胸部CT图像处理为二维图像操作,忽略了肺结核病灶本身的三维特征,也导致了耐药肺结核检测准确率低。针对不同耐药亚型的肺结核类别需要采取更为精细的不同策略,现有的检测方法仅关注于药敏和耐药两类的分类,对于针对利福平耐药结核、多药耐药结核以及广泛耐药结核这三种耐药性结核亚型的检测还处于空白阶段。
发明内容
本发明的目的在于解决现有技术中无法对利福平耐药结核、多药耐药结核以及广泛耐药结核这三种耐药性结核亚型进行检测、筛查的技术问题,提供一种耐药性肺结核类别的筛查方法、系统、设备及介质。
本发明为了实现上述目的具体采用以下技术方案:
一种耐药性肺结核类别的筛查方法,包括以下步骤:
步骤S1,获取样本数据
获取胸部CT图像样本,对部分胸部CT图像样本进行标注并形成标签数据集,标签包括耐药性标签、病灶形态标签;
步骤S2,构建CNN网络模型
构建CNN网络模型,CNN网络模型包括卷积层、最大池化层、批归一化层、四个基础残差块、全局平均池化层以及全连接层,通过卷积层、最大池化层、批归一化层、四个基础残差块对肺部CT图像中的肺结核异常区域进行特征提取,再通过全局平均池化层将提取到的高层特征转化为一位特征向量,最后由全连接层计算得到每个标签的预测概率;
步骤S3,训练CNN网络模型
采用半监督学习方法、多标签依赖方法对步骤S2构建的CNN网络模型进行训练,得到成熟的CNN网络模型;
步骤S4,实时筛查
获取实时的胸部CT图像,并输入成熟的CNN网络模型,CNN网络模型输出耐药性肺结核类别的筛查结果。
进一步地步骤S3中,在采用半监督学习方法进行训练时,具体训练方法为:
步骤S3-1,计算样本信息含量
先采用标签数据集中的样本对CNN网络模型进行预训练,再采用预训练后的CNN网络模型对胸部CT图像样本进行特征提取;在锚定数据集的特征空间对每个未标注的胸部CT图像样本进行K邻近算法处理,计算目标样本与K个邻居余弦距离的均值作为密度得分,并根据密度得分分别计算每个未标注的胸部CT图像样本的信息含量;
其中,锚定数据集为高信息数据集,初始为标签数据集;
步骤S3-2,信息混合
对于高信息含量的未标注的胸部CT图像样本,通过密度加权算法,为每个未标注的胸部CT图像样本生成伪标签;
步骤S3-3,生成负伪标签
对于低信息含量的未标注的胸部CT图像样本,针对弱增强、强增强两个版本的图像自适应计算并生成负伪标签;
步骤S3-4,更新锚定数据集
将生成的伪标签加入锚定数据集,并更新锚定数据集;将生成的伪标签、负伪标签加入标签数据集,并更新标签数据集;
步骤S3-5,重复上述步骤,直至CNN网络模型收敛。
进一步地,步骤S3-1中,在计算信息含量时,公式为:
其中,表示K邻近算法设置的近邻数,/>表示向量的转置,/>表示伪标签数据,表示锚定数据,/>表示锚定数据标签,/>表示锚定数据集,/>表示伪标记样本/>在锚定数据集的K近邻集合,/>表示CNN网络模型输出的样本/>的F维特征向量,/>表示CNN网络模型输出的锚定数据/>的F维特征向量,/>表示向量的模。
进一步地,步骤S3-2中,在高信息含量的未标注的胸部CT图像样本生成伪标签时,分配伪标签的公式为:
其中,表示信息混合伪标签生成方法,/>表示伪标记样本x在锚定数据集中的信息含量权重,/>表示CNN网络模型输出的样本x标签预测结果,/>表示K近邻算法输出的样本x标签预测结果,/>表示CNN网络模型输出的样本/>的F维特征向量,/>表示锚定数据集。
进一步地,步骤S3-3中,在低信息含量的未标注的胸部CT图像样本生成负伪标签时,负伪标签分配公式为:
其中,表示CNN网络模型输出的对于/>类的标签概率值,/>表示设置的类阈值,、/>分别表示标签预测精度排名和设置的可信度参数。
进一步地,步骤S3-4中,在将生成的伪标签加入锚定数据集,具体表达式为:
其中,的值为1的样本会被置入锚定数据集,/>表示设置的最高密度参数,表示伪标签数据和锚定数据在彼此特征空间中互为近邻的总个数。
进一步地,步骤S3中,在进行训练时,耐药/药敏二分类任务的损失函数为:
耐药亚型三分类任务的损失函数为:
胸部异常特征标签的加权交叉熵损失函数为:
耐药标签的交叉熵损失函数为:
耐药亚型标签的平均交叉熵损失函数为:
其中,、/>、/>分别表示耐药标签的交叉熵损失函数、耐药亚型标签的平均交叉熵损失函数和胸部异常特征标签的加权交叉熵损失函数;/>、/>均为控制各损失权重的超参数,/>表示样本真实值,/>表示样本预测值,/>表示第i类影像特征的数量比例的倒数,/>表示样本第i个类别真实值,/>表示样本第i个类别预测值,/>表示类别总数,表示惩罚因子,/>表示设定的惩罚值。
一种耐药性肺结核类别的筛查系统,包括:
样本数据获取模块,用于获取胸部CT图像样本,对部分胸部CT图像样本进行标注并形成标签数据集,标签包括耐药性标签、病灶形态标签;
CNN网络模型构建模块,用于构建CNN网络模型,CNN网络模型包括卷积层、最大池化层、批归一化层、四个基础残差块、全局平均池化层以及全连接层,通过卷积层、最大池化层、批归一化层、四个基础残差块对肺部CT图像中的肺结核异常区域进行特征提取,再通过全局平均池化层将提取到的高层特征转化为一位特征向量,最后由全连接层计算得到每个标签的预测概率;
CNN网络模型训练模块,用于采用半监督学习方法、多标签依赖方法对CNN网络模型构建模块构建的CNN网络模型进行训练,得到成熟的CNN网络模型;
实时筛查模块,用于获取实时的胸部CT图像,并输入成熟的CNN网络模型,CNN网络模型输出耐药性肺结核类别的筛查结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述方法的步骤。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述方法的步骤。
本发明的有益效果如下:
1、本发明中,样本数据的标签包括耐药性标签、病灶形态标签,并在模型训练时,采用半监督学习方法、多标签依赖方法对CNN网络模型进行训练,半监督学习的目标是通过充分利用这些未标记数据来改进模型的泛化能力,多标签依赖方法训练本质上是机器学习中的多任务方法,旨在利用多个相关学习任务中包含的有用信息,提高模型的预测性能;构建的CNN网络模型可以提取胸部CT图像深层次的特征,能够自动提取并分析胸部CT图的影像学特征以检测肺结核的耐药性,以及对于肺结核的耐药结核亚型进行分类,实现利福平耐药结核、多药耐药结核以及广泛耐药结核这三种类别的耐药性结核亚型进行检测、筛查。
2、本发明中,在进行信息混合时,采用了一种基于密度加权的方法,结合两种方法生成未标记样本的伪标签,计算需要的密度来自于第一步计算得到,可以反映神经网络模型的预测准确性,使得本发明可以为未标记样本生成准确的伪标记,提升模型的预测性能。
3、本发明中,在生成负伪标签时,该方法首先基于预测一致性,针对弱增强和强增强两个版本的图像自适应计算一个k值,使得前k个标签的精度接近为1,而排名在k之后的类则被视为负伪标签,采用负向学习的策略训练模型,使得模型可以在类别不平衡的情况下,对少数类样本的特征和表示更加关注,避免过拟合;同时,也实现了数据集的扩充,提升了模型的泛化能力和鲁棒性。
4、本发明,采用了一种动态更新锚定数据集的方法,使得在模型训练后期仍然能获得准确的密度得分。锚集更新策略是从生成的伪标签样本中挑选远离高密度区域的样本加入锚定数据集,在我们实际的发明中,即为将少数类样本,即耐药性样本加入到锚集中,这一步骤强化了模型对于药敏性样本的学习能力,提高了本发明的效果。
5、本发明对CT影像数据进行预处理,利用基于病灶补丁的数据处理技术,使模型能够更好学习和利用肺结核的特征信息,并缓解了训练样本的类别不平衡问题,有效提升了模型的筛查准确性。
6、本发明采用半监督学习方法,通过利用大量未标记的CT影像数据和相应的训练策略对模型进行训练,缓解了训练样本少和类别不平衡问题,提升了模型对于肺结核的特征提取效果,实现对肺结核耐药性及其亚型进行准确筛选并分类。
7、本发明的筛查速度较快,且筛查速度还可随设备扩展提升,节省了初级筛查的人力物力。
8、本发明可以向底层进行推广,解决基层医院专业医疗资源不足的问题,提升基层医院诊断水平,减少偏远地区误诊与漏诊的机率。
附图说明
图1是本发明的流程示意图;
图2是本发明中多病灶补丁生成数据处理的流程示意图;
图3是本发明中CNN网络模型结构以及训练的示意图;
图4是本发明中半监督学习的流程示意图;
其中,图3中,C表示卷积层、M表示最大池化、B表示批归一化、U表示ReLU激活函数、R表示基础残差块、G表示全局平均池化、F表示全连接层,P1表示耐药性预测标签,P2表示形态学特征预测标签,P3表示耐药压型预测标签,L1表示耐药性真实标签,L2表示形态学特征真实标签,L3表示耐药亚型真实标签。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
因此,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本实施例提供一种耐药性肺结核类别的筛查方法,其实质就是一个分类任务,通过对胸部CT图像进行识别、分析后,得出该图像中的肺结核的类别,具体如图1所示,包括以下步骤:
步骤S1,获取样本数据
获取胸部CT图像样本,对部分胸部CT图像样本进行标注并形成标签数据集,标签包括耐药性标签、病灶形态标签。
由于CNN网络模型需要大量的数据用于训练,因此首先需要准备好数据用于模型的训练。胸部CT图像样本所用数据为2008年至2021年期间在四川大学华西医院就诊的肺结核患者的回顾性收集,收集内容包括胸部CT图像、放射报告和耐药实验结果,其中数据的纳入标准为:1)、通过病原学测试(痰液显微镜检查或者结核分枝杆菌培养)或者通过综合分析放射学和症状进行临床确认,或其他辅助诊断肺结核实验室检查确诊为肺结核的患者;2)、有DST或者基因检测耐药结果的患者;3)、可获得相关的所需的临床资料的患者。排除标准为:1)、CT图像不完整的患者;2)、无耐药诊断前后一个月内的CT图像的患者;3)、伴随其他与CT图像诊断不相关的肺实质疾病,如肺炎、肺脓肿。
针对上述获取的胸部CT图像样本,还需进行对样本数据进行标注,形成标签数据集,标签包括耐药性标签、病灶形态标签。本实施例使用的已标记数据需要两类标签:结核的耐药性质(是否耐药,耐药类别)、结核病灶的形态学特征。对于以上的两类标签,均通过使用已开发的CT影像标注平台DeepLNAnno,由专业医生进行多轮标注标定,保证每一个标签准确与客观性。
获取到胸部CT图像样本后,还对样本数据进行预处理。
数据预处理阶段,先去除CT图像中的冗余信息,提取肺结核异常区域的固有特征。针对提取出的异常区域,本实施例提出了一项基于病灶补丁的数据处理方式,具体如图2所示:首先为消除不同例CT图像间的间距差异,采用重采样算法将CT图像的像素间距调整为1×1×1,之后为了获得数据一致性,再使用双三次插值将病变调整为预先设定好的M×M×N的均匀大小。记录每个CT病例中所有病变的数量,并用给定的深度n除以每个CT病例的所有病变的数目获得分区长度。取病变体积深度的一半获得中间切片,提取具有输入体积分区长度的中间切片。将单个病例的所有分割病变进行叠加,以重建所需的输入体积,该体积的深度大小为n。叠加后的补丁能够充分反映肺结核病变的影响特征。处理后的数据包含了单个结核病患者CT影像中所有的病灶,通过探索病灶之间的相互关系,并且结合多个病灶的耐药性质可以避免由于个别病灶中影像学特征难以区分导致的耐药性分类失误。
步骤S2,构建CNN网络模型
构建如图3所示的CNN网络模型,CNN网络模型包括卷积层、最大池化层、批归一化层、四个基础残差块、全局平均池化层以及全连接层,通过卷积层、最大池化层、批归一化层、四个基础残差块对肺部CT图像中的肺结核异常区域进行特征提取,再通过全局平均池化层将提取到的高层特征转化为一位特征向量,最后由全连接层计算得到每个标签的预测概率。
步骤S3,训练CNN网络模型
如图3所示,采用半监督学习方法、多标签依赖方法对步骤S2构建的CNN网络模型进行训练,得到成熟的CNN网络模型。
本实施例中,CNN网络模型的训练策略由两个部分组成:一是半监督学习训练策略,半监督学习是一种机器学习方法,它旨在利用有标签数据和无标签数据结合来提高模型性能,半监督学习的目标是通过充分利用这些未标记数据来改进模型的泛化能力。二是多标签依赖方法训练策略,它本质上是机器学习中的多任务方法,旨在利用多个相关学习任务中包含的有用信息,提高模型的预测性能。以下是对CNN网络模型的训练的详细叙述:
在采用半监督学习方法进行训练时,具体训练方法为:
步骤S3-1,计算样本信息含量
针对CT图像存在的类别不平衡问题,本实施例提出了一种基于计算未标记数据集与高信息数据集相似度的信息含量计算方法,其中高信息数据集称为锚定数据集,初始为标记数据集。详细计算方法为:
先采用标签数据集中的样本对CNN网络模型进行预训练,再采用预训练后的CNN网络模型对胸部CT图像样本进行特征提取;在锚定数据集的特征空间对每个未标注的胸部CT图像样本进行K邻近算法处理,计算目标样本与K个邻居余弦距离的均值作为密度得分,并根据密度得分分别计算每个未标注的胸部CT图像样本的信息含量,信息含量被分为低、中、高三种类型。
在计算信息含量时,公式为:
其中,表示K邻近算法设置的近邻数,/>表示向量的转置,/>表示伪标签数据,表示锚定数据,/>表示锚定数据标签,/>表示锚定数据集,/>表示伪标记样本/>在锚定数据集的K近邻集合,/>表示CNN网络模型输出的样本/>的F维特征向量,/>表示CNN网络模型输出的锚定数据/>的F维特征向量,/>表示向量的模。
步骤S3-2,信息混合
对于高信息含量的未标注的胸部CT图像样本,通过密度加权算法,为每个未标注的胸部CT图像样本生成伪标签。
在计算得到样本的信息含量后,本实施例会对未标记样本生成伪标签。传统的伪标签方法采用模型直接预测生成伪标签,该方法容易导致模型的确认偏差,忽略少数类标签,在肺部CT影像类别不平衡的情况下会极大影响模型的性能。另一种基于K邻近算法的伪标签生成方法的可靠性基于锚定数据集的大小和代表性,也会影响模型的性能。因此本实施例采用了一种基于密度加权的方法,结合两种方法生成未标记样本的伪标签,计算需要的密度来自于第一步计算得到,可以反映神经网络模型的预测准确性,使得本实施例可以为未标记样本生成准确的伪标记,提升模型的预测性能。
在高信息含量的未标注的胸部CT图像样本生成伪标签时,分配伪标签的公式为:
其中,表示信息混合伪标签生成方法,/>表示伪标记样本x在锚定数据集中的信息含量权重,/>表示CNN网络模型输出的样本x标签预测结果,/>表示K近邻算法输出的样本x标签预测结果,/>表示CNN网络模型输出的样本/>的F维特征向量,/>表示锚定数据集。
步骤S3-3,生成负伪标签
对于低信息含量的未标注的胸部CT图像样本,针对弱增强、强增强两个版本的图像自适应计算并生成负伪标签。
本实施例对于信息含量较低的样本引入额外的负伪标签,使得这些低置信度的样本也可以提升模型的性能。该方法首先基于预测一致性,针对弱增强和强增强两个版本的图像自适应计算一个k值,使得前k个标签的精度接近为1,而排名在k之后的类则被视为负伪标签,采用负向学习的策略训练模型,使得模型可以在类别不平衡的情况下,对少数类样本的特征和表示更加关注,避免过拟合;同时,也实现了数据集的扩充,提升了模型的泛化能力和鲁棒性。
在低信息含量的未标注的胸部CT图像样本生成负伪标签时,负伪标签分配公式为:
其中,表示CNN网络模型输出的对于/>类的标签概率值,/>表示设置的类阈值,、/>分别表示标签预测精度排名和设置的可信度参数。
步骤S3-4,更新锚定数据集
将生成的伪标签加入锚定数据集,并更新锚定数据集;将生成的伪标签、负伪标签加入标签数据集,并更新标签数据集。
本实施例采用了一种动态更新锚定数据集的方法,使得在模型训练后期仍然能获得准确的密度得分。锚集更新策略是从生成的伪标签样本中挑选远离高密度区域的样本加入锚定数据集,在本申请中,即为将少数类样本,即耐药性样本加入到锚集中,这一步骤强化了模型对于药敏性样本的学习能力,提高了相关效果。
在将生成的伪标签加入锚定数据集,具体表达式为:
其中,的值为1的样本会被置入锚定数据集,/>表示设置的最高密度参数,表示伪标签数据和锚定数据在彼此特征空间中互为近邻的总个数。
步骤S3-5,重复上述步骤,直至CNN网络模型收敛。
在进行训练时,耐药/药敏二分类任务的损失函数为:
耐药亚型三分类任务的损失函数为:
胸部异常特征标签的加权交叉熵损失函数为:
耐药标签的交叉熵损失函数为:
耐药亚型标签的平均交叉熵损失函数为:
其中,、/>、/>分别表示耐药标签的交叉熵损失函数、耐药亚型标签的平均交叉熵损失函数和胸部异常特征标签的加权交叉熵损失函数;/>、/>均为控制各损失权重的超参数,/>表示样本真实值,/>表示样本预测值,/>表示第i类影像特征的数量比例的倒数,/>表示样本第i个类别真实值,/>表示样本第i个类别预测值,/>表示类别总数,表示惩罚因子,/>表示设定的惩罚值。
训练时,网络设置学习率为0.01,首先采用标记数据集对网络预热训练40个学习迭代。之后使用标记数据集和伪标签数据集对模型一起训练,学习率每经过20个学习迭代之后衰减十倍。每经过20个学习迭代后对锚定数据集进行一次更新。卷积权值使用高斯分布初始化。一次训练批次设置为24,学习迭代次数为100。网络训练采用BP反馈传播算法和任务学习误差对肺结核的耐药性和胸部异常特征学习。网络学习针对每个批次更新一次参数。每一次迭代学习之后,模型判断肺结核检测结果的总误差大小,如果当前误差小于上一个迭代的误差,就保存当前模型,然后继续训练,直到达到最大迭代次数。
在采用多标签依赖方法进行训练时,本实施例将肺结核耐药性预测和胸部异常特征识别任务结合,通过学习两个相关任务,可以充分利用肺部CT影像图的特征,提高模型预测性能。在训练过程中为耐药结核筛查和肺部异常检测任务提取同一组特征表达,更加关注于耐药性肺结核影像特征及其肺部异常间显著的相关性,有利于算法提取到更加具有泛化性的耐药性肺结核特征表达。图4展示了基于多任务学习的两个不同任务的模型示意图。从图中可以看出,模型会对两类标签进行预测输出,并使用对应的损失函数,加权后对模型进行优化。
步骤S4,实时筛查
获取实时的胸部CT图像,并输入成熟的CNN网络模型,CNN网络模型输出耐药性肺结核的类别的筛查结果,即得出该例胸部CT图像中的肺结核的类别具体是属于利福平耐药结核、多药耐药结核以及广泛耐药结核这三种耐药性结核亚型中的哪一类。
实施例2
本实施例提供一种耐药性肺结核类别的筛查系统,具体包括:
样本数据获取模块,用于获取胸部CT图像样本,对部分胸部CT图像样本进行标注并形成标签数据集,标签包括耐药性标签、病灶形态标签。
由于CNN网络模型需要大量的数据用于训练,因此首先需要准备好数据用于模型的训练。胸部CT图像样本所用数据为2008年至2021年期间在四川大学华西医院就诊的肺结核患者的回顾性收集,收集内容包括胸部CT图像、放射报告和耐药实验结果,其中数据的纳入标准为:1)、通过病原学测试(痰液显微镜检查或者结核分枝杆菌培养)或者通过综合分析放射学和症状进行临床确认,或其他辅助诊断肺结核实验室检查确诊为肺结核的患者;2)、有DST或者基因检测耐药结果的患者;3)、可获得相关的所需的临床资料的患者。排除标准为:1)、CT图像不完整的患者;2)、无耐药诊断前后一个月内的CT图像的患者;3)、伴随其他与CT图像诊断不相关的肺实质疾病,如肺炎、肺脓肿。
针对上述获取的胸部CT图像样本,还需进行对样本数据进行标注,成标签数据集,标签包括耐药性标签、病灶形态标签。本实施例使用的已标记数据需要两类标签:结核的耐药性质(是否耐药,耐药类别)、结核病灶的形态学特征。对于以上的两类标签,均通过使用已开发开发的CT影像标注平台DeepLNAnno,由专业医生进行多轮标注标定,保证每一个标签准确与客观性。
获取到胸部CT图像样本后,还对样本数据进行预处理。
数据预处理阶段,先去除CT图像中的冗余信息,提取肺结核异常区域的固有特征。针对提取出的异常区域,本实施例提出了一项基于病灶补丁的数据处理方式,具体如图2所示:首先为消除不同例CT图像间的间距差异,采用重采样算法将CT图像的像素间距调整为1×1×1,之后为了获得数据一致性,再使用双三次插值将病变调整为预先设定好的M×M×N的均匀大小。记录每个CT病例中所有病变的数量,并用给定的深度n除以每个CT病例的所有病变的数目获得分区长度。取病变体积深度的一半获得中间切片,提取具有输入体积分区长度的中间切片。将单个病例的所有分割病变进行叠加,以重建所需的输入体积,该体积的深度大小为n。叠加后的补丁能够充分反映肺结核病变的影响特征。处理后的数据包含了单个结核病患者CT影像中所有的病灶,通过探索病灶之间的相互关系,并且结合多个病灶的耐药性质可以避免由于个别病灶中影像学特征难以区分导致的耐药性分类失误。
CNN网络模型构建模块,用于构建如图3所示的CNN网络模型,CNN网络模型包括卷积层、最大池化层、批归一化层、四个基础残差块、全局平均池化层以及全连接层,通过卷积层、最大池化层、批归一化层、四个基础残差块对肺部CT图像中的肺结核异常区域进行特征提取,再通过全局平均池化层将提取到的高层特征转化为一位特征向量,最后由全连接层计算得到每个标签的预测概率。
CNN网络模型训练模块,用于采用半监督学习方法、多标签依赖方法对步骤S2构建的CNN网络模型进行训练,得到成熟的CNN网络模型。
本实施例中,CNN网络模型的训练策略由两个部分组成:一是半监督学习训练策略,半监督学习是一种机器学习方法,它旨在利用有标签数据和无标签数据结合来提高模型性能,半监督学习的目标是通过充分利用这些未标记数据来改进模型的泛化能力。二是多标签依赖方法训练策略,它本质上是机器学习中的多任务方法,旨在利用多个相关学习任务中包含的有用信息,提高模型的预测性能。以下是对CNN网络模型的训练的详细叙述:
在采用半监督学习方法进行训练时,具体训练方法为:
步骤S3-1,计算样本信息含量
针对CT图像存在的类别不平衡问题,本实施例提出了一种基于计算未标记数据集与高信息数据集相似度的信息含量计算方法,其中高信息数据集称为锚定数据集,初始为标记数据集。详细计算方法为:
先采用标签数据集中的样本对CNN网络模型进行预训练,再采用预训练后的CNN网络模型对胸部CT图像样本进行特征提取;在锚定数据集的特征空间对每个未标注的胸部CT图像样本进行K邻近算法处理,计算目标样本与K个邻居余弦距离的均值作为密度得分,并根据密度得分分别计算每个未标注的胸部CT图像样本的信息含量,信息含量被分为低、中、高三种类型。
在计算信息含量时,公式为:
其中,表示K邻近算法设置的近邻数,/>表示向量的转置,/>表示伪标签数据,表示锚定数据,/>表示锚定数据标签,/>表示锚定数据集,/>表示伪标记样本/>在锚定数据集的K近邻集合,/>表示CNN网络模型输出的样本/>的F维特征向量,/>表示CNN网络模型输出的锚定数据/>的F维特征向量,/>表示向量的模。
步骤S3-2,信息混合
对于高信息含量的未标注的胸部CT图像样本,通过密度加权算法,为每个未标注的胸部CT图像样本生成伪标签。
在计算得到样本的信息含量后,本实施例会对未标记样本生成伪标签。传统的伪标签方法采用模型直接预测生成伪标签,该方法容易导致模型的确认偏差,忽略少数类标签,在肺部CT影像类别不平衡的情况下会极大影响模型的性能。另一种基于K邻近算法的伪标签生成方法的可靠性基于锚定数据集的大小和代表性,也会影响模型的性能。因此本实施例采用了一种基于密度加权的方法,结合两种方法生成未标记样本的伪标签,计算需要的密度来自于第一步计算得到,可以反映神经网络模型的预测准确性,使得本实施例可以为未标记样本生成准确的伪标记,提升模型的预测性能。
在高信息含量的未标注的胸部CT图像样本生成伪标签时,分配伪标签的公式为:
其中,表示信息混合伪标签生成方法,/>表示伪标记样本x在锚定数据集中的信息含量权重,/>表示CNN网络模型输出的样本x标签预测结果,/>表示K近邻算法输出的样本x标签预测结果,/>表示CNN网络模型输出的样本/>的F维特征向量,/>表示锚定数据集。
步骤S3-3,生成负伪标签
对于低信息含量的未标注的胸部CT图像样本,针对弱增强、强增强两个版本的图像自适应计算并生成负伪标签。
本实施例对于信息含量较低的样本引入额外的负伪标签,使得这些低置信度的样本也可以提升模型的性能。该方法首先基于预测一致性,针对弱增强和强增强两个版本的图像自适应计算一个k值,使得前k个标签的精度接近为1,而排名在k之后的类则被视为负伪标签,采用负向学习的策略训练模型,使得模型可以在类别不平衡的情况下,对少数类样本的特征和表示更加关注,避免过拟合;同时,也实现了数据集的扩充,提升了模型的泛化能力和鲁棒性。
在低信息含量的未标注的胸部CT图像样本生成负伪标签时,负伪标签分配公式为:
其中,表示CNN网络模型输出的对于/>类的标签概率值,/>表示设置的类阈值,、/>分别表示标签预测精度排名和设置的可信度参数。
步骤S3-4,更新锚定数据集
将生成的伪标签加入锚定数据集,并更新锚定数据集;将生成的伪标签、负伪标签加入标签数据集,并更新标签数据集。
本实施例采用了一种动态更新锚定数据集的方法,使得在模型训练后期仍然能获得准确的密度得分。锚集更新策略是从生成的伪标签样本中挑选远离高密度区域的样本加入锚定数据集,在本申请中,即为将少数类样本,即耐药性样本加入到锚集中,这一步骤强化了模型对于药敏性样本的学习能力,提高了相关效果。
在将生成的伪标签加入锚定数据集,具体表达式为:
其中,的值为1的样本会被置入锚定数据集,/>表示设置的最高密度参数,表示伪标签数据和锚定数据在彼此特征空间中互为近邻的总个数。
步骤S3-5,重复上述步骤,直至CNN网络模型收敛。
在进行训练时,耐药/药敏二分类任务的损失函数为:
耐药亚型三分类任务的损失函数为:
胸部异常特征标签的加权交叉熵损失函数为:
耐药标签的交叉熵损失函数为:
耐药亚型标签的平均交叉熵损失函数为:
其中,、/>、/>分别表示耐药标签的交叉熵损失函数、耐药亚型标签的平均交叉熵损失函数和胸部异常特征标签的加权交叉熵损失函数;/>、/>均为控制各损失权重的超参数,/>表示样本真实值,/>表示样本预测值,/>表示第i类影像特征的数量比例的倒数,/>表示样本第i个类别真实值,/>表示样本第i个类别预测值,/>表示类别总数,/>表示惩罚因子,/>表示设定的惩罚值。
训练时,网络设置学习率为0.01,首先采用标记数据集对网络预热训练40个学习迭代。之后使用标记数据集和伪标签数据集对模型一起训练,学习率每经过20个学习迭代之后衰减十倍。每经过20个学习迭代后对锚定数据集进行一次更新。卷积权值使用高斯分布初始化。一次训练批次设置为24,学习迭代次数为100。网络训练采用BP反馈传播算法和任务学习误差对肺结核的耐药性和胸部异常特征学习。网络学习针对每个批次更新一次参数。每一次迭代学习之后,模型判断肺结核检测结果的总误差大小,如果当前误差小于上一个迭代的误差,就保存当前模型,然后继续训练,直到达到最大迭代次数。
在采用多标签依赖方法进行训练时,本实施例将肺结核耐药性预测和胸部异常特征识别任务结合,通过学习两个相关任务,可以充分利用肺部CT影像图的特征,提高模型预测性能。在训练过程中为耐药结核筛查和肺部异常检测任务提取同一组特征表达,更加关注于耐药性肺结核影像特征及其肺部异常间显著的相关性,有利于算法提取到更加具有泛化性的耐药性肺结核特征表达。图4展示了基于多任务学习的两个不同任务的模型示意图。从图中可以看出,模型会对两类标签进行预测输出,并使用对应的损失函数,加权后对模型进行优化。
实时筛查模块,用于获取实时的胸部CT图像,并输入成熟的CNN网络模型,CNN网络模型输出耐药性肺结核的类别的筛查结果,即得出该例胸部CT图像中的肺结核的类别具体是属于利福平耐药结核、多药耐药结核以及广泛耐药结核这三种耐药性结核亚型中的哪一类。
实施例3
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行耐药性肺结核类别的筛查方法的步骤。
其中,所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器可以是所述计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,所述存储器也可以是所述计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(SmartMediaCard,SMC),安全数字(SecureDigital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器还可以既包括所述计算机设备的内部存储单元也包括其外部存储设备。本实施例中,所述存储器常用于存储安装于所述计算机设备的操作系统和各类应用软件,例如所述耐药性肺结核类别的筛查方法的程序代码等。此外,所述存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器在一些实施例中可以是中央处理器(CentralProcessingUnit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制所述计算机设备的总体操作。本实施例中,所述处理器用于运行所述存储器中存储的程序代码或者处理数据,例如运行所述耐药性肺结核类别的筛查方法的程序代码。
实施例4
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行耐药性肺结核类别的筛查方法的步骤。
其中,所述计算机可读存储介质存储有界面显示程序,所述界面显示程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的耐药性肺结核类别的筛查方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器或者网络设备等)执行本申请实施例所述耐药性肺结核类别的筛查方法。
Claims (10)
1.一种耐药性肺结核类别的筛查方法,其特征在于,包括以下步骤:
步骤S1,获取样本数据
获取胸部CT图像样本,对部分胸部CT图像样本进行标注并形成标签数据集,标签包括耐药性标签、病灶形态标签;
步骤S2,构建CNN网络模型
构建CNN网络模型,CNN网络模型包括卷积层、最大池化层、批归一化层、四个基础残差块、全局平均池化层以及全连接层,通过卷积层、最大池化层、批归一化层、四个基础残差块对肺部CT图像中的肺结核异常区域进行特征提取,再通过全局平均池化层将提取到的高层特征转化为一位特征向量,最后由全连接层计算得到每个标签的预测概率;
步骤S3,训练CNN网络模型
采用半监督学习方法、多标签依赖方法对步骤S2构建的CNN网络模型进行训练,得到成熟的CNN网络模型;
步骤S4,实时筛查
获取实时的胸部CT图像,并输入成熟的CNN网络模型,CNN网络模型输出耐药性肺结核类别的筛查结果。
2.如权利要求1所述的一种耐药性肺结核类别的筛查方法,其特征在于:步骤S3中,在采用半监督学习方法进行训练时,具体训练方法为:
步骤S3-1,计算样本信息含量
先采用标签数据集中的样本对CNN网络模型进行预训练,再采用预训练后的CNN网络模型对胸部CT图像样本进行特征提取;在锚定数据集的特征空间对每个未标注的胸部CT图像样本进行K邻近算法处理,计算目标样本与K个邻居余弦距离的均值作为密度得分,并根据密度得分分别计算每个未标注的胸部CT图像样本的信息含量;
其中,锚定数据集为高信息数据集,初始为标签数据集;
步骤S3-2,信息混合
对于高信息含量的未标注的胸部CT图像样本,通过密度加权算法,为每个未标注的胸部CT图像样本生成伪标签;
步骤S3-3,生成负伪标签
对于低信息含量的未标注的胸部CT图像样本,针对弱增强、强增强两个版本的图像自适应计算并生成负伪标签;
步骤S3-4,更新锚定数据集
将生成的伪标签加入锚定数据集,并更新锚定数据集;将生成的伪标签、负伪标签加入标签数据集,并更新标签数据集;
步骤S3-5,重复上述步骤,直至CNN网络模型收敛。
3.如权利要求1所述的一种耐药性肺结核类别的筛查方法,其特征在于:步骤S3-1中,在计算信息含量时,公式为:
其中,表示K邻近算法设置的近邻数,/>表示向量的转置,/>表示伪标签数据,/>表示锚定数据,/>表示锚定数据标签,/>表示锚定数据集,/>表示伪标记样本/>在锚定数据集的K近邻集合,/>表示CNN网络模型输出的样本/>的F维特征向量,/>表示CNN网络模型输出的锚定数据/>的F维特征向量,/>表示向量的模。
4.如权利要求1所述的一种耐药性肺结核类别的筛查方法,其特征在于:步骤S3-2中,在高信息含量的未标注的胸部CT图像样本生成伪标签时,分配伪标签的公式为:
其中,表示信息混合伪标签生成方法,/>表示伪标记样本x在锚定数据集中的信息含量权重,/>表示CNN网络模型输出的样本x标签预测结果,/>表示K近邻算法输出的样本x标签预测结果,/>表示CNN网络模型输出的样本/>的F维特征向量,/>表示锚定数据集。
5.如权利要求1所述的一种耐药性肺结核类别的筛查方法,其特征在于:步骤S3-3中,在低信息含量的未标注的胸部CT图像样本生成负伪标签时,负伪标签分配公式为:
其中,表示CNN网络模型输出的对于/>类的标签概率值,/>表示设置的类阈值,、/>分别表示标签预测精度排名和设置的可信度参数。
6.如权利要求1所述的一种耐药性肺结核类别的筛查方法,其特征在于:步骤S3-4中,在将生成的伪标签加入锚定数据集,具体表达式为:
其中,的值为1的样本会被置入锚定数据集,/>表示设置的最高密度参数,表示伪标签数据和锚定数据在彼此特征空间中互为近邻的总个数。
7.如权利要求1所述的一种耐药性肺结核类别的筛查方法,其特征在于:步骤S3中,在进行训练时,耐药/药敏二分类任务的损失函数为:
耐药亚型三分类任务的损失函数为:
胸部异常特征标签的加权交叉熵损失函数为:
耐药标签的交叉熵损失函数为:
耐药亚型标签的平均交叉熵损失函数为:
其中,、/>、/>分别表示耐药标签的交叉熵损失函数、耐药亚型标签的平均交叉熵损失函数和胸部异常特征标签的加权交叉熵损失函数;/>、/>均为控制各损失权重的超参数,/>表示样本真实值,/>表示样本预测值,/>表示第i类影像特征的数量比例的倒数,/>表示样本第i个类别真实值,/>表示样本第i个类别预测值,/>表示类别总数,/>表示惩罚因子,/>表示设定的惩罚值。
8.一种耐药性肺结核类别的筛查系统,其特征在于,包括:
样本数据获取模块,用于获取胸部CT图像样本,对部分胸部CT图像样本进行标注并形成标签数据集,标签包括耐药性标签、病灶形态标签;
CNN网络模型构建模块,用于构建CNN网络模型,CNN网络模型包括卷积层、最大池化层、批归一化层、四个基础残差块、全局平均池化层以及全连接层,通过卷积层、最大池化层、批归一化层、四个基础残差块对肺部CT图像中的肺结核异常区域进行特征提取,再通过全局平均池化层将提取到的高层特征转化为一位特征向量,最后由全连接层计算得到每个标签的预测概率;
CNN网络模型训练模块,用于采用半监督学习方法、多标签依赖方法对CNN网络模型构建模块构建的CNN网络模型进行训练,得到成熟的CNN网络模型;
实时筛查模块,用于获取实时的胸部CT图像,并输入成熟的CNN网络模型,CNN网络模型输出耐药性肺结核类别的筛查结果。
9.一种计算机设备,其特征在于:包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于:存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311338054.4A CN117095241B (zh) | 2023-10-17 | 2023-10-17 | 一种耐药性肺结核类别的筛查方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311338054.4A CN117095241B (zh) | 2023-10-17 | 2023-10-17 | 一种耐药性肺结核类别的筛查方法、系统、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117095241A true CN117095241A (zh) | 2023-11-21 |
CN117095241B CN117095241B (zh) | 2024-01-12 |
Family
ID=88769974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311338054.4A Active CN117095241B (zh) | 2023-10-17 | 2023-10-17 | 一种耐药性肺结核类别的筛查方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117095241B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110301447A1 (en) * | 2010-06-07 | 2011-12-08 | Sti Medical Systems, Llc | Versatile video interpretation, visualization, and management system |
CN108682453A (zh) * | 2018-05-16 | 2018-10-19 | 四川大学 | 一种肺结节标注系统 |
CN110738235A (zh) * | 2019-09-16 | 2020-01-31 | 平安科技(深圳)有限公司 | 肺结核判定方法、装置、计算机设备及存储介质 |
CN110807764A (zh) * | 2019-09-20 | 2020-02-18 | 成都智能迭迦科技合伙企业(有限合伙) | 一种基于神经网络的肺癌筛查方法 |
CN111723645A (zh) * | 2020-04-24 | 2020-09-29 | 浙江大学 | 用于同相机内有监督场景的多相机高精度行人重识别方法 |
CN113222072A (zh) * | 2021-06-10 | 2021-08-06 | 上海海事大学 | 基于K-means聚类和GAN的肺部X光图像分类方法 |
US11087215B1 (en) * | 2020-07-25 | 2021-08-10 | Sas Institute Inc. | Machine learning classification system |
CN113837273A (zh) * | 2021-09-22 | 2021-12-24 | 中国计量大学 | 基于内积度量样本间关系的深度半监督胸部x光图像分类方法 |
CN114549452A (zh) * | 2022-02-18 | 2022-05-27 | 武汉科技大学 | 基于半监督深度学习的新冠肺炎ct图像分析方法 |
CN115039140A (zh) * | 2020-08-11 | 2022-09-09 | 辉达公司 | 使用一个或更多个神经网络的增强的对象识别 |
CN115546605A (zh) * | 2022-09-16 | 2022-12-30 | 安徽省立医院(中国科学技术大学附属第一医院) | 一种基于图像标注和分割模型的训练方法及装置 |
-
2023
- 2023-10-17 CN CN202311338054.4A patent/CN117095241B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110301447A1 (en) * | 2010-06-07 | 2011-12-08 | Sti Medical Systems, Llc | Versatile video interpretation, visualization, and management system |
CN108682453A (zh) * | 2018-05-16 | 2018-10-19 | 四川大学 | 一种肺结节标注系统 |
CN110738235A (zh) * | 2019-09-16 | 2020-01-31 | 平安科技(深圳)有限公司 | 肺结核判定方法、装置、计算机设备及存储介质 |
CN110807764A (zh) * | 2019-09-20 | 2020-02-18 | 成都智能迭迦科技合伙企业(有限合伙) | 一种基于神经网络的肺癌筛查方法 |
CN111723645A (zh) * | 2020-04-24 | 2020-09-29 | 浙江大学 | 用于同相机内有监督场景的多相机高精度行人重识别方法 |
US11087215B1 (en) * | 2020-07-25 | 2021-08-10 | Sas Institute Inc. | Machine learning classification system |
CN115039140A (zh) * | 2020-08-11 | 2022-09-09 | 辉达公司 | 使用一个或更多个神经网络的增强的对象识别 |
CN113222072A (zh) * | 2021-06-10 | 2021-08-06 | 上海海事大学 | 基于K-means聚类和GAN的肺部X光图像分类方法 |
CN113837273A (zh) * | 2021-09-22 | 2021-12-24 | 中国计量大学 | 基于内积度量样本间关系的深度半监督胸部x光图像分类方法 |
CN114549452A (zh) * | 2022-02-18 | 2022-05-27 | 武汉科技大学 | 基于半监督深度学习的新冠肺炎ct图像分析方法 |
CN115546605A (zh) * | 2022-09-16 | 2022-12-30 | 安徽省立医院(中国科学技术大学附属第一医院) | 一种基于图像标注和分割模型的训练方法及装置 |
Non-Patent Citations (7)
Title |
---|
CHENGDI WANG 等: "Development and validation of an abnormality-derived deep-learning diagnostic system for major respiratory diseases", 《DIGITAL MEDICINE》, pages 1 - 12 * |
JAMES DEVASIA 等: "Deep learning classification of active tuberculosis lung zones wise manifestations using chest X-rays: a multi label approach", 《SCIENTIFIC REPORTS》, pages 1 - 15 * |
QIUYU DU 等: "Automatic Diagnose of Drug-Resistance Tuberculosis from CT Images Based on Deep Neural Networks", 《CAAI INTERNATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE》, pages 1 - 12 * |
史蕴豪 等: "一种基于伪标签半监督学习的小样本调制识别算法", 《西北工业大学学报》, vol. 38, no. 5, pages 1074 - 1083 * |
罗森林 等: "多标签小样本实例级注意力原型网络分类方法", 《北京理工大学学报》, vol. 43, no. 4, pages 403 - 409 * |
罗汶鑫 等: "肺癌筛查与早期诊断的研究现状与挑战", 《中国科学》, vol. 52, no. 11, pages 1603 - 1611 * |
高靖超 等: "在线医疗社区健康焦虑用户画像模型构建及实证研究", 《图书情报工作》, vol. 67, no. 16, pages 124 - 134 * |
Also Published As
Publication number | Publication date |
---|---|
CN117095241B (zh) | 2024-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xue et al. | An application of transfer learning and ensemble learning techniques for cervical histopathology image classification | |
US11416716B2 (en) | System and method for automatic assessment of cancer | |
CN112529878B (zh) | 一种基于多视图半监督的淋巴结的分类方法、系统及设备 | |
CN109493308A (zh) | 基于条件多判别生成对抗网络的医疗图像合成与分类方法 | |
Almadhoun et al. | Detection of brain tumor using deep learning | |
KR20200077852A (ko) | 복수의 의료 영상 판독 알고리듬들에 대한 평가 스코어를 생성하는 의료 영상 판독 지원 장치 및 방법 | |
Thian et al. | Deep learning systems for pneumothorax detection on chest radiographs: a multicenter external validation study | |
Stoel | Artificial intelligence in detecting early RA | |
Hussain et al. | Deep learning-based diagnosis of disc degenerative diseases using MRI: a comprehensive review | |
Alyami et al. | Tumor localization and classification from MRI of brain using deep convolution neural network and Salp swarm algorithm | |
Kumar et al. | Lungcov: A diagnostic framework using machine learning and Imaging Modality | |
Gugulothu et al. | An early prediction and classification of lung nodule diagnosis on CT images based on hybrid deep learning techniques | |
WO2022110525A1 (zh) | 一种癌变区域综合检测装置及方法 | |
Li et al. | Breast MRI segmentation and Ki-67 high-and low-expression prediction algorithm based on deep learning | |
CN116759076A (zh) | 一种基于医疗影像的无监督疾病诊断方法及系统 | |
CN117095241B (zh) | 一种耐药性肺结核类别的筛查方法、系统、设备及介质 | |
CN115762721A (zh) | 一种基于计算机视觉技术的医疗影像质控方法和系统 | |
Al-qaness et al. | Chest X-ray Images for Lung Disease Detection Using Deep Learning Techniques: A Comprehensive Survey | |
Zhang et al. | Multi-source adversarial transfer learning for ultrasound image segmentation with limited similarity | |
Jadhav | Lung cancer detection using classification algorithms | |
Soydan et al. | An AI based classifier model for lateral pillar classification of Legg–Calve–Perthes | |
Bhattacharyya et al. | Medical Image Analysis of Lung Cancer CT Scans Using Deep Learning with Swarm Optimization Techniques | |
Kumar | Current Progress and Open Research Challenges for XAI in Deep Learning across Medical Imaging | |
Lu | Convolutional Neural Network (CNN) for COVID-19 Lung CT Scans Classification Detection | |
Jyothirmai et al. | Computational Model Based on CNN to Identify Masses from Liver Images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |