CN113421633A - 特征分类方法、计算机设备和存储介质 - Google Patents
特征分类方法、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN113421633A CN113421633A CN202110714102.XA CN202110714102A CN113421633A CN 113421633 A CN113421633 A CN 113421633A CN 202110714102 A CN202110714102 A CN 202110714102A CN 113421633 A CN113421633 A CN 113421633A
- Authority
- CN
- China
- Prior art keywords
- feature
- mammary gland
- breast
- features
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 89
- 210000005075 mammary gland Anatomy 0.000 claims abstract description 151
- 210000001519 tissue Anatomy 0.000 claims abstract description 116
- 238000010801 machine learning Methods 0.000 claims abstract description 33
- 210000000481 breast Anatomy 0.000 claims description 131
- 238000012549 training Methods 0.000 claims description 107
- 238000003384 imaging method Methods 0.000 claims description 51
- 238000012216 screening Methods 0.000 claims description 37
- 230000008569 process Effects 0.000 claims description 26
- 206010006187 Breast cancer Diseases 0.000 claims description 21
- 208000026310 Breast neoplasm Diseases 0.000 claims description 21
- 230000000762 glandular Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 18
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 11
- 210000004907 gland Anatomy 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 abstract description 31
- 230000000875 corresponding effect Effects 0.000 description 19
- 238000004422 calculation algorithm Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 18
- 239000011159 matrix material Substances 0.000 description 14
- 238000003066 decision tree Methods 0.000 description 12
- 238000013535 dynamic contrast enhanced MRI Methods 0.000 description 11
- 238000012360 testing method Methods 0.000 description 11
- 238000000605 extraction Methods 0.000 description 10
- 206010028980 Neoplasm Diseases 0.000 description 7
- 230000035945 sensitivity Effects 0.000 description 7
- 230000002146 bilateral effect Effects 0.000 description 6
- 201000011510 cancer Diseases 0.000 description 6
- 239000002872 contrast media Substances 0.000 description 6
- 238000003062 neural network model Methods 0.000 description 6
- 238000010606 normalization Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000002790 cross-validation Methods 0.000 description 5
- 230000003902 lesion Effects 0.000 description 5
- 238000007477 logistic regression Methods 0.000 description 4
- 230000000877 morphologic effect Effects 0.000 description 4
- 238000010187 selection method Methods 0.000 description 4
- 239000000243 solution Substances 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002347 injection Methods 0.000 description 3
- 239000007924 injection Substances 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000007637 random forest analysis Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000002591 computed tomography Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000002595 magnetic resonance imaging Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 210000000577 adipose tissue Anatomy 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 230000000711 cancerogenic effect Effects 0.000 description 1
- 231100000315 carcinogenic Toxicity 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 210000002919 epithelial cell Anatomy 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000036210 malignancy Effects 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/20—ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/40—ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30068—Mammography; Breast
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30096—Tumor; Lesion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Primary Health Care (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Radiology & Medical Imaging (AREA)
- Life Sciences & Earth Sciences (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Evolutionary Biology (AREA)
- Epidemiology (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
- Apparatus For Radiation Diagnosis (AREA)
Abstract
本申请涉及一种特征分类方法、计算机设备和存储介质。通过获取目标侧乳腺的对侧乳腺的医学影像,并将对侧乳腺的医学影像输入至预设的机器学习模型中,得到目标侧乳腺的特征分类结果,该医学影像包括对侧乳腺的乳腺腺体组织与背景实质增强组织;该方法简化了乳腺特征分析方式,使得乳腺特征分析得到的分类结果更加方便;同时保证提取的特征较为精确,也提高特征分类结果的效率和精确度。
Description
技术领域
本申请实施例涉及医疗技术领域,特别是涉及一种特征分类方法、计算机设备和存储介质。
背景技术
乳腺癌是乳腺上皮细胞在多种致癌因子的作用下,发生增殖失控的现象。其是中老年女性最常见的恶性肿瘤,发病率和死亡率正逐年上升。
乳腺癌的早期检测和预测可以有效地提高乳腺癌的治愈率。相关技术中,对乳腺的乳腺特征进行分析以确定是否患有乳腺癌时,通常是通过分析肿瘤的特征来确定肿瘤良恶性,或基于肿瘤进行分期分型、基于刻画肿瘤恶化的生物标志物等检测和预测的。
然而,相关技术中的乳腺特征分析均以肿瘤特征本身作为依据,导致乳腺分析方式较为复杂且单一。
发明内容
基于此,有必要针对上述技术问题,提供一种特征分类方法、计算机设备和存储介质,能够简化乳腺特征分析方式,且提高特征分析方式的多样性。
第一方面,本申请实施例提供一种特征分类方法,该方法包括:
获取目标侧乳腺的对侧乳腺的医学影像;医学影像包括对侧乳腺的乳腺腺体组织与背景实质增强组织;
将对侧乳腺的医学影像输入至预设的机器学习模型中,得到目标侧乳腺的特征分类结果。
在其中一个实施例中,上述机器学习模型包括特征提取器和预设的组合模型;
则上述将对侧乳腺的医学影像输入至预设的机器学习模型中,得到目标侧乳腺的特征分类结果,包括:
通过特征提取器,从乳腺腺体组织与背景实质增强组织中提取对侧乳腺的可用影像组学特征;
将可用影像组学特征输入至组合模型中,得到目标侧乳腺的特征分类结果。
在其中一个实施例中,上述组合模型包括特征选择器和分类器;
则上述将可用影像组学特征输入至组合模型中,得到目标侧乳腺的特征分类结果,包括:
通过特征选择器,筛除可用影像组学特征中的共线性特征;
将筛除共线性特征后的可用影像组学特征输入分类器中,得到目标侧乳腺的特征分类结果。
在其中一个实施例中,上述通过特征提取器,从乳腺腺体组织与背景实质增强组织中提取对侧乳腺的可用影像组学特征,包括:
通过特征提取器,从乳腺腺体组织与背景实质增强组织中提取对侧乳腺的组织影像组学特征;
对组织影像组学特征进行特征筛除,得到可用影像组学特征。
在其中一个实施例中,上述对组织影像组学特征进行特征筛除,得到可用影像组学特征,包括:
对组织影像组学特征进行标准化处理;
获取标准化处理后的组织影像组学特征中每个特征的方差,并将方差大于阈值的特征确定为可用影像组学特征。
在其中一个实施例中,上述组合模型的构建过程,包括:
获取多种样本的乳腺的样本医学影像;样本医学影像包括仅一侧乳腺患乳腺癌时患乳腺癌侧乳腺的对侧乳腺的医学影像;样本医学影像包括样本乳腺腺体组织与样本背景实质增强组织;
基于各样本医学影像中的样本乳腺腺体组织与样本背景实质增强组织,获取各样本医学影像的训练影像组学特征;
根据各训练影像组学特征和预设金标准,对预设数量的初始组合模型进行训练,得到各初始组合模型对应的候选组合模型;
根据各候选组合模型的预测性能指标,从各候选组合模型中确定组合模型。
在其中一个实施例中,上述根据各训练影像组学特征,对预设数量的初始组合模型进行训练,得到各初始组合模型对应的候选组合模型,包括:
通过执行训练步骤,对预设数量的初始组合模型中的每个初始组合模型进行训练,得到各初始组合模型对应的候选组合模型;
其中,该训练步骤包括:
对于任一个初始组合模型:
将各训练影像组学特征,输入初始组合模型中的特征选择器,通过特征选择器筛除各训练影像组学特征中的共线性特征;
将筛除共线性特征后的各训练影像组学特征,输入初始组合模型中的初始分类器,根据金标准对初始分类器进行训练,得到始组合模型对应的候选组合模型。
在其中一个实施例中,上述预测性能指标包括曲线下面积和相对标准偏差;
则上述根据各候选组合模型的预测性能指标,从各候选组合模型中确定组合模型,包括:
获取各候选组合模型的曲线下面积,和各候选组合模型的曲线下面积的相对标准偏差;
将曲线下面积和相对标准偏差均满足预设条件的候选组合模型,确定为组合模型。
第二方面,本申请实施例提供一种特征分类装置,该装置包括:
获取模块,用于获取目标侧乳腺的对侧乳腺的医学影像;医学影像包括对侧乳腺的乳腺腺体组织与背景实质增强组织;
分类模块,用于将对侧乳腺的医学影像输入至预设的机器学习模型中,得到目标侧乳腺的特征分类结果。
第三方面,本申请实施例提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,该处理器执行计算机程序时实现上述第一方面中任一项实施例的方法步骤。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述第一方面中任一项实施例的方法步骤。
本申请实施例提供的一种特征分类方法、计算机设备和存储介质。通过获取目标侧乳腺的对侧乳腺的医学影像,并将对侧乳腺的医学影像输入至预设的机器学习模型中,得到目标侧乳腺的特征分类结果,该医学影像包括对侧乳腺的乳腺腺体组织与背景实质增强组织;该方法中,一方面,基于人体双侧乳腺之间的关联性,利用对侧乳腺的医学影像中的信息来确定目标侧乳腺的特征分类结果,提供一种新的对乳腺特征进行分析的方式来确定特征分类结果,增加了乳腺特征分析方式的多样性;另一方面,该方法中是以乳腺中的乳腺腺体组织与背景实质增强组织的特征作为分析依据,相比于相关技术中以病灶本身的特征进行分析依据,也提供一种新的对乳腺特征进行分析的方式来确定特征分类结果,进一步增加了乳腺特征分析方式的多样性;且乳腺中的的乳腺腺体组织与背景实质增强组织区域较大,提取特征方式相对方便,从而简化了乳腺特征分析方式,也使得乳腺特征分析得到的分类结果更加方便;区域较大也可以保证提取的特征较为精确,如此,也使得乳腺特征分析得到的分类结果更加精确。再者,该方法中,利用机器学习模型进行特征分析得到特征分类结果,机器学习模型是预先就构建好的,可以直接调用该机器学习模型,从而提高特征分类结果的效率和精确度。
附图说明
图1为一个实施例中提供的特征分类方法的应用环境图;
图2为一个实施例中提供的特征分类方法的流程示意图;
图3为另一个实施例中提供的特征分类方法的流程示意图;
图4为另一个实施例中提供的特征分类方法的流程示意图;
图5为另一个实施例中提供的特征分类方法的流程示意图;
图6为另一个实施例中提供的特征分类方法的流程示意图;
图7为另一个实施例中提供的特征分类方法的流程示意图;
图8为一个实施例中提供的组合模型验证和测试结果示意图;
图9为另一个实施例中提供的特征分类方法的流程示意图;
图10为一个实施例中提供的特征分类装置的结构框图;
图11为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的特征分类方法,可以应用于计算机设备中。该计算机设备包括但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等。其中,该计算机设备的内部结构如图1所示,该内部结构中处理器用于提供计算和控制能力。存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。数据库用于存储特征分类过程的相关数据。该网络接口用于与外部的其他设备通过网络连接通信。该计算机程序被处理器执行时以实现一种特征分类方法。
本申请实施例提供一种特征分类方法、计算机设备和存储介质,能够简化特征分析方式,且提高特征分析方式的多样性。下面将通过实施例并结合附图,具体地对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。需要说明的是,下面对本申请实施例提供的特征分类方法进行说明时,以执行主体是计算机设备进行说明。下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。
在一个实施例中,如图2所示,提供了一种特征分类方法,该实施例包括以下步骤:
S101,获取目标侧乳腺的对侧乳腺的医学影像;医学影像包括对侧乳腺的乳腺腺体组织与背景实质增强组织。
双侧乳腺中的其中一侧为目标侧乳腺,则另一侧即为目标侧乳腺的对侧乳腺。其中,目标侧乳腺指当前需要进行特征分类的乳腺。需要说明的是,本申请实施例中的乳腺包括乳房和腺体。
本申请实施例中的特征分类,指的是对乳腺中的乳腺腺体组织与背景实质增强组织的特征进行分类。其中,乳腺腺体组织(fibroglandular tissues,FGT)和背景实质增强(background parenchyma enhancement,BPE)组织是乳腺中除脂肪组织以外组织,其中,BPE是指正常乳腺纤维腺体组织的对比强化,在动态增强过程中表现为渐进性的强化。
基于此,需要获取包括FGT与BPE的医学影像,以提取到FGT与BPE的特征。其中,医学影像包括但不限于电子计算机断层扫描(Computed Tomography,CT)图像、磁共振成像(Magnetic Resonance Imaging,MRI)图像、正电子发射计算机断层显像-磁共振成像(Positron Emission Computed Tomography-Ma gnetic Resonance Imaging,PET-MRI)图像、动态对比增强磁共振成像(Dynam ic contrast enhancement magnetic resonanceimaging,DCE-MRI)图像等等,本实施例对此不做限定。
实际应用中,人体的双侧乳腺之间变化是存在关联的,一侧的乳腺因发生恶变导致乳腺内部形态学特征发生变化,另一侧乳腺内部形态学特征也会受到影响。基于此,本申请实施例中,在需要对目标侧乳腺进行特征分类时,是以目标侧乳腺的对侧乳腺的医学影像为分析依据的。
以DCE-MRI图像为例,DCE-MRI是利用连续、重复、快速的成像方法,通过获取注入对比剂前后的图像,经过一系列的计算分析,得到半定量或定量参数。通过DCE-MRI图像可以获得病变的形态学特征的信息,还可以反映出病变组织的生理性变化情况。
所以本申请实施例中获取目标侧乳腺的对侧乳腺的医学影像,可以获取的是目标侧乳腺的对侧乳腺的DCE-MRI图像,该DCE-MRI图像中需包括对侧乳腺的FGT与BPE。
需要说明的是,获取的对侧乳腺的DCE-MRI图像为对侧乳腺注入对比剂前的图像,以及注入对比剂后的图像,且对侧乳腺的DCE-MRI图像不限于是注射对比剂后任一时相图像,本申请实施例对此不作限定。
基于获取的DCE-MRI图像中,从获取到各时相的图像中提取FGT,然后将注入对比剂之前图像中FGT与注入对比剂之后图像中FGT相减,得到BPE,该BPE反映的就是腺体组织强化情况。因此,基于获取的对侧乳腺的DCE-MRI图像,是可获取到FGT和BPE的,然后通过对FGT与BPE进行分析,可得到反映FGT与BPE形态学信息的特征,并对该特征进行分类。
示例地,实际应用时,本申请实施例获取目标侧乳腺的对侧乳腺的医学影像的方式,包括但不限于是从预先存储在数据库中获取,获取满足上述要求的对侧乳腺的医学影像;也可以是从网络平台下载满足要求的对侧乳腺的医学影像;还可以是根据需求生成对应的对侧乳腺的医学影像等等,本申请实施例对对侧乳腺的医学影像的获取方式不作限定。
S102,将对侧乳腺的医学影像输入至预设的机器学习模型中,得到目标侧乳腺的特征分类结果。
根据上述获取到的对侧乳腺的医学影像,将该对侧乳腺的医学影像输入至预设的机器学习模型中,通过该机器学习模型对对侧乳腺的医学影像中的FGT与BPE进行分析,得到FGT与BPE的特征,并对特征进行分类得到分类结果,该分类结果即为目标侧乳腺的特征分类结果。得到目标侧乳腺的特征分类结果之后,根据该目标侧乳腺的特征分类结果,可以进一步进行信息处理或者分析,根据处理结果或者分析结果应用在不同场景中。
其中,特征分类结果可以是以不同类型信息对特征进行分类后的结果;也可以以反映病变的不同程度等级进行分类后的结果,还可以是以正常组织特征和非正常组织特征为区分进行分类后的结果等等。本申请实施例对特征分类结果中分类的依据条件不作限定。
本申请实施例中的预设的机器学习模型,在实现时可以通过不同的方式实现。
一种实施例中,机器学习模型是一个整体地、单独地、端到端地神经网络模型,即将对侧乳腺的医学影像作为神经网络模型的输入,经过神经网络模型后,输出的即为目标侧乳腺的特征分类结果。
另一种实施例中,该机器学习模型中包括多个不同的子神经网络模型或者算法模型,即将对侧乳腺的医学影像作为作为该机器学习模型中的某一个算法模型,经过该算法模型处理后,再进入下一个算法模型,或者子神经网络模型,直至经过所有模型后最终输出目标侧乳腺的特征分类结果。
无论机器学习模型的实现方式上述哪一种方式,均可以实现从对侧乳腺的医学影像确定出目标侧乳腺的特征分类结果的功能,本申请实施例对机器学习模型的实现方式也不作限制。
本申请实施例提供的特征分类方法,通过获取目标侧乳腺的对侧乳腺的医学影像,并将对侧乳腺的医学影像输入至预设的机器学习模型中,得到目标侧乳腺的特征分类结果,该医学影像包括对侧乳腺的乳腺腺体组织与背景实质增强组织;该方法中,一方面,基于人体双侧乳腺之间的关联性,利用对侧乳腺的医学影像中的信息来确定目标侧乳腺的特征分类结果,提供一种新的对乳腺特征进行分析的方式来确定特征分类结果,增加了乳腺特征分析方式的多样性;另一方面,该方法中是以乳腺中的乳腺腺体组织与背景实质增强组织的特征作为分析依据,相比于相关技术中以病灶本身的特征进行分析依据,也提供一种新的对乳腺特征进行分析的方式来确定特征分类结果,进一步增加了乳腺特征分析方式的多样性;且乳腺中的的乳腺腺体组织与背景实质增强组织区域较大,提取特征方式相对方便,从而简化了乳腺特征分析方式,也使得乳腺特征分析得到的分类结果更加方便;区域较大也可以保证提取的特征较为精确,如此,也使得乳腺特征分析得到的分类结果更加精确。再者,该方法中,利用机器学习模型进行特征分析得到特征分类结果,机器学习模型是预先就构建好的,可以直接调用该机器学习模型,从而提高特征分类结果的效率和精确度。
基于上述实施例,以机器学习模型中包括多个不同的子神经网络模型或者算法模型为例,对上述S102步骤的过程进行说明。则在一个实施例中,上述机器学习模型包括特征提取器和预设的组合模型;基于此,如图3所示,则上述S102包括以下步骤:
S201,通过特征提取器,从乳腺腺体组织与背景实质增强组织中提取对侧乳腺的可用影像组学特征。
特征提取器可以通过任意一种特征提取算法实现,例如,利用Pyradiomic s工具包基于对侧乳腺的医学影像提取FGT和BPE组织中的影像组学特征;其中,pyradiomics是一个开源的python包,可以用于医学图像的影像组学特征提取。具体地,在实际应用时,可以结合实际需求利用pyradiomics工具包编写代码生成可用的特征提取器,然后以此特征提取器从乳腺腺体组织与背景实质增强组织中提取对侧乳腺的可用影像组学特征。
可选地,影像组学特征包括一阶统计特征、形状特征、灰度共生矩阵、灰度级长矩阵、灰度及带矩阵、邻域灰度差分矩阵和灰度独立矩阵中至少一个。其中,一阶统计特征反映了病灶的灰度分布,包括:能量、熵、偏度、峰度、方差、平均绝对偏差等;形状特征反应了病灶的整体形状,包括:紧凑性、球形不均衡度、球度、体积、表面积等;纹理特征描述了病灶的灰度强度的空间分布,由灰度共生矩阵特征、灰度游程矩阵特征组成;例如,可以总共提取103类特征。
其中,可用影像组学特征指的是从影像组学特征中选择出的一部分影像组学特征。例如,从影像组学特征中剔除不相关特征、冗余特征之后剩余的特征确定为可用影像组学特征。
一种实施例中,将包括乳腺腺体组织与背景实质增强组织的对侧乳腺的医学影像,作为特征提取器的输入,经过特征提取器之后,直接得到即为对侧乳腺的可用影像组学特征。
另外一种实施例中,可以是通过特征提取器先从包括乳腺腺体组织与背景实质增强组织的对侧乳腺的医学影像中,提取乳腺腺体组织与背景实质增强组织中的没有经过筛选的影像组学特征,然后从没有经过筛选的影像组学特征中剔除不相关特征、冗余特征,将剔除了不相关特征、冗余特征后剩余的特征确定为可用影像组学特征。
需要说明的是,在一种实施例中,该步骤可以是作为预处理过程,将该预处理过程放置在前面实施例的机器学习模型之前进行,即在获取到对侧乳腺的医学图像之后,先从对侧乳腺的医学图像中执行本步骤提取出可用影像组学特征,然后将可用影像组学特征输入至上述机器学习模型中,得到目标侧乳腺的特征分类结果。
S202,将可用影像组学特征输入至组合模型中,得到目标侧乳腺的特征分类结果。
基于从乳腺腺体组织与背景实质增强组织中提取对侧乳腺的可用影像组学特征,将可用影像组学特征输入至组合模型中,得到目标侧乳腺的特征分类结果。
组合模型可以是多个不同算法模型的组合构成的模型,该组合模型中的多个算法模型组合后,其性能高于其他算法模型组合后的性能。例如,组合模型中包括算法模型A1、算法模型B1和算法模型C1,则该组合模型的性能相比于算法模型A2、算法模型B1和算法模型C2组合后的性能。性能指的是输出的目标侧乳腺的特征分类结果的准确率、精确率、灵敏度、稳定性、特异度等等性能指标。
本实施例中,通过特征提取器,从乳腺腺体组织与背景实质增强组织中提取对侧乳腺的可用影像组学特征,然后将可用影像组学特征输入至组合模型中,得到目标侧乳腺的特征分类结果。因可用影像组学特征是将冗余特征和不相关特征剔除之后的特征,这样以可用影像组学特征为准确定目标侧乳腺的特征分类结果,可以提高特征分类结果的精确度。
一个实施例中,以上述组合模型中包括特征选择器和分类器为例,如图4所示,上述S202包括以下步骤:
S301,通过特征选择器,筛除可用影像组学特征中的共线性特征。
共线性特征指的是自变量之间由于存在高度相关关系的特征,由于共线性特征会导致一些相关性高但是重要性也高的特征,在特征选择的过程中被排除掉,因此,需要将可用影像组学特征中的共线性特征筛除掉,筛除了共线性特征之后的可用影像组学特征,相当于将高度相关的特征筛除掉,这样会让后端的组合模型的可解释性更好。通过可解释性也可以更好地确定目标侧乳腺的特征分类结果的引起原因,对后续的应用进行指导。
其中,特征选择器可以包括但不限于是最小绝对收缩和选择算子(LeastAbsolute Shrinkage and Selection Operator,LASSO)、递归特征消除(Recur siveFeature Elimination,RFE)和随机森林(Random Forest,RF)等等,本申请实施例对此不作限定。
可选地,在一种实施例中,在将可用影像组学特征利用特征选择器筛除共线性特征之前,还可以对可用影像组学特征进行进一步优化,以选择出最好的特征。例如,通过单变量特征选择法,衡量可用影像组学特征中的每个特征与肿瘤良恶性的相关性,剔除良性肿瘤与恶性肿瘤两组样本差异性不显著的特征,保留p-value(假定值)<0.05的特征,作为对可用影像组学特征进行优化后的特征。然后基于该优化后的特征再进行共线性特征筛除的步骤即可。这样通过计算单变量的统计度量从可用影像组学特征进一步选择最好的特征,使得特征更加准确。
S302,将筛除共线性特征后的可用影像组学特征输入分类器中,得到目标侧乳腺的特征分类结果。
分类器即分类模型,其能够把给定的数据映射到给定类别中的某一个,从而可以应用于数据预测。其实现可以采用决策树、逻辑回归、朴素贝叶斯、神经网络等算法。示例地,分类器包括但不限于支持向量机、逻辑回归、决策树、梯度提升决策树和极度梯度中的任一个。
以构建的分类器是梯度提升决策树为例,将筛除共线性特征后的可用影像组学特征输入梯度提升决策树中,该梯度提升决策树可根据输入的数据确定出目标侧乳腺的特征分类结果。
一种实施例中,组合模型为LASSO+梯度提升决策树(Gradient BoostingDecision Tree,GBDT)构成的模型;另一种实施例中,组合模型为LASSO+极端梯度提升(eXtreme Gradient Boosting,XGBoost)构成的模型;本申请实施例对此不加以限制。其中,GBDT泛指所有梯度提升树算法,包括XGBoost,即XG Boost也是GBDT的一种变种,实际应用时,两者的区别是针对的不同的场景选择,本申请实施例在应用时,可以选择两种中的任一种作为组合模型。
本申请实施例中,通过特征选择器,筛除可用影像组学特征中的共线性特征,然后将筛除共线性特征后的可用影像组学特征输入分类器中,得到目标侧乳腺的特征分类结果。通过将特征选择器和分类器进行组合,且该组合后构成的组合模型是性能最佳的一种组合方式,如此,可以使得最终输出的目标侧乳腺的特征分类结果更加精确和有效。
前面提及,对侧乳腺的可用影像组学特征是经过筛除了不相关特征和冗余特征之后的影像组学特征;且,基于此,对获取可用影像组学特征的方式提供一种是实施例,则如图5所示,在一个实施例中,上述S201包括如下步骤:
S401,通过特征提取器,从乳腺腺体组织与背景实质增强组织中提取对侧乳腺的组织影像组学特征。
特征提取器如前面所述,可以是根据实际情况编写的代码后生成的特征提取器,具体可参见前面实施例的说明。基于特征提取器,从乳腺腺体组织与背景实质增强组织中提取对侧乳腺的组织影像组学特征,即直接从对侧乳腺的医学影像中提取对侧乳腺的乳腺腺体组织与背景实质增强组织的组织影像组学特征,这里的组织影像组学特征指的就是未筛除不相关特征和冗余特征的影像组学特征。
S402,对组织影像组学特征进行特征筛除,得到可用影像组学特征。
然后对组织影像组学特征进行特征筛除,将不相关特征和冗余特征都筛除掉,剩下的即为可用影像组学特征。
一种实施方式中,可通过算法模型将组织影像组学特征中的不相关特征和冗余特征直接筛除,得到可用影像组学特征。
另一种实施方式中,可通过数据预处理的方式将组织影像组学特征中的不相关特征和冗余特征筛除掉。则可选地,对组织影像组学特征进行特征筛除,得到可用影像组学特征,包括:对组织影像组学特征进行标准化处理;获取标准化处理后的组织影像组学特征中每个特征的方差,并将方差大于阈值的特征确定为可用影像组学特征。
对组织影像组学特征中的所有特征做标准化处理,数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。即将组织影像组学特征中的所有特征值都处理成位于[0,1]的区间,然后使用方差选择法计算标准化处理后的每个特征值的方差,并根据预先设置的方差阈值进行筛选;以方差阈值是0.1为例,剔除低于和等于方差阈值0.1的低方差的特征,保留方差大于方差阈值0.1的所有特征值,保留的所有特征即为可用影像组学特征。
本申请实施例中,通过特征提取器,从乳腺腺体组织与背景实质增强组织中提取对侧乳腺的组织影像组学特征,组织影像组学特征进行特征筛除,得到可用影像组学特征。将组织影像组学特征中的不相关特征和冗余特征筛除掉,只保留较好的特征作为可用影像组学特征,将使用的可用影像组学特征进行优化,使得可用影像组学特征在进入组合模型后,可以精确地确定出目标侧乳腺的特征分类结果。
下面对上述组合模型的构建过程进行说明,具体涉及如何确定出由特征选择其和分类器构成最佳组合的组合模型。如图6所示,在一个实施例中,上述组合模型的构建过程包括以下步骤:
S501,获取多种样本的乳腺的样本医学影像;样本医学影像包括仅一侧乳腺患乳腺癌时患乳腺癌侧乳腺的对侧乳腺的医学影像;样本医学影像包括样本乳腺腺体组织与样本背景实质增强组织。
本步骤是获取模型训练数据的过程,即需要获取到训练数据集。为了使得训练数据集尽可能的覆盖所有情况,提高训练数据集的多样性,需要获取多种样本的乳腺的样本医学影像。其中,样本指的是不同的主体,即一个主体对应一个样本,每个样本也可以选择多种乳腺的样本医学影像。例如,可以获取100个样本的乳腺的样本医学影像,每个样本获取的样本医学影像包括三种情况的:
第一种是样本的双侧乳腺中仅有一侧乳腺患乳腺癌;第二种是样本的双侧乳腺中两侧乳腺均患有乳腺癌;第三种是样本的双侧乳腺中两侧都未患乳腺癌。
对于第一种,在获取样本医学影像时,需获取的是患乳腺癌侧乳腺的对侧乳腺的样本医学影像。对于第二种,在获取样本医学影像时,需获取的是两侧中的任一侧乳腺的样本医学影像。对于第三种,在获取样本医学影像时,需获取的也是两侧中的任一侧乳腺的样本医学影像。且无论哪一种,获取的样本医学影像中需包括样本乳腺腺体组织与样本背景实质增强组织。可以理解的是,以100个样本为例,每个样本都可以获取上述三种样本医学影像中的至少一种,对此不限定。
示例地,获取样本的乳腺的样本医学影像的方式可以是从预先存储的数据库中选择符合要求的医学影像;也可以是从网络平台下载符合要求的医学影像;还可以是根据要求制作模拟的医学影像等等,本申请实施例对样本医学影像的获取方式不作限定。
S502,基于各样本医学影像中的样本乳腺腺体组织与样本背景实质增强组织,获取各样本医学影像的训练影像组学特征。
对于上述组合模型来说,其输入为乳腺的可用影像组学特征,所以组合模型的训练影像组学特征(也即训练数据)也是从上述各样本的样本医学影像中提取的样本乳腺腺体组织与样本背景实质增强组织的可用影像组学特征,从样本医学影像中提取的,用于训练组合模型的,故称为训练影像组学特征。
其中,从各样本医学影像中获取样本乳腺腺体组织与样本背景实质增强组织的训练影像组学特征,可以是采用前述实施例中的特征提取器进行提取的方式,也可以是采用前述实施例中的预处理后再提取的方式,本申请实施例对此不作限定。
例如,针对100个样本的样本医学影像中的样本FGT和样本BPE组织,先提取出1037个影像组学特征,包括形状特征14个、一阶特征18个、二阶特征(纹理特征)75个和滤波器特征930个,可参见如下表1所示:
表1
类别(数量) | 特征 |
形状特征(14) | 体积、最大直径、表面积、长轴长度等 |
一阶特征(18) | 均值、中值、标准差、能量、熵等 |
纹理特征(75) | GLCM、GLRLM、NGTDM、GLDM |
滤波器特征(930) | 拉普拉斯-高斯滤波、小波 |
其中,表1中的灰度共生矩阵(Gray-level Co-occurrence Matrix,GLCM),也叫做灰度共现矩阵,其是像素灰度在空间位置上的反复出现形成图像的纹理,GLCM是描述具有某种空间位置关系两个像素灰度的联合分布;灰度游程矩阵(Gray-Level Run-LengthMatrix,GLRLM)就是灰度值游行的长度所组成的矩阵;邻域灰度差矩阵(Neighbourhoodgray-tone difference matrix,NGTDM)反映的是一个像素与其周围像素值的关系;灰度相关矩阵(Gray-level dependencematrix,GLDM)是基于灰度共生矩阵的纹理特征提取。可以理解的是,上述表1中的特征仅是一种举例,不作限定。
提取到上述表1中的各特征后,需进行特征选择,剔除不相关特征、冗余特征和共线性特征。例如,先对所有特征做标准化处理,使所有特征值位于[0,1]区间,然后使用方差选择法计算每个特征值的方差,以设置的方差阈值0.1为标准,将方差大于阈值的所有特征值保留,将方差小于或等于阈值的所有特征值保留剔除,即可得到各样本医学影像的训练影像组学特征。
S503,根据各训练影像组学特征和预设金标准,对预设数量的初始组合模型进行训练,得到各初始组合模型对应的候选组合模型。
根据得到各样本医学影像的训练影像组学特征以及预设的金标准,对预设数量的初始组合模型进行训练,得到各初始组合模型对应的候选组合模型。其中,金标准即为预设的标准值,例如,在本申请实施例中,金标准是目标侧乳腺的特征分类结果,在训练过程中,以金标准作为监督作用,确定初始组合模型是否训练收敛。其中,金标准的获取方式可以是在获取各样本的乳腺的样本医学影像时,以仅一侧乳腺患乳腺癌的样本为例,将该样本的患乳腺癌侧乳腺的乳腺的特征分类作为金标准,这样在训练时,就是将该样本的患乳腺癌侧乳腺对侧乳腺的样本医学影像作为训练数据,对比的金标准就是该样本的患乳腺癌侧乳腺的乳腺的真实的特征分类,如此,以真实的乳腺癌侧乳腺的乳腺的特征分类作为金标准对训练的输出结果进行监督,可以使得训练的组合模型精确地基于对侧乳腺的样本医学影像中的影像组学特征确定出目标侧乳腺的乳腺特征分类结果。
其中,预设数量的初始组合模型指的是预先构建了多个不同的初始组合模型;例如,以组合模型包括了特征选择器和分类器为例,且特征选择器为LASS O、RFE、RF三种;分类器为支持向量机、逻辑回归、决策树、梯度提升决策树和极度梯度提升五种;则初始组合模型为这三种特征选择器和五种分类器组合的15种,以LASSO为例,构成的初始组合模型为:LASSO+支持向量机、LASSO+逻辑回归、LASSO+决策树、LASSO+梯度提升决策树、LASSO+极度梯度提升;其他的组合在此不一一列举,总之,预设数量是根据特征选择器和分类器的数量共同决定。
确定了初始组合模型之后,根据训练影像组学特征训练各初始组合模型。训练时可以采用五折交叉验证方式来训练,例如,将上述100个样本的医学影像的训练影像组学特征分为五份,每份是20个样本的医学影像的训练影像组学特征,训练时,选取其中的四份作为训练集,一份作为验证集,这样以训练集训练各初始组合模型,以验证集来验证;下一次重新选择不同的四份作为训练集,剩下的一份作为验证集,再对各初始组合模型进行训练和验证;重复几次训练,每次选取的训练集不同,验证集也不同,如此,对各初始组合模型进行训练,使得各初始组合模型更加鲁棒,生成乳腺特征分类结果更加精确。
对各初始组合模型进行训练,通过金标准进行监督,当各初始组合模型收敛后,得到各初始组合模型对应的候选组合模型。
可以理解的,上述训练影像组学特征也是可以先采用单变量特征选择法衡量特征和肿瘤良恶性的相关性,剔除良性肿瘤与恶性肿瘤两组样本差异性不显著的特征,保留p-value<0.05的特征后,再对初始组合模型进行训练,与前述实施例的思路相同,这里不作限定。
S504,根据各候选组合模型的预测性能指标,从各候选组合模型中确定组合模型。
各初始组合模型训练完成后对应得到候选组合模型,分析不同候选组合模型的预测性能指标,例如,该预测性能指标为曲线下面积(Area Under Curve,AUC)和相对标准偏差(Relative Standard Deviation,RSD),根据该预测性能指标,从各候选组合模型中确定出上述实施例中的组合模型。
其中,AUC表示ROC曲线下与坐标轴围成的面积,ROC曲线为接受者操作特性曲线(receiver operating characteristic curve,ROC),结合到本申请实施例中,AUC表示的是基于训练过程的各初始组合模型输出的特征分类结果的灵敏度和特异度生成的曲线下的面积;RSD表示训练过程的各初始组合模型的曲线下面积的平均值和标准差。
基于此,如图7所示,根据各候选组合模型的预测性能指标,从各候选组合模型中确定组合模型的一种实施例包括以下步骤:
S601,获取各候选组合模型的曲线下面积,和各候选组合模型的曲线下面积的相对标准偏差。
根据各初始组合模型训练过程输出的特征分类结果的灵敏度和特异度,生成对应的ROC曲线,该训练过程输出的特征分类结果的灵敏度和特异度可以直接获取到;根据该ROC曲线,确定对应的AUC(即曲线下面积);其中,每一条ROC曲线对应一个AUC值,且AUC的取值在0至1之间,AUC越接近1,候选组合模型输出的结果的准确性越高。
另,由于不同的候选组合模型所用的特征数量不相等,因此,可以采用RS D作为辅助指标来比较每种候选组合模型输出特征分类结果的稳定性。其中,RSD定义如下:
其中,meanAUC是AUC的平均值;sdAUC是AUC的标准差;且RSD越小,候选组合模型输出特征分类结果越稳定。
S602,将曲线下面积和相对标准偏差均满足预设条件的候选组合模型,确定为组合模型。
根据上述获取到各候选组合模型的AUC(曲线下面积)和RSD(相对标准偏差),可以将AUC和RSD均满足预设条件的候选组合模型确定为上述实施例中的组合模型。例如,该预设条件为AUC最靠近1且RSD最小,这样表示候选组合模型的性能最好,则将AUC最靠近1且RSD最小的候选组合模型确定为最终的组合模型,得到组合模型的性能也是最好的,如此就可以保证通过构建的组合模型对对侧乳腺的可用影像组学特征进行预测时,可以得到精确且有效的目标侧乳腺的特征分类结果。
示例地,下面提供一种用测试集对将上述各候选组合模型进行测试后结果的示例,该示例中是分别从准确度、精确度、敏感度、特异度和AUC来评价其性能。
经过各测试集对各候选组合模型进行测试之后,测试结果表示:
(1)候选组合模型LASSO+XGBoost(即上述极度梯度提升)的组合在测试过程的性能表现与训练时的交叉验证中的性能表现一致,其准确度为0.881、精确度为0.873和AUC为0.893,且准确度、精确度和AUC均在所有候选组合模型中位列第一,而其灵敏度在所有候选组合模型中位列第七,其特异度在所有候选组合模型中位列第二。
(2)候选组合模型LASSO+GBDT(即上述梯度提升决策树)的性能略逊于LASS O+XGBoost,LASSO+GBDT组合模型的准确度为0.865、精确度为0.869和AUC为0.878,在所有候选组合模型中位列第二,其灵敏度为0.816,在所有候选组合模型中位列第八,但是LASSO+GBDT组合模型具有最高的特异度(0.850)。
如图8所示,图8为各候选组合模型在训练过程验证和测试集测试的ROC曲线示意图;具体地,图8中的(a)为组合模型LASSO+XGBoos在训练过程的五折交叉验证中的ROC曲线示意图;图8中的(b)为组合模型LASSO+XGBoos在该示例的测试集上的ROC曲线示意图;图8中的(c)为组合模型LASSO+GBDT在训练过程的五折交叉验证中的ROC曲线示意图;图8中的(d)为组合模型LA SSO+GBDT在该示例的测试集上的ROC曲线示意图。
所以,根据各候选组合模型在测试集中的表现,组合模型LASSO+GBDT和组合模型LASSO+XGBoost可以在本申请实施例中根据对侧乳腺的医学影像确定目标侧乳腺的特征分类结果任务中取得较好的表现。实际应用中,两者均可作为最终的组合模型,具体可根据实际情况而定。
对于上述根据各训练影像组学特征,对预设数量的初始组合模型进行训练,得到各初始组合模型对应的候选组合模型的过程,提供一种训练的实施例,该实施例包括:通过执行训练步骤,对预设数量的初始组合模型中的每个初始组合模型进行训练,得到各初始组合模型对应的候选组合模型;其中,该训练步骤包括:对于任一个初始组合模型:将各训练影像组学特征,输入初始组合模型中的特征选择器,通过特征选择器筛除各训练影像组学特征中的共线性特征;筛除共线性特征后的各训练影像组学特征,输入初始组合模型中的初始分类器,根据金标准对初始分类器进行训练,得到始组合模型对应的候选组合模型。
在通过五折交叉验证法进行训练时,是针对每个初始候选模型单独训练,因此,针对每个初始候选模型均采用训练步骤进行训练,以得到每个初始候选模型对应的候选组合模型。
以其中一个初始候选模型A为例,采用该训练步骤对初始候选模型A进行训练的过程包括:将各训练影像组学特征输入至初始组合模型A中的特征选择器,通过特征选择器筛除各训练影像组学特征中的共线性特征,筛除了共线性特征后,将筛除共线性特征后的各训练影像组学特征,输入初始组合模型A中的初始分类器,初始分类器会输出一个特征分类结果,重复执行,每次初始分类器均会输出一个特征分类结果,将每次输出的特征分类结果与预设的金标准进行对比,若输出的特征分类结果与金标准之间的相似率/相近率达到预设阈值,确定初始分类器训练完成,此时,得到该初始组合模型A的候选组合模型。这样,根据金标准对初始分类器进行监督训练,可以使得迭代训练后的分类器更加精确,从而使得得到始组合模型A对应的候选组合模型也可以根据对侧乳腺的可用影像组学特征,得到精确且有效的目标侧乳腺的特征分类结果。
需要说明的是,本申请实施例提供的组合模型,其除了应用于本申请生成目标侧乳腺的特征分类结果,也可以用于其它基于乳腺组织影像组学分析,例如根据腺体组织影像组学特征预测存活率等等,对此不限定。
另外,可以理解的是,在应用到不同的影像组学分析任务时,经过上述训练过程后,最终选择的特征选择器和分类器的组合也不一定相同,即针对不同影像组学分析任务,最终从候选组合模型中确定出组合模型也是不同的,具体要结合实际需求而定。
如图9所示,本申请实施例还提供一种特征分类方法,该实施例包括:
S1,获取多种样本的乳腺的样本医学影像。
S2,基于各样本医学影像中的样本乳腺腺体组织与样本背景实质增强组织,获取各样本医学影像的训练影像组学特征。
S3,根据各训练影像组学特征和预设金标准,对预设数量的初始组合模型进行训练,得到各初始组合模型对应的候选组合模型。
S4,获取各候选组合模型的曲线下面积,和各候选组合模型的曲线下面积的相对标准偏差。
S5,将曲线下面积和相对标准偏差均满足预设条件的候选组合模型,确定为组合模型。
S6,获取目标侧乳腺的对侧乳腺的医学影像;医学影像包括对侧乳腺的乳腺腺体组织与背景实质增强组织。
S7,通过特征提取器,从乳腺腺体组织与背景实质增强组织中提取对侧乳腺的组织影像组学特征。
S8,对组织影像组学特征进行特征筛除,得到可用影像组学特征。
S9,通过特征选择器,筛除可用影像组学特征中的共线性特征。
S10,将筛除共线性特征后的可用影像组学特征输入分类器中,得到目标侧乳腺的特征分类结果。
本实施例提供的特征分类方法,其实现原理和技术效果与前述各实施例中的特征分类方法类似,在此不再赘述。
应该理解的是,虽然上述实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述实施例的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图10所示,本申请实施例提供一种特征分类装置,该装置包括:获取模块10和分类模块11;其中,
获取模块10,用于获取目标侧乳腺的对侧乳腺的医学影像;医学影像包括对侧乳腺的乳腺腺体组织与背景实质增强组织;
分类模块11,用于将对侧乳腺的医学影像输入至预设的机器学习模型中,得到目标侧乳腺的特征分类结果。
在一个实施例中,机器学习模型包括特征提取器和预设的组合模型;上述分类模块11包括:提取单元和分类单元,其中,
提取单元,用于通过特征提取器,从乳腺腺体组织与背景实质增强组织中提取对侧乳腺的可用影像组学特征;
分类单元,用于将可用影像组学特征输入至组合模型中,得到目标侧乳腺的特征分类结果。
在一个实施例中,组合模型包括特征选择器和分类器;则上述分类单元,还用于通过特征选择器,筛除可用影像组学特征中的共线性特征;将筛除共线性特征后的可用影像组学特征输入分类器中,得到目标侧乳腺的特征分类结果。
在一个实施例中,上述提取单元包括提取子单元和筛除子单元,其中,
提取子单元,用于通过特征提取器,从乳腺腺体组织与背景实质增强组织中提取对侧乳腺的组织影像组学特征;
筛除子单元,用于对组织影像组学特征进行特征筛除,得到可用影像组学特征。
在一个实施例中,上述筛除子单元,还用于对组织影像组学特征进行标准化处理;获取标准化处理后的组织影像组学特征中每个特征的方差,并将方差大于阈值的特征确定为可用影像组学特征。
在一个实施例中,该装置包括:
样本获取模块,用于获取多种样本的乳腺的样本医学影像;样本医学影像包括仅一侧乳腺患乳腺癌时患乳腺癌侧乳腺的对侧乳腺的医学影像;样本医学影像包括样本乳腺腺体组织与样本背景实质增强组织;
特征获取模块,用于基于各样本医学影像中的样本乳腺腺体组织与样本背景实质增强组织,获取各样本医学影像的训练影像组学特征;
训练模块,用于根据各训练影像组学特征和预设金标准,对预设数量的初始组合模型进行训练,得到各初始组合模型对应的候选组合模型;
确定模块,用于根据各候选组合模型的预测性能指标,从各候选组合模型中确定组合模型。
在一个实施例中,上述训练模块包括:训练单元,该训练单元用于通过执行训练步骤,对预设数量的初始组合模型中的每个初始组合模型进行训练,得到各初始组合模型对应的候选组合模型;
其中,该训练步骤包括:
对于任一个初始组合模型:将各训练影像组学特征,输入初始组合模型中的特征选择器,通过特征选择器筛除各训练影像组学特征中的共线性特征;将筛除共线性特征后的各训练影像组学特征,输入初始组合模型中的初始分类器,根据金标准对初始分类器进行训练,得到始组合模型对应的候选组合模型。
在一个实施例中,预测性能指标包括曲线下面积和相对标准偏差;
则上述确定模块包括:指标获取单元和模型确定单元,其中,
指标获取单元,用于获取各候选组合模型的曲线下面积,和各候选组合模型的曲线下面积的相对标准偏差;
模型确定单元,用于将曲线下面积和相对标准偏差均满足预设条件的候选组合模型,确定为组合模型。
关于特征分类装置的具体限定可以参见上文中对于特征分类方法的限定,在此不再赘述。上述特征分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种特征分类方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取目标侧乳腺的对侧乳腺的医学影像;医学影像包括对侧乳腺的乳腺腺体组织与背景实质增强组织;
将对侧乳腺的医学影像输入至预设的机器学习模型中,得到目标侧乳腺的特征分类结果。
上述实施例提供的一种计算机设备,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取目标侧乳腺的对侧乳腺的医学影像;医学影像包括对侧乳腺的乳腺腺体组织与背景实质增强组织;
将对侧乳腺的医学影像输入至预设的机器学习模型中,得到目标侧乳腺的特征分类结果。
上述实施例提供的一种计算机可读存储介质,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种特征分类方法,其特征在于,所述方法包括:
获取目标侧乳腺的对侧乳腺的医学影像;所述医学影像包括所述对侧乳腺的乳腺腺体组织与背景实质增强组织;
将所述对侧乳腺的医学影像输入至预设的机器学习模型中,得到所述目标侧乳腺的特征分类结果。
2.根据权利要求1所述的方法,其特征在于,所述机器学习模型包括特征提取器和预设的组合模型;
则所述将所述对侧乳腺的医学影像输入至预设的机器学习模型中,得到所述目标侧乳腺的特征分类结果,包括:
通过所述特征提取器,从所述乳腺腺体组织与所述背景实质增强组织中提取所述对侧乳腺的可用影像组学特征;
将所述可用影像组学特征输入至所述组合模型中,得到所述目标侧乳腺的特征分类结果。
3.根据权利要求2所述的方法,其特征在于,所述组合模型包括特征选择器和分类器;
则所述将所述可用影像组学特征输入至所述组合模型中,得到所述目标侧乳腺的特征分类结果,包括:
通过所述特征选择器,筛除所述可用影像组学特征中的共线性特征;
将筛除共线性特征后的可用影像组学特征输入所述分类器中,得到所述目标侧乳腺的特征分类结果。
4.根据权利要求2或3所述的方法,其特征在于,所述通过所述特征提取器,从所述乳腺腺体组织与所述背景实质增强组织中提取所述对侧乳腺的可用影像组学特征,包括:
通过所述特征提取器,从所述乳腺腺体组织与所述背景实质增强组织中提取所述对侧乳腺的组织影像组学特征;
对所述组织影像组学特征进行特征筛除,得到所述可用影像组学特征。
5.根据权利要求4所述的方法,其特征在于,所述对所述组织影像组学特征进行特征筛除,得到所述可用影像组学特征,包括:
对所述组织影像组学特征进行标准化处理;
获取标准化处理后的组织影像组学特征中每个特征的方差,并将方差大于阈值的特征确定为所述可用影像组学特征。
6.根据权利要求2或3所述的方法,其特征在于,所述组合模型的构建过程,包括:
获取多种样本的乳腺的样本医学影像;所述样本医学影像包括仅一侧乳腺患乳腺癌时患乳腺癌侧乳腺的对侧乳腺的医学影像;所述样本医学影像包括样本乳腺腺体组织与样本背景实质增强组织;
基于各所述样本医学影像中的样本乳腺腺体组织与样本背景实质增强组织,获取各所述样本医学影像的训练影像组学特征;
根据各所述训练影像组学特征和预设金标准,对预设数量的初始组合模型进行训练,得到各所述初始组合模型对应的候选组合模型;
根据各所述候选组合模型的预测性能指标,从各所述候选组合模型中确定所述组合模型。
7.根据权利要求6所述的方法,其特征在于,所述根据各所述训练影像组学特征,对预设数量的初始组合模型进行训练,得到各所述初始组合模型对应的候选组合模型,包括:
通过执行训练步骤,对所述预设数量的初始组合模型中的每个初始组合模型进行训练,得到各所述初始组合模型对应的候选组合模型;
其中,所述训练步骤包括:
对于任一个初始组合模型:
将各所述训练影像组学特征,输入所述初始组合模型中的特征选择器,通过所述特征选择器筛除各所述训练影像组学特征中的共线性特征;
将筛除共线性特征后的各所述训练影像组学特征,输入所述初始组合模型中的初始分类器,根据所述金标准对所述初始分类器进行训练,得到所述始组合模型对应的候选组合模型。
8.根据权利要求7所述的方法,其特征在于,所述预测性能指标包括曲线下面积和相对标准偏差;
则所述根据各所述候选组合模型的预测性能指标,从各所述候选组合模型中确定所述组合模型,包括:
获取各所述候选组合模型的曲线下面积,和各所述候选组合模型的曲线下面积的相对标准偏差;
将所述曲线下面积和所述相对标准偏差均满足预设条件的候选组合模型,确定为所述组合模型。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110714102.XA CN113421633A (zh) | 2021-06-25 | 2021-06-25 | 特征分类方法、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110714102.XA CN113421633A (zh) | 2021-06-25 | 2021-06-25 | 特征分类方法、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113421633A true CN113421633A (zh) | 2021-09-21 |
Family
ID=77716873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110714102.XA Pending CN113421633A (zh) | 2021-06-25 | 2021-06-25 | 特征分类方法、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113421633A (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104715259A (zh) * | 2015-01-22 | 2015-06-17 | 苏州工业职业技术学院 | X光乳腺图像的核自适应优化分类方法 |
TWM527991U (zh) * | 2016-01-28 | 2016-09-01 | 太豪生醫股份有限公司 | 醫療影像處理裝置 |
US20180214105A1 (en) * | 2017-01-31 | 2018-08-02 | Siemens Healthcare Gmbh | System and method breast cancer detection with x-ray imaging |
CN109598702A (zh) * | 2018-10-30 | 2019-04-09 | 南方医科大学南方医院 | 对比增强能谱乳腺x线摄影的病灶特征量化方法及系统 |
CN109614993A (zh) * | 2018-11-26 | 2019-04-12 | 深圳先进技术研究院 | 乳腺医学超声图像的自动化分类方法及装置 |
CN109919254A (zh) * | 2019-03-28 | 2019-06-21 | 上海联影智能医疗科技有限公司 | 乳腺密度分类方法、系统、可读存储介质和计算机设备 |
CN111027590A (zh) * | 2019-11-11 | 2020-04-17 | 郑州大学第一附属医院 | 一种结合深度网络特征和机器学习模型的乳腺癌数据分类方法 |
KR102108050B1 (ko) * | 2019-10-21 | 2020-05-07 | 가천대학교 산학협력단 | 증강 컨볼루션 네트워크를 통한 유방암 조직학 이미지 분류 방법 및 그 장치 |
WO2020107156A1 (zh) * | 2018-11-26 | 2020-06-04 | 深圳先进技术研究院 | 乳腺医学超声图像的自动化分类方法及装置 |
CN111415333A (zh) * | 2020-03-05 | 2020-07-14 | 北京深睿博联科技有限责任公司 | 乳腺x射线影像反对称生成分析模型训练方法和装置 |
CN111429474A (zh) * | 2020-02-27 | 2020-07-17 | 西北大学 | 基于混合卷积的乳腺dce-mri图像病灶分割模型建立及分割方法 |
CN111681205A (zh) * | 2020-05-08 | 2020-09-18 | 上海联影智能医疗科技有限公司 | 图像分析方法、计算机设备和存储介质 |
CN112651951A (zh) * | 2020-12-30 | 2021-04-13 | 深圳高性能医疗器械国家研究院有限公司 | 一种基于dce-mri的乳腺癌分级方法 |
-
2021
- 2021-06-25 CN CN202110714102.XA patent/CN113421633A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104715259A (zh) * | 2015-01-22 | 2015-06-17 | 苏州工业职业技术学院 | X光乳腺图像的核自适应优化分类方法 |
TWM527991U (zh) * | 2016-01-28 | 2016-09-01 | 太豪生醫股份有限公司 | 醫療影像處理裝置 |
US20180214105A1 (en) * | 2017-01-31 | 2018-08-02 | Siemens Healthcare Gmbh | System and method breast cancer detection with x-ray imaging |
CN109598702A (zh) * | 2018-10-30 | 2019-04-09 | 南方医科大学南方医院 | 对比增强能谱乳腺x线摄影的病灶特征量化方法及系统 |
WO2020107156A1 (zh) * | 2018-11-26 | 2020-06-04 | 深圳先进技术研究院 | 乳腺医学超声图像的自动化分类方法及装置 |
CN109614993A (zh) * | 2018-11-26 | 2019-04-12 | 深圳先进技术研究院 | 乳腺医学超声图像的自动化分类方法及装置 |
CN109919254A (zh) * | 2019-03-28 | 2019-06-21 | 上海联影智能医疗科技有限公司 | 乳腺密度分类方法、系统、可读存储介质和计算机设备 |
KR102108050B1 (ko) * | 2019-10-21 | 2020-05-07 | 가천대학교 산학협력단 | 증강 컨볼루션 네트워크를 통한 유방암 조직학 이미지 분류 방법 및 그 장치 |
CN111027590A (zh) * | 2019-11-11 | 2020-04-17 | 郑州大学第一附属医院 | 一种结合深度网络特征和机器学习模型的乳腺癌数据分类方法 |
CN111429474A (zh) * | 2020-02-27 | 2020-07-17 | 西北大学 | 基于混合卷积的乳腺dce-mri图像病灶分割模型建立及分割方法 |
CN111415333A (zh) * | 2020-03-05 | 2020-07-14 | 北京深睿博联科技有限责任公司 | 乳腺x射线影像反对称生成分析模型训练方法和装置 |
CN111681205A (zh) * | 2020-05-08 | 2020-09-18 | 上海联影智能医疗科技有限公司 | 图像分析方法、计算机设备和存储介质 |
CN112651951A (zh) * | 2020-12-30 | 2021-04-13 | 深圳高性能医疗器械国家研究院有限公司 | 一种基于dce-mri的乳腺癌分级方法 |
Non-Patent Citations (1)
Title |
---|
SUZAN VREEMANN等: "The correlation of background parenchymal enhancement in the contralateral breast with patient and tumor characteristics of MRI-screen detected breast cancers", 《PLOS ONE》, vol. 13, no. 1, 19 January 2018 (2018-01-19), pages 2 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106815481B (zh) | 一种基于影像组学的生存期预测方法及装置 | |
US10499845B2 (en) | Method and device for analysing an image | |
KR101889725B1 (ko) | 악성 종양 진단 방법 및 장치 | |
KR101889722B1 (ko) | 악성 종양 진단 방법 및 장치 | |
CN110008971B (zh) | 图像处理方法、装置、计算机可读存储介质及计算机设备 | |
CN109584209B (zh) | 血管壁斑块识别设备、系统、方法及存储介质 | |
CN110796656A (zh) | 图像检测方法、装置、计算机设备和存储介质 | |
CN114022718B (zh) | 消化系统病理图像识别方法、系统及计算机存储介质 | |
US20160232665A1 (en) | Disease analysis apparatus, control method, and program | |
Alqudah et al. | Improving machine learning recognition of colorectal cancer using 3D GLCM applied to different color spaces | |
KR101889724B1 (ko) | 악성 종양 진단 방법 및 장치 | |
Ström et al. | Pathologist-level grading of prostate biopsies with artificial intelligence | |
KR101889723B1 (ko) | 악성 종양 진단 방법 및 장치 | |
CN115438804A (zh) | 预测模型训练方法、装置、设备以及图像预测方法 | |
CN113192031B (zh) | 血管分析方法、装置、计算机设备和存储介质 | |
Alyami et al. | Automatic skin lesions detection from images through microscopic hybrid features set and machine learning classifiers | |
CN111489318B (zh) | 医学图像增强方法和计算机可读存储介质 | |
CN113705595A (zh) | 异常细胞转移程度的预测方法、装置和存储介质 | |
CN113421633A (zh) | 特征分类方法、计算机设备和存储介质 | |
Kahaki et al. | Weakly supervised deep learning for predicting the response to hormonal treatment of women with atypical endometrial hyperplasia: a feasibility study | |
CN113160199B (zh) | 影像识别方法、装置、计算机设备和存储介质 | |
CN113077440A (zh) | 病理图像的处理方法、装置、计算机设备和存储介质 | |
Ren et al. | Statistical analysis of survival models using feature quantification on prostate cancer histopathological images | |
JPWO2020067481A1 (ja) | 画像解析装置、画像解析システム、画像解析方法、コンピュータプログラム及び非一時的記録媒体 | |
JP2022133479A (ja) | 予後推定装置及び予後推定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |