CN117911313A - 多特征融合的腮腺肿物分类方法、系统及电子设备 - Google Patents
多特征融合的腮腺肿物分类方法、系统及电子设备 Download PDFInfo
- Publication number
- CN117911313A CN117911313A CN202310467902.5A CN202310467902A CN117911313A CN 117911313 A CN117911313 A CN 117911313A CN 202310467902 A CN202310467902 A CN 202310467902A CN 117911313 A CN117911313 A CN 117911313A
- Authority
- CN
- China
- Prior art keywords
- parotid gland
- gland tumor
- model
- image
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000024011 parotid gland neoplasm Diseases 0.000 title claims abstract description 201
- 238000000034 method Methods 0.000 title claims abstract description 75
- 230000004927 fusion Effects 0.000 title claims abstract description 41
- 238000010801 machine learning Methods 0.000 claims abstract description 68
- 238000013145 classification model Methods 0.000 claims abstract description 36
- 238000007781 pre-processing Methods 0.000 claims abstract description 25
- 238000007500 overflow downdraw method Methods 0.000 claims abstract description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 49
- 238000002604 ultrasonography Methods 0.000 claims description 38
- 238000012549 training Methods 0.000 claims description 33
- 238000012360 testing method Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 20
- 238000012216 screening Methods 0.000 claims description 19
- 238000012795 verification Methods 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 7
- 238000002790 cross-validation Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000012706 support-vector machine Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000003709 image segmentation Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 3
- 238000007477 logistic regression Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000007637 random forest analysis Methods 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims description 3
- 238000003066 decision tree Methods 0.000 claims description 2
- 230000000717 retained effect Effects 0.000 claims 1
- 210000003681 parotid gland Anatomy 0.000 abstract description 41
- 238000003745 diagnosis Methods 0.000 abstract description 33
- 201000010099 disease Diseases 0.000 abstract description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 abstract description 5
- 238000003909 pattern recognition Methods 0.000 abstract description 2
- 239000000523 sample Substances 0.000 description 90
- 206010028980 Neoplasm Diseases 0.000 description 50
- 208000003200 Adenoma Diseases 0.000 description 23
- 208000000583 Adenolymphoma Diseases 0.000 description 19
- 206010001233 Adenoma benign Diseases 0.000 description 16
- 230000017531 blood circulation Effects 0.000 description 16
- 230000006870 function Effects 0.000 description 15
- 206010004453 Benign salivary gland neoplasm Diseases 0.000 description 13
- 208000021146 Warthin tumor Diseases 0.000 description 13
- 230000008961 swelling Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 239000011159 matrix material Substances 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 210000000256 facial nerve Anatomy 0.000 description 7
- 238000003384 imaging method Methods 0.000 description 7
- 208000004337 Salivary Gland Neoplasms Diseases 0.000 description 6
- 230000008901 benefit Effects 0.000 description 6
- 208000012999 benign epithelial neoplasm Diseases 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000002559 palpation Methods 0.000 description 5
- 230000035945 sensitivity Effects 0.000 description 5
- 210000002370 ICC Anatomy 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000010988 intraclass correlation coefficient Methods 0.000 description 4
- 210000001165 lymph node Anatomy 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000002980 postoperative effect Effects 0.000 description 4
- 238000004393 prognosis Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 210000005036 nerve Anatomy 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000001575 pathological effect Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 206010064912 Malignant transformation Diseases 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000004791 biological behavior Effects 0.000 description 2
- 238000004820 blood count Methods 0.000 description 2
- 230000036770 blood supply Effects 0.000 description 2
- 230000002308 calcification Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000012530 fluid Substances 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 230000036212 malign transformation Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000003340 mental effect Effects 0.000 description 2
- 208000011263 parotid disease Diseases 0.000 description 2
- 210000003481 parotid region Anatomy 0.000 description 2
- 230000001717 pathogenic effect Effects 0.000 description 2
- 230000007170 pathology Effects 0.000 description 2
- 210000003079 salivary gland Anatomy 0.000 description 2
- 230000000391 smoking effect Effects 0.000 description 2
- 206010009244 Claustrophobia Diseases 0.000 description 1
- 208000004929 Facial Paralysis Diseases 0.000 description 1
- 208000036826 VIIth nerve paralysis Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 208000031513 cyst Diseases 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 210000000883 ear external Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 210000001508 eye Anatomy 0.000 description 1
- 230000004399 eye closure Effects 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012562 intraclass correlation Methods 0.000 description 1
- 238000009533 lab test Methods 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 210000000265 leukocyte Anatomy 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000001613 neoplastic effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000037311 normal skin Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 206010033675 panniculitis Diseases 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 210000005259 peripheral blood Anatomy 0.000 description 1
- 239000011886 peripheral blood Substances 0.000 description 1
- 208000019899 phobic disease Diseases 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 210000004304 subcutaneous tissue Anatomy 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 210000001685 thyroid gland Anatomy 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 208000025444 tumor of salivary gland Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10132—Ultrasound image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30096—Tumor; Lesion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Ultra Sonic Daignosis Equipment (AREA)
Abstract
本发明公开了多特征融合的腮腺肿物分类方法、系统及电子设备,方法包括:获取超声样本图像和临床样本特征并对图像进行图像预处理,得到影像组学样本特征和超声样本特征;对特征进行数据预处理,生成腮腺肿物特征数据集,并采用机器学习的方法和模型融合方法构建腮腺肿物分类模型;采集待测超声图像和待测临床特征,通过腮腺肿物分类模型进行腮腺肿物的分类。本申请能够客观地对腮腺肿物进行分类,为医生诊断腮腺肿物的类别提供数据参考,以辅助非腮腺专科的医生做出更加客观和准确的医学诊断,在一定程度上能够提高腮腺肿物的诊断精准度,并提升医生的工作效率。本发明应用于病症分类技术领域、医学图像模式识别技术领域等。
Description
技术领域
本发明涉及医学图像模式识别技术领域,特别涉及多特征融合的腮腺肿物分类方法、系统及电子设备。
背景技术
腮腺是人体中最大的一对涎腺组织,其中,腮腺良性肿瘤分为非上皮性和上皮性,良性上皮性肿瘤以多形性腺瘤和腺淋巴瘤最常见。虽然腺淋巴瘤和多形性腺瘤病理分类同属良性肿瘤,但是两者的生物学行为和预后具有较大差异。与腺淋巴瘤等其他良性肿瘤不同的是,多形性腺瘤存在术后复发和恶性转化的风险。因此,在医生诊断出腮腺区肿物为良性上皮性肿瘤后,进一步地对良性上皮性肿瘤的类别进行识别,对患者的治疗和预后判断而言具有重大意义。目前,临床上采用超声、CT和MRI等影像学方法来对腮腺区肿物的类别进行分类和初步诊断。其中,超声检查成为目前筛查和诊断腮腺肿物的首选检查方法。
现有技术中存在如下问题:
(1)超声检查具有较强的操作者经验依赖性,且由于留图标准不一,大部分的临床医生仅能通过超声科医生给出的超声报告来了解超声检查结果。同时,由于超声科医生和临床医生之间缺少多元化的交流,临床医生和超声科医生对超声报告的解读结果存在较大的差异性,这种差异性将会增大临床医生根据影像系统中的超声图像分析患者的病症的难度。
(2)由于目前的腮腺区肿物的发病率较低,在大部分医院中,超声科医生和对腮腺区肿物病症进行诊断和分析的临床医生往往不是腮腺专科的医生。并且,腺淋巴瘤和多形性腺瘤在超声上的表现差异并不大,这无疑为非腮腺专科的医生增加了一定程度上的诊断和分类难度,进而可能会导致出现对腮腺区肿物病症的误诊等现象的出现。
(3)既往研究已有不少关于机器学习模型对临床辅助作用的报道,多数应用于肺部、甲状腺和眼部等领域的病灶检测和分类,目前机器学习在腮腺区肿物诊断方面的研究和应用仍较少,且基于超声图像的机器学习模型或影像组学在腮腺区肿物诊断上目前仍未有研究报道。若将机器学习与病灶肿物分类进行结合,则能够辅助医生进行疾病诊断,提高医生的诊断效率和诊断精度。
发明内容
本发明的目的是提供多特征融合的腮腺肿物分类方法、系统及电子设备,以解决现有技术中所存在的一个或多个技术问题,至少提供一种有益的选择或创造条件。
本发明一方面所采取的技术方案是:提供多特征融合的腮腺肿物分类方法,包括如下步骤:
获取多个腮腺肿物患者的超声样本图像和临床样本特征,所述超声样本图像包含至少一个腮腺肿物区域,并对所述超声样本图像进行图像预处理,得到影像组学样本特征和超声样本特征;
对所述影像组学样本特征、所述超声样本特征和所述临床样本特征进行数据预处理,生成腮腺肿物特征数据集;
根据所述腮腺肿物特征数据集,采用机器学习的方法和模型融合方法构建腮腺肿物分类模型;
采集腮腺肿物患者的待测超声图像和待测临床特征,所述待测超声图像至少包括一个腮腺肿物区域,根据所述待测超声图像和所述待测临床特征通过所述腮腺肿物分类模型进行腮腺肿物的分类。
本发明另一方面所采取的技术方案是:提供多特征融合的腮腺肿物分类系统,包括:
数据获取模块,用于获取多个腮腺肿物患者的超声样本图像和临床样本特征,所述超声样本图像包含至少一个腮腺肿物区域;
图像处理模块,用于对所述超声样本图像进行图像预处理,得到影像组学样本特征和超声样本特征;
数据处理模块,用于对所述影像组学样本特征、所述超声样本特征和所述临床样本特征进行数据预处理,生成腮腺肿物特征数据集;
模型构建模块,用于根据所述腮腺肿物特征数据集,采用机器学习的方法和模型融合方法构建腮腺肿物分类模型;
识别模块,用于采集腮腺肿物患者的待测超声图像和待测临床特征,所述待测超声图像至少包括一个腮腺肿物区域,根据所述待测超声图像和所述待测临床特征通过所述腮腺肿物分类模型进行腮腺肿物的分类。
本发明另一方面所采取的技术方案是:提供电子设备,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于执行所述多特征融合的腮腺肿物分类方法。
本发明的有益效果是:本发明通过多特征融合的腮腺肿物分类方法、系统及电子设备,应用于腮腺肿物分类领域,通过获取超声图像并对其进行影像组学特征和超声特征的提取,与此同时获取临床特征,之后根据影像组学特征和超声特征以及临床特征通过机器学习和模型融合的方法完成腮腺肿物分类模型的构建,以通过分类模型来实现Warthin瘤和多形性腺瘤的识别和分类。本申请能够客观地对腮腺肿物进行分类,特别是对Warthin瘤和多形性腺瘤的分类,能够为非腮腺专科的医生提供诊断参考,进而辅助非腮腺专科的医生完成精准的诊断,在一定程度上提高了腮腺肿物诊断的准确性和医生的诊断效率,且有助于医生为患者制定高效率的治疗方案,提高患者的生活质量的同时,减轻患者的精神和经济负担,本发明在腮腺肿物分类领域、腮腺肿物辅助诊断领域具有高可用性和有效性。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
图1为本申请提供的腮腺肿物分类方法的原理图;
图2为本申请提供的腮腺肿物分类系统的结构图;
图3为本申请提供的图像分析与分割ROI的流程图;
图4为本申请提供的腮腺区肿物测量示意图;
图5为本申请提供的数据预处理的流程图;
图6为本申请提供的腮腺肿物分类方法的原理图;
图7为本申请提供的腮腺肿物分类的第一实例图;
图8为本申请提供的腮腺肿物分类的第二实例图;
图9为本申请提供的医师经验诊断和机器学习模型的ROC曲线图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
下面结合说明书附图和具体的实施例对本申请进行进一步的说明。所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
腮腺是人体中最大的一对涎腺组织,分布于面部的皮下组织,覆盖面神经的下颌支和外耳的前部和下部,其肿瘤发生率在所有涎腺肿瘤中占比最高,为70%~80%。腮腺囊性病变主要分为三类:非肿瘤性囊肿、具有大囊性改变的良性肿瘤和具有大囊性改变的恶性肿瘤。其中,腮腺良性肿瘤分为非上皮性和上皮性,良性上皮性肿瘤以多形性腺瘤和腺淋巴瘤最常见。虽然腺淋巴瘤(Warthin tumor)和多形性腺瘤病理分类同属良性肿瘤,但是两者的生物学行为和预后具有较大差异。与腺淋巴瘤等其他良性肿瘤不同的是,多形性腺瘤存在术后复发和恶性转化的风险。因此,在医生诊断出腮腺区肿物为良性上皮性肿瘤后,进一步地对良性上皮性肿瘤的类别进行识别,对患者的治疗和预后判断而言具有重大意义。
目前,临床上采用超声、CT和MRI等影像学方法来对腮腺区肿物的类别进行分类和初步诊断。其中,超声检查(Ultrasound,US)是利用频率超过人类可以听到的最高阈值声波的一种检查方法,具有价格低廉,耗时少,没有辐射、金属不相容和幽闭恐惧症等问题的优点,超声检查成为目前筛查和诊断腮腺肿物的首选检查方法。
然而,超声检查具有较强的操作者经验依赖性,且由于留图标准不一,大部分的临床医生仅能通过超声科医生给出的超声报告来了解超声检查结果。同时,由于超声科医生和临床医生之间缺少多元化的交流,临床医生和超声科医生对超声报告的解读结果存在较大的差异性,这种差异性将会增大临床医生根据影像系统中的超声图像分析患者的病症的难度。另外,由于目前的腮腺区肿物的发病率较低,在大部分医院中,超声科医生和对腮腺区肿物病症进行诊断和分析的临床医生往往不是腮腺专科的医生。并且,腺淋巴瘤和多形性腺瘤在超声上的表现差异并不大,这无疑为非腮腺专科的医生增加了一定程度上的诊断和分类难度,进而可能会导致出现对腮腺区肿物病症的误诊等现象的出现。
对此,本申请提供一种多特征融合和多模型融合的腮腺肿物分类方法、系统以及电子设备,通过获取超声图像并对其进行影像组学特征和超声特征的提取,与此同时获取临床特征,之后根据影像组学特征和超声特征以及临床特征通过机器学习和模型融合的方法完成腮腺肿物分类模型的构建,以通过分类模型来实现Warthin瘤和多形性腺瘤的识别和分类。本申请能够客观地对腮腺区域的Warthin瘤和多形性腺瘤进行分类,为医生对腮腺肿物的诊断提供数据参考,辅助非腮腺专科的医生做出更加客观和准确的医学诊断。参照图1,图1为本申请实施例提供的腮腺肿物分类方法的原理图。本申请的一个实施例,下面将对所述腮腺肿物分类方法进行说明和阐述。所述腮腺肿物分类方法可以包括但不限于以下步骤。
S100,获取多个腮腺肿物患者的超声样本图像和临床样本特征,并对超声样本图像进行图像预处理,得到影像组学样本特征和超声样本特征。
需要说明的是,超声样本图像包含至少一个腮腺肿物区域,腮腺肿物区域即为病灶区域。
需要说明的是,影像组学(Radiomics)是指从影像图像中提取特征,利用计算机技术充分挖掘图像中隐藏的信息,结合这部分隐藏信息分析疾病不同临床表型的过程。本申请的影像组学特征用于映射腮腺肿物的不同临床表型。
需要说明的是,超声特征是指超声图像的数据特征,数据特征能够有效地映射腮腺肿物的尺寸、形态、血流情况等具体情况。临床特征是指患者的如年龄、姓名等基本数据信息以及其在患病时所表现的病症数据。
本具体实施例中,可预先通过超声仪、线阵变频探头对多个患者以不同切面进行二维及彩色多普勒全面扫查,检查时在获得较好的二维图像的基础上,记录超声样本图像并将其存储于系统的数据库中。可选地,超声仪可以是GE Logiq9、Philips iU22等超声仪,线阵变频探头可以是ML6-15(6.0至15.0MHz)、L12-5(5.0至12.0MHz),超声仪和线阵变频探头均可根据实际情况来选取。
本具体实施例中,临床特征预先存储于系统的数据库中。
可选地,临床特征可以包括但不限于:性别、年龄、发病时间、伴有疼痛情况、皮肤表面颜色情况、肿物触诊活动度、肿物触诊边界、触诊肿物质地、伴有压痛情况、面部神经功能结果、手术情况和病理结果。其中,伴有疼痛情况包括有疼痛和没有疼痛中的任一种,伴有压痛情况包括没有压痛和有压痛中的任一种,皮肤表面颜色情况包括面部颜色不正常和面部颜色正常中的任一种,面部神经功能结果包括神经功能正常和神经功能不正常中的任一种。
可选地,面部神经功能结果可通过House-Brackmann分级法进行。当House-Brackmann分级为I级时,即面部所有区域功能正常,包括静态的面容对称性和动态的自主活动如抬眉、闭眼、口角运动等方面均正常,且无面神经麻痹的并发症,则认为患者的面部神经功能结果为正常。当House-Brackmann分级为II至VI级时,则认为患者的面部神经功能结果为不正常。记录以上面部神经功能结果并将其作为临床特征中的一种存储于系统的数据库中。
S200,对影像组学样本特征、超声样本特征和临床样本特征进行数据预处理,生成腮腺肿物特征数据集;
S300,根据腮腺肿物特征数据集,采用机器学习的方法和模型融合方法构建腮腺肿物分类模型。
需要说明的是,机器学习是人工智能的一个分支,通过设计专门的算法令计算机自动完成数据分析以掌握规律,并利用规律对未知数据做出判断或预测。机器学习方法可通过不断“学习”来分析、掌握规律,也可轻而易举地完成信息的处理,相比于统计分析方法,机器学习在分析大数据量与高变量维度方面有着不可比拟的优势。机器学习的方法包括随机森林算法、支持向量机算法、逻辑斯蒂回归算法等。
S400,采集腮腺肿物患者的待测超声图像和待测临床特征,根据待测超声图像和待测临床特征通过腮腺肿物分类模型进行腮腺肿物的分类。
需要强调的是,本方法最终输出的结果并非为最终的诊断结果,最终输出的结果仅供医生进行诊断参考,最终的诊断结果仍需医生来进行判断和决定。即本技术方案并不直接决定最终的诊断结果,不属于疾病的诊断。
本实施例应用了机器学习的方法,根据已有的腮腺肿物患者的超声特征、影像组学特征和临床特征来找寻腮腺肿物患者与腮腺肿物的类别的映射关系,进而得到腮腺肿物分类模型。下次再有一些新的数据(即待预测的对象)就可以按照先前学习到的规律和映射关系,让该分类模型自动预测腮腺区域肿物的类别。
目前在腮腺肿物的诊疗方面,暂无使用超声影像结合机器学习的腮腺区域的肿物分类预测方法,特别是对Warthin瘤和多形性腺瘤的分类。因此,本发明提出了基于超声影像、临床特征和机器学习的腮腺肿物患者的肿物分类预测方案,可填补该方面的技术空缺。本发明通过机器学习的方法来对患有腮腺肿物病症的患者的疗前超声影像进行分析,探究与Warthin瘤和多形性腺瘤相关的特征标志——超声特征、临床特征和影像组学特征,通过将这些特征标志与机器学习的方法进行结合来实现对患者的腮腺肿物进行分类。
本发明能够客观地对腮腺肿物进行分类,特别是对Warthin瘤和多形性腺瘤的分类,能够为非腮腺专科的医生提供诊断参考,进而辅助非腮腺专科的医生完成精准的诊断,在一定程度上提高了腮腺肿物诊断的准确性和医生的诊断效率,且有助于医生为患者制定高效率的治疗方案,提高患者的生活质量的同时,减轻患者的精神和经济负担。本发明在腮腺肿物分类领域、腮腺肿物辅助诊断领域具有高可用性和有效性。
参照图2,图2为本申请实施例提供的腮腺肿物分类系统的结构图。本申请的一个实施例,下面将对所述腮腺肿物分类系统进行说明和阐述。所述系统包括:
数据获取模块,其作用是获取多个腮腺肿物患者的临床样本特征和超声样本图像。
图像处理模块,其作用是对超声样本图像进行图像预处理,得到超声样本特征和影像组学样本特征;
数据处理模块,其作用是对影像组学样本特征、超声样本特征和临床样本特征进行数据预处理,生成腮腺肿物特征数据集;
模型构建模块,其作用是根据腮腺肿物特征数据集,采用机器学习的方法和模型融合方法构建腮腺肿物分类模型;
腮腺肿物识别模块,其作用是采集腮腺肿物患者的待测超声图像,根据待测超声图像通过腮腺肿物分类模型进行腮腺肿物的分类;
数据库,其作用是存储分类方法中产生的各种信息。
基于上述实施例,本申请的腮腺肿物分类过程包括:获取超声、临床和影像组学样本特征,其中,影像组学样本特征的获取步骤主要包括获取超声图像、分割图像和提取与筛选高通量特征;对多种特征进行处理和参数调整;训练并构建融合模型,评估模型性能;输出模型以进行腮腺肿物的分类。下面将对本申请提供的腮腺肿物分类方法进行展开阐述。
本申请的一个实施例,下面将对图像预处理的步骤进行说明和阐述。S100中的图像预处理步骤可以包括但不限于以下步骤。
S110,利用图像识别算法识别出超声样本图像中的腮腺肿物大致区域,并利用图像分割算法沿着腮腺肿物大致区域的轮廓进行逐层分割,进而得到腮腺肿物区域。
参照图3所示的图像分析与分割ROI的流程图,对应于上述S110。本步骤中,由于超声样本图像中分为ROI(Region of interest,感兴趣区域)和背景区域,而本申请的方法主要针对ROI的检测,因此需要先滤除背景区域,并将ROI提取出来。本申请的ROI为腮腺肿物区域,即病灶区域。可选地,图像识别算法和图像分割算法均为基于深度学习(DeepLearning)的神经网络算法。
作为可选的实施例,在完成逐层分割后,通过ITK-SNAP软件手动方法对分割出来的ROI进行调整,并使用类间和类内相关系数(intraclass correlation coefficients,ICCs)来检验调整前的ROI和调整后的ROI之间的一致性,ICCs范围在0到1之间,0表示两次提取的特征完全不一致,1表示两次提取的特征完全一致。本具体实施例中,当ICCs大于0.75时被认为是具有良好的一致性。最后,将符合上述ICCs标准的腮腺肿物区域输出。
S120,根据腮腺肿物区域,确定超声样本特征。
本具体实施例中,通过ROI提取出超声样本图像所映射的超声样本特征,并将其存储于系统的数据库中。其中,提取的超声样本特征包括:腮腺肿物的数目、肿物的最大直径、纵横比、性质、形态、边界、内部回声、钙化情况、内部囊性液暗区、A线距离、B线距离、C线距离、D线距离、彩色多普勒血流分级和颈面淋巴结情况等。可选地,颈面淋巴结情况包括颈部和面部的淋巴结的大小、形态、边缘、纵横比、内部结构、内部回声及血供等。
需要说明的是,彩色多普勒血流是指在多普勒条件下观测到腮腺肿物的内部和周边血供情况,根据Adler法可以分为0至3级。其中,0级是指无血流;1级是指少量血流,可见1至2处点状或者棒状血流;2级是指中度血流,可见3至4处点状电流或者一条较长的血流信号,其长度可接近或超过肿物半径;3级是指多量血流,可见5个以上点状血流信号或2条较长的血流信号。
参照图4所示的腮腺区肿物测量示意图,其中:
A线距离(DSSAM)为从人体皮肤的表面到腮腺肿物的表面的距离;
B线距离(DSDAM)为从人体皮肤的表面到腮腺肿物的深部的距离;
C线距离(DGSSAM)为从腮腺的表面到腮腺肿物的表面的距离;
D线距离(DDAMDAG)为从腮腺肿物的深部到腮腺的深部的距离。
S130,对腮腺肿物区域进行图像滤波处理,从滤波处理后的腮腺肿物区域中提取影像组学样本特征。
需要说明的是,图像滤波处理包括对数(Logarithm)、平方(Square)、梯度(Gradient)、指数(Exponential)、平方根(Squareroot)和小波(Wavelet)中的至少一种。
可选地,影像组学样本特征可以包括但不限于以下数据特征:
一阶统计特征(First order features),包括能量(Energy)、熵(Entropy)、平均值(Mean)、最小值(Minimum)、最大值(Maximum)、灰度均值(Mean gray level)、均勾性(Uniformity)、峰度(Kurtosis)、偏度(Skewness)等;
滤波特征(Wavelet features),包括对原始图像进行二维离散小波分解和重构后的垂直方向和水平方向上的低频和高频分量;
形态特征(Shape features),包括周长(Perimeter)、面积(Area)、重心(Orthocenter)、伸长度(Elongation)、球形度(Sphericity)等;
纹理特征(Textural features),包括灰度游程长度矩阵(Gray level runlength matrix,GLRLM)、灰度尺寸区域矩阵(Gray level size zone matrix,GLSZM)、灰度相关矩阵(Gray level dependence matrix,GLDM)、绝对梯度(Absolute Gradient)、邻域灰度差矩阵(Neighbouring gray tone difference matrix,NGTDM)和灰度共生矩阵(Graylevel co-occurrence matrix,GLCM)。
本步骤中,在对超声样本图像进行提取影像组学特征之前,将每个图像经过不同的多种滤波处理,之后对滤波处理后的ROI进行影像组学样本特征的提取。
进一步地,系统的图像处理模块包括:ROI提取单元、超声特征提取单元和影像组学特征提取单元,以上单元的功能分别对应于上述S110至S130。
参照图5,图5所示为本申请提供的数据预处理的流程图。本申请的一个实施例,下面将对数据预处理进行说明和阐述。本申请的S200实际上为数据特征工程步骤,S200可以包括但不限于以下步骤。
S210,标记处理:对影像组学样本特征、超声样本特征和临床样本特征进行腮腺肿物区域的类别标注处理,得到与腮腺肿物区域对应的类别标记,生成数据集组。
本具体实施例中,类别标记包括第一类别标记和第二类别标记。第一类别标记为Warthin瘤,第二类别标记为多形性腺瘤。
S220,数据清洗和均衡化:对标注处理后的数据集组进行数据清洗,并通过SMOTETomek(SyntheticMinority Over-Sampling Technique,合成少数类过抽样技术)算法均衡化数据集组。
本步骤中,数据清洗是指删除无区分度、重复等变量特征,以使得数据集组中的数据更贴合腮腺肿物特征。通过合成少数类过抽样技术对数据集组进行均衡化的步骤具体为:对数据集组中的少数类特征进行过采样,寻找每一个少数类样本和随机某一个该样本的最近邻样本,并在两者之间进行随机线性插值,合成新的少数类样本填充进原有数据集中。然后基于Tomek算法对不同类别的Tomek连接进行清理,克服SMOTE过采样带来的噪声问题。
S230,归一化与独热编码:确定均衡化后的数据集组中的计量特征和分类型特征,归一化处理计量特征,并利用独热编码处理分类型特征。
本步骤中,对于计量特征即连续型特征,由于不同变量的尺度不一,因此需要将连续型特征归一化到0至1的范围中。分类型特征不能直接应用于模型训练,因此需要将分类型特征通过独热编码,将其的N个可能值转化为N个二元特征。
S240,数据增强:筛除数据集组中共线性强的特征,并对数据集组进行数据增强。
需要说明的是,数据增强包括:包括添加高斯噪声、错切、随机平移缩放、随机改变图像亮度、水平翻转、色相调整、移动模糊、随机裁剪和垂直翻转中的一种或多种。
S250,单因素特征筛选:计算数据集组中的特征与腮腺肿物区域的种类的皮尔森相关系数(Pearson Correlation Coefficient,PCC),保留数据集组中相关系数大于相关阈值的特征。
本步骤中,通过PCC系数来完成对数据集组中多种特征的单因素特征筛选。
S260,多因素特征筛选:首先,通过嵌入法和支持向量机对保留后的数据集组中的多个特征进行多因素筛选,得到所有特征对模型预测的贡献度。然后,筛选出其中贡献度大于贡献度阈值的特征,这些筛选出来的特征构成肿物数据集,以便于后续优化机器学习模型的性能。
需要说明的是,肿物数据集包括影像组学数据集、超声数据集和临床数据集。
S270,数据融合:将肿物数据集中属于腮腺肿物患者的特征融合为一条特征,得到若干条融合特征,并根据这些融合特征生成腮腺肿物特征数据集。
本步骤中,由于临床样本特征、超声样本特征和影像组学样本特征的维度不一致,并且特征种类过多,在后续进行模型训练时,可能会因输入数据的维度不一致且特征过多而导致模型的精度达不到预期效果。因此,在完成特征工程即S210至S250后,需要对特征的维度进行标准化处理,具体地,将属于同一患者的临床样本特征、超声样本特征和影像组学样本特征整合为一条特征,进而构建特征数据集。这样不仅能够保证特征的标签属性不会出现变化,同时还能使得临床样本特征、超声样本特征和影像组学样本特征的维度统一,相比将单种特征作为输入,融合后的特征更丰富和多样化,能够使得输入到模型中进行训练的数据更为可靠、更为准确。
可选地,通过卡尔曼滤波、特征融合方法或决策融合方法等完成数据融合。
作为进一步的实施方式,本申请提供的数据处理模块包括:标记处理单元、数据清洗和均衡化单元、归一化与独热编码单元、数据增强单元、单因素筛选单元、数据融合单元和多因素筛选单元,以上单元的功能分别对应于S210至S270。
本申请的一个实施例,下面将对S300中构建腮腺肿物分类模型的过程进行说明和阐述。S300主要包括两个过程:基模型的构建与模型融合。S300可以包括但不限于以下步骤。
S310,基模型的构建:根据腮腺肿物特征数据集,采用机器学习的方法生成三个腮腺肿物分类最优基模型。
其中,机器学习的方法包括逻辑回归算法(Logistic Regression,LR)、决策树算法(Decision Tree,DT)、随机森林算法(Random Forest,RF)、极度随机树算法(ExtraTrees Classifier,ET)、朴素贝叶斯算法(Bayes,NB)、XGBoost(eXtreme GradientBoosting)算法、LightGBM(Light Gradient Boosting Machine)算法、AdaBoost(AdaBoost Classifier)算法、K-近邻(K-nearest neighbor)算法、岭回归分类器(RidgeClassifier)、支持向量机算法(Support vector machine,SVM)、线性判别分析算法(Linear Discriminant Analysis,LDA)、Duumy分类器算法(Dummy Classifier)、二次判别分析算法(Quadratic Discriminant Analysis,QDA)、梯度提升分类器算法(GradientBoosting Classifier,GBC),共十五种。
进一步地,S310包括以下步骤:
S311,从输入的样本中循环抽取多个特征作为测试集,样本中的其他特征作为训练集和验证集。
具体地,输入的样本为腮腺肿物特征数据集。
S312,根据训练集,通过十折交叉验证法和机器学习的方法进行模型训练,得到多个基础机器学习模型,并通过验证集对所有基础机器学习模型进行测试,根据测试结果筛选出多个机器学习模型。
需要说明的是,十折交叉验证法(10-fold Cross Validation)是交叉验证算法中的一种,将数据集分成十份,轮流将其中9份做训练1份做验证,10次的结果的均值作为对算法精度的估计,以选取算法精度最高的模型。这个方法的优势在于,同时重复运用随机产生的子样本进行训练和验证,每次的结果验证一次。
本具体实施例中,选择15个机器学习的方法来构建对应的机器学习模型。将训练集分别输入到这15个模型中,并利用十折交叉验证法和验证集进行模型训练和验证,得到每个模型对应的性能结果,如AUC值等。根据性能结果,从若干个基础机器学习模型当中筛选出一定数量的机器学习模型,即上述的多个机器学习模型,被筛选出的机器学习模型的性能结果均达到预期,以便于进行后续的调参和基模型构建。
S313,根据网格搜索法对每个机器学习模型的超参数进行调优处理,将训练集分别输入至每个调参后的机器学习模型中并进行模型训练,生成每个腮腺肿物分类基模型。
需要说明的是,网格搜索(Grid Search)法是一种自动调参手段,在所有候选的参数选择中,通过循环遍历,尝试每一种可能性,表现最好的参数就是最终的结果。其原理就像是在数组里找最大值。超参数是机器学习常见且重要的参数,通常包括各层的神经元数量、batch大小、参数更新时的学习率等参数。
本步骤中,超参数对模型的训练过程以及最终输出的模型的性能起到一定程度的影响,选择最佳超参数能够加快模型的收敛速度,且提高模型的性能和泛化能力,同时避免模型在训练时出现过拟合的现象。
S314,通过测试集对每个腮腺肿物分类基模型进行性能评估,得到每个腮腺肿物分类基模型的性能结果。
可选地,本申请所使用的性能评估参数包括:准确率、ROC(receiver operatingcharacteristic curve,接收者操作特征曲线)、AUC(Area under curve,ROC曲线下的面积)值、特异度、敏感度、阴性预测值、阳性预测值、阳性似然比和阴性似然比等。其中:
准确率Accuracy=(TP+TN)/(TP+TN+FP+FN);
敏感度Sensitivity=TP/(TP+FN);
特异度Specificity=TN/(TN+FP);
其中,TP:True Positive,真阳性,被判定为正样本,事实上也是正样本的样本总数。TN:True Negative,真阴性,被判定为负样本,事实上也是负样本的样本总数。FP:FalsePositive,假阳性,被判定为正样本,但事实上是负样本的样本总数。FN:False Negative,假阴性,被判定为负样本,但事实上是正样本的样本总数。
S315,根据性能结果,以预设排列顺序对所有腮腺肿物分类基模型进行排序,选择排序前三的腮腺肿物分类基模型作为三个腮腺肿物分类最优基模型。
需要说明的是,排列顺序为性能好的腮腺肿物分类基模型的排序优于性能差的腮腺肿物分类基模型的排序。
S320,模型融合:选择元模型的结构,通过元模型与三个腮腺肿物分类最优基模型进行模型融合,生成腮腺肿物分类模型。
本步骤中,为了进一步地提高模型的分类性能,本申请通过模型融合方式将元模型与三个被选择的基模型进行融合,进而构成最终的腮腺肿物分类模型,以提高腮腺肿物的识别精准度。
进一步地,S320包括以下步骤:
S321,根据腮腺肿物特征数据集,通过十折交叉验证法重新构建新测试集和新训练集;
S322,根据新训练集和所述新测试集,通过Stacking集成学习算法将三个腮腺肿物分类最优基模型与元模型进行模型融合和训练,生成腮腺肿物分类模型。
作为进一步的实施方式,模型构建模块还包括基模型生成单元和模型融合单元,以上单元的功能与以上S310至S320相对应。
参照图6,图6所示为本申请提供的腮腺肿物分类方法的原理图。为了验证本申请提出的方法具有有效性,以及其在腮腺肿物分类领域、腮腺肿物辅助诊断领域上具有高可用性,本发明通过以下实施例来进行原理说明和验证。本方法主要包括步骤如下:
A、数据收集:
超声图像数据的收集可通过超声检查来完成。超声检查在某知名医院影像科的GELogiq9、Philips iU22彩色多普勒超声仪,以及线阵变频探头ML6-15(6.0~15.0MHz)、L12-5(5.0~12.0MHz)完成。具体地,患者取仰卧位,充分暴露颈面部,以不同切面进行二维及彩色多普勒全面扫查,检查时在获得较好的二维图像基础上,记录并储存相关超声图像信息。而临床特征数据的收集获取可通过系统的数据库来获取。可选地,临床特征数据还可以包括实验室检测的数据,如血细胞计数、白细胞计数等。
B至D、图像预处理:
如图3和图4所示,通过对超声图像进行图像预处理,来得到超声特征数据和影像组学特征数据,具体实现步骤为:
ROI的获取:通过图像识别算法得到腮腺肿物的大致病灶区域,通过图像分割算法对大致病灶区域进行图像分割,进而得到腮腺肿物的病灶区域,即ROI,具体过程如图3所示。
超声数据的获取:通过对ROI区域进行检测,得到超声样本特征。超声样本特征包括:腮腺肿物的数目、肿物的最大直径、纵横比、性质、形态、边界、内部回声、钙化情况、内部囊性液暗区、A线距离、B线距离、C线距离、D线距离、彩色多普勒血流分级和颈面淋巴结情况等。A线距离、B线距离、C线距离和D线距离如图4所示。
影像组学数据的获取:对ROI进行滤波处理,从滤波处理后的ROI中提取影像组学样本特征。影像组学样本特征主要包括:一阶统计特征(Order Features)、滤波特征(Wavelet Features)、形态特征(Shape Features)和纹理特征(Textural Features)。
E、数据预处理:
依次对所有特征数据进行标记处理、数据清洗、均衡化处理、归一化和独热编码、数据增强、单因素特征筛选、特征融合和多因素特征筛选,以得到用于训练的腮腺肿物特征数据集。参照下表1所示的超声样本特征和临床样本特征的信息汇总表。表1中展示了本具体实施例的超声样本特征和临床样本特征具体所包括的数据内容。
表1:超声特征和临床信息汇总表
本具体实施例中,从某医院处收集若干例腮腺区域肿物患者(简称病例)数据,考虑纳入准则、T-test分析和通过本具体实施例的预处理后,共保留下173例数据,其中男119例,女54例,年龄6~83(49.83±14.878)岁,肿物最大径为10~62(28.51±10.22)mm。
F、机器学习基模型的建立:
本实施例中,首先划分测试集、验证集和训练集。其中,训练集和测试集的比例近似于7:3,即173例病例中有121例被划分为训练集和验证集,52例被划分为测试集。并且,构建了15个机器学习模型并利用划分的训练集对所有模型均进行预训练,通过验证集对15个预训练后的机器学习模型进行测试。根据测试得到的AUC值等结果,从15个模型中选择了6个模型进行进一步的调参和训练,这6个模型分别为ET模型、LGB模型、EGB模型、AdaBoost模型、RF模型和GB模型。然后,通过自动调参方法对上述6个模型进行调参,之后利用训练集进行模型训练,通过测试集对训练后的模型进行测试。最终,根据测试集的测试结果,从6个模型中筛选出最优的3个基模型。
如下表2所示的经过特征预处理、调参后的机器学习模型在测试集中的性能结果。其中,AUC是指ROC曲线下的面积,F1是指F1 Score即几何平均分,MCC是指马修斯相关系数,Kappa是Kappa系数。
表2:经过特征预处理、调参后的机器学习模型在测试集中的性能结果
通过表2可知:虽然ET模型的召回率不如其他5个模型的召回率,但ET模型的Acc、Prec等指标均为所有模型中最优。除了ET模型,在剩下的5个模型中,RF模型在AUC、精准率、F1、Kappa和MCC上均取得了最佳值,即RF模型为其次最优基模型。除了ET模型和RF模型,在剩下的4个模型中,LGB模型在准确率、Kappa和MCC上取得了最佳值,而EGB模型在AUC、召回率和F1上取得了最佳值,但LGB的精准率高于EGB模型,因此,LGB模型为第三个最优基模型。本实施例选择LGB、ET和RF模型作为基模型。
G、融合模型的构建:
本实施例确定可选择元模型为LR模型、DT模型、RF模型、SVM模型和XGB模型,并将上述元模型分别与以上筛选出的3个基模型进行模型融合,进而筛选出最佳的元模型和最佳融合模型。如下表3所示的融合模型的性能结果,Stacking1至Stacking5分别表示LR模型、DT模型、RF模型、SVM模型和XGB模型与三个基模型进行融合后得到的模型的性能结果。其中,
表3:融合模型的性能结果
通过表3可知:较其他四个模型,Stacking4模型在AUC、Acc、Recall、F1、Kappa和Mcc上均取得了最佳值,Stacking4模型的精准率仅低于Stacking2模型的精准率。因此,Stacking4模型为最佳的融合模型,即选择Stacking4模型作为最终的腮腺肿物分类模型。
H、多特征和多模型融合方法(Ensemble Methods)的验证:
第一部分:本申请构建15个基础机器学习模型(Single Models),在预设的软件环境和硬件环境下,通过腮腺肿物特征数据集分别对这十五个机器学习模型进行训练和验证。如下表4所示的机器学习模型的分类性能表。同时,于同一软件环境和同一硬件环境下,本申请构建融合模型(Ensemble Methods),即腮腺肿物分类模型,并对其进行验证。验证得到的分类结果如上表3所示。通过比较表3中Stacking4模型即本申请提出的腮腺肿物分类模型的性能数据以及表4中15个机器学习模型的分类性能数据可知:本申请提出的腮腺肿物分类模型在各性能评估指标方面均优于基础机器学习模型。
表4:机器学习模型的分类性能表
因此,本申请提出的方法优于现有技术,能够显著地提高腮腺肿物分类的精确率,且提高模型的泛化能力。
第二部分:本申请构建2个特殊模型,分别为第一融合模型和第二融合模型。第一融合模型通过基于临床数据集构建的机器学习基模型与元模型进行融合而得到,第二融合模型通过基于影像组学数据集构建的机器学习基模型与元模型进行融合而得到,其中,临床数据集包括超声数据集。特殊模型所使用的元模型与本申请所使用的元模型一致,且软件环境和硬件环境相同。将2个特殊模型与本申请提出的腮腺肿物分类模型进行性能比较,如下表5所示,表5所示为本申请的腮腺肿物分类模型和2个特殊模型的分类性能。
表5:本申请的融合模型和比较的特殊模型的分类性能表
通过表5可知:本申请提出的融合模型在准确性、Kappa值方面的数值较其他两种特殊模型更高,由此可见,本申请提出的方法可以显著地提高腮腺肿物分类的精确率。
通过以上两个部分可以证明本申请提出的方法具有优越性、先进性和有效性。
第三部分:将本申请提出的方法应用于实际腮腺肿物分类场景下。在某知名医院影像科的GE Logiq9、Philips iU22彩色多普勒超声仪,以及线阵变频探头ML6-15(6.0~15.0MHz)、L12-5(5.0~12.0MHz)对患者进行超声检查,具体地,患者取仰卧位,充分暴露颈面部,以不同切面进行二维及彩色多普勒全面扫查,记录待测超声图像。将待测超声图像输入至上述构建好的腮腺肿物分类模型中进行腮腺肿物的分类,输出腮腺肿物疑似Warthin瘤或疑似多形性腺瘤的结果。
验证例1:参照图7所示。患者为女性患者,35岁,因发现左侧面部无痛性肿物4年入院。既往无吸烟史。查体:皮肤表面颜色正常,无红肿热痛等,触诊活动度良好,无压痛,质地较韧。图7中的A部分:二维超声:左侧面部腮腺区可见一肿物,单发,肿物最大直径约20mm,边界清,形态呈大分叶状,内部回声欠均匀,以低回声为主,肿物内部未见钙化样强回声,该肿物A线距离(DSSAM,从皮肤表面到肿物表面的距离)为2.2mm,B线距离(DSDAM,从皮肤表面到肿物深部的距离)为17.7mm。图7中的B部分:彩色多普勒显示肿物内部未见血流信号。PIRADS评分为3分。超声医师的医生依据经验诊断为多形性腺瘤。图7中的C部分:机器学习模型预测该患者为Warthin瘤的可能性f(x)为99.2%。图7中的图D:该患者采用局部切除病灶手术,术后病理结果为腮腺Warthin瘤。
验证例2:参照图8所示。患者为男性患者,58岁,因发现右侧肿物一个月入院,该患者既往有吸烟史,查体:面神经功能正常,表面皮温、皮色正常,无压痛,可触及肿物,触诊活动度良好,质地较韧。图8中的A部分:超声所见:右侧腮腺区肿物,肿物最大径约32mm,边界清,形态规则,内部回声不均匀,可见液性无回声。图8中的B部分:彩色多普勒显示其内可见丰富血流信号,血流信号分级为3级。该患者被超声医师依据经验诊断为多形性腺瘤。图8中的C部分:采用机器学习模型诊断为Warthin瘤的可能性f(x)为0.015%,即采用机器学习模型诊断为多形性腺瘤的可能性为99.85%。最后,患者选择术式为切除肿物及周边大部分腮腺组织,图8中的D部分:术后病理为多形性腺瘤。
并且,采用DeLong检验进行机器学习模型与医师依据经验诊断对腮腺多形性腺瘤和Warthin瘤分类的区分度比较,差异具有统计学意义。如下表6所示为机器学习模型与超声医师经验诊断的性能评估。其中,Spe表示特异性,Sen表示敏感性,Ppv表示阳性预测值,Npv表示阴性预测值。
表6:机器学习模型与超声医师经验诊断的性能评估
通过表6可知:与超声医师依据经验诊断相比,本申请提出的腮腺肿物分类模型的AUC值、特异性、敏感性、阴性预测值和阳性预测值均更高。参照图9,图9为医师经验诊断和机器学习模型的ROC曲线图。其中,纵坐标Sensitivity为敏感性,横坐标100-Specificity为特异性,P小于0.05表示差异具有统计学意义。通过图9可知:本申请提出的腮腺肿物分类模型对腮腺多形性腺瘤和Warthin瘤的分类效能比依据经验诊断性能更好。
因此,当本申请应用于腮腺肿物分类应用场景上时,非腮腺专科的医生可以以本申请输出的分类结果作为诊断参考以对患者进行腮腺区域的肿物诊断,在一定程度上可以降低非腮腺专科的医生的误诊率。由此可见,本申请在腮腺肿物分类应用场景上具有高可用性。
另外,本申请还提供了一种电子设备,其中存储有处理器可执行的指令,处理器可执行的指令在由处理器执行时用于执行如所述的腮腺肿物分类方法。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或装置不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或装置固有的其他步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机、服务器或者网络装置等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
对于上述方法实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
Claims (10)
1.多特征融合的腮腺肿物分类方法,其特征在于,包括如下步骤:
获取多个腮腺肿物患者的超声样本图像和临床样本特征,所述超声样本图像包含至少一个腮腺肿物区域,并对所述超声样本图像进行图像预处理,得到影像组学样本特征和超声样本特征;
对所述影像组学样本特征、所述超声样本特征和所述临床样本特征进行数据预处理,生成腮腺肿物特征数据集;
根据所述腮腺肿物特征数据集,采用机器学习的方法和模型融合方法构建腮腺肿物分类模型;
采集腮腺肿物患者的待测超声图像和待测临床特征,所述待测超声图像至少包括一个腮腺肿物区域,根据所述待测超声图像和所述待测临床特征通过所述腮腺肿物分类模型进行腮腺肿物的分类。
2.根据权利要求1所述的多特征融合的腮腺肿物分类方法,其特征在于,所述对所述超声样本图像进行图像预处理,得到影像组学样本特征和超声样本特征,包括:
利用图像识别算法识别出所述超声样本图像中的腮腺肿物大致区域,并利用图像分割算法沿着所述腮腺肿物大致区域的轮廓进行逐层分割,进而得到腮腺肿物区域;
根据所述腮腺肿物区域,确定所述超声样本特征;
对所述腮腺肿物区域进行图像滤波处理,所述图像滤波处理包括对数、平方、梯度、指数、平方根和小波中的至少一种,从滤波处理后的所述腮腺肿物区域中提取影像组学样本特征。
3.根据权利要求1所述的多特征融合的腮腺肿物分类方法,其特征在于,所述对所述影像组学样本特征、所述超声样本特征和所述临床样本特征进行数据预处理,生成腮腺肿物特征数据集,包括:
对所述影像组学样本特征、所述超声样本特征和所述临床样本特征进行腮腺肿物区域的类别标注处理,得到与所述腮腺肿物区域对应的类别标记,生成数据集组;其中,所述类别标记包括第一类别标记和第二类别标记;
对标注处理后的所述数据集组进行数据清洗,并通过SMOTETomek算法均衡化所述数据集组;
确定均衡化后的所述数据集组中的计量特征和分类型特征,归一化处理所述计量特征,并利用独热编码处理所述分类型特征;
筛除所述数据集组中共线性强的特征,并对所述数据集组进行数据增强;
计算所述数据集组中的特征与所述腮腺肿物区域的种类的皮尔森相关系数,保留所述数据集组中所述相关系数大于相关阈值的特征,并对保留后的所述数据集组中的特征进行多因素筛选,生成影像组学数据集、超声数据集和临床数据集;
将所述影像组学数据集、所述超声数据集和所述临床数据集中属于同一腮腺肿物患者的特征融合为一条特征,得到若干融合特征,生成腮腺肿物特征数据集。
4.根据权利要求3所述的多特征融合的腮腺肿物分类方法,其特征在于,所述对保留后的所述数据集组中的特征进行多因素筛选,生成影像组学数据集、超声数据集和临床数据集,包括:
通过嵌入法和支持向量机对所述保留后的所述数据集组进行多因素筛选,得到保留后的所述数据集组中每个特征对模型预测的贡献度;
筛选出保留后的所述数据集组中贡献度大于贡献度阈值的特征,并根据筛选出的特征生成影像组学数据集、超声数据集和临床数据集。
5.根据权利要求1所述的多特征融合的腮腺肿物分类方法,其特征在于,所述根据所述腮腺肿物特征数据集,采用机器学习的方法和模型融合方法构建腮腺肿物分类模型,包括:
根据所述腮腺肿物特征数据集,采用机器学习的方法生成三个腮腺肿物分类最优基模型;
选择元模型的结构,通过元模型与三个所述最优基模型进行模型融合,生成腮腺肿物分类模型。
6.根据权利要求5所述的多特征融合的腮腺肿物分类方法,其特征在于,所述根据所述腮腺肿物特征数据集,采用机器学习的方法生成三个腮腺肿物分类最优基模型,包括:
从所述腮腺肿物特征数据集中循环抽取多个特征作为测试集,将所述腮腺肿物特征数据集中的其他特征作为训练集和验证集;
根据所述训练集,通过十折交叉验证法和机器学习的方法进行模型训练,得到多个基础机器学习模型,并通过验证集对所有基础机器学习模型进行测试,根据测试结果筛选出多个机器学习模型;
根据网格搜索法对每个所述机器学习模型的超参数进行调优处理,将所述训练集分别输入至每个调参后的机器学习模型中并进行模型训练,生成每个腮腺肿物分类基模型;
通过所述测试集对每个所述腮腺肿物分类基模型进行性能评估,得到每个腮腺肿物分类基模型的性能结果;
根据所述性能结果,以预设排列顺序对所有所述腮腺肿物分类基模型进行排序,选择排序前三的腮腺肿物分类基模型作为三个腮腺肿物分类最优基模型;
其中,所述排列顺序为性能好的腮腺肿物分类基模型的排序优于性能差的腮腺肿物分类基模型的排序。
7.根据权利要求6所述的多特征融合的腮腺肿物分类方法,其特征在于,所述选择元模型的结构,通过元模型与三个腮腺肿物分类最优基模型进行模型融合,生成腮腺肿物分类模型,包括:
根据所述腮腺肿物特征数据集,通过十折交叉验证法重新构建新测试集和新训练集;
根据所述新训练集和所述新测试集,通过Stacking集成学习算法将三个腮腺肿物分类最优基模型与元模型进行模型融合和训练,生成腮腺肿物分类模型。
8.根据权利要求1所述的多特征融合的腮腺肿物分类方法,其特征在于,所述机器学习的方法包括:逻辑回归算法、决策树算法、随机森林算法、极度随机树算法、朴素贝叶斯算法、XGBoost算法、LightGBM算法、AdaBoost算法、K-近邻算法、岭回归分类器、支持向量机算法、线性判别分析算法、Duumy分类器算法、二次判别分析算法和梯度提升分类器算法。
9.多特征融合的腮腺肿物分类系统,其特征在于,包括:
数据获取模块,用于获取多个腮腺肿物患者的超声样本图像和临床样本特征,所述超声样本图像包含至少一个腮腺肿物区域;
图像处理模块,用于对所述超声样本图像进行图像预处理,得到影像组学样本特征和超声样本特征;
数据处理模块,用于对所述影像组学样本特征、所述超声样本特征和所述临床样本特征进行数据预处理,生成腮腺肿物特征数据集;
模型构建模块,用于根据所述腮腺肿物特征数据集,采用机器学习的方法和模型融合方法构建腮腺肿物分类模型;
识别模块,用于采集腮腺肿物患者的待测超声图像和待测临床特征,所述待测超声图像至少包括一个腮腺肿物区域,根据所述待测超声图像和所述待测临床特征通过所述腮腺肿物分类模型进行腮腺肿物的分类。
10.电子设备,其中存储有处理器可执行的指令,其特征在于,所述处理器可执行的指令在由处理器执行时用于执行如权利要求1-8任一项所述的多特征融合的腮腺肿物分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310467902.5A CN117911313A (zh) | 2023-04-26 | 2023-04-26 | 多特征融合的腮腺肿物分类方法、系统及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310467902.5A CN117911313A (zh) | 2023-04-26 | 2023-04-26 | 多特征融合的腮腺肿物分类方法、系统及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117911313A true CN117911313A (zh) | 2024-04-19 |
Family
ID=90691106
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310467902.5A Pending CN117911313A (zh) | 2023-04-26 | 2023-04-26 | 多特征融合的腮腺肿物分类方法、系统及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117911313A (zh) |
-
2023
- 2023-04-26 CN CN202310467902.5A patent/CN117911313A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Breast cancer detection using extreme learning machine based on feature fusion with CNN deep features | |
Murtaza et al. | Deep learning-based breast cancer classification through medical imaging modalities: state of the art and research challenges | |
Shakeel et al. | Neural network based brain tumor detection using wireless infrared imaging sensor | |
Miranda et al. | A survey of medical image classification techniques | |
Reis et al. | Automated classification of breast cancer stroma maturity from histological images | |
JP3947109B2 (ja) | コンピュータ利用画像分析 | |
CN111243042A (zh) | 基于深度学习的超声甲状腺结节良恶性特征可视化的方法 | |
Xu et al. | Brain imaging-based machine learning in autism spectrum disorder: methods and applications | |
Mehmood et al. | An efficient computerized decision support system for the analysis and 3D visualization of brain tumor | |
Rahman et al. | Developing a retrieval based diagnostic aid for automated melanoma recognition of dermoscopic images | |
Isfahani et al. | Presentation of novel hybrid algorithm for detection and classification of breast cancer using growth region method and probabilistic neural network | |
Iqbal et al. | AMIAC: adaptive medical image analyzes and classification, a robust self-learning framework | |
Al-Tam et al. | Breast cancer detection and diagnosis using machine learning: a survey | |
CN113408603B (zh) | 一种基于多分类器融合的冠状动脉狭窄病变程度识别方法 | |
Tiwari et al. | Optimized Ensemble of Hybrid RNN-GAN Models for Accurate and Automated Lung Tumour Detection from CT Images | |
Ravala et al. | Automatic diagnosis of diabetic retinopathy from retinal abnormalities: improved Jaya-based feature selection and recurrent neural network | |
Abid et al. | Detection of lungs cancer through computed tomographic images using deep learning | |
CN117911313A (zh) | 多特征融合的腮腺肿物分类方法、系统及电子设备 | |
Ramkumar | Identification and Classification of Breast Cancer using Multilayer Perceptron Techniques for Histopathological Image | |
Begum et al. | Deep Convolutional Neural Networks for Diagnosis of Parkinson's Disease Using MRI Data. | |
Kumari et al. | Role of Computed Tomography Imaging for the Diagnosis and Classification of Lung Cancer using Machine Learning | |
CN118229684B (zh) | 一种鉴别肾上腺嗜铬细胞瘤的方法及鉴别系统 | |
Latha et al. | Analysis of Deep Learning and Machine Learning Methods for Breast Cancer Detection | |
CN117789987B (zh) | 一种内分泌科康复评估模型的构建方法及系统 | |
Isfahani et al. | Research Article Presentation of Novel Hybrid Algorithm for Detection and Classification of Breast Cancer Using Growth Region Method and Probabilistic Neural Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |