CN113017674B - 基于胸部ct图像的egfr基因突变检测方法和系统 - Google Patents
基于胸部ct图像的egfr基因突变检测方法和系统 Download PDFInfo
- Publication number
- CN113017674B CN113017674B CN202110268251.8A CN202110268251A CN113017674B CN 113017674 B CN113017674 B CN 113017674B CN 202110268251 A CN202110268251 A CN 202110268251A CN 113017674 B CN113017674 B CN 113017674B
- Authority
- CN
- China
- Prior art keywords
- image
- chest
- gene mutation
- egfr gene
- breast
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 206010071975 EGFR gene mutation Diseases 0.000 title claims abstract description 126
- 238000001514 detection method Methods 0.000 title claims abstract description 58
- 210000000038 chest Anatomy 0.000 claims abstract description 142
- 210000000481 breast Anatomy 0.000 claims abstract description 87
- 238000000034 method Methods 0.000 claims abstract description 55
- 206010058467 Lung neoplasm malignant Diseases 0.000 claims abstract description 42
- 201000005202 lung cancer Diseases 0.000 claims abstract description 42
- 208000020816 lung neoplasm Diseases 0.000 claims abstract description 42
- 230000035772 mutation Effects 0.000 claims abstract description 42
- 102000052116 epidermal growth factor receptor activity proteins Human genes 0.000 claims abstract 10
- 108700015053 epidermal growth factor receptor activity proteins Proteins 0.000 claims abstract 10
- YOHYSYJDKVYCJI-UHFFFAOYSA-N n-[3-[[6-[3-(trifluoromethyl)anilino]pyrimidin-4-yl]amino]phenyl]cyclopropanecarboxamide Chemical compound FC(F)(F)C1=CC=CC(NC=2N=CN=C(NC=3C=C(NC(=O)C4CC4)C=CC=3)C=2)=C1 YOHYSYJDKVYCJI-UHFFFAOYSA-N 0.000 claims abstract 10
- 206010028980 Neoplasm Diseases 0.000 claims description 33
- 238000003384 imaging method Methods 0.000 claims description 25
- 238000012216 screening Methods 0.000 claims description 25
- 230000011218 segmentation Effects 0.000 claims description 14
- 238000012360 testing method Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 8
- 238000002591 computed tomography Methods 0.000 description 219
- 102000001301 EGF receptor Human genes 0.000 description 32
- 108060006698 EGF receptor Proteins 0.000 description 32
- 238000012549 training Methods 0.000 description 26
- 238000004891 communication Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000010200 validation analysis Methods 0.000 description 9
- 238000007477 logistic regression Methods 0.000 description 8
- 238000000585 Mann–Whitney U test Methods 0.000 description 6
- 208000029523 Interstitial Lung disease Diseases 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000000556 factor analysis Methods 0.000 description 5
- 239000000243 solution Substances 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 101150039808 Egfr gene Proteins 0.000 description 4
- 206010014561 Emphysema Diseases 0.000 description 4
- 108700021358 erbB-1 Genes Proteins 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 210000004072 lung Anatomy 0.000 description 4
- 208000002154 non-small cell lung carcinoma Diseases 0.000 description 4
- 230000000391 smoking effect Effects 0.000 description 4
- 208000029729 tumor suppressor gene on chromosome 11 Diseases 0.000 description 4
- 239000002872 contrast media Substances 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 229940121358 tyrosine kinase inhibitor Drugs 0.000 description 3
- 239000005483 tyrosine kinase inhibitor Substances 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 208000006545 Chronic Obstructive Pulmonary Disease Diseases 0.000 description 2
- 208000008771 Lymphadenopathy Diseases 0.000 description 2
- 206010035600 Pleural fibrosis Diseases 0.000 description 2
- 201000009267 bronchiectasis Diseases 0.000 description 2
- 206010006451 bronchitis Diseases 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 208000018555 lymphatic system disease Diseases 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001575 pathological effect Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- ZCYVEMRRCGMTRW-UHFFFAOYSA-N 7553-56-2 Chemical compound [I] ZCYVEMRRCGMTRW-UHFFFAOYSA-N 0.000 description 1
- 208000002151 Pleural effusion Diseases 0.000 description 1
- 206010041067 Small cell lung cancer Diseases 0.000 description 1
- 208000009956 adenocarcinoma Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 229940090047 auto-injector Drugs 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000002651 drug therapy Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 201000000260 interstitial emphysema Diseases 0.000 description 1
- 229910052740 iodine Inorganic materials 0.000 description 1
- 239000011630 iodine Substances 0.000 description 1
- NTHXOOBQLCIOLC-UHFFFAOYSA-N iohexol Chemical compound OCC(O)CN(C(=O)C)C1=C(I)C(C(=O)NCC(O)CO)=C(I)C(C(=O)NCC(O)CO)=C1I NTHXOOBQLCIOLC-UHFFFAOYSA-N 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000011551 log transformation method Methods 0.000 description 1
- 230000004199 lung function Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000000771 oncological effect Effects 0.000 description 1
- 238000012913 prioritisation Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 208000000587 small cell lung carcinoma Diseases 0.000 description 1
- 206010041823 squamous cell carcinoma Diseases 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
- 210000000115 thoracic cavity Anatomy 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 210000003462 vein Anatomy 0.000 description 1
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B6/00—Apparatus or devices for radiation diagnosis; Apparatus or devices for radiation diagnosis combined with radiation therapy equipment
- A61B6/02—Arrangements for diagnosis sequentially in different planes; Stereoscopic radiation diagnosis
- A61B6/03—Computed tomography [CT]
- A61B6/032—Transmission computed tomography [CT]
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B6/00—Apparatus or devices for radiation diagnosis; Apparatus or devices for radiation diagnosis combined with radiation therapy equipment
- A61B6/52—Devices using data or image processing specially adapted for radiation diagnosis
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B6/00—Apparatus or devices for radiation diagnosis; Apparatus or devices for radiation diagnosis combined with radiation therapy equipment
- A61B6/52—Devices using data or image processing specially adapted for radiation diagnosis
- A61B6/5211—Devices using data or image processing specially adapted for radiation diagnosis involving processing of medical diagnostic data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10072—Tomographic images
- G06T2207/10081—Computed x-ray tomography [CT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30061—Lung
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- Radiology & Medical Imaging (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Theoretical Computer Science (AREA)
- Veterinary Medicine (AREA)
- High Energy & Nuclear Physics (AREA)
- Optics & Photonics (AREA)
- Pathology (AREA)
- Public Health (AREA)
- Heart & Thoracic Surgery (AREA)
- Molecular Biology (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Pulmonology (AREA)
- Apparatus For Radiation Diagnosis (AREA)
Abstract
本发明公开了一种基于胸部CT图像的EGFR基因突变检测方法、系统和计算机可读存储介质,所述方法包括:接收待处理的胸部CT图像;从所述胸部CT图像上提取多个目标影像组学特征的特征变量,其中,每个所述目标影像组学特征,在第一显著性水平上不具有胸部平扫CT和胸部增强CT的显著性差异,在第二显著性水平上具有EGFR突变阳性和EGFR突变阴性的显著性差异;根据回归模型和所述特征变量,得到与所述待处理的胸部CT图像对应的评分值;根据所述评分值,确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变检测结果,所述检测结果反映了所述EGFR基因突变的概率。本发明中的方法可以基于胸部平扫CT图像或增强CT图像检测EGFR基因突变,临床应用范围广。
Description
技术领域
本发明涉及人工智能和医学影像分析技术领域,更具体地,涉及基于胸部CT图像的EGFR基因突变检测方法、系统和计算机可读存储介质。
背景技术
肺癌(Lung cancer,LC)为肺部最多见的恶性肿瘤,全球每年约有180万人患病。近50年来发病率明显增高。肺癌在临床上分为小细胞肺癌和非小细胞肺癌(non-small celllung cancer,NSCLC)两类,其中NSCLC约占80%,最多见的NSCLC组织学亚型为腺癌和鳞状细胞癌(squamous cell carcinoma,SQCC)。表皮生长因子受体(epidermal growth factorreceptor,EGFR)酪氨酸激酶抑制剂(tyrosine kinase inhibitors,TKIs)可提高EGFR基因敏感突变肺癌患者中位生存期,并改善其生存质量,而EGFR基因突变阴性或非敏感突变患者并不能从中获益,因此,在给予肺癌患者靶向药物治疗前,检测其EGFR基因状态极其重要。
在胸部疾病的诊治中,胸部CT(computerized tomographic scanning,电子计算机断层扫描)是使用最广泛的影像学检查。常见的胸部CT包括胸部平扫CT和胸部增强CT。目前有一些基于胸部CT图像上的影像组学特征对肺癌患者的EGFR基因突变状态进行预测的方法,但是现有的方法都是仅仅适用于一种类型CT图像,因此应用范围较小,限制了临床上的应用。
发明内容
鉴于上述问题,本发明提出了一种基于胸部CT图像的EGFR基因突变检测方法、系统和计算机可读存储介质。
一种基于胸部CT图像的EGFR基因突变检测方法,包括:
接收待处理的胸部CT图像;
从所述胸部CT图像上提取多个目标影像组学特征的特征变量,其中,每个所述目标影像组学特征,在第一显著性水平上不具有胸部平扫CT和胸部增强CT的显著性差异,在第二显著性水平上具有EGFR突变阳性和EGFR突变阴性的显著性差异;
根据回归模型和所述特征变量,得到与所述待处理的胸部CT图像对应的评分值;和
根据所述评分值,确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变检测结果,所述检测结果反映了所述EGFR基因突变的概率。
在其中一个实施例中,所述从所述胸部CT图像上提取多个目标影像组学特征的特征变量,包括:
对所述待处理的胸部CT图像进行肿瘤区域分割,得到待处理的胸部CT图像的肿瘤区域;和
从待处理的胸部CT图像的肿瘤区域内提取多个目标影像组学特征的特征变量。
在其中一个实施例中,所述目标影像组学特征通过以下方法获得:
从目标样本胸部CT图像集合中的每个样本胸部CT图像上分别提取多个影像组学特征的特征变量,所述目标样本胸部CT图像集合中的部分样本胸部CT图像对应EGFR基因突变阳性,部分样本胸部CT图像对应EGFR基因突变阴性,所述目标样本胸部CT图像集合中的部分样本胸部CT图像为平扫CT图像,部分样本胸部CT图像为增强CT图像;
对所有影像组学特征,通过进行两次曼-惠特尼U检验,筛选出候选影像组学特征,所述候选影像组学特征在第一显著性水平上不具有胸部平扫CT和胸部增强CT的显著性差异,在第二显著性水平上具有EGFR突变阳性和EGFR突变阴性的显著性差异;和
对所有候选影像组学特征,进行特征降维,得到多个目标影像组学特征。
在其中一个实施例中,所述从目标样本胸部CT图像集合中的每个样本胸部CT图像上分别提取多个影像组学特征的特征变量;包括:
对目标样本胸部CT图像集合中的每个样本胸部CT图像进行肿瘤分割,得到每个样本胸部CT图像的肿瘤区域;和
从每个样本胸部CT图像的肿瘤区域内分别提取多个影像组学特征的特征变量。
在其中一个实施例中,所述对所有候选影像组学特征进行特征降维,得到多个目标影像组学特征,包括:
针对所有候选影像组学特征,计算其中的每一对影像组学特征的皮尔森相关系数r;
对于|r|大于预设值的每一对影像组学特征,保留其中EGFR突变阳性和EGFR突变阴性上差异显著性较大的影像组学特征,保留的影像组学特征和|r|小于等于预设值的每一对影像组学特征组成低相关性影像组学特征集合;和
在所述低相关性影像组学特征集合中,采用Boruta算法进行筛选,得到多个目标影像组学特征。
在其中一个实施例中,所述根据所述评分值,确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变检测结果,所述检测结果反映了EGFR基因突变的概率,包括:
将所述评分值与预设的评分截断值进行比较,根据比较结果确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变概率高或EGFR基因突变概率低。
在其中一个实施例中,所述根据所述评分值,确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变检测结果,包括:
接收待处理的胸部CT图像所属患者的目标临床特征的特征值和目标放射学特征的特征值;
分别获取所述目标临床特征的特征值、目标放射学特征的特征值和所述评分值在诺模图上对应的得分,并将所有得分进行加和计算得到待处理的胸部CT图像对应的总得分;和
根据所述总得分,确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变检测结果。
本发明另一方面,还提供一种基于胸部CT图像的EGFR基因突变检测系统,包括:
数据接收模块,用于接收待处理的胸部CT图像;
特征变量提取模块,用于从所述胸部CT图像上提取多个目标影像组学特征的特征变量,其中,每个所述目标影像组学特征,在第一显著性水平上不具有胸部平扫CT和胸部增强CT的显著性差异,在第二显著性水平上具有EGFR突变阳性和EGFR突变阴性的显著性差异;
评分获取算模块,用于根据回归模型和所述特征变量,得到与所述待处理的胸部CT图像对应的评分值;和
确定模块,用于确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变检测结果,所述检测结果反映了所述EGFR基因突变的概率。
在其中一个实施例中,一种基于胸部CT图像的EGFR基因突变检测系统,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序被配置为执行以上所述的基于胸部CT图像的EGFR基因突变检测方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以上所述的基于胸部CT图像的EGFR基因突变检测方法。
上述一种基于胸部CT图像的EGFR基因突变检测方法、系统和计算机可读存储介质,其中的目标影像组学特征在第一显著性水平上不具有胸部平扫CT和胸部增强CT的显著性差异,在第二显著性水平上具有EGFR突变阳性和EGFR突变阴性的显著性差异,从而使得该方法可以对胸部平扫CT图像进行评估也可以基于胸部增强CT图像进行评估,因此该方法应用范围更广。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他的附图。
图1示出了根据本发明一个实施例的基于胸部CT图像的EGFR基因突变检测方法的流程图。
图2示出了根据本发明一个实施例的从所述胸部CT图像上提取多个目标影像组学特征的特征变量的流程图。
图3示出了根据本发明一个实施例的目标影像组学特征筛选方法的流程图。
图4示出了根据本发明一个实施例的从目标样本胸部CT图像集合中的每个样本胸部CT图像上分别提取多个影像组学特征的特征变量的流程图。
图5示出了根据本发明一个实施例的对所有候选影像组学特征进行特征降维的流程图。
图6示出了根据本发明一个实施例中的一种基于胸部CT图像的EGFR基因突变检测系统的结构框图。
图7示出了根据本发明另一个实施例中的一种计算机设备的内部结构图。
图8示出了根据本发明中的实验例2中的诺模图。
图9示出了根据本发明中的实验例1中的NECT-模型和实验例2中的诺模图的ROC曲线图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
本发明中所有的统计分析均使用R软件(版本3.5.0)和SPSS 22.0(IBM,Armonk,NY,美国)进行。
在一个实施例中,如图1所示,提供一种基于胸部CT图像的EGFR基因突变检测方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。在本实施例中该方法包括以下步骤:
步骤100,接收待处理的胸部CT图像。
其中,步骤100所接收的待处理的胸部CT图像,可以为胸部增强CT图像也可以为胸部平扫CT图像;为了使得数据处理过程更加规范化,具体来说图像为DICOM(DigitalImaging and Communications in Medicine,医学数字成像和通信)格式。从临床应用上来说,本方法对肺癌患者的EGFR基因突变状态进行判断,因此接收的是肺癌患者的胸部CT图像。在具体临床上,肺癌患者可能只做了胸部平扫CT或者只做了胸部增强CT,因此该步骤中接收的胸部CT图像的类型以患者能够提供的为准。
步骤200,从所述胸部CT图像上提取多个目标影像组学特征的特征变量,其中,每个所述目标影像组学特征,在第一显著性水平上不具有胸部平扫CT和胸部增强CT的显著性差异,在第二显著性水平上具有EGFR突变阳性和EGFR突变阴性的显著性差异。
在步骤200中,从所述胸部CT图像上提取多个目标影像组学特征的特征变量,具体来说可以是直接从胸部CT图像上提取多个目标影像组学特征的特征变量,也可以是从滤波变换后的胸部CT图像上提取多个目标影像组学特征的特征变量。更为优选的,是直接从胸部CT图像提取部分影像组学特征,从滤波变换后的胸部CT图像上提取部分影像组学特征。上述滤波变换是指采用滤波器(如小波滤波器和LoG(Laplacian of Gaussian)滤波器)对胸部CT图像进行变换。优选的,本发明中对胸部CT图像进行的滤波变换,以及目标影像组学特征的特征变量的提取都是在开源Python工具包PyRadiomics上进行。
其中的目标影像组学特征是从大量的影像组学特征中筛选得到的,特征变量是对应的目标影像组学特征在胸部CT图像上体现出的具体的特征值。目标影像组学特征至少满足如下条件:在第一显著性水平上不具有胸部平扫CT和胸部增强CT的显著性差异,在第二显著性水平上具有EGFR突变阳性和EGFR突变阴性的显著性差异。这样的条件设置是为了保证本方法可以适用于不同的CT图像类型,从而增强临床实用性和方便性,使得无论患者所做的无论是平扫CT还是增强CT都可以采用本发明中的方法进行EGFR基因突变状态的评估,从而避免因为需要特定图像类型而增大患者的经济负担。
其中显著性差异是统计学上的专有名词,它是从统计学的角度对数据差异性的评价。其中的第一显著性水平和第二显著性水平可以相同也可以不同。通常情况下,显著性水平为0.05水平或0.01水平。
步骤300,根据回归模型和所述特征变量,得到与所述待处理的胸部CT图像对应的评分值。
步骤400,根据所述评分值,确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变检测结果,所述检测结构反映了EGFR基因突变的概率。
在步骤300中,其中的回归模型是利用训练样本对目标影像组学特征的特征变量进行回归建模得到的,将步骤200中提取得到的特征变量输入到回归模型中,就会得到一个评分值。具体来说,回归模型中的回归系数与特征变量是一一对应的,其中的评分值是将特征变量与对应的回归系数的乘积进行求和得到的。在步骤400中,具体来说,其中的检测结过可以是EGFR基因突变的概率,或者检测结果也可以是EGFR基因突变概率高或EGFR基因突变概率低。如果检测结果是EGFR基因突变概率高或EGFR基因突变概率低,那么步骤400包括:将所述评分值与预设的评分截断值进行比较,根据比较结果确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变概率高或EGFR基因突变概率低。更为具体来说,当评分值大于等于评分截断值时,则判断所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变概率高;当评分值小于评分截断值时,判断所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变概率低。
上述基于胸部CT图像的EGFR基因突变检测方法,可以基于平扫CT图像进行EGFR基因突变检测,也可以基于增强CT图像进行EGFR基因突变检测,因此应用范围更广。
在一个实施例中,如图2所示,步骤200,从所述胸部CT图像上提取多个目标影像组学特征的特征变量,包括:
步骤210,对所述待处理的胸部CT图像进行肿瘤区域分割,得到待处理的胸部CT图像的肿瘤区域。
步骤220,从待处理的胸部CT图像的肿瘤区域内提取多个目标影像组学特征的特征变量。
在步骤210中,对所述待处理的胸部CT图像进行肿瘤区域分割,得到待处理的胸部CT图像的肿瘤区域的过程可以是手动分割、半自动分割或者自动分割。由于该方法是针对基于肺癌患者的胸部CT图像进行评估,因此胸部CT图像上的肿瘤区域是我们的感兴趣区域(region of interest,ROI)。肿瘤区域的分割,可以是由有丰富的影像科经验的医生在一些医学软件或者医学图像处理平台(如InferScholar)上手动勾画。当然,根据实际情况和需要,本领域技术人员也可以采用半自动或者全自动的分割的方法进行感兴趣区域的分割,在此不做赘述。
在本实施例中,通过肿瘤区域的分割,可以减少图像处理时间,提高图像处理精度。
在以上实施例中,其中的目标影像组学特征是预先筛选出来的,具体来说通过图3所示的方法筛选得到的。影像组学是将影像以高通量方式转换为可挖掘的数据。
在一个实施例中,如图3所示,目标影像组学特征通过以下步骤获得:
步骤310,从目标样本胸部CT图像集合中的每个样本胸部CT图像上分别提取多个影像组学特征的特征变量,所述目标样本胸部CT图像集合中的部分样本胸部CT图像对应EGFR基因突变阳性,部分样本胸部CT图像对应EGFR基因突变阴性;所述目标样本胸部CT图像集合中的部分样本胸部CT图像为平扫CT图像,部分样本胸部CT图像为增强CT图像。
假设在步骤310中需要提取10个特定的影像组学特征的特征变量,目标样本胸部CT图像集合中有10个胸部CT图像。具体的来说步骤310是在每个胸部CT图像上分别提取10个特定的影像组学特征的特征变量,因此每个影像组学特征对应于10个不同的特征变量。
在步骤310中,所提取的影像组学特征可以分为三个组,第一组包括若干个形态特征,第二组包括若干强度特征,第三组包括若干灰度纹理特征;其中形态特征用于反映肺癌肿瘤病灶的形态学信息,强度特征用于反映肺癌肿瘤病灶在CT图像上的图像强度信息,灰度纹理特征用于反映肺癌病灶在胸部CT图像上的体素空间分布强度等级信息以及呈现肺癌病灶对应组织表面和内部的特征信息。
进一步的,多个影像组学特征的特征变量的提取是在原始的胸部CT图像和滤波变换后的胸部CT图像中进行。通过从原始的胸部CT图像和滤波变换后的胸部CT图像上分别提取影像组学特征的特征变量,可以拓宽影像组学特征的范围,从而保证目标影像组学特征的筛选基础。
步骤320,对所有影像组学特征,通过进行两次曼-惠特尼U检验,筛选出候选影像组学特征,所述候选影像组学特征在第一显著性水平上不具有胸部平扫CT和胸部增强CT的显著性差异,在第二显著性水平上具有EGFR突变阳性和EGFR突变阴性的显著性差异。
在步骤320中,对影像组学特征的特征变量在胸部CT类型和EGFR基因突变状态上进行差异性的分析,应用了两次曼-惠特尼U检验。
下面对通过曼-惠特尼U检验,筛选在第一显著性水平上不具有胸部平扫CT和胸部增强CT的显著性差异的影像组学特征的过程进行具体说明:
对于某个影像组学特征X,假设总共有m个样本,采用曼-惠特尼U检验来检验影像组学特征X在胸部CT类型上是否有显著差异,将m个样本按照CT类型分为两组,假设其中平扫CT组有m1个样本,增强CT组有m2个样本,其中m=m1+m2;m个样本中与影像组学特征X对应的特征变量有m个。
假设影像组学特征X在胸部CT类型上没有显著差异,检验具体步骤入下:(1)将m个特征变量混合并按照大小顺序排序编排等级,其中最小的等级为1,第二小的等级为2,以此类推(如果几个特征变量相等,则取这几个特征变量在给出等级之前的排序值的平均值);(2)分别求出平扫CT组和增强CT组的等级和为R1和R2;(3)根据R1和R2,计算得到平扫CT组和增强CT组分别对应的检验统计量U1和U2,U1=R1–m1*(m1+1)/2,U2=R2–m2*(m2+1)/2。(4)进行显著性判断。最终的判断步骤根据样本量的大小有所不同,当样本量较小时候(m1和m2均小于20时),选择U1和U2中较小的值曼-惠特尼检验U的临界值表中的临界值Uα(α=0.05)进行比较来判断在α水平上是否具有胸部CT类型上的显著性差异。如果样本个数较大,检验统计量U近似服从正态分布,采用正态逼近进行处理。在本实施例中,样本个数较大,采用正态逼近处理,得到显著性p值,当显著性p值小于显著性水平时(一般来说显著性水平为0.05或0.01),则认为影像组学特征X在显著性水平在具有胸部平扫CT和胸部增强CT的显著性差异,筛选中排除影像组学特征X;当显著性p值小于显著性水平时(一般来说显著性水平为0.05或0.01),则认为影像组学特征X在显著性水平上具有胸部平扫CT和胸部增强CT的显著性差异,筛选中保留除影像组学特征X。
筛选在第二显著性水平上具有EGFR突变阳性和EGFR突变阴性的显著性差异的影像组学特征的过程,与筛选在第一显著性水平上不具有胸部平扫CT和胸部增强CT的显著性差异的影像组学特征的过程类似,在此不做赘述。
步骤330,对所有候选影像组学特征进行特征降维,得到多个目标影像组学特征。
在步骤330中,对候选影像组学特征进行降维,筛选出对于EGFR基因突变状态的判断更加重要的影像组学特征,后续根据这些重要的影像组学特征对EGFR基因突变状态进行判断时,避免了不重要特征的干扰,因此判断结果会更加准确。
在一个实施例中,如图4所示,步骤310,所述从目标样本胸部CT图像集合中的每个样本胸部CT图像上分别提取多个影像组学特征的特征变量,包括:
步骤311,对目标样本胸部CT图像集合中的每个样本胸部CT图像进行肿瘤分割,得到每个样本胸部CT图像的肿瘤区域;和
步骤312,从每个样本胸部CT图像的肿瘤区域内分别提取多个影像组学特征的特征变量。
在本实施中,对于步骤311的引入,对目标样本胸部CT图像集合中的每个样本胸部CT图像进行肿瘤分割,在肿瘤区域内进行多个影像组学特征的提取,使得特征提取的范围缩小,从而减少图像处理时间,提高图像处理精度。
在一个实施例中,如图5所示,步骤330针对所有候选影像组学特征进行特征降维,得到多个目标影像组学特征,包括:
步骤331,针对所有候选影像组学特征,计算其中的每一对影像组学特征的皮尔森相关系数r。
步骤332,对于|r|大于预设值的每一对影像组学特征,保留其中在EGFR突变阳性和EGFR突变阴性上差异显著性较大的影像组学特征,保留的影像组学特征和|r|小于等于预设值的每一对影像组学特征组成低相关性影像组学特征集合。
在步骤331和步骤332中,所有候选影像组学特征的相关性进行筛选,在筛选中对于每一对影像组学特征的特征变量求解一个皮尔森相关系数r值。其中两个影像组学特征的皮尔逊相关系数定义为两个影像组学特征的特征变量之间的协方差和标准差的商。当|r|>0.85表示这一对影像组学特征相关性较高,因此只需要保留其中的一个影像组学特征即可代表这一对影像组学特征与EGFR基因突变的相关性;此时保留的是在EGFR突变阳性和EGFR突变阴性上差异显著性较大的影像组学特征,在EGFR突变阳性和EGFR突变阴性上差异显著性较大表示该影像组学特征对于EGFR基因突变阳性和EGFR基因突变阴性区分能力越强。对于|r|≤0.85每一对影像组学特征,由于两个影像组学特征相关性较低,因此两个影像组学特征均予以保留。保留的所有影像组学特征组成低相关性影像组学特征集合,这些影像组学特征之间相关性较低。
步骤333,在所述低相关性影像组学特征集合中,采用Boruta算法进行筛选,得到多个目标影像组学特征。
在步骤333中,通过Boruta算法进行筛选,得到的是用于判断EGFR基因突变阳性或者EGFR基因突变阴性的重要特征。Boruta算法是一个基于随机森林分类算法的包装器。随机森林分类算法是一种比较快速的分类算法,通常不需要调整参数就可以实现,并给出了特征重要性的数值估计。它是一种通过多个无偏的弱分类器-决策树的投票来进行分类的集成方法。具体操作方法为常规的技术手段,在此不做赘述。
在一个实施例中,步骤400,根据所述评分值,确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变检测结果,所述检测结果反映了所述概率高或EGFR基因突变的概率,包括:
将所述评分值与预设的评分截断值进行比较,根据比较结果确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变概率高或EGFR基因突变概率低。
在本实施例中,其中的截断值是EGFR基因突变阳性和EGFR基因突变阴性的判断阈值。在本实施例中,截断值是根据回归模型得到的。具体来说,将训练样本中每个样本的EGFR基因突变状态与所对应的评分值进行匹配,获取截断值。更为具体来说,在利用训练样本对目标影像组学特征的特征变量进行回归建模之后,将训练样本集合中每个样本的EGFR基因突变状态与每个样本所对应的评分值,拟合得到受试者工作特征曲线(receiveroperating characteristic curve,简称ROC曲线),根据ROC曲线计算截断值。
截断值具体计算方法如下:根据训练样本集合中的每个样本的EGFR基因突变状态与每个样本所对应的训练评分值绘制ROC曲线,根据ROC曲线上的坐标点得到一系列灵敏度和1-特异度的值;通过计算约登指数(约登指数=灵敏度+特异度-1)并根据约登指数进行排序,对应最大约登指数的训练评分值即为截断值。在本实施例中,采用SPSS软件绘制ROC曲线,然后进行截断值的计算。在一些其他的实施例中,还可以采用其他的方式获得ROC曲线。当然也可以采用一些可以直接给出截断值的软件进行截断值的计算。
在一个实施例中,步骤400,根据所述评分值,确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变检测结果,包括:
接收待处理的胸部CT图像所属患者的目标临床特征的特征值和目标放射学特征的特征值;
分别获取所述目标临床特征的特征值、目标放射学特征的特征值和所述评分值在诺模图上的得分,并将所述得分进行加和计算得到待处理胸部CT图像对应的总得分;和
根据所述总得分,确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变检测结果。
优选的,其中根据所述总得分,确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变检测结果,包括:
根据所述总得分,在所述诺莫图上获取胸部CT图像所属患者的对应的EGFR基因突变概率值。
在本实施例中,目标临床特征和目标放射学特征都是经过筛选得到的。优选的,其中的目标临床特征包括吸烟史,目标放射学特征包括间质性肺疾病和肺气肿。
在本发明中,训练样本集合中,每个样本还包括对应的患者的临床特征的特征值和放射学特征的特征值。其中临床特征主要是通过采集和检查得到的,例如年龄、性别、吸烟史、肺功能、病理类型和慢性阻塞性肺疾病(chronic obstructive pulmonary disease,COPD)。放射学特征是有经验的胸部放射可医生对训练样本集合中的胸部CT图像进行分析得到的,包括肿瘤大小、肿瘤位置、肿块或结节,肿瘤形态、肿瘤的不透明性、肺间质性变化、支气管炎、支气管扩张、肺气肿、淋巴结病和胸膜增厚胸水等。
目标临床特征和目标放射学特征的筛选方法包括:首先对得到的所有临床特征和放射学特征进行单因素分析,选择可以作为EGFR基因突变阳性的预测因子的临床特征和放射组学特征;然后对所有可以作为EGFR基因突变阳性的预测因子的临床特征和放射组学特征进行多因素分析,得到可以作为EGFR基因突变阳性的独立预测因子的临床特征和放射组学特征;所述可以作为EGFR基因突变阳性的独立预测因子的临床特征和放射组学特征分别对应于目标临床特征和目标放射学特征。更为具体的,其中单因素分析指的采用的单因素Logistic回归方法对临床特征和放射学特征进行分析,多元素分析指的是采用多因素Logistic回归方法进行分析。
在本实施例中,其中诺模图是在训练样本集合中绘制的,具体来说包括以下步骤:首先采用训练样本集合每个样本的评分值、目标临床特征的特征值和目标放射学特征的特征值进行多元逻辑回归分析;然后根据多元逻辑回归得到的回归系数的大小来制定评分标准,给每个评分值、目标临床特征的特征值和目标放射学特征的特征值每种取值水平赋予一个的得分,将所有得分进行加和计算得到样本的总得分;最后通过总得分与EGFR基因突变发生概率之间的转换函数来进行换算得到EGFR基因突变发生概率。
在本实施例中,总得分结合了目标临床特征的特征值、目标放射学特征的特征值和评分值的特性,使得整体结果具有更好的临床适用性,并且根据后续的验证例可知诺莫图具有较好的评估性能。
在一个实施例中,如图6所示,提供了一种基于胸部CT图像的EGFR基因突变检测系统,包括:数据接收模块710、特征变量提取模块720、评分值获取模块730和确定模块740;其中:
数据接收模块710,用于接收待处理的胸部CT图像;
特征变量提取模块720,用于从所述胸部CT图像上提取多个目标影像组学特征的特征变量,其中,每个所述目标影像组学特征,在第一显著性水平上不具有胸部平扫CT和胸部增强CT的显著性差异,在第二显著性水平上具有EGFR突变阳性和EGFR突变阴性的显著性差异;
评分值获取模块730,用于根据回归模型和所述特征变量,得到与所述待处理的胸部CT图像对应的评分值;和
确定模块740,用于确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变检测结果,所述检测结果反映了所述EGFR基因突变的概率。
关于一种基于胸部CT图像的EGFR基因突变检测系统的具体限定可以参见上文中对于一种基于胸部CT图像的EGFR基因突变检测方法的限定,在此不再赘述。上述基于胸部CT图像的EGFR基因突变检测系统具体来说为一种电子设备,在该电子设备中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在本发明实施例中,提供了一种基于胸部CT图像的EGFR基因突变检测系统,具体来说该系统为一种电子设备,该电子设备可以为计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种基于表型的基因优先级排序方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
在一个实施例中,提供了一种基于胸部CT图像的EGFR基因突变检测系统,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
接收待处理的胸部CT图像;
从所述胸部CT图像上提取多个目标影像组学特征的特征变量,其中,每个所述目标影像组学特征,在第一显著性水平上不具有胸部平扫CT和胸部增强CT的显著性差异,在第二显著性水平上具有EGFR突变阳性和EGFR突变阴性的显著性差异;
根据回归模型和所述特征变量,得到与所述待处理的胸部CT图像对应的评分值;和
根据所述评分值,确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变检测结果,所述检测结果反映了所述EGFR基因突变的概率。
本实施例中的基于胸部CT图像的EGFR基因突变检测系统具体来说可以为一种计算机设备。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
接收待处理的胸部CT图像;
从所述胸部CT图像上提取多个目标影像组学特征的特征变量,其中,每个所述目标影像组学特征,在第一显著性水平上不具有胸部平扫CT和胸部增强CT的显著性差异,在第二显著性水平上具有EGFR突变阳性和EGFR突变阴性的显著性差异;
根据回归模型和所述特征变量,得到与所述待处理的胸部CT图像对应的评分值;和
根据所述评分值,确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变检测结果,所述检测结果反映了所述EGFR基因突变的概率。
为了更好的说明本发明中的方法的优越性,下面结合具体实验例对本发明中的方法进行进一步的说明和性能验证。本发明实验例中的训练组和验证组的所有胸部CT图像是使用两种多探测器CT系统之一(Brilliance CT,荷兰Phillips Healthcare;日本ToshibaCT,日本东京)扫描的受试者得到的。所有受试者均在仰卧姿势下,使用或不使用对比材料进行扫描检查。扫描参数如下:100-120kVp,100mA,检测器准直为64×或128×0.625mm,350×350mm的视场和512×512矩阵使用肺重建内核。其中增强CT是在平扫CT之后,首先使用自动注射器(Ulrich)以3.0mL/s的速率将85mL非离子碘化造影剂(350mg碘/mL,Omnipaque,GEHealthcare)注射入肘前静脉CT Plus 150,Ulrich Medical);在注射造影剂之后以25秒的延迟再次执行CT扫描。从图片存档和通信系统(PACS)工作站以DICOM格式检索得到了5mm的平扫CT图像(N-CT)和增强CT图像(E-CT)。
实验例1不同目标影像组学特征筛选方法对应的回归模型及性能评估
如表1所示为本发明中的入组患者统计情况,如表1所示,将患者分为训练组和验证组。训练组包括327名肺癌患者,在训练组中,每个患者做过一种CT图像,其中有167人为平扫CT图像(N-CT),160人对应的是增强CT图像(E-CT)。验证组包括66名肺癌患者,在验证组每个患者都是做过两种CT图像(N-CT&E-CT)。
表1
训练组和验证组的患者的EGFR基因突变状态如表1所示,突变型表示患者为EGFR基因突变阳性,野生型表示患者为EGFR基因突变阴性。
本实验例中的目标影像组学特征的筛选和建模过程如下:(1)针对训练组中的所有患者的CT图像,首先在研究平台InferScholar上,由具有15年胸科医生手动进行肺癌肿瘤区域划分,获得ROI;(2)在开源Python工具包PyRadiomics上,从训练组患者的CT图像上划分的ROI中进行特征变量提取,具体来说在划分得到的ROI对应的原始CT图像和经过滤波变换的图像(小波变换和LoG变换)上进行特征变量提取,总共得到1016个影像组学特征对应的特征变量。(3)对提取到的所有影像组学特征进行第一次曼-惠特尼U(Mann-WhitneyU)检验,保留在CT图像类型上在0.05水平没有显著性差异的影像组学特征。(4)在保留的在CT图像类型上在0.05水平没有显著性差异的影像组学特征中,进行第二次Mann-Whitney U检验,保留在EGFR基因突变阳性和EGFR基因突变阴性上在0.05水平有显著性差异的影像组学特征。(5)在保留的在EGFR基因突变阳性和EGFR基因突变阴性上在0.05水平有显著性差异的影像组学特征中,计算其中的每一个影像组学特征对的皮尔森(Pearson)相关系数r。(6)对于其中|r|>0.85的影像组学特征对,剔除该影像组学特征对中第二次Mann-WhitneyU检验中在EGFR基因突变阳性和EGFR基因突变阴性上差异显著性较大的影像组学特征,所述保留的影像组学特征和|r|≤0.85的影像组学特征对组成低相关性影像组学特征集合。(7)在低相关性影像组学特征集合中,采用Boruta算法进行筛选,得到目标影像组学特征集合,经过上述的筛选之后,1016个影像组学特征最终留下了5个目标影像组学特征。(8)在训练组中,对得到的5个目标像组学特征的特征变量进行多元逻辑回归分析,得到逻辑回归模型(NECT-模型),获得回归系数和评分值Rad score,其中Rad-score=Σ(回归系数*特征变量)。
为了更好说明本发明中的方法的优越性,在本实验例中还构建了作为对照组的N-模型、E-模型和NE-模型。
N-模型对应的4个目标影像组学特征是从训练组中的所有的N-CT图像上提取和筛选得到,具体来说是在训练组所有的N-CT图像上,执行步骤(1)至(2)和步骤(4)至(8),最终得到N-模型。
E-模型对应的3个目标影像组学特征是从训练组中的所有的E-CT图像上提取和筛选得到,具体来说是在训练组所有的E-CT图像上,执行步骤(1)至(2)和步骤(4)至(8),最终得到E-模型。
NE-模型对应的7个目标影像组学特征是从训练组中的所有CT图像上提取和筛选得到,具体来说是在训练组所有CT图像上,执行步骤(2)至(2)和步骤(4)至(8),最终得到NE-模型。
表2示出了本验证例中的四个模型所对应的目标影像组学特征。在N-模型、E-模型和NE-模型的目标影像组学特征提取中均没有进行步骤(3)中的第一次Mann-Whitney U检验。如表2所示,其中N-模型最终筛选出4个影像组学特征,E-模型最终筛选出3个影像组学特征,NE-模型最终筛选出7个影像组学特征。
表2
在如表1所示的验证组上,通过ROC曲线对N-模型、E-模型、NE-模型和NECT-模型的性能进行分析,具体分析结果如表3所示。
表3
如表3所示,其中E-模型的性能优于N-模型(AUC:E-模型0.637vs.N-模型0.537)。与基于一种CT类型的模型相比,混合了两种CT类型的模型性能更好,NE-模型在N-CT的性能优于N-模型(AUC:N-模型0.537vs.NE-模型0.601),NE-模型在E-CT的性能与E-模型的性能相当(AUC:E-模型0.637vs.NE-模型0.638)。NECT-模型在两种CT类型上均具有较高的性能,在N-CT上AUC为0.659,在E-CT上的AUC为0.680。NECT-模型所用的影像组学特征在特征的筛选过程中在CT类型上进行了Mann-Whitney U检验,使得得到的影像组学特征在是在两种CT类型无显著显著性差异;由表3中的验证结果可知,本发明中的特征筛选方法提高了模型在两种CT类型上对EGFR基因突变状态的判别性能。
实验例2诺模图的构建及其与NECT-模型的性能对比实验
针对表1中的训练组中的患者进行临床特征和放射学特征的筛选,其中临床特征包括年龄、性别、吸烟史、病理类型和慢性阻塞性肺疾病(chronic obstructive pulmonarydisease,COPD)等,其中放射学特征包括肿瘤的大小、位置、类型(mass or nedule)和不透明性,肺间质改变、支气管炎、支气管扩张、肺气肿、淋巴结病、胸膜增厚和胸腔积液,肿瘤影像学特征为分叶、针状、空化和胸膜收缩,间质性肺疾病(ILD)等。
对所有的临床特征和放射学特征进行单因素分析,以评估它们是否可以用作EGFR基因突变阳性的预测因子。然后对可以作为EGFR基因突变阳性的预测因子的所有临床特征和放射学特征,进行多因素分析获得可以作为独立预测因子的目标临床特征和目标放射学特征。最终筛选得到的目标临床特征为吸烟史,目标放射学特征为间质性肺疾病(ILD)和肺气肿(emphysema)。
在得到目标临床特征和目标放射学特征之后,构建诺模图。大致过程如下:首先采用实验例1中的NECT-模型得到的评分值Rad score、目标临床特征的特征值和目标放射学特征的特征值进行多元逻辑回归分析;然后根据多元逻辑回归得到的回归系数的大小来制定评分标准,给每个评分值、目标临床特征的特征值和目标放射学特征的特征值的每种取值水平赋予一个的得分,将所有得分进行加和计算得到总分数,最后通过总分数与EGFR基因突变发生概率之间的转换函数来计算每个样本发生EGFR基因突变的概率,得到的诺模图如图8所示。
在表1所示的验证组中,利用ROC曲线对NECT-模型和诺模图进行性能分析,得到如图9所示的ROC曲线图。其中Radiomics-N和Radiomics-E表示的是NECT-模型分别在验证组中的平扫CT图像上和平扫CT图像上的ROC曲线;Nomogram-N和Nomogram-E代表的是诺模图分别在在验证组中的平扫CT图像上和平扫CT图像上的ROC曲线。如图9所示,Radiomics-N和Radiomics-E的AUC值分别为0.659和0.680,Nomogram-N和Nomogram-E的AUC值分别为0.793和0.786;因此诺模图对EGFR基因突变的评估性能优于NECT-模型。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上对本发明所提供的一种计算机设备进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种基于胸部CT图像的EGFR基因突变检测方法,其特征在于,包括:
接收待处理的胸部CT图像;
从所述胸部CT图像上提取多个目标影像组学特征的特征变量,其中,每个所述目标影像组学特征,在第一显著性水平上不具有胸部平扫CT和胸部增强CT的显著性差异,在第二显著性水平上具有EGFR突变阳性和EGFR突变阴性的显著性差异;
根据回归模型和所述特征变量,得到与所述待处理的胸部CT图像对应的评分值;和
根据所述评分值,确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变检测结果,所述检测结果反映了所述EGFR基因突变的概率。
2.根据权利要求1所述的基于胸部CT图像的EGFR基因突变检测方法,其特征在于,所述从所述胸部CT图像上提取多个目标影像组学特征的特征变量,包括:对所述待处理的胸部CT图像进行肿瘤区域分割,得到待处理的胸部CT图像的肿瘤区域;和
从待处理的胸部CT图像的肿瘤区域内提取多个目标影像组学特征的特征变量。
3.根据权利要求1所述的基于胸部CT图像的EGFR基因突变检测方法,其特征在于,所述目标影像组学特征通过以下方法获得:
从目标样本胸部CT图像集合中的每个样本胸部CT图像上分别提取多个影像组学特征的特征变量,所述目标样本胸部CT图像集合中的部分样本胸部CT图像对应EGFR基因突变阳性,部分样本胸部CT图像样本对应EGFR基因突变阴性;所述目标样本胸部CT图像集合中的部分样本胸部CT图像为平扫CT图像,部分样本胸部CT图像为增强CT图像;
对所有影像组学特征,通过进行两次曼-惠特尼U检验筛选出候选影像组学特征,所述候选影像组学特征在第一显著性水平上不具有胸部平扫CT和胸部增强CT的显著性差异,在第二显著性水平上具有EGFR突变阳性和EGFR突变阴性的显著性差异;和
对所有候选影像组学特征进行特征降维,得到多个目标影像组学特征。
4.根据权利要求3所述的基于胸部CT图像的EGFR基因突变检测方法,其特征在于,所述从目标样本胸部CT图像集合中的每个样本胸部CT图像上分别提取多个影像组学特征的特征变量;包括:
对目标样本胸部CT图像集合中的每个样本胸部CT图像进行肿瘤分割,得到每个样本胸部CT图像的肿瘤区域;和
从每个样本胸部CT图像的肿瘤区域内分别提取多个影像组学特征的特征变量。
5.根据权利要求3所述的基于胸部CT图像的EGFR基因突变检测方法,其特征在于,所述对所有候选影像组学特征进行特征降维,得到多个目标影像组学特征,包括:
针对所有候选影像组学特征,计算其中的每一对影像组学特征的皮尔森相关系数r;
对于|r|大于预设值的每一对影像组学特征,保留其中在EGFR突变阳性和EGFR突变阴性上差异显著性较大的影像组学特征,保留的影像组学特征和|r|小于等于预设值的每一对影像组学特征组成低相关性影像组学特征集合;和
在所述低相关性影像组学特征集合中,采用Boruta算法进行筛选,得到多个目标影像组学特征。
6.根据权利要求1所述的基于胸部CT图像的EGFR基因突变检测方法,其特征在于,所述根据所述评分值,确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变检测结果,所述检测结果反映了所述EGFR基因突变的概率,包括:
将所述评分值与预设的评分截断值进行比较,根据比较结果确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变概率高或EGFR基因突变概率低。
7.根据权利要求1所述的基于胸部CT图像的EGFR基因突变检测方法,其特征在于,根据所述评分值,确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变检测结果,包括:
接收待处理的胸部CT图像所属患者的目标临床特征的特征值和目标放射学特征的特征值;
分别获取所述目标临床特征的特征值、目标放射学特征的特征值和所述评分值在诺模图上对应的得分,并将所有得分进行加和计算得到待处理的胸部CT图像对应的总得分;和
根据所述总得分,确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变检测结果。
8.一种基于胸部CT图像的EGFR基因突变检测系统,其特征在于,包括:
数据接收模块,用于接收待处理的胸部CT图像;
特征变量提取模块,用于从所述胸部CT图像上提取多个目标影像组学特征的特征变量,其中,每个所述目标影像组学特征,在第一显著性水平上不具有胸部平扫CT和胸部增强CT的显著性差异,在第二显著性水平上具有EGFR突变阳性和EGFR突变阴性的显著性差异;
评分获取模块,用于根据回归模型和所述特征变量,得到与所述待处理的胸部CT图像对应的评分值;和
确定模块,用于确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变检测结果,所述检测结果反映了所述EGFR基因突变的概率。
9.一种基于胸部CT图像的EGFR基因突变检测系统,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序被配置为执行权利要求1至7任一项所述的基于胸部CT图像的EGFR基因突变检测方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的基于胸部CT图像的EGFR基因突变检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110268251.8A CN113017674B (zh) | 2021-03-11 | 2021-03-11 | 基于胸部ct图像的egfr基因突变检测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110268251.8A CN113017674B (zh) | 2021-03-11 | 2021-03-11 | 基于胸部ct图像的egfr基因突变检测方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113017674A CN113017674A (zh) | 2021-06-25 |
CN113017674B true CN113017674B (zh) | 2021-12-31 |
Family
ID=76470130
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110268251.8A Active CN113017674B (zh) | 2021-03-11 | 2021-03-11 | 基于胸部ct图像的egfr基因突变检测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113017674B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113808082B (zh) * | 2021-08-19 | 2023-10-03 | 东北大学 | 肺图像的处理方法及装置、电子设备和存储介质 |
TWI810915B (zh) * | 2022-04-27 | 2023-08-01 | 臺北醫學大學 | 用於偵測突變之方法及相關非暫態電腦儲存媒體 |
CN115861303B (zh) * | 2023-02-16 | 2023-04-28 | 四川大学 | 基于肺部ct图像的egfr基因突变检测方法和系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9940709B2 (en) * | 2013-10-12 | 2018-04-10 | H. Lee Moffitt Cancer Center And Research Institute, Inc. | Systems and methods for diagnosing tumors in a subject by performing a quantitative analysis of texture-based features of a tumor object in a radiological image |
EP3207521B1 (en) * | 2014-10-17 | 2022-11-02 | Stichting Maastricht Radiation Oncology "Maastro Clinic" | Image analysis method supporting illness development prediction for a neoplasm in a human or animal body |
CN108376565B (zh) * | 2018-02-13 | 2022-07-19 | 北京市神经外科研究所 | 一种脑胶质瘤Ki-67表达水平的影像组学预测方法 |
US12008747B2 (en) * | 2019-07-29 | 2024-06-11 | Case Western Reserve University | Population-specific prediction of prostate cancer recurrence based on stromal morphology features |
CN110364258A (zh) * | 2019-08-19 | 2019-10-22 | 南京鼓楼医院 | 一种Xp11.2易位型肾癌的风险预测装置 |
CN111242174B (zh) * | 2019-12-31 | 2022-09-23 | 浙江大学 | 一种基于影像组学的肝癌图像特征提取与病理分类方法 |
CN111814893A (zh) * | 2020-07-17 | 2020-10-23 | 首都医科大学附属北京胸科医院 | 基于深度学习的肺部全扫描图像egfr突变预测方法和系统 |
-
2021
- 2021-03-11 CN CN202110268251.8A patent/CN113017674B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113017674A (zh) | 2021-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113017674B (zh) | 基于胸部ct图像的egfr基因突变检测方法和系统 | |
US7418123B2 (en) | Automated method and system for computerized image analysis for prognosis | |
Sahiner et al. | Effect of CAD on radiologists' detection of lung nodules on thoracic CT scans: analysis of an observer performance study by nodule size | |
JP7264486B2 (ja) | 画像解析方法、画像解析装置、画像解析システム、画像解析プログラム、記録媒体 | |
WO2021135774A1 (zh) | 肿瘤预测方法、装置、云平台及计算机可读存储介质 | |
WO2014113786A1 (en) | Quantitative predictors of tumor severity | |
EP1082695A1 (en) | Method and system for the computerized assessment of breast cancer risk | |
US20240087121A1 (en) | Systems and methods to process electronic images for continuous biomarker prediction | |
Xu et al. | Using transfer learning on whole slide images to predict tumor mutational burden in bladder cancer patients | |
CN115440383B (zh) | 用于预测晚期癌症患者pd-1/pd-l1单抗治疗疗效的系统 | |
US20180053297A1 (en) | Methods and Apparatuses for Detection of Abnormalities in Low-Contrast Images | |
WO2021118918A1 (en) | Radiomics-based treatment decision support for lung cancer | |
CN114332132A (zh) | 图像分割方法、装置和计算机设备 | |
Kumar et al. | Mammogram image segmentation using SUSAN corner detection | |
Dahlblom et al. | Artificial intelligence detection of missed cancers at digital mammography that were detected at digital breast tomosynthesis | |
CN110992312B (zh) | 医学图像处理方法、装置、存储介质及计算机设备 | |
Rezaie et al. | Detection of lung nodules on medical images by the use of fractal segmentation | |
EP4081952A1 (en) | Systems and methods for analyzing two-dimensional and three-dimensional image data | |
CN117711615A (zh) | 基于影像组学的淋巴结转移状态分类预测方法及设备 | |
CN115274119B (zh) | 一种融合多影像组学特征的免疫治疗预测模型的构建方法 | |
Zhou et al. | Improved breast lesion detection in mammogram images using a deep neural network | |
Lu et al. | A review of the role of ultrasound radiomics and its application and limitations in the investigation of thyroid disease | |
CN115440386A (zh) | 基于加权多病灶的影像组学特征预测晚期癌症患者免疫治疗效果 | |
Chen et al. | Development and validation of a deep learning radiomics nomogram for preoperatively differentiating thymic epithelial tumor histologic subtypes | |
CN112329876A (zh) | 一种基于影像组学的结直肠癌预后预测方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |