CN113539498A - 一种基于决策树模型的孤立肺结节恶性风险预测系统 - Google Patents
一种基于决策树模型的孤立肺结节恶性风险预测系统 Download PDFInfo
- Publication number
- CN113539498A CN113539498A CN202110827475.8A CN202110827475A CN113539498A CN 113539498 A CN113539498 A CN 113539498A CN 202110827475 A CN202110827475 A CN 202110827475A CN 113539498 A CN113539498 A CN 113539498A
- Authority
- CN
- China
- Prior art keywords
- nodule
- node
- nodules
- malignant
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003211 malignant effect Effects 0.000 title claims abstract description 58
- 238000003066 decision tree Methods 0.000 title claims abstract description 29
- 230000002685 pulmonary effect Effects 0.000 title claims description 7
- 206010056342 Pulmonary mass Diseases 0.000 claims abstract description 26
- 201000011510 cancer Diseases 0.000 claims abstract description 20
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 19
- 230000036210 malignancy Effects 0.000 claims abstract description 18
- 208000000017 Solitary Pulmonary Nodule Diseases 0.000 claims abstract description 8
- 238000004364 calculation method Methods 0.000 claims abstract description 3
- 206010054107 Nodule Diseases 0.000 claims description 46
- 230000011218 segmentation Effects 0.000 claims description 28
- 210000004698 lymphocyte Anatomy 0.000 claims description 19
- 102000006395 Globulins Human genes 0.000 claims description 15
- 108010044091 Globulins Proteins 0.000 claims description 15
- 102000009027 Albumins Human genes 0.000 claims description 13
- 108010088751 Albumins Proteins 0.000 claims description 13
- 102000008946 Fibrinogen Human genes 0.000 claims description 13
- 108010049003 Fibrinogen Proteins 0.000 claims description 13
- 238000004820 blood count Methods 0.000 claims description 13
- 229940012952 fibrinogen Drugs 0.000 claims description 13
- 210000000265 leukocyte Anatomy 0.000 claims description 13
- 230000000391 smoking effect Effects 0.000 claims description 11
- 238000001574 biopsy Methods 0.000 claims description 10
- 210000004027 cell Anatomy 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 210000001616 monocyte Anatomy 0.000 claims description 5
- 238000001356 surgical procedure Methods 0.000 claims description 5
- 238000002591 computed tomography Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 claims description 3
- 208000002151 Pleural effusion Diseases 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 3
- 210000003651 basophil Anatomy 0.000 claims description 2
- 238000009826 distribution Methods 0.000 claims description 2
- 210000001165 lymph node Anatomy 0.000 claims description 2
- 238000003745 diagnosis Methods 0.000 abstract description 2
- 208000020816 lung neoplasm Diseases 0.000 description 10
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 8
- 201000005202 lung cancer Diseases 0.000 description 8
- 230000035945 sensitivity Effects 0.000 description 8
- 230000007717 exclusion Effects 0.000 description 6
- GUJOJGAPFQRJSV-UHFFFAOYSA-N dialuminum;dioxosilane;oxygen(2-);hydrate Chemical compound O.[O-2].[O-2].[O-2].[Al+3].[Al+3].O=[Si]=O.O=[Si]=O.O=[Si]=O.O=[Si]=O GUJOJGAPFQRJSV-UHFFFAOYSA-N 0.000 description 4
- 210000004072 lung Anatomy 0.000 description 3
- 238000010827 pathological analysis Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000002308 calcification Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000035622 drinking Effects 0.000 description 2
- 238000000556 factor analysis Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000003902 lesion Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- IJJWOSAXNHWBPR-HUBLWGQQSA-N 5-[(3as,4s,6ar)-2-oxo-1,3,3a,4,6,6a-hexahydrothieno[3,4-d]imidazol-4-yl]-n-(6-hydrazinyl-6-oxohexyl)pentanamide Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)NCCCCCC(=O)NN)SC[C@@H]21 IJJWOSAXNHWBPR-HUBLWGQQSA-N 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 230000005773 cancer-related death Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000034 method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000009828 non-uniform distribution Methods 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013058 risk prediction model Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000008961 swelling Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Pathology (AREA)
- Artificial Intelligence (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明属于医学诊断技术领域,具体涉及一种基于决策树模型的孤立肺结节恶性风险预测系统。本发明提供孤立肺结节恶性风险预测系统,包括:数据采集模块,用于采集和/或输入孤立性肺结节患者的变量数据;数据运算模块,用于将变量数据代入决策树模型进行计算,得到结节恶性概率和/或结节是否恶性的判断结论;数据输出模块,用于输出结节恶性概率和/或结节是否恶性的判断结论。本发明提供的模型适用于中国人群中的SPN患者的结节是否为恶性的诊断。
Description
技术领域
本发明属于医学诊断技术领域,具体涉及一种基于决策树模型的孤立肺结节恶性风险预测系统。
背景技术
在世界范围内,肺癌目前仍是造成癌症相关死亡的头号杀手(Al-Ameri etal.2015)。低剂量CT在癌症筛查中的广泛应用使得很多病人能够在早期发现肺癌,继而改善筛查人群的死亡率(Bach et al.2012;Criss et al.2018;Henschke et al.2006)。与此同时,作为肺癌影像学表现之一的肺结节能够得以被发现。孤立性肺结节的定义为直径小于30mm且被肺实质包围的一个类圆形病变,在病理结果上,约有1-12%的孤立性肺结节为恶性肺结节(Khan et al.2019)。目前孤立性肺结节的整体管理对临床医生而言是一个挑战,因为一个最佳的管理决策往往需要临床医师能够在早期识别具有恶性潜能的肺结节并给予恰当的干预(Chan et al.2017;Ost et al.2003)。
预测模型的出现能够帮助医生在临床上更好的识别恶性肺结节。目前现有技术中主要有Mayo Clinic模型、VA模型、PEH模型和Brock模型四种模型。为了验证上述四种模型对中国人群的有效性,申请人采用四川大学华西医院2008年1月-2016年12月手术切除并有明确病理诊断的孤立性肺结节(SPN)患者的病例数据对上述四种模型进行验证,发现上述模型不能够有效预测中国人群的SPN是否为恶性。
其中,Mayo Clinic模型是得到最广泛验证的模型,但是,在他们的患者中有12%的病人没有最终的病理诊断(Swensen et al.1997)。此外,先前的研究表明,梅奥模型并不能准确预测接受手术评估的患者发生肺部病变的恶性可能性(Isbell et al.2011)。在本申请所针对的人群中,梅奥模型(Mayo Clinic模型)的区分度最好,AUC为0.705,但是它仍然低估了恶性概率(Schultz et al.2008)。
Gould等人通过利用退伍军人事务部(VA)管理数据库中的数据,开发了另一种肺癌预测模型,VA模型。该模型具有与Mayo模型相似的准确性,但仅仅纳入了直径在7-30mm之间的肺结节,且模型中未包括结节的形态(Gould et al.2007)。对于VA模型而言(Gould etal.2007),由于缺乏形态学信息,老年白人人群基础、恶性肿瘤患病率较低(54%),因此其预测效能在本发明所针对的中国人人群中的表现较差。
McWilliams等人开发了第三个模型,Brock模型。这个模型源于布鲁克大学的一项前瞻性研究,随访时间为2年,但他们的模型并不适用于低危人群以及存在肺门或纵隔淋巴结肿大的人群(McWilliams et al.2013)。且该模型严格的纳入及排除标准限制了适用该模型的患者的数量,因此在本申请针对的人群中具有较差的区分度与校准度。
此外,北京大学人民医院构建了一个针对中国人的恶性肺结节预测模型,PEH模型。但是该模型从未在其他中国人群中进行过验证(Li and Wang 2012)。且其与本申请针对的人群(具有孤立肺结节且需要手术评估或活检的中国人人群)的匹配性仍然很差,它高估了本申请针对的人群患肺癌的风险。
总之,由于模型类型的选择及其对特定人群的预测准确性(或者说适用性)具有一定的关联性,而现有技术所提出的模型对具有孤立肺结节且需要手术评估或活检的中国人人群的恶性风险预测的准确度较差。
发明内容
针对上述现有模型的缺陷,本发明提供一种基于决策树模型的孤立肺结节恶性风险预测系统,成功构建了准确度更高的SPN恶性风险预测模型。
一种孤立肺结节恶性风险预测系统,其特征在于,包括:
数据采集模块,用于采集和/或输入孤立性肺结节患者的变量数据;
数据运算模块,用于将变量数据代入决策树模型,得到结节是否恶性的判断结论;
数据输出模块,用于输出结节是否恶性的判断结论。
优选的,所述变量数据包括患者的年龄、是否有吸烟史、CT结节边缘是否光滑、CT结节边界是否清楚、白细胞计数、淋巴细胞百分比、纤维蛋白原含量、血小板计数、球蛋白含量、单核细胞百分比、白蛋白含量、RBC分布宽度SD、血小板计数、是否饮酒、现欸嗜碱性粒细胞百分比、浅表淋巴结有无肿大、CT结节部位、CT有无胸腔积液、CT结节是否钙化。
优选的,所述变量数据包括患者的年龄、是否有吸烟史、CT结节边缘是否光滑、CT结节边界是否清楚、白细胞计数、淋巴细胞百分比、纤维蛋白原含量、血小板计数、球蛋白含量、单核细胞百分比和白蛋白含量。
优选的,所述决策树为二叉树;
所述决策树的根节点为年龄;
所述决策树的第二层节点包括CT结节边缘是否光滑和白细胞计数;当通过根节点年龄进行分类后,小于分割点的样本通过第二层节点CT结节边缘是否光滑进行下一步分类,大于等于分割点的样本通过第二层节点白细胞计数进行下一步分类;
所述决策树的第三层节点包括年龄、淋巴细胞百分比和CT结节边缘是否光滑;当通过第二层节点CT结节边缘进行分类后,分类为是的样本通过第三层节点年龄进行下一步分类,分类为否的样本通过第三层节点淋巴细胞百分比进行下一步分类;当通过第二层节点白细胞计数进行分类后,小于分割点的样本判断为良性结节,大于等于分割点的样本通过第三层节点CT结节边缘是否光滑进行下一步分类;
所述决策树的第四层节点包括纤维蛋白原含量、血小板计数和是否有吸烟史;当通过第三层节点年龄进行分类后,小于分割点的样本判断为良性结节,大于等于分割点的样本通过第四层节点纤维蛋白原含量进行下一步分类;当通过第三层节点淋巴细胞百分比进行分类后,小于分割点的样本判断为恶性结节,大于等于分割点的样本通过第四层节点血小板计数进行下一步分类;当通过第三层节点CT结节边缘是否光滑进行分类后,分类为是的样本通过第四层节点是否有吸烟史进行下一步分类,分类为否的样本判断为恶性结节;
所述决策树的第五层节点包括球蛋白含量和淋巴细胞百分比;当通过第四层节点纤维蛋白原含量进行分类后,小于分割点的样本通过第五层节点球蛋白含量进行下一步分类,大于等于分割点的样本判断为恶性结节;当通过第四层节点血小板计数进行分类后,小于分割点的样本判断为良性结节,大于等于分割点的样本判断为恶性结节;当通过第四层节点是否有吸烟史进行分类后,分类为是的样本通过第五层节点淋巴细胞百分比进行下一步分类,分类为否的样本判断为恶性结节;
所述第六层节点包括单细胞百分比、CT结节边界是否清楚和白蛋白含量;当通过第五层节点球蛋白含量进行分类后,小于分割点的样本判断为良性结节,大于等于分割点的样本通过第六层节点单细胞百分比进行下一步分类;当通过第五层节点球蛋白含量进行分类后,大于分割点的样本通过第六层节点CT结节边界是否清楚进行下一步分类,小于等于分割点的样本通过第六层节点白蛋白含量进行下一步分类;
当通过第六层节点单细胞百分比进行分类后,小于分割点的样本判断为良性结节,大于等于分割点的样本判断为恶性结节;当通过第六层节点CT结节边界是否清楚进行分类后,分类为是的样本判断为良性结节,分类为否的样本判断为恶性结节;当通过第六层节点白蛋白含量进行分类后,大于等于分割点的样本判断为良性结节,小于分割点的样本判断为恶性结节。
优选的,所述根节点年龄的分割点为58岁;
和/或,所述第二层节点白细胞计数的分割点为4.2x109/L;
和/或,所述第三层节点年龄的分割点为50岁;
和/或,所述第三层节点淋巴细胞百分比的分割点为29%;
和/或,所述第四层节点纤维蛋白原含量的分割点为4.3g/L;
和/或,所述第四层节点血小板计数的分割点为208x109/L;
和/或,所述第五层节点球蛋白含量的分割点为25g/L;
和/或,所述第五层节点淋巴细胞百分比的分割点为29%;
和/或,所述第六层节点单细胞百分比的分割点为5%;
和/或,所述第六层节点白蛋白含量的分割点为36g/L。
优选的,所述决策树模型通过CART算法进行构建,所述CART算法中,将孤立性肺结节患者的变量数据作为分析的自变量,是否恶性的判断结论为目标变量。
优选的,所述孤立性肺结节患者为通过CT扫描检测后,医生认为有必要进一步进行手术或活检的患者。
优选的,所述孤立性肺结节患者的结节数量为一个。
本发明还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时使上述系统实现以下步骤,包括:
(1)采集和/或输入孤立性肺结节患者的变量数据;
(2)将变量数据代入决策树模型进行计算,得到结节恶性概率和/或结节是否恶性的判断结论;
(3)输出结节恶性概率和/或结节是否恶性的判断结论。
本发明还提供一种计算机可读存储介质,其上存储有上述计算机程序。
采用了本发明的技术方案具有如下优点:
(1)由于构建模型时采用的训练样本为四川大学华西医院2008年1月-2016年12月手术切除并有明确病理诊断的孤立性肺结节(SPN)患者的病例数据,这是一个大型的中国人群,因而本发明选择的模型种类更加适应于中国人人群,对于中国人人群的判断更加准确。
(2)当面对CT扫描中的结节时,尤其是那些高度怀疑为恶性肿瘤的结节,必须要平衡选择。因为无论是肺活检还是外科手术,都有很多风险。由于转诊到四川大学华西医院的患者通常是在CT扫描中显示的结节被当地医生高度怀疑为恶性的情况,往往建议他们进一步进行手术或活检。因此,以这些病例数据作为训练集,本发明选择的模型种类相比于现有技术的模型更适用于需要手术评估或活检的患者。能够为临床医生在做出手术或活检选择之前,提供了有价值的信息,能够有效降低风险。
(3)本发明提供的方案从区分度和校准度两个角度均具有较好的性能,而现有技术中很少对模型的区分度进行考察(Alba et al.2017)。本发明模型的AUC达到0.734,具有优于现有技术中四种模型的区分度。且本发明的模型在灵敏度、特异度和似然比的方面也具有提升,因而表现出了很好的校准度。
(5)优选方案中,将饮酒史作为一个独立的危险因素,在其他模型中未见报道。且饮酒与肺癌发生风险之间的关系也还存在争议。而本发明的技术方案中,将饮酒史作为一个独立的危险因素,能够提高预测结果的准确性。
(6)现有模型中常常将结节的最大直径作为一个因素进行分析,这是由于在本领域现有的认知中,随着肺结节体积增大,其恶性概率也随之增加。而在本发明优选方案中,提供的模型并没有纳入结节的最大直径。在本发明采用的训练集数据中最大直径没有显着差异,良恶性组的平均直径分别为17.00±8.82mm,17.56±7.00mm。
显然,根据本发明的上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本发明上述基本技术思想前提下,还可以做出其它多种形式的修改、替换或变更。
以下通过实施例形式的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。凡基于本发明上述内容所实现的技术均属于本发明的范围。
附图说明
图1为本发明提供的决策树的示意图。
具体实施方式
本发明实施例及对比例所用的数据及其处理过程如下:
1、研究人群
回顾性地纳入了2008年1月至2016年12月于四川大学华西医院就诊的2061例影像学诊断为SPN的患者,且所有SPN的诊断均通过手术或活检在病理上得到确认。患者的纳入标准如下:I.CT扫描显示SPN,且结节最大直径小于30mm;II.每个结节都有对应的组织病理学结果。胸部CT呈现多个结节、有肺癌或肺外恶性肿瘤病史的患者将被排除在外。
2、数据收集
通过对患者病历进行筛查,收集了SPN患者的人口统计学数据,病史以及结节的影像学特征。此外,通过查看CT以获取以下信息:结节数量,结节位置,结节最大直径,结节形状,结节边缘,结节边界,结节是否为壁厚,是否存在胸膜积液,结节是否有钙化,结节是否分叶,胸膜牵拉征等。此外,还收集了患者的实验室检查结果。
3、数据清洗
根据纳入和排除标准,最初纳入了995个患者的111个变量进行分析。首先,我们选择缺失率小于20%的变量,剩下了73个变量用于单因素分析。单因素分析后剩下23个p值<0.05变量。接下来,通过排除缺失数据、离散值分布不均及记录不准确的变量及患者,最终有721例患者的19个变量进行模型构建和验证。
对比例
共筛选2061例SPN患者,满足梅奥模型的纳入和排除标准者726例,其中肺癌556例,良性170例,代入梅奥模型计算AUC 0.705(95%CI:0.658-0.752),以≥17.06%作为判断为恶性结节的阈值,灵敏度81.47%(95%CI:77.99%-84.62%),特异度52.35%(95%CI:44.57%-60.06%),似然比1.71。
满足VA模型的纳入和排除标准者800例,其中肺癌606例,良性194例,计算AUC为0.646(95%CI:0.598-0.695),以≥13.81%作为判断为恶性结节的阈值,灵敏度79.21%(95%CI:75.76%-82.37%),特异度48.45%(95%CI:41.23%-55.72%),似然比1.537。
满足Brock模型的纳入和排除标准者550例,其中肺癌478例,良性71例,计算AUC为0.575(95%CI:0.502-0.648),以≥25.55%作为判断为恶性结节的阈值,灵敏度60.88%(95%CI:56.34%-65.28%),特异度57.75%(95%CI:45.44%-69.39%),似然比1.441。
满足PEH模型的纳入和排除标准者726例,其中肺癌556例,良性170例,计算AUC为0.675(95%CI:0.627-0.723),以≥100.00%作为判断为恶性结节的阈值,灵敏度80.36%(95%CI:76.79%-83.60%),特异度47.73%(95%CI:40.16%-55.37%),似然比1.537。
从验证结果可见,四种模型的AUC范围在0.575-0.705,因而对样本仅具有中等区分度。VA模型和Brock模型的灵敏度和特异度均较低,似然比较高,说明其容易出现假阳性(良性结节误判为恶性结节)和假阴性(恶性结节误判为良性结节)的判断;而梅奥模型及PEH模型特异度较低,似然比较高,说明其容易出现假阴性的判断。这说明四种现有的模型都不能够对本申请采用的患者数据所代表的人群的SPN恶性概率进行准确的判断。
实施例1:决策树模型
利用其中721例受试者数据建模,其中恶性与良性病例分别为522例、199例。按3:1分配建模组和验证组,建模组541例(恶性392例,良性149例);验证组180例(恶性130例,良性50例)。
本实施例通过使用CART算法来生成二分类树,并且使用了Gini系数(Menze etal.2009)。
在该模型中,将19个变量作为输入变量,进行剪枝后剩下11个变量构建的决策树,包括:患者的年龄、是否有吸烟史、CT结节边缘是否光滑、CT结节边界是否清楚、白细胞计数、淋巴细胞百分比、纤维蛋白原含量、血小板计数、球蛋白含量、单核细胞百分比和白蛋白含量。该树的大小为29,有7层和15个叶子,其中第一个分割变量年龄(根节点)是最重要的因素,此后生成15条if-then规则。最终生成的决策数及其Gini系数如图1所示(其中“0”代表良性结节,“1”代表恶性结节)。
采用验证组对模型进行验证,得到决策树模型的AUC 0.734(95%CI:0.647-0.821),灵敏度78.20%,特异度56.25%,似然比1.392。
通过上述实施例与对比例进行比较,可以看到,相比于现有技术中的四种模型,本发明提供的模型AUC相对于现有技术中的四种模型均有提升,表现出良好的区分度。且本发明的模型灵敏度和特异度均有较大提升,似然比下降。可见本发明的模型在较准度方面有所提升,能够更加准确地判断具有孤立肺结节且需要手术评估或活检的中国人人群的SPN是否为恶性结节。
Claims (10)
1.一种孤立肺结节恶性风险预测系统,其特征在于,包括:
数据采集模块,用于采集和/或输入孤立性肺结节患者的变量数据;
数据运算模块,用于将变量数据代入决策树模型,得到结节是否恶性的判断结论;
数据输出模块,用于输出结节是否恶性的判断结论。
2.按照权利要求1所述的一种孤立肺结节恶性风险预测系统,其特征在于:所述变量数据包括患者的年龄、是否有吸烟史、CT结节边缘是否光滑、CT结节边界是否清楚、白细胞计数、淋巴细胞百分比、纤维蛋白原含量、血小板计数、球蛋白含量、单核细胞百分比、白蛋白含量、RBC分布宽度SD、血小板计数、是否饮酒、现欸嗜碱性粒细胞百分比、浅表淋巴结有无肿大、CT结节部位、CT有无胸腔积液、CT结节是否钙化。
3.按照权利要求2所述的一种孤立肺结节恶性风险预测系统,其特征在于:所述变量数据包括患者的年龄、是否有吸烟史、CT结节边缘是否光滑、CT结节边界是否清楚、白细胞计数、淋巴细胞百分比、纤维蛋白原含量、血小板计数、球蛋白含量、单核细胞百分比和白蛋白含量。
4.按照权利要求1-3任一项所述的一种孤立肺结节恶性风险预测系统,其特征在于:所述决策树为二叉树;
所述决策树的根节点为年龄;
所述决策树的第二层节点包括CT结节边缘是否光滑和白细胞计数;当通过根节点年龄进行分类后,小于分割点的样本通过第二层节点CT结节边缘是否光滑进行下一步分类,大于等于分割点的样本通过第二层节点白细胞计数进行下一步分类;
所述决策树的第三层节点包括年龄、淋巴细胞百分比和CT结节边缘是否光滑;当通过第二层节点CT结节边缘进行分类后,分类为是的样本通过第三层节点年龄进行下一步分类,分类为否的样本通过第三层节点淋巴细胞百分比进行下一步分类;当通过第二层节点白细胞计数进行分类后,小于分割点的样本判断为良性结节,大于等于分割点的样本通过第三层节点CT结节边缘是否光滑进行下一步分类;
所述决策树的第四层节点包括纤维蛋白原含量、血小板计数和是否有吸烟史;当通过第三层节点年龄进行分类后,小于分割点的样本判断为良性结节,大于等于分割点的样本通过第四层节点纤维蛋白原含量进行下一步分类;当通过第三层节点淋巴细胞百分比进行分类后,小于分割点的样本判断为恶性结节,大于等于分割点的样本通过第四层节点血小板计数进行下一步分类;当通过第三层节点CT结节边缘是否光滑进行分类后,分类为是的样本通过第四层节点是否有吸烟史进行下一步分类,分类为否的样本判断为恶性结节;
所述决策树的第五层节点包括球蛋白含量和淋巴细胞百分比;当通过第四层节点纤维蛋白原含量进行分类后,小于分割点的样本通过第五层节点球蛋白含量进行下一步分类,大于等于分割点的样本判断为恶性结节;当通过第四层节点血小板计数进行分类后,小于分割点的样本判断为良性结节,大于等于分割点的样本判断为恶性结节;当通过第四层节点是否有吸烟史进行分类后,分类为是的样本通过第五层节点淋巴细胞百分比进行下一步分类,分类为否的样本判断为恶性结节;
所述第六层节点包括单细胞百分比、CT结节边界是否清楚和白蛋白含量;当通过第五层节点球蛋白含量进行分类后,小于分割点的样本判断为良性结节,大于等于分割点的样本通过第六层节点单细胞百分比进行下一步分类;当通过第五层节点球蛋白含量进行分类后,大于分割点的样本通过第六层节点CT结节边界是否清楚进行下一步分类,小于等于分割点的样本通过第六层节点白蛋白含量进行下一步分类;
当通过第六层节点单细胞百分比进行分类后,小于分割点的样本判断为良性结节,大于等于分割点的样本判断为恶性结节;当通过第六层节点CT结节边界是否清楚进行分类后,分类为是的样本判断为良性结节,分类为否的样本判断为恶性结节;当通过第六层节点白蛋白含量进行分类后,大于等于分割点的样本判断为良性结节,小于分割点的样本判断为恶性结节。
5.按照权利要求4所述的一种孤立肺结节恶性风险预测系统,其特征在于:所述根节点年龄的分割点为58岁;
和/或,所述第二层节点白细胞计数的分割点为4.2x109/L;
和/或,所述第三层节点年龄的分割点为50岁;
和/或,所述第三层节点淋巴细胞百分比的分割点为29%;
和/或,所述第四层节点纤维蛋白原含量的分割点为4.3g/L;
和/或,所述第四层节点血小板计数的分割点为208x109/L;
和/或,所述第五层节点球蛋白含量的分割点为25g/L;
和/或,所述第五层节点淋巴细胞百分比的分割点为29%;
和/或,所述第六层节点单细胞百分比的分割点为5%;
和/或,所述第六层节点白蛋白含量的分割点为36g/L。
6.按照权利要求1-5任一项所述的一种孤立肺结节恶性风险预测系统,其特征在于:所述决策树模型通过CART算法进行构建,所述CART算法中,将孤立性肺结节患者的变量数据作为分析的自变量,是否恶性的判断结论为目标变量。
7.按照权利要求1-5任一项所述的一种孤立肺结节恶性风险预测系统,其特征在于:所述孤立性肺结节患者为通过CT扫描检测后,医生认为有必要进一步进行手术或活检的患者。
8.按照权利要求1-5任一项所述的一种孤立肺结节恶性风险预测系统,其特征在于:所述孤立性肺结节患者的结节数量为一个。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时使权利要求1-8任一项所述的系统实现以下步骤,包括:
(1)采集和/或输入孤立性肺结节患者的变量数据;
(2)将变量数据代入决策树模型进行计算,得到结节恶性概率和/或结节是否恶性的判断结论;
(3)输出结节恶性概率和/或结节是否恶性的判断结论。
10.一种计算机可读存储介质,其上存储有如权利要求9所述的计算机程序。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011034591 | 2020-09-27 | ||
CN2020110345916 | 2020-09-27 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113539498A true CN113539498A (zh) | 2021-10-22 |
Family
ID=77814869
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110744649.4A Pending CN113450910A (zh) | 2020-09-27 | 2021-06-30 | 一种基于逻辑回归模型的孤立肺结节恶性风险预测系统 |
CN202110827475.8A Pending CN113539498A (zh) | 2020-09-27 | 2021-07-21 | 一种基于决策树模型的孤立肺结节恶性风险预测系统 |
CN202110827472.4A Pending CN113539497A (zh) | 2020-09-27 | 2021-07-21 | 一种基于随机森林模型的孤立肺结节恶性风险预测系统 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110744649.4A Pending CN113450910A (zh) | 2020-09-27 | 2021-06-30 | 一种基于逻辑回归模型的孤立肺结节恶性风险预测系统 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110827472.4A Pending CN113539497A (zh) | 2020-09-27 | 2021-07-21 | 一种基于随机森林模型的孤立肺结节恶性风险预测系统 |
Country Status (1)
Country | Link |
---|---|
CN (3) | CN113450910A (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11861832B2 (en) | 2021-12-03 | 2024-01-02 | Qure.Ai Technologies Private Limited | Automatically determining a brock score |
CN114005546B (zh) * | 2021-12-31 | 2022-05-03 | 四川大学华西医院 | 一种基于随机森林模型特征空间拟合的病情预测方法 |
CN114550926A (zh) * | 2022-01-19 | 2022-05-27 | 四川大学华西医院 | 一种孤立肺结节恶性风险预测系统 |
CN114166768B (zh) * | 2022-02-14 | 2022-05-20 | 四川大学华西医院 | 不同设备检测同一指标同质化换算方法、装置、电子设备 |
CN114783607B (zh) * | 2022-05-10 | 2023-06-23 | 中南大学湘雅医院 | 一种手术输血风险预测模型及其网络计算器的构建方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102165453A (zh) * | 2008-09-26 | 2011-08-24 | 皇家飞利浦电子股份有限公司 | 用于融合临床和图像特征进行计算机辅助诊断的系统和方法 |
WO2013154998A1 (en) * | 2012-04-09 | 2013-10-17 | Duke University | Serum biomarkers and pulmonary nodule size for the early detection of lung cancer |
CN107292114A (zh) * | 2017-06-28 | 2017-10-24 | 中日友好医院 | 一种孤立性肺结节恶性概率预测模型的建立方法 |
CN109166105A (zh) * | 2018-08-01 | 2019-01-08 | 中国人民解放军南京军区南京总医院 | 人工智能医学影像的肿瘤恶性风险分层辅助诊断系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110957043A (zh) * | 2018-09-26 | 2020-04-03 | 金敏 | 疾病预测系统 |
-
2021
- 2021-06-30 CN CN202110744649.4A patent/CN113450910A/zh active Pending
- 2021-07-21 CN CN202110827475.8A patent/CN113539498A/zh active Pending
- 2021-07-21 CN CN202110827472.4A patent/CN113539497A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102165453A (zh) * | 2008-09-26 | 2011-08-24 | 皇家飞利浦电子股份有限公司 | 用于融合临床和图像特征进行计算机辅助诊断的系统和方法 |
WO2013154998A1 (en) * | 2012-04-09 | 2013-10-17 | Duke University | Serum biomarkers and pulmonary nodule size for the early detection of lung cancer |
CN107292114A (zh) * | 2017-06-28 | 2017-10-24 | 中日友好医院 | 一种孤立性肺结节恶性概率预测模型的建立方法 |
CN109166105A (zh) * | 2018-08-01 | 2019-01-08 | 中国人民解放军南京军区南京总医院 | 人工智能医学影像的肿瘤恶性风险分层辅助诊断系统 |
Non-Patent Citations (1)
Title |
---|
强永乾等: "基于数据挖掘技术构建孤立性肺结节诊断模型" * |
Also Published As
Publication number | Publication date |
---|---|
CN113539497A (zh) | 2021-10-22 |
CN113450910A (zh) | 2021-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022110278A1 (zh) | 一种用于肺结节风险性评估的系统 | |
CN113539498A (zh) | 一种基于决策树模型的孤立肺结节恶性风险预测系统 | |
Tanner et al. | Management of pulmonary nodules by community pulmonologists: a multicenter observational study | |
US20200005901A1 (en) | Cancer classifier models, machine learning systems and methods of use | |
Raman et al. | Preliminary data using computed tomography texture analysis for the classification of hypervascular liver lesions: generation of a predictive model on the basis of quantitative spatial frequency measurements—a work in progress | |
CN112259221A (zh) | 基于多种机器学习算法的肺癌诊断系统 | |
Wanders et al. | Interval cancer detection using a neural network and breast density in women with negative screening mammograms | |
KR20220131530A (ko) | 향후 폐암의 위험을 예측하기 위한 시스템 및 방법 | |
Ionescu et al. | Correlation of ultrasound features and the Risk of Ovarian Malignancy Algorithm score for different histopathological subtypes of benign adnexal masses | |
EP3685401B1 (en) | Method and apparatus for deriving a set of training data | |
CN110189824B (zh) | 原发性肝癌根治切除术的预后情况分组方法、装置和系统 | |
Chen et al. | Machine learning-based CT radiomics model distinguishes COVID-19 from non-COVID-19 pneumonia | |
Perandini et al. | Solid pulmonary nodule risk assessment and decision analysis: comparison of four prediction models in 285 cases | |
Hammer et al. | Cancer risk in nodules detected at follow-up lung cancer screening CT | |
Korkmaz et al. | Diagnosis of breast cancer in light microscopic and mammographic images textures using relative entropy via kernel estimation | |
CN115862838A (zh) | 一种基于机器学习算法的胆管癌诊断模型及其构建方法和应用 | |
CN115602327A (zh) | 一种肺结节发生肺癌风险的预测模型的构建方法 | |
CN117253625A (zh) | 肺癌筛查模型的构建装置、肺癌筛查装置、设备及介质 | |
Jung et al. | Differentiating thymoma from thymic cyst in anterior mediastinal abnormalities smaller than 3 cm | |
Wang et al. | Can peritumoral regions increase the efficiency of machine-learning prediction of pathological invasiveness in lung adenocarcinoma manifesting as ground-glass nodules? | |
CN117711615A (zh) | 基于影像组学的淋巴结转移状态分类预测方法及设备 | |
CN116047074B (zh) | 一种用于诊断和/或预测肺癌的标志物、诊断模型及其构建方法 | |
Ushasukhanya et al. | Survey on artificial intelligence techniques in the diagnosis of pleural mesothelioma | |
CN112259231A (zh) | 一种高危胃肠间质瘤患者术后复发风险评估方法与系统 | |
Hu et al. | Classification of malignant-benign pulmonary nodules in lung CT images using an improved random forest (Use style: Paper title) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211022 |
|
RJ01 | Rejection of invention patent application after publication |