CN115602327A - 一种肺结节发生肺癌风险的预测模型的构建方法 - Google Patents

一种肺结节发生肺癌风险的预测模型的构建方法 Download PDF

Info

Publication number
CN115602327A
CN115602327A CN202211353508.0A CN202211353508A CN115602327A CN 115602327 A CN115602327 A CN 115602327A CN 202211353508 A CN202211353508 A CN 202211353508A CN 115602327 A CN115602327 A CN 115602327A
Authority
CN
China
Prior art keywords
nodule
lung cancer
risk
lung
nomogram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211353508.0A
Other languages
English (en)
Inventor
肖海帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Cancer Hospital
Original Assignee
Hunan Cancer Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Cancer Hospital filed Critical Hunan Cancer Hospital
Priority to CN202211353508.0A priority Critical patent/CN115602327A/zh
Publication of CN115602327A publication Critical patent/CN115602327A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明提供一种肺结节发生肺癌风险的预测模型的构建方法,包括:结合可疑肺结节人群的流行病学危险因素和LDCT筛查结节参数的数据信息,构建可疑性结节人群的结节库;通过单因素和多因素Cox回归分析,筛选得到6个肺癌发生的独立危险因子,同时将6个独立危险因子用于构建肺癌预测的列线图预测模型,并绘制列线图,再对构建的模型进行外部验证;基于列线图预测模型对可疑肺结节筛查者患肺癌可能性进行风险程度分层分析,验证列线图预测模型的预测效能;利用构建的列线图预测模型对可疑肺结节筛查者进行肺癌发生的预测,获得肺癌发生高危组和低危组;本发明能够减少LDCT筛查的假阳性率,提高肺癌预测的准确性。

Description

一种肺结节发生肺癌风险的预测模型的构建方法
技术领域
本发明涉及数据分析技术领域,尤其涉及一种肺结节发生肺癌风险的预测模型的构建方法。
背景技术
肺癌(Lung cancer,LC)的发病率和死亡率持续位居首位,其发病率分别位居男、女性恶性肿瘤发病顺位的第一位和第二位(仅次于乳腺癌)。由于肺癌患者预后差,大部分肺癌患者初诊时已进展至晚期,我国肺癌五年发病率仅为19.7%。同时患者住院期间的诊治费用给社会和家庭带来了沉重的经济负担,这已成为重大的公共卫生问题。若肺癌患者能早期(Ⅰ期)发现并诊治,五年发病率将提高至77%~92%,能很大程度降低社会和家庭负担,有效改善患者生存质量。目前尚缺乏有效的肺癌筛查和早期诊断方法,患者能在早期得到诊治的比例非常低,仅为15%左右。因此,深入探索肺癌的早期筛查和诊断策略,对于控制其流行和减轻疾病负担具有重要的现实意义。
近年来,学术界涌现一系列肺癌早期筛查的研究,从最初胸片、痰细胞方法的提出,到X线胸片,再到低剂量螺旋CT(Low-dose spiral CT,LDCT)筛查方法的应用,经历了一个漫长的研究历程。有研究证据表明,LDCT筛查能降低死亡率。同时,有研究表明LDCT技术在我国社区肺癌高危人群中能有效发现早期肺癌。然而,LDCT在肺癌筛查应用中,通过识别可疑肺结节普遍存在假阳性率过高的不足之处。假阳性率过高势必引起筛查者不必要的精神紧张、过度诊疗而造成医疗资源的浪费和身体诊治创伤。
因此,亟需提供一种肺结节发生肺癌风险的预测模型的构建方法,能够有效的预测早期肺癌,且避免假阳性的筛查。
发明内容
本发明的主要目的是提供一种肺结节发生肺癌风险的预测模型的构建方法,克服上述不足,在减少假阳性的筛查的基础上,能够有效的预测早期肺癌。
为实现上述目的,本发明提供一种肺结节发生肺癌风险的预测模型的构建方法,包括:
结合可疑肺结节人群的流行病学危险因素和LDCT筛查结节参数的数据信息,构建可疑性结节人群的结节库;
通过单因素和多因素Cox回归分析可疑肺结节筛查者发生肺癌的风险因素,筛选得到6个肺癌发生的独立危险因子,同时将6个所述独立危险因子用于构建肺癌预测的列线图预测模型,并绘制列线图,再对构建的预测模型进行外部验证;6个所述独立危险因子分别为结节直径、结节密度、结节边缘、厨房油烟暴露、精神压抑史和高血压史;
基于所述列线图预测模型对可疑肺结节筛查者患肺癌可能性进行风险程度分层分析,验证列线图预测模型的预测效能;利用构建的列线图预测模型对可疑肺结节筛查者进行肺癌发生的预测,获得肺癌发生高危组和低危组。
作为上述方案进一步的改进,获取可疑肺结节人群的流行病学危险因素的步骤包括:
选择符合条件的筛查人群,进行肺癌高危评估危险因素调查问卷,并将调查问卷的信息输入风险评估系统获得个体的患癌风险指数;
所述危险因素调查问卷包括但不限于了参加者基本信息、生活的环境、饮食的习惯、生活方式和生活习惯、癌症家族史、心理与情绪、主要既往史、女性生理及生育史等;
其中,与肺癌评估相关的因素包括:吸烟指数、日常平均新鲜蔬菜摄入量、长期生活环境空气污染、日常体育锻炼情况、慢性呼吸系统疾病史、肺癌家族史、被动吸烟史。
作为上述方案进一步的改进,在获取LDCT筛查结节参数的数据信息前,还需要通过个体癌症风险的评估模型初步判断参加者是否为肺癌高危人群,具体的,通过国家癌症中心构建的信息系统中存储的评估模型,初步判断参加者是否为肺癌高危人群。
作为上述方案进一步的改进,若被初步判断为肺癌高危人群,则对所述肺癌高危人群进行低剂量螺旋CT筛查,获得肺癌高危人群结节的每个结节的位置、密度、大小、边缘和性质,并判断结节的种类以及是否为阳性,并出具筛查人员对应的LDCT筛查记录表;
然后根据低剂量螺旋CT筛查结果建立肺癌高危者低剂量螺旋CT筛查队列并进行随访,并对筛查人员的随访信息进行记录。
作为上述方案进一步的改进,所述肺癌预测的列线图诊断模型的建立方法如下:
对可疑肺结节人群以6:4的比例随机分为建模组和验证组,建模组中,用K-M法绘制所有变量的生存曲线,并通过log-rank检验方法进行统计学比较分析;
单因素比较分析之后,P值小于0.1的变量进行Cox回归分析,所述回归模型以最小信息准则(Akaike information criterion,AIC)逐步向后方法筛查变量;
确定进入预测模型的变量包括结节直径、结节密度、结节边缘、厨房油烟暴露、精神压抑史和高血压史。
作为上述方案进一步的改进,所述绘制列线图的方法如下:
S1:获取回归系数:通过Cox逐步回归分析,将结节直径、结节密度、结节边缘、厨房油烟暴露、精神压抑史和高血压史六个变量进入所述预测模型获得变量的回归系数及其赋值;
S2:回归系统转换:对回归系数做转化后通过图形的形式展示,根据各变量的系数和赋值范围转换为对应的数值;
S3:对步骤S2中转换结果赋分并计算各个变量的总得分;
S4:绘制发病率标尺:根据Cox回归模型计算得出1年或3年或5年的无病发病概率;根据总得分标尺绘制相应的发病概率标尺。
作为上述方案进一步的改进,所述步骤S2中,回归系数转换的转换公式为:
Nomogram结节直径(≥15mm vs 5-8mm)=2.54×(2-1)≈2.54
Nomogram结节直径(8-15mm vs 5-8mm)=1.46×(2-1)≈1.46
Nomogram结节密度(部分实性vs实性)=0.24×(2-1)≈0.24
Nomogram结节密度(非实性vs实性)=-1.58(2-1)≈-1.58
Nomogram结节边缘=-1.21×(1-0)≈-1.21
Nomogram厨房油烟暴露=0.87×(1-0)≈0.87
Nomogram精神压抑史=-0.82×(1-0)≈-0.82
Nomogram高血压史=0.80×(1-0)≈0.80
作为上述方案的进一步的改进,所述获得肺癌高危组和低危组的方法如下:基于建立的列线图诊断模型计算每位可疑肺结节的总得分后,首先根据肺癌转归的ROC曲线,获得最佳截断值;再根据截断值将可疑肺结节患者分为肺癌高危组和低危组,并通过K-M法绘制生存曲线。
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述肺结节发生肺癌风险的预测模型的构建方法。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述肺结节发生肺癌风险的预测模型的构建方法。
由于本发明采用了以上技术方案,使本申请具备的有益效果在于:
本发明提供的肺结节发生肺癌风险的预测模型的构建方法,首先结合可疑肺结节人群的流行病学危险因素和LDCT筛查结节参数的数据信息,构建可疑性结节人群的结节库;再通过单因素和多因素Cox回归分析可疑肺结节筛查者发生肺癌的风险因素,筛选得到6个肺癌发生的独立危险因子,同时将该6个独立危险因子用于构建肺癌预测的列线图预测模型,并绘制列线图,再对构建的模型进行外部验证;6个所述独立危险因子分别为结节直径、结节密度、结节边缘、厨房油烟暴露、精神压抑史和高血压史;然后基于所述列线图预测模型对患者信息进行风险程度分层分析,验证列线图预测模型的预测效能;利用构建的列线图预测模型进行肺癌的预测,获得肺癌高危组和低危组。通过本发明提供的构建方法能够快速有效的对可疑肺结节人群进一步筛选出肺癌高危者,由于本发明在构建列线图诊断模型时一方面考虑了可疑肺结节人群的流行病学危险因素,另一方面将结节直径、结节密度、结节边缘、厨房油烟暴露、精神压抑史和高血压史6个独立危险因子作为变量纳入Cox回归模型,构建肺癌预测的列线图预测模型,并绘制列线图,可以减少LDCT筛查的假阳性率,提高肺癌预测的准确性。
附图说明
为了更清楚地说明本发明实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明公开的一种肺结节发生肺癌风险的预测模型的构建方法的流程图;
本发明目的的实现、功能特点及优点将结合实施方式,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明的一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
本发明各个实施方式之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参照图1,本发明提供一种肺结节发生肺癌风险的预测模型的构建方法,包括:
结合可疑肺结节人群的流行病学危险因素和LDCT筛查结节参数的数据信息,构建可疑性结节人群的结节库;
通过单因素和多因素Cox回归分析可疑肺结节筛查者发生肺癌的风险因素,筛选得到6个肺癌发生的独立危险因子,同时将6个所述独立危险因子用于构建肺癌预测的列线图预测模型,并绘制列线图,再对构建的预测模型进行外部验证;6个所述独立危险因子分别为结节直径、结节密度、结节边缘、厨房油烟暴露、精神压抑史和高血压史;
基于所述列线图预测模型对可疑肺结节筛查者患肺癌可能性进行风险程度分层分析,验证列线图预测模型的预测效能;利用构建的列线图预测模型对可疑肺结节筛查者进行肺癌发生的预测,获得肺癌发生高危组和低危组;
通过本发明提供的构建方法能够快速有效的对可疑肺结节人群进一步筛选出肺癌高危者,由于本发明在构建列线图诊断模型时考虑了可疑肺结节人群的流行病学危险因素和LDCT下结节参数,将结节直径、结节密度、结节边缘、厨房油烟暴露、精神压抑史和高血压史6个指标作为变量纳入Cox回归模型,构建肺癌预测的列线图预测模型,并绘制列线图,可以减少筛查的假阳性率,提高肺癌预测的准确性,为肺结节患者的分流管理和早诊早治提供科学依据。
作为优选实施例,获取可疑肺结节人群的流行病学危险因素的步骤包括:
选择符合条件的筛查人群,进行肺癌高危评估危险因素调查问卷,并将调查问卷的信息输入风险评估系统获得个体的患癌风险指数;
所述危险因素调查问卷包括但不限于了参加者基本信息、生活的环境、饮食的习惯、生活方式和生活习惯、癌症家族史、心理与情绪、主要既往史、女性生理及生育史等;
其中,与肺癌评估相关的因素包括:吸烟指数、日常平均新鲜蔬菜摄入量、长期生活环境空气污染、日常体育锻炼情况、慢性呼吸系统疾病史、肺癌家族史、被动吸烟史;
在本实施例中,参加筛查人群的选择标准是:(1)本城市户籍的常住人口(本市居住年限3年以上);(2)年龄是40~74岁(身份证为准);(3)自愿参加并且能接受问卷调查;(4)无严重器官功能障碍或精神疾患;(5)已确诊癌症患者和/或其他严重内外科疾病并正治疗的患者要排除,从而确保基础数据的有效性,为后续的评估以及列线图预测模型的构建提供有效数据支持。
作为优选实施例,在获取LDCT筛查结节参数的数据信息前,还需要通过个体癌症风险的评估模型初步判断参加者是否为肺癌高危人群,具体的通过国家癌症中心构建的信息系统中存储的评估模型,初步判断参加者是否为肺癌高危人群。
作为优选实施例,若被初步判断为肺癌高危人群,则对所述肺癌高危人群进行低剂量螺旋CT筛查,获得肺癌高危人群结节的每个结节的位置、密度、大小、边缘和性质,并判断结节的种类以及是否为阳性,并出具筛查人员对应的LDCT筛查记录表;
然后根据低剂量螺旋CT筛查结果建立肺癌高危者低剂量螺旋CT筛查队列并进行随访,并对筛查人员的随访信息进行记录。
需要说明的是,在进行低剂量螺旋CT筛查时低剂量螺旋CT评价和图像观察评价,具体的低剂量螺旋CT评价的具体方法如下:
首先采用64排低剂量螺旋CT进行筛查,具体的,步骤为:1)设置扫描基本参数:管电压为120kVp,管电流≤30mAs;扫描层厚为5mm,层间距5mm;重建层厚1.0~1.25mm连续(层间隔为0);2)扫描范围为肺尖至肋膈角(含全肺),在受检者吸气末一次屏气时扫描完毕(检查时应有专人训练受检者屏气);3)图像储存:将5mm层厚的常规CT图像及1.0~1.25mm薄层的连续横断面图像传入图像储存和传输系统(picture archiving and communicationsystems,PACS),并且刻录为光盘保存;4)启动螺旋CT“Dose Report(剂量报告)”功能,记下扫描时剂量参数,包括剂量长度乘积(DLP)、容积CT剂量加权指数(CTDIvol)和重建视野(D-FOV)等其他数据,一并存储。
图像观察评价的具体方法如下:
1)由胸部专业的放射科医师于CT工作站或者PACS系统的专用监视器观察图像,选择标准肺窗(窗宽/窗位为1600~2000Hu/600~700Hu)、纵隔窗(软组织窗为350~380/10~15Hu)及骨窗(2000/400Hu)来观察;
2)结节测量:记录每个结节的位置、密度、大小、边缘和性质。用电子测量尺(工作站或PACS系统内自带)采用结节最大截面测量长径和宽径(长径,为结节最大截面最大径;宽径,为与长径垂直最大径)。
通过低剂量螺旋CT筛查发现的结节分为2大类:①确定良性结节或钙化边界清楚,密度高可见弥漫性钙化、中心层状或爆米花样;②不确定结节或非钙化性结节。结节性质分为实性结节(结节能够完全遮盖肺实质)、部分实性结节(部分能遮盖肺实质)和非实性结节(不能遮盖肺实质)。
肺内结节记录表中,满足以下任一条件即为阳性肺结节:1)实性/部分实性结节平均径≥5mm;2)非实性结节平均径≥8mm;3)支气管腔内结节。
疑似肺癌:根据CT诊断报告,检出阳性结节中影像学诊断结果提示肺癌或不排除肺癌。同时注意其它异常发现:肺气肿、其他肺弥漫性病变、冠状动脉钙化、纵隔、乳腺、甲状腺、腹部、骨质等脏器,并在诊断报告中标注。所有的筛查放诊科医生需填写《LDCT肺内结节记录表》、LDCT其他情况填写《LDCT检查情况记录表》、同时写出《LDCT诊断报告》。
作为优选实施例,所述肺癌预测的列线图诊断模型的建立方法如下:对可疑肺结节人群以6:4的比例随机分为建模组和验证组,建模组中,用K-M法绘制所有变量的生存曲线,并通过log-rank检验方法进行统计学比较分析;
单因素比较分析之后,P值小于0.1的变量进行Cox回归分析,所述回归模型以最小信息准则(Akaike information criterion,AIC)逐步向后方法筛查变量;
确定进入预测模型的变量包括但不限于结节直径、结节密度、结节边缘、厨房油烟暴露、精神压抑史和高血压史。
作为优选实施例,所述绘制列线图的方法如下:
S1:获取回归系数:通过Cox逐步回归分析,将结节直径、结节密度、结节边缘、厨房油烟暴露、精神压抑史和高血压史六个变量进入所述预测模型获得变量的回归系数及其赋值;具体见表1
表1Cox回归分析进入模型变量回归系数及变量赋值表
Figure BDA0003919960640000091
S2:回归系统转换:对回归系数做转化后通过图形的形式展示,根据各变量的系数和赋值范围转换为对应的数值;回归系数转换的转换公式为:
Nomogram结节直径(≥15mm vs 5-8mm)=2.54×(2-1)≈2.54
Nomogram结节直径(8-15mm vs 5-8mm)=1.46×(2-1)≈1.46
Nomogram结节密度(部分实性vs实性)=0.24×(2-1)≈0.24
Nomogram结节密度(非实性vs实性)=-1.58(2-1)≈-1.58
Nomogram结节边缘=-1.21×(1-0)≈-1.21
Nomogram厨房油烟暴露=0.87×(1-0)≈0.87
Nomogram精神压抑史=-0.82×(1-0)≈-0.82
Nomogram高血压史=0.80×(1-0)≈0.80
S3:对步骤S2中转换结果赋分并计算各个变量的总得分;
具体的,一般绘制列线图要求每个变量的分值范围在0-10(或者0-100)之间。转换值为正值时,与赋值大小成正比例相关,即赋值越大,列线图中赋分越大;而为负值则相反,赋值越大,列线图中赋分越小。将转换值绝对值从大至小排列,排名第一的变量即对预测结果影响最大,依次类推,列线图中的每个因子的标尺均以排名第一的变量为基础转换后赋分所绘,见表2。
表2赋分结果
Figure BDA0003919960640000101
计算总得分:完成因子赋分过程后,每个因子均能在列线图模型上方刻度尺上得到相应的得分(Points),将每个因子的最大得分值相加即得到总得分(Total points)的最大分值,本例总得分的最大值=10+7.17+4.76+3.43+3.23+3.15≈31。总得分标尺绘制在列线图所有因子的最下方。
S4:绘制发病率标尺:根据Cox回归模型计算得出1年或3年或5年的无病发病概率;根据总得分标尺绘制相应的发病概率标尺。
建立预测模型的目的在于能准确的预测可疑肺结节肺癌转归的概率,将可疑肺结节不同风险转归的人群区分开来,这种能力称为模型的区分度(discrimination)。模型的准确性和区分度一般用一致性指数(C-index)和校准图来评估。一致性指数是估计预测结果与实际观察结果相一致的概率,类似于ROC曲线下的面积,通过bootstrap自抽样方法计算获得。一致性指数一般在0.5至1.0之间,C值等于0.5意味着模型无预测区分度,而C值为1.0时表示该模型完美的把每个病人的结局区分开来,即预测能力是最好的。校准图用来反映列线图预测概率与观察概率之间的真实关联。其基本思想为,根据肺癌列线图模型预测每例可疑肺结节1年/3年/5年不患肺癌的概率,按概率大小从高至低对患者排列成一个队列,对其分段,同时计算每个分队列发病概率的平均预测值和相应的真实概率值,从而再以发病概率预测值为X轴和真实概率值为Y轴的坐标图中获得每个分段队列的校准点。校准图的标准曲线即最佳曲线是1条经过了坐标原点、斜率为1的直线,预测校准曲线与标准曲线越接近,证明了列线图模型的符合度越好。
为检验本发明提供的预测模型的拟合能力,需对模型进行验证,模型验证包括Bootstrap自抽样验证和交叉验证。Bootstrap自抽样验证为采用Bootstrap自抽样方法重复抽样1000次,以减少模型出现了过度的拟合,以此获得可靠的模型预测准确性的评估值;Bootstrap自抽样方法为对源样本地人群抽取一定数量样本,允许同一样本被多次抽取,产生的新样本对创建的列线图模型进行内部评价,一般用C-index评价。之后Bootstrap自抽样内部验证重复进行1000次,从而得到模型最佳分辨度。同时建立的预测模型应用到验证组中进行交叉验证。交叉验证是指将源数据进行分组,一大部分样本为训练集用来创建模型,另一小部分样本为验证集用来对已建立的模型进行评价验证。本发明将入组对象随机按6:4的比例分为建模组(n=606)和验证组(n=405)。建模组用于构建可疑肺结节肺癌预测列线图模型,验证组对所构建模型进行验证。
根据计算得到内部验证的C-index指数为0.847,外部验证的C-index指数为0.814,1年的校准图拟合很好,3年和5年的校准图拟合较好。
作为优选的实施例,所述获得肺癌高危组和低危组的方法如下:基于建立的列线图诊断模型计算每位可疑肺结节的总得分后,首先根据肺癌转归的ROC曲线,获得最佳截断值;再根据截断值将可疑肺结节患者分为肺癌高危组和低危组,并通过K-M法绘制生存曲线,组间比较用log-rank检验方法。发现两组间的生存曲线表现出明显的差异(P<0.001)。
为了进一步的说明采用本发明提供的肺结节发生肺癌风险的预测模型的列线图预测高风险人群和低风险人群,举例说明如下:
病例1:结节直径6.5mm,结节密度为实性结节,边缘光滑,无厨房油烟暴露,有精神压抑史,有高血压疾病史,根据列线图计算他们分别得分:0,6.25,6.2,0,0,0,3.1,总得分15.55分,属于肺癌预测低风险人群,溯源其病理诊断为非肺癌。
病例2:,结节直径6.6mm,结节密度为部分实性结节,边缘不光滑,有厨房油烟暴露,无精神压抑史,无高血压疾病史,根据列线图计算他们分别得分:0,7.2,4.8,3.2,3.2,0,总得分18.4,属于肺癌预测低风险人群,溯源其病理诊断为非肺癌。
病例3:结节直径24.5mm,结节密度为部分实性结节,边缘不光滑,有厨房油烟暴露,无精神压抑史,无高血压疾病史,根据列线图计算他们分别得分:10,7.2,4.8,3.2,3.2,0,总得分28.4,属于肺癌预测高风险人群,溯源其病理诊断为肺癌。
以上案例证实列线图能够很好的反映预测模型对可疑肺癌的鉴别能力,具有很好的使用价值。
实施例2:
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述肺结节发生肺癌风险的预测模型的构建方法。
实施例3:
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述肺结节发生肺癌风险的预测模型的构建方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围。

Claims (10)

1.一种肺结节发生肺癌风险的预测模型的构建方法,其特征在于,包括:
结合可疑肺结节人群的流行病学危险因素和LDCT筛查结节参数的数据信息,构建可疑性结节人群的结节库;
通过单因素和多因素Cox回归分析可疑肺结节筛查者发生肺癌的风险因素,筛选得到6个肺癌发生的独立危险因子,同时将6个所述独立危险因子用于构建肺癌预测的列线图预测模型,并绘制列线图,再对构建的预测模型进行外部验证;6个所述独立危险因子分别为结节直径、结节密度、结节边缘、厨房油烟暴露、精神压抑史和高血压史;
基于所述列线图预测模型对可疑肺结节筛查者患肺癌可能性进行风险程度分层分析,验证列线图预测模型的预测效能;利用构建的列线图预测模型对可疑肺结节筛查者进行肺癌发生的预测,获得肺癌发生高危组和低危组。
2.根据权利要求1所述的一种肺结节发生肺癌风险的预测模型的构建方法,其特征在于,获取可疑肺结节人群的流行病学危险因素的步骤包括:
选择符合条件的筛查人群,进行肺癌高危评估危险因素调查问卷,并将调查问卷的信息输入风险评估系统获得个体的患癌风险指数;
所述危险因素调查问卷包括参加者基本信息、生活的环境、饮食的习惯、生活方式和生活习惯、癌症家族史、心理与情绪、主要既往史、女性生理及生育史;
其中,与肺癌评估相关的因素包括:吸烟指数、日常平均新鲜蔬菜摄入量、长期生活环境空气污染、日常体育锻炼情况、慢性呼吸系统疾病史、肺癌家族史、被动吸烟史。
3.根据权利要求1或2所述的一种肺结节发生肺癌风险的预测模型的构建方法,其特征在于,在获取LDCT筛查结节参数的数据信息前,还需要通过个体癌症风险的评估模型初步判断参加者是否为肺癌高危人群。
4.根据权利要求3所述的一种肺结节发生肺癌风险的预测模型的构建方法,其特征在于,若被初步判断为肺癌高危人群,则对所述肺癌高危人群进行低剂量螺旋CT筛查,获得肺癌高危人群结节的每个结节的位置、密度、大小、边缘和性质,并判断结节的种类以及是否为阳性,同时出具筛查人员对应的LDCT筛查记录表;
然后根据低剂量螺旋CT筛查结果建立肺癌高危者低剂量螺旋CT筛查队列并进行随访,并对筛查人员的随访信息进行记录。
5.根据权利要求4所述的一种肺结节发生肺癌风险的预测模型的构建方法,其特征在于,所述肺癌预测的列线图预测模型的建立方法如下:
对可疑肺结节人群以6:4的比例随机分为建模组和验证组,建模组中,用K-M法绘制所有变量的生存曲线,并通过log-rank检验方法进行统计学比较分析;
单因素比较分析之后,P值小于0.1的变量进行Cox回归分析,所述回归模型以最小信息准则逐步向后方法筛查变量;
确定进入预测模型的变量包括结节直径、结节密度、结节边缘、厨房油烟暴露、精神压抑史和高血压史。
6.根据权利要求5所述的一种肺结节发生肺癌风险的预测模型的构建方法,其特征在于,所述绘制列线图的绘制方法如下:
S1:获取回归系数:通过Cox逐步回归分析,将结节直径、结节密度、结节边缘、厨房油烟暴露、精神压抑史和高血压史六个变量进入所述预测模型获得变量的回归系数及其赋值;
S2:回归系统转换:对回归系数做转化后通过图形的形式展示,根据各变量的系数和赋值范围转换为对应的数值;
S3:对步骤S2中转换结果赋分并计算各个变量的总得分;
S4:绘制发病率标尺:根据Cox回归模型计算得出1年或3年或5年的无病生存概率;根据总得分标尺绘制相应的发病概率标尺。
7.根据权利要求6所述的一种肺结节发生肺癌风险的预测模型的构建方法,其特征在于,所述步骤S2中,回归系数转换的转换公式为:
Nomogram结节直径(≥15mmvs5-8mm)=2.54×(2-1)≈2.54
Nomogram结节直径(8-15mmvs5-8mm)=1.46×(2-1)≈1.46
Nomogram结节密度(部分实性vs实性)=0.24×(2-1)≈0.24
Nomogram结节密度(非实性vs实性)=-1.58(2-1)≈-1.58
Nomogram结节边缘=-1.21×(1-0)≈-1.21
Nomogram厨房油烟暴露=0.87×(1-0)≈0.87
Nomogram精神压抑史=-0.82×(1-0)≈-0.82
Nomogram高血压史=0.80×(1-0)≈0.80
8.根据权利要求7所述的一种肺结节发生肺癌风险的预测模型的构建方法,其特征在于,所述获得肺癌高危组和低危组的方法如下:
基于建立的列线图预测模型计算每位可疑肺结节的总得分后,首先根据肺癌转归的ROC曲线,获得最佳截断值;再根据截断值将可疑肺结节患者分为肺癌高危组和低危组,并通过K-M法绘制生存曲线。
9.一种信息数据处理终端,其特征在于,所述信息数据处理终端包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1-8任意一项所述的肺结节发生肺癌风险的预测模型的构建方法。
10.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1-8任意一项所述的所述肺结节发生肺癌风险的预测模型的构建方法。
CN202211353508.0A 2022-11-01 2022-11-01 一种肺结节发生肺癌风险的预测模型的构建方法 Pending CN115602327A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211353508.0A CN115602327A (zh) 2022-11-01 2022-11-01 一种肺结节发生肺癌风险的预测模型的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211353508.0A CN115602327A (zh) 2022-11-01 2022-11-01 一种肺结节发生肺癌风险的预测模型的构建方法

Publications (1)

Publication Number Publication Date
CN115602327A true CN115602327A (zh) 2023-01-13

Family

ID=84851313

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211353508.0A Pending CN115602327A (zh) 2022-11-01 2022-11-01 一种肺结节发生肺癌风险的预测模型的构建方法

Country Status (1)

Country Link
CN (1) CN115602327A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116486922A (zh) * 2023-04-18 2023-07-25 中日友好医院(中日友好临床医学研究所) 一种基于基因多态性及血浆细胞因子的肺移植排斥预测模型及其应用

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116486922A (zh) * 2023-04-18 2023-07-25 中日友好医院(中日友好临床医学研究所) 一种基于基因多态性及血浆细胞因子的肺移植排斥预测模型及其应用
CN116486922B (zh) * 2023-04-18 2024-01-23 中日友好医院(中日友好临床医学研究所) 一种基于基因多态性及血浆细胞因子的肺移植排斥预测方法及应用

Similar Documents

Publication Publication Date Title
Davila et al. Use of surveillance for hepatocellular carcinoma among patients with cirrhosis in the United States
Knottnerus et al. The evidence base of clinical diagnosis: theory and methods of diagnostic research
GETTY et al. Enhanced interpretation of diagnostic images
Volpicelli et al. A comparison of different diagnostic tests in the bedside evaluation of pleuritic pain in the ED
Wanders et al. Interval cancer detection using a neural network and breast density in women with negative screening mammograms
JP2002517836A (ja) 乳癌の危険性のコンピュータによる評価方法およびシステム
Hwang et al. Deep learning algorithm for surveillance of pneumothorax after lung biopsy: a multicenter diagnostic cohort study
Kim et al. CT-based deep learning model to differentiate invasive pulmonary adenocarcinomas appearing as subsolid nodules among surgical candidates: comparison of the diagnostic performance with a size-based logistic model and radiologists
de Margerie-Mellon et al. Artificial intelligence: A critical review of applications for lung nodule and lung cancer
EP3878353A1 (en) Cad device and method for assisting an estimation of lung disease from medical images
CN113539497A (zh) 一种基于随机森林模型的孤立肺结节恶性风险预测系统
Zheng et al. Natural language processing to identify pulmonary nodules and extract nodule characteristics from radiology reports
CN115376706B (zh) 一种基于预测模型的乳腺癌药物方案的预测方法及装置
CN111247592A (zh) 用于随时间量化组织的系统和方法
Li et al. Development and multicenter validation of a CT-based radiomics signature for predicting severe COVID-19 pneumonia
Jeny et al. The place of high-resolution computed tomography imaging in the investigation of interstitial lung disease
Kim et al. Applications of artificial intelligence in the thorax: a narrative review focusing on thoracic radiology
CN115602327A (zh) 一种肺结节发生肺癌风险的预测模型的构建方法
Lauritzen et al. Assessing breast cancer risk by combining ai for lesion detection and mammographic texture
CN111192687A (zh) 一种进展期阑尾炎列线图预测模型及其用途
CN114998203A (zh) 一种基于人工智能的职业性尘肺病精准诊断系统及方法
CN113393938A (zh) 一种融合影像和临床特征信息的乳腺癌风险预测系统
US20170140123A1 (en) Method for prognosing a risk of occurrence of a disease
Dachman et al. Structured reporting and quality control in CT colonography
Byrne Body Composition and Biomarkers to Explore Disparities in Sarcopenia and Inflammation of Lung Cancer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination