CN114496306A - 基于机器学习的预后生存阶段预测方法和系统 - Google Patents
基于机器学习的预后生存阶段预测方法和系统 Download PDFInfo
- Publication number
- CN114496306A CN114496306A CN202210109421.2A CN202210109421A CN114496306A CN 114496306 A CN114496306 A CN 114496306A CN 202210109421 A CN202210109421 A CN 202210109421A CN 114496306 A CN114496306 A CN 114496306A
- Authority
- CN
- China
- Prior art keywords
- information
- survival
- data
- patient
- postoperative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/60—ICT specially adapted for the handling or processing of medical references relating to pathologies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于机器学习的预后生存阶段预测方法和系统,所述方法包括:获取既往预设时间段内的患者原始信息数据,并对所述患者原始信息数据进行整合,以得到无复发时间的第一数据集和带有复发时间的第二数据集;基于各对应患者所述术前信息、术后信息和生存状态,分析得到所述术前信息、所述术后信息与所述生存状态之间的相关程度;在所述第一数据集中训练得到术后生存几率预测模型;根据所述术后生存几率模型,判定目标患者的生存几率小于或等于预设值,则在所述第二数据集中训练得到生存时间段预测模型。解决了无法基于大数据作出预后生存情况判断的技术问题。
Description
技术领域
本发明涉及数据统计技术领域,尤其涉及一种基于机器学习的预后生存阶段预测方法和系统。
背景技术
目前,手术、放疗、化疗、生物治疗是治疗癌症的四大手段。以唾液腺癌的治疗为例,对于唾液腺癌的治疗目前主张采用综合序列治疗,即针对患者的具体情况,采取有计划、分步骤的多种治疗手段,以期取得最佳治疗效果。但是,在医疗手段实施开始之前,目前无法结合大数据给出基本的预后生存情况判断,无法为医患提供较为准确的预后结果预测。并且,现有技术无法规范化保存患者的病情和预后信息,无法形成历史患者数据积累。
发明内容
本发明的目的是提供一种基于机器学习的预后生存阶段预测方法和系统,以至少部分解决现有技术中存在的无法基于大数据作出预后生存情况判断的技术问题。该目的是通过以下技术方案实现的:
本发明提供一种基于机器学习的预后生存阶段预测方法,所述方法包括:
获取既往预设时间段内的患者原始信息数据,并对所述患者原始信息数据进行整合,以得到无复发时间的第一数据集和带有复发时间的第二数据集,各数据集均包括对应患者的术前信息、术后信息和生存状态;
基于各对应患者所述术前信息、术后信息和生存状态,分析得到所述术前信息、所述术后信息与所述生存状态之间的相关程度;
基于所述术前信息、所述术后信息与所述生存状态之间的相关程度,在所述第一数据集中训练得到术后生存几率预测模型;
根据所述术后生存几率模型,判定目标患者的生存几率小于或等于预设值,则在所述第二数据集中训练得到生存时间段预测模型。
进一步地,所述分析得到所述术前信息、所述术后信息与所述生存状态之间的相关程度,之后还包括:
分析多种所述术前信息、多种所述术后信息对所述生存状态的影响程度,以得到多个影响因素对应的影响程度结果;
基于所述影响程度结果对各所述影响因素进行排序。
进一步地,所述分析多种所述术前信息、多种所述术后信息对所述生存状态的影响程度,具体包括:
利用卡方检验、F检验、信息增益、Pearson相关性、Spearman相关性和决策树算法,分析多种所述术前信息、多种所述术后信息对所述生存状态的影响程度。
进一步地,所述分析得到所述术前信息、所述术后信息与所述生存状态之间的相关程度,具体包括:
利用Kaplan-Meier分析法,分析得到所述术前信息、所述术后信息与所述生存状态之间的相关程度。
进一步地,所述对所述患者原始信息数据进行整合,具体包括:
将术前信息、术后信息和生存状态分别划分为多个必要特征;
遍历所述患者原始信息数据,并删除未包含全部必要特征的数据;
对删除后的剩余数据进行预处理,并将预处理后的数据划分为训练集和验证集。
进一步地,所述对删除后的剩余数据进行预处理,具体包括:
利用分期特征和远处转移特征,对剩余数据进行独热编码和归一化处理,以得到所述训练集和所述验证集。
进一步地,所述训练集与所述验证集的数据比例为9:1。
本发明还提供一种基于机器学习的预后生存阶段预测系统,用于实施如上所述的方法,所述系统包括:
数据处理单元,用于获取既往预设时间段内的患者原始信息数据,并对所述患者原始信息数据进行整合,以得到无复发时间的第一数据集和带有复发时间的第二数据集,各数据集均包括对应患者的术前信息、术后信息和生存状态;
相关度分析单元,用于基于各对应患者所述术前信息、术后信息和生存状态,分析得到所述术前信息、所述术后信息与所述生存状态之间的相关程度;
第一预测模型生成单元,用于基于所述术前信息、所述术后信息与所述生存状态之间的相关程度,在所述第一数据集中训练得到术后生存几率预测模型;
第二预测模型生成单元,用于根据所述术后生存几率模型,判定目标患者的生存几率小于或等于预设值,则在所述第二数据集中训练得到生存时间段预测模型。
本发明还提供一种智能终端,所述装置包括:数据采集器、处理器和存储器;
所述数据采集器用于采集数据;所述存储器用于存储一个或多个程序指令;所述处理器,用于执行一个或多个程序指令,用以执行如上所述的方法。
本发明还提供一种计算机可读存储介质,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行如上所述的方法。
本发明提供的基于机器学习的预后生存阶段预测方法,以原始数据为基础,结合人工智能机器学习算法,构建了预后生存模型,能够辅助医生对患者的预后进行预测。并基于统计学分析得出对预后生存产生重要影响的因素,并对其影响程度进行排序,以使得预后模型预测准确性更高。解决了现有技术中存在的无法基于大数据作出预后生存情况判断的技术问题。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的附图标记表示相同的部件。在附图中:
图1为本发明所提供的基于机器学习的预后生存阶段预测方法一种具体实施方式的流程图;
图2为特征重要度排序图;
图3为本发明所提供的基于机器学习的预后生存阶段预测系统一种具体实施方式的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明提出一种基于机器学习的预后生存阶段预测方法,能够较为准确地给出影响患者病情的因素排序,并据此分阶段对患者进行术后生存预测,以规范化保存患者详细数据。
在一种具体实施方式中,如图1所示,本发明提供的基于机器学习的预后生存阶段预测方法,包括以下步骤:
S1:获取既往预设时间段内的患者原始信息数据,并对所述患者原始信息数据进行整合,以得到无复发时间的第一数据集和带有复发时间的第二数据集,各数据集均包括对应患者的术前信息、术后信息和生存状态。
在对所述患者原始信息数据进行整合时,包括以下步骤:
S101:将术前信息、术后信息和生存状态分别划分为多个必要特征,这些特征可以包括表征疾病类型、疾病病理类型,以及所处分期等各种特征信息。
S102:遍历所述患者原始信息数据,并删除未包含全部必要特征的数据;
S103:对删除后的剩余数据进行预处理,并将预处理后的数据划分为训练集和验证集。具体地,利用分期特征和远处转移特征,对剩余数据进行独热编码和归一化处理,以得到所述训练集和所述验证集,其中,所述训练集与所述验证集的数据比例为9:1。
S2:基于各对应患者所述术前信息、术后信息和生存状态,分析得到所述术前信息、所述术后信息与所述生存状态之间的相关程度。具体为,利用Kaplan-Meier分析法,分析得到所述术前信息、所述术后信息与所述生存状态之间的相关程度。
进一步地,所述分析得到所述术前信息、所述术后信息与所述生存状态之间的相关程度,之后还包括:
分析多种所述术前信息、多种所述术后信息对所述生存状态的影响程度,以得到多个影响因素对应的影响程度结果。具体为,利用卡方检验、F检验、信息增益、Pearson相关性、Spearman相关性和决策树算法,分析多种所述术前信息、多种所述术后信息对所述生存状态的影响程度。
本实施例以卡方检验和Pearson相关性算法为例进行描述,其他的算法与此类似,不做赘述。
具体地,卡方检验属于非参数检验的范畴,主要是比较两个及两个以上样本率(构成比)以及两个分类变量的关联性分析,其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。卡方值越大,表明实际观察值与期望值偏离越大,也说明两个事件的相互独立性越弱。具体计算公式如下:
Pearson相关性也是衡量变量相似度的一种方法,它用来衡量连续变量之间的相关程度,其输出范围为-1到+1,0则代表无相关性,负值为负相关,正值为正相关,与目标变量相似程度高的变量认为其重要度较高。具体计算公式如下:
在该实施例中,对“患者生存状态”这一目标变量进行影响因素分析,与其相关性强则代表重要程度高,反之,相关性低则重要程度低。基于所述影响程度结果对各所述影响因素进行排序,具体如图2所示:
S3:基于所述术前信息、所述术后信息与所述生存状态之间的相关程度,在所述第一数据集中训练得到术后生存几率预测模型;
S4:根据所述术后生存几率模型,判定目标患者的生存几率小于或等于预设值,则在所述第二数据集中训练得到生存时间段预测模型。
在上述具体实施方式中,本发明提供的基于机器学习的预后生存阶段预测方法,以原始数据为基础,结合人工智能机器学习算法,构建了预后生存模型,能够辅助医生对患者的预后进行预测。并基于统计学分析得出对预后生存产生重要影响的因素,并对其影响程度进行排序,以使得预后模型预测准确性更高。解决了现有技术中存在的无法基于大数据作出预后生存情况判断的技术问题。
下面以唾液腺癌预后模型的建立为例,简述本发明所提供的预后生存阶段预测方法的具体实现过程。
唾液腺癌是头颈部较常见的恶性肿瘤之一,其发生与多种内、外因素有关,包括吸烟、饮酒、病毒感染、营养不良、饮食习惯和局部刺激等,其中尤其以吸烟、饮酒的危害性最大。从世界范围看,口腔与咽癌的发病率较高,位居全身恶性肿瘤的第6位(排在肺、胃、乳腺、结肠和直肠癌、宫颈癌之后),每年新发病例约35万到40万。我国人口众多,唾液腺癌的实际病例数位居世界前列。
在利用本发明所提供的方法进行唾液腺癌患者预后情况预测时,包括以下步骤:
S100:获取既往预设时间段内的患者原始信息数据,并对所述患者原始信息数据进行整合。
该步骤即是对原始患者数据进行增强处理。
首先,对原始数据进行整体分析,其中包含两个数据集,分别为“无复发时间”数据集和“带复发时间”数据集。每一个数据集均由患者“术前信息”、“术后信息”和“生存状态”三部分构成。
其中,“术前信息”的特征可以包括性别;年龄;发病部位,如腮腺、颌下腺、舌下腺、腭、磨牙后区、颊、舌、唇、上颌和其他部位;病理类型,如高分化黏液表皮样癌、中分化黏液表皮样癌、低分化黏液表皮样癌、腺样囊性癌、癌在多形性腺瘤中、非特异性腺癌、腺泡细胞癌、肌上皮癌、多型性腺癌、基底细胞腺癌、唾液腺导管癌、鳞状细胞癌、淋巴上皮癌、上皮-肌上皮癌、嗜酸细胞腺癌、透明细胞癌和其他类型;T分期,如根据原发肿瘤大小及波及范围,分为1、2、3、4期;N分期,如根据淋巴结的大小、质地、是否粘连分成0、1、2、3级;M分期,如根据各种临床检查结果确定术前是否出现远处转移。
“术后信息”的特征可以包括随访时间,如最后一次的随访时间与手术日期之间的间隔,以月为单位;局部复发,如术后是否在原位置复发;颈部复发,如术后是否出现颈部转移;远处转移,如术后是否出现远处转移,其中若在术前就出现转移,不论术后是否出现远处转移,均标记为转移;放疗,如术后是否补充过放疗或粒子放疗,包含无、有或未知;化疗,如术后是否补充化疗,包含无、有或未知。
“生存状态”的特征可以包括生存状态,如无瘤生存:肿瘤切除干净没有复发,患者处于生存状态;带瘤生存:肿瘤未切除干净,患者仍处于生存状态;复发死亡:原发部位的肿瘤复发,患者死亡;转移死亡:肿瘤转移到其他地方,比如肺部、脑、骨等,患者死亡;其它原因导致患者死亡,如脑出血、车祸、自杀、其他癌症等;全因死亡,如至随访截止时,患者的生存状态,包含:生存、因唾液腺恶性肿瘤死亡和因其他疾病死亡。
上述特征均为第一数据集中需要包含的信息特征,进一步地,带复发时间的第二数据集在无复发时间的第一数据集基础上,在患者术后信息部分,增添患者复发时间。相应特征更改如下:局部复发,如术后是否在原位置复发,其中“\”代表无复发,数字代表有复发,且为复发时间,单位:月;颈部复发,如术后是否出现颈部转移情况,其中“\”代表无复发,数字代表有复发,且为复发时间,单位:月;远处转移,如术后是否出现远处转移情况,其中“\”代表无转移,数字代表有转移,且为转移时间,单位:月。
在通过上述方法对数据集进行整理和分类后,对数据集中各特征,如性别、年龄、发病部位、病理类型、T分期、N分期、M分期、随访时间、局部复发、颈部复发、远处转移、放疗、化疗、生存状态、全因死亡等的分布情况和数据完整性进行分析,采用Python编程语言进行画图直观展示,由于数据完整性达到97.9%,所以直接删除特征信息不完整的数据。
而后,对剩余数据进行数据预处理操作,具体流程示例性如下:
步骤1:在原始数据中选取“性别”、“年龄”、“发病部位”、“病理类型”、“T分期”、“N分期”、“M分期”、“局部复发”、“颈部复发”、“远处转移”、“放疗”、“化疗”和“全因死亡”13个特征信息;
步骤2:将“放疗”或“化疗”特征信息中“未知”的患者数据删除;
步骤3:将“生存状态”特征信息中为“其他死因”的患者数据删除;
步骤4:利用“M分期”特征信息对“远处转移”特征信息进行细化,具体做法为:若唾液腺癌患者“M分期”特征信息为“术前无转移”且“远处转移”特征信息为“术后无转移”,则标记该患者“远处转移”特征信息为“远处转移-术前无转移、术后无转移”;若唾液腺癌患者“M分期”特征信息为“术前无转移”且“远处转移”特征信息为“术后有转移”,则标记该患者“远处转移”特征信息为“远处转移-术前无转移、术后有转移”;若唾液腺癌患者“M分期”特征信息为“术前有转移”,则标记该患者“远处转移”特征信息为“远处转移-术前有转移”;
步骤5:删除“M分期”特征信息;
步骤6:对“性别”、“发病部位”、“病理类型”、“局部复发”、“颈部复发”、“远处转移”、“放疗”和“化疗”特征信息进行独热编码处理;
步骤7:对“T分期”、“N分期”、“年龄”特征信息进行最大最小归一化处理;
步骤8:将预处理后数据集划分为训练集和验证集,比例为9:1;
步骤9:查看训练集和测试集各特征信息分布状态是否大致一致。
在进行重要影响因素排序时,示例性的包括以下步骤:
首先,利用Kaplan-Meier分析法,分析各特征与患者预后生存状态之间的相关程度;
其次,利用卡方检验、F检验、信息增益、Pearson相关性、Spearman相关性和决策树算法,分析处理各特征信息对患者预后的影响程度;
最后,采用“投票法”,融合各种方法分析结果,给出综合影响因素排序。
建立患者预后模型时,示例性地包括以下步骤:
根据已有实际数据,利用第一数据集中特征信息,训练机器学习集成算法LightGBM-模型,得到术后生存几率预测模型。
利用第二数据集中患者术后时间信息,训练机器学习集成算法LightGBM-模型,得到生存时间段预测模型。
在实际应用中,术后生存几率预测模型负责第一阶段预测,给出患者术后生存几率,准确率可以达到91%以上;若术后生存几率预测模型得到的预测结果提示目标患者生存几率小于50%,则生存时间段预测模型负责第二阶段预测,给出该目标患者生存时间位于“小于2年”、“2年到5年”和“5年以上”这三个时间段的概率。并按照已有的历史数据格式保存患者详细信息,形成规范化数据积累。
由上述可知,在以唾液腺癌为例时,本发明依托口腔医学为背景,结合人工智能机器学习算法,构建唾液腺癌患者预后生存模型。针对历史唾液腺癌患者数据,通过投票法,从统计学方面、机器学习算法方面和乘积极限法方面,归纳、总结出对唾液腺癌患者术后生存产生重要影响的因素,并对其影响程度进行排序,使得预后预测更加具有针对性。同时,该方法利用唾液腺癌患者数据中各种指标信息和术后详细回访时间信息,分别训练患者预后的术后生存几率预测模型和生存时间段预测模型,在保证模型鲁棒性的同时,整体预测取得91%以上的准确率。在实际应用中,该方法分阶段对唾液腺癌患者进行术后生存预测,同时自动规范化保存患者病情信息和预后信息,形成历史患者数据积累。
除了上述方法,本发明还提供一种基于机器学习的预后生存阶段预测系统,用于实施如上所述的方法,在一种具体实施方式中,如图3所示,所述系统包括:
数据处理单元100,用于获取既往预设时间段内的患者原始信息数据,并对所述患者原始信息数据进行整合,以得到无复发时间的第一数据集和带有复发时间的第二数据集,各数据集均包括对应患者的术前信息、术后信息和生存状态;
相关度分析单元200,用于基于各对应患者所述术前信息、术后信息和生存状态,分析得到所述术前信息、所述术后信息与所述生存状态之间的相关程度;
第一预测模型生成单元300,用于基于所述术前信息、所述术后信息与所述生存状态之间的相关程度,在所述第一数据集中训练得到术后生存几率预测模型;
第二预测模型生成单元400,用于根据所述术后生存几率模型,判定目标患者的生存几率小于或等于预设值,则在所述第二数据集中训练得到生存时间段预测模型。
在上述具体实施方式中,本发明提供的基于机器学习的预后生存阶段预测系统,以原始数据为基础,结合人工智能机器学习算法,构建了预后生存模型,能够辅助医生对患者的预后进行预测。并基于统计学分析得出对预后生存产生重要影响的因素,并对其影响程度进行排序,以使得预后模型预测准确性更高。解决了现有技术中存在的无法基于大数据作出预后生存情况判断的技术问题。
本发明还提供一种智能终端,所述装置包括:数据采集器、处理器和存储器;
所述数据采集器用于采集数据;所述存储器用于存储一个或多个程序指令;所述处理器,用于执行一个或多个程序指令,用以执行如上所述的方法。
与上述实施例相对应的,本发明实施例还提供了一种计算机存储介质,该计算机存储介质中包含一个或多个程序指令。其中,所述一个或多个程序指令用于被一种双目相机深度标定系统执行如上所述的方法。
应理解的是,文中使用的术语仅出于描述特定示例实施方式的目的,而无意于进行限制。除非上下文另外明确地指出,否则如文中使用的单数形式“一”、“一个”以及“所述”也可以表示包括复数形式。术语“包括”、“包含”、“含有”以及“具有”是包含性的,并且因此指明所陈述的特征、步骤、操作、元件和/或部件的存在,但并不排除存在或者添加一个或多个其它特征、步骤、操作、元件、部件、和/或它们的组合。文中描述的方法步骤、过程、以及操作不解释为必须要求它们以所描述或说明的特定顺序执行,除非明确指出执行顺序。还应当理解,可以使用另外或者替代的步骤。
尽管可以在文中使用术语第一、第二、第三等来描述多个元件、部件、区域、层和/或部段,但是,这些元件、部件、区域、层和/或部段不应被这些术语所限制。这些术语可以仅用来将一个元件、部件、区域、层或部段与另一区域、层或部段区分开。除非上下文明确地指出,否则诸如“第一”、“第二”之类的术语以及其它数字术语在文中使用时并不暗示顺序或者次序。因此,以下讨论的第一元件、部件、区域、层或部段在不脱离示例实施方式的教导的情况下可以被称作第二元件、部件、区域、层或部段。
在本发明实施例中,处理器可以是一种集成电路芯片,具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific工ntegrated Circuit,简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息,结合其硬件完成上述方法的步骤。
存储介质可以是存储器,例如可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
其中,非易失性存储器可以是只读存储器(Read-Only Memory,简称ROM)、可编程只读存储器(Programmable ROM,简称PROM)、可擦除可编程只读存储器(Erasable PROM,简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM,简称EEPROM)或闪存。
易失性存储器可以是随机存取存储器(Random Access Memory,简称RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,简称SRAM)、动态随机存取存储器(Dynamic RAM,简称DRAM)、同步动态随机存取存储器(Synchronous DRAM,简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,简称DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM,简称ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,简称SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,简称DRRAM)。
本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时,可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (10)
1.一种基于机器学习的预后生存阶段预测方法,其特征在于,所述方法包括:
获取既往预设时间段内的患者原始信息数据,并对所述患者原始信息数据进行整合,以得到无复发时间的第一数据集和带有复发时间的第二数据集,各数据集均包括对应患者的术前信息、术后信息和生存状态;
基于各对应患者所述术前信息、术后信息和生存状态,分析得到所述术前信息、所述术后信息与所述生存状态之间的相关程度;
基于所述术前信息、所述术后信息与所述生存状态之间的相关程度,在所述第一数据集中训练得到术后生存几率预测模型;
根据所述术后生存几率模型,判定目标患者的生存几率小于或等于预设值,则在所述第二数据集中训练得到生存时间段预测模型。
2.根据权利要求1所述的预后生存阶段预测方法,其特征在于,所述分析得到所述术前信息、所述术后信息与所述生存状态之间的相关程度,之后还包括:
分析多种所述术前信息、多种所述术后信息对所述生存状态的影响程度,以得到多个影响因素对应的影响程度结果;
基于所述影响程度结果对各所述影响因素进行排序。
3.根据权利要求2所述的预后生存阶段预测方法,其特征在于,所述分析多种所述术前信息、多种所述术后信息对所述生存状态的影响程度,具体包括:
利用卡方检验、F检验、信息增益、Pearson相关性、Spearman相关性和决策树算法,分析多种所述术前信息、多种所述术后信息对所述生存状态的影响程度。
4.根据权利要求2所述的预后生存阶段预测方法,其特征在于,所述分析得到所述术前信息、所述术后信息与所述生存状态之间的相关程度,具体包括:
利用Kaplan-Meier分析法,分析得到所述术前信息、所述术后信息与所述生存状态之间的相关程度。
5.根据权利要求1所述的预后生存阶段预测方法,其特征在于,所述对所述患者原始信息数据进行整合,具体包括:
将术前信息、术后信息和生存状态分别划分为多个必要特征;
遍历所述患者原始信息数据,并删除未包含全部必要特征的数据;
对删除后的剩余数据进行预处理,并将预处理后的数据划分为训练集和验证集。
6.根据权利要求5所述的预后生存阶段预测方法,其特征在于,所述对删除后的剩余数据进行预处理,具体包括:
利用分期特征和远处转移特征,对剩余数据进行独热编码和归一化处理,以得到所述训练集和所述验证集。
7.根据权利要求6所述的预后生存阶段预测方法,其特征在于,所述训练集与所述验证集的数据比例为9:1。
8.一种基于机器学习的预后生存阶段预测系统,用于实施如权利要求1-7任一项所述的方法,其特征在于,所述系统包括:
数据处理单元,用于获取既往预设时间段内的患者原始信息数据,并对所述患者原始信息数据进行整合,以得到无复发时间的第一数据集和带有复发时间的第二数据集,各数据集均包括对应患者的术前信息、术后信息和生存状态;
相关度分析单元,用于基于各对应患者所述术前信息、术后信息和生存状态,分析得到所述术前信息、所述术后信息与所述生存状态之间的相关程度;
第一预测模型生成单元,用于基于所述术前信息、所述术后信息与所述生存状态之间的相关程度,在所述第一数据集中训练得到术后生存几率预测模型;
第二预测模型生成单元,用于根据所述术后生存几率模型,判定目标患者的生存几率小于或等于预设值,则在所述第二数据集中训练得到生存时间段预测模型。
9.一种智能终端,其特征在于,所述装置包括:数据采集器、处理器和存储器;
所述数据采集器用于采集数据;所述存储器用于存储一个或多个程序指令;所述处理器,用于执行一个或多个程序指令,用以执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行如权利要求1-7任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210109421.2A CN114496306B (zh) | 2022-01-28 | 2022-01-28 | 基于机器学习的预后生存阶段预测方法和系统 |
PCT/CN2023/072544 WO2023143232A1 (zh) | 2022-01-28 | 2023-01-17 | 基于机器学习的预后生存阶段预测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210109421.2A CN114496306B (zh) | 2022-01-28 | 2022-01-28 | 基于机器学习的预后生存阶段预测方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114496306A true CN114496306A (zh) | 2022-05-13 |
CN114496306B CN114496306B (zh) | 2022-12-20 |
Family
ID=81478505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210109421.2A Active CN114496306B (zh) | 2022-01-28 | 2022-01-28 | 基于机器学习的预后生存阶段预测方法和系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114496306B (zh) |
WO (1) | WO2023143232A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023143232A1 (zh) * | 2022-01-28 | 2023-08-03 | 北京大学口腔医学院 | 基于机器学习的预后生存阶段预测方法和系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014063743A1 (en) * | 2012-10-25 | 2014-05-01 | Association Pour La Recherche Thérapeutique Anti-Cancéreuse | Methylglyoxal as a marker of cancer |
CN107563134A (zh) * | 2017-08-30 | 2018-01-09 | 中山大学 | 一种用于精准预测胃癌患者预后的系统 |
CN108922628A (zh) * | 2018-04-23 | 2018-11-30 | 华北电力大学 | 一种基于动态Cox模型的乳腺癌预后生存率预测方法 |
CN109902421A (zh) * | 2019-03-08 | 2019-06-18 | 山东大学齐鲁医院 | 一种宫颈癌预后评估方法、系统、存储介质及计算机设备 |
CN111462042A (zh) * | 2020-03-03 | 2020-07-28 | 西北工业大学 | 癌症预后分析方法及系统 |
CN111640518A (zh) * | 2020-06-02 | 2020-09-08 | 山东大学齐鲁医院 | 一种宫颈癌术后生存预测方法、系统、设备及介质 |
CN112185549A (zh) * | 2020-09-29 | 2021-01-05 | 郑州轻工业大学 | 基于临床表型和逻辑回归分析的食管鳞癌风险预测方法 |
CN112329876A (zh) * | 2020-11-16 | 2021-02-05 | 中山大学附属第六医院 | 一种基于影像组学的结直肠癌预后预测方法及设备 |
CN113096810A (zh) * | 2021-04-29 | 2021-07-09 | 郑州轻工业大学 | 一种基于卷积神经网络的食管鳞癌患者生存风险预测方法 |
CN113270188A (zh) * | 2021-05-10 | 2021-08-17 | 北京市肿瘤防治研究所 | 食管鳞癌根治术后患者预后预测模型构建方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111640509A (zh) * | 2020-06-02 | 2020-09-08 | 山东大学齐鲁医院 | 一种宫颈癌术后复发风险预测方法及系统 |
CN114496306B (zh) * | 2022-01-28 | 2022-12-20 | 北京大学口腔医学院 | 基于机器学习的预后生存阶段预测方法和系统 |
-
2022
- 2022-01-28 CN CN202210109421.2A patent/CN114496306B/zh active Active
-
2023
- 2023-01-17 WO PCT/CN2023/072544 patent/WO2023143232A1/zh unknown
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014063743A1 (en) * | 2012-10-25 | 2014-05-01 | Association Pour La Recherche Thérapeutique Anti-Cancéreuse | Methylglyoxal as a marker of cancer |
CN107563134A (zh) * | 2017-08-30 | 2018-01-09 | 中山大学 | 一种用于精准预测胃癌患者预后的系统 |
CN108922628A (zh) * | 2018-04-23 | 2018-11-30 | 华北电力大学 | 一种基于动态Cox模型的乳腺癌预后生存率预测方法 |
CN109902421A (zh) * | 2019-03-08 | 2019-06-18 | 山东大学齐鲁医院 | 一种宫颈癌预后评估方法、系统、存储介质及计算机设备 |
CN111462042A (zh) * | 2020-03-03 | 2020-07-28 | 西北工业大学 | 癌症预后分析方法及系统 |
CN111640518A (zh) * | 2020-06-02 | 2020-09-08 | 山东大学齐鲁医院 | 一种宫颈癌术后生存预测方法、系统、设备及介质 |
CN112185549A (zh) * | 2020-09-29 | 2021-01-05 | 郑州轻工业大学 | 基于临床表型和逻辑回归分析的食管鳞癌风险预测方法 |
CN112329876A (zh) * | 2020-11-16 | 2021-02-05 | 中山大学附属第六医院 | 一种基于影像组学的结直肠癌预后预测方法及设备 |
CN113096810A (zh) * | 2021-04-29 | 2021-07-09 | 郑州轻工业大学 | 一种基于卷积神经网络的食管鳞癌患者生存风险预测方法 |
CN113270188A (zh) * | 2021-05-10 | 2021-08-17 | 北京市肿瘤防治研究所 | 食管鳞癌根治术后患者预后预测模型构建方法及装置 |
Non-Patent Citations (1)
Title |
---|
徐冬: "胰腺腺癌根治性切除术后生存分析及预后预测模型建立", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023143232A1 (zh) * | 2022-01-28 | 2023-08-03 | 北京大学口腔医学院 | 基于机器学习的预后生存阶段预测方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114496306B (zh) | 2022-12-20 |
WO2023143232A1 (zh) | 2023-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bergquist et al. | Classifying lung cancer severity with ensemble machine learning in health care claims data | |
Banegas et al. | Heterogeneity of breast cancer subtypes and survival among Hispanic women with invasive breast cancer in California | |
CN113270188B (zh) | 食管鳞癌根治术后患者预后预测模型构建方法及装置 | |
CN114496306B (zh) | 基于机器学习的预后生存阶段预测方法和系统 | |
Kim et al. | Using deep learning to predict temporomandibular joint disc perforation based on magnetic resonance imaging | |
Lu et al. | Construction and validation of nomogram to predict distant metastasis in osteosarcoma: a retrospective study | |
Hayward et al. | Derivation of a nuclear heterogeneity image index to grade DCIS | |
CN116741378A (zh) | 前列腺癌预后预测模型构建方法、装置及存储介质 | |
Choi et al. | Deep learning model improves tumor-infiltrating lymphocyte evaluation and therapeutic response prediction in breast cancer | |
Warren et al. | DataView: Use of Medicare Data to Identify Incident Breast Cancer Cases | |
CN115881296B (zh) | 一种甲状腺乳头状癌(ptc)风险辅助分层系统 | |
Sung et al. | The expression pattern of 19 genes predicts the histology of endometrial carcinoma | |
JP2023505834A (ja) | 米国乳癌患者における診断検査および処置パターンのリアルワールドエビデンス | |
CN111370117A (zh) | 一种用于结直肠癌治疗人群的预后预测系统 | |
CN116403701A (zh) | 一种非小细胞肺癌患者tmb水平的预测方法及装置 | |
Tang et al. | Development and validation of prognostic survival nomograms for patients with anal canal cancer: a SEER-based study | |
Ledger et al. | Multiclass risk models for ovarian malignancy: an illustration of prediction uncertainty due to the choice of algorithm | |
Yoon et al. | Computer‐assisted analysis of immunohistological parameters in oral giant cell granulomas | |
Alamelumangai et al. | Personalized care: A clinical decision support system for breast cancer screening using clustering and classification | |
Ning et al. | Development of a deep learning-based model to diagnose mixed-type gastric cancer accurately | |
US20240229159A1 (en) | Gene signature for the identification of lymph node involvement in cancer patients | |
Jamil et al. | Determining the Prognostic Factors of Lung Cancer Data using Multiple Linear Regression Analysis | |
Samec et al. | Modeling and analyzing predictive monthly survival in females diagnosed with gynecological cancers | |
Wang et al. | Construction and Validation of a Prognostic Model for the Assessment of Postoperative Overall Survival of Patients with Metaplastic Breast Cancer: Based on a Retrospective Large Data Analysis and Chinese Multicenter Study | |
Ashok et al. | Impact of clinical and non-clinical factors on the choice of HER2 test for breast cancer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |