CN117393171B - 直肠癌术后lars发展轨迹预测模型构建方法及系统 - Google Patents
直肠癌术后lars发展轨迹预测模型构建方法及系统 Download PDFInfo
- Publication number
- CN117393171B CN117393171B CN202311684024.9A CN202311684024A CN117393171B CN 117393171 B CN117393171 B CN 117393171B CN 202311684024 A CN202311684024 A CN 202311684024A CN 117393171 B CN117393171 B CN 117393171B
- Authority
- CN
- China
- Prior art keywords
- influence
- lars
- features
- development
- prediction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011161 development Methods 0.000 title claims abstract description 95
- 238000000034 method Methods 0.000 title claims abstract description 59
- 208000015634 Rectal Neoplasms Diseases 0.000 title claims abstract description 37
- 206010038038 rectal cancer Diseases 0.000 title claims abstract description 37
- 201000001275 rectum cancer Diseases 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 22
- 230000008859 change Effects 0.000 claims abstract description 9
- 230000018109 developmental process Effects 0.000 claims description 89
- 238000007637 random forest analysis Methods 0.000 claims description 18
- 230000011218 segmentation Effects 0.000 claims description 18
- 230000001575 pathological effect Effects 0.000 claims description 17
- 230000001225 therapeutic effect Effects 0.000 claims description 17
- 238000007477 logistic regression Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 11
- 230000007170 pathology Effects 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 9
- 230000002980 postoperative effect Effects 0.000 claims description 9
- 238000001356 surgical procedure Methods 0.000 claims description 8
- 238000000546 chi-square test Methods 0.000 claims description 7
- 238000007476 Maximum Likelihood Methods 0.000 claims description 6
- 238000003066 decision tree Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 abstract description 4
- 238000011160 research Methods 0.000 description 8
- 206010028980 Neoplasm Diseases 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 208000024891 symptom Diseases 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000007423 decrease Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012552 review Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000011227 neoadjuvant chemotherapy Methods 0.000 description 2
- 210000004197 pelvis Anatomy 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 206010009944 Colon cancer Diseases 0.000 description 1
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了直肠癌术后LARS发展轨迹预测模型构建方法及系统,应用在机器学习技术领域,方法包括:获取样本病例;将第一特征和第二特征作为基准特征;计算基准特征对样本病例中沿时间分布的LARS发展的影响作为影响因子,并根据影响因子生成影响曲线;根据影响曲线从时间分布中选出选定时间节点;训练多个对应不同选定时间节点的预测模型,并形成直肠癌术后LARS发展轨迹预测模型。本发明直肠癌术后LARS发展轨迹预测模型构建方法及系统,通过对不同的选定时间节点的选择,有效的减少了不同的特征对LARS发展沿时间变化所产生的预测误差,有效的提高了模型的预测精度,适用于大规模推广。
Description
技术领域
本发明涉及机器学习技术领域,具体涉及直肠癌术后LARS发展轨迹预测模型构建方法及系统。
背景技术
直肠癌术后LARS发生的预测因素众多,现有研究由于研究时间点、纳入变量、统计模型的不同,导致LARS的影响因素研究结果存在一定差异,难以指导实践。目前国内外关于LARS预测模型的研究尚处于起步阶段,模型建立方法学较为单一,过程科学性待进一步完善,研究时间维度选择笼统,不利于临床进行有效干预。临床数据呈现方式多样,非线性数据分布广泛,因此对建模数据处理的精准性提出更高的要求。机器学习(MachineLearning)中关于数据清洗、特征选择、分类器及算法选择等过程和方式可以克服传统回归模型的参数限制条件与预测能力较弱等局限,能够更好的拟和数据的真实分布情况,提高模型的精准度,对实践更具指导价值。
现有技术中,申请号为CN202310815384.1的中国专利公开了基于相关性分析的结直肠癌预后风险模型构建方法及系统,包括:提取初始特征;筛选出参考特征;构建第一样本库;进行特征压缩,形成压缩样本库和遗弃样本库;构建第一COX模型和第二COX模型;生成第一诺模图和第二诺模图;将遗弃样本库转换为转换样本库;构建RSF模型作为预后风险模型,其提供了一种通过预后风险模型的构筑方法。但是在实践中发明人发现,直肠癌术后LARS症状变化的差异较大,患者在术后LARS症状的发展轨迹难以准确预测,其主要原因在于不同的影响特征对不同时间阶段的LARS症状影响程度会发生变化,该变化过程难以通过普通模型进行准确模拟。
发明内容
为了至少克服现有技术中的上述不足,本申请的目的在于提供直肠癌术后LARS发展轨迹预测模型构建方法及系统。
第一方面,本申请实施例提供了直肠癌术后LARS发展轨迹预测模型构建方法,包括:
获取多组直肠癌手术患者术后沿时间分布的病例作为样本病例;
从所述样本病例中提取出多个对LARS发展影响大于预设值的病理及治疗特征作为第一特征,从所述样本病例中提取出临床意义特征作为第二特征,并将所述第一特征和所述第二特征作为基准特征;
计算所述基准特征对所述样本病例中沿时间分布的LARS发展的影响作为影响因子,并根据所述影响因子生成影响曲线;所述影响曲线的一个坐标为时间分布,另一个坐标为影响因子;
根据所述影响曲线从所述时间分布中选出所述影响因子变化超过预设的多个时间节点作为选定时间节点;
根据所述选定时间节点对应的所述基准特征的影响因子和所述基准特征对应变量训练多个对应不同所述选定时间节点的预测模型,并汇总所有所述选定时间节点对应的预测模型形成直肠癌术后LARS发展轨迹预测模型;所述预测模型的输入数据为所述基准特征对应变量,所述预测模型的输出数据为LARS发展情况。
本申请实施例实施时,首先需要获取样本病例,在一个具体的实施例中,根据“赫尔辛基宣言”的伦理准则进行,获得在研医院生物医学伦理审查委员会批准(批准号:2020审(832)号),并在中国临床试验注册中心进行试验方案注册(注册号:ChiCTR2100048467)。应当理解的是,沿时间分布的病例包括从手术结束后沿时间分布的LARS发展情况、病理及治疗特征和临床意义特征;其中病理及治疗特征可以包括肿瘤下缘距齿状线距离和手术时长等,临床意义特征可以包括年龄、性别等。
在本申请实施例中,需要筛选出第一特征,第一特征的筛选在现有技术中已经有所披露,本申请实施例不多做复述;第一特征和第二特征形成的基准特征即作为用于进行模型的特征。示例的,在本申请实施例中,筛选出5个第一特征:tumor_dist(肿瘤下缘距齿状线距离)、surg_time(手术时长)、neochemo_cour(新辅助化疗疗程)、comp_1m_meas(并发症再入院)、tumor_size(肿瘤大小);选出2个第二特征:age(年龄)和pelvis(骨盆异常程度),合计7个特征。
在本申请实施例中,在计算影响因子时,需要计算出基准特征中每个特征对LARS发展的影响,同时该影响应当是沿时间分布的。请参阅图2的列线图,示出了时间节点为术后1个月时,7个特征对LARS发展的影响;同样的,请参阅图3的列线图,示出了时间节点为术后12个月时,7个特征对LARS发展的影响。从图中可以看出,随着时间节点的变化,不同的特征对LARS发展的影响可能发生巨大变化。
在本申请实施例中,需要在影响曲线中选出选定时间节点。具体的,在影响曲线的时间轴初始阶段选定初始化数值,当基准特征中任何一个特征的影响因子变化超过预设比例时,选定对应的时间节点作为选定时间节点。同样的,当选出一个选定时间节点后,可以将该选定时间节点的影响因子作为新的初始化数值,从而进行下一个影响因子的选择。本申请实施例通过对不同的选定时间节点的选择,有效的减少了不同的特征对LARS发展沿时间变化所产生的预测误差,有效的提高了模型的预测精度,适用于大规模推广。
在本申请实施例中,对不同的选定时间节点都训练相应的预测模型,会汇总生成最终的直肠癌术后LARS发展轨迹预测模型,在现有技术中,训练该种预测模型存在很多成熟技术,本申请实施例不多做复述。同时,在本申请实施例中,直肠癌术后LARS发展轨迹预测模型的应用过程可以包括:
获取目标患者的基准特征对应变量,并将基准特征对应变量输入直肠癌术后LARS发展轨迹预测模型中不同选定时间节点对应的预测模型中;
接收不同选定时间节点对应的预测模型输出的数据,并对这些数据进行曲线拟合,形成目标患者不同时间下LARS发展情况。
在一种可能的实现方式中,从所述样本病例中提取出多个对所述LARS发展影响大于预设值的病理及治疗特征作为第一特征包括:
从所述样本病例中筛选出多个病理及治疗特征形成特征集合;
通过Pearson相关系数法、卡方检验、互信息法、LASSO法和MDG法分别计算所述特征集合中特征对LARS发展的影响,并对分别计算出来的结果进行叠加;
对叠加的结果进行排序后,选出对所述LARS发展影响大于预设值的病理及治疗特征作为备选特征;
应用方差膨胀因子识别所述备选特征之间的多重共线性关系,并剔除存在多重共线性的特征形成所述第一特征。
在一种可能的实现方式中,计算所述基准特征对所述样本病例中沿时间分布的LARS发展的影响作为影响因子,并根据所述影响因子生成影响曲线包括:
对所述样本病例中的时间分布进行等间距分割,并在分割节点处计算基准特征对LARS发展的影响值;
将所述影响值作为所述分割节点对应的影响因子;
对所述影响因子进行曲线拟合形成所述影响曲线。
在一种可能的实现方式中,根据所述选定时间节点对应的所述基准特征的影响因子和所述基准特征对应变量训练多个对应不同所述选定时间节点的预测模型包括:
通过最大似然分析方法对所述基准特征的影响因子和所述基准特征对应变量进行拟合逻辑回归模型,获取变量系数和预测方程;
通过构建决策树对所述基准特征的影响因子和所述基准特征对应变量的对应关系进行训练,拟合数据分布情况形成随机森林预测模型;
将所述变量系数、所述预测方程和所述随机森林预测模型集成形成结合逻辑回归和随机森林的所述预测模型。
第二方面,本申请实施例还提供了直肠癌术后LARS发展轨迹预测模型构建系统,包括:
获取单元,被配置为获取多组直肠癌手术患者术后沿时间分布的病例作为样本病例;
提取单元,被配置为从所述样本病例中提取出多个对LARS发展影响大于预设值的病理及治疗特征作为第一特征,从所述样本病例中提取出临床意义特征作为第二特征,并将所述第一特征和所述第二特征作为基准特征;
计算单元,被配置为计算所述基准特征对所述样本病例中沿时间分布的LARS发展的影响作为影响因子,并根据所述影响因子生成影响曲线;所述影响曲线的一个坐标为时间分布,另一个坐标为影响因子;
时间节点单元,被配置为根据所述影响曲线从所述时间分布中选出所述影响因子变化超过预设的多个时间节点作为选定时间节点;
训练单元,被配置为根据所述选定时间节点对应的所述基准特征的影响因子和所述基准特征对应变量训练多个对应不同所述选定时间节点的预测模型,并汇总所有所述选定时间节点对应的预测模型形成直肠癌术后LARS发展轨迹预测模型;所述预测模型的输入数据为所述基准特征对应变量,所述预测模型的输出数据为LARS发展情况。
在一种可能的实现方式中,所述提取单元还被配置为:
从所述样本病例中筛选出多个病理及治疗特征形成特征集合;
通过Pearson相关系数法、卡方检验、互信息法、LASSO法和MDG法分别计算所述特征集合中特征对LARS发展的影响,并对分别计算出来的结果进行叠加;
对叠加的结果进行排序后,选出对所述LARS发展影响大于预设值的病理及治疗特征作为备选特征;
应用方差膨胀因子识别所述备选特征之间的多重共线性关系,并剔除存在多重共线性的特征形成所述第一特征。
在一种可能的实现方式中,所述计算单元还被配置为:
对所述样本病例中的时间分布进行等间距分割,并在分割节点处计算基准特征对LARS发展的影响值;
将所述影响值作为所述分割节点对应的影响因子;
对所述影响因子进行曲线拟合形成所述影响曲线。
在一种可能的实现方式中,所述训练单元还被配置为:
通过最大似然分析方法对所述基准特征的影响因子和所述基准特征对应变量进行拟合逻辑回归模型,获取变量系数和预测方程;
通过构建决策树对所述基准特征的影响因子和所述基准特征对应变量的对应关系进行训练,拟合数据分布情况形成随机森林预测模型;
将所述变量系数、所述预测方程和所述随机森林预测模型集成形成结合逻辑回归和随机森林的所述预测模型。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明直肠癌术后LARS发展轨迹预测模型构建方法及系统,通过对不同的选定时间节点的选择,有效的减少了不同的特征对LARS发展沿时间变化所产生的预测误差,有效的提高了模型的预测精度,适用于大规模推广。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本申请实施例方法步骤示意图;
图2为本申请实施例术后1个月LARS发展影响情况列线图;
图3为本申请实施例术后12个月LARS发展影响情况列线图;
图4为本申请实施例不同类别样本的影响曲线图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请实施例的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其它操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,都属于本申请保护的范围。
请结合参阅图1,为本发明实施例所提供的直肠癌术后LARS发展轨迹预测模型构建方法的流程示意图,进一步地,所述直肠癌术后LARS发展轨迹预测模型构建方法具体可以包括以下步骤S1-步骤S5所描述的内容。
S1:获取多组直肠癌手术患者术后沿时间分布的病例作为样本病例;
S2:从所述样本病例中提取出多个对LARS发展影响大于预设值的病理及治疗特征作为第一特征,从所述样本病例中提取出临床意义特征作为第二特征,并将所述第一特征和所述第二特征作为基准特征;
S3:计算所述基准特征对所述样本病例中沿时间分布的LARS发展的影响作为影响因子,并根据所述影响因子生成影响曲线;所述影响曲线的一个坐标为时间分布,另一个坐标为影响因子;
S4:根据所述影响曲线从所述时间分布中选出所述影响因子变化超过预设的多个时间节点作为选定时间节点;
S5:根据所述选定时间节点对应的所述基准特征的影响因子和所述基准特征对应变量训练多个对应不同所述选定时间节点的预测模型,并汇总所有所述选定时间节点对应的预测模型形成直肠癌术后LARS发展轨迹预测模型;所述预测模型的输入数据为所述基准特征对应变量,所述预测模型的输出数据为LARS发展情况。
本申请实施例实施时,首先需要获取样本病例,在一个具体的实施例中,根据“赫尔辛基宣言”的伦理准则进行,获得在研医院生物医学伦理审查委员会批准(批准号:2020审(832)号),并在中国临床试验注册中心进行试验方案注册(注册号:ChiCTR2100048467)。应当理解的是,沿时间分布的病例包括从手术结束后沿时间分布的LARS发展情况、病理及治疗特征和临床意义特征;其中病理及治疗特征可以包括肿瘤下缘距齿状线距离和手术时长等,临床意义特征可以包括年龄、性别等。
在本申请实施例中,需要筛选出第一特征,第一特征的筛选在现有技术中已经有所披露,本申请实施例不多做复述;第一特征和第二特征形成的基准特征即作为用于进行模型的特征。示例的,在本申请实施例中,筛选出5个第一特征:tumor_dist(肿瘤下缘距齿状线距离)、surg_time(手术时长)、neochemo_cour(新辅助化疗疗程)、comp_1m_meas(并发症再入院)、tumor_size(肿瘤大小);选出2个第二特征:age(年龄)和pelvis(骨盆异常程度),合计7个特征。
在本申请实施例中,在计算影响因子时,需要计算出基准特征中每个特征对LARS发展的影响,同时该影响应当是沿时间分布的。请参阅图2的列线图,示出了时间节点为术后1个月时,7个特征对LARS发展的影响;同样的,请参阅图3的列线图,示出了时间节点为术后12个月时,7个特征对LARS发展的影响。从图中可以看出,随着时间节点的变化,不同的特征对LARS发展的影响可能发生巨大变化。
在本申请实施例中,需要在影响曲线中选出选定时间节点。具体的,在影响曲线的时间轴初始阶段选定初始化数值,当基准特征中任何一个特征的影响因子变化超过预设比例时,选定对应的时间节点作为选定时间节点。同样的,当选出一个选定时间节点后,可以将该选定时间节点的影响因子作为新的初始化数值,从而进行下一个影响因子的选择。本申请实施例通过对不同的选定时间节点的选择,有效的减少了不同的特征对LARS发展沿时间变化所产生的预测误差,有效的提高了模型的预测精度,适用于大规模推广。
本申请实施例还提供了另一种选定时间节点的具体获取方案,包括:
根据基准特征对LARS发展的影响随时间的分布将所述样本病例中的样本分为第一类别、第二类别和第三类别;所述第一类别为该影响随时间下降,且下降速度大于预设值的样本;所述第三类别为该影响随时间下降,且下降速度小于或等于预设值的样本;所述第二类别为该影响不随时间下降的样本;
放弃所述第一类别的样本对应的影响曲线,并对所述第二类别和第三类别对应的影响曲线进行所述选定时间节点的分别选取;
将所述第二类别对应的选定时间节点和所述第三类别对应的选定时间节点合并形成最终的选定时间节点。
在进行样本分析的过程中,发明人发现LARS发展轨迹在个体间是具有异质性,因此进行发展轨迹的潜类别分析。选取分类为1~5类潜在类别进行GMM拟合度分析,随着模型潜在类别数量增加,拟和指标变化如表1所示,当分类为3类时,AIC和BIC最小,VLMR-LRT检验和BLRT检验均为P<0.05,Entropy值虽不是最大,但大于0.80,因此本研究的模型分为三个潜类别,即三个不同LARS发展组。
表1不同类别混合增长模型指标变化:
结果显示:所有研究对象经过GMM模型拟和分为三类,轨迹变化见图4所示,其横坐标为时间序列,纵坐标为影响因子。其中第一类别为迅速下降组,初始LARS评分并不高,之后迅速下降接近0分,说明该组患者在术后LARS均无症状或较轻。第一类别为进展组,初始LARS评分在较高水平,下降后又迅速上升甚至超过初始水平,说明该组患者LARS症状明显,后续LARS症状更加严重。第三类别为缓慢下降组,出现LARS症状但呈现缓解趋势。基于上述原因,本申请实施例就第三类别和第二类别分别进行选定时间节点的统计,可以有效的提高后续模型的准确率。
在本申请实施例中,对不同的选定时间节点都训练相应的预测模型,会汇总生成最终的直肠癌术后LARS发展轨迹预测模型,在现有技术中,训练该种预测模型存在很多成熟技术,本申请实施例不多做复述。同时,在本申请实施例中,直肠癌术后LARS发展轨迹预测模型的应用过程可以包括:
获取目标患者的基准特征对应变量,并将基准特征对应变量输入直肠癌术后LARS发展轨迹预测模型中不同选定时间节点对应的预测模型中;
接收不同选定时间节点对应的预测模型输出的数据,并对这些数据进行曲线拟合,形成目标患者不同时间下LARS发展情况。
在一种可能的实现方式中,从所述样本病例中提取出多个对所述LARS发展影响大于预设值的病理及治疗特征作为第一特征包括:
从所述样本病例中筛选出多个病理及治疗特征形成特征集合;
通过Pearson相关系数法、卡方检验、互信息法、LASSO法和MDG法分别计算所述特征集合中特征对LARS发展的影响,并对分别计算出来的结果进行叠加;
对叠加的结果进行排序后,选出对所述LARS发展影响大于预设值的病理及治疗特征作为备选特征;
应用方差膨胀因子识别所述备选特征之间的多重共线性关系,并剔除存在多重共线性的特征形成所述第一特征。
本申请实施例实施时,通过Pearson相关系数法、卡方检验、互信息法、LASSO法和MDG法同时对LARS发展影响的特征进行筛选,可以有效的降低单一方法筛选带来的精度问题,同时多重共线性关系筛查也可以有效的减少后续模型训练可能会带来的过拟合等问题。
在一种可能的实现方式中,计算所述基准特征对所述样本病例中沿时间分布的LARS发展的影响作为影响因子,并根据所述影响因子生成影响曲线包括:
对所述样本病例中的时间分布进行等间距分割,并在分割节点处计算基准特征对LARS发展的影响值;
将所述影响值作为所述分割节点对应的影响因子;
对所述影响因子进行曲线拟合形成所述影响曲线。
本申请实施例实施时,进行等间距分割可以优选为5日,从而保证影响曲线的精度。
在一种可能的实现方式中,根据所述选定时间节点对应的所述基准特征的影响因子和所述基准特征对应变量训练多个对应不同所述选定时间节点的预测模型包括:
通过最大似然分析方法对所述基准特征的影响因子和所述基准特征对应变量进行拟合逻辑回归模型,获取变量系数和预测方程;
通过构建决策树对所述基准特征的影响因子和所述基准特征对应变量的对应关系进行训练,拟合数据分布情况形成随机森林预测模型;
将所述变量系数、所述预测方程和所述随机森林预测模型集成形成结合逻辑回归和随机森林的所述预测模型。
基于同样的发明构思,还提供了直肠癌术后LARS发展轨迹预测模型构建系统,所述系统包括:
获取单元,被配置为获取多组直肠癌手术患者术后沿时间分布的病例作为样本病例;
提取单元,被配置为从所述样本病例中提取出多个对LARS发展影响大于预设值的病理及治疗特征作为第一特征,从所述样本病例中提取出临床意义特征作为第二特征,并将所述第一特征和所述第二特征作为基准特征;
计算单元,被配置为计算所述基准特征对所述样本病例中沿时间分布的LARS发展的影响作为影响因子,并根据所述影响因子生成影响曲线;所述影响曲线的一个坐标为时间分布,另一个坐标为影响因子;
时间节点单元,被配置为根据所述影响曲线从所述时间分布中选出所述影响因子变化超过预设的多个时间节点作为选定时间节点;
训练单元,被配置为根据所述选定时间节点对应的所述基准特征的影响因子和所述基准特征对应变量训练多个对应不同所述选定时间节点的预测模型,并汇总所有所述选定时间节点对应的预测模型形成直肠癌术后LARS发展轨迹预测模型;所述预测模型的输入数据为所述基准特征对应变量,所述预测模型的输出数据为LARS发展情况。
在一种可能的实现方式中,所述提取单元还被配置为:
从所述样本病例中筛选出多个病理及治疗特征形成特征集合;
通过Pearson相关系数法、卡方检验、互信息法、LASSO法和MDG法分别计算所述特征集合中特征对LARS发展的影响,并对分别计算出来的结果进行叠加;
对叠加的结果进行排序后,选出对所述LARS发展影响大于预设值的病理及治疗特征作为备选特征;
应用方差膨胀因子识别所述备选特征之间的多重共线性关系,并剔除存在多重共线性的特征形成所述第一特征。
在一种可能的实现方式中,所述计算单元还被配置为:
对所述样本病例中的时间分布进行等间距分割,并在分割节点处计算基准特征对LARS发展的影响值;
将所述影响值作为所述分割节点对应的影响因子;
对所述影响因子进行曲线拟合形成所述影响曲线。
在一种可能的实现方式中,所述训练单元还被配置为:
通过最大似然分析方法对所述基准特征的影响因子和所述基准特征对应变量进行拟合逻辑回归模型,获取变量系数和预测方程;
通过构建决策树对所述基准特征的影响因子和所述基准特征对应变量的对应关系进行训练,拟合数据分布情况形成随机森林预测模型;
将所述变量系数、所述预测方程和所述随机森林预测模型集成形成结合逻辑回归和随机森林的所述预测模型。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显然本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网格设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.直肠癌术后LARS发展轨迹预测模型构建方法,其特征在于,包括:
获取多组直肠癌手术患者术后沿时间分布的病例作为样本病例;病例包括从手术结束后沿时间分布的LARS发展情况、病理及治疗特征和临床意义特征;
从所述样本病例中提取出多个对LARS发展影响大于预设值的病理及治疗特征作为第一特征,从所述样本病例中提取出临床意义特征作为第二特征,并将所述第一特征和所述第二特征作为基准特征;
计算所述基准特征对所述样本病例中沿时间分布的LARS发展的影响作为影响因子,并根据所述影响因子生成影响曲线;所述影响曲线的一个坐标为时间分布,另一个坐标为影响因子;
根据所述影响曲线从所述时间分布中选出所述影响因子变化超过预设的多个时间节点作为选定时间节点;
根据所述选定时间节点对应的所述基准特征的影响因子和所述基准特征对应变量训练多个对应不同所述选定时间节点的预测模型,并汇总所有所述选定时间节点对应的预测模型形成直肠癌术后LARS发展轨迹预测模型;所述预测模型的输入数据为所述基准特征对应变量,所述预测模型的输出数据为LARS发展情况。
2.根据权利要求1所述的直肠癌术后LARS发展轨迹预测模型构建方法,其特征在于,从所述样本病例中提取出多个对所述LARS发展影响大于预设值的病理及治疗特征作为第一特征包括:
从所述样本病例中筛选出多个病理及治疗特征形成特征集合;
通过Pearson相关系数法、卡方检验、互信息法、LASSO法和MDG法分别计算所述特征集合中特征对LARS发展的影响,并对分别计算出来的结果进行叠加;
对叠加的结果进行排序后,选出对所述LARS发展影响大于预设值的病理及治疗特征作为备选特征;
应用方差膨胀因子识别所述备选特征之间的多重共线性关系,并剔除存在多重共线性的特征形成所述第一特征。
3.根据权利要求2所述的直肠癌术后LARS发展轨迹预测模型构建方法,其特征在于,计算所述基准特征对所述样本病例中沿时间分布的LARS发展的影响作为影响因子,并根据所述影响因子生成影响曲线包括:
对所述样本病例中的时间分布进行等间距分割,并在分割节点处计算基准特征对LARS发展的影响值;
将所述影响值作为所述分割节点对应的影响因子;
对所述影响因子进行曲线拟合形成所述影响曲线。
4.根据权利要求1所述的直肠癌术后LARS发展轨迹预测模型构建方法,其特征在于,根据所述选定时间节点对应的所述基准特征的影响因子和所述基准特征对应变量训练多个对应不同所述选定时间节点的预测模型包括:
通过最大似然分析方法对所述基准特征的影响因子和所述基准特征对应变量进行拟合逻辑回归模型,获取变量系数和预测方程;
通过构建决策树对所述基准特征的影响因子和所述基准特征对应变量的对应关系进行训练,拟合数据分布情况形成随机森林预测模型;
将所述变量系数、所述预测方程和所述随机森林预测模型集成形成结合逻辑回归和随机森林的所述预测模型。
5.直肠癌术后LARS发展轨迹预测模型构建系统,其特征在于,包括:
获取单元,被配置为获取多组直肠癌手术患者术后沿时间分布的病例作为样本病例;病例包括从手术结束后沿时间分布的LARS发展情况、病理及治疗特征和临床意义特征;
提取单元,被配置为从所述样本病例中提取出多个对LARS发展影响大于预设值的病理及治疗特征作为第一特征,从所述样本病例中提取出临床意义特征作为第二特征,并将所述第一特征和所述第二特征作为基准特征;
计算单元,被配置为计算所述基准特征对所述样本病例中沿时间分布的LARS发展的影响作为影响因子,并根据所述影响因子生成影响曲线;所述影响曲线的一个坐标为时间分布,另一个坐标为影响因子;
时间节点单元,被配置为根据所述影响曲线从所述时间分布中选出所述影响因子变化超过预设的多个时间节点作为选定时间节点;
训练单元,被配置为根据所述选定时间节点对应的所述基准特征的影响因子和所述基准特征对应变量训练多个对应不同所述选定时间节点的预测模型,并汇总所有所述选定时间节点对应的预测模型形成直肠癌术后LARS发展轨迹预测模型;所述预测模型的输入数据为所述基准特征对应变量,所述预测模型的输出数据为LARS发展情况。
6.根据权利要求5所述的直肠癌术后LARS发展轨迹预测模型构建系统,其特征在于,所述提取单元还被配置为:
从所述样本病例中筛选出多个病理及治疗特征形成特征集合;
通过Pearson相关系数法、卡方检验、互信息法、LASSO法和MDG法分别计算所述特征集合中特征对LARS发展的影响,并对分别计算出来的结果进行叠加;
对叠加的结果进行排序后,选出对所述LARS发展影响大于预设值的病理及治疗特征作为备选特征;
应用方差膨胀因子识别所述备选特征之间的多重共线性关系,并剔除存在多重共线性的特征形成所述第一特征。
7.根据权利要求6所述的直肠癌术后LARS发展轨迹预测模型构建系统,其特征在于,所述计算单元还被配置为:
对所述样本病例中的时间分布进行等间距分割,并在分割节点处计算基准特征对LARS发展的影响值;
将所述影响值作为所述分割节点对应的影响因子;
对所述影响因子进行曲线拟合形成所述影响曲线。
8.根据权利要求6所述的直肠癌术后LARS发展轨迹预测模型构建系统,其特征在于,所述训练单元还被配置为:
通过最大似然分析方法对所述基准特征的影响因子和所述基准特征对应变量进行拟合逻辑回归模型,获取变量系数和预测方程;
通过构建决策树对所述基准特征的影响因子和所述基准特征对应变量的对应关系进行训练,拟合数据分布情况形成随机森林预测模型;
将所述变量系数、所述预测方程和所述随机森林预测模型集成形成结合逻辑回归和随机森林的所述预测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311684024.9A CN117393171B (zh) | 2023-12-11 | 2023-12-11 | 直肠癌术后lars发展轨迹预测模型构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311684024.9A CN117393171B (zh) | 2023-12-11 | 2023-12-11 | 直肠癌术后lars发展轨迹预测模型构建方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117393171A CN117393171A (zh) | 2024-01-12 |
CN117393171B true CN117393171B (zh) | 2024-02-20 |
Family
ID=89437710
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311684024.9A Active CN117393171B (zh) | 2023-12-11 | 2023-12-11 | 直肠癌术后lars发展轨迹预测模型构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117393171B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111223569A (zh) * | 2019-04-25 | 2020-06-02 | 岭南师范学院 | 一种基于特征权重的lars糖尿病预测方法 |
CN113591919A (zh) * | 2021-06-29 | 2021-11-02 | 复旦大学附属中山医院 | 基于ai对早期肝细胞癌术后复发预后的分析方法及系统 |
CN115938590A (zh) * | 2023-02-09 | 2023-04-07 | 四川大学华西医院 | 结直肠癌术后lars预测模型的构建方法及预测系统 |
CN116092664A (zh) * | 2022-11-25 | 2023-05-09 | 中山大学孙逸仙纪念医院 | 一种胰腺癌预后预测模型建立方法 |
CN116580846A (zh) * | 2023-07-05 | 2023-08-11 | 四川大学华西医院 | 基于相关性分析的结直肠癌预后风险模型构建方法及系统 |
CN116705325A (zh) * | 2023-06-26 | 2023-09-05 | 国家康复辅具研究中心 | 一种伤口感染风险评估方法及其系统 |
CN117038092A (zh) * | 2023-08-21 | 2023-11-10 | 中山大学孙逸仙纪念医院 | 基于Cox回归分析的胰腺癌的预后模型构建方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7372251B2 (ja) * | 2017-11-02 | 2023-10-31 | プリベンシオ,インコーポレイテッド | 末梢動脈疾患、大動脈弁狭窄症についての診断および予後の方法、ならびにアウトカム |
WO2020211592A1 (zh) * | 2019-04-18 | 2020-10-22 | 岭南师范学院 | 一种糖尿病风险预警系统 |
-
2023
- 2023-12-11 CN CN202311684024.9A patent/CN117393171B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111223569A (zh) * | 2019-04-25 | 2020-06-02 | 岭南师范学院 | 一种基于特征权重的lars糖尿病预测方法 |
CN113591919A (zh) * | 2021-06-29 | 2021-11-02 | 复旦大学附属中山医院 | 基于ai对早期肝细胞癌术后复发预后的分析方法及系统 |
CN116092664A (zh) * | 2022-11-25 | 2023-05-09 | 中山大学孙逸仙纪念医院 | 一种胰腺癌预后预测模型建立方法 |
CN115938590A (zh) * | 2023-02-09 | 2023-04-07 | 四川大学华西医院 | 结直肠癌术后lars预测模型的构建方法及预测系统 |
CN116705325A (zh) * | 2023-06-26 | 2023-09-05 | 国家康复辅具研究中心 | 一种伤口感染风险评估方法及其系统 |
CN116580846A (zh) * | 2023-07-05 | 2023-08-11 | 四川大学华西医院 | 基于相关性分析的结直肠癌预后风险模型构建方法及系统 |
CN117038092A (zh) * | 2023-08-21 | 2023-11-10 | 中山大学孙逸仙纪念医院 | 基于Cox回归分析的胰腺癌的预后模型构建方法 |
Non-Patent Citations (2)
Title |
---|
Development of prediction model of low anterior resection syndrome for colorectal cancer patients after surgery based on machine-learning technique;Huang, MJ 等;《CANCER MEDICINE》;第12卷(第2期);1501-1519 * |
直肠癌术后低位前切除综合征预测模型的研究进展;刘婧 等;《消化肿瘤杂志(电子版)》;第14卷(第03期);253-257 * |
Also Published As
Publication number | Publication date |
---|---|
CN117393171A (zh) | 2024-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106202891B (zh) | 一种面向医疗质量评价的大数据挖掘方法 | |
CN110245657B (zh) | 病理图像相似性检测方法及检测装置 | |
Li et al. | Co-mention network of R packages: Scientific impact and clustering structure | |
CN111710364B (zh) | 一种菌群标记物的获取方法、装置、终端及存储介质 | |
CN110890137A (zh) | 一种化合物毒性预测模型建模方法、装置及其应用 | |
Ghaderzadeh et al. | Automated detection model in classification of B‐lymphoblast cells from normal B‐lymphoid precursors in blood smear microscopic images based on the majority voting technique | |
CN115938590B (zh) | 结直肠癌术后lars预测模型的构建方法及预测系统 | |
CN114093515A (zh) | 一种基于肠道菌群预测模型集成学习的年龄预测方法 | |
CN113593714A (zh) | 一种多分类新冠肺炎病例的检测方法、系统、设备及介质 | |
CN115631789B (zh) | 一种基于泛基因组的群体联合变异检测方法 | |
CN112214515B (zh) | 数据自动匹配方法、装置、电子设备及存储介质 | |
Lin et al. | Deep learning-based hepatocellular carcinoma histopathology image classification: accuracy versus training dataset size | |
CN111784040A (zh) | 政策模拟分析的优化方法、装置及计算机设备 | |
CN112270988A (zh) | 一种罕见病辅助诊断的方法及系统 | |
CN116564409A (zh) | 基于机器学习的转移性乳腺癌转录组测序数据识别方法 | |
CN115881232A (zh) | 一种基于图神经网络和特征融合的scRNA-seq细胞类型注释方法 | |
Mazurowski et al. | Identifying error-making patterns in assessment of mammographic BI-RADS descriptors among radiology residents using statistical pattern recognition | |
CN111986819B (zh) | 药物不良反应监测方法、装置、电子设备及可读存储介质 | |
CN117393171B (zh) | 直肠癌术后lars发展轨迹预测模型构建方法及系统 | |
CN113096737A (zh) | 一种用于对病原体类型进行自动分析的方法及系统 | |
CN111763738A (zh) | 一种特征mRNA表达谱组合及肝癌早期预测方法 | |
CN110942808A (zh) | 一种基于基因大数据的预后预测方法及预测系统 | |
WO2023061174A1 (zh) | 一种孤独症谱系障碍的风险预测模型构建方法及装置 | |
CN114999566B (zh) | 基于词向量表征和注意力机制的药物重定位方法及系统 | |
CN116312800A (zh) | 一种基于血浆中循环rna全转录组测序的肺癌特征识别方法、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |