CN111554402A - 基于机器学习的原发性肝癌术后复发风险预测方法及系统 - Google Patents

基于机器学习的原发性肝癌术后复发风险预测方法及系统 Download PDF

Info

Publication number
CN111554402A
CN111554402A CN202010333234.3A CN202010333234A CN111554402A CN 111554402 A CN111554402 A CN 111554402A CN 202010333234 A CN202010333234 A CN 202010333234A CN 111554402 A CN111554402 A CN 111554402A
Authority
CN
China
Prior art keywords
data
machine learning
postoperative recurrence
liver cancer
primary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010333234.3A
Other languages
English (en)
Inventor
李婕
陈云亮
曹元奎
刘传礼
杨红丽
芮法娟
张思敏
樊俊青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Provincial Hospital
Original Assignee
Shandong Provincial Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Provincial Hospital filed Critical Shandong Provincial Hospital
Priority to CN202010333234.3A priority Critical patent/CN111554402A/zh
Publication of CN111554402A publication Critical patent/CN111554402A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明属于医学数据处理技术领域,公开了一种基于机器学习的原发性肝癌术后复发风险预测方法及系统,对数据集进行过滤,并计算各属性与患者复发情况的相关系数,进行特征选择,得到影响原发性肝癌术后复发的关键因素,构建基于机器学习的原发性肝癌术后复发风险数据处理模型;利用特征数据以及原始病例数据采用KNN方法利用训练数据上对模型进行训练并调整模型参数;利用测试数据对处理模型进行测试,并对数据处理结果进行评价,确定所述对基于机器学习的原发性肝癌术后复发风险数据处理模型的准确度;进行数据处理。本发明采用基于KNN的原发性肝癌术后复发风险数据处理方法,能达到相比于其他处理方法更好的预测效果。

Description

基于机器学习的原发性肝癌术后复发风险预测方法及系统
技术领域
本发明属于医学数据处理技术领域,尤其涉及一种基于机器学习的原发性肝癌术后复发风险预测方法及系统。
背景技术
目前,原发性肝癌是目前世界上常见的恶性疾病之一,与其他肿瘤一样,手术切除应该是原发性肝癌患者的首选,与大多数恶性肿瘤不同,原发性肝癌患者的术后复发率较高且术后患者5年生存率很低。针对这种现状,探寻预后影响因素、制定个性化治疗措施是目前世界医学界的重大攻关课题之一。但由于患者数据中各影响因素对原发性肝癌术后复发预测的相关性较低,传统的数据处理模型对此类问题的评估准确度不高。
通过上述分析,现有技术存在的问题及缺陷为:传统的数据处理模型对原发性肝癌术后复发的评估准确度不高。
解决以上问题及缺陷的难度为:数据是非线性的,并且存在较多的缺失值;各影响因素对原发性肝癌术后复发预测的相关性较低。
解决以上问题及缺陷的意义为:可以显著提升原发性肝癌术后复发风险预测的准确度,以对患者采取对应的治疗措施。
发明内容
针对现有技术存在的问题,本发明提供了一种基于机器学习的原发性肝癌术后复发风险预测方法及系统。
本发明是这样实现的,一种基于机器学习的原发性肝癌术后复发风险预测方法,包括:
步骤一,过滤去除原发性肝癌患者病例数据集中的异常值以及不相关数据,并计算各属性与患者复发情况的Pearson相关系数,进行特征选择,得到影响原发性肝癌术后复发的关键因素,构建基于机器学习的原发性肝癌术后复发风险数据处理模型;
步骤二,采用经过特征选择后得到的特征数据以及原始病例数据中的原发性肝癌术后复发情况数据组成样本数据,将样本数据按比例分成训练数据和测试数据,采用KNN方法利用训练数据上对基于机器学习的原发性肝癌术后复发风险数据处理模型进行训练并调整模型参数;
步骤三,利用测试数据对基于机器学习的原发性肝癌术后复发风险数据处理模型进行测试,并对数据处理结果进行评价,确定所述对基于机器学习的原发性肝癌术后复发风险数据处理模型的准确度;
步骤四,利用构建得到的基于机器学习的原发性肝癌术后复发风险数据处理模型进行原发性肝癌术后复发风险数据处理。
进一步,步骤一中,所述Pearson相关系数计算方法公式为:
Figure BDA0002465713730000021
进一步,步骤二中,所述特征数据包括肿瘤大小、分化分级、是否有门脉癌栓、PLT、AFP、异常凝血酶、AST、WBC、和HBsAg共9个属性。
进一步,所述步骤二包括:
训练数据与测试数据的比例为8:2,采用KNN方法的k值为7,距离的度量方法为欧几里得距离;
所述利用KNN方法进行训练并进行参数调整包括以下步骤:
(1)根据给定的距离度量,在训练集中找出与x最邻近的k个点,涵盖这k个点的x的邻域记作Nk(x);
(2)在Nk(x)中根据分类决策规则决定x的类别y:
Figure BDA0002465713730000031
其中I为指示函数,即当时I为1,否则I为0。
进一步,步骤三中,所述利用测试数据对基于机器学习的原发性肝癌术后复发风险数据处理模型进行测试,并对数据处理结果进行评价,确定所述对基于机器学习的原发性肝癌术后复发风险数据处理模型的准确度包括:
1)采用训练后的KNN预测方法利用测试数据对基于机器学习的原发性肝癌术后复发风险数据处理模型进行测试,并计算其TPR、TNR、FNR、FPR、精确率、准确率、拟合率作为评价指标;
2)以同样的方式训练并计算由朴素贝叶斯、决策树、Logistic回归、深度神经网络及其他机器学习预测方法得到的数据,并与步骤1)得到的测试结果进行比较,确定所述对基于机器学习的原发性肝癌术后复发风险数据处理模型的准确度。
本发明的另一目的在于提供一种实施所述基于机器学习的原发性肝癌术后复发风险预测方法的基于机器学习的基于机器学习的原发性肝癌术后复发风险预测系统,所述基于机器学习的术后复发风险数据处理系统包括:
数据预处理模块,用于过滤去除原发性肝癌患者病例数据集中的异常值以及不相关数据,并计算各属性与患者复发情况的Pearson相关系数,进行特征选择,得到影响原发性肝癌术后复发的关键因素;
数据划分模块,用于将经过特征选择后得到的特征数据以及原始病例数据中的原发性肝癌术后复发情况数据组成样本数据,将样本数据按比例分成训练数据和测试数据;
模型构建模块,用于基于得到的关键因素进行原发性肝癌术后复发风险数据处理模型的构建;
模型训练以及参数调整模块,用于采用KNN方法利用训练数据上对基于机器学习的原发性肝癌术后复发风险数据处理模型进行训练并调整模型参数;
模型评价模块,用于利用测试数据对对基于机器学习的原发性肝癌术后复发风险数据处理模型进行测试,并对数据处理结果进行评价,确定所述对基于机器学习的原发性肝癌术后复发风险数据处理模型的准确度;
数据处理模块,用于利用构建得到的基于机器学习的原发性肝癌术后复发风险数据处理模型进行原发性肝癌术后复发风险数据处理。
本发明的另一目的在于提供一种接收用户输入程序存储介质,所存储的计算机程序使电子设备执行所述基于机器学习的原发性肝癌术后复发风险预测方法。
本发明的另一目的在于提供一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以实施所述基于机器学习的原发性肝癌术后复发风险预测方法。
本发明的另一目的在于提供一种执行所述基于机器学习的原发性肝癌术后复发风险预测方法的计算机。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明采用基于KNN的原发性肝癌术后复发风险数据处理方法,能达到相比于其他处理方法更好的预测效果。
本发明基于机器学习的原发性肝癌术后复发风险预测方法,通过计算每一属性与患者复发情况数据的Pearson系数,可以筛选出对原发性肝癌术后复发情况影响较大的属性,采用基于KNN的原发性肝癌术后复发风险预测方法,能达到相比于其他预测方法更好的预测效果。
附图说明
图1是本发明实施例提供的基于机器学习的原发性肝癌术后复发风险预测方法流程图。
图2是本发明实施例提供的基于机器学习的原发性肝癌术后复发风险预测方法原理图。
图3是本发明实施例提供的模型评价方法流程图。
图4是本发明实施例提供的基于机器学习的基于机器学习的原发性肝癌术后复发风险预测系统结构示意图。
图中:1、数据预处理模块;2、数据划分模块;3、模型构建模块;4、模型训练以及参数调整模块;5、模型评价模块;6、数据处理模块。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种基于机器学习的原发性肝癌术后复发风险预测方法及处理系统,下面结合附图对本发明作详细的描述。
如图1-图2所示,本发明实施例提供的基于机器学习的原发性肝癌术后复发风险预测方法包括:
S101,过滤去除原发性肝癌患者病例数据集中的异常值以及不相关数据,并计算各属性与患者复发情况的Pearson相关系数,进行特征选择,得到影响原发性肝癌术后复发的关键因素,构建基于机器学习的原发性肝癌术后复发风险数据处理模型。
S102,采用经过特征选择后得到的特征数据以及原始病例数据中的原发性肝癌术后复发情况数据组成样本数据,将样本数据按比例分成训练数据和测试数据,采用KNN方法利用训练数据上对基于机器学习的原发性肝癌术后复发风险数据处理模型进行训练并调整模型参数。
S103,利用测试数据对基于机器学习的原发性肝癌术后复发风险数据处理模型进行测试,并对数据处理结果进行评价,确定所述对基于机器学习的原发性肝癌术后复发风险数据处理模型的准确度。
S104,利用构建得到的基于机器学习的原发性肝癌术后复发风险数据处理模型进行原发性肝癌术后复发风险数据处理。
步骤S101中,本发明实施例提供的Pearson相关系数计算方法公式为:
Figure BDA0002465713730000061
步骤S102中,本发明实施例提供的特征数据包括肿瘤大小、分化分级、是否有门脉癌栓、PLT、AFP、异常凝血酶、AST、WBC、和HBsAg共9个属性。
本发明实施例提供的步骤S102包括:
训练数据与测试数据的比例为8:2,采用KNN方法的k值为7,距离的度量方法为欧几里得距离;
所述利用KNN方法进行训练并进行参数调整包括以下步骤:
(1)根据给定的距离度量,在训练集中找出与x最邻近的k个点,涵盖这k个点的x的邻域记作Nk(x);
(2)在Nk(x)中根据分类决策规则决定x的类别y:
Figure BDA0002465713730000062
其中I为指示函数,即当时I为1,否则I为0。
如图3所示,步骤S103中,本发明实施例提供的利用测试数据对基于机器学习的原发性肝癌术后复发风险数据处理模型进行测试,并对数据处理结果进行评价,确定所述对基于机器学习的原发性肝癌术后复发风险数据处理模型的准确度包括:
S201,采用训练后的KNN预测方法利用测试数据对基于机器学习的原发性肝癌术后复发风险数据处理模型进行测试,并计算其TPR、TNR、FNR、FPR、精确率、准确率、拟合率作为评价指标;
S202,以同样的方式训练并计算由朴素贝叶斯、决策树、Logistic回归、深度神经网络及其他机器学习预测方法得到的数据,并与步骤S201得到的测试结果进行比较,确定所述对基于机器学习的原发性肝癌术后复发风险数据处理模型的准确度。
如图4所示,本发明实施例提供的基于机器学习的原发性肝癌术后复发风险预测系统包括:
数据预处理模块1,用于过滤去除原发性肝癌患者病例数据集中的异常值以及不相关数据,并计算各属性与患者复发情况的Pearson相关系数,进行特征选择,得到影响原发性肝癌术后复发的关键因素;
数据划分模块2,用于将经过特征选择后得到的特征数据以及原始病例数据中的原发性肝癌术后复发情况数据组成样本数据,将样本数据按比例分成训练数据和测试数据;
模型构建模块3,用于基于得到的关键因素进行原发性肝癌术后复发风险数据处理模型的构建;
模型训练以及参数调整模块4,用于采用KNN方法利用训练数据上对基于机器学习的原发性肝癌术后复发风险数据处理模型进行训练并调整模型参数;
模型评价模块5,用于利用测试数据对对基于机器学习的原发性肝癌术后复发风险数据处理模型进行测试,并对数据处理结果进行评价,确定所述对基于机器学习的原发性肝癌术后复发风险数据处理模型的准确度;
数据处理模块6,用于利用构建得到的基于机器学习的原发性肝癌术后复发风险数据处理模型进行原发性肝癌术后复发风险数据处理。
下面结合具体实施例对本发明的技术方案作进一步说明。
实施例1:
本发明实施例提供的一种基于机器学习的原发性肝癌术后复发风险预测方法,包括以下步骤:
S1去除原发性肝癌患者病例数据集中的异常值以及不相关数据,然后通过计算各属性与患者复发情况的Pearson相关系数来进行特征选择,得到影响原发性肝癌术后复发的关键因素;
所述原发性肝癌患者病例数据集包括263例原发性肝癌患者病例,其中118例为复发病例,145例为未复发病例,数据集中每个病人的病理特征有63个,包括年龄、手术方式、肿瘤大小、AFP、PLT等。
首先对含有异常值以及不相关的数据进行剔除,剩余病例为220例,其中89例为复发病例,131例为未复发病例,剩余的病理特征有27个。
Pearson相关系数是衡量线性关联性的程度,皮尔逊相关也称为积差相关(或积矩相关),是英国统计学家皮尔逊于20世纪提出的一种计算直线相关的方法。它用来衡量定距变量间的线性关系。其计算公式为:
Figure BDA0002465713730000081
医学上,许多症状和检查数据与疾病的轻重程度都有相互联系。本实施例通过计算Pearson系数来评估每个病理特征与原发性肝癌患者术后是否复发之间的相关性。相关系数的绝对值越大则相关程度越大。本实施例计算剩余病例特征与原始病例数据中复发情况数据的Pearson系数,并取相关性最大的9个属性作为训练数据的属性。
表1各个属性与原发性肝癌术后复发情况之间的Pearson系数
Figure BDA0002465713730000082
Figure BDA0002465713730000091
S2采用经过特征选择后得到的特征数据以及原始病例数据中的肝癌术后复发情况数据组成样本数据,将样本数据按比例分成训练数据和测试数据,在训练数据上利用KNN方法进行训练并调参;
经过处理得到相关性较高的病理特征数据包括肿瘤大小、分化分级、是否有门脉癌栓、PLT、AFP、异常凝血酶、AST、WBC、和HBsAg等9个属性,训练数据与测试数据的比例为8:2,采用的KNN方法的k值为7,距离的度量方法为欧几里得距离。
KNN方法的具体过程为:
(1)根据给定的距离度量,在训练集中找出与x最邻近的k个点,涵盖这k个点的x的邻域记作Nk(x);
(2)在Nk(x)中根据分类决策规则决定x的类别y:
Figure BDA0002465713730000092
其中I为指示函数,即当时I为1,否则I为0。
本实施例的KNN方法采用的距离度量方式为欧几里得度量,也被称为欧式距离。设特征空间X是n维实数向量空间Rn
Figure BDA0002465713730000093
Figure BDA0002465713730000094
xi,xj的欧式距离L定义为:
Figure BDA0002465713730000095
S3在测试数据上对训练后得到的KNN预测方法进行测试,得到一种基于机器学习的原发性肝癌术后复发风险预测方法,最后与其他预测方法进行比较以说明该方法拥有更高的准确度。
具体方法如下:利用训练后的KNN预测方法在测试数据上进行测试,并计算其TPR、TNR、FNR、FPR、精确率、准确率、拟合率作为其评价指标,并以同样的方式训练并计算由其他机器学习预测方法得到的这些数据,包括朴素贝叶斯、决策树、Logistic回归、深度神经网络等方法,与KNN方法的预测结果进行比较,以说明KNN方法在预测原发性肝癌术后复发风险上的预测效果优于其他预测方法。每种分类方法的各项结果都在相同的数据集下进行了5次测试并取平均值。
表2采用KNN、朴素贝叶斯、决策树、Logistic回归、深度神经网络方法分类的结果
Figure BDA0002465713730000101
根据以上表格数据,本实施例所采用的KNN方法拥有相比于其他方法更高的准确率和精确率,准确率达到了0.706,精确率达到了0.701,而其他方法的这两项指标均未超过0.7;该方法在TPR、TNR、FNR、FPR等评价指标上同样有着良好的表现,其中TPR和TNR高于多数其他方法的值,FNR和FPR也低于多数其他方法的值,TPR达到了0.519,FNR为0.485,这两项指标上KNN方法仅次于logistic回归,TNR达到了0.893,FPR为0.160,这两项指标上KNN方法仅次于朴素贝叶斯;该方法在拟合率上的表现则稍显逊色,但也基本达到了该指标的平均水平。综合来看,实验结果说明了本实施例所采用的KNN方法在预测原发性肝癌术后复发情况上的预测效果优于其他预测方法。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现,当然也可以全部通过硬件来实施。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (9)

1.一种基于机器学习的原发性肝癌术后复发风险预测系统,其特征在于,所述基于机器学习的术后复发风险数据处理系统包括:
数据预处理模块,用于过滤去除原发性肝癌患者病例数据集中的异常值以及不相关数据,并计算各属性与复发情况的Pearson相关系数,进行特征选择,得到影响原发性术后复发的关键因素;
数据划分模块,用于将经过特征选择后得到的特征数据以及原始病例数据中的原发性术后复发情况数据组成样本数据,将样本数据按比例分成训练数据和测试数据;
模型构建模块,用于基于得到的关键因素进行原发性术后复发风险数据处理模型的构建;
模型训练以及参数调整模块,用于采用KNN方法利用训练数据上对基于机器学习的原发性术后复发风险数据处理模型进行训练并调整模型参数;
模型评价模块,用于利用测试数据对对基于机器学习的原发性术后复发风险数据处理模型进行测试,并对数据处理结果进行评价,确定所述对基于机器学习的原发性术后复发风险数据处理模型的准确度;
数据处理模块,用于利用构建得到的基于机器学习的原发性术后复发风险数据处理模型进行原发性术后复发风险数据处理。
2.一种基于机器学习的原发性肝癌术后复发风险预测方法,其特征在于,所述基于机器学习的原发性肝癌术后复发风险预测方法包括:
步骤一,过滤去除病例数据集中的异常值以及不相关数据,并计算各属性与复发情况的Pearson相关系数,进行特征选择,得到影响原发性术后复发的关键因素,构建基于机器学习的原发性术后复发风险数据处理模型;
步骤二,采用经过特征选择后得到的特征数据以及原始病例数据中的原发性术后复发情况数据组成样本数据,将样本数据按比例分成训练数据和测试数据,采用KNN方法利用训练数据上对基于机器学习的原发性术后复发风险数据处理模型进行训练并调整模型参数;
步骤三,利用测试数据对基于机器学习的原发性术后复发风险数据处理模型进行测试,并对数据处理结果进行评价,确定所述对基于机器学习的原发性术后复发风险数据处理模型的准确度;
步骤四,利用构建得到的基于机器学习的原发性术后复发风险数据处理模型进行原发性术后复发风险数据处理。
3.如权利要求2所述基于机器学习的原发性肝癌术后复发风险预测方法,其特征在于,步骤一中,所述Pearson相关系数计算方法公式为:
Figure FDA0002465713720000021
4.如权利要求2所述基于机器学习的原发性肝癌术后复发风险预测方法,其特征在于,步骤二中,所述特征数据包括肿瘤大小、分化分级、是否有门脉癌栓、PLT、AFP、异常凝血酶、AST、WBC、和HBsAg共9个属性。
5.如权利要求2所述基于机器学习的原发性肝癌术后复发风险预测方法,其特征在于,所述步骤二包括:
训练数据与测试数据的比例为8:2,采用KNN方法的k值为7,距离的度量方法为欧几里得距离;
所述利用KNN方法进行训练并进行参数调整包括以下步骤:
(1)根据给定的距离度量,在训练集中找出与x最邻近的k个点,涵盖这k个点的x的邻域记作Nk(x);
(2)在Nk(x)中根据分类决策规则决定x的类别y:
Figure FDA0002465713720000022
其中I为指示函数,即当时I为1,否则I为0。
6.如权利要求2所述基于机器学习的原发性肝癌术后复发风险预测方法,其特征在于,步骤三中,所述利用测试数据对基于机器学习的原发性术后复发风险数据处理模型进行测试,并对数据处理结果进行评价,确定所述对基于机器学习的原发性术后复发风险数据处理模型的准确度包括:
1)采用训练后的KNN预测方法利用测试数据对基于机器学习的原发性术后复发风险数据处理模型进行测试,并计算其TPR、TNR、FNR、FPR、精确率、准确率、拟合率作为评价指标;
2)以同样的方式训练并计算由朴素贝叶斯、决策树、Logistic回归、深度神经网络及其他机器学习预测方法得到的数据,并与步骤1)得到的测试结果进行比较,确定所述对基于机器学习的原发性术后复发风险数据处理模型的准确度。
7.一种接收用户输入程序存储介质,所存储的计算机程序使电子设备执行权利要求2-6任意一项所述基于机器学习的原发性肝癌术后复发风险预测方法。
8.一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以实施如权利要求2-6任意一项所述基于机器学习的原发性肝癌术后复发风险预测方法。
9.一种执行权利要求2-6任意一项所述基于机器学习的原发性肝癌术后复发风险预测方法的计算机。
CN202010333234.3A 2020-04-24 2020-04-24 基于机器学习的原发性肝癌术后复发风险预测方法及系统 Pending CN111554402A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010333234.3A CN111554402A (zh) 2020-04-24 2020-04-24 基于机器学习的原发性肝癌术后复发风险预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010333234.3A CN111554402A (zh) 2020-04-24 2020-04-24 基于机器学习的原发性肝癌术后复发风险预测方法及系统

Publications (1)

Publication Number Publication Date
CN111554402A true CN111554402A (zh) 2020-08-18

Family

ID=72002510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010333234.3A Pending CN111554402A (zh) 2020-04-24 2020-04-24 基于机器学习的原发性肝癌术后复发风险预测方法及系统

Country Status (1)

Country Link
CN (1) CN111554402A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113140318A (zh) * 2021-05-10 2021-07-20 中国人民解放军总医院第三医学中心 一种基于深度学习的肝移植术后肺部感染风险预测方法
CN113180633A (zh) * 2021-04-28 2021-07-30 济南大学 基于深度学习的mr影像肝癌术后复发风险预测方法及系统
CN113488170A (zh) * 2021-07-02 2021-10-08 温州医科大学 急性前葡萄膜炎复发风险预测模型构建方法及相关设备
WO2023034955A1 (en) * 2021-09-02 2023-03-09 University Of Pittsburgh-Of The Commonwealth System Of Higher Education Machine learning-based systems and methods for predicting liver cancer recurrence in liver transplant patients

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103930563A (zh) * 2011-06-01 2014-07-16 医学预后研究所 用于预测癌症复发的方法和装置
TW201737864A (zh) * 2016-04-08 2017-11-01 美國錫安山醫學中心 使用時間分辨螢光光譜法以及單極和雙極皮質和皮質下刺激器與時間分辨螢光光譜法的組合的組織分類方法
CN107630093A (zh) * 2017-11-09 2018-01-26 苏州贝斯派生物科技有限公司 用于诊断肝癌的试剂、试剂盒、检测方法及用途
CN108064380A (zh) * 2014-10-24 2018-05-22 皇家飞利浦有限公司 使用多种细胞信号传导途径活性的医学预后和治疗反应的预测
CN108565024A (zh) * 2018-03-19 2018-09-21 首都医科大学附属北京地坛医院 一种确定单发的hbv相关原发性小肝癌术后1年内复发风险的系统
CN108630317A (zh) * 2018-05-09 2018-10-09 中国科学院昆明动物研究所 一种基于多基因表达特征谱的肝癌个性化预后评估方法
CN110010198A (zh) * 2019-02-14 2019-07-12 辽宁省肿瘤医院 一种基于全转录组的肝细胞癌可变剪切事件系统分析的方法及预后模型应用
CN110211687A (zh) * 2019-06-17 2019-09-06 颐保医疗科技(上海)有限公司 一种基于人工智能原发性肝癌治疗方案的决策方法
CN110223773A (zh) * 2019-06-17 2019-09-10 颐保医疗科技(上海)有限公司 人工智能肝移植早期肝功能失功的预测方法
CN110634571A (zh) * 2019-09-20 2019-12-31 四川省人民医院 肝移植术后预后预测系统
CN110656173A (zh) * 2019-09-06 2020-01-07 中国医学科学院肿瘤医院 乳腺癌预后评估模型及其建立方法
CN110827275A (zh) * 2019-11-22 2020-02-21 吉林大学第一医院 基于树莓派和深度学习的肝脏核磁动脉期影像质量分级方法
CN110993106A (zh) * 2019-12-11 2020-04-10 深圳市华嘉生物智能科技有限公司 一种结合病理图像和临床信息的肝癌术后复发风险预测方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103930563A (zh) * 2011-06-01 2014-07-16 医学预后研究所 用于预测癌症复发的方法和装置
CN108064380A (zh) * 2014-10-24 2018-05-22 皇家飞利浦有限公司 使用多种细胞信号传导途径活性的医学预后和治疗反应的预测
TW201737864A (zh) * 2016-04-08 2017-11-01 美國錫安山醫學中心 使用時間分辨螢光光譜法以及單極和雙極皮質和皮質下刺激器與時間分辨螢光光譜法的組合的組織分類方法
CN107630093A (zh) * 2017-11-09 2018-01-26 苏州贝斯派生物科技有限公司 用于诊断肝癌的试剂、试剂盒、检测方法及用途
CN108565024A (zh) * 2018-03-19 2018-09-21 首都医科大学附属北京地坛医院 一种确定单发的hbv相关原发性小肝癌术后1年内复发风险的系统
CN108630317A (zh) * 2018-05-09 2018-10-09 中国科学院昆明动物研究所 一种基于多基因表达特征谱的肝癌个性化预后评估方法
CN110010198A (zh) * 2019-02-14 2019-07-12 辽宁省肿瘤医院 一种基于全转录组的肝细胞癌可变剪切事件系统分析的方法及预后模型应用
CN110211687A (zh) * 2019-06-17 2019-09-06 颐保医疗科技(上海)有限公司 一种基于人工智能原发性肝癌治疗方案的决策方法
CN110223773A (zh) * 2019-06-17 2019-09-10 颐保医疗科技(上海)有限公司 人工智能肝移植早期肝功能失功的预测方法
CN110656173A (zh) * 2019-09-06 2020-01-07 中国医学科学院肿瘤医院 乳腺癌预后评估模型及其建立方法
CN110634571A (zh) * 2019-09-20 2019-12-31 四川省人民医院 肝移植术后预后预测系统
CN110827275A (zh) * 2019-11-22 2020-02-21 吉林大学第一医院 基于树莓派和深度学习的肝脏核磁动脉期影像质量分级方法
CN110993106A (zh) * 2019-12-11 2020-04-10 深圳市华嘉生物智能科技有限公司 一种结合病理图像和临床信息的肝癌术后复发风险预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李琳: "基于机器学习方法的原发性肝癌患者预后预测研究" *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113180633A (zh) * 2021-04-28 2021-07-30 济南大学 基于深度学习的mr影像肝癌术后复发风险预测方法及系统
CN113140318A (zh) * 2021-05-10 2021-07-20 中国人民解放军总医院第三医学中心 一种基于深度学习的肝移植术后肺部感染风险预测方法
CN113488170A (zh) * 2021-07-02 2021-10-08 温州医科大学 急性前葡萄膜炎复发风险预测模型构建方法及相关设备
CN113488170B (zh) * 2021-07-02 2023-07-25 温州医科大学 急性前葡萄膜炎复发风险预测模型构建方法及相关设备
WO2023034955A1 (en) * 2021-09-02 2023-03-09 University Of Pittsburgh-Of The Commonwealth System Of Higher Education Machine learning-based systems and methods for predicting liver cancer recurrence in liver transplant patients

Similar Documents

Publication Publication Date Title
CN111554402A (zh) 基于机器学习的原发性肝癌术后复发风险预测方法及系统
CN111524599A (zh) 一种基于机器学习的新冠肺炎数据处理方法及预测系统
CN106897570B (zh) 一种基于机器学习的慢性阻塞性肺疾病测试系统
CN112633601B (zh) 疾病事件发生概率的预测方法、装置、设备及计算机介质
Wang et al. Reversal of glaucoma hemifield test results and visual field features in glaucoma
CN110031624A (zh) 基于多神经网络分类器的肿瘤标志物检测系统、方法、终端、介质
JP2019061577A (ja) 異常判定方法及びプログラム
CN110634563A (zh) 一种糖尿病肾病-非糖尿病肾病鉴别诊断装置
KR20130071981A (ko) 질환 진단을 위한 최적의 진단 요소 셋 결정 장치 및 방법
CN113935535A (zh) 一种面向中长期预测模型的主成分分析方法
CN111524600A (zh) 基于neighbor2vec的肝癌术后复发风险预测系统
Nugroho et al. Effective predictive modelling for coronary artery diseases using support vector machine
Pathak et al. Reducing variability of perimetric global indices from eyes with progressive glaucoma by censoring unreliable sensitivity data
CN117315379B (zh) 面向深度学习的医学影像分类模型公平性评估方法及装置
CN116564521A (zh) 一种慢性病风险评估模型建立方法、介质及系统
CN114649094B (zh) 一种基于核磁共振的乳腺癌多参数临床决策辅助装置
CN108346471B (zh) 一种病理数据的分析方法及装置
CN112102952B (zh) 基于距离计算方法鉴定病理类别的方法及相关设备
CN113345588A (zh) 一种不完备数据集快速属性约简方法
Dawood et al. Addressing deep learning model calibration using evidential neural networks and uncertainty-aware training
Setyawati et al. Feature selection for the classification of clinical data of stroke patients
CN114612255B (zh) 一种基于电子病历数据特征选择的保险定价方法
CN116738352B (zh) 视网膜血管阻塞疾病的视杆细胞异常分类方法及装置
TWI817795B (zh) 癌症進展判別方法及其系統
CN112378942B (zh) 一种基于核磁共振指纹图谱的白酒等级分类识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination