CN113178264A - 一种深肌层浸润数据预测方法及系统 - Google Patents

一种深肌层浸润数据预测方法及系统 Download PDF

Info

Publication number
CN113178264A
CN113178264A CN202110487110.5A CN202110487110A CN113178264A CN 113178264 A CN113178264 A CN 113178264A CN 202110487110 A CN202110487110 A CN 202110487110A CN 113178264 A CN113178264 A CN 113178264A
Authority
CN
China
Prior art keywords
data
decision tree
deep
infiltration
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110487110.5A
Other languages
English (en)
Inventor
林凤
易新凯
唐震洲
周铭琰
黎玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
First Affiliated Hospital of Wenzhou Medical University
Original Assignee
First Affiliated Hospital of Wenzhou Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by First Affiliated Hospital of Wenzhou Medical University filed Critical First Affiliated Hospital of Wenzhou Medical University
Priority to CN202110487110.5A priority Critical patent/CN113178264A/zh
Publication of CN113178264A publication Critical patent/CN113178264A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种深肌层浸润数据预测方法,包括获取深肌层浸润数据集和深肌层非浸润数据集形成为原始样本数据;取出特征值和预测值,并选择预设的Borderline‑Smote模型,对原始样本数据进行不平衡数据处理;将处理样本数据与原始样本数据混合并归一化处理,划分成测试集和多个训练集;选取决策树类型,训练每一个训练集对应的CART决策树模型;对所有决策树模型中特征评估,得到满足预定条件的特征集;通过基尼指数的对比选出最优特征来进行分支处理决策树,得到随机森林;获取待测试数据集导入训练好的随机森林模型中,区别出深肌层浸润或非浸润数据。实施本发明,能在分析预测过程中提高深肌层浸润数据的占比,使得预测精度高且较易实现。

Description

一种深肌层浸润数据预测方法及系统
技术领域
本发明涉及计算机数据处理技术领域,尤其涉及一种深肌层浸润数据预测方法及系统。
背景技术
肌层浸润深度是多种肿瘤包括子宫内膜癌预后的独立危险因素,同时也是评定临床分期的重要参考因素。术前肿瘤肌层浸润深度评估对于术后的治疗策略包括放化疗的选择具有重要意义。此外,肌层浸润还是影响预后的关键因素,在子宫内膜癌预后相关因素的分析中,深肌层浸润的贡献率相对其他因素较大。研究表明,子宫内膜癌患者中淋巴结受累与子宫肌层浸润深度大于50%密切相关。子宫内膜癌伴有深肌层浸润者,腹主动脉旁淋巴结转移的发生率为21.1%,盆腔淋巴结转移的发生率高达43.0%,深肌层浸润患者较浅肌层浸润患者病死率高出3.619倍。因此,对肌层浸润相关影响因素的研究极具意义,不仅有助于术前分期的评判,还可对患者的预后进行预测。
深肌层浸润情况是对深肌层浸润数据进行深度分析预测所得,然而在分析预测过程中往往存在大量的深肌层非浸润数据,极大的影响了数据预测的准确性。因此,有必要对深肌层浸润数据进行准确的预测。
发明内容
本发明实施例所要解决的技术问题在于,提供一种深肌层浸润数据预测方法及系统,能在分析预测过程中提高深肌层浸润数据的占比,使得预测精度高且较易实现。
为了解决上述技术问题,本发明实施例提供了一种深肌层浸润数据预测方法,包括以下步骤:
步骤S1、获取深肌层浸润数据集和深肌层非浸润数据集来形成样本数据,并将所获取的样本数据进行缺失值处理之后作为原始样本数据;
步骤S2、取出所述原始样本数据的特征值和预测值,并选择预设的Borderline-Smote模型,对所述原始样本数据进行不平衡数据处理;
步骤S3、将不平衡数据处理得到的样本数据与所述原始样本数据进行混合,得到一个新样本数据集并进行归一化处理,且进一步将归一化处理的新样本数据划分成测试集和多个训练集;
步骤S4、选取随机森林的决策树为CART类型,并分别训练每一个划分好的训练集,得到每一个训练集相对应的CART决策树模型;
步骤S5、利用特征的重要性,对每一个CART决策树模型中的所有特征均进行评估,得到每一个CART决策树模型中满足预定条件的特征集;
步骤S6、通过基尼指数的对比选出最优特征来对所有的CART决策树模型中满足所述预设条件的特征集进行分支处理,得到所有CART决策树模型经过分支处理后的决策树,并形成随机森林;其中,将选出的最优特征按照基尼指数从大到小的顺序进行剪枝排序,且所选的最优特征均是深肌层浸润数据区别于深肌层非浸润数据的关键特征;
步骤S7、获取待测试数据集,将所述待测试数据集导入到训练好的随机森林模型中,区别出所述待测试数据集为深肌层浸润数据集或深肌层非浸润数据集。
其中,在所述步骤S2中,所述选择预设的Borderline-Smote模型,对所述原始样本数据进行不平衡数据处理的具体步骤包括:
第一步、获取整个数据集,记为训练集T;其中,深肌层浸润数据集记为P,深肌层非浸润数据集记为N;其中,P={p1,p2,...ppnum},N={n1,n2,...,nnnum};pnum和nnum分别是深肌层浸润数据集和深肌层非浸润数据集各自对应的数量;
第二步、对于深肌层浸润数据集P中的每一个样本pi(i=1,2,...,pnum),计算出整个训练集T中它的m个近邻;其中,m个近邻中深肌层非浸润数据集N的个数用m′(0≤m′≤m)表示;
第三步、如果m′=m,则样本pi被认为是噪声;如果0≤m′≤m/2,则样本pi被认为是安全数据集Tsafe;如果m/2≤m′≤m,则样本pi被认为是错误类别样本,并把样本pi放到危险数据集Tdanger中;
第四步、设置危险数据集Tdanger
Figure BDA0003050889390000031
并对危险数据集Tdanger中的每个实例样本pi′,均计算出对应深肌层浸润数据集P中的k个近邻;其中,Tdanger={p1′,p2′,...,p′dnum},且0≤dnum≤pnum;
第五步、对于每个实例样本pi′,均随机从深肌层浸润数据集P中对应计算的k个近邻中选出s个,并计算出每个实例样本pi′和对应选出的s个近邻的距离difj(j=1,2...,s),进一步用difj乘于一个介于0~1之间的随机数rj,产生一个新的少数例样本syntheticj;其中,syntheticj的计算公式为syntheticj=pi′+rj×difj(j=1,2,...s);
第六步,重复执行第四步和第五步;其中,对于每个实例样本pi′,均得到s×dnum个新的少数例样本synthetic。
其中,在步骤S5中,所述利用特征重要性,对每一个CART决策树模型中所有特征进行评估,得到每一个CART决策树模型中满足条件的特征集的具体步骤包括:
确定当前待评估的CART决策树模型,并在当前待评估的CART决策树模型中,汇总出对应训练集中的所有特征变量;
计算出当前待评估的CART决策树模型中每个特征的基尼指数评分,依据对应特征所计算出的基尼指数评分进行特征重要性排列,得到当前待评估的CART决策树模型中按照特征重要性降序排列的特征集;
依据预设的特征上限数量,按照特征重要性从小到大的顺序在所述特征集中进行特征剔除,直至所述特征集中特征数量达到上限值为止,得到当前待评估的CART决策树模型中特征剔除后的特征集。
其中,在步骤6中,所述对每一个通过基尼指数的对比选出最优特征来对所有的CART决策树模型中满足所述预定条件的特征集进行分支处理的具体步骤包括:
确定当前待分支处理的CART决策树模型,并在当前待分支处理的CART决策树模型中,汇总出对应训练集中的所有特征变量;
计算出当前待分支处理的CART决策树模型中每个特征的基尼指数,并筛选出最小基尼指数评分的特征作为最优特征,将最优特征的分支点最为根节点衍生的两个子节点,然后将剩余的特征分配到上述的两个子节点中,实现分支处理;其中,所述分支处理的过程包括预剪枝处理,具体为若当前待分支处理的CART决策树模型中某一树杈上的样本小于所设定的参数,则相对应的决策树就不再继续生长。
其中,特征Xj在节点m的重要性评分用
Figure BDA0003050889390000041
即对应CART决策树模型中基尼指数评分计算公式为
Figure BDA0003050889390000042
其中,
Figure BDA0003050889390000043
k表示在节点m的CART决策树模型中的类别个数;Pmk表示节点m的CART决策树模型中类别k所占的比例大小;GIm表示节点m处的基尼指数;GIl表示特征Xj在节点m分支前的基尼指数;GIr表示特征Xj在节点m分支后的基尼指数。
其中,特征Xj在有n棵CART决策树的随机森林的基尼指数评分计算公式为
Figure BDA0003050889390000044
其中,如果特征Xj在决策树i中出现的节点m在集合M中,那么特征Xj在第i棵CART树的重要性为
Figure BDA0003050889390000045
本发明实施例还提供了一种深肌层浸润数据预测系统,包括:
数据获取单元,用于获取深肌层浸润数据集和深肌层非浸润数据集来形成样本数据,并将所获取的样本数据进行缺失值处理之后作为原始样本数据;
数据处理单元,用于取出所述原始样本数据的特征值和预测值,并选择预设的Borderline-Smote模型,对所述原始样本数据进行不平衡数据处理;
数据混合单元,用于将不平衡数据处理得到的样本数据与所述原始样本数据进行混合,得到一个新样本数据集并进行归一化处理,且进一步将归一化处理的新样本数据划分成测试集和多个训练集;
决策模型生成单元,用于选取随机森林的决策树为CART类型,并分别训练每一个划分好的训练集,得到每一个训练集相对应的CART决策树模型;
特征集筛选单元,用于利用特征的重要性,对每一个CART决策树模型中的所有特征均进行评估,得到每一个CART决策树模型中满足预定条件的特征集;
模型生成单元,用于通过基尼指数的对比选出最优特征来对所有的CART决策树模型中满足所述预设条件的特征集进行分支处理,得到所有CART决策树模型经过分支处理后的决策树,并形成随机森林;其中,将选出的最优特征按照基尼指数从大到小的顺序进行剪枝排序,且所选的最优特征均是深肌层浸润数据区别于深肌层非浸润数据的关键特征;
预测单元,用于获取待测试数据集,将所述待测试数据集导入到训练好的随机森林模型中,区别出所述待测试数据集为深肌层浸润数据集或深肌层非浸润数据集。
实施本发明实施例,具有如下有益效果:
本发明采用Borderline-Smote对数据集做平衡处理,使得平衡数据集中深肌层非浸润数据占比下降,并将平衡数据集采用随机森林算法来预测待测试数据集为深肌层浸润数据集或深肌层非浸润数据集,从而综合平衡考虑了深肌层浸润数据和深肌层非浸润数据的占比大小,使得预测精度高且较易实现。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,根据这些附图获得其他的附图仍属于本发明的范畴。
图1为本发明实施例提供的深肌层浸润数据预测方法的流程图;
图2为本发明实施例提供的深肌层浸润数据预测系统的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
如图1所示,为本发明实施例中,提出的一种深肌层浸润数据预测方法,包括以下步骤:
步骤S1、获取深肌层浸润数据集和深肌层非浸润数据集来形成样本数据,并将所获取的样本数据进行缺失值处理之后作为原始样本数据;
具体过程为,样本数据共有300份样本,特征有59个。其中,深肌层浸润的数据集有50份,占整个数据样本的16.7%;深肌层非浸润的数据集有250份,占整个数据样本的83.3%。应当说明的是,若样本数据有缺失,则对缺失的样本进行缺失值处理,使得样本数据完整。
步骤S2、取出所述原始样本数据的特征值和预测值,并选择预设的Borderline-Smote模型,对所述原始样本数据进行不平衡数据处理;
具体过程为,首先,取出原始样本数据的特征值和预测值。
其次,选择预设的Borderline-Smote模型,对原始样本数据进行不平衡数据处理。该步骤具体过程如下:
第一步、获取整个数据集,记为训练集T;其中,深肌层浸润数据集记(即少数类)为P,深肌层非浸润数据集(即多数类)记为N;其中,P={p1,p2,...ppnum},N={n1,n2,...,nnnum};pnum和nnum分别是深肌层浸润数据集和深肌层非浸润数据集各自对应的数量;
第二步、对于深肌层浸润数据集P中的每一个样本pi(i=1,2,...,pnum),计算出整个训练集T中它的m个近邻;其中,m个近邻中深肌层非浸润数据集N的个数用m′(0≤m′≤m)表示;
第三步、如果m′=m(即m个近邻都是多数类实例),则样本pi被认为是噪声,如下步骤不再执行;如果0≤m′≤m/2(即样本pi的近邻中少数类的样本个数大于多数类的样本个数),则样本pi被认为是安全数据集Tsafe,如下步骤不再执行;如果m/2≤m′≤m(即即样本pi的近邻中多数类的样本个数大于少数类的样本个数),则样本pi被认为是错误类别样本,并把样本pi放到危险数据集Tdanger中;
第四步、设置危险数据集Tdanger
Figure BDA0003050889390000071
(即看作是少数类P的临界数据),并对危险数据集Tdanger中的每个实例样本pi′,均计算出对应深肌层浸润数据集P中的k个近邻;其中,Tdanger={p1′,p2′,...,p′dnum},且0≤dnum≤pnum;
第五步、对于每个实例样本pi′,均随机从深肌层浸润数据集P中对应计算的k个近邻中选出s个,并计算出每个实例样本pi′和对应选出的s个近邻的距离difj(j=1,2...,s),进一步用difj乘于一个介于0~1之间的随机数rj,产生一个新的少数例样本syntheticj;其中,syntheticj的计算公式为syntheticj=pi′+rj×difj(j=1,2,...s);
第六步,重复执行第四步和第五步;其中,对于每个实例样本pi′,均得到s×dnum个新的少数例样本synthetic。
步骤S3、将不平衡数据处理得到的样本数据与所述原始样本数据进行混合,得到一个新样本数据集并进行归一化处理,且进一步将归一化处理的新样本数据划分成测试集和多个训练集;
具体过程为,首先,混合不平衡数据处理得到的样本数据与原始样本数据,此时产生了200份新样本,使得整个数据集样本中深肌层浸润数据集与深肌层非浸润数据集大小为1:1。其次,对混合样本数据进行归一化处理,再划分成测试集和多个训练集。
步骤S4、选取随机森林的决策树为CART类型,并分别训练每一个划分好的训练集,得到每一个训练集相对应的CART决策树模型;
具体过程为,确定随机森林的决策树为CART类型并训练每一个划分好的训练集,得到每一个训练集相对应的CART决策树模型。
步骤S5、利用特征的重要性,对每一个CART决策树模型中的所有特征均进行评估,得到每一个CART决策树模型中满足预定条件的特征集;
具体过程为,首先,确定当前待评估的CART决策树模型,并在当前待评估的CART决策树模型中,汇总出对应训练集中的所有特征变量。
其次,计算出当前待评估的CART决策树模型中每个特征的基尼指数评分,依据对应特征所计算出的基尼指数评分进行特征重要性排列,得到当前待评估的CART决策树模型中按照特征重要性降序排列的特征集。
最后,依据预设的特征上限数量,按照特征重要性从小到大的顺序在所述特征集中进行特征剔除,直至所述特征集中特征数量达到上限值为止,得到当前待评估的CART决策树模型中特征剔除后的特征集。
步骤S6、通过基尼指数的对比选出最优特征来对所有的CART决策树模型中满足所述预设条件的特征集进行分支处理,得到所有CART决策树模型经过分支处理后的决策树,并形成随机森林;其中,将选出的最优特征按照基尼指数从大到小的顺序进行剪枝排序,且所选的最优特征均是深肌层浸润数据区别于深肌层非浸润数据的关键特征;
具体过程为,首先,确定当前待分支处理的CART决策树模型,并在当前待分支处理的CART决策树模型中,汇总出对应训练集中的所有特征变量;
其次,计算出当前待分支处理的CART决策树模型中每个特征的基尼指数,并筛选出最小基尼指数评分的特征作为最优特征,将最优特征的分支点最为根节点衍生的两个子节点,然后将剩余的特征分配到上述的两个子节点中,实现分支处理;其中,分支处理的过程包括预剪枝处理,具体为若当前待分支处理的CART决策树模型中某一树杈上的样本小于所设定的参数,则相对应的决策树就不再继续生长。
在一个实施例中,特征Xj在节点m的重要性评分用
Figure BDA0003050889390000081
即对应CART决策树模型中基尼指数评分计算公式为
Figure BDA0003050889390000082
其中,
Figure BDA0003050889390000083
k表示在节点m的CART决策树模型中的类别个数;Pmk表示节点m的CART决策树模型中类别k所占的比例大小;GIm表示节点m处的基尼指数;GIl表示特征Xj在节点m分支前的基尼指数;GIr表示特征Xj在节点m分支后的基尼指数。
同时,特征Xj在有n棵CART决策树的随机森林的基尼指数评分计算公式为
Figure BDA0003050889390000091
其中,如果特征Xj在决策树i中出现的节点m在集合M中,那么特征Xj在第i棵CART树的重要性为
Figure BDA0003050889390000092
最后,得到所有CART决策树模型经过分支处理后的决策树,并形成随机森林。
步骤S7、获取待测试数据集,将所述待测试数据集导入到训练好的随机森林模型中,区别出所述待测试数据集为深肌层浸润数据集或深肌层非浸润数据集。
具体过程为,获取待测试数据集导入到训练好的随机森林模型中,从而可以区别出待测试数据集为深肌层浸润数据集或深肌层非浸润数据集。
在本发明实施例中,深肌层浸润数据预测方法先平衡数据集后采用随机森林算法,得到AUC值为0.9996,ACC值为99%。结果与未做数据平衡处理时得到的AUC值为0.944,ACC值为83.3%相比,分别提升了5.56%和16.6%。
如图2所示,为本发明实施例中,提供的一种深肌层浸润数据预测系统,包括:
数据获取单元110,用于获取深肌层浸润数据集和深肌层非浸润数据集来形成样本数据,并将所获取的样本数据进行缺失值处理之后作为原始样本数据;
数据处理单元120,用于取出所述原始样本数据的特征值和预测值,并选择预设的Borderline-Smote模型,对所述原始样本数据进行不平衡数据处理;
数据混合单元130,用于将不平衡数据处理得到的样本数据与所述原始样本数据进行混合,得到一个新样本数据集并进行归一化处理,且进一步将归一化处理的新样本数据划分成测试集和多个训练集;
决策模型生成单元140,用于选取随机森林的决策树为CART类型,并分别训练每一个划分好的训练集,得到每一个训练集相对应的CART决策树模型;
特征集筛选单元150,用于利用特征的重要性,对每一个CART决策树模型中的所有特征均进行评估,得到每一个CART决策树模型中满足预定条件的特征集;
模型生成单元160,用于通过基尼指数的对比选出最优特征来对所有的CART决策树模型中满足所述预设条件的特征集进行分支处理,得到所有CART决策树模型经过分支处理后的决策树,并形成随机森林;其中,将选出的最优特征按照基尼指数从大到小的顺序进行剪枝排序,且所选的最优特征均是深肌层浸润数据区别于深肌层非浸润数据的关键特征;
预测单元170,用于获取待测试数据集,将所述待测试数据集导入到训练好的随机森林模型中,区别出所述待测试数据集为深肌层浸润数据集或深肌层非浸润数据集。
实施本发明实施例,具有如下有益效果:
本发明采用Borderline-Smote对数据集做平衡处理,使得平衡数据集中深肌层非浸润数据占比下降,并将平衡数据集采用随机森林算法来预测待测试数据集为深肌层浸润数据集或深肌层非浸润数据集,从而综合平衡考虑了深肌层浸润数据和深肌层非浸润数据的占比大小,使得预测精度高且较易实现.
值得注意的是,上述系统实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (7)

1.一种深肌层浸润数据预测方法,其特征在于,包括以下步骤:
步骤S1、获取深肌层浸润数据集和深肌层非浸润数据集来形成样本数据,并将所获取的样本数据进行缺失值处理之后作为原始样本数据;
步骤S2、取出所述原始样本数据的特征值和预测值,并选择预设的Borderline-Smote模型,对所述原始样本数据进行不平衡数据处理;
步骤S3、将不平衡数据处理得到的样本数据与所述原始样本数据进行混合,得到一个新样本数据集并进行归一化处理,且进一步将归一化处理的新样本数据划分成测试集和多个训练集;
步骤S4、选取随机森林的决策树为CART类型,并分别训练每一个划分好的训练集,得到每一个训练集相对应的CART决策树模型;
步骤S5、利用特征的重要性,对每一个CART决策树模型中的所有特征均进行评估,得到每一个CART决策树模型中满足预定条件的特征集;
步骤S6、通过基尼指数的对比选出最优特征来对所有的CART决策树模型中满足所述预设条件的特征集进行分支处理,得到所有CART决策树模型经过分支处理后的决策树,并形成随机森林;其中,将选出的最优特征按照基尼指数从大到小的顺序进行剪枝排序,且所选的最优特征均是深肌层浸润数据区别于深肌层非浸润数据的关键特征;
步骤S7、获取待测试数据集,将所述待测试数据集导入到训练好的随机森林模型中,区别出所述待测试数据集为深肌层浸润数据集或深肌层非浸润数据集。
2.如权利要求1所述的深肌层浸润数据预测方法,其特征在于,在所述步骤S2中,所述选择预设的Borderline-Smote模型,对所述原始样本数据进行不平衡数据处理的具体步骤包括:
第一步、获取整个数据集,记为训练集T;其中,深肌层浸润数据集记为P,深肌层非浸润数据集记为N;其中,P={p1,p2,...ppnum},N={n1,n2,...,nnnum};pnum和nnum分别是深肌层浸润数据集和深肌层非浸润数据集各自对应的数量;
第二步、对于深肌层浸润数据集P中的每一个样本pi(i=1,2,...,pnum),计算出整个训练集T中它的m个近邻;其中,m个近邻中深肌层非浸润数据集N的个数用m′(0≤m′≤m)表示;
第三步、如果m′=m,则样本pi被认为是噪声;如果0≤m′≤m/2,则样本pi被认为是安全数据集Tsafe;如果m/2≤m′≤m,则样本pi被认为是错误类别样本,并把样本pi放到危险数据集Tdanger中;
第四步、设置危险数据集Tdanger
Figure FDA0003050889380000021
并对危险数据集Tdanger中的每个实例样本p′i,均计算出对应深肌层浸润数据集P中的k个近邻;其中,Tdanger={p′1,p′2,...,p′dnum},且0≤dnum≤pnum;
第五步、对于每个实例样本p′i,均随机从深肌层浸润数据集P中对应计算的k个近邻中选出s个,并计算出每个实例样本p′i和对应选出的s个近邻的距离difj(j=1,2...,s),进一步用difj乘于一个介于0~1之间的随机数rj,产生一个新的少数例样本syntheticj;其中,syntheticj的计算公式为syntheticj=p′i+rj×difj(j=1,2,...s);
第六步,重复执行第四步和第五步;其中,对于每个实例样本p′i,均得到s×dnum个新的少数例样本synthetic。
3.如权利要求1所述的深肌层浸润数据预测方法,其特征在于,在步骤S5中,所述利用特征重要性,对每一个CART决策树模型中所有特征进行评估,得到每一个CART决策树模型中满足条件的特征集的具体步骤包括:
确定当前待评估的CART决策树模型,并在当前待评估的CART决策树模型中,汇总出对应训练集中的所有特征变量;
计算出当前待评估的CART决策树模型中每个特征的基尼指数评分,依据对应特征所计算出的基尼指数评分进行特征重要性排列,得到当前待评估的CART决策树模型中按照特征重要性降序排列的特征集;
依据预设的特征上限数量,按照特征重要性从小到大的顺序在所述特征集中进行特征剔除,直至所述特征集中特征数量达到上限值为止,得到当前待评估的CART决策树模型中特征剔除后的特征集。
4.如权利要求1所述的深肌层浸润数据预测方法,其特征在于,在步骤6中,所述对每一个通过基尼指数的对比选出最优特征来对所有的CART决策树模型中满足所述预定条件的特征集进行分支处理的具体步骤包括:
确定当前待分支处理的CART决策树模型,并在当前待分支处理的CART决策树模型中,汇总出对应训练集中的所有特征变量;
计算出当前待分支处理的CART决策树模型中每个特征的基尼指数,并筛选出最小基尼指数评分的特征作为最优特征,将最优特征的分支点最为根节点衍生的两个子节点,然后将剩余的特征分配到上述的两个子节点中,实现分支处理;其中,所述分支处理的过程包括预剪枝处理,具体为若当前待分支处理的CART决策树模型中某一树杈上的样本小于所设定的参数,则相对应的决策树就不再继续生长。
5.如权利要求4所述的深肌层浸润数据预测方法,其特征在于,特征Xj在节点m的重要性评分用
Figure FDA0003050889380000031
即对应CART决策树模型中基尼指数评分计算公式为
Figure FDA0003050889380000032
其中,
Figure FDA0003050889380000033
k表示在节点m的CART决策树模型中的类别个数;Pmk表示节点m的CART决策树模型中类别k所占的比例大小;GIm表示节点m处的基尼指数;GIl表示特征Xj在节点m分支前的基尼指数;GIr表示特征Xj在节点m分支后的基尼指数。
6.如权利要求4所述的深肌层浸润数据预测方法,其特征在于,特征Xj在有n棵CART决策树的随机森林的基尼指数评分计算公式为
Figure FDA0003050889380000034
其中,如果特征Xj在决策树i中出现的节点m在集合M中,那么特征Xj在第i棵CART树的重要性为
Figure FDA0003050889380000035
7.一种深肌层浸润数据预测系统,其特征在于,包括:
数据获取单元,用于获取深肌层浸润数据集和深肌层非浸润数据集来形成样本数据,并将所获取的样本数据进行缺失值处理之后作为原始样本数据;
数据处理单元,用于取出所述原始样本数据的特征值和预测值,并选择预设的Borderline-Smote模型,对所述原始样本数据进行不平衡数据处理;
数据混合单元,用于将不平衡数据处理得到的样本数据与所述原始样本数据进行混合,得到一个新样本数据集并进行归一化处理,且进一步将归一化处理的新样本数据划分成测试集和多个训练集;
决策模型生成单元,用于选取随机森林的决策树为CART类型,并分别训练每一个划分好的训练集,得到每一个训练集相对应的CART决策树模型;
特征集筛选单元,用于利用特征的重要性,对每一个CART决策树模型中的所有特征均进行评估,得到每一个CART决策树模型中满足预定条件的特征集;
模型生成单元,用于通过基尼指数的对比选出最优特征来对所有的CART决策树模型中满足所述预设条件的特征集进行分支处理,得到所有CART决策树模型经过分支处理后的决策树,并形成随机森林;其中,将选出的最优特征按照基尼指数从大到小的顺序进行剪枝排序,且所选的最优特征均是深肌层浸润数据区别于深肌层非浸润数据的关键特征;
预测单元,用于获取待测试数据集,将所述待测试数据集导入到训练好的随机森林模型中,区别出所述待测试数据集为深肌层浸润数据集或深肌层非浸润数据集。
CN202110487110.5A 2021-05-04 2021-05-04 一种深肌层浸润数据预测方法及系统 Pending CN113178264A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110487110.5A CN113178264A (zh) 2021-05-04 2021-05-04 一种深肌层浸润数据预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110487110.5A CN113178264A (zh) 2021-05-04 2021-05-04 一种深肌层浸润数据预测方法及系统

Publications (1)

Publication Number Publication Date
CN113178264A true CN113178264A (zh) 2021-07-27

Family

ID=76928182

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110487110.5A Pending CN113178264A (zh) 2021-05-04 2021-05-04 一种深肌层浸润数据预测方法及系统

Country Status (1)

Country Link
CN (1) CN113178264A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516178A (zh) * 2021-06-22 2021-10-19 常州微亿智造科技有限公司 工业零部件的缺陷检测方法、缺陷检测装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991653A (zh) * 2019-12-10 2020-04-10 电子科技大学 一种针对不平衡数据集分类的方法
CN111424091A (zh) * 2020-04-20 2020-07-17 中国医学科学院北京协和医院 一组鉴别诊断甲状腺滤泡性肿瘤良恶性的标志物及其应用
CN111860576A (zh) * 2020-06-05 2020-10-30 温州大学 一种基于随机森林的子宫内膜肿瘤分类标记方法
CN112036515A (zh) * 2020-11-04 2020-12-04 北京淇瑀信息科技有限公司 基于smote算法的过采样方法、装置和电子设备
CN112270676A (zh) * 2020-11-13 2021-01-26 上海理工大学 一种mri图像子宫内膜癌肌层浸润深度计算机辅助判断方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991653A (zh) * 2019-12-10 2020-04-10 电子科技大学 一种针对不平衡数据集分类的方法
CN111424091A (zh) * 2020-04-20 2020-07-17 中国医学科学院北京协和医院 一组鉴别诊断甲状腺滤泡性肿瘤良恶性的标志物及其应用
CN111860576A (zh) * 2020-06-05 2020-10-30 温州大学 一种基于随机森林的子宫内膜肿瘤分类标记方法
CN112036515A (zh) * 2020-11-04 2020-12-04 北京淇瑀信息科技有限公司 基于smote算法的过采样方法、装置和电子设备
CN112270676A (zh) * 2020-11-13 2021-01-26 上海理工大学 一种mri图像子宫内膜癌肌层浸润深度计算机辅助判断方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宋洪超: "基于微波的乳腺癌检测算法研究", 《中国优秀博硕士学位论文全文数据库(博士) 医药卫生科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516178A (zh) * 2021-06-22 2021-10-19 常州微亿智造科技有限公司 工业零部件的缺陷检测方法、缺陷检测装置

Similar Documents

Publication Publication Date Title
Su et al. Interaction trees with censored survival data
CN105184103B (zh) 基于病历数据库的虚拟名医系统
CN110023513A (zh) 预测乳腺癌患者预后的方法
CN111081317A (zh) 一种基于基因谱的乳腺癌淋巴结转移预测方法及预测系统
CN111304308A (zh) 一种审核高通量测序基因变异检测结果的方法
CN109872776A (zh) 一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用
CN109988708A (zh) 一种用于对患有结肠直肠癌的患者进行分型的系统
CN113178264A (zh) 一种深肌层浸润数据预测方法及系统
CN116564409A (zh) 基于机器学习的转移性乳腺癌转录组测序数据识别方法
US20180100199A1 (en) Method for determining prognosis of breast cancer patient by using gene expression data
CN114373548A (zh) 一种基于代谢基因建立的胰腺癌预后风险预测方法和装置
KR101675957B1 (ko) 신호 성분 분석을 이용한 음악 인기도 예측 시스템 및 방법
Men et al. A prognostic 11 genes expression model for ovarian cancer
CN113378987A (zh) 基于密度的不平衡数据混合采样算法
CN111763738A (zh) 一种特征mRNA表达谱组合及肝癌早期预测方法
US8140456B2 (en) Method and system of extracting factors using generalized Fisher ratios
CN106650316A (zh) 一种基于ptpr和轮盘赌的特征选择方法
CN113409889A (zh) 一种sgRNA的靶标活性预测方法、装置、设备和存储介质
KR20200057664A (ko) 신경망 기반의 유전자 선택 알고리즘을 이용한 유전자 발현 마커 선별 방법
Sinha et al. A study of feature selection and extraction algorithms for cancer subtype prediction
CN116597902B (zh) 基于药物敏感性数据的多组学生物标志物筛选方法和装置
CN117153392A (zh) 一种胃癌预后预测的标志物、评估模型及其构建方法
CN117393171B (zh) 直肠癌术后lars发展轨迹预测模型构建方法及系统
CN117809838A (zh) 一种基于多组学的非小细胞肺癌患者预后生存率预测方法
CN115305286A (zh) 一种肺鳞癌预后预测模型构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210727

RJ01 Rejection of invention patent application after publication