CN113178264A - 一种深肌层浸润数据预测方法及系统 - Google Patents
一种深肌层浸润数据预测方法及系统 Download PDFInfo
- Publication number
- CN113178264A CN113178264A CN202110487110.5A CN202110487110A CN113178264A CN 113178264 A CN113178264 A CN 113178264A CN 202110487110 A CN202110487110 A CN 202110487110A CN 113178264 A CN113178264 A CN 113178264A
- Authority
- CN
- China
- Prior art keywords
- data
- decision tree
- deep
- infiltration
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008595 infiltration Effects 0.000 title claims abstract description 111
- 238000001764 infiltration Methods 0.000 title claims abstract description 111
- 210000003205 muscle Anatomy 0.000 title claims abstract description 61
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000003066 decision tree Methods 0.000 claims abstract description 102
- 238000012545 processing Methods 0.000 claims abstract description 70
- 238000012549 training Methods 0.000 claims abstract description 41
- 238000007637 random forest analysis Methods 0.000 claims abstract description 29
- 238000012360 testing method Methods 0.000 claims abstract description 8
- 238000010606 normalization Methods 0.000 claims description 13
- 210000001035 gastrointestinal tract Anatomy 0.000 claims description 9
- 238000013138 pruning Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 206010014733 Endometrial cancer Diseases 0.000 description 4
- 206010014759 Endometrial neoplasm Diseases 0.000 description 4
- 238000004393 prognosis Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 208000007433 Lymphatic Metastasis Diseases 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 2
- 210000000702 aorta abdominal Anatomy 0.000 description 1
- 238000002512 chemotherapy Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 210000001165 lymph node Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002632 myometrial effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002980 postoperative effect Effects 0.000 description 1
- 238000001959 radiotherapy Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种深肌层浸润数据预测方法,包括获取深肌层浸润数据集和深肌层非浸润数据集形成为原始样本数据;取出特征值和预测值,并选择预设的Borderline‑Smote模型,对原始样本数据进行不平衡数据处理;将处理样本数据与原始样本数据混合并归一化处理,划分成测试集和多个训练集;选取决策树类型,训练每一个训练集对应的CART决策树模型;对所有决策树模型中特征评估,得到满足预定条件的特征集;通过基尼指数的对比选出最优特征来进行分支处理决策树,得到随机森林;获取待测试数据集导入训练好的随机森林模型中,区别出深肌层浸润或非浸润数据。实施本发明,能在分析预测过程中提高深肌层浸润数据的占比,使得预测精度高且较易实现。
Description
技术领域
本发明涉及计算机数据处理技术领域,尤其涉及一种深肌层浸润数据预测方法及系统。
背景技术
肌层浸润深度是多种肿瘤包括子宫内膜癌预后的独立危险因素,同时也是评定临床分期的重要参考因素。术前肿瘤肌层浸润深度评估对于术后的治疗策略包括放化疗的选择具有重要意义。此外,肌层浸润还是影响预后的关键因素,在子宫内膜癌预后相关因素的分析中,深肌层浸润的贡献率相对其他因素较大。研究表明,子宫内膜癌患者中淋巴结受累与子宫肌层浸润深度大于50%密切相关。子宫内膜癌伴有深肌层浸润者,腹主动脉旁淋巴结转移的发生率为21.1%,盆腔淋巴结转移的发生率高达43.0%,深肌层浸润患者较浅肌层浸润患者病死率高出3.619倍。因此,对肌层浸润相关影响因素的研究极具意义,不仅有助于术前分期的评判,还可对患者的预后进行预测。
深肌层浸润情况是对深肌层浸润数据进行深度分析预测所得,然而在分析预测过程中往往存在大量的深肌层非浸润数据,极大的影响了数据预测的准确性。因此,有必要对深肌层浸润数据进行准确的预测。
发明内容
本发明实施例所要解决的技术问题在于,提供一种深肌层浸润数据预测方法及系统,能在分析预测过程中提高深肌层浸润数据的占比,使得预测精度高且较易实现。
为了解决上述技术问题,本发明实施例提供了一种深肌层浸润数据预测方法,包括以下步骤:
步骤S1、获取深肌层浸润数据集和深肌层非浸润数据集来形成样本数据,并将所获取的样本数据进行缺失值处理之后作为原始样本数据;
步骤S2、取出所述原始样本数据的特征值和预测值,并选择预设的Borderline-Smote模型,对所述原始样本数据进行不平衡数据处理;
步骤S3、将不平衡数据处理得到的样本数据与所述原始样本数据进行混合,得到一个新样本数据集并进行归一化处理,且进一步将归一化处理的新样本数据划分成测试集和多个训练集;
步骤S4、选取随机森林的决策树为CART类型,并分别训练每一个划分好的训练集,得到每一个训练集相对应的CART决策树模型;
步骤S5、利用特征的重要性,对每一个CART决策树模型中的所有特征均进行评估,得到每一个CART决策树模型中满足预定条件的特征集;
步骤S6、通过基尼指数的对比选出最优特征来对所有的CART决策树模型中满足所述预设条件的特征集进行分支处理,得到所有CART决策树模型经过分支处理后的决策树,并形成随机森林;其中,将选出的最优特征按照基尼指数从大到小的顺序进行剪枝排序,且所选的最优特征均是深肌层浸润数据区别于深肌层非浸润数据的关键特征;
步骤S7、获取待测试数据集,将所述待测试数据集导入到训练好的随机森林模型中,区别出所述待测试数据集为深肌层浸润数据集或深肌层非浸润数据集。
其中,在所述步骤S2中,所述选择预设的Borderline-Smote模型,对所述原始样本数据进行不平衡数据处理的具体步骤包括:
第一步、获取整个数据集,记为训练集T;其中,深肌层浸润数据集记为P,深肌层非浸润数据集记为N;其中,P={p1,p2,...ppnum},N={n1,n2,...,nnnum};pnum和nnum分别是深肌层浸润数据集和深肌层非浸润数据集各自对应的数量;
第二步、对于深肌层浸润数据集P中的每一个样本pi(i=1,2,...,pnum),计算出整个训练集T中它的m个近邻;其中,m个近邻中深肌层非浸润数据集N的个数用m′(0≤m′≤m)表示;
第三步、如果m′=m,则样本pi被认为是噪声;如果0≤m′≤m/2,则样本pi被认为是安全数据集Tsafe;如果m/2≤m′≤m,则样本pi被认为是错误类别样本,并把样本pi放到危险数据集Tdanger中;
第四步、设置危险数据集Tdanger且并对危险数据集Tdanger中的每个实例样本pi′,均计算出对应深肌层浸润数据集P中的k个近邻;其中,Tdanger={p1′,p2′,...,p′dnum},且0≤dnum≤pnum;
第五步、对于每个实例样本pi′,均随机从深肌层浸润数据集P中对应计算的k个近邻中选出s个,并计算出每个实例样本pi′和对应选出的s个近邻的距离difj(j=1,2...,s),进一步用difj乘于一个介于0~1之间的随机数rj,产生一个新的少数例样本syntheticj;其中,syntheticj的计算公式为syntheticj=pi′+rj×difj(j=1,2,...s);
第六步,重复执行第四步和第五步;其中,对于每个实例样本pi′,均得到s×dnum个新的少数例样本synthetic。
其中,在步骤S5中,所述利用特征重要性,对每一个CART决策树模型中所有特征进行评估,得到每一个CART决策树模型中满足条件的特征集的具体步骤包括:
确定当前待评估的CART决策树模型,并在当前待评估的CART决策树模型中,汇总出对应训练集中的所有特征变量;
计算出当前待评估的CART决策树模型中每个特征的基尼指数评分,依据对应特征所计算出的基尼指数评分进行特征重要性排列,得到当前待评估的CART决策树模型中按照特征重要性降序排列的特征集;
依据预设的特征上限数量,按照特征重要性从小到大的顺序在所述特征集中进行特征剔除,直至所述特征集中特征数量达到上限值为止,得到当前待评估的CART决策树模型中特征剔除后的特征集。
其中,在步骤6中,所述对每一个通过基尼指数的对比选出最优特征来对所有的CART决策树模型中满足所述预定条件的特征集进行分支处理的具体步骤包括:
确定当前待分支处理的CART决策树模型,并在当前待分支处理的CART决策树模型中,汇总出对应训练集中的所有特征变量;
计算出当前待分支处理的CART决策树模型中每个特征的基尼指数,并筛选出最小基尼指数评分的特征作为最优特征,将最优特征的分支点最为根节点衍生的两个子节点,然后将剩余的特征分配到上述的两个子节点中,实现分支处理;其中,所述分支处理的过程包括预剪枝处理,具体为若当前待分支处理的CART决策树模型中某一树杈上的样本小于所设定的参数,则相对应的决策树就不再继续生长。
其中,k表示在节点m的CART决策树模型中的类别个数;Pmk表示节点m的CART决策树模型中类别k所占的比例大小;GIm表示节点m处的基尼指数;GIl表示特征Xj在节点m分支前的基尼指数;GIr表示特征Xj在节点m分支后的基尼指数。
本发明实施例还提供了一种深肌层浸润数据预测系统,包括:
数据获取单元,用于获取深肌层浸润数据集和深肌层非浸润数据集来形成样本数据,并将所获取的样本数据进行缺失值处理之后作为原始样本数据;
数据处理单元,用于取出所述原始样本数据的特征值和预测值,并选择预设的Borderline-Smote模型,对所述原始样本数据进行不平衡数据处理;
数据混合单元,用于将不平衡数据处理得到的样本数据与所述原始样本数据进行混合,得到一个新样本数据集并进行归一化处理,且进一步将归一化处理的新样本数据划分成测试集和多个训练集;
决策模型生成单元,用于选取随机森林的决策树为CART类型,并分别训练每一个划分好的训练集,得到每一个训练集相对应的CART决策树模型;
特征集筛选单元,用于利用特征的重要性,对每一个CART决策树模型中的所有特征均进行评估,得到每一个CART决策树模型中满足预定条件的特征集;
模型生成单元,用于通过基尼指数的对比选出最优特征来对所有的CART决策树模型中满足所述预设条件的特征集进行分支处理,得到所有CART决策树模型经过分支处理后的决策树,并形成随机森林;其中,将选出的最优特征按照基尼指数从大到小的顺序进行剪枝排序,且所选的最优特征均是深肌层浸润数据区别于深肌层非浸润数据的关键特征;
预测单元,用于获取待测试数据集,将所述待测试数据集导入到训练好的随机森林模型中,区别出所述待测试数据集为深肌层浸润数据集或深肌层非浸润数据集。
实施本发明实施例,具有如下有益效果:
本发明采用Borderline-Smote对数据集做平衡处理,使得平衡数据集中深肌层非浸润数据占比下降,并将平衡数据集采用随机森林算法来预测待测试数据集为深肌层浸润数据集或深肌层非浸润数据集,从而综合平衡考虑了深肌层浸润数据和深肌层非浸润数据的占比大小,使得预测精度高且较易实现。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,根据这些附图获得其他的附图仍属于本发明的范畴。
图1为本发明实施例提供的深肌层浸润数据预测方法的流程图;
图2为本发明实施例提供的深肌层浸润数据预测系统的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
如图1所示,为本发明实施例中,提出的一种深肌层浸润数据预测方法,包括以下步骤:
步骤S1、获取深肌层浸润数据集和深肌层非浸润数据集来形成样本数据,并将所获取的样本数据进行缺失值处理之后作为原始样本数据;
具体过程为,样本数据共有300份样本,特征有59个。其中,深肌层浸润的数据集有50份,占整个数据样本的16.7%;深肌层非浸润的数据集有250份,占整个数据样本的83.3%。应当说明的是,若样本数据有缺失,则对缺失的样本进行缺失值处理,使得样本数据完整。
步骤S2、取出所述原始样本数据的特征值和预测值,并选择预设的Borderline-Smote模型,对所述原始样本数据进行不平衡数据处理;
具体过程为,首先,取出原始样本数据的特征值和预测值。
其次,选择预设的Borderline-Smote模型,对原始样本数据进行不平衡数据处理。该步骤具体过程如下:
第一步、获取整个数据集,记为训练集T;其中,深肌层浸润数据集记(即少数类)为P,深肌层非浸润数据集(即多数类)记为N;其中,P={p1,p2,...ppnum},N={n1,n2,...,nnnum};pnum和nnum分别是深肌层浸润数据集和深肌层非浸润数据集各自对应的数量;
第二步、对于深肌层浸润数据集P中的每一个样本pi(i=1,2,...,pnum),计算出整个训练集T中它的m个近邻;其中,m个近邻中深肌层非浸润数据集N的个数用m′(0≤m′≤m)表示;
第三步、如果m′=m(即m个近邻都是多数类实例),则样本pi被认为是噪声,如下步骤不再执行;如果0≤m′≤m/2(即样本pi的近邻中少数类的样本个数大于多数类的样本个数),则样本pi被认为是安全数据集Tsafe,如下步骤不再执行;如果m/2≤m′≤m(即即样本pi的近邻中多数类的样本个数大于少数类的样本个数),则样本pi被认为是错误类别样本,并把样本pi放到危险数据集Tdanger中;
第四步、设置危险数据集Tdanger且(即看作是少数类P的临界数据),并对危险数据集Tdanger中的每个实例样本pi′,均计算出对应深肌层浸润数据集P中的k个近邻;其中,Tdanger={p1′,p2′,...,p′dnum},且0≤dnum≤pnum;
第五步、对于每个实例样本pi′,均随机从深肌层浸润数据集P中对应计算的k个近邻中选出s个,并计算出每个实例样本pi′和对应选出的s个近邻的距离difj(j=1,2...,s),进一步用difj乘于一个介于0~1之间的随机数rj,产生一个新的少数例样本syntheticj;其中,syntheticj的计算公式为syntheticj=pi′+rj×difj(j=1,2,...s);
第六步,重复执行第四步和第五步;其中,对于每个实例样本pi′,均得到s×dnum个新的少数例样本synthetic。
步骤S3、将不平衡数据处理得到的样本数据与所述原始样本数据进行混合,得到一个新样本数据集并进行归一化处理,且进一步将归一化处理的新样本数据划分成测试集和多个训练集;
具体过程为,首先,混合不平衡数据处理得到的样本数据与原始样本数据,此时产生了200份新样本,使得整个数据集样本中深肌层浸润数据集与深肌层非浸润数据集大小为1:1。其次,对混合样本数据进行归一化处理,再划分成测试集和多个训练集。
步骤S4、选取随机森林的决策树为CART类型,并分别训练每一个划分好的训练集,得到每一个训练集相对应的CART决策树模型;
具体过程为,确定随机森林的决策树为CART类型并训练每一个划分好的训练集,得到每一个训练集相对应的CART决策树模型。
步骤S5、利用特征的重要性,对每一个CART决策树模型中的所有特征均进行评估,得到每一个CART决策树模型中满足预定条件的特征集;
具体过程为,首先,确定当前待评估的CART决策树模型,并在当前待评估的CART决策树模型中,汇总出对应训练集中的所有特征变量。
其次,计算出当前待评估的CART决策树模型中每个特征的基尼指数评分,依据对应特征所计算出的基尼指数评分进行特征重要性排列,得到当前待评估的CART决策树模型中按照特征重要性降序排列的特征集。
最后,依据预设的特征上限数量,按照特征重要性从小到大的顺序在所述特征集中进行特征剔除,直至所述特征集中特征数量达到上限值为止,得到当前待评估的CART决策树模型中特征剔除后的特征集。
步骤S6、通过基尼指数的对比选出最优特征来对所有的CART决策树模型中满足所述预设条件的特征集进行分支处理,得到所有CART决策树模型经过分支处理后的决策树,并形成随机森林;其中,将选出的最优特征按照基尼指数从大到小的顺序进行剪枝排序,且所选的最优特征均是深肌层浸润数据区别于深肌层非浸润数据的关键特征;
具体过程为,首先,确定当前待分支处理的CART决策树模型,并在当前待分支处理的CART决策树模型中,汇总出对应训练集中的所有特征变量;
其次,计算出当前待分支处理的CART决策树模型中每个特征的基尼指数,并筛选出最小基尼指数评分的特征作为最优特征,将最优特征的分支点最为根节点衍生的两个子节点,然后将剩余的特征分配到上述的两个子节点中,实现分支处理;其中,分支处理的过程包括预剪枝处理,具体为若当前待分支处理的CART决策树模型中某一树杈上的样本小于所设定的参数,则相对应的决策树就不再继续生长。
其中,k表示在节点m的CART决策树模型中的类别个数;Pmk表示节点m的CART决策树模型中类别k所占的比例大小;GIm表示节点m处的基尼指数;GIl表示特征Xj在节点m分支前的基尼指数;GIr表示特征Xj在节点m分支后的基尼指数。
最后,得到所有CART决策树模型经过分支处理后的决策树,并形成随机森林。
步骤S7、获取待测试数据集,将所述待测试数据集导入到训练好的随机森林模型中,区别出所述待测试数据集为深肌层浸润数据集或深肌层非浸润数据集。
具体过程为,获取待测试数据集导入到训练好的随机森林模型中,从而可以区别出待测试数据集为深肌层浸润数据集或深肌层非浸润数据集。
在本发明实施例中,深肌层浸润数据预测方法先平衡数据集后采用随机森林算法,得到AUC值为0.9996,ACC值为99%。结果与未做数据平衡处理时得到的AUC值为0.944,ACC值为83.3%相比,分别提升了5.56%和16.6%。
如图2所示,为本发明实施例中,提供的一种深肌层浸润数据预测系统,包括:
数据获取单元110,用于获取深肌层浸润数据集和深肌层非浸润数据集来形成样本数据,并将所获取的样本数据进行缺失值处理之后作为原始样本数据;
数据处理单元120,用于取出所述原始样本数据的特征值和预测值,并选择预设的Borderline-Smote模型,对所述原始样本数据进行不平衡数据处理;
数据混合单元130,用于将不平衡数据处理得到的样本数据与所述原始样本数据进行混合,得到一个新样本数据集并进行归一化处理,且进一步将归一化处理的新样本数据划分成测试集和多个训练集;
决策模型生成单元140,用于选取随机森林的决策树为CART类型,并分别训练每一个划分好的训练集,得到每一个训练集相对应的CART决策树模型;
特征集筛选单元150,用于利用特征的重要性,对每一个CART决策树模型中的所有特征均进行评估,得到每一个CART决策树模型中满足预定条件的特征集;
模型生成单元160,用于通过基尼指数的对比选出最优特征来对所有的CART决策树模型中满足所述预设条件的特征集进行分支处理,得到所有CART决策树模型经过分支处理后的决策树,并形成随机森林;其中,将选出的最优特征按照基尼指数从大到小的顺序进行剪枝排序,且所选的最优特征均是深肌层浸润数据区别于深肌层非浸润数据的关键特征;
预测单元170,用于获取待测试数据集,将所述待测试数据集导入到训练好的随机森林模型中,区别出所述待测试数据集为深肌层浸润数据集或深肌层非浸润数据集。
实施本发明实施例,具有如下有益效果:
本发明采用Borderline-Smote对数据集做平衡处理,使得平衡数据集中深肌层非浸润数据占比下降,并将平衡数据集采用随机森林算法来预测待测试数据集为深肌层浸润数据集或深肌层非浸润数据集,从而综合平衡考虑了深肌层浸润数据和深肌层非浸润数据的占比大小,使得预测精度高且较易实现.
值得注意的是,上述系统实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (7)
1.一种深肌层浸润数据预测方法,其特征在于,包括以下步骤:
步骤S1、获取深肌层浸润数据集和深肌层非浸润数据集来形成样本数据,并将所获取的样本数据进行缺失值处理之后作为原始样本数据;
步骤S2、取出所述原始样本数据的特征值和预测值,并选择预设的Borderline-Smote模型,对所述原始样本数据进行不平衡数据处理;
步骤S3、将不平衡数据处理得到的样本数据与所述原始样本数据进行混合,得到一个新样本数据集并进行归一化处理,且进一步将归一化处理的新样本数据划分成测试集和多个训练集;
步骤S4、选取随机森林的决策树为CART类型,并分别训练每一个划分好的训练集,得到每一个训练集相对应的CART决策树模型;
步骤S5、利用特征的重要性,对每一个CART决策树模型中的所有特征均进行评估,得到每一个CART决策树模型中满足预定条件的特征集;
步骤S6、通过基尼指数的对比选出最优特征来对所有的CART决策树模型中满足所述预设条件的特征集进行分支处理,得到所有CART决策树模型经过分支处理后的决策树,并形成随机森林;其中,将选出的最优特征按照基尼指数从大到小的顺序进行剪枝排序,且所选的最优特征均是深肌层浸润数据区别于深肌层非浸润数据的关键特征;
步骤S7、获取待测试数据集,将所述待测试数据集导入到训练好的随机森林模型中,区别出所述待测试数据集为深肌层浸润数据集或深肌层非浸润数据集。
2.如权利要求1所述的深肌层浸润数据预测方法,其特征在于,在所述步骤S2中,所述选择预设的Borderline-Smote模型,对所述原始样本数据进行不平衡数据处理的具体步骤包括:
第一步、获取整个数据集,记为训练集T;其中,深肌层浸润数据集记为P,深肌层非浸润数据集记为N;其中,P={p1,p2,...ppnum},N={n1,n2,...,nnnum};pnum和nnum分别是深肌层浸润数据集和深肌层非浸润数据集各自对应的数量;
第二步、对于深肌层浸润数据集P中的每一个样本pi(i=1,2,...,pnum),计算出整个训练集T中它的m个近邻;其中,m个近邻中深肌层非浸润数据集N的个数用m′(0≤m′≤m)表示;
第三步、如果m′=m,则样本pi被认为是噪声;如果0≤m′≤m/2,则样本pi被认为是安全数据集Tsafe;如果m/2≤m′≤m,则样本pi被认为是错误类别样本,并把样本pi放到危险数据集Tdanger中;
第四步、设置危险数据集Tdanger且并对危险数据集Tdanger中的每个实例样本p′i,均计算出对应深肌层浸润数据集P中的k个近邻;其中,Tdanger={p′1,p′2,...,p′dnum},且0≤dnum≤pnum;
第五步、对于每个实例样本p′i,均随机从深肌层浸润数据集P中对应计算的k个近邻中选出s个,并计算出每个实例样本p′i和对应选出的s个近邻的距离difj(j=1,2...,s),进一步用difj乘于一个介于0~1之间的随机数rj,产生一个新的少数例样本syntheticj;其中,syntheticj的计算公式为syntheticj=p′i+rj×difj(j=1,2,...s);
第六步,重复执行第四步和第五步;其中,对于每个实例样本p′i,均得到s×dnum个新的少数例样本synthetic。
3.如权利要求1所述的深肌层浸润数据预测方法,其特征在于,在步骤S5中,所述利用特征重要性,对每一个CART决策树模型中所有特征进行评估,得到每一个CART决策树模型中满足条件的特征集的具体步骤包括:
确定当前待评估的CART决策树模型,并在当前待评估的CART决策树模型中,汇总出对应训练集中的所有特征变量;
计算出当前待评估的CART决策树模型中每个特征的基尼指数评分,依据对应特征所计算出的基尼指数评分进行特征重要性排列,得到当前待评估的CART决策树模型中按照特征重要性降序排列的特征集;
依据预设的特征上限数量,按照特征重要性从小到大的顺序在所述特征集中进行特征剔除,直至所述特征集中特征数量达到上限值为止,得到当前待评估的CART决策树模型中特征剔除后的特征集。
4.如权利要求1所述的深肌层浸润数据预测方法,其特征在于,在步骤6中,所述对每一个通过基尼指数的对比选出最优特征来对所有的CART决策树模型中满足所述预定条件的特征集进行分支处理的具体步骤包括:
确定当前待分支处理的CART决策树模型,并在当前待分支处理的CART决策树模型中,汇总出对应训练集中的所有特征变量;
计算出当前待分支处理的CART决策树模型中每个特征的基尼指数,并筛选出最小基尼指数评分的特征作为最优特征,将最优特征的分支点最为根节点衍生的两个子节点,然后将剩余的特征分配到上述的两个子节点中,实现分支处理;其中,所述分支处理的过程包括预剪枝处理,具体为若当前待分支处理的CART决策树模型中某一树杈上的样本小于所设定的参数,则相对应的决策树就不再继续生长。
7.一种深肌层浸润数据预测系统,其特征在于,包括:
数据获取单元,用于获取深肌层浸润数据集和深肌层非浸润数据集来形成样本数据,并将所获取的样本数据进行缺失值处理之后作为原始样本数据;
数据处理单元,用于取出所述原始样本数据的特征值和预测值,并选择预设的Borderline-Smote模型,对所述原始样本数据进行不平衡数据处理;
数据混合单元,用于将不平衡数据处理得到的样本数据与所述原始样本数据进行混合,得到一个新样本数据集并进行归一化处理,且进一步将归一化处理的新样本数据划分成测试集和多个训练集;
决策模型生成单元,用于选取随机森林的决策树为CART类型,并分别训练每一个划分好的训练集,得到每一个训练集相对应的CART决策树模型;
特征集筛选单元,用于利用特征的重要性,对每一个CART决策树模型中的所有特征均进行评估,得到每一个CART决策树模型中满足预定条件的特征集;
模型生成单元,用于通过基尼指数的对比选出最优特征来对所有的CART决策树模型中满足所述预设条件的特征集进行分支处理,得到所有CART决策树模型经过分支处理后的决策树,并形成随机森林;其中,将选出的最优特征按照基尼指数从大到小的顺序进行剪枝排序,且所选的最优特征均是深肌层浸润数据区别于深肌层非浸润数据的关键特征;
预测单元,用于获取待测试数据集,将所述待测试数据集导入到训练好的随机森林模型中,区别出所述待测试数据集为深肌层浸润数据集或深肌层非浸润数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110487110.5A CN113178264A (zh) | 2021-05-04 | 2021-05-04 | 一种深肌层浸润数据预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110487110.5A CN113178264A (zh) | 2021-05-04 | 2021-05-04 | 一种深肌层浸润数据预测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113178264A true CN113178264A (zh) | 2021-07-27 |
Family
ID=76928182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110487110.5A Pending CN113178264A (zh) | 2021-05-04 | 2021-05-04 | 一种深肌层浸润数据预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113178264A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113516178A (zh) * | 2021-06-22 | 2021-10-19 | 常州微亿智造科技有限公司 | 工业零部件的缺陷检测方法、缺陷检测装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991653A (zh) * | 2019-12-10 | 2020-04-10 | 电子科技大学 | 一种针对不平衡数据集分类的方法 |
CN111424091A (zh) * | 2020-04-20 | 2020-07-17 | 中国医学科学院北京协和医院 | 一组鉴别诊断甲状腺滤泡性肿瘤良恶性的标志物及其应用 |
CN111860576A (zh) * | 2020-06-05 | 2020-10-30 | 温州大学 | 一种基于随机森林的子宫内膜肿瘤分类标记方法 |
CN112036515A (zh) * | 2020-11-04 | 2020-12-04 | 北京淇瑀信息科技有限公司 | 基于smote算法的过采样方法、装置和电子设备 |
CN112270676A (zh) * | 2020-11-13 | 2021-01-26 | 上海理工大学 | 一种mri图像子宫内膜癌肌层浸润深度计算机辅助判断方法 |
-
2021
- 2021-05-04 CN CN202110487110.5A patent/CN113178264A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991653A (zh) * | 2019-12-10 | 2020-04-10 | 电子科技大学 | 一种针对不平衡数据集分类的方法 |
CN111424091A (zh) * | 2020-04-20 | 2020-07-17 | 中国医学科学院北京协和医院 | 一组鉴别诊断甲状腺滤泡性肿瘤良恶性的标志物及其应用 |
CN111860576A (zh) * | 2020-06-05 | 2020-10-30 | 温州大学 | 一种基于随机森林的子宫内膜肿瘤分类标记方法 |
CN112036515A (zh) * | 2020-11-04 | 2020-12-04 | 北京淇瑀信息科技有限公司 | 基于smote算法的过采样方法、装置和电子设备 |
CN112270676A (zh) * | 2020-11-13 | 2021-01-26 | 上海理工大学 | 一种mri图像子宫内膜癌肌层浸润深度计算机辅助判断方法 |
Non-Patent Citations (1)
Title |
---|
宋洪超: "基于微波的乳腺癌检测算法研究", 《中国优秀博硕士学位论文全文数据库(博士) 医药卫生科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113516178A (zh) * | 2021-06-22 | 2021-10-19 | 常州微亿智造科技有限公司 | 工业零部件的缺陷检测方法、缺陷检测装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Su et al. | Interaction trees with censored survival data | |
CN105184103B (zh) | 基于病历数据库的虚拟名医系统 | |
CN110023513A (zh) | 预测乳腺癌患者预后的方法 | |
CN111081317A (zh) | 一种基于基因谱的乳腺癌淋巴结转移预测方法及预测系统 | |
CN111304308A (zh) | 一种审核高通量测序基因变异检测结果的方法 | |
CN109872776A (zh) | 一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用 | |
CN109988708A (zh) | 一种用于对患有结肠直肠癌的患者进行分型的系统 | |
CN113178264A (zh) | 一种深肌层浸润数据预测方法及系统 | |
CN116564409A (zh) | 基于机器学习的转移性乳腺癌转录组测序数据识别方法 | |
US20180100199A1 (en) | Method for determining prognosis of breast cancer patient by using gene expression data | |
CN114373548A (zh) | 一种基于代谢基因建立的胰腺癌预后风险预测方法和装置 | |
KR101675957B1 (ko) | 신호 성분 분석을 이용한 음악 인기도 예측 시스템 및 방법 | |
Men et al. | A prognostic 11 genes expression model for ovarian cancer | |
CN113378987A (zh) | 基于密度的不平衡数据混合采样算法 | |
CN111763738A (zh) | 一种特征mRNA表达谱组合及肝癌早期预测方法 | |
US8140456B2 (en) | Method and system of extracting factors using generalized Fisher ratios | |
CN106650316A (zh) | 一种基于ptpr和轮盘赌的特征选择方法 | |
CN113409889A (zh) | 一种sgRNA的靶标活性预测方法、装置、设备和存储介质 | |
KR20200057664A (ko) | 신경망 기반의 유전자 선택 알고리즘을 이용한 유전자 발현 마커 선별 방법 | |
Sinha et al. | A study of feature selection and extraction algorithms for cancer subtype prediction | |
CN116597902B (zh) | 基于药物敏感性数据的多组学生物标志物筛选方法和装置 | |
CN117153392A (zh) | 一种胃癌预后预测的标志物、评估模型及其构建方法 | |
CN117393171B (zh) | 直肠癌术后lars发展轨迹预测模型构建方法及系统 | |
CN117809838A (zh) | 一种基于多组学的非小细胞肺癌患者预后生存率预测方法 | |
CN115305286A (zh) | 一种肺鳞癌预后预测模型构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210727 |
|
RJ01 | Rejection of invention patent application after publication |