CN113178264A

CN113178264A - 一种深肌层浸润数据预测方法及系统

Info

Publication number: CN113178264A
Application number: CN202110487110.5A
Authority: CN
Inventors: 林凤; 易新凯; 唐震洲; 周铭琰; 黎玮
Original assignee: First Affiliated Hospital of Wenzhou Medical University
Current assignee: First Affiliated Hospital of Wenzhou Medical University
Priority date: 2021-05-04
Filing date: 2021-05-04
Publication date: 2021-07-27

Abstract

本发明提供一种深肌层浸润数据预测方法，包括获取深肌层浸润数据集和深肌层非浸润数据集形成为原始样本数据；取出特征值和预测值，并选择预设的Borderline‑Smote模型，对原始样本数据进行不平衡数据处理；将处理样本数据与原始样本数据混合并归一化处理，划分成测试集和多个训练集；选取决策树类型，训练每一个训练集对应的CART决策树模型；对所有决策树模型中特征评估，得到满足预定条件的特征集；通过基尼指数的对比选出最优特征来进行分支处理决策树，得到随机森林；获取待测试数据集导入训练好的随机森林模型中，区别出深肌层浸润或非浸润数据。实施本发明，能在分析预测过程中提高深肌层浸润数据的占比，使得预测精度高且较易实现。

Description

一种深肌层浸润数据预测方法及系统

技术领域

本发明涉及计算机数据处理技术领域，尤其涉及一种深肌层浸润数据预测方法及系统。

背景技术

肌层浸润深度是多种肿瘤包括子宫内膜癌预后的独立危险因素，同时也是评定临床分期的重要参考因素。术前肿瘤肌层浸润深度评估对于术后的治疗策略包括放化疗的选择具有重要意义。此外，肌层浸润还是影响预后的关键因素，在子宫内膜癌预后相关因素的分析中，深肌层浸润的贡献率相对其他因素较大。研究表明，子宫内膜癌患者中淋巴结受累与子宫肌层浸润深度大于50％密切相关。子宫内膜癌伴有深肌层浸润者，腹主动脉旁淋巴结转移的发生率为21.1％，盆腔淋巴结转移的发生率高达43.0％，深肌层浸润患者较浅肌层浸润患者病死率高出3.619倍。因此，对肌层浸润相关影响因素的研究极具意义，不仅有助于术前分期的评判，还可对患者的预后进行预测。

深肌层浸润情况是对深肌层浸润数据进行深度分析预测所得，然而在分析预测过程中往往存在大量的深肌层非浸润数据，极大的影响了数据预测的准确性。因此，有必要对深肌层浸润数据进行准确的预测。

发明内容

本发明实施例所要解决的技术问题在于，提供一种深肌层浸润数据预测方法及系统，能在分析预测过程中提高深肌层浸润数据的占比，使得预测精度高且较易实现。

为了解决上述技术问题，本发明实施例提供了一种深肌层浸润数据预测方法，包括以下步骤：

步骤S1、获取深肌层浸润数据集和深肌层非浸润数据集来形成样本数据，并将所获取的样本数据进行缺失值处理之后作为原始样本数据；

步骤S2、取出所述原始样本数据的特征值和预测值，并选择预设的Borderline-Smote模型，对所述原始样本数据进行不平衡数据处理；

步骤S3、将不平衡数据处理得到的样本数据与所述原始样本数据进行混合，得到一个新样本数据集并进行归一化处理，且进一步将归一化处理的新样本数据划分成测试集和多个训练集；

步骤S4、选取随机森林的决策树为CART类型，并分别训练每一个划分好的训练集，得到每一个训练集相对应的CART决策树模型；

步骤S5、利用特征的重要性，对每一个CART决策树模型中的所有特征均进行评估，得到每一个CART决策树模型中满足预定条件的特征集；

步骤S6、通过基尼指数的对比选出最优特征来对所有的CART决策树模型中满足所述预设条件的特征集进行分支处理，得到所有CART决策树模型经过分支处理后的决策树，并形成随机森林；其中，将选出的最优特征按照基尼指数从大到小的顺序进行剪枝排序，且所选的最优特征均是深肌层浸润数据区别于深肌层非浸润数据的关键特征；

步骤S7、获取待测试数据集，将所述待测试数据集导入到训练好的随机森林模型中，区别出所述待测试数据集为深肌层浸润数据集或深肌层非浸润数据集。

其中，在所述步骤S2中，所述选择预设的Borderline-Smote模型，对所述原始样本数据进行不平衡数据处理的具体步骤包括：

第一步、获取整个数据集，记为训练集T；其中，深肌层浸润数据集记为P，深肌层非浸润数据集记为N；其中，P＝{p₁，p₂，...p_pnum}，N＝{n₁，n₂，...,n_nnum}；pnum和nnum分别是深肌层浸润数据集和深肌层非浸润数据集各自对应的数量；

第二步、对于深肌层浸润数据集P中的每一个样本p_i(i＝1,2,...,pnum)，计算出整个训练集T中它的m个近邻；其中，m个近邻中深肌层非浸润数据集N的个数用m′(0≤m′≤m)表示；

第三步、如果m′＝m，则样本p_i被认为是噪声；如果0≤m′≤m/2，则样本p_i被认为是安全数据集T_safe；如果m/2≤m′≤m，则样本p_i被认为是错误类别样本，并把样本p_i放到危险数据集T_danger中；

第四步、设置危险数据集T_danger且

并对危险数据集T_danger中的每个实例样本p_i′，均计算出对应深肌层浸润数据集P中的k个近邻；其中，T_danger＝{p₁′,p₂′,...,p′_dnum}，且0≤dnum≤pnum；

第五步、对于每个实例样本p_i′，均随机从深肌层浸润数据集P中对应计算的k个近邻中选出s个，并计算出每个实例样本p_i′和对应选出的s个近邻的距离dif_j(j＝1,2...,s)，进一步用dif_j乘于一个介于0～1之间的随机数r_j，产生一个新的少数例样本synthetic_j；其中，synthetic_j的计算公式为synthetic_j＝p_i′+r_j×dif_j(j＝1,2,...s)；

第六步，重复执行第四步和第五步；其中，对于每个实例样本p_i′，均得到s×dnum个新的少数例样本synthetic。

其中，在步骤S5中，所述利用特征重要性，对每一个CART决策树模型中所有特征进行评估，得到每一个CART决策树模型中满足条件的特征集的具体步骤包括：

确定当前待评估的CART决策树模型，并在当前待评估的CART决策树模型中，汇总出对应训练集中的所有特征变量；

计算出当前待评估的CART决策树模型中每个特征的基尼指数评分，依据对应特征所计算出的基尼指数评分进行特征重要性排列，得到当前待评估的CART决策树模型中按照特征重要性降序排列的特征集；

依据预设的特征上限数量，按照特征重要性从小到大的顺序在所述特征集中进行特征剔除，直至所述特征集中特征数量达到上限值为止，得到当前待评估的CART决策树模型中特征剔除后的特征集。

其中，在步骤6中，所述对每一个通过基尼指数的对比选出最优特征来对所有的CART决策树模型中满足所述预定条件的特征集进行分支处理的具体步骤包括：

确定当前待分支处理的CART决策树模型，并在当前待分支处理的CART决策树模型中，汇总出对应训练集中的所有特征变量；

计算出当前待分支处理的CART决策树模型中每个特征的基尼指数，并筛选出最小基尼指数评分的特征作为最优特征，将最优特征的分支点最为根节点衍生的两个子节点，然后将剩余的特征分配到上述的两个子节点中，实现分支处理；其中，所述分支处理的过程包括预剪枝处理，具体为若当前待分支处理的CART决策树模型中某一树杈上的样本小于所设定的参数，则相对应的决策树就不再继续生长。

其中，特征X_j在节点m的重要性评分用

即对应CART决策树模型中基尼指数评分计算公式为

其中，

k表示在节点m的CART决策树模型中的类别个数；P_mk表示节点m的CART决策树模型中类别k所占的比例大小；GI_m表示节点m处的基尼指数；GI_l表示特征X_j在节点m分支前的基尼指数；GI_r表示特征X_j在节点m分支后的基尼指数。

其中，特征X_j在有n棵CART决策树的随机森林的基尼指数评分计算公式为

其中，如果特征X_j在决策树i中出现的节点m在集合M中，那么特征X_j在第i棵CART树的重要性为

本发明实施例还提供了一种深肌层浸润数据预测系统，包括：

数据获取单元，用于获取深肌层浸润数据集和深肌层非浸润数据集来形成样本数据，并将所获取的样本数据进行缺失值处理之后作为原始样本数据；

数据处理单元，用于取出所述原始样本数据的特征值和预测值，并选择预设的Borderline-Smote模型，对所述原始样本数据进行不平衡数据处理；

数据混合单元，用于将不平衡数据处理得到的样本数据与所述原始样本数据进行混合，得到一个新样本数据集并进行归一化处理，且进一步将归一化处理的新样本数据划分成测试集和多个训练集；

决策模型生成单元，用于选取随机森林的决策树为CART类型，并分别训练每一个划分好的训练集，得到每一个训练集相对应的CART决策树模型；

特征集筛选单元，用于利用特征的重要性，对每一个CART决策树模型中的所有特征均进行评估，得到每一个CART决策树模型中满足预定条件的特征集；

模型生成单元，用于通过基尼指数的对比选出最优特征来对所有的CART决策树模型中满足所述预设条件的特征集进行分支处理，得到所有CART决策树模型经过分支处理后的决策树，并形成随机森林；其中，将选出的最优特征按照基尼指数从大到小的顺序进行剪枝排序，且所选的最优特征均是深肌层浸润数据区别于深肌层非浸润数据的关键特征；

预测单元，用于获取待测试数据集，将所述待测试数据集导入到训练好的随机森林模型中，区别出所述待测试数据集为深肌层浸润数据集或深肌层非浸润数据集。

实施本发明实施例，具有如下有益效果：

本发明采用Borderline-Smote对数据集做平衡处理，使得平衡数据集中深肌层非浸润数据占比下降，并将平衡数据集采用随机森林算法来预测待测试数据集为深肌层浸润数据集或深肌层非浸润数据集，从而综合平衡考虑了深肌层浸润数据和深肌层非浸润数据的占比大小，使得预测精度高且较易实现。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，根据这些附图获得其他的附图仍属于本发明的范畴。

图1为本发明实施例提供的深肌层浸润数据预测方法的流程图；

图2为本发明实施例提供的深肌层浸润数据预测系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

如图1所示，为本发明实施例中，提出的一种深肌层浸润数据预测方法，包括以下步骤：

具体过程为，样本数据共有300份样本，特征有59个。其中，深肌层浸润的数据集有50份，占整个数据样本的16.7％；深肌层非浸润的数据集有250份，占整个数据样本的83.3％。应当说明的是，若样本数据有缺失，则对缺失的样本进行缺失值处理，使得样本数据完整。

具体过程为，首先，取出原始样本数据的特征值和预测值。

其次，选择预设的Borderline-Smote模型，对原始样本数据进行不平衡数据处理。该步骤具体过程如下：

第一步、获取整个数据集，记为训练集T；其中，深肌层浸润数据集记(即少数类)为P，深肌层非浸润数据集(即多数类)记为N；其中，P＝{p₁，p₂，...p_pnum}，N＝{n₁，n₂，...,n_nnum}；pnum和nnum分别是深肌层浸润数据集和深肌层非浸润数据集各自对应的数量；

第三步、如果m′＝m(即m个近邻都是多数类实例)，则样本p_i被认为是噪声，如下步骤不再执行；如果0≤m′≤m/2(即样本p_i的近邻中少数类的样本个数大于多数类的样本个数)，则样本p_i被认为是安全数据集T_safe，如下步骤不再执行；如果m/2≤m′≤m(即即样本p_i的近邻中多数类的样本个数大于少数类的样本个数)，则样本p_i被认为是错误类别样本，并把样本p_i放到危险数据集T_danger中；

第四步、设置危险数据集T_danger且

(即看作是少数类P的临界数据)，并对危险数据集T_danger中的每个实例样本p_i′，均计算出对应深肌层浸润数据集P中的k个近邻；其中，T_danger＝{p₁′,p₂′,...,p′_dnum}，且0≤dnum≤pnum；

具体过程为，首先，混合不平衡数据处理得到的样本数据与原始样本数据，此时产生了200份新样本，使得整个数据集样本中深肌层浸润数据集与深肌层非浸润数据集大小为1:1。其次，对混合样本数据进行归一化处理，再划分成测试集和多个训练集。

具体过程为，确定随机森林的决策树为CART类型并训练每一个划分好的训练集，得到每一个训练集相对应的CART决策树模型。

具体过程为，首先，确定当前待评估的CART决策树模型，并在当前待评估的CART决策树模型中，汇总出对应训练集中的所有特征变量。

其次，计算出当前待评估的CART决策树模型中每个特征的基尼指数评分，依据对应特征所计算出的基尼指数评分进行特征重要性排列，得到当前待评估的CART决策树模型中按照特征重要性降序排列的特征集。

最后，依据预设的特征上限数量，按照特征重要性从小到大的顺序在所述特征集中进行特征剔除，直至所述特征集中特征数量达到上限值为止，得到当前待评估的CART决策树模型中特征剔除后的特征集。

具体过程为，首先，确定当前待分支处理的CART决策树模型，并在当前待分支处理的CART决策树模型中，汇总出对应训练集中的所有特征变量；

其次，计算出当前待分支处理的CART决策树模型中每个特征的基尼指数，并筛选出最小基尼指数评分的特征作为最优特征，将最优特征的分支点最为根节点衍生的两个子节点，然后将剩余的特征分配到上述的两个子节点中，实现分支处理；其中，分支处理的过程包括预剪枝处理，具体为若当前待分支处理的CART决策树模型中某一树杈上的样本小于所设定的参数，则相对应的决策树就不再继续生长。

在一个实施例中，特征X_j在节点m的重要性评分用

即对应CART决策树模型中基尼指数评分计算公式为

其中，

同时，特征X_j在有n棵CART决策树的随机森林的基尼指数评分计算公式为

最后，得到所有CART决策树模型经过分支处理后的决策树，并形成随机森林。

具体过程为，获取待测试数据集导入到训练好的随机森林模型中，从而可以区别出待测试数据集为深肌层浸润数据集或深肌层非浸润数据集。

在本发明实施例中，深肌层浸润数据预测方法先平衡数据集后采用随机森林算法，得到AUC值为0.9996，ACC值为99％。结果与未做数据平衡处理时得到的AUC值为0.944，ACC值为83.3％相比，分别提升了5.56％和16.6％。

如图2所示，为本发明实施例中，提供的一种深肌层浸润数据预测系统，包括：

数据获取单元110，用于获取深肌层浸润数据集和深肌层非浸润数据集来形成样本数据，并将所获取的样本数据进行缺失值处理之后作为原始样本数据；

数据处理单元120，用于取出所述原始样本数据的特征值和预测值，并选择预设的Borderline-Smote模型，对所述原始样本数据进行不平衡数据处理；

数据混合单元130，用于将不平衡数据处理得到的样本数据与所述原始样本数据进行混合，得到一个新样本数据集并进行归一化处理，且进一步将归一化处理的新样本数据划分成测试集和多个训练集；

决策模型生成单元140，用于选取随机森林的决策树为CART类型，并分别训练每一个划分好的训练集，得到每一个训练集相对应的CART决策树模型；

特征集筛选单元150，用于利用特征的重要性，对每一个CART决策树模型中的所有特征均进行评估，得到每一个CART决策树模型中满足预定条件的特征集；

模型生成单元160，用于通过基尼指数的对比选出最优特征来对所有的CART决策树模型中满足所述预设条件的特征集进行分支处理，得到所有CART决策树模型经过分支处理后的决策树，并形成随机森林；其中，将选出的最优特征按照基尼指数从大到小的顺序进行剪枝排序，且所选的最优特征均是深肌层浸润数据区别于深肌层非浸润数据的关键特征；

预测单元170，用于获取待测试数据集，将所述待测试数据集导入到训练好的随机森林模型中，区别出所述待测试数据集为深肌层浸润数据集或深肌层非浸润数据集。

实施本发明实施例，具有如下有益效果：

本发明采用Borderline-Smote对数据集做平衡处理，使得平衡数据集中深肌层非浸润数据占比下降，并将平衡数据集采用随机森林算法来预测待测试数据集为深肌层浸润数据集或深肌层非浸润数据集，从而综合平衡考虑了深肌层浸润数据和深肌层非浸润数据的占比大小，使得预测精度高且较易实现.

值得注意的是，上述系统实施例中，所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种深肌层浸润数据预测方法，其特征在于，包括以下步骤：

2.如权利要求1所述的深肌层浸润数据预测方法，其特征在于，在所述步骤S2中，所述选择预设的Borderline-Smote模型，对所述原始样本数据进行不平衡数据处理的具体步骤包括：

第四步、设置危险数据集T_danger且

并对危险数据集T_danger中的每个实例样本p′_i，均计算出对应深肌层浸润数据集P中的k个近邻；其中，T_danger＝{p′₁,p′₂,...,p′_dnum}，且0≤dnum≤pnum；

第五步、对于每个实例样本p′_i，均随机从深肌层浸润数据集P中对应计算的k个近邻中选出s个，并计算出每个实例样本p′_i和对应选出的s个近邻的距离dif_j(j＝1,2...,s)，进一步用dif_j乘于一个介于0～1之间的随机数r_j，产生一个新的少数例样本synthetic_j；其中，synthetic_j的计算公式为synthetic_j＝p′_i+r_j×dif_j(j＝1,2,...s)；

第六步，重复执行第四步和第五步；其中，对于每个实例样本p′_i，均得到s×dnum个新的少数例样本synthetic。

3.如权利要求1所述的深肌层浸润数据预测方法，其特征在于，在步骤S5中，所述利用特征重要性，对每一个CART决策树模型中所有特征进行评估，得到每一个CART决策树模型中满足条件的特征集的具体步骤包括：

4.如权利要求1所述的深肌层浸润数据预测方法，其特征在于，在步骤6中，所述对每一个通过基尼指数的对比选出最优特征来对所有的CART决策树模型中满足所述预定条件的特征集进行分支处理的具体步骤包括：

5.如权利要求4所述的深肌层浸润数据预测方法，其特征在于，特征X_j在节点m的重要性评分用

即对应CART决策树模型中基尼指数评分计算公式为

其中，

6.如权利要求4所述的深肌层浸润数据预测方法，其特征在于，特征X_j在有n棵CART决策树的随机森林的基尼指数评分计算公式为

7.一种深肌层浸润数据预测系统，其特征在于，包括：