CN108597603A

CN108597603A - 基于多维高斯分布贝叶斯分类的癌症复发预测系统

Info

Publication number: CN108597603A
Application number: CN201810416949.8A
Authority: CN
Inventors: 李玲; 渠云龙; 杨秀华; 刘丹; 黄玉兰; 张海蓉; 佟宇琪; 顾琳; 刘婉莹; 戴思达; 李林; 骆宝童; 高华照; 张春霞
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2018-05-04
Filing date: 2018-05-04
Publication date: 2018-09-28
Anticipated expiration: 2038-05-04
Also published as: CN108597603B

Abstract

本发明涉及一种基于多维高斯分布贝叶斯分类的癌症复发预测系统，该系统的包括预处理模块、训练模块和贝叶斯分类器；预处理模块对训练集进行数据清洗并生成类向量数据集；训练模块首先计算两个类属性先验概率，然后利用pearson相关系数将数据属性分成与类属性关联度紧密的类数据属性集合和与类属性关联度稀疏的II类数据属性集合，两类数据属性集合分别利用多维高斯分布和一维高斯分布来计算相应的概率；贝叶斯分类器将两者概率及类别的先验概率联合共同作为数据属于每个类的概率，并据此判别癌症的分类测试结果。本发明提高了癌症是否复发的预测准确率。

Description

基于多维高斯分布贝叶斯分类的癌症复发预测系统

技术领域

本发明属于数据挖掘技术领域，涉及一种基于属性选择的多维高斯分布贝叶斯分类系统，具体涉及一种基于多维高斯分布贝叶斯分类的癌症复发预测系统。该系统对于一般的满足高斯分布的连续型数据的分类具有普适性。

背景技术

分类方法是解决分类问题的方法，是数据挖掘、机器学习和模式识别中一个重要的研究领域。分类方法通过对已知类别训练集的分析，从中发现分类规则，以此预测新数据的类别。分类方法的应用非常广泛，例如银行中风险评估、客户类别分类、文本检索和搜索引擎分类、安全领域中的入侵检测以及软件项目中的应用等等。

贝叶斯分类方法是数据分类方法中一种常用的方法，该方法以经典的数学理论为基础,采用概率统计知识对数据样本进行分类。它基于概率统计学中的贝叶斯定理，在己知先验概率与类条件概率的前提下，对类成员关系的可能性进行预测，具有稳固的理论知识根底。从理论上讲，贝叶斯分类方法的出错概率最小，并且它能综合样本信息和先验知识来训练分类器，避免了数据的过拟合现象，降低了因主观判断而造成的误差。

朴素贝叶斯分类方法(Naive Bayesian Classifier,NBC)作为贝叶斯分类方法经典方法之一，其优点有：1、数学基础坚实，分类效率稳定，容易解释；2、所需估计的参数很少，对缺失数据不太敏感；3、无需复杂的迭代求解框架，适用于规模巨大的数据集。正是由于朴素贝叶斯方法的以上优点，其在分类中常被应用，如垃圾邮件分类。然而，朴素贝叶斯分类基于数据属性间强独立性的假设，在计算过程中，它认为一个属性对目标类的作用和其他属性无关，具有一定的自身局限性。若在条件独立性假设不成立时构造NBC，将会直接影响到最终的分类效果，然而在实际应用中往往很难满足该假设。因此，如何改进NBC使得其在实际应用中独立性假设不满足的情况下，仍具有较好的分类效果，是当前国内外重要的研究课题之一。

乳腺癌是女性常见的恶性肿瘤之一,近年来我国乳腺癌的发病率呈迅速上升趋势,在女性各肿瘤中居首位。而乳腺癌治愈后，又有一部分人群会出现复发的可能，据统计，乳腺癌术后的5年内是复发的高危险期，特别是术后的1-2年风险。乳腺癌一旦有复发或转移现象，治疗的难度将会增加，远比第一次的治疗方式来得更为棘手,很有可能会直接威胁病人生命。因此，能够早点判断其复发可能性对于患者是十分有利的。因此，将贝叶斯分类预测方法应用到乳腺癌是否复发上，具有重要的意义。

发明内容

本发明所要解决的技术问题是提供一种能够提高癌症是否复发预测准确率的基于多维高斯分布贝叶斯分类的癌症复发预测系统。

为了解决上述技术问题，本发明的基于多维高斯分布贝叶斯分类的癌症复发预测系统包括预处理模块、训练模块和贝叶斯分类器；

数据预处理模块：将训练集中的噪声数据及缺省数据清洗掉生成类向量数据集，该训练集中包含类属性和M个数据属性，当类属性值L等于复发类属性值C1时代表复发，等于不复发类属性值C2时代表不复发；

训练模块：包括类先验概率计算子模块，数据属性分类子模块，多维高斯分布概率模型生成子模块和一维高斯分布概率模型生成子模块；

类先验概率计算子模块：根据式(1)计算复发类属性值C₁和不复发类属性值C₂在类向量数据集中出现的频率P(C_s)，s＝1，2；

N_s代表每一种类属性的样本数据条数，N代表总的样本数据条数；

数据属性分类子模块：

利用pearson相关系数将属于数据属性分成与类属性关联度紧密的I类数据属性集合XA和与类属性关联度稀疏的II类数据属性集合XB，

其中Xa_j代表I类数据属性集合XA中的第j条样本数据；Xb_j代表II类数据属性集合XB中第j条样本数据；

多维高斯分布概率模型生成子模块：

对I类数据属性集合XA进行训练，求出对应的属性均值向量u_a与多维高斯分布的协方差矩阵G；从而求出基于I类数据属性集合XA的多维高斯概率分布函数MultiGaussion(Xa)；

式中，Xa代表一条测试数据中属于I类数据属性的测试数据向量；p为多维高斯分布函数的维数，即I类数据属性集合XA中数据属性的数目N_A，u_a为多维高斯分布函数的均值向量，G为多维高斯分布函数的互协方差矩阵；

G＝E((XA-E(XA))^T(XA-E(XA)))

一维高斯分布概率模型生成子模块：

对II类数据属性集合XB进行训练，求出II类数据属性集合XB对应的属性均值u_b和属性方差σ²，得出基于II类数据属性集合XB的一维高斯概率分布函数Gaussion(Xb)；

其中Xb为一条测试数据中属于II类数据属性的测试数据向量，x_i是该条测试数据中数据属性i的测试数据，N_B为XB中数据属性的数目；

XB[i]表示II类数据属性集合XB中的数据属性i的数据向量；

Xb_ji为II类数据属性集合XB中第j条样本数据的数据属性i的样本数据；

贝叶斯分类器：

判别癌症的分类测试结果，若

P(C₁)×MultiGaussion(Xa)×Gaussion(Xb)＞P(C₂)×MultiGaussion(Xa)×Gaussion(Xb)，则判断测试结果为复发；反之，则判断测试结果为不复发。

所述数据属性分类子模块利用pearson相关系数对数据属性进行分类的方法如下：

针对任一数据属性i，根据式(2)计算该数据属性i与类属性的关联度R_absi：

其中X是类向量数据集中的类属性向量(L₁,L₂,……L_j,……L_N)；Y_i是类向量数据集中的任一数据属性i的数据属性向量(F_1i，F_2i，……F_ji，……F_Ni)，N为总的样本数据条数；

对求得的关联度R_absi,i＝1,2，……M,从大到小进行排序，按照比例λ，对M×λ向下取整为k，其中0.5≤λ＜1，前k个数据属性的数据属性向量构成I类数据属性集合XA，剩下的M-k个数据属性的数据属性向量构成II类数据属性集合XB；

其中Xa_j代表I类数据属性集合XA中的第j条样本数据；Xb_j代表II类数据属性集合XB中第j条样本数据。

本发明针对朴素贝叶斯中假设属性独立引起数据分类精度差，从而降低对癌症是否复发的预测准确率下降的问题，提供了一种考虑数据属性相关性的多维高斯与一维高斯联合分布的朴素贝叶斯分类方法，在一定程度上消除了朴素贝叶斯分类方法中数据属性独立假设所引起的分类精度差的问题。

本发明引入了统计学中的多维高斯分布密度函数和概率论中的Pearson相关系数，通过类别C₁与C₂的先验概率、多维高斯分布密度函数与一维高斯分布联合得出数据属于每一个类的概率，选取概率最大的类(C₁或者C₂)作为最终的分类判别。该方法具有数学基础坚实，分类效率稳定，容易解释的优点，对于一般的满足高斯分布的连续型数据具有普适性。本发明适用于对乳腺癌，也适用于其他类测试指标数据集(breast-cancer-wisconsin)为连续型数据的癌症是否复发的分类预测。

2、本发明利用Pearson相关系数来计算数据属性与类属性之间的相关性，并依据数据属性与类属性相关性大小进行排序，按照一定比例将数据属性分为两个部分。一部分是与类属性关联度高的I类数据属性集合，另一部分是与类属性关联度相对较低的II类数据属性集合。I类数据属性集合中的数据属性利用多维高斯分布来计算概率，II类数据属性集合通过普通的一维高斯分布来计算相应的概率，最后将两者概率及类别的先验概率联合共同作为数据属于每个类的概率。计算多维高斯的参数运算中具有较高的时间和空间复杂度，通过Pearson相关系数公式，计算出与类相关度高的I类数据属性集合XA用于多维高斯模型的训练可以在一定程度上减少复杂度。

3、本发明利用统计学中的多维高斯分布密度函数的协方差矩阵来表征属性之间的相关性，与类属性相关性大的数据属性集合中的数据属性对于分类结果具有更重要的作用，因而计算I类数据属性集合中不同数据属性之间的相关性具有重要的意义。协方差矩阵是一个以I类数据属性集合中数据属性数目为长度的方阵，可以有效的利用其特点将数据属性相关性考虑到概率的计算里面，来提高分类方法的准确率。

4、本发明的复杂度与其他贝叶斯改进方法(如：隐朴素贝叶斯方法)相比，具有方法复杂度低的特点，结构性强，编程上更加易于实现。

5、本发明比传统的高斯朴素贝叶斯分类方法具有更高的精度，在数据分类方面比传统的高斯朴素贝叶斯分类方法更加有效，这可以提高对癌症数据分类的准确率。

6、本发明改进了传统朴素贝叶斯中计算分类概率的方法，减少了原来方法中后验概率迭代相乘的次数，降低了方法的复杂度。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明的基于多维高斯分布贝叶斯分类的癌症复发预测系统框图。

图2是本发明应用于乳腺癌复发预测的训练模型生成流程图(图中将乳腺癌训练集修改为乳腺癌训练集，两者统一名词)；

图3是GNB方法、MNB方法以及MGAGNB方法应用于乳腺癌是否复发的分类准确率的直观直方图。

具体实施方式

本发明的基于多维高斯分布贝叶斯分类的癌症复发预测方法应用的数据类型为连续型。下面以应用于乳腺癌复发预测为例进行详细说明。

训练集来源于UCI((University of CaliforniaIrvine)的一个在线数据集breast-cancer-wisconsin，该数据集中包含乳腺癌的类属性(复发类属性和不复发类属性)和32个乳腺癌数据属性：类属性值L等于复发类属性值C₁时代表复发，等于不复发类属性值C₂时代表不复发；还包含有32个乳腺癌的数据属性(即32个测试指标)，数据属性具体有：数据属性4-数据属性13为癌细胞的平均半径，灰度值标准平均偏差、癌细胞平均周长、平均面积、癌细胞平均平滑度、平均紧密度、平均凹度、凹面的平均癌细胞数量、平均对称性和不规则的平均维度数目；数据属性14-数据属性23为癌细胞的半径标准差，灰度值标准差、癌细胞周长标准差、面积标准差、癌细胞平滑度标准差、紧密度标准差、凹度标准差、凹面的癌细胞数量标准差、对称性标准差和不规则的维度数目标准差；数据属性24-数据属性33为最大癌细胞的半径、最大灰度值标准偏差、最大癌细胞周长、最大面积、癌细胞最差平滑度、最大紧密度、最大凹度、凹面的癌细胞最大数量、最差对称性和不规则的维度最大数目；数据属性34为肿瘤大小，数据属性35淋巴节点的状态。这里32个数据属性的样本数据用F₁、F₂、...、F₃₂表示。

如图1所示，本发明的基于多维高斯分布贝叶斯分类的癌症复发预测系统包括数据预处理模块、训练模块和贝叶斯分类器。

数据预处理模块：将乳腺癌训练集中的噪声数据及缺省数据清洗掉生成类向量数据集；以类向量数据集中包含6条样本数据为例，类向量数据集见表1。

表1

类先验概率计算子模块：根据式(1)计算复发类属性值C₁和不复发类属性值C₂在类向量数据集中出现的频率P(C_s)(s＝1，2)；

N_s代表每一个类属性的样本数据条数(N₁代表复发类属性的样本数据条数，N₂代表不复发类属性的样本数据条数，N代表总的样本数据条数；

数据属性分类子模块：

利用pearson相关系数将数据属性分成与类属性关联度紧密的I类数据属性集合XA和与类属性关联度稀疏的II类数据属性集合XB，具体方法如下：

针对任一数据属性i，根据式(2)计算该数据属性i的关联度R_absi：

其中X是类向量数据集中的类属性向量(L₁,L₂,……L_j,……L₆)；Y_i是类向量数据集中的任一数据属性i的数据属性向量(F_1i，F_2i，……F_ji，……F_6i)，N为总的样本数据条数；R_absi值的大小在0到1的区间内，其值越接近于1，则表示类属性向量X与数据属性i的数据属性向量Y_i的关联度越大，反之，则X与Y_i的关联度越小。

对各数据属性的样本数据属性向量Y_i与类属性向量X的分布作关联度分析，对求得的关联度R_absi(i＝1,2，……32)从大到小进行排序，按照比例λ，对32×λ向下取整为k，其中0.5≤λ＜1，前k个数据属性的数据属性向量构成I类数据属性集合XA，剩下的32-k个数据属性的数据属性向量构成II类数据属性集合XB；

多维高斯分布概率模型生成子模块：

对I类数据属性集合XA进行训练，求出对应的属性均值向量u_a与多维高斯分布的协方差矩阵G；从而求出基于I类数据属性集合XA的多维高斯概率分布；

多维高斯分布函数公式如下：

式中，Xa代表一条测试数据中属于I类数据属性的测试数据向量；p为多维高斯分布函数的维数，即I类数据属性集合XA中数据属性的数目，p＝N_A，u_a为多维高斯分布函数的均值向量，G为多维高斯分布函数的互协方差矩阵；

(N为样本数据条数)

G＝E((XA-E(XA))^T(XA-E(XA)))

一维高斯分布概率模型生成子模块：

对II类数据属性集合XB进行训练，求出II类数据属性集合XB对应的属性均值u_b和属性方差σ²，得出基于II类数据属性集合XB的一维高斯概率分布；

一维高斯分布函数如下：

u为一维高斯分布的均值，σ²为一维高斯分布的方差，σ为标准差。

定义一维高斯联合分布如下：

其中Xb为一条测试数据中属于II类数据属性的测试数据向量，x_i是该条测试数据中数据属性i的测试数据，N_B为XB中数据属性的数目，N_A+N_B＝N；

其中数据属性i的均值

XB[i]表示II类数据属性集合XB中的数据属性i的数据向量；

Xb_ji为II类数据属性集合XB中第j条样本数据的数据属性i的样本数据。

数据属性i的方差

贝叶斯分类器：

根据公式(7)判别乳腺癌的分类测试结果：

c(X)＝argmaxP(C_s)×MultiGaussion(Xa)×Gaussion(Xb) (7)

若

3、应用乳腺癌的分类结果

(1)下面是本发明所述的基于属性选择的多维高斯分布贝叶斯分类方法应用于乳腺癌的分类测试结果，

实验对比了python的sklearn库中的朴素多项式贝叶斯方法MNB、朴素一维高斯贝叶斯分类方法GNB以及本发明所述的基于属性选择的多维高斯分布贝叶斯分类方法MGAGNB。为了减少偶然因素对分类准确率的影响，实验采用十折交叉验证的方法，即将数据集平均分为10份，取其中的9份数据用作训练集，剩下的一份用作测试集。为了分类结果的稳定，共做了100次实验，每次实验都采用十折交叉验证的方法。表1是MNB、GNB与本发明的MGAGNB应用于乳腺癌是否复发的分类判别。

表1分类准确率(％)和标准差

从表1，可以看出，本发明提出的基于属性选择的多维高斯分布贝叶斯分类方法MGAGNB在乳腺癌是否复发的分类平均准确率上要大于朴素一维高斯贝叶斯分类方法GNB和朴素多项式贝叶斯方法MNB，而且MGAGNB方法准确率的标准差要小于GNB方法和MNB方法，所以，MGAGNB方法的分类效果比GNB方法和MNB方法更稳定一些。

Claims

1.一种基于多维高斯分布贝叶斯分类的癌症复发预测系统，其特征在于包括数据预处理模块、训练模块和贝叶斯分类器；

数据属性分类子模块：

多维高斯分布概率模型生成子模块：

G＝E((XA-E(XA))^T(XA-E(XA)))

一维高斯分布概率模型生成子模块：

XB[i]表示II类数据属性集合XB中的数据属性i的数据向量；

贝叶斯分类器：

判别癌症的分类测试结果，若

2.根据权利要求1所述的基于多维高斯分布贝叶斯分类的癌症复发预测系统，其特征在于所述数据属性分类子模块利用pearson相关系数对数据属性进行分类的方法如下：