CN108597603A - 基于多维高斯分布贝叶斯分类的癌症复发预测系统 - Google Patents

基于多维高斯分布贝叶斯分类的癌症复发预测系统 Download PDF

Info

Publication number
CN108597603A
CN108597603A CN201810416949.8A CN201810416949A CN108597603A CN 108597603 A CN108597603 A CN 108597603A CN 201810416949 A CN201810416949 A CN 201810416949A CN 108597603 A CN108597603 A CN 108597603A
Authority
CN
China
Prior art keywords
data
attribute
class
data attribute
dimensional gaussian
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810416949.8A
Other languages
English (en)
Other versions
CN108597603B (zh
Inventor
李玲
渠云龙
杨秀华
刘丹
黄玉兰
张海蓉
佟宇琪
顾琳
刘婉莹
戴思达
李林
骆宝童
高华照
张春霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN201810416949.8A priority Critical patent/CN108597603B/zh
Publication of CN108597603A publication Critical patent/CN108597603A/zh
Application granted granted Critical
Publication of CN108597603B publication Critical patent/CN108597603B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于多维高斯分布贝叶斯分类的癌症复发预测系统,该系统的包括预处理模块、训练模块和贝叶斯分类器;预处理模块对训练集进行数据清洗并生成类向量数据集;训练模块首先计算两个类属性先验概率,然后利用pearson相关系数将数据属性分成与类属性关联度紧密的类数据属性集合和与类属性关联度稀疏的II类数据属性集合,两类数据属性集合分别利用多维高斯分布和一维高斯分布来计算相应的概率;贝叶斯分类器将两者概率及类别的先验概率联合共同作为数据属于每个类的概率,并据此判别癌症的分类测试结果。本发明提高了癌症是否复发的预测准确率。

Description

基于多维高斯分布贝叶斯分类的癌症复发预测系统
技术领域
本发明属于数据挖掘技术领域,涉及一种基于属性选择的多维高斯分布贝叶斯分类系统,具体涉及一种基于多维高斯分布贝叶斯分类的癌症复发预测系统。该系统对于一般的满足高斯分布的连续型数据的分类具有普适性。
背景技术
分类方法是解决分类问题的方法,是数据挖掘、机器学习和模式识别中一个重要的研究领域。分类方法通过对已知类别训练集的分析,从中发现分类规则,以此预测新数据的类别。分类方法的应用非常广泛,例如银行中风险评估、客户类别分类、文本检索和搜索引擎分类、安全领域中的入侵检测以及软件项目中的应用等等。
贝叶斯分类方法是数据分类方法中一种常用的方法,该方法以经典的数学理论为基础,采用概率统计知识对数据样本进行分类。它基于概率统计学中的贝叶斯定理,在己知先验概率与类条件概率的前提下,对类成员关系的可能性进行预测,具有稳固的理论知识根底。从理论上讲,贝叶斯分类方法的出错概率最小,并且它能综合样本信息和先验知识来训练分类器,避免了数据的过拟合现象,降低了因主观判断而造成的误差。
朴素贝叶斯分类方法(Naive Bayesian Classifier,NBC)作为贝叶斯分类方法经典方法之一,其优点有:1、数学基础坚实,分类效率稳定,容易解释;2、所需估计的参数很少,对缺失数据不太敏感;3、无需复杂的迭代求解框架,适用于规模巨大的数据集。正是由于朴素贝叶斯方法的以上优点,其在分类中常被应用,如垃圾邮件分类。然而,朴素贝叶斯分类基于数据属性间强独立性的假设,在计算过程中,它认为一个属性对目标类的作用和其他属性无关,具有一定的自身局限性。若在条件独立性假设不成立时构造NBC,将会直接影响到最终的分类效果,然而在实际应用中往往很难满足该假设。因此,如何改进NBC使得其在实际应用中独立性假设不满足的情况下,仍具有较好的分类效果,是当前国内外重要的研究课题之一。
乳腺癌是女性常见的恶性肿瘤之一,近年来我国乳腺癌的发病率呈迅速上升趋势,在女性各肿瘤中居首位。而乳腺癌治愈后,又有一部分人群会出现复发的可能,据统计,乳腺癌术后的5年内是复发的高危险期,特别是术后的1-2年风险。乳腺癌一旦有复发或转移现象,治疗的难度将会增加,远比第一次的治疗方式来得更为棘手,很有可能会直接威胁病人生命。因此,能够早点判断其复发可能性对于患者是十分有利的。因此,将贝叶斯分类预测方法应用到乳腺癌是否复发上,具有重要的意义。
发明内容
本发明所要解决的技术问题是提供一种能够提高癌症是否复发预测准确率的基于多维高斯分布贝叶斯分类的癌症复发预测系统。
为了解决上述技术问题,本发明的基于多维高斯分布贝叶斯分类的癌症复发预测系统包括预处理模块、训练模块和贝叶斯分类器;
数据预处理模块:将训练集中的噪声数据及缺省数据清洗掉生成类向量数据集,该训练集中包含类属性和M个数据属性,当类属性值L等于复发类属性值C1时代表复发,等于不复发类属性值C2时代表不复发;
训练模块:包括类先验概率计算子模块,数据属性分类子模块,多维高斯分布概率模型生成子模块和一维高斯分布概率模型生成子模块;
类先验概率计算子模块:根据式(1)计算复发类属性值C1和不复发类属性值C2在类向量数据集中出现的频率P(Cs),s=1,2;
Ns代表每一种类属性的样本数据条数,N代表总的样本数据条数;
数据属性分类子模块:
利用pearson相关系数将属于数据属性分成与类属性关联度紧密的I类数据属性集合XA和与类属性关联度稀疏的II类数据属性集合XB,
其中Xaj代表I类数据属性集合XA中的第j条样本数据;Xbj代表II类数据属性集合XB中第j条样本数据;
多维高斯分布概率模型生成子模块:
对I类数据属性集合XA进行训练,求出对应的属性均值向量ua与多维高斯分布的协方差矩阵G;从而求出基于I类数据属性集合XA的多维高斯概率分布函数MultiGaussion(Xa);
式中,Xa代表一条测试数据中属于I类数据属性的测试数据向量;p为多维高斯分布函数的维数,即I类数据属性集合XA中数据属性的数目NA,ua为多维高斯分布函数的均值向量,G为多维高斯分布函数的互协方差矩阵;
G=E((XA-E(XA))T(XA-E(XA)))
一维高斯分布概率模型生成子模块:
对II类数据属性集合XB进行训练,求出II类数据属性集合XB对应的属性均值ub和属性方差σ2,得出基于II类数据属性集合XB的一维高斯概率分布函数Gaussion(Xb);
其中Xb为一条测试数据中属于II类数据属性的测试数据向量,xi是该条测试数据中数据属性i的测试数据,NB为XB中数据属性的数目;
XB[i]表示II类数据属性集合XB中的数据属性i的数据向量;
Xbji为II类数据属性集合XB中第j条样本数据的数据属性i的样本数据;
贝叶斯分类器:
判别癌症的分类测试结果,若
P(C1)×MultiGaussion(Xa)×Gaussion(Xb)>P(C2)×MultiGaussion(Xa)×Gaussion(Xb),则判断测试结果为复发;反之,则判断测试结果为不复发。
所述数据属性分类子模块利用pearson相关系数对数据属性进行分类的方法如下:
针对任一数据属性i,根据式(2)计算该数据属性i与类属性的关联度Rabsi
其中X是类向量数据集中的类属性向量(L1,L2,……Lj,……LN);Yi是类向量数据集中的任一数据属性i的数据属性向量(F1i,F2i,……Fji,……FNi),N为总的样本数据条数;
对求得的关联度Rabsi,i=1,2,……M,从大到小进行排序,按照比例λ,对M×λ向下取整为k,其中0.5≤λ<1,前k个数据属性的数据属性向量构成I类数据属性集合XA,剩下的M-k个数据属性的数据属性向量构成II类数据属性集合XB;
其中Xaj代表I类数据属性集合XA中的第j条样本数据;Xbj代表II类数据属性集合XB中第j条样本数据。
本发明针对朴素贝叶斯中假设属性独立引起数据分类精度差,从而降低对癌症是否复发的预测准确率下降的问题,提供了一种考虑数据属性相关性的多维高斯与一维高斯联合分布的朴素贝叶斯分类方法,在一定程度上消除了朴素贝叶斯分类方法中数据属性独立假设所引起的分类精度差的问题。
本发明引入了统计学中的多维高斯分布密度函数和概率论中的Pearson相关系数,通过类别C1与C2的先验概率、多维高斯分布密度函数与一维高斯分布联合得出数据属于每一个类的概率,选取概率最大的类(C1或者C2)作为最终的分类判别。该方法具有数学基础坚实,分类效率稳定,容易解释的优点,对于一般的满足高斯分布的连续型数据具有普适性。本发明适用于对乳腺癌,也适用于其他类测试指标数据集(breast-cancer-wisconsin)为连续型数据的癌症是否复发的分类预测。
2、本发明利用Pearson相关系数来计算数据属性与类属性之间的相关性,并依据数据属性与类属性相关性大小进行排序,按照一定比例将数据属性分为两个部分。一部分是与类属性关联度高的I类数据属性集合,另一部分是与类属性关联度相对较低的II类数据属性集合。I类数据属性集合中的数据属性利用多维高斯分布来计算概率,II类数据属性集合通过普通的一维高斯分布来计算相应的概率,最后将两者概率及类别的先验概率联合共同作为数据属于每个类的概率。计算多维高斯的参数运算中具有较高的时间和空间复杂度,通过Pearson相关系数公式,计算出与类相关度高的I类数据属性集合XA用于多维高斯模型的训练可以在一定程度上减少复杂度。
3、本发明利用统计学中的多维高斯分布密度函数的协方差矩阵来表征属性之间的相关性,与类属性相关性大的数据属性集合中的数据属性对于分类结果具有更重要的作用,因而计算I类数据属性集合中不同数据属性之间的相关性具有重要的意义。协方差矩阵是一个以I类数据属性集合中数据属性数目为长度的方阵,可以有效的利用其特点将数据属性相关性考虑到概率的计算里面,来提高分类方法的准确率。
4、本发明的复杂度与其他贝叶斯改进方法(如:隐朴素贝叶斯方法)相比,具有方法复杂度低的特点,结构性强,编程上更加易于实现。
5、本发明比传统的高斯朴素贝叶斯分类方法具有更高的精度,在数据分类方面比传统的高斯朴素贝叶斯分类方法更加有效,这可以提高对癌症数据分类的准确率。
6、本发明改进了传统朴素贝叶斯中计算分类概率的方法,减少了原来方法中后验概率迭代相乘的次数,降低了方法的复杂度。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明的基于多维高斯分布贝叶斯分类的癌症复发预测系统框图。
图2是本发明应用于乳腺癌复发预测的训练模型生成流程图(图中将乳腺癌训练集修改为乳腺癌训练集,两者统一名词);
图3是GNB方法、MNB方法以及MGAGNB方法应用于乳腺癌是否复发的分类准确率的直观直方图。
具体实施方式
本发明的基于多维高斯分布贝叶斯分类的癌症复发预测方法应用的数据类型为连续型。下面以应用于乳腺癌复发预测为例进行详细说明。
训练集来源于UCI((University of CaliforniaIrvine)的一个在线数据集breast-cancer-wisconsin,该数据集中包含乳腺癌的类属性(复发类属性和不复发类属性)和32个乳腺癌数据属性:类属性值L等于复发类属性值C1时代表复发,等于不复发类属性值C2时代表不复发;还包含有32个乳腺癌的数据属性(即32个测试指标),数据属性具体有:数据属性4-数据属性13为癌细胞的平均半径,灰度值标准平均偏差、癌细胞平均周长、平均面积、癌细胞平均平滑度、平均紧密度、平均凹度、凹面的平均癌细胞数量、平均对称性和不规则的平均维度数目;数据属性14-数据属性23为癌细胞的半径标准差,灰度值标准差、癌细胞周长标准差、面积标准差、癌细胞平滑度标准差、紧密度标准差、凹度标准差、凹面的癌细胞数量标准差、对称性标准差和不规则的维度数目标准差;数据属性24-数据属性33为最大癌细胞的半径、最大灰度值标准偏差、最大癌细胞周长、最大面积、癌细胞最差平滑度、最大紧密度、最大凹度、凹面的癌细胞最大数量、最差对称性和不规则的维度最大数目;数据属性34为肿瘤大小,数据属性35淋巴节点的状态。这里32个数据属性的样本数据用F1、F2、...、F32表示。
如图1所示,本发明的基于多维高斯分布贝叶斯分类的癌症复发预测系统包括数据预处理模块、训练模块和贝叶斯分类器。
数据预处理模块:将乳腺癌训练集中的噪声数据及缺省数据清洗掉生成类向量数据集;以类向量数据集中包含6条样本数据为例,类向量数据集见表1。
表1
训练模块:包括类先验概率计算子模块,数据属性分类子模块,多维高斯分布概率模型生成子模块和一维高斯分布概率模型生成子模块;
类先验概率计算子模块:根据式(1)计算复发类属性值C1和不复发类属性值C2在类向量数据集中出现的频率P(Cs)(s=1,2);
Ns代表每一个类属性的样本数据条数(N1代表复发类属性的样本数据条数,N2代表不复发类属性的样本数据条数,N代表总的样本数据条数;
数据属性分类子模块:
利用pearson相关系数将数据属性分成与类属性关联度紧密的I类数据属性集合XA和与类属性关联度稀疏的II类数据属性集合XB,具体方法如下:
针对任一数据属性i,根据式(2)计算该数据属性i的关联度Rabsi
其中X是类向量数据集中的类属性向量(L1,L2,……Lj,……L6);Yi是类向量数据集中的任一数据属性i的数据属性向量(F1i,F2i,……Fji,……F6i),N为总的样本数据条数;Rabsi值的大小在0到1的区间内,其值越接近于1,则表示类属性向量X与数据属性i的数据属性向量Yi的关联度越大,反之,则X与Yi的关联度越小。
对各数据属性的样本数据属性向量Yi与类属性向量X的分布作关联度分析,对求得的关联度Rabsi(i=1,2,……32)从大到小进行排序,按照比例λ,对32×λ向下取整为k,其中0.5≤λ<1,前k个数据属性的数据属性向量构成I类数据属性集合XA,剩下的32-k个数据属性的数据属性向量构成II类数据属性集合XB;
其中Xaj代表I类数据属性集合XA中的第j条样本数据;Xbj代表II类数据属性集合XB中第j条样本数据;
多维高斯分布概率模型生成子模块:
对I类数据属性集合XA进行训练,求出对应的属性均值向量ua与多维高斯分布的协方差矩阵G;从而求出基于I类数据属性集合XA的多维高斯概率分布;
多维高斯分布函数公式如下:
式中,Xa代表一条测试数据中属于I类数据属性的测试数据向量;p为多维高斯分布函数的维数,即I类数据属性集合XA中数据属性的数目,p=NA,ua为多维高斯分布函数的均值向量,G为多维高斯分布函数的互协方差矩阵;
(N为样本数据条数)
G=E((XA-E(XA))T(XA-E(XA)))
一维高斯分布概率模型生成子模块:
对II类数据属性集合XB进行训练,求出II类数据属性集合XB对应的属性均值ub和属性方差σ2,得出基于II类数据属性集合XB的一维高斯概率分布;
一维高斯分布函数如下:
u为一维高斯分布的均值,σ2为一维高斯分布的方差,σ为标准差。
定义一维高斯联合分布如下:
其中Xb为一条测试数据中属于II类数据属性的测试数据向量,xi是该条测试数据中数据属性i的测试数据,NB为XB中数据属性的数目,NA+NB=N;
其中数据属性i的均值
XB[i]表示II类数据属性集合XB中的数据属性i的数据向量;
Xbji为II类数据属性集合XB中第j条样本数据的数据属性i的样本数据。
数据属性i的方差
贝叶斯分类器:
根据公式(7)判别乳腺癌的分类测试结果:
c(X)=argmaxP(Cs)×MultiGaussion(Xa)×Gaussion(Xb) (7)
P(C1)×MultiGaussion(Xa)×Gaussion(Xb)>P(C2)×MultiGaussion(Xa)×Gaussion(Xb),则判断测试结果为复发;反之,则判断测试结果为不复发。
3、应用乳腺癌的分类结果
(1)下面是本发明所述的基于属性选择的多维高斯分布贝叶斯分类方法应用于乳腺癌的分类测试结果,
实验对比了python的sklearn库中的朴素多项式贝叶斯方法MNB、朴素一维高斯贝叶斯分类方法GNB以及本发明所述的基于属性选择的多维高斯分布贝叶斯分类方法MGAGNB。为了减少偶然因素对分类准确率的影响,实验采用十折交叉验证的方法,即将数据集平均分为10份,取其中的9份数据用作训练集,剩下的一份用作测试集。为了分类结果的稳定,共做了100次实验,每次实验都采用十折交叉验证的方法。表1是MNB、GNB与本发明的MGAGNB应用于乳腺癌是否复发的分类判别。
表1分类准确率(%)和标准差
从表1,可以看出,本发明提出的基于属性选择的多维高斯分布贝叶斯分类方法MGAGNB在乳腺癌是否复发的分类平均准确率上要大于朴素一维高斯贝叶斯分类方法GNB和朴素多项式贝叶斯方法MNB,而且MGAGNB方法准确率的标准差要小于GNB方法和MNB方法,所以,MGAGNB方法的分类效果比GNB方法和MNB方法更稳定一些。
图3是GNB方法、MNB方法以及MGAGNB方法应用于乳腺癌是否复发的分类准确率的直观直方图。

Claims (2)

1.一种基于多维高斯分布贝叶斯分类的癌症复发预测系统,其特征在于包括数据预处理模块、训练模块和贝叶斯分类器;
数据预处理模块:将训练集中的噪声数据及缺省数据清洗掉生成类向量数据集,该训练集中包含类属性和M个数据属性,当类属性值L等于复发类属性值C1时代表复发,等于不复发类属性值C2时代表不复发;
训练模块:包括类先验概率计算子模块,数据属性分类子模块,多维高斯分布概率模型生成子模块和一维高斯分布概率模型生成子模块;
类先验概率计算子模块:根据式(1)计算复发类属性值C1和不复发类属性值C2在类向量数据集中出现的频率P(Cs),s=1,2;
Ns代表每一种类属性的样本数据条数,N代表总的样本数据条数;
数据属性分类子模块:
利用pearson相关系数将属于数据属性分成与类属性关联度紧密的I类数据属性集合XA和与类属性关联度稀疏的II类数据属性集合XB,
其中Xaj代表I类数据属性集合XA中的第j条样本数据;Xbj代表II类数据属性集合XB中第j条样本数据;
多维高斯分布概率模型生成子模块:
对I类数据属性集合XA进行训练,求出对应的属性均值向量ua与多维高斯分布的协方差矩阵G;从而求出基于I类数据属性集合XA的多维高斯概率分布函数MultiGaussion(Xa);
式中,Xa代表一条测试数据中属于I类数据属性的测试数据向量;p为多维高斯分布函数的维数,即I类数据属性集合XA中数据属性的数目NA,ua为多维高斯分布函数的均值向量,G为多维高斯分布函数的互协方差矩阵;
G=E((XA-E(XA))T(XA-E(XA)))
一维高斯分布概率模型生成子模块:
对II类数据属性集合XB进行训练,求出II类数据属性集合XB对应的属性均值ub和属性方差σ2,得出基于II类数据属性集合XB的一维高斯概率分布函数Gaussion(Xb);
其中Xb为一条测试数据中属于II类数据属性的测试数据向量,xi是该条测试数据中数据属性i的测试数据,NB为XB中数据属性的数目;
XB[i]表示II类数据属性集合XB中的数据属性i的数据向量;
Xbji为II类数据属性集合XB中第j条样本数据的数据属性i的样本数据;
贝叶斯分类器:
判别癌症的分类测试结果,若
P(C1)×MultiGaussion(Xa)×Gaussion(Xb)>P(C2)×MultiGaussion(Xa)×Gaussion(Xb),则判断测试结果为复发;反之,则判断测试结果为不复发。
2.根据权利要求1所述的基于多维高斯分布贝叶斯分类的癌症复发预测系统,其特征在于所述数据属性分类子模块利用pearson相关系数对数据属性进行分类的方法如下:
针对任一数据属性i,根据式(2)计算该数据属性i与类属性的关联度Rabsi
其中X是类向量数据集中的类属性向量(L1,L2,……Lj,……LN);Yi是类向量数据集中的任一数据属性i的数据属性向量(F1i,F2i,……Fji,……FNi),N为总的样本数据条数;
对求得的关联度Rabsi,i=1,2,……M,从大到小进行排序,按照比例λ,对M×λ向下取整为k,其中0.5≤λ<1,前k个数据属性的数据属性向量构成I类数据属性集合XA,剩下的M-k个数据属性的数据属性向量构成II类数据属性集合XB;
其中Xaj代表I类数据属性集合XA中的第j条样本数据;Xbj代表II类数据属性集合XB中第j条样本数据。
CN201810416949.8A 2018-05-04 2018-05-04 基于多维高斯分布贝叶斯分类的癌症复发预测系统 Active CN108597603B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810416949.8A CN108597603B (zh) 2018-05-04 2018-05-04 基于多维高斯分布贝叶斯分类的癌症复发预测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810416949.8A CN108597603B (zh) 2018-05-04 2018-05-04 基于多维高斯分布贝叶斯分类的癌症复发预测系统

Publications (2)

Publication Number Publication Date
CN108597603A true CN108597603A (zh) 2018-09-28
CN108597603B CN108597603B (zh) 2021-04-20

Family

ID=63619698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810416949.8A Active CN108597603B (zh) 2018-05-04 2018-05-04 基于多维高斯分布贝叶斯分类的癌症复发预测系统

Country Status (1)

Country Link
CN (1) CN108597603B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109599181A (zh) * 2019-01-09 2019-04-09 中国医学科学院肿瘤医院 一种在治疗前针对t3-larc患者的生存预测系统及预测方法
CN110373458A (zh) * 2019-06-27 2019-10-25 东莞博奥木华基因科技有限公司 一种地中海贫血检测的试剂盒及分析系统
CN111243738A (zh) * 2019-12-31 2020-06-05 东软集团股份有限公司 生存分析模型的构建、生存率的预测方法、装置及设备
CN111524599A (zh) * 2020-04-24 2020-08-11 中国地质大学(武汉) 一种基于机器学习的新冠肺炎数据处理方法及预测系统
CN111610407A (zh) * 2020-05-18 2020-09-01 国网江苏省电力有限公司电力科学研究院 基于朴素贝叶斯的电缆老化状态评估方法和装置
CN108597603B (zh) * 2018-05-04 2021-04-20 吉林大学 基于多维高斯分布贝叶斯分类的癌症复发预测系统
CN113284577A (zh) * 2021-05-24 2021-08-20 康键信息技术(深圳)有限公司 药品预测方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079103A (zh) * 2007-06-14 2007-11-28 上海交通大学 基于稀疏贝叶斯回归的人脸姿势识别方法
US7983490B1 (en) * 2007-12-20 2011-07-19 Thomas Cecil Minter Adaptive Bayes pattern recognition
CN104537033A (zh) * 2014-12-23 2015-04-22 清华大学 基于贝叶斯网络和极限学习机的区间型指标预报方法
CN106485278A (zh) * 2016-10-13 2017-03-08 河南科技大学 一种基于剪切波和高斯混合模型的图像纹理分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108597603B (zh) * 2018-05-04 2021-04-20 吉林大学 基于多维高斯分布贝叶斯分类的癌症复发预测系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079103A (zh) * 2007-06-14 2007-11-28 上海交通大学 基于稀疏贝叶斯回归的人脸姿势识别方法
US7983490B1 (en) * 2007-12-20 2011-07-19 Thomas Cecil Minter Adaptive Bayes pattern recognition
CN104537033A (zh) * 2014-12-23 2015-04-22 清华大学 基于贝叶斯网络和极限学习机的区间型指标预报方法
CN106485278A (zh) * 2016-10-13 2017-03-08 河南科技大学 一种基于剪切波和高斯混合模型的图像纹理分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
RAVI BANSAL: "Using Copula distributions to support more accurate imaging-based diagnostic classifiers for neuropsychiatric disorders[", 《MAGNETIC RESONANCE IMAGING》 *
徐定杰: "混合高斯分布的变分贝叶斯学习参数估计", 《上海交通大学学报》 *
燕彩蓉: "基于广义高斯分布的贝叶斯概率矩阵分解方法", 《计算机研究与发展》 *
王双成: "基于高斯Copula的约束贝叶斯网络分类器研究", 《计算机学报》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108597603B (zh) * 2018-05-04 2021-04-20 吉林大学 基于多维高斯分布贝叶斯分类的癌症复发预测系统
CN109599181A (zh) * 2019-01-09 2019-04-09 中国医学科学院肿瘤医院 一种在治疗前针对t3-larc患者的生存预测系统及预测方法
CN109599181B (zh) * 2019-01-09 2021-04-16 中国医学科学院肿瘤医院 一种在治疗前针对t3-larc患者的生存预测系统及预测方法
CN110373458A (zh) * 2019-06-27 2019-10-25 东莞博奥木华基因科技有限公司 一种地中海贫血检测的试剂盒及分析系统
CN111243738A (zh) * 2019-12-31 2020-06-05 东软集团股份有限公司 生存分析模型的构建、生存率的预测方法、装置及设备
CN111524599A (zh) * 2020-04-24 2020-08-11 中国地质大学(武汉) 一种基于机器学习的新冠肺炎数据处理方法及预测系统
CN111610407A (zh) * 2020-05-18 2020-09-01 国网江苏省电力有限公司电力科学研究院 基于朴素贝叶斯的电缆老化状态评估方法和装置
CN113284577A (zh) * 2021-05-24 2021-08-20 康键信息技术(深圳)有限公司 药品预测方法、装置、设备及存储介质
WO2022247549A1 (zh) * 2021-05-24 2022-12-01 康键信息技术(深圳)有限公司 药品预测方法、装置、设备及存储介质
CN113284577B (zh) * 2021-05-24 2023-08-11 康键信息技术(深圳)有限公司 药品预测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN108597603B (zh) 2021-04-20

Similar Documents

Publication Publication Date Title
CN108597603A (zh) 基于多维高斯分布贝叶斯分类的癌症复发预测系统
Tiwari et al. Towards a quantum-inspired binary classifier
Hu et al. KR-DBSCAN: A density-based clustering algorithm based on reverse nearest neighbor and influence space
Kianmehr et al. Effectiveness of support vector machine for crime hot-spots prediction
Chaibou et al. Adaptive strategy for superpixel-based region-growing image segmentation
Bing et al. Sparse Representation Based Multi‐Instance Learning for Breast Ultrasound Image Classification
Hamza et al. [Retracted] Optimal Deep Transfer Learning‐Based Human‐Centric Biomedical Diagnosis for Acute Lymphoblastic Leukemia Detection
Seth et al. Particle swarm optimization assisted support vector machine based diagnostic system for lung cancer prediction at the early stage
Qu et al. DoPS: A double-peaked profiles search method based on the RS and SVM
Ménard et al. The fuzzy c+ 2-means: solving the ambiguity rejection in clustering
Yu et al. Data augmentation generated by generative adversarial network for small sample datasets clustering
Vizhi et al. Data quality measurement with threshold using genetic algorithm
Zhou et al. A linear fitting density peaks clustering algorithm for image segmentation
Hadjahmadi et al. Bilateral weighted fuzzy C-means clustering
Sonar et al. Optimization of association rule mining for mammogram classification
Thamizhselvi et al. An Intensified Polar Bear Optimization (IPBO)-Neoteric Quantum Neural Network (NQNN) Classification Model for Breast Cancer Diagnosis.
Sharma The bioinformatics: detailed review of various applications of cluster analysis
Cui et al. An Association Rule Mining Algorithm for Clinical Decision Support
Abdullah et al. Efficient fuzzy techniques for medical data clustering
Ali et al. A brief analysis of data mining techniques
Wang et al. Automatic clustering using particle swarm optimization with various validity indices
Kumar et al. Advancing Brain Tumor Classification: Exploring Two Deep Learning Architectures for Improved Accuracy
Soy et al. AI Based Computer-Aided Detection Model for Lung Disease Prediction
Raudys et al. MLP Based Linear Fea ure Ex rac ion for Nonlinearly Separable Data
Yu et al. Multilevel Information Granule Construction Model Based on Large Data Environment and Its Application in Time Series

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant