CN106960218B - 基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统 - Google Patents

基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统 Download PDF

Info

Publication number
CN106960218B
CN106960218B CN201710107628.5A CN201710107628A CN106960218B CN 106960218 B CN106960218 B CN 106960218B CN 201710107628 A CN201710107628 A CN 201710107628A CN 106960218 B CN106960218 B CN 106960218B
Authority
CN
China
Prior art keywords
breast cancer
data
cost
classification
sensitive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710107628.5A
Other languages
English (en)
Other versions
CN106960218A (zh
Inventor
张凯
康琦
王雪松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201710107628.5A priority Critical patent/CN106960218B/zh
Publication of CN106960218A publication Critical patent/CN106960218A/zh
Application granted granted Critical
Publication of CN106960218B publication Critical patent/CN106960218B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统,包括:数据输入模块,用于获取待分类的乳腺癌数据;数据预处理模块,用于对所获取的待分类的乳腺癌数据进行预处理;数据分类模块,用于采用经训练的代价敏感朴素贝叶斯分类网络对预处理后的乳腺癌数据进行分类。与现有技术相比,本发明将代价敏感思想引入到朴素贝叶斯法中形成代价敏感朴素贝叶斯分类算法,对乳腺癌数据进行分类,分类准确率高。

Description

基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统
技术领域
本发明涉及一种数据分类技术,尤其是涉及一种基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统,属于机器学习中的分类领域。
背景技术
乳腺癌数据是根据各种医疗仪器对人体的检查结果形成的。传统上,国内外主要是凭借医生自身的医学知识和多年积累的临床诊断经验对获得的乳腺癌数据进行分类,这种分类结果的有效性通常取决于医生的业务水平,主观因素影响较大。乳腺癌数据分类是一种典型的不平衡分类问题,在分类任务中更关注其患病类的分类准确率。因此,开发乳腺癌数据分类系统来提高乳腺癌分类的准确率是至关重要。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统。
本发明的目的可以通过以下技术方案来实现:
一种基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统,包括:
数据输入模块,用于获取待分类的乳腺癌数据;
数据预处理模块,用于对所获取的待分类的乳腺癌数据进行预处理;
数据分类模块,用于采用经训练的代价敏感朴素贝叶斯分类网络对预处理后的乳腺癌数据进行分类。
所述数据预处理模块对待分类的乳腺癌数据进行预处理具体为:
对所述乳腺癌数据中的每一属性值均进行离散化处理,处理公式为:
Figure BDA0001233542200000011
其中,n表示某一属性的属性值,n1表示该属性对应的最不正常情况值,n0表示该属性对应的最正常情况值。
所述数据分类模块包括:
数据库单元,用于存储历史乳腺癌数据及对应分类;
分类网络建立单元,用于根据数据库单元中的数据建立代价敏感朴素贝叶斯分类网络并进行训练;
实时分类单元,用于调用所述代价敏感朴素贝叶斯分类网络进行乳腺癌数据的实时分类。
所述分类网络建立单元中,代价敏感朴素贝叶斯分类网络的建立过程为:
1)从数据库单元中调用训练数据Test={(x1,y1),(x2,y2),...,(xN,yN)},其中
Figure BDA0001233542200000021
Figure BDA0001233542200000022
是第i个样本的第j个特征,
Figure BDA0001233542200000023
ajl是第j个特征可能取的第l个值,j=1,2,...,n,l=1,2,...,Sj,yi∈{T,F},N为测试样本个数,n为特征总数,Sj为可能值总数,T、F为分类类别;
2)计算先验概率:
Figure BDA0001233542200000024
Figure BDA0001233542200000025
计算条件概率:
Figure BDA0001233542200000026
Figure BDA0001233542200000027
3)对于给定的实例x=(x(1),x(2),...,x(n))T,计算:
P(Y=T)∏jP(X(j)=x(j)|Y=T)
P(Y=F)ΠjP(X(j)=x(j)|Y=F)
4)加入代价敏感参数CTF和CFT,构建损失函数:
L(x,T)=P(F|x)*CTF
L(x,F)=P(T|x)*CFT
其中,0<CTF=1<CFT,表明将T类误分为F类的代价大于将F类误分为T类的代价,P(F|x)、P(T|x)分别表示将样本x预测为类别F、类别T的条件概率;
5)根据损失函数最小化确定实例x的类别:
Figure BDA0001233542200000031
所述数据分类模块还包括:
模型验证单元,用于对所述分类网络建立单元建立并训练的代价敏感朴素贝叶斯分类网络进行十折交叉验证。
与现有技术相比,本发明具有以下优点:
1)本发明将代价敏感思想引入到朴素贝叶斯法中形成代价敏感朴素贝叶斯分类算法,分类时引入了代价敏感参数,令多类(F)误分为少类(T)的代价为定值1,学习过程中只需调整一个参数,即少类(T)误分为多类(F)的代价敏感参数。相比之前的代价敏感朴素贝叶斯分类器实验过程参数值变少,降低算法复杂度。同时对乳腺癌数据进行分类,分类准确率高。
2)本发明给不同的误分类情况赋予不同的代价,能处理不平衡分类,能对乳腺癌数据进行有效的分类。
附图说明
图1为本发明的结构示意图;
图2为本发明与朴素贝叶斯分类算法在不平衡数据集上的分类结果示意图,横坐标为classification index(分类索引),纵坐标为ratio(比例),其中,(a)为Credit-g,(b)为Breast-w,(c)为Haberman,(d)为Breast-c,(e)为sick,(f)为Hepatitis,(g)为vote,(h)为Tic-tac-toe。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如图1所示,本实施例提供一种基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统,包括数据输入模块1、数据预处理模块2和数据分类模块3,其中,数据输入模块1用于获取待分类的乳腺癌数据;数据预处理模块2用于对所获取的待分类的乳腺癌数据进行预处理;数据分类模块3用于采用经训练的代价敏感朴素贝叶斯分类网络(CL-NBC算法)对预处理后的乳腺癌数据进行分类。
每组乳腺癌数据有9个属性值,由于该9个属性值的指标取值是连续的,需要对数据进行离散化处理来方便分类模型进行处理。本系统中,数据预处理模块2对待分类的乳腺癌数据进行预处理具体为:
对所述乳腺癌数据中的每一属性值均进行离散化处理,处理公式为:
Figure BDA0001233542200000041
其中,n表示某一属性的属性值,n1表示该属性对应的最不正常情况值,n0表示该属性对应的最正常情况值。
经预处理后的乳腺癌数据如表1所示。
表1乳腺癌数据集属性描述
Figure BDA0001233542200000042
数据分类模块3包括:数据库单元31,用于存储历史乳腺癌数据及对应分类;分类网络建立单元32,用于根据数据库单元中的数据建立代价敏感朴素贝叶斯分类网络并进行训练;实时分类单元33,用于调用所述代价敏感朴素贝叶斯分类网络进行乳腺癌数据的实时分类。
分类网络建立单元32中,代价敏感朴素贝叶斯分类网络的建立过程为:
1)从数据库单元中调用训练数据Test={(x1,y1),(x2,y2),...,(xN,yN)},其中
Figure BDA0001233542200000043
Figure BDA0001233542200000044
是第i个样本的第j个特征,
Figure BDA0001233542200000045
ajl是第j个特征可能取的第l个值,j=1,2,...,n,l=1,2,...,Sj,yi∈{T,F},N为测试样本个数,n为特征总数,Sj为可能值总数,T、F为分类类别;
2)计算先验概率:
Figure BDA0001233542200000051
Figure BDA0001233542200000052
计算条件概率:
Figure BDA0001233542200000053
Figure BDA0001233542200000054
3)对于给定的实例x=(x(1),x(2),...,x(n))T,计算:
P(Y=T)∏jP(X(j)=x(j)|Y=T)
P(Y=F)∏jP(X(j)=x(j)|Y=F)
4)加入代价敏感参数CTF和CFT,构建损失函数:
L(x,T)=P(F|x)*CTF
L(x,F)=P(T|x)*CFT
5)根据损失函数最小化确定实例x的类别:
Figure BDA0001233542200000055
本发明的另一实施例中,数据分类模块3还包括模型验证单元34,用于对所述分类网络建立单元建立并训练的代价敏感朴素贝叶斯分类网络进行十折交叉验证,验证代价敏感朴素贝叶斯分类网络在乳腺癌数据集上的处理效果,选取的评价指标为:Recall(召回率)、F-measure、G-mean、accurccy(准确率)。
本实施例采用的数据集来源于Wisconsin医学院的william H.Wolberg博士提供的乳腺癌数据样本。图2是本发明在8个不平衡数据集上的分类结果,对比的算法是原始的朴素贝叶斯法(NBC)。选择如下算法评价分类指标:Recall、F-measure、G-mean、accurccy作为算法的分类效果指标。其中短划线表示朴素贝叶斯分类算法,实线表示本发明。
表2四种算法分类准确率比较
Figure BDA0001233542200000056
Figure BDA0001233542200000061
表2所示为4种算法对乳腺癌数据分类的准确率,结果显示CL-NBC算法的分类准确率最高,同时图2(b)所示少类的recall达0.9920,意味着乳腺癌数据中99.20%被分类正确了,从而影响了生病患者的前期发现及时治疗。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (3)

1.一种基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统,其特征在于,包括:
数据输入模块,用于获取待分类的乳腺癌数据,每组乳腺癌数据具有的属性值包括肿块厚度、细胞大小的均匀性、细胞形状的均匀性、边缘粘、单上皮细胞的大小、裸核、乏味染色体、正常核和有丝分裂;
数据预处理模块,用于对所获取的待分类的乳腺癌数据进行预处理;
数据分类模块,用于采用经训练的代价敏感朴素贝叶斯分类网络对预处理后的乳腺癌数据进行分类;
所述数据分类模块包括:
数据库单元,用于存储历史乳腺癌数据及对应分类;
分类网络建立单元,用于根据数据库单元中的数据建立代价敏感朴素贝叶斯分类网络并进行训练;
实时分类单元,用于调用所述代价敏感朴素贝叶斯分类网络进行乳腺癌数据的实时分类;
所述分类网络建立单元中,代价敏感朴素贝叶斯分类网络的建立过程为:
1)从数据库单元中调用训练数据Test={(x1,y1),(x2,y2),...,(xN,yN)},其中
Figure FDA0002371997690000011
Figure FDA0002371997690000012
是第i个样本的第j个特征,
Figure FDA0002371997690000013
ajl是第j个特征可能取的第l个值,j=1,2,...,n,l=1,2,...,Sj,yi∈{T,F},N为测试样本个数,n为特征总数,Sj为可能值总数,T、F为分类类别;
2)计算先验概率:
Figure FDA0002371997690000014
Figure FDA0002371997690000015
计算条件概率:
Figure FDA0002371997690000021
Figure FDA0002371997690000022
3)对于给定的实例x=(x(1),x(2),...,x(n))T,计算:
P(Y=T)ΠjP(X(j)=x(j)|Y=T)
P(Y=F)ΠjP(X(j)=x(j)|Y=F)
4)加入代价敏感参数CTF和CFT,构建损失函数:
L(x,T)=P(F|x)*CTF
L(x,F)=P(T|x)*CFT
其中,0<CTF=1<CFT,表明将T类误分为F类的代价大于将F类误分为T类的代价,P(F|x)、P(T|x)分别表示将样本x预测为类别F、类别T的条件概率;
5)根据损失函数最小化确定实例x的类别:
Figure FDA0002371997690000023
2.根据权利要求1所述的基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统,其特征在于,所述数据预处理模块对待分类的乳腺癌数据进行预处理具体为:
对所述乳腺癌数据中的每一属性值均进行离散化处理,处理公式为:
Figure FDA0002371997690000024
其中,n表示某一属性的属性值,n1表示该属性对应的最不正常情况值,n0表示该属性对应的最正常情况值。
3.根据权利要求1所述的基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统,其特征在于,所述数据分类模块还包括:
模型验证单元,用于对所述分类网络建立单元建立并训练的代价敏感朴素贝叶斯分类网络进行十折交叉验证。
CN201710107628.5A 2017-02-27 2017-02-27 基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统 Active CN106960218B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710107628.5A CN106960218B (zh) 2017-02-27 2017-02-27 基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710107628.5A CN106960218B (zh) 2017-02-27 2017-02-27 基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统

Publications (2)

Publication Number Publication Date
CN106960218A CN106960218A (zh) 2017-07-18
CN106960218B true CN106960218B (zh) 2020-07-28

Family

ID=59481096

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710107628.5A Active CN106960218B (zh) 2017-02-27 2017-02-27 基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统

Country Status (1)

Country Link
CN (1) CN106960218B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480721A (zh) * 2017-08-21 2017-12-15 上海中信信息发展股份有限公司 一种牛只患病数据分析方法及装置
CN107766875B (zh) * 2017-09-14 2020-09-08 中山大学 一种为有向有序多类不平衡数据分类的样本合成方法
CN108766559B (zh) * 2018-05-22 2020-12-11 合肥工业大学 用于智能疾病筛查的临床决策支持方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103035050A (zh) * 2012-12-19 2013-04-10 南京师范大学 一种用于复杂人脸识别门禁系统的高精度人脸识别方法
CN104143101A (zh) * 2014-07-01 2014-11-12 华南理工大学 一种基于超声图像的乳腺肿瘤区域自动识别方法
CN104809476A (zh) * 2015-05-12 2015-07-29 西安电子科技大学 一种基于分解的多目标进化模糊规则分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103035050A (zh) * 2012-12-19 2013-04-10 南京师范大学 一种用于复杂人脸识别门禁系统的高精度人脸识别方法
CN104143101A (zh) * 2014-07-01 2014-11-12 华南理工大学 一种基于超声图像的乳腺肿瘤区域自动识别方法
CN104809476A (zh) * 2015-05-12 2015-07-29 西安电子科技大学 一种基于分解的多目标进化模糊规则分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Test-Cost Sensitive Naive Bayes Classification;Xiaoyong Chai 等;《IEEE》;20050404;正文第1-8页 *
基于代价敏感的朴素贝叶斯不平衡数据分类研究;蒋盛益 等;《计算机研究与发展》;20111231;摘要,第2-3节 *
基于贝叶斯分类模型的乳腺X线摄影辅助诊断的研究;纪琳 等;《生物医学工程学杂志》;20110630;第28卷(第3期);摘要,第1-2节 *

Also Published As

Publication number Publication date
CN106960218A (zh) 2017-07-18

Similar Documents

Publication Publication Date Title
Zargari Khuzani et al. COVID-Classifier: An automated machine learning model to assist in the diagnosis of COVID-19 infection in chest x-ray images
Swiderska-Chadaj et al. Learning to detect lymphocytes in immunohistochemistry with deep learning
Rastogi et al. LeuFeatx: Deep learning–based feature extractor for the diagnosis of acute leukemia from microscopic images of peripheral blood smear
Reta et al. Segmentation and classification of bone marrow cells images using contextual information for medical diagnosis of acute leukemias
Bhattacharjee et al. Robust technique for the detection of acute lymphoblastic leukemia
Majeed et al. Issues associated with deploying CNN transfer learning to detect COVID-19 from chest X-rays
CN106960218B (zh) 基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统
Sarwar et al. Novel benchmark database of digitized and calibrated cervical cells for artificial intelligence based screening of cervical cancer
WO2022060949A1 (en) Systems and methods for automatically identifying a candidate patient for enrollment in a clinical trial
CN110085314A (zh) 医学检验数据的智能分析方法、系统以及设备
Raina et al. A systematic review on acute leukemia detection using deep learning techniques
Billah et al. Bayesian convolutional neural network-based models for diagnosis of blood cancer
Uttamatanin et al. MetaSel: a metaphase selection tool using a Gaussian-based classification technique
Hyeon et al. Automating papanicolaou test using deep convolutional activation feature
Chakraborty et al. Automated breast cancer identification by analyzing histology slides using metaheuristic supported supervised classification coupled with bag-of-features
Majeed et al. Problems of deploying cnn transfer learning to detect covid-19 from chest x-rays
Simon et al. Shallow cnn with lstm layer for tuberculosis detection in microscopic images
Manescu et al. Detection of acute promyelocytic leukemia in peripheral blood and bone marrow with annotation-free deep learning
Surya Sashank et al. Detection of acute lymphoblastic leukemia by utilizing deep learning methods
Cheng et al. An automatic segmentation and classification framework for anti-nuclear antibody images
Singh et al. A stack autoencoders based deep neural network approach for cervical cell classification in pap-smear images
Safuan et al. Computer aided system (CAS) of lymphoblast classification for acute lymphoblastic leukemia (ALL) detection using various pre-trained models
Li et al. A deep learning model for detection of leukocytes under various interference factors
Chang et al. Multireference level set for the characterization of nuclear morphology in glioblastoma multiforme
Li et al. An AI-Aided diagnostic framework for hematologic neoplasms based on morphologic features and medical expertise

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant