CN106960218B - 基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统 - Google Patents
基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统 Download PDFInfo
- Publication number
- CN106960218B CN106960218B CN201710107628.5A CN201710107628A CN106960218B CN 106960218 B CN106960218 B CN 106960218B CN 201710107628 A CN201710107628 A CN 201710107628A CN 106960218 B CN106960218 B CN 106960218B
- Authority
- CN
- China
- Prior art keywords
- breast cancer
- data
- cost
- classification
- sensitive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 206010006187 Breast cancer Diseases 0.000 title claims abstract description 49
- 208000026310 Breast neoplasm Diseases 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 239000010754 BS 2869 Class F Substances 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 5
- 210000004027 cell Anatomy 0.000 claims 2
- 210000004940 nucleus Anatomy 0.000 claims 2
- 206010028980 Neoplasm Diseases 0.000 claims 1
- 210000000349 chromosome Anatomy 0.000 claims 1
- 210000002919 epithelial cell Anatomy 0.000 claims 1
- 230000011278 mitosis Effects 0.000 claims 1
- 238000007635 classification algorithm Methods 0.000 abstract description 4
- 230000035945 sensitivity Effects 0.000 abstract 2
- 238000004422 calculation algorithm Methods 0.000 description 8
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 208000006454 hepatitis Diseases 0.000 description 1
- 231100000283 hepatitis Toxicity 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统,包括:数据输入模块,用于获取待分类的乳腺癌数据;数据预处理模块,用于对所获取的待分类的乳腺癌数据进行预处理;数据分类模块,用于采用经训练的代价敏感朴素贝叶斯分类网络对预处理后的乳腺癌数据进行分类。与现有技术相比,本发明将代价敏感思想引入到朴素贝叶斯法中形成代价敏感朴素贝叶斯分类算法,对乳腺癌数据进行分类,分类准确率高。
Description
技术领域
本发明涉及一种数据分类技术,尤其是涉及一种基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统,属于机器学习中的分类领域。
背景技术
乳腺癌数据是根据各种医疗仪器对人体的检查结果形成的。传统上,国内外主要是凭借医生自身的医学知识和多年积累的临床诊断经验对获得的乳腺癌数据进行分类,这种分类结果的有效性通常取决于医生的业务水平,主观因素影响较大。乳腺癌数据分类是一种典型的不平衡分类问题,在分类任务中更关注其患病类的分类准确率。因此,开发乳腺癌数据分类系统来提高乳腺癌分类的准确率是至关重要。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统。
本发明的目的可以通过以下技术方案来实现:
一种基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统,包括:
数据输入模块,用于获取待分类的乳腺癌数据;
数据预处理模块,用于对所获取的待分类的乳腺癌数据进行预处理;
数据分类模块,用于采用经训练的代价敏感朴素贝叶斯分类网络对预处理后的乳腺癌数据进行分类。
所述数据预处理模块对待分类的乳腺癌数据进行预处理具体为:
对所述乳腺癌数据中的每一属性值均进行离散化处理,处理公式为:
其中,n表示某一属性的属性值,n1表示该属性对应的最不正常情况值,n0表示该属性对应的最正常情况值。
所述数据分类模块包括:
数据库单元,用于存储历史乳腺癌数据及对应分类;
分类网络建立单元,用于根据数据库单元中的数据建立代价敏感朴素贝叶斯分类网络并进行训练;
实时分类单元,用于调用所述代价敏感朴素贝叶斯分类网络进行乳腺癌数据的实时分类。
所述分类网络建立单元中,代价敏感朴素贝叶斯分类网络的建立过程为:
1)从数据库单元中调用训练数据Test={(x1,y1),(x2,y2),...,(xN,yN)},其中 是第i个样本的第j个特征,ajl是第j个特征可能取的第l个值,j=1,2,...,n,l=1,2,...,Sj,yi∈{T,F},N为测试样本个数,n为特征总数,Sj为可能值总数,T、F为分类类别;
2)计算先验概率:
计算条件概率:
3)对于给定的实例x=(x(1),x(2),...,x(n))T,计算:
P(Y=T)∏jP(X(j)=x(j)|Y=T)
P(Y=F)ΠjP(X(j)=x(j)|Y=F)
4)加入代价敏感参数CTF和CFT,构建损失函数:
L(x,T)=P(F|x)*CTF
L(x,F)=P(T|x)*CFT
其中,0<CTF=1<CFT,表明将T类误分为F类的代价大于将F类误分为T类的代价,P(F|x)、P(T|x)分别表示将样本x预测为类别F、类别T的条件概率;
5)根据损失函数最小化确定实例x的类别:
所述数据分类模块还包括:
模型验证单元,用于对所述分类网络建立单元建立并训练的代价敏感朴素贝叶斯分类网络进行十折交叉验证。
与现有技术相比,本发明具有以下优点:
1)本发明将代价敏感思想引入到朴素贝叶斯法中形成代价敏感朴素贝叶斯分类算法,分类时引入了代价敏感参数,令多类(F)误分为少类(T)的代价为定值1,学习过程中只需调整一个参数,即少类(T)误分为多类(F)的代价敏感参数。相比之前的代价敏感朴素贝叶斯分类器实验过程参数值变少,降低算法复杂度。同时对乳腺癌数据进行分类,分类准确率高。
2)本发明给不同的误分类情况赋予不同的代价,能处理不平衡分类,能对乳腺癌数据进行有效的分类。
附图说明
图1为本发明的结构示意图;
图2为本发明与朴素贝叶斯分类算法在不平衡数据集上的分类结果示意图,横坐标为classification index(分类索引),纵坐标为ratio(比例),其中,(a)为Credit-g,(b)为Breast-w,(c)为Haberman,(d)为Breast-c,(e)为sick,(f)为Hepatitis,(g)为vote,(h)为Tic-tac-toe。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如图1所示,本实施例提供一种基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统,包括数据输入模块1、数据预处理模块2和数据分类模块3,其中,数据输入模块1用于获取待分类的乳腺癌数据;数据预处理模块2用于对所获取的待分类的乳腺癌数据进行预处理;数据分类模块3用于采用经训练的代价敏感朴素贝叶斯分类网络(CL-NBC算法)对预处理后的乳腺癌数据进行分类。
每组乳腺癌数据有9个属性值,由于该9个属性值的指标取值是连续的,需要对数据进行离散化处理来方便分类模型进行处理。本系统中,数据预处理模块2对待分类的乳腺癌数据进行预处理具体为:
对所述乳腺癌数据中的每一属性值均进行离散化处理,处理公式为:
其中,n表示某一属性的属性值,n1表示该属性对应的最不正常情况值,n0表示该属性对应的最正常情况值。
经预处理后的乳腺癌数据如表1所示。
表1乳腺癌数据集属性描述
数据分类模块3包括:数据库单元31,用于存储历史乳腺癌数据及对应分类;分类网络建立单元32,用于根据数据库单元中的数据建立代价敏感朴素贝叶斯分类网络并进行训练;实时分类单元33,用于调用所述代价敏感朴素贝叶斯分类网络进行乳腺癌数据的实时分类。
分类网络建立单元32中,代价敏感朴素贝叶斯分类网络的建立过程为:
1)从数据库单元中调用训练数据Test={(x1,y1),(x2,y2),...,(xN,yN)},其中 是第i个样本的第j个特征,ajl是第j个特征可能取的第l个值,j=1,2,...,n,l=1,2,...,Sj,yi∈{T,F},N为测试样本个数,n为特征总数,Sj为可能值总数,T、F为分类类别;
2)计算先验概率:
计算条件概率:
3)对于给定的实例x=(x(1),x(2),...,x(n))T,计算:
P(Y=T)∏jP(X(j)=x(j)|Y=T)
P(Y=F)∏jP(X(j)=x(j)|Y=F)
4)加入代价敏感参数CTF和CFT,构建损失函数:
L(x,T)=P(F|x)*CTF
L(x,F)=P(T|x)*CFT
5)根据损失函数最小化确定实例x的类别:
本发明的另一实施例中,数据分类模块3还包括模型验证单元34,用于对所述分类网络建立单元建立并训练的代价敏感朴素贝叶斯分类网络进行十折交叉验证,验证代价敏感朴素贝叶斯分类网络在乳腺癌数据集上的处理效果,选取的评价指标为:Recall(召回率)、F-measure、G-mean、accurccy(准确率)。
本实施例采用的数据集来源于Wisconsin医学院的william H.Wolberg博士提供的乳腺癌数据样本。图2是本发明在8个不平衡数据集上的分类结果,对比的算法是原始的朴素贝叶斯法(NBC)。选择如下算法评价分类指标:Recall、F-measure、G-mean、accurccy作为算法的分类效果指标。其中短划线表示朴素贝叶斯分类算法,实线表示本发明。
表2四种算法分类准确率比较
表2所示为4种算法对乳腺癌数据分类的准确率,结果显示CL-NBC算法的分类准确率最高,同时图2(b)所示少类的recall达0.9920,意味着乳腺癌数据中99.20%被分类正确了,从而影响了生病患者的前期发现及时治疗。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (3)
1.一种基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统,其特征在于,包括:
数据输入模块,用于获取待分类的乳腺癌数据,每组乳腺癌数据具有的属性值包括肿块厚度、细胞大小的均匀性、细胞形状的均匀性、边缘粘、单上皮细胞的大小、裸核、乏味染色体、正常核和有丝分裂;
数据预处理模块,用于对所获取的待分类的乳腺癌数据进行预处理;
数据分类模块,用于采用经训练的代价敏感朴素贝叶斯分类网络对预处理后的乳腺癌数据进行分类;
所述数据分类模块包括:
数据库单元,用于存储历史乳腺癌数据及对应分类;
分类网络建立单元,用于根据数据库单元中的数据建立代价敏感朴素贝叶斯分类网络并进行训练;
实时分类单元,用于调用所述代价敏感朴素贝叶斯分类网络进行乳腺癌数据的实时分类;
所述分类网络建立单元中,代价敏感朴素贝叶斯分类网络的建立过程为:
1)从数据库单元中调用训练数据Test={(x1,y1),(x2,y2),...,(xN,yN)},其中 是第i个样本的第j个特征,ajl是第j个特征可能取的第l个值,j=1,2,...,n,l=1,2,...,Sj,yi∈{T,F},N为测试样本个数,n为特征总数,Sj为可能值总数,T、F为分类类别;
2)计算先验概率:
计算条件概率:
3)对于给定的实例x=(x(1),x(2),...,x(n))T,计算:
P(Y=T)ΠjP(X(j)=x(j)|Y=T)
P(Y=F)ΠjP(X(j)=x(j)|Y=F)
4)加入代价敏感参数CTF和CFT,构建损失函数:
L(x,T)=P(F|x)*CTF
L(x,F)=P(T|x)*CFT
其中,0<CTF=1<CFT,表明将T类误分为F类的代价大于将F类误分为T类的代价,P(F|x)、P(T|x)分别表示将样本x预测为类别F、类别T的条件概率;
5)根据损失函数最小化确定实例x的类别:
3.根据权利要求1所述的基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统,其特征在于,所述数据分类模块还包括:
模型验证单元,用于对所述分类网络建立单元建立并训练的代价敏感朴素贝叶斯分类网络进行十折交叉验证。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710107628.5A CN106960218B (zh) | 2017-02-27 | 2017-02-27 | 基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710107628.5A CN106960218B (zh) | 2017-02-27 | 2017-02-27 | 基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106960218A CN106960218A (zh) | 2017-07-18 |
CN106960218B true CN106960218B (zh) | 2020-07-28 |
Family
ID=59481096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710107628.5A Active CN106960218B (zh) | 2017-02-27 | 2017-02-27 | 基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106960218B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480721A (zh) * | 2017-08-21 | 2017-12-15 | 上海中信信息发展股份有限公司 | 一种牛只患病数据分析方法及装置 |
CN107766875B (zh) * | 2017-09-14 | 2020-09-08 | 中山大学 | 一种为有向有序多类不平衡数据分类的样本合成方法 |
CN108766559B (zh) * | 2018-05-22 | 2020-12-11 | 合肥工业大学 | 用于智能疾病筛查的临床决策支持方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103035050A (zh) * | 2012-12-19 | 2013-04-10 | 南京师范大学 | 一种用于复杂人脸识别门禁系统的高精度人脸识别方法 |
CN104143101A (zh) * | 2014-07-01 | 2014-11-12 | 华南理工大学 | 一种基于超声图像的乳腺肿瘤区域自动识别方法 |
CN104809476A (zh) * | 2015-05-12 | 2015-07-29 | 西安电子科技大学 | 一种基于分解的多目标进化模糊规则分类方法 |
-
2017
- 2017-02-27 CN CN201710107628.5A patent/CN106960218B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103035050A (zh) * | 2012-12-19 | 2013-04-10 | 南京师范大学 | 一种用于复杂人脸识别门禁系统的高精度人脸识别方法 |
CN104143101A (zh) * | 2014-07-01 | 2014-11-12 | 华南理工大学 | 一种基于超声图像的乳腺肿瘤区域自动识别方法 |
CN104809476A (zh) * | 2015-05-12 | 2015-07-29 | 西安电子科技大学 | 一种基于分解的多目标进化模糊规则分类方法 |
Non-Patent Citations (3)
Title |
---|
Test-Cost Sensitive Naive Bayes Classification;Xiaoyong Chai 等;《IEEE》;20050404;正文第1-8页 * |
基于代价敏感的朴素贝叶斯不平衡数据分类研究;蒋盛益 等;《计算机研究与发展》;20111231;摘要,第2-3节 * |
基于贝叶斯分类模型的乳腺X线摄影辅助诊断的研究;纪琳 等;《生物医学工程学杂志》;20110630;第28卷(第3期);摘要,第1-2节 * |
Also Published As
Publication number | Publication date |
---|---|
CN106960218A (zh) | 2017-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Naseem et al. | An automatic detection of breast cancer diagnosis and prognosis based on machine learning using ensemble of classifiers | |
WO2022063200A1 (zh) | 用于非小细胞肺癌预后生存预测的方法、介质及电子设备 | |
Mohammed et al. | Benchmarking methodology for selection of optimal COVID-19 diagnostic model based on entropy and TOPSIS methods | |
Kedia et al. | CoVNet-19: A Deep Learning model for the detection and analysis of COVID-19 patients | |
CN107330449A (zh) | 一种糖尿病性视网膜病变体征检测方法及装置 | |
CN109859168A (zh) | 一种x射线胸片图像质量确定方法及装置 | |
Zemouri et al. | Breast cancer diagnosis based on joint variable selection and constructive deep neural network | |
Sarwar et al. | Novel benchmark database of digitized and calibrated cervical cells for artificial intelligence based screening of cervical cancer | |
CN110021431A (zh) | 人工智能辅助诊断系统、诊断方法 | |
Hariri et al. | COVID-19 and pneumonia diagnosis from chest X-ray images using convolutional neural networks | |
Jawahar et al. | An attention-based deep learning for acute lymphoblastic leukemia classification | |
CN106960218B (zh) | 基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统 | |
CN111128372A (zh) | 基于rf-lr改进算法的疾病预测方法 | |
Aktas et al. | Deep convolutional neural networks for detection of abnormalities in chest X-rays trained on the very large dataset | |
Singh et al. | A stack autoencoders based deep neural network approach for cervical cell classification in pap-smear images | |
Kelly et al. | Robust classification of low-grade cervical cytology following analysis with ATR-FTIR spectroscopy and subsequent application of self-learning classifier eClass | |
Khater et al. | Explainable ai for breast cancer detection: A lime-driven approach | |
Jagtap et al. | Deep learning-based blood cell classification from microscopic images for haematological disorder identification | |
Kandasamy et al. | Optimized deep learning networks for accurate identification of cancer cells in bone marrow | |
Sreelekshmi et al. | Leukemia classification using a fusion of transfer learning and support vector machine | |
CN111899214B (zh) | 一种病理切片扫描分析装置及病理切片扫描方法 | |
CN118312816A (zh) | 基于成员选择的簇加权聚类集成医学数据处理方法及系统 | |
RAO et al. | Breast cancer image classification using custom CNN | |
Nasser et al. | A deep learning-based system for detecting COVID-19 patients | |
Karling et al. | Prediction of breast cancer using machine learning techniques for health data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |