CN112163133B - 一种基于多粒度证据邻域粗糙集的乳腺癌数据分类方法 - Google Patents

一种基于多粒度证据邻域粗糙集的乳腺癌数据分类方法 Download PDF

Info

Publication number
CN112163133B
CN112163133B CN202011023382.1A CN202011023382A CN112163133B CN 112163133 B CN112163133 B CN 112163133B CN 202011023382 A CN202011023382 A CN 202011023382A CN 112163133 B CN112163133 B CN 112163133B
Authority
CN
China
Prior art keywords
breast cancer
cancer patient
neighborhood
evidence
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011023382.1A
Other languages
English (en)
Other versions
CN112163133A (zh
Inventor
鞠恒荣
李铭
丁卫平
曹金鑫
黄嘉爽
周子洵
张毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong University
Original Assignee
Nantong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong University filed Critical Nantong University
Priority to CN202011023382.1A priority Critical patent/CN112163133B/zh
Publication of CN112163133A publication Critical patent/CN112163133A/zh
Application granted granted Critical
Publication of CN112163133B publication Critical patent/CN112163133B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供了一种基于多粒度证据邻域粗糙集的乳腺癌数据分类方法,包括如下步骤:S10采集乳腺癌数据集,并将所述乳腺癌数据集分为训练数据集和测试数据集;S20在所述训练数据集上构建多粒度数据;S30在不同粒度的所述病理特征约简集合下预测所述测试数据的类别标签集合;S40根据投票机制得到所述测试数据集中票数最多的类别标签,获得乳腺癌数据分类结果。本发明的一种基于多粒度证据邻域粗糙集的乳腺癌数据分类方法,去除了冗余属性压缩乳腺癌数据规模,同时在分类过程中,将证据理论引入邻域粗糙分类,充分地利用了样本之间的紧密性,提升了对乳腺癌数据分类的效率和精度,对乳腺癌智能辅助分类具有较强的应用价值。

Description

一种基于多粒度证据邻域粗糙集的乳腺癌数据分类方法
技术领域
本发明涉及智慧医疗技术领域,具体涉及一种基于多粒度证据邻域粗糙集的乳腺癌数据分类方法。
背景技术
乳腺癌(breast cancer)是乳腺上皮细胞在多种致癌因子的作用下,发生增殖失控的现象。疾病早期常表现为乳房肿块、乳头溢液、腋窝淋巴结肿大等症状,晚期可因癌细胞发生远处转移,出现多器官病变,直接威胁患者的生命。近年来,我国乳腺癌的发病率呈逐年上升趋势,每年有30余万女性被诊断出乳腺癌。由于癌细胞的无限制的增殖能力,乳腺癌越早发现越好,早期的乳腺癌治愈几率也较大。判断乳腺癌病变状况的有效办法是通过乳腺癌细胞的病理特征实验,然而实验却需要几十种细胞的病理特征实验结合在一起。这会导致实验测试数据属性过多和数据量大,也会增加医生对乳腺癌患者的病变情况的判断方面的工作量。如何有效分析患者的乳腺癌病变信息和帮助医生有效地分析患者乳腺癌病变的症状,亟需一种新的方法能有效地减少乳腺癌数据分类信息中冗余的属性,降低乳腺癌数据的检测时间和提高检测效率,有效进行乳腺癌数据分类的筛查和分析。
发明内容
为了解决上述问题,本发明提供一种基于多粒度证据邻域粗糙集的乳腺癌数据分类方法,去除冗余属性压缩乳腺癌数据规模,同时在分类过程中,将证据理论引入邻域粗糙分类,充分地利用了样本之间的紧密性,提升了对乳腺癌数据分类的效率和精度,对乳腺癌智能辅助分类具有较强的应用价值。
为了实现以上目的,本发明采取的一种技术方案是:
一种基于多粒度证据邻域粗糙集的乳腺癌数据分类方法,包括如下步骤: S10采集乳腺癌数据集,并将所述乳腺癌数据集按照8:2的比例划分为训练数据集和测试数据集,同时将所述乳腺癌数据集转换为一个四元组决策信息系统;S20在所述训练数据集上构建多粒度数据,在不同粒度上通过邻域决策错误率的病理特征约简算法得到病理特征约简集合;S30在不同粒度的所述病理特征约简集合下通过证据理论驱动的邻域粗糙分类器预测所述测试数据的类别标签集合;S40根据投票机制得到所述测试数据集中票数最多的类别标签,获得乳腺癌数据分类结果。
进一步地,所述决策信息系统S=<U,C∪D,V,f>,其中,U={x1,x2,...,xN}表示乳腺癌数据集中的乳腺癌患者对象集合,N表示乳腺癌患者的个数;C={a1,a2,...,an} 表示乳腺癌患者细胞病理特征的非空有限集合,n表示乳腺癌患者细胞病理特征的个数;D={d1,d2,...,dm}表示乳腺癌患者决策属性的非空有限集合,m表示乳腺癌患者病决策属性的个数,且
Figure RE-GDA0002737246320000021
V=∪a∈C∪DVa,Va是乳腺癌患者细胞病理特征a的可能情况;f:U×C∪D→V是一个信息函数,它为每个乳腺癌患者细胞病理特征a赋予一个信息值,
Figure RE-GDA0002737246320000022
进一步地,所述步骤S20将所述训练数据集S1=〈U1,C∪D,V1,f〉按照乳腺癌患者对象
Figure RE-GDA0002737246320000023
划分成不同粒度集合S1={S11,S12,...,S1h}形成所述多粒度数据,且满足
Figure RE-GDA0002737246320000024
其中
Figure RE-GDA0002737246320000025
h是粒度层数,w≠e, w=1,2,...,h,e=1,2,...,h,然后在不同粒度集合{S11,...,S1w,...,S1h}上构建邻域决策错误率的病理特征约简器得到乳腺癌患者不同粒度病理特征约简集合 {R1,...,Rw,...,Rh}。
进一步地,所述步骤S30包括如下步骤:S31在训练数据集的子集S1w上,计算乳腺癌患者根据所述类别标签划分的决策类πw={Ew1,Ew2,...,Ewr}和乳腺癌类别标签L={lw1,lw2,...,lwr},r是乳腺癌类别标签个数,决策类划分计算公式如下:
πw=U1w/IND(D)={[x]D|x∈U1w}
其中,[x]D表示等价类,[x]D={x'∈U1w|(x,x')∈IND(D)};S32计算乳腺癌患者xi乳腺癌患者细胞病理特征集C的邻域空间δC(xi),其计算公式如下所示:
δC(xi)={xj|xj∈U1wC(xi,xj)≤δ}(i,j=1,2,...,N1w)
其中,
Figure RE-GDA0002737246320000026
ΔB为基于乳腺癌患者细胞病理特征集C上乳腺癌患者xi和xj之间的距离函数,常用欧氏距离表示,δ为距离阈值,δ=0.95;S33计算乳腺癌患者xi在乳腺癌类别标签lws下的类别概率为P(lwsC(xi)),若P(lwtc(xi))=maxs P(lwsc(xi))(s=1,2,……r,i=1,2,……,N1w),则乳腺癌患者xi的类别标签记为lwt,表示为 ND(xi)=lws,当乳腺癌患者xi的预测类别标记ND(xi)与真实样本类别标记l(xi)相同时,可得到ND(xi)=l(xi)=lws;S34计算乳腺癌患者xi误分类的损失函数,其定义如下:
Figure RE-GDA0002737246320000031
S35计算乳腺癌患者xi邻域错误率,其计算公式如下:
Figure RE-GDA0002737246320000032
S36计算乳腺癌细胞病理特征集中每个病理特征ak∈C-Rw(k=1,2,...,n)相对于病理特征约简子集Rw的重要度
Figure RE-GDA0002737246320000033
按照重要度从大到小的顺序得到候选病理特征集{a1',a'2,...,a'n};S37将候选病理特征集中最大重要度对应的病理特征a'k将入病理特征约简子集Rw,并将病理特征a'k从候选病理特征集中移除,直到
Figure RE-GDA0002737246320000034
输出病理特征约简子集Rw;S38在粒度为w的病理特征约简子集Rw上,通过证据理论驱动的邻域粗糙分类器对测试数据集 S2=<U2,C∪D,V2,f>中的待测乳腺癌患者对象
Figure RE-GDA0002737246320000035
进行划分,同时根据多粒度框架下的病理特征约简集合{R1,...,Rw,...,Rh}将测试数据集S2划分成不同粒度集合S2={S21,S22,...,S2h}且S2w=〈U2,Rw∪D,V2w,f〉(w=1,2,...,h);
S39计算待测乳腺癌患者的邻域空间中关于训练数据集中乳腺癌患者及其决策类划分的证据信息,后将不同类别标签的证据信息进行聚合,计算待测乳腺癌患者对某一决策类划分的信任函数和似然函数,最后根据最大信任函数值预测待测乳腺癌患者的类别标签。
进一步地,所述步骤S39包括如下步骤:S391计算基于病理特征约简子集Rw的测试数据集S2=〈U2,C∪D,V2,f>中待测乳腺癌患者yb(b=1,2,...,N2)与训练数据集S1w中乳腺癌患者xi(i=1,2,...,N1w)之间的距离
Figure RE-GDA0002737246320000036
S392根据距离
Figure RE-GDA0002737246320000037
计算待测乳腺癌患者yb的邻域
Figure RE-GDA0002737246320000038
S393计算待测乳腺癌患者yb与乳腺癌患者xi之间的证据信息,如果乳腺癌患者xi的类别标签为lws和决策类划分为Ews,那么(xi,Ews)可作为一个独立的支持对待测乳腺癌患者yb进行分类的证据,其所包含的证据信息定义如下:
Figure RE-GDA0002737246320000041
Mb,iw)=1-α
其中,0<α0<1,γs>0,Δ表示径向基函数核距离;S394计算待测乳腺癌患者yb的邻域
Figure RE-GDA0002737246320000042
中类别标签为lws的样本集
Figure RE-GDA0002737246320000043
所述样本集
Figure RE-GDA0002737246320000044
对yb的证据支持可表示为
Figure RE-GDA0002737246320000045
即:
Figure RE-GDA0002737246320000046
Figure RE-GDA0002737246320000047
S395计算待测乳腺癌患者yb在不同类别标签下的证据信息
Figure RE-GDA0002737246320000048
并对证据信息进行聚合操作,则可得到yb邻域
Figure RE-GDA0002737246320000049
中所有对象提供的证据支持
Figure RE-GDA00027372463200000410
其可具体表示为:
Figure RE-GDA00027372463200000411
Figure RE-GDA00027372463200000412
其中,K为归一化因子,其表达式如下所示:
Figure RE-GDA00027372463200000413
S396计算待测乳腺癌患者yb对决策类划分πw={Ew1,Ew2,...,Ewr}中某一类Ews的信任函数Belb({Ews})和似然函数Plb({Ews}),具体定义如下:
Belb({Ews})=Mb({Ews})
Plb({Ews})=Mb({Ews})+Mbw)
S397根据待测乳腺癌患者yb的信任函数Belb可得到yb的类别标签ω,其定义如下:
Figure RE-GDA0002737246320000051
本发明的上述技术方案相比现有技术具有以下优点:
本发明的一种基于多粒度证据邻域粗糙集的乳腺癌数据分类方法,首先通过邻域决策错误率的病理特征约简算法去除乳腺癌数据中的冗余属性并压缩乳腺癌数据规模。最后,在分类的过程中,将证据理论引入邻域粗糙分类方法中,考虑到不同数据的分布情况,以及充分地利用了样本之间的紧密性,提升了对乳腺癌数据分类的效率和精度,对乳腺癌智能辅助分类具有较强的应用价值。
附图说明
下面结合附图,通过对本发明的具体实施方式详细描述,将使本发明的技术方案及其有益效果显而易见。
图1所示为本发明一实施例的基于多粒度证据邻域粗糙集的乳腺癌数据分类方法流程图;
图2所示为本发明一实施例的基于多粒度证据邻域粗糙集的乳腺癌数据分类方法框图;
图3所示为本发明一实施例的基于邻域决策错误率的病理特征约简的具体流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供了一种基于多粒度证据邻域粗糙集的乳腺癌数据分类方法,如图1~2所示,包括如下步骤:S10采集乳腺癌数据集,并将所述乳腺癌数据集按照8:2的比例划分为训练数据集和测试数据集,同时将所述乳腺癌数据集转换为一个四元组决策信息系统。S20在所述训练数据集上构建多粒度数据,在不同粒度上通过邻域决策错误率的病理特征约简算法得到病理特征约简集合。S30在不同粒度的所述病理特征约简集合下通过证据理论驱动的邻域粗糙分类器预测所述测试数据的类别标签集合。S40根据投票机制得到所述测试数据集中票数最多的类别标签,获得乳腺癌数据分类结果。
所述决策信息系统S=<U,C∪D,V,f>,其中,U={x1,x2,...,xN}表示乳腺癌数据集中的乳腺癌患者对象集合,N表示乳腺癌患者的个数;C={a1,a2,...,an}表示乳腺癌患者细胞病理特征的非空有限集合,n表示乳腺癌患者细胞病理特征的个数; D={d1,d2,...,dm}表示乳腺癌患者决策属性的非空有限集合,m表示乳腺癌患者病决策属性的个数,且
Figure RE-GDA0002737246320000061
V=∪a∈C∪DVa,Va是乳腺癌患者细胞病理特征a的可能情况;f:U×C∪D→V是一个信息函数,它为每个乳腺癌患者细胞病理特征 a赋予一个信息值,
Figure RE-GDA0002737246320000062
所述步骤S20将所述训练数据集S1=<U1,C∪D,V1,f>按照乳腺癌患者对象
Figure RE-GDA0002737246320000066
划分成不同粒度集合S1={S11,S12,...,S1h}形成所述多粒度数据,且满足
Figure RE-GDA0002737246320000063
其中
Figure RE-GDA0002737246320000064
h是粒度层数,w≠e,w=1,2,...,h, e=1,2,...,h,然后在不同粒度集合{S11,...,S1w,...,S1h}上构建邻域决策错误率的病理特征约简器得到乳腺癌患者不同粒度病理特征约简集合{R1,...,Rw,...,Rh}。
所述步骤S30包括如下步骤:S31在训练数据集的子集S1w上,计算乳腺癌患者根据所述类别标签划分的决策类πw={Ew1,Ew2,...,Ewr}和乳腺癌类别标签 L={lw1,lw2,...,lwr},r是乳腺癌类别标签个数,决策类划分计算公式如下:
πw=U1w/IND(D)={[x]D|x∈U1w}
其中,[x]D表示等价类,[x]D={x'∈U1w|(x,x')∈IND(D)}。
S32计算乳腺癌患者xi乳腺癌患者细胞病理特征集C的邻域空间δC(xi),其计算公式如下所示:
δC(xi)={xj|xj∈U1wC(xi,xj)≤δ}(i,j=1,2,...,N1w)
其中,
Figure RE-GDA0002737246320000065
ΔB为基于乳腺癌患者细胞病理特征集C上乳腺癌患者xi和xj之间的距离函数,常用欧氏距离表示,δ为距离阈值,δ=0.95;
S33计算乳腺癌患者xi在乳腺癌类别标签lws下的类别概率为P(lwsC(xi)),若P(lwtc(xi))=maxs P(lwsc(xi))(s=1,2,……r,i=1,2,……,N1w),则乳腺癌患者xi的类别标签记为lwt,表示为ND(xi)=lws,当乳腺癌患者xi的预测类别标记ND(xi)与真实样本类别标记l(xi)相同时,可得到ND(xi)=l(xi)=lws
S34计算乳腺癌患者xi误分类的损失函数,其定义如下:
Figure RE-GDA0002737246320000071
S35计算乳腺癌患者xi邻域错误率,其计算公式如下:
Figure RE-GDA0002737246320000072
如图3所示,S36计算乳腺癌细胞病理特征集中每个病理特征 ak∈C-Rw(k=1,2,...,n)相对于病理特征约简子集Rw的重要度
Figure RE-GDA0002737246320000073
按照重要度从大到小的顺序得到候选病理特征集{a1',a'2,...,a'n};
S37将候选病理特征集中最大重要度对应的病理特征a'k将入病理特征约简子集Rw,即SIG(a'k,Rw,D)>0,并将病理特征a'k从候选病理特征集中移除,直到
Figure RE-GDA0002737246320000074
输出病理特征约简子集Rw
S38在粒度为w的病理特征约简子集Rw上,通过证据理论驱动的邻域粗糙分类器对测试数据集S2=<U2,C∪D,V2,f>中的待测乳腺癌患者对象
Figure RE-GDA0002737246320000075
进行划分,同时根据多粒度框架下的病理特征约简集合 {R1,...,Rw,...,Rh}将测试数据集S2划分成不同粒度集合S2={S21,S22,...,S2h}且 S2w=<U2,Rw∪D,V2w,f>(w=1,2,...,h);
S39计算待测乳腺癌患者的邻域空间中关于训练数据集中乳腺癌患者及其决策类划分的证据信息,后将不同类别标签的证据信息进行聚合,计算待测乳腺癌患者对某一决策类划分的信任函数和似然函数,最后根据最大信任函数值预测待测乳腺癌患者的类别标签。
所述步骤S39包括如下步骤:S391计算基于病理特征约简子集Rw的测试数据集S2=<U2,C∪D,V2,f>中待测乳腺癌患者yb(b=1,2,...,N2)与训练数据集S1w中乳腺癌患者xi(i=1,2,...,N1w)之间的距离
Figure RE-GDA0002737246320000081
S392根据距离
Figure RE-GDA0002737246320000082
计算待测乳腺癌患者yb的邻域
Figure RE-GDA0002737246320000083
S393计算待测乳腺癌患者yb与乳腺癌患者xi之间的证据信息,如果乳腺癌患者xi的类别标签为lws和决策类划分为Ews,那么(xi,Ews)可作为一个独立的支持对待测乳腺癌患者yb进行分类的证据,其所包含的证据信息定义如下:
Figure RE-GDA0002737246320000084
Mb,iw)=1-α
其中,0<α0<1,γs>0,Δ表示径向基函数核距离;
S394计算待测乳腺癌患者yb的邻域
Figure RE-GDA0002737246320000085
中类别标签为lws的样本集
Figure RE-GDA0002737246320000086
所述样本集
Figure RE-GDA0002737246320000087
对yb的证据支持可表示为
Figure RE-GDA0002737246320000088
即:
Figure RE-GDA0002737246320000089
Figure RE-GDA00027372463200000810
S395计算待测乳腺癌患者yb在不同类别标签下的证据信息
Figure RE-GDA00027372463200000811
并对证据信息进行聚合操作,则可得到yb邻域
Figure RE-GDA00027372463200000812
中所有对象提供的证据支持
Figure RE-GDA00027372463200000813
其可具体表示为:
Figure RE-GDA00027372463200000814
Figure RE-GDA00027372463200000815
其中,K为归一化因子,其表达式如下所示:
Figure RE-GDA0002737246320000091
S396计算待测乳腺癌患者yb对决策类划分πw={Ew1,Ew2,...,Ewr}中某一类Ews的信任函数Belb({Ews})和似然函数Plb({Ews}),具体定义如下:
Belb({Ews})=Mb({Ews})
Plb({Ews})=Mb({Ews})+Mbw)
S397根据待测乳腺癌患者yb的信任函数Belb可得到yb的类别标签ω,其定义如下:
Figure RE-GDA0002737246320000092
以上所述仅为本发明的示例性实施例,并非因此限制本发明专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (3)

1.一种基于多粒度证据邻域粗糙集的乳腺癌数据分类方法,其特征在于,包括如下步骤:
S10采集乳腺癌数据集,并将所述乳腺癌数据集按照8:2的比例划分为训练数据集和测试数据集,同时将所述乳腺癌数据集转换为一个四元组决策信息系统;
S20在所述训练数据集上构建多粒度数据,在不同粒度上通过邻域决策错误率的病理特征约简算法得到病理特征约简集合;
S30在不同粒度的所述病理特征约简集合下通过证据理论驱动的邻域粗糙分类器预测所述测试数据的类别标签集合;
S40根据投票机制得到所述测试数据集中票数最多的类别标签,获得乳腺癌数据分类结果;
其中,所述决策信息系统S=<U,C∪D,V,f>,其中,U={x1,x2,...,xN}表示乳腺癌数据集中的乳腺癌患者对象集合,N表示乳腺癌患者的个数;C={a1,a2,...,an}表示乳腺癌患者细胞病理特征的非空有限集合,n表示乳腺癌患者细胞病理特征的个数;D={d1,d2,...,dm}表示乳腺癌患者决策属性的非空有限集合,m表示乳腺癌患者决策属性的个数,且
Figure FDA0003201799740000011
V=∪a∈C∪DVa,Va是乳腺癌患者细胞病理特征a的可能情况;f:U×C∪D→V是一个信息函数,它为每个乳腺癌患者细胞病理特征a赋予一个信息值,
Figure FDA0003201799740000012
所述步骤S20将所述训练数据集S1=<U1,C∪D,V1,f>按照乳腺癌患者对象
Figure FDA0003201799740000013
划分成不同粒度集合S1={S11,S12,...,S1h}形成所述多粒度数据,且满足
Figure FDA0003201799740000014
其中
Figure FDA0003201799740000015
h是粒度层数,w≠e,w=1,2,...,h,e=1,2,...,h...,然后在不同粒度集合{S11,...,S1w,...,S1h}上构建邻域决策错误率的病理特征约简器得到乳腺癌患者不同粒度病理特征约简集合{R1,...,Rw,...,Rh}。
2.根据权利要求1所述的基于多粒度证据邻域粗糙集的乳腺癌数据分类方法,其特征在于,所述步骤S30包括如下步骤:
S31在训练数据集的子集S1w上,计算乳腺癌患者根据所述类别标签划分的决策类πw={Ew1,Ew2,...,Ewr}和乳腺癌类别标签L={lw1,lw2,...,lwr},r是乳腺癌类别标签个数,决策类划分计算公式如下:
πw=U1w/IND(D)={[x]D|x∈U1w}
其中,[x]D表示等价类,[x]D={x'∈U1w|(x,x')∈IND(D)};
S32计算乳腺癌患者xi乳腺癌患者细胞病理特征集C的邻域空间δC(xi),其计算公式如下所示:
δC(xi)={xj|xj∈U1wC(xi,xj)≤δ}(i,j=1,2,…,N1w)
其中,
Figure FDA0003201799740000021
ΔB为基于乳腺癌患者细胞病理特征集C上乳腺癌患者xi和xj之间的距离函数,常用欧氏距离表示,δ为距离阈值,δ=0.95;
S33计算乳腺癌患者xi在乳腺癌类别标签lws下的类别概率为P(lwsC(xi)),若P(lwtc(xi))=maxs P(lwsc(xi))(s=1,2,……r,i=1,2,……,N1w),则乳腺癌患者xi的类别标签记为lwt,表示为ND(xi)=lws,当乳腺癌患者xi的预测类别标记ND(xi)与真实样本类别标记l(xi)相同时,可得到ND(xi)=l(xi)=lws
S34计算乳腺癌患者xi误分类的损失函数,其定义如下:
Figure FDA0003201799740000022
S35计算乳腺癌患者xi邻域错误率,其计算公式如下:
Figure FDA0003201799740000031
S36计算乳腺癌细胞病理特征集中每个病理特征ak∈C-Rw(k=1,2,...,n)相对于病理特征约简子集Rw的重要度
Figure FDA0003201799740000032
按照重要度从大到小的顺序得到候选病理特征集{a'1,a'2,...,a'n};
S37将候选病理特征集中最大重要度对应的病理特征a'k将入病理特征约简子集Rw,并将病理特征a'k从候选病理特征集中移除,直到
Figure FDA0003201799740000033
输出病理特征约简子集Rw
S38在粒度为w的病理特征约简子集Rw上,通过证据理论驱动的邻域粗糙分类器对测试数据集S2=<U2,C∪D,V2,f>中的待测乳腺癌患者对象
Figure FDA0003201799740000034
进行划分,同时根据多粒度框架下的病理特征约简集合{R1,...,Rw,...,Rh}将测试数据集S2划分成不同粒度集合S2={S21,S22,...,S2h}且S2w=〈U2,Rw∪D,V2w,f>(w=1,2,...,h);
S39计算待测乳腺癌患者的邻域空间中关于训练数据集中乳腺癌患者及其决策类划分的证据信息,后将不同类别标签的证据信息进行聚合,计算待测乳腺癌患者对某一决策类划分的信任函数和似然函数,最后根据最大信任函数值预测待测乳腺癌患者的类别标签。
3.根据权利要求2所述的基于多粒度证据邻域粗糙集的乳腺癌数据分类方法,其特征在于,所述步骤S39包括如下步骤:
S391计算基于病理特征约简子集Rw的测试数据集S2=〈U2,C∪D,V2,f〉中待测乳腺癌患者yb(b=1,2,...,N2)与训练数据集S1w中乳腺癌患者xi(i=1,2,...,N1w)之间的距离
Figure FDA0003201799740000035
S392根据距离
Figure FDA0003201799740000041
计算待测乳腺癌患者yb的邻域
Figure FDA0003201799740000042
S393计算待测乳腺癌患者yb与乳腺癌患者xi之间的证据信息,如果乳腺癌患者xi的类别标签为lws和决策类划分为Ews,那么(xi,Ews)可作为一个独立的支持对待测乳腺癌患者yb进行分类的证据,其所包含的证据信息定义如下:
Figure FDA0003201799740000043
Mb,iw)=1-α
其中,0<α0<1,γs>0,Δ表示径向基函数核距离;
S394计算待测乳腺癌患者yb的邻域
Figure FDA0003201799740000044
中类别标签为lws的样本集
Figure FDA0003201799740000045
所述样本集
Figure FDA0003201799740000046
对yb的证据支持可表示为
Figure FDA0003201799740000047
即:
Figure FDA0003201799740000048
Figure FDA0003201799740000049
S395计算待测乳腺癌患者yb在不同类别标签下的证据信息
Figure FDA00032017997400000410
并对证据信息进行聚合操作,则可得到yb邻域
Figure FDA00032017997400000411
中所有对象提供的证据支持
Figure FDA00032017997400000412
其可具体表示为:
Figure FDA00032017997400000413
Figure FDA00032017997400000414
其中,K为归一化因子,其表达式如下所示:
Figure FDA00032017997400000415
S396计算待测乳腺癌患者yb对决策类划分πw={Ew1,Ew2,...,Ewr}中某一类Ews的信任函数Belb({Ews})和似然函数Plb({Ews}),具体定义如下:
Belb({Ews})=Mb({Ews})
Plb({Ews})=Mb({Ews})+Mbw)
S397根据待测乳腺癌患者yb的信任函数Belb可得到yb的类别标签ω,其定义如下:
Figure FDA0003201799740000051
CN202011023382.1A 2020-09-25 2020-09-25 一种基于多粒度证据邻域粗糙集的乳腺癌数据分类方法 Active CN112163133B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011023382.1A CN112163133B (zh) 2020-09-25 2020-09-25 一种基于多粒度证据邻域粗糙集的乳腺癌数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011023382.1A CN112163133B (zh) 2020-09-25 2020-09-25 一种基于多粒度证据邻域粗糙集的乳腺癌数据分类方法

Publications (2)

Publication Number Publication Date
CN112163133A CN112163133A (zh) 2021-01-01
CN112163133B true CN112163133B (zh) 2021-10-08

Family

ID=73863899

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011023382.1A Active CN112163133B (zh) 2020-09-25 2020-09-25 一种基于多粒度证据邻域粗糙集的乳腺癌数据分类方法

Country Status (1)

Country Link
CN (1) CN112163133B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113012776B (zh) * 2021-03-30 2022-11-04 南通大学 大规模不平衡糖尿病电子病历并行分类邻域证据Spark方法
CN113159156B (zh) * 2021-04-15 2023-04-18 南通大学 一种用于宫颈癌数据分类的粗糙图卷积方法
CN113838532B (zh) * 2021-07-26 2022-11-18 南通大学 基于双重自适应邻域半径的多粒度乳腺癌基因分类方法
CN115101153A (zh) * 2021-12-09 2022-09-23 重庆邮电大学 一种基于散列桶邻域的慢病分类标记方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564111A (zh) * 2018-03-26 2018-09-21 太原理工大学 一种基于邻域粗糙集特征选择的图像分类方法
CN110176298A (zh) * 2019-05-31 2019-08-27 南通大学 用于糖尿病性眼底图像分类的核主成分谱哈希方法
CN110796169A (zh) * 2019-09-26 2020-02-14 文辉祥 一种邻域决策错误率集成的属性约简方法
CN111553127A (zh) * 2020-04-03 2020-08-18 河南师范大学 一种多标记的文本类数据特征选择方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002047007A2 (en) * 2000-12-07 2002-06-13 Phase It Intelligent Solutions Ag Expert system for classification and prediction of genetic diseases
CN101923604A (zh) * 2010-07-23 2010-12-22 福建师范大学 基于邻域粗糙集的加权knn肿瘤基因表达谱分类方法
JP6174894B2 (ja) * 2013-04-17 2017-08-02 キヤノン株式会社 画像処理装置および画像処理方法
CN103984919A (zh) * 2014-04-24 2014-08-13 上海优思通信科技有限公司 基于粗糙集与混合特征的人脸表情识别方法
CN106227990A (zh) * 2016-07-13 2016-12-14 康佳集团股份有限公司 一种基于贪心策略的多粒度粗糙集简约方法及系统
CN107016416B (zh) * 2017-04-12 2021-02-12 中国科学院重庆绿色智能技术研究院 基于邻域粗糙集和pca融合的数据分类预测方法
CN111582370B (zh) * 2020-05-08 2023-04-07 重庆工贸职业技术学院 一种基于粗糙集优化的脑转移瘤预后指标约简及分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564111A (zh) * 2018-03-26 2018-09-21 太原理工大学 一种基于邻域粗糙集特征选择的图像分类方法
CN110176298A (zh) * 2019-05-31 2019-08-27 南通大学 用于糖尿病性眼底图像分类的核主成分谱哈希方法
CN110796169A (zh) * 2019-09-26 2020-02-14 文辉祥 一种邻域决策错误率集成的属性约简方法
CN111553127A (zh) * 2020-04-03 2020-08-18 河南师范大学 一种多标记的文本类数据特征选择方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Hybrid Multilabel Feature Selection Using BPSO and Neighborhood Rough Sets for Multilabel Neighborhood Decision Systems;Lin Sun,等;《IEEE Access》;20191204;第7卷;第175793-175815页 *
基于邻域关系模糊粗糙集的医学图像分类研究;胡学伟,等;《计算机工程与科学》;20160430;第38卷(第4期);第739-745页 *

Also Published As

Publication number Publication date
CN112163133A (zh) 2021-01-01

Similar Documents

Publication Publication Date Title
CN112163133B (zh) 一种基于多粒度证据邻域粗糙集的乳腺癌数据分类方法
Prusty et al. SKCV: Stratified K-fold cross-validation on ML classifiers for predicting cervical cancer
Shen et al. Artificial intelligence system reduces false-positive findings in the interpretation of breast ultrasound exams
Sun et al. Cervical cancer diagnosis based on random forest
US10909682B2 (en) Method and device for detecting pulmonary nodule in computed tomography image, and computer-readable storage medium
Jaume et al. Quantifying explainers of graph neural networks in computational pathology
JP2013529334A (ja) 確率密度関数推定器
CN108629772A (zh) 图像处理方法及装置、计算机设备和计算机存储介质
CN104391879A (zh) 层次聚类的方法及装置
Pazdernik et al. Microstructural classification of unirradiated LiAlO2 pellets by deep learning methods
CN113643306A (zh) 一种染色体散型图像自动分割方法
Lv et al. Density peaks clustering based on geodetic distance and dynamic neighbourhood
Prinzi et al. Explainable machine-learning models for covid-19 prognosis prediction using clinical, laboratory and radiomic features
Kaplan et al. PFP-LHCINCA: pyramidal fixed-size patch-based feature extraction and chi-square iterative neighborhood component analysis for automated fetal sex classification on ultrasound images
CN110544262A (zh) 一种基于机器视觉的子宫颈细胞图像分割方法
CN113705595A (zh) 异常细胞转移程度的预测方法、装置和存储介质
CN114926396B (zh) 一种精神障碍类磁共振图像初步筛查模型构建方法
CN113012776B (zh) 大规模不平衡糖尿病电子病历并行分类邻域证据Spark方法
CN112542244B (zh) 辅助信息的生成方法、相关装置及计算机程序产品
Gong et al. Unified ICH quantification and prognosis prediction in NCCT images using a multi-task interpretable network
CN115239655A (zh) 一种甲状腺超声影像肿瘤分割分类方法及装置
CN114693043A (zh) 车用电池的健康状况评估方法、系统、电子设备和介质
Liu et al. Texture feature extraction from thyroid MR imaging using high-order derived mean CLBP
He et al. Fetal cardiac ultrasound standard section detection model based on multitask learning and mixed attention mechanism
Liu et al. Recognition of cervical precancerous lesions based on probability distribution feature guidance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant