CN112163133B

CN112163133B - 一种基于多粒度证据邻域粗糙集的乳腺癌数据分类方法

Info

Publication number: CN112163133B
Application number: CN202011023382.1A
Authority: CN
Inventors: 鞠恒荣; 李铭; 丁卫平; 曹金鑫; 黄嘉爽; 周子洵; 张毅
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2021-10-08
Anticipated expiration: 2040-09-25
Also published as: CN112163133A

Abstract

本发明提供了一种基于多粒度证据邻域粗糙集的乳腺癌数据分类方法，包括如下步骤：S10采集乳腺癌数据集，并将所述乳腺癌数据集分为训练数据集和测试数据集；S20在所述训练数据集上构建多粒度数据；S30在不同粒度的所述病理特征约简集合下预测所述测试数据的类别标签集合；S40根据投票机制得到所述测试数据集中票数最多的类别标签，获得乳腺癌数据分类结果。本发明的一种基于多粒度证据邻域粗糙集的乳腺癌数据分类方法，去除了冗余属性压缩乳腺癌数据规模，同时在分类过程中，将证据理论引入邻域粗糙分类，充分地利用了样本之间的紧密性，提升了对乳腺癌数据分类的效率和精度，对乳腺癌智能辅助分类具有较强的应用价值。

Description

一种基于多粒度证据邻域粗糙集的乳腺癌数据分类方法

技术领域

本发明涉及智慧医疗技术领域，具体涉及一种基于多粒度证据邻域粗糙集的乳腺癌数据分类方法。

背景技术

乳腺癌(breast cancer)是乳腺上皮细胞在多种致癌因子的作用下，发生增殖失控的现象。疾病早期常表现为乳房肿块、乳头溢液、腋窝淋巴结肿大等症状，晚期可因癌细胞发生远处转移，出现多器官病变，直接威胁患者的生命。近年来，我国乳腺癌的发病率呈逐年上升趋势，每年有30余万女性被诊断出乳腺癌。由于癌细胞的无限制的增殖能力，乳腺癌越早发现越好，早期的乳腺癌治愈几率也较大。判断乳腺癌病变状况的有效办法是通过乳腺癌细胞的病理特征实验，然而实验却需要几十种细胞的病理特征实验结合在一起。这会导致实验测试数据属性过多和数据量大，也会增加医生对乳腺癌患者的病变情况的判断方面的工作量。如何有效分析患者的乳腺癌病变信息和帮助医生有效地分析患者乳腺癌病变的症状，亟需一种新的方法能有效地减少乳腺癌数据分类信息中冗余的属性，降低乳腺癌数据的检测时间和提高检测效率，有效进行乳腺癌数据分类的筛查和分析。

发明内容

为了解决上述问题，本发明提供一种基于多粒度证据邻域粗糙集的乳腺癌数据分类方法，去除冗余属性压缩乳腺癌数据规模，同时在分类过程中，将证据理论引入邻域粗糙分类，充分地利用了样本之间的紧密性，提升了对乳腺癌数据分类的效率和精度，对乳腺癌智能辅助分类具有较强的应用价值。

为了实现以上目的，本发明采取的一种技术方案是：

一种基于多粒度证据邻域粗糙集的乳腺癌数据分类方法，包括如下步骤： S10采集乳腺癌数据集，并将所述乳腺癌数据集按照8:2的比例划分为训练数据集和测试数据集，同时将所述乳腺癌数据集转换为一个四元组决策信息系统；S20在所述训练数据集上构建多粒度数据，在不同粒度上通过邻域决策错误率的病理特征约简算法得到病理特征约简集合；S30在不同粒度的所述病理特征约简集合下通过证据理论驱动的邻域粗糙分类器预测所述测试数据的类别标签集合；S40根据投票机制得到所述测试数据集中票数最多的类别标签，获得乳腺癌数据分类结果。

进一步地，所述决策信息系统S＝<U,C∪D,V,f>，其中，U＝{x₁,x₂,...,x_N}表示乳腺癌数据集中的乳腺癌患者对象集合，N表示乳腺癌患者的个数；C＝{a₁,a₂,...,a_n} 表示乳腺癌患者细胞病理特征的非空有限集合，n表示乳腺癌患者细胞病理特征的个数；D＝{d₁,d₂,...,d_m}表示乳腺癌患者决策属性的非空有限集合，m表示乳腺癌患者病决策属性的个数，且

V＝∪_a∈C∪DV_a，V_a是乳腺癌患者细胞病理特征a的可能情况；f:U×C∪D→V是一个信息函数，它为每个乳腺癌患者细胞病理特征a赋予一个信息值，

进一步地，所述步骤S20将所述训练数据集S₁＝〈U₁,C∪D,V₁,f〉按照乳腺癌患者对象

划分成不同粒度集合S₁＝{S₁₁,S₁₂,...,S_1h}形成所述多粒度数据，且满足

其中

h是粒度层数，w≠e， w＝1,2,...,h，e＝1,2,...,h，然后在不同粒度集合{S₁₁,...,S_1w,...,S_1h}上构建邻域决策错误率的病理特征约简器得到乳腺癌患者不同粒度病理特征约简集合 {R₁，...，R_w，...，R_h}。

进一步地，所述步骤S30包括如下步骤：S31在训练数据集的子集S_1w上，计算乳腺癌患者根据所述类别标签划分的决策类π_w＝{E_w1,E_w2,...,E_wr}和乳腺癌类别标签L＝{l_w1,l_w2,...,l_wr}，r是乳腺癌类别标签个数，决策类划分计算公式如下：

π_w＝U_1w/IND(D)＝{[x]_D|x∈U_1w}

其中，[x]_D表示等价类，[x]_D＝{x'∈U_1w|(x,x')∈IND(D)}；S32计算乳腺癌患者x_i乳腺癌患者细胞病理特征集C的邻域空间δ_C(x_i)，其计算公式如下所示：

δ_C(x_i)＝{x_j|x_j∈U_1w,Δ_C(x_i,x_j)≤δ}(i,j＝1,2,...,N_1w)

其中，

Δ_B为基于乳腺癌患者细胞病理特征集C上乳腺癌患者x_i和x_j之间的距离函数，常用欧氏距离表示，δ为距离阈值，δ＝0.95；S33计算乳腺癌患者x_i在乳腺癌类别标签l_ws下的类别概率为P(l_ws|δ_C(x_i))，若P(l_wt|δ_c(x_i))＝max_s P(l_ws|δ_c(x_i))(s＝1,2,……r,i＝1,2,……,N_1w)，则乳腺癌患者x_i的类别标签记为l_wt，表示为 ND(x_i)＝l_ws，当乳腺癌患者x_i的预测类别标记ND(x_i)与真实样本类别标记l(x_i)相同时，可得到ND(x_i)＝l(x_i)＝l_ws；S34计算乳腺癌患者x_i误分类的损失函数，其定义如下：

S35计算乳腺癌患者x_i邻域错误率，其计算公式如下：

S36计算乳腺癌细胞病理特征集中每个病理特征a_k∈C-R_w(k＝1,2,...,n)相对于病理特征约简子集R_w的重要度

按照重要度从大到小的顺序得到候选病理特征集{a₁',a'₂,...,a'_n}；S37将候选病理特征集中最大重要度对应的病理特征a'_k将入病理特征约简子集R_w，并将病理特征a'_k从候选病理特征集中移除，直到

输出病理特征约简子集R_w；S38在粒度为w的病理特征约简子集R_w上，通过证据理论驱动的邻域粗糙分类器对测试数据集 S₂＝<U₂,C∪D,V₂,f>中的待测乳腺癌患者对象

进行划分，同时根据多粒度框架下的病理特征约简集合{R₁，...，R_w，...，R_h}将测试数据集S₂划分成不同粒度集合S₂＝{S₂₁,S₂₂,...,S_2h}且S_2w＝〈U₂,R_w∪D,V_2w,f〉(w＝1,2,...,h)；

S39计算待测乳腺癌患者的邻域空间中关于训练数据集中乳腺癌患者及其决策类划分的证据信息，后将不同类别标签的证据信息进行聚合，计算待测乳腺癌患者对某一决策类划分的信任函数和似然函数，最后根据最大信任函数值预测待测乳腺癌患者的类别标签。

进一步地，所述步骤S39包括如下步骤：S391计算基于病理特征约简子集R_w的测试数据集S₂＝〈U₂,C∪D,V₂,f>中待测乳腺癌患者y_b(b＝1,2,...,N₂)与训练数据集S_1w中乳腺癌患者x_i(i＝1,2,...,N_1w)之间的距离

S392根据距离

计算待测乳腺癌患者y_b的邻域

S393计算待测乳腺癌患者y_b与乳腺癌患者x_i之间的证据信息，如果乳腺癌患者x_i的类别标签为l_ws和决策类划分为E_ws，那么(x_i,E_ws)可作为一个独立的支持对待测乳腺癌患者y_b进行分类的证据，其所包含的证据信息定义如下：

M^b,i(π_w)＝1-α

其中，0＜α₀＜1，γ_s＞0，Δ表示径向基函数核距离；S394计算待测乳腺癌患者y_b的邻域

中类别标签为l_ws的样本集

所述样本集

对y_b的证据支持可表示为

即：

S395计算待测乳腺癌患者y_b在不同类别标签下的证据信息

并对证据信息进行聚合操作，则可得到y_b邻域

中所有对象提供的证据支持

其可具体表示为：

其中，K为归一化因子，其表达式如下所示：

S396计算待测乳腺癌患者y_b对决策类划分π_w＝{E_w1,E_w2,...,E_wr}中某一类E_ws的信任函数Bel^b({E_ws})和似然函数Pl^b({E_ws})，具体定义如下：

Bel^b({E_ws})＝M^b({E_ws})

Pl^b({E_ws})＝M^b({E_ws})+M^b(π_w)

S397根据待测乳腺癌患者y_b的信任函数Bel^b可得到y_b的类别标签ω，其定义如下：

本发明的上述技术方案相比现有技术具有以下优点：

本发明的一种基于多粒度证据邻域粗糙集的乳腺癌数据分类方法，首先通过邻域决策错误率的病理特征约简算法去除乳腺癌数据中的冗余属性并压缩乳腺癌数据规模。最后，在分类的过程中，将证据理论引入邻域粗糙分类方法中，考虑到不同数据的分布情况，以及充分地利用了样本之间的紧密性，提升了对乳腺癌数据分类的效率和精度，对乳腺癌智能辅助分类具有较强的应用价值。

附图说明

下面结合附图，通过对本发明的具体实施方式详细描述，将使本发明的技术方案及其有益效果显而易见。

图1所示为本发明一实施例的基于多粒度证据邻域粗糙集的乳腺癌数据分类方法流程图；

图2所示为本发明一实施例的基于多粒度证据邻域粗糙集的乳腺癌数据分类方法框图；

图3所示为本发明一实施例的基于邻域决策错误率的病理特征约简的具体流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供了一种基于多粒度证据邻域粗糙集的乳腺癌数据分类方法，如图1～2所示，包括如下步骤：S10采集乳腺癌数据集，并将所述乳腺癌数据集按照8:2的比例划分为训练数据集和测试数据集，同时将所述乳腺癌数据集转换为一个四元组决策信息系统。S20在所述训练数据集上构建多粒度数据，在不同粒度上通过邻域决策错误率的病理特征约简算法得到病理特征约简集合。S30在不同粒度的所述病理特征约简集合下通过证据理论驱动的邻域粗糙分类器预测所述测试数据的类别标签集合。S40根据投票机制得到所述测试数据集中票数最多的类别标签，获得乳腺癌数据分类结果。

所述决策信息系统S＝<U,C∪D,V,f>，其中，U＝{x₁,x₂,...,x_N}表示乳腺癌数据集中的乳腺癌患者对象集合，N表示乳腺癌患者的个数；C＝{a₁,a₂,...,a_n}表示乳腺癌患者细胞病理特征的非空有限集合，n表示乳腺癌患者细胞病理特征的个数； D＝{d₁,d₂,...,d_m}表示乳腺癌患者决策属性的非空有限集合，m表示乳腺癌患者病决策属性的个数，且

V＝∪_a∈C∪DV_a，V_a是乳腺癌患者细胞病理特征a的可能情况；f:U×C∪D→V是一个信息函数，它为每个乳腺癌患者细胞病理特征 a赋予一个信息值，

所述步骤S20将所述训练数据集S₁＝<U₁,C∪D,V₁,f>按照乳腺癌患者对象

其中

h是粒度层数，w≠e，w＝1,2,...,h， e＝1,2,...,h，然后在不同粒度集合{S₁₁,...,S_1w,...,S_1h}上构建邻域决策错误率的病理特征约简器得到乳腺癌患者不同粒度病理特征约简集合{R₁，...，R_w，...，R_h}。

所述步骤S30包括如下步骤：S31在训练数据集的子集S_1w上，计算乳腺癌患者根据所述类别标签划分的决策类π_w＝{E_w1,E_w2,...,E_wr}和乳腺癌类别标签 L＝{l_w1,l_w2,...,l_wr}，r是乳腺癌类别标签个数，决策类划分计算公式如下：

π_w＝U_1w/IND(D)＝{[x]_D|x∈U_1w}

其中，[x]_D表示等价类，[x]_D＝{x'∈U_1w|(x,x')∈IND(D)}。

S32计算乳腺癌患者x_i乳腺癌患者细胞病理特征集C的邻域空间δ_C(x_i)，其计算公式如下所示：

δ_C(x_i)＝{x_j|x_j∈U_1w,Δ_C(x_i,x_j)≤δ}(i,j＝1,2,...,N_1w)

其中，

Δ_B为基于乳腺癌患者细胞病理特征集C上乳腺癌患者x_i和x_j之间的距离函数，常用欧氏距离表示，δ为距离阈值，δ＝0.95；

S33计算乳腺癌患者x_i在乳腺癌类别标签l_ws下的类别概率为P(l_ws|δ_C(x_i))，若P(l_wt|δ_c(x_i))＝max_s P(l_ws|δ_c(x_i))(s＝1,2,……r,i＝1,2,……,N_1w)，则乳腺癌患者x_i的类别标签记为l_wt，表示为ND(x_i)＝l_ws，当乳腺癌患者x_i的预测类别标记ND(x_i)与真实样本类别标记l(x_i)相同时，可得到ND(x_i)＝l(x_i)＝l_ws；

S34计算乳腺癌患者x_i误分类的损失函数，其定义如下：

S35计算乳腺癌患者x_i邻域错误率，其计算公式如下：

如图3所示，S36计算乳腺癌细胞病理特征集中每个病理特征 a_k∈C-R_w(k＝1,2,...,n)相对于病理特征约简子集R_w的重要度

按照重要度从大到小的顺序得到候选病理特征集{a₁',a'₂,...,a'_n}；

S37将候选病理特征集中最大重要度对应的病理特征a'_k将入病理特征约简子集Rw，即SIG(a'_k,R_w,D)＞0，并将病理特征a'_k从候选病理特征集中移除，直到

输出病理特征约简子集R_w；

S38在粒度为w的病理特征约简子集R_w上，通过证据理论驱动的邻域粗糙分类器对测试数据集S₂＝<U₂,C∪D,V₂,f>中的待测乳腺癌患者对象

进行划分，同时根据多粒度框架下的病理特征约简集合 {R₁，...，R_w，...，R_h}将测试数据集S₂划分成不同粒度集合S₂＝{S₂₁,S₂₂,...,S_2h}且 S_2w＝＜U₂,R_w∪D,V_2w,f＞(w＝1,2,...,h)；

所述步骤S39包括如下步骤：S391计算基于病理特征约简子集R_w的测试数据集S₂＝＜U₂,C∪D,V₂,f＞中待测乳腺癌患者y_b(b＝1,2,...,N₂)与训练数据集S_1w中乳腺癌患者x_i(i＝1,2,...,N_1w)之间的距离

S392根据距离

计算待测乳腺癌患者y_b的邻域

M^b,i(π_w)＝1-α

其中，0＜α₀＜1，γ_s＞0，Δ表示径向基函数核距离；

S394计算待测乳腺癌患者y_b的邻域

中类别标签为l_ws的样本集

所述样本集

对y_b的证据支持可表示为

即：

S395计算待测乳腺癌患者y_b在不同类别标签下的证据信息

并对证据信息进行聚合操作，则可得到y_b邻域

中所有对象提供的证据支持

其可具体表示为：

其中，K为归一化因子，其表达式如下所示：

Bel^b({E_ws})＝M^b({E_ws})

Pl^b({E_ws})＝M^b({E_ws})+M^b(π_w)

以上所述仅为本发明的示例性实施例，并非因此限制本发明专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于多粒度证据邻域粗糙集的乳腺癌数据分类方法，其特征在于，包括如下步骤：

S10采集乳腺癌数据集，并将所述乳腺癌数据集按照8:2的比例划分为训练数据集和测试数据集，同时将所述乳腺癌数据集转换为一个四元组决策信息系统；

S20在所述训练数据集上构建多粒度数据，在不同粒度上通过邻域决策错误率的病理特征约简算法得到病理特征约简集合；

S30在不同粒度的所述病理特征约简集合下通过证据理论驱动的邻域粗糙分类器预测所述测试数据的类别标签集合；

S40根据投票机制得到所述测试数据集中票数最多的类别标签，获得乳腺癌数据分类结果；

其中，所述决策信息系统S＝<U,C∪D,V,f>，其中，U＝{x₁,x₂,...,x_N}表示乳腺癌数据集中的乳腺癌患者对象集合，N表示乳腺癌患者的个数；C＝{a₁,a₂,...,a_n}表示乳腺癌患者细胞病理特征的非空有限集合，n表示乳腺癌患者细胞病理特征的个数；D＝{d₁,d₂,...,d_m}表示乳腺癌患者决策属性的非空有限集合，m表示乳腺癌患者决策属性的个数，且