CN112489038A

CN112489038A - 一种基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法

Info

Publication number: CN112489038A
Application number: CN202011499458.8A
Authority: CN
Inventors: 王丹; 张贤坤; 罗新
Original assignee: Tianjin University of Science and Technology
Current assignee: Tianjin University of Science and Technology
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2021-03-12

Abstract

基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法。该方法包括：首先构建模糊模型的形式化，其次对国际标准数据集威斯康乳腺癌数据集(Breast‑cancer‑wisconsin，BCW)进行数据预处理，然后通过模糊聚类算法(Fuzzy Clustering Method，FCM)构造模糊模型中模糊规则的前提部分，广义最小二乘法(Generalized Least Square，GLS)构造模糊模型中模糊规则的结论部分。最后该方法在国际标准数据上进行模拟测试，并同其它两种乳腺癌诊断方法进行比较，实验结果显示本发明提供的方法优于其它两种乳腺癌诊断方法，提出的分类准确率更高，使得整体的诊断精度得到了提高。

Description

一种基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法

技术领域

本发明属于乳腺癌诊断技术领域，特别涉及一种基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法。

背景技术

通过计算机的技术对乳腺癌进行诊断，主要方法是根据数据集进行训练测试得到诊断的效果，如：该患者是良性还是恶性，乳腺癌能否复发等。利用计算机的技术进行乳腺癌的诊断，可以减轻医生人工诊断的负担，并且诊断结果可以用于参考，减少误判率。目前乳腺癌诊断已成为近年来医疗诊断领域的热点。

目前采用的乳腺癌诊断技术效率太低，应用于临床的系统也比较少，诊断结果也不是很理想。

发明内容

本发明的目的是为克服上述现有技术存在的缺点和不足，提供一种基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法。通过在国际标准数据集(Breast-cancer-wisconsin，BCW)上进行测试，并和其他两种乳腺癌诊断算法进行对比，该算法的整体诊断效果较优于其它两种乳腺癌诊断算法。

本发明技术方案：

基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法，包括以下步骤：

第1步、设计基于模糊聚类和广义最小二乘法的模糊模型的表示形式；

第2步、对国际标准数据集威斯康乳腺癌数据集(Breast-cancer-wisconsin，BCW)进行预处理，并将数据集分为训练集和测试集两个部分，其中训练集是用来进行训练模糊模型，测试集是用来进行测试模糊模型；

第3步、模糊模型中模糊规则的前提部分的构造是通过模糊聚类算法(FuzzyClustering Method，FCM)对训练集进行训练；

第4步、模糊模型中模糊规则的结论部分的构造通过广义最小二乘法(Generalized Least Square，GLS)估计多项式函数作为连接权值的参数系数；

第5步、根据构造出的模糊模型，对测试数据进行识别分类，并输出最终的诊断结果。

第1步中所述的基于模糊聚类和广义最小二乘法的模糊模型的表示形式具体过程：

给定一个多项式模糊模型，它包含了多个输入变量和n条模糊规则，则它的模糊规则库的表示形式为：

R¹：if x₁ is B₁₁ and...and x_n is B_1nthen z₁＝f₁(x₁，x₂，...，x_n)

R²：if x₂ is B₂₁ and...and x_n is B_2nthen z₂＝f₂(x₁，x₂，...，x_n)

……

Rⁿ：if x_n is B_n1 and...and x_n is B_nkthen z_n＝f_n(x₁，x₂，...，x_n)

其中，R^′(i＝1，2，...，n)表示第i条模糊规则，n表示模糊规则的总数；数据集X＝{x₁，x₂，...，x_m}，x_i(i＝1，2，...，n)表示第i行输入数据；B_ij(i＝1，2，...，n，j＝1，2，...，c)表示第i个模糊集属于第j类，c为聚类中心点的个数，f_i(x₁，x₂，...，x_n)表示第i条模型规则的输出多项式，z_i表示第i条模型规则的输出多项式；

模糊模型的输出多项式类型表达式z_i＝f_i(x₁，x₂，...，x_n)(i＝1，2，...，n)：

f_j＝b_j0+b_j1(x₁-v_1j)+…+b_jk(x_k-v_kj)+b_j(k+1)(x₁-v_1j)²+…+b_j(2k)(x_k-v_kj)²

+b_j(2k+1)(x₁-v_1j)(x₂-v_2j)+…+b_{j((k+2)(k+1)/2)}(x_k-1-v_(k-1)j)(x_k-v_kj)

其中f_j表示第j条规则的多项式，b_ji表示第j行第i列输入数据的系数，v_ij表示第i个聚类中心第j个输入变量的中心点，v_ij的值通过第3.2步模糊聚类算法(FuzzyClustering Method，FCM)获得。

第2步中所述的数据预处理包含以下步骤：

第2.1步、训练集和测试集的划分标准：采用随机抽样法获取训练集和测试集。

第2.2步、数值化：国际标准数据集威斯康乳腺癌数据(Breast-cancer-wisconsin，BCW)，该数据集有9个属性，分类2类，共286个实例。由于原始数据集中的部分数据是字符型，为了满足实验数据，需要将字符型转换成数值类型；

第2.3步、标签化：威斯康乳腺癌数据集(Breast-cancer-wisconsin，BCW)数据集，它包含两个类别，分别为recurrence-events和no-recurrence-events，标签化为0和1；

第3步中所述的模糊模型中模糊规则的前提部分的构造包含以下步骤：

第3.1步、选择模糊模型的输入变量x_i(i＝1，2，...，m，m＜＝N)，其中N是输入变量的最总个数，x_i表示第i行输入数据；

第3.2步、利用模糊聚类算法(Fuzzy Clustering Method，FCM)对数据集中每个选出的输入变量x_i进行聚类，获得第i个聚类中心B_i；

第3.2.1步、初始化聚类中心点的数量和隶属矩阵U^(r)：

其中，r是迭代次数，U^(r)表示第r次迭代隶属矩阵U的值，u_iq表示第i个聚类中心点第q个数据点的值，c是聚类中心点的数量，N是数据点的个数。

第3.2.2步、计算每个子类的中心向量S_i和隶属值u_iq；

其中，

表示第r次迭代第i个子类的中心点向量，

表示第r次迭代第i个聚类中心第j个输入变量的中心点向量，f＝2，x是数据集，X_k表示第k行输入数据，

表示第r次迭代第j个子类的中心点向量；

第3.2.3步、更新隶属矩阵，通过欧几里德距离来进行计算：

其中，d_iq表示第i个聚类中心第q个数据点距离聚类中心的距离，X_q表示第q行输入数据，l表示模糊模型输入变量个数，x_qj表示第q行第j列的输入数据；

第3.2.4步、判断终止条件。如果||U^(r+1)-U^(r)||足够小，则算法结束；否则令r＝r+1并返回第3.2.2步；

其中，U^(r+1)表示第r+1次迭代矩阵U的值，U^(r)表示第r次迭代矩阵U的值，指定最大迭代次数MaxIter＝50；

第3.3步、获得模糊模型中模糊规则的前提部分。根据每个输入变量，得到每条模糊规则，在此基础上获得整个模糊模型的模糊规则前提部分。

第4步中所述的模糊模型中模糊规则的结论部分的构造具体过程：

估算多项式表达式的系数。采用广义最小二乘法(Generalized Least Square，GLS)来估算表达式的系数。模糊模型的输出Y和系数b的值是通过如下公式获得：

b＝(X^TX)^-1X^TY

其中b表示多项式的系数，X表示输入数据矩阵，X^T表示矩阵X的转置，(X^TX)^-1是X^TX的逆矩阵，Y表示输出；

根据基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法进行分类，并将最终的分类结果作为最终的识别结果。所述的方法是：根据构造出的模糊模型，对测试数据进行识别，并输出最终的诊断结果。

本发明的优点和有益效果：

本发明首先将构造的模糊模型来进行乳腺癌诊断分类。模糊模型中模糊规则的构造包括前提和结论两部分，其中前提部分的构造基于模糊聚类算法(Fuzzy ClusteringMethod，FCM)，结论部分的构造则基于广义最小二乘法(Generalized Least Square，GLS)。在测试集上进行分类并识别出最终结果。该发明与传统的方法相比，提高了准确率，使得乳腺癌诊断效果得到了提升。

附图说明

图1是本发明基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法的算法流程图；

图2是国际标准数据集(威斯康乳腺癌数据集(Breast-cancer-wisconsin，BCW))预处理流程图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步的详细说明。

下面用模糊聚类算法(Fuzzy Clustering Method，FCM)和广义最小二乘法(Generalized Least Square，GLS)对模糊模型中模糊规则的前提和结论的构造对本发明的方法做具体说明。

图1对本发明提供的基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法进行了详细步骤说明，本发明提供的方法包括以下步骤：

……

Rⁿ：if x_n is B_n1 and...and x_n is B_nk then z_n＝f_n(x₁，x₂，...，x_n)

其中，Rⁱ(i＝1，2，...，n)表示第i条模糊规则，n表示模糊规则的总数；数据集X＝{x₁，x₂，...，x_m}，x_i(i＝1，2，...，n)表示第i行输入数据；B_ij(i＝1，2，...，n，j＝1，2，...，c)表示第i个模糊集属于第j类，c为聚类中心点的个数，f_i(x₁，x₂，...，x_n)表示第i条模型规则的输出多项式，z_i表示第i条模型规则的输出多项式；

如图2所示，本发明中威斯康乳腺癌数据集(Breast-cancer-wisconsin，BCW)数据集预处理主要包括以下步骤：

第2.1步、训练集和测试集的划分标准：采用随机抽样法获取训练集和测试集。随机抽取5次，每次抽取的60％样本作为训练集(包含174个样本)，剩下的40％样本(包含115个样本)作为测试集。这样一共可以获得5对训练集和测试集，分别记作Train_1，Train_2，Train_3，Train_4，Train_5；Test_1，Test_2，Test_3，Test_4，Test_5；

第2.2步、数值化：将符号类型数据变换为数值类型。在威斯康乳腺癌数据集(Breast-cancer-wisconsin，BCW)数据集中，共2大类，9个属性(特征)，共289个样本。2大类别分别是乳腺癌复发(recurrence-events)和未复发(no-recurrence-events)，9个特征分别是age，menopause，tumor-size，inv-nodes，node-caps，deg-malig，breast，breast-quad，irradiat。为了满足本发明分类算法的数据要求，需要对这些符号型变量进行数值化，变换为数值类型数据，如表1.1所示：

表1.1类别和属性的数值转换表

第2.3步、标签化：将威斯康乳腺癌数据集(Breast-cancer-wisconsin，BCW)数据集进行数据标签化，可以提升分类模型的精度。数据标签化如表1.2所示。

表1.2数据标签化

如图1所示，图1为本发明提供分类模糊模型的乳腺癌诊断方法的算法流程图。通过训练集的输入，构造模糊模型模糊规则库的前提部分和结论部分。

模糊模型的模糊规则前提部分的构造主要包含以下步骤：

第3.2.1步、初始化聚类中心点的数量和隶属矩阵U^(r)：

其中，r是迭代次数，U^(r)表示第r次迭代隶属矩阵U的值，u_iq表示第i个聚类中心点第q个数据点的值，c是聚类中心点的数量，N是数据点的个数；

第3.2.2步、计算每个子类的中心向量S_i和隶属值u_iq；

其中，

表示第r次迭代第i个子类的中心点向量，

表示第r次迭代第i个聚类中心第j个输入变量的中心点向量，f＝2，，x是数据集，X_k表示第k行输入数据，

表示第r次迭代第j个子类的中心点向量；

第3.2.3步、更新隶属矩阵，通过欧几里德距离来进行计算：

模糊模型模糊规则结论部分的构造过程是：

b＝(X^TX)^-1X^TY

其中b表示多项式的系数，X表示输入数据矩阵，X^T表示矩阵X的转置，(X^TX)^-1是X^TX的逆矩阵，Y表示输出。

第5步、根据构造出的模糊模型，对测试数据进行分类，并输出最终的诊断结果。

其中，分类模糊模型的参数设置如下：模糊规则的数量设定为10，模糊隶属度函数个数设定为2。

我们将本发明所提供的方法的乳腺癌诊断准确率与支持向量机分类器(SVM)、K近邻算法(K-nearst neighbors，KNN)两种方法进行对比，实验结果如表1所示。

实验结果表明，本发明的乳腺癌诊断准确率在多数情况下优于其他两种乳腺癌诊断方法。

表1.在国际标准数据集正确检测率的比较

测试样本	SVM	KNN	FCM+GLS
				Test_1	88.70	87.50	95.35
Test_2	88.65	87.55	95.38
				Test_3	88.68	87.45	95.30
Test_4	89.15	87.10	95.33
				Test_5	88.64	87.65	95.36

Claims

1.基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法，其特征包括以下步骤：

第4步、模糊模型中模糊规则的结论部分的构造通过广义最小二乘法(GeneralizedLeast Square，GLS)估计多项式函数作为连接权值的参数系数；

2.根据权利要求1所述的基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法，其特征在于：第1步中所述的基于模糊聚类和广义最小二乘法的模糊模型的表示形式具体过程如下：

R¹：if x₁is B₁₁and...and x_nis B_1nthen z₁＝f₁(x₁，x₂，...，x_n)

R²：if x₂is B₂₁and...and x_nis B_2nthen z₂＝f₂(x₁，x₂，...，x_n)

……

Rⁿ：if x_nis B_n1and...and x_nis B_nkthen z_n＝f_n(x₁，x₂，...，x_n)

f_j＝b_j0+b_j1(x₁-v_1j)+…+b_jk(x_k-v_kj)+b_j(k+1)(x₁-v_1j)²+…+b_j(2k)(x_k-v_kj)²+b_j(2k+1)(x₁-v_1j)(x₂-v_2j)+…+b_{j((k+2)(k+1)/2)}(x_k-1-v_(k-1)j)(x_k-v_kj)

其中f_j表示第j条规则的多项式，b_ji表示第j行第i列输入数据的系数，v_ij表示第i个聚类中心第j个输入变量的中心点，v_ij的值通过第3.2步模糊聚类算法(Fuzzy ClusteringMethod，FCM)获得。

3.根据权利要求1所述的基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法，其特征在于：第2步中所述的数据预处理的方法是：

第2.1步、训练集和测试集的划分标准：采用随机抽样法获取训练集和测试集；

第2.2步、数值化：国际标准数据集威斯康乳腺癌数据(Breast-cancer-wisconsin，BCW)中的数据，部分特征的数据是字符型，为了满足实验数据，需要将字符型转换成数值类型；

第2.3步、标签化：威斯康乳腺癌数据集(Breast-cancer-wisconsin，BCW)数据集，它包含两个类别，分别为recurrence-events和no-recurrence-events，标签化为0和1。

4.根据权利要求1所述的基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法，其特征在于：第3步中所述的模糊模型中模糊规则的前提部分的构造方法：

第3.1步、选择模糊模型的输入变量x_i(i＝1，2，...，m，m＜＝N)，其中N是输入变量的最总个数，x_i表示第i行输入数据。

第3.2.1步、初始化聚类中心点的数量和隶属矩阵U^(r)：

第3.2.2步、计算每个子类的中心向量S_i和隶属值u_iq；

其中，

表示第r次迭代第i个子类的中心点向量，

表示第r次迭代第i个聚类中心第j个输入变量的中心点向量，f是模糊化系数并且f大于1，x是数据集，X_k表示第k行输入数据，

表示第r次迭代第j个子类的中心点向量。

第3.2.3步、更新隶属矩阵，通过欧几里德距离来进行计算：

其中，U^(r+1)表示第r+1次迭代矩阵U的值，U(r)表示第r次迭代矩阵U的值，指定最大迭代次数MaxIter＝50；

5.根据权利要求1所述的基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法，其特征在于：第4步中所述的模糊模型中模糊规则的结论部分的构造具体方法如下：

b＝(X^TX)^-1X^TY

6.根据权利要求1所述的基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法，其特征在于：第5步中所述的方法是：根据构造出的模糊模型，对测试数据进行识别，并输出最终的诊断结果。