CN112489038A - 一种基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法 - Google Patents

一种基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法 Download PDF

Info

Publication number
CN112489038A
CN112489038A CN202011499458.8A CN202011499458A CN112489038A CN 112489038 A CN112489038 A CN 112489038A CN 202011499458 A CN202011499458 A CN 202011499458A CN 112489038 A CN112489038 A CN 112489038A
Authority
CN
China
Prior art keywords
fuzzy
data
model
representing
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011499458.8A
Other languages
English (en)
Inventor
王丹
张贤坤
罗新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University of Science and Technology
Original Assignee
Tianjin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University of Science and Technology filed Critical Tianjin University of Science and Technology
Priority to CN202011499458.8A priority Critical patent/CN112489038A/zh
Publication of CN112489038A publication Critical patent/CN112489038A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30068Mammography; Breast
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30096Tumor; Lesion

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法。该方法包括:首先构建模糊模型的形式化,其次对国际标准数据集威斯康乳腺癌数据集(Breast‑cancer‑wisconsin,BCW)进行数据预处理,然后通过模糊聚类算法(Fuzzy Clustering Method,FCM)构造模糊模型中模糊规则的前提部分,广义最小二乘法(Generalized Least Square,GLS)构造模糊模型中模糊规则的结论部分。最后该方法在国际标准数据上进行模拟测试,并同其它两种乳腺癌诊断方法进行比较,实验结果显示本发明提供的方法优于其它两种乳腺癌诊断方法,提出的分类准确率更高,使得整体的诊断精度得到了提高。

Description

一种基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断 方法
技术领域
本发明属于乳腺癌诊断技术领域,特别涉及一种基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法。
背景技术
通过计算机的技术对乳腺癌进行诊断,主要方法是根据数据集进行训练测试得到诊断的效果,如:该患者是良性还是恶性,乳腺癌能否复发等。利用计算机的技术进行乳腺癌的诊断,可以减轻医生人工诊断的负担,并且诊断结果可以用于参考,减少误判率。目前乳腺癌诊断已成为近年来医疗诊断领域的热点。
目前采用的乳腺癌诊断技术效率太低,应用于临床的系统也比较少,诊断结果也不是很理想。
发明内容
本发明的目的是为克服上述现有技术存在的缺点和不足,提供一种基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法。通过在国际标准数据集(Breast-cancer-wisconsin,BCW)上进行测试,并和其他两种乳腺癌诊断算法进行对比,该算法的整体诊断效果较优于其它两种乳腺癌诊断算法。
本发明技术方案:
基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法,包括以下步骤:
第1步、设计基于模糊聚类和广义最小二乘法的模糊模型的表示形式;
第2步、对国际标准数据集威斯康乳腺癌数据集(Breast-cancer-wisconsin,BCW)进行预处理,并将数据集分为训练集和测试集两个部分,其中训练集是用来进行训练模糊模型,测试集是用来进行测试模糊模型;
第3步、模糊模型中模糊规则的前提部分的构造是通过模糊聚类算法(FuzzyClustering Method,FCM)对训练集进行训练;
第4步、模糊模型中模糊规则的结论部分的构造通过广义最小二乘法(Generalized Least Square,GLS)估计多项式函数作为连接权值的参数系数;
第5步、根据构造出的模糊模型,对测试数据进行识别分类,并输出最终的诊断结果。
第1步中所述的基于模糊聚类和广义最小二乘法的模糊模型的表示形式具体过程:
给定一个多项式模糊模型,它包含了多个输入变量和n条模糊规则,则它的模糊规则库的表示形式为:
R1:if x1 is B11 and...and xn is B1nthen z1=f1(x1,x2,...,xn)
R2:if x2 is B21 and...and xn is B2nthen z2=f2(x1,x2,...,xn)
……
Rn:if xn is Bn1 and...and xn is Bnkthen zn=fn(x1,x2,...,xn)
其中,R(i=1,2,...,n)表示第i条模糊规则,n表示模糊规则的总数;数据集X={x1,x2,...,xm},xi(i=1,2,...,n)表示第i行输入数据;Bij(i=1,2,...,n,j=1,2,...,c)表示第i个模糊集属于第j类,c为聚类中心点的个数,fi(x1,x2,...,xn)表示第i条模型规则的输出多项式,zi表示第i条模型规则的输出多项式;
模糊模型的输出多项式类型表达式zi=fi(x1,x2,...,xn)(i=1,2,...,n):
fj=bj0+bj1(x1-v1j)+…+bjk(xk-vkj)+bj(k+1)(x1-v1j)2+…+bj(2k)(xk-vkj)2
+bj(2k+1)(x1-v1j)(x2-v2j)+…+bj((k+2)(k+1)/2)(xk-1-v(k-1)j)(xk-vkj)
其中fj表示第j条规则的多项式,bji表示第j行第i列输入数据的系数,vij表示第i个聚类中心第j个输入变量的中心点,vij的值通过第3.2步模糊聚类算法(FuzzyClustering Method,FCM)获得。
第2步中所述的数据预处理包含以下步骤:
第2.1步、训练集和测试集的划分标准:采用随机抽样法获取训练集和测试集。
第2.2步、数值化:国际标准数据集威斯康乳腺癌数据(Breast-cancer-wisconsin,BCW),该数据集有9个属性,分类2类,共286个实例。由于原始数据集中的部分数据是字符型,为了满足实验数据,需要将字符型转换成数值类型;
第2.3步、标签化:威斯康乳腺癌数据集(Breast-cancer-wisconsin,BCW)数据集,它包含两个类别,分别为recurrence-events和no-recurrence-events,标签化为0和1;
第3步中所述的模糊模型中模糊规则的前提部分的构造包含以下步骤:
第3.1步、选择模糊模型的输入变量xi(i=1,2,...,m,m<=N),其中N是输入变量的最总个数,xi表示第i行输入数据;
第3.2步、利用模糊聚类算法(Fuzzy Clustering Method,FCM)对数据集中每个选出的输入变量xi进行聚类,获得第i个聚类中心Bi
第3.2.1步、初始化聚类中心点的数量和隶属矩阵U(r)
Figure BSA0000228011890000031
其中,r是迭代次数,U(r)表示第r次迭代隶属矩阵U的值,uiq表示第i个聚类中心点第q个数据点的值,c是聚类中心点的数量,N是数据点的个数。
第3.2.2步、计算每个子类的中心向量Si和隶属值uiq
Figure BSA0000228011890000032
Figure BSA0000228011890000033
其中,
Figure BSA0000228011890000034
表示第r次迭代第i个子类的中心点向量,
Figure BSA0000228011890000035
表示第r次迭代第i个聚类中心第j个输入变量的中心点向量,f=2,x是数据集,Xk表示第k行输入数据,
Figure BSA0000228011890000036
表示第r次迭代第j个子类的中心点向量;
第3.2.3步、更新隶属矩阵,通过欧几里德距离来进行计算:
Figure BSA0000228011890000037
其中,diq表示第i个聚类中心第q个数据点距离聚类中心的距离,Xq表示第q行输入数据,l表示模糊模型输入变量个数,xqj表示第q行第j列的输入数据;
第3.2.4步、判断终止条件。如果||U(r+1)-U(r)||足够小,则算法结束;否则令r=r+1并返回第3.2.2步;
其中,U(r+1)表示第r+1次迭代矩阵U的值,U(r)表示第r次迭代矩阵U的值,指定最大迭代次数MaxIter=50;
第3.3步、获得模糊模型中模糊规则的前提部分。根据每个输入变量,得到每条模糊规则,在此基础上获得整个模糊模型的模糊规则前提部分。
第4步中所述的模糊模型中模糊规则的结论部分的构造具体过程:
估算多项式表达式的系数。采用广义最小二乘法(Generalized Least Square,GLS)来估算表达式的系数。模糊模型的输出Y和系数b的值是通过如下公式获得:
b=(XTX)-1XTY
其中b表示多项式的系数,X表示输入数据矩阵,XT表示矩阵X的转置,(XTX)-1是XTX的逆矩阵,Y表示输出;
根据基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法进行分类,并将最终的分类结果作为最终的识别结果。所述的方法是:根据构造出的模糊模型,对测试数据进行识别,并输出最终的诊断结果。
本发明的优点和有益效果:
本发明首先将构造的模糊模型来进行乳腺癌诊断分类。模糊模型中模糊规则的构造包括前提和结论两部分,其中前提部分的构造基于模糊聚类算法(Fuzzy ClusteringMethod,FCM),结论部分的构造则基于广义最小二乘法(Generalized Least Square,GLS)。在测试集上进行分类并识别出最终结果。该发明与传统的方法相比,提高了准确率,使得乳腺癌诊断效果得到了提升。
附图说明
图1是本发明基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法的算法流程图;
图2是国际标准数据集(威斯康乳腺癌数据集(Breast-cancer-wisconsin,BCW))预处理流程图。
具体实施方式
下面结合附图对本发明的具体实施方式做进一步的详细说明。
下面用模糊聚类算法(Fuzzy Clustering Method,FCM)和广义最小二乘法(Generalized Least Square,GLS)对模糊模型中模糊规则的前提和结论的构造对本发明的方法做具体说明。
图1对本发明提供的基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法进行了详细步骤说明,本发明提供的方法包括以下步骤:
第1步、设计基于模糊聚类和广义最小二乘法的模糊模型的表示形式;
给定一个多项式模糊模型,它包含了多个输入变量和n条模糊规则,则它的模糊规则库的表示形式为:
R1:if x1 is B11 and...and xn is B1nthen z1=f1(x1,x2,...,xn)
R2:if x2 is B21 and...and xn is B2nthen z2=f2(x1,x2,...,xn)
……
Rn:if xn is Bn1 and...and xn is Bnk then zn=fn(x1,x2,...,xn)
其中,Ri(i=1,2,...,n)表示第i条模糊规则,n表示模糊规则的总数;数据集X={x1,x2,...,xm},xi(i=1,2,...,n)表示第i行输入数据;Bij(i=1,2,...,n,j=1,2,...,c)表示第i个模糊集属于第j类,c为聚类中心点的个数,fi(x1,x2,...,xn)表示第i条模型规则的输出多项式,zi表示第i条模型规则的输出多项式;
模糊模型的输出多项式类型表达式zi=fi(x1,x2,...,xn)(i=1,2,...,n):
fj=bj0+bj1(x1-v1j)+…+bjk(xk-vkj)+bj(k+1)(x1-v1j)2+…+bj(2k)(xk-vkj)2
+bj(2k+1)(x1-v1j)(x2-v2j)+…+bj((k+2)(k+1)/2)(xk-1-v(k-1)j)(xk-vkj)
其中fj表示第j条规则的多项式,bji表示第j行第i列输入数据的系数,vij表示第i个聚类中心第j个输入变量的中心点,vij的值通过第3.2步模糊聚类算法(FuzzyClustering Method,FCM)获得。
第2步、对国际标准数据集威斯康乳腺癌数据集(Breast-cancer-wisconsin,BCW)进行预处理,并将数据集分为训练集和测试集两个部分,其中训练集是用来进行训练模糊模型,测试集是用来进行测试模糊模型;
如图2所示,本发明中威斯康乳腺癌数据集(Breast-cancer-wisconsin,BCW)数据集预处理主要包括以下步骤:
第2.1步、训练集和测试集的划分标准:采用随机抽样法获取训练集和测试集。随机抽取5次,每次抽取的60%样本作为训练集(包含174个样本),剩下的40%样本(包含115个样本)作为测试集。这样一共可以获得5对训练集和测试集,分别记作Train_1,Train_2,Train_3,Train_4,Train_5;Test_1,Test_2,Test_3,Test_4,Test_5;
第2.2步、数值化:将符号类型数据变换为数值类型。在威斯康乳腺癌数据集(Breast-cancer-wisconsin,BCW)数据集中,共2大类,9个属性(特征),共289个样本。2大类别分别是乳腺癌复发(recurrence-events)和未复发(no-recurrence-events),9个特征分别是age,menopause,tumor-size,inv-nodes,node-caps,deg-malig,breast,breast-quad,irradiat。为了满足本发明分类算法的数据要求,需要对这些符号型变量进行数值化,变换为数值类型数据,如表1.1所示:
表1.1类别和属性的数值转换表
Figure BSA0000228011890000061
第2.3步、标签化:将威斯康乳腺癌数据集(Breast-cancer-wisconsin,BCW)数据集进行数据标签化,可以提升分类模型的精度。数据标签化如表1.2所示。
表1.2数据标签化
Figure BSA0000228011890000062
如图1所示,图1为本发明提供分类模糊模型的乳腺癌诊断方法的算法流程图。通过训练集的输入,构造模糊模型模糊规则库的前提部分和结论部分。
第3步、模糊模型中模糊规则的前提部分的构造是通过模糊聚类算法(FuzzyClustering Method,FCM)对训练集进行训练;
模糊模型的模糊规则前提部分的构造主要包含以下步骤:
第3.1步、选择模糊模型的输入变量xi(i=1,2,...,m,m<=N),其中N是输入变量的最总个数,xi表示第i行输入数据;
第3.2步、利用模糊聚类算法(Fuzzy Clustering Method,FCM)对数据集中每个选出的输入变量xi进行聚类,获得第i个聚类中心Bi
第3.2.1步、初始化聚类中心点的数量和隶属矩阵U(r)
Figure BSA0000228011890000071
其中,r是迭代次数,U(r)表示第r次迭代隶属矩阵U的值,uiq表示第i个聚类中心点第q个数据点的值,c是聚类中心点的数量,N是数据点的个数;
第3.2.2步、计算每个子类的中心向量Si和隶属值uiq
Figure BSA0000228011890000072
Figure BSA0000228011890000073
其中,
Figure BSA0000228011890000074
表示第r次迭代第i个子类的中心点向量,
Figure BSA0000228011890000075
表示第r次迭代第i个聚类中心第j个输入变量的中心点向量,f=2,,x是数据集,Xk表示第k行输入数据,
Figure BSA0000228011890000076
表示第r次迭代第j个子类的中心点向量;
第3.2.3步、更新隶属矩阵,通过欧几里德距离来进行计算:
Figure BSA0000228011890000077
其中,diq表示第i个聚类中心第q个数据点距离聚类中心的距离,Xq表示第q行输入数据,l表示模糊模型输入变量个数,xqj表示第q行第j列的输入数据;
第3.2.4步、判断终止条件。如果||U(r+1)-U(r)||足够小,则算法结束;否则令r=r+1并返回第3.2.2步;
其中,U(r+1)表示第r+1次迭代矩阵U的值,U(r)表示第r次迭代矩阵U的值,指定最大迭代次数MaxIter=50;
第3.3步、获得模糊模型中模糊规则的前提部分。根据每个输入变量,得到每条模糊规则,在此基础上获得整个模糊模型的模糊规则前提部分。
第4步、模糊模型中模糊规则的结论部分的构造通过广义最小二乘法(Generalized Least Square,GLS)估计多项式函数作为连接权值的参数系数;
模糊模型模糊规则结论部分的构造过程是:
估算多项式表达式的系数。采用广义最小二乘法(Generalized Least Square,GLS)来估算表达式的系数。模糊模型的输出Y和系数b的值是通过如下公式获得:
b=(XTX)-1XTY
其中b表示多项式的系数,X表示输入数据矩阵,XT表示矩阵X的转置,(XTX)-1是XTX的逆矩阵,Y表示输出。
第5步、根据构造出的模糊模型,对测试数据进行分类,并输出最终的诊断结果。
其中,分类模糊模型的参数设置如下:模糊规则的数量设定为10,模糊隶属度函数个数设定为2。
我们将本发明所提供的方法的乳腺癌诊断准确率与支持向量机分类器(SVM)、K近邻算法(K-nearst neighbors,KNN)两种方法进行对比,实验结果如表1所示。
实验结果表明,本发明的乳腺癌诊断准确率在多数情况下优于其他两种乳腺癌诊断方法。
表1.在国际标准数据集正确检测率的比较
测试样本 SVM KNN FCM+GLS
Test_1 88.70 87.50 95.35
Test_2 88.65 87.55 95.38
Test_3 88.68 87.45 95.30
Test_4 89.15 87.10 95.33
Test_5 88.64 87.65 95.36

Claims (6)

1.基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法,其特征包括以下步骤:
第1步、设计基于模糊聚类和广义最小二乘法的模糊模型的表示形式;
第2步、对国际标准数据集威斯康乳腺癌数据集(Breast-cancer-wisconsin,BCW)进行预处理,并将数据集分为训练集和测试集两个部分,其中训练集是用来进行训练模糊模型,测试集是用来进行测试模糊模型;
第3步、模糊模型中模糊规则的前提部分的构造是通过模糊聚类算法(FuzzyClustering Method,FCM)对训练集进行训练;
第4步、模糊模型中模糊规则的结论部分的构造通过广义最小二乘法(GeneralizedLeast Square,GLS)估计多项式函数作为连接权值的参数系数;
第5步、根据构造出的模糊模型,对测试数据进行识别分类,并输出最终的诊断结果。
2.根据权利要求1所述的基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法,其特征在于:第1步中所述的基于模糊聚类和广义最小二乘法的模糊模型的表示形式具体过程如下:
给定一个多项式模糊模型,它包含了多个输入变量和n条模糊规则,则它的模糊规则库的表示形式为:
R1:if x1is B11and...and xnis B1nthen z1=f1(x1,x2,...,xn)
R2:if x2is B21and...and xnis B2nthen z2=f2(x1,x2,...,xn)
……
Rn:if xnis Bn1and...and xnis Bnkthen zn=fn(x1,x2,...,xn)
其中,Ri(i=1,2,...,n)表示第i条模糊规则,n表示模糊规则的总数;数据集X={x1,x2,...,xm},xi(i=1,2,...,n)表示第i行输入数据;Bij(i=1,2,...,n,j=1,2,...,c)表示第i个模糊集属于第j类,c为聚类中心点的个数,fi(x1,x2,...,xn)表示第i条模型规则的输出多项式,zi表示第i条模型规则的输出多项式;
模糊模型的输出多项式类型表达式zi=fi(x1,x2,...,xn)(i=1,2,...,n):
fj=bj0+bj1(x1-v1j)+…+bjk(xk-vkj)+bj(k+1)(x1-v1j)2+…+bj(2k)(xk-vkj)2+bj(2k+1)(x1-v1j)(x2-v2j)+…+bj((k+2)(k+1)/2)(xk-1-v(k-1)j)(xk-vkj)
其中fj表示第j条规则的多项式,bji表示第j行第i列输入数据的系数,vij表示第i个聚类中心第j个输入变量的中心点,vij的值通过第3.2步模糊聚类算法(Fuzzy ClusteringMethod,FCM)获得。
3.根据权利要求1所述的基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法,其特征在于:第2步中所述的数据预处理的方法是:
第2.1步、训练集和测试集的划分标准:采用随机抽样法获取训练集和测试集;
第2.2步、数值化:国际标准数据集威斯康乳腺癌数据(Breast-cancer-wisconsin,BCW)中的数据,部分特征的数据是字符型,为了满足实验数据,需要将字符型转换成数值类型;
第2.3步、标签化:威斯康乳腺癌数据集(Breast-cancer-wisconsin,BCW)数据集,它包含两个类别,分别为recurrence-events和no-recurrence-events,标签化为0和1。
4.根据权利要求1所述的基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法,其特征在于:第3步中所述的模糊模型中模糊规则的前提部分的构造方法:
第3.1步、选择模糊模型的输入变量xi(i=1,2,...,m,m<=N),其中N是输入变量的最总个数,xi表示第i行输入数据。
第3.2步、利用模糊聚类算法(Fuzzy Clustering Method,FCM)对数据集中每个选出的输入变量xi进行聚类,获得第i个聚类中心Bi
第3.2.1步、初始化聚类中心点的数量和隶属矩阵U(r)
Figure FSA0000228011880000021
其中,r是迭代次数,U(r)表示第r次迭代隶属矩阵U的值,uiq表示第i个聚类中心点第q个数据点的值,c是聚类中心点的数量,N是数据点的个数;
第3.2.2步、计算每个子类的中心向量Si和隶属值uiq
Figure FSA0000228011880000022
Figure FSA0000228011880000023
其中,
Figure FSA0000228011880000024
表示第r次迭代第i个子类的中心点向量,
Figure FSA0000228011880000026
表示第r次迭代第i个聚类中心第j个输入变量的中心点向量,f是模糊化系数并且f大于1,x是数据集,Xk表示第k行输入数据,
Figure FSA0000228011880000025
表示第r次迭代第j个子类的中心点向量。
第3.2.3步、更新隶属矩阵,通过欧几里德距离来进行计算:
Figure FSA0000228011880000031
其中,diq表示第i个聚类中心第q个数据点距离聚类中心的距离,Xq表示第q行输入数据,l表示模糊模型输入变量个数,xqj表示第q行第j列的输入数据;
第3.2.4步、判断终止条件。如果||U(r+1)-U(r)||足够小,则算法结束;否则令r=r+1并返回第3.2.2步;
其中,U(r+1)表示第r+1次迭代矩阵U的值,U(r)表示第r次迭代矩阵U的值,指定最大迭代次数MaxIter=50;
第3.3步、获得模糊模型中模糊规则的前提部分。根据每个输入变量,得到每条模糊规则,在此基础上获得整个模糊模型的模糊规则前提部分。
5.根据权利要求1所述的基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法,其特征在于:第4步中所述的模糊模型中模糊规则的结论部分的构造具体方法如下:
估算多项式表达式的系数。采用广义最小二乘法(Generalized Least Square,GLS)来估算表达式的系数。模糊模型的输出Y和系数b的值是通过如下公式获得:
b=(XTX)-1XTY
其中b表示多项式的系数,X表示输入数据矩阵,XT表示矩阵X的转置,(XTX)-1是XTX的逆矩阵,Y表示输出。
6.根据权利要求1所述的基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法,其特征在于:第5步中所述的方法是:根据构造出的模糊模型,对测试数据进行识别,并输出最终的诊断结果。
CN202011499458.8A 2020-12-08 2020-12-08 一种基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法 Withdrawn CN112489038A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011499458.8A CN112489038A (zh) 2020-12-08 2020-12-08 一种基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011499458.8A CN112489038A (zh) 2020-12-08 2020-12-08 一种基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法

Publications (1)

Publication Number Publication Date
CN112489038A true CN112489038A (zh) 2021-03-12

Family

ID=74914650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011499458.8A Withdrawn CN112489038A (zh) 2020-12-08 2020-12-08 一种基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法

Country Status (1)

Country Link
CN (1) CN112489038A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114649094A (zh) * 2022-03-30 2022-06-21 广东省人民医院 一种基于核磁共振的乳腺癌多参数临床决策辅助装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114649094A (zh) * 2022-03-30 2022-06-21 广东省人民医院 一种基于核磁共振的乳腺癌多参数临床决策辅助装置
CN114649094B (zh) * 2022-03-30 2022-11-15 广东省人民医院 一种基于核磁共振的乳腺癌多参数临床决策辅助装置

Similar Documents

Publication Publication Date Title
Pereira et al. COVID-19 identification in chest X-ray images on flat and hierarchical classification scenarios
CN112101451B (zh) 一种基于生成对抗网络筛选图像块的乳腺癌组织病理类型分类方法
Liu et al. Medical-vlbert: Medical visual language bert for covid-19 ct report generation with alternate learning
US20180165413A1 (en) Gene expression data classification method and classification system
CN111444829B (zh) 面向液基细胞学检查的融合推理与学习的决策分类方法
CN111242906A (zh) 一种支持向量数据描述的胸部影像异常检测方法
CN108764280A (zh) 一种基于症状向量的医学数据处理方法和系统
CN111785387A (zh) 一种使用Bert做疾病标准化映射分类的方法及系统
CN110136113B (zh) 一种基于卷积神经网络的阴道病理图像分类方法
CN112489038A (zh) 一种基于模糊聚类和广义最小二乘法的模糊模型乳腺癌诊断方法
CN107491656B (zh) 一种基于相对危险度决策树模型的妊娠结局影响因子评估方法
Cao et al. The research on medical image classification algorithm based on PLSA-BOW model
CN117195027A (zh) 基于成员选择的簇加权聚类集成方法
CN115269838B (zh) 一种电子病历的分类方法
Monowar et al. Lung opacity classification with convolutional neural networks using chest x-rays
CN111402205B (zh) 一种基于多层感知机的乳腺肿瘤数据清洗方法
CN115033689A (zh) 一种基于小样本文本分类原型网络欧氏距离计算方法
CN113987188A (zh) 一种短文本分类方法、装置及电子设备
CN106228180A (zh) 一种肺部影像病灶的识别模型参数训练方法及识别方法
Siddiqui et al. Attention based covid-19 detection using generative adversarial network
CN114548197A (zh) 一种基于自律学习sdl模型的聚类方法
CN114627348B (zh) 多主体任务中基于意图的图片识别方法
CN116452910B (zh) 基于图神经网络的scRNA-seq数据特征表示和细胞类型识别方法
CN112487816B (zh) 一种基于网络分类的命名实体识别方法
CN113408463B (zh) 一种基于距离度量的细胞图像小样本分类系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210312