CN107545133A - 一种用于鉴别诊断慢性支气管炎的高斯模糊聚类计算方法 - Google Patents
一种用于鉴别诊断慢性支气管炎的高斯模糊聚类计算方法 Download PDFInfo
- Publication number
- CN107545133A CN107545133A CN201710595946.0A CN201710595946A CN107545133A CN 107545133 A CN107545133 A CN 107545133A CN 201710595946 A CN201710595946 A CN 201710595946A CN 107545133 A CN107545133 A CN 107545133A
- Authority
- CN
- China
- Prior art keywords
- cluster
- sample
- cluster centre
- chronic bronchitis
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种用于鉴别诊断慢性支气管炎的高斯模糊聚类计算方法。所述方法包括:从电子病历系统中获取诊断为慢性支气管炎患者检验数据,使用层次聚类算法计算初始聚类数,根据初始聚类数随机挑选聚类中心,使用映射将聚类中心与样本映射到希尔伯特空间,在希尔伯特空间内根据聚类中心计算样本的隶属度矩阵,并使用计算出来的隶属度矩阵计算新的聚类中心,不断的迭代计算隶属度矩阵和聚类中心直到聚类中心的变化小于阈值,根据得出的聚类中心计算聚类粒度值,循环所有的初始聚类数并进行上述步骤,取粒度值最小的聚类中心作为最终聚类结果。本发明可用于对慢性支气管炎病症更为细致的分类,对慢性支气管炎的诊治具有一定的促进作用。
Description
技术领域
本发明涉及一种用于鉴别诊断慢性支气管炎的高斯模糊聚类计算方法。
技术背景
慢性支气管炎被认为是气管和支气管周边组织中的非特异性炎症。临床实践表明,对慢性支气管炎的进一步细分对于该病的诊治具有非常重要的意义。根据该病的不同特点以及是否有并发症状的情况,可将慢性支气管炎进一步诊断为慢性支气管炎伴有呼吸道感染,单纯性慢性支气管炎,慢性支气管炎伴肺气肿,粘液脓性支气管炎等。临床对于慢性支气管症的进一步分类往往来源于医生的临床经验与主观判断,往往有主观性太强的缺点,因此使用某种智能算法对临床数据进行分析从而进一步判断患者所患的是何种慢性支气管炎具有非常重要的意义。传统模糊聚类算法可描述如下,假设数据集合X={x1,x2,…,xn},传统模糊聚类函数就是要最小化样本与聚类中心距离的总和,使用公式表示如下
式中,m是加权参数,Pj是K-中心聚类,μjk是隶属度,表示样本j属于聚类k的程度,0≤μjk≤1,且满足约束使用拉格朗日乘子法,可将公式(1)进一步转化为公式(2)
传统模糊聚类算法可描述如下
步骤(11),对聚类问题进行充分评估,选择合适样本特征,以这些特征从数据库中获取样本数据集,根据样本数据集的特点,去掉一些冗余特征,并对数据标准化处理;
步骤(12),人为设定初始聚类数C,并随机选择初始化聚类中心V0;
步骤(13),不断进行如下描述的循环迭代,依据公式(2)对隶属度矩阵进行更新;使用计算得到的新的隶属度矩阵对聚类中心进行更新
步骤(14),判断新旧聚类中心的变化是否小于阈值或迭代超过最大迭代数,如果是则跳出循环,此时的聚类中心和隶属度矩阵,就是最终的聚类结果。
传统模糊聚类算法的初始聚类数C是人为指定的且初始化中心的选择具有任意性,初始聚类数的正确与否以及选择的初始聚类中心对最终的聚类结果影响巨大,因此我们需要一种评价指标去判断最佳聚类数,以确保最终聚类结果的准确性。传统聚类算法对于离群点是敏感的,需要减少离群点对聚类的影响。传统聚类算法中,模糊加权参数m常常被直接赋值为2,这种定值方法没有理论验证过程,缺乏说服力。
发明内容
步骤(1),筛选与慢性支气管炎诊断相关的检验指标,并在电子病历数据库中提取一定数量诊断为慢性支气管炎的患者化验指标的数值,步骤(1)具体包括以下步骤:
步骤(51),首先提取一定数量诊断为慢性支气管炎患者所做的所有检验指标项目及具体的数值,使用统计软件统计阳性率较高的检验指标作为数据样本的特征;
步骤(52),以筛选出的样本特征作为提取特征,具体特征为氯,磷,二氧化碳结合力,葡萄糖,血清胆碱酯酶,球蛋白,中性粒细胞分类,尿酸,红细胞压积,红细胞计数,碱性磷酸酶,肌酐,平均血红蛋白浓度,前白蛋白,丙氨酸氨基转移酶;从电子病历数据库中提取诊断为慢性支气管炎的上述特征的数据样本;
步骤(53),为了消除样本特征量纲不同对分类结果的影响,首先对样本数据使用标准差规格化对数据进行标准化,x是标准化前的样本,x’是标准化后的数据;
步骤(2),估算提取样本数据的最大聚类数,步骤(2)具体包括
步骤(54),基于假设“最佳聚类数C小于总样本数n的平方根”,使用matlab自带的层次聚类函数将样本分为k类其中k满足5Cmax>k>2Cmax;
步骤(55),以第一次层次聚类运算结果中最小样本数为筛选标准,过滤掉样本数小于等于最小聚类样本数的聚类;
步骤(56),再使用matlab自带的层次聚类函数将过滤后样本分为Cmax类,Cmax即为初始聚类中心大小,所得到的聚类结果就是初始聚类中心;
步骤(3),优化模糊加权参数m,其中μD(m)=min{μG(m),μC(m)},并且
步骤(4),使用某映射将样本数据映射到希尔伯特空间,在希尔伯特空间进行聚类运算,步骤(4) 具体包括
步骤(57),以C作为初始聚类中心数,从初始聚类中心中选择C个样本数最大聚类的中心作为初始聚类中心记为V0;
步骤(58),根据聚类中心Vi计算隶属度函数其中||φ(xk)-φ(vi)||2=K(xk,xk)+K(vi,vi)-2K(xk,vi),K(x,y)表示核函数,我们使用高斯核函数作为我们的映射函数,即K(x,y)=exp(-(2σ)-2||x-y||2);
步骤(59),根据计算出的隶属度矩阵计算新的聚类中心Vi+1,m表示模糊加权参数,是一个需要优化的参数,由步骤(3)优化计算可得;
步骤(60),判断新计算的聚类中心Vi+1与原聚类中心Vi的差值是否小于阈值,即判断||Vi+1-Vi||<ε,或迭代是否超过最大迭代数,l≤lmax,如果是,则循环结果;
步骤(61),保存循环结束时的隶属度矩阵U和聚类中心V,并计算粒度有效性函数其中 α和1-α是权重因子。α通常比1-α稍大,一般选择α=0.6,1-α=0.4;
步骤(5),在Cmax的限制下,选取所有可能的聚类数及相应聚类中心,选择粒度有效性最小的值对应的聚类结果作为最终聚类结果;具体步骤包括
步骤(62),重复步骤(57)-(61),得到多组聚类中心,计算对应的粒度有效性函数值,比较所有的有效性函数值,取最小的粒度有效性值对应的聚类结果作为最终聚类结果。
附图说明
图1为对慢性支气管炎患者化验指标阳性率较高前30个化验指标。
图2是本发明对慢性支气管病症进一步分类流程图。
图3是本发明计算最优模糊加权参数m的示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步详细的说明。
本发明提出了一种用于鉴别诊断慢性支气管炎的高斯模糊聚类计算方法,与传统模糊聚类算法相比,该方法能够显著提高聚类精度。
对于公式(1)通过某映射将样本数据X={x1,x2,…,xn}映射到希尔伯特空间中,映射后样本空间为将样本xk替换为映射后的样本其余部分保持不变,公式(1)转化为
公式(4)是约束条件下求极值问题,可使用拉格朗日乘子法构造新的优化函数,求F的偏导数并使偏导数为0
对公式(6)进行等式变换可得公式(8)
将公式(8)带入到公式(5)可得公式(9)
将公式(9)带入公式(8)中我们得到隶属度矩阵的更新公式
公式(7)中K(xi,xj)表示核函数,本发明中我们使用高斯核函数,即 K(xi,xj)=exp(-(2σ)-2||xi-xj||2),可得
将公式(10),(11)代入(7)可得聚类中心的更新公式
所谓粒度是指“微粒大小的平均度量”,而在确定聚类类别数的方法中,粒度指代“信息粗细的平均度量”。在不同的粒度下,为了区分其划分结果,每个聚类都有不一样的样本点集,聚类类别数的优选是通过分离的信息颗粒的和耦合度程度来测量的分割结果准确与否的,信息粒的分离度和耦合度定义如下
上式中uij表示隶属度,是样本j属于聚类i的程度,dij表示样本j距离聚类i的聚类,c表示最终聚类数,聚类分割结果准确与否通常是信息粒的分离度和耦合度的线性组合,其定义如下:
本发明提出的方法会根据样本数据的分布情况自动计算出模糊加权参数m的最优值,结合公式(4) 和欧式距离相似度有效函数测量方法,我们最终可得评价模糊聚类的最优划分方法
据模糊加权参数定义,我们可以将决策参数m问题的模糊目标定义为
由于FCM算法在完成模糊聚类的同时还要求数据集的划分尽可能分明,以便于正确区分每个样本的类属关系。即要求分类后的样本集类内距离尽可能小,类与类之间间距尽可能的大。因此,参数m选取问题的模糊约束定义描述为:
综合上述对模糊目标和模糊约束的定义,本文研究中最优加权参数m*由公式得出计算:
图3中的曲线描述了聚类目标函数值随着加权系数m变化的规律,根据图3,不难发现当m=1.82时,μG(m)和μC(m)同时取得最小值。从图3中可知改进的高斯核函数聚类目标函数在m=1.82时取得最小值。
实施例一:对慢性支气管炎病症进一步分类
步骤S301,使用层次聚类算法计算初始聚类数,首先使用matlab软件自带的层次聚类函数将样本分为k类其中k满足5Cmax>k>2Cmax,为了降低离群点对聚类结果的影响,我们接着过滤掉样本数上一步中样本数较少的聚类中心,然后再一次使用matlab软件自带的层次聚类函数将样本分为Cmax类,Cmax即为初始聚类中心大小,所得到的聚类结果就是初始聚类中心V0。
步骤S302,选择初始聚类中心中样本数最大的作为聚类中心,具体步骤是,计算初始聚类中心V0每一个聚类包含的样本数量,取样本数最多的作为初始聚类中心。然后利用公式(8)计算隶属度矩阵。
步骤S303,根据隶属度矩阵计算新的聚类中心,使用步骤S302计算出来的隶属度矩阵利用公式 (12)计算新的聚类中心Vi+1
步骤S304,判断新的聚类中心与老的聚类中心变化是否小于阈值,即判断新的聚类中心Vi+1与老的聚类中心Vi的差值是否小于阈值ε,或者迭代次数是否超过最大迭代次数,如果是则跳出循环。
步骤S305,以聚类中心计算粒度有效性值,根据最终的聚类结果根据公式(13)-(15)计算粒度原理有效值。
步骤S306,粒度值最小的聚类作为最终结果,遍历所有的Cmax,重复步骤S302到步骤S305,分别记录下他们的值,以粒度值最小时的聚类结果作为最终的聚类结果。
程序运行的结果显示提取的120例慢性支气管炎患者一共被分为4类,第一类患者更为详细的诊断是性支气管炎伴有呼吸道感染,第二类患者更为详细的诊断是单纯性慢性支气管炎,第三第四类诊断则为慢性支气管炎伴肺气肿、粘液脓性支气管炎,与实际临床诊治结果具有高度的一致性,说明本发明提出的方法具有很高的临床实用价值。
Claims (2)
1.一种用于鉴别诊断慢性支气管炎的高斯模糊聚类计算方法,其特征在于如下步骤:
步骤(1),筛选与慢性支气管炎诊断相关的检验指标,并在电子病历数据库中提取一定数量诊断为慢性支气管炎的患者化验指标的数值,步骤(1)具体包括以下步骤
步骤(51),首先提取一定数量诊断为慢性支气管炎患者所做的所有检验指标项目及具体的数值,使用统计软件统计阳性率较高的检验指标作为数据样本的特征;
步骤(52),以筛选出的样本特征作为提取特征,具体特征为血糖,肾功能,肝功能,癌胚抗原,高敏C反应蛋白,红细胞沉降率等;从电子病历数据库中提取诊断为慢性支气管炎的上述特征的数据样本;
步骤(53),为了消除样本特征量纲不同对分类结果的影响,首先对样本数据使用标准差规格化对数据进行标准化,x是标准化前的样本,x’是标准化后的数据;
步骤(2),估算提取样本数据的最大聚类数,步骤(2)具体包括
步骤(54),基于假设“最佳聚类数C小于总样本数n的平方根”,使用matlab自带的层次聚类函数将样本分为k类其中k满足5Cmax>k>2Cmax;
步骤(55),以第一次层次聚类运算结果中最小样本数为筛选标准,过滤掉样本数小于等于最小聚类样本数的聚类;
步骤(56),再使用matlab自带的层次聚类函数将过滤后样本分为Cmax类,Cmax即为初始聚类中心大小,所得到的聚类结果就是初始聚类中心;
步骤(3),优化模糊加权参数m,其中μD(m)=min{μG(m),μC(m)},并且
步骤(4),使用某映射将样本数据映射到希尔伯特空间,在希尔伯特空间进行聚类运算,步骤(4)具体包括
步骤(57),以C作为初始聚类中心数,从初始聚类中心中选择C个样本数最大聚类的中心作为初始聚类中心记为V0;
步骤(58),根据聚类中心Vi计算隶属度函数其中||φ(xk)-φ(vi)||2=K(xk,xk)+K(vi,vi)-2K(xk,vi),K(x,y)表示核函数,我们使用高斯核函数作为我们的映射函数,即K(x,y)=exp(-(2σ)-2||x-y||2);
步骤(59),根据计算出的隶属度矩阵计算新的聚类中心Vi+1,m表示模糊加权参数,是一个需要优化的参数,由步骤(3)优化计算可得;
步骤(60),判断新计算的聚类中心Vi+1与原聚类中心Vi的差值是否小于阈值,即判断||Vi+1-Vi||<ε,或迭代是否超过最大迭代数,l≤lmax,如果是,则循环结果;
步骤(61),保存循环结束时的隶属度矩阵U和聚类中心V,并计算粒度有效性函数其中 α和1-α是权重因子。α通常比1-α稍大,一般选择α=0.6,1-α=0.4;
步骤(5),在Cmax的限制下,选取所有可能的聚类数及相应聚类中心,选择粒度有效性最小的值对应的聚类结果作为最终聚类结果;具体步骤包括
步骤(62),重复步骤(57)-(61),得到多组聚类中心,计算对应的粒度有效性函数值,比较所有的有效性函数值,取最小的有效性函数值对应的聚类结果作为最终聚类结果。
2.根据权利要求1所述的一种用于鉴别诊断慢性支气管炎的高斯模糊聚类计算方法,特征描述中的步骤(5)具体还包括:
合并聚类中心,即一般从大到小遍历所有可能的聚类数Cmax,步骤(4)运算完毕后新的初始聚类中心可通过合并相似的聚类中心获得,选择聚类中心最接近的两个聚类作为需要合并的聚类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710595946.0A CN107545133A (zh) | 2017-07-20 | 2017-07-20 | 一种用于鉴别诊断慢性支气管炎的高斯模糊聚类计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710595946.0A CN107545133A (zh) | 2017-07-20 | 2017-07-20 | 一种用于鉴别诊断慢性支气管炎的高斯模糊聚类计算方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107545133A true CN107545133A (zh) | 2018-01-05 |
Family
ID=60971066
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710595946.0A Pending CN107545133A (zh) | 2017-07-20 | 2017-07-20 | 一种用于鉴别诊断慢性支气管炎的高斯模糊聚类计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107545133A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111367901A (zh) * | 2020-02-27 | 2020-07-03 | 智慧航海(青岛)科技有限公司 | 一种船舶数据去噪方法 |
CN112733825A (zh) * | 2020-12-18 | 2021-04-30 | 北京城市排水集团有限责任公司 | 一种摆臂雷达管道图像病害空间提取方法 |
CN113488166A (zh) * | 2021-07-28 | 2021-10-08 | 联仁健康医疗大数据科技股份有限公司 | 糖尿病数据分析模型训练及数据管理方法、装置和设备 |
CN113592038A (zh) * | 2021-08-30 | 2021-11-02 | 南京林业大学 | 一种实木定制柜门零件族划分的方法及系统 |
CN115527610A (zh) * | 2022-11-09 | 2022-12-27 | 上海交通大学 | 一种单细胞组学数据的聚类分析方法 |
CN115952432A (zh) * | 2022-12-21 | 2023-04-11 | 四川大学华西医院 | 一种基于糖尿病数据的无监督聚类方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101763404A (zh) * | 2009-12-10 | 2010-06-30 | 陕西鼎泰科技发展有限责任公司 | 基于模糊聚类的网络文本数据检测方法 |
US20110184654A1 (en) * | 2008-09-17 | 2011-07-28 | Opticul Diagnostics Ltd. | Means and Methods for Detecting Bacteria in an Aerosol Sample |
CN104951649A (zh) * | 2015-05-27 | 2015-09-30 | 华南农业大学 | 一种基于高斯模糊积分的hbv分类方法 |
-
2017
- 2017-07-20 CN CN201710595946.0A patent/CN107545133A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110184654A1 (en) * | 2008-09-17 | 2011-07-28 | Opticul Diagnostics Ltd. | Means and Methods for Detecting Bacteria in an Aerosol Sample |
CN101763404A (zh) * | 2009-12-10 | 2010-06-30 | 陕西鼎泰科技发展有限责任公司 | 基于模糊聚类的网络文本数据检测方法 |
CN104951649A (zh) * | 2015-05-27 | 2015-09-30 | 华南农业大学 | 一种基于高斯模糊积分的hbv分类方法 |
Non-Patent Citations (1)
Title |
---|
陆维嘉: "辅助慢性呼吸道疾病诊疗的电子病历系统与数据挖掘研究", 《中国博士学位论文全文数据库 医药卫生科技辑》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111367901A (zh) * | 2020-02-27 | 2020-07-03 | 智慧航海(青岛)科技有限公司 | 一种船舶数据去噪方法 |
CN111367901B (zh) * | 2020-02-27 | 2024-04-02 | 智慧航海(青岛)科技有限公司 | 一种船舶数据去噪方法 |
CN112733825A (zh) * | 2020-12-18 | 2021-04-30 | 北京城市排水集团有限责任公司 | 一种摆臂雷达管道图像病害空间提取方法 |
CN113488166A (zh) * | 2021-07-28 | 2021-10-08 | 联仁健康医疗大数据科技股份有限公司 | 糖尿病数据分析模型训练及数据管理方法、装置和设备 |
CN113592038A (zh) * | 2021-08-30 | 2021-11-02 | 南京林业大学 | 一种实木定制柜门零件族划分的方法及系统 |
CN115527610A (zh) * | 2022-11-09 | 2022-12-27 | 上海交通大学 | 一种单细胞组学数据的聚类分析方法 |
CN115527610B (zh) * | 2022-11-09 | 2023-11-24 | 上海交通大学 | 一种单细胞组学数据的聚类分析方法 |
CN115952432A (zh) * | 2022-12-21 | 2023-04-11 | 四川大学华西医院 | 一种基于糖尿病数据的无监督聚类方法 |
CN115952432B (zh) * | 2022-12-21 | 2024-03-12 | 四川大学华西医院 | 一种基于糖尿病数据的无监督聚类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107545133A (zh) | 一种用于鉴别诊断慢性支气管炎的高斯模糊聚类计算方法 | |
US20220335609A1 (en) | System and method of classification of biological particles | |
CN112633601B (zh) | 疾病事件发生概率的预测方法、装置、设备及计算机介质 | |
CN106202968B (zh) | 癌症的数据分析方法及装置 | |
CN110051324B (zh) | 一种急性呼吸窘迫综合征死亡率预测方法及系统 | |
CN112951413B (zh) | 一种基于决策树和改进smote算法的哮喘病诊断系统 | |
CN108717867A (zh) | 基于梯度迭代树的疾病预测模型建立方法及装置 | |
CN110364259B (zh) | 一种高原疾病预测方法、系统、介质及电子设备 | |
CN113053535B (zh) | 一种医疗信息预测系统及医疗信息预测方法 | |
US20220122739A1 (en) | Ai-based condition classification system for patients with novel coronavirus | |
CN111524594A (zh) | 目标人群血液系统恶性肿瘤筛查系统 | |
CN115691722B (zh) | 医疗数据检测的质控方法、装置、设备、介质及程序产品 | |
CN112652361A (zh) | 一种基于gbdt模型的骨髓瘤高风险筛查方法及其应用 | |
CN115099331A (zh) | 基于可解释性机器学习算法的恶性胸腔积液辅助诊断系统 | |
CN114864080A (zh) | 一种肝癌诊断模型c-galad ii的建立方法、系统、设备及介质 | |
CN109509517A (zh) | 一种医学检验检查指标自动修正的方法 | |
CN113539473A (zh) | 一种仅使用血常规检验数据诊断布氏杆菌病的方法及系统 | |
CN116189909B (zh) | 基于推举算法的临床医学判别方法及系统 | |
CN117195027A (zh) | 基于成员选择的簇加权聚类集成方法 | |
CN110739072A (zh) | 出血事件发生评估方法和系统 | |
US10274412B2 (en) | Flow cytometry data segmentation result evaluation systems and methods | |
CN116047074A (zh) | 一种用于诊断和/或预测肺癌的标志物、诊断模型及其构建方法 | |
CN113948206B (zh) | 一种基于多层级框架的疾病分期模型融合方法 | |
CN110010246A (zh) | 一种基于神经网络和置信区间的疾病智能诊断技术 | |
TWI599896B (zh) | 多輸出決策屬性選擇暨資料離散化分類方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180105 |
|
WD01 | Invention patent application deemed withdrawn after publication |