CN111738304A - 一种高维特征空间中基于聚类算法的就诊人群分组方法 - Google Patents

一种高维特征空间中基于聚类算法的就诊人群分组方法 Download PDF

Info

Publication number
CN111738304A
CN111738304A CN202010469507.7A CN202010469507A CN111738304A CN 111738304 A CN111738304 A CN 111738304A CN 202010469507 A CN202010469507 A CN 202010469507A CN 111738304 A CN111738304 A CN 111738304A
Authority
CN
China
Prior art keywords
clustering
class
cluster
reference value
clustering algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010469507.7A
Other languages
English (en)
Inventor
陈明东
黄越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipai Health Industry Investment Co ltd
Original Assignee
Sipai Health Industry Investment Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sipai Health Industry Investment Co ltd filed Critical Sipai Health Industry Investment Co ltd
Priority to CN202010469507.7A priority Critical patent/CN111738304A/zh
Publication of CN111738304A publication Critical patent/CN111738304A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23211Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with adaptive number of clusters
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种高维特征空间中基于聚类算法的就诊人群分组方法,所述方法包括以下步骤,S1、以患者为汇总维度进行聚类前的特征提取,提取的特征包括疾病种类、限额使用率、个人自费占比、有无住院以及就诊间隔;S2、计算各个特征之间的相关性,依次判断各个相关性是否大于设定阈值,若是,则剔除该相关性对应的特征,并执行步骤S3;若否,则直接执行步骤S3;S3、获取聚类算法中的最优选择聚类数;S4、将最优选择聚类数输入聚类算法中,对步骤S2中的特征进行聚类,并对聚类结果分别进行业务解释。优点是:本方法中的聚类算法能够对Elbow方法中的损失函数进行归一化,且引入了类外和的概念,用以刻画描述聚类后不同类之间的距离远近。

Description

一种高维特征空间中基于聚类算法的就诊人群分组方法
技术领域
本发明涉及聚类算法领域,尤其涉及一种高维特征空间中基于聚类算法的就诊人群分组方法。
背景技术
聚类算法可以说是无监督学习中最常用的一类算法,它可以在无事先标记的情况下给数据集分类,然后通过各类中特征变量的统计总结,给出各类直接区别的标识。虽然聚类算法已经发展了很多年,在学术界已经提出了非常多的具体算法,但在实际使用中,考虑到算法的稳定性、易用性、速度和计算资源消耗等问题,用的最多的还是Kmeans算法。这个算法的一大弊端就是需要提前指定聚类数目K。实际使用中往往需要使用者根据业务经验,或者通过可视化方法确定。其中可视化方法在特征维度超过3时就基本失效了,虽然某些情况下可以通过最先进的降维方法把数据集降维至2-3维进行可视化,但这个过程中往往会造成信息的丢失,比如原来高维中可明显区分出来的两个类有可能在降维后变得不可分。而业务经验判断的局限性则更大,当业务场景复杂后,难以有足够有效的业务经验,并且原有业务经验进行的判断也有可能致使当前数据中的某些细分类别丢失。目前有一种方法可以帮助进行K的选择,即Elbow方法。Elbow方法是预先设定一个损失函数,一般选择在给定K值聚类后的各类内部距离之和为损失函数,Elbow方法先画出一条损失函数关于K的变化曲线,然后人为地找该曲线上的“突变点”,认为在该K值前后,损失函数发生明显变化,所以取该K使用。
然而,Elbow方法存在明显的问题:首先,损失函数必然是随着K的增加而下降的,在没有“基准线”的情况下,如果“突变点”较为多且复杂,还是会对K值的选取造成障碍;此外,对于本身在特征空间中分布比较密集的数据而言,损失函数曲线不一定会有明显的“突变点”,也会使得该曲线的参考价值消失。因此需要考虑一种别的方法对K值的选取给出指导,这样在实际使用中,才会对数据集做出较优的划分。
在实际医疗数据的就诊人群划分时,往往会通过人群的就诊历史根据业务经验总结出很多的统计特征来实现对人群的全方位描述,因此会形成很高维的特征空间,而且一般来说,在该特征空间中数据点分布相对密集,因此需要比Elbow方法更有效的方法来进行K值选择。
发明内容
本发明的目的在于提供一种高维特征空间中基于聚类算法的就诊人群分组方法,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明采用的技术方案如下:
一种高维特征空间中基于聚类算法的就诊人群分组方法,所述方法包括以下步骤,
S1、以患者为汇总维度进行聚类前的特征提取,提取的特征包括疾病种类、限额使用率、个人自费占比、有无住院以及就诊间隔;
S2、计算各个特征之间的相关性,依次判断各个相关性是否大于设定阈值,若是,则剔除该相关性对应的特征,并执行步骤S3;若否,则直接执行步骤S3;
S3、获取聚类算法中的最优选择聚类数;
S4、将最优选择聚类数输入聚类算法中,对步骤S2中的特征进行聚类,并对聚类结果分别进行业务解释。
优选的,步骤S4具体包括如下内容,
S31、从2-80中依次选择一个数值作为聚类数,对各个聚类数进行KMeans聚类以获取各个聚类数的类内和以及类外和;
S32、针对类内和以及类外和分别设定第一基准值和第二基准值,第一基准值和第二基准值分别满足以下公式,
Ib=a*1b*K+b
Ob=c*K+d
其中,K为聚类数,I为聚类数K的类内和,O为聚类数K的类外和,Ib为第一基准值,Ob为第二基准值,a、b、c、d是待定回归系数,lb是以2为底的对数函数;
S33、对步骤S32中的两个公式做线性回归,确定a、b、c、d四个待定回归系数;
S34、定义类内增强系数Ie和类外增强系数Oe,两个系数分别满足以下公式,
Ie=(Ib-I)/Ib
Oe=(O-Ob)/Ob
其中,类内增强系数表征了对于不同聚类数的选择,聚类结果在基准值上使得类内距离紧凑了多少;类外增强系数表征了对于不同聚类数的选择,聚类结果在基准值上使得类间聚类拉开了多少;
S35、定义组合增强系数Ce,根据组合增强系数绘制关于聚类数的变化曲线,组合增强系数满足以下公式,
Ce=Ie+Oe;
S36、选取变化曲线的最大值,该最大值即为最优点,并将该值对应的聚类数作为最优选择聚类数。
本发明的有益效果是:本方法中的聚类算法计算benchmark曲线(基线),从而对Elbow方法中的损失函数进行归一化,且引入了类外和的概念,用以刻画描述聚类后不同类之间的距离远近;引入benchmark曲线(基线)可以消除天然递减或递增因素,从而显性地将聚类的结果突显出来,比Elbow方法更容易判断聚类数的取值。
附图说明
图1是本发明实施例中分组方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本实施例中提供了一种高维特征空间中基于聚类算法的就诊人群分组方法,所述方法包括以下步骤,
S1、以患者为汇总维度进行聚类前的特征提取,提取的特征包括疾病种类、限额使用率、个人自费占比、有无住院以及就诊间隔;
S2、计算各个特征之间的相关性,依次判断各个相关性是否大于设定阈值,若是,则剔除该相关性对应的特征,并执行步骤S3;若否,则直接执行步骤S3;
S3、获取聚类算法中的最优选择聚类数;
S4、将最优选择聚类数输入聚类算法中,对步骤S2中的特征进行聚类,并对聚类结果分别进行业务解释。
本实施例中,步骤S2中的各个特征之间的相关性,其中相关性用以表征特征之间的重复性,比如,如果特征A和特征B高度相关,则可认为这两个特征在对结果的表征上没有太大区别,可以考虑剔除一个。具体的,一般相关性可以用相关系数矩阵表示,其中矩阵第i行第j列的元素为特征i和特征j的相关系数,计算方式是特征i和特征j的协方差除以特征i的标准差除以特征j的标准差。
本实施例中,步骤S3具体包括如下内容,
S31、从2-80中依次选择一个数值作为聚类数,对各个聚类数进行KMeans聚类以获取各个聚类数的类内和以及类外和;
S32、针对类内和以及类外和分别设定第一基准值和第二基准值,第一基准值和第二基准值分别满足以下公式,
Ib=a*1b*K+b
Ob=c*K+d
其中,K为聚类数,I为聚类数K的类内和,O为聚类数K的类外和,Ib为第一基准值,Ob为第二基准值,a、b、c、d是待定回归系数,lb是以2为底的对数函数;
S33、对步骤S32中的两个公式做线性回归,确定a、b、c、d四个待定回归系数;
S34、定义类内增强系数Ie和类外增强系数Oe,两个系数分别满足以下公式,
Ie=(Ib-I)/Ib
Oe=(O-Ob)/Ob
其中,类内增强系数表征了对于不同聚类数的选择,聚类结果在基准值上使得类内距离紧凑了多少;类外增强系数表征了对于不同聚类数的选择,聚类结果在基准值上使得类间聚类拉开了多少;
S35、定义组合增强系数Ce,根据组合增强系数绘制关于聚类数的变化曲线,组合增强系数满足以下公式,
Ce=Ie+Oe;
S36、选取变化曲线的最大值,该最大值即为最优点,并将该值对应的聚类数作为最优选择聚类数。
本实施例中,步骤S31中,对于不同的K值选择进行KMeans聚类,记录每个K值下训练完成后的inertia值(所有样本距离聚簇中心点的总距离和)以及类质点间的最小生成树长度Lm(用来标征类间距离),其中inertia值对应I值(聚类数K的类内和),Lm值对应O值(聚类数K的类外和)。
步骤S35中,当测试的K值范围足够宽时,该变化曲线往往存在最优点(最大值处),选该处K值作为最后的K值选择即可。
本实施例中,步骤S4中,所述聚类算法为Kmeans聚类算法,使用Kmeans聚类算法进行聚类,并计算每个类的特征。k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。
聚类结果其实就是将步骤S2中的特征划分到不同的类中,之后要对各个类中的各个特征进行均值和标准差的计算。其中均值用以刻画该类的特点,标准差用以判断该类中该特征是否是一个好的刻画量(一般如果标准差很大,就不是个好的刻画量,反之则是)。
之后还需要对聚类结果分别进行业务解释,具体就是,业务解释结合特征统计和业务理解,通常每个特征的选择都是有对应的业务解释的,比如在做高血压病人分组时,可能会设定某一特征为降压药使用占比。故,有了特征统计之后,各类就有了对应的业务表征,结合业务理解,可对该表征进行解释。
通过采用本发明公开的上述技术方案,得到了如下有益的效果:
本发明通过提供一种高维特征空间中基于聚类算法的就诊人群分组方法,本方法中的聚类算法计算benchmark曲线(基线),从而对Elbow方法中的损失函数进行归一化,且引入了类外和的概念,用以刻画描述聚类后不同类之间的距离远近;引入benchmark曲线(基线)可以消除天然递减或递增因素,从而显性地将聚类的结果突显出来,比Elbow方法更容易判断聚类数的取值。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (2)

1.一种高维特征空间中基于聚类算法的就诊人群分组方法,其特征在于:所述方法包括以下步骤,
S1、以患者为汇总维度进行聚类前的特征提取,提取的特征包括疾病种类、限额使用率、个人自费占比、有无住院以及就诊间隔;
S2、计算各个特征之间的相关性,依次判断各个相关性是否大于设定阈值,若是,则剔除该相关性对应的特征,并执行步骤S3;若否,则直接执行步骤S3;
S3、获取聚类算法中的最优选择聚类数;
S4、将最优选择聚类数输入聚类算法中,对步骤S2中的特征进行聚类,并对聚类结果分别进行业务解释。
2.根据权利要求1所述的高维特征空间中基于聚类算法的就诊人群分组方法,其特征在于:步骤S4具体包括如下内容,
S31、从2-80中依次选择一个数值作为聚类数,对各个聚类数进行KMeans聚类以获取各个聚类数的类内和以及类外和;
S32、针对类内和以及类外和分别设定第一基准值和第二基准值,第一基准值和第二基准值分别满足以下公式,
Ib=a*1b*K+b
Ob=c*K+d
其中,K为聚类数,I为聚类数K的类内和,O为聚类数K的类外和,Ib为第一基准值,Ob为第二基准值,a、b、c、d是待定回归系数,lb是以2为底的对数函数;
S33、对步骤S32中的两个公式做线性回归,确定a、b、c、d四个待定回归系数;
S34、定义类内增强系数Ie和类外增强系数Oe,两个系数分别满足以下公式,Ie=(Ib-I)/Ib
Oe=(O-Ob)/Ob
其中,类内增强系数表征了对于不同聚类数的选择,聚类结果在基准值上使得类内距离紧凑了多少;类外增强系数表征了对于不同聚类数的选择,聚类结果在基准值上使得类间聚类拉开了多少;
S35、定义组合增强系数Ce,根据组合增强系数绘制关于聚类数的变化曲线,组合增强系数满足以下公式,
Ce=Ie+Oe;
S36、选取变化曲线的最大值,该最大值即为最优点,并将该值对应的聚类数作为最优选择聚类数。
CN202010469507.7A 2020-05-28 2020-05-28 一种高维特征空间中基于聚类算法的就诊人群分组方法 Pending CN111738304A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010469507.7A CN111738304A (zh) 2020-05-28 2020-05-28 一种高维特征空间中基于聚类算法的就诊人群分组方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010469507.7A CN111738304A (zh) 2020-05-28 2020-05-28 一种高维特征空间中基于聚类算法的就诊人群分组方法

Publications (1)

Publication Number Publication Date
CN111738304A true CN111738304A (zh) 2020-10-02

Family

ID=72647925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010469507.7A Pending CN111738304A (zh) 2020-05-28 2020-05-28 一种高维特征空间中基于聚类算法的就诊人群分组方法

Country Status (1)

Country Link
CN (1) CN111738304A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030005258A1 (en) * 2001-03-22 2003-01-02 Modha Dharmendra Shantilal Feature weighting in k-means clustering
US20150304981A1 (en) * 2012-11-30 2015-10-22 Beijing University Of Post And Telecommunication Method for Detecting Cell Disconnection and Locating Disconnected Cell in Son of Cellular Mobile Communication System
EP3032417A1 (en) * 2014-12-10 2016-06-15 Alcatel Lucent Cloud orchestration and placement using historical data
CN106022385A (zh) * 2016-05-26 2016-10-12 华南理工大学 基于动态规划和K-means聚类的特征选择算法
CN106548041A (zh) * 2016-12-08 2017-03-29 江苏大学 一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法
US20170372225A1 (en) * 2016-06-28 2017-12-28 Microsoft Technology Licensing, Llc Targeting content to underperforming users in clusters
CN107886124A (zh) * 2017-11-08 2018-04-06 昆明理工大学 一种自动识别肘部法则中最优k值的方法
CN109598278A (zh) * 2018-09-20 2019-04-09 阿里巴巴集团控股有限公司 聚类处理方法、装置、电子设备及计算机可读存储介质
CN111144424A (zh) * 2019-12-27 2020-05-12 中通服公众信息产业股份有限公司 一种基于聚类算法的人员特征检分析方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030005258A1 (en) * 2001-03-22 2003-01-02 Modha Dharmendra Shantilal Feature weighting in k-means clustering
US20150304981A1 (en) * 2012-11-30 2015-10-22 Beijing University Of Post And Telecommunication Method for Detecting Cell Disconnection and Locating Disconnected Cell in Son of Cellular Mobile Communication System
EP3032417A1 (en) * 2014-12-10 2016-06-15 Alcatel Lucent Cloud orchestration and placement using historical data
CN106022385A (zh) * 2016-05-26 2016-10-12 华南理工大学 基于动态规划和K-means聚类的特征选择算法
US20170372225A1 (en) * 2016-06-28 2017-12-28 Microsoft Technology Licensing, Llc Targeting content to underperforming users in clusters
CN106548041A (zh) * 2016-12-08 2017-03-29 江苏大学 一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法
CN107886124A (zh) * 2017-11-08 2018-04-06 昆明理工大学 一种自动识别肘部法则中最优k值的方法
CN109598278A (zh) * 2018-09-20 2019-04-09 阿里巴巴集团控股有限公司 聚类处理方法、装置、电子设备及计算机可读存储介质
CN111144424A (zh) * 2019-12-27 2020-05-12 中通服公众信息产业股份有限公司 一种基于聚类算法的人员特征检分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YANIV OPOCHINSKY 等: "K-Autoencoders Deep Clustering", 《2020 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING(ICASSP)》 *
潘仲赢: "基于机器学习算法的犯罪预警系统设计与实现", 《社会科技I辑》 *

Similar Documents

Publication Publication Date Title
CN111000553B (zh) 一种基于投票集成学习的心电数据智能分类方法
CN111899882B (zh) 一种预测癌症的方法及系统
CN105260598A (zh) 口腔诊疗决策支持系统及决策方法
CN109800288B (zh) 一种基于知识图谱的科学研究热点分析与预测方法
EA006272B1 (ru) Эвристический способ классификации
CN107247873B (zh) 一种差异甲基化位点识别方法
CN109543775A (zh) 一种基于密度聚类的面向聚类算法的特征选择方法
CN111680719A (zh) 一种基于距离平方和差值比的聚类有效性评估方法
JP4817502B2 (ja) デシジョンツリーを生成するためのシステムおよび方法
CN110458094B (zh) 基于指纹相似度的设备分类方法
CN111524600A (zh) 基于neighbor2vec的肝癌术后复发风险预测系统
CN109509517A (zh) 一种医学检验检查指标自动修正的方法
CN111738304A (zh) 一种高维特征空间中基于聚类算法的就诊人群分组方法
CN109935277B (zh) 一种异构网络中基于元路径的异常模体查询方法
CN109598275A (zh) 特征选择装置、方法及电子设备
CN104794215A (zh) 一种适合大规模数据的快速递归聚类方法
CN115017988A (zh) 一种用于状态异常诊断的竞争聚类方法
CN110476215A (zh) 用于多序列文件的签名-散列
US20210272137A1 (en) Apparatus for Fast Clustering of Massive Data Based on Variate-Specific Population Strata
CN110265151B (zh) 一种基于ehr中异构时态数据的学习方法
CN117575745B (zh) 基于ai大数据的课程教学资源个性推荐方法
CN116226348B (zh) 一种基于知识图谱的学习方法
TWI805290B (zh) 用於預測肺腺癌是否具有表皮生長因子受體突變的方法
CN111126121B (zh) 人脸识别模型的调整方法、装置、设备及存储介质
CN108959853A (zh) 一种拷贝数变异的分析方法、分析装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201002