CN109961851A - 一种基于改进k均值聚类的疾病危险因素提取方法 - Google Patents

一种基于改进k均值聚类的疾病危险因素提取方法 Download PDF

Info

Publication number
CN109961851A
CN109961851A CN201910139120.2A CN201910139120A CN109961851A CN 109961851 A CN109961851 A CN 109961851A CN 201910139120 A CN201910139120 A CN 201910139120A CN 109961851 A CN109961851 A CN 109961851A
Authority
CN
China
Prior art keywords
cluster
user information
information matrix
matrix
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910139120.2A
Other languages
English (en)
Inventor
徐雷
姚澜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201910139120.2A priority Critical patent/CN109961851A/zh
Publication of CN109961851A publication Critical patent/CN109961851A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于改进K均值聚类的疾病危险因素提取方法,该方法包括以下步骤:首先根据疾病的用户调查问卷,构建用户信息矩阵与标签向量;其次对用户信息矩阵进行标准化;然后对标准化用户信息矩阵进行特征选择,采取卡方检验与去除方差最小的方法取交集,得到相关特征,构建问题特征数据矩阵;之后结合改进的Canopy算法与K均值算法,对问题特征数据矩阵中的特征属性进行聚类分析,获得不同的类簇;最后对每个类簇进行相关系数分析,取相关指数最大的特征作为该类簇代表特征,加入危险因素集合。本发明的方法相对于目前医学领域中危险因素提取方法中的频率论方法,能够更高效、准确地提取疾病危险因素。

Description

一种基于改进K均值聚类的疾病危险因素提取方法
技术领域
本发明涉及大数据技术与医学领域,特别是一种基于改进K均值聚类的疾病危险因素提取方法。
背景技术
胃食管反流疾病是指胃反流物反流入食管,引起不适症状和并发症的一种疾病,作为一种消化系统临床常见病,普遍存在于亚洲和西方各个国家,且发病率呈逐年升高的趋势。据研究发现,胃食管反流疾病与个人生活、饮食习惯、精神状况等多方面因素相关,且病情容易发生变化。因此,通过大数据技术探究引起胃食管反流疾病发病的危险因素对于该疾病的治疗与预防有重要意义。
目前针对引起胃食管反流等疾病的危险因素,各医学杂志根据临床经验以及理论知识总结出了可能引发该疾病的危险因素,但是这些方法往往存在一些弊端,一方面,大多数分析与研究往往存在样本量少,分析因素少,使得最终结果不具有泛化能力,人为分析需要大量的经验知识积累,缺乏权威性与科学性;另一方面,分析方法单一,大多基于统计学方法以及临床研究与医学经验相结合,当面临样本数足够多,疾病涉及因素广的情况时,此类方法往往导致效率低下,分析出的结果对于疾病的预防与诊治没有太大的帮助。
目前所存在的危险因素提取方法大多是基于传统统计学的统计推断方法,从对人群医学数据的分析中生成关于总体参数即致病因素的可能命题,估计由该因素引起患病的结果为偶然引发的概率。该类方法往往受到计算资源匮乏的限制,且计算方法单一,大多是基于t检验或卡方检验等方法对数据集进行验证。
在大数据分析技术中,聚类分析是处理复杂数据集的数值分类技术,是在缺乏划分标准或外在基准的情况下,根据事物本身的特性对所研究的对象进行分类。当前对于疾病危险因素的提取采用的聚类方法大多是层次聚类,在划分类簇时往往需要专业的医学知识对类簇特征进行确定,且计算量大。
在目前的聚类方法中,传统K均值算法存在两个缺点:1)初始点的选取问题,初始点的选取问题,目前已有多种解决方法,但还是不可避免的存在随机化的问题;2)聚类数目的确定,在对数据没有深刻理解之前,选取聚类数目无疑是个较大的难题,目前所存在的方法大多是基于评分机制给出,但此种方法一旦涉及到大数据时,会有较大的计算量。Canopy算法存在以下几个缺点:1)聚类精度较低,该算法形成若干个相互交叉包含的canopy,存在较大误差;2)存在随机化部分,即每次选取canopy中心点时是随机选取的;3)需要人为确定距离阈值T1,T2,该距离的确定存在一定难度。
发明内容
本发明所要解决的技术问题在于提供一种从疾病数据中更准确、高效率的提取关键致病因素的方法。
实现本发明目的的技术解决方案为:一种基于改进K均值聚类的疾病危险因素提取方法,包括以下步骤:
步骤1、根据疾病的用户调查问卷,构建用户信息矩阵与标签向量;
步骤2、对所述用户信息矩阵进行标准化处理,获得标准化用户信息矩阵;
步骤3、结合特征选择方法,根据标准化用户信息矩阵和标签向量获取调查问卷问题特征集合;
步骤4、根据步骤3获得的特征集合中的元素,对所述标准化用户信息矩阵进行特征选择,并对特征选择后的标准化用户信息矩阵进行转置,获得问题特征数据矩阵;
步骤5、对所述问题特征数据矩阵进行Canopy聚类,获得聚类数目K与聚类中心集合C;
步骤6、对所述问题特征数据矩阵进行K均值聚类,以所述聚类数目K作为聚类数目,聚类中心集合C作为K均值聚类的初始聚类中心,获得K个类簇;
步骤7、对每个类簇进行相关系数分析,计算每个类簇中所有特征的相关指数,并将该类簇中相关指数最大的特征作为代表因素,加入危险因素集合,该危险因素集合中的每一个元素即为疾病危险因素。
本发明与现有技术相比,其显著优点为:1)本发明利用特征选择取交集的方法解决了处理医学数据大样本、高维度的难题,同时提高了特征提取的准确率;2)本发明提出了一种Canopy聚类结合K均值聚类方法,通过交叉验证的方式解决了距离阈值难以确定的问题;3)本发明通过最小最大原则选取Canopy中心,解决了Canopy聚类精度低的问题;4)本发明将Canopy聚类同K均值聚类相结合,解决了K均值聚类所存在聚类数目与初始聚类中心难以确定的问题;5)本发明相对于目前医学领域中危险因素提取方法中的频率论方法,效率、准确率更高。
下面结合附图对本发明作进一步详细描述。
附图说明
图1为本发明基于改进K均值聚类的疾病危险因素提取方法流程图。
图2为本发明中Canopy聚类方法流程图。
图3为本发明中K均值聚类方法流程图。
具体实施方式
结合图1,本发明一种基于改进K均值聚类的疾病危险因素提取方法,包括以下步骤:
步骤1、根据疾病的用户调查问卷,构建用户信息矩阵与标签向量;
步骤2、对所述用户信息矩阵进行标准化处理,获得标准化用户信息矩阵;
步骤3、结合特征选择方法,根据标准化用户信息矩阵和标签向量获取调查问卷问题特征集合;
步骤4、根据步骤3获得的特征集合中的元素,对所述标准化用户信息矩阵进行特征选择,并对特征选择后的标准化用户信息矩阵进行转置,获得问题特征数据矩阵;
步骤5、对所述问题特征数据矩阵进行Canopy聚类,获得聚类数目K与聚类中心集合C;
步骤6、对所述问题特征数据矩阵进行K均值聚类,以所述聚类数目K作为聚类数目,聚类中心集合C作为K均值聚类的初始聚类中心,获得K个类簇;
步骤7、对每个类簇进行相关系数分析,计算每个类簇中所有特征的相关指数,并将该类簇中相关指数最大的特征作为代表因素,加入危险因素集合,该危险因素集合中的每一个元素即为疾病危险因素。
进一步地,步骤1中根据某种疾病用户调查问卷,构建用户信息矩阵与标签向量,具体为:
步骤1-1、收集若干份针对某种疾病的用户调查问卷,该问卷包括用户问卷ID号、若干问题及对应的选项,由所有用户调查问卷构建用户信息矩阵I,矩阵I的维度为N*(M+1),N为参与调查的用户数目,M为调查问卷问题数目;
所述用户信息矩阵I中,第i行第1列的特征为用户问卷ID号;
所述用户信息矩阵I中,第i行第j列为第i个用户问卷对第j个问题的答案,其中1≤i≤N,2≤j≤M+1;
步骤1-2、构建N*1的标签向量target,标签向量target中的第i个值表示第i个用户是否患病,其中0表示用户未患病,1表示用户患病。
进一步地,步骤2中对用户信息矩阵进行标准化处理,具体为:
采用Z-score标准化算法对用户信息矩阵进行标准化处理以使每个维度的数据服从均值为0、方差为1的分布,由此获得N*(M+1)的标准化用户信息矩阵。
进一步地,步骤3中结合特征选择方法,根据标准化用户信息矩阵和标签向量获取调查问卷问题特征集合,具体为:
步骤3-1、结合标签向量对所述标准化用户信息矩阵进行卡方检验,获得卡方检验对应的调查问卷问题特征集合;
步骤3-2、结合标签向量对所述标准化用户信息矩阵进行去除方差最小的特征选择,获得去除方差最小对应的调查问卷问题特征集合;
步骤3-3、对步骤3-1和步骤3-2中两个调查问卷问题特征集合取交集,获得最终的特征集合。
优选地,步骤3中结合特征选择方法,根据标准化用户信息矩阵和标签向量获取调查问卷问题特征集合,具体为:
步骤3-1’、结合标签向量对所述标准化用户信息矩阵进行卡方检验,保留与标签向量相关的q个问题特征,获得卡方检验对应的调查问卷问题特征集合,其中q=p%*全部问题特征数量;
步骤3-2’、结合标签向量对所述标准化信息矩阵结合标签向量进行去除方差最小的特征选择,保留与标签向量相关的q个问题特征,获得去除方差最小对应的调查问卷问题特征集合;
步骤3-3’、对步骤3-1’和步骤3-2’中两个调查问卷问题特征集合取交集,获得最终的调查问卷问题特征集合。
进一步地,步骤4中根据步骤3获得的特征集合中的元素,对标准化用户信息矩阵进行特征选择,并对特征选择后的标准化用户信息矩阵进行转置,获得问题特征数据矩阵,具体为:
将标准化用户信息矩阵中存在于步骤3获得的特征集合中的特征保留,并对特征选择后的标准化用户信息矩阵的矩阵进行转置,获得特征数据矩阵,该矩阵的大小relnum*N,其中relnum=p*10-2*M。
进一步优选地,p%=75%。
进一步地,结合图2,步骤5中对问题特征数据矩阵进行Canopy聚类,获得聚类数目K与初始聚类中心集合C,具体为:
步骤5-1、构建与问题特征数据矩阵相同的矩阵,记为候选中心向量名单List;
步骤5-2、按照交叉验证设定距离阈值T1、T2,且T1>T2
步骤5-3、在候选中心向量名单List中随机选取一个样本作为初始聚类中心点,且作为第一个Canopy的聚类中心点及Canopy,并将其加入聚类中心集合C,且在候选中心向量名单List中删除该样本;
步骤5-4、在候选中心向量名单List中任选一个样本,计算其与聚类中心集合C中每个元素之间的距离dj,其中dj表示该样本与聚类中心集合中第j个元素的距离;
步骤5-5、将步骤5-4获得的dj与距离阈值T1、T2进行比较,若dj<T1,则将dj对应的样本划入聚类中心集合C中第j个元素所在的Canopy中,进一步,若dj<T2,则将该样本从候选中心向量名单List中移除;
步骤5-6、遵循最小最大原则,在候选中心向量名单List中选取样本作为下一个聚类中心点,将其加入聚类中心集合C,并将其作为一个新的Canopy,且在候选中心向量名单List中删除该样本;
步骤5-7、重复步骤5-4~步骤5-6,直至候选中心向量名单List为空,结束Canopy聚类;之后将Canopy数量作为聚类数目K,Canopy聚类中心点集合CC1,C2,…,Cn},其中n为聚类中心点的数目,Ci'为第i'个Canopy聚类中心点。
进一步地,步骤7中对每个类簇进行相关系数分析,计算每个类簇中所有特征的相关指数,并将该类簇中相关指数最大的特征作为代表因素,加入危险因素集合,具体为:
步骤7-1、对每个类簇进行相关系数分析,其中相关系数的计算公式为:
式中,cov(X,Y)为X,Y间的协方差,σX为X的标准差,σY为Y的标准差,X、Y均为每个类簇中的任意问题特征;
步骤7-2、计算每个类簇中所有特征的相关指数,所用公式为:
式中,X为每类簇中的某项问题特征,Yj'为该类簇中第j'项问题特征,为问题特征X与问题特征Yj'的相关系数,其中j'=2.....M+1,M为调查问卷问题数目。
实施例
1、根据某种疾病的用户调查问卷,构建用户信息矩阵与标签向量:本实施例中采取乳腺癌数据集构建用户信息矩阵与标签向量,共有569例细胞活检案例,每个案例有30个乳房肿块活检图像显示的细胞核的特征,答案为数值型的指标,包括细胞核的半径(radius)、质地(texture)、周长(perimeter)、面积(area)、光滑度(smoothness)、凹度(concavity)、对称度(symmetry)、紧密度(compactness)、凹点(concave points)、分形维度(fractal dimension)的均值、标准差和最大值。用户数据信息矩阵大小为569*31,其中第一列表示案例唯一标识号。本实施例中问题特征具体为:['mean radius','meantexture','mean perimeter','mean area','mean smoothness','mean compactness','mean concavity','mean concave points','mean symmetry','mean fractaldimension','radius error','texture error','perimeter error','area error','smoothness error','compactness error','concavity error','concave pointserror','symmetry error','fractal dimension error','worst radius','worsttexture','worst perimeter','worst area','worst smoothness','worstcompactness','worst concavity','worst concave points','worst symmetry','worstfractal dimension']。
标签向量为569例案例的疾病诊断结果,0表示良性,1表示恶性,标签向量大小为569*1。
2、对用户信息矩阵进行标准化处理,使得数据分布服从方差为1,均值为0,获得标准化用户信息矩阵。
标准化处理具体内容如下:
datastand=[x1,x'2,...,xi',...,x'M+1]
式中,xj为用户信息矩阵中的第j列,j=2...M+1;xj'为N*1矩阵,为标准化后的用户信息矩阵的第j列;为用户信息矩阵第j列数据的均值;sj为用户信息矩阵第j列数据方差;xij为用户信息矩阵中的第i行第j列元素;datastand为标准化用户信息矩阵;
除第一列外各维度均值为:
除第一列外各维度方差为:
s=[1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]。
3、结合特征选择方法,根据标准化用户信息矩阵和标签向量获取调查问卷问题特征集合;具体为:
步骤3-1、结合标签向量对所述标准化用户信息矩阵进行卡方检验,保留与标签向量相关的(75%*全部问题特征数量)的问题特征,获得卡方检验对应的调查问卷问题特征集合;
本实施例中获得的卡方检验对应的调查问卷问题特征集合为:
['concave points error','worst smoothness','compactness error','concavity error','worst symmetry','mean compactness','mean concave points','worst concave points','worst compactness','mean concavity','radius error','worst concavity','mean texture','worst texture','perimeter error','meanradius','worst radius','mean perimeter','worst perimeter','area error','meanarea','worst area']
步骤3-2、结合标签向量对所述标准化信息矩阵结合标签向量进行去除方差最小的特征选择,保留与标签向量相关的(75%*全部问题特征数量)的问题特征,获得去除方差最小对应的调查问卷问题特征集合;
本实施例中获得的去除方差最小对应的调查问卷问题特征集合为:
['worst smoothness','mean symmetry','concavity error','mean concavepoints','mean compactness','worst symmetry','worst concave points','meanconcavity','worst compactness','worst concavity','radius error','textureerror','perimeter error','mean radius','mean texture','worst radius','worsttexture','mean perimeter','worst perimeter','area error','mean area','worstarea']
步骤3-3、对步骤3-1和步骤3-2中两个调查问卷问题特征集合取交集,获得最终的特征集合。
本实施例中最终获得的特征集合为:
{'worst area','concavity error','worst compactness','radius error','mean compactness','area error','mean concavity','mean texture','worstperimeter','worst symmetry','worst texture','mean perimeter','worst concavepoints','mean radius','worst smoothness','worst radius','mean area','worstconcavity','mean concave points','perimeter error'}。
4、根据上述3获得的最终特征集合中的元素,对标准化用户信息矩阵进行特征选择,并对特征选择后的标准化用户信息矩阵进行转置,获得问题特征数据矩阵,矩阵大小为569*20。
5、对问题特征数据矩阵进行Canopy聚类,获得聚类数目K与聚类中心集合C,本实施例中获得的K为7。
6、结合图3,对特征数据矩阵进行K均值聚类,以上述5中的聚类数目K作为聚类数目,聚类中心集合C作为K均值聚类的初始聚类中心,获得7个类簇。其中,二十个特征分别对应的类簇编号为[3 5 6 0 1 2 6 4 1 0 0 4 0 0 0 1 1 5 5 5];
7、对每个类簇进行相关系数分析,计算每个类簇中所有特征的相关指数,并将该类簇中相关指数最大的特征作为代表因素,加入危险因素集合,
具体包括:
相关系数计算如下:
其中,cov(X,Y)为X,Y间的协方差,σX为X的标准差,σY为Y的标准差,X,Y均为每个类簇中的任意问题特征;
相关指数计算如下:
式中,X为每类簇中的某项问题特征,Yj'为该类簇中第j'项问题特征,为问题特征X与问题特征Yj'的相关系数,其中j'=2.....M+1,M为调查问卷问题数目。
本实施例中最终获得的危险因素集合为['worst smoothness','worst area','worst concave points','worst texture','mean concavity',perimeter error','meanperimeter']。
本发明实现了K均值聚类在医学领域特别是疾病危险因素的提取,通过对Canopy聚类与K均值聚类进行改进并将其结合的方法,克服了两者各自的缺点,并将特征分成几个类簇,通过计算相关系数从每个类簇中选取最有代表性的因素,实现了高效、准确地提取疾病危险因素。

Claims (9)

1.一种基于改进K均值聚类的疾病危险因素提取方法,其特征在于,包括以下步骤:
步骤1、根据疾病的用户调查问卷,构建用户信息矩阵与标签向量;
步骤2、对所述用户信息矩阵进行标准化处理,获得标准化用户信息矩阵;
步骤3、结合特征选择方法,根据标准化用户信息矩阵和标签向量获取调查问卷问题特征集合;
步骤4、根据步骤3获得的特征集合中的元素,对所述标准化用户信息矩阵进行特征选择,并对特征选择后的标准化用户信息矩阵进行转置,获得问题特征数据矩阵;
步骤5、对所述问题特征数据矩阵进行Canopy聚类,获得聚类数目K与聚类中心集合C;
步骤6、对所述问题特征数据矩阵进行K均值聚类,以所述聚类数目K作为聚类数目,聚类中心集合C作为K均值聚类的初始聚类中心,获得K个类簇;
步骤7、对每个类簇进行相关系数分析,计算每个类簇中所有特征的相关指数,并将该类簇中相关指数最大的特征作为代表因素,加入危险因素集合,该危险因素集合中的每一个元素即为疾病危险因素。
2.根据权利要求1所述的基于改进K均值聚类的疾病危险因素提取方法,其特征在于,步骤1所述根据某种疾病用户调查问卷,构建用户信息矩阵与标签向量,具体为:
步骤1-1、收集若干份针对某种疾病的用户调查问卷,该问卷包括用户问卷ID号、若干问题及对应的选项,由所有用户调查问卷构建用户信息矩阵I,矩阵I的维度为N*(M+1),N为参与调查的用户数目,M为调查问卷问题数目;
所述用户信息矩阵I中,第i行第1列的特征为用户问卷ID号;
所述用户信息矩阵I中,第i行第j列为第i个用户问卷对第j个问题的答案,其中1≤i≤N,2≤j≤M+1;
步骤1-2、构建N*1的标签向量target,标签向量target中的第i个值表示第i个用户是否患病,其中0表示用户未患病,1表示用户患病。
3.根据权利要求1或2所述的基于改进K均值聚类的疾病危险因素提取方法,其特征在于,步骤2中所述对用户信息矩阵进行标准化处理,具体为:
采用Z-score标准化算法对用户信息矩阵进行标准化处理以使每个维度的数据服从均值为0、方差为1的分布,由此获得N*(M+1)的标准化用户信息矩阵。
4.根据权利要求1或2所述的基于改进K均值聚类的疾病危险因素提取方法,其特征在于,步骤3所述结合特征选择方法,根据标准化用户信息矩阵和标签向量获取调查问卷问题特征集合,具体为:
步骤3-1、结合标签向量对所述标准化用户信息矩阵进行卡方检验,获得卡方检验对应的调查问卷问题特征集合;
步骤3-2、结合标签向量对所述标准化用户信息矩阵进行去除方差最小的特征选择,获得去除方差最小对应的调查问卷问题特征集合;
步骤3-3、对步骤3-1和步骤3-2中两个调查问卷问题特征集合取交集,获得最终的特征集合。
5.根据权利要求4所述的基于改进K均值聚类的疾病危险因素提取方法,其特征在于,步骤3所述结合特征选择方法,根据标准化用户信息矩阵和标签向量获取调查问卷问题特征集合,具体为:
步骤3-1’、结合标签向量对所述标准化用户信息矩阵进行卡方检验,保留与标签向量相关的q个问题特征,获得卡方检验对应的调查问卷问题特征集合,其中q=p%*全部问题特征数量;
步骤3-2’、结合标签向量对所述标准化信息矩阵结合标签向量进行去除方差最小的特征选择,保留与标签向量相关的q个问题特征,获得去除方差最小对应的调查问卷问题特征集合;
步骤3-3’、对步骤3-1’和步骤3-2’中两个调查问卷问题特征集合取交集,获得最终的调查问卷问题特征集合。
6.根据权利要求5所述的基于改进K均值聚类的疾病危险因素提取方法,其特征在于,步骤4所述根据步骤3获得的特征集合中的元素,对标准化用户信息矩阵进行特征选择,并对特征选择后的标准化用户信息矩阵进行转置,获得问题特征数据矩阵,具体为:
将标准化用户信息矩阵中存在于步骤3获得的特征集合中的特征保留,并对特征选择后的标准化用户信息矩阵的矩阵进行转置,获得特征数据矩阵,该矩阵的大小relnum*N,其中relnum=p*10-2*M。
7.根据权利要求6所述的基于改进K均值聚类的疾病危险因素提取方法,其特征在于,所述p%=75%。
8.根据权利要求1所述的基于改进K均值聚类的疾病危险因素提取方法,其特征在于,步骤5所述对问题特征数据矩阵进行Canopy聚类,获得聚类数目K与初始聚类中心集合C,具体为:
步骤5-1、构建与问题特征数据矩阵相同的矩阵,记为候选中心向量名单List;
步骤5-2、按照交叉验证设定距离阈值T1、T2,且T1>T2
步骤5-3、在候选中心向量名单List中随机选取一个样本作为初始聚类中心点,且作为第一个Canopy的聚类中心点及Canopy,并将其加入聚类中心集合C,且在候选中心向量名单List中删除该样本;
步骤5-4、在候选中心向量名单List中任选一个样本,计算其与聚类中心集合C中每个元素之间的距离dj,其中dj表示该样本与聚类中心集合中第j个元素的距离;
步骤5-5、将步骤5-4获得的dj与距离阈值T1、T2进行比较,若dj<T1,则将dj对应的样本划入聚类中心集合C中第j个元素所在的Canopy中,进一步,若dj<T2,则将该样本从候选中心向量名单List中移除;
步骤5-6、遵循最小最大原则,在候选中心向量名单List中选取样本作为下一个聚类中心点,将其加入聚类中心集合C,并将其作为一个新的Canopy,且在候选中心向量名单List中删除该样本;
步骤5-7、重复步骤5-4~步骤5-6,直至候选中心向量名单List为空,结束Canopy聚类;之后将Canopy数量作为聚类数目K,Canopy聚类中心点集合CC1,C2,…,Cn},其中n为聚类中心点的数目,Ci'为第i'个Canopy聚类中心点。
9.根据权利要求1所述的基于改进K均值聚类的疾病危险因素提取方法,其特征在于,步骤7中所述对每个类簇进行相关系数分析,计算每个类簇中所有特征的相关指数,并将该类簇中相关指数最大的特征作为代表因素,加入危险因素集合,具体为:
步骤7-1、对每个类簇进行相关系数分析,其中相关系数的计算公式为:
式中,cov(X,Y)为X,Y间的协方差,σX为X的标准差,σY为Y的标准差,X、Y均为每个类簇中的任意问题特征;
步骤7-2、计算每个类簇中所有特征的相关指数,所用公式为:
式中,X为每类簇中的某项问题特征,Yj'为该类簇中第j'项问题特征,为问题特征X与问题特征Yj'的相关系数,其中j'=2.....M+1,M为调查问卷问题数目。
CN201910139120.2A 2019-02-25 2019-02-25 一种基于改进k均值聚类的疾病危险因素提取方法 Pending CN109961851A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910139120.2A CN109961851A (zh) 2019-02-25 2019-02-25 一种基于改进k均值聚类的疾病危险因素提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910139120.2A CN109961851A (zh) 2019-02-25 2019-02-25 一种基于改进k均值聚类的疾病危险因素提取方法

Publications (1)

Publication Number Publication Date
CN109961851A true CN109961851A (zh) 2019-07-02

Family

ID=67023681

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910139120.2A Pending CN109961851A (zh) 2019-02-25 2019-02-25 一种基于改进k均值聚类的疾病危险因素提取方法

Country Status (1)

Country Link
CN (1) CN109961851A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110414569A (zh) * 2019-07-03 2019-11-05 北京小米智能科技有限公司 聚类实现方法及装置
CN112926442A (zh) * 2021-02-24 2021-06-08 杭州电子科技大学 一种图像目标数据集均衡完备的构建方法
CN113380406A (zh) * 2021-04-28 2021-09-10 航天医疗健康科技集团有限公司 疾病风险智能化评估方法及装置
CN113707317A (zh) * 2021-08-23 2021-11-26 电子科技大学 一种基于混合模型的疾病危险因素重要性分析方法
CN114969015A (zh) * 2022-06-20 2022-08-30 立信(重庆)数据科技股份有限公司 一种调研数据标准化方法、系统及存储介质
CN116705342A (zh) * 2023-06-12 2023-09-05 广东工业大学 一种呼吸道传染病风险控制决策方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2112603A2 (en) * 2008-04-25 2009-10-28 Xerox Corporation Clustering using non-negative matrix factorization on sparse graphs
CN105095266A (zh) * 2014-05-08 2015-11-25 中国科学院声学研究所 一种基于Canopy算法的聚类优化方法及系统
CN106484838A (zh) * 2016-09-30 2017-03-08 中国南方电网有限责任公司 基于数据挖掘的安全检查标准库动态更新方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2112603A2 (en) * 2008-04-25 2009-10-28 Xerox Corporation Clustering using non-negative matrix factorization on sparse graphs
CN105095266A (zh) * 2014-05-08 2015-11-25 中国科学院声学研究所 一种基于Canopy算法的聚类优化方法及系统
CN106484838A (zh) * 2016-09-30 2017-03-08 中国南方电网有限责任公司 基于数据挖掘的安全检查标准库动态更新方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王有为 等: "聚类技术在医学数据中的应用", 《河南教育学院学报( 自然科学版)》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110414569A (zh) * 2019-07-03 2019-11-05 北京小米智能科技有限公司 聚类实现方法及装置
US11501099B2 (en) 2019-07-03 2022-11-15 Beijing Xiaomi Intelligent Technology Co., Ltd. Clustering method and device
CN112926442A (zh) * 2021-02-24 2021-06-08 杭州电子科技大学 一种图像目标数据集均衡完备的构建方法
CN112926442B (zh) * 2021-02-24 2024-03-29 杭州电子科技大学 一种图像目标数据集均衡完备的构建方法
CN113380406A (zh) * 2021-04-28 2021-09-10 航天医疗健康科技集团有限公司 疾病风险智能化评估方法及装置
CN113707317A (zh) * 2021-08-23 2021-11-26 电子科技大学 一种基于混合模型的疾病危险因素重要性分析方法
CN113707317B (zh) * 2021-08-23 2023-04-07 电子科技大学 一种基于混合模型的疾病危险因素重要性分析方法
CN114969015A (zh) * 2022-06-20 2022-08-30 立信(重庆)数据科技股份有限公司 一种调研数据标准化方法、系统及存储介质
CN116705342A (zh) * 2023-06-12 2023-09-05 广东工业大学 一种呼吸道传染病风险控制决策方法及系统
CN116705342B (zh) * 2023-06-12 2024-02-02 广东工业大学 一种呼吸道传染病风险控制决策方法及系统

Similar Documents

Publication Publication Date Title
CN109961851A (zh) 一种基于改进k均值聚类的疾病危险因素提取方法
Huang et al. Do the SF-36 and WHOQOL-BREF measure the same constructs? Evidence from the Taiwan population
Fusco et al. Pattern recognition approaches for breast cancer DCE-MRI classification: a systematic review
Whelan et al. Multidimensional poverty measurement in Europe: An application of the adjusted headcount approach
CN109582875A (zh) 一种在线医疗教育资源的个性化推荐方法及系统
Verhaeghe et al. The position generator approach to social capital research: measurements and results
Cho et al. Similarity evaluation in a content‐based image retrieval (CBIR) CADx system for characterization of breast masses on ultrasound images
Couvy-Duchesne et al. Ensemble learning of convolutional neural network, support vector machine, and best linear unbiased predictor for brain age prediction: Aramis contribution to the predictive analytics competition 2019 challenge
Stephenson et al. Contextual influences on reproductive wellness in northern India
CN102421357A (zh) 基于传统中医(tcm)原理确定皮肤组成的电脑辅助诊断系统和方法
Khajehei et al. Data mining and medical research studies
Franks et al. Defining primary care: empirical analysis of the National Ambulatory Medical Care Survey
Ivlev et al. Use of patient decision aids increased younger women’s reluctance to begin screening mammography: a systematic review and meta-analysis
TW201100058A (en) System and method of using digital image multi-region analysis to establish and analyze skin parameters
Plemons et al. Ancestry estimation using macromorphoscopic traits
De Winter et al. Starting out in statistics: An introduction for students of human health, disease, and psychology
Jothi et al. Soft set based feature selection approach for lung cancer images
Gray et al. Health expenditure, income and health status among Indigenous and other Australians
Hisham et al. Multivariate statistical analysis for race variation from foot anthropometry in the Malaysian population
Fu Application of artificial intelligence technology in medical cell biology
CN109978007A (zh) 一种基于属性权重聚类的疾病危险因素提取方法
Sanjel et al. Inferred networks and the social determinants of health
Su et al. Whole slide cervical image classification based on convolutional neural network and random forest
JP6601988B1 (ja) 情報生成システム及び情報生成方法
Njiru Clustering and visualizing the status of child health in Kenya: A data mining approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20230228

AD01 Patent right deemed abandoned