CN109978007A - 一种基于属性权重聚类的疾病危险因素提取方法 - Google Patents

一种基于属性权重聚类的疾病危险因素提取方法 Download PDF

Info

Publication number
CN109978007A
CN109978007A CN201910139122.1A CN201910139122A CN109978007A CN 109978007 A CN109978007 A CN 109978007A CN 201910139122 A CN201910139122 A CN 201910139122A CN 109978007 A CN109978007 A CN 109978007A
Authority
CN
China
Prior art keywords
vector
cluster
user information
information matrix
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910139122.1A
Other languages
English (en)
Inventor
徐雷
姚澜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201910139122.1A priority Critical patent/CN109978007A/zh
Publication of CN109978007A publication Critical patent/CN109978007A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Abstract

本发明公开了一种基于属性权重聚类的疾病危险因素提取方法,该方法包括以下步骤:首先根据用户调查问卷,构建用户信息矩阵与标签向量;之后对用户信息矩阵进行标准化处理;然后对标准化用户信息矩阵进行特征选择,获得特征排名向量;之后根据特征排名向量构建属性权重向量;最后按权重排名依次增加属性并进行改进的K均值聚类分析,计算聚类准确率,若某项属性增加引起聚类准确率上升,则将该项属性加入危险因素集合,最终危险因素集合中的所有元素确定为疾病危险因素。相对于目前医学领域中危险因素提取方法中的频率论方法,本发明的方法根据聚类准确率曲线获得疾病危险因素,其效率、准确率更高。

Description

一种基于属性权重聚类的疾病危险因素提取方法
技术领域
本发明属于大数据技术与医学领域,特别是一种基于属性权重聚类的疾病危险因素提取方法。
背景技术
胃食管反流疾病是指胃反流物反流入食管,引起不适症状和并发症的一种疾病,作为一种消化系统临床常见病,普遍存在于亚洲和西方各个国家,且发病率呈逐年升高的趋势。据研究发现,胃食管反流疾病与个人生活、饮食习惯、精神状况等多方面因素相关,且病情容易发生变化。因此,通过大数据技术探究引起胃食管反流疾病发病的危险因素对于该疾病的治疗与预防有重要意义。
目前针对引起胃食管反流等疾病的危险因素,各医学杂志根据临床经验以及理论知识总结出了可能引发该疾病的危险因素,但是这些方法往往存在一些弊端,一方面,大多数分析与研究往往存在样本量少,分析因素少,使得最终结果不具有泛化能力,人为分析需要大量的经验知识积累,缺乏权威性与科学性;另一方面,分析方法单一,大多基于统计学方法以及临床研究与医学经验相结合,当面临样本数足够多,疾病涉及因素广的情况时,此类方法往往导致效率低下,分析出的结果对于疾病的预防与诊治没有太大的帮助。
目前所存在的危险因素提取方法大多是基于传统统计学的统计推断方法,从对人群医学数据的分析中生成关于总体参数即致病因素的可能命题,估计由该因素引起患病的结果为偶然引发的概率。该类方法往往受到计算资源匮乏的限制,且计算方法单一,大多是基于t检验或卡方检验等方法对数据集进行验证。
在大数据分析技术中,聚类分析是处理复杂数据集的数值分类技术,是在缺乏划分标准或外在基准的情况下,根据事物本身的特性对所研究的对象进行分类。当前对于疾病危险因素的提取采用的聚类方法大多是层次聚类,在划分类簇时往往需要专业的医学知识对类簇特征进行确定,且计算量大。
发明内容
本发明所解决的技术问题在于提供一种从高维度医学疾病数据中提取关键致病因素的提取方法。
实现本发明目的的技术解决方案为:一种基于属性权重聚类的疾病危险因素提取方法,包括以下步骤:
步骤1、根据某种疾病的用户调查问卷,构建用户信息矩阵与标签向量;
步骤2、对所述用户信息矩阵进行标准化处理,获得标准化用户信息矩阵;
步骤3、对所述标准化用户信息矩阵进行特征选择,获得特征排名向量;
步骤4、根据所述特征排名向量构建属性权重向量;
步骤5、根据所述属性权重向量对标准化用户信息矩阵中的第一个调查问卷问题特征进行聚类,计算聚类准确率,之后逐一增加问题特征,并重新计算聚类准确率,直至聚类完所有问题特征,将其中引起准确率上升的问题特征加入危险因素集合,该集合中的每个元素即为疾病危险因素。
本发明与现有技术相比,其显著优点为:1)本发明利用特征选择技术解决了处理医学数据大样本、高维度的难题;2)本发明根据基于支持向量机的递归特征消除方法构建了属性权重向量,更具可解释性,相对于原始K均值聚类方法更能提高聚类准确性;3)相对于目前医学领域中危险因素提取方法中的频率论方法,本发明的方法根据聚类准确率曲线得出疾病危险因素,效率、准确率更高。
下面结合附图对本发明作进一步详细描述。
附图说明
图1为本发明基于属性权重聚类的疾病危险因素提取方法流程图。
图2为本发明中改进的K均值聚类方法流程图。
图3为本发明实施例中聚类准确率曲线图。
具体实施方式
结合图1,本发明一种基于属性权重聚类的疾病危险因素提取方法,包括以下步骤:
步骤1、根据某种疾病的用户调查问卷,构建用户信息矩阵与标签向量;
步骤2、对所述用户信息矩阵进行标准化处理,获得标准化用户信息矩阵;
步骤3、对所述标准化用户信息矩阵进行特征选择,获得特征排名向量;
步骤4、根据所述特征排名向量构建属性权重向量;
步骤5、根据所述属性权重向量对标准化用户信息矩阵中的第一个调查问卷问题特征进行聚类,计算聚类准确率,之后逐一增加问题特征,并重新计算聚类准确率,直至聚类完所有问题特征,将其中引起准确率上升的问题特征加入危险因素集合,该集合中的每个元素即为疾病危险因素。
进一步地,步骤1中根据某种疾病用户调查问卷,构建用户信息矩阵与标签向量,具体为:
步骤1-1、收集若干份针对某种疾病的用户调查问卷,该问卷包括用户问卷ID号、若干问题及对应的选项,由所有用户调查问卷构建用户信息矩阵I,矩阵I的维度为N*(M+1),N为参与调查的用户数目,M为调查问卷中问题特征的数量;
所述用户信息矩阵I中,第i行第1列的特征为用户问卷ID号;
所述用户信息矩阵I中,第i行第j列为第i个用户问卷对第j个问题的答案,其中1≤i≤N,2≤j≤M+1;
步骤1-2、构建N*1的标签向量target,标签向量target中的第i个值表示第i个用户卷对应的用户是否患病,其中0表示用户未患病,1表示用户患病。
进一步优选地,步骤2中对用户信息矩阵进行标准化处理,获得标准化用户信息矩阵,具体为:
采用Z-score标准化算法对用户信息矩阵进行标准化处理以使每个维度的数据服从均值为0、方差为1的分布,由此获得N*(M+1)的标准化用户信息矩阵。
进一步地,步骤3中对标准化用户信息矩阵进行特征选择,获得特征排名向量,具体为:
对标准化用户信息矩阵进行基于支持向量机的递归特征消除,由此对调查问卷中所有的问题特征进行特征重要性排序,获得1*M的特征排名向量。
进一步地,步骤4中根据步骤3获得的特征排名向量构建属性权重向量,具体为:
对特征排名向量中每个特征赋予相应的权重值,每个特征对应的权重值的取值大小与该特征在特征排名向量中的排序成正比,排序越靠前权重值越大,由此获得1*M的属性权重向量weight为:
weight=[weight1,weight2,…weightj′,…weightM]j′=1,2…M
其中,
式中,M为调查问卷中问题特征的数量,rank为某一个问题特征在特征排名向量中的排名。
进一步地,步骤5具体为:
步骤5-1、根据特征排名向量,对所述标准化用户信息矩阵进行重构,具体为:将所有问题特征按照特征排名重构标准化用户信息矩阵,其中,第m列表示该问题特征在特征排名向量中的第m项;
步骤5-2、根据所述属性权重向量对步骤5-1重构后的标准化用户信息矩阵中的第1个问题特征进行聚类,获得标签向量label1,根据label1计算聚类准确率t;且令p=2,并将第一个问题特征直接加入危险因素集合,其中label1为N*1的向量矩阵;
步骤5-3、根据所述属性权重向量对步骤5-1重构后的标准化用户信息矩阵中的第1个问题特征~第p个问题特征进行聚类,获得标签向量labelp,并根据labelp计算聚类准确率tp,若tp>t,则将第p个问题特征加入危险因素集合;其中labelp为第p次聚类获得的N*1的向量矩阵;
步骤5-4、令t=tp,p=p+1,若p+1≤M+1,则执行步骤5-3,反之输出危险因素集合。
进一步地,结合图2,步骤5-2、步骤5-3中对问题特征进行聚类具体为:
步骤6-1、选取初始聚类中心向量C,具体为:
步骤6-1-1、构造偏移因子F为:
式中,k为聚类数目,其中,
式中,表示步骤5-1中重构后的标准化用户信息矩阵中第j'列数据的均值,xij'为重构后的标准化用户信息矩阵中的第i行的第j'列,sj′为第i行第j'列数据的方差,其中构成均值向量
sj′构成方差向量s:
s=[s1,s2,...,sj',...sM];
步骤6-1-2、根据均值和偏移因子F求取cnj'为:
式中,cnj'为第n个聚类中心的第j'列,v为偏移因子系数值,n=1,2...k;
步骤6-1-3、由步骤6-1-2获得第n个聚类中心Cn为:
Cn=[cn1,cn2,...cnj',...cnM]
则获得初始聚类中心向量C为:
C=[C1,C2,...Cn,...Ck]n∈[1,k];
步骤6-2、进行基于属性权重的K均值聚类,具体为:
步骤6-2-1、设置循环变量ClusterChanged的初始值为ClusterChanged=False;
步骤6-2-2、求取重构后标准化用户信息矩阵中每个数据到每个初始聚类中心Cn的加权欧式距离,将该数据划分到加权欧式距离最近的中心所属类簇,所述加权欧式距离公式为:
其中,n'为重构后的标准化用户信息矩阵中的某用户样本数据,n'=1,2,...,N,n'j'为该用户样本数据的第j'列,cnj'为聚类中心Cn的第j'列;
步骤6-2-3、重新计算聚类中心向量C*,具体为:
求取第n个聚类中心的第j'列为:
式中,mn为重构后的标准化用户矩阵中Cn类中用户样本数据的个数,xnj'为Cn类中的某用户样本数据的第j'列;
由此获得第n个聚类中心为:
则聚类中心向量C*为:
步骤6-2-4、对比初始聚类中心向量C与步骤6-2-3的聚类中心向量C*,若两者相同,则保持ClusterChanged=False;反之令ClusterChanged=True,并重复执行步骤6-2-1~6-2-4,直至ClusterChanged=False。
进一步地,步骤5-3中根据labelp计算其聚类准确率tp,具体公式为:
式中,labelpi表示labelp的第i行,targeti为标签向量target的第i行;labelpi=targeti表示1,反之表示0。
实施例
本发明基于属性权重聚类的疾病危险因素提取方法,包括以下内容:
1、根据某种疾病的用户调查问卷,构建用户信息矩阵与标签向量:本实施例中采取乳腺癌数据集构建用户信息矩阵与标签向量,共有569例细胞活检案例,每个案例有30个乳房肿块活检图像显示的细胞核的特征,答案为数值型的指标,包括细胞核的半径(radius)、质地(texture)、周长(perimeter)、面积(area)、光滑度(smoothness)、凹度(concavity)、对称度(symmetry)、紧密度(compactness)、凹点(concave points)、分形维度(fractal dimension)的均值、标准差和最大值。由此构建的用户信息矩阵大小为569*31,其中第一列表示案例唯一标识号。本实施例用户信息矩阵中问题特征具体为:['meanradius','mean texture','mean perimeter','mean area','mean smoothness','meancompactness','mean concavity','mean concave points','mean symmetry','meanfractal dimension','radius error','texture error','perimeter error','areaerror','smoothness error','compactness error','concavity error','concavepoints error','symmetry error','fractal dimension error','worst radius','worst texture','worst perimeter','worst area','worst smoothness','worstcompactness','worst concavity','worst concave points','worst symmetry','worstfractal dimension'];
标签向量为569例案例的疾病诊断结果,0表示良性,1表示恶性,标签向量大小为569*1。
2、对用户信息矩阵进行标准化处理,使得数据分布服从方差为1,均值为0,获得标准化用户信息矩阵:
标准化处理具体内容如下:
datastand=[x1,x'2,...,xi',...,x'M+1]
式中,xj为用户信息矩阵中的第j列,j=2...M+1;xj'为N*1矩阵,为标准化后的用户信息矩阵的第j列;为用户信息矩阵第j列数据的均值;sj为用户信息矩阵第j列数据方差;xij为用户信息矩阵中的第i行第j列元素;datastand为标准化用户信息矩阵;
本实施例中获得的均值向量为:
方差向量s为:
s=[1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]。
3、对标准化用户信息矩阵进行特征选择,获得特征排名向量:
Feature_rank=[(1,'mean compactness'),(1,'mean concave points'),(1,'mean concavity'),(1,'mean radius'),(1,'mean symmetry'),(1,'texture error'),(1,'worst compactness'),(1,'worst concave points'),(1,'worst concavity'),(1,'worst radius'),(1,'worst smoothness'),(1,'worst symmetry'),(2,'meansmoothness'),(3,'perimeter error'),(4,'worst texture'),(5,'mean perimeter'),(6,'worst fractal dimension'),(7,'concavity error'),(8,'compactness error'),(9,'concave points error'),(10,'mean texture'),(11,'area error'),(12,'smoothness error'),(13,'worst perimeter'),(14,'radius error'),(15,'fractaldimension error'),(16,'mean fractal dimension'),(17,'symmetry error'),(18,'worst area'),(19,'mean area')];
其中,该特征排名向量中每个元组第一项为该特征排名,第二项为特征名称。
4、对特征排名向量中每个特征赋予相应的权重值,每个特征权重值的取值大小与该特征在特征排名向量中的排序成正比,排序越靠前权重值越大,由此获得1*M的属性权重向量weight为:
weight=[weight1,weight2,…weightj′…weightM]j′=1,2…M
其中,
式中,M为调查问卷中问题特征的数量,rank为某一个问题特征的排名。
本实施例中获得的属性权重向量为:
weight=[3.166,3.166,3.166,3.166,3.166,3.166,3.166,3.166,3.166,3.166,3.166,3.166,0.6,0.566,0.533,0.5,0.466,0.433,0.4,0.366,0.333,0.3,0.266,0.233,0.2,0.166,0.133,0.1,0.066 0.033]。
5、对标准化用户信息矩阵进行重构,将所有问题特征按照特征排名重构标准化用户信息矩阵,其中,第m列表示该问题特征在特征排名向量中的第m项。
6、选取初始聚类中心向量C,具体为:
步骤6-1、构造偏移因子F为:
式中,k为聚类数目,本实施例选定为2,其中,sj′为第j'列数据的方差,本实施例中获得偏移因子F为:
[0.33328134,0.29064962,0.33553478,0.29828611,0.25371064,0.32369995,
0.37324145,0.38537507,0.27666849,0.2971422,0.20066554,0.24361891,
0.19036678,0.16978402,0.20395542,0.26876011,0.15232082,0.23356169,
0.23242822,0.18267241,0.34357827,0.32733765,0.3344091,0.27961879,
0.30129244,0.3050289,0.33297264,0.45137151,0.24369438,0.23672293];
步骤6-2、根据均值和偏移因子F求取cnj'为:
式中,cnj'为第n个聚类中心的第j'列,v为偏移因子系数值,n=1,2...k;
步骤6-3、由步骤6-2获得第n个聚类中心Cn为:
Cn=[cn1,cn2,...cnj',...cnM]
则获得初始聚类中心向量C为:
C=[C1,C2,...Cn,...Ck]n∈[1,k];
本实施例中获得的初始聚类中心向量C为:
[[0.6715033016856782,0.6146147372449099,0.6684698498930417,0.5152061980136353,0.6484951641081661,0.5843004798278852,0.5812998278099505,0.6285119820720517,0.6562738618481617,0.5675215165312233,0.30701066061551563,0.43294295457747944,0.2897428933234973,0.23241981837323997,0.3850744686609109,0.4431986254140825,0.23286051158688115,0.45701569569131384,0.4105716714266307,0.28286532368896455,0.640241015965846,0.6913361363478687,0.6175467691988168,0.4505249818624137,0.705430283931149,0.525241228013543,0.5503755850858261,0.8452073272198639,0.5070012384518315,0.42631900721755595],
[0.00494061330268486,0.03331549651573562,-0.002599718016658592,-0.08136602521135727,0.141073874351329,-0.06309942355663295,-0.16518307140309388,-0.14223816626740704,0.10293687469122181,-0.026762887979083938,-0.09432041528579224,-0.05429486977150941,-0.09099066915975657,-0.10714822943896682,-0.022836381135394018,-0.09432160375291895,-0.0717811361097903,-0.010107679680665865,-0.05428476959256967,-0.08247950037923857,-0.04691552278346339,0.036660835858636054,-0.051271430249879624,-0.10871259084036561,0.10284540813257192,-0.08481658104838077,-0.11556970121355412,-0.05753569011612447,0.01961248588289935,-0.0471268620883602]]。
7、根据属性权重向量对重构后的标准化用户信息矩阵中的第1个问题特征进行聚类,选定聚类数目k=2,初始聚类中心向量C作为初始聚类中心,获得标签向量label1,根据label1计算其聚类准确率t;且令p=2,并将第一个问题特征直接加入危险因素集合,其中label1为N*1的向量矩阵;
8、根据属性权重向量对重构后的标准化用户信息矩阵中的第1个问题特征~第p个问题特征进行聚类,获得labelp,计算其聚类准确率tp,若tp>t,则将第p个问题特征加入危险因素集合;其中labelp为第p次聚类获得的N*1的向量矩阵。
9、令t=tp,p=p+1,若p+1≤M+1,则执行上述8,反之输出危险因素集合。
本实施例获得的聚类准确率曲线图如图3所示,其中0-28号编号分别对应特征排名向量中的2-30号问题特征,由图可知,聚类准确率曲线图上升位置对应的问题特征编号为0,1,2,3,5,6,8,10,13,最终将其对应的问题特征名称加入到危险因素集合。
由此,本实施例中获得的疾病危险因素集合为:['mean compactness','meanconcave points','mean concavity','mean radius','mean symmetry','worstcompactness','worst concave points','worst radius','worst symmetry','worsttexture']。
本发明实现了聚类在医学领域特别是疾病危险因素的提取,通过基于支持向量机的递归特征消除构建了各特征属性权重向量,使得聚类时各属性具备更高的可解释性,且依据特征属性权重向量对K均值方法进行了改进,相对于其他聚类方法与传统K均值方法,具有准确率更高的优点。

Claims (8)

1.一种基于属性权重聚类的疾病危险因素提取方法,其特征在于,包括以下步骤:
步骤1、根据某种疾病的用户调查问卷,构建用户信息矩阵与标签向量;
步骤2、对所述用户信息矩阵进行标准化处理,获得标准化用户信息矩阵;
步骤3、对所述标准化用户信息矩阵进行特征选择,获得特征排名向量;
步骤4、根据所述特征排名向量构建属性权重向量;
步骤5、根据所述属性权重向量对标准化用户信息矩阵中的第一个调查问卷问题特征进行聚类,计算聚类准确率,之后逐一增加问题特征,并重新计算聚类准确率,直至聚类完所有问题特征,将其中引起准确率上升的问题特征加入危险因素集合,该集合中的每个元素即为疾病危险因素。
2.根据权利要求1所述的基于属性权重聚类的疾病危险因素提取方法,其特征在于,步骤1所述根据某种疾病用户调查问卷,构建用户信息矩阵与标签向量,具体为:
步骤1-1、收集若干份针对某种疾病的用户调查问卷,该问卷包括用户问卷ID号、若干问题及对应的选项,由所有用户调查问卷构建用户信息矩阵I,矩阵I的维度为N*(M+1),N为参与调查的用户数目,M为调查问卷中问题特征的数量;
所述用户信息矩阵I中,第i行第1列的特征为用户问卷ID号;
所述用户信息矩阵I中,第i行第j列为第i个用户问卷对第j个问题的答案,其中1≤i≤N,2≤j≤M+1;
步骤1-2、构建N*1的标签向量target,标签向量target中的第i个值表示第i个用户卷对应的用户是否患病,其中0表示用户未患病,1表示用户患病。
3.根据权利要求2所述的基于属性权重聚类的疾病危险因素提取方法,其特征在于,步骤2所述对用户信息矩阵进行标准化处理,获得标准化用户信息矩阵,具体为:
采用Z-score标准化算法对用户信息矩阵进行标准化处理以使每个维度的数据服从均值为0、方差为1的分布,由此获得N*(M+1)的标准化用户信息矩阵。
4.根据权利要求3所述的基于属性权重聚类的疾病危险因素提取方法,其特征在于,步骤3所述对标准化用户信息矩阵进行特征选择,获得特征排名向量,具体为:
对标准化用户信息矩阵进行基于支持向量机的递归特征消除,由此对调查问卷中所有的问题特征进行特征重要性排序,获得1*M的特征排名向量。
5.根据权利要求4所述的基于属性权重聚类的疾病危险因素提取方法,其特征在于,步骤4所述根据步骤3获得的特征排名向量构建属性权重向量,具体为:
对特征排名向量中每个特征赋予相应的权重值,每个特征对应的权重值的取值大小与该特征在特征排名向量中的排序成正比,排序越靠前权重值越大,由此获得1*M的属性权重向量weight为:
weight=[weight1,weight2,…weightj′,…weightM] j′=1,2…M
其中,
式中,M为调查问卷中问题特征的数量,rank为某一个问题特征在特征排名向量中的排名。
6.根据权利要求5所述的基于属性权重聚类的疾病危险因素提取方法,其特征在于,步骤5具体为:
步骤5-1、根据特征排名向量,对所述标准化用户信息矩阵进行重构,具体为:将所有问题特征按照特征排名重构标准化用户信息矩阵,其中,第m列表示该问题特征在特征排名向量中的第m项;
步骤5-2、根据所述属性权重向量对步骤5-1重构后的标准化用户信息矩阵中的第1个问题特征进行聚类,获得标签向量label1,根据label1计算聚类准确率t;且令p=2,并将第一个问题特征直接加入危险因素集合,其中label1为N*1的向量矩阵;
步骤5-3、根据所述属性权重向量对步骤5-1重构后的标准化用户信息矩阵中的第1个问题特征~第p个问题特征进行聚类,获得标签向量labelp,并根据labelp计算聚类准确率tp,若tp>t,则将第p个问题特征加入危险因素集合;其中labelp为第p次聚类获得的N*1的向量矩阵;
步骤5-4、令t=tp,p=p+1,若p+1≤M+1,则执行步骤5-3,反之输出危险因素集合。
7.根据权利要求6所述的基于属性权重聚类的疾病危险因素提取方法,其特征在于,步骤5-2、步骤5-3中对问题特征进行聚类具体为:
步骤6-1、选取初始聚类中心向量C,具体为:
步骤6-1-1、构造偏移因子F为:
式中,k为聚类数目,其中,
式中,表示步骤5-1中重构后的标准化用户信息矩阵中第j'列数据的均值,xij'为重构后的标准化用户信息矩阵中的第i行的第j'列,sj′为第i行第j'列数据的方差,其中构成均值向量
sj′构成方差向量s:
s=[s1,s2,...,sj',...sM];
步骤6-1-2、根据均值和偏移因子F求取cnj'为:
式中,cnj'为第n个聚类中心的第j'列,v为偏移因子系数值,n=1,2...k;
步骤6-1-3、由步骤6-1-2获得第n个聚类中心Cn为:
Cn=[cn1,cn2,...cnj',...cnM]
则获得初始聚类中心向量C为:
C=[C1,C2,...Cn,...Ck] n∈[1,k];
步骤6-2、进行基于属性权重的K均值聚类,具体为:
步骤6-2-1、设置循环变量ClusterChanged的初始值为ClusterChanged=False;
步骤6-2-2、求取重构后标准化用户信息矩阵中每个数据到每个初始聚类中心Cn的加权欧式距离,将该数据划分到加权欧式距离最近的中心所属类簇,所述加权欧式距离公式为:
其中,n'为重构后的标准化用户信息矩阵中的某用户样本数据,n'=1,2,...,N,n'j'为该用户样本数据的第j'列,cnj'为聚类中心Cn的第j'列;
步骤6-2-3、重新计算聚类中心向量C*,具体为:
求取第n个聚类中心的第j'列为:
式中,mn为重构后的标准化用户矩阵中Cn类中用户样本数据的个数,xnj'为Cn类中的某用户样本数据的第j'列;
由此获得第n个聚类中心为:
则聚类中心向量C*为:
步骤6-2-4、对比初始聚类中心向量C与步骤6-2-3的聚类中心向量C*,若两者相同,则保持ClusterChanged=False;反之令ClusterChanged=True,并重复执行步骤6-2-1~6-2-4,直至ClusterChanged=False。
8.根据权利要求7所述的基于属性权重聚类的疾病危险因素提取方法,其特征在于,步骤5-3所述根据labelp计算其聚类准确率tp,具体公式为:
式中,labelpi表示labelp的第i行,targeti为标签向量target的第i行;labelpi=targeti表示1,反之表示0。
CN201910139122.1A 2019-02-25 2019-02-25 一种基于属性权重聚类的疾病危险因素提取方法 Pending CN109978007A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910139122.1A CN109978007A (zh) 2019-02-25 2019-02-25 一种基于属性权重聚类的疾病危险因素提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910139122.1A CN109978007A (zh) 2019-02-25 2019-02-25 一种基于属性权重聚类的疾病危险因素提取方法

Publications (1)

Publication Number Publication Date
CN109978007A true CN109978007A (zh) 2019-07-05

Family

ID=67077298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910139122.1A Pending CN109978007A (zh) 2019-02-25 2019-02-25 一种基于属性权重聚类的疾病危险因素提取方法

Country Status (1)

Country Link
CN (1) CN109978007A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126442A (zh) * 2019-11-26 2020-05-08 北京京邦达贸易有限公司 一种物品关键属性生成方法、物品分类方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679138A (zh) * 2017-09-22 2018-02-09 陕西师范大学 基于局部尺度参数、熵和余弦相似性的谱特征选择方法
CN109191001A (zh) * 2018-09-21 2019-01-11 常州工学院 基于主成分分析的教育质量评价方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679138A (zh) * 2017-09-22 2018-02-09 陕西师范大学 基于局部尺度参数、熵和余弦相似性的谱特征选择方法
CN109191001A (zh) * 2018-09-21 2019-01-11 常州工学院 基于主成分分析的教育质量评价方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126442A (zh) * 2019-11-26 2020-05-08 北京京邦达贸易有限公司 一种物品关键属性生成方法、物品分类方法和装置

Similar Documents

Publication Publication Date Title
Kalantari et al. Computational intelligence approaches for classification of medical data: State-of-the-art, future challenges and research directions
Pereira et al. COVID-19 identification in chest X-ray images on flat and hierarchical classification scenarios
Christo et al. Feature selection and instance selection from clinical datasets using co-operative co-evolution and classification using random forest
Hu et al. Simultaneously aided diagnosis model for outpatient departments via healthcare big data analytics
CN110090012A (zh) 一种基于机器学习的人体疾病检测方法及检测产品
US11775053B2 (en) Methods and systems for using artificial intelligence to analyze user activity data
Ma et al. A new classifier fusion method based on historical and on-line classification reliability for recognizing common CT imaging signs of lung diseases
Pillai et al. Prediction of heart disease using rnn algorithm
Lan et al. Multi-view convolutional neural network with leader and long-tail particle swarm optimizer for enhancing heart disease and breast cancer detection
Shukla et al. Machine learning techniques for detecting and predicting breast cancer
CN109686442A (zh) 基于机器学习的胃食管反流疾病危险因素确定方法及系统
Cao et al. Multi-view based multi-model learning for MCI diagnosis
Sivakumar et al. Phenotype algorithm based big data analytics for cancer diagnose
Tawalbeh et al. Deep Feature Engineering in Colposcopy Image Recognition: A Comparative Study
Osuwa et al. Importance of Continuous Improvement of Machine Learning Algorithms From A Health Care Management and Management Information Systems Perspective
Lai et al. A modified LBP operator-based optimized fuzzy art map medical image retrieval system for disease diagnosis and prediction
Valavanis et al. Exploring robust diagnostic signatures for cutaneous melanoma utilizing genetic and imaging data
CN109978007A (zh) 一种基于属性权重聚类的疾病危险因素提取方法
Ciaramella et al. On the role of clustering and visualization techniques in gene microarray data
CN117195027A (zh) 基于成员选择的簇加权聚类集成方法
Bellfield et al. The athlete’s heart and machine learning: a review of current implementations and gaps for future research
Lee et al. CBIR of spine X-ray images on inter-vertebral disc space and shape profiles using feature ranking and voting consensus
Tang et al. End-to-end multi-domain neural networks with explicit dropout for automated bone age assessment
Alkan et al. Clustering of scientist using research areas at Akdeniz university
CN110189803A (zh) 基于聚类与分类相结合的疾病危险因素提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20230407

AD01 Patent right deemed abandoned