CN115101153A - 一种基于散列桶邻域的慢病分类标记方法 - Google Patents

一种基于散列桶邻域的慢病分类标记方法 Download PDF

Info

Publication number
CN115101153A
CN115101153A CN202111503616.7A CN202111503616A CN115101153A CN 115101153 A CN115101153 A CN 115101153A CN 202111503616 A CN202111503616 A CN 202111503616A CN 115101153 A CN115101153 A CN 115101153A
Authority
CN
China
Prior art keywords
neighborhood
chronic disease
patient
diagnosis
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111503616.7A
Other languages
English (en)
Inventor
张清华
肖嘉瑜
艾志华
程云龙
高满
胡峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Dayu Chuangfu Technology Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202111503616.7A priority Critical patent/CN115101153A/zh
Publication of CN115101153A publication Critical patent/CN115101153A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明属于医疗检测领域,具体涉及一种基于散列桶邻域的慢病分类标记方法,该方法包括:获取待测用户的个人信息数据,得到医学条件属性集;确定散列函数,采用散列函数将患者空间中的患者样本依次划分到邻域诊断桶中,得到基于邻域诊断慢病的散列桶序列;确定待测用户的诊断邻域;根据待测用户的诊断邻域采用多数投票原则计算每个待测用户被预测患病的概率;根据待诊患者邻域中满足多数投票原则的若干最大概率慢病标签,计算选择距离度最大的慢病标签,根据慢病标签对患者进行分类;通过采用本发明使用的方法,医疗人员可根据预测结果辅助判断患者是否患有慢病,能够极大的提高慢病预测效率与医学诊断质量。

Description

一种基于散列桶邻域的慢病分类标记方法
技术领域
本发明属于医疗检测领域,具体涉及一种基于散列桶邻域的慢病分类标记方法。
背景技术
在医疗大数据中相关调查表明,糖尿病、冠心病、肺癌、胃癌、食管癌等 10大慢病占据了全人群疾病总负担的40%以上。面对多源异构高噪的健康医疗大数据,慢病诊断涉及的数据量正呈现爆炸式的增长,涉及到大量关于患者、疾病和医生的信息,而这些信息往往是不完整和不一致的,仅通过医生的专业知识和医学经验对患者进行诊断和评估,不但会大量消耗人力物力,同时效率低下,甚至无法完成疾病的诊断。因此,诸如邻域粗糙集模型等数据挖掘方法可应用于慢病的诊断和预测中,快速有效实现多种慢病一体化预测预警,构建可解释性的慢病诊断医疗模型。
对于医疗健康大数据中广泛存在的数值型数据,传统粗糙集模型处理时必须先进行离散化,这会导致医学信息大量丢失,在慢病医学的数据处理过程中造成很大的障碍。天津大学的胡清华教授基于拓扑空间球形邻域引入了邻域粗糙集模型,使用邻域信息粒代替传统粗糙集中的等价关系,使其既可以支持离散型医疗数据又可以支持数值型医疗数据,并进一步地邻域粗糙集推广到分类预测应用中,实现了一种基于多数原则的邻域分类器。然而传统邻域分类器对患者样本分类预测时,必须先构建患者的邻域信息粒,该过程需要遍历患者样本空间中的所有训练患者样本,导致了分类器诊断的时间效率低下。相应地,在邻域粗糙集属性约简机制中,浙江大学的刘勇教授提出了基于散列桶划分缩小邻域搜索空间的属性快速约简算法,通过散列映射明显缩小了患者样本邻域的检索范围,有效解决了患者邻域计算时间复杂度过高的问题。
面对医疗健康大数据中患者样本的信息量大、不完备、不确定、冗余等问题,当前已有邻域分类器在慢病的诊断和预测方面主要存在以下不足:1)患者样本的邻域计算量大,导致构建患者样本邻域的时间复杂度高;2)邻域半径的设定带有人为设定的随机参数,不能自适用于不同分布的医疗数据集;3)分类器中的多数投票规则不能辩别邻域中患者样本间的差异,故该原则不能适用于所有患者样本的诊断和预测。因此,如何有效利用人群生命周期健康医疗大数据,结合数据挖掘方法,实现多种慢病的预测预警机制,是目前亟待解决的问题。
发明内容
为解决以上现有计算存在的问题,本发明提出了一种基于散列桶邻域的慢病分类标记方法,该方法包括:获取待测用户的医学数据,并将获取的医学数据转换为患者决策信息表,将患者决策信息表中数据输入到基于散列桶邻域的慢病分类模型中,得到待测用户的各慢病患病的概率,若该待测用户中至少两种慢病的患病概率均为最大且相同,则选择邻域中慢病距离度最大的用户进行标记;
采用基于散列桶邻域的慢病分类模型对待测用户的医学信息数据进行处理并标记患者所患慢病的过程包括:
S1:将待测用户的个人医学数据转化为慢病决策信息表,对慢病决策信息表中的医学条件属性值进行归一化处理,得到医学条件属性集;
S2:根据医学条件属性集确定特殊患者样本和散列函数,采用散列函数将患者空间中的患者样本依次划分到一系列有序的邻域诊断桶中,得到基于邻域诊断慢病的散列桶序列;
S3:根据基于邻域诊断慢病的散列桶序列确定待测用户的诊断邻域;
S4:根据待测用户的诊断邻域采用多数投票原则计算每个待测用户被预测患各种慢病的概率,计算并得到最大患病概率;根据最大患病概率所对应的慢病标签,若待测用户邻域中概率最大的慢病标签唯一,则将该患者存储到该类别的集合中;若待测用户邻域中概率最大的患病标签不唯一,则执行步骤S5;
S5:根据距离投票原则,针对待诊患者邻域中存在多个满足多数投票原则最大概率慢病标签,计算以上慢病标签在患者邻域中的距离度,进而选择距离度最大的慢病标签,将患者标记为该类慢病。
优选的,获取待测用户的个人医学属性值包括:收缩压、胆固醇、维生素D、血红蛋白浓度、淋巴细胞百分比、C反应蛋白以及尿素。
优选的,对决策信息表中的数据进行归一化处理的公式为:
Figure RE-GDA0003783903260000031
其中,xij表示第i个患者样本的第j个医学属性的值,max(xj)表示第j个医学属性的最大值,min(xj)表示第j个医学属性的最小值。
优选的,得到基于邻域诊断慢病的散列桶序列的过程包括:
步骤1:提取医学条件属性集中每个医学条件属性的最小值,根据最小值确定特殊患者样本;
步骤2:计算患者样本和特殊样本的欧式距离;根据患者样本和特殊样本的欧式距离构建邻域诊断桶序列;
步骤3:构建散列函数,采用散列函数将患者样本映射到邻域诊断桶序列中,得到基于邻域诊断慢病的散列桶序列。
进一步的,计算患者样本和特殊样本的欧式距离公式为:
Figure RE-GDA0003783903260000032
其中,xi表示第i个患者样本,xj表示第j个患者样本,m表示患者样本的数量,xik表示第i个患者样本在第j个医学属性下的医学属性值。
进一步的,构建的邻域诊断桶为:
Figure RE-GDA0003783903260000033
其中,xi表示第i个患者样本,U表示患者样本集,∧表示且运算,Δ(x0,xi) 表示患者样本x0到患者样本xi的欧式距离,wid表示散列桶宽度,w表示散列键,
Figure RE-GDA0003783903260000041
表示向上取整。
优选的,确定待测用户的诊断邻域包括:根据基于邻域诊断慢病的散列桶序列确定自适应邻域诊断半径,根据自适应邻域诊断半径确定待测用户的诊断邻域。
优选的,计算每个待测用户被预测患各种慢病的概率公式为:
Figure RE-GDA0003783903260000042
其中,Dk表示患者邻域U中第k种慢病的患者集合,δ(x)表示待诊患者的诊断邻域,∩表示求交运算。
优选的,计算距离度最大的慢病标签的公式为:
Figure RE-GDA0003783903260000043
Figure RE-GDA0003783903260000044
其中,
Figure RE-GDA0003783903260000045
表示慢病标签dk的距离度,dk表示诊断邻域δ(x)中满足多数投票规则的慢病决策标签,xi表示第i个患者样本,
Figure RE-GDA0003783903260000046
表示患者样本xi的距离度, dj表示慢病标签,
Figure RE-GDA0003783903260000047
表示取最大值对应的慢病标签dk
本发明的有益效果:
1)通过采用本发明使用的方法,医疗人员可根据预测结果辅助判断患者是否患有慢病,能够极大的提高慢病预测效率与医学诊断质量;
2)传统邻域分类器构建待诊患者的诊断邻域时,需要计算于患者样本空间中所有患者样本的距离,随着患者数目增多,将面对极高的时间复杂度。本发明基于散列桶序列,将患者空间中的患者样本依次映射到一系列有序的邻域诊断桶中,并基于限定的患者邻域检索范围构建诊断邻域,慢病诊断效率大大提升;
3)在构建的基于邻域诊断慢病的散列桶序列上,定义了基于散列桶的自适应邻域诊断半径,摒除了传统邻域半径中的人为参数,能对应于不同的待诊患者样本生成不同的诊断邻域半径,自适应于分布不同的邻域诊断桶序列和数据集,有效保障了慢病诊断和预测模型的合理性和自适应性;
4)传统投票规则中没有考虑患者样本之间的差异性,导致慢病预测和诊断过程中传统模型所出现的对于慢病决策标签的不可辨别性,本模型定义的距离投票规则为慢病决策类赋予了一个新的评估指标:距离度,提升了区分不同慢病标签患者的能力,有效保障了慢病诊断和预测的准确性和合理性。
附图说明
图1为本发明的邻域诊断桶序列分布图;
图2为本发明的患者的诊断邻域分布图;
图3为本发明的基于散列桶邻域的慢病分类方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于散列桶邻域的慢病分类标记方法,如图3所示,该方法包括:获取待测用户的医学数据,并将获取的医学数据转换为患者决策信息表,将患者决策信息表中数据输入到基于散列桶邻域的慢病分类模型中,得到待测用户的各慢病患病的概率,若该待测用户中至少两种慢病的患病概率均为最大且相同,则选择邻域中慢病距离度最大的用户进行标记。
采用基于散列桶邻域的慢病分类模型对待测用户的医学信息数据进行处理并标记患者所患慢病的过程包括:
S1:将待测用户的个人医学数据转化为慢病决策信息表,对慢病决策信息表中的医学条件属性值进行归一化处理,得到医学条件属性集;
S2:根据医学条件属性集确定特殊患者样本和散列函数,采用散列函数将患者空间中的患者样本依次划分到一系列有序的邻域诊断桶中,得到基于邻域诊断慢病的散列桶序列;
S3:根据基于邻域诊断慢病的散列桶序列确定待测用户的诊断邻域;
S4:根据待测用户的诊断邻域采用多数投票原则计算每个待测用户被预测患各种慢病的概率,计算并得到最大患病概率;根据最大患病概率所对应的慢病标签,若待测用户邻域中概率最大的慢病标签唯一,则将该患者存储到该类别的集合中;若待测用户邻域中概率最大的患病标签不唯一,则执行步骤S5;;
S5:根据距离投票原则,针对待诊患者邻域中存在多个满足多数投票原则最大概率慢病标签,计算以上慢病标签在患者邻域中的距离度,进而选择距离度最大的慢病标签,将患者标记为该类慢病。
获取待测用户的个人信息数据,并将个人信息数据转化为决策信息表包括:从医疗健康数据库中采集慢病患者个人信息,采集的慢病患者个人信息具有以下医学属性:收缩压、胆固醇、维生素D、血红蛋白浓度、淋巴细胞百分比、C 反应蛋白、尿素等。将患者信息转化为慢病决策信息表<U,A,D>,其中 U={x1,x2,...,xn}为患者样本集合;A={a1,a2,...,am}为医学条件属性集合,描述患者的症状和诊断信息;D为慢病决策属性集,标注患者的慢病标签。为了方便展示与说明问题,本发明选择十个患者样本的两列数据进行分析,如表1所示,其中U={x1,x2,...,x10},A={a1,a2},D={d}={1,2},且“1”代表该患者患有慢病,“2”代表该患者不患有慢病,“m”即代表患者的慢病标签待诊断。为了消除不同医学属性量纲对待诊患者诊断效果的影响,对医学数据进行归一化处理,归一化方法如下:
Figure RE-GDA0003783903260000061
其中,xij表示第i个患者样本的第j个医学属性的值,max(xj)表示第j个医学属性的最大值,min(xj)表示第j个医学属性的最小值。
在慢病的预测和诊断任务中,本发明将患者样本集合切分为用于训练的患者数据集Utrain和用于测试的患者数据集Utest。其中Utrain用来训练慢病预测模型的诊断准确率,找到最优参数;Utest用来评估慢病预测模型,预测和诊断待诊患者的慢病标签。因此,在本发明中将患者样本空间U切分为Utrain={x3,x4,...,x10和 Utest={x1,x2},慢病决策标签“m”表示用于测试的待诊患者,得到归一化的患者数据如表1所示。
表1.慢病决策信息表
Figure RE-GDA0003783903260000071
得到基于邻域诊断慢病的散列桶序列的过程包括:
步骤1:提取医学条件属性集中每个医学条件属性的最小值,根据最小值确定特殊患者样本;
步骤2:计算患者样本和特殊样本的欧式距离;根据患者样本和特殊样本的欧式距离构建邻域诊断桶序列;
步骤3:构建散列函数,采用散列函数将患者样本映射到邻域诊断桶序列中,得到基于邻域诊断慢病的散列桶序列。
具体的,提取出每个医学条件属性的最小值,确定特殊患者样本x0,即
Figure RE-GDA0003783903260000072
a(x0)=min(a(xi)),xi∈U;计算患者样本空间中每个患者样本与特殊患者样本间的距离,本发明统一采用欧式距离,对于
Figure RE-GDA0003783903260000081
xi与xj的欧式距离定义如下:
Figure RE-GDA0003783903260000082
其中,xi表示第i个患者样本,xj表示第j个患者样本,m表示患者样本的数量,xik表示第i个患者样本在第j个医学属性下的医学属性值。
接着构建散列函数,设定wid表示散列桶宽度,w作为散列键。通过散列函数将患者样本空间U中的每个患者样本映射到一系列有序的邻域诊断桶 CB1,CB2,...,CBw中,邻域诊断桶CBw定义如下:
Figure RE-GDA0003783903260000083
其中,xi表示第i个患者样本,U表示患者样本集,∧表示且运算,Δ(x0,xi) 表示患者样本x0到患者样本xi的欧式距离,wid表示散列桶宽度,w表示散列键,
Figure RE-GDA0003783903260000084
表示向上取整。
一种确定基于邻域诊断慢病的散列桶序列的具体实施方式,包括:以表1 为例,先确定特殊患者样本x0,其各医学条件属性值为C(x0)={a1=0.10,a2=0.20}。再计算患者样本空间U中每个患者样本xi与特殊患者样本x0间的距离:Δ(xi,x0),i=1,2,...。进而构建邻域诊断桶:
Figure RE-GDA0003783903260000085
设定散列桶宽度wid=0.08,w为散列键,将Δ(xi,x0)除以wid向上取整,得到w。如下图1所示,灰色标签的患者样本其慢病决策属性值d=1,表示患有慢病;黑色标签的患者样本其慢病决策属性值d=2,表示不患有慢病。最后通过散列函数将患者样本空间U中的每个患者样本映射到以下有序的邻域诊断桶中:CB1={x3,x6,x8,x9},CB2={x7},CB3={x4,x5,x10}。
确定待测用户的诊断邻域包括:根据基于邻域诊断慢病的散列桶序列确定自适应邻域诊断半径,根据自适应邻域诊断半径确定待测用户的诊断邻域。具体的,根据基于邻域诊断慢病的散列桶序列确定每个待诊患者样本的邻域检索范围,如果有待诊患者样本xi∈CBq(q=1,2,3,...,w),则xi的患者邻域检索范围会限定在其本身所在的桶和其上下相邻的两个桶中,即CBq-1,CBq,CBq+1。因此基于限定的邻域桶检索范围之上,参与待诊患者邻域计算的患者样本数量大大减少,继而对任意待诊患者样本x∈CBq(q=1,2,3,...,w),本模型提出了一种新的基于散列桶序列的自适应邻域诊断半径:
δ=min(Δ(x,yi))+wid
其中yi∈CBq-1∪CBq∪CBq+1为训练患者样本,min(Δ(x,yi))表示待诊患者x邻域中与其距离最近的训练患者对应的距离,wid表示散列桶宽度。进而确定待诊患者x的诊断邻域:
δ(x)={y∈U|Δ(x,y)≤δ}
如图2所示,根据得到的邻域诊断慢病的散列桶序列CB1={x3,x6,x8,x9}, CB2={x7},CB3={x4,x5,x10},进而确定每个待诊患者样本的邻域检索范围,由于 x1∈CB1,则δ(x1)的诊断检索范围被限定在CB1∪CB2,由于CB0不存在。计算Δ(xi,x1),选择待诊患者x1的诊断邻域中与其距离最近的训练患者: min(Δ(xi,x1))=Δ(x6,x1)=0.036,进而计算x1的患者邻域半径:δ1=min(Δ(xi,x1))+wid =0.116,最后得到待诊患者x1的诊断邻域:δ(x1)={x1,x3,x6,x8,x9},同理可以得到待诊患者x2的诊断邻域:δ(x2)={x2,x7,x8,x9,x10}。
根据待测用户的诊断邻域采用多数投票原则计算每个待测用户被预测患病的概率的过程包括:基于S3得到的待诊患者x的诊断邻域δ(x),计算每个待诊患者x被预测患有第k种慢病的概率:
Figure RE-GDA0003783903260000091
其中,Dk表示患者邻域U中第k种慢病的患者集合,δ(x)表示待诊患者的诊断邻域,∩表示求交运算。
Figure RE-GDA0003783903260000092
即在待诊患者的诊断邻域δ(x)中,对应占据最多邻域患者样本数目、概率值最大的慢病标签,待诊患者将被诊断预测为该类慢病,模型预测结束。反而在待诊患者的诊断邻域δ(x)中若存在多个最大概率慢病标签,即超过一个慢病标签满足多数投票原则,则进入步骤S5。
待诊患者x1,x2的诊断邻域为δ(x1)={x1,x3,x6,x8,x9},如黑色圆圈范围所示,δ(x2)={x2,x7,x8,x9,x10},如灰色圆圈范围所示。现计算待诊患者x1被预测患有慢病的概率:
Figure RE-GDA0003783903260000101
即待诊患者x1患病标签的候选集合为
Figure RE-GDA0003783903260000102
同理得到待诊患者x2患病标签的候选集合为
Figure RE-GDA0003783903260000103
如图2所示,在诊断邻域δ(x1)中,灰色患病和黑色不患病标签的训练样本都占据最多数,均对应最大值 2;同样在诊断邻域δ(x2)同样包含两个不可辨别的慢病决策类。因此根据多数投票原则,待诊患者x1,x2的患病情况都不能被诊断和预测。
根据待诊患者邻域中满足多数投票原则的最大概率慢病标签计算距离度最大的慢病标签的过程包括:对待诊患者邻域中满足多数投票原则的若干最大概率慢病标签,即给定任意待诊患者样本x,如果存在多个慢病决策类 Dk,k=1,2,...,m在诊断邻域δ(x)中满足多数投票规则,进而采用距离投票规则,计算以上多个决策类的距离度:
Figure RE-GDA0003783903260000104
其中dk,k=1,2,...,p表示诊断邻域δ(x)中满足多数投票规则的若干慢病决策标签,表示xi以上慢病决策类在δ(x)中对应的患者样本,xi∈δ(x),且d(xi)表示患者样本xi的慢病决策属性值,d(xi)=dk
根据距离投票规则选取以上慢病决策类中距离度最大的,即寻找距离度最大的慢病标签,最后待诊患者x被诊断预测为该类慢病:
Figure RE-GDA0003783903260000105
根据待诊患者邻域δ(x1),δ(x2)中满足多数投票原则的慢病标签候选集合
Figure RE-GDA0003783903260000106
进而采用距离投票原则:先计算患者x1的诊断邻域中,两种慢病决策类
Figure RE-GDA0003783903260000111
的距离度,
Figure RE-GDA0003783903260000112
由于该两类同时满足了多数投票原则,根据距离投票规则进而选择距离度较大的慢病决策标签,因此得到x1的慢病预测标签为d(x1)=2,同理预测得到x2的标签为d(x2)=2。因此两个待诊病患均被诊断预测为不患有慢病。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于散列桶邻域的慢病分类标记方法,其特征在于,包括:获取待测用户的医学数据,并将获取的医学数据转换为患者决策信息表,将患者决策信息表中数据输入到基于散列桶邻域的慢病分类模型中,得到待测用户的各慢病患病的概率,若该待测用户中至少两种慢病的患病概率均为最大且相同,则选择邻域中慢病距离度最大的用户进行标记;
采用基于散列桶邻域的慢病分类模型对待测用户的医学信息数据进行处理并标记患者所患慢病的过程包括:
S1:将待测用户的个人医学数据转化为慢病决策信息表,对慢病决策信息表中的医学条件属性值进行归一化处理,得到医学条件属性集;
S2:根据医学条件属性集确定特殊患者样本和散列函数,采用散列函数将患者空间中的患者样本依次划分到邻域诊断桶序列中,得到基于邻域诊断慢病的散列桶序列;
S3:根据基于邻域诊断慢病的散列桶序列确定待测用户的诊断邻域;
S4:根据待测用户的诊断邻域采用多数投票原则计算每个待测用户被预测患各种慢病的概率;计算得到待测用户邻域中概率值最大的慢病标签,若待测用户邻域中概率最大的慢病标签唯一,则将该患者存储到该慢病类别的集合中;若待测用户邻域中概率最大的患病标签不唯一,则执行步骤S5;
S5:根据距离投票规则分类标记待诊患者所患慢病,针对待诊患者邻域中多个满足多数投票原则的最大概率慢病标签,计算得到其中距离度最大的慢病标签,根据该慢病标签对患者进行分类,将该患者存储到该慢病类别的集合中。
2.根据权利要求1所述的一种基于散列桶邻域的慢病分类标记方法,其特征在于,获取待测用户的个人医学条件属性值包括:收缩压、胆固醇、维生素D、血红蛋白浓度、淋巴细胞百分比、C反应蛋白以及尿素。
3.根据权利要求1所述的一种基于散列桶邻域的慢病分类标记方法,其特征在于,将获取的医学数据转换为患者决策信息表的过程包括:对医学数据中的患者的医学条件属性值进行归一化处理,得到患者决策信息表,归一化处理的公式为:
Figure FDA0003402594540000021
其中,xij表示第i个患者样本的第j个医学属性的值,max(xj)表示第j个医学属性的最大值,min(xj)表示第j个医学属性的最小值。
4.根据权利要求1所述的一种基于散列桶邻域的慢病分类标记方法,其特征在于,得到基于邻域诊断慢病的散列桶序列的过程包括:
步骤1:提取医学条件属性集中每个医学条件属性的最小值,根据最小值确定特殊患者样本;
步骤2:计算患者样本和特殊样本的欧式距离;根据患者样本和特殊样本的欧式距离构建邻域诊断桶序列;
步骤3:构建散列函数,采用散列函数将患者样本映射到邻域诊断桶序列中,得到基于邻域诊断慢病的散列桶序列。
5.根据权利要求4所述的一种基于散列桶邻域的慢病分类标记方法,其特征在于,计算患者样本和特殊样本的欧式距离公式为:
Figure FDA0003402594540000022
其中,xi表示第i个患者样本,xj表示第j个患者样本,m表示患者样本的数量,xik表示第i个患者样本在第j个医学属性下的医学属性值。
6.根据权利要求4所述的一种基于散列桶邻域的慢病分类标记方法,其特征在于,构建的邻域诊断桶为:
Figure FDA0003402594540000023
其中,xi表示第i个患者样本,U表示患者样本集,∧表示且运算,Δ(x0,xi)表示患者样本x0到患者样本xi的欧式距离,wid表示散列桶宽度,w表示散列键,
Figure FDA0003402594540000024
表示向上取整。
7.根据权利要求1所述的一种基于散列桶邻域的慢病分类标记方法,其特征在于,确定待测用户的诊断邻域包括:根据基于邻域诊断慢病的散列桶序列确定自适应邻域诊断半径,根据自适应邻域诊断半径确定待测用户的诊断邻域。
8.根据权利要求1所述的一种基于散列桶邻域的慢病分类标记方法,其特征在于,计算每个待测用户被预测患各种慢病的概率公式为:
Figure FDA0003402594540000031
其中,Dk表示患者邻域U中第k种慢病的患者集合,δ(x)表示待诊患者的诊断邻域,∩表示求交运算。
9.根据权利要求1所述的一种基于散列桶邻域的慢病分类标记方法,其特征在于,计算距离度最大的慢病标签的公式为:
Figure FDA0003402594540000032
Figure FDA0003402594540000033
其中,
Figure FDA0003402594540000034
表示慢病标签dk的距离度,dk表示诊断邻域δ(x)中满足多数投票规则的慢病决策标签,xi表示第i个患者样本,
Figure FDA0003402594540000035
表示患者样本xi的距离度,dj表示慢病标签,
Figure FDA0003402594540000036
表示取最大值对应的慢病标签dk
CN202111503616.7A 2021-12-09 2021-12-09 一种基于散列桶邻域的慢病分类标记方法 Pending CN115101153A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111503616.7A CN115101153A (zh) 2021-12-09 2021-12-09 一种基于散列桶邻域的慢病分类标记方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111503616.7A CN115101153A (zh) 2021-12-09 2021-12-09 一种基于散列桶邻域的慢病分类标记方法

Publications (1)

Publication Number Publication Date
CN115101153A true CN115101153A (zh) 2022-09-23

Family

ID=83287264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111503616.7A Pending CN115101153A (zh) 2021-12-09 2021-12-09 一种基于散列桶邻域的慢病分类标记方法

Country Status (1)

Country Link
CN (1) CN115101153A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107075588A (zh) * 2014-10-21 2017-08-18 优比欧迈公司 用于微生物组来源的诊断和治疗的方法及系统
CN112163133A (zh) * 2020-09-25 2021-01-01 南通大学 一种基于多粒度证据邻域粗糙集的乳腺癌数据分类方法
CN113012776A (zh) * 2021-03-30 2021-06-22 南通大学 大规模不平衡糖尿病电子病历并行分类邻域证据Spark方法
CN113130028A (zh) * 2021-04-13 2021-07-16 上海橘纯科技有限公司 基于区块链的医疗电子病历信息管理方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107075588A (zh) * 2014-10-21 2017-08-18 优比欧迈公司 用于微生物组来源的诊断和治疗的方法及系统
CN112163133A (zh) * 2020-09-25 2021-01-01 南通大学 一种基于多粒度证据邻域粗糙集的乳腺癌数据分类方法
CN113012776A (zh) * 2021-03-30 2021-06-22 南通大学 大规模不平衡糖尿病电子病历并行分类邻域证据Spark方法
CN113130028A (zh) * 2021-04-13 2021-07-16 上海橘纯科技有限公司 基于区块链的医疗电子病历信息管理方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIAYU XIAO 等: "A fast neighborhood classier based on hash bucket with application to medical diagnosis", INTERNATIONAL JOURNAL OF APPROXIMATE REASONING, vol. 148, 6 June 2022 (2022-06-06), pages 117 - 132, XP087131020, DOI: 10.1016/j.ijar.2022.05.012 *
贾峥 等: "基于电子病历的患者相似性分析综述", 中国生物医学工程学报, no. 03, 20 June 2018 (2018-06-20), pages 100 - 113 *

Similar Documents

Publication Publication Date Title
Patel et al. Heart disease prediction using machine learning and data mining technique
CN111081381B (zh) 院内致命性消化道再出血预测关键指标的智能筛选方法
CN112652361B (zh) 一种基于gbdt模型的骨髓瘤高风险筛查方法及其应用
CN108511055A (zh) 基于分类器融合及诊断规则的室性早搏识别系统及方法
CN112951413A (zh) 一种基于决策树和改进smote算法的哮喘病诊断系统
CN114220540A (zh) 一种糖尿病肾病风险预测模型的构建方法及应用
CN113593708A (zh) 基于集成学习算法的脓毒症预后预测方法
CN115083604A (zh) 一种术后不良事件预测模型的构建方法、系统和预测装置
Shrestha et al. Supervised machine learning for early predicting the sepsis patient: modified mean imputation and modified chi-square feature selection
CN109907751B (zh) 一种基于人工智能监督学习的实验室胸痛数据检查辅助识别方法
CN113674859A (zh) 一种心脏出生缺陷诊断方法及系统
CN117195027A (zh) 基于成员选择的簇加权聚类集成方法
Alkurdi Enhancing Heart Disease Diagnosis Using Machine Learning Classifiers
Andi et al. Analysis of the random forest and grid search algorithms in early detection of diabetes mellitus disease
CN117116475A (zh) 缺血性脑卒中的风险预测方法、系统、终端及存储介质
CN110610766A (zh) 基于症状特征权重推导疾病概率的装置和存储介质
Li et al. Learning a cytometric deep phenotype embedding for automatic hematological malignancies classification
Sideris et al. A data-driven feature extraction framework for predicting the severity of condition of congestive heart failure patients
Nithya et al. Correlated gain ratio based fuzzy weighted association rule mining classifier for diagnosis health care data
CN115101153A (zh) 一种基于散列桶邻域的慢病分类标记方法
Conforti et al. Kernel-based support vector machine classifiers for early detection of myocardial infarction
CN111599427B (zh) 一种一元化诊断的推荐方法、装置、电子设备及存储介质
Raju et al. Chronic kidney disease prediction using ensemble machine learning
CN116030957A (zh) 知识图谱构建方法、装置、辅助诊断设备及存储介质
Manju et al. Decision Tree-Based Explainable AI for Diagnosis of Chronic Kidney Disease

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240508

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Applicant after: Guangzhou Dayu Chuangfu Technology Co.,Ltd.

Country or region after: China

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Applicant before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

Country or region before: China

TA01 Transfer of patent application right