CN113793667A - 基于聚类分析的疾病预测方法、装置及计算机设备 - Google Patents
基于聚类分析的疾病预测方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN113793667A CN113793667A CN202111086515.4A CN202111086515A CN113793667A CN 113793667 A CN113793667 A CN 113793667A CN 202111086515 A CN202111086515 A CN 202111086515A CN 113793667 A CN113793667 A CN 113793667A
- Authority
- CN
- China
- Prior art keywords
- clustering
- matrix
- patient
- pathological
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 121
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 121
- 238000007621 cluster analysis Methods 0.000 title claims abstract description 82
- 238000000034 method Methods 0.000 title claims abstract description 58
- 239000011159 matrix material Substances 0.000 claims abstract description 231
- 230000001575 pathological effect Effects 0.000 claims abstract description 206
- 238000004458 analytical method Methods 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 30
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 27
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 24
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 230000007170 pathology Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 4
- 238000003759 clinical diagnosis Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 208000024891 symptom Diseases 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000010827 pathological analysis Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Abstract
本申请公开了一种基于聚类分析的疾病预测方法、装置及计算机设备,涉及大数据处理技术领域,可解决目前的聚类分析方式,不能有效结合患者信息和病理特征信息,导致聚类效果不够精准且聚类效率较低,进而不能为疾病预测提供有效数据支撑的技术问题。包括:获取样本病理数据,并依据所述样本病理数据构建聚类分析矩阵,所述聚类分析矩阵的行属性为患者主体,所述聚类分析矩阵的列属性为病理特征;根据预设矩阵分解算法对所述聚类分析矩阵进行降维处理,得到患者聚类矩阵和病理特征聚类矩阵;利用所述患者聚类矩阵和所述病理特征聚类矩阵分别确定患者聚类结果和病理特征聚类结果;根据所述患者聚类结果和所述病理特征聚类结果确定目标预测疾病。
Description
技术领域
本申请涉及大数据处理技术领域,尤其涉及到一种基于聚类分析的疾病预测方法、装置及计算机设备。
背景技术
随着医疗和电子信息技术的飞速发展,如今患者的医疗电子档案和历史就诊信息可以被完整地存储在医院的诊疗记录中。这一技术在记录患者病情和治疗过程的同时,也给医生对于同类型患者的确诊和治疗提供了分析数据。
对于具有相似病理数据的患者,往往更可能患有同类疾病;另一方面,患有同类疾病的患者往往具有相似的病理数据。因此,对于历史上各个患者的病理数据记录进行聚类分析,可以得知哪些患者可能具有相似的疾病,以及哪些生理数据具有相似的特征、造成了这一疾病的产生。
已有的方法会将病理数据的聚类分析和患者人群的聚类分析作为两个独立的任务分开来做,利用病理数据的相似性来找到具有关联性的病理特征,再根据患者的病理数据相似度对患者进行聚类。而忽略了患者和病理特征聚类之间的关系,不会同时对病理特征和患者进行聚类,不能有效结合患者信息和病理特征信息,导致聚类结果不够精准且聚类效率较低,进而不能为疾病预测提供有效的数据支撑。
发明内容
有鉴于此,本申请提供了一种基于聚类分析的疾病预测方法、装置及计算机设备,可用于解决目前的聚类分析方式,不能有效结合患者信息和病理特征信息,导致聚类效果不够精准且聚类效率较低,进而不能为疾病预测提供有效数据支撑的技术问题。
根据本申请的一个方面,提供了一种基于聚类分析的疾病预测方法,该方法包括:
获取样本病理数据,并依据所述样本病理数据构建聚类分析矩阵,所述聚类分析矩阵的行属性为患者主体,所述聚类分析矩阵的列属性为病理特征;
根据预设矩阵分解算法对所述聚类分析矩阵进行降维处理,得到患者聚类矩阵和病理特征聚类矩阵;
利用所述患者聚类矩阵和所述病理特征聚类矩阵分别确定患者聚类结果和病理特征聚类结果;
根据所述患者聚类结果和所述病理特征聚类结果确定目标预测疾病。
根据本申请的另一个方面,提供了一种基于聚类分析的疾病预测装置,该装置包括:
构建模块,用于获取样本病理数据,并依据所述样本病理数据构建聚类分析矩阵,所述聚类分析矩阵的行属性为患者主体,所述聚类分析矩阵的列属性为病理特征;
处理模块,用于根据预设矩阵分解算法对所述聚类分析矩阵进行降维处理,得到患者聚类矩阵和病理特征聚类矩阵;
第一确定模块,用于利用所述患者聚类矩阵和所述病理特征聚类矩阵分别确定患者聚类结果和病理特征聚类结果;
第二确定模块,用于根据所述患者聚类结果和所述病理特征聚类结果确定目标预测疾病。
根据本申请的又一个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述基于聚类分析的疾病预测方法。
根据本申请的再一个方面,提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述基于聚类分析的疾病预测方法。
借由上述技术方案,本申请提供的一种基于聚类分析的疾病预测方法、装置及计算机设备,与目前疾病预测方式相比,本申请可首先基于样本病理数据构建聚类分析矩阵,并根据预设矩阵分解算法对聚类分析矩阵进行降维处理,得到患者聚类矩阵和病理特征聚类矩阵;进而利用患者聚类矩阵和病理特征聚类矩阵分别确定患者聚类结果和病理特征聚类结果,从而根据患者聚类结果和病理特征聚类结果确定目标预测疾病。通过本申请中的技术方案,可在对患者和病理特征进行聚类分析时,通过一个步骤能够同时得到两个聚类的结果,进而实现对聚类效率的提升。同时还能够考虑到患者信息和病理特征信息的彼此关系和影响,能够使聚类结果更为精准,从而能够为疾病预测提供有力的数据支撑。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本地申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种基于聚类分析的疾病预测方法的流程示意图;
图2示出了本申请实施例提供的另一种基于聚类分析的疾病预测方法的流程示意图;
图3示出了本申请实施例提供的一种基于聚类分析的疾病预测装置的结构示意图;
图4示出了本申请实施例提供的另一种基于聚类分析的疾病预测装置的结构示意图。
具体实施方式
本申请实施例可以基于区块链技术实现对疾病的预测,具体可将样本病理数据和目标患者的患者病理数据存储于区块链的节点中,以保证上述医疗数据的私密和安全性。本申请所指的区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
下文将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合。
针对目前的聚类分析方式,不能有效结合患者信息和病理特征信息,导致聚类效果不够精准且聚类效率较低,进而不能为疾病预测提供有效数据支撑的技术问题,本申请提供了一种基于聚类分析的疾病预测方法,如图1所示,该方法包括:
101、获取样本病理数据,并依据样本病理数据构建聚类分析矩阵,聚类分析矩阵的行属性为患者主体,聚类分析矩阵的列属性为病理特征。
其中,样本病理数据为与待进行疾病预测的患者病理数据对应相同数据特征维度的相关医疗数据,如可包括年龄、性别、身高、体重、住院天数、临床诊断、病症、检查指标、手术、疾病严重程度和费用等特征信息;聚类分析矩阵为对样本病理数据进行二值化处理后,得到的二值化矩阵。在聚类分析矩阵中,行属性为患者主体,列属性为病理特征。每个样本患者的病理数据信息作为聚类分析矩阵中的一行m维的数值向量,这样由n个患者信息就构成了一个n*m维的聚类分析矩阵Rn*m。其中每一行的数值代表一个样本患者的病理数据信息,病理数据信息中共包括m个病理特征,每一列的数值代表不同患者在该病理特征上的特征值。
对于本申请的执行主体可为用于对疾病进行预测的装置,可配置在客户端侧或服务端侧,可首先基于样本病理数据构建聚类分析矩阵,并根据预设矩阵分解算法对聚类分析矩阵进行降维处理,得到患者聚类矩阵和病理特征聚类矩阵;进而利用患者聚类矩阵和病理特征聚类矩阵分别确定患者聚类结果和病理特征聚类结果,从而根据患者聚类结果和病理特征聚类结果确定目标预测疾病。
102、根据预设矩阵分解算法对聚类分析矩阵进行降维处理,得到患者聚类矩阵和病理特征聚类矩阵。
其中,预设矩阵分解算法可为随机梯度下降法和/或交替最小二乘法(alternating least squares,ALS),矩阵分解算法原理在于将一个矩阵分解成若干个矩阵的乘积,且该乘积无限接近于原始矩阵。
在具体的应用场景中,在得到聚类分析矩阵Rn*m后,可应用已有的矩阵分解算法对聚类分析矩阵Rn*m进行降维分解处理,得到患者聚类矩阵Pn*k、病理特征聚类矩阵Ql*m和关系特征矩阵Ek*l。其中,患者聚类矩阵Pn*k用于表征患者的聚类结果,病理特征聚类矩阵Ql*m用于表征病理特征的聚类结果,关系特征矩阵Ek*l表示患者聚类矩阵Pn*k、病理特征聚类矩阵Ql*m之间共享特征关系的中间矩阵,用于在降维分解过程中,能够通过关系特征矩阵Ek*l的学习,得到更精确的患者聚类矩阵Pn*k和病理特征聚类矩阵Ql*m的聚类结果,进一步使患者聚类矩阵Pn*k、病理特征聚类矩阵Ql*m和关系特征矩阵Ek*l的乘积能够最大化接近于聚类分析矩阵。对于本实施例,在降维处理得到符合矩阵分解算法约束的患者聚类矩阵Pn*k、病理特征聚类矩阵Ql*m和关系特征矩阵Ek*l后,可进一步从分解结果中提取出患者聚类矩阵Pn*k和病理特征聚类矩阵Ql*m,以便基于患者聚类矩阵Pn*k和病理特征聚类矩阵Ql*m同时实现对患者聚类以及病理特征聚类的分析。
103、利用患者聚类矩阵和病理特征聚类矩阵分别确定患者聚类结果和病理特征聚类结果。
对于本实施例,在利用患者聚类矩阵Pn*k确定各个患者对应的患者聚类结果时,鉴于患者聚类矩阵Pn*k中共包括n行以及k列,每一行表示一个患者的患者身份特征(如年龄、性别、工作、身高、体重等),k列表示患者聚类划分的类别,故在确定各个患者对应的患者聚类结果时,可将患者聚类矩阵Pn*k中每一行中最大的列值确定为该行内患者身份对应的患者聚类结果;在利用病理特征聚类矩阵Ql*m确定各个病理特征对应的聚类结果时,鉴于病理特征聚类矩阵Ql*m中共包括l行以及m列,l行表示病理特征聚类划分的类别,每一列表示一个病理特征(如住院天数、临床诊断、病症、检查指标、手术、疾病严重程度和费用等),故在确定病理特征聚类结果时,可将病理特征聚类矩阵Ql*m中每一列中最大的行值对应为病理特征聚类结果。
104、根据患者聚类结果和病理特征聚类结果确定目标预测疾病。
在具体的应用场景中,在确定出患者聚类结果和病理特征聚类结果后,作为一种可选方式,还可进一步依据患者聚类结果和病理特征聚类结果创建疾病病况知识库,以便利用疾病病况知识库将患者聚类结果和病理特征聚类结果应用于新患者在疾病治疗阶段的临床病理诊断、在线病理诊断、治疗方案的定制,还可应用于针对新患者在接受临床路径时可能产生的治疗效果和治疗费用的预测等其他可实现的医疗场景中。
对于本实施例,可进一步应用于患者聚类结果和病理特征聚类结果,并结合用户画像技术,根据患者病理数据实现对目标患者对应潜在或明显疾病类型的预测。其中,用户画像技术是基于用户数据对现实世界中用户的数学建模,用户画像技术的核心工作即是给用户打“标签”,而标签是通过对用户信息分析而来的高度精炼的特征标识,从而对用户进行基于标签的分析与决策。对于本实施例,可在确定出患者聚类结果和病理特征聚类结果后,基于患者聚类结果和病理特征聚类结果确定出患者病理数据对应的聚类信息,进而基于聚类信息确定目标患者的目标用户画像,并在预设疾病列表中筛选与目标用户画像特征相似度最高的预设疾病,最终将预设疾病作为目标患者对应的目标预测疾病。
通过本实施例中基于聚类分析的疾病预测方法,可首先基于样本病理数据构建聚类分析矩阵,并根据预设矩阵分解算法对聚类分析矩阵进行降维处理,得到患者聚类矩阵和病理特征聚类矩阵;进而利用患者聚类矩阵和病理特征聚类矩阵分别确定患者聚类结果和病理特征聚类结果,从而根据患者聚类结果和病理特征聚类结果确定目标预测疾病。通过本申请中的技术方案,可在对患者和病理特征进行聚类分析时,通过一个步骤能够同时得到两个聚类的结果,进而实现对聚类效率的提升。同时还能够考虑到患者信息和病理特征信息的彼此关系和影响,能够使聚类结果更为精准,从而能够为疾病预测提供有力的数据支撑。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例中的具体实施过程,提供了另一种基于聚类分析的疾病预测方法,如图2所示,该方法包括:
201、获取样本病理数据,并依据样本病理数据构建聚类分析矩阵,聚类分析矩阵的行属性为患者主体,聚类分析矩阵的列属性为病理特征。
对于本实施例,可对样本病理数据进行0-1二值化处理,处理后得到二值矩阵,即聚类分析矩阵Rn*m,每个样本患者的病理数据信息作为聚类分析矩阵中的一行m维的数值向量,这样由n个患者信息就构成了一个n*m维的聚类分析矩阵。相应的,在依据样本病理数据构建聚类分析矩阵时,实施例步骤201具体可以包括:对样本病理数据进行二值化处理,得到各个患者主体的病理特征和患者身份特征;利用患者病理特征和患者身份特征构建聚类分析矩阵,以使聚类分析矩阵的行属性为患者主体,聚类分析矩阵的列属性为病理特征。
202、按照预设矩阵分解算法将聚类分析矩阵分解为患者聚类矩阵、病理特征聚类矩阵以及关系特征矩阵的乘积,且使乘积与聚类分析矩阵对应的Frobenius范数计算结果小于预设阈值。
其中,患者聚类矩阵Pn*k中共包括n行以及k列,行属性为患者身份特征,列属性为患者聚类类别,病理特征聚类矩阵Ql*m中共包括l行以及m列,行属性为病理特征聚类类别,列属性为病理特征,关系特征矩阵Ek*l中共包括k行以及l列,行属性为患者聚类类别,列属性为病理特征聚类类别。
对于本实施例,在对聚类分析矩阵Rn*m进行降维分解处理时,可预先为降维矩阵设置矩阵参数取值,如可包括n、k、l、m对应的参数取值,以及各个矩阵内元素的预设数值区间。进一步的,可依据矩阵参数取值为患者聚类矩阵Pn*k、病理特征聚类矩阵Ql*m和关系特征矩阵Ek*l中的每个元素的数据值初始化一个随机的常数,进而利用已有的随机梯度下降法或交替最小二乘法对矩阵Pn*k,Ql*m和Ek*l进行迭代更新训练,同时对矩阵Pn*k,Ql*m和Ek*l采用Frobenius范数约束,以使在训练过程中判定损失函数达到收敛状态时判定训练完成,且此时聚类分析矩阵Rn*m与矩阵Pn*k、Ql*m、Ek*l三个矩阵乘积的差值对应的Frobenius范数计算结果最小,即矩阵Pn*k,Ql*m和Ek*l的乘积能够最好地恢复聚类分析矩阵Rn*m。
Frobenius范数的公式特征描述为:
203、利用患者聚类矩阵和病理特征聚类矩阵分别确定患者聚类结果和病理特征聚类结果。
对于本实施例,作为一种可选方式,实施例步骤203具体可以包括:提取各个患者身份特征在患者聚类矩阵中的列属性最大值,将列属性最大值确定为患者身份特征的患者聚类结果;提取各个病理特征在病理特征聚类矩阵中的行属性最大值,将行属性最大值确定为病理特征的病理特征聚类结果。
204、获取目标患者的患者病理数据,并在患者病理数据中提取患者身份数据以及病理特征数据。
其中,目标患者为待依据患者病理数据进行疾病检测的患者主体。
对于本实施例,在获取到目标患者的患者病理数据,可进一步按照预设关键词或特征数据提取模板在患者病理数据中提取患者身份数据以及病理特征数据,其中,患者身份数据可包括年龄、性别、工作、身高、体重等,病理特征数据可包括住院天数、临床诊断、病症、检查指标、手术、疾病严重程度和费用等。
205、根据患者聚类结果确定患者身份数据对应的第一聚类信息,根据病理特征聚类结果确定病理特征数据对应的第二聚类信息。
鉴于在患者聚类结果中包含各个患者身份对应的聚类划分结果,以及病理特征聚类结果中包含各个病理特征对应的聚类划分结果。故在本实施例中,可进一步依据患者聚类结果确定患者身份数据对应的第一聚类信息,依据病理特征聚类结果确定病理特征数据对应的第二聚类信息,其中,第一聚类信息用于反映目标患者对应的人群属性划分结果,第二聚类信息用于反映目标患者对应病理特征的属性划分结果。在本实施例中,通过一个步骤能够同时得到两个维度下的聚类结果,进而通过对多个维度的分析,有利于进行对疾病的精准预测。
206、基于用户画像技术确定与第一聚类信息和第二聚类信息匹配的目标预测疾病。
对于本实施例,在确定与第一聚类信息和第二聚类信息匹配的目标预测疾病时,作为一种可选实施方式,实施例步骤206具体可以包括:根据第一聚类信息和第二聚类信息,生成目标患者的目标用户画像;在预设疾病列表中筛选与目标用户画像特征相似度最高的预设疾病,将预设疾病作为目标预测疾病。
在具体的应用场景中,在确定出目标患者的第一聚类信息和第二聚类信息后,可将第一聚类信息和第二聚类信息分别作为一个独立的画像维度,进行目标用户画像的构建。相应的,在根据第一聚类信息和第二聚类信息,生成目标患者的目标用户画像时,作为一种可选实施方式,实施例步骤具体可以包括:根据预设标签提取规则提取第一聚类信息的第一特征标签,以及第二聚类信息的第二特征标签;根据第一特征标签和第二特征标签,生成目标患者的特征标签集,作为目标患者的目标用户画像。
相应的,可预先创建预设疾病列表,在预设疾病列表中预先存储有多个依据不同用户画像构建的预设疾病,不同预设疾病依据对应匹配的用户画像,同样配置有对应的特征标签集。为了根据目标用户画像确定目标预测疾病,可通过将目标用户画像与预设疾病列表中对应配置的用户画像进行特征相似度计算,具体可通过计算目标患者的特征标签集与预设疾病列表中各个预设疾病的预设特征标签集之间的特征相似度,基于特征相似度在预设疾病列表中筛选出与目标用户画像特征相似度最高的目标预测疾病。其中,作为一种可选实施方式,实施例步骤具体还可以包括:利用预设特征距离计算公式,计算目标患者的特征标签集与预设疾病列表中各个预设疾病的预设特征标签集之间的特征相似度,得到目标用户画像与各个预设疾病的特征相似度;将与目标用户画像特征相似度最高的预设疾病确定为目标预测疾病。预设特征距离计算公式可为任何适用于度量的距离函数公式,如可包括欧几里得距离公式(Euclidean Distance)、曼哈顿距离公式(Manhattan Distance)、杰卡德距离公式(Jaccard Distance)、马氏距离公式(Mahalanobis distance)等,具体可根据实际应用场景进行选择,在此不进行具体的限定。
借由上述基于聚类分析的疾病预测方法,可首先基于样本病理数据构建聚类分析矩阵,并根据预设矩阵分解算法对聚类分析矩阵进行降维处理,得到患者聚类矩阵和病理特征聚类矩阵;进而利用患者聚类矩阵和病理特征聚类矩阵分别确定患者聚类结果和病理特征聚类结果,从而根据患者聚类结果和病理特征聚类结果确定目标预测疾病。通过本申请中的技术方案,可应用于矩阵分解算法、用户画像技术实现对疾病的智能化预测。在对患者和病理特征进行聚类分析时,通过一个步骤能够同时得到两个聚类的结果,进而实现对聚类效率的提升。同时还能够考虑到患者信息和病理特征信息的彼此关系和影响,能够使聚类结果更为精准,从而能够为疾病预测提供有力的数据支撑。
进一步的,作为图1和图2所示方法的具体实现,本申请实施例提供了一种基于聚类分析的疾病预测装置,如图3所示,该装置包括:构建模块31、处理模块32、第一确定模块33、第二确定模块34;
构建模块31,可用于获取样本病理数据,并依据样本病理数据构建聚类分析矩阵,聚类分析矩阵的行属性为患者主体,聚类分析矩阵的列属性为病理特征;
处理模块32,可用于根据预设矩阵分解算法对聚类分析矩阵进行降维处理,得到患者聚类矩阵和病理特征聚类矩阵;
第一确定模块33,可用于利用患者聚类矩阵和病理特征聚类矩阵分别确定患者聚类结果和病理特征聚类结果;
第二确定模块34,可用于根据患者聚类结果和病理特征聚类结果确定目标预测疾病。
在具体的应用场景中,在依据样本病理数据构建聚类分析矩阵时,如图4所示,构建模块31,具体可包括:处理单元311、构建单元312;
处理单元311,可用于对样本病理数据进行二值化处理,得到各个患者主体的病理特征和患者身份特征;
构建单元312,可用于利用患者病理特征和患者身份特征构建聚类分析矩阵,以使聚类分析矩阵的行属性为患者主体,聚类分析矩阵的列属性为病理特征。
相应的,在根据预设矩阵分解算法对聚类分析矩阵进行降维处理,得到患者聚类矩阵和病理特征聚类矩阵时,处理模块32,具体可用于:按照预设矩阵分解算法将聚类分析矩阵分解为患者聚类矩阵、病理特征聚类矩阵以及关系特征矩阵的乘积,且使乘积与聚类分析矩阵对应的Frobenius范数计算结果小于预设阈值;其中,患者聚类矩阵的行属性为患者身份特征,患者聚类矩阵的列属性为患者聚类类别,病理特征聚类矩阵的行属性为病理特征聚类类别,病理特征聚类矩阵的列属性为病理特征,关系特征矩阵的行属性为患者聚类类别,关系特征矩阵的列属性为病理特征聚类类别。
在具体的应用场景中,在利用患者聚类矩阵和病理特征聚类矩阵分别确定患者聚类结果和病理特征聚类结果时,如图4所示,第一确定模块33,具体可包括:第一提取单元331、第二提取单元332;
第一提取单元331,可用于提取各个患者身份特征在患者聚类矩阵中的列属性最大值,将列属性最大值确定为患者身份特征的患者聚类结果;
第二提取单元332,可用于提取各个病理特征在病理特征聚类矩阵中的行属性最大值,将行属性最大值确定为病理特征的病理特征聚类结果。
相应的,在根据患者聚类结果和病理特征聚类结果确定目标预测疾病时,如图4所示,第二确定模块34,具体可包括:第三提取单元341、第一确定单元342、第二确定单元343、第三确定单元344;
第三提取单元341,可用于获取目标患者的患者病理数据,并在患者病理数据中提取患者身份数据以及病理特征数据;
第一确定单元342,可用于根据患者聚类结果确定患者身份数据对应的第一聚类信息;
第二确定单元343,可用于根据病理特征聚类结果确定病理特征数据对应的第二聚类信息;
第三确定单元344,可用于基于用户画像技术确定与第一聚类信息和第二聚类信息匹配的目标预测疾病。
相应的,在基于用户画像技术确定与第一聚类信息和第二聚类信息匹配的目标预测疾病时,第三确定单元344,具体可用于根据第一聚类信息和第二聚类信息,生成目标患者的目标用户画像;在预设疾病列表中筛选与目标用户画像特征相似度最高的预设疾病,将预设疾病作为目标预测疾病。
在具体的应用场景中,在根据第一聚类信息和第二聚类信息,生成目标患者的目标用户画像时,第三确定单元344,具体可用于根据预设标签提取规则提取第一聚类信息的第一特征标签,以及第二聚类信息的第二特征标签;根据第一特征标签和第二特征标签,生成目标患者的特征标签集,作为目标患者的目标用户画像;
相应的,在确定与目标用户画像特征相似度最高的目标预测疾病时,第三确定单元344,具体可用于利用预设特征距离计算公式,计算目标患者的特征标签集与预设疾病列表中各个预设疾病的预设特征标签集之间的特征相似度,得到目标用户画像与各个预设疾病的特征相似度;将与目标用户画像特征相似度最高的预设疾病确定为目标预测疾病。
需要说明的是,本实施例提供的一种基于聚类分析的疾病预测装置所涉及各功能单元的其他相应描述,可以参考图1至图2的对应描述,在此不再赘述。
基于上述如图1至图2所示方法,相应的,本实施例还提供了一种存储介质,存储介质具体可为易失性或非易失性,其上存储有计算机可读指令,该可读指令被处理器执行时实现上述如图1至图2所示的基于聚类分析的疾病预测方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景的方法。
基于上述如图1至图2所示的方法和图3、图4所示的虚拟装置实施例,为了实现上述目的,本实施例还提供了一种计算机设备,该计算机设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1至图2所示的基于聚类分析的疾病预测方法。
可选的,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与信息处理实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。
通过应用本申请的技术方案,与目前现有技术相比,本申请可首先基于样本病理数据构建聚类分析矩阵,并根据预设矩阵分解算法对聚类分析矩阵进行降维处理,得到患者聚类矩阵和病理特征聚类矩阵;进而利用患者聚类矩阵和病理特征聚类矩阵分别确定患者聚类结果和病理特征聚类结果,从而根据患者聚类结果和病理特征聚类结果确定目标预测疾病。通过本申请中的技术方案,可应用于矩阵分解算法、用户画像技术实现对疾病的智能化预测。在对患者和病理特征进行聚类分析时,通过一个步骤能够同时得到两个聚类的结果,进而实现对聚类效率的提升。同时还能够考虑到患者信息和病理特征信息的彼此关系和影响,能够使聚类结果更为精准,从而能够为疾病预测提供有力的数据支撑。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
Claims (10)
1.一种基于聚类分析的疾病预测方法,其特征在于,包括:
获取样本病理数据,并依据所述样本病理数据构建聚类分析矩阵,所述聚类分析矩阵的行属性为患者主体,所述聚类分析矩阵的列属性为病理特征;
根据预设矩阵分解算法对所述聚类分析矩阵进行降维处理,得到患者聚类矩阵和病理特征聚类矩阵;
利用所述患者聚类矩阵和所述病理特征聚类矩阵分别确定患者聚类结果和病理特征聚类结果;
根据所述患者聚类结果和所述病理特征聚类结果确定目标预测疾病。
2.根据权利要求1所述的方法,其特征在于,所述依据样本病理数据构建聚类分析矩阵,包括:
对所述样本病理数据进行二值化处理,得到各个患者主体的病理特征和患者身份特征;
利用所述患者病理特征和所述患者身份特征构建聚类分析矩阵,以使所述聚类分析矩阵的行属性为患者主体,所述聚类分析矩阵的列属性为病理特征。
3.根据权利要求1所述的方法,其特征在于,所述根据预设矩阵分解算法对所述聚类分析矩阵进行降维处理,得到患者聚类矩阵和病理特征聚类矩阵,包括:
按照预设矩阵分解算法将所述聚类分析矩阵分解为患者聚类矩阵、病理特征聚类矩阵以及关系特征矩阵的乘积,且使所述乘积与所述聚类分析矩阵对应的Frobenius范数计算结果小于预设阈值;
其中,所述患者聚类矩阵的行属性为患者身份特征,所述患者聚类矩阵的列属性为患者聚类类别,所述病理特征聚类矩阵的行属性为病理特征聚类类别,所述病理特征聚类矩阵的列属性为病理特征,所述关系特征矩阵的行属性为所述患者聚类类别,所述关系特征矩阵的列属性为所述病理特征聚类类别。
4.根据权利要求3所述的方法,其特征在于,所述利用所述患者聚类矩阵和所述病理特征聚类矩阵分别确定患者聚类结果和病理特征聚类结果,包括:
提取各个所述患者身份特征在所述患者聚类矩阵中的列属性最大值,将所述列属性最大值确定为所述患者身份特征的患者聚类结果;
提取各个所述病理特征在所述病理特征聚类矩阵中的行属性最大值,将所述行属性最大值确定为所述病理特征的病理特征聚类结果。
5.根据权利要求1所述的方法,其特征在于,所述根据所述患者聚类结果和所述病理特征聚类结果确定目标预测疾病,包括:
获取目标患者的患者病理数据,并在所述患者病理数据中提取患者身份数据以及病理特征数据;
根据所述患者聚类结果确定所述患者身份数据对应的第一聚类信息;
根据所述病理特征聚类结果确定所述病理特征数据对应的第二聚类信息;
基于用户画像技术确定与所述第一聚类信息和所述第二聚类信息匹配的目标预测疾病。
6.根据权利要求5所述的方法,其特征在于,所述基于用户画像技术确定与所述第一聚类信息和所述第二聚类信息匹配的目标预测疾病,包括:
根据所述第一聚类信息和所述第二聚类信息,生成所述目标患者的目标用户画像;
在预设疾病列表中筛选与所述目标用户画像特征相似度最高的预设疾病,将所述预设疾病作为目标预测疾病。
7.根据权利要求6所述的方法,其特征在于,所述根据所述第一聚类信息和所述第二聚类信息,生成所述目标患者的目标用户画像,包括:
根据预设标签提取规则提取所述第一聚类信息的第一特征标签,以及所述第二聚类信息的第二特征标签;
根据所述第一特征标签和所述第二特征标签,生成所述目标患者的特征标签集,作为所述目标患者的目标用户画像;
所述在预设疾病列表中筛选与所述目标用户画像特征相似度最高的预设疾病,将所述预设疾病作为目标预测疾病,具体包括:
利用预设特征距离计算公式,计算所述目标患者的特征标签集与预设疾病列表中各个预设疾病的预设特征标签集之间的特征相似度,得到所述目标用户画像与各个预设疾病的特征相似度;
将与所述目标用户画像特征相似度最高的预设疾病确定为目标预测疾病。
8.一种基于聚类分析的疾病预测装置,其特征在于,包括:
构建模块,用于获取样本病理数据,并依据所述样本病理数据构建聚类分析矩阵,所述聚类分析矩阵的行属性为患者主体,所述聚类分析矩阵的列属性为病理特征;
处理模块,用于根据预设矩阵分解算法对所述聚类分析矩阵进行降维处理,得到患者聚类矩阵和病理特征聚类矩阵;
第一确定模块,用于利用所述患者聚类矩阵和所述病理特征聚类矩阵分别确定患者聚类结果和病理特征聚类结果;
第二确定模块,用于根据所述患者聚类结果和所述病理特征聚类结果确定目标预测疾病。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7中任一项所述的基于聚类分析的疾病预测方法。
10.一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7中任一项所述的基于聚类分析的疾病预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111086515.4A CN113793667A (zh) | 2021-09-16 | 2021-09-16 | 基于聚类分析的疾病预测方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111086515.4A CN113793667A (zh) | 2021-09-16 | 2021-09-16 | 基于聚类分析的疾病预测方法、装置及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113793667A true CN113793667A (zh) | 2021-12-14 |
Family
ID=79183571
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111086515.4A Pending CN113793667A (zh) | 2021-09-16 | 2021-09-16 | 基于聚类分析的疾病预测方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113793667A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115376698A (zh) * | 2022-10-25 | 2022-11-22 | 北京鹰瞳科技发展股份有限公司 | 用于对眼底疾病的演进进行预测的装置、方法和存储介质 |
CN116798646A (zh) * | 2023-08-17 | 2023-09-22 | 四川互慧软件有限公司 | 基于聚类算法的蛇伤预后预测方法、装置及电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1977283A (zh) * | 2003-08-14 | 2007-06-06 | 美国医软科技公司 | 用于医疗诊断的智能定性和定量分析的方法及系统 |
KR20140090483A (ko) * | 2013-01-09 | 2014-07-17 | 경희대학교 산학협력단 | 건강정보의 군집화 방법 |
CN104915560A (zh) * | 2015-06-11 | 2015-09-16 | 万达信息股份有限公司 | 一种基于广义神经网络聚类的疾病病种诊疗方案预测方法 |
CN107658023A (zh) * | 2017-09-25 | 2018-02-02 | 泰康保险集团股份有限公司 | 疾病预测方法、装置、介质和电子设备 |
CN108986908A (zh) * | 2018-05-31 | 2018-12-11 | 平安医疗科技有限公司 | 问诊数据处理方法、装置、计算机设备和存储介质 |
CN109360658A (zh) * | 2018-11-01 | 2019-02-19 | 北京航空航天大学 | 一种基于词向量模型的疾病模式挖掘方法及装置 |
CN109686442A (zh) * | 2018-12-25 | 2019-04-26 | 刘万里 | 基于机器学习的胃食管反流疾病危险因素确定方法及系统 |
CN110189803A (zh) * | 2019-06-05 | 2019-08-30 | 南京理工大学 | 基于聚类与分类相结合的疾病危险因素提取方法 |
CN110993113A (zh) * | 2019-11-21 | 2020-04-10 | 广西大学 | 基于MF-SDAE的lncRNA-疾病关系预测方法及系统 |
-
2021
- 2021-09-16 CN CN202111086515.4A patent/CN113793667A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1977283A (zh) * | 2003-08-14 | 2007-06-06 | 美国医软科技公司 | 用于医疗诊断的智能定性和定量分析的方法及系统 |
KR20140090483A (ko) * | 2013-01-09 | 2014-07-17 | 경희대학교 산학협력단 | 건강정보의 군집화 방법 |
CN104915560A (zh) * | 2015-06-11 | 2015-09-16 | 万达信息股份有限公司 | 一种基于广义神经网络聚类的疾病病种诊疗方案预测方法 |
CN107658023A (zh) * | 2017-09-25 | 2018-02-02 | 泰康保险集团股份有限公司 | 疾病预测方法、装置、介质和电子设备 |
CN108986908A (zh) * | 2018-05-31 | 2018-12-11 | 平安医疗科技有限公司 | 问诊数据处理方法、装置、计算机设备和存储介质 |
CN109360658A (zh) * | 2018-11-01 | 2019-02-19 | 北京航空航天大学 | 一种基于词向量模型的疾病模式挖掘方法及装置 |
CN109686442A (zh) * | 2018-12-25 | 2019-04-26 | 刘万里 | 基于机器学习的胃食管反流疾病危险因素确定方法及系统 |
CN110189803A (zh) * | 2019-06-05 | 2019-08-30 | 南京理工大学 | 基于聚类与分类相结合的疾病危险因素提取方法 |
CN110993113A (zh) * | 2019-11-21 | 2020-04-10 | 广西大学 | 基于MF-SDAE的lncRNA-疾病关系预测方法及系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115376698A (zh) * | 2022-10-25 | 2022-11-22 | 北京鹰瞳科技发展股份有限公司 | 用于对眼底疾病的演进进行预测的装置、方法和存储介质 |
CN116798646A (zh) * | 2023-08-17 | 2023-09-22 | 四川互慧软件有限公司 | 基于聚类算法的蛇伤预后预测方法、装置及电子设备 |
CN116798646B (zh) * | 2023-08-17 | 2023-11-24 | 四川互慧软件有限公司 | 基于聚类算法的蛇伤预后预测方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Greener et al. | A guide to machine learning for biologists | |
Maleki et al. | A k-NN method for lung cancer prognosis with the use of a genetic algorithm for feature selection | |
Zhou et al. | From micro to macro: data driven phenotyping by densification of longitudinal electronic medical records | |
JP7305656B2 (ja) | 確率分布をモデル化するためのシステムおよび方法 | |
Zhang et al. | Comparison of machine learning methods for stationary wavelet entropy-based multiple sclerosis detection: decision tree, k-nearest neighbors, and support vector machine | |
Pölsterl et al. | Survival analysis for high-dimensional, heterogeneous medical data: Exploring feature extraction as an alternative to feature selection | |
Zhou et al. | Automatic recognition and annotation of gene expression patterns of fly embryos | |
CN113793667A (zh) | 基于聚类分析的疾病预测方法、装置及计算机设备 | |
Acharya et al. | Deep convolutional network for breast cancer classification: enhanced loss function (ELF) | |
Mishra et al. | Detection of breast cancer tumours based on feature reduction and classification of thermograms | |
Agarwal et al. | Survival prediction based on histopathology imaging and clinical data: A novel, whole slide cnn approach | |
Agrawal et al. | Health services data: big data analytics for deriving predictive healthcare insights | |
CN116259415A (zh) | 一种基于机器学习的患者服药依从性预测方法 | |
de Carvalho Brito et al. | COVID-index: A texture-based approach to classifying lung lesions based on CT images | |
Alaria et al. | Design Simulation and Assessment of Prediction of Mortality in Intensive Care Unit Using Intelligent Algorithms | |
Hammad et al. | A hybrid deep learning approach for COVID-19 detection based on genomic image processing techniques | |
Al-Ahmadi et al. | Pattern recognition of omicron variants from amalgamated multi-focus EEG signals and X-ray images using deep transfer learning | |
Friedman et al. | Why temporal persistence of biometric features, as assessed by the intraclass correlation coefficient, is so valuable for classification performance | |
Wang et al. | Signal subgraph estimation via vertex screening | |
Yadav | Cluster based-image descriptors and fractional hybrid optimization for medical image retrieval | |
Das et al. | Managing uncertainty in imputing missing symptom value for healthcare of rural India | |
Canino et al. | Feature selection model for diagnosis, electronic medical records and geographical data correlation | |
AU2021102593A4 (en) | A Method for Detection of a Disease | |
Cho et al. | Predictive pattern analysis using SOM in medical data sets for medical treatment service | |
CN113990514A (zh) | 医师诊疗行为的异常检测装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |