CN110010250A - 基于数据挖掘技术的心血管疾病患者虚弱症分级方法 - Google Patents
基于数据挖掘技术的心血管疾病患者虚弱症分级方法 Download PDFInfo
- Publication number
- CN110010250A CN110010250A CN201910357585.5A CN201910357585A CN110010250A CN 110010250 A CN110010250 A CN 110010250A CN 201910357585 A CN201910357585 A CN 201910357585A CN 110010250 A CN110010250 A CN 110010250A
- Authority
- CN
- China
- Prior art keywords
- data
- flag
- patient
- module
- grouping
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 21
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 21
- 238000007418 data mining Methods 0.000 title claims abstract description 17
- 230000002526 effect on cardiovascular system Effects 0.000 title claims abstract description 16
- 238000005516 engineering process Methods 0.000 title claims abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 15
- 208000024891 symptom Diseases 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 6
- 230000008676 import Effects 0.000 claims description 21
- 238000000513 principal component analysis Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 12
- 206010020772 Hypertension Diseases 0.000 claims description 11
- 238000013499 data model Methods 0.000 claims description 10
- 230000000875 corresponding effect Effects 0.000 claims description 9
- 238000003745 diagnosis Methods 0.000 claims description 8
- 238000002156 mixing Methods 0.000 claims description 8
- 239000000470 constituent Substances 0.000 claims description 6
- 238000007689 inspection Methods 0.000 claims description 6
- 206010011224 Cough Diseases 0.000 claims description 5
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 claims description 5
- 239000008280 blood Substances 0.000 claims description 5
- 210000004369 blood Anatomy 0.000 claims description 5
- 206010008118 cerebral infarction Diseases 0.000 claims description 5
- 208000026106 cerebrovascular disease Diseases 0.000 claims description 5
- 208000029078 coronary artery disease Diseases 0.000 claims description 5
- 206010012601 diabetes mellitus Diseases 0.000 claims description 5
- 208000002173 dizziness Diseases 0.000 claims description 5
- 239000008103 glucose Substances 0.000 claims description 5
- 210000003734 kidney Anatomy 0.000 claims description 5
- 230000003387 muscular Effects 0.000 claims description 5
- 230000033764 rhythmic process Effects 0.000 claims description 5
- 206010033557 Palpitations Diseases 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000035487 diastolic blood pressure Effects 0.000 claims description 4
- 238000011160 research Methods 0.000 claims description 4
- 206010019280 Heart failures Diseases 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000035488 systolic blood pressure Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000007476 Maximum Likelihood Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 claims description 2
- 230000002596 correlated effect Effects 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 claims description 2
- 230000005180 public health Effects 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 230000003340 mental effect Effects 0.000 claims 1
- 238000009510 drug design Methods 0.000 abstract description 2
- 238000009825 accumulation Methods 0.000 description 4
- 230000001225 therapeutic effect Effects 0.000 description 4
- 239000003814 drug Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 208000010392 Bone Fractures Diseases 0.000 description 1
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 241000287828 Gallus gallus Species 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000000586 desensitisation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 208000019423 liver disease Diseases 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及基于数据挖掘技术的心血管疾病患者虚弱症分级方法,其包括步骤一,在平台上建立用于对患者信息进行管理与使用的患者用户档案,用户对应患者一一映射;步骤二,首先,患者的数据信息通过患者或医生填入数据库;然后,平台并生成数据并进行存储到硬盘或内存中;步骤三,首先,用户或医生将患者就诊时自诉的症状信息与医生对患者的诊断信息通过平台登入窗口上报至数据云处理器;然后,数据云处理器对症状信息与诊断信息存储与预处理;其次,将预处理后的信息作为分类模型的训练的数据项;本发明设计合理、结构紧凑且使用方便。
Description
技术领域
本发明涉及数据挖掘、机器学习、人工智能等计算机专业领域和医疗数据应用领域,具体为一种辅助确定心血管疾病患者当前所处虚弱状态的方法。
背景技术
随着医疗行业信息化建设的不断完善,各个业务系统生成大量的患者健康相关的检查和检验数据。基于数据挖掘和人工智能等技术,提取这些数据中隐藏的,而又具有一定潜在价值的信息和知识,可以构建一个大的数据知识库。通过对此知识库进行学习,可以得到一个具有决策能力的“大脑”,用以辅助医生对患者身体状态的把握,从而在进行医疗治疗过程可以选择更佳的临床决策,对医疗质量的提高有促进与推动的作用。在国内,相关的研究最早可追溯到1978年北京中医医院与计算机专家合作开展的“关幼波肝病诊疗程序”项目。这各也是国内首个将医学专家系统与中国传统医学相结合的医疗系统。其它的系统还有,1986年福建中医学院与省计算中心合作开发的“林如高骨伤计算机诊疗系统”;1992年,中国中医研究院和中国科学院共同研发“中国中医治疗专家系统”。
现有技术的缺点:方法简单,分类精确度和准确度低,相同虚弱症数目,但不同症状患者的区分度低。
发明内容
本发明所要解决的技术问题总的来说是提供一种基于数据挖掘技术的心血管疾病患者虚弱症分级方法;面对需住院或手术治疗的突发、重症心血管疾病患者,为了更准确、更迅速的得出具有数据意义的虚弱指数,发明一套虚弱症分级方法和算法。通过机器学习技术对门诊数据进行数据挖掘和分析等处理,可以获得更精确的患者虚弱指数,从而辅助医生实现对患者的个性化、精准治疗决策。详细解决的技术问题以及取得有益效果在后述内容以及结合具体实施方式中内容具体描述。
为解决上述问题,本发明所采取的技术方案是:
本发明利用高斯混合聚类的方法,对一个无标签患者数据先进行一个随机的预分类,如将数据a归为B类,通过其为B类的概率求出属于B类的参数,可用于确定为B类数据的划分规则,但由于数据a划分为A类的概率大于为B类的概率,会造成数据a在迭代的过程中回归到A类,各分类的参数也会逐步收敛,最终对所有数据完成分类。此方法打破了先有鸡还是先有蛋的局面,对于无法得知患者虚弱程度的真实分类,可以依据此方法,获取患者的真实身体情况。本发明为解决心血管疾病患者在治疗时,防止身体耐受力差而产生的生命危险问题。为使患者明确当前自己身体的虚弱程度,帮助医生选择更有效率的治疗方案。根据累积型虚弱的定义,累积型虚弱指定义为在一个时间定点,个体所有健康程度测量中,取值为不健康的指标个数所占的比例为分级标准。比值越大虚弱程度越高,反之虚弱程度越低。累积型虚弱指数每增加0.1,虚弱患者相较于普通患者死亡风险增加44%。对于虚弱程度较高的患者可以选择较为缓和的治疗方式,同时辅以针对性的虚弱恢复手段,以降低由于身体耐受不住治疗导致的负面影响,从而提升对患者的治疗安全性与治疗效率。同时,虚弱程度对于预测手术风险,促进围术期优化有着重要的意义。因此,精准的患者虚弱程度分级有极高的研究价值。本发明即为一种提高辅助检测虚弱程度精确度的系统,相比传统的虚弱测试系统更加符合患者身体状况的真实性。
本发明的有益效果不限于此描述,为了更好的便于理解,在具体实施方式部分进行了更加详细的描述。
附图说明
图1是本发明的流程示意图。
具体实施方式
如图1,本发明借助于数据软件平台;该平台包括
用户档案的数据库,其记载有患者的数据,数据库为存储于计算机的电子数据库;数据库数据信息的建立基于《国家基本公共卫生服务规范》,其包括身体特征信息、身体检查信息、症状信息、以及诊断信息;当输入患者的数据时,数据软件平台设置有提示模块与帮助模块;
数据云处理器,用来对患者的数据进行存储与预处理,并将预处理后的信息作为分类模型的训练数据项;其中数据项包含姓名、证件号码、性别、年龄、症状主诉、体征、病史、以及检验检查;每行数据为某患者当次诊断的文本数据。
脱敏化模块,用来与数据云处理器连接,对数据项中的数据进行脱敏化处理;脱敏化处理对患者的姓名、证件号码、家庭住址等私密信息删去,保留患者的身体状态数据、症状诊断数据、以及标识码,标识码用于找到反馈信息给本条数据的用户;
正则化预处理模块,将脱敏化处理后的文本数据进行数字化;
对照表模块,建立数据名称、字段名称对照表并将数字化后数据导入;
分组模块,设定分组的模,并根据分组的模将对照表模块分组并导入;
判定模块,接收分组模块的数据,
主成分分析模块,若该分组含有数据的条数等于分组的模,接收批处理导入分组的数据;对数据进行主成分分析;
权重模块,将主成分分析模块的数据进行求取数据权重值;
高斯聚类模块,权重模块处理后的数据进行混合聚类计算;
数据模型模块,若该分组数据量小于分组的模,接收并处理一次该分组数据导入的数据,接收高斯聚类模块导入的数据;
具体步骤如下:
步骤一,在平台上建立用于对患者信息进行管理与使用的患者用户档案,用户对应患者一一映射;
步骤二,首先,患者的数据信息通过患者或医生填入数据库;然后,平台并生成数据并进行存储到硬盘或内存中;
步骤三,首先,用户或医生将患者就诊时自诉的症状信息与医生对患者的诊断信息通过平台登入窗口上报至数据云处理器;然后,数据云处理器对症状信息与诊断信息存储与预处理;其次,将预处理后的信息作为分类模型的训练的数据项;
步骤四,首先,将数据项的数据从数据云处理器导入脱敏化模块中;然后,脱敏化模块对数据进行脱敏化处理;
步骤五,将脱敏化处理数据导入正则化预处理模块,正则化预处理模块将数据项的文本数据进行数值化;获取更直观的数据项。
正则化预处理模块的数值化,首先,从文本数据症状主诉、体征、病史、检查检验报告、以及疾病诊断结果中匹配正则表达式;然后,通过正则表达式识别出患者数据包括性别、年龄、头晕、胸闷、乏力、口干、咳嗽、血压高、血糖高、心慌、心悸、收缩压、舒张压、心率值、四肢肌力、心律齐、高血压病、糖尿病、冠心病、脑梗、肾脏病、以及心力衰竭;其次,根据文本数据的特征,将性别、头晕、胸闷、乏力、口干、咳嗽、血压高、血糖高、心慌、心悸、心率、四肢肌力、心律齐、高血压病、糖尿病、冠心病、脑梗死、肾脏病、以及心力衰竭作为状态数据,并对相应字段赋1,否则赋0;再次,对性别置男为0女为1;再后来,将检验检查数值类数据转换为设定的对应的等级值,如对收缩压、舒张压对应的中国高血压等级规范置1、2、3,并对其进行归一化处理;紧接着,根据研究报告得出的年龄与虚弱呈正相关,将年龄数据作为目标数据的一个维度,并本系统不考虑100岁以上的老人,将数据中100岁以上的数据剔除,对年龄数据直接做归一化处理,并将数据保存,作为最终模型的一个标度;
步骤六,建立对照表模块,然后将数值化后的患者数据导入;
步骤七,首先,根据平台处理能力和数据量情况,选取合理的值作为标准,为方便描述,将此处用来分组的这个值称作分组的模;然后,将对照表模块得到的数据分成若干组,并导入分组模块中;其次,将每组数据导入判定模块中;
步骤八,判定模块判定分组模块传入的数据量,进行判定:
若该组含有数据的条数等于分组的模,则进行批处理导入主成分分析模块;
若数据量小于分组的模,首先,先将此部分数据导入数据模型模块处理一次,经过目前训练的模型得出此患者的虚弱值;然后,将获得的虚弱值随数据模型模块数据一起向下导入,同时将此分组数据存入此判定模块的数据栈中;
其次,统计数据栈中的数据量并进行判定:
如果统计数据栈中的数据量超过分组的模,则取出时间序列中前分组的模的数据,分成一组,导入主成分分析模块,剩下的数据继续等待合并新的数据集;
如果未超过分组的模,则合并后继续等待新的数据;
步骤九,主成分分析模块对从步骤八传入的数据进行主成分分析;
首先,对数据进行降维因子分析,当对于第一次进行分析时,先对所有数据项进行Person关联分析法,去除相关程度低的数据项,本数据集中最终选取10项数据项作为提取因子,为fl_flag、xm_flag、ty_flag、xj_flag、kg_flag、xlsj_flag、gxy_flag、ng_flag、tnb_flag、ks_flag所表示的数据项,将KMO值提升到0.7以上,达到主成分分析法适用的标准;然后,通过计算得到解释总方差,选取累计表达超过90%的初始特征、提取平方和载入,并获取成分矩阵;其次,将获取的数据与患者数据导入权重模块;(此处根据数据特征会有所调整,如果有新数据项加入,且相关程度较高,并能提高KMO值即可加入进行优化处理,此处是因为所拥有数据集特征而选择的10项数据项。)
步骤十,将主成分分析模块的数据进行求取数据权重值;
首先,用得到的矩阵成分E与对应初始特征值t求商Q,即公式(1):
然后,将上一结果Q与方差S代入下一公式计算H,即公式(2):
即求出主成分的方差贡献度;
其次,对整体进行平移,使所有值为正数,获得H’,即公式(3):
H'=H+MIN(H) (3)
再次,对指标权重进行归一化,得出的结果为数据项fl_flag、xm_flag、ty_flag、xj_flag、kg_flag、xlsj_flag、gxy_flag、ng_flag、tnb_flag、ks_flag的权重值;最后,将患者数据与得出的权重值导入下一模块。
步骤十一,对权重模块的值进行权重值的应用,首先,更新目前的权重,对第一次使用时初始值为0.1,直接更新;之后,按每组的权重与目前的权重求均值进行更新;其次,与权重相对应的数据项进行求积的和,获得一个1以内的数值,将其作为不健康度B,即公式(4):
表示患者的身体状况,与利用患者年龄生成的数据指标,该指标定为年龄度A;再次,组成一个2维数组,将每个数据表示成一个2维坐标中的点;最后,此数据为最终处理数据,并导入下一模块;
步骤十二,首先,将处理后的数据中年龄度A与不健康度B两项,按组输入高斯聚类模块,即公式(5):
其中μ是n维均值向量,∑是n*n的协方差矩阵,l为n维样本空间中的随机向量l,α为混合系数,将目标期望值分为三类:早期虚弱,中期虚弱,晚期虚弱,即将混合成分k设定为3,其次,计算每个数据对应各个混合成分的后验概率,即公式(6):
根据后验概率生成新的均值向量μ`、新的协方差矩阵∑`、新的混合系数α`,对模型中的均值向量、协方差矩阵和混合系数进行迭代更新,直到收敛为止;再次,对数据进行确定分类的簇标记,即公式(7):
γj=argmaxχji,i∈{1,2,...,k} (7)
通过极大似然函数获得新混合成分;最后,将结果导入数据模型模块;
步骤十三,首先,在数据模型模块训练好之后,按组进行对比优化,并获取患者的虚弱值,如果患者的虚弱值已有则进行更新,否则对患者进行添加此数据项;然后,进行交叉验证进行优化提升正确率,调整数据的权重和均值向量、协方差矩阵、混合系数;最后,获取新的系统模型;,为系统模型提升更广的适应度,并将获取的数据导入下一模块。
步骤十四,从新的系统模型获得的数据即为最终数据,可以反馈回患者和医生,辅助患者的诊疗。
系统根据模型处理数据所获取一个二维值,二维值处于系统训练模型的某类别区域中,此区域即为此人的虚弱程度,相比于传统症状累积型虚弱诊断,将单纯根据症状数量的累加判断一个人的虚弱程度更改为加入由数据分析求得每个数据的权重占比,通过影响程度大的数据项对患者影响效果强的数据意义,来获取患者的虚弱程度,要更加反应真实的患者身体状况。
使用本发明时,
本发明设计合理、成本低廉、结实耐用、安全可靠、操作简单、省时省力、节约资金、结构紧凑且使用方便。
本发明充分描述是为了更加清楚的公开,而对于现有技术就不再一一例举。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;作为本领域技术人员对本发明的多个技术方案进行组合是显而易见的。而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。
Claims (10)
1.一种基于数据挖掘技术的心血管疾病患者虚弱症分级方法,其特征在于:具体步骤如下:步骤一,在平台上建立用于对患者信息进行管理与使用的患者用户档案,用户对应患者一一映射;
步骤二,首先,患者的数据信息通过患者或医生填入数据库;然后,平台并生成数据并进行存储到硬盘或内存中;
步骤三,首先,用户或医生将患者就诊时自诉的症状信息与医生对患者的诊断信息通过平台登入窗口上报至数据云处理器;然后,数据云处理器对症状信息与诊断信息存储与预处理;其次,将预处理后的信息作为分类模型的训练的数据项;
步骤四,首先,将数据项的数据从数据云处理器导入脱敏化模块中;然后,脱敏化模块对数据进行脱敏化处理;
步骤五,将脱敏化处理数据导入正则化预处理模块,正则化预处理模块将数据项的文本数据进行数值化;
步骤六,建立对照表模块,然后将数值化后的患者数据导入;
步骤七,首先,根据平台处理能力和数据量情况,选取分组的模;然后,将对照表模块得到的数据分成若干组,并导入分组模块中;其次,将每组数据导入判定模块中;
步骤八,判定模块判定分组模块传入的数据量,进行判定:
若该组含有数据的条数等于分组的模,则进行批处理导入主成分分析模块;
若数据量小于分组的模,首先,先将此部分数据导入数据模型模块处理一次,得出此患者的虚弱值;然后,将获得的虚弱值随数据模型模块数据一起向下导入,同时将此分组数据存入此判定模块的数据栈中;
其次,统计数据栈中的数据量并进行判定:
如果统计数据栈中的数据量超过分组的模,则取出时间序列中前分组的模的数据,分成一组,导入主成分分析模块,剩下的数据继续等待合并新的数据集;
如果未超过分组的模,则合并后继续等待新的数据;
步骤九,主成分分析模块对从步骤八传入的数据进行主成分分析;
首先,对数据进行降维因子分析,当对于第一次进行分析时,先对所有数据项进行Person关联分析法,去除相关程度低的数据项,本数据集中最终选取10项数据项作为提取因子,为fl_flag、xm_flag、ty_flag、xj_flag、kg_flag、xlsj_flag、gxy_flag、ng_flag、tnb_flag、ks_flag所表示的数据项,将KMO值提升到0.7以上,达到主成分分析法适用的标准;然后,通过计算得到解释总方差,选取累计表达超过90%的初始特征、提取平方和载入,并获取成分矩阵;其次,将获取的数据与患者数据导入权重模块;
步骤十,将主成分分析模块的数据进行求取数据权重值;
首先,用得到的矩阵成分E与对应初始特征值t求商Q,即公式(1):
然后,将上一结果Q与方差S代入下一公式计算H,即公式(2):
即求出主成分的方差贡献度;
其次,对整体进行平移,使所有值为正数,获得H’,即公式(3):
H'=H+MIN(H) (3)
再次,对指标权重进行归一化,得出的结果为数据项fl_flag、xm_flag、ty_flag、xj_flag、kg_flag、xlsj_flag、gxy_flag、ng_flag、tnb_flag、ks_flag的权重值;
最后,将患者数据与得出的权重值导入下一模块。
步骤十一,对权重模块的值进行权重值的应用,首先,更新目前的权重,对第一次使用时初始值为0.1,直接更新;之后,按每组的权重与目前的权重求均值进行更新;其次,与权重相对应的数据项进行求积的和,获得一个1以内的数值,将其作为不健康度B,即公式(4):
表示患者的身体状况,与利用患者年龄生成的数据指标,该指标定为年龄度A;再次,组成一个2维数组,将每个数据表示成一个2维坐标中的点;最后,此数据为最终处理数据,并导入下一模块;
步骤十二,首先,将处理后的数据中年龄度A与不健康度B两项,按组输入高斯聚类模块,即公式(5):
其中μ是n维均值向量,∑是n*n的协方差矩阵,l为n维样本空间中的随机向量l,α为混合系数,将目标期望值分为三类:早期虚弱,中期虚弱,晚期虚弱,即将混合成分k设定为3,其次,计算每个数据对应各个混合成分的后验概率,即公式(6):
根据后验概率生成新的均值向量μ`、新的协方差矩阵∑`、新的混合系数α`,对模型中的均值向量、协方差矩阵和混合系数进行迭代更新,直到收敛为止;再次,对数据进行确定分类的簇标记,即公式(7):
γj=arg max χji,i∈{1,2,...,k} (7)
通过极大似然函数获得新混合成分;最后,将结果导入数据模型模块;
步骤十三,首先,在数据模型模块训练好之后,按组进行对比优化,并获取患者的虚弱值,如果患者的虚弱值已有则进行更新,否则对患者进行添加此数据项;然后,进行交叉验证进行优化,调整数据的权重和均值向量、协方差矩阵、混合系数;最后,获取新的系统模型;
步骤十四,从新的系统模型获得的数据即为最终数据。
2.根据权利要求1所述的基于数据挖掘技术的心血管疾病患者虚弱症分级方法,其特征在于:步骤五的正则化预处理模块的数值化包括以下步骤:,首先,从文本数据症状主诉、体征、病史、检查检验报告、以及疾病诊断结果中匹配正则表达式;然后,通过正则表达式识别出患者数据包括性别、年龄、头晕、胸闷、乏力、口干、咳嗽、血压高、血糖高、心慌、心悸、收缩压、舒张压、心率值、四肢肌力、心律齐、高血压病、糖尿病、冠心病、脑梗、肾脏病、以及心力衰竭;其次,根据文本数据的特征,将性别、头晕、胸闷、乏力、口干、咳嗽、血压高、血糖高、心慌、心悸、心率、四肢肌力、心律齐、高血压病、糖尿病、冠心病、脑梗死、肾脏病、以及心力衰竭作为状态数据,并对相应字段赋1,否则赋0;再次,对性别置男为0女为1;再后来,将检验检查数值类数据转换为设定的对应的等级值,并对其进行归一化处理;紧接着,根据研究报告得出的年龄与虚弱呈正相关,将年龄数据作为目标数据的一个维度,并将数据中100岁以上的数据剔除,对年龄数据直接做归一化处理,并将数据保存,作为最终模型的一个标度。
3.根据权利要求1所述的基于数据挖掘技术的心血管疾病患者虚弱症分级方法,其特征在于:步骤六的对照表模块为:
。
4.根据权利要求1所述的基于数据挖掘技术的心血管疾病患者虚弱症分级方法,其特征在于:借助于数据软件平台;该平台包括
用户档案的数据库,其记载有患者的数据,数据库为存储于计算机的电子数据库;数据库数据信息的建立基于《国家基本公共卫生服务规范》,其包括身体特征信息、身体检查信息、症状信息、以及诊断信息。
5.根据权利要求4所述的基于数据挖掘技术的心血管疾病患者虚弱症分级方法,其特征在于:该平台包括数据云处理器,用来对患者的数据进行存储与预处理,并将预处理后的信息作为分类模型的训练数据项;其中数据项包含姓名、证件号码、性别、年龄、症状主诉、体征、病史、以及检验检查。
6.根据权利要求4所述的基于数据挖掘技术的心血管疾病患者虚弱症分级方法,其特征在于:该平台包括脱敏化模块,用来与数据云处理器连接,对数据项中的数据进行脱敏化处理;脱敏化处理对患者的私密信息删去,保留患者的身体状态数据、症状诊断数据、以及标识码,标识码用于找到反馈信息给本条数据的用户。
7.根据权利要求4所述的基于数据挖掘技术的心血管疾病患者虚弱症分级方法,其特征在于:该平台包括正则化预处理模块,将脱敏化处理后的文本数据进行数字化。
8.根据权利要求4所述的基于数据挖掘技术的心血管疾病患者虚弱症分级方法,其特征在于:该平台包括对照表模块,建立数据名称、字段名称对照表并将数字化后数据导入。
9.根据权利要求4所述的基于数据挖掘技术的心血管疾病患者虚弱症分级方法,其特征在于:该平台包括分组模块,设定分组的模,并根据分组的模将对照表模块分组并导入。
10.根据权利要求4所述的基于数据挖掘技术的心血管疾病患者虚弱症分级方法,其特征在于:该平台包括
判定模块,接收分组模块的数据,
主成分分析模块,若该分组含有数据的条数等于分组的模,接收批处理导入分组的数据;对数据进行主成分分析;
权重模块,将主成分分析模块的数据进行求取数据权重值;
高斯聚类模块,权重模块处理后的数据进行混合聚类计算;
数据模型模块,若该分组数据量小于分组的模,接收并处理一次该分组数据导入的数据,接收高斯聚类模块导入的数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910357585.5A CN110010250B (zh) | 2019-04-29 | 2019-04-29 | 基于数据挖掘技术的心血管疾病患者虚弱症分级方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910357585.5A CN110010250B (zh) | 2019-04-29 | 2019-04-29 | 基于数据挖掘技术的心血管疾病患者虚弱症分级方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110010250A true CN110010250A (zh) | 2019-07-12 |
CN110010250B CN110010250B (zh) | 2023-05-26 |
Family
ID=67175106
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910357585.5A Active CN110010250B (zh) | 2019-04-29 | 2019-04-29 | 基于数据挖掘技术的心血管疾病患者虚弱症分级方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110010250B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111834006A (zh) * | 2020-07-08 | 2020-10-27 | 中润普达(十堰)大数据中心有限公司 | 一种基于尿酸值域范围智能疾病认知系统 |
CN112086199A (zh) * | 2020-09-14 | 2020-12-15 | 中科院计算所西部高等技术研究院 | 基于多组学数据的肝癌数据处理系统 |
CN112768058A (zh) * | 2021-01-22 | 2021-05-07 | 武汉大学 | 一种计量信息类型的医疗数据的处理方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103823843A (zh) * | 2014-01-24 | 2014-05-28 | 北京理工大学 | 一种高斯混合模型树及其递增聚类方法 |
CN106878677A (zh) * | 2017-01-23 | 2017-06-20 | 西安电子科技大学 | 基于多传感器的学生课堂掌握程度评估系统和方法 |
-
2019
- 2019-04-29 CN CN201910357585.5A patent/CN110010250B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103823843A (zh) * | 2014-01-24 | 2014-05-28 | 北京理工大学 | 一种高斯混合模型树及其递增聚类方法 |
CN106878677A (zh) * | 2017-01-23 | 2017-06-20 | 西安电子科技大学 | 基于多传感器的学生课堂掌握程度评估系统和方法 |
Non-Patent Citations (1)
Title |
---|
吴立旗等: "基于主成份/因子及聚类分析的冠心病中医证型分布规律研究", 《成都中医药大学学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111834006A (zh) * | 2020-07-08 | 2020-10-27 | 中润普达(十堰)大数据中心有限公司 | 一种基于尿酸值域范围智能疾病认知系统 |
CN112086199A (zh) * | 2020-09-14 | 2020-12-15 | 中科院计算所西部高等技术研究院 | 基于多组学数据的肝癌数据处理系统 |
CN112086199B (zh) * | 2020-09-14 | 2023-06-09 | 中科院计算所西部高等技术研究院 | 基于多组学数据的肝癌数据处理系统 |
CN112768058A (zh) * | 2021-01-22 | 2021-05-07 | 武汉大学 | 一种计量信息类型的医疗数据的处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110010250B (zh) | 2023-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7809660B2 (en) | System and method to optimize control cohorts using clustering algorithms | |
WO2021120936A1 (zh) | 一种基于多任务学习模型的慢病预测系统 | |
Sharma et al. | A comprehensive review of machine learning techniques on diabetes detection | |
CN110111884B (zh) | 一种基于cmkmc的人机协同智慧医疗辅助决策系统 | |
US20090287503A1 (en) | Analysis of individual and group healthcare data in order to provide real time healthcare recommendations | |
Karthiga et al. | Early prediction of heart disease using decision tree algorithm | |
CN110010250A (zh) | 基于数据挖掘技术的心血管疾病患者虚弱症分级方法 | |
US20220084662A1 (en) | Systems and methods for automatically notifying a caregiver that a patient requires medical intervention | |
CN109213871A (zh) | 患者信息知识图谱构建方法、可读存储介质和终端 | |
CN109411062A (zh) | 一种基于深度学习技术利用生理参数自动判断糖尿病及其并发症的方法 | |
CN109147954A (zh) | 基于知识图谱的患者信息处理装置 | |
CN111584021A (zh) | 病案信息校验方法、装置、电子设备及存储介质 | |
CN116910172B (zh) | 基于人工智能的随访量表生成方法及系统 | |
CN110164519B (zh) | 一种基于众智网络的用于处理电子病历混合数据的分类方法 | |
Nabi et al. | Machine learning approach: Detecting polycystic ovary syndrome & it's impact on bangladeshi women | |
Das et al. | A comparative study of machine learning approaches for heart stroke prediction | |
CN112820372B (zh) | 护理方案自动生成方法及系统 | |
Han et al. | A hybrid breast cancer classification algorithm based on meta-learning and artificial neural networks | |
Rathi et al. | Early Prediction of Diabetes Using Machine Learning Techniques | |
Mirzajani | Prediction and diagnosis of diabetes by using data mining techniques | |
Ceritli et al. | Mixture of input-output hidden markov models for heterogeneous disease progression modeling | |
Sharma et al. | Comparing Data Mining Techniques Used For Heart Disease Prediction | |
Dai et al. | Phenotyping hypotensive patients in critical care using hospital discharge summaries | |
Ayshwarya et al. | Heart Diseases Prediction Using Back Propagation Neural Network with Butterfly Optimization | |
Bindushree et al. | A review on using various DM techniques for evaluation of performance and analysis of heart disease prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |