CN110010250A

CN110010250A - 基于数据挖掘技术的心血管疾病患者虚弱症分级方法

Info

Publication number: CN110010250A
Application number: CN201910357585.5A
Authority: CN
Inventors: 冯云霞; 韩正亮; 李旭
Original assignee: Qingdao University of Science and Technology
Current assignee: Qingdao University of Science and Technology
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2019-07-12
Anticipated expiration: 2039-04-29
Also published as: CN110010250B

Abstract

本发明涉及基于数据挖掘技术的心血管疾病患者虚弱症分级方法，其包括步骤一，在平台上建立用于对患者信息进行管理与使用的患者用户档案，用户对应患者一一映射；步骤二，首先，患者的数据信息通过患者或医生填入数据库；然后，平台并生成数据并进行存储到硬盘或内存中；步骤三，首先，用户或医生将患者就诊时自诉的症状信息与医生对患者的诊断信息通过平台登入窗口上报至数据云处理器；然后，数据云处理器对症状信息与诊断信息存储与预处理；其次，将预处理后的信息作为分类模型的训练的数据项；本发明设计合理、结构紧凑且使用方便。

Description

基于数据挖掘技术的心血管疾病患者虚弱症分级方法

技术领域

本发明涉及数据挖掘、机器学习、人工智能等计算机专业领域和医疗数据应用领域，具体为一种辅助确定心血管疾病患者当前所处虚弱状态的方法。

背景技术

随着医疗行业信息化建设的不断完善，各个业务系统生成大量的患者健康相关的检查和检验数据。基于数据挖掘和人工智能等技术，提取这些数据中隐藏的，而又具有一定潜在价值的信息和知识，可以构建一个大的数据知识库。通过对此知识库进行学习，可以得到一个具有决策能力的“大脑”，用以辅助医生对患者身体状态的把握，从而在进行医疗治疗过程可以选择更佳的临床决策，对医疗质量的提高有促进与推动的作用。在国内，相关的研究最早可追溯到1978年北京中医医院与计算机专家合作开展的“关幼波肝病诊疗程序”项目。这各也是国内首个将医学专家系统与中国传统医学相结合的医疗系统。其它的系统还有，1986年福建中医学院与省计算中心合作开发的“林如高骨伤计算机诊疗系统”；1992年，中国中医研究院和中国科学院共同研发“中国中医治疗专家系统”。

现有技术的缺点：方法简单，分类精确度和准确度低，相同虚弱症数目，但不同症状患者的区分度低。

发明内容

本发明所要解决的技术问题总的来说是提供一种基于数据挖掘技术的心血管疾病患者虚弱症分级方法；面对需住院或手术治疗的突发、重症心血管疾病患者，为了更准确、更迅速的得出具有数据意义的虚弱指数，发明一套虚弱症分级方法和算法。通过机器学习技术对门诊数据进行数据挖掘和分析等处理，可以获得更精确的患者虚弱指数，从而辅助医生实现对患者的个性化、精准治疗决策。详细解决的技术问题以及取得有益效果在后述内容以及结合具体实施方式中内容具体描述。

为解决上述问题，本发明所采取的技术方案是：

本发明利用高斯混合聚类的方法，对一个无标签患者数据先进行一个随机的预分类，如将数据a归为B类，通过其为B类的概率求出属于B类的参数，可用于确定为B类数据的划分规则，但由于数据a划分为A类的概率大于为B类的概率，会造成数据a在迭代的过程中回归到A类，各分类的参数也会逐步收敛，最终对所有数据完成分类。此方法打破了先有鸡还是先有蛋的局面，对于无法得知患者虚弱程度的真实分类，可以依据此方法，获取患者的真实身体情况。本发明为解决心血管疾病患者在治疗时，防止身体耐受力差而产生的生命危险问题。为使患者明确当前自己身体的虚弱程度，帮助医生选择更有效率的治疗方案。根据累积型虚弱的定义，累积型虚弱指定义为在一个时间定点，个体所有健康程度测量中，取值为不健康的指标个数所占的比例为分级标准。比值越大虚弱程度越高，反之虚弱程度越低。累积型虚弱指数每增加0.1，虚弱患者相较于普通患者死亡风险增加44％。对于虚弱程度较高的患者可以选择较为缓和的治疗方式，同时辅以针对性的虚弱恢复手段，以降低由于身体耐受不住治疗导致的负面影响，从而提升对患者的治疗安全性与治疗效率。同时，虚弱程度对于预测手术风险，促进围术期优化有着重要的意义。因此，精准的患者虚弱程度分级有极高的研究价值。本发明即为一种提高辅助检测虚弱程度精确度的系统，相比传统的虚弱测试系统更加符合患者身体状况的真实性。

本发明的有益效果不限于此描述，为了更好的便于理解，在具体实施方式部分进行了更加详细的描述。

附图说明

图1是本发明的流程示意图。

具体实施方式

如图1，本发明借助于数据软件平台；该平台包括

用户档案的数据库，其记载有患者的数据，数据库为存储于计算机的电子数据库；数据库数据信息的建立基于《国家基本公共卫生服务规范》，其包括身体特征信息、身体检查信息、症状信息、以及诊断信息；当输入患者的数据时，数据软件平台设置有提示模块与帮助模块；

数据云处理器，用来对患者的数据进行存储与预处理，并将预处理后的信息作为分类模型的训练数据项；其中数据项包含姓名、证件号码、性别、年龄、症状主诉、体征、病史、以及检验检查；每行数据为某患者当次诊断的文本数据。

脱敏化模块，用来与数据云处理器连接，对数据项中的数据进行脱敏化处理；脱敏化处理对患者的姓名、证件号码、家庭住址等私密信息删去，保留患者的身体状态数据、症状诊断数据、以及标识码，标识码用于找到反馈信息给本条数据的用户；

正则化预处理模块，将脱敏化处理后的文本数据进行数字化；

对照表模块，建立数据名称、字段名称对照表并将数字化后数据导入；

分组模块，设定分组的模，并根据分组的模将对照表模块分组并导入；

判定模块，接收分组模块的数据，

主成分分析模块，若该分组含有数据的条数等于分组的模，接收批处理导入分组的数据；对数据进行主成分分析；

权重模块，将主成分分析模块的数据进行求取数据权重值；

高斯聚类模块，权重模块处理后的数据进行混合聚类计算；

数据模型模块，若该分组数据量小于分组的模，接收并处理一次该分组数据导入的数据，接收高斯聚类模块导入的数据；

具体步骤如下：

步骤一，在平台上建立用于对患者信息进行管理与使用的患者用户档案，用户对应患者一一映射；

步骤二，首先，患者的数据信息通过患者或医生填入数据库；然后，平台并生成数据并进行存储到硬盘或内存中；

步骤三，首先，用户或医生将患者就诊时自诉的症状信息与医生对患者的诊断信息通过平台登入窗口上报至数据云处理器；然后，数据云处理器对症状信息与诊断信息存储与预处理；其次，将预处理后的信息作为分类模型的训练的数据项；

步骤四，首先，将数据项的数据从数据云处理器导入脱敏化模块中；然后，脱敏化模块对数据进行脱敏化处理；

步骤五，将脱敏化处理数据导入正则化预处理模块，正则化预处理模块将数据项的文本数据进行数值化；获取更直观的数据项。

正则化预处理模块的数值化，首先，从文本数据症状主诉、体征、病史、检查检验报告、以及疾病诊断结果中匹配正则表达式；然后，通过正则表达式识别出患者数据包括性别、年龄、头晕、胸闷、乏力、口干、咳嗽、血压高、血糖高、心慌、心悸、收缩压、舒张压、心率值、四肢肌力、心律齐、高血压病、糖尿病、冠心病、脑梗、肾脏病、以及心力衰竭；其次，根据文本数据的特征，将性别、头晕、胸闷、乏力、口干、咳嗽、血压高、血糖高、心慌、心悸、心率、四肢肌力、心律齐、高血压病、糖尿病、冠心病、脑梗死、肾脏病、以及心力衰竭作为状态数据，并对相应字段赋1，否则赋0；再次，对性别置男为0女为1；再后来，将检验检查数值类数据转换为设定的对应的等级值，如对收缩压、舒张压对应的中国高血压等级规范置1、2、3，并对其进行归一化处理；紧接着，根据研究报告得出的年龄与虚弱呈正相关，将年龄数据作为目标数据的一个维度，并本系统不考虑100岁以上的老人，将数据中100岁以上的数据剔除，对年龄数据直接做归一化处理，并将数据保存，作为最终模型的一个标度；

步骤六，建立对照表模块，然后将数值化后的患者数据导入；

步骤七，首先，根据平台处理能力和数据量情况，选取合理的值作为标准，为方便描述，将此处用来分组的这个值称作分组的模；然后，将对照表模块得到的数据分成若干组，并导入分组模块中；其次，将每组数据导入判定模块中；

步骤八，判定模块判定分组模块传入的数据量，进行判定：

若该组含有数据的条数等于分组的模，则进行批处理导入主成分分析模块；

若数据量小于分组的模，首先，先将此部分数据导入数据模型模块处理一次，经过目前训练的模型得出此患者的虚弱值；然后，将获得的虚弱值随数据模型模块数据一起向下导入，同时将此分组数据存入此判定模块的数据栈中；

其次，统计数据栈中的数据量并进行判定：

如果统计数据栈中的数据量超过分组的模，则取出时间序列中前分组的模的数据，分成一组，导入主成分分析模块，剩下的数据继续等待合并新的数据集；

如果未超过分组的模，则合并后继续等待新的数据；

步骤九，主成分分析模块对从步骤八传入的数据进行主成分分析；

首先，对数据进行降维因子分析，当对于第一次进行分析时，先对所有数据项进行Person关联分析法，去除相关程度低的数据项，本数据集中最终选取10项数据项作为提取因子，为fl_flag、xm_flag、ty_flag、xj_flag、kg_flag、xlsj_flag、gxy_flag、ng_flag、tnb_flag、ks_flag所表示的数据项，将KMO值提升到0.7以上，达到主成分分析法适用的标准；然后，通过计算得到解释总方差，选取累计表达超过90％的初始特征、提取平方和载入，并获取成分矩阵；其次，将获取的数据与患者数据导入权重模块；(此处根据数据特征会有所调整，如果有新数据项加入，且相关程度较高，并能提高KMO值即可加入进行优化处理，此处是因为所拥有数据集特征而选择的10项数据项。)

步骤十，将主成分分析模块的数据进行求取数据权重值；

首先，用得到的矩阵成分E与对应初始特征值t求商Q，即公式(1)：

然后，将上一结果Q与方差S代入下一公式计算H，即公式(2)：

即求出主成分的方差贡献度；

其次，对整体进行平移，使所有值为正数，获得H’，即公式(3)：

H'＝H+MIN(H) (3)

再次，对指标权重进行归一化，得出的结果为数据项fl_flag、xm_flag、ty_flag、xj_flag、kg_flag、xlsj_flag、gxy_flag、ng_flag、tnb_flag、ks_flag的权重值；最后，将患者数据与得出的权重值导入下一模块。

步骤十一，对权重模块的值进行权重值的应用，首先，更新目前的权重，对第一次使用时初始值为0.1，直接更新；之后，按每组的权重与目前的权重求均值进行更新；其次，与权重相对应的数据项进行求积的和，获得一个1以内的数值，将其作为不健康度B，即公式(4)：

表示患者的身体状况，与利用患者年龄生成的数据指标，该指标定为年龄度A；再次，组成一个2维数组，将每个数据表示成一个2维坐标中的点；最后，此数据为最终处理数据，并导入下一模块；

步骤十二，首先，将处理后的数据中年龄度A与不健康度B两项，按组输入高斯聚类模块，即公式(5):

其中μ是n维均值向量，∑是n*n的协方差矩阵，l为n维样本空间中的随机向量l，α为混合系数，将目标期望值分为三类：早期虚弱，中期虚弱，晚期虚弱，即将混合成分k设定为3，其次，计算每个数据对应各个混合成分的后验概率，即公式(6)：

根据后验概率生成新的均值向量μ`、新的协方差矩阵∑`、新的混合系数α`，对模型中的均值向量、协方差矩阵和混合系数进行迭代更新，直到收敛为止；再次，对数据进行确定分类的簇标记，即公式(7)：

γ_j＝argmaxχ_ji,i∈{1,2,...,k} (7)

通过极大似然函数获得新混合成分；最后，将结果导入数据模型模块；

步骤十三，首先，在数据模型模块训练好之后，按组进行对比优化，并获取患者的虚弱值，如果患者的虚弱值已有则进行更新，否则对患者进行添加此数据项；然后，进行交叉验证进行优化提升正确率，调整数据的权重和均值向量、协方差矩阵、混合系数；最后，获取新的系统模型；，为系统模型提升更广的适应度，并将获取的数据导入下一模块。

步骤十四，从新的系统模型获得的数据即为最终数据，可以反馈回患者和医生，辅助患者的诊疗。

系统根据模型处理数据所获取一个二维值，二维值处于系统训练模型的某类别区域中，此区域即为此人的虚弱程度，相比于传统症状累积型虚弱诊断，将单纯根据症状数量的累加判断一个人的虚弱程度更改为加入由数据分析求得每个数据的权重占比，通过影响程度大的数据项对患者影响效果强的数据意义，来获取患者的虚弱程度，要更加反应真实的患者身体状况。

使用本发明时，

本发明设计合理、成本低廉、结实耐用、安全可靠、操作简单、省时省力、节约资金、结构紧凑且使用方便。

本发明充分描述是为了更加清楚的公开，而对于现有技术就不再一一例举。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；作为本领域技术人员对本发明的多个技术方案进行组合是显而易见的。而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

1.一种基于数据挖掘技术的心血管疾病患者虚弱症分级方法，其特征在于：具体步骤如下：步骤一，在平台上建立用于对患者信息进行管理与使用的患者用户档案，用户对应患者一一映射；

步骤五，将脱敏化处理数据导入正则化预处理模块，正则化预处理模块将数据项的文本数据进行数值化；

步骤七，首先，根据平台处理能力和数据量情况，选取分组的模；然后，将对照表模块得到的数据分成若干组，并导入分组模块中；其次，将每组数据导入判定模块中；

步骤八，判定模块判定分组模块传入的数据量，进行判定：

若数据量小于分组的模，首先，先将此部分数据导入数据模型模块处理一次，得出此患者的虚弱值；然后，将获得的虚弱值随数据模型模块数据一起向下导入，同时将此分组数据存入此判定模块的数据栈中；

其次，统计数据栈中的数据量并进行判定：

如果未超过分组的模，则合并后继续等待新的数据；

首先，对数据进行降维因子分析，当对于第一次进行分析时，先对所有数据项进行Person关联分析法，去除相关程度低的数据项，本数据集中最终选取10项数据项作为提取因子，为fl_flag、xm_flag、ty_flag、xj_flag、kg_flag、xlsj_flag、gxy_flag、ng_flag、tnb_flag、ks_flag所表示的数据项，将KMO值提升到0.7以上，达到主成分分析法适用的标准；然后，通过计算得到解释总方差，选取累计表达超过90％的初始特征、提取平方和载入，并获取成分矩阵；其次，将获取的数据与患者数据导入权重模块；

步骤十，将主成分分析模块的数据进行求取数据权重值；

然后，将上一结果Q与方差S代入下一公式计算H，即公式(2)：

即求出主成分的方差贡献度；

H'＝H+MIN(H) (3)

再次，对指标权重进行归一化，得出的结果为数据项fl_flag、xm_flag、ty_flag、xj_flag、kg_flag、xlsj_flag、gxy_flag、ng_flag、tnb_flag、ks_flag的权重值；

最后，将患者数据与得出的权重值导入下一模块。

γ_j＝arg max χ_ji,i∈{1,2,...,k} (7)

步骤十三，首先，在数据模型模块训练好之后，按组进行对比优化，并获取患者的虚弱值，如果患者的虚弱值已有则进行更新，否则对患者进行添加此数据项；然后，进行交叉验证进行优化，调整数据的权重和均值向量、协方差矩阵、混合系数；最后，获取新的系统模型；

步骤十四，从新的系统模型获得的数据即为最终数据。

2.根据权利要求1所述的基于数据挖掘技术的心血管疾病患者虚弱症分级方法，其特征在于:步骤五的正则化预处理模块的数值化包括以下步骤：，首先，从文本数据症状主诉、体征、病史、检查检验报告、以及疾病诊断结果中匹配正则表达式；然后，通过正则表达式识别出患者数据包括性别、年龄、头晕、胸闷、乏力、口干、咳嗽、血压高、血糖高、心慌、心悸、收缩压、舒张压、心率值、四肢肌力、心律齐、高血压病、糖尿病、冠心病、脑梗、肾脏病、以及心力衰竭；其次，根据文本数据的特征，将性别、头晕、胸闷、乏力、口干、咳嗽、血压高、血糖高、心慌、心悸、心率、四肢肌力、心律齐、高血压病、糖尿病、冠心病、脑梗死、肾脏病、以及心力衰竭作为状态数据，并对相应字段赋1，否则赋0；再次，对性别置男为0女为1；再后来，将检验检查数值类数据转换为设定的对应的等级值，并对其进行归一化处理；紧接着，根据研究报告得出的年龄与虚弱呈正相关，将年龄数据作为目标数据的一个维度，并将数据中100岁以上的数据剔除，对年龄数据直接做归一化处理，并将数据保存，作为最终模型的一个标度。

3.根据权利要求1所述的基于数据挖掘技术的心血管疾病患者虚弱症分级方法，其特征在于:步骤六的对照表模块为：

数据名称字段名称性别 sex 年龄 age 头晕 ty_flag 胸闷 xm_flag 乏力 fl_flag 口干 kg_flag 咳嗽 ks_flag 血压高 xt_flag 血糖高 xy_flag 心慌 xh_flag 心悸 xj_flag 收缩压值 ss_pre 舒张压值 sz_pre 心率值 hr_rate 四肢肌力 szjl_flag 心律齐 xl_flag 高血压病 gxy_flag 糖尿病 tnb_flag 冠心病 gxb_flag 脑梗 ng_flag 肾脏病 gx_flag 心力衰竭 xlsj_flag

。

4.根据权利要求1所述的基于数据挖掘技术的心血管疾病患者虚弱症分级方法，其特征在于:借助于数据软件平台；该平台包括

用户档案的数据库，其记载有患者的数据，数据库为存储于计算机的电子数据库；数据库数据信息的建立基于《国家基本公共卫生服务规范》，其包括身体特征信息、身体检查信息、症状信息、以及诊断信息。

5.根据权利要求4所述的基于数据挖掘技术的心血管疾病患者虚弱症分级方法，其特征在于:该平台包括数据云处理器，用来对患者的数据进行存储与预处理，并将预处理后的信息作为分类模型的训练数据项；其中数据项包含姓名、证件号码、性别、年龄、症状主诉、体征、病史、以及检验检查。

6.根据权利要求4所述的基于数据挖掘技术的心血管疾病患者虚弱症分级方法，其特征在于:该平台包括脱敏化模块，用来与数据云处理器连接，对数据项中的数据进行脱敏化处理；脱敏化处理对患者的私密信息删去，保留患者的身体状态数据、症状诊断数据、以及标识码，标识码用于找到反馈信息给本条数据的用户。

7.根据权利要求4所述的基于数据挖掘技术的心血管疾病患者虚弱症分级方法，其特征在于:该平台包括正则化预处理模块，将脱敏化处理后的文本数据进行数字化。

8.根据权利要求4所述的基于数据挖掘技术的心血管疾病患者虚弱症分级方法，其特征在于:该平台包括对照表模块，建立数据名称、字段名称对照表并将数字化后数据导入。

9.根据权利要求4所述的基于数据挖掘技术的心血管疾病患者虚弱症分级方法，其特征在于:该平台包括分组模块，设定分组的模，并根据分组的模将对照表模块分组并导入。

10.根据权利要求4所述的基于数据挖掘技术的心血管疾病患者虚弱症分级方法，其特征在于:该平台包括

判定模块，接收分组模块的数据，

权重模块，将主成分分析模块的数据进行求取数据权重值；

高斯聚类模块，权重模块处理后的数据进行混合聚类计算；

数据模型模块，若该分组数据量小于分组的模，接收并处理一次该分组数据导入的数据，接收高斯聚类模块导入的数据。