CN111681767B - 一种电子病历数据处理方法及系统 - Google Patents
一种电子病历数据处理方法及系统 Download PDFInfo
- Publication number
- CN111681767B CN111681767B CN202010536331.2A CN202010536331A CN111681767B CN 111681767 B CN111681767 B CN 111681767B CN 202010536331 A CN202010536331 A CN 202010536331A CN 111681767 B CN111681767 B CN 111681767B
- Authority
- CN
- China
- Prior art keywords
- calcification
- data
- state
- feature
- historical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 7
- 208000004434 Calcinosis Diseases 0.000 claims abstract description 161
- 230000002308 calcification Effects 0.000 claims abstract description 161
- 208000005475 Vascular calcification Diseases 0.000 claims abstract description 46
- 230000036541 health Effects 0.000 claims abstract description 42
- 239000003795 chemical substances by application Substances 0.000 claims abstract description 41
- 238000001514 detection method Methods 0.000 claims abstract description 35
- 238000011156 evaluation Methods 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000012216 screening Methods 0.000 claims abstract description 7
- 210000004204 blood vessel Anatomy 0.000 claims description 28
- 230000000405 serological effect Effects 0.000 claims description 22
- 238000000034 method Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 14
- 210000004369 blood Anatomy 0.000 claims description 12
- 239000008280 blood Substances 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 11
- 239000003814 drug Substances 0.000 claims description 8
- 238000013210 evaluation model Methods 0.000 claims description 8
- 210000002966 serum Anatomy 0.000 claims description 8
- 201000010099 disease Diseases 0.000 claims description 7
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 7
- 238000003745 diagnosis Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 5
- OYPRJOBELJOOCE-UHFFFAOYSA-N Calcium Chemical compound [Ca] OYPRJOBELJOOCE-UHFFFAOYSA-N 0.000 claims description 4
- 102100024802 Fibroblast growth factor 23 Human genes 0.000 claims description 4
- 101001051973 Homo sapiens Fibroblast growth factor 23 Proteins 0.000 claims description 4
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 claims description 4
- 229930003316 Vitamin D Natural products 0.000 claims description 4
- QYSXJUFSXHHAJI-XFEUOLMDSA-N Vitamin D3 Natural products C1(/[C@@H]2CC[C@@H]([C@]2(CCC1)C)[C@H](C)CCCC(C)C)=C/C=C1\C[C@@H](O)CCC1=C QYSXJUFSXHHAJI-XFEUOLMDSA-N 0.000 claims description 4
- 210000000577 adipose tissue Anatomy 0.000 claims description 4
- 238000003556 assay Methods 0.000 claims description 4
- 239000011230 binding agent Substances 0.000 claims description 4
- 239000011575 calcium Substances 0.000 claims description 4
- 229910052791 calcium Inorganic materials 0.000 claims description 4
- 229910000389 calcium phosphate Inorganic materials 0.000 claims description 4
- 239000001506 calcium phosphate Substances 0.000 claims description 4
- 235000011010 calcium phosphates Nutrition 0.000 claims description 4
- 238000000502 dialysis Methods 0.000 claims description 4
- 230000035622 drinking Effects 0.000 claims description 4
- 229940079593 drug Drugs 0.000 claims description 4
- 239000011574 phosphorus Substances 0.000 claims description 4
- 229910052698 phosphorus Inorganic materials 0.000 claims description 4
- 230000000391 smoking effect Effects 0.000 claims description 4
- QORWJWZARLRLPR-UHFFFAOYSA-H tricalcium bis(phosphate) Chemical compound [Ca+2].[Ca+2].[Ca+2].[O-]P([O-])([O-])=O.[O-]P([O-])([O-])=O QORWJWZARLRLPR-UHFFFAOYSA-H 0.000 claims description 4
- 235000019166 vitamin D Nutrition 0.000 claims description 4
- 239000011710 vitamin D Substances 0.000 claims description 4
- 150000003710 vitamin D derivatives Chemical class 0.000 claims description 4
- 229940046008 vitamin d Drugs 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims 1
- -1 and diagnosis result Substances 0.000 claims 1
- 230000015572 biosynthetic process Effects 0.000 claims 1
- 230000000379 polymerizing effect Effects 0.000 claims 1
- 230000009471 action Effects 0.000 description 12
- 208000020832 chronic kidney disease Diseases 0.000 description 11
- 230000002776 aggregation Effects 0.000 description 6
- 238000004220 aggregation Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000002787 reinforcement Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 206010020772 Hypertension Diseases 0.000 description 2
- 230000007211 cardiovascular event Effects 0.000 description 2
- 206010012601 diabetes mellitus Diseases 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 229940050561 matrix product Drugs 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 208000037411 Aortic calcification Diseases 0.000 description 1
- 208000017667 Chronic Disease Diseases 0.000 description 1
- 208000008589 Obesity Diseases 0.000 description 1
- 208000031481 Pathologic Constriction Diseases 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000002591 computed tomography Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 208000017169 kidney disease Diseases 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000002595 magnetic resonance imaging Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 235000020824 obesity Nutrition 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000036262 stenosis Effects 0.000 description 1
- 208000037804 stenosis Diseases 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种电子病历数据处理方法,包括:采集电子健康数据和血清学检测指标数据,将所述电子健康数据和血清学检测指标数据进行血管钙化等级评估得到样本标签数据集;对所述样本标签数据集进行数据筛选和特征选择预处理操作得到钙化状态的特征表示;采用所述钙化状态的特征表示构建嵌入层得到多维向量嵌入模型;输入所述多维向量嵌入模型构建历史钙化状态集,采用智能体选择所述多历史钙化状态集中的历史钙化状态,得到智能体的状态环境,通过LSTM网络对所述状态环境进行自适应学习历史钙化状态与上一时刻钙化状态得到血管钙化评估模型。采用动态跨越长短期强化记忆网络将电子病历不同时期的钙化状态数据融合提高了模型的评估准确度。
Description
技术领域
本发明涉及机器学习领域,具体涉及一种电子病历数据处理方法及系统。
背景技术
现代社会中随着糖尿病、高血压和肥胖患病人数的增加,以及人口老龄化、生活方式改变等,慢性肾脏病(Chronic Kidney Disease,CKD)的发病率逐年攀升,CKD患者存在广泛的血管钙化(Vascular Calcification,VC),并随肾脏病的进展而加重。计算机断层扫描发现4~5期CKD患者中有80%的患者有主动脉钙化的症状,且其钙化程度已达心血管事件预警指标,VC是终末期CKD患者发生心血管事件与死亡的重要因素。因此,对血管钙化进行评估对于提醒人体身体健康具有重要意义。
与糖尿病、高血压等慢性病相比,对于血管钙化情况的监测很不方便。临床上检查血管钙化的几种常规方法主要是X线、CT、核磁共振成像(MRI)等医学影像检查确定血管钙化的发生区域,这些基于医学影像的方法存在诊断周期长、检测费用高等问题,且因部分检测手段的辐射而不适合经常进行,而血管钙化是一个长期过程,需要长时间跟踪分析,现有方法难以满足需求。
比如现有技术中,中国发明专利“CN109875527A一种血管钙化的计算方法及设备”获取血管图像及对应于血管图像的血管预测结果体数据;分割处理血管预测结果体数据,得到多个血管短轴体;计算多个血管短轴体上的钙化结果,得到初步钙化结果;从血管图像中提取对应于钙化区域的钙化血管图像;根据血管图像和钙化血管图像调整初步钙化结果,提高了血管自动狭窄结果计算的准确性,得到最终钙化结果。中国发明专利“CN109846465A一种基于亮度分析的血管钙化误报检测方法”先通过对钙化候选区域进行形态分析,找出易出现误报情况的候选区域,然后基于亮度分析调整检测阈值,对假钙化区域进行甄别和剔除,有效避免了误报情况的发生。
上述基于计算机进行的方法都是采用图像或图像与血管预测数据进行的,而电子病历作为目前的个人健康记录信息载体记录了大量的病症信息,通过电子病历数据挖掘患病风险做出预测,可以成为很好的一种辅助,因此如何处理电子病历存储的大量不同病症的数据也成为了一种研究趋势。
发明内容
本发明所要解决的技术问题是如何对电子病历中与血管钙化相关的数据进行处理的问题,目的在于提供一种电子病历数据处理方法及系统,解决上述问题。
本发明通过下述技术方案实现:
一种电子病历数据处理方法,包括:
S1:采集电子病历系统中的电子健康数据和血清学检测指标数据,将所述电子健康数据和血清学检测指标数据进行血管钙化等级评估得到样本标签数据集;
S2:对所述样本标签数据集进行数据筛选和特征选择预处理操作得到钙化状态的特征表示;
S3:采用所述钙化状态的特征表示构建嵌入层得到多维向量嵌入模型;
S4:输入所述多维向量嵌入模型构建历史钙化状态集,采用智能体选择所述多历史钙化状态集中的历史钙化状态,得到智能体的状态环境,通过LSTM网络对所述状态环境进行自适应学习历史钙化状态与上一时刻钙化状态得到血管钙化评估模型。
本发明通过动态跨越长短期强化记忆网络模型对电子病历中与血管的钙化程度有关的数据进行训练,通过所述电子病历中与血管的钙化程度有关的数据得到一个关于血管钙化程度的评估模型,且因为电子病历中不同的数据的类型是不同的,因此需要将采集到的数据进行不同的预处理,得到本发明的动态跨越长短期强化记忆网络模型可以进行训练的数据集。
本发明主要将电子健康记录中的数据以及人体的血清学检测指标数据进行钙化等级划分后作为模型的训练集和测试集,进行动态跨越长短期强化记忆网络模型的训练,得到一个较为准确的钙化评估结果,采用动态跨越长短期强化记忆网络模型可以选择电子病历中不同时期的所有与钙化评估具有较强相关的历史钙化状态信息,与当前的钙化状态信息进行关联得到更为准确的训练模型。
进一步的,所述样本标签数据集包括电子健康数据、血清学检测指标数据和血管钙化等级;
所述电子健康数据包括性别、年龄、透析龄、身高、体重、腰围、体脂率、吸烟史、饮酒状况、含钙磷酸盐结合剂、应用维生素D等生理指标,及诊断结果、药物、处方和医嘱信息;
所述血清学检测指标数据包括血清Klotho、血清FGF23、血磷、血钙、血iPTH、25(OH)D人体化验检测指标。
进一步的,所述S2包括:
S21:将所述血清学检测指标数据、药物、处方、医嘱、生命体征和健康因素代码化表示,将所述样本标签数据集中的数值型数据归一化表示,将所述样本标签数据集中的非数值型数据编码化表示后,得到样本标签数据特征集;
S22:删除所述样本标签数据特征集中缺失数值后得到预处理样本标签数据特征集;
S23:计算所述预处理样本标签数据特征集中电子健康数据特征与血管钙化等级评估的相关性,选择与血管钙化相关性强的数据特征;
S24:将选择的所述数据特征进行编码聚合级联得到钙化状态的特征表示。
进一步的,所述S23中电子健康数据特征与血管钙化等级评估的相关性通过互信息表示,所述互信息:
其中I(X;Y)表示互信息,信息熵H(X)表示患者数据特征集X的钙化期望,H(X|Y)表示条件熵,即钙化状态发生的条件下特征集X的钙化期望,ai∈X,表示患者电子健康记录中第i个数据特征,n表示X中数据特征的数量,P(ai)表示特征ai发生概率,m表示VC钙化的等级数量,取值为4,bj表示钙化等级,P(bj)表示第j等级的钙化疾病发生的概率,P(ai,bj)表示钙化等级为bj的情况下,数据特征为ai的概率。
通过计算不同特征ai与钙化等级的互信息,即可筛选出与该CKD患者钙化程度具有强相关性的特征。
将经过特征选择的数据进行编码聚合级联以形成钙化状态的特征表示。对于数值特征,聚合级联各数值的平均值、中位数、标准差、最小值和最大值等数值特征,以及简单趋势特征,例如最后观察值与最小值或最大值之间的差异等。
进一步的,所述S3包括:
将所述钙化状态的特征表示进行稀疏操作后输入嵌入层的全连接层得到低维连续钙化状态的特征表示,将所述低维连续钙化状态的特征表示采用多特征决策级融合进行级联和融合得到多维向量嵌入模型。
完成上述操作后,需要对各嵌入参数使用L1正则化以防止过度拟合确保模型关注最显著的特征。
血管钙化是慢性病变过程,血管钙化风险特征的历史状态对于当前状态的评估具有参考意义,本发明提出动态跨越长短期强化记忆网络,结合强化学习通过多智能体(multi-agent)构建multi-actor网络,以动态选择对血管钙化具有强相关的历史显著状态,通过对历史状态以及当前状态数据融合,分析血管钙化特征以实现血管钙化等级评估。
进一步的,所述S4包括:
S41:采用所述多维向量嵌入模型构建历史钙化状态集,所述智能体从所述历史钙化状态集中评估和选择历史钙化状态;
S42:采用所述历史钙化状态和当前钙化状态构建智能体的状态环境;
S43:将所述状态环境传输至LSTM网络进行自适应学习历史钙化状态与上一时刻钙化状态得到血管钙化评估模型。
强化学习中的智能体agent选择t-k时刻历史状态信息和t-1时刻状态信息构成t时刻智能体agent所处的状态环境,其中k∈{2,3,…,K}。多agents具有多action操作,即经过投票规则选择前i个不同t-k时刻历史状态信息和t-1时刻状态信息构成t时刻的智能体agent多个不同的状态环境。因此,将t-k时刻历史状态信息ht-k和t-1时刻状态信息ht-1和当前时刻t的钙化状态经过多维向量嵌入模型特征嵌入表示后结合起来;
进一步的,所述智能体的状态环境:
构造一个历史状态集HK,它表示具有K个历史状态信息ht-k,即保留了K个最近得到的历史状态信息,K是提前设定的超参数。agent通过从多项式分布πK(k|ht-k)采样HK中的状态来采取行动,以评估最优和最相关历史状态,如下所示:
P=softmax(MLP(ht-k))
其中[k==i]成立时为1,否则为0。MLP表示多层感知器,将ht-k变换为维数为K的向量,并利用softmax函数将向量转换为概率分布P,以获得钙化历史状态输入钙化评估模型的选择概率,pi是P中第i个元素,之后被选中的t-k时刻历史状态信息和前一时刻状态组合的状态环境st被馈入到下一层LSTM单元。
本发明采用奖励函数保证如何选择历史状态信息,所述奖励函数指导智能体选择一系列最优的跨越动作来改善模型性能。所述奖励函数采用预测真实标签的对数似然,即以获取最优奖励分数,其中表示钙化状态真实评估等级,ht表示模型输出的隐藏状态。因此,通过奖励函数与智能体的环境状态交互,激励智能体选择最优跳转,从而提高真实预测概率。
根据下列公式计算Q值,用于评估具有最大相关性的CKD患者钙化历史状态,并更新Q表:
Q(st,gt)=R(st,gt)+γmaxQ(st+1,gt+1)
其中st表示当前输入的状态环境,gt为动作列表中任一动作,表示钙化历史状态信息,常量参数γ(0≤γ≤1)为折扣系数,在智能体agent训练学习过程中,总是选择所述对应状态拥有最大Q值的动作,然后据此策略进行迭代训练。经过多次训练学习,存储Q值的Q表不断更新。为了让Q学习在适当的时刻收敛,在公式中引入学习率α(0<α<1),则Q(st,gt)表示为:
Q(st,gt)=(1-α)Q(st,gt)+α(R(st,gt)+γmaxQ(st+1,gt+1)
基于多agent投票选择奖励分数排名前i个血管钙化历史状态,本发明的i设置为3,即选择Q值排名前3位的历史强相关钙化状态信息。使用标准LSTM单元编码所选的状态环境st,LSTM模型使用一个超参数λ结合历史状态与上一时刻状态,以使模型自适应学习历史状态与上一时刻状态对于CKD患者钙化评估的重要性,如下式所示:
ht=σ(ot)⊙ct
表示级联操作,表示tanh操作,⊙表示Hadamard积,·表示矩阵乘积,σ()表示sigmoid函数。gt、it、ft、ot分别表示模型的输入、输入门、遗忘门和输出门。分别表示模型输入、输入门、遗忘门和输出门对于输入xt的输入权重,分别表示模型输入、输入门、遗忘门和输出门对于历史状态ht-1的权重,bg、bi、bf、bo分别表示模型输入、输入门、遗忘门和输出门的偏置。ct-1、ct分别为t-1、t时刻的细胞单元,ht表示模型输出的隐藏状态。
进一步的,所述血管钙化评估模型:
ht=σ(ot)⊙ct
其中,ht表示模型输出的隐藏状态,ct表示t时刻的细胞单元,σ()表示sigmoid函数,ot表示模型的输出门。
在进行LSTM模型的创建后设置两层全连接层,最后一层全连接层为输出层,隐藏状态单元数设置为4,对应血管钙化的4个分类等级。经过softmax函数,获取各等级的评估概率,公式如下:
其中Sj表示第j钙化等级评估概率,j∈{1,2,3,4}。yj表示第j个隐藏单元的加权和输出,最后概率值最大的即为钙化等级。
一种电子病历数据处理系统,包括:
采集模块,用于采集电子健康数据和血清学检测指标数据,将所述电子健康数据和血清学检测指标数据进行血管钙化等级评估得到样本标签数据集;
预处理模块,用于对所述样本标签数据集进行数据筛选和特征选择预处理操作得到钙化状态的特征表示;
嵌入模块,用于所述钙化状态的特征表示构建嵌入层得到多维向量嵌入模型;
训练模块,用于通过所述多维向量嵌入模型进行LSTM网络的自适应学习生成血管钙化评估模型。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明一种电子病历数据处理方法及系统,采用动态跨越长短期强化记忆网络将电子病历中不同时期的钙化状态数据进行融合提高了模型的评估准确度。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明方法流程图;
图2为本发明系统结构图;
图3为本发明LSTM网络结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例1
如图1所示,一种电子病历数据处理方法,包括:
S1:采集电子健康数据和血清学检测指标数据,将所述电子健康数据和血清学检测指标数据进行血管钙化等级评估得到样本标签数据集;
S2:对所述样本标签数据集进行数据筛选和特征选择预处理操作得到钙化状态的特征表示;
S3:采用所述钙化状态的特征表示构建嵌入层得到多维向量嵌入模型;
S4:输入所述多维向量嵌入模型构建历史钙化状态集,采用智能体选择所述多历史钙化状态集中的历史钙化状态,得到智能体的状态环境,通过LSTM网络对所述状态环境进行自适应学习历史钙化状态与上一时刻钙化状态得到血管钙化评估模型。
本发明通过动态跨越长短期强化记忆网络模型对血管的钙化程度进行评估,主要将电子健康记录中的数据以及人体的血清学检测指标数据进行钙化等级划分后作为模型的训练集和测试集,进行动态跨越长短期强化记忆网络模型的训练,然后通过所述动态跨越长短期强化记忆网络模型得到一个较为准确的钙化评估结果,采用动态跨越长短期强化记忆网络模型可以选择与钙化评估具有较强相关的不同历史钙化状态信息,与当前的钙化状态信息进行关联得到更为准确的训练模型。
进一步的,所述样本标签数据集包括电子健康数据、血清学检测指标数据和血管钙化等级;
所述电子健康数据包括性别、年龄、透析龄、身高、体重、腰围、体脂率、吸烟史、饮酒状况、含钙磷酸盐结合剂、应用维生素D等生理指标,及诊断结果、药物、处方和医嘱信息;
所述血清学检测指标数据包括血清Klotho、血清FGF23、血磷、血钙、血iPTH、25(OH)D人体化验检测指标。
进一步的,所述S2包括:
S21:将所述血清学检测指标数据、药物、处方、医嘱、生命体征和健康因素代码化表示,将所述样本标签数据集中的数值型数据归一化表示,将所述样本标签数据集中的非数值型数据编码化表示后,得到样本标签数据特征集;
S22:删除所述样本标签数据特征集中缺失数值后得到预处理样本标签数据特征集;
S23:计算所述预处理样本标签数据特征集中电子健康数据特征与血管钙化等级评估的相关性,选择与血管钙化相关性强的数据特征;
S24:将选择的所述数据特征进行编码聚合级联得到钙化状态的特征表示。
进一步的,所述S23中电子健康数据特征与血管钙化等级评估的相关性通过互信息表示,所述互信息:
其中I(X;Y)表示互信息,信息熵H(X)表示患者数据特征集X的钙化期望,H(X|Y)表示条件熵,即钙化状态发生的条件下特征集X的钙化期望,ai∈X,表示患者电子健康记录中第i个数据特征,n表示X中数据特征的数量,P(ai)表示特征ai发生概率,m表示VC钙化的等级数量,取值为4,bj表示钙化等级,P(bj)表示第j等级的钙化疾病发生的概率,P(ai,bj)表示钙化等级为bj的情况下,数据特征为ai的概率。
通过计算不同特征ai与钙化等级的互信息,即可筛选出与钙化程度具有强相关性的特征。
将经过特征选择的数据进行编码聚合级联以形成钙化状态的特征表示。对于数值特征,聚合级联各数值的平均值、中位数、标准差、最小值和最大值等数值特征,以及简单趋势特征,例如最后观察值与最小值或最大值之间的差异等。
进一步的,所述S3包括:
将所述钙化状态的特征表示进行稀疏操作后输入嵌入层的全连接层得到低维连续钙化状态的特征表示,将所述低维连续钙化状态的特征表示采用多特征决策级融合进行级联和融合得到多维向量嵌入模型。
完成上述操作后,需要对各嵌入参数使用L1正则化以防止过度拟合确保模型关注最显著的特征。
血管钙化是慢性病变过程,血管钙化风险特征的历史状态对于当前状态的评估具有参考意义,本发明提出动态跨越长短期强化记忆网络,结合强化学习通过多智能体(multi-agent)构建multi-actor网络,以动态选择对血管钙化具有强相关的历史显著状态,通过对历史状态以及当前状态数据融合,分析血管钙化特征以实现血管钙化等级评估。
进一步的,所述S4包括:
S41:采用所述多维向量嵌入模型构建历史钙化状态集,所述智能体从所述历史钙化状态集中评估和选择历史钙化状态;
S42:采用所述历史钙化状态和当前钙化状态构建智能体的状态环境;
S43:将所述状态环境传输至LSTM网络进行自适应学习历史钙化状态与上一时刻钙化状态得到血管钙化评估模型。
强化学习中的智能体agent选择t-k时刻历史状态信息和t-1时刻状态信息构成t时刻智能体agent所处的状态环境,其中k∈{2,3,…,K}。多agents具有多action操作,即经过投票规则选择前i个不同t-k时刻历史状态信息和t-1时刻状态信息构成t时刻的智能体agent多个不同的状态环境。因此,将t-k时刻历史状态信息ht-k和t-1时刻状态信息ht-1和当前时刻t的钙化状态经过多维向量嵌入模型特征嵌入表示后结合起来;
进一步的,所述智能体的状态环境:
构造一个历史状态集HK,它表示具有K个历史状态信息ht-k,即保留了K个最近得到的历史状态信息,K是提前设定的超参数。agent通过从多项式分布πK(k|ht-k)采样HK中的状态来采取行动,以评估最优和最相关历史状态,如下所示:
P=softmax(MLP(ht-k))
其中[k==i]成立时为1,否则为0。MLP表示多层感知器,将ht-k变换为维数为K的向量,并利用softmax函数将向量转换为概率分布P,以获得钙化历史状态输入钙化评估模型的选择概率,pi是P中第i个元素,之后被选中的t-k时刻历史状态信息和前一时刻状态组合的状态环境st被馈入到下一层LSTM单元。
本发明采用奖励函数保证如何选择历史状态信息,所述奖励函数指导智能体选择一系列最优的跨越动作来改善模型性能。所述奖励函数采用预测真实标签的对数似然,即以获取最优奖励分数,其中表示钙化状态真实评估等级,ht表示模型输出的隐藏状态。因此,通过奖励函数与智能体的环境状态交互,激励智能体选择最优跳转,从而提高真实预测概率。
根据下列公式计算Q值,用于评估具有最大相关性的CKD患者钙化历史状态,并更新Q表:
Q(st,gt)=R(st,gt)+γmaxQ(st+1,gt+1)
其中st表示当前输入的状态环境,gt为动作列表中任一动作,表示钙化历史状态信息,常量参数γ(0≤γ≤1)为折扣系数,在智能体agent训练学习过程中,总是选择所述对应状态拥有最大Q值的动作,然后据此策略进行迭代训练。经过多次训练学习,存储Q值的Q表不断更新。为了让Q学习在适当的时刻收敛,在公式中引入学习率α(0<α<1),则Q(st,gt)表示为:
Q(st,gt)=(1-α)Q(st,gt)+α(R(st,gt)+γmaxQ(st+1,gt+1)
基于多agent投票选择奖励分数排名前i个血管钙化历史状态,本发明的i设置为3,即选择Q值排名前3位的历史强相关钙化状态信息。使用标准LSTM单元编码所选的状态环境st,LSTM模型使用一个超参数λ结合历史状态与上一时刻状态,以使模型自适应学习历史状态与上一时刻状态对于CKD患者钙化评估的重要性,如下式所示:
ht=σ(ot)⊙ct
表示级联操作,表示tanh操作,⊙表示Hadamard积,·表示矩阵乘积,σ()表示sigmoid函数。gt、it、ft、ot分别表示模型的输入、输入门、遗忘门和输出门。分别表示模型输入、输入门、遗忘门和输出门对于输入xt的输入权重,分别表示模型输入、输入门、遗忘门和输出门对于历史状态ht-1的权重,bg、bi、bf、bo分别表示模型输入、输入门、遗忘门和输出门的偏置。ct-1、ct分别为t-1、t时刻的细胞单元,ht表示模型输出的隐藏状态。
如图3所示,进一步的,所述血管钙化评估模型:
ht=σ(ot)⊙ct
其中,ht表示模型输出的隐藏状态,ct表示t时刻的细胞单元,σ()表示sigmoid函数,ot表示模型的输出门。
在进行LSTM模型的创建后设置两层全连接层,最后一层全连接层为输出层,隐藏状态单元数设置为4,对应血管钙化的4个分类等级。经过softmax函数,获取各等级的评估概率,公式如下:
其中Sj表示第j钙化等级评估概率,j∈{1,2,3,4}。yj表示第j个隐藏单元的加权和输出。最后概率值最大的即为钙化等级。
如图2所示,一种电子病历数据处理系统,包括:
采集模块,用于采集电子健康数据和血清学检测指标数据,将所述电子健康数据和血清学检测指标数据进行血管钙化等级评估得到样本标签数据集;
预处理模块,用于对所述样本标签数据集进行数据筛选和特征选择预处理操作得到钙化状态的特征表示;
嵌入模块,用于所述钙化状态的特征表示构建嵌入层得到多维向量嵌入模型;
训练模块,用于通过所述多维向量嵌入模型进行LSTM网络的自适应学习生成血管钙化评估模型。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种电子病历数据处理方法,其特征在于,包括:
S1:采集电子病历系统中的电子健康数据和血清学检测指标数据,将所述电子健康数据和血清学检测指标数据进行血管钙化等级评估得到样本标签数据集;
S2:对所述样本标签数据集进行数据筛选和特征选择预处理操作得到钙化状态的特征表示;
所述S2包括:
S21:将所述血清学检测指标数据、药物、处方、医嘱、生命体征和健康因素代码化表示,将所述样本标签数据集中的数值型数据归一化表示,将所述样本标签数据集中的非数值型数据编码化表示后,得到样本标签数据特征集;
S22:删除所述样本标签数据特征集中缺失数值后得到预处理样本标签数据特征集;
S23:计算所述预处理样本标签数据特征集中电子健康数据特征与血管钙化等级评估的相关性,选择与血管钙化相关性强的数据特征;
所述S23中电子健康数据特征与血管钙化等级评估的相关性通过互信息表示,所述互信息:
其中I(X;Y)表示互信息,信息熵H(X)表示患者数据特征集X的钙化期望,H(X|Y)表示条件熵,即钙化状态发生的条件下特征集X的钙化期望,ai∈X,表示患者电子健康记录中第i个数据特征,n表示X中数据特征的数量,P(ai)表示特征ai发生概率,m表示VC钙化的等级数量,取值为4,bj表示钙化等级,P(bj)表示第j等级的钙化疾病发生的概率,P(ai,bj)表示钙化等级为bj的情况下,数据特征为ai的概率;
S24:将选择的所述数据特征进行编码聚合级联得到钙化状态的特征表示;
S3:采用所述钙化状态的特征表示构建嵌入层得到多维向量嵌入模型;
S4:输入所述多维向量嵌入模型构建历史钙化状态集,采用智能体选择所述历史钙化状态集中的历史钙化状态,得到智能体的状态环境,通过LSTM网络对所述状态环境进行自适应学习历史钙化状态与上一时刻钙化状态得到血管钙化评估模型;
其中,所述样本标签数据集包括电子健康数据、血清学检测指标数据和血管钙化等级;
所述电子健康数据包括性别、年龄、透析龄、身高、体重、腰围、体脂率、吸烟史、饮酒状况、含钙磷酸盐结合剂、应用维生素D的生理指标,及诊断结果、药物、处方和医嘱信息;
所述血清学检测指标数据包括血清Klotho、血清FGF23、血磷、血钙、血iPTH、25(OH)D人体化验检测指标。
2.根据权利要求1所述的一种电子病历数据处理方法,其特征在于,所述S3包括:
将所述钙化状态的特征表示进行稀疏操作后输入嵌入层的全连接层得到低维连续钙化状态的特征表示,将所述低维连续钙化状态的特征表示采用多特征决策级融合进行级联和融合得到多维向量嵌入模型。
3.根据权利要求1所述的一种电子病历数据处理方法,其特征在于,所述S4包括:
S41:采用所述多维向量嵌入模型构建历史钙化状态集,所述智能体从所述历史钙化状态集中评估和选择历史钙化状态;
S42:采用所述历史钙化状态和当前钙化状态构建智能体的状态环境;
S43:将所述状态环境传输至LSTM网络进行自适应学习历史钙化状态与上一时刻钙化状态得到血管钙化评估模型。
5.根据权利要求3所述的一种电子病历数据处理方法,其特征在于,所述血管钙化评估模型:
ht=σ(ot)⊙ct
其中,ht表示模型输出的隐藏状态,ct表示t时刻的细胞单元,σ()表示sigmoid函数,ot表示模型的输出门。
7.一种电子病历数据处理系统,其特征在于,包括:
采集模块,用于采集电子病历系统中的电子健康数据和血清学检测指标数据,将所述电子健康数据和血清学检测指标数据进行血管钙化等级评估得到样本标签数据集;
预处理模块,
用于对所述样本标签数据集进行数据筛选和特征选择预处理操作得到钙化状态的特征表示;具体用于将所述血清学检测指标数据、药物、处方、医嘱、生命体征和健康因素代码化表示,将所述样本标签数据集中的数值型数据归一化表示,将所述样本标签数据集中的非数值型数据编码化表示后,得到样本标签数据特征集;用删除所述样本标签数据特征集中缺失数值后得到预处理样本标签数据特征集;计算所述预处理样本标签数据特征集中电子健康数据特征与血管钙化等级评估的相关性,选择与血管钙化相关性强的数据特征;
其中,所述样本标签数据集包括电子健康数据、血清学检测指标数据和血管钙化等级;
所述电子健康数据包括性别、年龄、透析龄、身高、体重、腰围、体脂率、吸烟史、饮酒状况、含钙磷酸盐结合剂、应用维生素D的生理指标,及诊断结果、药物、处方和医嘱信息;所述血清学检测指标数据包括血清Klotho、血清FGF23、血磷、血钙、血iPTH、25(OH)D人体化验检测指标;
其中,电子健康数据特征与血管钙化等级评估的相关性通过互信息表示,所述互信息:
其中I(X;Y)表示互信息,信息熵H(X)表示患者数据特征集X的钙化期望,H(X|Y)表示条件熵,即钙化状态发生的条件下特征集X的钙化期望,ai∈X,表示患者电子健康记录中第i个数据特征,n表示X中数据特征的数量,P(ai)表示特征ai发生概率,m表示VC钙化的等级数量,取值为4,bj表示钙化等级,P(bj)表示第j等级的钙化疾病发生的概率,P(ai,bj)表示钙化等级为bj的情况下,数据特征为ai的概率;
用于将选择的所述数据特征进行编码聚合级联得到钙化状态的特征表示;
嵌入模块,用于所述钙化状态的特征表示构建嵌入层得到多维向量嵌入模型;
训练模块,用于通过所述多维向量嵌入模型进行LSTM网络的自适应学习生成血管钙化评估模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010536331.2A CN111681767B (zh) | 2020-06-12 | 2020-06-12 | 一种电子病历数据处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010536331.2A CN111681767B (zh) | 2020-06-12 | 2020-06-12 | 一种电子病历数据处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111681767A CN111681767A (zh) | 2020-09-18 |
CN111681767B true CN111681767B (zh) | 2022-07-05 |
Family
ID=72435432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010536331.2A Expired - Fee Related CN111681767B (zh) | 2020-06-12 | 2020-06-12 | 一种电子病历数据处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111681767B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111916210A (zh) * | 2020-09-30 | 2020-11-10 | 平安科技(深圳)有限公司 | 辅助诊断方法、装置、服务器及存储介质 |
CN117438108B (zh) * | 2023-12-21 | 2024-03-29 | 北京科技大学 | 一种用于心血管疾病的长时监测预防系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104203086A (zh) * | 2012-04-11 | 2014-12-10 | 弗雷森纽斯医疗护理德国有限责任公司 | 用于长期监控患者的动脉血管僵硬度和血管钙化的方法和装置 |
CN104881463A (zh) * | 2015-05-22 | 2015-09-02 | 清华大学深圳研究生院 | 基于结构化病历数据库的参考病历检索方法及装置 |
CN109493933A (zh) * | 2018-08-08 | 2019-03-19 | 浙江大学 | 一种基于注意力机制的不良心血管事件的预测装置 |
CN109846465A (zh) * | 2019-04-01 | 2019-06-07 | 数坤(北京)网络科技有限公司 | 一种基于亮度分析的血管钙化误报检测方法 |
CN109875527A (zh) * | 2019-02-20 | 2019-06-14 | 数坤(北京)网络科技有限公司 | 一种血管钙化的计算方法及设备 |
CN110275908A (zh) * | 2019-06-04 | 2019-09-24 | 阚智博 | 基于大数据的医疗数据挖掘系统和方法 |
CN110880362A (zh) * | 2019-11-12 | 2020-03-13 | 南京航空航天大学 | 一种大规模医疗数据知识挖掘与治疗方案推荐系统 |
CN111028913A (zh) * | 2019-11-29 | 2020-04-17 | 北京工业大学 | 血液透析治疗方案辅助决策方法 |
CN111260209A (zh) * | 2020-01-14 | 2020-06-09 | 山东大学 | 电子病历与医学影像结合的心血管疾病风险预测评估系统 |
-
2020
- 2020-06-12 CN CN202010536331.2A patent/CN111681767B/zh not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104203086A (zh) * | 2012-04-11 | 2014-12-10 | 弗雷森纽斯医疗护理德国有限责任公司 | 用于长期监控患者的动脉血管僵硬度和血管钙化的方法和装置 |
CN104881463A (zh) * | 2015-05-22 | 2015-09-02 | 清华大学深圳研究生院 | 基于结构化病历数据库的参考病历检索方法及装置 |
CN109493933A (zh) * | 2018-08-08 | 2019-03-19 | 浙江大学 | 一种基于注意力机制的不良心血管事件的预测装置 |
CN109875527A (zh) * | 2019-02-20 | 2019-06-14 | 数坤(北京)网络科技有限公司 | 一种血管钙化的计算方法及设备 |
CN109846465A (zh) * | 2019-04-01 | 2019-06-07 | 数坤(北京)网络科技有限公司 | 一种基于亮度分析的血管钙化误报检测方法 |
CN110275908A (zh) * | 2019-06-04 | 2019-09-24 | 阚智博 | 基于大数据的医疗数据挖掘系统和方法 |
CN110880362A (zh) * | 2019-11-12 | 2020-03-13 | 南京航空航天大学 | 一种大规模医疗数据知识挖掘与治疗方案推荐系统 |
CN111028913A (zh) * | 2019-11-29 | 2020-04-17 | 北京工业大学 | 血液透析治疗方案辅助决策方法 |
CN111260209A (zh) * | 2020-01-14 | 2020-06-09 | 山东大学 | 电子病历与医学影像结合的心血管疾病风险预测评估系统 |
Non-Patent Citations (5)
Title |
---|
"Learning from Longitudinal Data in Electronic Health Record and Genetic Data to Improve Cardiovascular Event Prediction";Juan Zhao;《Scientific Reports》;20180711;第9卷(第1期);1-10 * |
"基于中文电子病历的心血管疾病风险因素标注体系及语料库构建";苏嘉 等;《自动化学报》;20180206;420-426 * |
"基于变长时间间隔LSTM方法的胎儿异常体重预测";张硕彦等;《计算机系统应用》;20200315(第03期);39-46 * |
"基于电子病历结构化的名老中医经验数据挖掘研究";刘鸿燕等;《医学信息学杂志》;20151225(第12期);13-18 * |
"血清可溶性Klotho蛋白对慢性肾脏病3~5期患者周围血管钙化的预测价值";刘俊平等;《中国药物与临床》;20200315(第05期);693-696 * |
Also Published As
Publication number | Publication date |
---|---|
CN111681767A (zh) | 2020-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10192640B2 (en) | Fractional flow reserve decision support system | |
CN100481096C (zh) | 心脏成像的自动区域心肌评定的方法 | |
Hu et al. | VGG-TSwinformer: Transformer-based deep learning model for early Alzheimer’s disease prediction | |
CN107220966A (zh) | 一种基于影像组学的脑胶质瘤分级预测方法 | |
CN108648827A (zh) | 心脑血管疾病风险预测方法及装置 | |
CN1914617A (zh) | 与心脏有关的疾病和病症的自动诊断和决策支持系统和方法 | |
CN111681767B (zh) | 一种电子病历数据处理方法及系统 | |
US20230248998A1 (en) | System and method for predicting diseases in its early phase using artificial intelligence | |
Sheikhalishahi et al. | Benchmarking machine learning models on eICU critical care dataset | |
CN113128654A (zh) | 一种用于冠心病预诊断中的改进型随机森林模型及其预诊断系统 | |
JP2024027086A (ja) | 自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステム | |
Wang et al. | Deep learning models to predict pediatric asthma emergency department visits | |
Baghaei et al. | Sepsis prediction: an attention-based interpretable approach | |
Ekong et al. | A Softcomputing Model for Depression Prediction. | |
Mansouri et al. | A hybrid machine learning approach for early mortality prediction of ICU patients | |
Subasi et al. | Alzheimer’s disease detection using artificial intelligence | |
Srivastava | Genetic Algorithm Optimized Deep Learning Model for Parkinson Disease Severity Detection | |
CN113450919A (zh) | 心衰预警模型的构建方法、构建系统和心衰预警装置 | |
Kumar et al. | Classification of atherosclerotic and non-atherosclerotic individuals using multiclass support vector machine | |
van der Woerd et al. | Studying sleep: towards the identification of hypnogram features that drive expert interpretation | |
AU2021102832A4 (en) | System & method for automatic health prediction using fuzzy based machine learning | |
US20240173012A1 (en) | Artificial Intelligence System for Determining Clinical Values through Medical Imaging | |
CN116386877B (zh) | 一种肺动脉高压发生概率的确认方法、辅助决策系统 | |
Awan | Machine Learning with Applications to Heart Failure Data Analysis and Processing | |
Saripalli | Scalable and Data Efficient Deep Reinforcement Learning Methods for Healthcare Applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220705 |