CN111681767B - 一种电子病历数据处理方法及系统 - Google Patents

一种电子病历数据处理方法及系统 Download PDF

Info

Publication number
CN111681767B
CN111681767B CN202010536331.2A CN202010536331A CN111681767B CN 111681767 B CN111681767 B CN 111681767B CN 202010536331 A CN202010536331 A CN 202010536331A CN 111681767 B CN111681767 B CN 111681767B
Authority
CN
China
Prior art keywords
calcification
data
state
feature
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010536331.2A
Other languages
English (en)
Other versions
CN111681767A (zh
Inventor
刘勇国
王志华
杨尚明
李巧勤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010536331.2A priority Critical patent/CN111681767B/zh
Publication of CN111681767A publication Critical patent/CN111681767A/zh
Application granted granted Critical
Publication of CN111681767B publication Critical patent/CN111681767B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Public Health (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种电子病历数据处理方法,包括:采集电子健康数据和血清学检测指标数据,将所述电子健康数据和血清学检测指标数据进行血管钙化等级评估得到样本标签数据集;对所述样本标签数据集进行数据筛选和特征选择预处理操作得到钙化状态的特征表示;采用所述钙化状态的特征表示构建嵌入层得到多维向量嵌入模型;输入所述多维向量嵌入模型构建历史钙化状态集,采用智能体选择所述多历史钙化状态集中的历史钙化状态,得到智能体的状态环境,通过LSTM网络对所述状态环境进行自适应学习历史钙化状态与上一时刻钙化状态得到血管钙化评估模型。采用动态跨越长短期强化记忆网络将电子病历不同时期的钙化状态数据融合提高了模型的评估准确度。

Description

一种电子病历数据处理方法及系统
技术领域
本发明涉及机器学习领域,具体涉及一种电子病历数据处理方法及系统。
背景技术
现代社会中随着糖尿病、高血压和肥胖患病人数的增加,以及人口老龄化、生活方式改变等,慢性肾脏病(Chronic Kidney Disease,CKD)的发病率逐年攀升,CKD患者存在广泛的血管钙化(Vascular Calcification,VC),并随肾脏病的进展而加重。计算机断层扫描发现4~5期CKD患者中有80%的患者有主动脉钙化的症状,且其钙化程度已达心血管事件预警指标,VC是终末期CKD患者发生心血管事件与死亡的重要因素。因此,对血管钙化进行评估对于提醒人体身体健康具有重要意义。
与糖尿病、高血压等慢性病相比,对于血管钙化情况的监测很不方便。临床上检查血管钙化的几种常规方法主要是X线、CT、核磁共振成像(MRI)等医学影像检查确定血管钙化的发生区域,这些基于医学影像的方法存在诊断周期长、检测费用高等问题,且因部分检测手段的辐射而不适合经常进行,而血管钙化是一个长期过程,需要长时间跟踪分析,现有方法难以满足需求。
比如现有技术中,中国发明专利“CN109875527A一种血管钙化的计算方法及设备”获取血管图像及对应于血管图像的血管预测结果体数据;分割处理血管预测结果体数据,得到多个血管短轴体;计算多个血管短轴体上的钙化结果,得到初步钙化结果;从血管图像中提取对应于钙化区域的钙化血管图像;根据血管图像和钙化血管图像调整初步钙化结果,提高了血管自动狭窄结果计算的准确性,得到最终钙化结果。中国发明专利“CN109846465A一种基于亮度分析的血管钙化误报检测方法”先通过对钙化候选区域进行形态分析,找出易出现误报情况的候选区域,然后基于亮度分析调整检测阈值,对假钙化区域进行甄别和剔除,有效避免了误报情况的发生。
上述基于计算机进行的方法都是采用图像或图像与血管预测数据进行的,而电子病历作为目前的个人健康记录信息载体记录了大量的病症信息,通过电子病历数据挖掘患病风险做出预测,可以成为很好的一种辅助,因此如何处理电子病历存储的大量不同病症的数据也成为了一种研究趋势。
发明内容
本发明所要解决的技术问题是如何对电子病历中与血管钙化相关的数据进行处理的问题,目的在于提供一种电子病历数据处理方法及系统,解决上述问题。
本发明通过下述技术方案实现:
一种电子病历数据处理方法,包括:
S1:采集电子病历系统中的电子健康数据和血清学检测指标数据,将所述电子健康数据和血清学检测指标数据进行血管钙化等级评估得到样本标签数据集;
S2:对所述样本标签数据集进行数据筛选和特征选择预处理操作得到钙化状态的特征表示;
S3:采用所述钙化状态的特征表示构建嵌入层得到多维向量嵌入模型;
S4:输入所述多维向量嵌入模型构建历史钙化状态集,采用智能体选择所述多历史钙化状态集中的历史钙化状态,得到智能体的状态环境,通过LSTM网络对所述状态环境进行自适应学习历史钙化状态与上一时刻钙化状态得到血管钙化评估模型。
本发明通过动态跨越长短期强化记忆网络模型对电子病历中与血管的钙化程度有关的数据进行训练,通过所述电子病历中与血管的钙化程度有关的数据得到一个关于血管钙化程度的评估模型,且因为电子病历中不同的数据的类型是不同的,因此需要将采集到的数据进行不同的预处理,得到本发明的动态跨越长短期强化记忆网络模型可以进行训练的数据集。
本发明主要将电子健康记录中的数据以及人体的血清学检测指标数据进行钙化等级划分后作为模型的训练集和测试集,进行动态跨越长短期强化记忆网络模型的训练,得到一个较为准确的钙化评估结果,采用动态跨越长短期强化记忆网络模型可以选择电子病历中不同时期的所有与钙化评估具有较强相关的历史钙化状态信息,与当前的钙化状态信息进行关联得到更为准确的训练模型。
进一步的,所述样本标签数据集包括电子健康数据、血清学检测指标数据和血管钙化等级;
所述电子健康数据包括性别、年龄、透析龄、身高、体重、腰围、体脂率、吸烟史、饮酒状况、含钙磷酸盐结合剂、应用维生素D等生理指标,及诊断结果、药物、处方和医嘱信息;
所述血清学检测指标数据包括血清Klotho、血清FGF23、血磷、血钙、血iPTH、25(OH)D人体化验检测指标。
进一步的,所述S2包括:
S21:将所述血清学检测指标数据、药物、处方、医嘱、生命体征和健康因素代码化表示,将所述样本标签数据集中的数值型数据归一化表示,将所述样本标签数据集中的非数值型数据编码化表示后,得到样本标签数据特征集;
S22:删除所述样本标签数据特征集中缺失数值后得到预处理样本标签数据特征集;
S23:计算所述预处理样本标签数据特征集中电子健康数据特征与血管钙化等级评估的相关性,选择与血管钙化相关性强的数据特征;
S24:将选择的所述数据特征进行编码聚合级联得到钙化状态的特征表示。
进一步的,所述S23中电子健康数据特征与血管钙化等级评估的相关性通过互信息表示,所述互信息:
Figure BDA0002537114610000031
其中I(X;Y)表示互信息,信息熵H(X)表示患者数据特征集X的钙化期望,H(X|Y)表示条件熵,即钙化状态发生的条件下特征集X的钙化期望,ai∈X,表示患者电子健康记录中第i个数据特征,n表示X中数据特征的数量,P(ai)表示特征ai发生概率,m表示VC钙化的等级数量,取值为4,bj表示钙化等级,P(bj)表示第j等级的钙化疾病发生的概率,P(ai,bj)表示钙化等级为bj的情况下,数据特征为ai的概率。
通过计算不同特征ai与钙化等级的互信息,即可筛选出与该CKD患者钙化程度具有强相关性的特征。
将经过特征选择的数据进行编码聚合级联以形成钙化状态的特征表示。对于数值特征,聚合级联各数值的平均值、中位数、标准差、最小值和最大值等数值特征,以及简单趋势特征,例如最后观察值与最小值或最大值之间的差异等。
进一步的,所述S3包括:
将所述钙化状态的特征表示进行稀疏操作后输入嵌入层的全连接层得到低维连续钙化状态的特征表示,将所述低维连续钙化状态的特征表示采用多特征决策级融合进行级联和融合得到多维向量嵌入模型。
完成上述操作后,需要对各嵌入参数使用L1正则化以防止过度拟合确保模型关注最显著的特征。
血管钙化是慢性病变过程,血管钙化风险特征的历史状态对于当前状态的评估具有参考意义,本发明提出动态跨越长短期强化记忆网络,结合强化学习通过多智能体(multi-agent)构建multi-actor网络,以动态选择对血管钙化具有强相关的历史显著状态,通过对历史状态以及当前状态数据融合,分析血管钙化特征以实现血管钙化等级评估。
进一步的,所述S4包括:
S41:采用所述多维向量嵌入模型构建历史钙化状态集,所述智能体从所述历史钙化状态集中评估和选择历史钙化状态;
S42:采用所述历史钙化状态和当前钙化状态构建智能体的状态环境;
S43:将所述状态环境传输至LSTM网络进行自适应学习历史钙化状态与上一时刻钙化状态得到血管钙化评估模型。
强化学习中的智能体agent选择t-k时刻历史状态信息和t-1时刻状态信息构成t时刻智能体agent所处的状态环境,其中k∈{2,3,…,K}。多agents具有多action操作,即经过投票规则选择前i个不同t-k时刻历史状态信息和t-1时刻状态信息构成t时刻的智能体agent多个不同的状态环境。因此,将t-k时刻历史状态信息ht-k和t-1时刻状态信息ht-1和当前时刻t的钙化状态经过多维向量嵌入模型特征嵌入表示后结合起来;
进一步的,所述智能体的状态环境:
Figure BDA0002537114610000041
其中,st表示状态环境,ht-k表示t-k时刻历史钙化状态,
Figure BDA0002537114610000042
表示级联操作,ht-1表示t-1时刻钙化状态,xt表示多维向量嵌入模型。
构造一个历史状态集HK,它表示具有K个历史状态信息ht-k,即保留了K个最近得到的历史状态信息,K是提前设定的超参数。agent通过从多项式分布πK(k|ht-k)采样HK中的状态来采取行动,以评估最优和最相关历史状态,如下所示:
P=softmax(MLP(ht-k))
Figure BDA0002537114610000043
其中[k==i]成立时为1,否则为0。MLP表示多层感知器,将ht-k变换为维数为K的向量,并利用softmax函数将向量转换为概率分布P,以获得钙化历史状态输入钙化评估模型的选择概率,pi是P中第i个元素,之后被选中的t-k时刻历史状态信息和前一时刻状态组合的状态环境st被馈入到下一层LSTM单元。
本发明采用奖励函数保证如何选择历史状态信息,所述奖励函数指导智能体选择一系列最优的跨越动作来改善模型性能。所述奖励函数采用预测真实标签的对数似然,即
Figure BDA0002537114610000044
以获取最优奖励分数,其中
Figure BDA0002537114610000045
表示钙化状态真实评估等级,ht表示模型输出的隐藏状态。因此,通过奖励函数与智能体的环境状态交互,激励智能体选择最优跳转,从而提高真实预测概率。
根据下列公式计算Q值,用于评估具有最大相关性的CKD患者钙化历史状态,并更新Q表:
Q(st,gt)=R(st,gt)+γmaxQ(st+1,gt+1)
其中st表示当前输入的状态环境,gt为动作列表中任一动作,表示钙化历史状态信息,常量参数γ(0≤γ≤1)为折扣系数,在智能体agent训练学习过程中,总是选择所述对应状态拥有最大Q值的动作,然后据此策略进行迭代训练。经过多次训练学习,存储Q值的Q表不断更新。为了让Q学习在适当的时刻收敛,在公式中引入学习率α(0<α<1),则Q(st,gt)表示为:
Q(st,gt)=(1-α)Q(st,gt)+α(R(st,gt)+γmaxQ(st+1,gt+1)
基于多agent投票选择奖励分数排名前i个
Figure BDA0002537114610000051
血管钙化历史状态,本发明的i设置为3,即选择Q值排名前3位的历史强相关钙化状态信息。使用标准LSTM单元编码所选的状态环境st,LSTM模型使用一个超参数λ结合历史状态与上一时刻状态,以使模型自适应学习历史状态与上一时刻状态对于CKD患者钙化评估的重要性,如下式所示:
Figure BDA0002537114610000052
Figure BDA0002537114610000053
Figure BDA0002537114610000054
Figure BDA0002537114610000055
ht=σ(ot)⊙ct
Figure BDA0002537114610000056
表示级联操作,
Figure BDA0002537114610000057
表示tanh操作,⊙表示Hadamard积,·表示矩阵乘积,σ()表示sigmoid函数。gt、it、ft、ot分别表示模型的输入、输入门、遗忘门和输出门。
Figure BDA0002537114610000058
分别表示模型输入、输入门、遗忘门和输出门对于输入xt的输入权重,
Figure BDA0002537114610000059
分别表示模型输入、输入门、遗忘门和输出门对于历史状态ht-1的权重,bg、bi、bf、bo分别表示模型输入、输入门、遗忘门和输出门的偏置。ct-1、ct分别为t-1、t时刻的细胞单元,ht表示模型输出的隐藏状态。
进一步的,所述血管钙化评估模型:
ht=σ(ot)⊙ct
其中,ht表示模型输出的隐藏状态,ct表示t时刻的细胞单元,σ()表示sigmoid函数,ot表示模型的输出门。
在进行LSTM模型的创建后设置两层全连接层,最后一层全连接层为输出层,隐藏状态单元数设置为4,对应血管钙化的4个分类等级。经过softmax函数,获取各等级的评估概率,公式如下:
Figure BDA0002537114610000061
其中Sj表示第j钙化等级评估概率,j∈{1,2,3,4}。yj表示第j个隐藏单元的加权和输出,最后概率值最大的即为钙化等级。
一种电子病历数据处理系统,包括:
采集模块,用于采集电子健康数据和血清学检测指标数据,将所述电子健康数据和血清学检测指标数据进行血管钙化等级评估得到样本标签数据集;
预处理模块,用于对所述样本标签数据集进行数据筛选和特征选择预处理操作得到钙化状态的特征表示;
嵌入模块,用于所述钙化状态的特征表示构建嵌入层得到多维向量嵌入模型;
训练模块,用于通过所述多维向量嵌入模型进行LSTM网络的自适应学习生成血管钙化评估模型。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明一种电子病历数据处理方法及系统,采用动态跨越长短期强化记忆网络将电子病历中不同时期的钙化状态数据进行融合提高了模型的评估准确度。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明方法流程图;
图2为本发明系统结构图;
图3为本发明LSTM网络结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例1
如图1所示,一种电子病历数据处理方法,包括:
S1:采集电子健康数据和血清学检测指标数据,将所述电子健康数据和血清学检测指标数据进行血管钙化等级评估得到样本标签数据集;
S2:对所述样本标签数据集进行数据筛选和特征选择预处理操作得到钙化状态的特征表示;
S3:采用所述钙化状态的特征表示构建嵌入层得到多维向量嵌入模型;
S4:输入所述多维向量嵌入模型构建历史钙化状态集,采用智能体选择所述多历史钙化状态集中的历史钙化状态,得到智能体的状态环境,通过LSTM网络对所述状态环境进行自适应学习历史钙化状态与上一时刻钙化状态得到血管钙化评估模型。
本发明通过动态跨越长短期强化记忆网络模型对血管的钙化程度进行评估,主要将电子健康记录中的数据以及人体的血清学检测指标数据进行钙化等级划分后作为模型的训练集和测试集,进行动态跨越长短期强化记忆网络模型的训练,然后通过所述动态跨越长短期强化记忆网络模型得到一个较为准确的钙化评估结果,采用动态跨越长短期强化记忆网络模型可以选择与钙化评估具有较强相关的不同历史钙化状态信息,与当前的钙化状态信息进行关联得到更为准确的训练模型。
进一步的,所述样本标签数据集包括电子健康数据、血清学检测指标数据和血管钙化等级;
所述电子健康数据包括性别、年龄、透析龄、身高、体重、腰围、体脂率、吸烟史、饮酒状况、含钙磷酸盐结合剂、应用维生素D等生理指标,及诊断结果、药物、处方和医嘱信息;
所述血清学检测指标数据包括血清Klotho、血清FGF23、血磷、血钙、血iPTH、25(OH)D人体化验检测指标。
进一步的,所述S2包括:
S21:将所述血清学检测指标数据、药物、处方、医嘱、生命体征和健康因素代码化表示,将所述样本标签数据集中的数值型数据归一化表示,将所述样本标签数据集中的非数值型数据编码化表示后,得到样本标签数据特征集;
S22:删除所述样本标签数据特征集中缺失数值后得到预处理样本标签数据特征集;
S23:计算所述预处理样本标签数据特征集中电子健康数据特征与血管钙化等级评估的相关性,选择与血管钙化相关性强的数据特征;
S24:将选择的所述数据特征进行编码聚合级联得到钙化状态的特征表示。
进一步的,所述S23中电子健康数据特征与血管钙化等级评估的相关性通过互信息表示,所述互信息:
Figure BDA0002537114610000081
其中I(X;Y)表示互信息,信息熵H(X)表示患者数据特征集X的钙化期望,H(X|Y)表示条件熵,即钙化状态发生的条件下特征集X的钙化期望,ai∈X,表示患者电子健康记录中第i个数据特征,n表示X中数据特征的数量,P(ai)表示特征ai发生概率,m表示VC钙化的等级数量,取值为4,bj表示钙化等级,P(bj)表示第j等级的钙化疾病发生的概率,P(ai,bj)表示钙化等级为bj的情况下,数据特征为ai的概率。
通过计算不同特征ai与钙化等级的互信息,即可筛选出与钙化程度具有强相关性的特征。
将经过特征选择的数据进行编码聚合级联以形成钙化状态的特征表示。对于数值特征,聚合级联各数值的平均值、中位数、标准差、最小值和最大值等数值特征,以及简单趋势特征,例如最后观察值与最小值或最大值之间的差异等。
进一步的,所述S3包括:
将所述钙化状态的特征表示进行稀疏操作后输入嵌入层的全连接层得到低维连续钙化状态的特征表示,将所述低维连续钙化状态的特征表示采用多特征决策级融合进行级联和融合得到多维向量嵌入模型。
完成上述操作后,需要对各嵌入参数使用L1正则化以防止过度拟合确保模型关注最显著的特征。
血管钙化是慢性病变过程,血管钙化风险特征的历史状态对于当前状态的评估具有参考意义,本发明提出动态跨越长短期强化记忆网络,结合强化学习通过多智能体(multi-agent)构建multi-actor网络,以动态选择对血管钙化具有强相关的历史显著状态,通过对历史状态以及当前状态数据融合,分析血管钙化特征以实现血管钙化等级评估。
进一步的,所述S4包括:
S41:采用所述多维向量嵌入模型构建历史钙化状态集,所述智能体从所述历史钙化状态集中评估和选择历史钙化状态;
S42:采用所述历史钙化状态和当前钙化状态构建智能体的状态环境;
S43:将所述状态环境传输至LSTM网络进行自适应学习历史钙化状态与上一时刻钙化状态得到血管钙化评估模型。
强化学习中的智能体agent选择t-k时刻历史状态信息和t-1时刻状态信息构成t时刻智能体agent所处的状态环境,其中k∈{2,3,…,K}。多agents具有多action操作,即经过投票规则选择前i个不同t-k时刻历史状态信息和t-1时刻状态信息构成t时刻的智能体agent多个不同的状态环境。因此,将t-k时刻历史状态信息ht-k和t-1时刻状态信息ht-1和当前时刻t的钙化状态经过多维向量嵌入模型特征嵌入表示后结合起来;
进一步的,所述智能体的状态环境:
Figure BDA0002537114610000091
其中,st表示状态环境,ht-k表示t-k时刻历史钙化状态,
Figure BDA0002537114610000092
表示级联操作,ht-1表示t-1时刻钙化状态,xt表示多维向量嵌入模型。
构造一个历史状态集HK,它表示具有K个历史状态信息ht-k,即保留了K个最近得到的历史状态信息,K是提前设定的超参数。agent通过从多项式分布πK(k|ht-k)采样HK中的状态来采取行动,以评估最优和最相关历史状态,如下所示:
P=softmax(MLP(ht-k))
Figure BDA0002537114610000093
其中[k==i]成立时为1,否则为0。MLP表示多层感知器,将ht-k变换为维数为K的向量,并利用softmax函数将向量转换为概率分布P,以获得钙化历史状态输入钙化评估模型的选择概率,pi是P中第i个元素,之后被选中的t-k时刻历史状态信息和前一时刻状态组合的状态环境st被馈入到下一层LSTM单元。
本发明采用奖励函数保证如何选择历史状态信息,所述奖励函数指导智能体选择一系列最优的跨越动作来改善模型性能。所述奖励函数采用预测真实标签的对数似然,即
Figure BDA0002537114610000094
以获取最优奖励分数,其中
Figure BDA0002537114610000095
表示钙化状态真实评估等级,ht表示模型输出的隐藏状态。因此,通过奖励函数与智能体的环境状态交互,激励智能体选择最优跳转,从而提高真实预测概率。
根据下列公式计算Q值,用于评估具有最大相关性的CKD患者钙化历史状态,并更新Q表:
Q(st,gt)=R(st,gt)+γmaxQ(st+1,gt+1)
其中st表示当前输入的状态环境,gt为动作列表中任一动作,表示钙化历史状态信息,常量参数γ(0≤γ≤1)为折扣系数,在智能体agent训练学习过程中,总是选择所述对应状态拥有最大Q值的动作,然后据此策略进行迭代训练。经过多次训练学习,存储Q值的Q表不断更新。为了让Q学习在适当的时刻收敛,在公式中引入学习率α(0<α<1),则Q(st,gt)表示为:
Q(st,gt)=(1-α)Q(st,gt)+α(R(st,gt)+γmaxQ(st+1,gt+1)
基于多agent投票选择奖励分数排名前i个
Figure BDA0002537114610000101
血管钙化历史状态,本发明的i设置为3,即选择Q值排名前3位的历史强相关钙化状态信息。使用标准LSTM单元编码所选的状态环境st,LSTM模型使用一个超参数λ结合历史状态与上一时刻状态,以使模型自适应学习历史状态与上一时刻状态对于CKD患者钙化评估的重要性,如下式所示:
Figure BDA0002537114610000102
Figure BDA0002537114610000103
Figure BDA0002537114610000104
Figure BDA0002537114610000105
ht=σ(ot)⊙ct
Figure BDA0002537114610000106
表示级联操作,
Figure BDA0002537114610000107
表示tanh操作,⊙表示Hadamard积,·表示矩阵乘积,σ()表示sigmoid函数。gt、it、ft、ot分别表示模型的输入、输入门、遗忘门和输出门。
Figure BDA0002537114610000108
分别表示模型输入、输入门、遗忘门和输出门对于输入xt的输入权重,
Figure BDA0002537114610000109
分别表示模型输入、输入门、遗忘门和输出门对于历史状态ht-1的权重,bg、bi、bf、bo分别表示模型输入、输入门、遗忘门和输出门的偏置。ct-1、ct分别为t-1、t时刻的细胞单元,ht表示模型输出的隐藏状态。
如图3所示,进一步的,所述血管钙化评估模型:
ht=σ(ot)⊙ct
其中,ht表示模型输出的隐藏状态,ct表示t时刻的细胞单元,σ()表示sigmoid函数,ot表示模型的输出门。
在进行LSTM模型的创建后设置两层全连接层,最后一层全连接层为输出层,隐藏状态单元数设置为4,对应血管钙化的4个分类等级。经过softmax函数,获取各等级的评估概率,公式如下:
Figure BDA00025371146100001010
其中Sj表示第j钙化等级评估概率,j∈{1,2,3,4}。yj表示第j个隐藏单元的加权和输出。最后概率值最大的即为钙化等级。
如图2所示,一种电子病历数据处理系统,包括:
采集模块,用于采集电子健康数据和血清学检测指标数据,将所述电子健康数据和血清学检测指标数据进行血管钙化等级评估得到样本标签数据集;
预处理模块,用于对所述样本标签数据集进行数据筛选和特征选择预处理操作得到钙化状态的特征表示;
嵌入模块,用于所述钙化状态的特征表示构建嵌入层得到多维向量嵌入模型;
训练模块,用于通过所述多维向量嵌入模型进行LSTM网络的自适应学习生成血管钙化评估模型。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种电子病历数据处理方法,其特征在于,包括:
S1:采集电子病历系统中的电子健康数据和血清学检测指标数据,将所述电子健康数据和血清学检测指标数据进行血管钙化等级评估得到样本标签数据集;
S2:对所述样本标签数据集进行数据筛选和特征选择预处理操作得到钙化状态的特征表示;
所述S2包括:
S21:将所述血清学检测指标数据、药物、处方、医嘱、生命体征和健康因素代码化表示,将所述样本标签数据集中的数值型数据归一化表示,将所述样本标签数据集中的非数值型数据编码化表示后,得到样本标签数据特征集;
S22:删除所述样本标签数据特征集中缺失数值后得到预处理样本标签数据特征集;
S23:计算所述预处理样本标签数据特征集中电子健康数据特征与血管钙化等级评估的相关性,选择与血管钙化相关性强的数据特征;
所述S23中电子健康数据特征与血管钙化等级评估的相关性通过互信息表示,所述互信息:
Figure FDA0003575423290000011
其中I(X;Y)表示互信息,信息熵H(X)表示患者数据特征集X的钙化期望,H(X|Y)表示条件熵,即钙化状态发生的条件下特征集X的钙化期望,ai∈X,表示患者电子健康记录中第i个数据特征,n表示X中数据特征的数量,P(ai)表示特征ai发生概率,m表示VC钙化的等级数量,取值为4,bj表示钙化等级,P(bj)表示第j等级的钙化疾病发生的概率,P(ai,bj)表示钙化等级为bj的情况下,数据特征为ai的概率;
S24:将选择的所述数据特征进行编码聚合级联得到钙化状态的特征表示;
S3:采用所述钙化状态的特征表示构建嵌入层得到多维向量嵌入模型;
S4:输入所述多维向量嵌入模型构建历史钙化状态集,采用智能体选择所述历史钙化状态集中的历史钙化状态,得到智能体的状态环境,通过LSTM网络对所述状态环境进行自适应学习历史钙化状态与上一时刻钙化状态得到血管钙化评估模型;
其中,所述样本标签数据集包括电子健康数据、血清学检测指标数据和血管钙化等级;
所述电子健康数据包括性别、年龄、透析龄、身高、体重、腰围、体脂率、吸烟史、饮酒状况、含钙磷酸盐结合剂、应用维生素D的生理指标,及诊断结果、药物、处方和医嘱信息;
所述血清学检测指标数据包括血清Klotho、血清FGF23、血磷、血钙、血iPTH、25(OH)D人体化验检测指标。
2.根据权利要求1所述的一种电子病历数据处理方法,其特征在于,所述S3包括:
将所述钙化状态的特征表示进行稀疏操作后输入嵌入层的全连接层得到低维连续钙化状态的特征表示,将所述低维连续钙化状态的特征表示采用多特征决策级融合进行级联和融合得到多维向量嵌入模型。
3.根据权利要求1所述的一种电子病历数据处理方法,其特征在于,所述S4包括:
S41:采用所述多维向量嵌入模型构建历史钙化状态集,所述智能体从所述历史钙化状态集中评估和选择历史钙化状态;
S42:采用所述历史钙化状态和当前钙化状态构建智能体的状态环境;
S43:将所述状态环境传输至LSTM网络进行自适应学习历史钙化状态与上一时刻钙化状态得到血管钙化评估模型。
4.根据权利要求3所述的一种电子病历数据处理方法,其特征在于,所述智能体的状态环境:
Figure FDA0003575423290000021
其中,st表示状态环境,ht-k表示t-k时刻历史钙化状态,
Figure FDA0003575423290000022
表示级联操作,ht-1表示t-1时刻钙化状态,xt表示多维向量嵌入模型。
5.根据权利要求3所述的一种电子病历数据处理方法,其特征在于,所述血管钙化评估模型:
ht=σ(ot)⊙ct
其中,ht表示模型输出的隐藏状态,ct表示t时刻的细胞单元,σ()表示sigmoid函数,ot表示模型的输出门。
6.根据权利要求1所述的一种电子病历数据处理方法,其特征在于,所述血管钙化评估模型的钙化等级表示:
Figure FDA0003575423290000023
其中Sj表示第j钙化等级评估概率,j∈{1,2,3,4},yj表示第j个隐藏单元的加权和输出,最后概率值最大的即为钙化等级。
7.一种电子病历数据处理系统,其特征在于,包括:
采集模块,用于采集电子病历系统中的电子健康数据和血清学检测指标数据,将所述电子健康数据和血清学检测指标数据进行血管钙化等级评估得到样本标签数据集;
预处理模块,
用于对所述样本标签数据集进行数据筛选和特征选择预处理操作得到钙化状态的特征表示;具体用于将所述血清学检测指标数据、药物、处方、医嘱、生命体征和健康因素代码化表示,将所述样本标签数据集中的数值型数据归一化表示,将所述样本标签数据集中的非数值型数据编码化表示后,得到样本标签数据特征集;用删除所述样本标签数据特征集中缺失数值后得到预处理样本标签数据特征集;计算所述预处理样本标签数据特征集中电子健康数据特征与血管钙化等级评估的相关性,选择与血管钙化相关性强的数据特征;
其中,所述样本标签数据集包括电子健康数据、血清学检测指标数据和血管钙化等级;
所述电子健康数据包括性别、年龄、透析龄、身高、体重、腰围、体脂率、吸烟史、饮酒状况、含钙磷酸盐结合剂、应用维生素D的生理指标,及诊断结果、药物、处方和医嘱信息;所述血清学检测指标数据包括血清Klotho、血清FGF23、血磷、血钙、血iPTH、25(OH)D人体化验检测指标;
其中,电子健康数据特征与血管钙化等级评估的相关性通过互信息表示,所述互信息:
Figure FDA0003575423290000031
其中I(X;Y)表示互信息,信息熵H(X)表示患者数据特征集X的钙化期望,H(X|Y)表示条件熵,即钙化状态发生的条件下特征集X的钙化期望,ai∈X,表示患者电子健康记录中第i个数据特征,n表示X中数据特征的数量,P(ai)表示特征ai发生概率,m表示VC钙化的等级数量,取值为4,bj表示钙化等级,P(bj)表示第j等级的钙化疾病发生的概率,P(ai,bj)表示钙化等级为bj的情况下,数据特征为ai的概率;
用于将选择的所述数据特征进行编码聚合级联得到钙化状态的特征表示;
嵌入模块,用于所述钙化状态的特征表示构建嵌入层得到多维向量嵌入模型;
训练模块,用于通过所述多维向量嵌入模型进行LSTM网络的自适应学习生成血管钙化评估模型。
CN202010536331.2A 2020-06-12 2020-06-12 一种电子病历数据处理方法及系统 Active CN111681767B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010536331.2A CN111681767B (zh) 2020-06-12 2020-06-12 一种电子病历数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010536331.2A CN111681767B (zh) 2020-06-12 2020-06-12 一种电子病历数据处理方法及系统

Publications (2)

Publication Number Publication Date
CN111681767A CN111681767A (zh) 2020-09-18
CN111681767B true CN111681767B (zh) 2022-07-05

Family

ID=72435432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010536331.2A Active CN111681767B (zh) 2020-06-12 2020-06-12 一种电子病历数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN111681767B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111916210A (zh) * 2020-09-30 2020-11-10 平安科技(深圳)有限公司 辅助诊断方法、装置、服务器及存储介质
CN117438108B (zh) * 2023-12-21 2024-03-29 北京科技大学 一种用于心血管疾病的长时监测预防系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104203086A (zh) * 2012-04-11 2014-12-10 弗雷森纽斯医疗护理德国有限责任公司 用于长期监控患者的动脉血管僵硬度和血管钙化的方法和装置
CN104881463A (zh) * 2015-05-22 2015-09-02 清华大学深圳研究生院 基于结构化病历数据库的参考病历检索方法及装置
CN109493933A (zh) * 2018-08-08 2019-03-19 浙江大学 一种基于注意力机制的不良心血管事件的预测装置
CN109846465A (zh) * 2019-04-01 2019-06-07 数坤(北京)网络科技有限公司 一种基于亮度分析的血管钙化误报检测方法
CN109875527A (zh) * 2019-02-20 2019-06-14 数坤(北京)网络科技有限公司 一种血管钙化的计算方法及设备
CN110275908A (zh) * 2019-06-04 2019-09-24 阚智博 基于大数据的医疗数据挖掘系统和方法
CN110880362A (zh) * 2019-11-12 2020-03-13 南京航空航天大学 一种大规模医疗数据知识挖掘与治疗方案推荐系统
CN111028913A (zh) * 2019-11-29 2020-04-17 北京工业大学 血液透析治疗方案辅助决策方法
CN111260209A (zh) * 2020-01-14 2020-06-09 山东大学 电子病历与医学影像结合的心血管疾病风险预测评估系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104203086A (zh) * 2012-04-11 2014-12-10 弗雷森纽斯医疗护理德国有限责任公司 用于长期监控患者的动脉血管僵硬度和血管钙化的方法和装置
CN104881463A (zh) * 2015-05-22 2015-09-02 清华大学深圳研究生院 基于结构化病历数据库的参考病历检索方法及装置
CN109493933A (zh) * 2018-08-08 2019-03-19 浙江大学 一种基于注意力机制的不良心血管事件的预测装置
CN109875527A (zh) * 2019-02-20 2019-06-14 数坤(北京)网络科技有限公司 一种血管钙化的计算方法及设备
CN109846465A (zh) * 2019-04-01 2019-06-07 数坤(北京)网络科技有限公司 一种基于亮度分析的血管钙化误报检测方法
CN110275908A (zh) * 2019-06-04 2019-09-24 阚智博 基于大数据的医疗数据挖掘系统和方法
CN110880362A (zh) * 2019-11-12 2020-03-13 南京航空航天大学 一种大规模医疗数据知识挖掘与治疗方案推荐系统
CN111028913A (zh) * 2019-11-29 2020-04-17 北京工业大学 血液透析治疗方案辅助决策方法
CN111260209A (zh) * 2020-01-14 2020-06-09 山东大学 电子病历与医学影像结合的心血管疾病风险预测评估系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"Learning from Longitudinal Data in Electronic Health Record and Genetic Data to Improve Cardiovascular Event Prediction";Juan Zhao;《Scientific Reports》;20180711;第9卷(第1期);1-10 *
"基于中文电子病历的心血管疾病风险因素标注体系及语料库构建";苏嘉 等;《自动化学报》;20180206;420-426 *
"基于变长时间间隔LSTM方法的胎儿异常体重预测";张硕彦等;《计算机系统应用》;20200315(第03期);39-46 *
"基于电子病历结构化的名老中医经验数据挖掘研究";刘鸿燕等;《医学信息学杂志》;20151225(第12期);13-18 *
"血清可溶性Klotho蛋白对慢性肾脏病3~5期患者周围血管钙化的预测价值";刘俊平等;《中国药物与临床》;20200315(第05期);693-696 *

Also Published As

Publication number Publication date
CN111681767A (zh) 2020-09-18

Similar Documents

Publication Publication Date Title
Kamalraj et al. Interpretable filter based convolutional neural network (IF-CNN) for glucose prediction and classification using PD-SS algorithm
US10192640B2 (en) Fractional flow reserve decision support system
CN100481096C (zh) 心脏成像的自动区域心肌评定的方法
CN107785057B (zh) 医疗数据处理方法、装置、存储介质和计算机设备
CN111524602A (zh) 一种老年人记忆及认知功能评估筛查预警系统
Hu et al. VGG-TSwinformer: Transformer-based deep learning model for early Alzheimer’s disease prediction
Li et al. Identifying informative risk factors and predicting bone disease progression via deep belief networks
CN107220966A (zh) 一种基于影像组学的脑胶质瘤分级预测方法
CN1914617A (zh) 与心脏有关的疾病和病症的自动诊断和决策支持系统和方法
CN108648827A (zh) 心脑血管疾病风险预测方法及装置
CN111681767B (zh) 一种电子病历数据处理方法及系统
US20230248998A1 (en) System and method for predicting diseases in its early phase using artificial intelligence
Sheikhalishahi et al. Benchmarking machine learning models on eICU critical care dataset
CN114972340A (zh) 一种大脑老化预警系统及预警方法
Yang et al. Disease prediction model based on bilstm and attention mechanism
Wang et al. Deep learning models to predict pediatric asthma emergency department visits
Zhang et al. Multi-modal cross-attention network for Alzheimer’s disease diagnosis with multi-modality data
Baghaei et al. Sepsis prediction: an attention-based interpretable approach
Ekong et al. A Softcomputing Model for Depression Prediction.
Mansouri et al. A hybrid machine learning approach for early mortality prediction of ICU patients
CN113128654A (zh) 一种用于冠心病预诊断中的改进型随机森林模型及其预诊断系统
Srivastava Genetic Algorithm Optimized Deep Learning Model for Parkinson Disease Severity Detection
Subasi et al. Alzheimer’s disease detection using artificial intelligence
Kumar et al. Classification of atherosclerotic and non-atherosclerotic individuals using multiclass support vector machine
CN116386877B (zh) 一种肺动脉高压发生概率的确认方法、辅助决策系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant