CN114504298A - 基于多源健康感知数据融合的生理特征判别方法及系统 - Google Patents
基于多源健康感知数据融合的生理特征判别方法及系统 Download PDFInfo
- Publication number
- CN114504298A CN114504298A CN202210071255.1A CN202210071255A CN114504298A CN 114504298 A CN114504298 A CN 114504298A CN 202210071255 A CN202210071255 A CN 202210071255A CN 114504298 A CN114504298 A CN 114504298A
- Authority
- CN
- China
- Prior art keywords
- data
- physiological characteristic
- physiological
- medical sensing
- discrimination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000036541 health Effects 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000008447 perception Effects 0.000 title claims abstract description 44
- 230000004927 fusion Effects 0.000 title claims abstract description 36
- 239000011159 matrix material Substances 0.000 claims abstract description 68
- 239000013598 vector Substances 0.000 claims abstract description 40
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims abstract description 9
- 238000005259 measurement Methods 0.000 claims description 17
- 238000012850 discrimination method Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 206010010071 Coma Diseases 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 206010020772 Hypertension Diseases 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 5
- 206010012601 diabetes mellitus Diseases 0.000 claims description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 230000001154 acute effect Effects 0.000 claims description 4
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 claims description 4
- 239000008280 blood Substances 0.000 claims description 4
- 210000004369 blood Anatomy 0.000 claims description 4
- 208000035475 disorder Diseases 0.000 claims description 4
- 229910052760 oxygen Inorganic materials 0.000 claims description 4
- 239000001301 oxygen Substances 0.000 claims description 4
- 208000023504 respiratory system disease Diseases 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 206010003211 Arteriosclerosis coronary artery Diseases 0.000 claims description 2
- 206010007559 Cardiac failure congestive Diseases 0.000 claims description 2
- 208000006545 Chronic Obstructive Pulmonary Disease Diseases 0.000 claims description 2
- 208000014526 Conduction disease Diseases 0.000 claims description 2
- 208000007530 Essential hypertension Diseases 0.000 claims description 2
- 206010019280 Heart failures Diseases 0.000 claims description 2
- 206010035664 Pneumonia Diseases 0.000 claims description 2
- 208000007123 Pulmonary Atelectasis Diseases 0.000 claims description 2
- 208000001647 Renal Insufficiency Diseases 0.000 claims description 2
- 238000012952 Resampling Methods 0.000 claims description 2
- 208000004756 Respiratory Insufficiency Diseases 0.000 claims description 2
- 206010040047 Sepsis Diseases 0.000 claims description 2
- 206010000891 acute myocardial infarction Diseases 0.000 claims description 2
- 206010003119 arrhythmia Diseases 0.000 claims description 2
- 230000006793 arrhythmia Effects 0.000 claims description 2
- 230000000740 bleeding effect Effects 0.000 claims description 2
- 230000036772 blood pressure Effects 0.000 claims description 2
- 230000036760 body temperature Effects 0.000 claims description 2
- 208000026106 cerebrovascular disease Diseases 0.000 claims description 2
- 208000020832 chronic kidney disease Diseases 0.000 claims description 2
- 208000029078 coronary artery disease Diseases 0.000 claims description 2
- 208000026758 coronary atherosclerosis Diseases 0.000 claims description 2
- 230000035487 diastolic blood pressure Effects 0.000 claims description 2
- 230000001079 digestive effect Effects 0.000 claims description 2
- 239000003792 electrolyte Substances 0.000 claims description 2
- 239000012530 fluid Substances 0.000 claims description 2
- 230000001631 hypertensive effect Effects 0.000 claims description 2
- 201000006370 kidney failure Diseases 0.000 claims description 2
- 230000037356 lipid metabolism Effects 0.000 claims description 2
- 208000019423 liver disease Diseases 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 208000008423 pleurisy Diseases 0.000 claims description 2
- 201000003144 pneumothorax Diseases 0.000 claims description 2
- 201000004193 respiratory failure Diseases 0.000 claims description 2
- 230000035939 shock Effects 0.000 claims description 2
- 230000035488 systolic blood pressure Effects 0.000 claims description 2
- 230000036391 respiratory frequency Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 3
- 238000001514 detection method Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000007477 logistic regression Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000004576 sand Substances 0.000 description 2
- 238000012731 temporal analysis Methods 0.000 description 2
- 238000000700 time series analysis Methods 0.000 description 2
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 239000008103 glucose Substances 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- -1 heart rate Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001617 migratory effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000036387 respiratory rate Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7246—Details of waveform analysis using correlation, e.g. template matching or determination of similarity
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physiology (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Veterinary Medicine (AREA)
- Public Health (AREA)
- Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Heart & Thoracic Surgery (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Fuzzy Systems (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种基于多源健康感知数据融合的生理特征判别方法,包括:获取健康感知数据并进行预处理;构建医学感测数据矩阵;基于门控循环单元网络,融合学习医学感测数据矩阵和个人体质记录数据向量的隐藏特征;基于生理特征状况数据,采用条件概率方法计算任意一类生理特征对另一类生理特征的影响系数,构建生理特征关联矩阵;通过全连接网络将隐藏特征转换为多类别生理特征的判别概率,并将判别概率与生理特征关联矩阵相乘,获得最终的生理特征判别结果。本发明方法能够融合学习多源异构健康感知数据,并充分利用生理特征之间潜在的相关性。在基于海量的健康感知数据计算中,具有更好的检测效果。
Description
技术领域
本发明属于模式分析领域,特别是一种基于多源健康感知数据融合的生理特征判别方法、系统、计算机设备和存储介质。
背景技术
近年来,传感技术在我国得到了快速发展,医学感测仪器随之崛起,生物传感等高新技术的出现及应用,使得临床监测设备不断向测量速度更快、准确度更高的方向发展。由于我国人口众多,每年入院治疗人数以亿计量,必然会产生大量包含医疗感测数据、住院信息、个人体质状况和生理特征记录等的电子健康记录(Electronic Health Record,EHR),但电子健康记录数据的复杂性给这些数据的处理和利用带来了很大的难度。随着人工智能技术的不断进步和计算机计算能力的提升,利用电子健康系统进行生理特征判别和风险评估成为可能,这给医学诊断智能化提供了良好的发展机遇。
为了更好地利用大量的电子健康记录数据,对不同类型结构的数据进行处理和分析是必要的。先前的工作大多仅针对相似结构的数据进行研究,如R Mohammad等人选取了大量的时序体征数据,采用逻辑回归和递归神经网络模型来预测患者在未来三个月内是否会出现严重的高血压风险,Ma L等人提出了一种可以学习患者生理特征的长期和短期变化作为临床特征的模型,使用医学感测数据的评估患者在不同时间阶段的健康状况。Ayon SI等人使用深度神经网络对多项诊断测量数据进行学习,将其用于糖尿病的预测。
虽然现有研究工作中有大量关于健康感知数据对生理特征判别的工作,但上述工作只考虑了单一类型数据的使用及其特征的提取,而没有考虑将多种数据融合以促进数据间的协同作用。并且由于电子健康记录数据中的医学感测数据是由多种设备获取的时序数据,而不同设备的采样频率有较大差异,采集的数据在时间维度上存在异构性;且个人体质记录数据(例如:年龄、性别等)是非时序数据,和医学感测数据之间也存在异构性。故而如何对这些异构数据融合建模是生理特征判别任务的难点。
发明内容
本发明的目的在于针对上述现有技术存在的问题,提供一种多源健康感知数据融合的生理特征判别方法,利用多源数据融合方法,结合门控循环单元网络以及健康感知数据的相关性,挖掘疾病间潜在关系,更好地进行生理特征判别。
实现本发明目的的技术解决方案为:一种基于多源健康感知数据融合的生理特征判别方法,所述方法包括以下步骤:
步骤1,获取健康感知数据,包括医学感测数据、个人体质记录数据和生理特征状况数据,并对数据进行预处理以消除噪声数据;
步骤2,将医学感测数据按相同时间间隔填充成规则序列数据,添加指示每个时间间隔对应的特征值是否为真实测量值二进制掩码向量,将其与处理后的医学感测数据拼接,获得相应大小结构的医学感测数据矩阵XM;
步骤3,基于门控循环单元网络,融合学习医学感测数据矩阵XM和个人体质记录数据向量XR的隐藏特征HT;
步骤4,基于生理特征状况数据XS,采用条件概率方法计算任意一类生理特征j对另一类生理特征k的影响系数,构建生理特征关联矩阵I;
步骤5,通过全连接网络将隐藏特征HT转换为多类别生理特征的判别概率C,并将判别概率C与生理特征关联矩阵I相乘,获得最终的生理特征判别结果。
一种基于多源健康感知数据融合的生理特征判别系统,所述系统包括:
数据获取与处理模块,用于获取健康感知数据,包括医学感测数据、个人体质记录数据和生理特征状况数据,并对数据进行预处理以消除噪声数据;
第一矩阵构建模块,用于将医学感测数据按相同时间间隔填充成规则序列数据,添加指示每个时间间隔对应的特征值是否为真实测量值二进制掩码向量,将其与处理后的医学感测数据拼接,获得相应大小结构的医学感测数据矩阵XM;
学习模块,用于基于门控循环单元网络,融合学习医学感测数据矩阵XM和个人体质记录数据向量XR的隐藏特征HT;
第二矩阵构建模块,用于基于生理特征状况数据XS,采用条件概率方法计算任意一类生理特征j对另一类生理特征k的影响系数,构建生理特征关联矩阵I;
生理特征判别模块,用于通过全连接网络将隐藏特征HT转换为多类别生理特征的判别概率C,并将判别概率C与生理特征关联矩阵I相乘,获得最终的生理特征判别结果。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
步骤1,获取健康感知数据,包括医学感测数据、个人体质记录数据和生理特征状况数据,并对数据进行预处理以消除噪声数据;
步骤2,将医学感测数据按相同时间间隔填充成规则序列数据,添加指示每个时间间隔对应的特征值是否为真实测量值二进制掩码向量,将其与处理后的医学感测数据拼接,获得相应大小结构的医学感测数据矩阵XM;
步骤3,基于门控循环单元网络,融合学习医学感测数据矩阵XM和个人体质记录数据向量XR的隐藏特征HT;
步骤4,基于生理特征状况数据XS,采用条件概率方法计算任意一类生理特征j对另一类生理特征k的影响系数,构建生理特征关联矩阵I;
步骤5,通过全连接网络将隐藏特征HT转换为多类别生理特征的判别概率C,并将判别概率C与生理特征关联矩阵I相乘,获得最终的生理特征判别结果。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
步骤1,获取健康感知数据,包括医学感测数据、个人体质记录数据和生理特征状况数据,并对数据进行预处理以消除噪声数据;
步骤2,将医学感测数据按相同时间间隔填充成规则序列数据,添加指示每个时间间隔对应的特征值是否为真实测量值二进制掩码向量,将其与处理后的医学感测数据拼接,获得相应大小结构的医学感测数据矩阵XM;
步骤3,基于门控循环单元网络,融合学习医学感测数据矩阵XM和个人体质记录数据向量XR的隐藏特征HT;
步骤4,基于生理特征状况数据XS,采用条件概率方法计算任意一类生理特征j对另一类生理特征k的影响系数,构建生理特征关联矩阵I;
步骤5,通过全连接网络将隐藏特征HT转换为多类别生理特征的判别概率C,并将判别概率C与生理特征关联矩阵I相乘,获得最终的生理特征判别结果。
本发明与现有技术相比,其显著优点为:1)针对电子健康记录中健康感知数据来源多样、数据结构复杂、不同类型数据之间存在相关性的难点,采用一种多源健康感知数据融合模型,在门控循环单元网络架构的基础上对多源健康感知数据进行融合学习,挖掘多源异构数据的隐藏特征,实现生理特征判别。2)为了解决多源医学感测数据和个人体质记录数据的异构性问题,采用数据填充和掩码操作将异构数据映射到同一表征空间。3)对于生理特征判别任务的生理特征相关和生理特征互斥问题,构建了关联矩阵对分类结果进行修正,提高了模型的分类准确度。
下面结合附图对本发明作进一步详细描述。
附图说明
图1为本发明基于多源健康感知数据融合的生理特征判别方法流程图。
图2为本发明基于多源健康感知数据融合的生理特征判别方法框架图。
图3为基于门控循环单元的医学感测数据和个人体质记录数据融合学习方法图。
图4为一个实施例中算法误差对比图,是以Micro AUC-ROC、Macro AUC-ROC、Weighted AUC-ROC作为评价指标,使用不同方法进行生理特征判别的对比实验结果图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,结合图1和图2,本发明提供了一种基于多源健康感知数据融合的生理特征判别方法,所述方法包括以下步骤:
步骤1,获取健康感知数据,包括医学感测数据、个人体质记录数据和生理特征状况数据,并对数据进行预处理以消除噪声数据;
这里,所述医学感测数据,包括在不同时间t测量到的毛细血管充盈率、吸入氧浓度、格拉斯哥昏迷量表睁眼、格拉斯哥昏迷量表运动反应、格拉斯哥昏迷总评分、格拉斯哥昏迷量表言语反应、舒张压、收缩压、平均血压、血糖、心率、血氧饱和度、呼吸频率、体温、身高、体重、酸碱度;
所述个人体质记录数据,包括性别、年龄、种族;
所述生理特征状况数据,包括急性和非特定肾衰竭、急性脑血管病、急性心肌梗死、心律失常、慢性肾病、慢性阻塞性肺疾病、外科/医疗护理的并发症、传导障碍、非高血压充血性心力衰竭、冠状动脉粥样硬化及其相关因素、糖尿病及其并发症、无并发症的糖尿病、脂质代谢紊乱、原发性高血压、液体和电解质紊乱、消化道出血、高血压伴并发症、其他肝病、其他下呼吸道疾病、其他上呼吸道疾病、胸膜炎/气胸/肺塌陷、肺炎、呼吸衰竭、败血症、休克。
步骤2,将医学感测数据按相同时间间隔填充成规则序列数据,添加指示每个时间间隔对应的特征值是否为真实测量值二进制掩码向量,将其与处理后的医学感测数据拼接,获得相应大小结构的医学感测数据矩阵XM;
步骤3,基于门控循环单元网络,融合学习医学感测数据矩阵XM和个人体质记录数据向量XR的隐藏特征HT;
步骤4,基于生理特征状况数据XS,采用条件概率方法计算任意一类生理特征j对另一类生理特征k的影响系数,构建生理特征关联矩阵I;
步骤5,通过全连接网络将隐藏特征HT转换为多类别生理特征的判别概率C,并将判别概率C与生理特征关联矩阵I相乘,获得最终的生理特征判别结果。
进一步地,在其中一个实施例中,步骤1中所述对数据进行预处理以消除噪声数据,具体包括:
步骤1-1,去除缺少医疗感测数据、个人体质记录数据、生理特征状况数据中任意一项的数据样本;
步骤1-2,删除离群点数据和剩余数据中时间序列长度不足24小时的数据;
步骤1-3,对剩余的数据进行归一化处理,并将离散属性数据处理成独热值数据。
进一步地,在其中一个实施例中,步骤2所述将医学感测数据按相同时间间隔填充成规则序列数据,添加指示每个时间间隔对应的特征值是否为真实测量值二进制掩码向量,将其与处理后的医学感测数据拼接,获得相应大小结构的医学感测数据矩阵XM,具体过程包括:
步骤2-1,以1小时为间隔对医学感测数据重新采样,如果在同一时间间隔内存在同一特征的多个测量值,则使用最后一个测量值;
步骤2-2,对于存在缺失值的数据,如果缺失值在其先前时间内存在测量值,以先前最近的测量值来代替缺失值,否则使用预先设定值;
进一步地,在其中一个实施例中,结合图3,步骤3所述基于门控循环单元网络,融合学习医学感测数据矩阵XM和个人体质记录数据向量XR的隐藏特征HT,具体过程包括:
步骤3-1,初始化隐藏状态为零向量,在每个时间步t,t=1,2,...,T,将向量对作为门控循环单元的输入,记为表示t时刻的医学感测数据,表示个人体质记录数据,dr为个人体质记录数据特征维度,din=2dm+dr;假设隐藏单元个数为h,给定上一时间步隐藏状态则重置门和更新门的计算如下:
Rt=σ(XtWxr+Ht-1Whr+br)
Zt=σ(XtWxz+Ht-1Whz+bz)
其中,Wxr,Whr,Wxz,Whz,br,bz为可学习参数,σ为sigmoid函数,将变量映射到[0,1]之间,因此,重置门和更新门中每个元素的值域都是[0,1];
由公式可以看出,更新门可以控制隐藏状态应该如何被包含当前时间步信息的候选隐藏状态所更新。
步骤4-1,统计各类生理特征的正样本人数Sk,计算公式为:
其中,k=1,2,…,K,ynk为第n名个体是否具有生理特征k的二进制值,1表示具有此类生理特征,0反之,N表示个体数;
步骤4-2,计算各类生理特征的正样本率P(Sk),计算公式为:
步骤4-3,统计任意两类生理特征同时具有的人数,令Sjk表示同时具有生理特征j和生理特征k的个体数,则:
其中,ynj和ynk分别为第n名个体是否具有生理特征j和生理特征k的二进制值,P(Sjk)表示生理特征j和生理特征k的共同判别概率;
步骤4-4,计算生理特征关联矩阵I,由于不同生理特征的发病率差异较大,为了避免发病率低的生理特征在计算相关关系时数值较小的问题,采用条件概率计算生理特征j对生理特征k的影响Ijk,即:
则:
I={Ijk|1≤j,k≤K}。
进一步地,在其中一个实施例中,步骤5所述通过全连接网络将隐藏特征HT转换为多类别生理特征的判别概率C,并将判别概率C与生理特征关联矩阵I相乘,获得最终的生理特征判别结果,具体过程包括:
步骤5-1,通过全连接网络将隐藏特征HT′转换为K类生理特征的判别概率C,计算公式为:
C=f(WcHT+bc)
在一个实施例中,提供了一种基于多源健康感知数据融合的生理特征判别系统,所述系统包括:
数据获取与处理模块,用于获取健康感知数据,包括医学感测数据、个人体质记录数据和生理特征状况数据,并对数据进行预处理以消除噪声数据;
第一矩阵构建模块,用于将医学感测数据按相同时间间隔填充成规则序列数据,添加指示每个时间间隔对应的特征值是否为真实测量值二进制掩码向量,将其与处理后的医学感测数据拼接,获得相应大小结构的医学感测数据矩阵XM;
学习模块,用于基于门控循环单元网络,融合学习医学感测数据矩阵XM和个人体质记录数据向量XR的隐藏特征HT;
第二矩阵构建模块,用于基于生理特征状况数据XS,采用条件概率方法计算任意一类生理特征j对另一类生理特征k的影响系数,构建生理特征关联矩阵I;
生理特征判别模块,用于通过全连接网络将隐藏特征HT转换为多类别生理特征的判别概率C,并将判别概率C与生理特征关联矩阵I相乘,获得最终的生理特征判别结果。
关于基于多源健康感知数据融合的生理特征判别系统的具体限定可以参见上文中对于基于多源健康感知数据融合的生理特征判别方法的限定,在此不再赘述。上述基于多源健康感知数据融合的生理特征判别系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
步骤1,获取健康感知数据,包括医学感测数据、个人体质记录数据和生理特征状况数据,并对数据进行预处理以消除噪声数据;
步骤2,将医学感测数据按相同时间间隔填充成规则序列数据,添加指示每个时间间隔对应的特征值是否为真实测量值二进制掩码向量,将其与处理后的医学感测数据拼接,获得相应大小结构的医学感测数据矩阵XM;
步骤3,基于门控循环单元网络,融合学习医学感测数据矩阵XM和个人体质记录数据向量XR的隐藏特征HT;
步骤4,基于生理特征状况数据XS,采用条件概率方法计算任意一类生理特征j对另一类生理特征k的影响系数,构建生理特征关联矩阵I;
步骤5,通过全连接网络将隐藏特征HT转换为多类别生理特征的判别概率C,并将判别概率C与生理特征关联矩阵I相乘,获得最终的生理特征判别结果。
关于每一步的具体限定可以参见上文中对于基于多源健康感知数据融合的生理特征判别方法的限定,在此不再赘述。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
步骤1,获取健康感知数据,包括医学感测数据、个人体质记录数据和生理特征状况数据,并对数据进行预处理以消除噪声数据;
步骤2,将医学感测数据按相同时间间隔填充成规则序列数据,添加指示每个时间间隔对应的特征值是否为真实测量值二进制掩码向量,将其与处理后的医学感测数据拼接,获得相应大小结构的医学感测数据矩阵XM;
步骤3,基于门控循环单元网络,融合学习医学感测数据矩阵XM和个人体质记录数据向量XR的隐藏特征HT;
步骤4,基于生理特征状况数据XS,采用条件概率方法计算任意一类生理特征j对另一类生理特征k的影响系数,构建生理特征关联矩阵I;
步骤5,通过全连接网络将隐藏特征HT转换为多类别生理特征的判别概率C,并将判别概率C与生理特征关联矩阵I相乘,获得最终的生理特征判别结果。
关于每一步的具体限定可以参见上文中对于基于多源健康感知数据融合的生理特征判别方法的限定,在此不再赘述。
作为一种具体示例,在其中一个实施例中,对本发明进行进一步验证说明。
本实施例中选择美国大型医疗临床数据库MIMIC-III(V1.4)进行实验,来测试本发明的模型,数据库中包含2001年至2012年之间进入重症监护病房的成年患者(16岁及以上)超过40,000名重症监护患者的60,000多条住院数据,每条记录都包含多种医学感测数据、住院记录数据和生理特征状况数据。经统计,仅有881名患者(约2.10%)具有超长时间序列的医学感测数据(即时间序列长度>480)。在对模型精度影响较小的情况下,实验将样本长度截断到合理的限度(即480),以降低模型训练的时间开销和空间开销。
本实施例选择目前流行的不同生理特征判别方法作为对比方法来进行对比实验:逻辑回归(LR)、基于注意力的临床时间序列分析(SAnD)、长短期记忆递归神经网络(LSTM)、基于尺度自适应特征提取和重校准的可解释临床健康状态表征学习(AdaCare)、基于深度神经网络的临床时间序列分析迁移学习(TimeNet-Eps)。本发明的方法记作MHSDF。
对比实验的实验结果如图4所示,横轴表示不同生理特征判别方法名称,纵轴表示评价指标值(分为Micro AUC-ROC、Macro AUC-ROC、Weighted AUC-ROC)。可以看到:本发明提出的MHSDF方法优于其他几种方法。
其中,LR性能最差,因为它仅适用统计学方法提取特征,并种手动提取特征的方法忽略了时间维度的先后关系。性能其次差的是SAnD算法,它用了掩码自注意力机制对临床时间序列数据建模,并使用位置编码和密集插值策略来学习数据的时间特征,但该方法在提取长时间特征方面存在局限性。LSTM、AdaCare和TimeNet-Eps方法都是基于循环神经网络的算法,性能相对较好,但仍低于本发明的MFCFP方法。这是因为LSTM和AdaCare方法没有考虑到个人体质状况对生理特征的影响和多种生理特征之间的相互影响,而TimeNet-Eps方法将可变长度的时间序列映射到固定维度的特征向量时无法对时序数据中的缺失值和测量值进行区分。这证明本发明的方法对于通过多源健康感知数据进行生理特征判别是有效的。
本发明方法能够融合学习多源异构健康感知数据,并充分利用生理特征之间潜在的相关性。在基于海量的健康感知数据计算中,具有更好的检测效果,且通过与其他相关算法对比,进一步验证了本发明的方法可以更准确地对生理特征进行判别。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。
Claims (10)
1.一种基于多源健康感知数据融合的生理特征判别方法,其特征在于,所述方法包括以下步骤:
步骤1,获取健康感知数据,包括医学感测数据、个人体质记录数据和生理特征状况数据,并对数据进行预处理以消除噪声数据;
步骤2,将医学感测数据按相同时间间隔填充成规则序列数据,添加指示每个时间间隔对应的特征值是否为真实测量值二进制掩码向量,将其与处理后的医学感测数据拼接,获得相应大小结构的医学感测数据矩阵XM;
步骤3,基于门控循环单元网络,融合学习医学感测数据矩阵XM和个人体质记录数据向量XR的隐藏特征HT;
步骤4,基于生理特征状况数据XS,采用条件概率方法计算任意一类生理特征j对另一类生理特征k的影响系数,构建生理特征关联矩阵I;
步骤5,通过全连接网络将隐藏特征HT转换为多类别生理特征的判别概率C,并将判别概率C与生理特征关联矩阵I相乘,获得最终的生理特征判别结果。
2.根据权利要求1所述的基于多源健康感知数据融合的生理特征判别方法,其特征在于,步骤1中所述医学感测数据,包括在不同时间t测量到的毛细血管充盈率、吸入氧浓度、格拉斯哥昏迷量表睁眼、格拉斯哥昏迷量表运动反应、格拉斯哥昏迷总评分、格拉斯哥昏迷量表言语反应、舒张压、收缩压、平均血压、血糖、心率、血氧饱和度、呼吸频率、体温、身高、体重、酸碱度;
所述个人体质记录数据,包括性别、年龄、种族;
所述生理特征状况数据,包括急性和非特定肾衰竭、急性脑血管病、急性心肌梗死、心律失常、慢性肾病、慢性阻塞性肺疾病、外科/医疗护理的并发症、传导障碍、非高血压充血性心力衰竭、冠状动脉粥样硬化及其相关因素、糖尿病及其并发症、无并发症的糖尿病、脂质代谢紊乱、原发性高血压、液体和电解质紊乱、消化道出血、高血压伴并发症、其他肝病、其他下呼吸道疾病、其他上呼吸道疾病、胸膜炎/气胸/肺塌陷、肺炎、呼吸衰竭、败血症、休克。
3.根据权利要求1或2所述的基于多源健康感知数据融合的生理特征判别方法,其特征在于,步骤1中所述对数据进行预处理以消除噪声数据,具体包括:
步骤1-1,去除缺少医疗感测数据、个人体质记录数据、生理特征状况数据中任意一项的数据样本;
步骤1-2,删除离群点数据和剩余数据中时间序列长度不足24小时的数据;
步骤1-3,对剩余的数据进行归一化处理,并将离散属性数据处理成独热值数据。
4.根据权利要求3所述的基于多源健康感知数据融合的生理特征判别方法,其特征在于,步骤2所述将医学感测数据按相同时间间隔填充成规则序列数据,添加指示每个时间间隔对应的特征值是否为真实测量值二进制掩码向量,将其与处理后的医学感测数据拼接,获得相应大小结构的医学感测数据矩阵XM,具体过程包括:
步骤2-1,以1小时为间隔对医学感测数据重新采样,如果在同一时间间隔内存在同一特征的多个测量值,则使用最后一个测量值;
步骤2-2,对于存在缺失值的数据,如果缺失值在其先前时间内存在测量值,以先前最近的测量值来代替缺失值,否则使用预先设定值;
5.根据权利要求4所述的基于多源健康感知数据融合的生理特征判别方法,其特征在于,步骤3所述基于门控循环单元网络,融合学习医学感测数据矩阵XM和个人体质记录数据向量XR的隐藏特征HT,具体过程包括:
步骤3-1,初始化隐藏状态为零向量,在每个时间步t,t=1,2,...,T,将向量对作为门控循环单元的输入,记为 表示t时刻的医学感测数据,表示个人体质记录数据,dr为个人体质记录数据特征维度,din=2dm+dr;假设隐藏单元个数为h,给定上一时间步隐藏状态则重置门和更新门的计算如下:
Rt=σ(XtWxr+Ht-1Whr+br)
Zt=σ(XtWxz+Ht-1Whz+bz)
其中,Wxr,Whr,Wxz,Whz,br,bz为可学习参数,σ为sigmoid函数,将变量映射到[0,1]之间,因此,重置门和更新门中每个元素的值域都是[0,1];
步骤4-1,统计各类生理特征的正样本人数Sk,计算公式为:
其中,k=1,2,…,K,ynk为第n名个体是否具有生理特征k的二进制值,1表示具有此类生理特征,0反之,N表示个体数;
步骤4-2,计算各类生理特征的正样本率P(Sk),计算公式为:
步骤4-3,统计任意两类生理特征同时具有的人数,令Sjk表示同时具有生理特征j和生理特征k的个体数,则:
其中,ynj和ynk分别为第n名个体是否具有生理特征j和生理特征k的二进制值,P(Sjk)表示生理特征j和生理特征k的共同判别概率;
步骤4-4,计算生理特征关联矩阵I,具体地采用条件概率计算生理特征j对生理特征k的影响Ijk,即:
则:
I={Ijk|1≤j,k≤K}。
8.一种基于多源健康感知数据融合的生理特征判别系统,其特征在于,所述系统包括:
数据获取与处理模块,用于获取健康感知数据,包括医学感测数据、个人体质记录数据和生理特征状况数据,并对数据进行预处理以消除噪声数据;
第一矩阵构建模块,用于将医学感测数据按相同时间间隔填充成规则序列数据,添加指示每个时间间隔对应的特征值是否为真实测量值二进制掩码向量,将其与处理后的医学感测数据拼接,获得相应大小结构的医学感测数据矩阵XM;
学习模块,用于基于门控循环单元网络,融合学习医学感测数据矩阵XM和个人体质记录数据向量XR的隐藏特征HT;
第二矩阵构建模块,用于基于生理特征状况数据XS,采用条件概率方法计算任意一类生理特征j对另一类生理特征k的影响系数,构建生理特征关联矩阵I;
生理特征判别模块,用于通过全连接网络将隐藏特征HT转换为多类别生理特征的判别概率C,并将判别概率C与生理特征关联矩阵I相乘,获得最终的生理特征判别结果。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210071255.1A CN114504298B (zh) | 2022-01-21 | 2022-01-21 | 基于多源健康感知数据融合的生理特征判别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210071255.1A CN114504298B (zh) | 2022-01-21 | 2022-01-21 | 基于多源健康感知数据融合的生理特征判别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114504298A true CN114504298A (zh) | 2022-05-17 |
CN114504298B CN114504298B (zh) | 2024-02-13 |
Family
ID=81549298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210071255.1A Active CN114504298B (zh) | 2022-01-21 | 2022-01-21 | 基于多源健康感知数据融合的生理特征判别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114504298B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114782760A (zh) * | 2022-06-22 | 2022-07-22 | 紫东信息科技(苏州)有限公司 | 一种基于多任务学习的胃部疾病图片分类系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150611A (zh) * | 2013-03-08 | 2013-06-12 | 北京理工大学 | Ii型糖尿病发病概率分层预测方法 |
CN107358014A (zh) * | 2016-11-02 | 2017-11-17 | 华南师范大学 | 一种生理数据的临床前处理方法及系统 |
CN108536754A (zh) * | 2018-03-14 | 2018-09-14 | 四川大学 | 基于blstm和注意力机制的电子病历实体关系抽取方法 |
CN109918671A (zh) * | 2019-03-12 | 2019-06-21 | 西南交通大学 | 基于卷积循环神经网络的电子病历实体关系抽取方法 |
CN111785372A (zh) * | 2020-05-14 | 2020-10-16 | 浙江知盛科技集团有限公司 | 基于关联规则的协同过滤疾病预测系统及其电子设备 |
CN113035348A (zh) * | 2021-03-22 | 2021-06-25 | 山西三友和智慧信息技术股份有限公司 | 一种基于gru特征融合的糖尿病诊断方法 |
CN113128233A (zh) * | 2021-05-11 | 2021-07-16 | 济南大学 | 一种心理疾病知识图谱的构建方法及系统 |
CN113192562A (zh) * | 2021-05-07 | 2021-07-30 | 中南大学 | 融合多尺度模块结构信息的致病基因识别方法及系统 |
US20210319387A1 (en) * | 2020-04-02 | 2021-10-14 | The Regents Of The University Of Michigan | Artificial intelligence based approach for dynamic prediction of injured patient health-state |
CN113782209A (zh) * | 2020-09-25 | 2021-12-10 | 北京大学 | 一种基于循环神经网络的慢性病患者智能预后方法及系统 |
-
2022
- 2022-01-21 CN CN202210071255.1A patent/CN114504298B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150611A (zh) * | 2013-03-08 | 2013-06-12 | 北京理工大学 | Ii型糖尿病发病概率分层预测方法 |
CN107358014A (zh) * | 2016-11-02 | 2017-11-17 | 华南师范大学 | 一种生理数据的临床前处理方法及系统 |
CN108536754A (zh) * | 2018-03-14 | 2018-09-14 | 四川大学 | 基于blstm和注意力机制的电子病历实体关系抽取方法 |
CN109918671A (zh) * | 2019-03-12 | 2019-06-21 | 西南交通大学 | 基于卷积循环神经网络的电子病历实体关系抽取方法 |
US20210319387A1 (en) * | 2020-04-02 | 2021-10-14 | The Regents Of The University Of Michigan | Artificial intelligence based approach for dynamic prediction of injured patient health-state |
CN111785372A (zh) * | 2020-05-14 | 2020-10-16 | 浙江知盛科技集团有限公司 | 基于关联规则的协同过滤疾病预测系统及其电子设备 |
CN113782209A (zh) * | 2020-09-25 | 2021-12-10 | 北京大学 | 一种基于循环神经网络的慢性病患者智能预后方法及系统 |
CN113035348A (zh) * | 2021-03-22 | 2021-06-25 | 山西三友和智慧信息技术股份有限公司 | 一种基于gru特征融合的糖尿病诊断方法 |
CN113192562A (zh) * | 2021-05-07 | 2021-07-30 | 中南大学 | 融合多尺度模块结构信息的致病基因识别方法及系统 |
CN113128233A (zh) * | 2021-05-11 | 2021-07-16 | 济南大学 | 一种心理疾病知识图谱的构建方法及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114782760A (zh) * | 2022-06-22 | 2022-07-22 | 紫东信息科技(苏州)有限公司 | 一种基于多任务学习的胃部疾病图片分类系统 |
CN114782760B (zh) * | 2022-06-22 | 2022-09-13 | 紫东信息科技(苏州)有限公司 | 一种基于多任务学习的胃部疾病图片分类系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114504298B (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qin et al. | A machine learning methodology for diagnosing chronic kidney disease | |
Rady et al. | Prediction of kidney disease stages using data mining algorithms | |
Kim et al. | A deep learning model for real-time mortality prediction in critically ill children | |
JP6522161B2 (ja) | ディープラーニングに基づく医療データ分析方法及びそのインテリジェントアナライザー | |
CN110957015B (zh) | 电子医疗记录数据的缺失值填充方法 | |
CN106934235A (zh) | 一种基于迁移学习的疾病领域间病人相似性度量迁移系统 | |
WO2019019491A1 (zh) | 一种血氧饱和度的检测方法与系统 | |
CN113096818B (zh) | 基于ode和grud的急性病症发生几率的评估方法 | |
Zhao et al. | Early prediction of sepsis based on machine learning algorithm | |
WO2022166158A1 (zh) | 一种基于卷积生存网络的血透并发症长期风险预测系统 | |
CN110659677A (zh) | 一种基于可移动传感器组合设备的人体跌倒检测方法 | |
CN116364299B (zh) | 一种基于异构信息网络的疾病诊疗路径聚类方法及系统 | |
CN110767279A (zh) | 基于lstm的电子健康记录缺失数据补全方法及系统 | |
Ali et al. | Multitask deep learning for cost-effective prediction of patient's length of stay and readmission state using multimodal physical activity sensory data | |
Sheikhalishahi et al. | Benchmarking machine learning models on eICU critical care dataset | |
CN114504298B (zh) | 基于多源健康感知数据融合的生理特征判别方法及系统 | |
Gao et al. | Reconstructing missing ehrs using time-aware within-and cross-visit information for septic shock early prediction | |
CN114611879A (zh) | 一种基于多任务学习的临床风险预测系统 | |
CN115376638A (zh) | 一种基于多源健康感知数据融合的生理特征数据分析方法 | |
Liu et al. | Semantic segmentation of qrs complex in single channel ecg with bidirectional lstm networks | |
CN115547502B (zh) | 基于时序数据的血透病人风险预测装置 | |
CN115147768B (zh) | 一种跌倒风险评估方法及系统 | |
CN113077901B (zh) | 一种电子病历分析装置和方法 | |
CN114613497A (zh) | 基于gbdt样例级的病患样本的智能医学辅助诊断方法 | |
Rajmohan et al. | G-Sep: A Deep Learning Algorithm for Detection of Long-Term Sepsis Using Bidirectional Gated Recurrent Unit |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |