CN117421548B - 基于卷积神经网络对生理指标数据缺失的治理方法及系统 - Google Patents
基于卷积神经网络对生理指标数据缺失的治理方法及系统 Download PDFInfo
- Publication number
- CN117421548B CN117421548B CN202311734693.2A CN202311734693A CN117421548B CN 117421548 B CN117421548 B CN 117421548B CN 202311734693 A CN202311734693 A CN 202311734693A CN 117421548 B CN117421548 B CN 117421548B
- Authority
- CN
- China
- Prior art keywords
- data
- physiological index
- neural network
- medical record
- index data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000003062 neural network model Methods 0.000 claims abstract description 40
- 238000012545 processing Methods 0.000 claims abstract description 18
- 238000003745 diagnosis Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 20
- 229940079593 drug Drugs 0.000 claims description 16
- 239000003814 drug Substances 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 208000024891 symptom Diseases 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 claims description 3
- 238000012417 linear regression Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 claims description 3
- 238000000554 physical therapy Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 2
- 230000008859 change Effects 0.000 abstract description 5
- 238000007405 data analysis Methods 0.000 abstract description 3
- 201000010099 disease Diseases 0.000 abstract description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 abstract description 3
- 238000005457 optimization Methods 0.000 abstract description 3
- 230000009469 supplementation Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 6
- 230000036760 body temperature Effects 0.000 description 5
- 239000013589 supplement Substances 0.000 description 5
- 230000006978 adaptation Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000029058 respiratory gaseous exchange Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000000241 respiratory effect Effects 0.000 description 1
- 230000036387 respiratory rate Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
- G06F18/15—Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及医疗数据处理领域,尤其涉及基于卷积神经网络对生理指标数据缺失的治理方法及系统,通过获取原始数据中的病历数据和生理指标数据,并进行数据预处理;对完成预处理的数据进行特征提取;采用多通道的CNN架构创建神经网络模型,并对所述神经网络模型进行训练;采用训练好的神经网络模型对缺失的生理指标数据进行预测。实现了基于疾病诊断与治疗记录、医疗记录数据分析,集合生理指标数据时间序列变化特征对生理指标数据缺失进行治理补充,提高了对生理指标缺失数据治理的有效性和可信性,此外,还通过对多通道CNN模型的不断更新优化,强化了模型性能,使得预测值进一步提高了精准度。
Description
技术领域
本发明涉及医疗数据处理领域,尤其涉及基于卷积神经网络对生理指标数据缺失的治理方法及系统。
背景技术
在大数据时代的背景下,人工智能AI技术在医疗方面得到了深入运用,使得数据质量有了更高的要求,但是在实际业务过程中,因各种原因造成的生理指标部分数据缺失,由于是历史数据,无法让业务系统重新补充相应的生理指标缺失数据,因此,如何对生理指标缺失数据进行有效的治理和补充是目前医疗系统中亟待解决的难题。
由于生理指标数据缺失的补充不能随意补充,目前常用的解决方法是利用K-means聚类算法和随机森林算法进行数据补充,然而采用上述两种方法进行数据补充时,补充的数据可信度并不高。
综上所述,现有技术存在的问题是如何对生理指标缺失数据进行有效的、可信度高的治理和补充。
发明内容
有鉴于此,本发明提供一种基于卷积神经网络对生理指标数据缺失的治理方法及系统,旨在提高对生理指标缺失数据治理的有效性和可信性。
为解决以上技术问题,本发明的技术方案为提供一种基于卷积神经网络对生理指标数据缺失的治理方法,包括:
获取原始数据中的病历数据和生理指标数据,并进行数据预处理;
对完成预处理的数据进行特征提取;
采用多通道的CNN架构创建神经网络模型,并对所述神经网络模型进行训练;
采用训练好的神经网络模型对缺失的生理指标数据进行预测。
作为一种实施方式,所述获取原始数据中的病历数据和生理指标数据,并进行数据预处理,包括:
获取原始数据中包括诊断信息、用药信息、症状描述的病历数据和生理指标数据的数据集;
对所述数据集中的数据以此进行去除异常值、处理重复数据、数据归一化或标准化的数据处理;
将病历数据通过编码成独热编码或使用词嵌入转化为可以输入神经网络的格式。
作为一种实施方式,所述将病历数据通过编码成独热编码或使用词嵌入转化为可以输入神经网络的格式,包括:
将病历数据中的诊断信息和用药信息使用独热编码编码成二进制向量,其中,每个向量元素表示一个对应的信息标签,或,
将病历数据中的诊断信息和用药信息利用使用词嵌入技术转换为连续向量表示;
对病历数据中包含的病状描述信息采用自然语言处理技术编码成向量或矩阵表示。
作为一种实施方式,所述对完成预处理的数据进行特征提取,包括:
提取生理指标数据中的时间序列数据,并进行数据平滑处理;
采用傅里叶变换或小波变换将时间序列数据转换到频域,以提取得到时间序列特征。
作为一种实施方式,所述采用多通道的CNN架构创建神经网络模型,包括:
构建具备多通道输入的CNN神经网络模型,具体的,
采用包括多个卷积层和池化层的第一通道和第二通道分别处理病历数据特征和生理指标数据特征,其中,所述病历数据特征为由向量化表示的病历数据中的向量;
连接所述第一通道和所述第二通道的输出或对所述病历数据特征和生理指标数据特征进行加权平均进行特征融合;
利用全连接层对于特征融合后的病历数据特征和生理指标数据特征进行信息整合;
将输出层设置为与生理指标数据的特征维度相匹配的大小,并采用线性激活函数产生预测值。
作为一种实施方式,所述对所述神经网络模型进行训练,包括:
采用随机梯度下降算法更新模型的参数;
通过最小化损失函数来不断调整模型的权重。
作为一种实施方式,所述采用训练好的神经网络模型对缺失的生理指标数据进行预测,还包括:
将病历数据作为额外输入,采用训练好的神经网络模型对缺失的生理指标数据进行预测;
将预测值填充回原始数据中,使用交叉验证进行模型评估,计算预测值与真实值之间的误差;
根据模型评估的结果,进行超参数调整,优化模型性能。
相应的,本发明还提供一种基于卷积神经网络对生理指标数据缺失的治理系统,包括:
数据获取模块,用于获取原始数据中的病历数据和生理指标数据,并进行数据预处理;
特征提取模块,用于对完成预处理的数据进行特征提取;
模型构建模块,用于采用多通道的CNN架构创建神经网络模型,并对所述神经网络模型进行训练;
结果预测模块,用于采用训练好的神经网络模型对缺失的生理指标数据进行预测。
相应的,本发明还提供一种存储介质,存储有计算机程序,所述计算机程序被执行时可实现上述权利要求中任意一项所述的基于卷积神经网络对生理指标数据缺失的治理方法。
相应的,本发明还提供一种计算机设备,包括中央处理器和存储器,该存储器内存储有计算机程序,当计算机程序被中央处理器执行时,可实现上述任意一项所述的基于卷积神经网络对生理指标数据缺失的治理方法。
本发明的首要改进之处在于:通过获取原始数据中的病历数据和生理指标数据,并进行数据预处理;对完成预处理的数据进行特征提取;采用多通道的CNN架构创建神经网络模型,并对所述神经网络模型进行训练;采用训练好的神经网络模型对缺失的生理指标数据进行预测,实现了基于疾病诊断与治疗记录、医疗记录数据分析,集合生理指标数据时间序列变化特征对生理指标数据缺失进行治理补充,提高了对生理指标缺失数据治理的有效性和可信性,此外,还通过对多通道CNN模型的不断更新优化,强化了模型性能,使得预测值进一步提高了精准度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1是本发明一实施例提供的基于卷积神经网络对生理指标数据缺失的治理方法的步骤示意图;
图2是本发明一实施例提供的多通道CNN神经网络模型构建的步骤示意图;
图3是本发明一实施例提供的基于卷积神经网络对生理指标数据缺失的治理系统的结构示意图;
图4是本发明一实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了使本领域技术人员更好的理解本发明实施例,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,是本发明一实施例提供的一种基于卷积神经网络对生理指标数据缺失的治理方法的步骤示意图。
S11、获取原始数据中的病历数据和生理指标数据,并进行数据预处理。
在实际业务过程中,因各种原因会造成生理指标部分数据缺失,由于是历史数据,无法让业务系统重新补充相应的生理指标缺失数据,因此本实施例中获取的原始数据同样属于历史数据,但该历史数据属于生理指标部分数据缺失后剩余的原始数据,将原始数据分为两大类进行获取,其中一类为病历数据,包括但不限于诊断信息、用药信息、症状描述;另一类为生理指标数据。
进一步的,在获取了病历数据和生理指标数据之后,需要对其进行数据预处理,通过去除异常值、处理重复数据、数据归一化或标准化,以确保数据在同一尺度上。
进一步的,为了实现病历数据和生理指标数据的结合使用,还需要将病历数据转化为可以输入神经网络的格式,比如向量化表示,即使用词嵌入将诊断和用药转换为固定长度的向量,这些向量可以与生理指标数据的时间序列特征结合在一起。
进一步的,在进行病历数据转化时,针对将诊断信息转化为机器可理解的形式,可以使用独热编码(One-Hot Encoding)将诊断编码成二进制向量,其中每个向量元素表示一个可能的诊断标签,也可以使用词嵌入技术,如Word2Vec或BERT,将诊断转换为连续向量表示;针对用药信息转化为机器可理解的形式,类似于诊断信息,将用药信息也编码成独热编码或词嵌入向量,每种药物可以被表示为一个向量,其中每个元素表示该药是否被使用。
更进一步的,如果病历中包含了症状描述,可以使用自然语言处理技术,如词袋模型、TF-IDF或预训练的语言模型(如BERT),将症状描述编码成向量或矩阵表示。
S12、对完成预处理的数据进行特征提取。
生理指标数据通常是时间序列数据,如心率、血压等,可以将这些数据进行平滑处理,如移动平均,以减少噪音的影响,还可以提取时间序列的统计特征,如平均值、标准差、最大值和最小值。然后采用傅里叶变换或小波变换将时间序列数据转换到频域,可以提取频谱能量、主要频率等特征,这些特征都作为生理指标特征来呈现。
可以理解的是,步骤S11中,将病历数据转化为向量时,各向量所代表的就是病历数据的特征,至此,病历数据特征和生理指标特征均提取完毕。
S13、采用多通道的CNN架构创建神经网络模型,并对所述神经网络模型进行训练。
设计一个多通道的CNN架构,构建具备多通道输入的CNN神经网络模型,每个通道分别处理不同类型的特征,这种架构可以充分利用不同数据源之间的关联信息,具体包括以下步骤,如图2所示:
S131、采用包括多个卷积层和池化层的第一通道和第二通道分别处理病历数据特征和生理指标数据特征,其中,所述病历数据特征为由向量化表示的病历数据中的向量。
由于要处理两种不同类型的数据源(病历数据和生理指标数据),需要涉及一个多通道的CNN架构来同时处理这两种数据,每个通道分别处理不同类型的特征。
选择其中一个通道,作为病历数据通道,用于处理病历数据的特征,这个通道包括多个卷积层和池化层,以捕捉病历数据中的关键模式,可以为每种类型的病历数据使用不同的卷积核大小,以更好地捕获不同尺度的信息。
选择另一个通道,作为生理指标数据通道,用于处理生理指标数据的特征,由于生理指标数据是时序数据,使用一维卷积层来捕获其中的时序模式,设置不同大小的卷积核以捕获不同时间尺度上的模式,然后使用池化层进行降采样。
S132、连接第一通道和第二通道的输出或对病历数据特征和生理指标数据特征进行加权平均进行特征融合。
在步骤S131说明的两个通道的卷积层之后,将两个通道的特征进行融合,可以通过连接两个通道的输出或者将它们进行加权平均来实现,融合后的特征将传递到后续的全连接层。
S133、利用全连接层对于特征融合后的病历数据特征和生理指标数据特征进行信息整合。
全连接层可以对于特征融合后的病历数据特征和生理指标数据特征进行信息整合,并逐渐减少特征的维度。
S134、将输出层设置为与生理指标数据的特征维度相匹配的大小,并采用线性激活函数产生预测值。
进一步的,针对缺失值的预测任务,还需要添加损失函数,例如均方根误差(RMSE)或平均绝对误差(MAE),采用这些损失函数能够将预测值与真实值之间的差异量化为一个可优化的目标。
进一步的,构建好神经网络模型之后,使用已有数据对模型进行训练,可以使用随机梯度下降(SGD)或其他优化算法来更新模型的参数,同时,在训练过程中,通过最小化损失函数来调整模型的权重,使其能够更好地适应数据。
进一步的,使用交叉验证或保留一部分数据进行模型评估,计算预测值与真实值之间的误差,根据模型评估的结果,进行超参数调整,进一步优化模型性能,其中,超参数调整包括对模型的卷积核大小、池化策略、学习率等进行调整。
S14、采用训练好的神经网络模型对缺失的生理指标数据进行预测。
使用训练好的多通道CNN模型来预测缺失的生理指标数据,在预测过程中,具体采用多元线性回归公式:Y=β0+β1X1+β2X2+βpXp+,其中,Y是生理指标数据的预测值,X1、X2、…、Xp是解释变量,包括生理指标、用药信息、诊断信息、物理治疗,β0是截距项,β1、β2、…、βp是各解释变量的系数,表示它们对生理指标的影响,/>是误差项,表示模型无法解释的随机变化。可以理解的是,生理指标有很多种类,比如体温、心率、呼吸频率等,一般来说,体温升高,机体的调定点就会发生变化,这时体温增高,机体会尽可能将这种热量散发出去,就可以通过心率和呼吸的变化发生改变。如果体温升高,患者的代谢增强,心率加快,呼吸会随之加快。但是呼吸的标准有时难以掌握,因为有的人呼吸并不是很明显,所以要通过测量心率的方式确定。一般体温每升高1℃,心率大多会增加10次。因此,解释变量同样可以采用生理指标对不同种类的生理指标数据进行预测。同时,由于生理指标之间还是有一定的关系的,所以采用公式计算时,适当带入其他生理指标较优。本实施例中将病历信息作为额外输入供模型使用,将预测值填充回原始数据中。
本发明一实施例提供的基于卷积神经网络对生理指标数据缺失的治理方法,通过获取原始数据中的病历数据和生理指标数据,并进行数据预处理;对完成预处理的数据进行特征提取;采用多通道的CNN架构创建神经网络模型,并对所述神经网络模型进行训练;采用训练好的神经网络模型对缺失的生理指标数据进行预测。实现了基于疾病诊断与治疗记录、医疗记录数据分析,集合生理指标数据时间序列变化特征对生理指标数据缺失进行治理补充,提高了对生理指标缺失数据治理的有效性和可信性,此外,还通过对多通道CNN模型的不断更新优化,强化了模型性能,使得预测值进一步提高了精准度。
相应的,如图3所示,本发明一实施例还提供了基于卷积神经网络对生理指标数据缺失的治理系统的结构示意图。
基于卷积神经网络对生理指标数据缺失的治理系统,包括:
数据获取模块,用于获取原始数据中的病历数据和生理指标数据,并进行数据预处理;
特征提取模块,用于对完成预处理的数据进行特征提取;
模型构建模块,用于采用多通道的CNN架构创建神经网络模型,并对所述神经网络模型进行训练;
结果预测模块,用于采用训练好的神经网络模型对缺失的生理指标数据进行预测。
相应的,本发明还提供一种存储介质,存储有计算机程序,该计算机程序被执行时可实现上述实施例中任意一项所述的基于卷积神经网络对生理指标数据缺失的治理方法。
相应的,本发明还提供一种计算机设备,如图4所示,包括中央处理器1001和存储器1002,该存储器内存储有计算机程序,当计算机程序被中央处理器执行时,可实现上述实施例中任意一项所述的基于卷积神经网络对生理指标数据缺失的治理方法。
以上对本发明实施例所提供的基于卷积神经网络对生理指标数据缺失的治理方法。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
Claims (8)
1.基于卷积神经网络对生理指标数据缺失的治理方法,其特征在于,包括:
获取原始数据中的病历数据和生理指标数据,并进行数据预处理,具体的,获取原始数据中包括诊断信息、用药信息、症状描述的病历数据和生理指标数据的数据集;对所述数据集中的数据以此进行去除异常值、处理重复数据、数据归一化或标准化的数据处理;将病历数据通过编码成独热编码或使用词嵌入转化为可以输入神经网络的格式;
对完成预处理的数据进行特征提取;
采用多通道的CNN架构创建神经网络模型,并对所述神经网络模型进行训练;
采用训练好的神经网络模型对缺失的生理指标数据进行预测,具体的,将病历数据作为额外输入,采用训练好的神经网络模型对缺失的生理指标数据进行预测,包括采用多元线性回归公式:Y=β0+β1X1+β2X2+βpXp+∈,其中,Y是生理指标数据的预测值,X1、X2、…、Xp是解释变量,包括生理指标、用药信息、诊断信息、物理治疗,β0是截距项,β1、β2、…、βp是各解释变量的系数,表示它们对生理指标的影响,∈是误差项,表示模型无法解释的随机变化;将预测值填充回原始数据中,使用交叉验证进行模型评估,计算预测值与真实值之间的误差;根据模型评估的结果,进行超参数调整,优化模型性能。
2.根据权利要求1所述的基于卷积神经网络对生理指标数据缺失的治理方法,其特征在于,所述将病历数据通过编码成独热编码或使用词嵌入转化为可以输入神经网络的格式,包括:
将病历数据中的诊断信息和用药信息使用独热编码编码成二进制向量,其中,每个向量元素表示一个对应的信息标签,或,
将病历数据中的诊断信息和用药信息利用使用词嵌入技术转换为连续向量表示;
对病历数据中包含的病状描述信息采用自然语言处理技术编码成向量或矩阵表示。
3.根据权利要求2所述的基于卷积神经网络对生理指标数据缺失的治理方法,其特征在于,所述对完成预处理的数据进行特征提取,包括:
提取生理指标数据中的时间序列数据,并进行数据平滑处理;
采用傅里叶变换或小波变换将时间序列数据转换到频域,以提取得到时间序列特征。
4.根据权利要求3所述的基于卷积神经网络对生理指标数据缺失的治理方法,其特征在于,所述采用多通道的CNN架构创建神经网络模型,包括:
构建具备多通道输入的CNN神经网络模型,具体的,
采用包括多个卷积层和池化层的第一通道和第二通道分别处理病历数据特征和生理指标数据特征,其中,所述病历数据特征为由向量化表示的病历数据中的向量;
连接所述第一通道和所述第二通道的输出或对所述病历数据特征和生理指标数据特征进行加权平均进行特征融合;
利用全连接层对于特征融合后的病历数据特征和生理指标数据特征进行信息整合;
将输出层设置为与生理指标数据的特征维度相匹配的大小,并采用线性激活函数产生预测值。
5.根据权利要求4所述的基于卷积神经网络对生理指标数据缺失的治理方法,其特征在于,所述对所述神经网络模型进行训练,包括:
采用随机梯度下降算法更新模型的参数;
通过最小化损失函数来不断调整模型的权重。
6.基于卷积神经网络对生理指标数据缺失的治理系统,其特征在于,包括:
数据获取模块,用于获取原始数据中的病历数据和生理指标数据,并进行数据预处理,具体的,获取原始数据中包括诊断信息、用药信息、症状描述的病历数据和生理指标数据的数据集;对所述数据集中的数据以此进行去除异常值、处理重复数据、数据归一化或标准化的数据处理;将病历数据通过编码成独热编码或使用词嵌入转化为可以输入神经网络的格式;
特征提取模块,用于对完成预处理的数据进行特征提取;
模型构建模块,用于采用多通道的CNN架构创建神经网络模型,并对所述神经网络模型进行训练;
结果预测模块,用于采用训练好的神经网络模型对缺失的生理指标数据进行预测,具体的,将病历数据作为额外输入,采用训练好的神经网络模型对缺失的生理指标数据进行预测,包括采用多元线性回归公式:Y=β0+β1X1+β2X2+βpXp+∈,其中,Y是生理指标数据的预测值,X1、X2、…、Xp是解释变量,包括生理指标、用药信息、诊断信息、物理治疗,β0是截距项,β1、β2、…、βp是各解释变量的系数,表示它们对生理指标的影响,∈是误差项,表示模型无法解释的随机变化;将预测值填充回原始数据中,使用交叉验证进行模型评估,计算预测值与真实值之间的误差;根据模型评估的结果,进行超参数调整,优化模型性能。
7.一种存储介质,其特征在于,存储有计算机程序,所述计算机程序被执行时可实现权利要求1-5中任意一项所述的基于卷积神经网络对生理指标数据缺失的治理方法。
8.一种计算机设备,其特征在于,包括中央处理器和存储器,所述存储器内存储有计算机程序,当所述计算机程序被中央处理器执行时,可实现权利要求1-5中任意一项所述的基于卷积神经网络对生理指标数据缺失的治理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311734693.2A CN117421548B (zh) | 2023-12-18 | 2023-12-18 | 基于卷积神经网络对生理指标数据缺失的治理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311734693.2A CN117421548B (zh) | 2023-12-18 | 2023-12-18 | 基于卷积神经网络对生理指标数据缺失的治理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117421548A CN117421548A (zh) | 2024-01-19 |
CN117421548B true CN117421548B (zh) | 2024-03-12 |
Family
ID=89528664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311734693.2A Active CN117421548B (zh) | 2023-12-18 | 2023-12-18 | 基于卷积神经网络对生理指标数据缺失的治理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117421548B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101491435A (zh) * | 2008-01-24 | 2009-07-29 | 时利和国际有限公司 | 由多次血压量测预测血压趋势的方法 |
CN109165664A (zh) * | 2018-07-04 | 2019-01-08 | 华南理工大学 | 一种基于生成对抗网络的属性缺失数据集补全与预测方法 |
CN111544017A (zh) * | 2020-05-25 | 2020-08-18 | 五邑大学 | 基于gpdc图卷积神经网络的疲劳检测方法、装置及存储介质 |
CN111863236A (zh) * | 2019-04-24 | 2020-10-30 | 通用电气精准医疗有限责任公司 | 医疗机器合成数据和对应事件生成 |
CN112365939A (zh) * | 2020-10-14 | 2021-02-12 | 山东大学 | 一种基于医疗健康大数据的数据治理方法及系统 |
CN113509610A (zh) * | 2021-04-21 | 2021-10-19 | 北京易飞华通机器人技术有限公司 | 分布式多模态信息感知的多通道辅助智能闭环给药机器人 |
CN115985086A (zh) * | 2021-10-14 | 2023-04-18 | 深圳先进技术研究院 | 一种交通数据补全方法、系统、终端以及存储介质 |
CN116089801A (zh) * | 2023-01-10 | 2023-05-09 | 中国电子技术标准化研究院 | 一种基于多重置信度的医疗数据缺失值修复的方法 |
CN116403706A (zh) * | 2023-04-25 | 2023-07-07 | 南京邮电大学 | 一种融合知识扩展和卷积神经网络的糖尿病预测方法 |
CN116547764A (zh) * | 2020-12-03 | 2023-08-04 | 豪夫迈·罗氏有限公司 | 使用上下文信息插补数据 |
CN116564458A (zh) * | 2023-05-11 | 2023-08-08 | 北京大学人民医院 | 一种基于电子病历的数据处理方法、系统、设备及介质 |
CN116598014A (zh) * | 2023-05-30 | 2023-08-15 | 华东师范大学 | 基于图注意力机制和语言大模型的医疗缺失数据补全方法 |
CN116630777A (zh) * | 2023-05-30 | 2023-08-22 | 华东师范大学 | 一种信息瓶颈图压缩的医疗指标缺失数据补全方法 |
CN116795826A (zh) * | 2023-07-03 | 2023-09-22 | 浙江大学 | 基于数据关联性挖掘的多模态医疗缺失数据补全方法及装置 |
CN116831546A (zh) * | 2023-06-30 | 2023-10-03 | 平安科技(深圳)有限公司 | 预测胎心率曲线异常度的方法、装置、设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11568187B2 (en) * | 2019-08-16 | 2023-01-31 | Fair Isaac Corporation | Managing missing values in datasets for machine learning models |
CN111180068A (zh) * | 2019-12-19 | 2020-05-19 | 浙江大学 | 一种基于多任务学习模型的慢病预测系统 |
CN113239022B (zh) * | 2021-04-19 | 2023-04-07 | 浙江大学 | 医疗诊断缺失数据补全方法及补全装置、电子设备、介质 |
-
2023
- 2023-12-18 CN CN202311734693.2A patent/CN117421548B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101491435A (zh) * | 2008-01-24 | 2009-07-29 | 时利和国际有限公司 | 由多次血压量测预测血压趋势的方法 |
CN109165664A (zh) * | 2018-07-04 | 2019-01-08 | 华南理工大学 | 一种基于生成对抗网络的属性缺失数据集补全与预测方法 |
CN111863236A (zh) * | 2019-04-24 | 2020-10-30 | 通用电气精准医疗有限责任公司 | 医疗机器合成数据和对应事件生成 |
CN111544017A (zh) * | 2020-05-25 | 2020-08-18 | 五邑大学 | 基于gpdc图卷积神经网络的疲劳检测方法、装置及存储介质 |
CN112365939A (zh) * | 2020-10-14 | 2021-02-12 | 山东大学 | 一种基于医疗健康大数据的数据治理方法及系统 |
CN116547764A (zh) * | 2020-12-03 | 2023-08-04 | 豪夫迈·罗氏有限公司 | 使用上下文信息插补数据 |
CN113509610A (zh) * | 2021-04-21 | 2021-10-19 | 北京易飞华通机器人技术有限公司 | 分布式多模态信息感知的多通道辅助智能闭环给药机器人 |
CN115985086A (zh) * | 2021-10-14 | 2023-04-18 | 深圳先进技术研究院 | 一种交通数据补全方法、系统、终端以及存储介质 |
CN116089801A (zh) * | 2023-01-10 | 2023-05-09 | 中国电子技术标准化研究院 | 一种基于多重置信度的医疗数据缺失值修复的方法 |
CN116403706A (zh) * | 2023-04-25 | 2023-07-07 | 南京邮电大学 | 一种融合知识扩展和卷积神经网络的糖尿病预测方法 |
CN116564458A (zh) * | 2023-05-11 | 2023-08-08 | 北京大学人民医院 | 一种基于电子病历的数据处理方法、系统、设备及介质 |
CN116598014A (zh) * | 2023-05-30 | 2023-08-15 | 华东师范大学 | 基于图注意力机制和语言大模型的医疗缺失数据补全方法 |
CN116630777A (zh) * | 2023-05-30 | 2023-08-22 | 华东师范大学 | 一种信息瓶颈图压缩的医疗指标缺失数据补全方法 |
CN116831546A (zh) * | 2023-06-30 | 2023-10-03 | 平安科技(深圳)有限公司 | 预测胎心率曲线异常度的方法、装置、设备及存储介质 |
CN116795826A (zh) * | 2023-07-03 | 2023-09-22 | 浙江大学 | 基于数据关联性挖掘的多模态医疗缺失数据补全方法及装置 |
Non-Patent Citations (1)
Title |
---|
一种实值深度置信网络在人体血压预测中的应用;宋波等;《计算机应用于软件》;20220112;第39卷(第1期);第53-59页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117421548A (zh) | 2024-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109036553B (zh) | 一种基于自动抽取医疗专家知识的疾病预测方法 | |
CN113627518B (zh) | 利用迁移学习实现神经网络脑电情感识别模型的方法 | |
KR101880678B1 (ko) | 기계학습을 통한 의료영상 판독 및 진단 통합 시스템 | |
US20180260706A1 (en) | Systems and methods of identity analysis of electrocardiograms | |
US20200250554A1 (en) | Method and storage medium for predicting the dosage based on human physiological parameters | |
CN111696660B (zh) | 基于人工智能的患者分群方法、装置、设备及存储介质 | |
CN111292853A (zh) | 基于多参数的心血管疾病风险预测网络模型及其构建方法 | |
KR20170061222A (ko) | 건강데이터 패턴의 일반화를 통한 건강수치 예측 방법 및 그 장치 | |
CN116386869B (zh) | 一种基于多变量的病情危重程度评估方法 | |
CN117542474A (zh) | 基于大数据的远程护理监测系统及方法 | |
CN111612278A (zh) | 生命状态预测方法、装置、电子设备及存储介质 | |
CN111914562B (zh) | 电子信息分析方法、装置、设备及可读存储介质 | |
CN116580849A (zh) | 医疗数据的采集分析系统及其方法 | |
CN117034142B (zh) | 一种不平衡医疗数据缺失值填充方法及系统 | |
CN115985513B (zh) | 一种基于多组学癌症分型的数据处理方法、装置及设备 | |
Pimentel et al. | Human mental state monitoring in the wild: Are we better off with deeperneural networks or improved input features? | |
CN114550907A (zh) | 癫痫检测系统 | |
US20220391760A1 (en) | Combining model outputs into a combined model output | |
CN117421548B (zh) | 基于卷积神经网络对生理指标数据缺失的治理方法及系统 | |
CN116469534A (zh) | 医院叫号管理系统及其方法 | |
CN110633368A (zh) | 早期结直肠癌非结构化数据的深度学习分类方法 | |
CN115547502A (zh) | 基于时序数据的血透病人风险预测装置 | |
CN113658688A (zh) | 基于无分词深度学习的临床决策支持方法 | |
CN112364924A (zh) | 一种基于深度学习的口腔医疗图像识别方法 | |
Jin et al. | Fast sparse connectivity network adaption via meta-learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |