CN103488889A - 一种基于多元逻辑回归检测icu患者记录中伪像的方法及系统 - Google Patents

一种基于多元逻辑回归检测icu患者记录中伪像的方法及系统 Download PDF

Info

Publication number
CN103488889A
CN103488889A CN201310428462.9A CN201310428462A CN103488889A CN 103488889 A CN103488889 A CN 103488889A CN 201310428462 A CN201310428462 A CN 201310428462A CN 103488889 A CN103488889 A CN 103488889A
Authority
CN
China
Prior art keywords
data
physiological index
test sample
sample book
icu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310428462.9A
Other languages
English (en)
Other versions
CN103488889B (zh
Inventor
刘华锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI XINGXIANG COMPUTER TECHNOLOGY Co Ltd
Original Assignee
SHANGHAI XINGXIANG COMPUTER TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI XINGXIANG COMPUTER TECHNOLOGY Co Ltd filed Critical SHANGHAI XINGXIANG COMPUTER TECHNOLOGY Co Ltd
Priority to CN201310428462.9A priority Critical patent/CN103488889B/zh
Publication of CN103488889A publication Critical patent/CN103488889A/zh
Application granted granted Critical
Publication of CN103488889B publication Critical patent/CN103488889B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于多元逻辑回归检测ICU患者记录中伪像的方法,其通过多元逻辑回归表达式计算病人的ICU概率,并与设定的阀值比较,从而建立一个二元分类器,实现对ICU病人是否会死亡的判断。基于本发明检测ICU患者记录中伪像的方法不需要预设预测变量服从正态分布的前提条件;并且预测变量既可以是连续的,又可以是离散的。同时,该本发明模型尽可能减少了预测变量数,在保证预测准确率的基础上降低了模型的复杂度。本发明还公开了实现上述方法的系统,能够有效解决现有风险预测模型的非特异性问题;相对现有模型,本发明提高了预测的准确率和特异性。

Description

一种基于多元逻辑回归检测ICU患者记录中伪像的方法及系统
技术领域
本发明属于医疗检测技术领域,具体涉及一种基于多元逻辑回归检测ICU患者记录中伪像的方法及系统。
背景技术
保健技术(例如生物医学传感器、监视系统和医疗器械)在现在的重病监护室(ICU)中,在性能和完全普及(许多器械)方面快速发展。附加数据流的创建正在对保健工作人员施加显著的“信息超载”挑战,ICU有限的医疗资源和高昂的费用决定了并不是所有病人都可以得到特殊护理。对病人病情的准确评价和可靠的风险预测,是决定病人是否需要重症监护、控制护理质量的重要依据。在一些极端情况下,如重症监护注定无效,医生需要作出决定中断用设备维持病人生命。一个有效的病情评价系统,能够在患者健康作为首要考量的前提下,最大程度节约医疗成本,并使更多真正有需要的患者受益。此外,这样的量化系统在在临床实验中,有助于判断实验组和对照组的相似程度;在多中心研究中,横向比较不同ICU的医疗质量。
在计算机数据库建立之前,由于受限于搜集大量病例数据的能力,研究者只能针对个别疾病的患者群体进行风险评价。而一般性的病情评分系统,是在上世纪80年代才逐渐开始出现的。这其中包括急性生理学和慢性健康状况评分(APACHE)、简化的急性生理学评分(SAPS)、死亡概率模型(MPM)、序贯脏器衰竭评分(SOFA)等。病例数据库的更新和新的统计学方法的应用,使得平均每隔不到5年的时间,就有新的评分系统被提出。目前为止,在欧洲和北美的医疗系统内曾经或者正在被使用的评分系统大致有14种之多。它们都是在长时间的多中心研究的基础上建立起来的。
值得注意的是,绝大多数现有模型建立的初衷都是对病人进行风险分层,而不是对某个特定病人的死亡风险进行预测。所以尽管它们在标准化死亡率、分辨能力和拟合度等指标上都有令人满意的表现,本质上还是不能在个体病例上有效得协助医生诊疗和进行医疗资源分配。事实上,这些模型的数据库往往来源于很大范围内的病人群体,被调查者在诊断上有很大的异质性。这样模型预测的概率可以认为是对一个“平均”病人的预测。从理论上讲,要使得模型能够给出特异性的预测,除了要对病人群体进行准确细分,还要综合考虑更多的风险因素,比如营养不良、求生意愿等。然而这些因素的加入势必会显著增加模型的复杂度,对系统的建立者和使用者都提出极大的挑战。
发明内容
针对现有技术所存在的上述技术问题,本发明提供了一种基于多元逻辑回归检测ICU患者记录中伪像的方法及系统,实现了对特定个体病人的重症分析,解决了传统方法的非特异性问题。
一种基于多元逻辑回归检测ICU患者记录中伪像的方法,包括如下步骤:
(1)对病人进行生理检测得到测试样本,并对所述的测试样本进行降维处理得到关于病人生理指标特征的观测向量x;
所述的测试样本为由n个生理指标数据组成的n维向量,n为大于1的自然数;每个生理指标数据采用多次测量后的平均值。
(2)建立基于多元逻辑回归的ICU概率模型如下:
P = exp ( β 0 + β 1 x ) 1 + exp ( β 0 + β 1 x )
其中:P为病人的ICU概率,β0和β1为给定的系数向量;
(3)将观测向量x代入所述的ICU概率模型中,以求解出病人的ICU概率。
所述的步骤(1)中对测试样本进行降维处理的过程为:对测试样本依次进行学生t检验、ROC(受试者工作特征曲线)检验、邻域分析、排列检定、单变量逻辑回归分析以及主成分分析,得到关于病人生理指标特征的观测向量x。
所述的学生t检验的具体过程如下:
首先,收集对应标识为0和1的两组训练样本集X0和X1;其中,标识0表示病人无需进行重症监护,标识1表示需要进行重症监护;
所述的训练样本集为由对应标识下的m个历史样本组成的n×m维矩阵,所述的历史样本为由n个生理指标数据组成的n维向量,m为大于1的自然数;
然后,对于测试样本中的任一生理指标数据,通过t检验判断该生理指标数据在两类标识0和1对应的训练样本集X0和X1中是否存在明显差异,若检验计算得到的p值大于0.05,则删除该生理指标数据;依此遍历测试样本中每个生理指标数据。
所述的ROC检验的具体过程如下:
首先,对于学生t检验后测试样本中保留下来的每一生理指标数据,确定对应的ROC阈值;
然后,根据所述的ROC阈值,在平面直角坐标系中为每一生理指标数据绘制对应的ROC曲线;
最后,对于其中任一生理指标数据,在平面直角坐标系中计算出其对应ROC曲线与斜率为1的直线所围成的面积,若该面积小于给定的面积阈值,则删除该生理指标数据;依此遍历每个生理指标数据。
所述的邻域分析的具体过程如下:
首先,收集对应标识为0和1的两组训练样本集X0和X1;其中,标识0表示病人无需进行重症监护,标识1表示需要进行重症监护;
所述的训练样本集为由对应标识下的m个历史样本组成的n×m维矩阵,所述的历史样本为由n个生理指标数据组成的n维向量,m为大于1的自然数;
然后,对于ROC检验后测试样本中保留下来的任一生理指标数据,根据训练样本集X0和X1中对应生理指标g的均值和标准差,通过以下算式计算该生理指标g的相关度:
p(g)=[μ0(g)-μ1(g)]/[σ0(g)+σ1(g)]
其中:p(g)为生理指标g的相关度,μ0(g)和σ0(g)分别表示生理指标g在训练样本集X0中的均值和标准差,μ1(g)和σ1(g)分别表示生理指标g在训练样本集X1中的均值和标准差;
若-r≤p(g)≤r,则删除该生理指标数据,r为阈值半径;依此遍历每个生理指标数据。
所述的排列检定的具体过程如下:
首先,取m个历史样本组成的n×m维矩阵,所述的历史样本为由n个生理指标数据组成的n维向量。对这m个历史样本,分别用标签1和0来标记重症病例和非重症病例,得到一个标签序列,对应这个顺序的每位病人的某个生理指标的数据构成了序列X=[e1,…,em];
对原来的标签序列随机重新排列,得到一组新的邻域;
重复上述操作多次,得到邻域内生理指标的数量随邻域半径r的变化曲线,同时得到对应随机排列标签的1%显著性水平曲线;
最后,取变化曲线与1%显著性水平曲线的交点为阈值半径,从而确定测试样本中的特征数目。
所述的单变量逻辑回归分析的具体过程如下:
首先,利用软件进行Hosmer-Lemeshow(H-L)检验,把测试样本中的生理指标数据根据预测概率分成10组;根据观测频数和预测频数构造卡方统计量;
然后,根据自由度为8的卡方分布计算各生理指标的p值,并对逻辑回归模型进行检验;
最后,删除p值大于0.05的生理指标数据。
所述的主成分分析的具体过程如下:
首先,通过对协方差矩阵或相关矩阵做本征分解,得出测试样本中各生理指标的主成分(即本征矢量)和权值(即本征值);
然后,确定CN的大小,CN由下式计算得到:
CN = λ max λ min
其中,λmax和λmin分别为主成分本值的最大值和最小值;
最后,判断各生理指标数据间是否存在多重共线性:当CN大于15时,需要特别考虑测试样本中各生理指标间多重共线性的影响;当CN大于30时,多重共线性非常严重;
另外,使用主成分分析的另一个主要目的是得到测试样本的有效维度:
首先,绘制了每个生理指标数据在所有生理指标数据总和中的比例,以及随着主成分数量的增加该比例的积累值;
当前k个特征值的积累比例已经超过了95%时,我们取k作为测试样本中特征量的上限,k为大于1的自然数。
一种基于多元逻辑回归检测ICU患者记录中伪像的系统,包括:
数据接收存储单元,用于存储对应标识为0和1的两组训练样本集X0和X1,同时接收病人经生理检测得到的测试样本;其中,标识0表示病人无需进行重症监护,标识1表示需要进行重症监护;
稀疏降维单元,用于对所述的测试样本进行降维处理得到关于病人生理指标特征的观测向量x;
概率计算单元,用于根据所述的观测向量x通过以下基于多元逻辑回归的ICU概率模型,计算出病人的ICU概率;
P = exp ( β 0 + β 1 x ) 1 + exp ( β 0 + β 1 x )
其中:P为病人的ICU概率,β0和β1为给定的系数向量。
所述的稀疏降维单元,包括:
t检验模块,用于对所述的测试样本进行学生t检验;
ROC检验模块,用于对t检验后的测试样本进行ROC检验;
邻域分析模块,用于对ROC检验后的测试样本进行邻域分析;
排列检定模块,用于对邻域分析后的测试样本进行排列检定;
单变量逻辑回归分析模块,用于对排列检定后的测试样本进行单变量逻辑回归分析;
主成分分析模块,用于对单变量逻辑回归分析后的测试样本进行主成分分析,得到关于病人生理指标特征的观测向量x。
本发明通过选择合适的生理指标特征量作为预测变量,记生理指标观测向量为x。首先利用软件实现t检验,从而判断某一候选特征量的均值在死亡病人与存活病人两类中是否有明显不同。若存在较大差异,则可以考虑将该变量作为预测变量;进一步,绘制ROC曲线用于评价两个概率密度函数重叠的程度,即某个特征量的分辨能力,特征量的分辨能力越强,越适合成为我们的预测变量;进一步,邻域分析与排列检定相结合,定量评价特征量与类别的相关度,以及判定该相关度是否大于随机情况下的相关度,确定合理的特征量数目;进一步,进行单变量逻辑回归分析,利用卡方检验来衡量引入某一预测变量使得模型预测能力变好的程度。检验现有模型相比于空模型(没有任何预测变量)性能上提高的程度;进一步,进行主成分分析,判断预测变量间是否存在多重共线性,并将数据压缩至有效维度,得到预测模型中特征量的上限。
本发明基于多元逻辑回归检测ICU患者记录中伪像的方法不需要预设预测变量服从正态分布的前提条件;并且预测变量既可以是连续的,又可以是离散的。同时,本发明系统模型尽可能减少了预测变量数,在保证预测准确率的基础上降低了模型的复杂度。与现有模型的比较表明,本发明提高了预测的准确率和特异性。
附图说明
图1为本发明方法的步骤流程示意图。
图2为对测试样本降维的流程示意图。
图3为本发明系统的结构示意图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
如图1所示,一种基于多元逻辑回归检测ICU患者记录中伪像的方法,包括如下步骤:
(1)对病人进行生理检测得到测试样本,并对测试样本进行降维处理得到关于病人生理指标特征的观测向量x;
测试样本为由n个生理指标数据组成的n维向量,每个生理指标数据采用多次测量后的平均值。
为了筛选合适的生理指标特征量作为预测变量,如图2所示,本实施方式需要对测试样本依次进行学生t检验、ROC检验、邻域分析、排列检定、单变量逻辑回归分析以及主成分分析;
进行学生t检验,作为特征量选择中的第一步;
例如可以对检验问题作出如下定义,I类和II类分别代表无需进行重症监护的病人以及需要进行重症监护的病人。
H0:I类和II类病人的平均年龄相同。
H1:I类和II类病人的平均年龄不同。
计算得到p值,如果p<α,拒绝空假设H0,反之则接受空假设。其中α是显著性水平,一般可选为0.05。
利用SAS软件实现t检验,从而判断某一候选特征量的均值在死亡病人与存活病人两类中是否有明显不同。若存在较大差异,则可以考虑将该变量作为预测变量。
假设检验为变量的剔除提供了依据,但是它仅仅提供了有关变量均值差异的信息。然而事实上,即使某个特征量的均值在两组中有显著差异,它们也可能有很大范围的重叠。
ROC曲线用于评价两个概率密度函数重叠的程度。设定好阀值后,如果特征量小于阀值,归为I类;大于阀值,归为II类。记关于I类和II类的错误概率分别是α和β,那么当阀值从小到大变化时,就可以得到一条1-β关于α的曲线,即ROC曲线。
当两个概率密度函数完全重叠,有α=1-β,对应斜率为1的直线。ROC曲线和该直线围成的面积(AUROC)就可以用来评价两概率密度函数的重叠程度,或者说某个特征量的分辨能力。该面积越大,对应特征量的分辨能力越强,更适合成为我们的预测变量。
邻域分析:设[μ1(g),σ1(g)]和[μ2(g),σ2(g)]分别表示I类和II类中某生理指标的均值和标准差。定义p(g,c)=[μ1(g)-μ2(g)]/[σ1(g)+σ2(g)],它反映了组间差别相对于组内标准差的大小。|p(g,c)|越大,表明该生理指标与类别的相关度越大;|p(g,c)|为正,表明g与I类相关程度更高,|p(g,c)|为负,表明g与II类相关程度更高。
定义半径为r的领域N1(c,r)和N2(c,r),分别表示满足p(g,c)>r和p(g,c)<-r的生理指标的集合。如果邻域中的生理指标非常多,那么很有可能许多生理指标都和类别有很好地相关度。我们选取r=0.018,认为落于该邻域外的生理指标不适合作为模型的预测变量。
邻域分析与排列检定相结合,可以定量评价特征量与类别的相关度,以及判定该相关度是否大于随机情况下的相关度,确定合理的特征量数目。排列检定包括以下步骤:
a、分别用标签1和0来标记死亡病例和非死亡病例,得到一个标签序列,对应这个顺序的每位病人的某个生理指标e的大小构成了序列X=[e1,…,en];
b、对原来的标签序列随机重新排列,得到一组新的邻域;
c、重复上述操作足够多次,得到邻域内生理指标的数量随邻域半径r的变化曲线,从而确定合理的特征量数目。
完成排列检定后,利用软件进行Hosmer-Lemeshow(H-L)检验,具体实现以下步骤:
a、把样本数据根据预测概率分成10组;
b、根据观测频数和预测频数构造卡方统计量;
c、根据自由度为8的卡方分布计算其p值并对逻辑回归模型进行检验;
d、筛选p值不大于0.05的变量作为模型的预测变量。
我们利用软件得出分析结果,由卡方检验衡量引入某一预测变量使得模型预测能力变好的程度。
计算H-L检验的R22/-2LL来反映现有模型相比于空模型(没有任何预测变量)性能上提高的程度。其中,-2LL是对模型做log-likelihood检验的结果,反映了在模型中包括所有自变量后的误差,用于处理自变量无法解释的变动部分的显著性问题,称为拟合劣度卡方统计量。-2LL值越大,逻辑回归的显著性越差。
同时给出的还有H-L检验的结果。我们的模型中,p=0.012小于显著性水平α(取0.05),说明我们有充分的理由相信模型的估计拟合了数据。我们由Wald统计量判断某个预测变量是否应该包含在模型当中。所有p值大于0.05的变量都被删除。
最后,需要进行主成分分析:
根据CN的大小,判断预测变量间是否存在多重共线性,CN的值由下式计算得到:
CN = &lambda; max &lambda; min
其中,λmax和λmin分别为主成分特征值的最大值和最小值。
当CN大于15时,需要特别考虑预测变量间多重共线性的影响。
另外,我们使用PCA的另一个主要目的是得到数据的有效维度。通过对协方差矩阵或相关矩阵做本征分解,得出数据的主成分(即本征矢量)和它们的权值(即本征值),将数据压缩至有效维度,得到预测模型中特征量的上限。
(2)建立基于多元逻辑回归的ICU概率模型如下:
P = exp ( &beta; 0 + &beta; 1 x ) 1 + exp ( &beta; 0 + &beta; 1 x )
其中:P为病人的ICU概率;β0和β1为系数向量,其根据对应标识为0和1的两组训练样本集X0和X1通过软件拟合得到,其反映了不同生理特征指标的权重,即预测能力的大小。本实施方式中各生理指标数据及对应的系数如表1所示;令g(x)=β01x(其中对应于多元逻辑回归方程中β1=0.026,β0=-3.586。)则有:g(x)=-8.2+0.031Age+0.013HR-0.35Albumin+0.042ALP-0.015AST
+0.389Ratio-0.009PaO2+0.395FiO2+0.014BUN-0.018PaCO2
+0.275Lactate+0.13Bilrubin+0.033RespRate-0.008Weight
表1
Figure BDA0000384068360000093
Figure BDA0000384068360000101
(3)将观测向量x代入ICU概率模型中,以求解出病人的ICU概率。
图3为实现上述方法的系统,包括:
数据接收存储单元,用于存储对应标识为0和1的两组训练样本集X0和X1,同时接收病人经生理检测得到的测试样本;其中,标识0表示病人无需进行重症监护,标识1表示需要进行重症监护;
稀疏降维单元,用于对所述的测试样本进行降维处理得到关于病人生理指标特征的观测向量x;
概率计算单元,用于根据所述的观测向量x通过以下基于多元逻辑回归的ICU概率模型,计算出病人的ICU概率;
P = exp ( &beta; 0 + &beta; 1 x ) 1 + exp ( &beta; 0 + &beta; 1 x )
本实施方式中,稀疏降维单元包括:
t检验模块,用于对测试样本进行学生t检验;
ROC检验模块,用于对t检验后的测试样本进行ROC检验;
邻域分析模块,用于对ROC检验后的测试样本进行邻域分析;
排列检定模块,用于对邻域分析后的测试样本进行排列检定;
单变量逻辑回归分析模块,用于对排列检定后的测试样本进行单变量逻辑回归分析;
主成分分析模块,用于对单变量逻辑回归分析后的测试样本进行主成分分析,得到关于病人生理指标特征的观测向量x。
以下我们通过实验来验证本发明相对现有技术的优势。在对病人是否会死亡这一事件的预测上,正确率不是一个完善的评价指标。因此,我们采用了如表2的打分规则:
表2
其中:Se=TP/(TP+FN),PPV=TP/(TP+FP),得分=min(Se,PPV)。
我们从得分和ROC曲线下的AUROC两个方面来衡量模型的性能,其中AUROC体现了模型的分辨能力。基于本实施方式的模型预测结果如表3所示:
表3
Figure BDA0000384068360000112
从上表中可以看到,在将判定阀值设为0.29时,预测的总体正确率达到了88.98%。有59.75%(即Se)的死亡病人被正确分类,有93.67%的存活病人被正确分类。预测不会存活的病人中有60.29%(即PPV)的确发生了死亡。模型得分是Se和PPV的较小值,为0.597。
本发明模型的AUROC=0.8545。AUROC大于0.8时,通常就认为模型具有良好的分辨能力。此外,实际死亡率与预测死亡率的比值为0.9986,非常接近1,显示出模型良好的拟合度。因此,基于本发明的预测模型性能较为理想。
表4为部分现有模型的得分和AUROC的显示,表5显示了现有病情评价系统的比较,尤其针对它们的预测正确率、基于的模型、变量数等方面做了对比。
表4
Figure BDA0000384068360000113
Figure BDA0000384068360000121
表5
Figure BDA0000384068360000122
Figure BDA0000384068360000131
其中:
a:进入ICU时和在进入后的24小时
b:进入ICU时,进入后24小时和进入后48小时
c:进入ICU时或者进入后的一小时内
d:进入ICU时和每48小时一次,直到出院
e:每小时至少一次
PA:Probit analysis,概率单位分析
ULR:Univariate logistic regression,单变量逻辑回归
ANNs:Artificial neural networks,人工神经网络
MLR:Multivariate logistic regression,多元逻辑回归
通过各方面对比,可以看到基于本发明模型相对现有模型具有相当优势的。

Claims (8)

1.一种基于多元逻辑回归检测ICU患者记录中伪像的方法,包括如下步骤:
(1)对病人进行生理检测得到测试样本,并对所述的测试样本进行降维处理得到关于病人生理指标特征的观测向量x;
所述的测试样本为由n个生理指标数据组成的n维向量,n为大于1的自然数;每个生理指标数据采用多次测量后的平均值;
(2)建立基于多元逻辑回归的ICU概率模型如下:
P = exp ( &beta; 0 + &beta; 1 x ) 1 + exp ( &beta; 0 + &beta; 1 x )
其中:P为病人的ICU概率,β0和β1为给定的系数向量;
(3)将观测向量x代入所述的ICU概率模型中,以求解出病人的ICU概率。
2.根据权利要求1所述的检测ICU患者记录中伪像的方法,其特征在于:所述的步骤(1)中对测试样本进行降维处理的过程为:对测试样本依次进行学生t检验、ROC检验、邻域分析、排列检定、单变量逻辑回归分析以及主成分分析,得到关于病人生理指标特征的观测向量x。
3.根据权利要求2所述的检测ICU患者记录中伪像的方法,其特征在于:所述的学生t检验的具体过程如下:
首先,收集对应标识为0和1的两组训练样本集X0和X1
然后,对于测试样本中的任一生理指标数据,通过t检验判断该生理指标数据在两类标识0和1对应的训练样本集X0和X1中是否存在明显差异,若检验计算得到的p值大于0.05,则删除该生理指标数据;依此遍历测试样本中每个生理指标数据。
4.根据权利要求2所述的检测ICU患者记录中伪像的方法,其特征在于:所述的ROC检验的具体过程如下:
首先,对于学生t检验后测试样本中保留下来的每一生理指标数据,确定对应的ROC阈值;
然后,根据所述的ROC阈值,在平面直角坐标系中为每一生理指标数据绘制对应的ROC曲线;
最后,对于其中任一生理指标数据,在平面直角坐标系中计算出其对应ROC曲线与斜率为1的直线所围成的面积,若该面积小于给定的面积阈值,则删除该生理指标数据;依此遍历每个生理指标数据。
5.根据权利要求2所述的检测ICU患者记录中伪像的方法,其特征在于:所述的邻域分析的具体过程如下:
首先,收集对应标识为0和1的两组训练样本集X0和X1
然后,对于ROC检验后测试样本中保留下来的任一生理指标数据,根据训练样本集X0和X1中对应生理指标g的均值和标准差,通过以下算式计算该生理指标g的相关度:
p(g)=[μ0(g)-μ1(g)]/[σ0(g)+σ1(g)]
其中:p(g)为生理指标g的相关度,μ0(g)和σ0(g)分别表示生理指标g在训练样本集X0中的均值和标准差,μ1(g)和σ1(g)分别表示生理指标g在训练样本集X1中的均值和标准差;
若-r≤p(g)≤r,则删除该生理指标数据,r为阈值半径;依此遍历每个生理指标数据。
6.根据权利要求2所述的检测ICU患者记录中伪像的方法,其特征在于:所述的排列检定的具体过程如下:
首先,取m个历史样本组成的n×m维矩阵,所述的历史样本为由n个生理指标数据组成的n维向量;对这m个历史样本,分别用标签1和0来标记重症病例和非重症病例,得到一个标签序列,m为大于1的自然数;
对原来的标签序列随机重新排列,得到一组新的邻域;
重复上述操作多次,得到邻域内生理指标的数量随邻域半径r的变化曲线,同时得到对应随机排列标签的1%显著性水平曲线;
最后,取变化曲线与1%显著性水平曲线的交点为阈值半径,从而确定测试样本中的特征数目。
7.根据权利要求2所述的检测ICU患者记录中伪像的方法,其特征在于:所述的单变量逻辑回归分析的具体过程如下:
首先,利用软件进行H-L检验,把测试样本中的生理指标数据根据预测概率分成10组;根据观测频数和预测频数构造卡方统计量;
然后,根据自由度为8的卡方分布计算各生理指标的p值,并对逻辑回归模型进行检验;
最后,删除p值大于0.05的生理指标数据。
8.根据权利要求2所述的检测ICU患者记录中伪像的方法,其特征在于:所述的主成分分析的具体过程如下:
首先,通过对协方差矩阵或相关矩阵做本征分解,得出测试样本中各生理指标数据的主成分和权值;
然后,确定CN的大小,CN由下式计算得到:
CN = &lambda; max &lambda; min
其中,λmax和λmin分别为主成分本值的最大值和最小值;
最后,判断各生理指标数据间是否存在多重共线性:当CN大于15时,需要特别考虑测试样本中各生理指标间多重共线性的影响;当CN大于30时,多重共线性非常严重;
另外,使用主成分分析的另一个主要目的是得到测试样本的有效维度:
首先,绘制每个生理指标数据在所有生理指标数据总和中的比例,以及随着主成分数量的增加该比例的积累值;
然后,当测试样本中前k个特征值的积累比例超过了95%时,我们取k作为测试样本的维度上限,k为大于1的自然数。
CN201310428462.9A 2013-09-18 2013-09-18 一种基于多元逻辑回归检测icu患者记录中伪像的方法及系统 Active CN103488889B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310428462.9A CN103488889B (zh) 2013-09-18 2013-09-18 一种基于多元逻辑回归检测icu患者记录中伪像的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310428462.9A CN103488889B (zh) 2013-09-18 2013-09-18 一种基于多元逻辑回归检测icu患者记录中伪像的方法及系统

Publications (2)

Publication Number Publication Date
CN103488889A true CN103488889A (zh) 2014-01-01
CN103488889B CN103488889B (zh) 2016-05-18

Family

ID=49829105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310428462.9A Active CN103488889B (zh) 2013-09-18 2013-09-18 一种基于多元逻辑回归检测icu患者记录中伪像的方法及系统

Country Status (1)

Country Link
CN (1) CN103488889B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292320A (zh) * 2016-03-30 2017-10-24 阿里巴巴集团控股有限公司 系统及其指标优化方法及装置
CN107895596A (zh) * 2016-12-19 2018-04-10 平安科技(深圳)有限公司 风险预测方法及系统
CN109872011A (zh) * 2019-03-18 2019-06-11 重庆邮电大学 基于多元逻辑回归模型的家畜类生理状态预测方法与系统
CN112071432A (zh) * 2020-11-11 2020-12-11 上海森亿医疗科技有限公司 医疗数据的分析方法、系统、介质及装置
CN112750530A (zh) * 2021-01-05 2021-05-04 上海梅斯医药科技有限公司 一种模型的训练方法、终端设备和存储介质
CN118501720A (zh) * 2024-07-17 2024-08-16 山东高质新能源检测有限公司 一种基于大数据分析的锂电池异常检测系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1914623A (zh) * 2004-02-04 2007-02-14 皇家飞利浦电子股份有限公司 用于利用数据融合和假设检验来检测icu患者记录中的伪像的方法和系统
CN1973778A (zh) * 2006-12-08 2007-06-06 南京大学 胃癌术后严重并发症风险度的预测方法
CN102762978A (zh) * 2009-11-17 2012-10-31 薇拉莱特公司 用于检测冠状动脉钙化或疾病的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1914623A (zh) * 2004-02-04 2007-02-14 皇家飞利浦电子股份有限公司 用于利用数据融合和假设检验来检测icu患者记录中的伪像的方法和系统
CN1973778A (zh) * 2006-12-08 2007-06-06 南京大学 胃癌术后严重并发症风险度的预测方法
CN102762978A (zh) * 2009-11-17 2012-10-31 薇拉莱特公司 用于检测冠状动脉钙化或疾病的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
蒋胜利: "高维数据的特征选择与特征提取研究", 《中国博士学位论文全文数据库 信息科技辑 》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292320A (zh) * 2016-03-30 2017-10-24 阿里巴巴集团控股有限公司 系统及其指标优化方法及装置
CN107292320B (zh) * 2016-03-30 2020-10-13 阿里巴巴集团控股有限公司 系统及其指标优化方法及装置
CN107895596A (zh) * 2016-12-19 2018-04-10 平安科技(深圳)有限公司 风险预测方法及系统
CN109872011A (zh) * 2019-03-18 2019-06-11 重庆邮电大学 基于多元逻辑回归模型的家畜类生理状态预测方法与系统
CN112071432A (zh) * 2020-11-11 2020-12-11 上海森亿医疗科技有限公司 医疗数据的分析方法、系统、介质及装置
CN112750530A (zh) * 2021-01-05 2021-05-04 上海梅斯医药科技有限公司 一种模型的训练方法、终端设备和存储介质
CN118501720A (zh) * 2024-07-17 2024-08-16 山东高质新能源检测有限公司 一种基于大数据分析的锂电池异常检测系统
CN118501720B (zh) * 2024-07-17 2024-09-20 山东高质新能源检测有限公司 一种基于大数据分析的锂电池异常检测系统

Also Published As

Publication number Publication date
CN103488889B (zh) 2016-05-18

Similar Documents

Publication Publication Date Title
CN111540468B (zh) 一种诊断原因可视化的icd自动编码方法与系统
Clermont et al. Predicting hospital mortality for patients in the intensive care unit: a comparison of artificial neural networks with logistic regression models
Singh Predictive validity performance indicators in violence risk assessment: A methodological primer
CN103488889B (zh) 一种基于多元逻辑回归检测icu患者记录中伪像的方法及系统
Forsström et al. Artificial neural networks for decision support in clinical medicine
Wasan et al. The impact of data mining techniques on medical diagnostics
Bozkurt et al. Using automatically extracted information from mammography reports for decision-support
CN109994216A (zh) 一种基于机器学习的icd智能诊断编码方法
Tiwari et al. A knowledge infused context driven dialogue agent for disease diagnosis using hierarchical reinforcement learning
CN112541066B (zh) 基于文本结构化的医技报告检测方法及相关设备
McNamara et al. Not just “big” data: Importance of sample size, measurement error, and uninformative predictors for developing prognostic models for digital interventions
CN114628008B (zh) 一种基于异质图注意力网络的社交用户抑郁倾向检测方法
Hussain et al. Deep learning-based diagnosis of disc degenerative diseases using MRI: a comprehensive review
CN109360658A (zh) 一种基于词向量模型的疾病模式挖掘方法及装置
Maicas et al. Deep learning to diagnose pouch of Douglas obliteration with ultrasound sliding sign
CN117954090A (zh) 一种基于多模态缺失数据患者的死亡率预测方法及系统
CN110164519B (zh) 一种基于众智网络的用于处理电子病历混合数据的分类方法
Leonhard Review of statistical and methodological issues in the forensic prediction of malingering from validity tests: Part I: Statistical issues
Wang et al. Kernel similarity-based multigranulation three-way decision approach to hypertension risk assessment with multi-source and multi-level structure data
Agrawal et al. BRR‐Net: A tandem architectural CNN–RNN for automatic body region localization in CT images
Zhang et al. Application of intelligent algorithms in Down syndrome screening during second trimester pregnancy
Frandsen Machine learning for disease prediction
Jiang et al. Diabetes prediction model for unbalanced community follow-up data set based on optimal feature selection and scorecard
CN113450919A (zh) 心衰预警模型的构建方法、构建系统和心衰预警装置
Wei et al. Medical College Education Data Analysis Method Based on Improved Deep Learning Algorithm

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant