CN113593703B - 一种构建压力性损伤风险预测模型的装置及方法 - Google Patents

一种构建压力性损伤风险预测模型的装置及方法 Download PDF

Info

Publication number
CN113593703B
CN113593703B CN202110867305.2A CN202110867305A CN113593703B CN 113593703 B CN113593703 B CN 113593703B CN 202110867305 A CN202110867305 A CN 202110867305A CN 113593703 B CN113593703 B CN 113593703B
Authority
CN
China
Prior art keywords
risk
medical record
record data
variables
variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110867305.2A
Other languages
English (en)
Other versions
CN113593703A (zh
Inventor
韩琳
张红燕
苏茜
蒋梦瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GANSU PROVINCIAL HOSPITAL
Original Assignee
GANSU PROVINCIAL HOSPITAL
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GANSU PROVINCIAL HOSPITAL filed Critical GANSU PROVINCIAL HOSPITAL
Priority to CN202110867305.2A priority Critical patent/CN113593703B/zh
Publication of CN113593703A publication Critical patent/CN113593703A/zh
Application granted granted Critical
Publication of CN113593703B publication Critical patent/CN113593703B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Epidemiology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Primary Health Care (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及一种构建压力性损伤风险预测模型的装置和方法,装置包括处理模块,处理模块配置为:对病历数据进行筛选获取第一病历数据;基于随机森林模型对第一病历数据进行分类以获取造成压力性损伤的多个第一风险变量;基于多元逻辑回归模型对第一病历数据中的多个第一风险变量进行回归以获取多个第一风险变量之间的关于递进关系的第一权值;基于第一权值对第一病历数据进行划分形成多个第二病历数据,并采用随机森林模型对多个第二病历数据进行建模以生成多个第一风险预测模型。

Description

一种构建压力性损伤风险预测模型的装置及方法
技术领域
本发明涉及医疗数据处理技术领域,具体涉及一种构建压力性损伤风险预测模型的装置及方法。
背景技术
压力性损伤是指皮肤或皮下软组织局部损伤,通常位于骨突处或与医源性设备有关。此损伤病灶可能是完整的皮肤或开放性伤口,也可能伴随有疼痛感。损伤的发生来自于强烈和/或长期的压力或压力合并剪切力。软组织对于压力及剪切力的耐受力也可能受到微气候(Microclimate)、营养、组织灌流、合并症及软组织的状况影响。压力性损伤严重影响患者的生活质量,而且延长住院时间、加重病情、增加家庭和社会经济负担,消耗大量医疗资源,甚至导致患者死亡。因此,预防压力性损伤是最经济有效的手段已成为全球共识。
风险预测是压力性损伤预防的首要措施,风险预测结果的准确与否将直接影响预防措施的选择和预防效果。
例如,公开号为CN111195180A的专利文献针对Braden估表无法预测大部分个体压力性损伤的问题,提供用于确定目标压力性损伤评分并基于其更改治疗计划的系统。该系统包括耦接到人员支撑装置的多个传感器,人员支撑装置配置为在人员支撑的支撑表面上支撑人;至少一个湿度传感器,配置为感测人与支撑表面之间的湿度水平;以及至少一个计算设备,该至少一个计算设备耦接到与人员支撑装置耦接的多个传感器和至少一个湿度传感器。至少一个计算设备包括处理器和存储计算机可读和可执行指令的存储器,计算机可读和可执行指令在由处理器执行时促使计算设备从耦接到人员支撑装置的多个传感器和至少一个湿度传感器接收数据,从与人员支撑装置支撑的人相关的电子病历中获取数据,基于来自多个传感器、湿度传感器以及电子病历的数据,计算指示了人发生压力性损伤的可能性的压力性损伤评分,以及根据计算出的压力性损伤评分为该人更改治疗计划。具体地,该压力性损伤评分指示了该人发生压力性损伤的可能性,通过基于人员支撑装置的头部角度、人的活动性、湿度、人的年龄以及人的性别来调节设施的基线损伤评分,以计算压力性损伤评分;以及根据计算出的压力性损伤评分更改该人的治疗计划。压力性损伤评分可以使用非线性回归模型,该非线性回归模型将发生压力性损伤的可能性限制在0和1之间,以确定该人是否可能发生压力性损伤。而且,可以通过从各种传感器接收的数据进行加权来修改基线压力性损伤值。因素的权重可以例如取决于所接收的数据量以及所采用的特定非线性回归。可以设想,只要模型将概率限制在0和1之间,则可以采用任何合适的非线性回归来计算压力性损伤评分。尽管该文献利用非线性回归模型对压力性损伤的可能性进行评估,但是采用非线性回归进行压力性损伤预测和进行基线压力性损伤评分修改存在以下问题:
1、非线性回归无法解决压力性损伤风险模型面临的多元共性问题;
2、当危险因素与压力性损伤发生风险之间的线性关系不成立,或者多个危险因素之间存在交互作用时,非线性回归会忽略自变量(危险因素)之间的复杂关系。
以上问题的存在使得该专利文献公开的技术方案无法准确预测压力性损伤的发生,而且评估压力性损伤风险的能力和稳定性存疑,不确定能否适应其他人群,也不确定其识别真正存在压力性损伤风险和真正无风险患者的能力。
此外,一方面由于对本领域技术人员的理解存在差异;另一方面由于发明人做出本发明时研究了大量文献和专利,但篇幅所限并未详细罗列所有的细节与内容,然而这绝非本发明不具备这些现有技术的特征,相反本发明已经具备现有技术的所有特征,而且申请人保留在背景技术中增加相关现有技术之权利。
发明内容
针对现有技术之不足,本发明提供一种构建压力性损伤风险预测模型的装置,包括处理模块。处理模块配置为:
对病历数据进行筛选获取第一病历数据;
基于随机森林模型对第一病历数据进行分类以获取造成压力性损伤的多个第一风险变量;
基于多元逻辑回归模型对第一病历数据中的多个第一风险变量进行回归以获取多个第一风险变量之间的关于递进关系的第一权值;
基于第一权值对第一病历数据进行划分形成多个第二病历数据,并采用随机森林模型对多个第二病历数据进行建模以生成多个第一风险预测模型。采用非线性回归进行压力性损伤预测和进行基线压力性损伤评分修改存在以下问题:
1、非线性回归无法解决压力性损伤风险模型面临的多元共性问题;
2、当风险变量与压力性损伤发生风险之间的线性关系不成立,或者多个风险变量之间存在交互作用时,非线性回归会忽略风险变量之间的复杂关系。因此为解决风险变量存在的多元共性和交互作用导致使用非线性回归无法准确筛选出真正有效的风险变量的问题,可以采用随机森林模型对病历数据进行回归预测。然而随机森林模型在解决回归预测问题时,无法给出连续型的输出。这是因为随机森林模型一般采用平均法、投票法和学习法输出结果。平均法一般用于回归预测问题,采用每棵决策树的平均值得到最终预测输出,其得到的均是离散型数值。投票法和学习法同样输出的是数值,因此当进行回归预测时,随机森林模型不能做出超越训练集数据范围的预测,进而导致当病历数据存在特定噪声时,使用随机森林模型进行建模会出现过度拟合现象。因此本发明采用随机森林模型对多病历数据进行分类,进而能够全面地筛选出与压力性损伤有关的风险变量,即第一风险变量。然后基于多元逻辑回归模型对筛选得到的第一风险变量进行建模,从而得到第一风险变量之间的递进关系,进而本发明可以根据第一风险变量之间的递进关系进行筛选得到第一风险变量中相对孤立的变量,并以此孤立的变量对第一病历数据进行分类得到第二病历数据。通过该设置方式,达到的有益效果是:
通过第一权值对第一病历数据进行分类得到的第二病历数据相当于把第一病历数据中特定噪声的数据进行分类,把相同的特定噪声的数据分到同一组后进行随机森林模型建模,能够显著地减少噪声带来的影响,进而避免过度拟合现象的出现,使得构建的风险预测模型能够泛化应用至新的病历数据中。
根据一种优选实施方式,处理模块配置为:在多个第一风险预测模型进行分类生成多个第二风险变量的情况下,通过多个第一风险预测模型交叉验证以调整其第二风险变量的个数和表示发生压力性损伤关联程度的第二权值。
根据一种优选实施方式,处理模块配置为按照如下方式对病历数据进行筛选:
检索病历数据中入院时的疾病状况,对入院时发生压力性损伤的病历数据进行排除;
获取入院时未发生压力性损伤的病历数据中发生压力性损伤的第一时间信息;
排除第一时间信息小于第一阈值的入院时未发生压力性损伤的病历数据,从而得到第一病历数据。
根据一种优选实施方式,处理模块配置为按照如下方式构建数据库:
对病历数据进行模块分类并针对每个模块分配第一键值对;
基于第一键值对构建第一哈希表;
对模块内的内容分配第二键值对;
基于第二键值对构建第二哈希表。
根据一种优选实施方式,处理模块配置为:
以第一病历数据中第一风险变量为自变量且第一风险变量之间的是否递进为因变量建立多元逻辑回归模型;
基于多元逻辑回归模型获取多个第一风险变量之间的递进关系。
根据一种优选实施方式,处理模块配置按照如下方式基于第一权值对第一病历进行划分形成多个第二病历数据:
基于每个第一风险变量构建递进关系表;
获取第一权值小于第二阈值的第一风险变量对;
基于递进关系表计算该第一风险变量对所对应的相同的第一风险变量的数量;
若相同的第一风险变量的数量超过第三阈值,则寻找下一对第一权值小于第二阈值的第一风险变量对。
根据一种优选实施方式,处理模块配置为:
基于基尼系数作为随机森林模型的分裂或竞争规则,从而获取第一风险预测模型的第二风险变量和第二权值,其中,第二权值为基尼系数。
根据一种优选实施方式,在基于第一权值划分第一病历数据失败的情况下,处理模块配置为:
以第一病历数据中第一风险变量为自变量且第一风险变量之间的关联程度为因变量建立多元逻辑回归模型;
基于多元逻辑回归模型获取多个第一风险变量之间的关联程度;
基于关联程度对第一病历数据进行划分从而生成第二病历数据。
本发明还提供一种构建压力性损伤风险预测模型的方法,方法包括:
对病历数据进行筛选获取第一病历数据;
基于随机森林模型对第一病历数据进行分类以获取造成压力性损伤的多个第一风险变量;
基于多元逻辑回归模型对第一病历数据中的多个第一风险变量进行回归以获取多个第一风险变量之间的关于递进关系的第一权值;
基于第一权值对第一病历数据进行划分形成多个第二病历数据,并采用随机森林模型对多个第二病历数据进行建模以生成多个第一风险预测模型。
根据一种优选实施方式,在多个第一风险预测模型进行分类生成多个第二风险变量的情况下,通过多个第一风险预测模型交叉验证以调整其第二风险变量的个数和表示发生压力性损伤关联程度的第二权值。
附图说明
图1是本发明装置的一种优选实施方式的模块示意图;
图2是本发明方法的一种优选实施方式的步骤流程示意图。
附图标记列表
100:处理模块 200:存储模块 300:通信模块
具体实施方式
下面结合附图进行详细说明。
风险预测模型是以多病因为基础,经过多因素分析,预测个体某种疾病发生或将要发生的绝对概率的一种工具。压力性损伤风险预测模型旨在准确预测压力性损伤发生的风险,便于医护人员及时采取针对性措施。预测性能和一致性是评价预测模型优劣的主要指标。
预测性能可以用灵敏度、特异性、接受者操作特征曲线(ROC)下的面积(AUC)等指标评价。灵敏度用于表征风险预测模型筛选真正有病患者的能力。特异性表征风险预测模型排除真正没病患者的能力。接受者操作特征曲线(ROC)下的面积(AUC)一般为0.5~1,为评价风险预测模型预测性能的综合指标。AUC值越大表明真实性越高。
为了进一步解释AUC进入混淆矩阵进行说明。混淆矩阵包括阳性(Positive)和阴性(Negative)。预测正确则为真(True)。预测错误则为假(False)。混淆矩阵包括真阳、假阳、真阴和假阴,如表1所示。
表1混淆矩阵
真阳可以用TP表示。真阳样本数量表示真正生病的患者被分类为有病的人数,即实际值为1,预测值也为1。
假阳可以用FP表示。假阳样本数量表示健康的患者被分类为有病的人数,实际值为0,预测值为1。
真阴可以用TN表示。真阴样本数量表示健康的患者被分类为无病的人数,实际值和预测值均为0。
假阴可以用FN表示。假阴样本数量表示真正生病的患者被分类为无病的人数,实际值为1,预测值为0。
灵敏度可以用真阳概率表示。真阳概率用于表示生病的患者被分类为有病的概率,可以用如下公式表征灵敏度。
特异性可以用真阴概率表示。真阴概率用于表示健康的患者被分类为无病的概率,可以用如下公式表征特异性。
AUC表示接受者操作特征曲线(ROC)下的面积。ROC曲线的纵轴是灵敏度。ROC曲线的横轴是1-SP,即假阳的概率。ROC曲线的函数表征为SE=F(1-SP)。AUC为曲线SE=F(1-SP)在由SE和1-SP围成的矩形框内的面积。AUC为1表示为最理想的情况,表示既没有把真正生病的患者错分为无病,也没有把健康的患者错分为有病,即AUC用于表征压力性损伤风险预测模型的区分能力。
优选地,一致性可以用拟合优度(Goodness Of Fit,GOF)评价。当风险预测模型的P值大于0.05时,表明风险预测模型已经充分提取数据中的信息,拟合优度较高。P值代表:在假设原假设正确时,出现现状或更差的情况的概率。
随机森林模型是将分类树组合成随机森林,在每棵决策树的构建过程中使用两次随机:一是构建决策树时使用的训练数据是通过bootstrap法在原始数据中随机获取的;二是每棵决策树所使用的解释变量也是在原有的特征集上随机获取生成很多分类树,再汇总分类树的结果。
多元逻辑回归模型方程可以表示为:
logit(P)=β01X1+…+βnXn
其中,logit(*)表示多元逻辑回归函数。P表示P值。n表示自变量的数量。βn表示回归系数。
实施例1
本发明提供一种构建压力性损伤风险预测模型的装置。参见图1,装置包括处理模块100、存储模块200和通信模块300。
优选地,处理模块100可以是中央处理器(Central Processing Unit,CPU)、通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application-Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable GateArray,FPGA)、图形处理器(Graphics Processing Unit,GPU)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。
优选地,存储模块200可以是磁盘、硬盘、光盘、移动硬盘、固态硬盘、闪存等。
优选地,通信模块300用于接入网络和连接设备。设备可以是传感器、存储器、移动设备以及存储有病历数据的设备等。通信模块300可以通过有线和/或无线的方式与病历数据库连接。病历数据库可以是医院存储关于病历资料的数据库。数据库可以配置于服务器内。通信模块300可以通过有线和/或无线的方式接入互联网、物联网、移动网络、以太网等网络。通信模块300可以是以太网的RJ-45接口、细同轴电缆的BNC接口、粗同轴电缆AUI接口、FDDI接口、ATM接口等。通信模块300还可以是Wi-Fi模块、蓝牙模块、Zigbee模块等。优选地,通信模块300还可以是RJ-45接口、BNC接口、粗同轴电缆AUI接口、FDDI接口、ATM接口、Wi-Fi模块、蓝牙模块、Zigbee模块中的组合。
优选地,处理模块100配置为按照如下步骤构建压力性损伤风险预测模型:
对病历数据进行筛选获取第一病历数据;
基于随机森林模型对第一病历数据进行分类以获取造成压力性损伤的多个第一风险变量;
基于多元逻辑回归模型对第一病历数据中的多个第一风险变量进行回归以获取多个第一风险变量之间的关于递进关系的第一权值;
基于第一权值对第一病历数据进行划分形成多个第二病历数据,并采用随机森林模型对多个第二病历数据进行建模以生成多个第一风险预测模型。优选地,采用非线性回归进行压力性损伤预测和进行基线压力性损伤评分修改存在以下问题:
1、非线性回归无法解决压力性损伤风险模型面临的多元共性问题;
2、当风险变量与压力性损伤发生风险之间的线性关系不成立,或者多个风险变量之间存在交互作用时,非线性回归会忽略风险变量之间的复杂关系。因此为解决风险变量存在的多元共性和交互作用导致使用非线性回归无法准确筛选出真正有效的风险变量的问题,可以采用随机森林模型对病历数据进行回归预测。然而随机森林模型在解决回归预测问题时,无法给出连续型的输出。这是因为随机森林模型一般采用平均法、投票法和学习法输出结果。平均法一般用于回归预测问题,采用每棵决策树的平均值得到最终预测输出,其得到的均是离散型数值。投票法和学习法同样输出的是数值,因此当进行回归预测时,随机森林模型不能做出超越训练集数据范围的预测,进而导致当病历数据存在特定噪声时,使用随机森林模型进行建模会出现过度拟合现象。因此本发明采用随机森林模型多病历数据进行分类,进而能够全面地筛选出与压力性损伤有关的风险变量,即第一风险变量。然后基于多元逻辑回归模型对筛选得到的第一风险变量进行建模,从而得到第一风险变量之间的递进关系,进而本发明可以根据第一风险变量之间的递进关系进行筛选得到第一风险变量中相对孤立的变量,并以此孤立的变量对第一病历数据进行分类得到第二病历数据。通过该设置方式,达到的有益效果是:
通过第一权值对第一病历数据进行分类得到的第二病历数据相当于把第一病历数据中特定噪声的数据进行分类,把相同的特定噪声的数据分到同一组后进行随机森林模型建模,能够显著地减少噪声带来的影响,进而避免过度拟合现象的出现,使得构建的风险预测模型能够泛化(应用)至新的病历数据中。为了便于理解,从压力性损伤风险预测角度进行说明:
由于第一病历数据中包含了多种不同的病人,包括压力性损伤病人和非压力性损伤病人。而针对压力性损伤病人,包含了不同类型的压力性损伤病人。例如,由于手术治疗后产生压力性损伤的病人,又例如ICU病房内长期卧床的压力性损伤病人,又例如具有糖尿病并发症的压力性损伤病人。因此,根据采用随机森林模型对第一病历数据进行回归预测,其纳入的第一风险变量比较全面,相对于第一病历数据中不同的病人,也引入了与该病人不相关的第一风险变量。而由于随机森林模型的输出结果是离散变量,这些不相关的第一风险变量也被计算在内,相当于一种特定噪声,进而随机森林模型在训练数据上学习这些特定噪声,其输出的均方差较大,其拟合结果为扭曲且不断波动的曲线,即出现过拟合的问题,从而得到的压力性损伤预测模型无法应用于新的数据样本中。而本发明通过多元逻辑回归模型对第一风险变量进行二元回归预测,得到多个第一风险变量之间的递进关系的第一权值。通过第一权值量化评估多个第一风险变量之间的递进关系,进而可以获取多个第一风险变量中相对孤立的第一风险变量。根据第一权值可以评估第一风险变量的孤立程度,并根据第一风险变量的孤立程度对第一病历数据进行划分,进而得到第二病历数据。此时,第二病历数据中的病历数据是彼此风险变量关联程度相近且递进关系相同/相近的病历数据,从而较大程度减少特定的噪声,即减少特定的第一风险变量带来的干扰,进而避免随机森林模型出现过拟合问题。
优选地,处理模块100配置为:
在多个第一风险预测模型进行分类生成多个第二风险变量的情况下,通过多个第一风险预测模型交叉验证以调整其第二风险变量的个数和表示发生压力性损伤关联程度的第二权值。通过该设置方式,达到的有益效果是:
通过划分多个第二病历数据进行建模得到多个第一风险预测模型,而多个第一风险预测模型适用于不同特征的第二病历数据。因此在风险预测中,需要识别病人病历的第一风险变量,然后分配至对应的第一风险预测模型。
但实际应用中存在以下问题:
1、第一风险预测模型的风险变量没有进行表征,从而无法得到能够显著表征第一风险预测模型的危险因素或变量,进而不方便病人的匹配;
2、第一风险预测模型没有经过交叉验证,无法保证其抵御其他无关风险变量的能力,可能存在稳定性较差的问题;
本发明通过再次对第一风险预测模型进行分类得到表征其模型特征的第二风险变量以及第二权值。第二权值表示其在第一风险预测模型中与压力性损伤发生相关的关联程度。在实际使用时可以根据第二风险变量的第二权值来适配病人的病历数据。而且,通过不同第一风险预测模型交叉验证调整第二风险变量的个数和第二权值能够在提高模型稳定程度的基础上,进一步提高第二风险变量表征第一风险预测模型的准确度。
优选地,处理模块100配置为经由通信模块300获取外部机构的病历数据。外部机构可以是医院、疾病中心或者存储病人病历的相关机构。优选地,处理模块100可以通过通信模块300连接外部机构的数据库来请求获取病历数据。通信模块300传输的病历数据可以临时或永久存储于存储模块200。由于外部机构的数据库病历较多且人群类别较多,因此有必要对外部接入的病历数据进行处理。通过处理模块100对存储模块200内的病历数据进行筛选。
优选地,处理模块100配置为按照如下方式对病历数据进行筛选:
检索病历数据中入院时的疾病状况,对入院时发生压力性损伤的病历数据进行排除;
获取入院时未发生压力性损伤的病历数据中发生压力性损伤的第一时间信息;
排除第一时间信息小于第一阈值的入院时未发生压力性损伤的病历数据,从而得到第一病历数据。
优选地,对病历数据中入院时发生压力性损伤的病历数据进行排除能够得到入院时未发生压力性损伤的数据。第一时间信息为入院后发生压力性损伤的时间。第一阈值可以根据需要设置,例如24小时、10天、20天等。为了确保用于学习训练的病历数据的有效性,需要考虑时间相关因素。例如,需要排除患者在入院后24小时内发生压力性损伤的病历。因为入院后短时间内产生的压力性损伤很有可能与未入院时的相关因素有关。
优选地,为了数据处理方便和加快模型的构建及训练速度,本发明采用异构数据库的形式对数据进行处理。优选地,处理模块100配置为基于存储模块200构建数据库。处理模块100配置为按照如下方式构建数据库:
对病历数据进行模块分类并针对每个模块分配第一键值对;
基于第一键值对构建第一哈希表;
对模块内的内容分配第二键值对;
基于第二键值对构建第二哈希表。
优选地,模块包括患者基本信息、实验室检查信息、用药情况、疾病情况和压力性损伤风险因素。采用第一哈希表存储模块。第二哈希表用于存储模块内的具体数值。例如,对患者基本信息分配的第一键值对为A-1。实验室检查信息分配的第一键值对为B-2。例如患者基本信息的内容包括性别、年龄和入院时间。患者基本信息的性别分配的第二键值对可以表示为Aa-(0,1),其中0表示男性,1表示女性。
优选地,处理模块100配置为:
将第一病历数据中的字符数值化;
将数值化的第一病历数据进行量纲归一化处理。优选地,由于病历数据中关于患者信息的表征可能不是数值,因此需要将此类信息转换为模型能够识别的数值。例如,可以采用2进制、8进制或者其他多进制表示。患者信息可以是第一风险变量、第二风险变量或者关于压力性损伤的其他风险变量。比如,进食情况可以采用0表示进食很差,1表示进食正常。失禁情况可以采用1表示完全控制,2表示偶尔失禁,3表示大/小便失禁,4表示大小便失禁。皮肤类型可以采用1表示正常,2表示薄,3表示干燥,4表示水肿,5表示潮湿,6表示颜色差,7表示开裂等。
优选地,可以采用国际单位制转换因子进行处理。例如,将肌酐转换为微摩尔每升需要乘以88.4;将葡萄糖转换为毫摩尔每升需要乘以0.0555。优选地,量纲归一化处理包括将所有变量归一化至0~10范围内。归一化处理可以是当前值减去病历数据中变量的最小值然后除以变量最大值与最小值的差,然后将该值等比例放大10倍。通过该设置方式,达到的有益效果是:
现有采用随机森林模型、多元逻辑回归模型、支持向量机算法等通常将数据归一化至0~1内,但是这种设置方式,后续计算机计算时会产生较多的小数,进而计算机需要大量的浮点运算,将耗费大量的计算开销。
优选地,第一风险变量表示为压力性损伤发生的风险变量。第一风险变量可以包括住院的科室、住院时间、性别、年龄、肥胖程度(BMI)、动脉粥样硬化、手术时间、用药情况、营养不良、活动能力等多种变量。通常性别、年龄、BMI、手术时间等是常见的相关变量。而筛选得到的第一病历数据中通常包括多种情况,如果直接使用随机森林模型进行回归预测,特定噪声会产生过拟合的问题。比如,第一病历数据中因手术产生的压力性损伤和非手术产生的压力性损伤之间存在互为噪声的风险变量,进而导致输出结果包括较多的离散噪声,进而导致过拟合。
优选地,处理模块100配置为:
以第一病历数据中第一风险变量为自变量且第一风险变量之间的是否递进为因变量建立多元逻辑回归模型;
基于多元逻辑回归模型获取多个第一风险变量之间的递进关系。优选地,随机选取第一风险变量。基于多元逻辑回归模型计算该第一风险变量与其他第一风险变量之间的递进关系。优选地,递进关系表示第一风险变量A是否导致第一风险变量B产生。或者,递进关系表示第一风险变量A产生第一风险变量B的概率。例如,第一风险变量肥胖可能导致第一风险变量糖尿病产生。优选地,递进关系还可以表示第一风险变量A导致第一风险变量B产生,第一风险变量B导致第一风险变量C产生。例如,第一风险变量外科手术导致第一风险变量出血量产生,第一风险变量出血量导致第一风险变量压力止血时间产生。优选地,第一权值为第一风险变量产生其他第一风险变量的概率。在使用多元逻辑回归模型进行预测的情况下,第一权值为多元逻辑回归模型计算得到的预测概率。优选地,第一权值还可以采用(x,y)表示。x表示该第一风险变量产生其他第一风险变量经历的变量的数量。例如,第一风险变量A直接产生第一风险变量B,那么x=0,y等于预测产生的概率。如果第一风险变量通过第一风险变量B产生第一风险变量C,那么x=1,y等于产生第一风险变量B的概率与第一风险变量B产生第一风险变量C的概率的乘积。
优选地,处理模块100配置按照如下方式基于第一权值对第一病历数据进行划分形成多个第二病历数据:
基于每个第一风险变量构建递进关系表;
获取第一权值小于第二阈值的第一风险变量对;
基于递进关系表计算该第一风险变量对所对应的相同的第一风险变量的数量;
若相同的第一风险变量的数量超过第三阈值,则寻找下一对第一权值小于第二阈值的第一风险变量对。优选地,若相同的第一风险变量的数量小于等于第三阈值,则选择该第一风险变量对产生其他第一风险量的数量最少的第一风险变量作为孤立的第一风险变量。处理模块100配置为基于第一病历数据选取包含该孤立的第一风险变量的病历数据作为第二病历数据。第二阈值可以选择接近零的数值。第二阈值可以根据实际得到的第一权值进行设置。优选地,第二阈值可以是小于第一权值平均值的20%的数值。优选地,第三阈值可以根据涉及的第一风险变量的数量进行设置。第三阈值可以是第一风险变量总数量的40%。
优选地,处理模块100配置为:
基于基尼系数作为随机森林模型的分裂或竞争规则,从而获取第一风险预测模型的第二风险变量和第二权值。优选地,第二权值为基尼系数。第二权值表示第二风险变量与压力性损伤的关联程度。随机森林算法利用Boos-strap抽样法从第二病历数据中抽取N个样本,然后对N个样本分别建立决策树模型,每棵决策树都由根节点、叶节点和树枝组成,其中每个决策树模型均包含随机4个变量属性,以4个特征中最佳分裂方式对该节点进行分裂,每棵树都完整生长而不进行剪枝,得到组合分类器。利用N个决策树模型分别对每个测试样本分类,得到N种分类结果,最后对N种分类投票决定其最终分类结果。优选地,分组前基尼系数G(t)的表达式如下:
优选地,p(j|t)表示在节点t中输出变量取第j类的归一化概率。当节点样本的输出量均取同一样本时,输出变量取值的差异性最小,基尼系数为0。当各类别取值的概率相同时,输出变量取值的差异性最大,基尼系数也最大。
优选地,分类树采用基尼系数的减少量测量异质性的下降程度ΔG(t)。优选地,可以采用简单多数投票法来决定最终分类结果。最终分类决策如下:
其中,H(x)表示组合分类模型。hi(x)表示单个决策分类模型。Y表示目标变量。I(·)表示示性函数。整个过程重复k次。从未被抽到的样本称为袋外数据。优选地,模型的效果可以袋外数据预测值的残差均方来衡量。
优选地,处理模块100配置为执行如下步骤:
第i棵决策树与袋外预测的预测误差率ei
随机打乱袋外预测在第j个输入变量上的取值顺序;
重新建立第i棵分类回归树并对袋外观测进行预测;
重新计算第i棵分类回归树的预测误差优选地,/>表示为第j个输入变量添加噪声导致的第i棵分类回归树预测误差的变化。优选地,重复上述步骤可以得到M个预测误差的变化。/>为第j个输入变量添加噪声导致的随机森林总体预测误差的平均变化。根据该平均变化可以得到平均基尼系数。优选地,第二权值可以用平均基尼系数表征。
需要说明的是,在基于第一权值划分第一病历数据的过程中,可能由于第一病历数据中包含孤立的第一风险变量的患者较少,进而因病历数据过少而无法划分。优选地,处理模块100配置为:
以第一病历数据中第一风险变量为自变量且第一风险变量之间的关联程度为因变量建立多元逻辑回归模型;
基于多元逻辑回归模型获取多个第一风险变量之间的关联程度;
基于关联程度对第一病历数据进行划分从而生成第二病历数据。通过该设置方式,达到的有益效果是:
虽然通过计算第一风险变量之间的关联程度无法准确地获取孤立的第一风险变量,进而无法最大程度地消除特定噪声,但是通过第一风险变量之间的关联程度进行划分能够避免因相关数据量较少导致划分失败的风险。
优选地,随机选取第一风险变量。基于多元逻辑回归模型计算该第一风险变量与其他第一风险变量之间的关联程度。优选地,可以通过计算回归系数表征关联程度。例如,随机选取第一风险变量A,基于第一风险变量A计算与其他第一风险变量的回归系数。回归系数表征当第一风险变量A变化时其他第一风险变量的改变程度。例如,当第一风险变量A变化一个单位,相关联的第一风险变量B变化1个单位,那么关联程度为1。如果第一风险变量A变化1个单元,相关联的第一风险变量B变化0.1个单位,那么关联程度为0.1。优选地,基于第一风险变量的关联程度筛选关联程度大于第四阈值的多个第一风险变量。第四阈值可以根据实际的第一风险变量的数量和病历数据进行设置。优选地,第四阈值可以是关联程度的中位数。
需要说明的是,病人的相关病历数据可能是复合型的,即该病历数据中可能适配两个或者更多个第一风险预测模型,因此第一风险预测模型需要保证其可结合性,或者第一风险预测模型需要具有纳入新的风险变量的扩展能力。优选地,处理模块100配置为:
将第二病历数据中第二风险变量的数据量平均;
基于关联程度划分第二风险变量,从而生成多个第三风险变量。优选地,基于多个第三风险变量进行建模生成第二风险预测模型。优选地,划分后的每类第三风险变量包含的第二风险变量的个数相同。通过该设置方式,达到的有益效果是:
由于生成的第一风险预测模型需要具有纳入新的风险变量的扩展能力,因此当纳入新的风险变量后需要第一风险预测模型保证其预测的稳定性。然而,第一风险预测模型是根据随机森林模型构建的,因此如果纳入新的风险变量其数据量较大的情况下,第一风险预测模型的输出可能会向数据量/数据记录较多的一侧倾斜,因此通过将第二病历数据中第二风险变量的数据量平均能够避免预测结果偏斜。此外,如果第二风险变量中存在相关联的风险变量较多的情况下,第一风险预测模型的输出也会向相关联较多的风险变量一侧倾斜,因此本发明通过关联程度划分得到多个第三风险变量,并且多个第三风险变量包含相同个数的第二风险变量,使得风险变量的分类数量均衡,从而能够避免风险预测结果倾斜。
实施例2
本发明提供一种构建压力性损伤风险预测模型的方法。该方法可以由本发明的装置和/或其他可替代的零部件实现。在不发生冲突/矛盾的情况下,本实施例的自动调平方法能够通过实施例1所提供的装置实施。
如图2所示,方法包括如下步骤。
S100:对病历数据进行筛选获取第一病历数据。优选地,对病历数据中入院时发生压力性损伤的病历数据进行排除能够得到入院时未发生压力性损伤的数据。第一时间信息为入院后发生压力性损伤的时间。第一阈值可以根据需要设置,例如24小时、10天、20天等。为了确保用于学习训练的病历数据的有效性,需要考虑时间相关因素。例如,需要排除患者在入院后24小时内发生压力性损伤的病历。因为入院后短时间内产生的压力性损伤很有可能与未入院时的相关因素有关。
优选地,为了数据处理方便和加快模型的构建及训练速度,本发明采用异构数据库的形式对数据进行处理。优选地,可以按照如下方式构建数据库:
对病历数据进行模块分类并针对每个模块分配第一键值对;
基于第一键值对构建第一哈希表;
对模块内的内容分配第二键值对;
基于第二键值对构建第二哈希表。
优选地,模块包括患者基本信息、实验室检查信息、用药情况、疾病情况和压力性损伤风险因素。采用第一哈希表存储模块。第二哈希表用于存储模块内的具体数值。例如,对患者基本信息分配的第一键值对为A-1。实验室检查信息分配的第一键值对为B-2。例如患者基本信息的内容包括性别、年龄和入院时间。患者基本信息的性别分配的第二键值对可以表示为Aa-(0,1),其中0表示男性,1表示女性。
优选地,将第一病历数据中的字符数值化。将数值化的第一病历数据进行量纲归一化处理。优选地,由于病历数据中关于患者信息的表征可能不是数值,因此需要将此类信息转换为模型能够识别的数值。例如,可以采用2进制、8进制或者其他多进制表示。患者信息可以是第一风险变量、第二风险变量或者关于压力性损伤的其他风险变量。比如,进食情况可以采用0表示进食很差,1表示进食正常。失禁情况可以采用1表示完全控制,2表示偶尔失禁,3表示大/小便失禁,4表示大小便失禁。皮肤类型可以采用1表示正常,2表示薄,3表示干燥,4表示水肿,5表示潮湿,6表示颜色差,7表示开裂等。
优选地,可以采用国际单位制转换因子进行处理。例如,将肌酐转换为微摩尔每升需要乘以88.4;将葡萄糖转换为毫摩尔每升需要乘以0.0555。优选地,量纲归一化处理包括将所有变量归一化至0~10范围内。归一化处理可以是当前值减去病历数据中变量的最小值然后除以变量最大值与最小值的差,然后将该值等比例放大10倍。通过该设置方式,达到的有益效果是:
现有采用随机森林模型、多元逻辑回归模型、支持向量机算法等通常将数据归一化至0~1内,但是这种设置方式,后续计算机计算时会产生较多的小数,进而计算机需要大量的浮点运算,将耗费大量的计算开销。
S200:基于多元逻辑回归模型对第一病历数据中的多个第一风险变量进行回归以获取多个第一风险变量之间的关于递进关系的第一权值。优选地,检索病历数据中入院时的疾病状况,对入院时发生压力性损伤的病历数据进行排除。获取入院时未发生压力性损伤的病历数据中发生压力性损伤的第一时间信息。排除第一时间信息小于第一阈值的入院时未发生压力性损伤的病历数据,从而得到第一病历数据。优选地,第一风险变量表示为压力性损伤发生的风险变量。第一风险变量可以包括住院的科室、住院时间、性别、年龄、肥胖程度(BMI)、动脉粥样硬化、手术时间、用药情况、营养不良、活动能力等多种变量。通常性别、年龄、BMI、手术时间等是常见的相关变量。而筛选得到的第一病历数据中通常包括多种情况,如果直接使用随机森林模型进行回归预测,特定噪声会产生过拟合的问题。比如,第一病历数据中因手术产生的压力性损伤和非手术产生的压力性损伤之间存在互为噪声的风险变量,进而导致输出结果包括较多的离散噪声,进而导致过拟合。
优选地,以第一病历数据中第一风险变量为自变量且第一风险变量之间的是否递进为因变量建立多元逻辑回归模型。基于多元逻辑回归模型获取多个第一风险变量之间的递进关系。优选地,随机选取第一风险变量。基于多元逻辑回归模型计算该第一风险变量与其他第一风险变量之间的递进关系。优选地,递进关系表示第一风险变量A是否导致第一风险变量B产生。或者,递进关系表示第一风险变量A产生第一风险变量B的概率。例如,第一风险变量肥胖可能导致第一风险变量糖尿病产生。优选地,递进关系还可以表示第一风险变量A导致第一风险变量B产生,第一风险变量B导致第一风险变量C产生。例如,第一风险变量外科手术导致第一风险变量出血量产生,第一风险变量出血量导致第一风险变量压力止血时间产生。优选地,第一权值为第一风险变量产生其他第一风险变量的概率。在使用多元逻辑回归模型进行预测的情况下,第一权值为多元逻辑回归模型计算得到的预测概率。优选地,第一权值还可以采用(x,y)表示。x表示该第一风险变量产生其他第一风险变量经历的变量的数量。例如,第一风险变量A直接产生第一风险变量B,那么x=0,y等于预测产生的概率。如果第一风险变量通过第一风险变量B产生第一风险变量C,那么x=1,y等于产生第一风险变量B的概率与第一风险变量B产生第一风险变量C的概率的乘积。
S300:基于第一权值对第一病历数据进行划分形成多个第二病历数据,并采用随机森林模型对多个第二病历数据进行建模以生成多个第一风险预测模型。优选地,处理模块100配置按照如下方式基于第一权值对第一病历数据进行划分形成多个第二病历数据:
基于每个第一风险变量构建递进关系表;
获取第一权值小于第二阈值的第一风险变量对;
基于递进关系表计算该第一风险变量对所对应的相同的第一风险变量的数量;
若相同的第一风险变量的数量超过第三阈值,则寻找下一对第一权值小于第二阈值的第一风险变量对。优选地,若相同的第一风险变量的数量小于等于第三阈值,则选择该第一风险变量对产生其他第一风险量的数量最少的第一风险变量作为孤立的第一风险变量。处理模块100配置为基于第一病历数据选取包含该孤立的第一风险变量的病历数据作为第二病历数据。第二阈值可以选择接近零的数值。第二阈值可以根据实际得到的第一权值进行设置。优选地,第二阈值可以是小于第一权值平均值的20%的数值。优选地,第三阈值可以根据涉及的第一风险变量的数量进行设置。第三阈值可以是第一风险变量总数量的40%。
优选地,基于基尼系数作为随机森林模型的分裂或竞争规则,从而获取第一风险预测模型的第二风险变量和第二权值。优选地,第二权值为基尼系数。第二权值表示第二风险变量与压力性损伤的关联程度。随机森林算法利用Boos-strap抽样法从第二病历数据中抽取N个样本,然后对N个样本分别建立决策树模型,每棵决策树都由根节点、叶节点和树枝组成,其中每个决策树模型均包含随机4个变量属性,以4个特征中最佳分裂方式对该节点进行分裂,每棵树都完整生长而不进行剪枝,得到组合分类器。利用N个决策树模型分别对每个测试样本分类,得到N种分类结果,最后对N种分类投票决定其最终分类结果。优选地,分组前基尼系数G(t)的表达式如下:
优选地,p(j|t)表示在节点t中输出变量取第j类的归一化概率。当节点样本的输出量均取同一样本时,输出变量取值的差异性最小,基尼系数为0。当各类别取值的概率相同时,输出变量取值的差异性最大,基尼系数也最大。
优选地,分类树采用基尼系数的减少量测量异质性的下降程度ΔG(t)。优选地,可以采用简单多数投票法来决定最终分类结果。最终分类决策如下:
其中,H(x)表示组合分类模型。hi(x)表示单个决策分类模型。Y表示目标变量。I(·)表示示性函数。整个过程重复k次。从未被抽到的样本称为袋外数据。优选地,模型的效果可以袋外数据预测值的残差均方来衡量。
优选地,方法还包括执行如下步骤:
第i棵决策树与袋外预测的预测误差率ei
随机打乱袋外预测在第j个输入变量上的取值顺序;
重新建立第i棵分类回归树并对袋外观测进行预测;
重新计算第i棵分类回归树的预测误差优选地,/>表示为第j个输入变量添加噪声导致的第i棵分类回归树预测误差的变化。优选地,重复上述步骤可以得到M个预测误差的变化。/>为第j个输入变量添加噪声导致的随机森林总体预测误差的平均变化。根据该平均变化可以得到平均基尼系数。优选地,第二权值可以用平均基尼系数表征。
优选地,采用非线性回归进行压力性损伤预测和进行基线压力性损伤评分修改存在以下问题:
1、非线性回归无法解决压力性损伤风险模型面临的多元共性问题;
2、当风险变量与压力性损伤发生风险之间的线性关系不成立,或者多个风险变量之间存在交互作用时,非线性回归会忽略风险变量之间的复杂关系。因此为解决风险变量存在的多元共性和交互作用导致使用非线性回归无法准确筛选出真正有效的风险变量的问题,可以采用随机森林模型对病历数据进行回归预测。然而随机森林模型在解决回归预测问题时,无法给出连续型的输出。这是因为随机森林模型一般采用平均法、投票法和学习法输出结果。平均法一般用于回归预测问题,采用每棵决策树的平均值得到最终预测输出,其得到的均是离散型数值。投票法和学习法同样输出的是数值,因此当进行回归预测时,随机森林模型不能做出超越训练集数据范围的预测,进而导致当病历数据存在特定噪声时,使用随机森林模型进行建模会出现过度拟合现象。因此本发明采用随机森林模型多病历数据进行分类,进而能够全面地筛选出与压力性损伤有关的风险变量,即第一风险变量。然后基于多元逻辑回归模型对筛选得到的第一风险变量进行建模,从而得到第一风险变量之间的递进关系,进而本发明可以根据第一风险变量之间的递进关系进行筛选得到第一风险变量中相对孤立的变量,并以此孤立的变量对第一病历数据进行分类得到第二病历数据。通过该设置方式,达到的有益效果是:
通过第一权值对第一病历数据进行分类得到的第二病历数据相当于把第一病历数据中特定噪声的数据进行分类,把相同的特定噪声的数据分到同一组后进行随机森林模型建模,能够显著地减少噪声带来的影响,进而避免过度拟合现象的出现,使得构建的风险预测模型能够泛化(应用)至新的病历数据中。为了便于理解,从压力性损伤风险预测角度进行说明:
由于第一病历数据中包含了多种不同的病人,包括压力性损伤病人和非压力性损伤病人。而针对压力性损伤病人,包含了不同类型的压力性损伤病人。例如,由于手术治疗后产生压力性损伤的病人,又例如ICU病房内长期卧床的压力性损伤病人,又例如具有糖尿病并发症的压力性损伤病人。因此,根据采用随机森林模型对第一病历数据进行回归预测,其纳入的第一风险变量比较全面,相对于第一病历数据中不同的病人,也引入了与该病人不相关的第一风险变量。而由于随机森林模型的输出结果是离散变量,这些不相关的第一风险变量也被计算在内,相当于一种特定噪声,进而随机森林模型在训练数据上学习这些特定噪声,其输出的均方差较大,其拟合结果为扭曲且不断波动的曲线,即出现过拟合的问题,从而得到的压力性损伤预测模型无法应用于新的数据样本中。而本发明通过多元逻辑回归模型对第一风险变量进行二元回归预测,得到多个第一风险变量之间的递进关系的第一权值。通过第一权值量化评估多个第一风险变量之间的递进关系,进而可以获取多个第一风险变量中相对孤立的第一风险变量。根据第一权值可以评估第一风险变量的孤立程度,并根据第一风险变量的孤立程度对第一病历数据进行划分,进而得到第二病历数据。此时,第二病历数据中的病历数据是彼此风险变量关联程度相近且递进关系相同/相近的病历数据,从而较大程度减少特定的噪声,即减少特定的第一风险变量带来的干扰,进而避免随机森林模型出现过拟合问题。
优选地,在多个第一风险预测模型进行分类生成多个第二风险变量的情况下,通过多个第一风险预测模型交叉验证以调整其第二风险变量的个数和表示发生压力性损伤关联程度的第二权值。通过该设置方式,达到的有益效果是:
通过划分多个第二病历数据进行建模得到多个第一风险预测模型,而多个第一风险预测模型适用于不同特征的第二病历数据。因此在风险预测中,需要识别病人病历的第一风险变量,然后分配至对应的第一风险预测模型。
但实际应用中存在以下问题:
1、第一风险预测模型的风险变量没有进行表征,从而无法得到能够显著表征第一风险预测模型的危险因素或变量,进而不方便病人的匹配;
2、第一风险预测模型没有经过交叉验证,无法保证其抵御其他无关风险变量的能力,可能存在稳定性较差的问题;
本发明通过再次对第一风险预测模型进行分类得到表征其模型特征的第二风险变量以及第二权值。第二权值表示其在第一风险预测模型中与压力性损伤发生相关的关联程度。在实际使用时可以根据第二风险变量的第二权值来适配病人的病历数据。而且,通过不同第一风险预测模型交叉验证调整第二风险变量的个数和第二权值能够在提高模型稳定程度的基础上,进一步提高第二风险变量表征第一风险预测模型的准确度。
需要说明的是,在基于第一权值划分第一病历数据的过程中,可能由于第一病历数据中包含孤立的第一风险变量的患者较少,进而因病历数据过少而无法划分。优选地,处理模块100配置为:
以第一病历数据中第一风险变量为自变量且第一风险变量之间的关联程度为因变量建立多元逻辑回归模型;
基于多元逻辑回归模型获取多个第一风险变量之间的关联程度;
基于关联程度对第一病历数据进行划分从而生成第二病历数据。通过该设置方式,达到的有益效果是:
虽然通过计算第一风险变量之间的关联程度无法准确地获取孤立的第一风险变量,进而无法最大程度地消除特定噪声,但是通过第一风险变量之间的关联程度进行划分能够避免因相关数据量较少导致划分失败的风险。
优选地,随机选取第一风险变量。基于多元逻辑回归模型计算该第一风险变量与其他第一风险变量之间的关联程度。优选地,可以通过计算回归系数表征关联程度。例如,随机选取第一风险变量A,基于第一风险变量A计算与其他第一风险变量的回归系数。回归系数表征当第一风险变量A变化时其他第一风险变量的改变程度。例如,当第一风险变量A变化一个单位,相关联的第一风险变量B变化1个单位,那么关联程度为1。如果第一风险变量A变化1个单元,相关联的第一风险变量B变化0.1个单位,那么关联程度为0.1。优选地,基于第一风险变量的关联程度筛选关联程度大于第四阈值的多个第一风险变量。第四阈值可以根据实际的第一风险变量的数量和病历数据进行设置。优选地,第四阈值可以是关联程度的中位数。
需要说明的是,病人的相关病历数据可能是复合型的,即该病历数据中可能适配两个或者更多个第一风险预测模型,因此第一风险预测模型需要保证其可结合性,或者第一风险预测模型需要具有纳入新的风险变量的扩展能力。优选地,将第二病历数据中第二风险变量的数据量平均。基于关联程度划分第二风险变量,从而生成多个第三风险变量。优选地,划分后的每类第三风险变量包含的第二风险变量的个数相同。通过该设置方式,达到的有益效果是:
由于生成的第一风险预测模型需要具有纳入新的风险变量的扩展能力,因此当纳入新的风险变量后需要第一风险预测模型保证其预测的稳定性。然而,第一风险预测模型是根据随机森林模型构建的,因此如果纳入新的风险变量其数据量较大的情况下,第一风险预测模型的输出可能会向数据量/数据记录较多的一侧倾斜,因此通过将第二病历数据中第二风险变量的数据量平均能够避免预测结果偏斜。此外,如果第二风险变量中存在相关联的风险变量较多的情况下,第一风险预测模型的输出也会向相关联较多的风险变量一侧倾斜,因此本发明通过关联程度划分得到多个第三风险变量,并且多个第三风险变量包含相同个数的第二风险变量,使得风险变量的分类数量均衡,从而能够避免风险预测结果倾斜。
本发明说明书包含多项发明构思,申请人保留根据每项发明构思提出分案申请的权利。本发明说明书包含多项发明构思,诸如“优选地”、“根据一个优选实施方式”或“可选地”均表示相应段落公开了一个独立的构思,申请人保留根据每项发明构思提出分案申请的权利。
需要注意的是,上述具体实施例是示例性的,本领域技术人员可以在本发明公开内容的启发下想出各种解决方案,而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白,本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

Claims (8)

1.一种构建压力性损伤风险预测模型的装置,其特征在于,包括处理模块(100),处理模块(100)配置为:
对病历数据进行筛选获取第一病历数据;
基于随机森林模型对第一病历数据进行分类以获取造成压力性损伤的多个第一风险变量;
基于多元逻辑回归模型对第一病历数据中的多个第一风险变量进行二元回归预测以获取多个第一风险变量之间的关于递进关系的第一权值;
基于第一权值对第一病历数据进行划分形成多个第二病历数据,并采用随机森林模型对多个第二病历数据进行建模以生成多个第一风险预测模型;
处理模块(100)配置按照如下方式基于第一权值对第一病历数据进行划分形成多个第二病历数据:
基于每个第一风险变量构建递进关系表;获取第一权值小于第二阈值的第一风险变量对;基于递进关系表计算该第一风险变量对所对应的相同的第一风险变量的数量;若相同的第一风险变量的数量超过第三阈值,则寻找下一对第一权值小于第二阈值的第一风险变量对,若相同的第一风险变量的数量小于等于第三阈值,则选择该第一风险变量对产生其他第一风险量的数量最少的第一风险变量作为孤立的第一风险变量,处理模块(100)配置为基于第一病历数据选取包含该孤立的第一风险变量的病历数据作为第二病历数据;
在基于第一权值划分第一病历数据失败的情况下,处理模块(100)配置为:以第一病历数据中第一风险变量为自变量且第一风险变量之间的关联程度为因变量建立多元逻辑回归模型;基于多元逻辑回归模型获取多个第一风险变量之间的关联程度;基于关联程度对第一病历数据进行划分从而生成第二病历数据。
2.根据权利要求1所述的装置,其特征在于,处理模块(100)配置为:
在多个第一风险预测模型进行分类生成多个第二风险变量的情况下,通过多个第一风险预测模型交叉验证以调整其第二风险变量的个数和表示发生压力性损伤关联程度的第二权值。
3.根据权利要求1所述的装置,其特征在于,处理模块(100)配置为按照如下方式对病历数据进行筛选:
检索病历数据中入院时的疾病状况,对入院时发生压力性损伤的病历数据进行排除;
获取入院时未发生压力性损伤的病历数据中发生压力性损伤的第一时间信息;
排除第一时间信息小于第一阈值的入院时未发生压力性损伤的病历数据,从而得到第一病历数据。
4.根据权利要求1所述的装置,其特征在于,处理模块(100)配置为按照如下方式构建数据库:
对病历数据进行模块分类并针对每个模块分配第一键值对;
基于第一键值对构建第一哈希表;
对模块内的内容分配第二键值对;
基于第二键值对构建第二哈希表。
5.根据权利要求1所述的装置,其特征在于,处理模块(100)配置为:
以第一病历数据中第一风险变量为自变量且第一风险变量之间的是否递进为因变量建立多元逻辑回归模型;
基于多元逻辑回归模型获取多个第一风险变量之间的递进关系。
6.根据权利要求1所述的装置,其特征在于,处理模块(100)配置为:
基于基尼系数作为随机森林模型的分裂或竞争规则,从而获取第一风险预测模型的第二风险变量和第二权值,其中,第二权值为基尼系数。
7.一种构建压力性损伤风险预测模型的方法,其特征在于,方法包括:
对病历数据进行筛选获取第一病历数据;
基于随机森林模型对第一病历数据进行分类以获取造成压力性损伤的多个第一风险变量;
基于多元逻辑回归模型对第一病历数据中的多个第一风险变量进行二元回归预测以获取多个第一风险变量之间的关于递进关系的第一权值;
基于第一权值对第一病历数据进行划分形成多个第二病历数据,并采用随机森林模型对多个第二病历数据进行建模以生成多个第一风险预测模型;
处理模块(100)配置按照如下方式基于第一权值对第一病历数据进行划分形成多个第二病历数据:
基于每个第一风险变量构建递进关系表;获取第一权值小于第二阈值的第一风险变量对;基于递进关系表计算该第一风险变量对所对应的相同的第一风险变量的数量;若相同的第一风险变量的数量超过第三阈值,则寻找下一对第一权值小于第二阈值的第一风险变量对,若相同的第一风险变量的数量小于等于第三阈值,则选择该第一风险变量对产生其他第一风险量的数量最少的第一风险变量作为孤立的第一风险变量,处理模块(100)配置为基于第一病历数据选取包含该孤立的第一风险变量的病历数据作为第二病历数据;
在基于第一权值划分第一病历数据失败的情况下,处理模块(100)配置为:以第一病历数据中第一风险变量为自变量且第一风险变量之间的关联程度为因变量建立多元逻辑回归模型;基于多元逻辑回归模型获取多个第一风险变量之间的关联程度;基于关联程度对第一病历数据进行划分从而生成第二病历数据。
8.根据权利要求7所述的方法,其特征在于,在多个第一风险预测模型进行分类生成多个第二风险变量的情况下,通过多个第一风险预测模型交叉验证以调整其第二风险变量的个数和表示发生压力性损伤关联程度的第二权值。
CN202110867305.2A 2021-07-29 2021-07-29 一种构建压力性损伤风险预测模型的装置及方法 Active CN113593703B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110867305.2A CN113593703B (zh) 2021-07-29 2021-07-29 一种构建压力性损伤风险预测模型的装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110867305.2A CN113593703B (zh) 2021-07-29 2021-07-29 一种构建压力性损伤风险预测模型的装置及方法

Publications (2)

Publication Number Publication Date
CN113593703A CN113593703A (zh) 2021-11-02
CN113593703B true CN113593703B (zh) 2023-07-18

Family

ID=78252325

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110867305.2A Active CN113593703B (zh) 2021-07-29 2021-07-29 一种构建压力性损伤风险预测模型的装置及方法

Country Status (1)

Country Link
CN (1) CN113593703B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117727448B (zh) * 2024-02-06 2024-04-19 四川省医学科学院·四川省人民医院 一种基于医联体的压力性损伤智能决策防治系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110827992A (zh) * 2019-11-15 2020-02-21 袁洪 高血压术后急性肾损伤的术前预测方法
CN110931134A (zh) * 2019-12-03 2020-03-27 南通大学 一种基于大数据挖掘模型预测住院压力性损伤愈合的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020056372A1 (en) * 2018-09-14 2020-03-19 Krishnan Ramanathan Multimodal learning framework for analysis of clinical trials
CN111260249B (zh) * 2020-02-13 2022-08-05 武汉大学 一种基于lstm和随机森林混合模型的电力通信业务可靠性评估预测方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110827992A (zh) * 2019-11-15 2020-02-21 袁洪 高血压术后急性肾损伤的术前预测方法
CN110931134A (zh) * 2019-12-03 2020-03-27 南通大学 一种基于大数据挖掘模型预测住院压力性损伤愈合的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
青少年足球运动员运动损伤预测模型的设计研究;马国帅;;自动化技术与应用(第07期);全文 *

Also Published As

Publication number Publication date
CN113593703A (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
Tigga et al. Prediction of type 2 diabetes using machine learning classification methods
CN109036553B (zh) 一种基于自动抽取医疗专家知识的疾病预测方法
CN108648827B (zh) 心脑血管疾病风险预测方法及装置
WO2021120936A1 (zh) 一种基于多任务学习模型的慢病预测系统
Harper A review and comparison of classification algorithms for medical decision making
CN113782183B (zh) 一种基于多算法融合的压力性损伤风险预测装置及方法
US20210241916A1 (en) Forecasting and explaining user health metrics
Afsaneh et al. Recent applications of machine learning and deep learning models in the prediction, diagnosis, and management of diabetes: a comprehensive review
Ho et al. The dependence of machine learning on electronic medical record quality
CN113838577B (zh) 便捷化分层老年mods早期死亡风险评估模型、装置及建立方法
US20210089965A1 (en) Data Conversion/Symptom Scoring
CN113744865B (zh) 基于回归分析的压力性损伤风险预测模型校正方法
Mounika et al. Prediction of type-2 diabetes using machine learning algorithms
Wen et al. Time-to-event modeling for hospital length of stay prediction for COVID-19 patients
CN113593703B (zh) 一种构建压力性损伤风险预测模型的装置及方法
Grant et al. Machine learning versus traditional methods for the development of risk stratification scores: a case study using original Canadian Syncope Risk Score data
Chinnasamy et al. Machine learning based cardiovascular disease prediction
Wong et al. Derivation and validation of a model to predict daily risk of death in hospital
Hennebelle et al. Secure and privacy-preserving automated machine learning operations into end-to-end integrated IoT-edge-artificial intelligence-blockchain monitoring system for diabetes mellitus prediction
US11537888B2 (en) Systems and methods for predicting pain level
Neumann et al. Measuring performance in health care: case-mix adjustment by boosted decision trees
Becalick et al. Comparison of artificial intelligence techniques with UKTRISS for estimating probability of survival after trauma
CN114927230B (zh) 基于机器学习的重症心衰患者预后决策支持系统及方法
Parthasarathy et al. Predicting heart failure using smote-enn-xgboost
Theodoraki et al. Innovative data mining approaches for outcome prediction of trauma patients

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant