CN116092633A - 一种基于少量特征预测骨科手术患者术中自体血是否输注方法 - Google Patents
一种基于少量特征预测骨科手术患者术中自体血是否输注方法 Download PDFInfo
- Publication number
- CN116092633A CN116092633A CN202310362802.6A CN202310362802A CN116092633A CN 116092633 A CN116092633 A CN 116092633A CN 202310362802 A CN202310362802 A CN 202310362802A CN 116092633 A CN116092633 A CN 116092633A
- Authority
- CN
- China
- Prior art keywords
- autologous blood
- data
- features
- model
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/40—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mechanical, radiation or invasive therapies, e.g. surgery, laser therapy, dialysis or acupuncture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30008—Bone
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30101—Blood vessel; Artery; Vein; Vascular
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Urology & Nephrology (AREA)
- Surgery (AREA)
- Public Health (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明要求保护一种基于少量特征预测骨科手术患者术中自体血是否输注方法,涉及医疗辅助决策领域,具体涉及骨科手术患者术中自体血是否输注预测模型,基于自然语言技术抽取大量文本特征,经特征过滤最终使用少量特征即可实现术前预测患者术中自体血是否回输的方法。
Description
技术领域
本发明涉及一种基于少量特征预测骨科手术患者术中自体血是否输注的方法。
背景技术
近年来自体血回输在手术中的应用逐渐增多,具有缓解血源短缺困难、遏制异体输血并发症及减少血源感染等优点。自体血回输一般用于手术失血量较大,患者自身条件允许,手术部位和方式支持对术中血液回收的手术,而自体血回输也将产生一定费用,不合理的使用自体血回输(如回输量很小),也会造成一定浪费。
提前预测是否需要使用术中自体血回输,对于合理使用自体血,手术室安排,手术设备准备,评估自体以外的异体输血都有辅助作用。
目前术中是否使用自体血回输主要依赖医生主观判断,为进一步推进规范、合理使用自体血,拟建立模型预测对自体血的使用。目前医院数据中可纳入患者人口学特征、检查检验、手术等数据,繁多而复杂,也希望通过建模找到影响自体血回输的关键因素,实现使用较为简单且常见的数据即可对其进行准确的预测。
发明内容
本发明提供一种基于少量特征预测骨科手术患者术中自体血是否输注的方法。本发明从大量特征中寻找出与自体血回输相关的关键特征,预期效果只需要输入年龄,血容量(身高,体重,性别),术前血红蛋白,手术名称,诊断名称即可得到较高的模型预测效能。
基于少量特征预测术中自体血是否输注的方法,是从多源数据中挖掘重要指标,抽取非结构化(如病史,术中手麻事件,电子病历,影像报告,护理记录)和结构化特征,结合统计筛选和模型筛选等特征优化方法从大量特征中筛选十个重要指标作为模型输入,通过简单数据指标实现模型准确预测。由于常见的预测模型方法使用结构化特征作为预测模型的输入且涉及多项指标数据,或者仅从结构化数据中提取几项特征预测并未挖掘大量文本类有用特征,从而临床应用效果不佳。半结构化(文本形式)散落于数据库,此类数据对预测术中是否输血的研究具有很大的价值,但由于文本抽取同时依赖于医学背景知识和计算机技术,数据尚未得到有效利用。
本发明的方法示意图如图1所示。首先,将北京大学第三医院开放的数据经过数据清洗、转换、简化、整合操作并规范化成标准化数据存储模式;其次,使用自然语言技术提取多源非结构化特征,以及提取临床认为重要的结构化特征,结合统计方法(单变量因素分析)从大量特征中滤除相关性低的特征;再者,将特征输入多模型,对比模型性能。本发明所述模型整体性能维持在0.89左右,并且逻辑回归模型也表现出色;然后,基于SHAP技术和套索回归技术从模型角度对特征进行筛选,挖掘模型影响自体血回输的关键因素,最终保留十个重要特征;最后,应用岭回归技术获取预测术中是否输注自体血公式,以期使用简单的数据,输入公式即可对术中是否自体血输注进行精准预测,模型准确率为0.79。回归模型准确率(使用10个特征)为0.79,仅比最好模型GBDT(使用500多特征)低0.03,在维持较好精度的同时极大的简化了模型的复杂度。
本申请获得了以下技术效果:
1. 文本数据挖掘,使用自然语言技术提取大量文本特征(500多)用于自体血回输模型;
2. 融合统计、专家知识、模型筛选特征,使用回归模型建模,生成特征方程式。使用少量输入特征(前10个重要指标),即可实现对骨科手术患者术中自体血是否输注进行精准预测。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中基于少量特征预测骨科手术患者术中自体血是否输注关键技术路线图;
图2为本发明实施例中GBDT模型特征重要性图:基于SHAP技术获得的前十个重要特征值,其中横轴表示为特征重要性,越宽表示影响越大,纵轴表示为特征名称;文本类特征重要性排序比较靠前,黑色和灰色分别代表实际特征的大小(黑色表示特征值较大,灰色表示特征值较小);
图3为本发明实施例中岭回归模型回归系数图:横轴表示为特征系数,零轴右侧是正向影响,零轴左侧是负向影响;纵轴表示为特征名称。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明提供一种使用基于多源文本抽取和特征工程优化技术预测术中自体血是否输注的方法。
利用文本抽取技术提取北京大学第三医院2018年1月至2023年1月开放的多源数据,排除可能造成模型不稳定的数据,如术中失血量和输血量过大,最终一共纳入28447台骨科手术,其中自体血手术13746台,占比约48%。在28447台骨科手术台次中,自体血均值为95ml(方差144ml),年龄均值为58岁(方差13岁)。在13746台骨科自体血手术中,腰椎后路减压融合固定术、颈后路单开门椎管扩大成型术为最常见的手术方式。
该部分一共分为四个模块:规范化数据模块、融合专家知识和自然语言技术抽取特征模块、多模型预测自体血是否回输模块、术中自体血回输计算器模块。
在数据规范化模块,收集并整合散落在医院各个业务系统(如医院信息系统(Hospital Information System,HIS),电子病历系统(Electronic Health Record,EMR),检验信息系统(Laboratory Information System,LIS),麻醉信息系统(AnesthesiaInformation System,ANES)等)的医疗数据,实现数据清洗、转换、简化、整合操作并规范化成标准化数据存储模式。该模块可以对接北京大学第三医院开放的数据原始数据库,将数据库整合成规范化数据结构。在该阶段,结构化数据完成转换,非结构化数据在第二部分文本数据中转换。该模块的输入可扩展为北京大学第三医院开放的数据系统数据库、表,输出为规范化的数据库、表。
在融合专家知识和自然语言技术提取特征模块,基于自然语言技术抽取患者检查结果(X光等影像),病史,术前小结,手术记录, 手术名称,手术诊断等多源文本数据关键词。1)构建医学文本数据知识库。构建与本科室、疾病紧密相关的医学关键词(按部位、术式、入路等),设置关键词之间出现的规则,相互包含、共现、互斥等关系(共现词如滑膜炎,期望拆成滑膜和炎两个特征,两个特征词同时出现可提升模型性能)。医学知识的注入使文本抽取靶向性更强,有效降低人工提取成本。2)特征规范、清洗和统计筛选。借助自然语言技术抽取关键词并计算与目标列(即是否自体血输注)相关的统计值,规范化特征名称(如缩写转中文),过滤掉停止特征(如标点符号和临床不容易理解的词)、低频特征。使用假设检验方法(用χ2检验)计算每个关键字相关的p值,并根据此值粗筛特征。3)融合专家知识增删特征,结合临床专家指导、文献指南对所提取的关键词筛选,过滤不容易被临床上理解的特征,抽取临床认为比较重要的特征,组合共现特征、强关联特征,最终保留500多个非结构化关键词以防止过多的特征造成运行效率低,提取成本大,模型过拟合等问题。4)结构化特征提取与聚合,选择从临床角度对术中是否自体血回输影响大的结构化特征如血容量,年龄,术前血红蛋白等,对特征进行清洗、聚合并与非结构化数据拼接组成特征数据帧,这些特征在提升模型性能方面有很大帮助。模块的输入为待探测的多源文本表单、结构化表单、医学文本词典,输出为包含特征列和目标列的数据帧。
在多模型预测自体血是否回输模块,划分训练集和测试集,结合主流机器学习方法(线性回归,Lasso回归,Ridge回归,Huber回归,贝叶斯,K近邻,决策树,随机森林,梯度提升树等模型)对提取的结构化数据、非结构化数据建模,预测术中自体血是否回输。对比不同模型效果,引入文本特征后,模型性能(ROC-AUC)显著提升,最佳模型是GBDT和XGBoost,模型最好性能在0.89以上,树模型整体优于线性模型,逻辑回归模型也表现出很好的性能。该模块的输入是训练集数据,输出为模型效能指标。具体结果如表1所示:
表1 基于全部特征的多模型效能表
在术中自体血回输计算器模块,联合SHAP、套索回归技术基于模型结果筛选特征,岭回归技术构建回归模型公式,最终得到特征计算公式。具体为:
1)SHAP技术解释模型输出并筛选特征,对输入特征重要性排序,分析特征对目标值正向、负向影响。最终非结构化特征由原来的500多降低到10个,主要来源于手术名称和诊断名称。对比特征筛选前后模型性能:使用所有特征(500多),最好模型 AUC 0.89、准确率 0.82,使用前10个特征,AUC 0.86、准确率 0.82。基于SHAP技术获得的前十个重要特征值如图2所示,文本类特征重要性排序比较靠前,黑色和灰色分别代表实际特征的大小(黑色表示特征值较大,灰色表示特征值较小),从特征重要性可知减压,融合,后路(入路方式),与手术部位相关的脊柱、腰椎、椎管手术一般需要术中输注自体血,而膝关节、颈椎可能由于失血较少一般不输血。
2)套索回归技术筛选特征,套索回归计算特征系数为零的参数,这些零参数对应的特征被舍弃,而非零系数对应的特征被纳入模型,通过该方法再次筛选特征,降低模型复杂度防止过拟合。综合套索回归和SHAP技术,特征重要性排序前十的特征如下:手术名称_减压,手术名称_膝,手术名称_管,手术名称_脊柱,诊断名称_椎管狭窄,诊断名称_脊柱,诊断名称_肿,血容量,术前血红蛋白,年龄。
使用10个特征训练模型,不同模型性能下降不多。在保留一定模型精度的同时降低了模型复杂度,结果如表2所示:
表2 基于10个特征的多模型效能表
3)岭回归技术通过计算各特征的回归系数获取术中自体血回输公式,该方法输出的回归系数与实际更相符、更可靠。该模块的输入为多个机器学习模型、测试集数据,输出为包含术中自体血回输计算公式,回归模型准确率(使用10个特征)0.79仅比最好模型GBDT(使用500多特征)低0.03。
最终的特征方程式为: y = -0.5 + 0.315×手术名称_减压 + 0.261×手术名称_管 + (-0.162) 手术名称_膝 + 0.160×手术名称_脊柱 + (-0.108) × 诊断名称_肿+ 0.0759×诊断名称_椎管狭窄 + 0.0544×诊断名称_脊柱 + (-0.001) ×年龄 + 0.001×术前血红蛋白 + 0.00005×血容量,公式特征系数按绝对值由大到小排列。
上述公式岭回归模型回归系数的特征重要性展示如图3所示:横轴为特征系数,零轴右侧是正向影响,零轴左侧是负向影响;纵轴为特征名称。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (6)
1.一种基于多源文本抽取和特征工程优化技术对骨科术中是否需进行自体血输注的评估方法,其特征在于,包括以下步骤:规范化数据,融合专家知识和自然语言技术抽取特征,多模型预测自体血是否回输,以及术中自体血回输公式计算。
2.如权利要求1所述的评估方法,其特征在于,所述规范化数据,包括收集并整合散落在医院各个业务系统的医疗数据,实现数据清洗、转换、简化、整合操作并规范化成标准化数据存储模式。
3.如权利要求1所述的评估方法,其特征在于,所述融合专家知识和自然语言技术抽取特征,包括基于自然语言技术抽取与患者有关的多源文本数据关键词。
4.如权利要求1所述的评估方法,其特征在于,所述多模型预测自体血是否回输,包括划分训练集和测试集,结合主流机器学习方法对提取的结构化数据、非结构化数据建模,判断术中自体血是否回输。
5.如权利要求1所述的评估方法,其特征在于,所述术中自体血回输公式计算,包括联合SHAP、套索回归技术基于模型结果筛选特征,岭回归技术构建回归模型公式,最终得到特征计算公式。
6.一种基于多源文本抽取和特征工程优化技术对骨科术中是否需进行自体血输注的评估模型,其特征在于,包括以下模块:规范化数据模块,融合专家知识和自然语言技术抽取特征模块,多模型预测自体血是否回输模块,以及术中自体血回输公式计算模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310362802.6A CN116092633A (zh) | 2023-04-07 | 2023-04-07 | 一种基于少量特征预测骨科手术患者术中自体血是否输注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310362802.6A CN116092633A (zh) | 2023-04-07 | 2023-04-07 | 一种基于少量特征预测骨科手术患者术中自体血是否输注方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116092633A true CN116092633A (zh) | 2023-05-09 |
Family
ID=86204799
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310362802.6A Pending CN116092633A (zh) | 2023-04-07 | 2023-04-07 | 一种基于少量特征预测骨科手术患者术中自体血是否输注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116092633A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334212A (zh) * | 2019-07-01 | 2019-10-15 | 南京审计大学 | 一种基于机器学习的领域性审计知识图谱构建方法 |
CN111837040A (zh) * | 2018-03-01 | 2020-10-27 | 专业测试诊断公司 | 用于检测自体血液回输的方法 |
WO2022097230A1 (ja) * | 2020-11-05 | 2022-05-12 | 日本電信電話株式会社 | 予測方法、予測装置及びプログラム |
-
2023
- 2023-04-07 CN CN202310362802.6A patent/CN116092633A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111837040A (zh) * | 2018-03-01 | 2020-10-27 | 专业测试诊断公司 | 用于检测自体血液回输的方法 |
CN110334212A (zh) * | 2019-07-01 | 2019-10-15 | 南京审计大学 | 一种基于机器学习的领域性审计知识图谱构建方法 |
WO2022097230A1 (ja) * | 2020-11-05 | 2022-05-12 | 日本電信電話株式会社 | 予測方法、予測装置及びプログラム |
Non-Patent Citations (2)
Title |
---|
刘宏德 等编: "智能风控与反欺诈 体系算法与实践", vol. 978, 南京东南大学出版社, pages: 119 - 110 * |
陈俊瑶: "双胎妊娠剖宫产产妇术中自体血回输效果评估及产后出血预测模型研究", 中国博士学位论文电子期刊网, pages 1 - 31 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107731269B (zh) | 基于原始诊断数据和病历文件数据的疾病编码方法及系统 | |
CN111986770A (zh) | 药方用药审核方法、装置、设备及存储介质 | |
US7617078B2 (en) | Patient data mining | |
Ordonez | Comparing association rules and decision trees for disease prediction | |
DE102013202365A1 (de) | Herausziehen von informationen aus krankenakten | |
CN106682412A (zh) | 一种基于医疗体检数据的糖尿病预测方法 | |
CN114283947B (zh) | 一种适用于手术患者的健康管理方法及系统 | |
KR20170122146A (ko) | 규칙 최적화를 통한 임상 병리 검사에 대한 전문가 경험 지식 학습 및 소견 생성 방법 | |
CN116364299A (zh) | 一种基于异构信息网络的疾病诊疗路径聚类方法及系统 | |
CN113440101B (zh) | 一种基于集成学习的眩晕诊断装置及系统 | |
CN109360658A (zh) | 一种基于词向量模型的疾病模式挖掘方法及装置 | |
CN116092633A (zh) | 一种基于少量特征预测骨科手术患者术中自体血是否输注方法 | |
JP6647668B1 (ja) | 機械学習用のデータ構造、学習方法及び情報提供システム | |
KR102571593B1 (ko) | 의료기관 간 의료데이터통합을 이용한 관심패턴 후보탐색방법과 장치 | |
Koompairojn et al. | Automatic classification system for lumbar spine X-ray images | |
CN113517044A (zh) | 基于药代学评价胞二磷胆碱的临床数据处理方法及系统 | |
Vicory et al. | Automated fractured femur segmentation using CNN | |
Altun et al. | LSS-UNET: Lumbar spinal stenosis semantic segmentation using deep learning | |
Rihana et al. | Artificial intelligence framework for COVID19 patients monitoring | |
CN117059231B (zh) | 用于机器学习中医医案的方法及智能诊疗系统 | |
CN108172265A (zh) | 临床诊断术语集更新方法及其系统 | |
Helen et al. | Prediction of Mortality in Trauma Patients with Insufficient Training Data Using Deep Learning | |
اسراء عبد الله حسين علي الدليمي | Improve The Performance of K-means by using Genetic Algorithm for Classification Heart Attack | |
Jaime-Castillo et al. | Using FORDBMS for the linguistic description of images | |
SHIVANI et al. | HEART DISEASE PREDICTION USING MACHINELEARNING ALGORITHM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |