CN113342973A - 一种基于疾病二分类器的辅助诊断模型的诊断方法 - Google Patents
一种基于疾病二分类器的辅助诊断模型的诊断方法 Download PDFInfo
- Publication number
- CN113342973A CN113342973A CN202110618187.1A CN202110618187A CN113342973A CN 113342973 A CN113342973 A CN 113342973A CN 202110618187 A CN202110618187 A CN 202110618187A CN 113342973 A CN113342973 A CN 113342973A
- Authority
- CN
- China
- Prior art keywords
- diagnosis
- disease
- classifier
- patient
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Primary Health Care (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种基于疾病二分类器的辅助诊断模型的诊断方法,包括如下步骤:S1:数据预处理;S2:模型训练;S3:诊断预测。本发明将诊断预测定义为文本分类任务,即对于一个输入的患者EHR,提取其中的主诉,现病史,影像学等信息,通过训练多个疾病的二分类器(BiLSTM+Self‑Attention模型)预测患者是否患有这些疾病,最终得到患者诊断的预测,以辅助医生进行之后的决策。
Description
技术领域
本发明属于医学技术领域,具体涉及一种基于疾病二分类器的辅助诊断模型的诊断方法。
背景技术
随着医疗信息化的发展,电子病历(EHR)的数量和规模不断增加,形成了一个巨大的电子数据库,综合了各种各样的临床信息。因此,利用人工智能方法挖掘EHR数据中的信息已经成为了潜在的有力工具,有助于疾病诊断和管理。作为辅助医生进行临床决策的一个工具,辅助诊断利用机器学习技术从EHR文本中提取患者临床相关信息(主诉,现病史,影像学等),模拟医生的临床推理,以准确预测患者的诊断。
辅助诊断可视作自然语言处理(NLP)领域的一个任务,相当于一个文本多标签分类问题(输入患者的电子病历,输出患者对应的多个诊断标签),因此目前的辅助诊断模型主要基于多标签分类模型。但多标签分类模型存在类标数量不确定,以及类标之间关系模糊(比如一些疾病之间难以区分)的问题。针对以上的问题,我们提出将一个多标签分类问题转换为多个二分类问题。
发明内容
本发明的目的在于提供一种基于疾病二分类器的辅助诊断模型的诊断方法,将一个多标签分类问题转换为多个二分类问题,对于每个疾病,利用BERT+GMM选择合适的负样本,训练多个疾病的二分类器,在进行预测的时候,将患者EHR依次通过这些分类器,将每个分类器输出的标签进行综合得到最终的多标签诊断预测结果,以解决上述背景技术中所提出的问题。
为实现上述目的,本发明提供以下技术方案:一种基于疾病二分类器的辅助诊断模型的诊断方法,其结构要点在于:包括如下步骤:
S1:数据预处理,电子病历数据包含完整的临床信息,对电子病历数据进行预处理,形成样本数据集;
S2:模型训练:
S2.1:对于任意一种个疾病,将该疾病的样本作为分类模型的正样本,并通过BERT+GMM的方式筛选合适的负样本,将样本的临床信息的特征合并,作为模型的输入;
S2.2:将原始文本输入词嵌入层,得到词向量;
S2.3:将词向量输入双向长短期记忆网络,得到隐状态表示;
S2.4:将隐藏状态输入自注意力层,得到整个文本的表示,并通过全连接层输出预测结果;
S2.5:模型的输出为softmax之后的结果,即输出是该疾病以及不是该疾病的概率;
S3:诊断预测,训练好多个疾病的二分类器之后,对于一个新输入的患者EHR文本,分别通过这些二分类器,每个二分类器都会预测该患者是否患有该疾病,将每个二分类器的预测结果进行合并,得到患者最终的诊断预测结果。
作为优选的,步骤S1中的临床信息包括现病史、体格检查和影像学描述。
作为优选的,在步骤S1中,首先需要从临床信息中去除与诊断结果相关的描述,再对患者的出院诊断做标准化处理。
与现有技术相比,本发明将诊断预测定义为文本分类任务,即对于一个输入的患者EHR,提取其中的主诉,现病史,影像学等信息,通过训练多个疾病的二分类器(BiLSTM+Self-Attention模型)预测患者是否患有这些疾病,最终得到患者诊断的预测,以辅助医生进行之后的决策。
附图说明
图1为本发明中BERT提取句子特征的示意图;
图2为本发明BiLSTM与Self-Attention的结构示意图;
图3为本发明模型架构的结构示意图;
图4为本发明实施例的结果对比图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
请参阅图1-3,本发明提供一种技术方案,一种基于疾病二分类器的辅助诊断模型的诊断方法,包括如下步骤:
S1:数据预处理,电子病历数据包含完整的临床信息,对电子病历数据进行预处理,形成样本数据集;
S2:模型训练:
S2.1:对于任意一种个疾病,将该疾病的样本作为分类模型的正样本,并通过BERT+GMM的方式筛选合适的负样本,将样本的临床信息的特征合并,作为模型的输入;
S2.2:将原始文本输入词嵌入层(Embedding),得到词向量;
S2.3:将词向量输入双向长短期记忆网络(BiLSTM),得到隐状态表示;
S2.4:将隐藏状态输入自注意力层(Self-Attention),得到整个文本的表示,并通过全连接层输出预测结果;
S2.5:模型的输出为softmax之后的结果,即输出是该疾病以及不是该疾病的概率;
S3:诊断预测,训练好多个疾病的二分类器之后,对于一个新输入的患者EHR文本,分别通过这些二分类器,每个二分类器都会预测该患者是否患有该疾病,将每个二分类器的预测结果进行合并,得到患者最终的诊断预测结果。
其中,在本实施例中,所述的步骤S1中的临床信息包括现病史、体格检查和影像学描述。
其中,在本实施例中,在所述的步骤S1中,首先需要从临床信息中去除与诊断结果相关的描述,这种描述显然不能作为诊断依据;再对患者的出院诊断做标准化处理。因为不同医生对于同一种疾病,给出的诊断表述可以是多样的。如果不对这些诊断进行合并,会导致标签空间过大,严重影响模型的分类性能。
实施例:
挑选的六种呼吸疾病为例:肺真菌感染、肺尘埃沉着病、肺肉芽肿、放射性肺炎、支气管结核、慢性鼻窦炎。
模型训练:
对上述提到的六种呼吸疾病(肺真菌感染、肺尘埃沉着病、肺肉芽肿、放射性肺炎、支气管结核、慢性鼻窦炎)的患者,将其现病史、体格检查、影像学描述等特征合并作为其总体描述。这里以训练肺肉芽肿的二分类器为例,首先将所有诊断为“肺肉芽肿”的患者作为正样本,负样本为患有另外5种疾病的所有患者,然后再进行下一步筛选。
首先,利用BERT生成这些样本的表示,然后利用GMM对这些样本进行聚类。这里设定聚类个数的范围为3-20,通过计算AIC指标作为衡量标准确定最佳的聚类个数。假设这里样本被分为5个簇,而患有肺肉芽肿的患者在这5个簇之中的占比分别为16%、2%、1%、4%、9%。正样本在簇2,3,4中占比最低,说明在这些簇之中的负样本样本最不容易与正样本相混淆,其中的负样本与正样本区分度更高。因此,将属于这3个簇中的负样本筛选出来,作为最终的负样本。
诊断预测:
患者A
主诉:无咳痰,无体重下降,无发热,无胸痛,咳嗽,无咯血。
现病史:患者于1年前开始活动后出现胸闷、气促,上3层楼梯后症状加重,间断咳嗽、咳痰,晨起咳嗽,痰为少量白色泡沫痰,无胸痛、心前区疼痛,无发热、寒战,无夜间平卧受限及下肢浮肿。
体格检查:胸壁无肿块,腹壁无瘢痕,脾无包块,腹壁无压痛,腹壁无反跳痛。
影像学检查:右肺下叶高密度影,左肺下叶斑片影,右肺下叶斑片影,肺纹理增多。
1)首先,将患者A的这些特征进行拼接,作为患者A的总体描述输入分类器。这里假设我们已经训练好了这6种呼吸疾病的二分类器。
2)在每一种疾病的分类器内,患者A的文本描述通过嵌入层得到词向量。然后输入BiLSTM以及自注意力层得到文本的最终表示,最后通过全连接层以及softmax得到该疾病的预测结果。如肺肉芽肿的分类器输出为[0.3,0.7],则说明分类器预测患者A患有肺肉芽肿的概率为70%,而没有该疾病的概率为30%。这里设定阈值为0.5,即预测患有该疾病的概率大于50%时即输出标签。
3)将患者A的文本描述通过这6个分类器,假设肺肉芽肿及肺真菌感染的二分类器输出了标签,则“肺肉芽肿,肺真菌感染”将作为患者A的预测诊断。
如图4所示的结果可以看出,以疾病以外的其他所有疾病作为负样本进行训练(左)作为对比,利用BERT+GMM筛选区分度高的负样本(右)训练模型,结果得到了较大提升。(由于只从正样本占比最小的3个簇中抽取负样本,而通常样本能被聚类为10个簇以上,因此筛去了很多质量低的负样本)
深度学习模型具有强大的特征提取能力,BiLSTM用于处理序列数据,Attention用于挖掘文本隐含的信息,两者结合使得模型能够捕获样本更全面更深层次的语义信息,从而作出正确的预测。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (3)
1.一种基于疾病二分类器的辅助诊断模型的诊断方法,其特征在于:包括如下步骤:
S1:数据预处理,电子病历数据包含完整的临床信息,对电子病历数据进行预处理,形成样本数据集;
S2:模型训练:
S2.1:对于任意一种个疾病,将该疾病的样本作为分类模型的正样本,并通过BERT+GMM的方式筛选合适的负样本,将样本的临床信息的特征合并,作为模型的输入;
S2.2:将原始文本输入词嵌入层,得到词向量;
S2.3:将词向量输入双向长短期记忆网络,得到隐状态表示;
S2.4:将隐藏状态输入自注意力层,得到整个文本的表示,并通过全连接层输出预测结果;
S2.5:模型的输出为softmax之后的结果,即输出是该疾病以及不是该疾病的概率;
S3:诊断预测,训练好多个疾病的二分类器之后,对于一个新输入的患者EHR文本,分别通过这些二分类器,每个二分类器都会预测该患者是否患有该疾病,将每个二分类器的预测结果进行合并,得到患者最终的诊断预测结果。
2.根据权利要求1所述的一种基于疾病二分类器的辅助诊断模型的诊断方法,其特征在于:所述的步骤S1中的临床信息包括现病史、体格检查和影像学描述。
3.根据权利要求1所述的一种基于疾病二分类器的辅助诊断模型的诊断方法,其特征在于:在所述的步骤S1中,首先需要从临床信息中去除与诊断结果相关的描述,再对患者的出院诊断做标准化处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110618187.1A CN113342973A (zh) | 2021-06-03 | 2021-06-03 | 一种基于疾病二分类器的辅助诊断模型的诊断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110618187.1A CN113342973A (zh) | 2021-06-03 | 2021-06-03 | 一种基于疾病二分类器的辅助诊断模型的诊断方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113342973A true CN113342973A (zh) | 2021-09-03 |
Family
ID=77473119
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110618187.1A Pending CN113342973A (zh) | 2021-06-03 | 2021-06-03 | 一种基于疾病二分类器的辅助诊断模型的诊断方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113342973A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113555077A (zh) * | 2021-09-18 | 2021-10-26 | 北京大学第三医院(北京大学第三临床医学院) | 疑似传染病预测方法及装置 |
CN113744873A (zh) * | 2021-11-08 | 2021-12-03 | 浙江大学 | 一种基于任务分解策略的发热待查辅助鉴别诊断系统 |
CN114373553A (zh) * | 2021-12-20 | 2022-04-19 | 中国科学院苏州生物医学工程技术研究所 | 基于多标签预测模型的医疗处置措施预测系统及其应用 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107038343A (zh) * | 2017-04-10 | 2017-08-11 | 荣科科技股份有限公司 | 临床诊断模型的构建方法及构建系统、临床诊断系统 |
CN110491499A (zh) * | 2019-07-10 | 2019-11-22 | 厦门大学 | 面向标注电子病历的临床辅助决策方法及系统 |
CN111309909A (zh) * | 2020-02-13 | 2020-06-19 | 北京工业大学 | 一种基于混合模型的文本情感分类方法 |
US20200365268A1 (en) * | 2019-05-14 | 2020-11-19 | Tempus Labs, Inc. | Systems and methods for multi-label cancer classification |
CN112182346A (zh) * | 2020-10-26 | 2021-01-05 | 上海蜜度信息技术有限公司 | 一种对突发事件的实体信息进行抽取的方法与设备 |
CN112307473A (zh) * | 2019-08-01 | 2021-02-02 | 四川大学 | 一种基于Bi-LSTM网络和注意力机制的恶意JavaScript代码检测模型 |
CN112749274A (zh) * | 2019-10-30 | 2021-05-04 | 中南大学 | 基于注意力机制和干扰词删除的中文文本分类方法 |
-
2021
- 2021-06-03 CN CN202110618187.1A patent/CN113342973A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107038343A (zh) * | 2017-04-10 | 2017-08-11 | 荣科科技股份有限公司 | 临床诊断模型的构建方法及构建系统、临床诊断系统 |
US20200365268A1 (en) * | 2019-05-14 | 2020-11-19 | Tempus Labs, Inc. | Systems and methods for multi-label cancer classification |
CN110491499A (zh) * | 2019-07-10 | 2019-11-22 | 厦门大学 | 面向标注电子病历的临床辅助决策方法及系统 |
CN112307473A (zh) * | 2019-08-01 | 2021-02-02 | 四川大学 | 一种基于Bi-LSTM网络和注意力机制的恶意JavaScript代码检测模型 |
CN112749274A (zh) * | 2019-10-30 | 2021-05-04 | 中南大学 | 基于注意力机制和干扰词删除的中文文本分类方法 |
CN111309909A (zh) * | 2020-02-13 | 2020-06-19 | 北京工业大学 | 一种基于混合模型的文本情感分类方法 |
CN112182346A (zh) * | 2020-10-26 | 2021-01-05 | 上海蜜度信息技术有限公司 | 一种对突发事件的实体信息进行抽取的方法与设备 |
Non-Patent Citations (2)
Title |
---|
安莹: "基于深度学习的心血管疾病风险预测模型", 《中国医学物理学杂志》 * |
胡满满: "基于动态采样和迁移学习的疾病预测模型", 《计算机学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113555077A (zh) * | 2021-09-18 | 2021-10-26 | 北京大学第三医院(北京大学第三临床医学院) | 疑似传染病预测方法及装置 |
CN113744873A (zh) * | 2021-11-08 | 2021-12-03 | 浙江大学 | 一种基于任务分解策略的发热待查辅助鉴别诊断系统 |
CN113744873B (zh) * | 2021-11-08 | 2022-02-11 | 浙江大学 | 一种基于任务分解策略的发热待查辅助鉴别诊断系统 |
CN114373553A (zh) * | 2021-12-20 | 2022-04-19 | 中国科学院苏州生物医学工程技术研究所 | 基于多标签预测模型的医疗处置措施预测系统及其应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10929420B2 (en) | Structured report data from a medical text report | |
CN108831559B (zh) | 一种中文电子病历文本分析方法与系统 | |
CN111540468B (zh) | 一种诊断原因可视化的icd自动编码方法与系统 | |
CN109460473B (zh) | 基于症状提取和特征表示的电子病历多标签分类方法 | |
CN109935336B (zh) | 一种儿童呼吸科疾病的智能辅助诊断系统 | |
CN113342973A (zh) | 一种基于疾病二分类器的辅助诊断模型的诊断方法 | |
CN110705293A (zh) | 基于预训练语言模型的电子病历文本命名实体识别方法 | |
CN107193919A (zh) | 一种电子病历的检索方法及系统 | |
CN112541066B (zh) | 基于文本结构化的医技报告检测方法及相关设备 | |
CN112489740B (zh) | 病历检测方法及相关模型的训练方法和相关设备、装置 | |
CN107292103A (zh) | 一种预测图像生成方法及装置 | |
CN111785387A (zh) | 一种使用Bert做疾病标准化映射分类的方法及系统 | |
CN113555077A (zh) | 疑似传染病预测方法及装置 | |
CN117954090A (zh) | 一种基于多模态缺失数据患者的死亡率预测方法及系统 | |
CN109192312B (zh) | 一种心力衰竭患者不良事件智能管理系统及方法 | |
CN110610766A (zh) | 基于症状特征权重推导疾病概率的装置和存储介质 | |
CN107085655B (zh) | 基于属性的约束概念格的中医数据处理方法及系统 | |
JP7365747B1 (ja) | 階層図ニューラルネットワークに基づく疾患診療過程異常識別システム | |
CN113360643A (zh) | 一种基于短文本分类的电子病历数据质量评价方法 | |
CN115862897B (zh) | 一种基于临床数据的症候群监测方法及系统 | |
WO2024042164A2 (en) | Method and system of predicting a clinical outcome or characteristic | |
CN117153422A (zh) | 基于深度学习和ChatGPT的脓毒症早期检测装置 | |
Al Duhayyim et al. | An Ensemble Machine Learning Technique for Stroke Prognosis. | |
CN116313141A (zh) | 一种基于知识图谱的不明原因发热智能问诊方法 | |
CN116258136A (zh) | 检错模型训练方法、医学影像报告检测方法、系统及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210903 |
|
RJ01 | Rejection of invention patent application after publication |