CN113342973A

CN113342973A - 一种基于疾病二分类器的辅助诊断模型的诊断方法

Info

Publication number: CN113342973A
Application number: CN202110618187.1A
Authority: CN
Inventors: 叶方全; 陈逸龙
Original assignee: Chongqing Pengkang Big Data Co ltd; Guangzhou Tianpeng Computer Technology Co ltd; Chongqing Nanpeng Artificial Intelligence Technology Research Institute Co ltd
Current assignee: Chongqing Pengkang Big Data Co ltd; Guangzhou Tianpeng Computer Technology Co ltd; Chongqing Nanpeng Artificial Intelligence Technology Research Institute Co ltd
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2021-09-03

Abstract

本发明公开了一种基于疾病二分类器的辅助诊断模型的诊断方法，包括如下步骤：S1：数据预处理；S2：模型训练；S3：诊断预测。本发明将诊断预测定义为文本分类任务，即对于一个输入的患者EHR，提取其中的主诉，现病史，影像学等信息，通过训练多个疾病的二分类器（BiLSTM+Self‑Attention模型）预测患者是否患有这些疾病，最终得到患者诊断的预测，以辅助医生进行之后的决策。

Description

一种基于疾病二分类器的辅助诊断模型的诊断方法

技术领域

本发明属于医学技术领域，具体涉及一种基于疾病二分类器的辅助诊断模型的诊断方法。

背景技术

随着医疗信息化的发展，电子病历（EHR）的数量和规模不断增加，形成了一个巨大的电子数据库，综合了各种各样的临床信息。因此，利用人工智能方法挖掘EHR数据中的信息已经成为了潜在的有力工具，有助于疾病诊断和管理。作为辅助医生进行临床决策的一个工具，辅助诊断利用机器学习技术从EHR文本中提取患者临床相关信息（主诉，现病史，影像学等），模拟医生的临床推理，以准确预测患者的诊断。

辅助诊断可视作自然语言处理（NLP）领域的一个任务，相当于一个文本多标签分类问题（输入患者的电子病历，输出患者对应的多个诊断标签），因此目前的辅助诊断模型主要基于多标签分类模型。但多标签分类模型存在类标数量不确定，以及类标之间关系模糊（比如一些疾病之间难以区分）的问题。针对以上的问题，我们提出将一个多标签分类问题转换为多个二分类问题。

发明内容

本发明的目的在于提供一种基于疾病二分类器的辅助诊断模型的诊断方法，将一个多标签分类问题转换为多个二分类问题，对于每个疾病，利用BERT+GMM选择合适的负样本，训练多个疾病的二分类器，在进行预测的时候，将患者EHR依次通过这些分类器，将每个分类器输出的标签进行综合得到最终的多标签诊断预测结果，以解决上述背景技术中所提出的问题。

为实现上述目的，本发明提供以下技术方案：一种基于疾病二分类器的辅助诊断模型的诊断方法，其结构要点在于：包括如下步骤：

S1：数据预处理，电子病历数据包含完整的临床信息，对电子病历数据进行预处理，形成样本数据集；

S2：模型训练：

S2.1：对于任意一种个疾病，将该疾病的样本作为分类模型的正样本，并通过BERT+GMM的方式筛选合适的负样本，将样本的临床信息的特征合并，作为模型的输入；

S2.2：将原始文本输入词嵌入层，得到词向量；

S2.3：将词向量输入双向长短期记忆网络，得到隐状态表示；

S2.4：将隐藏状态输入自注意力层，得到整个文本的表示，并通过全连接层输出预测结果；

S2.5：模型的输出为softmax之后的结果，即输出是该疾病以及不是该疾病的概率；

S3：诊断预测，训练好多个疾病的二分类器之后，对于一个新输入的患者EHR文本，分别通过这些二分类器，每个二分类器都会预测该患者是否患有该疾病，将每个二分类器的预测结果进行合并，得到患者最终的诊断预测结果。

作为优选的，步骤S1中的临床信息包括现病史、体格检查和影像学描述。

作为优选的，在步骤S1中，首先需要从临床信息中去除与诊断结果相关的描述，再对患者的出院诊断做标准化处理。

与现有技术相比，本发明将诊断预测定义为文本分类任务，即对于一个输入的患者EHR，提取其中的主诉，现病史，影像学等信息，通过训练多个疾病的二分类器（BiLSTM+Self-Attention模型）预测患者是否患有这些疾病，最终得到患者诊断的预测，以辅助医生进行之后的决策。

附图说明

图1为本发明中BERT提取句子特征的示意图；

图2为本发明BiLSTM与Self-Attention的结构示意图；

图3为本发明模型架构的结构示意图；

图4为本发明实施例的结果对比图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

请参阅图1-3，本发明提供一种技术方案，一种基于疾病二分类器的辅助诊断模型的诊断方法，包括如下步骤：

S2：模型训练：

S2.2：将原始文本输入词嵌入层（Embedding），得到词向量；

S2.3：将词向量输入双向长短期记忆网络（BiLSTM），得到隐状态表示；

S2.4：将隐藏状态输入自注意力层（Self-Attention），得到整个文本的表示，并通过全连接层输出预测结果；

其中，在本实施例中，所述的步骤S1中的临床信息包括现病史、体格检查和影像学描述。

其中，在本实施例中，在所述的步骤S1中，首先需要从临床信息中去除与诊断结果相关的描述，这种描述显然不能作为诊断依据；再对患者的出院诊断做标准化处理。因为不同医生对于同一种疾病，给出的诊断表述可以是多样的。如果不对这些诊断进行合并，会导致标签空间过大，严重影响模型的分类性能。

实施例：

挑选的六种呼吸疾病为例：肺真菌感染、肺尘埃沉着病、肺肉芽肿、放射性肺炎、支气管结核、慢性鼻窦炎。

模型训练：

对上述提到的六种呼吸疾病（肺真菌感染、肺尘埃沉着病、肺肉芽肿、放射性肺炎、支气管结核、慢性鼻窦炎）的患者，将其现病史、体格检查、影像学描述等特征合并作为其总体描述。这里以训练肺肉芽肿的二分类器为例，首先将所有诊断为“肺肉芽肿”的患者作为正样本，负样本为患有另外5种疾病的所有患者，然后再进行下一步筛选。

首先，利用BERT生成这些样本的表示，然后利用GMM对这些样本进行聚类。这里设定聚类个数的范围为3-20，通过计算AIC指标作为衡量标准确定最佳的聚类个数。假设这里样本被分为5个簇，而患有肺肉芽肿的患者在这5个簇之中的占比分别为16%、2%、1%、4%、9%。正样本在簇2，3，4中占比最低，说明在这些簇之中的负样本样本最不容易与正样本相混淆，其中的负样本与正样本区分度更高。因此，将属于这3个簇中的负样本筛选出来，作为最终的负样本。

诊断预测：

患者A

主诉：无咳痰，无体重下降，无发热，无胸痛，咳嗽，无咯血。

现病史：患者于1年前开始活动后出现胸闷、气促，上3层楼梯后症状加重，间断咳嗽、咳痰，晨起咳嗽，痰为少量白色泡沫痰，无胸痛、心前区疼痛，无发热、寒战，无夜间平卧受限及下肢浮肿。

体格检查：胸壁无肿块，腹壁无瘢痕，脾无包块，腹壁无压痛，腹壁无反跳痛。

影像学检查：右肺下叶高密度影，左肺下叶斑片影，右肺下叶斑片影，肺纹理增多。

1）首先，将患者A的这些特征进行拼接，作为患者A的总体描述输入分类器。这里假设我们已经训练好了这6种呼吸疾病的二分类器。

2）在每一种疾病的分类器内，患者A的文本描述通过嵌入层得到词向量。然后输入BiLSTM以及自注意力层得到文本的最终表示，最后通过全连接层以及softmax得到该疾病的预测结果。如肺肉芽肿的分类器输出为[0.3，0.7]，则说明分类器预测患者A患有肺肉芽肿的概率为70%，而没有该疾病的概率为30%。这里设定阈值为0.5，即预测患有该疾病的概率大于50%时即输出标签。

3）将患者A的文本描述通过这6个分类器，假设肺肉芽肿及肺真菌感染的二分类器输出了标签，则“肺肉芽肿，肺真菌感染”将作为患者A的预测诊断。

如图4所示的结果可以看出，以疾病以外的其他所有疾病作为负样本进行训练（左）作为对比，利用BERT+GMM筛选区分度高的负样本（右）训练模型，结果得到了较大提升。（由于只从正样本占比最小的3个簇中抽取负样本，而通常样本能被聚类为10个簇以上，因此筛去了很多质量低的负样本）

深度学习模型具有强大的特征提取能力，BiLSTM用于处理序列数据，Attention用于挖掘文本隐含的信息，两者结合使得模型能够捕获样本更全面更深层次的语义信息，从而作出正确的预测。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于疾病二分类器的辅助诊断模型的诊断方法，其特征在于：包括如下步骤：

S2：模型训练：

S2.2：将原始文本输入词嵌入层，得到词向量；

S2.3：将词向量输入双向长短期记忆网络，得到隐状态表示；

2.根据权利要求1所述的一种基于疾病二分类器的辅助诊断模型的诊断方法，其特征在于：所述的步骤S1中的临床信息包括现病史、体格检查和影像学描述。

3.根据权利要求1所述的一种基于疾病二分类器的辅助诊断模型的诊断方法，其特征在于：在所述的步骤S1中，首先需要从临床信息中去除与诊断结果相关的描述，再对患者的出院诊断做标准化处理。