CN111261286A

CN111261286A - 辅助诊断模型构建方法、诊断方法、装置、设备及介质

Info

Publication number: CN111261286A
Application number: CN202010096164.4A
Authority: CN
Inventors: 吴及; 尤心心; 刘喜恩
Original assignee: Tsinghua University; iFlytek Co Ltd
Current assignee: Tsinghua University; iFlytek Co Ltd
Priority date: 2020-02-17
Filing date: 2020-02-17
Publication date: 2020-06-09
Anticipated expiration: 2040-02-17
Also published as: CN111261286B

Abstract

本申请提供了一种辅助诊断模型构建方法、诊断方法、装置、设备及介质，其中，辅助诊断模型构建方法包括：获取训练病历集；通过辅助诊断模型，预测训练病历集中病历的诊断结果，并评估病历的质量得分；以预测的病历的诊断结果及其质量得分为依据，更新辅助诊断模型的参数，以得到构建的辅助诊断模型。采用本申请提供的辅助诊断模型能够针对待测病例给出正确的诊断结果。

Description

辅助诊断模型构建方法、诊断方法、装置、设备及介质

技术领域

本申请涉及智慧医疗技术领域，尤其涉及一种辅助诊断模型构建方法、诊断方法、装置、设备及介质。

背景技术

电子病历完整地记录了病人一次就诊的过程，其包含了对于疾病分析与诊断任务的珍贵信息。目前，已有基于电子病历进行辅助诊断的研究工作，并且开发出了辅助诊断系统。

辅助诊断系统基于电子病历实现辅助诊断的关键是辅助诊断模型的构建。目前的辅助诊断模型通常为神经网络模型，比如长短时记忆网络LSTM、循环神经网络RNN等，其利用大量的电子病历训练得到。

然而，不同地区电子病历的质量是参差不齐，利用质量参差不齐的病历训练辅助诊断模型，会导致辅助诊断模型给出的诊断结果准确度不高。

发明内容

有鉴于此，本申请提供了一种辅助诊断模型构建方法、诊断方法、装置、设备及介质，用以解决现有技术中利用质量参差不齐的病历训练辅助诊断模型，会导致辅助诊断模型给出的诊断结果准确度不高的问题，其技术方案如下：

一种辅助诊断模型构建方法，包括：

获取训练病历集；

通过辅助诊断模型，预测所述训练病历集中病历的诊断结果，并评估所述病历的质量得分；

以预测的所述病历的诊断结果及其质量得分为依据，更新所述辅助诊断模型的参数，以得到构建的辅助诊断模型。

可选的，所述获取训练病历集包括：

将预先收集的病历集作为所述训练病历集；

或者，

根据预先收集的病历集中病历的主诉、现病史和/或诊断结果的内容，从所述病历集中确定具有浅层问题的病历，并将所述具有浅层问题的去除，剩余病历组成所述训练病历集。

可选的，所述根据预先收集的病历集中病历的主诉、现病史和/或诊断结果的内容，从所述病历集中确定具有浅层问题的病历，包括：

若所述病历集中的病历存在以下情况中的任一种或多种的组合，则确定其为具有浅层问题的病历：

主诉的内容为空；主诉的内容中词的数量小于第一预设数量；主诉的内容中没有医学实体词；

现病史的内容为空；现病史的内容中词的数量小于第二预设数量；现病史的内容全为阴性描述；现病史中医学实体词的数量小于第三预设数量；

诊断结果的内容中包括指定词和/或指定符号；诊断结果的内容指示病历为体检类病历；诊断结果的内容未出现在ICD编码中；

主诉的内容与现病史的内容相同；现病史的内容的长度小于主诉的内容的长度；主诉的内容和现病史的内容中医学词汇的个数小于第四预设数量，且医学词汇中包括诊断结果的内容。

可选的，所述通过辅助诊断模型，预测所述训练病历集中病历的诊断结果，并评估所述病历的质量得分，包括：

通过所述辅助诊断模型中的诊断预测模块，预测所述训练病历集中病历的诊断结果；

通过所述辅助诊断模型中的质量评估模块，评估所述病历的质量得分。

可选的，所述通过所述辅助诊断模型中的诊断预测模块，预测所述训练病历集中病历的诊断结果，包括：

利用所述辅助诊断模型中的诊断预测模块，确定所述训练病历集中病历的病历特征，其中，任一病历的病历特征为表征该病历的向量；

利用所述辅助诊断模型中的诊断预测模块和所述病历的病历特征，预测所述病历的诊断结果。

可选的，所述利用所述辅助诊断模型中的诊断预测模块，确定所述训练病历集中病历的病历特征，包括：

从预先针对所述训练病例集中的所有病历构建的总图中抽取所述病历的子图，其中，一个病历对应一个子图，所述总图由两类节点和两类边组成，其中一类节点为代表所述训练病例集中各病例的病历节点，另一类节点为代表词表中各词的词节点，所述词表根据所述训练病例集中各病例的主诉和现病史的内容构建，其中一类边为词节点与词节点之间的边，另一类边为词节点与病历节点之间的边，若两个词节点之间具有边，则说明两个词节点代表的两个词具有共现关系，若一词节点与一病历节点之间具有边，则说明该病历节点代表的病历中包含该词节点代表的词；

获取所述病历的子图中每个词节点的特征，其中，一个词节点的特征为表征该词节点所代表的词的向量；

利用所述辅助诊断模型中的诊断预测模块、所述病历的子图以及所述病历的子图中每个词节点的特征，确定所述病历的病历特征。

可选的，所述通过所述辅助诊断模型中的质量评估模块，评估所述病历的质量得分，包括：

获取所述病历的诊断特征，其中，所述病历的诊断特征为所述病历中记录的诊断结果的表征向量；

利用所述辅助诊断模型中的质量评估模块、所述病历的病历特征和诊断特征，评估所述病历的质量得分。

其中，任一病历的诊断结果为该病历属于诊断集合中的每个诊断的概率，所述诊断集合根据所述训练病例集中的各病历中记录的诊断结果构建；

可选的，所述以预测的所述病历的诊断结果及其质量得分为依据，更新所述辅助诊断模型的参数，以得到构建的辅助诊断模型，包括：

根据预测的所述病历的诊断结果，以及所述病历中记录的诊断结果，确定所述病历对应的预测损失；

根据所述病历对应的预测损失以及所述病历的质量得分，确定所述辅助诊断模型的预测损失；

根据所述辅助诊断模型的预测损失，更新所述辅助诊断模型的参数。

一种辅助诊断方法，包括：

获取待测病历；

利用上述任一项所述的辅助诊断模型的构建方法构建的辅助诊断模型，预测所述待测病历的诊断结果。

可选的，利用所述辅助诊断模型预测所述待测病历的诊断结果，包括：

利用所述辅助诊断模型中的诊断预测模块，预测所述待测病历的诊断结果。

一种辅助诊断模型构建装置，包括：获取模块、预测模块、评估模块和参数更新模块；

所述获取模块，用于获取训练病历集；

所述预测模块，用于通过辅助诊断模型，预测所述训练病历集中病历的诊断结果；

所述评估模块，用于通过辅助诊断模型评估所述病历的质量得分；

所述参数更新模块，用于以预测的所述病历的诊断结果及其质量得分为依据，更新所述辅助诊断模型的参数，以得到构建的辅助诊断模型。

一种辅助诊断模型构建设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上述任一项所述的辅助诊断模型构建方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如上述任一项所述的辅助诊断模型构建方法的各个步骤。

经由上述方案可知，本申请提供的辅助诊断模型构建方法，首先获取训练病历集，然后通过辅助诊断模型，预测训练病历集中病历的诊断结果，并评估病历的质量得分，最后以预测的病历的诊断结果及其质量得分为依据，更新辅助诊断模型的参数，以得到构建的辅助诊断模型。考虑到训练病例集中的病历会有质量好的病历，也可能会有质量不好的病历，为了避免质量不好的病历对辅助诊断模型训练的影响，本申请并不是将所有病历一视同仁，而是评估用于进行模型训练的每个病历的质量得分，将病历的质量得分作为模型参数更新的依据，来提升辅助诊断模型的训练效果，进而使得构建出的辅助诊断模型能够针对病历预测出准确的诊断结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的辅助诊断模型构建方法的流程示意图；

图2为本申请实施例提供的辅助诊断模型构建方法的一具体实例的流程示意图；

图3为本申请实施例提供的确定病历具有浅层问题的多种情况的示意图；

图4为本申请实施例提供的通过辅助诊断模型中的诊断预测模块，预测训练病历集中每个病历的诊断结果的流程示意图；

图5为本申请实施例提供的通过辅助诊断模型中的质量评估模块，评估训练子集中每个病历的质量得分的流程示意图；

图6为本申请实施例提供的以针对训练子集中每个病历预测的诊断结果和评估的质量得分为依据，更新辅助诊断模型的参数的流程示意图；

图7为本申请实施例提供的辅助诊断模型构建方法和效果与现有技术中的辅助诊断模型构建方法和效果的对比示意图；

图8为本申请实施例提供的辅助诊断模型构建装置的结构示意图；

图9为本申请实施例提供的辅助诊断模型构建设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本案发明人在实现本发明的过程中发现：现有技术中，在利用病历训练辅助诊断模型时，是将所有用于训练的病历一视同仁，然而，这些病历通常质量参差不齐，这些病历中除了记录完整、诊断合理的病历外，还会有一些有噪声的病历，所谓有噪声的电子病历指的是具有浅层问题和/或深层问题的病历，将这些病历一视同仁会导致构建的辅助诊断模型给出的诊断结果准确度不高。

其中，具有浅层问题的病历主要包括以下三种病历，第一种，套用模板的病历，对于一些常见病，医生会在记录电子病历的时候套用模板，这导致电子病历的重复率很高，第二种，存在围绕相关医疗活动记录的病历，例如复诊、取药、拆线等，这样的病历包含的有价值信息较少，第三种，某些重要字段的内容为空或者与病情无关的病历；具有深层问题的病历主要是主诉和现病史与诊断不一致的病历，比如，由于医生自身责任心不强，或者文化素质不高，输入了错误的诊断结果，造成主诉和现病史与诊断不一致。

为了构建出能够给出正确诊断结果的辅助诊断模型，本案发明人进行了研究，起初的思路是：

先从预先收集的病历集中人工筛选出“质量合格”的病历，然后将“质量合格”的病历一视同仁，用这些“质量合格”的病历训练辅助诊断模型。

本案发明人通过研究发现，采用上述方案构建的辅助诊断模型相比于现有方案，辅助诊断效果有所提升，但该方案存在一些缺陷，具体体现在如下两个方面：

其一，人工筛选病历的方式会导致人工成本较高，且筛选效率较低；其二，人工筛选出的“质量合格”的病历中可能仍然存在质量不好的病历(比如具有深层问题的病历)，利用这样的病历训练辅助诊断模型，会导致辅助诊断模型给出错误的诊断结果。

鉴于上述方案存在的问题，本案发明人继续进行研究，最终提出了一种辅助诊断模型构建方法，通过该方法构建的辅助诊断模型能够给出准确度较高的诊断结果，该辅助诊断模型构建方法适用于需要进行辅助诊断的场景，该辅助诊断模型构建方法可应用于具有数据处理能力的终端，比如PC、笔记本电脑、智能手机、PAD等，也可应用于单个服务器或多个服务器组成的服务器集群。接下来通过下述实施例对本申请提供的辅助诊断模型构建方法进行介绍。

第一实施例

请参阅图1，示出了本申请实施例提供的辅助诊断模型构建方法的流程示意图，该方法可以包括：

步骤S101：获取训练病历集。

其中，训练病历集中包括多个病历。

具体的，获取训练病例集的实现方式有多种，在一种可能的实现方式，可直接获取预先收集的病历集作为训练病历集，但是，考虑到预先收集的病例集中病例的质量通常参差不齐，为了降低质量不好的病例对后续辅助诊断模型训练效果的影响，本申请提供了另一种较为优选的实现方式，可从预先收集的病例集中去除具有浅层问题的病历，剩余的病历组成训练病历集。

步骤S102：通过辅助诊断模型，预测训练病历集中病历的诊断结果，并评估病历的质量得分。

具体的，在通过辅助诊断模型预测病历的诊断结果时，可根据病历中记录的主诉和/或现病史的内容预测病历的诊断结果，在通过辅助诊断模型评估病历的质量得分时，可根据病历中记录的主诉和/或现病史以及诊断结果评估病历的质量得分。

其中，针对一病历预测的诊断结果为该病历属于诊断集合中每个诊断的概率。需要说明的时，诊断集合根据训练病历集中的各病历记录的诊断结果构建，具体的，可从训练病历集中的各病历中提取诊断结果，对提取的所有诊断进行处理(比如去重、归一化等)，处理后得到的诊断结果组成诊断集合。

步骤S103：以预测的病历的诊断结果及其质量得分为依据，更新辅助诊断模型的参数，以得到构建的辅助诊断模型。

具体的，根据预测的病历的诊断结果及其质量得分，确定辅助诊断模型的预测损失，根据辅助诊断模型的预测损失更新辅助诊断模型的参数。

本申请实施例提供的辅助诊断模型构建方法，首先获取训练病历集，然后通过辅助诊断模型，预测训练病历集中病历的诊断结果，并评估病历的质量得分，最后以预测的病历的诊断结果及其质量得分为依据，更新辅助诊断模型的参数，以得到构建的辅助诊断模型。考虑到训练病例集中的病历会有质量好的病历，也可能会有质量不好的病历，为了降低或避免质量不好的病历对辅助诊断模型训练的影响，本申请实施例并不是将所有病历一视同仁，而是评估用于进行模型训练的每个病历的质量得分，将病历的质量得分作为模型参数更新的依据，来提升辅助诊断模型的训练效果，进而使得构建出的辅助诊断模型能够准确预测出病历的诊断结果。

第二实施例

在第一实施例的基础上，本实施例提供辅助诊断模型构建方法的一具体实例，请参阅图2，示出了该具体实例的流程示意图，可以包括：

步骤S201：获取训练病历集。

在本实施例中，可从预先收集的病例集中去除具有浅层问题的病历，由剩余的病历组成训练病历集。

具体的，可根据预先收集的病历集中病历的主诉、现病史和/或诊断结果的内容，从病历集中确定具有浅层问题的病历，并将具有浅层问题的去除，剩余病历组成训练病历集，通过该方式获得训练病例集中的病例是表面看起来比较合格的病例。

步骤S202：从训练病历集中获取一训练子集。

其中，训练子集中包括至少一个病历。

为了提高辅助诊断模型的训练速度和效果，训练子集中优选为包括多个病历，即每次用一批病历训练辅助诊断模型，训练子集中所包含的病历的数量可根据实际情况设定。

步骤S203：通过辅助诊断模型，预测训练子集中每个病历的诊断结果，并评估训练子集中每个病历的质量得分。

可以理解的是，预先收集的病历集中可能既存在具有浅层问题的病历，又存在具有深层问题的病历，而训练病历集是通过将病历集中具有浅层问题的病历过滤掉得到，这意味着，训练病历集中还会存在具有深层问题的病历，若利用具有深层问题的病历训练辅助诊断模型，会导致辅助诊断模型学习到某种疾病的错误特征，进而会导致构建出的辅助诊断模型可能给出错误的诊断结果。

为了降低或避免具有深层问题的病历对辅助诊断模型训练效果的影响，本申请提出，对训练子集中每个病历的质量得分进行评估，以便以病历的质量得分为依据，避免辅助诊断模型对错误特征进行学习。

步骤S204：以针对训练子集中每个病历预测的诊断结果和评估的质量得分为依据，更新辅助诊断模型的参数。

具体的，本实施例根据针对训练子集中每个病历预测的诊断结果和训练子集中每个病历记录的诊断结果，确定训练子集中每个病历对应的预测损失，进而根据训练子集中每个病历对应的预测损失以及训练子集中每个病历的质量得分，更新辅助诊断模型的参数。

步骤S205：判断是否满足训练结束条件，若否，则返回步骤S201，若是，则结束训练，训练得到的辅助诊断模型即为构建出的辅助诊断模型。

本申请利用多个训练子集对辅助诊断模型进行迭代训练，直至满足训练结束条件。

第三实施例

上述的第二实施例提到“可根据预先收集的病历集中病历的主诉、现病史和/或诊断结果的内容，从病历集中确定具有浅层问题的病历”，进而将具有浅层问题的病历去掉，以得到由剩余病历组成训练病历集，本实施例将结合图3对“根据预先收集的病历集中病历的主诉、现病史和/或诊断结果的内容，从病历集中确定具有浅层问题的病历”的具体实现过程进行介绍。

根据预先收集的病历集中病历的主诉、现病史和/或诊断结果的内容，从所述病历集中确定具有浅层问题的病历的过程可以包括：

对于病历集中的每个病历而言，若其主诉的内容存在以下第一种情况至第三种情况中的任一种或多种的组合，和/或，其现病史的内容存在以下第四种情况至第七种情况中的任一种或多种的组合，和/或，其诊断结果的内容存在以下第八种情况至第十种情况中的任一种或多种的组合，和/或，其主诉和现病史内容存在以下第十一种情况至第十三种情况的任一种或多种的组合，则确定该病历为具有浅层问题的病历：

第一种情况：主诉的内容为空。

主诉的内容应为病人对于自身疾病的阐述，其是医生做出疾病诊断的重要依据，若一病历中主诉的内容为空，说明该病历缺少用于疾病诊断的重要信息，则可确定该病历具有浅层问题。

第二种情况：主诉的内容中词的数量小于第一预设数量。

主诉的内容中词的数量小于第一预设数量，说明主诉的内容过短，若主诉的内容过短，则可确定病历具有浅层问题。在本实施例中，可利用分词工具(比如结巴分词)对主诉的内容进行分词，若分词后得到的词的数量小于第一预设数量(比如2)，则确定病历具有浅层问题。

第三种情况：主诉的内容中没有医学实体词。

若主诉中缺少医学实体词，则可确定病历具有浅层问题。在本实施例中，可利用要素抽取工具(比如NER工具包)提取主诉的内容中所包含的医学实体词，若未提取到医学实体词，则确定病历具有浅层问题。

若一病历中主诉的内容存在上述情况中的任一种或多种，则认为主诉存在重大缺陷，即病历缺少用于疾病诊断的重要信息，将这样的病历从病历集中去除。

第四种情况：现病史的内容为空。

现病史的内容应为病人所患疾病的全过程，即疾病的发生、发展、演变和诊治经过，其也是医生做出疾病诊断的重要依据。若现病史的内容为空，则说明病历缺少用于疾病诊断的重要信息，将这样的病历确定为具有浅层问题的病历。

第五种情况：现病史的内容中词的数量小于第二预设数量。

现病史的内容中词的数量小于第二预设数量，说明现病史的内容过短，若现病史的内容过短，则可确定病历具有浅层问题。在本实施例中，可利用分词工具(比如结巴分词)对现病史的内容进行分词，若分词后得到的词的数量小于第二预设数量(比如3)，则确定病历具有浅层问题。

第六种情况：现病史的内容全为阴性描述。

其中，阴性描述指的是否定描述，比如，患者无畏寒、发热、咯血，咽部无充血水肿。在本实施例中，可利用现有的医疗要素抽取工具对现病史的内容中的要素信息进行阴性和阳性分类，如果发现全为阴性描述，阳性描述为空，则认为该份病例问题较大，可确定该病历具有浅层问题。需要说明的是，现在的医疗要素抽取工具能够对病例中阴性描述和阳性描述进行划分，例如，现病史的内容为：患者一周以来咳嗽，咽痛，无发热、无呕吐，利用医疗要素抽取工具可提炼出“阴性描述：无发热、无呕吐”，以及“阳性描述：咳嗽、咽痛”。

第七种情况：现病史中医学实体词的数量小于第三预设数量。

若现病史的内容中医学实体词的数量过少，则确定病历具有浅层问题。在本实施例中，可利用要素抽取工具对现病史的内容中包含的医学实体词进行抽取，如果发现抽取出的医学实体词的数量少于第三预设数量(比如2)，则认为现病史的内容不足以支撑医生做出正确诊断，将存在这种情况的病历确定为具有浅层问题的病历。

若一病历中现病史的内容存在上述四种情况中的任一种或多种，则认为现病史的内容存在重大缺陷，即病历缺少用于疾病诊断的重要信息，将这样的病历从病历集中去除。

第八种情况：诊断结果的内容中包括指定词和/或指定符号。

指定词、指定符号为根据诊断结果的书写规范，不应出现在诊断结果中的内容，比如“诊断组”、“*”“？”等，若诊断结果的内容中出现指定词和/或指定符号，则表明病历的诊断结果书写不规范，确定病历具有浅层问题。

第九种情况：诊断结果的内容指示病历为体检类病历。

若诊断结果的内容为“体格检查”、“健康体检”、“体检”、“单位体检”、“统一体检”等，则可确定病历为体检类病历，由于这样的病历不包含某种疾病所具有的特征，因此，其无法用于模型训练，本实施例将这样的病历确定为具有浅层问题的病历，从病历集中将其去除。

第十种情况：诊断结果的内容未出现在ICD(international classification ofdisease)编码中。

若诊断结果的内容未出现在ICD编码中，则认为病例的诊断结果不规范，例如，诊断结果的内容为“拉肚子”、“幽门螺杆菌感染”等，由于这样的诊断结果直接用症状名称作为疾病名称，因此书写不规范，本实施例将这样的病历确定为具有浅层问题的病历，从病历集中将其去除。

若一病历中的诊断结果存在上述三种情况中的任一种或多种，则认为诊断结果的内容存在重大缺陷，将这样的病历从病历集中去除。

第十一种情况：主诉的内容与现病史的内容相同。

主诉的内容应与现病史的内容不同，若一病历中主诉的内容与现病史的内容相同，则可确定该病历为具有浅层问题的病历。

第十二种情况：现病史的内容的长度小于主诉的内容的长度

按照病历的质量要求，主诉的内容为患者对于自身病情的主观描述，现病史的内容为医生对于患者患病的全过程记录，现病史的内容的长度应该大于主诉的内容的长度，若一病历中现病史的内容的长度小于主诉的内容的长度，则认为该病历问题较大，将该病历确定为具有浅层问题的病历。可选的，可利用字符串长度计算函数分别确定主诉的内容的长度以及现病史的内容的长度。

第十三种情况：主诉的内容和现病史的内容中医学词汇的个数小于第四预设数量，且医学词汇中包括诊断结果的内容。

在本实施例中，可利用要素抽取工具从主诉的内容和现病史的内容中抽取医学词汇，若抽取出的医学词汇的总数量小于第四预设数量(比如3)，且抽取出的医学词汇中包括诊断结果的内容(比如，从主诉中抽取出“高血压”，而诊断结果为“高血压”)，则认为存在这种情况的病历不具备疾病所包含的特征，确定这样的病历为具有浅层问题的病历。

第四实施例

本实施例对第二实施例中的“步骤S203：通过辅助诊断模型，预测训练子集中每个病历的诊断结果，并评估训练子集中每个病历的质量得分”的具体实现过程进行介绍。

本申请中的辅助诊断模型可以包括诊断预测模块和质量评估模块，相应的，通过辅助诊断模型，预测训练病历集中病历的诊断结果，并评估病历的质量得分的过程可以包括：通过辅助诊断模型中的诊断预测模块，预测训练子集中每个病历的诊断结果；通过辅助诊断模型中的质量评估模块，评估训练子集中每个病历的质量得分。

请参阅图4，示出了通过辅助诊断模型中的诊断预测模块，预测训练病历集中病历的诊断结果的流程示意图，可以包括：

步骤S401：利用辅助诊断模型中的诊断预测模块，确定训练子集中每个病历的病历特征。

其中，任一病历的病历特征为表征该病历的向量。

具体的，利用辅助诊断模型中的诊断预测模块，确定训练病历集中病历的病历特征的过程可以包括：

步骤S4011、从预先针对训练病历集中的所有病历构建的总图中，抽取训练子集中每个病历的子图。

其中，针对训练病历集中的所有病历构建总图的过程可以包括：

步骤a、从训练病历集中的各个病历中提取出主诉和现病史的内容。

步骤b、利用分词工具对提取出的内容进行分词处理，并对分词处理后得到的所有词进行去重处理，由去重处理后得到的词组成词表。

步骤c、根据词表中的词构建词节点，并根据词表中任意两个词的共现情况构建词节点与词节点之间的边。

在根据词表中的词构建词节点时，针对词表中的每个词构建一个词节点，假设词表中有100个词，那么构建100个词节点，一个词节点代表词表中的一个词。

其中，任意两个词的共现情况可通过两个词的共现率表征，两个词的共现率指的是两个词共同出现在一个句子中的概率，两个词的共现率的计算方式为：训练病历集中所有病历的主诉和现病史的内容中包含这两个词的句子的数量除以训练病历集中所有病历的主诉和现病史的内容中句子的总数量。

若两个词的共现率大于或等于预设的共现率阈值，则确定这两个词具有共现关系，即说明这两个词有联系，若两个词的共现率小于预设的共现率阈值，则确定这两个词不具有共现关系，即说明这两个词没有联系。若两个词具有共现关系，则在代表两个词的词节点之间连接一条边。

步骤d、根据训练病历集中的病历构建病历节点，并根据词表中的词在各个病历中的出现情况，构建词节点与病历节点之间的边。

其中，一个病历节点代表训练病历集中的一个病历，假设训练病历集中有30个病历，那么构建30个病历节点。

需要说明的是，若一个词出现在一病历的主诉和/或现病史的内容中，则在代表该词的词节点和代表该病历的病历节点之间连接一条边。

通过上述过程构建的总图由两类节点和两类边组成，其中一类节点为代表训练病历集中各个病例的病历节点，另一类节点为代表词表(词表根据训练病历集中各个病例中的主诉和现病史的内容构建)中各个词的词节点，其中一类边为词节点与词节点之间的边，另一类边为词节点与病历节点之间的边，若两个词节点之间具有边，则说明两个词节点代表的两个词具有共现关系，若一词节点与一病历节点之间具有边，则说明该病历节点代表的病历的主诉和/或现病史的内容中包含该词节点代表的词。

在预先构建的总图中抽取一病历的子图时，可根据代表该病历的病历节点抽取，即从总图中抽取与该病历节点有联系的词节点(即与该病历节点之间有边的词节点)，以及这些词节点之间的边。

需要说明的是，上述获取训练子集中每个病历的子图的方式是，预先构建一个总图，然后从总图中抽取每个病历的子图，本实施例并不限定仅可采用该方式获取每个病历的子图，还可采用其它方式，比如，可直接根据训练子集中每个病历中主诉和现病史中的词以及词与词的共现情况，针对每个病历构图，具体的，对于任一病历，从该病历中提取出主诉和现病史的内容，对提取的内容进行分词，对得到的词进行去重处理，由去除处理后得到的词组成针对该病历的词表，根据该词表中的词构建词节点，词表中的每个词对应一个词节点，然后根据词表中任意两个词的共现情况构建词节点与词节点之间的边，如此可得到针对该病历构建的图。

步骤S4012、获取训练子集中每个病历的子图中每个词节点的特征。

其中，一个词节点的特征为表征该词节点所代表的词的向量。

步骤S4013、利用辅助诊断模型中的诊断预测模块、训练子集中每个病历的子图以及训练子集中每个病历的子图中每个词节点的特征，确定训练子集中每个病历的病历特征。

本实施例中的辅助诊断模型中的诊断预测模块可以包括图卷积神经网络(比如双层图卷积神经网络)。

具体的，对于训练子集中的每个病历：将该病历的子图和该病例的子图中每个词节点的特征，输入图卷积神经网络，获得图卷积神经网络输出的该病历的病历特征。

需要说明的是，输入图卷积神经网络的子图应为矩阵形式，为此，需要将病历的子图转换为矩阵形式，具体的，假设病历的子图中有n个词节点，则该子图对应的矩阵应为n*n的矩阵，假设一病历的子图对应的矩阵用A表示，若词节点i与词节点j之间有边，则A_ij＝1，否则，A_ij＝0，可令A的主对角线全为1。图卷积基于邻域的消息传递思想，认为一病例的表征是自身表征和包含的所有词之间的表征之和，利用公式可表示为：

其中，

为规范化的对称邻接矩阵，

D为对角度值矩阵，D_ij＝∑_jA_ijD_ij，其描述了矩阵A对应行节点的度值，矩阵X∈R_nxm表示子图中n个节点m维的特征，W₀∈R_mxk表示降维权重矩阵，ρ表示激活函数，选用ReLU，ρ(x)＝max(0,x)。应用上述公式，可以对直接邻居进行一次消息传递，如果想获取高阶邻居的信息，可以将卷积后的结果替换特征矩阵X继续进行图卷积：

利用图卷积神经网络可以获得训练子集中每个病例的病历特征。

步骤S402：利用辅助诊断模型中的诊断预测模块和训练子集中每个病历的病历特征，预测训练子集中每个病历的诊断结果。

具体的，对于训练子集中的每个病历，将该病历经过一个softmax函数，可获得该病例属于诊断集合(诊断集合根据训练病历集中的各病历中记录的诊断结果构建)中各诊断的概率。

前述内容给出了“通过辅助诊断模型中的诊断预测模块，预测训练子集中每个病历的诊断结果”的具体实现过程，接下来给出“通过辅助诊断模型中的质量评估模块，评估训练子集中每个病历的质量得分”的具体实现过程。

请参阅图5，示出了通过辅助诊断模型中的质量评估模块，评估训练子集中每个病历的质量得分的流程示意图，可以包括：

步骤S501：获取训练子集中每个病历的诊断特征。

其中，一病历的诊断特征为该病历中记录的诊断结果的表征向量。

在本实施例中，可利用word2vec方法确定每个病历中记录的诊断结果的低维表征向量，作为对应病历的诊断特征。

步骤S502：利用辅助诊断模型中的质量评估模块、训练子集中每个病历的病历特征和诊断特征，评估病历的质量得分。

具体的，对于训练子集中的每个病历：将该病历的病历特征与其诊断特征进行拼接，将拼接后的特征输入辅助诊断模型中的质量评估模块，得到该病历的质量得分。

在一种可能的实现方式中，质量评估模块可以为全连接神经网络，其具体可以包括两个隐层，将训练子集中每个病例的拼接特征(病历特征与诊断特征进行拼接得到的特征)经两个隐层，可获得训练子集中每个病例对应的高维特征值，一个病历对应的高维特征值用于表征该病历的质量，将训练子集中每个病例对应的高维特征值经一个softmax层，便可获得[0，1]这一区间范围内的质量得分。需要说明的是，训练子集中每个病历的质量得分是一个相对的质量得分，其是相对于该训练子集中病历的质量得分。

第五实施例

上述实施例给出了“步骤S203：通过辅助诊断模型，预测训练子集中每个病历的诊断结果，并评估训练子集中每个病历的质量得分”的具体实现过程，在此基础上，本实施例对第二实施例中的“步骤S204：以针对训练子集中每个病历预测的诊断结果和评估的质量得分为依据，更新辅助诊断模型的参数”的具体实现过程进行介绍。

请参阅图6，示出了以针对训练子集中每个病历预测的诊断结果和评估的质量得分为依据，更新辅助诊断模型的参数的流程示意图，可以包括：

步骤S601：根据针对训练子集中每个病历预测的病历的诊断结果，以及训练子集中每个病历中记录的诊断结果，确定训练子集中每个病历对应的预测损失。

具体的，可利用下式确定一病历对应的预测损失：

其中，诊断集合中包括F个诊断，Z_df表示病例d属于第f个诊断的概率，若病例d的诊断结果是第f个诊断，则Y_df为1，若病例d的诊断结果不是第f个诊断，则Y_df为0。公式(3)表示，当病例d的诊断结果是第f个诊断时，d属于第f个诊断的概率越大，损失越小，优化的目标是预测损失最小化，最小的预测损失对应最正确的预测。

步骤S602：根据训练子集中每个病历对应的预测损失以及训练子集中每个病历的质量得分，确定辅助诊断模型的预测损失。

上述实施例提到，通过辅助诊断模型的质量评估模块可对训练子集中每个病历的质量进行评估，对于训练子集中主诉和现病史与诊断结果较为一致的病历，质量评估模块会给予较高的质量得分，反之，对于训练子集中主诉和现病史与诊断结果不一致的病历，质量评估模块会给予较低的得分，本实施例在确定辅助诊断模型的预测损失时，将病历的质量得分作为该病历对应的预测损失的权重，使得高质量病例对预测损失的计算产生更大影响，从而实现对于噪声病历的自动过滤，最终获取鲁棒的预测性能。具体的，辅助诊断模型最终的预测损失为：

其中，训练子集中包括n个病历，Θ(x_i,y_i)表示训练子集中第i个病历的质量得分，l_i表示训练子集中第i个病历对应的预测损失，将Θ(x_i,y_i)作为l_i的权重，对训练子集中n个病历分别对应的预测损失用对应的质量得分加权求和，得到辅助诊断模型最终的预测损失Loss。

步骤S603：根据辅助诊断模型的预测损失，更新辅助诊断模型的参数。

具体的，根据辅助诊断模型的预测损失Loss对辅助诊断模型的参数进行梯度更新回传，同时对诊断预测模块和质量评估模块的参数进行更新优化。

本申请从训练病历集中多次获取训练子集对辅助诊断模型进行多次迭代训练，直至辅助诊断模型的预测损失Loss到达最低值，训练完成后得到的模型即为构建出的辅助诊断模型。

现有技术中的辅助诊断模型构建方法直接将收集的病历集作为训练病历集训练辅助诊断模型，且在利用训练病历集训练辅助诊断模型时，将训练病历集中的所有病历一视同仁，然而，收集的病历集中病历的质量参差不齐，直接将病历集作为训练病历集训练辅助诊断模型，会导致辅助诊断模型在训练的过程中学习到错误的特征，进而导致训练得到的辅助诊断模型给出错误的诊断，如图7所示，假设训练病历集中包括病历1和病历2，其中，病历1为低质量病历(病历1由于医生疏忽导致主诉和现病史与诊断结果不一致)，病历2为高质量病历，病历1和病历2中记录的疾病症状(主诉和现病史的内容)类似，但两个病历的诊断结果完全不同，病历2的诊断结果为“感冒”，而病历1的诊断结果为“便秘”，直接用病历1和病历2训练辅助诊断模型，会导致辅助诊断模型无法区分“便秘”和“感冒”，这导致辅助诊断模型针对具有类似症状的病历会错误给出“便秘”这一诊断结果。

而本申请与现有技术完全不同，一方面，本申请先从收集的病历集中将具有浅层问题的病历自动滤除，由不具有浅层问题的病历组成训练病历集，也就是说训练病历集中包括的都是表面看起来比较合格的病历，另一方面，在利用训练病历集训练辅助诊断模型时，考虑到训练病历集中还可能存在具有深层问题的病历，为了避免辅助诊断模型从具有深层问题的病历学习到错误的特征，本申请利用质量评估模块评估病历的质量，对于上述的病历2，质量评估模块会给出较高的质量得分，而对于上述的病历1，质量评估模块会给出较低的质量得分，病历1和病历2的质量得分会结合到模型预测损失的计算中，从而使得辅助诊断模型自动聚焦到高质量病历上，忽略掉低质量病历，进而使得辅助诊断模型能够获得鲁棒的预测性能，即训练得到的辅助诊断模型在遇到与病历1和病历2具有类似症状的病历时，能够给出正确的诊断结果。

第六实施例

本实施例提供了一种辅助诊断方法，该方法可以包括：获取待测病历，利用上述实施例提供的辅助诊断模型构建方法构建的辅助诊断模型，预测待测病历的诊断结果。

上述实施例提到，辅助诊断模型可以包括诊断预测模块和质量评估模块，在预测待测病历的诊断结果时，利用辅助诊断模型中的诊断预测模块进行预测。需要说明的是，质量评估模块仅用于模型训练。

由于上述实施例提供的辅助诊断模型利用高质量的病历训练得到，因此，利用该辅助诊断模型能够针对待测病历给出正确的诊断结果。

第七实施例

基于以上第一实施例至第五实施例提供的辅助诊断模型构建方法，本申请还提供了一种辅助诊断模型构建装置，第七实施例将对辅助诊断模型构建装置进行介绍。

请参阅图8，示出了本实施例提供的一种辅助诊断模型构建装置的结构示意图，该装置可以包括：获取模块801、预测模块802、评估模块803和参数更新模块804。

获取模块801，用于获取训练病历集。

预测模块802，用于通过辅助诊断模型，预测所述训练病历集中病历的诊断结果。

评估模块803，用于通过辅助诊断模型评估所述病历的质量得分。

参数更新模块804，用于以预测的所述病历的诊断结果及其质量得分为依据，更新所述辅助诊断模型的参数，以得到构建的辅助诊断模型。

可选的，获取模块801，具体用于将预先收集的病历集作为所述训练病历集；或者，获取模块801包括问题病历确定模块和训练病历集构建模块。

问题病历确定模块，用于根据预先收集的病历集中病历的主诉、现病史和/或诊断结果的内容。

训练病历集构建模块，用于从所述病历集中确定具有浅层问题的病历，并将所述具有浅层问题的去除，由剩余病历组成所述训练病历集。

可选的，问题病历确定模块，具体用于在病历集中的病历存在以下情况中的任一种或多种的组合时，确定其为具有浅层问题的病历：

主诉的内容为空；主诉的内容中词的数量小于第一预设数量；主诉的内容中没有医学实体词；现病史的内容为空；现病史的内容中词的数量小于第二预设数量；现病史的内容全为阴性描述；现病史中医学实体词的数量小于第三预设数量；诊断结果的内容中包括指定词和/或指定符号；诊断结果的内容指示所述目标病历为体检类病历；诊断结果的内容未出现在ICD编码中；主诉的内容与现病史的内容相同；现病史的内容的长度小于主诉的内容的长度；主诉的内容和现病史的内容中医学词汇的个数小于第四预设数量，且医学词汇中包括诊断结果的内容。

可选的，预测模块802，具体用于通过所述辅助诊断模型中的诊断预测模块，预测所述训练病历集中病历的诊断结果。

评估模块803，具体用于通过所述辅助诊断模型中的质量评估模块，评估所述病历的质量得分。

可选的，预测模块802包括：病历特征确定模块和诊断结果预测模块。

病历特征确定模块，用于利用所述辅助诊断模型中的诊断预测模块，确定所述训练病历集中病历的病历特征，其中，任一病历的病历特征为表征该病历的向量。

诊断结果预测模块，用于利用所述辅助诊断模型中的诊断预测模块和所述病历的病历特征，预测所述病历的诊断结果。

可选的，病历特征确定模块包括：子图抽取子模块、词节点特征获取子模块和病历特征确定子模块。

子图抽取子模块，用于从预先针对所述训练病例集中的所有病历构建的总图中抽取所述病历的子图。

其中，一个病历对应一个子图，所述总图由两类节点和两类边组成，其中一类节点为代表所述训练病例集中各个病例的病历节点，另一类节点为代表词表中各个词的词节点，所述词表根据所述训练病例集中各个病例中的主诉和现病史的内容构建，其中一类边为词节点与词节点之间的边，另一类边为词节点与病历节点之间的边，若两个词节点之间具有边，则说明两个词节点代表的两个词具有共现关系，若一词节点与一病历节点之间具有边，则说明该病历节点代表的病历中包含该词节点代表的词。

词节点特征获取子模块，用于获取所述病历的子图中每个词节点的特征，其中，一个词节点的特征为表征该词节点所代表的词的向量。

病历特征确定子模块，用于利用所述辅助诊断模型中的诊断预测模块、所述病历的子图以及所述病历的子图中每个词节点的特征，确定所述病历的病历特征。

可选的，评估模块803包括：诊断特征获取子模块和质量评估子模块。

诊断特征获取子模块，用于获取所述病历的诊断特征，其中，所述病历的诊断特征为所述病历中记录的诊断结果的表征向量。

质量评估子模块，用于利用所述辅助诊断模型中的质量评估模块、所述病历的病历特征和诊断特征，评估所述病历的质量得分。

可选的，参数更新模块804可以包括：病历预测损失确定子模块、模型预测损失确定子模块和模型参数更新子模块。

病历预测损失确定子模块，用于根据预测的所述病历的诊断结果，以及所述病历中记录的诊断结果，确定所述病历对应的预测损失。

其中，任一病历的诊断结果为该病历属于诊断集合中的每个诊断的概率，所述诊断集合根据所述训练病例集中的各病历中记录的诊断结果构建。

模型预测损失确定子模块，用于根据所述病历对应的预测损失以及所述病历的质量得分，确定所述辅助诊断模型的预测损失。

模型参数更新子模块，用于根据所述辅助诊断模型的预测损失，更新所述辅助诊断模型的参数。

本实施例提供的辅助诊断模型构建装置，首先获取训练病历集，然后通过辅助诊断模型，预测训练病历集中病历的诊断结果，并评估病历的质量得分，最后以预测的病历的诊断结果及其质量得分为依据，更新辅助诊断模型的参数，以得到构建的辅助诊断模型。考虑到训练病例集中的病历会有质量好的病历，也可能会有质量不好的病历，为了避免质量不好的病历对辅助诊断模型训练的影响，本实施例并不是将所有病历一视同仁，而是评估用于进行模型训练的每个病历的质量得分，将病历的质量得分作为模型参数更新的依据，来提升辅助诊断模型的训练效果，从而使得构建出的辅助诊断模型能够准确预测出病历的诊断结果。

第八实施例

本实施例还提供了一种辅助诊断模型构建设备，请参阅图9，示出了该辅助诊断模型构建设备的结构示意图，该辅助诊断模型构建设备可以包括：至少一个处理器901，至少一个通信接口902，至少一个存储器903和至少一个通信总线904；

在本申请实施例中，处理器901、通信接口902、存储器903、通信总线904的数量为至少一个，且处理器901、通信接口902、存储器903通过通信总线904完成相互间的通信；

处理器901可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器903可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

获取训练病历集；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

第九实施例

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

获取训练病历集；

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种辅助诊断模型构建方法，其特征在于，包括：

获取训练病历集；

2.根据权利要求1所述的辅助诊断模型构建方法，其特征在于，所述获取训练病历集包括：

将预先收集的病历集作为所述训练病历集；

或者，

3.根据权利要求2所述的辅助诊断模型构建方法，其特征在于，所述根据预先收集的病历集中病历的主诉、现病史和/或诊断结果的内容，从所述病历集中确定具有浅层问题的病历，包括：

4.根据权利要求1所述的辅助诊断模型构建方法，其特征在于，所述通过辅助诊断模型，预测所述训练病历集中病历的诊断结果，并评估所述病历的质量得分，包括：

5.根据权利要求4所述的辅助诊断模型构建方法，其特征在于，所述通过所述辅助诊断模型中的诊断预测模块，预测所述训练病历集中病历的诊断结果，包括：

6.根据权利要求5所述的辅助诊断模型构建方法，其特征在于，所述利用所述辅助诊断模型中的诊断预测模块，确定所述训练病历集中病历的病历特征，包括：

7.根据权利要求5所述的辅助诊断模型构建方法，其特征在于，所述通过所述辅助诊断模型中的质量评估模块，评估所述病历的质量得分，包括：

8.根据权利要求1所述的辅助诊断模型构建方法，其特征在于，任一病历的诊断结果为该病历属于诊断集合中的每个诊断的概率，所述诊断集合根据所述训练病例集中的各病历中记录的诊断结果构建；

所述以预测的所述病历的诊断结果及其质量得分为依据，更新所述辅助诊断模型的参数，以得到构建的辅助诊断模型，包括：

9.一种辅助诊断方法，其特征在于，包括：

获取待测病历；

利用如权利要求1～8中任一项所述的辅助诊断模型的构建方法构建的辅助诊断模型，预测所述待测病历的诊断结果。

10.根据权利要求9所述的辅助诊断方法，利用所述辅助诊断模型预测所述待测病历的诊断结果，包括：

11.一种辅助诊断模型构建装置，其特征在于，包括：获取模块、预测模块、评估模块和参数更新模块；

所述获取模块，用于获取训练病历集；

12.一种辅助诊断模型构建设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～8中任一项所述的辅助诊断模型构建方法的各个步骤。

13.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～8中任一项所述的辅助诊断模型构建方法的各个步骤。