CN113782221A

CN113782221A - 基于自训练学习的疾病预测装置、设备及存储介质

Info

Publication number: CN113782221A
Application number: CN202111086406.2A
Authority: CN
Inventors: 徐啸
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-09-16
Filing date: 2021-09-16
Publication date: 2021-12-10

Abstract

本申请公开了一种基于自训练学习的疾病预测装置、设备及存储介质，涉及人工智能和数字医疗领域。包括：确定模块，用于确定样本集；第一训练模块，用于利用配置疾病标签的第一样本和第一疾病标签预训练第一疾病预测模型，将未配置疾病标签的第二样本输入预训练完成的第一疾病预测模型中，获取第一疾病预测结果；第二训练模块，用于依据第一疾病预测结果的预测概率以及预测不确定性，将符合预设样本更新条件的第二样本更新为第三样本，依据预测概率确定第三样本的第二疾病标签，利用第三样本和第二疾病标签迭代训练第一疾病预测模型，得到目标疾病预测模型；输入模块，用于将患者病理数据输入目标疾病预测模型，得到目标疾病预测结果。

Description

基于自训练学习的疾病预测装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及到一种基于自训练学习的疾病预测装置、设备及存储介质。

背景技术

疾病风险预测是人工智能和医学结合产生的，它的核心是预测未来一段时间内患某种疾病的概率。近年来，随着机器学习技术的发展和应用，基于机器学习的方法逐渐成为主流方法。虽然该方法的可移植性强，但其依赖标注数据的质量和规模，特征工程复杂。随着机器学习的进一步发展，基于深度学习的方法得到了大家的进一步关注。虽然这种方法不再需要像传统机器学习方法那样人为选取复杂的特征集合作为模型训练集，但需要更大规模的语料集。

由于现有的监督学习方法需要大规模的语料集，但医疗数据的标签信息是十分有限的，且由于医疗数据的专业性强，需要医生或者相关领域专家进行数据标注，因此比通用领域投入的人力物力更大。因此，在没有充足的已标注数据的情况下，传统的监督学习方法的效果受到限制，导致可用于模型训练的数据不足，从而难以得到精准、鲁棒的预测模型。

发明内容

有鉴于此，本申请提供了一种基于自训练学习的疾病预测装置、设备及存储介质，可用于解决在没有充足的已标注数据的情况下，传统的监督学习方法的效果受到限制，导致可用于模型训练的标注数据不足，从而难以得到精准、鲁棒的预测模型的技术问题。

根据本申请的一个方面，提供了一种基于自训练学习的疾病预测装置，该装置包括：

确定模块，用于确定由样本病理数据构建的样本集，所述样本集包括配置疾病标签的第一样本集以及未配置疾病标签的第二样本集；

第一训练模块，用于利用所述第一样本集中的第一样本以及对应的第一疾病标签预训练第一疾病预测模型，并将所述第二样本集中的第二样本输入预训练完成的第一疾病预测模型中，获取第一疾病预测结果；

第二训练模块，用于依据所述第一疾病预测结果的预测概率以及预测不确定性，将符合预设样本更新条件的第二样本更新为第三样本，并依据所述预测概率确定所述第三样本的第二疾病标签，利用所述第三样本以及所述第二疾病标签迭代训练所述第一疾病预测模型，得到目标疾病预测模型；

输入模块，用于获取目标患者上传的患者病理数据，并将所述患者病理数据输入所述目标疾病预测模型，得到目标疾病预测结果。

根据本申请的另一个方面，提供了一种存储介质，其上存储有计算机程序，所述程序被处理器执行时实现自训练学习的疾病预测方法，包括：

确定由样本病理数据构建的样本集，所述样本集包括配置疾病标签的第一样本集以及未配置疾病标签的第二样本集；

利用所述第一样本集中的第一样本以及对应的第一疾病标签预训练第一疾病预测模型，并将所述第二样本集中的第二样本输入预训练完成的第一疾病预测模型中，获取第一疾病预测结果；

依据所述第一疾病预测结果的预测概率以及预测不确定性，将符合预设样本更新条件的第二样本更新为第三样本，并依据所述预测概率确定所述第三样本的第二疾病标签，利用所述第三样本以及所述第二疾病标签迭代训练所述第一疾病预测模型，得到目标疾病预测模型；

获取目标患者上传的患者病理数据，并将所述患者病理数据输入所述目标疾病预测模型，得到目标疾病预测结果。

根据本申请的再一个方面，提供了一种计算机设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现自训练学习的疾病预测方法，包括：

借由上述技术方案，本申请提供的一种基于自训练学习的疾病预测装置、设备及存储介质，与目前疾病预测方式相比，本申请可在确定出样本病理数据后，进一步利用样本病理数据中配置疾病标签的第一样本以及对应的第一疾病标签预训练第一疾病预测模型，进而将样本病理数据中未配置疾病标签的第二样本输入预训练完成的第一疾病预测模型中，获取第一疾病预测结果；进一步依据第一疾病预测结果的预测概率以及预测不确定性，将符合预设样本更新条件的第二样本更新为第三样本，并依据预测概率确定第三样本的第二疾病标签，利用第三样本以及第二疾病标签迭代训练第一疾病预测模型，得到最终训练完成的目标疾病预测模型；最后可将目标患者上传的患者病理数据输入目标疾病预测模型，即可得到目标疾病预测结果。通过本申请中的技术方案，可先在有标签数据上训练一个预测模型，然后用该模型对无标签数据进行预测，得到“伪标签”，从中挑选出质量较高的放入训练集，跟之前有标签的数据一起再次训练模型，不断迭代，直至收敛，最终得到预测精度较高的目标疾病预测模型。相比于需要医生或者相关领域专家进行数据标注，根据标注好的医疗数据训练疾病预测模型的方式相比，本申请可应用于自训练学习技术，以有效的利用海量无标签医疗数据，通过自训练学习技术提升预测模型的精准度和鲁棒性。同时鉴于去除了人工标注环节，故还可提高疾病预测的效率、降低疾病预测成本。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本地申请的不当限定。在附图中：

图1示出了本申请实施例提供的一种基于自训练学习的疾病预测装置的结构示意图；

图2示出了本申请实施例提供的另一种基于自训练学习的疾病预测装置的结构示意图；

图3示出了本申请实施例提供的一种疾病预测装置在进行疾病预测时的流程示意图。

具体实施方式

本申请实施例可以基于人工智能技术实现对疾病的预测。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

下文将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合。

针对在没有充足的已标注数据的情况下，传统的监督学习方法的效果受到限制，导致可用于模型训练的标注数据不足，从而难以得到精准、鲁棒的预测模型的技术问题，本申请提供了一种基于自训练学习的疾病预测装置，如图1所示，该装置包括：确定模块11、第一训练模块12、第二训练模块13、输入模块14；

确定模块11，可用于确定由样本病理数据构建的样本集，样本集包括配置疾病标签的第一样本集以及未配置疾病标签的第二样本集；

其中，样本病理数据为与待进行疾病预测的患者病理数据同属于相同数据特征维度的相关医疗数据，如可包括年龄、性别、身高、体重、住院天数、临床诊断、病症、检查指标、手术、疾病严重程度和费用等特征信息。对于本实施例，确定模块11可利用样本病理数据构建用于训练疾病预测模型的样本集，在样本集中，可进一步提取出已标注疾病标签的第一样本，利用第一样本构建得到第一样本集，提取出未标注疾病标签的第二样本，利用第二样本构建得到第二样本集。

本申请的目的在于，利用少量已标注数据以及大量无标数据实现对疾病预测模型的迭代训练，即在标注数据缺失的情况下，首先利用已标注数据预训练得到初始疾病预测模型，进而依据初始疾病预测模型的预测结果，生成无标数据的疾病标签，进而在判定不存在待转化的无标数据时，判定疾病预测模型训练完成。最后将目标医疗数据输入至训练完成的疾病预测模型中，利用疾病预测模型输出针对目标医疗数据的疾病预测结果。

第一训练模块12，可用于利用第一样本集中的第一样本以及对应的第一疾病标签预训练第一疾病预测模型，并将第二样本集中的第二样本输入预训练完成的第一疾病预测模型中，获取第一疾病预测结果；

其中，第一疾病预测模型可为贝叶斯神经网络模型(Bayesian Neural Networks,BNN)，其把概率建模和神经网络结合起来，不仅可以预测结果，还可以给出对预测结果的预测概率以及预测不确定性，贝叶斯神经网络模型中权重是随机变量W，而非确定的值，这是其与一般的神经网络根本不同之处，P(W)是权重的先验分布，在训练数据之前就已知，给定观测数据即训练数据D＝{X,Y}，这里X是输入数据，Y是标签数据。因为预测结果是用分布表示的，所以可以得到预测结果的预测概率以及预测不确定性。预测概率越大表示该预测疾病对应为最终模型预测疾病的概率越大，预测不确定性越小对应该预测概率的预测准确性越高。

对于本实施例，可首先利用第一样本集中的第一样本以及对应的第一疾病标签预训练第一疾病预测模型，在判定第一疾病预测模型针对第一样本输出的疾病预测结果与第一疾病标签的特征相似度大于预设阈值，或对应的损失函数小于预设阈值时，判定第一疾病预测模型预训练完成。进而可将第二样本集中的第二样本输入预训练完成的第一疾病预测模型，以便利用预训练完成的第一疾病预测模型输出针对各个第二样本的第一疾病预测结果。其中，第一疾病预测结果可包括针对各个预设疾病的预测概率以及各个预测概率对应的预测不确定性。

第二训练模块13，可用于依据第一疾病预测结果的预测概率以及预测不确定性，将符合预设样本更新条件的第二样本更新为第三样本，并依据预测概率确定第三样本的第二疾病标签，利用第三样本以及第二疾病标签迭代训练第一疾病预测模型，得到目标疾病预测模型；

其中，预设样本更新条件为：第二样本对应第一疾病预测结果的预测概率大于第一预设阈值且预测不确定性小于第二预设阈值，第一预设阈值和第二预设阈值均为0至1之间的数值，具体数值可根据实际应用场景进行设定。

对于本实施例，可依据第一用药推荐结果的预测概率以及预测不确定性，在第二样本集中筛选出符合预设样本更新条件的第二样本，将其更新为第三样本，并将第一疾病预测结果中对应预测概率最高的预设疾病确定为第三样本的第二疾病标签，进而可将配置第二疾病标签的第三样本更新至同样配置有疾病标签的第一样本集中，进而利用更新后的第一样本集迭代训练第一疾病预测模型，直至训练进程符合预设迭代终止条件，判定所述第一疾病预测模型迭代训练完成，得到目标疾病预测模型。其中，预设迭代终止条件包括：第二样本集中没有可供转化为第一样本的无标签样本；和/或第二样本集中剩余第二样本的预测不确定性(uncertainty)均大于预设阈值。

输入模块14，可用于获取目标患者上传的患者病理数据，并将患者病理数据输入目标疾病预测模型，得到目标疾病预测结果。

其中，目标患者为疾病预测场景下的来访患者，患者病理数据具体可包括诊断数据、检验检查结果等信息。对于本实施例，作为一种优选方式，上传患者病理数据时可包括必填项和选填项，在接收到目标患者上传的患者病理数据后，可首先对患者病理数据进行必填项数据的缺失检验，若判定患者病理数据存在必填项数据缺失，则可依据预设数据填补规则对患者病理数据进行数据填补处理，或将未得到疾病预测结果的原因发送至目标患者，并提示目标患者对缺失数据进行补充上传；在确定患者病理数据完整后，进一步执行后续依据患者病理数据生成疾病预测结果的实施例步骤。

在具体的应用场景中，在将未得到疾病预测结果的原因发送至目标患者，并提示目标患者对缺失数据进行补充上传时，还可输出缺失数据对应的索引指示，以便目标来访患者根据索引指示实现对缺失数据的有效填补。其中，索引指示可包括必填项和选填项对应的数据标准示例以及索引解析，以保证上传的患者病理数据更加全面，得到的目标疾病预测结果更加的精确。例如：必填项1：年龄(如：“10”；索引：查看不同年龄段易感染的疾病)，必填项2：患病史(如：“心脏病”；索引：查看可能产生的并发症)，必填项3：是否妊娠(如“是”或“否”；索引：查看妊娠可能引发的疾病)等；选填项1：姓名(如：“张三”；索引：用于验证患者身份)，选填项2：性别(如“男”或“女”；索引：查看不同性别可能产生的疾病)等。

通过本实施例中的疾病预测装置，可在确定模块确定出样本病理数据后，进一步由第一训练模块利用样本病理数据中配置疾病标签的第一样本以及对应的第一疾病标签预训练第一疾病预测模型，进而将样本病理数据中未配置疾病标签的第二样本输入预训练完成的第一疾病预测模型中，获取第一疾病预测结果；第二训练模块进一步依据第一疾病预测结果的预测概率以及预测不确定性，将符合预设样本更新条件的第二样本更新为第三样本，并依据预测概率确定第三样本的第二疾病标签，利用第三样本以及第二疾病标签迭代训练第一疾病预测模型，得到最终训练完成的目标疾病预测模型；最后输入模块可将目标患者上传的患者病理数据输入目标疾病预测模型，即可得到目标疾病预测结果。通过本申请中的技术方案，可先在有标签数据上训练一个预测模型，然后用该模型对无标签数据进行预测，得到“伪标签”，从中挑选出质量较高的放入训练集，跟之前有标签的数据一起再次训练模型，不断迭代，直至收敛，最终得到预测精度较高的目标疾病预测模型。相比于需要医生或者相关领域专家进行数据标注，根据标注好的医疗数据训练疾病预测模型的方式相比，本申请可应用于自训练学习技术，以有效的利用海量无标签医疗数据，通过自训练学习技术提升预测模型的精准度和鲁棒性。同时鉴于去除了人工标注环节，故还可提高疾病预测的效率、降低疾病预测成本。

在具体的应用场景中，在利用第一样本集中的第一样本以及对应的第一疾病标签预训练第一疾病预测模型时，第一训练模块12，具体可用于将第一样本集中的第一样本作为输入特征，将第一样本对应的第一疾病标签作为标签数据预训练第一疾病预测模型，获取第一疾病预测模型的训练预测结果；若基于第一疾病标签判定训练预测结果的预测准确度大于预设准确度阈值，则判定第一疾病预测模型预训练完成。

相应的，在将符合预设样本更新条件的第二样本更新为第三样本，并依据预测概率确定第三样本的第二疾病标签时，第二训练模块11，具体可用于依据第一疾病预测结果，在第二样本集中提取第一预设数量个对应预测概率大于第一预设阈值且预测不确定性小于第二预设阈值的第二样本作为第三样本；将第三样本对应预测概率最大的预设标签确定为第三样本的第二疾病标签。

相应的，为了基于第三样本以及第二疾病标签迭代训练第一疾病预测模型，得到目标疾病预测模型，第二训练模块11，具体可用于将第三样本更新至第一样本集，并利用更新后的第一样本集训练第一疾病预测模型；重复执行上述筛选第一预设数量个第三样本，将第三样本更新至第一样本集，并利用更新后的第一样本集训练第一疾病预测模型的过程，直至确定训练进程符合预设迭代终止条件，判定第一疾病预测模型迭代训练完成，得到目标疾病预测模型。

在具体的应用场景中，目标疾病预测结果包括预测疾病以及预测疾病对应的发病概率，相应的，在获取到目标疾病预测结果，如图2所示，该装置还包括：第一提取模块15、第二提取模块16、发送模块17；

第一提取模块15，可用于在预测疾病中提取对应发病概率大于第三预设阈值的目标疾病；

第二提取模块16，可用于根据疾病知识图谱提取与目标疾病匹配的疾病注意事项；

发送模块17，可用于将目标疾病以及疾病注意事项发送至目标患者。

相应的，为了预先生成疾病知识图谱，如图2所示，该装置还包括：第三提取模块18、第四提取模块19、构建模块110；

第三提取模块18，可用于获取历史疾病数据，并采用预设的知识图谱构建工具从历史疾病信息中提取第一实体，对第一实体进行去重处理，得到第二实体，第一实体和第二实体至少包括预设疾病、疾病注意事项；

第四提取模块19，可用于在历史疾病数据中提取任意两个第二实体之间的实体关系；

构建模块110，可用于利用第二实体以及实体关系构建疾病知识图谱，以使第二实体作为疾病知识图谱的知识图谱节点，实体关系作为疾病知识图谱的边。

相应的，在对第一实体进行去重处理，得到第二实体时，第三提取模块18，具体可用于对所有第一实体进行同义词判断，将属于同一同义词组的第一实体替换为同义词组中的预设词汇，得到第二实体。

进一步的，作为图1和图2所示装置的具体实现，如图3所示，提供了疾病预测装置进行疾病预测时的一种实施步骤：

201、利用确定模块确定由样本病理数据构建的样本集，样本集包括配置疾病标签的第一样本集以及未配置疾病标签的第二样本集。

202、第一训练模块将第一样本集中的第一样本作为输入特征，将第一样本对应的第一疾病标签作为标签数据预训练第一疾病预测模型，获取第一疾病预测模型的训练预测结果，若基于第一疾病标签判定训练预测结果的预测准确度大于预设准确度阈值，则判定第一疾病预测模型预训练完成。

对于本实施例，在对第一疾病预测模型进行预训练时，可采用有监督学习的方式，将配置有第一疾病标签的第一样本作为输入特征预训练第一疾病预测模型，在训练过程中，不断根据第一疾病预测模型的预测结果和第一疾病标签的差值确定预测误差，并基于预测误差不断调整第一疾病预测模型的模型参数，使得误差越来越小，直至判断训练完成。

203、第一训练模块进一步将第二样本集中的第二样本输入预训练完成的第一疾病预测模型中，获取第一疾病预测结果。

对于本实施例，若判定第一疾病预测模型预训练完成，则可进一步将第二样本集中的第二样本输入预训练完成的第一疾病预测模型中，获取第一疾病预测结果。其中，第一疾病预测结果可包括针对各个预设疾病的预测概率以及各个预测概率对应的预测不确定性，以便依据该预测概率以及预测不确定性在第二样本集中筛选出能够用于丰富第一样本集的第二样本。

204、第二训练模块依据第一疾病预测结果，在第二样本集中提取第一预设数量个对应预测概率大于第一预设阈值且预测不确定性小于第二预设阈值的第二样本作为第三样本，并将第三样本对应预测概率最大的预设标签确定为第三样本的第二疾病标签，将第三样本更新至第一样本集，并利用更新后的第一样本集训练第一疾病预测模型。

对于本实施例，鉴于带有疾病标签的第一样本的数量较小，故预训练后的第一疾病预测模型仍无法保证较高的精准度，故可在获取第一疾病预测结果后，由第二训练模块进一步依据第一疾病预测结果的预测概率以及预测不确定性，在第二样本集中提取第一预设数量个对应预测概率大于第一预设阈值且预测不准确性小于第二预设阈值的第二样本。鉴于提取出的第二样本对应的预测概率较大且预测不准确性较小，故可判定该第二样本的疾病预测结果较为精准，进而可将该第二样本对应的疾病预测结果生成该第二样本的“违标签”，即第二疾病标签。进一步利用配置有第二疾病标签的第二样本丰富第一样本集，以便基于丰富样本量的第一样本集实现对第一疾病预测模型的迭代训练。

205、由第二训练模块重复执行上述筛选第一预设数量个第三样本，将第三样本更新至第一样本集，并利用更新后的第一样本集训练第一疾病预测模型的过程，直至确定训练进程符合预设迭代终止条件，判定第一疾病预测模型迭代训练完成，得到目标疾病预测模型。

其中，预设迭代终止条件为第二样本集中没有可供转化为第一样本的无标签样本；和/或第二样本集中剩余第二样本的预测不确定性(uncertainty)均大于预设阈值。对于本实施例，当判定训练进程符合预设迭代终止条件时，即可结束对第一用药推荐模型的迭代训练，将当前训练进程下的第一用药推荐模型确定为最终可应用于实际全科用药推荐场景下的应用模型。

206、输入模块在获取目标患者上传的患者病理数据后，将患者病理数据输入目标疾病预测模型，得到目标疾病预测结果。

对于本实施例，目标疾病预测结果包括预测疾病以及预测疾病对应的发病概率，作为一种可选实施方式，在得到目标疾病预测结果后，还可利用第一提取模块在预测疾病中提取对应发病概率大于第三预设阈值的目标疾病；由第二提取模块根据疾病知识图谱提取与目标疾病匹配的疾病注意事项；利用发送模块将目标疾病以及疾病注意事项发送至目标患者。

相应的，在根据疾病知识图谱提取与目标疾病匹配的疾病注意事项之前，实施例步骤还可以包括：利用第三提取模块获取历史疾病数据，并采用预设的知识图谱构建工具从历史疾病信息中提取第一实体，对第一实体进行去重处理，得到第二实体，第一实体和第二实体至少包括预设疾病、疾病注意事项；进一步利用第四提取模块在历史疾病数据中提取任意两个第二实体之间的实体关系；最后由构建模块利用第二实体以及实体关系构建疾病知识图谱，以使第二实体作为疾病知识图谱的知识图谱节点，实体关系作为疾病知识图谱的边。

其中，预设的知识图谱构建工具可以为任意工具，任如为现有的SPSS、UcinetNetDraw、VOSviewer等等，由于上述工具是现有的知识图谱构建工具，因此不再赘述。

在具体的应用场景中，利用第四提取模块在历史疾病信息中提取第一实体时，实施例步骤具体可以包括：对历史疾病信息进行分词处理，从而获得由多个词构成的词序列，按照预设关键词提取算法在词序列中提取第一实体。相应的，在对第一实体进行去重处理，得到第二实体时，实施例步骤具体还可以包括：对所有第一实体进行同义词判断，将属于同一同义词组的第一实体替换为同义词组中的预设词汇，得到第二实体。

其中，在进行分词处理时，可利用现有的切词工具(如CRF分词器)对历史疾病信息进行词语切分，得到各个独立的词语以及分词后的词序列，其中，每个词语标记有对应的目标词性。各个词语作为词序列中的元素，按照在输入文本中的出现位置依次排列，进一步得到词序列，对应词序列的格式为：[词1，词2，词3，…词N]。预设关键词提取算法可为TF-IDF算法，计算各个切分词语的权重值，进而提取出对应权重值大于预设权重阈值的词语作为第一实体。相应的，在利用TF-IDF算法计算各个切分词语的权重值时，实施例步骤具体可以包括：根据第一计算公式计算词序列中词语的词频；根据第二计算公式计算词序列中词语的逆向文件频率；将词频与逆向文件频率的乘积，确定为词语对应历史疾病信息的权重值。

其中，第一计算公式的特征描述为：

其中，TF_ij为词语i的词频，ni,j为词语i在词序列dj中出现的次数，

为词序列dj中所有词语的数量之和；第二计算公式的特征描述为：

其中，IDF_i为词语ti的逆向文件频率，|D|为文本集合中词序列的总数量，|{j:ti∈dj}|+1表示包含词语ti的词序列的数量。

借由上述基于自训练学习的疾病预测流程，可在确定出样本病理数据后，进一步利用样本病理数据中配置疾病标签的第一样本以及对应的第一疾病标签预训练第一疾病预测模型，进而将样本病理数据中未配置疾病标签的第二样本输入预训练完成的第一疾病预测模型中，获取第一疾病预测结果；进一步依据第一疾病预测结果的预测概率以及预测不确定性，将符合预设样本更新条件的第二样本更新为第三样本，并依据预测概率确定第三样本的第二疾病标签，利用第三样本以及第二疾病标签迭代训练第一疾病预测模型，得到最终训练完成的目标疾病预测模型；最后可将目标患者上传的患者病理数据输入目标疾病预测模型，即可得到目标疾病预测结果。通过本申请中的技术方案，可先在有标签数据上训练一个预测模型，然后用该模型对无标签数据进行预测，得到“伪标签”，从中挑选出质量较高的放入训练集，跟之前有标签的数据一起再次训练模型，不断迭代，直至收敛，最终得到预测精度较高的目标疾病预测模型。相比于需要医生或者相关领域专家进行数据标注，根据标注好的医疗数据训练疾病预测模型的方式相比，本申请可应用于自训练学习技术，以有效的利用海量无标签医疗数据，通过自训练学习技术提升预测模型的精准度和鲁棒性。同时鉴于去除了人工标注环节，故还可提高疾病预测的效率、降低疾病预测成本。此外，在本申请中，还可结合知识图谱技术，实现对目标患者的目标疾病以及疾病注意事项的推送，进而能够营造良好的用户体验。

基于上述如图1至图2所示装置，相应的，本实施例还提供了一种存储介质，存储介质具体可为易失性或非易失性，其上存储有计算机可读指令，该可读指令被处理器执行时实现自训练学习的疾病预测方法，包括：确定由样本病理数据构建的样本集，样本集包括配置疾病标签的第一样本集以及未配置疾病标签的第二样本集；利用第一样本集中的第一样本以及对应的第一疾病标签预训练第一疾病预测模型，并将第二样本集中的第二样本输入预训练完成的第一疾病预测模型中，获取第一疾病预测结果；依据第一疾病预测结果的预测概率以及预测不确定性，将符合预设样本更新条件的第二样本更新为第三样本，并依据预测概率确定第三样本的第二疾病标签，利用第三样本以及第二疾病标签迭代训练第一疾病预测模型，得到目标疾病预测模型；获取目标患者上传的患者病理数据，并将患者病理数据输入目标疾病预测模型，得到目标疾病预测结果。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景的方法。

基于上述如图1至图2所示的虚拟装置实施例，为了实现上述目的，本实施例还提供了一种计算机设备，该计算机设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现自训练学习的疾病预测方法，包括：确定由样本病理数据构建的样本集，样本集包括配置疾病标签的第一样本集以及未配置疾病标签的第二样本集；利用第一样本集中的第一样本以及对应的第一疾病标签预训练第一疾病预测模型，并将第二样本集中的第二样本输入预训练完成的第一疾病预测模型中，获取第一疾病预测结果；依据第一疾病预测结果的预测概率以及预测不确定性，将符合预设样本更新条件的第二样本更新为第三样本，并依据预测概率确定第三样本的第二疾病标签，利用第三样本以及第二疾病标签迭代训练第一疾病预测模型，得到目标疾病预测模型；获取目标患者上传的患者病理数据，并将患者病理数据输入目标疾病预测模型，得到目标疾病预测结果。

可选的，该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的一种计算机设备结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与信息处理实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。

通过应用本申请的技术方案，与目前现有技术相比，本申请可在确定出样本病理数据后，进一步利用样本病理数据中配置疾病标签的第一样本以及对应的第一疾病标签预训练第一疾病预测模型，进而将样本病理数据中未配置疾病标签的第二样本输入预训练完成的第一疾病预测模型中，获取第一疾病预测结果；进一步依据第一疾病预测结果的预测概率以及预测不确定性，将符合预设样本更新条件的第二样本更新为第三样本，并依据预测概率确定第三样本的第二疾病标签，利用第三样本以及第二疾病标签迭代训练第一疾病预测模型，得到最终训练完成的目标疾病预测模型；最后可将目标患者上传的患者病理数据输入目标疾病预测模型，即可得到目标疾病预测结果。通过本申请中的技术方案，可先在有标签数据上训练一个预测模型，然后用该模型对无标签数据进行预测，得到“伪标签”，从中挑选出质量较高的放入训练集，跟之前有标签的数据一起再次训练模型，不断迭代，直至收敛，最终得到预测精度较高的目标疾病预测模型。相比于需要医生或者相关领域专家进行数据标注，根据标注好的医疗数据训练疾病预测模型的方式相比，本申请可应用于自训练学习技术，以有效的利用海量无标签医疗数据，通过自训练学习技术提升预测模型的精准度和鲁棒性。同时鉴于去除了人工标注环节，故还可提高疾病预测的效率、降低疾病预测成本。此外，在本申请中，还可结合知识图谱技术，实现对目标患者的目标疾病以及疾病注意事项的推送，进而能够营造良好的用户体验。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种基于自训练学习的疾病预测装置，其特征在于，包括：

2.根据权利要求1所述的装置，其特征在于，所述第一训练模块，用于：

将所述第一样本集中的第一样本作为输入特征，将所述第一样本对应的第一疾病标签作为标签数据预训练第一疾病预测模型，获取所述第一疾病预测模型的训练预测结果；

若基于所述第一疾病标签判定所述训练预测结果的预测准确度大于预设准确度阈值，则判定所述第一疾病预测模型预训练完成。

3.根据权利要求1所述的装置，其特征在于，所述第二训练模块，用于：

依据所述第一疾病预测结果，在所述第二样本集中提取第一预设数量个对应预测概率大于第一预设阈值且预测不确定性小于第二预设阈值的第二样本作为第三样本；

将所述第三样本对应预测概率最大的预设标签确定为所述第三样本的第二疾病标签。

4.根据权利要求3所述的装置，其特征在于，所述第二训练模块，用于：

将所述第三样本更新至所述第一样本集，并利用更新后的第一样本集训练所述第一疾病预测模型；

重复执行上述筛选第一预设数量个第三样本，将所述第三样本更新至所述第一样本集，并利用更新后的第一样本集训练所述第一疾病预测模型的过程，直至确定所述训练进程符合预设迭代终止条件，判定所述第一疾病预测模型迭代训练完成，得到目标疾病预测模型。

5.根据权利要求1所述的装置，其特征在于，所述装置还包括：

第一提取模块，用于在所述预测疾病中提取对应所述发病概率大于第三预设阈值的目标疾病；

第二提取模块，用于根据疾病知识图谱提取与目标疾病匹配的疾病注意事项；

发送模块，用于将所述目标疾病以及所述疾病注意事项发送至所述目标患者。

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

第三提取模块，用于获取历史疾病数据，并采用预设的知识图谱构建工具从所述历史疾病信息中提取第一实体，对所述第一实体进行去重处理，得到第二实体，所述第一实体和所述第二实体至少包括预设疾病、疾病注意事项；

第四提取模块，用于在所述历史疾病数据中提取任意两个所述第二实体之间的实体关系；

构建模块，用于利用所述第二实体以及所述实体关系构建疾病知识图谱，以使所述第二实体作为所述疾病知识图谱的知识图谱节点，所述实体关系作为所述疾病知识图谱的边。

7.根据权利要求6所述的装置，其特征在于，所述第三提取模块，用于：

对所有第一实体进行同义词判断，将属于同一同义词组的第一实体替换为同义词组中的预设词汇，得到第二实体。

8.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现自训练学习的疾病预测方法，包括：

9.根据权利要求8所述的存储介质，其特征在于，所述存储介质被处理器执行时实现利用所述第一样本集中的第一样本以及对应的第一疾病标签预训练第一疾病预测模型，包括：

10.一种计算机设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现自训练学习的疾病预测方法，包括：