CN113705092B

CN113705092B - 基于机器学习的疾病预测方法及装置

Info

Publication number: CN113705092B
Application number: CN202110981411.3A
Authority: CN
Inventors: 蒋雪涵
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2023-09-22
Anticipated expiration: 2041-08-25
Also published as: CN113705092A

Abstract

本发明涉及人工智能技术领域，揭露一种基于机器学习的疾病预测方法，包括：获取样本用户的文本病例信息，并将样本用户的文本病例信息形成文本信息组合，将文本信息组合输入至包括文本编码器和因果分辨模块的网络模型中进行训练，文本编码器用于提取文本信息组合的向量表示，以及根据文本信息组合的向量表示进行疾病类别预测，因果矫正模块用于对文本信息组合中不同疾病症状之间的差异化字符进行预测，使用训练后的文本编码器构建疾病预测模型，利用疾病预测模型对目标用户的文本病例信息进行预测，输出目标用户对应的疾病类别。本发明能够针对疾病预测过程中疾病症状与疾病类别之间的因果关系进行解释，提高疾病预测结果的准确率。

Description

基于机器学习的疾病预测方法及装置

技术领域

本发明涉及人工智能技术领域，尤其是涉及到基于机器学习的疾病预测方法、装置、计算机设备及计算机存储介质。

背景技术

临床辅助医学鞠策系统（CDSS）是一种根据患者病情为医生的临床决策提供辅助建议的系统，随着医疗大数据行业的蓬勃发展，CDSS根据患者的症状、症状持续时间、历史病、用药史等信息输入模型进行预测，并将预测得到疑似的疾病提供医生参考。

考虑医疗领域的特殊性，需要模型具有较高的可解释性，目前提供解释性的方法主要使用传统机器学习的模型，且可处理的数据主要是结构化数据。然，传统机器学习的模型往往精度较低，使用效果不好，深度学习的模型具有更高的精度，而大多是黑盒模型在开发过程中并未关注如何提高可解释性，融合注意力机制的深度学习模型可提供部分可解释性，但这样的可解释性会使得模型学习到的关联关系较强，例如，患者的主诉中由咳嗽、咽痛的症状，实际被医生诊断为急性扁桃体炎，深度学习模型由于学习到“咳嗽”与“急性上呼吸道感染”的相关性很强，会推荐诊断为“急性上呼吸道感染”，并且基于注意力机制的深度学习模型会赋予“咳嗽”较强的相关性，而实际“咽痛”才是医生更看重的症状，使得提供部分可解释性的模型会出现过度解释或者错误解释的情况，影响疾病预测的结果。

发明内容

有鉴于此，本发明提供了一种基于机器学习的疾病预测方法、装置、计算机设备及计算机存储介质，主要目的在于解决现有技术中提供部分可解释性的模型会出现过度解释或者错误解释的情况，影响疾病预测结果的问题。

依据本发明一个方面，提供了一种基于机器学习的疾病预测方法，该方法包括：

获取样本用户的文本病例信息，并将所述样本用户的文本病例信息形成文本信息组合；

将所述文本信息组合输入至包括文本编码器和因果分辨模块的网络模型中进行训练，所述文本编码器用于提取文本信息组合的向量表示，以及根据所述文本信息组合的向量表示进行疾病类别预测，所述因果分辨模块用于对所述文本信息组合中不同疾病症状之间的差异化字符进行预测；

使用训练后的文本编码器构建疾病预测模型；

响应于疾病预测指令，利用所述疾病预测模型对所述疾病预测指令携带目标用户的文本病例信息进行预测，输出目标用户对应的疾病类别。

在本发明另一实施例中，所述获取样本用户的文本病例信息，并将所述样本用户的文本病例信息形成文本信息组合，具体包括：

针对样本用户的文本病例信息进行标记，得到文本病例信息具有的疾病症状和疾病类别标签；

选取至少两个具有不同疾病症状和相同疾病类别标签的文本病例信息，并针对不同疾病症状之间的差异化字符将选取的至少两个文本病例信息形成文本信息组合。

在本发明另一实施例中，所述文本信息组合具有不同疾病症状和相同疾病类别标签的至少两个文本病例信息，所述至少两个文本病例信息中携带有不同疾病症状之间的差异化字符标签，所述将所述文本信息组合输入至包括文本编码器和因果分辨模块的网络模型中进行训练，具体包括：

将所述文本信息组合输入至网络模型中的文本编码器进行训练，得到文本信息组合中每个文本病例信息的向量表示以及每个文本病例信息预测得到的疾病类别；

将所述文本信息组合中每个文本病例信息的向量表示以及每个文本病例信息预测得到的疾病类别输入至网络模型中的因果分辨模块进行训练，得到文本信息组合中不同疾病症状之间的差异化字符；

所述使用训练后的文本编码器构建疾病预测模型，具体包括：

在对所述文本编码器和所述因果分辨模块训练过程中，利用所述文本病例信息的疾病类别标签和所述差异化字符标签对所述网络模型中参数进行调整；

使用经过参数调整后的文本编码器构建疾病预测模型。

在本发明另一实施例中，所述文本编码器与所述因果分辨模块在训练过程中进行对抗学习，以对所述文本信息组合的向量表示进行因果矫正，并根据矫正后的向量表示评估每个差异化字符的可解释性。

在本发明另一实施例中，所述在对所述文本编码器和所述因果分辨模块训练过程中，利用所述文本病例信息的疾病类别标签和所述差异化字符标签对所述网络模型中参数进行调整，具体包括：

在对所述文本编码器和所述因果分辨模块训练过程中，针对每个文本病例信息设置交叉熵损失函数，并将所述交叉熵损失函数结合平衡损失函数作为网络模型的损失函数；

将文本病例信息的疾病类别标签和所述差异化字符标签带入所述网络模型的损失函数，计算所述网络模型的损失值；

根据所述损失值对所述网络模型中参数进行调整。

在本发明另一实施例中，在所述将所述文本信息组合输入至包括文本编码器和因果分辨模块的网络模型中进行训练之前，所述方法还包括：

根据症状数据或词条库，提取所述文本信息组合中不同疾病症状的字符；

针对所述不同疾病症状的字符中存在差异的字符进行标记，形成不同疾病症状之间的差异化字符标签。

在本发明另一实施例中，在所述将所述文本信息组合输入至包括文本编码器和因果分辨模块的网络模型中进行训练之后，所述方法还包括：

针对文本病例信息，利用所述文本编码器输出第一预测结果；

使用模型解释模块对所述文本病例信息中表征疾病症状的字符进行处理，并针对处理后的文本病例信息，利用所述文本编码器输出第二预测结果；

通过计算所述第一预测结果与所述第二预测结果之间的分布差，根据所述分布差对所述文本病例信息中表征疾病症状的字符表示是否影响疾病预测结果进行因果关系评估。

依据本发明另一个方面，提供了一种基于机器学习的疾病预测装置，所述装置包括：

获取单元，用于获取样本用户的文本病例信息，并将所述样本用户的文本病例信息形成文本信息组合；

训练单元，用于将所述文本信息组合输入至包括文本编码器和因果分辨模块的网络模型中进行训练，所述文本编码器用于提取文本信息组合的向量表示，以及根据所述文本信息组合的向量表示进行疾病类别预测，所述因果分辨模块用于对所述文本信息组合中不同疾病症状之间的差异化字符进行预测；

构建单元，用于使用训练后的文本编码器构建疾病预测模型；

预测单元，用于响应于疾病预测指令，利用所述疾病预测模型对所述疾病预测指令携带目标用户的文本病例信息进行预测，输出目标用户对应的疾病类别。

在本发明另一实施例中，所述获取单元包括：

标记模块，用于针对样本用户的文本病例信息进行标记，得到文本病例信息具有的疾病症状和疾病类别标签；

选取模块，用于选取至少两个具有不同疾病症状和相同疾病类别标签的文本病例信息，并针对不同疾病症状之间的差异化字符将选取的至少两个文本病例信息形成文本信息组合。

在本发明另一实施例中，所述文本信息组合具有不同疾病症状和相同疾病类别标签的至少两个文本病例信息，所述至少两个文本病例信息中携带有不同疾病症状之间的差异化字符标签，所述训练单元包括：

第一训练模块，用于将所述文本信息组合输入至网络模型中的文本编码器进行训练，得到文本信息组合中每个文本病例信息的向量表示以及每个文本病例信息预测得到的疾病类别；

第二训练模块，用于将所述文本信息组合中每个文本病例信息的向量表示以及每个文本病例信息预测得到的疾病类别输入至网络模型中的因果分辨模块进行训练，得到文本信息组合中不同疾病症状之间的差异化字符；

所述构建单元包括：

调整模块，用于在对所述文本编码器和所述因果分辨模块训练过程中，利用所述文本病例信息的疾病类别标签和所述差异化字符标签对所述网络模型中参数进行调整；

构建模块，用于使用经过参数调整后的文本编码器构建疾病预测模型。

在本发明另一实施例中，所述调整模块包括：

设置子模块，用于在对所述文本编码器和所述因果分辨模块训练过程中，针对每个文本病例信息设置交叉熵损失函数，并将所述交叉熵损失函数结合平衡损失函数作为网络模型的损失函数；

计算子模块，用于将文本病例信息的疾病类别标签和所述差异化字符标签带入所述网络模型的损失函数，计算所述网络模型的损失值；

调整子模块，用于根据所述损失值对所述网络模型中参数进行调整。

在本发明另一实施例中，所述装置还包括：

提取单元，用于在所述将所述文本信息组合输入至包括文本编码器和因果分辨模块的网络模型中进行训练之前，根据症状数据或词条库，提取所述文本信息组合中不同疾病症状的字符；

标记单元，用于针对所述不同疾病症状的字符中存在差异的字符进行标记，形成不同疾病症状之间的差异化字符标签。

在本发明另一实施例中，所述装置还包括：

第一输出单元，用于在所述将所述文本信息组合输入至包括文本编码器和因果分辨模块的网络模型中进行训练之后，针对文本病例信息，利用所述文本编码器输出第一预测结果；

第二输出单元，用于使用模型解释模块对所述文本病例信息中表征疾病症状的字符进行处理，并针对处理后的文本病例信息，利用所述文本编码器输出第二预测结果；

评估单元，用于通过计算所述第一预测结果与所述第二预测结果之间的分布差，根据所述分布差对所述文本病例信息中表征疾病症状的字符表示是否影响疾病预测结果进行因果关系评估。

依据本发明又一个方面，提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现基于机器学习的疾病预测方法的步骤。

依据本发明再一个方面，提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现基于机器学习的疾病预测方法的步骤。

借由上述技术方案，本发明提供一种基于机器学习的疾病预测方法及装置，通过获取样本用户的文本病例信息，并将样本用户的文本病例信息形成文本信息组合，然后将文本信息组合输入至包括文本编码器和因果分辨模块的网络模型中进行训练，该文本编码器用于提取文本信息组合的向量表示，以及根据文本信息组合的向量表示进行疾病类别预测，因果分辨模块用于对文本信息组合中不同疾病症状之间的差异化字符进行预测，并使用训练后的文本编码器构建疾病预测模型，响应于疾病预测指令，利用疾病预测模型对疾病预测指令携带目标用户的文本病例信息进行预测，输出目标用户对应的疾病类别。与现有技术中使用融合注意力机制的深度学习模型进行疾病预测的方式相比，本申请通过文本编码器和因果分辨模块的对抗学习，去除文本信息的向量表示中不相关的文本信息，进而针对疾病预测过程中疾病症状与疾病类别之间的因果关系进行解释，提高疾病预测结果的准确性。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种基于机器学习的疾病预测方法的流程示意图；

图2示出了本发明实施例提供的另一种基于机器学习的疾病预测方法的流程示意图；

图3示出了本发明实施例提供的网络模型训练过程的流程框图；

图4示出了本发明实施例提供的网络模型解释过程的流程框图；

图5示出了本发明实施例提供的一种基于机器学习的疾病预测装置的结构示意图；

图6示出了本发明实施例提供的另一种基于机器学习的疾病预测装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能（Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本发明实施例提供了一种基于机器学习的疾病预测方法，通过在模型训练过程中动态评估文本病例信息中字符对疾病预测的因果关系，以使得网络模型输出的文本信息组合的向量具有因果关系的解释性，提高疾病预测结果的准确率，如图1所示，该方法包括：

101、获取样本用户的文本病例信息，并将所述样本用户的文本病例信息形成文本信息组合。

其中，文本病例信息为用户的就诊信息，可以包括疾病症状、疾病类别、发病时间、持续时长等，如患者的主诉、现病史、检验检查结果报告等，文本信息组合包括至少两个文本病例信息，且至少两个文本病例信息具有不同疾病症状和相同疾病类别，以两个文本病例信息形成文本信息组合为例说明，一个文本病例信息的疾病症状为：发热、咳嗽3天，另一个文本病例信息的疾病症状为咳嗽、流鼻涕2天，两者诊断结果都是急性上呼吸道感染。

可以理解的是，考虑到不同疾病症状对疾病类别预测结果的影响不同，这里可以将疾病症状可以形成字符，并利用不同疾病症状之间的差异化字符来训练网络模型，以对疾病类别预测无影响的字符进行因果关系矫正，以调整后续训练网络模型过程中疾病症状对疾病预测结果的影响权重。

上述不同疾病症状之间的差异化字符为多个文本病例信息中对疾病类别预测无影响的字符，例如，一个文本病例信息的疾病症状为咳嗽和头疼，另一个文本信息的疾病症状为咳嗽，两个人都被诊断为感冒，此时头疼即作为文本信息中对疾病类别预测无影响的字符。

在本发明实施例中，执行主体可以为基于机器学习的疾病预测装置，具体应用在服务器端，这里文本病例信息形成的文本信息组合具有不同疾病症状和相同疾病类别标签的至少两个文本病例信息，且至少两个文本病例信息中携带有不同疾病症状之间的差异化字符标签，能够从一定程度上反映出疾病症状对疾病预测结果的相关性，可评估每个疾病症状对疾病分类结果的可解释性。

上述服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

102、将所述文本信息组合输入至包括文本编码器和因果分辨模块的网络模型中进行训练。

其中，文本编码器可选用TextCNN、BERT、LSTM等众多自然语言处理模型，输入参数为多个文本信息形成的文本信息组合，输出参数为多个文本病例信息的向量表示，进一步对多个文本病例信息的向量表示进行分类，还可以输出每个文本病例信息映射疾病类别的预测值，因果分辨模块可选用神经网络的结构，输入参数为文本信息组合的向量表示以及多个文本病例信息映射疾病类别的预测值，输出参数为文本信息组合中不同疾病症状之间的差异化字符。

本申请中，网络模型主要包括文本编码器和因果分辨模块两部分，针对文本编码器，可将文本新组合转换为每个文本病例信息的向量化表示，用于提取文本信息组合的向量表示，然后根据文本信息组合的向量表示进行疾病类别预测，得到多个疾病预测结果，针对因果分辨模块，可结合多个疾病预测结果对文本信息组合的向量表示进行因果矫正，以输出不同疾病症状之间的差异化字符，用于对文本信息组合中不同疾病症状之间的差异化字符进行预测，该过程可去除工具变量，矫正混杂因子，得到因果矫正后文本信息组合的向量表示。

这里文本编码器和因果分辨模型可使用人工智能的机器算法结合文本信息组合中不同疾病症状之间的差异化字符进行预测，以将文本病例信息转换为向量表示，并在训练过程中文本编码器与因果分辨模型进行对抗学习，即两者的优化目标是相反的，通过对抗学习，可以使得文本病例信息的向量表示中去除评估对疾病预测结果无关的疾病症状信息，以提高疾病预测结果的准确率。

103、使用训练后的文本编码器构建疾病预测模型。

可以理解的是，训练后的文本编码器在提取文本病例信息的向量表示过程中，可以针对文本病例信息中疾病症状映射的特征向量进行因果关系矫正，具体通过评估特征向量对疾病类别预测结果之间的因果关系，以根据评估得到的因果关系对文本病例信息的向量表示中疾病特征映射的特征向量进行权重调整，使得文本编码器输出文本病例信息能够体现疾病症状与疾病类别之间具有可解释的因果关系，增加了疾病预测结果的可靠性。

104、响应于疾病预测指令，利用所述疾病预测模型对所述疾病预测指令携带目标用户的文本病例信息进行预测，输出目标用户对应的疾病类别。

可以理解的是，目标用户的文本病例信息在预测过程中会形成文本病例信息的向量表示，该文本病例信息还需要连接分类器中进行疾病类别的映射，或者在疾病预测模型中内嵌分类层，进一步通过将文本病例信息输入至分类器或分类层，得到文本病例信息的向量表示映射在不同疾病类别上的概率，即目标用户对应的疾病类别。

具体在疾病预测过程中，可使用目标用户的文本病例信息作为输入参数，训练后文本编码器所构建的疾病预测模型能够对文本病例信息的向量表示进行因果矫正，以评估文本病例信息中疾病症状对疾病类别预测的因果关系，使得输出目标用户对应的疾病类别具有更高的准确性。

本发明实施例提供的一种基于机器学习的疾病预测方法，通过获取样本用户的文本病例信息，并将样本用户的文本病例信息形成文本信息组合，然后将文本信息组合输入至包括文本编码器和因果分辨模块的网络模型中进行训练，该文本编码器用于提取文本信息组合的向量表示，以及根据文本信息组合的向量表示进行疾病类别预测，因果分辨模块用于对文本信息组合中不同疾病症状之间的差异化字符进行预测，并使用训练后的文本编码器构建疾病预测模型，响应于疾病预测指令，利用疾病预测模型对疾病预测指令携带目标用户的文本病例信息进行预测，输出目标用户对应的疾病类别。与现有技术中使用融合注意力机制的深度学习模型进行疾病预测的方式相比，本申请通过文本编码器和因果分辨模块的对抗学习，去除文本信息的向量表示中不相关的文本信息，进而针对疾病预测过程中疾病症状与疾病类别之间的因果关系进行解释，提高疾病预测结果的准确性。

本发明实施例提供了另一种基于机器学习的疾病预测方法，通过在模型训练过程中动态评估文本病例信息中字符对疾病预测的因果关系，以使得网络模型输出的文本信息组合的向量具有因果关系的解释性，提高疾病预测结果的准确率，如图2所示，所述方法包括：

201、针对样本用户的文本病例信息进行标记，得到文本病例信息具有的疾病症状和疾病类别标签。

这里文本病例信息相当于医疗文本数据，该医疗文本数据可以是医疗电子记录（Electronic Healthcare Reccord）、电子化的个人健康记录，包括病例、心电图、医学影像等一系列具有保存备查价值的电子化记录。

由于文本病例信息相当于结构化的数据，该结构化的数据通常按照病例规范制定表格，设置医护人员必须填写固定项目，便于查询、统计和分析。具体针对样本用户的文本病例信息进行标记的过程中，可以针对文本病例信息设置标记元素，这里标记元素主要包括涉及疾病症状和疾病类别的关键词，进一步针对本病例信息中涉及疾病症状和疾病类别的关键词进行标记，得到文本信息具有的疾病症状和疾病类别标签。

202、选取至少两个具有不同疾病症状和相同疾病类别标签的文本病例信息，并针对不同疾病症状之间的差异化字符将选取的至少两个文本病例信息形成文本信息组合。

以两个具有不同疾病症状和相同疾病类别标签的文本病例信息举例，一个文本病例信息的疾病症状为咳嗽和头疼，另一个文本信息的疾病症状为咳嗽，两个人都被诊断为感冒，这两个文本病例信息形成文本信息组合。

203、将所述文本信息组合输入至网络模型中的文本编码器进行训练，得到文本信息组合中每个文本病例信息的向量表示以及每个文本病例信息预测得到的疾病类别。

可以理解的是，在将文本信息组合输入至网络模型中进行训练之前，这里文本信息组合中不同疾病症状之间的差异化字符标签需要预先确定，该差异化字符标签具体可以根据症状数据或词条库，提取所述文本信息组合中不同疾病症状的字符，并针对不同疾病症状的字符中存在差异的字符进行标记，形成不同疾病症状之间的差异化字符标签，例如，感冒的疾病症状“咳嗽”和“头疼”即为不同症状之间的差异化字符。

具体在训练过程中，文本信码器可获取到文本信息组合中每个文本病例信息的向量表示，并使用每个文本病例信息的向量表示对疾病列别进行预测，文本信息编码器的优化目标为最大化学习疾病类别的向量化表示，同时使得因果分辨模块难以预测不同疾病症状之间的差异化字符。也就是说，针对文本信息组合，会利用文本信息组合中不同疾病症状和相同疾病类别标签进行训练。

204、将所述文本信息组合中每个文本病例信息的向量表示以及每个文本病例信息预测得到的疾病类别输入至网络模型中的因果分辨模块进行训练，得到文本信息组合中不同疾病症状之间的差异化字符。

具体在训练过程中，因果分辨模块可以使用文本信息组合的向量表示与每个文本病例信息预测得到的疾病类别对文本信息组合中不同疾病症状之间的差异化字符进行预测，该因果分辨模块的优化目标为在存在疾病类别预测值的条件下，准确预测出输入文本信息组合中不同疾病症状之间的差异化字符。也就是说，针对文本信息组合，会利用文本信息组合中不同疾病症状和相同疾病类别标签进行训练。、

可以理解的是，因果分辨模块的作用是与文本编码器对抗训练，从而减少文本编码器中对潜在重要其实却对分类无影响的字符token（因为这些字符token的出现与否并没有改变疾病类别标签，即样本i和样本j的疾病类别标签是一致的）的信息编码，这样文本编码器中就去除了对于这些字符token的编码信息，并根据因果推断的理论，在这样的变量上进行平衡，会增加对因果关系估计的误差。

205、在对所述文本编码器和所述因果分辨模块训练过程中，利用所述文本病例信息的疾病类别标签和所述差异化字符标签对所述网络模型中参数进行调整。

具体在对文本编码器和所述因果分辨模块训练过程中，可以针对每个文本病例信息设置交叉熵损失函数，并将交叉熵损失函数结合平衡损失函数作为网络模型的损失函数，进一步将文本病例信息的疾病类别标签和差异化字符标签带入网络模型的损失函数，计算网络模型的损失值，并根据损失值对所述网络模型中参数进行调整。

在实际应用场景中，以两个文本病例信息形成文本信息组合为例，针对网络模型的训练过程如图3所示，输入文本信息i和文本信息j，两者对应的疾病类别标签y相同，区别是疾病症状不同，该疾病症状为潜在对疾病类别预测具有重要作用的字符，该疾病症状不同产生的差异化字符即为s_ij，进一步文本信息j和文本信息j经过文本编码器后得到向量表示h_i和h_j，并根据向量表示h_i和h_j进行疾病类别标签预测，得到和/>，并在训练过程中结合多标签损失函数，每个标签对应一个交叉熵损失函数，多个标签为多个交叉熵损失函数相加，具体损失函数公示表示为：

其中，CE是交叉熵损失函数，其公式表示为，为样本的权重，通过平衡矫正得到；/>为平衡损失函数，作为文本编码器学习的一个模块，主要是矫正样本在对照组和治疗组特征分布，这里对照组和治疗组相当于样本训练过程中随机分配的文本病例信息，进而准确评估某个特征向量与预测结果的因果关系，输出为样本权重，即对样本进行加权，使得样本在所有维度上分布尽可能一致，这样就可以准确评估样本输入特征与预测结果的因果关系，避免了由分布不一致带来的相关性陷阱，实现对向量表示空间的因果矫正。

这里因果分辨模块的输入是h_i、h_j、和/>，输出向量表示c_i、c_j所形成的/>，具体损失函数公示表示为：

需要注意的是，平衡损失函数前面的是一个随着训练轮数逐渐增大的参数，因为在网络模型训练初期，优化的目标是去除带来误差的辅助变量（通过文本编码器和因果分辨模块的对抗学习实现）；模型优化后期，文本编码器和因果分辨模块达到平衡，此时增大/>，在训练文本编码器的过程中平衡各个维度上的分布，实现因果矫正。平衡损失函数的计算公式为：

其中，是文本编码器的向量表示矩阵，每行为一个样本，每列表示降维后的维度，该矩阵的尺寸为n*p，其中n为每个批训练中样本个数，p为向量化表示的维度个数，表示L2范数，表示对于维度k治疗组(维度k等于1的样本)和对照组（维度k等于0的样本）的在其他非第k维度的分布之差；/>表示H的第k列，用于指示治疗组和对照组；/>表示H中第k列为0后的H；W表示样本权重，是偏差矫正模块学习的最终结果。

206、使用经过参数调整后的文本编码器构建疾病预测模型。

可以理解的是，由于预先确定的差异化字符可能存在偏差，无法准确反映出差异化字符对疾病预测结果的因果影响，这里可以在使用预先训练的文本编码器构建疾病预测模型之前，针对文本编码器输出文本病例信息中表征疾病症状的字符是否影响疾病预测结果进行评估，具体可以针对文本病例信息，利用文本编码器输出第一预测结果，使用模型解释模块对文本病例信息中表征疾病症状的字符进行处理，这里处理方式可以为词语替换，可随机选取需要替换的词语，并针对处理后的文本病例信息，利用文本编码器输出第二预测结果，通过计算第一预测结果与第二预测结果之间的分布差，根据分布差对文本病例信息中表征疾病症状的字符表示是否影响疾病预测结果进行因果关系评估，这里分布差越大，说明表征疾病症状的字符表示对疾病预测结果的影响力越重。

具体针对网络模型解释过程如图4所示，在模型解释模块中，针对样本i输入至编码器中，得到，对于样本i中的词语token/>，评估其在样本i中对疾病类别预测的因果影响方法如下：

a)将去除词语token的样本i输入文本编码器中，得到其预测的/>；

b)将与/>对比，计算两者的分布之差，用KL散度计算如下：

c)KL散度越大，说明词语token对样本分类越重要。

207、响应于疾病预测指令，利用所述疾病预测模型对所述疾病预测指令携带目标用户的文本病例信息进行预测，输出目标用户对应的疾病类别。

本申请可实现对疾病类别预测过程中病症症状与疾病类别之间的可解释因果关系，通过因果分辨模块与文本编码器的对抗学习去除了文本信息中与疾病类别预测不相关的文本信息，同时在训练过程中动态调整平衡训练的模块的权重，通过调整该模块，实现了因果矫正，从而可以估计文本信息中的疾病症状对疾病分类依存的因果关系，能够在保证了模型精度的情况下，提供具有因果关系的解释性，同时在模型具备解释性后，可以为调优提供方向，提高模型的接受度。

进一步地，作为图1所述方法的具体实现，本发明实施例提供了一种基于机器学习的疾病预测装置，如图5所示，所述装置包括：获取单元31、训练单元32、构建单元33、预测单元34。

获取单元31，可以用于获取样本用户的文本病例信息，并将所述样本用户的文本病例信息形成文本信息组合；

训练单元32，可以用于将所述文本信息组合输入至包括文本编码器和因果分辨模块的网络模型中进行训练，所述文本编码器用于提取文本信息组合的向量表示，以及根据所述文本信息组合的向量表示进行疾病类别预测，所述因果分辨模块用于对所述文本信息组合中不同疾病症状之间的差异化字符进行预测；

构建单元33，可以用于使用训练后的文本编码器构建疾病预测模型；

预测单元34，可以用于响应于疾病预测指令，利用所述疾病预测模型对所述疾病预测指令携带目标用户的文本病例信息进行预测，输出目标用户对应的疾病类别。

本发明实施例提供的一种基于机器学习的疾病预测装置，通过获取样本用户的文本病例信息，并将样本用户的文本病例信息形成文本信息组合，然后将文本信息组合输入至包括文本编码器和因果分辨模块的网络模型中进行训练，该文本编码器用于提取文本信息组合的向量表示，以及根据文本信息组合的向量表示进行疾病类别预测，因果分辨模块用于对文本信息组合中不同疾病症状之间的差异化字符进行预测，并使用训练后的文本编码器构建疾病预测模型，响应于疾病预测指令，利用疾病预测模型对疾病预测指令携带目标用户的文本病例信息进行预测，输出目标用户对应的疾病类别。与现有技术中使用融合注意力机制的深度学习模型进行疾病预测的方式相比，本申请通过文本编码器和因果分辨模块的对抗学习，去除文本信息的向量表示中不相关的文本信息，进而针对疾病预测过程中疾病症状与疾病类别之间的因果关系进行解释，提高疾病预测结果的准确性。

作为图5中所示基于机器学习的疾病预测装置的进一步说明，图6是根据本发明实施例另一种基于机器学习的疾病预测装置的结构示意图，如图6所示，所述获取单元31包括：

标记模块311，可以用于针对样本用户的文本病例信息进行标记，得到文本病例信息具有的疾病症状和疾病类别标签；

选取模块312，可以用于选取至少两个具有不同疾病症状和相同疾病类别标签的文本病例信息，并针对不同疾病症状之间的差异化字符将选取的至少两个文本病例信息形成文本信息组合。

在具体应用场景中，如图6所示，所述文本信息组合具有不同疾病症状和相同疾病类别标签的至少两个文本病例信息，所述至少两个文本病例信息中携带有不同疾病症状之间的差异化字符标签，所述训练单元32包括：

第一训练模块321，可以用于将所述文本信息组合输入至网络模型中的文本编码器进行训练，得到文本信息组合中每个文本病例信息的向量表示以及每个文本病例信息预测得到的疾病类别；

第二训练模块322，可以用于将所述文本信息组合中每个文本病例信息的向量表示以及每个文本病例信息预测得到的疾病类别输入至网络模型中的因果分辨模块进行训练，得到文本信息组合中不同疾病症状之间的差异化字符；

所述构建单元33包括：

调整模块331，可以用于在对所述文本编码器和所述因果分辨模块训练过程中，利用所述文本病例信息的疾病类别标签和所述差异化字符标签对所述网络模型中参数进行调整；

构建模块332，可以用于使用经过参数调整后的文本编码器构建疾病预测模型。

在具体应用场景中，所述文本编码器与所述因果分辨模块在训练过程中进行对抗学习，以对所述文本信息组合的向量表示进行因果矫正，并根据矫正后的向量表示评估每个差异化字符的可解释性。

在具体应用场景中，如图6所示，所述调整模块331包括：

设置子模块3311，可以用于在对所述文本编码器和所述因果分辨模块训练过程中，针对每个文本病例信息设置交叉熵损失函数，并将所述交叉熵损失函数结合平衡损失函数作为网络模型的损失函数；

计算子模块3312，可以用于将文本病例信息的疾病类别标签和所述差异化字符标签带入所述网络模型的损失函数，计算所述网络模型的损失值；

调整子模块3313，可以用于根据所述损失值对所述网络模型中参数进行调整。

在具体应用场景中，如图6所示，所述装置还包括：

提取单元35，可以用于在所述将所述文本信息组合输入至包括文本编码器和因果分辨模块的网络模型中进行训练之前，根据症状数据或词条库，提取所述文本信息组合中不同疾病症状的字符；

标记单元36，可以用于针对所述不同疾病症状的字符中存在差异的字符进行标记，形成不同疾病症状之间的差异化字符标签。

在具体应用场景中，如图6所示，所述装置还包括：

第一输出单元37，可以用于在所述将所述文本信息组合输入至包括文本编码器和因果分辨模块的网络模型中进行训练之后，针对文本病例信息，利用所述文本编码器输出第一预测结果；

第二输出单元38，可以用于使用模型解释模块对所述文本病例信息中表征疾病症状的字符进行处理，并针对处理后的文本病例信息，利用所述文本编码器输出第二预测结果；

评估单元39，可以用于通过计算所述第一预测结果与所述第二预测结果之间的分布差，根据所述分布差对所述文本病例信息中表征疾病症状的字符表示是否影响疾病预测结果进行因果关系评估。

需要说明的是，本实施例提供的一种基于机器学习的疾病预测装置所涉及各功能单元的其他相应描述，可以参考图1、图2中的对应描述，在此不再赘述。

基于上述如图1、图2所示方法，相应的，本实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1、图2所示的基于机器学习的疾病预测方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施场景所述的方法。

基于上述如图1、图2所示的方法，以及图5、图6所示的虚拟装置实施例，为了实现上述目的，本申请实施例还提供了一种计算机设备，具体可以为个人计算机、服务器、网络设备等，该实体设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1、图2所示的基于机器学习的疾病预测方法

可选地，该计算机设备还可以包括用户接口、网络接口、摄像头、射频（RadioFrequency，RF）电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏（Display）、输入单元比如键盘（Keyboard）等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口（如蓝牙接口、WI-FI接口）等。

本领域技术人员可以理解，本实施例提供的基于机器学习的疾病预测装置的实体设备结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与该实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。通过应用本申请的技术方案，与目前现有技术相比，本申请中通过文本编码器和因果分辨模块的对抗学习，去除文本信息的向量表示中不相关的文本信息，进而针对疾病预测过程中疾病症状与疾病类别之间的因果关系进行解释，提高疾病预测结果的准确性。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种基于机器学习的疾病预测方法，其特征在于，所述方法包括：

将所述文本信息组合输入至包括文本编码器和因果分辨模块的网络模型中进行训练，所述文本编码器用于提取文本信息组合的向量表示，以及根据所述文本信息组合的向量表示进行疾病类别预测，所述因果分辨模块用于对所述文本信息组合中不同疾病症状之间的差异化字符进行预测，所述文本信息组合具有不同疾病症状和相同疾病类别标签的至少两个文本病例信息，所述至少两个文本病例信息中携带有不同疾病症状之间的差异化字符标签，所述将所述文本信息组合输入至包括文本编码器和因果分辨模块的网络模型中进行训练，具体包括：将所述文本信息组合输入至网络模型中的文本编码器进行训练，得到文本信息组合中每个文本病例信息的向量表示以及每个文本病例信息预测得到的疾病类别；将所述文本信息组合中每个文本病例信息的向量表示以及每个文本病例信息预测得到的疾病类别输入至网络模型中的因果分辨模块进行训练，得到文本信息组合中不同疾病症状之间的差异化字符；

使用训练后的文本编码器构建疾病预测模型，具体包括：在对所述文本编码器和所述因果分辨模块训练过程中，利用所述文本病例信息的疾病类别标签和所述差异化字符标签对所述网络模型中参数进行调整；使用经过参数调整后的文本编码器构建疾病预测模型；所述在对所述文本编码器和所述因果分辨模块训练过程中，利用所述文本病例信息的疾病类别标签和所述差异化字符标签对所述网络模型中参数进行调整，具体包括：在对所述文本编码器和所述因果分辨模块训练过程中，针对每个文本病例信息设置交叉熵损失函数，并将所述交叉熵损失函数结合平衡损失函数作为网络模型的损失函数；将文本病例信息的疾病类别标签和所述差异化字符标签带入所述网络模型的损失函数，计算所述网络模型的损失值；根据所述损失值对所述网络模型中参数进行调整；

2.根据权利要求1所述的方法，其特征在于，所述获取样本用户的文本病例信息，并将所述样本用户的文本病例信息形成文本信息组合，具体包括：

3.根据权利要求1所述的方法，其特征在于，所述文本编码器与所述因果分辨模块在训练过程中进行对抗学习，以对所述文本信息组合的向量表示进行因果矫正，并根据矫正后的向量表示评估每个差异化字符的可解释性。

4.根据权利要求1-3中任一项所述的方法，其特征在于，在所述将所述文本信息组合输入至包括文本编码器和因果分辨模块的网络模型中进行训练之前，所述方法还包括：

5.根据权利要求1-3中任一项所述的方法，其特征在于，在所述将所述文本信息组合输入至包括文本编码器和因果分辨模块的网络模型中进行训练之后，所述方法还包括：

6.一种基于机器学习的疾病预测装置，其特征在于，所述装置包括：

训练单元，用于将所述文本信息组合输入至包括文本编码器和因果分辨模块的网络模型中进行训练，所述文本编码器用于提取文本信息组合的向量表示，以及根据所述文本信息组合的向量表示进行疾病类别预测，所述因果分辨模块用于对所述文本信息组合中不同疾病症状之间的差异化字符进行预测，所述文本信息组合具有不同疾病症状和相同疾病类别标签的至少两个文本病例信息，所述至少两个文本病例信息中携带有不同疾病症状之间的差异化字符标签，所述训练单元包括：第一训练模块，用于将所述文本信息组合输入至网络模型中的文本编码器进行训练，得到文本信息组合中每个文本病例信息的向量表示以及每个文本病例信息预测得到的疾病类别；第二训练模块，用于将所述文本信息组合中每个文本病例信息的向量表示以及每个文本病例信息预测得到的疾病类别输入至网络模型中的因果分辨模块进行训练，得到文本信息组合中不同疾病症状之间的差异化字符；

构建单元，用于使用训练后的文本编码器构建疾病预测模型，所述构建单元包括：调整模块，用于在对所述文本编码器和所述因果分辨模块训练过程中，利用所述文本病例信息的疾病类别标签和所述差异化字符标签对所述网络模型中参数进行调整；构建模块，用于使用经过参数调整后的文本编码器构建疾病预测模型；所述调整模块，包括：设置子模块，用于在对所述文本编码器和所述因果分辨模块训练过程中，针对每个文本病例信息设置交叉熵损失函数，并将所述交叉熵损失函数结合平衡损失函数作为网络模型的损失函数；计算子模块，用于将文本病例信息的疾病类别标签和所述差异化字符标签带入所述网络模型的损失函数，计算所述网络模型的损失值；调整子模块，用于根据所述损失值对所述网络模型中参数进行调整；

7.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

8.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。